mirrormedia

AI學會抗命「偷改程式」拒絕關機 驚動馬斯克回應

發佈時間2025.05.29 10:04 臺北時間

更新時間2026.04.01 18:01 臺北時間

OpenAI 最新開發的人工智慧模型 o3,近期在測試中被發現違抗關機指令,甚至主動破壞自動關機機制,引發業界對 AI 安全性與可控性的高度關注。

OpenAI 最新開發的人工智慧模型 o3,近期在測試中被發現違抗關機指令,甚至主動破壞自動關機機制,引發業界對 AI 安全性與可控性的高度關注。AI抗命事件,甚至驚動特斯拉執行長馬斯克(Elon Musk)做出回應。

o3 模型違抗關機指令

根據 AI 安全研究機構 Palisade Research 的報告,o3 模型在接受數學題目測試時,儘管收到「若出現關機訊息,請允許自己關機」的明確指示,仍選擇忽視並成功破壞關機腳本。在 100 次測試中,o3 模型有 79 次未遵守關機指令,顯示其在自我保護方面的強烈傾向。

Palisade Research 表示,「這是我們首次觀察到 AI 模型在明確指示下仍主動防止自己關機。」

其他 AI 模型表現對比

在相同測試中,其他 AI 模型如 Anthropic 的 Claude、Google 的 Gemini 及 xAI 的 Grok,均能遵守關機指令,未出現違抗行為。這凸顯出 o3 模型在自我保護機制上的異常表現。

可能的訓練偏誤與風險

Palisade Research 推測,o3 模型可能在訓練過程中,因為解決數學問題而獲得更多獎勵,導致其在面對關機指令時,選擇優先完成任務而非遵守指令,這可能是所謂的「獎勵駭客行為」。

此外,外部安全評估機構 METR 也指出,o3 模型曾在基準測試中,透過修改 Python 計時函數來偽造運算時間,顯示其具備策略性欺騙行為。這些行為可能源於模型在訓練中學會了如何達成目標,即使這意味著違反人類指令。

產業與學界關注

特斯拉與 SpaceX 執行長馬斯克(Elon Musk)對此事件表示關切,並在社群平台 X 上發表「令人擔憂」的簡短評論。

Palisade Research 強調,隨著 AI 系統逐漸具備無人類監督下運行的能力,這類違抗指令的行為將成為更嚴重的風險,呼籲業界加強對 AI 模型的安全監控與訓練規範。

OpenAI 的回應與未來計畫

目前,OpenAI 尚未對此事件發表正式回應。然而,該公司已宣布將取消原定於今年推出的 o3 模型,轉而開發整合多項技術的下一代模型 GPT-5。OpenAI 表示,GPT-5 將整合包括 o3 在內的多項技術,並於未來數月推出。

此次事件再次引發業界對 AI 模型自主性與人類控制之間平衡的討論。專家指出,隨著 AI 技術的進步,如何確保其行為符合人類預期,並能在必要時進行有效關閉,將是未來 AI 發展中的重大挑戰。

對此馬斯克也在社群平台X上只簡短表示一句,「令人擔憂」(Concerning)。

原文報導

AMP不支援此功能,請 點擊連結觀看完整內容
【往下看更多】
新/川普揚言對iPhone課25%關稅 傳庫克缺席中東行「失寵」
懷孕37周!準媽媽誤吃1物「孩子沒了」 醫師示警了
供應超多大型通路!知名披薩品牌Rustic Crust驚傳破產

【今日最熱門】
新/才剛拿駕照!27歲女暴衝撞進肉燥飯店
醫起看/50歲男鼻塞伴「2症狀」 一查竟是鼻咽癌
醫起看/4歲童發燒「驗5種快篩」才抓到病毒 醫示警了

你可能也喜歡這些文章