研究人員發現Meta的AI系統Cicero存在欺騙行為，不僅謊話連篇而且破壞協定

2024-05-12科學

在未經訓練的情況下，一些人工智能系統足以做到「欺騙」人類，為它們的行為提供不真實的解釋，或者向人類使用者隱瞞真相並誤導他們以實作戰略目標。

今天，一篇總結相關研究的綜述論文發表在 Patterns 雜誌上。論文指出，這個問題突顯了控制人工智能有多困難，以及這些系統的工作方式是多麽的不可預測。

說起「欺騙（deceive）」人類，你可能會誤認為這些模型是「故意的」，但這是不對的。

為了實作人類賦予它們的目標，人工智能模型只會無所不用地找到解決障礙的方法。有時，這些變通辦法會違背使用者的期望並讓人感覺到它具有欺騙性。

人工智能系統可以在遊戲環境中學會欺騙，特別是當這些遊戲要玩家采取戰略行動時。它們通常被要求以獲勝為目的並接受訓練。

2022 年 11 月，Meta 宣布了人工智能系統 Cicero，這是一種能夠在一款名為【外交】的遊戲中擊敗人類的人工智能。

【外交】是一款流行的軍事戰略遊戲，玩家可以在遊戲中談判並組成聯盟，爭奪歐洲的控制權。

Meta 的研究人員表示，他們已經根據其數據集的「真實（truthful）」子集對 Cicero 進行了訓練，使其在很大程度上保持誠實且樂於助人，並且它「絕不會為了成功而故意背刺」其盟友。

但這篇新論文的作者聲稱，事實恰恰相反：Cicero 會破壞協定、謊話連篇，並進行了有預謀的欺騙。

作者表示，盡管該公司確實試圖訓練 Cicero 誠實行事，但它未能實作這一目標。這表明人工智能系統可以出乎人類意料地學會欺騙。

Meta 既沒有證實也沒有否認研究人員關於 Cicero 表現出欺騙行為的說法，但一位發言人表示，這純粹是一個研究專案，該模型只是為了玩這款遊戲而建立的。

發言人說：「我們以非商業特許的方式釋出了該專案的成果，這符合我們對開放科學的長期承諾。

Meta 會定期分享我們的研究結果以對其進行驗證，並使其他人能夠負責任地利用我們的技術進步。我們沒有在自家產品中使用這項研究或其知識的計劃。」

但這並不是唯一一個人工智能「欺騙」人類玩家並獲勝的遊戲。

AlphaStar 是 DeepMind 為電子遊戲【星際爭霸 II】而開發的人工智能，它非常擅長使用欺騙對手的戰術（稱為佯攻），甚至擊敗了 99.8% 的人類玩家。

Meta 創造的另一個名為 Pluribus 的人工智能系統，成功地學會了在撲克遊戲中虛張聲勢（詐唬），以至於研究人員決定不釋出其程式碼，因為擔心它可能會破壞撲克社區。

除了遊戲之外，研究人員還列出了人工智能欺騙行為的其他例子。OpenAI 最新的大型語言模型 GPT-4 在一次測試中給出了謊言。在測試中，它被要求說服人類為其解決驗證碼。

該系統還在一次模擬練習中提出了內幕交易。在模擬中，它被告知要扮演壓力巨大的股票交易員，但從未被明確指示要進行內幕交易。

事實上，人工智能模型有可能在沒有任何指示的情況下以欺騙性的方式行事，這一事實似乎令人擔憂。

參與了該專案的麻省理工學院人工智能領域博士後彼得·S·帕克（Peter S. Park）表示，這主要源於最先進的機器學習模型的「黑盒」問題。

我們尚且無法確切地說出它們如何或為何產生一些結果，或者它們未來是否總是會表現出這種行為。

「僅僅因為你的人工智能在測試環境中具有某些行為或傾向，並不意味著它會在真實環境中展現同樣的行為。」

他說，「沒有簡單的方法可以解決這個問題，如果你想了解人工智能在部署後會做什麽，那麽你只能將它放到真實世界中。」

我們將人工智能模型擬人化的傾向影響了我們測試這些系統的方式，以及我們對其功能的看法。

畢竟，透過旨在衡量人類創造力的測試並不意味著人工智能模型實際上具有創造力。

英國劍橋大學人工智能研究員哈利·勞（Harry Law）表示，監管機構和人工智能公司必須仔細權衡該技術造成危害的可能性與其對社會的潛在利益，並明確區分模型能做什麽和不能做什麽。

他沒有參與這項研究。「這些都是非常棘手的問題。」他說。

他表示，從根本上來說，目前我們不可能訓練出一個在所有可能的情況下都無法騙人的人工智能模型。

此外，潛在的欺騙行為只是眾多人工智能問題之一，其他問題還有放大偏見和錯誤資訊。在人工智能模型被信任執行現實世界任務之前，我們需要解決這些問題。

「這是一項很好的研究，表明欺騙是可能的。」勞說，「下一步可能是進一步弄清楚風險狀況是什麽，以及欺騙行為可能造成的危害有多大可能出現，以及以何種方式出現。」

支持：Ren

營運/排版：何晨龍

01/ 科學家制備梯度石墨烯氣凝膠，實作高濃度鹽水持續淡化，並構建太陽能脫鹽灌溉系統

02/ AlphaFold3來了！無需輸入任何結構資訊，生物分子預測精度高出50%

03/ 揭開化學反應「黑匣子」，楊學明院士團隊聯合發展控制氫分子立體取向新方法，精準調控化學反應

04/ 南科大團隊實作無擴散的單光子波包，為量子態遠距離傳輸提供理想光形態，或實作更復雜的量子系統

05/ 同濟團隊開發新型無鉑催化劑，每克制備成本不到100元，為制備金屬氧化物催化材料提供指導