當前位置: 華文問答 > 數位

為什麽我總感覺強化學習不是真的人工智慧?

2022-07-13數位
2019年,強化學習之父、艾爾伯塔大學教授Richard Sutton發表了後來被AI領域奉為經典的The Bitter lesson,這也是OpenAI研究員的必讀文章。
在這篇文章中,Richard指出,過去 70 年來,AI 研究的一大教訓是過於重視人類既有經驗和知識,而他認為最大的解決之道是摒棄人類在特定領域的知識,利用大規模算力才是王道。
這一思想很快得到了OpenAI首席科學家Ilya Sutskever的共鳴,某種程度上,它也啟發了大模型領域所信奉的Scaling Law。
有趣的是,Richard認為,透過語言大模型方向來實作智慧沒有前途,他更贊同Yann LeCun關於世界模型的構想,這在目標與核心概念上與其主導的艾爾伯塔計劃(Alberta Plan)相一致,盡管不過在具體實作方法上有所區別。
在他看來,實作AGI需要明確的目標和一個世界模型,並利用這個模型來制定行動計劃以實作目標。
Richard Sutton研究人工智慧已長達45年。他非常想弄清大腦的運作方式,為此做了大量跨學科研究,閱讀了不同思想家對這一問題的看法,並試圖從心理學入手,以找出大腦和電腦科學的運作方式。
在Craig Smith近期主持的一期播客中,Richard詳細介紹了艾爾伯塔計劃,目標是打造一個能夠從與環境的互動中學習並做規劃的具身智慧體,這是一個宏大的五年計劃。此外,他還深入分析了新演算法的發展現狀、模擬環境和真實環境之間的權衡以及通用人工智慧(AGI)的終極目標。
Richard還談到了與傳奇工程師John Carmack的合作。2023年10月,Richard加入了後者創辦的AI創業公司Keen Technologies並擔任研究員,這家公司旨在2030年實作AGI。

撰文 | Eye on AI

編譯| OneFlow

轉譯| 楊婷、宛子琳

01

苦澀的教訓:算力常勝

Craig Smith: 2019年,你發表的文章The Bitter lesson提到了增加計算資源的重要性,這一觀點在你近期的論文中得到了進一步發展,並且與OpenAI擴充套件Transformer模型的做法一致。 在之前與Ilya Sutskever的訪談中 ,我曾詢問你的文章是否觸發了OpenAI擴充套件Transformer模型的興趣,但Ilya說,這只是一個巧合。相比新穎的演算法,計算資源的擴充套件以及莫耳定律下計算資源的可用性更多地推動了人工智慧研究的進展,對此你怎麽看?

Richard Sutton: 首先,計算資源的擴充套件不僅推動了人工智慧的發展,還推動了其他科學、工程領域的發展。計算資源的擴充套件深刻地影響著我們這個時代,幾乎所有科學領域都受到了大規模計算資源和更普遍的常規計算資源的深刻影響,世上不存在脫離計算資源而獨立發展的科學領域。眾所周知,AI需要計算資源以創造有用的事物並理解思維。

莫耳定律是指,隨時間推移計算能力將呈指數級增長,而成本則相應下降。每隔兩年或18個月算力就會翻倍,這種狀態會在近百年內一直持續。隨著計算能力的指數級增長,每十年左右就會出現質的飛躍,從而給技術和套用帶來根本性變化。

對於那些致力於連線系統(connectionist system)或分布式網路(即神經網路)的人來說,學習是重要的,因為智慧需要大量算力。然而,當時這些系統受到了可用計算能力的限制。

其次,長期從事人工智慧研究的人對這種指數增長並不意外,這是可預期的。這種指數增長具有自相似性(self-similar),也就是說,這種增長在每個時間點上看起來都是一樣的,每隔一年半算力就會翻倍,這種增長是爆炸性的。

因此,我們所說的奇異點(singularity)實際上是指計算能力的緩慢爆炸性增長,這種增長正深刻地改變著世界。

Craig Smith: 你的工作主要集中在強化學習領域,撰寫了有關強化學習、時序差分學習和Lambda等方面的著作,這似乎是一個更為雄心勃勃的計劃,Transformer擴充套件的成功是否影響了你的決定?

Richard Sutton: 艾爾伯塔計劃或許比上述書籍的目標更為宏大。在人工智慧領域,我們一直致力於理解並在電腦中復制整個思維過程,這是一個極具雄心的目標。

至於語言大模型,它們在某種程度上有些讓人失望。盡管人們對語言大模型感興趣,並願意深入學習,但我並不認為這是最值得追求的方向。我更感興趣的是行動、目標以及智慧體如何判斷真實性等方面,這些正是語言大模型所欠缺的。語言大模型能夠處理復雜的任務和大量數據,向人們展示了計算、網路和學習的潛力,它只是給那些需要看到這些潛力的人展示了這些能力。

02

AI的下一步:經驗學習與具身化

Craig Smith: 無論最終建立了何種智慧體,是否仍然需要一種語言介面來進行交流?

Richard Sutton: 是的,但我不確定當前的語言大模型是否有助於實作這一目標。

Craig Smith: 也就是說,你想要構建的模型或智慧體會將語言學習作為學習過程的一部份。

Richard Sutton: 是的,但語言是我們考慮的最後一個因素,而非首要因素。正如Yann LeCun所說,在嘗試實作人類水平的智慧之前,我們需要先達到老鼠和貓的智慧水平,即在追求更高級別的智慧之前,我們需要先了解和掌握更基本、更簡單的智慧形式。

Craig Smith: 你已經掌握了強化學習,能夠構建智慧體,有各種不同的架構可以從各種感官輸入中建立表示,然後高效地進行規劃。那麽,你的研究進展到了哪個階段?

Richard Sutton: 可以肯定地說,各個步驟並不是完全按順序進行的。我們一直在尋找可以取得進展的機會,這個機會可能出現在第10步,也可能出現在第3步。總的來說,我們現在大致處於第4步。我們仍在修改基礎的強化學習演算法,這一步還沒有完成,因為我們需要更高效的演算法。我對最近我們正在開發的一些新想法感到很興奮,這些想法可能會讓我們更快地實作目標。

Craig Smith: 可以談談這些新想法嗎?

Richard Sutton: 其中重要的一點是使用有效的off-policy learning(離策略學習)和重要性采樣(importance sampling)。重要性采樣指的是,觀察在目標策略和行為策略下采取行動的機率,並根據這兩者的比例調整報酬。長期以來,我都認為這是調整報酬的唯一方式,但現在我認為,透過改變期望可以進行報酬的前向校正,所以如果你期望發生一件好事,期望采取一種好的行動,但實際上采取了另一種更具探索性的行動,這就與你的目標策略有所偏離,更為貪心。

考慮到與目標策略的偏離,一種方法就是承認現在所做的並非最佳,所以要調整水平,稍微降低期望,有一種系統性的方法可以實作這一點。這為我們提供了處理報酬偏離的全新方式,因此也帶來了一整套全新的演算法。這真是令人興奮。

我認為,現在最引人註目、最新穎的方向,就是持續學習:進行元學習、表示學習、學會如何學習、學會如何泛化、以及構建狀態表示特征。這一整套過程將是一種全新的深度網路學習方式,我稱之為動態學習網路(dynamic learning net)。動態學習網路透過三個層面進行學習,而通常情況下,神經網路只在一個層面上進行學習(只學習權重層面),而我們還希望它能夠在步長(step size)層面上進行學習。因此,網路中的每個權重位置都會有一個步長。

步長有時被稱為學習率(learning rate),但稱之為步長更好,因為學習率會受到許多其他因素的影響。如果我們想象整個網路,所有這些權重旁邊都有一個步長,這個步長透過一種自適應過程調整,這種調整是以一種元學習的方式進行的,以元梯度的方式朝著使系統更好地學習而調整,而不僅僅是在某一瞬間表現更好。學習率或步長並不會影響函式,它們不會影響某個特定時間點實作的某個函式,它們影響的是網路的學習。因此,如果你能調整步長,你也將學會學習、學會泛化等等。

除了以上提到的自適應權重和步長,最後一個要適應的是連線模式(connection pattern),即誰與誰相連。這將透過一種增量過程來實作。例如,從一個線性單元開始學習一個值、函式或策略。它會盡力利用現有的特征,然後引發新特征的生成,因為你需要學習原始訊號的非線性函式,所以需要創造出對該線性單元可用的新特征,以一種有機的方式逐漸發展出一個能夠學習非線性函式的系統。因此,這只是以一種不同的方式得到一個深度網路,其中包括所有特征和動態學習網路。

Craig Smith: 那麽,輸入數據來自哪裏?

Richard Sutton: 輸入數據和強化學習源於生活,來自我們如何做事以及看待事物的方式,並不存在標記好的數據集。我稱之為經驗性人工智慧(experiential AI)的整個概念中沒有人會提供數據。你就像嬰兒一樣成長,邊玩邊看,再進行實踐,這就是數據來源。而強化學習的訣竅在於,如何將這種型別的數據轉化為你可以學習和培養心智的事物?

監督學習的美妙之處和局限性就在於,我們通常假設已經有一個標註好的數據集,能夠解決這個子問題。這是個好主意,我們先解決一個子問題,搞清楚之後再轉向下一個問題。但實際上我們必須轉向下一個問題,我們必須考慮數據集是如何從訓練資訊中自動建立的。數據集這一術語實際上充滿誤導性:暗示著擁有數據集、儲存數據集以及選擇數據集都很容易。但實際上,生活中發生的所有事,以及你做的所有事,都是瞬息即逝的,你無法記錄,且記錄這一切不僅極其復雜,也極具價值。

這在強化學習和監督學習中則完全不同,尤其是我所考慮的方式。許多人透過建立一個緩沖區或記錄所有已保留的經驗來進行強化學習,這些經驗至少在某個時間段內發生過,我認為這種方法很有吸重力,但並不是答案。真正的答案在於,接受數據稍縱即逝的本質,利用它發生當下的最大價值,然後就隨它去。

Craig Smith: 這就是為什麽你想要建立一個具備全部五官甚至更多感官的實體系統,用於輸入數據。那麽,你在實驗階段使用的是影像還是視訊?

Richard Sutton: 沒錯,你需要一個具身化的系統,一個可以影響其輸入流和感知流的互動式系統,這樣互動就可以持續很長一段時間。你可以在模擬中實作這一點,也可以透過機器人技術做到這一點。我還不知道哪種方法是最好的,也授權以兩者兼用,或者先用一種方法,再用另一種方法。John對從視訊中學習很感興趣,他的觀點是可以透過大量的視訊流實作,例如你正在觀看500個電視訊道,就可以在各個頻道之間不斷切換。

在Keen Technologies團隊中,我的同事Joseph持有不同的看法。他對機器人技術很感興趣,他認為獲取適當的數據流的最佳方式實際上是構建機器人硬體。因為世界十分廣闊而復雜,我們要解決眾多的復雜問題,所以需要視訊和大型數據流等等。而現在,可以透過模擬來生成視訊流、模擬視訊,但不可避免地,這些模擬出的世界實際上相當簡單。其中的物體可能是三維結構,看起來是一種非常特殊的幾何形式,由它們構成生成的虛擬世界。

這個虛擬世界相對智慧體來說是相對簡單的。他們的目標應該是將大部份計算能力用於處理思維,僅留一小部份用於建立模擬數據,而這恰恰相反。事實是,每個人可能都有一個復雜的大腦,但他們所處的世界則要復雜得多,不僅因為世界包含了所有物理法則和物質,而且還包括其他的思想、其他的大腦以及其他思想,而這些思想中所發生的事都很重要。

因此,本質上來說,現實世界比智慧體要復雜得多,而當我們致力於模擬世界時,則本末倒置了,這令人擔憂。無論如何,以上是使用模擬或物理世界之間需要權衡的一些問題。

Craig Smith: 盡管如此,你需要先開發出架構和演算法,然後再擔心數據流。

Richard Sutton: 是的,但你需要開發正確的演算法,如果你正在處理的世界並不代表你的目標世界,那可能會產生誤導。我的工作總在關註一些問題,所以會制定一個非常簡單的問題例項,比如一個五種狀態的世界,然後對其進行深入研究。但我並不試圖利用其簡單性,我研究的演算法在某種意義上甚至比經簡化的世界還要簡單,我會重點研究這些演算法並觀察其能力。

因此,簡化世界並充分理解始終是我研究的一部份,就像物理學家可能會假設一個簡化的世界,讓一個球沿著斜坡捲動,消除了摩擦力和其他種種影響。

03

為更智慧的未來而設計演算法

Craig Smith: 你是否關註Alex Kendall在自動駕駛公司Wayve的工作?他們有一個GAIA-1世界模型,從即時視訊中對表示進行編碼,並根據這些表示進行規劃,從而透過表示空間控制汽車。這與Yann LeCun正在做的事很相似。

Richard Sutton: GAIA-1相當了不起。我想列舉一些看似自然但實際是錯誤的觀點。在我看來,錯誤之一就是嘗試制作世界的物理模型,或者試圖制作能夠模擬世界並生成視訊幀的模型。你所需要的不是未來的視訊畫面,這並非你思考問題的方式。相反,你只是想:「哦,我可以去市場,也許會有草莓。」 你並不是在創造視覺視訊,而是在思考著去市場,而草莓的大小和位置可能會不同,即使沒有視訊,這是一個關於如果你去市場會發生什麽的想法。人們已經意識到了這一點,比如Yann Lecun曾經談到生成未來的視訊,然後他意識到這種視訊會很模糊,現在他意識到你需要產生模型的結果,這些結果與視訊流或觀察完全不同。

它們就像是行動的結果所構建的狀態。因此,這與世界的偏微分方程式模型完全不同,也與自動駕駛汽車公司的出發點截然不同。自動駕駛汽車公司從物理學和幾何學出發,並由人類的理解、工程師對世界和駕駛的理解進行校準,但我懷疑這將會改變。我並沒有研究自動駕駛,但特斯拉這樣的公司從工程模型開始,我現在認為,他們正在構建更多基於人工神經網路的概念模型。因此,他們不是從幾何學和已知事物出發,而是透過獲取大量數據並對其進行訓練來構建模型。

我們需要一個在高層次結果上的模型,而不是在低層次像素和視訊上的模型。因此,一種方法是透過具有更高級別的狀態特征來實作。比如判斷這是一輛汽車,而不是一幀視訊。因此,你基本上需要在狀態和時間上都進行抽象。狀態上的抽象就像我剛才提到的,到市場時會有草莓;而時間上的抽象是指,我可以去市場,可能是20分鐘後,其他則保持不變或以自然方式相關聯。因此,我們希望模型能夠考慮到我可以去市場的問題,還希望模型能夠考慮後果,比如可以拿起可樂罐,可以動一下手指,這將產生某些後果。

我們知道的所有事在不同的尺度上都存在著巨大差異。去市場需要20分鐘,接受新工作可能需要一年,決定研究一個課題也可能需要一段時間。此外,我們可能會花時間思考並分析後果。比如,你今天想見我,我們安排一次會面。而在某些情況下,這是你經過幾周甚至幾個月的計劃,我們透過規劃和交換高層次的資訊來籌備這次會面。把所有這些都想象成我們可能用眼睛看到的視訊,或可能聽到的音訊訊號,是愚蠢且片面的。

我們需要在時間和狀態上進行抽象的模型。作為一名強化學習研究人員,我自然而然地轉向了一系列特定的技術來實作這一點。這一預測是基於時間差分學習的多步預測,而規劃是透過動態規劃完成,本質上是價值叠代,但其中的步驟並非低層次的動作,而是被稱為選項,它們是高層次的行為方式,可以終止。因此,部份選項,比如去市場,當你到達市場時會終止。在某個概念層面上,我們清楚地知道我們想去的方位。對我來說,使用抽象模型在時間和狀態上構建選項和特征十分清晰。

最近,我們在 Artificial Intelligence Journal 上發表了一篇論文,探討了使用子問題進行規劃的概念,其中包含了STOMP的進展,STOMP代表子任務、選項、模型和規劃。將所有這些內容結合起來,就能從數據流到抽象規劃完成整個行程,這就是我們正在努力實作的目標。

Craig Smith: 回到GAIA-1模型。它的輸入是視訊,建立了一個表征,並在表征中規劃和采取行動。你可以將其解碼成視訊以檢視它的操作,但並不是在視訊空間中進行規劃。你對此有什麽期待?按照你的roadmap,你是否會開發需要擴充套件的強化學習演算法,然後透過計算對其進行擴充套件?

Richard Sutton: 我們想要了解思維是如何運作的,然後我們將創造一個思維,或者一定程度的思維,這將在各種層面產生價值,包括經濟層面。它也有助於我們擴充套件自己的思維能力。如果我們能理解自己的思維是如何工作的,就可以加以擴充套件,使其表現得更好。

因此,關鍵的一步在於理解思維,然後就會有成千上萬種用途。我認為,這不會簡單地使worker成為我們所指揮的奴隸,這也許是潛在效用的下限。

正如我們在Keen所做的工作,如果能制造一個虛擬的worker,用處會很大。我們日常所做的許多工作並不需要實際出現機器人,因為許多工作只是在處理資訊,透過視訊接頭就可以完成大部份工作。

那麽,為什麽不能制造出扮演人類角色的能力超群的worker?我認為將會有更多有趣的事可以做。至於應該怎麽做,就是豐富的哲學問題和經濟上的實際問題範疇。因此,最重要的是理解思維的運作方式。

04

艾爾伯塔計劃與AGI之路

Craig Smith: 我曾與Transformer的作者之一Aidan Gomez進行過一次有趣的對話,他現在創辦了自己的公司Cohere。他認為,雖然Transformer演算法在可延伸性方面表現出色,但並不是唯一選擇,社群支持任何一種演算法都可能會成功。Aiden Gomez認為,Transformer演算法的本質是一種帶有註意力機制的多層感知器結構,透過大量的數據訓練,能夠學習理解語言,但這種基於語言的方法存在明顯的局限性。

過去幾年,我經常和Yann LeCun談論世界模型,在我看來,這種基於世界模型的方法比基於語言的方法更為激動人心,因為智慧不僅體現在語言中,甚至可以說其中大部份都沒有體現在人類的文字中。隨後,我了解到艾爾伯塔計劃(Alberta Plan),你們的目標是構建一個具有世界模型的智慧體,或者透過與環境的互動來建立世界模型,該計劃與Yann LeCun的方法有何本質區別?

Richard Sutton: 這兩種方法非常相似,比較Yann LeCun的方法和艾爾伯塔計劃可以發現,它們在架構方面基本可以一一對應。雖然這兩種方法的具體實作略有不同,但目標和核心概念是相似的。專註於兩種方法的差異可能會分散註意力,忽略更重要的資訊,即實作智慧需要明確的目標和一個世界模型,並利用這個模型來制定行動計劃以實作目標。

在我看來,智慧的本質是理解世界,並利用這種理解來實作目標。我傾向於將目標形式化為獎勵,其他人可能對這種方法持懷疑態度,甚至認為這種方法有些低階,但我認為這是一種自然的方法。對於不熟悉深度學習和監督學習的人來說,將目標表達為獎勵更容易理解和接受。

Craig Smith: 艾爾伯塔計劃為什麽以監督學習為出發點?這樣做更容易嗎?

Richard Sutton: 從某種意義上是這樣的,因為我們想專註於持續學習。顧名思義,持續學習就是要不斷地學習,學習過程在任何時候都不間斷。然而,即使對於監督學習來說,使用非線性網路進行持續學習的初始步驟仍然具有挑戰性,但相比之下,監督學習涉及到的其他因素最少,因此,這是一個自然而然的選擇。

在過去幾十年裏,監督學習和強化學習之間一直存在競爭。由於學習方法的資源有限,監督學習的關註度較高,而這對強化學習構成了一定挑戰。監督學習之所以勝出,是因為它更容易實踐,更易於使用。盡管監督學習相對來說野心更小,但它卻非常重要。那些從事強化學習或嘗試構建整體智慧體架構的人,都需要依賴監督學習的輸出結果作為整體架構的組成部份。因此,我們需要監督學習,並且可以對其進行研究和調整,以滿足目的。

Craig Smith: 在一段時間裏,強化學習和監督學習似乎占據主導地位。而現在,基於Transformer的生成式人工智慧處於主導地位,但在監督學習占據主導的階段存在爭論,認為更高層次的知識都源自監督學習,而現在也仍是監督學習。

Richard Sutton: 在生成式人工智慧語言大模型中,更高層次的知識仍然源於監督學習。透過下一個詞元、下一個單詞進行訓練,是正確的。

Craig Smith: 你經常提到的類比是,一個孩子看到大象,母親說那是一只大象,孩子很快就能進行泛化並認出其他的大象;也許孩子會犯錯,母親會糾正並說那是一頭牛,這經常被作為監督學習的例子,但也許這是強化學習,也許是母親因為孩子記住了標簽而誇獎他的獎勵。

Richard Sutton: 關鍵是孩子在此之前已經形成了良好的概念以及類別概念。當母親說那是一只大象時,孩子已經在很大程度上理解了。你知道空間是什麽,物體是什麽,以及正在被標註的事物。標簽是其中最不重要的部份,孩子已經學會了所有最有趣的部份,也就是擁有動物、運動物體和物體在其世界中所代表的含義。

Craig Smith: 人們已經開始使用強化學習來構建智慧體並利用語言大模型和知識庫來執行知識型任務。你所說的不僅僅是語言型任務或知識型任務,而是物理規劃和物理任務。

Richard Sutton: 關鍵在於設定目標。例如,你有一個助手幫你規劃一天,安排一天的工作或為你完成任務,助手最重要的部份可能就是理解所涉及的目標。

語言大模型並沒有真正理解它們的目的,只是表面上似乎做到了這一點,但特殊情況總是會出現。如果一個人工智慧系統在一段時間後做出不符合的目標,那將不會成為一位有用的助手。因此,語言大模型雖然非常有用,但它們同時也存在相當嚴重的局限性,這並不是批評。

Craig Smith: 能否分享一下艾爾伯塔計劃的進展?

Richard Sutton: 艾爾伯塔計劃旨在將智慧視為一種學習現象,即理解環境並透過對環境的驅動來實作目標。在該計劃的第一步,重點是建立智慧體與環境之間的結構和互動形式。這種互動不是簡單地交換狀態,而是透過觀察來進行,這些觀察可以來自各種感官,如視覺、觸覺和聽覺。這些觀察是真實的,而不是簡單的狀態,因為我們無法直接獲取狀態。

艾爾伯塔計劃的首要原則是智慧體與環境的互動。第二原則是持續學習。艾爾伯塔計劃具有時間上的一致性和對稱性,也就是說沒有特定的訓練和測試階段,在這個持續不斷的過程中,你可能會獲得想要的獎勵(也可能不會),同時還會得到觀察。這個過程並沒有專門的指導老師,智慧體只能透過在經驗中獲得的獎勵和懲罰來調整自己的行為。

艾爾伯塔計劃的另一個重點是:智慧體將建立模型,並根據這個模型進行規劃。這包括兩種學習方式:一種是透過試錯學習直接從經驗中獲得知識,另一種是學習建立模型,然後利用該模型進行規劃和決策。這兩種學習方式都是智慧的重要組成部份。

上述是背景介紹,艾爾伯塔計劃有12個步驟。這12個步驟的第一步是確保學習是連續的,然後是元學習,即學習如何學習。不僅僅是學習一種技能,而是在不斷學習的過程中積累各種經驗,從中變得更加擅長學習。我們可以利用這些不斷重復的學習經驗來提高未來的學習效率。因此,在這個過程中,我們會學到各種技巧和方法,比如表示方法、特征以及學習步驟的大小。接著是持續學習和各種演算法,一旦我們將元學習、持續學習和監督學習結合起來,就可以擴充套件到強化學習,其中包含更多有趣的時間關系。

艾爾伯塔計劃的前六個步驟是構建強化學習的基本演算法,並透過不斷回顧和完善,使其成為持續學習和元學習。然後,再引入一些挑戰性問題,如離策略學習(learning off policy)和學習世界模型以及規劃。最後一步是智慧增強(IA),即將電腦人工智慧與我們自己的思維結合起來,以增強我們的思維能力。

在艾爾伯塔計劃中,離策略學習和學習世界模型是其中的關鍵步驟之一。離策略學習意味著智慧體能夠學習未完全執行的任務或行為。例如,即使是辨識一個物體,也需要觀察並以客觀的方式定義其特征,而子問題是這一任務的最佳處理方式。

艾爾伯塔計劃最具特色的策略是將大問題分解為許多子問題,並同時處理這些子問題。盡管智慧體的主要目標是獲得獎勵,但它同時也會處理許多其他子問題。由於智慧體無法同時處理所有子問題,因此需要選擇一個主要問題,而其他子問題則透過學習來解決,離策略學習是高效學習世界模型的關鍵。

Craig Smith: 你提出的部落架構(horde architecture)是否是指將問題分解為多個子任務並進行學習?

Richard Sutton: 部落架構是我們在一篇論文中提出來的。部落指的是一系列子問題,其中每個demo類似於神經網路中的單個神經元,專註於解決不同任務或預測不同結果。部落架構將思維看作是去中心化的,但所有部份最終都朝著一個目標努力。這種結構可以驅動不同部份,是一個很有用的結構。

05

與John Carmack的Keen Technologies合作

Craig Smith: 你與John Carmack(電腦遊戲領域的傳奇工程師)的合作是否出於資金方面的考慮?畢竟Yann LeCun的背後是Meta。

Richard Sutton: 這兩者並不能相提並論。盡管John的公司很棒,但它只是一家價值2000萬美元的公司,這對於我們目前的需求來說已經足夠了。我和John聯手是因為我們對實作通用人工智慧的方式有著相似的想法。我曾讀過一篇關於John的新聞報道,盡管我們的背景有所不同,但感覺他的思考方式與我很相似。

當談及智慧時,我們需要明確一些基本原則,而不是設計一個包含一千萬行程式碼的龐大程式。全球範圍內籌集用於基礎研究的資金仍然很困難,但AI套用的資金相對容易獲得,特別是針對語言大模型的資金。

總之,我非常享受在Keen的工作,在這裏我能夠專註於自己的想法,Keen的工作氛圍非常平靜,大家會花很多時間思考和反思,除此之外,還會進行一些實驗。對我來說,能夠重新整理我的思緒,並仔細思考它們,推動它們向前發展非常重要。

Craig Smith: Keen是否在執行艾爾伯塔計劃?

Richard Sutton: 艾爾伯塔計劃是一個五年研究計劃,而非執行計畫,研究不會總是按照人們的期望進行。

Craig Smith: 你們在Keen的工作是否受到了艾爾伯塔計劃的啟發呢?

Richard Sutton: 是的,畢竟我正在研究艾爾伯塔計劃。

Craig Smith: Keen的最終目標是否是建立艾爾伯塔計劃中描述的具身智慧體?

Richard Sutton: 按計劃實作的機率很大,但不能百分百確定,畢竟計劃趕不上變化,但不論結果如何,我們必須做出決策,並認真考慮,因為我們很有可能是正確的。

06

關於AI安全和AGI實作的辯論

Craig Smith: 你是否對人工智慧感到擔憂?是否贊同關於其威脅論觀點?

Richard Sutton: 那些悲觀者不僅是錯誤的,更充滿了盲目的偏見。這種偏見讓他們無視正在發生的事。本質上來說,人工智慧是一種廣泛適用的技術,它不同於核武器,也不同於生物武器。它可以被用於各種領域,我們應該對其善加利用。總會有人將其用於不良用途,這很正常,正常的技術也可能被好人或壞人使用。

那些悲觀者則認為,這種技術有問題,就像核武器一樣存在威脅,他們被這種隱喻所蒙蔽,認為人工智慧會找上門來置人於死地,這純屬荒謬。悲觀者其實並沒有提出他們所相信的合乎邏輯的理由,因此很難與他們爭辯。也許合理的看法是認為他們有偏見且目光短淺。

Craig Smith: John Carmack說2030年可能實作AGI,到時會發生什麽?也許到了2030年人們都不會記得他說過這個時間。

Richard Sutton: 這個時間點提出很長時間了,不會被淡忘。對於電腦效能達到人類規模的數量,一直以來的時間點都是2030年,但無論如何,2030年對我們來說是一個合理的目標,我們需要理解一切才能創造出真正的思維。

這個目標很有意義,我一直說,2030年有25%的機會實作真正的人類水平的智慧。25%的可能性看似不高,但這已經是足夠大的機率了,有雄心壯誌的人應該朝著這個目標努力,並努力使之成為現實,而且這取決於我們的行動,我們應該努力做到這一點。

目前,正在發生的一件大事是,公眾正逐漸認識到理解思維和創造有思維的事物意味著什麽,這是世界觀的一次重大轉變,我們需要各領域人士的幫助,讓我們更容易理解在實作人類水平的智慧時發生了什麽。

本文經授權轉載自微信公眾號「OneFlow」,來源:https://www. youtube.com/watch? v=zZuh8YUBeDY&t=2799s 。