為什麽大模型能透過自然語言訓練表現出智能？智能的載體是自然語言嗎？

2023-12-04數碼

這是一個很本質的好問題，我想拋磚引玉地談談自己的認識。未必正確，歡迎探討。

在開始回答之前，我送出了對題面的修改，希望將「語言」進一步界定為「自然語言」，我想這應該是提問者的本意。

首先，我想用幾句話，簡短地回答題面問題：

大模型並未擁有真正的智能；現在的大模型，頂多在某些 受限領域 擁有了 一定程度 的智能。

人工智能不可能透過自然語言訓練擁有完全智能，完全智能需要的環境更復雜。

自然語言不是智能的載體，但自然語言是 人類智能 的載體；智能系統並不絕對需要自然語言。

大模型與自然語言的關系，當下是AI向人類學習，將來是AI服務於人類。

接下來，我會解釋為什麽我得到了上面的結論。

智能的定義

我用Google搜尋「智能」，排名第一的是維基百科詞條「人工智能」。其中第一句話這樣說：

人工智能 （英語：artificial intelligence，縮寫為 AI ）亦稱 機器智能 ，指由人制造出來的機器所表現出來的智能。通常人工智能是指透過普通電腦程式來呈現人類智能的技術。

其中，智能帶有一個超連結，指向另一個詞條「智慧」。其中第一句話這樣說：

智慧，未有一致或常見的定義與標準，但可指結構具高復雜性的生物或電腦所具有的基於或仿於神經系統（物質基礎）之大腦額葉與邊緣系統為主的一種綜合的機能、功能與互動狀態，……

於是，我們不妨做個定義：任何展現或者 擴充套件 了人類智能的電腦程式，都可以被稱為人工智能。從這個意義上看，電腦本身就是人工智能，因為它極大地拓展了人類的運算速度。事實上，在電子電腦普及之前，大部份人都會認為它代表著高水平的人工智能；只不過現在人類的要求進一步提高，電腦不再被認為是人工智能，即使它們的速度比起上個世紀中葉已經快了幾個數量級。

從上面的例子就可以看出，人工智能並沒有十分嚴格的定義，其定義甚至會隨著人類社會的進步而不斷變化。這裏參照哲學家Nick Bostrom在2006年所說的一句話：

A lot of cutting edge AI has filtered into general applications, often without being called AI because once something becomes useful enough and common enough it's not labeled AI anymore.

他觀察到了一個很有趣的現象（悖論）：在某項任務（如人臉辨識、圍棋博弈等）還無法被電腦征服時，人們興致勃勃地冠之以人工智能的名頭，研究其各種解決方案；而當它被解決以後，人類逐漸將其作為常見系統的一部份，或者發現它與真正的智能行為有所差異，也就傾向於不再將其稱為人工智能了。

所以，我們要牢記於心： 智能並非一成不變，而是具有相當主觀成分的一個概念。

人類對於人工智能的期待

基於上述分析，我通常會采用一種間接的方式來描述人工智能，即探討人工智能的兩大作用：

作用一：替代人類重復勞動。 其典型案例為當前電腦視覺中的檢測/監控類演算法、自然語言處理中的機器轉譯類演算法，等。

作用二：拓展人類智力邊界。 其典型案例包括能夠戰勝人類的棋類AI、一大類在傳統科學領域取得進展的AI科學計算（AI4Science）演算法，等。

註意，這與前面的定義（任何展現或者 擴充套件 了人類智能的電腦程式）是相對應的，作用一即展現人類智能，作用二即拓展人類智能。上述間接描述的好處在於，它天然地考慮了人工智能隨時代演進的要求，就像Nick Bostrom所說的那樣，把一些已經解決的問題排除出人工智能的範疇。

如果一定要給人工智能找個形式化的定義，我傾向於采用Ben Goertzel 在2007年寫的【Artificial General Intelligence 】（即【通用人工智能】，AGI）一書的定義。

人工智能應當在這樣一個環境下實作：當智能體觀察到一系列狀態 \mathbb{S}=\{\mathbf{s}_1,\ldots,\mathbf{s}_T\} 時，可以從某個集合\mathcal{A}=\{\mathbf{a}_1,\ldots,\mathbf{a}_M\} 裏選擇相應的行動，並且得到相應的獎勵r(\mathbf{s}_t,\mathbf{a}_m) 。通用人工智能的目標是學習一種對映\pi:\mathbb{S}\mapsto\mathcal{A} ，使得智能體在環境中行動時，得到的累計獎勵R=\sum_{t=1}^Tr(\mathbf{s}_t,\pi(\mathbf{s}_t)) 最大化。

也就是說，人工智能能夠適應任何一個（可互動的）環境，並且在其中做出一系列行為，獲取最多的獎勵。從這個角度看，帶有chat功能的大語言模型，完美地契合了上述定義，在 純文本環境 下透過對話實作了互動能力，能夠完成一系列任務，最終使得獎勵（使用者評分）最大化。

大語言模型尚未具有真正的智能

既然大語言模型完美符合定義，又取得了公認的成功，為什麽我還說它沒有真正的智能呢？因為從上面的定義看， 智能是依賴於環境而產生的 。也就是說，怎樣的環境，就會孵化出怎樣的智能；但不幸的是，現在可用的環境還太簡單了，無法產生真正的智能。

我們舉兩個例子來弄清這一點。

第一個例子來自棋類AI，典型例子是AlphaGo和AlphaZero。它們的出現，宣告了一個事實：對於任何規則確定、完全資訊博弈下的棋類遊戲，AI已經全面超越人類水平。這件事的本質是，在此類遊戲中， 環境完全確定且不會發生變化 ，於是AI可以從環境中無限采樣訓練數據，最終透過左右互博的方式不斷提升能力。

第二個例子來自大語言模型，典型例子是ChatGPT系列。這類模型需要兩階段的訓練，第一階段在無監督語料上做自回歸學習，第二階段在指令監督語料上做對齊學習。比起棋類遊戲， 對話環境要復雜得多 ，目前還不存在已知方法能夠無限制地生成高質素的對話數據。換句話說，雖然收集大量人類指令能夠近似出這個對話環境，但它 並不完備 ；因此大語言模型無法應對從未采樣到的數據，體現為hallucination現象或者在各種垂直任務（如簡單數學計算）上的不穩定性。

總結這段，就是我開始的觀點：大語言模型尚未擁有完全的智能， 至多在受限領域中展現了一定程度智能 ，而其本質原因是互動環境的不完備性。如果將這個討論拓展到電腦視覺領域，那麽顯而易見地，環境構建將加困難，因而視覺模型的完全智能也就更加遙遠。不過好在，大語言模型的初步成功，指出了一個可行的方向：構建愈發完善的視覺環境，進而推動視覺AGI的發展。關於這個方面的論述，可以參考下面的文章。

自然語言是人類與智能系統的互動方式

最後，我想談談智能的載體。顯然，在上述AGI的定義中，並沒有任何對自然語言的要求。換句話說， 智能體是否擁有自然語言能力，完全取決於所處的環境是否包括自然語言。 在大自然中，許多不具有語言的生物依然擁有智能；在電腦中，AlphaGo等超越人類能力的人工智能程式也並不需要透過自然語言來交流和解釋自身的行為。因此，我完全有理由相信，自然語言並不是人工智能的必要條件，只是人工智能與人類交流的一種手段。

在這裏，我想稍微跨越AI的邊界，討論一下人類為何需要自然語言。這很可能是人類處理資訊速度較慢的結果。與動物相比，人類需要處理的資訊更復雜也更多，但是人類的大腦運算速度非常慢，個體之間也缺乏能夠快速傳遞大量資訊的方式（資訊時代之前）。因此，人類不得不設計一種抽象的、資訊密度較高的載體，以支持在個體間交流和傳遞資訊。

我不禁想參照劉慈欣【鄉村教師】裏的一段話：

「天啊！這顆行星上的文明不是3C級，是5B級！！」看著藍84210號艦從一千光年之外發回的檢測報告，參議員驚呼起來。
人類城市的摩天大樓群的影像在旗艦上方的太空中顯現。
「他們已經開始使用核能，並用化學推進方式進入太空，甚至已登上了他們所在行星的衛星。」
「他們基本特征是什麽？」艦隊統帥問。
「您想知道哪些方面？」藍84210號上的值勤軍官問。
「比如，這個行星上生命體記憶遺傳的等級是多少？」
「他們沒有記憶遺傳，所有記憶都是後天取得的。」
「那麽，他們的個體相互之間的資訊交流方式是什麽？」
「極其原始，也十分罕見。他們身體內有一種很薄的器官，這種器官在這個行星以氧氮為主的大氣中振動時可產生聲波，同時把要傳輸的資訊調制到聲波之中，接收方也用一種薄膜器官從聲波中接收資訊。」
「這種方式資訊傳輸的速率是多大？」
「大約每秒1至10位元。」
「什麽？！」旗艦上聽到這話的所有人都大笑起來。
「真的是每秒1至10位元，我們開始也不相信，但反覆核實過。」
「上尉，你是個白癡嗎？！」艦隊統帥大怒，「你是想告訴我們，一種沒有記憶遺傳，相互間用聲波進行資訊交流，並且是以令人難以置信的每秒1至10位元的速率進行交流的物種，能創造出5B級文明？！而且這種文明是在沒有任何外部高級文明培植的情況下自行前進演化的？！」
「但，閣下，確實如此。」
……

大概就是人類「每秒1至10位元的資訊傳遞速率」，才催生了自然語言這種載體吧。

最後的最後，我們要牢記：人工智能的發展原則之一是 以人為本 。因此，雖然智能不需要自然語言，但是人工智能需要自然語言，以作為與人類交流的載體或者介面（interface）。當下，人工智能可以從自然語言中學習人類的知識，並且在最簡單的純文本環境中探索出一條發展路徑（也就是現在的大語言模型）；將來，即使真正的AGI實作了，那麽它也需要透過自然語言，來最終服務於人類。