为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？

2023-12-04数码

这是一个很本质的好问题，我想抛砖引玉地谈谈自己的认识。未必正确，欢迎探讨。

在开始回答之前，我提交了对题面的修改，希望将「语言」进一步界定为「自然语言」，我想这应该是提问者的本意。

首先，我想用几句话，简短地回答题面问题：

大模型并未拥有真正的智能；现在的大模型，顶多在某些 受限领域 拥有了 一定程度 的智能。

人工智能不可能通过自然语言训练拥有完全智能，完全智能需要的环境更复杂。

自然语言不是智能的载体，但自然语言是 人类智能 的载体；智能系统并不绝对需要自然语言。

大模型与自然语言的关系，当下是AI向人类学习，将来是AI服务于人类。

接下来，我会解释为什么我得到了上面的结论。

智能的定义

我用Google搜索「智能」，排名第一的是维基百科词条「人工智能」。其中第一句话这样说：

人工智能 （英语：artificial intelligence，缩写为 AI ）亦称 机器智能 ，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。

其中，智能带有一个超链接，指向另一个词条「智慧」。其中第一句话这样说：

智慧，未有一致或常见的定义与标准，但可指结构具高复杂性的生物或电脑所具有的基于或仿于神经系统（物质基础）之大脑额叶与边缘系统为主的一种综合的机能、功能与互动状态，……

于是，我们不妨做个定义：任何展现或者扩展了人类智能的计算机程序，都可以被称为人工智能。从这个意义上看，计算机本身就是人工智能，因为它极大地拓展了人类的运算速度。事实上，在电子计算机普及之前，大部分人都会认为它代表着高水平的人工智能；只不过现在人类的要求进一步提高，计算机不再被认为是人工智能，即使它们的速度比起上个世纪中叶已经快了几个数量级。

从上面的例子就可以看出，人工智能并没有十分严格的定义，其定义甚至会随着人类社会的进步而不断变化。这里引用哲学家Nick Bostrom在2006年所说的一句话：

A lot of cutting edge AI has filtered into general applications, often without being called AI because once something becomes useful enough and common enough it's not labeled AI anymore.

他观察到了一个很有趣的现象（悖论）：在某项任务（如人脸识别、围棋博弈等）还无法被计算机征服时，人们兴致勃勃地冠之以人工智能的名头，研究其各种解决方案；而当它被解决以后，人类逐渐将其作为常见系统的一部分，或者发现它与真正的智能行为有所差异，也就倾向于不再将其称为人工智能了。

所以，我们要牢记于心： 智能并非一成不变，而是具有相当主观成分的一个概念。

人类对于人工智能的期待

基于上述分析，我通常会采用一种间接的方式来描述人工智能，即探讨人工智能的两大作用：

作用一：替代人类重复劳动。 其典型案例为当前计算机视觉中的检测/监控类算法、自然语言处理中的机器翻译类算法，等。

作用二：拓展人类智力边界。 其典型案例包括能够战胜人类的棋类AI、一大类在传统科学领域取得进展的AI科学计算（AI4Science）算法，等。

注意，这与前面的定义（任何展现或者扩展了人类智能的计算机程序）是相对应的，作用一即展现人类智能，作用二即拓展人类智能。上述间接描述的好处在于，它天然地考虑了人工智能随时代演进的要求，就像Nick Bostrom所说的那样，把一些已经解决的问题排除出人工智能的范畴。

如果一定要给人工智能找个形式化的定义，我倾向于采用Ben Goertzel 在2007年写的【Artificial General Intelligence 】（即【通用人工智能】，AGI）一书的定义。

人工智能应当在这样一个环境下实现：当智能体观察到一系列状态 \mathbb{S}=\{\mathbf{s}_1,\ldots,\mathbf{s}_T\} 时，可以从某个集合\mathcal{A}=\{\mathbf{a}_1,\ldots,\mathbf{a}_M\} 里选择相应的行动，并且得到相应的奖励r(\mathbf{s}_t,\mathbf{a}_m) 。通用人工智能的目标是学习一种映射\pi:\mathbb{S}\mapsto\mathcal{A} ，使得智能体在环境中行动时，得到的累计奖励R=\sum_{t=1}^Tr(\mathbf{s}_t,\pi(\mathbf{s}_t)) 最大化。

也就是说，人工智能能够适应任何一个（可交互的）环境，并且在其中做出一系列行为，获取最多的奖励。从这个角度看，带有chat功能的大语言模型，完美地契合了上述定义，在 纯文本环境 下通过对话实现了交互能力，能够完成一系列任务，最终使得奖励（用户评分）最大化。

大语言模型尚未具有真正的智能

既然大语言模型完美符合定义，又取得了公认的成功，为什么我还说它没有真正的智能呢？因为从上面的定义看， 智能是依赖于环境而产生的 。也就是说，怎样的环境，就会孵化出怎样的智能；但不幸的是，现在可用的环境还太简单了，无法产生真正的智能。

我们举两个例子来弄清这一点。

第一个例子来自棋类AI，典型例子是AlphaGo和AlphaZero。它们的出现，宣告了一个事实：对于任何规则确定、完全信息博弈下的棋类游戏，AI已经全面超越人类水平。这件事的本质是，在此类游戏中， 环境完全确定且不会发生变化 ，于是AI可以从环境中无限采样训练数据，最终通过左右互博的方式不断提升能力。

第二个例子来自大语言模型，典型例子是ChatGPT系列。这类模型需要两阶段的训练，第一阶段在无监督语料上做自回归学习，第二阶段在指令监督语料上做对齐学习。比起棋类游戏， 对话环境要复杂得多 ，目前还不存在已知方法能够无限制地生成高质量的对话数据。换句话说，虽然收集大量人类指令能够近似出这个对话环境，但它 并不完备 ；因此大语言模型无法应对从未采样到的数据，体现为hallucination现象或者在各种垂直任务（如简单数学计算）上的不稳定性。

总结这段，就是我开始的观点：大语言模型尚未拥有完全的智能， 至多在受限领域中展现了一定程度智能 ，而其本质原因是交互环境的不完备性。如果将这个讨论拓展到计算机视觉领域，那么显而易见地，环境构建将加困难，因而视觉模型的完全智能也就更加遥远。不过好在，大语言模型的初步成功，指出了一个可行的方向：构建愈发完善的视觉环境，进而推动视觉AGI的发展。关于这个方面的论述，可以参考下面的文章。

自然语言是人类与智能系统的交互方式

最后，我想谈谈智能的载体。显然，在上述AGI的定义中，并没有任何对自然语言的要求。换句话说， 智能体是否拥有自然语言能力，完全取决于所处的环境是否包括自然语言。 在大自然中，许多不具有语言的生物依然拥有智能；在计算机中，AlphaGo等超越人类能力的人工智能程序也并不需要通过自然语言来交流和解释自身的行为。因此，我完全有理由相信，自然语言并不是人工智能的必要条件，只是人工智能与人类交流的一种手段。

在这里，我想稍微跨越AI的边界，讨论一下人类为何需要自然语言。这很可能是人类处理信息速度较慢的结果。与动物相比，人类需要处理的信息更复杂也更多，但是人类的大脑运算速度非常慢，个体之间也缺乏能够快速传递大量信息的方式（信息时代之前）。因此，人类不得不设计一种抽象的、信息密度较高的载体，以支持在个体间交流和传递信息。

我不禁想引用刘慈欣【乡村教师】里的一段话：

「天啊！这颗行星上的文明不是3C级，是5B级！！」看着蓝84210号舰从一千光年之外发回的检测报告，参议员惊呼起来。
人类城市的摩天大楼群的影像在旗舰上方的太空中显现。
「他们已经开始使用核能，并用化学推进方式进入太空，甚至已登上了他们所在行星的卫星。」
「他们基本特征是什么？」舰队统帅问。
「您想知道哪些方面？」蓝84210号上的值勤军官问。
「比如，这个行星上生命体记忆遗传的等级是多少？」
「他们没有记忆遗传，所有记忆都是后天取得的。」
「那么，他们的个体相互之间的信息交流方式是什么？」
「极其原始，也十分罕见。他们身体内有一种很薄的器官，这种器官在这个行星以氧氮为主的大气中振动时可产生声波，同时把要传输的信息调制到声波之中，接收方也用一种薄膜器官从声波中接收信息。」
「这种方式信息传输的速率是多大？」
「大约每秒1至10比特。」
「什么？！」旗舰上听到这话的所有人都大笑起来。
「真的是每秒1至10比特，我们开始也不相信，但反复核实过。」
「上尉，你是个白痴吗？！」舰队统帅大怒，「你是想告诉我们，一种没有记忆遗传，相互间用声波进行信息交流，并且是以令人难以置信的每秒1至10比特的速率进行交流的物种，能创造出5B级文明？！而且这种文明是在没有任何外部高级文明培植的情况下自行进化的？！」
「但，阁下，确实如此。」
……

大概就是人类「每秒1至10比特的信息传递速率」，才催生了自然语言这种载体吧。

最后的最后，我们要牢记：人工智能的发展原则之一是 以人为本 。因此，虽然智能不需要自然语言，但是人工智能需要自然语言，以作为与人类交流的载体或者接口（interface）。当下，人工智能可以从自然语言中学习人类的知识，并且在最简单的纯文本环境中探索出一条发展路径（也就是现在的大语言模型）；将来，即使真正的AGI实现了，那么它也需要通过自然语言，来最终服务于人类。