我从算力角度来说说这个话题,从目前的大模型的技术路线是否能进阶到终极 AGI 的角度来说说这个话题。
我其实对于目前大模型的这种方式来实现 AGI 表示怀疑,我心目中的 AGI 所依赖的算力功耗不应该是目前这么庞大的,这就像人脑一样,咱们的智力水平这么高但是功耗却很低。我心目中真正的 AGI 应该是那种低功耗却能提供无穷无尽的智力,它可以一开始一无所知,但是它能够超级快速地自我学习、自我反馈。这种模式可以借用咱们国产大模型厂商的一个名字,我觉得取得挺好,那就是 "零一万物", 零生一、一生万物 。在这样的角度下,目前拥有的不管是 OpenAI 的 GPT 模型,还是 Meta 的 LLaMA 模型,都不是那种 "理想形态"。这主要体现在,一是它们消耗的算力实在过于庞大,这就像一堆二愣子堆出来一个小孩子一样;二是它们对于开放世界的在线学习能力特别有限,甚至是没有,现在多是借助外挂。目前你要想让它们像咱们人脑一样实时在线学习,那是不可能的, 所以这根本不像 AGI 的生存形态 。
现在的基于 Transformer 的大模型算力依旧是依靠晶体管的堆叠,这种冯诺依曼的架构在超高算力场景下的 "各种墙", 比如存储墙、比如功耗墙 ,注定不会让算力无止尽。你不要看英伟达现在如此风光,明年要发布的新一代 GPU 性能多么地 "无止尽",需要清楚的是现在认为的算力高,只是堆出来的,并没有本质上解决低功耗超高算力的问题。
而我会更加看好量子计算、量子机器学习、类脑计算的研究 (存内计算也许算一种过渡但也不算终极答案,但是存内计算会比现在的计算模式更加先进,这点毋庸置疑),也许未来还有其他方向的研究,但实现 AGI 绝对不会是目前的这套解决方案。所以从我的角度,前段时间曝出的 OpenAI 的 Q-Star 模型不会是 AGI,要实现 AGI,不仅仅是目前这套深度学习模型架构还得换代 (这种换代就像是从卷积神经网络换代到 Transformer 一样,Transformer 还得继续换代到下一代),而且算力提供的方式也得换代 (基于晶体管的堆叠,对于无穷尽的算力需求是不可能实现的)。 要实现 AGI,绝没有这么简单,也没有这么快。[这里的观点,来源于我下面这篇文章,也推荐关注]