一年百模大战下来，有哪些技术趋势和行业真相逐渐浮出水面？

2023-11-30数码

数据和算力逐渐成为大模型公司发展的基础和壁垒。

高质量数据的数量已经成为大模型在性能竞赛上取胜的关键因素。从国内外的大模型的发展历史来看可见一斑，在预训练的阶段，2020年的GPT3使用了300B tokens，而2023年推出的Llama2则是训练了2T tokens，同时期下阿里推出的通义千问中文大模型更是使用了3T tokens进行预训练。当下，多模态已然是未来发展的趋势，相较于大语言模型，多模态大模型的训练流程更为复杂，需要多步训练以利用异质的多模态多任务数据，然而现有高质量图文对大约在几十亿量级，与语言文本数据量相差了数个量级，仍需持续探索多模态的数据积累。

大模型的算力需求与模型参数量和数据吞吐量正相关，在模型参数量攀升、数据量激增的情况下，大模型的训练与推理算力需求非常高。在训练方面，继续增大模型参数规模是否能提升语言模型能力尚无定论，但数据规模的提升会明确拉动下一代大模型的算力需求。OpenAI使用了2.4万块A100显卡训练出1.8万亿参数量的GPT-4，并预计具有多模态输入输出能力的GPT-5模型训练则会需要5万块p00显卡。随着多模态大模型的发展，更大规模的音频、3D模型、视频数据量将是纯文本数据量高出3个数量级，对训练算力需求有1-3个数量级的提升。在推理方面，ChatGPT已获得1亿周活用户，并受限于算力资源无法继续扩大服务面。未来，活跃的AI推理算力消耗会随着模型效果提升、使用场景增多、对话时长增加而迅速增长，未来全球大模型的周活用户可能会提升至20-30亿人，预计带来十倍以上的推理算力的潜在需求。

在大规模算力需求下，给异构芯片带来的更多的市场机会。如何做好软件适配，能让大模型算法公司快速高效的使用新架构芯片，将是行业上下游公司需要一起解决的问题。