当前位置: 华文问答 > 数码

一年百模大战下来,有哪些技术趋势和行业真相逐渐浮出水面?

2023-11-30数码

数据和算力逐渐成为大模型公司发展的基础和壁垒。

高质量数据的数量已经成为大模型在性能竞赛上取胜的关键因素。从国内外的大模型的发展历史来看可见一斑,在预训练的阶段,2020年的GPT3使用了300B tokens,而2023年推出的Llama2则是训练了2T tokens,同时期下阿里推出的通义千问中文大模型更是使用了3T tokens进行预训练。当下,多模态已然是未来发展的趋势,相较于大语言模型,多模态大模型的训练流程更为复杂,需要多步训练以利用异质的多模态多任务数据,然而现有高质量图文对大约在几十亿量级,与语言文本数据量相差了数个量级,仍需持续探索多模态的数据积累。

大模型的算力需求与模型参数量和数据吞吐量正相关,在模型参数量攀升、数据量激增的情况下,大模型的训练与推理算力需求非常高。在训练方面,继续增大模型参数规模是否能提升语言模型能力尚无定论,但数据规模的提升会明确拉动下一代大模型的算力需求。OpenAI使用了2.4万块A100显卡训练出1.8万亿参数量的GPT-4,并预计具有多模态输入输出能力的GPT-5模型训练则会需要5万块p00显卡。随着多模态大模型的发展,更大规模的音频、3D模型、视频数据量将是纯文本数据量高出3个数量级,对训练算力需求有1-3个数量级的提升。在推理方面,ChatGPT已获得1亿周活用户,并受限于算力资源无法继续扩大服务面。未来,活跃的AI推理算力消耗会随着模型效果提升、使用场景增多、对话时长增加而迅速增长,未来全球大模型的周活用户可能会提升至20-30亿人,预计带来十倍以上的推理算力的潜在需求。

在大规模算力需求下,给异构芯片带来的更多的市场机会。如何做好软件适配,能让大模型算法公司快速高效的使用新架构芯片,将是行业上下游公司需要一起解决的问题。