当前位置: 华文问答 > 数码

AI 大模型的准确定义是什么?

2024-08-05数码

一般大模型指的是『大语言模型』,大语言模型就是Large Language Model,简称LLM,你可以说『大模型』是中文语境下对『大语言模型』的简称,但是把『语言』两个字省略之后,的确容易造成一些张冠李戴的误解。

比如说,如果认为大模型==生成式模型,从而把同样神奇的图片生成模型也算成大模型,其实,和大语言模型相比,图片生成模型真的不算『大』。

就拿最知名的两个开源图片生成模型SDXL和Flux.1来说,SDXL包含35亿参数base generator和66亿参数的refiner,Flux.1则包含120亿个参数,但是,就连已经过气的大语言模型GPT-3也有1750亿个参数,GPT-4已经有18000亿参数了——完全不在一个数量级啊。

大模型的『大』不体现在参数量达,还体现在机器学习需要的数据量大,需要的GPU体量大。

提到『大』,就必须说到支持大模型的Scaling Law(有的翻译成扩展法则,有的翻译成尺度规律,为了避免混淆我们直接用英文Scalilng Law了),对于大模