AI 大模型的准确定义是什么？

2024-08-05数码

一般大模型指的是『大语言模型』，大语言模型就是Large Language Model，简称LLM，你可以说『大模型』是中文语境下对『大语言模型』的简称，但是把『语言』两个字省略之后，的确容易造成一些张冠李戴的误解。

比如说，如果认为大模型==生成式模型，从而把同样神奇的图片生成模型也算成大模型，其实，和大语言模型相比，图片生成模型真的不算『大』。

就拿最知名的两个开源图片生成模型SDXL和Flux.1来说，SDXL包含35亿参数base generator和66亿参数的refiner，Flux.1则包含120亿个参数，但是，就连已经过气的大语言模型GPT-3也有1750亿个参数，GPT-4已经有18000亿参数了——完全不在一个数量级啊。

大模型的『大』不体现在参数量达，还体现在机器学习需要的数据量大，需要的GPU体量大。

提到『大』，就必须说到支持大模型的Scaling Law（有的翻译成扩展法则，有的翻译成尺度规律，为了避免混淆我们直接用英文Scalilng Law了），对于大模