AI 大模型的準確定義是什麽？

2024-08-05數位

一般大模型指的是『大語言模型』，大語言模型就是Large Language Model，簡稱LLM，你可以說『大模型』是中文語境下對『大語言模型』的簡稱，但是把『語言』兩個字省略之後，的確容易造成一些張冠李戴的誤解。

比如說，如果認為大模型==生成式模型，從而把同樣神奇的圖片生成模型也算成大模型，其實，和大語言模型相比，圖片生成模型真的不算『大』。

就拿最知名的兩個開源圖片生成模型SDXL和Flux.1來說，SDXL包含35億參數base generator和66億參數的refiner，Flux.1則包含120億個參數，但是，就連已經過氣的大語言模型GPT-3也有1750億個參數，GPT-4已經有18000億參數了——完全不在一個數量級啊。

大模型的『大』不體現在參數量達，還體現在機器學習需要的數據量大，需要的GPU體量大。

提到『大』，就必須說到支持大模型的Scaling Law（有的轉譯成擴充套件法則，有的轉譯成尺度規律，為了避免混淆我們直接用英文Scalilng Law了），對於大模