當前位置: 華文問答 > 數位

AI 大模型的準確定義是什麽?

2024-08-05數位

一般大模型指的是『大語言模型』,大語言模型就是Large Language Model,簡稱LLM,你可以說『大模型』是中文語境下對『大語言模型』的簡稱,但是把『語言』兩個字省略之後,的確容易造成一些張冠李戴的誤解。

比如說,如果認為大模型==生成式模型,從而把同樣神奇的圖片生成模型也算成大模型,其實,和大語言模型相比,圖片生成模型真的不算『大』。

就拿最知名的兩個開源圖片生成模型SDXL和Flux.1來說,SDXL包含35億參數base generator和66億參數的refiner,Flux.1則包含120億個參數,但是,就連已經過氣的大語言模型GPT-3也有1750億個參數,GPT-4已經有18000億參數了——完全不在一個數量級啊。

大模型的『大』不體現在參數量達,還體現在機器學習需要的數據量大,需要的GPU體量大。

提到『大』,就必須說到支持大模型的Scaling Law(有的轉譯成擴充套件法則,有的轉譯成尺度規律,為了避免混淆我們直接用英文Scalilng Law了),對於大模