一般大模型指的是『大語言模型』,大語言模型就是Large Language Model,簡稱LLM,你可以說『大模型』是中文語境下對『大語言模型』的簡稱,但是把『語言』兩個字省略之後,的確容易造成一些張冠李戴的誤解。
比如說,如果認為大模型==生成式模型,從而把同樣神奇的圖片生成模型也算成大模型,其實,和大語言模型相比,圖片生成模型真的不算『大』。
就拿最知名的兩個開源圖片生成模型SDXL和Flux.1來說,SDXL包含35億參數base generator和66億參數的refiner,Flux.1則包含120億個參數,但是,就連已經過氣的大語言模型GPT-3也有1750億個參數,GPT-4已經有18000億參數了——完全不在一個數量級啊。
大模型的『大』不體現在參數量達,還體現在機器學習需要的數據量大,需要的GPU體量大。
提到『大』,就必須說到支持大模型的Scaling Law(有的轉譯成擴充套件法則,有的轉譯成尺度規律,為了避免混淆我們直接用英文Scalilng Law了),對於大模