一年百模大戰下來，有哪些技術趨勢和行業真相逐漸浮出水面？

2023-11-30數位

數據和算力逐漸成為大模型公司發展的基礎和壁壘。

高品質數據的數量已經成為大模型在效能競賽上取勝的關鍵因素。從國內外的大模型的發展歷史來看可見一斑，在預訓練的階段，2020年的GPT3使用了300B tokens，而2023年推出的Llama2則是訓練了2T tokens，同時期下阿裏推出的通義千問中文大模型更是使用了3T tokens進行預訓練。當下，多模態已然是未來發展的趨勢，相較於大語言模型，多模態大模型的訓練流程更為復雜，需要多步訓練以利用異質的多模態多工數據，然而現有高品質圖文對大約在幾十億量級，與語言文本數據量相差了數個量級，仍需持續探索多模態的數據積累。

大模型的算力需求與模型參數量和數據吞吐量正相關，在模型參數量攀升、數據量激增的情況下，大模型的訓練與推理算力需求非常高。在訓練方面，繼續增大模型參數規模是否能提升語言模型能力尚無定論，但數據規模的提升會明確拉動下一代大模型的算力需求。OpenAI使用了2.4萬塊A100顯卡訓練出1.8萬億參數量的GPT-4，並預計具有多模態輸入輸出能力的GPT-5模型訓練則會需要5萬塊p00顯卡。隨著多模態大模型的發展，更大規模的音訊、3D模型、視訊數據量將是純文本數據量高出3個數量級，對訓練算力需求有1-3個數量級的提升。在推理方面，ChatGPT已獲得1億周活使用者，並受限於算力資源無法繼續擴大服務面。未來，活躍的AI推理算力消耗會隨著模型效果提升、使用場景增多、對話時長增加而迅速增長，未來全球大模型的周活使用者可能會提升至20-30億人，預計帶來十倍以上的推理算力的潛在需求。

在大規模算力需求下，給異構芯片帶來的更多的市場機會。如何做好軟體適配，能讓大模型演算法公司快速高效的使用新架構芯片，將是行業上下遊公司需要一起解決的問題。