當前位置: 華文問答 > 數位

一年百模大戰下來,有哪些技術趨勢和行業真相逐漸浮出水面?

2023-11-30數位

數據和算力逐漸成為大模型公司發展的基礎和壁壘。

高品質數據的數量已經成為大模型在效能競賽上取勝的關鍵因素。從國內外的大模型的發展歷史來看可見一斑,在預訓練的階段,2020年的GPT3使用了300B tokens,而2023年推出的Llama2則是訓練了2T tokens,同時期下阿裏推出的通義千問中文大模型更是使用了3T tokens進行預訓練。當下,多模態已然是未來發展的趨勢,相較於大語言模型,多模態大模型的訓練流程更為復雜,需要多步訓練以利用異質的多模態多工數據,然而現有高品質圖文對大約在幾十億量級,與語言文本數據量相差了數個量級,仍需持續探索多模態的數據積累。

大模型的算力需求與模型參數量和數據吞吐量正相關,在模型參數量攀升、數據量激增的情況下,大模型的訓練與推理算力需求非常高。在訓練方面,繼續增大模型參數規模是否能提升語言模型能力尚無定論,但數據規模的提升會明確拉動下一代大模型的算力需求。OpenAI使用了2.4萬塊A100顯卡訓練出1.8萬億參數量的GPT-4,並預計具有多模態輸入輸出能力的GPT-5模型訓練則會需要5萬塊p00顯卡。隨著多模態大模型的發展,更大規模的音訊、3D模型、視訊數據量將是純文本數據量高出3個數量級,對訓練算力需求有1-3個數量級的提升。在推理方面,ChatGPT已獲得1億周活使用者,並受限於算力資源無法繼續擴大服務面。未來,活躍的AI推理算力消耗會隨著模型效果提升、使用場景增多、對話時長增加而迅速增長,未來全球大模型的周活使用者可能會提升至20-30億人,預計帶來十倍以上的推理算力的潛在需求。

在大規模算力需求下,給異構芯片帶來的更多的市場機會。如何做好軟體適配,能讓大模型演算法公司快速高效的使用新架構芯片,將是行業上下遊公司需要一起解決的問題。