當前位置: 華文問答 > 數碼

Meta Llama 3.1

2024-07-23數碼

LLama 3 405B模型效果已經趕上目前最好的閉源模型比如GPT 4o和Claude 3.5,這算是開源屆的大事,技術報告接近100頁,資訊很豐富,粗略看了一下,很有啟發。這裏就LLaMA 3的模型結構、訓練過程做些解讀,並對其影響、小模型如何做、合成數據等方面談點看法。

LLaMA 3模型結構

LLaMa 3模型結構

LLaMA 3的模型結構如上圖所示,這基本已經形成目前Dense LLM模型的標準結構了,絕大多數LLM模型結構都與此非常接近。而很多采取MOE結構的LLM模型,其變化無非是把上圖的FFN模組裏的單個SwiGLU模組拓展成K個並聯的SwiGLU模組,形成多個專家,再加上一個路由子網絡來選擇目前Token走這麽多專家裏的哪幾個,如此而已,基本結構也差不太多(所以不要誤會,MOE是Transformer的一種變體,不是獨立的模型結構。很多目前的新型結構,其實是「線性Transformer」結構的變體,目前很少有結構能逃脫Transformer架構的影響,都處在它的陰影下。當然我對新結構持支