Meta Llama 3.1

2024-07-23數碼

LLama 3 405B模型效果已經趕上目前最好的閉源模型比如GPT 4o和Claude 3.5，這算是開源屆的大事，技術報告接近100頁，資訊很豐富，粗略看了一下，很有啟發。這裏就LLaMA 3的模型結構、訓練過程做些解讀，並對其影響、小模型如何做、合成數據等方面談點看法。

LLaMA 3模型結構

LLaMa 3模型結構

LLaMA 3的模型結構如上圖所示，這基本已經形成目前Dense LLM模型的標準結構了，絕大多數LLM模型結構都與此非常接近。而很多采取MOE結構的LLM模型，其變化無非是把上圖的FFN模組裏的單個SwiGLU模組拓展成K個並聯的SwiGLU模組，形成多個專家，再加上一個路由子網絡來選擇目前Token走這麽多專家裏的哪幾個，如此而已，基本結構也差不太多（所以不要誤會，MOE是Transformer的一種變體，不是獨立的模型結構。很多目前的新型結構，其實是「線性Transformer」結構的變體，目前很少有結構能逃脫Transformer架構的影響，都處在它的陰影下。當然我對新結構持支