Meta Llama 3.1

2024-07-23數位

在多項基準測試中，GPT-4o和Claude 3.5 Sonnet都被超越。也即是說，閉源SOTA模型，已經在被開源模型趕上。

一夜之間，Llama 3.1 405B已成世界最強大模型。

（同時上線的，還有新版70B和8B模型）

LeCun總結了Llama 3.1模型家族的幾大要點：

- 405B的效能，與最好的閉源模型效能相當

- 開源/免費使用權重和程式碼，允許進行微調、蒸餾到其他模型中，以及在任何地方部署

- 128k的上下文，多語言，良好的程式碼生成能力，復雜推理能力，以及工具使用能力

- Llama Stack API可以輕松整合

Meta這次可謂是將開源的精神貫徹到底，同時大方放出的，還有一篇90多頁的論文。

HuggingFace首席科學家Thomas Wolf贊賞道：如果想從0開始研究大模型，你需要的就是這篇paper！

它簡直無所不包——預訓練數據、過濾、退火、合成數據、縮放定律、基礎設施、並列處理、訓練方法、訓練後適應、工具使用、基準測試、推理策略、量化、視覺、語音和視訊……

AI2