在多项基准测试中,GPT-4o和Claude 3.5 Sonnet都被超越。也即是说,闭源SOTA模型,已经在被开源模型赶上。
一夜之间,Llama 3.1 405B已成世界最强大模型。
(同时上线的,还有新版70B和8B模型)
LeCun总结了Llama 3.1模型家族的几大要点:
- 405B的性能,与最好的闭源模型性能相当
- 开源/免费使用权重和代码,允许进行微调、蒸馏到其他模型中,以及在任何地方部署
- 128k的上下文,多语言,良好的代码生成能力,复杂推理能力,以及工具使用能力
- Llama Stack API可以轻松集成
Meta这次可谓是将开源的精神贯彻到底,同时大方放出的,还有一篇90多页的论文。
HuggingFace首席科学家Thomas Wolf赞赏道:如果想从0开始研究大模型,你需要的就是这篇paper!
它简直无所不包——预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行处理、训练方法、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音和视频……AI2