要点速达👈
- 🚀 Llama 3.3发布:性能媲美Llama 3.1,但仅有700亿参数。
- 🌍 多语言支持:支持法语、德语、印地语等七种语言,扩大应用范围。
- 🔝 增强上下文窗口:128k token的上下文窗口,适合长篇内容生成。
- ⚡ 性能与成本突破:内存需求大幅降低,部署成本节省高达60万美元。
- 💻 开源发布:Llama 3.3通过Hugging Face和GitHub等平台提供下载,采用社区许可证。
- 🏢 商业授权要求:月活跃用户超过7亿的组织需向Meta申请商业授权。
数智朋克报道,Meta近日发布了备受关注的Llama 3.3开源模型,标志着其在生成式AI领域的一次重大突破。Meta负责生成式AI的副总裁Ahmad Al-Dahle通过社交平台X宣布,Llama 3.3采用了先进的后训练技术,尽管该模型的参数为700亿,但在性能上已与参数达到4050亿的Llama 3.1相当,甚至在多个行业基准测试中,Llama 3.3 70B的表现超过了谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o和亚马逊的Nova Pro,展现出了强大的竞争力。
Llama 3.3不仅在英语上表现优异,还支持法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语等七种语言,进一步扩展了其应用场景。该版本的一大亮点是增强的上下文窗口,达到128k token,能够处理更长的文本输入,特别适合长篇内容生成和其他高级应用场景。
通过整合分组查询注意力(GQA)机制,Llama 3.3提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。
根据Substratus博客的数据,Llama 3.3在性能上的突破不仅体现在处理能力上,还显著降低了内存需求和部署成本。例如,Llama 3.1的405B模型需要高达243GB到1944GB的GPU内存,而Llama 2的70B模型仅需42GB到168GB的内存。在某些情况下,Llama 3.3低参数模型的GPU内存需求甚至低至4GB。这意味着,用户在部署Llama 3.3时,可以节省高达1940GB的内存,极大降低了成本。
此外,标准80GB Nvidia H100 GPU的负载可减少24倍,预期每块GPU的前期成本节省可高达60万美元,并进一步减少电力消耗。
Meta已通过Hugging Face、GitHub等平台提供Llama 3.3的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。同时,对于大型组织(如月活跃用户超过7亿)则需向Meta申请商业授权,方可使用该模型进行商业用途。
Llama 3.3的发布不仅在性能和成本上带来了重大提升,也为开发者和企业提供了更多的应用空间。预计这一开源模型将促进生成式AI技术的广泛应用,推动整个行业的快速发展。