浪潮信息发布了“源2.0-M32”开源大模型。该模型在源2.0系列大模型基础上,采用了“基于注意力机制的门控网络”技术,构建包含32个专家的混合专家模型(MoE),并大幅提升模型算力效率。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,所消耗算力仅为LLaMA3的1/19。
发表于:2024年05月29日
浪潮信息发布“源2.0-M32”开源大模型
本文链接: https://www.shuzhipunk.com/articles/TIiiNdDFnbg
转载请注明文章出处
文章所属标签
浪潮信息
源2.0-M32
开源大模型
Llama3