DIGIPUNK
去投稿
发表于:2024年10月19日

阿里通义千问Qwen2.5-72B-Instruct问鼎司南OpenCompass 9月榜单

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🏆 阿里巴巴Qwen2.5-72B-Instruct在9月司南OpenCompass榜单中以70.3分夺冠。
  • 💡 这是开源模型首次超越闭源模型,如Claude 3.5和GPT-4o。
  • 📊 在代码和数学能力测评中,Qwen2.5-72B-Instruct表现尤为突出。
  • 🚀 9月底,Qwen系列衍生模型数量达7.43万,首次超越Llama。
  • 🌍 该系列模型成为全球最大的开源模型群,展现出强大竞争力。

数智朋克讯,阿里巴巴的通义千问Qwen2.5-72B-Instruct在2024年9月的司南OpenCompass大语言模型评测榜单中脱颖而出,成为首个击败诸如Claude 3.5、GPT-4o等闭源模型的开源模型。Qwen2.5-72B-Instruct以70.3的总得分位居榜首,在语言理解、推理、数学等多个能力测评上表现卓越,标志着开源社区在大模型领域取得显著突破。

司南OpenCompass由上海人工智能实验室开发,已成为国际上极具影响力的评测平台之一,吸引了包括OpenAI、阿里巴巴、Meta等百余家主流模型的参与。该平台通过七大能力维度、十余项细分任务,每月对大模型进行全面评测分析,为行业提供权威参考。9月榜单中,Qwen2.5-72B-Instruct在多项细分任务中名列前茅,尤其在代码能力方面以74.2分领先,不仅能高效编写代码,还能精准解释代码逻辑。在数学能力方面,Qwen2.5-72B-Instruct更是以77分拔得头筹,远超Claude 3.5和GPT-4o的得分。

数智朋克注意到,Qwen2.5的成功,不仅是技术进步的体现,也显示出国产开源模型在全球市场中的竞争力正在迅速提升。司南OpenCompass对Qwen2.5的评价指出,该成绩表明国产厂商在技术迭代后的表现显著提升,正逐渐缩小与国际顶尖模型之间的差距,增强了中国在AI领域的话语权。

此外,Qwen2.5-72B-Instruct在9月底还跻身Chatbot Arena大模型盲测榜单前十,成为前十名中唯一的中国大模型。Qwen系列涵盖了多种类型与尺寸的大语言模型,包括多模态、数学和代码模型,几乎在所有尺寸中均展现了领先的性能。数智朋克了解到,截至9月底,基于Qwen系列进行二次开发的衍生模型数量已突破7.43万,超越了Llama的7.28万,成为全球最大的开源模型群。

本文链接: https://www.shuzhipunk.com/articles/BmmzgcpkUfz
转载请注明文章出处

文章所属标签
Qwen2.5-72B
开源大模型