阿里通义千问Qwen2.5-72B-Instruct问鼎司南OpenCompass 9月榜单

要点速达👈

🏆 阿里巴巴Qwen2.5-72B-Instruct在9月司南OpenCompass榜单中以70.3分夺冠。
💡 这是开源模型首次超越闭源模型，如Claude 3.5和GPT-4o。
📊 在代码和数学能力测评中，Qwen2.5-72B-Instruct表现尤为突出。
🚀 9月底，Qwen系列衍生模型数量达7.43万，首次超越Llama。
🌍 该系列模型成为全球最大的开源模型群，展现出强大竞争力。

数智朋克讯，阿里巴巴的通义千问Qwen2.5-72B-Instruct在2024年9月的司南OpenCompass大语言模型评测榜单中脱颖而出，成为首个击败诸如Claude 3.5、GPT-4o等闭源模型的开源模型。Qwen2.5-72B-Instruct以70.3的总得分位居榜首，在语言理解、推理、数学等多个能力测评上表现卓越，标志着开源社区在大模型领域取得显著突破。

司南OpenCompass由上海人工智能实验室开发，已成为国际上极具影响力的评测平台之一，吸引了包括OpenAI、阿里巴巴、Meta等百余家主流模型的参与。该平台通过七大能力维度、十余项细分任务，每月对大模型进行全面评测分析，为行业提供权威参考。9月榜单中，Qwen2.5-72B-Instruct在多项细分任务中名列前茅，尤其在代码能力方面以74.2分领先，不仅能高效编写代码，还能精准解释代码逻辑。在数学能力方面，Qwen2.5-72B-Instruct更是以77分拔得头筹，远超Claude 3.5和GPT-4o的得分。

数智朋克注意到，Qwen2.5的成功，不仅是技术进步的体现，也显示出国产开源模型在全球市场中的竞争力正在迅速提升。司南OpenCompass对Qwen2.5的评价指出，该成绩表明国产厂商在技术迭代后的表现显著提升，正逐渐缩小与国际顶尖模型之间的差距，增强了中国在AI领域的话语权。

此外，Qwen2.5-72B-Instruct在9月底还跻身Chatbot Arena大模型盲测榜单前十，成为前十名中唯一的中国大模型。Qwen系列涵盖了多种类型与尺寸的大语言模型，包括多模态、数学和代码模型，几乎在所有尺寸中均展现了领先的性能。数智朋克了解到，截至9月底，基于Qwen系列进行二次开发的衍生模型数量已突破7.43万，超越了Llama的7.28万，成为全球最大的开源模型群。

阿里通义千问Qwen2.5-72B-Instruct问鼎司南OpenCompass 9月榜单

数智资讯订阅