中国电信TeleChat2模型跻身SuperCLUE第一梯队，国产大模型再迎突破

要点速达👈

📊 TeleChat2在SuperCLUE榜单中表现卓越，综合实力位列第一梯队。
🛠️ 理科任务“工具调用”能力排名前二，Agent能力总榜位列第二。
💡 全尺寸开源布局，从3B到115B覆盖多场景应用需求。
🌐 政务、教育和办公等领域已实现模型广泛落地应用。
🏆 获“GVP最有价值开源项目”及信通院“可信开源认证”等多项荣誉。

数智朋克消息，SuperCLUE近日公布的最新《中文大模型基准测评2024年10月报告》显示，中国电信推出的星辰语义大模型TeleChat2，以卓越的综合能力跻身第一梯队，成为央企大模型技术的代表。该模型在理科“工具调用”维度排名前二，在Agent智能体总榜中位列第二。此外，TeleChat2-35B凭借更小参数量的优秀表现，在开源模型排行榜中摘得铜牌，整体效果甚至超越了一些大参数模型如Llama-3.1-70B-Instruc和Llama-3.2-90B-Instruct。

TeleChat2是中国电信团队基于星辰语义大模型的升级力作。今年9月，该团队发布了全国产化千亿参数模型TeleChat2-115B，随后开源了更小尺寸的3B、7B和35B版本，形成了完整的开源布局。通过优化数据生成和后训练流程，TeleChat2显著提升了模型性能。在数学领域，团队通过知识点合成和数学奖励模型筛选高质量问答数据；在代码能力上，通过高质量代码合成与单元测试确保模型可靠性。指令遵循能力方面，团队通过构建指令进化数据及脚本校验，极大提高了模型的指令跟随水平。

在后训练阶段，TeleChat2进一步通过微调、权重融合及直接偏好优化（DPO）实现模型性能的突破。微调环节使用特定的筛选机制如指令跟随难度（IFD）和拒绝采样微调（RFT），确保模型对复杂任务的精确理解；权重融合则结合多种模型的优势打造新权重；DPO阶段则专注于补齐中等难度问题的能力，使模型综合性能提升了约15%。

此外，TeleChat2的Agent能力建设也表现卓越，特别是在指令分解、工具调用及任务完成等方面表现出色。在本次SuperCLUE榜单中，TeleChat2系列凭借基于图结构的多智能体框架，多阶段设计工具调用数据，成功提高了模型训练的真实性与复杂性。

中国电信通过不断的开源创新，构建了涵盖从3B到115B的全尺寸模型生态，为广泛应用场景提供适配方案。在政务服务、智慧教育和办公等领域，该模型已经落地。例如，在政务场景中，TeleChat2支撑了智能分类助手、智能客服等解决方案，极大提升了工作效率；在教育领域，该模型助力学生进行听说训练与诗歌创作等个性化学习；在企业办公中，其强大的语义理解能力让会议纪要生成工具实现了一键总结，推动了智能化办公的普及。

作为SuperCLUE榜单中唯一参评的央企模型机构，中国电信依托全国产化万卡集群和自主深度学习框架，打造了从技术到应用的全链条生态。凭借其卓越性能和开源贡献，星辰语义大模型荣获多项权威认证，成为推动国产AI技术进步的重要力量。

中国电信TeleChat2模型跻身SuperCLUE第一梯队，国产大模型再迎突破

数智资讯订阅