要点速达👈
- 📊 TeleChat2在SuperCLUE榜单中表现卓越,综合实力位列第一梯队。
- 🛠️ 理科任务“工具调用”能力排名前二,Agent能力总榜位列第二。
- 💡 全尺寸开源布局,从3B到115B覆盖多场景应用需求。
- 🌐 政务、教育和办公等领域已实现模型广泛落地应用。
- 🏆 获“GVP最有价值开源项目”及信通院“可信开源认证”等多项荣誉。
数智朋克消息,SuperCLUE近日公布的最新《中文大模型基准测评2024年10月报告》显示,中国电信推出的星辰语义大模型TeleChat2,以卓越的综合能力跻身第一梯队,成为央企大模型技术的代表。该模型在理科“工具调用”维度排名前二,在Agent智能体总榜中位列第二。此外,TeleChat2-35B凭借更小参数量的优秀表现,在开源模型排行榜中摘得铜牌,整体效果甚至超越了一些大参数模型如Llama-3.1-70B-Instruc和Llama-3.2-90B-Instruct。
TeleChat2是中国电信团队基于星辰语义大模型的升级力作。今年9月,该团队发布了全国产化千亿参数模型TeleChat2-115B,随后开源了更小尺寸的3B、7B和35B版本,形成了完整的开源布局。通过优化数据生成和后训练流程,TeleChat2显著提升了模型性能。在数学领域,团队通过知识点合成和数学奖励模型筛选高质量问答数据;在代码能力上,通过高质量代码合成与单元测试确保模型可靠性。指令遵循能力方面,团队通过构建指令进化数据及脚本校验,极大提高了模型的指令跟随水平。
在后训练阶段,TeleChat2进一步通过微调、权重融合及直接偏好优化(DPO)实现模型性能的突破。微调环节使用特定的筛选机制如指令跟随难度(IFD)和拒绝采样微调(RFT),确保模型对复杂任务的精确理解;权重融合则结合多种模型的优势打造新权重;DPO阶段则专注于补齐中等难度问题的能力,使模型综合性能提升了约15%。
此外,TeleChat2的Agent能力建设也表现卓越,特别是在指令分解、工具调用及任务完成等方面表现出色。在本次SuperCLUE榜单中,TeleChat2系列凭借基于图结构的多智能体框架,多阶段设计工具调用数据,成功提高了模型训练的真实性与复杂性。
中国电信通过不断的开源创新,构建了涵盖从3B到115B的全尺寸模型生态,为广泛应用场景提供适配方案。在政务服务、智慧教育和办公等领域,该模型已经落地。例如,在政务场景中,TeleChat2支撑了智能分类助手、智能客服等解决方案,极大提升了工作效率;在教育领域,该模型助力学生进行听说训练与诗歌创作等个性化学习;在企业办公中,其强大的语义理解能力让会议纪要生成工具实现了一键总结,推动了智能化办公的普及。
作为SuperCLUE榜单中唯一参评的央企模型机构,中国电信依托全国产化万卡集群和自主深度学习框架,打造了从技术到应用的全链条生态。凭借其卓越性能和开源贡献,星辰语义大模型荣获多项权威认证,成为推动国产AI技术进步的重要力量。