要点速达👈
- 🚀面壁智能发布了MiniCPM-o 2.6,成为首个在端侧设备实现实时多模态交互的大型模型
- 💡MiniCPM-o 2.6在处理文本、图像、音频、视频数据时,表现出色,超越主流模型如GPT-4o
- 🎙️支持中英双语语音对话,具备情感、语速、语音风格控制及语音克隆等功能
- 📱该模型首次在iPad等移动端设备上实现与桌面级设备相当的AI能力
- 🌍OpenCompass综合榜单中MiniCPM-o 2.6获得70.2分,位居全球多模态大模型前沿
数智朋克讯,面壁智能近日推出其全新的端侧多模态模型MiniCPM-o 2.6。这款模型在8B参数量的基础上展现出了与当前领先的大型语言模型如GPT-4o、Claude 3.5 Sonnet等相媲美的强大性能。MiniCPM-o 2.6的发布不仅巩固了面壁智能在多模态技术领域的领先地位,还为用户提供了革命性的体验,特别是在移动设备上的应用场景,彻底打破了端侧设备的传统性能限制。
该模型采用了先进的端到端多模态架构,能够同时处理文本、图像、音频和视频等多种数据类型,实现高质量的文本生成和语音合成。在处理多模态流式数据方面,MiniCPM-o 2.6的性能甚至达到了与GPT-4o-202405级别相当的水平,展示了其在视觉、语音和多模态理解方面的强大潜力。与市场上其他闭源大模型相比,MiniCPM-o 2.6在理解单图能力上表现出明显的优势,超越了诸如GPT-4o和Claude 3.5 Sonnet等竞品。
值得关注的是,MiniCPM-o 2.6不仅支持中英双语的语音对话功能,还具备情感、语速和语音风格控制等多种先进功能,特别是在语音克隆和角色扮演等方面的能力,使得多模态的应用场景更加生动且富有互动性。
该模型是首个能够在iPad等移动端设备上实现实时多模态流式交互的大型模型,标志着端侧设备性能的一次飞跃,用户可以在移动设备上体验到与传统桌面级设备相媲美的AI处理能力。
在OpenCompass的综合榜单上,MiniCPM-o 2.6凭借其卓越的多模态理解和生成能力获得了70.2的平均分,进一步巩固了其在全球多模态大模型领域的领先地位。随着移动设备计算能力的不断提升,MiniCPM-o 2.6的发布将为智能设备的未来发展带来新的契机,尤其是在便携设备上的应用潜力巨大,预计将推动AI技术在更多实际场景中的普及应用。