DIGIPUNK
去投稿
发表于:2024年08月15日

阿里通义大模型推出Qwen2-Audio,实现无文本语音问答功能

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🆕 阿里巴巴发布Qwen2-Audio,新增语音问答功能。
  • 🎤 Qwen2-Audio可理解并分析人声、自然音、音乐等音频信号。
  • 📊 通义团队推出音频理解模型测评基准,设立行业新标准。
  • 🎓 Qwen2-Audio相关研究入选ACL 2024国际会议。

数智朋克报道,阿里巴巴的通义大模型家族继续扩展,Qwen2系列迎来了全新成员——音频语言模型Qwen2-Audio。该模型能够在无需文本输入的情况下,直接进行语音问答,展现出对音频信号的强大理解和分析能力。Qwen2-Audio不仅能够处理人声,还能理解自然音和音乐等多种音频信号,为语音交互应用带来了新的可能性。

与Qwen2-Audio一同推出的,还有通义团队开发的一套全新音频理解模型测评基准,为行业内的音频处理技术提供了新的标准。这项创新研究也已成功入选本周举办的国际计算语言学顶会ACL 2024,展示了阿里巴巴在人工智能前沿领域的持续创新力。

 

本文链接: https://www.shuzhipunk.com/articles/ovzxcuqxgvm
转载请注明文章出处

文章所属标签
阿里通义
Qwen2-Audio
ACL 2024