OpenAI推出GPT-4o语音模式：更快对话体验即将全面开放

要点速达👈

数智朋克消息，美国人工智能研究公司OpenAI于7月30日宣布，开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。与之前的语音模式不同，GPT-4o为多模态模型，能够在没有其他模型辅助的情况下处理将语音转换为文本、生成响应文本并将其转化为语音的任务，显著降低了对话的延迟。

OpenAI还透露，GPT-4o能够感知用户声音中的情绪语调，包括悲伤、兴奋或唱歌。目前，Alpha组用户将收到在ChatGPT中使用该功能的提醒和相关邮件说明。OpenAI计划在今年秋季向所有ChatGPT Plus用户开放语音模式。

数智朋克了解到，GPT-4o语音模式支持四种预设声音：Juniper、Breeze、Cove和Ember，这些声音由付费配音演员制作。此前，一款名为Sky的女性配音因与好莱坞明星斯嘉丽·约翰逊相似而被暂停使用。

为避免法律纠纷，OpenAI引入了新过滤器，确保软件能发现并拒绝生成受版权保护的音乐或其他音频的请求。今年6月，OpenAI收购初创公司Rockset，纳入其人才和技术，以利用其顶尖实时分析功能和关键技术“向量搜索”，进一步扩展AI应用场景。

数智资讯订阅