OpenAI在旧金山展示多模态AI新进展，预测GPT Next年底发布

在昨日的旧金山AI工程师世界博览会上，OpenAI开发者关系负责人Romain Huet进行了关于多模态AI模型最新进展及其应用的演讲。Huet展示了多个ChatGPT的实时语音和多模态功能，揭示了AI技术的前沿发展。

Huet演示了Sora的声音克隆功能，这项技术能够使用用户的声音为生成的视频配音，并支持多种语言。其次，他展示了ChatGPT的实时语音功能，包括调整说话语气、快速摄像头OCR内容识别和随时打断的能力。他还展示了ChatGPT桌面内容共享和剪切板共享功能，帮助编写代码和调试。

Huet还提到了即将发布的新模型GPT Next，预计在2024年底推出，该模型的智能水平将是GPT-4的两倍。该消息引起了广泛关注，预示着AI技术将迎来又一次重大飞跃。

在演讲中，Huet还透露了OpenAI未来的四大重点发展领域。尽管多模态技术发展迅速，提升文本智能仍是关键，未来模型的推理能力将大幅提高。其次，OpenAI计划推出不同大小和价格的模型，以满足各种需求。第三，OpenAI将提供广泛的定制化服务，包括微调API，帮助企业根据自身需求定制模型。最后，OpenAI致力于发展多模态AI代理技术，这些代理将能够更好地感知和管理复杂任务。

OpenAI在旧金山展示多模态AI新进展，预测GPT Next年底发布

数智资讯订阅