DIGIPUNK
去投稿
发表于:2024年11月09日

智谱多模态模型升级:视频生成产品“清影”引入音效、4K 支持及更真实动作模拟

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🎬 清影新版本支持 10 秒、4K、60 帧视频生成,动态画面更流畅。
  • 🔊 CogSound 音效模型可生成与画面匹配的精细音效,提升沉浸感。
  • 🌍 智谱多模态矩阵涵盖图像、视频、音频,完善 AI 智能感知能力。
  • 🤝 智谱与首都在线等多家公司展开合作,推进大模型国产化落地。
  • 📈 多家企业使用智谱模型提升行业应用,加速 AI 在各行业的落地。

数智朋克消息,智谱科技近日宣布,基于其 CogVideoX 模型与全新音效模型 CogSound 的技术突破,升级版视频生成产品“清影”正式上线,显著提升了生成视频的时长、画质及细节表现能力。清影现支持生成 10 秒、4K 分辨率、60 帧的超高清视频,拥有更加流畅的动态表现,同时新增了多通道生成功能,可从一张图或一条指令生成四段不同的视频版本。这一更新展现了智谱在 AI 视频生成领域的领先水平,也为用户提供了更丰富的创意空间。

在画面表现上,清影的图生视频模型能够更好地捕捉人物面部表情、肢体动作及场景物理细节,进一步增强了画面真实感与自然度。此外,最新的音效模型 CogSound 使视频生成音效与画面内容更为匹配,精准模拟各类情境下的声音特征,如水流、爆炸、动物叫声等。CogSound 利用 GLM-4V 进行视频语义理解和情感分析,赋予生成的音频更丰富的表现力,将在本月开启公测,用户可体验 AI 创作的实时音效生成。

智谱团队表示,多模态 AI 的智能化需要综合视觉、听觉等感知能力,这也是智谱构建从图像、视频到音效的一体化 AI 模型矩阵的核心理念。其多模态模型矩阵已涵盖了文本到图像、文本到视频、视频理解等多个领域,而随着 CogSound 和音频模型 CogMusic 的加入,智谱的多模态模型生态体系逐步完善。该技术在电影、广告等创意行业具有广泛应用前景,有望显著缩短制作周期,降低制作成本。

资本市场上,智谱近期成为热点概念股,其智能体产品 AutoGLM 受到多家上市公司青睐,推动其在智能算力、GPU 适配及区域智算中心等关键领域展开深度合作。首都在线、金现代和彩讯股份等企业已宣布与智谱建立生态合作,以利用智谱的 ChatGLM4、大模型商业化及算力平台技术,助力智谱多模态大模型在各行业落地。首都在线表示,双方将在智能算力集群建设等方面展开合作,推动国产芯片与智谱大模型适配,进一步推进国产化信创进程。彩讯股份通过其 RichAICloud 提高了 GLM-4 的推理速度,为智谱模型的成本控制和规模应用奠定了基础。

本文链接: https://www.shuzhipunk.com/articles/fnPY5t180Hs
转载请注明文章出处

文章所属标签
智谱科技
清影视频生成
CogVideoX