智谱多模态模型升级：视频生成产品“清影”引入音效、4K 支持及更真实动作模拟

要点速达👈

🎬 清影新版本支持 10 秒、4K、60 帧视频生成，动态画面更流畅。
🔊 CogSound 音效模型可生成与画面匹配的精细音效，提升沉浸感。
🌍 智谱多模态矩阵涵盖图像、视频、音频，完善 AI 智能感知能力。
🤝 智谱与首都在线等多家公司展开合作，推进大模型国产化落地。
📈 多家企业使用智谱模型提升行业应用，加速 AI 在各行业的落地。

数智朋克消息，智谱科技近日宣布，基于其 CogVideoX 模型与全新音效模型 CogSound 的技术突破，升级版视频生成产品“清影”正式上线，显著提升了生成视频的时长、画质及细节表现能力。清影现支持生成 10 秒、4K 分辨率、60 帧的超高清视频，拥有更加流畅的动态表现，同时新增了多通道生成功能，可从一张图或一条指令生成四段不同的视频版本。这一更新展现了智谱在 AI 视频生成领域的领先水平，也为用户提供了更丰富的创意空间。

在画面表现上，清影的图生视频模型能够更好地捕捉人物面部表情、肢体动作及场景物理细节，进一步增强了画面真实感与自然度。此外，最新的音效模型 CogSound 使视频生成音效与画面内容更为匹配，精准模拟各类情境下的声音特征，如水流、爆炸、动物叫声等。CogSound 利用 GLM-4V 进行视频语义理解和情感分析，赋予生成的音频更丰富的表现力，将在本月开启公测，用户可体验 AI 创作的实时音效生成。

智谱团队表示，多模态 AI 的智能化需要综合视觉、听觉等感知能力，这也是智谱构建从图像、视频到音效的一体化 AI 模型矩阵的核心理念。其多模态模型矩阵已涵盖了文本到图像、文本到视频、视频理解等多个领域，而随着 CogSound 和音频模型 CogMusic 的加入，智谱的多模态模型生态体系逐步完善。该技术在电影、广告等创意行业具有广泛应用前景，有望显著缩短制作周期，降低制作成本。

资本市场上，智谱近期成为热点概念股，其智能体产品 AutoGLM 受到多家上市公司青睐，推动其在智能算力、GPU 适配及区域智算中心等关键领域展开深度合作。首都在线、金现代和彩讯股份等企业已宣布与智谱建立生态合作，以利用智谱的 ChatGLM4、大模型商业化及算力平台技术，助力智谱多模态大模型在各行业落地。首都在线表示，双方将在智能算力集群建设等方面展开合作，推动国产芯片与智谱大模型适配，进一步推进国产化信创进程。彩讯股份通过其 RichAICloud 提高了 GLM-4 的推理速度，为智谱模型的成本控制和规模应用奠定了基础。

智谱多模态模型升级：视频生成产品“清影”引入音效、4K 支持及更真实动作模拟

数智资讯订阅