谷歌推出Lumiere：文本提示驱动的逼真图像和视频生成器

Google 近日推出Lumiere，一款创新的生成式人工智能工具，专门设计用于基于文本提示生成高度逼真的图像和视频。Lumiere的一大创新之处在于，它能够同时生成视频的所有帧，避免了使用关键帧和后续训练所带来的不连贯性。这种方法不仅提高了动作的逼真度，而且显著优化了生成效果。

Lumiere利用了扩散概率模型和时空U-Net架构。时空U-Net对时间进行放大和缩小处理，并在图像中增加注意力区块，这增强了视频的动态感和细节丰富度。此外，Lumiere的这一工具能与其他多种模型结合使用，进一步提升生成图像和视频的逼真度。

Lumiere的应用领域广泛，包括将电影胶片的单一部分转化为动画、在动画视频中替换物体、变换艺术风格、从图像制作动画到创建不同艺术风格的视频等。然而，目前Lumiere所能创建的视频长度最长为5秒，且尚不支持视频转换和多角度摄影。值得注意的是，使用Lumiere需要高性能的图形处理能力，标准GPU可能不足以支持。

谷歌推出Lumiere：文本提示驱动的逼真图像和视频生成器

数智资讯订阅