Google 近日推出Lumiere,一款创新的生成式人工智能工具,专门设计用于基于文本提示生成高度逼真的图像和视频。Lumiere的一大创新之处在于,它能够同时生成视频的所有帧,避免了使用关键帧和后续训练所带来的不连贯性。这种方法不仅提高了动作的逼真度,而且显著优化了生成效果。
Lumiere利用了扩散概率模型和时空U-Net架构。时空U-Net对时间进行放大和缩小处理,并在图像中增加注意力区块,这增强了视频的动态感和细节丰富度。此外,Lumiere的这一工具能与其他多种模型结合使用,进一步提升生成图像和视频的逼真度。
Lumiere的应用领域广泛,包括将电影胶片的单一部分转化为动画、在动画视频中替换物体、变换艺术风格、从图像制作动画到创建不同艺术风格的视频等。然而,目前Lumiere所能创建的视频长度最长为5秒,且尚不支持视频转换和多角度摄影。值得注意的是,使用Lumiere需要高性能的图形处理能力,标准GPU可能不足以支持。