Nebula XAI

Experience the future artificial intelligence

发现W.A.L.T：一种革命模型，生成图像或文本的视频

February 7, 2024

张颖

W.A.L.T是什么，该模型从图像或文本生成视频？

2023年12月27日，斯坦福大学，Google Research和Georgia理工学院的研究人员介绍了窗户注意力潜伏变压器（W.A.L.T）模型。利用变压器神经网络体系结构并为潜在视频扩散模型（LVDMS）提供新颖的方法，它促进了从静态图像或文本描述中产生的感性视频。

### W.A.L.T团队的创新方法

研究人员使用自动编码器将视频和图像映射到降低维度的统一潜在空间，从而使学习和产生跨越模态。通过培训W.A.L.T对视频和图像的同时培训，他们从一开始就为运动提供了更深入的了解。

此外，变压器块的专门设计使他们可以对潜在的视频扩散进行建模。这些障碍在空间和时空自我发项层之间交替，空间注意力仅限于窗口。该设计提供了很大的优势，包括由于局部窗户的关注而减少了计算需求，以及独立处理图像和视频帧的联合培训的可能性。

### W.A.L.T的出色表现

研究小组指出：“综上所述，这些设计选择使我们能够在既定视频（UCF-101和Kinetics-600）和Image（Imagenet）生成基准上实现最先进的性能，而无需使用无分类器指导。 “

图像和视频被编码到共享的潜在空间中。变压器主链通过具有两个窗户限制的注意的块处理这些潜在的块：空间层在图像和视频中捕获空间关系，而时空层则在视频中模型的时间动力学并通过身份注意力掩模过渡图像。文本条件是通过空间跨注意完成的。

研究人员培训了三个模型的级联，用于文本到视频生成任务：产生小型128 x 128像素剪辑的基本潜在视频扩散模型，由两个超级分辨率视频扩散模型进行了更新，该模型产生了3.6秒的视频，在8每秒帧，达到512 x 896像素的分辨率。

W.A.L.T展示了强劲的性能，尤其是在视频平稳性方面，并且似乎验证了研究人员的断言：“图像和视频的统一框架将弥合图像和视频生成之间的差距”。

### W.A.L.T对文本到视频生成领域的贡献

W.A.L.T是对文本到视频生成领域的重要贡献，提供了几个关键优势：

1. **统一的框架：**通过在图像和视频上训练单个模型，W.A.L.T对视觉内容有了全面的了解，使其能够生成既现实又连贯的视频。

2. **注意力的注意力：**使用窗口的注意力使W.A.L.T可以专注于视频的本地区域，从而降低计算成本并提高培训效率。

3. **最新的性能：** W.A.L.T在既定的视频和图像生成基准中实现最新的结果，这表明了其在从文本或图像提示中生成高质量视频时的出色性能。

W.A.L.T的功能为创意内容，视频编辑以及娱乐，教育及其他地区的各种应用开辟了新的可能性。它代表了AI驱动视频合成领域的重要一步。