Meta开发的文本生成视频模型，采用两步分解法：先根据文字生成图像，再结合文本和图像生成4秒高分辨率视频，每秒16帧，效果逼真。

产品概述

Emu Video 是 Meta 公司推出的文本到视频生成模型，基于扩散模型技术，采用创新的两步分解方法。首先根据文本提示生成一张高质量图像，然后再利用该图像和原始文本提示生成连贯的视频片段。这种分步策略大幅降低了训练难度，同时提升了生成视频的质量和分辨率。

核心优势

Emu Video 最大的亮点在于将视频生成过程拆解为“图像生成+视频生成”两个步骤，这使得模型训练更加高效稳定，无需复杂的数据增强或超参数调优。它能够直接生成 512×512 像素、4 秒时长、每秒 16 帧的高清视频，画面细腻流畅。此外，Emu Video 采用统一架构，不仅支持纯文本输入，还支持纯图像输入以及文本+图像的组合输入，甚至可以对用户提供的静态图片进行动画处理。在人类评估中，96% 的受试者认为其视频质量优于现有模型（如 Make-a-Video、Imagen-Video），85% 认为其更忠实于文本描述。

适用场景

**内容创作**：从简单的文字描述快速生成短视频，用于社交媒体或创意项目。
**营销广告**：根据文案自动生成宣传视频，降低制作成本。
**教育培训**：将教材内容转化为生动的教学视频，提升学习体验。
**娱乐动画**：依据脚本或故事板生成动画片段，辅助前期可视化。