产品概述
Emu Video 是 Meta 公司推出的文本到视频生成模型,基于扩散模型技术,采用创新的两步分解方法。首先根据文本提示生成一张高质量图像,然后再利用该图像和原始文本提示生成连贯的视频片段。这种分步策略大幅降低了训练难度,同时提升了生成视频的质量和分辨率。
核心优势
Emu Video 最大的亮点在于将视频生成过程拆解为“图像生成+视频生成”两个步骤,这使得模型训练更加高效稳定,无需复杂的数据增强或超参数调优。它能够直接生成 512×512 像素、4 秒时长、每秒 16 帧的高清视频,画面细腻流畅。
此外,Emu Video 采用统一架构,不仅支持纯文本输入,还支持纯图像输入以及文本+图像的组合输入,甚至可以对用户提供的静态图片进行动画处理。在人类评估中,96% 的受试者认为其视频质量优于现有模型(如 Make-a-Video、Imagen-Video),85% 认为其更忠实于文本描述。
适用场景
- **内容创作**:从简单的文字描述快速生成短视频,用于社交媒体或创意项目。
- **营销广告**:根据文案自动生成宣传视频,降低制作成本。
- **教育培训**:将教材内容转化为生动的教学视频,提升学习体验。
- **娱乐动画**:依据脚本或故事板生成动画片段,辅助前期可视化。