Emu Video

Meta开发的文本生成视频模型,采用两步分解法:先根据文字生成图像,再结合文本和图像生成4秒高分辨率视频,每秒16帧,效果逼真。

ai-write 🆓 免费
✨ 两步分解法高效生成视频✨ 512×512 高清分辨率输出✨ 每秒16帧流畅视频效果✨ 支持文本、图像及组合输入✨ 人类评估质量领先竞品
🌐 访问官网 →

产品概述

Emu Video 是 Meta 公司推出的文本到视频生成模型,基于扩散模型技术,采用创新的两步分解方法。首先根据文本提示生成一张高质量图像,然后再利用该图像和原始文本提示生成连贯的视频片段。这种分步策略大幅降低了训练难度,同时提升了生成视频的质量和分辨率。

核心优势

Emu Video 最大的亮点在于将视频生成过程拆解为“图像生成+视频生成”两个步骤,这使得模型训练更加高效稳定,无需复杂的数据增强或超参数调优。它能够直接生成 512×512 像素、4 秒时长、每秒 16 帧的高清视频,画面细腻流畅。 此外,Emu Video 采用统一架构,不仅支持纯文本输入,还支持纯图像输入以及文本+图像的组合输入,甚至可以对用户提供的静态图片进行动画处理。在人类评估中,96% 的受试者认为其视频质量优于现有模型(如 Make-a-Video、Imagen-Video),85% 认为其更忠实于文本描述。

适用场景