TokenFlow

无需训练,利用预训练文本到图像扩散模型,通过特征一致性实现高质量、连贯的文本驱动视频编辑。

Github 🆓 免费 🔓 开源
✨ 无需额外训练,直接使用预训练模型✨ 保持视频时空一致性,编辑自然流畅✨ 可兼容现有文本到图像编辑方法✨ 基于扩散特征传播,实现高质量编辑✨ 开源框架,社区可自由部署与定制
🌐 访问官网 →

产品概述

TokenFlow 是一个基于预训练文本到图像扩散模型的视频编辑框架,专注于实现文本驱动的连贯视频编辑。无需额外训练或微调,即可根据目标文本提示生成高质量视频,同时保留原始视频的空间布局和运动动态。该框架通过扩散特征空间中的一致性约束来确保编辑结果的自然流畅,并利用帧间对应关系传播编辑特征,从而避免逐帧编辑常见的闪烁和不连贯问题。

核心优势