近日,字节跳动(ByteDance)发布了一种名为FlashVideo的创新两阶段视频模型。该技术通过独特的双阶段架构,在保持视频生成质量的同时显著降低计算成本,为动态人脸个性化等应用场景提供了高效解决方案。
当前主流的扩散转换模型(Diffusion Transformer,DiT)虽然在文本生成视频领域表现出色,但其单阶段架构存在明显缺陷。为了在高分辨率输出中实现细节精度,往往需要消耗大量计算资源,这不仅导致生成速度缓慢,也限制了模型在普通设备上的应用。
FlashVideo创新性地采用两阶段生成框架:
实验数据表明,该方案在1080P视频生成任务中展现出显著优势:
研究团队指出,这种"先整体后局部"的设计思路不仅保证了人物身份特征的稳定延续,还能在发型、妆容等细节层面实现精准控制,对需要多图输入的个性化视频合成特别重要。
FlashVideo的技术突破降低了专业级视频制作门槛,为普通用户开启了创意表达的新可能。从电商虚拟试妆到个性化短剧创作,该技术有望在多个领域带来创新应用。研究团队透露,目前正在探索将该框架与现有AI工具链整合,未来可能以API形式开放商用。