心流logo

字节跳动新AI:让静态照片动起来 AI生成的逼真人物视频会带来哪些社会影响? 如何平衡AI技术创新与伦理风险? 这项技术将如何改变数字内容创作?

技术突破

字节跳动推出了新一代人工智能框架DreamActor-M1,该框架能够将静态参考图片转化为逼真的人物动画。这一技术通过解决当前动画模型中的关键问题,实现了更精细的控制、更强的适应性和更好的一致性。

该框架是继悟空(Goku)和无限你(InfiniteYou)人工智能模型之后,字节跳动发布的又一重要产品。

核心技术

DreamActor-M1基于扩散变换器(Diffusion Transformer,DiT)架构,采用混合引导方法实现效果。该模型结合了隐式面部表示、3D头部球体和3D身体骨骼,实现了对面部表情和身体动作的精确控制。

为了适应不同的人体姿态和图像尺度,研发团队采用渐进式策略,在多种分辨率和比例的数据集上进行训练。通过将连续帧中的运动模式与补充性视觉参考相结合,DreamActor-M1成功解决了复杂动作中未见区域的挑战,确保了长时间序列的一致性。

性能评估

研究团队将DreamActor-M1与多个领先的人物图像动画模型进行了全面对比。

在身体动画方面,对比对象包括Animate Anyone、Champ、MimicMotion和DisPose。在人像动画领域,则与LivePortrait、X-Portrait、SkyReels-A1和Runway Act-One进行了评估。

测试结果表明,DreamActor-M1在生成更具表现力和一致性的动画方面显著优于现有方法。

安全与局限性

研究人员高度重视AI技术的伦理使用。他们表示:"为降低潜在风险,我们制定了明确的道德规则和使用指南,并将严格限制核心模型和代码的访问权限。所有测试用的图像和视频均来自公开渠道。"

目前,该模型在动态相机移动控制方面仍存在局限。同时,在生成与环境对象的物理交互效果方面也面临挑战。研究团队表示将在后续工作中着重解决这些问题,进一步提升模型性能。