《完蛋!我被大模型包围了》
不知大家可还记得这个去年底刷爆AI圈的互动游戏,一天之内用户破万,又一天之内因流量过大而关停,作为独立开发者的作者,事了拂衣去,深藏功与名,也在江湖上留下了无尽传说。
实际上,“深藏功与名”对作者范浩强劲神来说,或许还并不恰当,“姚班天才”,“AI极客”,“多个世界第一”,“旷视6号员工”,“25岁的旷视研究院算法总监”这一个个闪着金光的标签,早就和作者的名字融为一体。
目前,多年深耕计算机视觉(Computer Vision,CV)领域,做出无数高影响力研究的浩强劲神,又带着他的最新力作回来了!
3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

论文标题:
MegActor- Harness the Power of Raw Video for Vivid Portrait Animation
论文链接:
https://arxiv.org/pdf/2405.20851.pdf
github项目:
https://megvii-research.github.io/MegFaceAnimate/
肖像动画(Portrait Animation),是一种将一个人的动作和面部表情从一个视频(一般被称为驱动视频,driving video)转移到另一个静态或动态的图像或视频上(一般被称为目标肖像,target portrait)的技术。这个过程的目标是在保持目标肖像的身份和背景不变的同时,使其面部表情和头部动作与驱动视频中的人物同步。
举个肖像动画的例子,左侧为原始驱动视频,右侧为基于驱动视频和目标肖像(每张图片左下角)生成的效果。

可以看到,右侧的人物被毫无违和感地被替换为了左侧人物的面部表情。
看起来就很炫酷吧,实际上肖像动画除了好玩,其应用场景还包括但不限于:
因此,如果能生成高质量的肖像动画,是超级有意义的。那具体是怎么实现的呢?
直觉上我们会想到将原始驱动视频作为训练蓝本,由于驱动视频往往具备更多的面部表情信息,不过在实际应用中原始视频却很少被充分使用。这部分宝藏之所以未能得到挖掘,主要在于两个问题:
如果能解决上述两点问题,将驱动视频充分利用起来,那么可预期地,将会实现肖像动画效果的进一步提升。而这篇工作,就旨在解决这一挑战。
本文选择了公开数据集,VFHQ和CelebV-HQ,在训练时,随机选择一帧作为第一帧,并以必定步长采样多个帧以形成用于训练的视频片段。对于每个视频片段,随机选择一帧作为参考图像,并以所有帧作为驱动视频和模型拟合的真值。
由于公开数据聚焦缺少不同个体执行一样动作的视频,原始视频需要在训练中同时充当驱动视频和真值,导致模型可能简单地复制驱动视频作为生成结果。为了解决这一身份泄露问题,作者使用ModelScope 3.1中的Face-Fusion生成了一部分AI人脸交换数据,并使用SDXL合成了一部分风格化数据。
由于人物的眼神方向应该与他们在视频中的动作和情感状态保持一致。如果眼神变化太大或不自然,可能会导致动画看起来不真实或令人感到不适。因此,本文使用L2CSNet评估帧间注视变化,并筛选出具有显著注视变化的视频。大约占总数据5%的被识别为具有显著注视变化。在使用所有数据进行第一阶段训练后,再使用具有显著注视变化的数据进行微调。
此外,本文使用pyFacer检测视频中每一帧的人脸,仅保留驱动视频中人脸的区域,将面部区域外的所有像素设置为黑色,以减少训练过程中背景信息的泄露。
同时,为了进一步避免驱动视频和真实视频一样导致的身份泄露,本文还对驱动视频进行了随机增强。增强技术包括灰度转换、随机调整大小和纵横比,做到在只影响面部形状而不改变面部表情或头部姿势的同时,还提供了额外的训练样本,由于驱动视频在面部结构上与参考图像不同,这样做还增强了模型对不同面部形状的泛化能力。

MegActor的结构分为如下几个部分:
本文使用AI人脸交换数据、风格化数据和真实数据作为驱动视频,比例分别为40%,10%和50%。并采取了两阶段训练方法,其中:
在推理阶段,本文实现了一种重叠滑动窗口方法来生成长视频,即每次推断16帧视频,重叠8帧,取两个生成区域重叠部分的平均值作为最终结果。
根据MegActor方法在跨身份数据上的测试结果显示,生成的动画能够在像素级别匹配参考图像的背景,保持与参考图像一样的身份信息,并成功复现驱动视频中的面部表情和头部动作,甚至包括细微的眼部运动。这证明MegActor在跨身份条件下的肖像动画生成方面具有出色的能力。MegActor生成效果示例如下:

为进一步验证效果,本文将MegActor的结果与现有最先进的肖像动画生成方法EMO进行比较(如下图)。使用EMO的测试视频作为驱动视频,并将这些视频的第一帧作为参考图像。结果显示,EMO在某些帧中存在模糊问题,如牙齿区域,而MegActor的结果则更为清晰。这进一步验证了MegActor方法的有效性和优越性。

尽管MegActor模型在基于原始驱动视频数据生成生动的肖像动画方面取得了显著进展,但仍存在一些局限性。第一,身份泄露问题虽然通过合成数据生成框架得到了缓解,但在极端情况下仍可能出现。其次,尽管MegActor通过CLIP编码和文本嵌入模块减少了背景噪声的干扰,但在动态的复杂背景下,模型的稳定性和生成质量仍有待提高。
针对现有的局限性,未来的工作可以从以下几个方向进行探索和改善:
MegActor模型作为一种先驱性的条件扩散模型,专为基于原始驱动视频的肖像动画生成而设计,它在动画生成领域展示了显著的创新和实用价值。该模型通过合成数据生成框架有效地解决了身份泄露问题,并通过精细的背景和前景处理技术,减少了无关信息的干扰,提高了动画的自然度和表现力。
此外,MegActor模型完全基于公开数据集进行训练,确保了结果的可复现性,并且与商业模型相比,展示了相当的竞争力。这一成就不仅推动了肖像动画技术的发展,也为开源社区提供了宝贵的资源,包括代码和模型权重的可公开访问。
总的来说,MegActor模型的开发为处理原始视频数据提供了新的视角和方法,其创新的技术方案和鼓舞人心的应用前景,预示着在数字媒体、虚拟现实和人机交互等领域的广泛潜力。
