南洋理工大学研发DIRFA:仅需音频和照片,就能创造逼真数字人
要点:
1. 新加坡南洋理工大学的研究团队开发了一款名为DIverse yet Realistic Facial Animations(DIRFA)的计算机程序,可以仅通过音频和一个人的照片创建展示说话者面部表情和头部动作的逼真视频。
2. DIRFA是一种基于人工智能的程序,通过训练模型使用来自The VoxCeleb2Dataset的超过一百万个音频视觉剪辑,以预测语音中的线索并将其与面部表情和头部动作关联,从而生成与口头音频同步的3D视频。
3. 该技术有望在医疗保健等领域推动新应用,提高虚拟助手和聊天机器人的逼真程度,同时对于有言语或面部障碍的个体,可以通过表达性的化身或数字表示来帮助他们传达思想和情感,增强他们的沟通能力。
在这项最新的研究中,新加坡南洋理工大学的研究团队成功开发了一项名为DIverse yet Realistic Facial Animations(DIRFA)的计算机程序,该程序通过仅使用音频和一个人的照片,就能够生成逼真的视频,展示说话者的面部表情和头部动作。DIRFA是一种基于人工智能的程序,通过训练模型使用超过一百万个音频视觉剪辑,从而能够预测语音中的线索,并将其与面部表情和头部动作关联,从而生成与口头音频同步的3D视频。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究人员表示,相较于现有方法,DIRFA在处理姿势变化和情感控制方面取得了显著进展。这一技术创新有望在医疗保健等多个领域推动新应用,提高虚拟助手和聊天机器人的逼真程度,改善用户体验。同时,对于那些有言语或面部障碍的个体,DIRFA还可以作为一个强大的工具,通过表达性的化身或数字表示帮助他们传达思想和情感,提升他们的沟通能力。
研究团队的首席作者表示,语音表现出多种变化,而他们的方法从音频表示学的角度出发,致力于提高人工智能和机器学习的性能。此外,研究者们还指出,DIRFA能够生成具有准确的嘴唇运动、生动的面部表情和自然头部姿势的说话面孔。
然而,研究团队也表示他们正在努力改进DIRFA的界面,以允许用户控制某些输出,比如调整表情。此外,他们计划通过使用更广泛的数据集来进一步优化DIRFA的面部表情,其中包括更多不同的面部表情和语音音频剪辑。
总体而言,这项研究为多媒体交流领域带来了深远而革命性的影响,通过结合人工智能和机器学习等技术,实现了高度逼真的个体说话视频的创作。