撕掉虚拟人「营业脸」 DreamTalk开源释机会

原文来源：元宇宙日爆

图片来源：由无界 AI生成

搭上AI大模型的春风，元宇宙概念期出圈的虚拟数字人又火了一把。结合人工智能自然语言大模型，用3D动画、动态捕捉、中之人等技术动起来、说起来的虚拟人，现在拥有“大脑”了。

AI化后，原本就能以文字、声音输出内容的虚拟人，在与外界交互时更显智能，输出的内容也在丰富度、专业性上提升了一个档次。更重要的是，AI提高了虚拟人在制作层面的生产力。

2023年，各种添加了人工智能元素的虚拟人被广泛用于内容播报、直播等场景中，成为电商、短视频博主们的新宠。

然而，不足始终存在。拟真类的虚拟人在表情、声音、动作上仍然能被识别到机器感，自然度、真实感远不能与人类的肉身媲美。一些开发者试图用AI大模型来弥补虚拟数字人的这个短板，DreamTalk就是解决方案之一。

这个基于扩散模型的框架由阿里巴巴、清华大学和华中科大共同研发，从“头”开始，不仅能让虚拟头像开口说话、唱歌，还能模仿表情变化、同步嘴形。

最近，DreamTalk开源了，这个框架有望为虚拟人注入“情绪”。

为虚拟人丰富声情言表

DreamTalk的绝活儿是仅凭一张头像图片，就可以让脸动起来，加上语音的输入，说起来也不成问题，而且还能对上嘴型和神态，然后生成一段头部说话的视频。

拟人从“学习”开始。基于大模型框架，DreamTalk可以从输入的语音和肖像中学习并推断出表达风格，生成有个性的表达视频。 即使使用同一音源，头像也能够表现出生气、开心、难过、鄙视等不同的情绪神态，并以相应的面部表情来表达。

DreamTalk支持多种人物表情

DreamTalk这类模拟人类表情的解决方案再次为虚拟人制作环节增加了一个工具，毕竟，情绪是当前虚拟人最匮乏的表现力。

喜上眉梢、横眉怒目、涕泗横流、笑逐颜开，人类的喜怒哀乐等情绪总是第一时间表达在脸上，再辅以语言呈现态度。而总想模拟人类的各种虚拟人人均一副“营业脸”，表情包里要么是“微笑”，要么是“扮酷”，情绪不能再多了，机器人语音虽然有各种腔调，但还是能让人识别出机器感。

今年初，小冰公司启动了“GPT克隆人计划”，将AI和虚拟人做了结合。由此而来的AI克隆人网红“半藏森林”上线后引起关注，但其僵硬的表情也让很多人吐槽体验不佳。

近期，小冰的克隆人上线了淘宝旗舰店，面部僵化的问题依然存在，有买家评论吐槽：“视频通话假的要死，跟博主半毛钱关系没有。”

中国传媒大学发布的调查显示，对不同类型的虚拟数字人，大众对其外形、人设、技术能力、服务能力有着明显的期待差异：60%以上的用户最关注虚拟偶像的外形和作品，66%的用户关注虚拟主播的主持风格， 50%的用户认为虚拟员工最重要的是技术服务以及跨界合作能力。

随着虚拟人以直播等方式走进与人类交互的场景时，需求正在朝着虚拟人的个性化发展衍生，尤其是当AI大模型出现后，解决虚拟人情绪甚至情感的方案将成为一个独立的赛道。

DreamTalk的开发方之一阿里巴巴此前就申请了“对话内容生成、虚拟对话、对话内容的数据处理方法”的专利。摘要显示，该申请通过构建情感关联图，可以深度理解引发对话情感的具体关键词，从而通过情感关键词预测目标关键词，有效地在对话回复内容中展现同理心，进而实现共情对话，提高对话内容生成的准确性。

进入2024年，市场对虚拟人的需求不再只是能说会动了，还得把“情绪价值”拉满。

AI给完「大脑」给「情绪」

能通过声音、图像适配情绪的DreamTalk类AI方案有望让虚拟人的“表情包”丰富起来，也会给虚拟人制作带来了便捷工具。

在技术上，虚拟人有机会借助AI拟态工具摆脱真人驱动的限制。

在“算法驱动型”虚拟人之前，虚拟人应用的实现往往依靠真人驱动，这就是我们常说的“中之人”，即借助真人通过动作捕捉设备进行形体、眼神、动作等的捕捉，然后才能进行驱动和渲染。一般而言，它的生产周期更长，成本也比较高。

花脸AI创始人刘威曾表示，只有实现虚拟人的快速生成，解决低成本大量复制、高频次内容产出两大问题，同时摆脱中之人的束缚，虚拟人才能有普遍的商业价值。

而“算法驱动型”的虚拟人，可以自驱动学习模特说话时的唇动、表情、语音，以及姿态和动作等等，不仅无需真人参与，还可以实现更快速的渲染，降低制作成本。所以，这种技术方法更适用于虚拟人的规模化制作。

在用户体验上，智能化的情感生成将有效提高虚拟人交互能力的提升。

目前已出现较多陪伴型虚拟人应用，其中一款名为Talkie的虚拟陪伴APP在在海外已有百万日活。从去年8月开始，这款应用的下载量一直在高位徘徊，并长期霸占着美国Google Play娱乐应用下载榜前十的位置。除了美国之外，在新西兰、英国、加拿大、澳大利亚这些发达市场，Talkie同样取得了不错的成绩。