北大刘利斌团队如同赛车手憋足全力的冲刺SIGGRAPH Asia 2022 最佳论文奖成为他们的终点
北大刘利斌团队在SIGGRAPH Asia 2022上取得重大突破,研发了一款利用语音和文字驱动的数字人打手势系统。该系统能够通过输入时序同步的语音和文字来生成与之对应的手势动作,极大地提升了数字人表演的生动性和真实感。
这项工作中,刘利斌团队提出了一个新的跨模态生成系统,它可以将用户的声音、文字转换为3D上半身模型进行精准打手势。这一技术对于虚拟现实(VR)、增强现实(AR)以及其他需要复杂非语言交流场景具有重要价值。
研究人员首先从语言学角度出发,将日常交流中的手势行为分解为单个手势单元,每个手势单元由多个特定的动作阶段组成,这些阶段被称为手势词。通过分析大量数据,他们构建了一个包含这些基础运动块的层次化结构,并且设计了一个机制来根据输入语音高层次语义特征确定每个舞台所需的手势词,以及低层次音频特征影响当前舞台内轻微变动。
实验结果显示,该系统不仅能够捕捉到相似语义类别下高层次音频特征对应的手勢词,还能体现出低层次音频特征对当前舞台内轻微变动的影响。这种跨模态生成能力使得数字人在表达情感或强调某些信息时,可以更加自然而然地使用身体语言,从而增加了观众的情感共鸣和参与感。
此外,该系统还具备跨语言生成能力,即便是面对未曾见过的语言,也能创造出合适的手勢;长时间声音输入处理能力,使其能够处理较长时间段内连续的声音;还有风格编辑功能,让用户可以控制数字人的表现风格。此外,在无声状态下,该系统会尽量减少多余的手势,以保持流畅性;同时,它也能够鲁棒地识别音乐节奏并随之“摆动”,展现出高度的人工智能性能。