北大刘利斌团队如同猎手般捕捉SIGGRAPH Asia 2022最佳论文奖语音文字共鸣的数字人挥洒着

在这篇文章中，我们将探索北京大学刘利斌团队的研究成果，他们凭借一项创新的跨模态生成系统，成功获得了SIGGRAPH Asia 2022最佳论文奖。这项系统能够通过语音和文字驱动数字人进行生动的手势表演，仿佛它们具有生命一般的表现力。

为了实现这一目标，刘利斌团队提出了一个层次化结构，将手势分为单元（gesture unit），每个单元包含多个阶段（gesture phase）。这些阶段被编码为手势词典中的元素，并与轻微变动相关联。研究人员假设这些变动无法直接从输入数据推断，因此将其编码为隐变量。

该系统依据语言学理论，从韵律和语义两个维度对语音、文字和手势之间的关系进行建模。它首先检测节奏点，然后根据高层次音频特征确定手势词，并根据低层次音频特征确定风格编码。最终，它使用学习生成器来预测未来的手势。

为了验证这个模型是否能实现“高层次音频特征决定偏语义的手势词”，研究人员分析了一类相似语义的高层次音频特征及其对应的手势序列。在可视化后，他们发现只有当出现特定高层次音频特征时，所生成的手势才集中于特定的类中心，这证实了上述假设。

此外，该系统还具备跨语言生成能力，即使面对没有训练过的语言也能合成出韵律和谐的手勢；长时间输入处理能力；以及可以编辑手勢風格以符合不同情境。此外，它能够捕捉到音乐节奏并随之“摆动”。

刘利斌教授是北京大学人工智能研究院前沿计算研究中心助理教授，他的主要研究领域包括计算机图形学、物理仿真、运动控制以及相关优化控制、机器学习等。他曾在加拿大不列颗哥伦比亚大学及美国迪士尼研究所进行博士后工作，并担任多个国际会议如 SIGGRAPH 的论文程序委员之一。

猜你喜欢