北大刘利斌团队如同赛车手憑藉智慧引擎在SIGGRAPH Asia 2022上速馳而至赢得最佳论文奖他

北大刘利斌团队在SIGGRAPH Asia 2022上以其跨模态生成系统的创新之作，获得最佳论文奖。这项工作如同一台时尚的汽车，引领着科技界向前迈进。它将语音和文字编织成强大的力量，让数字人以生动的手势展示了未来汽车资讯领域的无限可能。

在日常生活中，我们的语言行为时常会伴随着一些非语言的动作进行：在公开演讲时使用手势让内容更有感染力，一个突然降临的好消息令人不由自主地鼓掌，陷入沉思时的来回走动和紧握的拳头......这些非语言的动作像是“调味剂”，有时可以帮助形象化我们口头所说的一件事物，强化语言所传递的态度，让人类表达才会更加生动且高效。

刘利斌团队提出了一个新的由语音和文字来驱动3D上半身模型进行手势表演的跨模态生成系统。通过输入一段时序同步的语音和文字，该系统就能自动生成与之对应的手势。这项技术如同一辆高性能赛车，不仅能够准确捕捉到用户意图，还能根据节奏点、语义等因素精确控制手势。

该系统依据手势相关理论，从韵律和语义两个维度出发，对语音文字和手势之间关系进行建模，以保证生成的手势既符合韵律，又具有合理的情感含义。研究人员首先需要分离出不同层次的声音特征，由高层次声音特征决定手势词，由低层次声音特征决定手勢风格编码。当推断出整段声音对应的手勢词及風格編碼序列后，将这些信息按照节奏拼接起来，以保证生成的手勢既自然又具有正确的情感表现。

为了验证这一研究是否可行，他们设计了多个实验，并展示了该技术如何处理不同的数据集，如Trinity 数据集、TED 数据集以及为此专门收集的人类数据集。在这些数据集中，他们发现当输出的是相同意思但不同低层次声音特征的时候，这些输出不再集中于几个固定类别，而是散布到了整个空间内，从而证明了这一技术能够有效地区分并响应不同情境下的说话方式。

除了以上结果，该系统还具备几项其他功能，如跨语言生成，即使面对未知语言，也能准确捕捉其节奏并随之“摆动”；长音频生成，可以处理较长时间段内的声音输入；还有手勢风格编辑，可以通过加入控制信号来调整产生的手勢风格。此外，该系统也能够无声状态下尽量减少多余的手臂运动，并且能够鲁棒地捕捉音乐节奏并随之做出相应反应。

总结来说，这项工作代表了一种新颖而实用的方法，它为自动驾驶汽车中的交互式信息传播提供了新的可能性，使得车载设备可以更自然、更直接地与乘客交流，从而提升驾驶体验。