北大刘利斌团队如同赛车手憑藉智慧引擎在SIGGRAPH Asia 2022上速馳而至赢得最佳论文奖他
北大刘利斌团队在SIGGRAPH Asia 2022上以其跨模态生成系统的创新之作,获得最佳论文奖。这项工作如同一台时尚的汽车,引领着科技界向前迈进。它将语音和文字编织成强大的力量,让数字人以生动的手势展示了未来汽车资讯领域的无限可能。
在日常生活中,我们的语言行为时常会伴随着一些非语言的动作进行:在公开演讲时使用手势让内容更有感染力,一个突然降临的好消息令人不由自主地鼓掌,陷入沉思时的来回走动和紧握的拳头......这些非语言的动作像是“调味剂”,有时可以帮助形象化我们口头所说的一件事物,强化语言所传递的态度,让人类表达才会更加生动且高效。
刘利斌团队提出了一个新的由语音和文字来驱动3D上半身模型进行手势表演的跨模态生成系统。通过输入一段时序同步的语音和文字,该系统就能自动生成与之对应的手势。这项技术如同一辆高性能赛车,不仅能够准确捕捉到用户意图,还能根据节奏点、语义等因素精确控制手势。
该系统依据手势相关理论,从韵律和语义两个维度出发,对语音文字和手势之间关系进行建模,以保证生成的手势既符合韵律,又具有合理的情感含义。研究人员首先需要分离出不同层次的声音特征,由高层次声音特征决定手势词,由低层次声音特征决定手勢风格编码。当推断出整段声音对应的手勢词及風格編碼序列后,将这些信息按照节奏拼接起来,以保证生成的手勢既自然又具有正确的情感表现。
为了验证这一研究是否可行,他们设计了多个实验,并展示了该技术如何处理不同的数据集,如Trinity 数据集、TED 数据集以及为此专门收集的人类数据集。在这些数据集中,他们发现当输出的是相同意思但不同低层次声音特征的时候,这些输出不再集中于几个固定类别,而是散布到了整个空间内,从而证明了这一技术能够有效地区分并响应不同情境下的说话方式。
除了以上结果,该系统还具备几项其他功能,如跨语言生成,即使面对未知语言,也能准确捕捉其节奏并随之“摆动”;长音频生成,可以处理较长时间段内的声音输入;还有 手勢风格编辑,可以通过加入控制信号来调整产生的手勢风格。此外,该系统也能够无声状态下尽量减少多余的手臂运动,并且能够鲁棒地捕捉音乐节奏并随之做出相应反应。
总结来说,这项工作代表了一种新颖而实用的方法,它为自动驾驶汽车中的交互式信息传播提供了新的可能性,使得车载设备可以更自然、更直接地与乘客交流,从而提升驾驶体验。