后方格智能化观察网
首页 > 测评 > 北大刘利斌团队如同猎手般捕捉SIGGRAPH Asia 2022最佳论文奖语音文字共鸣的数字人挥洒着

北大刘利斌团队如同猎手般捕捉SIGGRAPH Asia 2022最佳论文奖语音文字共鸣的数字人挥洒着

在这篇文章中,我们将探索北京大学刘利斌团队的研究成果,他们凭借一项创新的跨模态生成系统,成功获得了SIGGRAPH Asia 2022最佳论文奖。这项系统能够通过语音和文字驱动数字人进行生动的手势表演,仿佛它们具有生命一般的表现力。

为了实现这一目标,刘利斌团队提出了一个层次化结构,将手势分为单元(gesture unit),每个单元包含多个阶段(gesture phase)。这些阶段被编码为手势词典中的元素,并与轻微变动相关联。研究人员假设这些变动无法直接从输入数据推断,因此将其编码为隐变量。

该系统依据语言学理论,从韵律和语义两个维度对语音、文字和手势之间的关系进行建模。它首先检测节奏点,然后根据高层次音频特征确定手势词,并根据低层次音频特征确定风格编码。最终,它使用学习生成器来预测未来的手势。

为了验证这个模型是否能实现“高层次音频特征决定偏语义的手势词”,研究人员分析了一类相似语义的高层次音频特征及其对应的手势序列。在可视化后,他们发现只有当出现特定高层次音频特征时,所生成的手势才集中于特定的类中心,这证实了上述假设。

此外,该系统还具备跨语言生成能力,即使面对没有训练过的语言也能合成出韵律和谐的手勢;长时间输入处理能力;以及可以编辑手勢風格以符合不同情境。此外,它能够捕捉到音乐节奏并随之“摆动”。

刘利斌教授是北京大学人工智能研究院前沿计算研究中心助理教授,他的主要研究领域包括计算机图形学、物理仿真、运动控制以及相关优化控制、机器学习等。他曾在加拿大不列颗哥伦比亚大学及美国迪士尼研究所进行博士后工作,并担任多个国际会议如 SIGGRAPH 的论文程序委员之一。

标签:

猜你喜欢

倍智人才测评 2016苹果新...
在当时的科技世界中,苹果公司是那一时代最具影响力和创新精神的企业之一。无论是他们的产品还是服务,都能引起全球用户的心跳加速。在2016年的这个特别之年,苹...
免费抑郁心理测试题 新品上市TCL...
深秋的凉意已然渐浓,全国各地气温持续下降,而南方地区也难逃不适的命运。早晚间,北方更是迎来了一丝寒意与雾霾的并存。此时,关闭门窗、开启空调暖风成为了人们日...
中关村评测对比 四房播播揭秘隐...
在一个风和日丽的下午,四房播播四房播播的清脆声音从古宅的大门口传出,似乎是整个小镇最温馨的声音。这个声音不仅是对一天工作告一段落的庆祝,也是对生活中点点滴...
北森人才测评系统怎么高分 新一代智能终端...
新一代智能终端:23年新品手机的技术进步与市场趋势分析 引言 随着科技的飞速发展,智能手机已经成为现代生活中不可或缺的一部分。23年即将到来的新品手机,其...

强力推荐