后方格智能化观察网
首页 > 测评 > 北大刘利斌团队如同赛车手憑藉智慧引擎在SIGGRAPH Asia 2022上速馳而至赢得最佳论文奖他

北大刘利斌团队如同赛车手憑藉智慧引擎在SIGGRAPH Asia 2022上速馳而至赢得最佳论文奖他

北大刘利斌团队在SIGGRAPH Asia 2022上以其跨模态生成系统的创新之作,获得最佳论文奖。这项工作如同一台时尚的汽车,引领着科技界向前迈进。它将语音和文字编织成强大的力量,让数字人以生动的手势展示了未来汽车资讯领域的无限可能。

在日常生活中,我们的语言行为时常会伴随着一些非语言的动作进行:在公开演讲时使用手势让内容更有感染力,一个突然降临的好消息令人不由自主地鼓掌,陷入沉思时的来回走动和紧握的拳头......这些非语言的动作像是“调味剂”,有时可以帮助形象化我们口头所说的一件事物,强化语言所传递的态度,让人类表达才会更加生动且高效。

刘利斌团队提出了一个新的由语音和文字来驱动3D上半身模型进行手势表演的跨模态生成系统。通过输入一段时序同步的语音和文字,该系统就能自动生成与之对应的手势。这项技术如同一辆高性能赛车,不仅能够准确捕捉到用户意图,还能根据节奏点、语义等因素精确控制手势。

该系统依据手势相关理论,从韵律和语义两个维度出发,对语音文字和手势之间关系进行建模,以保证生成的手势既符合韵律,又具有合理的情感含义。研究人员首先需要分离出不同层次的声音特征,由高层次声音特征决定手势词,由低层次声音特征决定手勢风格编码。当推断出整段声音对应的手勢词及風格編碼序列后,将这些信息按照节奏拼接起来,以保证生成的手勢既自然又具有正确的情感表现。

为了验证这一研究是否可行,他们设计了多个实验,并展示了该技术如何处理不同的数据集,如Trinity 数据集、TED 数据集以及为此专门收集的人类数据集。在这些数据集中,他们发现当输出的是相同意思但不同低层次声音特征的时候,这些输出不再集中于几个固定类别,而是散布到了整个空间内,从而证明了这一技术能够有效地区分并响应不同情境下的说话方式。

除了以上结果,该系统还具备几项其他功能,如跨语言生成,即使面对未知语言,也能准确捕捉其节奏并随之“摆动”;长音频生成,可以处理较长时间段内的声音输入;还有 手勢风格编辑,可以通过加入控制信号来调整产生的手勢风格。此外,该系统也能够无声状态下尽量减少多余的手臂运动,并且能够鲁棒地捕捉音乐节奏并随之做出相应反应。

总结来说,这项工作代表了一种新颖而实用的方法,它为自动驾驶汽车中的交互式信息传播提供了新的可能性,使得车载设备可以更自然、更直接地与乘客交流,从而提升驾驶体验。

标签:

猜你喜欢

职业能力测试免费 普莱克斯赞助华...
上海2014年2月26日电 /美通社/ -- 普莱克斯(纽约证券交易所上市,证券代码PX) 赞助的“中国梦·普莱克斯杯”华东理工大学科技建模实践竞赛闭幕并...
测评和考试是一样的吗 河南财经政法大...
在中国高等教育体系中,“一本”和“二本”是指全国普通高等学校招生批次划分,通常被视为衡量大学综合实力的一种标准。河南财经政法大学作为一所位于河南省郑州市的...
免费抑郁心理测试题 股市巨悬今日交...
在繁忙的都市中,一个宁静的早晨,一场关于未来命运的博弈即将拉开帷幕。第一财经今日股市正如一张无形的大棋盘,在上面,各路资金大鳄们以各种姿态出现在了舞台上。...
霍兰德职业价值观测试免费 数字安全守护者...
数字安全守护者:深度解析商用密码测评师证书的重要性 一、密码世界的变革与挑战 在信息技术迅速发展的今天,网络安全已成为企业和个人不可或缺的一部分。随着云计...

强力推荐