北大刘利斌团队如同天鹅绽放荣获SIGGRAPH Asia 2022最佳论文奖语音文字共舞数字人随之挥
北大刘利斌团队在数字人领域实现了语音文字交互的突破,荣获SIGGRAPH Asia 2022最佳论文奖。他们提出了一个跨模态生成系统,能够根据语音和文字输入同步驱动数字人进行手势表演。该系统首先将语音分割成节拍块,并从这些块中提取特征,然后使用这些特征来预测手势序列,同时考虑到高层次语义特征决定偏向于含义丰富的手势词,而低层次音频特征影响当前手势词内的轻微变动。
通过对多个数据集的训练,该系统能够学习到不同的手势风格,并且可以根据输入的文本内容和语调生成合适的手势。实验结果显示,该系统能够有效地捕捉到语言中的韵律信息,并与之产生相匹配的手势,从而提高了数字人的交流效率。
此外,该系统还具有跨语言生成能力,即使面对未见过的语言也能准确地生成相应的手勢;长音频处理能力,可以处理较长时间段内的声音输入;以及手勢风格编辑功能,使得用户可以控制生成出的手勢风格。此项研究不仅为人机交互提供了新的视觉展示方式,也为电影、广告等行业提供了一种创新的表现形式。