最新游戏资讯依图科技征服声纹识别大赛智能语音技术再添一冠
依图科技在国际声纹识别大赛中再次屈指可数,凭借其卓越的智能语音技术和创新的算法,依图团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019 中夺冠。他们的等错误率 (EER) 为0.0098,大幅领先第二名,并且显示出使用小数据取得优于其他使用大量数据的表现,这明显证明了中国声纹识别技术已经达到世界领先水平。
声纹识别是一种通过声音来判断说话人的身份的技术,它与语音识别不同,后者主要是判断「说了什么」,而前者则是判断「是谁说的」。这种技术广泛应用于生物身份确认和识别领域。深度学习技术自2012年以来成为主流,使得机器能够自动发现声音特征中的信息差异,从而「学会」这些特征。
虽然目前这个领域还处于探索阶段,但其应用前景非常广阔。例如,将声纹识别结合到会议录音转录中,可以自动标注出谁在什么时候说了什么,大大提高工作效率。而随着技术不断成熟和融合,声纹识別将逐渐融入我们的日常生活,为不同的应用场景提供针对性开发带来巨大的价值。
VoxSRC 是一个由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院(SRI International)和 MIT 的研究者联合发起的全球声纹认证比赛,被认为是「voice recognition界的ImageNet比赛」。它基于开源数据集 VoxCeleb,由牛津大学团队于2017年发布,是目前全球规模最大、标注最完备的一份开源数据集之一。这份数据集来自YouTube名人采访视频,包含多样化的声音样本超过100万段,在不同的环境下进行记录,有背景噪音、笑话重叠等情况,以考验算法实战能力。
评估算法性能时,我们会关注等错误率(EER),这是系统误判与拒绝判决相遇时发生的错误百分比。更低的 EER 值表示更好的系统性能。在这次竞赛中,依图团队以0.0098 EER值获得冠军,比无约束条件下的冠军成绩更加优秀。这不仅证明了中国AI科技公司在国际舞台上的强势,也展示了他们如何利用小量数据取得优异成绩,同时展现了中国AI行业引领世界潮流的情况。此外,他们此前的成就也包括视觉感知、自然语言处理和智能决策等多个领域独占鳌头。
未来,依图计划继续投入资源到多模态技术融合,以及软硬件协同开发上,将世界级的人工智能算法与行业场景紧密结合,以推动人工智能应用落地。(雷锋网 AI 科技评论编者按)