测评

AI读图会意首超人类阿里达摩院刷新全球机器视觉问题纪录

AI 科技评论报道

编辑 陈大鑫

给大家出一道视觉问答题:在下面这张图片中,根据有礼服装饰的小熊玩具照片推理出这些玩具用来做什么的?

一个可能的答案或许是“婚礼”~
这道题对人类而言太简单不过了,那么对 AI 来说呢?
AI 在这视觉问答方面能和人类相比吗?
答案来了——历时6年,在机器视觉问答领域,第一位得分超越人类的AI选手诞生了!

8月12日,AI 科技评论注意到,国际权威机器视觉问答榜单 VQA Leaderboard出现关键突破:阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。继2015年、2018年AI分别在视觉识别及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。

图注:达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录

比较难得的是,3年前,让中国AI在文本理解领域历史性超越人类的,同样是达摩院AI研究团队。

1

VQA是什么?

近10年来,AI技术保持高速发展,AI模型已在多个任务和技能上达到超越人类的水平,比如在游戏领域,强化学习智能体 AlphaGo 2016 年击败了世界顶尖棋手李世石;在视觉理解领域,以 CNN 为代表的卷积类模型 2015 年在 ImageNet视觉分类任务上超越了人类成绩;在文本理解领域,2018年微软与阿里几乎同时在斯坦福SQuAD挑战赛上让 AI 阅读理解超越了人类基准。

然而,在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI 过去始终未取得超越人类水平的突破。

“诗是无形画,画是有形诗。”宋代诗人张舜民曾如此描绘语言与视觉的相通之处。随着深度学习、视觉理解、文本理解等领域高速发展,自然语言技术与计算机视觉交融逐渐成为多模态领域重要的前沿研究方向。其中,VQA是多模态领域挑战极高的核心任务,解决VQA挑战,对研发通用人工智能具有重要意义。

为鼓励攻克这一难题,全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与,形成了国际上规模最大、认可度最高的VQA数据集,其包含超20万张真实照片、110万道考题。

VQA 是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。

今年6月,阿里达摩院在 VQA 2021 Challenge 的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQA Leaderboard全球纪录,首次超越人类基准线80.83%。

这一结果意味着,AI 在封闭数据集内的 VQA 表现已媲美人类。

面对更开放的现实世界,AI一定会遇到新的挑战,需要喂更多的数据、进一步提升模型。但和 CV 等领域的发展一样,这一结果依然具有标志性意义,相信VQA技术在现实中的表现提升只是时间问题。

图注:VQA技术自2015年的进展
2

VQA分数超人类如何诞生?

VQA挑战的核心难点在于,需在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解,即在统一模型里做不同模态的语义映射和对齐。

据了解,为了解决VQA挑战,达摩院语言技术实验室及视觉实验室对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括:

  1. 多样性的视觉特征表示,从各方面刻画图片的局部和全局语义信息,同时使用Region,Grid,Patch等视觉特征表示,以更精准地进行单模态理解;
  2. 基于海量图文数据和多粒度视觉特征的多模态预训练,用于更好地进行多模态信息融合和语义映射,创新性地提出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等预训练模型;
  3. 研发自适应的跨模态语义融合和对齐技术,创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合;

4.采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。

其中自研的多模态预训练模型E2E-VLP,StructuralLM已被国际会议ACL2021接受。

模型大图如下:

这不是达摩院第一次在 AI 关键领域超越人类。
早在2018年,作为业界最早投入预训练语言模型研究的机构之一,达摩院前身IDST曾在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,轰动全球。
3

VQA 考高分有什么用?

达摩院语言技术实验室负责人司罗曾表示,“人工智能分为计算智能、感知智能、认知智能、创造智能四个层次。”
本次,AI 在视觉-文本跨模态理解及推理上媲美人类的水平,意味着 AI 向认知智能迈进了关键一步。
据了解,VQA 技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶、虚拟主播等领域,或将变革人机交互方式。目前,VQA 技术已在阿里内部应用于商品图文理解、智能客服等场景。
在阿里平台上,达摩院VQA能力已实现较大范围工业应用落地,典型VQA应用包括:1、商品图文信息理解;2、直播视频交互;3、多模态搜索。

 

4

VQA考卷有多难?

对单一AI模型来说,VQA 考卷难度堪称“”。
要拿到漂亮的分数,AI不仅要好图像识别、文本识别、文本理解等基本功,还要解锁计数、读钟表、推理认知等附加技能,此外还必须拥有百科全书的丰富常识。
比如,在下面这道VQA考题中,根据男人帽子上的字母“B”+问题“男人的橄榄球帽代表哪只球队?”
AI 要推理出答案“波士顿球队”。

根据士兵玩具和战斗场景+问题“图中玩具人的IP出自哪部电影??”AI要推理出答案“星球大战”。

6年前,这些问题对AI来说难度极高。经过多年的技术积累,达摩院AliceMind在VQA测试中拿到了超81分的成绩,基本达到普通人看图问答的水准。
相信AI未来将给人类带来更多惊喜。
AI科技评论这里展示一些部分 AliceMind 回答正确的VQA挑战示例:
百科知识:
人文地理:
生活技能:计数、读钟表、识颜色、识路牌

体育娱乐:
视觉推理:
好家伙,AI 真是变的越来越厉害了,人类危险了(吗)……

论文链接:

1. E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021

2. A Structural Pre-trained Model for Table and Form Understanding, ACL 2021

3. SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

VQA示例链接:
https://nlp.aliyun.com/portal#/multi_modal
达摩院AliceMind开源链接:
https://github.com/alibaba/AliceMind

雷峰约稿件,未经授权禁止转载。详情见转载须知。