智能硬件

视点机器人也会造假有偏见原因在这儿

前段时间,Facebook将人类编辑解雇,并让人工智能担任热门榜单的编辑。然而,在上任之后,该机器学习算法连续几天将几条不实新闻以及不雅视频推上热门榜单,其中包括宣称福克斯新闻炒掉了知名主持人MegynKelly并称其为“叛徒”,没过多久此则新闻就得到了当事人及相关人员辟谣。

此外,在今年3月23日,微软悄悄的推出了一款聊天机器人Tay。Tay最初是以一个清新可爱的少女形象出现,但是由于她的算法设定是通过学习网友的对话来丰富自己的语料库,很快她被网友充斥着激烈偏见的话语“带坏”,变成了一个彻底的仇视少数族裔、仇视女性、没有任何同情心的种族主义者。

种种现象看来,机器学习也不是那么的完美,这到底是如何造成的?而且,在智能汽车领域,研究人员意图将机器学习运用到人工智能车载系统上,并让其学会车主的驾驶习惯。但是,在看了上面的例子之后,为了打造更好的机器学习算法,我们应该做些什么?

为何机器学是出错?

简单来说,机器学习的原理就是用大量的数据对算法进行训练,从而达到理解人、学习人的目的。从中我们可以知道,这其中最重要的就属算法的“学习”过程。

以Tay的偏见为例,关于这个,在一个月前,谷歌的一个数据库貌似给出了答案。

两年前,谷歌的几个研究员启动了一个神经网络项目,目标是找出单词相邻组合的各种模式,而所要使用的语料库来自谷歌新闻文本中的300万个单词。虽然结果很复杂,但团队人员发现可以用向量空间图来展示这些模式,其中大约有300个维度。

在向量空间中,具有相似意义的单词会占据同一块位置,而单词间的关系,可以通过简单的向量代数来捕捉。例如,“男人与国王就相当于女人与王后”,可以使用符号表示为“男人:国王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。这种单词之间的关系被称为“单词嵌入”。

最后,蕴含了诸多单词嵌入的数据库被称为Word2vec。之后的几年内,大量研究人员开始使用它帮助自己的工作,比如机器翻译和智能网页搜索。

但是有一天,波士顿大学的TolgaBolukbasi的和几位来自微软研究院的人员发现,这个数据库存在一个很大的问题:性别歧视。