Nature:AI为什么总是歧视重重?
作者:网友投稿 时间:2018-08-24 01:24

大数据文摘出品
编译:胡笳、王一丁、小七、CoolBoy
当使用谷歌翻译将西班牙语的新闻翻译为英语时,涉及到女性的短语通常都会翻译为“他说”或“他写道”。
常用于处理和分析大量自然语言数据的词嵌入(Word Embedding)算法通常会将欧美名字预测为令人愉快的人物形象,而将非裔美国人名预测为令人不愉快的人物形象。
这些只是AI应用歧视特定人群中的一小部分案例,还有更多未被发现。
正如很多学者所指出的,偏颇决策并非AI独有,但随着AI的影响范围逐渐扩大,使得这个问题的解决变得尤为重要。
实际上,偏见问题的普遍性意味着我们需要系统的解决方案,下文我们列出了几种可能的策略。
有偏数据

无论是在学术界还是工业界,从发行的出版物和媒体等公开刊物和报道来看,计算机科学家们均倾向于通过训练更加复杂的算法而获得荣誉,而对于数据收集、数据处理和数据组织相对关注较少。
AI产生偏差的主要原因在于训练数据。大部分机器学习任务都基于大规模的、带标注的数据集进行训练。例如,针对图片分类的深度神经网络通常基于ImageNet进行训练,而ImageNet上有着超过1400万张的标注图像集。
在自然语言处理中,标准算法一般基于具有数十亿个单词的语料库进行训练。研究人员通常使用特定查询关键词通过爬取类似谷歌图像、谷歌新闻等网页来搜集数据,或者通过整合例如维基百科等比较容易获取的数据源上的信息来构建数据集。
这些数据集后续通常由研究生或众包平台,如亚马逊众包平台(Amazon Mechanical Turk)进行标注处理。
这些处理方法可能会无意识地让数据产生性别、种族和文化偏见。
通常来说,数据中包含的某些群体占比较高,而另一些群体则占比较少。ImageNet作为推动计算机视觉研究的训练数据源,其中超过45% 的数据来源于美国用户,而这些数据提供者仅占全世界人口的 4%。
相比之下,中国和印度用户总共贡献了 3% 的数据,而这些国家的人口占据了全世界人口的36% 。
这种地理多样性的缺乏从某种情况下解释了为何计算机视觉算法会将一张美国传统新娘的照片标记为“新娘”、“礼服”、“女人”、“婚礼”,而将另一张北印度新娘的照片则标记为“表演艺术”和“服装”。
在医学领域,机器学习预测器可能特别容易受到有偏数据集的影响,因为医学数据的生产和标注成本非常高。去年,研究人员使用深度学习从照片中识别皮肤癌。
他们在129,450张图片集上进行模型训练,其中60% 的图片来源于从谷歌图片。但是其中有不到5%的图片是属于深色皮肤人群的,并且该算法并未在深色皮肤人群上进行过测试。因此这个分类器对不同人群的性能可能会有显著变化。
造成偏差的另一个原因是算法本身。

典型的机器学习程序会尝试最大化训练数据的整体预测准确性。如果训练数据中一组特定群体的出现频率明显超过其他群体,则程序将会针对此类群体的数据进行优化来提供整体准确率。
一般计算机科学家基于“测试数据集”进行算法评估,但测试集通常是原始训练集的随机子样本,所以也有可能存在同样的偏差。
有缺陷的算法可以通过循环反馈放大偏差。想象一下根据统计学训练的系统,例如谷歌翻译,其默认使用的是男性代名词。
这种模式是由英语语料库中男性与女性代名词比例2:1的情况造成的。更糟的是,每一次翻译程序默认翻译为“他说”,都会增加相应男性代名词出现在网页上的几率——这可能会潜在地影响来之不易数据纠偏进展。
得益于大规模的社会变革,才使得男女代名词的比例从20世纪60年代的4:1下降到现在的2:1。
平衡倾斜

数据中的偏差常常会反映出制度建设和社会权利关系的深层次和隐性失衡。以维基百科为例,它似乎是一个丰富多样的数据源。



