人工智能可能成为积极的社会变革的力量

人工智能(AI)已经以引人注目的方式重新配置了世界。数据驱动着我们的全球数字生态系统,人工智能技术揭示了数据的模式。智能手机,智能家居和智能城市会影响我们的生活和互动方式,人工智能系统越来越多地参与招聘决策,医疗诊断和司法裁决。此方案是乌托邦式还是反乌托邦式取决于您的观点。

反复列举了AI的潜在风险。杀手机器人和大规模失业是人们普遍关注的问题,而有些人甚至担心人类的灭绝。更乐观的预测认为,到2030年,人工智能将为世界经济增加15万亿美元,并最终使我们走向某种社会的必杀技。

我们当然需要考虑这些技术对我们社会的影响。一个重要的担忧是,人工智能系统会加剧现有的社会偏见,从而造成破坏性影响。这种现象的几个臭名昭著的例子受到了广泛的关注:产生性别歧视输出的最先进的自动机器翻译系统,以及将黑人分类为大猩猩的图像识别系统。

之所以出现这些问题,是因为此类系统使用数学模型(例如神经网络)来识别大量训练数据中的模式。如果该数据以各种方式严重歪斜,那么受过训练的系统将不可避免地学习和再现其固有偏差。偏向自主的技术存在问题,因为它们可能使诸如妇女,少数民族或老年人等群体边缘化,从而加剧了现有的社会失衡。

例如,如果对AI系统进行了有关警察逮捕数据的培训,那么现有逮捕模式中表现出的任何有意识或无意识的偏见都将通过在该数据上受到培训的“预测性警务”AI系统来复制。认识到这一点的严重影响,各种权威组织最近建议,所有AI系统都应该接受无偏数据的培训。欧洲委员会于2019年初发布的道德准则提出了以下建议:“收集数据时,可能包含社会构造的偏见,不准确性,错误和错误。在使用任何给定数据集进行培训之前,必须解决这些问题。”

处理偏差数据

这一切听起来都足够明智。但不幸的是,有时根本不可能在训练之前确保某些数据集没有偏见。一个具体的例子应该澄清这一点。

所有最新的机器翻译系统(例如Google Translate)都经过句子对训练。英语-法语系统使用将英语句子(“她很高”)与等效的法语句子(“elle est grande”)相关联的数据。在给定的一组训练数据中,可能有5亿个这样的配对,因此总共有10亿个单独的句子。如果我们想防止结果系统产生诸如以下的性别歧视输出,则需要从此类数据集中消除所有与性别相关的偏见:

输入:妇女开始开会。他们有效地工作。

输出:莱斯FEMMES ONT开始留尼汪岛。它可以改善身体状况。

法语翻译是使用Google翻译于2019年10月11日生成的,但不正确:“Ils”是法语中的男性复数主语代词,尽管上下文清楚地表明正在提及女性,但它还是出现在此处。这是经典的例子,由于训练数据中的偏差,男性默认值被自动化系统首选。

通常,翻译数据集中有70%的性别代词是男性的,而30%是女性的。这是因为用于此目的的文本所指的是男性而不是女性。为了防止翻译系统复制这些现有的偏见,必须从数据中删除特定的句子对,以使英语和法语双方出现男性和女性代词的比例分别为50%/ 50%。这将防止系统为男性代词分配更高的概率。

当然,名词和形容词也需要保持50%/ 50%的平衡,因为它们可以用两种语言(“演员”,“女演员”,“中性”,“中性”)表示性别,等等。但是这种剧烈的下采样必将大大减少可用的训练数据,从而降低所产生翻译的质量。

即使结果数据子集完全平衡了性别,它仍然会以各种其他方式(例如种族或年龄)倾斜。实际上,要完全消除所有这些偏见是很困难的。如果一个人只花五秒钟来阅读训练数据中十亿个句子中的每一个,那么将需要159年的时间来全部检查它们-这是假设他们愿意整日工作,并且不休息午餐。

替代?

因此,在构建AI系统之前要求所有训练数据集都是无偏的是不现实的。这种高级要求通常假定“ AI”表示数学模型和算法方法的同质簇。

实际上,不同的AI任务需要非常不同类型的系统。淡化这种多样性的全部范围掩盖了(例如)严重偏斜的训练数据所带来的实际问题。这是令人遗憾的,因为这意味着对数据偏差问题的其他解决方案被忽略了。

人工智能可能成为积极的社会变革的力量

扫一扫手机访问

发表评论