7揭示ai失败的原因
神经网络可能非常脆弱、健忘,而且在数学方面的表现令人惊讶地糟糕
![一个机器人坠落在天空,一架飞机飞走了](http://www.hallspoultry.com/media-library/a-robot-falling-in-the-sky-and-a-plane-flying-away.png?id=27506135&width=1200&height=900)
网上亚博A在很多问题上都能比人类表现得更快、更准确、更可靠、更公正,从检测癌症到决定谁能接受工作面试。但人工智能也遭遇了无数次,有时甚至是致命的失败。人工智能的日益普及意味着,失败不仅会影响到个人,还会影响到数百万人。
越来越多的人工智能社区对这些失败进行分类要注意监控他们可能带来的风险。“对于用户来说,了解这些系统如何工作以及它对他们意味着什么的信息往往很少,”他说查理,他是人工智能,算法和自动化事件和争议库.“我认为这直接影响了人们对这些系统的信任和信心。组织不愿深入了解人工智能事件或争议的真相有很多可能的原因,不仅仅是潜在的法律风险,但如果从可信度的角度来看,这样做最符合他们的利益。”
这篇文章是我们人工智能特别报道的一部分。”人工智能大清算.”
部分问题在于,驱动许多人工智能系统的神经网络技术可能会以一种对研究人员来说仍然是个谜的方式崩溃。“人工智能擅长哪些问题是不可预测的,因为我们对智能本身还不是很了解,”yabo2016网上亚博A计算机科学家说丹Hendrycks在加州大学伯克利分校。
以下是人工智能失败的七个例子,以及它们揭示了人工智能目前的弱点。网上亚博Ayabo2016科学家们讨论了处理其中一些问题的可能方法;其他问题目前无法解释,或者从哲学角度讲,可能完全缺乏任何结论性的解决方案。
1)脆性
克里斯Philpot
拍一张校车的照片。将它翻转,使其侧放,就像在现实世界中发生意外时可能会发现的那样。2018年的一项研究发现最先进的人工智能通常能正确识别校车的右侧,当校车旋转时,平均97%的情况下都无法识别。
“他们会非常自信地说校车是扫雪机,”计算机科学家说安阮阿拉巴马州奥本大学。他说,人工智能无法完成“连我3岁的儿子都能做到的”心理旋转任务。
这种失败是脆弱的一个例子。阮说,人工智能通常“只能识别以前见过的模式”。“如果你给它看一个新的图案,它很容易被愚弄。”
人工智能脆弱的例子有很多。在停车标志上系上贴纸可以让人工智能误读。改变单个像素可以让人工智能把马当成青蛙。神经网络可以有99.99%的把握多色静态是一幅狮子的画.医学图像可以用肉眼难以察觉的方式进行修改医学扫描会误诊癌症百分之百的时间。等等。
亨德里克斯说,让人工智能更强大地应对这种失败的一种可能的方法是让它们接触尽可能多的令人困惑的“对抗性”例子。然而,他们仍然可能失败于罕见的“黑天鹅”事件。他指出:“像新冠疫情或经济衰退这样的黑天鹅问题,即使是人类也很难解决——它们可能不仅仅是机器学习特有的问题。”
2)嵌入偏差
克里斯Philpot
人工智能越来越多地被用来帮助支持重大决策,比如谁能得到贷款、监禁期限,以及谁先得到医疗保健。人们希望人工智能能够比人类更公正地做出决策,但许多研究发现,这些人工智能训练的数据中嵌入的偏见可能会导致大规模的自动歧视,给社会带来巨大的风险。
例如,2019年,科学家在美国发现了一种全国部署的医疗保健算法有种族偏见影响了数百万美国人。人工智能的设计目的是确定哪些患者将从重症监护计划中受益最大,但它通常会让更健康的白人患者先于病情较重的黑人患者加入这些计划。
医生和研究人员济欧博迈亚加州大学伯克利分校的他和他的同事们发现,算法错误地认为医疗费用高的人也是病情最严重的病人,最需要护理。然而,由于系统性的种族主义,“黑人患者在需要医疗保健时不太可能得到医疗保健,因此不太可能产生成本,”他解释说。
在与软件开发人员合作后,奥伯梅耶和他的同事帮助设计了一种分析其他变量的新算法,偏差减少了84%。他说:“这需要做很多工作,但解释偏见并非完全不可能。”他们最近起草剧本这概述了政府、企业和其他团体可以实施的几个基本步骤,以检测和防止他们使用的现有和未来软件中的偏见。这些包括确定他们使用的所有算法,了解该软件的理想目标及其朝着该目标的表现,在需要时对人工智能进行再培训,并创建一个高级监管机构。
3)灾难性遗忘
克里斯Philpot
Deepfakes——高度逼真的人工生成的虚假图像和视频,通常是名人、政治家和其他公众人物的图像和视频,在互联网和社交媒体上越来越普遍,通过虚假描绘人们所说或所做的事情,可能会造成很大的破坏。为了开发一种可以检测深度造假的人工智能,计算机科学家Shahroz塔里克和他在韩国成均馆大学的同事们创建了一个网站,人们可以上传图片来验证照片的真实性。
一开始,研究人员训练他们的神经网络来识别一种深度伪造。然而,几个月后,许多新型深度造假出现了,当他们训练人工智能识别这些新型深度造假时,它很快就忘记了如何检测旧的深度造假。
这是灾难性遗忘的一个例子——在学习新信息后,人工智能倾向于完全突然地忘记它之前知道的信息,本质上是用新知识覆盖过去的知识。“人工神经网络的记忆力很差,”塔里克说。
人工智能研究人员正在寻求各种策略来防止灾难性遗忘,这样神经网络就可以像人类一样,毫不费力地持续学习。一种简单的技术是为每一个想要执行的新任务创建一个专门的神经网络——比如,区分猫和狗,或者苹果和橘子——“但这显然是不可扩展的,因为网络的数量是随着任务数量线性增加的,”机器学习研究人员说山姆·凯斯勒在英国牛津大学。
另一个选择塔里克和他的同事们进行了探索在训练人工智能识别新型深度伪造品时,他们为其提供了少量关于如何识别旧类型的数据,这样它就不会忘记如何检测它们。塔里克说,从本质上讲,这就像在考试前复习教科书章节的摘要。
然而,人工智能可能并不总是能够访问过去的知识——例如,在处理医疗记录等私人信息时。塔里克和他的同事试图阻止人工智能依赖先前任务的数据。他们让它训练自己如何识别新的深度伪造类型同时也向另一个人工智能学习之前训练过如何识别较老的深度伪造品种。他们发现,这种“知识蒸馏”策略在检测社交媒体上常见的低质量深度造假时,准确率约为87%。
4) Explainability
克里斯Philpot
为什么做我怀疑一个人可能是罪犯或患有癌症?对这个和其他高风险预测的解释可能会产生许多法律、医学和其他后果。人工智能得出结论的方式一直被认为是一个神秘的黑匣子,导致许多人试图设计解释人工智能内部工作原理的方法。奥本大学的Nguyen说:“然而,我最近的研究表明,可解释性领域有些停滞不前。”
阮和他的同事调查了七种不同的技术比如,是什么让火柴棍的图像成为火柴棍?是火焰还是木棍?Nguyen说,他们发现其中许多方法“相当不稳定”。“他们每次都会给你不同的解释。”
此外,虽然一种归因方法可能在一组神经网络上有效,但“它可能在另一组神经网络上完全失败,”Nguyen补充道。可解释性的未来可能涉及建立正确解释的数据库,Nguyen说。然后,归因方法可以进入这些知识库,“并搜索可能解释决策的事实,”他说。
5)量化不确定性
克里斯Philpot
2016年,一辆处于自动驾驶状态的特斯拉Model S轿车在佛罗里达州北部与一辆在它前面向左转弯的卡车相撞,导致自动驾驶系统的司机死亡首例死亡报告.根据特斯拉官方博客在美国,自动驾驶系统和司机都“没有注意到在明亮的天空下拖拉机拖车的白色一侧,所以没有刹车。”
特斯拉、优步和其他公司可能避免这种灾难的一个潜在方法是,让他们的汽车在计算和处理不确定性方面做得更好。牛津大学的凯斯勒说,目前人工智能“即使是非常错误的,也可以非常确定”,如果一个算法做出了一个决定,“我们应该有一个强大的想法,知道它对这个决定有多自信,特别是对于医疗诊断或自动驾驶汽车,如果它非常不确定,那么人类可以干预,并对情况做出自己的判断或评估。”
例如,计算机科学家Moloud Abdar澳大利亚迪肯大学的研究人员和他的同事应用了几种不同的方法不确定性量化技术人工智能将皮肤癌图像分为恶性和良性,黑素瘤和非恶性。研究人员发现,这些方法有助于防止人工智能过度自信的诊断.
自动驾驶汽车仍然是不确定性量化的挑战,因为目前的不确定性量化技术通常相对耗时,“而且汽车不能等待它们,”Abdar说。“我们需要更快的方法。”
6)常识
克里斯Philpot
计算机科学家说,人工智能缺乏常识,即根据人们通常认为理所当然的大量日常知识得出可接受的、合乎逻辑的结论的能力湘任在南加州大学。他说:“如果你不太注意这些模型实际上在学习什么,它们可能会学习到导致它们行为不当的捷径。”
例如,科学家可以训练人工智能在言论异常高的数据上检测仇恨言论,比如白人至上主义论坛。然而,当这个软件是暴露在真实的世界中在美国,它可能无法认识到黑人和同性恋者可能分别比其他群体更经常使用“黑人”和“同性恋”一词。“即使一篇帖子引用了一篇新闻文章,提到犹太人、黑人或同性恋者,但没有任何特定的情绪,它也可能是被错误归类为仇恨言论任说。相比之下,“通读一整句话的人可以识别出形容词何时被用于仇恨的语境。”
此前的研究表明,最先进的人工智能对世界的逻辑推断准确率高达90%左右,这表明它们在实现常识方面取得了进展。然而,当任和他的同事测试这些模型他们发现,即使是最好的人工智能也能生成逻辑连贯的句子,准确率略低于32%。当谈到发展常识时,他说:“在人工智能社区,我们非常关心的一件事是使用更全面的检查表来在多个维度上观察模型的行为。”
7)数学
克里斯Philpot
虽然传统计算机擅长处理数字,但人工智能“令人惊讶地不擅长数学,”伯克利大学的亨德里克斯说。“你可能有最新最好的模型,需要数百个gpu来训练,但它们仍然不如袖珍计算器可靠。”
例如,亨德里克斯和他的同事们训练人工智能解决数十万个数学问题,并逐步解决。然而,当测试了12500个问题他说,在高中数学竞赛中,“它的准确率只有5%左右。”他补充说,相比之下,一位三届国际数学奥林匹克金牌得主在“没有计算器”的情况下,在这类问题上获得了90%的成功率。
Hendrycks说,现在的神经网络可以学习解决几乎所有类型的问题,“只要你给它足够的数据和足够的资源,而不是数学”。他指出,科学中的许多问题都需要大量的数学运算,因此人工智能目前的弱点可能会限制其在科学研究中的应用。
目前还不清楚为什么人工智能不擅长数学。一种可能性是,神经网络以一种像人脑一样高度并行的方式来解决问题,而数学问题通常需要一长串步骤来解决,所以人工智能处理数据的方式可能不适合这类任务,“就像人类通常无法在头脑中进行大量计算一样,”亨德里克斯说。然而,人工智能在数学上的糟糕表现“仍然是一个小众话题:在这个问题上还没有太多的吸引力,”他补充道。