一个机械手臂被一个巨大的美元图标压下
埃迪的家伙
LightGreen

深度学习现在用于语言之间的翻译,预测蛋白质如何折叠分析医学扫描,玩像围棋这样复杂的游戏这仅仅是这项技术的几个应用,它现在正变得越来越普遍。在这些领域和其他领域的成功使这种机器学习技术从21世纪初的默默无闻发展到今天的主导地位。

尽管深度学习声名鹊起是最近的事,但它的起源却并非如此。1958年,当大型计算机充满房间并在真空管上运行时,大脑神经元之间的相互联系的知识激发了人们的灵感康奈尔大学的Frank Rosenblatt设计了第一个人工神经网络,他很有先见之明地将其描述为“模式识别设备”。但罗森布拉特的雄心超出了他那个时代的能力——他知道这一点。就连他的就职论文也不得不承认神经网络对计算能力的贪婪胃口,哀叹“随着网络连接数量的增加……传统数字计算机的负担很快就会变得过重。”


这篇文章是我们人工智能特别报道的一部分。”人工智能大清算.”

幸运的是,这种人工神经网络——后来重新命名为“深度学习”,因为它们包含了额外的神经元层——几十年摩尔定律计算机硬件的其他改进产生了大致1000万倍增加计算机在一秒钟内可以完成的计算量。因此,当研究人员在21世纪后期回到深度学习领域时,他们使用了与挑战相称的工具。

这些功能更强大的计算机使构建具有更多连接和神经元的网络成为可能,从而更有能力模拟复杂现象。研究人员在将深度学习应用于新任务时,利用这种能力打破了一个又一个记录。

虽然深度学习的崛起可能是迅速的,但它的未来可能是坎坷的。就像之前的罗森布拉特一样,如今的深度学习研究人员已经接近他们的工具所能达到的极限。要理解为什么这将重塑机器学习,你必须首先理解为什么深度学习如此成功,以及保持这种状态的成本是什么。

深度学习是人工智能长期趋势的现代化身,从基于专家知识的精简系统转向灵活的统计模型。网上亚博Ayabo2016早期的人工智能系统是基于规则的,应用逻辑和专家知识来得出结果。后来的系统加入了设置可调参数的学习,但这些参数通常很少。

今天的神经网络也学习参数值,但这些参数是如此灵活的计算机模型的一部分,如果它们足够大,它们就会成为通用函数近似值,这意味着它们可以适合任何类型的数据。这种无限的灵活性是深度学习可以应用于如此多不同领域的原因。

神经网络的灵活性来自于将许多输入输入到模型中,并让网络以无数种方式将它们组合起来。这意味着输出将不是应用简单公式的结果,而是非常复杂的公式。

例如,当尖端的图像识别系统吵闹的学生将图像的像素值转换为图像中物体的概率,它使用具有4.8亿个参数的网络来实现。确定如此大量参数值的训练更加引人注目,因为它只使用了120万张标记的图像——这可能会让我们中的一些人感到困惑,因为我们还记得高中代数中我们应该有更多的方程而不是未知数。事实证明,打破这一规则才是关键。

深度学习模型是过度参数化的,也就是说,它们的参数比可用的训练数据点还要多。通常,这将导致过拟合,在这种情况下,模型不仅学习了总体趋势,而且还学习了训练数据的随机变化。深度学习通过随机初始化参数,然后迭代地调整参数集,以更好地拟合数据,这种方法被称为随机梯度下降。令人惊讶的是,这一过程已被证明可以确保学习的模型很好地泛化。

灵活的深度学习模型的成功可以在机器翻译中看到。几十年来,软件一直被用于将文本从一种语言翻译成另一种语言。早期解决这个问题的方法使用了语法专家设计的规则。但随着越来越多的文本数据以特定的语言出现,统计学方法——那些有着诸如最大熵、隐马尔可夫模型和条件随机场等深奥名字的方法——可以被应用。

最初,对每种语言最有效的方法根据数据可用性和语法属性而有所不同。例如,在翻译乌尔都语、阿拉伯语和马来语等语言时,基于规则的方法优于统计方法——起初是这样。如今,所有这些方法都被深度学习超越了,深度学习在几乎所有应用的地方都证明了自己的优越性。

因此,好消息是深度学习提供了巨大的灵活性。坏消息是这种灵活性需要巨大的计算成本。这个不幸的现实有两部分。

有一个箭头指向右边的图表

一个图表显示了计算,数十亿的浮点运算根据近年来的成果推断,到2025年,设计用于识别ImageNet数据集中物体的最佳深度学习系统的错误水平应该降低到仅5%[上]。但是,训练这样一个未来系统所需的计算资源和能量将是巨大的,导致排放量相当于纽约市一个月产生的二氧化碳。资料来源:n.c.汤普森,k.格林沃尔德,k.李,g.f.曼索

第一部分对所有统计模型都适用:将性能提高一个因子k,至少k2必须使用更多的数据点来训练模型。计算成本的第二部分明显来自于过度参数化。一旦考虑到,这将产生用于改进的总计算成本至少k4.指数中的小4是非常昂贵的:例如,10倍的改进将需要至少1万倍的计算量。

为了使灵活性-计算的权衡更加生动,考虑这样一个场景:您试图预测病人的x光片是否显示癌症。进一步假设,如果你在x射线中测量100个细节(通常称为变量或特征),就可以找到真正的答案。挑战在于我们无法提前知道哪些变量是重要的,而且可能有大量的候选变量需要考虑。

解决这一问题的专家系统方法是让熟悉放射学和肿瘤学的人指定他们认为重要的变量,让系统只检查这些变量。灵活系统方法是测试尽可能多的变量,让系统自己找出哪些是重要的,这需要更多的数据,并在这个过程中产生更高的计算成本。

由专家为其建立相关变量的模型能够快速了解哪些值最适合这些变量,这样做只需要有限的计算量——这就是为什么它们在早期如此受欢迎的原因。但是,如果专家没有正确指定模型中应该包含的所有变量,他们的学习能力就会停滞。相比之下,像深度学习这样的灵活模型效率较低,需要大量的计算才能匹配专家模型的性能。但是,有了足够的计算(和数据),灵活的模型可以胜过专家们试图指定相关变量的模型。

显然,你可以得到如果你使用更多的计算能力来构建更大的模型,并使用更多的数据来训练它们,深度学习的性能将得到提高。但是这种计算负担会变得多昂贵呢?成本是否会高到阻碍进展?

为了具体地回答这些问题,我们最近收集了数据来自1000多篇关于深度学习的研究论文,涵盖图像分类、目标检测、问题回答、命名实体识别和机器翻译等领域。在这里,我们将只详细讨论图像分类,但经验教训适用广泛。

多年来,减少图像分类错误伴随着计算负担的巨大增长。例如,在2012年AlexNet,该模型首次展示了在图形处理单元(gpu)上训练深度学习系统的强大功能,使用两个gpu训练了5到6天。到了2018年,另一种模式,NASNeta将AlexNet的错误率降低了一半,但它使用了1000多倍的计算量来实现这一目标。

我们对这一现象的分析也使我们能够将实际发生的情况与理论预期进行比较。理论告诉我们,计算需要至少以性能改进的四次方进行扩展。在实践中,实际需求至少与第九权力。

这九次方意味着要将错误率减半,预计需要500倍以上的计算资源。这是一个非常高的价格。然而,这里可能有一线希望。实践中发生的情况和理论预测之间的差距可能意味着仍有未被发现的算法改进,可以大大提高深度学习的效率。

要将错误率减半,预计需要500倍以上的计算资源。

正如我们所指出的,摩尔定律和其他硬件的进步极大地提高了芯片的性能。这是否意味着计算需求的升级无关紧要?不幸的是,没有。AlexNet和NASNet-A所使用的计算能力有1000倍的差异,其中只有6倍的改进来自更好的硬件;其余部分来自使用更多的处理器或运行它们的时间更长,从而导致更高的成本。

在估计了图像识别的计算成本-性能曲线之后,我们可以用它来估计未来需要多少计算才能达到更令人印象深刻的性能基准。例如,实现5%的错误率将需要1019十亿个浮点运算。

重要的工作马萨诸塞大学阿默斯特分校的学者们的研究让我们了解了这种计算负担所隐含的经济成本和碳排放。答案是严峻的:训练这样一个模型将花费1000亿美元,产生的碳排放量相当于纽约市一个月的排放量。如果我们估计1%错误率的计算负担,结果就会糟糕得多。

推断出这么多数量级是合理的吗?是也不是。当然,重要的是要明白,这些预测并不准确,尽管有了如此令人流泪的结果,但它们并不需要传达不可持续性的整体信息。这样推断如果我们假设研究人员会沿着这条轨迹一直走到如此极端的结果,那是不合理的。我们没有。面对飞涨的成本,研究人员要么不得不想出更有效的方法来解决这些问题,要么放弃研究这些问题,进步将会停滞不前。

另一方面,推断我们的结果不仅是合理的,而且也是重要的,因为它传达了未来挑战的严重性。这个问题的前沿已经显现出来。当谷歌子DeepMind训练它的系统下围棋估计耗资3500万美元.当DeepMind的研究人员设计一个系统的发挥星际争霸2视频游戏在美国,他们故意不尝试多种方法来构建一个重要的组件,因为培训成本太高了。

OpenAI,一个重要的机器学习智库,研究人员最近设计和训练了一个备受赞誉的深度学习语言系统叫做GPT-3花费了400多万美元。尽管他们在实施该系统时犯了一个错误,但他们并没有修复它,只是在学术出版物的补充中解释说:由于训练成本高,对模型进行再训练是不可行的."

即使是科技行业之外的企业,现在也开始回避深度学习的计算成本。一家大型欧洲连锁超市最近放弃了一种基于深度学习的系统,该系统显著提高了预测哪些产品将被购买的能力。公司高管放弃了这一尝试,因为他们认为培训和运行该系统的成本太高。

面对上升在经济和环境成本方面,深度学习社区需要找到在不导致计算需求飙升的情况下提高性能的方法。如果他们不这样做,进步将停滞不前。但不要绝望:为应对这一挑战,已经采取了大量措施。

一种策略是使用专为深度学习计算而设计的处理器。这种方法在过去十年中被广泛使用,因为cpu被gpu取代,在某些情况下,现场可编程门阵列和特定应用ic(包括谷歌)张量处理单元).从根本上说,所有这些方法都牺牲了计算平台的通用性,以提高专业化的效率。但这种专业化面临着收益递减的问题。因此,长期的收益将需要采用完全不同的硬件框架——可能是基于模拟、神经形态、光学或量子系统的硬件。然而,到目前为止,这些完全不同的硬件框架还没有产生多大影响。

我们必须改变我们进行深度学习的方式,否则未来的进展将会缓慢得多。

另一种减少计算负担的方法是生成更小的神经网络。这种策略降低了每次使用它们的成本,但它通常会增加训练成本(这是我们在本文中迄今为止所描述的)。哪种成本最重要取决于具体情况。对于一个广泛使用的模型,运行成本是总投资的最大组成部分。对于其他模型,例如那些经常需要再培训的模型,培训成本可能占主导地位。在任何一种情况下,总成本肯定大于培训本身。所以如果培训成本太高,就像我们展示的那样,那么总成本也会很高。

这就是各种用于缩小实施规模的策略所面临的挑战:它们不能充分降低培训成本。例如,一种方法允许训练一个大型网络,但在训练过程中惩罚复杂性。另一种方法是训练一个庞大的网络,然后“修剪”掉不重要的连接。还有一种方法是通过在许多模型之间进行优化来寻找尽可能高效的架构——这被称为神经架构搜索。虽然这些技术中的每一种都可以为实施提供显著的好处,但对培训的影响是微弱的——当然不足以解决我们在数据中看到的问题。在很多情况下,他们会提高培训成本。

一种有望降低培训成本的新技术叫做元学习。其理念是,该系统从各种数据中学习,然后可以应用于许多领域。例如,与其建立单独的系统来识别图像中的狗、图像中的猫和图像中的汽车,不如在所有这些图像上训练一个单一的系统并多次使用。

不幸的是,最近的工作安德烈不停麻省理工学院的一项研究揭示了元学习有多难。他和他的合著者表明,原始数据和你想要使用它的地方之间即使是很小的差异也会严重降低性能。他们证明,目前的图像识别系统在很大程度上依赖于物体是否以特定的角度或特定的姿势拍摄。因此,即使是识别不同姿势的相同物体的简单任务,也会导致系统的准确性几乎减半。

本杰明·雷希特加州大学伯克利分校(University of California, Berkeley)的研究人员和其他人更加鲜明地阐述了这一点,他们表明,即使是故意构建来模仿原始训练数据的新数据集,性能也会下降10%以上。如果即使数据的微小变化也会导致性能的大幅下降,那么一个全面的元学习系统所需的数据可能是巨大的。因此,元学习的巨大前景还远远没有实现。

另一种规避深度学习计算极限的可能策略是转向其他可能尚未被发现或未被重视的机器学习类型。正如我们所描述的,围绕专家的洞察力构建的机器学习系统在计算上可以更高效,但如果这些专家不能区分所有的贡献因素,它们的性能就无法达到与深度学习系统相同的高度。Neuro-symbolic人们正在开发方法和其他技术,将专家知识和推理的力量与神经网络中常见的灵活性结合起来。

就像Rosenblatt在神经网络出现之初所面临的情况一样,深度学习今天正受到可用计算工具的限制。面对会对经济和环境造成破坏的计算缩放,我们必须要么调整我们进行深度学习的方式,要么面对一个进展缓慢得多的未来。显然,适应更可取。一个聪明的突破可能会找到一种方法,让深度学习更高效,或者让计算机硬件更强大,这将使我们能够继续使用这些异常灵活的模型。否则,钟摆很可能会重新转向更多地依赖专家来确定需要学习什么。

特别报告:人工智能大清算

读下一个:美国陆军如何将机器人转变为团队合作者

或者看看完整的报告浏览更多关于人工智能未来的文章。

对话(5)
史蒂文•米勒 2022年1月13日
INDV

写得很好。这与我过去几年在深度学习领域看到的情况相吻合。在大规模并行定制芯片中使用低精度算法(16位浮点数)的深度学习优化硬件,感觉在硬件优化方面已经挤出了很多血液。现在我们回到了摩尔定律的基本范围,它最近一直不稳定。我们在80年代、90年代和21世纪初看到的是每10年50-100倍的改善,现在是每年20%或每10年6倍,并且继续放缓。因此,我认为这种方法不会带来比我们目前看到的更多的成果。

1回复
保罗o 2021年10月20日
INDV

另一种方法是重新思考人工神经网络的基本构建模块,比如形式神经元,这就是进步。人工智能已经成功地取得了令人难以置信的结果,有时可以将速度提高数千倍,并降低对计算能力的需求。

查看美国专利9390373(2016),9619749(2017)和10423694(2019)。

特伦顿Thornock 2021年10月9日

使用新颖的冷却配置,将服务器功耗大规模削减一半,并将其与热重用案例相结合,进一步降低成本和碳足迹。

3种方法帮助NASA的全电动飞机起飞

N3-X计划于2040年推出,最多可搭载300名乘客

3分钟读取
一架飞机在云层中飞行的插图

美国宇航局提出的全电动N3-X飞机载客量将是目前电动飞机的10倍。

美国国家航空航天局

这篇文章是我们独家报道的一部分IEEE期刊手表系列与IEEE Xplore合作。

全电动飞机的竞争正在进行中,一些早期设计正在成为头条新闻。在过去的九月,一个原型Eviation爱丽丝完成了8分钟的首飞,以及更多的型号等Heart Aerospace的ES-30,预计将在未来几年内首次亮相。然而,到目前为止,所有这些型号的设计都只能搭载30名或更少的乘客,而且飞行距离很短。

例如,Eviation Alice只能让两名机组人员和九名乘客在200米的距离上飞行463公里ES-30的全电动型号虽然设计最多可搭载30名乘客,但其航程仅为200公里。为了真正降低温室气体排放,缓解气候变化的影响,需要更大的全电动飞机。值得注意的是,大型飞机的温室气体排放占航空业温室气体排放的75%以上,考虑到历史上航空旅行每年增长4%至5%,这些排放可能会随着时间的推移而恶化。

继续阅读↓ 显示更少

利用数据科学和人工智能打击野生动物贩运

纽约大学坦顿分校的朱莉安娜·弗莱雷(Juliana Freire)领导着一个团队,旨在利用数据科学打击贩卖人口和珍稀动物的犯罪分子

5分钟读取
一只五颜六色的鹦鹉被关进了监狱

野生动物走私有了一个意想不到的新敌人:计算机科学、数据科学和机器学习。

在上面

这篇文章是由纽约大学坦顿工程学院

野生动物走私是一个利润丰厚的市场。虽然很难确切地说出它带来了多少钱,但美国政府估计每年有数十亿美元。动物及其器官的交易就像枪支或毒品一样——通过复杂的供应商、经销商和买家网络进行交易,这些人在他们身后留下了一条血腥的道路。破坏是不言自明的;物种灭绝,环境恶化,无辜的人受害。

继续阅读↓ 显示更少
{“imageShortcodeIds”:[]}
Baidu