变形金刚,背后的神经网络类型OpenAI的GPT-3和其他大型自然语言处理器,正迅速成为工业中最重要的一些,而且它们很可能蔓延到人工智能的其他领域——也许是所有领域。英伟达的新Hopper H100证明这家加速人工智能芯片的领先制造商是有信心的。在将H100与其前身区分开来的许多架构变化中,A100,是一台“变压器发动机”。确切地说,这不是新硬件的一个独特部分,它是一种动态改变核心计算精度的方法,以加速变压器神经网络的训练。

“变形金刚的出现是人工智能的一大趋势,”他说Dave Salvator,英伟达人工智能推断和云高级产品经理.变形金刚迅速接管了语言人工智能,因为他们的网络“注意”多个句子,使他们能够掌握上下文和先行语。基准语言模型BERT中的T代表“transformer”,就像它在偶尔侮辱GPT-3.)

Nvidia的dave Salvator说:“我们正朝着万亿参数模型的方向发展。

但最近,研究人员发现了将同样的注意力应用于视觉和其他由卷积神经网络主导的模型.Salvator指出,在过去两年里,超过三分之二的关于神经网络的论文都是关于变压器或其衍生物的。他说:“变形金刚能承受的挑战越来越多。”

然而,就所涉及的参数数量而言,变压器是最大的神经网络模型之一。而且它们的增长速度比其他车型快得多。Salvator说:“我们正迅速向万亿参数模型发展。”英伟达的分析显示,变压器模型的训练需求每两年增长275倍,而所有其他模型的趋势是每两年增长8倍。更大的模型需要更多的计算资源,特别是用于训练,但也需要实时操作,因为它们通常需要这样做。英伟达(Nvidia)开发了变换器引擎来帮助追赶。

变压器的计算需求图表变压器的计算需求比其他形式的人工智能增长得更快。当然,它们的增长速度也非常快。英伟达

变压器引擎实际上是Hopper张量核心中结合了新硬件功能的软件。这些单元专门用于执行机器学习的基本计算——矩阵乘法和累加。Hopper具有张量核,能够使用各种精度的浮点数进行计算——从64位到8位。A100的内核仅为16位的浮点数设计。但人工智能计算的趋势一直是开发依赖于最低精度的神经网络,但仍能产生准确的结果。较小的格式计算速度更快,更有效,并且它们需要更少的内存和内存带宽。H100中添加的8位浮点单元带来了显著的加速—吞吐量是16位单元的两倍。

变压器引擎的秘密武器是它能够在训练神经网络的每个步骤中动态地选择神经网络中每一层所需的精度。最不精确的单元,8位浮点,可以快速完成它们的计算,但如果需要精度,则会为下一层生成16位或32位的和。然而,Hopper走得更远。它的8位浮点单元可以用两种形式的8位数字中的任何一种进行矩阵数学运算。

要理解为什么这是有帮助的,您可能需要快速学习浮点数结构。这种格式用一些位表示指数,一些位表示尾数,还有一个位表示符号。表示指数的位数越多,可以表示的数字范围就越大。尾数中位数越多,这些数字的精度就越高。标准16位浮点格式(IEEE 754 - 2008)需要5位指数和10位尾数,以及符号位。为了降低数据存储要求和加速机器学习,人工智能加速器制造商最近采用了这种方法bfloat-16,它用3位尾数交换一个加指数,使其具有与32位数字相同的范围。

英伟达在这方面做得更好。他说:“我们发现的一个独特之处在于,对于8位来说,确实没有一种适合所有人的格式。Nvidia负责GPU工程的高级副总裁Jonah Alben说.因此,Hopper的8位单元可以在范围重要时使用5位指数和2个尾数(E5M2),或者在精度关键时使用4位指数和3个尾数(E4M3)。变压器引擎在飞行中编排所需的速度训练。Alben说:“我们将测试变压器的经验融入其中,这样它就知道如何做出正确的决定。”

在实践中,这通常意味着为训练任务的不同部分使用不同类型的浮点格式。一般来说,训练神经网络包括将其暴露在大量数据中(前向推理),测量网络在执行该数据任务时的糟糕程度,然后调整网络参数,一层一层地向后通过网络来改进它(反向传播)。清洗,冲洗,重复。一般来说,反向传播需要更高的精度,所以E4M3格式可能更适合,而推理(向前)步骤更适合E5M2的范围。

英伟达并不是唯一采用这种方法的公司。在IEEE/ACM计算机体系结构国际研讨会IBM研究人员提出了一项名为RaPiD的加速器也使用E5M2/E4M3方案进行培训。由四个这样的芯片组成的系统提供了10%到100%的训练速度,这取决于所涉及的神经网络。

英伟达的Hopper将于2022年第三季度上市。

这个故事在4月14日被更正,以给出E5M2的正确格式。

对话(0)

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu