又到了“机器学习奥运会”的时候了,如果你看腻了英伟达一遍又一遍地站在领奖台上,太糟糕了。至少这一次,GPU巨头加入了一个新的竞争者,它料斗GPU它的性能是前一代的4.5倍,将在几个月后上市。但霍珀并不是唯一一个站上领奖台的人MLPerf推理v2.1.系统基于高通的AI 100也做了很好的展示,还有其他新的芯片,新型的神经网络,甚至是新的,更现实的测试方法。

在我继续之前,让我重复一下“MLPerf是什么鬼?”

MLPerf是由行业组织成员一致同意的一套基准MLCommons.这是第一次尝试对计算机在训练和执行(推理)神经网络方面的表现进行苹果对苹果的比较。在MLPerf的推理基准测试中,由cpu和gpu或其他加速器芯片组合组成的系统在多达6个神经网络上进行测试,这些神经网络执行各种常见功能——图像分类、物体检测、语音识别、3D医学成像、自然语言处理和推荐。这些网络已经接受了一组标准数据的训练,必须对它们之前没有接触过的数据做出预测。

猫、人、放大镜和其他符号的卡通。这张来自英伟达的幻灯片总结了整个MLPerf的工作。六个基准测试[左]在两种类型的计算机(数据中心和边缘)上在各种条件下进行测试[右]。英伟达

经过测试的计算机被归类为用于数据中心或“边缘”。商业上可用的基于数据中心的系统在两种情况下进行了测试:一种是模拟真实数据中心活动,查询以突发方式到达;另一种是“脱机”活动,所有数据一次性可用。在现场而不是在数据中心工作的计算机(MLPerf称之为边缘,因为它们位于网络的边缘)被测量为离线状态;就好像他们在接收单一的数据流,比如来自安全摄像头;就好像它们必须处理多个数据流一样,就像装有几个摄像头和传感器的汽车一样。亚博排列五投注网站除了测试原始性能,计算机还可以在效率方面进行竞争。

比赛被进一步分为“封闭”类别,每个人都必须运行相同的“数学上等效的”神经网络,并达到相同的精度指标;和“开放”类别,公司可以展示对标准神经网络的修改如何使他们的系统更好地工作。在与最强大的计算机在最严格的条件下的竞争中,封闭的数据中心组,来自四家公司的装有AI加速器芯片的计算机竞争:Biren英伟达Qualcomm,Sapeon.(英特尔在没有任何加速器的情况下做了两个条目,以演示其cpu自己可以做什么。)

虽然有几个系统在整个神经网络套件上进行了测试,但大多数结果都用于图像识别,使用的是自然语言处理器BERT(简称BERT)来自变压器的双向编码器表示)紧随其后,这使得这些类别最容易进行比较。参与测试的工程师说,几个基于nvidia - gpu的系统在整个基准测试套件上进行了测试,但即使执行一个基准测试也需要一个多月的工作。

在图像识别测试中,启动Biren英特尔的新芯片BR104表现良好。一台由8个加速器组成的计算机是与该公司的合作伙伴,浪潮集团该系统每秒能处理424660个样本,是测试中速度第四快的系统,仅次于aQualcomm基于云AI 100的机器拥有18个加速器,以及两个基于Nvidia a100的研发系统Nettrix而且H3C每个加速器有20个。

但Biren确实在自然语言处理方面展示了自己的实力,在BERT的最高精度版本上,它击败了所有其他四种加速器系统至少33%,在八种加速器系统中更是遥遥领先。

一个英特尔基于两个即将发布的至强(Xeon) Sapphire Rapids cpu而没有加速器的系统是另一个亮点,击败了使用两个当前一代的至强(Xeon)和加速器的机器。这种差异部分归因于Sapphire Rapids的高级矩阵扩展,每个CPU核心都有一个加速器。

Sapeon展示了两种不同版本的Sapeon X220加速器系统,仅在图像识别方面进行了测试。两者都轻松击败了其他单加速器计算机,除了英伟达的Hopper,它完成了六倍的工作。

一对垂直柱状图,每个柱状图有六组柱状。具有多个gpu或其他AI加速器的计算机通常比具有单个加速器的计算机运行得更快。但在每个加速器的基础上,英伟达即将推出的H100几乎碾压了它。英伟达

事实上,在相同配置的系统中,英伟达的Hopper在所有类别中都名列前茅。与它的前身A100 GPU相比,Hopper在每个加速器的基础上至少快了1.5倍,最高可达4.5倍,这取决于所测试的神经网络。“H100的出现真的带来了轰动,”他说戴夫出来他是英伟达加速云计算产品营销总监。“我们的工程师取得了巨大的成功。”

霍珀的“秘方”不是什么秘密,而是一个叫做“变压器引擎”的系统。变形金刚是一类神经网络,它在MLPerf推理基准测试BERT中包含自然语言处理器。变压器引擎旨在通过调整神经网络每层中计算的数字的精度来加快推理和训练,使用达到准确结果所需的最小值。这包括使用8位浮点数的修改版本进行计算。(这里有更多完整地解释了降低精度的机器学习.)

由于这些结果是MLPerf基准测试的第一次尝试,Salvator表示,随着工程师们发现如何最大限度地利用新芯片,预计H100和A100之间的差距将会扩大。这有很好的先例。自2020年5月推出A100系统以来,通过软件和其他改进,工程师们已经能够不断加快A100系统的速度。

Salvator表示,预计未来MLPerf的效率基准测试结果将达到H100,但目前该公司的重点是看看他们能从新芯片中获得什么样的性能。

效率

在效率方面,高通基于Cloud AI 100的机器让自己感到自豪,但这是一个比性能竞赛小得多的领域。(MLPerf代表强调,用于效率测试的计算机与用于性能测试的计算机配置是不同的,因此只有比较为相同目的配置的系统的性能才公平。)在数据中心系统的离线图像识别基准测试中,高通在每焦耳可以识别的图像数量方面排名前三。关于BERT效率的竞争更加激烈。高通以99%的准确率位居榜首,但在99.99%的准确率任务中输给了英伟达A100系统。在这两场比赛中,双方势均力敌。

边缘系统的图像识别情况也类似,高通在大多数情况下在不到一毫秒的时间内处理数据流,而且通常使用不到0.1焦耳的能量,几乎占据了所有的榜首位置。英伟达(Nvidia)将在6个月内推出的Orin芯片最接近高通的成绩。再一次,英伟达在BERT上做得更好,使用更少的能量,尽管它仍然无法与高通的速度相比。

稀疏

在MLPerf的“开放”部门中发生了很多事情,但更有趣的结果之一是,公司如何展示“稀疏”网络的性能如何良好和有效。这些方法对神经网络进行修剪,删除对产生结果贡献很小或没有贡献的节点。理论上,更小的网络可以在使用更少的计算和内存资源的情况下运行得更快、更有效。

比如,启动莫菲特人工智能展示了三台计算机使用Antoum稀疏网络加速器架构的结果。莫菲特测试了这些系统,这些系统旨在用于图像识别和自然语言处理的数据中心。在图像识别方面,该公司的商用系统每秒可处理31678个样本,即将推出的芯片每秒可处理95784个样本。作为参考,H100每秒命中95,784个样本,但英伟达的机器在完整的神经网络上工作,达到了更高的精度目标。

另一家专注于稀缺资源的公司,神经的魔法他展示了一款软件,该软件将稀疏算法应用于神经网络,使其在商用cpu上运行得更快。该公司表示,其算法将BERT版本的大小从1.3 gb减少到约10兆字节,并将吞吐量从每秒10个样本提高到1000个。

最后是特拉维夫他们使用了一种叫做自动神经结构构建技术(AutoNAC)的软件来生成一个BERT版本,该版本优化后可以在AMD CPU上运行。使用仅为参考神经网络三分之一大小的模型,得到的网络将吞吐量提高了六倍以上。

和更多的

在一系列类别中,有超过7400个测量值,还有很多东西需要解开。你自己也可以看看MLCommons

对话(0)

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu