Meta的首席人工智能科学家,Yann勒存即使在谈论此时此刻的具体步骤时,他也不会忘记自己遥远的目标。LeCun说:“我们想要制造像动物和人类一样学习的智能机器。亚博真人yabo.at在面试中。

今天的具体步骤是Meta公司的一系列论文,该公司前身为Facebook,关于一种类型的self-supervised学习(SSL)用于人工智能系统。SSL与监督学习相反,在监督学习中,人工智能系统从标记的数据集学习(当人工智能系统检查其工作时,标签充当提供正确答案的老师)。LeCun经常谈到他对SSL的坚定信念是必要的前提人工智能系统可以建立“世界模型”,因此可以开始获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境转移到另一个环境的能力。这些新论文展示了一个被称为蒙面自动编码器(MAE)的自我监督系统如何从非常零散和不完整的数据中学习重建图像、视频甚至音频。虽然mae不是一个新想法,但Meta已经将工作扩展到新的领域。


LeCun说,通过弄清楚如何预测静态图像或视频或音频序列中缺失的数据,MAE系统必须构建一个世界模型。他说:“如果它能预测视频中会发生什么,它必须理解世界是三维的,一些物体是无生命的,不能自己移动,其他物体是有生命的,很难预测,一直到预测有生命的人的复杂行为。”一旦人工智能系统有了准确的世界模型,它就可以使用该模型来计划行动。

“图像是来自自然界的信号,并不是为了消除冗余而构建的。这就是为什么我们在创建jpg时可以很好地压缩内容。”
-Ross Girshick, Meta

“智力的本质是学会预测,”LeCun说。虽然他并没有说Meta的MAE系统接近于人工通用智能他认为这是重要的一步。

并非所有人都认为Meta研究人员正走在通往人类智能水平的正确道路上。Yoshua Bengio是功劳,除了他图灵奖共同得主LeCun和Geoffrey Hinton随着深度神经网络的发展,他有时会与LeCun就人工智能的重大想法进行友好的辩论。在致亚博真人yabo.at,本吉奥阐述了他们在目标上的一些不同和相似之处。

“我真的不认为我们目前的方法(自我监督与否)足以弥补差距达到人类智力水平,”本吉奥写道。他补充说,该领域需要“质的进步”,才能真正将技术水平推向接近人类规模的人工智能。

虽然本吉奥同意LeCun的观点,认为推理世界的能力是智能的关键要素,但他的团队并没有专注于可以预测的模型,而是那些可以以自然语言形式呈现知识的模型。他指出,这样的模型“将允许我们结合这些知识来解决新问题,执行反事实模拟,或研究可能的未来。”本吉奥的团队开发了一种新型神经网络框架它比LeCun所青睐的模型更具模块化性质,LeCun的团队正在研究端到端学习(学习初始输入阶段和最终输出结果之间的所有步骤的模型)。

变压器热潮

Meta的MAE工作建立在一种名为变形金刚.变形金刚最初被用于自然语言处理,在那里它们使谷歌这样的模型的性能有了很大的飞跃伯特和OpenAIGPT-3.元AI研究员罗斯Girshick他说,变形金刚在语言方面的成功促使计算机视觉界的人们“狂热地工作,试图在自己的领域复制这些成果”。

Meta的研究人员并不是第一个成功将变形金刚应用于视觉任务的人;Girshick说谷歌的研究视觉变压器(ViT)启发了Meta团队。他说:“通过采用ViT体系结构,它消除了一直阻碍试验某些想法的障碍。光谱

Girshick是Meta的合著者第一篇关于MAE系统的论文它处理静态图像。它的训练类似于BERT和其他语言转换器的训练。这样的语言模型显示了巨大的文本数据库,其中有一部分单词缺失或“被掩盖”。这些模型尝试预测缺失的单词,然后将缺失的文本显示出来,这样模型就可以检查它们的工作,调整它们的参数,并再次尝试使用新的文本块。Girshick解释说,为了在视觉上做类似的事情,研究小组将图像分解成补丁,掩盖一些补丁,并要求MAE系统预测图像中缺失的部分。

该团队的突破之一是意识到掩盖大部分图像会得到最好的结果——这与语言转换器的关键区别,语言转换器可能会掩盖15%的单词。“语言是一种极其密集和高效的交流系统,”Girshick说。“每个符号都有很多含义。但是图像是来自自然世界的信号,并不是为了消除冗余而构建的。这就是为什么我们在创建JPG图像时可以很好地压缩东西。”

5排图片,包括一辆公共汽车,一个花瓶,斑马,蘑菇和辣椒。在每一组中,都有一个原始图像,然后是掩蔽率为75%、85%和95%的版本,每个版本都有一个部分可见的伴图。Meta AI的研究人员实验了要掩盖多少图像才能得到最好的结果。

通过屏蔽图像中超过75%的补丁,Girshick解释说,他们消除了图像中的冗余,否则这些冗余将使训练任务过于琐碎。他们的MAE系统由两部分组成,首先使用编码器来学习训练数据集中像素之间的关系,然后使用解码器尽可能地从屏蔽版本中重建原始图像。在这个训练方案完成后,编码器也可以微调视觉任务,如分类和目标检测。

“我们最终感到兴奋的原因是,我们看到了将学习迁移到下游任务的结果,”Girshick说。当使用编码器进行物体识别等任务时,他说:“我们看到了非常可观的收益;他们推动指针。”他指出,扩展模型会带来更好的性能,这对未来的模型来说是一个有希望的迹象,因为SSL具有使用大量数据的潜力,而不需要手动注释。”

在大量非策划数据集上进行全面学习可能是Meta提高SSL结果的策略,但这也是一种越来越有争议的方法。人工智能伦理研究人员,如Timnit Gebru被称为注意力对于大型语言模型学习的非策划数据集中固有的偏见灾难性的后果

视频和音频的自我监督学习

视频MAE系统在美国,遮罩遮蔽了每帧高达95%的视频帧,因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta研究人员说,MAE方法在视频方面的一个巨大优势Christoph Feichtenhofer视频通常是非常需要计算的。但是通过屏蔽每帧95%的数据,MAE将计算成本降低了95%,他说。

这些实验中使用的片段只有几秒钟长,但费希滕霍费尔说,用更长的视频训练人工智能系统是“一个非常活跃的研究课题”。他说,想象一下,一个虚拟助理拥有你房子的视频,可以告诉你一小时前你把钥匙放在哪里了。(不管你认为这种可能性是惊人的还是令人毛骨悚然的,请放心,这是相当遥远的。)

更直接地说,人们可以想象图像和视频系统在Facebook和Instagram的内容审核所需的分类任务中都很有用,Feichtenhofer表示,“完整性”是一种可能的应用。他说:“我们肯定在和产品团队讨论,但这是非常新的,我们还没有任何具体的项目。”

对于音频MAE的工作,该团队表示将很快发布在arXiv预打印服务器, Meta AI团队发现了一种应用掩蔽技术的聪明方法。他们将声音文件转换成频谱图,即信号中频率频谱的视觉表示,然后掩盖这些图像的部分以供训练。重建的音频非常令人印象深刻,尽管该模型目前只能处理几秒钟的片段。

预测音频

Meta的音频掩码自动编码器是在大量掩码数据上进行训练的,然后能够以令人印象深刻的保真度重建音频文件。


伯尼黄音频系统的工作人员说,潜在的应用包括分类任务,帮助IP语音通过填充数据包丢失时丢失的音频或找到更有效的压缩音频文件的方法来调用。

Meta一直在进行人工智能的魅力攻势,比如这些MAE模型和开源研究提供一个预训练的大型语言模型用于研究目的的人工智能社区。但批评人士指出尽管Meta在研究方面如此开放,但它的核心商业算法——那些控制新闻源、推荐和广告投放的算法——并没有供人研究。

对话(0)

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu