亚博真人yabo.at
          
          对于技术内部人士
主题
         航空航天
         2020年亚博论坛

         2020年亚博收网行动

         2021亚博最新

         2021欧洲杯亚博

         能源
         2020欧洲杯亚博

         188亚博

         半导体
         亚博排列五投注网站
         电信
         运输
        
部分
          特性
          新闻
          的意见
          职业生涯
          DIY
          大局
          工程资源
         
更多的
          专题报告
          集合
          讲解员
          播客
          视频
          时事通讯
          顶级编程语言
          机器人导
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
亚博真人yabo.at
          关于我们
          联系我们
          转载及权限
          广告
         
遵循IEEE频亚博真人yabo.at谱
           
支持IEEE频谱亚博真人yabo.at
          亚博真人yabo.at是IEEE的旗舰出版物，IEEE是世界上最大的致力于工程和应用科学的专业组织。我们的文章、播客和信息图表向读者介绍技术、工程和科学的发展。

          加入IEEE
         
          订阅
         
               对IEEE
               联系与支持
               可访问性
               不歧视政策
               条款
               IEEE隐私政策
              
              ©版权所有IEEE 2022作为一个非盈利组织，IEEE是世界上最大的技术专业组织，致力于推动技术造福人类。

Meta的AI向前迈出了无人监督的一步

在追求人类水平的智能AI的过程中，Meta将赌注押在了自我监督学习上

6分钟读取

8组图像的集合。在每个图像中，最左边的图像是部分模糊的，但可以识别为模糊的版本(中间)和右边的清晰版本。

Meta AI用于计算机视觉的蒙面自动编码器在大部分被遮蔽的图像上进行训练(左图)。然而，它的重建[中]非常接近原始图像[右]。

元

Meta的首席人工智能科学家，Yann勒存即使在谈论此时此刻的具体步骤时，他也不会忘记自己遥远的目标。LeCun说:“我们想要制造像动物和人类一样学习的智能机器。亚博真人yabo.at在面试中。

今天的具体步骤是Meta公司的一系列论文，该公司前身为Facebook，关于一种类型的self-supervised学习(SSL)用于人工智能系统。SSL与监督学习相反，在监督学习中，人工智能系统从标记的数据集学习(当人工智能系统检查其工作时，标签充当提供正确答案的老师)。LeCun经常谈到他对SSL的坚定信念是必要的前提人工智能系统可以建立“世界模型”，因此可以开始获得类似人类的能力，如理性、常识，以及将技能和知识从一个环境转移到另一个环境的能力。这些新论文展示了一个被称为蒙面自动编码器(MAE)的自我监督系统如何从非常零散和不完整的数据中学习重建图像、视频甚至音频。虽然mae不是一个新想法，但Meta已经将工作扩展到新的领域。

LeCun说，通过弄清楚如何预测静态图像或视频或音频序列中缺失的数据，MAE系统必须构建一个世界模型。他说:“如果它能预测视频中会发生什么，它必须理解世界是三维的，一些物体是无生命的，不能自己移动，其他物体是有生命的，很难预测，一直到预测有生命的人的复杂行为。”一旦人工智能系统有了准确的世界模型，它就可以使用该模型来计划行动。

“图像是来自自然界的信号，并不是为了消除冗余而构建的。这就是为什么我们在创建jpg时可以很好地压缩内容。”
-Ross Girshick, Meta

“智力的本质是学会预测，”LeCun说。虽然他并没有说Meta的MAE系统接近于人工通用智能他认为这是重要的一步。

并非所有人都认为Meta研究人员正走在通往人类智能水平的正确道路上。Yoshua Bengio是功劳，除了他图灵奖共同得主LeCun和Geoffrey Hinton随着深度神经网络的发展，他有时会与LeCun就人工智能的重大想法进行友好的辩论。在致亚博真人yabo.at，本吉奥阐述了他们在目标上的一些不同和相似之处。

“我真的不认为我们目前的方法(自我监督与否)足以弥补差距达到人类智力水平，”本吉奥写道。他补充说，该领域需要“质的进步”，才能真正将技术水平推向接近人类规模的人工智能。

虽然本吉奥同意LeCun的观点，认为推理世界的能力是智能的关键要素，但他的团队并没有专注于可以预测的模型，而是那些可以以自然语言形式呈现知识的模型。他指出，这样的模型“将允许我们结合这些知识来解决新问题，执行反事实模拟，或研究可能的未来。”本吉奥的团队开发了一种新型神经网络框架它比LeCun所青睐的模型更具模块化性质，LeCun的团队正在研究端到端学习(学习初始输入阶段和最终输出结果之间的所有步骤的模型)。

变压器热潮

Meta的MAE工作建立在一种名为变形金刚．变形金刚最初被用于自然语言处理，在那里它们使谷歌这样的模型的性能有了很大的飞跃伯特和OpenAIGPT-3．元AI研究员罗斯Girshick他说，变形金刚在语言方面的成功促使计算机视觉界的人们“狂热地工作，试图在自己的领域复制这些成果”。

Meta的研究人员并不是第一个成功将变形金刚应用于视觉任务的人;Girshick说谷歌的研究视觉变压器(ViT)启发了Meta团队。他说:“通过采用ViT体系结构，它消除了一直阻碍试验某些想法的障碍。光谱．

Girshick是Meta的合著者第一篇关于MAE系统的论文它处理静态图像。它的训练类似于BERT和其他语言转换器的训练。这样的语言模型显示了巨大的文本数据库，其中有一部分单词缺失或“被掩盖”。这些模型尝试预测缺失的单词，然后将缺失的文本显示出来，这样模型就可以检查它们的工作，调整它们的参数，并再次尝试使用新的文本块。Girshick解释说，为了在视觉上做类似的事情，研究小组将图像分解成补丁，掩盖一些补丁，并要求MAE系统预测图像中缺失的部分。

该团队的突破之一是意识到掩盖大部分图像会得到最好的结果——这与语言转换器的关键区别，语言转换器可能会掩盖15%的单词。“语言是一种极其密集和高效的交流系统，”Girshick说。“每个符号都有很多含义。但是图像是来自自然世界的信号，并不是为了消除冗余而构建的。这就是为什么我们在创建JPG图像时可以很好地压缩东西。”

5排图片，包括一辆公共汽车，一个花瓶，斑马，蘑菇和辣椒。在每一组中，都有一个原始图像，然后是掩蔽率为75%、85%和95%的版本，每个版本都有一个部分可见的伴图。 Meta AI的研究人员实验了要掩盖多少图像才能得到最好的结果。元

通过屏蔽图像中超过75%的补丁，Girshick解释说，他们消除了图像中的冗余，否则这些冗余将使训练任务过于琐碎。他们的MAE系统由两部分组成，首先使用编码器来学习训练数据集中像素之间的关系，然后使用解码器尽可能地从屏蔽版本中重建原始图像。在这个训练方案完成后，编码器也可以微调视觉任务，如分类和目标检测。

“我们最终感到兴奋的原因是，我们看到了将学习迁移到下游任务的结果，”Girshick说。当使用编码器进行物体识别等任务时，他说:“我们看到了非常可观的收益;他们推动指针。”他指出，扩展模型会带来更好的性能，这对未来的模型来说是一个有希望的迹象，因为SSL”具有使用大量数据的潜力，而不需要手动注释。”

在大量非策划数据集上进行全面学习可能是Meta提高SSL结果的策略，但这也是一种越来越有争议的方法。人工智能伦理研究人员，如Timnit Gebru有被称为注意力对于大型语言模型学习的非策划数据集中固有的偏见灾难性的后果．

视频和音频的自我监督学习

在视频MAE系统在美国，遮罩遮蔽了每帧高达95%的视频帧，因为帧之间的相似性意味着视频信号比静态图像有更多的冗余。Meta研究人员说，MAE方法在视频方面的一个巨大优势Christoph Feichtenhofer视频通常是非常需要计算的。但是通过屏蔽每帧95%的数据，MAE将计算成本降低了95%，他说。

这些实验中使用的片段只有几秒钟长，但费希滕霍费尔说，用更长的视频训练人工智能系统是“一个非常活跃的研究课题”。他说，想象一下，一个虚拟助理拥有你房子的视频，可以告诉你一小时前你把钥匙放在哪里了。(不管你认为这种可能性是惊人的还是令人毛骨悚然的，请放心，这是相当遥远的。)

更直接地说，人们可以想象图像和视频系统在Facebook和Instagram的内容审核所需的分类任务中都很有用，Feichtenhofer表示，“完整性”是一种可能的应用。他说:“我们肯定在和产品团队讨论，但这是非常新的，我们还没有任何具体的项目。”

对于音频MAE的工作，该团队表示将很快发布在arXiv预打印服务器， Meta AI团队发现了一种应用掩蔽技术的聪明方法。他们将声音文件转换成频谱图，即信号中频率频谱的视觉表示，然后掩盖这些图像的部分以供训练。重建的音频非常令人印象深刻，尽管该模型目前只能处理几秒钟的片段。

伯尼黄音频系统的工作人员说，潜在的应用包括分类任务，帮助IP语音通过填充数据包丢失时丢失的音频或找到更有效的压缩音频文件的方法来调用。

Meta一直在进行人工智能的魅力攻势，比如这些MAE模型和开源研究提供一个预训练的大型语言模型用于研究目的的人工智能社区。但批评人士指出尽管Meta在研究方面如此开放，但它的核心商业算法——那些控制新闻源、推荐和广告投放的算法——并没有供人研究。

从你的网站文章

网络上的相关文章

机器学习无监督学习元网上亚博A 神经网络

对话(0)

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

Meta的AI向前迈出了无人监督的一步

在追求人类水平的智能AI的过程中，Meta将赌注押在了自我监督学习上

变压器热潮

视频和音频的自我监督学习

预测音频

在计算机历史博物馆探索先驱软件

微型传感套件是迈向机器蚊蚋的一大步

自供电电子药丸监测肠道化学

有关的故事

你好，chatgpt -请解释一下!

三张图表显示了最新的科技行业裁员趋势

新的人工智能将计算机图形速度提高了5倍

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

通过创建账户享受更多免费内容和福利

保存文章以供以后阅读需要一个IEEE Spectrum帐户亚博真人yabo.at

研究所的内容仅供会员使用

下载完整的PDF刊物是IEEE会员的独家权利

访问光谱的数字版本是IEEE会员的独家

以下主题是IEEE成员的独家特性

在文章中添加回复需要IEEE Spectrum帐户亚博真人yabo.at

创建一个帐户以访问更多内容和功能亚博真人yabo.at包括保存文章以供以后阅读，下载Spectrum Collections，以及参与与读者和编辑的对话。有关更多独家内容和功能，请考虑加入IEEE．

加入世界上最大的致力于工程和应用科学的专业组织，并获得Spectrum的所有文章、档案、PDF下载和其他福利。了解更多→

访问成千上万的文章-完全免费

创建一个帐户，并获得独家内容和功能:保存文章，下载收藏，而且与科技业内人士交谈——全部免费!为了获得充分的使用权和福利，加入IEEE作为付费会员。

在追求人类水平的智能AI的过程中，Meta将赌注押在了自我监督学习上

变压器热潮

视频和音频的自我监督学习

预测音频

有关的故事

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力