今年4月,人工智能yabo2016网上亚博A研究实验室OpenAI揭示了DALL-E 22021年的继任者DALL-E.这两个人工智能系统都可以从自然语言文本描述中生成令人惊叹的图像;它们能够生成看起来像照片、插图、绘画、动画以及基本上任何你能用文字表达的艺术风格的图像。DALL-E 2提高了分辨率,加快了处理速度,并增加了编辑器功能,允许用户仅使用文本命令对生成的图像进行更改,例如“用植物替换花瓶”或“让狗的鼻子变大”。用户还可以上传自己的图片,然后告诉人工智能系统如何即兴发挥。

世界对DALL-E 2的最初反应是惊讶和喜悦。任何物体和生物的组合都可以在几秒钟内组合在一起;任何艺术风格都可以被模仿;任何地点都可以被描绘;任何光照条件都可以被描绘出来。比如,看到一只鹦鹉以毕加索的风格煎煎饼,谁不会印象深刻呢?随着人们列出容易被这种技术颠覆的行业,也引发了担忧。


OpenAI尚未向公众、商业实体、甚至整个人工智能社区发布该技术。OpenAI的研究人员说:“我们和人们一样担心滥用,我们也非常重视这一点。马克陈告诉亚博真人yabo.at但该公司确实邀请了一些人来试验dall - e2,并允许他们与世界分享他们的结果。这种有限的公开测试政策与谷歌的政策形成了鲜明对比,谷歌刚刚发布了自己的文本转图像生成器,画像.在发布该系统时,谷歌宣布,由于滥用和产生有害图像的风险,它将不会发布代码或公开演示。谷歌已经发布了一些非常令人印象深刻的图片,但并没有向世界展示任何它所暗示的有问题的内容。

这使得早期dall - e2实验人员拍摄的图像比以往任何时候都更有趣。过去几个月出现的结果在很大程度上说明了当今深度学习技术的局限性,为我们提供了一扇窗口,让我们了解人工智能对人类世界的理解——以及它完全无法理解的东西。

OpenAI好心地同意运行一些文本提示光谱通过系统。生成的图像分散在本文中。

光谱他想要“一幅毕加索风格的鹦鹉翻煎饼的画”,DALL-E 2就把它端上来了。OpenAI

DALL-E 2如何工作

DALL-E 2是在从互联网上抓取的大约6.5亿图像-文本对上进行训练的这篇论文OpenAI发布到ArXiv上的信息。从大量的数据集中,它学会了图像和用来描述它们的单词之间的关系。OpenAI在训练前过滤数据集,以删除包含明显暴力、性或仇恨内容的图像。“该模型没有接触过这些概念,”陈说,“所以它产生它没有见过的东西的可能性非常非常低。”但研究人员已经明确表示这种过滤也有其局限性并注意到dall - e2仍有可能产生有害物质。

一旦这个“编码器”模型被训练成能够理解文本和图像之间的关系,OpenAI就会将其与一个解码器配对,该解码器使用一种称为扩散的过程从文本提示生成图像,该过程从随机的点模式开始,然后慢慢地改变模式以创建图像。同样,该公司集成了某些过滤器,以保持生成的图像与它的内容策略并承诺会不断更新这些过滤器。提示,似乎可能产生禁止的内容被阻止,并试图防止deepfakes在训练过程中,它不能准确地重现它所看到的人脸。到目前为止,OpenAI还使用人工审查员来检查被标记为可能有问题的图像。

DALL-E 2将颠覆哪些行业

由于DALL-E 2明显存在被滥用的可能性,OpenAI最初只允许几百人访问,其中大多数是人工智能研究人员和艺术家。与实验室的语言生成模型不同,GPT-3在美国,DALL-E 2甚至还没有用于有限的商业用途,OpenAI也没有公开讨论这方面的时间表。但是通过浏览dall - e2用户在论坛上创建和发布的图像,例如Reddit在美国,一些职业似乎确实应该感到担忧。例如,DALL-E 2擅长于食品摄影公司宣传册和网站上使用的那种库存照片,以及在宿舍海报或杂志封面上看起来并不不合适的插图。

一幅漫画展示了一只熊猫嘴里叼着竹子,脸上带着悲伤的表情看着一个小机器人。光谱“纽约客风格的漫画,一只失业的熊猫意识到她吃竹子的工作被机器人抢走了。”OpenAI

在一幅画中,一只戴着派对帽的大狗和另外两只狗站在一起。空中漂浮着爱心,大狗发出语音泡泡,上面写着“你生日快乐”DALL-E 2对提示的回应是:“一只超重的老狗看起来很高兴,因为它的年轻健康的狗朋友们以贺卡的方式记住了它的生日。”OpenAI

光谱联系了这些受威胁行业的一些实体。发言人说:盖蒂图片社该公司是一家领先的库存照片供应商,他说公司并不担心。该发言人表示:“像DALL-E这样的技术对我们业务的威胁,不亚于20年来数十亿个手机摄像头以及由此产生的数万亿张图像的现实。”此外,该发言人表示,在DALL-E 2等模型投入商业使用之前,还需要回答一些重大问题,比如它们用于生成深度造假的用途、生成图像中固有的社会偏见,以及“这些模型训练的图像以及图像中的人物、地点和物体的权利”。最后这句话听起来像是一场官司。

瑞秋·希尔,首席执行官插画家协会,也提出了在训练数据中使用图像的版权和补偿问题。希尔承认:“人工智能平台可能会吸引那些想要快速且可能价格较低的插图的艺术总监,特别是如果他们不寻求特殊质量的东西。”但她仍然看到了人类的强大优势:她指出,人类插画师帮助客户产生最初的概念,而不仅仅是最终的图像,他们的工作往往依赖于“人类经验来传达情感或观点,并与观众联系起来”。希尔说,DALL-E 2和它的同类产品是否也能做到这一点还有待观察,特别是在生成与叙事非常吻合的图像或与时事文章的语气相匹配的图像时。

5个穿着西装、戴着眼罩的人聚集在一头大象周围,正在抚摸它为了衡量它复制企业通信中使用的各种库存照片的能力,光谱要求“一个多种族的同事蒙着眼睛摸大象。”OpenAI

DALL-E 2失败的地方

尽管DALL-E 2有很多优点,但从急切的实验人员那里获得的图像显示,它对这个世界还有很多需要了解的地方。以下是它最明显也最有趣的三个漏洞。

文本:具有讽刺意味的是,DALL-E 2很难在图像中放置可理解的文本,因为它非常擅长理解用于生成图像的文本提示。但用户们发现,无论输入什么文本,结果通常都是一堆乱七八糟的字母。人工智能博客詹妮尔谢恩有乐趣要求系统创建公司标识观察由此产生的混乱。然而,未来的版本很可能会纠正这个问题,特别是因为OpenAI的GPT-3团队拥有大量的文本生成专业知识。“最终,DALL-E的后继者将能够拼写Waffle House,我会为那一天而哀悼,”Shane说光谱.“我只能换一种方法来摆弄它了。”

Alt text:一幅绘画风格的图片显示了一根管子,下面是无意义的单词\u201cNa is ite naplle\u201d。为了测试DALL-E 2处理文本的能力,光谱即兴演奏马格利特的名画上面写着“Ceci n 'est pas une pipe”,下面是一根管子的图片。光谱要求在一张管子的图片下面写上“这不是管子”。OpenAI

科学:你可能会说DALL-E 2理解了一些科学定律,因为它可以很容易地描绘一个掉落的物体下落或宇航员漂浮在太空中。但是,如果你要的是结构图、x光图像、数学证明或蓝图,得到的图像可能表面上是正确的,但本质上都是错误的。例如,光谱向DALL-E 2索要“按比例绘制的太阳系插图”,并得到了一些非常奇怪的地球版本和它太多的假定的行星际邻居——包括我们最喜欢的“煮蛋行星”。“DALL-E不知道科学是什么。它只知道如何阅读标题和绘制插图,”OpenAI的研究人员解释道Aditya拉梅什,“所以它试图在不理解意思的情况下编造一些视觉上相似的东西。”

一张科学图表风格的图像显示了一个明亮的黄色太阳,周围环绕着同心线。在线上或线附近有16个不同颜色和形状的类行星物体光谱他要求“按比例绘制太阳系的插图”,得到的是一堆非常拥挤而奇怪的行星,包括左下的一个斑点状的地球,左上的一个类似煮熟的鸡蛋的东西。OpenAI

脸:有时,当DALL-E 2试图生成逼真的人物图像时,这些面孔纯粹是噩梦的素材。部分原因是,在训练过程中,OpenAI引入了一些深度伪造的安全措施,以防止它记住经常出现在互联网上的面孔。如果上传的图片中包含任何人的真实面孔,即使是非名人,系统也会拒绝。但OpenAI的一位代表表示,还有一个问题光谱最大的缺点是,该系统针对单一焦点的图像进行了优化。这就是为什么它很擅长描绘想象中的人物,比如这幅微妙的肖像光谱要求“一名宇航员凝视着地球,脸上带着渴望的表情”,但在合影和人群场景中非常糟糕。看看发生了什么光谱要一张七名工程师围在白板旁的照片。

一幅逼真的照片显示,一名穿着太空服的女子脸上带着渴望的表情。这张照片显示了DALL-E 2的肖像技巧。它还表明,系统的性别偏见可以通过仔细的提示来克服。这张照片是对提示“一名宇航员脸上带着渴望的表情凝视着地球”的回应。OpenAI

这张几乎是真实感的照片显示,一行人穿着商务休闲装,一些人戴着或拿着安全帽。人们的脸和手都扭曲了。他们站在一块看起来像建筑工地的白板前。当dall - e2被要求一次生成多个人类的图片时,事情就崩溃了。这幅“七个工程师围在一块白板周围”的图片中有一些狰狞的脸和手。OpenAI

偏见:我们将更深入地讨论这个重要的话题。DALL-E 2被认为是一个多模态人工智能系统,因为它是在图像和文本上进行训练的,它表现出一种多模态偏差形式。例如,如果用户要求它生成CEO、建筑工人或技术记者的图像,它通常会根据它在训练数据中看到的图像-文本对返回男性图像。

这张逼真的照片显示,一名男子坐在办公桌前,周围都是电脑屏幕。光谱向DALL-E 2查询一张图片,内容是“一名科技记者正在撰写一篇关于一种新的人工智能系统的文章,该系统可以创造出非凡而奇怪的图像”。这张照片展示了它的反应之一;其他选项显示在本文的顶部。OpenAI

在DALL-E 2发布之前,OpenAI邀请在该领域工作的外部研究人员作为“红队”,他们的见解帮助OpenAI撰写了关于DALL-E 2的文章系统的风险和局限性.他们发现,除了复制社会对性别的刻板印象外,该系统还过度代表了白人和西方传统和环境。一个红队小组,来自于Mohit邦萨尔北卡罗莱纳大学教堂山分校的研究人员之前创建了一个系统评估了第一个DALL-E叫做DALL-Eval,他们也用它来检查第二次迭代。该小组目前正在研究在训练过程的早期使用这样的评估系统——可能在训练之前对数据集进行采样,并寻找额外的图像来解决代表性不足的问题,或者使用偏差指标作为惩罚或奖励信号,以推动图像生成系统朝着正确的方向发展。

Chen指出,OpenAI的一个团队已经开始试验“机器学习缓解”来纠正偏见。例如,在DALL-E 2的训练过程中,团队发现,删除性内容会创建一个男性多于女性的数据集,这导致系统生成更多的男性图像。“所以我们调整了我们的训练方法,提高了女性图像的权重,这样它们更有可能被生成,”陈解释道。用户还可以使用“女宇航员”或“印度婚礼”等提示,通过指定性别、种族或地理位置,帮助DALL-E 2生成更多样化的结果。

但OpenAI的批评者表示,在大量未经策划的数据集上训练模型的整体趋势应该受到质疑。Vinay您正在他是一名独立研究人员,与人合著了一项研究2021年关于多模态偏差的论文他认为,人工智能研究界高估了通过“工程力量”扩大模型的价值,低估了创新。“这种虚假的幽闭恐惧症似乎已经吞噬了这个领域,在这个领域中,基于维基百科的数据集不知怎么地跨越了(大约)3000万张图像-文本对人身攻击被宣布为“太小”!他说光谱在一封电子邮件中。

普拉布支持从维基百科和电子书(包括教科书和手册)等来源创建更小但“干净”的图像-文本对数据集的想法。“我们还可以(在联合国教科文组织等机构的帮助下)发起一项全球运动,根据W3C的标准提供带有描述的图像最佳实践无论视力残疾人社区推荐什么,”他建议道。

DALL-E 2的下一步是什么

DALL-E 2团队表示,他们渴望看到早期用户在试验系统时发现了哪些错误和故障,他们已经在考虑下一步的步骤了。拉梅什说:“我们对提高系统的一般智能非常感兴趣。”他补充说,该团队希望“在DALL-E中建立对语言及其与世界关系的更深入理解。”他指出,OpenAI的文本生成GPT-3对常识、科学和人类行为有着惊人的理解。拉梅什说:“一个理想的目标可能是尝试通过DALL-E将GPT-3的知识与图像域连接起来。”

随着用户在过去几个月里使用DALL-E 2,他们最初对其功能的敬畏很快就变成了对其怪癖的困惑。正如一位实验人员所说博客“与DALL-E合作,感觉仍然像是试图与某种外星实体交流,即使它理论上能理解英语,但它与人类的本体论不太一样。”也许有一天,OpenAI或其竞争对手将创造出类似人类艺术的东西。现在,我们将欣赏来自外星智慧的奇迹和笑声——也许来自“煮蛋行星”。

本文发表在2022年8月的印刷版上,题为“DALL-E 2的失败显示了人工智能的局限性”。

对话(0)

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu