亚博真人yabo.at
          
          对于技术内部人士
主题
         航空航天
         2020年亚博论坛

         2020年亚博收网行动

         2021亚博最新

         2021欧洲杯亚博

         能源
         2020欧洲杯亚博

         188亚博

         半导体
         亚博排列五投注网站
         电信
         运输
        
部分
          特性
          新闻
          的意见
          职业生涯
          DIY
          大局
          工程资源
         
更多的
          专题报告
          集合
          讲解员
          播客
          视频
          时事通讯
          顶级编程语言
          机器人导
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
IEEE会员
          最新一期
          杂志存档
          该研究所
          TI存档
         
亚博真人yabo.at
          关于我们
          联系我们
          转载及权限
          广告
         
遵循IEEE频亚博真人yabo.at谱
           
支持IEEE频谱亚博真人yabo.at
          亚博真人yabo.at是IEEE的旗舰出版物，IEEE是世界上最大的致力于工程和应用科学的专业组织。我们的文章、播客和信息图表向读者介绍技术、工程和科学的发展。

          加入IEEE
         
          订阅
         
               对IEEE
               联系与支持
               可访问性
               不歧视政策
               条款
               IEEE隐私政策
              
              ©版权所有IEEE 2022作为一个非盈利组织，IEEE是世界上最大的技术专业组织，致力于推动技术造福人类。

GPT语言模型拼出新的蛋白质

人类的语言和蛋白质结构足够接近人工智能的目的

3分钟读取

iStockphoto

人类语言与蛋白质有很多共同之处，至少在计算方面建模．这使得研究团队应用了从自然语言处理(NLP)到人工智能的新方法蛋白质设计．其中一个——birte Höcker的蛋白质设计实验室在德国拜罗伊特大学描述ProtGPT2这是一种基于OpenAI的语言模型GPT-2，根据自然序列的原理生成新的蛋白质序列。

就像字母表中的字母组成单词和句子一样，天然存在的氨基酸以不同的方式结合形成蛋白质。蛋白质序列，就像自然语言一样，以极高的效率在氨基酸序列中存储结构和功能。

ProtGPT2是一个深度，无监督模式这利用了变压器结构这也导致了自然语言处理技术的快速发展。该体系结构有两个模块Noelia Ferruz他是这篇论文的合著者，也是训练ProtGPT2的人:一个模块理解输入文本，另一个模块处理或生成新文本。第二个是生成新文本的解码器模块，它进入了ProtGPT2的开发。

研究人员已经使用GPT-2训练了一个模型来学习蛋白质的“语言”，生成稳定的蛋白质，并探索蛋白质空间的“黑暗”区域。

她说:“在我们创建这个模型的时候，还有很多人在使用第一个模块。ESM，ProtTrans,ProteinBERT．“我们的是第一个公开发布的解码器。”她补充说，这也是第一次有人直接应用GPT-2。

Ferruz本人也是一个超级粉丝GPT-2．她说:“有一个能写英语的模特，这让我印象深刻。”这是一个著名的转换器模型，它以一种无监督的方式在40gb的英语互联网文本上进行了预训练——也就是说，它使用没有人工标记的原始文本——来生成句子中的下一个单词。GPT -x系列已经被证明可以有效地生成长而连贯的文本，通常与人类所写的内容难以区分——在某种程度上潜在的滥用是一个问题。

鉴于GPT-2的能力，拜罗伊特的研究人员对使用它来训练模型来学习蛋白质语言，生成稳定的蛋白质，并探索蛋白质空间的“黑暗”区域持乐观态度。Ferruz在整个蛋白质空间中大约5000万个无注释序列的数据集上训练ProtGPT2。为了评估该模型，研究人员将ProtGPT2生成的10,000个序列的数据集与训练数据集中10,000个序列的随机集进行了比较。

“我们可以添加标签，并有可能在未来开始生成具有特定功能的序列。”
-Noelia Ferruz，德国拜罗伊特大学

他们发现该模型预测的序列在二级结构上与自然存在的蛋白质相似。ProtGPT2可以预测稳定和有功能的蛋白质，尽管Ferruz说，这将在未来几个月内通过一组大约30种蛋白质的实验室实验来验证。ProtGPT2还对自然界中不存在的蛋白质进行了建模，为蛋白质设计领域开辟了可能性。

每个节点代表一个序列。当两个节点有至少20个氨基酸的排列和70%的HHsearch概率时，它们就连接起来了。颜色描述了不同的SCOPe类，ProtGPT2序列显示为白色。拜罗伊特大学/自然通讯

Ferruz说，该模型可以在几分钟内生成数百万个蛋白质。“如果没有进一步的改进，人们可以利用这个免费提供的模型，对一组序列进行微调，在这个区域产生更多的序列，”比如抗生素或疫苗。但同时，她补充说，在训练过程中进行一些小的修改，“我们可以添加标签，并有可能在未来开始生成具有特定功能的序列。”反过来，这不仅在医学和生物医学领域，而且在环境科学等领域也有应用潜力。

Ferruz承认，ProtGPT2的成功得益于NLP领域的快速发展，但他也指出，这是一个不断变化的领域——“过去12个月里发生的所有事情都太疯狂了。”目前，她和她的同事已经在写一篇关于他们工作的综述。“我在(2021年)圣诞节期间训练了这个模型，”她说，“当时，有另一个模型被描述了……但当时没有。”然而，她说，到今年春天，其他型号已经发布。

ProtGPT2预测的序列涵盖了蛋白质结构和功能的新领域。然而，几周前，DeepMind发布了over的结构2亿蛋白质．“所以我猜我们不再有那么多的黑暗蛋白质组了，”Ferruz说。“但是，仍然有一些地区……还没有被探索。”

不过，前面还有很多工作要做。“我想控制设计过程，”Ferruz补充道。“我们需要获取序列，预测结构，如果它有任何....，可能还会预测功能这将非常具有挑战性。”

从你的网站文章

网络上的相关文章

网上亚博A 生物医学大型语言模型

对话(0)

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

GPT语言模型拼出新的蛋白质

人类的语言和蛋白质结构足够接近人工智能的目的

电动汽车转型解释:地方政策塑造全球竞争

这些光学门提供电子通道

IEEE荣誉工程师

有关的故事

你好，chatgpt -请解释一下!

睡眠可以防止人工智能灾难性遗忘

人工智能生成代码的所有权备受争议

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力

主题

部分

更多的

IEEE会员

IEEE会员

亚博真人yabo.at

遵循IEEE频亚博真人yabo.at谱

支持IEEE频谱亚博真人yabo.at

通过创建账户享受更多免费内容和福利

保存文章以供以后阅读需要一个IEEE Spectrum帐户亚博真人yabo.at

研究所的内容仅供会员使用

下载完整的PDF刊物是IEEE会员的独家权利

访问光谱的数字版本是IEEE会员的独家

以下主题是IEEE成员的独家特性

在文章中添加回复需要IEEE Spectrum帐户亚博真人yabo.at

创建一个帐户以访问更多内容和功能亚博真人yabo.at包括保存文章以供以后阅读，下载Spectrum Collections，以及参与与读者和编辑的对话。有关更多独家内容和功能，请考虑加入IEEE．

加入世界上最大的致力于工程和应用科学的专业组织，并获得Spectrum的所有文章、档案、PDF下载和其他福利。了解更多→

访问成千上万的文章-完全免费

创建一个帐户，并获得独家内容和功能:保存文章，下载收藏，而且与科技业内人士交谈——全部免费!为了获得充分的使用权和福利，加入IEEE作为付费会员。

人类的语言和蛋白质结构足够接近人工智能的目的

有关的故事

更好的探测将使海洋变得透明——也许还会导致相互毁灭

我们有了找到潜艇的新方法

yabo2016网上亚博A人工智能配合其他子探测技术

核威慑取决于潜艇的隐藏能力