人类语言与蛋白质有很多共同之处,至少在计算方面建模.这使得研究团队应用了从自然语言处理(NLP)到人工智能的新方法蛋白质设计.其中一个——birte Höcker的蛋白质设计实验室在德国拜罗伊特大学描述ProtGPT2这是一种基于OpenAI的语言模型GPT-2,根据自然序列的原理生成新的蛋白质序列。

就像字母表中的字母组成单词和句子一样,天然存在的氨基酸以不同的方式结合形成蛋白质。蛋白质序列,就像自然语言一样,以极高的效率在氨基酸序列中存储结构和功能。

ProtGPT2是一个深度,无监督模式这利用了变压器结构这也导致了自然语言处理技术的快速发展。该体系结构有两个模块Noelia Ferruz他是这篇论文的合著者,也是训练ProtGPT2的人:一个模块理解输入文本,另一个模块处理或生成新文本。第二个是生成新文本的解码器模块,它进入了ProtGPT2的开发。

研究人员已经使用GPT-2训练了一个模型来学习蛋白质的“语言”,生成稳定的蛋白质,并探索蛋白质空间的“黑暗”区域。

她说:“在我们创建这个模型的时候,还有很多人在使用第一个模块。ESMProtTrans,ProteinBERT.“我们的是第一个公开发布的解码器。”她补充说,这也是第一次有人直接应用GPT-2。

Ferruz本人也是一个超级粉丝GPT-2.她说:“有一个能写英语的模特,这让我印象深刻。”这是一个著名的转换器模型,它以一种无监督的方式在40gb的英语互联网文本上进行了预训练——也就是说,它使用没有人工标记的原始文本——来生成句子中的下一个单词。GPT -x系列已经被证明可以有效地生成长而连贯的文本,通常与人类所写的内容难以区分——在某种程度上潜在的滥用是一个问题。

鉴于GPT-2的能力,拜罗伊特的研究人员对使用它来训练模型来学习蛋白质语言,生成稳定的蛋白质,并探索蛋白质空间的“黑暗”区域持乐观态度。Ferruz在整个蛋白质空间中大约5000万个无注释序列的数据集上训练ProtGPT2。为了评估该模型,研究人员将ProtGPT2生成的10,000个序列的数据集与训练数据集中10,000个序列的随机集进行了比较。

“我们可以添加标签,并有可能在未来开始生成具有特定功能的序列。”
-Noelia Ferruz,德国拜罗伊特大学

他们发现该模型预测的序列在二级结构上与自然存在的蛋白质相似。ProtGPT2可以预测稳定和有功能的蛋白质,尽管Ferruz说,这将在未来几个月内通过一组大约30种蛋白质的实验室实验来验证。ProtGPT2还对自然界中不存在的蛋白质进行了建模,为蛋白质设计领域开辟了可能性。

每个节点代表一个序列。当两个节点有至少20个氨基酸的排列和70%的HHsearch概率时,它们就连接起来了。颜色描述了不同的SCOPe类,ProtGPT2序列显示为白色。拜罗伊特大学/自然通讯

Ferruz说,该模型可以在几分钟内生成数百万个蛋白质。“如果没有进一步的改进,人们可以利用这个免费提供的模型,对一组序列进行微调,在这个区域产生更多的序列,”比如抗生素或疫苗。但同时,她补充说,在训练过程中进行一些小的修改,“我们可以添加标签,并有可能在未来开始生成具有特定功能的序列。”反过来,这不仅在医学和生物医学领域,而且在环境科学等领域也有应用潜力。

Ferruz承认,ProtGPT2的成功得益于NLP领域的快速发展,但他也指出,这是一个不断变化的领域——“过去12个月里发生的所有事情都太疯狂了。”目前,她和她的同事已经在写一篇关于他们工作的综述。“我在(2021年)圣诞节期间训练了这个模型,”她说,“当时,有另一个模型被描述了……但当时没有。”然而,她说,到今年春天,其他型号已经发布。

ProtGPT2预测的序列涵盖了蛋白质结构和功能的新领域。然而,几周前,DeepMind发布了over的结构2亿蛋白质.“所以我猜我们不再有那么多的黑暗蛋白质组了,”Ferruz说。“但是,仍然有一些地区……还没有被探索。”

不过,前面还有很多工作要做。“我想控制设计过程,”Ferruz补充道。“我们需要获取序列,预测结构,如果它有任何....,可能还会预测功能这将非常具有挑战性。”

对话(0)

人工智能会窃取潜艇的隐身能力吗?

更好的探测将使海洋变得透明——也许还会导致相互毁灭

11分钟读取
一张潜艇在水中的照片,在部分多云的天空下。

弗吉尼亚级快速攻击潜艇维吉尼亚州将于2010年穿越地中海。当时,只要潜水,它就能消失。

美国海军

潜艇的价值主要是因为他们隐藏的能力。核战争中,核潜艇能够在第一次导弹袭击中存活下来,从而能够在第二次打击中发射导弹作为回应,这是所谓“相互保证毁灭”威慑战略的关键。因此,任何可能使海洋变得有效透明的新技术,都可能破坏世界和平,使潜伏的潜艇变得微不足道。近一个世纪以来,海军工程师们一直在努力研发速度更快、噪音更小的潜艇。但他们也同样努力推进一系列雷达、声纳和其他旨在探测、瞄准和消灭敌方潜艇的技术。

随着20世纪60年代早期核动力潜艇的出现,这种平衡似乎发生了转变。在2015年战略与预算评估中心的一项研究中,布莱恩·克拉克哈德逊研究所的一位海军专家指出,这些船只长时间保持在水下的能力使它们“雷达和主动声纳几乎不可能发现“但即使是这些隐形的潜艇也会产生细微的、非常低频的噪音,从很远的地方就能被探测到声水听器阵列网络安装在海底的。

继续阅读↓ 显示更少
{“imageShortcodeIds”(“30133857”):}
Baidu