Nature Machine Intelligence：近似语义蕴含的蛋白质功能预测

Tags: 蛋白质功能预测作者：Jenny Ou 更新：2024-02-19

蛋白质功能预测是现代生物学和生物信息学的关键挑战之一，因为它使人们能够更好地了解蛋白质在生命系统中的作用和相互作用。蛋白质的准确功能描述对于识别药物靶点、了解疾病机制和改善工业中的生物技术应用等任务是必要的。虽然近年来预测蛋白质结构变得越来越准确，但由于已知功能数量少，加上其复杂性和相互作用，预测蛋白质功能仍然具有挑战性。

蛋白质的功能使用基因本体（GO）来描述，这是生物学中最成功的本体之一。GO包括三个亚本体，用于描述单个蛋白质的分子功能（MFO）、蛋白质可以贡献的生物过程（BPO）和蛋白质活跃的细胞成分（CCO）。研究人员根据实验确定蛋白质功能，并生成科学报告，然后由数据库管理员获取并添加到知识库中。这些注释通常传播到同族蛋白。因此，UniProtKB/Swiss-Prot数据库3包含为数千种生物体和超过55万种蛋白质手动策划的GO注释。

最近的蛋白质功能预测方法依赖于不同的信息来源，如序列、相互作用、蛋白质三级结构、文献、共表达、系统发育分析或GO中提供的信息。这些方法可以使用序列域注释，直接应用深度卷积神经网络（CNN）或语言模型，如长期短期记忆神经网络和变压器，或使用预训练的蛋白质语言模型来表示氨基酸序列。模型还可能通过知识图嵌入、使用k个最近邻和图卷积神经网络的方法纳入蛋白质-蛋白质相互作用。此外，应用于科学文献的自然语言模型在自动函数预测方面也取得了成功。

许多函数预测方法的主要局限性之一是它们依赖于序列相似性来预测函数。虽然这种方法在应用于具有良好特征功能的类似蛋白质的蛋白质时是有效的，但对于与已知功能结构域几乎没有或没有序列相似性的蛋白质来说，这种方法可能不太可靠。分子功能主要来自结构，结构相似的蛋白质可能具有不同的序列。重要的是，具有类似序列的蛋白质可以具有不同的功能集，这取决于它们的活性位点和它们所处的生物体。

因此，对GO的所有三个亚本体使用相同信息来源的方法是有限的；而MFO亚本体的功能可以通过蛋白质序列或结构来预测，而来自BPO的功能，以及在较小程度上的CCO，本质上依赖于多种蛋白质的存在并以特定方式相互作用；因此，预测BPO和CCO注释需要与预测MFO注释不同的信息来源。

一般来说，预测蛋白质是否参与生物过程需要了解生物体蛋白质组，或至少了解其注释的基因组，以便预测蛋白质；因此，两种蛋白质可能具有100%的序列身份，但参与不同的过程，这取决于生物体蛋白质组中是否存在其他蛋白质。蛋白质-蛋白质相互作用网络可以编码蛋白质组，并限制蛋白质之间产生生物过程的潜在相互作用的搜索空间。

本体是另一个很少用于预测蛋白质功能的信息来源。本体论不仅仅是类的集合；相反，本体是形式理论，使用基于逻辑的语言指定类预期意义的某些方面。GO公理中包含的背景知识可以被一些机器学习模型用于通过知识增强的机器学习来改善预测。通过将形式公理纳入机器学习模型，可以在学习或预测过程中利用先前的知识，对参数搜索空间施加限制，从而提高学习过程的准确性和效率，并最终做出更好的预测。

虽然如何将形式背景知识纳入机器学习方法有不同的方法，但近似蕴涵旨在明确且可证明地执行“语义蕴涵”作为优化目标，从而再现演绎系统的许多形式属性。只有少数函数预测方法利用GO中的形式公理。用于预测蛋白质函数的分层分类方法，如GoStruct2，DeepGO、DeePred、SPROF-GO和TALE使用减量公理来提取类之间的层次关系，但忽略了GO中可用于减少搜索空间和改进预测的其他公理。

2024年2月14日发表在Nature Machine Intelligence的文章，开发了DeepGO-SE，这是一种蛋白质功能预测方法，它使用预先训练的大型蛋白质语言模型结合神经符号模型从蛋白质序列中预测功能，该模型作为近似语义蕴涵执行功能预测。我们使用ESM2蛋白语言模型来生成单个蛋白质的表示。与DeepGOZero类似，我们将ESM2嵌入投影到由GO中的公理生成的嵌入空间（ELEmbedings）中。

ELEmbeddings基于几何形状和几何关系编码本体公理，并对应于Σ代数或“世界模型”，我们可以确定语句是真还是假。与DeepGOZero相反，我们使用这些世界模型来执行“语义蕴涵”：语句φ由理论T（T⊧φ）蕴涵，当且仅当φ在每个世界模型中为真，其中T中的所有语句都是真。虽然一般来说，理论T或语句φ有无限多这样的世界模型，但我们学习了多个，但有限多的这样的模型，并生成作为“近似”语义蕴涵的函数预测，我们测试每个生成的世界模型的真理。使用这种形式的近似语义蕴涵，我们表明GO扩展版本中的公理增强了分子函数的预测。

DeepGO-SE模型的高级概述

此外，我们通过以蛋白质-蛋白质相互作用网络的形式整合有关生物体和相互作用体的信息，改进对复杂生物过程和细胞成分的预测。我们表明，与分子功能不同，对生物过程和细胞成分的注释预测可以从蛋白质-蛋白质相互作用中获益匪浅。对于生物过程，我们发现整合预测的分子功能和相互作用大大提高了预测的性能；这一发现表明，生物过程注释的预测不需要了解特定蛋白质，而只需要了解其分子功能，从而大大扩展了我们方法的通用性。

我们在带有实验注释的数据集上训练和评估我们的模型，该数据集根据序列相似性进行拆分，以确保使用与训练集共享类似蛋白质的测试集报告评估。我们发现，依赖序列相似性的方法在此设置中表现不佳，而DeepGO-SE显著提高了GO所有子本体的预测性能。例如，DeepGOPlus使用序列相似性和卷积神经网络（CNN）来预测函数，只能依靠其CNN及其在此测试集上的性能下降。

本文开发了DeepGO-SE，这是一种使用预训练的大型语言模型从蛋白质序列预测GO功能的方法。研究结果显示，DeepGO-SE生成多个GO近似模型，神经网络预测这些近似模型中关于蛋白质函数的陈述的真值。我们在多个模型上聚合真值，以便DeepGO-SE在预测蛋白质功能时近似语义蕴涵。

综上所述，DeepGO-SE是一种蛋白质功能预测方法，通过结合预训练的蛋白质语言模型生成的蛋白质序列特征、GO的背景知识和蛋白质之间的相互作用，提高了蛋白质的预测性能。我们的结果使我们能够得出三个主要结论：知识增强的机器学习方法现在能够改进不依赖背景知识的方法；GO函数预测最好使用单独的分层预测方法来表述；基于ESM2的函数预测模型现在可以推广到基本上看不见的蛋白质。

原文出处

Kulmanov, M., Guzmán-Vega, F.J., Duek Roggli, P. et al. Protein function prediction as approximate semantic entailment. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00795-w

来源：MedSci原创

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言

小提示：本篇资讯需要登录阅读，点击跳转登录