AlphaFold 能很好地预测含有金属的蛋白质吗?

人工智能 机器学习 阿尔法折叠
2021-11-11 06:18:59

有些蛋白质含有金属成分,称为金属蛋白通常,金属位于最需要预测精度的活性位点。通常,蛋白质中只有一种(或几种)金属,其中包含更多的其他原子。因此,我们可以用来训练 AlphaFold 的结构数据将包含更少的关于金属元素的信息。更不用说大多数蛋白质根本不含金属(据估计,所有蛋白质中只有 1/2-1/4 含有金属 [ 1 ])。

鉴于可能没有足够的关于金属原子(如 Fe、Zn、Mg 等)周围蛋白质局部结构的结构数据,那么 AlphaFold 无法很好地预测金属周围的局部结构。是对的吗?

我还认为金属的更复杂的电子壳也会使数据的用处降低,因为它的边界模式比碳等更灵活。

1个回答

让我先谈谈您在问题中写的一些内容:

有些蛋白质含有金属成分,称为金属蛋白。

据我们所知,天然蛋白质从未含有金属成分。天然蛋白质由仅含有 H、C、O、N、S 的天然氨基酸组成。硒代半胱氨酸含有硒(也是一种非金属!),但它是一种蛋白质氨基酸,这意味着它是蛋白质的前体,但通常不会出现在蛋白质本身中。从您在问题中给我们的维基百科页面:“金属蛋白是包含金属离子辅因子的蛋白质的通用术语”和“辅因子是非蛋白质化合物或金属离子”。

但是您的问题仍然值得回答,因为即使将蛋白质的辅因子称为“部分”是不正确的,它们仍然会影响折叠和整体形状。但是,让我们首先解决您问题的最后一部分:

鉴于可能没有足够的关于金属原子周围蛋白质局部结构的结构数据(例如 Fe/Zn/Mg),那么 AlphaFold 无法很好地预测金属周围的局部结构。是对的吗?

您在问题中链接的维基百科文章的第一句话说:“例如,至少 1000 种人类蛋白质(约 20,000 种)包含锌结合蛋白结构域 [3] 尽管可能有多达 3000 种人类锌金属蛋白 [ 4]。” 因此,虽然金属蛋白可能不是所有蛋白质的主要成分,但它们与人体相关的数量足够多,因此构建包含足够金属蛋白(或什至 100% 金属蛋白,如果需要)的训练数据库并非如此。难的。

我在其他地方提到了一点,AlphaFold 用于预测 CASP 比赛中的蛋白质结构,您可以自己看到参赛者(例如 DeepMind)需要预测结构的许多/大部分蛋白质,来自研究与人类相关的蛋白质,因为 CASP 结构通常来自 X 射线晶体学研究,这些研究通常对与人类相关的蛋白质进行。

您不仅可以亲自查看我在上面显示的“目标列表”,还可以查看比赛结果,这将显示 AlphaFold 在 CASP13(2018)和 CASP14(2020)中对金属蛋白的表现如何。

最后:

我还认为金属的更复杂的电子壳也会使数据的用处降低,因为它的边界模式比碳等更灵活。

确实,如果对金属或含金属配合物进行从头算计算,金属通常比 C、H、O、N、S 甚至 Se 更难建模然而,机器学习在蛋白质折叠研究中的目的是跳过相关结构的从头计算、统计动力学和/或分子动力学计算,并简单地使用训练数据来预测蛋白质结构。话虽如此,需要有足够的可用训练数据(正如您正确指出的那样)来了解金属辅助因子附近发生的情况:答案是确实有足够的金属蛋白来充分填充训练集,但是 它们不会含有足够多的特定金属参与每种金属蛋白例如,大量数据可用于含 Fe 的蛋白质,因为 Fe 存在于血红蛋白中(例如),这对于红细胞吸收氧气的功能至关重要,但蛋白质vanabins含有更稀有的钒,因此是训练数据涉及它将少得多。您也正确,金属元素可以形成比有机化合物中的典型元素更多的键。

所以它取决于相关辅因子中的金属。基于铁的辅助因子将有大量可用的训练数据,以及基于镁的辅助因子、基于锌的辅助因子以及许多其他包含“更常见”金属的辅助因子。对于像vanabins这样含有钒的蛋白质,训练数据有限是非常正确的,但也要记住,vanabins是一种在海鞘中发现的非常罕见的蛋白质,我们已经对其结构有了更多的了解(通过X射线晶体学,这意味着我们不需要机器学习)甚至不知道它的作用。金属蛋白中其他含钒辅助因子的可能性非常低,不足以证明专门为它们开发蛋白质折叠算法的合理性。