「如果这可以重现的话,这就是我们所知的世界末日!功能建模的新时代已经开始。」欧洲分子生物学实验室(EMBL)的科学家 Jan Kosinski 发推文表示。他在 AlphaFold 3 发布后,立刻用它做了一系列简单的测试,并把相关结果发在了 X 上。
「我取出了一个结构未知的转录因子,将其折叠起来,将其识别序列嵌入更长的 DNA 中。AlphaFold 3 准确定位了转录因子。」Kosinski 解释道。
他使用的转录因子:https://jaspar2020.genereg.net/matrix/MA0027.2/
使用的 DNA 序列:CAGGATCCTAATTATGGATCCTGTGTATCTTCAGT
他用的模型是:https://oc.embl.de/index.php/s/SsDKcS06P1xewAV
他说:「一旦 AlphaFold 3 的开源副本可用并且运行良好,我们也许能够通过计算来预测所有转录因子的序列特异性。我认为那会很大,对吧?」
同时,严谨的 Kosinski 呼吁网友:「但如果有人检查我是否没有混淆,是否与其他转录因子一致,以及分数是否可以用于区分特定和非特定序列,我会很高兴。」
Kosinski 还做了其他实验。
「还有一个,也许没有训练偏差。应该特异性结合启动子区域 ATTTTAGTCGCGCCTAAAAT 并且它再次出现!左为晶体结构,右为 AlphaFold 3 模型。启动子为红色。」他发文解释道。
「我们还不知道是否如此,但如果这种序列特异性推广到 CRISPR、锌指结构、TALEN、限制性核酸酶——可以为 AlphaFold 3 所有者带来多少收入?」他在推文里调侃道。
第二天 Kosinski 又用限制性内切酶做了相关测试。
「它『不能』推广到我手中的限制性核酸酶。识别序列为青色,切割位点为红色。」他说,「但请注意:只有两个示例和长 DNA,有人可以尝试精确长度的序列并比较特定和非特定序列。」
「AlphaFold 3 无法正确预测限制性核酸酶 BamHI 的序列,尽管有 5 种结构可用,其中 4 种带有 DNA。」他发推文说,「左边是模型,右边是晶体结构。鉴于其中一些结构可能包含在训练和模板数据库中,这表明训练集中结构的存在并不能保证准确的预测。」
BamHI:https://uniprot.org/uniprotkb/P23940/entry#struct
洛桑联邦理工学院(EPFL)的 Martin Pacesa 评论道:「可能是因为来自 MSA 的噪音!如果有太多 RE 同源物识别非常不同的目标序列,它可能会迷失在共同进化噪声中。」
Kosinski 对 Pacesa 的观点表示肯定:「是的,你可能是对的,REases 在它们的 MSA 中通常很少有相似的序列……或者当我在硕士期间研究它们时,它们就这样做了。」
「它『识别』了什么?」网友 Evgenii 问道。
「CAAGCTTG,它只是绑定了另一个回文序列(像回文序列这样的 REases,原始序列 GGATCC 也是一个回文序列)。」Kosinski 回复道,「我尝试对序列进行洗牌,但它仍然找到并绑定了另一个不完美的回文序列(GCACGC)。我想我们需要一个更好的『背景诱饵序列』」
「有趣的!AAGCTT 那是 HindIII。根据您迄今为止的经验,AlphaFold 3 如何处理较长的 dsDNA 片段?」维也纳大学 Max Perutz 实验室的 Pim Huis in 't Veld 发文评论说。
「之前那这个起作用的原因是它搜索任何回文序列,因为这是相似的二聚体所结合的吗?有时它是否会寻找与训练模型中类似的一维 DNA 模式(例如回文、不匹配)? 」法国 CNRS Orléans 的 Marcin J. Suskiewicz 发文评论道。
「也许会有一个合理的解释!」Kosinski 说道。
帕拉茨基大学(Univerzita Palackého)的理论物理化学家、化学和生物信息学家 Karel Krápník Berka 则使用 AlphaFold 3 对膜上的脂质分子进行了研究。
「AlphaFold 3 还可用于预测膜位置。」他发文表示,「这是 CYP2E1 与油酸 (OLA) 的示例。这是与我 2013 年的 MD 膜模型和来自纳米圆盘的冷冻电镜进行对比。」
Kosinski 做了相关测试并跟帖道:「使用这种技巧在类脂膜双层内建模的候选新型大麻素受体,添加油酸(OLA)作为配体。」
后续成果,ScienceAI 还会持续跟进。