从AlphaGo到AlphaFold,什么是AI工具的最佳用法?
两年前,在2020年12月,Science杂志评选了年度十大科学突破,其中一项引人注目的人工智能技术便是AlphaFold。该技术由谷歌旗下深度学习领域的领军团队DeepMind研发。在著名的围棋博弈算法AlphaGo大放异彩之后,DeepMind将目光投向了基于氨基酸序列的蛋白质结构预测领域,推出了AlphaFold深度学习算法。这一算法在国际蛋白质结构预测大赛CASP13中表现出色,赢得了极高的评价。AlphaFold的出现彻底改变了生物学的面貌,然而科学家们仍在不断探索如何更好地运用这类人工智能工具。
制药业是一个充满挑战与机遇的行业。传统的药物研发过程中,制药公司需要在庞大的医学资料库中寻找潜在的候选药物,这种方法存在巨大的不确定性,耗时费力且成本高昂。即使找到了候选药物也只是研究的起点,接下来还需要进行复杂繁琐的分析、合成工作。随后,研究人员还需要进行漫长的临床试验过程。整个过程不仅耗时漫长,耗资巨大,而且成功率也极低。
计算机科学家出身的生物物理学家亚历克斯·扎沃龙科夫(Alex Zhavoronkov)却为药物研发开辟了一条新的道路。他敏锐地意识到人工智能在图像、语音和文本识别方面的强大能力可以借鉴到药物研发领域。扎沃龙科夫所在的团队在约翰霍普金斯大学成立了名为InsilicoMedicine的机构,专注于运用人工智能技术进行药物研发。他们的“药物发现引擎”能够通过筛选庞大的数据库来确定特定疾病的生物学特征,并据此寻找最有希望的治疗靶点。
扎沃龙科夫及其团队经过几年的努力取得了显著的成果。他们开发出的系统实现了潜在药物靶点的爆炸性增长,并大大简化了测试过程。过去需要持续数年的药物研发过程被缩短至数月甚至更短的时间。在短短的不到一个半月时间里,InsilicoMedicine成功获得了一系列新分子,并且成果包括了药物的合成以及经过计算机模拟验证的实验结果。这无疑标志着药物研发领域的一次重大突破。
新药发明的过程不仅在于发现和合成新分子,还需要识别药物作用的关键靶点即药物在体内的结合位置。长期以来蛋白质结构的解析一直是药物研发领域的难题之一。尽管投入了大量的资金和时间进行研究但进展缓慢。然而DeepMind开发的AlphaFold人工智能技术的出现为这一难题带来了突破性的解决方案。通过利用神经网络挖掘庞大的数据集AlphaFold能够准确预测蛋白质的结构从而极大地简化了药物靶点的识别过程。这一技术的出现不仅引起了科学界的广泛关注也彻底改变了成千上万生物学家的研究方式开启了药物研发领域的新篇章典型的量变带来了突破性的成果和质的飞跃令人期待未来药物研发领域能够借助人工智能的力量实现更加快速高效的进展惠及更多的患者和生命。自AlphaFold诞生以来,其在蛋白质结构预测领域所取得的进步堪称革命性。早在2020年,DeepMind推出的AlphaFold软件的第二个版本就已崭露头角。相较于其早前版本,AlphaFold2的预测准确性大大提升,平均结果已接近甚至达到实验方法解析的结构水平。在两年一度的CASP大赛上,AlphaFold2凭借出色的表现再次夺魁,充分展示了其在生物学界的一项重大挑战中的领先实力。
这项挑战的核心在于,仅凭蛋白质的氨基酸序列,确定其复杂的三维结构。面对这一难题,计算机软件给出的预测结构需与通过X射线晶体学或冷冻电镜等实验方法确认的结构进行对比验证。值得一提的是,AlphaFold的预测能力被划分为“427组”,其中多个预测达到了惊人的准确性。尽管预测水平有所差异,但近三分之二的预测结果与实验结果质量相当。
仅仅一年后,DeepMind于2021年7月15日公开了AlphaFold2的论文及开源代码。这一举动使得业内研究人员得以打造属于自己的版本,进一步推动了蛋白质结构预测的研究进展。仅仅一周后,DeepMind宣布了一个震撼业界的成就:使用AlphaFold预测了人体内近乎所有蛋白质的结构,以及包括小鼠和大肠杆菌在内的20个生物体的完整“蛋白质组”,累计共预测了36.5万个结构。这些信息被上传至EMBL欧洲生物信息学研究所维护的数据库,目前该数据库已收录了近100万个结构。
今年,DeepMind计划发布总计1亿多个结构预测,相当于所有已知蛋白的近一半。这一数字是蛋白质数据银行中经过实验解析的蛋白数量的几百倍之多。值得注意的是,过去半个多世纪,人类解析的人源蛋白质结构仅有五万多个,而AlphaFold的预测结构将这一数字从17%大幅提升至58%,显示出其巨大的突破性和潜力。
除了对制药领域的影响,AlphaFold还被广泛应用到其他领域。其结构解析能力极大地解放了生物学家们的研究,例如在一个研究团队中,通过让AlphaFold快速预测数千个蛋白的结构,他们试图发现能够分解塑料的酶。AlphaFold在演化研究中也发挥了重要作用,它能够将任何蛋白编码基因序列转化为可靠结构的能力,对于比较基因序列差异较大的物种之间的亲缘关系非常有用。
AlphaFold作为一个绝佳的实验工具,能够提供初步预测并辅助实验验证或优化。例如,在X射线晶体学领域,AlphaFold的预测使得大部分X射线图样的解释更为直观。
不仅如此,AlphaFold还激发了蛋白质设计和创新的研究热潮。一些研究人员利用这些工具打造全新的蛋白质。深度学习已经彻底改变了蛋白质设计的方式,例如DavidBaker的团队利用AlphaFold和另一个AI工具RoseTTAFold来设计新的蛋白。他们通过优化人工智能的代码,成功合成出被神经网络识别的蛋白结构。最近的研究报告显示,他们表达的幻想蛋白中有约五分之一成功折叠成了与预测相符的结构。这一系列成果充分展示了AlphaFold在推动生物学和蛋白质研究领域前进的巨大力量。关于蛋白质设计的新篇章:AI软件的突破与未来的无限可能
今年7月21日,华盛顿大学等机构的科学家们在Science杂志上发布了一款划时代的AI软件。这款软件不仅能够为自然界中尚未存在的蛋白质绘制结构,更已经在工业反应、癌症治疗以及预防呼吸道合胞病毒(RSV)感染的疫苗研发中展现出巨大潜力,生成了原始的候选化合物。
尽管AlphaFold的出现在蛋白质结构预测领域推动了巨大的进步,但我们仍需正视其存在的局限性。一些科学家尝试利用AlphaFold预测那些会破坏蛋白质天然结构的突变,包括与早期乳腺癌有关的突变。AlphaFold在目前阶段还不能准确预测新的突变对蛋白质的影响,因为它无法处理与演化上相关的复杂序列。
AlphaFold在处理那些在不同构象中呈现不同结构的蛋白质时也存在困难。它主要预测的是蛋白质的独立结构,而许多蛋白质需要与配体(如DNA、RNA、脂肪分子、矿物质等)结合才能发挥功能。在某些情况下,AlphaFold的预测结果可能并不准确。
每一天,AlphaFold都显示出其推动科学进步的巨大力量。EMBL-EBI的计算生物学家JanetThornton认为,AlphaFold的最大转变可能在于让生物学家更愿意接受计算机和理论的研究方法。真正的变革在于人们思维方式的变化,这是AI工具的最佳用法。AlphaFold的出现,彰显了科技的力量。
展望未来,当我们将人工智能AlphaFold与生成式对抗网络Insilico相结合,随着量子计算领域的突破性进展,我们有望走出制药的迷雾,解决生物领域的百年困惑,走向一条未来生物学的新道路。这种结合将为我们打开一扇全新的大门,引领我们进入一个全新的时代,在这个时代里,人工智能将深度融入生物学研究,推动生命科学的发展进入一个全新的篇章。