谷歌DeepMind又在一项全球赛事中击败人类!“后 Alphago 时代”,AI 成功预测蛋白质 3D 结构 | |
2018-12-03 20:06:57 |
在 AlphaGo 征服了 Atari 经典游戏,并在国际象棋和中国围棋中达到超人表现之后,DeepMind 现在将其人工智能转向了人类科学中最棘手的医疗领域。
现在,DeepMind 或许已经实现了预测功能。
在 昨天坎昆举行的第 13 届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)上,DeepMind 的最新人工智能程序 AlphaFold 击败了所有人:成功预测生命基本分子——蛋白质的三维结构。
CASP 也被认为是蛋白质结构领域“奥林匹克竞赛”。
“蛋白质折叠”是一种令人难以置信的分子折纸形式,它非常神秘,是一个具有深远意义的问题,在科学界之外很少有人讨论。所有生物都是由蛋白质构成的,蛋白质的结构决定了它的功能。当 AI 了解了蛋白质的折叠方式,我们可以期待人类进入科学和医学的新时代。
正如 DeepMind 联合创始人兼首席执行官 Demis Hassabis 表示,“对我们来说,这是一个非常关键的时刻。这是一个灯塔项目,是我们在人力和资源方面的第一个重大投资。这也是非常重要的、现实世界的科学问题。”
▲Demis Hassabis
AI 为什么要读懂蛋白质?
在计算机的世界里,只有 0 和 1。而从某种程度上来说,生命的本质其实就是 4 中不同碱基的排列组合。
包含整个生命密码的 DNA,仅有 4 种碱基组成。这 4 种不同碱基的排列组合,翻译出 64 种密码子(每3个相邻 mRNA 碱基构成一个密码子),这 60 多个密码子又对应着整个地球生命系统中仅有的 20 多种氨基酸,而 20 多种氨基酸的排列组合,构成了数万至数亿种不同的蛋白质。
蛋白质是一切生命系统的物质基础,密切参与着从触发免疫反应到大脑思考的每一个生理过程。如果把基因比作构成生命的配方,那么蛋白质就是构成生命的材料。没有蛋白质,也就没有生命。
与 DNA 密码不同的是,真正决定不同蛋白质性质和功能的,除了不同氨基酸的排列组合,更重要的是氨基酸链的3D结构。氨基酸链扭转、弯曲构成不同的蛋白质,因此,具有数百个氨基酸的蛋白质可能呈现出数量惊人的不同结构:10的300次方个,或1后300个0。
▲从 DNA 到蛋白质 3D 结构
蛋白质只有正确折叠为特定的 3D 构型,才能发挥相应的生物学功能。而蛋白质四级结构结构的折叠,受到大量非共价相互作用(如氢键,离子键,范德华力和疏水作用)的影响,想要从分子水平上了解蛋白质的作用机制,就需要精确测出蛋白质的 3D 结构。
为了研究蛋白质结构而发展起来了结构生物学,在短短 60 多年的历史中,已经采用了包括 X 射线晶体学、核磁共振、冷冻电镜等技术来解析蛋白质结构。
理论上来说,知道了 DNA 序列,就已经决定了其能够翻译出的氨基酸序列和蛋白质结构,但想要实现这种预测,中间涉及的计算难以想象。而近年来随着基因测序技术和人工智能的发展,使通过氨基酸序列来预测蛋白质结构成为可能。
▲ DeepMind 官网对 AlphaFold 的报道
AlphaFold 完胜人类
全球蛋白质结构预测竞赛(CASP),由美国科学家约翰·莫尔特(John Moult)于 1994 年发起,每两年举办一届,旨在吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来,共同评估发展现状和讨论未来的趋势。
而这次,完虐人类的 AI,也将目光转移到了蛋白质三维结构预测。由 DeepMind 开发的 AI 程序“AlphaFold”参加了最新一届的蛋白质结构预测评估竞赛。
竞赛过程中,工作人员会将氨基酸序列交给每一个团队。而这些蛋白质的结构事先已经被复杂而昂贵的传统方法破解了,但尚未公开。最终提交最准确预测的团队将赢得比赛。
首次参赛的 AlphaFold 在 98 名参赛队伍中排名第一,其预测的 43 种蛋白质中有 25 种蛋白质的结构最准确,而排名第二的团队中只有 3 种。
为了开发 AlphaFold,DeepMind 用数千种已知蛋白质训练神经网络,直到它可以独立预测氨基酸的 3D 结构。
对于新蛋白质,AlphaFold 使用神经网络预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。接着,AlphaFold 调整结构以找到最节能的氨基酸布置。该程序花了两周时间预测它的第一个蛋白质结构,但现在只需几个小时就能将其预测出来。
通常情况下,蛋白质具有最高效的结构,但它们折叠错误,就会导致糖尿病、帕金森症和阿尔茨海默病等疾病。如果科学家能够从化学成分中预测蛋白质的结构,他们就可以弄清楚这些蛋白质的作用以及它们是如何造成伤害的,并设计出新的蛋白质抗击疾病或履行职责。例如,可以设计新蛋白质解决环境中的塑料污染。
在比赛中,雷丁大学研究员 Liam McGuffin 领导了英国得分最高的学术团体。
“预测蛋白质折叠结构的能力是一个大问题。它对解决许多21世纪的问题具有重大意义,它会对健康、生态、环境产生重大影响,并基本上解决所有涉及生命系统的问题。包括我们在内的许多团体多年来一直在使用基于机器学习、深度学习和人工智能的方法,这些正在产生越来越重要的影响。我很乐观地认为,我们将在21世纪20年代真正解决这一领域的问题”,McGuffin 说。
Hassabis 表示,我们还有很多工作要做。“我们还没有解决蛋白质折叠问题,预测只是第一步。蛋白质折叠是一个极具挑战性的问题,但我们有一个很好的系统,我们还有一些尚未实施的想法。”
“后 AlphaGo 时代”的DeepMind,抢跑 AI+生命科学领域
纵观DeepMind 2018 年公开发表过的 AI 论文,不少正是其将人工智能应用于生命科学领域研究的重要成果。
在DeepMind 非常关注的脑科学领域,今年5月9日,团队在世界顶级学术杂志 Nature 上发表了一项重磅成果,利用深度学习复现生物的空间导航能力,够协助传统的神经科学研究来测试大脑工作原理。其开发出的的一个人工智能程序具有类似哺乳动物一样的寻路能力,非常类似大脑中网格细胞的工作原理。
另一项 DeepMind 发布的人工智能、神经科学跨领域重要成果,则是使用 AI 领域中的元强化学习框架,用来研究大脑中多巴胺在我们学习过程中起到的作用。这一新发现有望颠覆传统的神经科学研究方法,提供了一个全新的视角。研究发表在今年5月的 Nature 子刊上。
而在疾病诊断上,今年8月发表在 Nature Medicine 的一项研究中,DeepMind 和 Moorfields 眼科医院共同开发的 AI 算法可以识别 50 多种不同的眼部疾病,且与人类临床医生一样准确,并且有可能通过减少检查和诊断所需的时间来显着改善现有的医疗困境。“这是一个非常令人兴奋的里程碑,也是临床医生和技术人员共同努力的可能性的另一个迹象,”DeepMind 当时表示。
除了论文发表以外,DeepMind 目前也在与多家医疗机构合作,开发新的医疗项目,包括与美国退伍军人事务部 (U.S. Department of Veterans Affairs) 合作开发人工智能技术,与 英国国家医疗服务体系(NHS)合作开发 AI 医疗应用程序等。
但是,作为谷歌旗下最受关注的 AI 公司之一,DeepMind 仍颇具争议:公司研发投入巨大且一直未实现盈利,与 NHS 合作的项目涉嫌医疗数据使用不当等问题。当然,DeepMind 这些问题也不单单是这一家 AI 公司正在面临的问题,2018 年,DeepMind 在该领域的学术研究“初露锋芒”之后,2019 年我们可以期待“后 AlphaGo 时代”的 DeepMind 如何继续实现它的使命。
编辑:李晨琰
责任编辑:顾军
来源:综合自“DeepTech深科技”“驻波”