分析测试百科网

搜索

分析测试百科网 > 行业资讯 > 微信文章

专访丨西湖大学郭天南:AI在蛋白质组研究上大有可为

西湖欧米
2021.9.15

郭天南告诉财新记者,蛋白质组学通过建立蛋白质组大数据,使用机器学习和深度学习,能够探索在各种生理和病理状态下蛋白质表达和变化的规律,未来或将应用在人类对重大疾病的精准诊断、分型,以及药物研发等领域。

△受访者供图

在生命科学领域,AI(人工智能)的应用能够帮助科学家解答一些人为分析非常困难的问题。比如,在数以千万计的蛋白质中,哪些蛋白质可以表征人体对某种疾病产生的免疫力?新冠时期,西湖大学蛋白质组大数据实验室负责人郭天南及其团队通过对新冠患者的血清进行蛋白质组学和代谢组学分析,发现了重症新冠患者体内应对病毒进攻的特征性分子改变,相关研究见刊于《细胞》杂志。

郭天南告诉财新,蛋白质组学通过建立蛋白质组大数据,使用机器学习和深度学习,能够探索在各种生理和病理状态下蛋白质表达和变化的规律,未来或将应用在人类对重大疾病的精准诊断、分型,以及药物研发等领域。

以下是财新对郭天南的采访实录:

财新:能否类比基因组学,讲一讲蛋白质组学的概念以及提出的时机?

郭天南:在生物学中有一个普遍公认的法则——中心法则,即遗传信息从DNA到RNA再到蛋白质的过程,逐渐从隐性走向显性。只要有生命活动的地方就有蛋白质。随着技术的不断进步,上世纪80年代出现了PCR(聚合酶链式反应)技术,实现了基因扩增,为其后的人类基因组学计划奠定了基础。2001年,《自然》和《科学》期刊同时发布了两组科研团队的人类全基因组测序结果,这是人类有史以来第一次绘制人体基因组蓝图。

人类基因组计划是由美国引领,其他国家参加,中国在其中参与了约1%的工作。2001年人类基因组计划逐步完成之后,科学家们提出了后基因组时代的主要工作集中在蛋白质组研究方面。我们认为人类解读基因的主要目的,是想要更好地解读蛋白质。构成DNA的四种碱基在绝大部分情况下是没有什么功能的,它们只是组成了密码,真正执行功能的是蛋白质。

财新:您曾提到传统的蛋白质组研究的技术和方法,不适合复杂的蛋白质组系统。研究蛋白质的传统的底层方法是什么样的?发展到今天面临着什么样的瓶颈?

郭天南:蛋白质组的传统研究方法是基于免疫反应的抗体检测。比如人体在感染新冠或者流感之后,体内会产生抗体,这是人体对外来物质的一种自然反应。根据这个原理,我们可以通过合成蛋白质特异性抗体,再利用免疫反应让抗体识别特定蛋白质,之后进行蛋白质的后续研究分析。抗体可以针对某个蛋白质的表面的某一个区域契合,就像钥匙跟锁的匹配。按照这个思路,要研究一个蛋白质,我们就要找到一个特异性的抗体,它只能够跟这个蛋白质结合。但是,由于蛋白质种类数以百计,经常出现一把钥匙打开多把锁的情况,使得检测的特异性受限。并且,使用抗体的方法,每检测一个蛋白就会消耗一些不可再生的临床样品,使得检测蛋白质的成本较高。此外,由于抗体本身是有活性的蛋白质,因此需要比较苛刻的保存条件。

我们在对肿瘤,尤其是早期肿瘤进行检测时,能通过活检穿刺得到的组织量非常小,比如甲状腺结节,它可能是毫米级别的小结节。使用抗体的方法很难同时对多种蛋白质进行检测。在临床分子检测中,基因组测序常被用到,从而通过基因测序推断蛋白质功能,但是越来越多的研究表明,通过基因组数据,很难对蛋白质的表达和功能进行准确的预测。要了解蛋白质,必须要对蛋白质进行直接的检测。

财新:那么蛋白质检测的局限性和独特性在哪里?

郭天南:蛋白质检测的局限性有两点:首先,蛋白质检测的灵敏度受限。基因可以通过扩增实现检测灵敏度的提高,而蛋白质由于不是双螺旋结构无法实现扩增,只能在提取环节尽可能多地提取蛋白质分子,这就导致了其灵敏度受限;其次,由于蛋白质结构容易发生改变,给基于抗体的检测方法带来了技术上的挑战。

但蛋白质的独特性是不可取代的。蛋白质以及蛋白质之间的相互作用是一个动态的网络,时时刻刻反映着不断变化的健康状态。人的基因虽然会有些改变,但它的改变是非常缓慢的。在实际生活中,人类每天都会有各种各样的基因突变在发生。像新冠这类疾病,人类从感染到发病可能仅发生在两周内,甚至更短。在如此短的时间内,基因是基本不会有什么变化的,但蛋白质却每时每刻发生改变,对应着不同的健康状态。

财新:对于AI预测蛋白质结构,它的发展还有哪些瓶颈?您曾提过预测复杂蛋白质结构相对困难一点。通过一级序列去预测三维结构,这件事情的本质性困难在哪里?

郭天南:结构生物学家通常将蛋白质提纯出来,在理想的结晶状态下进行蛋白质结构的解析,但这样理想状态下的结构在真实世界中可能会受到环境因素的影响而发生改变,如何研究真实状态下的蛋白质结构动态,仍是结构生物学的一个难点。此外,很多蛋白质执行功能时会形成复合物,复合物的动态结构解析目前仍是一个难题。

使用一级序列预测三维结构,需要重构缺失的两个维度。每提升一个维度都会涉及到很多影响因素,比如蛋白质从一级到二级结构的过程中会发生一部分粘连、折叠,会产生非常多的可能性;而二级到三级则会发生更多的可能性,并且有些部分是动态的、存在多种不同的结构。有的蛋白质的一个氨基酸出现了“翻译后修饰”,蛋白质的功能就可能出现几个数量级的改变。而因为翻译后修饰数量太多,一般是没有反映在蛋白质一级结构中的。此外,每个蛋白质都在不同的细胞、组织和器官中也可能有不同的位置、功能和动态结构。因此,如果仅仅依赖一级序列而忽略外在的影响因素,在本质上是不可能对其在真实的生物过程中的动态结构进行完全准确的预测。我个人认为要进一步提高AI预测蛋白质结构的准确性,未来需要借助大量实验数据,将更多维度的影响因素纳入考量。

财新:您发表的研究中经常使用AI对临床大样本进行筛选或分析,能否具体介绍一下AI在研究过程中执行哪些任务?

郭天南:AI在临床样本研究中的作用首先体现在筛选蛋白的优势。比如分析对某种药物敏感的肿瘤和对该药物无反应的肿瘤,通过比较我们可以知道是哪一个蛋白出现了变化。在进行比较时,因为蛋白质数以千计,属于高维数据,传统的统计方法就有很多局限性。这个时候我们可以用AI机器学习去进行 “特征筛选”。在这个过程中,可以认为每一个蛋白是一个特征,从数以千计的蛋白质中挑出跟研究的问题最相关的蛋白,比如哪些蛋白在这个肿瘤中增高,而在正常人身体里没有或很低;或者在敏感病人体内有,其他病人体内没有——这就是筛选。

另一方面,AI还可以帮助疾病的诊断。比如我们可以通过对甲状腺结节的活检穿刺判断是否存在恶性肿瘤,每个样品可以鉴定出6000多个蛋白,最后我们筛选到19个蛋白,之后AI通过分析这19个蛋白生成模型,预测的值可以解读为是癌症的概率。

分析出的这19个蛋白的数据只是19个数字,必须要作为自变量输入AI模型,最后生成一个函数,函数值代表的就是癌症的概率,1认为是癌症,0认为不是。这一步就是AI需要做到的,它会告诉我们如何把这十几个变量最后输出的函数值定在0-1之间,当然这个公式不是简单的四则运算,而是非常复杂的神经网络。

财新:这样的工作如果没有AI可以做吗?

郭天南:我们比较了传统的计算方法与AI筛选的方法。传统方法也可以达到一定的准确度,大概在60%~80%左右;而AI则可以达到90%以上。此外,这两种方法最大的差别在于,传统的方法数据越多,处理效率越低;而AI的价值则在于数据越多,处理准确度就会越高。当我们逐渐积累蛋白质组大数据,AI的价值会越来越多的体现出来。

财新:您也提到蛋白质是动态变化的,在时空尺度上,它产生的数据量是非常巨大的。另一方面,真实环境的模拟可能也会造成数据量的上升,这是不是意味着需要的算力会更大?AI还需要哪些提升,才能反哺蛋白质组学的进一步发展?

郭天南:我们从出生到死亡,心肝脾肺肾的基因都是一样的,而蛋白质是不断变化的,以前觉得蛋白质过于复杂无从下手,因为那时方法学不够成熟、算力未达到要求。比如在人工智能系统AlphaFold出现之前,用计算机做蛋白质结构的预测已经进行了几十年,主要是利用原子之间的相互作用力去预测。但在AlphaFold考虑到了多年来科学家们积攒的真实实验数据,会有将更多一级结构之外的影响因素的大数据纳入考量,让这个领域有了突破性进展。相信随着数据的增加,AI算法随之改进,以及算力的增加,这个领域还可能会有更多的发展。

蛋白质组的复杂度远远高于某个蛋白质的结构。我们预计即将产生的蛋白质组大数据将会指数级升高,并且达到我们目前难以想象的程度。AI要进一步反哺蛋白质组大数据,需要在数据结构、算法、算力等方面进行大量的提升。

财新:您早期的研究经历都在国外,2017年左右加入西湖大学。您感受到国内外的科研资源和支持有哪些不一样的?

郭天南:我最早是学临床医学的,在血液科实习的时候,有一种药物进入了中国,叫格列卫,就是电影《我不是药神》中药物的原型。在格列卫出现之前,慢性髓系白血病被认为是不治之症,但在使用格列卫治疗后,这类白血病成为几乎可以治疗的疾病。

我比较喜欢做研究,结束了国内的医学学习后,我去新加坡学习了蛋白质谱,之后又去瑞士学习了蛋白质组,但蛋白质组研究在那时还处于比较初期的阶段,实验室的分析操作很难用于临床。后来因为种种机缘,有幸获得施一公老师和饶毅老师的邀请,我回到国内加盟了浙江西湖高等研究院,也就是西湖大学的前身。

回国之后我发现国内的发展节奏比国外快很多,对于前沿研究大家都很有干劲。在我加入西湖大学的这四年,我们提出了“蛋白质组大数据”的概念,进一步改进了方法,在多个临床应用上取得一些初步进展。另一方面,我们想做的事情也有幸得到了党和国家、学校、企业、医生合作者和其他领域的科学家的大力支持。对于我们这样的研究方向来说,学科交叉非常重要。不仅需要医学,还需要化学、物理,更需要设备和计算机知识。尤其是计算机科学和技术,要促成这样的合作是比较困难的。但是在西湖大学,我就感受到很好的鼓励学科交叉的氛围,这样我们有很多研究就可以顺利完成,比如之前说到的甲状腺癌诊断的研究,就是得到了人工智能讲席教授李子青老师团队的支持。

发布需求
作者
头像
仪器推荐
文章推荐