分子时代,科学家发现蛋白质的种类、含量、性质、结构、时空定位以及动态变化与生命健康息息相关,是疾病发生最基础的元素。细胞内外有无数的蛋白质“机器”,它们总是处于动态运作之中,指示着当前生命体的健康状态和疾病进展情况。如果能够通过技术对蛋白质的即时状态进行测量,我们就有可能探索疾病发生、发展的规律,并开发更加有效的治疗方法。
1 “暗物质”蛋白质世界:生在基因,命在蛋白
提到生命科学,大家可能对基因更为熟悉,而对相对年轻的蛋白质科学则鲜有了解。事实上,虽然基因谱写了生命的蓝图,但其仅是一维的线性序列。基因通过转录翻译,表达为蛋白质,才组成了三维世界的动态生命体。如毛虫化蝶、蝌蚪变蛙,其个体基因不曾改变;一个人从出生到死亡,基因组也基本保持稳定。这些生命过程的改变,背后是无数蛋白质的动态驱动。中国科学院院士贺福初教授有句话总结得好,“生在基因,命在蛋白”。
在一维空间,永远无法理解三维空间的复杂性。相较而言,蛋白质的复杂性要比基因高出许多。首先,一种基因可以表达成多种蛋白质;其次,蛋白质会像变形金刚一样不断在时空中发生变化;此外,蛋白质处于不断的生成和降解的平衡中,有多种多样的翻译后修饰变体,且能组成复杂的复合物,等等。
人体到底有多少种蛋白质?据估计,已知的至少有两万种,预测至少有16万种以上。加之多个蛋白质构成的不同变体及修饰,蛋白质的种类可能超过千万。
而蛋白质组又是什么?蛋白质组的概念最早在1994年被提出,被定义为“由一个基因组所表达的所有蛋白质”。
蛋白质组学研究面临多大的挑战呢?若想在一个成年人体内找到某个蛋白质,就如在千万条江河中寻找一滴水。在某种意义上,每一个人体都可以视作由蛋白质机器为主构成的“蛋白质宇宙”。由于研究难度太高、需要复杂的技术手段等种种因素,我们对人体的蛋白质宇宙知之甚少,这个领域是生命科学中最前沿、最有挑战性的方向之一。
据估计,目前95%以上的人类蛋白质组功能研究都聚焦于约5000种研究较多的人类蛋白质,而人体内还存在着一个巨大的“暗物质”蛋白质世界——这些没有或者很少被研究的蛋白质越来越无人问津;而事实上,这些功能未知的蛋白质可能掌握着打开解决人类重大疾病的钥匙,如癌症、阿尔兹海默症以及多种罕见病。
如今,在世界主要发达国家,科技界和产业界已经逐渐认识到蛋白质组的重要性。2018年,我国科技部组织遴选了一批国际大科学计划培育项目,由贺福初教授领导的“人类蛋白质组计划2.0暨蛋白质组驱动的精准医学”项目是首批启动的三个项目之一。2022年2月2日,美国总统拜登重启了奥巴马时代的“癌症登月计划”,而蛋白质组正是这个项目的最重要的方向之一。就在不久前,包括我国科学家在内的六国科学家也在世界范围内联合发起了一项“未充分研究的蛋白质”调查,并在国际学术期刊《自然》的系列子刊上发表了关于该调查的文章,呼吁更多研究人员和科学家加入该项研究,解密那些未知的“暗物质”蛋白质世界,不断扩大人类对生命活动认知的边界。
2 蛋白质组+AI:新技术破解疾病治疗“密码”
来源于人类、动物、植物、微生物等的标本,不管是液态的血液、尿液、眼泪、脑脊液、唾液,还是固态的、手术切除的冰冻或石蜡组织,甚至是一些特殊样品,如头发、牙齿、指甲、骨骼、粪便,都含有丰富的蛋白质。但它们含有多少种蛋白质?每一种蛋白质表达有多少?绝大部分是未知的,而这些未知的蛋白质组信息和疾病的诊断及治疗息息相关。
如果我们能尽可能多地采集到样本中的蛋白质组信息,是否可以结合AI分析其中的规律,从而加深人类对疾病的理解、掌握治疗疾病的“密码”呢?这是生命科学一个未知的领域。
现阶段已积累的微观世界,尤其是蛋白质组的数据还非常少,因为解析蛋白质组数据依赖于非常复杂的技术,这些技术在过去5年内才开始比较迅猛地迭代发展。如今,我们有了一些新技术,可用于分析极微量样本的蛋白质组。例如,我们能实现0.1mg组织中数千蛋白质的提取分析,其组织大小仅相当于半颗小米粒。这样的话,即使样品十分有限,我们也可以通过多次全蛋白质组分析测到数千甚至上万种蛋白质,并可实现快速深入、高通量、高重现性检测;而且得到的蛋白质数据可以永久保存、在未来反复分析和挖掘。
同时,虽然我们看不到蛋白质的形态,但可通过AI计算预测其形态模型,使之在我们眼前呈现。这些可视化的模型直观地展现了蛋白质的多样性,正如宏观世界中形态各异的各种物体。
这样的方法,将来也有望用于疾病的诊断和治疗。现在,通过AI技术对常规的医学检查图像(包括B超、CT、病理图像等),以及实验室生化检测的数据文本(如血、尿、粪的生化检测数据),进行智能分析,已经可以用来辅助疾病诊断和治疗。
但是这些数据都是宏观层面,旨在分辨病理表型,对探究疾病发生的机理,始终如隔靴搔痒、雾里看花。而溯本求源,微观层面的分子的性质和功能,才是真正的决定因素。这样的分子数据的集合,我们称为多组学数据,包括基因组、转录组、蛋白质组、代谢组等等。其中最核心的是蛋白质组,几乎所有药物的靶点都是蛋白质。蛋白质组也能更直接地反映疾病的发生发展状态。通过现今的蛋白质组学技术大量临床样品,积累海量蛋白质组大数据后,结合其他组学的数据,经AI整合可以更精准地找到更多潜在的生物标记物。
3 蛋白质+AI:正在疾病诊断领域崭露头角
如今,蛋白质+AI的研究正在进行中,也取得了一些突破性进展。
例如,我们尝试发挥蛋白质+AI的优势,让甲状腺结节诊断变得更加精准。甲状腺形如蝴蝶,是人体最大的内分泌器官之一。有些人把它称为人体新陈代谢的CEO,影响各个器官。它接受来自大脑的信息,调控甲状腺素的分泌,这个激素会调控五脏六腑,也控制肌肉力量、情绪,对人体非常重要。数据显示,成年人中大概有一半的人患有甲状腺结节(其中多数是良性结节)。从性别上看,女性甲状腺结节的患病率高于男性,大约是男性的3~5倍。从年龄上看,20~55岁是甲状腺结节高发的年龄段。
在临床实践中,10%~30%的甲状腺结节是无法在术前精确诊断的。这一诊断准确度也取决于医生较为主观的临床经验,不同的医生可能会对同一个结节的良恶性有不同的判断。难以诊断的甲状腺结节的判断有多种辅助检测的方法,基于基因水平的诊断在西方国家被广泛接受。然而,基因检测准确率并不是很高,因为甲状腺结节的基因突变总体比较少,且存在个体差异,mRNA相对来说又不太稳定,检测的难度较高。美国的一些实验室与公司开发了基因测序试剂盒,通过较为成熟的基因测序辅助判断结节的良恶性。这一方法的灵敏度达83%~100%,但是特异性只有10%~52%。这意味着,如果是恶性,基本可以检测出来,几乎不会漏掉,然而,对于良性结节的诊断仍存在巨大挑战。
这种情况下,医生和患者有时会选择一切了之。这虽然堵住了发展为恶性肿瘤的可能,但也给生活带来了很多不便——切除甲状腺后的患者需要终身服用甲状腺素代替药物,因为人体其他器官无法自行合成甲状腺素,如果不服药,失衡的激素水平会引起其他继发性疾病。
而蛋白质+AI则有助于判断甲状腺结节的性质。我们科研团队与包括新加坡和中国在内的几十家医院进行合作,建立了多中心、回顾性和前瞻性的数据集,对1000多名患者的甲状腺结节样品进行蛋白质组分析,再通过AI神经网络算法进行分析,建立了由多个蛋白特征构成的AI模型,可以用于结节良恶性的评估。这些结果的准确度高达90%。而通过现实可行的产业转化,该成果预期有望应用于临床。这个例子只是精准诊断中的一个应用范式,该研究范例理论上可推广至其他病种,比如卵巢癌、大肠癌等都可以用类似的方法进行处理。
蛋白质组对疾病的诊断非常重要,最新的蛋白质组技术越来越多地应用于临床生物标志物的发现。未来,我们会继续和临床医生、计算机科学家一起开发基于蛋白质组的大数据,进行人工智能分析的诊断筛查新模式。当然,蛋白质组只是所有测量中的一部分,我们还可以结合多组学,结合临床图像和病人临床数据建立综合模型,为健康生活提供更多保障。
(作者:郭天南,系西湖大学特聘研究员;孙耀庭、梁潇,系该校博士生)