10月8日,2024年诺贝尔物理学奖授予美国科学家约翰·霍普菲尔德(John Hopfield)和英国裔加拿大科学家杰弗里·欣顿(Geoffrey Hinton),以表彰他们在使用人工神经网络的机器学习方面的奠基性发现和发明。次日的诺贝尔化学奖授予三位科学家。其中,来自华盛顿大学西雅图分校的大卫·贝克(David Baker)成功完成了构建全新蛋白质这一几乎不可能完成的任务;而来自谷歌DeepMind公司的德米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper)开发了一种名为AlphaFold2的人工智能(AI)模型,这种模型解决了一个已有50年历史的难题:预测蛋白质的复杂结构。
2024年两个诺奖的颁布,标志着一个新时代的到来。AI与基础科学的深度融合,将开启AI+科学“双螺旋引擎”共振驱动的科学研究新范式:一方面,AI在科学研究中逐步走向核心地位,成为科研突破的新引擎,AI for Science(科学智能)将极大加速和扩展科学研究的效率和能力边界;另一方面,底层科学的第一性原理和知识将成为AI向AGI(通用人工智能)进化的根本驱动和扩展引擎,下一个AI领域的里程碑很可能来自Science for AI的启发,而两者作为“双螺旋引擎”,将共振驱动并定义科学智能新范式“AI+科学”,带领我们进入科学发现涌现和人类文明跃迁的新纪元。
Physics for AI,是物理,也是人工智能
人工智能的很多关键算法都受到了物理学思维的启发。
物理学家在研究自然界时,往往通过方程和数学模型来描述复杂系统的行为。这种通过变量间的关系来揭示规律的方式,与AI中的建模非常类似。比如在经典物理学中,牛顿方程、热力学等模型都是通过数据推导出来的,而AI模型同样依赖大量数据和数学模型去学习、预测和优化。
另外,人工智能常常要处理复杂的高维数据,这与物理学家研究多体系统、混沌系统等复杂现象时的挑战相似。比如,神经网络的复杂性和自适应性与物理学中的自组织现象类似。在此基础上,许多AI模型借鉴了物理学的思维方式,尤其在处理复杂系统时,将物理法则与AI结合以提高模型的解释力和效率。
再举一个例子。想象在水池中滴入一滴高温水,随着时间的推移,热量向四周扩散,直到整个水池温度趋于一致。这是物理学中的热扩散过程,能量逐渐扩散并分布得更加均匀。AI的扩散模型(Diffusion model)则通过类似的过程进行数据生成。它从噪声开始,将数据逐步扩散为无序状态,类似一滴高温水的热量扩散过程。然后,模型通过逆向过程将无序状态逐步还原为有序数据,最终生成高质量的样本。这个“从无序到有序”的生成过程,完美模拟了热扩散过程,即通过逐步降低热量差异,使系统恢复到稳定状态。
AI for Chemistry,科学突破的新引擎
再来看看今年摘获诺贝尔化学奖的AlphaFold2。在2018年发布的AlphaFold基础上,由DeepMind公司开发的这款人工智能程序在2020年的蛋白质结构预测大赛(CASP)中取得了突破性进展,以接近实验水平的精度预测蛋白质的三维结构,该成就被认为是人类在21世纪取得的最重要的科学突破之一。这一成果不仅推动了生命科学的发展,还加速了针对癌症、病毒的抗生素、靶向药物和新效率的蛋白酶的研发。
AlphaFold2的成功展示了AI在基础科学研究上的巨大潜力。同获诺奖的贝克的Rosetta软件的开源性质,使得全球科研人员都能够利用这一工具进行研究。问鼎诺奖,其实早在科学家的意料之中。
AlphaFold2的核心是使用大量的蛋白质序列数据训练出的一个深度学习模型,该模型能够理解氨基酸序列与蛋白质结构之间的复杂关系。它首先搜索同源序列和模板,然后通过多序列比对和成对特征联合嵌入来构建蛋白质结构的预测。AlphaFold2采用了一种新的输出表示和相关损失函数,实现了精确的端到端结构预测。此外,它还使用了一种新的等变注意体系结构,通过中间损失实现预测的迭代细化,并与结构联合训练。
尽管AlphaFold2取得了巨大成功,但它仍然存在预测方面的局限性。今年5月问世的AlphaFold3结合了图神经网络和变分推断方法,并引入了多种生物物理学知识,形成了强大的结构预测统一框架,涵盖了前所未有的广度和精确度。AlphaFold系列实证了AI作为科学发现新引擎的强大力量。
Science for AI和AI for Science,定义一个全新的科学研究范式
在AI与科学研究的交汇点上,“Science for AI”和“AI for Science”构成了驱动科学进步的“双螺旋引擎”。这两个概念不仅代表了科学与技术之间的相互作用,也定义了一个全新的科学研究范式。
Science for AI指的是利用物理学等基础科学的原理和方法来启发和改进AI技术。如前文所述,物理学中的热扩散原理启发了AI中的Diffusion model。在机器学习领域,很多关键算法都受到了物理学思维的启发,AI for Science则是将人工智能技术应用于科学研究,以解决科学问题,包括引导科学假设的生成,自动实验和验证,并推进科学发现。
在Science for AI和AI for Science的共振中,数据驱动和第一性原理的融合是关键。深度学习是数据的拟合,第一性原理和知识则可以外插到缺少或者没有数据的地方,体现更好的扩展性。
当规则、知识和关键数据矛盾,可以调整知识规则,就像爱因斯坦把有限的物理数据、他自己头脑实验的合成数据(比如坐着光会看到什么样的宇宙)和黎曼几何结合起来,把牛顿力学扩展到了刻画宏观宇宙的相对论。在这个意义上,打造AI爱因斯坦是科学智能(AI+Science)的终极目标,也是AGI的终极目标——发现未知规律,推动科学和人类的进步。
(《文汇报》10.18 漆远)