今年,诺贝尔物理学奖和化学奖均颁给了ai相关领域,被简化为“ai4s”的ai for science(ai用于科研)理念也受到了国内外科学家们的重点关注。
11月4日至6日,2024科学智能峰会在北京大学召开,张锦、龚新高、汤超等中国科学院院士,以及多位有着ai科研实践经验的专家学者现场分享并探讨了ai目前在科研上的具体应用、ai在科研领域的局限性和待解决问题,以及ai for science在未来可能对科学研究范式带来的影响。
alphafold的成功只是“万里长征第一步” 传统ai框架仍有局限性
本届诺贝尔化学奖得主哈萨比斯之所以获奖,在于其开发了alphafold人工智能模型,这种模型解决了一个已有50年历史的难题,能够预测大约两亿种已知蛋白质的复杂结构,并且已经被全球200多万人使用。而在中国科学院院士、北京大学-清华大学生命科学联合中心主任汤超看来,alphafold的成功并不等于大生命科学领域的成功,这只是“万里长征的第一步”。
中国科学院院士、北京大学-清华大学生命科学联合中心主任汤超正在演讲 新京报贝壳财经记者罗亦丹/摄
汤超介绍,目前生命科学领域的大部分模型仅限于单一模态,如单细胞转录、rna序列、蛋白质结构等,但生命科学是一个复杂而庞大的系统,生命科学的本质是从分子、细胞、器官到整体生命的多层次、多维度交互构成。
“生命是由宏观到微观多尺度多层次的复杂系统,每个层次都有自己的语言和逻辑,相互影响。”汤超说,“传统ai框架处理结构化、线性数据表现优异,但生命系统的数据具有动态性与多位交互复杂性,因此处理高纬度、非线性的生命科学数据时传统ai框架就表现出了明显的局限性。”
此外,即便是单一模态的ai研究,也需要良好的数据基础,而当前一些科研领域面临实验数据不足以及实验数据标准化不够的问题。
汤超表示,生命科学数据体系建设起步晚、投入不足,缺乏完整的全链条生态系统,前期缺乏系统化战略规划与共享机制,难以形成具有高影响力和稿子里的数据集,数据利用率落后于欧美。
中国科学院院士、北京大学党委常委、副校长张锦则在介绍使用ai进行材料研究时提到,当前数据采集过程不统一,不同设备、环境、操作人员得到的数据有很大差异。此外,不同类型的实验生成的数据包括图像、光谱数据、结构数据等,格式不同。
而ai的建模、训练都需要大数据的支持,张锦表示,“标准化是实现数据共享、再现性和科学知识迭代的基础。”
中国科学院院士、北京大学党委常委、副校长张锦正在演讲 新京报贝壳财经记者罗亦丹/摄
在汤超看来,生命科学大模型框架研究亟待解决的问题包括:针对生命科学数据的特性,优化序列、图像和矩阵数据的编码器设计;针对不同模态数据的融合,调整模块架构、数据集选择及预训练策略。而真正能够引起“革命性变化”是如何针对生命现象的语言逻辑、自组织、层级涌现、反馈机制、适应性等构建全新的模型架构。
汤超介绍,生命科学的研究流程往往是:进行实验观测-模型拟合以解释现象-总结性质-预测行为-再进行实验观测的循环,他认为未来模型拟合或可以通过ai完成,“我们的目标是构建多模态、跨层次的生命科学大模型,最终希望能够发现生命科学的新规律、新原理。”
ai革新研究范式:通过大量实验校准 不再执着于明确的“可解释性”
虽然“ai4s”仍然存在不少需要解决的问题,但当前,ai已经在许多不同的科研领域均取得了成就,具体应用除了上文中提到过与诺奖相关的alphafold外,还包括诸如deepmind利用ai技术在核聚变-托克马克装置中控制等离子体形状,fraphcast预测未来十天全球天气并在90%的指标上超越了人类系统hres等。
此外,ai也加速了实验研究的进程。张锦介绍,让一名同学一天重复3组一样的实验基本不可能,但通过自动化平台做自动化实验一天可以做150组,极大提高了实验的重复性,而高质量的实验数据是模拟训练的基础。
中国科学技术大学讲席教授江俊就介绍了其以及其团队使用中科大机器化学家平台做实验的经历,通过他的视频展示,新京报贝壳财经记者注意到了这个有着全向移动底盘和智能械臂,长相酷似一个“会动的桌子”的全自主实验操作机器人。