各位领导各位朋友早上好,非常荣幸也非常高兴接受大会组织方的邀请介绍一下人工智能赋能科技发展的有关情况。
首先介绍一下AI for Science目前成为全球竞争高地。回顾一下科研范式的发展,第一范式主要是经验科学。第二范式是理论科学,理论科学最著名的就是伴随第一次工业革命,我们可以看看麦克斯韦方程,总结了电子学和光学,牛顿的万有引力定律揭示了行星的运动。第三范式是计算科学,通过大规模计算能力实现了大气环流的计算。第四范式是以数据科学为支撑的人工智能。
人工智能在二三十年前已经提到了,为什么最近几年引起大家的注意?主要是虚拟发展推动了国家经济、科研、教育等各个方面的发展,左边这个图是人工智能文章的发表,2005年以后人工智能方面的文章开始急速增长,它在蛋白质预测、可控核聚变、气象预测上面都取得了巨大的成绩,特别是去年来自华为云盘古气象大模型,这个模型非常成功,成功预测了2023年玛娃台风行进的路线,引起学术界的震惊,因为华为是一个商业公司,他们在科学上取得这样的重大进步使我们感到非常吃惊。
2024年诺贝尔物理学奖和诺贝尔化学奖都授予了人工智能在科学方面推动做出巨大贡献的几位科学家,从这里可以看出人工智能是完全可以赋能科学的发展。在国际上也处于人工智能互相竞争的格局,在2023年美国白宫发布了国家人工智能研发战略计划等等。我们国家非常非常重视人工智能的发展,2025年国务院政府工作报告特别提出要持续推动人工智能的行动,在这里面AI4S是人工智能行动的重要组成部分。这里我想起来在3、4天前7月13日北京市政府发布了《人工智能赋能科学研究高质量发展行动方案(2025-2029)》,说明人工智能不仅国家重视,地方市政府也非常非常重视。
第二部分,空间科学迎来新的发展时期。
我们知道2024年10月15日上午,国务院新闻办公室举行的发布会发布了《国家空间科学中长期发展规划(2024-2050)》,在这个里面包括五大科学主题,包括极端宇宙、时空涟漪、宜居星球、日地全景、太空格物。这里面我们有17个优先方向,时间有限,我就不在这里说了,但这里想给大家提一下,中国和美国的竞争不仅体现在技术上,也体现在科学上,我们已经制定了在2030年中国将去火星取回火星的土壤,力争在美国之前取回火星的土壤,因为月球取回来是阿波罗计划做的,火星我们一定要抢在美国之前取回活性的土壤,因为月球的土壤取回来是美国第一个做的,阿波罗登月计划做的,但是活性我们中国一定要抢在美国之前。在这些空间科学发展规划里面,未来我们的空间科学卫星,从这里面可以看出未来我们中国科学卫星发展非常多的,卫星非常多,来自于探测数据存在巨量增长,已经达到10PB级,也使中国居于世界空间科学数据大国的行列。但空间科学非常复杂,跟各个学科领域大数据都有各自的特性,空间科学大数据非常复杂,模态多样性、多要素、多信使、多圈层等等这些东西,使我们处理它非常困难。
这里给了一个日地空间示意图(PPT图),可以看到来自太阳、行星界、地球磁层、电离层、中高层、大气等等,都涉及到圈层耦合、多尺度的过程,可以从1米到1个AU的天文单位的数量级、11个数量级等等,支撑我们人工智能空间大数据也是非常复杂的。
所以我们面临的问题与挑战,如果空间科学的传统研究模式,会发现海量的数据效率非常低,而且标效也存在很多问题。还有以前基于小样本分析的案例研究,空间科学卫星在20世纪以前不是很多,而是进入21世纪以后空间科学卫星的数量才急剧的增长,所以面临着很多的挑战。刚才讲到人工智能在几十年前就已经用到了,在美国NASA利用人工智能来处理探测仪器的数据都已经取得很好的效果,为国际上空间科学研究做了一个很好的范例,这方面我们也是开始。
我们专业来自于空间科学,研究空间天气,空间天气灾害不仅仅是卫星还包括地面设施、包括卫星的导航定位、通讯中断带来很多危害的安全。这是空间天气预报的五大障碍,其中第一个就是数据障碍、模式障碍、时空障碍,还有一些算法的障碍,传统计算缺陷是耗时耗算力,难以满足业务的需求,因为海量的数据太多了。目前国际上已经有的这些空间天气数字模式的预报,但这些预报都有很大的短板,包括观测数据的不完整、输入不稳定,还有物理模型与延迟的冲突,还有模型融合的深度不足等等。在这方面,我们国家空间天气预警中心在这方面做了很好的尝试,它建立了一个风雨的空间天气链式预报大模型,包括了覆盖太阳磁层、电离层和热层,我们日地系统的多个圈层在这方面,虽然这个还不完美,但是我们已经有了一个基本的形,我们可以在这个基础上借助于国家空间科学卫星的发展来进行改进。
第三个,人工智能科学发展的路径思考,我们希望在大模型视角下来构建AI for space science。还有知识化和形式化,来自于很多数据,我们的主要来源,支持人工智能空间科学的来源一个就是探测数据,还有一个是来自于发表在各个期刊上的学术文献,这也是一个知识的积累。主要任务二就是空间科学领域知识理解的大模型,跟前面一样,包括科学数据和知识语料,支持科学智能体的大脑,我们利用大语言模型的演进来人机交互式的开展研究。我们要建立多主体系统的空间科学大数据及智能应用生态系统,这里面也包括来自于国家重点实验室、科研院所、高等院校以及创新企业合作,这些数据汇集到国家空间科学数据中心,最后来支撑空间科学大模型的建立。
谢谢大家,我的报告完毕,谢谢。