1. 引言
随着全球新一轮科技革命和产业变革深入发展,科技创新已成为推动经济社会发展的核心动力。传统科研范式在面对海量数据处理、复杂模型构建等问题时,逐渐显现出局限性,迫切需要寻求新的突破与发展。与此同时,人工智能作为一场波及经济社会发展全局、从生产力渗透到生产关系的全方位科技革命,重塑科技创新全过程各环节,带来全新科研范式变革,已成为驱动新质生产力的重要引擎。
AlphaFold、ChatGPT等人工智能技术凭借机器学习精准整合人类知识与经验,从而达到自主学习和推理的类人智能水平,为人工智能涉足科学研究活动提供了可能性[1]。以智能算法为核心驱动力的新型科研模式,即“人工智能驱动的科学研究”(AI for Science,简称AI4S),作为机器学习等人工智能技术与科学研究深度耦合的成果,依托“模型构建和数据支撑”的双轮驱动融合范式,具备突破传统科研中维度灾难瓶颈的强大潜力,迅速崛起为全球人工智能领域的全新前沿方向,为科学研究带来了颠覆性的变革[2]。
2. 科研范式的演进历程
科研范式由美国著名科学哲学家托马斯·库恩提出,指的是一个共同体成员所共享的信仰、价值、技术等的集合,是常规科学所赖以运作的理论基础和实践规范,也是从事某一科学的研究者群体所共同遵从的世界观和行为方式[3]。2007年图灵奖得主吉姆·格雷将科学研究方法的演变凝练为经验范式、理论范式、计算范式、数据驱动范式四类[4]。
2.1. 科研范式演进脉络:从第一范式到第五范式
2.1.1. 第一范式:经验范式(16世纪之前)
经验范式作为人类最早的科研范式,主要依赖研究者的实践观察与经验总结,以现象记录、经验归纳、实践验证为核心流程,缺乏系统的理论指导与实验手段。科研成果多以经验知识、技艺传承的形式存在,具有较强的主观性与局限性;技术支撑主要依赖简单的观测工具与手工记录手段,数据采集与处理能力有限;科研活动以个体或小型团队为主,缺乏明确的组织架构与协作机制,研究方向分散,成果传播速度慢。典型案例如西方的泰勒斯通过观察、总结、分析和推理,预言了日食,创建了古希腊最早的学派“米利都学派”[5]。
2.1.2. 第二范式:理论范式(16世纪到19世纪)
随着数学与逻辑学科的发展,科研范式进入理论范式阶段,该范式以提出假设、逻辑推理、理论验证为核心流程,解释自然现象的本质规律。科研成果以理论体系、公式定理的形式呈现,具有较强的逻辑性与普遍性;技术支撑以数学工具与逻辑推理方法为主,部分领域开始使用简单的实验设备辅助理论验证,但数据处理仍以人工计算为主;科研活动开始出现小规模协作,高校与科研机构逐渐成为科研主体,形成了以学科为导向的研究团队,成果传播通过学术论文、学术会议等方式,速度与范围较经验范式显著提升。典型案例如牛顿在其1687年发表的《自然哲学的数学原理》中提出万有引力定律以及牛顿运动定律,成为经典力学的基石[5]。
2.1.3. 第三范式:计算科学范式(20世纪中期到21世纪初)
20世纪后半期,随着高性能计算机的迭代及大规模并行计算体系结构的成熟,科学家开始尝试通过设计数值求解算法、编写仿真程序,借助计算机实现对复杂理论的推演与复杂物理现象的模拟[6]。1982年诺贝尔物理学奖得主肯尼斯·威尔逊(Kenneth Wilson)正式提出计算科学范式,该范式以计算和模拟为主导,遵循提出理论、搜集数据、仿真验证的逻辑,依赖科学家设定的程序与假设,依托计算机强大的算力支撑,对复杂方程组进行高精度、大规模求解,进而探索那些传统实验手段与纯理论推导均无法触及的复杂科学问题[7]。
2.1.4. 第四范式:数据密集型范式(21世纪初)
21世纪初,随着科学研究飞速发展,传统范式已经无法满足现代科学研究所面临的数据处理和分析需求,而计算模拟的仿真结果难以完全重现实践现象的复杂性[8]。此时,互联网飞速发展所产生的海量数据,推动了数据科学的繁荣,以数据密集型为核心特征的第四范式应运而生。弗洛里迪指出,大数据的价值是可以从浩繁的数据集合中发现具有真正附加价值的“小模式”;舍恩伯格提出,通过用数据来量化事物之间原本比较模糊的相关关系,把模拟现象转化为数字形式,以便能够被制成图表以及量化分析[9]。
2.1.5. 第五范式:人工智能范式(2020年左右起)
伴随AI模型在准确性与预测能力上实现革命性跃升,科研范式也进一步向人工智能驱动的方向演进。第五范式是一种以AI技术为核心,以融入人的价值和知识为手段,以人机共融为特征的跨领域科研范式,侧重于人类、机器和数据之间的交互,强调人类决策机制和数据分析的整合,体现了数据和智能的有机结合[7]。第五范式的标志性事件是AlphaFold 2实现蛋白质结构预测以及GPT-4等生成式人工智能的出现,其中,机器猜想发挥了关键的作用,说明大规模机器学习的神经网络已经涌现出某种程度的智能,体现出划时代的变化[10]。
2.2. 科研范式的发展规律总结
从第一范式到第五范式的更迭,不只是科学研究工具和方法的升级,更是科学哲学在认知论、方法论和伦理观等多个维度的持续演变。从工具方法看,新的科学发现、技术发明为科研范式创新提供了物质基础,是推动科研范式发展的关键动力。例如,伽利略改良望远镜并将其用于天文观测,为哥白尼提出“日心说”提供了实证依据;高性能计算机的发明,为海量数据关联性挖掘提供手段。从科学哲学的发展来看,第一范式时期以培根的“经验论”为核心观点,强调从大量观察结果中总结一般规律的归纳法;从第二范式开始,莱布尼茨、笛卡尔等提出“唯理论”,强调科学知识由理性推演而来,“提出假说–演绎推理–实验验证”为核心的假说演绎法成为主流;到第三范式时期,核爆模拟、气象预测等非线性复杂问题的出现,推动科学哲学接纳“不确定性”在科学研究中的合理性,由于这类问题难以依赖传统实验开展,“通过模拟验证理论”成为新的方法论;进入第四范式时期,以舍恩博格为代表的学者认为“大数据不是因果关系,而是相关关系”[11],相关性打破了库恩提出的新旧范式“不可通约性”的壁垒[3],对科学哲学方法论发展具有革命性意义;人工智能推动出现的第五范式重塑了科研主体关系,科学家从主导者转变为AI的合作者,引发对“科学创造力归属”的哲学思考,同时科研数据泄露、科研诚信、知识产权等问题,使人工智能时代的科研伦理愈发成为一个讨论的焦点[1]。
3. 人工智能赋能科研范式
3.1. 人工智能在科技创新中应用现状
人工智能在基础科学研究中应用广泛。物理学领域,分析高能物理实验数据,如大型强子对撞机数据,助力寻找新粒子与物理现象,探索超出标准模型的新物理迹象;化学领域,借助机器学习算法预测材料性能,加速新型催化剂、超导材料的研发;生物学领域,在基因编辑、蛋白质结构预测中成果显著,为生命科学研究与药物研发提供关键支撑[12]。
应用科学研究中,人工智能也发挥着突出的作用。信息技术领域,推动计算机视觉、自然语言处理等技术发展,落地图像识别、智能语音助手等应用;能源领域,用于能源系统优化调度与故障诊断,例如电网中通过AI实现电力负荷精准预测,优化运行方式以提升可靠性与经济性;交通领域,支撑自动驾驶技术研发,通过处理传感器数据与优化决策算法,实现车辆自主驾驶,提高交通效率与安全性。
3.2. 人工智能赋能的科研范式主要路径
人工智能赋能科研主要借助以下路径实现。一是嵌入科研全流程,覆盖研究问题形成、实验设计、操作、数据分析等环节;二是能推动科研设施升级,像大型数据库、基础模型、大科学装置等为算法与算力融合、新算法组织运营方式推广提供支撑;三是重构人机分工,科研人员聚焦创意,机器从辅助工具升级为协作者,深度参与科学假设形成、数据采集分析、实验设计操作等环节;四是变革科研组织治理,人工智能与学科交叉催生大平台模式,该模式核心强调开放共享、跨学科协作与复合型人才培育。
4. 企业科研新范式研究
目前,企业层面在积极推动科研新范式落地,其中,药物研发、新材料研发、生物育种、智能制造领域的企业走在前列,例如,宁德时代利用AI工具结合自动化设备和高通量筛选平台,对锂金属负极微观机理进行研究,提升新材料研发效率[13];华为自主研发的盘古大模型3.0在医疗领域取得了巨大突破,成功发现了新型超级抗生素DrugX [14],都是企业级应用的成功案例。在这一背景下,本文提出覆盖科研全流程、适配企业发展的人工智能科研新范式。
4.1. 企业科研新范式的内涵及特征
融合人工智能的企业科研新范式,是指合人工智能技术与企业科研场景,通过科研与人工智能的深度耦合、双向赋能,构建从科研选题到成果转化的全流程科研智能双引擎协同体系,实现科研活动的高效化、精准化与闭环化。科研新范式的核心特征主要表现在以下方面:
1) 人工智能凭借深度学习技术的突破性进展,全面融入科学、技术和工程研究;2) 在人机协同的新模式下,机器涌现的自主智能深度参与科研,成为科研体系的关键组成部分;3) 跨界融合式的跨学科合作成为主流科研方式,打破单一学科的边界;4) 实现科研知识自动化生成,推动科研从选题到成果转化的全过程智能化升级;5) 科研更依赖群智开放的大平台生态,以大模型为核心的科研平台推动科学研究与工程实践深度结合,形成研用一体的创新闭环。
4.2. 科研智能双引擎协同创新运作模式
科研智能双引擎协同创新表现为科研和人工智能的全过程交互及协同迭代。具体来说,科研的各个阶段,即科研选题、科研攻关、实验验证、转化应用,为人工智能的应用和赋能提供了场景。某一特定场景作为“科研–人工智能”循环的起点,该场景的需求即场景的目标与任务,是循环启动的动力源泉。紧接着,遵循“数据输入–模型生成–模型应用–迭代优化”的人工智能运行路径,通过数据流转、能力支撑、反馈迭代等实现科研与人工智能之间的双向交互,并形成针对特定科研场景的人工智能应用或解决方案,回到科研场景这一最终归宿,构成“科研–人工智能”的作用闭环。科研智能双引擎协同创新运作模式如图1所示。
Figure 1. The collaborative innovation operation mode of the dual engines of scientific research and artificial intelligence
图1. 科研智能双引擎协同创新运作模式
在这一过程中,科研与人工智能之间的双向互馈主要体现在以下几个方面:
1) 在数据输入阶段,科研向人工智能提供数据这一“核心原料”,按照数据用途分为模型训练、验证及测试数据,以及模型推理数据,这些数据经过去重、补全、格式化等处理,形成与人工智能适配的规范化数据。根据具体科研场景的不同,输入数据也呈现差异。例如,针对选题立项场景,向人工智能输入论文、专利、标准、学者和研究机构的数据;针对新药研发的攻关场景,向人工智能输入分子结构、分子性能、细胞实验、动物实验数据。
2) 在模型生成阶段,科研向人工智能提供两类输入,一是目标及约束,通过明确模型的成功标准并框定模型的工作边界,确保人工智能在合理的框架内寻求最优解,例如,针对疾病诊断的攻关场景,对疾病预测的准确率和误诊率提出阈值要求,并约束模型的推理时间和算力使用上限;二是先验知识,包括公式定理、一般规律、已有研究结论等,通过导入垂直科研领域的先验知识作为模型前提,减少训练难度,提升结果的合理性和准确性。
3) 在模型应用阶段,人工智能向科研提供两类能力输出,一是模拟复杂系统与动态过程,形成推理预测结果;二是处理多维度数据集,从海量异构数据中挖掘隐藏规律,或者求解人类难以完成的海量计算任务。例如,由于蛋白质折叠后的三维空间结构异常复杂,蛋白质结构预测是典型的高维问题,随着数据维度增加,计算代价呈指数增长,AlphaFold 2模型运用深度学习算法极大提高了结构预测效率,成功预测了超过100万个物种的2.14亿个蛋白质结构[15]。
4) 在迭代优化阶段,科研向人工智能提供反馈,人工智能向科研提供优化后的结果。通过在真实的科研场景中应用模型输出,由科研人员对输出的正确性、精确性、有效性等进行评估,再反向输入人工智能模型,推动模型的迭代优化,形成新一轮输出结果,推动人工智能模型螺旋式提升的循环。例如,当发现模型预测误差过大、无法满足科研要求时,可以通过调整特征选择参数剔除冗余输入,通过调整正则化参数提升泛化能力等等。
4.3. 企业科研新范式的价值跃升
借助科研和人工智能的双向赋能机制,科研全过程即选题立项、科技攻关、实验验证、转化应用各场景效能均得到大幅度提升,科研和人工智能由运作协同迈入价值协同层面。
1) 智能辅助选题。人工智能通过高效地处理海量科研文献资料,迅速提取核心内容,便于科研人员全面掌握科技领域的研究动态;通过构建学科知识图谱、学者合作网络,以结构化、可视化的方式呈现科研热点及领域大咖,辅助科研人员提出创新性假设,组建研究团队。
2) 高效科学发现和技术突破。人工智能通过仿真模型模拟万亿级变量组合,如药物分子的构象模拟、材料配方的虚拟试验,快速筛选出具有研究价值的方案,大幅减少实验成本与周期;通过自动完成海量科研数据的清洗、转换与整合,挖掘潜在的规律与模式,为提出新的科研假设提供数据洞察。
3) 自动实验设计与执行。人工智能构建数字孪生实验室,对技术方案进行虚拟耐久性测试、性能极限测试;对实验流程进行智能优化,如预测实验风险、自动调整实验变量,提升验证效率与可靠性;AI驱动的机器人还能够高精度执行重复性实验任务,降低人为误差。
4) 有效对接技术供需。人工智能预测转化风险并跟踪进度,借助可解释AI技术,将科研成果的技术逻辑转化为业务语言,帮助市场端、业务端理解成果的价值;通过AI驱动的市场需求分析工具,精准匹配科研成果与目标客户、应用场景,加速成果从实验室到产业化的进程。
4.4. 企业科研新范式的应用展望
未来,拥有以下特征的企业将最大程度受益于AI4S,最适合部署科研新范式。一是技术密集型,例如生物医药、高端装备制造等,这类企业的研发需求大、投入多,AI4S将带来显著的规模效应,大幅压降研发成本和周期;二是面向极宏观和极微观的科研体系,例如航天航空、地理气象、生物医药、新材料等,这类企业的科研对象或是天体地球系统、或是微观粒子系统,难以开展实际实验或实验成本过高,AI4S将有效拓展科研新路径。
5. 企业科研新范式落地策略研究
5.1. 完善科研管理流程
企业应对标科研新范式的核心要求,对科研管理流程进行系统性重塑。立项阶段结合人工智能技术应用与数据驱动思路,全面评估项目创新性、可行性及潜在价值;实施阶段重点监控数据采集、算法开发、人机协同等关键环节,及时解决执行过程中的问题;验收阶段构建科学评价体系,侧重成果在企业业务实际中的应用效果与经济效益,避免重形式轻实效。
5.2. 完善科研组织管理
企业内部增设人工智能创新部门,统筹推进人工智能算法、算力、平台建设,强化人工智能全过程赋能;建立跨部门、跨专业的开放型科研组织架构,实现市场、工程、科研等职能的紧密对接。对外加强人工智能领域产学研合作机制搭建,统筹推进与具备AI学科优势的高校、科研机构的长期稳定合作;通过共建AI联合实验室、人工智能研发中心等载体优化跨主体科研组织架构,以企业在AI算法优化、智能产品研发等领域的核心技术难题为导向,组织开展联合攻关;同步完善科研组织管理中的利益分配机制,明确企业、高校、科研机构各方在AI技术研发、成果转化全流程中的权责与收益,保障合作公平可持续,加速AI科研成果从实验室向市场落地。
5.3. 建立人才培养与激励体系
制定跨学科人才培养计划,整合企业业务领域知识、计算机科学、数学、统计学等多学科资源,培养既懂企业核心业务又掌握人工智能技术的复合型人才。邀请高校专家和企业内部技术骨干授课,提升员工跨学科知识与技能水平,打造适配企业科研新范式的人才队伍。加强企业内部不同部门科研人才的交流与合作,通过组织科研项目研讨会、技术交流沙龙、跨部门轮岗等活动,促进人才间知识共享与经验交流,激发创新思维。建立完善的人才激励机制,吸引和留住优秀的跨专业复合人才。
5.4. 搭建技术支撑体系
1) 数据治理与应用
推动企业级数据标准统一,制定涵盖数据采集、存储、传输、处理、分析等全流程的数据标准规范,明确各类业务数据的定义、格式、编码规则、质量要求,确保企业内部不同部门、不同业务系统产生的数据具备一致性与兼容性,为科研数据应用奠定基础。
打破企业内部数据孤岛,搭建企业级数据共享平台,促进不同部门、不同业务线数据共享与流通;制定合理的数据共享规则与激励机制,鼓励各部门主动贡献数据资源,同时明确数据使用边界与责任,保障数据提供者合法权益,实现数据资源高效循环利用。
2) 组建软硬件协同与高度整合的算力平台
结合企业科研场景需求,采购或定制适配的算力设备,如高性能服务器、GPU集群等,满足不同科研项目的算力需求;整合企业内部各部门分散的算力资源,构建一体化算力调度中心,通过智能调度算法实现算力动态分配,避免资源闲置与浪费,提升算力利用效率。
3) 构建企业科研场景化算法和科研大模型
根据企业业务类型,依托实验记录、文献资料、专利数据、工艺参数等科研数据,研发垂直领域的专属科研大模型,而非依赖通用大模型。针对企业核心科研领域,分类梳理算法需求,建立涵盖机器学习、深度学习、强化学习的专项算法库。建立算法迭代机制,结合科研实验反馈与新产生的数据,定期优化算法参数与模型结构,提升算法在科研场景中的预测精度、分析效率,确保算法与科研需求动态匹配。
5.5. 优化资源配置
优化科研资金投向,将年度科研资金按比例倾斜至人工智能融合科研项目,重点保障数据治理、算力平台建设、AI模型研发等基础环节,为核心技术突破提供稳定资金支撑;建立资金动态调配机制,依据项目进度、技术突破成效及企业业务需求变化,灵活调整资金分配比例,优先向人机协同效果显著、能快速落地并产生经济效益的科研项目倾斜,提高资金使用效率与科研投入回报率。
6. 结论与展望
人工智能驱动的企业科研新范式,是解决企业研发效率低、成本高、创新难等关键痛点,同时构建技术壁垒、适配行业变革趋势的必然选择。未来,随着人工智能技术的持续发展,企业科研新范式将向通用智能与行业专业场景深度融合的方向演进,企业需持续完善新范式落地策略,突破技术应用与组织协作壁垒,实现科研模式的根本性变革,以更好适应数字时代创新发展需求。