1. 引言
人工智能技术已成为新一轮科技革命与产业变革的核心驱动力。作为全球瞩目的第二大经济体,我国高度重视人工智能产业对国家竞争力提升和经济社会高质量发展的战略意义,出台了一系列国家战略进行系统布局。2016~2017年,中央陆续推出的《“互联网+”人工智能三年行动实施方案》和《新一代人工智能发展规划》,从顶层设计层面将人工智能确立为优先发展领域,系统性、全方位地描绘了我国人工智能发展的宏伟蓝图。2022年,科技部发布了《关于支持建设新一代人工智能示范应用场景的通知》,进一步推广了“人工智能 + 场景应用”模式,标志着我国人工智能发展正式转向以场景驱动、价值创造为核心的规模化应用新阶段。
目前,针对人工智能产业政策的研究广泛而多样。部分学者从政策制定[1]或产业驱动视角[2]出发,探究人工智能产业政策的发展路径,指出政策的扩散机制与影响要素。也有学者以不同地区[3]或不同层级[4]的政策为研究对象,通过分析内容、目标、实施策略以及成效,探讨人工智能政策的差异与共性。总结现有研究,发现政策文本的定性分析居多,因此,需进一步采用量化方法进行评价。
本文通过LDA (Latent Dirichlet Allocation)主题模型,优化了政策评价体系的构建过程,并采用自编码器改进的PMC-AE (Policy Model Consistency-Auto Encoder)指数模型对人工智能产业政策进行量化评价,最后以三维曲面图的形式加以呈现,提供了政策量化评价的新思路。针对区域间的政策不平衡现象,本文提出了建立全国性人工智能政策信息平台的建议,针对政策的改进路径,指出了加快产业基础及治理体系建设,关注政策重点、政策性质及政策激励的优化方向,以期为完善人工智能产业政策、推动区域政策协调高效发展提供重要参考。
2. 数据来源与方法选择
2.1. 数据来源
完整准确的数据搜集是研究分析的基础,本文以“北大法宝”数据库作为我国人工智能政策文本数据的主要来源,辅之以万方数据知识服务平台及政府门户网站。为保证数据获取的有效性与准确性,本文在收集政策文本时遵循以下标准:(1) 政策标题包含“人工智能”关键词或相关同义词,且政策内容与人工智能关系紧密;(2) 检索过程均采用精准搜索模式;(3) 检索时间跨度为2015年1月1日至2025年6月30日;(4) 检索范围包括京津冀、长三角、珠三角、黑吉辽、川渝及两湖地区,涵盖省市两个层级;(5) 政策现行有效。
最终整理得到196条政策文本,整个数据集约含111万个字符。各区域政策数量见表1。
Table 1. The number of policies in each region
表1. 各区域政策数量
发布地区 |
政策数量 |
发布地区 |
政策数量 |
京津冀 |
40 |
川渝 |
20 |
长三角 |
73 |
两湖 |
15 |
珠三角 |
35 |
黑吉辽 |
13 |
2.2. 方法选择
本文首先采用LDA主题模型,挖掘政策文本的主题词,根据主题词总结命名主题。接着以主题提取结果为参考,构建政策量化评价体系并对政策赋值打分。最后使用自编码器优化变量之间的权重关系,计算出政策的PMC-AE指数,得到更确切的政策评价得分。
模型建立具体可分为以下五个步骤:
(1) 提取主题
LDA模型是一种基于词袋模型的无监督机器学习算法[5],被广泛用于自然语言处理领域的主题建模。其核心思想是将文档集合视为一个“词袋”,并假设每个文档都是由多个潜在主题构成,且每个主题可表现为一系列相关词语的概率分布。LDA模型无需任何预先标注的训练数据,能够自动地从文本集合中挖掘出隐藏的主题信息,在处理大规模文本时具有显著的优势,方便研究者理解海量文本的核心内容和内在结构。因此,将其运用于人工智能产业政策的文本挖掘上,可以清晰展现政策关注的重点和方向。
(2) 选取变量
选取合适的变量是建立PMC-AE指数模型的先行步骤,变量的覆盖范围和代表性,直接决定了模型的准确性和分析结果的有效性。本文以主题挖掘结果为指导,并参考相关研究文献,构建起合理的人工智能产业政策评价体系。
(3) 构建多投入产出表
多投入产出表是政策量化评价的核心分析工具,主要用于系统整合政策评价的指标数据。构建指标体系后,需要预先设定子变量参数。为保证评价结果的客观性与公正性,本文以政策文本中是否包含相应关键词或近义词进行二级变量打分,逐一构建起196项人工智能产业政策的多投入产出表。
(4) 计算PMC-AE指数
PMC-AE指数的计算是一个数据融合的过程,分为两步骤进行:第一步,对客观打分后的二级变量X进行参数融合,得到所有政策的一级变量得分h;第二步,将得到的一级变量得分h进行参数融合,得到所有政策的PMC-AE指数S。具体计算流程见图1。
参数融合的计算公式如下:
(1)
(2)
(3)
(4)
式(1)和式(2)是二级变量的赋值过程,式(3)和式(4)是参数的融合过程。其中,f、g分别是输入层到隐藏层、隐藏层到输出层的激活函数,
和
为隐藏层和输出层的权重矩阵,
和
为隐藏层和输出层的常数项。本文基于TensorFlow框架,选择Adam优化器,分别选取Softplus函数(式5)和Sigmoid函数(式6)作为激活函数,以均方误差MSE (式7)作为损失函数。通过多次训练迭代,模型取得了较好的收敛效果,此时潜在空间中的h可以很好地表达X的特征。
(5)
(6)
(7)
(5) 绘制PMC-AE曲面
PMC-AE曲面是一种用于政策文本量化评估的三维可视化模型,一般呈现为凹凸不平的曲面。将政策文本一级变量得分,代入3 × 3的矩阵,可以直观、立体地展现出其在多维度上的表现,有助于把握政策的整体质量和结构特征。
(8)
Figure 1. Diagram of the PMC-AE index calculation process
图1. PMC-AE指数计算流程图
3. 构建指标体系
3.1. 确定主题数
一致性得分可以衡量主题内部词语间的语义相关性,分数越高表示主题质量越好[6]。本文选取最常用的c_v方法计算得分,根据图2,可确定最优主题数为20。
Figure 2. Curve of topic consistency changes
图2. 主题一致性变化曲线
3.2. 主题挖掘
根据前10个代表性主题词命名主题,结果见表2。
Table 2. Result of topic extraction
表2. 主题提取结果
序号 |
主题 |
主题词Top10 |
1 |
资金支持 |
给予丨万元丨最高丨奖励丨超过丨补助丨资助丨符合条件丨资金丨扶持 |
2 |
产业治理 |
产业丨部门丨安全丨治理丨伦理丨规范丨经济丨技术丨保护丨主体 |
3 |
产业升级 |
产业丨改革丨信息化丨一批丨工业丨园区丨培育丨工业丨推广丨转型 |
4 |
技术合作 |
技术丨园区丨伙伴丨人才丨集聚丨合作丨开放丨生态丨对接丨示范 |
5 |
人才培养 |
人才丨培训丨专业丨岗位丨工作丨高校丨技能丨培养丨就业丨创业 |
6 |
基础设施 |
数字丨基础丨设施丨数字经济丨数字化丨网络丨终端丨新型丨转型丨试点 |
7 |
基础理论 |
理论丨深度学习丨识别丨物联网丨知识丨复杂丨方法丨云计算丨理解丨研究院 |
8 |
算力支持 |
配合丨算力丨通用丨算力券丨大模型丨数据丨算法丨生态丨中心丨规模 |
9 |
大模型 |
大模型丨数据丨算力丨资源丨场景丨训练丨开放丨探索丨算法丨通用 |
10 |
芯片开发 |
产业丨系统丨芯片丨突破丨开发丨大数据丨感知丨计算丨研究丨产品 |
11 |
机器人 |
机器人丨产业丨服务丨智能丨制造丨应用丨突破丨场景丨产业链丨模式 |
12 |
智慧养老 |
智慧丨养老丨社会丨政策丨机构丨责任丨扶持丨社区丨产品丨装备 |
13 |
智慧政务 |
信息丨政务服务丨公共数据丨优化丨事项丨智慧丨部门丨大数据丨精准丨审查 |
14 |
智慧医疗 |
健康丨信息化丨管理丨数字丨医疗丨智能化丨设施丨信息丨辅助丨诊断 |
15 |
智慧教育 |
教室丨教育丨试点丨教学丨工作丨助推丨学生丨学习丨智慧丨考核 |
16 |
智能制造 |
智能制造丨装备丨制造业丨生产丨制造丨工业丨管理丨互联网丨设计丨智能化 |
17 |
智能汽车 |
软件丨汽车丨信息丨场景丨自动驾驶丨探索丨大数据丨整车丨算法丨智能座舱 |
18 |
智慧城市 |
产业丨智慧丨培育丨科技丨城市丨基础丨示范丨资源丨中心丨应用场景 |
19 |
智慧农业 |
智慧丨大数据丨农业丨感知丨生产丨装备丨关键技术丨工程丨设备丨物流 |
20 |
智慧金融 |
数字丨科技丨金融丨经济丨平台丨大数据丨云计算丨区块链丨资产丨实体 |
3.3. 变量选取
基于主题提取结果,参考Estrada [7]、张永安[8]、王丹丹[9]、史童[10]和黄骏飞[11]等对变量的设置,最终构建了包含9个一级变量和52个二级变量的人工智能产业政策评价体系,具体内容见表3。
Table 3. Evaluation indicators and criteria for artificial intelligence industry policies
表3. 人工智能产业政策评价指标及标准
一级变量 |
二级变量 |
评分标准 |
X1政策性质 |
X1,1预测 |
政策是否具有预测性,是为1,否为0 |
X1,2引导 |
政策是否具有引导作用,是为1,否为0 |
X1,3支持 |
政策是否涉及支持内容,是为1,否为0 |
X1,4监管 |
政策是否涉及监管内容,是为1,否为0 |
X1,5规划 |
政策是否提出规划,是为1,否为0 |
X1,6建议 |
政策是否提出建议,是为1,否为0 |
X2政策时效 |
X2,1长期 |
政策作用时间是否为5年及以上,是为1,否为0 |
X2,2中期 |
政策作用时间是否为3~5年(不含5年),是为1,否为0 |
X2,3短期 |
政策作用时间是否小于3年,是为1,否为0 |
X3政策领域 |
X3,1经济 |
政策是否涉及经济领域,是为1,否为0 |
X3,2社会 |
政策是否涉及社会领域,是为1,否为0 |
X3,3技术 |
政策是否涉及技术领域,是为1,否为0 |
X3,4制度 |
政策是否涉及制度领域,是为1,否为0 |
X4政策视角 |
X4,1宏观 |
政策是否基于宏观视角,是为1,否为0 |
X4,2中观 |
政策是否基于中观视角,是为1,否为0 |
X4,3微观 |
政策是否基于微观视角,是为1,否为0 |
X5政策重点 |
X5,1产业升级 |
政策是否涉及产业升级,是为1,否为0 |
X5,2产业治理 |
政策是否涉及产业治理,是为1,否为0 |
X5,3技术合作 |
政策是否涉及技术合作,是为1,否为0 |
X5,4基础设施 |
政策是否涉及基础设施建设,是为1,否为0 |
|
X5,5基础理论 |
政策是否涉及基础理论建设,是为1,否为0 |
X5,6数据算力 |
政策是否涉及数据算力,是为1,否为0 |
X5,7机器人产业 |
政策是否涉及机器人产业,是为1,否为0 |
X5,8大模型 |
政策是否涉及大模型研发应用,是为1,否为0 |
X5,9芯片研发 |
政策是否涉及AI芯片等硬件,是为1,否为0 |
X5,10智慧城市 |
政策是否涉及智慧城市建设,是为1,否为0 |
X5,11智慧政务 |
政策是否涉及智慧政务建设,是为1,否为0 |
X5,12智慧教育 |
政策是否涉及智慧教育建设,是为1,否为0 |
X5,13智慧金融 |
政策是否涉及智慧金融建设,是为1,否为0 |
X5,14智慧农业 |
政策是否涉及智慧农业应用,是为1,否为0 |
X5,15智慧医疗 |
政策是否涉及智慧医疗应用,是为1,否为0 |
X5,16智慧养老 |
政策是否涉及智慧养老应用,是为1,否为0 |
X5,17智能制造 |
政策是否涉及智能制造,是为1,否为0 |
X5,18智能汽车 |
政策是否涉及智能汽车,是为1,否为0 |
X6政策级别 |
X6,1法律法规 |
政策是否为地方性法规,是为1,否为0 |
X6,2部门规章 |
政策是否为地方部门规章,是为1,否为0 |
X6,3规范性文件 |
政策是否为地方规范性文件,是为1,否为0 |
X6,4工作文件 |
政策是否为地方工作文件,是为1,否为0 |
X7政策受体 |
X7,1政府 |
政策作用对象是否为政府,是为1,否为0 |
X7,2企业 |
政策作用对象是否为企业,是为1,否为0 |
X7,3学校 |
政策作用对象是否为学校,是为1,否为0 |
X7,4科研院所 |
政策作用对象是否为科研院所,是为1,否为0 |
X7,5社会公众 |
政策作用对象是否为社会公众,是为1,否为0 |
X8政策激励 |
X8,1财政支持 |
政策是否提供财政支持,是为1,否为0 |
X8,2金融支持 |
政策是否提供金融支持,是为1,否为0 |
X8,3人才激励 |
政策是否提供人才激励,是为1,否为0 |
X8,4法律保障 |
政策是否提供法律保障,是为1,否为0 |
X8,5组织保障 |
政策是否提供组织保障,是为1,否为0 |
X9政策评价 |
X9,1方案科学 |
政策方案是否科学,是为1,否为0 |
X9,2内容详实 |
政策内容是否详实,是为1,否为0 |
X9,3目标明确 |
政策目标是否明确,是为1,否为0 |
X9,4依据充分 |
政策依据是否充分,是为1,否为0 |
4. 区域政策得分量化分析
4.1. 总体分析
根据多投入产出表进行数据融合,得到196份人工智能产业政策的PMC-AE指数结果。通过评级处理,可以反映出政策得分的总体特征。等级划分标准如下:[7, 9)为“优秀”,[4, 7)为“良好”,[1, 4)为“一般”,[0, 1)为“片面”。
Figure 3. The distribution of policy ratings for the artificial intelligence industry in six regions
图3. 六大区域人工智能产业政策评级分布情况
观察图3数据可知:长三角地区的政策数量最多,且“优秀”比例最高,表明该地区的政策整体有效性最强。京津冀、珠三角的政策数量也相对较多,可见东部地区在人工智能产业政策制定上最为活跃。相比之下,川渝、两湖、黑吉辽的政策数量较少,这些地区的人工智能产业基础较为薄弱,在政策供给上仍处于追赶阶段。黑吉辽没有“优秀”和“片面”政策,说明该地区的政策较为稳健,但在顶尖设计上存在不足。两湖的“片面”比例最高,提示其政策可能存在覆盖不全面或针对性不强的问题。
4.2. 选取代表性样本
受限于文章篇幅,本文根据政策评级结果,从四个等级中各选取1项政策作为量化评价的样本,将政策分别标记为P1~P4,政策信息如表4所示:
Table 4. Table of representative policies’ information
表4. 代表性政策信息表
编码 |
等级 |
政策标题 |
发布地区 |
发布时间 |
P1 |
优秀 |
上海市人工智能产业发展“十四五”规划 |
长三角 |
2021-12-27 |
P2 |
良好 |
广州国家人工智能创新应用先导区建设方案 |
珠三角 |
2021-12-10 |
P3 |
一般 |
重庆市发展汽车软件与人工智能技术应用行动计划(2022~2025年) |
川渝 |
2022-9-28 |
P4 |
片面 |
武汉国家新一代人工智能创新发展试验区建设若干政策 |
两湖 |
2021-1-22 |
4项政策的一级变量及PMC-AE指数得分情况如表5所示:
Table 5. Detailed scores of policies
表5. 政策详细得分情况
编码 |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X7 |
X8 |
X9 |
PMC-AE |
P1 |
4.6301 |
1.3304 |
3.2059 |
3.7644 |
11.4789 |
0.5023 |
5.3317 |
5.0913 |
3.8755 |
8.7937 |
P2 |
1.5113 |
0.4984 |
3.2059 |
3.7644 |
9.9875 |
0.5023 |
5.3317 |
2.9398 |
3.8755 |
5.3847 |
P3 |
2.3907 |
0.8645 |
2.2454 |
3.7644 |
2.6205 |
0.5023 |
3.7321 |
0.5319 |
3.8755 |
3.0491 |
P4 |
0.0113 |
0.4984 |
1.8321 |
0.5202 |
3.3458 |
0.7818 |
1.7027 |
1.5284 |
1.4240 |
0.3025 |
4.3. 绘制PMC-AE曲面
PMC-AE曲面不同色块代表指标得分的不同数值,曲面凸出的部分表示该项政策对应评价指标得分较高,凹陷部分则表示对应评价指标得分较低。
Figure 4. PMC-AE surface diagram
图4. PMC-AE曲面图
图4直观地展示了4项不同评级政策的一级变量指标表现,政策P1、P2的曲面图位置较高且凸起明显,而政策P3、P4的曲面图则位置较低且存在明显凹陷,随着评级的降低,政策曲面图的橙黄色面积逐渐减少,蓝色面积逐渐增大。
4.4. 政策具体评价
结合一二级变量指标和PMC-AE曲面对4项政策的得分进行具体原因分析:
在政策性质(X1)上,P1 > P3 > P2 > P4。P1明确了上海市人工智能产业“十四五”期间的发展目标、发展趋势、发展路径,具有预测、引导、支持、监管、规划及建议的性质。P2为广州国家人工智能创新应用先导区的建设方案,主要具有引导、支持、规划及建议的性质。P3提出了重庆市汽车软件与人工智能技术应用的行动计划,具有预测、引导、支持及规划的性质。P4阐述了武汉国家新一代人工智能创新发展试验区建设的若干政策,以支持性质为主。在政策时效(X2)上,P1 > P3 > P2 = P4。P1属5年规划,为长期性政策,P3时间跨度为2022至2025年,为中期政策,而P2和P4作用时间均小于3年,为短期政策。
在政策领域(X3)上,P1 = P2 > P3 > P4。P1明确推动产业经济转型,强调技术研发和制度建设,成果惠及民生,涵盖经济、社会、技术及制度领域。P2主张人工智能和实体经济深度融合,提及技术创新、体系建设,同样涵盖4个领域。P3核心内容为汽车软件与人工智能技术应用,未涉及社会领域。P4则主要涉及产业投资和技术攻关等,包括经济和技术领域。在政策视角(X4)上,P1 = P2 = P3 > P4。P1、P2、P3均从国家战略或城市定位出发,涉及产业布局、区域协调,并具体到企业和场景等,包含宏观、中观、微观视角。P4主要为企业奖励、项目补贴、人才资助等微观视角。
在政策重点(X5)上,P1 > P2 > P4 > P3。P1、P2除大模型开发、智慧养老等少数主题未提及,其余内容均有所阐述,政策覆盖广、内容全面。P3是智能汽车领域的专项政策,聚焦于汽车产业升级、技术合作和数据中心基础设施建设。P4旨在通过支持人工智能企业和项目推动产业升级,明确了打造以智慧城市为核心的创新应用标杆,提出了医疗、养老及制造领域的人工智能应用。在政策级别(X6)上,P4 >P1 = P2 = P3。P1、P2、P3均为地方工作文件,P4为地方规范性文件。
在政策受体(X7)上,P1 = P2 > P3 > P4。P1、P2均明确政府为实施主体、企业为重点支持对象,鼓励高校人才培养和科研院所参与研发,内容涉及民生服务和公众体验。P3提及了政府、企业、高校及科研院所,而未直接面向社会公众。P4则以企业为主要受体。在政策激励(X8)上,P1 > P2 > P4 > P3。P1提及财政和金融支持,明确人才引进政策,强调法律和组织保障。P2给予专项资金和信贷支持,提供人才激励和组织保障,但未明确法律保障。P3仅提及了财政支持和组织保障。P4重点说明了财政支持、金融支持以及人才计划,但未明确法律和组织保障。在政策评价(X9)上,P1 = P2 = P3 > P4。P1、P2、P3均设有量化目标,政策内容结构清晰、覆盖面广,做到了方案科学、内容详实、目标明确和依据充分。政策P4内容充实、依据充分,支持措施系统全面,但缺乏明确的目标。
由此可知,政策评价差距主要体现在政策性质(X1)、政策领域(X3)、政策视角(X4)、政策重点(X5)、政策受体(X7)和政策激励(X8)等一级变量上,政策时效(X2)、政策级别(X6)和政策评价(X9)对大部分政策的影响较小。因此,针对政策P2可以提出以下改进路径:X1-X8-X5。政策P3、P4的改进路径则分别为X5-X8-X1-X7-X3和X5-X1-X7-X8-X4-X3-X9-X2。
5. 结论与建议
5.1. 研究结论
基于主题模型和PMC-AE指数模型,本文系统量化了我国六个区域的196份人工智能产业政策,并选取了代表性政策进行具体分析,研究结果显示:
(1) 在主题分布方面,我国区域人工智能产业政策具有应用驱动、全栈布局的特点,但存在一定的结构性风险。政策体系覆盖了从底层基础(基础设施、基础理论)到核心技术(芯片开发、算力支持、大模型),再到上层应用(智慧养老、智慧政务、智慧医疗等场景)的全产业链条。然而,底层基础、制度治理等领域的主题不够丰富,可能存在“重应用、轻基础”的倾向。
(2) 在政策等级方面,我国人工智能产业政策呈现明显的区域发展不均衡态势,政策供给数量、质量与地区产业基础和经济实力高度相关,整体政策等级处于“一般”至“良好”的过渡阶段。东部沿海区域构成政策创新的“第一梯队”,其中长三角地区在政策数量与质量上均表现领先。中西部和东北地区政策供给不足,存在顶尖设计缺失、覆盖面不全等问题。
(3) 在政策改进方面,4个等级的政策差距主要体现在政策性质、政策领域、政策视角、政策重点、政策受体和政策激励等变量上,其中政策重点、政策性质及政策激励最为关键,分别决定了产业资源流向、发展可持续性及技术创新能力。
5.2. 建议
根据研究结论,本文提出以下建议:
首先,对于长三角、珠三角等产业基础扎实的先发型地区,应扩大政策开放力度,敢于试错、纠错,在巩固应用牵引优势的同时,积极承担政策创新的主体角色。具体而言,这些地区可借鉴上海发放“模型券”“算力券”、深圳设立“先行先试”机制等经验,加大底层基础与制度治理等薄弱环节的政策供给,推行有层次、有针对、有差异的试行政策,从而加快前沿技术布局和治理规则创新,率先构建起技术研发到场景开放,再到伦理治理的闭环体系,为国家层面治理提供试点经验。
其次,对于川渝、黑吉辽等产业基础薄弱的追赶型地区,应采取“单点突破、链式发展”的策略。通过对长三角等地区“优秀”政策案例进行解构,制定“专精特新”型政策,集中有限资源优先攻克与本地产业基础高度契合的底层技术或关键环节,形成局部优势后再逐步延伸产业链,如东北地区可依托土地肥沃的东北平原,利用大数据平台,建设智慧农场、智慧牧场,打造农业垂直产业链;重庆可以汽车软件为核心,推动产业补链、强链,力争形成“软件 + 智能 + 硬件”一体化发展的产业格局。
最后,为系统性提升我国人工智能政策的整体效能,应推动建立全国性的人工智能政策信息平台,促进区域间政策经验交流与协同,将先发型地区的试错经验、成功经验转化为全国共有的制度财富。在具体的政策设计上,各地方政府应统筹兼顾多项职能:既发挥好政策引导、支持、规划的基础功能,也要强化预测、监管、建议等前瞻性功能。政策重点应涵盖基础到应用的多个层面,捋顺产业的发展逻辑,并通过构建起多方位的财政、金融及人才激励举措,配以适时的法律、组织保障,形成推动人工智能高质量发展的合力。
基金项目
浙江省新苗人才计划项目“基于主题模型的网络内容检测方法及其在平台治理中的应用”(2024R407B056)。