1. 引言
科技创新是经济增长和社会发展的重要源泉。区域创新系统是把创新人力资源和财力资源投入转化为创新产出的经济系统,是我国创新系统的重要组成部分、我国区域经济增长和科技发展的重要基础。客观、科学地评价与分析各区域创新系统的效率,对于明确区域自身优势、制定有效的创新政策,不断提高区域创新能力具有非常重要意义 [1] 。
由美国著名运筹学专家Charnes等人(1978)提出的数据包络分析(Data Envelopment Analysis, DEA)模型 [2] 是评价同类型投入、产出系统中各决策单元相对有效性的常用评价方法。不少学者已使用DEA模型对我国区域创新系统的效率进行了评价研究。刘顺忠、官建成(2002)运用DEA CCR模型评价了区域创新系统的规模与技术有效性,并进行创新系统的分类,提出针对性的对策建议 [3] 。池仁勇、唐根年(2004)运用DEA方法分别对我国30个行政区进行了技术创新效率的评价,结果显示我国的技术创新效率东部高、西部低 [4] 。白俊红、江可申、李婧(2009)对我国已有的区域创新系统的创新效率进行了测算,结果显示,我国区域创新效率普遍偏低,这是纯技术效率低下导致的,并呈现出规模报酬递减的态势 [5] 。
然而,DEA模型是高维(多投入、多产出)抽象的数学模型,区域创新系统的决策者需要利用历史数据,对包括DEA在内的各种数量方法的分析结果进行数据挖掘,以便更好地因地制宜制定区域创新系统的政策与方针,其中,决策树方法是一种应用广泛的可视化数据挖掘的重要工具,主要有Quinlan提出的ID3和C4.5以及Breiman等人提出的CART算法 [6] 。决策树模型是呈树形结构,表示基于特征对实例进行分类的过程,其主要优点是模型具有可读性,可产生意义明确的决策规则,分类速度快和分类准确性高。
结合DEA模型和决策树方法一并分析具有吸引力,已有学者在IT、企业规模等领域做了相关研究 [7] [8] ,但在区域创新绩效评价领域,据本文作者所知,尚未有相应的研究文献。本文将结合DEA模型和决策树模型的各自优点,提出综合运用DEA模型与决策树方法的评价分析模式,对我国31个区域创新系统的效率做客观、科学的评价与分析。本研究的主要目标包括:在评价我国31个区域创新系统效率的基础上,分析分类决策树方法在制定区域创新系统的战略决策(或政策制定)中的作用。
2. 综合DEA与决策树方法的评价分析模式
区域创新系统效率的综合评价分析模式包括两个过程:首先,应用DEA模型,把区域创新系统分为有效和无效两个类别;其次,使用决策树方法构建分类决策树,提取重要特征变量并形成可知识化的决策规则。下面具体讨论这两个过程中所使用的模型和方法。
2.1. DEA评价模型
假设
个区域创新系统,称为决策单元(decision making unit, DMU),每个决策单元有
种投入和
种产出,第
个决策单元DMUj的投入和产出分别为
和
,
。决策单元DMU0的相对效率可以通过下列分式规划得到:
(1)
其中DMU0为被评价的DMU,
和
是决策变量,
是非Archimedes无穷小。利用Charnes-Cooper变换,可将分式规划模型(1)化为如下等价的线性规划模型:
(2)
如果线性规划问题(2)存在最优解
和
,使得
,则DMU0称为DEA有效;否则,其称为DEA无效(inefficient)。所有DEA有效的DMUs 构成了有效性前沿。
在使用DEA模型识别出具体的有效与无效决策单元之后,可进入决策树模型分析阶段。
2.2. 决策树方法
在分类问题中,设N个样本(即决策单元)的数据集S具有I个特征A (即DEA模型中的投入与产出变量),以及取K个值(例如:DEA有效、无效等)的分类变量C,分类决策树方法的目的是找出一颗决策树,选择重要的特征,由其值来预测分类变量的值。
分类决策树算法假设决策树是二叉树结构。决策树由结点和有向边(左侧分支和右侧分支)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征,其取值为“是”和“否”,左侧分支是取值为“是”的分支,右侧分支是取值为“否”的分支,叶结点表示一个类。这样,决策树等价于递归地二分每个特征,将输入空间(即特征空间)划分为有限个区域,并在这些区域上确定预计的概率分布。
分类决策树用最小化不纯(impurity)指标来选择最优特征,同时决定该特征的最优二值切分点。设
是结点i内第k类的样本数目,
是结点i内第k类中的样本比例,Di是结点i的不纯度的测度指标,有几种选择可用来计算不纯指标,其具体计算公式如下:
1) 偏差(deviance):
(3)
2) 熵(entropy):
(4)
3) 基尼指数(Gini index):
(5)
通常可同时使用这几种不纯指标来构建分类决策树,并采用误分率(misclassification rate)最小作为最好分类决策树的选择标准。
根据现有数据集S,分类决策树的生成过程从根结点开始,递归地对每个结点进行如下操作,构建二叉决策树:
步骤1:设结点的数据集为S,计算现有特征对该数据集的不纯指标。此时,对每一个特征A,对其可能的每个取值a,根据样本点
的测试为“是”或“否”将S分割成S1和S2两部分,利用公式(3)~(5)计算
时的不纯指标;
步骤2:在所有可能的特征A以及它们所可能的切分点a中,选择不纯指标最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点,从现结点生成两个子结点,将数据依特征分配到两个子结点中去;
步骤3:对两个子结点递归地调用步骤1和步骤2,直至满足停止条件;
步骤4:生成分类决策树。
算法停止计算的条件是结点中的样本个数小于预定阈值,或样本集的不纯指标小于预定的阈值,或者没有更多特征。
构建的分类决策树提取了DEA评价的原始数据中的重要特征变量,并由此可形成直观的、可知识化的决策规则。
3. 实例分析
首先使用DEA模型对中国大陆31个区域创新系统(省、自治区和直辖市)的2012~2013年的科技创新的效率进行评价。吴和成、刘思峰(2007)运用主成分法和相关分析等统计方法,筛选并建立了区域R&D相对效率的DEA评价指标体系 [9] 。借鉴该研究成果,本文DEA评价模型所使用科研与创新活动的具体投入包括:
x1:2012年区域创新系统R&D支出(亿元);
x2:2012年地方财政科技拨款(亿元);
x3:2012年区域创新系统R&D人员(千人年)。
同时,在对区域创新系统进行DEA相对有效性评价时,应当考虑从投入到产出的延迟时间,本文假定该延迟时间为一年。因此,DEA模型所使用科研与创新活动的具体产出考虑为:
y1:2013年国内中文期刊科技论文数(篇);
y2:2013年高科技产业主营业务收入(亿元);
y3:2013年高技术产品出口额(百万美元);
y4:2013年发明专利申请授予量(项)。
具体的DEA投入与产出数据见表1的第2列至第8列,所有数据均来源于中国科技部发展计划司所发布的科技创新统计资料汇编 [10] [11] [12] 。
使用DEA软件EMS对我国31个区域创新系统的相对效率值θ进行计算,其结果列在表1的第9列。其中,有效决策单元集合为E = {北京,上海,江苏,江西,广东,海南,重庆,陕西,甘肃,新疆},

Table 1. DEA Input and Output Data and Efficiencies of regional innovation systems
表1. 区域创新系统DEA投入与产出数据及相对效率
数据来源:x1、x2和x 3来源于文献 [10] ;y1和y4来源于文献 [11] ;y2和y3来源于文献 [12] 。
其构成了DEA模型中的有效性前沿,而无效决策单元集合NE = {天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,浙江,安徽,福建,山东,河南,湖北,湖南,广西,四川,贵州,云南,西藏,青海,宁夏},是DEA模型识别出的无效区域创新系统。
为了从DEA评价的原始数据中识别出重要的特征变量,并产生直观的、有意义的决策规则,有必要进一步构建分类决策树模型。把DEA相对效率值θ转换为取值为“有效(
)”和“无效(
)”的分类变量,并将DEA模型的投入与产出变量作为特征,使用R语言tree软件包,采用最小偏差作为分割结点的准则,建立分类决策树如图1所示。
从图1的分类决策树可见,该决策树抽取了DEA投入与产出7个指标中的3个重要的特征y1、x2和y3,并产生如下4条判别决策单元是否DEA有效的决策规则。
规则1:IF (
),THEN (决策单元DEA有效)。
规则2:IF (
且
),THEN (决策单元DEA无效)。
规则3:IF (
,
且
),THEN (决策单元DEA有效)。
规则4:IF (
,
且
),THEN (决策单元DEA无效)。
该分类决策树的误分率为
,也即正确的分类比例达到93.5%,表明提取的决策规则是相当有效的。
相对于DEA是高维度(多投入、多产出)抽象的数学模型,决策树提供了直观和意义明确的决策规则,这些决策规则对区域创新系统的政策制定者提供了有用的信息,帮助他们进行区域创新系统有效性的影响因素分析及定位决策。只有明确了影响区域创新系统有效性的最重要因素,各区域创新系统才能根据自身的资源条件,制定出正确的区域创新政策,充分发挥自身的优势,努力克服或改善自身的不足,在我国各地生机勃勃的科技创新活动中不断改进,力争上游。
4. 结论
区域创新系统是我国创新系统的重要组成部分、我国区域经济增长和科技发展的重要基础。DEA是评价区域创新系统(决策单元)相对有效性的最常用评价方法之一。由于DEA是高维度(多投入、多产出)抽象的数学模型,在具体识别出有效决策单元和无效决策单元之后,有必要使用决策树方法对DEA的分析结果进行进一步的数据挖掘,构建分类决策树并产生直观和意义明确的决策规则,为区域创新系统的政策制定者提供决策上有价值的信息。实例分析结果表明,本文提出的综合运用DEA模型与决策树方法的评价分析模式是有效的。