1. 引言
第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,我国在线政务服务用户规模达8.43亿,占网民整体的85.3%。大数据、云计算、人工智能等新一代信息技术日趋成熟,大数据社会已基本形成,推动政府治理由电子政务向数字治理转变是大势所趋。国家越来越重视数字政府建设,将其视作我国的重要战略发展目标。例如,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出:将数字技术广泛应用于政府管理服务,推动政府治理流程再造和模式优化,不断提高决策科学性和服务效率 [1]。习近平总书记也多次就数字治理作出重要论述 [2]。
数字治理是数字化技术与治理理论的融合,最早由英国学者帕却克·邓利维在其著作《数字时代的治理》中首次系统阐述 [3],其本质是利用现代数字化技术加强公民与政府之间的互动 [4],使普通民众更容易参与社会治理,提高数字治理的参与度 [5]。
在中央政府的战略部署之下,各省市积极建设数字治理平台,包括一体化网上政务服务平台、政务服务移动端、微信公众号等 [6]。在数字治理平台中,公民与政府之间因处理数字治理业务存在交互关系,包括公民与政府人员的交互关系和公民与公民之间的交互关系。其中,公民与政府人员的交互关系是在公民参与数字治理咨询或办理相关业务,政府人员回复公民或处理业务过程中形成的。公民与公民之间的交互关系是由于某一公民提出的问题引发其他公民共鸣,得到其他公民回复形成的。这种相对稳定的关系体系,构成了一种特有的社会网络——数字治理网络。社会网络关注的是人们之间的互动和联系,而社会互动会影响人们的社会行为。研究数字治理网络中的交互关系,有助于研究人们在数字治理网络中的社会行为。
在数字治理网络中,存在一部分深度参与数字治理,在数字治理过程中能够发现实际生活中存在的问题,并引起其他用户对自己广泛关注,得到其他用户高度评价的群体,称之为公民代表。公民代表因为其与其他用户联系紧密,同时善于发现数字治理过程中存在的问题,因此可以代表广大群众向政府集中反映群众的意见和要求。政府参考公民代表的意见与建议,结合人民群众的实际情况,可以思考如何使数字治理更加精准地服务群众,如何使决策更加科学可靠,如何使治理效率更加高效等一系列问题。此外,在数字治理网络中,政府人员因分管事项等的不同,承担的线上回复工作量大小和频率也不同,如果能识别出工作量最为繁忙的那些线上政府人员,即核心工作人员,根据其繁忙程度调配资源,能够优化数字治理平台组织结构,提高治理效能。因此数字治理网络中的公民代表和核心工作人员识别是一个十分重要的研究课题。
现有文献主要关注在社交网络上的意见领袖识别。六度分割理论 [7]、四度分割理论 [8] 以及小世界理论 [9] 等在传统社交网络中得到广泛验证的理论表明,人与人之间的距离变得越来越短,关系也越来越密切。数字治理网络是不同于社交网络的社会网络,主要用来处理社会问题,而非好友之间进行交流,因此数字治理网络中人与人之间的联系比社交网络远,存在很多孤立的小网络。基于数字治理网络的特殊性,有必要探索如何在数字治理网络中识别公民代表和核心工作人员。
本文以包头24 h警局数字治理平台为研究对象,运用大数据、社会网络分析等技术,对政府与公民互动行为数据进行综合挖掘,定位公民代表和核心工作人员。帮助治理平台从传统治理模式下被动接受群众建议转型为数字治理时代下主动了解群众问题,并思考如何不断提高治理能力与治理效率。
2. 文献综述
现有文献大多集中在社交网络上的意见领袖识别,未考虑在数字治理网络上进行研究。主流意见领袖识别方法主要有三类,分别是用户属性分析法、信息交互分析法和网络结构分析法 [10]。用户属性分析法从用户本身出发,提取用户的基本角色属性,构建相应评价体系;信息交互分析法从用户间的信息流动出发,衡量信息的传播力和影响力,构建影响力指标;网络结构分析法是一种较为常见的意见领袖识别方法,基于社区内交互网络图,利用网络拓扑关系,构建评价体系。
在用户属性分析方面,Zhang等 [11] 通过马尔可夫网络,计算三种用户属性挖掘关系数据中的意见领袖。彭丽徽等 [12] 认为微博平台的意见领袖识别指标由影响力、活跃度和认同度构成。
在信息交互方面,目前较为常用的网络挖掘算法为PageRank算法,原始的PageRank模型是Google公司针对网站中网页重要性评估提出来的。近年来大量的研究都致力于改进传统的PageRank来挖掘网络中的关键用户。许宁菲和程生雪 [13] 从网络结构的角度出发,借鉴了PageRank算法的基本思想,综合考虑了用户的行为特征,基于多指标综合评价方法设计了ActivityRank算法对用户的活跃度进行排序,以此识别意见领袖。Tsao等 [14] 根据社交网络中基于问题进行协作学习的学习者之间的互动数据,使用PageRank量度来准确找出社区意见领导者。Jiang等 [15] 从用户关系和用户行为两方面出发,提出了一种基于IDM模型和PageRank算法的影响力模型。Weng等 [16] 基于用户和链接结构之间的主题相似性扩展出衡量Twitter用户影响力的TwitterRank算法。肖宇等 [17] 在PageRank的基础上引入用户个体传播意愿和节点之间的互动程度值,提出用于计算用户影响力的WeiboRank算法。Zhou等 [18] 基于PageRank算法并综合情感指标进行用户影响力排名从而识别意见领袖。基本PageRank算法仅适用于强连通的有向图网络,当网络不连通时,PageRank算法不能对网络节点排序。
在网络结构分析方面,李慧等 [19] 提取入度、出度、介数等指标,对社区内用户进行聚类分析;朱志国等 [20] 进一步结合“网络中心性”与“用户活跃度”两方面构建意见领袖指标体系,再用灰色关联模型对意见领袖进行排序。
综上所述,现有研究通常采用单一指标单维度进行评价,存在指标评价不够客观全面、评价角度单一等问题。本文采用三种方式相结合的方法,旨在通过多维度、多方位分析,构建一套系统全面、科学可行的指标体系。
3. 数据获取与预处理
本文数据来源于包头24 h警局警务中心模块,网址为https://gaj.baotou.gov.cn/24h/forum.php?gid=1。本文利用python爬虫爬取数据,获取的数据集包括用户基本信息和回复信息,其中,用户基本信息42,010条,回复信息123,602条。这里将使用该模块的公民和线上政府人员统称为用户。数据获取区间为2020年7月至2021年4月。2020年包头市总人口为289.7万,通过包头24 h警局获得42,010名用户的信息,约占总人口的1.45%。
用户基本信息包括好友数,回复数,活跃时间,发帖数,积分,经验,金币等相关用户特征数据。回复信息包括回复者,被回复者,回复内容等相关内容。
数据预处理包括对用户基本信息预处理和回复信息预处理。
用户基本信息预处理包括以下两步:
1) 数据填充。某些用户存在数据不完整的情况,比如某些用户活跃时间为空、好友数为空等等。需要对用户缺失数据补0填充。在包头24 h警局中存在一些用户某些数据缺失的情况,是因为用户本身没有这些数据,因此对用户缺失数据补0,而非均值。
2) 规范数据格式。由于数据众多,内容多种多样,存在格式不一致的情况,需要规范化数据格式,便于后续分析、处理。比如用户活跃时间数据格式为“10小时”,在后续计算过程当中,活跃时间将被当成一个整数计算,为了便于后续计算,因此需要去除活跃时间内容里的空格和文字,只保留数字信息。
回复信息预处理包括如下步骤:
1) 去除爬取数据中包含的网页信息,如< br >,< /i >等。用Python编写爬虫程序,爬取到的数据正文内容里有些带着网页标签,或正文里带着图片或视频信息,需要去除掉这些文本信息之外的内容。
2) 删除系统自动回复信息。在回复信息里存在着大量系统自动回复信息,起到提示用户的作用,比如当用户问题被某一部门受理给出的提示信息,因用户提交的问题与部门不一致给出的重新报送提示,问政已结束等信息提示。因为这些信息往往是系统对用户自动回复的提示信息,而非实质工作人员回复或办理业务。
预处理完毕,最终得到回复共计40,754条。
4. 数字治理网络构建
本文基于用户之间的交互关系构建数字治理网络。该网络可以被定义为一个加权有向图G = (V, E, W),其中,V表示顶点集,每一个顶点vi Î V代表一个独立的用户;E表示边集,< vi, vj > Î E表示用户vi回复了用户vj;W表示边权重向量集,wij Î W表示用户vi回复用户vj的消息数量。
如图1所示,用户A指向用户B的边的权重为5,表明用户A回复过用户B 5次,即节点vA, vB Î V,< vA, vB > Î E, wAB = 5。B指向A的边权重为3,表明用户B回复过用户A 3次。在用户A与用户C之间存在一条由A指向C权重为4的边,表明用户A回复用户C 4次。
根据回复信息,统计任意两个用户之间的权重,利用Cytoscape建立如图2所示数字治理网络。从图中可以看出,数字治理网络不是一个连通网络,在图像右上角和图像下方存在着大量离散的小规模网络。整个数字治理网络由核心网络和离散的小规模网络群组成。
5. 公民代表和核心工作人员识别
公民代表和核心工作人员是在数字治理网络中非常活跃,有一定影响力,并且与其他用户联系紧密的群体。在公民代表和核心工作人员识别中,需要一个指标参与度来评判公民用户的代表性和核心工作人员的繁忙程度,该指标根据用户在数字治理网络中的基本属性、交互行为等方面出发,全方位多角度对用户进行评分。最终根据参与度排名识别公民代表和核心工作人员。
5.1. 整体架构
公民代表和核心工作人员识别方法的整体框架如图3所示。首先从用户基本属性和数字治理网络中提取出用户属性指标和网络结构指标。其次通过层次分析法分析用户属性指标和网络结构指标,得到层次分析法评分I。之后利用LeaderRank算法计算评分LR。最后通过加权平均I和LR得到参与度R。
5.2. 层次分析法
5.2.1. 相关指标介绍
1) 度
在众多网络统计特性中,度是节点重要性的一个重要指标 [21] [22]。度分为入度和出度。通过对数字治理平台政民互动网络节点的度进行统计,得到双对数坐标下用户度的概率分布,如图4所示。从图中可以看出,节点度符合幂律分布,具有典型的重尾特征,即大部分用户度很少,而少量用户如管理员、相关工作人员、活跃用户等拥有大量的联系,这些用户就具有较高的影响力和吸引度,对整体网络有非常重要的作用,在一定程度上能够主导着网络。

Figure 4. User degree distribution in double logarithmic coordinates
图4. 双对数坐标下用户度分布
2) 活跃度
从公民代表和核心工作人员自身来看,他们是非常活跃的,经常在网络中发帖、回复,经常使用数字治理网站。活跃度可以从以下几个方面进行衡量:
① 发帖数:指用户发起帖子的数量。用户开启一个话题,在贴子中反映自己的问题,工作人员回复并对问题进行处理。
② 活跃时间:活跃时间是指一个用户的在线时间,一个用户在线时间越长,表明这个用户在包头24 h警局越活跃,对包头24 h警局越关注,越多的通过包头24 h警局解决问题。反之用户在线时间少,则用户使用包头24 h警局越少。
③ 回复数:指用户在帖子下方回复的次数,可以反映用户的活跃程度,表明其进行话题讨论的程度。同时也是数字治理网络中的出度。
④ 积分、经验、金币:这些指标是系统奖励反馈指标,也在一定程度上反应了用户的活跃能力。
3) 影响力
公民代表要由一定的知名度,能够得到较多人的认可,在网络中占据更加重要的位置;核心工作人员与公民之间的联系和互动非常频繁,在数字治理中承担高强度的工作,他们都是网络中的重要节点。
① 好友数:即用户好友的数量。好友是一种双向的强联系。如果某个用户好友数很多,他与别人的强联系就很多,就会有更大的影响力,也体现了该用户社会人际关系好,与其他用户联系密切,在整个网络中更加重要。由于本文选取的是数字治理网络,而非以交流为主的网络,所以用户的好友数较少,但更加难得可贵,在数字治理网络中都建立了好友联系。
② 入度:入度是指网络中其他节点连接到某一节点的连线数量。表明了用户之间的一种弱联系,体现了当前节点对邻居节点的影响力。当某一用户的入度较高时,说明该用户帖子内容更容易引起其他用户的关注,更容易得到其他用户的回复,即可表明该用户具有一定的影响力。
③ 中介中心度:中介中心度指的是一个结点担任其它两个结点之间最短路的桥梁的次数 [23]。一个结点充当“中介”的次数越高,它的中介中心度就越大。中介中心度表示当前节点在网络中所处位置的重要程度。中介中心度大表明网络中信息流动时经过该节点的信息量越大,即该节点在信息传播过程中的影响力越大。
④ 接近中心度:接近中心性考量每个结点到其它结点的最短路经的平均长度 [23]。如果一个点与网络中所有其它点的距离都很短,则称该点具有较高的接近中心度。接近中心度可用来度量当前节点对其他节点的间接影响力,或者信息从该节点传播到其他节点的距离,也可间接度量该用户的社会关系强度。该值越大,表示当前用户和其他用户之间的距离越短,联系越紧密,得到其他用户支持越多。
5.2.2. 指标体系构建
层次分析法是一种利用构建评价指标的层级结构,是一种定量和定性分析的决策方法 [24]。本文设定从活跃度和影响度两个方面衡量数字代表。在评价指标中,一共设定了2个一级指标以及10个二级指标。一级指标为定性指标,反映公民代表和核心工作人员的特征,二级指标可被量化,可以直接进行计算统计,如表1所示。

Table 1. AHP evaluation index system
表1. 层次分析法评价指标体系
假设在相同一级指标下二级指标的权重相同,各一级指标的公式定义如下:
(1)
(2)
式中,二级指标
、
是由相对应的真实数据归一化处理得到的。
假设一级指标的权重相同,层次分析法评分I由下式给出:
(3)
通过对所有用户进行计算,便可得到层次分析法对用户的评分,并进行归一化处理,得到归一化后的层次分析法评分。
本文根据层次分析法计算公式计算用户评分。通过表2展示了层次分析法评分前十的用户。
从层次分析法评分可以看出工作人员普遍评分更高,其中交管指挥中心、Admin、110指挥中心、东河情指中心、昆曲指挥中心都属于工作人员,敏敏、wx_玊_ogog3、钜磊钢铁四哥、青春不等待、豆芽属于公民。交管指挥中心每一项指标都排名前列,所以层次分析法排名第一。Admin,110指挥中心,东河情指中心,昆区指挥中心活跃时间长,回复多,积分经验高,所以排名前列。敏敏、豆芽发帖数高,回复数多,在数字治理网络中非常活跃,与其他群众联系密切。wx_玊_ogog3、钜磊钢铁四哥、青春不等待虽然用户属性不高,但中介中心度和接近中心度并列第一,在网络中占据重要位置,所以排名前十。
5.3. 基于LeaderRank算法挖掘公民代表和核心工作人员
在数字治理网络中由于存在着大量离散的小规模网络,故PageRank算法不能应用于数字治理网络,而LeaderRank算法有效解决了这一问题。
LeaderRank算法是在基本PageRank算法基础上,增加一个背景节点与所有节点进行双向连接。这个新形成的网络是一个强连通网络,修复了基本的PageRank算法的问题。在数字治理网络中创建一个虚拟用户,并与其他所有用户进行连接,利用基本PageRank算法计算交互能力后,将自身交互能力平分给所有用户。
刚开始设置除背景节点外的所有节点的LR值都是1,背景节点g的LR值为0。
有如下的迭代公式:
(4)
(5)
式(4)是基础的PageRank算法的迭代公式,式(5)是把背景节点的LR值平分给每个节点。其中,n是节点个数,
是邻接矩阵中的值,
意思是第i个节点的出度,tc是最后一次迭代。
表示第i节点第t次迭代的LR值,等于所有与i相连的其他节点,按照出度所占比例进行平分后,流入该节点的LR值之和。式(4)意思是遍历每个节点,把当前节点的LR值平分给该点有向边所指向的那些节点。在数字治理网络中就是把当前用户的交互能力通过出度所占比例平分给其他用户。式(5)虚拟用户将自身所拥有的所有交互能力平分给所有用户。
通过迭代计算,直到算法收敛,则可以得到每一个节点的LeaderRank评分。最后进行归一化处理,得到每个节点归一化后的LeaderRank的评分LR。
LR评分排名前10的用户有:交管指挥中心、东河各部门单位、110指挥中心、东河情指中心、昆区交管大队、昆区指挥中心、青山交管大队、平安常乐、14张尧钦、交管车管所,如表3所示。
5.4. 参与度
利用层次分析法综合考虑公民代表和核心工作人员的活跃度与影响力,并结合LR评分进行最终评价。根据式(6)将层次分析法评分与LR评分加权平均,即为某一用户i的参与度
,n为用户数。参与度排名前十的用户信息如表4所示。
(6)

Table 4. Top 10 digital governance participation
表4. 数字治理参与度排名前十
交管指挥中心层次分析法评分排名第一,LR值排名第一,具有最高的用户属性指标,并且在网络中占据最重要的位置,因此在最终排名中毫无疑问排名第一。
110指挥中心、东河情指中心、昆曲指挥中心层次分析法评分排名前十,LR值排名前十,具有比较高的用户属性指标,并且在网络中占据重要位置,因此最终排名前十。
与层次分析法相比,东河各部门单位、昆曲交管大队、青山交管大队LR值比较高,在网络中占据的位置比较重要,而进入最终排名前十。
admin、敏敏、wx_玊_ogog3具有较高的层次分析法评分,但在网络模型中评分相对较低,因此排名下滑,但都进入了最终排名前十。敏敏、wx_玊_ogog3属于公民,由于公民主要参与数字治理,而工作人员在数字治理中提供服务,与其他用户联系更加密切,交互更加频繁,所以工作人员评分比公民评分偏高。
其他用户因某一单一方面评分较高,但另一方面评分较低,因此综合排名较低。
本文最终选取排名前十的用户,若为公民则为公民代表,若为工作人员则为核心工作人员。
6. 总结
我国数字治理在各个领域不断被推进,在线数字治理平台是一种多主体共在的在线治理模式,其治理经验还有待于在实践中不断摸索和总结。本文利用大数据分析技术对数字治理平台的用户及其交互信息进行分析,提出数字治理网络、公民代表和核心工作人员的概念,定义了参与度指标并给出识别公民代表和核心工作人员的方法。基于包头24 h警局警务中心政民交互数据分析,得到如下启示:
一、数字治理网络是无标度非连通网络,由核心网络和离散的小规模网络群组成,节点度符合幂律分布,具有典型的重尾特征。少数用户具有高影响力和吸引度,通过开启热点话题,吸引其他用户回复讨论,在一定程度上能够主导网络的信息交互。
二、识别数字治理网络中的核心工作人员可以帮助政府部门了解在线工作人员的最大工作负荷和繁忙部门的分布,优化资源分配策略或平台组织结构。根据工作人员参与度动态调整各部门工作人员数量,合理安排工作人员工作,让工作人员能够有更多的时间对群众反映的问题充分了解,再结合自己的工作经验解决问题。同时,将核心工作人员的治理经验及时推广给其他工作人员,提高全员在线治理能力,有效应对和解决不断变化、日益复杂的社会问题。
三、识别数字治理网络中的公民代表可以获得更多的治理资本,为数字治理平台未来实现共同协商奠定群众基础。公民代表与公民联系紧密,了解群众具体情况和数字治理中存在的问题,有参与数字治理的积极性和主动性,有望成为未来的在线精英和民意代表。
线上的公民代表体现在线下就是群众代表。他们可以根据了解的情况向政府反映数字治理在落地过程中存在的问题,将群众具体情况与政府决策联系起来,保证政府与群众的紧密联系,帮助政府进行科学民主决策,提高数字治理效率。政府也可以对群众代表进行回访,主动辨识用户需求,精准量化公民需求,完善数字治理的功能与业务流转,找到数字治理中存在的不足加以改进,提高政务回应能力、治理效率,推进政府社会协调共治。
四、识别数字治理网络中的公民代表,把公民代表的问题进行总结,往往可以解决某一类问题,节省资源成本,在行政资源总量有限的情况下,提升政府回应能力。此外,公民代表的问题被解决后,得到一个满意的体验,也有助于其在现实生活中对数字治理平台进行宣传,让更多的人了解和参与数字治理,提高公民整体参与度。
本文未考虑文本内容和时间对公民代表识别的影响,后续可以在这两个方面进行相关研究。
基金项目
本文系2017年度国家社会科学基金项目“民族地区社会安全服务移动政务采纳研究”(项目编号:17BGL199)研究成果之一。