1. 引言
当前,全球正处于新一轮科技革命和产业变革之中,以大数据、云计算、区块链、人工智能等为代表的数字技术的快速创新和应用,正在深刻地塑造着社会经济格局,使得数字经济这一新兴经济形态异军突起,并愈发成为推动全球经济社会发展的重要引擎[1]。
2. 文献梳理
2.1. 数字经济的概念
“数字经济”这一概念最早由唐·泰普斯科特在1995年出版的《数字经济:网络智能时代的希望和危险》一书中提出。唐·泰普斯科特认为,网络智能时代的经济就是数字经济,信息的呈现和传输都以0和1这两个数字来实现[2]。本文借用中国信息通信研究院在《中国数字经济发展与就业白皮书(2019)》中对数字经济的定义,即“数字经济是以数字化的知识和信息为关键生产要素,以数字技术创新为核心驱动力,以现代信息网络为重要载体,通过新一代信息技术与实体经济深度融合,不断提高传统产业数字化、网络化、智能化水平,加速重构经济发展与政府治理模式的新型经济形态”[3]。
2.2. 数字经济人才培养
国内外学者都对数字经济人才进行了研究。在数字经济人才培养方面,Isabel Cardenas-Navia和Brian K Fitzgerald认为,为了获得数字化人才,企业和组织需要并行的战略:一方面,开发与之匹配的人才生态系统,以大规模地为毕业生配备数字技能,并为所有在职员工提供新的培训和技能提升战略。另一方面,企业需要加强与高校之间的战略合作,使高校迅速响应企业对数字技能的需求,培养具有应用能力的数字化人才[4]。吴禀雅认为,数字经济人才的培育应从政府、企业、高校三个层面着手。政府应在政策、财政、基础教育设施等层面加强力度,不断完善教育培训体系,提供更多更好的培养机会和途径。企业应注重为数字经济人才提供充足支撑资源和持续发展措施,营造积极宽松的氛围,鼓励人才的提升[5]。Haluk Demirkan及James C. Spohre二人认为组织应该培养T型人才,这样的人既具有多学科、多功能、多文化背景和广博的知识、技能和经验,又具备某一领域的深入解决问题的能力。
2.3. 小结
结合以上学者的观点,本文认为对于旅游业数字经济人才的培养,企业和高校应协同发力,加强合作,培养符合行业需求的数字经济人才。在技能培养方面不仅仅是对数字化技能的培养,还涉及到服务和客户管理等传统服务技能的培养,加强对复合型人才的培养。
3. 长三角地区旅游业数字经济人才需求与岗位能力模型
3.1. 招聘信息数据的获取
为了确保研究的全面性与普遍性,我们先针对长三角地区多个行业数字经济岗位招聘信息进行了搜集,具体分析旅游业数字经济人才需求与其他行业人才需求的异同。在招聘信息搜集的过程中,主要通过爬虫技术收集实习僧和Boss直聘这两个网站上的岗位信息,再根据关键词筛选与“数字经济”相关的岗位招聘信息,最后将招聘信息结构化,如图1所示。
Figure 1. Partial view of the structured information crawled and organized by the spider
图1. 爬虫爬取并整理好的结构化信息部分视图
3.2. 招聘信息数据的预处理
3.2.1. 基于关键词的文本筛选
根据数字经济人才的定义以及招聘信息的搜集,我们设置以下关键词(图2)来筛选出数字经济相关岗位。这些关键词涵盖了数字经济的核心要素,如数据处理、技术创新、通信技术等。
Figure 2. Word cloud chart of keywords used for screening positions related to “Digital Economy”
图2. 用于筛选“数字经济”相关岗位的关键词词云图
由于机器判别缺乏对模糊概念的主观评判能力。因此,我们设计了一种基于关键词匹配度得分的“数字经济”相关岗位人才招聘信息筛选方法,该算法的思路为:为每个招聘信息构造一个匹配度得分,若匹配度得分不为零但低于某个阈值,则输出给人工确认。该算法的伪代码描述如表1所示:
Table 1. Pseudo-code for screening information of talents for “Digital Economy” positions
表1. 筛选“数字经济”岗位人才信息的伪代码
Algorithm 1:基于关键词匹配得分的“数字经济”人才招聘信息筛选方法 |
|
Input:招聘信息文本数据集D,关键词K,筛选阈值t; |
|
Output:数据集中“数字经济人才”相关岗位的子集De |
1 |
创建一个得分数组S,由于储存每条招聘信息的匹配度得分; |
2 |
for 每条招聘信息岗位描述文本d∈D do |
3 |
S’[d]←0; |
4 |
De←{}; |
5 |
for关键词集合中的每个关键词k∈K do |
6 |
//下面的步骤采用字符串匹配方法; |
7 |
if k 可以在d的字符串中匹配到then |
8 |
S[d]←S[d]+1; |
9 |
end |
10 |
if S[d]=t then |
11 |
将d输入人工确认; |
12 |
if人工通过then |
13 |
De←De∪{d} |
14 |
end |
15 |
end |
16 |
Else if S[d]>t then |
17 |
De←De∪{d}; |
18 |
end |
19 |
end |
20 |
end |
21 |
Return De; |
3.2.2. 招聘信息文本的分词与清洗
由于招聘岗位能力要求的数据形式为文本,不利于数据分析,本文采用Python的开源中文文本分词工具结巴(jieba)进行分词。此外,为保证数据分析的精确性,我们通过构造集合的方式去除停用词,将停用词用集合数据结构存储,对于每个招聘信息,将其转化为词组成的集合,并与停用词集合取交集。
3.2.3. 行业划分标注
根据网页上提取的信息,可将搜集到的招聘信息数据归纳为“互联网”、“制造业”等多个行业。具体地,从每个招聘信息对应的HTML文件中解析出其对应的行业标签,并对行业标签进行预处理,如“互联网行业”修改为“互联网”,最终归纳出若干个行业。
3.3. 基于TF-IDF算法的各行业数字经济人才需求画像建模
TF-IDF算法是一种用于信息检索和文本挖掘的常用加权技术。它通过对一个词在文档中的词频(TF)和在整个语料库中的文档频率(IDF)进行统计,计算出一个词的权重。TF-IDF能够评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。在文本处理中,TF-IDF常被用于提取关键词、文档分类和文本相似度计算等任务。本文中,将每条招聘信息看作一个文档,文档总数即为招聘信息的总数。采用TF-IDF算法筛选出招聘信息能力要求的关键词,具体地,首先计算每个词的TF-IDF数值,再筛选出前200个TF-IDF最高的词,根据TF-IDF值权重绘制词云图,如图3所示。
Figure 3. Word cloud diagram of keywords in job information of different industries (Based on TF-IDF algorithm)
图3. 不同行业招聘信息的关键词词云图(基于TF-IDF算法)
由于TF-IDF从词频和逆文档频率两个方面表示了词的重要性,因此基于TF-IDF算法提取出的关键词可以作为各个岗位能力要求的关键词,即为对具有哪种能力的人才需求画像,见表2。
Table 2. Portrait of talent demand in different industries
表2. 不同行业人才需求画像
行业类别 |
核心能力需求 |
附加能力需求 |
教培行业 |
数据分析、项目管理、市场营销 |
解决方案提供、客户关系管理 |
语言表达、逻辑思维 |
业务流程优化、Excel技能 |
制造业 |
数据分析、产品开发、项目管理、
机械设计、市场营销 |
结构设计、战略规划、业务流程、 Excel数据处理、技术问题解决 |
旅游业 |
数据分析、市场营销、客户关系、
服务质量、应变能力 |
语言表达、问题解决、Excel技能、
营销策划 |
服务业 |
数据分析、管理工作、市场营销、
客户服务、语言表达 |
积极主动、业务流程、Excel技能、
解决方案提供 |
医疗健康 |
数据分析、医疗器械操作、项目管理、 质量标准、逻辑思维 |
组织协调、原始记录管理、问题解决、 市场趋势分析 |
零食与贸易行业 |
数据分析、产品开发、市场营销、
广告投放、统计分析 |
部门管理、市场调研、业务流程、
Excel技能 |
行业类别 |
核心能力需求 |
附加能力需求 |
房地产与建筑 |
数据分析、项目管理、市场调研、 战略规划、表达能力 |
业务流程、Excel技能、及时发现问题、
上级领导沟通 |
互联网行业 |
数据分析、产品开发、项目管理、 市场营销、SaaS应用 |
业务逻辑思维、产品设计、客户关系、 合作伙伴管理、人工智能应用 |
3.4. 基于Doc2Vec-KMeans的旅游业数字经济人才能力模型
3.4.1. 基于Doc2Vec的招聘信息文本向量化
Doc2Vec模型是一种自然语言处理(NLP)中的文本表示学习技术,于2014年提出,作为Word2Vec模型的扩展。Word2Vec主要用于学习单个词汇的向量表示,而Doc2Vec则专注于将整个文档转换为固定长度的向量。这种模型通过训练一个浅层神经网络,能够捕捉文档的上下文信息,从而生成文档的向量表示。在Doc2Vec模型中,文档被视为一系列单词的集合,每个单词首先通过Word2Vec或其他词嵌入模型转换为向量,然后这些向量通过特定的函数(如平均或加权平均)组合成文档的向量表示。这样,相似主题或内容的文档在向量空间中会彼此接近,而内容差异较大的文档则相距较远。两种Word2Vec模型的网络架构如下图4所示:
Figure 4. Two different Word2Vec models (image source: intelligent computer and application, 2023)
图4. 两种不同的Word2Vec模型(图片来源:智能计算机与应用,2023)
由于Doc2Vec模型能够很好地对文本的语义进行编码,因此我们使用Doc2Vec对各个岗位的招聘信息文本进行向量化。
3.4.2. 基于多元尺度变换(MDS)的高维向量可视化
多维尺度变换(Multidimensional Scaling,简称MDS)是一种用于探索和可视化高维数据结构的统计技术。MDS的目标是在低维空间中重建原始数据的距离或相似性,以便在保持数据点之间相对位置关系的同时,将数据降维。MDS通过计算数据点之间的距离矩阵,然后使用各种算法(如梯度下降、迭代优化等)。
来寻找一个低维空间的坐标表示,使得在这个新空间中,数据点之间的距离尽可能接近原始高维空间中的距离。
由于基于Doc2Vec模型降维得到的向量之间,欧氏距离可以作为语义相似度的度量,而MDS算法的优化目标为保持相似度度量变化最小,因此MDS算法最适合作为Doc2Vec语义向量的降维算法(表3)。
Table 3. Pseudocode of MDS algorithm
表3. MDS算法的伪代码
Algorithm 4:多维尺度的变换(MDS)降维算法 |
|
Input:数据集D,降维目标维度k |
|
Output:降维后的数据集D′ |
1 |
计算数据集D中所有点对之间的距离矩阵Dij |
2 |
选择MDS算法(如经典MDS、非度量MDS等); |
3 |
使用所选算法对距离矩阵Dij进行优化,以找到低维空间中的坐标表示; |
4 |
将优化得到的坐标映射到新的空间,得到降维后的数据集D′; |
5 |
return D′ |
下表展示了将文本映射到高维空间,再使用MDS算法降维到低维空间后的散点图(图5)。
图5表示了全行业招聘信息的文本向量散点图和不同行业招聘信息的文本向量散点图。图中散点的分布情况表示了对应行业的能力要求。
Figure 5. Visualization of recruitment information texts by MDS algorithm
图5. MDS算法的招聘信息文本可视化
3.4.3. 基于KMeans的旅游业招聘岗位聚类分析
KMeans算法是一种经典的聚类分析方法,这种算法特别适用于大规模数据集的聚类任务,因为它的计算效率较高,且易于实现。
Table 4. Pseudo-code of KMeans Algorithm
表4. KMeans算法的伪代码
Algorithm 5:KMeans聚类算法 |
|
Input:数据集D,聚类数量k |
|
Output:聚类中心C和对应的聚类分配 |
1 |
初始化聚类中心C; |
2 |
while迭代未达到最大次数或聚类中心不再显著变化do |
3 |
根据当前聚类中心C,将每个数据点分配到最近的聚类中心; |
4 |
更新聚类中心C为每个聚类中所有点的均值’; |
5 |
end |
6 |
return聚类中心C和对应的聚类分配 |
其中,聚类簇数k是KMeans算法的超参数,通常采用肘方法选择该参数。在对Doc2Vec计算出的招聘信息向量进行聚类时,KMeans可以帮助我们发现招聘信息之间的潜在结构,例如,相似的职位描述可能会聚集在一起,从而揭示出招聘市场的趋势和模式,见表4。
Figure 6. Clustering analysis of digital economy positions in the tourism industry based on Doc2Vec-KMeans
图6. 基于Doc2Vec-KMeans的旅游业数字经济岗位的聚类分析
根据肘方法的图示(图6)可知,当k = 3时模型的离差平方和下降程度最快,说明k = 3是最佳聚类簇数。
招聘信息是岗位对人才的要求,因此招聘信息中所描述的能力可以反映出人才能力模型,KMeans聚类结果不仅仅是对岗位信息的聚类,更是对人才能力即,根据Doc2Vec-KMeans模型,可将旅游业需求的数字经济岗位人才分为三类人才(图7)。
Figure 7. Clustering results of digital economy position talents in tourism industry based on KMeans algorithm
图7. 基于KMeans算法的旅游业数字经济岗位人才聚类结果
第一类人才强调管理工作、吃苦耐劳、服务意识和接待能力,这表明旅游业在寻找能够提供优质客户服务、具备良好组织能力和应对突发事件能力的人才。运营型人才(如酒店管理、景区运营)的数字化能力培养应聚焦客户数据分析和智能化服务系统操作。建议旅游企业与高职院校合作,开设“智慧旅游服务管理”课程,结合OTA (在线旅游平台)实操训练,提升一线员工的数字化工具应用能力(如CRM系统、实时客流分析工具)。
第二类人才则侧重于客户关系管理、产品策划和形象气质,这显示旅游业对于能够提升客户体验、设计吸引人的旅游产品和服务的人才有较高需求。市场型人才(如旅游产品策划、品牌推广)需要强化用户行为分析和新媒体营销能力。可引入“数据驱动营销”案例教学,培训短视频运营、精准广告投放(如抖音、小红书)及A/B测试等技能,并结合本地文化IP开发沉浸式文旅体验项目。
第三类人才则要求具备数据分析、市场营销、逻辑思维和解决方案提供能力,这表明旅游业在数字化转型中,需要能够利用数据分析来优化营销策略和提升业务效率的人才。技术型人才(如旅游大数据分析师)的培养需对接企业实际需求,以Python数据处理和旅游行业BI工具(如Tableau、阿里云数据中台)为核心课程模块,联合科技公司开设“旅游数据实验室”,让学生参与真实项目(如游客画像建模、景区热力图分析)。
4. 结语
在招聘信息分析部分,我们对长三角地区数字经济人才需求进行了搜集与分析,分析结果显示,旅游业数字经济人才在核心能力上侧重服务质量与应变能力,在附加能力方面强调语言表达以及营销策划技能;通过KMeans聚类分析,我们发现对于旅游业数字经济人才的培养,是综合能力的培养,需要将数字化技能与传统的服务管理技能相结合。这些分析结果也为后续对长三角地区高校及旅游企业数字经济人才培养方式的调研与分析提供依据,使问卷设计更具针对性与科学性。