1. 引言
专利是科学研究中知识产权的重要表现形式,包含丰富的技术信息。专利文本内容包含结构化数据和非结构化数据,这些数据既存于传统的专利数据库,也分布在新兴的科技情报平台。为把握技术发展脉络,提高行业创新水平,急需有效手段梳理、整合、分析这些专利数据。
随着全球对清洁能源、智能电网等领域关注度不断增强,电力行业专利申请量呈现爆发式增长。而以往的研究多是以结构化专利数据为研究对象,缺少对非结构化专利文本数据的研究。本文深入探讨非结构化专利文本数据的特征提取,并在此基础上进行聚类,构建专利簇,对技术演化进行预判。对电力企业而言,通过专利簇的构建及技术演化预判,明确技术布局策略,发现技术的空白点与技术的热点,调配研发资源,加速成果转化,提升竞争力。
2. 理论基础
2.1. 特征提取
特征提取是指从原始数据中识别和提取具有代表性和信息性的特征的过程。这些特征是原始数据的简化表示,保留了数据中最相关的方面。特征提取的主要目的是降维、提高准确度、减少过拟合、提高可解释性并加速处理。通过提取关键特征,算法能够更好地理解数据,减少噪声干扰,从而提高预测的准确性。
2.2. 聚类分析
聚类分析是一种常用的数据挖掘和分析技术,它旨在将一组数据对象划分为多个组或类别,使得同一组内的对象彼此相似,而不同组的对象相异。这种分组是基于数据本身的特性和内在结构进行的,而不是预先定义的类别或标签。在聚类分析中,通常会使用一些算法来自动发现数据中的模式和结构,这些算法会根据数据点之间的距离或相似性度量来将它们分配到不同的簇中。根据所聚成的簇的特点分为层次聚类、网格聚类、密度聚类、模型聚类和划分聚类[1]。层次聚类复杂度很高,耗时久;网格聚类维数灾难,准确率低;密度聚类敏感度低且处理大样本耗时久;模型聚类效率低,无法应对分布多、数据量少的情况;划分聚类对大型数据集处理效率高、时间复杂度低、空间复杂度低,但是聚类效果受初始K值和初始质心设定影响[2]。
3. 基于非结构化专利文本的特征提取
关键词提取是从专利文本中提取出具有代表性的词汇或短语,这些关键词可以反映专利的技术内容、创新点及其所属的技术领域。关键词提取不仅能够简化专利文本,还能够帮助研究人员快速了解专利的核心技术。
TF-IDF是文本挖掘中最常用的关键词提取方法。TF-IDF方法通过计算词频(TF)和逆文档频率(IDF)来评估每个词在文档中的重要性。TF-IDF通过词频(TF)和逆文档频率(IDF)的乘积计算词语的权重。对专利文本而言,TF-IDF值较高的词语通常是该专利的重要技术关键词,可以帮助我们识别专利的创新点。词频是最简单的一种权重计算方式,表示某个关键词在专利文本中出现的频率。结合TF与IDF,通过计算每个词在文档中的重要性值,能够有效地提取出专利文本中的关键词。传统的词袋模型特征提取方法,会造成文本信息丢失和维度灾难的问题[2],结合Word2vec模型用于词向量表示,采用基于词分布状态的改进词向量特征提取算法,对现有文本进行特征提取[3]。
4. 基于非结构化专利文本的专利簇构建
根据以上聚类分析的研究,结合划分聚类对大型数据集处理效率高、时间复杂度低、空间复杂度低的特点,选用划分聚类,并对K-Means (K均值)聚类算法进行优化[4]。K-Means算法简洁高效,适用于电力专利大规模初筛聚类,预设K值(可凭经验或轮廓系数等指标估算),迭代更新中心,将电力专利按发电、输电、变电等分簇,快速勾勒行业技术概貌[5]。
在聚类的基础上,对专利簇的质量进行评价。内部指标有轮廓系数,一种用于评估聚类结果质量的指标。它结合了簇内的紧密度和簇间的分离度,通过为每个数据点计算一个轮廓系数,衡量其与自身簇以及最近邻簇的相似程度。轮廓系数的取值范围为[−1, 1],值越大表示聚类效果越好[6]。外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比[7]。对电力专利分类簇,依电力技术手册、行业标准评估聚类是否贴合实际技术体系划分,确保簇反映真实技术联系与差异,帮助优化聚类参数、算法选型。
5. 技术演化预判
5.1. 技术演化分析的理论
5.1.1. 技术生命周期
生命周期理论是描述一项技术从诞生到消亡整个过程的经典理论,它为企业和研究者提供了理解技术发展趋势、制定战略规划的重要视角,一般包含引入期、成长期、成熟期、衰退期[8]。电力技术依循典型生命周期,引入期如早期太阳能光伏发电,效率低、成本高,专利量少且聚焦基础材料、原理探索,多源于高校科研创新,技术风险大;成长期以风电为例,在政策扶持、市场拓展下,整机制造、风场规划专利激增,技术性能攀升、成本下降,企业加速研发、竞争激烈;成熟期特高压输电技术,标准完备、线路广布,专利增长平缓,重在运维优化、设备延寿,创新边际效益递减;衰退期部分传统火电辅助技术,被新能源替代,专利申请寥寥,仅存工艺微调、小众改造,企业渐撤研发投入。依此可定位电力技术阶段,规划创新策略。
5.1.2. 技术轨道理论
技术轨道理论是指技术遵循的变迁方向,包括发展趋势和发展动力,其外部边界取决于技术范式性质[9],且该性质直接作用于技术的强选择性进化活动,使其沿轨道不断向外延伸、跃迁。技术轨道是某一产业的技术在发展过程中的所有可能方向,是一组解决特定问题的方法集[10]。技术轨道理论对于企业制定技术创新战略、把握技术发展趋势具有重要意义。它揭示了技术发展的路径依赖性和方向性,有助于企业识别技术机会和风险,制定针对性的技术策略。同时,技术轨道理论也强调了技术创新和市场需求、制度环境等因素的互动关系,为企业提供了更加全面的视角来审视技术发展问题。技术轨道理论是理解技术发展规律、制定技术创新战略的重要工具。它揭示了技术发展的路径依赖性和方向性,对于推动技术进步和产业升级具有重要意义。
5.2. 技术演化路径
实验数据选用公司专利数据库导出新型电力系统科技攻关相关的非结构化专利数据1895条,专利实验数据具体情况见图1所示。
Figure 1. Screenshot of unstructured patent data
图1. 非结构化专利数据部分截图
5.2.1. 专利簇的技术演化分析
为研究TopicA、TopicB两个技术簇中技术内容情况,统计了基于词强度的共现词矩阵,区分了核心技术与边缘技术。为了避免数据量大分析耗时长的问题,选取共现强度排序前24的关键词开展技术内容分析,TopicA、TopicB两个技术簇技术内容见表1所示。
Table 1. Content distribution of patent clusters TopicA and TopicB
表1. 专利簇TopicA、TopicB两个技术簇内容分布情况
TopicA技术簇 |
TopicB技术簇 |
装置 |
变压器 |
一种 |
预测 |
电网 |
输电 |
方法 |
分布式 |
电力 |
储能 |
系统 |
模型 |
故障 |
运行 |
控制 |
定位 |
配电网 |
电流 |
用于 |
仿真 |
直流 |
能源 |
检测 |
监控 |
变电站 |
配电 |
数据 |
在线 |
设备 |
电源 |
智能 |
虚拟 |
电缆 |
高压 |
监测 |
综合 |
负荷 |
绝缘 |
优化 |
同步 |
电压 |
功率 |
评估 |
异常 |
线路 |
调度 |
状态 |
分析 |
由表1可知本研究以前章节提出的词强度度量算法选出的关键词作为研究基础,在专利簇的TopicA技术簇中有“装置”“电网”“电力”“故障”“配电网”“直流”“变电站”“设备”“电缆”等技术内容。TopicB技术簇中有“一种”“方法”“系统”“控制”“用于”“检测”“数据”“智能”等技术内容。专利簇中的TopicA、TopicB两个技术簇内所包含的技术内容,排名越靠前即为核心技术、排名靠后则为边缘技术,技术簇的技术分布见图2所示。
Figure 2. Technical content distribution across TopicA and TopicB technology clusters
图2. TopicA、TopicB技术簇的技术内容分布
Figure 3. Patent cluster TopicA technology cluster technical content-time distribution
图3. 专利簇TopicA技术簇技术内容–时间分布
由图2可知,专利簇的TopicA技术簇中,通过对技术内容的细粒度拆解可发现“装置”“电网”“电力”“故障”“配电网”“直流”“变电站”“设备”“电缆”等技术内容为核心技术,而“电流”“能源”“配电”“电源”“高压”“绝缘”“功率”“调度”等技术内容为边缘技术,说明TopicA技术簇中与电网装置等相关技术成为当前研究的热点,与该技术相关专利在该专利簇中申请比重最大,作为边缘技术功率、调度等内容并非当前技术研究热点。TopicB技术簇中,通过对技术内容的细粒度拆解可发现“一种”“方法”“系统”“控制”“用于”“检测”“数据”“智能”等技术内容为核心技术,而“仿真”“监控”“在线”“虚拟”“综合”“同步”“异常”“分析”等技术内容为边缘技术,说明TopicB技术簇中与系统控制的方法等相关技术成为当前研究的热点,与该技术相关专利在该专利簇中申请比重最大,异常、分析等内容并非当前技术研究热点。借助可视化方法增加了技术内容识别角度,不仅可以展示哪些关键词是技术内容,也可以深入挖掘核心技术与边缘技术,辅助判断技术研发热点,协助研发部门快速捕捉核心技术内容[2]。
由TopicA技术内容–时间分布见图3可以清晰了解,TopicA技术簇中“装置”“电网”“电力”“故障”“配电网”“直流”等核心技术在2004~2011年处于引入阶段,与这些技术相关的专利数量较少,大多都是基础性原理专利;2012~2019处于技术发展阶段,专利分布范围逐步扩大;2020~2024核心技术发展处于成熟时期。“变电站”“设备”“电缆”“负荷”“电压”“线路”等技术发展阶段大致相同,2004年~2019年处于技术的引入和发展阶段,与之相关的专利数量猛增与技术相关的专利逐步扩大,于2020~2024处于成熟时期,社会各界对该技术加大投入[2]。
Figure 4. Patent cluster TopicB technology cluster technical content-time distribution
图4. 专利簇TopicB技术簇技术内容–时间分布
由TopicB技术内容–时间分布见图4可以清晰了解,TopicB技术簇中“一种”“方法”“系统”“控制”“用于”“检测”“数据”“智能”“监测”“优化”“评估”“状态”等技术内容从2004年~2015年呈现出技术发展阶段,主要表现在相关技术专利的申请量大幅增加,其中“方法”“系统”相关技术的研究成为热门。2016年“一种”“方法”“系统”等技术处于冷静期,技术研究热度下降主要表现在相关专利的申请量下跌。2017~2021年“控制”“用于”“检测”“数据”“智能”“监测”“优化”“评估”“状态”等技术进入成熟阶段,主要表现为与技术相关的专利申请量达到最大,随后相关技术专利申请逐步下降[2]。
专利簇内包含两个技术簇,每个技术簇均有各自的重点技术内容和边缘化技术内容,从技术内容、技术时序两个维度分析,将专利文本的技术从内容细粒度分析技术的发展变化过程。
5.2.2. 结果有效性讨论
专利簇中的专利文本数据共计1895条,其中TopicA技术簇含881条专利文本数据,据统计TopicA技术簇含IPC前四位H02J有221条专利文本,G01R有146条专利文本,查询H02J技术内容为“供电或配电的电路装置或系统;电能存储系统”,G01R技术内容为“测量电变量;测量磁变量”,与本研究模型分析的“装置”“电网”“电力”“故障”“配电网”“直流”“变电站”“设备”“电缆”等技术内容相符。
专利簇的TopicB技术簇含1015条专利文本数据。H02J有278条,技术内容为“供电或配电的电路装置或系统;电能存储系统”,与本研究模型得出的“一种”“方法”“系统”“控制”“用于”“检测”“数据”“智能”“监测”“优化”“评估”“状态”等技术内容相一致。
充分说明本研究提出的基于非结构化专利文本数据的技术分析模型,特征提取算法对专利文本进行表征后保留了完备的特征信息,聚类效果符合实际情况。
6. 总结与展望
6.1. 研究成果在电力行业中的应用场景
企业借助专利簇洞察内部技术分布,识别优势领域与薄弱环节,调配研发资源强化技术短板。依据技术演化预判,提前立项、产学研合作攻克关键技术,调整产品线,提升创新效能、降低盲目研发风险,增强市场竞争力。
分析竞争对手专利簇,掌握其技术侧重,比对自身找出差距。结合演化趋势,预估对手创新走向,帮助企业在技术并购、合作谈判中精准评估目标价值,并助力企业构建战略联盟,以此整合专利资源,突破技术瓶颈。
6.2. 研究局限性与未来展望
研究局限在于,非结构化数据处理依赖算法,NLP对电力复杂语义理解偶有偏差,聚类演化模型参数调优耗时、普适性待升。未来需优化算法适配电力企业专利文本,引入多模态数据,丰富分析维度,构建跨领域协同分析框架。
本研究立足电力行业非结构化专利文本,系统梳理了理论技术,剖析行业专利,构建了专利簇,明晰了专利技术布局。在理论上完善电力专利分析模式,实践中能助力企业创新决策、竞争分析,在行业层面为政策制定、产学研协同创新提供支撑。