1. 引言
为了贯彻落实吉林省国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议中提出的“协同推进科技创新和产业创新,加快构建现代产业技术体系。推动特色优势产业与大数据深度融合发展”。针对产业创新发展要求更加智能化的资源数据交互,传统的文献服务模式难以满足产业创新发展对大数据服务需求 [1] 。由于知识服务能够提供高质量、专业化的智慧决策,采用人工智能技术和深度分析工具,有效扩充产业创新发展中知识创新应用服务成效。以先进技术推进产业升级转型,以智能平台促进产业服务发展,激发科技创新活力 [2] 。全面部署平台,在文献、标准、专利、人才、项目等科技创新要素进行整合,实现对科技资源服务的协同化、知识化和智慧化,建立特色产业创新科技资源服务智库 [3] 。
在国家战略背景下,科技资源的服务技术、服务手段均需提升,科技服务的业务内容也需全面融合,实现线上线下的服务有机结合,应构建以科技服务用户、产业创新发展的需求为核心的科技资源整合及产业创新服务平台,才能满足目前的市场需求 [4] 。平台在系统建设和应用服务方面取得了很好的成绩,如建设了统计数据、文献资源、政策数据等系统,最大化地为企业科技资源支撑。本文在充分调查产业创新发展需求、信息诉求、知识服务的基础上,针对目前平台应用现状,以资源融合为基础,以科技创新为动力、促进产业发展为需求导向,采用元数据仓储、异构数据整合、大数据分析和可视化技术,以战略新兴产业、特色产业为主导,建立了产业专题知识库。平台目前整合国内外科技文献,涵盖期刊、论文、成果、标准、专利、政策法规等海量信息资源,以及科技统计、科技咨询、政策法规等自有数据,涵盖省重点发展产业子平台及分平台。
笔者提出了基于知识发现的产业创新科技资源服务体系研究,以产业创新发展的大数据融合应用实践,在关键技术方面,提升资源数据的整合与应用能力,实现资源的深度挖掘与分析;在服务应用方面,以科技资源为基础,搭建产业关键技术的知识服务网络体系;在功能设计方面构建“知识化”的产业创新科技资源服务。因此,本文有利于推动科技进步,建设智慧科技的需要;服务于创新主体,促进自主创新的需要;促进科技资源共享,提高科技资源高效利用的需要;加快产业创新发展,提高资源数据的架构、质量和应用的需要。
2. 科技资源服务需求与功能分析
2.1. 需求分析
为了打通创新主体获得信息资源和知识服务模式,从而解决资源数据不全不通、创新能力不足不强、技术和产品创新薄弱等问题 [5] 。因此,以大数据技术为基础,协同和整合科技资源,建立基于知识发现的科技资源服务体系,实现科技资源整合、系统集成和智慧服务,为政府、企业、高等院校、科研机构等创新主体提供优质、高效的知识服务,也是促进科技创新的有力保障,更是全面提升科技创新生态的需要。针对科技资源服务现状及产业创新科技资源平台的建设需求,分别从科技资源的用户和管理人员角度提出资源服务的需求,具体如下:
1) 从资源用户角度,a) 资源分散、异构,外部数据、自建数据、特色数据都存在多维、异构,无法满足资源和数据的整合;b) 用户使用方面既不能统一登录也不能外网登录,降低了平台使用效率;c) 智能化检索服务方面,不能实现外部数据、自建数据、特色数据的统一跨库检索服务;d) 缺乏基于用户偏好、行为的大数据资源的精准推送服务;e) 缺少个性化的定制服务,包括文献收藏、专题订阅、个人空间等服务;f) 缺少智能化的科技资源可视化分析功能,包括科技资源的类型、数据量统计、主题聚类、共现词频、引用频次等在线动态监测与分析功能。
2) 从资源管理人员角度,a) 平台用户的集成管理,建立按机构、机构类型、关注领域等用户信息库,实现后台统计用户群体、活跃用户、挖掘潜在用户等。b) 智慧化的资源集成管理,形成所有数据的统一入库、统一登录,统计数据库的访问量、浏览量、下载量,实时监测与分析所有资源库的使用情况。c) 用户行为统计管理,形成用户浏览、检索、下载等相关行为数据集,根据用户的个人偏好和关注的领域进行文献精准推送服务。d) 资源库的数据量统计管理,根据不同数据库及数据类型进行累计数据存储量和增量,形成可视化展示,从数据存储量、下载量、访问量、活跃用户、按时间访问等角度进行可视化展示,利于监测资源的整体运行效果。
为了完善和提升平台所提供的服务能有效地满足科技创新和资源保障的需求,通过对科技创新发展、用户需求层次、产业创新发展等进行需求分析的基础上,平台建立了基于基础资源服务、科技管理服务、产业创新发展、个性化服务4种场景的知识服务模式,针对4类不同应用场景的资源需求,提供不同的资源知识服务方式,具体如下:
1) 基础资源服务模式,主要面向社会公众的基础文献资源保障需求,满足广大用户的文献信息需求,提供图书、论文、专利、标准等公共信息服务。服务内容主要包括文献信息资源、文献检索、图谱检索、信息咨询等。用户可以在线自助进行所需要资源和数据服务,对平台资源的全面性和广泛性要求较高。
2) 机构知识服务模式,主要面向机构内部的知识服务,集成机构内部的科研人员、科研团队以及相关学术成果等资源和数据聚合,进行机构内部的成果和资源的统计与分析,了解整体机构内部的科研水平和现状。
3) 产业创新发展服务模式,主要面向战略新兴产业的创新发展提供科技资源,集成各类学科、行业领域的信息和服务,提供一站式便捷知识服务,包括知识导航功能、学科或产业的政策规划、文献资源、动态监测、前沿技术分析、专题特色数据库和成果库建设、科技成果转化等 [6] 。主要面向产业创新发展的活动主体,如科研机构、企业、专业人员等,打造一流的高效的产业科技创新智慧化服务。
4) 个性化服务模式,针对高层次需求用户提供专业的、个性化的数据资源服务。主要服务内容包括资源的精准推送、文献收藏、定题服务、科技咨询等服务,针对特殊性和专业性用户的需求提供专业化的资源服务、情报服务、专利服务等。
2.2. 功能分析
根据产业创新发展的资源服务需求和服务模式,提出以下功能设计。
1) 构建科技资源池,实现多源多维科技资源的跨库检索和智慧发现功能。整合多类型资源内容,包括文献资源、科研成果、科研项目、专利标准等数据资源,基于目前的科技资源的共建、共享、共用现状,针对分散/异构/异种科技资源,通过建设科技大数据资源池,实现科技信息资源、科技数据资源和科技业务服务的智能连接、快速匹配的有效结合。
2) 构建特色产业专题数据库,服务于产业技术创新及模式创新。在科技资源整合发现的基础上,基于目前的整合资源内容,搭建特色行业服务专题库知识系统,实现对行业热点、技术研发、专家人才、企业情报、专利分析内容的推送及精准化科技情报服务,服务企业研发、机构决策发展方面的创新工作。
3) 整合科技服务工作,实现“互联网+”产业创新科技服务功能。整合科情业务工作包括科技咨询、科研成果管理、项目等内容,实现多终端的科技“互联网+”服务,构建具有精准性的“一站式”产业创新服务平台。
4) 建设科技资源数字化展示,实现对产业创新科技资源可视化分析。通过整合机构自建数据、专家数据、科技统计数据等,可视化展示科技资源分布及互相关系,通过量化指标分析评价科技进步水平及创新力水平,多维度多角度地实现对未来趋势分析及判断,帮助科技决策。
5) 建立支撑多终端的平台应用,实现多方式多途径的产业创新访问控制服务。平台多终端展示功能,包括手机APP、微信公众号的终端使用,实现对资源检索、文献阅读、业务预约等应用,实现直接快捷的创新服务应用。
3. 基于知识发现的产业创新科技资源服务体系研究
3.1. 服务体系
为了加强科技资源的服务能力,本文提出基于知识发现的科技资源服务体系,建立从上而下指导,从下而上推进,形成一个多层次、多维度、多视角的科技资源服务体系框架,主要包括支撑层、知识数据源、知识挖掘与分析层、知识应用层、用户层共五层(见图1)。
1) 支撑层。提供平台的软、硬件运维环境以及网络、容灾备份和安全管理系统等。
2) 知识数据源。针对海量的、分散多源、异地异构和外部数据、自有数据和特色数据等资源,难以统一调取、协同和融合管理与应用,从而导致没有一个稳定的、抗源变化的数据层,采用数据治理技术,通过知识获取、预处理,形成知识本体进行知识存储。
3) 知识挖掘与分析层。针对存在部分关键业务科技资源数据缺失,源系统数据校验不统一,操作随意,难以统一、动态地监测与管理数据集的质量。利用知识数据源数据,结合先进技术和研究方法,进行知识有序化、表示、融合,建立知识组织体系,支撑知识应用。
4) 知识应用层。针对存在缺少统一的应用标准、重复投入、数据不一致、指标设计标准不一致,从而导致科技资源数据难以共享、利用和管理。建立知识图谱、可视化、分析进行展示,提供元数据仓储、异构数据集成、资源动态监测、智能检索、可视化分析、精准推送等功能 [7] 。
5) 用户层。为不同用户提供不同的个性化服务,实现对用户的个性化、精准化知识推送服务,同时包括各类数据分析功能等。在此基础上实现对政府的决策支持,企业的创新需求的满足,提供专业高效的科技服务。

Figure 1. Design of industrial innovation science and technology resources service system based on Knowledge Discovery
图1. 基于知识发现的产业创新科技资源服务体系设计
3.2. 技术难点
为了实现基于知识发现的产业创新科技资源服务体系,面临以下主要技术难点。
1) 数据治理难。由于科技资源来源广泛,涉及业务系统的所有数据,包括结构化、半结构化和非结构化等资源。机构内部数据分散,资源管理系统的异地异构,纸质的资源碎片化、无电子化;资源数据规范化弱、无分级分类管理 [8] 。通过数据治理将分散、多源异构的各类数据变成规范化、电子化,进行资源信息整合,实现信息共建共享。
2) 平台架构先进性差。只有建立先进性、科学性和合理性的平台架构,应用先进的架构技术对系统架构、软件功能架构、数据架构、数据分析架构进行梳理和分析,致力于构建具有稳定性、高效性、可扩展性的平台。
3) 数据、管理及技术标准规范性低。数据标准主要涉及数据整合、交换接口、接口规范、环境配置规范、数据库建设、数据整合等规范;技术标准主要涉及数据元、数据元代码集和信息实体等;管理标准主要涉及平台的运行维护、安全保障、数据安全、数据共享交换等管理规范。为了实现互联互通、业务协同、信息共享、安全可靠运行,平台的数据及技术需要进行标准化建设。
4) 智能分析能力弱。借助大数据分析技术、自然语言处理技术,建立数据智慧化服务,主要包括数据模型建立、分析模型编辑、数据统计、数据对比等模块 [9] 。将数据资源进行统一清洗、转换、集成,进一步借助机器学习和自然语言处理技术建立数据模型,形成平台的智慧化服务。
3.3. 关键技术
根据平台服务体系和技术难点,采取以下关键技术来解决实际问题。
1) 元数据仓储技术。通过对外部数据、自有数据、特色数据等科技资源进行规范整理、整合,将异地异构、分散海量的信息资源重新组织,有目的地进行科技资源的数据收集、整理、加工和分析,形成无重复、且有序的元数据仓储,将分散异构海量的数据资源进行统一数据治理,形成一个有序数据集 [10] ,从而达到有序展示、有序关联。为平台的用户提供简单、快捷的数字资源及智能检索服务(见图2)。

Figure 2. Metadata warehousing technology
图2. 元数据仓储技术
2) 异构数据整合技术。平台拥有众多的文献、专利、行业、产业、图书等基础数据,由于分散的科技资源不利于知识信息资源的配置,也加大了知识信息获取的难度和知识流动障碍,平台的建设将基础数据资源进行清洗整合,构建科技资源数据的共建共享机制,并且改变原有的数据传统的被动获取方式,对基础数据进行深入关联和挖掘,提高知识的获取和流动能力。通过对业务系统、自有数据、外部数据等数据源,进行多源异构元数据入库,建立数据标引,同时对数据质量进行检验,避免数据重复、字段缺失等,数据清洗之后,数据按指标进行入库,对数据进行分类,建立数据规范化、数据标准化、数据指标化的应用数据库,将可视化与标准数据相关联,实现碎片化数据规范化分类入库,形成支持知识服务的应用型数据库(见图3)。

Figure 3. Heterogeneous data integration technology
图3. 异构数据整合技术
3) 大数据分析技术。通过大数据分析技术和自然语言处理技术,对资源进行知识发现,挖掘分析出知识脉络、产业创新点、资源发现、智能检索、知识关联、多维导航、多维展示等,形成高效高质的资源数据标准规范 [11] 。通过对用户行为和特定产业的大数据整理、挖掘、分析,形成精准信息内容推送和推送规则,使用户在使用平台时能够无缝融入精准推送服务中。可根据用户行为的大数据分析,构建用户模型,支持用户自定义内容,并定期推送关注领域进行文献数据动态监测及热点文献推送,各产业资源定期更新,实现研究热点及方向主动推送(见图4)。

Figure 4. Big data analysis technology for accurate push of resources
图4. 资源精准推送的大数据分析技术
4) 可视化分析技术。科技资源的知识发现服务离不开可视化技术,用户通过一站式资源检索,通过可视化技术可以快速建立检索数据集的资源关联、多维图表、知识图谱等呈现形式,实现产业创新资源的知识发现可视化服务。资源知识发现服务的可视化流程,首先根据用户的检索数据集,采用可视化接口建立数据关联、数据挖掘、二次分析等方法,应用图像处理技术、虚拟技术等建立可视化元素,在web端进行可视化展示(见图5)。

Figure 5. Visual analysis technology of resource knowledge discovery
图5. 资源知识发现可视化分析技术
4. 基于知识发现的产业创新科技资源服务应用研究
4.1. 科技资源元数据仓储研究
为了实现平台知识数据源开展科技资源元数据仓储应用研究 [12] ,主要功能体现在:
1) 科技资源集成管理,整合、管理各类科技资源元数据,通过大数据处理技术,实现外部资源、自有资源、特色资源等所有数据库的精细化管理,粒度细化到篇级;数据类型覆盖中外文的期刊、论文、图书、专利、标准、产品样本、科技报告等科技资源,实现平台统一的集中管理所有的全部资源元数据,实现科技资源的后台统一管理和控制。
2) 科技资源多维关联与知识组织,在资源元数据仓储基础上,按数据来源、数据类型、学科分类等多维导航,形成科技资源的知识组织查看与分析;通过元数据目录,提供用户检索结果分析,包括按标题、作者、年份、学科等可视化展示,以及哪些资源是独有元数据或重复的元数据;通过可视化图表形式直观展示各种维度的科技资源元数据的存储量、使用量、下载量以及活跃度。
3) 科技资源使用权限灵活管理,根据科技资源的权限和使用范围,灵活控制资源数据库的使用权限,主要包括登录、检索、下载、查看和下载等使用权限,形成不同需求不同用户群体的差异化资源服务权限,从而保障数据的安全性和使用的合法性。
4.2. 科技资源精准推送服务研究
为了实现平台不同需求不同用户不同应用场景,科技资源精准推送服务主要依托大数据分析技术,从资源使用日志统计、用户活跃度统计、用户关注度分析等角度,通过机器学习建立数据挖掘模型,根据用户行业和资源使用数据进行精准推送服务 [13] ,主要功能体现在:
1) 资源使用日志统计分析。首先对用户的资源使用进行统一存储和记录,并且同时记录用户的身份信息,基于硬件识别技术,即使用户没有登录账号,也会主动地识别身份。日志通过与资源,用户身份信息的结合,为全面的展示各项服务的统计分析。
2) 用户活跃度统计分析。对用户登录时间以及使用频次的分析,为展示用户活跃度的数据。可以清晰地看到哪类用户经常使用,哪类用户较长时间没有来访。有了这些分析数据,可以根据具体的情况调整服务内容,通过交互等方式,重新吸引用户。
3) 用户关注度分析与内容推送。根据平台用户的行为记录,进行挖掘用户的关注方向。平台目前的分析粒度到达个体,可以针对单个用户的行为进行详细的分析。该项分析并不需要用户每次必须登录,平台能够基于硬件的识别技术,来定位用户的身份。
4.3. 科技资源可视化分析
为了实现平台的前台资源展示和后台资源统计的可视化分析,主要功能体现在:
1) 统计分析。通过信息可视化技术对数据信息进行提取与分析,探究数据之间的关联关系和发展趋势。对科技相关数据资源进行地图查询、在线可视化分析及报表导出,并实现科技分析报告的在线分析、撰写及生成的综合数据分析平台,可按地区、指标、年份等设定统计图样式并生成统计图表,也可生成统计数据表格和二维统计图,生成统计图 [14] 。
2) 聚类分析。使用数据挖掘中的聚类、关联分析得出分析结果,然后从可视化结果中可以分析出很多有用的信息 [15] 。通过聚类分析方法,达到对科技资源的作者、机构、主题等进行深层次、多角度、微观的探索。通过计算同类主题关联度以及元素与元素之间的关联性,达到详细地分析科学研究的发展脉络、历程进程、技术创新等。
3) 共现分析。根据共现分析原理,把目标文献(一般选取某一行业)中的关键词抽取、整理,规范存入数据库中。统计关键词两两之间在文献中共同出现的次数。用图展示出来,可以分析词与词之间的关联关系 [16] 。也可以输入某一关键词,查询与此关键词相关的词有哪些。同样,对文献中的作者字段进行抽取、整理及可视化,可以对科学家之间的科研合作关系进行分析。也可以很容易找出经常与某一研究人员合作的人有哪些,他们的关系密切程度如何。
4) 引用分析。根据引用分析原理,把目标文献中的作者及参考文献的作者进行抽取、整理,建立对应的引文数据库,用图展示出来他们的引用关系,引用者到被引者用有向箭头来表示 [17] 。通过对作者引用关系关联图的分析,可以知道该行业内主要的研究人员有哪些,行业中处于核心地位的研究人员有哪些。
5. 系统应用实践
平台目前整合外部数据、自有数据、特色数据进行异构整合,通过数据接口,实现一站式、分类、多字段进行跨库检索。对产业创新科技文献进行聚类导航,按时间、数据类型等多角度统计分析,形成聚类统计分析。推送产业相关政策、报告、文献、专利、标准、学者等数据。建立智慧化的后台资源管理系统,包括资源集成、资源统计、用户统计等功能;基于智能检索的元数据仓储建立,将多源异构数据进行统一采集、加工、整合,形成元数据题录数据,提供平台的一站式数据检索。以生物医药专题知识库为例(见图6),提供了生物医药的三级知识导航服务,根据产业的知识导航提供了制药研发、器械制造、医药材料和重点领域的知识服务功能,实现了通过检索词生成文献图谱检索功能,展示数据关系,挖掘数据价值,将复杂数据和信息,经过算法计算,组织成结构化的知识,进一步通过图形化的方式直观的展现出来,为用户的学习提供有价值的参考,通过平台的开通试用,从产业创新发展和知识服务两者结合,开展一种全新的促进科技创新与产业发展的科技大数据融合应用服务。

Figure 6. Platform biomedical industry innovation service
图6. 平台生物医药产业创新服务
6. 结语
知识服务将成为未来深化产业创新发展的重要支撑,建立战略性产业知识服务机制,跟踪分析战略性产业政策、文献、成果、专利、标准等,以大数据、高端装备、现代农业等战略新兴产业,建立有序的产业大数据知识服务体系。收集相关产业的数据资源,如相关政策、学术论文、研究成果等重点领域数据,实现多源异构数据的融合和汇聚,实现数据的可视、可管、可用、可信,为产业高质量发展提供数据基础,形成基础研究、技术研发和科技成果转化全流程创新型产业链。以融合应用深挖大数据价值,推动大数据与产业等领域深度融合,使知识服务真正成为产业高质量转型发展的重要引擎。以产业创新所需各类知识、资源、数据、技术为起点,依托产业主体中的创新链接搭建产业服务链,通过产业服务链深度融合各类科技资源、科学数据、技术成果,为产业提供特色鲜明的知识服务。未来平台将深入探索产业技术的监测与预警服务,为产业创新发展和提高核心竞争力提供科技支撑、情报前沿和智慧决策服务,建立高端智慧化的产业科技创新情报服务体系。
基金项目
2022年吉林省科技发展计划项目(20220201143GX)。