1. 引言
当前,在信息技术飞速发展的时代下,生活中的各个领域都充斥着大量丰富的信息。人们可以从中轻易地获取各种知识以及技术质量等信息,进而为生活提供便利。但随着时间的推移,目标信息的数量和基数也会与日俱增。对于人们来说,已经远远超过了基本的处理与理解能力。若想要在海量数据中获取有用的信息也会变得越来越困难,所以为了能够更加高效地提取大范围数据中的目标信息,并更好地支持决策,就需要一种智能化、自动化的信息读取技术或工具,而数据挖掘就具有这样的能力。其可以方便快捷地从不全面的、有杂质的、随机性较强的、模糊的应用数据中,有效地提取预测型数据、隐藏数据、目标数据等,成为人们不可获取的技术手段。
文献[1]提出了一种基于关联性规则的数据深度挖掘算法,通过找出给定条件下数据局域间的特殊关系,并以此为基础挖掘不同项目间目标数据的关系系数。这一算法挖掘潜在关联性的能力较强,能够深入探寻数据局域间隐藏的特殊关系,在市场销售数据分析场景中,可助力企业发现不同商品间潜在的关联销售规律,为营销策略制定提供有力支撑。然而,由于局域内数据目标规模庞大,处理大规模数据时,该算法的计算复杂度急剧上升,导致挖掘时间大幅增加,效率显著降低。文献[2]建立了一种基于离散化演变的数据挖掘模型,该模型通过分析数据集之间的相似度量并结合相关尺度距离公式,对数据进行深度分类和挖掘。此模型通过分析相似度量和结合尺度距离公式,能够深入挖掘数据中的潜在信息,在图像识别领域,可帮助区分不同类别的图像,挖掘图像间的细微差异。但该模型过于依赖相似性进行分类和挖掘,在处理数据时可能忽略数据损失率,当数据在离散化演变过程中出现一定损失时,模型仍按相似性原则挖掘,导致挖掘量增大,且可能挖掘出因数据损失产生的虚假相似信息,影响整体挖掘效率。
基于上述问题,本文提出了一种基于多维约束的多尺度预测型数据协同挖掘方法来实现有效解决。多维约束可以帮助预测数据时间以及位置的计算,多尺度划分可削弱信息间的尺度效应,从而避免出现数据混淆的现象和影响挖掘效率。并且,此方法还能有效判定目标数据挖掘的可行性,减少误差率及耗用时间。仿真实验证明,所提方法可以有效实现预测型数据的挖掘,算法的整体性能较强,拥有较高数据完备性,且准确性较高。
2. 预测型数据挖掘损失判断
一般情况下,预测型数据的挖掘主要是根据已知的历史监测数据作为变量目标来进行训练,分析各观测数据样本间的依赖关系再分别进行关系评估,这样就能尽可能地对未知数据实现精准的预测。
假设在变量
和
中存在着某种依赖关系,那么就可以根据概率分布规则得出
,对预测型的数据挖掘过程如下所示:
在已知的观测样本
中,利用上述变量间的依赖关系求得期望数据的挖掘风险,预测函数集为
,表达公式为:
(1)
公式中,
表示损失函数,再利用序列问题可将此公式转换为关于数据集
的损失判定公式:
(2)
公式中,
表示在第
个数据集下预测型数据的挖掘损失,这样对于不易掌控的预测型数据,在实施数据挖掘前可以先进行损失判定,减少误判率,提高整体效率。
3. 多维约束空间的建立
多维约束空间通过构建一个涵盖所有可能目标数据的空间,将数据间的复杂约束关系映射到该空间中,使得原本难以捉摸的约束关系变得可视化、可量化。具体而言,多维约束空间通过定义一系列约束条件,将数据点映射到高维空间中的特定位置,从而实现对数据信息的全面描述和高效表达。这种映射不仅减少了目标搜索范围,还通过计算各数据点与理想原点之间的欧式距离,量化评估了数据质量水平。
通常在对预测型数据实施深度挖掘时,都是在一种目标范围较大的形式下进行的。而在这种形式下是很难获取或者直接发现数据间的约束关系[3]。因此,就需要建立一种关于数据信息范围的多维约束空间,使得所有的目标数据都能够在此空间内完成描述和表达。从而减少目标搜索范围,提高数据挖掘效率,具体步骤如下所示:
建立一个
维约束空间(
代表约束下的全部个数),在这个空间中,对所有基于一维约束的目标点坐标轴进行组合排列,但是这种多维约束空间在实际中通常很难描述,因此只能对数据信息的目标条件进行全面描述。其具体公式表示为:
(3)
其中,
表示在任意一种综合性结果中有关维约束空间的位置表达;
表示在约束空间内第
维目标点坐标有关第
个约束条件的真实计算数值;因为其数据原点代表最为理想的综合计算结果。因此在
维约束空间内各点坐标与原点坐标的实际距离就可表示其数据质量水平的高低。基于此,实际目标结果与理想状态下的目标结果之间的距离差值,就可用欧式距离公式[4]来实现具体表达,表示为:
(4)
其中,
表示有关第
个实际目标结果与原点目标结果之间的距离差值[5];关于这2种计算结果之间的可用比较差距可以用以下关系进行表达:
(5)
公式中,如果
,就代表第q个计算的结果要较好于第p个计算的结果;反之
,则代表第p个计算的结果要好于第q个的计算结果;而当
时,则代表
、
这两种的计算结果相同。
以上述公式(4)和公式(5)进行的具体描述为基础,考虑到约束空间内的权重关系[6]影响,对此进行加权修正,具体表示为:
(6)
其中,
表示在第
个约束条件下的数据相对权重值,通过利用公式(5)和公式(6)重新对比综合结果,就可得到在多维约束空间内的最佳坐标距离,从而提高在此空间内数据挖掘的效率。
4. 多尺度划分
Figure 1. Multi-scale hierarchical division structure
图1. 多尺度层次划分结构
多尺度划分是数据挖掘中的一项重要技术,其核心在于根据数据的特征或属性,将数据划分为不同尺度的子集,以便更细致地分析数据间的差异和相似性。多尺度划分的内在机制是通过定义不同的划分标准(如定序、定量、定比、定类),将数据映射到不同尺度的空间中,从而揭示数据在不同尺度下的特征和规律。这种划分有助于理解数据的内在结构,还能为后续的数据挖掘和模式识别提供丰富的信息支持。
一般情况下,多尺度的划分依据多为数据的特征或者属性,根据统计学的基本论点可将其属性或特征的范围取值分为4种类型为:定序、定量、定比以及定类。定序表示按照特指的数据关系序列进行划分;定量表示按照同等份额的数据进行划分;定比表示按照一定比例的数据进行划分;定类则表示按照指定目标数据进行划分,这样就可以根据不同的类型完成对应的尺度划分。在这些类型当中,定类是最为合适的划分方法。因为对于预测型数据来说,其他三种类型都很难确定彼此之间的比例关系,目标寻找较为困难。而定类的方法可以通过参照数据的方式,进行目标数据实现尺度的划分,相比之下处理方式较为简便快速。
在对预测型的数据尺度划分中,对于一些特征属性不强的数据就需要采取一种离散化[7]的监督方式来实现改善。利用数据间等频率、等距离、等密度以及等概率的方法解释数据分布,使得其特征向量呈离散型分布,方便尺度的均匀划分。还可通过一定的计算公式得出函数分值,数值越高则表示分布效果越佳,一定程度上有效帮助尺度划分处理,其公式如下:
(7)
公式中,
表示数据的划分标点,
表示处于位置左方向的点,
表示处于位置右方向的点。
表示运用其数据划分的密度参数,表达关系式如下:
(8)
公式中,
表示尺度划分的宽度[8],
代表数据样本的实时个数,
表示分布在
区间范围内样本数据的数量。其中,划分宽度
数值的选取会影响整体函数密度[9]的计算结果。
表示根据划分函数密度估算的位置的数据出现概率,表达公式为:
(9)
公式中,
表示中心点函数。
由于
和
数值的选取关系着最终的尺度划分效果,因此本文在计算函数密度时削减了二者之间的数据关联程度,使得划分过程不再过多地受其影响,进而提高了整体划分的精准度以及效率。并且,使得在多维约束空间中的目标数据的特征和属性阈值[10]变得更明显,易于获取和应用,为后续数据的挖掘提供了有效帮助。多尺度层次划分结构见图1。
5. 基于多维约束的多尺度预测型数据协同挖掘方法
5.1. 模拟数据集建立
本文主要通过模拟建立各类数据集及目标数据样本,然后赋予数据集和样本同等的相似阈值[11],再通过计算各数据集内下一预测节点上与此阈值数相同的数据,将其判定为目标数据,进而完成对预测型数据的深度挖掘。
首先,根据实时的信息特征,创建包含大量数据的模拟数据集,表示为
。基于上述多尺度划分过程,可将此数据集中所有关于属性特征的集合分类为以下关系
,其基于尺度划分表现为
,而在此数据集内的所有隐藏数据或目标数据的尺度划分形式为
。
基于上述过程,分析大部分数据集都可按照此规则进行分类,可分为祖先数据集和子孙数据集,其按照尺度分别可表示为:
以及
。
1) 计算祖先类数据集相似性。从宏观统计学的学术论点来看,每个数据项目间都具有一定的相似性。因此,可以通过计算相似数据集间特征的频繁项,进行表达数据间的分布特性,在一般的统计学中,数据间的相似性关系系数可用两种相似样本间的分散性和相似性来进行具体表达。按照祖先集合共同交集部分所产生的相似个数比,由公式(2)可以得出,引用JSC (Jaccard Similarity Coefficient,杰卡德相似系数) [12]来表示有限样本数据合集之间的目标相似性和区间差异性,此相似系数的关系数值越高,说明样本数据间的特征相似性越强。以此为基础,计算祖先数据集内所有原始数据之间的相似性:
(10)
利用上述公式就可准确判定数据集
之间的
相似系数,并且此系数还能作为数据集
内部的相似估量值,通过各频繁项之间的相似性来构建模型矩阵
,用
明确表示样本数据集合
和
之间的目标数据相似性,表达公式为:
(11)
2) 计算子孙类数据集相似性。根据上述过程建立的祖先尺度数据集样本,计算其合集内各数据的相
似性,并与子孙型尺度数据集
进行统一合并形成数据并集
,并将此数据并集样本当
作子孙型尺度数据集
中出现目标数据的候选合集,这时在每个候选数据集中就必定会有一个含有
目标数据的集合,这样就可以根据每个并集的相似项目来反映出各个对应数据集内蕴含目标数据的实际情况。
5.2. 根据相似项特征的数据挖掘
以上述祖先数据集和子孙数据集的建立与特征相似度计算为基础,计算数据集
下目标数据
的支持度阈值,再利用公式(11)计算找出所有关于此阈值数据项目的相似度,其概率参数为
。以此范围在当前状态下的概率为基准,分别挖掘祖先和子孙数据集内所有包含真实频繁项目集合的概率系数
,根据最小概率数值就可得到相关数据集内出现频繁项目特征的目标数据公式集合,表示为
,其挖掘公式如下所示:
(12)
公式中,
表示在第
个相似特征下目标数据的最大挖掘系数,基于此公式就可对所有样本数据实现预测型数据挖掘。
6. 仿真实验
6.1. 实验背景
Table 1. Specific information feature data of T1014D100K database
表1. T1014D100K数据库具体信息特征数据
尺度划分 |
项目序号 |
事物数量/人 |
20周岁以上本地人员 |
1 |
100 |
2 |
200 |
3 |
300 |
4 |
400 |
5 |
500 |
20周岁以上非本地人员 |
1 |
50 |
2 |
100 |
3 |
150 |
4 |
200 |
5 |
250 |
本文实验采取的运行环境为LENOVO M730数据工作站、Intel core i5-6500 CPU、8 G内存、120 G固态、Window10操作系统以及Oracle 10 g数据库,保证实验能够顺利进行。
由于预测型数据挖掘的整体基数较大,且需要采集大量数据才能真实反映挖掘效率,所以本文将利用目标范围涉及较广的T1014D100K数据库进行数据挖掘实验。此数据库中包含某省全部的人员以及地域的详细信息资料,可为仿真实验提供有效支持。
首先,通过对数据库进行分类,从地域类范畴入手逐一完成尺度划分,将该省内所有20周岁以上的本地人员作为原始数据集,再将该省内所有20周岁以上的非本地人员作为预测数据集,以此为基准进行预测型数据挖掘。这样对T1014D100K数据库完成简单的尺度划分后,就可形成5组规模大小都等同的尺度数据集。T1014D100K数据库具体信息特征数据见表1。
6.2. 实验指标及参数
本文的仿真实验将采用RMSE指标,将有效支持度阈值以及数据读取量作为衡量标准,并与文献[1]以及文献[2]的方法结果进行对比分析,全方位地判断三种方法对预测型数据的挖掘效果,从而保证实验的严谨性、真实性和准确性。
RMSE (均方根误差)指标表示在实际的数据检测中,观测的次数是有限的,所以需要一种可靠的指标来进行替代,并对检测结果进行表达,是一种衡量检测结果精准度的数据指标。其数值越小就代表数据挖掘的效果越佳,具体公式为:
(13)
公式中,
代表挖掘数据的实际评分;
代表挖掘数据的预测损失。
有效支持度阈值是指在同一组测试项目内用户对目标数据的支持度限值,可表示为支持度阈值较高的,其隐藏数据出现频率较高,用户评价较高的说明挖掘效果较好,反之则为较差。
计算效率是指完成数据挖掘任务所消耗的时间,它直接关系到算法在实际应用中的可行性和实用性。计算效率越高,说明算法能够在更短的时间内完成数据挖掘任务,适用于对实时性要求较高的场景。
6.3. 基于RMSE参数对比分析
通过上述指标分析,三种方法的RMSE参数对比结果见图2。
Figure 2. Comparison results of RMSE indicators
图2. RMSE指标对比结果
从图2中可以看出,基于本文方法的RMSE数值要明显低于其他两种算法,且其参数曲线走势较为平缓,整体波动较小,这说明本文算法对T1014D100K数据集中的预测型数据挖掘精准度更高、误差率较小。这主要是因为本文在进行数据挖掘前,构建了基于预测型数据特征的多维约束空间,不仅可以缩小目标范围,减少挖掘基数,还在一定程度上降低了判定误差、增强了整体效率、提高了处理性能。
6.4. 基于有效支持度阈值的对比分析
以有效支持度阈值为基准,三种方法的支持度阈值指标对比结果见图3。
Figure 3. Comparison results of support threshold indicators
图3. 支持度阈值指标对比结果
由图3可知,文献[1]和文献[2]方法对同种数据集下进行数据挖掘任务曲线,都出现了明显的阈值拐点,这主要是因为对于预测型数据来说,如果只针对挖掘的时间节点而不考虑空间节点的话,就会容易出现关联规则混乱或多次处理的现象,会导致挖掘频率逐渐增多但目标数据挖掘效果却越来越差,从而增加判定误差,降低整体效率。
反观本文方法,其任务曲线平缓,无大幅度的波动也没有出现阈值拐点,这就说明本文对时间与空间节点的处理步骤发挥了很大的作用,保证挖掘过程不受其他因素干扰,不会出现循环迭代现象,确保整体挖掘的精准度以及完成率。基于三种挖掘方法的实验结果比较研究下,可以明显看出,本方法对预测型数据的挖掘效果较为突出,整体性能较为优异。
6.5. 基于计算效率的对比分析
在数据挖掘领域,计算效率是衡量算法优劣的重要指标之一。为了进一步验证本文提出方法的有效性,将进行计算效率对比实验。实验过程中,记录每种方法完成数据挖掘任务所消耗的时间,同时考虑到数据读取量对计算效率的影响,在实验中保证三种方法的数据读取量相同。三种方法的计算效率对比结果见图4。
Figure 4. Comparison of calculation efficiency results
图4. 计算效率对比结果
从图4中可以看出,本文方法在计算效率上具有明显优势。文献[1]方法和文献[2]方法在处理大规模数据时,由于算法本身的局限性,导致计算时间较长。而本文方法通过构建多维约束空间和多尺度划分,有效地减少了数据挖掘的基数,降低了计算复杂度,从而显著提高了计算效率。具体来说,本文方法在数据量为300人时,完成数据挖掘任务所消耗的时间为550 s,明显少于文献[1]方法和文献[2]方法的600 s和700 s,且随着数据规模的增大,这种优势更加明显。
7. 结论
本文建立了基于多维约束的多尺度预测型数据协同挖掘方法,并对其进行具体研究与分析,得出以下几点结论:
1) 通过建立一种关于数据信息范围的多维约束空间,让所有的目标数据都能在此空间内完成描述与表达,从而减少目标搜索范围,提高数据挖掘效率。
2) 采用定类的多尺度划分方法,可以简单快速地实现目标数据与原始数据的有效划分,处理方式较为简便快速。使得在多维约束空间中目标数据的特征和属性阈值变得更明显,易于获取和应用,为后续数据的挖掘提供了有效帮助。
3) 通过建立并计算祖先数据集和子孙数据集之间预测型数据的相似度阈值,可以反映出对应数据集内蕴含目标数据的实际情况,实现有效挖掘。
4) 由仿真实验结果可知,本方法数据挖掘的精准度较高、判定误差较小、整体性能较为优异。