1. 引言
无线信道的特征识别与区域划分,仅仅是通过对其进行特征提取进而进行区域划分 [1] 。然而,在某些特殊情形可能难以区分预判别。为了能够更好的有效区分区域与场景应建立相应的统计模型。以便更加准确的区分场景以及区域同时也具备了统计意义。
相比于传统的统计模型,机器学习(Machine Learning)方法是近年来较为热门的一个研究领域,是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。随着数据挖掘以及人工智能技术的发展,国内外的研究学者提出了许多新的机器学习算法,包括:决策树、boosting、bagging、随机森林、支持向量机、神经网络等等。
近年来,机器学习方法在通信领域的各个方面应用越来越广泛。顾来华(2012),通过机器学习方法减少了稀疏高斯过程计算复杂度,提出了基于稀疏高斯过程的多用户检测技术,从而使得机器学习方法大大简化了无线通信应用研究中的计算复杂度 [2] 。胡俊(2014)使用机器学习中的支持向量机和决策树的方法对电信通信数据进行分析,同时结合接收信号电平和接收信号质量对测量报告数据进行类别划分,发现决策树的分类效果较好 [3] 。王磊等(2015)通过大数据模型的自动学习和训练,实现了对每个小区级无线网络质量趋势的预测,从而可以帮助将网络优化工作的事后处理模式向预先评估预警模式进行转变 [4] 。王志浩(2015)在充分研究在线机器学习方法的基础上,提出了基于在线学习算法的通信设备故障预警技术,针对训练样本进行故障特征提取、训练分类器,从而用训练好的分类器去实时监测故障 [5] 。
因此,本文将借助机器学习方法对无线信道参数的特征值的提取与分类建立相应的决策树模型。
2. 机器学习模型的建立
分类树(决策树)是一种十分常用的分类方法。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树 [6] 。
它是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
首先,对数据进行预处理。各个场景的原始真实测量数据根据相应特征提取方式进行特征提取,得到信道系数。并将每个场景的五个样本进行组合得到训练集。
然后,运用R软件对训练集进行机器学习,得到决策树模型如图1所示。
为了验证该模型的效果,我们建立十折交叉验证集,对训练样本进行验证,并计算其平均误判率上述决策树模型是从实际数据出发所得到的训练模型,并且其误判率为0.032,效果很好。能够清晰的从统计意义上对样本进行区分。
其中为获取“指纹”特征可以通过本文编写的feature函数以及feature4函数进行特征提取,详细的matlab函数代码见附录。
3. 模型测试
针对两个真实信道的测量结果,需要判断其属于问题一种对应的哪些场景。基于前述的分析可知,可以先运用图形化描述或者计算各个特征值的范围对其进行初步判断。然后,运用决策树模型对两个真实信道的结果进行判别以检查分段的精确性。
首先,获取该问中两个样本数据的图形描述。如图2所示。
由图形描述的对比以及其“指纹”特征的值。可以知道第一个信道测量结果对应为第一场景,第二个信道测量结果对应为第二场景。

Figure 1. The decision tree classification map of training set
图1. 训练集的决策树分类图


Figure 2. The data described in figure
图2. 样本数据的描述图
接下来,运用所建立的决策树模型对结果进行检验。由于已经获得由训练样本集训练出的决策树模型。因此,此处只需将本题中的两个样本数据经过特征提取后作为测试集输入决策树模型。运行结果如下:
第一个信道测量数据的输出结果:

第二个信道测量数据的输出结果:

显然,由决策树模型结果可准确判断,第一个信道测量结果为第一场景,第二个信道测量结果为第二场景。此结果与图形描述以及“指纹”特征分析的结果一致。
4. 无线信道区域的划分
在一条连续路段的真实信道测量结果,该结果对应于以3 km/h的速度步行近150 m的测试距离。因此,该路段中可能包含不同的场景或区域。首先,根据图形化描述以及“指纹”特征可以对该路段进行初步分段。然后,根据所建立的决策树模型,将所给数据按分段结果分别获取训练样本集以及测试样本集。最后,对决策树模型所得出的结果进行分析以及改进。
4.1. 图形化描述以及“指纹”特征
根据所给路段的真实测试数据,可以画出其图形,如图3所示:

Figure 3. Fingerprint feature of map data
图3. 真实数据的指纹特征图

Table 1. The partition table for test range zone
表1. 测试距离区域划分表
由图分析可知,此路段大致可分为三段,其中第一个分段点为4500,第二个分段点为10,500。
4.2. 区域划分
根据图形化描述以及“指纹”特征模型我们将其分为三段,其中第一个分段点为4500,第二个分段点为10,500。
首先,划分训练集与测试集,将分段后的真实信道测量结果再进行划分,其中在每一段中提取前60%的样本做为训练集。这样组成一个分为三段的训练集,其余的样本归为测试集。
其次,将训练集与测试集都转化为信道参数。在“指纹”特征的基础上再进行建模。
最后,将训练集进行训练得到此三段的决策树模型,再对测试集进行测试。进而计算出误判率。进而可以判断出区域划分是否合理。
4.3. 区域划分的模型检验
首先,在R中运行:dybxunlianji=3xd1[c(1:2700,4501:8010,12331:14820),]得到训练集。(详细的R语言程序见附录);运行:dybceshiji=3xd1[c(2701:4500,8011:12330,14821:17700),]得到测试集。(详细的R语言程序见附录)。
然后,在对训练集进行训练,得到区域划分的决策树模型。
最后,将所得到的决策树模型对测试集进行测试。测试结果如下:

因此,可以通过测试集测试结果计算误判率:
误判率 = 误判数目/测试集总数。
本题中误判率为6.2%,小于10%,因此,可以认为三分段是合理的。又由于此结果对应于以3 km/h的速度步行近150 m的测试距离,故我们可以合理的将此段路程分为三个区域,具体划分如表1所示。
5. 结论
本文通过运用机器学习的方法,对无线信道参数的特征建立了决策树模型。并且通过实际信道数据对所建立的模型进行了检测,发现模型的准确性较好。因此,本文所建立的模型可以用于无线信道的特征识别以及区域的划分。并且本模型具有统计学意义。