1. 引言
基于手机信令数据的居民出行信息采集技术作为一种新兴的调查技术已广泛应用于交通调查中。相较于传统的调查方法,其具有成本低、周期短、覆盖面广等优点,能更加全面高效、持续的获取居民的出行方式,可以为城市规划、交通组织管理提供决策依据 [1] [2]。
目前国内外关于手机信令的研究主要集中在出行轨迹、交通流等方面 [3] [4] [5] [6],而针对出行方式识别的研究成果尚不多见。国际上,相关学者最先通过对平均速度、最大速度、出行时长等设定不同的阈值实现出行方式的识别 [7] [8] [9] ;Anderson等 [10] 利用速度、信号强度波动与服务小区数量之间的关系,采用隐马尔可夫模型HMM (Hidden Markov Model)对交通方式进行识别;Wang等 [11] 使用K-means聚类方法对信令数据的轨迹进行分组,然后通过时间匹配从而判定出行方式;Yu Ning [12] 等利用手机信令数据与GPS数据、基站数据、加速度数据等构建了交通方式的识别系统;Hong等 [13],Reddy等 [14] 将地理信息系统与数据结合,利用平均速度、最大速度等特征将数据分为许多不同速度区间,依据速度大小,结合地理信息,利用决策树识别交通方式。
国内对于手机信令数据的研究起步较晚,研究主要集中在2008年之后。张博 [15] 考虑出行距离、时间、平均速度三个指标结合出行轨迹提出了出行方式模糊识别模型;但模型选取的指标受天气、实际路况等因素的影响较大。部分学者利用GPS定位数据采用神经网络、支持向量机、多层感知器神经网络模型进行出行方式的识别,达到了良好的精度 [16] [17] [18]。赖见辉 [19] 使用手机信令数据和轨道交通线路信息识别地铁出行轨迹。
纵观国内外文献,以往研究主要通过GPS定位数据进行出行方式的识别,而手机信令数据的研究则主要集中在OD的获取等方面。为进一步提高居民出行方式判定的准确率,本文主要利用手机信令数据同时结合地图导航数据、地铁基站数据库,采用DBSCAN算法,构建出行方式的识别模型,最后通过实际案例对模型的有效性进行了验证。
2. 基本原理
手机信令数据产生原理
手机处于待机状态时通过基站与无线通信网络进行信息交互,与此同时无线通信网络记录手机所处的位置区信息。
由于基站分布在道路附近,因此信令数据记录的坐标散落在真实出行轨迹附近,将信令数据与道路的轨迹点进行聚类分析,大量的信令数据将与实际出行路径的轨迹点聚类可以获得很多簇。基于此原理,同时考虑到出行方式与出行路径相互联系又相互制约,将出行方式与路径通过导航地图进行关联。使用百度地图应用程序接口请求同一个OD下不同交通方式的各种导航轨迹数据,然后将信令数据中的位置数据与导航轨迹数据进行聚类分析,通过聚类簇中的信令数据的个数计算各交通方式下导航地图规划路径的匹配度。结合出行时间相似度判定地面出行过程中最有可能的出行方式。
3. 识别算法
3.1. 识别算法分类
基站包括位于地面的普通基站和位于地铁内的微蜂窝基站。为满足各自通信质量的需求,地面移动通信网络与地铁移动通信网络存在以下不同点:首先是基站布设形式方面,地铁基站按照地铁线路走线呈点式分布,地面基站的布设则较为复杂;然后是基站覆盖范围方面,地铁站点间重复覆盖度较小,相邻站点间的基站不会出现信号交叉干扰,而地面基站信号干扰的现象则较为普遍。地铁移动通信网络与地面移动通信网络在基站布设、信号覆盖、服务需求等方面的差异性使得用户进入和离开地铁站点时都会发生一次地面基站与地铁基站的切换,并记录在信令数据中。这一特征可以为判定用户是否采用地铁出行方式,提供了技术条件。结合地面基站与地铁基站的特点,本文将出行方式的识别方法分为地面与地铁两个方面进行研究。如图1所示。
3.1.1. 地面出行方式识别
地面交通出行方式识别算法流程如图2所示。具体步骤如下:
1) 获取用户一次有效出行段的信令数据集合A,包含此次出行轨迹点的经纬度坐标、时间戳等信息。
2) 由于出发时间对出行方式以及出行路径的选择影响较大。本文通过对出发时间进行情景划分,在相似情景下利用导航地图的应用程序接口进行各交通方式的路径规划,减少这一因素对算法识别准确率的影响。情景划分见表1。
3) 使用百度地图应用程序接口请求从起点到终点各种交通方式(骑行、步行、小汽车(不区分私家车和出租车)、公交车)在相似情景下的导航数据。定义获得的导航数据集合为
,hi表示第i个导航线路;其中导航线路数据包含从起点到终点所需要经过的道路沿线的经纬度坐标点
,li表示第i个导航路线hi对应的经纬度坐标
,距离长度
,S表示距离集合,si表示第i个导航路线hi对应的才能够起点到终点的距离长度、交通方式
,M表示交通方式的集合,mi表示hi对应的交通方式,以及所用时长
,T表示所用时长的集合,ti表示hi对应的所用时长。
4) 设一次有效出行段的信令数据的坐标集合为
,A表示信令数据的坐标集合,ai表示出行段中第i个基站的经纬度坐标。将信令数据的经纬度坐标ai与导航路线的经纬度坐标li进行聚类分析。设定好参数,聚类得到k个坐标点的簇
,B为簇的集合,bi为第i个簇。
5) 分析并获取B中含有导航轨迹坐标li的簇的集合BL,统计集合BL各簇中含有基站坐标ai的个数记为Nli;信令数据坐标集合A中坐标点的个数为N。将不同出行方式下的各种导航轨迹与信令数据进行聚类分析,获得各出行方式下导航轨迹数据与信令轨迹数据的轨迹匹配度
;轨迹匹配度计算公式如下:
(1)
rli:轨迹匹配度;
Nli:簇中信令数据位置数据的个数;
N:信令数据中位置数据的个数。
6) 对于某些路段可采用多种交通方式,所以存在交通方式不同但导航路线相同的情况。对出行实际用时和导航所用时长进行相关性分析。若两者相关性越大则该出行方式下的该路径是真实情况的概率就越大。时间相似度的计算公式如下:
(2)
tli:时间相似度;
ti:hi对应的所用时长(s);
T0:用户出行的实际用时(s)。
7) 综合考虑轨迹匹配度与时间相似度,设定相应的权重,最后计算得出所有出行方式下的出行路径的概率集合P = {P1,P2,···}。查询P中的最大值Pmax,判定Pmax对应的出行方式mi为实际出行方式。计算公式如下:
(3)
Pi:一种交通方式mi下一条出行路径hi的概率;
rli:轨迹匹配度;
tli:时间相似度。

Figure 2. Identification process of ground transportation travel mode
图2. 地面交通出行方式识别流程
3.1.2. 地铁出行方式识别
将信令数据中的位置数据在地铁基站数据库中进行遍历查询,若信令数据中出现与地铁基站数据相同的情况则判断该出行段的出行方式为地铁出行。
3.2. 评价指标
运用本文提出的识别算法,对出行段进行分割、相似性度量以及获取的出行轨迹点,选用查准率、召回率作为指标进行评价。
1)查准率(The precision, P),指判定正确的样本的个数占判定结果总数的比例。
(4)
2)召回率(The recall, R),指判定正确的样本的个数占方式下实际样本个数的比例。
(5)
在公式(4)~(5)中TP、FP、FN所代表的含义如下。
TP:判定正确的样本的个数;
FP:误判为该出行方式的样本的个数;
FN:被误判为其他出行方式的样本的个数。
4. 实例分析
为对算法识别的准确性进行检验,本文采用某运营商提供的志愿者单向加密后的数据进行研究,部分数据如表2所示。
根据信令数据提取出行段的信息,见表3。

Table 3. Signaling data information extraction
表3. 信令数据信息提取
使用百度地图应用程序接口请求从起点到终点各种交通出行方式在情景1下的路径规划,提取规划路径的坐标、时间。
根据基站小区的范围以及基站与道路之间的映射关系,令DBSCAN算法中的Eps = 300 m,MinPts = 2;轨迹匹配度K = 0.7,时间匹配度0.3。各出行方式下的概率见表4。

Table 4. Travel mode and path probability
表4. 出行方式及路径概率
由此可知该用户此次从起点到终点采用小汽车的出行方式沿线路A出行。
利用出行方式识别模型,对信令数据样本进行测试。表5是样本交通出行方式识别结果。

Table 5. Comparison between recognition results and actual results
表5. 识别结果与实际对比
614个出行段样本中,步行的样本个数为142、骑行的样本个数为130、公交车的样本个数为152、小汽车的样本个数为190。各出行方式的查准率、召回率均达到80.0%以上,整体识别的正确率也达到了86.12%。
5. 结果和分析
为了对算法的有效性与合理性进行判断,选取了查准率、召回率、正确率对模型的精度进行评价。由表5可知,各出行方式识别的查准率、召回率均达到了80%以上,整体识别正确率达到了86.12%。目前,部分学者利用手机信令数据进行出行方式识别方面的研究,文献 [15] 构建隶属度函数模型整体准确率为68%。相比之下,本文提出的识别算法能更为精确的识别用户的出行方式。这是因为传统的隶属度函数模型考虑的影响因素过于单一。本文基于手机信令数据、结合导航数据和地铁基站数据有效的区分了地面与地铁的出行,降低了各出行方式之间的相互干扰。
6. 结语
针对目前基于手机信令数据的出行方式识别方法研究较少且正确率较低的现状,结合手机信令数据、地图导航数据、以及地铁基站数据,提出了出行方式与路径的识别算法。在基于志愿者的614个出行段信令数据样本的基础上,利用该识别模型得到的结果整体的正确率达到了86.12%,高于现有的识别方法。此外本文针对地铁出行进行了分析,能够有效降低模型对地铁出行的误判率。但是,受样本数据的限制无法对地铁出行进行验证且导航数据也仅考虑了高峰、平峰时段对于导航数据的影响忽略了道路设施的因素,需要在以后的研究中进行一定的修正。
基金项目
智能交通技术交通运输行业重点实验室开放课题资助(F262019016);教育部人文社会科学研究规划基金(19YJAZH011);江苏省交通厅运输厅科技项目(KY2018049)。