1. 引言
随着经济全球化及区域经济一体化的深入,为适应社会经济的发展及政策制定的需要,各级政府对本地区的常住人口给予了更高的关注,同时对区域人口统计测算也提出了更高的要求。在经济高质量发展的当下,人口数量增减变化、质量结构的转型及频繁的聚集流动,对城市规划、地区资源配置及治理都有着重要的影响。因此,探索一种有效测算常住人口的数学模型,不仅有利于掌握不同人口的流动趋势与社会活动,为人口政策、城市规划、公共资源配置等方面提供决策依据,且对促进地区经济高质量发展、助力政府治理手段具有重要意义。
我国人口具有基数大、流动性强的基本特征,开展人口统计测算工作具有一定的复杂性。当前人口统计测算方法主要是全国人口普查、1%人口抽样调查、1‰人口变动情况抽样调查等常规人口统计方法。每十年开展一次,逢“0”年份进行的全国人口普查获得的资料比较全面,但因我国人口基数庞大,难免存在重复登记和遗漏登记的情况,且两次人口普查间隔时间长,与当前经济社会发展速度快、政府宏观调控要求高等相较,无论是时效性还是准确性,都有一定差距。同样每十年开展一次,逢“5”年份进行的全国1%人口抽样调查结合多种人口数据评估手段,能推算常住人口总量、结构以及其他几个主要人口指标,但受样本规模大小的制约,推算后的准确度不高,只能基本满足每五年人口结构数据的要求,无法得到连续年份的人口结构数据。其余年份开展的全国1‰人口变动情况抽样调查的样本量较1%人口抽样调查更小,细分人口结构的数据代表性更不足,这也是每次人口普查后要对前九年的人口数据进行修正的原因之一。在新型城镇化高速发展的背景下,传统统计调查方式存在调查周期长、时效短、样本代表性不足等种种缺陷,难以满足当前社会对人口监测和管理工作时效性的需求[1]。
在城镇化进程不断加快和人口流动日益活跃的当下,传统人口统计方法所获数据愈发暴露了时效性不足、准确性不高的缺陷。对此,各级统计部门和研究机构也进行了多方面的研究与探讨。针对人口统计方法普查与抽查的偏差问题,既有研究发现两类数据具有不同的变动趋势,人口抽样数据往往呈现向上或向下的偏离,导致普查年人口和非普查年人口难以相洽[2]-[4]。于是,王猛与王艺霖(2024)采用抽样年均增长率、普查年均增长率之差对跨城市、跨年度的人口抽样数据偏误进行测度,构造回归模型研究人口抽样数据偏误的成因[5]。进一步地,胡桂华,López-Carr David (2024)等以人口普查标准时点上的人口总体(全国、全国以下各行政区)为研究对象,利用对总体登记的普查人口名单和覆盖调查人口名单构造的组合式遗漏估计量估计人口普查遗漏人口数,运用人口普查遗漏组合式估计方法,能够提高人口普查统计的精度[6]。
在文献梳理过程中,我们发现大数据在人口统计中已经有了成功的应用案例,如无锡市通过大数据技术将手机信令数据服务于居民出行调查,得到了市区常住人口、工作人口分布、出行客流分析、出行活跃度分析和重点地区客流集散等重要信息[7]。现有研究主要集中于大数据与人口统计结合的应用概念上,现有学者将手机信令数据用于常住人口测算,仅有个别学者进行了一些有益的探索性。如,贾会林和杨勇(2013)基于北京移动信令处理平台提出并实现了一种利用手机信令数据来分析人口出行分布的方法,探究了人口出行分析的统计方法[8]。沈泽和雒江涛(2014)基于移动网络信令调研,对区域人群属性的分析提出了新型统计方法,并在平台以网页程序的方式向用户进行展示[9]。冉斌(2013)将手机数据映射至交通分析单元,通过量数据信息运算处理获得了居民出行特征数据,并以天津手机话单数据应用案例及上海手机信令数据应用案例进行了验证[10]。
国外学者对于人口测算方法也进行了多方面的探索。美国社会经济数据应用中心利用人口普查数据与遥感影像数据相结合,建立了基于公里网格的人口数量分布数据库[11]。Langford等运用高分辨率的遥感影像提取了土地利用信息,将每种土地利用类型占据的面积与人口密度一一对应联系,得到人口数据的空间可视化处理与表达,并绘制了基于公里网格的英国Leicestershire地区人口分布图[12]。对于手机数据的利用与探索,Anahid Nabavi Larijiani (2015)等利用手机数据调查了起点与目的地在巴黎及其郊区内的人流行为,并透过城市交通思维平台来分析不同的交通方式[13]。Zhenzhen Wang. Sylvia Y (2017)梳理了目前应用手机数据在研究旅游行为的方法,在追踪相关研究进展基础上,进一步讨论了手机数据在研究旅游行为上的潜力[14]。Chaogui Kang (2012)等采集了包括近200万移动用户连续七天进行一次以上通信的个人呼叫活动数据集,并分析了Erlang值与呼叫次数和活跃的移动用户数量之间的关系,进而引入了LandScan人口密度数据集,进行人口估算[15]。
通过对相关文献与资料的深入探讨,在分析传统人口统计方法利弊的基础上,结合人口统计工作,提出了一种基于手机信令数据的人口流动性概率测算模型,这一方法将人口统计方法与大数据技术应用相结合,为常住人口的统计测算工作提供了新的视角,进一步丰富了地区人口统计的手段,亦是对传统人口测算方法的有效补充。
2. 手机信令数据的采集与处理
运用手机信令数据进行人口统计,需要明晰其理论基础和应用范畴。如手机信令是什么,怎么采集手机信令数据,数据又如何进行清洗和处理,手机信令与人口统计之间的关联性是什么,明确这些问题是进行人口流动性概率测算模型的理论基础与合理性、逻辑性的起点。
2.1. 手机信令的认识
手机信令是手机用户与附近发射基站或微站之间的通信数据,包含二者交换信息时所产生的海量数据以及基站信息,包括手机识别号、基站编码、时间戳、信令类型及基站所属网格编码信息等。只要移动用户一开机,手机屏幕上会显示出运营商(如中国移动、中国联通、中国电信)字样,就会产生信令数据,从而可以获取用户比较准确的实时位置。
信令数据记录了用户的活动位置和时间,且容易还原出用户的出行轨迹。根据用户的出行轨迹,进而追踪出人口的各种社会活动,形成“人 + 时间 + 空间”的事件性表达。相较传统数据、GPS数据以及其他数据,手机信令数据具有以下特点[11]:1) 在信令数据记录和采集过程中,没有第三方人员的参与,不涉及用户个人隐私和属性信息,是一种不记名且安全的数据。2) 基站数据来源网络覆盖面积广,移动用户持有率高,数据可以实时采集更新且数量庞大,能更好的体现用户时空轨迹。3) 数据具有动态性、连续性,时效性高且来源稳定可靠。采集数据的时间单位精确到秒,可以细粒度地记录用户某一时刻的空间位置信息,对区域内用户轨迹进行“时间 + 空间”的多维数据定量描述。4) 数据的采集为非自愿、不定期且不易被用户直观感知。主动或被动采集用户数据,不受用户主观偏好的影响,数据更具备科学性、客观性与真实性。
2.2. 手机信令数据的采集与处理
采集到的手机信令数据,通常存在大量冗杂、无效且重复的数据。导致产生冗余数据等方面的原因,可能是设备故障等会引起数据缺失,也可能由于数据漂移导致乒乓数据[16],还可能产生于数据传输过程中出现干扰因素导致出现噪音数据。对于采集到的原始数据,需要进行清洗或修补,实现数据的质量控制,来确保数据的真实性、准确性和有效性。关于手机信令数据的处理方法有许多种,本文借鉴韩珍珍与王甜甜(2024)文中方法对采集到的手机信令原始数据进行预处理[17]。
2.2.1. 数据采集
常用的手机数据来源主要有两类,分别是来自手机内置传感器的数据和来自蜂窝网络的手机信令数据。本文选取来自蜂窝网络的手机信令数据作为人口测算的基础数据。这类数据通常具有一定的噪声,典型特征是存在缺省重复和乒乓切换现象。在手机信令数据采集过程中,首先需要系统整理手机在某月一段时间内的固定时间段的所有手机号码,如规定某月14号至21号晚上22:00至次日早上8:00这个时间段内所出现的所有手机号码为此区域的常住人口即总样本量,根据不同精度需求,也可将统计天数延长至14天、15天或21天等等。进一步地,根据所采集的来源不同基站的手机信令数据,建立特定区域与基站特定匹配原则,可以定义不同县区或镇街的人口居住数量。由于手机信令数据采集自身不可避免的局限性,采取到的人口数据绝对值本身只具备一定参考价值,更重要的是获取人口趋势与结构的变化,此外也可以用统计方法采用一个区间段对地区人口进行补充。
2.2.2. 缺省重复数据
采集到的原始信令数据,并不能直接用于测算,需要对其进行清洗去重或修补,方能进行测算。不同类型的噪音数据需要采取不同的手段来进行处理,针对缺省数据,这类数据在记录时存在某些字段丢失,通常的处理方法为直接删除;针对重复数据,处理方法是仅保留一条数据记录,其余重复的记录进行删除处理。对于重复数据的处理相对复杂,首先要根据所有字段,找到所有字段相同的记录数据,然后根据用户识别码(IMSI)和时间字段(TIME),将每个用户在相同的时间仅保留一条记录,删除其它重复的记录。
2.2.3. 乒乓切换数据
在用户通信过程中,偶有基站信号不稳定或强烈变化的时候,此时手机信令数据会产生信号漂移,导致信令数据在两个或多个基站之间来回切换,此时所对应形成的错误信令数据也会不断被记录,这种异常数据称之为“乒乓数据”。例如当手机连接A基站,若有B基站信号强于A基站,此时手机便会将链路连接基站B,同样若存在基站C信号强于基站B,此时手机会切换至基站C。而当A基站信号变强,手机链路也可能会重新切换回基站A。乒乓数据由于切换频率高,时间间隔短,不能准确的反映用户真实位置,从而干扰对用户出现轨迹的刻画,导致区域人数统计混乱错误,进而影响数据分析结果。本文将所研究信令切换数据主要定义两种形式,“A-B-A”或“A-B-C-A”。
针对乒乓数据,一般处理步骤如下:首先,随机选取信令数据中相邻的三条数据n − 1,n,n + 1,并根据记录时间和定位信息,计算相邻数据间的移动速度V,设置速度阈值VMAX = 100 km/h,若V > VMAX,则判定数据n为“乒乓数据”。其次,若甄别到数据为“乒乓数据”,则对数据进行清洗,可以选择删除多余的信令数据,将其记为一次驻留事件;也可以将不符合条件的数据直接删除。
综上所述,信令数据的采集、处理主要包含原始数据搜集、数据清洗处理、“乒乓数据”的处理三个部分内容。一般在统计实践过程中,手机信令数据还涉及到诸多复杂情况,如地区常住老人人群没有手机,会导致数据遗漏;部分常住人口持有两部及以上的手机,会导致数据重复。本文结合实际情况,采取默认遗漏数据与重复数据相互抵消的处理方法。关于具体信令数据分析及人口统计技术流程如下图1所示。
Figure 1. Technology road map
图1. 技术路线图
3. 人口流动性概率模型的确定
人口流动性概率模型是基于人口流动性概率来测算常住人口的一种重要方法。该模型是通过对预处理后的手机信令数据进行聚类分析,通过人口流动性概率来识别出常住人口,进而测算出某地区在某一时段的常住人口数量。该模型的优点就在于能够较为方便地得到相对高频的人口数据,且得到的测算结果也相对稳健。
3.1. 人口聚类分析原理
既有研究和实践工作表明,县区、镇街常住人口分布具有很强的地域性,并且在相似地区上的常住人口变化趋势呈现出相近的规律。由此,我们可以推断县区、镇街的人口是按类分布的。在实际生活中,某些县区、镇街的本地人口占比多,流动性小,另外一些县区、镇街外来人口所占比例较高,从而流动性大。假设每个县区、镇街都存在唯一一个人口流动性概率(即人口流动率) P,意味着当某个区域人口流动率P值较大时,说明这个县区、镇街外来常住人口较多,区域流动性大;反之,当区域人口流动率P值偏小时,则说明本地人口所占比率较高,人口流动性小。计算总结出每个县区、镇街的人口流动性概率P之后,进一步根据P值对所有县区、镇街进行聚类分析,从而概括出同类属县区、镇街的相似性,梳理出地区人口性质。
3.2. 聚类分析人口性质
假定各县区、镇街居住人口存在一个人口外出概率(即人口流动性概率,下文简称人口流动率) P,根据手机信令数据进行汇总,定义居住天数为x天以上的人口为常住人口,对每个月份分别计算各县区、镇街的人口流动率P,然后根据P对所有县区、镇街进行聚类分析,步骤如下:
第一步:对所有县区、镇街根据人口流动率P进行系统聚类,利用树状图、分类进程图以及地区实际情况判断具体分类类别。
第二步:运用统计方法K-均值聚类法,在已经确认类属的基础上对所有县区、镇街进行二次聚类。由于各类间距离定义的不同会产生不同的系统聚类方法,二次聚类可以得到更加准确客观且唯一的聚类结果。
第三步:结合基于手机信令数据的最终分类情况,对同一类属的区域人口性质进行归纳分析,总结大体一致的人口性质,得出本地区人口流动率值。
第四步:结合历史普查、人口抽样调查数据与公安、民政、卫健等部门数据,对常住人口进行测算。进一步,通过监测手机信令数据每月人口监测变化值波动,梳理人口总量变化趋势。
3.3. 人口流动性概率P的模型计算
人口外出概率P越大,代表地区人口的流动性越大,且可表明外来人口实际越多,故本文定义P值也可以代表地区正向的人口流动,也就是人口流入,因此也将其定义为人口流动性概率(简称人口流动率)。参照俞政(2018)关于人口外出概率P值的计算方法,引申出本文的人口流动性概率模型。
假设每个县区、镇街都存在一个人口流动率
,每一个县区、镇街当且仅有唯一一个人口流动率(人口外出概率),并设县区、镇街居住的每个人外出概率均为
,表明对于某一个人来说,根据统计排列组合理论,一个月内在他所居住的县区、镇街恰好住
天的概率为:
当定义天数为
时,这个人被归类到常住人口的概率包含他至少居住
天的概率,也就是此人在地区居住
天,
天,直
到31天的概率之和,计算总和为:
。
假设每个县区、镇街(
)都有一个总的人口数,设为
,定义常住人口天数为
时,即在当年某月份各县区、镇街采集到的常住人口为总人口在31天内住满
天的这部分人口(根据地区实际情况定义具体取值
),也就是在本地区居住
天,
天,一直住到31天的人口,用公式表示如下:
其中,
表示定义天数为
时第
个县区、镇街的常住人口数。利用手机信令数据统计到的常住人口数量,根据上述推理公式可以估计出
,然后根据
对所有县区、镇街进行聚类,从而推断同一类县区、镇街所具备的相似人口性质特征,结果也可以进一步制作GIS图,对同类县区、镇街的地理位置进行可视化处理,推测人口是否具有明显的按类属集聚的特性。
为了估算各县区、镇街的
,可以对上述公式进行变换处理,将非线性函数变为线性函数。推理过程参考俞政(2018)一文中推理过程,本文不做过多赘述,计算具体公式如下:
设只居住
天的人口为
,通过下列等式即可算出人口流动率
,
利用人口流动率
,结合人口抽样调查数据,从而为地区人口统计提供补充方法口径、调整人口估算精度,丰富了区域人口估算理论。
3.4. 不同人口统计方法对比利弊
与传统的人口统计方法相对比,运用手机信令作为人口统计的补充,将大数据与地区人口统计相结合,并建立人口快速测算模型,具有一定的适用性以及优势、劣势。本文梳理不同人口统计方法的利弊,对比如下表1所示:
Table 1. Comparison of the advantages of different demographic methods
表1. 不同人口统计方法优劣对比
|
全国人口普查 |
全国1%抽样调查 |
全国1‰人口变动情况抽样调查 |
手机信令数据
测算人口 |
调查周期跨度 |
十年一次 逢“0”进行 |
十年一次 逢“5”进行 |
非“0”非“5” 年份 |
可持续性强,按需
制定(无限制) |
调查区域规模 |
全覆盖 |
有限抽样 |
有限抽样 |
按需求细分 (无限制) |
调查样本 |
全面调查 |
1%抽样调查 |
1‰抽样调查 |
大数据 |
调查成本 |
最大 |
较大 |
较小 |
最小 |
调查内容 |
最为全面 |
较为片面,精度一般 |
较为片面,精度较差 |
多角度统计 |
调查优势 |
人户调查 提高详细的人口数据 |
相对节约成本、缩短周期;补充、调整和修正普查数据 |
更频繁了解人口变动情况,补充人口周期外变化情况 |
不受监测对象影响,获得动态、连续且精准的时间及空间数据,可描述用户轨迹,高精度预测 |
调查劣势 |
成本较大,时间间隔长,无法反映时期内人口变化趋势 |
无法得到连续年份的人口结构数据 |
样本量相对较小,无法完全代替整体人口情况 |
存在手机信令数据
缺失、重复、遗漏等
问题 |
通过上述对比分析可以得知:一是将大数据技术运用于人口统计,可以弥补传统人口统计方法的局限,同时也顺应当前大数据技术的发展潮流,是对人口统计方法的创新与补充。二是利用手机信令数据估算人口,能大大降低统计推断造成的系统误差,提供更高精度的、动态且持续的人口监测情况,为政府政策制定提供更坚实的数据支撑。三是手机信令数据具有覆盖面广、实时更新、能提供大样本的个体时空移动定位信息、收集成本低等特性,为城市规划、人口分布、公共交通等研究提供空间位置信息数据,也能为大数据技术在统计领域中的进一步应用提供数据支撑。
4. 结语
常住人口的统计测算是进行经济社会发展规划、公共资源配置、政府制定政策不可或缺的一部分,然而传统的人口统计方法暴露出的种种局限性,不足以满足经济社会发展和决策部门的需要。随着大数据技术的高速发展和日益成熟,运用大数据技术来监测人口变化为人口统计工作提供了一个新的统计手段。
本文利用手机信令数据,概括描述了手机信令数据的采集与处理方法,详细介绍了人口流动性概率的计算过程,通过对人口流动性概率的聚类分析,可以较好地定量刻画地区人口的特征与性质,推算出区域的常住人口数量。通过对比分析传统人口统计方法与手机信令估算人口方法,进一步明晰了手机信令数据估算方法在人口统计工作中的优势。根据这一方法推导的人口流动性概率测算模型,弥补了传统人口统计方法的局限性,提高人口统计工作的效率与质量,为常住人口的统计测算工作提供了新的统计手段。尽管利用手机信令数据能够弥补许多传统人口手段的缺陷,但手机信令数据的运用仍然存在一定局限性,主要表现为运营商间的数据壁垒、机制体制不健全等问题。为此,本文提出如下建议:
一是破除政企间数据壁垒,释放数据价值。采集信令数据时,会存在运营商之间存在数据壁垒的现象,导致数据失真或不能互通。为了让信令数据发挥其最大的价值,更好地服务于地方人口统计工作和地方经济发展,有必要建立以政府统计部门数据为基础,联合运营商企业大数据的共享机制,更好地发挥政府的社会效益与企业市场主体的经济效益,从而打破政企之间的数据壁垒。
二是优化监测系统,健全制度保障。当前虽有应用手机信令数据来监测人口流动,但在手机信令的采集方法,监测人群的选择、各类参数的定义调优等方面仍有待改善,例如利用手机信令定位用户,由于监测对象的位置判断以基站为准,当基站服务半径过大(即当区域过小,多个镇街共用一个基站时)或远郊地区基站间距过大时,有必要对手机信令参数进行修正,优化手机信令数据监测系统,结合多种定位方式进行研究统计,进一步提高监测精度与准确度。同时,由于大数据的应用基础在于数据共享,对于源头数据提供后将其运用互联共享的安全与保密等,需要不断优化相关制度方面的保障,促进大数据评估顺畅安全的应用。
基金项目
广东省普通高校青年创新人才类项目(2024WQNCX084);广东理工学院“创新强校工程”人文社科类一般项目(2023YBSK046);广东理工学院“创新强校工程”人文社科类一般项目(2023YBSK048)。
NOTES
*通讯作者。