1. 引言
2019年底,新冠疫情(以下简称“疫情”)席卷全球,严重影响全球人类安全和国家稳定发展,迅速成为全人类关注的焦点,截至2020年6月30日,全球累计确诊病例达到10,388,323例,死亡病例505,058例,其中美国确诊病例1,443,976例,死亡病例129,031例。美国作为全球感染病例最多和死亡病例最多的国家,在疫情研究中具有典型意义。
针对美国疫情,地理学者开展了大量研究,研究主要集中在疫情时空分布、影响因素等方面。研究表明,美国的疫情分布存在空间差异 [1] [2] [3],Sung B及Oluyomi A O等发现,发病率的空间差异主要是由邻里特征差异造成的 [4] [5];社会经济、人口迁移、种族等因素是造成美国疫情空间差异的重要驱动因子 [6] [7] [8] [9] [10],在居家令发布之后,在一定程度上居家令缓解了疫情的发展 [11] [12] [13] [14] [15],事实上,不论是居家令还是经济、人口、种族因素,它们中的大部分都是通过作用于人口活动从而影响疫情发展,Fu X Y发现,不同社区的经济、人口、种族结构不同,人口活动也有差异 [16];人口活动是传染病地理传播的重要驱动力 [17],因此可以推测,人口活动也与美国新冠肺炎疫情存在关联关系;Li Z等通过社交媒体大数据监测疫情的空间传播,发现人口活动是推动疫情空间传播的主要因素 [18]。
已有研究主要关注于疫情的时空分布和疫情的影响因素,在疫情的影响因素方面,学者多关注于社会经济因素、政策因素。在人口活动和疫情时空分布关联关系方面,已有的研究采用带地理标记的推文来代表人口流动,这种方法是存在误差的,因为网民发布推文时可以标记任意一个地点。本文采用社会环境数据和建成环境数据表征人口日常活动,采用基于手机信令的暴露指数表征人口流动,这种方法有效的避免了社交媒体大数据的庞大数据量和数据误差,尝试采用复杂网络分析方法和相关分析方法探寻人口活动与美国疫情时空特征的关联关系。
2. 数据与方法
2.1. 数据
本文选取了美国50个州以及哥伦比亚特区为研究区域,以州为基本单元,搜集了各个州的疫情数据(每日新增病例和累计确诊病例,来自于https://covidtracking.com/data),暴露指数(由加利福尼亚大学伯克利分校提供,以智能手机在各州之间的移动来描述人口流动),环境统计数据(包括社会环境:餐饮就业人数、制造业产值、注册车辆、公路里程、货运铁路里程、航道里程、宗教人士数量建成环境:宗教场所、工业场所、体育场、高尔夫球场、电影院、步道、公园、餐饮场所、商场、书店、水港),环境统计数据主要用于表征人口日常活动 [19] 数据描述见表1。
2.2. 研究思路与方法
本文主要研究人口活动与美国疫情时空特征的关联关系,疫情时空特征分为时空扩散特征和时空聚集特征,人口活动分为人口日常活动(州内)和人口流动(州之间)。研究流程如图1。使用到的方法包括空间自相关、时空扫描、相关分析、序列相似度对比和复杂网络方法。针对时空扩散特征关联关系:首先基于暴露指数分离出迁入指数并根据暴露指数构建人口流动网络计算网络节点重要性,然后根据疫情数
(a)
(b)
Figure 1. The research process of the correlation between temporal and spatial characteristics of epidemic and population mobility
图1. 疫情时空特征与人口流动关联关系研究流程
据得出时空扩散特征,包括实时基本再生数和疫情演化结果,之后对迁入指数和实时基本再生数进行相关分析,另外基于演化结果得到演化序列,对比演化序列和网络节点序列相似度,最后得到人口流动与疫情时空扩散关联关系;另一方面,对演化结果和环境数据进行相关分析,得到人口日常活动与疫情时空扩散关联关系(图1(a))。针对时空聚集特征关联关系:首先根据暴露指数构建人口流动网络并进行网络社区划分,得到人口流动社区;然后对疫情数据进行空间自相关分析确定空间聚集性,进一步进行时空扫描分析,得到疫情时空聚类簇;最后对比人口流动社区和疫情时空聚类簇,得到人口流动与疫情时空聚集关联关系(图1(b))。
2.2.1. 序列相似度
假设有长度为n的A、B两个序列,组成序列的数字唯一但排列顺序不同,为了衡量A、B序列的相似程度,需要采用序列相似度算法,本文采用的指标为位方差 [20],即数字在两序列中的位置差距的平方的平均值,位方差越小序列越相似。算法公式为:
(1)
其中,LSD (location square deviation)为位方差,n为序列长度,
为i在A中的位置。
表示序列种某元素i在序列A和序列B中位置的差值,当i在A、B序列中位置相同时,差值为0。公式表明,A、B序列中相同位置的元素越多,LSD越小,LSD为0时A、B序列完全一样,因此可以用于衡量序列相似性。
2.2.2. 复杂网络
复杂网络是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络 [21],本研究中涉及的人口流动网络也属于复杂网络。为了衡量人口流动网络中节点的重要性以及进行社区探测,本文使用了复杂网络中的节点重要性发掘方法 [22] 和Fast Unfolding社区探测算法 [23]。
本文中节点重要性度量指标包括加权入度、加权出度、加权度和Pagerank [24],节点的度是指与节点连接的边数,在有向带权网络中,加权入度表示指向节点的边的权重和,PageRank是一种网页排序算法,最早由Brin和Page提出,后来被迁移应用到复杂网络节点重要性度量中 [25],其算法为:
(2)
其中R(u)为节点u的PageRank值,c为规范化因子,用以保证所有节点的PageRank总和为常量,B(u)表示链接到节点u的节点集合,N(v)表示从节点v向外的链接数目,R(v)为节点v的PageRank值,它的初始值为网络中节点总数的倒数,开始计算时首先根据网络中节点总数对节点PageRank值初始化,平均分配给网络中每个节点,然后计算网络中所有节点的PageRank值,得到的结果带入公式循环计算,直到所有节点PageRank值趋于稳定。影响PageRank的因素包括网络中指向u节点的v节点的数量(u的节点入度)以及v节点指向其他节点的链接数(v的节点出度)。
3. 人口活动与疫情时空扩散
3.1. 美国疫情时空扩散特征:
利用R语言的EpiEstim库计算出美国总体实时基本再生数R0(t),并绘制美国COVID-19 R0(t)变化图。
从实时基本再生数来看(图2)美国的COVID-2019传染性随时间呈现出先降后增再降再增的“类双峰”模式,实时基本再生数在区间[3.455894, 1.050371]波动,在1月21日到2月16日到达暂时低值1.135515 (95% CI: 0.7122485~1.639196),随后于3月20日到达峰值2.379091 (95% CI: 2.3499819~2.408351),最后于5月27日到达整个阶段的最低点1.050371 (95% CI: 1.0490472~1.051695)。

Figure 2. Real-time basic reproduction number of COVID-19 in the United States
图2. 美国疫情实时基本再生数
以14天为间隔,对美国51个州的累计确诊病例进行时空制图,结果如图3,根据图3,制作疫情扩散阶段热点表。
结合图3和表2可以看出,美国疫情最开始爆发于华盛顿州,随后扩散到加利福尼亚州、伊利诺伊州、亚利桑那州和马萨诸塞州,在2月18日进一步扩散到内布拉斯加州、德克萨斯州、伊利诺伊州和威斯康星州,虽然华盛顿州是美国COVID-19疫情的始发地,但是其在2月4日和2月18日两个时间节点都不是美国COVID-19疫情热点州;在3月3日,美国COVID-19疫情大规模扩散,影响到包括佛罗里达州、佐治亚州、俄勒冈州、纽约州、新罕布什尔州、罗德岛、犹他州和北卡罗莱纳州并在3月17日扩散到全美国,其中3月3日的COVID-19疫情热点州分别是加利福尼亚州、华盛顿州、内布拉斯加州和德克萨斯州;3月17日之后,美国COVID-19疫情热点州变化稳定,都包含纽约州、新泽西州和加利福尼亚州,只是次序稍有差异,并且自3月31日之后,纽约州和新泽西州都位居前两位;在整个研究期内,加利福尼亚州成为热点州的频次最高,其次是纽约州和新泽西州。

Table 2. Hotspots states of COVID-19 in the United States
表2. 美国COVID-19疫情热点州
3.2. 人口活动与时空扩散的关联关系
3.2.1. 州之间人口流动的影响
对各州的迁入指数制图,结果如图4,从各州迁入指数来看,各州迁入指数各有差异,但是呈现相同变化趋势,前期(1月21日~2月12日)平稳维持在较高水平;前中期(2月13日~3月10日)略微上升;中期(3月11日~4月19日)降到较低水平;后期(3月11日~5月31日)迅速上升到中高水平,经与事件对比发现后期上升主要是因为美国社会开始复工复产。将各州的迁入指数和实时基本再生数做相关分析,考虑到COVID-19疫情是人口流动的滞后反映,窗口期为14天,因此选择3月17日至5月31日(自3月17日起,各州均有数据)的实时基本再生数与3月3日至5月17日的迁入指数进行相关分析,结果如表3。发现各州的迁入指数与实时基本再生数都存在显著的正相关,且相关性较高,说明美国各州的疫情扩散受人口流入的影响且为正向贡献。

Table 3. The correlation coefficient between the immigration index and the real-time basic reproduction number in US states
表3. 美国各州迁入指数与实时基本再生数相关系数
利用3月3日至5月12日的总暴露指数构建人口流动网络,其中网络的节点为各州,网络的边为各州之间的人口流动,边的权重代表州A流入州B的人口占比。采用复杂网络分析中的4个指标做解释因子,分别是节点的加权入度、加权出度、加权度和节点的PageRank得分,根据4个解释因子得到4个序列,按照降序排列,分别命名为S1、S2、S3、S4,将5月26日美国各州的累计确诊病例按照降序排列,命名为S0,采用位方差算法分别计算S0与S1、S2、S3、S4的位方差,结果如表4。

Table 4. Sequence similarity of each index
表4. 各指标序列相似度
从序列相似度来看,S1与S0序列相似度最高,位方差为99.4117,显著低于其他序列,说明疫情演化结果与节点加权入度序列相似,人口流动网络中节点加权入度代表了从其他州流入某州的人口规模,说明人口流动与疫情演化结果存在关联关系,人口流动网络中节点加权入度可以作为指标表征疫情演化结果。
3.2.2. 人口日常活动的影响:
为评价各州内人口日常活动对美国COVID-19疫情的影响,采用双变量相关分析分析方法对美国51个州COVID-19累计确诊病例进行相关分析,以社会环境数据和建成环境数据表征州内人口日常活动,其中涉及的社会环境数据包含餐饮就业人数、制造业产值、注册车辆、公路里程、货运铁路里程、航道里程、宗教人士数量;建成环境数据包含宗教场所、工业场所、体育场、高尔夫球场、电影院、步道、公园、餐饮场所、商场、书店、水港。结果如表5。
从表5可以看出,COVID-19累计确诊病例与水港数量、航道里程、公路里程无关,与剩余的所有变量都呈现出显著的相关性,其中与餐饮就业人数、餐饮场所数量、宗教人士数量的相关性最高(0.716);从宏观来说,可以认为COVID-19疫情与水路交通和公路交通无关,与生产活动、餐饮娱乐活动、宗教活动以及娱乐体育活动相关。

Table 5. Correlation coefficient of environmental factors
表5. 环境因子相关系数
注:**p < 0.05。
利用建成环境数据对以上结论做进一步验证,将建成环境数据划分为工业场所、餐饮购物场所、娱乐体育场所、宗教场所,分别表示生产活动、餐饮购物活动、娱乐体育活动和宗教活动。将累计确诊病例与4类建成环境进行相关分析,结果如表6。

Table 6. Correlation coefficients of 4 types built environment
表6. 4类建成环境相关系数
注:**p < 0.05。
从表6来看,美国COVID-19累计确诊病例与餐饮购物场所相关性最高(0.727),与工业场所相关性也很高(0.659),与娱乐体育场所(0.656)和宗教场所(0.565)相关性次之。COVID-19累计确诊与餐饮购物场所、娱乐体育场所、工业场所和宗教场所的高相关性说明,在日常活动方面,美国COVID-19疫情确实与生产活动、餐饮娱乐活动、宗教活动以及娱乐体育活动相关,其中与餐饮娱乐活动相关性最高。
4. 人口活动与疫情时空聚集
4.1. 美国疫情时空聚集特征
利用全局空间自相关分析分别计算了3月17日和5月26日美国COVID-19累计确诊病例全局莫兰指数,结果如图5,根据图5可知,美国COVID-19疫情在3月17日时呈现空间随机分布,州之间的空间自相关不显著,随着疫情发展,到5月26日,美国COVID-19疫情呈现出显著的空间聚集特征(Z-score: 3.45, p-value < 0.01, Moran’s Index: 0.21),说明随着疫情发展,累计确诊病例的空间聚集性越来越明显,空间自相关越来越强。
(a) 3月17日莫兰指数
(b) 5月26日莫兰指数
Figure 5. Global spatial autocorrelation of cumulative confirmed cases of COVID-19 in the United States
图5. 美国COVID-19疫情累计确诊病例全局空间自相关
进一步采用SaTScan时空扫描,共产生两个聚类簇。聚类簇1的Time frame为4月7日至5月31日,Relative risk为13.17,Log likelihood ratio为44473453.77,p-value小于0.01;聚类簇2的Time frame为4月30日至5月31日,Relative risk为2.60,Log likelihood ratio为4639129.82,p-value小于0.01;说明聚类簇1的相对风险高,且时间范围长,时空聚集特征明显;聚类簇2相对风险中等,时间范围较长,时空聚集特征较显著。时空扫描结果如图6。
进一步采用SaTScan时空扫描,共产生两个聚类簇。聚类簇1的Time frame为4月7日至5月31日,Relative risk为13.17,Log likelihood ratio为44,473,453.77,p-value小于0.01;聚类簇2的Time frame为4月30日至5月31日,Relative risk为2.60,Log likelihood ratio为4,639,129.82,p-value小于0.01;说明聚类簇1的相对风险高,且时间范围长,时空聚集特征明显;聚类簇2相对风险中等,时间范围较长,时空聚集特征较显著。时空扫描结果如图6。

Figure 6. Spatio-temporal scanning clustering cluster
图6. 时空扫描聚类簇
4.2. 人口活动与时空聚集的关联关系
根据构建的人口流动网络,采用Fast Unfolding社区探测算法进行网络社区分割,结果如图7。

Figure 7. Network community segmentation results
图7. 网络社区分割结果
通过对比图6和图7可以发现,基于累计确诊病例的时空扫描结果与基于人口流动的网络社区分割结果高度相似,说明疫情的时空聚集受人口流动的影响,同一社区内的节点间关系密切,即同一社区内的州之间人口流动密切,网络社区内各个州之间的密切的人口流动使得网络社区内各个州的感染水平(累计确诊病例)趋同。
5. 结论
本文对美国51个州的疫情进行了特征分析,并分析了人口活动与疫情特征的关联关系,得出以下结论:
1) 疫情发展趋势与累计确诊病例不存在直接关系,在研究期内,实时基本再生数经历峰值之后不断下降并逐渐接近1,说明美国疫情趋于缓和,但是累计确诊病例仍在增长,由于累计确诊病例基数大,因此疫情扩散风险仍然存在;
2) 美国疫情始于华盛顿州,至3月17日遍及全美,之后各州病例增长但是相对感染水平变化不大。疫情时空扩散与人口活动的关联主要体现在州内人口日常活动和州间人口流动,在日常活动方面,各州感染水平与生产活动、餐饮购物活动、宗教活动以及娱乐体育活动相关,其中与餐饮购物活动相关性最高;在人口流动方面,人口流入对各州内部的疫情扩散具有正向影响,人口流动与疫情演化结果存在关联关系,人口流动网络的节点加权入度对疫情演化结果有解释作用;
3) 疫情时空聚集特征主要与人口流动存在关联。研究期内,美国疫情主要存在两个聚类簇,聚类簇的形成都与疫情热点州相关,呈现出以热点州为核心或轴的分布模式,这种分布模式受人口流动的影响。由于聚类簇中存在热点州,簇内各州之间密切的人口流动,使得簇内各个州的感染水平趋同。
NOTES
*通讯作者。