1. 引言
由于山区农村公路基础设施条件差,交通参与者安全意识淡薄,近年来全国农村交通事故数量居高不下。据近3年数据统计,全国近50%的交通事故发生在农村及周边山地区域,其中近50%的交通事故涉及低速车辆,并且在伤亡群体中,中老年人群占据了相当大的比例[1],这表明农村交通安全形势相当严峻。因此,针对目前山区农村公路交通事故频发的问题,亟需深入探寻交通事故致因,制定山区农村公路安全差异化防控策略,以降低山区农村公路交通事故的发生率。
当前,研究鉴别农村公路事故多发点的高效方法以及制定针对性的风险应对措施,仍然是亟待解决的关键问题。朱兴琳、陆秉堃[2]针对城市道路提出了一种事故多发点当量事故数与事故率的鉴别方法。陈金林[3]为了识别城市路网上的事故黑点,采用了网络核密度估计方法进行研究。黄明月[4]针对干线公路交通安全问题,研究提出了识别事故黑点及预警的方法。刘尧[5]选择了某城市在2013年到2015年之间的交通事故数据作为研究对象,并结合城市道路交通网络数据,对交通事故的时空分布特征和导致事故的因素进行了系统的统计与分析。罗叶等[6]认为路段密度等级划分也是影响事故多发点识别的关键因素。华炜等[7]基于贝叶斯网络计算不同节点的发生概率,并得到非完整链路和完整链路的演化分析结果。冯忠祥等[8]以交通事故起数为条件,针对道路环境因素对交通事故严重程度的影响进行了深入分析。Ali K等[9]利用GIS技术结合核密度估计,以英国为研究区域识别事故热点。周穆雄等[10]分析了农村低等级公路重大事故的事故形态与各项事故要素间的相关性。毛力增等[11]采用了调查样本与分析数据的方法,研究了广西的农村交通事故与影响因素。赵阳等[12]通过分析平原地区高速公路交通安全影响因素,提出了针对性的事故预防与安全保障措施。魏泽平等[13]以北京市高速公路为例,对交通事故形态、时空特征以及事故发生前后交通流变化特征进行分析,并提出了不同因素对于事故发生的多因素耦合作用。
在以往研究中,大部分学者侧重于分析城市道路事故数据的整体规律及特性,或在某一特定条件下对交通事故致因因素进行研究,对于山区农村公路交通事故关键致因因素的差异性分析研究较少。因此,本文深入探究桂林市2016年至2020年间发生的1951例农村交通事故案例,从人员、车辆、公路条件及环境因素四个维度出发,提取44个潜在的交通事故的致因因子,利用核密度估计法和随机森林模型精准辨识出导致农村交通事故的关键致因因素。在此基础上,针对不同农村事故黑点区域特性,本文提出了差异化的交通安全管理策略与方案,以期实现农村交通安全的精准施策与有效管理。
2. 农村公路交通事故统计
2.1. 数据集概述
本文数据来源于桂林市2016年至2020年间发生的1951起农村公路交通事故案例,这些事故案例均包含人、车、路、环境、管理等交通要素,并且涵盖不同严重程度的农村交通事故,能较为全面地反映事故发生状态。
由图1可知,死亡人数为0人的交通事故有1541起,占比79.03%。此外,伤亡人数1人的交通事故有387起,占比19.85%;剩余伤亡人数较为严重的交通事故共22起,占比1.07%。上述数据表明,仍有一定比例的农村交通事故对人员造成了严重伤害,需针对性地采取预防措施及加强农村安全管理,以减少各类事故的发生。
Figure 1. Statistics of rural road traffic accidents in Guilin in 2016 and 2020
图1. 桂林市2016年2020年农村公路类交通事故案例统计数据
2.2. 变量选取
本文以交通事故严重度为因变量,开展桂林市农村公路交通事故严重程度评估研究。考虑人员、车辆、公路条件及环境因素四个维度,提取44个潜在的交通事故的致因因子,具体变量定义及说明如表1所示。
Table 1. Definition and description of variables
表1. 变量的定义及说明
解释变量 |
变量名 |
赋值 |
道路横断面位置 |
其他 |
0 |
机动车道 |
1 |
非机动车道 |
2 |
机非混合道 |
3 |
人行道 |
4 |
人行横道 |
5 |
紧急停车带 |
6 |
天气 |
晴天 |
1 |
阴天 |
2 |
雨天 |
3 |
雪天 |
4 |
雾天 |
5 |
其他 |
6 |
能见度 |
50米以下 |
1 |
50~100米 |
2 |
100~200米 |
3 |
200米以上 |
4 |
事故类型 |
死亡事故 |
1 |
伤人事故 |
2 |
财产损失事故 |
3 |
事故形态 |
碰撞运动车辆 |
1 |
碰撞静止车辆其他车辆间事故 |
2 |
刮撞行人 |
3 |
碾压行人 |
4 |
碰撞后碾压行人 |
5 |
其他车辆与行人事故 |
6 |
侧翻 |
7 |
滚翻 |
8 |
坠车 |
9 |
失火 |
10 |
撞固定物 |
11 |
撞非固定物 |
12 |
自身摺叠 |
13 |
乘员跌落或抛出 |
14 |
其他单车事故 |
15 |
中央隔离设施 |
其他 |
0 |
绿化带 |
1 |
混凝土防护栏 |
2 |
波形护栏 |
3 |
金属护栏 |
4 |
柔性护栏 |
5 |
活动护栏 |
6 |
隔离墩 |
7 |
无护栏 |
8 |
3. 农村公路交通事故高发区域识别方法
3.1. 风险源识别方法选择
传统的风险源识别手段,如正态分布等参数化的模型方法,均需要预设数据以服从某种特定的分布形态。然而,现实中的数据往往展现出高度的复杂性和不可预测的随机性,并不严格遵循预设的分布假设,可能会导致结果出现显著偏差。
随着机器学习技术的不断进步,核密度估计方法在事故高风险点识别领域的应用日益广泛。相对于传统识别方法,核密度估计法无需事先对数据的分布形态做先验假设。在处理农村公路交通事故这类复杂且不规则的数据时,如交通流量、事故发生时间等,核密度估计均能精准反映出不同时段、不同路段事故的集中程度与变化趋势。
3.2. 核密度估计模型构建
核密度估计(Kernel Density Estimation, KDE),是一种基于有限样本数据来推断总体数据分布的非参数方法,核心结果是生成样本的概率密度函数估计,进而将某一区域的事件发生频数进行聚类统计,重点标记发生频率密度高区域并实现信息可视化。其一般形式为:
(3-1)
式中,f(x)为点x处的核密度值;n为搜索区域内的样本点数;h为设定的带宽;
为事件点xi与事件点x间的距离;k(x)为核函数,通常有正值结构,且满足:
(3-2)
检验可用来比较基于不同核函数和平滑参数估计出来的概率密度函数的差异,进而确定最优核函数和平滑参数,其中
距离是
检验的核心,用于衡量实际数据分布与理论分布之间的差距,差距D的计算方法为:
(3-3)
式中,f(x)为理论分布函数,通过不断调整核函数和平滑参数来计算KS距离,并找到KS距离最小时所对应的核函数和平滑参数,从而得到最优的核函数及其参数。
3.3. 事故高发区域识别结果
本文从数据集中筛选出有人员伤亡情况的交通事故记录数据,并确定其经纬度范围,并进一步获取了桂林市非主城区路网投影数据的底图。在此基础上,利用核密度分析法识别出事故高发区域的风险源。最终核密度分析结果如图2和图3所示。
Figure 2. Kernel density analysis results
图2. 核密度分析结果
Figure 3. Results of network kernel density analysis
图3. 网络核密度分析结果
由图2和图3可知,在桂林市非主城区路网中,主要存在6个比较明显的事故黑点区域,具体地址如表2所示:
Table 2. Location information of accident blackspot area
表2. 事故黑点区域位置信息
序号 |
经度 |
纬度 |
地址 |
1 |
109.910~110.122 |
24.926~25.081 |
桂林市永福县X103 (110.016, 25.0035) |
2 |
110.163~110.454 |
25.156~25.551 |
桂林市灵川县灵川大道(110.3085, 25.3535) |
3 |
110.523~110.840 |
25.392~25.843 |
桂林市兴安县兴界线(110.6815, 25.6175) |
4 |
110.924~111.197 |
25.763~26.134 |
桂林市龙胜各族自治县伟江乡(110.0605, 25.9485) |
5 |
110.443~110.597 |
24.634~24.857 |
桂林市阳朔县若兰亭民宿旁(110.5200, 24.7455) |
6 |
110.651~110.913 |
24.669~24.971 |
桂林市恭城瑶族自治县S502 (110.782, 24.82) |
4. 事故黑点区域致因分析
鉴于山区农村交通事故的复杂性和高度不确定性,传统的事故分析方法往往难以全面而准确地捕捉其致因因素。因此,本文应用随机森林模型对农村事故进行黑点区域分析。
随机森林是Bagging方法和Random子空间的组合,可对多棵决策树(基本构成单元)进行综合考量,可以提高预测精度和稳定性。本文通过随机森林模型构建多个决策树,能够准确识别出农村事故发生的潜在规律,并对致因因素进行重要性排序,从而分析得到最关键的致因因素,为山区农村交通安全管理提供改善依据。
4.1. 随机森林模型构建
本文将数据集分别分为测试集合和训练集合,测试集可以评估训练出来的模型的性能,训练集主要用来训练出随机森林模型。首先从原始训练数据集中进行有放回的随机抽样,生成多个子数据集,即Bootstrap样本。对于每个Bootstrap样本,使用决策树算法CART构建一棵决策树,并对每棵决策树进行特征随机化。最后,随机森林采用多数投票的方式来决定最终结果。
4.2. 随机森林模型检验
模型的检验是确保模型可靠性和有效性的关键环节。十折交叉验证(10-fold-cross-validation),是一种算法准确性评估验证方法,基本原理是通过将数据集分成10份,轮流进行训练和测试,从而得出1迭代后准确率的平均值。当十折交叉验证结果的准确度值大于0.7时,即使用随机森林模型拟合出来的结果至少能与70%的数据样本吻合,符合要求即通过十折交叉验证检验。本文验证事故黑点1至事故黑点6所对应的准确度值分别为:0.8508、0.8717、0.8590、0.8826、0.8927、0.7985,均大于0.7,均通过了十折交叉验证检验。
4.3. 特征变量处理
随机森林模型仅能够接受定量类型的特征输入,因此在应用模型前预先转化成为定量特征。本文在处理交通信号方式的定性特征时,使用哑编码转换定性特征为定量特征,将一个特征扩展为多个定量特征,当原始特征为某一定性值时,对应扩展特征赋值为1,其余为0。
Table 3. Ranking of importance of accident variables
表3. 事故变量重要性排序
区域编号指数值 |
事故黑点区域1指数值 |
事故黑点区域2指数值 |
事故黑点区域3指数值 |
事故黑点区域4指数值 |
事故黑点区域5指数值 |
事故黑点区域6指数值 |
因素 |
事故类型 |
10.4 |
13.1 |
8.8 |
10.9 |
10.9 |
9.7 |
初查原因分类 |
2.4 |
- |
- |
- |
- |
- |
事故发生时间 |
1.9 |
1.6 |
2 |
1.7 |
2.5 |
3.2 |
事故形态 |
1.5 |
1.9 |
1.7 |
- |
1.7 |
- |
碰撞形态 |
1.3 |
1.1 |
1.4 |
1.0 |
- |
1.7 |
道路类型 |
1.3 |
- |
1.6 |
- |
1.4 |
1.0 |
初查原因 |
- |
1.2 |
1.9 |
1.7 |
- |
1.8 |
能见度 |
- |
- |
1.3 |
- |
- |
1.2 |
路段类型 |
- |
- |
- |
1.1 |
- |
- |
横断面位置 |
- |
- |
- |
1.2 |
- |
- |
照明条件 |
- |
- |
- |
- |
1.3 |
1.1 |
在此基础上,本文通过随机森林模型得到事故变量重要性排序指数,如表3所示,该指数反映了对应事故发生时的因素在事故中起到的相关性大小。当某一因素的指数超过1时,则代表该因素与事故的相关性超出了常规水平,对事故的发生具有比较显著的影响。由表3数据可得到事故的共性变量与差异变量,因此本文将黑点区域的共同变量:事故类型、事故发生时间、初查原因设为共性因素;其余变量分类归为差异性因素,包括事故形态,碰撞形态、道路类型、能见度、横断面位置和照明条件。
4.4. 事故高发区域风险源分析
4.4.1. 共性因素分析
(1) 事故类型:
Figure 4. Types of accidents in the black spot area
图4. 黑点区域事故类型
根据表3中随机森林模型的特征重要性指数分析结果,6个事故黑点均发生了不同伤亡程度的事故,表明这些区域存在较高的交通安全风险。由图4可知,区域3发生交通死亡事故为224起,占比最高,其次是区域6。通过统计分析发现,大量游客集中出行显著增加了公路交通负担,区域3和区域6的事故高发与旅游活动密集度呈显著正相关,旅游客车缺乏有效的安全监管是导致事故概率上升的重要因素。
黑点区域2、4、5的事故特征分析显示,死亡事故呈现出明显的空间聚集特征,主要集中分布于城市中心区、教育机构、医疗机构及公共设施周边等人流密集区域。此外,黑点区域1发生伤人事故频率最为显著,占比高达81%。通过深入分析发现,区域1的事故高发主要与钢铁制造工厂周边的大型货车流量密切相关,货车车速难以得到有效控制,这进一步加剧了伤人事故的发生风险。
(2) 事故发生时间:
Figure 5. The time period at the time of a general accident
图5. 事故发生时的时间段
基于随机森林模型的多因素分析结果显示,事故发生时间是黑点区域事故高发的主要影响因素。由图5可知,交通事故的发生在一天之内呈现出典型的高峰时段,主要集中在8点、12点、17~18点以及21点时间段,其中17~18点是交通事故发生最频繁、持续时间最长的时间段。以上时间都是车辆与行人流量剧增的时段,机非混行严重,增加了交通冲突和事故风险。结合图4和图5,进一步表明交通流量的增加是农村公路交通事故多发的一个重要因素。此外,相比于早上8点,21点处于夜晚时段,光线条件明显较差,能见度降低。这说明能见度较低在一定程度上增加了农村公路事故发生的概率。
(3) 初查原因分类:
Figure 6. Classification of causes in areas 1, 2, 3 and 4 of the accident black spots
图6. 事故黑点区域1、2、3、4初查原因分类
由图6可知,区域1中因未给优先通行车辆让行导致的事故高达44起,占比最高,其次是发生违法会车事故。未让行事故与安全意识淡薄显著相关,表明驾驶员或行人安全意识不足时更易忽视让行规则,尤其在早晚高峰时段事故高发。区域1作为乡道与村庄交界地带,事故高发还暴露出该区域公路安全管控措施的不足以及配套设施的相对欠缺。
在区域2 (县城中心)、区域3 (景区附近)和区域4 (学校及村落聚集区),影响行人安全的行为是导致交通事故占比最高的因素。此外,酒后驾驶、超速行驶(区域3还包括非机动车超速)等违法行为也占一定比例,反映出部分农村驾驶员交通安全意识薄弱,与事故高发呈显著相关性。
综上所述,随机森林模型进一步揭示了影响农村公路条件事故严重程度的关键因素,交通流量、道路设计缺陷、交通标志缺失、驾驶员行为、能见度不足等因素是导致这些区域事故高发的主要原因。
4.4.2. 差异性因素分析
(1) 道路类型:
Figure 7. Types of roads
图7. 道路类型
如图7所示,区域1和区域3的交通事故主要发生在二级路和单位小区自建路。通过统计分析发现,农村二级路的路况复杂性与交通事故发生率呈显著正相关。此外,农村自建路也成为了农村交通事故发生的高发地,由于无统一公路规格,公路往往存在宽窄相差明显、公路规划不合理以及基础设施不完善隐患,同时缺乏交通管理和监管,导致事故发生风险偏高。
(2) 碰撞形态:
Figure 8. Collision pattern in accident black zone 1
图8. 事故黑点区域1的碰撞形态
由图8可知,以一定角度发生碰撞的事故占比最大,其次是侧面碰撞事故,共有68起,而正面和追尾碰撞的比例较小。由于区域1附近设有工厂,车辆来往比较多,交通流量较大,导致驾驶员在交叉路口、弯道或合并车道处,车辆可能未能及时调整行驶方向,导致侧面碰撞、剐蹭类的事故比较多。
进一步分析表明,区域1交通流量增大会显著增加车辆交汇的复杂性,而道路曲率在一定程度上限制驾驶员的视野和反应时间。这些因素的相互作用揭示了不同碰撞类型与交通流量、道路几何特征及驾驶员行为之间的内在关联性,凸显了多维度因素对事故形态的综合影响。
(3) 事故形态:
Figure 9. Accident patterns in areas 1, 2, and 5 of the accident black spots
图9. 事故黑点区域1、2、5的事故形态
由图9可知,车辆碰撞类事故在农村交通事故中占比最高,是主要的事故类型,这意味着1、2、5区域的农村公路车辆和行人的交通环境存在风险。区域1和区域2发生行人碾压事故的占比分别为49%和20%。结合随机森林模型的特征重要性分析,行人交通违法行为和驾驶员注意力分散是导致此类事故的两个最关键因素。这一结果表明这些区域在行人交通安全方面存在的严重问题。此外,区域2内存在大量汽车销售服务点。由于车辆流动量大,驾驶员对公路熟悉程度不足或驾驶行为不规范,在一定程度上增加了与行人发生碰撞的风险。
(4) 能见度:
由图10可看到在100~200米能见度范围内的交通事故有90起,占比最高,50米以下发生事故比例最小。在低能见度范围内,驾驶员的视线会受到一定的限制,难以发现前方隐患。同时,区域3作为旅游胜地,其事故高发特征在时间序列分析中呈现出明显的季节性波动,尤其在旅游旺季(7~9月)达到峰值,往往存在游客流量大和停车需求高的现象,这一定程度上导致交通事故频发。通过交通特征分析,驾驶行为谨慎度和交通管制措施是影响事故率的关键因素。50米以下能见度时,驾驶员行为模式发生显著改变。交通管理部门实施的封路、限速等管制措施,减少了50米以下能见度范围内的事故发生。
此外,区域3存在周围有湘江,滨江公园还有海洋河,在清晨、傍晚或天气变化时容易水汽蒸发和雾气弥漫的现象,导致能见度受阻,因此区域3交通事故的发生率相对较高。研究成果为制定差异化防控策略提供了实证依据,可针对不同能见度条件采取分级响应机制,并在特定时段加强重点区域的交通管控。
Figure 10. Visibility of the accident black spot area 3
图10. 事故黑点区域3的能见度
(5) 道路横断面位置:
Figure 11. Location of the cross-sectional road of the accident black spot area 4
图11. 事故黑点区域4的事故发生道路横断面位置
由图11可知,区域4机动车道与机非混合道发生事故有260起,占比高达86.09%。机动车道通常承载着大量的交通流量和不同的车型种类,车辆间的相对速度差异大,易发生事故。此外,机动车道与非机动车道的划分不够明确,或者存在机非混合道,这导致机动车与非机动车在同一空间内行驶,增加了机动车与非机动车、行人之间的碰撞风险。
5. 防控策略
根据表3得到的桂林市农村公路显著交通事故致因因子,并结合事故案例特性分析,针对农村地区交通事故共性因素和差异因素分别提出相应的防控策略。
5.1. 共性防控策略
(1) 增设限速与警告标志。根据农村公路所处区域以及地形地貌,建议针对急弯路段、交叉口、旅游景区附近等事故多发路段,设置限速与警告标志,以提醒驾驶员减速慢行,并注意避让行人。
(2) 加强对旅游地区的交通管控管理。在旅游旺季、节假日或特殊活动期间,对景区周边道路实施临时交通管制措施,如设置单行道或限行区域,减少车辆交汇冲突。并在景区周边规划足够的停车场,并设置清晰的停车指示标志,避免车辆随意停放造成交通拥堵。
(3) 加强早、午、晚高峰的交通疏导。在事故高峰期时段,通过调整交通信号灯配时、设置临时交通管制等措施,优化交通流量,减少交通拥堵和冲突点。
(4) 加大农村区域的交通安全宣传,提高驾驶员的交通安全素质。提高农村机动车驾驶员的专业素质和交通法规意识,减少因交通安全意识淡薄导致的交通事故。同时增加交警巡逻频次,严查交通违法行为,特别是酒驾、超速等严重违法行为。
5.2. 差异化防控策略
(1) 道路类型:加强区域1和区域3农村自建路的交通管理和监管,可进一步对农村公路瓶颈路段考虑扩建处理,提高道路的通行能力,减少车辆之间的互相干扰和延误。区域3应做好向游客普及交通安全知识,提高游客的安全意识,并定期进行景区道路的交通隐患排查工作,减少事故发生率。
(2) 碰撞形态:交通管理部门应加强区域1无标志标线公路的监管和维护工作,完善道路标志标线,为交通参与者提供明确、可靠的交通指引。根据实时交通流量动态调整信号配时,减少车辆在交叉路口的等待时间和冲突。同时,在事故高发区域设置醒目的警示标志(如“事故多发路段”、“减速慢行”),提醒驾驶员注意安全。
(3) 事故形态:区域1交通公路需要合理规划机动车道、非机动车道和人行道,确保各类交通参与者各行其道,避免出现车辆混行的情况;区域2需要加强周边汽车销售服务有限公司的教育和培训,增强试驾用户的安全意识和驾驶技能,减少因驾驶不当导致的交通事故;针对区域5景区瓶颈路段,建议增加车道数或实施交通管制,在旅游高峰期或特殊时段,对部分公路实施临时交通管制,限制车辆通行或设置单向行驶,以缓解交通压力。
(4) 能见度:区域3周围增加公路照明亮度,提高驾驶员的视线清晰度。同时设立警示标志,实时发布区域3的交通状况和雾气情况,以提醒驾驶员注意安全。
(5) 断面位置:区域4设立机动车与非机动车车道引导标识,避免发生混行,加强公路使用者的安全意识以减少事故发生。
6. 结论
本文基于桂林市2016年以来的农村交通事故数据,利用核密度估计法识别出事故高发风险源,在此基础上,应用随机森林模型进一步得到导致事故的显著性因素。针对农村事故黑点区域共性和差异性特征,由此提出针对性的事故防控差异化管理对策,从而降低农村交通事故的发生率,实现农村交通安全管理的科学性与有效性。
基金项目
桂林电子科技大学大学生创新创业训练计划项目(S202410595327)资助。
NOTES
*通讯作者。