1. 引言
石油化工产业隶属于高危型产业的范畴,近年来随着信息化技术的发展,企业积累了大量的事故事件报告数据,但文本挖掘技术的不足限制了事故事件资源利用的程度。运用数据挖掘技术可以提高事故分析效率,如今国内很多学者基于数据挖掘方法的思路对事故原因进行了分析,如齐世伟[1]运用网络文本挖掘的方法对5.12汶川地震的网络文本进行了研究,分析了汶川地震中网络文本所关注的重点事件,并根据词节点的相互相关性得出了事件之间的相互关系;薛楠楠等[2]基于文本挖掘技术和R语言,对建筑施工安全事故报告进行分析,得出了8项建筑工人不安全行为和27项影响因素。
人为因素在油气生产事故中起着重要作用,HFACS模型在事故致因分析领域具有重要的理论价值。多位学者对该模型进行了应用和改进,王玉等[3]运用人因分析与分类系统(HFACS)研究了危化品罐车公路运输事故,并就提升驾驶员行为可靠性提出了建议;陈秀珍等[4]基于HFACS框架,结合塔吊作业特性建立了专门针对塔吊顶升事故的人因分析模型;随着研究的深入,Theophilus等[5]专门针对石油天然气行业开发了改进版HFACS-OGI模型,并通过对美国化学品安全委员会11起事故案例的分析验证了其有效性。高宁[6]基于HFACS模型,结合船舶碰撞事故特点改进框架构建事故致因分析模型,并通过卡方检验和Apriori算法挖掘因素之间的关联规则,为交通运输制定了针对性的预防措施。
为此,本文通过HFACS模型和Apriori关联规则算法的混合学习模型,研究油气生产过程中的事故致因因素,挖掘事故致因的内在机制,为企业和监管部门提供技术支持,促进安全技术创新的发展,提升行业安全性和效率。
2. 数据来源及研究框架
2.1. 数据处理
本文收集了国内某油田公司2016~2022年间所发生的204起生产建设过程事故事件报告,并以此作为数据源。由于油气安全生产事故事件报告中存在记录标准不统一、格式不规范的现象,致使收集的事故信息存在大量冗余内容。为确保研究数据的可靠性和精确性,需对原始数据进行清洗和预处理。具体处理流程包括:首先识别并删除事故调查报告中与不安全行为及其诱因无关的信息项,如事故单位概况、整改建议、调查流程等非关键内容;其次重点保留事故描述、致因分析和责任认定三个核心模块的信息;最后对筛选后的内容进行结构化整合,从而为后续关联规则挖掘算法提供标准化、高质量的数据输入。
2.2. 研究框架
文章在了解当前研究背景、现状以及相关理论知识的基础上,首先以204篇事故事件报告作为数据依托,科学构建了油气生产事故致因模型HFACS。其次,将该模型应用至所有事故报告进行分解与编码,将文本信息转化为0、1编码数据,并进行初步统计分析。最后,以所获取的编码数据为研究对象,运用Apriori算法进行关联规则挖掘,提取事故致因链,并提出了针对性的安全建议。具体技术路线如图1所示。
Figure 1. Technology roadmap
图1. 技术路线图
3. 基于HFACS的油气生产事故模型构建与分析
3.1. 人为因素分析与分类系统(HFACS-OGI)构建
HFACS模型最早是在为提高美军航空飞行安全性的背景下所提出的一种针对人为因素分析的一种事故分析模型[7]。本研究针对油气生产领域的特点,对标准HFACS模型进行了系统性改进,构建了专门的HFACS-OGI模型。改进过程首先深入分析了原模型四个层级(不安全行为、不安全行为前提条件、不安全的监督和组织影响)的内涵及其在航空领域的应用特征,随后通过文献研究系统梳理了油气生产领域在作业环境(高压、易燃易爆等)、工艺流程和组织管理等方面与航空领域的显著差异。基于这些差异分析,重点从组织影响层新增“承包商管理”要素、在监督层强化“工艺安全管理”要求、在前提条件层补充“特殊作业环境”等维度对模型进行针对性优化,最终形成了更符合油气生产特征的人因分析框架。为验证改进效果,研究采用美国化学品安全委员会11起典型事故案例进行回溯性测试,结果显示HFACS-OGI对人为因素的识别率达到90%以上,充分证明了改进模型在油气生产领域的适用性和有效性。
为使HFACS模型理论能够完美适用油气生产,首先需要我们对HFACS模型因素的内容和描述进行深入的分析理解,其次了解油气生产事故的发生机制与航空领域的异同。在理解HFACS模型原理的基础上,结合油气生产事故特征相关研究成果,对原模型进行针对性优化,最终构建了专门适用于油气生产领域的人为因素分析与分类系统(HFACS-OGI)。
基于上述分析,将油气生产人为因素分析与分类系统(HFACS-OGI)分为4类。
1) 组织影响。“组织影响”层是导致事故发生的隐形因素,位于整个HFACS-OGI模型的顶层[6]。在标准HFACS模型中,组织影响层包含“资源管理”、“组织氛围”、“组织过程”三类因素。结合油气生产隐患报告的词频统计、报告内容分析及其他参考资料,本文就该三类因素进行了进一步细分,并最终提取了8个因素,该层具体结构及各因素的定义与描述见表1。
2) 不安全的监督。“不安全的监督”同样是导致事故发生的隐形因素[6]。基于HFACS-OGI模型框架,结合油气生产事故特点,“不安全的监督”可进一步划分为“监督不充分”、“运行计划不当”、“未及时纠错”以及“监督违规”四个方面。就该四类因素进行了进一步细分,并最终提取了6个因素。
3) 不安全行为的前提条件。“不安全行为的前提条件”会直接影响下层因素“不安全行为”出现的概率,同样属于事故发生的隐形因素,主要由“人员因素”、“操作者状态”和“环境因素”三类构成[6]。明晰不安全行为的前提条件,可以减少不安全行为的发生。综合词频统计及事故特点,本文可就此三类因素进行进一步提取,分解为6个相关指标。
4) 不安全行为。“不安全行为”主要指在参与油气生产过程的工作人员的不安全动作[6]。与其他致因层不同,该层是造成事故产生的最直接原因,属于事故发生的显性因素。就该四类因素进行了进一步细分,并最终提取了3个因素。
3.2. 事故记录的分解与编码
基于3.1构建的油气生产HFACS模型框架,本研究选取204起事故事件报告作为分析样本,旨在系统探究事故成因及各因素间的关联特性。为确保数据提取的准确性和有效性,研究采用以下标准化处理流程:首先进行数据解析处理,重点对事故报告中的关键描述信息进行要素分解和编码转换。
1) 要素分解阶段:严格对照HFACS模型中各因素的定义标准,从事故报告中识别并提取主要致因因素;
2) 编码转换阶段:采用二进制编码规则(0/1制),当事故报告中存在与HFACS模型某因素相符的描述时,将该事故编号下对应因素编码为“1”,否则记为“0”。
经过对原始隐患数据的系统分析并参照HFACS-OGI模型完成编码后,最终形成完整的事故编码数据集,详见表1所示。这一编码体系为后续的关联规则挖掘提供了规范化的数据基础。
Table 1. Example of reason text encoding
表1. 原因文本编码示例
致因层 |
原因分析 |
编码 |
组织影响(A) |
资源管理 |
人力资源(A1) |
0 |
设备资源(A2) |
1 |
组织氛围 |
企业文化(A3) |
0 |
续表
|
|
组织结构(A4) |
0 |
规章制度(A5) |
0 |
组织过程 |
承包商管理(A6) |
0 |
运营管理(A7) |
1 |
风险管理(A8) |
0 |
不安全的监督(B) |
监督不充分 |
缺乏监督制度(B1) |
0 |
监督工作不够重视(B2) |
1 |
运行计划不当 |
工艺安全管理(B3) |
0 |
未及时纠错 |
隐患排查不到位(B4) |
1 |
安全问题未及时处理(B5) |
0 |
监督违规 |
故意违反监督规定(B6) |
0 |
不安全行为的前提条件(C) |
人员因素 |
个人准备不足(C1) |
0 |
管理不当(C2) |
0 |
操作者状态 |
心理状态(C3) |
0 |
特殊作业环境(C4) |
0 |
环境因素 |
意外天气或自然灾害(C5) |
0 |
基础设施状况(C6) |
1 |
不安全行为(D) |
差错 |
技能差错(D1) |
0 |
决策与感知差错(D2) |
0 |
违规 |
违反制度规则(D3) |
0 |
根据示例分解与编码过程,对204条油气生产事故报告进行分析,建立油气生产事故数据库D,包含204条事故致因,记为countD = 204。每条隐患记录含有唯一的事故编号TID (TID = 1, 2, …, 204)。
3.3. 事故致因因素的统计与分析
为深入分析事故成因特征,本研究基于前期编码构建的油气生产事故致因数据库开展统计分析工作。依据各失效层级及原因类别的定义标准,系统考察了事故成因及致因因素的分布规律,并完成分类统计处理,详细数据如表2所示。
表2统计结果显示,“组织影响”层级在事故致因中占据主导地位。“资源管理”和“组织过程”两个维度均呈现高频致因特征;在“不安全监督”层级中,“监督不充分”和“未及时纠错”问题最为突出。深入分析表明,监督工作不够重视是导致监督失效的主要原因,隐患排查不到位是导致未及时纠错的主要问题;“不安全行为的前提条件”层级作为直接诱发不安全行为的关键环节,其“人员因素”类别包含的致因变量最为丰富。统计发现,“个人准备不足”问题频发,凸显出作业人员专业知识储备和规程掌握程度的重要性;同时,“管理不当”因素也显著影响作业安全。作为事故发生的直接诱因,“不安全行为”层级各因素均具有较高占比,其中“决策与感知差错”问题尤为突出。研究表明,作业人员在突发情况下容易产生紧张情绪,导致判断失误和操作偏差,进而无法采取正确的应急处置措施,最终危及生产安全。
Table 2. Statistics and analysis of accident causation factors
表2. 事故致因因素的统计与分析
致因层 |
事故致因 |
频数 |
在所属致因层占比 |
占比 |
组织影响 (A) |
资源管理 |
人力资源(A1) |
87 |
15.85% |
6.67% |
42.10% |
设备资源(A2) |
83 |
15.12% |
6.37% |
组织管理 |
企业文化(A3) |
21 |
3.83% |
1.61% |
组织文化(A4) |
12 |
2.19% |
0.92% |
规章制度(A5) |
70 |
12.75% |
5.37% |
组织过程 |
承包商管理(A6) |
64 |
11.66% |
4.91% |
运营管理(A7) |
129 |
23.50% |
9.89% |
风险管理(A8) |
83 |
15.12% |
6.37% |
不安全的监督(B) |
监督不充分 |
缺乏监督制度(B1) |
27 |
8.23% |
2.07% |
25.15% |
监督工作不够重视(B2) |
98 |
29.88% |
7.52% |
运行计划不当 |
工艺安全管理(B3) |
38 |
11.59% |
2.91% |
未及时纠错 |
隐患排查不到位(B4) |
89 |
27.13% |
6.83% |
安全问题未及时处理(B5) |
42 |
12.80% |
3.22% |
监督违规 |
故意违反监督规定(B6) |
34 |
10.37% |
2.61% |
不安全行为的前提条件(C) |
人员因素 |
个人准备不足(C1) |
68 |
29.31% |
5.21% |
17.79% |
管理不当(C2) |
70 |
30.07% |
5.37% |
操作者状态 |
心理状态(C3) |
19 |
8.19% |
1.46% |
特殊作业环境(C4) |
11 |
4.74% |
0.84% |
环境因素 |
意外天气或自然灾害(C5) |
10 |
4.31% |
0.77% |
基础设施状况(C6) |
54 |
23.28% |
4.14% |
不安全行为(D) |
差错 |
技能差错(D1) |
57 |
29.23% |
4.37% |
14.95% |
决策与感知差错(D2) |
91 |
46.67% |
6.98% |
违规 |
违反制度规则(D3) |
47 |
21.10% |
3.60% |
4. 基于Apriori算法的油气生产事故致因分析
4.1. 数据预处理
4.1.1. 词库构建
不同的文本数据具有不同的文本特点,许多专有名词不存在于传统词典之中,因此需要有针对性地建立专业词典[8]。就本文所研究油气生产监督检查报告而言,存在大量未被收录至分词词库的油气领域的专业词汇、特殊缩写等等。因此,为保证文章分词的效率和精度,在分词前需要根据实际需要建立油气专业词库[9]。
此外,由于文本数量较多,若对分词结果无限制会产生大量无实义的词汇,不仅会导致数据量的增大同时会干扰分析结果[10]。因此,需要提前建立停用词典,对与事故致因无关的词汇进行剔除,提高后续词频统计的有效性。
4.1.2. 文本分词
在自然语言的处理过程中,为更好地分析句子特性,往往采用分词的方式进行处理[11]。作为文本分析的首要步骤,分词处理的质量对整个分析过程具有决定性影响,其精确度直接关系到后续分析结果的可靠性。本研究基于Python编程环境,选用专门针对中文文本设计的Jieba分词工具包对事故文本进行分词处理。为优化分词效果,研究特别引入了油气领域专用词典和停用词表,通过这种方式有效提升了专业术语识别能力和无关词汇过滤效率。
4.1.3. 词频统计与分析
关键词分析是文本研究的核心环节。本研究基于分词处理结果,通过系统整理共提取268个有效关键词,其中高频关键词(出现频次 > 10)共计23个,其分布特征如图2、图3所示。通过对这些关键词的深入解析,可以识别出与油气生产事故密切相关的潜在致因因素。
Figure 2. Partial keyword occurrence frequency chart
图2. 部分关键词出现频次图
Figure 3. Keyword word cloud map
图3. 关键词词云图
4.2. 致因因素分析
通过Aproori算法对事故致因因素进行关联规则挖掘,并利用Gephi软件,对挖掘到的163条满足条件的油气生产事故关联规则进行可视化,如图4所示[12]。基于支持度、置信度和提升度三项关键指标,对关联规则进行筛选和评估,重点选取具有显著统计意义的规则进行深入解析。在高支持度关联规则分析环节,主要识别出在事故记录中出现频次较高的风险致因组合。这些高频出现的致因因素往往预示着油气生产系统中存在的共性安全隐患,其持续存在极易使生产系统处于潜在风险状态;高置信度关联规则的分析中,反映的是一些可靠的因果关系,高提升度关联规则反映了正相关和负相关的因素组合[13]。
Figure 4. Schematic diagram of association rules
图4. 关联规则示意图
4.3. 油气生产事故关联特性研究
高支持度关联规则表明了因素之间频繁的关联关系,支持度越高规则越强[14]。表3展示了排名前10的高支持度关联规则,可以看出管理人员→安全意识淡薄,表示管理人员有很大概率会出现安全意识淡薄的情况。在实际生产活动中,存在着因管理人员安全意识淡薄从而导致致因因素的出现,进而引起事故发生。同理,其他强关联规则也具有相关特性。因此,需要对这些关联性较高的致因因素加以管理和预防,从而减少这些危险致因因素向下演化。
Table 3. High support association rules
表3. 高支持度关联规则
序号 |
antecedents |
consequents |
support |
confidence |
lift |
1 |
管理人员 |
安全意识淡薄 |
0.00664 |
0.367 |
17.2 |
2 |
温度过载 |
UPS服务器 |
0.00613 |
0.706 |
27.1 |
3 |
捆绑不牢 |
吊装事故 |
0.00562 |
0.379 |
19.6 |
4 |
焊缝损伤 |
天然气管道刺漏 |
0.00510 |
0.435 |
25.8 |
5 |
焊缝损伤 |
天然气泄露 |
0.00499 |
0.400 |
8.8 |
6 |
车辆失控 |
交通事故 |
0.00459 |
0.760 |
27.2 |
7 |
车速过快 |
交通事故 |
0.00408 |
0.800 |
22.7 |
8 |
安全意识淡薄 |
燃气管道破裂 |
0.00408 |
0.400 |
37.3 |
9 |
设备带病工作 |
报警 |
0.00408 |
0.500 |
19.2 |
10 |
碾压管线 |
燃气管道破裂 |
0.00406 |
0.710 |
27.7 |
高置信度关联规则说明因素之间置信度较高的关联规则,即前项有较大的可能引发后项[15]。表4展示了排名前10的高置信度关联规则。根据分析,捆绑不牢有较大可能引起吊装事故,在某起吊装作业事故中,由吊物坠落引起的吊装事故中,有较大的比例是由捆绑不牢引起的;类似地,由受力挤压引起的管道破裂,有很大的可能是有回填措施存在问题引起的;当发生着火事件时,百分百是由种田烧荒和草坪被点燃引起的。在历史事故中,这些因素之间关联程度很高,需要在事故预防过程中重点防范这些因果关系,即前项的发生很大比例导致后项的发生[16]。为防止致因因素向下演化,在吊装作业中应严格执行捆绑工艺标准并实行双人核查;对管道回填实施专项质量检查;在火灾易发期强化野外用火巡查管控。通过重点防控这些高发事故的关键诱因,可有效提升安全管理水平。
Table 4. High confidence association rules
表4. 高置信度关联规则
序号 |
antecedents |
consequents |
support |
confidence |
lift |
1 |
种地烧荒 |
着火 |
0.00322 |
1.000 |
3.7 |
2 |
草坪被点燃 |
着火 |
0.00332 |
1.000 |
7.1 |
3 |
捆绑不牢 |
吊物坠落 |
0.00233 |
0.946 |
98 |
4 |
回填措施存在问题 |
管线破裂 |
0.00354 |
0.838 |
5.8 |
5 |
电源线老化 |
插座着火 |
0.00193 |
0.801 |
18.8 |
6 |
吊装超重 |
吊装事故 |
0.00260 |
0.798 |
10.2 |
7 |
电压不平衡 |
供电线路异常 |
0.00403 |
0.764 |
2.7 |
8 |
车辆失控 |
交通事故 |
0.00459 |
0.760 |
27.2 |
9 |
腐蚀穿孔 |
天然气刺漏 |
0.00343 |
0.742 |
9.9 |
10 |
埋深较浅 |
光纤断裂 |
0.00303 |
0.738 |
17.2 |
高提升度关联规则说明因素之间提升度较高的关联规则,即提升度反映了关联规则中的前项与后项的相关性,提升度 > 1且越高表明正相关性越高,提升度 < 1且越低表明负相关性越高,提升度 = 1表明没有相关性[13]。表5展示了排名前10的高提升度关联规则。根据分析,在高提升度关联规则中,提升度最高的是埋深不足与PE管线、施工过程与监管不到位、捆绑不牢与吊物坠落和标准化场站与标准低。这说明这两个因素之间有很强的正相关性,即如果埋深不足很有可能会导致PE管线破裂进而导致天然气泄漏,如捆绑不牢很有可能导致掉物坠落进而导致吊装事故发生。因此,油气生产管理者应该加强对PE管线埋深以及吊装作业捆绑的监督和执行,以确保PE管线破裂和吊物坠落事故的发生。从事故防控角度来看,过对提升度大于1的关联规则采取针对性的技术措施和管理手段进行有效控制和主动预防,可以有效降低后续因素的触发概率,从而减少油气生产系统中各类事故的发生概率和危害程度。
Table 5. High lift association rules
表5. 高提升度关联规则
序号 |
antecedents |
consequents |
support |
confidence |
lift |
1 |
埋深不足 |
PE管线 |
0.00222 |
0.231 |
116 |
2 |
施工过程 |
监管不到位 |
0.00132 |
0.342 |
116 |
3 |
捆绑不牢 |
吊物坠落 |
0.00233 |
0.946 |
98 |
4 |
标准化场站 |
标准低 |
0.00154 |
0.538 |
72.4 |
5 |
超负荷 |
吊车 |
0.00193 |
0.301 |
65.9 |
6 |
未预留间隙 |
UPS电池组故障 |
0.00260 |
0.698 |
58 |
7 |
接触器过载 |
交流接触器烧毁 |
0.00403 |
0.464 |
58 |
8 |
捆绑不牢 |
吊物 |
0.00204 |
0.360 |
49.3 |
9 |
管道检测仪 |
检查存在缺陷 |
0.00343 |
0.242 |
38.6 |
10 |
腐蚀 |
管壁减薄 |
0.00303 |
0.538 |
37.8 |
5. 结论
油气生产安全事故通常并非由单一因素引发,而是呈现出多因素协同作用、逐步演化的动态特征。本文对国内某油田公司2016~2022年间所发生的204起生产建设过程事故报告进行统计和分析,通过结合HFACS-OGI与Apriori关联规则挖掘的结果,对油气生产事故致因因素进行分析,以期为油气生产企业提供相关参考。相关结论如下:
1) 在HFACS-OGI模型中,“组织影响”是最关键的致因层级,“不安全监督”层和“不安全行为的前提条件”层次之,“不安全行为”层的影响最小。
2) 通过关联规则挖掘发现,油气生产事故的致因网络中存在多层次的确定性关联和系统性漏洞。从事故预防上来看,应结合强关联规则分析结果,优化安全管理策略:先干预高置信度因果链,建立动态预警机制;针对高提升度组合制定专项检查标准;通过常态化安全培训解决意识淡薄这一共性根源问题。
基金项目
重庆科技大学研究生创新计划项目“基于关联规则挖掘和复杂网络混合模型的油气生产事故致因分析”(YKJCX2420717)。
NOTES
*通讯作者。