1. 引言
为加速煤矿智能化进程,全面提升我国煤矿智能化技术水平,2020年3月国家发展委联合其他7个部委发布了《关于加快煤矿智能化发展的指导意见》[1] [2]。这一指导意见明确指出,将煤矿智能化作为煤炭工业高质量发展的核心技术,而液压支架电液控制系统则是直接关系到综采工作面的智能、安全与高效生产[3]。液压支架电液控制器的硬件可靠性直接影响整个电液控制系统的稳定性,其硬件故障可能导致误操作、功能失效、通信中断及系统崩溃等问题[4]。因此开发具备上电硬件自检系统的液压支架控制器对于维护工作面生产安全、提高检修效率显得尤为重要。这也是对提升工作面的智能化与无人化水平、增强其运行的安全性与稳定性的重要助力[5] [6]。
目前网络型液压支架控制器,作为综采工作面三机的关键组件,肩负着工作面内支架动作,支架自动跟机、支架自动推溜拉架、工作面设备通信和工作面设备软件版本管理的重任。液压支架控制器通过串行通信总线和实时以太网完成了工作面各种传感器、无线设备以及驱动单元间的互联互通[7] [8],液压支架控制器与这些设备通信则涉及CAN、BR以太网、RS-485、RS-232、ZIGbee、蓝牙、低频LF、红外等多种方式,结构较为复杂[9]-[11]。
目前,许多液压支架控制器的硬件检测和故障诊断仍然依赖人工下井,对各种传感器和驱动器进行对比和操作检查。但这种人工故障排查效率十分低下,较大影响了工作面的生产效率且还会引入人工操作带来的不确定因素。而液压支架的硬件自检系统能够显著提升故障检测效率,在设备运行过程中便可准确定位故障硬件的位置,并通过启动干预和急停闭锁操作,提高整个工作面的运行稳定性和安全性。
2. 矿用液压支架控制器硬件自检方案
矿用液压支架通过接收来自不同位置的各类传感器信号和操作指令信号,以及对输入信号进行处理分析,从而获取整个工作面液压支架工况、采煤机工况和人员信息。通过先进的控制算法和技术,控制器能够精确实时控制支架液压系统实现对液压支架的智能化控制。根据煤矿生产的实际情况和工作要求,控制器可以自动调整控制策略,以达到最优的控制效果,提升煤矿生产的效率。
2.1. 液压支架控制器组成
液压支架控制器的功能模块如图1所示。其主要外接设备有电磁阀驱动器、车载以太网(BR以太网)、测高传感器、压力传感器、行程传感器、倾角传感器、近感传感器、温度传感器、云台摄像仪、WIFI模块、声光报警器等且液压支架控制器内部还包含红外传感器、zigbee通信模块、蓝牙模块、LF低频通信模块、CAN通信模块等[12]-[14]。而目前市面上正被重点关注的网络型液压支架控制器通常还具备程序在线管理的功能[15] [16]。煤矿综采工作面内严格的安全要求为液压支架众多功能功能模块工作的稳定、可控带来了更多挑战。而对液压支架控制器内部和外设硬件进行启动自检,则是综采工作面内设备安全稳定运行的重要保障。
Figure 1. Schematic diagram of the hardware of the hydraulic support controller peripherals of the fully mechanized mining face
图1. 综采工作面液压支架控制器外设硬件示意图
Figure 2. Schematic diagram of the hardware self-test item of the hydraulic support controller
图2. 液压支架控制器硬件自检项目示意图
液压支架控制器采用MCU芯片作为控制器系统的微控制器,支持32 MB内存、16 MB外置FLASH和256 MB固态存储NandFLASH和eeprom等存储设备。采用12位数模转换器(ADC),支持车载以太网口、CAN总线、I2C总线和SPI总线拓展以及RS-485和RS-232串口(UART),面板支持3路网口和5路模拟量接口以及一个RS-485传感器拓展口。
为了在结构较为复杂的液压支架控制器硬件系统发生故障时更快定位故障源,则需要以产品设计的思考模式对液压支架控制器的硬件自检范围进行归纳总结。液压支架控制器硬件自检的主要信息包括控制器内部处理器外设信息、控制器外设信息和内存信息。其自检信息分布图如图2所示。
2.2. 硬件自检方案
1) 处理器及其外设自检
对液压支架控制器系统而言,硬件自检的首要问题是处理器和内存的功能检测。这一问题直接影响系统功能运行的可靠性。在装置上电后,CPU首先执行预先编写的指令块,其中包括算术运算、逻辑运算、寻址操作等。若运算结果与存储在FLASH中的正确值不一致,则置位CPU错误标志;CPU自检错误状态下,液压支架控制器会直接重启,如果超过三次自检错误,则会在控制器显示界面显示CPU故障,并开启闭锁状态以防对工作面内临架设备产生干扰。
除此之外处理器硬件自检系统还需要对液压支架控制器的外设如:GPIO、SPI、I2C、UART、CAN和交换机接口进行自检。这些外设接口一般会连接其他承担液压支架控制器具体功能的其他模块,因此其自检介绍将在后文控制器主要功能模块自检处介绍。
2) 存储设备自检
存储器硬件自检的主要目的在于解决储存设备在运行过程中可能出现的意外错误问题,从而有效防止由于存储器错误导致的程序逻辑异常。在本文中使用两种方式实现存储器硬件自检:Flash内存启动自检和存储器读写自检。首先,Flash内存启动自检包括数据内存自检、指令内存自检以及Flash代码文件的校验。具体而言,数据内存自检涉及对保护定值、系数表、关键全局变量及指针等数据的检查和验证;指令内存自检则关注在运行过程中RAM代码的准确性和Flash代码校验。其功能示意图如下图3所示。
Figure 3. Schematic diagram of Flash and memory self-test
图3. Flash和内存自检示意图
除此之外,存储器读写自检又包括SDRAM的随机区域读写准确性自检和读写速率自检两方面。例如,SDRAM自检确保内存中的数据能够准确读写,并测量读取和写入数据的速度;Flash自检则包含对Flash备份区域的自检和关键位置数据校验,以确保数据的完整性和一致性。而对于NandFlash和EEPROM自检,则是针对指定位置进行读写准确性及读写速率的检测,确保数据存取始终稳定可靠。在处理器运行的过程中,RAM中运行期间不变的代码空间和部分数据空间,可以通过对比不同存储器中关键位置的数据进行校验,以确保数据无误。以液压支架控制器集成MCU板卡为例,其程序文件通常存储于Flash中。程序文件一般分为BOOT引导程序和应用程序两个部分。板卡上电启动后,处理器首先从BOOT引导程序开始执行,将Flash中的程序块解析并加载到不同的内存区域。完成这一步骤后,处理器会自动跳转至应用程序并开始执行。
存储器的读写自检则在系统上电启动后进行操作。具体步骤包括在内存、Flash、NandFlash和EEPROM的非关键占用区域内随机划分出一块指定大小的存储区域进行读写测试。这一过程不仅校验读写缓存区内数据的一致性,同时也计算出各种存储器读写操作的数据传输速率。通过这样的自检机制,可以有效提升系统的稳定性和可靠性,确保设备在运行中的数据准确无误。
Table 1. Indicator table of hardware fault self-check items
表1. 硬件故障自检项目指标表
设备类型 |
自检项目 |
自检指标 |
存储设备 |
SDRAM |
读速度大于10 MB/s,写速度大于20 MB/s,随机单扇区读写无误 |
存储设备 |
EEPROM |
读速度大于2 KB/s,写速度大于10 KB/s,随机单扇区读写无误 |
存储设备 |
NorFLASH |
备份区域内读写无误 |
功能组件 |
加密芯片 |
版权信息、芯片型号信息获取成功 |
存储设备 |
NandFLASH |
读速度大于1 MB/s,写速度大于1 MB/s,随机单扇区读写无误,文件系统初始化成功 |
外设 |
背板模拟量 |
模拟量数值处于0~3.3 V之间 |
功能组件 |
交换芯片 |
交换芯片UID获取成功 |
功能组件 |
ZIGBee |
ZIGbee应用版本和Boot版本获取成功 |
外设 |
串口拓展 |
拓展芯片UID获取成功 |
外设 |
内置温度传感器 |
温度信息处于正常范围 |
功能组件 |
RTC |
时间信息获取成功,且处于合理范围 |
外设 |
键盘 |
键盘各按键返回值正常 |
3) 控制器主要功能模块外设自检
液压支架控制器需连接多种外设设备,主要包括电磁阀驱动器、各类传感器、摄像设备及各种通信模块等。在与这些外设设备协同工作时,液压支架控制器通常需要使用诸如GPIO、SPI、I2C、UART、CAN和MII等通信接口。所涉及的外设不仅限于内部存储设备如CPU片内Flash,还包括模数转换设备、Zigbee和蓝牙等无线通信设备,以及外接时钟芯片和加密芯片等。对这些设备和通信接口进行自检时,常将外设功能模块与对应通信接口视为一个完整的功能自检单元。
这些功能自检单元的自检方式主要分为两类:一类是外接设备的特定标志位数据读取校验,另一类是CPU与外接设备按照一定协议进行功能互动。例如,交换机设备、加密芯片、外接实时时钟、Flash和EEPROM均通过特定标志位数据读取校验实现自检。具体而言,交换机会读取其设备版本序列号,加密芯片则会读取其中保存的设备IP和子网掩码数据;外接实时时钟会读取其出厂时间和当前时间,Flash则读取其特定地址区域以检查备份信息,EEPROM则读取其特定位置的常用参数。
对于数模转换和模数转换模块、键盘板串行通信接口、传感器串行通信接口(包括RS-485,RS-232和I2C扩展TTL串口)、Zigbee通信模块、蓝牙通信模块及低频LF通信模块,其功能自检主要通过CPU与外接设备按照既定协议进行功能交互来实现。例如,通过将各种外设转化的模拟量和数字量转换后信息是否处于合理区间来判断数模转换和模数转换模块的功能是否正常。同样的方法也可以用于键盘串行通信接口和传感器串行通信接口的功能自检。而Zigbee通信模块、蓝牙通信模块和低频LF通信模块的功能自检则需要CPU通过特定协议与对应功能模块通信,检验其固件版本号和通信速率来确保其正常工作。通过这些硬件自检操作,我们可以确保液压支架上的处理器、储存设备和各种硬件外设功能正确性,并确保整个液压支架控制器系统的可靠性。这对于保障系统的正常运行以及提高整个系统的性能至关重要,同时也提供了良好的使用体验和安全保障。本硬件上电测试系统的部分测试项目和测试指标如表1所示。
3. 矿用液压支架控制器系统自检软件
3.1. 上电硬件自检分级处理
本文重点探讨液压支架控制器在故障检测领域中的上电硬件自检设计。实际生产中,综采工作面的液压支架控制器上电后的一系列系统操作必须满足井下严格的安全规定。因此,本文的液压支架控制器上电自检软件设计遵循不同硬件异常的“三级分类”原则。具体来说,依据液压支架控制器各硬件在整个工作流程中的系统优先级,对上电自检过程中检出的各种硬件异常进行分级处理。
最高级异常:若检测出此类硬件异常,液压支架控制器系统将直接重启。如果重启两次后异常仍存在,则向工作面所有机器广播异常状态,并立即触发急停。
中间级异常:若检测出此类硬件异常,液压支架控制器将直接重启。重启后若仍有异常,则向工作面广播该异常状态,并使该液压支架控制器进入闭锁状态。
较次级异常:若检测出此类硬件异常,系统将正常启动,同时向工作面广播该设备的异常状态。
除了“三级分类”处理外,液压支架控制器还会在检测到硬件故障后在屏幕上显示提示信息并将每次上电自检的各项结果以自检日志的形式存储在NandFlash的指定位置。其中,正常的自检结果将简单地记录日志,而异常结果则会连同自检过程中的具体异常参数一并记录在日志中。此记录原则适用于所有三级自检异常项目。
3.2. 上电硬件自检软件设计
液压支架控制器上电硬件自检软件设计的方案如下:液压支架控制器在上电启动之后首先对控制器系统和硬件进行初始化,随后对自检系统进行初始化。值得注意的是这个初始化过程位于boot加载和应用程序启动之间,这样避免了自检对应用程序的干扰,以降低程序安全风险。
初始化完成后,则依次对供电模块、时钟、Flash、内存、EEPROM、AD转换模块、交换级、键盘、电磁阀驱动器、CAN、车载以太网、ZIGbee、蓝牙、LF低频、传感器和NandFlash依次进行硬件自检,并根据不同功能模块的“三级分类”策略,对不同等级的故障进行不同的处理。
最高级和中间级硬件异常会直接打断液压支架控制器的启动进程,阻止液压支架控制器应用程序启动,并分别向工作面总线上发送设备急停和本架闭锁信号,由此保证硬件故障不会给综采工作面的日常生产带来安全风险。
无论液压支架控制器是否通过上电硬件自检,自检的运行结果都将全部保存在自检日志中。上电硬件自检流程如图4所示。液压支架控制器上电硬件自检通过上述设计,即可在保证综采工作面安全的情况下确保液压支架控制器在上电自检过程中对各种硬件异常进行及时有效的处理,以提升液压支架控制器系统的安全性和可靠性。
Figure 4. Flow chart of the hardware self-test software powered on the bracket controller
图4. 支架控制器上电硬件自检软件流程图
4. 试验及结果分析
为了验证本文所介绍的液压支架控制器上电硬件自检系统的效果,我们搭建了一个试验平台。在该平台上,按照综采工作面的安装方式级联了24台液压控制器,并分别将各台控制器的架号配置为1至24号,同时将各台控制器的IP地址配置在同一个广播域中。所使用的液压支架控制器型号为ZDYZ-Z(G)。实验平台如图5所示。
为尽可能地模拟综采工作面的实际生产场景,实验平台在安装方式、外设类型和配套参数等方面都尽量贴合生产实际。该实验平台搭载了24台液压支架控制器,控制器之间通过4米的四芯架间线连接。同时,每四台控制器之间进行了电气隔离处理。
本实验平台可通过改写控制器各功能组件的特殊标志位来模拟各类功能组件的故障。每次在实验平台上随机抽取一台控制器按照故障设计配置特定故障,并进行上电自检实验,每类故障实验需要重复5次,所设置的故障及自检系统对各类故障的响应情况如表2所示。实验结果表明,系统能够顺利识别出各类故障,并按照“三级分类”原则迅速处理这些故障。
Figure 5. The actual scene diagram of the hardware self-check experimental platform for the hydraulic support controlle
图5. 液压支架控制器硬件自检实验平台实景图
实验表明,系统在检测不同等级硬件异常时所需的平均自检(从设备上电到界面显示故障)时间分别为:最高级硬件异常为31.7秒(从上电到触发急停),中间级硬件异常为13.5秒(从上电到触发故障显示),较低级硬件异常为7.8秒(从上电到进入应用程序加载界面)。
Table 2. Experimental result table for hardware fault self-check
表2. 硬件故障自检实验结果表
故障编号 |
故障设置方法 |
故障分级 |
响应时间 |
1 |
修改RTC的时间为异常值 |
中间级 |
11.4 s |
2 |
修改Flash备份区的各关键校验标志位为异常值 |
中间级 |
14.3 s |
3 |
修改支架动作相关的EEPROM值为异常值 |
最高级 |
30.8 s |
4 |
修改非支架动作相关的EEPROM值为异常值 |
中间级 |
15.3 s |
5 |
飞线接地AD模块连接控制器的SPI信号接口 |
中间级 |
12.6 s |
6 |
飞线接地键盘连接控制器的RS-232信号接口 |
中间级 |
14.3 s |
7 |
飞线接地交换机连接控制器的SPI信号接口 |
中间级 |
13.6 s |
8 |
飞线接地电磁阀驱动器的RS-485信号接口 |
最高级 |
32.5 s |
9 |
飞线接地双线CAN差分信号线 |
中间级 |
13.2 s |
10 |
飞线接地车载以太网的差分信号线 |
中间级 |
13.5 s |
11 |
飞线接地无线通信模块的RS-232信号接口 |
较次级 |
6.9 s |
12 |
NandFlash检测区域内标志位写入异常值 |
较次级 |
8.8 s |
鉴于急停和闭锁会显著影响工作面的生产,最高级和中间级硬件异常的自检时间对生产过程的影响较大。因此仅较低级硬件异常的自检过程对时间较为敏感。然而,7.8秒的上电自检时间对综采工作的整体生产影响不大。实验过程中各种响应等级的故障信息都被完整记录在自检日志中,自检日志文件中的部分内容经过解密后如图6所示。
Figure 6. Log diagram of hardware self-check upon power-on of the support controller
图6. 支架控制器上电硬件自检日志图
5. 结论
1) 本文设计了一种用于矿用液压支架控制器的上电硬件自检系统,并通过工业级液压支架控制器实验平台的试验验证了其有效性。
2) 本文设计了一种用于综采工作面液压支架控制器的硬件故障自检“三级分类”方案,在不增加井下工作面生产安全风险的前提下,实现了对液压支架控制器的硬件故障诊断和故障定位。该方案提高了液压支架控制器的故障排查效率,增强了工作面的生产安全性,并间接提升了总体生产效率。
3) 本文方案在设计方面尚存在一些不足之处。当工作面所有设备同时进行断电、上电重启操作时,各台控制器未必会严格按照连接顺序依次启动。在极端情况下,当本台控制器进行第二次重启并进入自检模块时,相邻支架的控制器可能尚未启动,这有可能导致临架间通讯硬件故障的误判。在后续工作中,将针对这一问题进行专门的优化处理。