1. 引言
智能农业管理已经成为大势所趋,人工智能的应用使农业管理更加智能化和高效化。通过传感器和无人机等技术,农民可以实时地监测到土壤的湿度、养分含量和作物健康状况。人工智能算法可以分析这些数据,并提供精确的施肥、灌溉和病虫害防治建议,减少对环境资源的浪费。可见,农业信息管理技术已被广泛用于农业的方方面面,成为提高农业生产力和充分利用农业资源的最有效手段和工具,这将直接影响到农业信息化程度和农业生产决策的效率[1]。粮食是人类生存的基本需求,也是国家战略物资中至关重要的一部分。农业的发展应当置于所有经济活动的首要位置。尽管目前全球每年收获的粮食已经超过了20亿吨,但由于不善的粮食存储管理,全球粮食总产量损失高达三分之一[2]。其中,缺乏对粮食水分含量的控制、高温和虫害是造成损失的三个主要因素[3]。在粮食安全储存方面,控制温度和水分含量是至关重要的。粮食温度是反映粮食状况的一项重要指标,因此对粮食温度的准确预测和控制显得尤为重要[4]。这一研究旨在提高粮食储存管理的效率,减少因管理不善导致的粮食损失,为确保粮食安全储存提供科学依据。
对于粮堆温度预测,目前通常采用数据驱动的解决方案。Wang采用最小二乘法的傅立叶级数预测模型,结合最小二乘法预测了粮堆平均温度,表现出较高的精度[5]。Duan利用气象数据和机器学习算法:支持向量回归(SVR)方法和自适应增强(AdaBoost)方法来预测粮食堆的平均温度,通过主成分分析对数据进行降维,降维后取得了较高的精度[6]。Patrick提出利用深度学习LSTM预测储粮温度的优化模型,得出单个隐藏层可以获得与多层LSTM相同或更好的结果[7]。Zhang基于改进遗传算法的粮仓温度湿度PID控制,实现粮仓温度湿度的全局优化和有效控制[8]。Liang基于RNN-LSTM的粮仓温湿度预测模型研究中,输入三个温度和两个湿度,使用SPSS进行主成分分析,对收集到的数据进行处理,建立模型得到了很好的预测结果[9]。这些方法为粮堆温度预测提供了多样化的研究途径,有助于深入了解和解决粮堆温度管理所面临的挑战。
以观测数据为基础的数据驱动方法属于黑盒模型,因其良好的可操作性和建模精度而在预测领域备受青睐。然而,采用黑盒模型获得预测结果虽然精度高,但其准确性受数据样本影响,建模过程缺乏解释性,内部参数和结构不容易被理解[10] [11]。为了解决这些问题,本文提出了一种新的灰盒模型解决方案。灰盒模型是通过模型自身的机制进行构建的,并且利用数据的样本对模型进行优化,以确保其准确性[12] [13]。然而,灰盒模型在数据科学和领域知识方面要求用户具有一定水平的专业知识,这对于缺乏领域专业知识的方向不容易实现。BRB是Yang等人提出的一种典型的灰盒模型,它可以利用专家知识和项目工程经验将小样本数据进行融合,具有较高的精度和可解释性。BRB的基础理论包括证据理论和专家系统[14]。将置信度引入在IF-THEN规则中,BRB可以表达多种不确定信息,其中主要包括信息的无知性、随机性和歧义性,这使得BRB可以更灵活地处理不确定性知识[15]。在BRB的推理过程中,采用证据推理(ER)算法[16]来汇总表述出置信规则,该算法能够有效描述、转换和整合各种不确定信息,并产生一致的结论。由于BRB能够接收定性和定量的信息,所以在预测问题中得到了非常广泛应用[17] [18]。Li提出了一种新的基于具有属性可靠性的置信规则库模型的传感器网络健康预测模型,以一个储油罐传感器网络为例,验证了方法的有效性[19];Chen提出了一种基于可解释分层置信规则库(HBRB-I)和全局灵敏度分析(GSA)的处理器性能预测方法,基于UCI数据库处理器数据集,验证了该方法的有效性和优越性[20];Kabir提出了一种新的基于BRBES和深度学习的预测模型,捕捉相关变量之间的非线性相关性来进行大气污染的预测方法[21];Han提出了一种基于可解释置信规则库和区间优化策略的锂电池容量预测模型,并通过实验验证了该模型的有效性[22];Yin提出了一种基于层次置信规则库(HBRB-I)的可解释股票运动预测模型,并基于BRB专家系统构建了几个准则来增加模型的可解释性,最终取得了与初始BRB相似的精度[23]。此外,BRB还在可靠性评估、健康状态评[24]、故障诊断、网络安全状况感知和决策等多个领域取得了广泛应用[25]-[27]。
2. 问题研究
在考虑了模型的准确性和可解释性,建立了具有可解释性的BRB温度预测模型。针对PCA-IBRB预测方法主要面临了三个问题,具体问题如下:
问题1:在实际的预测过程中,影响粮堆温度的指标有很多,然而有些指标的数据可能不容易获取,有些指标则对于粮堆温度的影响程度可以忽略不计。如果将所有的相关属性作为预测指标,则会产生组合规则爆炸问题,并且模型的准确性也会受到一定程度的影响。因此,选取合理的输入属性对于模型的建立非常重要。属性的筛选过程可以表述为:
(1)
其中,X表示所有输入指标集,
表示属性筛选的方法,
表示通过筛选后得到的属性指标集。
问题2:如何在前人提出的BRB可解释性一般准则的基础上,总结出适用于与粮堆温度预测模型的BRB可解释性准则。Cao等人对BRB的可解释性进行了全面分析,并提出了8个通用标准
来指导可解释BRB的建立。这些标准为本次粮堆温度预测模型可解释性准则的建立提供了参考。因此,本文提出了基于粮堆温度预测模型的可解释性准则来确保整个建模过程尽可能具有可解释性。如等式(2)所示:
(2)
其中,C表示可解释准则的集合,n表示标准编号。
问题3:如何根据可解释性标准建立可解释的预测模型。根据所提出的粮堆温度预测的可解释性标准,对模型的每个部分进行必要的调整。在模型构建、推理和优化时,必须充分考虑计算的可靠性以及输入和输出之间的因果关系[28]。即在基于考虑粮堆温度预测过程的可解释性与预测模型的准确性的同时,设计出合理的模型推理和优化过程。
如何构建合理的模型结构,如方程(3)所述:
(3)
其中,
表示模型的输入前提属性。
表示所构建的合理模型结构。
表示构建过程。
如何改进优化算法,如等式(4)所述:
(4)
其中,Ω表示优化过程中的一组参数。
表示根据专家知识设置的可解释约束。Θ表示参数优化的过程。Ωbest表示优化后的最优参数。
最后模型的推理过程描述为等式(5):
(5)
其中,x表示粮堆温度预测模型的输入数据。EK代表专家知识,用于设置规则库参数Ω和
的可解释性参数。y表示粮堆温度预测结果的集合。f表示粮堆温度特性和预测值之间的非线性函数。
其中,粮堆温度预测模型的建模过程如图1所示:
Figure 1. Structure diagram of the grain reactor temperature prediction model
图1. 粮堆温度预测模型结构图
Figure 2. The criterion for the interpretability of the GTP-BRB
图2. GTP-BRB的可解释性标准
3. 基于PCA-IBRB的粮堆温度预测模型
3.1. PCA-IBRB模型的可解释性定义
粮食安全存储对模型的可解释性有很高的要求。目前一些流行的数据驱动模型无法满足粮食温度预测过程的可靠可信的要求。尽管最初的BRB专家系统具有可解释性的优势,但它仍然无法保证其在粮食安全存储中的全局可解释性。因此,在基于Cao等人提出的BRB可解释性一般准则的基础上,提出了11个粮堆温度预测的可解释性准则。考虑BRB的全局可解释性应具体体现在三个方面:模型的构建、推理和优化过程的可解释性。如图2所示。
3.2. PCA-IBRB模型的构建
这BRB是使用Yang等人提出的证据推理方法。在该方法中,第k个IF-THEN置信规则可表示为等式(6):
(6)
其中,
是粮堆温度预测方法的先行属性。
表示参考值。
是第k条规则的权重。L表示规则的数量,
是先行属性的数量。
表示预测结果,
表示置信度,
是模型的可解释性约束。
3.3. PCA-IBRB模型的推理过程
PCA-IBRB是一个结合了长期实践经验中获取的专家知识的粮堆温度预测模型,这是该模型可解释性的一个重要来源。PCA-IBRB模型主要由知识库、推理机和优化模型三部分构成。在PCA-IBRB的推理过程中,将规则激活权重的计算后,推理机利用计算出的规则激活权重,结合ER算法进行进一步的推理分析。ER算法的运用使得PCA-IBRB能够综合考虑多条规则之间的相互影响和权重分配,从而得出一个更加全面和准确的期望效用值,这个期望效用值就是对粮堆温度的预测结果。具体推理过程如下:
步骤1:首先,根据专家以往经验将传感器测量的观测数据转换为置信度分布。置信度分布可以表示为以下等式(7)和(8):
(7)
(8)
其中,输入数据被转换为置信分布S,
表示与
匹配的参考值
的匹配度。M表示数据的数量,L表示属性参数的数量。
步骤2:在将粮堆温度预测中的所有输入数据转换为置信分布后,BRB中的规则将被不同程度地激活。它们的激活权重可以由以下等式(9)和(10)确定:
(9)
(10)
其中
表示第i个属性的归一化权重。
表示第k个规则的激活权重。
步骤3:被激活的规则生成其输出的置信度,并通过证据推理算法将这些激活规则集成。通过以下等式(11)计算最终输出置信度:
(11)
步骤4:最后,更新所有的置信度,得到最终的输出置信度分布,可表示为以下等式(12):
(12)
其中
表示输入数据。
步骤5:可以通过使用由等式(13)计算出的效用来获得最终预测值:
(13)
其中:
表示
的效用。
表示最终预测的温度。
3.4. PCA-IBRB模型的优化过程
考虑到粮堆表层的温度状态受到有限专家知识和环境因素的影响,基础BRB模型难以准确预测粮堆表层的真实温度状态,因此,通过优化过程来提高模型的精度很有必要,又由于BRB的可解释性经常在优化的过程中被破坏,所以,提出的带有可解释性约束P-CMA-ES算法对PCA-IBRB模型进行优化。该算法是一种启发式优化算法,常用于解决复杂的非线性和不连续的凸优化问题。本文提出的带有可解释性约束的P-CMA-ES算法的具体步骤如图3所示。
Figure 3. Optimization procedure of the P-CMA-ES algorithm
图3. P-CMA-ES算法优化过程
首先,待优化的目标函数由等式(14)构建:
(14)
其中,
表示综合评价的程度。
步骤1:定义算法的初始参数。
种群大小
,后代种群大小
,协方差矩阵
,种群
,步长
。
步骤2:通过等式生成种群。如等式(15):
(15)
其中,N表示正态分布。
步骤3:通过等式(16)将解投影到超平面中。
(16)
超平面可以表示为
,其中
表示解
中等式约束的变量数。
表示参数向量,
表示解
中等式约束的个数。
步骤4:选择操作:
执行选择操作选择最优解并更新平均值,然后根据(17)计算MSE值并排序:
(17)
其中
是
解中的第a个解。
子群由等(18)计算:
(18)
步骤5:更新总体的协方差矩阵。
4. 案例研究
4.1. 数据集指标的选取
由于影响粮堆温度的指标比较多,而BRB在构建规则时采用笛卡尔积的方式,属性指标过多将会产生组合规则爆炸的问题。然而在多数情况下,影响粮堆温度的属性之间可能存在相关性,这意味着它们之间存在重叠信息,这反而增加了问题分析的复杂性,同时对分析带来不便。为了解决这一问题,采用主成分分析方法筛选出几个重要指标来降低复杂度。
本次实验采用了吉林省某粮仓35号仓通过传感器测得的2021~2022年粮堆温度相关指标数据,经过PCA进行指标筛选后,主要提取了粮仓内1年中每天上午9~10点的仓温、气温及粮堆表层的平均温度作为模型的一组输入输出数据,总共365组数据。在后续的优化过程中,将其中前三个季度作为训练集(75%),共271组数据;最后一个季度作为测试集(25%),共91组数据。以前一天的仓温和气温为输入数据,后一天的粮堆表面温度为输出标签数据。
采用主成分分析法对提取的5个研究变量(仓温、仓湿、气温、气湿、粮堆表层平均温度)进行分析。通过主成分分析后得出的对应特征值和贡献率如表1所示:
Table 1. Eigenvalues and contribution rate of the principal component analysis
表1. 主成分分析的特征值与贡献率
变量 |
特征值 |
方差/% |
累计贡献率/% |
粮仓温度 |
3.53 |
70.602 |
70.602 |
气温 |
1.013 |
20.264 |
90.866 |
粮仓湿度 |
0.359 |
7.183 |
98.05 |
气湿 |
0.088 |
1.765 |
99.815 |
粮堆表层平均温度 |
0.009 |
0.185 |
100 |
根据表1所示的数据可以看出,原始数据的总方差主要集中体现在仓温和气温这两个属性成分上。其中,仓温作为第一主成分,其特征值显著,高达3.53,并且其贡献率最大,占到了70.602%。紧随其后的是气温,作为第二主成分,其特征值略小一些,为1.013,贡献率达到了20.264%。这两个主成分的累计贡献率之和达到了90.866%,这充分说明仓温和气温这两个属性成分能够代表绝大多数原始数据中的信息。因此,根据主成分分析的结果,我们可以用仓温和气温这两个关键属性指标来替代原先众多复杂的影响因素指标。
4.2. PCA-IBRB模型初始定义
根据专家知识的判断,选择五个语义值来描述仓外温度、仓内温度的温度状态,即“极低温”(VL)、“低温”(L)、“中温”(M)、“高温”(H)、“极高温”(VH)。参考点和参考值如表3所示。在BRB的初始模型中,通过对粮堆温度范围的分析,还为粮堆表层的温度状态分配了5个参考点,分别命名为“极低温”(VL)、“低温”(L)、“中温”(M)、“高温”(H)、“极高温”(VH)。专家认为这个实验的属性和规则非常重要,专家给出了一个范围,但没有给出具体的数值。BRB的初始置信度和约束范围如表3所示。
由于上述设置,可得用于粮堆温度预测的PCA-IBRB模型可表述为等式(19):
(19)
4.3. 模型的实验过程
首先,分析数据集的激活权重,并标记失活权重。如图4所示,对于规则11、16、17、21、22、23是没有被激活的规则,激活状态如等式(20)所示。
(20)
这表明,在有限的数据集中,这些规则不会对结果产生影响。因此,如果需要调整相关参数来避免破坏模型的可解释性,就会在优化过程中标记并更正这些规则。
设置的可解释性约束和优化算法的参数设置如表2、表3所示。
在图5中,PCA-IBRB的规则权重满足相应标准,而BRB0大多远离初始专家知识或超过约束。
Figure 4. PCA-IBRB rule activation weights
图4. PCA-IBRB规则激活权重
Table 2. Interpretability constraints
表2. 可解释性约束
参数 |
范围 |
规则权重约束 |
0.5~1 |
属性权重约束 |
0.6~1 |
置信度约束 |
0.1 |
Table 3. Optimize the algorithm parameter settings
表3. 优化算法参数设置
参数 |
初始值 |
迭代次数G |
200 |
步长
|
0.2 |
种群数量
|
30 |
欧式距离d |
3 |
Figure 5. PCA-IBRB versus BRB0 rule weights comparison
图5. PCA-IBRB与BRB0规则权重比较
与其它数据驱动模型相比,PCA-IBRB的参数设置是有意义的,推理过程是透明的。在本文中,两个输入属性的属性权重皆为0.6。表明这些属性对粮堆温度预测都很重要。
在图6中,展示了专家知识、PCA-IBRB和BRB0的每个规则的置信度分布。可以观察到,PCA-IBRB的置信分布与根据专家知识构建的置信分布基本一致,并且未激活规则的相应置信分布没有被改变,这充分表明了模型的可解释性。因此,PCA-IBRB的规则能够与实际的温度预测值相匹配。对于规则2、19、24,PCA-IBRB的参数与专家知识的参数基本一致,进一步验证了PCA-IBRB在提高准确性的同时尽可能的保持可解释性。对于规则11、16、17、21、22、23是没有被激活的规则。然而,对于规则3、6、7、8、10、12和15等规则,BRB0与专家知识的参数相差较大,违背了专家知识,预测结果难以解释。由此可见,优化算法的微调对可解释性非常重要,可解释性约束对该模型是必要的。
Figure 6. Regular confidence distribution plots
图6. 规则置信分布图
4.4. 实验结果对比分析
为了更好地评估模型性能,选择了BP神经网络、决策树(RF)、径向基函数(RBF)和k邻近(KNN)等方法进行比较研究。此外,还比较了根据专家知识构建的BRB0和PCA-IBRB,此处以不加可解释性约束的MSE作为目标优化函数的BRB被命名为BRB0。
BRB的输出和实际值如图7,其中的标记线所示:与BRB0相比,PCA-IBRB的精度略差,由于初始专家知识的限制,导致了考虑专家知识的可解释性PCA-IBRB的准确性略微降低。因此,专家可以对初始模型机制进行分析,并对知识进行微调,使预测结果更具可解释性,这不仅保证了模型的准确性没有明显降低,而且在建模过程中具有一定的可解释性。
为了评估PCA-IBRB模型的准确性并证明其稳健性,进行了20次重复实验,PCA-IBRB模型的实验结果的平均MSE为0.0044。如表4所示,我们使用了的BRB0、PCA-IBRB、BP神经网络、决策树(RF)、径向基函数(RBF)和k邻近(KNN)等方法进行比较研究。从表中可以看出,仅考虑准确性时,BRB0的误差最小,其次是BP和RF。尽管BP和RF等数据驱动模型在准确性上表现良好,但它们是建立在大量观测数据分析的黑盒模型,可解释性相对较差。PCA-IBRB模型精度略差,但其具有以下可解释性特征:1) PCA-IBRB是一种基于置信规则的建模方法,其输出结果具有可追溯性。2) 由于其透明的推理引擎,PCA-IBRB模型的内部是可见的。3) 在优化的过程中加入了可解释性约束,可以将专家知识有效地集成到模型中。
Figure 7. Comparison of the PCA-IBRB and BRB0 results
图7. PCA-IBRB与BRB0结果比较
Table 4. Mean MSE of each model
表4. 各模型MSE平均值
方法 |
MSE |
MAE |
PCA-IBRB |
4.4e−03 |
0.032 |
BRB0 |
3.1e−03 |
0.025 |
BP |
3.6e−03 |
0.035 |
RF |
3.8e−03 |
0.036 |
RBF |
5.7e−03 |
0.041 |
KNN |
6.3e−03 |
0.048 |
5. 结论
本研究引入了一种新的基于PCA-IBRB的粮堆温度预测模型,并构建了BRB可解释性粮堆温度预测标准,以确保模型在可解释性和准确性之间取得平衡。采用改进的P-CMA-ES优化方法,旨在提高模型的准确性和优化过程的可解释性。
研究从三个方面对粮堆温度预测和BRB模型进行了贡献。首先,为解决BRB模型在粮堆温度预测时因指标过多而无法选取有效指标的问题,采用PCA方法对粮堆表面温度影响指标进行筛选。其次,为了确保模型的可解释性,制定了11个粮堆温度预测模型可解释性标准,这涵盖了模型结构和优化过程的可解释性方面。最后,通过采用改进的、具有可解释性约束的P-CMA-ES优化方法,添加可解释性约束,增强模型优化过程的可解释性,用证据推理(ER)方法对模型进行推理,得出最终的温度预测结果。为了验证所提出的方法的适用性和有效性,将基于PCA-IBRB的粮堆温度预测模型应用于吉林省某粮仓的实际案例研究中。研究结果证明了该方法在粮堆温度预测方面的性能,并且在保持模型准确性的同时提高了预测过程的可解释性。
在今后的研究中,根据粮堆表层温度特征,可以考虑自动设置更合理的BRB模型参考值数量,以及根据专家知识,设置参考值阈值,找出更合理的参考值。即如何在结构优化中保持PCA-IBRB模型的可解释性和准确性还需进一步讨论研究。
基金项目
“装备智能运用教育部重点实验室”开放基金课题(AAIE-2023-0102);哈尔滨师范大学博士科研启动基金项目(XKB201901)。