1. 引言
微藻是一类微小的单细胞或多细胞的真核生物,通常生长在水体中。微藻具有高度的适应力和生产力,在食物网中发挥着重要作用,被广泛应用于食品、饲料、生物燃料、药物等领域[1] [2],此外,多种微藻含有抗菌活性,可以产生抗菌物质,可以应用于抗生素的合成[3];由于含有丰富的营养物质和生物活性成分,微藻也被广泛应用于保健品和美容产品。微藻的应用领域还在不断拓展和研究中,例如在环境领域,微藻可以通过光合作用吸收大气中的二氧化碳,从而减少温室气体的排放和对气候的影响,被称为“生态过滤器”[4]。此外,球等鞭金藻可以在极端的环境下生长,并且在处理低重金属浓度的废水中有潜在能力[5]。总之,随着对微藻理解的增加和技术的不断改进,微藻的应用前景越来越广阔,其应用潜力还将不断得到开发和挖掘,有望在人类的各个领域中发挥着重要作用。
微藻是一种具有极高生物可再生能力和生产高附加值的生物质资源的微小植物,在生态系统中发挥着重要作用,藻类通过光合作用向水中提供氧气,占比高达85% [6];藻类不仅可以改善水质,修复水体环境,而且可以控制水中的病虫害[7]。因此已经成为了越来越多的研究热点。微藻在生长过程中,受多种环境因素的影响,包括温度、盐度、光照强度、pH和无机盐等[8]-[11]。
响应面法是一种用来优化实验条件的统计学方法,不同的实验参数会在一定范围内进行随机组合,在响应面图中寻找最优条件。在微藻研究中,响应面法主要用于优化微藻生长的培养条件和生产生物质的条件。在微藻生长培养方面,研究人员采用响应面法探究了微藻生长的通气量、培养时间、光照强度、接种量等培养因素对微藻的影响[12]。在生产微藻生物质和油脂方面,研究人员也运用了响应面法进行探究[13]。
机器学习是一种数据驱动的预测和构建模型的技术,可以建立反映微藻与环境因素之间关系的模型,以预测微藻在不同条件下的生长情况和产物生成情况。目前,随着机器学习的迅速发展和日益成熟,其更多的应用于生物信息的统计和生物数据的处理。
在微藻生长预测方面,研究人员通过对微藻的生长数据进行机器学习,建立了不同环境因素对微藻生长的影响预测模型。例如,Liu等人基于机器学习算法建立了针对拟球藻的生长预测模型。经过采集数据进行训练,得到了模型后,研究人员可以对微藻在不同条件下的生长进行预测,从而了解微藻生长状态并及时调整培养条件。在微藻产物生成预测方面,研究人员也采用了机器学习算法[14]。结果表明,建立的模型能够快速、准确地预测不同培养条件下微藻的代谢产物生成情况。利用随机森林分布对土壤细菌群落进行评估,可以确定土地的利用类型和一般的土壤特征,如土壤的PH、碳氮比、体积浓度和土壤有效磷等[15]。Gul Muhammad等人利用人工神经网络对湿微藻类生物质的生物柴油生产进行优化,以最小的试错成本获得了最佳培养条件且预测效果好[16]。利用支持向量回归对于微藻的生长进行预测,通过生成合适的超平面并以较小的代价达到预测目的,其特点是适合小数据样本。本研究主要在于研究环境因子对微藻生长的影响。通过对微藻在不同条件下生理指标的测定,来评估微藻的叶绿素含量,从而将微藻的光合作用和微藻的生长量联系起来,探究环境因素对微藻的影响。建立4组机器学习模型,通过获得的参数为主要的输入数据,来预测叶绿素含量的输出数据。通过机器学习模型对微藻的生长量进行预测,从而确定最佳的培养条件。根据4组模型拟合情况,通过表现指数和相关系数与响应面的预测效果进行比较,选择最佳的预测模型。
2. 材料和方法
在本篇文章中,总结了最近的研究,这些研究集中在发展用于预测微藻生长的机器学习模型,并收集其实验数据(表1),使用MATLAB软件对这些数据进行二次加工,建立新的模型,比较不同算法对结果预测的效果。
2.1. 实验数据来源
Table 1. Specific information of the collected literature
表1. 所收集文献的具体信息
藻种 |
催化剂 |
营养底物 |
模型输出 |
数据 |
建模方法 |
文献参考 |
四片藻 |
无 |
葡萄糖、酵母提取物和硝酸钠 |
生物质浓度 |
19 |
RSM和ANN |
[17] |
四片藻 |
无 |
葡萄糖、酵母提取物和硝酸钠 |
脂质产量 |
19 |
RSM和ANN |
[17] |
四片藻 |
无 |
葡萄糖、酵母提取物和硝酸钠 |
脂质生产率 |
19 |
RSM和ANN |
[17] |
葡萄(种子) |
NaOH |
催化剂浓度、反应时间、甲醇与油的摩尔比 |
生物柴油产量 |
20 |
RSM和ANN |
[18] |
小球藻生物量 |
HCl |
时间、温度、溶剂生物量、酸浓度 |
脂肪酸甲酯 |
29 |
RSM和ANN |
[19] |
印楝油 |
KOH |
甲醇与油的摩尔比、催化剂浓度、温度、时间 |
转换效率 |
30 |
RSM和ANN |
[20] |
废食用油 |
KOH |
液体高度、反应直径、超声波强度 |
生物柴油产量 |
17 |
RSM和ANFIS |
[21] |
微拟球藻油 |
纳米催化剂 |
甲醇与油的摩尔比、催化剂浓度、温度、时间 |
脂肪酸甲酯 |
30 |
RSM和ANN |
[22] |
牛油树果油 |
KOH |
甲醇与油的摩尔比、催化剂浓度、温度、时间 |
生物柴油 |
30 |
RSM和ANN |
[23] |
藻类油 |
KOH |
甲醇与油的百分比、催化剂浓度、反应时间 |
生物柴油产量 |
17 |
RSM和ANN |
[24] |
废水污泥 |
H2SO4 |
时间、催化剂浓度、甲醇与污泥想相对产量、超声波功率 |
生物柴油产量 |
29 |
RSM和ANN |
[25] |
2.2. 数据处理
神经网络数据处理,清空环境变量,关闭报警信息好图窗,清空变量和命令行。从Excel文件中导入数据,将其分成训练集和测试集,并训练一个神经网络进行预测。该代码使用fitnet函数创建具有8个隐藏节点的神经网络,并使用trainscg算法进行训练(图1)。设置最大训练次数为100。添加循环,训练神经网络模型,直到R值满足要求,该值是预测值和实际值之间相关性的度量。输出循环次数和R2,计算平均绝对误差(MAE)、平均偏差误差(MBE)、均方根误差(RMSE)和均方误差(MSE),最后绘制预测值与实际值以及残差的图形。
Figure 1. Structural information of BP Neural Network
图1. BP神经网络的结构信息
支持向量机数据处理,使用“xlsread”函数从Excel中读取输入和输出数据,首先使用“mapminmax”函数对数据进行归一化,已达到不同特征值的数值具有相同的量级的目的。然后使用支持向量机模型来训练数据集,并评估模型的性能。在此程序中,使用交叉验证的方式来调整支持向量机的参数和训练数据,评估模型的性能,并选择最优参数。程序执行中会反复循环调整支持向量机的相关参数和训练数据,直至获得最优模型。在此过程中,会计算相关系数R,当R达到设定值时停止训练。最后程序会计算各种统计量,生产预测值、实际值和残差的图表。
随机森林数据处理,使用“xlsread”函数读取Excel表格中的数据;然后使用“randperm”函数打乱数据,并取80%作为训练集,20%作为测试集;接下来,进入while循环来拟合随机森林模型进行预测,直到R值满足要求,在循环体系中,使用“TreeBagger”函数训练随机森林模型,使用50棵决策树构建随机森林,使用训练好的模型对测试集进行预测,使用predict函数进行预测,然后计算R值,记录R值和循环次数,直到找到满足条件的模型;最后计算评价指标并使用plotregression函数和plot函数绘制回归线和残差图形。
径向基函数神经网络数据处理,导入Excel表格数据,确定训练集的输入特征和输出特征,使用MATLAB提供的newrbe函数,构建用训练径向量函数神经网络,其中输入特征为x,输出特征为y,隐藏层神经元个数为100。然后进入循环训练过程,如果R值达到要求,则退出循环。在循环过程中,首先进行模型训练,并用模型对训练集数据进行测试,计算R值;然后输出当前循环次数和对应的R值。循环结束后,使用matlab提供的view函数,查看并输出神经网络结构信息。然后计算各种评估指标,最后绘制预测结果与真实值的回归图和残差图。
3. 实验结果与分析
根据所收集的数据,使用所建立的四种模型进行分析,每三组数据进行对照,以人工神经网络为例,预测结果和真实值的回归图和残差图如下:
Figure 2. BP neural network was used to fit the predicted and true values and residual images of 1, 2, 3 sets of data
图2. 使用BP神经网络对1,2,3组数据进行拟合的预测值和真实值及残差图像
从1、2、3组数据的预测结果来看(图2),第一组数据的R为0.99,R2为0.98,前14组数据拟合效果较好,后5组数据拟合欠佳,第16个数据偏差最大,最大值为0.7,整体偏差值在0.8之内;第二组数据的R为0.98,R2为0.97,中间几组数据拟合效果较好,两边几组数据拟合欠佳,其中偏差最大的为第16个数据,最大偏差值为26,其他数据的偏差值在10之内,但相比第一组数据偏差值较大;第三组数据的R为0.99,R2为0.98,前10组数据拟合效果较好,后9组数据拟合欠佳,整体偏差值在15以内,第12个数据偏差最大,最大偏差值为13。
从4、5、6组数据的预测结果来看(图3),第四组数据的R为0.99,R2为0.99,整体偏差在0.8之内,整体数据拟合效果较好,最大偏差值为0.8,除第一个数据外,整体数据偏差在0.4之内;第五组数据的R为0.98,R2为0.96,后几组数据拟合效果较好,偏差范围在0.4之内,前几组数据拟合欠佳第11个数据偏差最大,为0.7;第六组数据的R为0.99,R2为0.98,后几组数据拟合效果较好,前几组数据拟合欠佳,第3个数据偏差值最大,最大值为0.8,整体偏差值在0.8之内。
从7、8、9组数据的预测结果来看(图4),第七组数据的R为0.98,R2为0.97,后12数据拟合效果较好,前5组数据拟合欠佳,第5个数据偏差值最大,最大值为1.5,除第1、5个数据外,其他数据的偏差值在0.5之内;第八组数据的R为0.98,R2为0.96,前25组数据拟合效果较好,后5组数据拟合欠佳,第28个数据偏差值最大,最大值为1.1,除该数据外,其他数据的偏差值均在0.8之内;第九组数据的R为0.99,R2为0.99,整体数据偏差值在0.1之内,整体数据拟合效果较好。
Figure 3. BP neural network was used to fit the predicted and true values and residual images of 4, 5, 6 sets of data
图3. 使用BP神经网络对4,5,6组数据进行拟合的预测值和真实值及残差图像
Figure 4. BP neural network was used to fit the predicted and true values and residual images of 7, 8, 9 group data
图4. 使用BP神经网络对7,8,9组数据进行拟合的预测值和真实值及残差图像
Figure 5. BP neural network was used to fit the predicted and true values and residual images of 10, 11 sets of data
图5. 使用BP神经网络对10,11组数据进行拟合的预测值和真实值及残差图像
从10、11组数据的预测结果来看(图5),第十组数据的R为0.99,R2为0.99,后14组数据拟合效果较好,前3组数据拟合欠佳,第1个数据的偏差值最大,最大值为5.7,除第1个外,其他数据整体偏差值在4之内;第十一组数据的R为0.99,R2为0.99,数据整体偏差值在0.6之内,最大偏差值为0.58,整体数据拟合效果较好。
Table 2. The evaluation index of 11 groups of data operation results fitted by BP neural network
表2. 使用BP神经网络拟合的11组数据运行结果的评价指标
序号 |
R2 |
运行次数 |
层数 |
可以达到最大R2 |
MAE |
MBE |
RMSE |
MSE |
1 |
0.98 |
94 |
8 |
0.98 |
0.2296 |
−0.0042 |
0.348 |
0.0798 |
2 |
0.97 |
61 |
8 |
0.98 |
5.3745 |
0.1332 |
7.7838 |
1.7857 |
3 |
0.98 |
43 |
8 |
0.99 |
5.8039 |
1.2833 |
6.7902 |
1.5578 |
4 |
0.99 |
38 |
8 |
0.99 |
0.2148 |
0.0053 |
0.2809 |
0.0628 |
5 |
0.96 |
31 |
8 |
0.98 |
0.1515 |
0.012 |
0.2372 |
0.044 |
6 |
0.98 |
22 |
8 |
0.99 |
0.2305 |
−0.0173 |
0.2968 |
0.0542 |
7 |
0.97 |
93 |
8 |
0.98 |
0.237 |
5.01E−04 |
0.4727 |
0.1147 |
8 |
0.96 |
72 |
8 |
0.97 |
0.2508 |
0.0286 |
0.0286 |
0.0664 |
9 |
0.99 |
90 |
8 |
0.99 |
0.0255 |
0.0024 |
0.0354 |
0.0065 |
10 |
0.99 |
83 |
8 |
0.99 |
1.3909 |
0.3958 |
2.0273 |
0.4917 |
11 |
0.99 |
58 |
8 |
0.99 |
0.1975 |
−0.0244 |
0.3114 |
0.0578 |
在表2可以看出,60%的数据运行次数高于50;其中,1、4、5、6、7、8、9、11的平均绝对误差、平均偏差误差、均方根误差和均方误差均小于1;而2、3、10的MAE和RMSE均大于1,其中2、3的平均绝对误差和均方根误差均大于5;综合来看,5、9、11组数据拟合效果最好。
同理,使用支持向量机模拟运算结果见表3:
Table 3. The evaluation index of 11 groups of data operation results fitted by support vector machine
表3. 使用支持向量机拟合的11组数据运行结果的评价指标
序号 |
R2 |
运行次数 |
可以达到最大R2 |
MAE |
MBE |
RMSE |
MSE |
训练集 |
测试集 |
训练集 |
测试集 |
1 |
0.94 |
98 |
0.95 |
0.353 |
0.716 |
0.061 |
−0.092 |
0.736 |
0.087 |
2 |
0.96 |
26 |
0.97 |
4.929 |
4.141 |
−1.901 |
−2.703 |
6.199 |
0.730 |
3 |
0.98 |
12 |
0.98 |
4.824 |
4.490 |
−1.195 |
3.058 |
5.591 |
0.658 |
4 |
0.99 |
15 |
0.99 |
0.158 |
0.274 |
−0.001 |
0.129 |
0.294 |
0.029 |
5 |
0.97 |
22 |
0.98 |
0.050 |
0.285 |
0.006 |
0.030 |
0.384 |
0.037 |
6 |
0.98 |
28 |
0.98 |
0.156 |
0.486 |
−0.002 |
−0.139 |
0.619 |
0.051 |
7 |
0.98 |
66 |
0.98 |
0.189 |
0.471 |
0.096 |
−0.424 |
0.759 |
0.077 |
8 |
0.69 |
37 |
0.7 |
0.207 |
1.996 |
−0.152 |
−1.674 |
2.272 |
0.186 |
9 |
0.98 |
26 |
0.98 |
0.019 |
0.076 |
0.004 |
−0.020 |
0.091 |
0.007 |
10 |
0.99 |
6 |
0.99 |
0.824 |
3.059 |
0.031 |
1.888 |
4.354 |
0.444 |
11 |
0.99 |
4 |
0.99 |
0.120 |
0.514 |
−0.010 |
−0.080 |
0.645 |
0.050 |
表3可以看出,80%的数据运行次数小于50;其中,1、4、5、6、7、8、9、10、11的平均绝对误差和均方误差均小于1;而2、3的MAE大于4,均方根误差均大于5;整体的均方误差均小于1;综合来看,4、5、6、11组数据拟合效果最好。
随机森林模拟运算结果如表4所示:
Table 4. An evaluation index of the results of 11 sets of data run using random forest fitting
表4. 使用随机森林拟合的11组数据运行结果的评价指标
序号 |
R2 |
运行次数 |
可以达到最大R2 |
MAE |
MBE |
RMSE |
MSE |
1 |
0.98 |
2 |
0.98 |
0.122 |
0.075 |
0.351 |
0.081 |
2 |
0.97 |
2 |
0.97 |
2.493 |
−1.005 |
6.788 |
1.557 |
3 |
0.99 |
3 |
0.99 |
1.733 |
0.979 |
4.399 |
1.009 |
4 |
0.99 |
1 |
0.99 |
0.065 |
0.065 |
0.186 |
0.042 |
5 |
0.98 |
1 |
0.98 |
0.034 |
−0.029 |
0.156 |
0.029 |
6 |
0.99 |
1 |
0.99 |
0.077 |
0.006 |
0.210 |
0.038 |
7 |
0.98 |
3 |
0.98 |
0.180 |
−0.047 |
0.447 |
0.108 |
8 |
1.00 |
1 |
1 |
0.000 |
0.000 |
0.000 |
0.000 |
9 |
1.00 |
1 |
1 |
0.000 |
0.000 |
0.000 |
0.000 |
10 |
0.99 |
1 |
0.99 |
0.218 |
0.218 |
0.571 |
0.139 |
11 |
0.99 |
1 |
0.99 |
0.010 |
−0.003 |
0.028 |
0.005 |
从表4可以看出,随机森林的运行次数均小于5,说明该模型具有很高的预测效率。并且R2均大于0.97,说明拟合效果很好。除第2、3组数据外,其他组数据平均绝对误差、平均偏差误差、均方根误差)和均方误差均较小。综合来看,该模型拟合效果对这11组数据拟合情况均较好,其中第8、9、11组数据拟合效果最好。
径向基函数神经网络模拟运算结果如表5所示:
Table 5. The evaluation index of 11 groups of data operation results fitted by radial basis function neural network
表5. 使用径向基函数神经网络拟合的11组数据运行结果的评价指标
序号 |
R2 |
运行次数 |
层数 |
层数 |
MAE |
MBE |
RMSE |
MSE |
1 |
0.98 |
1 |
19 |
1 |
0.1363 |
−1.53E−06 |
0.3188 |
0.0731 |
2 |
0.97 |
1 |
19 |
1 |
2.6937 |
−1.56E−06 |
6.4993 |
1.491 |
3 |
0.99 |
1 |
19 |
1 |
1.9284 |
−6.20E−06 |
3.9634 |
0.9093 |
4 |
0.99 |
1 |
20 |
1 |
0.1547 |
3.78E−04 |
0.207 |
0.0463 |
5 |
0.98 |
1 |
29 |
1 |
0.0665 |
1.10E−04 |
0.1422 |
0.0264 |
6 |
0.99 |
1 |
30 |
1 |
0.1531 |
−5.15E−06 |
0.2315 |
0.0423 |
7 |
0.98 |
1 |
17 |
1 |
0.1706 |
6.94E−14 |
0.4379 |
0.1062 |
8 |
1 |
1 |
30 |
1 |
7.87E−06 |
−6.59E−06 |
9.03E−06 |
1.65E−06 |
9 |
0.99 |
1 |
30 |
1 |
0.0095 |
9.74E−06 |
0.0124 |
0.0023 |
10 |
0.99 |
1 |
17 |
1 |
0.1795 |
−4.40E−12 |
0.4055 |
0.0984 |
11 |
0.99 |
1 |
29 |
1 |
0.0094 |
−7.49E−11 |
0.0273 |
0.0051 |
从表5可以看出,径向基函数神经网络模型只运行一次便可达到要求,且R2均为0.97以上,说明其拟合效果非常好,效率很高;除第2、3组数据外,MAE均小于0.2,MBE几乎接近于零,RMSE均小于1,MSE均小于0.1。综合以上情况,第1、5、9、11组数据拟合情况最好。
经过以上的数据分析,得出了不同模型各自的预测能力,下面对该四种模型与响应面法的拟合情况进行对比分析:
Table 6. R2 under different models
表6. 不同模型下的R2
序号 |
RSM的R2 |
ANN的R2 |
SVM的R2 |
RF的R2 |
RBF的R2 |
1 |
0.868 |
0.98 |
0.94 |
0.98 |
0.98 |
2 |
0.914 |
0.97 |
0.96 |
0.97 |
0.97 |
3 |
0.97 |
0.98 |
0.98 |
0.99 |
0.99 |
4 |
0.99 |
0.99 |
0.99 |
0.99 |
0.99 |
5 |
0.92 |
0.96 |
0.97 |
0.98 |
0.98 |
6 |
0.86 |
0.98 |
0.98 |
0.99 |
0.99 |
7 |
0.96 |
0.97 |
0.98 |
0.98 |
0.98 |
8 |
0.87 |
0.96 |
0.69 |
1.00 |
1.00 |
9 |
0.992 |
0.99 |
0.98 |
1.00 |
0.99 |
10 |
0.96 |
0.99 |
0.99 |
0.99 |
0.99 |
11 |
0.98 |
0.99 |
0.99 |
0.99 |
0.99 |
由表6可以看出,相比于响应面法拟合的情况,人工神经网络模型和支持向量机模型拟合的R2大于0.98的数据组占63%;随机森林和径向基函数神经网络模型拟合的R2大于98%的数据组占90%;随机森林和径向基函数神经网络的R2更接近于1,拟合效果最好,其次是支持向量机和人工神经网络。根据第三章的数据分析,对于同一组数据,随机森林和径向基函数神经网络的残差程度相比于人工神经网络和支持向量机也更小。对于各算法所得到的R以运算次数100为界限,运算次数小于100,则认为可以达到要求值,若大于100,则不可以达到要求值。
Table 7. Number of runs under different models
表7. 不同模型下的运行次数
序号 |
ANN的运行次数 |
SVM的运行次数 |
RF的运行次数 |
RBF的运行次数 |
1 |
94 |
98 |
2 |
1 |
2 |
61 |
26 |
2 |
1 |
3 |
43 |
12 |
3 |
1 |
4 |
38 |
15 |
1 |
1 |
5 |
31 |
22 |
1 |
1 |
6 |
22 |
28 |
1 |
1 |
7 |
93 |
66 |
3 |
1 |
8 |
72 |
37 |
1 |
1 |
9 |
90 |
26 |
1 |
1 |
10 |
83 |
6 |
1 |
1 |
11 |
58 |
4 |
1 |
1 |
由表6和表7可以看出,人工神经网络算法80%的运行次数均为50以上,支持向量机65%的运行次数均达到20次以上,而随机森林算法的运行次数均小于5,径向基函数神经网络算法则只需运行一次便可满足要求。由此可以得出,在运算速度方面,径向基函数神经网络算法和随机森林算法均优于人工神经网络算法和支持向量机。
4. 结论
本研究以11组数据为研究对象,分别利用BP神经网络、支持向量机、随机森林和径向基函数神经网络算法对数据进行建模,通过相关系数(R2)、平均绝对误差(MAE)、平均偏差误差(MBE)、均方根误差(RMSE)和均方误差(MSE)对各模型的拟合程度进行分析,得出以下结论:
与原文献中的响应面法预测微藻模型相比,该四种方法的预测效果均优于响应面法,其中,随机森林和径向基函数神经网络的拟合效果最好,其次是BP神经网络和支持向量机,BP神经网络和支持向量机以运行次数100为分界线划分R值。
响应面法和机器学习算法都是有效的微藻研究手段。响应面法可以用于优化微藻生长的培养条件和生物质生产条件,让微藻的生长和生产达到最优状态。机器学习算法则可以建立微藻在不同条件下的生长状态和代谢产物生成情况的预测模型,为微藻的培养和生产提供指导和支持。相对于机器学习,响应面分析方法是众多实验者在进行数据分析时的首要选择,因为机器学习算法更偏向处理大数据,而对于生物实验而言,获得大量数据时极其耗费精力、财力和物力。但是,相比传统方法,通过合适的算法,建立恰当的模型,会大大提高实验效率。未来,这两种技术有望在微藻研究中的应用得到进一步发展和推广,为生产高附加值的微藻产品提供技术支持和保障。
NOTES
*通讯作者。