1. 引言
近年来,钙钛矿太阳能电池发展行驶在快车道上,其在技术上的进步有目共睹[1]-[5]。在过去,通常需要做实验来提高光伏材料转化率,但这往往需要更多的时间。针对这个问题,运用机器学习对光伏材料进行探索是现今社会的主流趋势David [6]等人开发了能够使用机器学习快速评估OPV的效率、稳定性和内含能量之间的权衡的方法,证明了经过训练和验证的模型可以高度自信地预测OPV的效率、稳定性和体现能量,这项研究证明了通过机器模型预测OPV光电转化效率的高可行性。
根据证明[7]:带隙是研究钙钛矿材料的重要指标,传统的研究方法采用实验 + 试错的方式对材料性能进行评估,时间和经济成本花费较高,运用机器学习对OPV进行探索是现今社会的主流趋势;机器学习(ML)算法模型和已知材料参数知识的数据驱动方法已被引入OPV研究,建立定量结构–性能关系(QSPR)对提高光电转换效率(PCE)至关重要;最高效的有机太阳能电池不仅需要仔细选择新的供体(D)和受体(a)分子,还需要微调有机太阳能电池(OSC)的实验制造条件等以上几个方面进行了文献分析与总结。综上,本文选用了机器学习算法模型ML,首先建立带隙的预测模型,实现初级预测优选,其次选择合适的带隙结构材料进行深入探究,再次运用三种机器学习方法建立OPV因素–性能关系与模型,并进行评估对比,选择效果最佳模型实现对钙钛矿光伏材料发电功率的二级预测优选,从而得出高性能的OPV材料。
2. 研究方法
2.1. 机器学习理论方法
机器学习理论方法涵盖了多个方面,旨在从数据中学习并产生模型或算法,使这些模型对新数据具有良好的泛化能力。本文运用随机森林、决策树、BP神经网络三种算法模型对相关问题展开研究。图1为机器学习流程图。
2.2. 机器学习算法评估
机器学习以有无监督而分类,而有监督学习被大多数学者选择使用[8]。监督学习更具有灵活性,其可调整机器学习模型参数,通过使用描述符,调整所需参数,从而达到较好效果,如表1所示。本文选
Figure 1. Machine learning flowchart
图1. 机器学习流程图
Table 1. Evaluation indicators and interpretations
表1. 评价指标及解释
名称 |
简写 |
结果 |
均方根误差 |
RMSE |
值与预测精度成正比 |
平均绝对百分比误差 |
MAPE |
值与预测精度成反比 |
平均绝对误差 |
MAE |
值与预测精度成正比 |
均方误差 |
MSE |
值与预测精度成反比 |
决定系数 |
R² |
值与预测精度成正比 |
择使用三种模型算法,配合交叉验证得出测试结果。在回归模型中,当模型预测出结果后,对于模型的效果是否有提升,模型之间的比较等,可以使用评价指标来衡量。在本文中,介绍以下评价指标,如公式(1)~(5)所示,反映模型预测效果的好坏,同时评价模型。注:公式(1)~(5)中Pi是第i个预测值,Ai是第i个实际值,n是预测总数。
(1)
(2)
(3)
(4)
(5)
2.3. BP神经网络
BP神经网络是一种功能强大的神经网络模型,具有广泛的应用前景[9]。神经网络的建立步骤一般是准备数据,确定网格结构优,确定连接权重。核心步骤一般为:初始化网格参数、前向传播计算输出、计算误差、反向传播调整权重和偏置、更新参数、重复迭代训练[10]。图2为BP神经网络步骤图,这些步骤共同构成了BP神经网络的训练和学习的过程,使其能够自动学习数据的特征并进行有效分析[11]。
Figure 2. BP neural network step diagram
图2. BP神经网络步骤图
2.4. 随机森林
RF的核心思想是通过构建多颗决策树,并将它们的预测结果进行集成处理,提高模型的性能,随机森林是一种集成算法,它是一个包含多棵决策树的分类器,相对于单棵决策树来讲,随机森林算法会有更好的表现,并能有效防止过拟合现象。在本文建立随机森林的过程中,还用到了对自变量重要性的程度进行判断。图3为随机森林模型结构图。
Figure 3. Structure of random forest model
图3. 随机森林模型结构图
2.5. 决策树
决策树模型是常用的一个算法模型,非常直观且便于理解。通常情况下,采用剪枝等技术手段,依据根节点分支准则,创建模型。其具有很大优点,简单性和优良的效果使其得以广发使用。对于稳定性问题,可以采用随机森林算法,集成多颗决策树,通常效果也会更好。图4为决策树结构示意图。
Figure 4. Schematic diagram of decision tree structure
图4. 决策树结构示意图
2.6. 相关性分析
如果存在两个变量A和B,想要揭示A和B之间的关系是什么样的。那么便可以使用相关性分析。如果A和B具有关联性,那么其两者之间会存在相关性,便可以使用下方公式的Person相关系数来计算,得到的数值可以揭示两个变量之间究竟有什么样的关系。因此本文将利用Person相关系数检验法来判断解释变量的相关程度,如果某些自变量的相关系数值较大,比如相关性系数的绝对值在0.8以上[12],则代表这两个变量之间有很强的相关性,也可能存在多重共线性问题[13]。公式(6)表示皮尔逊相关系数的计算公式,分子表示两个变量的协方差,分母表示两个变量的方差。
(6)
3. 基于机器学习的带隙初级预测模型
3.1. 数据预处理
该钙钛矿数据库项目旨在对过去和未来的所有钙钛矿器件和材料进行归纳和概括,为读者提供查找和使用。由图5、图6所示,根据矩阵图可以看到变量间的关系,矩阵图的第m行,第n列表示第m个变量与第n个变量所构建出来的关系图,通过观察可以发现变量间的简单线性关系,如果图形分布较为复杂,那么需要进一步分析,可以发现皮尔逊系数均未超过0.85。所以8个指标均保留,得到149行数据进行下一步的研究即探究自变量与因变量之间的关系并且构建机器学习预测模型,表2为对数据库中各个变量进行的描述。
Figure 5. Variable relationship diagram
图5. 变量关系图
本文的研究对象带隙是指在材料中导带与价带之间的能量差距,下面从物理学角度,解释各变量之间是如何具体影响钙钛矿材料带隙的大小取值的。x1变量表示钙钛矿材料沉积热退化温度,其表示钙钛矿材料在高温环境下失去稳定性的临界点,在物理学中其会影响到材料晶体的结构、大小和性能,进而影响钙钛矿材料排布,造成带隙数值的不同。x2变量为钙钛矿沉积热退火时间,其表示材料在沉积过程中,需要进行的退火处理的时间,当其改变时会影响材料薄膜的内部结构和发光性能,它影响带隙的原理依然为其会影响钙钛矿材料的排布;x3变量为测得数据来源的单元格数量即所得数据报告来源的晶胞数平均值数量,测得晶胞数数量的不同会在客观上影响到钙钛矿材料带隙的测量数值;x4变量为EQE综合测试数据,EQE是外量子效率,是衡量光伏电池性能的关键参数,其可以通过集成Jsc数据而得到,与带隙之间存在关联度;x5为JV测量出的Voc,Voc表示开路电压,是衡量电池效能的重要参数,x6为JV测量出的Jsc,其为太阳能电池在短路条件下的电流密度,可以用来判断太阳能电池性能优劣;x7为
Figure 6. Scatter matrix diagram of variables
图6. 变量散点矩阵图
Table 2. Meaning of variables in bandgap prediction model
表2. 带隙预测模型各变量含义
序号 |
特征 |
物理含义 |
单位 |
X1 |
Perovskite_deposition_thermal_annealing_temperature |
钙钛矿沉积热退化温度 |
℃ |
X2 |
Perovskite_deposition_thermal_annealing_time |
钙钛矿沉积热退火时间 |
min |
X3 |
JV_average_over_n_number_of_cells |
JV测量平均单元格/晶胞数 |
个 |
X4 |
EQE_integrated_Jsc |
EQE集成Jsc |
% |
X5 |
JV_default_Voc |
JV测量默认VOC |
V |
X6 |
JV_default_Jsc |
JV测量默认JSC |
mA/cm2 |
X7 |
JV_default_FF |
JV测量默认FF |
mA/cm2 |
X8 |
JV_default_PCE |
JV测量默认光电转化率 |
% |
y |
Perovskite_band_gap |
钙钛矿带隙 |
eV |
JV测量曲线下的填充因子FF,其描述的是当达到最大的功率点时候,此时电压比电流的数值;x8为JV曲线测量下得到的光电转化效率,其数值表示越高表明光电转化效果越好;y为本章内容的因变量带隙,也被称作能隙或者能带隙,它可以改变材料的电子结构从而调整材料的物理性能,这些性能又进一步影响了器件的性能和应用范围。
本文对带隙分布以及各变量分布进行图形可视化表达,该图7显示因变量带隙分布图;如图8所示,该图显示部分自变量分布图。从图中可以看到数据在不同取值区间内的分布情况。
Figure 7. Band gap frequency distribution diagram
图7. 带隙频率分布图
(a) (b)
(c) (d)
(e) (f)
(g) (h)
Figure 8. Histogram of frequency distribution of each variable
图8. 各变量频率分布直方图
由图7、图8可以帮助我们了解数据的分布、离散程度等情况。通过观察图形发现,本文所选数据集的带隙值主要集中在1.5~2 ev之间;钙钛矿沉积热温度只要集中在50℃~100℃之间,钙钛矿沉积热时间主要集中在0~25 min之间,EQE集成主要分布在30%以下;JV测量默认VOC取值主要在1~1.3 V之间;JV测量默认JSC取值主要集中在20~25 mA/cm2之间;JV测量默认FF主要分布在0.5~1 mA/cm2之间;单元格/晶胞数的数量主要集中在0~10个之间;测量默认光电转化率主要集中在15%~20%之间。数据分布较为平均,符合现实分布,具有广泛代表性。
3.2. 指标选择及重要性判断
本文内容建立随机森林预测模型,在R环境下,调用importance()函数,得出所研究自变量的相对重要性,并对模型指标重要程度做了表格型以及柱状图型表达。如表3所示为各变量重要性数据。通过两种观测值指标的查看,可以发现,该模型中的x1、x6、x4三项指标即钙钛矿沉积热退化温度、JV测量默认JSC、EQE集成Jsc对带隙影响最大。
沉积热处理是钙钛矿材料制备过程中的一个重要环节,沉积温度可以直接影响钙钛矿材料带隙。一般来说,随着沉积温度的改变,由于晶格常数会变化以及材料成分会重新排列,带隙会存在差异;JSC在太阳能电池中与光生载流子的收集效率有关,其与带隙吸收电子个数存在相互影响的关系;EQE反映了能够显示出整个光谱范围内,波长的光子产生有效的电流,其也可以作为调整带隙以优化太阳能电池性能的工具。因此,无论从模型结果还是从物理材料学原理中解释,变量钛矿沉积热退化温度、JV测量默认JSC、EQE集成JSC都对调整带隙是至关重要的质变。
3.3. 带隙预测模型构建及模型优化
本文内容将数据按照7:3的比例分为训练集和测试集,调用rfPermute包的随机森林方法评估每一个指标变量的重要性,检验重要性得分,同时给出关于显著性的检验。
Table 3. The importance of variables in the bndgap prediction model
表3. 带隙预测模型变量重要
相关程度变量 |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X7 |
X8 |
变量重要性指数 |
17.238 |
7.540 |
1.258 |
15.166 |
10.019 |
18.360 |
7.507 |
9.045 |
节点纯度增量 |
0.894 |
0.121 |
0.018 |
0.986 |
0.393 |
1.227 |
0.129 |
0.427 |
Table 4. Parameters of bandgap prediction model
表4. 带隙预测模型参数
参数名 |
参数值 |
训练集比例 |
0.7 |
节点分裂评价准则 |
mse |
划分时考虑的最大特征比例 |
None |
内部节点分裂的最小样本数 |
2 |
叶子节点的最小样本数 |
1 |
树的最大深度 |
10 |
叶子节点的最大数量 |
50 |
决策树数量 |
100 |
有放回采样 |
true |
袋外数据测试 |
false |
由预测图9可以发现随机森林模型的预测性能优异,算法对带隙值具有良好的预测效果。表4为带隙预测模型的参数设置。
4. 基于机器学习的PCE二级预测模型
4.1. 数据预处理
光电转化率(PCE)是一个描述光电转化效率的指标,通常其指的是太阳能电池的效率。光电转化率越高,光电转化为电能的效率就越高。
影响钙钛矿光电转化率的因素[14]有许多,为了进一步提高预测精度和价值,本章内容基于上述研究结果,对不同的影响因素进行具体分析,并得出影响最大的因素。数据集的性能特征如表5所示。
下面从物理学层面解释变量之间的关系。在建立的二级预测模型中,x1变量是带隙,不同宽度的带隙会得出不同光电转化率的材料,其主要与吸收光的波长与能量有关,可以通过改变带隙宽度调整钙钛矿光伏材料的光电性能;x2变量是JV测量平均单元格/晶胞数,即通过测量仪器所测得的数据来源的单元格数量即所得数据报告来源的晶胞数平均值数量;x3变量是JV测量默认VOC,VOC (Voltage Open Circuit)是在理想状态下衡量光伏电池的开路电压,其数值越高往往代表太阳能转化为电能的效率越好,电池的性能也就越好。但是两者之间的关系是复杂多变的,在实际应用中,还需要考虑多种角度的因素;x4变量为JV测量默认JSC,JSC (Short Circuit Density)表示条件是短路状态时,材料电池在单位面积中产生的电流密度。JSC提高,在其他外部环境如光照、温度、湿度等条件不变的情况下,材料的光电转化
Figure 9. Comparison between actual and predicted bandgap values
图9. 带隙真实值与预测值对比图
Table 5. PCE prediction indicators and performance
表5. PCE预测指标及性能
序号 |
特征 |
物理含义 |
单位 |
X1 |
Perovskite_band_gap |
钙钛矿材料带隙 |
eV |
X2 |
JV_average_over_n_number_of_cells |
JV测量平均单元格/晶胞数 |
个 |
X3 |
JV_default_Voc |
JV测量默认VOC |
V |
X4 |
JV_default_Jsc |
JV测量默认JSC |
mA/cm2 |
X5 |
JV_default_FF |
JV测量默认FF |
mA/cm2 |
X6 |
Stability_relative_humidity_average_value |
稳定状态下平均相对湿度 |
% |
X7 |
Stability_time_total_exposure |
稳定性测量总持续时间 |
h |
y |
JV_default_PCE |
JV测量默认PCE |
% |
效率往往会提升,但也会受到其他因素的影响;x5变量为JV测量默认FF,其表示的含义为材料中的填充因子,是一项关键指标,当其提高时,往往意味着效率也得到提高;x6变量为材料在稳定状态下所处环境的平均湿度,其属于外部因素,湿度对光电转化率的影响主要体现在物理性质的变化、化学稳定性的降低、设备运行的故障以及运输的问题上,如果湿度改变,光电转化率粘度和密度可能会发生改变;x7变量为稳定性测量总持续时间,其对光电转化率的影响是复杂且多维的,通常情况下长时间的测试是可以更好的模拟电池的实际使用情况的,从而能够更好的评估电池材料的光电转化效率。
本章内容对数据集中钙钛矿材料PCE值分布以及各变量分布进行可视化表达,如图10、图11所示,显示各个变量的频率分布,从中可以看出变量x4与变量y,即测量默认JSC与钙钛矿材料光电转化率有着较强的关系。
Figure 10. PCE frequency distribution diagram
图10. PCE频率分布图
分析柱状图可知,带隙数值主要集中在1.4~2 eV之间,VOC主要集中在1~1.5 V之间,平均单元格数量的数值主要集中在0~10个之间,JV测量的默认JSC主要集中在20~25 mA/cm2,测量默认FF主要分布在0.5~1 mA/cm2之间,平均相对湿度分布范围较广,区间在40%~50%的数据较多,稳定性测量总持续时间在0~1000 h区间较多。以下4个变量的数据分布均具有广泛代表性,可以探究与PCE的关系从而建立预测模型。
4.2. 随机森林模型
4.2.1. 特征重要性
调用importance()函数,得出所研究自变量的相对重要性,并运用rfPermute包对模型指标重要程度做了表格型以及柱状图型表达。如表6所示为各变量重要性指标。
4.2.2. 模型构建
由图12可知,模型具有很高程度的拟合优度,模型建立后所得到的评价指标为R2 = 0.96,MSE = 0.243,RMSE = 0.493。图12为将构建的随机森林模型所得出的预测值与原数据真实值作对比所得出的效果图,可以发现该模型预测效果良好,表7是所得模型的参数设置。
(a) (b)
(c) (d)
Figure 11. PCE variable frequency distribution diagram
图11. PCE变量频率分布图
Table 6. PCE variable importance table
表6. PCE变量重要性表
变量重要程度 |
变量重要性指数 |
节点纯度增量 |
X1 |
21.142 |
797.370 |
X2 |
6.162 |
42.980 |
X3 |
25.599 |
469.285 |
X4 |
32.763 |
1541.310 |
X5 |
30.329 |
1018.305 |
X6 |
9.502 |
166.180 |
X7 |
8.601 |
239.920 |
Figure 12. RF real value compared with predicted value
图12. RF真实值与预测值对比图
Figure 13. PCE variable relationship diagram
图13. PCE变量关系图
Table 7. RF prediction parameterization
表7. RF预测参数设置
参数名 |
参数值 |
训练集比例 |
0.7 |
节点分裂评价准则 |
mse |
划分时考虑的最大特征比例 |
None |
内部节点分裂的最小样本数 |
2 |
叶子节点的最小样本数 |
1 |
树的最大深度 |
10 |
叶子节点的最大数量 |
50 |
决策树数量 |
100 |
有放回采样 |
true |
袋外数据测试 |
false |
4.3. BP神经网络模型
本文首先导入数据集,散点图如图13所示,可以看到其特征间的关系,由模型结果可知,BP神经网络模型可以对钙钛矿光伏材料进行预测。调试后得到的最佳模型参数设置如表8所示。
Table 8. Parameter setting of BP neural network model
表8. BP神经网络模型参数设置
参数名 |
参数值 |
训练集比例 |
0.7 |
激活函数 |
identity |
学习率 |
0.1 |
L2正则项 |
1 |
迭代次数 |
1000 |
隐藏第1层神经元数量 |
100 |
4.4. 决策树模型
本文首先运用模型代码建立决策树回归模型,并设置十折交叉验证采用最优参数,最后得到模型评估结果为R2 = 0.71,MSE = 9.223,RMSE = 3.037。图14为决策树模型图,依据模型结果,发现该模型可以对钙钛矿材料光电转化率进行预测分析,但可以模型预测值在真实值分附近分布较多,预测效果不如随机森林模型,表9为调试后的模型参数。
Table 9. Decision tree model parameters
表9. 决策树模型参数
参数名 |
参数值 |
训练集比例 |
0.7 |
交叉验证 |
10 |
节点分裂评价准则 |
friedman_mse |
特征划分点选择标准 |
best |
划分时考虑的最大特征比例 |
None |
内部节点分裂的最小样本数 |
2 |
叶子节点的最小样本数 |
1 |
树的最大深度 |
10 |
叶子节点的最大数量 |
50 |
节点划分不纯度的阈值 |
0 |
4.5. 预测模型效果对比
本文通过运用随机森林RF模型、DT决策树回归模型、BP神经网络模型方法对钙钛矿光伏材料的光电转化率进行预测分析[15],在建立模型过程中运用十折交叉验证的方法通过多次试验测试的方法得到最佳模型参数以及更为客观的算法评估值,如表10所示为各个模型建立算法后的评价对比值,可以发现随机森林模型最优。结果证明,建立的模型能够对钙钛矿光伏材料的光电转化率形成预测。
Figure 14. Decision tree model
图14. 决策树模型
Table 10. Model evaluation comparison
表10. 模型评价对比
Model |
RF |
DT |
BP |
R2 |
0.96 |
0.71 |
0.89 |
MSE |
0.243 |
9.223 |
3.196 |
RMSE |
0.493 |
3.037 |
1.788 |
5. 结论及建议
5.1. 结论
本文以钙钛矿材料为研究对象,基于机器学习方法对其光电转化率因素进行探究,分析结果发现:(1) 钙钛矿沉积热退化温度、JV测量默认JSC、EQE集成JSC对带隙影响最大,这为后续材料的研究以及带隙的调整提供依据;(2) JV测量默认JSC与钙钛矿材料光电转化率有着较强的关系;(3) 随机森林模型对钙钛矿光伏材料的光电转化率进行预测分析的效果最优。
5.2. 建议
钙钛矿太阳能电池光伏材料具有良好的发展前景,结合本文的研究结果,对于钙钛矿太阳能电池发展行业做出如下建议:
(1) 光伏建筑一体化。首先在建筑设计初期,应该考虑各个光伏组件的安装布局,确定合适的规模大小。选择高效的光伏组件。
(2) 大面积绿色光伏材料选取。在选取材料的时候,需要结合当地的气候环境、天气状况,选择不会发生反应、稳定性强的材料,同时应当考虑到材料的环保性,不能本末倒置,减少资源和环境的浪费。
(3) 经济光伏材料选取。在满足性能要求的前提下,需要兼顾经济效益。光伏材料因为其成本较高而不能广泛使用。因此要降低材料的维护成本和投资成本。同时,也要考虑到材料的后续维修,要选择容易修改更换的材料,确保长期运营。
基金项目
河南省高等学校重点科研项目–机器学习与物理融合模型下的太阳能资源高效利用(24B480012);河南省科技攻关项目–气象与物理融合机制解耦:AI赋能光伏发电“材–管–用”(242102240051);河南省高等学校重点科研项目–转底炉直接还原炼铁中的介尺度传热传质行为及能量转化耦合机制(25A450004);校级青年基金项目–房价变动对城乡收入差距影响的实证研究(PXY-QNJJ-202005)。
NOTES
*通讯作者。