1. 引言
在现代化的工业生产流程中,对于共混工艺这种对物料混合均匀度要求极高的环节,精准地判断工艺何时达到终点至关重要。传统的生产模式以分批进行、逐批检验放行为主,每一生产步骤完结后,必须先进行取样并送至实验室进行离线检测,合格后方可启动后续步骤,这种模式下的生产周期普遍较长,从几天到几周不等,显著拖慢了整体效率[1]-[3]。同时,离线检测的取样方式存在先天不足,无法完全捕捉整批产品的特性,容易造成产品稳定性和均一性不佳的问题,最终影响产品的安全性和质量可靠性[4] [5]。
利用近红外(Near Infrared, NIR)光谱技术对药物生产过程进行终点判断有助于及时、准确地识别过程终点,降低生产成本,提高原辅料利用率,保证产品质量的均一稳定[6]-[8]。利用物质独特的“指纹”——光谱性质,通过实时监测光谱信号的变化,可以洞察混合物内部成分分布的动态演变[9] [10]。目前,行业内普遍采用的常规技术是基于移动块分析(Moving Block Analysis)的光谱终点检测方法[11] [12]。这种分析方法的核心思想是,将连续采集的光谱数据序列分割成一系列连续的、长度固定的“数据块”,然后对每个块内的数据进行统计处理,以捕捉信号的整体趋势和波动特性[13]。常用的统计指标包括(1) 移动块标准偏差(Moving Block Standard Deviation, MBSD):衡量每个数据块内光谱信号的离散程度,反映混合物成分的均匀性[14];(2) 移动块平均值(Moving Block Mean, MBM):追踪每个数据块光谱信号的中心位置,指示混合物整体性质的平均水平[15];(3) 移动块相对标准偏差(Moving Block Relative Standard Deviation, MB-RSD):通过衡量块内数据的离散程度相对于其平均水平的比例大小,相较于MBSD标准化了波动程度,便于不同量级数据间的比较[16]。
然而,这些统计指标在实际运用过程中,其局限性也逐渐显现。MBSD、MBM和MB-RSD是单一的统计量,往往难以全面、稳健地刻画复杂的混合过程。对数据中的异常值或过程本身的微小波动过于敏感,导致终点判断不够稳定可靠,即缺乏“鲁棒性”[17] [18]。通常需要大量的理化数据去验证一个合理的阈值,这就意味着是基于历史数据进行框定的条件,当批次之间的颗粒如水分、粒度分布等特性差异较大时,用其中几批的混合终点光谱作为标准来预测其他批次易存在模型偏差,此时建立的模型所需样本量大且极具不稳定性。
因此,本研究尝试通过建立自适应主成分分析(自适应PCA)模型来在线监测碳酸钙D3颗粒的混合均匀度,其基本原理是通过在连续滚动的局部光谱区间窗口上反复应用PCA,建立多个PCA模型,来估计和追踪数据协方差结构随时间的变化(批次之间独立运行算法),同时根据马氏距离的阈值限判断混合的终点。
2. 材料与方法
2.1. 物料与仪器
物料来源:碳酸钙颗粒自制(华润三九医药股份有限公司),维生素D3颗粒自制(华润三九医药股份有限公司,过50目药典筛)
近红外光谱仪:MicroNIR-PAT-U;
高剪切湿法制粒机:奥星,4L制粒锅;
高效液相色谱仪(HPLC):日本岛津,LC-20AT。
2.2. 方法
2.2.1. 近红外光谱采集
采用MicroNIR-PAT-U,空气做背景,采用漫反射方式采集混合过程中光谱数据,光谱908.1-1676.2 nm,积分时间5.1 ms,扫描次数100次,扫描间隔2 s/1次。
光谱处理使用Unscrambler X软件,自适应算法在Python软件平台上完成。
2.2.2. 自适应PCA算法运行
通过混合过程采集的光谱数据形成每批次的模型,运用自适应PCA算法用于动态过程监测与终点检测。其核心技术路线是通过滚动更新PCA模型,计算后续模型到前一块的距离度量,对动态过程的光谱数据进行实时分析,判断过程是否达到稳态或终点。
具体操作:
使用湿法制粒机进行碳酸钙D3颗粒的混合工艺,混合比例为碳酸钙颗粒:维生素D3颗粒 = 150:1,设置搅拌桨转速为150 rpm,开始混合过程并采用MicroNIR-PAT-U探头收集光谱数据。将按时间序列的全过程光谱划分为连续的光谱块(Block),每个块包含固定数量的光谱(如设定块尺寸为n,则块1包含光谱S1~SN,则块1.1包含光谱SN+1~S2N+1),采用滑动窗口方式生成后续块,如块1包含S1~SN,块2包含S2~SN+1等,实现数据的滚动处理。对不同移动块的光谱数据进行预处理及主成分分析,确定当前空间使用的预处理方法、特征向量、均值向量、标准差等,计算当前块组的后一个块的重构数据及距离度量(如计算块1.1到块1的马氏距离或霍特林T2等),当距离度量达到设定阈值标准,则混合达到稳态或终点。阈值设定可根据单因素指标或多因素指标判定,如:同时满足设定要求连续3个块的马氏距离均 < 阈值,或霍特林T2超过阈值的次数 < 块尺寸的10% (如3次/30光谱)等。若达到阈值或设定标准,则进行块2组的判定,直至达到混合稳态或终点(原理流程图见图1)。
计算方法:
1. 建立基础块PCA模型
训练集光谱数据矩阵
,n:训练样本数;p:光谱波长点数(变量维数)
Figure 1. Flowchart of the adaptive PCA algorithm principle
图1. 自适应PCA算法原理流程图
(1) 中心化:
;
(2) 中心化数据:;
(3) 计算协方差矩阵:
;
(4) 特征分解:
。
:特征向量矩阵(列向量为单位特征向量)。
:特征值对角矩阵(
)。
(5) 选择主成分数k:
;
:前k个特征值。
2. 重构块光谱数据
(1) 新光谱数据矩阵
,m:新样本数;
(2) 中心化:;;
(3) 投影到主成分空间:
(4) 重构光谱数据:;。
3. 计算每个块的马氏距离的均值
:第j个新样本的得分向量(Tnew的第j行)。
:特征值逆矩阵
注:符号含义见表1。
Table 1. Symbol meanings
表1. 符号含义
符号 |
含义 |
维度 |
符号 |
含义 |
维度 |
n |
训练样本数 |
标量 |
p |
光谱波长点数 |
标量 |
m |
新样本数 |
标量 |
k |
主城分数 |
标量 |
X |
训练集光谱数据矩阵 |
n × p |
|
训练集均值向量 |
p × 1 |
Xc |
中心化训练数据 |
n × p |
C |
协方差矩阵 |
p × p |
P |
全部特征向量矩阵 |
p × p |
Λ |
全部特征值对角矩阵 |
p × p |
Pk |
前k个载荷向量 |
p × k |
Λk |
前k个特征值对角矩阵 |
k × k |
Xnew |
新批次光谱数据 |
m × p |
Xc,new |
中心化新数据 |
m × p |
Tnew |
新数据得分矩阵 |
m × k |
|
重构光谱数据 |
m × p |
tnew,j |
第j个新样本的得分向量 |
1 × k |
MDj |
第j个样本的马氏距离 |
标量 |
|
马氏距离的均值 |
标量 |
/ |
2.2.3. 自适应PCA算法验证
为验证建立的自适应PCA算法的准确性,当自适应PCA算法显示混合达到终点时,采用取样器从湿法制粒锅不同位置取样10个点(表层5个取样点,底层5个取样点;每个取样点1个正常样、1个备用样),使用HPLC法测定10个取样点中维生素D3含量,并计算RSD值,当RSD ≤ 5%时,表明混合均匀度达到要求,印证模型方法判断终点的准确性。HPLC检测条件如下表2所示:
Table 2. HPLC conditions for the determination of vitamin D3 content
表2. 维生素D3含量测定HPLC色谱条件
色谱柱 |
Ultimate LP-C18, 4.6 * 250 mm, 5 μm |
流速 |
1.5 mL/min |
检测波长 |
265 nm |
进样体积 |
100 μL |
柱温 |
30℃ |
运行时间 |
35 min |
流动相 |
以水–乙腈(40:60)为流动相A,以乙腈–甲醇(95:5)为流动相B |
洗脱条件 |
时间(min) |
A% |
B% |
0 |
100 |
0 |
5 |
0 |
100 |
25 |
0 |
100 |
26 |
100 |
0 |
35 |
100 |
0 |
3. 结果与讨论
3.1. 光谱预处理
共收集3批,碳酸钙D3颗粒混合过程采集的近红外原始光谱如图2(a)所示,预处理方法选用SNV,以消除由于颗粒分布不均导致的基线漂移,预处理后的光谱如图2(b)所示。
Figure 2. (a) Original NIR spectrogram, and (b) NIR spectrogram after SNV preprocessing
图2. (a) 原始NIR光谱图;(b) 经SNV预处理后的NIR光谱图
3.2. 自适应PCA算法中参数的确定
采用自适应PCA算法判定碳酸钙D3混合终点时,终点距离判断方法使用马氏距离计算,研究需求确定阈值为DM,主成分数k和块大小n。工业生产中针对马氏距离的阈值DM大多设定为3 (由于投影点有99.7%的概率由PCA描述,即错判的概率是0.3%),针对不同的生产混合比例,需结合当前生产实际情况对阈值进行调整,本研究中碳酸钙空白颗粒:维生素D3颗粒 = 150:1,混合体系中维生素D3颗粒整体占比较小,达到混合均匀终点时,光谱仅在很小的范围内随机波动,将DM设定为3无法精准监测混合终点,因此将阈值实际设定为1.73,以识别混合比例较大的样品。主成分数的选择需根据降维累计贡献程度判定,由于本试验的光谱数据质量相对较好,前两个主成分即可解释数据95%以上的变异,因此主成分数选择2。在碳酸钙D3混合过程中,每条光谱代表当前混合状态,块的大小决定建模数据多少及块与块之间马氏距离大小,为代表光谱的代表性和灵敏度,本研究的块大小选择为30 (在PCA建模分析中,光谱数据决定模型稳定性,块设定为30表示后一个光谱与前一分钟混合过程的变化),即每次使用30条连续光谱进行分析,并依次使用新的光谱代替最早的光谱进行迭代滚动分析。
为使碳酸钙D3混合终点的判断更为精确,需考察连续两组数据间均达到混合终点标准,具体参照2.2.2中的算法,计算块1与块1.1之间距离(记为D1),计算块1与块1.2之间距离(记为D2),具体示意图如图3。
Figure 3. Schematic diagram of adaptive PCA algorithm
图3. 自适应PCA算法示意图
3.3. 自适应算法终点判断结果分析
本研究对碳酸钙D3颗粒(批号:20250730)的混合过程进行监控,采用传统方法MBSD方法进行监控,结果如图4所示,MBSD由于混合颗粒差异较大,无法准确跟进混合变化过程,方法不适用。采用自适应PCA算法进行在线监测,结果见图5所示,在第535块时D1与D2均在阈值线下,为确定生产阶段达到稳定状态,当D1与D2均<1.73时,计算20个块,且90%的块位于阈值线下,即可认为达到碳酸钙D3颗粒混合终点时间。为验证数据分析方法准确性,将于第535块(即混合开始第15 min)时进行取样,采用液相测定各取样点(n = 10)样品中维生素D3的含量(根据2.2.3项下检测条件),并计算RSD值为1.47% ≤ 5%,证明本算法可用于混合终点判断。
为考察方法稳健性,使用与上述批次差异较大的两个批次(批号:20250617、20250722)如图6所示进行验证。验证结果如图7所示,按照2.2.3项下检测条件,测定的维生素D3含量RSD值分别为1.76%和3.24%,均低于5%阈值,结果表明,自适应PCA算法适用于批次间差异较大的碳酸钙D3颗粒混合均匀度判断。
Figure 4. Trend chart of hybrid termination judgment results of MBSD algorithm
图4. MBSD算法混合终点判断结果趋势图
Figure 5. Trend chart of adaptive PCA hybrid endpoint judgment results
图5. 自适应PCA混合终点判断结果趋势图
Figure 6. Comparison of PCA differences among three batches of calcium carbonate granules
图6. 三批次碳酸钙颗粒PCA差异对比
Figure 7. Verification group adaptive PCA mixed endpoint judgment results
图7. 验证组自适应PCA混合终点判断结果图
4. 结论
本研究以碳酸钙D3混合过程分析为研究对象,针对批次间差异较大样本混合过程终点的判断问题构建新方法,使用液相实际测定三批产品混合终点时不同取样点的维生素D3含量并计算RSD值,验证算法混合终点判断结果的准确性。本自适应PCA算法可用于混合过程均一性在线监测,其终点判断仅依赖实时采集的光谱数据,无需预校准或历史样本,通过滚动更新模型,适应过程参数的缓慢变化,避免过早误判终点,相较传统判别方法更加准确、全面,可灵活快速判断混合终点,确保产品均匀度符合质量要求。