中药材太赫兹数据预处理方法的研究
Research on Preprocessing Methods of Terahertz Data for Traditional Chinese Medicine
DOI: 10.12677/hjmce.2024.124031, PDF, HTML, XML,    科研立项经费支持
作者: 胡相棚, 陈华林, 刘予煊, 唐德东:重庆科技大学电子与电气工程学院,重庆
关键词: 太赫兹光谱测量中药材预处理Terahertz Spectroscopy Traditional Chinese Medicine Preprocessing
摘要: 随着太赫兹技术的迅速发展和国家对中药行业的支持使其在中药材品质鉴别中成为了热点,但太赫兹光谱数据易受噪声干扰增加了药材鉴别的不确定性,因此需探索出适合中药材太赫兹光谱数据的预处理方法。本研究以当归为例,比较了多种不同预处理方式。同时研究了不同参数对SG平滑和小波变换效果的影响。结果显示,SG + 小波的组合能够有效去除噪声,且具有高效稳定性,是一种可标准化的处理方法;SG + MSC + 小波的组合处理效果最佳,但流程相对复杂,适用于高标准场景。本研究为中药材太赫兹光谱数据的预处理提供了有效方案。
Abstract: With the rapid development of terahertz technology and the national support for the Traditional Chinese Medicine (TCM) industry, it has become a hotspot for identifying the quality of TCM. However, terahertz spectral data is easily affected by noise, which increases the uncertainty of herb identification. Therefore, it is necessary to explore preprocessing methods suitable for TCM terahertz spectral data. In this study, Angelica sinensis was used as an example to compare various preprocessing methods. The effects of different parameters on Savitzky-Golay (SG) smoothing and wavelet transform were also studied. The results show that the combination of SG and wavelet transform can effectively remove noise with high efficiency and stability, making it a standardizable processing method. The combination of SG, Multiplicative Scatter Correction (MSC), and wavelet transform yields the best results, but the process is relatively complex, making it suitable for high-standard scenarios. This study provides an effective solution for preprocessing TCM terahertz spectral data.
文章引用:胡相棚, 陈华林, 刘予煊, 唐德东. 中药材太赫兹数据预处理方法的研究[J]. 药物化学, 2024, 12(4): 276-283. https://doi.org/10.12677/hjmce.2024.124031

1. 引言

太赫兹波的频率范围为0.1至10 THz,具有能量低、频谱宽、穿透力强和吸收能力高等特点[1]。基于太赫兹光谱的鉴别检测技术因其识别率高、耗时短、操作简便,成为一种新颖的检测手段。中草药的药用成分结构复杂,其有机分子之间的弱相互作用、振动跃迁,以及晶体中的低频振动和吸收频率多处于太赫兹波段范围内。这些振动反映了中草药的分子结构及相关信息,使得太赫兹光谱技术在中药材的品质鉴别和药材分类中成为了热点[2]-[5]

然而,太赫兹光谱数据易受噪声干扰,需要通过预处理提高中药材品质鉴别和药材分类的准确性。常用的预处理方法包括SG平滑、归一化和去噪等[6],但这些单一处理方法在处理全频段的数据有欠缺。SG平滑在高频和低频区域均表现出良好的平滑效果,但中频段仍存在部分噪声;MSC方法在高频区域的表现较差会产生较多的噪声;小波变换在整体上表现出一定的平滑效果,但在高频区域仍有些许噪声;平移校正方法在校正低频漂移方面效果较好,但在高频区域的噪声抑制能力较弱。刘燕德、徐振和胡军等人采用SG平滑,平移校正等方法对原始光谱进行预处理,并结合分类预测实现药材鉴别[7]。赵伟采用SG平滑、MSC等方法对天麻等六种中药材预处理并根据随机森林(RF)、支持向量机(SVM)、偏最小二乘法判别分析(PLS-DA)等算法原理建立分类模型[8],并成功实现了不同药材的分类。然而,他们的研究主要集中于分类方法,缺乏对数据预处理的标准化方法。本研究以当归、丹参等传统中药材为例,探索可标准化的预处理方法,为中药材太赫兹数据的预处理研究提供参考,助力中药材行业的高质量发展。

2. 实验部分

2.1. 实验系统

实验所使用的太赫兹时域光谱系统由青岛青源峰达太赫兹科技有限公司生产,型号为QT-TO1000。太赫兹时域光谱实验系统由飞秒激光源、太赫兹脉冲发射模块、太赫兹探测模块、时间延迟控制系统、信号采集与处理系统以及样品台与光路系统组成,见图1。其工作原理为;飞秒激光发射器发出激光脉冲,经过分束镜分成两束光,一束光为泵浦光经过延迟线后到达THz辐射源上产生THz辐射,另一束激光脉冲和THz脉冲一同到达THz探测器上,延迟线通过改变探测光与泵浦光之间的光程差,使探测器对探测光在不同时刻对THz脉冲的电场强度进行测量,获得样品的太赫兹时域光谱,利用计算机对信号进行处理和光学参数提取。

Figure 1. Diagram of the practical teaching system of automation major [9]

1. 透射式太赫兹时域光谱系统[9]

2.2. 样品制备

由于太赫兹光谱对水分的敏感性极高,在实验样品的制备过程中,必须进行充分的干燥处理,以避免水分干扰光谱数据的准确性。此外,为了减小样品颗粒对太赫兹波散射的影响,需对实验样品进行严格的粉碎和筛分。经过筛分后,得到的样品粉末需与高纯度聚乙烯充分混合,确保样品能够顺利压制成均匀的薄片。

在压片前,使用高精度天平精确称量样品粉末,以控制样品薄片的厚度为0.8 mm。这一步骤对于确保实验结果的一致性和可重复性至关重要。压片过程中的压力设置为6 MPa,压片时间则为3分钟[10],确保样品在均匀受压下形成稳定的薄片结构,从而提高后续太赫兹光谱检测的准确性和可靠性。

2.3. 光谱数据采集

实验中使用的中药材当归、丹参、决明子、牡蛎均购买自康美药业药房。将光谱采集环境温度设定为20℃,相对湿度保持在35%左右以保证光谱采集环境的一致性[11]。将制备好的样品依次采集光谱数据,每一个样品一共采集5个点,在同一个点采集3次,本研究所有样品总共采集到300条光谱数据。接下来对光学参数进行提取,最后根据ficsher所提出的方法,确定有效波段为0.3~1.9 Thz。

3. 预处理

3.1. 参数确定

SG平滑前需确定窗口大小和多项式阶数,窗口大小需要足够大以覆盖足够多的数据点,同时不会损失数据的细节,通常在11到27之间,然后确定多项式拟合阶数,用于拟合窗口内的数据,常用的多项式阶数包括2次、3次、4次等,阶数一般不超过窗口大小。

小波变换在处理太赫兹吸收系数谱时,可以被视为有限长度信号与离散小波基的内积过程,通过平移和缩放等计算手段,它能够对太赫兹信号进行多层次的精细分析。根据特定的需求,选择适当的小波基函数和分解层数,可以将太赫兹信号分解为不同尺度的近似系数和细节系数,对太赫兹吸收系数谱进行分解和重构,从而实现去除噪声、平滑数据、突出信号特征的目的。

图2(a)所示为当归的太赫兹吸收系数谱进行SG平滑处理前后的对比效果,采用SG平滑和对太赫兹吸收系数谱进行处理时,能够在去除随机噪声的同时,保持吸收系数谱峰的形状和宽度,从处理效果来看,选择窗口大小为23时,SG平滑能去除掉太赫兹吸收系数谱中较为尖锐的毛刺。如图2(b)所示当阶数设置为1只能使用较简单的多项式进行拟合,只能捕捉信号的整体趋势而忽略细节信号会被过度平滑,导致重要的特征信息(如峰形、峰位等)丢失,影响信号的完整性使大量的有效信息丢失,从而导致中药材吸收光谱失真;而将阶次设置大于3次以后,用复杂的多项式去拟合局部数据,这会导致噪声与信号都被拟合到,从而引入更多的波动或噪声,削弱去噪效果。高阶数下,SG滤波不仅无法有效平滑噪声,还可能夸大一些微小的波动,使信号更加复杂和不稳定,出现过拟合现象,原始信号与平滑后的信号几乎重合,未能有效去除噪声信号。因此将SG参数定为:窗口大小23,拟合阶数2阶。

Figure 2. Determination of SG smoothing parameters; (a) SG smoothing window size; (b) SG smoothing polynomial order

2. SG平滑参数确定;(a) SG平滑窗口大小;(b) SG平滑拟合阶数

Figure 3. Comparison of different decomposition levels in wavelet transform

3. 小波变换不同分解层数对比

图3所示为不同分解层数对中药材太赫兹吸收系数谱进行去噪的效果。观察可以得出,当分解层数小于3层时高频部分的光谱与原始光谱有严重重叠,而分解层数大于3层时低频部分被过度降噪失去了光谱的特征信息,所以选取分解层数为3层最优。

3.2. 单一方法预处理结果

Figure 4. Forensics: Results of preprocessing with a single method

4. 单一方法预处理结果

图4中可以看出SG平滑方法在高频和低频区域均表现出良好的平滑效果,特别是在高频区显著减少了噪声。MSC方法在高频区域的表现相对较差,产生了较多的噪声,而小波变换方法则在整体上表现出一定的平滑效果,但在高频区域仍有些许噪声。平移校正方法在校正低频漂移方面效果较好,但在高频区域的噪声抑制能力较弱。

3.3. 组合方法预处理结果

图5(a)中可以看出两两组合方法均有一定程度的噪声抑制效果,但表现差异较大。SG + MSC的组合在低频和高频区域的噪声抑制效果相对较好,但仍然存在一些高频噪声。SG + 小波的组合则表现出更为平滑的信号,特别是在1.5 THz至3 THz区域,其信号一致性和平滑性较好。相比之下,MSC + 小波和MSC + 平移校正的组合在低频区域存在较大的噪声,影响了信号的平滑性。SG + 平移校正的组合在高频区域表现不如SG + 小波,存在较多的噪声。而小波 + 平移校正的组合在整体信号平滑性上有所改善,但在高频区域仍有少许噪声。

图5(b)中可以看出三三组合方法在高频区域,所有组合方法都显著减少了噪声,但仍有一定的差异。SG + MSC + 小波的组合效果较为显著,整体信号更加平滑,高频噪声几乎完全消除。SG + MSC + 平移校正的组合也表现出良好的平滑效果,尤其是在高频区域,其抑制噪声的能力与SG + MSC + 小波类似。SG + 小波 + 平移校正和MSC + 小波 + 平移校正的组合在低频和高频区域的平滑性稍差,特别是在2.5 THz以上的高频区域,仍存在一些残留噪声。

综合考虑信号的平滑性、噪声抑制和处理效率,SG + MSC + 小波的组合在多种预处理方法中表现最佳。它在高频噪声的消除方面尤为突出,同时保持了良好的信号一致性和形态,此组合提供了全面的预处理效果,适用于高精度数据分析。考虑到实际应用中的效率需求,SG + 小波作为两两组合的预处理方法能有效去除噪声并稳定基线,同时处理效率高,可以成为标准化的中药材太赫兹数据预处理方法。

Figure 5. Results of preprocessing with combined methods; (a) results of pairwise combination preprocessing; (b) results of triple combination preprocessing

5. 组合方法预处理结果;(a) 两两组合预处理结果;(b) 三三组合预处理结果

3.4. 方法验证

图6可以看出,SG + 小波的预处理方法在处理丹参、决明子和牡蛎三种中药材时,依然能够有效去除噪声并减少干扰。SG + 小波预处理方法效果较好源于两者各自的优势,小波变换可以在时域和频域上进行多分辨率分析,有效分离信号中的不同频率成分,特别适合处理中药材光谱中的非平稳信号,从而去除大部分高频噪声。而SG通过多项式拟合局部数据,能够平滑信号,去除残余噪声,并保持光谱的峰位和形状。两者结合使得SG + 小波既能有效去除噪声,又能保留光谱的主要特征,适应不同频率成分,最终减少干扰并提高信号质量。这一结果表明,该方法具有较强的泛用性,能够稳定地应用于不同类型的中药材。这为将SG + 小波方法推广至其他药材的太赫兹光谱数据预处理中提供了可靠依据。

Figure 6. Preprocessing results of SG + wavelet for salvia, cassia, and oyster

6. SG + 小波对丹参、决明子及牡蛎预处理结果

4. 结论

本研究聚焦于中药材太赫兹光谱数据的预处理研究,以当归、丹参、决明子和牡蛎为例,通过制备样品、采集光谱并应用不同的预处理方法,分析了各方法的效果。实验结果表明,SG平滑结合小波变换能够有效去除噪声,是一种可标准化的预处理组合。不仅处理效果优异,而且相较于更复杂的三三组合方法,显著减少了预处理的工作量,提高了处理效率。同时,SG + MSC + 小波的组合在处理后得到的光谱数据中,噪声更少、幅度更一致,提供了更为全面的预处理效果,适用于高精度的数据分析需求。得出结论:SG + 小波的组合是一种可标准化的处理方法;SG + MSC + 小波的组合适用于高标准场景。该研究为中药材太赫兹光谱数据的标准化预处理提供了有效的参考,具有较高的应用价值。

基金项目

重庆科技大学研究生创新计划项目,项目编号为YKJCX2320408。

参考文献

[1] 赵伟. 基于太赫兹光谱的典型中药材鉴别研究[D]: [硕士学位论文]. 绵阳: 西南科技大学, 2023.
[2] 郑潇潇. 太赫兹时域光谱技术在3种川产道地药材鉴别中的应用[D]: [硕士学位论文]. 成都: 成都中医药大学, 2018.
[3] 乔世成, 姜静清, 何宽, 宋士媛, 田有文. 中药材品质无损检测技术研究进展[J]. 中药材, 2019(10): 2468-2472.
[4] 田珺宏, 周俊, 郑潇潇, 等. 基于太赫兹时域光谱仪的中药材鉴定技术研究[J]. 中国医疗设备, 2018, 33(7): 9-13.
[5] 张活. 基于太赫兹时域光谱技术的中药检测方法研究[D]: [博士学位论文]. 西安: 西安电子科技大学, 2018.
[6] 徐振. 基于太赫兹时域光谱技术的川贝母品质检测方法研究[D]: [硕士学位论文]. 南昌: 华东交通大学, 2022.
[7] 杨罪, 张放, 宋茂江, 胡鹏飞, 沈力, 刘丽萍. 中药材太赫兹光谱数据分析方法综述[J]. 中华中医药学刊, 2019, 37(11): 2632-2635.
[8] 徐振, 刘燕德, 胡军, 李茂鹏, 崔惠桢, 占朝辉. 基于太赫兹时域光谱技术的掺假川贝母检测[J]. 农业工程学报, 2021, 37(15): 308-314.
[9] 张淑敏. 基于太赫兹技术的邮包内违禁品在线检测方法研究[D]: [硕士学位论文]. 重庆科技大学, 2024.
[10] 徐凤, 蒋毅, 罗辉. 不同厚度丁晴橡胶材料太赫兹光谱特性分析研究[J]. 时代农机, 2019, 46(11): 88, 91.
[11] 赵伟, 何俊, 侯森林, 邓琥, 李杰, 赵平. 应用太赫兹光谱技术快速无损鉴别中草药品种[J]. 太赫兹科学与电子信息学报, 2023, 21(5): 586-593.