基于偏最小二乘回归的邮件分类问题研究
Research on Mail Classification Problem Based on Partial Least Squares Regression
摘要: 本文基于最小二乘的主成分回归(PCR)方法对邮件进行分类,进一步使用偏最小二乘回归(PLS)对垃圾邮件识别分类。将PLS与PCR得到的分类准确度进行比较分析,考察PLS分类准确度百分比随分类截点变化的趋势,并得出两种方法下不同k值(主成分个数)对应的ROC曲线图,分析PLS与PCR方法识别和分类垃圾邮件的准确度和稳定性。
Abstract: This paper classifies emails based on the principal component regression (PCR) method of least squares, and further uses partial least squares regression (PLS) to identify and classify spam emails. The classification accuracy obtained by PLS and PCR was compared and analyzed. Then the trend of the percentage of classification accuracy of PLS with the classification cut-off point is examined, and the ROC curve corresponding to different k values (number of principal components) under the two methods is obtained. Finally, this article analyzes the accuracy and stability of PLS and PCR methods to identify and classify spam.
文章引用:李会会. 基于偏最小二乘回归的邮件分类问题研究[J]. 统计学与应用, 2021, 10(3): 365-372. https://doi.org/10.12677/SA.2021.103036

参考文献

[1] 李雪, 孙建平. 一种改进的偏最小二乘回归方法研究 [J]. 仪器仪表用户, 2017, 24(5): 16-19+28.
[2] Eldén, L. (2004) Partial Least-Squares vs. Lanczos Bidiagonalization-I: Analysis of a Projection Method for Multiple Regression. Computational Statistics and Data Analysis, 46, 11-31.
[Google Scholar] [CrossRef
[3] 赵晓丹, 徐燕. 垃圾邮件分类技术对比研究[J]. 信息网络安全, 2014(2): 75-80.
[4] 毛雪莲. 多重共线性问题的偏最小二乘估计[J]. 科技视界, 2019(27): 152-153.
[5] 陈龙, 梁意文, 谭成予. 基于自适应性分类器的垃圾邮件检测[J]. 计算机工程, 2018, 44(5): 194-200.
[6] 李雨亭. 基于深度学习的垃圾邮件文本分类方法[D]: [硕士学位论文]. 太原: 中北大学, 2018.
[7] 黄鹤, 荆晓远, 董西伟, 吴飞. 基于Skip-gram的CNNs文本邮件分类模型[J]. 计算机技术与发展, 2019, 29(6): 143-147.
[8] 段同庆, 鲁瑞, 史新军, 刘红伟, 邓晓伟, 马骏. 偏最小二乘回归在探索PCI治疗冠心病患者预后影响因素中的应用[J]. 中国卫生统计, 2019, 36(6): 824-828.
[9] 丁学利, 任鹏. 基于偏最小二乘回归的空气质量数据校准研究[J]. 廊坊师范学院学报(自然科学版), 2020, 20(1): 9-14.
[10] Keshav, K. (2021) Partial Least Square (PLS) Analysis. Resonance, 26, 429-442.
[Google Scholar] [CrossRef
[11] 王琦, 吴钟扬, 黄陈蓉, 潘磊. 基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 南京工程学院学报(自然科学版), 2018, 16(3): 20-27.
[12] 吴小晴, 万国金, 李程文, 林梦思, 曹书强. 一种改进TF-IDF的中文邮件识别算法研究[J]. 现代电子技术, 2020, 43(12): 83-86.
[13] 徐梦龙, 黄家旺. 朴素贝叶斯算法在垃圾邮件过滤方面的应用[J]. 网络安全技术与应用, 2018(7): 46-47.