基于随机森林回归的乳腺癌抗药生物活性预测
Prediction of Antibiotic Activity of Breast Cancer Drug Resistance Based on Random Forest Regression
摘要: 在药物研发中,雌激素受体α亚型(Estrogen receptors alpha, ERα)被认为是治疗乳腺癌的重要靶标,能拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。因此本文旨在以生物活性值pIC50作为因变量,作用于ERα靶标化合物的分子结构描述符作为自变量,构建关于ERα靶标化合物的生物活性预测模型,进而挑选出有效的抗癌候选药物。首先采用方差过滤法、随机森林、XGBoost以及灰色关联分析对自变量进行筛选,得到MDEC-23等16个与pIC50相关性强,且变量间相关性弱的分子结构描述符。其次建立随机森林回归生物活性预测模型,将预测结果与支持向量回归、梯度提升回归树、XGBoost模型和MLP回归模型预测结果进行对比分析,结果表明随机森林回归模型能更好地拟合数据,在R2、MAE、MSE上优于其它模型,更适应于对生物活性pIC50值的预测,同时也表明筛选出的分子结构描述符在一定程度上能治疗乳腺癌。
Abstract: In drug development, the Estrogen receptors α subtype (ERα) is considered to be an important target for the treatment of breast cancer, and compounds that antagonize ERα activity may be candidates for the treatment of breast cancer. Therefore, this paper aims to use the biological activity value pIC50 as the dependent variable and the molecular structure descriptor acting on the ERα target compound as the independent variable to construct a prediction model for the biological activity of the ERα target compound, and then select effective anti-cancer drug candidates. Firstly, the independent variables were screened by variance filtering, random forest, XGBoost and gray correlation analysis, and 16 molecular structure descriptors such as MDEC-23 with strong correlation with pIC50 and weak correlation between variables were obtained. Secondly, a random forest regression biological activity prediction model is established, and the prediction results are compared and analyzed with the prediction results of support vector regression, gradient boosting regression tree, XGBoost model and MLP regression model, and the results show that the random forest regression model can better fit the data, is better than other models in R2, MAE and MSE, and is more suitable for predicting the bioactive pIC50 value, and also shows that the screened molecular structure descriptors can treat breast cancer to a certain extent.
文章引用:龙荣进, 袁松, 杨丽鑫, 王飞云, 周洁. 基于随机森林回归的乳腺癌抗药生物活性预测[J]. 运筹与模糊学, 2023, 13(2): 778-788. https://doi.org/10.12677/ORF.2023.132080

参考文献

[1] 王三六. 术前全身炎症反应指数和纤维蛋白原/清蛋白比值联合分析对乳腺癌患者的意义[J]. 国际检验医学杂志, 2023, 44(3): 326-330+335.
[2] 中央人民政府. 74种新药进医保谈判成功率再创新高[EB/OL]. http://www.gov.cn/zhengce/2021-12/04/content_5655779.htm, 2022-07-27.
[3] 刘宗超, 李哲轩, 张阳, 周彤, 张婧莹, 游伟程, 潘凯枫, 李文庆. 2020全球癌症统计报告解读[J]. 肿瘤综合治疗电子杂志, 2021, 7(2): 1-14.
[4] 中国女医师协会乳腺疾病研究中心. 中国进展期乳腺癌共识指南2020 (CABC3) [J]. 癌症进展, 2020, 18(19): 1945-1964.
[5] 刘昭国, 廖永德, 唐和孝. 雌激素受体在乳腺癌中的研究进展[J]. 肿瘤防治研究, 2012, 39(7): 869-871.
[6] 黄燕红, 李静, 董文武, 张浩, 单忠艳, 滕卫平. 雌激素受体α、β亚型在乳头状甲状腺癌中表达的临床及生物学意义研究[C]//中华医学会第十一次全国内分泌学学术会议论文汇编. 2012: 227.
[7] 刘训德. 雌激素受体α基因XbaI和PvuII多态性与乳腺癌及其不同分子亚型易感性的关系[D]: [硕士学位论文]. 遵义: 遵义医科大学, 2019.
[8] 夏玉兰, 谢济铭, 王雅婧, 卢梦媛, 王锦锐, 秦雅琴. 抗癌候选药物ERα抑制剂活性预测[J]. 深圳大学学报(理工版), 2022, 39(5): 529-537.
[9] 何毅, 马双宝, 孙彪. 基于随机森林的ERα生物活性预测研究[J]. 武汉纺织大学学报, 2022, 35(4): 54-56.
[10] 刘利梅, 陈晓晋, 孙世伟, 王宇, 王辉, 梅树立, 王耀君. 深度学习在药物活性预测研究中的应用[J]. 生物化学与生物物理进展, 2022, 49(8): 1498-1519.
[11] Chen, T. and Guestrin, C. (2016) Xgboost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 13-17 August 2016, 785-794. [Google Scholar] [CrossRef
[12] 李占山, 刘兆赓. 基于XGBoost的特征选择算法[J]. 通信学报, 2019, 40(10): 101-108.
[13] Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32. [Google Scholar] [CrossRef
[14] 方匡南, 吴见彬, 朱建平, 谢邦昌. 随机森林方法研究综述[J]. 统计与信息论坛, 2011, 26(3): 32-38.
[15] 王斯, 张国浩, 陈义安. 基于GWO-KELM与GBDT的抗乳腺癌药物性质预测[J/OL]. 重庆工商大学学报(自然科版): 1-12. http://kns.cnki.net.http.gzlib.proxy.chaoxing.com/kcms/detail/50.1155.N.20220928.1913.002.html, 2023-04-11.
[16] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报, 2000(1): 36-46.
[17] 叶丹, 胡二琴. 基于嵌入式特征选择算法下的抗乳腺癌药物分子活性预测[J]. 电脑知识与技术, 2022, 18(34): 8-10.