基于知乎爬虫的话题研究——以“焦虑、抑郁、迷茫”为例
Research on Topic Analysis Based on Zhihu Web Crawler—A Case Study of “Anxiety, Depression, and Confusion”
DOI: 10.12677/csa.2025.156157, PDF,   
作者: 杜东山*, 乌 伟, 徐前进, 武 聪:西京学院计算机学院,陕西 西安
关键词: 知乎爬虫心理健康数据分析Zhihu Crawler Mental Health Data Analysis
摘要: 在信息时代,知乎作为重要的知识问答社区,积累了海量数据,为多学科研究提供丰富资源。本研究通过构建一个高效稳定的知乎数据爬虫系统,从知乎平台针对“抑郁、焦虑、迷茫”三个话题抽取了701条问题数据,去除了专栏文章和电子书后,保留了575个有效问题和220,184条有效回答,再对每个回答的内容进行解析,提取问题信息,包括问题ID、话题、问题描述和回答数等信息,在此基础上采取关键词分析、情感分析、影响力分析、性别差异分析方法并对结果进行了讨论。本研究的结果不仅对理解网络媒体上心理健康话题的讨论和影响具有重要意义,还为相关领域的研究提供了实证数据和方法论支持。
Abstract: In the information age, as an important knowledge Q&A community, Zhihu has accumulated massive data, providing rich resources for multidisciplinary research. In this study, an efficient and stable Zhihu data crawler system was constructed to extract 701 question data from the Zhihu platform for the three topics of “depression, anxiety, and confusion”. After removing column articles and e-books, 575 valid questions and 220,184 valid answers were retained. Then, the content of each answer was analyzed to extract question information, including question ID, topic, question description, number of answers, etc. On this basis, keyword analysis, emotional analysis, influence analysis, and gender difference analysis methods were adopted, and the results were discussed. The findings of this study not only hold significant implications for understanding the discussions and impacts of mental health topics on online media but also provide empirical data and methodological support for research in related fields.
文章引用:杜东山, 乌伟, 徐前进, 武聪. 基于知乎爬虫的话题研究——以“焦虑、抑郁、迷茫”为例[J]. 计算机科学与应用, 2025, 15(6): 56-68. https://doi.org/10.12677/csa.2025.156157

参考文献

[1] 王强. 社交媒体数据分析关键技术和应用[J]. 数据科学, 2023, 15(6): 201-210.
[2] 李明. 基于Python的社交网络情感分析系统研究与实现[D]: [硕士学位论文]. 北京: 北京邮电大学, 2023.
[3] 张伟. 基于深度学习的情感分析在社交媒体中的应用探究与实践[J]. 计算机应用, 2025, 42(1): 102-108.
[4] 刘洋. 网络社交媒体数据挖掘与情感分析[J]. 网络安全技术, 2024, 11(10): 120-126.
[5] 张静. “知乎”用户知识分享行为的“使用与满足” [J]. 青年记者, 2018(8): 94-95.
[6] 卢晓荣, 张树良. 国内社交媒体用于学术成果Altmetrics评价存在问题及对策[J]. 图书情报工作, 2019, 63(21): 87-96.
[7] Xu, A.T., Wang, F.Y. and Ying, P.T. (2019) Xiaomi Brand Appraisal Research Based on Zhihu by Text Mining Technology. Proceedings of the 4th International Conference on Big Data and Computing, Guangzhou, 10-12 May 2019, 221-225.
[8] 郭博, 许昊迪, 雷水旺. 知乎平台用户影响力分析与关键意见领袖挖掘[J]. 图书情报工作, 2018, 62(20): 122-132.
[9] Sun, Y.Q., Guo, B., Li, Z.M., Cheng, J.H. and Wang, L. (2019) Leveraging User Profiling in Click-through Rate Prediction Based on Zhihu Data. 2019 2nd China Symposium on Cognitive Computing and Hybrid Intelligence (CCHI), Xi’an, 21-22 September 2019, 131-136.
[10] 雷蒙∙威廉斯. 关键词: 文化与社会的词汇[M]. 刘建基, 译. 北京: 三联书店. 2005: 46-48.
[11] 熊玫. 基于大数据技术的大学生心理危机干预路径研究[J]. 辽宁经济职业技术学院. 辽宁经济管理干部学院学报, 2023(3): 146-148.
[12] 付茜茜. 从“内卷”到“躺平”: 现代性焦虑与青年亚文化审思[J]. 青年探索, 2022(2): 80-90.
[13] 潘泽泉. 网络“陌生人社”行为的心理与本质[J]. 人民论坛, 2020(30): 78-81.
[14] 吴宁, 孔静漪. 社会加速背景下青年的生存焦虑与消解路径——基于罗萨的社会加速理论[J]. 山东青年政治学院学报, 2024, 40(1): 39-45.
[15] 靳雅晴, 闫伟娜. 社交媒体时代青年群体身材焦虑现象探析[J]. 全媒体探索, 2024(1): 130-132.
[16] 黄海荣. Soul发布《2023年轻人搭子社交报告》[EB/OL]. 新华网.
https://www.xinhuanet.com/fortune/2023-06/21/c_1212236557.htm, 2023-06-21.
[17] 潘泽泉. 青年群体为何流行治愈系文化[J]. 人民论坛, 2024(1): 84-86.
[18] 胡伯项, 吴隽民. 新媒体时代泛娱乐主义对我国主流意识形态的冲击及其应对[J]. 思想教育研究, 2021(10): 85-92.
[19] 韦理强, 李坤. 焦虑和抑郁障碍的性别差异神经机制[J]. 科学通报, 2024(69): 4470-4485.