调查问卷中开放题文本答案编码方法研究综述
A Review of Text Answer Coding Methods for Open-Ended Questions in Questionnaires
摘要: 调查问卷作为联系调查者与被调查者之间的“纽带”,是采集数据、发现因素间内在联系和规律的有力工具。对其中的开放题收集的答案文本数据进行编码,有助于了解文本答案蕴含的固有特征,便于后期开展统计分析,是开放题研究的热点问题。为此,从人工编码、半自动编码及自动编码三个方面对开放题文本答案的编码方法研究进行了归纳、总结与展望,为进一步开展相关研究奠定良好的基础。结果表明:关于开放题文本答案的编码方法研究,经历了从最初的完全人工编码到“机器 + 人工”的半自动编码,逐步发展到目前“基于人工智能”的自动编码探索三个阶段;虽然编码效率得到了极大的提升,但是由于缺乏普适性的编码方法,因而不同领域开放题文本答案编码的准确性存在较大差异,提高编码的普适性、准确性仍是未来研究的重点。
Abstract: As the “link” between the investigator and the respondent, questionnaire is a powerful tool to col-lect data and find the internal relations and rules among factors. Encoding the answer text data col-lected by the open-ended questions is helpful to understand the inherent characteristics of the text answers, which is convenient for later statistical analysis, and is a hot issue in the study of open questions. Therefore, this paper summarizes, concludes and prospects the research on the encoding methods of open-ended question text answers from three aspects: manual encoding, semi-automatic encoding and automatic encoding, which lays a good foundation for further related research. The results show that: As for the research on the encoding method of open-ended ques-tion text answer, it has experienced three stages from the initial completely manual encoding to the semi-automatic encoding of “machine + manual”, and gradually developed to the current automatic encoding exploration of “artificial intelligence”. Although the coding efficiency has been greatly im-proved, due to the lack of universal coding methods, the accuracy of open-ended question text an-swer encoding in different fields is quite different. Improving the universality and accuracy of cod-ing is still the focus of future research.
文章引用:刘培莹, 安建业. 调查问卷中开放题文本答案编码方法研究综述[J]. 统计学与应用, 2023, 12(5): 1464-1476. https://doi.org/10.12677/SA.2023.125150

参考文献

[1] 李林梅. 试论市场调查中问卷设计的几个基本原则[J]. 统计与信息论坛, 2000, 15(2): 45-47+59.
[2] 许奎, 冷艳梅. 新时代中国特色国家审计项目组织管理影响因素研究——基于访谈和问卷的调查分析[J]. 审计研究, 2022(5): 49-55.
[3] Szűcs, V., Szabó, E. and Bánáti, D. (2015) Exploration of Healthy Nutrition Attitudes Using a Questionnaire Survey. Orvosi Hetilap, 156, 636-643. [Google Scholar] [CrossRef
[4] Hone, K.S. and El Said, G.R. (2016) Exploring the Factors Affecting MOOC Retention: A Survey Study. Computers & Education, 98, 157-168. [Google Scholar] [CrossRef
[5] Udo, G.J. (2013) Privacy and Security Concerns as Major Barriers for E-Commerce: A Survey Study. Information Management & Computer Security, 9, 165-174. [Google Scholar] [CrossRef
[6] 王志刚, 刘子明, 刘超. 农产品质检体系建设对机构整合的影响——基于冀鄂鲁陕四省210家质检组织的调查问卷[J]. 农业经济与管理, 2022(4): 61-70.
[7] 赵峰, 王轶. 市场化信贷、非市场化信贷对返乡创业企业绩效的影响研究——基于中国返乡创业调查问卷的证据[J]. 经济纵横, 2022(4): 67-81.
[8] 周晓清, 毛方吉, 詹春青, 焦建利. 中小学管理者对智慧课堂的认知及其态度调查——基于377份中小学管理者的调查问卷分析[J]. 现代教育技术, 2021, 31(5): 104-110.
[9] 张羽冠, 申乐, 张圣洁, 王惠珍, 张秀华, 黄宇光. 新型冠状病毒肺炎疫情期间北京协和医院手术室内医护人员头面部防护情况问卷调查[J]. 中国医学科学院学报, 2021, 43(5): 767-772.
[10] 康等银. 关于调查问卷设计应注意几个问题的研究[J]. 科技信息, 2009(23): 608+622.
[11] 潘绥铭, 黄盈盈, 王东. 问卷调查: 设置“开放题”是一种失误[J]. 社会科学研究, 2008(3): 81-85.
[12] 肖富群. 调查研究中开放式问题的编码[J]. 统计与决策, 2007(5): 73-74.
[13] 蔡鸿云, 王静, 李雪松. 文旅融合背景下云南旅游市场分析及策略研究——基于问卷和网络文本的结合分析[J]. 统计与管理, 2021, 36(1): 81-88.
[14] 王俊芳, 时俊卿. 问卷调查的类别、优缺点及实施[J]. 教育科学研究, 2004(9): 58-59.
[15] Song, G., Ye, Y., Du, X., Huang, X. and Bie, S. (2014) Short Text Classification: A Survey. Journal of Multimedia, 9, 635-643. [Google Scholar] [CrossRef
[16] 王昕. 青少年隐私调查中的“主体”反抗——基于问卷调查开放题的反思[J]. 中国青年研究, 2016(10): 10-14.
[17] 吕品, 武秦娟, 许嘉. 上市公司文本信息披露智能分析研究综述[J]. 计算机工程与应用, 2021, 57(24): 1-13.
[18] 陈曦. 文本挖掘技术在社情民意调查中的应用[J]. 中国统计, 2019(6): 27-29.
[19] 郑晶晶. 问卷调查法研究综述[J]. 理论观察, 2014(10): 102-103.
[20] 王俊杰, 韩孟杰, 陈清峰. 大学生艾滋病传播潜在风险网络测试问卷重复测试一致性分析[J]. 中国艾滋病性病, 2022, 28(10): 1150-1153.
[21] 侯俊峰. 基于编码—解码模型的序列映射若干问题研究[D]: [博士学位论文]. 合肥: 中国科学技术大学, 2020.
[22] 夏海力, 朱诗晗, 李雨璇. 苏州市夜间旅游创新发展路径研究——基于网络文本和问卷调查的分析[J]. 苏州科技大学学报(社会科学版), 2021, 38(6): 24-31+107.
[23] 肖洁, 卜林, 孙婷妹. 浅析开放式问卷的调查与设计[J]. 内江科技, 2010, 30(1): 50+154.
[24] 武庆玲. 定量项目问卷的编码要求及原则[J]. 市场研究, 2006(5): 44-47.
[25] Popping, R. (2013) Analyzing Open-Ended Questions by Means of Text Analysis Procedures. Bulletin of Sociological Methodology, 128, 23-39. [Google Scholar] [CrossRef
[26] 李耀. 顾客单独创造价值的结果及途径——一项探索性研究[J]. 管理评论, 2015, 27(2): 120-127.
[27] 百度文库. 问卷调查中的编码技巧[EB/OL].
https://wenku.baidu.com/view/7fdfe886de3383c4bb4cf7ec4afe04a1b071b0b7.html, 2022-12-28.
[28] 任莉颖, 邱泽奇, 李力, 严洁. 社会调查中职业问题编码的方式与质量研究[J]. 浙江大学学报(人文社会科学版), 2012, 42(3): 210-219.
[29] Popping, R. (2012) Human or Machine Coding of Open-Ended Questions. Bulletin of Sociological Methodology, 115, 79-88. [Google Scholar] [CrossRef
[30] Popping, R. and Roberts, C.W. (2019) Coding Issues in Semantic Text Analysis. Field Methods, 21, 244-264. [Google Scholar] [CrossRef
[31] He, Z. and Schonlau, M. (2022) A Model-Assisted Approach for Finding Coding Errors in Manual Coding of Open-Ended Questions. Journal of Survey Statistics and Methodology, 10, 365-376. [Google Scholar] [CrossRef
[32] 李煜, 徐安琪. 普通人的爱情观研究——兼开放式问题的量化尝试[J]. 社会科学, 2007(7): 132-141.
[33] Esuli, A. and Sebastiani, F. (2010) Machines That Learn How to Code Open-Ended Survey Data. International Journal of Market Research, 52, 775-800. [Google Scholar] [CrossRef
[34] Schonlau, M. and Couper, M.P. (2017) Semi-Automated Cate-gorization of Open-Ended Questions. Survey Research Methods, 10, 143-152.
[35] Gweon, H., Schonlau, M., Ka-czmirek, L., Blohm, M. and Steiner, S. (2017) Three Methods for Occupation Coding Based on Statistical Learning. Journal of Official Statistics, 33, 101-122. [Google Scholar] [CrossRef
[36] 吴琼, 戴利红, 张婧申. 机器学习在社会调查职业编码中的应用[J]. 调研世界, 2019(9): 56-60.
[37] He, Z. and Schonlau, M. (2020) Auto-matic Coding of Text Answers to Open-Ended Questions: Should You Double Code the Training Data? Social Science Computer Review, 38, 754-765. [Google Scholar] [CrossRef
[38] 刘娅. 基于机器学习的自动化职业编码[D]: [硕士学位论文]. 大连: 东北财经大学, 2021.
[39] 张静. 问卷调查中评价类问题的自动编码方法及其应用[D]: [硕士学位论文]. 天津: 天津商业大学, 2021.
[40] Schonlau, M., Gweon, H. and Wenemark, M. (2021) Automatic Classification of Open-Ended Questions: Check-All- That-Apply Questions. Social Science Computer Review, 39, 562-572. [Google Scholar] [CrossRef
[41] 淦亚婷, 安建业, 徐雪. 基于深度学习的短文本分类方法研究综述[J]. 计算机工程与应用, 2023, 59(4): 43-53.
[42] 刘泉凤. 一种基于文本聚类的开放式信息自动归类方法[J]. 情报杂志, 2009, 28(6): 177-180.
[43] 宁温馨, 于明. 基于语义相似度计算的临床诊断自动编码算法研究[J]. 医学信息学杂志, 2016, 37(2): 52-56.
[44] 贾长娥. 基于深度学习的答案选择[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2017.
[45] Yu, Y., Li, M., Liu, L., et al. (2019) Automatic ICD Code Assignment of Chinese Clinical Notes Based on Multilayer Attention BiRNN. Journal of Biomedical Informatics, 91, Article ID: 103114. [Google Scholar] [CrossRef] [PubMed]
[46] 候雪飞. 面向医疗数据的实体分析与自动编码技术研究与应用[D]: [硕士学位论文]. 石家庄: 河北科技大学, 2019.
[47] 冯读娟, 杨璐, 严建峰. 基于双编码器结构的文本自动摘要研究[J]. 计算机工程, 2020, 46(6): 60-64.
[48] 王红斌, 金子铃, 毛存礼. 结合层级注意力的抽取式新闻文本自动摘要[J]. 计算机科学与探索, 2022, 16(4): 877-887.
[49] 贾冉冉. 基于N-Gram提取特征词典的职业编码研究[D]: [硕士学位论文]. 大连: 东北财经大学, 2022.
[50] 刘忠辉. 基于机器学习的职业编码方法研究[D]: [硕士学位论文]. 大连: 东北财经大学, 2022.
[51] 曾义夫, 蓝天, 吴祖峰, 刘峤. 基于双记忆注意力的方面级别情感分类模型[J]. 计算机学报, 2019, 42(8): 1845-1857.
[52] 邓东. 情感词典构建方法及其应用研究[D]: [博士学位论文]. 北京: 北京交通大学, 2019.