摘要: 人格是与人类思维、情感和行为相关的稳定模式,能够有效帮助我们理解、分析和预测人类行为,被广泛应用于人机交互、推荐系统和网络安全等领域。社交媒体为人格识别研究提供了丰富的数据来源,推动了自动人格识别的发展。然而,现有文献在特征提取与模型预测研究方面,尤其是多样化组合方式的讨论上仍显不足。且人工智能在该领域的应用尚处于发展阶段,亟需进一步探索。因此,本研究综述了面向社交媒体文本的人格识别研究,针对不同任务需求和数据特征,对人格识别模型的组合进行了梳理和总结,涵盖基于语言和统计特征、预训练语言模型特征,以及机器学习、深度学习和集成学习等方法。通过比较分析,研究旨在为从文本数据中推断人格特质提供更有效的方法和策略,推动其在实际应用中的发展。同时,探讨了新兴AI技术在人格识别中的潜力,指出了该领域的研究不足并展望未来方向。
Abstract: Personality, a stable pattern of thoughts, emotions, and behaviors, plays a crucial role in predicting human behavior. Its recognition has broad applications in fields like human-computer interaction and cybersecurity. Social media, with abundant user-generated data, drives automated personality recognition; However, comprehensive studies on feature extraction and model prediction, especially those exploring diverse methodological approaches, remain limited. While AI shows great promise in advancing personality recognition, its application is still in the early stages and requires further investigation. This study reviews existing research on personality recognition from social media texts, focusing on strategies involving language features, pre-trained models, and various machine learning techniques. It aims to improve personality prediction, identify research gaps, and explore future AI-driven developments in the field.
1. 引言
人格是一种跨时间、跨情境的,与人类的想法、情绪、行为相关的稳定模式[1]。对人格的准确识别有助于分析、理解和预测个体的内在情绪与行为表现。因此,人格识别技术在个性化服务、推荐系统、网络空间安全、人力资源管理等领域具有重要意义。它是实现这些研究领域“以人为本”和个性化服务的核心,更是增强此类下游预测分析应用敏捷性和预见性的关键要求。
心理学中有关个体差异的研究衍生了许多人格理论。其中,最有效衡量个体差异的理论之一是大五人格模型。该模型涵盖开放性、尽责性、外向性、宜人性和神经质五个主要维度。其他常用人格模型还有迈尔斯布里格斯类型指标(Myers-Briggs type indicator, MBTI)以及DISC模型。不过,多数人格理论主要借助传统的人格心理测验和问卷展开研究,如自陈量表,投射测验等。尽管这些测验在一定程度上能够准确反映个体的人格类型特征,但其测验实施要求较高,样本采集难度大,使用范围有限。如今,随着社交媒体的普及,人们之间的互动变得更加多样化,为人格识别研究提供了丰富的数据源。越来越多的计算机技术与人格研究方法相结合,推动了人格计算领域的发展。
在海量的互联网数据中,非结构化文本与信息数据占据了很大一部分,用户在社交媒体上发布的文本信息往往是其在自然状态下的真实表达,因此,对这类数据加以分析,在人格特质预测方面具有较高的参考价值。许多研究在基于文本的自动人格识别领域中取得了显著进展,主要通过文本处理、特征提取、文本映射、网络模型选择和评估等过程,使得文本数据能够有效用于预测用户的人格特质。这种方法不仅提高了数据采集的效率,也扩大了人格研究的应用范围,推动了下游预测应用的发展。
人工智能(Artificial Intelligence, AI)在解决自然语言处理(Natural Language Processing, NLP)问题方面表现出色,并被逐渐应用于人格特质预测领域。主要的AI方法包括机器学习和深度学习,其中机器学习在传统的自动人格识别中使用较多。近年来,深度学习由于较好地规避了传统文本分类方法中存在的诸多问题,越来越多地应用于文本挖掘。具体而言,深度学习可以将文本数据转换为神经网络可处理的格式,实现有效的文本表示,同时通过特定的神经网络结构自动提取关键特征,从而避免了复杂的人工特征工程。它在大规模文本分类和情感分析领域表现出色,显著提高了分类精度。例如,Majumder等人[2]通过构建基于卷积神经网络的深度学习模型,从句子中预测人格特质,取得最优的模型效果。随后,Kazameini等人[3]提出了基于BERT (Bidirectional Encoder Representations from Transformers)语言模型的集成方法,进一步提升了模型性能。此外,Li等人[4]通过迁移学习,由BERT生成预训练词嵌入,实现了情感和人格特质预测的多任务学习。
纵观前人研究,学者们对基于社交媒体数据进行人格识别的方法、内容、趋势以及不足进行了详尽阐述。然而,针对特征提取和模型预测这两个关键技术的综合研究仍显不足,特别是对其多样化结合方式的讨论较少。此外,在社交媒体文本驱动的自动人格识别领域中,学界对最新AI技术的关注也相对有限。鉴于此,本文将探讨基于社交媒体文本数据的自动人格识别,尽可能涵盖最新应用的AI技术,如迁移学习和集成学习。通过引入这些前沿技术,为该领域提供更多有价值的技术参考,并总结该领域的研究不足及未来方向。此外,还将重点探索如何根据不同的任务需求和数据特点,选择最优化的组合方式以提高人格特质预测的效果。通过对各种组合的分析和比较,希望为从文本数据中推断人格特质提供更有效的方法和策略,进一步推动人格特质预测在实际应用中的发展。
2. 基于社交文本数据的自动人格识别方法
从文本数据中推断人格特质,必不可少的步骤是将语言转化为机器可理解的内容,并输入到模型中完成特定的分类任务,这一过程涉及两个关键技术:特征提取和模型预测。特征提取是将原始文本数据转换成适合机器学习等模型处理的特征向量的过程,根据已有研究,可将特征分为两类:基于语言和统计特征、预训练语言特征。模型预测是指将特征向量输入到机器学习或深度学习模型中,以预测个体的人格特质,可将其分为三类:基于机器学习、深度学习和集成学习方法。在实际应用中,特征提取与模型预测方法可随任务需求和数据特点自由组合,以优化人格特质预测的效果。例如,一些研究可能会将传统心理语言学特征与深度学习模型相结合,充分利用相关理论知识和较强的特征提取能力以提高预测性能。另一些研究可能会采用预训练语言特征和集成学习方法,利用预训练模型的语义理解能力和集成方法的稳定性,获得更加准确和可靠的结果。因此,不同特征提取方法与预测模型的组合,形成了多样化的研究矩阵。
2.1. 特征提取
2.1.1. 基于语言和统计特征
基于语言和统计特征具体是指基于心理语言学、句法结构和词汇分析等领域的知识,人工定义并提取文本中的特征。早期研究中,这些特征通常与机器学习分类器结合使用。例如,Argamon等人[5]率先将心理语言学特征纳入识别任务,将语料库中的单词分为功能词、连接词等四个类别,计算相对频率并输入到支持向量机模型中进行人格识别。此外,Mairesse等人[6]还指出,文本中的句法模式也蕴含着重要的人格特质线索。进一步地,一些研究还尝试利用词典生成特征,旨在通过对预定义类别的词语统计来揭示文本中蕴含的个人思想、个性与情感。常用的词典工具包括语言探索与字词计数(LIWC)、心理语言学数据库(MRC)、情感词典(如NRC与SenticNet)等。例如,Poria等人[7]利用 LIWC、MRC和SenticNet生成的特征,构建了一个基于序列最小优化算法的模型,有效识别了人格特质。类似地,Mairesse等人[8]开发了一套词典与特征提取工具,从文本中可提取包含词汇特性、句法结构、功能词使用情况及心理语言学特征在内的88个特征,并验证了其在人格特质识别中的有效性。随着研究的深入,这些方法逐渐应用于社交媒体内容分析与个性化服务领域,如Golbeck等人[8]尝试基于Facebook和Twitter内容提取特征来预测用户的个性。除了词典外,TF-IDF、词袋和词性标注也被用于识别人格特征。例如,Choong等人[9]设计了一个针对MBTI特质的识别模型。该模型结合字符级TF-IDF、词级TF-IDF和LIWC特征,利用LightGBM (Light Gradient Boosting Machine)作为分类器,取得了短期内最佳识别效果。然而,这些人工特征依赖于长文本,而在社交网络中,多数用户生成的文本内容往往较短,难以满足这些特征提取的要求。
2.1.2. 预训练语言特征
已有研究将预训练语言模型大致分为两代。第一代模型的学习目标是在单词级别生成与上下文无关的分布式词嵌入,代表模型主要有Word2Vec、GloVe (Global Vectors for Word Representation)。然而,大多数自然语言处理任务的要求超出了单词理解水平,需要在句子或更高层次上对神经编码器进行预训练。这催生了第二代预训练语言模型,代表模型有GPT (Generative Pre-trained Transformer)、BERT、RoBERT (Robustly Optimized BERT Pretraining)等。
在第一代模型中,常用的Word2Vec可通过训练前馈神经网络,根据上下文预测单词,生成固定长度的词特征向量,并通过组合多个单词向量来表示句子。例如,Majumder等人[2]利用Word2Vec生成文档的词嵌入,并输入到深度卷积神经网络中进行人格预测。此外,Word2Vec算法还可用于生成多个大规模词嵌入,尤其是基于大型数据集(如Twitter和Wikipedia)生成的预训练嵌入。GloVe就是一个典型的例子,相较于Word2Vec,它在处理复杂且动态的社交媒体文本时表现更为优越。例如,Kumar等人[10]基于GloVe词嵌入,提出了一种结合语言特征的人格特质分类系统。然而,这些方法仅限于单词级别的特征表示,未能充分捕捉更高层次的语义关系。这一局限性在面对更复杂的自然语言处理任务时,限制了模型的性能和泛化能力。
之后,研究提出了一种新的词嵌入方法,即Transformers,作为循环神经网络的替代方案。它通过多层自注意力机制和前馈神经网络来改进当前序列到序列的映射转换任务。基于此,Google推出了预训练的BERT模型,通过掩码语言模型和下一句预测任务,学习Transformers的双向编码器表示,最终生成单词级和句子级的语义表示。BERT凭借其更好的文本理解能力在NLP任务中取得了一系列成功,使得人格识别的研究者更多关注预训练模型。他们利用BERT捕捉丰富的语言特征,并在人格识别任务上对其进行微调,实现了高效的迁移学习。这种方法不仅提高了分类的准确率,还显著缩短了训练时间。例如,Mehta等人[11]对比了BERT在Essays和Kaggle数据集上的结果,发现预训练语言模型的特征表现优于传统的心理语言学特征,且综合结果优于当时的最优模型。类似地,El-Demerdash等人[12]结合了包括BERT在内的三种预训练语言模型来提取特征,在Essays和MyPersonality数据集上取得了领先的结果,准确率显著提高了约1.25%和3.12%。Christian [13]等人提出了一种基于多种预训练语言模型的多模态深度学习方法,用于预测社交媒体用户的个性。他们采用了BERT、RoBERTa等从Facebook和Twitter等多个数据源中提取双向上下文特征,为人格识别领域提供了强有力的技术支持。
此外,一些研究还尝试混合方法,将心理语言学特征和预训练语言特征结合,用于训练更加精确的人格识别模型。例如,Kazameini等人[3]将BERT提取的特征与Mairesse心理语言学特征进行拼接,并将其输入到多个支持向量机中进行集成学习。Ren等人[14]则认为,情感信息和上下文语义特征的结合更为重要,他们利用BERT和SenticNet特征,构建了一个性能更高的人格自动识别模型,准确率高达92.51%。类似地,Lopez等人[15]结合使用Word2Vec、GloVe和BERT预训练语言模型来提取YouTube视频的音译文本,从而实现大五人格特质识别然而,尽管在某些情况下,混合心理语言学特征和预训练语言特征的方法表现出色,但其效果因数据集和应用场景而有所不同。例如,有些研究发现结合两类特征后模型性能并未显著提升,表明混合方法的有效性需根据具体情况评估和优化。
2.2. 模型预测
2.2.1. 传统机器学习算法
在人格识别研究中,传统的文本挖掘方法依赖机器学习算法。研究人员通过文本处理和特征提取,将文本数据转化为数值特征向量,再输入到机器学习分类器进行监督或无监督学习。通过理解这些特征与目标任务之间的关系,这些算法能够有效地执行分类和预测任务。常用的机器学习算法有朴素贝叶斯(Naive Bayes, NB)、K近邻(K-Nearest Neighbors, KNN)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)等。例如,Bharadwaj等人利用TF-IDF、LIWC和EmoSenticNet来生成特征向量,降维后输入到朴素贝叶斯和支持向量机在内的多种机器学习模型中进行MBTI人格预测。进一步地,Ryan等人[16]通过Word2Vec获取词向量表示,并使用逻辑回归、随机梯度下降和随机森林在内的多种机器学习方法进行效果评估。
2.2.2. 深度学习
考虑到机器学习在处理单词间长距离依赖关系时的能力有限,以及其对单词顺序关系缺乏显式考虑,可能导致丢失关键的上下文信息,一些研究开始引入深度学习模型用于用户的人格识别与预测。例如,Yuan等人[17]利用LIWC词典工具和Word2Vec从Facebook内容中提取语言特征和词嵌入,并将这些特征输入到卷积神经网络(Convolutional Neural Network, CNN)中,卷积神经网络能够利用词嵌入来捕捉文档中的上下文信息,生成基于文档的表示,提取深层特征并执行人格分类任务。结果显示,将语言特征与深度学习分类器相结合在一定程度上改善了预测性能,但对不同深度学习模型的结合研究仍在继续。更进一步地,为更好保留和管理长期依赖信息,Sujatha等人[18]提出了一种基于CNN-LSTM的混合人格分类模型,该模型结合了卷积神经网络在提取时间无关特征方面的优势和长短期记忆网络在捕捉长期依赖关系方面的能力。实验结果表明,该混合模型在性能上显著优于单一模型。此外,将深度学习模型与注意力网络相结合,可以进一步增强模型表现。Lynn等人[19]提出了一种分层注意力机制,通过评估用户Facebook帖子的相对权重来预测大五人格特质。他们使用门控循环单元获取消息级编码,再通过注意力机制加权这些编码,以提取与个性特质相关的重要特征,从而提高预测准确性。类似地,Wang等人[20]构建了一个基于自注意力机制的分层混合模型(HMAttn-ECBiL),用于从文本获取深层语义信息。该模型通过CNN提取文本的局部特征,Bi-LSTM提取句子级特征,从而在不同层次上捕捉文本的细粒度信息与上下文依赖关系。通过这种水平和垂直的双向特征提取,该模型能够更加全面地获取语义信息,依赖特征的多样性显著提升了人格识别任务中的预测性能。
2.2.3. 集成学习
与此同时,已有许多研究探讨了通过集成方法利用多个分类器的优点来提高模型预测能力的可能性,这种方法能够最大限度地利用数据集信息并提供最佳结果。集成学习通过单独训练多个分类器并将它们的输出组合起来,以提高预测模型的置信度。例如,Ramezani等人[21]提出了一种由五个独立的自动人格识别模型组成的集成建模方法,包括:基于词频向量、本体、丰富本体、潜在语义分析(LSA)、和深度学习(Bi-LSTM)。并通过分层注意力网络整合所有分类器,综合利用统计信息、分层语义信息、基于共现和上下文的信息以及序列分析的信息,以预测Essays数据集中的大五人格特征。类似地,El-Demerdash等人[12]提出了一种基于数据级和分类器级融合的深度学习自动人格识别系统。他们同时利用Elmo、ULMFiT和BERT等预训练语言模型生成Essays和MyPersonality数据集的嵌入,并进行数据级融合。随后,集成BERT和Elmo的MLP分类器以及ULMFiT的Softmax分类器,生成最终预测结果。
3. 比较和讨论
本文聚焦于特征提取和模型预测两方面,讨论其在自动人格识别中的应用和效果。在特征提取方面,特征质量对后续机器学习分类模型的性能至关重要,模型结果高度依赖于数据集标签的质量。随着深度学习的发展,多数研究将神经网络提取的特征和传统方法(如LIWC、MRC、SVD等)所得特征结合,显著提升了模型性能。同时,通过深度学习获得的预训练词嵌入得到广泛应用,这种迁移学习方法减少了算法的训练时间和复杂度,使得在有限计算资源下基于预训练词嵌入训练深度学习模型成为可能。例如,GloVe模型利用12亿条推文和深度神经网络进行训练,能够执行多种文本分类任务,并在低计算能力设备上表现出色。而且即使在训练模型之后,仍可添加新的特征向量,而无需基于原有特征重新训练模型,提高了模型的可维护性和性能。近年来,BERT的应用进一步推动了语言模型的发展,加深了对文本语义的理解,相关研究仍在持续进展中。
在预测模型方面,过去五年来,传统机器学习方法的应用呈现下降趋势,而基于深度学习的技术使用有所增加。且随着数据量的迅速增长,深度学习的表现愈加出色,显著超越了传统机器学习方法。此外,一些研究还修改了单一深度学习网络来开发混合模型以提高性能。集成学习技术在这一过程中发挥了重要作用。已有研究在数据级和分类器级两个层面进行了验证。这种方法通过整合数据特征和协调模型决策过程,实现了更高的准确性和泛化能力。在具体模型的应用方面,SVM仍是机器学习中最常用的分类器,并经常作为深度学习中的基线模型。LSTM模型则因其擅长处理长距离依赖关系,常用于处理需要迭代处理长句子的任务。同样,CNN可用于提取更深层次特征,并作为独立模型使用或修改以开发混合模型。
然而,目前在人格识别领域中,少有研究关注特征筛选问题。人格识别涉及的特征繁多,其特征工程尚未达成共识。一些冗余特征对分类无益,反而可能误导分类器,因此,未来的研究还需综合考虑特征与标签的相关性及特征之间的冗余度。设计平衡两者的适应度函数并利用启发式算法进行特征筛选,是一种可行的解决方案。此外,结合当前技术发展趋势来看,最新的网络结构及改进大多仅在自然语言处理领域得到了广泛应用,并未在人格特质研究中得到充分利用。因此,未来的研究应考虑将这些先进的深度学习技术引入人格特质预测中,以进一步提高模型的准确性和效能。通过整合注意力机制和BERT等新兴技术,人格特质预测模型有望在复杂特征处理和分类精度方面取得突破。
从数据集上看,现有数据集规模较小,限制了深度学习模型的表现。一些人格特质预测模型的准确率仍然较低,通常在60%~75%之间。此外,经典数据集如Essays和MyPersonality存在数据不平衡问题,特别是开放性特征的信息量显著多于其他四个特质。因此,扩大数据集规模并改善数据的平衡性也是未来研究的重点。
4. 结论
近年来,自动人格识别研究受到越来越多学者的关注。当前,常用的方法包括利用机器学习算法进行特征提取和分类,以及通过自然语言处理技术将文本词汇嵌入神经网络。此外,预训练语言模型(如BERT)的引入,为人格识别注入了新的活力。
然而,人格识别并非最终目的。后续研究需对人格识别结果进行深入分析,使得人格识别模型真正地用于研究和生活中,例如:利用Twitter文本识别人格、研究COVID-19疫情对用户人格的影响[22]、研究人格和网络安全行为的关系等。
本文通过梳理基于社交媒体文本数据的人格识别研究,从特征提取和模型预测两方面探讨了该领域的研究现状、研究不足以及未来研究方向。该技术将为人机交互、推荐系统、网络空间安全、人力资源管理提供决策依据,并为心理学家提供更加可靠的人格研究手段。尽管当前的人格识别技术仍有改进空间,但我们期待在不久的将来,研究人员能将更多研究成果转化为实际应用,充分发挥其研究和应用潜力。