基于多头注意力卷积Transformer的假新闻检测
Fake News Detection Based on Multi-Head Attention Convolution Transformer
DOI: 10.12677/HJDM.2023.134029, PDF, HTML, XML, 下载: 213  浏览: 395 
作者: 张亚立, 李征宇, 孙 平:沈阳建筑大学,计算机科学与工程学院,辽宁 沈阳
关键词: 假新闻检测注意力卷积TransformerFake News Detection Attention Convolution Transformer
摘要: 随着通信技术和社交媒体的迅速发展,假新闻的广泛传播已经成为一个严重的问题,对国家和社会造成了巨大的损失。因此,检测假新闻已经成为备受关注的研究领域。虽然卷积神经网络(CNN)在局部特征提取方面效果出色,但其对顺序依赖和长距离依赖的处理能力较弱。因此,本文提出了一种注意力卷积Transformer模型,结合了Transformer架构和CNN提取局部特征的优点,并实现高效的假新闻检测。本文引入了一种新的注意力机制——多头注意力卷积机制,通过卷积过滤器将复杂的词空间转换为信息更丰富的卷积过滤器空间,从而捕捉重要的n-gram信息。该模型不仅能够捕捉局部和全局的依赖关系,还能保留词语之间的序列关系。实验结果在两个真实数据集上表明,多头注意力卷积Transformer在假新闻检测任务中的准确率、召回率和F1值明显高于TextCNN、BiGRU和传统的Transformer模型。
Abstract: With the rapid development of communication technology and social media, the widespread dis-semination of fake news has become a serious problem, causing huge losses to the country and society. Therefore, detecting fake news has become a research area that has attracted much attention. Although the convolutional neural network (CNN) is excellent in local feature extraction, its ability to deal with sequential dependencies and long-distance dependencies is weak. Therefore, this pa-per proposes an attentional convolution Transformer model, which combines the advantages of Transformer architecture and CNN to extract local features, and achieves efficient fake news detection. This paper introduces a new attention mechanism—multi-head attention convolution mecha-nism, which transforms the complex word space into a more informative convolution filter space through convolution filters, thereby capturing important n-gram information. The model not only captures local and global dependencies, but also preserves the sequential relationship between words. Experimental results on two real datasets show that the accuracy, recall and F1 value of multi-head attention convolution Transformer in fake news detection tasks are significantly higher than TextCNN, BiGRU and traditional Transformer models.
文章引用:张亚立, 李征宇, 孙平. 基于多头注意力卷积Transformer的假新闻检测[J]. 数据挖掘, 2023, 13(4): 288-289. https://doi.org/10.12677/HJDM.2023.134029

1. 引言

新闻是人们了解外界信息的主要渠道,新媒体时代下,繁杂多样的社交平台促使新闻的传播环境、传播形式和传播内容发生巨大变化,社交媒体在给人们获取信息便利的同时,也成为虚假新闻恣意传播的渠道。虚假新闻是由专业媒体发布,通过操控舆论来达成某种政治或经济目的的手段。虚假新闻的危害极大,如果不能被及时发现并遏止,极易引起经济衰退和社会动荡,根据2019年CHEQ和巴尔的摩大学的经济研究报告显示,人类在没有特殊情况的帮助下仅能识别出54% [1] 的虚假新闻。与此同时,每年由于虚假新闻造成的经济损失高达780亿美元 [2] 。这一数据揭示了虚假新闻对全球社会和经济的严重影响。在这复杂环境下,为了提高读者对假新闻的防范意识,一些平台,如Twitter、Facebook、新浪微博 [3] 等,会提供信息检测基站来识别假新闻,但这些平台需要花费大量资金聘请领域专家来应对各类假新闻,耗时又耗力。因此,探索更加智能高效的自动化虚假新闻检测方法具有重要意义。

早期的虚假新闻检测都会使用机器学习方法对新闻文章进行自动检测。比如,通过研究探索用于区分虚假内容和真实内容的不同文本属性 [4] ,研究人员利用这些特征,并使用各种方法训练多种机器学习算法的组合,以实现准确的检测结果。这些研究极大地推进了自动化虚假新闻检测的进程。然而,假新闻内容非常复杂,在使用机器学习方法对假新闻进行检测时,存在着很多的局限性。首先,特征提取是传统机器学习方法的核心环节之一,但对于假新闻来说,其特征往往是复杂而难以捉摸的。传统方法需要依靠人工设计和选择特征来描述新闻文章,然后将这些特征作为输入传递给机器学习模型。但是,对于假新闻 [5] 来说,可以利用的特征可能并不明显或一致,因此提取出有效的特征变得非常困难。例如,假新闻可能使用与真实新闻类似的词汇和句法结构 [6] ,或者通过掩盖真相和错误引用来迷惑读者,这些特征并不容易被机器学习模型捕捉到。其次,数据不平衡也是一个常见的问题 [7] 。由于真实新闻的数量普遍远远大于假新闻的数据量,机器学习模型可能更加倾向于预测为真实新闻。这会导致模型对假新闻的学习不足,容易将假新闻误分类为真实新闻。最后,语义复杂性也是传统机器学习方法在假新闻检测中的一个挑战 [8] 。假新闻往往通过歪曲事实、引导误导或语义模糊来误导读者。传统机器学习方法在处理语义复杂性时存在局限性,难以准确理解和识别假新闻中的潜在含义。传统方法通常依赖于基于统计的模式匹配,而缺乏对语义和上下文的深入理解。

针对现有研究存在的问题,本文提出了一种新的注意力机制——多头注意力卷积机制,其利用卷积过滤器的语义从复杂的词空间转换为信息更加丰富的卷积过滤器空间,去捕获其中重要的n-gram。注意力卷积机制不仅能捕获局部和全局的依赖关系,而且还能保留词语之间的序列关系或者说先后关系;我们使用我们提出的多头注意力卷积Transformer作为假新闻分类器,在两个真实的数据集上进行真假新闻检测。实验结果表明,我们所提出的多头注意力卷积Transformer在每个数据集上都表现出了很优异的效果。与现有的TextCNN,BiGRU和传统的Transformer相比,我们的模型提高了检测的准确性。

本文主要贡献总结如下:

1) 我们提出的多头注意力卷积机制充分利用了卷积过滤器的语义,简化了对于分类所需的n-gram特征的提取和优化。

2) 多头注意力卷积机制保持了CNN的最大池化(MaxPooling)功能,它不仅能够保留序列位置信息,而且还能捕获局部特征和全局特征。

3) 我们在两个真实的数据集上的大量实验表明:多头注意力卷积Transformer在两个真实数据集上的表现优于现有的假新闻检测模型。

2. 相关工作

近年来,研究者开始利用深度学习模型如基于门控循环单元(Gated Recurrent Unit, GRU)和基于卷积神经网络(Convolutional Neural Network, CNN)的模型进行假新闻检测 [9] 。Wang等人 [10] 使用文本特征和元数据来训练各种机器学习模型,作者使用卷积层捕捉元数据向量之间的依赖关系,通过最大池化层将文本表示与来自双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)的元数据文本表示串联进行假新闻检测。Yang [11] 等人使用了CNN模型来进行假新闻分类,CNN是一种特殊的前馈神经网络,其卷积层与池化层相互交织。对于自然语言处理(Natural Language Processing, NLP),CNN中的卷积核可以被视为n-gram提取器,将每个位置的n-gram转换为显示其与滤波器相关性的向量。在池化操作的帮助下,可以捕获文本与每个过滤器的总体相关性。因此,CNN在捕获n-gram的语义和句法信息以获得更抽象和判别表示方面具有优势。据Li [12] 研究,CNN在捕获顺序信息和长距离依赖关系方面相对较弱,因为卷积滤波器有很小的核,通常只关注局部n-gram,并且池化操作导致位置信息丢失。

RNN以循环处理顺序数据而闻名。然而,由于RNN的循环特性,它存在两个问题:梯度消失和并行不友好。许多研究试图通过在RNN中加入注意机制来缓解梯度消失问题 [13] 。一种叫做Transformer的新型神经网络结构解决了这两个问题,完全依靠自我关注来处理长距离依赖,而不需要反复计算。基于Transformer的神经网络的出现在广泛的NLP任务中带来了一系列突破 [14] 。特别是,基于Transformer的预训练语言模型在许多基准数据集中取得了最先进的性能。然而,Transformer的庞大架构通常需要更多的训练数据、CPU/GPU内存和计算能力,特别是对于长文本。此外,Transformer可能会忽略对文本分类任务很重要的相邻元素(即n-grams)之间的关系 [15] [16] 。

针对上述所提到的CNN和Transformer的局限性,我们提出了一种基于多头注意力卷积Transformer的假新闻检测模型结构。该模型结合了Transformer和CNN的优点,实现了高效的文本分类。我们采用了传统Transformer的架构,包括多头结构和多层网络。每个注意力头通过新的注意力卷积方法,有效地捕捉局部n-gram特征。这里的注意力卷积利用了卷积滤波器的语义,将文本从复杂的词空间转换为信息更丰富的卷积滤波器空间,以简化对于分类所需的n-gram的优化。同时,该机制还保留了CNN的MaxPooling功能,既能保留序列位置信息,又能捕获局部和全局特征。实验结果表明,我们提出的多头注意力卷积Transformer在两个真假新闻数据集的检测中优于TextCNN、BiGRU和传统Transformer模型。

3. 多头注意力卷积Transformer模型

本文提出的多头注意力卷积Transformer,其采用了卷积机制计算注意力,该注意力可以捕获文本中重要的局部特征和全局特征,抵御混淆信息,增强特征提取能力。图1为本文提出的多头注意力卷积机制概念图,该机制由三个独立的子模块组成,分别为通过n-gram卷积获取得到的局部特征模块、位置编码模块与全局注意力池化模块,它们能够协同工作并自适应地细粒度化特征。

Figure 1. Attention convolution mechanism

图1. 注意力卷积机制

1) 首先将输入的原始新闻(News Content)进行词嵌入表示(Embedding)得到新闻文本的词向量集合。具体执行流程为:新闻文本输入序列设为 T = [ t 1 , t 2 , t 3 , t 4 , , t l ] ,其中 t i 表示为新闻分词后的第i个词语,l表示文本序列分词后的长度。将每个 t i 通过Word2Vec算法编码成Embedding表示 q i ,得到新闻文本词向量集合 Q = [ q 1 , q 2 , q 3 , q 4 , , q l ] , q i R d w 其中 d w 为新闻文本单词Embedding的维度。

2) 接着对文本词向量执行多个卷积过滤器的n-gram卷积操作,捕捉句子的关键语义,学习语义单元的特征,得到文本特征映射空间表示,我们认为这个特征映射空间包含了文本中各个n-gram局部信息,本文将该特征映射空间作为文本局部特征表示。令卷积核集合 F = [ f 1 , f 2 , f 3 , f 4 , , f m ] ,其中 f i R n d w 表示为第i个卷积核,n为卷积核的宽度,m为卷积核的数量,则每个卷积核维度为 [ n , d w ] ,利用卷积F对文本Q进行卷积计算,计算公式如式(1):

M = Q F (1)

其中 表示卷积计算,本文采用大小为n-gram = 3的卷积核,因此单个卷积核的维度扩充至 q i = Cat ( q i + q i + 1 + q i + 2 ) ,Cat表示级联,输出M为卷积提取的特征映射集合,其维度为 [ l , m ]

3) 然后对得到的文本特征映射M进行最大池化(MaxPooling)操作,以便获得文本中最显著的特征信息,即文本与每个卷积过滤器的总体相关性,通过使用最大池化结果与卷积过滤器进行点乘操作,模型可以更加强调并增强池化结果中的重要特征,进一步提高模型对关键信息的敏感性,本文将该输出结果作为全局特征表示G,计算公式如式(2),输出维度为 [ l , m ]

G = F MaxPooling ( M ) (2)

4) 融合局部表征、位置编码特征表示和全局表征,极大提高计算注意力的特征表示,三者融合的输出作为注意力计算的输入,即QKV三个参数矩阵,计算公式如式(3):

Q K V = M + G + P (3)

其中,P为位置编码特征表示有助于捕获文本中单词的全局特征,输出QKV的维度为 [ l , m ]

5) 计算注意力卷积表示O,将上一步得到的参数矩阵映射到一个多维子空间,在该子空间中,使用自注意机制捕获句子中单词的注意分布,计算公式如式(4),最后级联多个头的注意力输出。

A t t ( O i ) = V Softmax ( Q K T d ) (4)

A t t ( O ) = C a t ( A t t ( O 1 ) , A t t ( O 2 ) , , A t t ( O h ) ) (5)

其中, A t t ( O i ) 为第i个头的注意力表示,h为头的数量。

6) 最后对多个并行头的注意力分布应用全局注意力池化模块,计算整个序列中每个注意力特征图的最大值,从而产生一个固定长度的向量,该向量概括了输入的最显著特征。将该特征与上一步得到的注意力卷积输出拼接,以获得输入文本的最终特征表示,使得模型更加专注于最重要的特征,同时仍然捕获整体注意力的得分,计算公式如式(6):

A t t ( O ) * = C a t ( A t t ( O ) , M a x P o o l i n g ( A t t ( O ) ) ) (6)

4. 实验结果与分析

4.1. 数据集

本文使用了两个真实的中文数据集进行了实验,分别是NAACL上的中文的事实核查数据集CHEF (论文作者来自清华大学,剑桥大学和北京师范大学–香港浸会大学联合国际学院的Philip Yu组)和北京市经济和信息化局&CCF大数据专家委员会&中科院计算技术研究所提出的开源疫情期间互联网虚假新闻数据集。同时我们又自定义Python程序爬取微博平台辟谣网站中所属两个数据集其中5个领域的新闻信息,经过数据清洗工作来丰富现有的两个数据集。本文使用数据集简称来表示两个数据集,分别为互联网虚假新闻和事实核查新闻,统计结果如表1。两个数据集均被划分成训练集、验证集和测试集,比率分别为60%,20%,20%。假新闻的标记为1,真新闻的标记为0。

Table 1. Dataset statistics

表1. 数据集统计

4.2. 基线模型

本文采用了TextCNN、BiGRU和传统的Transformer模型与我们提出的多头注意力卷积Transformer模型进行比较,在两个真实的数据集上进行实验,以此来验证我们模型的有效性。

1) TextCNN:TextCNN是一种常用的文本分类算法,它结合了卷积神经网络(CNN)和词向量模型(Word2Vec)的优势,能够有效地处理文本数据。CNN的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于n-gram [17] 。卷积神经网络的优势在于能够自动地对n-gram特征进行组合和筛选,获得不同抽象层次的语义信息。TextCNN通常由以下几个部分组成:Embedding层将文本中的每个词转换成一个向量,以便于输入到CNN 中。CNN层包括卷积层、池化层和非线性激活函数。卷积层采用多个不同尺寸的卷积核,提取文本的空间特征;池化层则对文本进行降维,并保留最重要的信息;全连接层将CNN的输出映射到分类结果。

2) BiGRU:双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)是基于循环神经网络(RNN)的模型,其由单向的、方向相反的GRU组成的神经网络模型。它们的输出共同决定了最终的输出结果。在每个时刻,输入会同时提供两个方向相反的GRU,而输出则由这两个单向GRU共同决定。基于文本的模型,如GRU [18] 和LSTM [19] ,在文献 [20] [21] 中被证明对假新闻检测有效。同时,本文采用了Chinese Word Vectors作为中文词向量的表示方法 [22] 。

3) Transformer:对于Transformer来说,需要明确加入位置编码学习Position Embedding [23] 。因为自注意力机制(Self-Attention)能够让当前输入的单词和句子中任意单词进行相似度计算,并通过归一化计算得出句子中各个单词对应的权重,然后将权重与各个单词对应的变换后的值相乘累加,得到聚合后的Embedding向量,然而,在这个过程中没有考虑到单词的位置信息。因此,为了引入位置信息编码,Transformer给每个单词引入了一个位置编码(Position Embedding),将单词Embedding和其对应的Position Embedding相加得到最终的Embedding。这样Transformer的自注意力机制能够很好地捕捉文本中的长距离依赖特征,因为它可以直接对当前输入单词和句子中的任意单词进行相似度计算,从而实现了对长距离依赖特征的提取能力。

4.3. 实验设置

为了验证本文提出的方法的准确性和有效性,我们在参数设置如表2所示的实验环境下进行了一系列实验。

Table 2. Experimental environment and configuration

表2. 实验环境与配置

4.3.1. 模型参数

本文使用的预训练词向量为300 d的微博中文(Word + Character + n-gram),在注意力卷积计算时使用300个核大小为3的卷积过滤器。具体模型参数如表3所示:

Table 3. Model parameters

表3. 模型参数

4.3.2. 评估指标

为了评估算法的性能,我们使用了不同的度量标准,它们大多基于混淆矩阵。混淆矩阵是测试集上分类模型性能的表示,它由四个参数组成:真阳性(True Positive, TP)、假阳性(False Positive, FP)、真阴性(True Negative, TN)和假阴性(False Negative, FN)。

准确率:Accuracy通常是最常用的指标,是指被检测系统正确标记为假新闻或真新闻的文章的百分比。为了计算模型性能的准确率,计算公式如式(7):

Accuracy = TP + TN TP + TN + FP + FN (7)

精准率:Precision表示模型所预测为真新闻的样本中真正为真新闻的比例,计算公式如式(8):

Precision = TP TP + FP (8)

召回率:Recall用于衡量模型正确预测为真新闻的能力,计算公式如式(9):

Recall = TP TP + FN (9)

F1值:F1值代表精确性和召回之间的权衡。它计算两者之间的调和平均值。它同时考虑了假阳性和假阴性观察结果。F1分数计算公式如式(10):

F 1 score = 2 * Precision * Recall Precision + Recall (10)

4.4. 结果与分析

4.4.1. 假新闻检测器性能的评估

根据表4表5所示的实验结果,我们对比了基线模型和我们提出的多头注意力卷积Transformer模型(表中表示为Transformer*)在两个数据集上的表现。实验结果表明,我们提出的多头注意力卷积Transformer模型相较于其他基线模型表现出了显著的提升。首先,在准确率上,我们的模型相对于其他三个基线模型至少提高了1%。其次,在召回率上,我们的模型远远超过TextCNN模型和BiGRU模型,这说明,我们的模型能够较好地捕获真新闻,减少漏掉真新闻的情况。此外,在Macro F1 Score上,我们的模型相比于其它3个模型高出了1%以上。

Table 4. Evaluation metrics for each model on the internet fake news dataset

表4. 互联网虚假新闻数据集上各模型的评估指标

Table 5. Evaluation metrics for each model on the fact-checking news dataset

表5. 事实核查新闻数据集上各模型的评估指标

综上所述,我们的多头注意力卷积Transformer模型相比传统的基线模型在检测真假新闻任务中表现出了明显的优势,这是因为我们的模型结合了多头注意力和卷积操作的优点,具有更强大的特征提取能力。首先,注意力卷积机制使得我们的模型能够同时关注输入序列的不同位置,从而捕捉到不同层次的语义信息。这使得模型能够更好地理解句子或文章中的上下文信息,有助于准确判断是否存在假新闻的特征。通过对输入序列中的局部和全局依赖关系进行考虑,我们的模型能够更全面地理解文本中的信息。其次,卷积操作可以有效地捕捉长距离的依赖关系,能够更好地捕获文本中隐含的关联性,提高了对真假新闻的检测能力。

4.4.2. 消融实验

为了证实我们所提出的多头注意力卷积Transformer模型的有效性,我们进行了进一步的消融实验研究。通过对实验结果的详细分析,我们可以进一步验证我们提出的模型确实可以有效地提高模型的性能和稳定性。

图2图3中,通过对传统的Transformer和我们提出的多头注意力卷积Transformer模型(图中的Transformer*)的表现情况进行比较分析,我们可以发现,在保持其他参数一致的前提下,改变注意力计算方法确实可以提升真假新闻检测的准确率。我们提出的注意力卷积Transformer模型在Accuracy指标上相对传统模型提升了约1%左右,在召回率和F1值上相对原始模型提升了0.6%以上。这表明我们的注意力卷积Transformer模型在真假新闻检测任务中具有一定的优势。其中,文本的注意力卷积计算受到CNN在捕获n-gram语义和句法信息方面的优势影响,并获得了更抽象和判别性的表示。注意力卷积计算能够有效地捕获文本中的局部特征,并将其作为计算注意力的方式。相比传统的注意力计算,我们提出的注意力卷积计算方法更适用于处理类似新闻文本这样的较大输入序列数据,并且可以更好地捕获局部依赖关系。这种改变注意力计算方法的方式使得我们的模型能够更准确地理解文本特征,从而提高真假新闻检测的准确率。

Figure 2. Experimental results of internet fake news data ablation

图2. 互联网虚假新闻数据消融实验结果

Figure 3. Experimental results of fact-checking fake news data ablation

图3. 事实核查虚假新闻数据消融实验结果

5. 结语和未来工作

本文研究了假新闻检测问题,提出了一种多头注意力卷积机制的Transformer架构,利用了传统的Transformer和CNN的优势,多头注意力卷积Transformer能够很好的捕获到卷积过滤器空间中的n-gram特征,并考虑了局部、全局和位置信息,来获得最终的表征。在两个数据集上的实验结果表明,我们提出的多头注意力卷积Transformer模型相比于TextCNN、BiGRU以及传统的Transformer模型,能够更有效地提高假新闻检测的准确性。为了进一步提升假新闻检测的准确率,我们计划在未来的研究中引入新闻发布者所传达的情感信息。通过结合情感特征和文本内容进行综合分析,我们期望能够进一步优化假新闻检测算法,提高其性能和可靠性。我们将重点关注这一方面,并评估加入情感特征后的效果,以期取得更好的结果。

参考文献

[1] Zhang, X. and Ghorbani, A.A. (2020) An Overview of Online Fake News: Characterization, Detection, and Discussion. Information Processing and Management, 57, Article ID: 102025.
https://doi.org/10.1016/j.ipm.2019.03.004
[2] Ngadiron, S., Abd Aziz, A. and Mohamed, S.S. (2021) The Spread of Covid-19 Fake News on Social Media and Its Impact Among Malaysians. International Journal of Law, Government and Communication, 6, 253-260.
https://doi.org/10.35631/IJLGC.6220024
[3] Aslam, N., Ullah Khan, I., Alotaibi, F.S., Aldaej, L.A. and Aldu-baikil, A.K. (2021) Fake Detect: A Deep Learning Ensemble Model for Fake News Detection. Complexity, 2021, Article ID: 5557784.
https://doi.org/10.1155/2021/5557784
[4] Allcott, H. and Gentzkow, M. (2017) Social Media and Fake News in the 2016 Election. Journal of Economic Perspectives, 31, 211-236.
https://doi.org/10.1257/jep.31.2.211
[5] Roy, A., Basak, K., Ekbal, A. and Bhattacharyya, P. (2018) A Deep Ensemble Framework for Fake News Detection and Clas-sification. ArXiv Preprint ArXiv: 1811.04670.
[6] Pérez-Rosas, V., Kleinberg, B., Lefevre, A. and Mihalcea, R. (2018) Automatic Detection of Fake News. Proceedings of the 27th International Conference on Computational Linguis-tics, Santa Fe, 20-26 August 2018, 3391-3401.
[7] Ma, J., Gao, W., Wei, Z., et al. (2015) Detect Rumors Using Time Series of Social Context Information on Microblogging Websites. Proceedings of the 24th ACM International on Con-ference on Information and Knowledge Management, 1751-1754.
[8] Shu, K., Mahudeswaran, D., Wang, S., Lee, D. and Liu, H. (2020) FakeNewsNet: A Data Repository with News Content, Social Context, and Dynamic Information for Studying Fake News on Social Media. Big Data, 8, 171-188.
https://doi.org/10.1089/big.2020.0062
[9] Yu, F., Liu, Q., Wu, S., Wang, L. and Tan, T. (2017) A Convolutional Approach for Misinformation Identification. IJCAI’17: Proceedings of the 26th International Joint Conference on Artifi-cial Intelligence, Melbourne, 19-25 August 2017, 3901-3907. https://www.ijcai.org/proceedings/2017/0545.pdf
https://doi.org/10.24963/ijcai.2017/545
[10] Wang, W.Y. (2017) “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection. Proceedings of the 55th Annual Meeting of the Association for Computational Linguis-tics, Vancouver, 30 July-4 August 2017, 422-426.
https://doi.org/10.18653/v1/P17-2067
[11] Yang, Y., Zheng, L., Zhang, J., et al. (2018) TI-CNN: Convolutional Neural Networks for Fake News Detection. arXiv: 1806.00749.
[12] Li, H., Kadav, A., Durdanovic, I., Samet, H. and Graf, H.P. (2017) Pruning Filters for Efficient ConvNets. 5th International Conference on Learning Representations, ICLR 2017, Toulon, 24-26 April 2017.
[13] Zhang, Y., Zhong, V., Chen, D., Angeli, G. and Manning, C.D. (2017) Position-Aware Attention and Supervised Data Improve Slot Filling. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, 7-11 September 2017, 35-45.
https://doi.org/10.18653/v1/D17-1004
[14] Zhong, P., Wang, D. and Miao, C. (2019) Knowledge-Enriched Trans-former for Emotion Detection in Textual Conversations. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, 3-7 November 2019, 165-176.
https://doi.org/10.18653/v1/D19-1016
[15] Yang, B., Tu, Z., Wong, D.F., Meng, F., Chao, L.S. and Zhang, T. (2018) Modeling Localness for Self-Attention Networks. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, 31 October-4 November 2018, 4449-4458.
https://doi.org/10.18653/v1/D18-1475
[16] Guo, M., Zhang, Y. and Liu, T. (2019) Gaussian Transformer: A Lightweight Approach for Natural Language Inference. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 6489-6496.
https://doi.org/10.1609/aaai.v33i01.33016489
[17] Wang, S. and Manning, C.D. (2012) Baselines and Bigrams: Simple, Good Sentiment and Topic Classification. Proceedings of the 50th Annual Meeting of the Association for Com-putational Linguistics, Jeju Island, 8-14 July 2012, 90-94.
[18] Cho, K., Van Merriënboer, B., Bahdanau, D. and Ben-gio, Y. (2014) On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. Proceedings of SSST-8, 8th Workshop on Syntax, Semantics and Structure in Statistical Translation, Doha, 25 October 2014, 103-111.
https://doi.org/10.3115/v1/W14-4012
[19] Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780.
https://doi.org/10.1162/neco.1997.9.8.1735
[20] Chen, T., Li, X., Yin, H. and Zhang, J. (2018) Call Attention to Rumors: Deep Attention Based Recurrent Neural Networks for Early Rumor Detection. In: Ganji, M., Rashidi, L., Fung, B. and Wang, C., Eds., Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2018. Lecture Notes in Computer Science, Vol. 11154, Springer, Cham, 40-52.
https://doi.org/10.1007/978-3-030-04503-6_4
[21] Ma, J., Gao, W., Mitra, P., Kwon, S., Jansen, B.J., Wong, K.F. and Cha, M. (2016) Detecting Rumors from Microblogs with Recurrent Neural Networks. IJCAI’16: Proceedings of the 25th International Joint Conference on Artificial Intelligence, New York, 9-15 July 2016, 3818-3824. https://ink.library.smu.edu.sg/sis_research/4630
[22] Li, S., Zhao, Z., Hu, R., Li, W., Liu, T. and Du, X. (2018) Ana-logical Reasoning on Chinese Morphological and Semantic Relations. Proceedings of the 56th Annual Meeting of the As-sociation for Computational Linguistics (Volume 2: Short Papers), Melbourne, 15-20 July 2018, 138-143.
https://doi.org/10.18653/v1/P18-2023
[23] Sajjad, H., Durrani, N., Dalvi, F., Alam, F., Khan, A.R. and Xu, J. (2022) Analyzing Encoded Concepts in Transformer Language Models. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics, Seattle, 10-15 July 2022, 3082-3101.
https://doi.org/10.18653/v1/2022.naacl-main.225