1. 引言
随着电商平台的蓬勃发展,人们在使用电商平台的时候产生了大量的评论数据。这些评论数据包含了用户对该商品带有情感信息的评价,我们可以根据这些评论数据去评估这件商品的实际情况。这类评价数据对于研究文本情感分类有很大的帮助。
不同国家和地区的发展水平不平衡,导致了一些国家和地区的情感资源匮乏,从而产生了某些语言的情感资源缺少大量标注的问题。互联网用户所使用的语言是多样的,以及某些地区语言情感资源匮乏的原因,跨语言情感分类问题应运而生。跨语言情感分类顾名思义为利用源语言语料去训练分类器,利用训练好的分类器去对目标语言语料进行分类,从而实现利用源语言具有的丰富情感资源的特性帮助情感资源较少的目标语言做分类的目的。
近年来,跨语言情感分类技术和方法推陈出新,最小二乘法是很多算法的理论基础之一,并且最小二乘法还称为数理统计学之灵魂[1]。研究发现,源语言和目标语言之间的映射关系是解决跨语言情感分类问题的关键。Mikolov [2]和彭晓娅[3]通过线性变换,将英语和西班牙语的词向量对齐,形成一个跨语言的共享特征空间。并且源语言词向量和目标语言中对应的词向量可建立简单的线性对应关系:对源语言中任意给定的单词向量
,目标语言中对应的单词向量
存在一种简单线性关系
。它对应的最小二乘问题是求
,使得
(1)
其中
指源语言的第
个词向量,
指目标语言中对应的第
个词向量。
实际上该最小二乘问题还可以化为如下矩阵形式的最小二乘问题:求
,使得
(2)
其中矩阵
是由
个源语言训练集词向量组成的矩阵,矩阵
是由
个对应目标语言训练集词向量组成的矩阵,
是矩阵的Frobenius范数。待求矩阵
即是矩阵方程
的最小二乘解[4]。
Xing [5]发现Mikolov [6]的回归映射方法存在一些问题,他们提出了对词向量进行归一化处理来解决距离定义计算不一致问题。故Xing将
方程中的映射矩阵
定义为正交映射矩阵。并且Smith [7]在理论上证明正交约束的可行性。与此同时,不少学者研究跨语言情感分类模型并提出了分类模型方法。其中,Faruqui [8]利用典型相关分析(CCA)方法实现。Artetxe [9]训练正交变换用迭代的方法实现。Hauer [10]利用自助法(Bootstrapping)迭代实现,Conneau [11]利用生成对抗网络实现。
较之矩阵方程
更一般的方程是
(3)
其中
。袁仕芳[12]利用矩阵的Kronecker积和Moore-Penrose广义逆研究矩阵方程
的对称极小范数最小二乘解。周立平[13]利用矩阵的奇异值分解,研究矩阵方程
在加权范数下的对称最小二乘解。李永勤[14]利用矩阵对的商奇异值分解(QSVD),研究矩阵方程
的对称最小二乘解。Peng Z. Y. [15]通过迭代法求矩阵方程
的对称最小二乘解。Peng Z. Y. [16]提出两种新的矩阵形式迭代方法来求矩阵方程
的对称最小二乘解。Deng Y. B. [17]利用矩阵的商奇异值分解研究矩阵方程
的对称最小二乘解。
本文在上述研究工作的基础上,利用矩阵拉直算子、Moore-Penrose广义逆得到矩阵方程
极小范数最小二乘解的表达式,进一步得到矩阵方程
对称极小范数最小二乘解的表达式,最后讨论矩阵方程
在跨语言情感分类中的应用。
为了方便起见,本文用
表示
阶实矩阵的集合,
表示全体
阶对称矩阵的集合,
表示
阶正交矩阵的集合,
和
表示
的转置和Moore-Penrose广义逆。在实矩阵
中,
,称
为实对称矩阵。对
,定义
和
的内积为
。由此导出的矩阵
的Frobenius范数为
。
定义1.1. 设
,记
,令
(4)
定义1.2. 设
,记,
.
定义
(5)
定义1.3. [18] 记
和
和
,定义
(6)
(7)
(8)
(9)
(10)
本文主要研究如下两个问题:
问题I 给定矩阵
,
,
,记
(11)
求
,使得
(12)
问题II 给定矩阵
,
,
,记
(13)
求
,使得
(14)
本文在第二节介绍若干个引理,在第三节利用相关结果推导出问题I和问题II解的表达式。最后在第四节讨论矩阵方程
在跨语言情感分类中的应用。
2. 几个引理
引理2.1. [19] 设
,
,则不相容线性方程组
的最小二乘解为
(15)
其中
为任意的。
引理2.2. [18] (i) 对
,则
(16)
(17)
其中
。
(ii) 对
,则
(18)
(19)
其中
。
引理2.3. [18] 给定实矩阵
和
,求
,使得
(20)
如果矩阵方程(20)是相容的,则满足矩阵方程的向量
的集合是以下相容方程的解集合,
(21)
如果矩阵方程(20)不相容,则有矩阵
和
,求
,使得
(22)
则该问题的解集为相容方程(21)的解集。
3. 主要结论
设矩阵
,其中
是矩阵
的第
列向量,
,其中
是矩阵
的第
行向量,
令
,其中
可得
令
(23)
其中
。显然
,
。
定理3.1. 令
如式(17)所示,
如式(23)所示,则问题I的解集合
(24)
问题I存在唯一的极小范数最小二乘解
(25)
证明 由引理2.2可得
由引理2.1和2.3可得
进一步可得式(25)。
由定理3.1和参考文献[18],我们现在求问题II的解。令
(26)
(27)
其中
显然
,
。
定理3.2. 令
如式(19)所示,
如式(26) (27)所示,则问题II的解集合
(28)
问题II存在唯一的极小范数最小二乘解
(29)
考虑到矩阵方程
是矩阵方程
的特殊形式,我们分别利用定理3.1和定理3.2得到它的极小范数最小二乘解和对称极小范数最小二乘解的相关结论。设矩阵
,其中
是矩阵
的第
列向量,
,其中
是矩阵
的第
行向量。令
(30)
其中
显然
,
。
推论3.1.
如式(17)所示,
如式(30)所示,则矩阵方程
最小二乘问题
(31)
解集合
表示为
(32)
它的极小范数最小二乘解
(33)
下面求矩阵方程
的对称极小范数最小二乘解,令
(34)
(35)
其中
显然
,
。
推论3.2.
如式(19)所示,
如式(34)和(35)所示,则矩阵方程
最小二乘问题
(36)
解集合
表示为
(37)
它的极小范数最小二乘解
(38)
4. 应用
4.1. 实验设置
本文以英文为源语言,以中文为目标语言。操作系统是Windows11 64位,处理器是Inter Core i7-13620H,内存为16 GB。采用的编程语言为Python,编辑器为PyCharm。
4.2. 数据集
本文使用来自NLP&CC2013提供的跨语言情感分类评测任务数据集,该数据集取自亚马逊电商平台的中英文书籍、DVD以及音乐商品评论数据。该数据集每一类别中含有2000条正面评价和2000条负面评价,在实验中按照一定比例随机抽取文本数据作为训练集和测试集。数据量如下表1所示:
Table 1. Comment on the text dataset
表1. 评论文本数据集
数据集 |
|
未标注数据集(篇) |
标注数据集(篇) |
英语 |
BOOK |
—— |
4000 |
DVD |
—— |
4000 |
MUSIC |
—— |
4000 |
中文 |
BOOK |
47071 |
4000 |
DVD |
17814 |
4000 |
MUSIC |
29677 |
4000 |
4.3. 实验过程
我们下面描述矩阵方程
的最小二乘解在跨语言情感分类中的应用。
算例I 极小范数最小二乘解在跨语言情感分类中的应用
第一步,数据预处理
提取文本数据,进行文本预处理操作,对所有文本做去特殊符号,去数字等预处理。对英文文本做大写字母转小写字母,nltk分词,对中文文本做jieba分词。利用Google Translate将提取的文本评论翻译成一一对应的中英文对应文本评论。
第二步,获取中文和英文评论文本的词向量
选取fastText提供的开源预训练词向量,预训练词向量在Wikipedia数据集上使用fastText训练得到的,词向量维度为300,使用默认参数的skip-gram模型获得。加载预训练词向量之后,将文本转化为词向量,运用TF-IDF算法计算文档词向量。忽略未出现在预训练词向量列表中的词,对相应的词向量计算加权词向量。
第三步,特征提取
在实验中仅使用文本嵌入特征,为训练映射矩阵,引入MUSE提供的中英双语词典。利用该中英双语词典以及一一对应的中英文文本数据,根据双语词典,找到数据集样本中对应的中英文词,将训练集中的中文文本数据与英文文本数据平行样本进行对齐,将对应的文本转化为加权词向量,将对齐的中文和英文加权词向量分别组合为训练集词向量矩阵。
第四步,求映射矩阵
使用最小二乘法训练线性映射矩阵,使用十折交叉验证方法,将数据集分成十份,前九份作为训练集,最后一份作为测试集。分别选取3000条中文和英文文本数据作为训练集和测试集样本数据,为验证不同的词向量维度对实验的影响,在实验中对词向量进行pca降维,将词向量维度降维至100维和150维。
经过第一步至第三步的步骤之后,得英文训练集组成的词向量矩阵
,得中文训练集组成的词向量矩阵
,设映射矩阵为
,
,
,求
使得
第五步,分类
对分类器进行训练,采用的分类器为逻辑回归(LR),支持向量机(SVM),朴素贝叶斯(NB)。对源语言中某个任意的单词的向量
,目标语言中对应单词的向量
存在一种简单线性关系:
,故可以通过映射矩阵变换到共享空间中。得到共享空间表示后,应用第五步训练出来的分类器,对目标语言数据进行分类。
算例II 对称极小范数最小二乘解在跨语言情感分类中的应用
第一步及第二步同算例I
第三步,提取特征
仅使用文本嵌入特征,对文本计算TF-IDF值得到加权文档词向量。为训练映射矩阵,使用kmeans聚类算法,通过计算样本特征间的距离,将样本划分到k个聚类(簇)中,kmeans聚类算法原理如下,
(39)
其中
表示被划分到簇
中的样本集合,
表示簇
的簇,
表示样本。
在该实验中同样采用十折交叉验证的方法,并且为验证词向量维度对实验结果的影响大小,对原始词向量维度pca降维至50维和100维。在实验中,由kmeans聚类算法分别对源语言训练集特征矩阵
和目标语言训练集特征矩阵
分别做聚类,分别将源语言和目标语言训练集划分为50个簇和100个簇,每个簇代表特征空间中相似的文本样本群体。计算每个簇的簇中心词,接着对于每个簇,计算簇内所有词到簇中心的距离,以欧几里得距离作为衡量标准,选择距离最近的词作为代表性词。分别提取出50个和100个源语言和目标语言代表性词,作为训练映射矩阵的源语言和目标语言词向量。对词向量做pca降维,将词向量维度由300维降维50维和100维。其中词向量降维维度与聚类簇数保持一致。
第四步,求映射矩阵
利用Moore-Penrose逆和拉直算子求矩阵方程
的对称极小范数最小二乘解,该解即为所求的映射矩阵。分别选取3000条中文和英文文本数据作为训练集和测试集样本数据,分别做十折交叉验证,经过第一步至第三步的步骤之后,得到英文训练集组成的词向量矩阵
,得到中文训练集组成的词向量矩阵
。设映射矩阵为
,
,
,求
,使得
(40)
存在唯一的解
(41)
计算得到
之后,
,列拉直为对称矩阵
,得到最终的映射矩阵。该映射矩阵的维度为(50, 50)和(100, 100)。
第五步,分类
对分类器进行训练,采用的分类器为逻辑回归(LR),支持向量机(SVM)。通过对称映射矩阵变换,得到共享空间表示后,应用第五步训练出来的分类器,对目标语言数据进行分类。
4.4. 实验结果分析
使用带标记的英文训练集对分类器进行训练,利用映射矩阵将英文和中文变换到共享空间中,在共享空间中利用训练好的分类器对中文进行分类。
在前人的研究上,映射矩阵可以被约束为正交矩阵,故本文以正交procrustes方法作为基线模型,与本文模型进行对比。记源语言词向量为
,目标语言词向量为
,求映射矩阵
,对所有的
和
,使得
该问题又可以简化为正交procrustes方法,
在本文的实验中,采用了多个分类器做分类,在算例I中的实验中发现在多次改变样本数以及降维维度的过程中,采用逻辑回归分类器对文本进行跨语言情感分类可以得到较优的结果,因此在本文的实验中主要采取逻辑回归分类器,实验结果如图1所示:
Figure 1. Classification accuracy results of different classifiers
图1. 不同分类器分类准确率结果
算例I和正交procrustes方法在不同词向量维度下进行情感分类的实验结果如图2所示:
Figure 2. Classification results of examples I and orthogonal procrustes method
图2. 算例I和正交procrustes方法分类结果
图2中分别为算例I和正交procrustes方法采用逻辑回归(LR)分类器,在BOOK、DVD、MUSIC数据集上的情感分类结果。在实验中,将词向量维度由300维降维至100维以及150维。由图中可以看出,词向量维度降维至150维可以得到较优的分类结果。与此同时,算例I在所有数据集上的表现都相对稳定,尤其在BOOK数据集上表现最优。
算例II实验结果如图3所示:
Figure 3. Classification results of examples II
图3. 算例II分类结果
图3中分别为算例II在逻辑回归(LR)分类器,在BOOK、DVD和MUSIC数据集上的情感分类结果。在实验中,将词向量维度由300维降维至50维以及100维。由图中可以看出,在所有数据集实验中,词向量维度由300维降维至100维可得到最优的分类效果,且在BOOK数据集上取得较优的结果。
5. 结论
在本文中,利用矩阵拉直算子、Moore-Penrose广义逆得到矩阵方程
极小范数最小二乘解的表达式,进一步得到矩阵方程
对称极小范数最小二乘解的表达式,最后讨论矩阵方程
在跨语言情感分类中的应用。
基金项目
广东省高校自然科学基金重点项目(2019KZDXM025),五邑大学港澳联合研发基金资助项目(2019WGALH20)。
NOTES
*通讯作者。