1. 引言
阅读理解问答指的是给定一段阅读材料,计算机通过对内容的阅读,自动回答用户相关的提问,在自动客服、辅助答题、信息检索等诸多领域具有广泛的应用前景,也是当前的研究热点之一。现有阅读理解问答研究大多针对答案是一个连续的短文本片段的场景,通过判断答案的开始和结束位置,从而完成答案抽取。答案的长度往往仅为2~3个单词。对于简答题,由于往往是综合性问题,其答案通常有多个,分布在阅读材料的不同位置,而且答案内容有长有短。例如“这次会议有哪些人参加了?”它对应的答案往往就散布在阅读材料的不同位置上。现有方法难以有效获取。
论文面向阅读理解问答中简答题的答案标注方法开展研究,构建了端到端的答案标注模型。在构建模型时,一是将简单题答案标注看成序列标注问题,对多个答案片段进行标注。二是考虑到问句中的焦点词对于寻找答案具有重要作用,例如“……哪些人参加了?”中的“人”就表明了答案是与“人”相关的概念,将在答案的识别过程中同时对问句焦点词进行识别,并通过动态网络,将识别过程与答案标注过程结合。此外论文针对该研究构建了一个面向新闻事件的问答语料库,并在此基础上进行了简答题的答案标注实验,实验结果表明论文提出的方法能够有效提升简答题的答案标注效果。
2. 相关工作
现有面向阅读理解的问答方法,大多为基于深度学习的方法。这些方法所采用的深度学习模型总体架构如图1所示。模型主要包括词向量层、编码层、交互层、答案标注层4个层次。首先利用词向量层对问题和段落中的词语进行分布式表示。然后阅读层利用循环神经网络对问题和阅读材料的上下文进行阅读,获得词语在上下文环境下新的语义表示。接着交互层利用关注机制获得阅读材料中每个词在特定问题下的向量表示。答案标注层则是对答案片段的开始和结束位置进行识别。
对于词向量层, [1] 采用了词级别词向量Glove [2] 和处理未登录词的字符级词向量 [3],并利用highway网络 [4] 对两个词向量进行整合。 [5] 提出对词语的语法分析结果,如词性、实体类别等,进行向量化表示并将结果加入到词向量中。 [6] 提出在词向量中增加2维,用来标识阅读材料中的词语是否在问题中出现。对于阅读层, [7] 采用了LSTM [8] [9] 采用了GRU [10] [11] 则采用双向循环网络。 [12] 采用多层循环神经网络。 [13] 对阅读材料中不同长度内容同时进行语义建模,获得阅读材料不同层次的语义表示。对于交互层, [14] 使用阅读材料中词语对问题中词语进行关注,得到在给定问题下阅读材料的语义表示, [1] [14] [15] 提出了双向关注机制,同时利用问题中词语对阅读材料中词语进行关注,得到阅读材料中不同词语的重要性。 [16] 提出了多种关注值的计算方法,从而获得词语在不同视角下的关联。 [11] 考虑了阅读材料内部词语之间的关联,提出在问题和阅读材料的交互后,进一步进行阅读材料的自我关注。对于答案标注,现有方法大多借助于PointerNet [17] 计算答案开始和结束位置的概率。

Figure 1. Model architecture of reading comprehension question answering
图1. 阅读理解问答模型架构
这些阅读理解问答研究,大多基于SQuAD 2.0 [18]、NarrativeQA [19]、MS MARCO [20] 等阅读理解问答数据集,然而这些数据集的答案大多为一个阅读材料中的一个连续的文本片段,或是一段人为撰写的答案,与简答题有多个不同答案片段的场景有所区别。相关方法也无法直接应用于简答题的答案标注。
3. 问题定义
假设
表示阅读材料的词语序列,
表示问题的词语序列,m和n分别表示问题和阅读材料中词语的个数。简答题答案标注的目的是从P中找到多个关于问题Q的答案文本片段
,即
。其中
表示答案片段的个数,
,
表示第i个答案在P的中的开始位置和结束位置。论文将简答题的答案标注看作是序列标注问题。对每个
进行分类,得到每个词的类别
。其中B表示该词语为一个答案文本片段的开始,I表示该词语为答案文本的中间词,O表示该词语为非答案文本。
4. 模型构建
4.1. 模型结构
模型结构如图2所示。模型首先通过语义编码获得阅读材料及问题的语义表示,然后通过问句焦点词识别判断一个词是否为焦点词,接着通过动态网络,根据判断结果采用不同的关注策略进行问题和阅读材料的语义交互,并通过Self attention融合上下文信息,最后哦通过CRF层进行答案标注。
4.2. 阅读材料及问题语义编码
首先使用word2vec将阅读材料
及问句
中的词语表示为词向量的形式
和
,然后将这些词向量分别输入BiLSTMP和BiLSTMQ获得融合了上下文语义信息的向量表示
和
,
,
。
。接着将
作为阅读材料中每个句子的语义表示,其中
、
表示阅读材料中第i个句子的开始和结束词语对应的语义表示。通过BiLSTMS获得融合上下文的新的句子语义表示
。最后将
作为阅读材料中第t个词语的语义表示,其中第t个词语属于第i个句子。

Figure 2. Answer annotation model based on dynamic network
图2. 基于动态网络的答案标注模型
4.3. 问句焦点词识别
由于问句的焦点词对于寻找答案至关重要,然而相较于其他词语,焦点词往往很少出现在真正的答案片段中。这就导致了在使用关注机制时,如果使用和其它词相同的计算方法,会导致焦点词获得相较于其他非焦点词更低的关注值。将首先通过(1)式判断问句中每个词语是否为焦点词,其中
、
为参数,
为sigmoid函数,
表示问句中第t个词为问焦点词的概率。
被视为焦点词,否则将被视为非焦点词,
(1)
4.4. 基于动态网络及关注机制的问句信息融合
对于阅读材料中的每个词语,为了准确判断其是否为答案内容,需要在通过语义编码后获得的
基础上,进一步通过动态网络和关注机制融合问句信息。
首先将通过(2)式计算阅读材料与焦点词的关注值
,与非焦点词的关注值
则通过(3)式计算,其中
,
为参数。
(2)
(3)
然后通过(4)和(5)式得到融合焦点词语义表示
,通过(6)和(7)得到融合非焦点词信息后的
,其中
和
分别为问句中焦点词和非焦点词的个数。
,
,其中
为参数。如果
与问句中所有焦点词或所有非焦点词都无关,
将更多关注
和
。
将被送入BiLSTMA得到融合问句信息语义表示
(4)
(5)
(6)
(7)
接着在得到
的基础上,将通过self-attention对整个阅读材料中的内容进行进一步融合得到
,计算过程如(8)式所示。
将被送入BiLSTMA得到
。答案标注模型将根据
进行答案标注。
(8)
4.5. 答案标注
考虑到词语的答案标注前后依赖,将采用CRF进行答案标注。首先
通过(9)得到每个词属于
的概率
,
,
为参数。
(9)
然后通过使得(10)式最大对各个参数进行求解,其中L表示训练数据中阅读材料P和问题Q对应的答案,
则表示他们所有可能的答案集合。
表示阅读材料中第t个词语对应的类别,M为转移概率矩阵,
表示类别i到类别j的转移概率。
(10)
5. 模型训练
由于模型结构受焦点词识别结果的影响,无法使用传统的梯度下降/上升算法求解,因此使用强化学习方法,对(11)式对应的期望值进行优化,实现参数的求解。其中C表示Q的焦点词识别结果,
,
,
,
表示模型的所有参数。对(11)的梯度计算结果如(12)式所示,其中
表示基于焦点词识别结果C进行的答案标注结果。
为计算结果
对应的奖励,计算过程为(13)式所示。
(11)
(12)
(13)
模型的训练过程如下所示:
6. 实验
6.1. 数据集及评价标准
由于当前的公开数据集无法直接应用于简答题答案标注,论文自行构建了训练和测试数据集。数据来源于多个英文新闻网站关于在政治、经济、军事等1000个新闻片段,并人工为每个片段标注了3个问题和和对应的答案。数据集划分及答案的个数分布如表1所示。对于结果采用EM和F1作为评价标准。
6.2. 对比实验
参与对比的方法包括DCN [14]、BiDAF [1]、R-NET [11]。由于这些方法针对的都是答案只有1个的情况,因此论文将这些模型的答案标注层统一换成了CRF。此外为了保证公平比较,论文将这些模型除CRF外部分的参数和结构固定,然后在本数据集上进行了重新训练。实验结果如表2所示,结果表明所提出方法在F1和EM两个指标上效果都有所提升,特别是在F1上提升幅度较大。

Table 2. Comparison of experimental results
表2. 实验结果对比
6.3. 消融实验
论文于R-NET的不同之处主要在于在对阅读材料进行语义编码,以及在焦点词识别两个方面。为了证明方法的有效性,针对这两个环节进行了消融实验。在不进行焦点词识别时,采用了传统的梯度下降算法进行模型求解。实验结果如表3所示。实验结果表明两个方面的举措都能够有效提升模型的效果。

Table 3. Ablation experimental results
表3. 消融实验结果
7. 下一步工作
在阅读理解中,简答题的答案往往有多个,论文针对简答题答案标注方法开展研究,提出了基于动态网络的简答题答案标注方法,在现有阅读理解问答模型框架的基础上,从答案标注、阅读材料语义建模、问句内容解析方面进行了改进。识别效果取得了较大的提升。
由于简答题的答案形式多种多样,内容有长有段,有些答案则是阅读材料中内容的总结。目前由于训练语料规模有限,答案的长度也都比较短,后续将进一步扩充语料库,针对多样化的答案抽取生成方法开展研究。
基金项目
感谢安徽省高校自然科学研究重点项目“向简答题的阅读理解问答关键技术研究”No. KJ2019A0064,安徽工业大学校青年科学基金项目“跨语言话题发现与摘要方法研究”,No. QZ201717资助。
NOTES
*通讯作者。