基于动态网络的简答题答案标注方法

doi:10.12677/CSA.2022.129225

期刊菜单

基于动态网络的简答题答案标注方法
Answer Annotation for Short-Answer Questions Based on Dynamic Network

DOI: 10.12677/CSA.2022.129225, PDF, HTML, XML, 科研立项经费支持
作者: 洪旭东, 严梅^*, 莫媛媛：安徽工业大学计算机科学与技术学院，安徽马鞍山
关键词: 阅读理解；问答；答案标注；动态网络；关注机制；Reading Comprehension； Question Answering； Answer Pointing； Dynamic Network； Attention Mechanism

摘要: 阅读理解问答是当前自然语言处理的研究热点之一。针对阅读理解问答中的简答题，由于其答案往往有多个、分布在阅读材料的不同位置，现有方法大多难以有效获取。本论文面向简答题的答案标注方法开展研究，将简答题答案标注问题看作是序列标注问题，考虑到问句焦点词对于寻找答案具有重要作用，提出基于动态网络的简答题答案标注方法，实现了简答题答案的端到端标注，实验表明提出的方法在F1和EM值上效果都有所提升。

Abstract: Reading comprehension style question answering is one of the current research hotspots in natural language processing. For the short-answer questions, since the answers are often multiple and distributed in different positions of the reading passages, most of the existing methods are difficult to obtain effectively. This paper studies the answer labeling method for short-answer questions, regards the short-answer question answer labeling problem as a sequence labeling problem, and considers that the focus words of questions play an important role in finding answers, and proposes a dynamic network-based short-answer question answer labeling method. End-to-end annotation of short-answer questions’ answers, experiments show that the proposed method improves both F1 and EM values.

文章引用：洪旭东, 严梅, 莫媛媛. 基于动态网络的简答题答案标注方法[J]. 计算机科学与应用, 2022, 12(9): 2217-2224. https://doi.org/10.12677/CSA.2022.129225

1. 引言

阅读理解问答指的是给定一段阅读材料，计算机通过对内容的阅读，自动回答用户相关的提问，在自动客服、辅助答题、信息检索等诸多领域具有广泛的应用前景，也是当前的研究热点之一。现有阅读理解问答研究大多针对答案是一个连续的短文本片段的场景，通过判断答案的开始和结束位置，从而完成答案抽取。答案的长度往往仅为2~3个单词。对于简答题，由于往往是综合性问题，其答案通常有多个，分布在阅读材料的不同位置，而且答案内容有长有短。例如“这次会议有哪些人参加了？”它对应的答案往往就散布在阅读材料的不同位置上。现有方法难以有效获取。

论文面向阅读理解问答中简答题的答案标注方法开展研究，构建了端到端的答案标注模型。在构建模型时，一是将简单题答案标注看成序列标注问题，对多个答案片段进行标注。二是考虑到问句中的焦点词对于寻找答案具有重要作用，例如“……哪些人参加了?”中的“人”就表明了答案是与“人”相关的概念，将在答案的识别过程中同时对问句焦点词进行识别，并通过动态网络，将识别过程与答案标注过程结合。此外论文针对该研究构建了一个面向新闻事件的问答语料库，并在此基础上进行了简答题的答案标注实验，实验结果表明论文提出的方法能够有效提升简答题的答案标注效果。

2. 相关工作

现有面向阅读理解的问答方法，大多为基于深度学习的方法。这些方法所采用的深度学习模型总体架构如图1所示。模型主要包括词向量层、编码层、交互层、答案标注层4个层次。首先利用词向量层对问题和段落中的词语进行分布式表示。然后阅读层利用循环神经网络对问题和阅读材料的上下文进行阅读，获得词语在上下文环境下新的语义表示。接着交互层利用关注机制获得阅读材料中每个词在特定问题下的向量表示。答案标注层则是对答案片段的开始和结束位置进行识别。

对于词向量层， [1] 采用了词级别词向量Glove [2] 和处理未登录词的字符级词向量 [3]，并利用highway网络 [4] 对两个词向量进行整合。 [5] 提出对词语的语法分析结果，如词性、实体类别等，进行向量化表示并将结果加入到词向量中。 [6] 提出在词向量中增加2维，用来标识阅读材料中的词语是否在问题中出现。对于阅读层， [7] 采用了LSTM [8] [9] 采用了GRU [10] [11] 则采用双向循环网络。 [12] 采用多层循环神经网络。 [13] 对阅读材料中不同长度内容同时进行语义建模，获得阅读材料不同层次的语义表示。对于交互层， [14] 使用阅读材料中词语对问题中词语进行关注，得到在给定问题下阅读材料的语义表示， [1] [14] [15] 提出了双向关注机制，同时利用问题中词语对阅读材料中词语进行关注，得到阅读材料中不同词语的重要性。 [16] 提出了多种关注值的计算方法，从而获得词语在不同视角下的关联。 [11] 考虑了阅读材料内部词语之间的关联，提出在问题和阅读材料的交互后，进一步进行阅读材料的自我关注。对于答案标注，现有方法大多借助于PointerNet [17] 计算答案开始和结束位置的概率。

Figure 1. Model architecture of reading comprehension question answering

图1. 阅读理解问答模型架构

这些阅读理解问答研究，大多基于SQuAD 2.0 [18]、NarrativeQA [19]、MS MARCO [20] 等阅读理解问答数据集，然而这些数据集的答案大多为一个阅读材料中的一个连续的文本片段，或是一段人为撰写的答案，与简答题有多个不同答案片段的场景有所区别。相关方法也无法直接应用于简答题的答案标注。

3. 问题定义

假设 $P = {w_{t}^{P}}_{1}^{n}$ 表示阅读材料的词语序列， $Q = {w_{t}^{Q}}_{1}^{m}$ 表示问题的词语序列，m和n分别表示问题和阅读材料中词语的个数。简答题答案标注的目的是从P中找到多个关于问题Q的答案文本片段 $A = {a_{i}}_{0}^{v}$ ，即 $f (P, Q) \to A$ 。其中 $v \geq 0$ 表示答案片段的个数， $a_{i} = {w_{t}^{P}}_{s_{i}}^{e_{i}}$ ， $s_{i}$ 表示第i个答案在P的中的开始位置和结束位置。论文将简答题的答案标注看作是序列标注问题。对每个 $w_{t}^{P}$ 进行分类，得到每个词的类别 $L_{t}^{P} \in {B, I, O}$ 。其中B表示该词语为一个答案文本片段的开始，I表示该词语为答案文本的中间词，O表示该词语为非答案文本。

4. 模型构建

4.1. 模型结构

模型结构如图2所示。模型首先通过语义编码获得阅读材料及问题的语义表示，然后通过问句焦点词识别判断一个词是否为焦点词，接着通过动态网络，根据判断结果采用不同的关注策略进行问题和阅读材料的语义交互，并通过Self attention融合上下文信息，最后哦通过CRF层进行答案标注。

4.2. 阅读材料及问题语义编码

首先使用word2vec将阅读材料 $P = {w_{t}^{P}}_{1}^{n}$ 及问句 $Q = {w_{t}^{Q}}_{1}^{m}$ 中的词语表示为词向量的形式 ${e_{t}^{P}}_{1}^{n}$ 和 ${e_{t}^{Q}}_{1}^{m}$ ，然后将这些词向量分别输入BiLSTM_P和BiLSTM_Q获得融合了上下文语义信息的向量表示 ${u_{t}^{P}}_{1}^{n}$

和 ${u_{t}^{Q}}_{1}^{m}$ ， $u_{t}^{P} = [{\vec{u}}_{t}^{P}, {\overset{\leftarrow}{u}}_{t}^{P}]$ ， $u_{t}^{Q} = [{\vec{u}}_{t}^{Q}, {\overset{\leftarrow}{u}}_{t}^{Q}]$ 。 $u_{t}^{P}, u_{t}^{Q} \in R^{2 \times d}$ 。接着将 $[u_{s}^{s_{i}}, u_{e}^{s_{i}}]$ 作为阅读材料中每个句子的语义表示，其中 $u_{s}^{s_{i}}$ 、 $u_{e}^{s_{i}}$ 表示阅读材料中第i个句子的开始和结束词语对应的语义表示。通过BiLSTM_S获得融合上下文的新的句子语义表示 $S_{i}^{P} = [{\vec{s}}_{i}^{P}, {\overset{\leftarrow}{s}}_{i}^{P}] \in R^{2 d}$ 。最后将 ${\bar{u}}_{t}^{P} = [u_{t}^{P}, S_{i}^{P}] \in R^{4 d}$ 作为阅读材料中第t个词语的语义表示，其中第t个词语属于第i个句子。

Figure 2. Answer annotation model based on dynamic network

图2. 基于动态网络的答案标注模型

4.3. 问句焦点词识别

由于问句的焦点词对于寻找答案至关重要，然而相较于其他词语，焦点词往往很少出现在真正的答案片段中。这就导致了在使用关注机制时，如果使用和其它词相同的计算方法，会导致焦点词获得相较于其他非焦点词更低的关注值。将首先通过(1)式判断问句中每个词语是否为焦点词，其中 $w_{c} \in R^{1 \times d}$ 、 $b_{c} \in R$ 为参数， $σ$ 为sigmoid函数， $p_{t}$ 表示问句中第t个词为问焦点词的概率。 $p_{t} \geq 0.5$ 被视为焦点词，否则将被视为非焦点词，

$p_{t} = σ (w_{c} u_{t}^{Q} + b_{c})$ (1)

4.4. 基于动态网络及关注机制的问句信息融合

对于阅读材料中的每个词语，为了准确判断其是否为答案内容，需要在通过语义编码后获得的 ${\bar{u}}_{t}^{P}$ 基础上，进一步通过动态网络和关注机制融合问句信息。

首先将通过(2)式计算阅读材料与焦点词的关注值 $Att ({\bar{u}}_{j}^{P}, u_{i}^{Q F})$ ，与非焦点词的关注值 $Att ({\bar{u}}_{j}^{P}, u_{i}^{Q N})$ 则通过(3)式计算，其中 $W_{1}^{F}, W_{1}^{N} \in R^{k \times 2 d}$ ， $W_{2}^{F}, W_{2}^{N} \in R^{k \times 4 d}$ 为参数。

$A_{i j}^{F} = Att ({\bar{u}}_{j}^{P}, u_{i}^{Q F}) = ReLU {(W_{1}^{F} u_{i}^{Q F})}^{T} * ReLU (W_{2}^{F} {\bar{u}}_{j}^{P})$ (2)

$A_{i j}^{N} = Att ({\bar{u}}_{j}^{P}, u_{i}^{Q N}) = ReLU {(W_{1}^{N} u_{i}^{Q N})}^{T} * ReLU (W_{2}^{N} {\bar{u}}_{j}^{P})$ (3)

然后通过(4)和(5)式得到融合焦点词语义表示 ${\bar{u}}_{t}^{P F}$ ，通过(6)和(7)得到融合非焦点词信息后的 ${\bar{u}}_{t}^{P N}$ ，其中 $m_{1}$ 和 $m_{2}$ 分别为问句中焦点词和非焦点词的个数。 $A_{m_{1} + 1 j}^{F} = Att ({\bar{u}}_{j}^{P}, u_{\emptyset}^{Q F})$ ， $A_{m_{2} + 1 j}^{N} = Att ({\bar{u}}_{j}^{P}, u_{\emptyset}^{Q N})$ ，其中 $u_{\emptyset}^{Q F}, u_{\emptyset}^{Q N} \in R^{2 d}$ 为参数。如果 ${\bar{u}}_{j}^{P}$ 与问句中所有焦点词或所有非焦点词都无关， ${\bar{u}}_{j}^{P}$ 将更多关注 $u_{\emptyset}^{Q F}$ 和 $u_{\emptyset}^{Q N}$ 。 $[{\bar{u}}_{t}^{P F}, {\bar{u}}_{t}^{P N}]$ 将被送入BiLSTM_A得到融合问句信息语义表示 ${\bar{\bar{u}}}_{t}^{P} = [{\bar{\bar{\vec{u}}}}_{t}^{P}, {\bar{\bar{\overset{\leftarrow}{u}}}}_{t}^{P}] \in R^{2 d}$

$a_{j}^{F} = softmax (A_{: j}^{F})$ (4)

${\bar{u}}_{t}^{P F} = \sum_{i = 1}^{m_{1} + 1} a_{i t}^{F} * u_{i}^{Q F}$ (5)

$a_{j}^{N} = softmax (A_{: j}^{N})$ (6)

${\bar{u}}_{t}^{P N} = \sum_{i = 1}^{m_{2} + 1} a_{i t}^{N} * u_{i}^{Q N}$ (7)

接着在得到 ${\bar{\bar{u}}}_{t}^{P}$ 的基础上，将通过self-attention对整个阅读材料中的内容进行进一步融合得到 ${\hat{u}}_{t}^{P} \in R^{2 d}$ ，计算过程如(8)式所示。 ${\hat{u}}_{t}^{P}$ 将被送入BiLSTM_A得到 ${\tilde{u}}_{t}^{P} = [{\tilde{\vec{u}}}_{t}^{P}, {\tilde{\overset{\leftarrow}{u}}}_{t}^{P}] \in R^{2 d}$ 。答案标注模型将根据 ${\tilde{u}}_{t}^{P}$ 进行答案标注。

$S A_{i j}^{P} = ReLU {(W^{P} {\hat{u}}_{i}^{P})}^{T} * ReLU (W^{P} {\hat{u}}_{j}^{P})$

$a_{j}^{P} = softmax (S A_{: j}^{P})$

${\hat{u}}_{t}^{P} = \sum_{i = 1}^{n} a_{i t}^{P} * {\hat{u}}_{i}^{P}$ (8)

4.5. 答案标注

考虑到词语的答案标注前后依赖，将采用CRF进行答案标注。首先 ${\hat{u}}_{t}^{P}$ 通过(9)得到每个词属于 ${B, I, O}$ 的概率 $P_{t} \in R^{3}$ ， $| P_{t} | = 1$ ， $W_{P} \in R^{3 \times d}$ 为参数。

$P_{t} = softmax (W_{P} {\hat{u}}_{t}^{P})$ (9)

然后通过使得(10)式最大对各个参数进行求解，其中L表示训练数据中阅读材料P和问题Q对应的答案， $L (P, Q)$ 则表示他们所有可能的答案集合。 $L_{t}$ 表示阅读材料中第t个词语对应的类别，M为转移概率矩阵， $M_{i j}$ 表示类别i到类别j的转移概率。

$\log P (L | P, Q) = S (L, P, Q) - \log (\sum_{l \in L (P, Q)} e^{S (l, P, Q)})$

$S (L, P, Q) = \sum_{t = 0}^{n} M_{L_{t} L_{t + 1}} + \sum_{t = 0}^{n} P_{t, L_{t}}$ (10)

5. 模型训练

由于模型结构受焦点词识别结果的影响，无法使用传统的梯度下降/上升算法求解，因此使用强化学习方法，对(11)式对应的期望值进行优化，实现参数的求解。其中C表示Q的焦点词识别结果， $C = [c_{1}, c_{2}, \dots, c_{n}]$ ， $c_{i} = {0, 1}$ ， $P (C | Q) = \prod_{t} p_{t}$ ， $θ$ 表示模型的所有参数。对(11)的梯度计算结果如(12)式所示，其中 $L^{'}$ 表示基于焦点词识别结果C进行的答案标注结果。 $R (L, L^{'} | C)$ 为计算结果 $L^{'}$ 对应的奖励，计算过程为(13)式所示。

$J (θ) = - E_{C ~ P (C | Q)} (\log P (L | P, Q, C)))$ (11)

$\begin{matrix} \nabla_{θ} J (θ) = - E_{C ~ P (C | Q)} [\log P (L | P, Q, C) \nabla_{θ} \log P (C | Q) + \nabla_{θ} \log P (L | P, Q, C)] \\ \approx - E_{C ~ P (C | Q)} [R (L, L^{'} | C) \nabla_{θ} \log P (C | Q) + \nabla_{θ} \log P (L | P, Q, C)] \end{matrix}$ (12)

$R (L, L^{'} | C) = {\begin{cases} 2, if L = = L^{'} \\ f 1 (L, L^{'}), else if L \cup L^{'}! = \emptyset \\ - 1, else \end{cases}$ (13)

模型的训练过程如下所示：

6. 实验

6.1. 数据集及评价标准

由于当前的公开数据集无法直接应用于简答题答案标注，论文自行构建了训练和测试数据集。数据来源于多个英文新闻网站关于在政治、经济、军事等1000个新闻片段，并人工为每个片段标注了3个问题和和对应的答案。数据集划分及答案的个数分布如表1所示。对于结果采用EM和F1作为评价标准。

Table 1. Datasets abstract

表1. 数据集概要

6.2. 对比实验

参与对比的方法包括DCN [14]、BiDAF [1]、R-NET [11]。由于这些方法针对的都是答案只有1个的情况，因此论文将这些模型的答案标注层统一换成了CRF。此外为了保证公平比较，论文将这些模型除CRF外部分的参数和结构固定，然后在本数据集上进行了重新训练。实验结果如表2所示，结果表明所提出方法在F1和EM两个指标上效果都有所提升，特别是在F1上提升幅度较大。

Table 2. Comparison of experimental results

表2. 实验结果对比

6.3. 消融实验

论文于R-NET的不同之处主要在于在对阅读材料进行语义编码，以及在焦点词识别两个方面。为了证明方法的有效性，针对这两个环节进行了消融实验。在不进行焦点词识别时，采用了传统的梯度下降算法进行模型求解。实验结果如表3所示。实验结果表明两个方面的举措都能够有效提升模型的效果。

Table 3. Ablation experimental results

表3. 消融实验结果

7. 下一步工作

在阅读理解中，简答题的答案往往有多个，论文针对简答题答案标注方法开展研究，提出了基于动态网络的简答题答案标注方法，在现有阅读理解问答模型框架的基础上，从答案标注、阅读材料语义建模、问句内容解析方面进行了改进。识别效果取得了较大的提升。

由于简答题的答案形式多种多样，内容有长有段，有些答案则是阅读材料中内容的总结。目前由于训练语料规模有限，答案的长度也都比较短，后续将进一步扩充语料库，针对多样化的答案抽取生成方法开展研究。

基金项目

感谢安徽省高校自然科学研究重点项目“向简答题的阅读理解问答关键技术研究”No. KJ2019A0064，安徽工业大学校青年科学基金项目“跨语言话题发现与摘要方法研究”，No. QZ201717资助。

NOTES

^*通讯作者。

参考文献

[1]	Seo, M., Kembhavi, A., Farhadi, A., et al. (2016) Bidirectional Attention Flow for Machine Comprehension. Proceed-ings of the International Conference on Learning Representations, Toulon, 24-26 April 2017, 1-13.
[2]	Pennington, J., Socher, R., Manning, C.D., et al. (2014) Glove: Global Vectors for Word Representation. Proceedings of the 2014 Con-ference on Empirical Methods in Natural Language Processing, Doha, October 2014, 1532-1543. [Google Scholar] [CrossRef]
[3]	Kim, Y. (2014) Convolutional Neural Networks for Sentence Classifica-tion. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, October 2014, 1746-1751. [Google Scholar] [CrossRef]
[4]	Srivastava, R.K., Greff, K., Schmidhuber, J., et al. (2015) Highway Networks.
[5]	Chen, D.Q., Fisch, A., Weston, J., et al. (2017) Reading Wikipedia to Answer Open-Domain Questions. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistic, Volume 1, 1870-1879. [Google Scholar] [CrossRef]
[6]	Weissenborn, D., Wiese, G., Seiffe, L., et al. (2016) Making Neural QA as Simple as Possible but Not Simpler. Proceedings of the 21st Conference on Computational Natural Language Learning, Vancouver, 3-4 August 2017, 271-280. [Google Scholar] [CrossRef]
[7]	Wang, H.H. and Jiang, J. (2016) Machine Comprehension Using Match-LSTM and Answer Pointer.
[8]	Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780. [Google Scholar] [CrossRef] [PubMed]
[9]	Choi, E., Hewlett, D., Uszkoreit, J., et al. (2017) Coarse-to-Fine Question Answering for Long Documents. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Volume 1, 209-220. [Google Scholar] [CrossRef]
[10]	Cho, K., Van Merrienboe, B., Gulcehre, C., et al. (2016) Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation. Proceedings of the 2014 Con-ference on Empirical Methods in Natural Language Processing, Doha, 25-29 October 2014, 1724-1734. [Google Scholar] [CrossRef]
[11]	Wang, W.H., Yang, N., Wei, F.R., et al. (2017) Gated Self-Matching Networks for Reading Comprehension and Question Answering. Proceedings of the 55th Annual Meeting of the Associ-ation for Computational Linguistics, Volume 1, 189-198. [Google Scholar] [CrossRef]
[12]	Huang, H.-Y., Zhu, C.G., Shen, Y.L., et al. (2017) FusionNet: Fusing via Fully-Aware Attention with Application to Machine Com-prehension. Proceedings of the International Conference on Learning Representations, Vancouver, 30 April-3 May 2018, 1-20.
[13]	Tay, Y., Tuan, L.A. and Hui, S.C. (2018) Multi-Range Reasoning for Machine Comprehension.
[14]	Xiong, C.M., Zhong, V. and Socher, R. (2016) Dynamic Coattention Networks for Question Answering. International Confer-ence on Learning Representations 2017, Toulon, 24-26 April 2017, 1-14.
[15]	Cui, Y., Chen, Z., Wei, S., et al. (2017) Attention-over-Attention Neural Networks for Reading Comprehension. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Volume 1, 593-602. [Google Scholar] [CrossRef]
[16]	Wang, Z.G., Mi, H.T., Hamza, W. and Florian, R. (2016) Mul-ti-Perspective Context Matching for Machine Comprehension.
[17]	Vinyals, O., Fortunato, M. and Jaitly, N. (2015) Pointer Networks. Proceedings of the Conference on Advances in Neural Information Processing Systems, Volume 2, 2692-2700.
[18]	Rajpurkar, P., Zhang, J., Lopyrev, K., et al. (2016) SQuAD: 100,000+ Questions for Machine Com-prehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, 1-5 November 2016, 2383-2392. [Google Scholar] [CrossRef]
[19]	Kocisky, T., Schwarz, J., Blunsom, P., et al. (2017) The NarrativeQA Reading Comprehension Challenge.
[20]	Nguyen, T., Rosenberg, M., Song, X., et al. (2016) MS MARCO: A Human Generated Machine Reading Comprehension Dataset.

为你推荐

友情链接