基于BART神经网络的爆破文献摘要生成与优化
Generation and Optimization of Explosive Literature Abstracts Based on BART Neural Network
摘要: 针对爆破行业的从业人员对爆破英文文献阅读难度大,而又希望快速获取文献核心信息的需求。本文基于BART神经网络进行优化,对于爆破英文文献进行针对性提取出生成式摘要,并与传统的抽取式摘要进行对比,结果表明基于BART神经网络的摘要结果在流畅度和信息完整性上更加优秀,对于爆破英文文献的信息内容提取有很大的帮助。
Abstract: Aiming at the needs of blasting industry practitioners who find it difficult to read English literature on blasting but want to quickly obtain the core information of the literature, this paper optimizes the BART neural network and extracts generative summaries for English literature on blasting. The summaries are compared with traditional extractive summaries. The results show that the summary results based on the BART neural network are more excellent in fluency and information completeness, which is of great help in extracting information content from English literature on blasting.
文章引用:洪珂, 李琳娜. 基于BART神经网络的爆破文献摘要生成与优化[J]. 人工智能与机器人研究, 2024, 13(4): 814-821. https://doi.org/10.12677/airr.2024.134084

1. 引言

在当下的互联网上,国内外有关爆破领域的文章十分众多繁杂,对于想要学习国外先进爆破技术知识的从业者来说,信息量太过于庞大繁杂。一般爆破方面文章篇幅冗长,如果整篇阅读,在读者花费大量精力阅读完毕却发现并非想要获取的相关内容后,会使得从业人员兴趣及积极性降低,浪费学习时间。

而在爆破英文文献摘要方面,国内几乎没有参考内容,本文使用改进BART网络,通过对BART神经网络进行微调优化,调整词汇权重来对爆破英文文献进行生成式摘要任务。既在爆破英文文献摘要任务训练了专用网络,也解决了爆破从业人员对于冗长文章难以阅读的问题。

2. 相关研究

2.1. 深度学习的基础

神经网络(Neural Network)是一种模拟人脑结构和功能的计算模型,用于处理和分析复杂的数据。它由多个相互连接的“神经元”组成,这些神经元通过权重连接形成网络结构。神经网络可以通过训练学习模式和规则,从而在未见过的数据上进行预测或分类。

循环神经网络(RNN)如今广泛应用于序列到序列(Seq2Seq)模型中,但具体到实际的任务中,RNN对于远距离的历史信息运用非常少。我们在处理长度比较长的任务的时候,RNN不能够很好地在每一步中都关注到距离相对较远的隐向量信息。在文本摘要任务中,一般是将一篇长文拆分成许多的句子进行输入,而句子之间都有着上下联系,进行预测不仅要考虑当前句子,同时也要将之前的语句考虑进来。但是如果文章文本的句子超过了一定的限度,RNN就会遗忘早期信息,有着梯度爆炸的问题。而LSTM网络就用来解决RNN网络的不足。

LSTM是RNN的变种模型且由一组相互连接的网络构成[1],它的设计借鉴了门控电路[2]的机制。LSTM可以同时进行输入数据的选择性遗忘和长期保留数据中的重要信息。LSTM有三个门分别是输入门、输出门和遗忘门。遗忘门决定了从数据中丢弃哪些信息,来记住更为重要的信息,输入门决定要更新什么信息,最后的输出门来输出两个信息,一个是前一个神经元的输出门一个是遗忘门状态,通过这三个门来解决RNN所存在的问题。

2.2. Transformer模型

Encoder-Decoder框架是一种常见的神经网络架构,Encoder-Decoder框架可以用在大多数的Attention模型中起到不错的效果,在自然语言处理任务中Encoder-Decoder框架用来解决Seq2Seq任务。具体就是将一个输入的序列转化成输出的序列。这两个序列的长度可以不相同。具体运用到自然语言任务中如文章翻译、文本摘要和问答任务等。基于Encoder-Decoder框架使用实现较多的一般是Seq2Seq [3]模型和Transformer模型[4]图1是Encoder-Decoder的基本结构。

Figure 1. Encoder-Decoder architectutre

1. Encoder-Decoder框架图

注意力机制是Transformer模型的核心概念。最早在20世纪90年代初,注意力机制(Attention)的思想就被提出并且运用到CV领域。其核心理念是模仿人类感官的注意力模式。在2014年,Google Mind团队将Attention机制引入RNN,用于图像识别与分类[5]。这使得注意力机制在深度学习领域炙手可热。同年,Bahdanau首次将注意力机制运用到了机器翻译任务中[6],将注意力机制代入到了NLP任务领域中。注意力机制将重点放在重要信息上来处理任务。我们可以把注意力机制运用到文本摘要生成任务中,去将句子的重点信息提取出来输出其特征[7]

3. 模型构建

3.1. BART神经网络的改进

在摘要生成任务中,我们的目标是将输入的文章总结成一段简洁的事实摘要。Seq2Seq架构能够直接应用于这一任务,而不需要额外的处理。此外,预训练任务非常契合这些下游任务。在CNN/Daily Mail数据集的摘要任务中,所有新型的Seq2Seq模型都明显优于较旧的模型,尤其是BART模型表现尤为出色。因此,本文选择了BART模型来进行文章摘要的生成。

BART是一种非常适用与生成式任务的模型,当然它也能完成判别式任务,而且效果也很好。它主要结合了BERT [8]和GPT [9]两种模型思路,使得它不仅具有双向编码的优势,也具有单向自回归编码的优势。

BART (Bidirectional and Auto-Regressive Transformers)模型基于Transformer模型的Seq2Seq结构,两者之间的区别在于使用了GeLU替代了ReLU,以及模型初始化使用了正态分布。BART结合了双向Transformer编码器和单向自回归Transformer解码器,通过对含有噪声的输入文本进行去噪重建进行预训练,所以它是一个去噪自编码器(Denoising autoencoder)。BART模型的基本结构如图2所示。

3.2. BART网络优化

预训练的BART模型同时具备文本的表示与生成能力,因此适用于语言理解、文本生成等不同类型的下游任务。对于不同的任务,BART模型的精调方式有所不同。

1) 序列分类与序列标注。在序列分类任务中(比如评价好坏分类),输入到BART模型的Encoder和Decoder的数据是相同的,将Decoder最终得到的隐藏层状态当作输入的文本向量来表示,然后传入分类器,并使用任务的标注数据对模型参数进行微调。类似于BERT模型中的[CLS]标记,BART模型在解码

Figure 2. BART basic structure diagram

2. BART基本结构图

器的最后时间步加入了一个特殊标记,并将该标记的隐含层状态作为文本的表示,从而充分利用解码器的状态信息。

同样,在序列标注中,Encoder和Decoder也有同样的输入。此时,Decoder每个时间步的隐含层状态被用作对应时间步单词的向量表示,进而用于进行类别预测。

2) 文本生成任务中,BART模型能够直接应用于条件文本生成,例如抽象式问答和文本摘要等。在这些任务中,编码器接收作为条件的输入文本,而解码器则通过自回归方式生成相应的目标文本。

BART只是一个基础的预训练模型,而本文的主要任务是提取与爆破相关文献的摘要。为了实现这一目标,我们需要在BART模型上添加一个输出层,并提升与爆破相关词汇的权重,使生成的摘要更加关注这些关键信息。因此,需要对模型进行微调,以调整词汇权重,增强对重要信息的敏感性。

4. 摘要模型的构建

4.1. 数据的收集和处理

我们选择爱思唯尔(Elsevier) [10]网站进行数据的收集,因为爱思唯尔(Elsevier)是一个全球领先的学术出版公司,提供了大量的科学、技术和医学领域的期刊和论文。其官网为研究人员和学生提供了丰富的资源,用于查找和访问最新的研究成果。并且此网站的论文大多都为英文,非常符合我们的任务需求。

下载十篇关于爆破预测方面的英文文献,并对其中的文本进行预处理。

使用分词工具将文本拆分成单词并存储进行下一步的操作。

由于自然语言不能够直接当作输入给计算机识别的任务,在NLP任务中,需要考虑如何在计算机中表示词语。

最开始的自然语言词语向量[11]的编码表现形式是通过独热编码的方式实现的,也就是One-hot编码,通过n位的0、1编码的寄存器对词的n个状态来对应的存储记录。每一种的状态都有唯一的表达形式,同时这个n位中只有一个位置的状态为1,其余的n-1位都为0,来区别表示每一个独立的词汇。

评价摘要模型的生成效果时,我们采用自动评价指标,因为人工评估过于繁琐费时,采用自动评价指标可以大大降低工作量,在此任务中,我们采用ROUGE (Recall-Oriented Understudy for Gisting Evaluation)作为评价指标,将模型生成的摘要和参考摘要通过两者 ngram 的共现信息进行对比,以信息召回率为目标导向根据 ngram 的不同长度,Rouge的常用指标有Rouge-L和Rouge-1、Rouge-2。

4.2. 数据的预训练

在网上图书馆中登录到Elsevier Science Direct网站,在分类中搜索Blast Prediction关键词用来检索有关爆破预测的英文文献,下载相关文章到本地作为我们要处理的数据。

首先我们要对数据集进行预训练,来生成一个带有词向量模型的词典,在此预训练任务中使用普适的模型尺寸,里面包括了6个Encoder和6个Decoder,隐藏层的大小为768,并且在预训练中对于目标进行比较。

现有的预训练模型十分众多,然后却很难去比较其差别,由于各个模型的训练数据、训练资源、模型之间的架构差异以及微调的程序有不可控的差距。为了尽可能地控制与预训练目标无关的差异,提高预训练的性能,对于学习率和层规范化的使用要进行细微的调整,来提高性能。将BART的预训练模型与BERT相比,训练一个从左到右的Transformer模型,相当于BART解码器,但没有交叉。置换语言模型基于XLNet,对1/6的标记进行采样,并以随机顺序自回归生成。为了保持与其他模型的一致,将不会实现XLNet中各个段之间的相对位置嵌入注意力。掩码语言模型保持和BERT一致,用[MASK]符号替换15%的标记,并训练模型独立预测原始标记。多任务掩码模型与UniLM一样,训练带有额外自注意力掩码的掩码语言模型。自注意力掩码按以下比例随机选择:1/6从左到右,1/6从右到左,1/3未掩码,1/3的前50%标记未掩码,其余部分从左到右掩码。借鉴于带掩码的Seq2Seq模型,将掩码包含50%的跨度,并训练一个序列到序列的模型来预测被掩码的标记。对于置换LM、带掩码的LM和多任务带掩码LM,使用双流注意力来有效计算列输出部分的可能性,尝试将任务视为标准Seq2Seq问题,其中编码器的源输入和目标是解码器输出。

有的调整的部分之后,我们需要进行任务来验证,SQuAD是维基百科段落上的提取式问答任务,答案是从给定文档上下文中提取的文本跨度。

与BERT类似,使用连接的问题和上下文作为BART编码器的输入,并将它们传递给解码器。该模型包括分类器来预测每个标记的开始和结束索引。

MINLI任务是一个双语文本分类任务,用于预测一个句子是否包含另一个句子。

微调模型将两个句子连接起来并附加一个EOS标记,并将它们传递给BART编码器和解码器,并与BERT相比。

ELI5任务是一个长篇抽象问答数据集,模型根据问题和支持文档的链接生成答案。

还有XSum、ConAI2、CNN等任务。

结果显示:预训练方法的性能在不同任务之间的差异很大,预训练方法的有效性很大程度上取决于任务,但总体上BART的性能在绝大多数场景下都要优于其他的方法。

4.3. 三种模型的摘要生成和结果对比分析

我们引入两种其他的摘要模型与BART改进模型的性能结果进行对比,分别引入MMR模型和Textrank模型。

以Use of Explainable Machine Learning Models in Blast Load Prediction这篇英文文献为例,这篇文章大致上是讲述的是利用机器学习的有关方法对爆破进行尽可能准确地预测,以其中的段落作为摘要的原文本。使用MMR、Textrank和BART方法分别对其文本进行信息抽取生成摘要,计算每种方法的精确率、召回率和F1-score,表为原文和三个生成的摘要。

三种方式生成的摘要如下:

文章原文如图3所示。

下面是三个模型对原文的摘要内容:

1) MMR生成摘要:

This research study utilised three ML models, namely a) Decision Tree, b) Random Forest, and c) Extreme Gradient Boost (XGB) models, to predict blast loads on rigidstructures. Various methods are used in blast load

Figure 3. Original English paper

3. 英文论文原文

prediction on structures, including experimental, semi-empirical and numerical approaches.

2) Textrank生成摘要:

The overall ML model performance evaluation showed that the best performing model, XGB, could make predictions with 98% accuracy compared to validated numerical predictions. However, a criticalgap exists in the comprehensive analysis of these ML models’ transparency and interpretability levels.

3) 优化BART生成摘要:

The effects of blast waves and their consequent damage to structures have been an increasingly popular research topic in the past decade. Various methods are used in blast load prediction on structures, including experimental, semi-empirical and numerical approaches. This paper presents a novel approach to employing explainable machine learning (XML) to predict the blast loads generated by high explosives.

将三种模型对于英文爆破文献进行摘要任务,得到的性能指标如下表1所示。

Table 1. Performance comparison of three models

1. 三种模型的性能对比

模型名称

P

R

F1-Score

MMR

98.28%

14.47%

25.22%

Textrank

97.92%

11.93%

21.27%

BART

98.51%

16.71%

28.57%

从表格中可以得到以下结论:

1) P为精确率,表示在所有被模型预测为正类的样本中,实际为正类的样本所占的比例。三个模型的精确率都非常高,接近98%,这表明三个模型在预测为正类时,大多数情况下都是正确的,错误的预测为正类很少。

2) R表示在所有实际为正类的样本中,被模型正确预测为正类的样本所占的比例,它衡量的是模型对实际正类样本的覆盖能力。相对来说三个模型的R值都较低,但BART的召回率是最高的,也会漏掉很多为正类的样本。

3) F1-score是精确率和召回率的调和平均数,综合评估模型的性能。三个模型中BART的F1-score是最高的。

由于在摘要任务中最重要的是F-Score指数,他反映了生成的摘要内容既简洁又包含关键信息,由于MMR和Textrank算法都是抽取式摘要方法,所以其生成的摘要虽然准确性都比较高,但召回率偏低,没有很好地采集到关键信息,导致F1-Score数值不高,而BART算法可以生成原文中没有的句子,并且对于爆破有关关键词权重增加,所以BART生成的摘要内容包含更多的关键信息,同时也兼顾了简洁性,不至于太过冗余。

综合以上的三个评价指标来说BART的性能是三个里面最好的,这是因为:

1) 深度学习模型,BART结合了BERT和GPT的优势,有着双向编码器,可以从前后文捕捉信息,使得模型在理解上下文的时候更加准确。BART模型是生成式模型,生成的语句更加流畅连贯,而MMR和Textrank模型则是抽取式方法,只能够按顺序地从输入文本中选择重要句子拼接成摘要,容易导致摘录的句子之间缺乏连贯性。同时BART在处理长依赖关系时,得益于多层Transformer的架构,使得模型在生成长文摘要时表现更佳,传统的MMR和Textrank模型主要基于局部的信息和图算法,不能有效地捕捉长距离。

2) BART在大量的预训练数据上进行训练,涵盖了多种语言现象和语境,使得模型在面对不同风格和主题的文本时,也能够生成高质量摘要。

3) 我们进行了对于BART进行了Fine-Tuning,让模型特有化进行英文爆破文献摘要任务,添加了相应的输出层对任务进行了单词的微调优化,将预先清洗的爆破词汇进行高权值加重,更大程度上保留了有效信息。

通过以上我们可以得出,BART模型在对于英文爆破文献摘要任务方面具有一定的适用性,性能强于传统方法,在对比试验中有比较好的效果。但还存在一定的改进空间。比如,为了提高Recall,要保证Precision的同时,提高F1-score。可以通过调整模型阈值增加数据量来实现,进行参数优化来改善性能。

5. 结论

针对国内对于爆破英文文献难以快速阅读的问题,本文提出了一种基于BART的改进网络来对其进行生成式摘要任务,通过对模型进行微调优化,得到的网络性能明显优于传统抽取式摘要网络,解决传统网络对于文章信息获取不全面,遗漏重点信息的问题,让爆破从业者可以更方便迅速获取国外爆破方面信息和知识。

参考文献

[1] 仵晓聪, 冯鑫, 蒋豪. 基于多头注意力CNN-LSTM碳排放量预测研究[J/OL]. 重庆工商大学学报(自然科学版), 2024: 1-11.
http://kns.cnki.net/kcms/detail/50.1155.N.20240606.1029.002.html, 2024-06-22.
[2] 赵晨. 改进型低功耗时钟门控电路设计及应用[D]: [硕士学位论文]. 兰州: 兰州交通大学, 2023.
[3] 朱云鹤, 刘明剑, 祝朗千, 等. SW-SAN: 基于Seq2Seq结合注意力机制与滑动窗口的车辆轨迹预测模型[J]. 现代电子技术, 2024, 47(11): 175-180.
[4] 刘桂红, 周宗润, 孟祥福. 基于Transformer和多关系图卷积网络的行人轨迹预测[J/OL]. 计算机科学与探索, 2024: 1-12.
http://kns.cnki.net/kcms/detail/11.5602.tp.20240620.1753.006.html, 2024-06-22.
[5] Mnih, V., Heess, N., Graves, A., et al. (2014) Recurrent Models of Visual Attention. Proceedings of the 27th International Conference on Neural Information Processing Systems, Volume 2, 2204-2212.
[6] Bahdanau, D., Cho, K.H. and Bengio, Y. (2015) Neural Machine Translation by Jointly Learning to Align and Translate. Computer Science.
https://doi.org/10.48550/arXiv.1409.0473
[7] Sankaran, B., Mi, H., Al-Onaizan, Y., et al. (2016) Temporal Attention Model for Neural Machine Translation.
[8] 蓝天虹, 陈丹霏, 郑源, 等. 基于BERT预训练与混合神经网络的中文语义识别算法设计[J]. 电子设计工程, 2024, 32(12): 91-95.
[9] 张钦彤, 王昱超, 王鹤羲, 等. 大语言模型微调技术的研究综述[J]. 计算机工程与应用, 2024, 60(17): 17-33.
[10] 张晓菲. 爱思唯尔学术出版集团分析与决策工具类业务发展模式研究[J]. 出版发行研究, 2023(12): 74-81.
[11] 刘东旭, 段利国, 崔娟娟, 等. 融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略[J/OL]. 计算机科学, 2024: 1-15.
http://kns.cnki.net/kcms/detail/50.1075.tp.20240527.1606.020.html, 2024-06-22.