1. 引言
国际话语权是指一个国家的主张在国际舞台和外交场合的权重与影响力[1],而科技话语权是其重要组成部分。党的二十大报告明确指出:“加快构建中国话语和中国叙事体系,讲好中国故事、传播好中国声音,展现可信、可爱、可敬的中国形象”[2]。因此,建构我国科技话语权是中国式现代化的重大课题。尤其是在对抗性话语背景下,中国国家形象与科技话语体系的建构面临着自塑与他塑的博弈[3]。主流媒体有引导舆论走向、传播主流价值的功能,在建构国家话语权方面发挥着关键作用。在成长为科技强国的同时,更需关注讲好中国科技故事,传播真正的中国科技精神,展现负责任的科技大国形象。
C919是中国科技创新的重大成果,作为中国首款按照国际通行适航标准自行研制、具有自主知识产权的喷气式中程干线客机,其研发、制造和商业化运营过程多方面体现了中国航空工业实力的新发展。
基于以上,本文采用数据驱动方式,获取China Daily上有关C919的新闻报道,使用Vader情感分析工具进行情感分析,并利用LDA主题模型分析,将众多报道进行主题分类及进一步研究分析。一方面,将数据处理、情感分析与语料库话语研究相结合,可更好地分析和量化文本数据中的观点、情感和情绪。例如郭小平(2010:8) 结合语料库数据与数据分析的方法,借用SPSS for Windows 13.0工具进行频数分析,得出西方媒体对中国建构了负面环境形象的结论[4]。且借助计算机自动分析技术对大量的实证性语言数据进行客观、系统和准确分析,避免了传统批评话语分析(CDA)中语料碎片化和主观性强(Baker et al. 2008)的劣势[5]。另一方面,LDA模型可更清晰地对各项主题进行提取、分类与探索其间关系。以此探究我国对外主流媒体科技话语报道的特点,为我国对外科技话语体系的建构提供启示。
2. 文本数据获取与处理
在我国众多报刊中,China Daily是中国最早的国家级日报,也是官方对外宣发主流媒体,China Daily最早由国务院主办、覆盖全球,用多种语言向全球读者传播中国的新闻和文化,是中国了解世界、世界了解中国的重要窗口,极具研究价值。因此,本文选取China Daily中2009年-2024年3月C919相关报道作为研究对象。
首先于China Daily主页搜索“C919”关键词,下载全部返回页面,得到待处理的基础语料。经处理后,获取时间跨度自2009中国商飞公司正式发布“COMAC919”至2024年3月10日的总计652条相关报道,正文形符数量为306,633。随后将其保存为一含有一个对象的json文件。以“C919”为键,将每条相关报道保存为平行json文件,作为列表值。列表内每条报道数据有五个键值对,键分别为新闻标题、报道来源、报道时间、新闻链接、新闻正文。
本研究执行代码均基于Python语言编写。在开始文本数据分析前,通过数据的批量预处理与人工检查对语料进行了降噪、去重。为保证整篇报道聚焦C919主题、避免主题分散,在部分多主题综合报道去掉了一些无关内容,如简报:http://www.chinadaily.com.cn/cndy/2010-11/23/content_11593018.htm等;会讯:http://usa.chinadaily.com.cn/weekly/2012-03/02/content_14736542.htm等。此外还去掉了一些仅提及C919而与C919总体关系不大的全文引用类报道,如政府工作报告(http://europe.chinadaily.com.cn/china/2016-03/17/content_23929093.htm)、国民经济和社会发展报告(http://europe.chinadaily.com.cn/china/2016-03/18/content_23956824.htm)、长篇评论如:New journey begins for HK youths to realize the Chinese Dream (http://www.chinadaily.com.cn/hkedition/2017-11/09/content_34307829.htm)等。还去除了语料中多余空白(包括多余空格、制表符等)与一些无用重复内容。
运用Python中的spacy自然语言处理(NLP)包中的英文语言模型,对语料进行读取,并创建文本处理管道pipeline,对语料进行分词、词性标注与归并、去除标点、转小写、过滤特殊字符、过滤停用词等预处理操作,使文本数据尽可能达到最易处理与分析的效果,以便于后面的文本数据情感分析与主题提取分析。
3. 文本数据情感分析
3.1. 工具介绍
文本情感分析(sentiment analysis),亦称意见挖掘(opinion mining),指分析、处理、归纳和推理具有情感色彩的主观性文本,可根据处理文本的粒度和类别不同分别划分为不同的研究层次和类型。前者将情感分析划分为词语级、短语级、句子级、篇章级以及多篇章级的多层研究,后者则将其归为基于新闻评论的情感分析和基于产品评论的情感分析两类[6]。
本文基于Vader (Valence-Aware Dictionary and Threaction Reasoner)工具对China Daily有关C919的报道进行情感分析。Vader是基于简约规则的社交媒体文本情感分析模型,它基于词库和语法规则对文本进行情感识别、基于词典和规则进行情感分析[7]。在Vader中,可用“neg”、“pos”、“neu”来说明各类别文本所占比例。具体来说,即用“neg”表示消极情绪,“pos”表示积极情绪,“neu”表示中性情绪;也可采用复合分数compound来总结文本的情绪强度、表示情感状况,其取值范围为−1至+1,分别表示最消极和最积极的情感倾向。一般来说,当compound ≥ 0.05时表现为积极情绪;当compound > −0.05且compound < 0.05时,表现为中立情绪;当compound ≤ −0.05时为消极情绪。
3.2. 概况描述
对处理后数据就其新闻标题、正文及情感积极性时间序列进行分析。
3.2.1. 新闻标题与正文情感分析
据表1中对数据中新闻标题情感分析结果可知,在全部标题数据中,中位数的情感分析值为0,说明了此部分新闻标题总体表现为客观性较强。平均值为0.102212 (>0.05),四分位数的情感分析值为0.202300,表明整体上有较小的积极性情感倾向。标准差为0.223998,大于平均数,说明该组数据离散性较大,即标题中存在情感倾向极积极或极消极的数据。该组数据最小值为−0.76500,为情感倾向最消极的标题;最大值为0.859100,积极性较强,印证了上述猜想。
Table 1. Title sentiment analysis results
表1. 标题情感分析结果
Datatype |
Date |
count |
652.000000 |
mean |
0.102212 |
median |
0.0 |
std |
0.223998 |
min |
−0.765000 |
25% |
0.000000 |
50% |
0.000000 |
75% |
0.202300 |
max |
0.859100 |
Table 2. Text sentiment analysis results
表2. 正文情感分析结果
Datatype |
Data |
count |
652.000000 |
mean |
0.768197 |
median |
0.96065 |
std |
0.384885 |
min |
−0.997700 |
25% |
0.732925 |
50% |
0.960650 |
75% |
0.992400 |
max |
1.000000 |
由表2中对新闻正文情感分析结果可得,全部数据中,中位数为0.96065 (>0.05),体现了极强的积极性情感倾向。平均值为0.768197,四分位数的情感分析值为0.992400,已近乎达到极值1,因此,充分说明了大部分新闻正文有着非常强烈的积极性情感。其中,数据情感分析的最大值甚至达到了1,说明全部的新闻正文数据中存在完全正面、主观的评价;而数据情感分析的最小值为−0.99770,说明在这些新闻正文数据中,也存在情感倾向极为消极的内容。此部分数据结果与上述标题中的情感分析形成了鲜明强烈的对比,尽管新闻标题表现地较为客观、情感克制,但在新闻报道的具体正文中却不再压抑激动骄傲的心情,大幅赞扬国产C919的瞩目成就,为我国伟大的科技进步喝彩。
图1为C919报道标题情感分析积极性箱线图,直观地反映了数据的异常值和离散情况,以了解数据分布状况,其中超出最大或最小观察值的异常值以“圆点”的形式表示。由该图可观察到较多超出上边缘和下边缘的“圆点”,其中前者更为密集,且前者最高点的绝对值大于后者最低点的绝对值,说明样本数据中尽管有一些消极性数据,但也存在更多情感倾向偏向积极的报道,且积极性极高,消极性相对来说较小。
Figure 1. C919 report title sentiment analysis positivity box diagram
图1. C919报道标题情感分析积极性箱线图
图2为C919报道正文情感分析积极性箱线图。由该图可见主体数据分布于0.75~1之间,呈现出极高的情感积极性倾向,其异常值都分散在下边缘以下,且在0~0.26之间的数值非常密集,−0.50~−1.00间的异常值零散分布,说明了关于正文的报道中,情感积极性大都很高,仅有少部分积极性较低和极少部分消极的内容。
Figure 2. C919 report text sentiment analysis positivity box diagram
图2. C919报道正文情感分析积极性箱线图
图3为C919报道标题情感分析积极性柱状图,该图中数据集中分布于0~0.1250,0.25~0.75之间,且为约0~0.125的数值数量最多,约为450个;最大值约为0.85,最小值约为−0.60。由以上数据可得数据在客观的基础上有着少量积极性情感倾向,消极性数据少。
Figure 3. C919 report title sentiment analysis positivity bar chart
图3. C919报道标题情感分析积极性柱状图
Figure 4. C919 report text sentiment analysis positivity bar chart
图4. C919报道正文情感分析积极性柱状图
图4为C919报道正文情感分析积极性柱状图,数据集中分布于0~0.80之间,且在0.75~0.80之间达到峰值,说明此部分数据分布较多,且大部分数据都有着较高甚至极高的积极性情感倾向。而在情感分析积极性值为0.00附近也有较多数据分布,揭示了还是有不少报道正文内容较为客观、只略微表现为积极。此外,在情感积极性为0以下时,也可观察到少量数据的存在,例如−0.75~−0.55之间的小部分数据连续分布,说明正文内容中虽然也存在少量的负面评价,但消极性相对还是较小。
综合以上数据分析可知,China Daily中关于C919的报道的新闻在标题上整体表现为客观性较强,在此基础上存在着较小的积极性情感,总体来说情感较为克制,体现了新闻工作者所追求的“中立客观”原则,以此展现新闻对真相陈述的纪实性。而报道的正文却大部分表现为积极的情感倾向,甚至出现了情感分析值接近于1的极积性内容,当然,其中也包含部分客观数据;以上说明了在China Daily中,新闻工作者对该科技成就给予极高的正面评价,在科技外宣时,难掩作为国人激动喜悦、骄傲自豪的心情,这体现了国人的文化自信和民族自豪感,这种积极情绪无疑也是新闻界踊跃为我国科技话语体系构建的体现,为我国科技外宣之路铺下坚实的基石。然而,在新闻标题和正文内容中也存在少量带有极为负面消极情感的报道,其中不乏对我国科技现状的一些反思和深入思考,这一部分体现了谦逊务实的态度,启示我国科技的下一步进展。
3.2.2. 情感积极性时间序列分析
Figure 5. C919 report title sentimental positivity time series analysis
图5. C919报道标题情感积极性时间序列分析
Figure 6. C919 report content sentimental positivity time series analysis
图6. C919报道正文情感积极性时间序列分析
时间序列亦称动态序列,可以持续反映某一事物现象的变化发展状态,揭示其发展趋势和规律。
图5和图6分别是C919报道的标题和正文的情感积极性时间序列分析,对比两图可得,两者均呈现不规则变动,且出现情感倾向的年份都集中分布于2017~2021年,2023年,2024年,以及在2011~2014年间也有零散分布。该情感分布时间序列变化与C919研发历程息息相关。其中,2010年前后China Daily中有关C919的新闻报道较少。自2011年C919通过国家初步设计审核起经历了一系列发展,因此2011-2014年有关C919的报道逐渐增多,但图5和图6中情感积极性分析值在此时既有大于0的数据,也存在小于0的数据,说明了此时报道的情感倾向既有积极响应支持C919的内容,也有唱衰国产大飞机发展的消极因素。
2017年C919首飞引发一波关注,特别是自2018年起,C919发展进程加速顺利进行,因此图中显示出现了关注密集期,且情感积极性分析值在0以上的数据明显增多,说明了积极性情感倾向的增加,但在2019年两图中都出现了小于0的极小值,其中,标题情感积极性在2019年底约为−0.8,正文情感积极性此时更是达到了−1,本文推测此时由于新冠疫情的爆发,人们对未来呈现迷茫消极的情绪,认为科技发展的前景也不再明朗。然而,2023年5月28日C919交付东航成功进行了商业首飞,此次时间节点前后再次引发热切关注,且图5和图6中显示该时段关于C919的新闻报道标题和正文的情感分析值大多数在0以上,表明了积极的情感倾向,说明了国家主流媒体对C919未来发展前景的看好。2024年2月,国产单通道客机C919在新加坡航展开幕当天收获西藏航空的40架新订单,专家表示C919国际航展首秀标志着该机型正式进入全球民用飞机市场,因此在2024年2、3月引起一波热议;此时大部分数据显示积极性情感倾向更强,但也有少数极消极情感的评论出现。当然,在这些新闻报道中,无论是追踪标题还是正文、进行情感分析,其积极性值都有多处数值为0的,说明了新闻报道的客观性。
4. 文本数据主题建模
4.1. LDA模型概述
LDA (Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,即一篇文章的每个词均为通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”的过程得到的。
LDA模型是目前应用最广泛的无监督学习式主题模型,随着海量数据的涌现和对研究中探索相关性关系的支持,越来越多的社会科学研究者开始采用LDA主题模型进行相关领域的探索性研究[8]。因为LDA主题提取的结果通常更容易解释,而且有很多工具可以帮助我们调整和解释LDA模型,本文也采用了LDA主题模型对China Daily关于C919的相关报道进行主题分析。
4.2. 主题提取
读取爬获的json数据,进行归一化(normalization)处理,减少部分噪声,并对数据中部分专有名词进行转换以避免不必要分词。随后进行文本预处理操作:首先引入en_core_web_sm英文语言模型,帮助预测语言特征;其次,利用spacy自然语言处理(NLP)包创建文本处理管道(pipeline),该管道可实现分词、词性标注与归并、去除标点、转小写、过滤特殊字符、过滤停用词等操作一体化。以下为部分操作:
(1) 分词(token.text),即将句子、段落、文章这种长文本,分解成以字词为单位的数据结构,方便后续处理分析工作;
(2) 词形还原(token.lemma),将字词还原为词元形式,既去掉词缀,提取单词的主干部分,一般还原后的词为字典中的单词,spacy的词性还原操作还可以还原小写形式;
(3) 过滤特殊字符,如去除标点、多余空格等,可进一步降低文本数据噪声;
(4) 过滤停用词。这里我们先生成spacy内置英文停用词表,再根据该表遍历数据中已被处理过的各个字词,去除其中的停用词。至此可以说完成了基本的文本数据预处理工作。
在对预处理后文本进行词汇向量化转换(CountVectorizer)后,即可使用LDA方法建模(Latent Dirichlet Allocation,LDA)训练,并找出最佳主题模型了。并且查看了该模型的学习衰减值,对数似然值和困惑度值。对数似然值(Log Likelihood Score)和困惑度值(Perplexity)是用于评估主题模型质量的指标。对数似然衡量模型对数据的拟合优度,值越高表示拟合越好。困惑度衡量模型预测新数据的能力,值越低表示预测能力越好。本次研究中算法找到的最优学习衰减值为0.5,此时,对数似然值为负值,这是预期的,并且perplexlty值相对较高,约为1355.04。这表明该模型可能不是最适合数据的模型,且可能没有很强的预测能力。但需要注意的是,这些指标不应是评估主题模型时考虑的唯一因素,还需要进一步分析和调整超参数以提高模型的性能。再调整后,使用该模型将文档集中每篇文档的主题分析后以概率分布的形式给出,根据主题分布进行主题聚类或文本分类。最终通过该模型得出了doc_topic_dists和topic_term_dists两个条件概率矩阵,通过此将模型可视化并进一步分析。
4.3. 结果与分析
pyLDAvis是目前最主流的主题模型可视化工具。这里使用pyLDAvis对主题进行可视化(图7)。图左侧气泡越大表明该主题在整个语料中所占的比例越高,而气泡之间的距离即代表主题之间的距离。图右侧的条形图代表的是最能够解释该主题的特征词列表,通过总结这些词汇表达的意义,我们就可以归纳出该主题的意义,进而可以为该主题添加适当标签。
Figure 7. China Daily report theme extraction analysis
图7. China Daily报道主题提取分析
我们对此数据图进行了初步观察分析发现,五个气泡大小差别不是很大,且互相并无重叠,说明五个主题都占有一定的比重,而且都有较高的独特性和可解释性。此外,我们发现Topic1与Topic2的距离较近,占比也较大,说明了这两个主题的相关性较强,并且对整个语料的表达性也较显著。从图右的特征词列表中我们发现,“China”标签在各个主题的占比都位居前列,且各主题中还频繁出现如“Chinese”、“national”、“country”等标签,体现出我国主流媒体在对外宣传中强烈的国家意识表达。而且除了“C919”、“aircraft”等一些与C919国产大飞机本身宣传有关的词外,还有一些“development”、“innovation”等经济相关词汇,由此可知对外主流媒体在进行科技外宣时不仅凸显我国最新科技成果,也涉及其发展过程、创新之处及其对经济发展、综合实力增强做出的贡献,可见其涵盖范围之广泛性和宣传之充分性。
此外,Topic4与Topic5与其他气泡距离较大,表明就我国主流媒体关于C919对外宣传来看,其主要宣传内容主要还是围绕大飞机本身的制造、研发展开,并多与制度、市场共同论述。而可能有部分专题性报道会单独关注其中的制度优势,或重点关注C919的研发技术。
据主题提取结果我们将主题进行了大体框架归纳(表3)。框架特征不仅局限于大飞机领域,而且关切到“制度优势”“国家投入”,体现了“用中国理论阐释中国实践,用中国实践升华中国理论,更加鲜明地展现中国思想,更加响亮地提出中国主张”的新时代中国特色宣传思想,将中国话语融入了科技宣传中[9]。
Table 3. China Daily reports LDA subject extraction
表3. China Daily报道LDA主题提取
主题 (Topic) |
框架 (Interpretation) |
特征词(Members) |
1 |
航空市场 |
Aircraft c919 China flight test passenger commercial aviation large shanghai comac jet industry plane year developaccord maiden design airport |
2 |
飞机制造 |
China aircraft aviation c919 market boeing comac Chinese company year jet airbus commercial industry order passenger international plane large new manufacturing |
3 |
制度优势 |
ChinacompanyChineseyeardevelopmentmarketbusiness worldcountry xiresearchindustryglobalgepartyproductmanufacturingpercent growthsystem |
4 |
飞机研发 |
Chinadevelopmenthightechnologyyearcountryinnovationworld newindustrial percentnationalresearchsciencetechnologicalyuantechspace scientific industry |
5 |
国家投入 |
people China party Chinese country development new system work xi great develop improve national build year strengthen reform political strong |
5. 讨论与启示
通过以上分析,可得知China Daily中C919相关报道的主题选取上,注重C919的研发过程、技术和成果宣传,强调国家意识形态,与中国特色社会主义的制度优势相结合,积极设置有利于中国科技强国形象塑造的话题,体现制度和文化优势。
结合其情感倾向的动态变化及随时间发展的大致轮廓,可知对外主流媒体对于C919的主要相关事件关注度高,宣传充分。自2009中国商飞公司正式发布“COMAC919”起,China Daily中对于C919议题的相关报道热度整体保持较高水平,报道数量较多。且历时性研究表明,其关于C919的讨论呈现出不均衡特征,具有数个不等峰值,特别是在标志性事件前后的集中热烈讨论。如2023年5月28日C919交付东航成功进行了商业首飞,在该时间点前后达到一次关注高峰。此类波动趋势表明了对外主流媒体对于我国科技重大成果的关注度与特定事件的发生密切关联,从而显示了C919相关议题在我国科技外宣中的动态引导作用和显著影响力。
基于以上分析,为切实推进我国对外科技话语体系的构建,对外主流媒体应特别关注重大科技成果事件发生的时间节点前后的外宣工作和舆论引导,考虑积极设置话题,及时回应外部关切;坚定民族自信进行积极正面的宣传,将科技成果与政治制度优势相结合,建构中国特色科技话语体系。
6. 结语
本文深入探讨了我国对外主流媒体在建构科技话语体系、掌握科技话语权方面所发挥的关键作用,以C919报道为例对其数据进行情感分析和主题提取,得知其情感倾向和主题选取上的特点,并针对此提出今后议题宣传中的策略,以期有所启示:注重将科技成就与中国特色社会主义制度和国家意识形态相结合,坚定文化自信,客观真实地呈现出过硬科技本领,注重舆论引导,从而有助于建构起具有中国特色的对外科技话语体系。
基金项目
2023年度大学生创新创业训练计划项目,项目名称:基于文本数据分析的中国特色对外科技话语体系建构研究(XJ202358)。