1. 引言
语言是一种特殊的社会现象,是表征社会的一种形式。社会性作为语言的本质属性,使得其形成、发展、消亡都取决于社会意志和社会需要。在一定的社会群体中,其代表性语言载体能较为充分表征社会的现状、发展及变化。中国共产党是中国特色社会主义事业的领导核心,每五年一次的党的全国代表大会是党和政府工作的航标。大会所作报告作为典型的政治语篇,具有权威性、指导性和纲领性。语言系统中变化最快、最明显的是词汇。本研究基于语料库工具技术,从词汇入手,对中国共产党十八大报告《坚定不移沿着中国特色社会主义道路前进 为全面建成小康社会而奋斗》和十九大报告《决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利》做比较研究,并尝试结合语言使用与社会发展的共变关系及规律对其进行简单说明。
2. 比较“十八大报告”和“十九大报告”词表的异同
本文以从中国共产党历次全国代表大会数据库(http://cpc.people.com.cn/)获得的两次报告内容为语料,在对其进行整理和筛选的基础上,综合CorpusWordParser和AntConc两个软件的分词成果,人工梳理得出最终分词结果1。接着使用Python语言,对原始数据按空格进行切割(str.split),并去除标点符号类的词,然后将词作为键,出现次数作为值,构建一个字典数据结构(dict),遍历所有的词,对每个词的键所对应的值进行自增操作,得到一个完整的词频统计字典。由于字典的无序属性,我们需要重新对字典按值进行排序,得到有序元组列表数据结构(tuplelist)。最后遍历有序元组列表,逐行以英文逗号分隔分别输出“词”“频数”“频率”,得到一个csv格式的文件并导入excel,形成两份报告各自的专属词表。
经统计,十八大报告全文词语数为13529,词种数为2530;十九大报告全文词语数为15404,词种数为3023。借助筛选,我们得到二者相同的词有1771个,例如“的”“和”“发展”“建设”“党”“中国”“社会主义”“人民”“坚持”“是”“社会”“特色”“在”“国家”“要”“制度”“文化”“新”“全面”“推进”等。十八大独有词759个,例如“有利于”“单位”“党建”“十年”“反腐倡廉”“热爱”“借鉴”“调解”“关乎”“台阶”等。十九大独有词1252个,例如“中国梦”“梦想”“本领”“脱贫”“文艺”“决胜”“激励”“能够”“初心”“一流”“一带一路”“共建”“抓”“底线”“攻坚战”等。
3. 两份报告高频词比较及其差异显著性调查
我们利用excel,对两份报告的高频词进行比较,发现了一些共性和差异。
(一) 高频词比较与透析
如图1所示,从内容上看,十九大报告和十八大报告高频前十位的词是完全一致的,可以在一定程度上反映出,党始终把“发展”摆在重要位置,强调“建设”的行动力,从国家的大局出发,始终将“人民”作为首要关注,“坚持”“社会主义”发展道路不动摇。此外,具有主体性义项的词“党”“中国”“人民”等词频在十九大报告中要普遍高于十八大报告,也在一定程度上反映和体现了党的执政理念,表明了党执政的宗旨、目的和价值追求。

Figure 1. Comparison of high-frequency words in the reports of the 18th and 19th National Congress of the
Communist Party of China
图1. 十八大报告与十九大报告高频词比较
从数据上看,数据的变化能够体现出党执政能力的不断提高和结构的不断优化。比如“党”一词在十八大报告中排第6位,在十九大报告中排第3位,频数也增加了近一倍,可以在一定程度上反映出党领导地位和领导能力的强化;再如“伟大”一词在十八大报告中排第88位,在十九大报告中排第22位,得益于“新时代中国共产党的历史使命”一章中“伟大斗争、伟大工程、伟大事业、伟大梦想”的提出,用使命凝心聚力中国梦;还有“国家”一词在十八大报告中排第26位,在十九大报告中排第11位;“中华民族”一词在十八大报告中排第130位,在十九大报告中排第42位等。
(二) 高频共现词spss差异显著性调查
我们以两份报告的共用词在各自文件中的频率为基础,取两者平均值从高到低排序,取前50词。接着计算出这些词在各自报告中每万字的“频率”作为“共现词频率”的数据进行“独立样本T检验” [1]。组别1是十八大报告的数据,组别2是十九大报告的数据,统计结果如图2所示。
从图中我们可以看到T检验分组统计的结果:十八大报告和十九大报告这50个词的平均词频分别为每万字约为64.60和63.37,标准偏差约为63.07和68.55。独立样本T检验结果:方差齐性检验的F = 0.010,显著性为0.920,大于0.05的显著性水平,取“共现词频率”一栏第一行的方差齐性检验结果进行推断,t = 0.093,双尾检验相伴概率Sig = 0.926,大于0.05的显著性水平,说明两个样本之间不存在显著性差异,即两个样本所代表的“十八大报告”与“十九大报告”共现词的词频没有显著差异,其差异不具有统计学上的显著意义,这也在一定程度上反映出二者是一脉相承的。

Figure 2. Independent sample T test of high-frequency co-occurrence words in the reports of the 18th and 19th National Congress of the Communist Party of China
图2. 十八大报告与十九大报告高频共现词独立样本T检验
4. 两份报告主题词的比较与透析
主题词的提取原理是通过对比一个连续的整篇文本和一个更大的参照语料库,把文本中词频具有显著差异的词语提取出来,生成一个主题词表。因此,统计主题词需要建立两个语料库 [2],一是观察语料库,二是参照语料库。在本研究中,我们分别进行两份报告的主题词提取。一是以十八大报告作为观察语料库(总字数26,164),十二大到十九大报告(除去十八大报告)作为参照语料库(总字数170,215);二是以十九大报告作为观察语料库(总字数29,267),十二大到十八大报告作为参照语料库(总字数167,112)。
通过AntConc的Keywordlist功能,我们得到十八大报告主题词共20个,十九大报告主题词49个。部分如图3所示。

Figure 3. Comparison of keywords in the reports of the 18th and 19th National Congress of the Communist Party of China图3. 十八大报告与十九大报告主题词比较
借助筛选,我们得到二者共有的主题词有5个,其主题性(Keyness (LL4))如图4所示:

Figure 4. Keyness comparison of keywords in the reports of the 18th and 19th National Congress of the Communist Party of China
图4. 十八大报告与十九大报告共有主题词的主题性比较
以此数据为基点,通过索引并查看其前后语境,我们发现,共有的主题词可以反映出十八大以来,党对各类体系建设、生态建设以及创新方面重视的延续性;“推动”主题性的减少主要表现推动格局的提高和结构的优化;“全面”主题性的增加主要表现在随着综合国力的提升,国家把各项建设推向纵深发展的布局更加完整、周密、具体,尤其表现在“四个全面”战略布局的提出。
当然,主题词的差异也体现得非常明显,如图5所示:

Figure 5. The unique keywords of the report of the 18th CPC national congress and the unique keywords of the report of the19th CPC national congress
图5. 十八大报告与十九大报告独有主题词
从这些差异中我们可以看到,十八大报告相对于改革开放以来召开的历次党的全国代表大会报告,有更多的继承性,主题词数量相对较少,而十九大报告则具有更多的开创性,其主题词中的许多词都是新提出的,例如“中国梦”是习近平总书记2012年11月29日在国家博物馆参观“复兴之路”展览时首次阐释的;“本领”一词在十八大报告并未述及,而党的十九大报告则把“执政本领”单列提出,阐明了“全面增强执政本领”的必然性并立足八个方面阐发了“本领”的具体意涵;“一带一路”是习近平总书记于2013年9月、10月分别提出的“丝绸之路经济带”和“21世纪海上丝绸之路”国家级顶层合作倡议的简称。
5. 结语
语言与社会必然联系在一起,词汇作为语言的一个重要组成部分,对经济、社会的发展变化反应最敏感、最直接,具有灵活性和动态性 [3]。党的全国代表大会报告是党中央精神传达、决策部署的集中体现,借助语料库分析工具,我们可以从词频、主题词等角度,用数据的相似相异感知党的性质、宗旨、执政理念,感受党中央对党和国家各项事业既一脉相承又与时俱进的匠心布局,感悟变局中不断破局所需要的眼力、脑力、定力、动力、魄力。从词汇管窥语言呈现的规律性特点,为我们更科学地了解语言、社会及其共变,提供了重要的依据。
NOTES
1不同软件、不同方法所得的分词结果存在差异,但大体趋势和相对数据无明显区别。