1. 引言
安多方言(Amdo Dialect)是我国境内藏语三大方言之一,属于汉藏语系中的藏缅语族藏语支,保留了众多古藏语的特征,主要分布在青海的玉树藏族自治州、果洛蒙古族自治州、黄南藏族自治州、海北藏族自治州、海南藏族自治州、海西蒙古族藏族自治州、海东市的部分地区;甘肃的甘南藏族自治州、天祝县、肃南裕固族自治县等;四川的甘孜藏族自治州、阿坝藏族羌族自治州的部分地区。安多方言是藏语三大方言中最古老的方言,具有无声调、复辅音较多等特点,其方言内部可以划分为北部方言区和南部方言区,各方言区又可细分为农区、牧区和半农半牧区1。近十年来,国内学者不仅加强了对安多方言发展演变的研究,也注重融入新的手段和语言学研究方法,开始投身于藏语数据库的探索研究,青海师范大学省部共建藏语智能信息处理及应用国家重点实验室,于2024年5月已初步建成600TF算力的智算平台和面向多领域多用途的大规模藏语数据资源库。近年来,随着交叉学科的不断发展,安多方言也与其它学科紧密结合,通过现代化手段产生了许多新成果,如语音合成、语音识别等。
基于以上背景,本文基于CNKI数据库中安多方言现有的研究成果为主,利用可视化软件Citespace对近十年的数据进行分析梳理,总结安多方言的研究热点问题,并提出未来发展趋势。
2. 数据来源与研究方法
2.1. 数据来源
本研究以CNKI为主要平台,检索范围为2014年1月1日~2024年12月31日间关键词为“安多方言”的相关文章,选取的标准为g-index (k = 25),共检索出113篇文章。经过筛选整理检索出的文章,删除与研究内容无关、价值较低以及相关性较低的文章后,共计有效性文章42篇,其中期刊19篇(参考文献[1]-[19]),博士论文1篇(参考文献[20]),硕士论文21篇(参考文献[21]-[41]),科技成果类1篇([42])。
2.2. 研究方法
Citespace是一款用于科学文献分析的可视化工具,它由美国德雷塞尔大学信息科学与技术学院的陈超美教授开发,旨在以可视化图谱为核心,通过分析文献数据,帮助研究者识别研究领域的热点、趋势及知识结构,从而广泛运用于交叉学科。其中包括关键词共现分析、时间线与时区视图、聚类分析等,目前已成为研究者们常用的图谱分析工具之一。因此,本文以CNKI数据库为来源,通过Citespace软件,对筛选出的42篇文章通过关键词共线、发文量等方面进行分析,揭示安多方言的研究趋势以及预测未来发展热点。
3. 研究热点与数据分析
3.1. 发文趋势
通过对CNKI数据库中藏语三大方言(安多方言、卫藏方言、康方言)的发文量进行对比,得到图1。其中对安多方言的研究文献最早出现于1982年,为西北民族大学学报中华侃的《安多方言复辅音声母和辅音韵尾的演变情况》。2014年至今,三大方言的发文数量均有所上升,其中安多方言在2016~2019年发文数量总体下降,2020年有所回升,而卫藏方言以及康方言的发文量近十年也相对较少。由此可见,藏语三大方言的研究领域相对空白,而对于阻碍其研究的影响因素有很多,例如三大方言区地理纵深度广,内部分区的散落分布对收集方言语料有一定影响。安多方言以无声调、保留古藏语特点多等因素成为了研究者所青睐的对象,但其内部演变规律难以掌握等也阻碍了对于安多方言深入的研究。
Figure 1. Overall trend of postings in the three major dialects of Tibetan (2014~2024)
图1. 藏语三大方言发文量总体趋势图(2014年~2024年)
3.2. 发文趋势
对从CNKI数据库中导出的42篇筛选过的文章进行关键词分析、时间线分析、聚类分析,旨在掌握并了解该领域的研究现状及核心议题。
3.2.1. 关键词分析
关键词是一篇文章的主题,可以通过凝练高度重复的词,掌握各个时间段的研究重点。本文通过运行Citespace软件对所选数据进行共现分析,共得到111个节点,239条连线,如图2所示。其中关键词为节点,连线数量则表示关键词共现的频数。由此得出,出现频率在前三的关键词有安多方言、元音、藏语安多方言,分别出现14次、7次和6次,中心性分别为0.81、0.33、0.29,与之有共现关系的词有语音、词汇、语法、元音等。这一分布特征表明,安多方言的研究重点聚焦于对其本身语音及语法特性的应用。
Figure 2. Frequency diagram of co-occurring keywords in Ando dialect texts
图2. 安多方言发文关键词共现词频图
3.2.2. 关键词聚类分析
Citespace通过多种聚类算法,通过LLR、Q值和S值等将关键词进行聚类,形成聚类标签,以聚类中出现频次最高或中心性最强的关键词为中心。基于以上关键词,共得到6个聚类标签,如图3所示,分别为:#0安多方言,#1元音,#2ctc,#3藏语安多方言,#4藏语,#5词汇,得到的聚类图Q值是0.7678,为有效聚类。
Figure 3. Keyword clustering results of Ando dialect
图3. 安多方言关键词聚类结果
依据此聚类图得到聚类数据分析表,即表1,可以发现近年来以藏语安多方言为核心,围绕安多方言,辐射至其它方言分支,延伸至元音等的发音变化,涉及语音识别、端到端模型、词汇语法等维度,形成“方言本体研究 + 现代技术应用”的双重路径。其中将传统语言学与CTC以及深度神经网络结合,也反映了交叉学科相互融合的研究趋势。
Table 1. Data analysis table of clustering data of Ando dialect
表1. 安多方言聚类数据分析表
编号 |
聚类标签 |
节点数 |
平均轮廓值 |
LLR关键词 |
#0 |
安多方言 |
21 |
0.914 |
卫藏方言、安多方言、数据集 |
#1 |
元音 |
13 |
1 |
元音、半农半牧区话、辅音、牧区话、字形 |
#2 |
CTC |
13 |
0.878 |
CTC、dnn-hnm、深度学习、语音识别、特征提取 |
#3 |
藏语安多方言 |
11 |
0.922 |
藏语安多方言、非自回归、
民族文化发展、差异、汉语青海方言 |
#4 |
藏语 |
11 |
0.97 |
藏语、夏河话、SAMPA、声调、机读音标 |
#5 |
词汇 |
10 |
0.899 |
词汇、语法、藏语阿坝话、描写、语音 |
3.2.3. 发文机构
通过分析研究机构可以得出对安多方言研究的地理分布,基于42篇文献样本,统计了其发文数量靠前的8家单位及其所属地区,其结果如表2所示。发文第一的机构为西北民族大学,其为中华人民共和国成立后创建的第一所民族高等学府,隶属于国家民委,是国家民委与教育部、国家民委与甘肃省人民政府共建院校,具有地理优势以及民族语言的研究传统,为收集安多方言语料提供了便利。从下表中可以看出,目前研究安多方言多以地区优势为主,研究机构多分布于西北地区的高校,都具有交叉学科的特点,同时也反映出跨区域学术协同仍有缺失。
Table 2. Units and regions of the Amdo dialect’s text volume
表2. 安多方言发文量所属单位及地区
序号 |
机构 |
发文数量 |
所属地区 |
1 |
西北民族大学 |
11 |
甘肃省兰州市 |
2 |
西北师范大学 |
6 |
甘肃省兰州市 |
3 |
天津大学智能与计算学部 |
3 |
天津市 |
4 |
西藏大学 |
3 |
西藏自治区 |
5 |
四川音乐学院作曲系 |
2 |
四川省成都市 |
6 |
青海民族大学 |
2 |
青海省西宁市 |
7 |
青海民族大学人工智能应用技术国家民委重点实验室 |
2 |
青海省西宁市 |
8 |
青海民族大学国家民委重点人工智能应用技术实验室 |
2 |
青海省西宁市 |
3.2.4. 关键词时间分布
图4为关键词的时间分布线性图谱,该图反映了藏语安多方言的研究趋势。时间轴以2014、2015、2020和2024为时间节点分布,实线呈现的为关键词出现的时间,虚线则表示未出现。
Figure 4. Linear plot of keyword time distribution
图4. 关键词时间分布线性图
根据该图谱,结合年份进行分析,可得出以下结论:
1) 2014年~2015年,以安多方言为对象的研究开始进行。早在1982年西北民族大学学报(哲学社会科学版)中就第一次出现了“安多方言”,华侃的《安多方言复辅音声母和辅音韵尾的演变情况》[43],从语音的演变中展开了研究。2014年以青海洛藏数码科技有限公司推出的科技成果《安多方言点读笔的研发、生产和推广应用》[42]推动了安多方言现代化的研究。在这个时间段里,研究者聚焦于安多方言的本体研究,如声、韵、调以及词汇等。
2) 2015年~2020年,以安多方言为中心延伸至其它交叉领域,魏晓兰《四川原生态藏族民歌艺术特征的差异化比较研究——以康巴、安多、嘉戎方言地区为例》[2],将方言本身与艺术结合进行分析,通过其风格特征让读者体会其艺术价值。随着现代学科的不断发展,从最初的单独学科逐渐过渡为交叉学科的布局,在前沿和交叉学科领域培养新的出发点,2017年《统筹推进世界一流大学和一流学科建设实施办法(暂行)》提出了要突出学科交叉融合和协同创新,打破传统学科之间的壁垒,加强学科间的交流。基于此背景,语音合成、语料库、语音识别研究开始兴起,基于安多方言的本体研究,融入计算语言学、人工智能、认知科学等,促进了安多方言的学习与发展。
3) 2020年~2024年,研究内容逐步细化,其方法逐渐革新。将安多方言的区域进一步细化,分为牧区话、农区话、半农半牧话[23],完善语料库建设,为安多方言的研究提供数据,语言学 + 语音技术实现了方言的数字化留存,结合声学分析和机器学习,使其分析精度逐渐提升,数据来源可信度更高,覆盖范围更广泛,成为研究者们所青睐的方式。
3.2.5. 关键词突现分析
Citespace基于Kleinberg突变检测算法对关键词进行突现分析,提取到一段时间内的研究热点主题和前沿方向。通过对安多方言关键词进行突现分析,并统计突现强度为前11的关键词,如图5所示。数据切片时间为2014年至2024年。突现强度为前3的关键词为:民歌(1.48)、藏族(1.48)和辅音(1.11),且活跃时间集中于2014年~2018年。
Figure 5. Map of the intensity of keyword emergence in Ando dialect (2014~2024)
图5. 安多方言关键词突现强度图(2014~2024)
以突现时间来看,2014年至2018年都以安多方言的本体研究为核心,聚焦于音系结构、语言系属,研究者较少将学科之间联系起来,呈现单一学科的研究特点。从2018年开始研究热点开始逐渐转变,语音识别等技术开始被研究者们纳入研究视域中,基于2017年“新文科”建设推动学科交叉融合的背景下,语言学开始与计算机学科交叉,形成学科间的互联,直至2018年开始出现,“语音识别”突现强度为0.69,为该时段的研究热点话题,研究者对该领域关注度显著提升,且超声、EGG电子声门仪器的介入也为安多方言的深入研究提供了新的视角,而人工智能也将在方言保护与发展中发挥巨大优势。
4. 总结与展望
本文基于Citespace可视化计量工具,对CNKI数据库中2014年~2024年间国内以安多方言为研究对象的文献进行梳理分析,经过筛选以42篇有效样本为对象,从发文趋势、关键词共线、研究机构分布、时间分布图谱、关键词突现等方面进行分析研究,为安多方言研究的系统化提供了数据支撑。揭示了该领域的研究热点及其发展趋势。
安多方言属于汉藏语系藏缅语族藏语支,具有无声调的特征。目前安多方言内部次方言是瞿霭堂划分的,他将安多方言划分为牧区土语(青海省各藏族自治州、四川省阿坝藏族羌族自治州部分地方)、农区土语(青海省化隆回族自治县、循化撒拉族自治县、乐都县部分地方)、半农半牧区士语(青海省黄南藏族自治州同仁县、甘肃省甘南藏族自治州夏河县)、道孚士语(四川省甘孜藏族自治州道孚县、炉霍县)四个次方言[44]。
通过分析可发现,安多方言的研究热点大多还停留在其本体阶段,以语音、词汇、语法为主,其中元音和辅音的出现频率较高。2018年开始,该领域研究热点发生转变,逐渐与计算机学科交叉融合,通过时间线的分析,研究发展从单一学科转向多学科协同发展,2014年至2018年以安多方言本体研究为主,2018年后随着语音合成、语音识别、CTC模型、深度发展等技术的出现为安多方言的研究提供了新的方向,在西北高校的推动下,语料库建设以及其数字化效果显著。
近年来,安多方言凭借其无声调、保留古藏语特点多等优势,为研究者的主要研究对象之一,基于学科交叉融合的背景,跨学科合作将是安多方言研究的一大主要方向,为其保护和发展提供科学支撑。未来的研究应继续以安多方言的本体研究为基础,加强跨区域间的学术交流与协作,融入现代技术,与计算机及其它学科融合,形成多学科协同机制,加强多区域、多场景的语料采集。形成共同发展的格局,为中华民族共同体建设提供语言支撑,形成科学的话语体系。
NOTES
*通讯作者。
1王双成. 藏语安多方言语音研究,p. 40。