语音识别视角下四川方言数字语音特征分析
An Analysis of Sichuan Dialect Digit Speech Features from the Perspective of Speech Recognition
DOI: 10.12677/ml.2026.145414, PDF,   
作者: 冯 静, 陈琳莉*:中国电信股份有限公司四川分公司,四川 成都
关键词: 方言语料库语音识别连续数字Dialect Corpus Speech Recognition Continuous Digits
摘要: 方言数字识别是当前语音识别的难点。本文以四川方言为例,就方言数字的语音特征开展分析,指出方言语音的地域和社会分层差异所致的语音变体,以及连续数字中韵律单位的基本分布情况,并就3000余条ASR数字识别结果进行了实证分析。本文认为,“左重”韵律模式对四川连续数字的识别产生了重要的影响。
Abstract: Dialect digit recognition remains a challenging frontier in the field of automatic speech recognition (ASR). This paper takes Sichuan dialect as a case study to analyze the phonetic characteristics of dialectal numerals. It highlights the speech variations caused by regional and social stratification differences within the dialect, outlines the fundamental distribution of prosodic units in continuous digit sequences, and presents an empirical analysis based on over 3000 ASR digit recognition results. The study concludes that the “left-heavy” (LH) rhythmic pattern exerts a significant influence on the recognition accuracy of continuous Sichuan dialect digits.
文章引用:冯静, 陈琳莉. 语音识别视角下四川方言数字语音特征分析[J]. 现代语言学, 2026, 14(5): 385-394. https://doi.org/10.12677/ml.2026.145414

参考文献

[1] 周峰, 俞一彪. 群延时谱参数在汉语数字语音识别中的应用[J]. 信号处理, 2017, 33(9): 1215-1220.
[2] 熊艳娇. 基于HMM语音识别的韵律标记[J]. 中国新通信, 2015, 17(12): 98-99.
[3] 傅睿博, 陶建华, 温正棋. 基于内容和声学特征层级融合的自动韵律边界标注[J]. 中国语音学报, 2018(2): 103-110.
[4] 傅睿博, 陶建华, 李雅, 等. 基于静音时长和文本特征融合的韵律边界自动标注[J]. 清华大学学报(自然科学版), 2018, 58(1): 61-66+74.
[5] Li, H.S., Liu, J. and Liu, R.S. (2000) High Performance Digit Mandarin Speech Recognition. Journal of Tsinghua University, 40, 32.
[6] 郑中华. 噪音环境下汉语连续数字识别与研究[D]: [硕士学位论文]. 合肥: 合肥工业大学, 2013.
[7] 张静亚, 俞一彪. 利用韵律信息的CHMM连续数字语音识别[J]. 电子工程师, 2006(12): 43-46.
[8] 秦晨光, 王海, 任杰, 等. 基于多任务学习的方言语种识别[J]. 计算机研究与发展, 2019, 56(12): 2632-2640.
[9] Dai, Y., Zhang, Z., Wang, S., et al. (2025) WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing.
https://arxiv.org/abs/2509.18004
[10] 杨立鹏, 胡从刚, 陈华龙, 等. 面向铁路领域的多方言免切换语音识别方法[J]. 中国铁路, 2025(1): 30-39.
[11] 谢金洪, 魏霞. 基于ResCNN-BiGRU的四川方言语音识别[J]. 现代电子技术, 2024, 47(1): 89-93.
[12] 郝锡炯, 胡淑礼. 关于四川方言的语音分区问题[J]. 四川大学学报(哲学社会科学版), 1985(2): 71-86.
[13] 汪叶金. 基于深度学习的方言和普通话混合语音识别研究[D]: [硕士学位论文]. 湖州: 湖州师范大学, 2023.
[14] 张威, 徐小婷. 阿拉伯数字词探析[J]. 宁夏大学学报(人文社会科学版), 2007(3): 26-29.
[15] 陈紫龙, 张文林. 基于强化学习的自监督语音识别模型微调技术[J]. 信息工程大学学报, 2023, 24(2): 150-156.
[16] 秦祖宣. 成都话的连读变调与韵律结构[J]. 汉语学报, 2015(2): 36-44+95-96.
[17] 郭承禹, 葛佳琦. 再论方言入声调值的“阴低阳高”现象[J]. 南开语言学刊, 2020(1): 30-40.
[18] 林焘. 对汉语规范化的重要贡献[J]. 语言文字应用, 2004(2): 27-29.
[19] 郭承禹, 江荻. 声调的社会群体约定性——来自跨方言单字调辨认实验的启示[J]. 语言科学, 2020, 19(6): 623-639.