基于小型语料库的维吾尔语信息熵估算
Estimation of Information Entropy in Uyghur Based on Small-Scale Corpora
摘要: 信息熵是一种衡量信息量的指标,在信息论中用于度量随机变量的不确定性。语言的信息熵是数学方法和语言学的结合,反映语言中每个字符的平均信息量,可以帮助我们了解语言中某一字符表达能力。本文以维吾尔语为研究对象开展维吾尔语信息熵估算研究。在简要论述香农三大定理与自然语言处理关系基础上,基于120万词的维吾尔语单语语料库开展频率统计,运用信息熵计算方法,将统计结果代入香农信息熵公式初步估算出了维吾尔语的零阶熵,并将估算结果与一些表音文字系统语言进行了对比。
Abstract: Information entropy is a metric for measuring the amount of information, used in information theory to quantify the uncertainty of random variables. Linguistic information entropy combines mathematical methods and linguistics, reflecting the average information content of each character in a language, which helps us understand the expressive power of a particular character. This study focuses on Uyghur as the research subject, conducting an investigation into the estimation of Uyghur information entropy. After briefly discussing the relationship between Shannon’s three theorems and natural language processing, the study performs frequency statistics based on a monolingual corpus of 1.2 million Uyghur words. Using information entropy calculation methods, the statistical results are substituted into Shannon’s entropy formula to preliminarily estimate the zero-order entropy of Uyghur. The estimated results are then compared with some languages of the abugida writing system.
参考文献
|
[1]
|
冯志伟. 汉字的熵[J]. 文字改革, 1984(4): 12-17.
|
|
[2]
|
冯志伟. 汉字的极限熵[J]. 中文信息, 1996(2): 53-56.
|
|
[3]
|
关于汉字的熵和极限熵致编辑部的一封信[J]. 中文信息学报, 1998(1): 64-65.
|
|
[4]
|
刘源. 汉语字词的概率分布, 熵及冗余度[C]//中文信息处理国际会议论文集. 1987.
|
|
[5]
|
黄萱菁, 吴立德, 郭以昆, 刘秉伟. 现代汉语熵的计算及语言模型中稀疏事件的概率估计[J]. 电子学报, 2000(8): 110-112.
|
|
[6]
|
孙帆, 孙茂松. 基于统计的汉字极限熵估测[C]//中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论集. 北京: 清华大学出版社, 2006: 550-559.
|
|
[7]
|
那日松, 淑琴. 蒙古文信息熵和拉丁转写研究[C]//中国计算技术与语言问题研究——第七届中文信息处理国际会议论集. 北京: 电子工业出版社, 2007: 793-796.
|
|
[8]
|
江荻. 藏语文本信息处理的历程与进展[C]//中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集. 北京: 清华大学出版社, 2006: 91-105.
|
|
[9]
|
完么扎西. 现代藏语信息熵的估算及语言模型的复杂度[J]. 电子技术与软件工程, 2020(17): 213-215.
|
|
[10]
|
严海林, 江荻. 藏文大藏经信息熵研究[C]//那顺乌日图, 陈玉忠. 中国少数民族多文种信息处理研究与进展. 2004: 1-6.
|
|
[11]
|
Shannon, C.E. and Weaver, W. (1949) The Mathematical Theory of Communication. The University of Illinois Press.
|
|
[12]
|
Shannon, C.E. (1951) Prediction and Entropy of Printed English. Bell System Technical Journal, 30, 50-64. [Google Scholar] [CrossRef]
|
|
[13]
|
邓烨. 从通信系统的收发联合优化看香农三大定理的内在联系[J]. 中国新通信, 2012, 14(6): 78-80.
|
|
[14]
|
帕丽旦·木合塔尔, 热依曼·吐尔逊, 吾守尔·斯拉木, 买买提阿依甫. 维吾尔文本转换国际音标系统设计与实现[J]. 信息通信, 2017(5): 97-99.
|