1. 引言
截断型分布族,作为一类在特定区间外取值为零的概率分布,是统计学中研究的重要对象。这些分布通过截断原始分布,改变其形状和数字特征,如均值、方差和偏度等,从而更准确地描述现实世界中受到限制的数据。从截断正态分布到截断指数分布,各种截断型分布在实际应用中发挥着不可或缺的作用。
随着统计学的不断发展,对截断型分布族的研究已经从基本的定义和性质扩展到了参数估计、假设检验等更深层次的问题。研究者们不仅探索了多种参数估计方法,还关注了截断操作对分布特性的影响。例如,Nadarajah S [1] 从长尾分布出发,研究五种常见长尾分布截断形式,并求出矩的显式表达式。李红玲 [2] 对截断正态分布、截断指数分布等常见的截断分布的数字特征进行了深入的研究。师义民 [3] 研究Linex损失函数下,一类双边截断型分布族参数的经验Bayes (EB)估计问题,并给出了该估计的收敛速度;卢昆亮、赵林城 [4] 研究了双边截断参数的最小方差无偏估计,给出参数的UMVUE的表达式及存在的充分必要条件;文献《Estimating the Parameters of Truncated Distributions》 [5] 研究一些特殊截断分布的参数的估计,为实际应用提供了理论支持。
截断型分布族在统计学中具有重要的地位。这类分布通过限制变量的取值范围来形成新的分布形态,使得模型更加符合实际问题的约束条件。截断型分布不仅存在于理论研究中,更广泛应用于实际生活中多个领域。在金融学中,截断分布可用于描述风险调整后的收益分布;在生物学和医学中,它们可用于分析生命周期受限的数据。这些应用不仅展现了截断型分布族的实用性,也凸显了对其进行深入研究的必要性。
在描述概率分布特性时,方差和熵是两个不可或缺的统计量。方差作为衡量数据离散程度的关键指标,反映了随机变量与其均值之间的偏离程度;而熵则用于量化数据的不确定性或信息的混乱程度。对于截断分布族而言,由于截断操作改变了数据的取值范围,其方差和熵的大小也会受到影响。因此,研究截断分布族的方差和熵的表达式,以及它们之间的关系,对于深入理解截断数据的特性具有重要意义。文章《On the Functional Relationship between Entropy and Variance with Related Applications》 [6] 深入探讨了熵与方差之间的函数关系,为我们理解截断分布族的特性提供了新的视角。在具有共同方差的分布类内,熵可以作为分布之间亲和性的度量。然而,对于截断分布族而言,其数字特征熵与方差的具体形式需要根据具体的分布类型来确定。在计算过程中,我们必须充分考虑截断操作所带来的影响,以确保结果的准确性。
本文旨在深入研究截断型分布族的方差和熵的特性及其关系,通过推导截断分布族的方差和熵的表达式,我们可以深入了解截断操作对它们的影响,从而为实际应用提供理论支持。此外,通过比较不同截断条件下的方差和熵的变化,我们可以评估截断操作的效果,为实际应用提供理论支持。
2. 截断型分布族
2.1. 定义
在统计学中,截断型分布族是由限制一些其他概率分布的域而产生的条件分布。在实际统计中,如果记录或了解事件仅限于高于或低于指定范围内的值,则会出现截断型分布。
设随机变量X的概率密度函数为
,分布函数为
,其中
,若对x的取值范围限制为
,则其对应的截断型分布为
其中
,特别地,当我们只进行左截断时
,只进行右截断时
,我们注意到 [7]
下面给出截断型分布族概率密度函数的一般表达式:
双边截断型分布族
对于双边截断型分布族,其概率密度形式为
其中
为
上的非负可测函数,它在任一有限区间上可积,其中
[8] 对每一对
,
是
上的一概率密度,分布函数
单边截断型分布族
1) 左截断型分布族
对于左截断型分布族,其概率密度形式为
其中
在
上非负可积,
,
,
2) 右截断型分布族
对于右截断型分布族,其概率密度形式为
其中
在
上非负可积,
,
,
[9] 。
2.2. 截断分布族的熵与方差
熵和方差为衡量数据不确定性和分散程度的两个相关但不完全相同的指标。熵主要关注数据的概率分布,而方差则关注数据与其均值的偏离程度。分布截断会引入新的不确定性。这种不确定性可能来自于截断边界的选择、原始数据的分布特性等因素。为了更深入地理解截断型分布族的熵与方差的关系,我们通过数学推导,探究截断型分布族熵与方差的关系。
2.2.1. 方差
由概率密度函数可得出
根据方差计算公式
得出双边截断型分布族的方差为
2.2.2. 熵
定理1:双边截断型分布族中熵的表达式为
定理证明如下:
根据熵的计算公式
得出双边截断型分布族的熵为
□
2.2.3. 方差与熵的关系
方差
与
有关,而
可由
求出,因此可以说方差取值取决于
。
熵
与
有关,而
可由
求出,故熵依赖于
。
若函数
为已知函数,熵与方差可根据上述已推导得到的公式求得。
为
上的非负可测函数,它在任一有限区间上可积。因此对于截断型分布族,其熵和方差的计算依赖于其分布类型。
3. 特殊截断型分布
通过对于一般型截断型分布中熵和方差性质的研究,我们发现这两者均紧密依赖于具体的分布类型,且有一定的关联性。为了进一步地研究这种关系,选取三种特殊的截断分布:截断均匀分布、截断正态分布以及截断Pareto分布,深入探讨熵与方差的关系。
3.1. 截断均匀分布
3.1.1. 定义
1) 均匀分布
若连续型随机变量x的概率密度函数为
,则称x服从
上的均匀分布,记作
。
分布函数为
2) 截断均匀分布
截断型均匀分布是一种概率分布,它是在给定一定范围内的均匀分布的一种变体。通常均匀分布在一个特定的区间内具有相等的概率密度,但截断型均匀分布则限制了这个区间,使得随机变量只能在某个子区间内取值。
3.1.2. 截断均匀分布的熵与方差
1) 方差
由方差计算公式
,我们先分别计算
和
则得出截断均匀分布的方差为
2) 熵
根据熵的计算公式
得到截断均匀分布的熵为
3) 熵与方差的关系
截断均匀分布中熵和方差具有如下的函数关系:
根据方差的表达式
,可得
,代入熵的表达式
因此截断均匀分布中熵与方差的函数关系为:

由截断均匀分布熵与方差的表达式画图拟合可知,截断均匀分布熵与方差之间存在线性关系,当截断均匀分布的方差增大时,熵会随着方差的增大而增大。
3.2. 截断正态分布
3.2.1. 定义
1) 正态分布
若随机变量x服从一个数学期望为
,方差为
的概率分布,且其概率密度函数为
,则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作
。设x是正态分布随机变量,其分布函数分别为
当
,
时,正态分布是标准正态分布。记
为标准正态分布的密度函数,
为标准正态分布的累积分布函数;
为正态分布的密度函数,
为正态分布的累积分布函数。
2) 截断正态分布
截断正态分布(Truncated Normal Distribution)是在正态分布中界定随机变量进而从正态分布的分布函数中导出概率分布。它是截断分布(Truncated Distribution)的一种,即限制变量取值范围的一种分布。具体来说,如果一个随机变量X在a和b之间的取值服从正态分布
,且a和b两个端点处的取值概率为0,那么这个随机变量X就服从截断正态分布。记为
。在数学上,截断正态分布的概率密度函数可以通过对正态分布的概率密度函数进行截断并归一化得,其概率密度函数为 [10]
• 双边截断正态分布
设x是在左边点a和右边点b截断的正态分布随机变量,其密度函数为
• 单边截断正态分布
1) 左截断正态分布:设x是在左边点a截断的正态分布随机变量,其密度函数为
2) 右截断正态分布:设x是在右边点b截断的正态分布随机变量,其密度函数为
其中,
是标准正态分布的累积分布函数。需要注意的是,这里的概率密度函数是归一化后的结果,即保证了在截断区间内的积分为1。
3.2.2. 截断正态分布的熵与方差
目前对于截断正态分布的研究,张维铭 [11] 研究截断正态分布的性质、参数估计,及根据截断正态分布制定计量抽样方案的方法。Héctor J. Gómez、Neveka M. Olmos等人 [12] 研究截尾正态分布的矩、风险函数和熵等性质,并利用矩和极大似然方法进行了参数估计。G. Baikunth Nath [13] 研究二元正态分布的矩,从线性截断的观测值中得到二元正态分布参数的估计。李红玲 [2] 计算了截断正态函数的数字特征—期望及方差。对于截断正态分布的数字特征:熵与方差,许多研究者李红玲 [2] ,Burkardt J [10] 等已推导出方差的表达式,但较少关注截断正态分布的熵,以及熵与方差关系的相关研究,因此我们通过数学推导截断正态分布的方差与熵,观察截断对两者带来的变化,深入了解两者的关系。
1) 方差
正态分布方差为:
双边截断正态分布的方差为
,其中
;
因此可得得出双边截断正态分布的方差为
对于单边截断正态分布,可视为是双边截断正态分布的特殊情况。
a) 左截断正态分布:对于左截断正态分布,可以看作为双边截断正态分布右截断点b为正无穷的特殊情况,则
,
,那么左截断正态分布的方差为:
b) 右截断正态分布:对于右截断正态分布,可以看作为双边截断正态分布左截断点
为负无穷的特殊情况,则
,
,那么右截断正态分布的方差为:
2) 熵
正态分布中熵的表达式为:
定理2:双边截断正态分布中熵的表达式为:
定理证明如下:
令
因此可得得出双边截断正态分布的熵为
□
对于单边截断正态分布,可视为是双边截断正态分布的特殊情况。
1) 左截断正态分布:对于左截断正态分布,可以看作为双边截断正态分布右截断点b为正无穷的特殊情况,则
,
,那么左截断正态分布的方差为:
2) 右截断正态分布:对于右截断正态分布,可以看作为双边截断正态分布左截断点a为负无穷的特殊情况,则
,
,那么右截断正态分布的方差为:
3) 熵与方差的关系
• 正态分布
熵的大小与方差有着直接的联系,可以用数学表达式直接表示:
对于正态分布来说,正态分布的熵随着方差的增大而增大,方差越大,意味着数据的离散程度越高,分布越广泛,因此需要更多的信息来描述这个分布,即熵越大。
• 截断正态分布
双边截断正态分布的方差与熵为:
由其表达式可知,截断正态分布熵与方差之间的关系并非简单的线性关系。
为了更直观地探索截断均匀分布中熵与方差的关系,利用MATLAB软件进行画图拟合。在这一过程中,固定截断下界为−10,然后变化上界以改变截断范围。观察截断正态分布中熵与方差随截断范围改变而产生的变化。


(a) (b)


(c) (d)


(e) (f)
经过实验模拟发现,随着截断范围的变化(即a和b的变化),截断正态分布的熵和方差都会发生变化。通常,当截断范围变窄时,分布的离散程度减小,方差降低,但熵也可能降低。当截断范围变宽时,分布的离散程度增加,方差增大,同时熵也可能增大。从熵与方差的关系图可以看出,方差增大,熵同时也增大,成正相关关系。但这并不是简单的线性关系,都受到截断正态分布具体参数(如均值和标准差)的影响。
3.3. 截断Pareto分布
3.3.1. 定义
1) Pareto分布
帕累托分布是以意大利经济学家维弗雷多·帕雷托命名的,从大量真实世界的现象中发现的幂次定律分布。帕累托分布可以归纳为一个非常简洁的表述:通过市场交易,20%的人将占有80%的社会财富。由于Pareto分布具有递减的失效率函数,经常用来描述诸如个人收入(收入越高,获得更高收入的能力就会增加)、某种药理过程后病人的存活时间(存活时间越长,能够继续存活更长时间的可能性就越高)等模型。其它模型例如城市人口容量、自然现象的发生、股票价格波动、保险风险、商业失效等,也都可以用Pareto分布来描述。
设x为一个非负连续随机变量,如果x具有如下的概率密度函数
和分布函数
,对任意
,
,
则称x服从参数为
与
的Pareto分布,记做
[14]
2) 截断Pareto分布
原Pareto分布的概率密度函数
属于左截型分布。
现假定x取值上界为
,则右截断Pareto分布与双截断Pareto分布的概率密度函数均为 [7]
3.3.2. 截断Pareto分布的熵与方差
关于Pareto分布的研究,相关学者已经做了很多工作,李海芬,茆诗松 [14] 给出了Pareto分布检验的图检验法、相关系数R2检验法,并且讨论了R2检验对常用非Pareto分布的功效;单国栋 [15] 研究了对于截断数据的Pareto分布的Bayes分析,Aban,I. B.,Meerschaert,M. M.和Panorska,A. K. [16] 研究了截断Pareto分布的估计量,研究了它们的性质并说明了一种检验拟合的方法;对于截断Pareto分布的数字特征,李红玲在文献 [2] 已计算截断Pareto分布的数学期望及方差,然而截断Pareto分布的熵以及熵和方差关系的研究,文献中较少涉及,本次研究主要针对截断Pareto分布进行熵和方差的计算并且对二者的关系进行讨论。
1) 方差
• 左截断Pareto分布
由概率密度函数得出
根据方差计算公式
得出左截断Pareto分布的方差为
• 右截断Pareto分布和双边截断Pareto分布中方差的表达式为
由概率密度函数得出
根据方差计算公式得出右截断Pareto分布和双截断Pareto分布的方差为
2) 熵
• 左截断Pareto分布
根据熵的计算公式
得到左截Pareto分布的熵为
定理3:右截断Pareto分布和双边截断Pareto分布中熵的表达式为
定理证明如下:
根据熵的计算公式
将右截断Pareto分布和双边截断Pareto分布的概率密度函数
代入得到
□
3) 熵与方差的关系
定理4:左截断Pareto分布中熵和方差具有如下的函数关系:
定理证明如下:
假设
已知,根据方差的表达式,
得出
代入熵的表达式
,我们得到
□
由二者的关系式可以看出,熵和方差的关系还受参数
大小的影响,我们令
分别为2.5,5和10,得到熵和方差的关系如下所示:

可以看出,当左截断Pareto分布的方差增大时,熵会随着方差的增大而增大。
在右截断及双截断Pareto分布中,方差
,熵
,其熵与方差的关系我们无法直观看出,可以通过对右截断及双截断Pareto分布的参数设置具体数值并列举若干数据点,对它们的熵和方差进行计算从而得出熵与方差的关系。
当我们令形状参数
,截断参数
时,通过计算熵和方差的表达式我们得到熵和方差的关系图如下所示:

可以看出,与左截断Pareto分布中熵和方差的关系类似,右截断及双截断Pareto分布中熵和方差的关系同样呈正相关,当方差增大时,熵也会随之增大。
4. 结论
本文深入探讨了截断型分布中熵和方差的性质,发现两者在截断型分布中均展现出对分布类型的依赖性,并显示出一定的相关性。为了进一步理解这种关系,我们特别选取了三种截断分布进行深入研究:截断均匀分布、截断正态分布以及截断Pareto分布。通过计算这些特殊截断分布中的熵和方差,截断均匀分布的熵和方差之间呈现出较为简单的数学关系;而截断正态分布和截断Pareto分布的熵和方差则相对复杂。这些结果为我们在实际应用中选择合适的截断分布提供了理论依据。综合以上分析,我们可以得出以下结论:
截断型分布中熵和方差之间存在一定的关联性,这种关联性随着截断参数的变化而发生变化。
不同类型的截断分布具有不同的熵和方差特性,因此在实际应用中需要根据具体情况选择合适的截断分布。
通过研究截断型分布中熵和方差的关系,我们可以更深入地理解数据的内在规律和特性,为数据分析和信息处理提供有力的支持。展望未来,我们可以进一步拓展截断型分布中熵和方差关系的研究范围,探索更多类型的截断分布以及它们在实际应用中的表现,还可以将熵和方差与其他信息度量指标相结合,从而构建更全面的信息度量体系。
致谢
在此,向指导老师李再兴教授表达最诚挚的感谢。感谢李老师在大创(大学生创新性训练项目)过程中的耐心指导和帮助。在整个研究过程中,正是李老师的精心指导、无私帮助和宝贵建议,让我们得以顺利完成研究并取得成果。再次感谢李老师的辛勤付出和无私奉献,我们深感荣幸和感激。
基金项目
本论文得到中国矿业大学(北京)大学生创新性训练项目的资助。
NOTES
*相同贡献。