#### 期刊菜单

Application of Simulation Computing in Mathematical Statistics
DOI: 10.12677/PM.2023.1310295, PDF, HTML, XML, 下载: 150  浏览: 214  科研立项经费支持

Abstract: With the general trend of discipline integration in the new era, combined with the positioning and characteristics of mathematical statistics courses, simulation computing is introduced into the classroom teaching process. Combined with Matlab simulation and calculation software, computer simulation simulation calculations are carried out for classic problems in mathematical statistics, such as sampling calculation, statistical inference, distribution fitting, regression analysis, etc., highlighting the integration of disciplines and content fit, in order to achieve the purpose of com-bining theory and practice, understanding concepts more deeply and facilitating scientific appli-cations. Through the specific presentation of simulation calculation results, the theoretical knowledge results in the learning of “Mathematical Statistics” are displayed more intuitively and vividly through simulation operations, and image display is added in the slightly theoretical mathematics classroom, so that learners are more receptive to the knowledge system and in turn further enhance their interest in this course and subsequent courses. In this paper, teaching sug-gestions are also given for the curriculum after the introduction of simulation calculation.

1. 引言

2. 仿真计算在抽样分析中的应用

$P\left(|\frac{\sqrt{7}\left(\stackrel{¯}{x}-\mu \right)}{s}|\le 1.44\right)=1-2\left(1-0.9\right)=0.8$ ，这是很简单的计算，因为基于 $1.44={t}_{0.9}\left(7-1\right)$ 的查表事实。但是分位数表总归是有限的，离散的，并不能提供统计量在每一个区间中的概率计算。

>>chi2cdf(20,20)-chi2cdf(10,20)Ans=0.5102

$P\left(\frac{0.1}{s/\sqrt{16}}\le |\frac{\stackrel{¯}{x}-\mu }{s/\sqrt{16}}|\le \frac{0.5}{s/\sqrt{16}}\right)=P\left(t\left(15\right)r.v.\le 4\right)-P\left(t\left(15\right)r.v.\le 0.8\right)$

Matlab语言为：

>>tcdf(4,15)-tcdf(0.8,15)

Ans=0.2175

3. 仿真计算在随机模拟与分布拟合中的应用

(分别取 $\alpha =1,2,4$$\lambda =0.6$ )

Matlab语言为：

>>x=0:0.01:8; y1=gampdf(x,1,0.6);y2=gampdf(x,2,0.6);y3=gampdf(x,4,0.6);

>>plot(x,y1,'.b',x,y2,'.g',x,y3,'.k');

>>title('Gamma分布不同形参的密度函数图像');

>>legend('Gamma(1,0.6)','Gamma(2,0.6)','Gamma(4,0.6)');

[分析]图像如图1所示，从实验仿真的角度验证了：当 $\alpha \le 1$ 时f递减( $\alpha =1$ 即为指数分布)；当 $\alpha \in \left(1,2\right]$

Figure 1. Density function of Gamma

Matlab语言为：

>>x=0:0.001:1;y1=betapdf(x,0.5,0.5);y2=betapdf(x,2,3);y3=betapdf(x,0.5,2);y4=betapdf(x,2,0.5);y5=betapdf(x,1,2);y1=betapdf(x,2,1)

>> plot(x,y1,'.b',x,y2,'.g');legend('Beta(0.5,0.5) a<1 b<1','Beta(2,3) a>1 b>1');

>> title('Beta分布不同形参的密度函数图像a<1 b<1 VS a>1 b>1');ylim([0 10]);

[分析]可得Beta(0.5, 0.5)与Beta(2, 3)的密度函数在同一个坐标系中的图像如图2所示，一定程度上也反映了当参数a < 1，b < 1时贝塔分布的图像与a > 1，b > 1时贝塔分布的图像成上下对偶排列。类似也可得当参数a < 1，b > 1时贝塔分布的图像与a > 1，b < 1时贝塔分布的图像成上下对偶排列(图3)；当参数a = 1，b > 1时贝塔分布的图像与a > 1，b = 1时贝塔分布的图像成上下对偶排列(图4)。

Matlab语言为：

>>x=0:0.001:12; y1=fpdf(x,10,5);y2=fpdf(x,10,25);

>>plot(x,y1,’.r’,x,y2,’.b’); legend(‘F(10,5)’,’F(10,25)’);title(‘F分布双自由度对密度函数的影响’)

Figure 2. Density function curve of Beta

Figure 3. Density function curve of Beta

Figure 4. Density function curve of Beta

Figure 5. Density function of F

Matlab语言为：

>>x=-20:0.01:20;y1=normpdf(x,3,1);y2=normpdf(x,3,25);y3=normpdf(x,3,100);

>>plot(x,y1,’.r’,x,y2,’.b’,x,y3,’.k’);legend(‘N(3,1)’,’N(3,25)’,’N(3,100)’);ylim([0 0.6]);

>>title(‘正态分布图像受不同方差的影响效果’)

[分析]图像如图6所示。从中不难发现，σ越小，正态取值越集中于μ附近，图像的峰越尖，尾部越细；反之，σ越大，正态取值越分散于μ的两边，图像的峰越缓，尾部越厚，也即发生异常值的概率越大，在金融风险中预示着投资的风险越大，但获得超高收益或超低收益的概率也越大。

Figure 6. Influence of different variance to N

>>x=[78 84 81 97 71 80 68 …84]; 共64个样本数据

>>normplot(x)；histfit(x);[skewness(x) kurtosis(x)]; [mean(x) median(x) std(x)];

Figure 7. Normal probability plot

Figure 8. Histogram

Figure 9. One-sample K-S test

[分析]正态QQ图7显示分数数据基本服从正态分布；直方图拟合图8也显示数据与正态钟形曲线初步拟合；K-S非参检验(SPSS结果图9)显示p-value = 0.760 > 0.05，定性分析考试分数服从正态分布。偏度Skewness = −0.6013 (轻微左偏)，峰度kurtosis = 3.1684 ≈ 3 = 正态分布的峰度， $\left[\begin{array}{ccc}\text{mean}\left(\text{x}\right)& \text{median}\left(\text{x}\right)& \text{std}\left(\text{x}\right)\end{array}\right]=\left[\begin{array}{ccc}79.8281& 80.5000& 12.0890\end{array}\right]$ ，即平均分79.8281，中位分数80.500，标准差12.089。可认为本次考试成绩服从正态分布 $N\left(79.8281,{12.089}^{2}\right)$ 。从中可以得到79.8分的卷面均分及12分的标准差说明学生基本可以掌握80%的学习内容，且标准差在15分以下，同学之间的差距并没有太大，也反映了在本学期本门课程的学习中，大多数同学能跟得上教师的教学进度与难度，且成绩拥有较好的正态性。

4. 仿真计算在经典统计推断中的应用

Matlab语言为：

>>x=normrnd(0,2,100,1);y=normrnd(0.5,2,100,1);[h,sig,ci]=ttest2(x,y); z=[x,y]; boxplot(z)

>> plot(sort(x),normpdf(sort(x)),'+r',sort(y),normpdf(sort(y)),'.k')

[分析] h = 0 (接受原假设)；p-value = 0.7245 > 0.05不显著，不拒绝原假设； ${\mu }_{1}-{\mu }_{2}$ 的95%置信区间为[−0.7145, 0.4976]含有0点，故不拒绝 ${H}_{0}:{\mu }_{1}={\mu }_{2}$ 的原假设。箱线图如图10所示，显示两总体均值无显著区别。两随机向量的密度函数图如图11所示，两组数据的正态值基本同步拟合，且正态性较好。

Figure 10. Box plot

Figure 11. Fit of normal curve

Table 1. Sample data of height and leg length

① 散点图

>>x=[149 150 153 154 155 156 157 158 159 160 162 164]’;y=[92 93 93 95 96 98 97 96 98 99 100 102]’;plot(x,y,’.r’) ;corr(x,y)

② 建立回归模型

>>x=[ones(12,1) x];

>>[b,bint,r,rint,stats]=regress(y,x) ；[mean(r) var(r)]

[分析]散点图12表明身高与腿长具有明显的线性关系，相关系数r = 0.9587强相关；回归直线方程为 $y=-3.4245+0.6394x$ ，回归直线与散点图的同框如图13所示；线性模型 $y={\beta }_{0}+{\beta }_{1}x+\epsilon$ 中，参数 ${\beta }_{0}$${\beta }_{1}$ 的95%置信区间分别为[−24.3257, 17.4767]与[0.5058, 0.7729]；每个观测点与回归方程的残差结果分别为0.1586，0.5193，−1.3988，−0.0382，0.3224，1.6831，0.0437，−1.5957，−0.2350，0.1256，−0.1531，0.5681； $\text{stats}=0.9192\text{\hspace{0.17em}}\text{\hspace{0.17em}}\text{\hspace{0.17em}}113.7486\text{\hspace{0.17em}}\text{\hspace{0.17em}}\text{\hspace{0.17em}}0.0000\text{\hspace{0.17em}}\text{\hspace{0.17em}}\text{\hspace{0.17em}}0.8155$ 的结果表明回归的 ${R}^{2}=0.9192\approx 1$ ，模型检验的F-value = 113.7486，检验的p-value = 0模型高度显著；误差方差 ${\stackrel{^}{\sigma }}^{2}=0.8155$ ；而对残差序列r来说 $E\left(r\right)=0$$Var\left(r\right)={0.8610}^{2}$ ，r的的正态Q-Q图如图14所示，残差序列的K-S正态性检验如图15所示，p-value = 0.573，接受故残差为正态分布，从而线性回归模型拟合为：

$y=-3.4245+0.6394x+\epsilon ,\text{\hspace{0.17em}}\text{\hspace{0.17em}}\epsilon ~N\left(0,{0.8610}^{2}\right)$

Figure 12. Scatter

Figure 13. Scatter and regressive line

Figure 14. Normal QQ of residual

Figure 15. One-sample K-S test

5. 仿真计算引入课堂后的课程计划建议

6. 总结

NOTES

*通讯作者。

 [1] 魏宗舒. 概率论与数理统计教程[M]. 第三版. 北京: 高等教育出版社, 2008. [2] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程[M]. 第三版. 北京: 高等教育出版社, 2019. [3] 叶慈南, 曹伟丽. 应用数理统计[M]. 北京: 机械工业出版社, 2004. [4] 盛骤, 谢式千, 潘承毅. 概率论与数理统计[M]. 第五版. 北京: 高等教育出版社, 2019. [5] 唐琳. 大数据背景下“数理统计”课程的教学改革研究[J]. 云南大学学报, 2020, 42(S1): 61-64. [6] 章美月. 基于Mathematica的《概率论与数理统计》课程教学改革探索与实践[J]. 大学数学, 2020, 36(5): 49-56. [7] 国务院学位委员会关于印发《交叉学科设置与管理办法(试行)》的通知[EB/OL]. https://www.gov.cn/xinwen/2021-12/06/content_5656041.htm, 2021-12-06. [8] 侯臣平, 娇媛媛. Matlab在《概率论与数理统计》教学中的应用[J]. 教育教学论坛, 2019(5): 156-157. [9] 李涛, 贺勇军, 刘志俭. Matlab工具箱应用指南——应用数学篇[M]. 北京: 电子工业出版社, 2000.