基于得分函数的概率分类模型研究

doi:10.12677/AAM.2022.1110743

期刊菜单

基于得分函数的概率分类模型研究
Research on Probability Classification Model Based on Scoring Function

DOI: 10.12677/AAM.2022.1110743, PDF, HTML, XML, 国家自然科学基金支持
作者: 李佳洁：南京信息工程大学数学与统计学院，江苏南京
关键词: 分类；得分函数；准确率；机器学习；Classification； Scoring Function； Accuracy； Machine Learning

摘要: 现代统计学中有各种分类方法，在数据研究中，类别分得越精准，得到的结果就越有价值。对于二元分类问题，本文提出了一种基于得分函数的概率分类模型MKL，从理论上证明了所提出的MKL估计的一致性。在实证方面，本文通过拟牛顿算法直接对连续化后的MKL统计量进行优化，给出了模拟研究的分类效果和一个心脏衰竭数据集的实例。该方法考虑了预测能力、计算复杂度和实际可解释性方面的权衡，与现有的分类方法相比具有优势。

Abstract: There are various classification methods in modern statistics, and in data research, the more accu-rate the classification, the more valuable the results obtained. For the binary classification problem, this paper proposes a probabilistic classification model MKL based on the score function, which theoretically proves the consistency of the proposed MKL estimate. In terms of empirical evidence, this paper directly optimizes the continuous MKL statistics by means of quasi-Newtonian algorithm, and gives the classification effect of the simulation study and an example of a heart failure dataset. This approach takes into account trade-offs in terms of predictive power, computational complexity, and practical interpretability, and offers advantages over existing classification methods.

文章引用：李佳洁. 基于得分函数的概率分类模型研究[J]. 应用数学进展, 2022, 11(10): 7000-7011. https://doi.org/10.12677/AAM.2022.1110743

1. 引言

分类问题在社会科学、经济管理以及医学领域中有着非常广泛的应用，例如预测借贷平台用户是否违约、预测客户流失率、诊断不同的脊椎病变等等。在过去的几十年里，大量的分类方法在实际应用中得到了发展。J.S. Cramer [1] 系统地回顾了逻辑回归的起源，逻辑回归通过对样本属于某一类的概率进行预测来实现分类。Breiman等人 [2] 首次提出了随机森林方法，通过将多棵决策树集成，以及每次用采样的样本和特征分量训练每棵决策树，可以有效地降低模型的方差。Corinna Cortes和Vapnik [3] 首次提出了支持向量机方法，该方法可以处理标记错误的样本，并证明了支持向量机利用多项式输入变换的高泛化能力。Yann LeCun [4] 首次将BP算法应用到神经网络结构的训练上，形成了当代卷积神经网络的雏形，只需最少的预处理对高维模式进行分类。

分类作为典型的监督学习方法，目前已发展出许多成熟且优良的分类模型，但随着信息技术的发展与各种新技术的发明，传统的分类模型暴露出了种种不足，于是怎样结合现有的理论知识去拓展分类方法以期更高效地处理数据变得尤为重要。Zhang和Li等人 [5] 通过训练数据给不同的测试数据点分配不同的k值，学习一个相关矩阵来重构测试数据点，对k近邻方法进行了改进，该方法在分类、回归、缺失数据归因等数据挖掘应用中，比现有的kNN方法更准确、高效。Fang和Chen [6] 提出了一种直接最大化Kolmogorov-Smirnov统计量的信用评分方法对银行客户进行分类，该方法重点展示了预测能力在KS统计量上的表现，得到了一个优于传统评分模型的信用评分方法。

本文在现有的理论基础和前人思维的启发下，针对二分类问题，提出了一种新的分类模型，即最大化形如KL散度的统计量，记为MKL，基于得分函数对问题进行分类。本文的其余部分组织如下：第2节详细介绍了本文的方法、理论性质和渐进结果，以及最优化目标函数的算法步骤；第3节进行了模拟研究，并与传统的分类模型如Logistic回归、支持向量机、随机森林和神经网络进行了比较；第4节将本文提出的分类方法应用到了真实数据上；第5节给出了一些结论。所有的证明都在附录中。

2. 方法

2.1. 符号和模型

设响应变量为Y，其取值为0和1，X表示样本特征或协变量。设得分函数 $S (X)$ 是X的标量函数，并且 $S (X)$ 与条件概率 $P (Y = 1 | X)$ 呈正相关。基于得分函数，令t表示截止分数即得分函数的一个阈值，也就是说，样本得分不超过t的将被分到一类， $P (S (X) \leq t | Y = 0)$ 为属于 $Y = 0$ 的样本被正确分类的百分比，另一方面， $P (S (X) \leq t | Y = 1)$ 为属于 $Y = 1$ 的样本被错误分类的百分比。因此根据正判和误判的概率，我们希望 $P (S (X) \leq t | Y = 0) \geq P (S (X) \leq t | Y = 1) > 0$ ， $P (S (X) \leq t | Y = 0)$ 越大越好， $P (S (X) \leq t | Y = 1)$ 越小越好，故而本文提出了如下概率分类模型，记为MKL。定义：

$M K L = \sup_{- \infty < t < \infty} {P (S (X) \leq t | Y = 0) \log \frac{P (S (X) \leq t | Y = 0)}{P (S (X) \leq t | Y = 1)}}$ . (1)

在实践中，基于数据集 ${(y_{i}, x_{i}), i = 1, \dots, n}$ ，则可得到分类模型的样本估计形式：

$M K L_{n} = \sup_{- \infty < t < \infty} [\frac{1}{n_{0}} \sum_{y_{i} = 0} I {S (x_{i}) \leq t} \log \frac{\frac{1}{n_{0}} \sum_{y_{i} = 0} I {S (x_{i}) \leq t}}{\frac{1}{n_{1}} \sum_{y_{i} = 1} I {S (x_{i}) \leq t}}]$ ， (2)

其中， $n_{0} = \sum_{i = 1}^{n} I {y_{i} = 0}$ ， $n_{1} = \sum_{i = 1}^{n} I {y_{i} = 1}$ ， $I {\cdot}$ 为示性函数， $S (x_{i})$ 为根据分类模型估计的第i个样本的得分。现有的分类方法都是通过优化目标函数来估计样本得分的，例如，逻辑回归通过最大化似然函数估计回归参数，决策树通过最小化熵等损失函数来决定最佳分割。本文采用最大化MKL统计量来确定最优分割，假设

$P (Y = 1 | X) = f (X^{T} β_{0})$ ， (3)

其中f为0~1之间的未知递增函数， $β_{0}$ 为p维未知常向量，p为协变量X的维数。为了模型可识别性，设定 $‖ β_{0} ‖ = 1$ ，其中 $‖ \cdot ‖$ 为欧几里得范数，对于得分函数 $S (X) = X^{T} β$ ，也设定 $‖ β ‖ = 1$ 。

2.2. 模型估计

设 $β$ 的参数空间为 $Β = {β \in ℝ^{p} : ‖ β ‖ = 1}$ 。对于得分函数 $S (X) = X^{T} β$ ，其中 $β \in Β$ ，则总体水平MKL定义为

$M K L (β) = \sup_{- \infty < t < \infty} {P (X^{T} β \leq t | Y = 0) \log \frac{P (X^{T} β \leq t | Y = 0)}{P (X^{T} β \leq t | Y = 1)}}$ . (4)

定义 $M K L (β, t) = P (X^{T} β \leq t | Y = 0) \log \frac{P (X^{T} β \leq t | Y = 0)}{P (X^{T} β \leq t | Y = 1)}$ 。在假设(3)式下，首先引入以下引理。

引理1：在假设(3)下，如果 $X^{T} β$ 的分布不退化，则 $M K L (β_{0}) = M K L (β_{0}, f^{- 1} (π_{1}))$ ，其中 $π_{1} = P (Y = 1)$ 。

由引理1可知，如果 $β_{0}$ 已知，并且 $S (X) = X^{T} β_{0}$ ，则最佳分界点为 $f^{- 1} (π_{1})$ 。注意， $X^{T} β_{0} \leq f^{- 1} (π_{1})$ 等价于 $f (X^{T} β_{0}) \leq π_{1}$ 或 $P (Y = 0 | X) > P (Y = 0)$ 。在实际应用中， $β_{0}$ 是未知的，这种最佳分类无法实施。但引理1是下列定理的基础：当 $β = β_{0}$ 时， $M K L (β)$ 达到其唯一的极大值。

定理1：在假设(3)和引理1中的条件下，如果条件分布 $F (X^{T} β | X^{T} β_{0})$ 对任意 $β \in Β$ 且 $β \neq \pm β_{0}$ 不退化，则对任意的 $β \in Β$ 且 $β \neq \pm β_{0}$ 有 $M K L (β_{0}) > M K L (β)$ 。

根据定理1，本文提出通过最大化下列统计量来估计 $β_{0}$ ，

$M K L_{n} (β) = \sup_{- \infty < t < \infty} [\frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} \log \frac{\frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t}}{\frac{1}{n_{1}} \sum_{y_{i} = 1} I {x_{i}^{T} β \leq t}}]$ . (5)

可定义

$\hat{β} = \underset{‖ β ‖ = 1}{\arg \max} M K L_{n} (β)$ . (6)

得到 $\hat{β}$ 后，得分函数则为 $S (x_{i}) = x_{i}^{T} \hat{β}, i = 1, \dots, n$ 。下面的定理说明了 $\hat{β}$ 的一致性，这一性质支撑了本文所提出的分类方法。

定理2：在假设(3)和定理1中的条件下，当n趋于无穷时，(6)中的 $\hat{β}$ 在概率上趋于 $β_{0}$ 。

2.3. 算法步骤

因为我们的目标函数是离散的，为了更简便地优化(5)式，本文将其做连续化处理：

$M K L_{n} (β, t) = \frac{1}{n_{0}} \sum_{y_{i} = 0} Φ (\frac{t - x_{i}^{T} β}{h}) \log \frac{\frac{1}{n_{0}} \sum_{y_{i} = 0} Φ (\frac{t - x_{i}^{T} β}{h})}{\frac{1}{n_{1}} \sum_{y_{i} = 1} Φ (\frac{t - x_{i}^{T} β}{h})}$ ， (7)

其中， $Φ {\cdot}$ 为标准正态分布函数，h为带宽。使用拟牛顿法(BFGS)确定参数 $β$ ，具体算法步骤如下：

Step1：设定初始值 $β^{(0)} = {(β_{1}^{(0)}, \dots, β_{p}^{(0)})}^{T} = \frac{{\hat{β}}_{\log}}{‖ {\hat{β}}_{\log} ‖}$ 并且满足 $‖ β^{(0)} ‖ = 1$ ，其中 ${\hat{β}}_{\log}$ 是数据集 $(X, Y)$ 拟合逻辑回归模型所得的回归系数，精度要求为 $ε$ ；

Step 2：真实模型的回归参数设为 $β_{0}$ ，则t的初始值为 $t_{0} = x_{i}^{T} β_{0}$ ；

Step 3：给定初始对称正定矩阵 $D_{0} = I_{p}$ ；

Step 4：计算搜索方向 $d^{(s)} = - D_{s} g_{s}$ ( $g_{s}$ 是 $β^{(s)}$ 的梯度)；

Step 5：计算最优步长： $λ_{s} = \arg \max L (β^{(s)} + λ d^{(s)}, t_{0})$ ，则 $β^{(s + 1)} = β^{(s)} + λ_{s} d^{(s)}$ ；

Step 6：判断精度，若 $‖ g_{s + 1} ‖ < ε$ ，则停止迭代，否则进入下一步；

Step 7：计算 $Δ g = g_{s + 1} - g_{s}$ ， $Δ β = β^{(s + 1)} - β^{(s)}$ ，更新D：

$D_{s + 1} = D_{s} + \frac{Δ β Δ β^{T}}{Δ g^{T} Δ β} - \frac{D_{s} Δ g Δ g^{T} D_{s}}{Δ g^{T} D_{s} Δ g}$ ； (8)

Step 8：令 $s = s + 1$ ，进入Step 4；

Step 9：通过约登指数确定最佳阈值t。

3. 数值模拟

这一节进行了广泛的模拟研究，以验证本文提出的分类模型的效果。考虑以下三种不同的模型：

Model 1： $P (y_{i} = 1 | X_{i}) = \frac{1}{1 + e^{- x_{i}^{T} β_{0}}}$ ，

Model 2： $P (y_{i} = 1 | X_{i}) = \frac{1}{1 + e^{- x_{i}^{T} β_{0} I {x_{i}^{T} β_{0} > 0}}}$ ，

Model 3： $P (y_{i} = 1 | X_{i}) = \frac{I {x_{i}^{T} β_{0} > - \frac{1}{4}}}{1 + {(1 + 4 x_{i}^{T} β_{0})}^{- \frac{1}{4}}}$ 。

模型1为logistic模型，模型2为半logistic模型，模型3为带参数1的Box-Cox模型 [7]。设 $p = 5$ ， $x_{i} = {(x_{i 1}, \dots, x_{i 5})}^{T}$ ，其中 $x_{i}$ 是均值为0，协方差矩阵为 $Σ = {(σ_{i j})}_{p \times p}, σ_{i j} = {0.5}^{| i - j |}, 1 \leq i, j \leq p$ 的五维多元正态随机向量。真实的回归参数 $β_{0} = (1, 1, - 1, - 1, - 1)$ ，样本量为 $n = 200$ 或1000，每次实验重复500次。

本文考虑四种方法进行比较：第一种方法是本文提出的以逻辑回归系数 $\frac{{\hat{β}}_{\log}}{‖ {\hat{β}}_{\log} ‖}$ 为初始点的MKL方法；第二种方法是Logistic回归，是目前最流行的二分类方法；第三种方法是基于高斯核函数的支持向量机(SVM)；第四种方法是随机森林(RF)；第五种方法是神经网络(Net)，实现了一个包含3个隐藏层的神经网络。其中所有方法的分类阈值均通过约登指数来确定，即找到ROC曲线的最佳临界点。

对于上述四种方法，本文使用准确率(Accuracy)、精确率(Precision)、查全率(Recall)和F₁分数四个定性指标进行评价，如式(8)~(11)所示。准确率能够判断总体的正确率，但是在样本不均衡的情况下，并不能作为很好的指标来衡量结果。精确率是针对预测结果而言的，代表了对正样本结果中的预测准确程度。召回率是针对原样本而言的，以精确率还是以召回率作为评价指标，需要根据具体问题而定，所以可以进一步比较F₁分数，F₁分数同时考虑了精确率和召回率，让两者同时达到最高，取得平衡。此外，还以秒为单位计算时间，计算了各方法500次模拟的时间的平均值。所有数值结果见表1。

$A c c u r a c y = \frac{T N + T P}{T N + T P + F N + F P}$ ， (8)

$P r e c i s i o n = \frac{T P}{T P + F P}$ ， (9)

$R e c a l l = \frac{T P}{T P + F N}$ ， (10)

$F_{1} = 2 \times \frac{P r e c i s i o n \times R e c a l l}{P r e c i s i o n + R e c a l l} .$ (11)

Table 1. Comparison of results for different sample sizes in five methods

表1. 五种方法不同样本量的结果对比

可以看出，对于不同模型和不同的样本量，本文提出的MKL方法和其他传统的四种方法的分类效果很接近，也就是说，MKL方法是可用的甚至有较强的竞争力。就模型一具体来说，在样本量较小的时候，因为真实模型就是逻辑回归，所以Logistic回归方法的分类性能是最好的，其准确率、精确率都是最高的，这符合我们的预期，同时MKL方法的分类性能也相对较好，其准确率仅次于Logistic回归，且精确率是最高的。三种模型中，支持向量机和随机森林方法的各项指标都是最低的，且出现了较大的偏差，说明模型质量较差，模型稳定性也不是很好。当样本量增大时，应用于三种模型的五种分类方法的性能均有所提升，且MKL方法的分类准确度、预测性能和模型质量均较好。同时就计算速率而言，MKL方法计算速度较快，神经网络计算速度最慢。并且，纵向比较不同模型的方法应用效果，模型二的分类效果是最高的，这就说明对于不同的数据特征，分类方法的效果也是不一样的，因此在实例中通过分析数据和样本特征，或许能更好地应用我们的方法。

4. 实例分析

心血管疾病(Cardiovascular disease, CVD)是最常见的死亡原因之一，每年造成约1700万人死亡。心血管疾病的主要原因是心肌梗死和心脏不能正常供血。医生可以根据患者的症状和临床实验室调查，通过电子病历诊断心力衰竭(Heart failure, HF)。然而，心力衰竭的准确诊断需要医疗资源和专业人员，而这些资源并不总是可用的，因此诊断具有挑战性。故而，利用机器学习算法来预测患者的病情是节省时间和精力的必要方法。

本文引用了UCI数据库中的心力衰竭临床记录数据集 [8]，该数据集包含299名心力衰竭患者，共12个特征，分别为年龄、血清钠、血清肌酐、性别、吸烟、血压、射血分数、贫血、血小板、肌酐磷酸激酶、糖尿病、随访期。因变量为二分类变量，在随访期因心脏衰竭死亡视为0，未死亡视为1。针对该数据集，本文仍然使用MKL、Logistic回归、支持向量机、随机森林和神经网络这五种方法进行模型拟合，各模型分类效果如图1所示。

Figure 1. Five methods of classification indicator comparison

图1. 五种方法分类指标对比

从图1中可以看出，本文所提出的分类模型MKL取得了最优的分类效果，其准确率(0.878)和精确率(0.875)不仅是最高的，且两者偏差十分微小，说明模型分类效果和预测性能均较好，同时F₁分数(0.71)也相对较高。对于该数据集，神经网络的分类效果也不相上下，然而其余三种方法出现了较大的偏差，尤其支持向量机因为样本不均衡原因导致准确率和精确率相差很大，模型质量最差。

5. 结论

本文的贡献在于提出了一种基于得分函数新的概率分类模型MKL，并通过拟牛顿算法直接对连续化后的MKL统计量进行优化，从理论上证明了所提出的MKL估计的一致性。该方法在模型效果上比目前最流行的分类模型逻辑回归更有优势，针对不同的数据集，MKL模型与其他传统的分类模型如支持向量机、随机森林、神经网络相比，该方法在预测能力、计算复杂度和实际可解释性方面具有很强的竞争力。同时本文将MKL方法应用到心脏衰竭数据集上，以较高的准确率(0.878)对病人是否因为心脏衰竭死亡进行了分类预测，说明我们提出的方法也可以应用到相似领域，更一般地说，对于任何二分类问题，MKL方法可能是可用的。在未来，本文所提出的模型可以考虑应用到超高维数据或者多分类问题上，改进优化算法以提高模型分类效果。

基金项目

国家自然科学基金面上项目：超高维复杂数据统计降维研究(11771215)，2018.1~2021.12。

附录

引理1证明：首先

$\begin{matrix} P (X^{T} β_{0} > t, Y = 0) = E {I (X^{T} β_{0} > t, Y = 0)} \\ = E {E [I (X^{T} β_{0} > t) I (Y = 0)] | X^{T} β_{0}} \\ = E {I (X^{T} β_{0} > t) [1 - P (Y = 1 | X^{T} β_{0})]} \\ = E {I (X^{T} β_{0} > t) [1 - f (X^{T} β_{0})]} \\ = \int I (X^{T} β_{0} > t) [1 - f (X^{T} β_{0})] d F (X^{T} β_{0}) . \end{matrix}$

令 $T = X^{T} β_{0}$ ， $π_{1} = P (Y = 1)$ ， $π_{0} = P (Y = 0)$ 。引用Fang和Chen [6]定理一中的结论，

由 $K S (t) = 1 - [\int_{- \infty}^{t} \frac{f (T)}{π_{1}} f (T) d T + \int_{t}^{+ \infty} \frac{1 - f (T)}{π_{0}} f (T) d T]$ ，令其导数为0即 $K S^{'} (t) = \frac{1 - f (t)}{π_{0}} f (t) - \frac{f (t)}{π_{1}} f (t) = 0$ ，可得 $\frac{1 - f (t)}{π_{0}} = \frac{f (t)}{π_{1}}$ ，即 $t = f^{- 1} (π_{1})$ 时KS最大。 $M K L (β_{0}, t)$ 可做以下变形：

$\begin{matrix} M K L (β_{0}, t) = P (X^{T} β_{0} \leq t | Y = 0) \log \frac{P (X^{T} β_{0} \leq t | Y = 0)}{P (X^{T} β_{0} \leq t | Y = 1)} \\ = \log {[\frac{1 - P (X^{T} β_{0} > t | Y = 0)}{P (X^{T} β_{0} \leq t | Y = 1)}]}^{[1 - P (X^{T} β_{0} > t | Y = 0)]} \\ = \log {[\frac{1 - \int_{t}^{+ \infty} \frac{1 - f (T)}{π_{0}} f (T) d T}{\int_{- \infty}^{t} \frac{f (T)}{π_{1}} f (T) d T}]}^{[1 - \int_{t}^{+ \infty} \frac{1 - f (T)}{π_{0}} f (T) d T]} \\ ≜ \log {[\frac{h (t)}{g (t)}]}^{h (t)} = h (t) \log h (t) - h (t) \log g ( t ) \end{matrix}$

其中 $h^{'} (t) = \frac{1 - f (t)}{π_{0}} f (t)$ ， $g^{'} (t) = \frac{f (t)}{π_{1}} f (t)$ ，所以

$\begin{matrix} \frac{d M K L}{d t} = h^{'} (t) \log h (t) + h^{'} (t) - h^{'} (t) \log g (t) - \frac{h (t)}{g (t)} g^{'} (t) \\ = \frac{1 - f (t)}{π_{0}} f (t) \log \frac{h (t)}{g (t)} + \frac{1 - f (t)}{π_{0}} f (t) - \frac{h (t)}{g (t)} \frac{f (t)}{π_{1}} f ( t ) \end{matrix}$

令 $\frac{d M K L}{d t} = 0$ 得 $\frac{1 - f (t)}{π_{0}} \log \frac{h (t)}{g (t)} - \frac{h (t)}{g (t)} \frac{f (t)}{π_{1}} + \frac{1 - f (t)}{π_{0}} = 0$ 。

当 $t = f^{- 1} (π_{1})$ 时，上式化为

$\log \frac{h (t)}{g (t)} - \frac{h (t)}{g (t)} + 1 = \log [1 - \frac{g (t) - h (t)}{g (t)}] + \frac{g (t) - h (t)}{g (t)} = 0$ (1)

此时即证 $t = f^{- 1} (π_{1})$ 时，(1)成立。

因为函数 $y = \log \frac{h (t)}{g (t)} = \log h (t) - \log g (t)$ ，令其导数为0

$y^{'} = \frac{h^{'} (t)}{h (t)} - \frac{g^{'} (t)}{g (t)} = \frac{1}{h (t)} \frac{1 - f (t)}{π_{0}} f (t) - \frac{1}{g (t)} \frac{f (t)}{π_{1}} f (t) = 0$ ，

$t = f^{- 1} (π_{1})$ 时，有 $\frac{1}{h (t)} - \frac{1}{g (t)} = \frac{g (t) - h (t)}{h (t) g (t)} = 0$ ，即 $g (t) - h (t) = 0$ ，故(1)成立。所以 $t = f^{- 1} (π_{1})$ 是 $M K L (t)$ 的极大值点。

下证 $t = f^{- 1} (π_{1})$ 是 $M K L (t)$ 的唯一极大值点：

假设 $t = a$ 也是 $M K L (t)$ 的极大值点( $a \neq f^{- 1} (π_{1})$ )，则有

${\frac{d M K L}{d t} |}_{t = a} = \frac{1 - f (a)}{π_{0}} \log \frac{h (a)}{g (a)} - \frac{h (a)}{g (a)} \frac{f (a)}{π_{1}} + \frac{1 - f (a)}{π_{0}} = 0$ ，即

因为 $y = \frac{1}{f (x)} - 1$ 是单调递减函数， $y = \log \frac{h (x)}{g (x)} + 1 (x > 1)$ 是单调递增函数，所以(2)只有唯一解与假设矛盾，即证 $t = f^{- 1} (π_{1})$ 是 $M K L (t)$ 的唯一极大值点。

定理1证明：在假设(3)的条件下，Y和 $X^{T} β$ 在 $X^{T} β_{0}$ 的条件下是独立的，

$\begin{matrix} M K L (β_{0}, t) = P (X^{T} β_{0} \leq t | Y = 0) \log \frac{P (X^{T} β_{0} \leq t | Y = 0)}{P (X^{T} β_{0} \leq t | Y = 1)} \\ = \log {[\frac{1 - E_{X^{T} β_{0}} \int \frac{1 - f (X^{T} β_{0})}{P (Y = 0)} I (X^{T} β_{0} > t) d F (X^{T} β | X^{T} β_{0})}{E_{X^{T} β_{0}} \int \frac{f (X^{T} β_{0})}{P (Y = 1)} I (X^{T} β_{0} \leq t) d F (X^{T} β | X^{T} β_{0})}]}^{P (X^{T} β_{0} \leq t | Y = 0)} \\ ≜ \log g {(X^{T} β_{0}, X^{T} β, t)}^{P (X^{T} β_{0} \leq t | Y = 0)}, \end{matrix}$

对于给定的 $X^{T} β_{0}$ ，并且 $β \neq \pm β_{0}$ ，若 $\frac{1 - f (X^{T} β_{0})}{P (Y = 0)} > \frac{f (X^{T} β_{0})}{P (Y = 1)}$ ，即 $X^{T} β_{0} < f^{- 1} (π_{1})$ ， $\frac{f (X^{T} β_{0})}{P (Y = 1)} \leq g (X^{T} β_{0}, X^{T} β, t) \leq \frac{1 - f (X^{T} β_{0})}{P (Y = 0)}$ 。当 $t = - \infty$ 时，g达最大值， $t = \infty$ 时，g达最小值；若 $\frac{1 - f (X^{T} β_{0})}{P (Y = 0)} < \frac{f (X^{T} β_{0})}{P (Y = 1)}$ ，即 $X^{T} β_{0} > f^{- 1} (π_{1})$ ， $\frac{f (X^{T} β_{0})}{P (Y = 1)} \geq g (X^{T} β_{0}, X^{T} β, t) \geq \frac{1 - f (X^{T} β_{0})}{P (Y = 0)}$ 。当 $t = - \infty$ 时，g达最小值， $t = \infty$ 时，g达最大值。

令 $A = {X^{T} β_{0} < f^{- 1} (π_{1})}$ ， $B = {X^{T} β_{0} > f^{- 1} (π_{1})}$ ，对 $\forall β \neq \pm β_{0}$ ，

$\begin{matrix} M K L (β_{0}, t) = \log {[\frac{1 - \int_{A} \int g (X^{T} β_{0}, X^{T} β, t) d F (X^{T} β | X^{T} β_{0}) d F (X^{T} β_{0})}{\int_{B} \int g (X^{T} β_{0}, X^{T} β, t) d F (X^{T} β | X^{T} β_{0}) d F (X^{T} β_{0})}]}^{P (X^{T} β_{0} \leq t | Y = 0)} \\ < \log {[\frac{1 - \int_{A} \frac{f (X^{T} β_{0})}{P (Y = 1)} d F (X^{T} β_{0})}{\int_{B} \frac{1 - f (X^{T} β_{0})}{P (Y = 0)} d F (X^{T} β_{0})}]}^{[1 - \int_{A} \frac{f (X^{T} β_{0})}{P (Y = 1)} d F (X^{T} β_{0})]} \\ = M K L (β_{0}, f^{- 1} (π_{1})) = M K L (β_{0}), \end{matrix}$

其中，是“<”而不是“≤”，因为等式在A和B条件下不可能同时成立，所以有 $M K L (β) < M K L (β_{0})$ (当 $β \neq \pm β_{0}$ 时)。

定理2证明：即证 $\sup_{‖ β ‖ = 1} | M K L_{n} (β) - M K L (β) | \overset{P}{\to} 0$ 。对 $\forall ε > 0$ ，

$\begin{array}{l} P (\sup_{‖ β ‖ = 1} | M K L_{n} (β) - M K L (β) | > ε) \\ \leq P (\sup_{β, t} | M K L_{n} (β) - M K L (β) | > ε) \\ = P (\sup_{β, t} | \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} \log \frac{\frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t}}{\frac{1}{n_{1}} \sum_{y_{i} = 1} I {x_{i}^{T} β \leq t}} - P (X^{T} β \leq t | Y = 0) \log \frac{P (X^{T} β \leq t | Y = 0)}{P (X^{T} β \leq t | Y = 1)} | > ε) \\ \leq P (\sup_{β, t} | \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} \log \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} - P (X^{T} β \leq t | Y = 0) \log P (X^{T} β \leq t | Y = 0) | > \frac{ε}{2}) \\ + P (\sup_{β, t} | \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} \log \frac{1}{n_{1}} \sum_{y_{i} = 1} I {x_{i}^{T} β \leq t} - P (X^{T} β \leq t | Y = 0) \log P (X^{T} β \leq t | Y = 1) | > \frac{ε}{2}) \\ ≜ P (\sup_{β, t} A_{1} > \frac{ε}{2}) + P (\sup_{β, t} A_{2} > \frac{ε}{2}) \end{array}$

因为

$\begin{matrix} A_{1} = | \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} \log \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} - P (X^{T} β \leq t | Y = 0) \log P (X^{T} β \leq t | Y = 0) | \\ \leq | \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} - \frac{1}{n P (Y = 0)} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} | + \frac{1}{P (Y = 0)} | \frac{1}{n} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} - P (X^{T} β \leq t | Y = 0) | \\ + | \log \frac{1}{n_{0}} \sum_{y_{i} = 0} I {x_{i}^{T} β \leq t} - \log \frac{\sum_{y_{i} = 0} I {x_{i}^{T} β \leq t}}{n P (Y = 0)} | + | \log \frac{\sum_{y_{i} = 0} I {x_{i}^{T} β \leq t}}{n P (Y = 0)} - \log P (X^{T} β \leq t | Y = 0) | \\ \leq \frac{1}{P (Y = 0)} | \frac{1}{n} \sum_{i = 1}^{n} I {y_{i} = 0} - P (Y = 0) | + \frac{1}{P (Y = 0)} | \frac{1}{n} \sum_{i = 1}^{n} I {x_{i}^{T} β \leq t, y_{i} = 0} - P (X^{T} β \leq t | Y = 0) | \\ + | \log \frac{\frac{1}{n} \sum_{i = 1}^{n} I {y_{i} = 0}}{P (Y = 0)} | + | \log \frac{\frac{1}{n} \sum_{i = 1}^{n} I {x_{i}^{T} β \leq t, y_{i} = 0}}{P (X^{T} β \leq t | Y = 0)} | \end{matrix}$

所以有

$\begin{array}{l} P (\sup_{β, t} A_{1} > \frac{ε}{2}) \leq P (\frac{1}{P (Y = 0)} | \frac{1}{n} \sum_{i = 1}^{n} I {y_{i} = 0} - P (Y = 0) | > \frac{ε}{8}) \\ + P (\frac{1}{P (Y = 0)} \sup_{β, t} | \frac{1}{n} \sum_{i = 1}^{n} I {x_{i}^{T} β \leq t, y_{i} = 0} - P (X^{T} β \leq t | Y = 0) | > \frac{ε}{8}) \\ + P (| \log \frac{1}{n} \sum_{i = 1}^{n} I {y_{i} = 0} - \log P (Y = 0) | > \frac{ε}{8}) \\ + P (| \log \frac{1}{n} \sum_{i = 1}^{n} I {x_{i}^{T} β \leq t, y_{i} = 0} - \log P (X^{T} β \leq t | Y = 0) | > \frac{ε}{8}) \to 0 \end{array}$

同理 $P (\sup_{β, t} A_{2} > \frac{ε}{2}) \to 0$ ，故 $\sup_{‖ β ‖ = 1} | M K L_{n} (β) - M K L (β) | \overset{P}{\to} 0$ 得证。

参考文献

[1]	Cramer, J.S. (2002) The Origins of Logistic Regression. Tinbergen Institute Discussion Papers No. 2002-119/4. https://doi.org/10.2139/ssrn.360300
[2]	Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
[3]	Cortes, C. and Vapnik, V. (1995) Support-Vector Networks. Machine Learning, 20, 273-297. https://doi.org/10.1007/BF00994018
[4]	Lecun, Y., Bottou, L., Bengio Y. and Haffner, P. (1998) Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86, 2278-2324. https://ieeexplore.ieee.org/document/726791 https://doi.org/10.1109/5.726791
[5]	Zhang, S.C., Li, X.L., et al. (2007) Learning k for kNN Classification. ACM Transactions on Intelligent Systems and Technology, 8, 1-19. https://doi.org/10.1145/2990508
[6]	Fang, F. and Chen, Y. (2018) A New Ap-proach for Credit Scoring by Directly Maximizing the Kolmogorov-Smirnov Statistic. Computational Stats & Data Analysis, 133, 180-194. https://doi.org/10.1016/j.csda.2018.10.004
[7]	Guerrero, V.M. and Johnson, R.A. (1982) Use of the Box-Cox Trans-formation with Binary Response Models. Biometrika, 69, 309-314. https://doi.org/10.1093/biomet/69.2.309
[8]	Chicco, D. and Jurman, G. (2020) Machine Learning Can Predict Survival of Patients with Heart Failure from Serum Creatinine and Ejection Fraction Alone. BMC Medical Informatics and Decision Making, 20, 1-16. https://doi.org/10.1186/s12911-020-1023-5

为你推荐

友情链接