#### 期刊菜单

Credit Evaluation Based on Improved Naive Bayesian Model
DOI: 10.12677/AAM.2019.88165, PDF, HTML, XML, 下载: 971  浏览: 1,679  国家自然科学基金支持

Abstract: Along with the rapid development of consumer credit, the demand for personal credit assessment has been aroused. To help financial institutions better understand their personal credit situation, combining the advantages of Fast Independent Component Analysis method (FastICA) and Linear Discriminant Analysis (LDA) to extract data features, a credit evaluation model called FastI-CA-LDA-NB is proposed, which is based on the improved Naive Bayesian classification algorithm. Applying the model to the UCI German personal credit data set, the proposed model has a good credit evaluation effect on the two evaluation index values of accuracy rate and recall rate.

1. 引言与文献综述

2. 相关理论基础

2.1. 朴素贝叶斯算法

$P\left(y|{x}^{\left(1\right)},{x}^{\left(2\right)},\cdots ,{x}^{\left(n\right)}\right)=\frac{P\left(y\right)\underset{i=1}{\overset{n}{\prod }}P\left({x}^{\left(i\right)}|y\right)}{P\left({x}^{\left(1\right)},{x}^{\left(2\right)},\cdots ,{x}^{\left(n\right)}\right)}$ (1)

$\stackrel{^}{y}=\mathrm{arg}\underset{y}{\mathrm{max}}P\left(y\right)\underset{i=1}{\overset{n}{\prod }}P\left({x}^{\left(i\right)}|y\right)$ (2)

$P\left(y={c}_{k}\right)=\frac{\underset{j=1}{\overset{N}{\sum }}I\left({y}_{j}={c}_{k}\right)}{N},k=1,2,\cdots ,K$ (3)

$P\left({x}^{\left(i\right)}={a}_{il}|y={c}_{k}\right)=\frac{\underset{j=1}{\overset{N}{\sum }}I\left({x}_{j}^{\left(i\right)}={a}_{il},{y}_{j}={c}_{k}\right)}{\underset{j=1}{\overset{N}{\sum }}I\left({y}_{j}={c}_{k}\right)}$ (4)

${P}_{\lambda }\left(y={c}_{k}\right)=\frac{\underset{j=1}{\overset{N}{\sum }}I\left({y}_{j}={c}_{k}\right)+\lambda }{N+K\lambda }$ (5)

${P}_{\lambda }\left({x}^{\left(i\right)}={a}_{il}|y={c}_{k}\right)=\frac{\underset{j=1}{\overset{N}{\sum }}I\left({x}_{j}^{\left(i\right)}={a}_{il},{y}_{j}={c}_{k}\right)+\lambda }{\underset{j=1}{\overset{N}{\sum }}I\left({y}_{j}={c}_{k}\right)+{S}_{i}\lambda }$ (6)

2.2. 独立分量分析

ICA是信号处理领域的一种统计方法，其主要任务是把混合信号分解成若干个独立的信号。图1

ICA模型的简单表示，其中 $S=\left[{s}_{1},{s}_{2},\cdots ,{s}_{n}\right]$ 为n维未知独立成分，一般假设该n维分量的均值为0方差为1，A为 $m×n$ 维的未知混合矩阵， $X={\left[{x}_{1},{x}_{2},\cdots ,{x}_{m}\right]}^{\text{T}}$ 为m维观测变量，W为解混矩阵，ICA的主要任

Figure 1. Simple block diagram of independent component analysis

$J\left(Y\right)=H\left({Y}_{Gauss}\right)-H\left(Y\right)$ (7)

$J\left(Y\right)\propto {\left\{E\left[G\left(Y\right)\right]-E\left[G\left({Y}_{Gauss}\right)\right]\right\}}^{2}$ (8)

$G\left(\cdot \right)$ 是一个非二次函数，常用的形式有如下三个 [12]

$\begin{array}{l}{G}_{1}\left(y\right)=\frac{1}{a}\mathrm{log}\mathrm{cosh}\left(ay\right)\\ {G}_{2}\left(y\right)=\mathrm{exp}\left(-\frac{1}{2}a{y}^{2}\right)\\ {G}_{3}\left(y\right)=a{y}^{4}\end{array}$ (9)

$F\left(W\right)=E\left[XG\left({W}^{\text{T}}X\right)\right]-\beta W=0$ (10)

${W}^{*}=W-\frac{E\left[XG\left({W}^{\text{T}}X\right)\right]-\beta W}{E\left[{G}^{\prime }\left({W}^{\text{T}}X\right)\right]-\beta }$ (11)

2.3. LDA降维

LDA是一种监督降维方法，其核心思想是通过广义特征值分解把高维特征映射到低维特征，使得在

a) 计算第k类样本的协方差阵

${S}_{k}=\underset{j=1}{\overset{{N}_{k}}{\sum }}\left({X}_{\left(k\right)j}-\stackrel{¯}{{X}_{k}}\right){\left({X}_{\left(k\right)j}-\stackrel{¯}{{X}_{k}}\right)}^{\text{T}}$ (12)

b) 计算类内散度矩阵

${S}_{w}=\underset{k=1}{\overset{K}{\sum }}\frac{{N}_{k}}{N}{S}_{k}$ (13)

c) 计算类间散度矩阵

${S}_{b}=\underset{k=1}{\overset{K}{\sum }}\frac{{N}_{k}}{N}\left(\stackrel{¯}{{X}_{k}}-\stackrel{¯}{X}\right){\left(\stackrel{¯}{{X}_{k}}-\stackrel{¯}{X}\right)}^{\text{T}}$ (14)

d) 计算 ${S}_{w}^{-1}{S}_{b}$ 的前d个特征值对应的特征向量，组成投影矩阵W

e) 计算训练样本X降维后的特征数据 $Y={W}^{\text{T}}X$

2.4. FastICA-LDA-NB信用评估模型

Figure 2. FastICA-LDA-NB credit evaluation process

FastICA-LDA-NB模型的信用评估过程如下：

a) 对信用数据进行零均值、白化处理，使得模型在提取独立分量阶段取得更好的收敛性。

b) 通过FastICA方法提取独立分量。

c) 利用LDA对所提取的独立分量进行降维处理。

d) 对降维后的数据随机划分为训练集和测试集。

e) 利用训练集训练NB算法模型。

f) 使用训练后的NB算法对测试集测试，从而获得个人信用评估结果。

3. 实验与结果分析

3.1. 实验数据与评价指标

$\begin{array}{l}P=\frac{TP+TN}{TP+FP+TN+FN}\\ R=\frac{TP}{TP+FN}\end{array}$ (15)

3.2. 实验过程

3.3. 实验结果与分析

Figure 3. Boxplot with accuracy P

Figure 4. Boxplot of recall rate R

Table 1. Comparison of P and R indicators of five models (%)

FastICA能够分离出相互独立的特征，刚好满足NB算法的独立性假设。但是不确定分离出来的特征对分类任务的重要性，如果存在特征冗余问题，那么反而会降低NB算法的分类准确率。所以本文有机结合了FastICA、LDA和NB的优势，构造了FastICA-LDA-NB模型，并取得较好的实验效果，因此在个人信用评估领域有一定的价值意义。

4. 结语

NOTES

*通讯作者。

 [1] 朱毅峰, 孙亚南. 基于神经网络的微型企业信用评估特征选择及其效果评价[J]. 统计与信息论坛, 2008, 23(4): 48-51. [2] 姜明辉, 姜磊, 王雅林. 线性判别式分析在个人信用评估中的应用[J]. 管理科学, 2003, 16(1): 53-55. [3] 张国政, 陈维煌, 刘呈辉. 基于Logistic模型的商业银行个人消费信贷风险评估研究[J]. 金融理论与实践, 2015(3): 53-57. [4] 李旭升, 郭耀煌. 基于朴素贝叶斯分类器的个人信用评估模型[J]. 计算机工程与应用, 2006, 42(30): 197-201. [5] 叶晓枫, 鲁亚会. 基于随机森林融合朴素贝叶斯的信用评估模型[J]. 数学的实践与认识, 2017, 47(2): 68-73. [6] 徐屾. 基于改进朴素贝叶斯方法的个人信用评估研究[D]: [硕士学位论文]. 武汉: 华中科技大学, 2015. [7] 秦锋, 任诗流, 程泽凯, 等. 基于ICA方法的朴素贝叶斯分类器[J]. 计算机工程与设计, 2007, 28(20): 4873-4874. [8] 李楚进, 付泽正. 对朴素贝叶斯分类器的改进[J]. 统计与决策, 2016(21): 9-11. [9] Hyvarinen, A. (1999) Fast and Robust Fixed-Point Algorithms for Independent Component Analysis. IEEE Transactions on Neural Networks, 10, 626-634. https://doi.org/10.1109/72.761722 [10] 董虎胜. 主成分分析与线性判别分析两种数据降维算法的对比研究[J]. 现代计算机, 2016(29): 36-40. [11] 万坚, 涂世龙, 廖灿辉, 等. 通信混合信号盲分离理论与技术[M]. 北京: 国防工业出版社, 2012: 36-60. [12] He, X.S., He, F. and He, A.L. (2017) Super-Gaussian BSS Using Fast-ICA with Chebyshev-Pade Approximant. Circuits, Systems and Signal Pro-cessing, 37, 305-341. https://doi.org/10.1007/s00034-017-0554-1