1. 引言
纳税评估是对纳税人纳税能力的估测,并据此对纳税人实际缴纳税款的真实性做出评估。虽然,纳税人的真实纳税能力很难准确计算出来,但其纳税异常虚假情况却能通过纳税人相关纳税指标分析评估出来 [1]。纳税评估是一种在信息化条件下的风险审查纠错机制,是申报征收与税务稽査之间的一道屏障,也是构建税收征管体系架构之关键。纳税评估已经成为税务机关新时期强化税源管理、为纳税人提供深层次的服务、促进诚信纳税的一种具有综合效益的征管手段,运用科学、合理的评估手段,降低评估风险和成本,提高纳税评估工作的整体效率和效果,成为了纳税评估工作的关键问题 [2]。
纳税评估在发达国家已形成成熟的系统理论,Allingham和Sandmo首次提出了“主动纳税行为评估”问题,建立了规范性计量经济模型 [3] ,其研究结果从理论上证明逃税规模与稽查处罚的概率存在负相关等有意义的结论,然而工作远未结束,这个数学模型方法的先行者受到很多批评,比如Graetz等 [4] ,Alm等 [5] 以及Frey和Feld [6] 等,其主要原因是依法纳税在理论上的评估和实际情况下的事实相差很大,所以这种经济模型对逃税的预测能力较弱,不具有实用价值。根据Graetz和Wilde,Alm,McClelland和Schulze的研究结果,美国“风险厌恶Arrow-Pratt测度”基本上只介于1和2中,但是实际观察到的依法纳税率却高达30%,存在很大的差距;而且,根据实证结果显示,多数情况下纳税人的营业收入申报额要高于模型的预测值,所以为了解决这个问题,很多专家把道德因素添加到此模型中,希望能得出更为合理的结论,但是在Andreoni [7] 的文中,他指出这个问题没有得到很好的解决,仍然需要研究。
能对纳税评估问题进行定量分析首先要得益于计算机数据库的建立和计量经济学的发展,在文献 [8] 中,Erard对来自IRS的数据分析,建立回归方程来研究违规行为、纳税准备方式和稽查效率之间的关系,得到了边际税率、税务中介及遵从度之间的相关度。在文献 [9] 中,Frey等人用加权有序Probit模型给依法纳税相关变量排序,并可解释变量之间的相互影响程度,测算出边缘效果。这一指标能定量反映纳税人依法纳税程度变化的趋势与规模。但在文献 [10] 中,Frey指出模型中的威慑因素还是起的作用不大,这一问题在学术界还有争论。
在我国,政府部门积极地与科研院和高等院校合作,相继推出了一系列理论和应用成果。值得一提的是国家自然科学基金课题“金融数学、金融工程及金融管理”的子课题“税收系统工程研究” [11] ,从理论和应用层面上加强了对纳税评估的深度研究。李选举用判别分析法建立了逃税额估测模型,这是国内首次应用数学统计的方法来建立税务稽查模型,具有很好的借鉴意义 [12]。钱澄鉴等学者在研制的税务稽查决策支持中,运用峰值分析和推断方法,建立了税负模型、偷漏增值税模型 [13]。上海财经大学“税收征管系统工程研究”课题组则运用贝叶斯、函数变换方法建立税收诚实申报识别指标体系 [14]。中国台湾大学管理学院会计系在“台湾收入署”协助下,基于神经网络方法进行诚实申报的判别研究,取得较好效果 [15]。马庆国、王卫红、陈健等通过建立网络模型对企业纳税人申报情况的诚实度进行识别和预测,效果显著 [16]。
在进行纳税评估时,有一个很重要的环节,即纳税评估指标的选取,选择的指标合理才能公正地对企业进行评估。吴曲峰将财务报表与纳税评估相结合,将纳税指标进行分类,从财务指标的异常变动中,发现企业存在的税务风险 [17]。崔丽对整个指标体系进行了完善,不仅考虑了财务指标,还添加了非财务指标,对本文的指标选取有很重要的借鉴意义 [18]。李奇以超级市场零售行业为例进行了纳税评估研究,分析了该行业的行业特点,结合税源监控和纳税评估模型对具体案例进行了应用分析 [19] ,对本文选取的厦门地区超市零售行业的纳税评估研究有指导作用。
黄哲指出健全的纳税评估法制是进行纳税评估工作的基础,所以国家颁布的《税收征管法》应严格规定纳税评估的法律地位,健全评估制度,使各部门之间的工作能够统一衔接 [20]。尽管目前纳税评估实践在慢慢趋于成熟,但是要解决的问题还有很多,洪江指出了当前亟需解决的四个主要问题,分别是纳税评估的信息化建设、评估工作的方式方法、评估机构设置和评估队伍的整体素质的提升 [21] ,本文在建立模型时也会参考这几点突出问题。
2. 递归神经网络
Jordon在1986年第一次提出了递归神经网络,其网络结构如图1所示。
在这个网络结构中,我们以4个神经元为例,神经元4是输入神经元,神经元1、2和3是全互联神经元,同时神经元3是输出神经元。输入神经元不进行任何运算,只负责把输入的信号传送到各互联神经元;而互联神经元具有自身反馈的特点,不仅接受来自输入神经元和其他互联神经元的输出,还要接受自身的输出,形成自环;输出神经元可以是互联神经元的一部分或者是全部。
设递归神经网络有m个输入神经元,n个全互联神经元,而输出神经元是n个神经元中一部分。则RNN网络的动态特性可由下式表示:
(1)
(2)
式中:
是神经元k在t时刻的输出;
为时间常数;
是神经元l指向神经元k的权值;d是计算步长。
误差准则函数:
(3)
可根据最速下降法来修正权值,即有:
(4)
(5)
此处,
;
(6)
(7)
为Kronecker delta函数
(8)
递归神经网络(RNN)的学习步骤如下:
1) 给定初始权值,学习速度Z,惯量因子T,误差限值A和最大学习次数N;
2) 读入样本集{A(t), H(t)};
3) 计算每一个互联神经元在(t + 1)时刻的输出;
4) 修正权值;
5) 计算误差E,若E小于给定误差限值A,则退出计算;否则进入步骤3重新学习。
3. 基于RNN的纳税评估模型
本文将厦门市某区超市零售企业的相关纳税数据作为数据样本,建立了此行业的纳税评估预警模型。
3.1. 纳税评估的背景
纳税评估的工作处于前台征收和后台稽查之间,是税收管理的一个基本环节,通过纳税评估可以发现有纳税疑点的企业,为税务稽查提供稽查案例,使稽查工作目标明确,有针对性,避免了以往的随意性和盲目性,从而降低税务成本。税务工作的主要内容有信息登记、申报征收、纳税评估和税务稽查等,具体的信息流程和业务流程如图2和图3所示。
3.2. 预警指标选取
本文根据超市零售业的产业结构特点,结合数据来源的准确性和可获得性,选取了8个主要指标作为评估预警模型的输入并对各指标进行编码,如表1所示。
3.3. RNN模型构建
3.3.1. 网络结构设计
本文选取了8个纳税指标,所以将输入层的神经元节点设为8个,为了更好的表示企业存在纳税问题的情况,可以对疑点的确定度采用三类模式进行分类,所以输出层的神经元节点为3个,具体的模式分类如下。

Table 1. The index data and coding
表1. 指标数据及编码
将输出层对样本的输出向量定义为h = [h1 h2 h3],当输出向量是h = [1 0 0]时,表示企业存在纳税问题的可能性较大,当输出向量是h = [0 1 0]时,表示企业存在纳税问题的可能性一般,当输出向量是h = [0 0 1]时,表示企业存在纳税问题的可能性很小。
中间隐含层的神经元节点数,用下面的公式确定:
(9)
式中:n—隐层节点数;
—输入节点数;
—输出节点数;b—1~10之间的常数。
通过多次反复的试验和计算,将隐含层的神将元节点定为6个,可以更好的对企业的纳税情况进行评估,最终建立的RNN网络模型结构是
。模型的表达式为:
(10)
传递函数
采用Logistic函数,如下:
(11)
3.3.2. 样本训练及结果检验
根据已建立的RNN网络结构的特性再结合相关领域专家们的建议,本文选取了150个具有较高可信度的企业数据样本作为训练和测试对象。这些企业的数据接受过年度税务稽查,所以将纳税数据作为输入,稽查结果转化为输出向量后作为输出层的输出目标值。具体输入如表2所示。
在Matlab7.0环境下选取RNN学习方法进行训练。选取误差精度为
,性能函数为mse,
,经过458步迭代后,网络达到稳定状态并收敛。
通过对训练样本进行模拟仿真,可以检验实际输出与期望输出之间的拟合度,根据仿真结果显示,本文的纳税评估预警模型对训练样本可以实现正确率高达92%的分类。为进一步进行验证,将作为测试对象的数据代入此模型,利用仿真对测试样本进行分类。结果如表3所示。
由表3可知,对测试样本的分类基本上是正确的,其中的两个误判是将在稽查结果中没有纳税问题和纳税问题一般的企业误判为纳税问题大的企业。这可能是由于存在纳税问题的企业在稽查过程中被遗漏造成的,所以产生误判也是有可能的。

Table 3. The contrast on inspection results and samples outputs
表3. 稽查结果与样本输出对比
纳税评估预警模型的建立是为了筛选出有可能存在纳税问题的企业,从对训练样本和测试样本的模拟仿真结果来看,没有将存在大的纳税问题的企业误判为没有纳税问题或者纳税问题一般的企业,基本上避免了逃漏税的情况,所以本文建立的预警模型的效果应该是比较好的。
4. 实验分析
本文选取了增值税税负率、销售毛利率和主营业务收入变动率等多个指标进行分析。
以增值税税负率为例,经过SPSS软件的检验,可以发现增值税税负率基本上趋于正态分布,均值为0.0537,标准差为0.0316。经检验作为训练和测试样本需要补缴企业所得税的企业中,有75%增值税税负率在置信度为65%的置信区间的下方,如果企业隐瞒了营业收入的具体情况,那么其增值税税负率很可能不在此范围。当然只靠增值税税负率来判断是比较片面的,所以同时利用销售毛利率、主营业务收入变动率、主营业务成本变动率、增值税税收贡献增长率等指标,可以帮助发现企业是否有隐瞒营业收入的问题。
本文还对主营业务收入变动率和主营业务成本变动率进行了回归分析,得到模型显著性检验的F值为302.0681,拒绝模型非显著的概率小于0.0010,因此回归模型是显著的,主营业务收入变动率和主营业务成本变动率的相关系数为0.7645,拟合的效果比较好,系数的t检验均拒绝等于零的假设。
利用主营业务收入变动率和主营业务成本变动率的回归模型,可以帮助确定企业隐瞒营业收入的指向性。因此,在进行纳税预警模型对企业进行分类后,在存在纳税问题的企业中再利用统计学的理论进行详细分析,可以更好的解决疑点指向性的问题。
5. 结语
本文根据超市零售业的产业结构特点,结合数据来源的准确性和可获得性,选取了8个主要指标作为评估预警模型的输入,预测采用递归神经网络模型。对各指标进行编码,通过递归神经网络的设计,输出预警结果,以辅助税务工作者进行正确决策。实验证明,我们的方法准确有效。下一步,数据规模比较大,我们拟考虑在大数据基础上,采用深度学习等方法来一步提升模型的准确性和适用性。