1. 引言
随着数字经济深入发展与企业集团化经营程度不断加深,财务数据的规模、结构复杂程度以及更新频率均呈指数级上升。审计对象由原来的结构化账务信息,逐步扩展到业务系统日志、合同文本、非结构化凭证影像等各种各样的数据形态[1]。与此同时,审计准则对注册会计师和内部审计人员提出了更高要求——需在有限的审计资源下,用风险导向的方法取得合理保证,履行独立经济监督的职能。然而,依靠人工抽样与经验判断的传统审计模式,在审计覆盖面、风险识别及时性、审计证据整合能力等方面,日益暴露出结构性瓶颈。
近些年来,以机器学习、自然语言处理、流程自动化等为代表的人工智能(Artificial Intelligence,简称AI)技术,开始被应用到审计实践当中,用以支撑审计数据处理、风险评价、异常识别等重要环节[2]。实践中人工智能被广泛认为是提高审计效率的重要技术手段,但现有研究大多停留在技术赋能层面的功能罗列上,对于人工智能如何嵌入审计监督职能、怎样影响审计职业判断,以及其对审计效能的实质性作用机制,缺少系统的理论解构和经验证据。
更严重的是,将效率的提升等同于审计质量的提高,容易忽略掉在审计工作中应用人工智能时所引发的关于审计责任划分、算法可解释性以及审计证据的属性等一系列深层次学术上的争论。因此,有必要在审计学科框架内,对人工智能驱动的审计效能提升机制进行重新审视。
本文立足审计监督职能数字化转型背景,将研究对象界定为“以财务信息为载体的审计监督活动”,从以下问题入手进行分析:第一,人工智能通过怎样的机制嵌入审计流程并影响审计效能;第二,人工智能应用是否在实践中显著改善了审计效能;第三,在人机协同环境下,审计职业判断和审计责任边界应该怎样界定。本文试图在理论分析和案例证据相结合的情况下,给审计智能化研究提供更加审计学本位的解释途径。
2. 理论基础与研究假设
2.1. 审计监督职能与审计效能的界定
根据中国注册会计师审计准则第1101号的规定,审计的根本目的是对财务报表是否由于舞弊或错误造成重大错报,获取合理的保证,发表独立审计意见[3]。从审计学视角来看,审计不仅是一项技术性的核对工作,它还是一种制度化的经济监督。
审计效率不是单一的审计效能,审计效能包含审计效果、审计效率、经济性、合规性等几个方面。仅用审计工时、周期的缩短来衡量审计改进,很容易忽略审计风险覆盖、职业判断质量、治理价值等核心维度。因此,在人工智能背景下讨论审计改进,应该把效率放在效能的框架下考察。
2.2. 人工智能嵌入审计流程的作用机制
风险导向审计框架下审计流程可以分为数据获取、风险评估、实质性程序、审计结论这四个阶段。人工智能的加入,主要是从以下方面影响审计效能:一是利用全样本数据分析能力,解决传统抽样审计覆盖不足的问题;二是用算法模型辅助识别异常模式,提高风险评估的及时性和一致性;三是用自动化处理释放审计人员在重复性工作上的时间限制,使审计人员把更多的精力投入到职业判断和复杂问题分析上[4]。
人工智能并没有直接取代审计判断,它通过改变信息处理结构来影响审计决策环境。该机制决定了人工智能对审计效能的影响是有条件的、有边界的。
2.3. 研究假设
基于上述分析,本文提出以下研究假设:
H1:人工智能应用能够显著提升审计项目的样本覆盖率,从而改善审计效能。
H2:人工智能应用能够缩短审计风险识别响应时长,提高审计过程效率。
H3:在人机协同程度较高的审计项目中,人工智能对审计效能的提升效果更加显著。
3. 研究设计与方法
3.1. 研究对象与样本选择
本文采用案例型准实证研究方法,以人工智能嵌入审计流程的实际应用效果为研究重点,选取两家已在财务审计中引入人工智能审计工具的大型企业内部审计部门作为研究对象。两家企业在业务规模、组织复杂度以及审计职能的设置上具有很强的可比性,并且在研究期内一直从事常规的财务审计工作[5]。其中,案例企业A从2023年开始,在所有的财务审计项目中全面使用智能审计系统,使人工智能嵌入到审计流程当中;案例企业B采取的是试点推进方式,只在一些高风险或者重点审计项目中使用人工智能分析模块。研究样本包含2022到2024年三年共36个财务审计项目,利用人工智能应用前、后及不同深度审计效果的比较方法,提高研究结论的解释力和内部一致性。
3.2. 数据来源与处理
本文所用数据主要来源于案例企业内部审计项目档案,即审计工作底稿、风险评估记录、异常事项清单、审计工时统计数据等一手资料。为了遵守数据安全和保密的要求,所有数据在获取过程中都做了脱敏处理,没有涉及到具体的企业名称、个人身份信息或者敏感的商业信息。本文对原始数据进行了系统的清洗,用合理的补充或者剔除方法处理缺失值,核查和修正明显异常的数据,保证样本数据在时间维度、项目维度上完整、一致,为后面分析提供可靠的数据基础。
3.3. 变量定义与测度
为全面了解人工智能的应用对审计效能的影响,本文从审计效率、审计质量两个方面对审计效能进行操作化测度[6]。具体来说,审计效能的衡量指标包含单个审计项目的完成周期、审计样本覆盖率、异常识别准确率和人工工时占比等,其中审计周期和人工工时占比反映的是审计效率的变化情况,样本覆盖率和异常识别准确率反映的是审计质量以及风险识别能力。解释变量采用是否部署智能审计系统及其在审计流程中占的比例来衡量,反映人工智能在不同审计项目中的嵌入程度。以上变量的设定可以多方面地刻画人工智能对于审计效能的综合影响。
4. 人工智能嵌入审计流程的机制分析
4.1. 全样本分析与审计覆盖机制
在传统的审计模式下,由于受到时间、人力、成本等各方面的限制,审计人员一般会采用抽样的方式对财务数据进行核查,这样虽然可以减少审计的工作量,但是也必然会存在审计覆盖面不够、风险被忽略的情况[7]。案例分析显示,引入人工智能技术后,审计项目的数据分析方式由抽样核查转向基于全样本数据的系统性分析,审计覆盖率由原先平均约35%提升至90%以上。人工智能依靠强大的数据处理和计算能力,在很短的时间内可以对所有的财务交易记录进行扫描和比对,从而大大降低重大错报未被发现的几率。在审计证据方面,全样本分析提高了审计证据的充分性,使审计结论不再过分依赖于有限样本的外推结果,给审计人员进行风险导向审计提供更加坚实的数据基础。
4.2. 智能风险评估与职业判断接口
人工智能在审计风险评估中起到的核心作用就是通过对历史审计数据、业务数据的学习,得到风险评分或者风险排序的结果,给审计人员找出重点审计领域提供决策支持。案例表明智能风险评估模型可以比较稳定地识别出高风险账户、高频异常交易和异常业务模式,提高风险识别的一致性以及及时性。但人工智能产生的风险等级并不能等同于审计判断的结果,扩大实质性程序、调整审计重点等需要审计人员结合被审计单位的经营情况、内部控制状况、自身的专业经验做出综合的判断。这体现出人工智能同审计职业判断之间的接口关系,也就是人工智能担负着信息筛选和风险提示的任务,但最后的审计决定还是要由审计人员依照职业怀疑原则来做出,从而产生出一种“人机协作”而非“判断取代”的审计模式。
4.3. 异常识别算法与误报风险
异常识别阶段,人工智能利用模式识别、异常检测算法对不符合正常交易特征的数据进行标记,大大提高了异常识别的召回率。通过案例分析发现,引入智能异常检测模型之后,审计项目中被发现的潜在异常事项数量明显增多,一些以往人工抽样很难发现的异常交易被提前暴露出来。但召回率提升的同时,误报风险亦随之存在,即部分被算法识别为高风险的事项,经过审计人员进一步核查后被判定为正常业务行为。由此可以看出,人工智能在异常识别中更倾向于“广覆盖”的风险提示逻辑,其输出结果不能直接作为审计结论的依据,而应该作为审计人员进行进一步分析和判断的起点。因此,在审计实践中,需要人工复核机制来筛选算法的结果,防止误报对审计判断造成干扰。
4.4. AI生成内容的审计证据属性
随着自然语言处理等技术的发展,人工智能已能够根据审计分析结果自动生成文字性分析报告或审计摘要,从而提高审计报告编制效率。从审计学的角度来看,AI生成内容的证据属性要谨慎界定[8]。案例显示,此类自动生成的分析报告本质上是对已有数据和模型输出结果的再加工,其信息来源仍然依赖于底层数据与算法设定,缺乏独立性和直接验证性。因此,AI生成的内容更适合用作辅助审计信息,而不是直接构成审计证据。审计人员在运用相关分析结果的时候,仍然需要结合原始审计证据进行核查、验证,在审计工作底稿中记录人工复核的过程,保证审计证据的适当性和审计结论的可靠性。
5. 人工智能应用对审计效能的案例分析
5.1. 案例选择背景与人工智能审计系统部署情况
本文以已经引入人工智能审计工具的企业内部审计部门为研究对象,选取了两家在财务审计中应用此类工具的大型企业。两家企业均具有业务规模大、交易结构复杂、审计项目数量多等特征,且在研究期内一直进行常规的财务审计工作,具备较好的可比性。其中,案例企业A在2023年初就对全部的财务审计项目进行了智能审计平台的部署,人工智能技术被嵌入到审计数据分析、风险评估、底稿生成等核心环节之中;案例企业B采用的是渐进式应用路径,只在一些高风险审计项目中引入了智能分析模块。
两家企业所用的AI审计系统都把企业的ERP系统、财务共享平台、业务系统的数据当作主要数据源,用机器学习算法对历史审计数据进行训练,用规则引擎实现异常识别和风险预警。为了控制非技术因素的影响,本文选择人工智能应用前后审计目标、审计范围、审计团队规模基本相同的项目进行对比分析,从而提高案例结论的内部有效性。
5.2. 模型训练过程与特征工程
5.2.1. 训练数据来源与标签构建
本研究所使用的训练数据来源于案例企业A 2019~2023年内部审计历史数据库及ERP系统采购、费用报销模块数据,共整理原始交易数据523,846条(表1)。在清洗异常空值、重复记录后,保留有效样本498,215条。其中,根据历年审计结论、问题整改报告及纪检调查结果,对交易记录进行标签化处理,将已确认存在舞弊或违规情形的交易定义为“1”(异常样本),正常交易定义为“0”(正常样本)。最终形成监督式学习训练集,其中异常样本占比约4.8%,呈现典型的不平衡数据特征。
Table 1. Composition of training samples
表1. 训练样本构成情况
样本类别 |
样本数量 |
占比 |
正常交易(0) |
474,350 |
95.2% |
异常交易(1) |
23,865 |
4.8% |
合计 |
498,215 |
100% |
针对样本不平衡问题,采用SMOTE过采样方法对少数类进行扩充,提高模型对异常样本的识别能力,避免模型偏向多数类。
5.2.2. 特征变量设计
为提高模型对异常交易识别的解释能力与稳定性,本研究围绕金额、时间、行为模式及关联关系四个维度构建特征变量体系,共设计初始特征变量32个,经相关性筛选后保留21个核心变量。
1) 金额异常特征
金额异常特征主要用于识别异常金额波动及规避审批权限行为,包括单笔金额偏离度、同类供应商均值偏差率、接近审批上限比例等指标。研究发现,异常交易在金额分布上明显集中于审批权限临界值附近(表2)。
Table 2. Example of abnormal characteristics of amount
表2. 金额异常特征示例
特征名称 |
正常交易均值 |
异常交易均值 |
金额标准差偏离度 |
0.82 |
2.47 |
审批上限接近度(%) |
18% |
63% |
同类供应商金额偏差率 |
6% |
29% |
结果表明,异常样本在金额波动性和审批临界规避方面显著高于正常样本。
2) 时间异常特征
时间异常特征用于识别非正常时间节点发生的交易行为,包括月末集中付款频率、节假日前付款比例、非工作时间付款比例等变量。分析发现,异常交易更倾向集中于财务结账周期前后(表3)。
Table 3. Comparison of time anomaly characteristics
表3. 时间异常特征对比
特征名称 |
正常交易 |
异常交易 |
月末3日交易占比 |
12% |
41% |
非工作时间交易占比 |
4% |
19% |
季度末交易集中度 |
15% |
38% |
该结果表明时间集中性是重要风险信号。
3) 交易频率特征
交易频率特征用于识别异常高频、小额拆分支付等行为模式,包括同一供应商7日内交易次数、连续小额支付次数等指标(表4)。
Table 4. Comparison of transaction frequency characteristics
表4. 交易频率特征对比
特征名称 |
正常交易均值 |
异常交易均值 |
7日内交易次数 |
1.3次 |
4.8次 |
连续小额支付次数 |
0.6次 |
3.1次 |
同审批人集中审批率 |
21% |
67% |
可以看出,异常交易明显呈现高频、集中审批特征。
4) 关联方特征
关联方特征用于识别潜在关联交易风险,包括银行账户重复度、地址相似度、法人重合度等变量。通过图数据库构建供应商关系网络,计算节点相似度指标(表5)。
Table 5. Examples of related party characteristics
表5. 关联方特征示例
特征名称 |
正常样本 |
异常样本 |
银行账户重复率 |
0.3% |
8.7% |
地址相似度指数 |
0.12 |
0.68 |
法人重合比例 |
0.5% |
11.4% |
结果显示,异常交易在关联关系网络中具有显著聚集效应。
5.2.3. 模型选择与参数优化
为提高模型识别准确率与稳定性,本文分别构建随机森林(Random Forest)、XGBoost及孤立森林(Isolation Forest)三类模型进行对比分析,结果如表6所示。
随机森林模型通过构建200棵决策树进行集成学习,最大深度设为10,最小叶节点样本数为5。该模型对变量重要性排序较为清晰,适用于解释性要求较高的审计场景。
XGBoost模型采用梯度提升框架进行优化,学习率设置为0.1,树深度为8,子样本比例为0.8。其在处理不平衡样本方面表现更优,模型AUC达到0.91,高于随机森林的0.87。
在无标签场景下采用孤立森林进行异常检测,通过构建100棵随机切分树识别异常路径长度较短的样本。孤立森林对未知异常识别能力较强,但误报率相对较高。
Table 6. Comparison of model effects
表6. 模型效果对比
模型 |
准确率 |
召回率 |
AUC值 |
随机森林 |
85% |
72% |
0.87 |
XGBoost |
88% |
79% |
0.91 |
孤立森林 |
81% |
84% |
0.86 |
综合考虑识别效果与可解释性,最终在监督学习场景下选择XGBoost作为核心模型,在未知风险探索场景中辅以孤立森林模型进行辅助识别。
5.3. 人工智能对审计质量与风险识别能力的影响
除效率指标外,人工智能对于审计效能的影响还包括审计质量以及风险识别能力的变化。案例分析发现,在引入智能审计系统之后,两家企业审计项目中发现的异常交易数量明显增多,有的异常事项之前在人工抽样审计的时候并没有被注意到。经过对异常事项的人工复核可知,智能模型对于识别非常规交易路径、异常金额组合、高频重复交易等有较好的效果。
但是案例也表明,人工智能在提高异常识别召回率的同时,也存在着一定的误报。部分被系统标记为高风险的交易,经过审计人员结合业务背景和专业判断后,就被排除在重大审计事项之外。这说明人工智能更适合做风险提示和决策支持工具,而不是直接取代审计判断,它对审计质量的提高依靠审计人员对算法输出结果的合理解释和筛选。
5.4. 案例分析的稳健性与局限性讨论
为了保证案例结论的稳健性,在分析过程中对审计项目类型、审计人员经验水平、企业内部控制环境等变量进行了控制,用人工智能应用前后多个审计周期的数据变化来减少偶然性的影响。但是本研究还存在一定的局限性。
案例样本量小,研究结论主要反映大型企业内部审计情境,不能直接推广到中小会计师事务所或者资源受限的审计机构。审计效能的提高,一部分是由于流程再造和管理优化所引起的,而不仅仅是因为人工智能技术本身所导致的,存在一定的内生性问题。以上局限说明以后的研究可以扩大样本范围或者采用准实验的方法,对人工智能审计效能进行进一步的验证。
6. 审计学视角下的AI应用边界与理论调适
6.1. 审计职业判断的不可替代性与人机协同逻辑
从审计学本体论的角度看,审计职业判断是审计活动的核心要素之一,它的本质就是审计人员依靠自己的专业知识、经验积累和职业怀疑,对不确定的信息做出综合判断。虽然人工智能在数据处理、模式识别上具有效率上的优势,但是它的判断逻辑仍然依靠已有的数据和算法的设定,不能全面地覆盖到复杂经济行为中的制度背景、管理动机。
案例分析显示,人工智能更适合做信息筛选和风险提示的工作,但是最终的审计结论还是需要审计人员来做出。人机协同审计模式没有削弱审计人员的作用,而是用技术工具来改变审计判断的环境,进而提高职业判断的针对性和有效性。
6.2. 算法黑箱特性与审计透明度问题
人工智能模型,特别是基于深度学习的算法,普遍存在着可解释性不好的问题,它的决策过程不能完全被追溯。算法黑箱特性在审计情境下更加明显,因为审计结论须经得起监管审查、法律责任认定及利益相关者质询等多方面的解释与验证。
当审计风险评估或者异常识别高度依赖算法输出时,如果审计人员不能清楚地说明模型判断的依据,就会削弱审计结论的透明度和可辩护性。因此,审计实践中应当对人工智能模型的应用范围加以限制,把人工智能模型主要用于辅助分析,借助人工复核、专业解释弥补算法透明度不足的问题。
6.3. 人工智能环境下的审计责任划分问题
在目前的审计准则框架下,审计责任一直由注册会计师或者审计机构承担,人工智能作为技术工具并不具有法律意义上的责任主体地位。即使审计判断过程中大量使用人工智能系统,其输出结果也不能成为免除审计责任的依据。
从案例分析可以看出,审计人员把人工智能识别出的结果当成参考信息,在审计工作底稿里注明人工复核的过程。这样可以确定责任的归属,防止出现算法替代责任的模糊地带。从制度上讲,有必要在审计准则或者行业指引中对智能审计工具的使用边界、责任承担原则作出明确的规定。
6.4. 审计准则在智能审计情境下的适配与发展
人工智能的广泛应用对现行审计准则提出了新的适应性要求。一方面,准则中有关审计证据充分性、适当性的要求,需回应智能分析结果的证据属性问题;另一方面,准则中对于职业判断、职业怀疑的原则性要求,亟待在智能审计环境下具体化。
从长远来看,审计准则应当在坚持“人要对审计负责”这一基本原则的基础上,为人工智能在审计中的合理使用留出制度空间,比如规定智能工具在风险评估、样本选择等环节起到的辅助作用,从而促进审计智能化的规范发展。
7. 结论
本文从审计监督职能出发,分析了人工智能嵌入审计流程的作用机理,并采用案例研究来验证其对审计效能的促进作用。从研究结果可以看出,人工智能在提高审计覆盖率、过程效率方面具有明显的优势,但它的应用效果与人机协同程度、制度环境有关。本文的贡献在于将人工智能审计研究重新锚定在审计学理论框架上,给审计智能化的规范发展提供了学理支撑。