1. 引言
近年来,中央不断强调“三农”问题是关系国计民生的根本问题,明确提出要按照“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”的总要求,加快推进农业农村现代化建设,稳步推进乡村振兴战略实施[1] [2]。因此,中央财政和地方财政都在不断持续加大对农业的资金投入,农业专项资金是党和政府安排用于农业和农村经济发展及帮助农民脱贫致富并需要单独报账结算的专项资金支出,是促进农村发展、加强农业基础设施建设、提高科技含量、增加农民收入、改善农村生产、生活条件,提高农民生活水平的物质保障[3] [4]。因此,农业专项的审计尤为重要,旨在通过审计手段发现农业专项资金管理使用中的问题,真正实现为民谋福利。本文结合典型案例,研究基于Python的地理信息分析及可视化技术在农业专项审计中的具体应用,提出大数据分析的思路及模型。
2. Python在农业专项审计领域的应用
Python是完全面向对象的语言,有丰富的API和工具,可以处理多种工作,包括访问数据库、数据分析、统计分析、数据挖掘、可视化输出等。
农业专项审计是推进农业专项资金合理规范使用的有效工具之一[5]。通过对土地资源的状况进行分析,发现农业专项项目中存在的问题,针对问题提出建设性建议并督促整改,减少或防止同类问题的再次发生。
在农业专项审计中有许多数据的记录庞大,需要通过数据库进行访问、查询、统计。利用Python可直接访问数据库,进行数据处理和分析。此外,在农业专项审计中还有大量的矢量数据,它们获取后无法直接使用,需要进行数据清洗、预处理、入库等工作,然后才可以进行分析、可视化输出、成果导出等操作,这些工序都可以借助Python实现,不仅能够提高审计的真实性和效益性,还能挖掘审计事项之间非线性关系,节省时间与经济成本,提升审计工作的效率[6]。基于Python进行农业专项审计的流程如图1所示。
Figure 1. Flow chart
图1. 流程图
(1) 资料收集准备
农业专项审计具有政策多样、业务繁琐、专业性强等特点,需要提前了解审计业务,对审计对象消耗的自然资源进行全面了解,梳理所需的自然资源大数据,Python通过大数据手段,对收集到的大数据进行清洗,预处理,可视化入库,得到可用于分析评估的数据源。
(2) 农业专项审计实施
地理信息技术的应用推动了传统审计方案的变革,帮助审计人员更直观高效地识别审计疑点。基于Python的地理信息分析技术能够对比分析多源数据之间的差异,从海量数据中快速提取定位审计疑点,做到应审必审。借助Python进行数据分析,对比分析不同数据之间的差异和矛盾,并对分析结果进行可视化展示和信息挖掘,从而对结果进行结构化归纳总结,并输出为更加简明、直观的图表,挖掘审计证据之间的内在关联性,提升审计证据的可靠性。
(3) 督促整改
农业专项审计不仅是为了发现问题,更重要的是后续的跟踪整改和日后的防患于未然。基于Python的地理信息分析技术能够快速定位到问题区域,辅助现场人员进行跟踪核查,并对问题区域进行持续地跟踪调查,评价被审计对象是否按照审计报告的指导落实整改措施。
3. 具体实践
3.1. 背景
国家高度重视对耕地的保护,设定了18亿亩的耕地红线,并通过土地利用总体规划、基本农田保护制度等措施来确保耕地的数量和质量稳定。同时,还加强了耕地占补平衡管理,通过土地整治项目和高标准农田建设等措施来补充耕地和提升耕地质量[7]。但我国耕地资源相对紧张且质量总体偏低,在耕地保护和利用方面面临诸多挑战。因此,需要进一步加强耕地保护和提升耕地质量。耕地地力保护审计从耕地现状、耕地质量、保护政策及成效等多个方面进行审计[8]。
3.2. 数据清洗与预处理
首先,基于Python的地理信息分析工具可以实现对搜集到的矢量数据去除重复记录,修复几何异常,消除异常数据等清洗方法,以提高数据质量。然后,对数据格式进行清洗,对不符合规定的格式和内容进行清洗,统一数据结构,修改不合理的数据内容。最后,由于收集到的数据有的按行政区划划分,有的按项目划分,为了后续的分析处理和挖掘整体趋势,需要进行预处理,对同类型数据的不同子集进行合并,保证数据的完整性。
3.3. 数据分析模型
本项目中收集到的数据包括土地调查数据、新增建设用地数据、农村土地承包经营权确权数据、土地整治项目数据、高标准农田数据、耕地等级数据、粮食种植区数据以及历年影像数据等,使用基于Python的地理信息分析方法,从多个维度开展耕地地力保护的审计,查找是否存在违规申报领取补贴的问题[9] [10],数据分析模型如图2。
农村土地承包经营权确权数据、土地整治项目数据、高标准农田数据和粮食种植区数据,这些都是表征耕地范围的数据,与表示建设用地范围的新增建设用地数据进行空间融合分析,分析出相交的部分,即同一地块既作为建设用地又作为耕地的疑点图斑,然后统计图斑的面积,并按照降序排列,在不同阈值范围内随机抽样一定数目的图斑,结合影像进行地类分析,最后与耕地地力保护补贴申报表关联,确定申报表中的申报面积是否准确,从而判断耕地补贴的发放是否合理。
土地调查数据分别与农村土地承包经营权确权数据、土地整治项目数据、高标准农田数据、耕地等级数据和粮食种植区数据进行空间融合分析,分析农村土地承包经营权确权数据、土地整治项目数据、高标准农田数据、耕地等级数据和粮食种植区数据中的土地类型,然后统计图斑面积,按图斑地类分别统计地块面积,初步分析农村土地承包经营权确权数据、土地整治项目数据、高标准农田数据、耕地等级数据和粮食种植区数据中的耕地和非耕地图斑,并对耕地图斑的非农化和非粮化情况进行区分统计,然后结合影像进行核查。
Figure 2. Data analysis model
图2. 数据分析模型
通过以上数据分析可以初步判断疑似有问题的图斑,然后结合影像进行核查,筛选出地类明确的图斑,对于仍有疑问的图斑进行现场核查,去实地查看土地的真实情况,获取现场取证信息。
3.4. 可视化分析
相比传统的数据库表格格式,图像能够更加直观地展示数据的分布和变化趋势,提高审计的效率和结果的可读性[11]。本项目基于Python进行可视化分析,对结果基于空间位置和统计数值输出展示,可以为审计人员的抽样核查提供数据底图。
(1) 基于空间位置的输出展示
① 气泡图
如图3所示是矢量型气泡图,气泡的大小表示指标值的大小,气泡的分布表示矢量图斑所在的位置。图中示意的是面积,气泡越大,表示疑问图斑的面积越大,气泡集中的方位表示疑问图斑较集中,气泡稀疏的地方表示疑问图斑较分散,可以为现场核查的抽样选址提供指导。
Figure 3. Vector bubble chart
图3. 矢量型气泡图
② 点密度图
如图4所示是点密度图,黑色范围的图斑表示地块所在的位置,图斑内绿色的点表示指标值的大小。此处的指标值示意的是面积,一个点表示20亩土地,点的数量越多,表示图斑的面积越大,通过图斑内点的密集程度可以直观看出面积的大小,从而辅助判断是否需要重点关注。
Figure 4. Point density map
图4. 点密度图
③ 分层设色图
如图5所示是分层设色图,用不同的色块表示不同的指标值。图中用同一色调的颜色区分面积大小,颜色越深,表示疑问图斑的面积越大,颜色越浅,表示疑问图斑的面积越小。可以通过色彩深浅的分布划分面积阈值,用于辅助抽样、核查。
Figure 5. Layered color chart
图5. 分层设色图
(2) 基于统计数值的输出展示
① 气泡图
如图6所示是气泡图,气泡的大小表示指标值的大小。图中示意的是耕地确权图斑中地块的种类统计图,横轴表示地块种类,纵轴表示该地块种类出现的次数,气泡越大,说明该类型的地块越多,需要进一步重点核查。
Figure 6. Bubble chart
图6. 气泡图
② 热力图
如图7所示是热力图,图中颜色越接近白色,表示频率越高,越接近黑色,表示频率越低,右侧条带是图例示意。图中示意的是耕地确权图斑地块的实际种植种类统计图,越靠近黑色的地类表示出现的越少,越靠近白色的地类表示出现得越多,通过颜色深浅的分布辅助筛选感兴趣的地类。
Figure 7. Heatmap
图7. 热力图
③ 雷达图
如图8所示是雷达图,从圆心开始表示多个指标变量分布的图形方法。图中示意的是耕地确权图斑地块实际种类的情况,越靠近圆心,表示该种类的图斑个数越少,越接近圆的边缘,表示该种类的图斑个数越多,用于辅助筛选感兴趣的地类。
Figure 8. Radar chart
图8. 雷达图
通过以上的可视化分析,可以辅助审计人员确定审计项目中需要重点关注的区域,为挖掘审计线索提供依据,为现场抽样、核查提供选址参考,同时,在编写审计报告时,可以对审计结果进行系统性、整体性、直观性表达。
4. 结语
本文介绍了基于Python的地理信息分析方法和可视化表达在农业专项审计中的应用,为大数据审计提供思路,提高审计的准确性和效率,同时为审计人员查找项目疑点,挖掘审计线索提供依据,提高审计报告的直观性。但在实际应用中仍存在一些问题需要完善,首先是数据的标准化问题,同一类型的数据由于地域、生产商等因素的差异,会造成数据格式的差异,为数据的清洗带来问题,影响分析的效率。第二,审计人员在搜集数据前由于目标不明确,对数据的组织方式不够了解,模型不合理等原因导致搜集的数据缺少需要的字段,造成后期的重复收集。最后,当数据达到十亿级时,基于Python处理时会出现结果一直无法导出或者显示不全的问题。