1. 引言
乡村振兴战略是新时代“三农”工作总抓手,其有效的科学测度是推进战略实施的基础保障。乡村振兴成效评价是综合审视乡村振兴水平、制定乡村发展战略和模式、综合部署乡村振兴各要素以及乡村振兴实践的重要基础[1]。然而,传统的测度方法多依赖于统计年鉴数据与专家打分方法,存在指标维度单一、数据更新滞后、主观偏差显著、难以量化软性维度(如乡风文明、生态宜居等)固有局限[2]。有研究表明主客观相结合的赋权方法同时使用能够取得更好的效果[3]。尽管已有研究尝试引入文本分析方法,但仅依据简单的词频统计无法理解语义语境,容易导致误判[4]。现有缺乏动态监测和实时反馈机制,基于固定周期的统计调查时效性差,难以及时捕捉动态变化并进行风险预警[5]。
以大语言模型(LLM)为代表的人工智能技术近年来取得了突破性进展,其在语义理解、知识关联与上下文学习方面能力强大,为破解上述难题提供了工具。LLM能够深度解析政策文件、新闻报道、社交媒体等多源数据,能够从中提取与乡村振兴各维度相关的信息,从而实现结构数据与非结构数据的深度融合。
本研究旨在开发一种基于LLM的乡村振兴统计测度新范式。主要的贡献在于:
(1) 构建了一个融合LLM与多Agent系统的动态评估框架,实现了对乡村振兴水平的精准、实时测度;(2) 提出了一种结合基础权重(熵权法)与情感权重的动态权重计算机制,使评价体系更具适应性与解释力;(3) 以河北省为例,进行了翔实的实证分析,验证了方法的有效性与实用性,揭示了河北省内乡村振兴的演变规律与区域分异特征,为差异化政策制定提供依据。
2. 统计测度思路
本研究构建多源异构数据融合的乡村振兴水平精准测度体系,以“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”五维评价体系为基准[6]-[9],创新采用结构化与非结构化双轨制数据采集框架。借鉴企业包容性创新测度的前沿经验[2],本研究提出语义驱动的多维度动态测度范式:以多Agent架构协同语言大模型,通过任务解耦实现产业兴旺、生态宜居、乡风文明、治理有效、生活富裕五大维度的精准评估。其突破性在于:第一,引入动态权重机制,文本分析Agent基于舆情情感强度实时调整维度权重;第二,建立冲突检测规则,当同一主体出现“道路硬化率达95%”与“村民反映出行难”矛盾描述时触发Agent仲裁复核;第三,设计时空耦合算法,将数值趋势与文本事件进行时空对齐,识别政策滞后效应。
3. 预训练语言模型与多Agent系统的测度方法
3.1. BERT预训练模型的领域适配与微调
BERT模型通过双向Transformers编码器结构,能够同时捕捉文本的上下文信息,相较于传统词袋模型或单向语言模型,在处理复杂政策文本时具有显著优势。选取BERT模型作为技术基座,通过数据预处理、模型预训练、模型验证三个阶段精准适配乡村振兴的评价指标。
(1) 数据预处理与语料库构建
收集中央及地方政策文件、农业农村报告、媒体报道等多源文本作为实证分析的数据基础,其时间跨度覆盖2014年至2023年。经过清洗、分句、去重后,构建待标注语料库。采用三步法构建精准的乡村振兴关键词词典:第一步,整合政策术语形成初始词集;第二步,数据清洗与预处理,利用分词工具扫描海量新闻,剔除泛化词、否定词等无关信息,保留与乡村全面振兴相关的核心内容;第三步,文本人工标注,标注维度需覆盖产业兴旺、生态宜居等五大领域,并纳入地域性词汇。为解决地域性术语的语义偏差,专门建立了《河北乡村振兴术语方言对照表》(如将“连茅圈”对应为“传统厕所”),有效降低了误标率,构建了一个包含2000多条标注语句的高质量语料库,作为BERT模型的微调训练集。
(2) 模型训练与微调
模型训练阶段采用监督学习与半监督学习相结合的方式。首先,对语料库进行人工标注,定义情感极性(积极/消极/中性)和五大维度标签。人工标注遵循严格规范流程,情感标签分为积极(明确描述进展或成效)、消极(指出问题或负面影响)和中性(陈述事实)三种。为确保标注质量,多位专家对语料库的标注结果进行了一致性检验,结果显示Kappa值达到了0.85,表明标注结果具有高度可靠性。含有量化表述的语句在标注时增加了数值标记进行重点处理。随后,使用标注数据对BERT模型进行微调,使其深入理解乡村振兴领域的语义特征和语境,进一步提升模型的泛化能力。标注完成的数据集按70%作为训练集,30%作为测试集进行划分 ,训练集用于模型学习文本特征与情感标签的映射关系,测试集则用于性能评估。
(3) 模型验证与效果
从内容效度、准则效度和构建效度三方面验证模型。一是内容效度,对模型标注结果进行人工审核,确保分类结果与政策文本实际含义一致;二是准则效度,将测度结果与统计年鉴中农业总产值、农村居民可支配收入等客观指标进行相关性分析,验证文本测度结果的现实解释力;三是构建效度,通过聚类分析等方法,考察不同地区乡村全面振兴政策文本的相似性,是否与区域经济发展水平、政策试点情况等外部因素吻合。微调后的BERT模型能够有效解决传统词频统计的误判问题。在测试集上对情感分析模型的性能进行了评估,结果显示,模型在关键指标上表现卓越:精确率(Precision)为0.99,召回率(Recall)为0.99,F1分数(F1 Score)为0.99。这些结果表明,经过领域适配和微调后的BERT模型能够对乡村振兴相关的文本进行高度准确的情感分类,为后续动态权重计算提供了可靠的输入。
3.2. 多Agent系统
(1) 协同机制
为解决单一模型处理复杂任务的瓶颈,本研究设计了五类Agent协同的工作流。其协作机制如图1所示。(1) 数据检索Agent:融合Prompt工程,负责从结构化数据库(MySQL)和向量数据库(ChromaDB)中精准查询和调用数据,负责从数据库和文本源(政策文件、媒体舆情、统计数据等)中抓取信息,并将结构化数据传递给数值分析Agent,同时将文本数据传递给文本分析Agent。(2) 数值分析Agent:专注于对结构化数据的深度挖掘,它运用时间序列分析、趋势预测模型等算法,按百分制规则生成维度初评分。(3) 文本分析Agent:进行情感分析和政策语义提取,此Agent能够提取情感三元组,包括主体、情感和原因,并进行冲突检测(如遇“道路硬化率95%”与“村民反映出行难”的矛盾表述时触发仲裁复核),通过之前的BERT预训练模型与人工构建的语料库,结合微调策略使其更好地适应乡村全面振兴的测度需求。并进行冲突检测,建立情感强度与权重映射机制。(4) 维度评估Agent:融合来自数值Agent和文本Agent的结果,结合预设权重综合评估各维度表现,输出维度评分与改进建议。(5) 综合评价Agent:综合各维度评估结果,生成综合评分和SWOT分析报告,为决策提供了有力的支持。
Figure 1. Workflow structure diagram of the multi-agent system
图1. 多Agent系统工作流结构图
(2) Agent间通信机制
在多Agent框架中,各大语言模型承担的任务类别和调用方式如表1所示,为了保证输出精度,系统采用输出一致性评分进行模型切换。当多个模型对同一问题返回结果若差异显著,相同问题的预测评分或结论相差超过15%,系统将自动触发仲裁或回退到精度更高的模型,并融合其结果以提高可靠性。通过以上策略,实现了各模型在各自擅长领域的互补协同,显著提升了整体评估的准确性和鲁棒性。
Table 1. Task division and switching strategies of large language models
表1. 大语言模型任务分工与切换策略
模型 |
任务类别 |
输入形式 |
输出形式 |
调用接口 |
切换触发条件 |
DeepSeek |
结构化数据分析 |
统计数据表、数值指标 |
各维度数值评分 |
REST API (DeepSeekAPI) |
其他模型结果偏差超阈值,可优先采纳其输出 |
ChatGPT |
文本生成、摘要与解释 |
自然语言提示(问题、政策说明等) |
连贯的文本回答、报告 |
REST API (OpenAI ChatGPT) |
主要用于文本相关任务,对数值任务结果不可信时不切换至数值模型 |
智谱清言 |
政策语义解析 |
政策文件文本、舆情语料 |
提取的隐性指标或分析洞察 |
REST API
(智谱开放平台) |
文本解析结果不一致或置信度低,可调用其它模型验证或替代 |
文心一言 |
方言识别与情感分析 |
地方方言句子、评论等 |
标准汉语文本或情感分值 |
REST API
(百度文心) |
方言识别失败或模型输出冲突,降级使用表现稳定的模型 |
3.3. 动态权重计算体系
权重确定采用“基础权重 × 情感权重”的动态融合机制。
3.3.1. 基础权重
首先,参考《乡村振兴战略规划(2018~2022年)》等政策文件设定初始基础权重。其次,根据数据覆盖度进行二次调整,数据覆盖度即该维度有效数据点数量,等于该维度有效数据条目/总条目。由于二次调整后的权重带有主观成分,最后利用熵权法基于指标数据离散程度自动计算权重,再按照6:4的比例进行综合计算(见表2)。
Table 2. Preliminary allocation of basic weights
表2. 基础权重初步分配表
维度 |
初始基础权重 |
二次调整权重(归一化后) |
熵权法得到的权重 |
综合权重计算 |
产业兴旺 |
35% |
31.2% |
38% |
33.92% |
生态宜居 |
25% |
25.8% |
22% |
24.28% |
乡风文明 |
15% |
12.1% |
12% |
12.06% |
治理有效 |
15% |
21.5% |
18% |
20.10% |
生活富裕 |
10% |
9.4% |
10% |
9.64% |
3.3.2. 情感权重
基于文本分析Agent的结果,计算情感调整因子 = 1 + (积极事件占比 − 消极事件占比),为不同区域和维度进行差异化赋权。基于11地市10年文本事件分析,使用基础权重 × 情感调整因子来确定各个地区在不同维度上的权重设置,归一化处理后,纳入最终的乡村振兴进度评价体系(见表3)。
Table 3. Sentiment analysis weight data for various cities
表3. 各地市情感分析权重数据
地级市 |
维度 |
积极事件占比(P%) |
消极事件占比(N%) |
地级市 |
维度 |
积极事件占比(P%) |
消极事件占比(N%) |
石家庄市 |
1 |
0.86 |
0.14 |
张家口市 |
1 |
0.89 |
0.11 |
2 |
0.67 |
0.33 |
2 |
0.66 |
0.34 |
3 |
0.75 |
0.25 |
3 |
0.77 |
0.23 |
4 |
0.9 |
0.1 |
4 |
0.91 |
0.09 |
5 |
1 |
0 |
5 |
1 |
0 |
唐山市 |
1 |
0.82 |
0.18 |
承德市 |
1 |
0.83 |
0.17 |
2 |
0.6 |
0.4 |
2 |
0.61 |
0.39 |
3 |
0.7 |
0.3 |
3 |
0.73 |
0.27 |
4 |
0.85 |
0.15 |
4 |
0.86 |
0.14 |
5 |
1 |
0 |
5 |
1 |
0 |
秦皇岛市 |
1 |
0.88 |
0.12 |
沧州市 |
1 |
0.86 |
0.14 |
2 |
0.65 |
0.35 |
2 |
0.65 |
0.35 |
3 |
0.78 |
0.22 |
3 |
0.75 |
0.25 |
4 |
0.92 |
0.08 |
4 |
0.9 |
0.1 |
5 |
1 |
0 |
5 |
1 |
0 |
邯郸市 |
1 |
0.84 |
0.16 |
廊坊市 |
1 |
0.88 |
0.12 |
2 |
0.62 |
0.38 |
2 |
0.67 |
0.33 |
3 |
0.72 |
0.28 |
3 |
0.76 |
0.24 |
4 |
0.88 |
0.12 |
4 |
0.92 |
0.08 |
5 |
1 |
0 |
5 |
1 |
0 |
邢台市 |
1 |
0.87 |
0.13 |
衡水市 |
1 |
0.85 |
0.15 |
2 |
0.64 |
0.36 |
2 |
0.64 |
0.36 |
3 |
0.76 |
0.24 |
3 |
0.74 |
0.26 |
4 |
0.89 |
0.11 |
4 |
0.88 |
0.12 |
5 |
1 |
0 |
5 |
1 |
0 |
保定市 |
1 |
0.85 |
0.15 |
|
|
|
|
2 |
0.63 |
0.37 |
|
|
|
|
3 |
0.74 |
0.26 |
|
|
|
|
4 |
0.87 |
0.13 |
|
|
|
|
5 |
1 |
0 |
|
|
|
|
注:维度1~5分别代表:产业兴旺、治理有效、生态宜居、生活富裕、乡风文明。
3.3.3. 综合权重
综合权重 = 基础权重 × 情感调整因子,经归一化形成动态评价体系,各地市综合权重数据见表4。
Table 4. Comprehensive weights of various cities
表4. 各地市综合权重
地级市 |
维度 |
综合权重 |
地级市 |
维度 |
综合权重 |
石家庄市 |
产业兴旺 |
0.3573 |
张家口市 |
产业兴旺 |
0.3632 |
生态宜居 |
0.2234 |
生态宜居 |
0.2256 |
乡风文明 |
0.1483 |
乡风文明 |
0.1511 |
治理有效 |
0.1651 |
治理有效 |
0.1634 |
生活富裕 |
0.1059 |
生活富裕 |
0.0967 |
唐山市 |
产业兴旺 |
0.3604 |
承德市 |
产业兴旺 |
0.3581 |
生态宜居 |
0.2206 |
生态宜居 |
0.2214 |
乡风文明 |
0.1569 |
乡风文明 |
0.1548 |
治理有效 |
0.1564 |
治理有效 |
0.1576 |
生活富裕 |
0.1058 |
生活富裕 |
0.1081 |
秦皇岛市 |
产业兴旺 |
0.3623 |
沧州市 |
产业兴旺 |
0.3573 |
生态宜居 |
0.2261 |
生态宜居 |
0.2234 |
乡风文明 |
0.1513 |
乡风文明 |
0.1483 |
治理有效 |
0.1641 |
治理有效 |
0.1651 |
生活富裕 |
0.0962 |
生活富裕 |
0.1059 |
邯郸市 |
产业兴旺 |
0.3591 |
廊坊市 |
产业兴旺 |
0.3623 |
生态宜居 |
0.2211 |
生态宜居 |
0.2241 |
乡风文明 |
0.1537 |
乡风文明 |
0.1513 |
治理有效 |
0.1595 |
治理有效 |
0.1651 |
生活富裕 |
0.1066 |
生活富裕 |
0.0972 |
邢台市 |
产业兴旺 |
0.3611 |
衡水市 |
产业兴旺 |
0.3596 |
生态宜居 |
0.2244 |
生态宜居 |
0.222 |
乡风文明 |
0.1521 |
乡风文明 |
0.1534 |
治理有效 |
0.1613 |
治理有效 |
0.1599 |
生活富裕 |
0.1011 |
生活富裕 |
0.1051 |
保定市 |
产业兴旺 |
0.3596 |
|
|
|
生态宜居 |
0.222 |
|
|
|
乡风文明 |
0.1534 |
|
|
|
治理有效 |
0.1599 |
|
|
|
生活富裕 |
0.1051 |
|
|
|
(4) 敏感性分析
分别对情感调整因子和综合权重比例进行调整,观察模型的敏感性如图2所示。
1) 情感调整因子的敏感性评价结果
对情感调整因子进行扰动设置,在原基础值上按±5%、±10%、±15%的比例增减该因子,测试舆情波动对评价结果的影响。研究发现,在±5%的扰动条件下,河北省各地市的综合得分变化幅度普遍不超过±2.1分,Spearman等级相关系数均高于0.975,说明排名几乎不变。在±10%扰动下,得分波动略有放大,但平均Spearman系数仍保持在0.94以上,表明系统整体排序仍具稳定性。仅在极端±15%扰动条件下,部分边界城市(如沧州、廊坊)综合排名出现1至2位波动,但主要集中于情感分布本身差异显著的维度,整体排序仍无系统性偏移。综上所述,在常规舆情波动范围内(±10%以内),情感调整因子的设置对综合得分影响有限,模型在多地区、多维度下均表现出良好鲁棒性。
2) 熵权–基础权重比例扰动的敏感性评价结果
对综合权重比例进行调整,原评价体系中熵权法与基础权重融合比例为6:4,将其分别调整为5:5和7:3,对比不同权重配比下的综合评分差异。研究发现,比例调整对得分绝对值产生了一定影响(最高变动幅度在3.7分以内),但综合排序高度一致,Spearman系数均高于0.965。综合得分偏离程度最大的是部分“数据覆盖率不均”维度,如生活富裕与治理有效,但得分排序未发生显著跃迁。综上所述,当前熵权与基础权重融合机制较为合理,在多种权重比例下保持结果稳定,推荐维持默认的6:4融合设置;但系统上线后可动态跟踪调节,适应不同地区数据完备度差异。
3) 敏感区域与维度识别
结合参数扰动测试,发现以下区域或维度在参数变化中表现出相对高敏感性。沧州、邢台、保定等城市在治理有效和产业兴旺维度的评分对情感因子扰动较敏感,反映其文本描述中存在更多负面舆情与指标冲突;“生态宜居”和“乡风文明”两个维度在多数扰动方案下变化最小,说明相关情感判断与结构数据较为一致,评估稳定性较强。
Figure 2. Comparison of Spearman coefficients under different disturbance conditions
图2. 不同扰动条件下Spearman系数对比
4. 实证研究
4.1. 数据来源与指标体系
本研究构建了5个一级指标、30个二级指标的乡村振兴评价体系。数据来源于《中国农村统计年鉴》等权威资料及自主采集的文本数据,并进行了严格的标准化预处理。
4.2. 河北省乡村振兴十年演进特征(2014~2023)
测度结果显示,河北省乡村振兴综合得分从2014年的43.10分提升至2023年的75.92分,增幅达76.2%。各维度演进呈现差异化特征见表5。
2014~2023年间,产业兴旺波动最大,反映其受市场与政策影响敏感。生态宜居最为稳定,年均增速约4.5%。乡风文明进步最快,增幅94.9%,文化教育成效显著。治理有效与生活富裕均稳步提升,民生持续改善,具体见表6。
Table 5. Scores of various dimensions in Hebei Province from 2014 to 2023
表5. 河北省2014~2023年各维度得分
年份 |
产业兴旺 |
生态宜居 |
乡风文明 |
治理有效 |
生活富裕 |
2014 |
40 |
44 |
42 |
45 |
48 |
2015 |
40 |
47 |
48 |
52 |
52 |
2016 |
48 |
49 |
47 |
52 |
53 |
2017 |
48 |
52 |
52 |
55 |
57 |
2018 |
53 |
55 |
57 |
59 |
60 |
2019 |
67 |
58 |
58 |
63 |
64 |
2020 |
71 |
60 |
62 |
66 |
67 |
2021 |
69 |
62 |
69 |
67 |
70 |
2022 |
79 |
71 |
75 |
73 |
78 |
2023 |
75 |
72 |
81 |
78 |
80 |
Table 6. Scores of various dimensions in Hebei Province from 2014 to 2023
表6. 河北省2014~2023年各维度得分
维度 |
2014年 |
2023年 |
增幅 |
发展特点 |
产业兴旺 |
40.09 |
74.73 |
86.40% |
波动最大,2022年达峰值79.18 |
生态宜居 |
44.09 |
72.09 |
63.50% |
增速放缓,环境治理需加强 |
乡风文明 |
41.73 |
81.36 |
94.90% |
进步最快,文化教育成效显著 |
治理有效 |
45.36 |
77.55 |
71.00% |
稳步提升,2023年增速突出 |
生活富裕 |
48.18 |
79.55 |
65.10% |
持续改善,收入结构优化明显 |
5. 模型优化策略与对策建议
5.1. 模型优化策略
为突破乡村振兴统计测度的大语言模型的语义鸿沟与任务耦合瓶颈两大难题,采用多种先进的技术和方法进行优化,包括MTNN (多任务神经网络)、XGBoost的SHAP值分析,以及Prompt微调等。
5.1.1. MTNN多任务神经网络优化
Figure 3. Optimization results of the multi-task neural network
图3. 多任务神经网络优化结果
图3展示了乡村振兴统计测度大模型在MTNN (多任务神经网络)的参与下的优化结果。训练初期,所有维度的训练准确率(虚线)和验证准确率(实线)都在较低水平,通过共享编码器学习领域共性特征,五维预测准确率均突破0.90。
5.1.2. XGBoost-SHAP的可解释性增强
通过SHAP值量化三级指标贡献度,驱动决策透明化。为优化数值分析Agent在第一轮的评估结果,即每个地区在2014年~2023年各年不同维度上的打分以及综合得分,使用XGBoost建模各输入三级指标数值的影响权重,通过SHAP值量化分析各个三级指标对模型预测结果的贡献度。图4展示了生态宜居评价维度部分三级指标的特征贡献度,可以看出指标对预测结果的贡献度相对中性,且分布较为集中,表明它们对模型打分结果的影响较小,可以考虑更换一些指标数据来提高模型的泛化能力。
Figure 4. SHAP value distribution of the eco-livable dimension
图4. 生态宜居维度SHAP值分布图
5.1.3. 分层Prompt微调优化
强制模型聚焦核心概念,构建领域自适应模板库。针对通用大语言模型在乡村振兴文本理解中存在的术语偏差,如将“三品一标”误判为商品规格,将“厕所革命”误判为政治运动,与语境失焦,如混淆“合作社”的经济实体属性与社交含义等问题,构建了分层Prompt架构以实现语义精准锚定。
5.2. 研究结论及建议
本研究构建并验证了一个基于预训练大语言模型与多Agent系统的乡村全面振兴动态测度框架。该方法通过LLM的深度语义理解弥补了传统量化方法的不足,通过多Agent的协同实现了对复杂系统的解构与评估,通过动态权重机制增强了评价体系的适应性与解释力。河北省的实证研究证明了该框架的科学性与实用性,为乡村振兴的精准监测与政策评估提供了新的方法论支持。未来工作将探索更多低成本LLM的应用,并尝试将框架拓展至全国范围进行对比研究。
基于实证发现,提出以下建议:(1) 构建区域协同机制,实施“梯次推进 + 精准补短”。(2) 强化产业稳定性与科技赋能,建立风险预警体系和特色保险。(3) 推进数字化治理与民生服务,建设省级乡村治理数据平台。(4) 建立长效政策动态调整机制,设定阶梯式发展目标并实时监测。
基金项目
河北省社科基金项目“数字新农人在地化驱动河北农业区域品牌价值跃迁的机制研究”(HB25GL045)。
NOTES
*通讯作者。