1. 引言
随着金融行业的数字化转型,网络欺诈行为日益复杂多变,给金融机构和消费者带来了巨大的损失。传统的反欺诈方法已难以满足当前的需求,迫切需要新的技术手段来提高反欺诈的效率和准确性。大型语言模型在自然语言处理领域展现出强大的文本分析和模式识别能力,成为反欺诈识别的有力工具。然而,LLMs直接应用于反欺诈任务时面临数据更新不及时、知识覆盖面有限等问题[1]。为此,本文引入RAG技术,旨在通过增强模型的信息检索能力,提高其在金融交易反欺诈识别中的表现。
2. 大语言模型与RAG技术概述
LLMs是近年来自然语言处理领域的热点,其基于Transformer架构,通过深度学习算法对大量文本数据进行训练,形成强大的语言表示能力。在金融交易反欺诈识别中,LLMs可以分析交易文本,识别异常模式,从而辅助判断欺诈行为。然而,LLMs在面临具体领域知识更新快、专业知识需求高等挑战时,存在一定的局限性。
RAG技术则是一种通过结合信息检索和生成式语言模型来增强LLMs性能的方法。利用外部知识库中的信息来丰富模型的输入,从而提高模型的准确性和可靠性。在金融交易反欺诈识别中,RAG技术可以帮助模型从大量的交易数据中检索出与欺诈行为相关的关键信息,进而引导模型生成更准确的反欺诈判断[2]。
3. 研究方法论
3.1. 任务定义
本文的任务是构建一个基于大型语言模型的RAG技术的金融交易反欺诈识别工具,并完成两组对比:1、对比不同大模型在引入RAG和未引入RAG前后的识别能力及表现。2、对比基于RAG大模型与传统规则模型下的识别能力及效果。实验需要能够从某金融机构的客户的金融交易数据中,识别出潜在的欺诈行为,并给出相应的预警或处理建议[3]。
3.2. 实验设计
为了验证大模型在结合RAG技术后,其使用在金融交易反欺诈识别场景中输出结果的有效性、准确性,我们设计了以下实验:
1) 数据集准备:收集大量真实的金融交易数据(脱敏),包括正常交易、欺诈行为数据、金融知识文档,作为模型的训练集和测试集。对收集到的数据进行清洗,去除噪声、重复项和无关信息,确保数据的质量和准确性。
2) 将清洗后的数据构建成知识库。这通常包括将文本分割成较小的片段(chunks),使用文本嵌入模型(如GLM)将这些片段转换成向量,并将这些向量存储在向量数据库中(如FAISS、Milvys等)。
3) 构造特定领域知识库:分别选用ChatGLM、ChatGPT-3.5大型语言模型作为基础模型,构建知识库。
4) 检索模块及生成模块设计:将清洗后的数据构建成金融领域知识库。包括将文本分割成较小的片段(chunks),使用文本嵌入模型将这些片段转换成向量,并将这些向量存储在向量数据库中。检索到的相关片段与原始问题合并,形成更丰富的上下文信息。
5) 构建传统规则模型设计:黑名单,阈值判定、规则组合等预定义规则集合模型。
6) 评估方案:采用答案忠实度、问题相关性、内容精确度、语义相似性指标对模型的性能进行评估。
3.3. 实验数据准备
本实验的数据采样为某大型金融机构2021~2023年真实历史数据(脱敏),包括客户数据12,103条,交易信息数据2,139,918条、授信评估报告20,311份,贷款审批报告文档12,993份、金融机构反欺诈政策制度文档2份、某金融机构总行风险管理部反欺诈管理制度文档1份、金融机构反洗钱和反恐怖融资监督管理办法1份[4]。实验通过样本数据分析反欺诈特征信息见表1。
Table 1. Anti-fraud characterization information for sample financial transaction data
表1. 金融交易样本数据的反欺诈特征信息
特征信息 |
数据类型 |
详细描述 |
客户基本身份信息 |
文本 |
客户名称、客户编号、出生地、出生年月、婚姻状况、身份证明文件号码、联系电话、户籍地址、经常居住地、职业、职业类型等 |
客户筛查结果 |
文本 |
客户是否声明自身是外国政要或公职人员、客户是否曾因制裁合规原因与其他金融机构终止业务关系、经反洗钱清单监测系统筛查、客户是否存在负面信息 |
业务关系及财富/资金来源 |
文本 |
开立账户目的、年龄是否与开立账户目的匹配、提供的产品及服务、财富来源、资金来源 |
账户信息 |
文本 |
账号、账户类型、开户机构、账户销户状态、账户睡眠状态/封锁码、账户暂停非柜面状态 |
交易信息 |
数值型 |
交易总笔数、上游交易总笔数、下游交易总笔数、日均交易总笔数、交易总金额、上游交易对手个数、下游交易对手个数、10万元以上交易笔数占比、
跨行转出交易笔数占比、22点至8点交易时间占比等 |
可疑交易/行为特征信息 |
数值型 |
一年内是否有一般可疑交易报告、一年内一般可疑交易报告次数、一年内重点可疑交易报告次数、一般可疑交易报告涉及类型、重点可疑交易报告涉及类型、
最后一次重点可疑交易报告时间 |
设备环境特征信息 |
数值型 |
设备指纹、IP地址异常状态、登录失败次数、交易页面停留时间、网络延迟时间 |
社交和情境特征信息 |
文本 |
联系人异常、交易备注、跨区域交易 |
客户洗钱风险评估信息 |
文本 |
是否与我行通过非面对面建立业务关系、国籍是否涉及洗钱高风险国家或地区、经常居住地是否涉及洗钱高风险国家或地区、主要交易对手是否涉及洗钱高风险国家或地区 |
除了上述原始特征,还可以通过数学运算、特征交互与组合,以及特征变换等方法生成新的衍生特征,从而增强模型对数据的理解能力,提升其性能表现。
实验中在样本数据预处理方面,使用统计方法3σ原则或机器学习方法(如Isolation Forest)识别并处理可能的欺诈性异常完成数据清洗,对数值特征处理(金额、交易频率等)连续型特征进行标准化(如Z-Score标准化)、类别特征使用码值转换、历史特征进行衍生计算、标签关联特征进行结合交易金额、账户余额、地域偏好等特征,通过数学运算生成交互特征(如交易金额/账户余额)完成特征计算。
3.4. 构建知识库模型选择
本研究使用ChatGLM、ChatGPT-3.5作为基础大模型,并使用金融政策问答数据进行微调,使其相较于基座模型拥有更强的对话能力[5]。
3.5. 检索及生成模块设计
本研究利用Python 3.9开发的RAG框架包括三大核心模块:数据索引器、检索器和生成器,共同实现检索增强生成(RAG)功能,提供高效的规则文本问答支持。将预训练文本嵌入模型(如ChatGLM或ChatGPT-3.5),查询问题及源数据文档转换为向量形式。在信息检索过程中,通过高效的向量搜索技术(例如Chroma、FAISS、Milvus等向量数据库),实验中使用的是Milvus向量数据库,在向量空间中快速定位与查询问题向量最为相似的文档或段落。检索模块采用双塔模型(Dual-Encoder)。该模型由两个独立的编码器构成:一个用于处理查询,另一个用于处理文档。两个编码器分别将查询和文档映射到统一的向量空间,从而便于进行相似度计算和匹配。另外,生成模块负责将检索到的相关文档与原始查询相结合,生成更为丰富的上下文信息,作为生成模型的输入(Prompt)。生成模型基于提供的上下文信息,能够生成连贯、准确且内容详细的回答或文本输出。这种方法通过结合检索和生成的优势,不仅提高了信息检索匹配的效率,还提高了回答的质量和准确性[6]。基于大模型的RAG技术的原理见图1。
Figure 1. The principle of RAG technology based on large models
图1. 基于大模型的RAG技术的原理
实验中向量数据库Milvus用于存储嵌入文本向量,可提供高效的检索与操作接口,其检索效率高,支持分布式部署适合大规模金融交易数据管理。后续可以结合知识图谱,对金融交易数据进行实体间关系建模,如客户、账户、交易之间的联系。通过探索交易路径寻找潜在的欺诈行为(如交易路径是否涉及高风险实体)。
实验中上下文感知嵌入模型是将高维的、非结构化的文本映射到低维连续向量空间中,使语义相似的文本在向量空间中距离更近,通过优化句子间的语义相似性计算,直接生成句子级向量,特别适合金融文本信息及报告、制度检索、反欺诈规则的匹配等任务。例如将交易备注(如支付理由)转化为嵌入,用于发现异常模式,将文本信息与交易金额、地理位置等特征联合建模,提高欺诈识别能力。在向量数据库中查询与可疑交易描述最相似的交易,分析其欺诈可能性。
3.6. 实验评估方案
本实验重点关注识别信息检索与金融领域大模型的融合,因此更注重对大模型生成效果的评估。通过计算以下指标,我们可以直观地了解引入RAG技术后大模型在金融交易反欺诈识别方面的表现:
1) 答案忠实度
答案忠实度(Faithfulness)指标用于衡量生成答案与给定上下文之间的事实匹配程度。该指标通过对生成的答案和检索到的上下文进行比对后计算得出,得分范围为(0, 1)。分值越高,表示答案忠实度越强。当生成的答案中包含的所有表述都能够从提供的上下文中推导出时,认为该答案具有较高的答案忠实度。
计算这一指标需要首先识别生成答案中的表述集合。接着,将这些表述逐一与上下文进行核对,以判断它们是否可以从上下文中推导出。设F为答案忠实度得分,Qa为生成答案中识别出的所有表述的集合,Qc为给定上下文。I为Jaccard相似度计算,答案忠实度得分的计算方法可以表示:
2) 问题相关性
问题相关性(Relevance)旨在衡量生成答案与给定问题之间的匹配程度。答案如果存在不完整、包含冗余信息或与问题无关的内容,其得分会较低;反之,得分较高的答案表示其与问题的相关性更强。该指标的计算方法基于原始问题与一组由生成答案逆向生成的人工问题之间的平均余弦相似度。具体公式如下:
其中,Bgi表示生成问题的向量嵌入,Bo表示原始问题的向量嵌入,N为生成问题的数量。
3) 内容精确度
内容精确度(Context Precision)用于评估与基准事实相关的上下文信息在结果排序中的靠前程度。理想情况下,所有相关的信息块应位于排序的前列,从而确保用户能够快速获取关键内容。该指标基于问题、基准事实和上下文进行计算,得分范围在0到1之间。更高的分数表示更好的精确度,即相关信息块在排序中位于更靠前的位置。设N为前M个排序结果中相关信息块的总数,则内容精确度的计算公式为:
此外,通过混淆矩阵,可以将所有预测结果划分为四类:预测为该类别且实际为该类别的结果记为 TP (True Positive)。预测为该类别但实际不属于该类别的结果记为FP (False Positive)。基于此,Precision@M 的计算公式可以表示为:
M表示上下文中信息块的总数,Vm表示在排名处的问题相关性指示,其值为1或0,表示该位置的信息块是否相关。
4) 语义相似性
语义相似性(Answer Similarity)是衡量用户体验的重要指标,旨在评估生成答案与基准事实之间的语义匹配程度[7]。该指标通过对生成答案与基准事实进行语义比较得出,得分范围在0到1之间。分值越高,表明生成答案与基准事实的语义相似性越好,从而体现模型生成内容的准确性与可靠性。
Bgi表示生成答案的TF-IDF向量化矩阵,Bgt表示基准事实的TF-IDF向量化矩阵。需要注意的是,上述部分指标的计算依赖于高性能的大语言模型(如GPT-4),因此得分可能会存在一定的波动性。然而,通过多次评测,可以在一定程度上更准确地反映RAG (Retrieval-Augmented Generation)应用的实际性能。
4. 实验结果与分析
4.1. 模型性能评估
实验过程中,我们将超过上万个文档、百万条样例数据作为数据源。搭建了基于Python3.9的RAG框架。
程序过程如下:
1、调用API方式调用接入ChatGLM、ChatGPT-3.5基础大模型,
2、将历史训练数据集及文档分割切片存储到向量数据库Chroma中,
3、计算问题向量与内容项目相似度,并排序获得相似度TOP3的组合,
4、结合生成提示词作为生成模块的输入,生成模块将能准确生成的结果。代码样例:
#接入大模型 import os from langchain.chat_models import ChatOpenAI os.environ["OPENAI_API_KEY"] = 'XXX’ chat = ChatOpenAI( openai_api_key=os.environ["OPENAI_API_KEY"], model='gpt-4o' ) from langchain.text_splitter import RecursiveCharacterTextSplitter #文档切片 text_splitter = RecursiveCharacterTextSplitter( chunk_size = 500, chunk_overlap = 50, ) docs = text_splitter.split_documents(pages) from langchain.embeddings import HuggingFaceBgeEmbeddings from langchain.vectorstores import Chroma #绑定大模型 embed_model = HuggingFaceBgeEmbeddings( model_name="moka-ai/m3e-base", model_kwargs={'device': 'cpu'}, encode_kwargs={'normalize_embeddings': True}, query_instruction="为文本生成向量表示用于文本检索" ) # load data to Chroma db vectorstore = Chroma.from_documents(documents=docs, embedding=embed_model) …… |
实验记录每次输入的问题和输出答案结果,根据性能评估指标公式计算出了大模型在答案忠实度、问题相关性、上下文精确性、语义相似性四个指标方面的数据。通过两组实验结果数据对比,我们发现基础大模型ChatGLM、ChatGPT-3.5在引入RAG技术后在答案忠实度、问题相关性、上下文精确性、语义相似性四个指标方面的表现变化较大,尤其是在上下文精确性的核心指标方面差异明显。实验的评价指标结果分析见表2:
Table 2. Evaluation indicator score
表2. 评价指标得分表
指标类别 |
ChatGLM |
ChatGPT-3.5 |
传统规则模型 |
接入RAG |
未接入RAG |
接入RAG |
未接入RAG |
Faithfulness |
89.30% |
83.3% |
87.90% |
82.10% |
30.30% |
Relevance |
80.20% |
67.50% |
78.80% |
64.30% |
10.80% |
Context Precision |
76.50% |
22.40% |
74.10% |
16.80% |
25.10% |
Answer Similarity |
56.40% |
23.80% |
50.20% |
20.80% |
0.00% |
实验1:ChatGLM和ChatGPT-3.5,接入RAG与未接入RAG的比较
1、ChatGLM模型在接入RAG与未接入两种情况下的表现,在答案忠实度方面:分别为0.893、0.833,接入RAG的情况表现更佳,但相差不大。问题相关性方面:分别为0.802、0.675。显然在问题相关性上同样优于未接入的版本。内容精确度方面:分别为0.765、0.224。接入RAG的情况在内容精确度上显著提高,差异非常大,该指标严重影响输出结果的准确性。语义相似性方面:分别为0.564、0.238。接入RAG的在语义相似性方面也表现得更好。
2、ChatGPT-3.5模型在接入RAG与未接入两种情况下的表现,答案忠实度方面:分别为0.879、0.821。接入RAG的ChatGPT-3.5在保持答案忠实度上略有提升。问题相关性方面:分别为0.788、0.643。接入RAG问题相关性指标上有明显提升。内容精确度方面:分别为0.741、0.168,同样差异非常大。语义相似性方面:分别为0.502、0.208。接入RAG的ChatGPT-3.5在语义相似性方面同样表现更佳。
基于基础大模型ChatGLM、ChatGPT-3.5,接入RAG后在四个指标上均表现出不同程度的提升,说明RAG的引入对两个模型均有积极的影响,进而在其应用于金融反欺诈识别场景中更能准确识别风险点、并逐步提升模型的信任度。
实验2:RAG大模型与传统规则模型的比较
传统规则模型在答案忠实度、问题相关性指标下滑明显,说明传统规则模型无法处理复杂性问题,如交易时间超过晚上10:00、交易时间超过22:00、交易时间晚于晚上10:00、交易时间在22:00之后发生等内容无法做出准确的匹配,且无法根据外部的金融监管政策库来学习最新的规则。但内容精确度方面,完全取决于预设的规则集合完善度,因此被识别为欺诈的交易中实际为欺诈的比例为0.251,误报率75%左右。
4.2. 实验结果展示
根据实验的样本案例,ChatGLM、ChatGPT-3.5分别在接入RAG技术后的识别表现。通过学习金融数据文本、规则文本中的上下文信息,精准地命中5条规则并输出了结果,识别率超过80%。而未接入RAG技术的基础大模型方式识别率不超过40%。大模型通过RAG技术方式借助特定领域金融知识库能根据准确地识别金额领域的专业知识及逻辑表达。可有效地提升了金融交易反欺诈识别能力[8]。而使用传统规则模型的方式,在面对复杂语言场景,需要强大语义识别能力进行判断理解时,最后实验结果其反欺诈的识别成功率几乎为0,但固定规则、明确判断指标的情况下,识别命中率较高、较准确。
实验使用基于ChatGLM大模型的实验结果见表3:
Table 3. ChatGLM experimental results
表3. ChatGLM的实验结果
输入 |
输出 |
数据源 |
规则 |
RAG + ChatGLM |
ChatGLM |
数据样例:
一、客户基本身份信息
基本信息*客户法定名称:XXXXX有限公司
曾用名/别名:*客户编号:0658900000047XXXX*客户经理姓名:郭XXX
英文名称:
对公客户类型:企业类*所属业务部门:10-资金结算部*客户经理编码:32726375
注册成立信息*注册地址:XX省XX市XX大道*注册成立日期:20081021*注册资金:500000.000*注册成立文件类型:营业执照*营业期限起始日期:20081021
组织机构代码证号码:
行业准入许可证明文件号码:*实际经营地址:XXX省XXXXX*注册成立国家/地区:中国*注册资金币种:人民币元*注册成立文件号码:914202816797XXXXX*营业期限截至日期:99991231
税务登记证号码:914202816797XXXXX*经营状况:非筹建期
公司注册证书:
经营许可证:
经营地址证明文件:
其他证明材料:..... |
数据样例:1、检查“一、客户基本身份信息”中“营业期限截至日期”栏位日期早于填报日期(不存在)。2、检查“行业类别”是否为“文化、体育和娱乐业”,“经营范围”是否为“贵金属相关业务”。3、检查“行业类别”、“经营范围”的填写是否相矛盾,例如不应出现“行业类别”填写为“文化、体育和娱乐业”,但是“行业类别”填写为“文化、体育和娱乐业”的情况。4、检查持股比例:填写的持股比例相加,其结果是否大于100%。5、检查“法定代表人/单位负责人”、“个人控股股东”、“受益所有人”、“授权代表人”姓名是否相同。6、检查比对受益所有人中国籍、性别、生日是否不一致。...... |
2、根据您提供的文本内容:
行业类别:17-卫生和社会工作经营范围:妇产科(妇科专业)、麻醉科、医学检验科、医学影像科,生殖健康与不孕症专(持有效医疗机构执业许可证经营)。
检查结果显示:
“行业类别”不是“文化、体育和娱乐业”,而是“17-卫生和社会工作”。
“经营范围”不包含“贵金属相关业务”,而是涉及医疗机构的多个专业科室。
因此,该客户的行业类别和经营范围都不符合您提出的条件。
3、根据您之前提供的文本内容,我们可以看到:
行业类别:17-卫生和社会工作经营范围:妇产科(妇科专业)、麻醉科、医学检验科、医学影像科,生殖健康与不孕症专(持有效医疗机构执业许可证经营)。
从这些信息中,我们可以分析如下:
行业类别指出客户属于“卫生和社会工作”行业。
经营范围详细列出了客户在医疗领域的具体业务,包括多个医疗专业科室。
这些信息并不矛盾。行业类别是一个宽泛的分类,而经营范围则提供了具体的业务细节。客户的经营范围完全符合其行业类别,因为医疗机构属于卫生和社会工作领域的一部分。因此,行业类别与经营范围的文字描述是相符合的,没有矛盾。
....... |
2、根据您提供的文本内容:
行业类别:17-卫生和社会工作经营范围:妇产科(妇科专业)、麻醉科、医学检验科、医学影像科,生殖健康与不孕症专(持有效医疗机构执业许可证经营)。
检查结果显示:
无相关检索内容,无法匹配结果。
3、根据您之前提供的文本内容,我们可以看到:
行业类别:17-卫生和社会工作经营范围:妇产科(妇科专业)、麻醉科、医学检验科、医学影像科,生殖健康与不孕症专(持有效医疗机构执业许可证经营)。
从这些信息中,我们可以分析如下:
行业类别指出客户属于“卫生和社会工作”行业。
无法判断是否存在矛盾...... |
实验使用基于ChatGPT-3.5通用大模型的实验结果,见表4。
Table 4. ChatGPT-3.5 experimental results
表4. ChatGPT-3.5的实验结果
输入 |
|
数据源 |
规则 |
RAG + ChatGPT3.5 |
ChatGPT-3.5 |
数据样例:
一、客户基本身份信息
基本信息*客户法定名称:XXXXX有限公司
曾用名/别名:*客户编号:0658900000047XXXX*客户经理姓名:郭XXX
英文名称:
对公客户类型:企业类*所属业务部门:10-资金结算部*客户经理编码:32726375
注册成立信息*注册地址:XX省XX市XX大道*注册成立日期:20081021*注册资金:500000.000*注册成立文件类型:营业执照*营业期限起始日期:20081021
组织机构代码证号码:
行业准入许可证明文件号码:*实际经营地址:XXX省XXXXX*注册成立国家/地区:中国*注册资金币种:人民币元*注册成立文件号码:914202816797XXXXX*营业期限截至日期:99991231
税务登记证号码:914202816797XXXXX*经营状况:非筹建期
公司注册证书:
经营许可证:
经营地址证明文件:
其他证明材料:..... |
数据样例:1、检查“一、客户基本身份信息”中“营业期限截至日期”栏位日期早于填报日期(不存在)。2、检查“行业类别”是否为“文化、体育和娱乐业”,“经营范围”是否为“贵金属相关业务”。3、检查“行业类别”、“经营范围”的填写是否相矛盾,例如不应出现“行业类别”填写为“文化、体育和娱乐业”,但是“行业类别”填写为“文化、体育和娱乐业”的情况。4、检查持股比例:填写的持股比例相加,其结果是否大于100%。...... |
4、根据你提供的文本,提到的持股比例如下:
个人控股股东(叶XX)持股比例为5%。
受益所有人1 (卓XX)的持股比例55%。
受益所有人2 (陈XX)的持股比例20。
受益所有人3 (陈XX)的持股比例20%。
基于现有信息,持股比例总和为100%。符合,
5、根据你提供的文本,以下是相关人员的姓名:
法定代表人/单位负责人:叶XX
个人控股股东:叶XX
受益所有人1:卓XX
受益所有人2:陈XX
受益所有人3:陈铭X
授权代表人:李XX
根据现有信息:
法定代表人/单位负责人和个人控股股东姓名不同(分别是叶XX和叶XX)。
受益所有人1、2、3的姓名与上述两者都不同。
根据上下文信息,法定代表人/单位负责人、个人控股股东、受益所有人的姓名叶XX,受益所有人:卓XX、陈XX、陈铭XX,个人控股股东为叶XX持股55%,
授权代表人的姓名李XX。...... |
4、根据你提供的文本,提到的持股比例如下:
个人控股股东(叶青)持股比例为5%。
受益所有人1 (卓国新)的持股比例没有明确给出。
受益所有人2 (陈纪慧)的持股比例没有明确给出。
受益所有人3 (陈XX)的持股比例没有明确给出。
输出:基于现有信息,持股比例总和无法判断是否大于100%。如果你能提供其他受益所有人的具体持股比例,才能进一步核实。
5、根据你提供的文本,以下是相关人员的姓名:
法定代表人/单位负责人:叶X
个人控股股东:叶青
受益所有人1:卓国新
受益所有人2:陈纪慧
受益所有人3:陈XX
授权代表人:未提及
根据现有信息:法定代表人/单位负责人和个人控股股东姓名不同(分别是叶X和叶青)。
受益所有人1、2、3的姓名与上述两者都不同。
所以,法定代表人/单位负责人、个人控股股东、受益所有人姓名并不相同,且文本中没有提到授权代表人的姓名。
无法判断是否存在矛盾...... |
实验使用基于传统规则模型的实验结果,见表5。
Table 5. Traditional rule model experimental results
表5. 传统规则模型的实验结果
输入 |
输出 传统规则大模型 |
数据源 |
规则 |
数据样例:
一、客户基本身份信息
基本信息*客户法定名称:XXXXX有限公司
曾用名/别名:*客户编号:0658900000047XXXX*客户经理姓名:郭XXX
英文名称:
对公客户类型:企业类*所属业务部门:10-资金结算部*客户经理编码:3272XXX
注册成立信息*注册地址:XX省XX市XX大道*注册成立日期:20081021
..... |
数据样例:1、检查“一、客户基本身份信息”中“营业期限截至日期”栏位日期早于填报日期(不存在)。2、检查“行业类别”是否为“文化、体育和娱乐业”,“经营范围”是否为“贵金属相关业务”。3、检查“行业类别”、“经营范围”的填写是否相矛盾,例如不应出现“行业类别”填写为“文化、体育和娱乐业”,但是“行业类别”填写为“文化、体育和娱乐业”的情况。4、检查持股比例:填写的持股比例相加,其结果是否大于100%。5、检查“法定代表人/单位负责人”、“个人控股股东”、“受益所有人”、“授权代表人”姓名是否相同。6、检查比对受益所有人中国籍、性别、生日是否不一致。...... |
1、校验客户基本身份信息中“出生年月”是否小于196,401,判断为退休人员2、校验客户基本身份信息中“出生年月”栏位数字是否等于“身份证明文件号码”栏位中第7~12位数字,判断19640112与出生年月匹配3、职业为外卖,无法匹配为自由职业的类别 ...... |
4.3. 实验结果讨论
(1) RAG优化大模型输出的成效显著
本研究的实验数据揭示了检索增强(RAG)技术在优化大语言模型(LLMs)输出方面的卓越表现。该技术通过将检索技术与LLMs有机融合,显著缩减了生成模型的搜索空间,这一成效主要归功于两大因素。一方面,RAG框架内置的检索模块能够精准地从金融文档知识库中抽取出与用户输入紧密相关的上下文信息,为模型提供了更为详尽的背景知识支撑,从而助力模型更精确地捕捉并理解用户的真实意图,有助于模型更准确地判断当前交易是否存在欺诈行为。另一方面,RAG框架所采用的向量嵌入模型及语义相似度计算方法,能够高效地筛选出与用户查询在语义层面高度契合的政策文本,显著提升了检索结果的精准度与质量。这一系列优势有效缓解了LLMs普遍存在的“幻觉”现象,即模型倾向于生成与实际情况相悖的虚假信息。
(2) 高质量数据集对RAG性能的深远影响
本研究精心构建的金融文本数据集展开实验,如历史欺诈样本、历史交易数据,该数据集内含经过人工细致标注的检索增强微调数据,对大模型的生成结果产生了深远的影响。在数据集的构建过程中,我们采用人工方式精准定位问题所涉及的金融数据原文,并严格筛选出与问题高度相关的文本数据。同时,通过严格的二次审核流程,确保了数据的准确无误与完整无缺,为模型的训练与评估奠定了坚实可靠的基础。实验结果进一步印证了数据集质量对模型性能的显著影响。展望未来,我们计划进一步拓展数据集的规模,并积极探索更为高效的数据标注策略,如引入主动学习、无监督机器学习等先进技术[9],以期在降低数据标注成本的同时,持续提升数据质量。
(3) 基于大模型RAG识别技术的瓶颈及优势
本研究中发现当知识库中缺乏相关信息时,基于大模型RAG识别表现可能不及数据驱动方法(基于规则、机器学习),外部知识库不够全面或更新不及时,RAG的推理性能可能受限。另外、RAG需要进行检索与生成,推理时间可能较长,不利于实时监测场景。其次RAG需要大规模预训练模型与知识库的高效检索引擎,资源消耗大,部署难度高。但其技术创新优势非常明显,首先,RAG能够动态检索外部知识库(如审查报告、金融法规、历史欺诈样本),可结合生成模型的推理能力处理复杂或少见的欺诈场景,在新型或变种欺诈模式中指标表现优秀。其次,其生成模型能基于检索的知识库内容生成解释性文本,结合知识图谱技术可帮助分析欺诈行为的根源。最后,RAG能够灵活结合结构化数据(交易记录)与非结构化数据(交易备注、用户行为日志、报告文档,制度文档、历史报告),提高了模型的泛化能力。
5. 结论与展望
5.1. 结论
本研究通过一系列的实验对比验证,深入探讨了大型语言模型结合RAG技术在金融交易反欺诈识别中的应用。通过实验设计和评估方案,我们验证了RAG技术在提升模型答案忠实度、问题相关性、内容精确度、语义相似性方面对模型性能的具体影响。实验结果表明,引入RAG技术后的大模型在金融交易反欺诈识别方面表现出色,具有广阔的应用前景。
5.2. 展望
金融领域大型模型的检索增强技术面临诸多挑战,如高昂的计算成本、回答结果的不稳定与低可信度,以及数据安全隐患,这些障碍限制了其应用效果和市场推广。因此,未来研究需致力于:开发更高效的检索架构,简化RAG (Retrieval-Augmented Generation,检索增强生成)框架,以减少计算资源需求,便于在移动设备等资源有限环境中部署[10]。提升RAG框架的透明度和解释性,增强用户对模型输出的信任度。强化检索系统的泛化能力和实用性,确保其在各种场景下都能稳定、准确地提供服务。
基金项目
本文系国家自然科学基金面上项目《产业互联“智造”供需网的结构、演化及其动力学研究》(项目编号:71871144)的研究成果之一。
NOTES
*通讯作者。