Sub-Med VQA：结合子问题生成与多模态推理的医学视觉问答

doi:10.12677/sa.2025.142041

期刊菜单

Sub-Med VQA：结合子问题生成与多模态推理的医学视觉问答
Sub-Med VQA: A Medical Visual Question Answering Model Integrating Sub-Question Generation and Multimodal Reasoning

DOI: 10.12677/sa.2025.142041, PDF, HTML, XML,
作者: 闫婧昕：北京建筑大学理学院，北京
关键词: 医学视觉问答；子问题生成；多模态对齐；动态知识注入；逐步推理；Medical Visual Question Answering； Sub-Question Generation； Multimodal Alignment； Dynamic Knowledge Injection； Stepwise Reasoning

摘要: 医学视觉问答(Medical VQA)通过回答基于医学图像的自然语言问题，为临床诊断和决策提供支持。然而，现有方法在多步推理、细粒度理解和可解释性方面存在不足。本文提出一种创新性模型，通过子问题生成机制将复杂医学查询分解为简单问题，并结合多模态对齐和动态知识注入模块逐步推理。模型能够精准聚焦医学图像的关键区域，对查询相关的语义进行动态整合，提升答案生成的准确性和可靠性。在SLAKE和VQA-MED数据集上进行的实验表明，所提方法在答案准确性、推理能力和可解释性方面优于现有方法，为医学VQA任务中的多模态信息整合和复杂推理提供了高效解决方案，并为临床诊断和智能医学研究提供了新思路。

Abstract: Medical Visual Question Answering (Medical VQA) supports clinical diagnosis and decision-making by answering natural language questions based on medical images. However, existing approaches face challenges in multi-step reasoning, fine-grained understanding, and interpretability. This paper proposes an innovative model that decomposes complex medical queries into simpler sub-questions through a sub-question generation mechanism. Combined with multimodal alignment and dynamic knowledge injection modules, the model performs progressive reasoning. It dynamically focuses on key regions of medical images, integrates query-relevant semantics, and enhances the accuracy and reliability of answer generation. Experiments conducted on the SLAKE and VQA-MED datasets demonstrate that the proposed method outperforms state-of-the-art approaches in terms of answer accuracy, reasoning capability, and interpretability. This work offers an efficient solution for multimodal information integration and complex reasoning in Medical VQA tasks and provides new insights for clinical diagnostics and intelligent medical research.

文章引用：闫婧昕. Sub-Med VQA：结合子问题生成与多模态推理的医学视觉问答[J]. 统计学与应用, 2025, 14(2): 115-125. https://doi.org/10.12677/sa.2025.142041

1. 引言

医学视觉问答(Medical VQA)通过回答基于医学图像的自然语言问题，为临床诊断和决策提供了重要支持[1] [2]。现有方法主要依赖卷积神经网络(CNN)或Transformer模型提取医学图像的视觉特征，并结合自然语言问题进行多模态融合[3] [4]。尽管这些方法在简单任务中表现良好，但在需要多步推理和细粒度理解的复杂医学查询中仍显不足[5]。此外，模型可解释性不足和难以追踪错误也限制了其在医学领域的应用[6] [7]。本文首次将子问题生成机制引入医学视觉问答(VQA)任务，提出一种创新模型，通过子问题分解、多模态对齐和动态知识注入，逐步推进推理过程，提升复杂医学查询的解答能力。主要贡献包括：

1) 将复杂查询分解为子问题，逐步聚焦关键信息，提高病变检测和病理特征等细粒度任务的准确性。

2) 动态对齐医学图像与文本，提供透明的推理路径，便于错误追踪和决策理解，避免误诊。

3) 适应复杂多模态任务，展现出优异的开放性问题解答能力。

2. 方法论

2.1. 总体框架

Sub-MedVQA模型针对医学视觉问答(VQA)的多模态推理挑战，设计了四个协作模块，实现高效医学图像理解与逐步推理，生成准确且合理的答案[8] [9]。如图1所示，通过结合ResNet-101预训练模型和局部特征提取，完成多尺度医学图像编码。全局与局部特征经Transformer优化，形成细粒度图像表示。模型将复杂问题分解为子问题，并通过递进式推理生成路径，逐步聚焦关键信息。引入推理路径生成器和动态知识过滤模块，动态整合图像特征、子问题路径与外部知识。最终，基于整合特征用Transformer解码器生成答案，并通过合理性验证机制提升可靠性。模型在细粒度理解、知识融合与逐步推理中表现优异，显著提高了医学VQA的准确性与可解释性。

Figure 1. Overall framework of the Sub-Med VQA model

图1. Sub-MedVQA模型总体框架

2.2. 特征提取模块

图像特征提取：在本研究中，为了有效地对医学图像(如CT、MRI)进行多尺度特征提取，捕获全局与局部的关键信息，我们结合ResNet-101预训练模型与局部区域特征提取模块构建图像特征提取机制[10]。这一模块作为Sub-MedVQA模型的基础，支持子问题生成和多模态推理任务。首先，提取全局特征，输入医学图像I首先经过预处理，包括归一化与尺寸调整为224 × 224像素，以满足ResNet-101模型的输入要求。输入图像表示为：

$I \in ℝ^{H \times W \times C}, H = 224, W = 224, C = 3$ (1)

ResNet-101通过深度卷积网络逐步下采样输入图像，提取分层视觉特征。最终层输出的全局特征图表示为：

$V_{global} = ResNet 101 (I), Vglobal \in ℝ^{S \times S \times D}$ (2)

其中， $S = 7$ 表示空间维度， $D = 2048$ 为特征通道数。为了进一步保留空间信息并便于后续处理，将特征图展平成向量形式：

$V_{global_flat} = Flatten (V_{global }), V_{global_flat} \in ℝ^{S^{2} \times D}$ (3)

其中， $V_{global_flat }$ 的每个向量 $v_{i} \in ℝ^{D}$ 对应于输入图像的一个7 × 7区域。

问题特征提取：需要提取医学图像的病灶或异常区域往往呈现出细粒度的局部特征，而全局特征可能无法捕获这些关键信息[11]。为解决这一问题，我们引入Faster R-CNN进行局部区域(ROI)特征提取。通过自注意力机制利用文本问题Q_t的语义特征指导兴趣区域提取。设 $Q_{t} \in ℝ^{d_{q}}$ 表示由文本特征提取模块得到的语义查询特征，则局部区域特征提取过程可表示为：

$V_{local} = ROI_Extractor (I, A t t e n t i o n (Q_{t}, V_{g l o b a l_f l a t}))$ (4)

其中，Attention机制定义为：

$A t t e n t i o n (Q_{t},K,V) = softmax (\frac{Q_{t} K^{T}}{\sqrt{d_{k}}}) V$ (5)

其中， $K = V = V_{global_flat}, d_{k}$ 为键向量的维度。Attention机制通过计算查询向量 $Q_{t}$ 与图像区域特征之间的相似性，动态聚焦于问题相关的局部区域。局部区域特征表示为：

$V_{local} = {v_{local}^{1} {,v}_{local}^{2}, \dots {,v}_{local}^{R}}, v_{local}^{r} \in ℝ^{D}$ (6)

其中，R是被选定的兴趣区域数。然后将全局特征V_global和局部特征V_local进行融合，以形成更完整的图像表示。融合过程采用可学习的加权机制：

$V_{combined} = α \cdot V_{global_flat} + β \cdot V_{local}, α + β = 1$ (7)

其中， $α$ 和 $β$ 为可学习参数，通过训练自动优化。 $V_{combined}$ 将全局和局部信息有效结合，既保持整体结构信息，又强化了病灶区域的细粒度表达。融合后的图像特征 $V_{combined}$ 输入到Transformer编码器中进行进一步特征优化。Transformer编码器由多层自注意力和前馈网络组成，输入为拼接后的图像特征与CLS标记：

$V_{input} = Concat ({CLS,V}_{combined})$ (8)

通过位置编码PE保留空间关系：

$V_{pos} = V_{input} + PE$ (9)

在编码器中，自注意力机制计算跨区域特征的相关性，输出表示为：

$V_{final} = Transformer (V_{pos})$ (10)

其中，Transformer的输出CLS标记 $V_{final}$ 作为图像的整体表示，用于后续的子问题生成与多模态推理任务。最终，如图2所示，图像特征提取模块通过结合ResNet-101的全局特征、ROI提取的局部特征以及Transformer优化，实现了对医学图像的多尺度、细粒度编码，为VQA任务提供了高效的视觉表示。

Figure 2. Feature extraction module of Sub-Med VQA

图2. Sub-Med VQA特征提取模块

2.3. 子问题生成模块

在Sub-MedVQA模型中，子问题生成模块的核心目标是通过根据给定的医学图像和高阶问题生成一系列逐步细化的子问题，分步推进推理过程，从而提供清晰、精确的推理路径[4]。本模块特别针对医学领域的复杂性进行设计，首次在医学VQA中引入了递进式推理机制，将一个复杂的医学问题转化为多个小的、可操作的子问题，使得问题的推理变得更加系统和高效。相较于传统的视觉问答任务，医学VQA任务不仅要处理普通的视觉信息，还需要理解和推理医学图像中的异常区域、病灶、解剖结构等专业细节，这对子问题生成提出了更高的要求。如图3所示，子问题生成模块的输入包括当前的高阶问题Q和图像特征 $V_{final}$ ，后者是从图像特征提取模块中获得的优化图像表示。

Figure 3. Sub-question generation module of Sub-Med VQA

图3. Sub-Med VQA子问题生成模块

图像特征 $V_{final}$ 代表了图像中各区域的语义信息，包括全局和局部区域特征，这些特征经过Transformer优化后能够提供丰富的图像上下文信息。具体来说，图像特征表示为： $V_{final} \in ℝ^{N \times D}$ 。其中，N是图像区域的数量，D是每个区域的特征维度。子问题生成模块通过图像特征和问题文本来生成子问题，表示为：

$Q_{t} \sim P_{θ Q} (q t | Q, V_{final}, H_{t - 1})$ (11)

其中， $Q_{t}$ 表示第t步生成的子问题， $H_{t - 1}$ 是历史对话状态，表示第 $t - 1$ 步生成的子问题及其答案对。 $θ_{Q}$ 是模型的参数。子问题生成模块基于递进式推理框架，通过两部分来逐步生成问题：问题编码器和历史对话编码器。子问题生成模块的目标是在每一步生成一个适合当前图像和问题语境的子问题 $S_{t}$ 。具体来说，子问题 $S_{t}$ 的生成依赖于当前问题的语义表示 $Q_{t}$ 、优化后的图像特征 $V_{final}$ 和历史对话状态 $H_{t - 1}$ ，公式表示为：

$S_{t} \sim P_{θ s} (S_{t} | Q_{t}, V_{final}, H_{t - 1})$ (12)

其中， $H_{t - 1}$ 是此前生成的子问题及其答案对的集合，形式为 ${(S_{1} , A_{1 }), \dots, (S_{t - 1 }, A_{t - 1 })}$ 。子问题生成器的参数为 $θ_{s}$ 。生成的子问题 $S_{t}$ 随后被输入到子答案生成器，与图像特征 $V_{final}$ 相结合，生成对应的答案 $A_{t }$ ：

$A_{t} \sim P_{θ a} (A_{t} | S_{t}, V_{final})$ (13)

在生成过程中，子问题生成模块采用了自注意力机制，确保问题和图像特征的高度对齐。通过计算问题的查询向量Q与图像特征的键和值矩阵之间的相关性，自注意力机制能够聚焦于图像中与当前问题最相关的区域。相关性计算公式为：

首先，问题编码器将当前问题Q进行编码，得到其语义表示 $Q_{fea}$ ：

$Q_{fea} = {GRU}_{Q} (Q_{t})$ (14)

然后，历史对话编码器对已生成的子问题及答案对 $H_{t - 1}$ 进行编码，得到历史语义信息 $H_{t - 1}$ ：

$H_{t - 1} = {GRU}_{h} (H_{t - 1})$ (15)

通过将当前问题的语义表示和历史对话信息结合，解码器生成当前的子问题 $Q_{t}$ ：

$Q_{t} = {GRU}_{d} (Q_{fea} {,H}_{t - 1})$ (16)

生成的子问题将作为后续推理步骤的输入，进一步推动模型对图像的逐步理解。为了确保子问题生成与图像之间的语义对齐，子问题生成模块通过图像特征 $V_{final}$ 和当前问题 $Q_{t}$ 进行交互。通过自注意力机制，子问题生成模块能够计算图像和问题之间的相似度，确保生成的子问题能够有效地从图像中提取出关键信息，并确保问题语义与图像特征的高度一致。自注意力机制的计算公式为：

$A t t e n t i o n (Q_{t}, K, V) = s o f t \max (\frac{Q_{t} K^{T}}{\sqrt{d k}}) V$ (17)

其中， $K = V = V_{final}$ ，确保子问题生成能够聚焦于图像中与当前问题相关的区域。子问题生成模块通过不断细化问题，生成适合后续推理的子问题序列。每个生成的子问题 $Q_{t}$ 都会影响后续问题的生成，并为最终的答案提供推理路径。生成的子问题序列 ${Q_{1}, Q_{2}, \dots, Q_{T}}$ 将作为后续推理模块的输入。每一步的子问题都能够基于历史问题与答案对，逐步引导模型发现图像中的关键信息，最终实现对医学图像的全面理解。子问题生成模块通过最大化生成子问题的对数似然函数来进行优化：

$L_{sub-question} = - \sum_{t = 1}^{T} log P_{θ_{s}} (S_{t} | Q_{t}, V_{f i n a l}, H_{t - 1}) + \log P_{θ}_{a} (A_{t} | S_{t}, V_{f i n a l})$ (18)

通过最大化对数似然，子问题生成模块能够逐步调整生成策略，确保生成的子问题既能够充分反映图像内容，又能有效引导后续推理，从而确保推理过程的正确性和准确性。

2.4. 多模态融合模块

为了进一步增强Sub-MedVQA模型在医学视觉问答(VQA)任务中的多模态推理能力，我们设计了融合模块，其核心包括推理路径生成器和动态知识过滤模块。该模块通过动态特征更新与外部知识选择性引入，实现图像、文本和知识的高效整合，逐步提升模型的推理精度与可解释性[12]。推理路径生成器的目标是动态维护和更新图像与文本的多模态特征表示，确保每一步推理都能在图像全局特征和局部区域特征的基础上，生成逐步细化的特征表示。在第t步子问题 $Q_{t}$ 的推理中，推理路径生成器首先将全局图像特征 $V_{global}$ 和局部区域特征 $V_{local}$ 投影到共享潜在空间：

$V_{shared}^{(t)} = W_{global} V_{global} {+W}_{local} V_{local}$ (19)

其中， $W_{global} \in ℝ^{D \times D'}$ 和 $W_{local} \in ℝ^{D \times D'}$ 是可学习的线性映射矩阵，D为原始特征维度，D′为共享潜在空间的维度。在回答子问题后，模型根据当前答案 $A_{t}$ 更新共享特征空间：

$V_{shared}^{(t+1)} = γ V_{shared}^{(t)} + (1 - γ) W_{A} A_{t}$ (20)

其中，γ是平衡因子(0 ≤ γ ≤ 1)，用于控制上一轮特征与当前答案特征之间的权重， $W_{A} \in ℝ^{D \times D'}$ 是答案特征的映射矩阵。这一迭代更新机制确保了每一步推理路径都能基于当前子问题和答案动态优化图像与文本特征表示。医学问答任务往往需要引入外部知识来辅助推理。为了避免传统注意力机制的计算开销，我们设计了动态知识过滤模块，通过上下文相关性度量，从外部知识库中检索并融合相关知识。设医学知识库为 $K= {k_{1 } {,k}_{2} , \dots {,k}_{N} }$ ，其中K表示第j个知识条目，N为知识条目总数。当前子问题的上下文表示为 $Q_{t}$ ，相关性分数 $s_{j}$ 计算为：

$s_{j} = \frac{Q_{t} \cdot k_{j}}{‖ Q_{t} ‖ ‖ k_{j} ‖ } $ (21)

其中，∙表示点积操作， $‖ Q_{t} ‖$ 和 $‖ k_{j} ‖$ 分别表示范数。基于相关性分数 $s_{j}$ ，选择M个最相关的知识条目 ${k_{1}^{*} {,k}_{2}^{*}, \dots {,k}_{M}^{*} }$ 。接下来，将选定的知识条目与子问题表示 $Q_{t}$ 融合，采用上下文插值机制：

$K_{fused} = λ Q_{t}_{} + (1 - λ) \frac{1 }{M} \sum_{j = 1}^{M} k_{j}^{*} $ (22)

其中，λ为可学习的融合权重(0 ≤ λ ≤ 1)，用于平衡子问题特征与知识特征之间的影响。推理路径生成器的输出特征 $V_{shared}^{(t+1)}$ 和动态知识过滤模块的融合特征 $K_{fused} $ 进一步进行动态整合，以生成最终的多模态特征表示 $F_{final } = θ V_{shared}^{(t + 1) } + (1 - θ) K_{fused} $ 。其中， $θ $ 是可学习参数(0 ≤ θ ≤ 1)，用于平衡动态更新的图像特征与外部知识特征。最终特征表示 $F_{final } $ 被输入解码器，用于生成子问题的答案或最终诊断报告。

2.5. 答案生成模块

在Sub-Med VQA模型中，答案生成模块作为最终模块，依托前三个模块(医学图像特征提取模块、子问题生成模块和融合模块)提供的多模态特征和推理路径，通过逐步累积的信息进行答案预测。这一模块实现了多模态信息的最终整合与解码，生成医学图像问答任务的最终答案或诊断报告[13]。答案生成模块的输入特征包括：1) 动态更新的图像特征，由医学图像特征提取模块和推理路径生成器逐步优化后的图像表示 $V_{shared}^{(T)}$ ，其中T表示最终子问题步骤。2) 融合知识表示，由动态知识过滤模块选择性引入的外部知识特征 $K_{fused} $ 。3) 历史子问题及答案信息，由子问题生成模块逐步生成的子问题序列 ${Q_{1}, Q_{2}, \dots, Q_{T}}$ 及对应的答案 ${A_{1}, A_{2}, \dots, A_{T}}$ 。最终特征整合由融合模块完成，生成最终的多模态特征表示：

$F_{final } = θ V_{shared}^{(T) } + (1 - θ) K_{fused} $ (23)

其中，θ为可学习权重参数，平衡图像特征与知识特征的贡献。答案生成模块采用基于Transformer解码器的结构，以处理最终特征 $F_{final } $ 并生成最终答案。解码器以多模态融合特征作为输入，通过多层自注意力和跨模态注意力机制进行答案预测。对融合后的特征表示 $F_{final } $ 内部进行信息重组，捕获跨区域和多模态特征之间的长程依赖关系：

$Self-Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d k}}) V$ (24)

其中， $Q, K, V$ 均来自 $F_{final } $ 。结合历史子问题及答案信息 ${Q_{t}, A_{t}}$ ，将当前特征与历史推理路径对齐，确保答案生成的上下文一致性：

$H_{context } = Attention (F_{final} {,H}_{t} )$ (25)

其中， $H_{t} $ 表示历史子问题与答案编码，包含模型在不同子问题步骤积累的推理路径信息。解码器将整合后的多模态上下文信息 $H_{context }$ 映射到答案空间，生成概率分布 $P (a | F_{final} , H_{t})$ ：

$P (a | F_{final} , H t) = softmax (W_{o} H_{context} + b)$ (26)

其中， $W_{o} $ 和b分别为解码器的输出权重和偏置参数。将由前三个模块产生的最终多模态特征 $F_{final } $ 输入至Transformer解码器。解码器通过跨模态注意力机制引入历史子问题与答案路径 ${Q_{t}, A_{t}}$ ，确保答案预测具备逻辑连贯性和语义完整性。解码器输出最终答案的条件概率分布 $P (a)$ ，选取最高概率的答案作为输出：

$a^{*} = argmax P (a | F_{final} , H_{T})$ (27)

答案生成模块通过交叉熵损失函数进行训练，优化生成答案与真实答案之间的差异：

$L_{a n s} = - \sum_{i = 1}^{N} y_{i} \log P (a_{i} | F_{final} , H_{T})$ (28)

其中，y_i表示真实答案的独热标签， $P (a_{i})$ 是解码器输出的答案概率。

3. 实验

3.1. 实施细节

在实验中，我们使用SLAKE和VQA-Med两个医学视觉问答数据集，训练模型以评估其在多模态理解和推理任务中的表现。医学影像和相关的问答对被用作输入，通过图像和文本的多模态特征对齐来生成预测答案。在数据预处理中，所有问题均被标记化并填充至固定长度(14个词)，问题和答案通过300维词向量嵌入，并利用GRU对文本特征进行编码，而图像特征则通过预训练的CNN模型提取。模型的隐藏层维度设置为1024，以确保语义表达的充分性。训练过程中采用Adam优化器，初始学习率设为5e−4，并在前4个epoch内线性增长至2e−3。为了提高模型的鲁棒性，从第14个epoch起，每2个epoch将学习率降低0.2直至第18个epoch，同时采用早停策略避免过拟合。模型训练还使用Dropout正则化，其中编码器的dropout概率为0.2，分类器为0.5，并对线性映射层施加权重归一化。实验在配置NVIDIA GPU上运行，使用PyTorch框架实现。推理阶段，通过对问题和医学影像的多模态特征进行综合处理，结合训练生成的知识，模型能够对给定问题和图像作出准确的答案预测。这些实验细节确保了训练和推理过程的高效性和可靠性，为SLAKE和VQA-Med数据集的多模态任务提供了全面的支持。

3.2. 整体结果

在SLAKE和VQA-Med两个主流医学视觉问答数据集进行实验，如表1所示的实验结果表明，本文提出的Sub-Med VQA模型在SLAKE数据集上优于现有最先进方法，在回答准确性、推理能力和可解释性等关键指标上均取得了更高的表现。医学视觉问答中的标价指标如下：闭合式准确率衡量模型在固定选项问题上的正确率，开放式准确率评估其在生成答案问题中的表现，而整体准确率则综合这两类问题的正确率，反映模型的全局性能和适应性。通过引入子问题生成机制、多模态对齐以及动态知识注入模块，Sub-Med VQA能够以逐步推理的方式精准捕捉图像与文本之间的语义关联，并动态引入相关医学知识进行推理补充，使其在处理复杂医学查询时展现出卓越的能力。相比于VGGseg + SAN和PubMedCLIP等方法，Sub-Med VQA在SLAKE数据集上的整体准确率达到82.6%，在闭合式和开放式任务中分别取得87.6%和79.3%的准确率，显著提升了多模态特征的融合效果和推理路径的透明性。

Table 1. Experimental results comparison of different models on the SLAKE dataset

表1. SLAKE数据集上不同模型的实验结果对比

模型	闭合式准确率	开放式准确率	整体准确率
VGG + SAN	76.1%	70.3%	72.7%
VGGseg + SAN	79.8%	72.2%	75.4%
PubMedCLIP-ViT-B	82.5%	78.4%	80.1%
LLaVA-Med	83.2%	-	-
Med-Gemini	84.8%	75.8%	-
Ours	87.6%	79.3%	82.6%

如表2所示的实验结果表明，Sub-MedVQA模型在VQA-MED数据集上取得了闭合式准确率83.1%、开放式准确率63.9%和整体准确率79.1%，显著优于现有方法。相比PubMedCLIP和MMQ，Sub-MedVQA在处理复杂医学查询时展现了更高的多模态对齐和推理能力，尤其在开放式任务中分别提升了3.8%和10.2%。模型通过引入子问题生成、多模态对齐和动态知识注入模块，逐步优化问题路径并动态补充相关知识，显著增强了答案的准确性和推理透明性，为医学视觉问答领域提供了新方法和新方向。

Table 2. Experimental results comparison of different models on the VQA-MED dataset

表2. VQA-MED数据集上不同模型的实验结果对比

模型	闭合式准确率	开放式准确率	整体准确率
MCB-RAD	54.2%	25.4%	-
SAN-RAD	54.6%	24.2%	-
MMQ	75.8%	53.7%	67.0%
PubMedCLIP	80.0%	60.1%	72.1%
MEVF (finetuning)	-	40.7%	74.1%
Ours	83.1%	63.9%	79.1%

我们在RadQA、PathVQA和PubMedCLIP-Med三个具有代表性的医学问答数据集进行了实验。RadQA主要关注CT和X-Ray影像中的细粒度诊断任务，强调对病变区域的精准定位与解释；PathVQA以病理图像为主，测试模型在复杂病变区域识别与多模态推理中的能力；PubMedCLIP-Med则聚焦于基于医学文献的问题生成任务，评估模型的文本生成能力和知识利用水平。

从表3的实验结果来看，Sub-Med VQA模型在这三个数据集上的表现验证了其在多模态对齐和逐步推理能力上的优势。在RadQA数据集中，模型的闭合式任务准确率为76.3%，但开放式任务准确率相对较低，仅为49.2%，表明在细粒度诊断任务中，模型在处理模糊病变区域和动态知识调用方面仍有提升空间。在PathVQA数据集中，模型的整体表现优于RadQA，闭合式任务准确率为80.4%，开放式任务为53.2%，这得益于模型通过子问题生成模块，能够逐步聚焦于病理图像中的关键区域，实现更精准的多模态对齐。对于PubMedCLIP-Med数据集，模型在闭合式任务中的准确率为74.8%，而开放式任务为50.3%，这一结果反映了模型在医学文献生成任务中对复杂背景信息和上下文理解能力的提升需求。

Table 3. Experimental results comparison of different models on RadQA, PathVQA, and PubMedCLIP-Med datasets

表3. RadQA、PathVQA、PubMedCLIP-Med数据集上不同模型的实验结果对比

数据集	闭合式准确率	开放式准确率	整体准确率
RadQA	76.3%	49.2%	68.0%
PathVQA	80.4%	53.2%	78.4%
PubMedCLIP-Med	74.8%	50.3%	65.7%

3.3. 消融实验

在消融实验中，我们针对Sub-MedVQA的关键模块逐一进行移除，以评估其对模型性能的独立贡献。实验结果显示(见表4)，移除子问题生成模块后，模型整体准确率降至42.2%，闭合式和开放式准确率分别为43.5%和39.0%，表明该模块在分解复杂问题和提升推理深度方面的重要作用。移除多模态对齐模块时，整体准确率下降至50.9%，闭合式和开放式准确率分别为55.2%和49.3%，凸显了视觉与文本特征精准对齐对回答准确性的关键贡献。移除动态知识注入模块后，整体准确率为53.7%，开放式准确率显著下降至42.8%，说明动态知识补充在复杂医学推理任务中的显著作用。当移除所有模块时，整体准确率降至32.4%，闭合式和开放式准确率分别为38.6%和25.7%，接近随机水平，验证了各模块对模型性能的核心支撑作用。这些结果清晰地表明，子问题生成、多模态对齐和动态知识注入模块协同提升了Sub-MedVQA模型在医学视觉问答任务中的准确性和推理能力。

Table 4. Ablation experiment results: the impact of each module on model performance on the SLAKE dataset

表4. 消融实验结果：SLAKE数据集上各模块对模型性能的影响

消融条件	闭合式准确率	开放式准确率	整体准确率
移除子问题生成模块	43.5%	39.0%	42.2%
移除多模态对齐模块	55.2%	49.3%	50.9%
移除动态知识注入模块	59.8%	42.8%	53.7%
移除所有模块	38.6%	25.7%	32.4%

4. 总结

本文提出了一种创新的医学视觉问答模型，旨在解决现有方法在处理复杂医学查询时的多模态对齐不足、推理深度有限以及对外部知识支持欠缺等局限性。针对这些问题，我们设计了子问题生成机制、动态知识注入模块和跨模态对齐方法，使模型能够逐步分解复杂问题，并结合图像特征、文本语义和外部医学知识进行精准推理。实验结果表明，所提模型在SLAKE和VQA-MED两个主流医学VQA数据集上的闭合式准确率、开放式准确率和整体准确率均显著优于现有最先进方法，以及其他三个数据集上进行的实验，充分验证了模型的有效性。此外，消融实验进一步证明了子问题生成、动态知识注入和多模态对齐模块对提升推理能力和答案准确性的关键作用，通过这些模块的协同工作，模型提供了更透明的推理路径和更强的可解释性，便于追踪和纠正推理中的错误。同时，探索模型在其他医学或跨领域任务中的泛化能力，以及其在实际医疗场景中的交互性和可靠性，将为构建更加智能化的医学决策支持系统奠定坚实基础。

参考文献

[1]	Jiang, Y., Natarajan, V., Chen, X.L., et al. (2018) Pythia v0.1: The Winning Entry to the VQA Challenge 2018. arXiv: 1807.09956.
[2]	Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C.H., et al. (2019) Biobert: A Pre-Trained Biomedical Language Representation Model for Biomedical Text Mining. Bioinformatics, 36, 1234-1240. https://doi.org/10.1093/bioinformatics/btz682
[3]	Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., et al. (2017) Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. International Journal of Computer Vision, 123, 32-73. https://doi.org/10.1007/s11263-016-0981-7
[4]	Li, J. and Liu, S. (2021) Image CLEFmed VQA-Med 2021: Attention Model Based on Efficient Interaction between Multimodality. Working Notes of CLEF 201.
[5]	Agrawal, A., Batra, D., Parikh, D. and Kembhavi, A. (2018). Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 4971-4980. https://doi.org/10.1109/cvpr.2018.00522
[6]	Lau, J.J., Gayen, S., Ben Abacha, A. and Demner-Fushman, D. (2018) A Dataset of Clinically Generated Visual Questions and Answers about Radiology Images. Scientific Data, 5, Article No. 180251. https://doi.org/10.1038/sdata.2018.251
[7]	Al-Sadi, A., Talafha, B., Al-Ayyoub, M., Jararweh, Y. and Costen, F. (2019) Just at Image CLEF 2019 Visual Question Answering in the Medical Domain. Working Notes of CLEF.
[8]	Li, M., Cai, W., Liu, R., Weng, Y., Zhao, X., Wang, C., Chen, X., Liu, Z., Pan, C., Li, M., et al. (2021) FFA-IR: Towards an Explainable and Reliable Medical Report Generation Benchmark. 35th Conference on Neural Information Processing, Canada, 6-14 December 2021, 1-9.
[9]	Lin, T.-Y., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollár, P. and Zitnick, C.L. (2014) Microsoft COCO: Common Objects in Context. ECCV.
[10]	Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., et al. (2017) Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. International Journal of Computer Vision, 123, 32-73. https://doi.org/10.1007/s11263-016-0981-7
[11]	Al-Sadi, A., Al-Theiabat, H. and Al-Ayyoub, M. (2020) The Inception Team at VQA-Med 2020: Pretrained VGG with Data Augmentation for Medical VQA and VQG. Working Notes of CLEF 2020.
[12]	Kim, J.-H., Jun, J. and Zhang, B.-T. (2018) Bilinear Attention Networks. 2018 Conference on Neural Information Processing Systems, Montréal, 3-8 December 2018, 1-8.
[13]	Loper, E. and Bird, S. (2002) NLTK. Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics, Philadelphia, 7 July 2002, 63-70. https://doi.org/10.3115/1118108.1118117

为你推荐

友情链接