基于语义匹配的跨模态图文检索与生成研究
Research on Cross-Modal Graphic Retrieval and Generation Based on Semantic Matching
DOI: 10.12677/ml.2025.1391013, PDF,    科研立项经费支持
作者: 步英杰*:温州商学院信息工程学院,浙江 温州;澳门大学协同创新研究院,澳门;伍 乙:温州商学院信息工程学院,浙江 温州;浙江工商大学萨塞克斯人工智能学院,浙江 杭州;陈 锐:温州商学院信息工程学院,浙江 温州;悉尼大学工程学院,澳大利亚 悉尼;贺国栋, 陈 伟:温州商学院信息工程学院,浙江 温州
关键词: 跨模态文搜图语义匹配相似度计算CLIP模型CLIP + MLP模型Stable Diffusion 1.5模型Cross-Modality Text Search Map Semantic Matching Similarity Calculation CLIP Model CLIP + MLP Model Stable Diffusion 1.5 Model
摘要: 在语义学的研究框架中,语言被视为意义的载体,而图像则是感知的表征。随着人工智能的发展,文本与图像之间的跨模态研究成为了新的热点。本文聚焦于文搜图的任务,从语义学角度分析文本如何通过模型转化为相应的图像。具体来说,本文提出了一种基于语义组合特征的CLIP + MLP模型,用于提升模型在细粒度语义对齐中的表现。此外,本文通过构造多层次文本描述,比较原始CLIP模型与CLIP + MLP模型的语义匹配能力,并采用Stable Diffusion 1.5模型进行抽象语义的图像生成测试。结果表明,CLIP + MLP模型在复杂语义结构下表现更优,而Stable Diffusion 1.5模型在抽象风格与隐喻语言的还原中亦展现出一定的语义建构能力。总而言之,本文验证了语义特征建模在跨模态任务中的关键作用,为语义驱动的图文理解提供了有力支持。
Abstract: In the research framework of semantics, language is regarded as a carrier of meaning, while images are representations of perception. With the development of artificial intelligence, cross-modal research between text and image has become a new hot spot. This paper focuses on the task of text searching for images, and analyzes how text can be transformed into corresponding images through models from a semantic perspective. Specifically, this paper proposes a CLIP + MLP model based on semantic combination features for improving the performance of the model in fine-grained semantic alignment. In addition, this paper compares the semantic matching ability of the original CLIP model and the CLIP + MLP model by constructing multi-level text descriptions, and tests the image generation of abstract semantics using the Stable Diffusion 1.5 model. The results show that the CLIP + MLP model performs better under complex semantic structures, while the Stable Diffusion 1.5 model also shows some semantic construction ability in the reduction of abstract style and metaphorical language. All in all, this paper validates the key role of semantic feature modeling in cross-modal tasks and provides strong support for semantics-driven graphic understanding.
文章引用:步英杰, 伍乙, 陈锐, 贺国栋, 陈伟. 基于语义匹配的跨模态图文检索与生成研究[J]. 现代语言学, 2025, 13(9): 561-573. https://doi.org/10.12677/ml.2025.1391013

参考文献

[1] 彭晏飞, 孙鲁. 基于图像分割的语义标注方法[J]. 计算机应用, 2012, 32(6): 1548-1551.
[2] Baltrušaitis, T., Ahuja, C. and Morency, L.P. (2018) Multimodal Machine Learning: A Survey and Taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41, 423-443. [Google Scholar] [CrossRef
[3] 彭宇新, 綦金玮, 黄鑫. 多媒体内容理解的研究现状与展望[J]. 计算机研究与发展, 2019, 56(1): 183-208.
[4] Wang, T., Li, F., Zhu, L., Li, J., Zhang, Z. and Shen, H.T. (2025) Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions. Proceedings of the IEEE, 112, 1716-1754.
[5] 张玉康, 谭磊, 陈靓影. 基于图像和特征联合约束的跨模态行人重识别[J]. 自动化学报, 2021, 47(8): 1943-1950.
[6] 林倞, 杨斌斌. 从感知到创造: 图像视频生成式方法前沿探讨[J]. 光学学报, 2023, 43(15): 155-175.
[7] 张雷, 崔荣一. 基于编辑距离的词序敏感相似度度量方法[J]. 延边大学学报: 自然科学版, 2020, 46(2): 140-144.
[8] 李秋明, 张卫山, 张培颖. 基于句子多种特征的相似度计算模型[J]. 软件导刊, 2016, 15(9): 4-6.
[9] 徐健. 基于多种测度的术语相似度集成计算研究[J]. 情报学报, 2013, 32(6): 618-628.
[10] 张晅. 在跨模态检索技术加持下推动广电数据安全[J]. 影视制作, 2024, 30(7): 78-81.
[11] 赵琼. 基于视频和三维动作捕捉数据的人体动作识别方法的研究[D]: [博士学位论文]. 中国科学技术大学, 2025.
[12] 刘鑫. 内容过滤技术与挖掘算法的设计优化[J]. 2024, 53(5): 42-43.
[13] 付泽润. 基于子兴趣分解的神经协同过滤方法[D]: [硕士学位论文]. 太原: 太原理工大学, 2022.
[14] 刘颖, 郭莹莹, 房杰, 等. 深度学习跨模态图文检索研究综述[J]. 计算机科学与探索, 2022, 16(3): 489-511.
[15] Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., et al. (2021) Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision. International Conference on Machine Learning, Online, 18 July 2021, 4904-4916.
[16] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. International Conference on Machine Learning, Online, 18 July 2021, 8748-8763.
[17] 郑玉栋. 基于外部注意力机制的多模态模型研究[D]: [硕士学位论文]. 哈尔滨: 黑龙江大学, 2023
[18] 毛琪, 方镇, 陈澜, 等. 基于扩散模型的图像编辑研究现状[J]. 中国传媒大学学报(自然科学版), 2024, 31(4): 38-54.
[19] Li, J., Li, D., Xiong, C. and Hoi, S. (2022) Blip: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation. International Conference on Machine Learning, Online, 18 July 2021, 12888-12900.
[20] 李帅帅, 何向真, 张跃洲, 等. 融合多情感的语音驱动虚拟说话人生成方法[J]. 计算机应用研究, 2024, 41(8): 2546-2553.