|
[1]
|
彭晏飞, 孙鲁. 基于图像分割的语义标注方法[J]. 计算机应用, 2012, 32(6): 1548-1551.
|
|
[2]
|
Baltrušaitis, T., Ahuja, C. and Morency, L.P. (2018) Multimodal Machine Learning: A Survey and Taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41, 423-443. [Google Scholar] [CrossRef]
|
|
[3]
|
彭宇新, 綦金玮, 黄鑫. 多媒体内容理解的研究现状与展望[J]. 计算机研究与发展, 2019, 56(1): 183-208.
|
|
[4]
|
Wang, T., Li, F., Zhu, L., Li, J., Zhang, Z. and Shen, H.T. (2025) Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions. Proceedings of the IEEE, 112, 1716-1754.
|
|
[5]
|
张玉康, 谭磊, 陈靓影. 基于图像和特征联合约束的跨模态行人重识别[J]. 自动化学报, 2021, 47(8): 1943-1950.
|
|
[6]
|
林倞, 杨斌斌. 从感知到创造: 图像视频生成式方法前沿探讨[J]. 光学学报, 2023, 43(15): 155-175.
|
|
[7]
|
张雷, 崔荣一. 基于编辑距离的词序敏感相似度度量方法[J]. 延边大学学报: 自然科学版, 2020, 46(2): 140-144.
|
|
[8]
|
李秋明, 张卫山, 张培颖. 基于句子多种特征的相似度计算模型[J]. 软件导刊, 2016, 15(9): 4-6.
|
|
[9]
|
徐健. 基于多种测度的术语相似度集成计算研究[J]. 情报学报, 2013, 32(6): 618-628.
|
|
[10]
|
张晅. 在跨模态检索技术加持下推动广电数据安全[J]. 影视制作, 2024, 30(7): 78-81.
|
|
[11]
|
赵琼. 基于视频和三维动作捕捉数据的人体动作识别方法的研究[D]: [博士学位论文]. 中国科学技术大学, 2025.
|
|
[12]
|
刘鑫. 内容过滤技术与挖掘算法的设计优化[J]. 2024, 53(5): 42-43.
|
|
[13]
|
付泽润. 基于子兴趣分解的神经协同过滤方法[D]: [硕士学位论文]. 太原: 太原理工大学, 2022.
|
|
[14]
|
刘颖, 郭莹莹, 房杰, 等. 深度学习跨模态图文检索研究综述[J]. 计算机科学与探索, 2022, 16(3): 489-511.
|
|
[15]
|
Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., et al. (2021) Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision. International Conference on Machine Learning, Online, 18 July 2021, 4904-4916.
|
|
[16]
|
Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. International Conference on Machine Learning, Online, 18 July 2021, 8748-8763.
|
|
[17]
|
郑玉栋. 基于外部注意力机制的多模态模型研究[D]: [硕士学位论文]. 哈尔滨: 黑龙江大学, 2023
|
|
[18]
|
毛琪, 方镇, 陈澜, 等. 基于扩散模型的图像编辑研究现状[J]. 中国传媒大学学报(自然科学版), 2024, 31(4): 38-54.
|
|
[19]
|
Li, J., Li, D., Xiong, C. and Hoi, S. (2022) Blip: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation. International Conference on Machine Learning, Online, 18 July 2021, 12888-12900.
|
|
[20]
|
李帅帅, 何向真, 张跃洲, 等. 融合多情感的语音驱动虚拟说话人生成方法[J]. 计算机应用研究, 2024, 41(8): 2546-2553.
|