基于深度学习的景观感知评价研究现状及趋势分析
Research Status and Trend Analysis of Landscape Perception Evaluation Based on Deep Learning
DOI: 10.12677/design.2024.92238, PDF, HTML, XML, 下载: 24  浏览: 44 
作者: 徐展鹏*, 唐 真:上海工程技术大学艺术设计学院,上海;沈 剑:华侨城华东投资有限公司,上海
关键词: 深度学习机器学习人工智能景观格局景观评价景观感知Deep Learning Machine Learning Artificial Intelligence Landscape Pattern Landscape Evaluation Landscape Perception
摘要: 深度学习技术已在风景园林领域证明了其重要价值,尤其是在景观感知评价和数字化规划设计中显示出广泛的研究和应用前景。该技术能够通过多层次、多阶段的表示学习从大规模数据集中提取复杂特征,有助于构建先进的景观评价和分析模型,从而大幅提升模型性能和适用性。然而,并行的是,技术与实践的发展将可能带来新的挑战,需要研究者和从业者保持对新发展方向的关注和适应。
Abstract: Deep learning technology has demonstrated its significant value in the field of landscape architecture, particularly in terms of landscape perception evaluation and digital planning and design, showing a broad range of research and application prospects. The technology is capable of extracting complex features from large-scale datasets through multi-level, multi-stage representation learning, which aids in constructing advanced landscape evaluation and analysis models, thereby greatly enhancing model performance and applicability. However, parallel to this progress, the development of technology and practice may bring new challenges, necessitating that researchers and practitioners maintain their focus on and adapt to emerging directions of development.
文章引用:徐展鹏, 唐真, 沈剑. 基于深度学习的景观感知评价研究现状及趋势分析[J]. 设计, 2024, 9(2): 503-509. https://doi.org/10.12677/design.2024.92238

1. 引言

机器学习是推动人工智能发展的关键路径,对于分析大量数据至关重要。这些算法能够自动识别数据中的模式和关联,以揭示潜在的作用机制并对新数据进行预测。毋庸置疑,这些技术的演进将加速景观评估领域的成长。尤其是深度学习,它作为机器学习的一个重要子领域,已在景观评估研究中取得突破性进展,相较于经典机器学习方法,它展现了更强的实验结果,打开了新的应用前景。深度学习在处理图像、语音和文本信息方面已证明了其效力,这得益于深度神经网络复杂的多层架构和优秀的特征提取能力,使我们能够更精确地捕捉和解析复杂的景观数据。本章将探讨深度学习在景观评估中的最新进展,分析当前面临的挑战,并预测其未来的发展路径。

2. 相关理念

2.1. 深度学习的概念

深度学习是机器学习的重要分支,深度学习是通过深度神经网络模拟生物神经网络来解决现实世界中的复杂问题。深度学习技术本质上是一种对数据进行表征学习的算法。该技术利用海量无标记数据进行分析,探索数据间的关联方式,并将这些关系转化为数学模型,以便对新数据进行类似人脑神经系统的推断和识别工作 [1] 。通过堆叠多个神经网络,增加输入到输出的路径长度,从而构建一个复杂的函数关系模型 [2] 。

2.2. 景观感知的概念

景观感知是指人们对自然环境和人造环境中的空间配置、特征和美感的内在感受和认知。这一概念涉及到心理学、环境设计学、城市规划和地理信息学等多个学科领域。景观感知影响着个体对一个地方的情感态度、偏好以及使用行为,并且可以根据个体的文化背景、经验和个人喜好而变化。

3. 深度学习在风景园林景观感知评价中的研究进展

3.1. 深度学习模型在用户情感分析中的应用

情感分析(Sentiment Analysis, SA),又称观点挖掘(Opinion Mining, OM) [3] ,是自然语言处理(Natural Language Processing, NLP) [3] 领域的热点任务。该研究旨在探索如何提取人们对某种事物、产品或服务的情绪、态度和看法,以及这些情绪的积极、消极或中立的特征。目前情感分析已经成为NLP领域中的热门研究课题,在产品点评和社交媒体等领域得到了广泛的应用。

传统的机器学习情感分析方法无法适应现如今新的词语不断出现的趋势,深度学习的情感分析法应运而生。深度学习的情感分析方法可以通过构建神经网络自动提取文本特征,不需要通过人工构建特征选择方式。Kim [4] 利用卷积神经网络进行情感分类,取得了出色的分类效果。Kalchbrenner等 [5] 利用卷积神经网络提取句子的局部特征,在一定程度上提升了任务的分类性能。Hochreiter等 [6] 开发了LSTM模型,此模型有效解决了在神经网络训练过程中出现的梯度爆炸和梯度消失问题。Tai等 [7] 开发的情绪分析模型能提高目标文本的语义相关性,通过改进的词向量更准确地捕捉词义,进而增强模型在分类任务中的表现。Wang等 [8] 提出的情感分析模型通过采用注意力机制,使得在进行情感分析时,模型能更加聚焦于对情感判断更关键的信息。Tang等 [9] 提出了一种与目标相关的长短期记忆神经网络模型,该模型能够通过考虑维度词扩展LSTM,利用注意力机制对隐藏向量进行加权操作。GRU网络是LSTM的简化变形模型,最早由Cho等 [10] 在2014年提出,将LSTM单元的三种门结构简化为了两种门结构。这种简化的模型不仅能够有效保持长期序列信息,防止信息随时间流逝而减弱或因不相关而被忽略,还优化了计算效率。Xue等 [11] 提出了一种基于CNN与门控机制的门控卷积网络模型。深度学习中的Attention机制最早被Bahdanau等 [12] 用于机器翻译,然后该模型的各种变型也逐渐被应用到情感分类任务中。Yang等 [13] 通过分析维度词与其上下文之间的关联,提出了两种基于注意力机制的方法以增强模型效能。随着深度学习技术的持续进步,许多研究者开始探索将不同网络架构融合应用于情绪分析领域的可能性。Cliché [14] 尝试将CNN与LSTM这两个网络结构组合起来,在Twitter的评论中进行情感分类,取得了较好的实验结果。

通过现有研究可以发现,在用户情感识别领域,大多数工作是基于文本分析8,采用自然语言处理技术、心理学理论和群体模拟技术来研究和辨识用户的情绪状态 [15] 。随着多媒体技术的兴起和科技进步,用户在社交媒体上通过各种形式表达感情,如结合图片的文本。由于单纯基于文本的情感分析可能无法全面捕捉情感细节,因此本节内容将重点探讨利用深度学习进行图片情感分析和文本情感分析在用户情绪识别方面的最新研究成果。

3.1.1. 图像情感分析

人类情感会随着不同的视觉刺激而变化,因此研究人员开始根据一系列视觉内容来预测人们的情绪反应,这一创造性的课题被称为图像情感分析(Image Sentiment Analysis) [16] 。近年来,图像情感分析受到学术界越来越多的关注,图像情感识别是其中最基础和核心的方向之一。图像情感分析是一个多学科交叉的研究领域,指的是利用计算机视觉和深度学习技术分析图像内容以识别和理解图片中传达的情感。这一领域结合了图像处理、模式识别和人工智能技术,旨在使计算机能够对图像中人物的表情、对象的组合、色彩使用、构图以及其他视觉元素进行解析,并据此推断出相关的情绪反应或情感状态。

深度学习在研究中的飞跃进展得益于对人脑处理机理,特别是视觉处理原理的深入理解。人脑逐层加工视觉信息,首先捕捉原始信号,然后进行初步的信号处理,随后是图形的抽象和识别,最终能够识别对象。这种分层处理的办法启发了卷积神经网络(Convolutional Neural Network,简称:CNN)的诞生。CNN通过多层网络结构模仿人眼的处理方式,在较低层从图片中提取基础特征,并通过逐层的训练,形成更高级、综合的特征,以实现对图片的有效分类,关键训练过程见图1

随着Web2.0时代的到来,用户在社交平台上创造了大量内容,这些内容为神经网络的训练提供了大

Figure 1. Schematic diagram of convolutional neural network (CNN)

图1. 卷积神经网络(CNN)原理图

规模的数据集。针对这一背景,You等 [17] 提出基于视觉注意力机制的图片情感识别模型,该模型能够识别和分析与人类情感响应相关的图片中的特定区域。Song等 [18] 提出基于注意力机制的图片情感识别模型(SentiNet-A)。在研究中,他们探讨了确定图片中信息密集区域的方式,进而用这些信息来预测图片的情感内容。Yang等 [19] 提出一个情感识别模型,综合考虑图片局部区域以及图片整体信息。首先,作者使用开源工具识别图片中的对象,并生成情感区域集合,之后利用规则去除集合中有冗余信息和噪声的区域。紧接着利用卷积神经网络,分析候选集合中情感区域得分。最后,将聚合局部区域的CNN输出和整张图片的信息,产生最终图片情感标签。杨淼甜 [20] 基于街景图片,通过对西安游客的半结构化采访并结合街景图片,创建了一个旅游情感街景图像库,将情感分析与街景图像创新性地结合了起来,见图2

以卷积神经网络为代表的深度学习技术,推动着机器视觉的发展,同时也为图片情感识别任务带来机遇和挑战。不同文化背景和个人经历会影响人们对情绪的感知和表达,而算法需要在巨大的样本量中捕捉到这些细微的区别。此外,模型的透明度、公平性和偏差问题也是当前研究和应用中需要关注的重点。

Figure 2. Example table of visual element spatial proportions drawn by Yang Miaotian

图2. 杨淼甜绘制的视觉要素空间占比示例表

3.1.2. 文字情感分析

文字情感分析(Text Sentiment Analysis),有时也被称为意见挖掘(Opinion Mining),是一种用于检测、提取和分析文本中情感倾向性的技术和过程 [21] 。它涉及自然语言处理(NLP)、文本分析和计算语言学等领域的方法,目的是从用户提供的文字数据中判断说话者或作者的情感状态,这些数据包括但不限于在线评论、社交媒体帖子、新闻文章、论坛讨论和其他形式的文本。随着社交媒体和电商平台的普及和发展,互联网中积累了海量用户评论文本,这些评论文本蕴含着丰富的情感信息。分析和挖掘评论文本能够明确用户的情感倾向,为政府、商家、消费者提供全面的指导建议和决策参考。

在景观感知评价中,采集的文本数据包含丰富的感知信息,传统分析方法如抽样调查和人工分析面临着效率低下和结果误差大的问题。深度学习模型能够有效处理大规模文本数据,学习其语义特征,利用词嵌入技术解决文本长度不一致的问题,减少了手动特征提取的需要。深度学习通过构建词之间的关联,对局部特征进行抽象和记忆,因而在文本分析和情感分析中扮演了关键角色,显著提高分析的准确性与效率。

Dong等人 [22] 设计了一种自适应递归神经网络,它能够辨析评论文本中各个方面的情感信息。梁斌等人 [23] 开发了一种多注意力卷积神经网络,旨在降低模型训练所需的时间,并通过捕捉文本的深层特征来有效地识别情感的不同方面。Zhou等人 [24] 推出了一种侧重于识别文本中关键方面词语的基于注意力机制的双向长短时记忆网络。方面情感分析的任务被进一步细化为两个子任务:一是抽取文本中的方面,二是分析对应这些方面的情感倾向。

虽然将不同任务分别采用流水线的方式建模可以简化问题,但这种做法可能会提升问题的复杂性,并可能导致丢失任务之间的内在联系。因此,为了克服这些问题,研究者开始使用端到端的模型,这些模型利用参数共享减少任务间传递错误信息的风险,并且能够高效地处理多个子任务。端到端训练方法因其简单的网络结构和一步到位完成多个子任务的特性而日益受到研究界的注意。在这方面,Luo等人 [25] 提出了一个双交叉共享的RNN框架,能够从输入的句子中提取出所有的方面词和相应的情感信息,见图3。Li等人 [26] 开发了一个增量联合框架,该框架通过加强两个子任务之间的联系,有效地减轻了错误信息的传播。任涛 [27] 采用word2vec方法实现词的高维向量化,并且利用基于word2vec的RNN深度学习模型有效地解决了词序和语义特征的处理问题。

深度学习中的端到端模型通过整合语境理解和关键特征提取,提高了情感分析的准确性和效率,简化了传统多阶段处理流程。这些模型的灵活性为复杂文本分析任务提供了新的研究空间,并推动了自然语言处理技术的发展,同时革新了市场和社会情绪分析领域。同时,深度学习在计算机视觉内容分析中的应用为景观研究带来了新机遇,成为该领域的热点,尽管综合应用仍需进一步探索。

Figure 3. Structural diagram of recurrent neural network (RNN)

图3. 循环神经网络(RNN)结构图

4. 未来发展方向

4.1. 数据增强技术的应用

通过创新的数据增强方法,可以从小子样数据中生成高质量的模拟数据,这不仅提高了现有数据集的多样性,也弥补了数据不足的问题,使得深度学习模型在有限的训练样本下也能够学习到更丰富的特征表示,增强了模型的泛化能力和对新景观的感知能力。同时,这也有利于我们在数据受限的条件下利用深度学习技术进行准确的景观评估,从而在城市规划、自然资源管理等领域中更广泛地应用先进的分析技术。

4.2. 可解释的深度学习方法的研究

随着社会对于人工智能决策过程可信度的要求日益增加,可解释性成为了深度学习领域的一个热点研究领域。在景观感知评价中,开发可解释的深度学习模型可以帮助用户更好地理解模型的预测和决策依据,增加用户对模型预测结果的信任,进而促进其在相关领域中的应用。例如,通过可视化技术展示模型是如何从复杂的景观图片中识别和关注关键特征的,有助于提升模型在实际应用中的透明度和可信性。

4.3. 轻量级深度学习模型的探索

探索轻量级深度学习模型,由于运算资源的有限性,在实际应用中,尤其是移动设备或边缘计算场景下,轻量级深度学习模型展现出了其独特的优势。这一类模型通过减少参数数量和计算复杂度,使得在硬件资源受限的场景下也能够进行实时的数据处理和分析,从而支持快速且高效的景观感知评价工作。轻量化模型的探索和优化,有助于推动深度学习技术在移动设备和现场评估等应用场景中的普及。

5. 结论

本章展示了深度学习在风景园林景观感知评价方面的研究进展,凸显了其在园林设计、评估和用户感知分析中自动化与智能化的潜力。这项技术通过精准捕获用户数据,提高情感和行为分析的准确度,加速处理流程。同时,在社交媒体分析等方面对旅游和研究作出贡献。未来工作将专注于提升模型透明度,处理数据多样性和保护用户隐私以增强服务品质和效率等。

注释

图1来源:CSDN

图2来源:参考文献 [20]

图3来源:CSDN

参考文献

[1] 王柏衡, 赵潇洋. 深度学习技术在EMG机械手臂的手势控制系统设计中的应用[J]. 工业设计, 2020(8): 28-29.
[2] 苏佳媛. 基于深度学习技术的智能化无人机视觉系统设计研究[J]. 工业设计, 2020(12): 152-153.
[3] 周建, 刘炎宝, 刘佳佳. 情感分析研究的知识结构及热点前沿探析[J]. 情报学报, 2020, 39(1): 111-124.
[4] Kim, Y. (2014) Convolutional Neural Networks for Sentence Classification. Empirical Methods in Natural Language Processing, Doha, October 2014, 1746-1751.
https://doi.org/10.3115/v1/D14-1181
[5] Kalchbrenner, N., Grefenstette, E. and Blunsom, P. (2014) A Convolutional Neural Network for Modelling Sentences. Annual Meeting of the Association for Computational Linguistics, Baltimore, June 2014, 655-665.
https://doi.org/10.3115/v1/P14-1062
[6] Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780.
https://doi.org/10.1162/neco.1997.9.8.1735
[7] Tai, K.S., Socher, R. and Manning, C.D. (2015) Improved Semantic Representations from Tree-Structured Long Short-Term Memory Networks. arXiv: 1503.00075.
[8] Wang, Y.Q., Huang, M.L., Zhao, L., et al. (2016) Attention-Based LSTM for Aspect-Level Sentiment Classification. Conference on Empirical Methods in Natural Language Processing, Austin, November 2016, 606-615.
https://doi.org/10.18653/v1/D16-1058
[9] Tang, D.Y., Qin, B. and Liu, T. (2016) Aspect Level Sentiment Classification with Deep Memory Network. Conference on Empirical Methods in Natural Language Processing, Austin, November 2016, 214-224.
https://doi.org/10.18653/v1/D16-1021
[10] Cho, K., Van Merrienboer, B., Gulcehre, C., et al. (2014) Learning Phrase Representationsusing RNN Encoder-Decoder for Statistical Machine Translation. arXiv: 1406.1078.
[11] Xue, W. and Li, T. (2018) Aspect Based Sentiment Analysis with Gated Convolutional Networks. Annual Meeting of the Association for Computational Linguistics, Melbourne, July 2018, 2514-2523.
https://doi.org/10.18653/v1/P18-1234
[12] Bahdanau, D., Cho, K. and Bengio, Y. (2014) Neural Machine Translation by Jointly Learning to Align and Translate. arXiv: 1409.0473.
[13] Yang, M., Tu, W.T. and Wang, J.X. (2017) Attention-Based LSTM for Target Dependent Sentiment Classification. Thirty-First AAAl Conference on Artificial Intelligence, 31, 5013-5014.
https://doi.org/10.1609/aaai.v31i1.11061
[14] Cliché, M. (2017) BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs. arXiv: 1704.06125.
https://doi.org/10.18653/v1/S17-2094
[15] Hassan, A. and Mahmood, A. (2017) Deep Learning Approach for Sentiment Analysis of Short Exts. 2017 3rd International Conference on Control, Automation and Robotics (ICCAR), Nagoya, 24-26 April 2017, 705-710.
https://doi.org/10.1109/ICCAR.2017.7942788
[16] 张浩, 李海鹏. 多层次特征融合表征的图像情感识别[J]. 计算机辅助设计与图形学学报, 2023, 35(10): 1566-1576.
[17] You, Q., Jin, H. and Luo, J. (2017) Visual Sentiment Analysis by Attending on Local Image Regions. Thirty-First AAAI Conference on Artificial Intelligence, 31, 231-237.
https://doi.org/10.1609/aaai.v31i1.10501
[18] Song, K.S., Nho, Y.H., Seo, J.H., et al. (2018) Decision-Level Fusion Method for Emotion Recognition Using Multimodal Emotion Recognition Information. 2018 15th International Conference on Ubiquitous Robots (UR), Honolulu, 26-30 June 2018, 472-4761.
https://doi.org/10.1109/URAI.2018.8441795
[19] Yang, J., She, D., Sun, M., et al. (2018) Visual Sentiment Prediction Based on Automatic Discovery of Affective Regions. IEEE Transactions on Multimedia, 20, 2513-2525.
https://doi.org/10.1109/TMM.2018.2803520
[20] 杨淼甜. 基于深度学习的城市旅游情感空间探测研究——以西安典型旅游街区为例[D]: [硕士学位论文]. 西安: 陕西师范大学, 2020.
[21] 张心月. 面向用户评论的方面级情感分析研究[D]: [硕士学位论文]. 武汉: 华中师范大学, 2023.
[22] Dong, L., Wei, F., Tan, C., et al. (2014) Adaptive Recursive Neural Network for Target-Dependent Twitter Sentiment Classification. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, June 2014, 49-54.
https://doi.org/10.3115/v1/P14-2009
[23] 梁斌, 刘全, 徐进, 等. 基于多注意力卷积神经网络的特定方面情感分析[J]. 计算机研究与发展, 2017, 54(8): 1724.
[24] Zhou, P., Shi, W., Tian, J., et al. (2016) Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, August 2016, 207-212.
https://doi.org/10.18653/v1/P16-2034
[25] Luo, H., Li, T., Liu, B., et al. (2019) DOER: Dual Cross-Shared RNN for Aspect Term-Polarity Co-Extraction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, July 2019, 591-601.
https://doi.org/10.18653/v1/P19-1056
[26] Li, Q. and Ji, H. (2014) Incremental Joint Extraction of Entity Mentions and Relations. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, June 2014, 402-412.
https://doi.org/10.3115/v1/P14-1038
[27] 任涛. 基于多元方法的游客情感分类挖掘技术研究——以文本大数据为例[D]: [硕士学位论文]. 西安: 陕西师范大学, 2019.