1. 引言
大脑的视觉系统是怎么进行图像识别的?几十年前,心理学家就开始对大脑的视知觉的加工方式产生兴趣,进行了大量的研究。主流的模式识别理论至少有十种,但是每种理论都或多或少的存在片面性,迄今为止尚未形成一个较具有说服力的、普遍认可的模式识别理论(刘建忠,2007)。视觉是人类最重要的一种感觉,在人类获得的外界信息中,80%来自视觉(彭聃龄,2018)。视知觉是我们对周围事物感知的第一步,对视知觉的研究不仅是心理学研究的基础,是我们了解大脑的重要手段,也是计算机科学研究图像识别的重要领域。
视知觉的早期加工与“系统1”有密不可分的关系。“系统1”和“系统2”这两个名词由斯塔罗维奇(Keith Stanovich)和韦斯特(Richard West)两位心理学家创造,接着被诺贝尔奖获得者、心理学家卡尼曼(Daniel Kahneman)通过其著作《思考,快与慢》进一步推广和普及的。系统1是大脑自动、无需意识努力的、快速的思维活动(丹尼尔·卡尼曼,2012)。这个系统倾向于使用模式识别(Pattern Recognition)以及不完美但便捷的经验法则(Rule of Thumb),不会深思熟虑后理性地做出反应(达伦·布里杰,2021)。而模式识别也是大脑加工图像和设计的方式。模式识别要求人们对复合特征进行加工,主要包括物体识别、面孔识别和文字识别(彭聃龄,2018)。
本文主要讨论什么样的模式识别在视知觉的早期加工中,在无需意识努力的情况下,能刺激大脑快速地、自动地形成偏好,从而影响随后的认知、判断和决策。跟曼德博1975年创立的分形理论(Fractal Theory)类似的是,人类的视觉加工的早期阶段,虽然是无意识的状态,但也会经历认知的全流程:知、情、意。本文的三重因素与“知、情、意”分别对应,希望能在“行”上产生影响力。本文的目的是希望能给视觉图像的创作者,如艺术家、设计师提供新的思路;给人工智能识别领域提供一定的理论支持;并希望在接下来的时间能获得实验数据的支撑。
从前人的研究成果中,我总结出一个视觉刺激的三重因素模型:
A) 能更快被识别的、B) 能更容易被记忆的、C) 能产生愉悦情绪的。
视觉刺激三重因素共同作用能激发偏好。快速识别是第一步,易于记忆是第二步,愉悦的情绪是催化剂。三重因素模型希望能更客观地评价视觉刺激,在能引起偏好的简单的和复杂的图像找到共同的规律,能在设计和艺术等视觉创造行为中被实际运用。
2. 能更快被识别的视觉刺激能激发偏好
人的大脑具有惊人的能力,大脑的快速总是不断刷新人的认知。早期研究发现,人们可以在100毫秒内分辨出图像是自然的还是人工的,是室内的景色还是室外的景色。人们在看到网页后的50豪秒就能决定自己是否喜欢这个网页。有研究显示,如果一张图片背后跟随的是空白视场,人们在20毫秒内能很容易地识别图像(e.g., Thorpe et al., 1996)。美国研究人员发现人类大脑仅13毫秒便能识别和理解一张照片,并在实验中首次证实这种大脑快速处理能力,该处理速度比之前研究发现的大脑识别图像速度快8倍(Potter et al., 2014)。
在视觉的早期加工中能被更快速识别的模式,能更快地吸引到主体的注意力,更多地分配到大脑的资源,更容易产生偏好。例如,在路上遇到一群人朝我们迎面而来,其中有一个我们的熟人,熟人会首先跳入我们眼睛,我们甚至会忽视其他人的存在。这种现象叫做不注意盲视。本文主要讨论以下几种会得到更快速的识别的模式:a) 具有拓扑结构的模式和b) 具有符号性的模式。
2.1. 具有拓扑结构的模式能更快被识别
80年代初,陈霖提出视觉拓扑理论(Visual Topological Theory)。该理论认为,在视觉处理的早期阶段,人的视觉系统首先检测图形的拓扑性质;它对图形的大范围拓扑性质敏感,而对图形的局部几何性质不敏感(Chen, 1982)。
图形的拓扑性质(Topological Properties):指在拓扑变换下图形保持不变的性质和关系,如连通性(Connectedness)、封闭性(Closedness)、洞(Hole),都是典型的拓扑性质,而大小、角度、平行性等几何性质则不是拓扑性质。按照人们的直觉经验,圆盘、三角形和正方形是明显不同的图形;但按拓扑学的观点,由于它们都是实心图形,因而在拓扑性质上是等价的。相反,圆盘和圆环按直觉经验是相似的,而按其拓扑性质讲,则是不等价的。图形的具体形状可能千差万别,但只要它们的拓扑性质相同,就可以说它们是拓扑性质等价的图形。视觉系统先加工图形的拓扑性质,然后才加工它的局部性质。近年来,陈霖用神经心理学和电生理学的实验技术,进一步证明了视觉系统的这一特点。
欧几里得创造的几何图形,如三角形、正方形,在人类的2000多年进化和学习中,也能被快速识别,但是拓扑性质似乎是更原始的视知觉模式。通过对蜜蜂的研究,陈霖等人(Chen et al., 2003)认为蜜蜂能辨别拓扑结构上的差别。蜜蜂脑子很小,因而有理由推测拓扑知觉对所有视觉系统来说都是基本的。我们有理由相信拓扑感知是更基础的感知,能更快被识别。
本文认为模式识别的大范围拓扑性质优先与很多前人的研究成果保持一致,例如图形掩蔽实验中(Werner, 1935),被试能识别出拓扑性质显著的圆环,而看不见目标图形圆盘。格式塔心理学也认为人们对物体作为整体进行感知更为敏感。
不知道你们有没有过这样的经历,在商场逛街时,突然需要找厕所,误把电梯的标识看成厕所的标识,兜了一圈却没找到厕所?(如图1)中的两个图像标识a和b,是商场常用的厕所标识和商场常用的电梯标识,在快速识别时很容易被混淆。其中一个可能的原因是他们的拓扑性质非常接近。从拓扑性质来看,两个图像的外框能被识别成洞,里面的小人都是实心的,而局部细节会被忽略,这两个符号是拓扑等价的,所以很容易被人视觉识别错误。
Figure 1. Example of visual perceptual confusion caused by the proximity of topological properties
图1. 拓扑性质接近带来的视知觉混淆举例
2.2. 具有符号性的模式能更快被识别
看到(如图2)时,你首先会看到什么呢?我们可能会先看到(a) WC,也可能会先看到(c)厕所,但是我们都会最后看到在视觉中心的(b)线段。越简单的图像似乎越容易被识别,但是符号化的图像除外。WC和厕所是已经成为了符号的图像,虽然符号化的图像受文化和地域差异变量的影响,但是能被视知觉快速认知。
Figure 2. Example of symbolic pattern recognition
图2. 符号化的模式识别举例
荣格(Carl Gustav Jung)相信,某些图像能够引起广泛、深刻、无意识的共鸣,因为这些图像利用了我们的直觉。他称这些图像为原型。他将他们描述为:“这些原始图像在很久以前就普遍存在,反映了所有人都熟悉的基本图形”。如果图像引发了原型,就会迅速和轻易地被观众理解。
荣格的原型是一种更为泛化的符号,因为他认为,原型对于所有民族,所有时代和所有人都是相通的(刘世文,付飞亮,2006)。符号是被认为携带意义的感知(赵毅衡,2012)。符号的概念非常广,可以是图形图像、文字组合,也可以是声音信号、建筑造型,甚至可以是一种思想文化、一个时事人物。我们每天都会接触很多符号:国旗、红绿灯、店招、商标、地铁站牌、加减符号、比心的手势、电梯按钮、英雄、护理人员等等。我们能很快速地识别他们。大部分两岁的小孩拿起智能手机就能玩,他们能迅速认知手机里的图标(符号),并找到自己需要的内容。
许多心理学家相信,对物体形状的识别始于对原始特征(Primitive Feature)的分析与检测。这些原始特征包括点、线条、角度、朝向和运动等(Marr, 1982)。在原始特征的基础上,心理学家提出了成分识别理论(Recognition-By Component Theory)。该模型基于这样一种观点,通过把复杂对象的结构拆分成简单的部件形状,就可以进行模式识别。物体识别基于对构成物体的基本成分(Components)的分析,如三角形、圆柱形、锥形、弧形、结合点等(Biederman, 1987)。
无论是原始特征还是成分,本身都是没有意义的。但是,他们的各种空间关系可形成很多种组合,这些组合在人类社会、民族和文化的发展过程中,可以形成很多具有意义的符号。26个英文字母,可以形成可识别的数量巨大的英文单词,原因是这些因素具有几乎无限的组合形式。
一旦形成了符号,为什么能快速被人识别呢?与符号的三个特性有关。符号的第一个特性:能指和所指(索绪尔,1916)。索绪尔认为,一个符号包括了两个不可分割的组成部分,能指(即语言的一套表述语音或一套印刷、书写记号)和所指(即作为符号含义的概念或观念)。能指是载体,也就是视觉的原始特征和成分的组合,所指,就是指符号传达的意义。例如,国旗,国旗的设计就是能指,所指就是国旗代表的国家。符号的第二个特性是浓缩信息。比如“17 × 24 = 408”,这是一个用符号表示的算式,如果没有符号,我们用语言表达就是“十七乘以二十四等于四百零八”,显然,复杂很多。符号的第三个特性,是传达指令。符号能够引导人的行为。电脑操作系统的窗口,用红色圆形按钮代表关闭窗口,绿色代表扩大窗口,黄色代表缩小窗口,就借用了红绿灯的符号意义(华杉,华楠,2018)。
回到本部分开头的实验,美国研究人员(Potter et al., 2014)除了发现人类大脑能在13毫秒识别图片并根据概念指认出图片外,还发现概念是否在测试前提供给被试并不影响成绩,也证明快速识别图片不需要意识的参与,这与之前的研究是不一致的。以前的科学家认为提前指定概念可以让被试提前准备好过滤器,从而会获得更好的成绩。测试的概念包括野餐、带有船舶的港口等,这些都是具有符号意义的图像。本文认为,这个研究也证明了符号的感知能被更快速的识别,并且无需意识的努力。
3. 更容易被记忆的视觉刺激能激发偏好
记忆是在头脑中积累和保存个体经验的心理过程。用信息加工的术语来讲,就是人脑对外界输入的信息进行编码、存储和提取的过程。在知觉中,人的过去经验有重要作用,没有记忆参与,人就不能分辨和确认周围的事物(彭聃龄,2018)。
心理学家根据信息保持时间的长短,将记忆分为感觉记忆(瞬时记忆)、短时记忆和长时记忆。三级记忆(Atkinson & Shiffrin, 1968)模型认为信息首先进入感觉记忆,其中那些引起个体注意的感觉信息才会进入短时记忆,在短时记忆中存取的信息经过复述,存储到长时记忆中,而保存在长时记忆中的信息在需要时又会被提取出来,进入短时记忆。近30年,心理学家又根据记忆是不是受意识控制,提出了内隐记忆和外显记忆的分类。本文认为三级记忆模型是建立在人的意识控制下产生的记忆分类,而内隐记忆应该产生于感觉记忆之前。内隐记忆在线索和启发下引起注意,会转化成感觉记忆。内隐记忆是一种相对稳定的记忆,不受加工深度影响(Graf et al., 1984),保持的时间更长(Tulving et al., 1982) (朱滢等人,1989),不受记忆负荷量影响(Roediger & McDermott, 1993),不受干扰因素影响(陈世平和杨治良,1991)。但是,感觉通道对内隐记忆的影响却比较大,内隐记忆更易于接受单一感觉通道的刺激并进行编码(马正平,杨治良,1991),并且对视觉刺激更敏感。
本文认为,易于被记忆的视觉刺激能激发偏好。主要讨论两种易于被记忆的模式识别:a) 有规律的模式和b) 熟悉的模式。
3.1. 有规律的模式更容易被记忆
很多心理学家认为,简单的视觉刺激符合“加工流畅度”(Processing Fluency) (Reber et al., 2004)的理论,更易于记忆。一个长的单词和一个短的单词,一个笔画多的汉字和一个笔画少的汉字,哪个能更快被识别?哪个更容易被记忆?哪个更吸引你的注意?
显然简单的视觉刺激更易于被识别,那复杂的信息需要被人脑感知到吗?事实上,我们生活中并不是所有的事物都很简单,我们有时候不得不面对复杂事物。有心理学家认为,简单的事物能带来愉悦的情绪,而复杂的事物能带来兴趣。很多价格昂贵的东西都看上去比较复杂,例如机械手表繁多的齿轮却让人产生美的偏好。在视觉搜索的不对称实验中,心理学家(Sun & Firestone, 2021)发现,人们在简单图像中找到复杂图像的速度要快于在复杂图像中找到简单图像。他们认为,人对复杂的感知与对大小、颜色、面孔的感知一样,是快速的,不需要意识努力的。那么,人为什么需要能快速感知复杂的能力呢?复杂像面孔、形状、颜色那样有被感知的需求吗?他们假设,人们之所以也喜欢复杂的东西,是因为复杂的东西能激起人类的探索欲望,激发人类的兴趣。从进化心理学的角度,人快速感知到复杂,能让人有预防危险的准备,因为复杂的东西在原始时代一般意味着危机。
复杂对人类来说是有意义的,大脑需要快速识别复杂,但问题在与大脑不能轻松记忆复杂。在Sun & Firestone (2021)的实验中,他们要求被试回忆被展示的复杂图案,实验结果变得不可量化,因为大部分人都忘记了之前看到的图像,这也为复杂激起人们的偏好提供难度。那什么样的因素能帮助我们记忆复杂事物呢?
视觉系统感知的复杂和大脑识别的复杂可能并不一致。图a和图b哪个更容易被记忆(如图3)?虽然图a和图b的形状元素、成分和结构是相同的,而且,看上去b更复杂,但大多数人会觉得b更容易被记忆。因为b有明显的规律,你只需要记住黑白格子重复出现的模式,不需要分别记忆每个被涂黑的格子。
Figure 3. Example of complex and regular pattern recognition
图3. 复杂而有规律的模式识别举例
约根·施密德胡伯(Jurgen Schmid, 1997)根据人工智能的算法研究提出了低复杂度艺术和设计(Low-Complexity Art & Low-Complexity Design)。低复杂度艺术遵循两个目标:
目标1:在给定的规格下,图像看上去是“对的”。
目标2:a) 柯式复杂度应该是短的,b) 观察者应该能感受到图像算法的简单和本质。
低复杂度艺术第一眼看起来可能有些复杂,但是这些图像遵循潜在的规律,对计算机和人脑而言都是可以压缩的。例如视频是有规律而且可以压缩的,因为视频的每一帧都和前面的一帧相似,只需要编码偏差,视频的压缩算法就能节约很大的空间。看上去复杂的分型图案也是有规律的,(例如机械手表的齿轮),他们的每一个细节和更小的部分都具有自相似性,可以通过不断使用相同的代码来完成编码,便于存储和记忆。
虽然低复杂度艺术可能已经有意识或无意识地被很多艺术家和设计师运用过,如达芬奇、杰克逊·波洛克、草间弥生等,但是约根也没能发现有没有一些通用的规律能被大脑识别。大脑能同时感知到多少条规律?什么样的规律是跨文化有共通性的?很多问题还需要通过实验和更多的研究来解答。
因此,无论是看上去简单的还是复杂的事物,当它具有规律时,就能变压缩,就更容易被记忆编码,为大脑产生偏好带来好处。这些规律可以是欧式几何上的对称性、平衡性,也可以是分形中的自相似性。并且,大脑会不断的发现新的规律。约根认为主体(人或者机器)的压缩器会根据以往的认知和经验出发不断进化挖掘新的规律以便用于压缩,从而减少存储数据的容量和提取数据的速度。大脑天生就喜欢寻找这些规律,这种寻找是不需要意识努力的。
3.2. 熟悉的事物更容易被记忆加工
单纯曝光效应(Robert, 1968),为我们提供了一个非常有意思的观点。扎伊翁茨还使用不同的图像进行了一系列的实验,比如将简单的图形、画作、面孔和中文快速呈现给被试。接着,实验要求被试选择自己喜欢的图像,他们总是选择之前见过不止一次的图像。这个效应的重要性在于,揭示了大脑无意识、非理性地选择,让我们毫无逻辑地对图像产生好感。本文认为,多次曝光产生了熟悉度,是熟悉度让图像更容易被记忆,记忆让我们产生了偏好。
4. 能产生愉悦情绪的视觉刺激能激发偏好
愉悦是一种积极情绪。有人认为,积极情绪是因意外得到奖赏或在目标实现过程中取得进步时的感受,还有人认为,积极情绪与某种需要的满足想联系,通常伴随着愉悦的主观体验,并能提高人的积极性和活动能力(孟昭兰,1989)。积极情绪包括快乐、兴趣、满足和爱(彭聃龄,2018)。
道奇等人认为(Dodge et al., 1991)情绪系统和认知系统是信息加工过程中的两个子系统,情绪可以是信息加工过程的启动状态,也可以是信息加工的背景(彭聃龄,2018)。在视知觉的早期加工阶段,情绪是加工的背景,愉悦的情绪可能并不会被察觉到,属于前意识状态,却能激发偏好,在接下来的思维和决策过程中,愉悦的情绪能起到启动作用。
男性在观看漂亮女性时,大脑的伏隔核区域非常活跃。众所周知,该区域是一个基本的奖赏回路,早被证明是大脑的快乐中枢。(Aharon et al., 2001)。
视知觉在早期加工阶段产生的不被意识到的愉悦情绪能刺激偏好。这里主要讨论其中的两种:a) 加工流畅度和b) 简单的谜题对产生愉悦情绪的帮助。
4.1. 加工流畅度更容易产生愉悦的情绪
从20世纪30年代初,极简主义设计风格(Minimalism)在德国设计学校包豪斯(Bauhaus)萌芽,随着博朗(Braun),宜家(IKEA),苹果(Apple)等品牌的流行,极简主义设计风格已经获得了跨越文化、穿越时间和空间的正面认知,占据了消费品市场的主流。极简主义是当一件作品的内容被减至最低限度时所散发的完美感觉。当物体的所有组成部分、所有细节以及所有的连接都被减少压缩至精华时,他就会拥有这种特性,这就是去掉非本质元素的结果(John Pawson)。
为什么我们会对简洁的东西产生偏好?许多心理学家认为,这是因为极简主义呼应了大脑理解和加工图片的方式(达伦·布里杰,2021)。心理学的研究显示,低复杂度的图像易于大脑加工。心理学家称这个现象为“加工流畅度”。“加工流畅度”(Processing Fluency) (Reber et al., 2004)是大脑偏好的对视觉刺激的加工模式。简单易加工的图像,经过系统1的加工,就能让人们对该视觉刺激产生偏好。
4.2. 简单的谜题更容易产生愉悦的情绪
我们的大脑喜欢简单的视觉谜题。拉马钱德兰相信解决简单的谜题能够激活与愉悦和奖赏有关的大脑回路。每次我们成功识别出某物体时,大脑都会感到快感。比如我们能无意在有花纹瓷砖上发现像脸一样的图案,或者逛街时在挂满衣服的衣架上找到适合自己的衣服。
当图像含有隐秘结构,这些图像会更有趣。例如,苹果的商标隐藏着以圆形为主辅助形状,我们可能意识不到,但是大脑却能感知;达芬奇非常擅长给自己也给其他人设计谜题,他大量镜像书写的手稿也许是为了不断激发自己解密的愉悦度。正如爱因斯坦所说:“创意的奥秘是知道如何隐藏你的创意来源”。
5. 讨论
本文主要讨论了在视觉的早期加工阶段,什么模式识别带来的视觉刺激更能激发偏好、影响行为。研究的范围是视觉的早期加工阶段:是快速的、无需意识参与、自动获取信息的阶段。讨论的重点在于“更”这个字上。总结了一条能激发偏好的视觉刺激的三重因素模型:A) 能更快被识别的、B) 能更容易被记忆的、C) 能产生愉悦情绪的。跟分形理论类似的是,人类的视觉加工的早期阶段,虽然是无意识的状态,但也会经历认知的全流程:知、情、意。本文的三重因素与“知、情、意”分别对应,希望能在“行”上产生影响力。本文的目的是希望能给视觉图像的创造者,如艺术家、设计师提供新的思路;给人工智能识别领域提供一定的理论支持;并希望在接下来的时间能获得实验数据的支撑。
本文试图通过讨论这三重因素的具体模式来解释三个因素的重要性。在“更容易被识别的因素”里我主要讨论了a) 具有拓扑结构的模式和b) 具有符号性的模式;在“能更容易被记忆的因素”里,我主要讨论了a) 有规律的模式和b) 熟悉的模式;在能“产生愉悦情绪的因素”里主要讨论其中的两种:a) 加工流畅度和b) 简单的谜题。
这三个要素互相影响、共同作用。不同要素下的刺激模式不是完全独立的,他们可能同时满足两种或者三种要素。例如拓扑结构本身就是一种有规律的模式,熟悉的模式也能带来愉悦的情绪,加工流畅度的前提有可能就是具有规律的模式。
在三重因素中,快速识别是第一步,易于记忆是第二步,愉悦的情绪是催化剂,三者缺一不可。一个简单的三角形能被快速地识别并且记忆,但是他不能带给人愉悦的感觉,因此并不能激发偏好;某种分形图案能给人带来愉悦的感觉,但是如果不易于被记忆,也不能激发偏好;一张缺乏审美的面孔,即使因为夸张易于记忆并且能被快速识别,但是不能给人带来愉悦情绪,也不能激发偏好。在早期的视知觉加工中,只有三条规律共同作用,才能激发好感,带来偏好,从而影响行为。