2 颠倒的视界

上回讲到,光学倒像这一简单的现象,在何时纠正和如何完成上,还没有形成统一和完美的答案。除此以外,以下三种情况的颠倒视界也会影响人的判断,导致错判或判断障碍,甚至产生光学幻觉。

人脸翻转效应(face inversion effect)

图2.1是网络上经常能看到的颠倒错觉图片。左图正看是一位老太太,但如果把图像颠倒过来后,却能看到一位戴着皇冠的美女。类似的颠倒错觉图还有不少。这类图产生二义性的原因,主要缘于人的视觉系统具有整体结构观,以及依赖于人的先验知识或以往经验。

观看一张人脸图时,人们会自然地把眼睛下面的结构按鼻子、嘴巴、脖子的次序依次排序去联想和匹配,而眼睛上方的结构则往头发、头饰去想象。很少人会不按这样的结构次序来反向思维。它表明,如果忽略了与生活常识中次序相反的细节结构,就有可能产生颠倒错觉。当然,如果你有倒过来阅读的习惯,其实也能从老太太的图上直接看到倒过来的美女。

更有意思的是,某些图像,尤其是人脸,即使只是简单地翻转,也可能导致认知障碍。

1969年科学家英(Yin)第一次在文献中报道,翻转脸对于识别的影响要大于翻转其他范畴图像的影响[4]。自此以后,很多科学家开始研究人脸翻转效应,并试图给出合理的解释。

图2.1 颠倒错觉中的老太太与美女画像

加拿大安大略省女王大学(Queen’s University)的弗雷尔(Freire)等三位研究人员曾在2000年展开深入研究[5]。他们首先将多个人脸图像进行统计平均,以形成平均人脸。基于对图2.2平均人脸的研究实验,他们分析了人脸翻转效应。

他们注意到,在正脸情况下,如果从整体结构或构型(configural)的角度出发,人能够以81%的精度区分人脸。当人脸被翻转后,就只有55%的识别精度了。而如果要求测试者辨识人脸上的特征,如眼睛、眉毛、鼻子之类的,那么翻转的影响就很轻微。此时的结果表明,正常脸的识别精度是91%,翻转了也有90%的精度。如果考虑延迟的影响,他们发现隔1~10秒后,再让测试者重新去识别,则不管是正脸还是翻转脸,在构型上或特征上的差异都能正确识别,人脸翻转效应似乎消失了。从这些实验,他们推断,人脸翻转效应中起主要作用的是构型,即整体结构对识别的影响更大。但这也可以算作构型编码的一个缺陷,比如双胞胎就很难通过构型编码来区分。

由于在时间上和识别率上的差异极细微,他们还推断,这种构型缺陷主要发生在人脸处理的编码阶段,而不是后面的人脸存储阶段。这与图2.1中我们不容易发现老人图像中隐藏的美女的情况是吻合的。

图2.2 人脸翻转效应

第二行表明人脸构型上的垂直(Vertical)距离在翻转后会被错判

另外,科学家Carbon和Leder[6]在研究中发现,正脸比翻转后的脸的全局信息能更快获得。但是,在翻转脸后,特征的提取则要先于整体信息进行处理。而要在短时间(如26毫秒)处理局部特征信息,则具有上下文信息的整体结构处理是必要的。

总的来说,翻转效应影响了人对人脸的空间关系,即人脸构型的认知[7]。但是,人脸翻转效应还没有一个终结者的解释。有兴趣的朋友可以在网络上搜索“face inversion effect”,应该可以查到不少最近的相关文献。另外,大家如果读完本书《灵光一闪与认知错觉》一文,不妨再回来重读一下本篇内容,也许会有不同的答案。

相反,现有的人工智能技术是不用担心翻转对识别性能的影响,尤其在当下深度学习中,引入了生成式对抗网络的深度神经网络模型和数据增广技术后。因为,在这些模型和技术中,翻转常被作为丰富(人脸)训练数据集的手段之一。因此,翻转不会损害人脸识别算法的预测性能,反而有可能帮助提高性能。

但从认知的角度看,这是否意味着我们在提高预测能力的同时,有可能损失了“拟人”的某些认知功能呢?也许可以推断,人脸翻转效应表明,现有的人工智能技术在人脸识别的处理方法上和人在人脸的认知上存在根本的不同。理解这些差异,也许是通向更接近智能体的智能和“人机混合”智能方向的线索之一。

正片负片的人脸识别

不仅在图像方向上的翻转会引起认知障碍,甚至对图像做简单的、按照光的强度值进行的翻转也会让原来的人脸识别变得更困难。

图2.3 人脸图像的正片(a)和负片(c)以及变换公式(b)

图(b)中,横坐标是输入的图像强度变量r,最大强度为L-1,如等于255。纵坐标是变换后的强度S,最大强度为L-1。斜线是正负片的翻转函数,直观来看,即白(255)变为黑(0),黑(255)变白(0)。

图2.3(a)是一张正常的人脸(注:作者年轻时的照片),如果对其用图2.3(b)的函数进行翻转变换,即白变黑、黑变白的简单翻转,则有了图2.3(c)的负片图像。人在识别和记忆图2.3(a)人脸时,是不太需要费脑筋的。虽然用的函数变换也很简单,但对于图2.3(c),如果没有图2.3(a)做参照,人们可能很难联想其真实的相貌,更不用说做有效识别了。这种差异也许是由于日常生活缺乏对负片的图像进行学习造成的,因为人的视网膜细胞主要是感光细胞,只能接受光源传过来的正能量。又可能是由于智能体缺乏与“翻转”相关的数学计算能力,没有演化出有效的办法。所以,不能在大脑自动将图2.3(b)的“翻转”函数求反,尽管智能体可以实现前一篇所讲述的光学倒像的自动纠正。

正负倒影

图2.4 耶稣光学幻觉

除了以上两种颠倒,人的视觉还有翻转颜色的“特异功能”。如图2.4所示,如果你盯着这张图中间的4个点静看30秒,再去看一面白色的墙或屏幕的空白处,或不停地眨眼,你的眼前便会浮现出耶稣的影子。这个影子看上去就像是由图上黑色背景内部的部分,通过黑变白、白变黑互补所形成的图像。

至于为什么会有这样的结果,也是众说纷纭。比较靠谱的解释是,这是一种图像烙印(burn-in)或持续性记忆现象。当一个非常明亮的目标处在视野的关注焦点时,会在视网膜上短暂地打上烙印。如果随后闭眼或者重复性地眨眼,这个烙印仍然还会持续一段时间。

也有观点表示,人的眼睛是由视锥细胞和视杆细胞组成。其中,视锥细胞主要负责环顾四周。如果长期只盯着同一目标看的话,那么视锥细胞就容易工作过度,快速导致疲劳。结果,如果离开盯着的目标后,疲劳的视锥细胞不会迅速反馈新看到的颜色到大脑,比如新看到的白色墙壁。而大脑还需要对老的信息进行解释,因为它并没有收到强的、新的信号。

还有观点将其称为视觉后效(aftereffects in visual),即连续注视相同图形之后,会导致感知被影响,随后影响感受到的图形结果。这种知觉现象最早由E. H.维尔霍夫于1925年发现,后来很多科学家都对这一现象进行了系统的研究[8]

这些观点都认同,随着视网膜神经细胞功能的恢复,这个现象会逐渐消退。因为这种现象能带来很多奇特的视觉效果,这或多或少可以解释,为什么大多数艺术馆里都偏好以白墙来装饰。

不管怎么说,人眼的这些错觉现象表明,人内在的认知行为,可能比我们现在人工智能所能实现或理解的功能要复杂,需要做更多的探索。

关于颠倒的视界就写到这里。下篇介绍智能体的另一种视觉错觉。