1. 引言
赌徒谬误指(gambler’s fallacy bias)人们在产生随机序列时使用交替模式(alternation patterns)超过重复模式(repetition patterns)的偏见。赌徒谬误也称蒙特卡洛谬误,这个名称来自赌徒谬误的一个具体事例——1913年在蒙特卡洛赌场的轮盘赌上出现连续26次黑色导致人们在15次重复黑色后过度押注红色的事件。赌徒谬误一般被认为是一种人脑对随机序列(random sequences)的错误知觉(misperception),是由于“表征偏见”(representativeness bias)引起的。 Sun等(2015) 的文章“Latent structure in random sequences drives neural learning toward a rational bias”主要关注点是赌徒谬误偏见,研究了人脑对不确定性和随机性的认知。但 Sun等(2015) 则表明赌徒偏见的神经基础可以通过神经网络模型来解释。并且这一神经模型能够产生一个最优参数,来最优拟合对生成随机序列的行为进行描述的一种贝叶斯模型。
对于投无偏硬币这一经典随机事件,一般人们会认为这之中没有复杂的统计结构(statistical structure),这是因为只考虑了投一次硬币这一事件中p = 0.5的结果(无论是H面还是T面)出现概率。但对于随机序列(即连续投多次硬币的情况),这只是其中一部分故事,即遇到一个结果的平均时间(the mean time statistics,相当于frequency)。而第一次遇到某种结果组合的等待时间(the waiting time statistics,正比于variance of mean time)则是另一个值得注意的统计量。举例来说,即使出现H和出现T的概率一样,首次遇到重复组合(HH或TT)的等待时间会大于首次遇到交替组合(HT或TH)的等待时间,其期望分别为6次和4次。从另一个角度来说,重复组合出现时总是一次出现多个(come in bursts,例如序列HHH包含了2个重复组合HH),但两次出现之间的间隔更大。如 Sun等(2015) 的图1(a),如果pA (probability of alteration,出现交替组合的概率) = 1/2,那么离开当前一状态后再次出现重复组合的最短路径(如HHàHTàTHàHH)比再次出现交替组合的最短路径长(如HTàTHàHT)。 Sun等(2015) 图1(b)则描述了pA和再次出现某一状态的次数之间的关系:如果重复组合和交替组合的平均时间一样,则pA = 1/2到达平衡态;如果重复组合和交替组合的等待时间之和一样,则pA = 1/3到达平衡态;如果重复组合和交替组合的平均时间和等待时间一样,则pA = 3/7达到平衡态。因此,从等待的角度讲,即使在一个p = 0.5的经典随机过程中,也存在一定的潜在结构(latent structure):重复组合(HH或TT)的等待时间大于交替组合(HT或TH)的等待时间,与赌徒谬误偏见印合。
(a)(b)
Figure 1. Time of patterns described by the probability of alternation between consecutive trials (pA)
图1. 重复和交替组合的生成路径,以及重复和交替组合出现时间随交替组合出现概率(pA)的变化(来自 Sun et al. (2015) )
2. 时间整合的神经网络模型
基于随机序列中的统计结构, Sun等(2015) 提出了解释人类生成投多次硬币这样的随机序列时得神经网络模型。他们的神经网络模型包含两层,一层是记录H和T序列的感觉输入层(sensory input layer),第二层是编码感觉输入并整合对下一次序列做出预测的内部预测层(如图2(a))。这种神经网络的结构类似于新皮层神经元的整合时间信息的结构特征(如layer 5b和layer 6)。
Sun等(2015) 这一模型的最主要假设是脑皮层对于产生随机序列的过程同时对平均时间和等待时间这两个特性敏感。这一假设使得这一模型产生的预测会基于对神经网络式学习并且对输入序列的统计结果具有充分的敏感。这些特性使得模型中的参数不是随机拟合的产物,而是在产生随机序列的行为中有着重要意义的参数。
他们的模型在不同的pA条件下进行了每一条件10,000次投硬币事件的训练,这些训练以重建序列的准确性为指标,并在训练后进行1000次测试。经过这样的训练和测试,得到长度为2的重复组合辨识器(repetition detectors)或交替组合辨识器(alteration detectors)通过神经网络模型中重复组合辨识器的数目,可以得到预测的重复组合出现的次数(R),同样的,通过交替组合辨识器的数目可以得到预测的交替组合出现的次数(A)。
在 Sun等(2015) 的模型中,如果pA = 1/2(即无偏硬币),那么模型产生的R/A比(预测重复组合/预测的交替组合)为0.70。这一结果是令人惊奇的,因为在一个无偏硬币随机序列中,重复组合和交替组合出现的期望数次应该是一样的,换句话说,R/A比应是1。模型R/A比小于1说明模型学到了其它关系而使重复组合辨识器比交替组合辨识器少。
从R/A比 = 0.7进而可以计算得到主观感受的交替组合出现概率
(公式1) =
0.59。而实证研究中发现在这种情况下的主观感受概率在0.58~0.63之间 (Falk & Konold, 1997) ,与这一概率接近。
Sun等(2015) 在总结pA和R/A比的关系后得到图2(b),并且发现这一关系是一条光滑的曲线,而在pA = 3/7时,R/A比达到1的平衡态。回顾图1(b)可知,pA = 3/7达到平衡态说明产生随机序列的过程受到平均时间和等待时间之和的影响,这也说明 Sun等(2015) 的神经网络模型中产生随机序列的行为(即R/A
比)受到平均时间和等待时间之和的影响,并且这种影响可以用
(公式2)描述。
(a)(b)
Figure 2. Neural model of temporal integration to capture the statistics of pattern times in random sequences
图2. 基于时间整合的神经网络模型,以及模型受随机序列中交替组合出现概率的影响(来自 Sun et al. (2015) )
3. 随机序列生成的贝叶斯模型
要说明神经模型与生成随机序列的人类行为的联系,就需要先介绍一个下研究生成随机序列的行为
的贝叶斯模型。 Griffiths和Tenenbaum (2001) 使用了贝叶斯模型
(公式5)来对“Zenith
比例实验” (Goodfellow, 1938) 的数据进行拟合。“Zenith比例实验”共有20,099人参加,参与者要求依次生成5个二进制标记的随机序列。 Griffiths和Tenenbaum (2001) 的贝叶斯模型对16个可能序列中的15个都有着较好的拟合(图3(a)),但是对于序列HTHTH却出现了高估。 Sun等(2015) 认为这是因为HTHTH看似为交替组合,其实有高阶的重复组合的成分(即HT交替组合出现重复),因此他们在 Griffiths和
Tenenbaum (2001) 的模型基础上加入
项
(公式6),得到新的贝叶斯行为学模型
(公式7)。
更重要的是,无论公式5还是公式7都需要一个参数λ来拟合数据。从图3(a)和图3(b)中可以看出, Sun等(2015) 的新模型在λ = 0.51的最优情况下,对实证研究的数据的拟合程度比 Griffiths和Tenenbaum (2001) 好。对于这一行为模型和神经网络模型的联系需要从λ的意义入手。通过公式5或公式7可以得到
(公式8)。PA’表示主观感受到的随机序列中交替组合出现的概率,因此
公式8说明λ为调节赌徒谬误偏见的一个参数。此时考虑神经网络模型中pA’的意义(即公式1),可以得
到
(公式9)。代入无偏硬币的情形(pA = 1/2),在神经网络模型中得到R/A = 0.7,而由公式
得到λ = 0.51,恰好是行为模型中的最优参数值。λ是行为学模型中的一个自由参数,在行为学模型中用于调节模型和真实数据的拟合程度。但是在由神经网络中无偏硬币情形下的R/A得到λ正好是行为学模型的最优拟合参数值。这一结果揭示出神经网络模型中自然出现的的性质与行为模型中自由参数的紧密联系。这就表明不同层次的分析最终汇聚到同一点,证明了 Sun等(2015) 基于随机序列自身统计结构的神经学习模型能对应人类在生成随机序列的行为模型,表明这些神经网络模型和行为模型确实有效地反应了人们生成交替序列偏好的本质和根源。
4. 总结
Sun等(2015) 指出他们从简单随机序列中隐含的概率统计结构出发,找到了解释赌徒谬误的神经学习机制。这一发现表明人类心智可能在进化中对这类随机序列后的概率特征有着准确的学习机制。并且, Sun等(2015) 认为他们的结果揭示了时间分布式预测学习(temporally distributed predictive learning)和抽象结构式表征(abstract structured representation)之间的联系。并且强化了神经网络模型中的时间整合能对人类基于时间的信息之间提供解释的这一思路,而这一思路似乎为赌徒谬误偏见提供了一种理性的解释,也为人脑对不确定性和随机性的认知过程提供了一种新的数学描述。
基金项目
国家自然科学基金项目31371017资助。