第3讲根据主观数字也可以进行推理疑惑时分的“理由不充分原理”
3-1推测送巧克力的女同事的心意
本讲之前所阐述的贝叶斯推理的顺序为:
(先验概率)→(条件概率)→(通过观察获取信息)→(后验概率)
第1讲和第2讲中,在设定最初的先验概率时,是以客观数据作为参考的。然而,贝叶斯推理的魅力正在于:即使没有事前的客观数据,也能进行推算。也就是说,可以主观设定先验概率,进行推算。这可以更进一步解释为:学会这个方法,才能更深刻地理解“贝叶斯推理的思想”,全面了解它的神奇和不可思议,以及奇怪和可疑之处。
下面,进行如下问题设定:
问题设定
假设你是一名男性,有这样一位特殊的女同事,你很在意她是否对自己有好感。情人节那天,你收到了她送的巧克力。那么,你将如何推算“她喜欢自己”这一事件的概率呢?
读完以上问题设定,你一定会感到云里雾里,毫无头绪,甚至怀疑这样的问题究竟是否能通过数学方法来解答。
其中的关键在于,需要将“这位女同事在多大的程度上把自己当做真命天子”这一涉及人的内心的问题进行数值化,而这无论如何也不具有任何的客观性。第1讲中“顾客是不是来买东西的”,以及第2讲的“你是否患了癌症”的问题,多少在一定程度上可以使用统计学性质的判断方法。而这一案例要讨论的,是某位特定女同事的内心世界,而并不是“大多数普通女性是否把你当作她们的真命天子”这种统计学性质的问题(这样的问题本身就很搞笑)。
此处的设问——“认为你是真命天子的概率”中的“概率”这一概念,让人越想越不明白。举个其他的例子,“掷骰子丢出1的概率为16”,这句话可以解释为:丢6次骰子,其中有一次的结果为1。如果更谨慎一点,还可以这样解释:丢N次骰子,其中有16的几率结果为1。然而,对于“她认为你是她的真命天子”这样的问题,上述解释必然是行不通的,因为这样会演变成:假设有很多位女同事,那么她们中有多少比例的人,认为你是她们的真命天子呢?这实在太滑稽了。
因此,本次的问题设定与通常情况下的统计、概率常识是有所不同的。不过,贝叶斯推理可以帮助我们解决这样的问题。这也正是贝叶斯推理的优势所在。本讲通过解释这一类问题,帮助您理解贝叶斯推理带有主观性的一个侧面。
下面,笔者将通过娱乐杂志委托笔者撰写的关于贝叶斯推理的文章来进行解说。
3-2主观上设定你是否是“真命天子”的“先验概率”
按上节所述,这一事例的特殊性在于,通过客观统计数据无法获得先验概率。先验概率的概念在第一讲中曾涉及,是指:事前能够判断的各个类别的相应概率。在这个案例中,有两种类别:一种是“把你视为最喜欢的人”,另一种是“没有把你列入考虑范围之内”。以下,简称为“真命天子”和“无关路人”。
此例中,并没有选取大量的统计学现象来处理,而是对某个特定的女同事的心情进行推测。因此,没有数据可用于先验概率的判断。
在这种情况下,一般会采用“理由不充分原理”的方法。通过这一原理我们可以进行如下思考:因为没有证据证明女同事把你视为“真命天子”,然而也没有证据认为她把你视为“无关路人”,因此暂且把这两种情况的概率视为相等。即把两种情况的先验概率分别设为0。5和0。5,如图表3-1所示。
图表3-1理由不充分原理的先验分布
这张图显示的是,观察女同事收到情人节巧克力之后所采取的行为之前,你对于她来说是“真命天子”或是“无关路人”的可能性。把你存在的世界分为两部分,左边是“真命天子”的可能世界,右边是“无关路人”的可能世界。
那么,你究竟属于这两个世界中的哪一个呢?总之,答案在她的心中,你无法断定,只能推测罢了。既然统计方法无法使用,也没有证据证明哪一种更有优势,因此,两种情况的可能性理应对等划分,各为0。5。当然,也可以划分为其他比例,这个问题将在本讲的最后进行说明。
3-3设法找到数据,设定“条件概率”
下一步是针对能够观察到的行动,设定不同类别的条件概率,而这需要在一定程度上的客观概率。也就是说,必须要获得统计性的数据,才能进行下一步工作。
笔者在娱乐杂志上发表“判断真命天子”的文章前,曾拜托编辑对职场女性在情人节当天的行为做了问卷调查。希望通过调查得知:职场女性对真正喜欢的男性和不列为考虑对象的男性送出巧克力的概率各自为多少。编辑人员在网上发布简单的调查问卷,调查对象为职场女性,调查问题为选择题,给出了三个选项:0%、50%、100%。
对于统计结果进行分析的结果显示:职场女性对“真命天子”送出巧克力的平均概率为42。5%,对“无关路人”送出巧克力的平均概率为22%。对于“真命天子”,只有不到50%的概率送出巧克力。这令人有些意外;而对于“无关路人”,有22%的概率送出巧克力,这也令人感受到“义理巧克力”的神奇所在。不过,给“真命天子”送巧克力的概率,总归是给“无关路人”送巧克力概率的2倍,嗯,确实如此啊。
图表3-2显示的是条件概率。为了计算方便,抹去了零头。
表中的概率与第一讲、第二讲中所提到的概率相同,都是指“某一特定类别下,各种行为的概率”。总之,可以推算出“了解原因(真命天子或无关路人)情况下的结果(送出或不送)的概率”。
上一节提到的两个互不相同的世界,可以再各自细分为两个世界,最终形成四个可能世界,如图所示。图表3-3中各区域所表示的概率,也就是该区域的面积,可以通过乘法求得。
图表3-3四种互不相同的可能性的概率
3-4收到巧克力,排除掉“不可能的情况”
如今,你幸运地收到了来自心仪女同事的巧克力。这件事为你提供了关于对方心意的补充信息。
在现实世界中,因为已经发生了她给你“送巧克力”的行为,“不送”的可能性就被排除在外,如图表3-4所示。
图表3-4信息限定了可能性
根据观察女同事行为的结果来看,可能性从4种减少到2种,在维持比例关系的前提下,以“相加之和为1”为目标来改变数值,恢复标准化条件。
(左边长方形的面积):(右边长方形的面积)=0。2:0。1=2:1
因此,把两边的比例分割成2+1=3,由此得出,
(左边长方形的面积):(右边长方形的面积)=2:1=23:13
图表3-5根据标准化条件,计算后验概率