吞噬小说网

吞噬小说网>日常生活中统计学的作用 > 第4讲 运用概率的概率拓宽推理范围(第1页)

第4讲 运用概率的概率拓宽推理范围(第1页)

第4讲运用“概率的概率”,拓宽推理范围

4-1第一个孩子是女儿,那么下一个孩子是男孩还是女孩?

在第1讲和第2讲中,我们运用了客观的数据来设定先验概率。接下来,在第3讲中,由于没有客观数据可用于先验概率的设定,于是我们主观地设定了先验概率。在第4讲中,将带领大家进一步了解神奇的贝叶斯推理方法。请阅读以下问题设定。

问题设定

假设夫妻俩的第一个孩子是女儿。那么,接下来生的孩子依然是女儿的概率为多少?

也许你会怀疑,上述问题设定是否有实际意义?很多人会觉得,这个设问实在太模糊,以至于让人根本不知该如何作答。换句话说,人们会认为“每一次生男生女的概率各为一半。就算第一个孩子是女儿,但下一个孩子的性别与这根本无关,所以接下来依然是女儿的概率也还是0。5吧”。

事实上,笔者曾经将该问题设定的贝叶斯推理写入某本书,并收到了读者写来的表示反对的邮件。邮件内容是“我的医生朋友说,事实上,并没有容易生男孩、容易生女孩这回事,生男生女的概率都是一样的”。

当然,我知道这位读者想要表达什么,只是我认为,他并没有认真思考那本书的解说内容,他的思考始终处于停滞状态,只是一味地表示反对,对此,我感到有些遗憾。

第一,从统计学观点来看,生男生女的比率并不是各占一半的。事实上,生男孩的比率会稍微高一点。在日本,生男生女的概率比约为51:49。即使具体比率上有所差别,但“男孩的概率高一些”这一特性,是全世界共通的。不管原因如何,在生物学上,男女的出生率有着其固有的结构,因此,不能说这种现象与投硬币有着同等的概率。

第二,那位读者的医生朋友观察的是“关于多数夫妻生下来的多数孩子的样本统计”,而不是“针对某对特定的夫妻所生的孩子进行的统计”。即使人类整体在统计时呈现出51:49这样稳定的比率,但某一对特定夫妻所生孩子是男还是女的问题上,并不一定遵循这个比率。这对夫妻有其固有的特性,因此也不能否定是否存在“生女孩稍微容易一点”或“生男孩稍微容易一点”这种性向的可能性。

标准统计学(又称内曼-皮尔逊统计学)在阐明全人类范围内的男女比例这一性向问题时是有效的,但不能用来解答“特定的某一对夫妻更容易生男孩还是女孩”的问题。这是因为,如果不使用达到一定程度的大量数据,就不能运用标准统计学来推断,关于这一点,在第8讲中会进行详细的解说。理由是,对于某一对特定的夫妻,他们所生的孩子数量,并不足以用来进行统计验证;而且,在生下大量的孩子的过程中,随着年龄的增长,身体条件也会发生变化。

然而,即便是这种对于特定夫妻的生育问题的推断,也可以使用贝叶斯推理来完成。理由在于,贝叶斯推理在某种意义上来讲是一种“宽松”的推断。所谓的“宽松”是指:设定不可思议的先验概率,并且其数值可以是主观性的。关于这一问题设定,下文将按照明贝叶斯推理的独特顺序来进行说明。

4-2将“概率的概率”设置为“先验概率”

首先,关键的一点在于类别的设置。在本案例中,我们需要设置的类别是“该夫妇所生的孩子为女孩的概率”,我们用p来记录这一概率。

有的读者可能会条件反射般地认为“概率p难道不应该是0。5吗?”关于这一点,在上节中已经讲过,在统计人类这一整体时,可以认为生男生女出的概率比为1:1(或近似1:1),但具体到某一对特定夫妇身上的话,就未必是这个结果了。

因此,“该夫妇所生的孩子为女孩的概率”p,可以是0到1之间的任意自然数。此时,用于表示该夫妇类别的p的取值范围为0≤p≤1,可取的数值有无限个,并且连续分布。据此可以设置类别p,并进行贝叶斯推理,这项工作的难度较大,具体将在第19讲中解说,本节仅做简要说明。

简单来说,可以设置3个p的值,分别为0。6、0。5、0。4。当然了,只要满足条件0≤p≤1的值都可以选取,并且这样做更加符合常理,而本讲为了让大家理解贝叶斯推理的特质,需要首先保证易于理解的问题,因此,只选取三个数值进行探讨。

现在我们已经将“该夫妇所生的孩子为女孩的概率”p设置为0。6、0。5、0。4这三种可能,那么该夫妇一定属于这三种中的一种。也就是说,当p=0。6时,该夫妇生女孩的概率为0。6,当p=0。4时,该夫妇生女孩的概率为0。4。其中,前者说明“该夫妇比较容易生女孩”,后者说明“该夫妇比较容易生男孩”。当然,如果p=0。5,那么说明“该夫妇生男生女的概率相等,各为0。5”。

下一步要做的与以往相同,就是为这三种类别分别设置先验概率。

在这种情况下,想要判断该夫妇究竟属于哪一个类别,是完全没有任何统计数据来支持的,因此依然采用上一讲中的“理由不充分原理”。如图表4-1所示,设置这三种类别的概率各为13。

图表4-1根据理由不充分原理设置的先验概率

读到这里,作为初学者来说难以理解的一点是:为何设置“p=0。4的先验概率”的概率为13?可以这样理解:p本身就是一个概率,那么,“p=0。4的先验概率”的概率为13,便是“概率的概率”。对于这种思维方式,如果不习惯的话,确实会感到混乱。

理解时的关键是,p代表“生女孩”的概率,而先验概率13代表:三种类别的概率p的值,究竟哪一个才是真实的可能性。

换言之,先验概率表示:该夫妇属于哪一个可能世界的概率;概率p表示:该夫妇在各个可能世界中生女孩的概率。也就是说,这两个概率,是不同意义的。

上一讲的观点认为,类别(互不相同的可能世界)与概率是毫无关系的,而本讲中的类别则是通过概率p来表示的。也就是说,该夫妇“生女孩的概率”究竟为0。4?还是0。5?或是0。6?我们无从得知,只能进行推测罢了。于是,运用“理由不充分原理”,将每种情况的先验概率均设置为13。

对了,由于从统计学的观点来看待人类整体生男生女的概率问题时,p=0。5的可能性要远高于其他两种情况,那么,在设置先验分布时,也可以进行适当调整。例如,可以将“生女孩的概率为0。4”和“生女孩的概率为0。6”这两种情况的先验概率均设置为0。2,而“生女孩的概率为0。5”的先验概率则设置为0。6。(关于这一点,可在习题部分进行计算练习)

关于先验概率的设置,有一点与之前的内容略有不同:之前都是设置两个类别,而这次设置了三个类别。如果能够顺利理解本讲内容,那么今后即使设置再多的类别,应该也都不成问题了。

4-3把“生女孩的概率”直接作为“条件概率”来使用

下一步,是与以往一样,按照类别进行划分,之后,设定能够引起特定行为的条件概率。在本案例中,这一步是十分简单的,这是因为“类别”本身成为其条件概率。

譬如,如果一对夫妇属于p=0。4的类别,那么,这对夫妇生女孩的条件概率便为0。4。那么,理所当然地,这对夫妇生男孩的概率则为1-0。4=0。6。把这以计算过程用图表4-2表示出来,如下所示。

图表4-2这对夫妇生女孩?男孩的条件概率

这些概率与以往的一样,都是“有特定原因时的结果的概率”。这里的原因是指,“生女孩容易”或“生男孩容易”的情况,而结果是指“生了女孩”或“生了男孩”。

图表4-3中分列了3种情况,将这3种情况分别再分为2种,最终总共分为6种情况。

图表4-3六种互不相同的可能性

接下来,按照图表4-4把6种情况下的概率分别填入其中。概率与之前的计算方法相同,通过计算长方形的面积获得。虽然概率最终的表现形式是分数和小数混杂在一起,可能会看不习惯,但这样可以简化后面的计算。因此,在阅读时请予以理解。

图表4-4六种互不相同的可能性各自的概率

热门小说推荐

最新标签