吞噬小说网

吞噬小说网>简单的统计学 > 第19讲 在贝塔分布中使用概率分布图进行高级推理(第1页)

第19讲 在贝塔分布中使用概率分布图进行高级推理(第1页)

第19讲在“贝塔分布”中使用概率分布图进行高级推理

19-1对“生女孩”的案例进行更准确的推理

在上一讲的基础之上,下面,我们开始解说使用了贝塔分布的贝叶斯推理过程。

这一次,我们依然使用第4讲中的例子——“若某对夫妇生的第一胎为女孩,那么第二胎依然为女孩的概率是多少”这个问题。第4讲中的推理,是在相当不充分的设定之下进行的。这是由于,在设定这对夫妇“生女孩的概率”的类别时,只考虑了0。4、0。5、0。6这3种情况,但并没有给出为何只设定这3种情况的相关证据。而实际上,大于0且小于1的所有数值都可以设为“生女孩的概率”。在学习第4讲时,我们只能做到为有限个数的类别设定先验概率;而现在,我们已经学会了处理连续型的概率分布,那么,也就可以在自然状态的设定下,进行贝叶斯推理。本讲中将会使用贝塔分布,来完成上述推理过程。

19-2设定先验分布为均匀分布,并进行推理

把某对夫妇生女孩的概率设为x。x表示这对夫妇的“类别”。由于类别是未知的,所以将其作为推理的对象。

虽然我们知道,类别x一定是一个大于0且小于1的数值,但并不知道具体的数值。因此,需要设定每一类别分别对应何种程度的先验概率。当x分为3种情况时,设定各x的数值为事前“概率”是完全没问题的。但在本次推理中,x可以有连续无限个数值,因此设定的数值为“概率密度”(第16讲中对于“概率密度”这一概念已经进行了解说)。把各个类别的可能性的设定为概率密度时,称为“先验分布”。

在这里,暂且把表示x的先验分布的概率分布,假设为均匀分布。

这意味着,不管该夫妇所属的类别x为何种可能性,都假定其相等(大致相同)。也许有的读者会不理解这样进行假设的原因,认为“x在接近0或接近1的情况下,与接近0。5的情况下,结果是相等的”这样的设定不合逻辑。这是一个合理的疑问。在下一节中,将会以能够解答这个疑问的先验分布为例,来进行解说。而作为学习的出发点,首先我们来一起思考均匀分布的先验分布。

关于类别x(x为某对夫妇生女孩的概率)的先验分布,设定如下:

y=1(0≤x≤1)

在图表19-1中,先验分布即为x轴上方的部分。

图表19-1类别为均匀分布的情况

接下来,x轴的下方的长方形,可以对应第4讲的图表4-3的长方形分割图,也就是划分出互不相同的几种可能性。在图表4-3中,划分了6个长方形,但在图表19-1中,划分为无数条线段(AB或BC即为其中的1条)。

从有限变成无限的情形,如图表19-2所示。

图表19-2从有限到无限

那么,接下来可以这样分析图表19-1:例如,图中的x=0。7(点A)表示该夫妇的类别为0。7,换言之,表示“这对夫妇生女孩的概率”为0。7这样一种可能性。因此,这对夫妇生的第一胎为女孩(这样一种可能性)的概率密度为0。7,用线段AB来表示。那么,生男孩的概率密度自然为0。3,用线段BC的长度来表示。实际上,这里采用了“&的事件的概率法则”(见15-3)。换言之,表示为:

(AB的长度)=(类别是x=0。7的概率密度)×(类别在x=0。7的基础上,生女孩的概率)

=(x=0。7时的y)×p(女孩|x=0。7)

=1×0。7

=0。7

在19-3之后,这个问题将成为基本的知识点。

假设我们获得了“这对夫妇生的第一胎为女孩”这样一条信息吧。那么,就可以把图表19-1中涂有颜色中的浅色部分的线段(生男孩的可能性)排除在外,只留下涂有颜色中的深色部分的线段(生女孩的可能性),如图表19-3所示。

图表19-3排除生男孩的可能性

排除掉生男孩后的可能性之后,便不符合标准化条件(所有事件的概率之和为1)了。由于表示生女孩这种可能性(涂有颜色的深色部分的三角形)的面积为0。5,那么,为了把它的面积变为1,需要在保持各线段的比例关系的同时,变更概率密度。只要把每条线段延长到之前的2倍,就能满足标准化条件了(三角形的高度变为之前的2倍)。图表19-3的右侧部分,表示这一步骤完成之后的状态——把左侧的x轴下方的部分翻转过来,再纵向延伸到之前长度的2倍。需要注意的是,右侧部分的图像即为贝塔分布的α=2、β=1的情况(见17-4)。这个是在获得了“该夫妇生的第一胎是女孩”这条信息时,关于这对夫妇的类别x的后验分布。同时还需注意的是,它表示的不是后验概率,而是后验分布。这是因为,分布图表示的是概率密度。后验分布如图表19-4所示。

图表19-4先验分布和后验分布

看图可知,虽然关于该夫妇生第一胎之前的类别x的先验分布,为均匀分布(无论哪种类别x,结果都是相同的)。但在获得了“第一胎为女孩”的信息之后,关于类别x的后验分布,就变更为z=2x这样的贝塔分布了。这意味着,类别x的后验概率密度,是随着x的增大而增大的。

19-3第二胎依然为女孩时的推理

为了帮助大家了解采用贝塔分布的优势,下面我们针对该夫妇生的第二胎依然女孩的情况,进行贝叶斯推理。

热门小说推荐

最新标签