吞噬小说网

吞噬小说网>你一定爱读的极简统计学 > 第21讲 在正态分布中使用概率分布图进行高级推理(第1页)

第21讲 在正态分布中使用概率分布图进行高级推理(第1页)

第21讲在“正态分布”中使用概率分布图进行高级推理

21-1把正态分布设定为先验分布,并进行推理

作为本书的最后一项推理,我们来共同研究使用正态分布的贝叶斯推理。

把正态分布设定为先验分布的情形,一般认为有以下内容:

?使用的概率模型,通过正态分布所赋予。

?设定的类别出现在特定类别附近的可能性很高,而基本不会出现于远离它的类别。

前者的原因在于,这是基于想要把先验分布和模型的概率分布作为同一类别的构想下形成的,这样的先验分布称为“共轭先验分布”。把前者的说法用专业用语来表达,即“正态分布是共轭先验分布”。

后者的原因在于,意味着作为“事前的先入之见”的“可能的类别”集中在某一处。例如,在“日本人的成年女性的身高”作为类别而设定的概率模型中,如果把100的可能性设定为对等,似乎不大合适。由于日本人的成年女性的身高大概在160cm左右,因此有“在160cm附近的可能性很大,而180等的可能性很低”这种先入为主的想法是很自然的。因此,设定身高的类别的先验分布,在160cm附近是相对比较集中的,而远离这一身高的,则相对分散。此时,可以说在正态分布的条件下进行设定是比较合适的。

21-2用不准确的温度计推算洗澡水的温度

在贝叶斯推理中,通过各个类别的事前概率和各个类别中获得信息只有,必须要计算“~&~”这种形式的偶发事件的概率,这在之前已经操作过多次。用之前的例子进行说明,如第2讲中,从类别“癌症”“健康”和获得的信息“阳性”“阴性”中,计算“癌症&阳性”、“健康&阴性”等事件的概率;第3讲中,从类别“真命天子”“无关路人”和获得的信息“送出巧克力”“不送巧克力”中,计算“真命天子&不送”“无关路人&送出”等事件的概率。

若把正态分布设为共轭先验分布,也需要进行同样的操作。结论如下:“~&~”这种形式的事件的概率分布,也是上一讲中所解说的正态分布(为比例的分布)。第19讲中,在考虑“生女孩的概率”时,若把先验分布设为贝塔分布,虽然“(类别p)&女孩”的分布也是贝塔分布(为比例的分布),但也会出现同样的情况。由于共轭先验分布原本就是这个含义,因此自然会得出这样的结论。但正态分布的情况和贝塔分布不一样,若对这个部分进行普遍说明,将会难以理解。这是由于正态分布的公式本身就比较复杂。

那么,本讲采用“曲线救国”的方式:第一,在进行一般论述之前,一边具体解说贝叶斯推理的流程,一边解说“~&~”的概率密度公式;第二,省略解说“~&~”的概率密度公式为何会变成这样的原因。接下来,进入解说环节,概率模型如下:

用不准确的温度计测量热水的温度

要把洗澡水加热到适宜的温度42℃。当认为已经烧开的时候,便用温度计测量了水温。但由于所使用的温度计不够准确,因此设定测量的温度x,遵循以实际温度θ为平均值、标准偏差为2℃的正态分布的概率分布。现在,温度计显示的温度为40℃。那么,实际的水温为多少度呢?

按照通过正态分布、用贝叶斯推理解答问题的流程,我们采用以往的步骤划分法来解决这个问题吧。

21-3根据正态分布进行贝叶斯推理的步骤

步骤1:用正态分布设定先验分布

我们要推算的是实际的水温θ。虽然现在已知,观测结果(信息)为40℃,但贝叶斯推理的风格是:在此之前的类别的先验分布中,对于“θ是以怎样的形式分布的”这一问题进行设定。这个问题设定类别的先验分布时,出现了与以往不同的情况:实际的水温θ有各种类别(温度),而这些不同的类别(温度)之间存在“可能”或“不可能”的差异。在这种情况下,运用正态分布进行设定则较为合理的(共轭先验分布)——由于希望加热到的合适温度为42℃,因此,把平均值设定为42℃这样一种正态分布。而由于标准偏差无论如何设定都是有可能的,那么就暂且设定为3℃吧。总的来说,就是进行以下设定:

先验分布的设定:类别θ遵循平均值为42、标准偏差为3的正态分布。

步骤2:在类别θ的基础上,求出测量40℃这一温度得到的概率密度的函数

贝叶斯推理的下一个步骤,是在确定类别之后,计算从这个类别中所获得特定的信息的概率密度。以癌症检查的例子进行说明,则为“患癌症”的人的检查结果呈“阳性”的事件,即“癌症&阳性”的概率。把其他几种情况都列举出来,则为:计算“癌症&阴性”、“健康&阳性”、“健康&阴性”这4种可能性出现的概率。这些都是按照“类别&信息”的形式组合而成的。

在烧水的问题中,“类别&信息”,则是以“(实际的水温θ)&(测量的温度x)”这种形式出现的。但在该组合中出现了两个难题:第一,与癌症检查中出现4种可能性不同,该情况下,存在无限种可能的组合形式。因此,不能通过图表来进行举例说明(而第19讲中的贝塔分布的情况,由于信息只有“女孩”“男孩”2种情况,因此勉强能够用完整的图表来举例)。第二,“类别&信息”的概率,虽然是通过“条件概率的公式”(见15-3)计算得来的,但这种情况下的计算太过复杂,对于不是那么精通数学的人来说很难理解。

因此,本讲中按照以下方式进行处理:

?在基本事件“(实际的水温θ)&(测量的温度x)”中,只用图表列出“θ&40”的概率分布。(由于在此之外还存在“θ&38”或“θ&40”等无限的可能性,因此不对其一一进行图表列式)。

?若把基本事件“θ&40”的分布调整为满足标准化条件的形式,则为正态分布。此外,关于如何计算它的平均值和标准偏差的问题,此处只给出结论。

以上述方针为前提,下面我们继续来进行解说。

图表21-1采用正态分布的贝叶斯推理

在图表21-1中,上方部分的开口朝上的图表为θ的先验分布。正如设定的那样,为平均值42、标准偏差3的正态分布。

而下部分的开口朝下的图为,表示类别为θ(当实际水温为θ)时,测量出的结果为40℃的概率密度的图表。换言之,即根据测量出来的温度,从划分的情况(测量结果为37℃或45℃等所有情况)中,只抽取40℃这一测量结果而形成图表。

步骤3:求出后验分布,并计算其分布的期待值

在图表21-1中,由于针对各个θ,只画出了在其基础上表示观测到40℃的概率密度的部分,因此,并不满足标准化条件,这与以往所有的贝叶斯推理是一样的。若将其调整为满足标准化条件的比例关系,则可以得出以下结论:

后验分布将基本事件“θ&40”调整为满足标准化条件的比例关系,那么可以得到“在获得40℃这一信息之后,各θ的后验概率”。该后验分布即为,关于θ的正态分布。而该正态分布的平均值(分布的期待值),可以通过以下计算得出。

上述计算过程的具体含义,将在下下节中进行解说。

21-4后验分布的含义

在说明计算方法之前,首先解释一下贝叶斯更新的概念:我们认为,洗澡用的热水水温,遵循事前为平均值42℃、标准偏差为3的正态分布。因此,若用1个数值来代表的话,则估计期待值(=平均值)为42℃。但是,由于用不准确的温度计测量出的水温为40℃,那么根据这条信息,就可以得出关于θ的后验分布,表示为图表21-1右侧的正态分布。这一概率分布的期待值在顶点位置(挑担人偶的支点),也就是正态分布的平均值,为40。6℃。以上为获得信息之后,对于水温的推理值。

上述贝叶斯推理过程,可以通过图表21-2来理解。

图表21-2通过温度计的测量结果,对信息进行修改

换言之,虽然最初的观点(预想)为42℃,但之后,以通过温度计得到的测量结果40℃为参考,进行了修改。虽然修改后的值,比起最初的42℃更接近40℃,但绝非40℃。之所以会出现这样的结果,是因为温度计的测量存在误差偏差(标准偏差),所以这一部分的结果是不可信的。因此,我们并没有修改测量值为40℃,而是保留了40。6℃的结果。

热门小说推荐

最新标签