这一结果,比起42℃和40℃的中间值41℃,更接近40℃,那么为何要修改为这一数值呢?原因在于,表示先验分布的误差偏差的标准偏差为3,但温度计显示的测量的误差偏差的标准偏差为2,后者的误差相对较小。这意味着,根据误差偏差相对较小的温度计得出的结果,对于先验分布的推算影响较大,想来这也是自然的。
21-5根据正态分布进行贝叶斯推理的公式
接下来,对于上上节中进行的、将正态分布作为共轭先验分布而进行的推理计算进行说明。
根据正态分布进行贝叶斯推理的公式
将需要推理的θ的先验分布设定为平均值μ0、标准偏差σ0的正态分布;将观察的信息x设为遵循平均θ、标准偏差σ的正态分布。至于μ0、σ0、σ,则设为具体已知的数值。换言之,设定关于信息x的附带条件概率密度p(x|θ)为平均值θ、标准偏差σ的正态分布。
(ⅰ)只观察1次信息时的公式:
把观测到的值设为x,则:
(观测到x之后,θ的后验分布)p(θ|x)为关于θ的正态分布。
(ⅱ)观察n次信息时的公式:
若把观测到的n个数值的平均值(为(观察值的合计)÷n)记为x,
以下,用略显烦琐的文字来进行解说:
首先,标准偏差的2次方是被称为“方差”的量。方差,也是标准统计学中重要的统计量之一。
在正态分布中,后验分布的平均值按照以下方法进行计算:
观测值只有1个的情况下,按照以下公式计算:
(先验分布的平均值)÷(先验分布的方差)+(观测值)÷(信息x的方差)
之后,用下面的式子相除:
(先验分布的方差的倒数)+(信息x的方差的倒数)
此处,若重现21-3中的计算,则为:
在该计算中,由于用方差大的数进行除法运算之后,结果反而变小,所以我们得知:方差小的数值对于修正值的影响更大。
那么,n次观察后的x平均方差,则为上述结果的2次方,即:
(原来的方差)÷n
21-6测量两次水温之后的贝叶斯推理
最后我们来研究,如果测量两次水温的话,烧水的问题该如何推理呢。运用上一节的公式(ⅱ),并将21-2中的问题进行如下变更:
用不准确的温度计测量两次热水的温度
要把洗澡水加热到适宜的温度42℃。当认为已经烧开的时候,便用温度计测量了水温。但由于所使用的温度计不够准确,因此设定测量的温度x,遵循以实际温度θ为平均值、标准偏差为2℃的正态分布的概率分布。现在,温度计显示的温度为:第一次为40℃,第二次为41℃。那么,实际的水温为多少度呢?
那么,这两次测量值的平均值为:
因此,运用上一节中的公式(ⅱ),(注意n=2),通过以下方法计算正态分布p(θ|=40。5)的平均值(期待值),为:
这以结果反映了两次测量结果的修正值。
至此,关于使用正态分布的贝叶斯推理的讲解正式结束。各位读者朋友们也不知不觉地学会了这一复杂而普遍使用的贝叶斯推理方法。这是贝叶斯推理这座山脉的山顶之一。不知不觉地,大家已经爬到了山顶。
从山顶俯瞰到的景色如何呢?
第21讲·小结
1.在类别为θ、信息为x的贝叶斯推理中,若信息x的概率分布p(x|θ)为将θ设为平均值时的正态分布的情况,那么,将θ的共轭先验分布设定为正态分布。
2.上述1的情况下,后验分布p(θ|x)也为正态分布。
练习题
答案参见此处
日本男性A在测量时,由于处于紧张状态,血压测量的结果会出现:有时比实际血压高,有时又比实际血压低的情况。该结果的分布遵循:把实际的血压μ作为平均、标准偏差10的正态分布。把遵循正态分布的、与A同龄的日本男性的最高血压设为先验分布,即设定平均值130、标准偏差20的正态分布。
(1)若只测量1次,结果为140。那么此时,A的实际血压的后验分布的平均值为:
(2)测量2次,平均值为140。那么此时,A的实际血压的后验分布的平均值为: