简单的统计学_第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例第2页

吞噬小说网>简单的统计学 > 第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

在有链接的情况下，

（垃圾邮件的后验概率）：（正常邮件的后验概率）

＝0。5×0。6:0。5×0。2

＝0。6:0。2

＝3:1

＝34:14

所以，过滤器判断出

（附带链接的垃圾邮件的后验概率）＝34＝0。75

在扫描之前，垃圾邮件的概率被设定为0。5；而通过扫描发现链接之后，垃圾邮件的概率上升到了0。75，如图表11-5所示。

图表11-5扫描前与扫描后

在这种情况下，“正常邮件的后验概率”为0。25，但这一概率并不为0，所以垃圾邮件的可能性增大，然而，并不能就此判定它就是垃圾邮件。例如，尽管在过滤器上设定了“如果垃圾邮件的后验概率超过0。95，就自动把它移到垃圾箱里”，但有可能这封邮件并没有被移动到垃圾箱里，而是被划分到收件箱中。

11-5获得第2条信息后，可能性随之变为8种

通过上一节中我们了解到，即使在获得了“附带链接”的信息之后，也只能初步判断这封邮件极有可能是垃圾邮件，但不能确定它一定会被移动到垃圾箱中。因此，过滤器会通过添加其他的信息，再次进行判断。现在我们添加一个条件：把“幽会”一词作为关键词来进行检索。“幽会”一词出现的概率和不出现的概率，如图表11-6所示。

图表11-6附带链接的条件概率

此时，过滤器在扫描邮件时，除了“附带链接”之外，又增加了含有“幽会”一词的条件，通过这两个条件来判别垃圾邮件。

首先，在图表11-2共体现了两种可能性，而在图表11-7中，这两种可能性各自又分为4种可能性，所以共计有8种可能性，这8种可能性各自的概率如图表11-7的下部所示。

图表11-7附带链接的条件概率

要注意的是，垃圾邮件和正常邮件的概率分列在两个表中。这样做的原因是，被检查邮件是垃圾邮件或是正常邮件的两种情况下，概率是完全不同的。并且，在上述两种情况下，被扫描的特征（附带链接或不带链接、含有“幽会”或不含“幽会”）出现的概率也是完全不同的。因此，必须分开计算各自的概率。

上述两种情况下，共有8种可能性，每一种的概率分别列出，如图表11-8所示。

图表11-88种互不相同的可能性

图表11-8的左列（垃圾邮件列）对应图表11-7正中的概率表，右列（正常邮件列）对应图表11-7最下面的概率表。

在这里，请大家进一步确认一个问题：类别的概率0。5也要乘进去。原因在于，它是异于独立性而存在的。而这一点是条件概率的特征，具体的相关内容会在第15讲中进行讲解，此处暂且不多作讨论。

11-6从2个信息可以消去不可能的情况

在设定上述概率的前提下，过滤器对邮件进行扫描，通过检查是否附带“链接”、是否含有“幽会”一词这两个条件，来计算该邮件为垃圾邮件的概率。图表11-8中共有8种可能性，而只有最上面的2种有可能是垃圾邮件的。于是，留下最上面的2个，排除掉下面的6个，结果如图表11-9所示。

图表11-9扫描之后只剩下两种可能性

总之，过滤器所检查的邮件分为两种情况，一种是垃圾邮件（附带链接且含有“幽会”），一种是正常邮件（附带链接且含有“幽会”）。两者的比例关系，也就是图中的概率之比。因此，接下来通过标准化条件，可以计算出附带链接且含有“幽会”一词时的后验概率。

（垃圾邮件的后验概率）：（正常邮件的后验概率）

＝0。5×0。6×0。4:0。5×0。2×0。05

＝0。6×0。4:0。2×0。05

＝0。24:0。01

＝24:1

＝2425:125

通过标准化条件运算，在附带链接且含有“幽会”一词的情况下，（垃圾邮件的后验概率）＝2425＝0。96

吞噬小说网

吞噬小说网>简单的统计学 > 第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

热门小说推荐

最新标签

吞噬小说网

吞噬小说网>简单的统计学 > 第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

热门小说推荐

最新标签

吞噬小说网>简单的统计学 > 第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）

第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第2页）