吞噬小说网

吞噬小说网>你一定爱读的极简统计学 > 第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例(第1页)

第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例(第1页)

第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例

11-1垃圾邮件过滤器以贝叶斯推理为基础

在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。并且,信息数量越多,推算出的结果可信度越高。后面的三讲,会讲解如何利用多条信息来进行推算的问题,而其中的要点则是上一讲中提到的“概率的乘法公式”。在这一讲,会讲解如何利用两条信息来计算出后验概率。

本讲主要探讨垃圾邮件过滤器的问题。

所谓的垃圾邮件,指的就是一些不良商家通过网络随意发送的广告邮件。而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件,并把它归入“垃圾邮件”的分类中。

事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。而目前,垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。读者们在使用该服务之后,都会为它在分类判断方面的准确性而惊叹不已,而这一切都要归功于贝叶斯推理。

11-2在过滤器上设置“先验概率”

和前面的操作步骤相同,第一步是设定事前类别,并在获得一条信息之后,计算出后验概率。

在这里我们要做的,并不是“自己去判断收到的邮件是否为垃圾邮件”,而是为大家讲解“电脑会对所收到的邮件做出机械判断”的原理。

首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”先验概率。在这里,利用“理由不充分原理”(见3-2),使双方各占0。5的概率。

这就意味着,对于接收到的邮件,过滤器会做出“垃圾邮件的概率是0。5,正常邮件的概率也是0。5”的判断。而此时如果有可信度更高的概率,也可以将其设定为先验概率,如图表11-1所示。

图表11-1理由不充分原理的先验概率

11-3扫描字句与条件概率的设定

接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。但需要注意的是,“贴有其他网页的URL链接”这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。实际上,大多垃圾邮件的目的确实是引诱读者访问其他网址,因而附带有URL的链接。因此,如果符合以下稳固关系,即:

垃圾邮件→URL上有链接

正常邮件→URL上无链接

那么就可以排除掉所有的垃圾邮件。当然,按照5-3推论中的解说,也可以通过逆向思维做出如下判断:

URL上有链接→垃圾邮件

URL上无链接→正常邮件

然而遗憾的是,多多少少会有那么几封垃圾邮件中并没有其他链接,而来自朋友和公司的邮件中却附带链接,这就难办了。在这种情况下,就必须使用5-3中提到的概率推论相关的“可能性”判断方法,即:

URL上有链接→可能是垃圾邮件

URL上无链接→可能是正常邮件

对于这种“可能性”进行数值评价,需要运用到贝叶斯推理。

因此,就很有必要设定:垃圾邮件中附带URL的比例,以及正常邮件中附带URL的比例各占多少。为了方便计算,以下采用虚构的数据来进行简单运算,如图表11-2、11-3所示。

图表11-2附带链接的条件概率

图表11-34种互不相同的可能性

虽然之前已经进行过说明,但为了保险起见,下面,再一次对图表11-3进行讲解。

现在,过滤器要对刚刚收到的一封邮件进行检查。此时的过滤器将会面临四种情况。首先,把收到邮件的可能性分为垃圾邮件和正常邮件两类。然后,根据有无链接,再各自分为两类。所以,一共存在四种可能性。接下来,再进一步判定究竟哪一种可能性是符合实际的。

11-4根据扫描结果,计算垃圾邮件的贝叶斯逆概率

过滤器扫描完邮件后得到的结论是“附带链接”。此时,就不必再考虑“无链接”的两种可能性,只需要考虑剩余的两种可能性,如图表11-4所示。

图表11-4可能性被限定为两种

恢复标准化条件(相加之和为1)之后,通过这张图可以计算出后验概率为:

热门小说推荐

最新标签