一、独立性检验的一般问题与步骤
(一)统计假设
独立性检验的虚无假设是二因素(或多因素)之间是独立的或无关联的,备择假设则是二因素(或多因素)之间有关联或者说差异显著。一般多用文字叙述而很少用统计符号表示。
(二)理论次数的计算
独立性检验的理论次数是直接用列联表提供的数据推算出来的。二因素或称两样本其各行或各列数目的和,即每一项分类的数目与总数(N)的比值,提供了样本的比率。如根据表10-3的资料,填写出理论次数(括号内的数字)后如下所示:课外活动内容(变量1)
总数N=97
“体育”的和数为27,其与总数之比为2797
“文娱”的和数为18,其与总数之比为1897
“阅读”的和数为52,其与总数之比为5297
这是样本的比率,若问男生在3种课外活动内容上的理论次数,则将各种课外活动内容的比率乘以男生的人数,因此:
(三)自由度的确定
两因素列联表自由度与两因素各自的分类项数有关。设R为每一行的分类项数,C为每一列的分类数目,则自由度为:
上例中R=3,C=2,df=(3-1)×(2-1)=2。这里自由度的意思是:在计算理论次数时,在3×2=6的单元格内,只有两个单元格内的数目可以自由变动,也就是说在六个单元格中,只要有两个单元格的数字确定,在边缘次数(即fx,fy)不变的情况下,其他各单元格的数字就随之而定了。例如知道男生喜爱体育活动的理论次数15。3,喜爱文娱活动的理论次数为10。2这两个数,其他各单元格的理论次数便可推算出来。若不是理论次数,而是两个实际次数也同样如此。因此,在计算R×C表的理论次数时,只需用公式10-4计算(R-1)(C-1)个理论次数,其余的理论次数可直接用边缘次数减去所计算出来的(R-1)(C-1)个理论次数得到。
(四)统计方法的选择
独立性检验的统计方法,视样本是独立的还是相关的,是大样本还是小样本等具体情况而定,各因素的分类项目多少不同也有不同的方法。这些具体方法在下面将逐一介绍。在应用独立性检验时,一定要考虑到上述情况而选择恰当的统计公式。
一般应用独立性检验的场合,独立样本居多,用χ2检验的基本公式计算:
应用基本公式计算,要先计算理论次数,比较麻烦。可用下式直接计算χ2值,其公式为:
式中f0i为每一格的实计数。fxi是与f0i对应的那一行的总数,称为边缘次数。fyi是与f0i对应的那一列的总数,也称为边缘次数,N为总的观察数目。对于小样本及2×2表,可用更简便的公式。
(五)结果及解释