三、连续变量分布的吻合性检验
对于连续随机变量的计量数据,有时在实际研究中预先不知道其总体分布,而要根据对样本的次数分布来判断是否服从某种指定的具有明确表达式的理论次数分布。这些理论分布多种多样,有正态分布、二项分布、泊松分布等多种。然后,在给定的显著性水平下,对假设做显著性检验,这种假设检验通常称为分布的拟合度检验(或吻合性检验),简称分布拟合检验。关于分布的假设检验方法有很多,运用χ2值所做的配合度检验是最常用的一种。
对正态分布的吻合性检验是连续变量分布吻合性检验中经常面临的问题,它也是心理与教育研究中整理分析研究数据时常用的统计方法。
对于连续性数据总体分布的检验,一种方法是将测量数据整理成次数分布表,画出次数分布曲线图,根据次数分布曲线,判断选择恰当的理论分布。有时可选择某一直线或曲线的理论分布函数方程式计算理论次数,然后把实际分组次数(f0)和理论次数(fe)代入χ2检验的基本公式,计算χ2值查χ2表,确定其差异是否显著。若差异显著,说明实际次数分布与所选择的理论次数分布不吻合,这时可另选择理论分布函数,再次比较,直至吻合,这个理论分布函数就是该实际测量的次数分布函数。若差异不显著则说明所选的理论次数分布与实际次数分布相吻合。
对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。理论次数的计算是把实际次数分布的统计量代入所选的理论分布函数方程,计算各分组区间的理论频率,然后乘以总数得到各分组区间的理论次数。确定自由度时是将分组的数目减去计算理论次数时所用统计量的数目。
下面以正态分布吻合性检验为例,说明理论次数的计算与自由度的确定。
【例10-5】表10-2所列资料是552名中学生的身高次数分布,问这些学生的身高分布是否符合正态分布。
表10-2552名中学生身高的理论次数分布及χ2检验
解:(1)本题要求检验实际次数分布与正态分布是否符合,它的理论次数计算应根据正态分布概率,查正态曲线表得到。
(2)有了各组的理论次数与实际次数,代入χ2基本公式,得到χ2=3。905。
(3)确定自由度。本题共分11组,在计算理论次数时,为了克服由于分组最高组和最低组两极端次数太少给χ2带来的影响,进行了组别合并。一般合并分组的原则是当fe小于5时,就应合并。合并后为9组。在计算理论次数的过程中共用到平均数、标准差、总数三个统计量,故本题的自由度df=9-3=6。
答:552名中学生的身高分布符合正态分布。