第六节 数据变换

在实验室测定和流行病学研究中,常用的回归和ANOVA技术均涉及正态性假定,如果正态性假定不满足,结论会出现错误。借助于对数或平方根对数据进行变换经常可以改变这种情况。当数据具有倍数关系时,用对数变换一般能取得理想的效果。当数据为来自Poisson分布的计数资料时,平方根变换的效果较理想。其他常见的变换方法见文献。在现行的统计分析软件中很容易实现的一种常规做法是拟合一个回归模型或ANOVA模型后输出其残差,并使用标准过程检验残差的正态性。可以查看偏度系数是否趋于0,或用概率图查看残差是否服从正态分布。当 n较小时(≤50),可使用 W检验考察正态性,当 n较大时,使用矩法(动差法)检验。
方差齐性可使用对应于两个方差比值的 F统计量或Bartlett法进行检验。两种方法均假定各组方差独立。但对某些线性模型来说,可以不必满足这种独立性要求。方差齐性假设经常由于数据不服从正态而难以成立,因此,对正态性或方差齐性不满足的情况下,应考虑数据变换。
数据变换的一般方法是Box-Cox法。此处假定有一个 λ,满足
Y服从正态分布。当 λ=0.5时,表示进行平方根变换。当数据不独立时,数据变换一般不能解决问题。