t検定と分散分析

今日は分散分析を行ってみようと思ったのだ。
僕がいつも分散分析はWeb Anova(http://www.hju.ac.jp/~kiriki/anova4/)を利用しているが、もちろんRでも出来るだろう。

改めて分散分析について考えてみると、自分がよくわかってなかったことに気づく。 っということでメモ。

今回の練習用データで考えてみると、荒っぽく考えてみと分散分析は、要因の多いt検定。

男女によって体重の平均値を比べるときの検定はt検定を行うことができる。2つの平均値を比べるのでこれでよい。

ただ、黒人と白人と黄色人種によって体重が異なるかどうかを検定するためには、分散分析を使う。
えっ??だったらt検定を2回すればいいんじゃないの?ということになるのだが、どうやらダメらしい(第二種の過誤というのが起きるらしい)。

ということで、今回のデータで分散分析を行ってみる。

こんな感じ。関数は一元配置はoneway.test

f:id:jigawa91:20110521205754p:image

ほほう。 anovaで見るような表ができた。
この結果だと、p-value を見るとどうやら人種と体重の相関はないみたいだ。

これは一元配置の分散分析。水準数は白、黒、黄色の3水準であるといえる。

余談だがもし、2水準で分散分析を行った場合、t検定と同じ結果になるらしい。ちょっとやってみよう。

まずは、t検定。男女によって体重に差があるのか?

f:id:jigawa91:20110521205755p:image

続いて、一元配置の分散分析を2水準で。

f:id:jigawa91:20110521205756p:image

OK!!なんか勉強になるなあ。改めて基礎から勉強している感じ。
あれ??そういえば、下位検定はどうやって出すんだろう?
まあ、とりあえずおいておいてここまでは一元配置の分散分析。

分散分析は一元配置ではなくこの配置の数を増やしていって交互作用ということも考えることができるらしい。

ここの例で言うと、
人種ごとに体重に差があるか?(人種の主効果)
性別ごとに体重に差があるか?(体重の主効果)
人種×性別ごとに体重に差があるか?(交互作用)

ということらしい。理論的にはいくらでも増やせるみたいなんだけど、解釈が難しくなるので2元配置くらいまでが普通ということ。

ではこの2元配置の分散分析をしてみる。関数はaov

f:id:jigawa91:20110521205757p:image

なんのことやらよーわからんので、もうちょっと勉強してみよう。summary()を追加してみる。

コマンドは、summary(aov(s$weight~s$race+s$sex))

f:id:jigawa91:20110521205758p:image

おお!なんかそれっぽいのが出てきたぞ!!

これあってんのかな???

性別の主効果は有意、人種の主効果はなし。
交互作用は何処?

試しにWeb Anovaで計算してみると数字がちょっと違う。。。改めてやってみると入力が結構大変だったなあ。
そうか、当分散の検定か。Rはウェルチがデフォルトなんだ。

ううーーん。酔っ払ったので今日はここまで。
というか本を忘れたので、ちょっと尻切れトンボですな。

今日の課題(というか本を見つけて追記すること)
1) tukeyの下位検定について
2) 交互作用はどうやって出力する?
3) 当分散を仮定しない分散分析を行ってその結果とWeb anovaの結果を照会する。
4) 当分散性の検定ってどうやるんだっけ?

ちょっとしたメモ。
1) Fix関数を使用したデータの変更と書き出し。
2) aggregateを使って一気に記述統計をまとめる(新しい練習用シートで)
3) χ二乗検定

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です