月別アーカイブ: 2011年5月

t検定

思いつきでt検定をしてみた。

t.test(s$weight~s$sex)

これは、sというデータの中で体重が性別ごとに異なるかt検定をやりなさいというコマンド(だと思う)。

f:id:jigawa91:20110507125722j:image

でたでた。なんかいろいろ出てますがな。蕁麻疹が。

Welch Two Sample t-test

多分ウェルチを使った2つの標本のt検定を行ったという感じ。

data: s$weight by s$sex

データはsの体重を性別で。

t = 3.7311, df = 18.305, p-value = 0.001493

自由度(df) P値は(p-value)

alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:

くーーー蕁麻疹。

yahoo翻訳したれ。

対立仮説: 手段の真の違いは0 95パーセントの信頼区間と等しくはありません:

???

8.21321 29.32525
sample estimates:

mean in group 0 mean in group 1
69.69231 50.92308

ここら辺は気にせずに行こう。
なんか、5%水準で有意ということでいいっぽい気がするが。。。

ちょっと本(青木先生のヤツ)をごそごそ。
いろいろ載ってんなあ。まだまだぜんぜん理解できん。

どうやらRではウェルチがデフォルトらしい。
ウェルチは、等分散を想定しない場合の検定。

もし、等分散を想定して検定するならば

var.equal=TRUEを追加するらしい。

ということでやってみた。

f:id:jigawa91:20110507131714j:image

OK!! できましてん。
じっくりもぞもぞですな。

今回の疑問
1 5%水準じゃない場合(1%とか10%)を出力できないか?
(追加編集)
daihikoさんからのコメントで解決。
対立仮説: 平均値の真の差異は、0と等しくない
95%信頼区間

という意味。「差異は、0と等しくない」ってことは、差があるってことだよね。
それに対して、帰無仮説は「差異は、0と等しい」。

有意水準はp-valueのところを見ればいい。ここが.05未満だったら5%水準、
.01未満だったら1%水準、というように見る。

そもそもの和訳が間違っていたということらしい。
今回のデータでは,p値が0.001493なので1%水準でも有意ということ。

そっかもっともっと統計のことを本質的に勉強しないと。
2 等分散かどうかの検定(ExcelでいうF検定)はどうするの

散布図と相関

ちなみに昨日Rの勉強会だったので、このブログをN先生に見せたのだが、なんと身長はtallではなく、heightが正しいらしい。

めちゃくちゃ恥ずかしいが、今更治すのも面倒なのでこのまま押し切る事にしよう。

僕のししょー(生理、実験系)は、
「データをGetしたらまず散布図を作りなさい。そしてその散布図を眺めなさい」

と僕に教えてくれた。

ということでまずは散布図を作成する。
一番簡単そうなtall(正しくはheightね)とweightでチャレンジ。

plot(tall,weight)
これで散布図は出てくるはず。

f:id:jigawa91:20110507122036j:image

あれ?オブジェクトがありませんときたもんだ。

「!!」

そうだattach(s)がない。
このattach(s)は、コマンドの最初に入れた時に以降のコマンドは全部sのデータを利用するというような意味で、エディタで一気にコマンドを入れてしまうような場合に便利(と理解している)。

今回は、コンソールでいろいろやるのでいちいちコマンドにsのデータを使うというメッセージを入れてみる。

s$と入れるのが正しいらしい。
plot(s$tall,s$weight)

これでsのデータの中から、tallとweight の散布図を作れ というコマンドになる。

f:id:jigawa91:20110507122037j:image

よし。できた!!美しい散布図だ。このファイルは、形成できるのかな??論文で使えるのかしら?保存は?まあまだまだわかんないことばかりだが、放置して次に行こう。

しかし、いちいちこれをすべての組み合わせでやるのが面倒くさいよね。

ということで総当たりの散布図

plot(s)

f:id:jigawa91:20110507122038j:image

ししょー!!
たしかにわかりやすいですたい!!散布図万歳!!

ほほう。やはり身長と体重の散布図を見ると相関はありそうですね。ということで関数corを使ってみる。$を忘れないように。

cor(s$tall,s$weight)

さらに総当たり戦もやってみる。

cor(s)

f:id:jigawa91:20110507124055j:image

よし。なんかいい感じ。
noはIDにしとけばよかったかな。

相関表を見てみるといろいろ気になる事が出てきた。

1.性別は、男性0,女性1にしてるけどこれはカテゴリカルデータだよね。数字データのままで大丈夫?
2.custom(習慣),Inhe(遺伝) は5段階の順序尺度だけどこれもこのままでいいのか?
3.相関の有意は出ないのかな?

しばらくは検討を重ねる。

Rでデータをいじってみる。その2

前回の続き。
ちょっと行き詰まっていたが、なんとか回復。
なんでうまく行かないかが分からないままなのでここでは触れずにもう一度Rを起動した。

今までのおさらいという意味を含めて一気にやってみる。

まずは、Rエディタを新規で開いてこんなコマンドを書いてみる。

f:id:jigawa91:20110505003326j:image

これは、Rコンソールの中にコマンドが読み込まれて待機している状態。

f:id:jigawa91:20110505003826j:image

そこでweight_sdを呼び出してみよう。

f:id:jigawa91:20110505003956j:image

でた。体重の標準偏差。

こういう計算をするにはExcelを使った方がラクかもしれないが、実際データをいじくろうとすると、表の状態でさがすより思いついた計算をどんどん呼び出せるので便利かもしれない。

ここで復習。
最近知ったのだが、コマンドの前に#をつけるとそのコマンドは実行されないらしい。
ということでさきほどのエディタに解説を加えて実行。

f:id:jigawa91:20110505004832j:image

よし!!できた。

聞いた話によると、プログラムを作成するにあたってアンダーバーは滅多に使われないそうです。その他の記号はコマンドの一部と認識されてしまうことがあるのであまり使わないほうがよさそう。これはしっかり癖にしちゃおっと。

あとこれからエディタを作るときは、基本的に#をつけて解説を入れるようにしよう。慣れるまでは日本語で。

というか、いつも簡単に出来ているように見えるかもしれないが、何度も何度もミスを繰り返してなんとか出来ているというのが実際なのだ。ここまではなんとか出来たので、次からは本格的に統計をやってみよっと。

Rでデータをいじってみることにした。

今日は、ビールを飲まなかったので夜分遅くではあるのだが少しRをいじってみよう。

Rを起動し、sを入力てみると、しっかりと前回のデータが読み込まれている。

f:id:jigawa91:20110504234345j:image

このまま関数を入れてみる。

max(age)

f:id:jigawa91:20110504234346j:image

あれ??年齢の一番大きいヤツを呼び出したいんだけどな。

このオブジェクトがありませんは、うまくいってませんよというメッセージ。age という変数が分かってないということみたい。

いろいろ調べるとコイツがミソだ。

attach(s)

これは、以下のコマンドは(s)のデータの中にありますよという宣言のようなもの。

ということで
>attach(s)

を打ち込むと
コンソールは待機状態(sを入れて次のコマンド待ってるぜ!という感じかな)

f:id:jigawa91:20110504234347j:image

続いて
>max(age)

f:id:jigawa91:20110504234348j:image

きたー!!

ということで年齢の最大値はできるようになった。

勢いに乗ってmini(最小値)、mean(平均値)、sd(標準偏差)も入れてみよう。

f:id:jigawa91:20110504235649j:image

よし。ここまでは完璧だ!!

R勉強用の本について。

ちなみに僕が使っている本。
勉強会を始める前に、ちょっとやってみようと思って挫折した本がこちら。

最近みてみると言葉は分かりやすいけど、うまく行かなくなるととたんに難しくなるという感じの本でした。統計の解説が分かりやすいのではじめての人にはおすすめ。
お値段2700円なーーり。

f:id:jigawa91:20110502171831j:image

続いてこちら。これは勉強会がはじまってから、N先生のおすすめで購入。
プログラムがたくさん書いてあって、自分一人では絶対読めない漢字だけど、最近ほんの少し分かってきた。著者の青木先生はネット上でもたくさん情報を公開されているのでかなりおすすめの本だと思う。

f:id:jigawa91:20110502171830j:image
しかし、こういう本を書ける人の頭のなかっていったいどうなってるんだろう。

すげーな。