月別アーカイブ: 2011年4月

データセットをしてみる。

だいぶ仕組みは分かってきたので、そろそろ本格的な数字をいじってみる事にする。
修士論文でも研究でも基本的にデータはExcelで作成しているので、ちょっとこんな感じで簡単に妄想的なデータを作成してみた。

f:id:jigawa91:20110430003816j:image

もちろん、これは最初に設定した作業ディレクトリの中に保存する。
保存の名前はyome.csv にしてみた。なぜかという事うちの嫁はとても素敵で。。。

ということはどうでもよくて、このデータは嫁が妄想して作ってくれたデータなので記念に名前をつけてあげました。

よくある体重のデータ、変数は
no sex age weight tall custom Inhe
ID 性別 年齢 体重 身長 習慣 遺伝

といった感じで作ってみた。このデータをRに読み込んでみる。

このデータの読み込みについては実は去年一人で苦労して断念したんだけど、N先生があっと言う間に教えてくれた。ちくしょーーー。

いろいろ方法はあるみたいなのだが、しばらくは言われるがままやってみる。

f:id:jigawa91:20110430004615j:image

s <- read.csv (yome.csv”, header=T, sep=”,”)
s

この文の意味は、
1 yome.csv のファイルを読みこむことをsと名付けるぞ(読み込み形式はまた後で)。
2 sを表示せよ。

ちなみにsは日本語でも大丈夫。でもあまり格好よくないよね。だって英語のままいじってる方ができる男っぽいし。複数のデータを扱うのであればdata1 とかdata2 とかすれば分かりやすいかも。

ここまでをRコンソールに打ち込んでみる(コピペで)。

f:id:jigawa91:20110430005252j:image

きたーーー。今回、データに名前をつけたのは、将来的な理由もあるんだけどもちろん名前を付けなくても読み込むことはできる。

>read.csv (“yome.csv”, header=T, sep=”,”)

こんな感じかな。

header=T は、一番上の行を変数名とするという意味。
sep=”,” は区切りの記号を,にするという意味。ここをスペースにしたりすれば区切りの記号もスペースとかドットとかに変更できるみたいだけど、とりあえずはcsvのカンマ区切りが一番分かりやすそうだ。

たちまちはここまで。データをいじるのはもう少し勉強してからにしよっと。

今日はかなりがんばったなあ。
おっとさっきのRエディタは今後のために保存しておこう。
yome.R でいいや。
もちろんワークスペースも保存しておしまい。

よしもう一度起動してみよう。

f:id:jigawa91:20110429235211j:image
でた!
[履歴が次のファイルから読み込まれました /Users/hige-hige/Desktop/R/.Rapp.history]

とこうなってるということは、たぶんいい感じになってるに違いない!

んで、このRコンソールというところがハイテク計算機のディスプレイということみたいなのだが、なんかいろいろ面倒なことが書いてあってうざったいのでちょっとすっきりさせよう。

R→編集→コンソールを消去 とりあえず真っ白になった。

f:id:jigawa91:20110429235658j:image

さてこのハイテク計算機の実力をちょっと見てみようじゃないか。

最初についているこのマーク > 不等号マークみたいなヤツはプロンプトというらしい。
このプロンプトに、コマンド(命令)を打ち込むとRくんから返事が来るらしい。

なんて素敵なヤツなんだ。試しにやってみよう。

f:id:jigawa91:20110429235928j:image

すげーーー!!
ハイテク計算機のくせにこんなしょうもない計算に文句も言わずに返事をくれるとはなんて素敵なヤツなんだ。

こいつとはいい友達になれそうだ。

Rエディタについて考える。

僕のように2+6で大喜びしている人にとっては無縁の長物ではあるが、Rエディタというものがある。

Rコンソールにコマンドを打ち込むと律儀なR君は、すぐに返事を返してくれる。
だけど、ちゃんと統計しおうとすると、データをいじっていじっていじっていじっていじって最後に返事が欲しかったりするときもあるみたい。

たしかに、普通に電卓を使っていても、50+66+456 の結果から、26+54+35 の結果を引きたいとか困るよね。メモが必要。まあ、Excelだと簡単だけどこれはあくまで例だから。

これをコマンドで考えると、
50+66+456 をa
26+54+35 をb
としてa-bの解答を出せ!みたいな3つのコマンドを一気に実行させたくなる。
このいじっていじっての部分をとりあえず作るのがRエディタになるのだ!!

ちょっと開いてみよう。

R→新規文書で開いてみるとこんな感じ。真っ白だよ。

f:id:jigawa91:20110430001141j:image

これにさっきのコマンドを書いてみる。> <- とかは今のトコ意味分からんので誰か教えてください。見よう見まねです。エディタに書いたものをコピペしてみる。
このエディタに書いたものをRコンソールで読み取るためにはなんかsouce とかいうコマンドを使う事もあるらしいだけど、まあしばらくコピペでいっか。

f:id:jigawa91:20110430001706j:image

おおお!できた!もしかして俺すごい!?

でこのRエディタを消そうとするとこんなメッセージ。
f:id:jigawa91:20110430001910j:image

うん、このRエディタは保存できる。しかも超ひろい。だからいろんなコマンドをめっちゃ長く仕上げてしまうこともできるみたいだね。

ここではとりあえずpractice.R という名前で保存してみました。

をお作業ディレクトリに保存されるんだね。ふむふむ。
だいぶ分かってきたぜ。

Rの仕組みを理解したような気がしなくもない。

むむむ。
いろいろ調べたりつついたりしてみると少しずつイメージがわいてきた。

僕の理解が正しいかどうか分かんないが。まあ備忘録なので気にせずに書いてみよう。

まずは、このRの最初の難関は作業ディレクトリというヤツだ。
html言語などではフォルダの階層をまたいでファイルを読み込んだりするが、Rは基本的には統計をするための巨大な計算機だから、たちまち今の段階ではRの作業ディレクトリを一定にして、そのなかでなんやかんやとすればいいだろう。こ作業ディレクトリは机みたいなものかな。
多分、机の中でいろいろ同時に仕事することもあるだろうけど、僕はとりあえず一つの仕事しかできないだろうから、今後のことはおいおい考えよう。

ということでRを起動してどこかに机の場所を設定しなくては。
環境設定→起動 としたのが下の画面。
f:id:jigawa91:20110429233551j:image

ディレクトリの位置から、変更で指定のフォルダを選び(僕はデスクトップにRという名前のフォルダを作成)
チェックボックスは、常に適用(たぶんこれでいっつものこのフォルダの中で作業してくれるに違いない)。

んでようわからんけど、その下の起動時に履歴ファイルに読み込む。
.Rapp.history があるけど、これにもチェック。
historyという位なので、多分ログみたいなものでしょ。

ドットが最初にくると見えないんだよね。多分見えないけど、作業ディレクトリの中に残されているログみたいなもんだろうと推察。

よし。これでいったんRを終了しようとすると、こんなメッセージが。

f:id:jigawa91:20110429234202j:image

たぶん今までのプロセスを保存しているんじゃろうて。お願いしまーーす。

次に開いたときどんなんだろう。

Rを使ってみよっと。

せっかくインストールしたので、ちょっと触ってみよう。

アプリケーションフォルダにいろいろ入っちゃってるのでちょっと恥ずかしいが、見てみるとRが二つある。

f:id:jigawa91:20110429231216j:image:w640

これは64ビットバージョンらしいのであまり気にしなくていいみたい。

Snow Leopard はたちまち普通のRで大丈夫っぽいね。

これからよく使うようになったらという願いを込めてDockに追加してみた。

そしてRを起動

f:id:jigawa91:20110429231217j:image

こんな画面が出てきた。正直なにがなんやら意味わからんな。蕁麻疹でちゃいそう。ちょっと本読んで勉強しましょ。

Rのインストール

まずはRのインストールからやってみよう。

Rインストールでググってみると、Ripwikiってのが出て来ました。

僕はMacユーザーに最近なったばかりだから、Mac版をインストールしよっと。

 

なんかバイナリのないパッケージとか意味分からんこと書いてあるが気にせずに。
http://aoki2.si.gunma-u.ac.jp/R/begin.html をクリックします。

f:id:jigawa91:20110429224902j:image
いまんとこ日本語で書いてあるからなんとかなりそうなもんだ。

f:id:jigawa91:20110429224901j:image

言いなりになってミラーサイトまで行ってみます。
うん筑波大学いってみよ~

「!!」

つーかいきなり英語じゃん。英語嫌い。英語となすびが死ぬほど嫌い。

f:id:jigawa91:20110429224900j:image

まあでもたぶんこのMacOSって所でしょう。クリッククリック!

f:id:jigawa91:20110429224859j:image

ここのR-2.13.0.pkg (latest version)ここはインストールするたびに違うので注意が必要。

ということでとりあえずインストール完了!!

ふう。結構メモするの面倒くさいな。
まあ将来誰かに教えると思ってがんばろっと。

なぜ目標としてRを選んだか?

1 Rの拡張性 今までの統計解析にはSPSSを使用していたが、結局新しい手法などを取り入れようと思うとググって悩んで、シンタックスなどを利用してきた。プログラムとか結局よーわからんことをするくらいなら、最初からしっかり学んじゃおう。Rは新しい関数などがどんどん出てきておりカスタマイズもできる(みたい)だし、パッケージ化されてすぐ時代遅れになるかもしれないSPSSなんて大嫌いだ!!

2 Rはタダ タダより安いものはないと言われるが、研究費が自由に使えない貧乏人に取ってはこれはでかい。一般的に一番使いやすいと言われているSPSSなんて10万円。しかも、WindowsでもMacでもOSに依存せず使えちゃうというR。いつでもどこでも使えそうじゃん!

3 Rはなんかかっこいい やっぱりコマンドを書いたりしてるといかにもできる男って感じですな。というのは冗談で、しっかりした統計的な知識がないとRは使えこなせないハズ。これを機会にしっかり勉強し直そうではないか!

まあ無理のない範囲でがんばっていきます。

勉強会のメンバー紹介

大学教員daihiko 35歳
統計ソフトはSASを使用。
appleを愛し、Windowsを憎む。
SASだけのためにwindowsから離れられずにいる。

専門学校教員J 33歳
昨年、博士課程前期修了。現在は養成校の教員をしながら継続的に研究を重ねている。最近になってMacを購入し、Switchに四苦八苦している程度のPCの知識。

とこの2人でしばらく苦労した記録を記載していきます。

このブログについて

このたび、統計に関してはSPSSしかまともにつかったことないワタクシがRという統計ソフトの勉強会に参加することになった。
勉強会と名は着いているが、メンバーは2人。
正直まったくわからないまま手探り状態で始めているので、復習がてら葛藤や失敗を記録に止めておこうと思ってます。
なんの責任も持たず適当な内容なので、利用は自己責任で。
一緒に四苦八苦してくれるメンバーも募集してます。

また、明らかに間違った理解で話を進めていくときもあるので、詳しくて優しい人(優しくない人は見ないでね)はなにか気付きがありましたら是非コメントくださいね。