さて、ここからは個人属性をどのようにいじったらよいかを七転八倒しよう。
まずは、Workspaceの中のindividualをクリックして変数を確認。
このダミーデータは、性別、年齢、職種、勤務形態、配偶者の有無、従業員数から成っている。
この中で、カテゴリカルデータは、性別、職種、勤務形態、配偶者の有無の4つ。
まずは、性別を入力。
カテゴリカルデータの定義付けは前のエントリでやっています。
http://d.hatena.ne.jp/jigawa91/20110507/1304748056
今回も性別と配偶者はざっくりとうまくいきました。
コマンドはこちら。
individual$sex<-factor(individual$sex,levels=0:1,labels=c(“male”,”female”))
individual$Spouse<-factor(individual$Spouse,levels=0:1,labels=c(“nothing”,”exisit”))
ちょっと悩んだのは、職種。今回のダミーデータでは、1が営業、2が技術、3が事務というように分類していたのだけど、1から始める場合には、labelsのところを省略しないとうまくいきませんでした。(@kosugitti先生に感謝)
コマンドはこちら。
individual$job<-factor(individual$job,labels=c(“Operating”,”Engineering”,”Clerical”))
#レベルが1から順にはじまっていたら,lebels=1:3は省略可能。職種。
これもうまくいきました。
勤務形態については、0、日勤のみ、1まれに夜勤、2、2交代、3、3交代 これらはしんどさの度合いで順序付けしているけど、等間隔ではないので、順序尺度として定義しました。
コマンドはこちら。
individual$jobstyle<-factor(individual$jobstyle,levels=0:3,labels=c(“daywork”,”rarenightwork”,”twoshifts”,”threeshift”),ordered=TRUE)
#勤務体系。順序変数(夜勤負担が大きい順番)として定義。
これもなんとなくうまく行ってるような気がする。。
っということで、確認のためにstr()を使ってみる。
これは、SPSSでいうデータの型が分かる関数。
factorはカテゴリカルデータ、intは数字データ、Ord.factorは順序変数になっていると確認することができた。
試しにsummary()を使ってみると??
カテゴリカルデータは、度数で表示、数字データは平均値等が出てくる。
psychパッケージのdescribe関数を使うともう少し丁寧に出てきます。
米印はカテゴリカルデータとして認識してくれているみたい。
ここまで済んで、Workspaceのデータフレームをクリックすると、ここもうまくいっているみたい。
今日はここまで。飲みながらなので誤字があったら指摘してください。。