差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
mselab:2012:stat:week1:r2 [2012/12/04 01:36] – [レポート] watalumselab:2012:stat:week1:r2 [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1
行 1: 行 1:
 +==== 統計工学実験 第一週 ====
 === 前後関係 === === 前後関係 ===
  
行 43: 行 44:
  
 統計工学実験の第1週の目的は、品質管理の探索的データ解析法としてのQC7つ道具の用い方を、演習課題を通した疑似体験を通して学習することである。 統計工学実験の第1週の目的は、品質管理の探索的データ解析法としてのQC7つ道具の用い方を、演習課題を通した疑似体験を通して学習することである。
 +そしてその結果を、次週からの課題で用いるデータに適用する。
 +
 === 配付資料 === === 配付資料 ===
  
-  - 「統計工学第1週」(第1週の実験内容についてのメモ)+  - 「統計工学実験第1週」(第1週の実験内容についてのメモ、旧版)
   - 「講義内演習課題」(これの内容が終わったら、帰ってもいい)   - 「講義内演習課題」(これの内容が終わったら、帰ってもいい)
   - 「時間外演習課題 解析事例」(時間が余ったら、こっちも終わらせて帰るといい)   - 「時間外演習課題 解析事例」(時間が余ったら、こっちも終わらせて帰るといい)
   - 「データのとり方・まとめ方」(レポートの考察を書く際の参考資料になるかも、と配布した)   - 「データのとり方・まとめ方」(レポートの考察を書く際の参考資料になるかも、と配布した)
 +  - 「統計工学実験第1週QC7つ道具」 (プレゼンテーション形式の資料)
 +
 +
 === 参考資料 === === 参考資料 ===
  
   - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf|Rコマンダー入門]]   - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf|Rコマンダー入門]]
   - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Rinst.pdf|R,Rコマンダー,パッケージ・プラグインのインストール]]   - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Rinst.pdf|R,Rコマンダー,パッケージ・プラグインのインストール]]
 +
 +=== TICデータの説明 ===
 +== TIC2000 ==
 +
 +[[http://kdd.ics.uci.edu/databases/tic/tic.data.html|tic.data.txt]]からの要約。
 +
 +  * CoIL 2000 Challengeで用いられた保険会社の顧客に関するデータ。86個の変数は、契約状況(V44-V85)と社会人口統計学的な変数(V1-V43)を含んでいる。この調査は "Can you predict who would be interested in buying a caravan insurance policy and give an explanation why?" という問いに答えるように集められた。
 +  * このデータはオランダのデータマイニング会社Sentinent Machine Researchから提供され、現実のビジネスの問題に基づいている。学習用データ(ticdata2000.txt)は5000レコードでcaravan insurance policyの契約の有無(V86)を含んでおり、検証用データ(ticeval2000.txt)は4000レコードで契約の有無(V86)は含んでいない。検証用データの正解は、CoIL 2000 Challengeの開催時には公開されていなかったが、現在はテストデータ(tictest2000.txt)として公開されている。
 +  * V1-V43のうち、コード化が指定されていない変数はすべて、郵便番号の一桁目のエリアを指している。たとえばV30が9ならばその顧客は郵便番号が9で始まるエリアに家を借りていることを、V31が5ならば郵便番号が5のエリアに持ち家があることを意味する。職業、社会層などもすべて、該当するエリアの箇所が郵便番号の一桁目で埋まっている。
 +
 +== 変数 ==
 +
 +[[http://kdd.ics.uci.edu/databases/tic/dictionary.txt|dictionary.txt]]からの抜粋と要約、の日本語版。
 +
 +|変数|分類|メモ|
 +|V1|顧客分類2|L0でコード化されている、数字の大きさに意味なし|
 +|V2|住居数|大きいほど住む箇所が多い|
 +|V3|世帯構成員数の平均|人数|
 +|V4|世帯構成員の平均年齢|L1でコード化されている、年齢|
 +|V5|顧客分類1|L2でコード化されている、数字の大きさに意味なし|
 +|V6-V9|宗教|L3でコード化されている、V6+V7+V8+V9は9から12の間。それぞれの宗教を信じる割合?|
 +|V10-V13|結婚|場所を表す変数, 例えばV10が0ならば無し?|
 +|V14-V15|世帯の大きさ|L3でコード化されている、なぜかV14+V15は10以下。割合?|
 +|V16-V18|教育水準|L3でコード化されている、なぜかV16+V17+V18はほぼ10、それぞれの年数?割合?|
 +|V19-V24|職業|L3でコード化されている、なぜかV19+V20+V21+V22+V23+V24は9から13の間|
 +|V25-V29|社会層|L3でコード化されている、なぜかV25+V26+V27+V28+V29は9から12の間|
 +|V30-V31|住居|L3でコード化されている、なぜかV30+V31は9か10|
 +|V32-V34|自動車|L3でコード化されている、なぜかV32+V33+V34は9から11の間|
 +|V35-V36|健康保険|L3でコード化されている、なぜかV35+V36は9か10|
 +|V37-V41|収入|L3でコード化されている、なぜかV37+V38+V39+V40+V41は9から13の間|
 +|V42|平均収入|L3でコード化されている|
 +|V43|購買力|L3でコード化されている、1から8の間。|
 +|V44-V64|各種保険支払い額|L4でコード化|
 +|V65-V85|各種保険契約件数|件数|
 +
 +メモの確認用のコード。
 +
 +<code>
 +table((tic.learn$V16+tic.learn$V17+tic.learn$V18))
 +table((tic.learn$V19+tic.learn$V20+tic.learn$V21+tic.learn$V22+tic.learn$V23+tic.learn$V24))
 +table((tic.learn$V25+tic.learn$V26+tic.learn$V27+tic.learn$V28+tic.learn$V29))
 +table(tic.learn$V30+tic.learn$V31)
 +table(tic.learn$V32+tic.learn$V33+tic.learn$V34)
 +table(tic.learn$V35+tic.learn$V36)
 +table(tic.learn$V37+tic.learn$V38+tic.learn$V39+tic.learn$V40+tic.learn$V41)
 +</code>
 +
 +
 +== 各変数のコーディング ==
 +
 +L0:分類を表す数字なので、大小関係に意味がなく、名義尺度である。そのままでは説明変数にならない。
 +
 +|Value|Label|
 +|1|High Income, expensive child|
 +|2|Very Important Provincials|
 +|3|High status seniors|
 +|4|Affluent senior apartments|
 +|5|Mixed seniors|
 +|6|Career and childcare|
 +|7|Dinki's (double income no kids)|
 +|8|Middle class families|
 +|9|Modern, complete families|
 +|10|Stable family|
 +|11|Family starters|
 +|12|Affluent young families|
 +|13|Young all american family|
 +|14|Junior cosmopolitan|
 +|15|Senior cosmopolitans|
 +|16|Students in apartments|
 +|17|Fresh masters in the city|
 +|18|Single youth|
 +|19|Suburban youth|
 +|20|Etnically diverse|
 +|21|Young urban have-nots|
 +|22|Mixed apartment dwellers|
 +|23|Young and rising|
 +|24|Young, low educated |
 +|25|Young seniors in the city|
 +|26|Own home elderly|
 +|27|Seniors in apartments|
 +|28|Residential elderly|
 +|29|Porchless seniors: no front yard|
 +|30|Religious elderly singles|
 +|31|Low income catholics|
 +|32|Mixed seniors|
 +|33|Lower class large families|
 +|34|Large family, employed child|
 +|35|Village families|
 +|36|Couples with teens 'Married with children'|
 +|37|Mixed small town dwellers|
 +|38|Traditional families|
 +|39|Large religous families|
 +|40|Large family farms|
 +|41|Mixed rurals|
 +
 +L1:大きさが年齢の順なので、そのまま説明変数に使える。
 +
 +|1|20-30 years|
 +|2|30-40 years|
 +|3|40-50 years|
 +|4|50-60 years|
 +|5|60-70 years|
 +|6|70-80 years|
 +
 +L2:数字は分類を表すだけなので、連続尺度でも順序尺度でもなく、名義尺度。そのままでは説明変数にならない。
 +
 +|1|Successful hedonists|
 +|2|Driven Growers|
 +|3|Average Family|
 +|4|Career Loners|
 +|5|Living well|
 +|6|Cruising Seniors|
 +|7|Retired and Religeous|
 +|8|Family with grown ups|
 +|9|Conservative families|
 +|10|Farmers|
 +
 +L3:順序尺度。このまま連続尺度の説明変数として用いる。
 +
 +|0|0%|
 +|1|1 - 10%|
 +|2|11 - 23%|
 +|3|24 - 36%|
 +|4|37 - 49%|
 +|5|50 - 62%|
 +|6|63 - 75%|
 +|7|76 - 88%|
 +|8|89 - 99%|
 +|9|100%|
 +
 +L4: 順序尺度。今回はこのまま連続尺度の変数として用いる。
 +
 +|0|f 0|
 +|1|f 1 - 49|
 +|2|f 50 - 99|
 +|3|f 100 - 199|
 +|4|f 200 - 499|
 +|5|f 500 - 999|
 +|6|f 1000 - 4999|
 +|7|f 5000 - 9999|
 +|8|f 10.000 - 19.999|
 +|9|f 20.000 - ?|
 +
 +
 +=== TICデータの読み込み ===
 +
 +保険データの読み込みは、Rに次の命令を実行させてから、Rコマンダーを起動するとよい。
 +
 +<code>
 +Sys.setenv("http_proxy"="http://130.153.8.66:8080/")
 +tic.learn <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
 +tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
 +tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
 +tic.eval <- cbind(tic.eval, tic.test)
 +colnames(tic.eval)[86] <- "V86"
 +rm(tic.test)
 +</code>
 +
 +あとはRコマンダーで、tic.learnについて分析を進める。
 +
 +<code>
 +library(Rcmdr)
 +</code>
 +
 +== 参考 ==
 +
 +kernlabパッケージに、加工済みのデータが入っていて、それを使うこともできる。
 +
 +<code>
 +install.packages(c("kernlab"), dependencies=TRUE)
 +tic.learn <- ticdata[1:5822,]
 +tic.eval <- ticdata[5823:9822,]
 +</code>
  
 === 講義内演習 === === 講義内演習 ===
  
-  - R言語のインストール+  - R言語のインストール (インストール済みのPCでは、この作業はパスできる)
     * [[http://cran.r-project.org/|CRAN]]からRのダウンロードとインストール。     * [[http://cran.r-project.org/|CRAN]]からRのダウンロードとインストール。
     * インストールしたのRのショートカットをデスクトップに作成し、"--sdi"というオプションつきで起動するように編集する     * インストールしたのRのショートカットをデスクトップに作成し、"--sdi"というオプションつきで起動するように編集する
行 89: 行 268:
 === 時間外演習 === === 時間外演習 ===
  
-  - 「講義内演習課題」と「データのとり方・まとめ方」に則して、考察を付記する。「講義内演習課題」に記されていない考察は、強調して記すこと+  - 「講義内演習課題」と「データのとり方・まとめ方」に則して、考察を付記する。「講義内演習課題」に記されていない考察は、強調して記すこと
   - 調べてまとめる (宿題)   - 調べてまとめる (宿題)
     * 層別     * 層別
     * QCストーリー、QCストーリーとQC7つ道具の関係     * QCストーリー、QCストーリーとQC7つ道具の関係
     * 管理図の種類、作り方、読み方     * 管理図の種類、作り方、読み方
-  - 「時間外演習課題 解析事例」の各種グラフの再現(管理図含む)と、記載されている考察のグラフを見ながらの確認と、この事例のストーリー以外の可能性の検討(技術的詳細を調べる、あるいは想像するなど)+  - <del>「時間外演習課題 解析事例」の各種グラフの再現(管理図含む)と、記載されている考察のグラフを見ながらの確認と、この事例のストーリー以外の可能性の検討(技術的詳細を調べる、あるいは想像するなど)</del> TICデータのV1-V43のQC7つ道具+αでの分析 
  
 === レポート === === レポート ===
行 101: 行 281:
  
 ^項目^指定^ ^項目^指定^
-|提出期限|実験実施の翌週の月曜日の午後6時00分まで|+|提出期限|次回の実験実施前日(月曜日)の午後6時00分まで (←よく寝て欲しいから、変えました)|
 |提出方法|電子メールに添付 (宛先は配付資料に記載)| |提出方法|電子メールに添付 (宛先は配付資料に記載)|
 |ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)| |ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)|
-|メールの件名|統計工学実験1レポート提出(XXXXXXX)| +|メールの件名|統計実験1レポート提出(XXXXXXX)| 
-|レポートファイルの名称|統計工学実験1_XXXXXXX.doc あるいは 統計工学実験1_XXXXXXX.docx|+|レポートファイルの名称|統計実験1_XXXXXXX.doc あるいは 統計実験1_XXXXXXX.docx|
 |提出部数|レポートは各自1通ずつ。{{:mselab:report-header-2012.doc|レポートの表紙}}に、共同実験者の学籍番号と氏名を記すこと。| |提出部数|レポートは各自1通ずつ。{{:mselab:report-header-2012.doc|レポートの表紙}}に、共同実験者の学籍番号と氏名を記すこと。|
  
行 119: 行 299:
     * qccをインストールすると、RcmdrPlugin.QCtoolsでパレート図が描けるようになる。     * qccをインストールすると、RcmdrPlugin.QCtoolsでパレート図が描けるようになる。
     * すべてをインストールすると、日本語を含むデータファイルをメニューで読み込めた、という例がある。     * すべてをインストールすると、日本語を含むデータファイルをメニューで読み込めた、という例がある。
 +    * Rの2.13.0もしくはそれより前のバージョンを用いれば、不具合が解消されるとのこと。(むしろRコマンダーのmultilingualな対応が、2.13.1以降に追いついていない、とも)
 +  * 10月実施の班では必要なソフトウェアのダウンロードとインストールを、実験中に各自が行うこととしたが、その翌週以降、約2週間以上、ネットワーク機器の障害が発生した。念のため、12月実施の班では多くのペアでその作業が不要となるよう、アンインストールせずにそのままにしてある。