差分

このページの2つのバージョン間の差分を表示します。

--- mselab:2012:stat [2012/10/23 00:56] – [第2週:多変量解析] watalu
+++ mselab:2012:stat [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1
@@ 行 2: / 行 2: @@
 ==== 第1週:QC7つ道具でデータ解析 ====
-=== 前後関係 ===
+第1週の内容は[[mselab:2012:stat:week1:r2|week:r2]]に移した。(最初の班への内容は[[mselab:2012:stat:week1:r1|week1:r1]])
-まず日本の品質管理の領域では
-  * PDCAサイクル
-    * Plan
-    * Do
-    * Check
-    * Act
-が改善の基本行動パターンとして徹底して用いられる。PDCAでそして
-  * QCストーリー
-    * 問題解決型QCストーリー
-    * 課題達成型QCストーリー
-が問題解決に関するコミュニケーションのポピュラーなテンプレートとして、それぞれ用いられている。QCストーリーは問題解決のフローチャートでもあり、1度にストーリーを問題設定から水平展開・今後の課題まで直行できる訳はなく、そこここで小さなPDCAサイクルを回しつつ、中ぐらい、大きなPDCAも回すことになる。ただ成果発表は、このテンプレートで行われるのが通例である。
-QCストーリーに則して説明される問題解決や改善において、日常的に用いる現状把握や問題の解析手法には大きく、
-  * QC7つ道具:
-    * グラフ
-    * ヒストグラム
-    * 管理図
-    * チェックシート
-    * パレート図
-    * 特性要因図 (cause and effect diagram)
-    * 散布図
-    * 層別
-  * 新QC7つ道具
-    * 親和図法
-    * 連関図
-    * 系統図
-    * マトリックス図
-    * マトリックス・データ解析法
-    * 過程決定計画図法(PDPC法)
-    * アロー・ダイヤグラム法
-の2つのセットがある。互いに、QC7つ道具が基本で、新QC7つ道具が少し高度、といった位置づけである。
-幾つかのシンプルな統計的データ手法と問題解析手法を徹底して使い込むのが、品質管理における現状把握や問題の解析の基本姿勢である。
-また現場のエンジニアが自ら、データの収集、現状把握、問題の解析、状況改善や問題の解決に取り組むこと、そして歯止めや水平展開まで必ず取り組むこと、が日本の産業界の大きな特徴であり、強みである。
-QC7つ道具も新QC7つ道具も、問題解決法と合わせて初めて、これらの名称を持つのであり、手法のみを教育すると、他の名称を持つ酷似した手法との区別が付きにくくなる。
-統計工学実験の第1週の目的は、品質管理の探索的データ解析法としてのQC7つ道具の用い方を、演習課題を通した疑似体験を通して学習することである。
-=== 配付資料 ===
-  - 「統計工学第1週」(第1週の実験内容についてのメモ)
-  - 「講義内演習課題」(これの内容が終わったら、帰ってもいい)
-  - 「時間外演習課題　解析事例」(時間が余ったら、こっちも終わらせて帰るといい)
-  - 「データのとり方・まとめ方」(レポートの考察を書く際の参考資料になるかも、と配布した)
-=== 参考資料 ===
-  - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf|Rコマンダー入門]]
-  - [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Rinst.pdf|R,Rコマンダー,パッケージ・プラグインのインストール]]
-=== 講義内演習 ===
-  - R言語のインストール
-    * [[http://cran.r-project.org/|CRAN]]からRのダウンロードとインストール。
-    * インストールしたのRのショートカットをデスクトップに作成し、"--sdi"というオプションつきで起動するように編集する
-      - インストールしたフォルダの中でRgui.exeを見つける。
-      - Rgui.exeのショートカットをデスクトップに作成する。(作成してから移動してもいい)
-      - 「Rgui.exeのショートカット」という名称を「実験用R」と変更しておくと、既にインストール済みだったRと区別がつく。
-      - ショートカットを右クリックし、プロパティを表示させ、「リンク先」の中の「"C:\.....bin\i386\Rgui.exe"」を「"C:\...\Rwin.exe --sdi"」と変更しておくと良い。
-    * パッケージをインストールするために、Rの中でプロキシを設定する。 <code>Sys.setenv("http_proxy"="http://130.153.8.66:8080/")</code>
-    * Rの拡張パッケージ(RコマンダーとRコマンダーのプラグインとRコマンダーが必要とするパッケージ)のインストール。ドキュメントにはメニューから・・・とあるが、Rのコマンドラインから次の命令をを実行すれば済む(はず)。<code>install.packages(pkgs=c("Rcmdr"),dependencies=TRUE)
-install.packages(pkgs=c("RcmdrPlugin.FactoMineR","FactoMineR"),dependencies=TRUE
-install.packages(pkgs=c("RcmdrPlugin.HH","HH","car","multcomp","leaps","lattice","grid","grDevices"),dependencies=TRUE)
-install.packages(pkgs=c("RcmdrPlugin.TeachingDemos","TeachingDemos","tkrplot"),dependencies=TRUE)
-install.packages(pkgs=c("mgcv","abind","rgl","vcd"),dependencies=TRUE)
-install.packages(pkgs=c("RcmdrPlugin.qcc","qcc"),dependencies=TRUE)
-install.packages(pkgs=c("DAAG","HSAUR","Hmisc","MASS"),dependencies=TRUE)
-install.packages(pkgs=c("abind","alr3","asuR","ca","effects"),dependencies=TRUE)
-install.packages(pkgs=c("faraway","ggm","homals","lmtest"),dependencies=TRUE)
-install.packages(pkgs=c("mda","mvtnorm","qAnalyst"),dependencies=TRUE)
-install.packages(pkgs=c("relimp","sandwich","strucchange","vcd","zoo"),dependencies=TRUE)</code>
-    * [[http://www.ec.kansai-u.ac.jp/user/arakit/RcmdrPlugin.QCtools.html|RコマンダーのQC7つ道具プラグイン]]のインストール。
-    * [[http://www.ec.kansai-u.ac.jp/user/arakit/RQC7bookdata.zip|データ]]のダウンロード。
-  - RコマンダーのQC7つ道具プラグイン(パレート図、グラフ、ヒストグラム、散布図)を使ってみる。
-    * R 2.13.0以降では、Rコマンダーで日本語を含むデータファイルを読み込むことができないことがある。[[http://www.ec.kansai-u.ac.jp/user/arakit/documents/clipboard.pdf|ここにある手順]]に従って、CSVファイルをExcelで開いて、コピーしてクリップボード経由でインポートすることになる。ご不便をおかけして申し訳ない。上のパッケージをすべてインストールした後に、日本語を含むファイルの読み込みに成功する場合があることが分かっている。
-    * グラフの持ち帰り方法には主に次の2つがある。
-      * 描画したグラフの上で右クリックをして表示されるメニューで、「メタファイルに保存」(Word等で再利用する場合)か「ポストスクリプトファイルに保存」(LaTeXで再利用する場合)を選ぶ。グラフ1枚ごとに1ファイル保存し、すべて保存し終わったら、圧縮フォルダなどを作成して持ち帰ることになる。
-      * 描画したグラフの上で右クリックをして表示去れるメニューで、「メタファイルにコピー」を選び、Wordなどに「貼り付け(P)」る。すべてのグラフを1つのWordファイルに入れて持ち帰ることになる。
-    * ファイルの持ち帰り方法には主に次の2つがある。持ち帰ったファイルを再び実験室で必要とすることは、たぶんない。
-      * ブラウザで自分のウェブメールにログインし、ファイルを添付して送付する (ブラウザで利用できるGoogle Driveなどのオンラインストレージサービス、宅ふぁいる便などのファイル送信サービスもあり得る)
-      * 自分のUSBメモリに、ファイルをコピーして持ち帰る
-  - 「講義内演習課題」の事例に沿って、各種のグラフを作成する (グラフは表示させたら、右クリックで保存できるので、JPEGないしEPSで保存すると良い)
-=== 時間外演習 ===
-  - 「講義内演習課題」と「データのとり方・まとめ方」に則して、考察を付記する。「講義内演習課題」に記されていない考察は、強調して記すこと
-  - 調べてまとめる (宿題)
-    * 層別
-    * QCストーリー、QCストーリーとQC7つ道具の関係
-    * 管理図の種類、作り方、読み方
-  - 「時間外演習課題 解析事例」の各種グラフの再現(管理図含む)と、記載されている考察のグラフを見ながらの確認と、この事例のストーリー以外の可能性の検討(技術的詳細を調べる、あるいは想像するなど)
-=== レポート ===
-レポート提出要領:下記「XXXXXXX」は各自の学籍番号(半角文字)で置き換えること
-^項目^指定^
-|提出期限|実験実施の翌週の火曜日の午前10時30分まで|
-|提出方法|電子メールに添付 (宛先は配付資料に記載)|
-|ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)|
-|メールの件名|統計工学実験1レポート提出(XXXXXXX)|
-|レポートファイルの名称|統計工学実験1_XXXXXXX.doc あるいは 統計工学実験1_XXXXXXX.docx|
-|提出部数|レポートは各自1通ずつ。{{:mselab:report-header-2012.doc|レポートの表紙}}に、共同実験者の学籍番号と氏名を記すこと。|
-=== 参考資料 ===
-  * 荒木孝治・編著 (2009) [[http://bit.ly/RQC7toolsBkEd2|フリーソフトウェアRによる統計的品質管理入門 第2版]]
-=== サポート欄 ===
-  * 経営情報学実験室について、[[mselab:2012:309|簡単なメモ]]を起草した。
-  * Rコマンダーについて、[[http://appl.stat.inf.uec.ac.jp/dokuwiki.php?id=r:how_to:r_commander|簡単なメモ]]が見つかった。Macユーザは注意が必要。
-  * RとRcmdrとその他のパッケージの組み合わせで、日本語の扱いについて不具合が生じている。
-    * qccをインストールすると、RcmdrPlugin.QCtoolsでパレート図が描けるようになる。
-    * すべてをインストールすると、日本語を含むデータファイルをメニューで読み込めた、という例がある。
 ==== 第2週:多変量解析 ====
-=== データの説明 ===
-== TIC2000 ==
-[[http://kdd.ics.uci.edu/databases/tic/tic.data.html|tic.data.txt]]からの要約。
-  * CoIL 2000 Challengeで用いられた保険会社の顧客に関するデータ。86個の変数は、契約状況(V44-V85)と社会人口統計学的な変数(V1-V43)を含んでいる。この調査は "Can you predict who would be interested in buying a caravan insurance policy and give an explanation why?" という問いに答えるように集められた。
-  * このデータはオランダのデータマイニング会社Sentinent Machine Researchから提供され、現実のビジネスの問題に基づいている。学習用データ(ticdata2000.txt)は5000レコードでcaravan insurance policyの契約の有無(V86)を含んでおり、検証用データ(ticeval2000.txt)は4000レコードで契約の有無(V86)は含んでいない。検証用データの正解は、CoIL 2000 Challengeの開催時には公開されていなかったが、現在はテストデータ(tictest2000.txt)として公開されている。
-  * V1-V43のうち、コード化が指定されていない変数はすべて、郵便番号の一桁目のエリアを指している。たとえばV30が9ならばその顧客は郵便番号が9で始まるエリアに家を借りていることを、V31が5ならば郵便番号が5のエリアに持ち家があることを意味する。職業、社会層などもすべて、該当するエリアの箇所が郵便番号の一桁目で埋まっている。
-== 変数 ==
-[[http://kdd.ics.uci.edu/databases/tic/dictionary.txt|dictionary.txt]]からの抜粋と要約、の日本語版。
-|変数|分類|メモ|
-|V1|顧客分類２|L0でコード化されている、数字の大きさに意味なし|
-|V2|住居数|大きいほど住む箇所が多い|
-|V3|世帯構成員数の平均|人数|
-|V4|世帯構成員の平均年齢|L1でコード化されている、年齢|
-|V5|顧客分類１|L2でコード化されている、数字の大きさに意味なし|
-|V6-V9|宗教|L3でコード化されている、V6+V7+V8+V9は9から12の間。それぞれの宗教を信じる割合？|
-|V10-V13|結婚|場所を表す変数, 例えばV10が0ならば無し？|
-|V14-V15|世帯の大きさ|L3でコード化されている、なぜかV14+V15は10以下。割合？|
-|V16-V18|教育水準|L3でコード化されている、なぜかV16+V17+V18はほぼ10、それぞれの年数？割合？|
-|V19-V24|職業|L3でコード化されている、なぜかV19+V20+V21+V22+V23+V24は9から13の間|
-|V25-V29|社会層|L3でコード化されている、なぜかV25+V26+V27+V28+V29は9から12の間|
-|V30-V31|住居|L3でコード化されている、なぜかV30+V31は9か10|
-|V32-V34|自動車|L3でコード化されている、なぜかV32+V33+V34は9から11の間|
-|V35-V36|健康保険|L3でコード化されている、なぜかV35+V36は9か10|
-|V37-V41|収入|L3でコード化されている、なぜかV37+V38+V39+V40+V41は9から13の間|
-|V42|平均収入|L3でコード化されている|
-|V43|購買力|L3でコード化されている、1から8の間。|
-|V44-V64|各種保険支払い額|L4でコード化|
-|V65-V85|各種保険契約件数|件数|
-メモの確認用のコード。
-<code>
-table((tic.learn$V16+tic.learn$V17+tic.learn$V18))
-table((tic.learn$V19+tic.learn$V20+tic.learn$V21+tic.learn$V22+tic.learn$V23+tic.learn$V24))
-table((tic.learn$V25+tic.learn$V26+tic.learn$V27+tic.learn$V28+tic.learn$V29))
-table(tic.learn$V30+tic.learn$V31)
-table(tic.learn$V32+tic.learn$V33+tic.learn$V34)
-table(tic.learn$V35+tic.learn$V36)
-table(tic.learn$V37+tic.learn$V38+tic.learn$V39+tic.learn$V40+tic.learn$V41)
-</code>
-== 各変数のコーディング ==
-L0:分類を表す数字なので、大小関係に意味がなく、名義尺度である。そのままでは説明変数にならない。
-|Value|Label|
-|1|High Income, expensive child|
-|2|Very Important Provincials|
-|3|High status seniors|
-|4|Affluent senior apartments|
-|5|Mixed seniors|
-|6|Career and childcare|
-|7|Dinki's (double income no kids)|
-|8|Middle class families|
-|9|Modern, complete families|
-|10|Stable family|
-|11|Family starters|
-|12|Affluent young families|
-|13|Young all american family|
-|14|Junior cosmopolitan|
-|15|Senior cosmopolitans|
-|16|Students in apartments|
-|17|Fresh masters in the city|
-|18|Single youth|
-|19|Suburban youth|
-|20|Etnically diverse|
-|21|Young urban have-nots|
-|22|Mixed apartment dwellers|
-|23|Young and rising|
-|24|Young, low educated |
-|25|Young seniors in the city|
-|26|Own home elderly|
-|27|Seniors in apartments|
-|28|Residential elderly|
-|29|Porchless seniors: no front yard|
-|30|Religious elderly singles|
-|31|Low income catholics|
-|32|Mixed seniors|
-|33|Lower class large families|
-|34|Large family, employed child|
-|35|Village families|
-|36|Couples with teens 'Married with children'|
-|37|Mixed small town dwellers|
-|38|Traditional families|
-|39|Large religous families|
-|40|Large family farms|
-|41|Mixed rurals|
-L1:大きさが年齢の順なので、そのまま説明変数に使える。
-|1|20-30 years|
-|2|30-40 years|
-|3|40-50 years|
-|4|50-60 years|
-|5|60-70 years|
-|6|70-80 years|
-L2:数字は分類を表すだけなので、連続尺度でも順序尺度でもなく、名義尺度。そのままでは説明変数にならない。
-|1|Successful hedonists|
-|2|Driven Growers|
-|3|Average Family|
-|4|Career Loners|
-|5|Living well|
-|6|Cruising Seniors|
-|7|Retired and Religeous|
-|8|Family with grown ups|
-|9|Conservative families|
-|10|Farmers|
-L3:順序尺度。このまま連続尺度の説明変数として用いる。
-|0|0%|
-|1|1 - 10%|
-|2|11 - 23%|
-|3|24 - 36%|
-|4|37 - 49%|
-|5|50 - 62%|
-|6|63 - 75%|
-|7|76 - 88%|
-|8|89 - 99%|
-|9|100%|
-L4: 順序尺度。今回はこのまま連続尺度の変数として用いる。
-|0|f 0|
-|1|f 1 - 49|
-|2|f 50 - 99|
-|3|f 100 - 199|
-|4|f 200 - 499|
-|5|f 500 - 999|
-|6|f 1000 - 4999|
-|7|f 5000 - 9999|
-|8|f 10.000 - 19.999|
-|9|f 20.000 - ?|
-== 参考 ==
-kernlabパッケージに、加工済みのデータが入っていて、それを使うこともできる。
-<code>
-install.packages(c("kernlab"), dependencies=TRUE)
-tic.learn <- ticdata[1:5822,]
-tic.eval <- ticdata[5823:9822,]
-</code>
-=== 今回の課題 ===
-== 概要 ==
-  * 重回帰分析を用いて、ある保険商品の契約に関する予測式を構築せよ。
-== 準備 ==
-<code>
-library(MASS)
-</code>
-この課題ではMASSライブラリのみ、使う可能性がある。
-== データの読み込み ==
-<code>
-tic.leaan <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
-tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
-tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
-tic.eval <- cbind(tic.eval, tic.test)
-colnames(tic.eval)[86] <- "V86"
-rm(tic.test)
-</code>
-== 少し加工する ==
-以下の6行は、実行しない方がいい場合もある。
-<code>
-tic.learn$V1 <- as.factor(tic.learn$V1)
-tic.learn$V5 <- as.factor(tic.learn$V5)
-tic.learn$V86 <- as.factor(tic.learn$V86)
-tic.eval$V1 <- as.factor(tic.eval$V1)
-tic.eval$V5 <- as.factor(tic.eval$V5)
-tic.eval$V86 <- as.factor(tic.eval$V86)
-</code>
-あとはそのまま。
-== 考えたルールに基づく対象限定 ==
-各変数に閾値を設けてルールを生成したとする。
-たとえば、「V47が5.5以上かつV44が1未満」または「V47が5.5以上かつV1が{1,3,6,8,12,20}のどれか」、というルールは
-次のように記す。
-<code>
-(tic.eval$V47>5.5 & tic.eval$V44<1) | (tic.eval$V47>5.5 & (tic.eval$V1==1 |tic.eval$V1==3 | tic.eval$V1==6 | tic.eval$V1==8 | tic.eval$V1==12 | tic.eval$V1==20) )
-</code>
-「&」が「かつ(AND)」、「|」が「または(OR)」である。
-このルールを検証用データに適用するには、
-<code>
-tic.eval.visit <- (tic.eval$V47>5.5 & tic.eval$V44<1) | (tic.eval$V47>5.5 & (tic.eval$V1==1 |tic.eval$V1==3 | tic.eval$V1==6 | tic.eval$V1==8 | tic.eval$V1==12 | tic.eval$V1==20) )
-</code>
-と、訪問するか否かを二値(TRUE, FALSE)で表すオブジェクトを生成する。
-このモデルに予測に基づいた訪問の成果を検証するには、訪問対象のリストtic.visitと検証用データの正解V86のクロス集計を行えばよい。
-<code>
-table(tic.eval.visit)
-FALSE  TRUE
-   971
-table(tic.eval.visit, tic.eval$V86)
-tic.eval.visit    0    1
-         FALSE 2878  151
-         TRUE   884   87
-</code>
-ここでは、訪問対象に884+87=971人を選定し、そのうちの87人が実際に契約してくれる人だったことになる。
-契約率は87/971=8.96%。また誤判別率は
-<code>
-(884+151)/4000
-</code>
-で25.9%となる。
-== モデルに基づく対象限定 ==
-学習したモデルに基づいて、訪問対象を狭めるには、predict()という関数を用いて、訪問対象か否かというリストを作成する。
-まず、設定まで調整したモデルを、学習用データ(tic.learn)から得る。
-<code>
-tic.rpart <- rpart(V86~., data=tic.learn, control=c(cp=0.005))
-</code>
-次に、このモデル(ここではtic.rpart)を検証用データ(tic.eval)に適用して、契約してくれるか否かの予測を行う。
-この際、0.05という閾値も調整の必要がある。
-<code>
-tic.eval.visit <- predict(tic.rpart, newdata=tic.eval)[,2]>0.05
-</code>
-このモデルに予測に基づいた訪問の成果を検証するには、訪問対象のリストtic.visitと検証用データの正解V86のクロス集計を行えばよい。
-<code>
-table(tic.eval.visit)
-tic.eval.visit
-FALSE  TRUE
-  1611
-table(tic.eval.visit, tic.eval$V86)
-tic.eval.visit    0    1
-         FALSE 2310   79
-         TRUE  1452  159
-</code>
-ここでは、訪問対象に1452+159=1611人を選定し、そのうちの159人が実際に契約してくれる人だったことになる。契約率は159/1452=11.0%。
-また誤判別率は
-<code>
-(79+1452)/4000
-</code>
-で38.275%となる。
-== 想定される困難 ==
-次の1行を実行すると、かなり時間がかかってエラーになる。
-<code>
-tic.glm.step <- step(glm(V86~., family="binomial", data=tic.learn)
-</code>
-次の４行、いずれもエラーになる。変数間の関係が悪すぎるよう。変数の意味を考えて、追加しないといけないかも。
-<code>
-tic.glm <- glm(V86~V1+V2+V3+V4+V5+V6+V7+V8+   V10+
-V11+V12+    V14+    V16+V17+    V19+V20+
-V21+V22+V23+    V25+V26+V27+V28+    V30+
-        V33+V34+V35+    V37+V38+V39+V40+
-    V42+V43+V44+V45+V46+V47+V48+V49+V50+
-V51+V52+V53+V54+V55+V56+V57+V58+V59+V60+
-V61+V62+V63+V64+V65+V66+V67+V68+V69+V70+
-V71+V72+V73+V74+V75+V76+V77+V78+V79+V80+
-V81+V82+V83+V84+V85, family="binomial", data=tic.learn)
-table(predict(tic.glm, newdata=tic.eval)>0.5)
-</code>
-<code>
-tic.glm <- glm(V86~     V2+V3+V4+    V6+V7+V8+   V10+
-V11+V12+    V14+    V16+V17+    V19+V20+
-V21+V22+V23+    V25+V26+V27+V28+    V30+
-        V33+V34+V35+    V37+V38+V39+V40+
-    V42+V43+V44+V45+V46+V47+V48+V49+V50+
-V51+V52+V53+V54+V55+V56+V57+V58+V59+V60+
-V61+V62+V63+V64+V65+V66+V67+V68+V69+V70+
-V71+V72+V73+V74+V75+V76+V77+V78+V79+V80+
-V81+V82+V83+V84+V85, family="binomial", data=tic.learn)
-</code>
-<code>
-tic.glm <- glm(V86~V44+V45+V46+V47+V48+V49+V50+
-V51+V52+V53+V54+V55+V56+V57+V58+V59+V60+
-V61+V62+V63+V64+V65+V66+V67+V68+V69+V70+
-V71+V72+V73+V74+V75+V76+V77+V78+V79+V80+
-V81+V82+V83+V84+V85, family="binomial", data=tic.learn)
-</code>
-<code>
-tic.glm <- glm(V86~V44+V45+V46+V47+V48+V49+V50+
-V51+V52+V53+V54+V55+V56+V57+V58+V59+V60+
-V61+V62+V63+V64, family="binomial", data=tic.learn)
-</code>
+第2週の内容は[[mselab:2012:stat:week2:r2|week:r2]]にある。 (最初の班への内容は[[mselab:2012:stat:week2|week2:r1]])
 ==== 第3週:データマイニング ====
-  * R言語
+第３週の内容は[[mselab:2012:stat:week3:r2|week3:r2]]に記した。 (最初の班への内容は[[mselab:2012:stat:week3|week3:r1]])

mselab/2012/stat.1350921401.txt.gz · 最終更新: 2012/10/23 00:00 (外部編集)

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

差分

サイト用ツール

ページ用ツール

ユーザ用ツール

差分