差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
mselab:2012:stat:week2 [2012/10/23 10:31] – [参考文献] watalumselab:2012:stat:week2 [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1
行 1: 行 1:
 === 概要 === === 概要 ===
  
-今週は+今週の実験の内容
  
-  * (「多変量解析」で学んだ人もいると思われる)回帰分析を用いたデータマイニング+  * 回帰分析を用いたデータマイニング
  
-が内容で、そのために+ある。3週間の流れがデータ分析(第1週)を行って、回帰分析によるモデル構築(第2週)、そして第3週他の手法を用いたモデル構築へと繋がるため、今週は[[http://kyoumu.office.uec.ac.jp/syllabus/2012/21/21_17123216.html|多変量解析]]との内容の重複を避けずおいた。また同科目の履修を前提としていないため、回帰分析の学習も自習内容として含めてある。
  
-  * Rコマンダーを用いた回帰分析の2つの課題(準備、練習に相当)+  * Rコマンダーを用いた回帰分析の2つの課題(自習、練習に相当)
   * 解析データを用いた1つの課題(本番)   * 解析データを用いた1つの課題(本番)
  
 に取り組んで貰う。 に取り組んで貰う。
 +
 +=== 実験の流れ ===
 +
 +  - 配付資料とRコマンダーを照らし合わせながら、出力される情報のどれが配付資料のどれに対応するのかを把握する
 +    * 回帰係数の推定値: Estimate
 +      * 切片: Intercept
 +    * 寄与率: R-Squared
 +    * 自由度調整済み寄与率
 +    * てこ比
 +    * 標準化残差
 +    * 変数増減法
 +  - 保険データの回帰分析、に取り組む (保険データの回帰分析)
 +    - 回帰係数の推定
 +    - 分散分析によるモデルの有意性の検討や回帰係数の有意性の検討
 +    - てこ比や標準化残差などの検討
 +    - 変数の増減
 +    - 以上を繰り返す
 +  - 回帰分析の結果に基づいて、訪問する顧客層を絞り込む (訪問ルールの作成)
 +  - 必要に応じて、保険データの回帰分析と訪問ルールの作成を繰り返す
 +
 +
 +
 === データの説明 === === データの説明 ===
 == TIC2000 == == TIC2000 ==
行 204: 行 226:
 x1 <- c(51,38,57,51,53,77,63,69,72,73) x1 <- c(51,38,57,51,53,77,63,69,72,73)
 x2 <- c(16,4,16,11,4,22,5,5,2,1) x2 <- c(16,4,16,11,4,22,5,5,2,1)
-y <- c(3.0,3.2,3.9,4.4,4.5,4.5,5.4,5.4,6.0+y <- c(3.0,3.2,3.3,3.9,4.4,4.5,4.5,5.4,5.4,6.0)
 data.2 <- data.frame(x1=x1,x2=x2,y=y) data.2 <- data.frame(x1=x1,x2=x2,y=y)
 rm(x1,x2,y) rm(x1,x2,y)
行 212: 行 234:
 <code> <code>
 Sys.setenv("http_proxy"="http://130.153.8.66:8080/") Sys.setenv("http_proxy"="http://130.153.8.66:8080/")
-データを読み込む。 +tic.learn <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
- +
-<code> +
-tic.leaan <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")+
 tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt") tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
 tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt") tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
行 261: 行 280:
  
   * 永田・棟近 (2001) [[http://www.saiensu.co.jp/?page=book_details&ISBN=ISBN978-4-7819-0980-6&YEAR=2001|多変量解析法入門]], サイエンス社   * 永田・棟近 (2001) [[http://www.saiensu.co.jp/?page=book_details&ISBN=ISBN978-4-7819-0980-6&YEAR=2001|多変量解析法入門]], サイエンス社
 +
 +=== サポート欄 ===
 +
 +  * data.2のyがひとつ足りなかったのを、追加しました。(1122a)
 +  * tic.learnというデータ名をtic.leaanとミスタイプしていたのを修正しました。(1122a)
 +  * インターネットに繋がらないパソコンを使っている人は、TAさんから次の2つのファイルを貰ってください。(1122a)
 +    * このWikiページのPDFファイル
 +    * ticdata2000.txt
 +  * 回帰分析の結果から標準化残差とテコ比の散布図を描くとき、配布資料では残差を標準化するのに、「残差の平方和を残差の自由度で割ったもの」を誤差分散の推定値としますが、Rでは「残差の標本分散」を誤差分散の推定値としています。第5章の例題では、それぞれ「残差平方和/7」と「残差平方和/9」ですので、Rが描く標準化残差のグラフはすべて、配布資料よりも9/7だけ原点から拡大されることになります。(0211p)
 +  * V1は使わないのがおすすめ。番号の順序に意味がなく、各コードごとの頻度を集計させると、次のようになるため。(0237p) <code>
 +> table(tic.learn$V1)
 +  1                  10  11  12  13  15  16  17  18  19  20 
 +124  82 249  52  45 119  44 339 278 165 153 111 179    16    19    25 
 + 21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39 
 + 15  98 251 180  82  48  50  25  86 118 205 141 810 182 214 225 132 339 328 
 + 40  41 
 + 71 205 
 +</code>
 +  * 保険商品ごとに難易度が異なります。V86が一番簡単。
 +
 +|V|0|1|2|3|4|5|6|
 +|V75|5426|382|14| | | | |
 +|V76|5529|173|100|11|8|1| |
 +|V77|5791|31| | | | | |
 +|V78|5784|38| | | | | |
 +|V79|5799|19|4| | | | |
 +|V80|2666|3017|126|7|3|2|1|
 +|V81|5819|3| | | | | |
 +|V82|5789|31|2| | | | | 
 +|V83|5675|111|34|2| | | |
 +|V84|5777|44|1| | | | |
  
 === 参考 === === 参考 ===