差分

このページの2つのバージョン間の差分を表示します。

--- mselab:2012:stat:week3 [2012/10/30 09:43] – [課題] watalu
+++ mselab:2012:stat:week3 [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1
@@ 行 4: / 行 4: @@
   - まずはタイタニック号のデータを用いて、各種学習機械の使い方と学習結果の読み方を学ぶ。
   - 次に前回と同じ保険のデータを3種類の学習機械を用いて分析し、保険の営業方針を立案する。
+=== 準備 ===
+<code>
+Sys.setenv("http_proxy"="http://130.153.8.66:8080/")
+install.packages(c("mvpart", "kernlab", "), dependencies=TRUE)
+</code>
+これでエラーが出る場合には、[[https://appl.stat.inf.uec.ac.jp/doku.php?id=r:how_to:internet_proxy|プロキシの設定]]を試みると良い。
+<code>
+library(mvpart)
+library(MASS)
+library(kernlab)
+</code>
+以上の3つのライブラリを、この課題では使う可能性がある。
+== 緊急パッチ ==
+mvpartのインストールについて。
+  * まず{{:mselab:2012:stat:mvpart_1.6-0.zip|mvpart_1.6-0.zip}}をダウンロードして、どこかに保存する。(デスクトップ推奨)
+  * Rのメニューで〔パッケージ〕→〔ローカルにあるzipファイルからのパッケージのインストール〕を選ぶ。
+  * 「Select files」という子ウィンドウが出てくるので、保存したmvpart_1.6-0.zipというファイルを指定して、〔開く(O)〕をクリックする。
+で対応して欲しい。同様のことを、{{:mselab:2012:stat:kernlab_0.9-14.zip|kernlab_0.9-14.zip}}についても行う。
+データ読み込みはできても、CRANにも接続できないなんて。
+== データの読み込み ==
+<code>
+tic.learn <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
+tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
+tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
+tic.eval <- cbind(tic.eval, tic.test)
+colnames(tic.eval)[86] <- "V86"
+rm(tic.test)
+</code>
+== 少し加工する ==
+以下の6行は、実行しない方がいい場合もある。
+<code>
+tic.learn$V1 <- as.factor(tic.learn$V1)
+tic.learn$V5 <- as.factor(tic.learn$V5)
+tic.learn$V86 <- as.factor(tic.learn$V86)
+tic.eval$V1 <- as.factor(tic.eval$V1)
+tic.eval$V5 <- as.factor(tic.eval$V5)
+tic.eval$V86 <- as.factor(tic.eval$V86)
+</code>
+回帰分析とロジスティック回帰分析は、上の6行を実行しないtic.learnとtic.evalを用いるのがよい。
+決定木では上の6行を実行した後のtic.learnとtic.evalを用いるのがよい。
+また決定木に関しては、実行した場合と実行しない場合とで結果を比較すると良いかもしれない。
 ==== 練習課題 ====
@@ 行 507: / 行 565: @@
   * これら以外に、Rで2値判別を行う手法を探し、適用して、比較に加えてみよ。(課外課題)
-=== 本課題 ===
+==== 本課題 ====
-== TIC2000 ==
+=== TIC2000 (第2週と同じデータ) ===
 [[http://kdd.ics.uci.edu/databases/tic/tic.data.html|tic.data.txt]]からの要約。
@@ 行 522: / 行 580: @@
   * CoIL 2000では、訪問する800人を選べ、という課題になっていたが、この課題では訪問する人数も各自で決めて良い。
-== 準備 ==
-<code>
-install.packages(c("mvpart", "kernlab", ), dependencies=TRUE)
-</code>
-これでエラーが出る場合には、[[https://appl.stat.inf.uec.ac.jp/doku.php?id=r:how_to:internet_proxy|プロキシの設定]]を試みると良い。
-<code>
-library(mvpart)
-library(MASS)
-library(kernlab)
-</code>
-以上の3つのライブラリを、この課題では使う可能性がある。
-== データの読み込み ==
-<code>
-tic.leaan <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
-tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
-tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
-tic.eval <- cbind(tic.eval, tic.test)
-colnames(tic.eval)[86] <- "V86"
-rm(tic.test)
-</code>
-== 少し加工する ==
-以下の6行は、実行しない方がいい場合もある。
-<code>
-tic.learn$V1 <- as.factor(tic.learn$V1)
-tic.learn$V5 <- as.factor(tic.learn$V5)
-tic.learn$V86 <- as.factor(tic.learn$V86)
-tic.eval$V1 <- as.factor(tic.eval$V1)
-tic.eval$V5 <- as.factor(tic.eval$V5)
-tic.eval$V86 <- as.factor(tic.eval$V86)
-</code>
-決定木に関しては、実行した場合と実行しない場合とで結果を比較すると良いかもしれない。
-== 考えたルールに基づく対象限定 ==
+=== 考えたルールに基づく対象限定 ===
 各変数に閾値を設けてルールを生成したとする。
@@ 行 605: / 行 622: @@
 で25.9%となる。
-== モデルに基づく対象限定 ==
+=== モデルに基づく対象限定 ===
 学習したモデルに基づいて、訪問対象を狭めるには、predict()という関数を用いて、訪問対象か否かというリストを作成する。
@@ 行 644: / 行 661: @@
 で38.275%となる。
-== 想定される困難 ==
+=== 想定される困難 ===
 次の1行を実行すると、かなり時間がかかってエラーになる。

mselab/2012/stat/week3.1351557807.txt.gz · 最終更新: 2012/10/30 00:00 (外部編集)

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

差分

サイト用ツール

ページ用ツール

ユーザ用ツール

差分