データマイニング (2014年度)
連絡
- 今年度は講義の内容をテキスト、内容ともに改めることにしました。シラバスも改訂しました。(2014.04.09)
テキスト
“An Introduction to Statistical Learning” をテキストに使います。各自での購入もお勧めできる統計的学習理論の最新の入門書のひとつで、良書です。スライドとビデオも提供と至れり尽くせりで、ぜんぶ自習にしても良いほどです。
日程
1 | 2014.04.10 | ガイダンス |
2 | 2014.04.17 | 1章 |
3 | 2014.04.24 | 2章前半 |
4 | 2014.05.01 | 2章後半 |
5 | 2014.05.08 | 3章 線形回帰モデル |
6 | 2014.05.15 | 自習 |
7 | 2014.05.22 | 4章前半 ロジスティック回帰モデル |
8 | 2014.05.29 | 4章後半 線形判別関数と二次判別関数 |
9 | 2014.06.05 | 5章 |
10 | 2014.06.12 | 6章 |
11 | 2014.06.19 | 8章前半 |
12 | 2014.06.26 | 8章後半 |
13 | 2014.07.03 | |
14 | 2014.07.10 | |
15 | 2014.07.17 | |
16 | 2014.07.24 |
シラバス(2014.04.09改訂)
主題および達成目標
データマイニングに現れる種々の手法を、基本的な事項から始めて、手法の実装に必要な理論を解説した後、実際の問題に適用するまでの一連の過程を通じて、学んでもらう。 毎年、トピックを一つないし複数を選んで、講義する。
今年度は“An Introduction to Statistical Learning” (Springer-Verlag) をテキストに使い、データマイニングに用いられる多くの分析手法を包含する統計的学習理論について講義する。この書籍は統計的学習理論の最新の入門書のひとつで、各自での購入もお勧めできる良書である。
(2014.04.09改訂)
授業内容とその進め方
上のテキストに沿って、以下の内容について、各話題を括弧の回数で論じる。 全15回の予定である。
- 序論 (1週)
- 統計的学習 (2週)
- 線形回帰 (1週)
- 分類 (1週)
- リサンプリング (1週)
- 線形モデルの選択と正規化 (1週)
- 非線形モデル (1週)
- 樹に基づく方法 (1週)
- サポートベクトルマシン (1週)
- 教師なし学習 (1週)
残りの週は演習
(2014.04.09改訂)
1章
準備
今回のテキストにはRという言語が用いられていて、これを使うとほぼすべてのデータを図示しているグラフやデータの解析結果が再現できる。著者よりコードも提供されている。なので、各自、Rを使える環境を整えておくことを勧める。
Rはおよそ、日常触れるノートパソコン以上の大きさのコンピュータにはインストールできる。こことかこことかここを参考にするといい。 インストーラが用意されていない環境については、ソースを入手して自分でビルドすればいい。
本学では、大抵の「パソコン」はプライベートIPで運用されていて、情報基盤センター提供の情報ウェブブラウザにプロクシを設定する必要がある。Rもたまにインターネットにアクセスする必要が生じる。たとえば、パッケージと呼ばれる追加ライブラリのインストールや、インターネット上に置いてあるCSVの読み込み、あるいはオープンアクセス可能なデータベースサーバへのアクセスなど。その際には下記の行を実行して、プロクシを設定する。
Sys.setenv("http_proxy"="http://proxy.uec.ac.jp:8080/")
4週
課題提出先は、紙で当日に提出してください。
12週
銀行のテレマーケティングのデータ(ひとつ目の方)を題材に、
- k最近接法 knn() (テキストのp.163-165が参考になる)
- ロジスティック判別 glm() (テキストのp.156-163が参考になる)
- フィッシャーの判別関数 lda(), qda() (テキストのp.156-163が参考になる)
- 決定木 tree() (テキストのp.324-327が参考になる)
を用いて、契約の予測モデルを構築し、比較せよ。
上のデータを展開すると、bank-full.csv というファイルが得られるので、これをホームに置くと
bank <- read.table("/Users/student/Downloads/bank/bank-full.csv", header=T, sep=";")
で読み込むことができる。細かいことは、各自に任せるが、このデータは分類変数が多いので、結果の読み込みに少し戸惑うかもしれない。
課題は2週間後の講義の際に、紙で提出してください。