“An Introduction to Statistical Learning” をテキストに使います。各自での購入もお勧めできる統計的学習理論の最新の入門書のひとつで、良書です。スライドとビデオも提供と至れり尽くせりで、ぜんぶ自習にしても良いほどです。
1 | 2014.04.10 | ガイダンス |
2 | 2014.04.17 | 1章 |
3 | 2014.04.24 | 2章前半 |
4 | 2014.05.01 | 2章後半 |
5 | 2014.05.08 | 3章 線形回帰モデル |
6 | 2014.05.15 | 自習 |
7 | 2014.05.22 | 4章前半 ロジスティック回帰モデル |
8 | 2014.05.29 | 4章後半 線形判別関数と二次判別関数 |
9 | 2014.06.05 | 5章 |
10 | 2014.06.12 | 6章 |
11 | 2014.06.19 | 8章前半 |
12 | 2014.06.26 | 8章後半 |
13 | 2014.07.03 | |
14 | 2014.07.10 | |
15 | 2014.07.17 | |
16 | 2014.07.24 |
データマイニングに現れる種々の手法を、基本的な事項から始めて、手法の実装に必要な理論を解説した後、実際の問題に適用するまでの一連の過程を通じて、学んでもらう。 毎年、トピックを一つないし複数を選んで、講義する。
今年度は“An Introduction to Statistical Learning” (Springer-Verlag) をテキストに使い、データマイニングに用いられる多くの分析手法を包含する統計的学習理論について講義する。この書籍は統計的学習理論の最新の入門書のひとつで、各自での購入もお勧めできる良書である。
(2014.04.09改訂)
上のテキストに沿って、以下の内容について、各話題を括弧の回数で論じる。 全15回の予定である。
残りの週は演習
(2014.04.09改訂)
今回のテキストにはRという言語が用いられていて、これを使うとほぼすべてのデータを図示しているグラフやデータの解析結果が再現できる。著者よりコードも提供されている。なので、各自、Rを使える環境を整えておくことを勧める。
Rはおよそ、日常触れるノートパソコン以上の大きさのコンピュータにはインストールできる。こことかこことかここを参考にするといい。 インストーラが用意されていない環境については、ソースを入手して自分でビルドすればいい。
本学では、大抵の「パソコン」はプライベートIPで運用されていて、情報基盤センター提供の情報ウェブブラウザにプロクシを設定する必要がある。Rもたまにインターネットにアクセスする必要が生じる。たとえば、パッケージと呼ばれる追加ライブラリのインストールや、インターネット上に置いてあるCSVの読み込み、あるいはオープンアクセス可能なデータベースサーバへのアクセスなど。その際には下記の行を実行して、プロクシを設定する。
Sys.setenv("http_proxy"="http://proxy.uec.ac.jp:8080/")
課題提出先は、紙で当日に提出してください。
銀行のテレマーケティングのデータ(ひとつ目の方)を題材に、
を用いて、契約の予測モデルを構築し、比較せよ。
上のデータを展開すると、bank-full.csv というファイルが得られるので、これをホームに置くと
bank <- read.table("/Users/student/Downloads/bank/bank-full.csv", header=T, sep=";")
で読み込むことができる。細かいことは、各自に任せるが、このデータは分類変数が多いので、結果の読み込みに少し戸惑うかもしれない。
課題は2週間後の講義の際に、紙で提出してください。