文書の過去の版を表示しています。


データマイニング (2014年度)

連絡

  • 今年度は講義の内容をテキスト、内容ともに改めることにしました。シラバスも改訂しました。(2014.04.09)

テキスト

An Introduction to Statistical Learning” をテキストに使います。各自での購入もお勧めできる統計的学習理論の最新の入門書のひとつで、良書です。スライドとビデオも提供と至れり尽くせりで、ぜんぶ自習にしても良いほどです。

シラバス(2014.04.09改訂)

主題および達成目標

データマイニングに現れる種々の手法を、基本的な事項から始めて、手法の実装に必要な理論を解説した後、実際の問題に適用するまでの一連の過程を通じて、学んでもらう。 毎年、トピックを一つないし複数を選んで、講義する。

今年度は“An Introduction to Statistical Learning” (Springer-Verlag) をテキストに使い、データマイニングに用いられる多くの分析手法を包含する統計的学習理論について講義する。この書籍は統計的学習理論の最新の入門書のひとつで、各自での購入もお勧めできる良書である。

(2014.04.09改訂)

授業内容とその進め方

上のテキストに沿って、以下の内容について、各話題を括弧の回数で論じる。 全15回の予定である。

  1. 序論 (1週)
  2. 統計的学習 (2週)
  3. 線形回帰 (1週)
  4. 分類 (1週)
  5. リサンプリング (1週)
  6. 線形モデルの選択と正規化 (1週)
  7. 非線形モデル (1週)
  8. 樹に基づく方法 (1週)
  9. サポートベクトルマシン (1週)
  10. 教師なし学習 (1週)

残りの週は演習

(2014.04.09改訂)

1章

準備

今回のテキストにはRという言語が用いられていて、これを使うとほぼすべてのデータを図示しているグラフやデータの解析結果が再現できる。著者よりコードも提供されている。なので、各自、Rを使える環境を整えておくことを勧める。

Rはおよそ、日常触れるノートパソコン以上の大きさのコンピュータにはインストールできる。こことかこことかここを参考にするといい。 インストーラが用意されていない環境については、ソースを入手して自分でビルドすればいい。

本学では、大抵の「パソコン」はプライベートIPで運用されていて、情報基盤センター提供の情報ウェブブラウザにプロクシを設定する必要がある。Rもたまにインターネットにアクセスする必要が生じる。たとえば、パッケージと呼ばれる追加ライブラリのインストールや、インターネット上に置いてあるCSVの読み込み、あるいはオープンアクセス可能なデータベースサーバへのアクセスなど。その際には下記の行を実行して、プロクシを設定する。

Sys.setenv("http_proxy"="http://proxy.uec.ac.jp:8080/")