今週の課題

データ解析の手法は、ただ闇雲に用いただけで必要な知識がデータから抽出できるというものではない。様々な手法の、原理、仮定 (前提)、その手法が用いるモデルの構造とパラメータの意味を知り、それぞれの長所と短所を理解した上で 、解析するデータに適切な手法を用いるべきである。そのためには様々な手法を適用する前にまず、データそれ自体の理解が不可欠である。前回はこれを目的として、解析の第一段階としてのデータの理解に努めてもらった。

今週はリンク先の同志社大学の金 (じん) 先生が公開してくださっているコンテンツを参考に、判別分析と決定木 (樹木モデル、分類木とも) を用いて、今回のデータを解析して貰う。解析の目的は「定期預金を契約する人と契約しない人の間に、どのような差異があるか」を調べることである。

銀行の定期預金獲得テレマーケティングのデータの解析

まず下記のページを順に読み、手順や内容などを理解せよ。(いずれも同志社大学の金先生が公開されているもの)

そこに書かれている操作などを実行してみると、実行画面と同じ結果が大きく表示される。表示される数字の読み方なども上のリンク先を参考にせよ。

そしてこれらの手法を先週と同じデータに適用して、定期預金を契約する顧客と契約しない顧客の間にどのような差異があるか、データ解析せよ。必要に応じて

も参考にせよ。ここでデータ解析とは、

  • データの全体の概要の俯瞰 (前回の結果を用いてもよい)
  • データの構造を捉えるようなモデルの当てはめ (下記のようにできる)
  • モデルがデータによくあてはまっていることの確認と不確実性の評価 (表示できるグラフや、信頼区間などにより検討)
  • 当てはめたモデルの考察 (得たモデルからの目的に関する検討)

などを行うことを指している

実行するだけなら

install.packages(c("MASS", "mvpart", "rpart"), dependencies=TRUE)
lda(y~., data=bank)
qda(y~., data=bank)
mvpart(y~., data=bank)

だけだが。。。? 上のコードでinstall.packages()がエラーになるときは、プロキシの設定が必要かもしれない。

なお、上のコードはデータを

bank <- read.table("/Users/student/Downloads/bank/bank-full.csv", header=T, sep=";")

のように読み込んでいることを仮定している。