差分
このページの2つのバージョン間の差分を表示します。
| 次のリビジョン | 前のリビジョン | ||
| mselab:2013:stat:week1:r1 [2013/10/08 00:17] – created watalu | mselab:2013:stat:week1:r1 [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1 | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| + | ==== 前説 ==== | ||
| === はじめに === | === はじめに === | ||
| - | |||
| 最近、[[http:// | 最近、[[http:// | ||
| 行 20: | 行 20: | ||
| より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。 | より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。 | ||
| + | |||
| + | そのような中で、データ・マイニングとデータ解析にとても近い意味で、統計工学という名称をつけたのがこの実験である。 | ||
| === QC7つ道具 === | === QC7つ道具 === | ||
| 行 46: | 行 48: | ||
| から、現状把握と解析でQC7つ道具を精力的に用いることになる。 | から、現状把握と解析でQC7つ道具を精力的に用いることになる。 | ||
| + | |||
| + | ==== 今年のお題 ==== | ||
| + | |||
| + | 今年度は、ポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングを対象とし、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がお題である。 | ||
| + | |||
| + | * ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。 | ||
| + | * テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。 | ||
| + | * データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。 | ||
| + | * 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。 | ||
| + | |||
| + | === データについて === | ||
| + | |||
| + | [[http:// | ||
| + | * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM' | ||
| + | |||
| + | フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。 | ||
| + | |||
| + | |フィールド番号|フィールド名|メモ|種類|その他| | ||
| + | |1|age|年齢|(numeric)| | | ||
| + | |2|job|仕事|(categorical)|" | ||
| + | |3|marital|結婚状況 marital status|(categorical)|" | ||
| + | |4|education|教育|(categorical)|" | ||
| + | |5|default|破産暦 has credit in default? | ||
| + | |6|balance|平均年間残高 average yearly balance, in euros|(numeric)| | | ||
| + | |7|housing|住宅ローン has housing loan? | ||
| + | |8|loan|個人ローン has personal loan? |(binary)|" | ||
| + | |9|contact|最後のコンタクト手段 contact communication type|(categorical)|" | ||
| + | |10|day|last contact day of the month|(numeric)| | | ||
| + | |11|month|last contact month of year|(categorical)|" | ||
| + | |12|duration|最後のコンタクト時の時間(秒) last contact duration, in seconds|(numeric)| | | ||
| + | |13|campaign|今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client|(numeric, | ||
| + | |14|pdays|以前のキャンペーンでの最終コンタクトからの経過日数 number of days that passed by after the client was last contacted from a previous campaign |(numeric, -1 means client was not previously contacted)| | | ||
| + | |15|previous|number of contacts performed before this campaign and for this client|(numeric)| | | ||
| + | |16|poutcome|outcome of the previous marketing campaign|(categorical)|" | ||
| + | |17|y|has the client subscribed a term deposit? | ||
| + | |||
| + | === 解析の準備 === | ||
| + | |||
| + | とりあえず今週はRコマンダーを使う。Rコマンダーについては、下記のURLがとても参考になる。 | ||
| + | |||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | * [[http:// | ||
| + | |||
| + | これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。 | ||
| + | |||
| + | === 今回の流れ === | ||
| + | |||
| + | - まずはRコマンダー入門など、上のリンク先にざっと目を通しながら、Rコマンダーに慣れる。 | ||
| + | - bank.zipからCSVファイルを取り出して、Rコマンダーで読み込み、「統計量」と「グラフ」のみを用いて現状把握と解析を行う。目的がテレマーケティングによる定期預金の獲得であることは忘れない方がいい。またターゲット層の探索には「層別」を用いるが、種類がbinaryかcategoricalな変数でしか、層別ができないことに注意する。 | ||
| + | - 今回の成果物として要求したいのは、次のもの。 | ||
| + | - 45211人分のデータの概要を表す表やグラフ、その考察。 | ||
| + | - 45211人分のデータから見つけた「ターゲット層」と、その層に営業をかける時の成功率、そしてその層に至った経緯。ターゲット層とは、例えば「結婚していなくて、各種ローンがなくて、破産の経験もなければ、定期預金の契約率が少し高い」などのこと。 | ||
| + | - 契約率は分割表から計算できる。 | ||
| + | |||
| + | |作業|参考| | ||
| + | |Rコマンダーを起動する|Rコマンダー入門 第1節(p.1)| | ||
| + | |Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)| | ||
| + | |数値による要約|Rコマンダー入門 第3節(p.15)| | ||
| + | |||
| + | ==== レポートについて ==== | ||
| + | |||
| + | 提出の要領は次の通り。 | ||
| + | |||
| + | ^項目^指定^ | ||
| + | |提出期限|次回の実験実施日の前日(月曜日)の午後6時00分まで| | ||
| + | |提出方法|電子メールに添付 (宛先は配付資料に記載)| | ||
| + | |ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)| | ||
| + | |メールの件名|統計実験1レポート提出(XXXXXXX)| | ||
| + | |レポートファイルの名称|XXXXXXX_統計実験1.doc | ||
| + | |提出部数|レポートは各自1通ずつ。{{: | ||