差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
mselab:2013:stat:week1:r1 [2013/10/08 00:53] – [今年のお題] watalu | mselab:2013:stat:week1:r1 [不明な日付] (現在) – 外部編集 (不明な日付) 127.0.0.1 | ||
---|---|---|---|
行 20: | 行 20: | ||
より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。 | より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。 | ||
+ | |||
+ | そのような中で、データ・マイニングとデータ解析にとても近い意味で、統計工学という名称をつけたのがこの実験である。 | ||
=== QC7つ道具 === | === QC7つ道具 === | ||
行 55: | 行 57: | ||
* データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。 | * データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。 | ||
* 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。 | * 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。 | ||
+ | |||
+ | === データについて === | ||
[[http:// | [[http:// | ||
行 71: | 行 75: | ||
|8|loan|個人ローン has personal loan? |(binary)|" | |8|loan|個人ローン has personal loan? |(binary)|" | ||
|9|contact|最後のコンタクト手段 contact communication type|(categorical)|" | |9|contact|最後のコンタクト手段 contact communication type|(categorical)|" | ||
- | |10|day: last contact day of the month|(numeric)| | | + | |10|day|last contact day of the month|(numeric)| | |
- | |11|month: last contact month of year (categorical)|" | + | |11|month|last contact month of year|(categorical)|" |
|12|duration|最後のコンタクト時の時間(秒) last contact duration, in seconds|(numeric)| | | |12|duration|最後のコンタクト時の時間(秒) last contact duration, in seconds|(numeric)| | | ||
|13|campaign|今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client|(numeric, | |13|campaign|今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client|(numeric, | ||
行 80: | 行 84: | ||
|17|y|has the client subscribed a term deposit? | |17|y|has the client subscribed a term deposit? | ||
- | ==== 解析の準備 ==== | + | === 解析の準備 === |
+ | |||
+ | とりあえず今週はRコマンダーを使う。Rコマンダーについては、下記のURLがとても参考になる。 | ||
+ | |||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。 | ||
+ | |||
+ | === 今回の流れ === | ||
+ | |||
+ | - まずはRコマンダー入門など、上のリンク先にざっと目を通しながら、Rコマンダーに慣れる。 | ||
+ | - bank.zipからCSVファイルを取り出して、Rコマンダーで読み込み、「統計量」と「グラフ」のみを用いて現状把握と解析を行う。目的がテレマーケティングによる定期預金の獲得であることは忘れない方がいい。またターゲット層の探索には「層別」を用いるが、種類がbinaryかcategoricalな変数でしか、層別ができないことに注意する。 | ||
+ | - 今回の成果物として要求したいのは、次のもの。 | ||
+ | - 45211人分のデータの概要を表す表やグラフ、その考察。 | ||
+ | - 45211人分のデータから見つけた「ターゲット層」と、その層に営業をかける時の成功率、そしてその層に至った経緯。ターゲット層とは、例えば「結婚していなくて、各種ローンがなくて、破産の経験もなければ、定期預金の契約率が少し高い」などのこと。 | ||
+ | - 契約率は分割表から計算できる。 | ||
+ | |||
+ | |作業|参考| | ||
+ | |Rコマンダーを起動する|Rコマンダー入門 第1節(p.1)| | ||
+ | |Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)| | ||
+ | |数値による要約|Rコマンダー入門 第3節(p.15)| | ||
+ | |||
+ | ==== レポートについて ==== | ||
+ | |||
+ | 提出の要領は次の通り。 | ||
+ | |||
+ | ^項目^指定^ | ||
+ | |提出期限|次回の実験実施日の前日(月曜日)の午後6時00分まで| | ||
+ | |提出方法|電子メールに添付 (宛先は配付資料に記載)| | ||
+ | |ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)| | ||
+ | |メールの件名|統計実験1レポート提出(XXXXXXX)| | ||
+ | |レポートファイルの名称|XXXXXXX_統計実験1.doc | ||
+ | |提出部数|レポートは各自1通ずつ。{{: | ||
- | とりあえず今週はRコマンダーを使う。 | ||
- | Rコマンダーについては、下記のURLがとても参考になる。 | ||
- | \begin{itemize} | ||
- | \item http:// | ||
- | \item http:// | ||
- | \item http:// | ||
- | \item http:// | ||
- | \end{itemize} | ||
- | \noindent | ||
- | 斜め読みして使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。 | ||