差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
mselab:2013:stat:week1:r1 [2013/10/08 00:35] – [今年のお題] watalumselab:2013:stat:week1:r1 [Unknown date] (現在) – 外部編集 (Unknown date) 127.0.0.1
行 20: 行 20:
  
 より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。 より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。
 +
 +そのような中で、データ・マイニングとデータ解析にとても近い意味で、統計工学という名称をつけたのがこの実験である。
  
 === QC7つ道具 === === QC7つ道具 ===
行 55: 行 57:
   * データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。   * データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。
   * 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。   * 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。
 +
 +=== データについて ===
  
 [[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできるはずだが、たまにアクセスできないことがあるので、{{:mselab:2013:stat:week1:bank.zip|こちら}}にも置かせて頂いておく。このデータの概要は[[http://repositorium.sdum.uminho.pt/bitstream/1822/14838/1/MoroCortezLaureano_DMApproach4DirectMKT.pdf|USING DATA MINING FOR BANK DIRECT MARKETING: AN APPLICATION OF THE CRISP-DM METHODOLOGY]]という文献に記されている。 [[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできるはずだが、たまにアクセスできないことがあるので、{{:mselab:2013:stat:week1:bank.zip|こちら}}にも置かせて頂いておく。このデータの概要は[[http://repositorium.sdum.uminho.pt/bitstream/1822/14838/1/MoroCortezLaureano_DMApproach4DirectMKT.pdf|USING DATA MINING FOR BANK DIRECT MARKETING: AN APPLICATION OF THE CRISP-DM METHODOLOGY]]という文献に記されている。
   * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.   * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.
  
-==== 解析の準備 ====+フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。 
 + 
 +|フィールド番号|フィールド名|メモ|種類|その他| 
 +|1|age|年齢|(numeric)| | 
 +|2|job|仕事|(categorical)|"admin." 経営者(?), "unknown" 不明, "unemployed" 無職, "management" 管理職(?), "housemaid" メイド, "entrepreneur" 起業家, "student" 学生, "blue-collar" 労働者, "self-employed" 自営業, "retired" 退職者, "technician" 技術者, "services" サービス業| 
 +|3|marital|結婚状況 marital status|(categorical)|"married" 既婚, "divorced" 離婚・死別 ; note: "divorced" means divorced or widowed, "single" 未婚| 
 +|4|education|教育|(categorical)|"unknown" 不明, "secondary" 中等教育, "primary" 初等教育, "tertiary" 高等教育| 
 +|5|default|破産暦 has credit in default?|(binary)|"yes" 有, "no" 無| 
 +|6|balance|平均年間残高 average yearly balance, in euros|(numeric)| | 
 +|7|housing|住宅ローン has housing loan?|(binary)|"yes" 有, "no" 無| 
 +|8|loan|個人ローン has personal loan? |(binary)|"yes" 有, "no" 無| 
 +|9|contact|最後のコンタクト手段 contact communication type|(categorical)|"unknown" 不明, "telephone" 電話, "cellular" 携帯電話| 
 +|10|day|last contact day of the month|(numeric)| | 
 +|11|month|last contact month of year|(categorical)|"jan", "feb", "mar", ..., "nov", "dec"
 +|12|duration|最後のコンタクト時の時間(秒) last contact duration, in seconds|(numeric)| | 
 +|13|campaign|今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client|(numeric, includes last contact)| | 
 +|14|pdays|以前のキャンペーンでの最終コンタクトからの経過日数 number of days that passed by after the client was last contacted from a previous campaign |(numeric, -1 means client was not previously contacted)| | 
 +|15|previous|number of contacts performed before this campaign and for this client|(numeric)| | 
 +|16|poutcome|outcome of the previous marketing campaign|(categorical)|"unknown","other","failure","success"
 +|17|y|has the client subscribed a term deposit?|(binary)|"yes","no"
 + 
 +=== 解析の準備 === 
 + 
 +とりあえず今週はRコマンダーを使う。Rコマンダーについては、下記のURLがとても参考になる。 
 + 
 +  * [[http://mjin.doshisha.ac.jp/R/38/38.html|Rcmdr (1)]] 
 +  * [[http://mjin.doshisha.ac.jp/R/39/39.html|Rcmdr (2)]] 
 +  * [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf|Rコマンダー入門]] 
 + 
 +これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。 
 + 
 +=== 今回の流れ === 
 + 
 +  - まずはRコマンダー入門など、上のリンク先にざっと目を通しながら、Rコマンダーに慣れる。 
 +  - bank.zipからCSVファイルを取り出して、Rコマンダーで読み込み、「統計量」と「グラフ」のみを用いて現状把握と解析を行う。目的がテレマーケティングによる定期預金の獲得であることは忘れない方がいい。またターゲット層の探索には「層別」を用いるが、種類がbinaryかcategoricalな変数でしか、層別ができないことに注意する。 
 +  - 今回の成果物として要求したいのは、次のもの。 
 +    - 45211人分のデータの概要を表す表やグラフ、その考察。 
 +    - 45211人分のデータから見つけた「ターゲット層」と、その層に営業をかける時の成功率、そしてその層に至った経緯。ターゲット層とは、例えば「結婚していなくて、各種ローンがなくて、破産の経験もなければ、定期預金の契約率が少し高い」などのこと。 
 +    - 契約率は分割表から計算できる。 
 + 
 +|作業|参考| 
 +|Rコマンダーを起動する|Rコマンダー入門 第1節(p.1)| 
 +|Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)| 
 +|数値による要約|Rコマンダー入門 第3節(p.15)| 
 + 
 +==== レポートについて ==== 
 + 
 +提出の要領は次の通り。 
 + 
 +^項目^指定^ 
 +|提出期限|次回の実験実施日の前日(月曜日)の午後6時00分まで| 
 +|提出方法|電子メールに添付 (宛先は配付資料に記載)| 
 +|ファイル形式|Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)| 
 +|メールの件名|統計実験1レポート提出(XXXXXXX)| 
 +|レポートファイルの名称|XXXXXXX_統計実験1.doc  XXXXXXX_統計実験1.docx  XXXXXXX_統計実験1.pdf のどれか| 
 +|提出部数|レポートは各自1通ずつ。{{:mselab:report-header-2012.doc|レポートの表紙}}に、共同実験者の学籍番号と氏名を記すこと。|
  
-とりあえず今週はRコマンダーを使う。 
-Rコマンダーについては、下記のURLがとても参考になる。 
-\begin{itemize} 
-\item http://mjin.doshisha.ac.jp/R/38/38.html 
-\item http://mjin.doshisha.ac.jp/R/39/39.html 
-\item http://www.josai.ac.jp/~nagasima/contents/doc/rcmdr/100105presen.pdf 
-\item http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf 
-\end{itemize} 
-\noindent 
-斜め読みして使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。