差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

次のリビジョン
前のリビジョン
data:bank_direct_telemarketing [2014/06/26 08:04] – created wataludata:bank_direct_telemarketing [2015/01/13 10:26] (現在) watalu
行 1: 行 1:
-=== 銀行のテレマーケティングのデータ ===+==== 銀行のテレマーケティングのデータ ====
  
 このデータはポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングに関するものである。 このデータはポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングに関するものである。
行 10: 行 10:
 提供されているのは個々のターゲットへのプロモーションの完全な記録ではなく、ある時点における個々のターゲットへのプロモーションの状態であることには留意する必要がある。このデータに基づいて、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がこのデータをデータマイニングする時のひとつの目標になる。 提供されているのは個々のターゲットへのプロモーションの完全な記録ではなく、ある時点における個々のターゲットへのプロモーションの状態であることには留意する必要がある。このデータに基づいて、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がこのデータをデータマイニングする時のひとつの目標になる。
  
-=== データについて ===+同じ案件に関して、時点がずれて2種類のデータが提供されいる。
  
-[[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできるはずだが、たまにアクセスできないことがあるので、{{:mselab:2013:stat:week1:bank.zip|こちら}}にも置かせて頂いておく。このデータの概要は[[http://repositorium.sdum.uminho.pt/bitstream/1822/14838/1/MoroCortezLaureano_DMApproach4DirectMKT.pdf|USING DATA MINING FOR BANK DIRECT MARKETINGAN APPLICATION OF THE CRISP-DM METHODOLOGY]]という文献に記されている。+=== 1つ目のデータ === 
 + 
 +[[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできるファイル旧版で、{{:mselab:2013:stat:week1:bank.zip|このファイル}}のこと。このデータの概要は[[http://repositorium.sdum.uminho.pt/bitstream/1822/14838/1/MoroCortezLaureano_DMApproach4DirectMKT.pdf|Using Data Mining For Bank Direct MarketingAn Application of the Crips-DM Methodology]]という文献に記されている。
   * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.   * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.
  
行 29: 行 31:
 |10|day|last contact day of the month|(numeric)| | |10|day|last contact day of the month|(numeric)| |
 |11|month|last contact month of year|(categorical)|"jan", "feb", "mar", ..., "nov", "dec"| |11|month|last contact month of year|(categorical)|"jan", "feb", "mar", ..., "nov", "dec"|
-|12|duration|最後のコンタクト時の時間(秒) last contact duration, in seconds|(numeric)| | +|12|duration|最後のコール時の時間(秒) last contact duration, in seconds|(numeric)| | 
-|13|campaign|今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client|(numeric, includes last contact)| | +|13|campaign|今回のキャンペーンでのール回数 number of contacts performed during this campaign and for this client|(numeric, includes last contact)| | 
-|14|pdays|前のキャンペーンでの最終コンタクトからの経過日数 number of days that passed by after the client was last contacted from a previous campaign |(numeric, -1 means client was not previously contacted)| | +|14|pdays|前のキャンペーンでの最終コールからの経過日数 number of days that passed by after the client was last contacted from a previous campaign |(numeric, -1 means client was not previously contacted)| | 
-|15|previous|number of contacts performed before this campaign and for this client|(numeric)| | +|15|previous|今回のキャンペーン以前の総コール回数 number of contacts performed before this campaign and for this client|(numeric)| | 
-|16|poutcome|outcome of the previous marketing campaign|(categorical)|"unknown","other","failure","success"|+|16|poutcome|前回のキャンペーンの結果 outcome of the previous marketing campaign|(categorical)|"unknown","other","failure","success"|
 |17|y|has the client subscribed a term deposit?|(binary)|"yes","no"| |17|y|has the client subscribed a term deposit?|(binary)|"yes","no"|
 +
 +=== 2つ目のデータ ===
 +
 +同じく[[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできる bank-addition.zip というファイルに含まれている。[[http://www.sciencedirect.com/science/article/pii/S016792361400061X|A Data-Driven Approach to Predict the Success of Bank Telemarketing]]という論文で分析されたデータとほぼ同等、と評されている。[[http://bru-unide.iscte.pt/RePEc/pdfs/13-06.pdf|この文献]]も参考になるかもしれない。
 +
 +  * [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014
 +
 +上の16の属性に加えて、幾つかの属性が加わり、変数も少し変わったデータである。
 +
 +|Input variables:|||
 +|# bank client data:|||
 +|1|age|(numeric)|
 +|2|job|type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')|
 +|3|marital|marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)|
 +|4|education|(categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')|
 +|5|default|has credit in default? (categorical: 'no','yes','unknown')|
 +|6|housing|has housing loan? (categorical: 'no','yes','unknown')|
 +|7|loan|has personal loan? (categorical: 'no','yes','unknown')|
 +|# related with the last contact of the current campaign:|||
 +|8|contact|contact communication type (categorical: 'cellular','telephone')| 
 +|9|month|last contact month of year (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')|
 +|10|day_of_week|last contact day of the week (categorical: 'mon','tue','wed','thu','fri')|
 +|11|duration|last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.|
 +|# other attributes:|||
 +|12|campaign|number of contacts performed during this campaign and for this client (numeric, includes last contact)|
 +|13|pdays|number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)|
 +|14|previous|number of contacts performed before this campaign and for this client (numeric)|
 +|15|poutcome|outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')|
 +|# social and economic context attributes|||
 +|16|emp.var.rate|employment variation rate - quarterly indicator (numeric)|
 +|17|cons.price.idx|consumer price index - monthly indicator (numeric) |
 +|18|cons.conf.idx|consumer confidence index - monthly indicator (numeric) |
 +|19|euribor3m|euribor 3 month rate - daily indicator (numeric)|
 +|20|nr.employed|number of employees - quarterly indicator (numeric)|
 +|Output variable (desired target):|||
 +|21|y|has the client subscribed a term deposit? (binary: 'yes','no')|