==== 銀行のテレマーケティングのデータ ==== このデータはポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングに関するものである。 * ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。 * テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。 * データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。 * 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。 提供されているのは個々のターゲットへのプロモーションの完全な記録ではなく、ある時点における個々のターゲットへのプロモーションの状態であることには留意する必要がある。このデータに基づいて、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がこのデータをデータマイニングする時のひとつの目標になる。 同じ案件に関して、時点がずれて2種類のデータが提供されている。 === 1つ目のデータ === [[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできるファイルの旧版で、{{:mselab:2013:stat:week1:bank.zip|このファイル}}のこと。このデータの概要は[[http://repositorium.sdum.uminho.pt/bitstream/1822/14838/1/MoroCortezLaureano_DMApproach4DirectMKT.pdf|Using Data Mining For Bank Direct Marketing: An Application of the Crips-DM Methodology]]という文献に記されている。 * [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS. フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。 |フィールド番号|フィールド名|メモ|種類|その他| |1|age|年齢|(numeric)| | |2|job|仕事|(categorical)|"admin." 経営者(?), "unknown" 不明, "unemployed" 無職, "management" 管理職(?), "housemaid" メイド, "entrepreneur" 起業家, "student" 学生, "blue-collar" 労働者, "self-employed" 自営業, "retired" 退職者, "technician" 技術者, "services" サービス業| |3|marital|結婚状況 marital status|(categorical)|"married" 既婚, "divorced" 離婚・死別 ; note: "divorced" means divorced or widowed, "single" 未婚| |4|education|教育|(categorical)|"unknown" 不明, "secondary" 中等教育, "primary" 初等教育, "tertiary" 高等教育| |5|default|破産暦 has credit in default?|(binary)|"yes" 有, "no" 無| |6|balance|平均年間残高 average yearly balance, in euros|(numeric)| | |7|housing|住宅ローン has housing loan?|(binary)|"yes" 有, "no" 無| |8|loan|個人ローン has personal loan? |(binary)|"yes" 有, "no" 無| |9|contact|最後のコンタクト手段 contact communication type|(categorical)|"unknown" 不明, "telephone" 電話, "cellular" 携帯電話| |10|day|last contact day of the month|(numeric)| | |11|month|last contact month of year|(categorical)|"jan", "feb", "mar", ..., "nov", "dec"| |12|duration|最後のコール時の時間(秒) last contact duration, in seconds|(numeric)| | |13|campaign|今回のキャンペーンでの総コール回数 number of contacts performed during this campaign and for this client|(numeric, includes last contact)| | |14|pdays|前回のキャンペーンでの最終コールからの経過日数 number of days that passed by after the client was last contacted from a previous campaign |(numeric, -1 means client was not previously contacted)| | |15|previous|今回のキャンペーン以前の総コール回数 number of contacts performed before this campaign and for this client|(numeric)| | |16|poutcome|前回のキャンペーンの結果 outcome of the previous marketing campaign|(categorical)|"unknown","other","failure","success"| |17|y|has the client subscribed a term deposit?|(binary)|"yes","no"| === 2つ目のデータ === 同じく[[http://archive.ics.uci.edu/ml/datasets/Bank+Marketing|ここ]]からダウンロードできる bank-addition.zip というファイルに含まれている。[[http://www.sciencedirect.com/science/article/pii/S016792361400061X|A Data-Driven Approach to Predict the Success of Bank Telemarketing]]という論文で分析されたデータとほぼ同等、と評されている。[[http://bru-unide.iscte.pt/RePEc/pdfs/13-06.pdf|この文献]]も参考になるかもしれない。 * [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014 上の16の属性に加えて、幾つかの属性が加わり、変数も少し変わったデータである。 |Input variables:||| |# bank client data:||| |1|age|(numeric)| |2|job|type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')| |3|marital|marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)| |4|education|(categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')| |5|default|has credit in default? (categorical: 'no','yes','unknown')| |6|housing|has housing loan? (categorical: 'no','yes','unknown')| |7|loan|has personal loan? (categorical: 'no','yes','unknown')| |# related with the last contact of the current campaign:||| |8|contact|contact communication type (categorical: 'cellular','telephone')| |9|month|last contact month of year (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')| |10|day_of_week|last contact day of the week (categorical: 'mon','tue','wed','thu','fri')| |11|duration|last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.| |# other attributes:||| |12|campaign|number of contacts performed during this campaign and for this client (numeric, includes last contact)| |13|pdays|number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)| |14|previous|number of contacts performed before this campaign and for this client (numeric)| |15|poutcome|outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')| |# social and economic context attributes||| |16|emp.var.rate|employment variation rate - quarterly indicator (numeric)| |17|cons.price.idx|consumer price index - monthly indicator (numeric) | |18|cons.conf.idx|consumer confidence index - monthly indicator (numeric) | |19|euribor3m|euribor 3 month rate - daily indicator (numeric)| |20|nr.employed|number of employees - quarterly indicator (numeric)| |Output variable (desired target):||| |21|y|has the client subscribed a term deposit? (binary: 'yes','no')|