銀行のテレマーケティングのデータ
このデータはポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングに関するものである。
- ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。
- テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。
- データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。
- 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。
提供されているのは個々のターゲットへのプロモーションの完全な記録ではなく、ある時点における個々のターゲットへのプロモーションの状態であることには留意する必要がある。このデータに基づいて、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がこのデータをデータマイニングする時のひとつの目標になる。
同じ案件に関して、時点がずれて2種類のデータが提供されている。
1つ目のデータ
ここからダウンロードできるファイルの旧版で、このファイルのこと。このデータの概要はUsing Data Mining For Bank Direct Marketing: An Application of the Crips-DM Methodologyという文献に記されている。
- [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.
フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。
フィールド番号 | フィールド名 | メモ | 種類 | その他 |
1 | age | 年齢 | (numeric) | |
2 | job | 仕事 | (categorical) | “admin.” 経営者(?), “unknown” 不明, “unemployed” 無職, “management” 管理職(?), “housemaid” メイド, “entrepreneur” 起業家, “student” 学生, “blue-collar” 労働者, “self-employed” 自営業, “retired” 退職者, “technician” 技術者, “services” サービス業 |
3 | marital | 結婚状況 marital status | (categorical) | “married” 既婚, “divorced” 離婚・死別 ; note: “divorced” means divorced or widowed, “single” 未婚 |
4 | education | 教育 | (categorical) | “unknown” 不明, “secondary” 中等教育, “primary” 初等教育, “tertiary” 高等教育 |
5 | default | 破産暦 has credit in default? | (binary) | “yes” 有, “no” 無 |
6 | balance | 平均年間残高 average yearly balance, in euros | (numeric) | |
7 | housing | 住宅ローン has housing loan? | (binary) | “yes” 有, “no” 無 |
8 | loan | 個人ローン has personal loan? | (binary) | “yes” 有, “no” 無 |
9 | contact | 最後のコンタクト手段 contact communication type | (categorical) | “unknown” 不明, “telephone” 電話, “cellular” 携帯電話 |
10 | day | last contact day of the month | (numeric) | |
11 | month | last contact month of year | (categorical) | “jan”, “feb”, “mar”, …, “nov”, “dec” |
12 | duration | 最後のコール時の時間(秒) last contact duration, in seconds | (numeric) | |
13 | campaign | 今回のキャンペーンでの総コール回数 number of contacts performed during this campaign and for this client | (numeric, includes last contact) | |
14 | pdays | 前回のキャンペーンでの最終コールからの経過日数 number of days that passed by after the client was last contacted from a previous campaign | (numeric, -1 means client was not previously contacted) | |
15 | previous | 今回のキャンペーン以前の総コール回数 number of contacts performed before this campaign and for this client | (numeric) | |
16 | poutcome | 前回のキャンペーンの結果 outcome of the previous marketing campaign | (categorical) | “unknown”,“other”,“failure”,“success” |
17 | y | has the client subscribed a term deposit? | (binary) | “yes”,“no” |
2つ目のデータ
同じくここからダウンロードできる bank-addition.zip というファイルに含まれている。A Data-Driven Approach to Predict the Success of Bank Telemarketingという論文で分析されたデータとほぼ同等、と評されている。この文献も参考になるかもしれない。
- [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014
上の16の属性に加えて、幾つかの属性が加わり、変数も少し変わったデータである。
Input variables: | ||
# bank client data: | ||
1 | age | (numeric) |
2 | job | type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown') |
3 | marital | marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed) |
4 | education | (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown') |
5 | default | has credit in default? (categorical: 'no','yes','unknown') |
6 | housing | has housing loan? (categorical: 'no','yes','unknown') |
7 | loan | has personal loan? (categorical: 'no','yes','unknown') |
# related with the last contact of the current campaign: | ||
8 | contact | contact communication type (categorical: 'cellular','telephone') |
9 | month | last contact month of year (categorical: 'jan', 'feb', 'mar', …, 'nov', 'dec') |
10 | day_of_week | last contact day of the week (categorical: 'mon','tue','wed','thu','fri') |
11 | duration | last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model. |
# other attributes: | ||
12 | campaign | number of contacts performed during this campaign and for this client (numeric, includes last contact) |
13 | pdays | number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted) |
14 | previous | number of contacts performed before this campaign and for this client (numeric) |
15 | poutcome | outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success') |
# social and economic context attributes | ||
16 | emp.var.rate | employment variation rate - quarterly indicator (numeric) |
17 | cons.price.idx | consumer price index - monthly indicator (numeric) |
18 | cons.conf.idx | consumer confidence index - monthly indicator (numeric) |
19 | euribor3m | euribor 3 month rate - daily indicator (numeric) |
20 | nr.employed | number of employees - quarterly indicator (numeric) |
Output variable (desired target): | ||
21 | y | has the client subscribed a term deposit? (binary: 'yes','no') |