銀行のテレマーケティングのデータ

このデータはポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングに関するものである。

  • ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。
  • テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。
  • データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。
  • 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。

提供されているのは個々のターゲットへのプロモーションの完全な記録ではなく、ある時点における個々のターゲットへのプロモーションの状態であることには留意する必要がある。このデータに基づいて、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がこのデータをデータマイニングする時のひとつの目標になる。

同じ案件に関して、時点がずれて2種類のデータが提供されている。

1つ目のデータ

ここからダウンロードできるファイルの旧版で、このファイルのこと。このデータの概要はUsing Data Mining For Bank Direct Marketing: An Application of the Crips-DM Methodologyという文献に記されている。

  • [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.

フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。

フィールド番号フィールド名メモ種類その他
1age年齢(numeric)
2job仕事(categorical)“admin.” 経営者(?), “unknown” 不明, “unemployed” 無職, “management” 管理職(?), “housemaid” メイド, “entrepreneur” 起業家, “student” 学生, “blue-collar” 労働者, “self-employed” 自営業, “retired” 退職者, “technician” 技術者, “services” サービス業
3marital結婚状況 marital status(categorical)“married” 既婚, “divorced” 離婚・死別 ; note: “divorced” means divorced or widowed, “single” 未婚
4education教育(categorical)“unknown” 不明, “secondary” 中等教育, “primary” 初等教育, “tertiary” 高等教育
5default破産暦 has credit in default?(binary)“yes” 有, “no” 無
6balance平均年間残高 average yearly balance, in euros(numeric)
7housing住宅ローン has housing loan?(binary)“yes” 有, “no” 無
8loan個人ローン has personal loan? (binary)“yes” 有, “no” 無
9contact最後のコンタクト手段 contact communication type(categorical)“unknown” 不明, “telephone” 電話, “cellular” 携帯電話
10daylast contact day of the month(numeric)
11monthlast contact month of year(categorical)“jan”, “feb”, “mar”, …, “nov”, “dec”
12duration最後のコール時の時間(秒) last contact duration, in seconds(numeric)
13campaign今回のキャンペーンでの総コール回数 number of contacts performed during this campaign and for this client(numeric, includes last contact)
14pdays前回のキャンペーンでの最終コールからの経過日数 number of days that passed by after the client was last contacted from a previous campaign (numeric, -1 means client was not previously contacted)
15previous今回のキャンペーン以前の総コール回数 number of contacts performed before this campaign and for this client(numeric)
16poutcome前回のキャンペーンの結果 outcome of the previous marketing campaign(categorical)“unknown”,“other”,“failure”,“success”
17yhas the client subscribed a term deposit?(binary)“yes”,“no”

2つ目のデータ

同じくここからダウンロードできる bank-addition.zip というファイルに含まれている。A Data-Driven Approach to Predict the Success of Bank Telemarketingという論文で分析されたデータとほぼ同等、と評されている。この文献も参考になるかもしれない。

  • [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014

上の16の属性に加えて、幾つかの属性が加わり、変数も少し変わったデータである。

Input variables:
# bank client data:
1age(numeric)
2jobtype of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
3maritalmarital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)
4education(categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
5defaulthas credit in default? (categorical: 'no','yes','unknown')
6housinghas housing loan? (categorical: 'no','yes','unknown')
7loanhas personal loan? (categorical: 'no','yes','unknown')
# related with the last contact of the current campaign:
8contactcontact communication type (categorical: 'cellular','telephone')
9monthlast contact month of year (categorical: 'jan', 'feb', 'mar', …, 'nov', 'dec')
10day_of_weeklast contact day of the week (categorical: 'mon','tue','wed','thu','fri')
11durationlast contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.
# other attributes:
12campaignnumber of contacts performed during this campaign and for this client (numeric, includes last contact)
13pdaysnumber of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
14previousnumber of contacts performed before this campaign and for this client (numeric)
15poutcomeoutcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')
# social and economic context attributes
16emp.var.rateemployment variation rate - quarterly indicator (numeric)
17cons.price.idxconsumer price index - monthly indicator (numeric)
18cons.conf.idxconsumer confidence index - monthly indicator (numeric)
19euribor3meuribor 3 month rate - daily indicator (numeric)
20nr.employednumber of employees - quarterly indicator (numeric)
Output variable (desired target):
21yhas the client subscribed a term deposit? (binary: 'yes','no')