mselab:2013:stat:week1:r1 [Applied Statistics and Data Mining]

前説

はじめに

最近、データ・サイエンスという言葉が流行っている。この言葉は本来は、データを客観的に扱うための科学を指している。今はもう少し広く、統計学に基づくデータの分析・解析という事柄を指して用いられているように思われる。

統計学という言葉自体が、確率論に基づいた現象のモデル化、現象の観測、観測データに基づく現象に関する推測を含んでいる。統計学は科学の文法でもあり、科学の方法論の礎である。そして、統計科学(直訳は統計的な科学)という言葉も昔からあり、統計学およびそれに立脚した科学を指している。応用統計学は、統計学を様々な実世界の問題に応用しながら、理論の発展や拡充を目指す立場である。

少し前には、データ・マイニングという言葉が流行した。データを金鉱に喩えて、価値のあるもの(知識)をデータから見い出す(発見する)ことを志向する用語である。データからの知識発見、という呼び方もある。計算機工学の分野で発展してきた経緯から、これらは発見した知識の再現性についての検討を、それほどは重視しない、という特徴がある。データ・マイニングはビッグ・データ(とても大きなデータの総称で、ラージよりもヒュージよりもビッグの方が大きいらしい)に関する研究分野と言えなくもないが、ビッグ・データはとても大きなデータがあれば何ができるか、そのようなデータを扱うのに何が必要か、を考える分野の総称として用いられ始めている。その中で統計科学がどのような存在感を増していくかは、大きな課題である。

他にデータ解析、データ分析など、データを強調して、統計学あるいは統計という言葉を隠蔽した用語もある。これらはデータ・サイエンスよりはもう少し、データを分析・解析する手順や作法、手筋、定石といったものを体系化して、組み合わせて用いられるように提供しようとする立場を強調している。もう少し古くから工学の分野にいる統計学者の中に、統計工学という言葉を用いる向きもある。この用語も統計的な手法を工学的に用いる、あるいは工学的な問題に統計的な手法を用いる、という目的で、手順や作法を体系化しようとする。

似たような印象を持つ言葉にデータ工学もある。こちらはデータを扱うための工学として、計算機工学の分野を中心に用いられている。

いずれの用語も、立場を明確に宣言するための宣言であり、目的や手段は綺麗に分かれる訳では無い。例えばデータについてのサイエンスと統計的なエンジニアリングの2つがあったとして、両者の違いはデータを強調するか、統計を強調するか、であり目標とするところは存外に近いかもしれない。

また問題の特定と解法の探求に統計学に基づくデータ解析・分析手法を用いることを、統計的な問題解決のアプローチと呼ぶことがある。

より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。

そのような中で、データ・マイニングとデータ解析にとても近い意味で、統計工学という名称をつけたのがこの実験である。

QC7つ道具

前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 QC7つ道具とは、

パレート図: 問題の優先順位の決定 (1次元の分析法)
グラフ: データの図示
管理図: 対象の安定性の検討
チェックシート: データの取得と現状の図示
ヒストグラム: 分布の検討
散布図: 因果関係の分析
層別: 問題の細分化、切り分け、掘り下げ
特性要因図: メカニズムや因果関係の検討

の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係

テーマの選定: 問題を絞る
現状把握: QC7つ道具の出番
解析: QC7つ道具の出番
対策: 解析に基づいて対策を講じる
効果の確認: 再現性の確認
標準化: 他への展開
残された課題と今後の進め方: 解決に満足せずに次のPDCAに繋げる

から、現状把握と解析でQC7つ道具を精力的に用いることになる。

今年のお題

今年度は、ポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングを対象とし、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がお題である。

ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。
テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。
データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。
効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。

データについて

ここからダウンロードできるはずだが、たまにアクセスできないことがあるので、こちらにも置かせて頂いておく。このデータの概要はUSING DATA MINING FOR BANK DIRECT MARKETING: AN APPLICATION OF THE CRISP-DM METHODOLOGYという文献に記されている。

[Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.

フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。

フィールド番号	フィールド名	メモ	種類	その他
1	age	年齢	(numeric)
2	job	仕事	(categorical)	“admin.” 経営者(?), “unknown” 不明, “unemployed” 無職, “management” 管理職(?), “housemaid” メイド, “entrepreneur” 起業家, “student” 学生, “blue-collar” 労働者, “self-employed” 自営業, “retired” 退職者, “technician” 技術者, “services” サービス業
3	marital	結婚状況 marital status	(categorical)	“married” 既婚, “divorced” 離婚・死別 ; note: “divorced” means divorced or widowed, “single” 未婚
4	education	教育	(categorical)	“unknown” 不明, “secondary” 中等教育, “primary” 初等教育, “tertiary” 高等教育
5	default	破産暦 has credit in default?	(binary)	“yes” 有, “no” 無
6	balance	平均年間残高 average yearly balance, in euros	(numeric)
7	housing	住宅ローン has housing loan?	(binary)	“yes” 有, “no” 無
8	loan	個人ローン has personal loan?	(binary)	“yes” 有, “no” 無
9	contact	最後のコンタクト手段 contact communication type	(categorical)	“unknown” 不明, “telephone” 電話, “cellular” 携帯電話
10	day	last contact day of the month	(numeric)
11	month	last contact month of year	(categorical)	“jan”, “feb”, “mar”, …, “nov”, “dec”
12	duration	最後のコンタクト時の時間(秒) last contact duration, in seconds	(numeric)
13	campaign	今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client	(numeric, includes last contact)
14	pdays	以前のキャンペーンでの最終コンタクトからの経過日数 number of days that passed by after the client was last contacted from a previous campaign	(numeric, -1 means client was not previously contacted)
15	previous	number of contacts performed before this campaign and for this client	(numeric)
16	poutcome	outcome of the previous marketing campaign	(categorical)	“unknown”,“other”,“failure”,“success”
17	y	has the client subscribed a term deposit?	(binary)	“yes”,“no”

解析の準備

とりあえず今週はRコマンダーを使う。Rコマンダーについては、下記のURLがとても参考になる。

これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。

今回の流れ

まずはRコマンダー入門など、上のリンク先にざっと目を通しながら、Rコマンダーに慣れる。
bank.zipからCSVファイルを取り出して、Rコマンダーで読み込み、「統計量」と「グラフ」のみを用いて現状把握と解析を行う。目的がテレマーケティングによる定期預金の獲得であることは忘れない方がいい。またターゲット層の探索には「層別」を用いるが、種類がbinaryかcategoricalな変数でしか、層別ができないことに注意する。
今回の成果物として要求したいのは、次のもの。
1. 45211人分のデータの概要を表す表やグラフ、その考察。
2. 45211人分のデータから見つけた「ターゲット層」と、その層に営業をかける時の成功率、そしてその層に至った経緯。ターゲット層とは、例えば「結婚していなくて、各種ローンがなくて、破産の経験もなければ、定期預金の契約率が少し高い」などのこと。
3. 契約率は分割表から計算できる。

作業	参考
Rコマンダーを起動する	Rコマンダー入門第1節(p.1)
Rコマンダーでデータを読み込む	Rコマンダー入門第2節(p.10)
数値による要約	Rコマンダー入門第3節(p.15)

レポートについて

提出の要領は次の通り。

項目	指定
提出期限	次回の実験実施日の前日(月曜日)の午後6時00分まで
提出方法	電子メールに添付 (宛先は配付資料に記載)
ファイル形式	Wordファイル (LaTeXで作成する場合は、dvipdfmxでPDFに変換すること)
メールの件名	統計実験1レポート提出(XXXXXXX)
レポートファイルの名称	XXXXXXX_統計実験1.doc XXXXXXX_統計実験1.docx XXXXXXX_統計実験1.pdf のどれか
提出部数	レポートは各自1通ずつ。レポートの表紙に、共同実験者の学籍番号と氏名を記すこと。

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

目次

前説

はじめに

QC7つ道具

今年のお題

データについて

解析の準備

今回の流れ

レポートについて

サイト用ツール

ページ用ツール

ユーザ用ツール

目次

前説

はじめに

QC7つ道具

今年のお題

データについて

解析の準備

今回の流れ

レポートについて