最近、データ・サイエンスという言葉が流行っている。 この言葉は本来は、データを客観的に扱うための科学を指している。今はもう少し広く、統計学に基づくデータの分析・解析という事柄を指して用いられているように思われる。
統計学という言葉自体が、確率論に基づいた現象のモデル化、現象の観測、観測データに基づく現象に関する推測を含んでいる。統計学は科学の文法でもあり、科学の方法論の礎である。そして、統計科学(直訳は統計的な科学)という言葉も昔からあり、統計学およびそれに立脚した科学を指している。応用統計学は、統計学を様々な実世界の問題に応用しながら、理論の発展や拡充を目指す立場である。
少し前には、データ・マイニングという言葉が流行した。データを金鉱に喩えて、価値のあるもの(知識)をデータから見い出す(発見する)ことを志向する用語である。データからの知識発見、という呼び方もある。計算機工学の分野で発展してきた経緯から、これらは発見した知識の再現性についての検討を、それほどは重視しない、という特徴がある。データ・マイニングはビッグ・データ(とても大きなデータの総称で、ラージよりもヒュージよりもビッグの方が大きいらしい)に関する研究分野と言えなくもないが、ビッグ・データはとても大きなデータがあれば何ができるか、そのようなデータを扱うのに何が必要か、を考える分野の総称として用いられ始めている。その中で統計科学がどのような存在感を増していくかは、大きな課題である。
他にデータ解析、データ分析など、データを強調して、統計学あるいは統計という言葉を隠蔽した用語もある。これらはデータ・サイエンスよりはもう少し、データを分析・解析する手順や作法、手筋、定石といったものを体系化して、組み合わせて用いられるように提供しようとする立場を強調している。 もう少し古くから工学の分野にいる統計学者の中に、統計工学という言葉を用いる向きもある。この用語も統計的な手法を工学的に用いる、あるいは工学的な問題に統計的な手法を用いる、という目的で、手順や作法を体系化しようとする。
似たような印象を持つ言葉にデータ工学もある。こちらはデータを扱うための工学として、計算機工学の分野を中心に用いられている。
いずれの用語も、立場を明確に宣言するための宣言であり、目的や手段は綺麗に分かれる訳では無い。 例えばデータについてのサイエンスと統計的なエンジニアリングの2つがあったとして、両者の違いはデータを強調するか、統計を強調するか、であり目標とするところは存外に近いかもしれない。
また問題の特定と解法の探求に統計学に基づくデータ解析・分析手法を用いることを、統計的な問題解決のアプローチと呼ぶことがある。
より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。
そのような中で、データ・マイニングとデータ解析にとても近い意味で、統計工学という名称をつけたのがこの実験である。
前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 QC7つ道具とは、
の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係
から、現状把握と解析でQC7つ道具を精力的に用いることになる。
今年度は、ポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングを対象とし、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がお題である。
ここからダウンロードできるはずだが、たまにアクセスできないことがあるので、こちらにも置かせて頂いておく。このデータの概要はUSING DATA MINING FOR BANK DIRECT MARKETING: AN APPLICATION OF THE CRISP-DM METHODOLOGYという文献に記されている。
フィールド(変数)はぜんぶで17あり、フィールドの種類は3種類である。
フィールド番号 | フィールド名 | メモ | 種類 | その他 |
1 | age | 年齢 | (numeric) | |
2 | job | 仕事 | (categorical) | “admin.” 経営者(?), “unknown” 不明, “unemployed” 無職, “management” 管理職(?), “housemaid” メイド, “entrepreneur” 起業家, “student” 学生, “blue-collar” 労働者, “self-employed” 自営業, “retired” 退職者, “technician” 技術者, “services” サービス業 |
3 | marital | 結婚状況 marital status | (categorical) | “married” 既婚, “divorced” 離婚・死別 ; note: “divorced” means divorced or widowed, “single” 未婚 |
4 | education | 教育 | (categorical) | “unknown” 不明, “secondary” 中等教育, “primary” 初等教育, “tertiary” 高等教育 |
5 | default | 破産暦 has credit in default? | (binary) | “yes” 有, “no” 無 |
6 | balance | 平均年間残高 average yearly balance, in euros | (numeric) | |
7 | housing | 住宅ローン has housing loan? | (binary) | “yes” 有, “no” 無 |
8 | loan | 個人ローン has personal loan? | (binary) | “yes” 有, “no” 無 |
9 | contact | 最後のコンタクト手段 contact communication type | (categorical) | “unknown” 不明, “telephone” 電話, “cellular” 携帯電話 |
10 | day | last contact day of the month | (numeric) | |
11 | month | last contact month of year | (categorical) | “jan”, “feb”, “mar”, …, “nov”, “dec” |
12 | duration | 最後のコンタクト時の時間(秒) last contact duration, in seconds | (numeric) | |
13 | campaign | 今回のキャンペーンでのコンタクト回数 number of contacts performed during this campaign and for this client | (numeric, includes last contact) | |
14 | pdays | 以前のキャンペーンでの最終コンタクトからの経過日数 number of days that passed by after the client was last contacted from a previous campaign | (numeric, -1 means client was not previously contacted) | |
15 | previous | number of contacts performed before this campaign and for this client | (numeric) | |
16 | poutcome | outcome of the previous marketing campaign | (categorical) | “unknown”,“other”,“failure”,“success” |
17 | y | has the client subscribed a term deposit? | (binary) | “yes”,“no” |
とりあえず今週はRコマンダーを使う。Rコマンダーについては、下記のURLがとても参考になる。
これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。
作業 | 参考 |
Rコマンダーを起動する | Rコマンダー入門 第1節(p.1) |
Rコマンダーでデータを読み込む | Rコマンダー入門 第2節(p.10) |
数値による要約 | Rコマンダー入門 第3節(p.15) |