文書の過去の版を表示しています。


前説

はじめに

最近、データ・サイエンスという言葉が流行っている。 この言葉は本来は、データを客観的に扱うための科学を指している。今はもう少し広く、統計学に基づくデータの分析・解析という事柄を指して用いられているように思われる。

統計学という言葉自体が、確率論に基づいた現象のモデル化、現象の観測、観測データに基づく現象に関する推測を含んでいる。統計学は科学の文法でもあり、科学の方法論の礎である。そして、統計科学(直訳は統計的な科学)という言葉も昔からあり、統計学およびそれに立脚した科学を指している。応用統計学は、統計学を様々な実世界の問題に応用しながら、理論の発展や拡充を目指す立場である。

少し前には、データ・マイニングという言葉が流行した。データを金鉱に喩えて、価値のあるもの(知識)をデータから見い出す(発見する)ことを志向する用語である。データからの知識発見、という呼び方もある。計算機工学の分野で発展してきた経緯から、これらは発見した知識の再現性についての検討を、それほどは重視しない、という特徴がある。データ・マイニングはビッグ・データ(とても大きなデータの総称で、ラージよりもヒュージよりもビッグの方が大きいらしい)に関する研究分野と言えなくもないが、ビッグ・データはとても大きなデータがあれば何ができるか、そのようなデータを扱うのに何が必要か、を考える分野の総称として用いられ始めている。その中で統計科学がどのような存在感を増していくかは、大きな課題である。

他にデータ解析、データ分析など、データを強調して、統計学あるいは統計という言葉を隠蔽した用語もある。これらはデータ・サイエンスよりはもう少し、データを分析・解析する手順や作法、手筋、定石といったものを体系化して、組み合わせて用いられるように提供しようとする立場を強調している。 もう少し古くから工学の分野にいる統計学者の中に、統計工学という言葉を用いる向きもある。この用語も統計的な手法を工学的に用いる、あるいは工学的な問題に統計的な手法を用いる、という目的で、手順や作法を体系化しようとする。

似たような印象を持つ言葉にデータ工学もある。こちらはデータを扱うための工学として、計算機工学の分野を中心に用いられている。

いずれの用語も、立場を明確に宣言するための宣言であり、目的や手段は綺麗に分かれる訳では無い。 例えばデータについてのサイエンスと統計的なエンジニアリングの2つがあったとして、両者の違いはデータを強調するか、統計を強調するか、であり目標とするところは存外に近いかもしれない。

また問題の特定と解法の探求に統計学に基づくデータ解析・分析手法を用いることを、統計的な問題解決のアプローチと呼ぶことがある。

より混乱する用語に、可視化と見える化がある。可視化は、目に見えないものを見えるように表現することの総称であり、コンピュータ・グラフィックスなどの計算機工学や、統計学におけるデータのグラフィカルな表現(グラフ、図示)などを指す。見える化は日本語で、そもそも日本語としてもおかしいが、問題の所在や特徴を一目瞭然に提示することを指して言うのであり、決してグラフ表現を伴う必要はない。それが今は、可視化と同様にグラフィカルに表現することを指して用いられることが増えてきている。

QC7つ道具

前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 QC7つ道具とは、

  1. パレート図: 問題の優先順位の決定 (1次元の分析法)
  2. グラフ: データの図示
  3. 管理図: 対象の安定性の検討
  4. チェックシート: データの取得と現状の図示
  5. ヒストグラム: 分布の検討
  6. 散布図: 因果関係の分析
  7. 層別: 問題の細分化、切り分け、掘り下げ
  8. 特性要因図: メカニズムや因果関係の検討

の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係

  1. テーマの選定: 問題を絞る
  2. 現状把握: QC7つ道具の出番
  3. 解析: QC7つ道具の出番
  4. 対策: 解析に基づいて対策を講じる
  5. 効果の確認: 再現性の確認
  6. 標準化: 他への展開
  7. 残された課題と今後の進め方: 解決に満足せずに次のPDCAに繋げる

から、現状把握と解析でQC7つ道具を精力的に用いることになる。

今年のお題

今年度は、ポルトガルのとある銀行の定期預金獲得キャンペーンのためのテレマーケティングを対象とし、より効率のよいテレマーケティングを行うために、そのキャンペーンの記録を分析して、定期預金の誘いに応じやすいターゲット層を見つけるモデルを構築すること、がお題である。

  • ポルトガルはユーラシア大陸の最西端の共和制国家。国土は北海道より1割大きいぐらい、あるいは九州を縦に2個並べたぐらい、人口は1千万人を少し超えたぐらい、GDPは約2400億ドル。首都はリスボン。
  • テレマーケティングとは、電話を掛けて勧誘をするマーケティング手法のこと。
  • データの取得期間は2008年5月から2010年11月までの2年半で、この期間に実施した45211人へのテレマーケティングの結果が記録されている。
  • 効率のよいテレマーケティングの定義には少なくとも、勧誘の成功率の高いターゲット層(打率、シュート成功率、のようなもの)、勧誘すれば成功する潜在顧客が多いターゲット層(打数、シュート成功回数、のようなもの)の2種類は考えられそう。

解析の準備

とりあえず今週はRコマンダーを使う。 Rコマンダーについては、下記のURLがとても参考になる。 \begin{itemize} \item http://mjin.doshisha.ac.jp/R/38/38.html \item http://mjin.doshisha.ac.jp/R/39/39.html \item http://www.josai.ac.jp/~nagasima/contents/doc/rcmdr/100105presen.pdf \item http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf \end{itemize} \noindent 斜め読みして使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。