対象の事実を観察して、疑問や問題を明確にしてから、データをに基づいて疑問や問題の解決を図ることは、科学的探索の基本姿勢である。 そのための取り組みの流れの一つに、PPDACサイクルがある。
さて、なぜPPDACを持ち出すかというと、データの解析には問題の明確化と目的の設定(P:Problem)、そして目的の設定を受けた目標の設定(P:Plan)が不可欠だからである。 目的はデータの解析が目指す方向を示し、目標はどんな解析結果を得ると結論(C:Conclusion)を得られるかを示す。 目的と目標とが決まれば、あとはどのようなデータ(D:Data)を収集して、どのように分析(A:Analysis)すればよいかのアプローチが定まる。 分析には、層別しながらとなるが、集計やグラフなどの手作業、回帰分析などの多変量解析手法、決定木やクラスタリングなどのデータマイニング手法、サポートベクトルマシンや弱機械のブースティングなどの機械学習の手法などを用いる。求めているのは目標を達成するような分析結果であり、様々な手法はそのための手段に過ぎないことは常に認識しておく必要がある。
Problem, Plan, Data, Analysis, Conclusionの5つのステップからなる問題解決への取り組みをPPDACと呼ぶ。この取り組みは、PからCまで素直に到達できることを保証する訳ではない。Problem, Planと進み、Dataステップで適切なデータが入手できないことが判明して、またPlanをやりなおす、などもあり得る。
表:PPDAC
P | Problem | 問題設定 |
P | Plan | 計画 |
D | Data | データ |
A | Analysis | 解析 |
C | Conclusion | 結論 |
PPDACサイクルはこの5つのステップを繰り返すことで、真実に近づいていく。逆にこれらがないとどうなるか。Problemステップで設定する問題と目的なしには、Planステップで目標が検討しにくい。またPlanステップで設定する目標なしには、Dataステップでのデータ収集とAnalysisステップでの解析プロセスが迷子になり、またAnalysisステップを終えてConclusionステップに移るタイミングを判断できない。 前のステップをしっかりと進めた方が、次のステップが順調に進みやすい、という点でQCストーリーと似ている。
PPDACの図は、Googleさんに聞いてから画像検索を依頼すれば、たくさん表示されるので、ここでは載せない。最近、PPDACの図はこのページに掲載されているカナダ発のこの図までは遡れると教わった。
去年と同じく定期預金の獲得キャンペーンのデータを用いる。このデータの背景と概要については、リンク先のページを参照のこと。
今年はデータに触れる前に、まずは実験のペア同士で定期預金の獲得キャンペーンのデータのページを眺めながら、このデータについてディスカッションすること。ディスカッションの目的は次の2つ。
まずは上で連関図法まで取り組んだ結果を、データから確認する。
前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 QC7つ道具とは、
の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係
から、現状把握と解析でQC7つ道具を精力的に用いることになる。
ここからは、今週の実験手順の説明。実験はペアで行ってもらいます。最初の週に隣同士に座った2人ずつ。
bank <- read.table("c:¥¥Users¥¥Student¥¥bank-full.csv", header=TRUE, sep=";")
を実行して、データをbankというデータ・フレームに読み込む。
Sys.setenv("http_proxy"="http://130.153.8.19:8080/") install.packages(c("Rcmdr", "RcmdrPlugin.EZR"), dependencies = TRUE)
を実行してから
library(Rcmdr)
を実行すると、EZR入りのRコマンダーが起動される。
新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。
その次は、パートナーとこれだけの情報から出発して、ネットを使って情報を収集しながら、このデータについての情報を膨らましつつ、このExcelファイルの中の問いに答えながら、データ解析のためのPPDACの最初のPと2つめのPを進める。ここでの作業は「ブレーンストーミング」とその結果の体系化、なので、相手のいうことを批判してはだめ。
ここでは、
の合わせて2枚の図が成果物となる。
こちらをさらっと眺めておくといい。
上のメモを見ながら、ネットでも調べながら、自分で頑張る。今週はたぶん、それで十分。
Rコマンダーを使うなら、下記のURLがとても参考になる。
これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。
作業 | 参考 |
Rコマンダーを起動する | Rコマンダー入門 第1節(p.1) |
Rコマンダーでデータを読み込む | Rコマンダー入門 第2節(p.10) |
数値による要約 | Rコマンダー入門 第3節(p.15) |