==== 前説 ====
=== PPDAC ===
対象の事実を観察して、疑問や問題を明確にしてから、データをに基づいて疑問や問題の解決を図ることは、科学的探索の基本姿勢である。
そのための取り組みの流れの一つに、PPDACサイクルがある。Problem, Plan, Data, Analysis, Conclusionの5つのステップからなる問題解決への取り組みをPPDACと呼ぶ。この取り組みは、PからCまで素直に到達できることを保証する訳ではない。Problem, Planと進み、Dataステップで適切なデータが入手できないことが判明して、またPlanをやりなおす、などもあり得る。
表:PPDAC
| |Step|ステップ|図|
|P|Problem|問題設定|{{:mselab:2014:stat:week1:99.investigative.png?600}}|
|P|Plan|計画| ::: |
|D|Data|データ| ::: |
|A|Analysis|解析| ::: |
|C|Conclusion|結論| ::: |
PPDACサイクルはこの5つのステップを繰り返すことで、真実に近づいていく。逆にこれらがないとどうなるか。Problemステップで設定する問題と目的なしには、Planステップで目標が検討しにくい。またPlanステップで設定する目標なしには、Dataステップでのデータ収集とAnalysisステップでの解析プロセスが迷子になり、またAnalysisステップを終えてConclusionステップに移るタイミングを判断できない。
前のステップをしっかりと進めた方が、次のステップが順調に進みやすい、という点でQCストーリーと似ている。
PPDACの図は、[[https://www.google.com/search?rls=en&q=PPDAC&ie=UTF-8&oe=UTF-8|Googleさんに聞いて]]から画像検索を依頼すれば、たくさん表示されるので、一つ、一番古いと思われるものを引用した。これは、[[https://www.stat.auckland.ac.nz/~wild/StatThink/|このページ]]に掲載されているカナダ発の[[https://www.stat.auckland.ac.nz/~wild/StatThink/images/99.Investigative.png|この図]]で、これ以外にもたくさんの図がインターネット上には見つかる。
データの解析には、問題の明確化と目的の設定(P:Problem)、次いで、目的の設定を受けた目標の設定(P:Plan)が不可欠だからである。どのような問題を解決・解消するために、あるいは、どのような状況を改善するためにデータを扱うか、をまず明確にする。そして、その問題や状況の現状をデータから定量的に把握する。そのために問題を明確にして、分析の目的を設定しなければ、解析の手順が容易に迷子になりうる。ヒストグラムや棒グラフを描くにせよ、クロス集計したり散布図などを描くにせよ、どの変数あるいはどの集計値(統計量とも)を基準に考え、あるいはどのような評価尺度を改善していくか、をまず明確にするのである。
目的(P:Problem)はデータの解析が目指す方向を示し、目標(P:Plan)はどんな解析結果を得ると結論(C:Conclusion)を得られるかを示す。
目的と目標とが決まれば、あとはどのようなデータ(D:Data)を収集して、どのように分析(A:Analysis)すればよいかのアプローチが定まる。
分析には、層別しながらとなるが、集計やグラフなどの手作業、回帰分析などの多変量解析手法、決定木やクラスタリングなどのデータマイニング手法、サポートベクトルマシンや弱機械のブースティングなどの機械学習の手法などを用いる。求めているのは目標を達成するような分析結果であり、様々な手法はそのための手段に過ぎないことは常に認識しておく必要がある。
このような考えの進め方にPPDACが適しているので、この実験はこれに基づいて設計した。他にも科学的探求の方法、と呼ばれるアプローチ(サイクル、取り組み方、進め方、ステップなど)は様々あるので、興味のある人は調べてみるといい。
=== 今年度のデータ ===
去年と同じく[[data:bank_direct_telemarketing|定期預金の獲得キャンペーンのデータ]]を用いる。このデータの背景と概要については、リンク先のページを参照のこと。
=== 問題の確認 (PPDACのPとP) ====
今年はデータに触れる前に、まずは実験のペア同士で[[data:bank_direct_telemarketing|定期預金の獲得キャンペーンのデータ]]のページを眺めながら、このデータについてディスカッションすること。ディスカッションの目的は次の2つ。
- 17個ある変数について、思いついたことをメモ書きし、状況を整理し、その分類を考えること。(親和図法)
- 17個ある変数のうち、yとある「定期預金獲得」と関係のありそうな変数を事前に検討しておくこと。(連関図法)
=== 現状の把握 (PPDACのD) ===
まずは上で連関図法まで取り組んだ結果を、データから確認する。
=== QC7つ道具 ===
前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。
QC7つ道具とは、
- パレート図: 問題の優先順位の決定 (1次元の分析法)
- グラフ: データの図示
- 管理図: 対象の安定性の検討
- チェックシート: データの取得と現状の図示
- ヒストグラム: 分布の検討
- 散布図: 因果関係の分析
- 層別: 問題の細分化、切り分け、掘り下げ
- 特性要因図: メカニズムや因果関係の検討
の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係
- テーマの選定: 問題を絞る
- 現状把握: QC7つ道具の出番
- 解析: QC7つ道具の出番
- 対策: 解析に基づいて対策を講じる
- 効果の確認: 再現性の確認
- 標準化: 他への展開
- 残された課題と今後の進め方: 解決に満足せずに次のPDCAに繋げる
から、現状把握と解析でQC7つ道具を精力的に用いることになる。
==== 本題 ====
ここからは、今週の実験手順の説明。実験はペアで行ってもらいます。最初の週に隣同士に座った2人ずつ。
- パソコンは1人1台使ってください。
- 作業は1人のパソコンでやっても、2人で同時にやっても構いませんが、相談しながらやってください。
- 作業内容は分担しても、同時に同じことをやりながら進めても構いませんが、相談しながらやってください。
- 帰るときには、ペアで同じ状態(同じプログラム、同じグラフ、同じ表)を持ち帰ってください。
- レポートは一人1通としてください。
- すべての作業は自宅でもRをインストールすれば行えますので、帰宅後に追加作業を行っても構いません。それ以降の結果をレポート作成時に共有するか否かはお任せします。でも次の週には共有してください。
- 考察は相談しても一人ずつでも構いません。
=== 最低限の準備 ===
- [[data:bank_direct_telemarketing|このページ]]でも紹介している[[http://stat.inf.uec.ac.jp/dokuwiki/lib/exe/fetch.php?media=mselab:2013:stat:week1:bank.zip|古いデータが入っているZIPファイル]]をダウンロードし、中から「bank-full.csv」を取り出す。このファイルは、Cドライブの自分のホームディレクトリ(現在はC:¥Users¥Student)に置く。
- Rを起動し、中で
bank <- read.table("c:¥¥Users¥¥Student¥¥bank-full.csv",
header=TRUE,
sep=";")
を実行して、データをbankというデータ・フレームに読み込む。
- 必要に応じて、追加パッケージもインストールしてみる。例えば
Sys.setenv("http_proxy"="http://130.153.8.19:8080/")
install.packages(c("Rcmdr", "RcmdrPlugin.EZR"), dependencies = TRUE)
を実行してから
library(Rcmdr)
を実行すると、EZR入りのRコマンダーが起動される。
=== 最初のステップ ===
新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。
* [[http://fk-plaza.jp/Solution/solu_nqc7_2.htm|親和図法]]
* [[http://fk-plaza.jp/Solution/solu_nqc7_1.htm|連関図法]]
その次は、パートナーと[[http://stat.inf.uec.ac.jp/dokuwiki/doku.php?id=data:bank_direct_telemarketing|これだけの情報]]から出発して、ネットを使って情報を収集しながら、このデータについての情報を膨らましつつ、{{:mselab:2014:stat:week1:stat2014-prework-by-n7.xlsx|このExcelファイルの中の問い}}に答えながら、データ解析のためのPPDACの最初のPと2つめのPを進める。ここでの作業は「ブレーンストーミング」とその結果の体系化、なので、相手のいうことを批判してはだめ。
ここでは、
- 親和図法の結果としての図が1枚。
- 連関図法の結果としての図が1枚。
の合わせて2枚の図が成果物となる。
=== 続いてRの入門 ===
[[mselab:2014:stat:week1:r1:r-introduction|こちら]]をさらっと眺めておくといい。
=== 以下の流れ (手作業編) ===
上のメモを見ながら、ネットでも調べながら、自分で頑張る。今週はたぶん、それで十分。
=== 以下の流れ (Rコマンダー編) ===
Rコマンダーを使うなら、下記のURLがとても参考になる。
* [[http://mjin.doshisha.ac.jp/R/38/38.html|Rcmdr (1)]]
* [[http://mjin.doshisha.ac.jp/R/39/39.html|Rcmdr (2)]]
* [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja20140902.pdf|Rコマンダー入門]]
これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。
- まずはRコマンダー入門など、上のリンク先にざっと目を通しながら、Rコマンダーに慣れる。
- bank.zipからCSVファイルを取り出して、Rコマンダーで読み込み、「統計量」と「グラフ」のみを用いて現状把握と解析を行う。目的がテレマーケティングによる定期預金の獲得であることは忘れない方がいい。またターゲット層の探索には「層別」を用いるが、種類がbinaryかcategoricalな変数でしか、層別ができないことに注意する。
- 今回の成果物として要求したいのは、次のもの。
- 45211人分のデータの概要を表す表やグラフ、その考察。
- 45211人分のデータから見つけた「ターゲット層」と、その層に営業をかける時の成功率、そしてその層に至った経緯。ターゲット層とは、例えば「結婚していなくて、各種ローンがなくて、破産の経験もなければ、定期預金の契約率が少し高い」などのこと。
- 契約率は分割表から計算できる。
|作業|参考|
|Rコマンダーを起動する|Rコマンダー入門 第1節(p.1)|
|Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)|
|数値による要約|Rコマンダー入門 第3節(p.15)|
=== RかRコマンダーを用いて行うこと ===
- 連関図法の結果のデータからの確認。
* ヒストグラム(hist())や1次元の集計(table())による、各変数の分布の検討
* 散布図(plot())、クロス集計(table())、箱ヒゲ図(boxplot())をうまく使い分けると、変数間の関係を検討できる
- データを分析しながら連関図法の改訂
==== レポートについて ====
* 先週の親和図法と連関図法の結果をエクセルで作成して、ワードファイルに「横」にして貼り付け、解説すること。
* 特に連関図法の結果について、RかRコマンダーで検討すること。それら作成したグラフや表、また計算した集計値(統計値)などをレポートに含める場合、説明・報告・考察に必要なもののみを含めること。
* 図表は読みやすいように配置すること。