差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
最新のリビジョン両方とも次のリビジョン
mselab:2014:stat:week1:r1 [2014/10/21 00:02] – [今週の実験手順] watalumselab:2014:stat:week1:r1 [2015/01/13 10:00] watalu
行 3: 行 3:
  
 対象の事実を観察して、疑問や問題を明確にしてから、データをに基づいて疑問や問題の解決を図ることは、科学的探索の基本姿勢である。 対象の事実を観察して、疑問や問題を明確にしてから、データをに基づいて疑問や問題の解決を図ることは、科学的探索の基本姿勢である。
-そのための取り組みの流れの一つに、PPDACサイクルがある。 +そのための取り組みの流れの一つに、PPDACサイクルがある。Problem, Plan, Data, Analysis, Conclusionの5つのステップからなる問題解決への取り組みをPPDACと呼ぶ。この取り組みは、PからCまで素直に到達できることを保証する訳ではない。Problem, Planと進み、Dataステップで適切なデータが入手できないことが判明して、またPlanをやりなおす、などもあり得る。
- +
-さて、なぜPPDACを持ち出すかというと、データの解析には問題の明確化と目的の設定(P:Problem)、そして目的の設定を受けた目標の設定(P:Plan)が不可欠だからである。 +
-目的はデータの解析が目指す方向を示し、目標はどんな解析結果を得ると結論(C:Conclusion)を得られるかを示す。 +
-目的と目標とが決まれば、あとはどのようなデータ(D:Data)を収集して、どのように分析(A:Analysis)すればよいかのアプローチが定まる。 +
-分析には、層別しながらとなるが、集計やグラフなどの手作業、回帰分析などの多変量解析手法、決定木やクラスタリングなどのデータマイニング手法、サポートベクトルマシンや弱機械のブースティングなどの機械学習の手法などを用いる。求めているのは目標を達成するような分析結果であり、様々な手法はそのための手段に過ぎないことは常に認識しておく必要がある。 +
- +
-Problem, Plan, Data, Analysis, Conclusionの5つのステップからなる問題解決への取り組みをPPDACと呼ぶ。この取り組みは、PからCまで素直に到達できることを保証する訳ではない。Problem, Planと進み、Dataステップで適切なデータが入手できないことが判明して、またPlanをやりなおす、などもあり得る。+
  
 表:PPDAC 表:PPDAC
行 22: 行 15:
 前のステップをしっかりと進めた方が、次のステップが順調に進みやすい、という点でQCストーリーと似ている。 前のステップをしっかりと進めた方が、次のステップが順調に進みやすい、という点でQCストーリーと似ている。
  
-PPDACの図は、[[https://www.google.com/search?rls=en&q=PPDAC&ie=UTF-8&oe=UTF-8|Googleさんに聞いて]]から画像検索を依頼すれば、たくさん表示されるので、ここでは載せな。最近、PPDACは[[https://www.stat.auckland.ac.nz/~wild/StatThink/|このページ]]に掲載されているカナダ発の[[https://www.stat.auckland.ac.nz/~wild/StatThink/images/99.Investigative.png|この図]]まではれると教わった。+ 
 +PPDACの図は、[[https://www.google.com/search?rls=en&q=PPDAC&ie=UTF-8&oe=UTF-8|Googleさんに聞いて]]から画像検索を依頼すれば、たくさん表示されるので、一つ、一番古と思われるもを引用しておく。 
 + 
 +{{:mselab:2014:stat:week1:99.investigative.png?200|}} 
 + 
 +これ[[https://www.stat.auckland.ac.nz/~wild/StatThink/|このページ]]に掲載されているカナダ発の[[https://www.stat.auckland.ac.nz/~wild/StatThink/images/99.Investigative.png|この図]]で、これ以外にもたくさんの図がインターネット上には見つかる。 
 + 
 +データの解析には、問題の明確化と目的の設定(P:Problem)、次いで、目的の設定を受けた目標の設定(P:Plan)が不可欠だからである。どのような問題を解決・解消するために、あるいは、どのような状況を改善するためにデータを扱うか、をず明確にする。そして、その問題や状況の現状をデータから定量的に把握する。そのために問題を明確にして、分析の目的を設定しなければ、解析の手順が容易に迷子になりうる。ヒストグラムや棒グラフを描くにせよ、クロス集計したり散布図などを描くにせよ、どの変数あるいはどの集計値(統計量とも)を基準に考え、あるいはどのような評価尺度を改善していくか、をまず明確にするのある。 
 + 
 +目的(P:Problem)データの解析が目指す方向を示し、目標(P:Plan)はどんな解析結果を得ると結論(C:Conclusion)を得られるかを示す。 
 +目的目標とが決まれば、あとはどのようなデータ(D:Data)を収集して、どのように分析(A:Analysis)すればよいかのアプローチが定まる。 
 +分析には、層別しながらとなるが、集計やグラフなどの手作業、回帰分析などの多変量解析手法、決定木やクラスタリングなどのデータマイニング手法、サポートベクトルマシンや弱機械のブースティングなどの機械学習の手法などを用いる。求めているのは目標を達成するような分析結果であり、様々な手法はそのめの手段に過ぎないことは常に認識しておく必要がある。 
 + 
 +このような考えの進め方にPPDACが適しているので、この実験はこれに基づいて設計した。他にも科学的探求の方法、と呼ばれるアプローチ(サイクル、取り組み方、進め方、ステップなど)は様々あるので、興味のある人は調べてみるといい
  
 === 今年度のデータ === === 今年度のデータ ===
行 66: 行 72:
 から、現状把握と解析でQC7つ道具を精力的に用いることになる。 から、現状把握と解析でQC7つ道具を精力的に用いることになる。
  
 +==== 本題 ====
  
 +ここからは、今週の実験手順の説明。実験はペアで行ってもらいます。最初の週に隣同士に座った2人ずつ。
  
-==== 今週実験手順 ====+  - パソコンは1人1台使ってください。 
 +  - 作業は1人パソコンでやっても、2人で同時にやっても構いませんが、相談しながらやってください。 
 +  - 作業内容は分担しても、同時に同じことをやりながら進めても構いませんが、相談しながらやってください。 
 +  - 帰るときには、ペアで同じ状態(同じプログラム、同じグラフ、同じ表)を持ち帰ってください。 
 +  - レポートは一人1通としてください。 
 +  - すべての作業は自宅でもRをインストールすれば行えますので、帰宅後に追加作業を行っても構いません。それ以降の結果をレポート作成時に共有するか否かはお任せします。でも次の週には共有してください。 
 +  - 考察は相談しても一人ずつでも構いません。
  
 === 最低限の準備 === === 最低限の準備 ===
行 87: 行 101:
 === 最初のステップ === === 最初のステップ ===
  
-新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。その次は、パートナーと[[http://stat.inf.uec.ac.jp/dokuwiki/doku.php?id=data:bank_direct_telemarketing|これだけの情報]]から出発して、ネットを使って情報を収集しながら、このデータについての情報を膨らましつつ、{{:mselab:2014:stat:week1:stat2014-prework-by-n7.xlsx|このExcelファイルの中の問い}}に答えながら、データ解析のためのPPDACの最初のPと2つめのPを進める。+新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。 
 + 
 +  * [[http://fk-plaza.jp/Solution/solu_nqc7_2.htm|親和図法]] 
 +  * [[http://fk-plaza.jp/Solution/solu_nqc7_1.htm|連関図法]] 
 + 
 +その次は、パートナーと[[http://stat.inf.uec.ac.jp/dokuwiki/doku.php?id=data:bank_direct_telemarketing|これだけの情報]]から出発して、ネットを使って情報を収集しながら、このデータについての情報を膨らましつつ、{{:mselab:2014:stat:week1:stat2014-prework-by-n7.xlsx|このExcelファイルの中の問い}}に答えながら、データ解析のためのPPDACの最初のPと2つめのPを進める。ここでの作業は「ブレーンストーミング」とその結果の体系化、なので、相手のいうことを批判してはだめ
  
 ここでは、 ここでは、
行 96: 行 115:
 の合わせて2枚の図が成果物となる。 の合わせて2枚の図が成果物となる。
  
-=== 以下流れ (手作業編) ===+=== 続いてR入門 ===
  
 +[[mselab:2014:stat:week1:r1:r-introduction|こちら]]をさらっと眺めておくといい。
 +
 +=== 以下の流れ (手作業編) ===
  
 +上のメモを見ながら、ネットでも調べながら、自分で頑張る。今週はたぶん、それで十分。
  
 === 以下の流れ (Rコマンダー編) === === 以下の流れ (Rコマンダー編) ===
行 106: 行 129:
   * [[http://mjin.doshisha.ac.jp/R/38/38.html|Rcmdr (1)]]   * [[http://mjin.doshisha.ac.jp/R/38/38.html|Rcmdr (1)]]
   * [[http://mjin.doshisha.ac.jp/R/39/39.html|Rcmdr (2)]]   * [[http://mjin.doshisha.ac.jp/R/39/39.html|Rcmdr (2)]]
-  * [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja.pdf|Rコマンダー入門]]+  * [[http://www.ec.kansai-u.ac.jp/user/arakit/documents/Getting-Started-with-the-Rcmdr-ja20140902.pdf|Rコマンダー入門]]
  
 これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。 これらを斜め読みすれば使い始めることができる簡単なソフトウェアで、今回はグラフと統計量のみを用いて、データの現状を把握し、定期預金の契約率の高いターゲット層を発見することが目標である。
行 121: 行 144:
 |Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)| |Rコマンダーでデータを読み込む|Rコマンダー入門 第2節(p.10)|
 |数値による要約|Rコマンダー入門 第3節(p.15)| |数値による要約|Rコマンダー入門 第3節(p.15)|
 +
 +=== RかRコマンダーを用いて行うこと ===
 +
 +  - 連関図法の結果のデータからの確認。
 +    * ヒストグラム(hist())や1次元の集計(table())による、各変数の分布の検討
 +    * 散布図(plot())、クロス集計(table())、箱ヒゲ図(boxplot())をうまく使い分けると、変数間の関係を検討できる
 +  - データを分析しながら連関図法の改訂
 +
 ==== レポートについて ==== ==== レポートについて ====
  
-  * Rコマンダーなどで作成したグラフや表、また計算した集計値(統計値)などをレポートに含める場合、説明・報告・考察に必要なもののみを含めること。+  * 先週の親和図法と連関図法の結果をエクセルで作成して、ワードファイルに「横」にして貼り付け、解説すること。 
 +  * 特に連関図法の結果について、RかRコマンダーで検討すること。それら作成したグラフや表、また計算した集計値(統計値)などをレポートに含める場合、説明・報告・考察に必要なもののみを含めること。
   * 図表は読みやすいように配置すること。   * 図表は読みやすいように配置すること。
 +