差分
このページの2つのバージョン間の差分を表示します。
次のリビジョン | 前のリビジョン | ||
mselab:2016:stat:week1 [2016/10/31 21:56] – created watalu | mselab:2016:stat:week1 [2017/10/31 12:30] (現在) – watalu | ||
---|---|---|---|
行 28: | 行 28: | ||
このような考えの進め方にPPDACが適しているので、この実験はこれに基づいて設計した。他にも科学的探求の方法、と呼ばれるアプローチ(サイクル、取り組み方、進め方、ステップなど)は様々あるので、興味のある人は調べてみるといい。 | このような考えの進め方にPPDACが適しているので、この実験はこれに基づいて設計した。他にも科学的探求の方法、と呼ばれるアプローチ(サイクル、取り組み方、進め方、ステップなど)は様々あるので、興味のある人は調べてみるといい。 | ||
- | === 今年度のデータ === | ||
- | |||
- | [[data: | ||
- | |||
- | === 問題の確認 (PPDACのPとP) ==== | ||
- | |||
- | 今年はデータに触れる前に、まずは実験のペア同士で[[data: | ||
- | |||
- | - 86個ある変数について、思いついたことをメモ書きし、状況を整理し、その分類を考えること。(親和図法) | ||
- | - 86個ある変数のうち、yとある「定期預金獲得」と関係のありそうな変数を事前に検討しておくこと。(連関図法) | ||
- | |||
- | === 現状の把握 (PPDACのD) === | ||
- | |||
- | まずは上で連関図法まで取り組んだ結果を、データから確認する。 | ||
- | |||
- | |||
- | === QC7つ道具 === | ||
- | |||
- | 前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 | ||
- | QC7つ道具とは、 | ||
- | |||
- | - パレート図: | ||
- | - グラフ: データの図示 | ||
- | - 管理図: 対象の安定性の検討 | ||
- | - チェックシート: | ||
- | - ヒストグラム: | ||
- | - 散布図: 因果関係の分析 | ||
- | - 層別: 問題の細分化、切り分け、掘り下げ | ||
- | - 特性要因図: | ||
- | |||
- | の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係 | ||
- | |||
- | - テーマの選定: | ||
- | - 現状把握: | ||
- | - 解析: QC7つ道具の出番 | ||
- | - 対策: 解析に基づいて対策を講じる | ||
- | - 効果の確認: | ||
- | - 標準化: 他への展開 | ||
- | - 残された課題と今後の進め方: | ||
- | |||
- | から、現状把握と解析でQC7つ道具を精力的に用いることになる。 | ||
==== 本題 ==== | ==== 本題 ==== | ||
行 96: | 行 55: | ||
=== 最初のステップ === | === 最初のステップ === | ||
- | 新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。 | + | データを分析・解析・マイニング・サイエンスする、あらゆる場合に、データに触れる前に、おおよその中身についての思いを巡らす。データの全体像を大まかに入れる箱を、まずは頭の中に用意する、とも言える。心の準備とも言えるが、この段階をきちんと経ないと、ビジョンやイメージを持てなくて、容易に迷子になる。 |
- | * [[http:// | + | その次は、パートナーと[[data: |
- | * [[http:// | + | |
- | + | ||
- | その次は、パートナーと[[http:// | + | |
ここでは、 | ここでは、 | ||
行 114: | 行 70: | ||
[[mselab: | [[mselab: | ||
- | === 以下の流れ (手作業編) === | + | ここまでが準備 |
+ | |||
+ | ==== 実際の実験取り組み ==== | ||
+ | === 事前解析としての変数の理解 === | ||
+ | |||
+ | [[data: | ||
+ | |||
+ | ここでの成果物は、変数の分類表、あるいは特性要因図、あるいは親和図と連関図の2つ、のいずれか。データを解析する前に、変数一覧を眺めて検討することが大事。 | ||
+ | |||
+ | == 問題の確認 | ||
+ | |||
+ | 今年はデータに触れる前に、まずは実験のペア同士で[[data: | ||
+ | |||
+ | - 86個ある変数について、思いついたことをメモ書きし、状況を整理し、その分類を考えること。(親和図法) | ||
+ | - 86個ある変数のうち、V86とある「CARAVAN」と関係のありそうな変数を事前に検討しておくこと。(連関図法) | ||
+ | |||
+ | 新QC7つ道具のうち、親和図法と連関図法について、少し学ぶ。 | ||
+ | |||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | == 現状の把握 (PPDACのD) == | ||
+ | |||
+ | まずはデータの変数一覧を眺めて相談しながら、V86とどの変数が関係ありそうか、どの変数が関係なさそうか、をExcelなどに変数表をコピーして、表を作って整理する。 | ||
+ | |||
+ | 例えば、こんな表。 | ||
+ | |||
+ | | |関係ありそう|どちらとも言えない|関係なさそう| | ||
+ | |変数|V1-V10|V53|V22| | ||
+ | |||
+ | あるいは、特性要因図を作ってもいい。魚の頭がV86。 | ||
+ | |||
+ | == QC7つ道具 (手法の説明のみ) == | ||
+ | |||
+ | 前置きが長くなったが、今回はQC7つ道具の幾つかを用いて、データを解析してもらう。 | ||
+ | QC7つ道具とは、 | ||
+ | |||
+ | - パレート図: | ||
+ | - グラフ: データの図示 | ||
+ | - 管理図: 対象の安定性の検討 | ||
+ | - チェックシート: | ||
+ | - ヒストグラム: | ||
+ | - 散布図: 因果関係の分析 | ||
+ | - 層別: 問題の細分化、切り分け、掘り下げ | ||
+ | - 特性要因図: | ||
+ | |||
+ | の8種類の手法・道具のセットである。データから事実を把握するための手法および問題を解析するための手法の集まりとして、5学期開講の品質管理でも紹介されている。そしてQCストーリーとの対応関係 | ||
+ | |||
+ | - テーマの選定: | ||
+ | - 現状把握: | ||
+ | - 解析: QC7つ道具の出番 | ||
+ | - 対策: 解析に基づいて対策を講じる | ||
+ | - 効果の確認: | ||
+ | - 標準化: 他への展開 | ||
+ | - 残された課題と今後の進め方: | ||
+ | |||
+ | から、現状把握と解析でQC7つ道具を精力的に用いることになる。 | ||
- | 上のメモを見ながら、ネットでも調べながら、自分で頑張る。今週はたぶん、それで十分。 | + | === EZR(Rコマンダー)を用いたデータの要約 === |
- | === 以下の流れ | + | ここでの成果物は、ヒストグラム、箱ひげ図、分割表(クロス集計)、散布図など。 |
Rコマンダーを使うなら、下記のURLがとても参考になる。 | Rコマンダーを使うなら、下記のURLがとても参考になる。 | ||
行 140: | 行 153: | ||
|数値による要約|Rコマンダー入門 第3節(p.15)| | |数値による要約|Rコマンダー入門 第3節(p.15)| | ||
- | === RかRコマンダーを用いて行うこと | + | == RかRコマンダーを用いて行うこと |
- 連関図法の結果のデータからの確認。 | - 連関図法の結果のデータからの確認。 | ||
行 147: | 行 160: | ||
- データを分析しながら連関図法の改訂 | - データを分析しながら連関図法の改訂 | ||
- | === データマイニング === | + | === データマイニング |
データ解析の手法は、ただ闇雲に用いただけで必要な知識がデータから抽出できるというものではない。様々な手法の、原理、仮定 (前提)、その手法が用いるモデルの構造とパラメータの意味を知り、それぞれの長所と短所を理解した上で 、解析するデータに適切な手法を用いるべきである。そのためには様々な手法を適用する前にまず、データそれ自体の理解が不可欠である。前回はこれを目的として、解析の第一段階としてのデータの理解に努めてもらった。 | データ解析の手法は、ただ闇雲に用いただけで必要な知識がデータから抽出できるというものではない。様々な手法の、原理、仮定 (前提)、その手法が用いるモデルの構造とパラメータの意味を知り、それぞれの長所と短所を理解した上で 、解析するデータに適切な手法を用いるべきである。そのためには様々な手法を適用する前にまず、データそれ自体の理解が不可欠である。前回はこれを目的として、解析の第一段階としてのデータの理解に努めてもらった。 | ||
行 153: | 行 166: | ||
リンク先の同志社大学の金 (じん) 先生が公開してくださっているコンテンツを参考に、判別分析と決定木 (樹木モデル、分類木とも) を用いて、今回のデータを解析して貰う。解析の目的は「定期預金を契約する人と契約しない人の間に、どのような差異があるか」を調べることである。 | リンク先の同志社大学の金 (じん) 先生が公開してくださっているコンテンツを参考に、判別分析と決定木 (樹木モデル、分類木とも) を用いて、今回のデータを解析して貰う。解析の目的は「定期預金を契約する人と契約しない人の間に、どのような差異があるか」を調べることである。 | ||
- | === 銀行の定期預金獲得テレマーケティングのデータの解析 === | + | === 保険会社の顧客データの解析 === |
- | まず下記のページを順に読み、手順や内容などを理解せよ。(いずれも同志社大学の金先生が公開されているもの) | + | どのような特徴のあるデータかを把握できたら、次に、まず下記のページを順に読み、手順や内容などを理解せよ。(いずれも同志社大学の金先生が公開されているもの) |
* [[http:// | * [[http:// | ||
行 182: | 行 195: | ||
< | < | ||
+ | Sys.setenv(" | ||
+ | tic.learn <- read.table(" | ||
install.packages(c(" | install.packages(c(" | ||
library(MASS) | library(MASS) | ||
library(rpart) | library(rpart) | ||
- | lda(y~., data=bank) | + | lda(V86~., data=tic.learn) |
- | qda(y~., data=bank) | + | qda(V86~., data=tic.learn) |
- | rpart(y~., data=bank) | + | rpart(V86~., data=tic.learn) |
</ | </ | ||
だけだが。。。? | だけだが。。。? | ||
- | |||
- | なお、上のコードはデータを | ||
- | |||
- | < | ||
- | bank <- read.table("/ | ||
- | </ | ||
- | |||
- | のように読み込んでいることを仮定している。 | ||
=== 課題 === | === 課題 === | ||
行 209: | 行 216: | ||
< | < | ||
- | bank.lda <- lda(y~., data=bank) | + | v86.lda <- lda(V86~., data=tic.learn) |
- | bank.qda <- lda(y~., data=bank) | + | v86.qda <- lda(V86~., data=tic.learn) |
- | bank.rpart <- rpart(y~., data=bank) | + | v86.rpart <- rpart(V86~., data=tic.learn) |
</ | </ | ||
行 217: | 行 224: | ||
< | < | ||
- | bank.lda | + | v86.lda |
- | print(bank.lda) | + | print(v86.lda) |
</ | </ | ||
行 226: | 行 233: | ||
< | < | ||
- | summary(bank.lda) | + | summary(v86.lda) |
</ | </ | ||
行 232: | 行 239: | ||
< | < | ||
- | print(bank.lda) | + | print(v86.lda) |
- | print(bank.qda) | + | print(v86.qda) |
- | print(bank.rpart) | + | print(v86.rpart) |
- | summary(bank.rpart) | + | summary(v86.rpart) |
</ | </ | ||
行 243: | 行 250: | ||
< | < | ||
- | plot(bank.lda) | + | plot(v86.lda) |
- | plot(bank.qda) | + | plot(v86.qda) |
- | plot(bank.rpart) | + | plot(v86.rpart) |
</ | </ | ||
行 251: | 行 258: | ||
< | < | ||
- | plot(bank.rpart) | + | plot(v86.rpart) |
- | text(bank.rpart) | + | text(v86.rpart) |
</ | </ | ||
行 259: | 行 266: | ||
< | < | ||
par(cex=0.7) | par(cex=0.7) | ||
- | plot(bank.rpart) | + | plot(v86.rpart) |
- | text(bank.rpart) | + | text(v86.rpart) |
par(cex=1.0) | par(cex=1.0) | ||
</ | </ | ||
行 270: | 行 277: | ||
< | < | ||
par(cex=0.7) | par(cex=0.7) | ||
- | plot(bank.rpart, | + | plot(v86.rpart, |
- | text(bank.rpart) | + | text(v86.rpart) |
par(cex=1.0) | par(cex=1.0) | ||
</ | </ | ||
行 282: | 行 289: | ||
install.packages(c(" | install.packages(c(" | ||
library(rpart.plot) | library(rpart.plot) | ||
- | prp(bank.rpart, type=2, extra=2) | + | prp(v86.rpart, type=2, extra=2) |
</ | </ | ||
行 293: | 行 300: | ||
install.packages(c(" | install.packages(c(" | ||
library(tree) | library(tree) | ||
- | tree(y~., data=bank) | + | tree(V86~., data=tic.learn) |
- | bank.tree <- tree(y~., data=bank) | + | v86.tree <- tree(V86~., data=tic.learn) |
- | plot(bank.tree) | + | plot(v86.tree) |
- | text(bank.tree) | + | text(v86.tree) |
</ | </ | ||
- | |||
==== レポートについて ==== | ==== レポートについて ==== |