文書の過去の版を表示しています。
目次
データの説明
TIC 2000
tic.leaan <- read.table("http://kdd.ics.uci.edu/databases/tic/ticdata2000.txt")
tic.eval <- read.table("http://kdd.ics.uci.edu/databases/tic/ticeval2000.txt")
tic.test <- read.table("http://kdd.ics.uci.edu/databases/tic/tictgts2000.txt")
tic.eval$V86 <- tic.test
rm(tic.test)
tic.learn$V1 <- as.factor(tic.learn$V1)
tic.lean$V5 <- as.factor(tic.learn$V5)
変数
| 変数 | 分類 | メモ |
| V1 | 顧客分類2 | L0でコード化されている、数字の大きさに意味なし |
| V2 | 住居数 | 大きいほど住む箇所が多い |
| V3 | 世帯構成員数の平均 | 人数 |
| V4 | 世帯構成員の平均年齢 | L1でコード化されている、年齢 |
| V5 | 顧客分類1 | L2でコード化されている、数字の大きさに意味なし |
| V6-V9 | 宗教 | L3でコード化されている、V6+V7+V8+V9は9から12の間。それぞれの宗教を信じる割合? |
| V10-V13 | 結婚 | L3でコード化されている?割合? |
| V14-V15 | 世帯の大きさ | L3でコード化されている?V14+V15は10以下。割合? |
| V16-V18 | 教育水準 | L3でコード化されている?V16+V17+V18はほぼ10、それぞれの年数?割合? |
| V19-V24 | 職業 | L3でコード化されている?V19+V20+V21+V22+V23+V24は9から13の間 |
| V25-V29 | 社会層 | L3でコード化されている?V25+V26+V27+V28+V29は9から12の間 |
| V30-V31 | 住居 | L3でコード化されている?V30+V31は9か10 |
| V32-V34 | 自動車 | L3でコード化されている?V32+V33+V34は9から11の間 |
| V35-V36 | 健康保険 | L3でコード化されている?V35+V36は9か10 |
| V37-V41 | 収入 | L3でコード化されている?V37+V38+V39+V40+V41は9から13の間 |
| V42 | 平均収入 | L3でコード化されている? |
| V43 | 購買力 | L3でコード化されている?1から8の間。 |
| V44-V64 | 各種保険支払い額 | L4でコード化 |
| V65-V85 | 各種保険契約件数 | 件数 |
メモの確認用のコード。
<code> table((tic.learn$V16+tic.learn$V17+tic.learn$V18)) table((tic.learn$V19+tic.learn$V20+tic.learn$V21+tic.learn$V22+tic.learn$V23+tic.learn$V24)) table((tic.learn$V25+tic.learn$V26+tic.learn$V27+tic.learn$V28+tic.learn$V29)) table(tic.learn$V30+tic.learn$V31) table(tic.learn$V32+tic.learn$V33+tic.learn$V34) table(tic.learn$V35+tic.learn$V36) table(tic.learn$V37+tic.learn$V38+tic.learn$V39+tic.learn$V40+tic.learn$V41)
</code>
各変数のコーディング
L0:分類を表す数字なので、大小関係に意味がなく、名義尺度である。そのままでは説明変数にならない。
| Value | Label |
| 1 | High Income, expensive child |
| 2 | Very Important Provincials |
| 3 | High status seniors |
| 4 | Affluent senior apartments |
| 5 | Mixed seniors |
| 6 | Career and childcare |
| 7 | Dinki's (double income no kids) |
| 8 | Middle class families |
| 9 | Modern, complete families |
| 10 | Stable family |
| 11 | Family starters |
| 12 | Affluent young families |
| 13 | Young all american family |
| 14 | Junior cosmopolitan |
| 15 | Senior cosmopolitans |
| 16 | Students in apartments |
| 17 | Fresh masters in the city |
| 18 | Single youth |
| 19 | Suburban youth |
| 20 | Etnically diverse |
| 21 | Young urban have-nots |
| 22 | Mixed apartment dwellers |
| 23 | Young and rising |
| 24 | Young, low educated |
| 25 | Young seniors in the city |
| 26 | Own home elderly |
| 27 | Seniors in apartments |
| 28 | Residential elderly |
| 29 | Porchless seniors: no front yard |
| 30 | Religious elderly singles |
| 31 | Low income catholics |
| 32 | Mixed seniors |
| 33 | Lower class large families |
| 34 | Large family, employed child |
| 35 | Village families |
| 36 | Couples with teens 'Married with children' |
| 37 | Mixed small town dwellers |
| 38 | Traditional families |
| 39 | Large religous families |
| 40 | Large family farms |
| 41 | Mixed rurals |
L1:大きさが年齢の順なので、そのまま説明変数に使える。
| 1 | 20-30 years |
| 2 | 30-40 years |
| 3 | 40-50 years |
| 4 | 50-60 years |
| 5 | 60-70 years |
| 6 | 70-80 years |
L2:数字は分類を表すだけなので、連続尺度でも順序尺度でもなく、名義尺度。そのままでは説明変数にならない。
| 1 | Successful hedonists |
| 2 | Driven Growers |
| 3 | Average Family |
| 4 | Career Loners |
| 5 | Living well |
| 6 | Cruising Seniors |
| 7 | Retired and Religeous |
| 8 | Family with grown ups |
| 9 | Conservative families |
| 10 | Farmers |
L3:順序尺度。このまま連続尺度の説明変数として用いる。
| 0 | 0% |
| 1 | 1 - 10% |
| 2 | 11 - 23% |
| 3 | 24 - 36% |
| 4 | 37 - 49% |
| 5 | 50 - 62% |
| 6 | 63 - 75% |
| 7 | 76 - 88% |
| 8 | 89 - 99% |
| 9 | 100% |
L4: 順序尺度。今回はこのまま連続尺度の変数として用いる。
| 0 | f 0 |
| 1 | f 1 - 49 |
| 2 | f 50 - 99 |
| 3 | f 100 - 199 |
| 4 | f 200 - 499 |
| 5 | f 500 - 999 |
| 6 | f 1000 - 4999 |
| 7 | f 5000 - 9999 |
| 8 | f 10.000 - 19.999 |
| 9 | f 20.000 - ? |