==== 総合情報学基礎第9回 (12/10) ==== === 連絡 === * 水戸先生の資料は[[http://www.human.inf.uec.ac.jp/|こちら]]のウェブサイトの「講義資料」→「総合情報学基礎」と渡り歩くと取得できる。 * 経営情報学コース分の課題の提出先と〆切りは、次週の鈴木先生の回にまとめてアナウンスしてもらう予定である。(提出先は西五号館の3階にある総合情報学専攻事務室の予定。) * レポートの提出先は西5号館3階の事務室前のポスト (電気回路や確率論のレポートの提出先と同じポスト) * 経営情報学コース分のレポートの提出期限 12月24日(月)午後4時半 === 標本調査法入門 === 学部で習う統計学は、無限母集団を前提とすることが多い、というよりは標本サイズが有限でないことを仮定することが多い。曰く、確率分布 F\left(x\right) からの標本サイズ nの無作為標本を x_1, x_2, \ldots, x_nとするとき、 * 標本サイズ n\infty に近づくにつれて、標本平均 \overline{x}= \sum_{i=1}^n x_i/n は母平均 E\left[X\right]=\int_{X} x dF\left(x\right) に収束する。(大数の法則) * 標本サイズ n\infty に近づくにつれて、標本平均 \overline{x}= \sum_{i=1}^n x_i/n の確率分布は正規分布 N\left(\mu, I^{-1}\left(\theta\right)/n\right) に収束する。ただし I\left(\theta\right) はフィッシャー情報量と呼ばれる、確率分布によって決まる定数である。(中心極限定理) しかし調査に関する統計学では、母集団の大きさNは有限の値で、さらにその中から n 個の標本を調査して、母集団について推測する、という枠組みに基づかなければならない。例えば調査の規模を標本数 n で考えただけでも、日本の人口は1億2千万人強なので10億人の標本を得ることは不可能、調布市の人口は約22万人なので30万人の標本を得ることは不可能、といった風に、標本調査では標本数(標本サイズ、標本の大きさ、とも)nn という上限がある。 また実際の計算はともかく、推定量や標本分布の定式化は非復元抽出に基づいて行うのが、通例である。非復元抽出は、壺の中に何色かに塗り分けた玉が沢山はいっているとして、1つの玉を取り出したら、それを壺に戻さずに、次の玉を取り出すような方法である。復元抽出では、1度取り出した玉は壺の中に戻し、さらに攪拌してから、次の玉を取り出す。両者の違いは、玉を取り出す時点での壺の中の玉の総数が、ひとつずつ減っていくか、減らずに当初の数のまま一定か、である。これを調査の現場に当てはめて考えたとき、自分が調査員として調査先を訪問することを想像しただけでも、標本調査では復元抽出は適用できないことがすぐに分かるはずである。同じ人に2枚以上の調査票に記入してもらうのも、同じ人に2回以上電話して世論調査に回答してもらうのも、いくら「無作為復元抽出ですから」と言っても、相手は同じことを2度尋ねられることを納得しないだろう。 さて、例えば単一母集団に対して、ある二値変数$X$に関する標本調査を実施するとしよう。 * 標本抽出は単純無作為非復元抽出を用いる * 母平均 \overline{X} = \sum_{i=1}^{N} X_i/N を推定する このとき標本調査法では * 標本平均 \hat{\overline{X}} = \sum_{i=1}^{n} X_i/n で母平均を推定する * 標本平均の分散は V\left[\hat{\overline{X}}\right] = \left(1-\frac{n}{N}\right) \sum_{i=1}^{n} \left(X_i-\hat{\overline{X}}\right)^2/n で推定する とすることを強く推奨する。標本平均の分散に \left(1-\frac{n}{N}\right) がかかるのが、母集団を有限とし非復元抽出を前提とする場合の統計学の特徴である。 これらのことを使ってみるために、以下の課題を課す。 - 大きさが10以上の母集団を2つ、2種類のコイン投げで作成する。母平均と母分散を計算しておく。 - 母集団ごとの標本サイズを3として、母集団ごとの標本抽出と母平均の推定と母平均の分散の推定を行う。 - 母集団ごとの標本サイズを6として、同様のことを行い、上の場合と比較する。 - コイン2種類分の母集団をすべて混ぜてしまい、母平均と母分散を計算する。 - 標本サイズが6の標本調査を行い、母平均の推定と母平均の分散の推定を行う。 - 上の2つの場合と比較する。 各項目とも、標本抽出は1回しか行わないことに注意する。たとえば {}_{10}C_{3} の組み合わせすべてについて、母平均の推定を行え、という課題ではない。