統計学・視聴率調査などの標本数の決め方

視聴率調査のように見る・見ない、あるいは世論調査における賛成する・しない、のように二者択一的な設問に関する比率(視聴率、賛成者の割合)について考えることにしよう。
この調査の誤差(標本平均と母集団の平均の差)が許容範囲dポイント*1を超えない確率を(1-α)(例えば95%)以上にするために必要な標本数を求めることにする。
別の言い方をすれば、確率(1-α)で誤差をdポイント以下にする。すなわち、
 \green\normalsize\displaystyle \Pr(| \bar{y} - \mu | \le d) = 1- \alpha ・・・(1)
を満たす標本数を計算する。ただし、\green\normalsize\displaystyle \bar{y}は標本平均、\green\normalsize\displaystyle \muは母集団の平均である。
今回のように二者択一的な設問の場合には、母分散σ 2は母集団の見る(賛成する)確率をpとしてσ 2=p(1-p)で計算することができる*2。例えば視聴率が20%の場合はp=0.2なのでσ 2=0.2*0.8=0.16となる。ただし、事前にpの値が分かることは少ないため、最も分散が大きくなるp=1/2、すなわちσ 2=1/4を仮定することも多い。
この時、必要な標本数は次のように与えられる。
 \green\normalsize\displaystyle n \ge \left(  \frac{1.96 \sigma}{d} \right)^2 = \frac{(1.96)^2 \sigma^2}{d^2} ・・・(2)
この式における1.96は標準正規分布の95%点から導出される。
特にσ 2=1/4を仮定する場合には、
 \green\normalsize\displaystyle n \ge \frac{(1.96)^2}{4 d^2}
より簡略化して述べれば次のようになる。

視聴率や賛成者の割合などの調査で、誤差がdポイント以下になる確率を95%以上にしたい場合、最小限必要な標本数はおよそ次の式で求められる。
 \green\normalsize\displaystyle n = \frac{1}{d^2}

参考にまで計算すると次の通り。

誤差(ポイント) 必要標本数
0.5 40,000
1 10,000
2 2,500
3 1,111
4 625
5 400

専門的な議論・(1)から(2)の導出

中心極限定理により、 \green\normalsize\displaystyle \frac{\sqrt{n}(\bar{y} - \mu)}{\sigma}は、標準正規分布 \green\normalsize\displaystyle N(0,1) に従う。求めたい条件は
 \green\normalsize\displaystyle \Pr \left( \frac{\sqrt{n} |\bar{y} -\mu | }{\sigma}\le \frac{\sqrt{n}d}{\sigma} \right) = 1-\alpha
であるから、標準正規分布  \green\normalsize\displaystyle N(0,1)  \green\normalsize\displaystyle (1-\alpha)%点を \green\normalsize\displaystyle t_{\alpha}で表すと、
 \green\normalsize\displaystyle \Pr \left( \frac{\sqrt{n}d}{\sigma} \ge t_{\alpha}  \right) = 1-\alpha
で表される。よって、
 \green\normalsize\displaystyle  \green\normalsize\displaystyle \sqrt{n} \ge \frac{t_{\alpha} \sigma}{d}
すなわち
 \green\normalsize\displaystyle  \green\normalsize\displaystyle n \ge \left( \frac{t_{\alpha} \sigma}{d} \right)^2

参考文献

中村・新家・美添・豊田(1992)「経済統計入門(第2版)」東京大学出版会,pp.33-37.

(2005/08/14記録)

*1:正確には%ポイント。調査結果が10%と判明し、誤差が1ポイントの時は真の値が9〜11%の間にあるという意味。

*2: \green\normalsize\displaystyle p(1-p)^2+(1-p)(0-p)^2=p(1-p)