統計学・視聴率調査などの標本数の決め方

視聴率調査のように見る・見ない、あるいは世論調査における賛成する・しない、のように二者択一的な設問に関する比率（視聴率、賛成者の割合）について考えることにしよう。
この調査の誤差（標本平均と母集団の平均の差）が許容範囲dポイント*1を超えない確率を(1-α)（例えば95％）以上にするために必要な標本数を求めることにする。
別の言い方をすれば、確率(1-α)で誤差をdポイント以下にする。すなわち、
$\green\normalsize\displaystyle \Pr(| \bar{y} - \mu | \le d) = 1- \alpha$ ・・・(1)
を満たす標本数を計算する。ただし、 $\green\normalsize\displaystyle \bar{y}$ は標本平均、 $\green\normalsize\displaystyle \mu$ は母集団の平均である。
今回のように二者択一的な設問の場合には、母分散σ ²は母集団の見る（賛成する）確率をpとしてσ ²=p(1-p)で計算することができる*2。例えば視聴率が20％の場合はp=0.2なのでσ ²=0.2*0.8=0.16となる。ただし、事前にpの値が分かることは少ないため、最も分散が大きくなるp=1/2、すなわちσ ²=1/4を仮定することも多い。
この時、必要な標本数は次のように与えられる。
$\green\normalsize\displaystyle n \ge \left( \frac{1.96 \sigma}{d} \right)^2 = \frac{(1.96)^2 \sigma^2}{d^2}$ ・・・(2)
この式における1.96は標準正規分布の95％点から導出される。
特にσ ²=1/4を仮定する場合には、
$\green\normalsize\displaystyle n \ge \frac{(1.96)^2}{4 d^2}$
より簡略化して述べれば次のようになる。

視聴率や賛成者の割合などの調査で、誤差がdポイント以下になる確率を95％以上にしたい場合、最小限必要な標本数はおよそ次の式で求められる。
$\green\normalsize\displaystyle n = \frac{1}{d^2}$

参考にまで計算すると次の通り。

誤差（ポイント）	必要標本数
0.5	40,000
1	10,000
2	2,500
3	1,111
4	625
5	400

専門的な議論・(1)から(2)の導出

中心極限定理により、 $\green\normalsize\displaystyle \frac{\sqrt{n}(\bar{y} - \mu)}{\sigma}$ は、標準正規分布 $\green\normalsize\displaystyle N(0,1)$ に従う。求めたい条件は
$\green\normalsize\displaystyle \Pr \left( \frac{\sqrt{n} |\bar{y} -\mu | }{\sigma}\le \frac{\sqrt{n}d}{\sigma} \right) = 1-\alpha$
であるから、標準正規分布 $\green\normalsize\displaystyle N(0,1)$ の $\green\normalsize\displaystyle (1-\alpha)$ ％点を $\green\normalsize\displaystyle t_{\alpha}$ で表すと、
$\green\normalsize\displaystyle \Pr \left( \frac{\sqrt{n}d}{\sigma} \ge t_{\alpha} \right) = 1-\alpha$
で表される。よって、
$\green\normalsize\displaystyle \green\normalsize\displaystyle \sqrt{n} \ge \frac{t_{\alpha} \sigma}{d}$
すなわち
$\green\normalsize\displaystyle \green\normalsize\displaystyle n \ge \left( \frac{t_{\alpha} \sigma}{d} \right)^2$