標本調査では、母集団の一部(標本)を抽出し、その結果を元に全体の特性を推定します。
しかし、適切なサンプルサイズを決めないと、精度が低かったり、過剰なコストがかかったりする可能性があります。
本記事では、サンプルサイズの決定方法をまとめます。
サンプルサイズを決める際の重要な要素
サンプルサイズを決めるには、以下の要素を考慮する必要があります。
母集団の大きさ(N)
母集団全体の規模が分かっている場合は、サンプルサイズを適切に設定しやすくなります。
一般に、母集団が大きい場合でも、一定のサンプルサイズを超えると精度はあまり向上しません。
許容誤差(E)
調査結果と母集団の実際の値とのズレをどこまで許容するかを決めます。
誤差を小さくすると精度は上がりますが、必要なサンプル数も増えます。
信頼水準(Z)
調査結果がどれだけの確率で母集団の実態を反映しているかを示します。
通常は 95%(1.96)や99%(2.58) などが用いられます。
母分散(標準偏差)または標本比率(p)
数値データの場合は母集団の標準偏差を、割合データ(Yes/Noのアンケートなど)の場合は「標本比率(成功確率)」を考慮します。
標本比率が分からない場合は \(p = 0.5\) を使用します。
理由は以下のとおりです。
標本比率 \(p\) を用いた標準誤差は、以下の式で求められます。
$$\text{標準誤差} = \sqrt{\frac{p(1-p)}{n}}$$
このとき、\(p(1-p)\) の値が最大になるのは \(p = 0.5\) のときであり、標準誤差が最大となります。
つまり、\(0.5\) を使用することは「最も大きな標準誤差を仮定し、最も厳しい条件を想定する」ことを意味しています。
サンプルサイズの計算方法
サンプルサイズは「数値データ」と「割合データ」で計算方法が異なります。
数値データ(平均値を推定する場合)
数値データ(例:身長の平均、購買金額の平均など)の場合、サンプルサイズは以下の式で求められます。
$$n = \left( \frac{Z \cdot \sigma}{E} \right)^2$$
- \(n\) :必要なサンプルサイズ
- \(Z\) :信頼水準のZ値(95%の場合は1.96)
- \(\sigma\) :母集団の標準偏差(分からない場合は過去データを参考)
- \(E\) :許容誤差(例:平均値の±5の範囲で推定)
例: 平均身長を±2cmの誤差で95%の信頼水準で推定したい。
標準偏差が8cmの場合、
$$n = \left( \frac{1.96 \times 8}{2} \right)^2 = \left( 7.84 \right)^2 = 61.47$$
→ 約62人のサンプルが必要
割合データ(Yes/Noのアンケートなど)
割合データ(例:「この商品を買いたいですか?」などのアンケート)の場合、サンプルサイズは以下の式で求められます。
$$n = \frac{Z^2 \cdot p \cdot (1 – p)}{E^2}$$
- \(p\) :標本比率(分からなければ0.5)
- その他の記号は上と同じ
例: 製品満足度の調査で、±5%の誤差、95%の信頼水準で調査したい。
$$n = \frac{(1.96)^2 \times 0.5 \times (1 – 0.5)}{(0.05)^2}$$
$$= \frac{3.8416 \times 0.25}{0.0025} = 384.16$$
→ 約385人のサンプルが必要
母集団が小さい場合の調整(有限母集団補正)
母集団が小さい(例:企業内の社員500人から調査)場合は、次の修正を加えます。
$$n’ = \frac{n}{1 + \frac{n – 1}{N}}$$
- \(n’\) :修正後のサンプルサイズ
- \(N\) :母集団の大きさ
例として、上記の385人を500人の母集団で調整すると、
$$n’ = \frac{385}{1 + \frac{384}{500}} = \frac{385}{1.768} \approx 218$$
→ 218人でOK(母集団が小さい場合、必要なサンプル数も減る)
Excelでのサンプルサイズ計算
割合データのサンプルサイズをExcelで簡単に計算するには、以下の関数を使うことができます。
=(Z^2 * P * (1-P)) / E^2
具体例(Z=1.96, P=0.5, E=0.05)
=(1.96^2 * 0.5 * (1-0.5)) / (0.05^2)
→ 385(サンプルサイズ)
サンプルサイズの目安表(95%信頼水準)
母集団サイズ | 誤差±10% | 誤差±5% | 誤差±2% |
---|---|---|---|
100 | 49 | 80 | 99 |
500 | 81 | 218 | 414 |
1,000 | 88 | 278 | 706 |
10,000 | 96 | 370 | 2,345 |
無限 | 100 | 385 | 2,401 |
※ 母集団が大きくなると、一定数を超えるとあまり変わらないことに注目。
サンプルサイズを増やすべきケース
- 調査対象にバラツキが大きい(例:年収、購買額など)
- より高い精度が求められる(例:医療・金融のデータ)
- 特定のサブグループ(性別・年代など)ごとの分析をしたい
- サンプルの脱落(調査に回答しない人)を見越して余裕を持ちたい
まとめ
- サンプルサイズは「信頼水準」「許容誤差」「データのばらつき」によって決まる
- 割合データと数値データで計算方法が異なる
- 母集団が小さい場合は有限母集団補正を行う
- Excelで簡単に計算できる
- サンプル数を増やすほど精度は上がるが、コストとのバランスが重要