スポンサーリンク

母比率の検定とは?初心者にもわかるやり方と具体例・Pythonでの計算方法も解説

記事内に広告が含まれています。
スポンサーリンク

母比率の検定とは

母比率の検定は、「母集団におけるある条件(例:車を所有している、投票に行ったなど)に該当する割合が、ある特定の値と異なるかどうか」を判断するための統計的な手法です。

サンプルと二項分布

ある母集団からランダムに \(n\) 人のサンプルを無作為抽出し、それぞれが条件\(A\)に該当するか否かを調べたとします。

このとき、条件\(A\)に該当した人数 \(x\) は、二項分布 \(B(n, p)\) に従うと考えることができます。

ここで

  • \(n\):調査対象の人数(標本サイズ)
  • \(x\):条件\(A\)に該当した人数
  • \(p\):母集団における条件Aに該当する「母比率(母割合)」

となります。

条件Aとは?

条件\(A\)とは、「該当/非該当」のどちらかに分類される 二値的な性質 を持つ条件です。

具体例としては、以下のようなものが挙げられます。

  • 「車を所有しているかどうか」
  • 「選挙で投票したかどうか」
  • 「商品\(A\)を認知しているかどうか」
  • 「製品が不良かどうか」

これらの条件は「はい/いいえ」で答えられるものであり、統計的に扱いやすい形です。

検定統計量 Z の式

二項分布 \(B(n, p)\) は、離散的な分布(0個、1個、2個…のように整数で表される)ですが、標本サイズ \(n\) が十分に大きく、かつ \(p\) が \(0\) や \(1\) に極端に偏っていない場合には、正規分布によって近似することができます。

帰無仮説 \(H_{0}: p = p_{0}\)(母集団の比率は特定の値 \(p_{0}\) である)という前提の下で、以下のような \(Z\)(検定統計量)を計算します。

$$z=\frac{\hat{p} – p_{0}}{\sqrt{p_{0}(1 – p_{0})/n}}$$

ここで

\(\hat{p}= x / n\)

\(p_{0}\)​ は仮定されている母比率(帰無仮説の値)

\(n\) は標本サイズ

分母の式は \(p_{0}\) に基づいた標準誤差(\(SE\))

です。

検定の目的

計算された \(Z\)値に基づいて、次のように判断します。

  • \(Z\)値が大きすぎる(または小さすぎる)場合
    → 母比率が \(p_{0}\) と異なる可能性が高い(=帰無仮説を棄却)
  • \(Z\)値があまり極端でない場合
    → 標本の結果は偶然のばらつきの範囲と考えられる(=帰無仮説を採択)

このようにして、調査結果が「偶然の誤差か、それとも有意な差か」を判断することができます。

スポンサーリンク

マーケティング現場での活用例 — 新商品の認知率を検定

母比率の検定は、マーケティングの実務でも活用されています。

たとえば、ある飲料メーカーが新商品\(A\)を発売した後、「全国の消費者の \(20%\) 以上がこの商品を認知しているかどうか」を知りたいと考えているとします。

調査の背景

担当者は、調査会社に依頼して全国から無作為に \(1000\) 人の消費者を抽出し、次のような質問を行いました。

「あなたはこの商品(\(A\))のことを知っていますか?」

その結果、\(220\) 人が「知っている」と回答しました。

仮説の設定

このとき、以下のように仮説を立てて母比率の検定を行うことができます。

  • 帰無仮説(\(H_{0}\)):全国の認知率は \(20%\) である(\(p = 0.20\))
  • 対立仮説(\(H_{1}\)):全国の認知率は \(20%\) より高い(\(p > 0.20\))

ここでは、片側検定(右側検定)を行います。

検定統計量の計算

標本比率は以下のとおりです。

$$\hat{p}= 220 ÷ 1000 = 0.22$$

標準誤差(標準偏差に相当)は以下のとおりです。

$$SE=\sqrt{p_{0}(1 – p_{0})/n}=\sqrt{(0.2 × 0.8)/ 1000} ≒ 0.0126$$

\(Z\) 値は以下のとおりです。

$$z=\frac{\hat{p} – p_{0}}{SE}= \frac{0.22 – 0.20}{0.0126} ≒ 1.58$$

有意水準と判定

ここでは有意水準を \(5%(0.05)\) とします。

片側検定の場合、\(Z\)の臨界値は約 \(1.645\) です。

  • 計算した \(Z\)値(\(1.58\))は、臨界値(\(1.645\))より小さい。
  • よって、帰無仮説を棄却できません。
  • 結論として、今回の調査結果だけでは「認知率が \(20%\) より高い」とは統計的に言えません。

Pythonコード例

import math
from scipy.stats import norm

p0 = 0.20
phat = 220 / 1000
n = 1000

# 標準誤差(仮説の母比率を使用)
se = math.sqrt(p0 * (1 - p0) / n)

# Z値計算
z = (phat - p0) / se

# 片側検定のp値
pval = 1 - norm.cdf(z)

print(f"Z値: {z:.3f}, p値: {pval:.4f}")

出力結果は以下のとおりです。

Z値: 1.581, p値: 0.0569

この \(p\)値(約 \(0.057\))は有意水準 \(0.05\) を上回るため、やはり帰無仮説は棄却されません。

製造業における活用例 — 不良率の管理と改善効果の検定

母比率の検定は、製造業の現場でも品質管理の指標として活用されています。

とくに、「不良品の割合(不良率)」が改善されたかどうかを客観的に判断する場面でよく使われます。

事例の背景

ある工場では、過去のデータから「製品\(X\)の不良率は \(3%(p = 0.03)\) 」と分かっています。

そこで品質改善活動を行い、その効果を検証するために、直近のロット( \(1000\) 個)から製品を検査しました。

その結果、\(20\) 個の不良品が見つかりました(不良率 \(2%\) )。

このとき、以下のように仮説を立てて検定を行います。

仮説の設定

  • 帰無仮説(\(H_{0}\)):不良率は改善しておらず、依然として \(3%\) である(\(p = 0.03\))
  • 対立仮説(\(H_{1}\)):不良率は改善され、\(3%\) より低くなっている(\(p < 0.03\))

ここでは、片側検定(左側検定)になります。

検定統計量の計算

標本比率は以下のとおりです。

$$\hat{p}= 20 ÷ 1000 = 0.02$$

標準誤差(標準偏差に相当)は以下のとおりです。

$$SE=\sqrt{p_{0}(1 – p_{0})/n}=\sqrt{(0.03 × (1 – 0.03)) / 1000} ≒ 0.0054$$

\(Z\)値は以下のとおりです。

$$ z=\frac{\hat{p} – p_{0}}{SE}= \frac{0.02 – 0.03}{0.0054} ≒ -1.85$$

判定

  • 有意水準を \(5%\)(片側)とすると、臨界値は \(−1.645\)。
  • \(Z\)値( \(−1.85\) )は臨界値( \(−1.645\) )より小さいので、帰無仮説は棄却される。
  • 結論として、不良率は統計的に有意に改善されたと判断できる。

Pythonコード例

import math
from scipy.stats import norm

# 入力値
p0 = 0.03  # 仮説上の母比率(過去の不良率)
count = 20
n = 1000

# 標本比率
phat = count / n

# 標準誤差(母比率に基づく)
se = math.sqrt(p0 * (1 - p0) / n)

# Z値計算
z = (phat - p0) / se

# 左側検定のp値
pval = norm.cdf(z)

print(f"Z値: {z:.3f}, p値: {pval:.4f}")

出力結果は以下のとおりです。

Z値: -1.854, p値: 0.0319

\(p\)値が有意水準( \(0.05\) )より小さいので、やはり不良率は改善されたと判断できます。

ポイント

このように、母比率の検定を使えば「たまたま不良が少なかっただけかもしれない」という疑念を取り払い、品質改善の効果が信頼できるかどうかを数値で評価できます。

これは、ISOや統計的品質管理(SQC)の考え方にも沿った重要な手法です。

まとめ

母比率の検定は、「全体(母集団)における割合が特定の値かどうか」を、標本データから統計的に検証する方法です。この記事では、母比率の検定について基礎から実践までをまとめました。

また、Pythonを使った計算方法も紹介し、ツールを活用して効率的に検定を行う方法も確認しました。

スポンサーリンク
Python
著者SNS
タイトルとURLをコピーしました