スポンサーリンク

不偏分散の分母が n-1 である理由 〜分かりやすい説明と数学的説明〜

記事内に広告が含まれています。

不偏分散は、母集団分散の推定値をサンプルデータから計算するときに用いる統計量です。

サンプルデータから分散を計算するとき、単純にサンプルサイズで割るだけでは偏りが生じ、母集団分散の真の値を正確に推定できません。

その偏りを補正するために、分母を「サンプルサイズ \(n\)」ではなく「\(n-1\)」にするのが不偏分散です。

スポンサーリンク

なぜ n-1 で割るのか?

これを理解するには、以下の3つのポイントを押さえる必要があります。

  1. 分散とは何か
  2. サンプル平均と母平均の違い
  3. 自由度の概念

分散の定義

分散はデータの散らばり具合を表す指標です。

母集団の分散 \(\sigma^2\) は、次の式で定義されます。

$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$

ここで

  • \(N\):母集団のサイズ
  • \(x_i\)​:各データ点
  • \(\mu\):母平均

一方で、サンプルデータを用いる場合、母平均 \(\mu\) が分からないため、サンプル平均 \(\bar{x}\) を用いて次のように計算します。

$$\text{サンプル分散 (標本分散)} = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$

ただし、ここで計算した分散は、母集団分散の真の値よりも小さくなる傾向があります。これが偏りの原因です。

サンプル平均と母平均の違い

サンプル分散の計算では、データの散らばりをサンプル平均 \(\bar{x}\) を基準に測ります。

しかし、サンプル平均 \(\bar{x}\) 自体が母平均 \(\mu\) の近似値であり、サンプルデータの中に偏りが含まれています。

サンプル平均 \(\bar{x}\) を基準にすると、分散の計算に用いるデータの自由な変動が制約されるため、実際の散らばりを過小評価してしまうのです。

自由度の概念

自由度とは、データの独立して変動できる数を意味します。

  • サンプル平均 \(\bar{x}\) を計算する際、サンプル全体の合計は \(\bar{x}\) に固定されるため、独立して変動できるデータ点の数は \(n-1\) になります。
  • 例えば、5つのデータから平均を計算した場合、4つのデータが決まれば、5つ目のデータは自動的に決まるため、自由に変動できるデータ点は4つです。
スポンサーリンク

不偏分散の計算式

以上を踏まえ、不偏分散の計算式は以下のようになります。

$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2$$

ここで

  • \(s^2\):不偏分散
  • \(n-1\):自由度

この式では、分母を \(n-1\) にすることで、分散の過小評価を補正し、母集団分散の真の値により近い推定値が得られます。

不偏分散が必要な場面

  • 統計解析
    母集団全体を直接観測できない場合、サンプルデータから母集団分散を推定するために不偏分散が使われます。
  • 機械学習
    データのばらつきを測定してモデルを評価する際に重要です。

数学的説明

不偏分散が母集団分散の真の値を推定できるのは、次の性質を満たすからです。

$$E[s^2] = \sigma^2$$

ここで

  • \(E[s^2]\) は不偏分散の期待値(平均値)
  • \(\sigma^2\) は母集団分散

不偏分散の期待値が母集団分散になることを数式で導出します。

以下では、母集団分散を正確に推定するために分母を \(n-1\) にする必要がある理由を明らかにします。

用語の定義

母集団分散 \(\sigma^2\) をサンプル分散から推定する際に用いる式を確認します。

母集団の分散

$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$

サンプル平均

$$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$$

サンプル分散(標本分散、分母が \(n\) の場合)

$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$

不偏分散(分母が \(n-1\) の場合)

$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2$$

標本分散の期待値

まず、分母を \(n\) とした場合(標本分散)の期待値を計算します。

標本分散を展開すると

$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$

ここで \((x_i – \bar{x})^2\) を展開します。

$$(x_i – \bar{x})^2 = x_i^2 – 2x_i \bar{x} + \bar{x}^2$$

したがって、標本分散は次のようになります。

$$ s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n \left( x_i^2 – 2x_i \bar{x} + \bar{x}^2 \right)$$

これを各項に分解すると

$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \frac{2}{n} \bar{x} \sum_{i=1}^n x_i + \frac{1}{n} \sum_{i=1}^n \bar{x}^2s$$

サンプル平均の性質を利用

\(\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i\)​ より、以下が成り立ちます。

  • \(\sum_{i=1}^n x_i = n \bar{x}\)
  • \(\sum_{i=1}^n \bar{x}^2 = n \bar{x}^2\)

これを代入すると

$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \frac{2}{n} \cdot n \bar{x}^2 + \bar{x}^2$$

$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \bar{x}^2$$

標本分散の期待値を計算

標本分散の期待値 \(E[s_{\text{標本}}^2]\) を求めます。

母集団分散の期待値の性質を利用するため、分散の計算に必要な次の関係を使います。

母集団分散の定義

$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$

母集団内のデータの 2 次モーメントの性質

$$E[x_i^2] = \sigma^2 + \mu^2E$$

サンプル平均の期待値の性質を利用すると

  • \(E[\bar{x}] = \mu\)
  • \(E[\bar{x}^2] = \frac{\sigma^2}{n} + \mu^2\)

これを使って \(E[s_{\text{標本}}^2]\) を計算します。

$$E[s_{\text{標本}}^2] = \frac{1}{n} \sum_{i=1}^n E[x_i^2] – E[\bar{x}^2]$$

$$E[s_{\text{標本}}^2] = \sigma^2 + \mu^2 – \left(\frac{\sigma^2}{n} + \mu^2\right)$$

$$E[s_{\text{標本}}^2] = \sigma^2 \left(1 – \frac{1}{n}\right)$$

不偏分散の期待値を計算

不偏分散 \(s^2\) は分母を \(n-1\) として定義されます。

$$s^2 = \frac{n}{n-1} s_{\text{標本}}^2$$​

したがって、不偏分散の期待値 \(E[s^2]\) は

$$E[s^2] = \frac{n}{n-1} E[s_{\text{標本}}^2]$$

ここで、\(E[s_{\text{標本}}^2] = \sigma^2 \left(1 – \frac{1}{n}\right)\) を代入すると

$$E[s^2] = \frac{n}{n-1} \cdot \sigma^2 \left(1 – \frac{1}{n}\right)$$

$$E[s^2] = \frac{n}{n-1} \cdot \sigma^2 \cdot \frac{n-1}{n}$$

$$E[s^2] = \sigma^2$$

以上により、不偏分散の期待値が母集団分散となることが示されました。

まとめ

本記事では、分母が \(n-1\) である不偏分散を利用することで、母集団分散を推定することをまとめました。数式でも示すことができます。

タイトルとURLをコピーしました