不偏分散は、母集団分散の推定値をサンプルデータから計算するときに用いる統計量です。
サンプルデータから分散を計算するとき、単純にサンプルサイズで割るだけでは偏りが生じ、母集団分散の真の値を正確に推定できません。
その偏りを補正するために、分母を「サンプルサイズ \(n\)」ではなく「\(n-1\)」にするのが不偏分散です。
なぜ n-1 で割るのか?
これを理解するには、以下の3つのポイントを押さえる必要があります。
- 分散とは何か
- サンプル平均と母平均の違い
- 自由度の概念
分散の定義
分散はデータの散らばり具合を表す指標です。
母集団の分散 \(\sigma^2\) は、次の式で定義されます。
$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$
ここで
- \(N\):母集団のサイズ
- \(x_i\):各データ点
- \(\mu\):母平均
一方で、サンプルデータを用いる場合、母平均 \(\mu\) が分からないため、サンプル平均 \(\bar{x}\) を用いて次のように計算します。
$$\text{サンプル分散 (標本分散)} = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$
ただし、ここで計算した分散は、母集団分散の真の値よりも小さくなる傾向があります。これが偏りの原因です。
サンプル平均と母平均の違い
サンプル分散の計算では、データの散らばりをサンプル平均 \(\bar{x}\) を基準に測ります。
しかし、サンプル平均 \(\bar{x}\) 自体が母平均 \(\mu\) の近似値であり、サンプルデータの中に偏りが含まれています。
サンプル平均 \(\bar{x}\) を基準にすると、分散の計算に用いるデータの自由な変動が制約されるため、実際の散らばりを過小評価してしまうのです。
自由度の概念
自由度とは、データの独立して変動できる数を意味します。
- サンプル平均 \(\bar{x}\) を計算する際、サンプル全体の合計は \(\bar{x}\) に固定されるため、独立して変動できるデータ点の数は \(n-1\) になります。
- 例えば、5つのデータから平均を計算した場合、4つのデータが決まれば、5つ目のデータは自動的に決まるため、自由に変動できるデータ点は4つです。
不偏分散の計算式
以上を踏まえ、不偏分散の計算式は以下のようになります。
$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2$$
ここで
- \(s^2\):不偏分散
- \(n-1\):自由度
この式では、分母を \(n-1\) にすることで、分散の過小評価を補正し、母集団分散の真の値により近い推定値が得られます。
不偏分散が必要な場面
- 統計解析
母集団全体を直接観測できない場合、サンプルデータから母集団分散を推定するために不偏分散が使われます。 - 機械学習
データのばらつきを測定してモデルを評価する際に重要です。
数学的説明
不偏分散が母集団分散の真の値を推定できるのは、次の性質を満たすからです。
$$E[s^2] = \sigma^2$$
ここで
- \(E[s^2]\) は不偏分散の期待値(平均値)
- \(\sigma^2\) は母集団分散
不偏分散の期待値が母集団分散になることを数式で導出します。
以下では、母集団分散を正確に推定するために分母を \(n-1\) にする必要がある理由を明らかにします。
用語の定義
母集団分散 \(\sigma^2\) をサンプル分散から推定する際に用いる式を確認します。
母集団の分散
$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$
サンプル平均
$$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$$
サンプル分散(標本分散、分母が \(n\) の場合)
$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$
不偏分散(分母が \(n-1\) の場合)
$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i – \bar{x})^2$$
標本分散の期待値
まず、分母を \(n\) とした場合(標本分散)の期待値を計算します。
標本分散を展開すると
$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$
ここで \((x_i – \bar{x})^2\) を展開します。
$$(x_i – \bar{x})^2 = x_i^2 – 2x_i \bar{x} + \bar{x}^2$$
したがって、標本分散は次のようになります。
$$ s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n \left( x_i^2 – 2x_i \bar{x} + \bar{x}^2 \right)$$
これを各項に分解すると
$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \frac{2}{n} \bar{x} \sum_{i=1}^n x_i + \frac{1}{n} \sum_{i=1}^n \bar{x}^2s$$
サンプル平均の性質を利用
\(\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i\) より、以下が成り立ちます。
- \(\sum_{i=1}^n x_i = n \bar{x}\)
- \(\sum_{i=1}^n \bar{x}^2 = n \bar{x}^2\)
これを代入すると
$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \frac{2}{n} \cdot n \bar{x}^2 + \bar{x}^2$$
$$s_{\text{標本}}^2 = \frac{1}{n} \sum_{i=1}^n x_i^2 – \bar{x}^2$$
標本分散の期待値を計算
標本分散の期待値 \(E[s_{\text{標本}}^2]\) を求めます。
母集団分散の期待値の性質を利用するため、分散の計算に必要な次の関係を使います。
母集団分散の定義
$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i – \mu)^2$$
母集団内のデータの 2 次モーメントの性質
$$E[x_i^2] = \sigma^2 + \mu^2E$$
サンプル平均の期待値の性質を利用すると
- \(E[\bar{x}] = \mu\)
- \(E[\bar{x}^2] = \frac{\sigma^2}{n} + \mu^2\)
これを使って \(E[s_{\text{標本}}^2]\) を計算します。
$$E[s_{\text{標本}}^2] = \frac{1}{n} \sum_{i=1}^n E[x_i^2] – E[\bar{x}^2]$$
$$E[s_{\text{標本}}^2] = \sigma^2 + \mu^2 – \left(\frac{\sigma^2}{n} + \mu^2\right)$$
$$E[s_{\text{標本}}^2] = \sigma^2 \left(1 – \frac{1}{n}\right)$$
不偏分散の期待値を計算
不偏分散 \(s^2\) は分母を \(n-1\) として定義されます。
$$s^2 = \frac{n}{n-1} s_{\text{標本}}^2$$
したがって、不偏分散の期待値 \(E[s^2]\) は
$$E[s^2] = \frac{n}{n-1} E[s_{\text{標本}}^2]$$
ここで、\(E[s_{\text{標本}}^2] = \sigma^2 \left(1 – \frac{1}{n}\right)\) を代入すると
$$E[s^2] = \frac{n}{n-1} \cdot \sigma^2 \left(1 – \frac{1}{n}\right)$$
$$E[s^2] = \frac{n}{n-1} \cdot \sigma^2 \cdot \frac{n-1}{n}$$
$$E[s^2] = \sigma^2$$
以上により、不偏分散の期待値が母集団分散となることが示されました。
まとめ
本記事では、分母が \(n-1\) である不偏分散を利用することで、母集団分散を推定することをまとめました。数式でも示すことができます。