統計学やデータ分析において、「共分散」は2つの変数の間にどのような関係があるかを定量的に示す指標の一つです。具体的には、2つの変数が同じ方向に変化するか、逆方向に変化するかを表します。
共分散の基本的な概念から計算方法、解釈の仕方についてまとめます。
共分散の定義
共分散は、2つの変数 XXX と YYY の関係性を次のように計算します。
$$\text{Cov}(X, Y) = \frac{\sum_{i=1}^{n} (x_i – \bar{X})(y_i – \bar{Y})}{n}$$
- \(x_i\), \(y_i\): それぞれの変数の観測値
- \(\bar{X}\), \(\bar{Y}\): それぞれの変数の平均値
- \(n\): データのサンプル数
この式の中で重要なのは、各データポイントが変数の平均からどれだけ離れているか(偏差)を計算し、それらの積を取り、平均を算出している点です。
共分散の特徴
符号の解釈
- 正の共分散: \(X\) が大きくなると \(Y\) も大きくなる(正の相関)。
- 負の共分散: \(X\) が大きくなると \(Y\) は小さくなる(負の相関)。
- 共分散が 0 に近い: \(X\) と \(Y\) に関係がない、または線形の関係が弱い。
単位に依存
共分散の値は元の変数の単位に依存します。
例えば、変数が「身長(cm)」と「体重(kg)」の場合、共分散の単位は「cm×kg」になります。このため、共分散の絶対値そのものを比較することはあまり適切ではありません。
共分散の計算例
以下のデータを例に、共分散を計算してみましょう。
サンプル | \(X\)(勉強時間) | \(Y\)(テスト得点) |
---|---|---|
1 | 2 | 30 |
2 | 4 | 50 |
3 | 6 | 60 |
4 | 8 | 80 |
平均を計算します。
- \(\bar{X} = \frac{2 + 4 + 6 + 8}{4} = 5\)
- \(\bar{Y} = \frac{30 + 50 + 60 + 80}{4} = 55\)
偏差の積を計算します。\((x_i – \bar{X})(y_i – \bar{Y})\) のそれぞれの値を計算します。
- \((2 – 5)(30 – 55) = 3 \times (-25) = -75\)
- \((4 – 5)(50 – 55) = -1 \times (-5) = 5\)
- \((6 – 5)(60 – 55) = 1 \times 5 = 5\)
- \((8 – 5)(80 – 55) = 3 \times 25 = 75\)
合計を平均化します。
$$\text{Cov}(X, Y) = \frac{-75 + 5 + 5 + 75}{4} = \frac{10}{4} = 2.5$$
結果、共分散は \(2.5\) です。
相関係数との違い
共分散は変数間の関係性を示しますが、その大きさは変数の単位に依存します。
一方、相関係数(ピアソンの相関係数など)は単位に依存せず、常に \(-1\) から \(1\) の間の値を取るため、比較が容易です。
相関係数の計算式は、共分散をそれぞれの変数の標準偏差で割ったものです。
$$\text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$$
共分散の応用例
- ポートフォリオのリスク管理
株式のリターンの共分散を用いて、分散投資の効果を測定します。 - マーケティング
広告費用と売上の共分散を分析することで、広告効果を評価します。 - 気象学
気温と降水量の関係性を分析し、気候パターンを把握します。
まとめ
共分散は、2つの変数間の関係性を理解する上で重要な統計指標です。ただし、単位に依存する点に注意が必要です。相関係数と組み合わせて使用することで、より明確な分析が可能になります。