統計学における「標準偏差」と「分散」は、データがどれだけバラついているかを測る重要な指標です。
それぞれの意味や使い方について、まとめてみます。
分散と標準偏差の違い
- 分散
分散はデータのバラつきを数値化したもので、「データが平均値からどの程度離れているか」を表します。分散は、各データの平均値からの差を二乗して足し合わせ、その合計をデータの個数で割った値です。 - 標準偏差
標準偏差は分散の平方根を取ったものです。分散が二乗によってスケールが大きくなるのを元に戻し、元のデータの単位に揃えた値と考えると分かりやすいです。
分散と標準偏差が必要な理由
平均値だけを見ると、データ全体の傾向はわかりますが、データがどのくらい広がっているかは分かりません。
たとえば以下のデータを考えてみます。
- データA: 50, 50, 50, 50, 50(すべて同じ)
- データB: 10, 30, 50, 70, 90(バラつきが大きい)
どちらも平均値は「50」ですが、データAは全て同じ値、データBは幅広くバラついています。
この違いを定量的に示すのが分散と標準偏差です。
分散と標準偏差の計算方法
例として、データ x = [10, 20, 30] の分散と標準偏差を計算してみます。
- 平均を求める
\(\text{平均} = \frac{10 + 20 + 30}{3} = 20\) - 各データから平均を引き、それを二乗する
- \((10 – 20)^2 = 100\)
- \((20 – 20)^2 = 0\)
- \((30 – 20)^2 = 100\)
- 二乗の合計をデータの個数で割る
\(\text{分散} = \frac{100 + 0 + 100}{3} = 66.67\) - 分散の平方根を取る
\(\text{標準偏差} = \sqrt{66.67} \approx 8.16\)
分散と標準偏差を視覚的に理解する
例えば、2つのクラスのテスト結果を比較してみましょう。
- クラスA: 平均点70点、標準偏差5点
→ 点数は65点~75点付近に集中していると考えられます。 - クラスB: 平均点70点、標準偏差20点
→ 点数は50点~90点と幅広く分布していると考えられます。
標準偏差が大きいほど、データの広がり(バラつき)が大きいことが分かります。
分散と標準偏差の活用例
- マーケティング
消費者の年齢や購買額などのデータを分析し、バラつきを評価します。例えば、標準偏差が小さい場合は特定の層にアプローチしやすいと考えられます。 - 品質管理
製品のサイズや重さがどれだけ一定であるかを測定するために使用されます。 - 金融
株価の動き(リスク)を分析する際に標準偏差を用いることがあります。
まとめ
- 分散: データのバラつきを示す指標。平均からのズレを二乗して計算する。
- 標準偏差: 分散の平方根。データの単位に合わせたバラつきを示す。
分散と標準偏差は、データ分析や意思決定を行う上で欠かせない指標です。バラつきを定量化することで、データの特徴や傾向をより深く理解できるようになります。