統計学の基本としてよく耳にする「正規分布」。
身近な例や応用を通じて、初心者にもわかりやすくその概念と重要性をまとめます。
また、正規分布がなぜ多くの現象に現れるのかを「中心極限定理」と関連づけて解説します。
Contents
正規分布とは?
正規分布とは、データの分布が「釣鐘型」の形をしていることを指します。
数学的には、以下のような特徴を持つ確率分布です。
- データが平均値を中心に左右対称に分布する。
- 平均値付近にデータが多く、両端に行くほどデータは少なくなる。
- 具体的な形は平均と標準偏差の値によって決まる。
正規分布の身近な例
正規分布は日常の多くの現象で見られます。
以下に例を挙げます。
- 身長
- 日本人の成人男性の身長の平均は約170cm、標準偏差が約5cmだとします。
- この場合、身長が160~180cmの人は全体の約68%に当たります(標準偏差1以内の範囲)。
- 身長が155~185cmの人は約95%に達します(標準偏差2以内の範囲)。
- テストの点数
- クラス全員が受けた試験で、平均点が70点、標準偏差が10点だとします。
- 60~80点の範囲に約68%の生徒が収まります。
このように、正規分布の形は私たちが観測する多くのデータの分布をよく説明します。
正規分布が重要な理由
統計学的分析の基礎
多くの統計分析手法(t検定、ANOVAなど)は、データが正規分布に従うことを前提としています。
これが成り立つと、データを効率よく分析でき、正確な推論が可能になります。
実生活への応用
正規分布は自然現象だけでなく、社会的なデータにも広く見られるため、予測や意思決定に役立ちます。
以下に例を挙げます。
- 製品の品質管理(不良品率の推定)
- 金融リスクの評価(株価の変動分析)
なぜ多くの現象が正規分布をとるのか?~中心極限定理~
正規分布の普遍性を説明する上で重要なのが中心極限定理です。
中心極限定理とは?
「どんな分布のデータでも、それを十分にたくさん平均した場合、その平均値の分布は正規分布に近づく」という定理です。
以下に例を挙げます。
- コイン投げ
- コインを1回投げる結果は「表」か「裏」のどちらか(0と1のような二項分布)。
- しかし、100回投げた場合の「表が出た回数の平均」を考えると、その分布は正規分布に近づきます。
- 試験の総得点
- 各教科の点数分布が異なっていても、5教科の合計点を考えるとその分布は正規分布に近づきます。
正規分布と中心極限定理の応用例
商品開発の意思決定
消費者の嗜好データを多数収集し、平均値や標準偏差を計算することで、製品のターゲット層を絞り込めます。
保険のリスク評価
事故発生率や寿命データは多くの場合正規分布を仮定して計算されます。
正規分布の限界
実際のデータが以下の場合、正規分布を仮定すると誤った結論を導く可能性があります。
- 偏りが大きい分布
例えば、所得データは「平均よりはるかに大きい値」が多い傾向があり、正規分布では表現しにくい。 - 裾の厚い分布
極端な値(例:災害の規模など)が頻繁に現れるデータは正規分布に適しません。
まとめ
正規分布は統計学における基本中の基本であり、多くの現象を説明する便利なモデルです。その普遍性は中心極限定理によって保証され、実生活のあらゆる場面で応用されています。ただし、正規分布に当てはまらないケースも存在するため、データの特性に応じて適切な分析を行うことが重要です。