統計学でよく使われる「平均値」「中央値」「最頻値」は、それぞれデータの中心を表すための指標です。
それぞれの意味や特徴、使いどころをまとめてみます。
平均値(Mean)
平均値は、データの合計をデータの数で割った値です。
日常的に「平均」と呼ばれるのがこれにあたります。
計算方法
- データをすべて足し合わせる。
- データの個数で割る。
例
データが【2, 4, 6, 8, 10】の場合
$$平均値 = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6$$
特徴
- データ全体の「バランス」を示します。
- 外れ値(極端に大きい値や小さい値)に影響を受けやすい。
データが【2, 4, 6, 8, 100】の場合、平均値は (2 + 4 + 6 + 8 + 100) ÷ 5 = 24 となり、データの中心をうまく表せていません。
中央値(Median)
中央値は、データを小さい順に並べたときの「真ん中」の値です。
計算方法
- データを小さい順に並べる。
- 奇数個のデータの場合、真ん中の値を選ぶ。
- 偶数個のデータの場合、真ん中2つの値の平均を取る。
例
データが【2, 4, 6, 8, 10】の場合、真ん中の値は 6 です。
データが【2, 4, 6, 8】の場合、真ん中2つの値は 4 と 6 なので、
$$中央値 = \frac{4 + 6}{2} = 5$$
特徴
- 外れ値の影響を受けにくい。
- データの偏りがある場合に、平均値よりも実情を反映しやすい。
データが【2, 4, 6, 8, 100】の場合、中央値は 6 のままです。
最頻値(Mode)
最頻値は、データの中で最も頻繁に現れる値です。
計算方法
- 各データが何回出現しているかを数える。
- 最も出現回数が多い値を選ぶ。
例
データが【2, 3, 3, 6, 8, 10】の場合、最頻値は 3 です。
データが【1, 2, 2, 3, 3, 4】の場合、最頻値は 2 と 3 の2つがあります。
特徴
- データがどの値に集中しているかを示します。
- データが均等に分布している場合、最頻値が存在しないこともあります。
使い分けのポイント
それぞれの指標は特性が異なるため、適切に使い分ける必要があります。
平均値を使うとき
- データが正規分布(偏りがない形)しているとき。
- 外れ値が少ない場合。
中央値を使うとき
- 外れ値がある場合。
- 例:収入データのように一部が極端に大きな値を持つ場合。
最頻値を使うとき
- データの「人気」や「傾向」を知りたいとき。
- 例:商品の購入頻度やアンケートの回答。
実際の例で比較
データセット
あるクラスの数学の点数【50, 60, 70, 80, 90, 100, 200】。
- 平均値:(50 + 60 + 70 + 80 + 90 + 100 + 200) ÷ 7 ≈ 92.86
- 中央値:80
- 最頻値:なし(各値が1回ずつ現れるため)
解釈
- 平均値は200点の影響を受けて高めになっています。
- 中央値の80点は、データの中心をよく反映しています。
- 最頻値がない場合も、中央値や平均値と組み合わせて分析できます。
まとめ
指標 | 特徴 | 利用場面 |
---|---|---|
平均値 | データ全体のバランスを示す | 偏りが少ないデータ |
中央値 | データの中心を示す | 外れ値の影響を避けたいとき |
最頻値 | 最も頻繁に現れる値を示す | 人気や傾向を分析したいとき |
データの特性や目的に応じて、3つの指標を使い分けることで、より適切な分析が可能になります。特に外れ値が含まれるデータでは、中央値を優先的に検討するのが一般的です。