スポンサーリンク

平均値・中央値・最頻値の違いを分かりやすくまとめ

記事内に広告が含まれています。

統計学でよく使われる「平均値」「中央値」「最頻値」は、それぞれデータの中心を表すための指標です。

それぞれの意味や特徴、使いどころをまとめてみます。

スポンサーリンク

平均値(Mean)

平均値は、データの合計をデータの数で割った値です。

日常的に「平均」と呼ばれるのがこれにあたります。

計算方法

  1. データをすべて足し合わせる。
  2. データの個数で割る。

データが【2, 4, 6, 8, 10】の場合

$$平均値 = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6$$

特徴

  • データ全体の「バランス」を示します。
  • 外れ値(極端に大きい値や小さい値)に影響を受けやすい。

データが【2, 4, 6, 8, 100】の場合、平均値は (2 + 4 + 6 + 8 + 100) ÷ 5 = 24 となり、データの中心をうまく表せていません。

スポンサーリンク

中央値(Median)

中央値は、データを小さい順に並べたときの「真ん中」の値です。

計算方法

  1. データを小さい順に並べる。
  2. 奇数個のデータの場合、真ん中の値を選ぶ。
  3. 偶数個のデータの場合、真ん中2つの値の平均を取る。

データが【2, 4, 6, 8, 10】の場合、真ん中の値は 6 です。

データが【2, 4, 6, 8】の場合、真ん中2つの値は 46 なので、

$$中央値 = \frac{4 + 6}{2} = 5$$

特徴

  • 外れ値の影響を受けにくい。
  • データの偏りがある場合に、平均値よりも実情を反映しやすい。

データが【2, 4, 6, 8, 100】の場合、中央値は 6 のままです。

最頻値(Mode)

最頻値は、データの中で最も頻繁に現れる値です。

計算方法

  1. 各データが何回出現しているかを数える。
  2. 最も出現回数が多い値を選ぶ。

データが【2, 3, 3, 6, 8, 10】の場合、最頻値は 3 です。

データが【1, 2, 2, 3, 3, 4】の場合、最頻値は 23 の2つがあります。

特徴

  • データがどの値に集中しているかを示します。
  • データが均等に分布している場合、最頻値が存在しないこともあります。

使い分けのポイント

それぞれの指標は特性が異なるため、適切に使い分ける必要があります。

平均値を使うとき

  • データが正規分布(偏りがない形)しているとき。
  • 外れ値が少ない場合。

中央値を使うとき

  • 外れ値がある場合。
    • 例:収入データのように一部が極端に大きな値を持つ場合。

最頻値を使うとき

  • データの「人気」や「傾向」を知りたいとき。
    • 例:商品の購入頻度やアンケートの回答。

実際の例で比較

データセット

あるクラスの数学の点数【50, 60, 70, 80, 90, 100, 200】。

  • 平均値:(50 + 60 + 70 + 80 + 90 + 100 + 200) ÷ 7 ≈ 92.86
  • 中央値:80
  • 最頻値:なし(各値が1回ずつ現れるため)

解釈

  • 平均値は200点の影響を受けて高めになっています。
  • 中央値の80点は、データの中心をよく反映しています。
  • 最頻値がない場合も、中央値や平均値と組み合わせて分析できます。

まとめ

指標特徴利用場面
平均値データ全体のバランスを示す偏りが少ないデータ
中央値データの中心を示す外れ値の影響を避けたいとき
最頻値最も頻繁に現れる値を示す人気や傾向を分析したいとき

データの特性や目的に応じて、3つの指標を使い分けることで、より適切な分析が可能になります。特に外れ値が含まれるデータでは、中央値を優先的に検討するのが一般的です。

タイトルとURLをコピーしました