回帰分析の基本を分かりやすくまとめ

統計学やデータ分析の分野において、回帰分析はとてもよく使われる手法です。

回帰分析を使うと、ある変数（目的変数・従属変数）の値が他の変数（説明変数・独立変数）によってどのように影響を受けるかを推定・予測することができます。

回帰分析の基本的な考え方や流れ、代表的な手法をまとめてみます。

Contents

回帰分析とは？

回帰分析は、「何らかの結果（目的変数）を予測するときに、その結果に関係する要因（説明変数）がどの程度影響しているのかを調べる」ための方法です。

たとえば、以下のようなケースで回帰分析が使われます。

売上高（目的変数）が広告費や値下げ率（説明変数）によって、どのように変化するのかを分析する。

同時に、分析を通じて「広告費を1万円増やすと売上はどのくらい増えるか？」「値下げ率を1%上げると売上はどのくらい増えるか？」といった具体的な影響量（回帰係数）を知ることもできるのが特徴です。

回帰分析の流れは、以下のようなステップで行うことが多いです。

目的変数と説明変数を決める
- どの変数を「予測したい（説明したい）」のか（＝目的変数）
- どの変数を使って説明するのか（＝説明変数）
  を選びます。
データの収集・整理
- 必要なデータを集め、欠損値の処理や外れ値の確認を行います。
- 説明変数が多い場合は、どれを使うか検討します。
モデルを当てはめる（学習させる）
- 回帰分析の手法（線形回帰・重回帰など）を使って、係数を推定します。
モデルの評価
- 当てはめたモデルがどの程度当てはまりが良いのかを評価します。
- 決定係数 $R^2$ やRMSE（Root Mean Square Error）などの指標を使って確認します。
結果の解釈・活用
- 推定された回帰係数から、どの説明変数が目的変数に大きく影響するか解釈します。
- 今後の予測にモデルを活用したり、意思決定に役立てたりします。

1つの説明変数で目的変数を予測したいときに用いるもっとも基本的な回帰分析です。

例を挙げます。

$$\text{売上高} = \beta_0 + \beta_1 \times \text{広告費} + \varepsilon$$

このとき、データをもとに $\beta_0$ と $\beta_1$ を推定し、予測に使います。

複数の説明変数がある場合には、重回帰分析を用います。

例を挙げます。

$$\text{売上高} = \beta_0 + \beta_1 \times \text{広告費} + \beta_2 \times \text{値下げ率} + \varepsilon$$

複数の要因が同時に影響する場合には、重回帰分析が必要になります。

回帰モデルがどのくらい正確に目的変数の動きを説明できているのかを数値的に表すための評価指標がいくつかあります。

決定係数 $R^2$
- 0〜1の範囲をとる値で、1に近いほどモデルの当てはまりが良いとされる。
- ただし変数をやみくもに増やすと $R^2$ は上がりやすくなるため、自由度修正済みの $R^2$（Adjusted $R^2$）を用いることも多いです。
RMSE（Root Mean Square Error）
- 実際の値とモデルの予測値のズレの平均的な大きさを表す。
- 数値が小さいほど、誤差が小さい＝モデルが精度良く予測できていることを示す。
MAE（Mean Absolute Error）
- 平均絶対誤差。誤差を絶対値でとった平均。
- 実際の値とのズレを分かりやすく把握できる。

仮定のチェック
- 代表的な線形回帰では、「誤差が正規分布に従う」「説明変数同士に強い相関がない（多重共線性が少ない）」などの仮定が存在します。
- グラフや統計的な手法を用いて、これらの仮定が大きく崩れていないかチェックしましょう。
外れ値・異常値の扱い
- 収集したデータの中には極端に大きい値や小さい値が含まれているかもしれません。
- そうした外れ値は回帰モデルの推定に大きな影響を与える場合があるため、適切に扱う必要があります。
多重共線性
- 説明変数同士が強く相関していると、回帰係数の推定が不安定になります。
- Variance Inflation Factor（VIF）などを用いてチェックします。
過学習（オーバーフィッティング）
- 説明変数を増やしすぎると、手元のデータには妙にフィットする一方で、新しいデータに対しては予測精度が落ちる（過学習）リスクがあります。
- クロスバリデーションやAICなどを参考に、モデルを選択しましょう。