統計学やデータ分析の分野において、回帰分析はとてもよく使われる手法です。
回帰分析を使うと、ある変数(目的変数・従属変数)の値が他の変数(説明変数・独立変数)によってどのように影響を受けるかを推定・予測することができます。
回帰分析の基本的な考え方や流れ、代表的な手法をまとめてみます。
回帰分析とは?
回帰分析は、「何らかの結果(目的変数)を予測するときに、その結果に関係する要因(説明変数)がどの程度影響しているのかを調べる」ための方法です。
たとえば、以下のようなケースで回帰分析が使われます。
売上高(目的変数)が広告費や値下げ率(説明変数)によって、どのように変化するのかを分析する。
同時に、分析を通じて「広告費を1万円増やすと売上はどのくらい増えるか?」「値下げ率を1%上げると売上はどのくらい増えるか?」といった具体的な影響量(回帰係数)を知ることもできるのが特徴です。
回帰分析の基本的な流れ
回帰分析の流れは、以下のようなステップで行うことが多いです。
- 目的変数と説明変数を決める
- どの変数を「予測したい(説明したい)」のか(=目的変数)
- どの変数を使って説明するのか(=説明変数)
を選びます。
- データの収集・整理
- 必要なデータを集め、欠損値の処理や外れ値の確認を行います。
- 説明変数が多い場合は、どれを使うか検討します。
- モデルを当てはめる(学習させる)
- 回帰分析の手法(線形回帰・重回帰など)を使って、係数を推定します。
- モデルの評価
- 当てはめたモデルがどの程度当てはまりが良いのかを評価します。
- 決定係数 \(R^2\) やRMSE(Root Mean Square Error)などの指標を使って確認します。
- 結果の解釈・活用
- 推定された回帰係数から、どの説明変数が目的変数に大きく影響するか解釈します。
- 今後の予測にモデルを活用したり、意思決定に役立てたりします。
単回帰分析と重回帰分析
単回帰分析
1つの説明変数で目的変数を予測したいときに用いるもっとも基本的な回帰分析です。
例を挙げます。
$$\text{売上高} = \beta_0 + \beta_1 \times \text{広告費} + \varepsilon$$
- \(\beta_0\) は切片(広告費がゼロのときの売上)
- \(\beta_1\) は広告費が1単位増えたときに売上がどのくらい増えるかを表す係数
- \(\varepsilon\) は誤差項
このとき、データをもとに \(\beta_0\) と \(\beta_1\) を推定し、予測に使います。
重回帰分析
複数の説明変数がある場合には、重回帰分析を用います。
例を挙げます。
$$\text{売上高} = \beta_0 + \beta_1 \times \text{広告費} + \beta_2 \times \text{値下げ率} + \varepsilon$$
- \(\beta_2\) は、値下げ率が1単位増えると売上がどのくらい変化するかを表す係数
複数の要因が同時に影響する場合には、重回帰分析が必要になります。
回帰モデルの評価指標
回帰モデルがどのくらい正確に目的変数の動きを説明できているのかを数値的に表すための評価指標がいくつかあります。
- 決定係数 \(R^2\)
- 0〜1の範囲をとる値で、1に近いほどモデルの当てはまりが良いとされる。
- ただし変数をやみくもに増やすと \(R^2\) は上がりやすくなるため、自由度修正済みの \(R^2\)(Adjusted \(R^2\))を用いることも多いです。
- RMSE(Root Mean Square Error)
- 実際の値とモデルの予測値のズレの平均的な大きさを表す。
- 数値が小さいほど、誤差が小さい=モデルが精度良く予測できていることを示す。
- MAE(Mean Absolute Error)
- 平均絶対誤差。誤差を絶対値でとった平均。
- 実際の値とのズレを分かりやすく把握できる。
回帰分析をするときの注意点
- 仮定のチェック
- 代表的な線形回帰では、「誤差が正規分布に従う」「説明変数同士に強い相関がない(多重共線性が少ない)」などの仮定が存在します。
- グラフや統計的な手法を用いて、これらの仮定が大きく崩れていないかチェックしましょう。
- 外れ値・異常値の扱い
- 収集したデータの中には極端に大きい値や小さい値が含まれているかもしれません。
- そうした外れ値は回帰モデルの推定に大きな影響を与える場合があるため、適切に扱う必要があります。
- 多重共線性
- 説明変数同士が強く相関していると、回帰係数の推定が不安定になります。
- Variance Inflation Factor(VIF)などを用いてチェックします。
- 過学習(オーバーフィッティング)
- 説明変数を増やしすぎると、手元のデータには妙にフィットする一方で、新しいデータに対しては予測精度が落ちる(過学習)リスクがあります。
- クロスバリデーションやAICなどを参考に、モデルを選択しましょう。
代表的な回帰分析手法
線形回帰(最小二乗法)
もっとも基本的な回帰分析。
誤差の二乗和を最小化するように回帰係数を推定する手法です。
リッジ回帰・LASSO回帰
- リッジ回帰
回帰係数の大きさにペナルティをかけることで過学習を抑える。 - LASSO回帰
リッジ回帰と同様にペナルティをかけるが、不要な説明変数の係数をゼロにしやすくする特徴がある。いずれも、変数を多数使うときや、過学習が疑われるときによく使われる。
ロジスティック回帰
目的変数が「購入する/購入しない」といった**2値(0/1)**の場合に用いられる回帰。
「回帰」という名前がついているが、2値分類を行うための手法。
まとめ
回帰分析は、目的変数がどのように変動するかを説明・予測するための基本的な手法です。単回帰分析では1つの変数がどれだけ影響するかをシンプルに捉えることができ、重回帰分析では複数の要因を同時に考慮することができます。
ただし、データの前処理や仮定のチェック、モデルの評価をしっかり行わないと、得られた結果が誤解を招く可能性もあります。基本の考え方や評価指標をきちんと理解しておくことが重要です。