2変数データの整理・表現 線形回帰モデル

回帰直線【意味と使い方を解説】

学習レベル:高校生 難易度:★★☆☆☆

2変数データを対等のものではなく、片方のデータから、もう一つの方のデータの関係や予測を行うために、使用する方法として回帰直線があります。例えば温度と湿度のデータのとき、「温度から湿度が予測できるかどうか」などに用います。

回帰直線とは

<散布図とクロス表の記事>で散布図の作成方法をまとめていました。散布図をまとめ方がわからない場合はあらかじめ復習をお願いします。
 温度のデータ\(x\)と湿度のデータ\(y\)の2変数データについて考えるとき、散布図が下のようになりました。

回帰直線では温度のデータ\(x\)から湿度のデータ\(y\)を説明したり予測したりしようとする方法です。
このとき説明する方の変数\(x\)を説明変数(独立変数、予測変数など explanatory variable, independent variable)とよび、
説明される方の変数\(y\)を応答変数(目的変数、従属変数、被説明変数など response variable, dependent variable, explained variable)
といいます。

このとき回帰直線は次のように定義されます。

回帰直線(regression line)
2つのデータ組\((x,\,y)\)が得られたとします。\(x\)を説明変数、\(y\)を目的変数としたとき$$y=\alpha+\beta x$$という直線関係から、\(x\)から\(y\)を予測・説明しようとすることを回帰直線といいます。また\(\alpha\)および\(\beta\)を回帰係数とよびます。回帰直線では回帰係数の推定に興味があります。

 

回帰係数の推定方法

回帰係数の推定には最小二乗法を用います。
最小二乗法を定義する前に残差について定義します。

残差(residual)
2変数データ\(\{(x_{1},y_{1}),\cdots,(x_{n},y_{n})\}\)について\(x\)を説明変数、\(y\)を目的変数とします。回帰係数\(\alpha、\beta\)を推定したものを\(\widehat{\alpha}、\widehat{\beta}\)とします。このとき観測値\(y_{i}\)を予測された値\(\widehat{y}_{i}\)は$$\widehat{y}_{i}=\widehat{\alpha}+\widehat{\beta}x_{i}$$ となります。このとき、\(y_{i}\)と\(\widehat{y}_{i}\)の差を残差といい、残差\(e_{i}\)は次のように定義されます。
\begin{align} e_{i}&=y_{i}-\widehat{y}_{i}\\ &=y_{i}-(\widehat{\alpha}+\widehat{\beta}x_{i}) \end{align}

 

この残差を用いて、回帰係数を推定していきます。
統計学でよく使われる最小二乗法を紹介します。

最小二乗法(LSM, least squares method)
最小二乗法とは残差平方和を用いて定義されており、残差平方和\(S(\widehat{\alpha},\widehat{\beta})\)は残差を用いて
\begin{align} S(\widehat{\alpha},\widehat{\beta}) &= \sum_{i=1}^{n}e_{i}^{2}\\ &= \sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2} \\ &= \sum_{i=1}^{n}\{ y_{i}-(\widehat{\alpha}+\widehat{\beta}x_{i}) \}^{2} \end{align}
で定義されています。最小二乗法は残差平方和\(S(\widehat{\alpha},\widehat{\beta})\)を最小にするような、\(\alpha、\beta\)を求める方法になります。

 

実は回帰係数の最小二乗法による推定量は次の式で求まります。

回帰係数の最小二乗推定量
回帰係数を最小二乗法によって求めた推定量を最小二乗推定量と呼ぶことにします。最小二乗推定量は次の式のようになります。
\begin{align} \widehat{\beta} &= \frac{ \sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x}) }{ \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } = \frac{s_{xy}}{s_{x}^{2}} \\ \widehat{\alpha} &= \bar{y}-\widehat{\beta}\bar{x} \end{align}
ここで、\(s_{xy}\)は\(x\)と\(y\)の共分散、\(s_{x}^{2}\)は\(x\)の分散を表します。

 

どうですか?
回帰係数の最小二乗推定量を求めるだけなら簡単ですよね?
しかし、なぜこの式で求められるか知りたい方は下のほうの証明をご覧ください。

上の温度と湿度について、回帰直線を引いてみると次のようになります。

散布図で相関関係を見るよりも、より分かりやすく相関関係が見れると思います。この回帰直線では、説明変数が1種類でしたが、実は複数個の説明変数を用いる重回帰分析というものがあります。

回帰係数の最小二乗推定量の証明

■証明

残差平方和の式を見てみると$$S(\widehat{\alpha},\widehat{\beta}) = \sum_{i=1}^{n}\{ y_{i}-(\widehat{\alpha}+\widehat{\beta}x_{i}) \}^{2}$$となります。\(\widehat{\alpha}、\widehat{\beta}\)にそれぞれ注目すると少なくとも下に凸の放物線になることが分かります。よって、\(\widehat{\alpha}、\widehat{\beta}\)それぞれで微分した式がイコール0になるように\(\widehat{\alpha}、\widehat{\beta}\)を計算するといいことがわかります。それぞれで微分してイコール0とすると

\begin{align}
n\widehat{\alpha}+\widehat{\beta}\sum_{i=1}^{n}x_{i}-\sum_{i=1}^{n}y_{i} &= 0\\
\widehat{\alpha}\sum_{i=1}^{n}x_{i}+\widehat{\beta}\sum_{i=1}^{n}x_{i}^{2}-\sum_{i=1}^{n}x_{i}y_{i} &= 0
\end{align}

という連立方程式がたてられます。この式を正規方程式といいます。この連立方程式を解くと、求めたい結果が得られます。

回帰直線のまとめ

回帰直線は2変数データに対して、片方のデータから、もう一つの方のデータの関係や予測を行う方法です。回帰直線において興味があるのは回帰係数の推定です。回帰係数は最小二乗法を用いて推定します。この結果は公式化されているので、比較的計算しやすいというのもひとつの特徴です。

-2変数データの整理・表現, 線形回帰モデル
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5