2変数データの整理・表現

相関係数【データの関係を数値化する】

学習レベル:高校生 難易度:★☆☆☆☆

相関散布図・クロス表では相関という言葉の定義と相関関係を視覚的に表す方法を紹介しました。しかし、視覚的に訴えても各個人の捉え方によって違いが出てきてしまいます。そこでこの記事では、データの関係性を数字で表す方法を紹介していきます。

共分散とは

データの関係を数字で表す、相関係数を紹介していきます。
相関係数を定義する前に共分散というものを定義していきます。

共分散(covariance)
データ数\(n\)のデータ組\(\{(x_{1},\,y_{1}),\,(x_{2},\,y_{2}),\cdots,(x_{n},\,y_{n})\}\)について共分散\(s_{xy}\)は次のように定義されます。
\begin{align}
s_{xy} &= \frac{1}{n}\left\{ (x_{1}-\bar{x})(y_{1}-\bar{y})+\cdots+(x_{n}-\bar{x})(y_{n}-\bar{y}) \right\} \\
&=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})
\end{align}

 

共分散には次の意味があります。

  • 共分散が「正の値」→\(x\)が増加すると\(y\)が増加する傾向がある。(正の相関)
  • 共分散が「負の値」→\(x\)が増加すると\(y\)が減少する傾向がある。(負の相関)
  • 共分散が0に近い→\(x\)と\(y\)にはあまり関係がない。(無相関)

※ 正の相関・負の相関・無相関については<相関の記事>をご覧ください。

相関係数とは

共分散から、相関の種類の判断はできますが、相関の強さは測ることができませんでした。相関係数は[相関の種類]と[相関の強さ]を表す基準になります。

相関係数(ピアソンの積率相関係数 correlation coefficient)
データ数\(n\)のデータ組\(\{(x_{1},\,y_{1}),\,(x_{2},\,y_{2}),\cdots,(x_{n},\,y_{n})\}\)について、\(\{x_{1},\cdots,x_{n}\}\)の分散が\(s_{x}^{2}\)、\(\{y_{1},\cdots,y_{n}\}\)の分散が\(s_{y}^{2}\)であり、\(x\)と\(y\)の共分散が\(s_{xy}\)で与えられたとき、\(x\)と\(y\)の相関係数\(r_{xy}\)は次のように定義されます。$$r_{xy}=\frac{s_{xy}}{s_{x}s_{y}}$$

 

※ 分散については<分散・標準偏差の記事>をご覧ください。

相関係数は次のように書き換えることができます。

\begin{align}r_{xy}=\frac{1}{n}\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})(y_{i}-\bar{y})}{s_{x}s_{y}}=\frac{1}{n}\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})}{s_{x}}\cdot\frac{(y_{i}-\bar{y})}{s_{y}}\end{align}

一番、右辺を注目してください!
この式から相関係数は標準得点どうしの共分散になっていることがわかります。

※ 標準得点については<標準得点の記事>をご覧ください。

相関係数の解釈の仕方

相関係数を計算すると必ず\(-1~1\)の間の値をとります。まず相関係数から、相関の種類の判断について紹介します。

  • 相関係数が\(1\)に近いとき:正の相関
  • 相関係数が\(0\)に近いとき:無相関
  • 相関係数が\(-1\)に近いとき:負の相関

しかし、まだ不完全な感じがしますよね!?
例えば、正の相関と無相関の境目はどこら辺か疑問に思いませんか?
次にもう少し詳しい基準を紹介します。

相関係数の範囲評価
\(-1.0~-0.7\)強い負の相関
\(-0.7~-0.4\)負の相関
\(-0.4~-0.2\)やや負の相関
\(-0.2~0.2\)無相関
\(0.2~0.4\)やや正の相関
\(0.4~0.7\)正の相関
\(0.7~1.0\)強い負の相関

相関係数で注意しないといけないことは、相関関係があるからといって因果関係を表すものではないことには注意が必要である(このようなことをみかけ上の相関といいます)。詳しくは<相関の記事>をご覧ください。

相関係数のまとめ

共分散は相関の種類を判断するひとつの指標になります。しかし、共分散はデータによって値の大きさが変わるので、判断の基準が明確に決められていません。そこで、[相関の種類]と[相関の強さ]を測るための基準として相関係数を計算します。相関係数はどのデータに用いても判断基準が一定になるので、データ間の関係を表すためによく使用されます。

散布図の関連記事

相関:相関とはどのようなものか用語を定義しています。

散布図とクロス表:相関を視覚的に表す表、図を紹介しています。

偏相関係数:3つ以上のデータに対して、見かけ上の相関を取り除く手法を紹介しています。

-2変数データの整理・表現
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5