2変数データの整理・表現

偏相関係数【みかけ上の相関への対策】

学習レベル:高校生 難易度:★☆☆☆☆

相関関係は因果関係を表すものではないことは<相関の記事>で説明しました。因果関係がないのにも関わらず相関関係があることを、みかけ上の相関と言います。このみかけ上の相関への対策として、偏相関係数というものがあります。今回は偏相関係数について説明していきます。

偏相関係数とは

偏相関係数(partial correlation coefficient)
3つのデータ組\((x,\,y,\,z)\)が得られたとします。このデータについて\(x\)と\(y\)の相関を\(r_{xy}\)、\(y\)と\(z\)の相関を\(r_{yz}\)、\(z\)と\(x\)の相関を\(r_{zx}\)とします。このとき\(y\)と\(z\)の相関から\(x\)の影響を除いた関係を偏相関係数といい、このときの偏相関係数\(r_{(yz,x)}\)次のように定義されます。$$r_{(yz,x)}=\frac{r_{yz}-r_{xy}r_{zx}}{\sqrt{1-r_{xy}^{2}}\sqrt{1-r_{zx}^{2}}}$$

 

※ 相関係数に関する記事は<相関係数の記事>をご覧ください。

偏相関係数の使い方を見てみましょう!

次のデータは賃貸マンションデータにおける変数間の相関関係のデータである。各変数間の相関係数を計算すると次のようになった。

  • 部屋の大きさと家賃の相関係数 \(0.841\)
  • 部屋の大きさと築年数の相関係数 \(0.516\)
  • 家賃と築年数の相関係数 \(0.245\)

"改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎 p.32より"

データ\(x\)を部屋の大きさ、データ\(y\)を部屋の家賃、データ\(z\)を築年数とします。このデータについて、家賃と築年数の相関係数が\(r_{yz}=0.245\)について、築年数が長ければ長いほど家賃が高くなる傾向があることがわかります。しかし、これば感覚的には正しくないことだと思います。この相関係数から部屋の大きさの影響を除いた偏相関係数\(r_{(yz,x)}\)を計算すると

\begin{align}
r_{(yz,x)} &= \frac{r_{yz}-r_{xy}r_{zx}}{\sqrt{1-r_{xy}^{2}}\sqrt{1-r_{zx}^{2}}}\\
&= \frac{0.245-0.841\times0.516}{\sqrt{1-0.841^{2}}\sqrt{1-0.516^{2}}} \\
&= -0.408
\end{align}

となります。よって、家賃と築年数の相関係数から部屋の大きさの情報を取り除くと負の相関があることがわかります。つまり、家賃と築年数の相関関係には部屋の大きさによるみかけ上の相関があったことが分かりました。

偏相関係数のまとめ

相関関係の問題点である、「みかけ上の相関」への対策方法として使われる手法であり、偏相関係数は相関関係から特定のデータの情報を除いた状態で相関係数を出すことができます。

散布図の関連記事

相関:相関とはどのようなものか用語を定義しています。

散布図とクロス表:相関を視覚的に表す表、図を紹介しています。

相関係数:相関関係を数値で表す方法を紹介しています。

-2変数データの整理・表現
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5