分散

共分散の定義【確率変数の共分散を知る】

学習レベル:高校生 難易度:★☆☆☆☆

共分散は、データ同士の相関関係を表します。これは2組の確率変数を入手した時、2組の確率変数の間にどのような関係があるか表すものです(データの相関関係と同じなので詳しくは<相関係数の記事>をご覧ください)。確率変数が複数得られた時、よく使用されるので共分散の定義だけでも覚えておきましょう!

共分散の定義

共分散(covariance)
確率変数\((X,Y)\)の共分散は記号\(\mathrm{Cov}(X,Y)\)で表し、下のように定義されます。
\begin{align} \mathrm{Cov}(X,Y) &= \mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])] \\ &= \mathrm{E}[XY]-\mathrm{E}[X]\mathrm{E}[Y] \end{align}

 

共分散には次の意味があります。

  • 共分散が「正の値」→\(X\)が増加すると\(Y\)が増加する傾向がある。(正の相関)
  • 共分散が「負の値」→\(X\)が増加すると\(Y\)が減少する傾向がある。(負の相関)
  • 共分散が0に近い→\(X\)と\(Y\)にはあまり関係がない。(無相関)
  • 共分散が0である→\(X\)と\(Y\)は独立である。

※ 正の相関・負の相関・無相関については<相関の記事>をご覧ください。

相関係数とは

確率変数にも相関係数を定義できます。データ同士の相関係数同様に、相関係数は[相関の種類]と[相関の強さ]を表す基準になります。

相関係数
確率変数\((X,Y)\)の相関係数を\(\rho(X,Y)\)で表し、次の式で定義されます。$$\rho(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}[X]}\sqrt{\mathrm{Var}[Y]}}$$

 

※ 分散については<分散の記事>をご覧ください。

相関係数の解釈の仕方

相関係数を計算すると必ず\(-1~1\)の間の値をとります。まず相関係数から、相関の種類の判断について紹介します。

  • 相関係数が\(1\)に近いとき:正の相関
  • 相関係数が\(0\)に近いとき:無相関
  • 相関係数が\(-1\)に近いとき:負の相関
相関係数の範囲評価
\(-1.0~-0.7\)強い負の相関
\(-0.7~-0.4\)負の相関
\(-0.4~-0.2\)やや負の相関
\(-0.2~0.2\)無相関
\(0.2~0.4\)やや正の相関
\(0.4~0.7\)正の相関
\(0.7~1.0\)強い負の相関

相関係数で注意しないといけないことは、相関関係があるからといって因果関係を表すものではないことには注意が必要である(このようなことをみかけ上の相関といいます)。詳しくは<相関の記事>をご覧ください。

共分散のまとめ

共分散は確率変数同士の相関関係を表します。しかし、共分散はデータによって値の大きさが変わるので、判断の基準が明確に決められていません。そこで、[相関の種類]と[相関の強さ]を測るための基準として相関係数を計算します。

共分散の関連記事

分散の定義:分散を定義しています。

条件付き分散:条件付き確率変数の分散の求め方を紹介しています。

分散の性質:分散の持つ性質をまとめています。

-分散
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5