2変数データの整理・表現

相関とは【データの関係を知る】

学習レベル:中学生 難易度:★☆☆☆☆

2変数のデータが得られたとき、1番気になることは2つのデータがどのような関係があるかです。このように、2つの変数の関係を表すものの代表値として相関がある。これは2変数だけでなく、多次元のデータを扱うときにも使用されるので、是非とも覚えておきたいことになります。

相関とは

今回の記事では「相関」に関する用語をいくつか定義していきます。数式は使わないので、気楽に読めると思いますよ!

相関(correlation)
2つのデータ組\((x,\,y)\)が得られたとします。この2つのデータがお互いにどのような関係があるかを表すものを相関といいます。
 

具体的には(温度, 湿度)のデータのペアが得られたとします。このデータにおいて、[温度]が高ければ高いほど[湿度]が高くなるという関係があると、温度と湿度には相関があるといいます。

相関に関する注意点

相関を学ぶ上で注意しなければならないことがあります。それは、相関関係があると言っても、因果関係を表すものではないということです。因果関係がないのにも関わらず、相関関係のあることをみかけ上の相関といいます。

具体例を見れば分かりやすいと思います。

 例えば、[1年間に飲むワインの量]と[寿命]のデータが得られたとします。このデータにおいて[1年間に飲むワインの量]が多ければ多いほど[寿命]が長くなる傾向があることが分かったとします。

 このとき、「ワインには寿命を延ばす効果がある」と判断できるでしょうか?

この場合、「ワインをたくさん飲む人はお金持ちで、お金持ちだから寿命が長い」と考えられます。このように相関関係は必ずとも、[原因]と[結果]の関係ではないことに注意してください。

地球温暖化のデータでも同じことが言えますね!
二酸化炭素が増えたことで、地球全体の気温が上がっている傾向があることはわかっていますが、二酸化炭素が原因かどうかは議論されていますよね♪

相関に関する用語

相関に関する用語
2つのデータ組\((x,\,y)\)が得られたとします。このとき、正の相関負の相関無相関は次のように定義されます。
正の相関:\(x\)が増加すると\(y\)も増加する傾向があるとき
負の相関:\(x\)が増加すると\(y\)が減少する傾向があるとき
無相関:正の相関・負の相関どちらの傾向もない場合
 

多次元データ(複数個のデータ)を扱っていくにあたって、相関関係は切っても切り離せないので、ここでしっかり相関に関する正しい知識をつけていきましょう!

散布図の関連記事

散布図とクロス表:相関を視覚的に表す表、図を紹介しています。

相関係数:相関関係を数値で表す方法を紹介しています。

偏相関係数:3つ以上のデータに対して、見かけ上の相関を取り除く手法を紹介しています。

-2変数データの整理・表現
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5