2変数データの整理・表現

散布図とクロス表【相関を視覚的に表す】

学習レベル:中学生 難易度:★☆☆☆☆

相関関係を視覚的に表す方法を2種類紹介します。ひとつは図で表す方法で、もうひとつは表で表す方法です。視覚的に表すことで、相関関係の細かい点まで見ることができるので、どのように見ればよいか詳しく解説していきたいと思います。

散布図とは

まずは一番簡単な散布図の描き方を説明していこうと思います。

散布図(scatter plot)の描き方
データを\((x,\,y)\)のように考えます。\(x\)を横軸に\(y\)を縦軸にとり2次元平面にプロットしたものを散布図といいます。

 

早速、具体例を見てみましょう!

次のデータは\(x\)に部屋の大きさ、\(y\)に家賃を取ったものです。

\begin{align}(x,\,y)=(19,\,75000),\ (19,\,76000),\ (19,\,77000),\cdots,(58,\,138000)\end{align}
\(x\)を横軸に\(y\)を縦軸にとり2次元平面にプロットすると次のようになります。

プロットした結果を見て分かることは、部屋の大きさが大きくなれば大きくなるほど家賃も高くなる傾向があることから[部屋の大きさ]と[部屋の家賃]には正の相関があることがわかります。

※ 正の相関については<相関ついての記事>をご覧ください!

クロス集計表とは

クロス集計表は観測値の数が多いものに使用されます。度数分布表を作成する際に、データをいくつかの階級に分けて作成されていましたが、クロス集計表では2変量データそれぞれを階級に分け、度数を記入していくものです。

※ 度数分布表の作成方法については<度数分布表の記事>をご覧ください。

具体的に部屋の大きさと家賃のクロス集計表を作ってみると次のようになります。

広さ\家賃 ~7
未満
7~
 8
8~
 9
9~
 10
10~
 11
11~
 12
12~
 13
13~
 14
~15未満   1             1
15~20 4 4 5 1         14
20~25   5 27 17 8 2 1   60
25~30     3 17 7 3 5   35
30~35         1 5 3   9
35~40           4 1 3 8
40~45               2 2
45~50               2 2
4 10 35 35 16 14 10 7 131

この表は「8~9」は家賃が[8万円以上、9万円未満]を示し、「15~20」は部屋の広さが[15m\(^{2}\)以上、20m\(^{2}\)未満]を指します。「8~9」「15~20」のセルにあたる数字は[8万円以上、9万円未満]と[15m\(^{2}\)以上、20m\(^{2}\)未満]を同時に満たすデータの度数を表します。

このクロス集計表からも散布図同様、正の相関があることがわかります。また散布図とは異なり、データがどこに集中して分布しているのかも度数を見てわかります。

周辺度数とは

クロス集計表に関する用語を紹介します。

周辺度数(marginal frequency)
\((x,\,y)\)のようにデータが得られたときを考えます。このとき\(x\)が与えられたときの\(y\)の度数のことを周辺度数といいます(\(y\)が与えられたときの\(x\)の度数でもいいです)。

 

具体的には上のクロス表の一番右側もしくは一番下側の合計の度数が周辺度数となります。

例えば家賃が[7~8]万という条件を与えておくと、広さの周辺度数は10となります。

散布図・クロス集計表のまとめ

散布図・クロス集計表は相関関係を視覚的に表すことができる方法です。クロス集計表より散布図の方が作成が簡単です。クロス集計表はデータの分布を度数を含めて表すことができ、散布図より詳しくデータの相関を表すことができます。

散布図の関連記事

相関:相関とはどのようなものか用語を定義しています。

相関係数:相関関係を数値で表す方法を紹介しています。

偏相関係数:3つ以上のデータに対して、見かけ上の相関を取り除く手法を紹介しています。

-2変数データの整理・表現
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5