学習レベル:中学生 難易度:★☆☆☆☆
前回の記事では統計学は特別な数字を導き出す学問であるということを紹介しました。この特別な数字を導き出すためにはデータを適切に分類する必要があります。
尺度による分類
この章では、統計学で扱うであろうデータの分類について紹介しています。ここで紹介するデータの分類は非常にシンプルですが、仕分けを間違えると大きな間違いになります。これはどの分野でも同じことですよね。料理人が「肉」と「魚」を間違えた結果、「肉」で刺身を作ってしまう人は料理人失格ですよね?
最初の内容がとても大事なので、疎かにせず確実に自分の物にしていきましょう!
最初はデータの分類をしていきましょう!
分類ってむずかしそう...
心配ないですよ!
皆さんの日常生活上での感覚で簡単に分類できちゃいます。動物の分類は[哺乳類][鳥類]など最後に類を付けますね。
データの分類での同じように最後に尺度を付けます。
尺度 | 例 | どのような分類? |
名義 尺度 | 性別、好きな色 | 同じ値かどうかだけに意味がある |
順序 尺度 | 通知表の評価 | 値の大小関係に意味がある |
間隔 尺度 | 摂氏温度、偏差値 | 「値の大小関係」「値の差」に意味がある。 (0に相対的に意味があるかないか) |
比例 尺度 | 身長、体重、年齢 | 「値の大小関係」「値の差」に意味がある。 加えて、0には絶対的な意味を持つ。 |
これだけでは、あまりピンとこない人がいるかもしれません。次の節からはそれぞれの尺度について、詳しく見ていきましょう!
名義尺度
データの分類では一番、弱い分類です。分かりやすく箇条書きでまとめると
- 値が同じかどうかに意味がある
- 値に大小関係に意味がない。(値でもないことも)
となります。
具体的にはどのようなデータがあるのですか?
「性別」や「職業」などがあります。
たとえば[男]と[女]を比較したとき、
この2つのデータが異なるものだということはわかります。
しかし、[男]と[女]には大小関係はありません。
名義尺度は分類されるデータに多く見られます。
順序尺度
順序尺度は、名義尺度の条件を一部変えたものになります。具体的には
- 値の大小関係に意味がある
という条件になります。
具体例は「成績表の評価」などがあります。
成績が良い順に[A>B>C>D>F]となっているデータの場合
・ 評価[A]と[C]は異なる評価であることがわかります
・ 評価[A]と[C]では[A]の方が成績が良いことがわかります
順序尺度は順位などを表すデータに多く見られます。
間隔尺度
データの分類の中では1番ややこしいものになります。この尺度に含まれるための条件は
- 「値の大小関係」と「値の差の大きさ」に意味がある。
- 0には相対的な意味しか持たない。
となります。
1つ目の条件は何となくわかるのですが、
2つ目の「0の相対的な意味」というところが分かりません
確かに分かりにくいですね...
ですが、具体例を用いると簡単に理解できます。
[偏差値]について考えてみると、偏差値「45」という数字は小さい数字ですよね!
この小さいという判断は50という数字を基準に考えたはずです。「0の相対的な意味」とは0が意味を持たないということになります。つまり
間隔尺度は基準となる数字が0ではないものとなります。
※ 摂氏温度は基準が0℃に見えますが、実はケルビン(温度の単位K)において
約273Kを0℃としただけなので、摂氏温度も間隔尺度となります。摂氏温度は数少ない間隔尺度のひとつなので是非、覚えておきましょう!
比例尺度
データを分類したうえで、1番取り扱いやすい尺度になります。間隔尺度では0は相対的な意味を持っていたが、比例尺度では絶対的な意味を持ちます。
具体的には「身長」「体重」など数多くのデータがあります。
これらのデータは間隔尺度と異なり0を基準にしてデータの大きさを判断することができますね!
尺度のまとめ
この分類、感がいい人は気が付いたかもしれませんが、尺度には包含関係が存在します。尺度の強弱をまとめると
名義尺度 < 順序尺度 < 間隔尺度 < 比例尺度
となります。これがなにを表しているか...
たとえば間隔尺度に分類されるものは順序尺度・名義尺度で成り立っている性質はすべて成り立つことになる。つまり比例尺度に分類されるデータはどのデータよりも性質を持っていることになります。
質的データと量的データ
これまでは尺度と呼ばれる分類を紹介しましたが、これ以外にもう1つの分類があります。この章では尺度以外の分類について紹介します。
尺度でもう頭がいっぱいなんですが...
そのような心配はいりません!
ここではたった2種類の分類しかありません。
- 質的データ:カテゴリ分けで表されるデータ
- 量的データ:数値(観測値)で表されるデータ
もっと簡単に言うと
量的データは数字で表されるデータ
で分類すればいいです。
質的データはそのままカテゴリデータ
と覚えましょう!
データの分類のまとめ
データの分類は尺度を呼ばれる分類をされる。尺度には強弱関係が存在しており
名義尺度 < 順序尺度 < 間隔尺度 < 比例尺度
となっている。
さらにデータは「質的データ」と「量的データ」の2種類に分類され、これは観測値が数値かカテゴリ分けされているかで分類を行えばよい!