学習レベル:中学生 難易度:★☆☆☆☆
2つ以上のグループのデータについて、平均が異なるもの同士で分散・標準偏差はあまり適切ではありません。
例えば、満点が10点と1000点のテストでともに標準偏差が3点だったとしましょう。どちらのテストでも平均の周りにだいたい3点ぐらいで分布しているのですが、明らかに1000点満点のテストの方が、10点満点のテストと比べて、散らばり方が小さいですよね?
このようにデータの散らばり方を比較する際は、データの大きさ(スケール)も踏まえる必要があります。このデータのスケールを踏まえた散布度を変動係数といいます。今回は、変動係数について説明していきます。
変動係数とは
データの大きさに左右されない散布度を変動係数と言います。
主にグループ間で格差があるのかどうかを調べるために使用します。
地域間の体格差や収入格差などに使われるということですか?
そのとおりです!
早速、変動係数の定義を見てみましょう!
早速、具体例を見てみましょう!
具体例
ある地域Aでは年収の平均は400万円で、標準偏差が10万円、そしてある地域Bでは年収の平均が1000万円で、標準偏差が20万円だったとします。このとき、地域Aと地域Bどちらが所得格差があるか考えてみましょう!
地域A・地域Bの変動係数をそれぞれ\(CV_{A},\ CV_{B}\)として求めてみると、
CV_{A} &= \frac{10}{400} = 0.025 \mbox{(%)} \\
CV_{B} &= \frac{20}{1000} = 0.020 \mbox{(%)}
\end{align}
となります。地域Aの方が変動係数が大きいので、地域Bより所得格差が大きいことがわかります。
変動係数のまとめ
変動係数はデータの大きさに左右されずにデータの散らばり方を表すことができます。主に地域間の格差や年代による格差など、グループ間で比較するときに使用されます。
その他の散布度
・範囲(レンジ):データの存在範囲を表す散布度です。
・四分位数:有限個のデータに対して使用できる散布度です。
・パーセンタイル:四分位数の上位互換になる散布度です。
・分散・標準偏差:散布度の中で最もポピュラーなものになります。
・平均偏差:絶対値で平均との誤差を測ることで散布度を計算する方法です。
・標準得点:観測値が平均とどのくらい離れているかを表す散布度です。