学習レベル:中学生 難易度:★☆☆☆☆
分散・標準偏差は統計学を学ぶ上で、重要な役割を持ちます。平均を求めるとき算術平均がメジャーであるのと同じで、散布度を求める上で分散・標準偏差は最もメジャーな方法です。
分散・標準偏差とは
平均からデータがどのくらい離れているかを表すものが分散・標準偏差です。
なぜ、分散を計算するときに\(2\)乗する必要があるのですか?
仮に\(2\)乗しなかったら、
足し合わせていく上で正負が入り混じってしまうこと
です。分散計算で\(2\)乗する理由は
全て正の数で足し合わせるため
です。
分散の意味
実際の具体例と交えて分散を見てみましょう。次のデータは3つのクラスの学生5人ずつの点数です。
A:3, 4, 5, 6, 7(点)
B:1, 3, 5, 7, 9(点)
C:0, 1, 5, 9, 10(点)
この3つのクラス全て平均点は5点です。それを踏まえた上で、それぞれのクラスの分散\(s_{A}^{2},\ s_{B}^{2},\ s_{C}^{2}\)を計算すると
s_{A}^{2} &= \frac{1}{5}\left( (3-5)^{2}+(4-5)^{2}+\cdots+(7-5)^{2} \right)=2.0\\
s_{B}^{2} &= \frac{1}{5}\left( (1-5)^{2}+(3-5)^{2}+\cdots+(9-5)^{2} \right)=8.0\\
s_{C}^{2} &= \frac{1}{5}\left( (0-5)^{2}+(1-5)^{2}+\cdots+(10-5)^{2} \right)=16.4
\end{align}
となります。この値はデータを\(2\)乗しているので、データの単位が異なります(今回は単位が点だったのですが、仮に単位が\(cm\)だった場合、分散の単位は\(cm^{2}\)となってしまいます。)。そこで、単位を統一するために標準偏差\(s_{A},\ s_{B},\ s_{C}\)を計算すると、
s_{A} &= \sqrt{2.0}\approx1.41\mbox{(点)}\\
s_{B} &= \sqrt{8.0}\approx2.83\mbox{(点)}\\
s_{C} &= \sqrt{16.4}\approx4.05\mbox{(点)}
\end{align}
となります。これまでの情報をまとめると次のようになります。
A:平均5点、 標準偏差 \(s_{A}\approx1.41\mbox{(点)}\)
B:平均5点、 標準偏差 \(s_{B}\approx2.83\mbox{(点)}\)
C:平均5点、 標準偏差 \(s_{C}\approx4.05\mbox{(点)}\)
このことから何がわかるか。
まず3クラスは全て平均点は同じです。その上で標準偏差を見てみると、Aクラスはお互いの点数が平均点の近くにあり、BクラスはAクラスよりお互いの点数が平均点より離れていることがわかります。また、Cクラスについて見てみると一番点数が平均点とかけ離れていることがわかります。つまりAクラス、Bクラス、Cクラスの順にお互いの点数がだんだんとかけ離れていることが標準偏差からわかります。
分散・標準偏差はデータの散らばり方を表しています。つまり分散が大きくなればなるほど、データの散らばり方が大きくなるということになります。
分散・標準偏差のまとめ
分散・標準偏差はデータの散らばりを表す散布度の中で、最も重要な指標になります。標準偏差は、分散ではデータの単位が合わないので、データの単位を合わせるため分散に平方根をとったものです。分散が小さいほどデータの散らばり方が小さく、大きいほどデータの散らばりが大きくなります。
その他の散布度
・範囲(レンジ):データの存在範囲を表す散布度です。
・四分位数:有限個のデータに対して使用できる散布度です。
・パーセンタイル:四分位数の上位互換になる散布度です。
・平均偏差:絶対値で平均との誤差を測ることで散布度を計算する方法です。
・変動係数:平均が異なるデータ同士でも、比較することができる散布度です
・標準得点:観測値が平均とどのくらい離れているかを表す散布度です。