代表値

標準得点とは【偏差値との関係は?】

学習レベル:中学生 難易度:★☆☆☆☆

テストの結果で偏差値っていうのを覚えていませんか?
偏差値は自分が平均点からどれだけ離れているかを表す指標になっていました。この偏差値は標準得点というものから導き出されています。変動係数は平均が異なるデータ同士でデータの散らばり方を比較することができましたが、標準得点はどのデータをとってきても、平均分散を合わせて用いることでデータを比較することができます。

標準得点とは

標準得点(standard score)
データ\(X_{1},X_{2},\cdots,X_{n}\)について、平均が\(\bar{X}\)、分散が\(S^{2}\)となるとき、標準得点は\(z\)は以下のように定義されます。 $$ z=\frac{X_{i}-\bar{X}}{S} $$ この操作を標準化とも呼びます。

標準得点の最大の特徴は
どんなデータに用いても平均が0、分散が1になる
ということです。

平均と分散を揃えると、どのようないいことがあるのですか?

標準得点はデータの比較に非常に便利です。
例えば、A君の国語と数学の成績を比較したいとき、異なる分野同士でも、[国語の成績の位置]と[数学の成績の位置]を比べればいいのです。

これだけではなく、
A君の国語の成績と、B君の国語の成績(A君の受けたテストと別のものでも構いません)を比較することもできます。

平均と分散の一次変換について

 標準化するとなぜ平均が0、分散が1になるのか疑問に思いませんでしたか?
この節では、なぜ平均が0、分散が1になるのか証明していきたいと思います。

データの一次変換と平均・分散
データ\(X_{1},X_{2},\cdots,X_{n}\)を$$Z_{i}=aX_{i}+b$$のように変換することを考えます。この変換を一次変換と言います。一次変換されたデータ\(Z_{1},Z_{2},\cdots,Z_{n}\)の平均\(\bar{Z}\)、分散\(S_{Z}^{2}\)、標準偏差\(S_{Z}\)は次のようになります。 $$ \bar{Z} = a\bar{X}+b $$ $$ S_{Z}^{2}=a^{2}S_{x}^{2},\ \ \ S_{Z} = |a|\cdot S_{x} $$ ここで、\(\bar{X}\)、\(S_{x}^{2}\)はそれぞれ\(X\)の平均、分散とする。

 

■証明
まず、一次変換された\(Z\)の平均\(\bar{Z}\)を考えてみます。

\begin{align}
\bar{Z} &= \frac{1}{n}\sum_{i=1}^{n}Z_{i} \\
&= \frac{1}{n}\sum_{i=1}^{n}(aX_{i}+b) \\
&= a\cdot\frac{1}{n}\sum_{i=1}^{n}X_{i}+b \\
&= a\bar{X}+b
\end{align}

となります。次に分散$S_{Z}^{2}$について考えます。
\begin{align}
S_{Z}^{2} &= \frac{1}{n}\sum_{i=1}^{n}(Z_{i}-\bar{Z})^{2} \\
&= \frac{1}{n}\sum_{i=1}^{n}\{ (aX_{i}+b)-(a\bar{X}+b) \}^{2} \\
&= a^{2}\cdot\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X}) \\
&= a^{2}S_{X}^{2}
\end{align}

となることから分散・標準偏差も成り立つことがわかりました。

標準化では\(a=1/S_{X}\)、\(b=-\bar{X}/S_{X}\)としたものです。このときの平均・分散は

\begin{align}
\bar{Z} &= \frac{1}{S_{X}}\cdot\bar{X}-\frac{\bar{X}}{S_{X}}=0\\
S_{Z}^{2} &= \left( \frac{1}{S_{X}} \right)^{2}\cdot S_{X}^{2} = 1
\end{align}

となります。

偏差値(偏差値得点)について

偏差値(偏差値得点)
標準得点\(Z_{i}\)を次のように一次変換したものを偏差値(偏差値得点)といいます。 $$ T_{i} = 10Z_{i}+50 $$

 

偏差値は平均が50、標準偏差が10になるようにしたものです。教育学や心理学などでよく見かけるものだと思います。

標準得点のまとめ

標準得点はデータ比較を行うときの基準になります。平均・分散を統一しているため、成績など異なるテスト同士でも自分の学力の位置を調べることができます。偏差値は標準得点を一次変換したものです。

その他の散布度

範囲(レンジ):データの存在範囲を表す散布度です。

四分位数:有限個のデータに対して使用できる散布度です。

パーセンタイル:四分位数の上位互換になる散布度です。

分散・標準偏差:散布度の中で最もポピュラーなものになります。

平均偏差:絶対値で平均との誤差を測ることで散布度を計算する方法です。

変動係数:平均が異なるデータ同士でも、比較することができる散布度です

-代表値
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5