代表値

平均偏差とは【特徴・使い方を知る】

学習レベル:中学生 難易度:★☆☆☆☆

平均偏差はデータの散らばりを表す散布度の中のひとつです。分散・標準偏差ではデータと平均の誤差に\(2\)乗をとって足し合わせていましたが、平均偏差ではデータと平均の誤差に絶対値をとります。平均偏差がどのような特徴を持ち、どうやって求めるのかこの記事で学んでいってください!

平均偏差とは

平均からデータがどのくらい離れているかを表すものに分散・標準偏差がありましたが、似たようなものに平均偏差があります。ひとまず定義を見てください。

平均偏差(mean deviation)
データ数\(n\)のデータ\( X_{1},X_{2},\cdots,X_{n} \)が得られたとします。このデータの平均を\(\bar{X}\)と表すとき、平均偏差\(d\)は次のように定義されます。
\begin{align}d=\frac{1}{n}\sum_{i=1}^{n}|X_{i}-\bar{X}|=\frac{1}{n}\left( |X_{1}-\bar{X}|+\cdots+|X_{n}-\bar{X}| \right)\end{align}

分散・標準偏差を求める際は平均との差を\(2\)乗していました。

※ 分散・標準偏差については<分散・標準偏差の記事>を参照してください。

平均偏差では平均との差に絶対値をとっています。

平均偏差の具体例

あるクラス5人分のテストの点数が下のようになりました。

3, 4, 5, 6, 7(点)

このデータの平均偏差を求めてみます。まず平均点は5点であることはすぐに分かります。この平均を用いると、平均偏差は

\begin{align}d=\frac{1}{5}\left( |3-5|+|4-5|+\cdots+|7-5| \right)=1.2\end{align}
となります。

平均偏差と標準偏差

基本的に平均偏差は標準偏差より小さくなります。実際上の具体例で標準偏差\(s\)を求めると

\begin{align}
s=\sqrt{\frac{1}{5}\left\{ (3-5)^{2}+(4-5)^{2}+\cdots+(7-5)^{2} \right\}}=\sqrt{2.0}\approx1.41
\end{align}

となるので、標準偏差の方が大きくなります。これは、標準偏差を計算する際に\(2\)乗していることから、データが平均から離れれば、離れるほど絶対値をとったときよりも大きくなるからである。

平均偏差の性質

データ数\(n\)のデータ\( X_{1},X_{2},\cdots,X_{n} \)に対して平均偏差\(d\)は平均\(\bar{X}\)を用いて$$d=\frac{1}{n}\sum_{i=1}^{n}|X_{i}-\bar{X}|$$で定義されていました。平均\(\bar{X}\)はたくさんの種類(算術平均中央値幾何平均など)がありますが、平均偏差を最小にする平均は中央値になります。この証明を与えておきます。

証明はオマケなので、数学的に知りたい方はお読みください!

■証明■
中央値が平均偏差を最小にすることを証明します。
まずデータを小さい順に並び替えたものを改めて\( X_{1},X_{2},\cdots,X_{n} \)とします。平均\(\bar{X}\)が\(X_{k}\leq \bar{X} \leq X_{k+1}\)を満たすとき、平均偏差\(d\)は

\begin{align}
d &= \frac{1}{n}\sum_{i=1}^{n}|X_{i}-\bar{X}|\\
&= \frac{1}{n}\left( \sum_{i=1}^{k}|\bar{X}-X_{i}| + \sum_{i=k+1}^{n}|X_{i}-\bar{X}| \right) \\
&= k\bar{X}-\sum_{i=1}^{k}X_{1}+\sum_{i=k+1}^{n}X_{i}-(n-k)\bar{X}\\
&= (2k-n)\bar{X}-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{n}X_{i}
\end{align}

が成り立ちます。データ数を奇数と偶数で場合分けをします。

(i) \(n=2m+1\ \ (m\mbox{は整数})\)のときを考えます。

  • \(0\leq k \leq m\)のとき、\(X_{k}\leq \bar{X} \leq X_{k+1}\)から\(\bar{X}\leq X_{m+1}\)となり、平均偏差\(d\)が単調減少になります。
  • \(m+1\leq k \leq n\)のとき、\(X_{k}\leq \bar{X} \leq X_{k+1}\)から\(X_{m+1}\leq \bar{X}\)となり、平均偏差\(d\)が単調増加になります。

これらをまとめると、\(\bar{X}=X_{m+1}\)のとき平均偏差\(d\)が最小値をとることがわかるので、中央値で最小をとります。

(ii) \(n=2m\ \ (m\mbox{は整数})\)のときを考えます。

  • \(0\leq k \leq m-1\)のとき、\(\bar{X}\leq X_{m}\)となり、平均偏差\(d\)が単調減少になります。
  • \(k=m\)のとき、\(X_{m}\leq \bar{X} \leq X_{m+1}\)となり、加えて平均偏差\(d\)が\(d=-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{n}X_{i}\)となるので平均偏差が一定の値をとることが分かります。
  • \(m+1\leq k \leq n\)のとき、\( X_{m+1}\leq\bar{X}\)となり、平均偏差\(d\)が単調増加になります。

これらをまとめると、\(X_{m}\leq\bar{X}\leq X_{m+1}\)のとき平均偏差\(d\)が最小値をとるので、中央値で最小になります。

※ 中央値については<中央値の記事>を参照してください。

平均偏差のまとめ

 平均偏差は平均との誤差に絶対値をとることで求めることができる散布度のひとつです。ほとんどのデータで、平均偏差は標準偏差より小さくなります。平均偏差を求める際、平均には様々なものをとることができますが、平均に中央値をとったとき平均偏差は最小値をとります。

統計学では平均偏差より標準偏差のほうが使用されます。平均偏差は絶対値を用いているので、数学的に扱いにくいのです。

その他の散布度

範囲(レンジ):データの存在範囲を表す散布度です。

四分位数:有限個のデータに対して使用できる散布度です。

パーセンタイル:四分位数の上位互換になる散布度です。

分散・標準偏差:散布度の中で最もポピュラーなものになります。

変動係数:平均が異なるデータ同士でも、比較することができる散布度です

標準得点:観測値が平均とどのくらい離れているかを表す散布度です。

-代表値
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5