学習レベル:中学生 難易度:★☆☆☆☆
代表値(averages)とは、データの分布を特徴づけるための数字です。幹葉図やヒストグラムは視覚的にデータを説明しようとするデータの整理法ではあるが、これだけでは、証拠が不十分である。十分な証拠を提示するには、図と合わせてデータの特徴を表す数字も必要になる。この記事ではデータの特徴を表す数字、代表値についてまとめていきます。
平均
平均とは、データの中心を表す指標です。
データの特徴付けで一番有名なのが平均(mean)ですね!
ですが、平均にはいろいろな種類があるのをご存じですか?
平均って「足して割る」ものだけじゃないのですか?
実はたくさんの種類があります。
一覧を見たい方は、下のリンクからどうぞ!
今回、紹介するのは平均の中で最もメジャーな算術平均について紹介していきます。
※ 平均の例は<代表値>からご覧ください!
算術平均(arithmetic mean)
数式だけでは分からないという方のために具体例を見てみましょう!
下の表は5人のテストデータをまとめたものです。
A君 | B君 | C君 | D君 | E君 | |
点数 | 60 | 64 | 55 | 75 | 81 |
このとき、データ数は\(n=5\)であり
\(X_{1}=60,\ X_{2}=64,\ X_{3}=55,\ X_{4}=75,\ X_{5}=81\)
となります。上の算術平均の式に当てはめると
x_{a} = \frac{1}{5}\sum_{i=1}^{5}X_{i} &= \frac{1}{5}\left( X_{1}+X_{2}+\cdots+X_{5} \right) \\
&=\frac{1}{5}\left( 60+64+\cdots+81 \right) \\
&=67
\end{align}
となるので、この5人の平均は67点ということがわかります。
私が知っている平均は算術平均っていうのですね!
算術平均の弱点ってあるのですか?
もちろんあります!
算術平均は計算しやすく、統計学的にいろいろな性質を持っていることからよく使われているのですが、算術平均が適さない例もあります。下の具体例を見てみましょう!
A君 | B君 | C君 | D君 | E君 | |
点数 | 0 | 0 | 0 | 0 | 100 |
1人だけが100点、その他の人が0点だった場合を考えると算術平均は20点となります。ここで問題となるのは、このテストの平均20点は本当にデータの中心なのかどうかという問題です。
このデータだとE君だけ異常に飛びぬけて点数が高いですよね!
そうなんです!
算術平均は「飛びぬけたデータ」が存在すると、うまく機能しなくなってしまうのです。
観測値から大きく離れた観測値を特に異常値(外れ値 outlier)と呼びます。算術平均は異常値が多すぎると、平均としての役割がなくなってしまいます。外れ値が存在する場合、別の記事で紹介している刈り込み平均、中央値などを用います。
※ 異常値(外れ値)について詳しく知りたい方は<外れ値(異常値)とは>の記事をご覧ください。
その他の平均
・ 刈り込み平均:異常値に対応するための算術平均のようなものです。
・ 幾何平均:成長率などに用いる平均です。
・ 調和平均:比に関する平均です。
・ 中央値(メディアン):有限個のデータに対して用いる平均です。
・ 最頻値(モード):データをカテゴリや階級別に分けたときに用いる平均です。