代表値

四分位数とは【定義から求め方まで完ぺき伝授】

学習レベル:中学生 難易度:★☆☆☆☆

中央値(メディアン)の考え方を拡張したものに、四分位数というものがあります(四分位点と書くこともあります)。四分位数もデータの散らばり方を表す散布度のひとつです。中央値について復習しておくと今回の内容はスムーズに入ってくると思います。

四分位数とは

四分位数は中央値の考え方を拡張したものです。
具体的にはデータを小さい順に4分割して境目にあるデータを指します。文章だけだと分かりにくいと思うので、四分位数の定義をしましょう!

四分位数(quartile)
データを小さい順に並べた\(X_{1},\ X_{2},\cdots,X_{n}\)が得られたとします。データ数\(n\)を4分割したとき、3つの分割点があります。この分割点にあるデータを小さい順に第1四分位数\(Q_{1}\)、第2四分位数\(Q_{2}\)、第3四分位数\(Q_{3}\)と定義します。ここで第2四分位数は中央値と一致します。

定義みても分かりにくいのですが...

確かにそうですね!
簡単のためデータ数が19だった場合を考えてみましょう。
まず最初に第2四分位数(中央値)の分割点を調べてみましょう。計算方法は中央値と同じです。

データ数が奇数なので第2四分位数の分割点は$$\frac{19+1}{2}=10$$から10番目のデータになりますね!

正解です!
今度は第2四分位数の分割点より小さいデータのみで中央値をとります。これが第1四分位数になります。

第2四分位数の分割点より小さいデータは9個あるので、第1四分位数の分割点は$$\frac{9+1}{2}=5$$ですね!

正解です!
同様にして、第2四分位数の分割点より大きいデータのみで中央値をとったものが第3四分位数になります。

四分位数の強みってなんですか?

中央値の強みをそのまま持っています。つまり非対称なデータ分布に使用でき、異常値に影響されない強みを持っています。

※ 異常値については<外れ値(異常値)の記事>の下あたりで定義しています。

四分位偏差とは

四分位数と関連して四分偏差というものがあります。

四分位偏差(quartile deviation)
データの散らばりの範囲を表すもののひとつに、四分位偏差があります。四分位偏差\(Q\)は、第1四分位数\(Q_{1}\)、第3四分位数\(Q_{3}\)を用いて次のように定義されます。$$Q=\frac{1}{2}\left(Q_{3}-Q_{1}\right)$$

 

四分位偏差が持つ特徴は範囲(レンジ)と同じです。
しかし、範囲より四分位偏差の方が有用性が非常に高いです。

四分位偏差はデータの両サイド\(1/4\)の削除したデータの範囲(レンジ)となります。範囲では異常値に弱い側面を持っていましたが、四分位偏差は異常値を削除した上で、範囲を計算するので、範囲の弱点を克服したものだと考えることができます。

※ 異常値については<算術平均の記事>の下あたりで定義しています。

四分位数のまとめ

四分位数はデータの散らばり方を表す散布度のひとつです。非対称なデータに強く、異常値の影響を受けにくい特徴を持っています。また、四分位数から四分位偏差を求めることができ、異常値に左右されない範囲(レンジ)を計算することができます。最後に四分位数の求め方をまとめておきます。

四分位数の求め方

  1. データを小さい順に並べます。
  2. 中央値と分割点を求めます(これが第2四分位数となります)。
    ※ 中央値の求め方については<中央値の記事>を参照してください。
  3. 2で求めた分割点より左側にあるデータのみで中央値を求めます(これが第1四分位数となります)。
  4. 2で求めた分割点より右側にあるデータのみで中央値を求めます(これが第3四分位数となります)。

合わせて読みたい

■ パーセンタイル
 四分位数を拡張したものにパーセンタイルというものがあります。四分位数はデータの分割点が決まっていましたが、パーセンタイルでは自分で分割位置を決めることができます。
※ パーセンタイルについては<パーセンタイルの記事>を参照してください。

■ 箱ひげ図
 四分位数、四分位偏差を図を使って視覚的にデータの特徴を表す方法です。この記事を読んだ方なら必ず押さえておきたい内容となります。

その他の散布度

範囲(レンジ):データの存在範囲を表す散布度です。

パーセンタイル:四分位数の上位互換になる散布度です。

分散・標準偏差:散布度の中で最もポピュラーなものになります。

平均偏差:絶対値で平均との誤差を測ることで散布度を計算する方法です。

変動係数:平均が異なるデータ同士でも、比較することができる散布度です

標準得点:観測値が平均とどのくらい離れているかを表す散布度です。

-代表値
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5