代表値

パーセンタイルとは【使い方をおさえる】

学習レベル:中学生 難易度:★★☆☆☆

四分位数をより自由度の高いものにしたものをパーセンタイルといいます。パーセンタイルもデータの散らばり方を表す散布度のひとつです。パーセンタイルは中央値・四分位数の上位互換で、パーセンタイルを完璧にすれば、中央値・四分位数もマスターすることができます。この記事を読んで、パーセンタイルについて少しでも理解が深まればいいかなぁと思います。

パーセンタイルとは

パーセンタイルは中央値・四分位数の上位互換です。

やはり上位互換だけあって難しいのですか?

多少難しいですが、練習すれば問題ないレベルです。
パーセンタイルについて詳しく見てみましょう!

パーセンタイル(分位点 percentile)
データを小さい順に並べたものが得られたとします。このとき小さい方から\(100p\)%\(0\leq p\leq1\)のところにある点を\(100p\)パーセンタイルといいます。特に\(p=0.25,\ p=0.50,\ p=0.75\)のとき、すなわち25パーセンタイル、50パーセンタイル、75パーセンタイルは四分位数と一致します。

 

つまり、中央値・四分位数より細かく分割の指定ができるということですか?

そうなんです!
中央値・四分位数は分割する位置が決まっていましたよね?
パーセンタイルでは自分で分割する位置を決めることができるのです。

\(100p\)パーセンタイルの求め方
データ数\(n\)の\(100p\)パーセンタイルは次のように求められる。

1:データを小さい順に並べます。

2:分割位置\(x\)を次の式で求めます。$$x=p\left( n+1 \right)$$ 3:分割位置\(x\)が整数ならばそのままデータ番号\(x\)のデータを\(100p\)パーセンタイルとすればよいが、データ番号が小数点以下も持っていた場合は、データ番号\(x\)の両サイドにあるデータの算術平均を\(100p\)パーセンタイルとします。

\(100p\)パーセンタイルの具体例

具体例を見てみましょう!

50人のクラスでテストを行ったとき、点数は次のようになった
  4      8      9      10     17     21     21     25      26      28
29     31    33     33     36     36     36     37      39      42
43     44    51     51     53     54     58     59      61      61
62     62    62     65     67     67     68     69      75      75
76     77    78     81     83     85     86     93      94      99
                ”「初歩からの統計学」(馬場 裕 著)p.3”

\(10\)パーセンタイルの場合

まずデータ数が\(n=50\)、\(p=0.1\)となるのでデータの分割位置は$$0.1\times\left( 50+1 \right)=5.1$$となります。つまり、5.1番目のデータが\(10\)パーセンタイルとなるのですが、5.1番目なんてありません。このときは、5.1番目前後のデータ5番目と6番目のデータの算術平均を\(10\)パーセンタイルとします。よって\(10\)パーセンタイル\(X_{0.10}\)は$$X_{0.10}=\frac{1}{2}\left( 17+21 \right)=19$$となります。

\(50\)パーセンタイルの場合

先程と同様に、データの分割位置は$$0.5\times\left( 50+1 \right)=25.5$$となります。よって\(50\)パーセンタイル\(X_{0.50}\)は$$X_{0.50}=\frac{1}{2}\left( 53+54 \right)=53.5$$となります。これは中央値とも一致します。

たくさん練習して自分の物にしていきましょう!

パーセンタイルのまとめ

パーセンタイルは、中央値・四分位数の自由度を高くしたものです。パーセンタイルによってデータの平均(中央値)を計算することができ、さらに、自分の好きなデータ位置でデータ分割ができます。中央値・四分位数を極めるより、パーセンタイルを頑張るほうが、実は後々に応用することができるので、是非パーセンタイルを自分の物にしていきましょう!

その他の散布度

範囲(レンジ):データの存在範囲を表す散布度です。

四分位数:有限個のデータに対して使用できる散布度です。

分散・標準偏差:散布度の中で最もポピュラーなものになります。

平均偏差:絶対値で平均との誤差を測ることで散布度を計算する方法です。

変動係数:平均が異なるデータ同士でも、比較することができる散布度です

標準得点:観測値が平均とどのくらい離れているかを表す散布度です。

-代表値
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5