データの整理、表現

データの整理 ~度数分布表~

学習レベル:中学生 難易度:★☆☆☆☆

 データを収集できたら、データはそのまま放置せず、ある程度まとめて整理したほうが、情報を把握しやすくなります。それでは、どのようにまとめるといいのだろうか?
 基本的には、表の形で表したり図で表すことが多い。この記事では表のまとめ方のひとつである、度数分布表について紹介します。

度数分布表の作り方

統計学では最もポピュラーな度数分布表の作成について説明していきます。前回の記事で取り扱ったデータの分類を読んでおくと理解がスムーズに進むと思います!

なぜ度数分布表はポピュラーな手法なんですか?

度数分布表を作成しておくと図の作成が楽になるからです。
人は視覚からの情報が重要なので、データは表で提示するよりも、図を使って訴える方が最も効率的ですからね!

早速、度数分布表を書いてみましょう!
度数分布表は以下のような形になります。(\( n \)はデータ数を表します。)

階級
(以上)~(以下)
階級値
\( m \)
度数
\( f \)
相対度数
\( f/n \)
累積度数
\( \sum_{j}f_{j} \)
累積相対度数
\( \sum_{j}f_{j}/n \)
\( a_{0} \) ~ \( a_{1} \)\( m_{1} \)\( f_{1} \)\( f_{1}/n \)\( f_{1} \)\( f_{1}/n \)
\( a_{1} \) ~ \( a_{2} \)\( m_{2} \)\( f_{2} \)\( f_{2}/n \)\( f_{1}+f_{2} \)\( (f_{1}+f_{2})/n \)
\( \vdots \)\( \vdots \)\( \vdots \)\( \vdots \)\( \vdots \)\( \vdots \)
\( a_{k-1} \) ~ \( a_{k} \)\( m_{k} \)\( f_{k} \)\( f_{k}/n \)\( \sum_{j}^{k}f_{j} \)\( \sum_{j}^{k}f_{j}/n \)

それぞれの項目についてまとめていくと

  • 階級    \( \cdots \) 階級はあらかじめ\( a_{0} \)以上\( a_{1} \)未満のようにデータの範囲を決めておく値になります。
  • 階級値   \( \cdots \) 階級の中央の値です。数式で表すと次のようになります。
    $$ m_{i} = \frac{a_{i-1}+a_{i}}{2} $$
  • 度数    \( \cdots \) 階級に含まれているデータの数です。
  • 相対度数  \( \cdots \) 階級に含まれているデータの割合です。数式では\( f_{i}/n \)となります。
  • 累積度数  \( \cdots \) 第1階級からの度数の和です。
  • 累積相対度数\( \cdots \) 第1階級からの相対度数の和です。第\( k \)階級で\( 1 \)になります。

となります。

この作り方だと最初の階級の決め方が重要な気がします。

そうですね!
確かに度数分布表は最初の階級の決め方ですべて決まります。

階級はどのように決めるのがいいのですか?

実は階級を分ける目安となる式があります。
この式については次の節で説明しますね!

階級の分け方

 この章では、度数分布表を作成するうえで重要になる階級を分ける目安となる式を紹介します。階級を分ける数の目安は、データ数\( n \)だけで決まります。

スタージェスの式
階級を分ける目安として、スタージェスの式と呼ばれるものがあります。 $$ k = 1 + \frac{\log{n}}{\log{2}} $$ 階級の数はこの\( k \)に近い整数で定めることになります。

ここでいろいろな\( n \)に対する、\( k \)の値を計算すると以下のようになります。

\( n \) \( 10 \) \( 50 \) \( 100 \) \( 500 \) \( 1000 \)
\( k \)\( 4.3 \)\( 6.6 \)\( 7.6 \)\( 10.0 \)\( 11.0 \)

 ここで、注意しなければいけないところがあります。100点満点のテストのデータが\( 100 \)個得られたときを考えます。スタージェスの式を用いると、階級の数の目安は\( k=7.6 \)となります。仮に\( 8 \)個に階級を分けたとき、第\( 1 \)階級は\( 0 \)~\( 12.5 \)、第\( 2 \)階級は\( 12.5 \)~\( 25 \)となり、表にまとめたときに、不自然な形になります。
 テストの点数のような、観測値が分かりやすいものでしたら、簡単な階級に分けるほうが表が見やすくなります。あくまで、スタージェスの式は目安だと考えてください!

具体例 ~度数分布表~

理論だけではなく、実際のデータを用いて度数分布表を作成してみましょう!

50人のクラスでテストを行ったところ、点数は次のようになった
  4      8      9      10     17     21     21     25      26      28
29     31    33     33     36     36     36     37      39      42
43     44    51     51     53     54     58     59      61      61
62     62    62     65     67     67     68     69      75      75
76     77    78     81     83     85     86     93      94      99
                ”「初歩からの統計学」(馬場 裕 著)p.3”

階級を\( 10 \)個に分けて度数分布表を作ってみます!

階級階級値度数相対度数累積度数累積相対度数
\( 0 \)~\( 10 \)\( 5 \)\( 3 \)\( 3/50=0.06 \)\( 3 \)\( 0.06 \)
\( 10 \)~\( 20 \)\( 15 \)\( 2 \)\( 2/50=0.04 \)\( 5 \)\( 0.10 \)
\( 20 \)~\( 30 \)\( 25 \)\( 6 \)\( 6/50=0.12 \)\( 11 \)\( 0.22 \)
\( 30 \)~\( 40 \)\( 35 \)\( 8 \)\( 8/50=0.16 \)\( 19 \)\( 0.38 \)
\( 40 \)~\( 50 \)\( 45 \)\( 3 \)\( 3/50=0.06 \)\( 22 \)\( 0.44 \)
\( 50 \)~\( 60 \)\( 55 \)\( 6 \)\( 6/50=0.12 \)\( 28 \)\( 0.56 \)
\( 60 \)~\( 70 \)\( 65 \)\( 10 \)\( 10/50=0.20 \)\( 38 \)\( 0.76 \)
\( 70 \)~\( 80 \)\( 75 \)\( 5 \)\( 5/50=0.10 \)\( 43 \)\( 0.86 \)
\( 80 \)~\( 90 \)\( 85 \)\( 4 \)\( 4/50=0.08 \)\( 47 \)\( 0.94 \)
\( 90 \)~\( 100 \)\( 95 \)\( 3\)\( 3/50=0.06 \)\( 50 \)\( 1.00 \)
\( 50 \)\( 1 \)

これで、正解です!
この例では階級を\(10\)個に分けていますが、スタージェスの式を用いると、\(k=6.6\)となるため\(5\)個に分けても構いません。階級の分け方には正解はないので、度数分布表を作成する際、できるだけ分かりやすい階級の分け方に心がけましょう!

まとめ

 データ整理をする手法のひとつに、度数分布表と呼ばれるものがあります。度数分布表は階級・階級値・度数・相対度数・累積度数・累積相対度数の6つの要素からできています。表は階級に依存して決まります。階級の分け方は、特に決まりはありませんが、目安となる数を求める式としてスタージェスの式があります。しかし、あくまでも目安であるので、階級の分け方はわかりやすいものにしたほうがオススメです。

関連記事

ヒストグラム:度数分布表から作成される、代表的な図です。度数分布表の結果を視覚的にデータを見せることができるので、こちらも合わせてお読みください。

-データの整理、表現
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5