データの整理、表現

データの整理 ~ヒストグラム~

学習レベル:中学生 難易度:★☆☆☆☆

ヒストグラム(histogram)とはデータの分布を表す、最もポピュラーな方法です。現に私が卒業論文・修士論文を執筆する際、何回も利用しました。今回はヒストグラムの作成・注意点などまとめていきたいと思います。

ヒストグラムとは

ヒストグラムは統計学を学んでいく上で、かなり使用されるから、この記事で書いてあるポイントは是非おさえてほしいんだ!

ヒストグラムって何ですか?

ヒストグラムは度数分布表から作成される柱状のグラフです。

ヒストグラムの最大の特徴はデータの分布が物凄く見やすい所です。

前回、紹介した幹葉図でもデータの分布を見ることは出来ましたが、使用できるデータはかなり限られていました。ヒストグラムは、幅広いデータで使用することができ、統計学の様々な分野のデータ開示で利用されています。

ヒストグラムを描いてみよう!

実際にヒストグラムを書いてみましょう!

ヒストグラムは度数分布表から作成されます。「データの整理 ~度数分布表~」で作成した度数分布表は下のようになりました!

階級階級値度数相対度数累積度数累積相対度数
\( 0 \)~\( 10 \)\( 5 \)\( 3 \)\( 0.06 \)\( 3 \)\( 0.06 \)
\( 10 \)~\( 20 \)\( 15 \)\( 2 \)\( 0.04 \)\( 5 \)\( 0.10 \)
\( 20 \)~\( 30 \)\( 25 \)\( 6 \)\(0.12 \)\( 11 \)\( 0.22 \)
\( 30 \)~\( 40 \)\( 35 \)\( 8 \)\( 0.16 \)\( 19 \)\( 0.38 \)
\( 40 \)~\( 50 \)\( 45 \)\( 3 \)\( 0.06 \)\( 22 \)\( 0.44 \)
\( 50 \)~\( 60 \)\( 55 \)\( 6 \)\( 0.12 \)\( 28 \)\( 0.56 \)
\( 60 \)~\( 70 \)\( 65 \)\( 10 \)\( 0.20 \)\( 38 \)\( 0.76 \)
\( 70 \)~\( 80 \)\( 75 \)\( 5 \)\( 0.10 \)\( 43 \)\( 0.86 \)
\( 80 \)~\( 90 \)\( 85 \)\( 4 \)\( 0.08 \)\( 47 \)\( 0.94 \)
\( 90 \)~\( 100 \)\( 95 \)\( 3\)\( 0.06 \)\( 50 \)\( 1.00 \)
\( 50 \)\( 1 \)

ヒストグラムは横軸に階級をとります。縦軸は「度数」「相対度数」「累積度数」「累積相対度数」どれでも構いません。ひとまず「度数」を縦軸にしてヒストグラムを描いてみると下のようになります。

どうですか?
テストの得点ごとに、どのくらいの人が分布しているかすぐにわかりますよね。

はい!確かにデータの分布がすぐにわかりますね♪
でも、ヒストグラムのデメリットってないんですか?

デメリットももちろんあります!
ヒストグラムは度数分布表から作成されます。度数分布表を作成方法を説明したときにも言ったのですが、度数分布表は階級に依存して決まります。
つまり、度数分布表が階級に依存するということは、ヒストグラムも階級に依存します。階級によってヒストグラムの結果が変わるのです。下の図を見てください。

階級を5つに分けたとき
階級を20個に分けたとき

どうですか?
階級の個数を変えただけでヒストグラムの印象が変わりますよね?
度数分布表と同じですが、階級はうまく分けてあげないと、データの分布がよくわからないものになります!

ヒストグラムのまとめ

 ヒストグラムはデータの分布を表す、一番ポピュラーな方法です。幹葉図よりも使用できるデータの種類の幅が非常に広いのも特徴です。よって、様々な統計学の分野の研究論文に使用されています。
 ヒストグラムは度数分布表から作られます。度数分布表が階級に依存していたことからヒストグラムも階級に依存します。階級の分け方が小さすぎたり大きすぎたりすると、データの分布が不格好になりヒストグラム本来の役割が失われてしまいます。したがって、ヒストグラム作成において階級の分け方は特に注意しましょう!

ヒストグラムをもっと詳しく

 ヒストグラムにはまだ、ここでは説明していない特徴が残っています。もっと統計学を学びたいと考えた方は、有料ブログへお越しください。もちろんヒストグラム以外の分野でも詳しく説明しています。

関連記事

合わせて読むとより理解が深まります。是非、拝読してください。

・ 度数分布表:ヒストグラムは度数分布表から作成されます。度数分布表を完璧にすればヒストグラムも理解が深まると思います。

・ 幹葉図:データの数字をそのまま用いたヒストグラムに近い形をしているものです。表と図の両方の特徴を持っている珍しい方法です。

-データの整理、表現
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5