データの整理、表現

外れ値(異常値)【判定方法は?】

学習レベル:中学生 難易度:★☆☆☆☆

算術平均範囲(レンジ)は外れ値に弱いという特徴がありましたが、具体的に外れ値かなのかどうか、どのように判定していくのかまとめていきます。

外れ値(異常値)とは

そもそもなぜ外れ値が発生するのか考えたことがありますか?
外れ値の多くは、データの入力ミスやデータが全体的に散らばりすぎている場合がほとんどです。

具体的にどのように外れ値を判定するのですか?

判定には四分位数の知識が必要になるので、覚えていない方はあらかじめ復習しておいてください。

※ 四分位数の復習をしたい方は<四分位数とは>の記事をご覧ください。

下で外れ値の判定法を載せていますが
あくまでよく使われる基準です。必ずこれで判定しなければならない、ということではないので、注意してください。

外れ値(異常値 outlier)
第1四分位数を\(Q_{1}\)、第3四分位数を\(Q_{3}\)、四分位偏差を\(Q\)とします。このとき外れ値は
\begin{align}(Q_{1}-Q\times 1.5)以上、(Q_{3}+Q\times 1.5)以下\end{align}
に含まれないデータになります。

 

外れ値の具体例

次のデータ

\begin{align}0.25, 4.0, 4.3, 5.1, 6.0, 6.0, 6.5\end{align}
が得られたときを考えます。四分位数を求めてみると、第1四分位数が\(Q_{1}=4.0\)、第3四分位数が\(Q_{3}=6.0\)となるので四分位偏差\(Q\)は\(Q=2.0\)となります。このことから
\begin{align}Q_{1}-Q\times 1.5=0.5(以上)、Q_{3}+Q\times 1.5=9.5(以下)\end{align}
に含まれないデータは外れ値となります。よって、このデータの外れ値は\(0.25\)となります。

外れ値(異常値)のまとめ

外れ値はデータの入力ミスや、データの散らばり方が広すぎると発生します。外れ値の判定方法は様々な基準があります。今回の記事ではよく使用される判定方法を紹介しました。あくまで、こんな判定方法があるんだという認識でお願いします。

-データの整理、表現
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5