学習レベル:大学生 難易度:★☆☆☆☆
この記事では、確率変数の分散を定義しています。分散はデータの散らばり具合を表すものです。平均を表す期待値と共に考えることで、その力を発揮します。条件付き分散および分散の性質は別の記事で紹介しているので、興味のある方はそちらも参照してください。
分散の定義
分散の定義から変形すると次の式で表すことができます。$$\mathrm{Var}[X]=\mathrm{E}[X^{2}]-\mathrm{E}[X]^{2}$$分散を求めるときには、定義から計算するのではなく、コチラの式の方がよく利用されます。
具体例で分散を求めてみましょう!
サイコロの場合
確率変数と確率をまとめると次のようになります。
確率変数\(X\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) | \(6\) |
確率\(\mathrm{P}(X)\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) | \(\frac{1}{6}\) |
<期待値の定義の記事>より期待値\(\mu\)は\(\mu=3.5\)となります。
このことを用いると、求めたい分散\(\sigma^{2}\)は$$\sigma^{2}=\frac{1}{6}\cdot(1-3.5)^{2}+\cdots+\frac{1}{6}\cdot(6-3.5)^{2}\approx 2.92$$となります。
サイコロのように、すべての出目の確率が等しい場合、サイコロの分散はデータの分散(<分散・標準偏差の記事>を参照)と一致します。
クジ引きの場合
あるクジ引きの内訳が以下のようになっているとします。
貰える金額(円) | 20 | 100 | 500 | 1500 | |
くじの本数(本) | 500 | 300 | 150 | 50 | (合計)1000本 |
<期待値の定義の記事>より期待値\(\mu\)は\(\mu=190\)となります。このことを用いて、もらえる金額の分散\(\sigma^{2}\)は$$\sigma^{2}=\frac{10}{20}(20-190)^{2}+\cdots+\frac{1}{20}(1500-190)^{2}\approx (342.2)^{2}$$となります。
分散のまとめ
分散は確率変数の散らばり具合を表します。もう少し詳しく説明すると、分散は確率変数と期待値の差を2乗したものに、確率で重みをつけた重み付き算術平均となります。確率分布の散らばりを表す指標になるので、統計的推測を行う上で、推定精度を表したりする際にとても重要な情報になります。
分散の関連記事
・条件付き分散:条件付き確率変数の分散の求め方を紹介しています。
・共分散:共分散を定義しています。
・分散の性質:分散の持つ性質をまとめています。