超幾何分布(hypergeometric distribution)は離散型の確率分布です。\(N\)個の要素の中に\(M\)個のある属性のあるものが含まれているものを考えます。この集団から\(n\)個を無作為に抽出していきます。ここで注意したいのは一度、抽出したものは元へ戻さないということです。このとき、\(n\)回の抽出のなかで、\(M\)個の要素から取り出されたものの回数\(X\)は超幾何分布に従っているといいます。
具体的には祭りのアタリくじなどは超幾何分布に従います。アタリくじに当てはめると\(N\)はくじの総数、\(M\)はアタリくじの総数になります。このとき\(n\)回くじを引かれたとき、アタリが出た回数\(X\)が超幾何分布に従っています。
目次
超幾何分布の基本情報
パラメータ | \(N\)(集団の要素の個数) \(M\ \ \ (0\leq M\leq N)\) \(n\ \ \ (0\leq M\leq N)\) |
確率変数の範囲 | \( \max(0,\ n-N+M)\leq x \leq \min(M,\ n) \) |
確率関数 | \( \displaystyle\frac{_{M}C_{x}\ _{N-M}C_{n-x}}{_{N}C_{n}} \) |
期待値 | \(\displaystyle\frac{nM}{N}\) |
分散 | \(\displaystyle n\frac{M}{N}\cdot\frac{N-M}{N}\cdot\frac{N-n}{N-1}\) |
歪度 | \(\displaystyle\frac{(N-2M)(N-1)^{\frac{1}{2}}(N-2n)}{ \left\{ nM(N-M)(N-n) \right\}^{\frac{1}{2}}(N-2) }\) |
尖度 | \begin{align} &\displaystyle\frac{ 1 }{ nM(N-M)(N-n)(N-2)(N-3) } \\ &\cdot \left[ (N-1)N^{2}\left\{ N(N+1)-6M(N-M)-6n(N-n) \right\} +6nM(N-M)(N-n)(5N-6) \right] \end{align} |
証明一覧
確率関数と累積分布関数
\(n=20\)で固定した場合の確率関数
\(N=50,\ M=40\)で固定した場合の確率関数
超幾何分布と2項分布
\(p=M/N\)とします。このとき\(N\)が十分に大きいとき、超幾何分布は2項分布に収束します。超幾何分布の2項分布の近似は、\(n < 0.1N\)を満たすことを条件にすることが多いです。
超幾何分布とポアソン分布
\(p=M/N\)とします。この\(p\)が十分に小さく、\(n\)が十分に大きいとき、超幾何分布はポアソン分布に収束します。つまり、超幾何分布の確率関数\(p(x)\)が次のように近似できるということになります。
p(x) \approx \frac{e^{-np}(np)^{x}}{x!}
\end{align}
一般化超幾何分布
この記事で紹介した超幾何分布のパラメータ\(N, M\)はどちらも整数ですが、このパラメータを非整数の\(a,\ b\)へ拡張した分布を一般化超幾何分布と呼ぶことがあります。一般化超幾何分布の確率関数\(p(x)\)は
p(x) = \frac{_{a}C_{x}\ _{b}C_{n-x}}{_{a+b}C_{n}}
\end{align}
で表されます。ただし、\(n\)は整数、\(x=0,1,2,\cdots\)であることには注意してください。
負の超幾何分布
超幾何分布は\(N\)個の要素の中に\(M\)個のある属性のあるものが含まれおり、この集団から\(n\)個を無作為に抽出していきます。超幾何分布では一度引いたものは戻さないのですが、負の超幾何分布では引いたものを\(c\)個加えて元に戻します。
これを先程のアタリくじの例に当てはめて考えてみます。先程と同様に\(N\)はくじの総数、\(M\)はアタリくじの総数とします。このとき\(n\)回くじを引くのですが、くじを引いたときアタリを引いたらアタリを\(c\)枚加えて元に戻し、ハズレを引いた場合もハズレを\(c\)枚加えて元に戻します。このときアタリが出た回数\(X\)が負の超幾何分布に従っています。
負の超幾何分布の確率関数\(p(x)\)は次のようになります。
p(x) = \frac{_{-N}C_{x}\ _{-M}C_{n-x}}{_{-N-M}C_{n}}
\end{align}
このとき注目するのは、\(c\)に一切依存していないことです。
パラメータの推定(最尤法)
\(N\)の推定量\(\ \ =\left[ \displaystyle\frac{nM}{x} \right]\)
\(M\)の推定量\(\ \ =\left[ \displaystyle\frac{(N+1)x}{n} \right]\)
\(M\)の不偏推定量\(\ \ = \displaystyle\frac{Nx}{n} \)
ただし、ここの\([\ast]\)という記号は\(\ast\)以下の最大の整数を表します。
超幾何分布と関連深い分布
超幾何分布と関連深い分布を図・表でまとめています。各分布の詳しい情報は表の中のリンクからお願いします。
ベルヌーイ分布 | ベルヌーイ試行を1回行うときの分布 |
カテゴリ分布 | 1回の試行で\(k\)通りのパターンの中からどれかが得られる可能性がある試行を表す分布 |
2項分布 | \(n\)回のベルヌーイ試行で\(x\)回成功するときの分布 |
幾何分布 | ベルヌーイ試行を複数回行う上で、初めて成功するまでの 試行回数を表す分布 |
超幾何分布 | ベルヌーイ試行を複数回行っていく上で、その都度成功確率が 変化する分布(有限個のアタリくじなど) |
負の2項分布 | ベルヌーイ試行を複数回行う上で、\(k\)回成功するまでの 失敗する回数を表す分布(\(k=1\)の場合、幾何分布になります) |
多項分布 | 成功・失敗の2種類だけでなく、試行の結果が 複数個ある場合の分布を表します |
ポアソン分布 | 成功確率が極端に小さく(つまり滅多に起こらない)、 試行回数が極端に大きい場合の分布 |