2項分布(binomial distribution)は離散型の確率分布で、ベルヌーイ試行を複数回行った際に得られるデータの確率分布です。成功確率\(p\)のベルヌーイ試行を\(n\)回行ったものを2項分布といい、記号\(X\sim Bin(n,\ p)\)でよく表されます。この記事では、2項分布の基本情報と主な性質についてまとめています。
目次
2項分布の基本情報
※ 表は横にスクロールできます。
パラメータ | \(n,\ p\)(\(p\)は成功確率、\(n\)は試行回数を表します。) |
確率変数の範囲 | \(0\leq x \leq n\) \(x\)は整数(成功回数を表します。) |
累積分布関数 | \(\displaystyle\sum_{k=0}^{x}\ _{n}C_{k}p^{k}(1-p)^{n-k}\) |
確率関数 | \(_{n}C_{x}p^{x}(1-p)^{n-x}\) |
積率母関数 | \(\{ pe^{t}+(1-p) \}^{n}\) |
確率母関数 | \(\left\{pt+ (1-p) \right\}^{n}\) |
特性関数 | \(\{ pe^{it}+(1-p) \}^{n}\) |
キュムラント母関数 | \(n\log\{ pe^{t}+(1-p) \}\) |
モーメント(原点まわり) | \begin{align} \ \ \ \ \ 1次(期待値)& np \\ \ \ \ \ \ 2次 & np\{np+(1-p)\} \\ \ \ \ \ \ 3次 & np\{(n-1)(n-2)p^{2}+3p(n-1)+1\} \end{align} |
漸化式(原点まわりの \(k\)次モーメント) | \(\mu_{k}^{\prime}\)を\(k\)次の原点まわりのモーメントとします。 \begin{align} \mu_{1}^{\prime} &= np \\ \mu_{k+1}^{\prime} &= \left\{ n\mu_{k}^{\prime}+(1-p)\cdot\displaystyle\frac{d}{dp}\mu_{k}^{\prime} \right\},\ \ \ k=1,2,\cdots \end{align} |
モーメント(平均まわり) | \begin{align} 2次(分散) & np(1-p) \\ 3次 & np(1-p)\{(1-p)-p\} \\ 4次 & np(1-p)\{1+3p(1-p)(n-2)\} \end{align} |
漸化式(平均まわりの \(k\)次モーメント) | \(\mu_{k}\)を\(k\)次の平均まわりのモーメントとします。 \begin{align} \mu_{0} &= 1 \\ \mu_{1} &= 0 \\ \mu_{k+1} &= p(1-p)\left( nk\mu_{k-1}+\displaystyle\frac{d}{dp}\mu_{k} \right),\ \ \ k=1,2,\cdots \end{align} |
階乗モーメント | \( \mu_{[k]} = \left\{ \begin{array}{c} _{n}P_{k}\ p^{k},\ \ \ k\leq n \\ 0,\ \ \ k>0 \end{array}\right. \) |
期待値 | \( \displaystyle np \) |
分散 | \(\displaystyle np(1-p) \) |
歪度 | \(\displaystyle \frac{(1-p)-p}{\sqrt{np(1-p)}}\) |
尖度 | \( 3+\displaystyle\frac{1-6p(1-p)}{np(1-p)} \) |
証明一覧
確率関数と累積分布関数
\(n=10\)のとき、\(p=0.2,\ 0.5,\ 0.8\)に対応する2項分布の確率関数は次のようになります。
\(p=0.4\)のとき、\(n=10,\ 20,\ 30\)に対応する2項分布の確率関数は次のようになります。
2項分布のポアソン近似
確率変数\(X\)は2項分布\(X\sim Bin(n,\, p)\)に従い、確率変数\(Y\)はポアソン分布\(Y\sim Po(\lambda_{B})\)に従っているとします。ただし
\lambda_{B} &= \frac{(2n-x)p}{2-p}
\end{align}
です。このとき、二項分布の累積分布関数\(\mathrm{P}(X\leq x)\)は、ポアソン分布で近似することができます。つまり、
\mathrm{P}(X\leq x) \approx \mathrm{P}(Y\leq \lambda_{B})
\end{align}
が成立します。この近似をボルシェフの近似式といいます。
※ ポアソン分布については<ポアソン分布の基本情報>をご覧ください。
2項分布とベータ分布
\(X\sim Bin(n,\ p)\)、\(Y\sim Beta(x,\ n-x+1)\)とします。ただし、\(Y\)はパラメータ\(x,\ n-x+1\)のベータ分布に従う確率変数です。このとき、\(X\)の上側確率\(P(X\geq x)\)を、ベータ分布を用いて次のように求めることができます。
\mathrm{P}(X\geq x) = \mathrm{P}(Y\leq p)
\end{align}
すなわち、
\sum_{k=x}^{n}\ _{n}C_{k}p^{k}(1-p)^{n-k} = \frac{1}{B(x,\ n-x+1)}\int_{0}^{p}y^{x-1}(1-y)^{n-x}dy
\end{align}
が成立します。ただし\(B(\alpha,\ \beta)\)はベータ関数であり
B(\alpha,\ \beta) = \int_{0}^{1}y^{\alpha-1}(1-y)^{\beta-1}dy
\end{align}
です。
※ ベータ分布については<ベータ分布の基本情報>をご覧ください。
2項分布と\(F\)分布
\(X\sim Bin(n,\ p)\)、\(Y\sim F(m_{1},\ m_{2})\)とします。ただし、\(Y\)は自由度\(m_{1},\ m_{2}\)の\(F\)分布に従う確率変数です。このとき、\(X\)の上側確率\(P(X\geq x)\)を、\(F\)分布を用いて次のように求めることができます。
\mathrm{P}(X\geq x) = \mathrm{P}(Y\geq \frac{m_{2}(1-p)}{m_{1}p})
\end{align}
ただし、
m_{1} = 2(n-x+1),\ \ m_{2}=2x
\end{align}
です。
※ \(F\)分布については<\(F\)分布の基本情報>をご覧ください。
2項分布の再生性
\(X_{i}\sim Bin(n_{i},\ p)\)(\(i=1,\cdots,n\))に互いに独立に従っているとします。このとき、この確率変数の和も2項分布に従い、
\sum_{i=1}^{n}X_{i} = X_{1}+X_{2}+\cdots+X_{n}\sim Bin\left(\sum_{i=1}^{n}n_{i},\ p\right)
\end{align}
となります。
2項分布と超幾何分布
パラメータ\(N,\ M,\ n\)の超幾何分布
\frac{_{M}C_{x}\ _{N-M}C_{n-x}}{_{N}C_{n}}
\end{align}
は\(p=\displaystyle\frac{M}{N}\)を一定に保ちつつ、\(N\)が十分に大きければ、2項分布
_{n}C_{x}p^{x}(1-p)^{n-x}
\end{align}
に収束します。
※ 超幾何分布については<超幾何分布の基本情報>をご覧ください。
パラメータ推定
パラメータ\(p\)の推定量\(\widehat{p}\)はモーメント法、最尤法どちらの場合も
\widehat{p} = \frac{x}{n}
\end{align}
で与えることができます。この推定量は\(p\)の最小分散不偏推定量になっています。
2項分布の乱数発生方法
一様分布を用いて乱数を発生させます。
- 区間\((0,\ 1)\)の独立に従う一様乱数\(U_{i}\)(\(i=1,\cdots,n\))を発生させます。
- \(U_{i}<p\)のとき、その\(i\)番目の試行はベルヌーイ試行において成功したものとします。
※ 一様分布については<一様分布の基本情報>を参照
※ ベルヌーイ試行については<ベルヌーイ分布>を参照
2項分布と関連深い分布
2項分布と関連深い分布を図・表でまとめています。各分布の詳しい情報は表の中のリンクからお願いします。
ベルヌーイ分布 | ベルヌーイ試行を1回行うときの分布 |
カテゴリ分布 | 1回の試行で\(k\)通りのパターンの中からどれかが得られる可能性がある試行を表す分布 |
2項分布 | \(n\)回のベルヌーイ試行で\(x\)回成功するときの分布 |
幾何分布 | ベルヌーイ試行を複数回行う上で、初めて成功するまでの 試行回数を表す分布 |
超幾何分布 | ベルヌーイ試行を複数回行っていく上で、その都度成功確率が 変化する分布(有限個のアタリくじなど) |
負の2項分布 | ベルヌーイ試行を複数回行う上で、\(k\)回成功するまでの 失敗する回数を表す分布(\(k=1\)の場合、幾何分布になります) |
多項分布 | 成功・失敗の2種類だけでなく、試行の結果が 複数個ある場合の分布を表します |
ポアソン分布 | 成功確率が極端に小さく(つまり滅多に起こらない)、 試行回数が極端に大きい場合の分布 |