モーメント 分散 期待値 確率分布

カテゴリ分布(カテゴリカル分布)

 カテゴリ分布(categorical distribution)(カテゴリカル分布・一般化ベルヌーイ分布・multinoulli分布)は離散型の確率分布です。分布の日本語名はあまり定着していないので、呼び方は様々なものがあります(こういう場合、英語名をそのまま使用するのが普通です)。
 カテゴリ分布は\(1\)回の試行で\(k\)通りのパターン\(A_{1},\cdots,A_{k}\)が得られるときの、確率分布を表します。この記事では、それぞれのパターンが得られる確率を

\begin{align}
p_{i}=\mathrm{P}(A_{i}),\ \ \ i=1,\cdots,k
\end{align}

とします。以下、カテゴリ分布の基本情報と主な性質についてまとめています。

カテゴリ分布の基本情報

※ 表は横にスクロールできます。

パラメータ \(0 < k\)(\(k\)はカテゴリ数を表します。)
\(p_{1},\cdots,p_{k}\)(\(p_{i}\)は事象\(A_{i}\)が起こる確率を表します。)
確率変数の範囲 \(1\leq x \leq k\)  \(x\)は整数
確率関数 \(\mathrm{P}(A_{i})=p_{i}\)
もしくは
\(p(x)=[x=1]p_{1}+[x=2]p_{2}+\cdots+[x=k]p_{k}\)

ここで\([x=i]\)はアイバーソンブラケットであり、\([\ast]\)は\(\ast\)が真のとき\(1\)、
偽のとき\(0\)を表します(クロネッカーのデルタのようなものです)。
積率母関数 \(\displaystyle\sum_{i=1}^{k}p_{i}\exp[t_{i}]\)
特性関数 \(\displaystyle\sum_{j=1}^{k}p_{j}\exp[it_{j}]\)
キュムラント母関数 \( \log p+t-\log \{1-(1-p)e^{t}\} ,\ \ \ t < -\log (1-p) \)
期待値 \( \displaystyle p_{i} \)
分散 \(  p_{i}(1-p_{i}) \)

カテゴリ分布とベルヌーイ分布

カテゴリ分布において\(k=2\)、\(p_{1}=p\)、\(p_{2}=1-p\)とすればカテゴリ分布とベルヌーイ分布は一致します。これは、カテゴリ分布とベルヌーイ分布の定義から明らかです。

期待値・分散の求め方

期待値と分散
カテゴリ分布(\(k;p_{1},\cdots,p_{k}\))に従う確率変数の期待値・分散は次のようになります。
\begin{align} \mathrm{E}[X_{i}]=p_{i},\ \ \ \mathrm{Var}[X_{i}]=p_{i}(1-p_{i}) \end{align}

証明

 確率変数\(X_{i}\)は\(A_{i}\)が起これば\(1\)、それ以外なら\(0\)となるものとします。このとき、<期待値の定義>より

\begin{align}
\mathrm{E}[X_{i}] &= \sum_{\ell=1}^{k}x_{\ell}f(x_{\ell})\\
&= x_{1}f(x_{1}) + \cdots + x_{i}f(x_{i}) + \cdots +x_{k}f(x_{k}) \\
&= 0\cdot p_{1} + \cdots + 1\cdot p_{i} + \cdots + 0\cdot p_{k} \\
&= p_{i}
\end{align}

が成立します。
 あとは分散を求めましょう。<分散の定義>の記事から分散は
\begin{align}
\mathrm{Var}[X] &= \mathrm{E}[X^{2}]-\mathrm{E}[X]^{2}
\end{align}

と表すことができるので、\(\mathrm{E}[X^{2}]\)を求めればよいことがわかります。これも、<期待値の定義>より
\begin{align}
\mathrm{E}[X_{i}] &= \sum_{\ell=1}^{k}x_{\ell}^{2}f(x_{\ell})\\
&= x_{1}^{2}f(x_{1}) + \cdots + x_{i}^{2}f(x_{i}) + \cdots +x_{k}^{2}f(x_{k}) \\
&= 0\cdot p_{1} + \cdots + 1\cdot p_{i} + \cdots + 0\cdot p_{k} \\
&= p_{i}
\end{align}

が成立するので、求めたい分散は、
\begin{align}
\mathrm{Var}[X_{i}] = p_{i}-p_{i}^{2} = p_{i}(1-p_{i})
\end{align}

となります。

積率母関数・特性関数の求め方

積率母関数と特性関数
カテゴリ分布(\(k;p_{1},\cdots,p_{k}\))に従う確率変数の積率母関数・特性関数は次のようになります。
\begin{align} M_{X}(t)=\sum_{i=1}^{k}p_{i}\exp[t_{i}],\ \ \ \phi_{X}(t)[X_{i}]=\sum_{j=1}^{k}p_{j}\exp[it_{j}] \end{align}

証明

 確率変数\(X= ^{T}(X_{1},\cdots,X_{k})\)の\(k\)変量ベクトルであり、\(X_{i}\)は事象\(A_{i}\)が起これば\(1\)、起こらなければ\(0\)を表すものとします。さらに変数\(t\)は\(t= ^{T}(t_{1},\cdots,t_{k})\)の\(k\)次ベクトルであり、

\begin{align}
tX = t_{1}X_{1} + \cdots + t_{k}X_{k} = \sum_{i=1}^{k}t_{i}X_{i}
\end{align}

を表すものとします。
 まず、積率母関数を求めていきます。<積率母関数の定義><期待値の定義>から
\begin{align}
M_{X}(t) &= \mathrm{E}\left[ \exp[tX] \right] \\
&= \mathrm{E}\left[ \exp\left[ \sum_{i=1}^{k}t_{i}X_{i} \right] \right] \\
&= \sum_{j=1}^{k} \exp\left[ \sum_{i=1}^{k}t_{i}x_{i} \right]f(x_{j}) \\
&= \sum_{j=1}^{k} p_{j}\exp\left[ t_{j} \right]
\end{align}

となります。ここで、
\begin{align}
\sum_{j=1}^{k} \exp\left[ \sum_{i=1}^{k}t_{i}x_{i} \right]f(x_{j})
\end{align}

について見てみます。\(i\neq j\)となるところでは\(x_{i}=0\)、\(i=j\)となるところでは\(x_{j}=1\)となることを用いると
\begin{align}
\exp\left[ \sum_{i=1}^{k}t_{i}x_{i} \right]f(x_{j}) = \exp[t_{j}]p_{j}
\end{align}

となります。
 同様にして特性関数も求めることができます。<特性関数の定義><期待値の定義>から
\begin{align}
\phi_{X}(t) &= \mathrm{E}\left[ \exp[itX] \right] \\
&= \mathrm{E}\left[ \exp\left[ \sum_{\ell=1}^{k}it_{\ell}X_{\ell} \right] \right] \\
&= \sum_{j=1}^{k} \exp\left[ \sum_{\ell=1}^{k}it_{\ell}x_{\ell} \right]f(x_{j}) \\
&= \sum_{j=1}^{k} p_{j}\exp\left[ it_{j} \right]
\end{align}

となります。

カテゴリ分布と関連深い分布

カテゴリ分布と関連深い分布を図・表でまとめています。各分布の詳しい情報は表の中のリンクからお願いします。

ベルヌーイ分布ベルヌーイ試行を1回行うときの分布
カテゴリ分布1回の試行で\(k\)通りのパターンの中からどれかが得られる可能性がある試行を表す分布
2項分布\(n\)回のベルヌーイ試行で\(x\)回成功するときの分布
幾何分布ベルヌーイ試行を複数回行う上で、初めて成功するまでの
試行回数を表す分布
超幾何分布ベルヌーイ試行を複数回行っていく上で、その都度成功確率が
変化する分布(有限個のアタリくじなど)
負の2項分布ベルヌーイ試行を複数回行う上で、\(k\)回成功するまでの
失敗する回数を表す分布(\(k=1\)の場合、幾何分布になります)
多項分布成功・失敗の2種類だけでなく、試行の結果が
複数個ある場合の分布を表します
ポアソン分布成功確率が極端に小さく(つまり滅多に起こらない)、
試行回数が極端に大きい場合の分布

-モーメント, 分散, 期待値, 確率分布
-, , , , ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5