分散 期待値

ディリクレ分布の期待値・分散の求め方【証明付きで解説】

学習レベル:大学生 難易度:★★★☆☆

この記事ではディリクレ分布の期待値・分散を証明付きで解説していきます。期待値・分散の求め方が分からない方は是非お読みください。その他のディリクレ分布の基本情報は<ディリクレ分布>の記事をお読みください。

 

ディリクレ分布の期待値・分散

期待値と分散
パラメータ\(\alpha=(\alpha_{1},\cdots,\alpha_{k})\)のディリクレ分布に従う確率変数\(X\sim Dir(\alpha)\)の期待値・分散は次のようになります。
\begin{align} \mathrm{E}[X_{i}]=\frac{\alpha_{i}}{\alpha_{0}},\ \ \ \mathrm{Var}[X_{i}]=\frac{ \alpha_{i}(\alpha_{0}-\alpha_{i}) }{ \alpha_{0}^{2}(\alpha_{0}+1) } \end{align}
ただし、\(\alpha_{0}=\sum_{i=1}^{n}\alpha_{i}\)です。

期待値・分散を求める際には<期待値の定義>および<分散の定義>を使用するので、覚えていない方は証明を読む前に一度、目を通しておいてください。

ディリクレ分布の期待値・分散を求めるにあたって次のガンマ関数の積分公式を用います。

ガンマ関数の積分公式
ガンマ関数には次のような性質があります。
\begin{align} \int_{0}^{\infty} x_{1}^{\alpha_{1}-1}\cdots x_{n}^{\alpha_{n}-1}dx_{1}\cdots dx_{n-1} = \frac{\Gamma(\alpha_{1})\cdots\Gamma(\alpha_{n})}{\Gamma\left( \sum_{i=1}^{n}\alpha_{i} \right)} \end{align}
ただし、\(x_{i}\geq0 (1\leq i\leq n-1),\sum_{i=1}^{n-1}x_{i}\leq 1\)です。

 

証明(ガンマ関数の積分公式)

ガンマ関数の定義から

\begin{align}
\Gamma(\alpha_{1})\cdots\Gamma(\alpha_{n}) &= \int_{0}^{\infty}e^{-t_{1}}t_{1}^{\alpha_{1}-1}dt_{1}\cdots\int_{0}^{\infty}e^{-t_{n}}t_{n}^{\alpha_{n}-1}dt_{n} \\
&= \int_{0}^{\infty}\cdots\int_{0}^{\infty} e^{-t_{1}-\cdots-t_{n}}t_{1}^{\alpha_{1}-1}\cdots t_{n}^{\alpha_{n}-1}dt_{1}\cdots dt_{n}
\end{align}

となります。ここで
\begin{align}
t_{1}=u_{1}y,\ t_{2}=u_{2}y,\ \cdots\ ,t_{n-1}=u_{n-1}y,\ t_{n}=(1-u_{1}-\cdots-u_{n-1})y
\end{align}

で変数変換をします。この変数変換によるヤコビアンは\(y^{n-1}\)となることから、上式を変形すると
\begin{align}
\int_{0}^{\infty}e^{-y}y^{\alpha_{1}+\cdots+\alpha_{n}-n}y^{n-1}dy\times\int u_{1}^{\alpha_{1}-1}\cdots u_{n-1}^{\alpha_{n-1}-1}(1-u_{1}-\cdots-u_{n-1})^{\alpha_{n}-1}du_{1}\cdots du_{n-1} \\
= \int_{0}^{\infty}e^{-y}y^{\alpha_{1}+\cdots+\alpha_{n}-1}\times\int u_{1}^{\alpha_{1}-1}\cdots u_{n-1}^{\alpha_{n-1}-1}u_{n}^{\alpha_{n}-1}du_{1}\cdots du_{n-1} \\
\end{align}

が成り立ちます。ここで
\begin{align}
u_{n} = 1-u_{1}-\cdots-u_{n-1}
\end{align}

です。ガンマ関数の定義から
\begin{align}
\Gamma(\alpha_{1})\cdots\Gamma(\alpha_{n}) &= \Gamma(\alpha_{1}+\cdots+\alpha_{n})\int u_{1}^{\alpha_{1}-1}\cdots u_{n-1}^{\alpha_{n-1}-1}u_{n}^{\alpha_{n}-1}du_{1}\cdots du_{n-1}
\end{align}

と表すことができることから両辺を整理すると、ガンマ関数の積分公式が得られます。

 

 ここまで、準備ができたら、ディリクレ分布の期待値・分散を求めていきます。

証明(ディリクレ分布の期待値・分散)

パラメータ\(\alpha=(\alpha_{1},\cdots,\alpha_{k})\)のディリクレ分布に従う確率変数\(X\sim Dir(\alpha)\)の確率密度関数は

\begin{align}
f(x_{1},\cdots,x_{k-1}) &= \frac{1}{B(\alpha)}\prod_{i=1}^{k}x_{i}^{\alpha_{i}-1}\\
&= \frac{ \Gamma\left( \sum_{i=1}^{k}\alpha_{i} \right) }{ \prod_{i=1}^{k}\Gamma(\alpha_{i}) }\prod_{i=1}^{k}x_{i}^{\alpha_{i}-1}
\end{align}

となります。ただし、\(\Gamma(a)\)はガンマ関数です。確率密度関数がこのようになることは<ディリクレ分布の基本情報>をお読みください(確率密度関数の変数が\(x_{1},\cdots ,x_{k-1}\)になっていますが、\(x_{k}\)は必要ありません。なぜなら、今\(x_{1}+\cdots+x_{k}=1\)が成立しているので、\(x_{1},\cdots ,x_{k-1}\)が分かれば、\(x_{k}\)が与えられていなくても分かってしまうからです)。
 まず、期待値を求めていきます。期待値の定義から
\begin{align}
\mathrm{E}[X_{i}] &= \int_{0}^{\infty}x_{i}f(x_{1},\cdots,x_{k-1})dx_{1}\cdots dx_{k} \\
&=\frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\int_{0}^{\infty}x_{i}\prod_{j=1}^{k}x_{j}^{\alpha_{j}-1}dx_{1}\cdots dx_{k-1} \\
&=\frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\int_{0}^{\infty}x_{1}^{\alpha_{1}-1}\cdots x_{i}^{\alpha_{i}}\cdots x_{k}^{\alpha_{k}-1}dx_{1}\cdots dx_{k-1} \\
\end{align}

となります。ここで、ガンマ関数の積分公式を用います。ガンマ関数の積分公式より
\begin{align}
\int_{0}^{\infty}x_{1}^{\alpha_{1}-1}\cdots x_{i}^{\alpha_{i}}\cdots x_{k}^{\alpha_{k}-1}dx_{1}\cdots dx_{k-1} &= \frac{\Gamma(\alpha_{1})\cdots\Gamma(\alpha_{i}+1)\cdots\Gamma(\alpha_{n})}{\Gamma\left( \sum_{j=1}^{n}\alpha_{j}+1 \right)}
\end{align}

が成り立ちます。さらにガンマ関数の基本性質
\begin{align}
\Gamma(a)=(a-1)\Gamma(a-1)
\end{align}

を用いるとこの式は
\begin{align}
\int_{0}^{\infty}x_{1}^{\alpha_{1}-1}\cdots x_{i}^{\alpha_{i}}\cdots x_{k}^{\alpha_{k}-1}dx_{1}\cdots dx_{k-1} &= \frac{\alpha_{i}}{\sum_{j=1}^{k}\alpha_{j}}\cdot\frac{\prod_{j=1}^{k}\Gamma(\alpha_{j})}{\Gamma\left( \sum_{i=1}^{n}\alpha_{i} \right)}
\end{align}

が成り立ちます。この結果から、求めたい期待値を求めることができました。同じようにして、分散も求めていきます。
 <分散の定義>の記事から分散は
\begin{align}
\mathrm{Var}[X_{i}] &= \mathrm{E}[X_{i}^{2}]-\mathrm{E}[X_{i}]^{2}
\end{align}

と表すことができるので、\(\mathrm{E}[X_{i}^{2}]\)を求めればよいことがわかります。よって
\begin{align}
\mathrm{E}[X_{i}^{2}] &= \int_{0}^{\infty}x_{i}^{2}f(x_{1},\cdots,x_{k-1})dx_{1}\cdots dx_{k} \\
&=\frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\int_{0}^{\infty}x_{i}^{2}\prod_{j=1}^{k}x_{j}^{\alpha_{j}-1}dx_{1}\cdots dx_{k-1} \\
&=\frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\int_{0}^{\infty}x_{1}^{\alpha_{1}-1}\cdots x_{i}^{\alpha_{i}+1}\cdots x_{k}^{\alpha_{k}-1}dx_{1}\cdots dx_{k-1} \\
&= \frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\cdot\frac{\Gamma(\alpha_{1})\cdots\Gamma(\alpha_{i}+2)\cdots\Gamma(\alpha_{n})}{\Gamma\left( \sum_{j=1}^{n}\alpha_{j}+2 \right)}\\
&= \frac{ \Gamma\left( \sum_{j=1}^{k}\alpha_{j} \right) }{ \prod_{j=1}^{k}\Gamma(\alpha_{j}) }\cdot\frac{\alpha_{i}+1}{\sum_{j=1}^{k}\alpha_{j}+1}\cdot\frac{\alpha_{i}}{\sum_{j=1}^{k}\alpha_{j}}\cdot\frac{\prod_{j=1}^{k}\Gamma(\alpha_{j})}{\Gamma\left( \sum_{j=1}^{n}\alpha_{j} \right)}\\
&= \frac{\alpha_{i}(\alpha_{i}+1)}{\alpha_{0}(\alpha_{0}+1)}
\end{align}

となります。ここで\(\alpha_{0}=\sum_{i=1}^{n}\alpha_{i}\)です。式変形は期待値の導出と全く同じで、ガンマ関数の積分公式、ガンマ関数の基本性質の順に使用していきます。期待値が
\begin{align}
\mathrm{E}[X_{i}] = \frac{\alpha_{i}}{\alpha_{0}}
\end{align}

と表すことができることから、求めたい分散は
\begin{align}
\mathrm{Var}[X] &= \frac{\alpha_{i}(\alpha_{i}+1)}{\alpha_{0}(\alpha_{0}+1)} - \left( \frac{\alpha_{i}}{\alpha_{0}} \right)^{2} \\
&=\frac{ \alpha_{i}(\alpha_{0}-\alpha_{i}) }{ \alpha_{0}^{2}(\alpha_{0}+1) }
\end{align}

となります。

-分散, 期待値
-, ,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5