正規分布(ガウス分布、normal distribution)は、連続型の確率分布です。正規分布は数学的にも便利な性質をたくさん持っているため、統計的推測を行う際に、この分布を仮定することが多く、確率分布の中で最も使用される分布になります。
正規分布は、分布の形は平均で左右対称になっており、平均に近ければ近いほど観測されやすいものとなります。具体的にはテストの点数の分布や、実験における測定の誤差、回帰分析における誤差など多くのデータは、ほぼ正規分布に従います。
正規分布に従う確率変数\(X\)は、期待値\(\mu\)分散\(\sigma^{2}\)を用いて記号\(X\sim N(\mu,\sigma^{2})\)で表されます。特に\(\mu=0,\sigma^{2}=1\)のとき標準正規分布と呼ばれます。
※なお、この記事では\(1\)変量の正規分布について扱います。多変量正規分布、行列変量正規分布については以下のリンクからお願います。
目次
正規分布の基本情報
※ 表は横にスクロールできます。
パラメータ | \(\mu,\ \ \ 0 < \sigma\) |
確率変数の範囲 | \(-\infty< x <\infty \) |
確率密度関数 | \(\displaystyle \frac{ 1 }{ \sqrt{2\pi}\sigma }\exp\left[ -\frac{1}{2\sigma^{2}}(x-\mu)^{2} \right] \) |
積率母関数 | \(\displaystyle \exp\left[ \mu t+\frac{1}{2}\sigma^{2}t^{2} \right] \) |
特性関数 | \(\displaystyle \exp\left[ i\mu t-\frac{1}{2}\sigma^{2}t^{2} \right] \) |
キュムラント母関数 | \(\displaystyle \mu t+\frac{1}{2}\sigma^{2}t^{2}\) |
\(r\)次キュムラント | \(\kappa_{1}=\mu,\ \kappa_{2}=\sigma^{2},\ \kappa_{r}=0(r>2)\) |
\(r\)次モーメント (平均まわり) |
\(\displaystyle \left\{\begin{array}{cc} \mu_{r}=0 & rが奇数 \\ \mu_{r}=\frac{\sigma^{r}r!}{2^{\frac{r}{2}}\left( \frac{r}{2} \right)!} & rが偶数\end{array}\right.\) |
期待値 | \( \displaystyle \mu \) |
分散 | \( \displaystyle \sigma^{2} \) |
中位数 | \( \displaystyle \mu \) |
モード | \( \displaystyle \mu \) |
平均偏差 | \( \displaystyle \sigma\left( \frac{2}{\pi} \right)^{\frac{1}{2}} \) |
歪度 |
\(\displaystyle 0\) |
尖度 | \( \displaystyle 3\) |
証明一覧
確率密度関数と累積分布関数
様々な\(\mu,\sigma\)に対応する正規分布の確率密度関数は次のようになります。
・\(\mu=0\)で固定した場合の確率密度関数と累積分布関数
μ=0.png)
μ0.png)
・\(\sigma^{2}=1\)で固定した場合の確率密度関数と累積分布関数
σ1.png)
σ=1.png)
正規分布の性質
正規分布が持つ、重要な性質をまとめています。
正規分布に従う確率密度関数の見分け方
ある確率変数\(X\)の確率密度関数が\(f(x)\)で与えられているとします。この確率変数が連続型であり、微分可能であるとき、この\(f(x)\)の導関数が、ある\(\gamma>0,\ \delta\)が存在して
f^{\prime}(x) = -f(x)(\gamma x+\delta)
\end{align}
と表せるとき、確率変数\(X\)は正規分布に従います。また、正規分布に従うならば、この式を満たすときのみに限られます。
しかし、確率密度関数がわかっている場合はかなり限られます。確率密度関数が未知のとき、正規分布に従っているかどうかは、QQプロットなどの方法があります。
正規分布に従う確率変数の線形関数
確率変数\(X\)が期待値\(\mu\)、分散\(\sigma^{2}\)の正規分布\(X\sim N(\mu,\sigma^{2})\)に従うとき、定数\(a,b\)を用いて\(Y=a+bX\)と変換したとき、変換された確率変数\(Y\)も正規分布に従い
Y=a+bX \sim N(a+b\mu,b^{2}\sigma^{2})
\end{align}
が成り立ちます。
この性質を用いて正規分布に従う確率変数の標準化は以下の式で行うことができます。
Z = \frac{X-\mu}{\sigma}\sim N(0,1)
\end{align}
正規分布の再生性
\(X_{1},\cdots,X_{n}\)が互いに独立に、期待値\(\mu_{i}\)、分散\(\sigma^{2}\)の正規分布\(X_{i}\sim N(mu_{i},\sigma_{i}^{2})\)(\(i=1,\cdots,n\))に従うとき、この確率変数の和も正規分布に従い
\sum_{i=1}^{n}X_{i} = X_{1}+\cdots+X_{n}\sim N\left( \sum_{i}^{n}\mu_{i}, \sum_{i=1}^{2}\sigma_{i}^{2} \right)
\end{align}
となります。特に、\(X_{1},\cdots,X_{n}\)が同じ期待値\(\mu\)と分散\(\sigma^{2}\)を持つとき、
\sum_{i=1}^{n}X_{i} = X_{1}+\cdots+X_{n}\sim N(n\mu,n\sigma^{2})
\end{align}
となります。
上で紹介した「正規分布に従う確率変数の線形関数」の性質を用いれば、確率変数\(X_{1},\cdots,X_{n}\)をそれぞれ、定数\(c_{1},\cdots,c_{n}\)で定数倍したものの和も正規分布に従い、
\sum_{i=1}^{n}c_{i}X_{i} =c_{1}X_{1}+\cdots+c_{n}X_{n} \sim N\left(\sum_{i=1}^{n}c_{i}\mu_{i},\sum_{i=1}^{n}c_{i}^{2}\sigma_{i}^{2}\right)
\end{align}
となります。
累積分布関数のエルミート多項式による展開
標準正規分布に従う確率変数\(X\sim N(0,1)\)の分布関数\(\Phi(x)\)に関して、分布関数はエルミート多項式を用いて次のように表すことができます。
\Phi (x) &= \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}\exp\left[-\frac{u^{2}}{2}\right]du \\
&= \frac{1}{2}+\int_{0}^{x}\frac{1}{2\pi}\exp\left[ -\frac{u^{2}}{2} \right]du \\
&= \frac{1}{2} + \frac{1}{\sqrt{2\pi}}x\exp\left[ -\frac{x^{2}}{8} \right]\sum_{j=0}^{\infty}\frac{H_{2j}\left( \frac{1}{2} \right)}{(2j+1)!}\left( \frac{1}{2}x \right)^{2j+1}
\end{align}
ここで、\(H_{r}(x)\)はチェビシェフ-エルミート多項式です。チェビシェフ-エルミート多項式は標準正規分布の確率密度関数を\(r\)回微分した時に得られる係数にあたるものです。正確に定義すると、標準正規分布の確率密度関数を\(f(x)\)とすると、この関数の微分について以下の関係が得られます。
\frac{d}{dx}f(x) &= (-1)xf(x) \\
\frac{d^{2}}{dx^{2}}f(x) &= (-1)^{2}(x^{2}-1)f(x) \\
\frac{d^{3}}{dx^{3}}f(x) &= (-1)^{3}(x^{3}-3x)f(x) \\
\frac{d^{4}}{dx^{4}}f(x) &= (-1)^{4}(x^{4}-6x^{2}+3)f(x) \\
&\vdots
\end{align}
これらの結果を一般的に
\frac{d^{r}}{dx^{r}}f(x) &= (-1)^{r}H_{r}(x)f(x)
\end{align}
で表します。この\(H_{r}(x)\)をチェビシェフ-エルミート多項式と呼び具体的には
H_{0}(x) &= 1 \\
H_{1}(x) &= x \\
H_{2}(x) &= x^{2}-1 \\
H_{3}(x) &= x^{3}-3x \\
H_{4}(x) &= x^{4}-6x^{2}+3 \\
&\vdots
\end{align}
となります。
正規分布の平均偏差モーメント
確率変数\(X\)が正規分布\(X\sim N(\mu,\sigma^{2})\)に従うとき、平均偏差の\(r\)次の平均偏差モーメントを
\upsilon_{r} &= \mathrm{E}\left[ |X-\mu|^{r} \right]
\end{align}
とすると、以下のようになります。
\upsilon_{1} &= \sigma\left( \frac{2}{\pi} \right)^{\frac{1}{2}} \\
\upsilon_{2} &= \sigma^{2} \\
\upsilon_{3} &= 2\sigma^{3}\left( \frac{2}{\pi} \right)^{\frac{1}{2}} \\
\upsilon_{4} &= 3\sigma^{4} \\
\upsilon_{5} &= 8\sigma^{5}\left( \frac{2}{\pi} \right)^{\frac{1}{2}}
\end{align}
特に、一般的には、
\upsilon_{r} &= 2^{\frac{r-1}{2}}\Gamma\left( \frac{r+1}{2} \right)\sigma^{r}\left( \frac{2}{\pi} \right)^{\frac{1}{2}}
\end{align}
と表すことができます。
※モーメントについては以下のリンクからどうぞ
正規分布と他の分布との関係
正規分布は他の分布とたくさんの関係があります。すべて挙げるときりがないので、代表的なものだけをまとめていきたいと思います。
カイ2乗分布
標準正規分布に従う確率変数\(X\sim N(0,1)\)について、この確率変数の\(2\)乗は自由度\(1\)のカイ2乗分布
X^{2}\sim \chi^{2}(1)
\end{align}
に従います。また\(X_{1},\cdots,X_{n}\sim N(0,1)\)と互いに独立に標準正規分布に従っているとき、2乗和は自由度\(n\)のカイ2乗分布に従い
\sum_{i=1}^{n}X_{i}^{2} \sim \chi^{2}(n)
\end{align}
となります。
非心カイ2乗分布
標準正規分布に従う確率変数\(X\sim N(\delta,1)\)について、この確率変数の\(2\)乗は自由度\(1\)、非心度\(\delta^{2}\)の非心カイ2乗分布
X^{2}\sim \chi^{2}(1,\delta^{2})
\end{align}
に従います。また\(X_{i}\sim N(\delta_{i},1)\)(\(i=1,\cdots,n\))と互いに独立に正規分布に従っているとき、2乗和は自由度\(n\)、非心度\(\sum_{i=1}^{n}\delta_{i}^{2}\)のカイ2乗分布に従い
\sum_{i=1}^{n}X_{i}^{2} \sim \chi^{2}\left(n,\sum_{i}^{n}\delta_{i}^{2}\right)
\end{align}
となります。
対数正規分布
ある確率変数\(X\)に対数をとったもの、\(\log X\)が期待値\(\mu\)、分散\(\sigma^{2}\)の正規分布\(\log X\sim N(\mu,\sigma^{2})\)に従うとき、確率変数\(X\)はパラメータ\(\mu,\sigma^{2}\)の対数正規分布
X \sim LN(\mu,\sigma^{2})
\end{align}
に従います。
正規分布とラプラス分布
確率変数\(X_{1},X_{2},X_{3},X_{4}\)が互いに独立に、標準正規分布\(N(0,1)\)に従うとき、
Y &= X_{1}X_{2}+X_{3}X_{4}
\end{align}
はパラメータ\(0,1\)のラプラス分布
Y \sim Laplace(0,1)
\end{align}
に従います。
非対称正規分布
標準正規分布に従う確率変数の確率密度関数\(f(x)\)、累積分布関数\(\Phi(x)\)としたとき、確率変数\(X\)の確率密度関数が
f(x) &= 2f(x)\Phi(\lambda x),\ \ \ \ -\infty <\lambda <\infty
\end{align}
となるとき、確率変数\(X\)はパラメータ\(\lambda\)の非対称正規分布(skew-normal distribution)に従うといい、記号\(X\sim SN(\lambda)\)と表します。
バーンバウム-サンダース分布
確率変数\(Z\)が標準正規分布\(Z\sim N(0,1)\)に従うとき、確率変数\(X\)が
X &= \beta\left[ \frac{1}{2}Z\alpha+\left\{ 1+\left( \frac{1}{2}Z\alpha \right)^{2} \right\}^{\frac{1}{2}} \right]^{2}
\end{align}
はバーンバウム-サンダース分布(Birnbaum-Saunders distribution)と呼ばれ、\(X\)の確率密度関数は
\frac{\exp[-\alpha^{2}]}{2\alpha\sqrt{2\pi\beta}}x^{-\frac{3}{2}}(x+\beta)\exp\left[ -\frac{1}{2\alpha^{2}}\left( \frac{x}{\beta}+\frac{\beta}{x}\right) \right]
\end{align}
で与えられます。また確率変数\(Z\)が
Z &= \frac{1}{\alpha}\left( \sqrt{\frac{X}{\beta}}-\sqrt{\frac{\beta}{X}} \right) \sim N(0,1)
\end{align}
で表すことができたとき、確率変数\(X\)はバーンバウム-サンダース分布に従います。
※ このバーンバウム-サンダース分布はある材料の寿命を表す分布として提案された分布です。主に材料科学におけるマイナー則を適応させたとき、このモデルが妥当であると考えられています。
逆正規分布
確率変数\(Y\)が正規分布\(Y\sim N(\mu,\sigma^{2})\)に従うとき、確率変数の逆数\(X=1/Y\)は逆正規分布(inverse normal distribution)に従うといいます。
正規分布に収束する確率分布
確率分布はたくさんの種類がありますが、パラメータに条件付けたり、極限をとったりすると、正規分布に収束する分布がいくつかあります。この章では正規分布に収束する確率分布をいくつか紹介していきます。
なお、以下で紹介するものはすべて標準化した上で収束しているので、注意してください。(標準化とは期待値で引いて標準偏差で割る操作のことです。)
- カイ2乗分布\(\chi^{2}(n)\)、期待値\(m\)、分散\(2m\)
\(n\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に収束します。
- ガンマ分布\(Gam(\alpha,\beta)\)、期待値\(\alpha\beta\)、分散\(\alpha\beta^{2}\)
\(\alpha\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に収束します。
- \(t\)分布\(t(n)\)、期待値\(\displaystyle 0\)、分散\(\displaystyle\frac{n}{n-2}\)(\(n >2\))
\(n\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に収束します。
- 対数正規分布\(LN(\mu,\sigma^{2})\)、期待値\(\displaystyle\exp\left[ \mu+\frac{1}{2}\sigma^{2} \right]\)、分散\(\displaystyle\exp\left[ 2\mu+\sigma^{2} \right](\exp[\sigma^{2}]-1)\)
\(\sigma\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に従います。
- 2項分布\(Bin(n,p)\)、期待値\(np\)、分散\(np(1-p)\)
\(n\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に従います。
- ベータ分布\(Beta(\alpha,\beta)\)、期待値\(\frac{\alpha}{\alpha+\beta}\)、分散\(\frac{\alpha\beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)}\)
\(\frac{\alpha}{\beta}\)を固定しながら、\(\alpha\rightarrow\infty\)かつ\(\beta\rightarrow\infty\)となるとき、標準正規分布\(N(0,1)\)に収束します。
- ポアソン分布\(Po(\lambda)\)、期待値\(\lambda\)、分散\(\lambda\)
\(\lambda\rightarrow\infty\)のとき、標準正規分布\(N(0,1)\)に収束します。
正規分布と関連深い確率分布
.png)