確率分布 線形回帰モデル

t分布(スチューデントのt分布)

 t分布(スチューデントのt分布、(Student's)t distribution)は、連続型の確率分布です。t分布は正規分布に従う標本からの推定量(標本平均や回帰係数など)に見られる確率分布です。統計検定や学校の試験など標本を扱う問題が出た場合ほぼほぼ必須の知識になりますので、必ず覚えておきたい分布のひとつとなります。この記事ではt分布の基本情報についてまとめています。t分布を学ぶ前に、<正規分布><カイ2乗分布>について知っておくとスムーズに学習することができると思います。
 t分布のパラメータは自由度のみであり、自由度\(m\)のt分布に従う確率変数\(X\)は記号\(X\sim t(m)\)で表されます。

t分布の基本情報

※ 表は横にスクロールできます。

パラメータ \(m>0\)(整数、自由度を表します)
確率変数の範囲 \(-\infty< x <\infty \)
確率密度関数 \(\displaystyle \frac{ \Gamma\left( \frac{m+1}{2} \right) }{ (\pi m)^{\frac{1}{2}}\Gamma\left( \frac{m}{2} \right)\left( 1+\frac{x^{2}}{m} \right)^{\frac{m+1}{2}} } \)
生存関数 \(\displaystyle \frac{1}{2}I_{j}\left( \frac{1}{2}m,\ \frac{1}{2} \right) \)
ここで\(I_{z}(a,b)\)は不完全ベータ関数比を表します。
危険度関数 \(\displaystyle \frac{f(x)}{\frac{1}{2}I_{j}\left( \frac{1}{2}m,\ \frac{1}{2} \right)} \)
ただし、\(f(x)\)は自由度\(m\)のt分布の確率密度関数を表します。
期待値 \( \displaystyle 0 \)
分散 \( \displaystyle \frac{m}{m-2},\ \ \ m>2 \)
モード \( \displaystyle 0 \)
平均偏差 \( \displaystyle \frac{ m^{\frac{1}{2}}\Gamma\left( \frac{m-1}{2} \right) }{ \pi^{\frac{1}{2}}\Gamma\left( \frac{m}{2} \right) } \)
歪度 \(0,\ \ \ m>3\)
尖度 \( \displaystyle \frac{3(m-2)}{m-4}=3+\frac{6}{m-4},\ \ \ m>4\)

証明一覧

確率密度関数と累積分布関数

確率密度関数と累積分布関数は次のようになります。このとき自由度が大きくなると標準正規分布に近づいていくことがわかります。

t分布の定義

t分布の定義
自由度\(m\)のt分布に従う確率変数\(X\)は、標準正規分布に従う確率変数\(Z\)と、自由度\(m\)のカイ2乗分布に従う確率変数\(V\sim \chi^{2}(m)\)を用いて
\begin{align}X=\frac{Z}{\sqrt{\frac{V}{m}}}\sim t(m)\end{align}
となります。

t分布とF分布

t分布とF分布
自由度\(m\)のt分布に従う確率変数\(X\)は、F分布と以下のような関係が成り立ちます。
\begin{align}X^{2}\sim F(1,\ m)\end{align}

この関係はt分布の定義とF分布の定義から明らかです。あまりこの関係は利用するがないですが、知識として覚えておきましょう。

t分布と標準正規分布

t分布と標準正規分布
自由度\(m\)のt分布に従う確率変数\(X\)について、自由度\(m\)が十分に大きいとき、標準正規分布に収束します。
\begin{align}X\rightarrow^{d}_{m\rightarrow\infty}N(0,1)\end{align}

証明

中心極限定理を用いる方法がありますが、確率密度関数から直接求める方法を紹介します。まず

\begin{align}\left( 1+\frac{x^{2}}{m} \right)^{-\frac{m+1}{2}} &= \left[ \left( 1+\frac{x^{2}}{m} \right)^{\frac{m}{x^{2}}}\right]^{\frac{x^{2}}{m}\left( -\frac{m+1}{2} \right)}\\
&\rightarrow_{m\rightarrow\infty}e^{-\frac{x^{2}}{2}}\end{align}
が成り立つことが確認できます。式変形には自然対数\(e\)の定義を使用しています。このことから、自由度\(m\)のt分布の確率密度関数\(f(x)\)は
\begin{align}
f(x) &= \frac{ \Gamma\left( \frac{m+1}{2} \right) }{ (\pi m)^{\frac{1}{2}}\Gamma\left( \frac{m}{2} \right)\left( 1+\frac{x^{2}}{m} \right)^{\frac{m+1}{2}} } \\
&\rightarrow_{m\rightarrow\infty} \frac{ \Gamma\left( \frac{m+1}{2} \right) }{ (\pi m)^{\frac{1}{2}}\Gamma\left( \frac{m}{2} \right) }e^{-\frac{x^{2}}{2}} \\
&= \frac{ 1 }{ \sqrt{2\pi} }e^{-\frac{x^{2}}{2}}
\end{align}
と変形することができるので、標準正規分布に収束することが分かります。

正規母集団からの標本とt分布

正規母集団からの標本とt分布
正規分布\(N(\mu,\ \sigma^{2})\)に従う母集団からのn個の無作為標本\(X_{1},\cdots,X_{n}\)について、期待値と分散の不偏推定量
\begin{align}\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i},\ \ \ s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\end{align}
となります。このとき\(\bar{X}\)と\(s^{2}\)は互いに独立であり、
\begin{align}\frac{\bar{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t(n-1)\end{align}
が成り立ちます。

証明

 ここでは簡単化のためコクランの定理を使って証明していきます。標本をまとめたベクトルを\(X={}^{T}\!(X_{1},\cdots,X_{n})\)とします。このとき、\(1\)が\(n\)個並んだベクトル\(1_{n}\)を用いて、期待値および分散の不偏推定量は次のように表すことができます。

\begin{align}
\bar{X} &= (\ {}^{T}\!1_{n}1_{n})^{-1}\ {}^{T}\!1_{n}X\\
(n-1)\frac{s^2}{\sigma^{2}}&=\frac{^{T}\!X}{\sigma}(I_{n}-1_{n}({}^{T}\!1_{n}1_{n})^{-1}\ {}^{T}\!1_{n})\frac{X}{\sigma}
\end{align}
ここで、記号が長くなるので\(P_{1_{n}}=1_{n}({}^{T}\!1_{n}1_{n})^{-1}\ {}^{T}\!1_{n}\)、\(H=I_{n}-P_{1_{n}}\)とおきます。このとき、コクランの定理から
\begin{align}1_{n}H=0\end{align}
が成り立つので、\(\bar{X}\)と\(s^{2}\)が互いに独立となります。

 さらに、行列\(H\)について、この行列はベキ等行列であり\(\mathrm{tr}H=n-1\)が成立しているので、\(\mathrm{Var}[X/\sigma]=I_{n}\)よりコクランの定理から

\begin{align}(n-1)\frac{s^{2}}{\sigma^{2}}=\frac{^{T}\!X}{\sigma}H\frac{X}{\sigma}\sim \chi^{2}(n-1)\end{align}
が成り立ちます。このことから今、示したいことは求められます。

カイ2乗分布およびコクランの定理については別記事で紹介しています。

回帰係数の最小二乗推定量とt分布

回帰係数の最小二乗推定量とt分布
回帰モデル
\begin{align}y_{i}=\beta_{0}+\beta_{1}x_{i1}+\cdots+\beta_{p}x_{ip}+\varepsilon_{i}\end{align}
を考えます。ここで誤差項\(\varepsilon_{i}\)は互いに独立に正規分布\(N(0,\sigma^{2})\)に従うものとします。このとき\(\beta\)の最小二乗推定量を\(\widehat{\beta}\)、\(y_{i}\)の推定量を\(\widehat{y}_{i}\)、\(\sigma^{2}\)の不偏推定量を
\begin{align}s^{2}=\frac{1}{n-(p+1)}\sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})\end{align}
としたとき、次のような式が成り立ちます。
\begin{align}\frac{\widehat{\beta}_{i}-\beta_{i}}{s}\sim t(n-(p+1))\end{align}

証明は回帰分析で詳しく扱いますが、コチラの証明もコクランの定理を使用します。

-確率分布, 線形回帰モデル
-,

© 2024 初心者からはじめる統計学 Powered by AFFINGER5