4-1.統計的推定の基礎知識

復元抽出法・非復元抽出法

復元抽出法は、調査対象が重複するおそれがあるが、数式が単純。非復元抽出法の調査対象は重複しないが、数式が複雑化する。非復元抽出法を採用するのが一般的。

確率抽出法

  • 単純無作為抽出法
  • 系統抽出法:スタート番号から一定間隔(抽出間隔)おきに抽出する方法
  • 層化(無作為)抽出法
  • 集落(クラスター)抽出法
  • 二段(多段)抽出法

4-2.母平均の点推定

母平均の点推定
(point estimation)

母平均の点推定とは

母集団から抽出された標本を活用し、母数(\(θ\))を推定値(\(\hat{θ}\))で推測すること。ここでは母平均の点推定を扱う。
母数は、母集団を特徴づけるパラメータのことで、母平均、母分散、母標準偏差、母比率などがある。

母平均の点推定のポイント

標本平均(\(\bar{x}\))は標本数(\(n\))が大きいほど母平均(\(μ\))に近づく(大数の法則)。

推定量の基準の一つである不偏性は、期待値E[\(\hat{θ}\)]=0と常に母数に等しくなる性質で、標本数(\(n\))に依存しない。

平均の不偏推定量
\begin{align*}
& E[\bar{x}]=μ
& V[\bar{x}]=\frac{σ^2}{n}
\end{align*}
分散の不偏推定量
\begin{align*}
& \hat{σ}^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
\end{align*}

点推定の具体例

標本を大きさの順に並べ替える順序統計量において、両端の数値を除いて残りを平均する刈込み平均があり、フィギュアスケートの採点で利用されている。

一致性と不偏性

標本数が大きくなれば、推定量が母数に近づくことを一致性といい、この推定量を一致推定量をいう。一方、推定量の期待値が常に母数に等しくなることを不偏性といい、この性質をもつ推定量を不偏推定量という。一致推定量は\(n\)の大きさに依存するが、不偏推定量は依存しない点が違いである。

標準誤差

(standard error of mean)標準誤差は、推計値が真の値からどのくらい乖離しているかを表す数値で、推定量の標準偏差である。

標本平均の標準偏差
\begin{align*}
& \sqrt{\frac{σ^2}{n}}
\end{align*}
標準誤差
\begin{align*}
& SE=\frac{s}{\sqrt{n}}
\end{align*}

動画で学ぶ

hepokikiさんの解説

統計学「不偏推定量」Unbiased Estimator

統計学「母分散の不偏推定量の証明1」Proof of Unbiased Estimator of Population Variance 1

統計学「母分散の不偏推定量の証明2」Proof of Unbiased Estimator of Population Variance 2

統計学「母分散の不偏推定量の証明3」Proof of Unbiased Estimator of Population Variance 3

4-3.母平均の区間推定(母分散既知)

母平均の区間推定(母分散既知)

1標本問題(one-sample problem)

母分散\(σ^2\)が既知のとき、\(\overline{X}~N(μ,\frac{σ^2}{n})\)となる。母平均μを推定する。
$$\overline{x}-1.96・\frac{σ}{\sqrt{n}}≦μ≦\overline{x}+1.96・\frac{σ}{\sqrt{n}}$$
※母平均μが、信頼区間に入る確率が95%。
※95%の信頼区間は、上側確率\(\frac{σ}{2}=0.025\)なので、標準正規分布表から逆に読み取り、1.96が導かれる。
※\(n>100\)なら、偏差平方和を\(n\)で割った\(s^2\)との差は小さいため、標準偏差\(\hat{σ}\)を\(σ\)に代用できる。
※間違って棄却する確率が5%となる。

2標本問題(two-sample problem)

標本平均の差\(d=\overline{x}-\overline{y}\)
母平均の差\(δ=μ_1-μ_2\)
標本数\(m、n\)
$$z=\frac{d-δ}{\sqrt{\frac{σ^2_1}{m}+\frac{σ^2_2}{n}}}$$
信頼区間
$$d-1.96・\sqrt{\frac{σ^2_1}{m}+\frac{σ^2_2}{n}}≦δ≦d+1.96・\sqrt{\frac{σ^2_1}{m}+\frac{σ^2_2}{n}}$$

4-6.母比率の区間推定

母比率の区間推定

母比率の区間推定

成功確率\(p\)である試行を\(n\)回行う時の成功回数を\(x\)とすると、\(x\)は二項分布\(B(n,p)\)に従う。二項分布に従う確率変数\(x\)の期待値と分散は次の通りである。
$$E[x]=np$$
$$V[x]=npq=np(1-p)$$

母比率の信頼区間
$$\widehat{p}-z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p} + z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}$$

母比率の差の区間推定

母比率の差も近似的に標準正規分布に従う。

$$z=\frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}}~N(0,1)$$

4-5.母分散の区間推定

母分散の区間推定

母分散の区間推定

母分散の区間推定は、カイ二乗分布を使用する。次の統計量は自由度自由度\(n-1\)のカイ二乗分布に従う。
$$χ^2=\frac{(n-1)・S^2}{σ^2}$$

母分散の信頼区間
$$\frac{(n-1)S^2}{χ^2_\frac{α}{2}(n-1)}≦σ^2≦\frac{(n-1)S^2}{χ^2_{1-\frac{α}{2}}(n-1)}$$

母分散の比の区間推定

4-4.母平均の区間推定(母分散未知)

母平均の区間推定(母分散未知)

1標本問題

●母分散が分からない場合、標本平均\(\overline{x}\)を標本から計算し、不偏分散\(S^2\)を次の式で求める

$$S^2 = \frac{1}{n – 1} \sum_{i = 1}^n {(x_i – \overline{x})^2}$$

●自由度\(n-1\)の\(t\)分布

$$t=\frac{\overline{x}-μ}{\frac{\hat{σ}}{\sqrt{n}}}$$

●100(1-α)%信頼区間の式
$$\overline{x}-t_{\frac{σ}{2}}(n-1)・\frac{σ}{\sqrt{n}}≦μ≦\overline{x}+t_{\frac{σ}{2}}(n-1)・\frac{σ}{\sqrt{n}}$$
※1.96の部分を、\(t\)分布のパーセント点から探し、差し替える。
※\(t\)分布のパーセント点から、\(n\)が大きいほど1.96に近づくことがわかる。

2標本問題

母分散が未知で等しい場合

$$t=\frac{d-δ}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}}~t(m+n-2)$$
プールした分散(併合した分散)
$$\hat{σ}^2=\frac{\sum {(x_i – \overline{x})^2}+\sum {(y_i – \overline{y})^2}}{m+n-2}$$