【統計学・データ分析】に役立つサイト

【統計学・データ分析】役立つサイト

公的統計データ以外に役立つ統計・調査データ

4-1.統計的推定の基礎知識

復元抽出法・非復元抽出法

復元抽出法は、調査対象が重複するおそれがあるが、数式が単純。非復元抽出法の調査対象は重複しないが、数式が複雑化する。非復元抽出法を採用するのが一般的。

確率抽出法

  • 単純無作為抽出法
  • 系統抽出法:スタート番号から一定間隔(抽出間隔)おきに抽出する方法
  • 層化(無作為)抽出法
  • 集落(クラスター)抽出法
  • 二段(多段)抽出法

3-9.t分布

\(t\)分布とは

\(t\)分布とは?

データのサイズが小さい時に使う分布。小標本から母集団を推測するときに使用する。自由度が大きくなるほど標準正規分布の確率密度関数に近づく。

\(t\)分布の用途

母平均の推定(母分散が未知)

\(t\)分布

標準正規分布

$$z=\frac{\overline{x}-μ}{\frac{σ}{\sqrt{n}}}$$

自由度\((n-1)\)の\(t\)分布

\(σ\)を標本標準偏差\(s\)に置き換える
$$t=\frac{\overline{x}-μ}{\frac{s}{\sqrt{n}}}$$
の従う分布は自由度\((n-1)\)の\(t\)分布となる。

\(t\)分布の期待値と分散

$$E[t]=0 m≧2$$
$$V[t]=\frac{m}{m-2} m>2$$
※\(m\)は自由度

母平均の区間推定(母分散が未知)

$$\overline{x}-t_\frac{α}{2}(n-1)・{\sqrt{\frac{s^2}{n}}}≦μ≦\overline{x}+t_\frac{α}{2}(n-1)・{\sqrt{\frac{s^2}{n}}}$$

3-8.χ2分布

χ2分布

χ2分布とは?

 標準化された偏差平方和で、標本の値が、理論的な値からどの程度離れているかを表す。確率変数\(Z_1\)、\(Z_2\)…、\(Z_n\)が互いに独立に標準正規分布\(N(0,1)\)に従うとき、
$$W=Z^2_1 + Z^2_2 + ・・・+Z^2_n$$
の従う分布を自由度\(n\)の\(χ^2\)分布(chi-square distribution with n degrees of freedom)とよぶ。

χ2分布の用途

母分散の区画推定、適合度の検定、独立性の検定

χ2の期待値と分散

$$E[W]=n$$
$$V[W]=2n$$

χ2の計算式

$$W=\sum_{i=1}^n \frac{(X_i-μ)~^2}{σ^2}$$
は自由度\(n\)の\(χ^2\)分布に従う。
$$W=\frac{(n-1)・S^2}{σ^2}$$
は自由度\(n-1\)の\(χ^2\)分布に従う。

母分散の区間推定

$$\frac{(n-1)S^2}{χ^2_\frac{α}{2}(n-1)}≦σ^2≦\frac{(n-1)S^2}{χ^2_{1-\frac{α}{2}}(n-1)}$$

χ2分布曲線

動画で学ぶ~χ2分布~

hepokikiさんの解説

統計学「カイ二乗」Chi-Square

統計学「カイ二乗の練習1」Chi Square Exercise 1

統計学「カイ二乗の練習2」Chi Square Exercise 1

統計学「カイ二乗の練習3」Chi Square Exercise 1

3-7.指数分布

指数分布

指数分布とは?

ある事象の発生間隔(時間)のモデル。ポワソン分布は回数モデルだったのに対して、指数分布は時間のモデル。

指数分布の具体例

・交通事故の発生から次の事故発生までの時間
・受付に次の顧客が来るまでの待ち時間
・次の電話があるまでの時間
・高速道路の料金所で次の自動車が通過するまでの時間
・ある商品が故障するまでの時間は平均10000時間として、使用してから5000時間後に故障していない確率

指数分布の確率密度関数

\[
x≧0\\
f(x)=λe^{-λx}\\
x≦0\\
f(x)=0\\
\]

指数分布の平均と分散

\[
E[X]=\frac{1}{λ}\\
V[X]=\frac{1}{λ^2}\\
\]

指数分布の分布関数(下側累積確率)

・少なくとも1時間以内に次の事故が起こる確率
・10分以内に次の顧客がくる確率

\[
x≧0\\
f(x)=P(X≦x)=1-e^{-λx}\\
\]

3-6.一様分布

一様分布

一様分布とは?

どの値も同じ起こりやすさであるもの。離散型一様分布と連続型一様分布に分けられる。

離散型一様分布

離散型一様分布の具体例

・精密なサイコロを振って出る目の分布
・乱数表(ランダムサンプリングを実施するとき)
・ルーレットの出る目

\[
μ=\frac{1}{n}・\sum_{i=1}^n S_i\\
σ^2=\frac{1}{n}・\sum_{i=1}^n (S_i-μ)^2\\
\]

連続型一様分布

連続型一様分布の具体例

・バス発車後、0~10分の間に乗客がバス停に来る分布
U(0,10)と表記する。
・金物のコーディング膜の厚さ
U(25,30)

\[
μ=\frac{a+b}{2}\\
σ^2=\frac{(a+b)^2}{12}\\
\]

3-5.幾何分布

幾何分布

幾何分布とは?

ベルヌーイ試行を、初めて成功するまで繰り返したときの試行回数Xの確率分布

幾何分布は、離散型確率分布の一種で、たとえば、サイコロの6が出るまで繰り返した場合の確率を求めるときなどに使う。

幾何分布の基本公式(1)

(1) 初めて成功する回数をxとし、初めて成功する確率\((X=x)\)

\[
P(X=x)=f(x)=p(1-p)^{x-1}\\
(x=1,2,3・・・)\\
\]

(2) 幾何分布の具体例

サイコロを振って6が出る確率は、\(\frac{1}{6}\)で、1回目と6回目で6が出る確率は、

\[
P(X=x)=f(x)=\frac{1}{6}・(1-\frac{1}{6})^{1-1}\\
=0.167\\
P(X=x)=f(x)=\frac{1}{6}・(1-\frac{1}{6})^{6-1}\\
=\frac{1}{6}・(\frac{5}{6})^5\\
=0.067
\]

幾何分布の基本公式(2)

平均(期待値)と分散

\[
E[X]=\frac{1}{p}\\
V[X]=\frac{1-p}{p^2}\\
\]

サイコロで6が出るまでに振る回数の期待値は?

\[
E[X]=\frac{1}{\frac{1}{6}}=6\\
\]

3-4.ポアソン分布

ポアソン分布

ポアソン分布(離散型確率分布)とは?

まれに起こる現象に対する確率モデル。平均\(λ\)が一定数以上なら、正規分布に近似できると考えられる。

ポアソン分布の具体例

・交通事故の発生件数
・受付にくる顧客数
・一定期間内にかかってくる電話の回数
・料金所を通過するバイクの台数
・1日平均2件の契約を達成する会社が、明日3件の契約を成立できる確率
・30分に2人から電話がくる会社で、1時間に6人から電話がくる確率

ポアソン分布の確率関数

$$np=λ$$
$$f(x)=e^{-λ}・\frac{λ^x}{x!}$$
※eは自然対数:約2.71828
ポアソン分布の平均 \(λ\)
ポアソン分布の分散 \(λ\)

ポアソン分布 問題

1日の平均契約数が2件である住宅販売会社で、明日、3件の契約が成立する確率

$$P(x,λ)=2.71828^{-2}・\frac{2^3}{3!}=0.180$$

2016年 J1 全試合得点数

サッカーでは1試合当たりの得点数は多くならない(まれに起こる現象)なので、ポアソン分布に近似する(先行研究で証明されているそうです)

2016年のJ1全試合数306試合の総得点を集計し、まとめました。

<1試合当たりの得点数と確率>

<実際の確率(ヒストグラム)とポアソン分布(折れ線)>

出典:Jリーグデータサイト

参考:静岡産業大学(サッカーの得点と統計的研究(その2、J1リーグデータによる計算実験))

3-3.二項分布

二項分布

二項分布とは?

二項分布は離散型確率分布の一つである。結果が2択で、成功か失敗かのどちらかとなるもの。コインの表が成功、裏が失敗、サイコロで3の倍数が成功、それ以外は失敗と、結果が2択であればよい。\(n\)回試行し、成功する確率を\(p\)で表す。この試行をベルヌーイ試行(実験)という。

二項分布の具体例

・ある商品の不良品率が10%のとき、ランダムに選んだ10個の商品の中に、不良品が多くても1個しか含まれない確率
・選択肢が5つある問題が全部で10問ある。全く勉強していない生徒がたまたま5問以上正解する確率
・ある政策に対する支持率が5%である場合、ランダムに20人の国民が選ばれる。この政策を支持する国民が4人以上いる確率

二項分布の基本公式

$$P(X=k) = {}_n \mathrm{C} _k P^k (1-P)^{n-k}$$
$$X~B(N,P)$$

確率変数Xの期待値(平均)と分散

$$E[X]=np$$
$$V[X]=npq=np(1-p)$$

二項分布で必要な数学の知識

$${}_n \mathrm{C}_r = \frac{n!}{r!(n-r)!}$$
$${}_n \mathrm{P}_r = \frac{n!}{(n-r)!}$$