母集団推定

\[
母集団:N、標本:n、母集団総計:\hat{T}_y、標本平均:\hat{y}
\]
\[
母集団総計の推定量\\
\hat{T}_y=N・\hat{y} = N・\frac{1}{n}\sum_{i=1} y_i\\
乗率(抽出ウェイト)\\
f_y=\sum_{i=1} \frac{N}{n}・標本iの値\\
\]
\[
母集団平均の推定\\
\hat{μ}_y=\frac{\hat{T}_y}{N}\\
自己加重標本:\hat{y}=\hat{μ}_y
※単純無作為抽出された標本も自己加重標本の一つ。
\]
母集団割合の推定
標本割合が母集団割合の推定量となる

確率密度関数

正規分布の確率密度関数

\[
f(x)=\frac{1}{\sqrt{2π}σ}e^-{\frac{(x-μ)^2}{2σ^2}}
\]
※e:自然対数(ネイピア数、2.71828・・・)

確率密度関数の性質

※N:標本数(ヒストグラムの横軸)
※fi:測定値(ヒストグラムの縦軸)
※S:ヒストグラムの面積
※Δx:ヒストグラムの階級値の横幅
\[
N=\sum_{i}fi\\
S=\sum_{i}fi・Δx\\
=Δx・N\\
\]
ヒストグラムでは1つの範囲は全体の割合になる(全体が1なので)。
それぞれの階級値(ヒストグラムの高さ)を全体数で割ると、面積はS=1となる。
\[
fi’ = \frac{fi}{S}
\]
Nを∞、Δxを0とすると、確率となる。
ヒストグラムは曲線になる。f(x)を確率密度関数(pdf)という。
\[
\int_{-∞}^∞ f(x) dx = 1 \\
\]
\[
f(x)≧0\\
\]
\[
P(a≦X≦b)
= \int_a^b f(x) dx = 1\\
\]
※確率は面積となる。

連続型確率変数の平均(期待値)と分散

連続型確率変数の平均(期待値)

※xi(階級値)、S=NΔx、$$fx’=\frac{fi}{S}$$、Δx(刻み幅)
※刻み幅を極限まで狭くする
\[
\overline{x} = \frac{1}{N}\sum_{i}fixi = \frac{1}{NΔx}(\sum_{i}fixiΔx)\\
=\sum_{i}\frac{fi}{S}xiΔx \\
=\sum_{i}fi’xiΔx\\
\]
N ⇒ ∞、Δx ⇒ 0

\[
E[X] = \int_{-∞}^∞ xf(x) dx ・・・連続型確率変数の定義
\]

連続型確率変数の分散

\[
Vx\\
=\frac{1}{N}\sum_{i}(xi-\overline{x})^2fi\\
=\frac{1}{NΔx}\sum_{i}(xi-\overline{x})^2fiΔx\\
=\sum_{i}(xi-\overline{x})^2(\frac{fi}{S})Δx\\
=\sum_{i}(xi-\overline{x})^2fi’Δx
\]
\[
V[X]=\int_{-∞}^∞ (x-E[X])^2f(x)dx\\
・・・連続型確率変数の分散の定義\\
\]
\[
V[X]=E[X^2]-(E[X])^2=E[X^2]-μ^2\\
・・・連続型確率変数の分散の公式\\
※E[X]=μ
\]

統計学の基礎知識

統計学で使われる算式

※μ(平均)、χ(各データ値)、n(個数)、χ-μ(偏差)、S.E.(標準誤差)、S.D.(標準偏差)
$$平均(μ)=\frac{Σx}{n}$$
$$分散(σ^2)=\frac{Σ(X-μ)^2}{n}$$
$$標準偏差(σ)=\sqrt{σ^2}$$
$$μ \pm σ=0.6827$$
$$μ \pm 2σ=0.9545$$
$$μ \pm 3σ=0.9973$$
$$標準誤差=\frac{標準偏差}{\sqrt{n}}$$
$$標準誤差率=\frac{標準誤差}{推計値} \times 100$$
$$推定値の95%信頼区間=標本平均 \pm 標準誤差 \times 1.96$$
$$階級値 \times 相対度数の合計 = 平均値$$
\[
\int_{-∞}^∞ f(x) dx = 1
\]

統計分析で使用する算式(確率変数)

統計WEB※「確率変数とは」
「ある変数の値をとる確率が存在する変数のこと」

データの個数(N)を∞とすると、相対度数(pi)は実現値(xi)に対する確率に近づき、
\[
\overline{x}はE[X]=μに近づく
\]

\[
V[X]=\sum_{i} pi(xi – μ)^2 = E[(X-μ)^2]=σ^2
\]
〇標準偏差
\[
σ=\sqrt{V[X]}
\]
※ここでのpiは実現値に対する確率

\[
V[X]=E[X^2] – (E[X])^2 = E[X^2] – μ^2 = σ^2\\
E[X^2] = σ^2 + μ^2
\]

〇平均
\[
E[aX+b]=aE[X]+b
\]
〇分散
\[
V[aX+b]=a^2V[X]
\]
※定数bは、分散の上では無関係(x軸がズレるだけ)
〇確率変数の標準化
\[
E[X]=0,V[X]=1\\
Z=\frac{x-μ}{σ}
\]

〇二項分布(離散型確率分布)
※さいころを振って、5回中3の倍数がでる確率
\begin{eqnarray*}
P(X=k) = {}_5 \mathrm{C} _k (\frac{1}{3})^k (\frac{2}{3})^{5-k}\\
\end{eqnarray*}
ベルヌイ試行
結果は2択(成功or失敗)
成功確率p、失敗確率q=p-1
\begin{eqnarray*}
P(X=k) = {}_n \mathrm{C} _k p^kq^{n-k}\\
={}_n \mathrm{C} _k p^k (1-p)^{n-k}\\
\end{eqnarray*}
この時Xは二項分布B(n,p)に従う
X~B(n,p)
 二項分布に従う確率変数うの平均(E)と分散(V)
 E[X] = np
V[X] = npq = np(1-q)

疑問点

・確率変数は、実際のデータ値の確率に基づく数ではなく、データ値を∞とした場合の確率に基づく変数か?

数学の基本

〇階乗(1からnまでの連続する整数の積)
\[
n!=n(n-1)(n-2)・・・\\
0!=1
\]
※1~3までの数字が書かれたカードを並べて3桁の数字を作るとき、百の位は3通り、十の位は2通り、一の位は1通りある。3×2×1=6通り=3!
〇順列(n個からr個を取り出して1列に並べる)
※1~9までの数字が書かれたカードを3枚取り出して1列に並べる。
\begin{eqnarray*}
&& {}_n \mathrm{P} _r\\
= n✕(n-1)✕(n-2)✕・・・✕(n-r+1)\\
= \frac{n!}{(n-r)^!}
\end{eqnarray*}
〇組み合わせ(n個からr個を取り出す)
\begin{eqnarray*}
{}_n \mathrm{C} _r\\
= \frac{ {}_n \mathrm{P} _r}{r!}\\
= \frac{n!}{(n-r)^!r!}\\
\end{eqnarray*}
〇指数
正の有理数 $$\frac{m}{n}$$のとき
$$a^{\frac{m}{n}} = n\sqrt{a^m}$$
負の有理数-rのとき
$$a^{-r} = \frac{1}{a^r}$$

統計学の基礎用語

  • KGI:改善すべき重要目標達成指標
  • KPI:中間指標、Key Performance Indicator
  • Evidence Based Policy:実証的な根拠に基づいた政策
  • 平均の種類:算術平均、幾何平均(成長率などに使用)、調和平均
  • 尺度:名義尺度、順序尺度、間隔尺度、比例尺度
  • カイ二乗検定:仮説を立て、カイ二乗分布表と比べ、範囲外なら「棄却する」
  • 95%信頼区間:無作為標本抽出を繰り返せば、100に95の割合で、95%信頼区間が、母平均を含む(含んでいるか否か)。※母平均は定数(確率的に変動しない)
  • 1変数の状況把握:名義尺度(代表値は最頻値など)は棒グラフ、比例尺度(代表値は平均値や標準偏差など)はヒストグラムなど
  • 多変量解析法:重回帰分析、数量化1類、数量化2類、数量化3類、判別分析、主成分分析、多次元尺度構成法、クラスター分析
  • クロス集計の軸設定(変数の種類):デモグラフィック変数、地理的変数、心理的変数、行動変数など
  • パラメトリック検定:正規分布と仮定。間隔尺度、比例尺度。平均値、分散
  • ノンパラメトリック検定:母集団分布が不明な場合。代表値、散布度。

参考サイト