2-6.変数の分類

変数の分類

記述統計と推測統計

統計学は大きく分けて2つある。記述統計と推測統計である。

記述統計

「推測」統計ではない方なので、データは与えられている。表やグラフなどで集団の特徴を分かりやすくまとめる。

推測統計

実験や調査などで得た標本から母集団の様子をうかがう。

変数の分類

尺度

・名義尺度
・順序尺度
・間隔尺度
・比例尺度

質的変数と量的変数

・質的変数:名義尺度、順序尺度
・量的変数:間隔尺度、比例尺度
※量的変数は、連続変数と離散変数に分類することもある。
※棒グラフは質的変数で利用(高さを比較)し、ヒストグラムは量的変数で利用(面積を比較)する。

2-5.相関係数

相関係数

共分散

2変数の関係を測るために、相関係数を求めますが、相関係数を求めるためには共分散が必要となります。

共分散

xとyの共分散

\begin{align*}
s_{xy} &=\frac{1}{n}・\sum_{i=1}^n (x_i – \overline{x})(y_i – \overline{y})\\[5pt]
&=\overline{xy} – \overline{x}・\overline{y}\\[5pt]
\end{align*}

相関係数

相関係数は\(-1≦r≦1\)の値を取り、相関係数が\(1\)に近いほど強い相関関係にあり、右上がりの直線で表現されます。注意点として、強い相関が見られたとしても、第3の変数による影響である可能性もりますので、次に紹介する偏相関係数で確認する必要があります。

母集団の相関係数

相関係数

$$ρ = \frac{cov(X,Y)}{σ_X・σ_Y}$$

標本の相関係数

相関係数
\begin{align*}
r &=\frac{cov(x,y)}{σ_x・σ_y}\\[5pt]
&=\frac{\overline{xy} – \overline{x}・\overline{y}}{\sqrt{\overline{x^2} – \overline{x}^2}・\sqrt{\overline{y^2} – \overline{y}^2}}\\[5pt]
\end{align*}

回帰直線

回帰直線

\begin{align*}
y = \frac{Cov[X,Y]}{S_x^2}(x – \overline{x}) + \overline{y}
\end{align*}

偏相関係数

第3の変数\(x\)の影響を取り除く

偏相関係数

\begin{align*}
r(yz・x)\\[5pt]
&=\frac{r_{yz}-r_{xy}・r_{xz}}{\sqrt{1-r^2_{xy}}\sqrt{1-r^2_{xz}}}\\[5pt]
\end{align*}

動画で学ぶ

総務省統計局

第3章 データの分布と相関-第4回:相関図、相関係数

hepokikiさん

統計学「相関係数」Pearson Product moment Correlation Coefficient 1

統計学「相関係数」Pearson Product moment Correlation Coefficient 2

統計学「共分散」Covariance

2-4.変動係数

変動係数
(Coefficient of Variation)

単位やサイズの異なるデータ同士の比較において、標準偏差は役に立たない。サイズが大きいほど標準偏差は大きくなるため、平均で割って標準化する。もともと生物の大きさの変動を測るために使われたもの。

変数係数の使用例

・満点の異なる試験での得点分布の比較
・物価が異なる年代での所得格差の比較
・分散投資の考え方にも対応

変動係数

$$CV = \frac{s}{\overline{x}}$$

動画で学ぶ

青山大学の解説

2016年度「社会統計」第3回:統計入門の落ち穂拾い(6)変動係数

hepokikiさんの解説

統計学「変動係数」Coefficient of Variation

統計学「変動係数の理解」Understanding Coefficient of Variation

2-3.大学センター入試

大学センター入試

偏差値

得点を標準化し、10をかけて50を足す

$$z=\frac{\overline{x}-μ}{σ}$$

標準偏差と分散

 大学センター試験では、100点満点と200点満点の試験がある。200点満点の平均や標準偏差を1/2すれば、100点満点の教科と比較できる。

散布図

 受験者の国語と英語の得点を散布図にすると、数値要約ではわからないことに気づくことがある。特に合格者のみに絞ると相関が弱くなる可能性がある。これを「切断効果」という。

2-2.平均・分散・標準偏差

平均・分散・標準偏差

平均

※\(x\)(測定値or階級値)、\(f\)(度数)
※\(p\)(相対度数)、\(p_n=\frac{f_n}{n}\)

全てのデータあり
\begin{align*}
\overline{X}=\frac{1}{N}\sum_{i=1}^n x_i
\end{align*}
測定値・度数・相対度数あり(個々のデータなし)
\begin{align*}
\overline{X} = \frac{1}{N} (x_1×f_1+x_1×f_2+・・・x_m×f_m)\\
=\frac{1}{N} \sum_{i=1}^m f_ix_i=\sum_{i=1}^m(\frac{f_i}{N})x_i=\sum_{i=1}^m p_ix_i
\end{align*}
階級・階級値・度数・相対度数あり(個々のデータ・測定値なし)
\begin{align*}
\overline{X} = \frac{1}{N} (x_1×f_1+x_1×f_2+・・・x_m×f_m)\\
=\frac{1}{N} \sum_{i=1}^m f_ix_i=\sum_{i=1}^m(\frac{f_i}{N})x_i=\sum_{i=1}^m p_ix_i
\end{align*}

※近似値を求めるしかない。

確率変数Xの平均
\begin{align*}
E[X]=\sum_{i} p_ix_i\\
\end{align*}

\(x\)は実現値、\(p\)は実現値に対する確率を示す。
また\(E[X]\)は期待値ともよぶ。

確率変数Xの関数の平均
\begin{align*}
E[X^2]=\sum_{i} p_ix^2_i\\
※ φ(x)=x^2、φ(x_i)=x^2_i\\
E[φ(X)]=\sum_{i} p_iφ(x_i)・・・公式A\\
\end{align*}

分散

2乗しないと
\begin{align*}
a=\frac{1}{N}\sum_{i=1}^n(x_i-\overline{x})=\frac{1}{N}\sum_{i=1}^n x_i – \frac{1}{N}\sum_{i=1}^n \overline{x}\\
=\overline{x} – \overline{x} = 0\\

\sum_{i=1}^n \overline{x} = n\overline{x}
\end{align*}

※結果が必ず0になってしまうため、使用できない。

全てのデータあり
\begin{align*} s^2 &= \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 \\[5pt] &= \frac{1}{n}\sum_{i=1}^n({x_i}^2-2x_i\overline{x} +\overline{x}^2) \\[5pt] &= \frac{1}{n}\sum_{i=1}^n{x_i}^2-2\overline{x}\underbrace{\frac{1}{n}\sum_{i=1}^nx_i}_{=\overline{x}}+\frac{1}{n}\cdot n\overline{x}^2 \\[5pt] &= \frac{1}{n}\sum_{i=1}^n{x_i}^2-2\overline{x}^2+\overline{x}^2 \\[5pt] &= \frac{1}{n}\sum_{i=1}^n{x_i}^2-\overline{x}^2 \end{align*}

数列の和の公式

\begin{align*}
\sum_{i=1}^{n} a = na
\end{align*}

(2) 測定値・度数・相対度数あり(個々のデータなし)

階級・階級値・度数・相対度数あり(個々のデータ・測定値なし)
\begin{align*}
& V_x=\frac{1}{N} \sum_{i=1}^n f_i (x_i-\overline{x})^2\\
& =\sum_{i=1}^n p_i (x_i-\overline{x})^2\\
\end{align*}
確率変数Xの分散
\begin{align*}
& V_x=\sum_{i} p_i (x_i-\overline{x})^2\\
\end{align*}
において、Nを∞に近づけると、
\(p_i\)は実測値\(x_i\)に対する確率に近づく。
\begin{align*}
& \overline{x}はE[X]=μに近づく\\
& V[X]=\sum_{i} p_i (x_i-μ)^2\\
& =E[(X-μ)^2]=σ^2\\
\end{align*}
確率変数Xの関数の平均 【公式A】より
\begin{align*}
& V[X]=E[X^2]-(E[X])^2 = E[X^2]-μ^2\\
\end{align*}
※証明
\begin{align*}
& V[X]=\sum_{i} p_i (x_i-μ)^2\\
& =\sum_{i} p_i (x^2_i-2μx_i+μ^2)\\
& =\sum_{i} p_i x^2_i-2μ\sum_{i} p_i x_i + μ^2\sum_{i} p_i)\\
& =E[X^2]-2μ^2+μ^2\\
& =E[X^2]-μ^2
\end{align*}
確率変数の関数の分散
\begin{align*}
& V[aX+b]=a^2V[X]
\end{align*}

標準偏差

標準偏差
\begin{align*}
& S_x=\sqrt{V_x}=\sqrt{\frac{1}{N} \sum_{i=1}^n(x_i-\overline{x})^2}
\end{align*}

2-1.データの整理

データの整理

階級値の個数

階級値の個数はどのくらいがいいか、目安となる公式がある。

スタージェスの公式
\begin{align*}
&N = 1 + \log_2 n
\end{align*}

※\(n\):データ全体の個数、\(N\):階級の個数

階級値の平均

階級値の平均はすべてのデータを平均した値に比べ誤差がでる。

階級値平均の誤差
\begin{align*}
&\frac{d}{2}以下
\end{align*}

※\(d\):階級の幅