正規分布 normal distribution - 数理的思考 - 中川雅央 【知と情報の科学】

LEVEL I

■ 正規分布 (normal distribution)


1. 確率的な現象と正規分布

 データをいくつかの階級に分けて度数分布表やヒストグラムを作成したとき,中心付近の度数が最も高くなり,そこから左右に同程度で度数が少なくなっていく形になることは多いと思います.測定誤差や社会現象あるいは自然現象の中に現れるバラツキは正規分布 (normal distribution) に従うと見なせるものが多く,統計学の理論上も応用上も非常に重要で実用性の高い分布です.
 正規分布は,自然現象や社会現象において広くあてはまる確率分布です. 19世紀にガウス (Carl Friedrich Gauss 1777〜1855) が観測誤差の研究から導いたことが有名であることからガウス分布 (Gaussian distribution) と呼ばれることもありますが,それ以前にも各分野の研究者によってこの確率分布が導出されており,また誤差の分布として基本的な性質を備えているために最も多くの確率事象に適用される分布であることから,normal (一般的:正規)な分布と呼ぶようになりました.

Figure 1 (a)

2. 正規分布の形

 正規分布は N ( μ , σ 2 ) と表記します.これはカッコ内の2つの値, 平均 μ と 分散 σ 2 が決まれば正規分布が一意に定まることを意味しており,この平均 μ と 分散 σ 2 を母数(parameters)といいます.
 正規分布は平均 μ を中心として左右対称になった西洋の釣鐘と似た形状の曲線(ベルカーブ)の分布形を描きます.
 平均 μ は分布形の中心的位置を表しているので,平均の違いは位置の違いとして表れます.また,分散 σ 2 (標準偏差 σ )については,その値が大きくなるほど釣鐘型の曲線が横に伸びて裾野が広がる形になりますが,これは形が横に伸びただけで,正規分布の曲線の本質的な形状は,相対的に一定で決まった形をしています.
Figure 1 (b)  連続型の確率変数 X が正規分布 N ( μ , σ 2 ) に従うとき,その確率密度関数 f ( x ) は
function
となります.確率変数 X - ∞ < x < + ∞ の範囲の実数をとります.この f ( x ) は x = μ のときが最大値であり, x = μ ± σ の点が変曲点となっています.

3. 標準化変換で基準をつくる

 正規分布に限らず,どのような分布であっても,平均 μ は確率変数 X の分布における位置を示す指標であり,標準偏差 σ は分布における確率変数 X のバラつきの尺度となります. Figure 2 さまざまな分布が持っているこの平均と標準偏差の違いを,何らかの標準的な形に変換することができれば,さまざまな分布の姿を一定の基準で比較・検証することも可能となります.
 そこで,位置の基準である平均を 0 ,尺度である標準偏差を 1 に変換することを考えます.確率変数 X を次式で変換すると,変換された確率変数 Z は,平均が 0 ,標準偏差が 1 の分布になります.
standardizing
この変換を標準化変換(standardizing) といい,1次式での変換(線形変換)となっていますので,その相対的な値(比率)は変化しません.この標準化変換された z は,標準化得点,z 得点 (z score) または z 値などと呼ばれます.

4. 基準となる標準正規分布

Figure 3  平均 μ ,標準偏差 σ の正規分布 N ( μ , σ 2 ) に従う確率変数 X を標準化変換した確率変数 Z は,平均が 0 ,標準偏差が 1 の正規分布 N (0, 1) に従うことになります.この N (0, 1) を特に標準正規分布 (standard normal distribution) といいます.
 標準正規分布 N (0, 1) は, z = 0 の点を中心(平均)とした形です.したがって, z = 0 で確率は半々ですから P = 50% となります.確率変数 X のある値 x を標準化変換した z の意味は,元の一般的な正規分布の値 x が,平均 μ から標準偏差 σ z 倍だけ離れているということを示しています. 標準正規分布 N (0, 1) に従う確率変数 Z の確率密度関数をN(0,1) PDF ,累積分布関数(下側確率)をN(0,1) CDF と表すと次のような比較的簡単な式になります.
standard normal distribution
確率密度関数について,負の無限大から z までの範囲を積分計算したもの(面積)が累積分布関数(下側確率)です(図を参照).この標準正規分布の累積分布関数には,正規分布の性質から次のような特徴があります.
CDF (standard normal distribution)
累積分布関数の積分は解析的に計算できないので,コンピュータ等を用いて求めることになります.計算されたものを数表としてまとめた 正規分布表 があります.また,主な表計算ソフトには標準正規分布に関する関数 (NORM.S.DIST, NORM.S.INV, ...) が用意されています.
Figure 4  この標準化変換によって,あらゆる正規分布は N (0, 1) の標準正規分布に帰着します.したがって,正規分布の計算は,標準化変換で z を求めて標準正規分布にて計算し,必要に応じて元の正規分布の変数 x に戻せばよいのです.

5. 標準偏差で全体像がわかる

 データを分析する上でとても有用な観点があります.それは,どのようなデータでも,分布の形が対称で単峰と見なせる場合には,近似的に正規分布とすることで「平均を中心」に「標準偏差を尺度」として見れば,大まかですがデータの全体像がわかるということです.
Table 1  正規分布 N ( μ, σ²) において,平均 μ を中心に標準偏差 σ がプラスマイナス何個分の区間だと何パーセントの割合であるのかをまとめると右表のようになります.表中の数値をイメージできれば,標準偏差から全体像をつかみやすくなります.

6. 正規分布の理論的な位置づけ

 正規分布に従わないどのような分布であっても,その標本平均の分布は標本が大きくなれば正規分布で近似できる性質(中心極限定理)があります. また二項分布など確率分布の中にはその極限値が正規分布に近づくものも少なくありません(→確率シミュレーション. 一方,推定や検定に用いられる主要な確率分布(標準正規分布t分布カイ二乗分布F分布など)は正規分布を理論基盤としています.このように正規分布は推測統計の基礎となる最も重要な確率分布です.


[ 正規分布 (normal distribution) | 正規分布表 | 正規分布表(高精度版) | 正規分布表(パーセント点) ]
[ 基本統計量 | 度数分布表 と ヒストグラム | 正規分布の計算ツール | 正規確率紙 | 工程能力指数 Cp Cpk 計算ツール ]
[ 確率・統計 | さまざまな確率分布 | 教材・資料(情報教育用) | 情報科学・システム工学(中川雅央) HOME ]