情報学部 菅沼ホーム SE目次 索引

確率と統計

    1. 1.順列・組合せ
      1. 1.1 順列・組合せ
      2. 1.2 二項定理
      3. 1.3 順列・組合せの応用
    2. 2.確率
      1. 2.1 事象
      2. 2.2 確率の定義
      3. 2.3 確率の計算例
    3. 3.確率変数
      1. 3.1 確率変数
      2. 3.2 平均と分散
      3. 3.3 確率分布
        1. 3.3.1 離散型分布
          1. 二項分布
          2. ポアソン分布
        2. 3.3.2 連続型分布
          1. 一様分布
          2. 指数分布
          3. 正規分布(ガウス分布)
          4. 自由度 n の χ2 分布
          5. 自由度 n の t 分布
          6. 自由度 n1,n2 の F 分布
        3. 3.3.3 多変量確率分布
          1. 同時確率分布
          2. 確率変数の独立性
    4. 4.統計
      1. 4.0 データの整理
      2. 4.1 統計的推定
        1. 4.1.1 標本と母集団
        2. 4.1.2 中心極限定理
        3. 4.1.3 区間推定法
          1. 母平均の区間推定(母分散 σ2 が既知の場合)
          2. 母平均の区間推定(母分散 σ2 が未知の場合)
          3. 母分散の区間推定
      3. 4.2 統計的検定
        1. 4.2.1 仮説検定
        2. 4.2.2 平均値の検定
        3. 4.2.3 母平均の差の検定
        4. 4.2.4 母分散及び等分散性の検定

1.順列・組合せ

1.1 順列・組合せ

[定義] 有限個の対象から幾つかを取り出しそれを順に並べたものを順列という.一方,取り出した順序を問題にしないで,それらの組合せだけに注目するとき,その組を組合せという.

例 1.1: 例えば,3 個の数字 {1, 2, 3} から,2 個の数字を取り出した順列は,

(1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2)

の 6 種類あります.しかし,組み合わせは,順序を問題にしませんので,

(1, 2), (1, 3), (2, 3)

の 3 種類になります.

  相異なる n 個のものから r 個をとる順列の総数は以下のようにして考えます.まず,最初は,n 個の中から 1 つ選択します.次に,残りの ( n - 1 ) 個から 1 つ選択します.この手続きを r 個選択するまで繰り返すことになりますので,その総数は,

n × ( n - 1 ) × ・・・ × ( n - r + 1 )

となります.

[定理 1.1] 相異なる n 個のものから r 個をとる順列の総数は,

である.

  組合せに関しては,順列を元にして考えます.相異なる n 個のものから r 個をとる順列の総数は上のようになりますが,組合せとしては同じものが含まれています.同じ組合せのものは,r 個の順列の数だけ含まれていますので,組合せの数は,nPrrPr = r! で割ってやればよいことになります.

[定理 1.2] n 個のものから r 個を取り出す組合せの数は,

である.

  例 1.1 の場合に対して,上記の定理を使用して順列及び組み合わせの数を計算すれば,6 及び 3 になることは明らかだと思います.順列や組み合わせは,様々な分野で使用されます.場合によっては,順列や組み合わせのすべての場合について調べたいようなことも起こります.しかし,順列や組み合わせの数の計算には階乗が使用されています.そのため,n の値が大きくなると,その数は膨大なものになり,すべての場合について調べることは不可能になることも少なくありません.参考のため,その数の比較を以下に挙げておきます.
n n2 n3 n4 n5 n!
1 1 1 1 1 1
5 25 125 625 3126 120
10 100 1000 10000 100000 3628800
20 400 8000 160000 3200000 2.43 × 1018
50 2500 125000 6250000 312500000 3.04 × 1064
  以下,特別な場合に対する,順列や組み合わせの数を計算するための定理をあげておきます.

  n 個の中の p 個が同じものであれば,nPn の中には,p 個の並べ方( p! )だけ同じ順列が含まれています.このことを考慮すれば,以下の定理は明らかだと思います.

[定理 1.3] n 個の内で,p 個は同じもの,q 個は他の同じもの,・・・,s 個がまた他の同じものであるとき,これらの n 個を並べる順列の数は,

である.

  例えば,A,B,C,D からなる 4 個を円形に並べた場合,A が上に来ても,右に来ても,下に来ても,又,左に来ても,他の 3 つの並び方が同じであれば,同じ順列とみなされます.しかし,それらを上,右,下,左の順で直線上に並べた場合は,異なる順列となります.従って,以下の定理が成立します.

[定理 1.4] 相異なる n 個のものを円形に並べる順列(円順列)の数は,

n-1Pn-1 = (n - 1)!

である.

  以下の定理は,順列の定義から明らかだと思います.

[定理 1.5] n 個のものから重複を許して r 個とる順列(重複順列)の数は,

nΠr = nr

である.

  例えば,A,B,C の 3 ( n ) 個の中から,重複を許して 5 ( r ) 個とる組合せについて考えてみます.この場合,例えば,以下に示すような選び方が考えられます.
一般的にいえば,右に示すような 7 ( = n + r - 1 ) 個の ● の内,どれか 2 ( = n - 1 ) つを縦棒にする(残りは ○)ことによって一つの選び方が決まります.結局,7C2 が縦棒の位置の選び方,つまり,組合せの数になります.

[定理 1.6] n 個の中から,重複を許して r 個とる組合せの数は,

nHr = n+r-1Cn-1 = n+r-1Cr

である( r < n とは限らない)

  なお,組み合わせに関しては,以下に示す定理が成立します.

[定理 1.7] 組合せの数 nCr に関しては,次の式が成り立つ

  1. (1) nCr = nCn-r

  2. (2) nCr = n-1Cr + n-1Cr-1   (パスカルの公式

1.2 二項定理

  ( a + b )n において,b の一次の項は,n 個の ( a + b ) の中の一つだけは b を選択し,他は a を選択した場合の積となります.b を選択する ( a + b ) の選び方としては n ( = nC1 ) 通りありますので,その係数は n となります.同様にして,他の項の係数も計算できますので,以下の定理が成立します.

[定理 1.8] 二項定理

  nCr のことを二項係数と呼び,
のようにも記述します.nCrの計算には,定理1.7 の b を利用したパスカルの三角形が便利です.
例1.2: (x + 2)10における x3の係数

10C327 = 120 x 128 = 15360

  下の定理は,二項定理の拡張です.

[定理 1.9] 多項定理

ただし,p1, p2, ・・・, ps は 0 または正の整数であり,Σ は p1 + p2 + ・・・ + ps = n となるすべての整数値 p1, p2, ・・・, ps についての和を表す.

  ここで,
多項係数と呼び,以下のようにも記述されます.
1.3 順列・組合せの応用

例1.3: 女 3 人,男 2 人を 1 列に並べるとき,女が 3 人隣り合うような並べ方は何通りありますか.

女 3 人を 1 かたまりとして考える.女のかたまりと男 2 人で順序を考えると,
  3P3 = 6
女 3 人も順序が変わるので,
  3P3 = 6
したがって,
  6×6 = 36

例1.4: 男 3 人、女 4 人を 1 列に並べるとき,男どうしが隣り合わない並び方は何通りありますか.

  ○女○女○女○女○

のように並び,○の中の 3 カ所に男を配置すればよい.まず,女の並び方は
  4P4 = 24
男は,○の中から 3 カ所を選び,その並び方を数えればよいから,
  5P3 = 60
従って,答えは,
  24 × 60 = 1440

例1.5: 0 ~ 9 まで書いたカードが 1 枚ずつあります.このとき,以下の問に答えなさい.

(1)3 枚取り出して 3 桁の数を作るとき,何通りできますか.
最初の数字の選び方×残り2つの数字を選び並べる方法
  9 × 9P2 = 648 通り

(2)3 枚取り出して 3 桁の偶数を作るとき,何通りできますか.
1の位が 0 のとき: 9P2 = 72
1の位が 2,4,6,8 のとき:各々,0 以外からの最初の数字の選び方 * 残りのカードから 2 番目の数字の選び方 = 8 * 8 = 64
  よって,72 + 64 * 4 = 328 通り

例1.6: 男 4 人,女 2 人がいるとき,以下の問に答えなさい.

(1)両端に女が座るように横 1 列に並ぶ座り方は何通りありますか.
女 2 人の座り方:2, 残り 4 人の座り方:4P4 = 24, 従って 2 * 24 = 48 通り

(2)両端に男子が座るように横 1 列に並ぶ座り方は何通りありますか.
両端の男 2 人の座り方:4P2 = 12, 残り 4 人の座り方:4P4 = 24, 従って 12 * 24 = 288 通り

(3)6 人が円卓に着く場合,座席の座り方は何通りありますか.
円順列であるので,6-1P6-1 = 120 通り

(4)6 人が円卓に着く場合,円卓上で女 2 人が隣合わないような座席の座り方は何通りありますか.
女が隣り合う場合を考える(この値を全体の数から引く)
女 2 人の座り方:2, 女 2 人を 1 人と考えた 5 人の座り方:4P4 = 24
  従って 120 - 2 * 24 = 72 通り

例1.7: 袋の中にある色の違う 8 つの玉から 2 つだけ取り出す方法は,何通りありますか.

8C2 = 8・7 / 2・1 = 28

例1.8: 青い玉が 6 個,透明の玉が 2 個,赤い玉が 1 個あります.これらを 1 列に並べるとき,何通りの組み合わせができますか.

9 カ所から 6 カ所の選び方 * 3 カ所から 2 カ所の選び方 = 9C3 * 3C2 = 84 * 3 = 252 通り

例1.9: 5 円,10 円,50 円,及び,100 円の 4 種類の硬貨が 2 枚ずつあるとき,以下の問に答えなさい.

(1)この硬貨を 2 枚使ってできる異なる金額になる組み合わせは何通りですか.
異なる硬貨を 2 枚選ぶ方法 4C2 = 6 通り
同じ硬貨を 2 枚選ぶ方法 4 通り
  よって,6 + 4 = 10 通り

(2)種類の異なる硬貨 3 枚使ってできる金額は何通りありますか.
異なる硬貨を3枚選ぶ方法 4C3 = 4 通り

例1.10: 下図のような碁盤の目に整備された道路があるとき,以下の問に答えなさい.
(1)b 点を通って a 点から d 点に行く方法は何通りですか.
a から b へ行くには,2 個の縦,及び,2 個の横を通る必要があるので,4 個の路から 2 個の水平経路を選ぶ方法に相当する
  a から b へ行く方法: 4C2 = 6
同様に
  b から d へ行く方法: 3C2 = 3
従って,b を通って a から d へ行く方法: 6 * 3 = 18 通り

(2)c 点を通らずに a 点から d 点に行く方法は何通りですか.
a から c へ行くには,2 個の縦,及び,3 個の横を通る必要があるので,5 個の路から 3 個の水平経路を選ぶ方法に相当する
  a から c へ行く方法: 5C3 = 10
同様に
  c から d へ行く方法: 2C1 = 2
以上より,c を通って a から d へ行く方法: 10 * 2 = 20 通り
制限をつけずに a から d へ行く方法は,7C4 = 35 通り
  従って,c を通らずに a から d へ行く方法: 35 - 20 = 15 通り

例1.11: 男 4 人と女 3 人の計 7 人のグループから 2 人の代表を選びたいとします.このとき,男が少なくとも 1 人は含まれるように選ぶとすると,選び方は何通りありますか.

全体か 2 人選択 - 女子から 2 人選択 = 7C2 - 3C2 = 21 - 3 = 18 通り

2.確率

2.1 事象

[定義] 一定の条件の下で繰り返し行うことができ,その結果が偶然に支配されるような実験や観測を一般に試行という.試行によって起こる可能性のあるすべての事柄の集合 Ω が確定しているとき,その集合を考えている試行の標本空間といい,その要素を標本点,または,単に標本空間のという.

[定義] 標本空間 Ω の部分集合を事象といい,試行の結果が 1 つの事象 A に属するとき,事象 A が起こったという.標本点の 1 つ 1 つを特に根元事象という.それに対して,2 個以上の点からなる事象を複合事象という.また,標本空間全体を全事象,決して起こらない事柄は φ で表され,それを空事象という.

例 2.1: 1 つのさいころを,1 回だけ投げることについて考えてみます.明らかに,この結果は偶然性に左右され,試行と考えることができます.このとき,標本空間 Ω は,「 k の目が出る」ことを k で表すと,

Ω = { 1, 2, 3, 4, 5, 6 }

となります.根元事象は,1, 2, 3, 4, 5, 及び, 6 であり,また,複合事象としては,いろいろ考えられますが,「偶数の目が出る事象 A 」という場合であれば,以下のようになります.

偶の目が出る事象 A = { 2, 4, 6 }

[定義] 以下の定義において,例 2.1 を具体的な例として説明を行う.

  1. (1) 和事象 A ∪ B : 事象 A または B が起こるという事象.例えば,事象 A を「 4 以下の目が出る」,また,事象 B を「偶数の目が出る」事象としたとき,事象「 A ∪ B 」は,{ 1, 2, 3, 4, 6 } となる.

  2. (2) 積事象 A ∩ B : 事象 A と B が同時に起こるという事象.例えば,事象 A を「 4 以下の目が出る」,また,事象 B を「偶数の目が出る」事象としたとき,事象「 A ∩ B 」は,{ 2, 4 } となる.

  3. (3) 余事象 A : 標本空間 Ω の中で,事象 A が起こらないという事象.例えば,事象 A を「 4 以下の目が出る」事象としたとき,余事象は,{ 5, 6 } となる.

  4. (4) 排反事象 事象 A と B が同時に起こることがない時,記号的には A ∩ B = φ である時,事象 A と B は互いに排反である,または,排反事象であるという.例えば,事象 A を「奇数の目が出る」,また,事象 B を「偶数の目が出る」事象としたとき,これらの事象は排反である.

2.2 確率の定義

[定義] 有限な標本空間Ωにおいて,どの根元事象も同程度に確からしく起こるものとする.標本空間 Ω の中のある事象 A に対して,n(A),n(Ω) を標本空間 Ω 及び事象 A に含まれる根元事象の数としたとき,

P(A) = n(A) / n(Ω)

を事象 A の数学的確率確率)という.

例2.2: 例2.1 において,各目が同程度に確からしく起こるとすれば,各目が出る事象に 1/6 という数値を対応させると,上の定義から,明らかにこれは確率となります.

  上の例において,各目が出る確率を 1/6 と設定したことに違和感を感じなかったと思います.経験的に,多数回サイコロを投げれば,各目が出た回数を試行回数で割った値が,本来そのサイコロが持っている各目の出る確率に近づいていくこと,そして,その値が 1/6 であることを経験的に知っているからです.このことを保証したのが以下に述べる法則です.

[大数の法則] ある試行を N 回繰り返し行い,事象Aが起こった回数が n 回であるとき,n / N を相対度数という.試行回数 N を十分大きくするとき相対度数 n / N が,ほぼ一定値 p に近づくならば,p を事象Aの起こる統計的確率経験的確率)という.このように定義された p が,試行回数 N を大きくしていくと,事象Aの本来持っている確率(先験的確率)に限りなく近づくことが知られており,これを大数の法則という.

  以上,数学的確率と統計的確率の付いて述べましたが,確率をより数学的に扱うため,次の公理を与えておきます.数学的確率や統計的確率の考え方に矛盾しないはずです.

[定義] 標本空間 Ω の各事象 A に対して次の 3 つの条件を満たす実数 P(A) が対応させられるとき,その値 P(A) を事象 A の起こる確率という.各事象に対して確率が与えられる標本空間を確率空間といい,各事象を確率事象という.

  1. (1) 任意の事象 A に対して,0 ≦ P(A) ≦ 1

  2. (2) P(Ω) = 1, P(φ) = 0

  3. (3) 事象 A と B が互いに排反,即ち A ∩ B = φ ならば,以下の関係が成立する.

    P(A ∪ B) = P(A) + P(B)

  確率現象を表現するのに,各根元事象に対して,各事象が発生する確率を明記した以下に示すような表がよく使用されます.この表のことを,確率分布表と呼びます.

根元事象 1 2 ・・・・・ N 全事象Ω
確率 p1 p2 ・・・・・ pN   1.0

  以下,確率に関する定義や定理をいくつかあげておきます.

[定理 2.1]

  1. (1) 事象 A1,A2,・・・,Ar が排反ならば

    P(A1 ∪ A2 ∪・・・∪ Ar) = P(A1) + P(A2) + ・・・ + P(Ar)

  2. (2) 任意の 2 つの事象 A,B に対して

    P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

  3. (3) 余事象に対して

  4. (4) A ⊂ B ならば,P(A) ≦ P(B)

[定義] P(A) > 0 であるとき,事象 B に対して,

と定義し,事象 A が起こったときの事象 B の条件付確率という.

  条件付き確率に対して,次の定理が成立することは明らかだと思います.

[定理2.2](乗法法則) P(A) > 0,P(B) > 0 であるとき,以下の式が成立する.

P(A ∩ B) = P(A)P(B | A) = P(B)P(A | B)

[定理 2.3] ベイズの定理 事象 A1,A2,・・・,Ar が互いに排反であり,かつ,その内どれかの事象が必ず起こるとき,即ち,

Ai ∩ Aj = φ  ( i ≠ j )
A1 ∪ A2 ∪・・・∪ Ar = Ω

ならば,任意の事象 B に対して次の式が成り立つ.

  ベイズの定理は,事象 A1,A2,・・・,Ar が互いに排反であり,かつ,すべての原因を挙げている場合に,ある事象 B が起こったときそれがどの原因によって発生したかを示す確率 P(Ai|B) を求めるために使用されます.

  例えば,2 つの箱があり,各箱には赤い玉と白い玉が入っていたとします.箱 1 には,赤い玉が 20 個,白い玉が 80 個入っており,また,箱 2 には,赤い玉が 60 個,白い玉が 40 個入っていたとします.今,どちらかの箱から玉を 1 個取り出すものとします.また,各箱から取り出す確率を P(Ai) ( i = 1, 2 )とします.

  どちらの箱から取り出しても良いとしたとき,各箱から取り出す確率 P(Ai) (事前確率)は,いずれも 0.5 になります.今,どちらかの箱から球を取り出した結果,玉の色は白だったとします.このとき,いずれの箱から玉を取り出したかを示す確率(事後確率)は,

P(Ai | B)   B : 白い玉であるという事象

のように表現でき,取りだした球が白であったという結果によって,事前確率とは異なってきます.具体的に,箱 1 から取り出した確率は,ベイズの定理によって,以下のように計算できます.
  ベイズの定理は分かりにくいかと思いますので,あと一つ例を挙げておきます.

例 2.3: 患者がある種の症状(例えば,咳が出るなど)を訴えるとき,その 5 %が A 疾患であることが知られているとします.また,ある精密検査 B は,真の A 疾患患者に対して 70 %陽性反応を示し,疾患でない患者に対しても 10 %陽性反応を示すものとします.先の症状を訴えた患者の精密検査結果が陽性反応を示したとき,その患者が A 疾患である確率はどのようになるでしょうか.

  事象を

A1 : A 疾患である
A2 : A 疾患でない

とすると,ベイズの定理は満たされています.また,事象 B を,

B : 精密検査 B が陽性である

とすると,以下の確率が得られます.

P(A1) = 0.05   A 疾患である確率(事前確率)
P(B | A1) = 0.7   A 疾患である場合に,精密検査結果が陽性になる確率
P(B) = 0.05 × 0.7 + 0.95 × 0.1 = 0.13   精密検査結果が陽性になる確率

以上の点から,精密検査結果が養成であった場合における A 疾患である確率(事後確率)は,ベイスの定理から以下のようになります.

  例えば,サイコロを投げる場合に,意図的なことを行わなければ,1 回目に 1 が出たからといって,2 回目に 1 が出る確率が変化するわけではありません.このように,各試行が互いに影響を及ぼさないような試行は重要です.下に示すのは,そのような試行に対する定義です.

[定義] r 個の事象 A1,A2,・・・,Ar に対し,それらの任意個の異なる事象の組合せ Ai,Aj,・・・,Ak に対して

P(Ai ∩ Aj ∩・・・∩ Ak) = P(Ai) P(Aj) ・・・ P(Ak)

が成り立つとき,事象 A1,A2,・・・,Ar互いに独立統計的に独立)であるという.また,1 回毎の試行がそれ以外の試行に何らの影響を及ぼさないとき,すなわち各回の試行が互いに独立であるとき,このような試行を独立試行,または,ベルヌーイ試行という.

2.3 確率の計算例

例2.4: 1 から 10 までの数字が書かれたカードがあり,佐藤さんは 2 から 10 までの偶数が書かれたカードを持ち,鈴木さんは 1 から 9 までの奇数の数字が書かれたカードを持っています.2 人が 1 枚カードを出して数の大きさを比べるとき,佐藤さんのほうが大きい数になる確率はいくらですか.

起こりうるすべての場合:5 * 5 = 25 通り

佐藤さんの方が大きくなる組み合わせ

  (2, 1) 1通り
  (4, 1), (4, 3) 2通り
  (6, 5), (6, 3), (6, 1) 3通り
  (8, 7), (8, 5), (8, 3), (8, 1) 4通り
  (10, 9), (10, 7), (10, 5), (10, 3), (10, 1) 5通り

例2.5: ある人が 2 問からなるテストを受けました.このテストにおいて,第 1 問を正解する確率は 0.7,第 2 問を正解する確率は 0.8 とします.

(1)2 問とも正解できない確率はいくつですか.

第 1 問が不正解の確率( 0.3 )× 第 2 問が不正解の確率( 0.2 ) = 0.06

(2)2 問のうち,1 問だけ正解する確率はいくつですか.

1 問正解する確率は,「第 1 問を正解」して「第 2 問を不正解」,または,「第 1 問が不正解」で「第 2 問は正解」の 2 つに分かれます.従って,(0.7×0.2=0.14)+(0.3×0.8=0.24) = 0.38

  または,余事象の考え方を使って,全体から,「両方とも正解する確率」と「両方とも不正解の確率」を引くことによっても得られます.従って,1 - 両方とも正解の確率(0.7×0.8 = 0.56)- 両方とも不正解の確率(0.06)

例2.6: 百円硬貨を 4 枚同時に投げたとき,1 枚が表,3 枚が裏となる確率はいくつになりますか.

全体の起こり方:2 個(表と裏)の中から,重複を許して 4 個を取り出す順列 = 2Π4 = 24 = 16 通り

表が 1 枚,裏が 3 枚出る場合(4 個のうちいずれかが表になる場合) = 4 通り

例2.7: ジョーカーを除く 52 枚のトランプから 3 枚抜き出すとき,3 枚とも違う種類(マーク)になる確率はどうなりますか.

52 枚から 3 枚を選ぶ方法 = 52C3 = 22100

3 種類選び,各種類から 1 枚選ぶ方法 = 4C3×133 = 8788

  よって,8788 / 22100 = 169 / 425

例2.8: 袋の中に赤玉が 5 個,青玉が 4 個,白玉が 3 個入っています.この袋から同時に 2 個の玉を取り出すとします.

(1)2 個とも青玉が出る確率はいくらですか.
12 個から 2 個の取り出し方 = 12C2 = 66
青玉から 2 個の取り出し方 = 4C2 = 6
  ∴ 6 / 66 = 1 / 11

(2)青玉と白玉が 1 個ずつ出る確率はいくらですか.
青玉から 1 個,白玉から 1 個の取り出し方 = 4C1 * 3C1 = 12
  ∴ 12 / 66 = 2 / 11

(3)赤玉が 1 個も出ない確率はいくらですか.
赤玉以外から 2 個の取り出し方 = 7C2 = 21
  ∴ 21 / 66 = 7 / 22

(4)赤玉が少なくとも 1 個出る確率はいくらですか.
赤玉以外から 2 個の取り出し方: 7C2 = 21  ∴ 21 / 66 = 7 / 22
余事象の考え方を使って,赤玉が少なくとも 1 個出る確率 = 1 - 7 / 22 = 15 / 22

3.確率変数

3.1 確率変数

[定義] 標本空間 Ω で,ある属性について標本がとる可能性がある異なる数値が

x1,x2,・・・,xk

であるとする.各標本に対してそれのとる値を対応させる変数 X を考える.Ω 上で X がそれぞれの値をとる確率が定まっているとき,X を確率変数random variablestochastic variable)(離散型確率変数)といい,x1,x2,・・・,xk を X の標識という.

  確率変数 X が値 xi をとるという事象を

{ X = xi }

で表し,その確率を

P(X = xi) = pi  (i = 1, 2, ・・・, k)

で示す.このように,X がとる値それぞれに対して確率が定まるため,確率は関数の形で,

f(x) = pi  ( x = xi のとき)
   = 0   (その他の x )

のように記述できる.この関数を確率変数 X の確率密度関数probability density function)といい(離散的な場合は,単に,確率関数ということもある),確率変数 X は,確率分布 f(x) に従うという.

[定義] 確率変数 X がある値 x に対して,X ≦ x である確率 P(X ≦ x ) を,確率変数 X の確率分布関数distribution function),または,累積分布関数cumulative distribution function)という.これを F(x) とすれば,次のようにかける.

F(x) = P(X ≦ x)

[定理 3.1] 確率分布関数の性質

  1. (1) P(a < x ≦ b) = P(x ≦ b) - P(x ≦ a) = F(b) - F(a)

  2. (2) x の非減少関数

  3. (3) 右連続性 limx→a+0F(x) = F(a)

  4. (4) F(∞) = 1

  5. (5) F(-∞) = 0

  6. (6) 0 ≦ F(x) ≦ 1

  サイコロを投げるような場合は,確率変数は離散的な値だけを取ることができます.そのような場合を離散型分布といいます.離散型分布に対する確率分布関数は,確率密度関数( X が xi という値を取る確率に相当),

f(xi) = P(X = xi) (i = 1, 2, ・・・)

を使用して,
のように記述できます.例えば,サイコロを投げるような場合における確率密度関数と確率分布関数は以下のようになります.
  確率変数が連続値を取るような分布も存在します.例えば,手で棒を垂直に立てた後,手を離したとします.そのとき,棒が倒れる方向 X は,0 から 360°の間の任意の値を取ることができます.このような分布を連続型分布といいます.棒の例の場合,確率分布関数の値は角度 x に比例しますので,下図のようになります.
  それでは,連続型分布の場合,離散型分布の確率密度関数に相当するような関数は存在しないのでしょうか.その答えが下の定義です.

[定義] 次の式で表される f(x) が存在するとき,f(x) を確率変数 X の確率密度関数という.

また,確率分布関数 F(x) は f(x) から

として与えられる.

  先に述べた棒の例では,その確率密度関数は以下のようになります(図を参照.このような分布を,一様分布といいます).
  ここで注意してもらいたいのは,離散型分布の確率密度関数とは異なり,確率密度関数 f(x) は,X が 値 x を取るときの確率を表しているわけではないことです.この点は,棒の例からも明らかだと思います.例えば,任意の a ( 0 ≦ a ≦ 360 )の対して,f(a) は 1/360 になりますが,これは決して「倒れたときの角度が a である確率は 1/360 である」といったことを意味していません.なぜなら,倒れたときの角度がある特定の値に完全に一致する確率は限りなく 0 に近いからです.

  確率密度関数において,確率としての意味を持つのは上右図の斜線で示した部分の面積です.図の斜線部の面積 S は,下に示すように,倒れたときの角度が a から b の間に入る確率を意味しています.確率分布関数と確率密度関数の関係式において,f(x)dx を確率( dx を 斜線部の幅 (b - a) とみなす),積分記号を Σ 記号とみなせば,離散型分布との対応が取りやすいかと思います.
3.2 平均と分散

[定義] 平均集合平均期待値

例 3.1: さいころの目を確率変数とした X の平均

E[X] = 1 * 1 / 6 + 2 * 1 / 6 + 3 * 1 / 6 + 4 * 1 / 6 + 5 * 1 / 6 + 6 * 1 / 6
   = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5

例 3.2: 1万本のくじに対して下の表の 2 列目,3 列目のような賞金がついている福引きがあるとする.賞金を X 円とすると,下の表の 4 列目に示す確率分布に従う確率変数と考えられる.今1枚の抽選券を持っているとき,いくらの賞金が当たることを期待できるであろうか.

  賞金 本数 確率
1 等 10 万円 1 本 1 / 10000
2 等 2 万円 2 本 2 / 10000
3 等 1 万円 10 本 10 / 10000
4 等 千円 200 本 200 / 10000
空くじ 0 円 9787 本 9787 / 10000

E[X] = 100000 × 1 / 10000 + 20000 × 2 / 10000 + 10000 × 10 / 10000 + 1000 × 200 / 10000 + 0 × 9787 / 10000 = 44 円

[定義] 分散標準偏差

σ2 を分散,σ を標準偏差と呼ぶ.
  上の図は,確率密度関数の形(離散型分布の場合は,その概形)を表したものです.分散は,この図に示すように,ばらつきの程度を表しますが,具体的にどの程度ばらついているかを示す指標として,次の定理がよく知られています.

[定理 3.2]チェビシェフの不等式)  確率変数 X の平均が μ,標準偏差が σ であるとき,次の不等式が成立する.

P(|X - μ| ≧ kσ) ≦ 1 / k2

この定理は,確率変数が平均から標準偏差の k 倍以上離れている,つまり,

X > μ + kσ,または,X < μ - kσ

である確率が 1 / k2 以下であることを示しています.例えば,3σ 以上平均から離れている確率は 1 / 9 より小さくなります.この不等式は,あまり精度の良いものではありませんが,その利点は,任意の分布に対して成立することです.

例 3.3: 学生 200 人に対して試験を行った結果,平均点が 50 点,標準偏差が 5 点でした.35 点~ 65 点の範囲に何人以上の学生がいますか.

チェビシェフ不等式より,

  P(|X - μ| ≦ kσ)
  = 1 - P(|X - μ| ≧ kσ)
  ≧ 1 - 1 / k2
  = 1 - 1 / 9
  = 8 / 9

となる.従って,全体の 8 / 9 以上の学生が 35 点~ 65 点の範囲にいることになる.つまり,200 * 8 / 9 = 178 人以上の学生が該当する.

[定理 3.3] 平均と分散の性質

  1. (1) a, b を定数として,E[aX+b] = aE[X] + b

  2. (2) E[X+Y] = E[X] + E[Y]

  3. (3) X, Y が互いに独立ならば, E[XY] = E[X]E[Y]

  4. (4) V[X] = E[X2] - E[X]2

  5. (5) V[aX+b] = a2V[X]

  6. (6) X と Y が独立ならば, V[X+Y] = V[X] + V[Y]

  次に,平均や分散のより一般的な定義について考えてみます.以下の定義等は,離散的な分布に対しても成立しますが,簡単のため,連続的な分布だけを取り扱っていきます.

[定義] φ(X) を確率変数 X の関数としたとき,

を φ(X) の期待値という.

[定義] φ(X) = Xk,または,φ(X) = (X - μ)k ( k = 0, 1, 2, ・・・)としたとき,

を,各々,X の原点周りの k 次モーメントmoment ),及び,平均 μ 周りの k 次モーメントmoment )という.

明らかに,原点周りの 1 次のモーメントは平均,また,平均 μ 周りの 2 次のモーメントは分散に相当します.

[定義] φ(X) = eθX としたとき,

モーメント母関数moment generation function )という.

  確率変数 X のモーメント母関数を求めることができれば,以下に示すように,確率変数 X のすべてのモーメントを簡単に求めることが可能です.マクローリン展開
を使用して,eθXを展開すると,
のようになります.従って,モーメント母関数は,
のように記述できます.例えば,この式をθで微分し,θに 0 を代入すると,右辺は E[X] となり,平均を求めることができます.一般に,k 次のモーメントは,

E[Xk] = M(k)(0)

のようにして求めることが可能です.なお,モーメント母関数が一致する 2 つの確率分布は同一の分布となります.

3.3 確率分布

  確率変数がどのような分布をするかは,先に述べた度数分布表を使って表す場合もありますが,理論的に与えられる確率分布も多くあります.ここでは,代表的な確率分布を紹介します.

3.3.1 離散型分布

  1. 二項分布
    二項分布の確率密度関数
    C/C++ による密度関数,分布関数を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「二項分布」をご覧ください.

      繰り返し行われる独立試行で,もし各々の試みに対して単に 2 つの結果だけが可能で,それらが起こる確率が各試行を通じて一定である場合,その試行をベルヌーイ試行といいます.成功の確率が p で失敗の確率が q = 1 - p であるベルヌーイ試行を n 回行った結果,x 回成功する確率(確率密度関数)は以下のようになり,この分布を母数 p の二項分布と呼びます.
      二項分布という名称は,この式が,(py + q)n を展開したときの yx の係数に等しいことに由来します.なお,二項分布の確率分布関数,平均,及び,分散は以下のようになります.
    平均: E[X] = np, 分散: V[X] = npq

      二項分布は,n の値が大きくなる( np ≧ 5 と nq ≧ 5 が成立する程度)と後に述べる正規分布,
    に近づきます.

  2. ポアソン分布
    ポアソン分布の確率密度関数
    C/C++ による密度関数,分布関数を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「ポアソン分布」をご覧ください.

      二項分布は,p の値が小さく,n の値が非常に大きくなると,λ = np のポアソン分布に近づきます.単位時間内に到着する電話の呼び数 x の分布等がポアソン分布に従うことが良く知られています.母数 λ のポアソン分布の確率密度関数,平均,及び,分散は以下のようになります.
    平均: E[X] = λ, 分散: V[X] = λ

      ポアソン分布は,λ の値が大きくなる( λ > 10 程度)と,正規分布,
    に近づきます.

3.3.2 連続型分布

  1. 一様分布

    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「一様分布」をご覧ください.

      先に述べた棒の例が一様分布の例です.一様分布の確率密度関数,平均,及び,分散は以下のようになります.

    密度関数  f(x) = 1 / (b - a)  a ≦ x ≦ b
            = 0  x < a,または,x > b

    平均: E[X] = (a + b) / 2, 分散: V[X] = (a - b)2 / 12

  2. 指数分布
    指数分布の確率密度関数
    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「指数分布」をご覧ください.

      指数分布は,ポアソン分布と強い関係があります.例えば,電話の呼び間隔が平均 1 / λ の指数分布をするとき,単位時間内に到着する電話の呼び数の分布は平均 λ のポアソン分布をします.母数 λ の指数分布の確率分布関数,確率密度関数,平均,及び,分散は以下のようになります.

    分布関数  F(x) = 1 - e-λx  x ≧ 0
             = 0  x < 0

    密度関数  f(x) = λe-λx  x ≧ 0
             = 0  x < 0

    平均: E[X] = 1 / λ, 分散: V[X] = 1 / λ2

  3. 正規分布(ガウス分布) N(μ, σ2)
    正規分布の確率密度関数
    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「正規分布」をご覧ください.

      正規分布は,非常によく使われる分布です.母数 μ,σ の正規分布 N(μ, σ2) の確率密度関数,平均,及び,分散は以下のようになります.
    平均: E[X] = μ, 分散: V[X] = σ2

      平均が 0,標準偏差が 1 である正規分布 N(0, 12) を標準正規分布と呼びます.確率変数 X の分布が N(μ, σ2) の正規分布に従うとき,次の変数変換(標準化変換)によって得られる確率変数 Z は標準正規分布 N(0, 12) に従います.

    Z = (X - μ) / σ

      また,値 α( 0 ≦ α ≦ 1 )に対して,以下の図に示すような値 λ を正規分布の α 値,または,p %値( p = α×100 )といいます.α(斜線部の面積)は,図からも明らかなように,確率変数の値が λ 以上になる確率(両側の場合は,確率変数の値が λ 以上,又は,ーλ以下になる確率)に相当します.α 値は,後に述べる推定において非常に重要となりますので十分理解しておいてください.一般的には,α の値から,λ を求める必要が出てきます.なお,正規分布以外の分布に対しても,同様に,α 値を定義することができます.
  4. 自由度 n の χ2 分布
    自由度 n の χ2 分布の確率密度関数
    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「χ2 分布」をご覧ください.

      x1,x2,・・・,xn が互いに独立な確率変数で,それぞれが標準正規分布 N(0, 12) に従うとき,

    χ2 = x12 + x22 + ・・・ + xn2

    なる確率変数 χ2 が従う分布を自由度 n の χ2 分布といいます.自由度 n の χ2 分布の確率密度関数,平均,及び,分散は以下のようになります.
    平均: E[X] = n, 分散: V[X] = 2n

      ここで,Γ は,ガンマ関数であり,次のように定義されます.
      
        Γ(1) = 1, Γ(p+1) = pΓ(p)
        Γ(n+1) = n!  n: 整数

    C/C++ によるガンマ関数の計算をするためのプログラム例 → 

    JavaScript 版では,任意のデータに対するガンマ関数の値を計算することができます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「ガンマ関数」をご覧ください.

  5. 自由度 n の t 分布
    自由度 n の t 分布の確率密度関数
    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「 t 分布」をご覧ください.

      x1,x2,・・・,xn が互いに独立な確率変数で,それぞれが標準正規分布 N(0, 12) に従うとき,
    なる確率変数 x が従う分布を自由度 n の t 分布といいます.自由度 n の t 分布の確率密度関数,平均,及び,分散は以下のようになります.
    平均: E[X] = 0, 分散: V[X] = n / (n - 2)
       平均,分散は,n ≧ 3

      なお,自由度が大きくなると,t 分布は正規分布に近づき,自由度が無限大になると,標準正規分布 N(0, 12) と一致します.

  6. 自由度 n1,n2F 分布
    自由度 n1,n2 の F 分布の確率密度関数
    C/C++ による密度関数,分布関数,片側α値(片側 p %値)を計算するためのプログラム例 →  (グラフも表示)

    JavaScript 版では,同様の処理を画面上で実行することが可能であり,結果はテキストエリアに出力されると共に,「確率(複数点)」を選択すればグラフも表示されます.なお,他の言語( PHP,Ruby,Python,C#,VB )によるプログラム例に関しては,「プログラミング言語の落とし穴」第 9 章の「 F 分布」をご覧ください.

      χ12 が自由度 n1 の χ2 分布,χ22 が自由度 n2 の χ2 分布に従い,かつ,χ12 及び χ22が互いに独立であるとき,

    x = (χ12 / n1) / (χ22 / n2)

    なる確率変数 x が従う分布を自由度 (n1, n2) の F 分布といいます.自由度 (n1, n2) の F 分布の確率密度関数,平均,及び,分散は以下のようになります.ただし,平均に対しては n2 > 2,分散に対しては n2 > 4 とします.

3.3.3 多変量確率分布

  1. 同時確率分布

      例えば,2 個のサイコロを振る場合,それぞれのサイコロの目を X 及び Y として,X = 1,Y = 5 となるような確率を考えるように,同時に 2 つの試行を行ったときの確率分布を調べたい場合があります.このような確率分布を 2 次元確率分布といいます.これに対して,今まで取り扱ってきた 1 変数の場合を 1 次元確率分布といいます,2 次元確率分布に対しても,1 次元確率分布の場合と同様に確率密度関数を定義できます.

    [定義] X のとる値を x1, x2, ・・・, xm,Y のとる値を y1, y2, ・・・, yn とする.また,X が xi( i = 1, 2, ・・・, m ),かつ,Y が yj( j = 1, 2, ・・・, n )の値をとるときの確率が pij,つまり,

    P(X = xi, Y = yj) = pij

    であるとき,

    h(x, y) = pij  (xi,かつ,yj のとき)
        = 0  (その他)

    を確率変数 X,Y の同時確率密度関数simultaneous probability density function )という.

      また,連続型分布に関しては,

    となるような関数 h(x, y) が存在するとき,h(x, y) 確率変数 X,Y の同時確率密度関数simultaneous probability density function )という.

    例 3.4: 10 円硬貨,100 円硬貨を投げて両者の表裏を調べる場合について考えてみます.表に 0,裏に 1 を対応させ,10 円硬貨の表裏を確率変数 X,100 円硬貨の表裏を確率変数 Y とすると,

    h(x, y) = 1 / 4  ( (0, 0), (0, 1), (1, 0), (1, 1) のとき)
        = 0  (その他)

    は,同時確率密度関数となります.

      2 次元確率分布において,Y の値にかかわらず X の分布を知りたいようなときがあります.このような場合は,それぞれの X における Y の値をすべて足し合わせれば(積分すれば)よいことになります.このことを示すのが次の定義です.

    [定義] 確率変数 X,Y の同時確率密度関数が h(x, y) であるとき,

    をそれぞれ h(x, y) より定まる X,Y の周辺確率密度関数marginal probability density function )という.連続型分布の場合も,同様に,

    をそれぞれ h(x, y) より定まる X,Y の周辺確率密度関数marginal probability density function )という.

      1 変数の場合と同様,確率変数 X と Y の関数 φ(X, Y) に対して,その期待値を定義できます.

    [定義] φ(X,Y) を確率変数 X,Y の関数としたとき,

    を φ(X, Y) の期待値という.

      X や Y に対する平均や分散も,1 変数の場合と同様に定義できます.さらに,2 次元分布に対しては,2 変数間の関係の程度を表す量として次のものが定義されています.

    [定義] 確率変数 X,Y に対して,

    σxy = C[X, Y] = E[(X - E[X])(Y - E[Y])] = E[(X - μx)(Y - μy)]

    を X と Y の共分散covariance )という.

      実際の問題では,共分散の代わりに,-1 ~ 1 の値をとるように正規化した相関係数correlation coefficient
    が使用される場合が多いと思います.相関係数は,相関がある場合(変数 X が大きくなると変数 Y も大きくなるような場合)には 1 に近く,負の相関がある場合(変数 X が大きくなると変数 Y は小さくなるような場合)には -1 に近くなり,相関がない場合は 0 になります.値を解釈する目安は,概略,以下のようになります.

    • 0.0 ≦ |ρxy| ≦ 0.2 : ほとんど相関がない
    • 0.2 ≦ |ρxy| ≦ 0.4 : やや相関がある
    • 0.4 ≦ |ρxy| ≦ 0.7 : かなり相関がある
    • 0.7 ≦ |ρxy| ≦ 1.0 : 強い相関がある

      最後に,2 次元分布に対する平均,分散,及び,共分散の性質をあげておきます.

    [定理 3.4] 確率変数 X,Y に対して以下の式が成立する.

    1. (1) E[aX + bY] = aE{X} + bE[Y]

    2. (2) V[aX + bY] = a2V[X] + 2abC[X, Y] + b2V[Y]

    3. (3) C[X, Y] = E[XY] - E[X]E[Y]

  2. 確率変数の独立性

      先に述べた統計的独立の概念は,確率分布を使用しても表現することができます.

    [定義] 確率変数 X,Y の同時確率密度関数を h(x, y),X の周辺確率密度関数を f(x),及び,Y の周辺確率密度関数を g(y) としたとき,すべての x,y に対して,

    h(x, y) = f(x)g(y)

    が成立するとき,確率変数 X と Y は独立であるという.

    例 3.5: 例 3.4 について考えてみます.明らかに,10 硬貨の表裏は,100 円硬貨の表裏とは無関係に決まります.従って,X 及び Y の周辺確率密度関数,

    f(x) = 1 / 2  ( 0, 1 のとき)
       = 0  (その他)

    g(y) = 1 / 2  ( 0, 1 のとき)
       = 0  (その他)

    を使用して,同時確率密度関数は,

    h(x, y) = f(x)g(y)

    のように表現でき,2 つの変数は独立であると言えます.

    [定理 3.5] 確率変数 X,Y が独立なとき,

    E[XY] = E[X]E[Y]

    が成立する.

      上の定理より,明らかに,確率変数 X,Y が独立なときは,共分散や相関係数は 0 になります.

4.統計

4.0 データの整理

  N 個の要素からなる集合から,すべての要素に対する何らかの特性値が得られたとします.それらの数値を適当な間隔の階級に分け,それぞれの階級に入るデータの数(度数)に,必要に応じて,相対度数累積度数累積相対度数などを加えて表にしたものを度数分布表といいます.一般に,この表をさらに見やすくするため,ヒストグラム折れ線グラフなどが使用されます.

  また,データ群の特徴をつかむため,以下に示すような統計量も使用されます.

[定義]

  1. (1) 平均値:  = ( x1 + x2 + ・・・ + xN) / N

  2. (2) 中央値メディアンmedian ): データを大きさの順に並べたときの中央の値(データの個数が偶数のときは,中央の 2 つの値の平均)

  3. (3) 最頻値モードmode ): データの中に最も多く現れるデータの値

  4. (4) 分散: s2 = {(x1 - )2 + (x2 - )2 + ・・・ + (xN - )2} / N

  5. (5) 標準偏差: s
  2 変量のデータに対しては,各変量間の関係を見るため,図としては散布図,統計量としては以下に示すような値が良く使用されます.

[定義]

  1. (1) 共分散: sxy = {(x1 - )(y1 - ) + (x2 - )(y2 - ) + ・・・ + (xN - )(yN - )} / N

  2. (2) 相関係数: ρxy = sxy / (sxy)

  また,変量 y が,変量 x の値と共に直線的に増加(減少)していくような場合は,つまり,x と y の間に直線的な関係がある場合は,その関係を最も適切に表す直線を求めたいようなことがあります.→ 「予測」に関する説明も参考にして下さい.

[定理 4.1] 直線,

y = ax + b

から,N 個の各点 (xi, yi) ( i = 1, 2, ・・・, N )への y 軸方向の距離の 2 乗和,

L = (ax1 + b - y1)2 + (ax2 + b - y2)2 + ・・・ + (axN + b - yN)2

を最小にするように a 及び b の値を決めると以下のようになる.

a = sxy / sx2, b = - a

[定義] 定理 4.1 において,直線,

y = ax + b

を変量 y の変量 x に対する回帰直線といい,定数 a を回帰係数,b を定数項という.

4.1 統計的推定

4.1.1 標本と母集団

[定義] 調査や観測の対象となる属性を持つすべての個体の集合を母集団という.母集団から取り出された一部のデータの集合を標本といい,データの数を標本の大きさという.また,母集団の平均,分散,標準偏差などを母平均母分散母標準偏差といい,一般に母集団の特性値を母数という.

  母集団からランダムに標本を取り出すことを無作為抽出random sampling )といい,無作為抽出によって取り出された標本を無作為標本任意標本)という.

  調査や観測等によって,我々が知りたいのは母集団の特性値-母数-です.観測された標本 x1, x2, ・・・, xn から,母数を推定する方法を統計的推定と呼びます.母平均や母分散を推定する方法として,以下に示すような標本統計量標本平均標本分散標本標準偏差などは,母平均,母分散,母標準偏差に対する点推定値)がよく使用されます.


  上記の統計量の内,分散や標準偏差の概念は多少分かりにくいかもしれません.分散は,データのばらつきを表す指標です.分散が大きいほど,データがばらついていることになります.先に述べた正規分布のグラフを見てもらうと,σ が小さいほど,尖ったグラフになっています.つまり,σ が小さいほど,データのばらつきが少なく,平均の周りに集中していることになります.極端な例として,分散が 0 であることは,すべてのデータが同じ値になっていることを意味しています.

  標本統計量も一つの確率変数です.母集団から一つの標本 x を取り出すことは,母集団の分布に従う確率変数 X が x という値をとることに相当しています.従って,大きさ n の標本 x1, x2, ・・・, xn を抽出することは,母集団と同じ確率分布に従う n 個の確率変数 X1, X2, ・・・, Xn が,

X1 = x1, X2 = x2, ・・・, Xn = xn

のような値をとったことに相当します.この X1, X2, ・・・, Xn標本確率変数といいます.もし,これらが無作為標本である場合は,n 個の確率変数は独立になります.

  以上のことから,上で述べた標本平均や標本分散も確率変数となり,その統計量を計算できます.例えば,標本平均と標本分散の平均は以下のようになります.

E[] = μ  μ:母平均
E[S2] = (n - 1) σ2 / n  σ2: 母分散

  上式から明らかなように,標本平均の平均は母平均と一致しますが,標本分散に関しては,一致しません.標本平均のように,ある母数 θ が Θ(X1, X2, ・・・, Xn) として推定されるとき,

E[Θ] = θ

を満たす,つまり,推定量の平均が母数に一致するとき,推定量 Θ を不偏推定量と呼びます.

  母分散の不偏推定量は,以下のようになり,先に述べた標本分散の代わりによく使用されます.
ただし,不偏分散の平方根は,母標準偏差の不偏推定量にはならないことに注意して下さい.また,多変数の場合は,以下に示すような標本統計量がしばしば使用されます.


ただし,

X1, X2, ・・・, Xm : 確率変数
Xi1, Xi2, ・・・, Xin : 確率変数 Xi に対する標本確率変数

とします.

4.1.2 中心極限定理

[定理 4.2] 確率変数 X1, X2, ・・・, Xn が互いに独立で,平均が μ,分散が σ2 の同じ分布に従うとき,確率変数,

= (X1 + X2 + ・・・ + Xn) / n

の平均及び分散は以下のようになる.

E[] = μ, V[] = σ2 / n

[定理 4.3] 中心極限定理 確率変数 X1, X2, ・・・, Xn が互いに独立で,平均が μ,分散が σ2 の同じ分布に従うとき,それらの平均 の確率分布は,n を十分大きくすれば,正規分布 N(μ, σ2/n) で近似される.

  中心極限定理が適用できる標本の大きさの目安は,概略,以下の通りです.

  • 分布が平均に対して左右対称の場合: n ≧ 30
  • 分布が平均に対して左右非対称の場合: n ≧ 50

4.1.3 区間推定法

  先に述べた点推定量(点推定値)には,その値がどの程度信頼できるかの情報が全く含まれていません.そこで,点推定量を元に,母数の値が,どの程度の信頼度で,どの範囲に含まれるかを推定するのが,区間推定です.以下においては,母平均及び母分散の区間推定法に関して簡単に述べます.なお,α値( p %値)に関しては,正規分布に対する説明を参考にして下さい.

[定義] 未知の母数に対して,未知母数 θ が a ≦ θ ≦ b となる確率が (1 - α),つまり,

P(a ≦ θ ≦ b) = 1 - α

となるように決定した [a, b] を信頼水準confidence level信頼係数信頼率)が (1 - α) である信頼区間,または,100(1 - α)%信頼区間という.

  1. 母平均の区間推定(母分散 σ2 が既知の場合)

      母集団が,正規分布 N(μ, σ2) に従っているものとします.ただし,標本の大きさ n が大きいときは,必ずしも正規分布である必要はありません.このとき,中心極限定理により,標本平均 は,N(μ, σ2/n) の正規分布をします.従って,
    は,標準正規分布 N(0, 12) に従います.A(α) を標準正規分布の α 点とすると,

    P(|Z| ≦ A(α/2)) = 1 - α

    という関係が成り立ちます.つまり,
    となります.このことより,推定の信頼水準を (1 - α) とすると,母平均の信頼区間は,以下のようになります.この式は,標本平均 が得られたとき,母平均 μ が以下の区間に入る確率が (1 - α) であることを意味します.
  2. 母平均の区間推定(母分散 σ2 が未知の場合)

    [定理 4.4] n 個の確率変数 X1, X2, ・・・, Xn が平均 μ の同じ正規分布に従い,互いに独立ならば,その標本分散を S2 としたとき,

    で定義される確率変数 Tn-1 が,母分散に関係なく,自由度 n-1 の t 分布に従う.

      標本の大きさが n,標本平均が X,標本分散が S2 であるとします.上の定理を利用することによって,母平均 μ の信頼水準 (1 - α) の信頼区間は,自由度 n-1 の t 分布の α 点を tn-1(α) とすると,以下のようになります.

  3. 母分散の区間推定

    [定理 4.5] n 個の確率変数 X1, X2, ・・・, Xn が同じ正規分布 N(μ, σ2) に従い,互いに独立ならば,

    で定義される確率変数は,自由度 n-1 の χ2 分布に従う.

      上の定理より,正規母集団から大きさ n の標本を無作為抽出したとき,母分散 σ2 に対する信頼水準 (1 - α) の信頼区間は,自由度 n-1 の χ2 分布の α 点をχ2n-1(α) とすると,以下のようになります.

例 4.1: 10 個の卵の重さ(単位g)を測ったところ,標本平均は 69.05 g でした(卵全体は正規母集団とする).最初に,母分散 σ2 が既知( = 22 )であるとしたとき,母平均の 95 %信頼区間は正規分布を利用して以下のようになります.

  次に,母分散 σ2 が未知である場合について考えてみます.標本分散 s2(不偏分散)が 22 であった場合における母平均の 95 %信頼区間を計算してみます.この場合は,自由度 9 の t 分布を利用して以下のようになります.

この例に見るように,同じ信頼区間であっても,情報量が多いほど(この場合は,母分散が既知),信頼区間は短くなります.つまり,より高い精度で母平均を推定できることになります.

  最後に,母分散に対する信頼区間を求めてみます(当然,母分散は未知).標本分散 s2(不偏分散)が 22 であった場合における母分散の 95 %信頼区間は,自由度 9 の χ2 分布を利用して以下のようになります.

4.2 統計的検定

4.2.1 仮説検定

  実験等によって得られた標本統計量に基づき,何らかの推論を行いたい場合があります.例えば,標本平均からその「母平均が μ である」ことを検証したい,2 つの母集団から得られた標本平均に基づき,それらの「母平均が等しい」ことを検証したい,といった場合です.このようなことを行うのが統計的検定であり,その一つの方法が,仮説検定です.仮説検定においては,まず,一つの仮説 H0帰無仮説)をたてます.例えば,上の例では,「母平均が μ である」,「母平均が等しい」などがその仮説に相当します.また,上の仮説に対立する仮説,「母平均は μ でない」,「母平均が異なる」などの仮説 H1帰無仮説といいます.

  既に述べたように,標本統計量も一つの確率変数です.同じ母集団から採った標本平均であっても,常に同じ値になるわけではありません.したがって,2 つの母集団から得られた標本平均が同じ値になったとしても,必ずしも 2 つの母集団の母平均が等しいことを意味しているわけではありません.同様に,2 つの標本平均が異なっていても,それらの母平均が異なっているとは限りません.

  そこで,以下に述べるような方法によって仮説の正誤を判定します.まず,指定された標本統計量(検定方法毎に異なる)を計算します.標本統計量は設定した仮説の下で何らかの分布をします.得られた標本統計量がその分布の滅多に起こらないような値であったとします.例えば,標本統計量が平均 50,標準偏差 10 の正規分布をしていたとき,実際に得られた標本統計量が 85 であったような場合です.実際,このようなことが起こる確率は,0.001 以下です.このような場合に対する解釈として 2 つあります.一つは,滅多に起こらないことが起こったという解釈です.他の一つは,設定した仮説が間違っていたという解釈であり,一般には,この解釈を採用します.その際,先に述べた α 値((α×100) パーセント値) λ を使用します.得られた統計量の値が λ より大きい(または,小さい)とき,つまり,統計量に対する分布の基で,得られた統計量の値が実現する確率が α 以下であるとき,最初の仮説が誤っているものとして棄却します.

  α 値((α×100) パーセント値)として,普通,5 %,または,1 %が用いられ,これを有意水準といいます.仮説 H が有意水準 α で棄却されたとき,検定結果は水準 α で有意差があるといいます.また,仮説を棄却する範囲のことを棄却域といい,確率分布の片側または両側に棄却域をとる場合を,それぞれ片側検定,または,両側検定といいます.

  ある仮説が棄却されたとしても,仮説が誤っていることを意味しているわけではありません.あくまで,得られたデータのもとでは,誤っている可能性が高いことを示唆しているにすぎません.仮説 H0 が正しいにもかかわらず棄却される誤り(第 1 種の誤り)も当然発生します.同様に,棄却されなかったとしても,仮説が正しいことを意味しているわけではないことに,十分注意してください.仮説 H0 が誤っているにもかかわらず採用されてしまう誤り(第 2 種の誤り)が起こる可能性があるからです.

  次の節において,非常に簡単な仮説検定の例を示します.検定目的や条件によって,様々な検定方法が存在します.詳細については専門の書籍等を参照してください.

4.2.2 母平均の検定

[定理 4.6] 平均の検定(母分散が既知の場合)  母集団 Ω の母平均 μ に対して,その値が μ0 であるという仮説,つまり,次のような仮説をたてる.

帰無仮説 H0: μ = μ0
対立仮説 H1: μ ≠ μ0

このとき,母集団が,正規分布 N(μ, σ2) に従っているものとする(標本の大きさ n が大きいときは,必ずしも正規分布である必要はない).中心極限定理により,標本平均 は,N(μ, σ2/n) の正規分布をする.従って,

は,標準正規分布 N(0, 12) をする.そこで,A(α) を正規分布の α 値としたとき,標本から計算された z が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

  上の定理では,対立仮説として,

H1: μ ≠ μ0

を設定し,両側検定を行っています.しかし,対立仮説が,

μ > μ0,または,μ < μ0

のような場合は,片側検定を行い,棄却域をそれぞれ,

z > A(α),または,z < -A(α)

のように設定する必要があります.この考え方は,以下に述べる議論においても同様です.

[定理 4.7] 平均の t 検定(母分散が未知の場合)  正規分布 N(μ, σ2) に従っている母集団 Ω の母平均 μ に対して,その値が μ0 であるという仮説,つまり,次のような仮説をたてる.

帰無仮説 H0: μ = μ0
対立仮説 H1: μ ≠ μ0

このとき,Ωからの大きさ n の標本平均を X,標本分散を S2 としたとき,

で定義される確率変数 Tn-1 が,自由度 n-1 の t 分布に従う.そこで,tn-1(α) を自由度 n-1 の t 分布の α 値としたとき,標本から計算された t が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

  なお,母分散が未知の場合であっても,標本数が大きい場合は,母分散の近似値として標本分散 S2 を用いて,最初の定理を使用することが可能です.

例 4.2: ある機械で製造する製品の長さに対する規格が 200 mm であったとします.この機械で製造した製品を 25 個取りだし,その長さを測ったところ,標本平均は 200.81 mm でした(製造した製品全体は正規母集団とする).製品の長さが規格通りか否かを,有意水準 5 %で検定してみます.つまり,次のような仮説を立てます.

帰無仮説 H0: 製品の母平均 μ = μ0( = 200 mm )
対立仮説 H1: 製品の母平均 μ ≠ μ0( = 200 mm )

  最初に,母分散 σ2 が既知( = 22 )である場合について考えてみます.定理 4.6 より,|z| の値を計算すると,|z| = 2.025 となります.この値は,A(0.025) = 1.96 より大きくなりますので,仮説を棄却し対立仮説を受け入れる,つまり,製品の長さは規格に合っていないというのが結論になります.

  同じ例に対して,製品の長さが規格より大きいか否かを検定する場合はどうでしょうか.この場合は,次のような仮説を立てることになります.

帰無仮説 H0: 製品の母平均 μ = 200 mm(規格値)
対立仮説 H1: 製品の母平均 μ > 200 mm(規格値)

この場合は,片側検定になりますので,z の値を A(0.05) = 1.645 と比較することになります.z の値 2.025 は A(0.05) より大きいため,先の場合と同様,仮説を棄却し対立仮説を受け入れる,つまり,製品の長さは規格より大きいというのが結論になります.

  では,母分散が未知の場合はどうでしょうか.標本分散 s2(不偏分散)が 22 であった場合に対し,製品の長さが規格通りか否かを,有意水準 5 %で検定してみます.定理 4.7 より,|t| の値を計算すると,|t| = 2.025 となります.この値は,自由度 24 の t 分布の 5 %値 t24(0.025) = 2.06 より小さくなりますので,仮説を受け入れる,つまり,製品の長さは規格通りであるというのが結論になります.

  この例のように,検定結果は,仮説,有意水準,検定方法等によって異なってくる点に注意して下さい.

4.2.3 母平均の差の検定

  ここでは,2 つの平均値の差を検定する方法について説明します.3 つ以上の平均値を比較したいような場合は,分散分析を利用して下さい.

[定理 4.8] 平均の差に関する検定(母分散が既知の場合)  N(μx, σx2) に従う母集団から大きさ m の標本を抽出したときの標本平均を X とし,N(μy, σy2) に従う母集団から大きさ n の標本を抽出したときの標本平均を Y としたとき,2 つの母平均 μx と μyに対して,その値が等しいという仮説,つまり,次のような仮説をたてる.

帰無仮説 H0: μx = μy
対立仮説 H1: μx ≠ μy

このとき,

は,標準正規分布 N(0, 12) をする.そこで,A(α) を正規分布の α 値としたとき,標本から計算された z が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

[定理 4.9] 平均の差に関する t 検定(母分散が未知で,かつ,同じ場合)  N(μx, σ2) に従う母集団から大きさ m の標本を抽出したときの標本平均を X,標本分散を Sx2とし,N(μy, σ2) に従う母集団から大きさ n の標本を抽出したときの標本平均を Y,標本分散を Sy2としたとき,2 つの母平均 μx と μyに対して,その値が等しいという仮説,つまり,次のような仮説をたてる.

帰無仮説 H0: μx = μy
対立仮説 H1: μx ≠ μy

このとき,

で定義される確率変数 Tm+n-2 が,自由度 m+n-2 の t 分布に従う.そこで,tm+n-2(α) を自由度 m+n-2 の t 分布の α 値としたとき,標本から計算された t が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

例 4.3: 同じ製品を製造する機械 x 及び y があります.各機械から 31 個の製品を取りだし,その長さを測ったところ,各々の標本平均は 200.53 mm,及び,199.11 mm,また,標本分散(不偏分散)は 2.02 mm,及び,1.52 mm でした(製造した製品全体は正規母集団とし,各機械の母分散は未知であるが等しい).2 つの機械で製造した製品の長さが等しいか否かを,有意水準 1 %で検定してみます.つまり,次のような仮説を立てます.

帰無仮説 H0: 機械 x の母平均 μx = 機械 y の母平均 μy
対立仮説 H1: 機械 x の母平均 μx ≠ 機械 y の母平均 μy

  定理 4.9 より,|t| の値を計算すると,|t| = 3.16 となります.この値は,自由度 60 の t 分布の 1 %値 t60(0.005) = 2.66 より大きくなりますので,仮説を棄却する,つまり,2 つの機械によって製造した製品の長さは等しくないというのが結論になります.

4.2.4 母分散及び等分散性の検定

[定理 4.10] 分散の検定  n 個の確率変数 X1, X2, ・・・, Xn が同じ正規分布 N(μ, σ2) に従い,互いに独立ならば,

で定義される確率変数は,自由度 n-1 の χ2 分布に従う.そこで,分散に対する検定を行うには,まず,仮説

帰無仮説 H0: σ = σ0
対立仮説 H1: σ ≠ σ0

を設定する.自由度 n-1 の χ2 分布の α 点をχ2n-1(α)としたとき,標本から計算された y が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

[定理 4.11] 分散の比に対する検定  N(μx, σ2) に従う母集団から大きさ m の標本を,また,N(μy, σ2) に従う母集団から大きさ n の標本を抽出したとき,

で定義される確率変数 F(m-1, n-1) が,自由度 (m-1, n-1) の F 分布に従う.そこで,2 つの正規母集団から抽出されたデータに対して,それらの母分散が等しいという仮説,つまり,次のような仮説をたてる.

帰無仮説 H0: σx2 = σy2
対立仮説 H1: σx2 ≠ σy2

このとき,自由度 (m-1, n-1) の F 分布の α 点を F(m-1, n-1)(α)としたとき,標本から計算された x が不等式,

を満たすならば,有意水準 α で,仮説 H0 を棄却する.

  なお,αが大きいときのα点を計算したい場合は,次の関係を利用できます.

F(m, n)(1-α) = 1 / F(n, m)(α)

情報学部 菅沼ホーム SE目次 索引