確率・統計 (4) 多変数の確率分布

確率・統計

(4) 多変数の確率分布

前回は、試行回数や事象の発生回数などを確率変数としたときの分布の具体例を紹介しました。しかし、確率分布が集合や集合族上で定義されている以上、その集合から定義できる確率変数が常に一つのみであるとは限らず、場合によっては複数の確率変数を用いた確率空間を考える必要もあります。ここでは、そのような多変数の確率分布について紹介したいと思います。

(注) 数式などの記法について (ドキュメントの中で使用している数式の表現方法に関する注意点です)

1) 条件付確率(Conditional Probability)

赤と白の二つの玉が箱の中にたくさんあり、各々の玉には A と B のいずれかの文字が書かれていたとします。箱から玉を一つ取り出した時、それが赤い玉である確率を P(R)、白い玉である確率を P(W) とすると、

P(R) + P(W) = P(Ω) = 1

が成り立ちます。また、箱から玉を一つ取り出した時、その玉に A と書かれている確率を P(A)、B と書かれている確率を P(B) とすると、同様に

P(A) + P(B) = P(Ω) = 1

が成り立ちます。赤い玉で A と書かれている確率を P(R_A)、B と書かれている確率を P(R_B)、白い玉も同様に考えて P(W_A)、P(W_B) とすれば、

P(R_A) + P(R_B) + P(W_A) + P(W_B) = P(Ω) = 1

が成り立つことも理解できると思います。この時、

P(R_A) + P(R_B) = P(R)
P(W_A) + P(W_B) = P(W)
P(R_A) + P(W_A) = P(A)
P(R_B) + P(W_B) = P(B)

という関係になっています。ここで、玉に書かれている文字がテープで隠されていたとします。箱から取り出した玉が赤い玉であったとき、それに A と書かれているかどうかをどのように評価すればいいでしょうか。

例えば、P(R) = P(W) = P(A) = P(B) = 0.5 だったとします。つまり、赤と白の玉が出る確率は五分五分、A と B が出る確率も五分五分ということになります。ここで、P(R_A) = P(W_B) = 0.4、P(R_B) = P(W_A) = 0.1 ならば、赤い玉の場合は A の出る確率の方が、また白い玉なら B の出る確率の方がそれぞれ高いので、箱から取り出した玉が赤い場合は、それに書かれている文字が A であると判断した方が有利になります。ここで、赤い玉が出た場合に限定して A の出る確率を P(A|R) とすると、

P(A|R) = P(R_A) / P(A) = 0.4 / 0.5 = 0.8

と計算することができます。同様に、赤い玉が出た場合に限定して B の出る確率を P(B|R)、白い玉に限定した場合を P(A|W)、P(B|W) とすれば、

P(B|R) = P(R_B) / P(B) = 0.1 / 0.5 = 0.2
P(A|W) = P(W_A) / P(A) = 0.1 / 0.5 = 0.2
P(B|W) = P(W_B) / P(B) = 0.4 / 0.5 = 0.8

になります。各々の確率を矩形で表現すると、P(R) と P(W) は同面積で、全体の矩形の大きさを 1 とすればどちらも 0.5 となります。また、P(R_A) と P(W_B) はそれぞれ全体の 40%、P(R_B) と P(W_A) はそれぞれ全体の 10% を占めます。ここで赤い玉の出る確率が占める面積を 1 と考えたとき、その中で A の出る確率は 0.8 を占めることになります。

ある事象 B に限定したとき事象 A が起こる確率を「条件付確率(Conditiomal Probability)」といい、P(A|B) で表します。先程の例から考えると、これは事象 B を全事象に置き換えた場合に事象 A と事象 B がどちらも発生した確率 P(A∩B) を求めることになるので、

P(A|B) = P(A∩B) / P(B)

が成り立ちます。但し、P(B) ≠ 0 である必要があります。

先ほど説明したように、赤と白の玉が出る確率は五分五分、A と B が出る確率も五分五分であるにもかかわらず、赤い玉が出た時は A の出る確率の方が高くなります。よって、その場合は「A である」と答えた方が有利です。逆に、誰かに玉を取り出してもらい、その玉に書かれている文字を読み上げてもらうとします。A であることが分かった場合、それが赤である条件付確率 P(R|A) は

P(R|A) = P(R_A) / P(A) = 0.4 / 0.5 = 0.8

なので、「赤である」と答えた方が有利になります。

事象 B に限定して事象 A が発生する条件付確率 P(A|B) が、事象 B に限定せずに事象 A が発生する確率 P(A) と等しい場合、

P(A|B) = P(A∩B) / P(B) = P(A)

より

P(A∩B) = P(A)・P(B)

が成り立ちます。また、この等式が成り立てば、P(B|A) に対しても

P(B|A) = P(A∩B) / P(A) = P(B)

であることが分かります。これは、事象 B が起こるという現象が事象 A の発生に何の影響も及ぼさない、事象 A, B は互いに独立であるということを意味しています。

各試行が独立であるとして、N 回の試行を繰り返す標本点を「ベルヌーイ列」といって、

Ω = { ( a₁, a₂, ... a_N ) | a_i = 0, 1 ( i = 1, 2, ... N ) }

と定義しました。この中で、事象が i 番目に起こったときの事象を A_i (0 ≤ i ≤ N) としたとき、それ以外の点では 0 か 1 のいずれかを取るので、

A_i = { ( a₁, a₂, ... a_i = 1, ... a_N ) | a_k = 0, 1 ( k = 1, 2, ... i - 1, i + 1, ... N ) }

と表すことができます。「二項分布」では、事象が r 回発生したときの標本点の確率を

p( Σ_i{1→N}( x_i ) = r ) = p^rq^N-r

と定義しました。i 番目 ( 0 ≤ i ≤ r ) の試行が必ず「成功」している場合、残りの r - 1 回分が N - 1 回の試行の中で「成功」したことになるので、その場合の数は _N-1C_r-1 です。r が 1 から N まで変化したとき、i 番目の試行が必ず「成功」する確率 P(A_i) は

P(A_i)	=	Σ_r{1→N}( _N-1C_r-1 p^rq^N-r )
	=	pΣ_r{1→N}( _N-1C_r-1 p^r-1q^N-r )
	=	p( p + q )^N-1 = p

i, j 番目のどちらも「成功」していた場合の確率 P(A_i∩A_j) は、残りの r - 2 回分が N - 2 回の試行の中で「成功」したことになるので

P(A_i∩A_j)	=	Σ_r{2→N}( _N-2C_r-2 p^rq^N-r )
	=	p²Σ_r{2→N}( _N-2C_r-2 p^r-2q^N-r )
	=	p²( p + q )^N-2 = p²
	=	P(A_i)・P(A_j)

になり、何回目に成功したかということは互いに影響を及ぼさない、すなわち独立であるということになります。二項分布で定義した標本点の確率は、この独立性を保証するためのモデルの一つと考えることができます。

2) 多変数の確率分布

今までは、事象に対する確率変数を一つとして確率分布を紹介してきました。しかし、確率密度が集合や集合族の上で定義される以上、複数の変数を扱うことも可能なので、例えば確率空間 ( Ω, β, μ ) に対して

Ω' = Z² ; ( m, n ) ∈ Z²

β' = 「Z² から成る完全加法族」

p( ( m, n ) ∈ A ) = μ( { ω | m(ω), n(ω) ∈ A } ) ( A ∈ β )

となるような新たな確率空間 ( Ω', β', p ) が定義できれば、p は 2 つの変数 m, n を確率変数とする確率密度関数になり、

p( ( m, n ) ∈ A ) = Σ_mΣ_n{ ( m, n ) ∈ A }( p( m, n ) )

と計算することができれば、事象 A に対する確率を求めることができます。連続分布に対しても同様な考えかたによって、

p( ( x, y ) ∈ A ) = ∫∫{ ( x, y ) ∈ A } p( x, y ) dxdy

が定義できれば確率を求めることができます。これはちょうど、xy 平面上に広がる確率変数に対して確率分布が広がっていて、その分布の和 (または体積) は 1 になることをイメージすれば分かりやすいと思います。具体的なイメージが難しくなるものの、確率変数の数をさらに増やして多変数での確率密度関数を考えることも可能です。このように、複数の確率変数がある場合に、それらが同時にある値となるときの確率を表すことから、多変数の確率分布は「同時分布」または「結合分布(Joint Probability Distribution)」と呼ばれています。ちなみに、「同時分布」に対する英訳が見当たらないため「結合分布」の方が一般的なようですが、個人的には「同時に起こる確率」という意味で「同時分布」の方がその内容をよく表しているように思います。

2 変数から成る分布を xy 平面に垂直で y 軸に平行な平面で切った切り口の形状を見ると、これは x をある値に固定したときの y に関する確率分布を表しています。同様に、xy 平面に垂直で x 軸に平行な平面で切った切り口の形状は、y をある値に固定したときの x に関する確率分布を表します。x または y を固定したときの分布についての和または面積

p_x(x) = ∫{-∞→∞} p( x, y ) dy

p_y(y) = ∫{-∞→∞} p( x, y ) dx

を「周辺分布(Marginal Distribution)」といいます。これは、一つの変数がある値を取るとき、その他の変数に関する確率密度全体について和を求めたときの確率分布になります。例えば、あるグループにおける身長と体重の分布に対して、体重に関係なく身長だけで分布を表せば、それが周辺分布となります。身長に関係なく体重の分布を表した場合も同様です。周辺分布は一変数の分布を表し、変数を固定したとき、その中で他の変数に対する分布として分解していくと元の多変数の分布に戻ります。また、多変数の分布における確率密度の和(または体積)は 1 になり、それを、一変数を固定して合計したものが周辺分布になるので、周辺分布の和や面積も 1 になり、上式において、

∫{-∞→∞} p_x(x) dx = 1

∫{-∞→∞} p_y(y) dy = 1

が成り立ちます。

周辺分布自体が多変数になる場合を考えることもできます。例えば、3 変数の確率分布 p( x, y, z ) に対して

p_xy( x, y ) = ∫{-∞→∞} p( x, y, z ) dz

とすれば、2 変数の周辺分布になります。これはちょうど、3 次元空間上で密度の濃淡で表現された確率分布があって、それを xy 平面に平行な平面で輪切りにした上で、それぞれの断面の値を合計した分布を得ることになります。

全事象 Ω の中で、x(ω_x) ∈ I, y(ω_y) ∈ J ( I, J は R のボレル集合 ) を満たす ω_x, ω_y の集合から成る事象をそれぞれ A, B とします。二つの事象 A, B の積集合 A ∩ B は、x(ω) ∈ I かつ y(ω) ∈ J となるような ω を要素とする部分集合を考えればいいので、R² 上の直積集合 I x J について

A ∩ B = { ω ∈ Ω | ( x(ω), y(ω) ) ∈ I x J }

と表せます。よって、( x(ω), y(ω) ) に対する確率密度関数を p( x, y ) とすると、

P( A ∩ B )	=	P( ( x(ω), y(ω) ) ∈ I x J )
	=	∫∫{(x,y)∈IxJ} p( x, y ) dxdy
	=	∫{y∈J} ( ∫{x∈I} p( x, y ) dx ) dy

になります。P(B) は x(ω) ∈ R, y(ω) ∈ J を満たす ω から成る事象に対する確率なので、x に関しては制限がないことを意味することになって、

P(B) = ∫{y∈J} ( ∫{-∞→∞} p( x, y ) dx ) dy = ∫{y∈J} p_y( y ) dy

P(A|B) = P(A∩B) / P(B) より

P(A|B) = ∫{y∈J} ( ∫{x∈I} p( x, y ) dx ) dy / ∫{y∈J} p_y( y ) dy

と表すことができます。ここで、y を定数 k とすれば、上式は x のみの関数として表せて

P(A|y = k) = ∫{x∈I} p( x, k ) / p_y( k ) dx

になります。そこで、

p(x|y) = p( x, y ) / p_y( y )

を、x の y に関する条件付確率密度といいます。右辺を x ∈ R において積分すると、∫{-∞→∞} p( x, y ) dx = p_y( y ) よりその結果は 1 になります。従って、p(x|y) は、y を固定したときに x に関する全ての和または面積が 1 になるように周辺分布で割ったものと考えることができます。

ここで、2 変数の確率密度関数 p( x, y ) が、それぞれの変数 x, y の関数の積で表される場合を考えます。

p( x, y ) = f(x)・g(y)

このときの周辺分布は

p_x(x) = ∫{-∞→∞} f(x)・g(y) dy = c・f(x) ( c = ∫{-∞→∞} g(y) dy )

p_y(y) = ∫{-∞→∞} f(x)・g(y) dx = d・g(y) ( d = ∫{-∞→∞} f(x) dx )

になります。ところが、∫{-∞→∞} p_x(x) dx = 1 なので、

∫{-∞→∞} p_x(x) dx = ∫{-∞→∞} c・f(x) dx = 1

d = ∫{-∞→∞} f(x) dx より

c・d = 1

が成り立ちます。よって、

p_x(x)・p_y(y) = c・f(x)・d・g(y) = f(x)・g(y) = p( x, y )

となって、p( x, y ) が周辺分布の積で表されることになります。一般的に、N 変数に対して二つの関数の積に分解することができれば、同様の方法によって

p(x) = p_x1(x₁)・p_x2(x₂)

と表すことができます。但し、x₁ と x₂ の中の変数を全て集めたものが x になるとします。

2 変数の場合に話を戻すと、p( x, y ) = p_x(x)・p_y(y) ならば、

p(x|y) = p_x(x)・p_y(y) / p_y(y) = p_x(x)

と表すことができます。y = y₀ としたとき、p_y(y₀) は定数となって、

p( x, y₀ ) = p_x(x)・p_y(y₀) = K₀・p_x(x) ( K₀ = p_y(y₀) )

つまり、平面上に広がる分布の山を x = x₀ で切った分布と、別の変数 x = x₁ で切った分布は、定数値が異なるだけで、y の値によって変化する分布の形状は同じになることを示しています。このとき、変数 x と y は独立であるといいます。例えば、ある学力テストの点数と身長とは互いに無関係で、身長が高くなるほどテストの点が高くなったり、逆に低くなるとは通常考えないと思います。よって、テストの点数に対する分布は身長に関係なくどれも同じで、身長を考慮しない、全体に対する分布の形状と等しいと考えるのが自然です。このような場合、身長とテストの点数を変数とする確率密度関数は、身長についての関数とテストの点数についての関数の積で表すことができます。しかし、身長と体重の分布や、テストの点の中で数学と英語の点数についての分布を考えるような場合、分布の形状は変化することが予想できます。このようなとき、二つの変数は独立ではないということになるわけです。

簡単な例を挙げます。3 回の試行を繰り返す「ベルヌーイ列」

Ω = { ( a₁, a₂, a₃ ) | a_i = 0, 1 ( i = 1, 2, 3 ) }

が表す標本点を実際に書き出してみると、

Ω = {
  ( 0, 0, 0 ),
  ( 1, 0, 0 ), ( 0, 1, 0 ), ( 0, 0, 1 ),
  ( 1, 1, 0 ), ( 1, 0, 1 ), ( 0, 1, 1 ),
  ( 1, 1, 1 )
}

で、これらは三次元空間において、原点を頂点の一つとする体積 1 の立方体の各頂点になります。分かりやすくなるように ( a₁, a₂, a₃ ) = ( x, y, z ) として、各頂点の持つ確率は P( x, y, z ) = p^x+y+z( 1 - p )^3-(x+y+z) とします。ここで、x 軸方向に並んだ標本点( ( y, z ) が等しい点 ) の確率の和を P_yz( y, z ) とすると、

P_yz( 0, 0 ) = P( 0, 0, 0 ) + P( 1, 0, 0 ) = p⁰( 1 - p )³ + p¹( 1 - p )² = ( 1 - p )²{ ( 1 - p ) + p } = ( 1 - p )²
P_yz( 1, 0 ) = P( 0, 1, 0 ) + P( 1, 1, 0 ) = p¹( 1 - p )² + p²( 1 - p )¹ = ( 1 - p ){ p( 1 - p ) + p² } = p( 1 - p )
P_yz( 0, 1 ) = P( 0, 0, 1 ) + P( 1, 0, 1 ) = p¹( 1 - p )² + p²( 1 - p )¹ = p( 1 - p )
P_yz( 1, 1 ) = P( 0, 1, 1 ) + P( 1, 1, 1 ) = p²( 1 - p )¹ + p³( 1 - p )⁰ = p²

になります。これはちょうど、立方体を yz 平面上に押しつぶして正方形にしたときに重なった標本点について和を求めたことになり、x の値に関係なく y と z が取る値に対する周辺分布を表しています。さらに、y 軸上に並んだ標本点( z が等しい点 ) について和を求め、それを P_z( z ) とすると、

P_z( 0 ) = P_yz( 0, 0 ) + P_yz( 1, 0 ) = ( 1 - p )² + p( 1 - p ) = ( 1 - p ){ ( 1 - p ) + p } = 1 - p
P_z( 1 ) = P_yz( 0, 1 ) + P_yz( 1, 1 ) = p( 1 - p ) + p² = p

となって、1 回のベルヌーイ試行における確率と等しくなります。これは、x と y の値に関係なく z が 0 または 1 となった場合の周辺分布を示しています。P_x( x ) や P_y( y ) も同じ値になり、その独立性から

P( x, y, z ) = P_x( x )・P_yz( y, z ) = P_x( x )・P_y( y )・P_z( z )

が成り立ちます。例えば、

P( 1, 0, 1 ) = p²( 1 - p )
P_x( 1 )・P_yz( 0, 1 ) = p・p( 1 - p ) = p²( 1 - p )
P_x( 1 )・P_y( 0 )・P_z( 1 ) = p( 1 - p )p = p²( 1 - p )

と求めることができます。

3) 確率変数の変換

ある集合族に対する確率変数の決め方は一意ではないので、ある事象を数値で判断する場合に最適なパラメータを選択することがある程度できます。例えば、二項分布においては事象の起こった回数(成功数)で確率を調べる代わりに全試行回数との比率(成功率)を用いることもできます。確率変数を変換したとき、その分布はどのようになるでしょうか。

Ω = R 上の任意の確率分布 p(x) に対して、関数 y = f(x) によって確率変数 x を y に対する分布 q(y) へ変換するとき、x 軸上の微小区間 [ x, x + dx ] に対する確率 p(x)dx は y 軸上の微小区間 [ y, y + dy ] = [ f(x), f(x + dx) ] に対する確率 q(y)dy ( = q(f(x))dy ) と等しくなるように分布が移されることになるので、

p(x)dx = q(y)dy より

q(y) = p(x)・| dx / dy | = p(x)・| f^-1(y) / dy |

が成り立ちます。p(x) も q(y) も確率密度なので正値をとることから、dx / dy と f^-1(y) / dy は絶対値をとって必ず正値とする必要があります。

また、上記の場合は逆関数 x^-1(y) が y に対して一意に決まる必要があって、そうでない場合、任意の y に対する複数の x 値 x_i = f_i^-1(y) に対して

q(y) = Σ_i( p(x)・| dx_i / dy | ) = Σ_i( p(x)・| f_i^-1(y) / dy | )

とする必要があります。

例えば、確率分布 p(x) を y = ax + b に対する分布 q(y) に変換すると、

q(y) = p(x)・| dx / dy | = p(x) / |a|

となります。また、p(x) と q(y) の平均と分散をそれぞれ μ_x, σ_x² 及び μ_y, σ_y² とすれば、q(y)dy = p(x)dx より

μ_y = ∫ yq(y) dy	=	∫ ( ax + b )p(x) dx
	=	a∫ xp(x) dx + b∫ p(x) dx
	=	aμ_x + b

σ_y²	=	∫ ( y - μ_y )²q(y) dy
	=	∫ a²( x - μ_x )²p(x) dx
	=	a²σ_x²

という関係式を得ることができます(積分の範囲 {-∞→∞} は省略して書いています)。

二項分布 B_N,p(r) = _NC_rp^rq^N-r において、確率変数 r を t = r / N に置き換えれば、dr / dt = N より

B_N,p(t) = N_NC_Ntp^Ntq^N(1-t)

また、平均と分散は

μ_t = μ_r / N = p

σ_t² = σ_r² / N² = pq / N

になります。

N → ∞ としたとき、t = r / N → 0 であり、変換された分布の幅 [ 0, 1 ] に対して相対的に N が大きくなることからその比率はゼロに近づいていきます。このとき、平均は p であり、分散は pq / N → 0 ( N → ∞ ) なので、分布は p の周囲に集まり、最終的には幅がゼロになってしまします。幅がゼロでもその積分は 1 になることから、これは次に示すような関数 δ_p(t) になります。

δ_p(t)	=	0 ( t ≠ p )
	=	∞ ( t = p )

∫{-∞→∞} δ_p(t) dt = 1

∫{-∞→∞} δ_p(t)f(t) dt = f(p)

これを「ディラックのデルタ関数(Dirac's Delta Function)」といいます。δ_p(t) は x = p のときだけ「無限大」という値を持ちますが、通常はこのような関数はないため、超関数(Generalized Function)と呼ばれる、関数をより一般化した概念になります。

多変数の確率密度に対しても同様な考え方で確率変数を変化させることができます。N 個の確率変数 x = ( x₁, x₂, ... x_N ) を持つ確率分布 p(x) を y = ( y₁, y₂, ... y_N ) に対する分布 q(y) に変換するとき、微小区間 I_i = [ x, x_i + dx_i ] ( i = 1,2, ... N ) から成る直積集合 I = I₁ x I₂ x ... x I_N 上の確率 p(x)dx₁dx₂...dx_N = p(x)dx が、微小区間 J_i = [ y, y_i + dy_i ] ( i = 1,2, ... N ) から成る直積集合 J = J₁ x J₂ x ... x J_N 上の確率 q(y)dy₁dy₂...dy_N = q(y)dy と等しいとすれば、

q(y)dy = p(x)dx

になります。ここで、重積分における変数変換で利用される「ヤコビアン(Jacobian)」 det( J(y) ) を使って

dx = | det( J(y) ) |dy

より、

q(y) = p(x)| det( J(y) ) |

但し、det( J(y) ) ≠ 0 である必要があります。J(y) は「ヤコビ行列(Jacobian matrix)」と呼ばれる次のような行列を表し、ヤコビアンはその行列式です。

J(y)	=	\|	dx₁/dy₁	,	dx₁/dy₂	, ... ,	dx₁/dy_n	\|
		\|	dx₂/dy₁	,	dx₂/dy₂	, ... ,	dx₂/dy_n	\|
		\|	:	,	:	, ... ,	:	\|
		\|	dx_n/dy₁	,	dx_n/dy₂	, ... ,	dx_n/dy_n	\|

2 変数の確率分布 p( x, y ) に対して、( u, v ) = ( x + y, y ) として変数変換を行ったとき、x = u - v, y = v より

det( J( u, v ) ) = ∂x/∂u・∂y/∂v - ∂x/∂v・∂y/∂u = 1

なので、変数変換後の確率分布を q( u, v ) としたとき、

q( u, v ) = p( x, y ) = p( u - v, v )

が成り立ちます。この周辺分布 q_U(u) は

q_u(u) = ∫{-∞→∞} q( u, v ) dv

になりますが、x と y が独立なら

q( u, v ) = p( x, y ) = p_x(x)p_y(y)

なので、

q_u(u) = ∫{-∞→∞} p_x( u - v )p_y(v) dv

これは「畳み込み積分(Convolution)」と同じ式であり、p_x(u) * p_y(u) と表すことができます。u = x + y の形に表したということは、片側の確率変数を二つの変数の和に置き換えたことを意味します。その周辺分布を考えるということは和の分布に置き換えるということで、その場合の式が畳み込み積分の形を取ることになります。

ベルヌーイ試行の確率 φ(x) を、

φ(1) = p
φ(0) = q = 1 - p
φ(x) = 0 ( x ≠ 0 かつ x ≠ 1 )

と表したとき、独立した二つのベルヌーイ試行によるベルヌーイ列の要素を ( x₁, x₂ ) で表せば、それは ( 0, 0 ), ( 1, 0 ), ( 0, 1 ), ( 1, 1 ) のいずれかになり、r = x₁ + x₂ としたとき、r は 0 から 2 までの値を取ることができます。このとき、r に対する確率密度は畳み込み積分 φ(r) * φ(r) で求められ、これを φ₂(r) とすると、

φ₂(r)	=	Σ_t{0→1}( φ( r - t )φ( t ) )
	=	φ( r )φ( 0 ) + φ( r - 1 )φ( 1 )

より

φ₂(2) = φ( 2 )φ( 0 ) + φ( 1 )φ( 1 ) = p²

φ₂(1) = φ( 1 )φ( 0 ) + φ( 0 )φ( 1 ) = 2pq

φ₂(0) = φ( 0 )φ( 0 ) + φ( -1 )φ( 1 ) = q²

さらに三つのベルヌーイ試行に対して r に対する確率密度を φ₃(r) とすれば、これは φ₂(r) * φ(r) で求められ、

φ₃(r)	=	Σ_t{0→1}( φ₂( r - t )φ( t ) )
	=	φ₂( r )φ( 0 ) + φ₂( r - 1 )φ( 1 )

より

φ₃(3) = φ₂( 3 )φ( 0 ) + φ₂( 2 )φ( 1 ) = p³

φ₃(2) = φ₂( 2 )φ( 0 ) + φ₂( 1 )φ( 1 ) = 3p²q

φ₃(1) = φ₂( 1 )φ( 0 ) + φ₂( 0 )φ( 1 ) = 3pq²

φ₃(0) = φ₂( 0 )φ( 0 ) + φ₂( -1 )φ( 1 ) = q³

になります。これは二項分布を表しており、その確率密度関数は _nC_r p^rq^n-r ですが、上記の結果は二項分布の式と一致しています。そこで、φ_n-1( r ) = _n-1C_r p^rq^n-1-r とすれば、φ_n( r ) = φ_n-1(r) * φ(r) は

φ_n(r)	=	Σ_t{0→1}( φ_n-1( r - t )φ( t ) )
	=	φ_n-1( r )φ( 0 ) + φ_n-1( r - 1 )φ( 1 )
	=	q_n-1C_r p^rq^n-1-r + p_n-1C_r-1 p^r-1q^n-1-(r-1)
	=	( _n-1C_r + _n-1C_r-1 ) p^rq^n-r
	=	_nC_r p^rq^n-r ( 「組み合わせ」の公式 _nC_r = _n-1C_r + _n-1C_r-1 より )

となるので、二項分布は n 個のベルヌーイ試行の畳み込み積分として表せることになります。

4) 相関係数(Correlation Coefficient)

一変数の場合と同じように、N 変数を持つ確率密度関数 p(x) ( x = ( x₁, x₂, ... x_N ) ) と可積分関数 f(x) が与えられたとき、その期待値 E[f] を

E[f] = ∫...∫{x∈R^N} f(x)p(x) dx

と定義します。ここで、関数 f が x の i 番目の成分 x_i だけを変数として持っている場合、

E[f]	=	∫...∫{x∈R^N} f(x_i)p(x) dx
	=	∫{-∞→∞} f(x_i) ( ∫{-∞→∞}...∫{-∞→∞} p(x) dx₁dx₂...dx_i-1dx_i+1...dx_N ) dx_i

ここで、∫{-∞→∞}...∫{-∞→∞} p(x) dx₁dx₂...dx_i-1dx_i+1...dx_N は周辺分布を表しているので p_i(x_i) とおけば、

E[f] = ∫{-∞→∞} f(x_i) p_i(x_i) dx_i

になります。確率密度関数が多変数であっても、関数 f が一変数であれば、一変数の周辺分布を利用した積分に置き換えることができることになります。特に、f(x_i) = x_i ならば、

E[x_i] = ∫{-∞→∞} x_i p_i(x_i) dx_i = μ_i

として、一変数の場合と同様に平均値 μ_i を定義することができます。また、( x_i - μ_i )² の期待値は

E[( x_i - μ_i )²] = ∫{-∞→∞} ( x_i - μ_i )² p_i(x_i) dx_i = σ_i²

となるので、分散 σ_i² が定義できることになります。

f(x) が各確率変数を持った関数の和の形、すなわち f(x) = f₁(x₁) + f₂(x₂) + ... + f_n(x_n) の形をとる関数に対する期待値は、

E[f]	=	∫{-∞→∞}...∫{-∞→∞} f(x) p(x) dx₁...dx_n
	=	∫{-∞→∞}...∫{-∞→∞} { f₁(x₁) + f₂(x₂) + ... + f_n(x_n) } p(x) dx₁...dx_n
	=	Σ_i{1→n}( ∫{-∞→∞} f_i(x_i) p_i(x_i) dx_i )
	=	Σ_i{1→n}( E[f_i] )

となるので、和に対する期待値は期待値の和で表せることを意味します。また、確率変数 x = ( x₁, x₂, ... x_n ) が全て互いに独立で、p(x) = p₁(x₁)p₂(x₂)...p_n(x_n) の形に表すことができる場合、f(x) = f₁(x₁)f₂(x₂)...f_n(x_n) の形をとる関数に対する期待値は、

E[f]	=	∫{-∞→∞}...∫{-∞→∞} f(x) p(x) dx₁...dx_n
	=	∫{-∞→∞}...∫{-∞→∞} f₁(x₁)f₂(x₂)...f_n(x_n) p₁(x₁)p₂(x₂)...p_n(x_n) dx₁...dx_n
	=	∫{-∞→∞}...∫{-∞→∞} f₁(x₁)p₁(x₁) f₂(x₂)p₂(x₂) ... f_n(x_n)p_n(x_n) dx₁...dx_n
	=	Π_i{1→n}( ∫{-∞→∞} f_i(x_i) p_i(x_i) dx_i )
	=	Π_i{1→n}( E[f_i] )

となって、確率変数が全て互いに独立であれば、積に対する期待値は期待値の積で表せることになります。

任意の N 次元ベクトル x = ( x₁, x₂, ... x_N ) と、N 変数の確率密度関数の平均値から成るベクトル μ = ( μ₁, μ₂, ... μ_N ) の差を δ = ( x₁ - μ₁, x₂ - μ₂, ... x_N - μ_N ) としたとき、δ^Tδ は N 行 N 列の正方行列となって、その r 行 c 列目の要素 a_rc は

a_rc = ( x_r - μ_r )( x_c - μ_c )

になります。x を確率変数とする確率分布 p(x) の a_rc に対する期待値を γ_rc とすると、

γ_rc = E[a_rc] = ∫{-∞→∞}...∫{-∞→∞} ( x_r - μ_r )( x_c - μ_c ) p(x) dx

となり、この値を「共分散(Covariance)」、共分散を要素とする行列を「共分散行列(Covariance Matrix)」といいます。共分散行列に関しては「主成分分析」でも紹介していますが、そこでは各ベクトルの要素から直接、平均と共分散を求めています。ここでは N 次元ベクトル上の各要素が離散値から連続量となって、ある確率分布に従うとしたときの式であると考えると分かりやすいと思います。

x_r と x_c を変数とする周辺分布を p_rc( x_r, x_c ) としたとき、共分散 γ_rc は

γ_rc = ∫{-∞→∞}∫{-∞→∞} ( x_r - μ_r )( x_c - μ_c ) p_rc( x_r, x_c ) dx_rdx_c

になります。r = c ならば周辺分布は一変数のみとなって、分散と一致します。また、上式は

γ_rc	=	∫{-∞→∞}∫{-∞→∞} ( x_rx_c - μ_cx_r - μ_rx_c + μ_rμ_c ) p_rc( x_r, x_c ) dx_rdx_c
	=	∫{-∞→∞}∫{-∞→∞} x_rx_cp_rc( x_r, x_c ) dx_rdx_c - μ_c∫{-∞→∞}x_r ( ∫{-∞→∞} p_rc( x_r, x_c ) dx_c ) dx_r
		- μ_r∫{-∞→∞}x_c ( ∫{-∞→∞} p_rc( x_r, x_c ) dx_r ) dx_c + μ_rμ_c∫{-∞→∞}∫{-∞→∞} p_rc( x_r, x_c ) dx_rdx_c
	=	∫{-∞→∞}∫{-∞→∞} x_rx_cp_rc( x_r, x_c ) dx_rdx_c - μ_c∫{-∞→∞}x_r p_r(x_r) dx_r - μ_r∫{-∞→∞}x_c p_c(x_c) dx_c + μ_rμ_c
	=	∫{-∞→∞}∫{-∞→∞} x_rx_cp_rc( x_r, x_c ) dx_rdx_c - μ_cμ_r - μ_rμ_c + μ_rμ_c
	=	∫{-∞→∞}∫{-∞→∞} x_rx_cp_rc( x_r, x_c ) dx_rdx_c - μ_rμ_c

となって、∫{-∞→∞}∫{-∞→∞} x_rx_cp_rc( x_r, x_c ) dx_rdx_c = E[x_rx_c]、μ_rμ_c = E[x_r]E[x_c] だから、

γ_rc = E[x_rx_c] - E[x_r]E[x_c]

が成り立ちます。

共分散は、確率変数が表す値の単位に影響を受けます。例えば、身長と体重の分布を使って共分散を求めた時、身長を cm と m のどちらで表すか、また体重を kg と g のどちらで表すか、などによって共分散は変化します。各データにおける共分散の大小を比較したいような場合にこれでは困るので、それぞれの分散の平方根(標準偏差)の積で徐算することで正規化処理を行います。

ρ_rc = γ_rc / σ_rσ_c

この値 ρ_rc を「相関係数(Correlation Coefficient)」といいます。具体的に書くと

ρ_rc = ∫∫ ( x_r - μ_r )( x_c - μ_c ) p_rc( x_r, x_c ) dx_rdx_c / [ { ∫∫ ( x_r - μ_r )² p_rc( x_r, x_c ) dx_rdx_c }^1/2・{ ∫∫ ( x_c - μ_c )² p_rc( x_r, x_c ) dx_rdx_c }^1/2 ]

但し、積分する区間 ( {-∞→∞} ) の記述は省略しています。p_rc は確率密度関数なので、任意の ( x_r, x_c ) に対して p_rc( x_r, x_c ) ≥ 0 が保証されています。従って、

f_r( x_r, x_c ) = ( x_r - μ_r ) { p_rc( x_r, x_c ) }^1/2

f_c( x_r, x_c ) = ( x_c - μ_c ) { p_rc( x_r, x_c ) }^1/2

とすれば上式は

ρ_rc = ∫∫ f_rf_c dx_rdx_c / [ { ∫∫ f_r² dx_rdx_c }^1/2・{ ∫∫ f_c² dx_rdx_c }^1/2 ]

ここで、f_r, f_c の引数をさらに省略して記述しています。( f_r, f_c ) = ∫∫ f_rf_c dx_rdx_c とすれば、( f_r, f_c ) は内積の公理を満たすので、「コーシー = シュワルツの不等式(Cauchy-Schwarz Inequality)」から

- { ∫∫ f_r² dx_rdx_c }^1/2・{ ∫∫ f_c² dx_rdx_c }^1/2 ≤ ∫∫ f_rf_c dx_rdx_c ≤ { ∫∫ f_r² dx_rdx_c }^1/2・{ ∫∫ f_c² dx_rdx_c }^1/2

よって、

-1 ≤ ρ_rc ≤ 1

つまり、相関係数の絶対値は 1 以下になります。もし、x_r と x_c が独立ならば、p_rc( x_r, x_c ) = p_r(x_r)p_c(x_c) となるので、

γ_rc	=	∫{-∞→∞}∫{-∞→∞} ( x_r - μ_r )( x_c - μ_c ) p_r(x_r)p_c(x_c) dx_rdx_c
	=	∫{-∞→∞} ( x_r - μ_r )p_r(x_r) dx_r ∫{-∞→∞} ( x_c - μ_c )p_c(x_c) dx_c
	=	{ ∫{-∞→∞} x_rp_r(x_r) dx_r - μ_r∫{-∞→∞} p_r(x_r) dx_r }{ ∫{-∞→∞} x_cp_c(x_c) dx_c - μ_c∫{-∞→∞} p_c(x_c) dx_c }
	=	( μ_r - μ_r )( μ_c - μ_c ) = 0

よって、共分散も相関係数もゼロになります。|ρ_rc| = 1 ならばどうなるかというと、これは |γ_rc| = σ_rσ_c を意味するので、この両辺を二乗した上で少し変形すると

γ_rc² - σ_r²σ_c² = 0

これを、二次方程式

σ_r²t² + 2γ_rct + σ_c² = 0

の判別式とみなせば t は重根となって、

( σ_rt + σ_c )² = 0

になります。上に示した二次方程式は、σ_r² = ∫∫ ( x_r - μ_r )² p_rc dx_rdx_c, σ_c² = ∫∫ ( x_c - μ_c )² p_rc dx_rdx_c, γ_rc = ∫∫ ( x_r - μ_r )( x_c - μ_c ) p_rc dx_rdx_c より (以下、積分する区間 ( {-∞→∞} ) の記述は省略します。また、p_rc はもちろん p_rc( x_r, x_c ) のことです)

	∫∫ t²( x_r - μ_r )² p_rc dx_rdx_c + ∫∫ 2t( x_r - μ_r )( x_c - μ_c ) p_rc dx_rdx_c + ∫∫ ( x_c - μ_c )² p_rc dx_rdx_c
=	∫∫ [ { ( x_r - μ_r )t }² + 2( x_r - μ_r )( x_c - μ_c )t + ( x_c - μ_c )² ] p_rc dx_rdx_c
=	∫∫ { ( x_r - μ_r )t + ( x_c - μ_c ) }² p_rc dx_rdx_c
=	E[ { ( x_r - μ_r )t + ( x_c - μ_c ) }² ]

になるので、|ρ_rc| = 1 のとき、{ ( x_r - μ_r )t + ( x_c - μ_c ) }² の期待値がゼロになるような実数 t を持つことができます。E[ { ( x_r - μ_r )t + ( x_c - μ_c ) }² ] ≥ 0 なので、これがゼロになるためには p_rc = 0 でない限り

( x_r - μ_r )t + ( x_c - μ_c ) = 0

の形を取る必要があり、このとき x_r と x_c は一次関数の形で表されます。

|ρ_rc| < 1 のとき、上で示した判別式は負数であり、二次方程式は実数解を持つことができません。よって E[ { ( x_r - μ_r )t + ( x_c - μ_c ) }² ] ≠ 0 であり、x_r と x_c は一次関数の形になりえないことを意味します。逆に、x_r = ax_c + b の形を取るとき、

μ_r	=	∫{-∞→∞} x_r p_r(x_r) dx_r
	=	∫{-∞→∞} x_r ( ∫{-∞→∞} p_rc( x_r, x_c ) dx_c ) dx_r
	=	∫{-∞→∞} ( ax_c + b ) ( ∫{-∞→∞} p_rc dx_r ) dx_c
	=	∫{-∞→∞} ( ax_c + b ) p_c(x_c) dx_c
	=	aμ_c + b

また、分散は

σ_r²	=	∫{-∞→∞} ( x_r - μ_r )² p_r(x_r) dx_r
	=	∫{-∞→∞} { ( ax_c + b ) - ( aμ_c + b ) }² p_c(x_c) dx_c
	=	a²∫{-∞→∞} ( x_c - μ_c )² p_c(x_c) dx_c
	=	a²σ_c²

なので、共分散 γ_rc は

γ_rc	=	∫{-∞→∞}∫{-∞→∞} ( x_r - μ_r )( x_c - μ_c ) p_rc( x_r, x_c ) dx_rdx_c
	=	∫{-∞→∞}∫{-∞→∞} { ( ax_c + b ) - ( aμ_c + b ) }( x_c - μ_c ) p_rc( x_r, x_c ) dx_rdx_c
	=	∫{-∞→∞}∫{-∞→∞} a( x_c - μ_c )² p_rc( x_r, x_c ) dx_rdx_c
	=	aσ_c²

よって、相関係数 ρ_rc は、

|ρ_rc| = | γ_rc / σ_rσ_c | = | aσ_c² / |a|σ_cσ_c | = 1

になります。2 変数が互いに影響を及ぼさない独立した状態ならば、相関係数はゼロになり、一次関数の形で表される場合は 1 になります。2 変数を xy座標上にプロットすると、直線に近似できるような状態であれば、相関係数の値は大きくなっていくことになるので、グラフを見てデータの相関を読み取るようなことができます。これを「散布図(Scatter Plot ; Scattergraph)」といいます。

5) 回帰曲線(Regression Curve)

y の x に関する条件付確率密度は次のように表されるのでした。

p(y|x) = p( x, y ) / p_x( x )

ここで、x は定数、y は変数になっています。この分布の平均を μ_y|x とすると、

μ_y|x = ∫{-∞→∞} y・p(y|x) dy

となって、今度は x のみを含む関数として見ることができるようになります。この関数を μ_y(x) として、グラフ上にプロットしたものを x に対する y の「回帰曲線(Regression Curve)」といいます。

x と y が独立なら、

p(y|x) = p( x, y ) / p_x( x ) = p_x( x )p_y( y ) / p_x( x ) = p_y( y )

なので、

μ_y(x) = ∫{-∞→∞} y・p_y( y ) dy = μ_y

つまり、x の値に関係なく一定となります。μ_y(x) は、x の値を変化させた時の y の平均を表しているので、x と y が独立であれば x がどのように変化しても平均が変化することはないことを意味しています。もちろん μ_x(y) も同様に変化はしません。

次に、回帰曲線が一次関数 Y = aX + b の形をとる場合を考えてみます。このとき、

μ_y(x) = ∫{-∞→∞} y・p(y|x) dy = ax + b ... (1)

となります。この右辺の期待値は

E[ax + b]	=	∫{-∞→∞}∫{-∞→∞} ( ax + b )p( x, y ) dxdy
	=	∫{-∞→∞} ( ax + b )( ∫{-∞→∞} p( x, y ) dy ) dx
	=	∫{-∞→∞} ( ax + b )p_x( x ) dx
	=	aμ_x + b

となりますが、μ_y(x) は x を固定したときの y の期待値を表しているので、さらにその期待値を求めた結果は

E[μ_y(x)] = ∫{-∞→∞} μ_y(x) dx = μ_y

であり、

μ_y = aμ_x + b ... (2)

となります。(1) と (2) を辺々引くと

∫{-∞→∞} y・p(y|x) dy - μ_y = a( x - μ_x )

∫{-∞→∞} p(y|x) dy = 1 なので、上式の左辺は

∫{-∞→∞} y・p(y|x) dy - ∫{-∞→∞} μ_y・p(y|x) dy = ∫{-∞→∞} ( y - μ_y )・p(y|x) dy

よって、

∫{-∞→∞} ( y - μ_y )・p(y|x) dy = a( x - μ_x ) ... (3)

次に、E[a( x - μ_x )²] = aσ_x² を計算すると、

aσ_x² = ∫{-∞→∞} a( x - μ_x )²・p_x( x ) dx

ここに、(3)式を代入すると

aσ_x²	=	∫{-∞→∞} ( x - μ_x ) ( ∫{-∞→∞} ( y - μ_y )・p(y\|x) dy )・p_x( x ) dx
	=	∫{-∞→∞} ∫{-∞→∞} ( x - μ_x )( y - μ_y )・p(y\|x)・p_x( x ) dxdy
	=	∫{-∞→∞} ∫{-∞→∞} ( x - μ_x )( y - μ_y )・p( x, y ) dxdy
	=	γ_xy

よって、

a = γ_xy / σ_x² = ρσ_y / σ_x

また、(2) 式より

b = μ_y - aμ_x = μ_y - ρ( σ_y / σ_x )μ_x

よって回帰曲線の式は

( Y - μ_y ) / σ_y = ρ( X - μ_x ) / σ_x

になります。( X - μ_x ) / σ_x や ( Y - μ_y ) / σ_y は「標準得点(Standard Score)」と呼ばれ、ばらつき(分散)の大小によって平均との差の意味が異なるのを調整する、言わば正規化処理です。相関係数のところでも説明したように、平均との差はデータの単位によって異なるため、このような正規化が行われます。すると、それぞれの標準得点を Z_x, Z_y とすれば、

Z_y = ρZ_x

という非常にシンプルな式で表すことができます。

回帰曲線が直線であるということは、二変数の分布が直線の付近に集中しているということになります。どの程度集中しているかは分散の大きさによって変化しますが、正規化したとき、その傾きは相関係数 ρ と等しくなります。μ_x(y) を一次関数として考えても全く同じ流れで Z_x = ρZ_y すなわち Z_y = ( 1 / ρ )Z_x という式が得られます。この違いは、x を固定したときの y の平均を考えるのか、それとも y を固定したときの x の平均を考えるのかによって発生します。

二変数の確率密度関数に対する共分散行列は

V	=	\|	σ_x²,	γ_xy	\|
		\|	γ_xy,	σ_y²	\|

となりますが、変数を正規化すると μ_{Z_x} = μ_{Z_y} = 0, σ_{Z_x}² = σ_{Z_y}² = 1 となり、

γ_{Z_xZ_y} = E[( Z_x - μ_{Z_x} )( Z_y - μ_{Z_y} )] = E[Z_xZ_y]

なので、

V	=	\|	1,	γ_{Z_xZ_y}	\|
		\|	γ_{Z_xZ_y},	1	\|
	=	\|	1,	E[Z_xZ_y]	\|
		\|	E[Z_xZ_y],	1	\|

になります。σ_{Z_x}² = σ_{Z_y}² = 1 より、γ_{Z_xZ_y} は相関係数と等しいので、以降 γ_{Z_xZ_y} を ρ として、固有方程式は

det( \| λE - V \| )	=det(	\|	λ - 1,	-ρ	\|	)
det( \| λE - V \| )	=det(	\|	-ρ,	λ - 1	\|	)

=	( λ - 1 )² - ρ²
=	λ² - 2λ + ( 1 - ρ² )

よって、固有値 λ は

λ = 1 ± ρ

固有ベクトルは

\| ( 1 ± ρ )E - V	\|	\|	x	\| =	\|	±ρ,	-ρ,	\|\|	x	\| = 0
		\|	y	\|	\|	-ρ,	±ρ,	\|\|	y	\|

より、一つの解として

( x, y ) = ( ±1 / √2, 1 / √2 )

が得られます。よって、V の固有値分解は

1 / √2,

1 / √2

| |

1 / √2,

-1 / √2

1 + ρ,

-1 / √2,

1 / √2

| |

ρ,

| |

1 / √2,

1 / √2

1 - ρ

であり、二次形式の標準形は

1 / √2,

1 / √2

x / √2 + y / √2

-1 / √2,

1 / √2

-x / √2 + y / √2

としたとき、

f = ( 1 + ρ )x'² + ( 1 - ρ )y'²

になります。

変数を正規化したとき、回帰曲線が直線だった場合はその傾きは 1 / ρ になりました。それに対し、主軸変換を行った場合の主軸の傾きは ±1 となり、両者の値は異なります。どちらも分布の平均 ( μ_x, μ_y ) を通る直線を表しているのにも関らず、その傾きに違いが発生するのは、そもそも求め方に違いがあるのが理由なのですが、両者はよく混同されているようです。両者の違いについては別途紹介をしたいと思いますが、ここでは両者が異なるモデルから成るということを強調しておきます。ちなみに、回帰曲線を利用した手法として「最小二乗法」、相関係数や共分散を利用した手法として「主成分分析」が代表として挙げられます。

多変数の確率分布を定義する上でのインターフェースを以下に示します。

namespace Statistics
{
  // 多変数確率分布用インターフェース
  class MultiProbDist
  {
  public:
    virtual double average( unsigned int i ) const = 0;  // 平均値
    virtual double variance( unsigned int i ) const = 0; // 分散
    virtual double covariance( unsigned int i, unsigned int j ) const = 0; // 共分散

    virtual unsigned int size() const = 0; // 変数の数
  };

  // 多変数離散分布用インターフェース
  class MultiDiscDist : public MultiProbDist
  {
    double getProb( vector<int>& p, const vector<int>& s, const vector<int>& e, unsigned int curIdx ) const;

  public:

    // 確率変数 ( n1, n2, ... ) に対する同時確率密度を返す
    virtual double operator[]( const vector<int>& n ) const = 0;

    // 区間 ( [s1,e1], [s2,e2] ... ) における確率を返す
    double p( vector<int> s, vector<int> e ) const;
  };

  // 多変数連続分布用インターフェース
  class MultiContDist : public MultiProbDist
  {
  public:

    // 確率変数 ( a1, a2, ... ) における同時確率密度を返す
    virtual double operator[]( const vector<double>& a ) const = 0;

    // 区間 ( [a1,b1], [a2,b2], ... ) における確率を返す
    virtual double p( const vector<double>& a, const vector<double>& b ) const = 0;
  };

  /*
    MultiDiscDist::getProb : 確率を求める再起処理用サブルーチン

    vector<int>& p : 現在の確率変数
    const vector<int> &s, &e : 和を求める確率変数の範囲( s:開始 e:終了 )
    unsigned int curIdx : 和を求める範囲の開始位置( curIdx以降の和を求める )

    戻り値 : 求めた確率
  */
  double MultiDiscDist::getProb( vector<int>& p, const vector<int>& s, const vector<int>& e, unsigned int curIdx ) const
  {
    double d = 0;

    for ( p[curIdx] = s[curIdx] ; p[curIdx] <= e[curIdx] ; ++( p[curIdx] ) ) {
      if ( curIdx == size() - 1 ) {
	d += (*this)[p];                     // 末尾に対してはその範囲の和を計算
      } else {
	d += getProb( p, s, e, curIdx + 1 ); // そうでなければ再起処理
      }
    }

    return( d );
  }

  /*
    MultiDiscDist::p : 指定した範囲の確率を求める

    const vector<int> &s, &e : 和を求める確率変数の範囲( s:開始 e:終了 )

    戻り値 : 求めた確率
  */
  double MultiDiscDist::p( vector<int> s, vector<int> e ) const
  {
    unsigned int n = size();

    if ( s.size() != n || e.size() != n ) return( NAN );

    // 開始と終了の大小関係が逆なら反転する
    for ( unsigned int i = 0 ; i < n ; ++i ) {
      if ( s[i] > e[i] )
        { int j = s[i]; s[i] = e[i]; e[i] = j; }
    }
    vector<int> p( n );

    return( getProb( p, s, e, 0 ) );
  }
}

一変数の場合と異なり、多変数では平均と分散は確率変数の番号を指定する形を取ります。また、共分散を求めるためのメンバ関数も用意します。相関係数は、共分散を標準偏差で割れば求めることができるので、専用のメンバ関数は省略しています。
指定した範囲の確率を求めるためのメンバ関数 p が用意されています。引数として、各確率変数の開始位置を示す s と、終了位置を示す e を渡すようにしてあります。連続分布に対しては、各確率分布の中で定義を行うのに対し、離散分布では operator[] を使って各確率変数に対する確率密度を順番に計算し、その和を求める処理をあらかじめ実装しています。各区間を指定する方法を取っているため、その範囲は、二変数なら矩形、三変数なら直方体の形になって、任意の範囲に対して(例えば二変数において三角形の範囲となるように)指定することはできません。

6) 多項分布(Multinomial Distribution)

多変数の確率分布の代表として「多項分布(Multinomial Distribution)」を紹介します。

二項定理の展開式を利用して二項分布が確率分布として成り立っていることが証明できたように、多項定理を利用すると「多項分布」という確率分布を導くことができます。多項定理は、任意の数の項を持つ多項式のべき乗を展開したときの式に関する定理で、次のような公式で表されます。

多項定理

( x₁ + x₂ + ... + x_k )ⁿ = Σ_{r₁,r₂, ... r_k}{ r₁ + r₂ + ... + r_k = n }( ( n! / r₁!・r₂!・...・r_k! )・x₁^r₁・x₂^r₂・...・x_k^r_k )

上の公式は、展開式の各項 x₁^r₁・x₂^r₂・...・x_k^r_k に対する係数が n! / r₁!・r₂!・...・r_k! であることを示しています。また、各項の次数 ( r₁ から r_k までの和 ) は必ずべき乗の数 n と等しくなります。例えば、( x + y + z )³ を展開したとき、項としては次の 10 通りが存在します。

x³, y³, z³, x²y, zx², xy², y²z, z²x, yz², xyz

また、この中の項 x²y に対する係数は 3! / 2!・1!・0! = 3 と求めることができます。

x₁ + x₂ + ... + x_k = 1 であれば、公式の左辺は 1 になります。よって、展開式の各項がある事象に対する確率密度を表すと考えれば、これは確率分布としての条件を満たしていることになります。この確率分布は次のような式で表すことができます。

P_n,p( r ) = P( r₁, r₂, ... r_k ) = ( n! / r₁!・r₂!・...・r_k! ) p₁^r₁・p₂^r₂・...・p_k^r_k

但し r₁ + r₂ + ... + r_k = n、p₁ + p₂ + ... + p_k = 1

さて、多項定理を使って先に確率分布の定義を行いましたが、これはどのような状態を表しているでしょうか。

一回の試行 E に対し、k 個の事象 ( E₁, E₂, ... E_k ) の中の一つだけが必ず起こるとして、それぞれの事象が発生する確率は p₁, p₂, ... p_k だったとします。この試行 E を n 回繰り返したとき、その標本空間 Ω は

Ω = { ( r₁, r₂, ... r_n ) | r_i = 1, 2, ... k ( i = 1, 2, ... n ) }

と表すことができます。ここで、二項分布のときと同様に、各事象が発生した回数に着目して、各事象 E_i がそれぞれ r_i 回発生した場合の標本点に対する確率を次のように定義します。

p( r₁, r₂, ... r_k ) = p₁^r₁・p₂^r₂・...・p_k^r_k

但し r₁ + r₂ + ... + r_k = n、p₁ + p₂ + ... + p_k = 1

ここでも二項分布と同様に、各試行が独立で、各事象が発生する箇所に関係なく、回数が同じであれば確率も同じであると仮定しています。各事象 E_i がそれぞれ r_i 回発生するとき、その合計が n 回になるような並べ方は「重複順列」の式より n! / r₁・r₂・...・r_k 個だから、多項分布の式が導かれたことになります。

i 番目の事象 E_i の発生回数に対する周辺分布は、r_i = r、Σ_j{j≠i}( r_j ) = n - r となるような分布を意味していることになるのでそれは二項分布であり、平均 μ_i = E[r_i] = np_i に、また r_i に対する分散も σ_i² = np_i( 1 - p_i ) になります。

二組の確率変数 x_i, x_j に対する共分散 γ_ij は、

γ_ij	=	E[( r_i - μ_i )( r_j - μ_j )]
	=	Σ...Σ( ( r_i - μ_i )( r_j - μ_j )P( r₁, r₂, ... r_k ) )

で計算できます。r_i, r_j 以外の確率変数をひとまとめにした周辺分布は

P_ij( r_i, r_j, n - r_i - r_j ) = { n! / r_i! r_j! ( n - r_i - r_j )! }・p_i^r_i・p_j^r_j・( 1 - p_i - p_j )^{n - r_i - r_j}

になるので、これを

P_ij( i, j, n ) = { n! / i!・j!・( n - i - j )! }・pⁱ・q^j・( 1 - p - q )^n-i-j

と表すことにします。このとき、共分散は

γ_ij	=	Σ_i{0→n}( Σ_j{0→n-i}( ( i - np )( j - nq ) P_ij( i, j, n ) )
	=	Σ_i{0→n}( Σ_j{0→n-i}( ( i - np )( j - nq ) { n! / i!・j!・( n - i - j )! }・pⁱ・q^j・( 1 - p - q )^n-i-j ) )
	=	Σ_i{0→n}( ( i - np ){ n! / i!・( n - i )! }・pⁱ Σ_j{0→n-i}( ( j - nq ) { ( n - i )! / j!・( n - i - j )! }・q^j・( 1 - p - q )^n-i-j ) )
	=	Σ_i{0→n}( ( i - np ) _nC_i pⁱ Σ_j{0→n-i}( ( j - nq ) _n-iC_j q^j・( 1 - p - q )^n-i-j ) )

ここで、

S_i	=	Σ_j{0→n-i}( ( j - nq ) _n-iC_j q^j・( 1 - p - q )^n-i-j )
	=	Σ_j{0→m}( ( j - nq ) _mC_j q^j・( 1 - p - q )^m-j )

とすると、

S_i	=	Σ_j{0→m}( ( j - nq ) _mC_j q^j・( 1 - p - q )^m-j )
	=	Σ_j{0→m}( j・_mC_j q^j・( 1 - p - q )^m-j ) - nqΣ_j{0→m}( _mC_j q^j・( 1 - p - q )^m-j )

ここで、第一項は二項分布の平均を求める方法を利用して mq ( 1 - p )^m-1 となるので ( 補足 2 の (1)式 )

S_i	=	mq ( 1 - p )^m-1 - nq( 1 - p )^m
	=	-q{ n( 1 - p ) - m }( 1 - p )^m-1
	=	-q{ n - np - ( n - i ) }( 1 - p )^n-i-1
	=	-q( i - np )( 1 - p )^n-i-1

よって、

γ_ij	=	Σ_i{0→n}( ( i - np ) _nC_i pⁱ { -q( i - np )( 1 - p )^n-i-1 } )
	=	-{ q / ( 1 - p ) } Σ_i{0→n}( ( i - np )² _nC_i pⁱ・( 1 - p )^n-i )

ところが、和の部分は二項分布での分散を表しているので np( 1 - p ) となって、

γ_ij = -{ q / ( 1 - p ) }・np( 1 - p ) = -npq

と求めることができます。

以上をまとめると、

多項分布 P_n,p(r) = ( n! / r₁!・r₂!・...・r_k! ) p₁^r₁・p₂^r₂・...・p_k^r_k

平均 : μ_i = np_i、分散 : σ_i² = np_i( 1 - p_i )

共分散 : γ_ij = -np_ip_j

多項分布の変数は k 個ありますが、その中のひとつは r_i = n - Σ_j{j≠i}( r_j ) という制限を持っているので k - 1 次元上の分布となります。よって、k = 2 ならばそれは一次元分布となり、二項分布と一致することになります。実際、二項分布 B_n,p(r) = _nC_rp^rq^n-r において n - r = s とすれば、r + s = n, p + q = 1 であり、

B_n,p(r) = ( n! / r!・( n - r )! )p^rq^n-r = ( n! / r!・s! )p^rq^s

なので、多項分布の式と一致します。B_m,p₁,p₂(r) = _mC_rp₁^rp₂^m-r ( 但し、p₁ + p₂ < 1 ) の m を変数として、Σ_r{0→m}( B_m,p₁,p₂(r) ) = SB_p₁,p₂(m) としたとき、「SB_p₁,p₂(m) が二項分布 _nC_mp₃^m( 1 - p₃ )^n-m に従うとすれば、B_m,p₁,p₂(r) は多項分布である」と考えることもできます。このとき、p₁ + p₂ + p₃ = 1 となり、p₁ + p₂ < 1 なので、B_m,p₁,p₂(r) は事象の発生回数の合計が m となるときの条件付確率を表し、その和は 1 以下です。また、各々の m に対する B_m,p₁,p₂(r) の和 SB_p₁,p₂(m) の分布は多項分布の周辺分布なので、その和を求めたときはじめて 1 になるわけです。そこで、

q₁ = p₁ / ( p₁ + p₂ )

q₂ = p₂ / ( p₁ + p₂ )

と表せば q₁ + q₂ = 1 となるので、B_m,q₁,q₂(r) = _mC_rq₁^rq₂^m-r は二項分布となります。

多項分布用クラスのサンプル・プログラムを以下に示します。

/*
  MultinomialDistribution : 多項分布

  P(r1,r2,...rk) = ( n! / r1!r2!...rk! ) p1^r1 p2^r2 ... pk^rk

    ri : i 番目の事象の発生回数
    pi : i 番目の事象が発生する確率
    n  : 事象の発生回数の和
*/
class MultinomialDistribution : public MultiDiscDist
{
  vector<double> _p; // 各事象の発生回数(要素数が事象の数 k を表す)
  unsigned int _n;   // 試行回数の合計

  static double fact( double n ); // 階乗の計算

public:

  // コンストラクタ
  MultinomialDistribution( const vector<double>& p, unsigned int n )
    : _n( n ) { _p.assign( p.begin(), p.end() ); }

  // 確率変数 r に対する確率密度を返す
  double operator[]( const vector<int>& r ) const;

  // 平均値
  double average( unsigned int i ) const
  { return( ( i >= size() ) ? NAN : (double)_n * _p[i] ); }

  // 分散
  double variance( unsigned int i ) const
  { return( ( i >= size() ) ? NAN : (double)_n * _p[i] * ( 1.0 - _p[i] ) ); }

  // 共分散
  double covariance( unsigned int i, unsigned int j ) const;

  // 変数の数
  unsigned int size() const { return( _p.size() ); }
};

/*
  MultinomialDistribution::fact 階乗 n! の計算

  戻り値 : 計算結果
*/
double MultinomialDistribution::fact( double n )
{
  if ( n <= 1 ) return( 1 );

  return( n * fact( n - 1 ) );
}

/*
  MultinomialDistribution::operator[] : 確率変数(多変量) r に対する確率密度を返す

  const vector<int>& r : 確率変数

  戻り値 : 確率密度
*/
double MultinomialDistribution::operator[]( const vector<int>& r ) const
{
  // r のサイズが異常な場合は無効値を返す
  if ( _p.size() != r.size() ) return( NAN );
  if ( r.size() == 0 ) return( NAN );

  // パラメータのチェック
  unsigned int n = 0;
  for ( unsigned int i = 0 ; i < r.size() ; ++i ) {
    if ( _p[i] < 0  ) return( NAN );
    if ( r[i] < 0 ) return( 0 );
    n += r[i];
  }
  if ( n != _n ) return( 0 );

  double fact_r = fact( r[0] );  // 階乗 r! の積を保持する変数
  double p = pow( _p[0], r[0] ); // p^r の積を保持する変数

  for ( unsigned int i = 1 ; i < r.size() ; ++i ) {
    // 確率ゼロの試行の回数がゼロでなければ事象の確率はゼロ
    if ( _p[i] == 0 && r[i] != 0 ) return( 0 );

    fact_r *= fact( (double)r[i] );
    p *= pow( _p[i], r[i] );
  }

  return( fact( _n ) * p / fact_r );
}

/*
  MultinomialDistribution::covariance : 共分散を返す

  unsigned int i, j : 対象の確率変数の番号

  戻り値 : 共分散(i,jが不正の場合は無効値)
*/
double MultinomialDistribution::covariance( unsigned int i, unsigned int j ) const
{
  if ( i >= size() || j >= size() ) return( NAN );

  return( - (double)( size() ) * _p[i] * _p[j] );
}

コンストラクタでは、各試行の発生する確率と、試行の総回数の二つを引数として渡します。ここで、全事象の確率の和が 1 であることはチェックを行っていません。従って、利用する側で事前にチェックをしておく必要があります。
メンバ関数 operator[] に各事象の発生した回数をやはり可変長配列の形で渡すことで、その場合の確率密度を返します。この時、配列の要素数は事象の数と完全に一致している必要があります。また、発生回数の総和は、コンストラクタで渡したものと一致する必要があり、そうでなければ戻り値としてゼロが返されます。多項分布の場合、各試行の回数の総和が定数であるという制限がありますが、実際には試行の総回数を制限しなくても、各試行回数から総和を計算することで計算自体はできるので、呼び出し側で総和が定数となるように気を付ければ、インスタンス化のときに試行の総回数を引数として渡すようなことは不要です。しかし、基底クラスの MultiDiscDist で用意したメンバ関数 p を利用して確率の総和を正しく求めることができるように、このような仕様にしています。

下図は、サイコロを投げたときに 1 の目が出た事象を E₁、偶数の目が出た事象を E₂、その他の場合を E₃ として、サイコロを投げる試行を 10 回繰り返したときのの分布の状態を表しています。それぞれの事象 E_i の確率 p_i は { p₁, p₂, p₃ } = { 1 / 6, 1 / 2, 1 / 3 } であり、グラフ内において、底平面上の縦軸が E₁ の発生回数 r₁、横軸が E₂ の発生回数 r₂ となります。従って、一番手前にある青色の分布は、r₁ = 0 の場合の、r₂ に対する分布を示していることになります。この分布を表す式は

₁₀C_r₂ p₂^r₂p₃^{10 - r₂}

となり、この和は、E₁ の発生回数に対する二項分布を考えたとき、その発生回数がゼロとなる確率を表します。

		E₂の発生回数
		0	1	2	3	4	5	6	7	8	9	10	合計
E₁ の発生回数	10	0.00000											0.00000
	9	0.00000	0.00000										0.00000
	8	0.00000	0.00001	0.00001									0.00002
	7	0.00002	0.00007	0.00011	0.00005								0.00025
	6	0.00006	0.00033	0.00075	0.00075	0.00028							0.00217
	5	0.00013	0.00100	0.00300	0.00450	0.00338	0.00101						0.01302
	4	0.00022	0.00200	0.00750	0.01500	0.01688	0.01013	0.00253					0.05427
	3	0.00025	0.00267	0.01200	0.03001	0.04501	0.04051	0.02025	0.00434				0.15505
	2	0.00019	0.00229	0.01200	0.03601	0.06752	0.08102	0.06076	0.02604	0.00488			0.29071
	1	0.00008	0.00114	0.00686	0.02401	0.05401	0.08102	0.08102	0.05208	0.01953	0.00326		0.32301
	0	0.00002	0.00025	0.00171	0.00686	0.01800	0.03241	0.04051	0.03472	0.01953	0.00651	0.00098	0.16151
	合計	0.00098	0.00977	0.04395	0.11719	0.20508	0.24609	0.20508	0.11719	0.04395	0.00977	0.00098

最も確率密度の高い事象は { r₁, r₂, r₃ } = { 1, 5, 4 }, { 1, 6, 3 }, { 2, 5, 3 } であり、各事象に対する期待値が { 1.67, 5.00, 3.33 } と計算できる事実とも一致します。

7) 負の多項分布(Negative Multinomial Distribution)

多項分布は、二項分布 B_n,p(r) の n を変数と考えて、その確率の和がまた二項分布になるとすることで得られることを前節で説明しました。この操作は各独立事象の発生する確率の和が 1 になるまで何回でも続けることができて、その結果もある事象に対する二項分布の形になります。

ここで、多項分布の中の事象の一つ E₀ は「どの事象も発生しなかった場合」と見なします。E₀ を除く事象の個数を k としたとき、多項分布は

P_n,p( r )	=	( n! / r₀!r₁!r₂! ... r_k! ) p₀^r₀p₁^r₁p₂^r₂ ... p_k^r_k
	=	{ ( Σ_i{1→k}( r_i ) + r₀ )!・p₀^r₀ / r₀! } Π_i{1→k}( p_i^r_i / r_i! )

と表されます。ここで、全試行回数を n に固定する代わりに、E₀ の発生回数が r₀ = s に達するまで試行を繰り返す操作を考えると、最後は必ず E₀ が起こるという制約のため、組み合わせは ( n - 1 )! / ( s - 1 )!r₁!r₂! ... r_k! となって、

P_s,p( r ) = { ( Σ_i{1→k}( r_i ) + s - 1 )!・p₀^s / ( s - 1 )! } Π_i{1→k}( p_i^r_i / r_i! )

と表すことができます。これを「負の多項分布(Negative Multinomial Distribution)」といいます。上式において、各確率変数 r_i は自然数 Z 上の任意の値を取ります。Σ_i{1→k}( r_i ) = r となる場合の周辺分布は

P_s,p(r\|r)	=	{ ( r + s - 1 )!・p₀^s / ( s - 1 )! } Π_i{1→k}( p_i^r_i / r_i! )
	=	{ ( r + s - 1 )! / r!・( s - 1 )! }p₀^s { r! / r₁!r₂!...r_k! } p₁^r₁p₂^r₂...p_k^r_k
	=	_r+s-1C_r p₀^s { r! / r₁!r₂!...r_k! } p₁^r₁p₂^r₂...p_k^r_k

になるので、その分布の和は _r+s-1C_r p₀^s ( p₁ + p₂ + ... + p_k )^r = _r+s-1C_r p₀^s ( 1 - p₀ )^r であり、負の二項分布と一致します。よって、その総和も 1 となり、確率分布として成り立っていることになります。

周辺分布 P_s,p(r|r) に対してさらに r_i だけを変数とする周辺分布を考えると、それは二項分布に似た形をとり

P_s,p(r_i|r) = _r+s-1C_r p₀^s _rC_{r_i} p_i^r_i( 1 - p₀ - p_i )^r-r_i

よって、確率変数 r_i に対する平均は

μ_i	=	Σ_r{0→∞}( Σ_{r_i}{0→r}( r_i・P_s,p(r_i\|r) ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_{r_i}{0→r}( r_i・_rC_{r_i} p_i^r_i( 1 - p₀ - p_i )^r-r_i ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s r・p_i ( 1 - p₀ )^r-1 ) [ 補足 2 (1)式より ]
	=	{ p_i / ( 1 - p₀ ) }・Σ_r{0→∞}( r・_r+s-1C_r p₀^s ( 1 - p₀ )^r )
	=	{ p_i / ( 1 - p₀ ) }・{ s( 1 - p₀ ) / p₀ } = s・p_i / p₀

Σ_r{0→∞}( r・_r+s-1C_r p₀^s ( 1 - p₀ )^r ) は負の二項分布における平均を表すので s( 1 - p₀ ) / p₀ であり、上式のように求めることができます。

また、r_i に対する分散は

σ_i²	=	Σ_r{0→∞}( Σ_{r_i}{0→r}( r_i²・P_s,p(r_i\|r) ) ) - μ_i²
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_{r_i}{0→r}( r_i²_rC_{r_i} p_i^r_i( 1 - p₀ - p_i )^r-r_i ) ) - μ_i²
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s { r( r - 1 )p_i²( p_i + 1 - p₀ - p_i )^r-2 + rp_i( p_i + 1 - p₀ - p_i )^r-1 } ) - μ_i²
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s { rp_i( 1 - p₀ )^r-1 + r( r - 1 )p_i²( 1 - p₀ )^r-2 } ) - μ_i²
	=	{ p_i / ( 1 - p₀ ) }Σ_r{0→∞}( r・_r+s-1C_r p₀^s ( 1 - p₀ )^r ) + { p_i / ( 1 - p₀ ) }²Σ_r{0→∞}( r( r - 1 )・_r+s-1C_r p₀^s ( 1 - p₀ )^r ) - μ_i²

第一項は μ_i そのものであり、第二項は補足 2 (5)式を使って求められるので、

σ_i²	=	μ_i + { p_i / ( 1 - p₀ ) }²[ s( s + 1 )( 1 - p₀ )² p₀^k { 1 - ( 1 - p₀ ) }^-(k+2) ] - μ_i²
	=	( s・p_i / p₀ ) + { s( s + 1 )p_i² / p₀² } - ( s・p_i / p₀ )²
	=	( s・p_i / p₀ ) + ( s・p_i² / p₀² )

になります。

共分散は、r_i = i, r_j = j, p_i = p, p_j = q で表して

P_s,p(i,j|r) = _r+s-1C_r p₀^s { r! / i!j!( r - i - j )! } pⁱ q^j( 1 - p₀ - p - q )^r-i-j

とすれば

E[ij]	=	Σ_r{0→∞}( Σ_i{0→r}( Σ_j{0→r-i}( i・j・P_s,p(i,j\|r) ) ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_i{0→r}( Σ_j{0→r-i}( i・j・{ r! / i!j!( r - i - j )! } pⁱ q^j( 1 - p₀ - p - q )^r-i-j ) ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_i{0→r}( i・{ r! / i!・( r - i )! } pⁱ
		Σ_j{0→r-i}( j・{ ( r - i )! / j!・( r - i - j )! } q^j( 1 - p₀ - p - q )^r-i-j ) ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_i{0→r}( i・_rC_i pⁱ Σ_j{0→r-i}( j・_r-iC_j q^j( 1 - p₀ - p - q )^r-i-j ) ) )

Σ_j{0→r-i}( j・_r-iC_j q^j( 1 - p₀ - p - q )^r-i-j ) = q( r - i )( 1 - p₀ - p )^r-i ( 補足 2 (1)式 ) より、

E[ij]	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_i{0→r}( qi( r - i )・_rC_i pⁱ ( 1 - p₀ - p )^r-i-1 ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s Σ_i{0→r}( qi( r - i )・{ r! / i!・( r - i )! } pⁱ ( 1 - p₀ - p )^r-i-1 ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s pqr( r - 1 ) Σ_i{1→r-1}( { ( r - 2 )! / ( i - 1 )!( r - i - 1 )! } p^i-1 ( 1 - p₀ - p )^r-i-1 ) )
	=	Σ_r{0→∞}( _r+s-1C_r p₀^s pqr( r - 1 ) Σ_i{1→r-1}( _r-2C_i-1 p^i-1 ( 1 - p₀ - p )^r-i-1 ) )

二項定理より Σ_i{1→r-1}( _r-2C_i-1 p^i-1 ( 1 - p₀ - p )^r-i-1 ) = ( 1 - p₀ )^r-2 なので、

E[ij]	=	Σ_r{0→∞}( _r+s-1C_r p₀^s pqr( r - 1 )( 1 - p₀ )^r-2 )
	=	{ pq / ( 1 - p₀ )² } Σ_r{0→∞}( { r( r - 1 ) _r+s-1C_r p₀^s( 1 - p₀ )^r )

Σ_r{0→∞}( { r( r - 1 ) _r+s-1C_r p₀^s( 1 - p₀ )^r ) = s( s + 1 )( 1 - p₀ )² p₀^s { 1 - ( 1 - p₀ ) }^-(s+2) = s( s + 1 )( 1 - p₀ )² / p₀² ( 補足 2 (5)式 ) より

E[ij]	=	{ pq / ( 1 - p₀ )² }{ s( s + 1 )( 1 - p₀ )² / p₀² }
	=	s( s + 1 )( pq / p₀² )

最後に、γ_ij = E[ij] - E[i]E[j] より

γ_ij	=	s( s + 1 )( pq / p₀² ) - ( sp / p₀ )( sq / p₀ )
	=	spq / p₀²

以上、まとめると

負の多項分布 P_s,p( r ) = { ( Σ_i{1→k}( r_i ) + s - 1 )!・p₀^s / ( s - 1 )! } Π_i{1→k}( p_i^r_i / r_i! )

平均 : μ_i = s・p_i / p₀、分散 : σ_i² = ( s・p_i / p₀ ) + ( s・p_i² / p₀² )

共分散 : γ_ij = spq / p₀²

になります。

負の多項分布用クラスのサンプル・プログラムを以下に示します。

/*
  NegativeMultinomialDistribution : 負の多項分布

  P(s,r1,r2,...rk) = { ( Σri + s - 1)! p0^s / ( s - 1 )! } Π( pi^ri / ri! )

    ri : i 番目の事象の発生回数
    pi : i 番目の事象が発生する確率
    s  : 事象が発生しない回数
    p0 : 事象が発生しない確率
*/
class NegativeMultinomialDistribution : public MultiDiscDist
{
  vector<double> _p; // 各事象の発生回数(要素数が事象の数 k を表す)
  double _p0;        // 事象の発生しない確率
  unsigned int _s;   // 事象の発生しない回数

  static double fact( double n ); // 階乗の計算

public:

  // コンストラクタ
  NegativeMultinomialDistribution( const vector<double>& p, unsigned int s );

  // 確率変数 r に対する確率密度を返す
  double operator[]( const vector<int>& r ) const;

  // 平均値
  double average( unsigned int i ) const
  { return( ( i >= size() || _p0 == 0 ) ? NAN : (double)_s * _p[i] / _p0 ); }

  // 分散
  double variance( unsigned int i ) const
  { return( ( i >= size() || _p0 == 0 ) ? NAN : (double)_s * _p[i] / _p0 + (double)_s * pow( _p[i] / _p0, 2 ) ); }

  // 共分散
  double covariance( unsigned int i, unsigned int j ) const;

  // 変数の数
  unsigned int size() const { return( _p.size() ); }
};

/*
  NegativeMultinomialDistribution コンストラクタ

  const vector<double>& p : 各事象の確率
  unsigned int s : 事象の起こらない回数
*/
NegativeMultinomialDistribution::NegativeMultinomialDistribution( const vector<double>& p, unsigned int s )
  : _s( s )
{
  _p.assign( p.begin(), p.end() );

  _p0 = 1.0;
  for ( unsigned int i = 0 ; i < _p.size() ; ++i )
    _p0 -= _p[i];
}

/*
  NegativeMultinomialDistribution::fact 階乗 n! の計算

  戻り値 : 計算結果
*/
double NegativeMultinomialDistribution::fact( double n )
{
  if ( n <= 1 ) return( 1 );

  return( n * fact( n - 1 ) );
}

double NegativeMultinomialDistribution::operator[]( const vector<int>& r ) const
{
  // r のサイズが異常な場合は無効値を返す
  if ( _p.size() != r.size() ) return( NAN );
  if ( r.size() == 0 ) return( NAN );

  // パラメータのチェック
  if ( _p0 <= 0 ) return( NAN );
  if ( _s == 0 ) return( NAN );
  unsigned int n = 0; // いずれかの事象が起こる回数の和
  for ( unsigned int i = 0 ; i < r.size() ; ++i ) {
    if ( _p[i] < 0  ) return( NAN );
    if ( r[i] < 0 ) return( 0 );
    n += r[i];
  }

  double p = pow( _p0, _s );     // p^r の総積
  double rFact = fact( _s - 1 ); // r! の総積
  for ( unsigned int i = 0 ; i < r.size() ; ++i ) {
    p *= pow( _p[i], r[i] );
    rFact *= fact( r[i] );
  }

  return( fact( n + _s - 1 ) * p / rFact );
}

/*
  NegativeMultinomialDistribution::covariance : 共分散を返す

  unsigned int i, j : 対象の確率変数の番号

  戻り値 : 共分散(i,jが不正の場合は無効値)
*/
double NegativeMultinomialDistribution::covariance( unsigned int i, unsigned int j ) const
{
  if ( i >= size() || j >= size() ) return( NAN );

  return( _s * _p[i] * _p[j] / pow( _p0, 2 ) );
}

下図は、多項分布と同様に、サイコロを投げたときに 1 の目が出た事象を E₁、偶数の目が出た事象を E₂、その他の場合を E₃ として、サイコロを投げる試行を繰り返したときのの分布状態を示したものですが、ここでは E₁ がある回数に達した段階で試行をストップした場合を表しています。それぞれの事象 E_i の確率 p_i は { p₁, p₂, p₃ } = { 1 / 6, 1 / 2, 1 / 3 } であり、グラフ内において、底平面上の縦軸が E₂ の発生回数 r₂、横軸が E₃ の発生回数 r₃ となります。

E₁ が 5 回に達した段階で試行をストップした場合

		E₃の発生回数
		0	1	2	3	4	5	6	7	8	9	10	合計
E₂ の発生回数	10	1.26E-04	6.29E-04	1.68E-03	3.17E-03	4.75E-03	6.02E-03	6.68E-03	6.68E-03	6.13E-03	5.22E-03	4.18E-03	4.53E-02
	9	1.80E-04	8.38E-04	2.10E-03	3.72E-03	5.28E-03	6.33E-03	6.68E-03	6.37E-03	5.57E-03	4.54E-03	3.48E-03	4.51E-02
	8	2.49E-04	1.08E-03	2.51E-03	4.19E-03	5.59E-03	6.33E-03	6.33E-03	5.73E-03	4.77E-03	3.71E-03	2.72E-03	4.32E-02
	7	3.32E-04	1.33E-03	2.87E-03	4.47E-03	5.59E-03	5.96E-03	5.63E-03	4.82E-03	3.82E-03	2.83E-03	1.98E-03	3.96E-02
	6	4.22E-04	1.55E-03	3.09E-03	4.47E-03	5.21E-03	5.21E-03	4.64E-03	3.75E-03	2.81E-03	1.98E-03	1.32E-03	3.45E-02
	5	5.06E-04	1.69E-03	3.09E-03	4.13E-03	4.47E-03	4.17E-03	3.48E-03	2.65E-03	1.88E-03	1.25E-03	7.92E-04	2.81E-02
	4	5.63E-04	1.69E-03	2.81E-03	3.44E-03	3.44E-03	2.98E-03	2.32E-03	1.66E-03	1.10E-03	6.95E-04	4.17E-04	2.11E-02
	3	5.63E-04	1.50E-03	2.25E-03	2.50E-03	2.29E-03	1.83E-03	1.32E-03	8.83E-04	5.52E-04	3.27E-04	1.85E-04	1.42E-02
	2	4.82E-04	1.13E-03	1.50E-03	1.50E-03	1.25E-03	9.17E-04	6.11E-04	3.78E-04	2.21E-04	1.23E-04	6.54E-05	8.17E-03
	1	3.22E-04	6.43E-04	7.50E-04	6.67E-04	5.00E-04	3.33E-04	2.04E-04	1.16E-04	6.31E-05	3.27E-05	1.64E-05	3.65E-03
	0	1.29E-04	2.14E-04	2.14E-04	1.67E-04	1.11E-04	6.67E-05	3.70E-05	1.94E-05	9.70E-06	4.67E-06	2.18E-06	9.75E-04
	合計	3.87E-03	1.23E-02	2.29E-02	3.24E-02	3.85E-02	4.02E-02	3.79E-02	3.31E-02	2.69E-02	2.07E-02	1.52E-02

E₁ が 1 回に達した段階で試行をストップした場合

		E₃の発生回数
		0	1	2	3	4	5	6	7	8	9	10	合計
E₂ の発生回数	10	1.63E-04	5.97E-04	1.19E-03	1.72E-03	2.01E-03	2.01E-03	1.79E-03	1.45E-03	1.09E-03	7.64E-04	5.09E-04	1.33E-02
	9	3.26E-04	1.09E-03	1.99E-03	2.65E-03	2.87E-03	2.68E-03	2.23E-03	1.70E-03	1.21E-03	8.04E-04	5.09E-04	1.81E-02
	8	6.51E-04	1.95E-03	3.26E-03	3.98E-03	3.98E-03	3.45E-03	2.68E-03	1.92E-03	1.28E-03	8.04E-04	4.82E-04	2.44E-02
	7	1.30E-03	3.47E-03	5.21E-03	5.79E-03	5.30E-03	4.24E-03	3.06E-03	2.04E-03	1.28E-03	7.57E-04	4.29E-04	3.29E-02
	6	2.60E-03	6.08E-03	8.10E-03	8.10E-03	6.75E-03	4.95E-03	3.30E-03	2.04E-03	1.19E-03	6.62E-04	3.53E-04	4.41E-02
	5	5.21E-03	1.04E-02	1.22E-02	1.08E-02	8.10E-03	5.40E-03	3.30E-03	1.89E-03	1.02E-03	5.30E-04	2.65E-04	5.91E-02
	4	1.04E-02	1.74E-02	1.74E-02	1.35E-02	9.00E-03	5.40E-03	3.00E-03	1.57E-03	7.86E-04	3.78E-04	1.77E-04	7.90E-02
	3	2.08E-02	2.78E-02	2.31E-02	1.54E-02	9.00E-03	4.80E-03	2.40E-03	1.14E-03	5.24E-04	2.33E-04	1.01E-04	1.05E-01
	2	4.17E-02	4.17E-02	2.78E-02	1.54E-02	7.72E-03	3.60E-03	1.60E-03	6.86E-04	2.86E-04	1.16E-04	4.66E-05	1.41E-01
	1	8.33E-02	5.56E-02	2.78E-02	1.23E-02	5.14E-03	2.06E-03	8.00E-04	3.05E-04	1.14E-04	4.23E-05	1.55E-05	1.87E-01
	0	1.67E-01	5.56E-02	1.85E-02	6.17E-03	2.06E-03	6.86E-04	2.29E-04	7.62E-05	2.54E-05	8.47E-06	2.82E-06	2.50E-01
	合計	3.33E-01	2.22E-01	1.46E-01	9.59E-02	6.19E-02	3.93E-02	2.44E-02	1.48E-02	8.79E-03	5.10E-03	2.89E-03

E₁ はサイコロの目が 1 になる事象なので、サイコロの目が 1 になるまでサイコロを投げる試行を繰り返して、その時偶数が出た回数を縦軸、それ以外が出た回数を横軸に取ったのが上で示したグラフになります。サイコロの目が一回でも出たら試行をストップするというのは幾何分布と同じということになって、同時確率としては 1 の目が最初に出る( E₂ も E₃ もともにゼロである)ときの確率が最も高くなっています。

複数の事象に対して確率を考える場合、一つだけ考えればよかったときと比べると問題は難しくなります。この場合、各事象の独立性や周辺分布を利用することで問題を単純化することができます。また、各変数間の関係を調べる方法として、相関係数や回帰曲線などが利用できることについても説明を行いました。
今回は、「多項分布」と「負の多項分布」の二つを多変数確率密度の例として紹介しましたが、これらは他の確率密度関数、例えばポアソン分布や正規分布などを複数組み合わせた場合を考えることもできます。特に、各変数が独立ならば、その同時分布は周辺分布の積として表されるので、そのような例は簡単に作ることができます。

次回は、連続分布の代表である「正規分布」を中心に紹介したいと思います。

補足1) 直積集合

二つの集合 A, B からそれぞれ元 a ∈ A, b ∈ B を取り出し、新たな集合 { a, b } を作ります。このような集合を「対(Pair)」といい、特に並べる順番を持ったものは「順序対(Ordered Pair)」になります。よって、二つの順序対 { a, b } と { c, d } が等しいのは、a = c かつ b = d のときに限ることになります(順序を持たなければ、a = d かつ b = c のような場合も成り立つことになります)。以降、順序対を ( a, b ) と表します。

順序対 ( a, b ) 全体の集合を「直積集合(Cartesian Product)」といい、A x B で表します。

A x B = { ( a, b ) | a ∈ A, b ∈ B }

n 個の集合 A₁, A₂, ... A_n の直積集合 A₁ x A₂ x ... x A_n = Π_i{1→n}( A_i ) も同様に、

Π_i{1→n}( A_i ) = { ( a₁, a₂, ... a_n ) | a_i ∈ A_i ( i = 1, 2, ... n ) }

と定義されます。

一つの集合 A に対して直積集合 A x A を作ることも可能です。このような直積集合を「デカルト冪(Cartesian Power)」といいます。実数 R からなるデカルト冪 Rⁿ がその代表で、R² は平面、R³ は空間を表すのによく利用されます。

補足2) 二項分布・負の二項分布の平均と分散

前章で、「二項分布」と「負の二項分布」の平均・分散は積率母関数を利用して求めましたが、これらは二項定理を使って直接求めることもできます。二項分布の平均を

μ_B = Σ_r{0→n}( r・_nC_r p^rq^n-r )

で表せば、

μ_B	=	Σ_r{0→n}( r・_nC_r p^rq^n-r )
	=	Σ_r{0→n}( r・{ n! / r!・( n - r )! } p^rq^n-r )
	=	np Σ_r{1→n}( { ( n - 1 )! / ( r - 1 )!・( n - r )! } p^r-1q^n-r )
	=	np Σ_r{1→n}( _n-1C_r-1 p^r-1q^n-r )
	=	np ( p + q )^n-1 ... (1)

となって、p + q = 1 ならば μ_B = np になります。また、

	Σ_r{0→n}( r( r - 1 )・_nC_r p^rq^n-r )
=	Σ_r{0→n}( r( r - 1 )・{ n! / r!・( n - r )! } p^rq^n-r )
=	n( n - 1 )p² Σ_r{2→n}( { ( n - 2 )! / ( r - 2 )!・( n - r )! } p^r-2q^n-r )
=	n( n - 1 )p² Σ_r{2→n}( _n-2C_r-2 p^r-2q^n-r )
=	n( n - 1 )p²( p + q )^n-2 ... (2)

となりますが、同時に

	Σ_r{0→n}( r( r - 1 )・_nC_r p^rq^n-r )
=	Σ_r{0→n}( r²・_nC_r p^rq^n-r ) - Σ_r{0→n}( r・_nC_r p^rq^n-r )
=	Σ_r{0→n}( r²・_nC_r p^rq^n-r ) - μ_B

でもあるので、二項分布の分散を σ_B² とすれば

σ_B²	=	Σ_r{0→n}( r²・_nC_r p^rq^n-r ) - μ_B²
	=	n( n - 1 )p²( p + q )^n-2 + np( p + q )^n-1 - n²p² ( p + q )^2n-2
	=	{ n²p² - np² + np( p + q ) - n²p²( p + q )ⁿ }( p + q )^n-2
	=	{ n²p² + npq - n²p²( p + q )ⁿ }( p + q )^n-2 ... (3)

ここで、p + q = 1 とすれば

σ_B² = n²p² + npq - n²p² = npq

になります。これらは p + q = 1 でなくても成り立つので、「多項分布」や「負の多項分布」の期待値を求める時に利用しています。

負の二項分布の場合、平均を

μ_NB = Σ_r{0→∞}( r・_r+k-1C_r p^kq^r )

とすれば、

μ_NB	=	Σ_r{0→∞}( r・_r+k-1C_r p^kq^r )
	=	Σ_r{0→∞}( r・{ ( r + k - 1 )! / r!・( k - 1 )! } p^kq^r )
	=	kq Σ_r{1→∞}( { ( r + k - 1 )! / ( r - 1 )!・k! } p^kq^r-1 )
	=	kq Σ_r{1→∞}( C( ( r - 1 ) + ( k + 1 ) - 1, r - 1 ) p^kq^r-1 )
	=	kq p^k Σ_r{1→∞}( C( -( k + 1 ), r - 1 ) ( -q )^r-1 )
	=	kq p^k ( 1 - q )^-(k+1) ... (4)

p + q = 1 とすれば、

μ_NB = kq / p

と求めることができます。但し、途中で負の二項係数に関する以下の等式

C( -a, r ) = (-1)^rC( a + r - 1, r )

と、一般の二項定理

( 1 + x )^a = Σ_r{0→∞}( C( a, r ) x^r )

を利用しています。また、二項分布の場合と同様にして

	Σ_r{0→∞}( r( r - 1 )・_r+k-1C_r p^kq^r )
=	Σ_r{0→∞}( r( r - 1 )・{ ( r + k - 1 )! / r!・( k - 1 )! } p^kq^r )
=	k( k + 1 )q² Σ_r{2→∞}( { ( r + k - 1 )! / ( r - 2 )!・( k + 1 )! } p^kq^r-2 )
=	k( k + 1 )q² Σ_r{2→∞}( C( ( r - 2 ) + ( k + 2 ) - 1, r - 2 ) p^kq^r-2 )
=	k( k + 1 )q² p^k Σ_r{2→∞}( C( -( k + 2 ), r - 2 ) ( -q )^r-2 )
=	k( k + 1 )q² p^k ( 1 - q )^-(k+2) ... (5)

より、分散を σ_NB² として

σ_NB²	=	Σ_r{0→∞}( r²・_r+k-1C_r p^kq^r ) - μ_NB²
	=	k( k + 1 )q² p^k ( 1 - q )^-(k+2) + kq p^k ( 1 - q )^-(k+1) - k²q² p^2k ( 1 - q )^-2(k+1)
	=	kq p^k ( 1 - q )^-(k+2) { ( k + 1 )q + ( 1 - q ) - kq p^k ( 1 - q )^-k }
	=	kq p^k ( 1 - q )^-(k+2) { kq + 1 - kq p^k ( 1 - q )^-k } ... (6)

よって、p + q = 1 ならば

σ_NB²	=	k( 1 - p ) p^k p^-(k+2) ( kq + 1 - kq p^k p^-k )
	=	k( 1 - p ) / p²

になります。

<参考文献>

「確率・統計入門」小針あき宏著 (岩波書店)
「統計数学入門」本間鶴千代著 (森北出版)
Wikipedia

前に戻る

タイトルに戻る