確率・統計 (13) 回帰分析法

確率・統計

(13) 回帰分析法

前回、二標本の解析法として回帰係数の推定法を紹介しました。この理論は、そのまま多変量の解析に応用することが可能で、二変量での推定はその特別な場合と考えることができます。今回は、重回帰分析法に関する話題を中心に紹介したいと思います。

(注) 数式などの記法について (ドキュメントの中で使用している数式の表現方法に関する注意点です)

1) 線形重回帰モデル(Linear Multiple Regression Model)

今までは、一つの要因(独立変数 x)に対して従属変数 y が変化し、それが線形関係であるとしてモデルを構築してきましたが、実際には複数の要因が関係していることの方が多いことは容易に推測できます。例えば、交通事故発生件数に対する独立変数としては、人口だけでなく道路の整備状況や交通量、さらには数値化の難しいようなパラメータ(その土地特有の性格や風土など)も考えることができます。そこで、これらの独立変数が全て従属変数に線形的に影響していると考えて、次のようなモデルを考えます。

y = a₀ + a₁x₁ + a₂x₂ + ... + a_px_p

x_j ( j = 1, 2, ... p ) はそれぞれが異なる独立変数を表します。各独立変数の線形式によって目的変数が得られると考えるわけです。各独立変数と従属変数の標本が N 個あったとき、各独立変数の標本を x_j,i、従属変数の標本を y_i ( i = 1, 2, ... N ) として、上に示したモデルを元に、

y_i = a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i + ε_i ( i = 1, 2, ... N )

と表します。ここで、ε_i は独立変数だけでは説明のできない(測定などの)誤差成分を表し、誤差成分どうしは互いに独立であるとします。この式を「線形重回帰モデル(Linear Multiple Regression Model)」といいます。p = 1 であれば、この式は(単)回帰係数を求めたときのモデルと同一です。最小二乗法の考え方から、誤差成分 ε_i の平方和 Σ_i{1→N}( ε_i² ) を最小とするような係数 a^_j を求めると、それが a_j の最尤推定量となるのでした。平方和の 1/2 を J で表すと

J = Σ_i{1→N}( ε_i² ) / 2 = Σ_i{1→N}( { y_i - ( a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i ) }² ) / 2

となるので、J を a_j で微分すると

∂J / ∂a₀ = - Σ_i{1→N}( { y_i - ( a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i ) } )

∂J / ∂a_j = - Σ_i{1→N}( x_j,i{ y_i - ( a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i ) } )

となり、J が最小となるのは ∂J / ∂a_j = 0 ( i = 0, 1, 2, ... p ) のときなので、上式を整理して

N・a₀ + Σ_i{1→N}( x_1,i )a₁ + Σ_i{1→N}( x_2,i )a₂ + ... + Σ_i{1→N}( x_p,i )a_p = Σ_i{1→N}( y_i )

Σ_i{1→N}( x_j,i )a₀ + Σ_i{1→N}( x_j,ix_1,i )a₁ + Σ_i{1→N}( x_j,ix_2,i )a₂ + ... + Σ_i{1→N}( x_j,ix_p,i )a_p = Σ_i{1→N}( x_j,iy_i )

よって、正規方程式は、

Σ_i{1→N}( x_1,i ),

Σ_i{1→N}( x_2,i ),

...

Σ_i{1→N}( x_p,i )

a₀

Σ_i{1→N}( y_i )

Σ_i{1→N}( x_1,i ),

Σ_i{1→N}( x_1,i² ),

Σ_i{1→N}( x_1,ix_2,i ),

...

Σ_i{1→N}( x_1,ix_p,i )

a₁

Σ_i{1→N}( x_1,iy_i )

Σ_i{1→N}( x_2,i ),

Σ_i{1→N}( x_2,ix_1,i ),

Σ_i{1→N}( x_2,i² ),

...

Σ_i{1→N}( x_2,ix_p,i )

a₂

Σ_i{1→N}( x_2,iy_i )

...

Σ_i{1→N}( x_p,i ),

Σ_i{1→N}( x_p,ix_1,i ),

Σ_i{1→N}( x_p,ix_2,i ),

...

Σ_i{1→N}( x_p,i² )

a_p

Σ_i{1→N}( x_p,iy_i )

となり、これを解くと a_j の最尤推定量 a^_j が求められます。ところで、求めた推定量を正規方程式の第一式に代入すると(以下、推定量 a^_j は a_j で表します)

N・a₀ + Σ_i{1→N}( x_1,i )a₁ + Σ_i{1→N}( x_2,i )a₂ + ... + Σ_i{1→N}( x_p,i )a_p = Σ_i{1→N}( y_i )

となるので、両辺を N で割ると

a₀ + Σ_j{1→p}( m_xja_j ) = m_y

となります。但し、

m_xj = Σ_i{1→N}( x_j,i ) / N

m_y = Σ_i{1→N}( y_i ) / N

とします。つまり、m_xj と m_y は x_j,i、y_i の標本平均を表すことになります。この結果から、

a₀ = m_y - Σ_j{1→p}( m_xja_j )

となるので、正規方程式の中の a₀ を左辺に置き換えると、j = 0 のときは

N{ m_y - Σ_k{1→p}( m_xka_k ) } + Σ_k{1→p}( Σ_i{1→N}( x_k,i )a_k ) = Σ_i{1→N}( y_i )

より

Σ_k{1→p}( Σ_i{1→N}( x_k,i - m_xk )a_k ) = Σ_i{1→N}( y_i - m_y ) --- (1)

また、j > 0 のときは

NΣ_i{1→N}( x_j,i ){ m_y - Σ_k{1→p}( m_xka_k ) } + Σ_k{1→p}( Σ_i{1→N}( x_j,ix_k,i )a_k ) = Σ_i{1→N}( x_j,iy_i )

より

Σ_k{1→p}( Σ_i{1→N}( x_j,i( x_k,i - m_xk ) )a_k ) = Σ_i{1→N}( x_j,i( y_i - m_y ) ) --- (2)

となります。(1) に m_xj を掛けると

Σ_k{1→p}( Σ_i{1→N}( m_xj( x_k,i - m_xk ) )a_k ) = Σ_i{1→N}( m_xj( y_i - m_y ) ) --- (1')

になるので、(2) - (1') を求めると

Σ_k{1→p}( Σ_i{1→N}( ( x_j,i - m_xj )( x_k,i - m_xk ) )a_k ) = Σ_i{1→N}( ( x_j,i - m_xj )( y_i - m_y ) ) --- (3)

ここで、

s_jk = Σ_i{1→N}( ( x_j,i - m_xj )( x_k,i - m_xk ) ) / N

s_yj = Σ_i{1→N}( ( x_j,i - m_xj )( y_i - m_y ) ) / N

とすれば s_jk は x_j,i と x_k,i、s_yj は x_j,i と y_i との標本共分散を表し、(3) 式は

Σ_k{1→p}( s_jka_k ) = s_yj

で表され、j = 1, 2, ... p に対して p 個の連立方程式に変形されたことになるので、これを解いても最尤推定量 a^_j を求めることができます。連立方程式を行列で表すと

s₁₁,

s₁₂,

s₁₃,

...

s_1p

a₁

s_y1

s₂₁,

s₂₂,

s₂₃,

...

s_2p

a₂

s_y2

...

s_p1,

s_p2,

s_p3,

...

s_pp

a_p

s_yp

となり、左辺の係数行列は共分散行列そのものです。従って、共分散行列を V、a = ( a₁, a₂, ... a_p )^T、s_y = ( s_y1, s_y2, ... s_yp )^T とすれば、上式は

Va = s_y

と表されます。また、このとき a^₀ は

a^₀ = m_y - Σ_j{1→p}( m_xja^_j )

から求められます。各独立成分どうし、あるいはそれらと従属成分の間の標本共分散を求めれば、それらを係数とする p 個の連立方程式が得られ、それを解くことによって回帰係数の最尤推定量を求めることができます。p = 1 のときは、式の数は一つのみとなって、二変量での回帰係数を求める場合と一致することもこの結果から分かります。

a^_j の解は、V^-1 の j 行 k 列の要素を s^jk で表せば

a^_j	=	Σ_k{1→p}( s^jks_yk )
	=	Σ_k{1→p}( s^jk( Σ_i{1→N}( ( x_k,i - m_xk )( y_i - m_y ) ) / N ) )
	=	Σ_k{1→p}( s^jk( { Σ_i{1→N}( ( x_k,i - m_xk )y_i ) - m_yΣ_i{1→N}( x_k,i - m_xk ) } / N ) )
	=	Σ_k{1→p}( s^jk( Σ_i{1→N}( ( x_k,i - m_xk )y_i ) ) ) / N
	=	Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk )y_i ) ) / N

で求められます。ここで、Σ_i{1→N}( x_k,i - m_xk ) = 0 になることを利用していることに注意してください。「回帰係数の推定」の場合と同様に、ε_i だけが確率分布に従うと考えると、その確率密度が平均 0、分散 σ² の正規分布 N( 0, σ² ) であるとすれば、y_i も正規分布に従うことになり、その期待値 E[y_i] と分散 V[y_i] は

E[y_i] = E[a₀ + Σ_l{1→p}( a_lx_l,i ) + ε_i] = a₀ + Σ_l{1→p}( a_lx_l,i )

V[y_i] = E[{ a₀ + Σ_l{1→p}( a_lx_l,i ) + ε_i - E[y_i] }²] = E[ε_i²] = σ²

となるので、a^_j の期待値 E[a^_j] は

E[a^_j]	=	E[Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk )y_i ) ) / N]
	=	Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk )E[y_i] ) ) / N
	=	Σ_k{1→p}( s^jkΣ_i{1→N}( ( x_k,i - m_xk ){ a₀ + Σ_l{1→p}( a_lx_l,i ) } ) ) / N

A_k = Σ_i{1→N}( ( x_k,i - m_xk ){ a₀ + Σ_l{1→p}( a_lx_l,i ) } ) として A_k を計算すると

A_k	=	Σ_i{1→N}( ( x_k,i - m_xk ){ a₀ + Σ_l{1→p}( a_lx_l,i ) } )
	=	a₀Σ_i{1→N}( x_k,i - m_xk ) + Σ_l{1→p}( a_lΣ_i{1→N}( ( x_k,i - m_xk )x_l,i ) )
	=	Σ_l{1→p}( a_l{ Σ_i{1→N}( ( x_k,i - m_xk )x_l,i ) - Σ_i{1→N}( ( x_k,i - m_xk )m_xl ) } )
	=	Σ_l{1→p}( a_lΣ_i{1→N}( ( x_k,i - m_xk )( x_l,i - m_xl ) ) )
	=	NΣ_l{1→p}( a_ls_kl )

ここでも、Σ_i{1→N}( x_k,i - m_xk ) = 0 になることを利用しています。特に、Σ_i{1→N}( ( x_k,i - m_xk )m_xl ) = 0 なので、この項を追加しても値に変化はなく、共分散の形で表すことができるようになります。

この値を元の式に戻せば

E[a^_j] = Σ_k{1→p}( s^jkΣ_l{1→p}( a_ls_kl ) )

となります。Σ_l{1→p}( a_ls_kl ) は Va の第 k 行を表し、上式は ( s^j1, s^j2, ... s^jp ) と Va の第 k 行ベクトルとの内積を表しているので、行列で表すと、

E[a^_j] = ( s^j1, s^j2, ... s^jp )	\|	s₁₁,	s₁₂,	s₁₃,	...	s_1p	\|\|	a₁	\|
	\|	s₂₁,	s₂₂,	s₂₃,	...	s_2p	\|\|	a₂	\|
	\|	:	:	:	...	:	\|\|	:	\|
	\|	s_p1,	s_p2,	s_p3,	...	s_pp	\|\|	a_p	\|

となり、( s^j1, s^j2, ... s^jp ) は V^-1 の第 j 行であることから、V との積は第 j 番目の要素のみ 1 で残りはゼロのベクトルになります。従って、

E[a^_j] = a_j

が解として得られます。E[a^₀] は

E[a^₀]	=	E[m_y - Σ_j{1→p}( m_xja^_j )]
	=	E[m_y] - Σ_j{1→p}( m_xjE[a^_j] )
	=	E[m_y] - Σ_j{1→p}( m_xja_j )

となり、E[m_y] は

E[m_y]	=	E[Σ_i{1→N}( y_i ) / N]
	=	Σ_i{1→N}( E[a₀ + Σ_j{1→p}( a_jx_j,i ) + ε_i] ) / N
	=	Σ_i{1→N}( a₀ + Σ_j{1→p}( a_jx_j,i ) ) / N
	=	a₀ + Σ_i{1→N}( Σ_j{1→p}( a_jx_j,i ) ) / N
	=	a₀ + Σ_j{1→p}( a_jΣ_i{1→N}( x_j,i ) / N )
	=	a₀ + Σ_j{1→p}( a_jm_xj )

なので、

E[a^₀] = a₀

となって、a^_j の不偏推定量は ( j = 0 のときも含めて全て ) a_j になることが分かります。a^_j の分散 V[a^_j] は、独立成分 x_j,i と誤差成分 ε_i が互いに独立であることから y_i も互いに独立であることになるので、

V[a^_j]	=	V[Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk )y_i ) ) / N]
	=	Σ_i{1→N}( { Σ_k{1→p}( s^jk( x_k,i - m_xk ) ) }²V[y_i] ) / N
	=	Σ_i{1→N}( { Σ_k{1→p}( s^jk( x_k,i - m_xk ) ) }² )σ² / N
	=	Σ_i{1→N}( Σ_k{1→p}( Σ_l{1→p}( s^jks^jl( x_k,i - m_xk )( x_l,i - m_xl ) ) ) )σ² / N
	=	Σ_k{1→p}( Σ_l{1→p}( s^jks^jlΣ_i{1→N}( ( x_k,i - m_xk )( x_l,i - m_xl ) ) ) )σ² / N
	=	Σ_k{1→p}( Σ_l{1→p}( s^jks^jls_kl ) )σ² / N
	=	Σ_k{1→p}( s^jkΣ_l{1→p}( s^jls_kl ) )σ² / N

と計算できます。Σ_l{1→p}( s^jls_kl ) は V^-1 の第 j 行 ( s^j1, s^j2, ... s^jp ) と V の第 k 列 ( s_k1, s_k2, ... s_kp )^T との内積を意味します(実際には V の第 k 行ベクトルの要素を意味しますが、V は対称行列で s_kl = s_lk が成り立つので第 k 列ベクトルと見なすことができます)。V^-1V = E なので、積の値は j = k のとき 1 で、j ≠ k のときゼロになります。よって、j = k のときだけ値が残ることになって、

V[a^_j] = s^jjσ² / N

が求める結果になります。a^_j と a^_k の共分散 E[( a^_j - a_j )( a^_k - a_k )] = E[a^_ja^_k] - a_ja_k は

E[a^_ja^_k]	=	E[{ Σ_r{1→N}( Σ_t{1→p}( s^jt( x_t,r - m_xt )y_r ) ) / N }
		・{ Σ_s{1→N}( Σ_u{1→p}( s^ku( x_u,s - m_xu )y_s ) ) / N }]
	=	E[Σ_t{1→p}( s^jtΣ_u{1→p}( s^kuΣ_r{1→N}( Σ_s{1→N}( ( x_t,r - m_xt )( x_u,s - m_xu )y_ry_s ) ) ) ) / N²]
	=	Σ_t{1→p}( s^jtΣ_u{1→p}( s^kuΣ_r{1→N}( Σ_s{1→N}( ( x_t,r - m_xt )( x_u,s - m_xu )E[y_ry_s] ) ) ) ) / N²

より、E[y_ry_s] は

E[y_ry_s]	=	E[{ a₀ + Σ_l{1→p}( a_lx_l,r ) + ε_r }{ a₀ + Σ_l{1→p}( a_lx_l,s ) + ε_s }]
	=	E[{ a₀ + Σ_l{1→p}( a_lx_l,r ) }{ a₀ + Σ_l{1→p}( a_lx_l,s ) }
		+ { a₀ + Σ_l{1→p}( a_lx_l,s ) }ε_r + { a₀ + Σ_l{1→p}( a_lx_l,r ) }ε_s + ε_rε_s]
	=	{ a₀ + Σ_l{1→p}( a_lx_l,r ) }{ a₀ + Σ_l{1→p}( a_lx_l,s ) } ( r ≠ s )
	=	{ a₀ + Σ_l{1→p}( a_lx_l,r ) }² + σ² ( r = s )

となるので、

	Σ_r{1→N}( Σ_s{1→N}( ( x_t,r - m_xt )( x_u,s - m_xu )E[y_ry_s] ) ) / N²
=	Σ_r{1→N}( Σ_s{1→N}( ( x_t,r - m_xt )( x_u,s - m_xu ){ a₀ + Σ_l{1→p}( a_lx_l,r ) }{ a₀ + Σ_l{1→p}( a_lx_l,s ) } ) ) / N²
	+ σ²Σ_r{1→N}( ( x_t,r - m_xt )( x_u,r - m_xu ) ) / N²
=	Σ_r{1→N}( ( x_t,r - m_xt ){ a₀ + Σ_l{1→p}( a_lx_l,r ) }Σ_s{1→N}( ( x_u,s - m_xu ){ a₀ + Σ_l{1→p}( a_lx_l,s ) } ) ) / N²
	+ σ²s_tu / N
=	Σ_r{1→N}( ( x_t,r - m_xt ){ a₀ + Σ_l{1→p}( a_lx_l,r ) }{ Σ_l{1→p}( a_ls_ul ) } ) / N + σ²s_tu / N
=	Σ_l{1→p}( a_ls_tl )Σ_l{1→p}( a_ls_ul ) + σ²s_tu / N

よって、

E[a^_ja^_k]	=	Σ_t{1→p}( s^jtΣ_u{1→p}( s^ku{ Σ_l{1→p}( a_ls_tl )Σ_l{1→p}( a_ls_ul ) + σ²s_tu / N } ) )
	=	Σ_t{1→p}( s^jtΣ_l{1→p}( a_ls_tl ) )Σ_u{1→p}( s^kuΣ_l{1→p}( a_ls_ul ) )
		+ σ²Σ_t{1→p}( s^jtΣ_u{1→p}( s^kus_tu ) ) / N
	=	Σ_t{1→p}( Σ_l{1→p}( s^jts_tla_l ) )Σ_u{1→p}( Σ_l{1→p}( s^kus_ula_l ) )
		+ σ²Σ_t{1→p}( s^jtδ_tk ) / N
	=	a_ja_k + s^jkσ² / N

となって、a^_j と a^_k の共分散は s^jkσ² / N になります。Σ_t{1→p}( Σ_l{1→p}( s^jts_tla_l ) ) = a_j, Σ_u{1→p}( Σ_l{1→p}( s^kus_ula_l ) ) = a_k が成り立つのは、E[a^_j] を求める時と同じ理由で、これらの式が V^-1 の第 j 行, 第 k 行と Va との内積を表しているからです。また、Σ_t{1→p}( s^jtΣ_u{1→p}( s^kus_tu ) ) の計算も V[a^_j] の計算で一度登場しています。Σ_u{1→p}( s^kus_tu ) は V^-1 の第 k 行と V の第 t 列ベクトルの内積なので、k = t のときのみ 1 で残りは全てゼロになります。よって、計算結果を「クロネッカーのデルタ」δ_tk で表しています。

V[a^₀] は

V[a^₀]	=	E[{ m_y - Σ_j{1→p}( a^_jm_xj ) - a₀ }²]
	=	E[{ Σ_i{1→N}( a₀ + Σ_j{1→p}( a_jx_j,i ) + ε_i ) / N - Σ_j{1→p}( a^_jm_xj ) - a₀ }²]
	=	E[{ Σ_j{1→p}( a_jΣ_i{1→N}( x_j,i ) / N ) + Σ_i{1→N}( ε_i ) / N - Σ_j{1→p}( a^_jm_xj ) }²]
	=	E[{ Σ_j{1→p}( ( a_j - a^_j )m_xj ) + Σ_i{1→N}( ε_i ) / N }²]

と表すことができます。Σ_i{1→N}( ε_i ) の二乗は ε_i² の項だけが残り、その値は Nσ² になるので、上式を展開すると

V[a^₀] = E[{ Σ_j{1→p}( ( a_j - a^_j )m_xj ) }²] + 2E[Σ_j{1→p}( ( a_j - a^_j )m_xj )Σ_i{1→N}( ε_i )] / N + σ² / N

となり、第一項は

E[{ Σ_j{1→p}( ( a_j - a^_j )m_xj ) }²]	=	E[Σ_j{1→p}( Σ_k{1→p}( m_xjm_xk( a_j - a^_j )( a_j - a^_k ) ) )]
	=	Σ_j{1→p}( Σ_k{1→p}( m_xjm_xkE[( a_j - a^_j )( a_j - a^_k )] ) )
	=	Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jkσ² / N ) )

第二項は

2E[Σ_j{1→p}( ( a_j - a^_j )m_xj )Σ_i{1→N}( ε_i )] / N	=	2E[Σ_i{1→N}( Σ_j{1→p}( ( a_j - a^_j )m_xjε_i ) )] / N
	=	2Σ_i{1→N}( Σ_j{1→p}( a_jm_xjE[ε_i] - m_xjE[a^_jε_i] ) ) / N
	=	-2Σ_j{1→p}( m_xjΣ_i{1→N}( E[a^_jε_i] ) ) / N

となって、

Σ_i{1→N}( E[a^_jε_i] )	=	Σ_i{1→N}( E[Σ_l{1→N}( Σ_k{1→p}( s^jk( x_k,l - m_xk )ε_iy_l ) ) / N] )
	=	Σ_i{1→N}( Σ_l{1→N}( Σ_k{1→p}( s^jk( x_k,l - m_xk )E[ε_iy_l] ) ) ) / N
	=	Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk )E[ε_iy_i] ) ) / N
	=	Σ_i{1→N}( Σ_k{1→p}( s^jk( x_k,i - m_xk ) ) )σ² / N
	=	Σ_k{1→p}( s^jkΣ_i{1→N}( x_k,i - m_xk ) ) )σ² / N

より、Σ_i{1→N}( x_k,i - m_xk ) = 0 なのでこの項は無視することができます。よって、

V[a^₀] = { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ²

が求める解になります。最後に、a^₀ と a^_j ( j > 0 ) の共分散 E[( a^₀ - a₀ )( a^_j - a_j )] を計算すると、

E[( a^₀ - a₀ )( a^_j - a_j )]	=	E[a^₀a^_j] - a₀a_j
	=	E[{ m_y - Σ_k{1→p}( m_xka^_k ) }a^_j] - a₀a_j
	=	E[m_ya^_j] - Σ_k{1→p}( m_xkE[a^_ka^_j] ) - a₀a_j

と表すことができます。第一項の E[m_ya^_j] は

E[m_ya^_j]	=	E[Σ_i{1→N}( a^_jy_i ) / N]
	=	E[Σ_i{1→N}( a^_j{ a₀ + Σ_k{1→p}( a_kx_k,i ) + ε_i } ) / N]
	=	E[Σ_i{1→N}( a^_j{ a₀ + Σ_k{1→p}( a_kx_k,i ) } + a^_jε_i ) / N]
	=	Σ_i{1→N}( { a₀ + Σ_k{1→p}( a_kx_k,i ) }E[a^_j] ) / N + Σ_i{1→N}( E[a^_jε_i] ) / N
	=	Σ_i{1→N}( { a₀ + Σ_k{1→p}( a_kx_k,i ) }a_j ) / N
	=	{ Na₀ + Σ_k{1→p}( a_kΣ_i{1→N}( x_k,i ) ) }a_j / N
	=	a₀a_j + Σ_k{1→p}( a_ja_km_xk )

と求められます。ここで、先ほど求めた結果 Σ_i{1→N}( E[a^_jε_i] ) = 0 を利用していることに注意してください。第二項は

Σ_k{1→p}( m_xkE[a^_ka^_j] )	=	Σ_k{1→p}( m_xk( a_ja_k + s^jkσ² / N ) )
	=	Σ_k{1→p}( m_xka_ja_k ) + Σ_k{1→p}( m_xks^jkσ² / N )

なので、

E[( a^₀ - a₀ )( a^_j - a_j )]	=	a₀a_j + Σ_k{1→p}( a_ja_km_xk ) - { Σ_k{1→p}( m_xka_ja_k ) + Σ_k{1→p}( m_xks^jkσ² / N ) } - a₀a_j
	=	-Σ_k{1→p}( m_xks^jkσ² / N )

という結果が得られます。

以上の結果をまとめると、

E[a^_j] = a_j ; E[a^₀] = a₀

V[a^_j] = s^jjσ² / N

E[( a^_j - a_j )( a^_k - a_k )] = s^jkσ² / N

V[a^₀] = { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ²

E[( a^₀ - a₀ )( a^_j - a_j )] = -Σ_k{1→p}( m_xks^jkσ² / N )

であり、特に p = 1 のときは s₁₁ = v_x としたとき s¹¹ = 1 / v_x なので、a₁ = a, a^₁ = a^, a₀ = b, a^₀ = b^, m_x1 = m_x で表せば

E[a^] = a ; E[b^] = b

V[a^] = σ² / Nv_x

V[b^] = ( 1 / N + m_x² / Nv_x )σ²

E[( b^ - b )( a^ - a )] = -m_xσ² / Nv_x

と求められ、前回得られたニ標本での回帰係数に対する期待値や分散と一致します。

a^_j は y_i の線形結合で表されることから、y_i が正規分布に従うならば a^_j も正規分布に従うのでした。また、a^₀ は m_y と a^_j の線形結合なので、やはり正規分布に従います。よって、それぞれの期待値と分散から、a^_j は N( a_j, s^jjσ² / N )、a^₀ は N( a^₀, { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ) に従うとして推定や検定を行うことができます。しかし、式中の σ² は未知の値なので、このままでは計算ができません。そこで、二変量の場合と同じように y_i と ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) の差の平方和 (つまり a_j の推定量 a^_j を使って求めた y の値と実測値としての y の差の平方和) に対してその期待値を求めると、

	E[Σ_i{1→N}( [ y_i - { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ]² )]
=	E[Σ_i{1→N}( [ { a₀ + Σ_j{1→p}( a_jx_j,i ) + ε_i } - { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ]² )]
=	E[Σ_i{1→N}( { ( a₀ - a^₀ ) + Σ_j{1→p}( ( a_j - a^_j )x_j,i ) + ε_i }² )]
=	E[Σ_i{1→N}( ( a₀ - a^₀ )² + Σ_j{1→p}( Σ_k{1→p}( ( a_j - a^_j )( a_k - a^_k )x_j,ix_k,i ) ) + ε_i²
	+ 2( a₀ - a^₀ )Σ_j{1→p}( ( a_j - a^_j )x_j,i ) + 2ε_i( a₀ - a^₀ ) + 2ε_iΣ_j{1→p}( ( a_j - a^_j )x_j,i ) )]
=	Σ_i{1→N}( E[( a₀ - a^₀ )²] + Σ_j{1→p}( Σ_k{1→p}( E[( a_j - a^_j )( a_k - a^_k )]x_j,ix_k,i ) ) + E[ε_i²]
	+ 2Σ_j{1→p}( E[( a₀ - a^₀ )( a_j - a^_j )]x_j,i ) + 2E[ε_i( a₀ - a^₀ )] + 2Σ_j{1→p}( E[ε_i( a_j - a^_j )]x_j,i ) )
=	Σ_i{1→N}( { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² + Σ_j{1→p}( Σ_k{1→p}( s^jkx_j,ix_k,i / N ) )σ² + σ²
	- 2Σ_j{1→p}( Σ_k{1→p}( m_xks^jk )x_j,i / N )σ² - 2E[ε_ia^₀] - 2Σ_j{1→p}( E[ε_ia^_j]x_j,i ) )

Σ_i{1→N}( E[ε_ia^_j] ) = 0 であることはすでに証明できているので、これを利用して Σ_i{1→N}( E[ε_ia^₀] ) を求めると

Σ_i{1→N}( E[ε_ia^₀] )	=	Σ_i{1→N}( E[ε_i{ m_y - Σ_j{1→p}( a^_jm_xj ) }] )
	=	Σ_i{1→N}( E[ε_im_y] ) - Σ_j{1→p}( m_xjΣ_i{1→N}( E[ε_ia^_j] ) )
	=	Σ_i{1→N}( E[ε_iΣ_l{1→N}( y_l )] ) / N
	=	Σ_i{1→N}( Σ_l{1→N}( E[ε_iε_l] ) ) / N = σ²

また、

Σ_i{1→N}( E[a^_jε_i]x_j,i )	=	Σ_i{1→N}( E[Σ_l{1→N}( Σ_k{1→p}( s^jk( x_k,l - m_xk )ε_iy_lx_j,i ) ) / N] )
	=	Σ_i{1→N}( Σ_l{1→N}( Σ_k{1→p}( s^jkx_j,i( x_k,l - m_xk )E[ε_iy_l] ) ) ) / N
	=	Σ_i{1→N}( Σ_k{1→p}( s^jkx_j,i( x_k,i - m_xk )E[ε_iy_i] ) ) / N
	=	Σ_i{1→N}( Σ_k{1→p}( s^jkx_j,i( x_k,i - m_xk ) ) )σ² / N
	=	Σ_k{1→p}( s^jkΣ_i{1→N}( x_k,ix_j,i - m_xkx_j,i ) )σ² / N
	=	Σ_k{1→p}( s^jkΣ_i{1→N}( x_k,ix_j,i / N ) - m_xjm_xks^jk )σ²

よって、

	E[Σ_i{1→N}( [ y_i - { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ]² )]
=	{ 1 + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) }σ² + Σ_j{1→p}( Σ_k{1→p}( s^jkΣ_i{1→N}( x_j,ix_k,i / N ) ) )σ² + Nσ²
	- 2Σ_j{1→p}( Σ_k{1→p}( m_xks^jk )Σ_i{1→N}( x_j,i / N ) )σ² - 2σ²
	- 2Σ_j{1→p}( Σ_k{1→p}( s^jkΣ_i{1→N}( x_k,ix_j,i / N ) - m_xjm_xks^jk ) )σ²
=	Nσ² - σ² + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) )σ² + Σ_j{1→p}( Σ_k{1→p}( s^jkΣ_i{1→N}( x_j,ix_k,i / N ) ) )σ²
	- 2Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) )σ²
	- 2Σ_j{1→p}( Σ_k{1→p}( s^jkΣ_i{1→N}( x_k,ix_j,i / N ) ) )σ² + 2Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) )σ²
=	Nσ² - σ² + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) )σ² - Σ_j{1→p}( Σ_k{1→p}( s^jkΣ_i{1→N}( x_j,ix_k,i / N ) ) )σ²
=	Nσ² - σ² + Σ_j{1→p}( Σ_k{1→p}( s^jk( m_xjm_xk - Σ_i{1→N}( x_j,ix_k,i / N ) ) ) )σ²

m_xjm_xk - Σ_i{1→N}( x_j,ix_k,i / N ) は x_j,i と x_k,i の共分散 s_jk に -1 を掛けたものを表しています。一応証明しておくと、

m_xjm_xk - Σ_i{1→N}( x_j,ix_k,i / N )	=	Σ_i{1→N}( ( m_xk - x_k,i )x_j,i / N )
	=	Σ_i{1→N}( ( m_xk - x_k,i )x_j,i / N ) - m_xjΣ_i{1→N}( m_xk - x_k,i ) / N
	=	-Σ_i{1→N}( ( m_xk - x_k,i )( m_xj - x_j,i ) / N ) = -s_jk

唐突に出現した m_xjΣ_i{1→N}( m_xk - x_k,i ) / N の項は、Σ_i{1→N}( m_xk - x_k,i ) = 0 より追加しても結果には影響しません。以上から、

	E[Σ_i{1→N}( [ y_i - { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ]² )]
=	Nσ² - σ² - Σ_j{1→p}( Σ_k{1→p}( s^jks_jk ) )σ²
=	Nσ² - σ² - Σ_j{1→p}( 1 )σ²
=	( N - p - 1 )σ²

Σ_k{1→p}( s^jks_jk ) は V^-1V の j 行 j 列めの要素を表すので 1 になり、上記のような結果になります。

この結果から、v_ε = Σ_i{1→N}( [ y_i - { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ]² ) / ( N - p - 1 ) としたとき、v_ε は σ² の不偏推定量になります。特に、p = 1 のときは前回求めた二変量の場合の結果とも一致します。そこで二変量の場合と同様に

z_j = ( a^_j - a_j ) / ( s^jjσ² / N )^1/2

z₀ = ( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ]^1/2

が標準正規分布に従い、

t_j = ( a^_j - a_j ) / ( s^jjσ² / N )^1/2( √v_ε / σ ) = ( a^_j - a_j ) / ( s^jjv_ε / N )^1/2

t₀	=	( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ]^1/2( √v_ε / σ )
	=	( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }v_ε ]^1/2

が自由度 N - p - 1 の t-分布に従うことを利用して推定・検定を行うことができます(補足1)。

s^jk は共分散行列 V の逆行列の要素です。従って、t_j や t₀ を求めるためには逆行列を求める必要があります。二次、三次の正方行列であれば公式があり、それより高次の場合は余因子行列を利用した解法がよく紹介されます。しかし、余因子行列を利用する解法は非常に処理が重く、通常は連立方程式を解くアルゴリズムを利用して逆行列を求めます。具体的な処理方法は「数値演算法」の「(7) 連立方程式を解く -1-」にある「3) 連立方程式による逆行列の計算」をご覧ください。

線形重回帰モデルでの回帰係数を推定するためのサンプル・プログラムを以下に示します。

/*
  MultipleRegressionCoefficient : 重回帰係数
*/
class MultipleRegressionCoefficient
{
  vector<double> _est_a; // 回帰係数 ai の推定量 ( i = 1, 2, ... )
  double _est_a0;        // 回帰係数 a0 の推定量
  unsigned int _cnt;     // 標本数
  vector<double> _mx;    // x[i] の平均
  vector<double> _var_x; // x[i] の分散
  double _se;            // 誤差項の平方和
  double _sy;            // y の平均差の平方和
  LinearEquationSystem<double> _s_inv; // 共分散行列の逆行列

  bool _isValid;     // 正しく計算できたか？

  // 回帰直線の区間推定
  bool regCoef_iEst( const ContDist& dist, double var, double b,
                     vector< pair<double,double> >& interval_a,
                     double threshold = DEFAULT_THRESHOLD ) const;

public:

  /*
    コンストラクタ
  */
  MultipleRegressionCoefficient( const vector< vector<double> >& x, const vector<double>& y )
    : _s_inv( LinearEquationSystem<double>( 0 ) )
    { init( x, y ); }

  // 初期化処理
  void init( const vector< vector<double> >& x, const vector<double>& y );

  // 利用可能な状態か？
  bool isValid() const { return( _isValid ); }
  bool operator!() const { return( ! isValid() ); }

  // 独立変数の数
  unsigned int size() const { return( _est_a.size() ); }

  // 回帰係数の推定値を返す
  double a( unsigned int i ) const
  { return(
           ( i == 0 ) ? _est_a0 :
           ( ( i <= size() ) ? _est_a[i - 1] : NAN )
           );
  }

  // 共分散行列の逆行列の要素を返す
  double s_inv( unsigned int r, unsigned int c ) const
  { return( ( isValid() ) ? _s_inv[r][c] : NAN ); }

  // 誤差項の分散の不偏推定量を返す
  double ve() const { return( ( isValid() ) ? _se / (double)( _cnt - size() - 1 ) : NAN ); }

  // 従属変数の推定値を返す
  double y( const vector<double>& x ) const;
  double y( const vector< vector<double> >& vec_x, unsigned int i ) const;

  // 重回帰式を出力する
  void printEquation() const;

  /*
    区間推定
  */

  /*
    regCoef_iEst : 回帰直線の区間推定(誤差項の分散が既知の時)

    double var : 誤差項の分散
    double b : 信頼度
    pair<double,double> &interval_a, &interval_b : 求める信頼区間
    double threshold : binSearchでtを求める時のしきい値

    戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
  */
  bool regCoef_iEst( double var, double b, vector< pair<double,double> >& interval_a,
                     double threshold = DEFAULT_THRESHOLD ) const
  { return( regCoef_iEst( NormalDistribution( 0, 1 ), var, b, interval_a, threshold ) ); }

  // 回帰係数の区間推定(誤差項の分散が未知の場合)
  bool regCoef_iEst( double b, vector< pair<double,double> >& interval_a,
                     double threshold = DEFAULT_THRESHOLD ) const;

  // 回帰の有意性検定
  int regCoef_Test( double a, double threshold = DEFAULT_THRESHOLD ) const;
};

/*
  MultipleRegressionCoefficient::init 初期化処理

  const vector< vector<double> >&x : 独立変数
  const vector<double>&y : 従属変数
*/
void MultipleRegressionCoefficient::init( const vector< vector<double> >& x, const vector<double>& y )
{
  unsigned int p = x.size(); // 独立変数ベクトルのサイズ
  _isValid = false;
  _est_a0 = _se = _sy = NAN;

  if ( p < 1 ) {
    cerr << "The size of independent variable x must be greater than zero." << endl;
    return;
  }

  _cnt = x[0].size();
  if ( y.size() != _cnt ) {
    cerr << "The size of data ( x, y ) must be the same size." << endl;
    return;
  }
  if ( _cnt <= p + 1 ) {
    cerr << "The size of data must be greater than the size of independent variable." << endl;
    return;
  }
  for ( unsigned int i = 1 ; i < p ; ++i ) {
    if ( x[i].size() != _cnt ) {
      cerr << "The size of data x[" << i << "] seems to not be the same as x[0]." << endl;
      return;
    }
  }

  // x, y の平均
  _mx.resize( p );
  for ( unsigned int i = 0 ; i < p ; ++i )
    _mx[i] = sampleAverage( x[i] );
  double my = sampleAverage( y );

  // 共分散行列の作成
  LinearEquationSystem<double> s( p );
  for ( unsigned int r = 0 ; r < p ; ++r ) {
    s[r][r] = sampleVariance( x[r] );
    s.ans( r ) = sampleCovariance( x[r], y );
    for ( unsigned int c = r + 1 ; c < p ; ++c )
      s[r][c] = s[c][r] = sampleCovariance( x[r], x[c] );
  }

  // 共分散行列の逆行列の計算
  if ( ! Inverse( s, _s_inv ) ) {
    cerr << "Failed to determine an inverse of covariance matrix." << endl;
    return;
  }

  // 回帰係数の推定値
  _est_a.resize( p );
  if ( ! GaussianElimination( s ) ) {
    cerr << "Failed to determine an estimator of regression coefficient." << endl;
    return;
  }
  for ( unsigned int i = 0 ; i < p ; ++i )
    _est_a[i] = s.ans( i );
  _est_a0 = my;
  for ( unsigned int i = 0 ; i < p ; ++i )
    _est_a0 -= _mx[i] * _est_a[i];

  // 誤差項の平方和
  vector<double> est_y( _cnt, _est_a0 ); // y の予測値
  vector<double> dy( _cnt );             // y の実測値と予測値の差の平方
  for ( unsigned int i = 0 ; i < _cnt ; ++i ) {
    for ( unsigned int j = 0 ; j < p ; ++j ) {
      est_y[i] += _est_a[j] * x[j][i];
    }
    dy[i] = pow( y[i] - est_y[i], 2 );
  }
  _se = sum( dy );

  // y の平均差の平方和
  Deviation<double> dev( my );
  _sy = sum( y, dev );

  _isValid = true;
}

/*
  MultipleRegressionCoefficient::y : 従属変数の推定値を返す

  const vector<double>& x : 独立変数

  戻り値 : 従属変数の推定値(エラー時は NAN)
*/
double MultipleRegressionCoefficient::y( const vector<double>& x ) const
{
  if ( ! isValid() ) {
    cerr << "It seems to fail to initialize." << endl;
    return( NAN );
  }
  if ( x.size() != size() ) {
    cerr << "The size of x must be same as the size of independent variables." << endl;
    return( NAN );
  }

  double est_y = 0;
  for ( unsigned int i = 0 ; i < size() ; ++i )
    est_y += _est_a[i] * x[i];

  return( est_y + _est_a0 );
}

/*
  MultipleRegressionCoefficient::y : 従属変数の推定値を返す

  const vector< vector<double> >& vec_x : 独立変数の配列
  unsigned int i : 対象となる vec_x 内の要素番号

  戻り値 : 従属変数の推定値(エラー時は NAN)
*/
double MultipleRegressionCoefficient::y( const vector< vector<double> >& vec_x, unsigned int i ) const
{
  vector<double> x( vec_x.size() );
  for ( unsigned int j = 0 ; j < x.size() ; ++j ) {
    if ( i >= vec_x[j].size() ) {
      cerr << i << " is bigger than the size of vec_x[" << j << "]." << endl;
      return( NAN );
    }
    x[j] = vec_x[j][i];
  }

  return( y( x ) );
}

/*
  MultipleRegressionCoefficient::printEquation : 重回帰式を出力する
*/
void MultipleRegressionCoefficient::printEquation() const
{
  if ( ! isValid() ) {
    cerr << "It seems to fail to initialize." << endl;
    return;
  }

  cout << "y = " << a( 0 );
  for ( unsigned int i = 1 ; i <= size() ; ++i )
    cout << " + " << a( i ) << "x" << i;
  cout << endl;
}

/*
  MultipleRegressionCoefficient::regCoef_iEst : 回帰直線の区間推定

  const ContDist& dist : 確率密度関数(左右対称を前提)
  double var : 誤差項の分散
  double b : 信頼度
  vector< pair<double,double> >& interval_a : 回帰係数 ai の信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool MultipleRegressionCoefficient::regCoef_iEst( const ContDist& dist, double var, double b,
                                                  vector< pair<double,double> >& interval_a,
                                                  double threshold ) const
{
  if ( ! isValid() ) {
    cerr << "It seems to fail to initialize." << endl;
    return( false );
  }
  if ( b < 0 || b > 1 ) {
    cerr << "Confidence value b must have the range [0,1]." << endl;
    return( false );
  }

  double t = binSearch( dist, b / 2.0, threshold ); // 確率分布の片側信頼区間

  interval_a.resize( size() + 1 );
  for ( unsigned int i = 1 ; i <= size() ; ++i ) {
    double diff_a = t * sqrt( _s_inv[i - 1][i - 1] * var / (double)_cnt );
    interval_a[i].first = a( i ) - diff_a;
    interval_a[i].second = a( i ) + diff_a;
  }

  double sum = 0;
  for ( unsigned int j = 0 ; j < size() ; ++j )
    for ( unsigned int i = 0 ; i < size() ; ++i )
      sum += _mx[j] * _mx[i] * _s_inv[j][i];
  double diff_a0 = t * sqrt( var * ( sum + 1 ) / (double)_cnt );

  interval_a[0].first = _est_a0 - diff_a0;
  interval_a[0].second = _est_a0 + diff_a0;

  return( true );
}

/*
  MultipleRegressionCoefficient::regCoef_iEst : 回帰直線の区間推定(誤差項の分散が未知の時)

  double b : 信頼度
  vector< pair<double,double> >& interval_a : 回帰係数 ai の信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正, データ数が 2 以下
*/
bool MultipleRegressionCoefficient::regCoef_iEst( double b, vector< pair<double,double> >& interval_a,
                                                  double threshold ) const
{
  // データ数は 3 以上必要
  if ( _cnt <= size() + 1 ) {
    cerr << "The size of data must be greater than ( independent variable size + 1 )." << endl;
    return( false );
  }

  return( regCoef_iEst( TDistribution( _cnt - size() - 1 ), ve(),
                        b, interval_a, threshold )
          );
}

MultipleRegressionCoefficient は線形重回帰モデルの回帰係数に対する推定量を保持するクラスです。その内容は前回示した単回帰での場合とほとんど同じで、回帰係数の個数が可変となるので配列の形で保持するようにしたのが単回帰の場合との大きな違いとなります。
回帰係数の推定量は連立方程式を解くことによって求めています。サンプル・プログラムでは、連立方程式を表すクラスとして LinearEquationSystem クラスを利用し、「ガウスの消去法(Gaussian Elimination)」を利用した関数 GaussianElimination を使って解を求めています。

回帰係数の推定量を求めたら、誤差項の平方和 _se と y の平均差の平方和 _sy を求めます。これらは、後で紹介する「重相関係数」の計算に利用されます。また、誤差項の不偏推定量は _se を N - p - 1 で割ることで求められ、メンバ関数 ve() にて値を得ることができます。

2) 重相関係数(Multiple Correlation Coefficient)

単回帰の場合と同様に、回帰係数の推定量を線形重回帰モデルに適用することで未測定の独立変数から従属変数の予測値を得ることができます。すなわち、ある独立変数 x_j ( j = 1, 2, ... p ) に対して

y^ = a^₀ + Σ_j{1→p}( a^_jx_j )

として得られた y^ が従属変数の予測値となります。この式は、推定量を求めるために利用した観測値に対しても適用できるので、独立変数 x_j,i ( i = 1, 2, ... N ) に対して

y^_i = a^₀ + Σ_j{1→p}( a^_jx_j,i )

は従属変数の予測値であり、従属変数の観測値 y_i との差

ε_i = y_i - y^_i

は予測値に対する測定誤差と見ることができます。予測値 y^_i の標本平均を m^_y = Σ_i{1→N}( y^_i ) / N、標本分散を v^_y = Σ_i{1→N}( ( y^_i - m^_y )² ) / N、観測値 y_i の標本平均を m_y = Σ_i{1→N}( y_i ) / N、標本分散を v_y = Σ_i{1→N}( ( y_i - m_y )² ) / N、また観測値 y_i と予測値 y^_i の共分散を s_yy^ = Σ_i{1→N}( ( y_i - m_y )( y^_i - m^_y ) ) / N としたとき、y_i と y^_i の標本相関係数 r_yy^ は

r_yy^ = s_yy^ / ( v_y・v^_y )^1/2 = Σ_i{1→N}( ( y_i - m_y )( y^_i - m^_y ) ) / { Σ_i{1→N}( ( y_i - m_y )² ) }^1/2{ Σ_i{1→N}( ( y^_i - m^_y )² ) }^1/2

となります。r_yy^ は「重相関係数(Multiple Correlation Coefficient)」と呼ばれ、観測値がその平均より大きい(小さい)傾向にある場合に、予測値もまた平均より大きければ(小さければ)、その値は 1 に近づくことになります。

ところで、正規方程式の第一式は

N・a^₀ + Σ_i{1→N}( x_1,i )a^₁ + Σ_i{1→N}( x_2,i )a^₂ + ... + Σ_i{1→N}( x_p,i )a^_p = Σ_i{1→N}( y_i )

であり、左辺の和の部分をまとめて表現して N で割ると

Σ_i{1→N}( a^₀ + a^₁x_1,i + a^₂x_2,i + ... + a^_px_p,i ) / N = Σ_i{1→N}( y_i ) / N = m_y

になります。ところが、

Σ_i{1→N}( y_i ) / N = Σ_i{1→N}( a^₀ + a^₁x_1,i + a^₂x_2,i + ... + a^_px_p,i + ε_i ) / N

でもあるので(つまり、回帰係数の最尤推定量を代入して得られる予測値 y^_i に誤差項 ε_i を加えたものが観測値 y_i になることを意味しています)、最尤推定量 a^_j は、測定誤差の和 Σ_i{1→N}( ε_i ) がゼロになるような回帰係数を表していることにもなります。よって、m_y と m^_y の間には m_y = m^_y の関係が成り立ち、s_yy^ の値は

s_yy^	=	Σ_i{1→N}( ( y_i - m_y )( y^_i - m^_y ) ) / N
	=	Σ_i{1→N}( ( y_i - m^_y )( y^_i - m^_y ) ) / N
	=	Σ_i{1→N}( { ( y_i - y^_i ) + ( y^_i - m^_y ) }( y^_i - m^_y ) ) / N
	=	Σ_i{1→N}( ( y_i - y^_i )( y^_i - m^_y ) + ( y^_i - m^_y )² ) / N
	=	Σ_i{1→N}( ε_i( y^_i - m^_y ) ) / N + Σ_i{1→N}( ( y^_i - m^_y )² ) / N

となります。上式の第一項は

Σ_i{1→N}( ε_i( y^_i - m^_y ) ) / N	=	Σ_i{1→N}( ε_iy^_i ) / N - m^_yΣ_i{1→N}( ε_i ) / N
	=	Σ_i{1→N}( ε_i{ a^₀ + Σ_j{1→p}( a^_jx_j,i ) } ) / N
	=	{ a^₀Σ_i{1→N}( ε_i ) + Σ_j{1→p}( a^_jΣ_i{1→N}( ε_ix_j,i ) ) } / N

となりますが、正規方程式の第 j + 1 式を見ると

Σ_i{1→N}( x_j,i )a₀ + Σ_i{1→N}( x_j,ix_1,i )a₁ + Σ_i{1→N}( x_j,ix_2,i )a₂ + ... + Σ_i{1→N}( x_j,ix_p,i )a_p = Σ_i{1→N}( x_j,iy_i )

であり、左辺の和の部分をまとめて表現して N で割ると

Σ_i{1→N}( x_j,i( a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i ) ) = Σ_i{1→N}( x_j,i( a₀ + a₁x_1,i + a₂x_2,i + ... + a_px_p,i + ε_i ) )

なので、Σ_i{1→N}( x_j,iε_i ) = 0 が成り立つことにもなります(つまり、最尤推定量は j = 1, 2, ... p に対して Σ_i{1→N}( x_j,iε_i ) = 0 が成り立つような回帰係数を表していることにもなります)。よって、

Σ_i{1→N}( ε_i( y^_i - m^_y ) ) / N = 0

となって、

s_yy^ = Σ_i{1→N}( ( y^_i - m^_y )² ) / N = v^_y ≥ 0

が成り立ちます。また、v_y は

v_y	=	Σ_i{1→N}( ( y_i - m_y )² ) / N
	=	Σ_i{1→N}( { ( y_i - y^_i ) + ( y^_i - m^_y ) }² ) / N
	=	Σ_i{1→N}( ε_i² + 2ε_i( y^_i - m^_y ) + ( y^_i - m^_y )² ) / N
	=	Σ_i{1→N}( ε_i² ) / N + v^_y

上式を変形して

Σ_i{1→N}( ε_i² ) / N	=	v_y - v^_y
	=	v_y( 1 - v^_yv^_y / v_yv^_y )
	=	v_y( 1 - s_yy^² / v_yv^_y )
	=	v_y( 1 - r_yy^² )

左辺はゼロ以上の値になるため、1 - r_yy^² ≥ 0 が成り立ち、-1 ≤ r_yy^ ≤ 1 になります(これは、r_yy^ が標本相関係数であることからも明らかです)。以上から、

0 ≤ r_yy^ ≤ 1

が成り立つことになります。

回帰係数の最尤推定量は

a^_j = Σ_k{1→p}( s^jks_yk )

で表されるので、共分散 s_yy^ は

s_yy^	=	Σ_i{1→N}( ( y_i - m_y )( y^_i - m^_y ) ) / N
	=	Σ_i{1→N}( ( y_i - m_y )[ { a₀ + Σ_j{1→p}( a^_jx_j,i ) } - { a₀ + Σ_j{1→p}( a^_jm_xj ) } ] ) / N
	=	Σ_i{1→N}( ( y_i - m_y ){ Σ_j{1→p}( a^_j( x_j,i - m_xj ) ) } ) / N
	=	Σ_j{1→p}( a^_jΣ_i{1→N}( ( y_i - m_y )( x_j,i - m_xj ) ) ) / N
	=	Σ_j{1→p}( a^_js_yj )
	=	Σ_k{1→p}( Σ_j{1→p}( s_yjs^jks_yk ) )

と表されます。s_y = ( s_y1, s_y2, ... s_yp )^T, s^k = ( s^1k, s^2k, ... s^pk )^T としたとき、Σ_j{1→p}( s_yjs^jk ) = ( s_y, s^k ) であり、この内積を s_y^k で表すと、上式は ( s_y¹, s_y², ... s_y^p ) と s_y との内積を意味します。( s_y¹, s_y², ... s_y^p ) は

	( s_y¹, s_y², ... s_y^p )
=	( s_y1, s_y2, ... s_yp )	\|	s¹¹,	s¹²,	...	s^1p	\|
		\|	s²¹,	s²²,	...	s^2p	\|
		\|	:	:	...	:	\|
		\|	s^p1,	s^p2,	...	s^pp	\|
=	s_y^TV^-1 = V^-1s_y

と表すことができます(最後で積の順番を反転できるのは、V^-1 が対称行列だからです)。よって、

s_yy^ = ( s_y, V^-1s_y )

がなりたち、v^_y = s_yy^ だったので、

r_yy^	=	s_yy^ / ( v_yv^_y )^1/2
	=	( v^_y / v_y )^1/2
	=	{ ( s_y, V^-1s_y ) / v_y }^1/2

と表すこともできます。

v_y	=	Σ_i{1→N}( ε_i² ) / N + v^_y
	=	Σ_i{1→N}( ε_i² ) / N + ( s_y, V^-1s_y )

より、誤差項の二乗和がゼロならば重相関係数は 1 になり、誤差項が大きくなるほどゼロに近づくことになります。つまり、重相関係数を見ることで、求めた重回帰式に対して分布がどの程度密集しているかを定量的に知ることができます。また、s_yj を変数と考えると ( s_y, V^-1s_y ) は二次形式であり、V^-1 の固有値は正値なのでこの式は楕円体を表します。よって、v^_y = s_yy^ は s_y を楕円体の形に近似した式を表し、その誤差成分を加えることで v_y が得られると見ることもできます(「固有値問題 (2) カルーネン・レーベ展開」参照)。

重相関係数 r_yy^ は、次のような式で表すこともできます。

r_yy^ =( Σ_i{1→N}( ( y^_i - m^_y )² ) / Σ_i{1→N}( ( y_i - m_y )² ) )^1/2

上式の分子は予測値に対する分散、分母は観測値に対する分散を表しています。この二つの値には次の関係式が成り立つのでした。

v_y = v^_y + Σ_i{1→N}( ε_i² ) / N より

Σ_i{1→N}( ( y_i - m_y )² ) = Σ_i{1→N}( ( y^_i - m^_y )² ) + Σ_i{1→N}( ( y_i - y^_i )² )

この式は、観測値の分散が、回帰分析によって説明可能な予測値の分散と、説明のできない残差部分に二つに分けられることを意味しています。そして、重相関係数の式と比較すると、残差部分が大きくなるほど重相関係数の値は小さくなるのでした。そこで、重相関係数の二乗を R² として

R² = v^_y / v_y

を「決定係数(Coefficient Of Determination)」または「寄与率(Contribution Ratio)」といい、回帰分析によって説明できる部分の比率を表す指標として利用されます。

Σ_i{1→N}( { ( y_i - y^_i ) / σ }² ) = ( N - p - 1 )v_ε / σ² は自由度 N - p - 1 の χ²-分布 T_N-p-1(y) に従います(補足1)。また、Σ_i{1→N}( { ( y_i - m_y ) / σ }² ) = Ns² / σ² は自由度 N - 1 の χ²-分布 T_N-1(y) に従います(「(6) 標本分布」の「カイ二乗分布に対する性質」参照)。残る Σ_i{1→N}( { ( y^_i - m^_y ) / σ }² ) は自由度 p の χ²-分布 T_p(y) に従い(補足2)、a_j = 0 ( j = 1, 2, ... p ) を満たすとき、すなわち y の値が x_j,i に依存しない場合は ( N - p - 1 )v_ε / σ² とは互いに独立になります( y の値が x_j,i に依存してしまうと、どちらにも x_j,i を含んでいることから互いに独立とはなり得なくなります)。左辺は T_N-1(y) に従うことから、標準正規分布に従う N - 1 個の確率変数の二乗和を表すとも言えます。右辺は、それぞれが標準正規分布に従う N - p - 1 個、p 個の確率変数の二乗和を表すことから、N - 1 個の確率変数が N - p - 1 個と p 個の二つに分解されたと考えると覚えやすいと思います。

観測値の平方和 S_y = Σ_i{1→N}( ( y_i - m_y )² )

予測値の平方和 S^_y = Σ_i{1→N}( ( y^_i - m^_y )² )

残差の平方和 S_ε = Σ_i{1→N}( ( y_i - y^_i )² )

と表すと、「補足2」の内容から、予測値の不偏分散 v^_y = S^_y / p であり、残差の不偏分散 v_ε = S_ε / ( N - p - 1 ) になります。F-分布は、それぞれ自由度 M, N の χ²-分布に従う互いに独立な確率変数 t, u に対して

f = ( t / M ) / ( u / N )

としたとき f が示す分布を意味するので(「(6) 標本分布」の「F-分布」参照)、

F₀ = v^_y / v_ε = ( S^_y / p ) / { S_ε / ( N - p - 1 ) }

は自由度 ( p, N - p - 1 ) の F-分布に従うことになります。これが成り立つ前提条件は、a_j = 0 ( j = 1, 2, ... p ) すなわち y の値が x_j,i に依存しないことになるので、この条件を帰無仮説として推定や検定を行うことができます。この仮説が棄却されれば、y の値は x_j,i に依存する、すなわち y の値を予測するのに有効であると言えることになります。上記の各値は、以下に示すような分散分析表でよく表されます。

変動要因	平方和	自由度	不偏分散	分散比
予測値(回帰による)	S^_y = Σ_i{1→N}( ( y^_i - m^_y )² )	p	v^_y = S^_y / p	F₀ = v^_y / v_ε
残差(回帰との)	S_ε = Σ_i{1→N}( ( y_i - y^_i )² )	N - p - 1	v_ε = S_ε / ( N - p - 1 )	F₀ = v^_y / v_ε
観測値(全体)	S_y = Σ_i{1→N}( ( y_i - m_y )² )	N - 1

重相関係数を求め、回帰の有意性を検定するためのサンプル・プログラムを以下に示します。

// 重相関係数を返す
double MultipleRegressionCoefficient::mcc() const
{
  return( ( isValid() ) ? sqrt( ( _sy - _se ) / _sy ) : NAN );
}

/*
  MultipleRegressionCoefficient::regCoef_Test : 回帰の有意性検定

  double a : 危険率
  double threshold : binSearchでtを求める時のしきい値

  戻り値 :  1 ... 有意性あり(帰無仮説は棄却) , 0 ... 有意性なし(帰無仮説は保留)
           -1 ... 利用不可
*/
int MultipleRegressionCoefficient::regCoef_Test( double a, double threshold ) const
{
  cout << "***** Test for Regression Coefficient (ANOVA) *****" << endl << endl;

  if ( ! isValid() ) {
    cerr << "It seems to fail to initialize." << endl;
    return( -1 );
  }

  double vr = ( _sy - _se ) / (double)size(); // 予測値の不偏分散
  double f0 = vr / ve(); // F0値

  FDistribution fDist( size(), _cnt - size() - 1 );

  cout << "<ANOVA Table>" << endl;
  cout << "\tSS\tDOF\tUnbiased Var." << endl;
  cout << "EXP.\t" << _sy - _se << "\t" << size() << "\t" << vr << "\t\tF0 = " << f0 << endl;
  cout << "ERR.\t" << _se << "\t" << _cnt - size() - 1 << "\t" << ve() << endl;
  cout << "MEAS.\t" << _sy << "\t" << _cnt - 1 << endl << endl;

  cout << "p-value = " << 1.0 - fDist.p( 0, f0 ) << endl;

  double f = binSearch( fDist, 1.0 - a, threshold ); // 危険率 a での上側確率
  cout << "f(P<=" << a << ") = " << f << endl << endl;

  if ( f0 >= f ) {
    cout << "It seems to be significant (Null hypothesis is rejected)." << endl;
    return( 1 );
  } else {
    cout << "It seems not to be significant (Null hypothesis is accepted)." << endl;
    return( 0 );
  }
}

mcc は重相関係数を求めるためのメンバ関数です。重相関係数は、予測値の分散と観測値の分散の比の平方根を計算することで求められますが、ここでは ( 予測値の分散 ) = ( 観測値の分散 ) - ( 誤差項の分散 ) であることを利用して観測値の分散と誤差項の分散から求めています。

regCoef_Test は、求めた回帰の有意性を検定するための関数です。予測値(EXP.)、残差(ERR.)、観測値(MEAS.)それぞれの平方和を求め、さらに予測値と残差の不偏分散から f0 を得ています。これを自由度 ( size(), _cnt - size() - 1 ) の F-分布 ( size() は独立変数の数、_cnt は標本数をそれぞれ表します ) における危険率 a での F 値 f と比較して、f0 ≥ f ならば帰無仮説は棄却されて有意性があると判断し、そうでなければ仮説を保留して有意性なしと判断します。

重回帰分析を使った解析の一例を挙げておきます。以下は、あるクラスでの二教科のテストの点数と、全教科を総合評価するための総合テストの得点を表にまとめたものです。

総合テスト	教科A	教科B	総合テスト	教科A	教科B
70	90	37	77	84	66
52	52	41	87	89	69
78	80	49	60	51	40
70	77	36	87	87	78
78	84	38	71	68	56
66	86	25	60	60	37
84	98	39	59	76	34
78	96	30	49	57	28
64	52	81	66	84	32
76	56	80	69	86	40

総合テストの得点を y、教科 A, B の得点をそれぞれ x₁, x₂ として、重回帰モデル

y = a₀ + a₁x₁ + a₂x₂

への当てはめを考えると、各変数の平均、分散、共分散は

m_x1 = 75.65 , m_x2 = 46.80 , m_y = 70.05

v_x1 = 231.73 , v_x2 = 313.16 , v_y = 111.35

s_y1 = 110.17 , s_y2 = 85.41 , s₁₂ = -53.57

となるので、回帰係数を求める連立方程式は

\|	231.73,	-53.57	\|\|	a₁	\|	=	\|	110.17	\|
\|	-53.57,	313.16	\|\|	a₂	\|		\|	85.41	\|

となって、これを解くと a^₁ = 0.56, a^₂ = 0.37 になります。a^₀ は

a^₀ = m_y - m_x1a^₁ - m_x2a^₂ = 70.05 - 75.65・0.56 - 46.80・0.37 = 10.39

となるので、重回帰式として

y = 10.39 + 0.56x₁ + 0.37x₂

という結果が得られます。この式を使って y の予測値を求めると次のような結果になります。

観測値(y)	予測値(y^)	誤差項(ε)	観測値(y)	予測値(y^)	誤差項(ε)
70	74.48	-4.48	77	81.81	-4.81
52	54.65	-2.65	87	85.72	1.28
78	73.30	4.70	60	53.72	6.28
70	66.83	3.17	87	87.91	-0.91
78	71.49	6.51	71	69.15	1.85
66	67.82	-1.82	60	57.66	2.34
84	79.70	4.30	59	65.53	-6.53
78	75.27	2.73	49	52.66	-3.66
64	69.40	-5.40	66	69.28	-3.28
76	71.27	4.73	69	73.35	-4.35

観測値、予測値、誤差項の分散はそれぞれ 110.35, 93.25, 17.10 となり、重相関係数は

r_yy^ = ( 93.25 / 110.35 )^1/2 = 0.92

また、決定係数は

R² = r_yy^² = 0.85

になります。分散分析表を求めると

変動要因	平方和	自由度	不偏分散	分散比
予測値(回帰による)	S^_y = 1865.00	2	v^_y = 932.50	F₀ = 46.36
残差(回帰との)	S_ε = 341.95	17	v_ε = 20.11	F₀ = 46.36
観測値(全体)	S_y = 2206.95	19

自由度 ( 2, 17 ) の F-分布における上側確率 1% での F 値は 6.11 なので、F₀ はそれよりもかなり大きく、回帰は有意性ありと判断することができます。サンプル・プログラムを利用して検定した結果を以下に示します。

***** Test for Regression Coefficient (ANOVA) *****

<ANOVA Table>
        SS      DOF     Unbiased Var.
EXP.    1865    2       932.498         F0 = 46.3586
ERR.    341.953 17      20.1149
MEAS.   2206.95 19

p-value = 1.30763e-07
f(P<=0.01) = 6.11211

It seems to be significant (Null hypothesis is rejected).

重相関係数の値は 1 にかなり近く、予測値と観測値の誤差はかなり小さい、すなわち回帰式が y 値をよく表しているということが言えます。係数をみるとどちらも正値であり、二教科のテストの点数が高いほど総合テストでも高得点になる傾向があることが統計的に示されたことになります(ちなみにこれは実在のデータではなく、ある程度回帰式に当てはまるように適当に作ったデータです)。

3) 偏相関係数(Partial Correlation Coefficient)

ある独立変数 x, y と従属変数 z の、次式のような重回帰モデルを考えます。

z = a + bx + cy

x と y の間に相関がなければ、x の変化に対して y は影響しないので、x が Δx だけ変化したときの z の変化量 Δz は

Δz = bΔx

になります。しかし、x と y の間に次のような関係式

y = p + qx

が成り立つとすれば、x が Δx だけ変化したとき y は qΔx 変化することになるので、

Δz = ( b + cq )Δx

となって、x だけの単回帰モデルを考えた場合は真の回帰係数(さらには真の相関係数)と異なる結果が得られることになります。

二変数の回帰モデルは、三次元空間上の平面で表すことができます。独立変数のいずれかを固定して、もう一方だけを変化させたときの直線は、単回帰モデルとして考えた場合の回帰直線を表します。しかし、固定したつもりの独立変数がもう片方の変数に影響されて変化してしまうと、得られる直線は真の回帰直線とはズレてしまい、実際には相関があるにもかかわらず相関がないように見えたり、逆に実際よりも強い相関が見えるような現象が発生します。このように、ある変数 z が他の二つの変数 x, y と相関を持つとき、z の影響を受けて得られる x, y の相関を「見かけの相関(Spurious Correlation)」といいます。

y を固定したとき、z は重回帰式で表される平面上にある傾き b の直線で表されます。しかし、x の増減によって y が変化すれば、直線は平面上を回転することになるので、傾きは変化してしまいます。よって、得られる相関係数も変化するわけです。この現象は、独立変数の数が増えるほど複雑になっていきます。

そこで、次のような重回帰モデルを考えます。

y = a₀ + Σ_j{1→p;j≠k}( a_jx_j )

x_k = b₀ + Σ_j{1→p;j≠k}( b_jx_j )

これはちょうど、x_k と y を他の p - 1 個の独立変数から予測する式を表しています。標本 ( x_j,i, y_i ) ( i = 1, 2, ... N ) を使い、最小二乗法によって各回帰係数の推定量 a^_j, b^_j を求めると、予測値からの誤差は

u_i = y_i - { a^₀ + Σ_j{1→p;j≠k}( a^_jx_j,i ) }

v_i = x_k,i - { b^₀ + Σ_j{1→p;j≠k}( b^_jx_j,i ) }

になります。すると、u_i と v_i は他の p - 1 個の独立変数から受ける影響を除外した y と x_k を表します。u_i と v_i は測定値と予測値の誤差なので、その平均はゼロです。従って、

r_{yk・1,2,...,k-1,k+1,...p} = Σ_i{1→N}( u_iv_i ) / { Σ_i{1→N}( u_i² )Σ_i{1→N}( v_i² ) }^1/2

とすれば、r_{yk・1,2,...,k-1,k+1,...p} は y と x_k だけの(他の独立変数の影響を受けない)相関係数になります。これを「偏相関係数(Partial Correlation Coefficient)」といいます。

二変数であれば、k = 1 の偏相関係数を求める場合、y と x₂ 及び x₁ と x₂ の単回帰式は

y = a₀ + a₂x₂

x₁ = b₀ + b₂x₂

と表され、予測値からの誤差は

u_i = y_i - ( a^₀ + a^₂x_2,i ) = y_i - ( s_y2 / s₂₂ )( x_2,i - m_x2 ) - m_y

v_i = x_1,i - ( b^₀ + b^₂x_2,i ) = x_1,i - ( s₁₂ / s₂₂ )( x_2,i - m_x2 ) - m_x1

となるので、

Σ_i{1→N}( u_iv_i ) / N	=	Σ_i{1→N}( { ( y_i - m_y ) - ( s_y2 / s₂₂ )( x_2,i - m_x2 ) }
		{ ( x_1,i - m_x1 ) - ( s₁₂ / s₂₂ )( x_2,i - m_x2 ) } ) / N
	=	Σ_i{1→N}( ( y_i - m_y )( x_1,i - m_x1 ) - ( s₁₂ / s₂₂ )( x_2,i - m_x2 )( y_i - m_y )
		- ( s_y2 / s₂₂ )( x_2,i - m_x2 )( x_1,i - m_x1 ) + ( s_y2 / s₂₂ )( s₁₂ / s₂₂ )( x_2,i - m_x2 )² ) / N
	=	s_y1 - s₁₂s_y2 / s₂₂ - s₁₂s_y2 / s₂₂ + s₁₂s_y2 / s₂₂
	=	s_y1 - s₁₂s_y2 / s₂₂
	=	√s_yy√s₁₁{ s_y1 / √s_yy√s₁₁ - ( s₁₂ / √s₁₁√s₂₂ )( s_y2 / √s_yy√s₂₂ ) }
	=	√s_yy√s₁₁( r_y1 - r₁₂・r_y2 )

Σ_i{1→N}( u_i² ) / N	=	Σ_i{1→N}( { ( y_i - m_y ) - ( s_y2 / s₂₂ )( x_2,i - m_x2 ) }² ) / N
	=	Σ_i{1→N}( ( y_i - m_y )² - 2( s_y2 / s₂₂ )( y_i - m_y )( x_2,i - m_x2 )
		+ ( s_y2 / s₂₂ )²( x_2,i - m_x2 )² ) / N
	=	s_yy - 2s_y2² / s₂₂ + s_y2² / s₂₂
	=	s_yy - s_y2² / s₂₂
	=	s_yy( 1 - s_y2² / s_yys₂₂ )
	=	s_yy( 1 - r_y2² )

Σ_i{1→N}( v_i² ) / N	=	Σ_i{1→N}( { ( x_1,i - m_x1 ) - ( s₁₂ / s₂₂ )( x_2,i - m_x2 ) }² ) / N
	=	Σ_i{1→N}( ( x_1,i - m_x1 )² - 2( s₁₂ / s₂₂ )( x_1,i - m_x1 )( x_2,i - m_x2 )
		+ ( s₁₂ / s₂₂ )²( x_2,i - m_x2 )² ) / N
	=	s₁₁ - 2s₁₂² / s₂₂ + s₁₂² / s₂₂
	=	s₁₁ - s₁₂² / s₂₂
	=	s₁₁( 1 - s₁₂² / s₁₁s₂₂ )
	=	s₁₁( 1 - r₁₂² )

よって、

r_y1・2	=	√s_yy√s₁₁( r_y1 - r₁₂・r_y2 ) / { s_yy( 1 - r_y2² )s₁₁( 1 - r₁₂² ) }^1/2
	=	( r_y1 - r₁₂・r_y2 ) / ( 1 - r_y2² )^1/2( 1 - r₁₂² )^1/2

という式が得られ、x₁ と y, x₂ と y, x₁ と x₂ のそれぞれの相関係数から偏相関係数を計算することができます。

任意の変量に拡張した場合、

u_i	=	y_i - { a^₀ + Σ_j{1→p;j≠k}( a^_jx_j,i ) }
	=	y_i - [ { m_y - Σ_j{1→p;j≠k}( m_xja^_j ) } + Σ_j{1→p;j≠k}( a^_jx_j,i ) ]
	=	( y_i - m_y ) - Σ_j{1→p;j≠k}( a^_j( x_j,i - m_xj ) )
	=	( y_i - m_y ) - Σ_j{1→p;j≠k}( ( x_j,i - m_xj )Σ_l{1→p;l≠k}( s^jls_yl ) )

Σ_l{1→p;l≠k}( s^jls_yl ) は共分散行列の逆行列の j 行目とベクトル ( s_y1, s_y2, ... s_yp )^T との内積を表しています。但し、共分散行列には k 番目の要素 x_k は含まれず、p - 1 行 p - 1 列の行列になり、ベクトルにも s_yk は含まれません。よって、これらを V_-k^-1, s_y,-k と表すことにします。この和を j = 1 から p まで求め、それぞれに ( x_j,i - m_xj ) を掛けることになるので、これは V_-k^-1s_y,-k とベクトル ( x_1,i - m_x1, x_2,i - m_x2, ... x_p,i - m_xp )^T (もちろん、要素 x_k,i - m_xk は含まれません) の内積になります。このベクトルを x_i,-k - m_x,-k と表せば

u_i	=	( y_i - m_y ) - ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )
	=	( y_i - m_y ) - ( x_i,-k - m_x,-k )^TV_-k^-1s_y,-k

という式が得られます。但し、最後の等式は V_-k^-1 が対称行列なので成り立ちます。同様に、

v_i	=	( x_k,i - m_xk ) - ( x_i,-k - m_x,-k, V_-k^-1s_k,-k )
	=	( x_k,i - m_xk ) - ( x_i,-k - m_x,-k )^TV_-k^-1s_k,-k

但し、s_k,-k = ( s_k1, s_k2, ... s_kp )^T で、s_kk を要素として含まない p - 1 変数のベクトルを表します。

この結果から、

Σ_i{1→N}( u_iv_i ) / N	=	Σ_i{1→N}( { ( y_i - m_y ) - ( x_i,-k - m_x,-k, V_-k^-1s_y,-k ) }
		{ ( x_k,i - m_xk ) - ( x_i,-k - m_x,-k, V_-k^-1s_k,-k ) } ) / N
	=	Σ_i{1→N}( ( y_i - m_y )( x_k,i - m_xk )
		- ( x_i,-k - m_x,-k, V_-k^-1s_k,-k )( y_i - m_y ) - ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )( x_k,i - m_xk )
		+ ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )( x_i,-k - m_x,-k, V_-k^-1s_k,-k ) ) / N

となり、

	Σ_i{1→N}( ( y_i - m_y )( x_k,i - m_xk ) ) / N = s_yk

	Σ_i{1→N}( ( x_i,-k - m_x,-k, V_-k^-1s_k,-k )( y_i - m_y ) ) / N
=	( Σ_i{1→N}( ( y_i - m_y )( x_i,-k - m_x,-k ) ) / N, V_-k^-1s_k,-k )
=	( s_y,-k, V_-k^-1s_k,-k )

	Σ_i{1→N}( ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )( x_k,i - m_xk ) ) / N
=	( Σ_i{1→N}( ( x_k,i - m_xk )( x_i,-k - m_x,-k ) ) / N, V_-k^-1s_y,-k )
=	( s_k,-k, V_-k^-1s_y,-k )
=	( s_y,-k, V_-k^-1s_k,-k )

	Σ_i{1→N}( ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )( x_i,-k - m_x,-k, V_-k^-1s_k,-k ) ) / N
=	Σ_i{1→N}( ( V_-k^-1( x_i,-k - m_x,-k ), s_y,-k )( x_i,-k - m_x,-k, V_-k^-1s_k,-k ) ) / N
=	Σ_i{1→N}( ( s_y,-k, V_-k^-1( x_i,-k - m_x,-k ) )( x_i,-k - m_x,-k, V_-k^-1s_k,-k ) ) / N
=	Σ_i{1→N}( s_y,-k^TV_-k^-1( x_i,-k - m_x,-k )( x_i,-k - m_x,-k )^TV_-k^-1s_k,-k ) / N
=	s_y,-k^TV_-k^-1V_-kV_-k^-1s_k,-k
=	s_y,-k^TV_-k^-1s_k,-k
=	( s_y,-k, V_-k^-1s_k,-k )

より

Σ_i{1→N}( u_iv_i ) / N = s_yk - ( s_y,-k, V_-k^-1s_k,-k )

と計算できます。また、

Σ_i{1→N}( u_i² ) / N	=	Σ_i{1→N}( { ( y_i - m_y ) - ( x_i,-k - m_x,-k, V_-k^-1s_y,-k ) }² ) / N
	=	Σ_i{1→N}( ( y_i - m_y )² - 2( y_i - m_y )( x_i,-k - m_x,-k, V_-k^-1s_y,-k )
		+ ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )² ) / N

より、

	Σ_i{1→N}( ( y_i - m_y )² ) / N = s_yy

	Σ_i{1→N}( ( y_i - m_y )( x_i,-k - m_x,-k, V_-k^-1s_y,-k ) ) / N
=	( Σ_i{1→N}( ( y_i - m_y )( x_i,-k - m_x,-k ) ) / N, V_-k^-1s_y,-k )
=	( s_y,-k, V_-k^-1s_y,-k )

	Σ_i{1→N}( ( x_i,-k - m_x,-k, V_-k^-1s_y,-k )² ) / N
=	Σ_i{1→N}( ( V_-k^-1( x_i,-k - m_x,-k ), s_y,-k )( x_i,-k - m_x,-k, V_-k^-1s_y,-k ) ) / N
=	Σ_i{1→N}( ( s_y,-k, V_-k^-1( x_i,-k - m_x,-k ) )( x_i,-k - m_x,-k, V_-k^-1s_y,-k ) ) / N
=	Σ_i{1→N}( s_y,-k^TV_-k^-1( x_i,-k - m_x,-k )( x_i,-k - m_x,-k )^TV_-k^-1s_y,-k ) / N
=	s_y,-k^TV_-k^-1V_-kV_-k^-1s_y,-k
=	s_y,-k^TV_-k^-1s_y,-k
=	( s_y,-k, V_-k^-1s_y,-k )

となるので、

Σ_i{1→N}( u_i² ) / N = s_yy - ( s_y,-k, V_-k^-1s_y,-k )

同様に、

Σ_i{1→N}( v_i² ) / N = s_kk - ( s_k,-k, V_-k^-1s_k,-k )

なので、偏相関係数 r_{yk・1,2,...,k-1,k+1,...p} は、

r_{yk・1,2,...,k-1,k+1,...p} = { s_yk - ( s_y,-k, V_-k^-1s_k,-k ) } / { s_yy - ( s_y,-k, V_-k^-1s_y,-k ) }^1/2{ s_kk - ( s_k,-k, V_-k^-1s_k,-k ) }^1/2

という式で計算することもできます。二変数で k = 1 のときは、s_y,-k = s_y2, s_k,-k = s₁₂, V_-k^-1s_k,-k = s₁₂ / s₂₂, V_-k^-1s_y,-k = s_y2 / s₂₂ なので

r_y1・2 = ( s_y1 - s_y2s₁₂ / s₂₂ ) / ( s_yy - s_y2² / s₂₂ )^1/2( s₁₁ - s₁₂² / s₂₂ )^1/2 = ( r_y1 - r_y2r₁₂ ) / ( 1 - r_y2² )^1/2( 1 - r₁₂² )^1/2

となって、先ほど求めた二変数の場合の結果と一致します。

偏相関係数を求めるためのサンプル・プログラムを以下に示します。

/*
  partialCorrCoef, partialCorrCoef2 : 偏相関係数を求める

  const vector< vector<double> >& x : 独立変数
  const vector<double>& y : 従属変数
  unsigned int k : 偏相関係数を求める対象の独立変数

  戻り値 : 偏相関係数
*/
double partialCorrCoef( const vector< vector<double> >& x, const vector<double>& y, unsigned int k )
{
  if ( k >= x.size() ) {
    cerr << "k is bigger than the size of x." << endl;
    return( NAN );
  }

  const vector<double>& xk = x[k]; // k 番目の標本
  // k 番目の独立変数を除いた標本を作成
  vector< vector<double> > xl;
  for ( unsigned int i = 0 ; i < x.size() ; ++i ) {
    if ( i == k ) continue;
    const vector<double>& xi = x[i]; // i 番目の標本
    xl.push_back( xi );
  }

  MultipleRegressionCoefficient mrc_y( xl, y );   //  y と xl の重回帰モデル
  MultipleRegressionCoefficient mrc_xk( xl, xk ); // xk と xl の重回帰モデル

  if ( ( ! mrc_y ) || ( ! mrc_xk ) ) return( NAN );

  unsigned int sz = y.size(); // 標本数
  double syk = 0; // xk と y の標本共分散
  double vk = 0;  // xk の分散
  double vy = 0;  // y の分散
  for ( unsigned int i = 0 ; i < sz ; ++i ) {
    double ek = xk[i] - mrc_xk.y( xl, i );
    double ey = y[i] - mrc_y.y( xl, i );
    syk += ek * ey;
    vk += ek * ek;
    vy += ey * ey;
  }

  return( syk / sqrt( vk * vy ) );
}

double partialCorrCoef2( const vector< vector<double> >& x, const vector<double>& y, unsigned int k )
{
  if ( k >= x.size() ) {
    cerr << "k is bigger than the size of x." << endl;
    return( NAN );
  }

  const vector<double>& xk = x[k]; // k 番目の標本
  // k 番目の独立変数を除いた標本を作成
  vector< vector<double> > xl;
  for ( unsigned int i = 0 ; i < x.size() ; ++i ) {
    if ( i == k ) continue;
    const vector<double>& xi = x[i]; // i 番目の標本
    xl.push_back( xi );
  }

  MultipleRegressionCoefficient mrc( xl, y );   //  y と xl の重回帰モデル
  if ( ! mrc ) return( NAN );

  unsigned int p = xl.size();
  double skk = sampleVariance( xk ); // xk の分散
  double syy = sampleVariance( y );  // y の分散
  double syk = sampleCovariance( xk, y ); // xk と y の標本共分散

  vector<double> vec_sk( p ); // ski ( i = 0,1,...,p-1 ) のベクトル
  vector<double> vec_sy( p ); // syi ( i = 0,1,...,p-1 ) のベクトル
  for ( unsigned int i = 0 ; i < p ; ++i ) {
    vec_sk[i] = sampleCovariance( xl[i], xk );
    vec_sy[i] = sampleCovariance( xl[i], y );
  }

  vector<double> vec_Vsk( p, 0 ); // 共分散行列の逆行列と vec_sk の積
  vector<double> vec_Vsy( p, 0 ); // 共分散行列の逆行列と vec_sy の積
  for ( unsigned int r = 0 ; r < p ; ++r ) {
    for ( unsigned int c = 0 ; c < p ; ++c ) {
      vec_Vsk[r] += mrc.s_inv( r, c ) * vec_sk[c];
      vec_Vsy[r] += mrc.s_inv( r, c ) * vec_sy[c];
    }
  }

  double syVsk = 0, skVsk = 0, syVsy = 0; // 各内積の値
  for ( unsigned int i = 0 ; i < p ; ++i ) {
    syVsk += vec_sy[i] * vec_Vsk[i];
    skVsk += vec_sk[i] * vec_Vsk[i];
    syVsy += vec_sy[i] * vec_Vsy[i];
  }

  return( ( syk - syVsk ) / sqrt( ( syy - syVsy ) * ( skk - skVsk ) ) );
}

偏相関係数を求める関数として二種類用意しています。最初の関数は、k 番目の独立変数を取り除いた上で、取り除いた k 番目の変数と y それぞれに対して重回帰モデルを適用し、予測値との誤差を使って偏相関係数を求めています。そして、その次の関数は、同じく k 番目の独立変数を取り除くところまでは同じですが、重回帰モデルは y のみに適用し、共分散行列の逆行列を利用して求める方法を利用しています。

重相関係数の章で示した例において、教科 A, B それぞれと総合テストとの相関係数はそれぞれ 0.69, 0.46 になります。また、教科 A, B の点数に対する相関係数は -0.20 でほんの少しだけ負の相関があると考えられます。ここで、教科 A, B それぞれと総合テストとの偏相関係数を求めると、その値は 0.90, 0.84 となって、相関係数よりも値が大きくなります。教科 A, B の点数どうしでの相関は非常に弱いものでしたが、それでもかなりの違いが生じることになります。

関連性がないのに相関があるように見える例として次のようなものがあります(ここでの「関連性」とは、x が要因となって y の値が決まる、といった意味になります)。下図のグラフは、身長に対する 50m 走のタイムを散布図で示したものです。

このグラフを見ると、明らかに身長が 50m 走のタイムに影響を与えているように見えます。しかし、常識的に考えれば背の高い人ほど足が早いとは言えません。これは、年齢と身長、年齢と 50m 走のタイムのそれぞれに正の相関があることから、背の高さと 50m 走のタイムの間に相関があるように見えているために発生したものです。

上の図は、年齢に対する、身長及び 50m 走タイムの散布図を示したものです。年齢に従って身長が高くなり、また 50m 走のタイムは短くなっていきます。年齢層を見ればこれは納得のできる結果であり、この結果に影響を受けて身長と 50m 走のタイムに関連性があるように見えたと考えられます。これは簡単な例ですが、実際には関連性がないにもかかわらず、相関が強く現れる例は他にも様々なパターンが考えられ、このように簡単には見つけられないものもあるので注意が必要です(ちなみにこのデータは、日本全国の平均を元に適当に作成した架空のデータです)。

この例において偏相関係数を計算すると、身長に対しては -0.80、年齢に対しては -0.018 と、年齢に対する相関がないような結果になってしまいます。身長と 50m 走のタイムに対する相関係数の方が年齢との相関係数よりも高いことが原因ですが、データの取り方によっては意図していない結果が得られてしまう例の一つです。この重回帰式は、身長を x₁、年齢を x₂、50m 走のタイムを y としたとき

y = 16.26 - 0.051x₁ - 0.0029x₂

となって、x₂ の変化に対して y がほとんど影響を受けない結果になっていることが分かります。

今回は、重回帰分析モデルを主なテーマとしてその利用法を紹介しました。ある従属変数に関連する独立変数は通常多岐に渡り、しかも互いに複雑に関連していることが多いので、どんな場合でも重回帰モデルに適用すれば正しい結果が得られるというわけではなく、変数として何を採用するのか、ということも非常に重要になります(むしろこちらの方が大事で、かつ難しい作業だと思います)。現在はコンピュータを利用して、大量のパラメータを使って手軽に結果が得られるようになっていますが、その結果が本当に信頼性の高いものか、意味のあるものなのかはコンピュータは判断してくれないので、最終的には人間が判断する必要があります。大量のデータに埋もれてしまって本当の意味するところを見失ってしまうことがないようにすることが大事だと思います。以上、自分に対する戒めの意味も込めて、まとめとしたいと思います。

補足1) 重回帰係数と t-分布

独立変数がひとつだった場合、

t_a = ( a^ - a ) / ( σ² / Nv_x )^1/2( √v_ε / σ ) = ( a^ - a ) / ( v_ε / Nv_x )^1/2

t_b = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2( √v_ε / σ ) = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )v_ε }^1/2

が自由度 N - 2 の t-分布に従うことは前章で示しました(「回帰係数と t-分布」参照)。同様の方法で、

t_j = ( a^_j - a_j ) / ( s^jjσ² / N )^1/2( √v_ε / σ ) = ( a^_j - a_j ) / ( s^jjv_ε / N )^1/2

t₀	=	( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ]^1/2( √v_ε / σ )
	=	( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }v_ε ]^1/2

が自由度 N - p - 1 の t-分布に従うことが証明できます。まず、( N - p - 1 )v_ε / σ² が自由度 N - p - 1 の χ²-分布 T_N-p-1(y) に従うことを証明します。

( N - p - 1 )v_ε / σ² = Σ_i{1→N}( [ { y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ ]² )

と表され、z_i = { y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ とすると、z_i は平均

E[z_i]	=	E[{ y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ]
	=	E[ { ( a₀ + Σ_j{1→p}( a_jx_j,i ) + ε_i ) - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ]
	=	{ ( a₀ + Σ_j{1→p}( a_jx_j,i ) + E[ε_i] ) - ( a₀ + Σ_j{1→p}( a_jx_j,i ) ) } / σ = 0

であり、分散は

V[z_i]	=	V[{ y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ]
	=	E[{ ( a₀ - a^₀ ) + Σ_j{1→p}( ( a_j - a^_j )x_j ) + ε_i }²] / σ²
	=	{ 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N } + Σ_j{1→p}( Σ_k{1→p}( s^jkx_j,ix_k,i / N ) ) + 1
		- 2Σ_j{1→p}( Σ_k{1→p}( m_xks^jk )x_j,i / N ) - 2E[ε_ia^₀] / σ² - 2Σ_j{1→p}( E[ε_ia^_j]x_j,i ) / σ²

と計算できます。分散を求める式は、v_ε が σ² の不偏推定量であることを証明したときの内容から拝借しています。E[ε_ia^_j] = Σ_k{1→p}( s^jk( x_k,i - m_xk ) )σ² / N であることもすでに証明されているので、これを利用して E[ε_ia^₀] を求めると

E[ε_ia^₀]	=	E[ε_i{ m_y - Σ_j{1→p}( a^_jm_xj ) }]
	=	E[ε_i{ Σ_l{1→N}( ( a₀ + Σ_j{1→p}( a_jx_j,l ) + ε_l ) - Σ_j{1→p}( a^_jx_j,l ) ) }] / N
	=	Σ_l{1→N}( E[ε_iε_l] ) / N - E[ε_iΣ_l{1→N}( Σ_j{1→p}( a^_jx_j,l / N ) )]
	=	σ² / N - Σ_l{1→N}( Σ_j{1→p}( E[ε_ia^_j]x_j,l / N ) )
	=	σ² / N - Σ_j{1→p}( { Σ_k{1→p}( s^jk( x_k,i - m_xk ) )σ² / N }Σ_l{1→N}( x_j,l / N ) )
	=	{ 1 / N - Σ_j{1→p}( Σ_k{1→p}( s^jk( x_k,i - m_xk ) )m_xj / N ) }σ²

となります。

MMS = Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) )

SXX(i,j) = Σ_k{1→p}( Σ_l{1→p}( s^klx_k,ix_l,j ) )

MSX(i) = Σ_j{1→p}( Σ_k{1→p}( m_xks^jkx_j,i ) )

と表すと、

V[z_i]	=	( 1 / N + MMS / N ) + SXX(i,i) / N + 1
		- 2MSX(i) / N - 2{ 1 / N - ( MSX(i) - MMS ) / N } - 2( SXX(i,i) - MSX(i) ) / N
	=	1 - 1 / N - MMS / N - SXX(i,i) / N + 2MSX(i) / N
	=	1 - 1 / N - Σ_j{1→p}( Σ_k{1→p}( s^jk( x_j,ix_k,i - 2m_xjx_k,i + m_xjm_xk ) / N ) )

という結果が得られます。z_i と z_j ( i ≠ j ) の共分散は

E[z_iz_j]	=	E[{ y_i - ( a^₀ + Σ_k{1→p}( a^_kx_k,i ) ) }{ y_j - ( a^₀ + Σ_l{1→p}( a^_lx_l,j ) ) } / σ²]
	=	E[{ ( a₀ - a^₀ ) + Σ_k{1→p}( ( a_k - a^_k )x_k,i ) + ε_i }{ ( a₀ - a^₀ ) + Σ_l{1→p}( ( a_l - a^_l )x_l,j ) + ε_j } / σ²]
	=	E[{ ( a₀ - a^₀ )² + ( a₀ - a^₀ )Σ_k{1→p}( ( a_k - a^_k )x_k,i ) + ( a₀ - a^₀ )Σ_l{1→p}( ( a_l - a^_l )x_l,j )
		+ ( a₀ - a^₀ )( ε_i + ε_j ) + Σ_k{1→p}( ( a_k - a^_k )x_k,i )Σ_l{1→p}( ( a_l - a^_l )x_l,j )
		+ ε_iΣ_l{1→p}( ( a_l - a^_l )x_l,j ) + ε_jΣ_k{1→p}( ( a_k - a^_k )x_k,i ) + ε_iε_j } / σ²]
	=	{ E[( a₀ - a^₀ )²] + Σ_k{1→p}( E[( a₀ - a^₀ )( a_k - a^_k )]x_k,i ) + Σ_l{1→p}( E[( a₀ - a^₀ )( a_l - a^_l )]x_l,j )
		- E[a^₀( ε_i + ε_j )] + Σ_k{1→p}( Σ_l{1→p}( E[( a_k - a^_k )( a_l - a^_l )]x_k,ix_l,j ) )
		- Σ_l{1→p}( E[ε_ia^_l]x_l,j )] - Σ_k{1→p}( E[ε_ja^_k]x_k,i ) } / σ²]

になります。

E[( a^_k - a_k )( a^_l - a_l )] = s^klσ² / N

E[( a^₀ - a₀ )( a^_k - a_k )] = -Σ_r{1→p}( m_xrs^krσ² / N )

E[ε_ia^_l] = Σ_r{1→p}( s^lr( x_r,i - m_xr ) )σ² / N

E[ε_ia^₀] = { 1 / N - Σ_k{1→p}( Σ_l{1→p}( s^kl( x_l,i - m_xl ) )m_xk / N ) }σ²

E[( a₀ - a^₀ )²] = V[a^₀] = { 1 / N + Σ_k{1→p}( Σ_l{1→p}( m_xkm_xls^kl ) ) / N }σ²

を代入すると、

E[z_iz_j]	=	{ 1 / N + Σ_k{1→p}( Σ_l{1→p}( m_xkm_xls^kl ) ) / N } - Σ_k{1→p}( Σ_r{1→p}( m_xrs^kr / N )x_k,i )
		- Σ_l{1→p}( Σ_r{1→p}( m_xrs^lr / N )x_l,j ) - { 1 / N - Σ_k{1→p}( Σ_l{1→p}( s^kl( x_l,i - m_xl ) )m_xk / N ) }
		- { 1 / N - Σ_k{1→p}( Σ_l{1→p}( s^kl( x_l,j - m_xl ) )m_xk / N ) } + Σ_k{1→p}( Σ_l{1→p}( s^klx_k,ix_l,j / N ) )
		- Σ_l{1→p}( Σ_r{1→p}( s^lr( x_r,i - m_xr ) )x_l,j / N ) - Σ_k{1→p}( Σ_r{1→p}( s^kr( x_r,j - m_xr ) )x_k,i / N )
	=	-1 / N + MMS / N - MSX(i) / N - MSX(j) / N + ( MSX(i) - MMS ) / N + ( MSX(j) - MMS ) / N
		+ SXX(i,j) / N - ( SXX(j,i) - MSX(j) ) / N - ( SXX(i,j) - MSX(i) ) / N
	=	-1 / N - MMS / N + MSX(i) / N + MSX(j) / N - SXX(i,j) / N
	=	-1 / N - Σ_k{1→p}( Σ_l{1→p}( s^klx_k,ix_l,j - m_xls^klx_k,i - m_xls^klx_k,j + m_xkm_xls^kl ) ) / N
	=	-1 / N - Σ_k{1→p}( Σ_l{1→p}( s^kl( x_k,i - m_xk )( x_l,j - m_xl ) ) ) / N

s^kl = s^lk なので、SXX(j,i) = SXX(i,j) が成り立つことに注意してください。x_j = ( x_1,j, x_2,j, ... x_p,j )^T, m_x = ( m_x1, m_x2, ... m_xp )^T としたとき、Σ_l{1→p}( s^kl( x_l,j - m_xl ) ) は x_j - m_x と ( s^k1, s^k2, ... s^kp ) との内積であり、( s^k1, s^k2, ... s^kp ) は V^-1 の第 k 行を表しています。V^-1 は対称行列なので、( s^k1, s^k2, ... s^kp )^T は V^-1 の第 k 列でもあり、

( x_j - m_x )^TV^-1

は x_j - m_x と ( s^k1, s^k2, ... s^kp ) の内積からなるベクトルを表します。先ほど示した和の部分は、このベクトルと x_i - m_x の内積を意味するので、

E[z_iz_j] = -1 / N - ( x_j - m_x )^TV^-1( x_i - m_x ) / N

と表すことができます。そこで、r 行 c 列めの要素 a_rc を

a_rc = -( x_r - m_x )^TV^-1( x_c - m_x ) / N + δ_rc - 1 / N

とする行列 A を定義します。但し、δ_rc は「クロネッカーのデルタ」で r ≠ c のとき 0、r = c のとき 1 になります。すると、z = ( z₁, z₂, ... z_N ) は平均ベクトルが 0 で共分散行列が A である多変量正規分布に従うことになります。これを以下 N( 0, A ) で表します。A は共分散行列であり、a_rc = a_cr となることも明らかなので対称行列になります。

A² の r 行 c 列の要素を a2_rc と表し、この値を求めると、

a2_rc	=	Σ_i{1→N}( { -( x_r - m_x )^TV^-1( x_i - m_x ) / N + δ_ri - 1 / N }{ -( x_i - m_x )^TV^-1( x_c - m_x ) / N + δ_ic - 1 / N } )
	=	Σ_i{1→N}( ( x_r - m_x )^TV^-1( x_i - m_x )( x_i - m_x )^TV^-1( x_c - m_x ) / N²
		+ ( x_r - m_x )^TV^-1( x_i - m_x ) / N² + ( x_i - m_x )^TV^-1( x_c - m_x ) / N² + 1 / N²
		- δ_ri{ ( x_i - m_x )^TV^-1( x_c - m_x ) / N + 1 / N } - δ_ic{ ( x_r - m_x )^TV^-1( x_i - m_x ) / N + 1 / N } + δ_riδ_ic )

( x_i - m_x )( x_i - m_x )^T は p 行 p 列の行列であり、その r 行 c 列の要素は ( x_r,i - m_xr )( x_c,i - m_xc ) なので、Σ_i{1→N}( ( x_i - m_x )( x_i - m_x )^T ) / N = V になります。従って、

	Σ_i{1→N}( ( x_r - m_x )^TV^-1( x_i - m_x )( x_i - m_x )^TV^-1( x_c - m_x ) ) / N²
=	( x_r - m_x )^TV^-1VV^-1( x_c - m_x ) / N
=	( x_r - m_x )^TV^-1( x_c - m_x ) / N

また、Σ_i{1→N}( x_i - m_x ) = 0 すなわちゼロベクトルなので、2, 3 項めはゼロになり無視できます。よって、

a2_rc	=	( x_r - m_x )^TV^-1( x_c - m_x ) / N + 1 / N
		- { ( x_r - m_x )^TV^-1( x_c - m_x ) / N + 1 / N } - { ( x_r - m_x )^TV^-1( x_c - m_x ) / N + 1 / N } + δ_rc
	=	-( x_r - m_x )^TV^-1( x_c - m_x ) / N + δ_rc - 1 / N = a_rc

となって、A² = A、つまり A は「べき等行列(Idempotent Matrix)」ということになります。A は対称行列なので、Aの固有ベクトルからなる直交行列を Q、固有値を対角成分とする行列を D としたとき、

A = QDQ^T

と表すことができます(「固有値分解 - (2) カルーネン・レーベ展開」の「1) 対称行列と二次形式」参照)。A² は

A² = QDQ^TQDQ^T = QD²Q^T

と求められるので(ここで Q^TQ = E(単位行列) であることを利用しています)、A² = A から D² = D であることになり、各対角成分 d_ii ( i = 1, 2, ... N ) に対して d_ii² = d_ii となるので、対角成分すなわち固有値は 0 か 1 のどちらかであることになります。z' = Q^Tz とすれば、

( z, Az ) = ( z, QDQ^Tz ) = ( Q^Tz, DQ^Tz ) = ( z', Dz' )

と求められるので(ここで、( x, Ax ) = ( A^Tx, x ) であることを利用しています)、D の対角成分が 1 の個数を r としたとき、z' 内の互いに独立な r 個の要素が標準正規分布に従うことが分かります。また、直交変換によって残り N - r 個の変数は消失します。これは、Az を N 個の線形方程式と見たときに r 個だけが独立で、残り N - r 個は線形従属であることを表しています。直交変換を行ってもノルムは変化しないので、||z|| = ||z'|| が成り立ちます。従って、||z||² は標準正規分布に従う r 個の独立な確率変数の二乗和であり、この値は自由度 r の χ²-分布に従います(「(6) 標本分布」の「1) カイ二乗分布(Chi-square Distribution)」参照)。

r は行列 A の「階数(rank)」であり、行列の列ベクトル(または行ベクトル)の中で線形独立なものの個数を表します。べき等行列の階数は対角成分の和に等しい (「(12) 二標本の解析 -2-」の「補足2) べき等行列の階数」参照) ことから、A の対角成分の和を求めると

Σ_i{1→N}( a_ii )	=	Σ_i{1→N}( -Σ_k{1→p}( Σ_l{1→p}( s^kl( x_k,i - m_xk )( x_l,i - m_xl ) ) ) / N + δ_ii - 1 / N )
	=	-Σ_k{1→p}( Σ_l{1→p}( s^klΣ_i{1→N}( ( x_k,i - m_xk )( x_l,i - m_xl ) ) / N ) ) + N - 1
	=	-Σ_k{1→p}( Σ_l{1→p}( s^kls_kl ) ) + N - 1
	=	-p + N - 1 = N - p - 1

よって、階数は常に N - p - 1 になり、||z||² すなわち ( N - p - 1 )v_ε / σ² は自由度 N - p - 1 の χ²-分布に従うことが証明されました。

次に、( a^_j - a_j ) / ( s^jjσ² / N )^1/2, ( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ]^1/2 と ( N - p - 1 )v_ε / σ² = Σ_i{1→N}( [ { y_i - ( a^₀ + Σ_k{1→p}( a^_kx_k,i ) ) } / σ ]² ) が互いに独立であることを証明します。

まず、x_j = ( a^_j - a_j ) / ( s^jjσ² / N )^1/2 と z_i = { y_i - ( a^₀ + Σ_k{1→p}( a^_kx_k,i ) ) } / σ に対して、E[x_jz_i] を求めてみます。x_j, z_i はどちらも平均ゼロの正規分布に従う確率変数です。

E[x_jz_i]	=	E[{ ( a^_j - a_j ) / ( s^jjσ² / N )^1/2 }[ { y_i - ( a^₀ + Σ_k{1→p}( a^_kx_k,i ) ) } / σ ]]
	=	E[( a^_j - a_j ){ y_i - ( a^₀ + Σ_k{1→p}( a^_kx_k,i ) ) }] / { σ²( s^jj / N )^1/2 }
	=	E[( a^_j - a_j ){ ( a₀ - a^₀ ) + Σ_k{1→p}( ( a_k - a^_k )x_k,i ) + ε_i }] / { σ²( s^jj / N )^1/2 }
	=	{ -E[( a^_j - a_j )( a^₀ - a₀ )] - Σ_k{1→p}( E[( a^_j - a_j )( a^_k - a_k )]x_k,i )
		+ E[( a^_j - a_j )ε_i] } / { σ²( s^jj / N )^1/2 }
	=	{ Σ_k{1→p}( m_xks^jkσ² / N ) - Σ_k{1→p}( s^jkσ²x_k,i / N )
		+ Σ_k{1→p}( s^jk( x_k,i - m_xk ) )σ² / N } / { σ²( s^jj / N )^1/2 }
	=	{ Σ_k{1→p}( m_xks^jk ) - Σ_k{1→p}( s^jkx_k,i )
		+ Σ_k{1→p}( s^jkx_k,i - m_xks^jk ) } / { σ²( Ns^jj )^1/2 }
	=	0 = E[x_j]E[z_i]

となるので、(x_j と z_i が正規分布に従うことから) x_j と z_i は互いに独立です。確率変数 x, y が互いに独立であるとは同時分布 p( x, y ) が p(x) と p(y) の積で表されることだったので、p(z_i) に対して u_i = z_i² と変数変換をしても独立性は保たれます。さらに y = Σ_i{1→N}( u_i ) と変数変換しても、全ての i に対して x_j と u_i は互いに独立なので、やはり x_j , yの独立性は保たれます。

今度は、x₀ = ( a^₀ - a₀ ) / [ { 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² ]^1/2 と z_i = { y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ に対して、E[x₀z_i] を求めてみます。x₀, z_i はやはり平均ゼロの正規分布に従う確率変数です。式を見やすくするために、x₀ = ( a^₀ - a₀ ) / ( Aσ² / N )^1/2 で表します( A = 1 + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) になります )。

E[x₀z_i]	=	E[{ ( a^₀ - a₀ ) / ( Aσ² / N )^1/2 }[ { y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) } / σ ]]
	=	E[( a^₀ - a₀ ){ y_i - ( a^₀ + Σ_j{1→p}( a^_jx_j,i ) ) }] / { σ²( A / N )^1/2 }
	=	E[( a^₀ - a₀ ){ ( a₀ - a^₀ ) + Σ_j{1→p}( ( a_j - a^_j )x_j,i ) + ε_i }] / { σ²( A / N )^1/2 }
	=	{ -E[( a^₀ - a₀ )²] - Σ_j{1→p}( E[( a^₀ - a₀ )( a^_j - a_j )]x_j,i )
		+ E[( a^₀ - a₀ )ε_i] } / { σ²( A / N )^1/2 }
	=	[ -{ 1 / N + Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) / N }σ² + Σ_j{1→p}( Σ_k{1→p}( m_xks^jkσ² / N )x_j,i )
		+ { 1 / N - Σj{1→p}( Σ_k{1→p}( s^jk( x_k,i - m_xk ) )m_xj / N ) }σ² ] / { σ²( A / N )^1/2 }
	=	{ -1 - Σ_j{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) + Σ_j{1→p}( Σ_k{1→p}( m_xks^jkx_j,i ) )
		+ 1 - Σj{1→p}( Σ_k{1→p}( m_xjs^jkx_k,i ) + Σj{1→p}( Σ_k{1→p}( m_xjm_xks^jk ) ) } / ( AN )^1/2
	=	0 = E[x_j]E[z_i]

よって、同様な考えによって x₀ と y は互いに独立であることが示され、これで t_j, t₀ が自由度 N - p - 1 の t-分布に従うことが証明されました。

補足2) 予測値の標本分散

z_i = ( y^_i - m^_y ) / σ を次のように変形します。

z_i	=	[ { a^₀ + Σ_j{1→p}( a^_jx_j,i ) } - { a^₀ - Σ_j{1→p}( a^_jm_xj ) } ] / σ
	=	Σ_j{1→p}( a^_j( x_j,i - m_xj ) ) / σ

z_i は a^_j の一次式なので、a^_j が正規分布に従うことから z_i も正規分布に従うことになり、また

E[z_i] = Σ_j{1→p}( a_j( x_j,i - m_xj ) ) / σ

になります。z_r と z_c の共分散 E[( z_r - E[z_r] )( z_c - E[z_c] )] は

E[( z_r - E[z_r] )( z_c - E[z_c] )]	=	E[Σ_j{1→p}( ( a^_j - a_j )( x_j,r - m_xj ) )Σ_l{1→p}( ( a^_l - a_l )( x_l,c - m_xl ) ) / σ²]
	=	Σ_j{1→p}( Σ_l{1→p}( E[( a^_j - a_j )( a^_l - a_l )]( x_j,r - m_xj )( x_l,c - m_xl ) ) ) / σ²
	=	Σ_j{1→p}( Σ_l{1→p}( ( s^jlσ² / N )( x_j,r - m_xj )( x_l,c - m_xl ) ) ) / σ²
	=	Σ_j{1→p}( Σ_l{1→p}( s^jl( x_j,r - m_xj )( x_l,c - m_xl ) ) ) / N
	=	( x_r - m_x )^TV^-1( x_c - m_x ) / N

になることから(最後の変形は「補足1) 重回帰係数と t-分布」を参照してください)、z_i は z_r と z_c の共分散を r 行 c 列とする N x N 共分散行列 A を持つ p 変量の正規分布になります。A² の r 行 c 列成分 a2_rc は

a2_rc	=	Σ_i{1→N}( ( x_r - m_x )^TV^-1( x_i - m_x )( x_i - m_x )^TV^-1( x_c - m_x ) ) / N²
	=	( x_r - m_x )^TV^-1VV^-1( x_c - m_x ) / N
	=	( x_r - m_x )^TV^-1( x_c - m_x ) / N = E[z_rz_c]

となるので、A は「べき等行列(Idempotent Matrix)」です。よって、ここでも固有値すなわち分散は 0 か 1 のいずれかになり、べき等行列の階数が対角成分の和に等しい(「(12) 二標本の解析 -2-」の「補足2) べき等行列の階数」参照) ことから、A の対角成分の和を求めると

Σ_i{1→N}( E[z_i²] )	=	Σ_i{1→N}( Σ_j{1→p}( Σ_l{1→p}( s^jl( x_j,i - m_xj )( x_l,i - m_xl ) ) ) ) / N
	=	Σ_j{1→p}( Σ_l{1→p}( s^jlΣ_i{1→N}( ( x_j,i - m_xj )( x_l,i - m_xl ) / N ) ) )
	=	Σ_j{1→p}( Σ_l{1→p}( s^jls_jl ) ) = p

となります。従って、Σ_i( z_i² ) = Σ_i( { ( y^_i - m^_y ) / σ }² ) は自由度 p の χ²-分布に従うことが証明できたことになります。

<参考文献>

1. 「多変量統計解析法」田中豊 / 脇本和晶共著 (現代数学社)
2. KogoLab 早稲田大学人間科学学術院・向後千春研究室 - アイスクリーム屋さんで学ぶ楽しい統計学 - 5. 偏相関
3. 日本女子大学心理学科岡本安晴のホームページ - 統計入門 - 偏相関係数と擬似相関
4. Wikipedia

◆◇◆更新履歴◆◇◆

サンプル・プログラムに修正を行いました。エラーチェックなどがメインで、処理の内容はほとんど変わっていません (2012-05-20)

前に戻る

タイトルに戻る

総合テスト	教科A	教科B	総合テスト	教科A	教科B
70	90	37	77	84	66
52	52	41	87	89	69
78	80	49	60	51	40
70	77	36	87	87	78
78	84	38	71	68	56
66	86	25	60	60	37
84	98	39	59	76	34
78	96	30	49	57	28
64	52	81	66	84	32
76	56	80	69	86	40

総合テスト	教科A	教科B	総合テスト	教科A	教科B
70	90	37	77	84	66
52	52	41	87	89	69
78	80	49	60	51	40
70	77	36	87	87	78
78	84	38	71	68	56
66	86	25	60	60	37
84	98	39	59	76	34
78	96	30	49	57	28
64	52	81	66	84	32
76	56	80	69	86	40

総合テスト	教科A	教科B	総合テスト	教科A	教科B
70	90	37	77	84	66
52	52	41	87	89	69
78	80	49	60	51	40
70	77	36	87	87	78
78	84	38	71	68	56
66	86	25	60	60	37
84	98	39	59	76	34
78	96	30	49	57	28
64	52	81	66	84	32
76	56	80	69	86	40