確率・統計 (20) 順序ロジスティック回帰 (Ordered Logistic Regression)

確率・統計

(20) 順序ロジスティック回帰 (Ordered Logistic Regression)

前章では、二値確率変数に一般化線形モデルを適用し、ロジスティック・モデルをはじめとする二項分布を利用した回帰分析ができることと、さらに多項分布を適用して多値確率変数についても名義ロジスティック・モデルを使った回帰分析ができることを紹介しました。これらのモデルはすべて、「潜在変数 (Latent Variable)」と呼ばれる測定できない値を独立変数の線形式で表現できると仮定した上で構築することができます。この章では最初に潜在変数を使ったモデルについて検討し、それを利用して「順序ロジスティック・モデル (Ordered Logistic Regression)」の内容について紹介したいと思います。

(注) 数式などの記法について (ドキュメントの中で使用している数式の表現方法に関する注意点です)

1) 潜在変数モデル (Latent Variable Model)

二値変数 ( 1 / 0 ) が成功・失敗や選択・非選択を意味する時、どちらが採用されるのかが独立変数 x_i によって左右されると仮定します。例えば、ある商品を購入するかどうかが性別や年齢、地域などによって影響を受けるとき、x_i は性別(二値変数)、年齢(連続変数または順序変数)、地域(名義変数)を含むと考えることができます。i 番目の人が商品を購入する場合を U_1i、購入しない場合を U_0i として、それが性別 x_i1、年齢 x_i2、地域 x_i3 の線形式

U_1i	=	α₁₀ + α₁₁x_i1 + α₁₂x_i2 + α₁₃x_i3 + ε_1i
	=	x_i^Tα₁ + ε_1i
U_0i	=	α₀₀ + α₀₁x_i1 + α₀₂x_i2 + α₀₃x_i3 + ε_0i
	=	x_i^Tα₀ + ε_0i

で表されるとします。但し、α_k = ( α_k0, α_k1, α_k2, α_k3 )^T ( k = 0, 1 ) は回帰係数、x_i = ( 1, x_i1, x_i2, x_i3 )^T は i 番目の人を表す独立変数ベクトルで、ε_ki は x_i で説明することのできない誤差成分とします。U_0i < U_1i のとき y_i = 1、U_0i > U_1i のとき y_i = 0 であるとしたとき、y_i = 1 となる確率 P( y_i = 1 ) は

P( y_i = 1 )	=	P( U_0i < U_1i )
	=	P( x_i^Tα₀ + ε_0i < x_i^Tα₁ + ε_1i )
	=	P( ε_0i - ε_1i < x_i^T( α₁ - α₀ ) )
	≡	P( δ_i < x_i^Tβ )

と表すことができます。δ_i はやはり x_i では説明できない誤差成分であり、ある確率分布に従う確率変数と仮定します。確率分布が ( x_i^Tβ によってパラメータは変化するものの ) i について全て共通であるとした時、それを F( x_i^Tβ ) で表して

P( y_i = 1 ) ≡ F( x_i^Tβ )

とすることができます。単純な例として、x_i = ( 1, x_i ) として

U_ki = x_i^Tα_k = α₀ + α_k1x_i + ε_ki

とした場合、P( y_i = 1 ) = F( ( α₁₁ - α₀₁ )x_i ) ≡ F( βx_i ) となります。これは、U_ki が傾きのみ異なるというモデルです。もし傾きが等しければ β = α₁₁ - α₀₁ = 0 であり、例えば ε_ki が k について分散が一定となる正規分布 N( 0, σ_k² ) に従うとしたとき、δ_i は正規分布 N( 0, σ₀² + σ₁² ) に従い、P( y_i = 1 ) = P( δ_i < 0 ) より y_i が 1 になる場合は五分五分になり、しかも x_i には依存しなくなります。しかし β < 0 ならば、P( δ_i < βx_i ) は x_i が大きくなるほど低くなることになって y_i = 1 になる回数は減るでしょうし、逆に β > 0 なら x_i が大きくなるほど y_i = 1 になる回数は多くなります。U_ki を適当に変数変換することで、σ₀² + σ₁² = 1 として δ_i が標準正規分布 N( 0, 1 ) に従うとした時、P( δ_i < βx_i ) は N( 0, 1 ) の累積分布関数

∫{-∞→βx_i} exp( -t² / 2 ) dt ≡ Φ( βx_i )

で表されます。π ≡ P( δ_i < βx_i ) = P( y_i = 1 ) とすれば π = Φ( βx_i ) となって、

Φ^-1( π ) = βx_i

となります。一般化すれば

Φ^-1( π ) = x_i^Tβ

であり、これはプロビット・モデルそのものになります。

k が多値になったとき、その数を C とすれば、y_i = k ( k = 1, 2, ... C ) となる場合を、l ≠ k である任意の l に対して U_ki > U_li が成り立つときとすれば、

P( y_i = k \| ε_ki )	=	P( ( U_1i < U_ki ) ∩ ( U_2i < U_ki ) ∩ ... ∩ ( U_k-1,i < U_ki ) ∩ ( U_k+1,i < U_ki ) ∩ ... ∩ ( U_Ci < U_ki ) )
	=	P( ( x_i^Tα₁ + ε_1i < x_i^Tα_k + ε_ki ) ∩ ( x_i^Tα₂ + ε_2i < x_i^Tα_k + ε_ki ) ∩ ...
		∩ ( x_i^Tα_k-1 + ε_k-1,i < x_i^Tα_k + ε_ki ) ∩ ( x_i^Tα_k+1 + ε_k+1,i < x_i^Tα_k + ε_ki ) ∩ ...
		∩ ( x_i^Tα_C + ε_Ci < x_i^Tα_k + ε_ki ) )
	=	P( ( ε_1i < ε_ki + x_i^T( α_k - α₁ ) ) ∩ ( ε_2i < ε_ki + x_i^T( α_k - α₂ ) ) ∩ ...
		∩ ( ε_k-1,i < ε_ki + x_i^T( α_k - α_k-1 ) ) ∩ ( ε_k+1,i < ε_ki + x_i^T( α_k - α_k+1 ) ) ∩ ...
		∩ ( ε_Ci < ε_ki + x_i^T( α_k - α_C ) ) )
	≡	P( ( ε_1i < ε_ki + x_i^Tβ₁ ) ∩ ( ε_2i < ε_ki + x_i^Tβ₂ ) ∩ ...
		∩ ( ε_k-1,i < ε_ki + x_i^Tβ_k-1 ) ∩ ( ε_k+1,i < ε_ki + x_i^Tβ_k+1 ) ∩ ...
		∩ ( ε_Ci < ε_ki + x_i^Tβ_C ) )

となります。但し、P( y_i = k | ε_ki ) は ε_ki を固定した時の条件付確率を意味します。

ε_li ( l = 1, 2, ... C ) は C 個あって、それぞれがある確率分布に従うと仮定することができます。ここで ε_li が「標準ガンベル分布 (Standard Gumbel Distribution)」

f(s) = exp( -s - e^-s )

に独立に従うと仮定します。t = e^-s ( s = -log t ) としたとき ds = -dt / t で、s → -∞ のとき t → ∞ なので、

F(y)	=	∫{-∞→y} exp( -s - e^-s ) ds
	=	∫{∞→e^-y} exp( log t )e^-t( -1 / t ) dt
	=	∫{e^-y→∞} e^-t dt
	=	[ -e^-t ]∫{e^-y→∞}
	=	exp( e^-y )

となります。P( y_i = k | ε_ki ) は ε_ki を固定した時の確率になるので、ε_ki が取りうる範囲全体での周辺確率を求めるためには、Σ_j( A_j ) = Ω の条件下で

P( B ) = Σ_j( P( A_j ∩ B ) ) = Σ_j( P( B | A_j )P( A_j ) )

であることを利用して

∫{-∞→∞} P( y_i = k | ε_ki )P( ε_ki ) dε_ki

を計算する必要があります。ここで

P( y_i = k | ε_ki ) = Π_l{1→C;l≠k}( P( ε_li < ε_ki + x_i^Tβ_l ) )

つまり ε_li < ε_ki + x_i^Tβ_l であるという事象が互いに独立であると仮定すれば、

	Π_l{1→C;l≠k}( P( ε_li < ε_ki + x_i^Tβ_l ) )P( ε_ki )
=	Π_l{1→C;l≠k}( exp( exp( -ε_ki - x_i^Tβ_l ) ) )[ exp( -ε_ki - exp( -ε_ki ) ) ]
=	exp( Σ_l{1→C;l≠k}( exp( -ε_ki - x_i^T( α_k - α_l ) ) ) - ε_ki - exp( -ε_ki ) )
=	exp( -ε_ki - exp( -ε_ki )[ Σ_l{1→C;l≠k}( exp( x_i^T( α_l - α_k ) ) ) + 1 ] )
≡	exp( -ε_ki - K_i・exp( -ε_ki ) )

と変形できます。但し、

K_i = Σ_l{1→C;l≠k}( exp( x_i^T( α_l - α_k ) ) ) + 1

とします。λ_i = log( K_i ) とすれば、与式は

exp( -ε_ki - exp( λ_i )exp( -ε_ki ) ) = exp( -ε_ki - exp( -( ε_ki - λ_i ) ) )

となるので、t = ε_ki - λ_i とすれば dε_ki = dt、t → ±∞ ( ε_ki → ±∞ ) となることから、

	∫{-∞→∞} exp( -ε_ki - exp( -( ε_ki - λ_i ) ) ) dε_ki
=	∫{-∞→∞} exp( -t - λ_i - e^-t ) dt
=	exp( -λ_i )∫{-∞→∞} exp( -t - e^-t ) dt
=	exp( -λ_i ) = 1 / K_i

となります。但し、exp( -t - e^-t ) が標準ガンベル分布であることから、その全積分が 1 であることを利用しています。K_i は

K_i	=	Σ_l{1→C;l≠k}( exp( x_i^T( α_l - α_k ) ) ) + exp( 0 )
	=	Σ_l{1→C;l≠k}( exp( x_i^T( α_l - α_k ) ) ) + exp( x_i^T( α_k - α_k ) )
	=	Σ_l{1→C}( exp( x_i^T( α_l - α_k ) ) )
	=	Σ_l{1→C}( exp( x_i^Tα_l ) / exp( x_i^Tα_k ) )
	=	Σ_l{1→C}( exp( x_i^Tα_l ) ) / exp( x_i^Tα_k )

と変形できるので、

1 / K_i = exp( x_i^Tα_k ) / Σ_l{1→C}( exp( x_i^Tα_l ) )

であり、最終的に

P( y_i = k ) = exp( x_i^Tα_k ) / Σ_l{1→C}( exp( x_i^Tα_l ) )

という結果が得られます。

名義ロジスティック・モデルにおいて、カテゴリ k の発生確率を π_k とし、基準カテゴリを k = 1 としてその比率を ρ_k = π_k / π₁ としたとき、

π_k = ρ_k / [ 1 + Σ_l{2→C}( ρ_l ) ]

の関係式が成り立つのでした。ρ₁ = π₁ / π₁ = 1 なので、上式は

π_k = ρ_k / Σ_l{1→C}( ρ_l )

とも表現できます。連結関数を対数関数として log( ρ_k ) = x_i^Tα_k となるような独立変数 x_i があるとき、ρ_k = exp( x_i^Tα_k ) より

π_k = exp( x_i^Tα_k ) / Σ_l{1→C}( exp( x_i^Tα_l ) )

となります。これは先ほど求めた式と等しいことから、名義ロジスティックモデルは、潜在変数 U_ki が最大となる時 y_i = k となると仮定した時、誤差成分が標準ガンベル分布に従う場合の各カテゴリの確率密度を表しているという結果を得ることができます。

前述の結果から明らかなように、名義ロジスティックモデルの場合は ε_li < ε_ki + x_i^Tβ_l であるという事象が互いに独立であると仮定しています。つまり、カテゴリ k と l の間でこの不等号が成り立つことは、他のカテゴリから影響を受けないことを意味します。このとき得られる確率は

π_k = exp( x_i^Tα_k ) / Σ_l{1→C}( exp( x_i^Tα_l ) )

であることから、二つの確率の比 π_k1 / π_k2 は

π_k1 / π_k2 = exp( x_i^Tα_k1 ) / exp( x_i^Tα_k2 )

となって、やはり他のカテゴリからの影響は受けません。これを「他の選択肢からの独立性 ( Independence of Irrelevant Alternatives ; IIA )」といい、場合によってはこの前提が問題になる可能性もあります。ε_ki に標準ガンベル分布ではなく多変量正規分布を適用し、ε_i = ( ε_1i, ε_2i, ... ε_Ci )^T が平均ベクトル 0、共分散行列 V の多変量正規分布

N( 0, V ) = [ 1 / ( 2π )^N/2|V|^1/2 ] exp( -ε_i^TV^-1ε_i / 2 )

に従うすれば、V の非対角成分がゼロでない限り ε_ki は互いに独立ではなくなります。

P( y_i = k )	=	P( ( U_1i < U_ki ) ∩ ( U_2i < U_ki ) ∩ ... ∩ ( U_k-1,i < U_ki ) ∩ ( U_k+1,i < U_ki ) ∩ ... ∩ ( U_Ci < U_ki ) )
	=	P( ( ε_1i - ε_ki < x_i^T( α_k - α₁ ) ) ∩ ( ε_2i - ε_ki < x_i^T( α_k - α₂ ) ) ∩ ...
		∩ ( ε_k-1,i - ε_ki < x_i^T( α_k - α_k-1 ) ) ∩ ( ε_k+1,i - ε_ki < x_i^T( α_k - α_k+1 ) ) ∩ ...
		∩ ( ε_Ci - ε_ki < x_i^T( α_k - α_C ) ) )
	≡	P( ( δ_1i < x_i^Tβ₁ ) ∩ ( δ_2i < x_i^Tβ₂ ) ∩ ...
		∩ ( δ_k-1,i < x_i^Tβ_k-1 ) ∩ ( δ_k+1,i < x_i^Tβ_k+1 ) ∩ ...
		∩ ( δ_Ci < x_i^Tβ_C ) )

に対して、δ_i = ( δ_1i, δ_2i, ... δ_k-1,i, δ_k+1,i, ... δ_Ci )^T は平均ベクトルが 0 で、共分散行列 V' は次元が一つ減って C - 1 となります。この多変量正規分布 N( 0, V' ) を使って

P( y_i = k ) = ∫{-∞→x_i^Tβ₁}∫{-∞→x_i^Tβ₂}...∫{-∞→x_i^Tβ_k-1}∫{-∞→x_i^Tβ_k+1}...∫{-∞→x_i^Tβ_C} N( 0, V' ) ∂δ_1i∂δ_2i...∂δ_k-1,i∂δ_k+1,i...∂δ_Ci

というモデル式が得られます。これを「多項プロビット・モデル (Multinomial Probit Model ; MNP)」といいます。この値を求めるためには多変数関数に対して重積分を計算する必要があり、正規分布に対する原始関数 ( 関数 f(x) に対し、F'(x) = f(x) を満たす F(x) のこと ) は初等関数の形では存在しないため、カテゴリ数が多くなると計算が困難になります。そのため、多項プロビット・モデルの計算には「モンテカルロ法 (Monte Carlo Method)」などが利用されるようです。

2) 順序ロジスティック回帰 (Ordered Logistic Regression)

ロジスティックモデルが、潜在変数モデルによるカテゴリの選択という考え方から導かれることを前節で示しました。ここで、カテゴリの選択が次のような形で表されると仮定します。

U_i = x_i^Tα + ε_i に対し

y_i = k のとき、C_k-1 < U_i < C_k

C_k ( k = 0, 1, ... C ) は区分点と呼ばれ、C_k-1 と C_k の間の領域に U_i が属するときに y_i = k とします。但し、k1 < k2 ならば C_k1 < C_k2 で、C₀ = -∞、C_C = ∞ とします。U_i = x_i^Tα + ε_i を代入して式を変形すると、

C_k-1 - x_i^Tα < ε_i < C_k - x_i^Tα

となるので、ε_i がある確率密度関数 f(ε_i) に従うとして

π_ik = P( y_i = k )	=	P( C_k-1 - x_i^Tα < ε_i < C_k - x_i^Tα )
	=	∫{C_k-1 - x_i^Tα→C_k - x_i^Tα} f(ε_i) dε_i
	=	F( C_k - x_i^Tα ) - F( C_k-1 - x_i^Tα )

と表すことができます。但し、F(ε_i) は f(ε_i) に対する累積分布関数です。

図 2-1. 潜在変数の確率密度

f(ε_i) に、ロジスティック・モデルで利用した確率密度関数

f(ε_i) = exp( ε_i ) / [ 1 + exp( ε_i ) ]²

F(ε_i) = exp( ε_i ) / [ 1 + exp( ε_i ) ]

を適用すると、

π_ik = exp( C_k - x_i^Tα ) / [ 1 + exp( C_k - x_i^Tα ) ] - exp( C_k-1 - x_i^Tα ) / [ 1 + exp( C_k-1 - x_i^Tα ) ]

であり、この式から、また上図からも明らかなように

F( U_i < C_k ) = Σ_l{1→k}( π_il ) = exp( C_k - x_i^Tα ) / [ 1 + exp( C_k - x_i^Tα ) ]

F( U_i ≥ C_k ) = Σ_l{k+1→C}( π_il ) = 1 - exp( C_k - x_i^Tα ) / [ 1 + exp( C_k - x_i^Tα ) ]

なので、

F( U_i ≥ C_k ) / F( U_i < C_k )	=	{ 1 - exp( C_k - x_i^Tα ) / [ 1 + exp( C_k - x_i^Tα ) ] } / { exp( C_k - x_i^Tα ) / [ 1 + exp( C_k - x_i^Tα ) ] }
	=	{ [ 1 + exp( C_k - x_i^Tα ) ] - exp( C_k - x_i^Tα ) } / exp( C_k - x_i^Tα )
	=	1 / exp( C_k - x_i^Tα ) = exp( x_i^Tα - C_k )

より

log( F( U_i ≥ C_k ) / F( U_i < C_k ) ) = log( Σ_l{k+1→C}( π_il ) / Σ_l{1→k}( π_il ) ) = x_i^Tα - C_k

という結果が得られます。このとき、x_i^Tα は各カテゴリに対して共通で、定数項となる C_k だけがカテゴリに依存することになります。x_i^Tα に定数項が含まれているかどうかには無関係に、C_k を x_i^Tα の内部に取り込んでも問題はないので、

x_i^Tα - C_k = α_0k + α₁x₁ + α₂x₂ + ...

として定数項以外はカテゴリに依存しないモデルを定義します。このようなモデルを「比例オッズ・モデル ( Proportional Odds Model )」といいます。

比例オッズモデルは、区分点によって分割した二つの確率密度の比が定数項以外はどのカテゴリも共通なので、独立変数による変化量はカテゴリごとに変化しないことを意味します。これが変化すると仮定した場合、モデル式は次のようになります。

log( F( U_i ≥ C_k ) / F( U_i < C_k ) ) = log( Σ_l{k+1→C}( π_il ) / Σ_l{1→k}( π_il ) ) = x_i^Tα_k

違いは、回帰係数がカテゴリごとに異なるかどうかだけです。このようなモデルは「累積ロジット・モデル ( Cumulative Logit Model )」と呼ばれます。

名義ロジスティック・モデルの場合、各カテゴリについては順序がなく、潜在変数が最大となるカテゴリが選択されると解釈しました。それに対して、上に示したモデルはカテゴリが順序を持ち、潜在変数が位置する領域によってカテゴリが決まるという解釈になります。このようなモデルを用いた回帰分析を「順序ロジスティック回帰 (Ordered Logistic Regression)」といいます。

C_k-2 ≤ U_i ≤ C_k の範囲の中で C_k-1 ≤ U_i ≤ C_k となる条件付確率を p*_ik ≡ P( y_i = k | y_i = k - 1 ∪ y_i = k ) としたとき、

p*_ik ≡ P( y_i = k | y_i = k - 1 ∪ y_i = k ) = π_ik / ( π_i,k-1 + π_ik )

となります。p*_ik にロジスティック・モデルで利用した累積分布関数

F( C_k - x_i^Tα_k ) = exp( C_k - x_i^Tα_k ) / [ 1 + exp( C_k - x_i^Tα_k ) ] = 1 - 1 / [ 1 + exp( C_k - x_i^Tα_k ) ]

を適用すると、

p*_ik = 1 - 1 / [ 1 + exp( C_k - x_i^Tα_k ) ] より

exp( C_k - x_i^Tα_k )	=	1 / ( 1 - p*_ik ) - 1
	=	( π_i,k-1 + π_ik ) / π_i,k-1 - 1
	=	π_ik / π_i,k-1
C_k - x_i^Tα_k	=	log( π_ik / π_i,k-1 )

という結果が得られます。左辺は C_k もまとめて線系結合 x_i^Tα_k の形に表すことができるので、

log( π_ik / π_i,k-1 ) = x_i^Tα_k

という、名義ロジスティックモデルによく似た式になります。これを「隣接カテゴリ・ロジット・モデル (Adjacent Category Logit Model)」といいます。「累積ロジット・モデル」や「比例オッズ・モデル」が区分点を境界として前後の累積確率密度の比率を扱うのに対し、「隣接カテゴリ・ロジット・モデル」は隣り合う二つのカテゴリの確率の比率を利用します。どちらも比率を使うところは同じですが、「隣接カテゴリ・ロジット・モデル」は二つのカテゴリ以外については考慮しないモデルであるという事ができます。

最後に、U_i ≤ C_k の範囲の中で C_k-1 ≤ U_i ≤ C_k となる条件付確率 p*_ik ≡ P( y_i = k | y_i ∈ { 1, 2, ... k } ) に対して「隣接カテゴリ・ロジット・モデル」同様の操作を行います。

p*_ik = π_ik / Σ_l{1→k}( π_il )

にロジスティック・モデルで利用した累積分布関数を適用して、

exp( C_k - x_i^Tα_k )	=	1 / ( 1 - p*_ik ) - 1
	=	Σ_l{1→k}( π_il ) / Σ_l{1→k-1}( π_il ) - 1
	=	π_ik / Σ_l{1→k-1}( π_il )
C_k - x_i^Tα_k	=	log( π_ik / Σ_l{1→k-1}( π_il ) )

という結果となり、

log( π_ik / Σ_l{1→k-1}( π_il ) ) = x_i^Tα_k

というモデル式が得られます。条件付確率を

p*_ik ≡ P( y_i = k | y_i ∈ { k, k + 1, ... C } )

とすれば、モデル式は

log( Σ_l{k+1→C}( π_il ) / π_ik ) = x_i^Tα_k

となります。このモデル式は「連続比ロジット・モデル ( Continuation-Ratio Logit Model )」と呼ばれます。

多項分布を指数型分布族としたときの対数尤度 l は

l = Π_i{1→N}( log( P_{n_i,π_i}( y_i ) ) ) = Σ_i{1→N}( Σ_k'{1→C}( y_ik'log( π_ik' ) ) ) + K

で表されるのでした。但し、K = Σ_i{1→N}( log n_i! - Σ_k'{1→C}( log y_ik'! ) ) は π_i に依存しない定数項です。「累積ロジット・モデル」において、

ρ_ik = Σ_l{k+1→C}( π_il ) / Σ_l{1→k}( π_il ) ( k = 1, 2, ... C - 1 )

とした時、

ρ_ik = Σ_l{k+1→C}( π_il ) / Σ_l{1→k}( π_il ) = [ 1 - Σ_l{1→k}( π_il ) ] / Σ_l{1→k}( π_il ) より

Σ_l{1→k}( π_il ) = 1 / ( 1 + ρ_ik )

なので、π_ik は

π_i1 = 1 / ( 1 + ρ_i1 )

π_ik = Σ_l{1→k}( π_il ) - Σ_l{1→k-1}( π_il ) = 1 / ( 1 + ρ_ik ) - 1 / ( 1 + ρ_i,k-1 )

π_iC = 1 - 1 / ( 1 + ρ_{i, C-1} )

と表すことができます。対数尤度 l は

l	=	Σ_i{1→N}( y_i1log( 1 / ( 1 + ρ_i1 ) ) + y_iClog( 1 - 1 / ( 1 + ρ_i,C-1 ) )
		+ Σ_k'{2→C-1}( y_ik'log( 1 / ( 1 + ρ_ik' ) - 1 / ( 1 + ρ_i,k'-1 ) ) ) ) + K
	=	Σ_i{1→N}( y_i1log( 1 / ( 1 + ρ_i1 ) ) + y_iClog( ρ_i,C-1 / ( 1 + ρ_i,C-1 ) )
		+ Σ_k'{2→C-1}( y_ik'log( ( ρ_i,k'-1 - ρ_ik' ) / ( 1 + ρ_ik' )( 1 + ρ_i,k'-1 ) ) ) ) + K
	=	Σ_i{1→N}( -y_i1log( 1 + ρ_i1 ) + y_iC[ log( ρ_i,C-1 ) - log( 1 + ρ_i,C-1 ) ]
		+ Σ_k'{2→C-1}( y_ik'[ log( ρ_i,k'-1 - ρ_ik' ) - log( 1 + ρ_ik' ) - log( 1 + ρ_i,k'-1 ) ] ) ) + K
	=	Σ_i{1→N}( -Σ_k'{1→C-1}( y_ik'log( 1 + ρ_ik' ) ) - Σ_k'{2→C}( y_ik'log( 1 + ρ_i,k'-1 ) )
		+ Σ_k'{2→C-1}( y_ik'log( ρ_i,k'-1 - ρ_ik' ) ) + y_iClog( ρ_i,C-1 ) ) + K
	=	Σ_i{1→N}( -Σ_k'{1→C-1}( ( y_ik' + y_i,k'+1 )log( 1 + ρ_ik' ) )
		+ Σ_k'{2→C-1}( y_ik'log( ρ_i,k'-1 - ρ_ik' ) ) + y_iClog( ρ_i,C-1 ) ) + K

となり、これを α_kj で偏微分すると ρ_ik を持つ項だけが残るので

	( ∂ / ∂α_kj )Σ_k'{1→C-1}( ( y_ik' + y_i,k'+1 )log( 1 + ρ_ik' ) )
=	[ ( y_ik + y_i,k'+1 ) / ( 1 + ρ_ik ) ]( ∂ρ_ik / ∂α_kj )
=	x_ij( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )

	( ∂ / ∂α_kj )Σ_k'{2→C-1}( y_ik'log( ρ_i,k'-1 - ρ_ik' ) )
=	[ y_i,k+1 / ( ρ_ik - ρ_i,k+1 ) - y_ik / ( ρ_i,k-1 - ρ_ik ) ]( ∂ρ_ik / ∂α_kj )
=	x_ijy_i,k+1ρ_ik / ( ρ_ik - ρ_i,k+1 ) + x_ijy_ikρ_ik / ( ρ_ik - ρ_i,k-1 )	[ 1 < k < C - 1 ]
=	x_ijy_i2ρ_i1 / ( ρ_i1 - ρ_i2 )	[ k = 1 ]
=	x_ijy_i,C-1ρ_i,C-1 / ( ρ_i,C-1 - ρ_i,C-2 )	[ k = C - 1 ]

	( ∂ / ∂α_C-1,j )y_iClog( ρ_i,C-1 )
=	( y_iC / ρ_i,C-1 )( ∂ρ_i,C-1 / ∂α_C-1,j ) = x_ijy_iC

より

u_kj = ∂l / ∂α_kj	=	Σ_i{1→N}( x_ij[ -( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )
		+ y_i,k+1ρ_ik / ( ρ_ik - ρ_i,k+1 ) + y_ikρ_ik / ( ρ_ik - ρ_i,k-1 ) ] ) [ 1 < k < C - 1 ]
u_1j = ∂l / ∂α_1j	=	Σ_i{1→N}( x_ij[ -( y_i1 + y_i2 )ρ_i1 / ( 1 + ρ_i1 )
		+ y_i2ρ_i1 / ( ρ_i1 - ρ_i2 ) ] )
u_C-1,j = ∂l / ∂α_C-1,j	=	Σ_i{1→N}( x_ij[ -( y_i,C-1 + y_iC )ρ_i,C-1 / ( 1 + ρ_i,C-1 )
		+ y_i,C-1ρ_i,C-1 / ( ρ_i,C-1 - ρ_i,C-2 ) + y_iC ] )

とすることができます ( ρ_i0 → ∞、ρ_iC = 0 とすれば、三つの式は同一になります )。この式は、

ρ_ik / ( 1 + ρ_ik )	=	[ ( 1 + ρ_ik ) - 1 ] / ( 1 + ρ_ik )
	=	1 - 1 / ( 1 + ρ_ik )

ρ_ik / ( ρ_ik - ρ_i,k±1 )	=	[ ( ρ_ik - ρ_i,k±1 ) + ρ_i,k±1 ] / ( ρ_ik - ρ_i,k±1 )
	=	1 + ρ_i,k±1 / ( ρ_ik - ρ_i,k±1 )

より

u_kj	=	Σ_i{1→N}( x_ij{ -( y_ik + y_i,k+1 )[ 1 - 1 / ( 1 + ρ_ik ) ]
		+ y_i,k+1[ 1 + ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 ) ] + y_ik[ 1 + ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 ) ] } )
	=	Σ_i{1→N}( x_ij[ ( y_ik + y_i,k+1 ) / ( 1 + ρ_ik )
		+ y_i,k+1ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 ) + y_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 ) ] )
u_1j	=	Σ_i{1→N}( x_ij{ -( y_i1 + y_i2 )[ 1 - 1 / ( 1 + ρ_i1 ) ] + y_i2[ 1 + ρ_i2 / ( ρ_i1 - ρ_i2 ) ] } )
	=	Σ_i{1→N}( x_ij[ ( y_i1 + y_i2 ) / ( 1 + ρ_i1 ) + y_i2ρ_i2 / ( ρ_i1 - ρ_i2 ) - y_i1 ] )
u_C-1,j	=	Σ_i{1→N}( x_ij{ -( y_i,C-1 + y_iC )[ 1 - 1 / ( 1 + ρ_i,C-1 ) ]
		+ y_i,C-1[ 1 + ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 ) ] + y_iC } )
	=	Σ_i{1→N}( x_ij[ ( y_i,C-1 + y_iC ) / ( 1 + ρ_i,C-1 ) + y_i,C-1ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 ) ] )

と表すこともできます。これをもう一度 α_k'j' で微分すると、値が残るのは k' = k, k - 1, k + 1 の場合のみであり、

( ∂ / ∂α_kj' )[ 1 / ( ρ_ik - ρ_i,k±1 ) ]	=	[ -1 / ( ρ_ik - ρ_i,k±1 )² ]( ∂ρ_ik / ∂α_kj' )
	=	-x_ij'ρ_ik / ( ρ_ik - ρ_i,k±1 )²

( ∂ / ∂α_kj' )[ 1 / ( 1 + ρ_ik ) ]	=	[ -1 / ( 1 + ρ_ik )² ]( ∂ρ_ik / ∂α_kj' )
	=	-x_ij'ρ_ik / ( 1 + ρ_ik )²

より

∂u_kj / ∂α_kj'	=	Σ_i{1→N}( x_ijx_ij'[ -( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )²
		- y_i,k+1ρ_ikρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² - y_ikρ_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² ] )
	=	Σ_i{1→N}( x_ijx_ij'{ -y_ikρ_ik[ ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² + 1 / ( 1 + ρ_ik )² ]
		- y_i,k+1ρ_ik[ ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² + 1 / ( 1 + ρ_ik )² ] } )
∂u_1j / ∂α_1j'	=	Σ_i{1→N}( x_ijx_ij'[ -( y_i1 + y_i2 )ρ_i1 / ( 1 + ρ_i1 )² - y_i2ρ_i1ρ_i2 / ( ρ_i1 - ρ_i2 )² ] )

∂u_C-1,j / ∂α_C-1,j'	=	Σ_i{1→N}( x_ijx_ij'[ -( y_i,C-1 + y_iC )ρ_i,C-1 / ( 1 + ρ_i,C-1 )²
		- y_i,C-1ρ_i,C-1ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 )² ] )

となり、また

( ∂ / ∂α_k±1,j' )[ 1 / ( ρ_ik - ρ_i,k±1 ) ]	=	[ 1 / ( ρ_ik - ρ_i,k±1 )² ]( ∂ρ_i,k±1 / ∂α_k±1,j' )
	=	x_ij'ρ_i,k±1 / ( ρ_ik - ρ_i,k±1 )²

より

∂u_kj / ∂α_k-1,j'	=	Σ_i{1→N}( x_ijx_ij'y_ikρ_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² )
∂u_kj / ∂α_k+1,j'	=	Σ_i{1→N}( x_ijx_ij'y_i,k+1ρ_ikρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² )
∂u_1j / ∂α_2j'	=	Σ_i{1→N}( x_ijx_ij'y_i2ρ_i1ρ_i2 / ( ρ_i1 - ρ_i2 )² )
∂u_C-1,j / ∂α_C-2,j'	=	Σ_i{1→N}( x_ijx_ij'y_i,C-1ρ_i,C-1ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 )² )

となります ( この場合、k = 0, C - 1 の場合は特別扱いしなくてもよいことがわかります )。

α = ( α₁₁, α₁₂, ... α_1p, α₂₁, ... , α_kj, ... α_C-1,p )^T

u( α ) = ( u₁₁, u₁₂, ... u_1p, u₂₁, ... , u_kj, ... u_C-1,p )^T

とし、名義ロジスティック回帰のときと同様に、H の行と列を k が等しいものどうしを固める形で構成したとき、H を ( C - 1 ) x ( C - 1 ) 個の p x p 部分行列からなる分割行列 ( 行列をいくつかの部分行列に区切って表現した行列 ) とみれば、対角成分にあたる部分行列は k = k' の場合の式、対角成分をはさむ形で k' = k ± 1 の場合の式を使って分割行列を表し、それ以外はゼロ行列とすることで H を表すことができます。x'_j = ( x_1j, x_2j, ... x_Nj )^T とし、

w_ikk	=	-y_ikρ_ik[ ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² + 1 / ( 1 + ρ_ik )² ]
		- y_i,k+1ρ_ik[ ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² + 1 / ( 1 + ρ_ik )² ]

w_ik,k-1 = y_ikρ_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )²
w_ik,k+1 = y_i,k+1ρ_ikρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )²

を対角要素とする対角行列を W_kk' とすれば、∂u_kj / ∂α_k'j' = x'_j^TW_kk'x'_j' で表されます。H を p x p 部分行列 ( ブロック ) に分けたとき、k 行 k' 列めのブロックは X^TW_kk'X で表され、分割行列は

H =

\|	X^TW₁₁X,	X^TW₁₂X,	0,	...	0	\|
\|	X^TW₂₁X,	X^TW₂₂X,	X^TW₂₃X,	...	0	\|
\|	0,	X^TW₃₂X,	X^TW₃₃X,	...	0	\|
\|	:	:	:	...	:	\|
\|	0,	0,	0,	...	X^TW_C-1,C-1X	\|

\|	X^T,	0,	0,	...	0	\|\|	W₁₁,	W₁₂,	0,	...	0	\|\|	X,	0,	0,	...	0	\|
\|	0,	X^T,	0,	...	0	\|\|	W₂₁,	W₂₂,	W₂₃,	...	0	\|\|	0,	X,	0,	...	0	\|
\|	0,	0,	X^T,	...	0	\|\|	0,	W₃₂,	W₃₃,	...	0	\|\|	0,	0,	X,	...	0	\|
\|	:	:	:	...	:	\|\|	:	:	...	...	:	\|\|	:	:	:	...	:	\|
\|	0,	0,	0,	...	X^T	\|\|	0,	0,	0,	...	W_C-1,C-1	\|\|	0,	0,	0,	...	X	\|

となります。スコア法の漸化式

Hα_(m) = Hα_(m-1) - u(α_(m-1))

において、H の p x ( k - 1 ) + j 行目の行ベクトル h_kj^T は

h_kj^T = ( ∂u_kj / ∂α₂₁, ∂u_kj / ∂α₂₂, ... ∂u_kj / ∂α_2p, ∂u_kj / ∂α₃₁, ... ∂u_kj / ∂α_k'j', ... ∂u_kj / ∂α_Cp )

なので、

h_kj^Tα	=	Σ_i{1→N}( Σ_k'{1→C-1}( Σ_j'{1→p}( ( ∂u_kj / ∂α_k'j' )α_k'j' ) ) )
	=	Σ_i{1→N}( Σ_k'{k-1→k+1}( Σ_j'{1→p}( ( ∂u_kj / ∂α_k'j' )α_k'j' ) ) )
	=	Σ_i{1→N}( Σ_j'{1→p}( x_ijx_ij'y_ikρ_ikρ_i,k-1α_k-1,j' / ( ρ_ik - ρ_i,k-1 )² )
		- Σ_j'{1→p}( x_ijx_ij'y_ikρ_ikα_kj'[ ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² + 1 / ( 1 + ρ_ik )² ] )
		- Σ_j'{1→p}( x_ijx_ij'y_i,k+1ρ_ikα_kj'[ ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² + 1 / ( 1 + ρ_ik )² ] )
		+ Σ_j'{1→p}( x_ijx_ij'y_i,k+1ρ_ikρ_i,k+1α_k+1,j' / ( ρ_ik - ρ_i,k+1 )² ) )
	=	Σ_i{1→N}( x_ijy_ikρ_ikρ_i,k-1Σ_j'{1→p}( x_ij'α_k-1,j' ) / ( ρ_ik - ρ_i,k-1 )²
		- x_ijy_ikρ_ikΣ_j'{1→p}( x_ij'α_kj' )[ ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² + 1 / ( 1 + ρ_ik )² ]
		- x_ijy_i,k+1ρ_ikΣ_j'{1→p}( x_ij'α_kj' )[ ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² + 1 / ( 1 + ρ_ik )² ]
		+ x_ijy_i,k+1ρ_ikρ_i,k+1Σ_j'{1→p}( x_ij'α_k+1,j' ) / ( ρ_ik - ρ_i,k+1 )² )
	=	Σ_i{1→N}( x_ijy_ikρ_ikρ_i,k-1log( ρ_i,k-1 ) / ( ρ_ik - ρ_i,k-1 )²
		- x_ijy_ikρ_iklog( ρ_ik )[ ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² + 1 / ( 1 + ρ_ik )² ]
		- x_ijy_i,k+1ρ_iklog( ρ_ik )[ ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² + 1 / ( 1 + ρ_ik )² ]
		+ x_ijy_i,k+1ρ_ikρ_i,k+1log( ρ_i,k+1 ) / ( ρ_ik - ρ_i,k+1 )² )
	=	Σ_i{1→N}( x_ij{ -( y_ik + y_i,k+1 )ρ_iklog( ρ_ik ) / ( 1 + ρ_ik )²
		+ y_ikρ_ikρ_i,k-1[ log( ρ_i,k-1 ) - log( ρ_ik ) ] / ( ρ_ik - ρ_i,k-1 )²
		+ y_i,k+1ρ_ikρ_i,k+1[ log( ρ_i,k+1 ) - log( ρ_ik ) ] / ( ρ_ik - ρ_i,k+1 )² } )
h_1j^Tα	=	Σ_i{1→N}( Σ_k'{1→2}( Σ_j'{1→p}( ( ∂u_1j / ∂α_k'j' )α_k'j' ) ) )
	=	Σ_i{1→N}( -Σ_j'{1→p}( x_ijx_ij'( y_i1 + y_i2 )ρ_i1α_1j' / ( 1 + ρ_i1 )² )
		- Σ_j'{1→p}( x_ijx_ij'y_i2ρ_i1ρ_i2α_1j' / ( ρ_i1 - ρ_i2 )² )
		+ Σ_j'{1→p}( x_ijx_ij'y_i2ρ_i1ρ_i2α_2j' / ( ρ_i1 - ρ_i2 )² ) )
	=	Σ_i{1→N}( -x_ij( y_i1 + y_i2 )ρ_i1Σ_j'{1→p}( x_ij'α_1j' ) / ( 1 + ρ_i1 )²
		- x_ijy_i2ρ_i1ρ_i2Σ_j'{1→p}( x_ij'α_1j' ) / ( ρ_i1 - ρ_i2 )²
		+ x_ijy_i2ρ_i1ρ_i2Σ_j'{1→p}( x_ij'α_2j' ) / ( ρ_i1 - ρ_i2 )² )
	=	Σ_i{1→N}( x_ij{ -( y_i1 + y_i2 )ρ_i1log( ρ_i1 ) / ( 1 + ρ_i1 )²
		+ y_i2ρ_i1ρ_i2[ log( ρ_i2 ) - log( ρ_i1 ) ] / ( ρ_i1 - ρ_i2 )² } )
h_C-1,j^Tα	=	Σ_i{1→N}( Σ_k'{C-2→C-1}( Σ_j'{1→p}( ( ∂u_C-1,j / ∂α_k'j' )α_k'j' ) ) )
	=	Σ_i{1→N}( -Σ_j'{1→p}( x_ijx_ij'( y_i,C-1 + y_iC )ρ_i,C-1α_C-1,j' / ( 1 + ρ_i,C-1 )² )
		- Σ_j'{1→p}( x_ijx_ij'y_i,C-1ρ_i,C-1ρ_i,C-2α_C-1,j' / ( ρ_i,C-1 - ρ_i,C-2 )² )
		+ Σ_j'{1→p}( x_ijx_ij'y_i,C-1ρ_i,C-1ρ_i,C-2α_C-2,j' / ( ρ_i,C-1 - ρ_i,C-2 )² ) )
	=	Σ_i{1→N}( -x_ij( y_i,C-1 + y_iC )ρ_i,C-1Σ_j'{1→p}( x_ij'α_C-1,j' ) / ( 1 + ρ_i,C-1 )²
		- x_ijy_i,C-1ρ_i,C-1ρ_i,C-2Σ_j'{1→p}( x_ij'α_C-1,j' ) / ( ρ_i,C-1 - ρ_i,C-2 )²
		+ x_ijy_i,C-1ρ_i,C-1ρ_i,C-2Σ_j'{1→p}( x_ij'α_C-2,j' ) / ( ρ_i,C-1 - ρ_i,C-2 )² )
	=	Σ_i{1→N}( x_ij{ -( y_i,C-1 + y_iC )ρ_i,C-1log( ρ_i,C-1 ) / ( 1 + ρ_i,C-1 )²
		+ y_i,C-1ρ_i,C-1ρ_i,C-2[ log( ρ_i,C-2 ) - log( ρ_i,C-1 ) ] / ( ρ_i,C-1 - ρ_i,C-2 )² } )

となり、連立方程式の p x ( k - 1 ) + j 行目の式に対する右辺は

h_kj^Tα - u_kj

を求めることで得ることができます。h_kj^Tα は k = 1, C - 1 の場合を特別扱いしていますが、実際には ρ_i0, ρ_iC を含む項を無視するようにすることで同じように処理することができることに注意して下さい。

「比例オッズ・モデル」の場合、

log( ρ_ik ) = β_k + α₁x_i1 + α₂x_i2 + ... + α_px_ip

ρ_ik	=	exp( β_k + α₁x_i1 + α₂x_i2 + ... + α_px_ip )
	=	exp( β_k )exp( α₁x_i1 + α₂x_i2 + ... + α_px_ip )

より

ρ_ik - ρ_ik' = [ exp( β_k ) - exp( β_k' ) ]exp( α₁x_i1 + α₂x_i2 + ... + α_px_ip )

log( ρ_ik - ρ_ik' ) = log( exp( β_k ) - exp( β_k' ) ) + α₁x_i1 + α₂x_i2 + ... + α_px_ip

となるので、

( ∂ / ∂α_j )log( ρ_ik - ρ_ik' )	=	( ∂ / ∂α_j )[ log( exp( β_k ) - exp( β_k' ) ) + α₁x_i1 + α₂x_i2 + ... + α_px_ip ]
	=	x_ij
( ∂ / ∂β_k )log( ρ_ik - ρ_ik' )	=	( ∂ / ∂β_k )[ log( exp( β_k ) - exp( β_k' ) ) + α₁x_i1 + α₂x_i2 + ... + α_px_ip ]
	=	exp( β_k ) / [ exp( β_k ) - exp( β_k' ) ]
	=	exp( β_k )exp( α₁x_i1 + α₂x_i2 + ... + α_px_ip )
		/ [ exp( β_k ) - exp( β_k' ) ]exp( α₁x_i1 + α₂x_i2 + ... + α_px_ip )
	=	exp( log( ρ_ik ) ) / [ exp( log( ρ_ik ) ) - exp( log( ρ_ik' ) ) ]
	=	ρ_ik / ( ρ_ik - ρ_ik' )
( ∂ / ∂β_k' )log( ρ_ik - ρ_ik' )	=	-ρ_ik' / ( ρ_ik - ρ_ik' )
	=	ρ_ik' / ( ρ_ik' - ρ_ik )

を利用すると、対数尤度 l の各項を α_j, β_k で偏微分した結果は

	( ∂ / ∂α_j )Σ_k'{1→C-1}( ( y_ik' + y_i,k'+1 )log( 1 + ρ_ik' ) )
=	Σ_k'{1→C-1}( [ ( y_ik' + y_i,k'+1 ) / ( 1 + ρ_ik' ) ]( ∂ρ_ik' / ∂α_j ) )
=	Σ_k'{1→C-1}( x_ij( y_ik' + y_i,k'+1 )ρ_ik' / ( 1 + ρ_ik' ) )

	( ∂ / ∂β_k )Σ_k'{1→C-1}( ( y_ik' + y_i,k'+1 )log( 1 + ρ_ik' ) )
=	[ ( y_ik + y_i,k+1 ) / ( 1 + ρ_ik ) ]( ∂ρ_ik / ∂β_k )
=	( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )

	( ∂ / ∂α_j )[ Σ_k'{2→C-1}( y_ik'log( ρ_i,k'-1 - ρ_ik' ) ) + y_iClog( ρ_i,C-1 ) ]
=	Σ_k'{2→C-1}( x_ijy_ik' ) + x_ijy_iC
=	Σ_k'{1→C-1}( x_ijy_i,k'+1 )

	( ∂ / ∂β_k )[ Σ_k'{2→C-1}( y_ik'log( ρ_i,k'-1 - ρ_ik' ) ) + y_iClog( ρ_i,C-1 ) ]
=	y_i,k+1ρ_ik / ( ρ_ik - ρ_i,k+1 ) + y_ikρ_ik / ( ρ_ik - ρ_i,k-1 )	[ 1 < k < C - 1 ]
=	y_i2ρ_i1 / ( ρ_i1 - ρ_i2 )	[ k = 1 ]
=	y_iC + y_i,C-1ρ_i,C-1 / ( ρ_i,C-1 - ρ_i,C-2 )	[ k = C - 1 ]

となり、対数尤度 l を、α_j で偏微分した結果を u_αj、β_k で偏微分した結果を u_βk とすると、それらの値は

u_αj = ∂l / ∂α_j	=	Σ_i{1→N}( -Σ_k'{1→C-1}( x_ij( y_ik' + y_i,k'+1 )ρ_ik' / ( 1 + ρ_ik' ) )
		+ Σ_k'{1→C-1}( x_ijy_i,k'+1 ) )
	=	Σ_i{1→N}( x_ijΣ_k'{1→C-1}( -( y_ik' + y_i,k'+1 )[ 1 - 1 / ( 1 + ρ_ik' ) ] + y_i,k'+1 ) )
	=	Σ_i{1→N}( x_ijΣ_k'{1→C-1}( ( y_ik' + y_i,k'+1 ) / ( 1 + ρ_ik' ) - y_ik' ) )
u_βk = ∂l / ∂β_k	=	Σ_i{1→N}( -( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )
		+ y_i,k+1ρ_ik / ( ρ_ik - ρ_i,k+1 ) + y_ikρ_ik / ( ρ_ik - ρ_i,k-1 ) )
	=	Σ_i{1→N}( ( y_ik + y_i,k+1 )[ 1 / ( 1 + ρ_ik ) - 1 ]
		+ y_i,k+1[ 1 + ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 ) ] + y_ik[ 1 + ρ_i,k-1 / ( ρ_ik - ρ_i,k-1 ) ] )
	=	Σ_i{1→N}( ( y_ik + y_i,k+1 ) / ( 1 + ρ_ik )
		+ y_i,k+1ρ_i,k+1 / ( ρ_ik - ρ_i,k+1 ) + y_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 ) )
u_β1 = ∂l / ∂β₁	=	Σ_i{1→N}( -( y_i1 + y_i2 )ρ_i1 / ( 1 + ρ_i1 ) + y_i2ρ_i1 / ( ρ_i1 - ρ_i2 ) )
	=	Σ_i{1→N}( -( y_i1 + y_i2 )[ 1 - 1 / ( 1 + ρ_i1 ) ] + y_i2[ 1 + ρ_i2 / ( ρ_i1 - ρ_i2 ) ] )
	=	Σ_i{1→N}( ( y_i1 + y_i2 ) / ( 1 + ρ_i1 ) + y_i2ρ_i2 / ( ρ_i1 - ρ_i2 ) - y_i1 )

u_β,C-1 = ∂l / ∂β_,C-1	=	Σ_i{1→N}( -( y_i,C-1 + y_iC )ρ_i,C-1 / ( 1 + ρ_i,C-1 )
		+ y_iC + y_i,C-1ρ_i,C-1 / ( ρ_i,C-1 - ρ_i,C-2 ) )
	=	Σ_i{1→N}( -( y_i,C-1 + y_iC )[ 1 - 1 / ( 1 + ρ_i,C-1 ) ]
		+ y_iC + y_i,C-1[ 1 + ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 ) ] )
	=	Σ_i{1→N}( ( y_i,C-1 + y_iC ) / ( 1 + ρ_i,C-1 )
		+ y_i,C-1ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 ) )

となります ( ここでも ρ_i0 → ∞、ρ_iC = 0 とすれば、u_βk において k = 0, C - 1 の場合も同じ式となります )。これらをさらに α_j、β_k、β_k±1 で偏微分すると

( ∂ / ∂α_j )[ 1 / ( 1 + ρ_ik ) ]	=	[ -1 / ( 1 + ρ_ik )² ]( ∂ρ_ik / ∂α_j )
	=	-x_ijρ_ik / ( 1 + ρ_ik )²
( ∂ / ∂β_k )[ 1 / ( 1 + ρ_ik ) ]	=	[ -1 / ( 1 + ρ_ik )² ]( ∂ρ_ik / ∂β_k )
	=	-ρ_ik / ( 1 + ρ_ik )²

より

∂u_αj / ∂α_j'

Σ_i{1→N}( x_ijx_ij'Σ_k'{1→C-1}( -( y_ik' + y_i,k'+1 )ρ_ik' / ( 1 + ρ_ik' )² ) )

∂u_αj / ∂β_k = ∂u_βk / ∂α_j

Σ_i{1→N}( -x_ij( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² )

∂u_βk / ∂β_k	=	Σ_i{1→N}( -( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )²
		- y_i,k+1ρ_ikρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² - y_ikρ_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² )
∂u_β1 / ∂β₁	=	Σ_i{1→N}( -( y_i1 + y_i2 )ρ_i1 / ( 1 + ρ_i1 )²
		- y_i2ρ_i1ρ_i2 / ( ρ_i1 - ρ_i2 )² )

∂u_β,C-1 / ∂β_C-1	=	Σ_i{1→N}( -( y_i,C-1 + y_iC )ρ_i,C-1 / ( 1 + ρ_i,C-1 )²
		- y_i,C-1ρ_i,C-1ρ_i,C-2 / ( ρ_i,C-1 - ρ_i,C-2 )² )

∂u_βk / ∂β_k-1	=	Σ_i{1→N}( y_ikρ_ikρ_i,k-1 / ( ρ_ik - ρ_i,k-1 )² )
∂u_βk / ∂β_k+1	=	Σ_i{1→N}( y_i,k+1ρ_ikρ_i,k+1 / ( ρ_ik - ρ_i,k+1 )² )

という結果が得られ、これらが H の各成分を表します。

∂u_βk / ∂β_k' を k 行 k' 列の要素とする行列数 C - 1 の対称行列を H₁₁、∂u_αj / ∂α_j' を j 行 j' 列の要素とする行列数 p の対称行列を H₂₂、∂u_αj / ∂β_k を j 行 k 列の要素とする p 行 C - 1 列の行列を H₂₁、H₁₂ = H₂₁^T とすると、

H =

\|	H₁₁,	H₁₂	\|
\|	H₂₁,	H₂₂	\|

\|	∂u_β1 / ∂β₁,	∂u_β1 / ∂β₂,	0,	...	0,	∂u_β1 / ∂α₁,	∂u_β1 / ∂α₂,	...	∂u_β1 / ∂α_p	\|
\|	∂u_β2 / ∂β₁,	∂u_β2 / ∂β₂,	∂u_β2 / ∂β₃,	...	0,	∂u_β2 / ∂α₁,	∂u_β2 / ∂α₂,	...	∂u_β2 / ∂α_p	\|
\|	0,	∂u_β3 / ∂β₂,	∂u_β3 / ∂β₃,	...	0,	∂u_β3 / ∂α₁,	∂u_β3 / ∂α₂,	...	∂u_β3 / ∂α_p	\|
\|	:	:	:	...	:	:	:	...	:	\|
\|	0,	0,	0,	...	∂u_βC-1 / ∂β_C-1,	∂u_β,C-1 / ∂α₁,	∂u_β,C-1 / ∂α₂,	...	∂u_β,C-1 / ∂α_p	\|
\|	∂u_α1 / ∂β₁,	∂u_α1 / ∂β₂,	∂u_α1 / ∂β₃,	...	∂u_α1 / ∂β_C-1,	∂u_α1 / ∂α₁,	∂u_α1 / ∂α₂,	...	∂u_α1 / ∂α_p	\|
\|	∂u_α2 / ∂β₁,	∂u_α2 / ∂β₂,	∂u_α2 / ∂β₃,	...	∂u_α2 / ∂β_C-1,	∂u_α2 / ∂α₁,	∂u_α2 / ∂α₂,	...	∂u_α2 / ∂α_p	\|
\|	:	:	:	...	:	:	:	...	:	\|
\|	∂u_αp / ∂β₁,	∂u_αp / ∂β₂,	∂u_αp / ∂β₃,	...	∂u_αp / ∂β_C-1,	∂u_αp / ∂α₁,	∂u_αp / ∂α₂,	...	∂u_αp / ∂α_p	\|

となり、

α = ( β₁, β₂, ... β_C-1, α₁, α₂, ... α_p )^T

u( α ) = ( u_β1, u_β2, ... u_β,C-1, u_α1, u_α2, ... u_αp )^T

としてスコア法の漸化式

Hα_(m) = Hα_(m-1) - u( α_(m-1) )

を解けば α の最尤解が得られます。Hα_(m-1) の r 行目の要素 h_r は、1 ≤ r ≤ c - 1 において

h_r = ( ∂u_βr / ∂β_r-1 )β_r-1 + ( ∂u_βr / ∂β_r )β_r + ( ∂u_βr / ∂β_r+1 )β_r+1 + Σ_j{1→p}( ( ∂u_βr / ∂α_j )α_j )

で、c ≤ r ≤ c + p - 1 において

h_r = Σ_k{1→C-1}( ( ∂u_αr / ∂β_k )β_k ) + Σ_j{1→p}( ( ∂u_αr / ∂α_j )α_j )

でそれぞれ求められます。一番目の式の最初の三つの項は

	( ∂u_βr / ∂β_r-1 )β_r-1 + ( ∂u_βr / ∂β_r )β_r + ( ∂u_βr / ∂β_r+1 )β_r+1
=	Σ_i{1→N}( [ -( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )²
	- y_i,r+1ρ_irρ_i,r+1 / ( ρ_ir - ρ_i,r+1 )² - y_irρ_irρ_i,r-1 / ( ρ_ir - ρ_i,r-1 )² ]β_r
	+ β_r-1y_irρ_irρ_i,r-1 / ( ρ_ir - ρ_i,r-1 )² + β_r+1y_i,r+1ρ_irρ_i,r+1 / ( ρ_ir - ρ_i,r+1 )² )
=	Σ_i{1→N}( -β_r( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )²
	+ y_i,r+1ρ_irρ_i,r+1( β_r+1 - β_r ) / ( ρ_ir - ρ_i,r+1 )² + y_irρ_irρ_i,r-1( β_r-1 - β_r ) / ( ρ_ir - ρ_i,r-1 )² )

と変形できますが、

β_r±1 - β_r	=	β_r±1 + Σ_j{1→p}( x_ijα_j ) - β_r - Σ_j{1→p}( x_ijα_j )
	=	log( ρ_i,r±1 ) - log( ρ_ir )

より、さらに

	( ∂u_βr / ∂β_r-1 )β_r-1 + ( ∂u_βr / ∂β_r )β_r + ( ∂u_βr / ∂β_r+1 )β_r+1
=	Σ_i{1→N}( -β_r( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )²
	+ y_i,r+1ρ_irρ_i,r+1[ log( ρ_i,r+1 ) - log( ρ_ir ) ] / ( ρ_ir - ρ_i,r+1 )²
	+ y_irρ_irρ_i,r-1[ log( ρ_i,r-1 ) - log( ρ_ir ) ] / ( ρ_ir - ρ_i,r-1 )² )

となります。また、

Σ_j{1→p}( ( ∂u_βr / ∂α_j )α_j )	=	Σ_j{1→p}( Σ_i{1→N}( -x_ij( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )² )α_j )
	=	Σ_i{1→N}( Σ_j{1→p}( -x_ijα_j )( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )² )

より

	Σ_i{1→N}( -β_r( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )² )
	+ Σ_i{1→N}( Σ_j{1→p}( -x_ijα_j )( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )² )
=	Σ_i{1→N}( -[ β_r + Σ_j{1→p}( x_ijα_j ) ]( y_ir + y_i,r+1 )ρ_ir / ( 1 + ρ_ir )² )
=	Σ_i{1→N}( -( y_ir + y_i,r+1 )ρ_irlog( ρ_ir ) / ( 1 + ρ_ir )² )

となるので、

h_r	=	Σ_i{1→N}( -( y_ir + y_i,r+1 )ρ_irlog( ρ_ir ) / ( 1 + ρ_ir )²
		+ y_i,r+1ρ_irρ_i,r+1[ log( ρ_i,r+1 ) - log( ρ_ir ) ] / ( ρ_ir - ρ_i,r+1 )²
		+ y_irρ_irρ_i,r-1[ log( ρ_i,r-1 ) - log( ρ_ir ) ] / ( ρ_ir - ρ_i,r-1 )² )

という結果が得られます。二番目の式は、

h_r	=	Σ_k{1→C-1}( Σ_i{1→N}( -x_ir( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² )β_k )
		+ Σ_j{1→p}( Σ_i{1→N}( x_irx_ijΣ_k{1→C-1}( -( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² ) )α_j )
	=	-Σ_i{1→N}( Σ_k{1→C-1}( x_irβ_k( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² ) )
		- Σ_i{1→N}( Σ_k{1→C-1}( x_irΣ_j{1→p}( x_ijα_j )( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² ) )
	=	-Σ_i{1→N}( x_irΣ_k{1→C-1}( [ β_k + Σ_j{1→p}( x_ijα_j ) ]( y_ik + y_i,k+1 )ρ_ik / ( 1 + ρ_ik )² ) )
	=	-Σ_i{1→N}( x_irΣ_k{1→C-1}( ( y_ik + y_i,k+1 )ρ_iklog( ρ_ik ) / ( 1 + ρ_ik )² ) )

と求められ、ここから u( α_(m-1) ) を減算した値が連立方程式の右辺となります。

「累積ロジットモデル」を使ってロジスティック回帰を行うためのサンプル・プログラムを以下に示します。今回は非常に長いプログラムとなったので、いくつかに分割してあります。まずは、複数ある順序ロジスティックモデルを共通化するクラスの OrderedLogisticModel です。

/*
  OrderedLogisticModel : 順序ロジスティックモデル
*/
class OrderedLogisticModel
{
  bool isValid_; // モデルは有効か

protected:

  const vector< vector<double> >& x_; // 独立変数
  const vector< vector<double> >& y_; // 従属変数(各カテゴリの発生回数)

  LinearEquationSystem<double> s_; // スコア法に利用する連立方程式

  vector<double> a_;               // 回帰係数
  vector< vector<double> > rho_;   // ρ値

  // x は p_ 個のパラメータのベクトルからなる n_ 個のベクトル
  // y は c_ 個のパラメータのベクトルからなる n_ 個のベクトル
  unsigned int n_; // 独立変数ベクトルの数
  unsigned int p_; // 独立変数ベクトルの要素数
  unsigned int c_; // カテゴリ数

  // π の初期化 ( y から計算する )
  void initPi( vector< vector<double> >& pi ) const;

  // ρ の初期化 ( π から計算する )
  virtual void initRho() = 0;
  // ρ から π を求める
  virtual void rho2Pi( vector< vector<double> >& pi ) const = 0;

  // 回帰係数の数を返す
  unsigned int coefSize() const
  { return( a_.size() ); }

  // 回帰係数の数をセットする
  void setCoefSize( unsigned int coefSz )
  {
    if ( ! isValid() ) return;
    a_.resize( coefSz );
    s_.resize( coefSz );
  }

public:

  // コンストラクタ
  OrderedLogisticModel( const vector< vector<double> >& x, const vector< vector<double> >& y );

  virtual void coef2Rho() = 0;       // 求めた係数から ρ を計算する
  virtual void calcCoefMatrix() = 0; // 係数行列を計算する
  virtual void calcRSide() = 0;      // 連立方程式の右辺を計算する
  int solve( double threshold );     // 連立方程式を解いて、収束を調べる

  bool isValid() const { return( isValid_ ); } // モデルは有効か

  void printSize() const // 独立変数、その要素数(元の数)、カテゴリ数を出力
  {
    if ( ! isValid() ) return;
    cout << "N = " << n_ << " ; p = " << p_ << " ; c = " << c_ << endl << endl;
  }
  void printX() const // 独立変数を出力
  {
    if ( ! isValid() ) return;
    PrintMatrix( "x = ", x_ ); cout << endl;
  }
  void printY() const // 従属変数(各カテゴリの発生回数)を出力
  {
    if ( ! isValid() ) return;
    PrintMatrix( "y = ", y_ ); cout << endl;
  }
  void printPi() const; // π を出力
  void printRho() const // ρ を出力
  {
    if ( ! isValid() ) return;
    PrintMatrix( "rho = ", rho_ ); cout << endl;
  }
  void printLES() const // 連立方程式を出力
  {
    if ( ! isValid() ) return;
    s_.print(); cout << endl;
  }

  virtual void printVar() = 0; // 回帰係数に対する分散の出力
  virtual void printEquation() const = 0; // 回帰式の出力

  virtual string ident() const = 0; // モデル名
};

/*
  OrderedLogisticModel コンストラクタ

  const vector< vector<double> >& x : 独立変数
  const vector< vector<double> >& y : 従属変数(各カテゴリの発生回数)
  unsigned int coefSz : 回帰係数の数

  n は独立変数ベクトルの数
  p は独立変数ベクトルの要素数
  c はカテゴリの数

  x は p 個のパラメータのベクトルからなる n 個のベクトル
  y は c 個のパラメータのベクトルからなる n 個のベクトル
*/
OrderedLogisticModel::OrderedLogisticModel( const vector< vector<double> >& x, const vector< vector<double> >& y )
  : isValid_( false ), x_( x ), y_( y ), s_( 0 )
{
  // NULL のチェック
  if ( ! NullCheck( x_, "Independent Variable x" ) ) return;
  if ( ! NullCheck( y_, "Occurrence Count y" ) ) return;

  // 独立変数ベクトル x_i の数
  n_ = x.size();
  if ( n_ == 0 ) {
    cerr << "x has no data." << endl;
    return;
  }
  if ( ! SizeCheck( y_, "Occurrence Count y", n_, "Independent Variable x" ) )
    return;

  // 独立変数ベクトルの要素数
  p_ = x[0].size();
  if ( ! SizeCheck_Loop( x_, "Independent Variable x", p_, "Independent Variable x[0]" ) )
    return;

  // カテゴリ数
  c_ = y[0].size();
  if ( ! SizeCheck_Loop( y_, "Occurrence Count y", c_, "Occurrence Count y[0]" ) )
    return;
  if ( c_ == 0 ) {
    cerr << "The size of categories is zero." << endl;
    return;
  }

  isValid_ = true;
}

/*
  OrderedLogisticModel::initPi : π の初期化 ( y から計算する )

  vector< vector<double> >& pi : 計算結果を格納するベクトル
*/
void OrderedLogisticModel::initPi( vector< vector<double> >& pi ) const
{
  if ( ! isValid() ) return;

  vector<double> ni( n_ ); // 各独立変数の総数 ( n )
  for ( unsigned int i = 0 ; i < n_ ; ++i )
    ni[i] = sum( y_[i] );

  pi.assign( n_, vector<double>( c_ ) ); // 確率の当てはめ値 ( n x c )
  // piは y_ik / ni_i で初期化
  for ( unsigned int i = 0 ; i < n_ ; ++i )
    for ( unsigned int k = 0 ; k < c_ ; ++k )
      pi[i][k] = y_[i][k] / ni[i];
}

/*
  ProportionalOddsModel::solve : 連立方程式を解いて、収束を調べる

  double threshold : 収束条件(全係数が threshold 以下なら処理終了)

  戻り値 : >0 収束した ; =0 収束しない ; <0 計算に失敗
*/
int OrderedLogisticModel::solve( double threshold )
{
  if ( ! isValid() ) return( -1 );

  // 連立方程式の計算
  if ( ! GaussianElimination( s_ ) ) {
    cerr << "Failed to calculate coefficients." << endl;
    return( -1 );
  }

  // 各係数が収束しているかを確認する
  bool isMatched = true;
  for ( unsigned int i = 0 ; i < coefSize() ; ++i ) {
    if ( fabs( a_[i] - s_.ans( i ) ) >= threshold )
      isMatched = false;
    a_[i] = s_.ans( i );
  }

  return( ( isMatched ) ? 1 : 0 );
}

/*
  OrderedLogisticModel::printPi : π の出力
*/
void OrderedLogisticModel::printPi() const
{
  if ( ! isValid() ) return;

  vector< vector<double> > pi; // π の計算結果

  rho2Pi( pi );
  PrintMatrix( "pi = ", pi );
  cout << endl;
}

OrderedLogisticModel は、順序ロジスティック回帰に登場する様々なモデルの基底クラスとして機能します。回帰式を求めるプログラムには、このインスタンスを渡すことになります。独立変数やその従属変数 (各カテゴリの発生回数) は、このインスタンスが保持して計算などに利用します。但し、連立方程式の係数や解の求め方や ρ_ik の計算方法はモデルにより異なるので、純粋仮想関数として定義だけを行います ( initRho, rho2Pi, coef2Rho, calcCoefMatrix, calcRSide )。また、結果出力の書式がモデルによって異なる printVar と printEquation も定義のみで実装はされていません。
コンストラクタでは、渡されたデータのチェックとそのサイズの取得を行います。ここでデータに不備があった場合、メンバ変数 isValid_ を false にして、ほとんどの処理を無効とします。initPi は、渡された従属変数 y からカテゴリごとの確率 π_ik を求めるために使うメンバ関数で、ρ_ik の初期値を計算する処理 ( initRho ) の中で一度だけ使用します。一度スコア法が始まったら ρ_ik は回帰係数から求めることになり、その時に使う関数は coef2Rho です。また、π_ik は rho2Pi を使って ρ_ik から求めます。残りの純粋仮想関数 calcCoefMatrix と calcRSide は連立方程式の左辺 (係数行列) と右辺を計算するためのメンバ関数です。この部分がモデルによって最も違いの大きな個所になります。
メンバ関数 solve は、連立方程式の計算と収束のチェックを行います。連立方程式の解法は「ガウスの消去法 (Gaussian elimination)」です。収束判断のためのしきい値 threshold は外部から渡すようにしています。求めた値と前の値の差分が全て threshold より小さければ solve は戻り値として 1 を返し、一つでも threshold より大きいものがあったら 0 を返します。また、連立方程式の計算に失敗したり、インスタンスが有効でなかったときは負数 -1 を返します。

＊今回のサンプル・プログラムは、前章で作成した名義ロジスティック回帰用のものをそのまま利用しています。しかし複数ある順序ロジスティックモデルごとに連立方程式の作成処理以外はほとんど同じプログラムを用意することになり非常に効率が悪く、それを回避するために計算処理とスコア法の処理を別々に分離しました。この分離の仕方がうまくできていないため、まだ検討の余地は残っています。時間があれば再度見直しをしたいところです。

次は、「比例オッズモデル」と「累積ロジットモデル」に当てはめて計算処理を行うためのクラス ( CumulativeLogitModel_Base, ProportionalOddsModel, CumulativeLogitModel ) を以下に示します。

/*------------------------------------------------------------------------------------------------
  CumulativeLogitModel_Base : 累積ロジットモデルの基底クラス
  ------------------------------------------------------------------------------------------------*/
class CumulativeLogitModel_Base : public OrderedLogisticModel
{
protected:

  // ρ の初期化 ( π から計算する )
  virtual void initRho();
  // ρ から π を求める
  virtual void rho2Pi( vector< vector<double> >& pi ) const;

public:

  // コンストラクタ
  CumulativeLogitModel_Base( const vector< vector<double> >& x, const vector< vector<double> >& y )
    : OrderedLogisticModel( x, y )
    { if ( isValid() ) initRho(); }
};

/*
  CumulativeLogitModel_Base::initRho : ρ の初期化 ( y から計算する )
*/
void CumulativeLogitModel_Base::initRho()
{
  if ( ! isValid() ) return;

  // π の計算 ( y から求める )
  vector< vector<double> > pi;
  initPi( pi );

  rho_.assign( n_, vector<double>( c_ - 1 ) );
  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    double sumPi = 0; // i までの累積確率
    for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
      sumPi += pi[i][k];
      if ( sumPi == 0 ) sumPi = 1E-9; // ゼロ除算防止
      if ( sumPi > 1 ) sumPi = 1;
      rho_[i][k] = ( 1.0 - sumPi ) / sumPi;
    }
  }
}

/*
  CumulativeLogitModel_Base::rho2Pi : ρ から π を求める

  vector< vector<double> >& pi : 計算結果を格納するベクトル
*/
void CumulativeLogitModel_Base::rho2Pi( vector< vector<double> >& pi ) const
{
  if ( ! isValid() ) return;

  pi.assign( n_, vector<double>( c_ ) ); // 確率の当てはめ値 ( n x c )
  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    pi[i][0] = 1.0 / ( 1.0 + rho_[i][0] );
    for ( unsigned int k = 1 ; k < c_ - 1 ; ++k )
      pi[i][k] = 1.0 / ( 1.0 + rho_[i][k] ) - 1.0 / ( 1.0 + rho_[i][k - 1] );
    if ( c_ > 1 )
      pi[i][c_ - 1] = 1.0 - 1.0 / ( 1.0 + rho_[i][c_ - 2] );
  }
}

/*------------------------------------------------------------------------------------------------
  ProportionalOddsModel : 比例オッズモデル
  ------------------------------------------------------------------------------------------------*/
class ProportionalOddsModel : public CumulativeLogitModel_Base
{
  void calcH11(); // H11 の計算
  void calcH22(); // H22 の計算
  void calcH12(); // H12(H21) の計算

public:

  // コンストラクタ
  ProportionalOddsModel( const vector< vector<double> >& x, const vector< vector<double> >& y )
    : CumulativeLogitModel_Base( x, y )
    { setCoefSize( c_ + p_ - 1 ); }

  virtual void coef2Rho();       // 求めた係数から ρ を計算する
  virtual void calcCoefMatrix(); // 係数行列を計算する
  virtual void calcRSide();      // 連立方程式の右辺を計算する

  virtual void printVar();            // 回帰係数に対する分散の出力
  virtual void printEquation() const; // 回帰式の出力

  // モデル名
  virtual string ident() const
  { return( "Proportional Odds Model" ); }
};

/*
  ProportionalOddsModel::coef2Rho : 求めた係数から ρ を計算する
*/
void ProportionalOddsModel::coef2Rho()
{
  if ( ! isValid() ) return;

  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
      double xi = a_[k];
      for ( unsigned int j = 0 ; j < p_ ; ++j )
        xi += a_[c_ - 1 + j] * x_[i][j];
      rho_[i][k] = exp( xi );
    }
  }
}

/*
  ProportionalOddsModel::calcH11 : H11 の計算
*/
void ProportionalOddsModel::calcH11()
{
  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    // 対角成分を計算
    s_[k][k] = 0;
    for ( unsigned int i = 0 ; i < n_ ; ++i ) {
      s_[k][k] -= ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] / pow( 1.0 + rho_[i][k], 2 );
      if ( k + 1 < c_ - 1 )
        s_[k][k] -= y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1] / pow( rho_[i][k] - rho_[i][k + 1], 2 );
      if ( k > 0 )
        s_[k][k] -= y_[i][k] * rho_[i][k] * rho_[i][k - 1] / pow( rho_[i][k] - rho_[i][k - 1], 2 );
    }
    if ( k + 1 == c_ - 1 ) break;
    // 対角成分の右隣を計算
    s_[k][k + 1] = 0;
    for ( unsigned int i = 0 ; i < n_ ; ++i )
      s_[k][k + 1] += y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1] / pow( rho_[i][k] - rho_[i][k + 1], 2 );
    s_[k + 1][k] = s_[k][k + 1]; // 対称な成分にコピー
    // 残りはゼロで初期化
    for ( unsigned int k2 = k + 2 ; k2 < c_ - 1 ; ++k2 )
      s_[k][k2] = s_[k2][k] = 0;
  }
}

/*
  ProportionalOddsModel::calcH22 : H22 の計算
*/
void ProportionalOddsModel::calcH22()
{
  // k ごとの和の部分を先に計算
  vector<double> sum( n_, 0 );
  for ( unsigned int i = 0 ; i < n_ ; ++i )
    for ( unsigned int k = 0 ; k < c_ - 1 ; ++k )
      sum[i] += ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] / pow( 1.0 + rho_[i][k], 2 );

  for ( unsigned int sr = c_ - 1 ; sr < coefSize() ; ++sr ) { // sr は係数行列の行番号
    unsigned int jr = sr - ( c_ - 1 ); // x_ に対する行番号
    for ( unsigned int sc = sr ; sc < coefSize() ; ++sc ) { // sc は係数行列の列番号(対角成分からスタート)
      unsigned int jc = sc - ( c_ - 1 ); // x_ に対する列番号
      s_[sr][sc] = 0;
      for ( unsigned int i = 0 ; i < n_ ; ++i )
        s_[sr][sc] -= x_[i][jr] * x_[i][jc] * sum[i];
      // 対角成分(左下)はコピー
      if ( sc != sr )
        s_[sc][sr] = s_[sr][sc];
    }
  }
}

/*
  ProportionalOddsModel::calcH12 : H12(H21) の計算
*/
void ProportionalOddsModel::calcH12()
{
  // 計算は右上側(H12)に対して行う
  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    for ( unsigned int sc = c_ - 1 ; sc < coefSize() ; ++sc ) {
      unsigned int j = sc - ( c_ - 1 ); // x_ に対する列番号
      s_[k][sc] = 0;
      for ( unsigned int i = 0 ; i < n_ ; ++i )
        s_[k][sc] -= x_[i][j] * ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] / pow( 1.0 + rho_[i][k], 2 );
      s_[sc][k] = s_[k][sc]; // 対角成分(左下)はコピー
    }
  }
}

/*
  ProportionalOddsModel::calcCoefMatrix : 係数行列を計算する
*/
void ProportionalOddsModel::calcCoefMatrix()
{
  if ( ! isValid() ) return;

  calcH11(); // H11 の計算
  calcH22(); // H22 の計算
  calcH12(); // H12(H21) の計算
}

/*
  ProportionalOddsModel::calcRSide : 連立方程式の右辺を計算する
*/
void ProportionalOddsModel::calcRSide()
{
  if ( ! isValid() ) return;

  vector<double> u_sum( n_, 0 ); // 対数尤度の偏微分 u の計算に必要な項
  vector<double> h_sum( n_, 0 ); // 係数行列と係数の積 Ha の計算に必要な項
  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
      u_sum[i] += ( y_[i][k] + y_[i][k + 1] ) / ( 1.0 + rho_[i][k] ) - y_[i][k];
      h_sum[i] += ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] * log( rho_[i][k] )
        / pow( 1.0 + rho_[i][k], 2 );
    }
  }

  vector<double> u( coefSize(), 0 ); // u の値
  vector<double> h( coefSize(), 0 ); // Ha の値
  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    for ( unsigned int i = 0 ; i < n_ ; ++i ) {
      u[k] += ( y_[i][k] + y_[i][k + 1] ) / ( 1.0 + rho_[i][k] );
      h[k] -= ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] * log( rho_[i][k] ) / pow( 1.0 + rho_[i][k], 2 );
      if ( k + 1 < c_ - 1 ) {
        u[k] += y_[i][k + 1] * rho_[i][k + 1] / ( rho_[i][k] - rho_[i][k + 1] );
        h[k] += y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1]
          * ( log( rho_[i][k + 1] ) - log( rho_[i][k] ) ) / pow( rho_[i][k] - rho_[i][k + 1], 2 );
      }
      if ( k > 0 ) {
        u[k] += y_[i][k] * rho_[i][k - 1] / ( rho_[i][k] - rho_[i][k - 1] );
        h[k] += y_[i][k] * rho_[i][k] * rho_[i][k - 1]
          * ( log( rho_[i][k - 1] ) - log( rho_[i][k] ) ) / pow( rho_[i][k] - rho_[i][k - 1], 2 );
      } else {
        u[k] -= y_[i][k];
      }
    }
  }
  for ( unsigned int j = 0 ; j < p_ ; ++j ) {
    for ( unsigned int i = 0 ; i < n_ ; ++i ) {
      u[j + c_ - 1] += x_[i][j] * u_sum[i];
      h[j + c_ - 1] -= x_[i][j] * h_sum[i];
    }
  }
  for ( unsigned int k = 0 ; k < coefSize() ; ++k )
    s_.ans( k ) = h[k] - u[k]; // 右辺 = Ha - u
}

/*
  ProportionalOddsModel::printVar : 回帰係数に対する分散の出力
*/
void ProportionalOddsModel::printVar()
{
  if ( ! isValid() ) return;

  // 係数行列の再計算(=フィッシャー情報行列)
  calcCoefMatrix();

  LinearEquationSystem<double> inv( 0 ); // 連立方程式計算用インスタンスの逆行列
  Inverse( s_, inv );

  cout << "variance of b = ( " << -inv[0][0];
  for ( unsigned int k = 1 ; k < c_ - 1 ; ++k )
    cout << ", " << -inv[k][k];
  cout << " )" << endl;

  cout << "variance of a = ( " << -inv[c_ - 1][c_ - 1];
  for ( unsigned int j = c_ ; j < coefSize() ; ++j )
    cout << ", " << -inv[j][j];
  cout << " )" << endl << endl;
}

/*
  ProportionalOddsModel::printEquation : 回帰式の出力
*/
void ProportionalOddsModel::printEquation() const
{
  if ( ! isValid() ) return;

  vector<double> a2( a_.begin() + c_ - 1, a_.end() );
  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    std::ostringstream oss;
    oss << "Regression equation : y[" << k << "] = " << a_[k] << " + ";
    PrintEquation( oss.str(), a2 );
  }
  cout << endl;
}

/*------------------------------------------------------------------------------------------------
  CumulativeLogitModel : 累積ロジットモデル
  ------------------------------------------------------------------------------------------------*/
class CumulativeLogitModel : public CumulativeLogitModel_Base
{
  void calcCoefDiagBlock( unsigned int k );
  void calcCoefNonDiagBlock( unsigned int k );

public:

  // コンストラクタ
  CumulativeLogitModel( const vector< vector<double> >& x, const vector< vector<double> >& y )
    : CumulativeLogitModel_Base( x, y )
    { setCoefSize( ( c_ - 1 ) * p_ ); }

  virtual void coef2Rho();       // 求めた係数から ρ を計算する
  virtual void calcCoefMatrix(); // 係数行列を計算する
  virtual void calcRSide();      // 連立方程式の右辺を計算する

  virtual void printVar();            // 回帰係数に対する分散の出力
  virtual void printEquation() const; // 回帰式の出力

  // モデル名
  virtual string ident() const
  { return( "Cumulative Logit Model" ); }
};

/*
  CumulativeLogitModel::coef2Rho : 求めた係数から ρ を計算する
*/
void CumulativeLogitModel::coef2Rho()
{
  if ( ! isValid() ) return;

  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
      double xi = a_[k * p_] * x_[i][0];
      for ( unsigned int j = 1 ; j < p_ ; ++j )
        xi += a_[k * p_ + j] * x_[i][j];
      rho_[i][k] = exp( xi );
    }
  }
}

/*
  CumulativeLogitModel::calcCoefDiagBlock : 係数行列の対角部分行列を計算する
*/
void CumulativeLogitModel::calcCoefDiagBlock( unsigned int k )
{
  // k に依存する部分を先に計算
  vector<double> sum( n_, 0 );
  for ( unsigned int i = 0 ; i < n_ ; ++i ) {
    sum[i] += ( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] / pow( 1.0 + rho_[i][k], 2 );
    if ( k + 1 < c_ - 1 )
      sum[i] += y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1] / pow( rho_[i][k] - rho_[i][k + 1], 2 );
    if ( k > 0 )
      sum[i] += y_[i][k] * rho_[i][k] * rho_[i][k - 1] / pow( rho_[i][k] - rho_[i][k - 1], 2 );
  }

  for ( unsigned int jr = 0 ; jr < p_ ; ++jr ) {
    for ( unsigned int jc = 0 ; jc < p_ ; ++jc ) {
      s_[k * p_ + jr][k * p_ + jc] = 0;
      for ( unsigned int i = 0 ; i < n_ ; ++i )
        s_[k * p_ + jr][k * p_ + jc] -= x_[i][jr] * x_[i][jc] * sum[i];
    }
  }
}

/*
  CumulativeLogitModel::calcCoefNonDiagBlock : 係数行列の非対角部分行列(対角成分の右側)を計算する
*/
void CumulativeLogitModel::calcCoefNonDiagBlock( unsigned int k )
{
  // k に依存する部分を先に計算
  vector<double> sum( n_, 0 );
  for ( unsigned int i = 0 ; i < n_ ; ++i )
    sum[i] += y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1] / pow( rho_[i][k] - rho_[i][k + 1], 2 );

  for ( unsigned int jr = 0 ; jr < p_ ; ++jr ) {
    for ( unsigned int jc = 0 ; jc < p_ ; ++jc ) {
      s_[k * p_ + jr][( k + 1 ) * p_ + jc] = 0;
      for ( unsigned int i = 0 ; i < n_ ; ++i )
        s_[k * p_ + jr][( k + 1 ) * p_ + jc] += x_[i][jr] * x_[i][jc] * sum[i];
      // 対称成分にコピー
      s_[( k + 1 ) * p_ + jc][k * p_ + jr] = s_[k * p_ + jr][( k + 1 ) * p_ + jc];
    }
  }
}

/*
  CumulativeLogitModel::calcCoefMatrix : 係数行列を計算する
*/
void CumulativeLogitModel::calcCoefMatrix()
{
  if ( ! isValid() ) return;

  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    calcCoefDiagBlock( k );
    if ( k + 1 < c_ - 1 ) calcCoefNonDiagBlock( k );
  }
}

/*
  CumulativeLogitModel::calcRSide : 連立方程式の右辺を計算する
*/
void CumulativeLogitModel::calcRSide()
{
  if ( ! isValid() ) return;

  vector< vector<double> > u_sum( n_, vector<double>( c_ - 1 ) ); // 対数尤度の偏微分 u の計算に必要な項
  vector< vector<double> > h_sum( n_, vector<double>( c_ - 1 ) ); // 係数行列と係数の積 Ha の計算に必要な項
  // k に依存する部分を先に計算しておく
  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    for ( unsigned int i = 0 ; i < n_ ; ++i ) {
      h_sum[i][k] = -( y_[i][k] + y_[i][k + 1] ) * rho_[i][k] * log( rho_[i][k] )
        / pow( 1.0 + rho_[i][k], 2 );
      u_sum[i][k] = ( y_[i][k] + y_[i][k + 1] ) / ( 1.0 + rho_[i][k] );
      if ( k > 0 ) {
        h_sum[i][k] += y_[i][k] * rho_[i][k] * rho_[i][k - 1]
          * ( log( rho_[i][k - 1] ) - log( rho_[i][k] ) ) / pow( rho_[i][k] - rho_[i][k - 1], 2 );
        u_sum[i][k] += y_[i][k] * rho_[i][k - 1] / ( rho_[i][k] - rho_[i][k - 1] );
      } else {
        u_sum[i][k] -= y_[i][k];
      }
      if ( k + 1 < c_ - 1 ) {
        h_sum[i][k] += y_[i][k + 1] * rho_[i][k] * rho_[i][k + 1]
          * ( log( rho_[i][k + 1] ) - log( rho_[i][k] ) ) / pow( rho_[i][k] - rho_[i][k + 1], 2 );
        u_sum[i][k] += y_[i][k + 1] * rho_[i][k + 1] / ( rho_[i][k] - rho_[i][k + 1] );
      }
    }
  }

  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    for ( unsigned int j = 0 ; j < p_ ; ++j ) {
      s_.ans( k * p_ + j ) = 0;
      for ( unsigned int i = 0 ; i < n_ ; ++i )
        s_.ans( k * p_ + j ) += x_[i][j] * ( h_sum[i][k] - u_sum[i][k] );
    }
  }
}

/*
  CumulativeLogitModel::printVar : 回帰係数に対する分散の出力
*/
void CumulativeLogitModel::printVar()
{
  if ( ! isValid() ) return;

  // 係数行列の再計算(=フィッシャー情報行列)
  calcCoefMatrix();

  LinearEquationSystem<double> inv( 0 ); // 連立方程式計算用インスタンスの逆行列
  Inverse( s_, inv );

  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    cout << "variance of a[" << k << "] = ( " << -inv[k * p_][k * p_];
    for ( unsigned int j = 1 ; j < p_ ; ++j )
      cout << ", " << -inv[k * p_ + j][k * p_ + j];
    cout << " )" << endl;
  }
  cout << endl;
}

/*
  CumulativeLogitModel::printEquation : 回帰式の出力
*/
void CumulativeLogitModel::printEquation() const
{
  if ( ! isValid() ) return;

  for ( unsigned int k = 0 ; k < c_ - 1 ; ++k ) {
    vector<double> ak( a_.begin() + k * p_, a_.begin() + ( k + 1 ) * p_ );
    std::ostringstream oss;
    oss << " y[" << k << "] = ";
    PrintEquation( oss.str(), ak );
  }
  cout << endl;
}

CumulativeLogitModel_Base クラスは「比例オッズモデル」と「累積ロジットモデル」に共通な、ρ_ik と π_ik の間の変換をするメンバ関数 ( initRho, rho2Pi ) を実装した OrderedLogisticModel クラスの派生クラスで、ここからさらに比例オッズモデル ( ProportionalOddsModel ) と累積ロジットモデル ( CumulativeLogitModel ) を派生しています。それぞれの派生クラスで coef2Rho, calcCoefMatrix, calcRSide と出力用の未定義なメンバ関数を実装し、インスタンス化できるようにしています。この部分が非常に長いプログラムとなっていますが、そのほとんどは連立方程式の係数や右辺の計算処理です。注意すべき点としては、係数行列 H が対称行列であることを利用して、対角成分より右上だけを計算したら左下はコピーするようになっていることと、部分行列に分割できる場合はその単位ごとに処理を振り分けているというところが挙げられます。

なお、今回は「隣接カテゴリ・ロジット・モデル」と「連続比ロジット・モデル」の処理ルーチンは用意していません。

最後に、スコア法の処理を行うためのプログラムを示します。

/*
  OrderedLogisticRegression : 順序ロジスティック回帰

  OrderedLogisticModel& model : 順序ロジスティックモデル
  bool verbose : 冗長モード(ON/OFF)
  unsigned int maxCount : 反復処理の最大回数
  double threshold : 収束条件(全係数が threshold 以下なら処理終了)

  戻り値 : 係数が得られた ... true ; データ異常・反復処理回数が最大値を超えた ... false
*/
bool OrderedLogisticRegression( OrderedLogisticModel& model,
                                bool verbose, unsigned int maxCount, double threshold )
{
  cout << "*** " << model.ident() << " ***" << endl << endl;

  if ( ! model.isValid() ) {
    cerr << "The model is invalid." << endl;
    return( false );
  }

  model.printSize();

  if ( verbose ) {
    model.printX();
    model.printY();
  }

  unsigned int cnt; // 計算回数
  for ( cnt = 0 ; cnt < maxCount ; ++cnt ) {

    if ( verbose ) {
      cout << "----- cnt = " << cnt << " -----" << endl << endl;
      model.printPi();
      model.printRho();
    }

    // 係数行列の計算
    model.calcCoefMatrix();
    // 右辺の計算
    model.calcRSide();

    if ( verbose ) {
      cout << "Equation System :" << endl;
      model.printLES();
    }

    // 連立方程式の計算
    int res = model.solve( threshold );
    if ( res < 0 ) return( false );

    if ( verbose )
      model.printEquation();

    if ( res > 0 ) break;

    // カテゴリごとの確率計算
    model.coef2Rho();
  }

  if ( cnt < maxCount ) {
    cout << "Estimated regression equation" << endl << endl;
    model.printEquation();

    model.printVar();

    cout << "Estimated probability" << endl;
    model.printPi();
  } else {
    cout << "Failed to estimate regression coefficient" << endl << endl;
  }

  return( cnt < maxCount );
}

大半の処理はクラスの中に実装してしまったため、メイン・ルーチンは非常に単純になっています。変数のチェックや初期化は全て OrderedLogisticModel のインスタンス化で行われておりメイン・ルーチン側では不要になります。ループの中がスコア法の処理をしている部分で、漸化式 (連立方程式) を作成してはそれを解くことを解が収束するまで繰り返します。ρ_ik は連立方程式の係数や右辺の計算で利用するので、coef2Rho を使って求めた係数からループの最後で再計算しています。

実際に利用するときは、以下のような形になります。

vector< vector<double> > x;  // 定数項を含まない独立変数
vector< vector<double> > x2; // (必要なら)定数項を含む独立変数
vector< vector<double> > y;  // 従属変数(各カテゴリの発生回数)

/*
  x[i], x2[i] が独立変数ベクトルで、x[i][j], x2[i][j] がその要素になるように初期化
  但し、x2[i] は(必要なら)定数項を含むのに対し、x[i] は定数項を含めないことに注意
  同様に、y[i] が従属変数ベクトルで、y[i][j] がその要素になるように初期化
*/

// 比例オッズモデル
ProportionalOddsModel proModel( x, y );
OrderedLogisticRegression( proModel, true );

// 累積ロジットモデル
CumulativeLogitModel cumModel( x2, y );
OrderedLogisticRegression( cumModel, true );

比例オッズモデルでは定数項とそれ以外の項を別々に扱っているため (さらに定数項は必須となります)、独立変数ベクトルに定数項 (常に 1 となる要素) は含める必要がないことに注意して下さい。

サンプル・プログラムを使い、前章の「名義ロジスティック回帰」で使ったサンプル・データを処理してみます。サンプル・データは、車の安全性や装備の嗜好に関するドライバーへの聞き取り調査結果の中で、エアコンとパワーステアリングをどれだけ重視するかを示した以下のようなものでした。

表 2-1. エアコンとパワーステアリングの重要性
性別	年齢(歳)	反応
性別	年齢(歳)	C/D	B	A	計
女性	18-23	26	12	7	45
	24-40	9	21	15	45
	>40	5	14	41	60
男性	18-23	40	17	8	65
	24-40	17	15	12	44
	>40	8	15	18	41
計		105	94	101	300

表の中の「反応」はどれだけ重視するかを評価した結果で、「C/D : あまり重要でない/重要でない」「B : 重要」「A : 非常に重要」となっています。前章と同様に、独立変数ベクトルは以下のようにします。

x_i1	=	1	(男性)
	=	0	(女性)
x_i2	=	1	(年齢 24-40)
	=	0	(それ以外)
x_i3	=	1	(年齢 >40)
	=	0	(それ以外)

また、π_i1 が「C/D : あまり重要でない/重要でない」、π_i2 が「B : 重要」、π_i3 が「A : 非常に重要」に対する発生確率であるとして、まずは「比例オッズモデル」を適用した以下の正規方程式で評価してみます。

log( ( π_i2 + π_i3 ) / π_i1 ) = β₁ + α₁x_i1 + α₂x_i2 + α₃x_i3

log( π_i3 / ( π_i1 + π_i2 ) ) = β₂ + α₁x_i1 + α₂x_i2 + α₃x_i3

結果は以下のようになります (出力を冗長にするため引数 verbose を ON にしています)。

*** Proportional Odds Model ***

N = 6 ; p = 3 ; c = 3

x = ( 0, 0, 0 )
    ( 0, 1, 0 )
    ( 0, 0, 1 )
    ( 1, 0, 0 )
    ( 1, 1, 0 )
    ( 1, 0, 1 )

y = ( 26, 12, 7 )
    ( 9, 21, 15 )
    ( 5, 14, 41 )
    ( 40, 17, 8 )
    ( 17, 15, 12 )
    ( 8, 15, 18 )

----- cnt = 0 -----

pi = ( 0.577778, 0.266667, 0.155556 )
     ( 0.2, 0.466667, 0.333333 )
     ( 0.0833333, 0.233333, 0.683333 )
     ( 0.615385, 0.261538, 0.123077 )
     ( 0.386364, 0.340909, 0.272727 )
     ( 0.195122, 0.365854, 0.439024 )

rho = ( 0.730769, 0.184211 )
      ( 4, 0.5 )
      ( 11, 2.15789 )
      ( 0.625, 0.140351 )
      ( 1.58824, 0.375 )
      ( 4.125, 0.782609 )

Equation System :
(-70.0509)x0 + (29.8394)x1 + (-24.69)x2 + (-12.3868)x3 + (-5.06352)x4 = -56.4671
(29.8394)x0 + (-68.4175)x1 + (-16.1809)x2 + (-13.3554)x3 + (-20.0287)x4 = 60.1093
(-24.69)x0 + (-16.1809)x1 + (-40.8709)x2 + (-12.9421)x3 + (-11.7394)x4 = 10.2556
(-12.3868)x0 + (-13.3554)x1 + (-12.9421)x2 + (-25.7421)x3 + (0)x4 = 0.633849
(-5.06352)x0 + (-20.0287)x1 + (-11.7394)x2 + (0)x3 + (-25.0922)x4 = -15.7605

Regression equation : y[0] = -0.0488767 + -0.566897x0 + 1.13082x1 + 2.20617x2
Regression equation : y[1] = -1.63239 + -0.566897x0 + 1.13082x1 + 2.20617x2

----- cnt = 1 -----

pi = ( 0.512217, 0.32428, 0.163503 )
     ( 0.253139, 0.36969, 0.377171 )
     ( 0.103652, 0.256713, 0.639635 )
     ( 0.649257, 0.250929, 0.0998146 )
     ( 0.374013, 0.370294, 0.255694 )
     ( 0.169328, 0.328951, 0.50172 )

rho = ( 0.952299, 0.195462 )
      ( 2.95039, 0.605577 )
      ( 8.64768, 1.77496 )
      ( 0.540222, 0.110882 )
      ( 1.67371, 0.343533 )
      ( 4.90568, 1.00691 )

Equation System :
(-71.1851)x0 + (30.5463)x1 + (-23.7073)x2 + (-13.1639)x3 + (-5.00035)x4 = -60.0371
(30.5463)x0 + (-69.9141)x1 + (-15.6347)x2 + (-13.5954)x3 + (-20.9275)x4 = 61.051
(-23.7073)x0 + (-15.6347)x1 + (-39.342)x2 + (-12.6306)x3 + (-11.485)x4 = 9.44813
(-13.1639)x0 + (-13.5954)x1 + (-12.6306)x2 + (-26.7592)x3 + (0)x4 = -0.343875
(-5.00035)x0 + (-20.9275)x1 + (-11.485)x2 + (0)x3 + (-25.9279)x4 = -16.4114

Regression equation : y[0] = -0.0436196 + -0.57613x0 + 1.14689x1 + 2.23208x2
Regression equation : y[1] = -1.6546 + -0.57613x0 + 1.14689x1 + 2.23208x2

----- cnt = 2 -----

pi = ( 0.510903, 0.328609, 0.160488 )
     ( 0.249128, 0.375142, 0.37573 )
     ( 0.100791, 0.258721, 0.640487 )
     ( 0.650162, 0.252814, 0.0970245 )
     ( 0.371185, 0.376036, 0.252779 )
     ( 0.166265, 0.333398, 0.500337 )

rho = ( 0.957318, 0.191168 )
      ( 3.014, 0.60187 )
      ( 8.92148, 1.78154 )
      ( 0.538079, 0.10745 )
      ( 1.69408, 0.338293 )
      ( 5.01449, 1.00135 )

Equation System :
(-69.7585)x0 + (29.3071)x1 + (-23.622)x2 + (-13.0809)x3 + (-4.9103)x4 = -57.8209
(29.3071)x0 + (-68.5156)x1 + (-15.5401)x2 + (-13.5439)x3 + (-20.9145)x4 = 58.8434
(-23.622)x0 + (-15.5401)x1 + (-39.1621)x2 + (-12.5688)x3 + (-11.4383)x4 = 9.35985
(-13.0809)x0 + (-13.5439)x1 + (-12.5688)x2 + (-26.6248)x3 + (0)x4 = -0.314511
(-4.9103)x0 + (-20.9145)x1 + (-11.4383)x2 + (0)x3 + (-25.8248)x4 = -16.235

Regression equation : y[0] = -0.0435382 + -0.576222x0 + 1.1471x1 + 2.23246x2
Regression equation : y[1] = -1.65498 + -0.576222x0 + 1.1471x1 + 2.23246x2

Estimated regression equation

Regression equation : y[0] = -0.0435382 + -0.576222x0 + 1.1471x1 + 2.23246x2
Regression equation : y[1] = -1.65498 + -0.576222x0 + 1.1471x1 + 2.23246x2

variance of b = ( 0.0539472, 0.0653297 )
variance of a = ( 0.0511567, 0.0770636, 0.0849555 )

Estimated probability
pi = ( 0.510903, 0.328609, 0.160488 )
     ( 0.249128, 0.375142, 0.37573 )
     ( 0.100791, 0.258721, 0.640487 )
     ( 0.650162, 0.252814, 0.0970245 )
     ( 0.371185, 0.376036, 0.252779 )
     ( 0.166265, 0.333398, 0.500337 )

名義ロジスティックモデルの場合と同様に、推定確率 π_ik から最大対数尤度 l_α を求めてみます。l_α は、以下の式に π_ik を代入すれば求めることができるのでした。但し、式の中に定数項は含めていません (*2-1)。

l_α = Σ_i{1→N}( Σ_k{1→C}( y_iklog( π_ik ) ) )

計算した結果は l_α = -290.65 になり、最大モデルの対数尤度が l_max = -288.38、最小モデルの対数尤度が l_min = -329.27 と求められることから、対数尤度統計量 D と尤度比カイ二乗統計量 C は次のようになります。

D = 2 x ( l_max - l_α ) = 4.53

C = 2 x ( l_α - l_min ) = 77.25

また、擬似 R² 値は

R² = 1 - l_α / l_min = 0.1173

となり、名義ロジスティックの場合と比較するとかなり近い結果が得られていることがわかります。名義ロジスティックモデルの場合、回帰係数の数は 8 だったのに対し、比例オッズモデルでは 5 つと、より少ないパラメータで同等の結果が得られています。また、今回のデータはカテゴリに対して順序を持っていることから、それを考慮した比例オッズモデルの方が名義ロジスティックモデルよりも望ましいと判断することができます。

次に、累積ロジットモデルを適用した結果を以下に示します。

*** Cumulative Logit Model ***

N = 6 ; p = 4 ; c = 3

x = ( 1, 0, 0, 0 )
    ( 1, 0, 1, 0 )
    ( 1, 0, 0, 1 )
    ( 1, 1, 0, 0 )
    ( 1, 1, 1, 0 )
    ( 1, 1, 0, 1 )

y = ( 26, 12, 7 )
    ( 9, 21, 15 )
    ( 5, 14, 41 )
    ( 40, 17, 8 )
    ( 17, 15, 12 )
    ( 8, 15, 18 )

----- cnt = 0 -----

pi = ( 0.577778, 0.266667, 0.155556 )
     ( 0.2, 0.466667, 0.333333 )
     ( 0.0833333, 0.233333, 0.683333 )
     ( 0.615385, 0.261538, 0.123077 )
     ( 0.386364, 0.340909, 0.272727 )
     ( 0.195122, 0.365854, 0.439024 )

rho = ( 0.730769, 0.184211 )
      ( 4, 0.5 )
      ( 11, 2.15789 )
      ( 0.625, 0.140351 )
      ( 1.58824, 0.375 )
      ( 4.125, 0.782609 )

Equation System :
(-70.0509)x0 + (-41.4428)x1 + (-21.8848)x2 + (-13.6486)x3 + (29.8394)x4 + (16.7527)x5 + (9.49799)x6 + (8.58506)x7 = -56.4671
(-41.4428)x0 + (-41.4428)x1 + (-13.6562)x2 + (-7.9467)x3 + (16.7527)x4 + (16.7527)x5 + (6.06942)x6 + (4.33456)x7 = -27.7359
(-21.8848)x0 + (-13.6562)x1 + (-21.8848)x2 + (0)x3 + (9.49799)x4 + (6.06942)x5 + (9.49799)x6 + (0)x7 = -26.0545
(-13.6486)x0 + (-7.9467)x1 + (0)x2 + (-13.6486)x3 + (8.58506)x4 + (4.33456)x5 + (0)x6 + (8.58506)x7 = -22.7268
(29.8394)x0 + (16.7527)x1 + (9.49799)x2 + (8.58506)x3 + (-68.4175)x4 + (-32.9337)x5 + (-22.8534)x6 + (-28.6138)x7 = 60.1093
(16.7527)x0 + (16.7527)x1 + (6.06942)x2 + (4.33456)x3 + (-32.9337)x4 + (-32.9337)x5 + (-11.4248)x6 + (-12.4619)x7 = 37.9915
(9.49799)x0 + (6.06942)x1 + (9.49799)x2 + (0)x3 + (-22.8534)x4 + (-11.4248)x5 + (-22.8534)x6 + (0)x7 = 26.6883
(8.58506)x0 + (4.33456)x1 + (0)x2 + (8.58506)x3 + (-28.6138)x4 + (-12.4619)x5 + (0)x6 + (-28.6138)x7 = 6.96634

 y[0] = -0.0645247x0 + -0.583242x1 + 1.21903x2 + 2.2479x3
 y[1] = -1.52196x0 + -0.565755x1 + 0.961902x2 + 2.09162x3

----- cnt = 1 -----

pi = ( 0.516126, 0.304701, 0.179174 )
     ( 0.239667, 0.396798, 0.363535 )
     ( 0.101253, 0.26006, 0.638687 )
     ( 0.656507, 0.233196, 0.110297 )
     ( 0.360945, 0.39412, 0.244935 )
     ( 0.167963, 0.331059, 0.500978 )

rho = ( 0.937513, 0.218285 )
      ( 3.17246, 0.571178 )
      ( 8.87623, 1.76768 )
      ( 0.523213, 0.123971 )
      ( 1.77051, 0.32439 )
      ( 4.9537, 1.00392 )

Equation System :
(-70.6723)x0 + (-39.2684)x1 + (-22.5911)x2 + (-14.072)x3 + (30.537)x4 + (15.819)x5 + (9.74311)x6 + (9.1287)x7 = -59.4201
(-39.2684)x0 + (-39.2684)x1 + (-11.5008)x2 + (-7.99589)x3 + (15.819)x4 + (15.819)x5 + (4.11955)x6 + (4.78162)x7 = -25.9091
(-22.5911)x0 + (-11.5008)x1 + (-22.5911)x2 + (0)x3 + (9.74311)x4 + (4.11955)x5 + (9.74311)x6 + (0)x7 = -27.8773
(-14.072)x0 + (-7.99589)x1 + (0)x2 + (-14.072)x3 + (9.1287)x4 + (4.78162)x5 + (0)x6 + (9.1287)x7 = -23.6467
(30.537)x0 + (15.819)x1 + (9.74311)x2 + (9.1287)x3 + (-70.0498)x4 + (-31.5157)x5 + (-23.0661)x6 + (-30.0708)x7 = 61.2723
(15.819)x0 + (15.819)x1 + (4.11955)x2 + (4.78162)x3 + (-31.5157)x4 + (-31.5157)x5 + (-9.11298)x6 + (-13.0316)x7 = 35.6552
(9.74311)x0 + (4.11955)x1 + (9.74311)x2 + (0)x3 + (-23.0661)x4 + (-9.11298)x5 + (-23.0661)x6 + (0)x7 = 27.5962
(9.1287)x0 + (4.78162)x1 + (0)x2 + (9.1287)x3 + (-30.0708)x4 + (-13.0316)x5 + (0)x6 + (-30.0708)x7 = 7.33885

 y[0] = -0.0643347x0 + -0.590596x1 + 1.24593x2 + 2.2599x3
 y[1] = -1.52615x0 + -0.572171x1 + 0.949439x2 + 2.10266x3

----- cnt = 2 -----

pi = ( 0.516078, 0.305365, 0.178557 )
     ( 0.234766, 0.405545, 0.359689 )
     ( 0.10015, 0.259587, 0.640264 )
     ( 0.658121, 0.232619, 0.10926 )
     ( 0.356406, 0.402901, 0.240693 )
     ( 0.167289, 0.331627, 0.501084 )

rho = ( 0.937691, 0.21737 )
      ( 3.25957, 0.561741 )
      ( 8.98505, 1.77981 )
      ( 0.519478, 0.122662 )
      ( 1.80579, 0.31699 )
      ( 4.97769, 1.00435 )

Equation System :
(-69.7736)x0 + (-38.8721)x1 + (-21.8865)x2 + (-13.9787)x3 + (29.8126)x4 + (15.5031)x5 + (9.15683)x6 + (9.06244)x7 = -58.0475
(-38.8721)x0 + (-38.8721)x1 + (-11.2139)x2 + (-7.95394)x3 + (15.5031)x4 + (15.5031)x5 + (3.87375)x6 + (4.74997)x7 = -25.3591
(-21.8865)x0 + (-11.2139)x1 + (-21.8865)x2 + (0)x3 + (9.15683)x4 + (3.87375)x5 + (9.15683)x6 + (0)x7 = -26.7497
(-13.9787)x0 + (-7.95394)x1 + (0)x2 + (-13.9787)x3 + (9.06244)x4 + (4.74997)x5 + (0)x6 + (9.06244)x7 = -23.487
(29.8126)x0 + (15.5031)x1 + (9.15683)x2 + (9.06244)x3 + (-69.1762)x4 + (-31.1206)x5 + (-22.3826)x6 + (-29.9803)x7 = 59.9194
(15.5031)x0 + (15.5031)x1 + (3.87375)x2 + (4.74997)x3 + (-31.1206)x4 + (-31.1206)x5 + (-8.80826)x6 + (-12.9999)x7 = 35.0174
(9.15683)x0 + (3.87375)x1 + (9.15683)x2 + (0)x3 + (-22.3826)x4 + (-8.80826)x5 + (-22.3826)x6 + (0)x7 = 26.4939
(9.06244)x0 + (4.74997)x1 + (0)x2 + (9.06244)x3 + (-29.9803)x4 + (-12.9999)x5 + (0)x6 + (-29.9803)x7 = 7.24619

 y[0] = -0.064276x0 + -0.59071x1 + 1.24641x2 + 2.25992x3
 y[1] = -1.52613x0 + -0.572248x1 + 0.949028x2 + 2.10268x3

----- cnt = 3 -----

pi = ( 0.516063, 0.305376, 0.17856 )
     ( 0.234669, 0.405731, 0.359599 )
     ( 0.100142, 0.259586, 0.640272 )
     ( 0.658133, 0.232612, 0.109254 )
     ( 0.356309, 0.403083, 0.240607 )
     ( 0.167293, 0.331632, 0.501075 )

rho = ( 0.937746, 0.217375 )
      ( 3.26131, 0.561522 )
      ( 8.9858, 1.77988 )
      ( 0.519449, 0.122655 )
      ( 1.80655, 0.316842 )
      ( 4.97754, 1.00431 )

Equation System :
(-69.7585)x0 + (-38.8661)x1 + (-21.8723)x2 + (-13.9783)x3 + (29.8001)x4 + (15.4981)x5 + (9.145)x6 + (9.06208)x7 = -58.0234
(-38.8661)x0 + (-38.8661)x1 + (-11.2081)x2 + (-7.95394)x3 + (15.4981)x4 + (15.4981)x5 + (3.86884)x6 + (4.74991)x7 = -25.3501
(-21.8723)x0 + (-11.2081)x1 + (-21.8723)x2 + (0)x3 + (9.145)x4 + (3.86884)x5 + (9.145)x6 + (0)x7 = -26.7267
(-13.9783)x0 + (-7.95394)x1 + (0)x2 + (-13.9783)x3 + (9.06208)x4 + (4.74991)x5 + (0)x6 + (9.06208)x7 = -23.4863
(29.8001)x0 + (15.4981)x1 + (9.145)x2 + (9.06208)x3 + (-69.1614)x4 + (-31.1143)x5 + (-22.3687)x6 + (-29.9798)x7 = 59.8957
(15.4981)x0 + (15.4981)x1 + (3.86884)x2 + (4.74991)x3 + (-31.1143)x4 + (-31.1143)x5 + (-8.80216)x6 + (-12.9999)x7 = 35.0071
(9.145)x0 + (3.86884)x1 + (9.145)x2 + (0)x3 + (-22.3687)x4 + (-8.80216)x5 + (-22.3687)x6 + (0)x7 = 26.4713
(9.06208)x0 + (4.74991)x1 + (0)x2 + (9.06208)x3 + (-29.9798)x4 + (-12.9999)x5 + (0)x6 + (-29.9798)x7 = 7.24569

 y[0] = -0.0642759x0 + -0.59071x1 + 1.24641x2 + 2.25992x3
 y[1] = -1.52613x0 + -0.572248x1 + 0.949028x2 + 2.10268x3

Estimated regression equation

 y[0] = -0.0642759x0 + -0.59071x1 + 1.24641x2 + 2.25992x3
 y[1] = -1.52613x0 + -0.572248x1 + 0.949028x2 + 2.10268x3

variance of a[0] = ( 0.0617995, 0.0714562, 0.0938823, 0.127779 )
variance of a[1] = ( 0.0988298, 0.0728118, 0.133176, 0.120376 )

Estimated probability
pi = ( 0.516063, 0.305376, 0.17856 )
     ( 0.234669, 0.405731, 0.359599 )
     ( 0.100142, 0.259586, 0.640272 )
     ( 0.658133, 0.232612, 0.109254 )
     ( 0.356309, 0.403083, 0.240607 )
     ( 0.167293, 0.331632, 0.501075 )

このときの最大対数尤度は l_α = -290.30 となり、比例オッズモデルとほとんど変わらない結果となりました。回帰方程式を見ても、定数項以外の係数の差はそれほど大きくないことがわかります。これは、

log( ( 1 - π_i1 ) / π_i1 ) - log( π_i3 / ( 1 - π_i3 ) ) = (x によらずほぼ一定)

ということを意味しますが、π_i1 が小さくなれば第一項が大きくなるため、第二項がそれに比例して大きくなるためには π_i3 が大きくなる必要があります。その度合いが x に依存しないということは、性別や年齢に関係なく、重要でないと判断している人が少なければ重要と判断している人が相対的に増える (その逆も成り立つ) ことになり、男性だけは重要性の判断が両極端に分かれている、などといったことはないということを示しています。確かに、π_i1 が小さいほど π_i3 は大きく、逆に π_i1 が大きいほど π_i3 は小さくなる傾向を結果から読み取ることができます。このような傾向は常に発生するとは限らず、データによって「累積ロジットモデル」の方が当てはめがよい場合も当然ありえます。また、カテゴリに順序性がなければ名義ロジスティックモデルが最もよい選択となり、ここは場合に応じて使い分ける必要があります。

*2-1) 「確率・統計 (19) ロジスティック回帰」の「脚注 3-1」参照。

今回はかなり苦戦してようやくここまでまとめ上げることができました (いや、前回もかなり苦戦したけど)。いろいろな文献を Web 上から探しまわっていたのですが、その中で非常に参考になったサイトを参考文献に記載しています。これらがなければこのドキュメントは完成しなかったと思います。本当に感謝しています。願わくば、このドキュメントも他の方の参考になることを期待してます。
しかし、正規方程式の解き方は結局自力でやりました。最後に頼れるのは自分自身ということでしょうか。いや、おそらくもっとスマートな解法があるのだと思います。

補足 1) 極値分布 ( Generalized Extreme Value (GEV) Distribution )

「極値分布 ( Generalized Extreme Value (GEV) Distribution )」とは、次のような累積分布関数で表される確率密度関数です。

F( x ; μ, σ, ξ ) = exp( -{ 1 + ξ[ ( x - μ ) / σ ] }^-1/ξ )

但し、1 + ξ[ ( x - μ ) / σ ] > 0 である必要があります。μ は「位置母数(Location Parameter)」、σ は「尺度母数(Scale Parameter)」、ξ は「形状母数(Shape Parameter)」と呼ばれるパラメータで、この中の形状母数の値によって三つのタイプに分類されます。

■ ガンベル型 (タイプ I)

lim{N→∞}( ( 1 + 1 / N )^N ) = e より lim{N/α→∞}( ( 1 + α / N )^-N ) = lim{N/α→∞}( [ ( 1 + α / N )^(N/α) ]^-α ) = e^-α であることを利用すると、ξ = 1 / N として N → ∞ としたとき

F( x ; μ, σ ) = exp( -exp( -( x - μ ) / σ ) )

となります。これを「タイプ I の極値分布 (Type I Extreme Value Distribution)」または「ガンベル分布 (Gumbel Distribution)」といいます。特に、μ = 0、σ = 1 の場合は「標準ガンベル分布 (Standard Gumbel Distribution)」と呼ばれます。確率密度関数 f( x ; μ, σ ) は、

f = dF / dx	=	exp( -exp( -( x - μ ) / σ ) )・[ -exp( -( x - μ ) / σ ) ]・( -1 / σ )
	=	exp( -( x - μ ) / σ - exp( -( x - μ ) / σ ) ) / σ

となります。

■ フレシェ型 (タイプ II)

ξ = 1 / α ( 但し α > 0 ) とすると、

F( x ; μ, σ, α )	=	exp( -[ 1 + ( x - μ ) / ασ ]^-α )
	=	exp( -{ [ x - ( μ - ασ ) ] / ασ }^-α )

となるので、ασ を σ に、μ - ασ を μ に改めて置き換えると

F( x ; μ, σ, α ) = exp( -[ ( x - μ ) / σ ]^-α )

となります (但し x < μ では 0 とします)。これを「タイプ II の極値分布 (Type II Extreme Value Distribution)」または「フレシェ分布 (Fréchet Distribution)」といいます。

■ ワイブル型 (タイプ III)

最後に ξ = -1 / α ( 但し α > 0 ) とすると、

F( x ; μ, σ, α ) = exp( -[ -( x - μ ) / σ ]^α )

となり (但し x > μ では 1 とします)、これを「タイプ III の極値分布 (Type III Extreme Value Distribution)」または「ワイブル分布 (Weibull Distribution)」といいます。

極値分布の確率密度関数の一般式は、

f( x ; μ, σ, ξ )	=	exp( -{ 1 + ξ[ ( x - μ ) / σ ] }^-1/ξ )・( 1 / ξ ){ 1 + ξ[ ( x - μ ) / σ ] }^-1/ξ-1・( ξ / σ )
	=	( 1 / σ ){ 1 + ξ[ ( x - μ ) / σ ] }^-1/ξ-1exp( -{ 1 + ξ[ ( x - μ ) / σ ] }^-1/ξ )

であり、フレシェ型とワイブル型はこの式に当てはまりますが、ガンブル型はこれではなく先ほど示した式が当てはまります。

<参考文献>

1. 「一般化線形モデル入門」 Annette J. Dobson 著 (共立出版)
2. 「Generalized Latent Variable Modeling」 Anders Skrondal, Sophia Rabe-Hesketh 共著 (CRC Press): 実際には書籍を購入しているわけではなく、Google Books にあったサンプルの中で必要な個所が見つかったのを利用させてもらいました。
3. 「長倉大輔様のホームページ (慶應義塾大学)」-「質的従属変数のロジット、プロビット分析 3」: 潜在変数を扱ったモデルを理解する上で非常に参考になりました。
4. Wikipedia

◆◇◆更新履歴◆◇◆

「累積ロジットモデル」のサンプル・プログラムに誤りがあり、処理結果もおかしくなっていたため修正をしました。
具体的には、計算前のゼロ初期化が抜けていたという初歩的なミスです。
幸い、結果が大きく外れるというほどではありませんでしたが、処理ログの連立方程式が明らかに対称になっていないことにもっと早く気付くべきでした。失礼しました (2016/05/03)。

前に戻る

タイトルに戻る