確率・統計 (12) 二標本の解析 -2-

確率・統計

(12) 二標本の解析 -2-

前回は、回帰係数と共分散の最尤推定量の求め方から、両者のモデルが異なるということを紹介しました。この章ではさらに、回帰係数や相関係数の区間推定の方法について紹介したいと思います。

(注) 数式などの記法について (ドキュメントの中で使用している数式の表現方法に関する注意点です)

1) 回帰係数の推定

二つのデータ x, y のペアが複数個存在し、それをプロットしたものが直線と見なせるような場合、直線の傾きと切片に対する最尤推定量は最小二乗法から求められることを前の章で説明しました。当然、標本が変化すれば求められる推定量も変化するので、求めた値がどの程度信頼できるかを区間推定したり、さらにその結果を使って検定を行うことも必要になる場合があります。ここでは、最尤推定量として求めた傾きと切片が不偏推定量であること、また、それぞれの確率分布がどのようなものになるかを確認していきたいと思います。

確率変数 ( x, y ) において、x に対する y の回帰曲線が一次式 y = ax + b で表されるとき、N 個の観測値 ( x_j, y_j ) に対してランダムな誤差が ε_j が加わって

y_j = ax_j + b + ε_j

と表すことができて、誤差 ε_j が平均 0、分散 σ² の正規分布 N( 0, σ² ) に従うと仮定すれば、a, b の最尤推定量 a^, b^は

a^ = s_xy / v_x --- (1)

b^ = m_y - m_x・s_xy / v_x = m_y - a^・m_x --- (2)

となるのでした。ここで、m_x, m_y はそれぞれ x_j, y_j の標本平均、v_x は x_j の標本分散、そして s_xy は x_j, y_j の標本共分散を表しています。(1) 式の右辺に s_xy = Σ_j{1→N}( ( x_j - m_x )( y_j - m_y ) ) / N を代入すれば

a^	=	Σ_j{1→N}( ( x_j - m_x )( y_j - m_y ) ) / Nv_x
	=	{ Σ_j{1→N}( ( x_j - m_x )y_j ) - m_yΣ_j{1→N}( x_j - m_x ) } / Nv_x
	=	Σ_j{1→N}( { ( x_j - m_x ) / Nv_x }y_j )

Σ_j{1→N}( x_j - m_x ) = 0 になるので、途中で第二項めが消えて上記のような結果になります。(2)式に上で求めた a^ の式を代入すれば

b^	=	m_y - m_xΣ_j{1→N}( { ( x_j - m_x ) / Nv_x }y_j )
	=	Σ_j{1→N}( y_j / N ) - Σ_j{1→N}( { m_x( x_j - m_x ) / Nv_x }y_j )
	=	Σ_j{1→N}( [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]y_j )

となって、 a^, b^ は y_j による一次式で表すことができます。y_j は、正規分布 N( 0, σ² ) に従う確率変数 ε_j による一次式で表されるので、やはり正規分布に従います。従って、a^, b^ もまた正規分布に従うことになります。y_j の期待値 E[y_j] と分散 V[y_j] は

E[y_j] = E[ax_j + b + ε_j] = ax_j + b + E[ε_j] = ax_j + b

V[y_j] = E[{ ( ax_j + b + ε_j ) - E[y_j] }²] = E[ε_j²] = σ²

となるので、これを使って a^, b^ の期待値を求めると、

E[a^]	=	E[ Σ_j{1→N}( { ( x_j - m_x ) / Nv_x }y_j ) ]
	=	Σ_j{1→N}( E[ { ( x_j - m_x ) / Nv_x }y_j ] )
	=	Σ_j{1→N}( { ( x_j - m_x ) / Nv_x }E[y_j] )
	=	Σ_j{1→N}( ( x_j - m_x )( ax_j + b ) / Nv_x )
	=	( a / Nv_x )Σ_j{1→N}( x_j( x_j - m_x ) ) + ( b / Nv_x )Σ_j{1→N}( x_j - m_x )
	=	( a / Nv_x )Σ_j{1→N}( x_j( x_j - m_x ) )

ここでも Σ_j{1→N}( x_j - m_x ) = 0 を利用しています。さらにこれを使って、

E[a^]	=	( a / Nv_x )Σ_j{1→N}( x_j( x_j - m_x ) ) - ( am_x / Nv_x )Σ_j{1→N}( x_j - m_x )
	=	( a / Nv_x )Σ_j{1→N}( x_j( x_j - m_x ) - m_x( x_j - m_x ) )
	=	( a / v_x )Σ_j{1→N}( ( x_j - m_x )² / N ) = a

と求められます。Σ_i( x_i( x_i - m_x ) ) = Σ_i( ( x_i - m_x )² ) = Nv_x という公式はこの後も頻繁に利用するので注意してください。

b^ の期待値は、a^ を利用して

E[b^] = E[m_y - a^・m_x] = ( am_x + b ) - am_x = b

となるので、最尤推定量としての a^, b^ は不偏推定量でもあるということになります。分散 v_a = V[a^], v_b = V[b^] は

v_a = V[a^]	=	V[ Σ_j{1→N}( { ( x_j - m_x ) / Nv_x }y_j ) ]
	=	Σ_j{1→N}( { ( x_j - m_x ) / Nv_x }²V[y_j] )
	=	( σ² / Nv_x² )Σ_j{1→N}( ( x_j - m_x )² / N )
	=	σ² / Nv_x
v_b = V[b^]	=	V[ Σ_j{1→N}( [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]y_j ) ]
	=	Σ_j{1→N}( [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]²V[y_j] )
	=	( σ² / N² )Σ_j{1→N}( 1 - 2{ m_x( x_j - m_x ) / v_x } + { m_x( x_j - m_x ) / v_x }² )
	=	( σ² / N )Σ_j{1→N}( 1 / N + ( m_x² / v_x² ){ ( x_j - m_x )² / N } )
	=	σ² / N + ( σ²m_x² / Nv_x² )Σ_j{1→N}( ( x_j - m_x )² / N )
	=	( 1 / N + m_x² / Nv_x )σ²

ここで、独立な確率変数 x_j ( j = 1, 2, ... N ) に対して V[ Σ_j{1→N}( k_jx_j ) ] = k_j²Σ_j{1→N}( V[x_j] ) が成り立つことを利用しています。以上の結果から、a^, b^ はそれぞれ正規分布 N( a, v_a ) = N( a, σ² / Nv_x ), N( b, v_b ) = N( b, ( 1 / N + m_x² / Nv_x )σ² ) に従うことが分かります。

σ は未知の値ですが、y_j と ( a^x_j + b^ ) の差の平方和(つまり a, b の推定量 a^, b^ を使って求めた y の値と実測値としての y の差の平方和)に対してその期待値を求めると

	E[Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² )]
=	E[Σ_j{1→N}( { ( ax_j + b + ε_j ) - ( a^x_j + b^ ) }² )]
=	E[Σ_j{1→N}( { ( a - a^ )x_j + ( b - b^ ) + ε_j }² )]
=	E[Σ_j{1→N}( ( a - a^ )²x_j² + ( b - b^ )² + ε_j² +
	2( a - a^ )( b - b^ )x_j + 2ε_j( a - a^ )x_j + 2ε_j( b - b^ ) )]

と計算できます。前半の項は

E[Σ_j{1→N}( ( a - a^ )²x_j² )] = Σ_j{1→N}( E[( a - a^ )²x_j²] ) = Σ_j{1→N}( v_ax_j² )

E[Σ_j{1→N}( ( b - b^ )² )] = Nv_b

E[Σ_j{1→N}( ε_j² )] = Nσ²

と求めることができますが、後半の項は少し計算が面倒です。

E[Σ_j{1→N}( 2( a - a^ )( b - b^ )x_j )] = 2E[( a - a^ )( b - b^ )]Σ_j{1→N}( x_j )

より E[( a - a^ )( b - b^ )] を求めると

E[( a - a^ )( b - b^ )]	=	E[ab] - E[ab^] - E[a^b] + E[a^b^]
	=	E[a^b^] - ab

E[a^b^]	=	E[Σ_i{1→N}( { ( x_i - m_x ) / Nv_x }y_i )Σ_j{1→N}( [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]y_j )]
	=	E[Σ_i{1→N}( Σ_j{1→N}( { ( x_i - m_x )y_i / Nv_x }[ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]y_j ) )]
	=	Σ_i{1→N}( Σ_j{1→N}( [ ( x_i - m_x ) / N²v_x - { ( x_i - m_x ) / Nv_x }{ m_x( x_j - m_x ) / Nv_x } ]E[y_iy_j] ) )

となります。E[y_iy_j] は

E[y_iy_j]	=	E[( ax_i + b + ε_i )( ax_j + b + ε_j )]
	=	E[( ax_i + b )( ax_j + b ) + ε_i( ax_j + b ) + ε_j( ax_i + b ) + ε_iε_j]
	=	( ax_i + b )( ax_j + b ) + ( ax_j + b )E[ε_i] + ( ax_i + b )E[ε_j] + E[ε_iε_j]
	=	( ax_i + b )( ax_j + b ) ( i ≠ j )
	=	( ax_i + b )² + σ² ( i = j )

となるので、前半の項は

	Σ_i{1→N}( Σ_j{1→N}( { ( x_i - m_x ) / N²v_x }E[y_iy_j] ) )
=	Σ_i{1→N}( Σ_j{1→N}( { ( x_i - m_x ) / N²v_x }( ax_i + b )( ax_j + b ) ) + σ²( x_i - m_x ) / N²v_x )
=	Σ_i{1→N}( { ( x_i - m_x )( ax_i + b ) / N²v_x }Σ_j{1→N}( ax_j + b ) )
=	{ ( aNm_x + bN ) / N²v_x }Σ_i{1→N}( ( x_i - m_x )( ax_i + b ) )
=	{ ( am_x + b ) / Nv_x }{ aΣ_i{1→N}( x_i( x_i - m_x ) ) + bΣ_i{1→N}( x_i - m_x ) }
=	{ a( am_x + b ) / Nv_x }Σ_i{1→N}( ( x_i - m_x )² )
=	a( am_x + b )

後半の項は

	Σ_i{1→N}( Σ_j{1→N}( { ( x_i - m_x ) / Nv_x }{ m_x( x_j - m_x ) / Nv_x }E[y_iy_j] ) )
=	( m_x / N²v_x² )Σ_i{1→N}( Σ_j{1→N}( ( x_i - m_x )( ax_i + b )( x_j - m_x )( ax_j + b ) ) + σ²( x_i - m_x )² )
=	( m_x / N²v_x² )Σ_i{1→N}( ( x_i - m_x )( ax_i + b ){ aΣ_j{1→N}( x_j( x_j - m_x ) ) + bΣ_j{1→N}( x_j - m_x ) } + σ²( x_i - m_x )² )
=	( m_x / N²v_x² )Σ_i{1→N}( a( x_i - m_x )( ax_i + b ){ Σ_j{1→N}( ( x_j - m_x )² ) } + σ²( x_i - m_x )² )
=	( m_x / N²v_x² )Σ_i{1→N}( aNv_x( x_i - m_x )( ax_i + b ) + σ²( x_i - m_x )² )
=	( m_x / N²v_x² ){ a²Nv_xΣ_i{1→N}( x_i( x_i - m_x ) ) + abNv_xΣ_i{1→N}( x_i - m_x ) + σ²Σ_i{1→N}( ( x_i - m_x )² ) }
=	( m_x / N²v_x² ){ a²Nv_xΣ_i{1→N}( ( x_i - m_x )² ) + σ²Σ_i{1→N}( ( x_i - m_x )² ) }
=	( m_x / N²v_x² ){ ( a²Nv_x + σ² )Nv_x }
=	a²m_x + m_xσ² / Nv_x

よって、

E[( a - a^ )( b - b^ )]	=	E[a^b^] - ab
	=	a( am_x + b ) - ( a²m_x + m_xσ² / Nv_x ) - ab
	=	-m_xσ² / Nv_x

と求めることができて、Σ_j{1→N}( x_j ) = Nm_x だから

E[( a - a^ )( b - b^ )]Σ_j{1→N}( x_j ) = -m_x²σ² / v_x

になります。また、

	E[Σ_j{1→N}( ε_j( a - a^ )x_j )]
=	E[Σ_j{1→N}( ε_j( a - Σ_i{1→N}( { ( x_i - m_x ) / Nv_x }y_i ) )x_j )]
=	Σ_j{1→N}( ax_jE[ε_j] - E[ε_jΣ_i{1→N}( { ( x_i - m_x ) / Nv_x }y_i )x_j] )
=	-Σ_j{1→N}( E[Σ_i{1→N}( { ( x_i - m_x ) / Nv_x }y_i ) )ε_jx_j] )
=	-Σ_j{1→N}( x_jΣ_i{1→N}( { ( x_i - m_x ) / Nv_x }E[y_iε_j] ) )
=	-Σ_j{1→N}( x_j{ ( x_j - m_x ) / Nv_x }σ² )
=	-( σ² / Nv_x )Σ_j{1→N}( ( x_j - m_x )² )
=	-( σ² / Nv_x )・Nv_x = -σ²

ここで、

E[y_iε_j]	=	E[( ax_i + b + ε_i )ε_j]
	=	( ax_i + b )E[ε_j] + E[ε_iε_j]
	=	E[ε_i]E[ε_j] = 0 ( i ≠ j )
	=	E[ε_i²] = σ² ( i = j )

になることを利用しています。E[Σ_j{1→N}( ε_j( b - b^ ) )] については

	E[Σ_j{1→N}( ε_j( b - b^ ) )]
=	E[Σ_j{1→N}( ε_j( b - Σ_i{1→N}( [ 1 / N - { m_x( x_i - m_x ) / Nv_x } ]y_i ) ) )]
=	Σ_j{1→N}( bE[ε_j] - E[ε_jΣ_i{1→N}( [ 1 / N - { m_x( x_i - m_x ) / Nv_x } ]y_i ) )] )
=	-Σ_j{1→N}( Σ_i{1→N}( [ 1 / N - { m_x( x_i - m_x ) / Nv_x } ]E[ε_jy_i] ) )
=	-Σ_j{1→N}( [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]σ² ) = -σ²

となるので、

	E[Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² )]
=	E[Σ_j{1→N}( ( a - a^ )²x_j² )] + E[Σ_j{1→N}( ( b - b^ )² )] + E[Σ_j{1→N}( ε_j² )] +
	E[Σ_j{1→N}( 2( a - a^ )( b - b^ )x_j )] + E[Σ_j{1→N}( 2ε_j( a - a^ )x_j )] + E[Σ_j{1→N}( 2ε_j( b - b^ ) )]
=	Σ_j{1→N}( v_ax_j² ) + Nv_b + Nσ² - 2m_x²σ² / v_x - 2σ² - 2σ²
=	( σ² / Nv_x )Σ_j{1→N}( x_j² ) + N( 1 / N + m_x² / Nv_x )σ² + Nσ² - 2m_x²σ² / v_x - 4σ²
=	( σ² + m_x²σ² / v_x ) + ( σ² + m_x²σ² / v_x ) + Nσ² - 2m_x²σ² / v_x - 4σ²
=	( N - 2 )σ²

従って、v_ε = Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² ) / ( N - 2 ) としたとき、v_ε は σ² の不偏推定量となります。

a^, b^ はそれぞれ正規分布 N( a, v_a ) = N( a, σ² / Nv_x ), N( b, v_b ) = N( b, ( 1 / N + m_x² / Nv_x )σ² ) に従うことから、( a^ - a ) / ( σ² / Nv_x )^1/2 と ( b^ - b ) / ( 1 / N + m_x² / Nv_x )σ² )^1/2 は標準正規分布 N( 0, 1 ) に従います。よって、

z_a = ( a^ - a ) / ( σ² / Nv_x )^1/2

z_b = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2

より、z_a, z_b が N( 0, 1 ) に従うことを利用して区間推定や検定を行うことができます。しかし、σ² はたいてい未知の値であり、右辺を計算することが通常はできません。そこで、

t_a = ( a^ - a ) / ( σ² / Nv_x )^1/2( √v_ε / σ ) = ( a^ - a ) / ( v_ε / Nv_x )^1/2

t_b = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2( √v_ε / σ ) = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )v_ε }^1/2

とすると、t_a, t_b は自由度 N - 2 の t-分布に従うことが証明できます(補足1)。z_a, z_b と t_a, t_b の違いを見ると、σ² がその不偏推定量 v_εに置き換わった形をしていることが分かります。これを利用することで、a, b に対する区間推定や検定を行うことができます。t_a = t_b = t として、上式を a, b について解くと

a = a^ - t( v_ε / Nv_x )^1/2

b = b^ - t{ ( 1 / N + m_x² / Nv_x )v_ε }^1/2

になります。しかし、t-分布は左右対称であり、a^ - a は a^ と a の大小関係で符号が変化するので、以下のように信頼区間を定義することになります。

a^ - t( v_ε / Nv_x )^1/2 ≤ a ≤ a^ + t( v_ε / Nv_x )^1/2

b^ - t{ ( 1 / N + m_x² / Nv_x )v_ε }^1/2 ≤ b ≤ b^ + t{ ( 1 / N + m_x² / Nv_x )v_ε }^1/2

回帰直線の傾きと切片に対して区間推定を行うためのサンプル・プログラムを以下に示します。

/*
  RegressionCoefficient : 回帰係数
*/
class RegressionCoefficient
{
  double _est_a;     // 傾きの推定量
  double _est_b;     // 切片の推定量
  unsigned int _cnt; // 標本数
  double _mx;        // x の平均
  double _var_x;     // x の分散
  double _ve;        // 誤差項の分散の不偏推定量

  bool _isValid;     // 正しく計算できたか？

  // 回帰直線の区間推定
  bool regCoef_iEst( const ContDist& dist, double var, double b,
                     pair<double,double>& interval_a, pair<double,double>& interval_b,
                     double threshold ) const;

public:

  /*
    コンストラクタ
  */
  RegressionCoefficient( const vector<double>& x, const vector<double>& y )
    { init( x, y ); }

  // 初期化処理
  void init( const vector<double>& x, const vector<double>& y );

  // 利用可能な状態か？
  bool isValid() const { return( _isValid ); }
  bool operator!() const { return( ! isValid() ); }

  // 回帰係数の推定値を返す
  double a() const { return( _est_a ); } // 傾き
  double b() const { return( _est_b ); } // 切片

  /*
    区間推定
  */

  // regCoef_iEst : 回帰直線の区間推定(誤差項の分散が既知の時)
  bool regCoef_iEst( double var, double b, pair<double,double>& interval_a,
                     pair<double,double>& interval_b, double threshold ) const;

  // 回帰係数の区間推定(誤差項の分散が未知の場合)
  bool regCoef_iEst( double b, pair<double,double>& interval_a, pair<double,double>& interval_b,
                     double threshold ) const;
};

/*
  RegressionCoefficient::init 初期化処理

  const vector<double> &x, &y : データ列
*/
void RegressionCoefficient::init( const vector<double>& x, const vector<double>& y )
{
  _isValid = false;
  _cnt = x.size();
  if ( y.size() != _cnt ) {
    cout << "The size of data ( x, y ) must be the same size." << endl;
    return;
  }
  if ( _cnt == 0 ) {
    cout << "The size of data must be greater than zero." << endl;
    return;
  }

  _var_x = sampleVariance( x );          // x の分散
  double cov = sampleCovariance( x, y ); // 標本共分散

  // x, y の平均
  _mx = sampleAverage( x );
  double my = sampleAverage( y );

  // 回帰係数の推定値
  _est_a = ( _var_x != 0 ) ? cov / _var_x : NAN;
  _est_b = ( isnan( _est_a ) ) ? NAN : my - _est_a * _mx;

  // 誤差項の分散の不偏推定量
  vector<double> dy( _cnt );
  for ( unsigned int i = 0 ; i < _cnt ; ++i )
    dy[i] = pow( y[i] - _est_a * x[i] - _est_b, 2 );
  _ve = sum( dy ) / (double)( _cnt - 2 );

  _isValid = ! ( isnan( _est_a ) || isnan( _est_b ) );
}

/*
  RegressionCoefficient::regCoef_iEst : 回帰直線の区間推定

  const ContDist& dist : 確率密度関数(左右対称を前提)
  double var : 誤差項の分散
  double b : 信頼度
  pair<double,double> &interval_a, &interval_b : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool RegressionCoefficient::regCoef_iEst( const ContDist& dist, double var, double b,
                                          pair<double,double>& interval_a, pair<double,double>& interval_b,
                                          double threshold ) const
{
  if ( ! isValid() ) {
    cout << "It seems to fail to initialize." << endl;
    return( false );
  }
  if ( b < 0 || b > 1 ) {
    cout << "Confidence value b must have the range [0,1]." << endl;
    return( false );
  }

  double t = binSearch( dist, b / 2.0, threshold ); // 確率分布の片側信頼区間

  double diff_a = t * sqrt( var / ( (double)_cnt * _var_x ) );
  double diff_b = t * sqrt( var * ( 1 / (double)_cnt + pow( _mx, 2 ) / ( (double)_cnt * _var_x ) ) );

  interval_a.first = _est_a - diff_a;
  interval_a.second = _est_a + diff_a;

  interval_b.first = _est_b - diff_b;
  interval_b.second = _est_b + diff_b;

  return( true );
}

/*
  RegressionCoefficient::regCoef_iEst : 回帰直線の区間推定(誤差項の分散が既知の時)

  double var : 誤差項の分散
  double b : 信頼度
  pair<double,double> &interval_a, &interval_b : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool RegressionCoefficient::regCoef_iEst( double var, double b, pair<double,double>& interval_a,
                                          pair<double,double>& interval_b, double threshold ) const
{
  return( regCoef_iEst( NormalDistribution( 0, 1 ), var, b, interval_a, interval_b, threshold ) );
}

/*
  RegressionCoefficient::regCoef_iEst : 回帰直線の区間推定(誤差項の分散が未知の時)

  double b : 信頼度
  pair<double,double> &interval_a, &interval_b : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可、データ数が 2 以下
*/
bool RegressionCoefficient::regCoef_iEst( double b, pair<double,double>& interval_a,
                                          pair<double,double>& interval_b, double threshold ) const
{
  // データ数は 3 以上必要
  if ( _cnt < 3 ) {
    cout << "The size of data must be equal or greater than 3." << endl;
    return( false );
  }

  return( regCoef_iEst( TDistribution( _cnt - 2 ), _ve,
                        b, interval_a, interval_b, threshold )
          );
}

RegressionCoefficient は回帰直線の推定量を保持するクラスです。コンストラクタ(実際には初期化処理用の init )の中で回帰直線の傾きと切片に対する推定量の他、区間推定に必要なパラメータをあらかじめ計算し、メンバ変数として保持しておきます。複数ある regCoef_iEst は全て回帰係数の区間推定を行うためのメンバ関数です。一番上側にある非公開のものは引数として渡された確率密度関数を使って信頼区間を求めています。確率密度関数としては、誤差項の分散が既知ならば標準正規分布が、未知ならば t-分布が利用されるので、原点を中心に左右対称であることを前提にコーディングされています。公開されたメンバ関数は二つあり、一つは標準正規分布を利用した区間推定で、誤差項の分散を引数として渡す必要があります。最後の一つは t-分布を利用したもので、誤差項の分散の不偏推定量を初期化処理で求め、ve として保持しているので、これを使って区間推定を行っています。その他に、求めた回帰係数の最尤(不偏)推定量を返す a, b などが用意されています。

2) 目的(従属)変数の推定

回帰直線の推定ができれば、測定されていないデータの予測を行うことができるようになり、さらには予測値に対する区間推定を行うこともできます。回帰直線 y = ax + b の式が

y = a^x + b^

と推定されていたとき、ある独立変数 x₀ に対する従属変数の期待値を

m_y0 = a^x₀ + b^

によって推定するのは自然な考え方です。x₀ に対する従属変数の期待値を μ_y0 としたとき、

μ_y0 = ax₀ + b

が成り立ちますが、m_y0 の期待値は

E[m_y0] = E[a^x₀ + b^] = ax₀ + b = μ_y0

になるので推定量 m_y0 は μ_y0 の不偏推定量であることになります。m_y0 の分散は

E[( m_y0 - μ_y0 )²]	=	E[{ ( a^x₀ + b^ ) - ( ax₀ + b ) }²]
	=	E[( a^ - a )²x₀² + 2( a^ - a )( b^ - b )x₀ + ( b^ - b )²]
	=	v_ax₀² - 2m_xσ²x_j / Nv_x + v_b
	=	σ²x₀² / Nv_x - 2m_xσ²x₀ / Nv_x + ( 1 / N + m_x² / Nv_x )σ²
	=	{ 1 / N + ( x₀² - 2m_xx₀ + m_x² ) / Nv_x }σ²
	=	{ 1 / N + ( x₀ - m_x )² / Nv_x }σ²

になります。m_y0 は a^ と b^ の一次式で表され、a^ と b^ は正規分布に従うので m_y0 も正規分布に従います。そこで、

m_z0 = { m_y0 - μ_y0 } / [ { 1 / N + ( x₀ - m_x )² / Nv_x }σ² ]^1/2

と正規化することで、m_z0 は標準正規分布に従うことになります。しかし、σ は通常未知であることから、回帰係数の場合と同様に、σ をその不偏推定量 v_ε に置き換えた値

m_t0 = { m_y0 - μ_y0 } / [ { 1 / N + ( x₀ - m_x )² / Nv_x }v_ε ]^1/2

を定義し、m_t0 が自由度 N - 2 の t-分布に従うことを利用して μ_y0 の区間推定や検定を行うことができます。

従属変数そのものを推定する場合、その推定量を y₀ とすると、m_y0 との差 y₀ - m_y0 の平均は

E[y₀ - m_y0] = μ_y0 - μ_y0 = 0

になります。y₀ 自身が a^ や b^ とは独立に正規分布 N( μ_y0, σ² ) に従う確率変数であることから、y₀ - m_y0 の分散は

V[y₀ - m_y0] = V[y₀] + V[m_y0] = { 1 + 1 / N + ( x₀ - m_x )² / Nv_x }σ²

となって、

z₀ = { y₀ - m_y0 } / [ { 1 + 1 / N + ( x₀ - m_x )² / Nv_x }σ² ]^1/2

とすれば、z₀ は標準正規分布に、また

t₀ = { y₀ - m_y0 } / [ { 1 + 1 / N + ( x₀ - m_x )² / Nv_x }v_ε ]^1/2

とすれば、t₀ は自由度 N - 2 の t-分布に従い、これを利用して y₀ の区間推定や検定を行うことができます。

μ_y0 や y₀ の信頼区間の幅は、標本を固定すると ( x₀ - m_x ) の大きさに依存することになります。最も信頼区間が狭くなるのは x₀ = m_x のときで、x₀ が m_x から外れるほど ( x₀ - m_x )² は大きくなり、その分信頼区間は大きく、ぼやけていくことになります。

従属変数に対して点・区間推定を行うためのサンプル・プログラムを以下に示します。

// 従属変数の推定値を返す
double RegressionCoefficient::y( double x0 ) const { return( _est_a * x0 + _est_b ); }

/*
  RegressionCoefficient::depVar_iEst : 従属変数(またはその期待値)の区間推定

  const ContDist& dist : 確率密度関数(左右対称を前提)
  double var : 誤差項の分散
  double b : 信頼度
  double x0 : 独立変数
  pair<double,double> &interval_y : 求める信頼区間
  double expFlag : 期待値を求める場合は 1, そうでなければ 0
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool RegressionCoefficient::depVar_iEst( const ContDist& dist, double var, double b, double x0,
                                         pair<double,double>& interval_y, double expFlag, double threshold ) const
{
  if ( ! isValid() ) {
    cout << "It seems to fail to initialize." << endl;
    return( false );
  }
  if ( b < 0 || b > 1 ) {
    cout << "Confidence value b must have the range [0,1]." << endl;
    return( false );
  }

  double t = binSearch( dist, b / 2.0, threshold ); // 確率分布の片側信頼区間

  double diff_y = t * sqrt( var * ( ( expFlag * (double)_cnt + 1 ) * _var_x + pow( x0 - _mx, 2 ) ) / ( (double)_cnt * _var_x ) );

  interval_y.first = y( x0 ) - diff_y;
  interval_y.second = y( x0 ) + diff_y;

  return( true );
}

/*
  depVarExp_iEst : 従属変数の期待値の区間推定(誤差項の分散が既知の時)

  double var : 誤差項の分散
  double b : 信頼度
  double x0 : 独立変数
  pair<double,double>& interval_y : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool RegressionCoefficient::depVarExp_iEst( double var, double b, double x0, pair<double,double>& interval_y,
                                            double threshold = DEFAULT_THRESHOLD ) const
{
  return( depVar_iEst( NormalDistribution( 0, 1 ), var, b, x0, interval_y, 0, threshold ) );
}

/*
  RegressionCoefficient::depVarExp_iEst : 従属変数の期待値の区間推定(誤差項の分散が未知の時)

  double b : 信頼度
  double x0 : 独立変数
  pair<double,double> &interval_y : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可、データ数が 2 以下
*/
bool RegressionCoefficient::depVarExp_iEst( double b, double x0, pair<double,double>& interval_y,
                                            double threshold ) const
{
  // データ数は 3 以上必要
  if ( _cnt < 3 ) {
    cout << "The size of data must be equal or greater than 3." << endl;
    return( false );
  }

  return( depVar_iEst( TDistribution( _cnt - 2 ), _ve,
                       b, x0, interval_y, 0, threshold )
          );
}

/*
  depVar_iEst : 従属変数の区間推定(誤差項の分散が既知の時)

  double var : 誤差項の分散
  double b : 信頼度
  double x0 : 独立変数
  pair<double,double>& interval_y : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool RegressionCoefficient::depVar_iEst( double var, double b, double x0, pair<double,double>& interval_y,
                                         double threshold = DEFAULT_THRESHOLD ) const
{
  return( depVar_iEst( NormalDistribution( 0, 1 ), var, b, x0, interval_y, 1, threshold ) );
}

/*
  RegressionCoefficient::depVar_iEst : 従属変数の区間推定(誤差項の分散が未知の時)

  double b : 信頼度
  double x0 : 独立変数
  pair<double,double> &interval_y : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可、データ数が 2 以下
*/
bool RegressionCoefficient::depVar_iEst( double b, double x0, pair<double,double>& interval_y,
                                         double threshold ) const
{
  // データ数は 3 以上必要
  if ( _cnt < 3 ) {
    cout << "The size of data must be equal or greater than 3." << endl;
    return( false );
  }

  return( depVar_iEst( TDistribution( _cnt - 2 ), _ve,
                       b, x0, interval_y, 1, threshold )
          );
}

サンプル・プログラムは全て、RegressionCoefficient クラスのメンバ関数として実装されています。一番上側にある depVar_iEst 関数は従属変数およびその期待値の区間推定に利用する共通処理部になっています。従属変数とその期待値の区間推定の計算は、ほんの一部分しか差がないので、expFlag という引数を渡して式の切り替えを行っています。あとは、従属変数用の区間推定プログラム(depVar_iEst)と、その期待値用の区間推定プログラム(depVarExp_iEst)を、誤差項の分散が既知の場合と未知の場合の両方に対して用意すれば完成です。

独立変数と従属変数のペアから回帰曲線を推定する統計的手法を「回帰分析(Regression Analysis)」といいます。今まで説明してきた内容のほとんどは独立変数を一つのみに限定し、あてはめる式も一次式でした。この場合は「単回帰分析(Simple Linear Regression Analysis)」というのに対し、独立変数が複数になった場合は「重回帰分析(Multiple Linear Regression Analysis)」と呼ばれるものになります。また、線形モデル以外の回帰分析として「ロジスティック回帰(Logistic Regression)」という分析手法もあります。

回帰分析が役立つ場面は様々で、例えば求められた式を使い、通常では測定できない値を予測するなどといったことが考えられます。店舗ごとの商品の売上を調査し、それを店舗のある街の人口などと比較することで、新たな店舗で予想される売上を導き出すような場合、新店舗を展開する街の人口に合うデータは常にあるとは限りません。また、温度や処理時間などの条件をいくつかに振った上でその出来栄えを調べ、最適な条件を求めるようなとき、処理に時間がかかるのであれば条件の数は少ない方が調査時間を短くすることができます。このようなとき、回帰分析は有効な手段となります。

3) 相関係数の推定

誤差が正規分布 N( 0, σ² ) に従うとすれば、回帰係数の最尤推定量は正規分布に従うことを今まで見てきました。相関係数に対しても同様なことが成り立てばいいのですが、残念ながら、標本相関係数の確率分布は非常に複雑な式で表されます。しかし、もし、x と y の間に相関がなく、(母)相関係数がゼロならば、比較的単純な確率分布の式で表すことができます。そのために、回帰係数の確率分布を利用します。

t_a = ( a^ - a ) / ( v_ε / Nv_x )^1/2

は自由度 N - 2 の t-分布に従うのでした。(母)相関係数がゼロということは回帰直線の傾きの期待値はゼロであることを意味するので、a = 0 になります。従って上式は

t_a = a^ / ( v_ε / Nv_x )^1/2

になります。ここで v_ε は、

v_ε	=	Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² ) / ( N - 2 )
	=	Σ_j{1→N}( [ y_j - { a^x_j + ( m_y - a^・m_x ) } ]² ) / ( N - 2 )
	=	Σ_j{1→N}( { ( y_j - m_y ) - a^( x_j - m_x ) }² ) / ( N - 2 )
	=	{ Σ_j{1→N}( ( y_j - m_y )² ) - 2a^Σ_j{1→N}( ( x_j - m_x )( y_j - m_y ) ) + a^²Σ_j{1→N}( ( x_j - m_x )² ) } / ( N - 2 )
	=	( Nv_y - 2N( s_xy / v_x )s_xy + ( s_xy / v_x )²Nv_x ) / ( N - 2 )
	=	{ N / ( N - 2 ) }( v_y - s_xy² / v_x )

と変形することができます。但し、途中で a^ = s_xy / v_x, b^ = m_y - a^・m_x を利用しています。標本相関係数 r = s_xy / √v_x√v_y を使えば、上式はさらに

v_ε = Nv_y( 1 - r² ) / ( N - 2 )

と表されます。a^ = s_xy / v_x なので、これも r を使って表すと

a^	=	s_xy / v_x
	=	r・√v_x・√v_y / v_x
	=	r・( v_y / v_x )^1/2

となって、これらを t_a に代入すれば

t_a	=	r・( v_y / v_x )^1/2 / { Nv_y( 1 - r² ) / N( N - 2 )v_x }^1/2
	=	r( N - 2 )^1/2 / ( 1 - r² )^1/2

と計算できます。よって、(母)相関係数 ρ = 0 ならば、t = r( N - 2 )^1/2 / ( 1 - r² )^1/2 は自由度 N - 2 の t-分布に従うことになり、これを利用して r の区間推定を行うことができます。

(母)相関係数がゼロではない場合、一般的には近似式が用いられます。特によく知られているものに「フィッシャーの z 変換(Fisher's Z-transformation)」があります。

互いに独立な二変量変数 ( x_i, y_i ) ( i = 1, 2, ... N ) が、期待値 E[x_i] = E[y_i] = 0、分散 V[x_i] = E[x_i²] = σ_x², V[y_i] = E[y_i²] = σ_y² を持つある確率分布に従うと仮定します。また、x_i と y_i の共分散は E[x_iy_i] = σ_xy で表します。x_i, y_i の標本平均 m_x, m_y を

m_x = Σ_i{1→N}( x_i ) / N

m_y = Σ_i{1→N}( y_i ) / N

とし、標本分散 v_x, v_y を

v_x = Σ_i{1→N}( ( x_i - m_x )² ) / N = Σ_i{1→N}( x_i² ) / N - m_x²

v_y = Σ_i{1→N}( ( y_i - m_y )² ) / N = Σ_i{1→N}( y_i² ) / N - m_y²

また、標本共分散 s_xy を

s_xy = Σ_i{1→N}( ( x_i - m_x )( y_i - m_y ) ) / N = Σ_i{1→N}( x_iy_i ) / N - m_xm_y

とします。標本平均の期待値は E[m_x] = E[m_y] = 0、標本分散の期待値は σ_x², σ_y² とは等しくならず、不偏分散の期待値がこれらの値と等しくなるので E[v_x] = ( N - 1 )σ_x² / N, E[v_y] = ( N - 1 )σ_y² / N になります。標本共分散の期待値 E[s_xy] は、

E[s_xy]	=	E[Σ_i{1→N}( x_iy_i ) / N - m_xm_y]
	=	σ_xy - E[Σ_i{1→N}( x_i )Σ_i{1→N}( y_i )] / N²
	=	σ_xy - E[Σ_i{1→N}( x_iy_i )] / N²
	=	σ_xy - σ_xy / N = ( N - 1 )σ_xy / N

になります。i ≠ j ならば E[x_iy_j] = E[x_i]E[y_j] = 0 なので、E[Σ_i{1→N}( x_i )Σ_i{1→N}( y_i )] = E[Σ_i{1→N}( x_iy_i )] が成り立ち、上記のような結果になります。標本共分散の期待値も σ_xy と等しくはならず、Ns_xy / ( N - 1 ) が不偏推定量になります。

E[v_x / σ_x²] = ( N - 1 ) / N なので、v_x / σ_x² の分散 V[v_x / σ_x²] は

V[v_x / σ_x²]	=	E[( v_x / σ_x² )²] - { ( N - 1 ) / N }²
	=	E[{ Σ_i{1→N}( x_i² ) / N - m_x² }² / σ_x⁴] - ( N - 1 )² / N²
	=	E[{ Σ_i{1→N}( ( x_i / σ_x )² ) }² / N² - 2( m_x / σ_x )²Σ_i{1→N}( ( x_i / σ_x )² ) / N + ( m_x / σ_x )⁴] - ( N - 1 )² / N²

になります。ここで、u_i = x_i / σ_x と正規化を行えば、u_i の標本平均は m_u = m_x / σ_x となるので、上式は

V[v_x / σ_x²] = E[{ Σ_i{1→N}( u_i² ) }² / N² - 2m_u²Σ_i{1→N}( u_i² ) / N + m_u⁴] - ( N - 1 )² / N²

と表すことができます。また、E[u_i²] = 1 が成り立つことも明らかです。期待値の中の各項を順番に計算すると、

	E[{ Σ_i{1→N}( u_i² ) }² / N²]
=	E[Σ_i{1→N}( u_i⁴ ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_i²u_j² ) )] / N²
=	{ Σ_i{1→N}( E[u_i⁴] ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( E[u_i²]E[u_j²] ) ) } / N²
=	{ Σ_i{1→N}( E[u_i⁴] ) + N( N - 1 ) } / N²

{ Σ_i{1→N}( u_i² ) }² は、u_i⁴ の項と u_i²u_j² ( i ≠ j ) の項に分かれます。i, j の組み合わせは _NC₂ = N( N - 1 ) / 2 通りで、それぞれの係数は 2 となるので、E[u_i²] = 1 より最後に示した結果が得られることになります。

	E[2m_u²Σ_i{1→N}( u_i² ) / N]
=	2E[{ Σ_i{1→N}( u_i ) / N }²Σ_i{1→N}( u_i² )] / N
=	2E[{ Σ_i{1→N}( u_i² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iu_j ) ) }Σ_i{1→N}( u_i² )] / N³
=	2E[Σ_i{1→N}( u_i² )Σ_i{1→N}( u_i² )] / N³
=	2{ Σ_i{1→N}( E[u_i⁴] ) + N( N - 1 ) } / N³

2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iu_j ) ) と Σ_i{1→N}( u_i² ) の積は、ある変数 u_i が必ず一次の項になるため、期待値は全てゼロになります。よって、Σ_i{1→N}( u_i² ) どうしの積だけが残り、最初に計算した式と全く同じ形で最後の結果が得られます。

	E[m_u⁴]
=	E[{ Σ_i{1→N}( u_i ) / N }⁴]
=	{ Σ_i{1→N}( E[u_i⁴] ) + Σ_i{1→N-1}( Σ_j{i+1→N}( ( 4! / 2!・2! )E[u_i²]E[u_j²] ) ) } / N⁴
=	{ Σ_i{1→N}( E[u_i⁴] ) + 3N( N - 1 ) } / N⁴

Σ_i{1→N}( u_i ) の四乗和は、多項定理から u_i⁴, (4!/3!)u_i³u_j, (4!/2!・2!)u_i²u_j², (4!/2!)u_i²u_ju_k, (4!)u_iu_ju_ku_l の五種類の項に分けられます。ところが、この場合も一次の変数がある項は期待値がゼロになるので無視することができて、結局 u_i⁴ と (4!/2!・2!)u_i²u_j² の二つの項だけが残ります。

以上の結果から、V[v_x / σ_x²] は

V[v_x / σ_x²]	=	{ Σ_i{1→N}( E[u_i⁴] ) + N( N - 1 ) } / N² - 2{ Σ_i{1→N}( E[u_i⁴] ) + N( N - 1 ) } / N³ + { Σ_i{1→N}( E[u_i⁴] ) + 3N( N - 1 ) } / N⁴ - ( N - 1 )² / N²
	=	Σ_i{1→N}( E[u_i⁴] )( 1 / N² - 2 / N³ + 1 / N⁴ ) + ( 1 - 1 / N ) - 2( 1 / N - 1 / N² ) + 3( 1 / N² - 1 / N³ ) - ( 1 - 2 / N + 1 / N² )
	=	Σ_i{1→N}( E[( x_i / σ_x )⁴] )( 1 / N² - 2 / N³ + 1 / N⁴ ) - 1 / N + 4 / N² - 3 / N³

と求めることができます。ここで、u_i の確率分布に対する条件をさらに絞って正規分布に従うものと仮定すれば、標準正規分布の尖度 E[u_i⁴] = 3 になることから(「(7) 標本の抽出と要約」の「4) 積率(Moment)」参照)

V[v_x / σ_x²]	=	3N( 1 / N² - 2 / N³ + 1 / N⁴ ) - 1 / N + 4 / N² - 3 / N³
	=	2( N - 1 ) / N²

になります。以上、直接計算を行なってみましたが、最初から正規分布に従うと仮定していれば、χ²-分布の性質から Nv_x / σ² が自由度 N - 1 の χ²-分布に従い、その平均が N - 1、分散が 2( N - 1 ) となることを利用して

E[v_x / σ_x²] = E[Nv_x / σ_x²] / N = ( N - 1 ) / N

V[v_x / σ_x²] = V[Nv_x / σ_x²] / N² = 2( N - 1 ) / N²

と簡単に結果を得ることができます。v_y / σ_y² に対する期待値と分散も全く同じ結果が得られます。以上の結果をまとめておきます。

E[v_x / σ_x²] = E[v_y / σ_y²] = ( N - 1 ) / N

V[v_x / σ_x²] = V[v_y / σ_y²] = 2( N - 1 ) / N²

今度は、標本共分散 s_xy を x_i, y_i の母標準偏差 σ_x, σ_y で割った値 s_xy / σ_xσ_y に対する分散 V[s_xy / σ_xσ_y] を求めてみます。期待値は E[s_xy / σ_xσ_y] = ( N - 1 )σ_xy / Nσ_xσ_y なので、

V[s_xy / σ_xσ_y]	=	E[( s_xy / σ_xσ_y )²] - { ( N - 1 )σ_xy / Nσ_xσ_y }²
	=	E[{ Σ_i{1→N}( x_iy_i ) / N - m_xm_y }²] / σ_x²σ_y² - { ( N - 1 )σ_xy / Nσ_xσ_y }²
	=	E[{ Σ_i{1→N}( u_iv_i ) }² / N² - 2m_um_vΣ_i{1→N}( u_iv_i ) / N + m_u²m_v²] - { ( N - 1 )ρ / N }²

になります。ここでも、v_i = y_i / σ_y と正規化し、v_i の標本平均を m_v としています。また、σ_xy / σ_xσ_y は母相関係数を表すので、これを ρ としています。このとき、E[u_iv_i] = E[x_iy_i] / σ_xσ_y = σ_xy / σ_xσ_y = ρ が成り立ちます。先程と同様に、期待値の中を項別に計算すると

	E[{ Σ_i{1→N}( u_iv_i ) }² / N²]
=	E[Σ_i{1→N}( ( u_iv_i )² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iv_iu_jv_j ) )] / N²
=	{ Σ_i{1→N}( E[( u_iv_i )²] ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( E[u_iv_i]E[u_jv_j] ) ) } / N²
=	{ Σ_i{1→N}( E[( u_iv_i )²] ) + N( N - 1 )ρ² } / N²

{ Σ_i{1→N}( u_iv_i ) }² は、V[v_x / σ_x²] の計算で { Σ_i{1→N}( u_i² ) }² を求めたときと全く同じ考え方で計算することができます。

	E[2m_um_vΣ_i{1→N}( u_iv_i ) / N]
=	2E[{ Σ_i{1→N}( u_i ) / N }{ Σ_i{1→N}( v_i ) / N }Σ_i{1→N}( u_iv_i )] / N
=	2E[{ Σ_i{1→N}( u_iv_i ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( u_iv_j ) ) }Σ_i{1→N}( u_iv_i )] / N³
=	2E[{ Σ_i{1→N}( u_iv_i ) }²] / N³
=	2{ Σ_i{1→N}( E[( u_iv_i )²] ) + N( N - 1 )ρ² } / N³

Σ_i{1→N}( u_i ) / N と Σ_i{1→N}( v_i ) / N の積は、u_i と v_i の添字としてどちらも同じ変数 i を使っていますがこれらはそれぞれ 1 から N まで変化するので、実際には u_iv_i と u_iv_j ( i ≠ j ) の二つの項が存在します。しかし、u_iv_j についてはこの後 u_iv_i との積を求めても u_i か v_i のいずれかに一次の変数が必ず存在するので結果はゼロになります。よって、添字の一致する項だけが残り、Σ_i{1→N}( u_iv_i ) になります。

	E[m_u²m_v²]
=	E[{ Σ_i{1→N}( u_i ) / N }²{ Σ_i{1→N}( v_i ) / N }²]
=	E[{ Σ_i{1→N}( u_i² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iu_j ) ) }{ Σ_i{1→N}( v_i² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( v_iv_j ) ) }] / N⁴
=	E[Σ_i{1→N}( u_i²v_i² ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( u_i²v_j² ) ) + 4Σ_i{1→N-1}( Σ_j{i+1→N}( u_iv_iu_jv_j ) )] / N⁴
=	{ Σ_i{1→N}( E[( u_iv_i )²] ) + N( N - 1 ) + 2N( N - 1 )ρ² } / N⁴

Σ_i{1→N}( u_i² ) と 2Σ_i{1→N-1}( Σ_j{i+1→N}( v_iv_j ) ) の積、Σ_i{1→N}( v_i² ) と 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iu_j ) ) の積はどちらも、すべての項で u_i または v_i が一次の変数があるので期待値がゼロになり、無視することができます。

ここで、先程と同様に、( u_i , v_i ) が標準正規分布に従うとして、E[( u_iv_i )²] を求めます。二変量正規分布の確率密度関数 p( u, v ) は

p( u, v ) = [ 1 / { 2π( 1 - ρ² )^1/2 } ] exp( -( u² - 2ρuv + v² ) / 2( 1 - ρ² ) )

になります。s = ( u + v ) / √2, t = ( u - v ) / √2 としたとき、∂s / ∂u = 1 / √2, ∂s / ∂v = 1 / √2, ∂t / ∂u = 1 / √2, ∂t / ∂v = -1 / √2 よりヤコビアンの絶対値は 1 になります。u = ( s + t ) / √2, v = ( s - t ) / √2 なので

u² = ( s² + 2st + t² ) / 2

v² = ( s² - 2st + t² ) / 2

uv = ( s² - t² ) / 2

となって、変数変換した確率密度関数 q( s, t ) は

q( s, t )	=	[ 1 / { 2π( 1 - ρ² )^1/2 } ] exp( -{ s² - ρ( s² - t² ) + t² } / 2( 1 - ρ² ) )
	=	[ 1 / { 2π( 1 - ρ² )^1/2 } ] exp( -( 1 - ρ )s² / 2( 1 - ρ² ) ) exp( -( 1 + ρ )t² / 2( 1 - ρ² ) )
	=	[ 1 / { 2π( 1 + ρ ) }^1/2 ] exp( -s² / 2( 1 + ρ ) ) [ 1 / { 2π( 1 - ρ ) }^1/2 ]exp( -t² / 2( 1 - ρ ) )
	=	N( 0, 1 + ρ )・N( 0, 1 - ρ )

と互いに独立な変数へ変換することができます。このとき、E[( uv )²] は

	E[( uv )²]	=	E[( s² - t² )² / 4]
		=	E[s⁴ - 2s²t² + t⁴] / 4

なので、E[s⁴] は尖度を表し E[{ s / ( 1 + ρ )^1/2 }⁴] = 3 より 3( 1 + ρ )², E[t⁴] も同様に考えて 3( 1 - ρ )² となり、E[s²t²] = E[s²]E[t²] より ( 1 + ρ )( 1 - ρ ) と求められることから

E[( uv )²] = { 3( 1 + ρ )² -2( 1 + ρ )( 1 - ρ ) + 3( 1 - ρ )² } / 4 = 1 + 2ρ²

よって、各項は

E[{ Σ_i{1→N}( u_iv_i ) }² / N²]	=	{ N( 1 + 2ρ² ) + N( N - 1 )ρ² } / N²
	=	{ 1 + ( N + 1 )ρ² } / N

E[2m_um_vΣ_i{1→N}( u_iv_i ) / N]	=	2{ N( 1 + 2ρ² ) + N( N - 1 )ρ² } / N³
	=	2{ 1 + ( N + 1 )ρ² } / N²

E[m_u²m_v²]	=	{ N( 1 + 2ρ² ) + N( N - 1 ) + 2N( N - 1 )ρ² } / N⁴
	=	( 1 + 2ρ² ) / N²

と計算することができて、

V[s_xy / σ_xσ_y]	=	{ 1 + ( N + 1 )ρ² } / N - 2{ 1 + ( N + 1 )ρ² } / N² + ( 1 + 2ρ² ) / N² - { ( N - 1 )ρ / N }²
	=	( 1 / N - 1 / N² ) + ( 1 / N - 1 / N² )ρ²
	=	( 1 + ρ² )( N - 1 ) / N²

となります。

E[s_xy / σ_xσ_y] = ( N - 1 )ρ / N

V[s_xy / σ_xσ_y] = ( 1 + ρ² )( N - 1 ) / N²

次に、v_x / σ_x² と v_y / σ_y² の共分散 S[v_x / σ_x², v_y / σ_y²] = E[{ ( v_x / σ_x² ) - ( N - 1 ) / N }{ ( v_y / σ_y² ) - ( N - 1 ) / N }] を求めます。

S[v_x / σ_x², v_y / σ_y²]	=	E[{ ( v_x / σ_x² ) - ( N - 1 ) / N }{ ( v_y / σ_y² ) - ( N - 1 ) / N }]
	=	E[( v_x / σ_x² )( v_y / σ_y² )] - { ( N - 1 ) / N }( E[v_x / σ_x²] + E[v_y / σ_y²] ) + { ( N - 1 ) / N }²
	=	E[( v_x / σ_x² )( v_y / σ_y² )] - { ( N - 1 ) / N }²
	=	E[{ Σ_i{1→N}( u_i² ) / N - m_u² }{ Σ_i{1→N}( v_i² ) / N - m_v² }] - { ( N - 1 ) / N }²
	=	E[{ Σ_i{1→N}( u_i² )Σ_i{1→N}( v_i² ) / N² - m_v²Σ_i{1→N}( u_i² ) / N - m_u²Σ_i{1→N}( v_i² ) / N + m_u²m_v² }] - { ( N - 1 ) / N }²

より、期待値の中を項別に計算すると

	E[Σ_i{1→N}( u_i² )Σ_i{1→N}( v_i² ) / N²]
=	E[Σ_i{1→N}( ( u_iv_i )² ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( u_i²v_j² ) )] / N²
=	{ Σ_i{1→N}( E[( u_iv_i )²] ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( E[u_i²]E[v_j²] ) ) } / N²
=	{ N( 1 + 2ρ² ) + N( N - 1 ) } / N²
=	( 2ρ² + N ) / N

	E[m_v²Σ_i{1→N}( u_i² ) / N]
=	E[{ Σ_i{1→N}( v_i ) / N }²Σ_i{1→N}( u_i² )] / N
=	E[{ Σ_i{1→N}( v_i² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( v_iv_j ) ) }Σ_i{1→N}( u_i² )] / N³
=	E[Σ_i{1→N}( v_i² )Σ_i{1→N}( u_i² )] / N³
=	( 2ρ² + N ) / N²

E[m_u²Σ_i{1→N}( v_i² ) / N] も同様の方法で同じ値が得られます。E[m_u²m_v²] = ( 1 + 2ρ² ) / N² であることは前に示してあるので、

S[v_x / σ_x², v_y / σ_y²]	=	( 2ρ² + N ) / N - 2( 2ρ² + N ) / N² + ( 1 + 2ρ² ) / N² - { ( N - 1 ) / N }²
	=	2ρ²( N - 1 ) / N²

になります。

S[v_x / σ_x², v_y / σ_y²] = 2ρ²( N - 1 ) / N²

最後に、v_x / σ_x² と s_xy / σ_xσ_y の共分散 S[v_x / σ_x², s_xy / σ_xσ_y] = E[{ ( v_x / σ_x² ) - ( N - 1 ) / N }{ ( s_xy / σ_xσ_y ) - ( N - 1 )ρ / N }] を求めます。

S[v_x / σ_x², s_xy / σ_xσ_y]	=	E[{ ( v_x / σ_x² ) - ( N - 1 ) / N }{ ( s_xy / σ_xσ_y ) - ( N - 1 )ρ / N }]
	=	E[( v_x / σ_x² )( s_xy / σ_xσ_y )] - { ( N - 1 )ρ / N }E[v_x / σ_x²] - { ( N - 1 ) / N }E[s_xy / σ_xσ_y] ) + ρ{ ( N - 1 ) / N }²
	=	E[( v_x / σ_x² )( s_xy / σ_xσ_y )] - { ( N - 1 )ρ / N }{ ( N - 1 ) / N } - { ( N - 1 ) / N }{ ( N - 1 )ρ / N } + ρ{ ( N - 1 ) / N }²
	=	E[{ Σ_i{1→N}( u_i² ) / N - m_u² }{ Σ_i{1→N}( u_iv_i ) / N - m_um_v }] - ρ{ ( N - 1 ) / N }²
	=	E[Σ_i{1→N}( u_i² )Σ_i{1→N}( u_iv_i ) / N² - m_um_vΣ_i{1→N}( u_i² ) / N - m_u²Σ_i{1→N}( u_iv_i ) / N + m_u³m_v] - ρ{ ( N - 1 ) / N }²

より、期待値の中を項別に計算すると

	E[Σ_i{1→N}( u_i² )Σ_i{1→N}( u_iv_i ) / N²]
=	E[Σ_i{1→N}( u_i³v_i ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( u_i²u_jv_j ) )] / N²
=	{ Σ_i{1→N}( E[u_i³v_i] ) + Σ_i{1→N}( Σ_j{j≠i,1→N}( E[u_i²]E[u_jv_j] ) ) } / N²
=	{ Σ_i{1→N}( E[u_i³v_i] ) + N( N - 1 )ρ } / N²

	E[m_um_vΣ_i{1→N}( u_i² ) / N]
=	E[{ Σ_i{1→N}( u_i ) / N }{ Σ_i{1→N}( v_i ) / N }Σ_i{1→N}( u_i² )] / N
=	E[Σ_i{1→N}( u_iv_i )Σ_i{1→N}( u_i² )] / N³
=	{ Σ_i{1→N}( E[u_i³v_i] ) + N( N - 1 )ρ } / N³

	E[m_u²Σ_i{1→N}( u_iv_i ) / N]
=	E[{ Σ_i{1→N}( u_i ) / N }²Σ_i{1→N}( u_iv_i )] / N
=	E[{ Σ_i{1→N}( u_i² ) + 2Σ_i{1→N-1}( Σ_j{i+1→N}( u_iu_j ) ) }Σ_i{1→N}( u_iv_i )] / N³
=	E[Σ_i{1→N}( u_i² )Σ_i{1→N}( u_iv_i )] / N³
=	{ Σ_i{1→N}( E[u_i³v_i] ) + N( N - 1 )ρ } / N³

	E[m_u³m_v]
=	E[{ Σ_i{1→N}( u_i / N ) }³Σ_i{1→N}( v_i / N )]
=	E[{ Σ_i{1→N}( u_i³ ) + ( 3! / 2! )Σ_i{1→N}( Σ_j{j≠i,1→N}( u_i²u_j ) ) }Σ_i{1→N}( v_i )] / N⁴
=	E[Σ_i{1→N}( u_i³v_i ) + 3Σ_i{1→N}( Σ_j{j≠i,1→N}( u_i²u_jv_j ) )] / N⁴
=	{ Σ_i{1→N}( E[u_i³v_i] ) + 3Σ_i{1→N}( Σ_j{j≠i,1→N}( E[u_i²]E[u_jv_j] ) ) } / N⁴
=	{ Σ_i{1→N}( E[u_i³v_i] ) + 3N( N - 1 )ρ } / N⁴

E[m_u³m_v] だけ補足すると、{ Σ_i{1→N}( u_i ) }³ は、i, j, k が全て相異なるとして u_i³, u_i²u_j, u_iu_ju_k の三つの項に分かれ、u_i³ と v_i の積はそれぞれの要素の添字が一致したものだけが、u_i²u_j と v_i の積は結果が u_i²u_jv_j となる項だけが残ります。u_iu_ju_k と v_i の積はどの組み合わせも一次となる変数 u_i が残るので、全て期待値がゼロになり無視することができます。

u³v の期待値は、先程行った変数変換の結果を利用すると

E[u³v]	=	E[( s + t )³( s - t )] / 4
	=	E[( s + t )²( s² - t² )] / 4
	=	E[( s² + 2st + t² )( s² - t² )] / 4
	=	E[( s⁴ + 2s³t - 2st³ - t⁴ )] / 4
	=	{ 3( 1 + ρ )² - 3( 1 - ρ )² } / 4 = 3ρ

よって、

S[v_x / σ_x², s_xy / σ_xσ_y]	=	{ 3Nρ + N( N - 1 )ρ } / N² - { 3Nρ + N( N - 1 )ρ } / N³ - { 3Nρ + N( N - 1 )ρ } / N³ + { 3Nρ + 3N( N - 1 )ρ } / N⁴ - ρ{ ( N - 1 ) / N }²
	=	2ρ( N - 1 ) / N²

となります。v_y / σ_y² と s_xy / σ_xσ_y の共分散 S[v_y / σ_y², s_xy / σ_xσ_y] も同様の値が得られることは明らかです。

S[v_x / σ_x², s_xy / σ_xσ_y] = S[v_y / σ_y², s_xy / σ_xσ_y] = 2ρ( N - 1 ) / N²

以上、三つの変数 v_x / σ_x², v_y / σ_y², s_xy / σ_xσ_y に対し、それぞれの期待値、分散、共分散を全て求めました。これらはそれぞれ ( u_i - m_u )², ( v_i - m_v )², ( u_i - m_u )( v_i - m_v ) の標本平均を表します。よって中心極限定理により、N が十分に大きければこれらは漸近的に正規分布に従います。そこで、

( u, v, w ) = ( √Nv_x / σ_x², √Nv_y / σ_y², √Ns_xy / σ_xσ_y )

と変数変換すれば、

E[u] = E[v] = √N( N - 1 ) / N = √N - 1 / √N ≅ √N

V[u] = V[v] = 2 - 2 / N ≅ 2

E[w] = √N( N - 1 )ρ / N = ρ√N - ρ / √N ≅ ρ√N

V[w] = ( 1 + ρ² )( N - 1 ) / N ≅ 1 + ρ²

S[u, v] = 2ρ²( N - 1 ) / N ≅ 2ρ²

S[u, w] = S[v, w] = 2ρ( N - 1 ) / N ≅ 2ρ

となり、平均ベクトルが μ = √N( 1, 1, ρ ) で共分散行列 V が

V =	\|	2,	2ρ²,	2ρ	\|
	\|	2ρ²,	2,	2ρ	\|
	\|	2ρ,	2ρ,	1 + ρ²	\|

の多変量正規分布に漸近的に従うことになります。

r( u, v, w ) = w / ( uv )^1/2 としたとき、

w / ( uv )^1/2	=	( √Ns_xy / σ_xσ_y ) / { ( √Nv_x / σ_x² )( √Nv_y / σ_y² ) }^1/2
	=	s_xy / ( v_xv_y )^1/2

より r( u, v, w ) は標本相関係数を表します。u, v, w で偏微分すると

∂r / ∂u = ( -1 / 2 )wu^-3/2v^-1/2

∂r / ∂v = ( -1 / 2 )wu^-1/2v^-3/2

∂r / ∂w = u^-1/2v^-1/2

なので、μ = √N( 1, 1, ρ ) における r( u, v, w ) の増加量は ( -ρ / 2√N, -ρ / 2√N, 1 / √N ) になります。μ に十分近い場所においては r( u, v, w ) が超平面に近似できるとすれば、

r( u, v, w ) ≅ -ρ( u - E[u] ) / 2√N - ρ( v - E[v] ) / 2√N + ( w - E[w] ) / √N + r(μ) = -ρu / 2√N - ρv / 2√N + w / √N + ρ

になるので、平均と分散は近似的に

E[r]	≅	E[-ρu / 2√N - ρv / 2√N + w / √N + ρ]
	=	-ρ√N / 2√N - ρ√N / 2√N + ρ√N / √N + ρ = ρ
V[r]	≅	E[ [ { -ρ( u - √N ) / 2√N - ρ( v - √N ) / 2√N + ( w - ρ√N ) / √N + ρ } - ρ ]²]
	=	E[ ρ²( u - √N )² / 4N + ρ²( v - √N )² / 4N + ( w - ρ√N )² / N + ρ²( u - √N )( v - √N ) / 2N - ρ( v - √N )( w - ρ√N ) / N - ρ( w - ρ√N )( u - √N ) / N]
	=	ρ²V[u] / 4N + ρ²V[v] / 4N + V[w] / N + ρ²S[u,v] / 2N - ρS[v,w] / N - ρS[w,u] / N
	=	{ ρ² / 2 + ρ² / 2 + ( 1 + ρ² ) + ρ⁴ - 2ρ² - 2ρ² } / N
	=	( 1 - ρ² )² / N

と求められ、r は ( u, v, w ) ≅ μ のとき正規分布 N( ρ, ( 1 - ρ² )² / N ) に近似することができます。大数の法則により、N が十分に大きければ ( u, v, w ) は μ に近似することができると考えられるので、N が十分に大きければ r は正規分布 N( ρ, ( 1 - ρ² )² / N ) に従うとすることができます。

最後に、z( r ) = ln( ( 1 + r ) / ( 1 - r ) ) / 2 として先程と同様な処理を行います。r で微分すると

dz / dr	=	{ ( 1 - r ) / ( 1 + r ) }{ 2 / ( 1 - r )² } / 2
	=	1 / ( 1 - r² )

なので、r = ρ での z の増加量は 1 / ( 1 - ρ² ) になり、r = ρ 付近では

z ≅ ( r - ρ ) / ( 1 - ρ² ) + z( ρ )

と近似することができます。平均と分散は

E[z]	≅	z( ρ ) = ln( ( 1 + ρ ) / ( 1 - ρ ) ) / 2
V[z]	≅	E[ [ { ( r - ρ ) / ( 1 - ρ² ) + z( ρ ) } - z( ρ ) ]²]
	=	E[( r - ρ )²] / ( 1 - ρ² )²
	=	V[r] / ( 1 - ρ² )² = 1 / N

となって、z は正規分布 N( z( ρ ), 1 / N ) に従うことになります。

実際には、z が N( z( ρ ), 1 / ( N - 3 ) ) に従うとした方が精度がよくなるようです。しかし、あくまでも近似式であり、特に母相関係数 ρ が ±1 に近づくほど標本相関係数 r は正規分布からかけ離れた分布を示すため、誤差はかなり大きくなっていきます。標本相関係数の正確な確率密度の式の一つとして次のようなものがあります。

f(r) = [ { 2^N-3( 1 - ρ² )^(N-1)/2( 1 - r² )^(N-4)/2 } / π( N - 3 )! ]Σ_k{0→∞}( { ( 2ρr )^k / k! }{ Γ( ( N - 1 + k ) / 2 ) }² )

この確率密度関数は無限級数を含むので値を正確に計算することはできませんが、ρ = 0 ならば

f(r) = [ 2^N-3( 1 - r² )^(N-4)/2{ Γ( ( N - 1 ) / 2 ) }² ] / π( N - 3 )!

となるので、( N - 3 )! / 2^N-3 を変形して

( N - 3 )! / 2^N-3	=	( N - 3 )( N - 4 ) ... 3・2・1 / 2^N-3
	=	{ ( N - 3 ) / 2 }{ ( N - 4 ) / 2 } ... ( 3 / 2 )・( 2 / 2 )・( 1 / 2 )
	=	[ ... ( 2k / 2 ) ... ( 2 / 2 ) ][ ... { ( 2k - 1 ) / 2 } ... ( 3 / 2 )・( 1 / 2 ) ]
	=	Γ( ( N - 1 ) / 2 )Γ( ( N - 2 ) / 2 ) / √π

を代入すれば、

f(r)	=	{ ( 1 - r² )^(N-4)/2Γ( ( N - 1 ) / 2 ) } / √πΓ( ( N - 2 ) / 2 )
	=	( 1 - r² )^(N-4)/2 / { Γ( 1 / 2 )Γ( ( N - 2 ) / 2 ) / Γ( ( N - 1 ) / 2 ) }
	=	( 1 - r² )^(N-4)/2 / Β( 1 / 2, ( N - 2 ) / 2 )

t = r( N - 2 )^1/2 / ( 1 - r² )^1/2 とすれば 1 / ( 1 - r² ) = 1 + t² / ( N - 2 ), dt = ( N - 2 )^1/2( 1 - r² )^-3/2dr となって、

f(t)	=	( 1 - r² )^(N-4)/2 / { Β( 1 / 2, ( N - 2 ) / 2 )( N - 2 )^1/2( 1 - r² )^-3/2 }
	=	( 1 + t² / ( N - 2 ) )^{(N-2)+1}/2 / { ( N - 2 )^1/2Β( 1 / 2, ( N - 2 ) / 2 ) }

と求めることができます。これは、最初に示した自由度 N - 2 の t-分布の確率密度関数そのものです。

母相関係数 ρ = 0, 0.25, 0.5, 0.75 の四つの場合に対し、標本数 N = 100 としたときの標本相関係数の分布を正規分布 N( ρ, 1 / ( N - 3 ) ) と比較したグラフを以下に示します。

正規分布との比較 ( N = 100 )
ρ = 0	ρ = 0.25

ρ = 0.5	ρ = 0.75

グラフにおいて、赤で示された曲線 (normal) が正規分布、緑で示された曲線 (accurate) が実際の分布を表しています。どの場合においても、両者は非常に近い分布を示しており、N = 100 程度であれば正規分布を使って非常によく近似できることが分かります。ところが、N = 10 として同じ条件での分布を調べると次のようになります。

正規分布との比較 ( N = 10 )
ρ = 0	ρ = 0.25

ρ = 0.5	ρ = 0.75

実際の分布は ρ が大きくなるほど偏りが大きくなり、左右対称な正規分布とは異なる分布となります。標本数が大きくなければ、正規分布による近似は精度のよい結果が得られないことになります。

次に、フィッシャーの z-変換を利用した分布との比較を行った結果を示します。

Fisherのz-変換値との比較 ( N = 100 )
ρ = 0	ρ = 0.25

ρ = 0.5	ρ = 0.75

Fisherのz-変換値との比較 ( N = 10 )
ρ = 0	ρ = 0.25

ρ = 0.5	ρ = 0.75

こちらは標本数が小さくてもある程度の精度が保たれていることが分かります。

フィッシャーの z-変換を利用した相関係数の区間推定と、先ほど示した相関係数の確率分布を計算する処理のサンプル・プログラムを以下に示します。

/*
  corrCoef_iEst : 相関係数の区間推定

  const vector<double> &x, &y : データ列
  double b : 信頼度
  double& r : 求めた標本相関係数
  pair<double,double> &interval : 求める信頼区間
  double threshold : binSearchでtを求める時のしきい値

  戻り値 : True ... 成功 , False ... 利用不可, 信頼度が不正
*/
bool corrCoef_iEst( const vector<double>& x, const vector<double>& y, double b,
                    double& r, pair<double,double>& interval, double threshold )
{
  unsigned int n = x.size();

  if ( n <= 3 ) {
    cout << "Data seems to be less than 3 ( It must be at least more than 4 )." << endl;
    return( false );
  }
  if ( n != y.size() ) {
    cout << "Data x and y must be the same size." << endl;
    return( false );
  }
  if ( b < 0 || b > 1 ) {
    cout << "Confidence value b must have the range [0,1]." << endl;
    return( false );
  }

  // 標本相関係数
  r = sampleCovariance( x, y ) / sqrt( sampleVariance( x ) * sampleVariance( y ) );
  // r の z-変換
  double z = log( ( 1 + r ) / ( 1 - r ) ) / 2;

  NormalDistribution nDist( 0, 1 / sqrt( n - 3 ) );

  double t = binSearch( nDist, b / 2.0, threshold ); // 確率分布の片側信頼区間

  interval.first = ( exp( ( z - t ) * 2 ) - 1 ) / ( exp( ( z - t ) * 2 ) + 1 );
  interval.second = ( exp( ( z + t ) * 2 ) - 1 ) / ( exp( ( z + t ) * 2 ) + 1 );

  return( true );
}

/*
  accurateSCCProb : 標本相関係数の確率密度を求める

  double x : 確率変数
  double n : 標本数
  double rho : 母相関係数

  戻り値 : 確率密度
*/
double accurateSCCProb( double x, double n, double rho )
{
  // 定数項
  double c = pow( 2, n - 3 ) * pow( 1 - pow( rho, 2 ), ( n - 1 ) / 2 )
    * pow( 1 - pow( x, 2 ), ( n - 4 ) / 2 ) / ( M_PI * tgamma( n - 2 ) );

  double a = 1;   // 無限級数での pow( 2ρr, k ) / k! の値を保持する変数
  double sum = 0; // 無限級数の計算結果
  for ( int k = 0 ; ; ++k ) {
    // k 番目の項を計算
    double d = a * pow( tgamma( ( n - 1 + (double)k ) / 2 ), 2 );
    if ( fabs( d ) < 1E-6 ) break;
    sum += d;
    // a を更新
    a *= 2 * rho * x / (double)( k + 1 );
  }

  return( c * sum );
}

/*
  sampleCorrelationCoefficientProb : 標本相関係数の確率分布を出力する

  確率変数, 正規分布による近似値, Fisherの z-変換による近似値, 正確な確率密度の順で出力

  double n : 標本数
  double rho : 母相関係数
*/
void sampleCorrelationCoefficientProb( unsigned int n, double rho )
{
  const unsigned int COUNT = 100; // 計算するデータ数

  if ( n <= 3 ) return;
  if ( rho < 0 || rho > 1 ) return;

  double mu = log( ( 1 + rho ) / ( 1 - rho ) ) / 2; // rho の z-変換値
  double sigma = sqrt( 1.0 / (double)( n - 3 ) );   // 正規分布に近似したときの標準偏差

  NormalDistribution nDist( rho, ( 1 - pow( rho, 2 ) ) * sigma ); // 正規分布
  NormalDistribution fisherDist( mu, sigma );                     // z-変換値の分布

  double min = ( rho - 3 * sigma < -1 ) ? -1 : rho - 3 * sigma; // 計算範囲の最小値
  double max = ( rho + 3 * sigma > 1 ) ? 1 : rho + 3 * sigma;   // 計算範囲の最大値
  double delta = ( max - min ) / (double)COUNT;                 // 増分

  cout << "#r Normal Fisher Accurate" << endl;
  for ( double r = min ; r < max ; r += delta ) {
    double d1 = nDist[r]; // 正規分布による近似値
    double d2 = fisherDist[log( ( 1 + r ) / ( 1 - r ) ) / 2] / ( 1 - pow( r, 2 ) ); // Fisherの z-変換による近似値
    double d3 = accurateSCCProb( r, n, rho ); // 正確な値

    cout << r << " " << d1 << " " << d2 << " " << d3 << endl;
  }
}

区間推定 (corrCoef_iEst) ではフィッシャーの z-変換を利用しています。標本相関係数 r を求め、それを母集団の相関係数として計算していますが、標本相関係数は不偏推定量ではないことに注意してください。本来ならば不偏推定量を利用した方が精度はよくなりますが、標本相関係数の不偏推定量は非常に複雑でややこしいので、ここでは標本相関係数をそのまま利用しています。なお、分散を 1 に正規化した場合、相関係数は共分散と等しくなります。標本共分散 s_xy の不偏推定量は Ns_xy / ( N - 1 ) なので、N - 1 で割った値を利用する場合もあるようです。
標本相関係数 r を z-変換した値 z(r) が、平均を母相関係数 ρ のz-変換値、分散を 1 / ( N - 3 ) とする正規分布 N( z(ρ), 1 / ( N - 3 ) ) に従うので、z - z(ρ) は正規分布 N( 0, 1 / ( N - 3 ) ) に従います。よって、z - z(ρ) の信頼区間 ( -t, t ) を求めれば、z(ρ) ± t が z の信頼区間として得られます。z-変換の逆変換は

r = ( e^2z - 1 ) / ( e^2z + 1 )

なので、r の信頼区間 [ t_a, t_b ] は

t_a = ( e^{2( z(ρ) - t )} - 1 ) / ( e^{2( z(ρ) - t )} + 1 )

t_b = ( e^{2( z(ρ) + t )} - 1 ) / ( e^{2( z(ρ) + t )} + 1 )

で求めることができます。

相関係数の確率密度を求める関数 (accurateSCCProb) では無限級数の計算が必要になるので、プログラムでは k 番目の項があるしきい値以下になった段階で処理をストップすることで対応しています。計算式は複雑ですが、無限級数の扱いだけ注意すればそれほど難しいところはありません。なお、階乗 k! やガンマ関数の計算には、標準ライブラリ関数の tgamma を使っています。先頭の "t" は "true" を表し、これがガンマ関数を求めるための"真の"関数であることを示しています。この関数が用意される前から gamma という関数があり、こちらはガンマ関数の自然対数を返す関数なので、それと区別するための苦肉の策のようです。なお、

N! = Γ( N + 1 )

なので、例えば ( n - 3 )! を計算するためには tgamma( n - 2 ) としなければならないことに注意が必要です。

今回は、特に相関係数の部分で苦戦しました。まだ、いくつかやり残した部分もありますが、ある程度の区切りができたのでいったん公開したいと思います。相関係数をテーマとする論文や読み物は多岐に渡り、かなり奥が深い上に内容も難しいので、さらに理解ができた段階で別途更新していきたいと思います。

補足1) 回帰係数と t-分布

x が標準正規分布 N( 0, 1 ) に従い、y が自由度 N の χ²-分布 T_N(y) に従うとき、x と y が独立ならば、t = x / ( y / N )^1/2 は自由度 N の t-分布に従うのでした(「(6) 標本分布」の「3) t-分布(t-Distribution)」参照)。( a^ - a ) / ( σ² / Nv_x )^1/2 と ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2 は標準正規分布に従うので、( N - 2 )v_ε / σ² = Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² ) / σ² が自由度 N - 2 の χ²-分布 T_N-2(y) に従うならば、

t_a = ( a^ - a ) / ( σ² / Nv_x )^1/2( √v_ε / σ ) = ( a^ - a ) / ( v_ε / Nv_x )^1/2

t_b = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2( √v_ε / σ ) = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )v_ε }^1/2

は自由度 N - 2 の t-分布に従うことになります。これを証明しましょう。( N - 2 )v_ε / σ² は

( N - 2 )v_ε / σ² = Σ_j{1→N}( [ { y_j - ( a^x_j + b^ ) } / σ ]² )

と表され、z_j = { y_j - ( a^x_j + b^ ) } / σ とすると、z_j は平均

E[z_j] = E[{ y_j - ( a^x_j + b^ ) } / σ] = { ( ax_j + b ) - ( ax_j + b ) } / σ = 0

で、分散が

V[z_j]	=	V[{ y_j - ( a^x_j + b^ ) } / σ]
	=	E[{ ( a - a^ )x_j + ( b - b^ ) + ε_j }²] / σ²
	=	{ E[( a - a^ )²]x_j² + E[( b - b^ )²] + E[ε_j²] +
		2E[( a - a^ )( b - b^ )]x_j + 2E[( a - a^ )ε_j]x_j + 2E[( b - b^ )ε_j] } / σ²
	=	[ v_ax_j² + v_b + σ² - 2m_xσ²x_j / Nv_x - 2x_j{ ( x_j - m_x ) / Nv_x }σ² - 2[ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]σ² ] / σ²
	=	[ σ²x_j² / Nv_x + ( 1 / N + m_x² / Nv_x )σ² + σ² - 2m_xσ²x_j / Nv_x - 2x_j{ ( x_j - m_x ) / Nv_x }σ² - 2[ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]σ² ] / σ²
	=	-x_j² / Nvx + 2m_xx_j / Nv_x - m_x² / Nv_x + 1 - 1 / N
	=	-( x_j - m_x )² / Nv_x + 1 - 1 / N

の正規分布に従います。また、z_i と z_j の共分散は

E[z_iz_j]	=	E[{ y_i - ( a^x_i + b^ ) }{ y_j - ( a^x_j + b^ ) } / σ²]
	=	E[{ ( a - a^ )x_i + ( b - b^ ) + ε_i }{ ( a - a^ )x_j + ( b - b^ ) + ε_j }] / σ²
	=	{ E[( a - a^ )²]x_ix_j + E[( b - b^ )²] + E[ε_iε_j] +
		E[( a - a^ )( b - b^ )]( x_i + x_j ) + E[( a - a^ )ε_j]x_i + E[( a - a^ )ε_i]x_j + E[( b - b^ )( ε_i + ε_j )] } / σ²
	=	[ v_ax_ix_j + v_b - m_xσ²( x_i + x_j ) / Nv_x - x_i{ ( x_j - m_x ) / Nv_x }σ² - x_j{ ( x_i - m_x ) / Nv_x }σ² - [ 1 / N - { m_x( x_i - m_x ) / Nv_x } ]σ² - [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]σ² ] / σ²
	=	-x_ix_j / Nv_x - 1 / N - m_x² / Nv_x + m_xx_i / Nv_x + m_xx_j / Nv_x
	=	-( x_i - m_x )( x_j - m_x ) / Nv_x - 1 / N

になります。そこで、r 行 c 列めの要素 a_rc を

a_rc = -( x_r - m_x )( x_c - m_x ) / Nv_x + δ_rc - 1 / N

とする行列 A を定義します。但し、δ_rc は「クロネッカーのデルタ」で r ≠ c のとき 0、r = c のとき 1 になります。すると、z = ( z₁, z₂, ... z_N ) は平均ベクトルが 0 で共分散行列が A である多変量正規分布に従うことになります。これを以下 N( 0, A ) で表します。A は共分散行列であり、a_rc = a_cr となることも明らかなので対称行列になります。

A² の r 行 c 列の要素を a2_rc と表し、この値を求めると、

a2_rc	=	Σ_i{1→N}( { -( x_r - m_x )( x_i - m_x ) / Nv_x + δ_ri - 1 / N }{ -( x_i - m_x )( x_c - m_x ) / Nv_x + δ_ic - 1 / N } )
	=	Σ_i{1→N}( ( x_r - m_x )( x_c - m_x )( x_i - m_x )² / N²v_x² + ( x_r - m_x )( x_i - m_x ) / N²v_x + ( x_i - m_x )( x_c - m_x ) / N²v_x + 1 / N²
		- δ_ri{ ( x_i - m_x )( x_c - m_x ) / Nv_x + 1 / N } - δ_ic{ ( x_r - m_x )( x_i - m_x ) / Nv_x + 1 / N } + δ_riδ_ic )
	=	( x_r - m_x )( x_c - m_x ) / Nv_x + 1 / N
		- { ( x_r - m_x )( x_c - m_x ) / Nv_x + 1 / N } - { ( x_r - m_x )( x_c - m_x ) / Nv_x + 1 / N } + δ_rc
	=	-( x_i - m_x )( x_j - m_x ) / Nv_x + δ_rc - 1 / N = a_rc

となるので、A² = A、つまり A は「べき等行列(Idempotent Matrix)」ということになります。A は対称行列なので、Aの固有ベクトルからなる直交行列を Q、固有値を対角成分とする行列を D としたとき、

A = QDQ^T

と表すことができます(「固有値分解 - (2) カルーネン・レーベ展開」の「1) 対称行列と二次形式」参照)。A² は

A² = QDQ^TQDQ^T = QD²Q^T

と求められるので(ここで Q^TQ = E(単位行列) であることを利用しています)、A² = A から D² = D であることになり、各対角成分 d_ii ( i = 1, 2, ... N ) に対して d_ii² = d_ii となるので、対角成分すなわち固有値は 0 か 1 のどちらかであることになります。z' = Q^Tz とすれば、

( z, Az ) = ( z, QDQ^Tz ) = ( Q^Tz, DQ^Tz ) = ( z', Dz' )

と求められるので(ここで、( x, Ax ) = ( A^Tx, x ) であることを利用しています)、D の対角成分が 1 の個数を r としたとき、z' 内の互いに独立な r 個の要素が標準正規分布に従うことが分かります。また、直交変換によって残り N - r 個の変数は消失します。これは、Az を N 個の線形方程式と見たときに r 個だけが独立で、残り N - r 個は線形従属であることを表しています。直交変換を行ってもノルムは変化しないので、||z|| = ||z'|| が成り立ちます。従って、||z||² は標準正規分布に従う r 個の独立な確率変数の二乗和であり、この値は自由度 r の χ²-分布に従います(「(6) 標本分布」の「1) カイ二乗分布(Chi-square Distribution)」参照)。

r は行列 A の「階数(rank)」であり、行列の列ベクトル(または行ベクトル)の中で線形独立なものの個数を表します。行列 A の階数が一意に決まるのか、また、一意に決まったとしてその値を求められるのかについては、A がべき等行列であることから次の定理を利用することができます。

べき等行列の階数は対角成分の和に等しい(補足2)

A の対角成分の和を求めると

Σ_i{1→N}( a_ii )	=	Σ_i{1→N}( -( x_i - m_x )² / Nv_x + δ_ii - 1 / N )
	=	-1 + N - 1 = N - 2

よって、階数は常に N - 2 になり、||z||² すなわち ( N - 2 )v_ε / σ² は自由度 N - 2 の χ²-分布に従うことが証明されました。

t_a, t_b が自由度 N - 2 の t-分布に従うことを示すためにはもうひとつ、x にあたる ( a^ - a ) / ( σ² / Nv_x )^1/2, ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2 と、y にあたる ( N - 2 )v_ε / σ² = Σ_j{1→N}( { y_j - ( a^x_j + b^ ) }² ) / σ² が互いに独立であることを証明しなければなりません。二つの確率変数 x, y が互いに独立ならば、

E[xy] = E[x]E[y]

すなわち共分散はゼロで x, y は相関がないことが成り立ちますが、逆は必ずしも成り立つわけではありません。しかし、確率変数が多変量正規分布に従う場合は逆も成り立ちます。二変量に限定して証明してみると、一般的な二変量正規分布は

p( x, y ) = { 1 / 2πσ_xσ_y( 1 - ρ² )^1/2 }exp( { -1 / 2( 1 - ρ² ) }{ ( x - μ_x )² / σ_x² - ( 2ρ / σ_xσ_y )( x - μ_x )( y - μ_y ) + ( y - μ_y )² / σ_y² } )

で表されます。但し、μ_x, μ_y は x, y の平均、σ_x, σ_y は x, y の標準偏差、そして ρ は x, y の相関係数をそれぞれ表しています。確率変数 x = ( x₁, x₂, ... x_N ) に対し、平均ベクトル μ = ( μ₁, μ₂, ... μ_N )、共分散行列を V とする多変量正規分布は

p( x ) = { 1 / ( 2π )^N/2|V|^1/2 } exp( -( x - μ, V^-1( x - μ ) ) / 2 )

で表されるので、

V =	\|	σ_x²,	σ_xσ_yρ²	\|
	\|	σ_xσ_yρ²,	σ_y²	\|

より二変量での具体的な式が得られます。ここで x, y の間に相関がなければ ρ = 0 なので、

p( x, y )	=	{ 1 / 2πσ_xσ_y }exp( ( -1 / 2 ){ ( x - μ_x )² / σ_x² + ( y - μ_y )² / σ_y² } )
	=	{ 1 / ( 2π )^1/2σ_x }exp( -( x - μ_x )² / 2σ_x² ){ 1 / ( 2π )^1/2σ_y }exp( -( y - μ_y )² / 2σ_y² )

と表されます。これは、二変量正規分布が一変量の正規分布の積で表されることを意味するので、x と y は互いに独立であることになります。変数の数を 3 以上にしても、相関係数が全てゼロになることから共分散行列が対角行列になり、結局一変量正規分布の積で表されることを示すことで証明ができます。

まず、x_a = ( a^ - a ) / ( σ² / Nv_x )^1/2 と z_j = { y_j - ( a^x_j + b^ ) } / σ に対して、E[x_az_j] を求めてみます。x_a, z_j はどちらも平均ゼロの正規分布に従う確率変数です。

E[x_az_j]	=	E[{ ( a^ - a ) / ( σ² / Nv_x )^1/2 }[ { y_j - ( a^x_j + b^ ) } / σ ]]
	=	E[( a^ - a ){ y_j - ( a^x_j + b^ ) }] / { σ² / ( Nv_x )^1/2 }
	=	E[( a^ - a ){ ( a - a^ )x_j + ( b - b^ ) + ε_j }] / { σ² / ( Nv_x )^1/2 }
	=	{ -E[( a^ - a )²]x_j - E[( a^ - a )( b^ - b )] + E[( a^ - a )ε_j] } / { σ² / ( Nv_x )^1/2 }
	=	[ -v_ax_j + m_xσ² / Nv_x + { ( x_j - m_x ) / Nv_x }σ² ] / { σ² / ( Nv_x )^1/2 }
	=	( -σ²x_j / Nv_x + m_xσ² / Nv_x + σ²x_j / Nv_x - m_xσ² / Nv_x ) / { σ² / ( Nv_x )^1/2 }
	=	0 = E[x_a]E[z_j]

となるので、(x_a と z_j が正規分布に従うことから) x_a と z_j は互いに独立です。確率変数 x, y が互いに独立であるとは同時分布 p( x, y ) が p(x) と p(y) の積で表されることだったので、p(z_j) に対して u_j = z_j² と変数変換をしても独立性は保たれます。さらに y = Σ_j{1→N}( u_j ) と変数変換しても、全ての j に対して x_a と u_j は互いに独立なので、やはり x_a , yの独立性は保たれます。

次に、x_b = ( b^ - b ) / { ( 1 / N + m_x² / Nv_x )σ² }^1/2 と z_j = { y_j - ( a^x_j + b^ ) } / σ に対して、E[x_bz_j] を求めてみます。x_b はやはり平均ゼロの正規分布に従う確率変数です。式が見やすくなるように、以下、x_b = ( b^ - b ) / ( Aσ² / N )^1/2 で表します ( A = 1 + m_x² / v_x になります )。

E[x_bz_j]	=	E[{ ( b^ - b ) / ( Aσ² / N )^1/2 }[ { y_j - ( a^x_j + b^ ) } / σ ]]
	=	E[( b^ - b ){ y_j - ( a^x_j + b^ ) }] / { σ²( A / N )^1/2 }
	=	E[( b^ - b ){ ( a - a^ )x_j + ( b - b^ ) + ε_j }] / { σ²( A / N )^1/2 }
	=	{ -E[( a^ - a )( b^ - b )]x_j - E[( b^ - b )²] + E[( b^ - b )ε_j] } / { σ²( A / N )^1/2 }
	=	[ m_xσ²x_j / Nv_x - v_b + [ 1 / N - { m_x( x_j - m_x ) / Nv_x } ]σ² ] / { σ²( A / N )^1/2 }
	=	[ m_xx_j / v_x - ( 1 + m_x² / v_x ) + { 1 - ( m_xx_j - m_x² ) / v_x } ] / ( AN )^1/2
	=	0 = E[x_b]E[z_j]

よって、同様な考えによって x_b と y も互いに独立であることが示され、これで t_a, t_b が自由度 N - 2 の t-分布に従うことが証明されました。

補足2) べき等行列の階数

任意の M x Q 行列 A に対し、その列ベクトルを a₁, a₂, ... a_Q とします。任意の M x P 行列 B に対して、

a_c = Bf_c ( c = 1, 2, ... Q )

を満たす P 次元の列ベクトル f_c が存在するとき、B の r 行 c 列めの要素を b_rc、a_c の r 番めの要素を a_rc、f_c の r 番目の要素を f_rc で表せば

a_1c

b₁₁,

b₁₂,

...

b_1P

f_1c

a_2c

b₂₁,

b₂₂,

...

b_2P

f_2c

...

a_Mc

b_M1,

b_M2,

...

b_MP

f_Pc

=	\|	b₁₁f_1c + b₁₂f_2c + ... + b_1Pf_Pc	\|
	\|	b₂₁f_1c + b₂₂f_2c + ... + b_2Pf_Pc	\|
	\|	:	\|
	\|	b_M1f_1c + b_M2f_2c + ... + b_MPf_Pc	\|

f_1c

b₁₁

+ f_2c

b₁₂

+ ... + f_Pc

b_1P

b₂₁

b₂₂

b_2P

b_M1

b_M2

b_MP

= f_1cb₁ + f_2cb₂ + ... + f_Pcb_P

と表すことができます。但し、b₁, b₂, ... b_P は行列 B の列ベクトルを表します。これは、a_c が B の列ベクトルの線形結合で表せることを示しています。全ての a_c に対して f_c が存在すれば、F = ( f₁, f₂, ... f_Q ) となる行列が存在することになるので、A = BF となる行列 F が存在するならば、A の全ての列ベクトルが B の列ベクトルの線形結合で表されることになります。逆に、A の全ての列ベクトルが B の列ベクトルの線形結合で表されるならば、A = BF となる行列 F が存在することも、上記の内容を逆にたどることで示すことができます。

これらは、行ベクトルに対しても同様のことを示すことができます。すなわち、任意の Q x M 行列 A の行ベクトルを a'₁, a'₂, ... a'_Q とし、任意の P x M 行列 B に対して、

a'_r = g'_rB ( r = 1, 2, ... Q )

を満たす P 次元の行ベクトル g'_r が存在するとき、A = GB を満たす行列 G = ( g'₁, g'₂, ... g'_Q )^T が存在することになり、A の全ての行ベクトルが B の行ベクトルの線形結合で表されることが必要十分条件となります。

A の列ベクトルから、線形従属なものを除き、線形独立なベクトルだけを残した行列 B を新たにつくります。このとき、A の全ての列ベクトルが B の列ベクトルの線形結合で表されるので、A = BF となる行列 F が存在します。A の線形独立な列ベクトルの数を C とすれば、B の列数と F の行数は C になります。同様に、A の行ベクトルから線形独立なベクトルだけを残した行列 C を新たにつくったとき、A の全ての行ベクトルが C の行ベクトルの線形結合で表されるので、A = GC となる行列 G が存在します。A の線形独立な行ベクトルの数を R とすれば、G の列数と C の行数は R になります。

行列 F の行数は C なので、線形独立な行ベクトルの数は C 以下になります。また、A = BF ならば、A の全ての行ベクトルが F の行ベクトルの線形結合で表されるので、F の線形独立な行ベクトルの数は A のそれ以上になります。従って、行列 F の線形独立な行ベクトルの数を f とすれば、

R ≤ f ≤ C

が成り立ちます。同様に、行列 G の列数は R なので、線形独立な列ベクトルの数は R 以下になります。また、A = GC ならば、A の全ての列ベクトルが G の列ベクトルの線形結合で表されるので、G の線形独立な列ベクトルの数は A のそれ以上になります。従って、行列 G の線形独立な列ベクトルの数を g とすれば、

C ≤ g ≤ R

が成り立ちます。両者が成り立つためには C = R でなければなりません。これは、任意の行列の列ベクトルと行ベクトルに対し、その中の線形独立なものの数は等しいということを意味します。この数のことを「階数(Rank)」といい、行列 A の階数を一般的に rank(A) で表します。rank(A) は、A の中の線形独立な列(または行)ベクトルの数なので、A が M 行 N 列であるとき、先ほど示したように、 A = BC となる M x rank(A) の行列 B と、rank(A) x N の行列 C が必ず存在します。B と C の階数は、行数と列数を超える値には決してならないので、どちらも rank(A) 以下になります。ところが、A の全ての列ベクトルは B の列ベクトルの線形結合で、また A の全ての行ベクトルは C の行ベクトルの線形結合で表されるので、rank(A) は rank(B), rank(C) より大きくなることはなく、従って B と C の階数は rank(A) 以上になります。この両方を満たすためには、

rank(B) = rank(C) = rank(A)

となる必要があります。よって、次の定理が成り立ちます。

M x N の行列 A に対し、A = BC を満たす M x rank(A) の行列 B と rank(A) x N の行列 C が存在し、B, C の階数は A の階数に等しい。

逆行列は、行列式がゼロではない(非特異な)正方行列に対してのみ存在します。しかし、正方行列ではない場合も制限付きで逆行列を定義することができます。任意の M x N 行列 A に対し、

AR = E_M

となる N x M 行列 R を「右逆行列(Right Inverse)」といいます。但し、E_M は M x M 単位行列を表します。同様に、

LA = E_N

を満たす N x M 行列 L を「左逆行列(Left Inverse)」といいます。

rank( E_M ) = M なので、rank(A) = M の場合のみ R が存在し、その階数も M になります。また、同様に L に対しても、rank(A) = N の場合のみ存在し、その階数は N になります。行列 A が正方行列ならば(つまり M = N ならば)、全ての列(または行)ベクトルが線形独立の場合のみ右逆行列と左逆行列の両方が存在することになります。このとき、

AR = LA = E_N

なので、

LAR = L(AR) = LE_N = L

LAR = (LA)R = E_NR = R

となり、L = R であることが示されます。

正方行列の対角成分の和のことを「トレース(Trace)」といい、正方行列 A に対するトレースは一般的に tr(A) で表されます。以下の公式は、容易に導くことができます。

任意のスカラー k に対して tr( kA ) = k・tr( A )
tr( A + B ) = tr( A ) + tr( B )
一般的に tr( Σ_i{1→N}( k_iA_i ) ) = Σ_i{1→N}( k_i・tr( A_i ) )
tr( A^T ) = tr( A )

M x N 行列 A と N x M 行列 B の積 AB は、M x M の正方行列になります。A, B の r 行 c 列めの要素をそれぞれ a_rc, b_rc としたとき、行列 AB のトレースは、行列 AB の i 番目の対角成分が Σ_j{1→N}( a_ijb_ji ) になることから

tr( AB ) = Σ_i{1→M}( Σ_j{1→N}( a_ijb_ji ) )

になります。積を計算する順番を逆転して、N x N 正方行列 BA を計算したとき、そのトレースは

tr( BA ) = Σ_i{1→N}( Σ_j{1→M}( b_ija_ji ) )

になります。tr( BA ) の和の部分を分解・再構成すると

tr( BA )	=	Σ_i{1→N}( b_i1a_1i + b_i2a_2i + ... b_iMa_Mi )
	=	( b₁₁a₁₁ + b₁₂a₂₁ + ... b_1Ma_M1 ) + ( b₂₁a₁₂ + b₂₂a₂₂ + ... b_2Ma_M2 ) + ... + ( b_N1a_1N + b_N2a_2N + ... b_NMa_MN )
	=	( a₁₁b₁₁ + a₂₁b₁₂ + ... a_M1b_1M ) + ( a₁₂b₂₁ + a₂₂b₂₂ + ... a_M2b_2M ) + ... + ( a_1Nb_N1 + a_2Nb_N2 + ... a_MNb_NM )
	=	( a₁₁b₁₁ + a₁₂b₂₁ + ... a_1Nb_N1 ) + ( a₂₁b₁₂ + a₂₂b₂₂ + ... + a_2Nb_N2 ) + ... + ( a_M1b_1M + a_M2b_2M + ... + a_MNb_NM )
	=	Σ_i{1→M}( a_i1b_1i + a_i2b_2i + ... a_iNb_Ni )
	=	Σ_i{1→M}( Σ_j{1→N}( a_ijb_ji ) ) = tr( AB )

となって、両者の値は等しくなり、積の順番を交換してもトレースは変化しないことが証明できます。

以上の結果を利用して、以下の定理を証明します。

k ≠ 0 であるスカラーに対し、

A² = kA

を満たす正方行列 A について、

tr( A ) = k・rank( A )

が成り立つ

A² = kA という式を変形すると { (1/k)A }² = (1/k)A となるので、(1/k)A はべき等行列であると仮定していることになります。このとき、A の階数がトレースから得られるということを上記定理は表しています。階数の計算は一般的に面倒で、通常は連立方程式を解くアルゴリズムを利用することになりますが、トレースの計算は非常に簡単にできるので、べき等行列に対しては階数が非常に求めやすいということになります。

A は当然正方行列なので、その行列数を N とします。また、A の階数を rank( A ) = r で表します。このとき、A = BC を満たす N x r の行列 B と r x N の行列 C が存在し、B, C の階数はどちらも r になります。このとき、

A² = BCBC

kA = kBC = B(kE_r)C ( E_r : r x r 単位行列 )

と計算できて、両式の左辺は等しいので BCBC = B(kE_r)C になります。B は N 行 r 列で階数が r なので左逆行列を持ちます。同様に、C は右逆行列を持つので、それぞれを左右から掛けることで CB = kE_r という結果が得られます。従って、