【文献】
安川武彦,サンプル・セレクション・モデルによる社債格付けの比較,現代ファイナンス,日本,日本ファイナンス学会,2001年 9月30日,第10号,pp.63-83
(58)【調査した分野】(Int.Cl.,DB名)
前記推定部が、前記符号条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするものである、請求項1又は2に記載の装置。
前記複数の係数のうちの少なくとも一つの係数に関して、該係数が取りうる値の上限値及び下限値の少なくとも一方を定めた所定の制約条件を取得する制約条件取得部をさらに備え、
前記推定部が、前記符号条件及び前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出するものである、請求項1又は2に記載の装置。
前記推定部が、前記符号条件及び前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするものである、請求項4に記載の装置。
前記推定ステップが、前記符号条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項7又は8に記載の方法。
前記符号条件取得ステップと前記推定ステップとの間に、前記複数の係数のうちの少なくとも一つの係数に関して、該係数が取りうる値の上限値及び下限値の少なくとも一方を定めた所定の制約条件を取得する制約条件取得ステップをさらに含み、
前記推定ステップが、前記符号条件及び前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出するステップである、請求項7又は8に記載の方法。
前記推定ステップが、前記符号条件及び前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項10に記載の方法。
前記推定ステップが、前記符号条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項13又は14に記載のプログラム。
前記符号条件取得ステップと前記推定ステップとの間に、前記複数の係数のうちの少なくとも一つの係数に関して、該係数が取りうる値の上限値及び下限値の少なくとも一方を定めた所定の制約条件を取得する制約条件取得ステップをさらに含み、
前記推定ステップが、前記符号条件及び前記制約条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出するステップである、請求項13又は14に記載のプログラム。
前記推定ステップが、前記符号条件及び前記制約条件の下で、前記変数選択用モデルの尤度関数が最大となるときの前記複数の係数の値及び前記定数項の値を前記推定値とするステップである、請求項16に記載のプログラム。
【背景技術】
【0002】
自然現象、社会現象といった様々な現象の解明及び予測を行うために統計モデルが用いられる。例えば、以下のような統計モデルがある。
【数1】
【0003】
ただし、x
1、x
2、・・・は、説明変数と呼ばれる変数である。β
1、β
2、・・・は、説明変数x
1、x
2、・・・にそれぞれ対応する係数であり、αは定数項である。式(1)において、説明変数と係数との線形結合と定数項αとの和により表されるZは、線形予測子と呼ばれる。Yは応答変数と呼ばれる変数である。式(2)に示したように、応答変数Yの期待値E[Y]と線形予測子Zとの関係は、関数Fにより表される。なお、関数Fは必ずしも単純な式で表されるとは限らず、複数の関数の合成関数として表される場合や、解析的な式では表せず、数値的に値を算出する必要がある関数となる場合もある。
【0004】
例えば、体重を応答変数とし、身長、ウエストなどを説明変数とすることができる。
【0005】
このような統計モデルの例として、一般化線形モデル(generalized linear model)が挙げられる。さらに、一般化線形モデルの例として、線形回帰モデル、二項ロジットモデル、順序ロジットモデルが挙げられる。
【0006】
このような統計モデルにおいては、どのような指標を説明変数として選択すべきかが問題となる。この問題は、変数選択の問題として知られている。変数選択は、統計モデルの精度及び使いやすさに大きな影響を与える。
【0007】
説明変数の選択方法として、総当たり法と呼ばれる方法がある。この方法では、説明変数の候補である説明変数候補の、考えられる全ての組合せが試された上で、最適な組合せが見いだされる。説明変数候補がp個ある場合、考えられる全ての組合せは2
p−1通りある。この方法によれば、考えられる全ての組合せを試してみるため、真に最適な変数の組合せが得られる。しかし、計算負荷が非常に大きく、候補数pが大きい場合には組合せの数が爆発的に増加し、事実上実行不可能となる。
【0008】
また、ステップワイズ法と呼ばれる変数選択方法がある。この方法では、回帰分析で用いられるF値等の指標に基づいて説明変数が逐次的にモデルに追加又は削除され、より説明力の高い変数の組合せが探索される。この方法によれば、計算負荷が比較的小さく、候補数が多い場合でも実行できる。その一方で、必ずしも最適な説明変数の組合せが得られるとは限らない。
【0009】
その他、非特許文献1には、ラッソ回帰(Lasso regression)と呼ばれる変数選択法が記載されている。非特許文献2には、エラスティック・ネット(elastic-net)と呼ばれる変数選択法が記載されている。これらはいずれも、係数の値に応じて決まるペナルティ項を尤度関数に加えた関数を考え、当該関数を最大とする時に非ゼロの値を取る係数に対応する変数を説明変数として選択する、という方法である。これらの方法では、ペナルティの大きさを決めるハイパーパラメータと呼ばれる変数の値によって選択される説明変数が変わってくるが、当該変数の値の決め方には任意性がある。また、選択された説明変数の組み合わせは、一般には尤度関数そのものを最大化するものではない。
【発明を実施するための形態】
【0016】
先に述べたように、説明変数の選択において、説明変数の候補数が増えると、変数の組合せの数が爆発的に増加してしまうという問題がある。その他にも、考慮すべき問題について、本発明の発明者は鋭意検討を行った。
【0017】
説明変数の選択においては、選択される説明変数に対応する係数の符号も考慮する必要がある。例えば、「体重の期待値=α+β
1×身長+β
2×ウエスト」という統計モデルを考える。一般に、身長が大きければ体重も重くなると考えられるため、身長が説明変数として選択される場合には、係数β
1は正の数となることが期待される。同様に、ウエストが大きければ体重も重くなると考えられるため、ウエストが説明変数として選択される場合には、係数β
2は正の数となることが期待される。仮にβ
2が負値である場合、「身長が同じであればウエストが大きい方が体重が軽い」という結果をもたらすこととなるため、こうしたモデルは非常に使いづらいものとなってしまう。
【0018】
前段落で例示したような、「統計モデルにおける各係数が、単独の説明変数と応答変数の関係から想定される符号と同じ符号になるべき」という条件のことを、符号条件とよぶ。統計モデルにおける係数の推定値には、説明変数間の相関等の影響が反映されるため、複数の説明変数を持つ統計モデルでは、符号条件が満たされるとは限らない。また、一般に説明変数の数が増えるに従って、符号条件を満たす統計モデルを得ることは難しくなる。
【0019】
なお、身長及びウエストはそれぞれ、式(1)における説明変数x
1及びx
2であり、体重は式(2)における応答変数Yである。そして、式(2)における関数Fは恒等関数である。すなわち、F(E[Y])=E[Y]=Zである。
【0020】
また、選択される説明変数に対して様々な要請が課せられる場合がある。例えば、「特定の説明変数候補を説明変数として必ず選択したい」、「特定の説明変数の説明力が大きくなり過ぎないようにしたい」といったものである。変数選択には、このような要請を満たすようことができるよう柔軟性が求められる。
【0021】
以上のような検討結果を踏まえて、以下に本発明の実施形態を説明する。ただし、本発明は、以下に説明する実施の形態によって限定されるものではない。
【0022】
[第1の実施形態]
本実施形態では、企業又は個人のデフォルトすなわち債務不履行のしやすさを評価する統計モデルを扱う。デフォルトしにくいと評価されれば、当該企業又は個人は信用力が高いといえる。このような統計モデルを信用評価モデルと呼ぶ。
【0023】
企業を対象とした信用評価モデルにおいては、貸借対照表、損益計算書から計算される財務指標を説明変数として用いることが多い。この場合の財務指標の例としては、自己資本比率、債務償還年数、経常収支比率、売上債権回転日数などが挙げられる。
【0024】
また、個人を対象とした信用評価モデルでは、個人の属性に関する指標を説明変数として用いることが多い。このような情報の例として、個人の年齢、世帯人数、年収、勤続年数などが挙げられる。
【0025】
いずれにしても、融資の諾否の判断や貸出金利の決定にあたっては、貸出先の信用力を精確に把握する必要があるため、信用評価モデルの精度向上は非常に重要である。
【0026】
信用評価モデルは以下のように表すことができる。
【数2】
【0027】
ただし、x
k(k=1,2,・・・)は説明変数である。β
kは、説明変数x
kに対応する係数であり、αは定数項である。Zは線形予測子である。また、応答変数
【数3】
は、デフォルトフラグである。デフォルトフラグとは、決算後1年以内にデフォルトしていれば1、デフォルトしていなければ0をとる変数である。さらに、
【数4】
は、デフォルトフラグが1となる確率である。
【0028】
図1は、信用評価モデルにおける説明変数の選択を行う変数選択装置1の機能構成例を示している。変数選択装置1は、レコード取得部10と符号条件取得部20と推定部30と選択部40とを備えている。各機能部の詳細は後述する。
【0029】
図2は、変数選択装置1のコンピュータハードウェア構成例を示している。変数選択装置1は、CPU51と、インタフェース装置52と、表示装置53と、入力装置54と、ドライブ装置55と、補助記憶装置56と、メモリ装置57とを備えており、これらがバス58により相互に接続されている。
【0030】
変数選択装置1の機能を実現するプログラムは、CD−ROM等の記録媒体59によって提供される。プログラムを記録した記録媒体59がドライブ装置55にセットされると、プログラムが記録媒体59からドライブ装置55を介して補助記憶装置56にインストールされる。あるいは、プログラムのインストールは必ずしも記録媒体59により行う必要はなく、ネットワークを介して他のコンピュータからダウンロードすることもできる。補助記憶装置56は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0031】
メモリ装置57は、プログラムの起動指示があった場合に、補助記憶装置56からプログラムを読み出して格納する。CPU51は、メモリ装置57に格納されたプログラムにしたがって変数選択装置1の機能を実現する。インタフェース装置52は、ネットワークを通して他のコンピュータに接続するためのインタフェースとして用いられる。表示装置53はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置54はキーボード及びマウス等である。
【0032】
表1は、企業を対象とした信用評価モデルにおいて変数選択を行う際に用いる複数のレコードを示している。このレコードは、補助記憶装置56に記憶されている。レコードのことをデータとも呼ぶ。
【表1】
【0033】
この表においては、各レコードが一つの企業に関する情報を表している。また、「デフォルトフラグ」とは、先に述べたように、決算後1年以内にデフォルトしていれば1、デフォルトしていなければ0をとる変数である。このデフォルトフラグが、信用評価モデルにおける応答変数である。
【0034】
同じく表1における「財務指標」は、各企業の貸借対照表、損益計算書等といった決算情報から算出される。例えば、「売上高・対数」は、決算情報から算出される売上高を対数変換した情報である。「自己資本比率」、「債務償還年数」、「流動比率」、「売上高金利負担率」は、それぞれ、決算情報から算出されるものである。これらの指標が、信用評価モデルにおける説明変数として選択され得る説明変数候補である。なお、「k」は、説明変数候補の番号である。
【0035】
例えば、企業IDが「1」である「企業A」の「自己資本比率」の値は「46.82%」である。この値を、「自己資本比率」という説明変数候補の実現値と呼ぶ。そして、「デフォルトフラグ」という応答変数の実現値は「0」である。このように、表1は、複数のレコードを有し、各レコードは、複数の説明変数候補の実現値と応答変数の実現値とを含んでいる。
【0036】
もちろん、説明変数候補の個数に制限はなく、複数あればよい。企業の信用評価においては、企業の財務状況を多面的に評価するため、多くの説明変数候補(財務指標)の中から説明力の高い組合せを選択する。一般に、数十個から百個超の説明変数候補を用意する。さらに、表1における「売上高・対数」のように、財務指標に対して対数変換、離散化といった何らかの変換を行ったものを説明変数候補として用いてもよい。
【0037】
そして、変数選択装置1が変数選択を行うために用いる変数選択用モデルを以下のように定める。
【数5】
【0038】
ただし、X
k(k=1,2,・・・)は説明変数候補である。αは定数項であり、β
kは、説明変数候補X
kの係数である。Zは線形予測子である。PDは、応答変数すなわちデフォルトフラグが「1」となる確率である。PDをデフォルト率とも呼ぶ。
【0039】
このように、変数選択用モデルは、線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される統計モデルである。
【0040】
なお、式(6)においては、線形予測子Zの符号が正となっている。これは、「Zが大きいほど信用力が高い」という関係が成り立つようにするためである。もちろん、関数Fがロジスティック分布の分布関数となるように、式(6)における「Z」を「−Z」とすることもできる。
【0041】
次に、変数選択用モデルによるデフォルト率の推定値と説明変数候補の実現値との関係を以下のように定める。
【数6】
【0042】
ただし、iは表1の企業IDである。X
i,kは、企業iに関する、説明変数候補X
kの実現値である。Z
iは企業iのスコアである。PD
iは、変数選択用モデルによる企業iのデフォルト率の推定値である。
【0043】
そして、定数項αと係数β
kとをまとめてパラメータと呼ぶ。θをパラメータベクトルとする。すなわち、以下の通りである。
【数7】
【0044】
表2は、変数選択装置1により用いられる各係数の符号条件を示している。この符号条件は、係数ごとに設定されており、当該係数の取りうる値がゼロ以上又はゼロ以下を指定したものである。符号条件は、補助記憶装置56に記憶されている。
【表2】
【0045】
大きいほど信用力が高いと考えられる説明変数候補については、「0以上」という符号条件を設ける。また、小さいほど信用力が高いと考えられる説明変数候補については、「0以下」という符号条件を設ける。本実施形態において、売上高(k=1)、自己資本比率(k=2)、流動比率(k=4)は、大きいほど信用力が高いと考えられる。そのため、係数β
1、β
2、β
4の符号条件は「0以上」となっている。また、債務償還年数(k=3)と売上高金利負担率(k=5)は、小さいほど信用力が高いと考えられる。そのため、係数β
3、β
5の符号条件は「0以下」となっている。
【0046】
続いて、
図3を参照しながら、変数選択装置1が行う処理の流れを説明する。まず、ステップS101において、レコード取得部10が、表1に示したような、企業を対象とした信用評価モデルを構築する際に用いるレコードを複数取得する。
【0047】
ステップS102において、符号条件取得部20が、表2に示したような、符号条件を取得する。
【0048】
ステップS103において、推定部30は最尤推定を行う。すなわち、推定部30は、上記変数選択用モデルにおける尤度関数L(θ)が最大となるときの各パラメータの推定値を算出する。この推定値算出は、ステップS101において取得された複数のレコードを用いて行われる。さらに、この推定値算出は、ステップS102において取得された符号条件、すなわち以下に示す条件C
1の下で行われる。
【数8】
【0049】
本ステップにおいて得られるパラメータベクトルθの最尤推定量
【数9】
は、以下のように表すことができる。
【数10】
【0050】
上述したように、L(θ)は尤度関数である。Nは、表1におけるレコード数である。D
iは、企業iのデフォルトフラグである。
【0051】
このように、式(10)に示した最尤推定量は、条件C
1の下で尤度関数L(θ)が最大となるときのθとして推定される。
【0052】
こうした条件C
1の下で尤度関数L(θ)の最大値を探索するアルゴリズムは複数ある。例えば、座標降下法(coordinate descent method)、最急降下法(steepest descent method)がある。例えば座標降下法は、説明変数候補の数が非常に多い場合でも高速に実行可能である。本実施形態では、どのようなアルゴリズムを用いてもよい。
【0053】
なお、本実施例のように、パラメータがとり得る値に条件をつけた上で得られる推定量が、漸近正規性や一致性等の、通常の最尤推定量が持つ性質を満たすことが知られている。詳細は、非特許文献「T.J.Moore, B.M. Sadler, Maximum-likelihood estimation and scoring under parametric constrains. Army Research Lab, Aldelphi, MD, Tech. Rep. ARL-TR-3805, 2006」を参照されたい。
【0054】
本ステップにより得られるパラメータの具体的な推定値を表3に示している。
【表3】
【0055】
売上高に対応する係数β
1と、自己資本比率に対応する係数β
2と、債務償還年数に対応する係数β
3とは、いずれも0と推定されている。流動比率に対応する係数β
4と、売上高金利負担率に対応する係数β
5とについては、それぞれ符号条件を満たした、非ゼロの係数値が推定されている。
【0056】
ステップS104において、選択部40が説明変数の選択を行う。具体的には、ステップS103において推定された係数値がゼロか非ゼロであるかを判別し、非ゼロと推定された係数に対応する説明変数候補を説明変数として選択する。本実施形態では、値が非ゼロと推定された係数β
4及びβ
5にそれぞれ対応する流動比率及び売上高金利負担率が所望の説明変数として選択される。
【0057】
変数選択後の所望の統計モデルは、以下のように表される。
【数11】
ただし、x
4及びx
5は所望の説明変数であり、説明変数候補X
4及びX
5にそれぞれ対応するものである。
【0058】
[効果]
本実施形態によれば、変数選択を高速に実行することができる。前述のように、座標降下法等のアルゴリズムを用いることにより、説明変数候補の数が多い場合でも推定を高速に行うことができる。しかも、符号条件のない、通常の最尤推定とほぼ同時間で説明変数の選択を行うことができる。
【0059】
また、与えられた符号条件の下で尤度を最大にする説明変数候補の組合せが選択されることから、人による事後的な試行錯誤は不要である。符号条件の下で変数選択を行う場合と、符号条件のない状態で変数選択を行う場合の比較について以下に説明する。
【0060】
図4は、横軸が係数β
4であり、縦軸がβ
2であり、尤度を等高線CLにより示している。領域Rから離れるほど尤度は減少する。本実施形態によれば、条件C
1の下で推定が行われる。すなわち、推定は、第1象限Q
1において行われる。その結果、点K
1が推定される。係数β
4の推定値は正値、係数β
2の推定値はゼロという、符号条件を満たす推定値が得られる。
【0061】
これに対し、条件C
1のような条件を設けずに推定を行った様子を
図5に示している。推定は、第1象限Q
1から第4象限Q
4という全ての象限が対象範囲となり、符号条件を満たさない点K
2が推定される。
【0062】
このように、条件を設定しない場合は、推定の対象範囲が広くなるとともに、符号条件を満たさない推定値が得られる可能性がある。これに対し、本実施形態においては、符号条件に基づく条件C
1の下で推定がなされるため、推定対象範囲を限定することができるとともに、符号条件を満たした推定値が得られる。すなわち、効率的に推定を行うことができる。
【0063】
上述したように、説明変数の数が多くなると符号条件を満たす統計モデルを得ることが難しくなる。これは、説明変数候補が多い場合、条件C
1のような符号条件の下で尤度関数を最大にする点では、多くの係数が0となることを意味している。すなわち、符号条件を課すことにより、説明変数の絞り込みが実施できることとなる。
【0064】
さらに、符号条件を満たす全ての組合せの中で尤度を最大とするものが得られるため、ステップワイズ法などの従来の手法に比べて、より尤度の大きい説明変数の組合せが得られる。すなわち、従来手法よりも精度の高いモデルを構築することができる。なお、従来のステップワイズ法、ラッソ回帰、エラスティック・ネットでは、変数選択の過程で符号条件は考慮されていない。このため、符号条件を満たす説明変数の組み合わせを見つけるためには、一般に試行錯誤が必要となる。
【0065】
また、ステップワイズ法や総当たり法では、最尤推定を複数回実施する必要があるが、本実施形態では、推定回数が1回で済む。しかも、その1回で、説明変数の選択と、対応する係数の推定とを同時に行うことができる。
【0066】
ラッソ回帰やエラスティック・ネットでは、前述したハイパーパラ−メータの値を決めるために、追加的な分析を行うことが一般的である。また、ハイパーパラメータの決め方によって、選択される説明変数も異なるものとなり得る。本実施形態では、ハイパーパラメータのような変数は存在しないため、追加的な分析は不要である。さらに、符号条件の下で尤度関数を最大化する説明変数の組み合わせが必ず選択される。
【0067】
[第2の実施形態]
符号条件に加えて、制約条件を設定することもできる。この制約条件は、係数ごとに、当該係数が取りうる値の上限値及び下限値の少なくとも一方を定めたものである。制約条件の例を表4に示している。制約条件は、補助記憶装置56に記憶されている。
【表4】
【0068】
表4において上限値が空欄となっている箇所は、当該係数について上限値の設定がないことを示している。下限値についても同様である。例えば、係数β
2については、下限値が10.00と設定されているが、上限値の設定はない。係数β
1については、制約条件が全く設定されていない。
【0069】
ある係数に関する制約条件は、当該係数に関する符号条件と整合するように設定する必要がある。符号条件が「0以上」であれば、上限値及び下限値はいずれも正値とする必要がある。符号条件が「0以下」であれば上限値及び下限値はいずれも負値とする必要がある。
【0070】
本実施形態において、変数選択装置1は、制約条件取得部(不図示)をさらに備えている。この場合の、変数選択装置1が行う処理の流れを
図6に示している。
図3との違いは、ステップS102とステップS103との間に、ステップS201がある点である。ステップS201では、上記制約条件取得部が制約条件を取得する。そして、ステップS103における推定は、符号条件及び制約条件の下で行われる。すなわち、推定は、以下に示す条件C
2の下でなされる。
【数12】
【0071】
そして、この推定により得られるパラメータベクトルθの最尤推定量は、以下のように表すことができる。
【数13】
【0072】
本ステップにより得られるパラメータの具体的な推定値を表5に示している。
【表5】
【0073】
第1の実施形態では値がゼロと推定された係数β
2及びβ
3に関し、本実施形態では、値が非ゼロと推定されている。
【0074】
上限値又は下限値を設定した係数の推定量は必ずしも上限値又は下限値に等しくなるわけではない。表5における係数β
3のように上下限値よりも絶対値の大きい値が推定されることもある。
【0075】
売上高金利負担率(係数β
5)は、下限値を設定したことによって、推定量の絶対値が小さくなっている。つまり、統計モデルにおける売上高金利負担率の影響が抑えられることとなっている。また、表5における流動比率(係数β
4)のように、制約条件を設定していない説明変数候補の推定量についても、他の説明変数候補の係数値が変化することの影響により、第1の実施形態における推定量とは異なっている。
【0076】
続くステップS104では、選択部40による説明変数の選択が行われる。すなわち、値が非ゼロと推定された係数β
2〜β
5にそれぞれ対応する自己資本比率、債務償還年数、流動比率及び売上高金利負担率が所望の説明変数として選択される。
【0077】
本実施形態によれば、制約条件の設定により、自己資本比率、債務償還年数といった特定の説明変数候補が説明変数として必ず選択されるようにすることができる。すなわち、「特定の説明変数候補を説明変数として選択したい」という要請に応えることができる。さらに、制約条件を設定することで、特定の説明変数の影響度が大きくなり過ぎることを防ぎながら、変数選択を行うことができる。
【0078】
[第3の実施形態]
本実施形態において、変数選択装置1は、絞込み条件取得部と絞込み処理部(ともに不図示)をさらに備えている。そして、
図7に示すように、ステップS104にて複数の説明変数が選択された場合に、同ステップにつづいてステップS301及びS302を行うことができる。
【0079】
ステップS301では、絞込み条件取得部が絞込み条件を取得する。絞込み条件とは、ステップS104にて複数の説明変数が選択された場合に、説明変数の個数を絞り込むための条件である。絞込み条件は、補助記憶装置56に記憶されている。絞込み条件の例として、以下のようなものが挙げられる。
・p値又はt値が一定の水準に満たない説明変数を除外する
・ステップS104にて選択された説明変数の組合せを初期値として、変数減少法により変数を削減する
【0080】
ステップS302では、絞込み条件にしたがって絞込み処理部が絞込み処理を行う。その結果、説明変数の個数が絞り込まれる。
【0081】
本実施形態によれば、絞込み条件を設定することで、統計的な有意性が高くない説明変数を除外することができる。そして、モデルの精度をほぼ維持しつつ、説明変数の個数がより少ないモデルを構築することができる。なお、統計的な有意性が高くない説明変数を除外しても、他の説明変数に対応する係数に与える影響は極めて小さい。そのため、絞込みによって符号条件が満たされなくなることはほとんどない。
【0082】
なお、
図6に示したステップS103の後に、ステップS301及びS302を行うことも可能である。
【0083】
[第4の実施形態]
以下、応答変数が3つ以上の値からなる順序尺度で表される場合に用いられる順序ロジットモデルに関する実施形態について説明する。処理の流れは
図3とほぼ同様であるが、異なる点を以下に説明する。
【0084】
表6は、企業の格付を推定するための順序ロジットモデルの構築に用いられるモデル構築用データの例を示したものである。このデータはステップS101により取得される。
【表6】
【0085】
「格付」とは企業の債務返済能力の水準を符号で示したものであり、本実施例では1>2>3>4>・・・>Nrの順に信用力が高いことを表すものとする。ただし、Nrは格付数である。格付符号の表記は「AAA,AA+,AA,…」や「A格,B格,C格,…」などの文字情報で表されることもあるが、いずれも信用力の序列を表すものであり、本実施形態のように数値情報に置き換えることができる。
【0086】
順序ロジットモデルのように、企業の格付を推定するモデルは「格付推定モデル」と呼ばれる。格付推定モデルも信用評価モデルの一種である。
【0087】
順序ロジットモデルによって構築される格付推定モデルでは、企業iが格付sに属する確率の推定値が、以下のように表されると仮定する。
【数14】
【0088】
格付推定モデルの尤度関数L(θ)は、以下のように表すことができる。
【数15】
【0089】
格付推定モデルに関して、
図3のステップS102にて取得される符号条件を考慮して、ステップS103の推定を行う場合、次の式によって変数選択用モデルの推定値を得る。
【数16】
ただし、条件C
1は第1の実施形態と同じである。L(θ)は上記尤度関数である。
【0090】
表7は、ステップS103によって得られるパラメータの例を示したものである。
【表7】
【0091】
この表の結果から、ステップS104において、自己資本比率、債務償還年数、売上高金利負担率、・・・が説明変数として選択されることとなる。
【0092】
このように、複数の線形予測子(Z
i.s)と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記複数の線形予測子の各々が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択するように、変数選択装置1を構成することができる。
【0093】
[第5の実施形態]
応答変数が3つ以上の値からなる順序尺度で表される場合のモデル化の方法として、以下に述べる逐次ロジットモデルを用いることもできる。逐次ロジットモデルでは、格付がs以下か否かの確率を推定する二項ロジットモデルを複数用いて、各格付となる確率を推定する。処理の流れは
図3と類似している。
【数17】
【0094】
逐次ロジットモデルに対する尤度関数は、p
i,sが異なるだけで、順序ロジットモデルの尤度関数(式(11))とまったく同じ表式となる。
【0095】
逐次ロジットモデルに対して、ステップS102で取得される符号条件のみを考慮してステップS103の推定を行う場合、次の式によって変数選択用モデルのパラメータ推定値を得る。
【数18】
【0096】
ただし、条件C
3は以下の通りである。
【数19】
【0097】
表8は、本実施例によって得られるパラメータの例を示したものである。
【表8】
【0098】
係数及び定数項は、Z
i,s毎(格付毎)に推定され、ステップS104において選択される説明変数もZ
i,s毎に異なる。
【0099】
このように、複数の線形予測子(Z
i,s)と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記複数の線形予測子のうち少なくとも一つ(例えば、Z
i,2)が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択するように、変数選択装置1を構成することができる。
【0100】
[その他]
変数選択にあたり、元になる指標をそのまま説明変数候補としてもよいが、必要に応じて、元になる指標の累乗を説明変数候補としてもよい。あるいは、元になる指標を対数変換したものを説明変数候補としてもよい。
【0101】
式(4)において、応答変数がある値となる確率が関数Fの引数となっている。しかし、応答変数の期待値を関数Fの引数とすることも可能である。
【0102】
符号条件、制約条件は、全ての係数について設定する必要はない。少なくとも一つの係数について符号条件が設定されていればよい。そして、符号条件が設定されている係数のうちの少なくとも一つについて、制約条件を設定することができる。
【0103】
補助記憶装置56に限らず、変数選択装置1の内部又は外部に設けた記憶装置に符号条件を記憶することができる。モデル構築用データ、制約条件及び絞込み条件についても同様である。モデル構築用データ、符号条件、制約条件及び絞込み条件を同一の記憶装置に記憶してもよいし、複数の記憶装置に分散させて記憶してもよい。
【0104】
レコード取得部10は必須ではない。推定部40が、複数の説明変数候補の実現値と、応答変数の実現値とを含む複数のデータを用いて、推定値の算出を行うことができるようになっていればよい。
【0105】
第4の実施形態及び第5の実施形態において、制約条件に基づいた推定と絞込み条件に基づく絞込み処理とのいずれか又は両方をさらに行ってもよい。
【0106】
本明細書に開示した実施形態は、装置としての側面だけではなく、方法としての側面及びコンピュータプログラムとしての側面をも有している。
【0107】
本発明は、一般化線形モデルに限らず、線形予測子を用いて表現される、より広範な統計モデルに対して適用することができる。
【0108】
以上、本発明の実施形態につき述べたが、本発明は既述の実施の形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形及び変更が可能である。
【解決手段】線形予測子と、応答変数の期待値又は応答変数がある値となる確率との関係が所定の関数により表される統計モデルにおいて、前記線形予測子が、複数の説明変数候補と前記複数の説明変数候補にそれぞれ対応する複数の係数との線形結合と、定数項との和により表される変数選択用モデルを用いて、前記複数の説明変数候補から所望の説明変数を選択する装置(1)は、前記複数の係数のうちの少なくとも一つの係数に関して符号条件を取得する符号条件取得部(20)と、複数のデータを用いて、前記符号条件の下で、前記複数の係数の推定値及び前記定数項の推定値を算出する推定部(30)と、推定値が非ゼロと算出された係数に対応する前記説明変数候補を前記所望の説明変数として選択する選択部(40)とを備えている。