【文献】
藏本達也,外3名,ソフトウェア開発プロジェクトにまたがるfault−proneモジュール判別の試み,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2012年 3月 1日,第J95-D巻,第3号,pp.425-436,ISSN 1880-4535
(58)【調査した分野】(Int.Cl.,DB名)
前記応答確率推定用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた応答確率の推定値とを含むものである、請求項1に記載のプログラム。
前記原変数スコア算出用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた原変数スコアとを含むものである、請求項5に記載のプログラム。
前記説明変数値算出ステップが、前記原変数スコアを一次式で変換した値を説明変数値として算出するステップである、請求項1〜8のいずれか一項に記載のプログラム。
前記説明変数値算出用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた説明変数値とを含むものである、請求項10に記載のプログラム。
【発明を実施するための形態】
【0016】
以下に本発明の実施形態を説明する。ただし、本発明は、以下に説明する実施の形態によって限定されるものではない。
【0017】
[第1の実施形態: ロジスティック回帰分析による信用評価モデルの構築]
企業又は個人のデフォルトすなわち債務不履行のしやすさを評価する統計モデルを信用評価モデルと呼ぶ。デフォルトしにくいと評価されれば、当該企業又は個人は信用力が高いといえる。
【0018】
企業を対象とした信用評価モデルにおいては、貸借対照表、損益計算書から計算される財務指標を説明変数として用いることが多い。この場合の財務指標の例としては、自己資本比率、債務償還年数、経常収支比率、売上債権回転日数などが挙げられる。
【0019】
また、個人を対象とした信用評価モデルにおいては、個人の属性に関する情報を説明変数として用いることが多い。このような情報の例として、個人の年齢、世帯人数、年収、勤続年数などが挙げられる。
【0020】
以下、企業の財務指標、個人の属性といった、信用力に関係する情報を「指標」とも呼ぶ。この指標が、説明変数を算出する元となる原変数である。
【0021】
また、決算後一定期間内にデフォルトしていれば1、デフォルトしていなければ0をとる2値変数をデフォルトフラグと呼ぶ。このデフォルトフラグを、信用評価モデルにおける応答変数として用いることが多い。これは、信用評価モデルの対象が企業であるか個人であるかを問わない。
【0022】
以上のような説明変数及び応答変数を用いて、ロジスティック回帰分析等の統計分析により、信用評価モデルを構築する。信用評価モデルのアウトプットは、用いる統計分析手法によって異なるが、信用スコア、デフォルト率、格付などの、企業又は個人の信用力を表象する情報である。アウトプットに応じて、信用スコアリングモデル、デフォルト率推定モデルなどの様々な呼び方があるが、本明細書においてはこれらをまとめて信用評価モデルと呼ぶ。
【0023】
信用評価モデルの構築においては、ロジスティック回帰分析と呼ばれる分析手法が多く使われる。このロジスティック回帰分析においては、説明変数と、応答変数すなわちデフォルトフラグが1となる確率p(デフォルト率pとも呼ぶ)との関係を次式で表現する。
【数2】
ただし、X
k(k=1,2,・・・)は、説明変数である。β
kは、説明変数X
kにそれぞれ対応する係数であり、αは定数項である。logit(p)は、デフォルト率pのロジットと呼ばれる。
【0024】
そして、企業i(iは企業IDである)の第k番目の指標値(第k番目の原変数値とも呼ぶ)から、企業iの第k番目の指標に関する説明変数値X
ikを以下のように算出する。
【数3】
ただし、p
ikは、企業iの第k番目の指標値から推定された企業iのデフォルト率である。Fは、何らかの確率分布の分布関数である。F
−1は、関数Fの逆関数である。
【0025】
関数Fを次式のようにロジスティック分布の分布関数とすることによって、説明変数値X
ikとlogit(p
ik)は、式(3)の関係を満たすこととなる。
【数4】
【0026】
このように、説明変数X
kとデフォルト率pとの関係が信用評価モデルの仮定に従うものとなるように、説明変数値X
ikを算出することにより、より精度の高い信用評価モデルを構築できることが期待される。
【0027】
このようにして算出される説明変数値X
ikは、第k番目の原変数値により企業iの信用力を数値化したものである。企業の様々な原変数値から算出される説明変数値を見ることにより、それぞれの指標で評価した信用力の高低が容易に把握できるようになる。推定デフォルト率p
ikを算出する方法としては任意の方法を用いることができる。本実施形態では、後述するように離散化による方法を用いる。
【0028】
なお、次式で計算される説明変数の線形結合Zを、Zスコアと呼ぶ。
【数5】
このZスコアは、信用評価モデルに取り込まれている説明変数を全て考慮した場合の企業の信用力を表している。
【0029】
以下、説明変数値X
ikを算出するために必要となる応答確率推定用データ作成について説明する。続いて、応答確率推定用データを用いた説明変数値X
ikの算出について説明する。
【0030】
[応答確率推定用データ作成]
応答確率推定用データの作成は、
図1に示す応答確率推定用データ作成装置1が行う。応答確率推定用データ作成装置1は、モデル構築用データ取得部12と、応答確率推定用データ作成部14とを備えている。各機能部の詳細は後述する。
【0031】
図2は、応答確率推定用データ作成装置1のコンピュータハードウェア構成例を示している。応答確率推定用データ作成装置1は、CPU51と、インタフェース装置52と、表示装置53と、入力装置54と、ドライブ装置55と、補助記憶装置56と、メモリ装置57とを備えており、これらがバス58により相互に接続されている。
【0032】
応答確率推定用データ作成装置1の機能を実現するプログラムは、CD−ROM等の記録媒体59によって提供される。プログラムを記録した記録媒体59がドライブ装置55にセットされると、プログラムが記録媒体59からドライブ装置55を介して補助記憶装置56にインストールされる。あるいは、プログラムのインストールは必ずしも記録媒体59により行う必要はなく、ネットワークを介して他のコンピュータからダウンロードすることもできる。補助記憶装置56は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0033】
メモリ装置57は、プログラムの起動指示があった場合に、補助記憶装置56からプログラムを読み出して格納する。CPU51は、メモリ装置57に格納されたプログラムにしたがって応答確率推定用データ作成装置1の機能を実現する。インタフェース装置52は、ネットワークを通して他のコンピュータに接続するためのインタフェースとして用いられる。表示装置53はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置54はキーボード及びマウス等である。
【0034】
図3は、応答確率推定用データ作成装置1が行う処理を示している。まず、ステップS101において、モデル構築用データ取得部12がモデル構築用データを読み込む。モデル構築用データの例を表1に示す。
【表1】
【0035】
モデル構築用データは、複数のサンプルを有している。各サンプルが一つの企業に関する情報を表している。また、「デフォルトフラグ」とは、先に述べたように、決算後一定期間内にデフォルトしていれば1、デフォルトしていなければ0をとる2値変数である。
【0036】
表1における「財務指標」は、各企業の貸借対照表、損益計算書等といった決算情報から算出される。例えば、「売上高・対数」は、決算情報から算出される売上高を対数変換した情報である。「自己資本比率」、「債務償還年数」、「流動比率」、「売上高金利負担率」は、それぞれ、決算情報から算出されるものである。これらの指標が、算出対象である説明変数の元になる原変数である。なお、「k」は、原変数の番号である。
【0037】
例えば、企業IDが「1」である「企業A」の「自己資本比率」の値は「46.82%」である。この値を、「自己資本比率」という原変数の実現値と呼ぶ。そして、「デフォルトフラグ」という応答変数の実現値は「0」である。このように、表1は、複数のサンプルを有し、各サンプルは、複数の原変数の実現値と応答変数の実現値とを含んでいる。なお、原変数の個数に制限はなく、複数あればよい。
【0038】
ステップS102において、応答確率推定用データ作成部14が、「自己資本比率」(k=2)という原変数に関して、表2に示すような応答確率推定用データを作成する。本実施形態では、応答確率(応答変数が特定の値をとる確率のこと)がデフォルト率であるため、応答確率推定用データをデフォルト率推定用データとも呼ぶ。
【表2】
【0039】
表2の「階級番号」は、連続的な指標である自己資本比率の値の存在範囲を複数の階級に離散化したことにより得られる階級の番号である。「自己資本比率」の「下限値」及び「上限値」は、各階級の下限値及び上限値を示している。そして、「サンプル数」における「非デフォルト数」は、各階級において、表1の「デフォルトフラグ」が0となっているサンプルの数である。また、「サンプル数」における「デフォルト数」は、各階級において、表1の「デフォルトフラグ」が1となっているサンプルの数である。「非デフォルト数」及び「デフォルト数」は、応答確率推定用データ作成部14が表1のモデル構築用データを参照して数え上げることにより得られる。
【0040】
さらに、表2の「推定デフォルト率」は、応答確率推定用データ作成部14により、階級毎に以下のようにして計算される。
(推定デフォルト率)=(デフォルト数)/((非デフォルト数)+(デフォルト数))
なお、推定デフォルト率を「応答確率の推定値」とも呼ぶ。
【0041】
以上のようにして、「自己資本比率」という原変数に関する応答確率推定用データが作成される。「自己資本比率」以外の原変数についても同様に応答確率推定用データを作成することができる。
【0042】
このように、応答確率推定用データは、原変数の値と応答確率の推定値(推定デフォルト率)との関係を定めたデータである。
【0043】
[説明変数値の算出]
続いて、応答確率推定用データを用いた説明変数値X
ikの算出と、それに続く統計モデルの構築とについて説明する。説明変数値の算出は、
図4に示す説明変数値算出装置2により行われる。説明変数値算出装置2は、応答確率推定用データ取得部22と、原変数データ取得部24と、原変数スコア算出部26と、説明変数値算出部28とを備えている。各機能部の詳細は後述する。説明変数値算出装置2も、
図2に示したようなコンピュータハードウェア構成を有している。説明変数値算出装置2が行う処理の流れを
図5に示している。
【0044】
まず、ステップS201において、応答確率推定用データ取得部22は、表2に示したような応答確率推定用データを応答確率推定用データ作成装置1から読み込む。
【0045】
ステップS202において、原変数データ取得部24は、表1に示したモデル構築用データを応答確率推定用データ作成装置1から読み込む。上述したように、モデル構築用データは原変数の実現値を含んでいることから、本実施例では、モデル構築用データを原変数データとして使用する。ただし、原変数データは必ずしもモデル構築用データと同じである必要はなく、原変数の実現値が含まれているデータであればよい。
【0046】
ステップS203において、原変数スコア算出部26は、応答確率推定用データ(表2)及び原変数データ(表1)を用いて、「自己資本比率」という原変数(k=2)に関する推定デフォルト率を算出する。例えば、「企業A」(i=1)であれば、自己資本比率の実現値は「46.82%」であることから、表2の階級番号8を参照することにより、推定デフォルト率p
ikが「0.96%」と算出される。このような自己資本比率に関する推定デフォルト率の算出を全ての企業について行う。
【0047】
ステップS204において、原変数スコア算出部26は、ステップS203で算出された推定デフォルト率p
ikから、次式により原変数スコアと呼ばれる値を算出する。
【数6】
先に述べたように、関数Fはロジスティック分布の分布関数である。
【0048】
ステップS205では、説明変数値算出部28が説明変数値X
ikを算出する。説明変数値X
ikの算出は次式により行われる。
【数7】
【0049】
このように、説明変数値は、原変数スコアを−1倍した値である。もちろん、これに限られず、説明変数値は、原変数スコアを一次式により変換した値とすることができる。以上が、自己資本比率に関する説明変数値算出までの流れである。
【0050】
その後、自己資本比率(k=2)以外の原変数についても同様に説明変数値を算出することができる。そして、全ての原変数に関する説明変数値と、応答変数であるデフォルトフラグを用いて、ロジスティック回帰分析による統計モデル構築を行うことができる(ステップS206)。なお、統計モデル構築にあたっては、任意の説明変数の選択方法を用いることができる。
【0051】
表3は、統計モデル構築におけるパラメータの推定結果の例である。パラメータとは、式(3)の定数項及び係数の総称である。
【表3】
【0052】
係数は、「説明変数値が1点違うと、Zスコアが何点異なるか」を表している。係数の値が大きいほど、その係数に対応する指標すなわち原変数の影響が大きく評価されていることになる。
【0053】
表3の例では、債務償還年数と自己資本比率が、影響の大きな指標であることがわかる。このように、本実施形態によれば、指標値(原変数値)から算出された説明変数値に対するパラメータの値から、当該指標の影響の大きさをすぐに読み取ることができる。
【0054】
表4は、本実施形態で得られた信用評価モデルを用いて、ある企業(A社とする)の信用評価を実施した結果を示したものである。
【表4】
【0055】
表4における「パラメータ推定値」は、表3に既に示したものである。「説明変数値」は、A社の指標値から上述の方法により算出された説明変数値である。「スコア寄与」は、各指標に対するパラメータと説明変数値の積である。定数項と、全ての指標についてのスコア寄与との和が、A社のZスコアとなる。A社の推定PDは、Zスコアから算出することができる。推定PDとは、Zスコアに基づく推定デフォルト率のことである。
【0056】
図6は、A社に対する各指標の説明変数値を示したグラフである。このグラフから、A社は、棚卸資産回転日数に問題がある可能性が見てとれる。このように、本実施形態では、最終的な評価だけでなく、各指標による評価も容易に把握でき、それらを比較することもできる。
【0057】
また、連続的な指標である自己資本比率について主に説明したが、カテゴリカルな指標についても同様に、カテゴリーごとにデフォルトサンプル数と非デフォルトサンプル数を集計することにより、カテゴリーごとの推定デフォルト率を得ることができる。欠損値や特異値(指標の分母が0になる場合など)を伴うサンプルについても、同様な方法により、そうしたサンプルの推定デフォルト率を得ることができる。さらに、2つの指標のクロス表からデフォルト率を算出し、交差変数を作成することもできる。
【0058】
[参考例]
以下に、通常の信用評価モデルによる評価結果の例を示す。通常の信用評価モデルでは、原変数の値をそのまま説明変数値とするか、又は原変数の値を対数変換した値を説明変数値とすることが多い。表5は、通常の信用評価モデルで企業を評価した結果を示している。
【表5】
【0059】
表5の「説明変数値」は、指標値そのものである。ただし、売上高及び棚卸資産回転日数について対数変換を行っている。「スコア寄与」とは、各指標に対するパラメータと説明変数値との積である。
【0060】
指標値の水準は指標毎に大きく異なるため、表5のパラメータを見ただけでは、どの指標が重視されているのか分からない。また、スコア寄与が高い指標があったとしても、「指標値」が良い値であるからなのか、パラメータが大きい(重視されている)からなのかが分からない。例えば、「売上高・対数」のスコア寄与が比較的大きいが、これは売上高の評価が良いためなのか、売上高の評価は標準的であるものの、重要な指標であるためスコア寄与が大きくなっているからなのかは、すぐには峻別できない。このように、通常の信用評価モデルの場合は、評価結果の解釈が難しくなる。
【0061】
[変形例]
上述したように、応答確率推定用データ(表2)から、式(7)により原変数スコアが得られ、その原変数スコアから式(8)により説明変数値が得られる。そこで、上記応答確率推定用データに代えて、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを用いてもよい。この原変数スコア算出用データは、応答確率推定用データ作成装置1に類似する原変数スコア算出用データ作成装置(不図示)により作成される。原変数スコア算出用データ作成装置は、応答確率推定用データ作成部14に代えて、原変数スコア算出用データ作成部(不図示)を有している。この原変数スコア算出用データ作成部は、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを作成する。
【0062】
続いて、原変数スコア算出用データは、説明変数値算出装置2内の応答確率推定用データ取得部22に代わる原変数スコア算出用データ取得部(不図示)により取得される。そして、原変数スコア算出部26が原変数スコア算出用データを用いて原変数スコアを算出する。
【0063】
あるいは、上記応答確率推定用データに代えて、原変数の値と説明変数値との関係を定めた説明変数値算出用データを用いてもよい。この説明変数値算出用データは、応答確率推定用データ作成装置1に類似する説明変数値算出用データ作成装置(不図示)により作成される。説明変数値算出用データ作成装置は、応答確率推定用データ作成部14に代えて、説明変数値算出用データ作成部(不図示)を有している。この説明変数値算出用データ作成部は、原変数の値と説明変数値との関係を定めた説明変数値算出用データを作成する。
【0064】
続いて、説明変数値算出用データは、説明変数値算出装置2内の応答確率推定用データ取得部22に代わる説明変数値算出用データ取得部(不図示)により取得される。この場合、原変数スコア算出部26は設けられておらず、説明変数値算出部28が説明変数値算出用データを用いて説明変数値を算出する。
【0065】
[第2の実施形態: 近似式を用いる場合]
本実施形態では、原変数値から推定デフォルト率p
ikを算出するにあたり、原変数値と推定デフォルト率p
ikとの関係を表す近似式を用いる。
【0066】
近似式の構築方法は様々なものが考えられるが、本実施形態では、区分線形回帰(segmented linear regression)を用いる。区分線形回帰とは、原変数の存在範囲をいくつかの区間に分割し、各区間内で原変数と推定デフォルト率との関係を線形式で近似する方法である。財務指標などの原変数の値と推定デフォルト率との関係は複雑であるため、単純な線形回帰では誤差が非常に大きくなることが多いが、区分線形回帰を用いることにより近似精度の向上が期待できる。
【0067】
図7は、原変数の一つである有利子負債利子率について、区分線形回帰によって原変数の値と推定デフォルト率との関係を表す近似折線グラフである。四角形で示した各点は、原変数を離散化して算出した推定デフォルト率を示している。また、実線は、区分線形回帰によって得られた近似折線である。この近似折線を用いて推定デフォルト率を算出することにより、連続的な推定デフォルト率が得られる。その結果、連続的な説明変数値が得られる。
【0068】
表6は、有利子負債利子率と推定デフォルト率との関係を表す近似式を、区分線形回帰によって計算した例である。
【表6】
【0069】
区分線形回帰では、表6に示したように、各区間の閾値(原変数の値の最大値及び最小値)と、各区間の傾き及び切片の情報が得られる。傾き及び切片を関数のパラメータとも呼ぶ。そして、閾値と関数のパラメータから、各区間の推定デフォルト率の最大値及び最小値が得られる。この推定デフォルト率の最大値及び最小値を、式(7)により関数Fの逆関数F
−1を用いて変換することにより、原変数スコアの最大値及び最小値が得られる。さらに、式(8)により原変数スコアの最大値及び最小値を一次式で変換することにより、説明変数値の最大値及び最小値が得られる。なお、表6においては、原変数スコアの最大値及び最小値を省略している。
【0070】
表6のうち、「区間No.」と「有利子負債利子率」と「関数のパラメータ」とからなるデータが、本実施形態における応答確率推定用データである。この応答確率推定用データは、原変数である「有利子負債利子率」の値と、推定デフォルト率との関係を定めたものである。応答確率推定用データは、第1の実施形態と同様に、応答確率推定用データ作成装置1により作成される(
図1及び
図3)。
【0071】
本実施形態における説明変数値の算出も、
図5に示したような流れで行われる。すなわち、ステップS201にて上記応答確率推定用データが読み込まれる。ステップS202では、モデル構築用データ(表1)が読み込まれる。ステップS203では、上記応答確率推定用データと、モデル構築用データとから、各サンプルの原変数の実現値が上記応答確率推定用データどの区間に含まれるかが読み取られる。続いて、該当する区間の関数のパラメータが読み取られる。同ステップではさらに、推定デフォルト率が次式により算出される。
(推定デフォルト率)=(傾き)×(原変数の実現値)+(切片)
【0072】
ステップS204では、式(7)により原変数スコアが算出される。ステップS205では、式(8)により説明変数値が算出される。
【0073】
有利子負債がゼロの場合、有利子負債利子率を算出することができない。また、有利子負債利子率が欠損値である場合もある。従来のモデル構築では、説明変数を連続変数とする場合には、欠損値等のサンプルには「最悪値を割り当てる」といったアドホックな対応がとられていた。
【0074】
このような有利子負債利子率の実現値を得ることができないサンプルについても、本実施形態では、実施形態1と同様に、非デフォルトサンプルとデフォルトサンプルを数え上げることによってそれらのサンプルの推定デフォルト率を算出し、その推定デフォルト率から説明変数値を算出する。このように、有利子負債利子率の実現値を得ることができないサンプルについても、通常のサンプルと同じ考え方で推定デフォルト率に見合った説明変数値が得られるため、統計モデルの精度向上が期待できる。
【0075】
有利子負債利子率以外の指標も上述と同様に説明変数値を算出し、それらを説明変数、デフォルトフラグを応答変数としてパラメータ(定数項及び係数)の推定を行うことで、連続的な説明変数を持つ信用評価モデルを構築することができる(ステップS206)。連続変数でモデルを構築した場合にも、離散化変数の場合と同様に指標別の評価等を実施することができる。
【0076】
近似式を得るための方法として、区分線形回帰に限らず、任意の方法を用いることができる。例えば、多項式回帰、対数回帰、B−スプラインが挙げられる。
【0077】
また、指標の分母が正の領域ではB−スプライン、分母が負の領域では分母と分子の指標のクロス集計表で推定デフォルト率を与えることも可能である。このように、説明変数値算出を様々な方法で行うことができる。
【0078】
本実施形態においても、応答確率推定用データに代えて、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを用いてもよい。あるいは、応答確率推定用データに代えて、原変数の値と説明変数値との関係を定めた説明変数値算出用データを用いてもよい。
【0079】
[第3の実施形態: プロビット回帰による信用評価モデルの構築]
プロビット回帰は、ロジスティック回帰と同様に、信用評価モデルの構築に良く用いられる手法であり、説明変数とデフォルト率との関係を以下の式で表現する。
【数8】
ただし、Φは、標準正規分布の分布関数である。このΦは、上記第1の実施形態における関数Fである。そして、関数Φの逆関数Φ
−1を用いて式(7)により原変数スコアを算出することができる。
【0080】
本実施形態は、関数Fを除いて上記第1の実施形態と同様である。
【0081】
パラメータ推定に用いる統計分析手法と指標スコア算出時に用いる分布関数は必ずしも特定の組み合わせに限られるものではない。例えば、説明変数値の算出にあたって標準正規分布の分布関数を用い、得られた説明変数値を用いてロジスティック回帰分析でパラメータを推定することも可能である。
【0082】
[第4の実施形態: 業種別に信用評価モデルを構築]
業種によって財務上の特徴は異なるため、信用評価の実務では業種別に信用評価モデルを構築することがしばしば行われる。本実施形態では、業種別に信用評価モデルを構築する。
【0083】
まずステップS101において、モデル構築用データが読み込まれる。このときのモデル構築用データは、表1に示しているように、「業種」という情報をも含んでいる。そして、ステップS102において、変数の値と応答確率の推定値(推定デフォルト率)との関係を表す応答確率推定用データを業種毎に作成することができる。例えば、区分線形回帰を用いる場合は、表6のようなテーブルが、業種毎に作られることとなる。そして、ステップS201〜S205を業種毎に行った上で、ステップS206において、業種別の信用評価モデルを構築することができる。
【0084】
なお、業種はセグメント情報の一種である。セグメント情報とは、統計モデルの分析対象である母集団を分割する際に参照される情報である。セグメント情報に基づいて母集団を分割して得られる各々の集団をセグメントと呼ぶ。信用評価モデルの構築では、本実施形態のように、財務的な特徴を共有すると考えられるいくつかのセグメントに母集団を分割し、セグメント毎にモデルを構築することがしばしば行われる。
【0085】
[効果]
上記のように算出された説明変数値を用いて信用評価モデルを構築することにより、評価プロセスが非常に分かり易く、かつ精度の高いモデルを構築することができる。また、算出された説明変数値は、全ての指標で「単一指標で評価した信用力の絶対水準」という共通の意味を持つため、指標毎の評価の高低が容易に把握できるとともに、指標ごとの評価の比較も行える。
【0086】
さらに、第4の実施形態のように、業種別にモデル化する場合には、異なる業種間で指標別の評価を比較することができる。例えば、売上高営業利益率の水準は業種によって異なるため、「売上高営業利益率が11%の小売業のA社」と、「同17%のサービス業のB社」とで、どちらが信用力が高いと考えられるかはすぐには分からない。これに対し、本発明によって得られる説明変数の値は、原変数の値から推定したデフォルト率の水準を表わしているため、異なる業種間であっても比較が可能である。先程の例では、売上高営業利益率に対応する説明変数の値を両社で比較することにより、売上高営業利益率という視点から見た場合、どちらの信用力が高いと考えられるか、という疑問に容易に答えることができる。
【0087】
信用力と指標値が単調でない指標でも、問題なく統計モデルに取り入れることができる。例えば、指標によっては、大きすぎても小さすぎても信用力が低く(デフォルト率が高く)なるものがある。第1もしくは第2の実施形態によれば、こうした指標は、指標値が大きい場合や小さい場合に説明変数が小さい値となり、中庸な場合に大きい値となる。その結果、説明変数の値と信用力の関係は単調になり、様々な統計モデルに取り込みやすくなる。
【0088】
また、指標値からの推定デフォルト率の算出方法は特に限定されないことから、柔軟に指標を加工することが可能である。先に述べたように、2つ以上の指標のクロス集計表を用いて交差変数を作成したり、指標の分母の値に応じて、推定デフォルト率の算出方法を異なるものとしたりすることが可能である。
【0089】
原変数スコア算出時に用いる分布関数Fとして、モデル構築に用いる統計分析手法に合わせた確率分布を用いることにより、モデル精度の向上が見込まれる。一般に統計モデルでは、説明変数と応答変数が一定の関係性を満たすことを仮定しており、両者の関係がその仮定を満たさなければ、精度の高いモデルは得られない。例えば、ロジスティック回帰分析によるデフォルト率のモデル化では、デフォルト率のロジットが、説明変数の一次式で表されることが仮定されている(式(3))。モデル構築に用いる統計分析手法に合わせた確率分布を用いることにより、説明変数ごとにモデルの仮定が満たされる説明変数値が得られるため、精度向上が見込まれる。プロビットモデルによるデフォルト率のモデル化では、関数Fとして標準正規分布の分布関数を用いることにより、モデルの仮定に適合した説明変数値が得られる。
【0090】
一つの統計モデルの中で、離散化によって得られる離散化変数と、近似式を用いて得られる連続変数の両者を用いることもできる。説明変数が離散化変数であるか連続変数であるかに関わらず、算出される説明変数値の意味が同じであるため、説明変数値間での比較評価が可能である。
【0091】
[その他]
本明細書に開示した実施形態は、装置としての側面だけではなく、方法としての側面及びコンピュータプログラムとしての側面をも有している。
【0092】
応答確率推定用データは、応答確率推定用データ作成装置1内の補助記憶装置56又は外部の任意の記憶装置に記憶することができる。原変数スコア算出用データ及び説明変数値算出用データについても同様である。
【0093】
説明変数値算出装置2により算出された説明変数値は、説明変数値算出装置2内の補助記憶装置又は外部の任意の記憶装置に記憶することができる。
【0094】
応答確率推定用データ作成装置1と説明変数値算出装置2とを一体の装置としてもよい。
【0095】
ステップS101において読み込まれるモデル構築用データと、ステップS202において読み込まれるモデル構築用データとが異なっていてもよい。
【0096】
原変数スコアを一次式で変換することなく、そのまま説明変数値としてもよい。
【0097】
本発明は、式(1)及び(2)で表されるような統計モデルだけでなく、応答変数が2値変数である統計モデルに対して、幅広く適用することができる。
【0098】
以上、本発明の実施の形態につき述べたが、本発明は既述の実施の形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形及び変更が可能である。
【解決手段】応答変数が2値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムは、前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得ステップ(S201)と、前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップ(S202)と、前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値算出ステップ(S203,S204)とをコンピュータに実行させる。