特許第6803423号(P6803423)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セカンドサイト株式会社の特許一覧

特許6803423モデル構築システム、情報処理システムおよびプログラム
<>
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000002
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000003
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000004
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000005
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000006
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000007
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000008
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000009
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000010
  • 特許6803423-モデル構築システム、情報処理システムおよびプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6803423
(24)【登録日】2020年12月2日
(45)【発行日】2020年12月23日
(54)【発明の名称】モデル構築システム、情報処理システムおよびプログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20201214BHJP
   G06Q 10/04 20120101ALI20201214BHJP
   G06Q 40/02 20120101ALI20201214BHJP
【FI】
   G06Q50/10
   G06Q10/04
   G06Q40/02 300
【請求項の数】16
【全頁数】28
(21)【出願番号】特願2019-48991(P2019-48991)
(22)【出願日】2019年3月15日
(65)【公開番号】特開2020-149618(P2020-149618A)
(43)【公開日】2020年9月17日
【審査請求日】2020年6月4日
【新規性喪失の例外の表示】特許法第30条第2項適用 平成30年4月11日付けの日本経済新聞第7面にて、モデル構築システム、情報処理システムおよびプログラムについて公開した。
【新規性喪失の例外の表示】特許法第30条第2項適用 平成30年4月11日 セカンドサイト株式会社のウェブサイトにて、モデル構築システム、情報処理システムおよびプログラムについて公開した。ウェブサイト(https://www.sxi.co.jp/archives/72)
【新規性喪失の例外の表示】特許法第30条第2項適用 平成30年4月11日 株式会社PR TIMESのウェブサイトにて、モデル構築システム、情報処理システムおよびプログラムについて公開した。ウェブサイト(https://prtimes.jp/main/html/rd/p/000000014.000005652.html)
【早期審査対象出願】
(73)【特許権者】
【識別番号】517014826
【氏名又は名称】セカンドサイト株式会社
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】深谷 直紀
(72)【発明者】
【氏名】加藤 良太郎
(72)【発明者】
【氏名】▲高▼山 博和
【審査官】 安井 雅史
(56)【参考文献】
【文献】 特開2017−151527(JP,A)
【文献】 特開2002−328939(JP,A)
【文献】 特開2002−109208(JP,A)
【文献】 米国特許出願公開第2019/0005577(US,A1)
【文献】 特開平10−269247(JP,A)
【文献】 特開2015−103035(JP,A)
【文献】 国際公開第2006/126647(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00−99/00
(57)【特許請求の範囲】
【請求項1】
各個人のリスクまたはニーズに関する個人実績を蓄積した基礎データベースに基づいて生成されたデータセットであって、レコードごとに、個人の属性情報を値として有する属性項目を1つ以上有すると共に、前記個人実績に基づいた実績関連情報を値として有する実績関連項目を1つ以上有する前記データセットに基づいて、1または複数の前記属性情報を入力し、入力した1または複数の前記属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するモデル構築部を備え、
前記モデル構築部は、
前記モデルに入力する1または複数の前記属性情報に対応する1または複数の前記属性項目のパターンと、前記モデルが前記予測値を出力する前記予測対象と、前記モデルの構築に使用する前記データセットと、前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部を学習データとして使用して候補モデルを生成し、
前記属性項目のパターンと前記予測対象との組み合わせごとに、当該組み合わせに属する前記候補モデルのそれぞれについて前記データセットの一部をテストデータとして使用したテストを行って最も精度が高い前記候補モデルを特定し、
特定の属性項目のパターンおよび特定の予測対象に関する情報と共に前記モデルの構築の要求があった場合、前記特定の属性項目のパターンと前記特定の予測対象との組み合わせについて生成した前記候補モデルのうち、最も精度が高い前記候補モデルの構築に使用した前記データセットとアルゴリズムとに基づいて、前記データセットの一部をテストデータとして用いることなく使用して前記モデルを構築する
ことを特徴とするモデル構築システム。
【請求項2】
前記モデル構築部は、
最も精度が高い前記候補モデルについて、前記候補モデル、または、前記候補モデルに係る前記データセットを、その一部をテストデータとして用いることなく使用して生成した仮モデルを記憶し、
特定の属性項目のパターンおよび特定の予測対象に関する情報と共に前記モデルの構築の要求があった場合、前記特定の属性項目のパターンと前記特定の予測対象との組み合わせについて生成した前記候補モデルのうち、最も精度が高い前記候補モデル、または、最も精度が高い前記候補モデルに対応する前記仮モデルを前記モデルとする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項3】
各個人のリスクまたはニーズに関する個人実績を蓄積した基礎データベースに基づいて生成されたデータセットであって、レコードごとに、個人の属性情報を値として有する属性項目を1つ以上有すると共に、前記個人実績に基づいた実績関連情報を値として有する実績関連項目を1つ以上有する前記データセットに基づいて、1または複数の前記属性情報を入力し、入力した1または複数の前記属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するモデル構築部を備え、
前記モデル構築部は、
特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、各個人のリスクまたはニーズに関する個人実績が蓄積された実績データベースの提供と共に、前記モデルの構築の要求があった場合、
前記特定の属性項目のパターンと前記特定の予測対象との組み合わせについて、前記モデルの構築に使用する前記データセットと前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部をテストデータとして用いることなく使用して仮モデルを生成し、生成した前記仮モデルごとに前記実績データベースを用いたテストを行って前記仮モデルの精度を検証し、最も精度が高い前記仮モデルを前記モデルとする
ことを特徴とするモデル構築システム。
【請求項4】
前記モデル構築部は、
前記モデルに入力する1または複数の前記属性情報に対応する1または複数の前記属性項目のパターンと、前記モデルが前記予測値を出力する前記予測対象と、前記モデルの構築に使用する前記データセットと、前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部を学習データとして使用して候補モデルを生成し、
前記属性項目のパターンと前記予測対象との組み合わせごとに、当該組み合わせに属する前記候補モデルのそれぞれについて前記データセットの一部をテストデータとして使用したテストを行って基準より精度が高い前記候補モデルを特定し、特定した前記候補モデルのそれぞれについて、前記予測対象と前記属性項目のパターンと前記データセットと前記アルゴリズムとの組み合わせを指定するモデル構築情報を生成して記憶し、
特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、各個人のリスクまたはニーズに関する個人実績が蓄積された実績データベースの提供と共に、前記モデルの構築の要求があった場合、
前記特定の属性項目のパターンと前記特定の予測対象との組み合わせに対応する前記モデル構築情報のそれぞれに基づいて、前記データセットの一部をテストデータとして用いることなく使用して仮モデルを生成し、生成した前記仮モデルごとに前記実績データベースを用いたテストを行って前記仮モデルの精度を検証し、最も精度が高い前記仮モデルを前記モデルとする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項5】
前記モデル構築部は、
前記モデルに入力する1または複数の前記属性情報に対応する1または複数の前記属性項目のパターンと、前記モデルが前記予測値を出力する前記予測対象と、前記モデルの構築に使用する前記データセットと、前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部を学習データとして使用して候補モデルを生成し、
前記属性項目のパターンと前記予測対象との組み合わせごとに、当該組み合わせに属する前記候補モデルのそれぞれについて前記データセットの一部をテストデータとして使用したテストを行って基準より精度が高い前記候補モデルを特定し、特定した前記候補モデルのそれぞれについて、前記候補モデル、または、前記候補モデルに係る前記データセットを、その一部をテストデータとして用いることなく使用して生成した仮モデルを記憶し、
特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、各個人のリスクまたはニーズに関する個人実績が蓄積された実績データベースの提供と共に、前記モデルの構築の要求があった場合、
前記特定の属性項目のパターンと前記特定の予測対象との組み合わせに対応する前記候補モデルまたは前記仮モデルのそれぞれについて前記実績データベースを用いたテストを行って前記候補モデルまたは前記仮モデルの精度を検証し、最も精度が高い前記候補モデルまたは前記仮モデルを前記モデルとする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項6】
前記モデル構築部は、
前記実績データベースを用いたテストを行って前記仮モデルの精度を検証したときの検証結果を蓄積し、蓄積した検証結果に基づいて、前記仮モデルの構築に影響を与える各要素の状態を入力とし、高精度の前記仮モデルが構築される確からしさを出力する選択用モデルを構築し、
前記選択用モデルの構築後に前記モデルの構築の要求があった場合、前記仮モデルの構築に影響を与える各要素の状態を入力とする前記選択用モデルの出力により、一定以上の精度の前記仮モデルが構築されると判断できる場合にのみ、前記仮モデルの構築および前記実績データベースを用いたテストを行う
ことを特徴とする請求項からの何れか1項に記載のモデル構築システム。
【請求項7】
前記モデル構築部は、
前記実績データベースを用いたテストを行って前記仮モデルの精度を検証したときの検証結果を蓄積し、蓄積した検証結果に基づいて、前記仮モデルの構築に影響を与える各要素の状態および前記実績データベースに関する各要素の状態を入力とし、高精度の前記仮モデルが構築される確からしさを出力する選択用モデルを構築し、
前記モデルの構築の要求があった場合、前記仮モデルの構築に影響を与える各要素の状態および前記実績データベースに関する各要素の状態を入力とする前記選択用モデルの出力により、一定以上の精度の前記仮モデルが構築されると判断できる場合にのみ、前記仮モデルの構築および前記実績データベースを用いたテストを行う
ことを特徴とする請求項からの何れか1項に記載のモデル構築システム。
【請求項8】
1つ以上の前記基礎データベースに対して所定方法で加工を行って前記データセットを構築するデータセット構築部を更に備え、
前記データセット構築部は、使用する前記基礎データベースまたは使用する前記基礎データベースの組み合わせ、および、加工方法を変更することによって複数の前記データセットを構築し、
前記モデル構築部は、一の前記予測対象に対して、複数の前記データセットを用いて複数の前記モデルを構築する
ことを特徴とする請求項1から7の何れか1項に記載のモデル構築システム。
【請求項9】
前記データセット構築部は、前記データセットを構築する際に、
前記基礎データベースのレコードに新たな項目を追加し、新たに追加した項目の項目値を、既存の項目の項目値を公開情報に基づいて変換した値とする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項10】
前記データセット構築部は、前記データセットを構築する際に、
1つ以上の基礎データベースについて、特定の複数の属性情報をキーとして、他の属性情報または前記実績関連情報を統計学的手法で集計した上で、前記特定の複数の属性情報が共通するレコードをまとめ、
前記1つ以上の基礎データベースとは異なる他の基礎データベース、または、前記他の基礎データベースに基づく前記データセットのレコードに1つ以上の項目を新たに追加すると共に、前記特定の複数の前記属性情報をキーとして、新たに追加した各項目の項目値を前記1つ以上の基礎データベースに基づいて集計した前記他の属性情報または前記実績関連情報とする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項11】
前記データセット構築部は、第1の基礎データベースのレコードが第1の実績関連情報を項目値とする第1の実績関連項目を有し、前記第1の基礎データベースとは異なる第2の基礎データベースのレコードが前記第1の実績関連情報と相関が強い第2の実績関連情報を項目値とする第2の実績関連項目を有している場合には、前記第1の基礎データベースと前記第2の基礎データベースとをマージすることによって前記データセットを構築し、
前記第1の基礎データベースと前記第2の基礎データベースとをマージする際に、レコードに新たに項目を追加し、新たに追加した項目の項目値を、前記第1の実績関連情報と前記第2の実績関連情報とを合成した値とする
ことを特徴とする請求項に記載のモデル構築システム。
【請求項12】
前記データセット構築部は、
前記第1の実績関連情報および前記第2の実績関連情報がそれぞれ正クラスと負クラスとの2値をとる場合、前記モデル構築部による損失関数を用いたモデルの構築にマージ後の前記データセットが利用される際に、前記第1の基礎データベースの正例比率と前記第2の基礎データベースの正例比率との差異が吸収されるように損失関数に付与する重みを算出し、
前記モデル構築部は、マージ後の前記データセットに基づいて損失関数を用いてモデルを構築する場合には、前記データセット構築部により算出された重みを反映して処理を行う
ことを特徴とする請求項11に記載のモデル構築システム。
【請求項13】
前記予測値は、リスクの大きさまたはニーズの大きさを点数によって定量的に表す値であることを特徴とする請求項1から12の何れか1項に記載のモデル構築システム。
【請求項14】
請求項1から13の何れか1項に記載のモデル構築システムにより構築されたモデルを使用して、1または複数の前記属性情報を入力として、入力した1または複数の前記属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力し、出力した予測値を利用した処理を実行する情報処理システム。
【請求項15】
モデルを構築するモデル構築システムを制御するコンピュータにより実行されるプログラムであって、
前記コンピュータを、各個人のリスクまたはニーズに関する個人実績を蓄積した基礎データベースに基づいて生成されたデータセットであって、レコードごとに、個人の属性情報を値として有する属性項目を1つ以上有すると共に、前記個人実績に基づいた実績関連情報を値として有する実績関連項目を1つ以上有する前記データセットに基づいて、1または複数の前記属性情報を入力し、入力した1または複数の前記属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するモデル構築部として機能させ
前記モデル構築部は、
前記モデルに入力する1または複数の前記属性情報に対応する1または複数の前記属性項目のパターンと、前記モデルが前記予測値を出力する前記予測対象と、前記モデルの構築に使用する前記データセットと、前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部を学習データとして使用して候補モデルを生成し、
前記属性項目のパターンと前記予測対象との組み合わせごとに、当該組み合わせに属する前記候補モデルのそれぞれについて前記データセットの一部をテストデータとして使用したテストを行って最も精度が高い前記候補モデルを特定し、
特定の属性項目のパターンおよび特定の予測対象に関する情報と共に前記モデルの構築の要求があった場合、前記特定の属性項目のパターンと前記特定の予測対象との組み合わせについて生成した前記候補モデルのうち、最も精度が高い前記候補モデルの構築に使用した前記データセットとアルゴリズムとに基づいて、前記データセットの一部をテストデータとして用いることなく使用して前記モデルを構築する
ことを特徴とするプログラム。
【請求項16】
モデルを構築するモデル構築システムを制御するコンピュータにより実行されるプログラムであって、
前記コンピュータを、各個人のリスクまたはニーズに関する個人実績を蓄積した基礎データベースに基づいて生成されたデータセットであって、レコードごとに、個人の属性情報を値として有する属性項目を1つ以上有すると共に、前記個人実績に基づいた実績関連情報を値として有する実績関連項目を1つ以上有する前記データセットに基づいて、1または複数の前記属性情報を入力し、入力した1または複数の前記属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するモデル構築部として機能させ、
前記モデル構築部は、
特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、各個人のリスクまたはニーズに関する個人実績が蓄積された実績データベースの提供と共に、前記モデルの構築の要求があった場合、
前記特定の属性項目のパターンと前記特定の予測対象との組み合わせについて、前記モデルの構築に使用する前記データセットと前記モデルの構築に使用するアルゴリズムとの組み合わせごとに、前記データセットの一部をテストデータとして用いることなく使用して仮モデルを生成し、生成した前記仮モデルごとに前記実績データベースを用いたテストを行って前記仮モデルの精度を検証し、最も精度が高い前記仮モデルを前記モデルとする
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するモデル構築システム、このモデル構築システムにより構築されたモデルを使用して処理を実行する情報処理システム、および、モデル構築システムの制御に係るプログラムに関する。
【背景技術】
【0002】
顧客と契約や取引を行う主体にとって、顧客のリスクやニーズを把握したいというニーズが存在する。顧客のリスクとは、例えば、クレジットカードを発行する場合において、貸し倒れや滞納など経済的損害が発生する可能性の大きさのことであり、このことを的確に把握できれば、契約を結ぶか否かや、与信の程度等を適切に判断できることになる。また、顧客のニーズとは、例えば、商品(一例として保険商品や、投資商品等)を提供する場合において、各商品に対する購入意欲のことであり、このことを的確に把握できれば、各商品に係る機会損失を低減し、売り上げを増やすことが可能となる。従来、主体は、ある顧客と契約や取引を行う場合、その顧客の過去の契約や取引の実績に基づいて、顧客のリスクやニーズの把握を試行していた。なお、特許文献1には、リスクに関して、評価対象企業についての財務情報を取得し、取得した財務情報を利用して評価対象企業が経営破たん状態となる確率を算出し提供する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−048236号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のように、顧客の過去の契約や取引の実績に基づいて、顧客のリスクやニーズを把握する方法の場合、過去の契約や取引の実績を取得可能な人物についてのみリスクやニーズの把握が可能であり、新規顧客等の実績を取得できない人物についてはリスクやニーズが把握できず、その点で改善の余地がある。
【0005】
本発明は、このような問題を解決するために成されたものであり、過去の実績について取得できない個人についても、その個人についてのリスクやニーズの判断に利用可能な情報を提供できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
上記した課題を解決するために、本発明では、各個人のリスクまたはニーズに関する個人実績を蓄積した基礎データベースに基づいて生成されたデータセットであって、レコードごとに、個人の属性情報を値として有する属性項目を1つ以上有すると共に、個人実績に基づいた実績関連情報を値として有する実績関連項目を1つ以上有するデータセットに基づいて、1または複数の属性情報を入力し、入力した1または複数の属性情報に対応する個人についてのリスクまたはニーズに関する予測対象の予測値を出力するモデルを構築するようにしている。またモデルの構築に際し、モデルに入力する1または複数の属性情報に対応する1または複数の属性項目のパターンと、モデルが予測値を出力する予測対象と、モデルの構築に使用するデータセットと、モデルの構築に使用するアルゴリズムとの組み合わせごとに、データセットの一部を学習データとして使用して候補モデルを生成し、属性項目のパターンと予測対象との組み合わせごとに、当該組み合わせに属する候補モデルのそれぞれについてデータセットの一部をテストデータとして使用したテストを行って最も精度が高い候補モデルを特定し、特定の属性項目のパターンおよび特定の予測対象に関する情報と共にモデルの構築の要求があった場合、特定の属性項目のパターンと特定の予測対象との組み合わせについて生成した候補モデルのうち、最も精度が高い候補モデルの構築に使用したデータセットとアルゴリズムとに基づいて、データセットの一部をテストデータとして用いることなく使用してモデルを構築するようにしている。或いは、モデルの構築に際し、特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、各個人のリスクまたはニーズに関する個人実績が蓄積された実績データベースの提供と共に、モデルの構築の要求があった場合、特定の属性項目のパターンと特定の予測対象との組み合わせについて、モデルの構築に使用するデータセットとモデルの構築に使用するアルゴリズムとの組み合わせごとに、データセットの一部をテストデータとして用いることなく使用して仮モデルを生成し、生成した仮モデルごとに実績データベースを用いたテストを行って仮モデルの精度を検証し、最も精度が高い仮モデルをモデルとするようにしている。
【発明の効果】
【0007】
上記のように構成した本発明によれば、構築されたモデルは、ある個人のリスクまたはニーズに関する予測対象の予測値を出力する際に、その個人の過去の実績を入力としておらず、新規な顧客であっても取得可能な「属性」を入力としている。このため、構築されたモデルを利用することによって、過去の実績を取得することなく、対象となる個人の属性を利用して、リスクまたはニーズに関する予測対象の予測値、すなわち、対象となる個人についてのリスクやニーズの判断に利用可能な情報を提供できる。
【図面の簡単な説明】
【0008】
図1】本発明の一実施形態に係るモデル構築システムのモデル構成装置の機能構成例を示すブロック図である。
図2】基礎データベース<クレカ>の一例を示す図である。
図3】基礎データベース<家賃滞納>の一例を示す図である。
図4】基礎データベース<生命保険>の一例を示す図である。
図5】データセット<公開情報追加>の一例を示す図である。
図6】補完情報追加用データベースの一例を示す図である。
図7】データセット<公開情報+補完情報追加>の一例を示す図である。
図8】データセット<マージ後>の一例を示す図である。
図9】モデル構築情報と、予測対象、入力属性項目パターン、データセットおよびアルゴリズムとの関係を示す図である。
図10】サービス提供システムの説明に用いる図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を図面に基づいて説明する。図1は、本実施形態に係るモデル構築システム1のモデル構築装置2の機能構成例を示すブロック図である。本実施形態に係るモデル構築装置2は、所定の会社(以下、「運用会社」という)により運用される装置であり、対象となる個人について、後述する所定の情報を入力し、その個人についての「リスクまたはニーズに関する予測対象の予測値」を出力するスコア出力モデルSS(特許請求の範囲の「モデル」に相当)を構築する機能を有している。本実施形態で例示する「リスク」には、「クレジットカードを発行した場合の貸倒れリスク(以下、単に「クレカリスク」という)」、「物件を貸した場合の家賃の滞納リスク(以下、単に「家賃滞納リスク」という)」および「総合リスク」が含まれている。「総合リスク」とは、与信や貸し付けを行った場合に貸倒れや滞納等によって損失が生じる可能性の総合的な大きさを抽象化して表す概念であり、総合リスクが高いほど、契約や取引の内容にかかわらず、貸倒れ等の行為に起因する損失が発生する可能性が高いことが示唆される。
【0010】
後に明らかとなるとおり、本実施形態では、モデル構築装置2により予測対象ごとに異なるスコア出力モデルSSが構築される。そして、「クレカリスクに関する予測対象の予測値」(以下、クレカリスクに関する予測対象を単に「クレカリスク」といい、その予測値を「クレカリスクスコア」という)とは、クレカリスク(貸倒れが発生する可能性の大きさ)をスコア(点数)として表したものである。このように、クレカリスクスコアは、貸倒れが発生する可能性の大きさを確率として表現したものではなく、スコアとして表現したものである。このことは、本実施形態に係る他の予測値についても同様であり、このことを踏まえ、以下ではモデル構築装置2が構築したモデルの出力を予測スコアと表現する場合がある。
【0011】
また、「家賃滞納リスクに関する予測対象の予測値」(以下、家賃滞納リスクに関する予測対象を単に「家賃滞納リスク」といい、その予測スコアを「家賃滞納リスクスコア」という)とは、家賃滞納リスク(家賃の滞納が発生する可能性の大きさ)をスコアとして表したものである。また、「総合リスクに関する予測対象の予測値」(以下、総合リスクに関する予測対象を単に「総合リスク」といい、その予測スコアを「総合リスクスコア」という)とは、総合リスクをスコアとして表したものである。
【0012】
また、本実施形態で例示する「ニーズ」には、「生命保険を購入することについてのニーズ」(以下、単に「生命保険ニーズ」という)および「総合ニーズ」を含んでいる。「総合ニーズ」とは、生命保険や、投資信託、カードローン等の商品、サービスを購入する可能性の総合的な大きさを抽象化して表す概念であり、総合ニーズが高いほど、商品やサービスの種類にかかわらず、商品やサービスを購入する可能性が高いことが示唆される。
【0013】
「生命保険ニーズに関する予測対象の予測値」(以下、生命保険ニーズに関する予測対象を単に「生命保険ニーズ」といい、その予測スコアを「生命保険ニーズスコア」という)とは、生命保険ニーズ(生命保険を購入する可能性の大きさ)をスコアとして表したものである。また、「総合ニーズに関する予測対象の予測値」(以下、総合ニーズに関する予測対象を単に「総合ニーズ」といい、その予測スコアを「総合ニーズスコア」という)とは、総合ニーズをスコアとして表したものである。なお、本実施形態で例示する「リスクまたはニーズ」はあくまで一例であり、本実施形態で例示するものに限定されない。
【0014】
図1に示すように、モデル構築装置2は、機能構成として、データセット構築部3およびモデル構築部4を備えている。上記各機能ブロック3、4は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック3、4は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また、モデル構築装置2は、記憶手段として、基礎データベース記憶部5、データセット記憶部6、モデル構築情報記憶部7、スコア出力モデル記憶部8およびクライアント会社情報記憶部9を備えている。これら記憶手段に記憶されるデータについては後述する。
【0015】
データセット構築部3は、1つ以上の基礎データベースに対して所定方法で加工を行ってデータセットDSを構築する。特に、データセット構築部3は、使用する基礎データベースDBまたは使用する基礎データベースDBの組み合わせ、および、加工方法を変更することによって複数のデータセットDSを構築し、データセット記憶部6に記憶する。基礎データベースDBは、データ提供会社が活動を行う中で収集した各個人のリスクまたはニーズに関する個人実績を蓄積したデータベースである。運用会社は、契約により複数のデータ提供会社から基礎データベースDBの提供を受けることになっており、基礎データベース記憶部5には複数のデータ提供会社から提供を受けた複数の基礎データベースDBが累積的に記憶される。例えば、クレジットカードを発行する会社がデータ提供会社となって、自身が活動を行う中で構築した基礎データベースDBを運用会社に提供する。このため、基礎データベース記憶部5には様々な業種のデータ提供会社から提供された様々な種類の基礎データベースDBが記憶される。また、データ提供会社の増加に応じて、基礎データベースDBの種類および量も増加する。なお、基礎データベース記憶部5に記憶された基礎データベースDBは、適宜、データ提供会社によって情報が提供され、レコードが追加される。
【0016】
図2は、基礎データベースDBの一例である基礎データベース<クレカ>DB1を示す図である。基礎データベース<クレカ>DB1は、クレジットカードを発行するデータ提供会社から提供された基礎データベースDBであり、そのデータ提供会社にとっての顧客ごとにレコードを有している。図2に示すように、基礎データベース<クレカ>DB1のレコードは、項目として性別(項目)、年齢(項目)、郵便番号(項目)、年収(項目)およびクレカ貸倒れ実績(項目)を有する。各項目のうち、性別(項目)、年齢(項目)、郵便番号(項目)および年収(項目)は、顧客の属性を示す項目である。以下、性別(項目)の項目値を「性別値」といい、年齢(項目)の項目値を「年齢値」といい、郵便番号(項目)の項目値を「郵便番号値」といい、年収(項目)の項目値を「年収値」という。また、以下では、基礎データベースDBおよび後述するデータセットDSにおいて、顧客の属性を示す項目を総称して「属性項目」といい、属性項目の項目値を総称して「属性情報」という。
【0017】
クレカ貸倒れ実績(項目)とは、項目値として、クレジットカードの貸倒れの経験の有無を正クラスと負クラスとの2値で表す情報を有する項目である。以下、クレカ貸倒れ実績(項目)の項目値を「クレカ貸倒れ実績値」という。本実施形態では、クレカ貸倒れ実績値は、クレジットカードの貸倒れの経験がある場合に正クラス(図2では「あり」と表現)をとり、経験がない場合に負クラス(図2では「なし」と表現)をとる。以下、基礎データベースDBおよび後述するデータセットDSにおいて、クレカ貸倒れ実績(項目)のように、個人の実績に基づいた情報を項目値として有する項目を、属性項目と区別して「実績関連項目」といい、実績関連項目の項目値を「実績関連情報」という。
【0018】
図3は、基礎データベースDBの一例である基礎データベース<家賃滞納>DB2を示す図である。基礎データベース<家賃滞納>DB2は、不動産の賃貸業や家賃保証事業を営むデータ提供会社から提供された基礎データベースDBであり、そのデータ提供会社にとっての顧客ごとにレコードを有している。図3に示すように、基礎データベース<家賃滞納>DB2のレコードは、項目として性別(項目)、年齢(項目)、市区町村(項目)、業種(項目)および家賃滞納実績(項目)を有する。各項目のうち、性別(項目)、年齢(項目)、市区町村(項目)および業種(項目)は属性項目である。以下、市区町村(項目)の項目値を「市区町村値」という。市区町村値は、住居が属する市区町村を表す値である。また、業種(項目)の項目値を「業種値」という。業種値は、職業の業種を表す値である。家賃滞納実績(項目)とは、項目値として、家賃滞納の経験の有無を正クラスと負クラスとの2値で表す情報を有する実績関連項目である。以下、クレカ貸倒れ実績(項目)の項目値を「クレカ貸倒れ実績値」という。本実施形態では、家賃滞納実績値は、家賃滞納の経験がある場合に正クラス(図3では「あり」と表現)をとり、経験がない場合に負クラス(図3では「なし」と表現)をとる。
【0019】
図4は、基礎データベースDBの一例である基礎データベース<生命保険>DB3を示す図である。基礎データベース<生命保険>DB3は、生命保険を商品の1つとする保険会社やその生命保険商品の販売会社から提供された基礎データベースDBであり、そのデータ提供会社にとっての顧客ごとにレコードを有している。図4に示すように、基礎データベース<生命保険>DB3のレコードは、項目として性別(項目)、年齢(項目)、市区町村(項目)、年収(項目)、婚姻区分(項目)および生命保険購入実績(項目)を有する。各項目のうち、性別(項目)、年齢(項目)、市区町村(項目)、年収(項目)および婚姻区分(項目)は属性項目である。婚姻区分(項目)は既婚/未婚の区分であり、以下、婚姻区分(項目)の項目値を「婚姻区分値」という。生命保険購入実績(項目)とは、項目値として、生命保険を購入した経験の有無を正クラスと負クラスとの2値で表す情報を有する実績関連項目である。以下、生命保険購入実績(項目)の項目値を「生命保険購入実績値」という。本実施形態では、生命保険購入実績値は、生命保険を購入した経験がある場合に正クラス(図4では「あり」と表現)をとり、経験がない場合に負クラス(図4では「なし」と表現)をとる。
【0020】
なお、本実施形態で例示する属性項目や実績関連項目は、あくまで限定された一例である。例えば、属性項目として本実施形態で例示するものの他、居住地の都道府県/地域コード、業種より細かい区分の職業、住宅区分(賃貸、ローン、持ち家等)、子供有無等がある。また、実績関連項目は、本実施形態で例示するものの他、実績に基づき正クラス、負クラス分類可能な項目であればどのようなものでもよい。
【0021】
データセット構築部3は、公開情報追加処理、補完情報追加処理およびマージ処理を行って、基礎データベースDBに基づいてデータセットDSを構築する。以下、各処理について説明する。
【0022】
<公開情報追加処理>
まず、公開情報追加処理について、図2の基礎データベース<クレカ>DB1を対象とする場合を例にして説明する。上述のとおり、基礎データベース<クレカ>DB1のレコードは、項目として郵便番号(項目)を有している。データセット構築部3は、各レコードについて以下の処理を実行する。すなわち、データセット構築部3は、処理対象のレコードの郵便番号(項目)の郵便番号値を取得する。次いで、データセット構築部3は、取得した郵便番号値を、その郵便番号値が示す地域が属する市区町村を示す情報と、その市区町村の人口を示す情報に変換する。本実施形態では、データセット構築部3は、郵便番号ごとに、郵便番号値と、市区町村を示す情報と、政府等の機関により公開された市区町村の人口を示す情報とを対応付けたテーブルを有するサーバにアクセスし、郵便番号値の変換を行う。データセット構築部3は、基礎データベース<クレカ>DB1のレコードに新たな項目として市区町村(項目)および人口(項目)を追加し、これらの項目値を、郵便番号値から変換された市区町村を示す情報、および、郵便番号値から変換された人口を示す情報とする。以下、市区町村(項目)の項目値を市区町村値といい、人口(項目)の項目値を「人口値」という。
【0023】
基礎データベース<クレカ>DB1の各レコードについて以上の処理が行われることにより、図5に示すように、各レコードに属性項目として市区町村(項目)および人口(項目)が追加されたデータセットDSが構築される。以下、図5のデータセットDSを「データセット<公開情報追加>DS1」という。データセット構築部3は、構築したデータセット<公開情報追加>DS1をデータセット記憶部6に記憶する。以上が、公開情報追加処理の単純な一例である。このように、公開情報追加処理では、データセット構築部3は、データセットDSを構築する際に、基礎データベースDB(または、基礎データベースDBに基づいて構築されたデータセットDS)のレコードに新たな項目を追加し、新たに追加した項目の項目値を、既存の項目の項目値を公開情報に基づいて変換した値とする。この公開情報追加処理により、データセットDSの各レコードに対応する各個人の属性情報として、新たな種類の属性情報(本例では、市区町村値および人口値)を追加することができる。
【0024】
ここで、後に明らかとなるとおり、スコア出力モデルSSは、1または複数の属性情報を説明変数とする関数によって構成される。このため、公開情報追加処理によりレコードに新たな属性項目が追加されることによって、変数の候補の多様性を拡充でき、変数の候補が限定されている場合と比較して、精度の高いスコア出力モデルSSを構築できる可能性を向上できる。また、公開情報追加処理によりレコードに新たな属性項目が追加されることによって、後に詳述するように、入力属性項目パターン(後述)の多様性を拡充でき、様々な入力属性項目パターン(後述)のモデル構築情報MM(後述)を生成することができる。また、追加された項目は、個人についての統計学的な分析に利用可能であり、公開情報追加処理により統計学的な分析に利用可能な情報を増やすことがき、統計学的な分析の精度を向上できる。なお、公開情報追加処理によりどのような項目を追加するかは、スコア出力モデルSSの変数としての有用性や、統計学的な分析での利用可能性等が考慮されて決定される。
【0025】
本例では、郵便番号値を公開情報に基づいて市区町村値および人口値に変換する場合を例にして公開情報追加処理を説明したが、公開情報追加処理は、例示した態様に限定されるものではない。公開情報に基づいて変換される情報は、スコア出力モデルSSの変数となり得るか、または、統計学的な分析に利用可能な情報であればよい。例えば、上記例では、公開情報に基づいて変換される情報は、個人の住居が属する市区町村の人口を表す人口値であったが、これは、人口値が何れかの予測対象に影響を与える可能性(一例として、人口が多い地域に住んでいる個人は、人口が僅かな地域に住んでいる個人と比較してクレジットカードの貸倒れを起こしやすい傾向がある、といったこと)があることに基づくものである。また、公開情報は、政府統計や土地情報等の公開された情報であればよい。この場合において、政府統計とは、就業率や、世帯年収、自治体財政、病院数、事故数などがある。また、土地情報とは、土地価格や用途、都市計画情報などがある。この他、公開情報として、生活に関する情報等、属性情報を変換可能な情報を広く採用できる。また、サーバにアクセスして、このサーバから変換に必要な情報を取得して情報の変換が行われる構成であったが、モデル構築装置2に事前に登録されたテーブルに基づいて変換が行われる構成でもよい。
【0026】
<補完情報追加処理>
次に、補完情報追加処理について、図5のデータセット<公開情報追加>DS1に、図4の基礎データベース<生命保険>DB3に基づく補完情報を追加する場合を例にして説明する。なお、本実施形態では、データセットDS(つまり、基礎データベースDBが加工されたデータ)に補完情報を追加する場合を例にするが、加工が行われていない基礎データベースDBに補完情報が追加されてもよい。どの基礎データベースDB(または基礎データベースDBに基づくデータセットDS)に、どの基礎データベースDBに基づく補完情報を追加するのかは、例えば、運用会社の担当者により指定される。この場合、補完情報が追加される基礎データベースDB(またはデータセットDS)は、一例として、レコード数が最も多いデータとされる。
【0027】
上述したように、基礎データベース<生命保険>DB3のレコードは、属性項目として性別(項目)、年齢(項目)、市区町村(項目)、年収(項目)および婚姻区分(項目)を有している。データセット構築部3は、基礎データベース<生命保険>DB3のレコードが有する属性項目のうち、データセット<公開情報追加>DS1のレコードが共通して有している項目の一部または全部の組み合わせを単位項目群として決定する。例えば、互いに共通する全ての項目が単位項目群として決定され、また例えば、運用会社の担当者により単位項目群に含める項目が決定される。本例では、データセット構築部3は、性別(項目)、年齢(項目)および市区町村(項目)を単位項目群として決定するものとする。
【0028】
次いで、データセット構築部3は、基礎データベース<生命保険>DB3の各レコードについて、単位項目群の各項目の各項目値(特許請求の範囲の「特定の複数の属性情報」に相当)をキーとして、各項目値が一致するレコードを1つにまとめる処理を行う。その際、データセット構築部3は、まとめられたレコードにおいて年収(項目)、婚姻区分(項目)および生命保険購入実績(項目)を削除する一方、平均年収(項目)、推定婚姻確率(項目)および生命保険購入傾向(項目)を新たに追加する。
【0029】
データセット構築部3は、平均年収(項目)の項目値(以下、「平均年収値」という)を、まとめられた各レコードの年収(項目)の年収値の平均とする。なお、本実施形態では、平均値としているが、平均値以外に、中央値などの統計学的手法により算出された値を使用することも可能である。また、データセット構築部3は、推定婚姻確率(項目)の項目値(以下、「推定婚姻確率値」という)を、まとめられた各レコードの婚姻区分値に基づいて統計学的な手法により算出された、婚姻している可能性を割合として表した数値とする。また、データセット構築部3は、生命保険購入傾向(項目)の項目値(以下、「生命保険購入傾向値」という)を、まとめられた各レコードの生命保険購入実績値に基づいて統計学的な手法により算出された、生命保険を購入する可能性を割合として表した数値とする。以上のように、データセット構築部3は、基礎データベース<生命保険>DB3について、単位項目群の各項目の各項目値をキーとして、年収値(属性情報)、婚姻区分値(属性情報)、および、生命保険購入実績値(実績関連情報)を統計学的手法で集計した上で、単位項目群の各項目の各項目値が共通するレコードをまとめる。
【0030】
図6は、図4の基礎データベース<生命保険>DB3を対象として上記処理が行われた結果、生成される補完情報追加用データベースHK1を示している。図6の補完情報追加用データベースHK1の1件目のレコードR61は、図4の基礎データベース<生命保険>DB3の1件目のレコードR41と5件目のレコードR45とがまとめられて生成されたレコードであり、レコードR61の平均年収値、推定婚姻確率値および生命保険購入傾向値はそれぞれ、レコードR41およびレコードR45に基づいて算出されている。なお、本実施形態では、平均年収値や、推定婚姻確率値等の補完情報は、1つの基礎データベースDB(基礎データベース<生命保険>DB3)に基づいて生成されていた。これを、複数の基礎データベースDBに基づいて、単位項目群に対応する補完情報を生成する構成としてもよい。複数の基礎データベースDBは、一例として、対象となる補完情報の生成に利用可能な全ての基礎データベースDBである。そして、複数の基礎データベースDBに基づいて補完情報を生成する場合、基礎データベースDBごとに重みを変えた加重平均により補完情報の値を算出するようにすることが可能である。このように、様々な基礎データベースDBで算出された平均値の加重平均をとることにより、補完情報を、様々な基礎データベースDBの内容が反映された実態に近しい推定値とすることができる。なお、統計学的な手法は、加重平均値に限らず、例えば、中央値または中央平均値であってもよい。
【0031】
補完情報追加用データベースHK1を構築した後、データセット構築部3は、データセット<公開情報追加>DS1の各レコードに、項目として平均年収(項目)、推定婚姻確率(項目)、生命保険購入傾向(項目)および収入差分(項目)を追加する。そして、データセット構築部3は、データセット<公開情報追加>DS1の各レコードの平均年収(項目)、推定婚姻確率(項目)および生命保険購入傾向(項目)に、補完情報追加用データベースHK1のレコードのうち単位項目群の各項目の各項目値が一致するレコードの平均年収値、推定婚姻確率値および生命保険購入傾向値を格納する。更に、データセット構築部3は、データセット<公開情報追加>DS1の各レコードの収入差分(項目)に、各レコードの年収値から平均年収値を引いた値(以下、「収入差分値」という)を項目値として格納する。
【0032】
以上の処理により、図7に示すように、データセット<公開情報追加>DS1の各レコードに項目として平均年収(項目)、推定婚姻確率(項目)、生命保険購入傾向(項目)および収入差分(項目)が追加されたデータセットDSが構築される。以下、図7のデータセットDSをデータセット<公開情報+補完情報追加>DS2という。図7のデータセット<公開情報+補完情報追加>DS2の1件目のレコードR71は、図5のデータセット<公開情報追加>DS1の1件目のレコードR51に、図6の補完情報追加用データベースHK1の1件目のレコードR61に基づく情報が追加されて生成されたレコードである。なお、平均年収(項目)、推定婚姻確率(項目)および収入差分(項目)は、属性項目であり(従って、その項目値は属性情報である)、生命保険購入傾向(項目)は、実績関連項目である(従って、その項目値は実績関連情報である)。
【0033】
データセット構築部3は、構築したデータセット<公開情報+補完情報追加>DS2をデータセット記憶部6に記憶する。以上が、補完情報追加処理の一例である。この補完情報追加処理によれば、一の基礎データベースDB(または、当該一の基礎データベースDBに基づいて構築されたデータセットDS)の各レコードに対して、当該一の基礎データベースDBとは異なる他の基礎データベースDBに基づいて、属性情報や実績関連情報を追加できる。なお、情報の追加にあたって、追加元のデータベースのレコードと追加先のデータベースのレコードとの間での単位項目群の一致性が判断されるため、情報を追加することの妥当性は担保される。
【0034】
補完情報追加処理によりレコードに新たな属性項目や実績関連項目が追加されることによって、スコア出力モデルSSの変数の候補の多様性を拡充でき、変数の候補が限定されている場合と比較して、精度の高いスコア出力モデルSSを構築できる可能性を向上できる。また、補完情報追加処理によりレコードに新たな属性項目が追加されることによって、後に詳述するように、入力属性項目パターン(後述)の多様性を拡充でき、様々な入力属性項目パターン(後述)のモデル構築情報MM(後述)を生成することができる。また、追加された項目は、個人についての統計学的な分析に利用可能であるため、補完情報追加処理により統計学的な分析に利用可能な情報を増やすことがき、統計学的な分析の精度を向上できる。特に、本実施形態では、運用会社は、異なる複数の会社から基礎データベースDBの提供を受けており、異なる個人を対象として異なる目的を持って構築された異なる複数の基礎データベースDBを収集可能な環境にある。補完情報追加処理は、運用会社がこのような環境にあることが好適に活用して行われる処理である。
【0035】
なお、平均年収値や、推定婚姻確率値について、これらの算出の基礎となる年収値や、婚姻区分値の個数が十分にある場合(まとめられるレコードの個数が十分にある場合)は、平均年収値や、推定婚姻確率値も統計学的に信頼性のある値となるが、個数が十分でない場合は、平均年収値や、推定婚姻確率値の統計学的な信頼性が問題となる。例えば、平均年収値について、基礎となる年収値が1つしかない場合、「平均」という統計的性質を欠くことになる。これを踏まえ、データセット構築部3が、補完情報追加処理において、新たに追加した項目の項目値を統計学的手法で集計することに変えて、以下の処理を行う構成でもよい。
【0036】
説明の簡易化のため、基礎データベースXのレコードに平均年収(項目)を追加する場合を例にして説明すると、まず、基礎データベース記憶部5に記憶された種々の基礎データベースDBに基づいて、複数の属性項目(ただし、基礎データベースXのレコードに含まれる属性項目とする)の属性情報を入力とし、その複数の属性情報を有する個人の平均年収を予測するモデルが生成される。モデルは、例えば、機械学習モデル(または統計モデル)とされる。基礎データベースDBは、項目として、当該複数の属性項目および年収(項目)を有しているものの中から選択される。そして、データセット構築部3は、基礎データベースXの一のレコードに追加した平均年収(項目)の項目値を、当該一のレコードの複数の属性項目の属性情報を当該モデルに入力して得られた平均年収の予測値とする。以上の処理を行う構成でもよい。
【0037】
また、本例では、図5のデータセット<公開情報追加>DS1に、図4の基礎データベース<生命保険>DB3に基づく補完情報を追加する場合を例にして補完情報追加処理を説明したが、補完情報追加処理は、例示した態様に限定されるものではない。例えば、新たにレコードに追加される項目は、例示した平均年収(項目)や、推定婚姻確率(項目)、生命保険購入傾向(項目)に限らず、基礎データベースDBのレコードが有する項目に基づいて適切に定められる。
【0038】
<マージ処理>
次に、マージ処理について、図2の基礎データベース<クレカ>DB1と図3の基礎データベース<家賃滞納>DB2とをマージする場合を例にして説明する。マージ処理とは、異なる2つの基礎データベースDBをマージする処理である。以下で説明するマージ処理は、例えば、運用会社の担当者により、基礎データベース<クレカ>DB1と、基礎データベース<家賃滞納>DB2とが指定された上で、処理の開始が指示されたことをトリガとして実行される。
【0039】
データセット構築部3は、基礎データベース<クレカ>DB1と基礎データベース<家賃滞納>DB2とをマージするにあたって、まず、各データベースの実績関連情報の相関の強さを検証する。本例において、実績関連情報の相関の強さ、つまり、クレカ貸倒れ実績値と家賃滞納実績値との相関の強さとは、共通する人物によるクレジットカードの貸倒れの経験の有無と、家賃を滞納した経験の有無との相関の強さを意味し、クレジットカードの貸倒れを経験した人物が同時に家賃を滞納した経験をしている可能性が高いほど相関が強いものとされる。各データベースの実績関連情報の相関の強さの検証は、どのような方法で行われてもよい。例えば、各データベースの各レコードを入力とし、各データベースの実績関連情報の相関の強さを示す情報を出力とする計算式が用いられて行われる。この計算式は、一例として、複数の属性情報の組み合わせごとに、その複数の属性情報の組み合わせを有する人物がクレジットカードの貸倒れと家賃滞納とを同時に経験する可能性の高さを算出し、属性情報の組み合わせによらず、クレジットカードの貸倒れと家賃滞納とが共に発生する強い傾向があれば、相関が強いと判定する計算式である。この他、実績関連情報の組み合わせごとに、実績関連情報の組み合わせと、相関の強さを示す情報とが対応付けられたテーブルが事前に登録され、このテーブルを用いて各データベースの実績関連情報の相関の強さが検証される構成でもよい。また、以下の構成でもよい。すなわち、まず、基礎データベース<クレカ>DB1に基づいて、1つ以上の属性情報を入力とし、クレジットカードの貸倒れを引き起こす可能性の高さ(便宜的に「推定クレカ貸倒れ確率」と表現する)を出力とするモデル(このモデルを便宜的に「モデル<クレカ貸倒れ>」と表現する)が構築される。このモデル<クレカ貸倒れ>に、基礎データベース<家賃滞納>DB2の各レコードの対応する1つ以上の属性情報を入力し、得られた推定クレカ貸倒れ確率と、各レコードの家賃滞納実績値との相関性、および、その逆の相関性を分析し、分析結果に基づいて相関の強さを判定する構成でもよい。
【0040】
各データベースの実績関連情報に一定以上の強い相関がない場合には、データセット構築部3は、各データベースをマージしない。一方で、各データベースの実績関連情報に一定以上の強い相関がある場合(本例では、一定以上の相関があるものとする)、データセット構築部3は、以下の態様で各データベースをマージしてデータセットDSを構築する。
【0041】
図8は、図2の基礎データベース<クレカ>DB1(ただし、図2で内容が明示されている4件のレコードしかないものとする)と、図3の基礎データベース<家賃滞納>DB2(ただし、図3で内容が4件のレコードしかないものとする)とがマージされることによって構築されたデータセットDSを示す図である。以下、図8のデータセットDSをデータセット<マージ後>DS3という。図8のデータセット<マージ後>DS3において、レコードR81〜R84はそれぞれ、図2の基礎データベース<クレカ>DB1のレコードR21〜R24のそれぞれに対応する。また、図8のデータセット<マージ後>DS3において、レコードR85〜R88はそれぞれ、図3の基礎データベース<家賃滞納>DB2のレコードR31〜R34のそれぞれに対応する。
【0042】
図8に示すように、マージは、基本的には、一方のデータベースの各レコードに、他方のデータベースの各レコードが追加される形で行われる。その際、後述のとおり、属性項目の追加と、実績関連項目の置き換えが行われる。また、図8に示すように、データセット<マージ後>DS3の各レコードには、各データベースのレコードが有する全ての種類の属性項目が含まれるようにされる(属性情報が取得できない属性項目については適宜ヌル値とされる。)。
【0043】
更に、図8に示すように、データセット<マージ後>DS3のレコードには、項目として、各データベースの各実績関連項目が含められず、代わりに各実績関連項目が合成された総合リスク(項目)が含められる。図8に示すように、データセット構築部3は、各レコードの総合リスク(項目)の項目値(以下、「総合リスク値」という)を、以下の値とする。すなわち、データセット構築部3は、基礎データベース<クレカ>DB1に基づくレコードR81〜R84の総合リスク値を、クレカ貸倒れ実績値と同じにする。また、データセット構築部3は、基礎データベース<家賃滞納>に基づくレコードR85〜R88の総合リスク値を、家賃滞納実績値と同じにする。この結果、総合リスク値は、クレカ貸倒れ実績値と家賃滞納実績値をそのまま引き継いだ値となる。なお、総合リスク(項目)は実績関連項目であり、総合リスク値は実績関連情報である。
【0044】
基礎データベースDBのマージは、各データベースの実績関連情報の相関が高い場合に行われるため、異なる種類のリスクに係る実績関連情報が合成された総合リスク値は、総合的なリスク(与信や貸し付けを行った場合に貸倒れや滞納等によって損失が生じる可能性)の大きさを表す値として使用できる。なお、本例では、総合リスク値は、2種類のリスクに係る項目値を合成したものであるが、3つ以上の基礎データベースDBがマージされる場合には、3種類以上の項目値が合成されることになる。基本的には、合成される項目値の種類が増えるほど、総合リスク値の妥当性が強化されることになる。また、本例では、総合リスク(項目)について説明したが、マージされる各基礎データベースDBの実績関連項目が共にニーズ(商品やサービスを購入する可能性)に係る項目である場合には、これら項目が合成されることによって総合ニーズ(項目)が新たにレコードに追加される。
【0045】
更に、図8に示すように、データセット<マージ後>DS3の各レコードには、項目として重み(項目)が含められ、重み(項目)には項目値として重み値が格納される。データセット構築部3は、マージされた各基礎データベースDBの実績関連項目の実績関連情報が正クラスと負クラスとの2値をとる場合に、レコードに重み(項目)を追加する。重み値とは、データセット<マージ後>DS3(これに基づいて生成されるデータセットDSを含む)の各レコードが、損失関数を用いたスコア出力モデルSSを学習する際の学習データとして利用されるにあたって、基礎データベース<クレカ>DB1の正例比率と基礎データベース<家賃滞納>DB2の正例比率との差異が吸収されるように損失関数に付与される「重み」のことである。損失関数に重み値が反映されるため、正例比率が異なる複数の基礎データベースDBをマージして構築されたデータセットDSをスコア出力モデルSSの学習データとして用いることが可能である。以下、重み値の算出方法の一例について説明する。
【0046】
今、基礎データベース<クレカ>DB1では、X%の割合でクレカ貸倒れ実績値が正クラス(この場合、正例比率(正クラスである比率)はX%である)であるとする。一方、基礎データベース<家賃滞納>DB2の正例比率はY%であるとする。X%≠Y%の場合、基礎データベース<クレカ>DB1の正例比率と基礎データベース<家賃滞納>DB2の正例比率とは相違していることになる。この場合において、データセット構築部3は、まず、基礎データベース<クレカ>DB1をランダムにいくつかのサブセットに分割する。分割数は、基礎データベース<クレカ>DB1のレコード数によって適切に定められるべきものであるが、説明の単純化、明確化のため、本例ではサブセットSA1〜SA4に4分割するとする。なお、この際、データセット構築部3は、サブセット間の正例比率が大きくばらつかないように調整する。次いで、データセット構築部3は、サブセットSA1〜SA3を用いてモデルMA1を構築する。データセット構築部3は、このモデルMA1にサブセットSA4に適用し、予測値を得る。データセット構築部3は、この作業を、サブセットを変えながら、4回行うことにより、基礎データベース<クレカ>DB1の全てのレコードに対して予測値を得る。データセット構築部3は、4回分の予測値の平均WAを算出する。この平均WAは、予測値が正クラスとなる確率と言える。
【0047】
次いで、データセット構築部3は、基礎データベース<家賃滞納>DB2に対しても、同様の方法でサブセットの分割、サブセットの組み合わせごとのモデルの構築と予測値の取得を行い、予測値の平均WBを算出する。データセット構築部3は、予測値の平均WAと予測値の平均WBとの比率を算出する。なお、比率の計算においては、数値の大きい方を分子、数値の小さい方を分母とする。予測値の平均WAが「0.025」、予測値の平均WBが「0.02」の場合、比率は、「0.025/0.02=1.25」となる。データセット構築部3は、予測値の平均WAと予測値の平均WBとの比率に基づいて、基礎データベース<クレカ>DB1に基づくレコードの重み値、および、基礎データベース<家賃滞納>DB2に基づくレコードの重み値を算出する。例えば、当該比率が「1.25」の場合、基礎データベース<クレカ>DB1に基づくレコードには重み値として「1」を、基礎データベース<家賃滞納>DB2に基づくレコードには重み値として「1.25」を付与する。以上が、重み値の算出方法の一例である。
【0048】
以上、図2の基礎データベース<クレカ>DB1と図3の基礎データベース<家賃滞納>DB2とをマージする場合を例にしてマージ処理について説明した。マージ処理によって生成されたデータセットDSに対して、公開情報追加処理や、補完情報処理、また、更に異なる基礎データベースDB(または基礎データベースDBに基づくデータセットDS)をマージするマージ処理が行われることにより、各レコードの項目が増大、充実していき、また、データセットDSの件数が増大していくことになる。
【0049】
以上、データセット構築部3がデータセットDSを構築する際に実行可能な公開情報追加処理、補完情報追加処理、および、マージ処理を説明した。データセット構築部3は、基礎データベース記憶部5に記憶された複数の基礎データベースDBを利用して、上記処理を様々な態様で行って、複数のデータセットDSを構築し、データセット記憶部6に記憶する。例えば、運用会社の担当者により、どの基礎データベースDBをどのような態様で使用するのか、および、どの処理をどのような態様で実行するのかが指定され、データセット構築部3は、指定に従ってデータセットDSを構築し、データセット記憶部6に記憶する。この結果、予測対象のスコア出力モデルSSの構築(学習)に用いられる学習データとしての適格性を有した様々な種類のデータセットDSが構築され、データセット記憶部6に記憶される。なお、データセット記憶部6に記憶されたデータセットDSは、適宜、元の基礎データベースDBのレコードの増加に応じて、レコードが追加される。
【0050】
モデル構築部4は、後述する工程を経て、クライアント会社に適したスコア出力モデルSSを構築し、スコア出力モデル記憶部8に記憶する。クライアント会社とは、スコア出力モデルSSを使用したサービスの提供を受けることを希望する会社を意味する。また、本実施形態に係るスコア出力モデルSSは、1または複数の属性情報を入力し、ある特定の予測対象の予測スコアを出力するモデルである。つまり、スコア出力モデルSSは、1または複数の属性情報を入力とし、入力された1または複数の属性情報が示す属性を全て有する個人について、特定の予測対象に対するリスクまたはニーズの大きさやそのリスクやニーズが具現化する確からしさを表すスコア(点数)を出力するものである。
【0051】
例えば、上述のとおり、本実施形態における予測対象の1つは「クレカリスク」であるが、クレカリスクに係るスコア出力モデルSSは、1または複数の属性情報を入力とし、クレカリスクスコアを出力とする。このクレカリスクスコアは、入力された1または複数の属性情報を全て有する個人(一例として、年齢が30才、性別が男性、郵便番号が12…の個人)に対してクレジットカードを発行した場合に、貸倒れが発生するリスクを点数化された値によって定量的に表すものである。
【0052】
ここで、スコア出力モデルSSは、その内部で、中間出力として、予測対象に対応する確率を出力する。例えば、クレカリスクに係るスコア出力モデルSSは、中間出力として、貸倒れが発生する‘確率’を出力する。この中間出力を最終的な出力とすることも可能であるが、この場合、精度の高いモデルでは、出力が「0」または「1」に偏る分布をするため、例えば、0.5付近における「0.01」の差と、「0.98」付近における「0.01」の差とでは同じ「0.01」でも意味あいが全く異なる。このことを考慮し、スコア出力モデルSSは、その内部で、対数を用いた変換式により、確率である中間出力をスコア化(点数化)する。
【0053】
具体的な一例として、変換式は、「W×LOG(p/(1−p))」とされる。なお、Wはスコア係数、pは確率である中間出力である。また、LOGの底は「2」を用いる(ただし、「2」に限られない)。スコア係数とは、スコアの幅を定義する係数で、例えば、スコア係数として「100」を用いた場合、スコアは「0〜1000」程度に分布する。スコア分布を考慮し、スコア係数を調整することによって、スコアの上限を設定することが可能である。なお、下限は一般に「0」である。正例比率が低いデータセットDSの場合は、スコアの上限を「1500」や「2000」とすることもできる。これは、上限値に集中するような分布では、正しくスコアを活用できないためである。基本的には、上限値となるレコード数が「上限値−10」〜「上限値−1」となるレコード数より多くならないように設定する。ただし、中間出力をスコア化する変換式や、スコアの幅、スコアの上、下限値等は、例示したものに限られない。
【0054】
本実施形態では、スコア出力モデルSSは、1または複数の属性情報を説明変数とし、各変数を調整するパラメータを含む関数であって、予測対象の予測値を目的変数とする関数によって構成される。そして、スコア出力モデルSSを構築するとは、データセットDSを用いた学習によってスコア出力モデルSSの各パラメータの値を調整し、決定することを意味する。以下では、スコア出力モデルSSに入力される1または複数の属性情報に対応する属性項目のパターンを「入力属性項目パターン」という。
【0055】
モデル構築部4の処理は、大きく分けてモデル構築情報生成工程と、モデル選択/構築工程との2つに分けることができる。以下、各工程について順次、説明する。
【0056】
<モデル構築情報生成工程>
まず、モデル構築情報生成工程について説明する。モデル構築情報生成工程では、モデル構築部4は、予測対象と、入力属性項目パターンと、モデルの構築(学習)に使用するデータセットDSと、モデルの構築(学習)に使用するアルゴリズムとの組み合わせごとに、モデル構築情報MMを生成する。図9は、モデル構築情報と、予測対象、入力属性項目パターン、データセットDSおよびアルゴリズムとの関係を示す図である。モデル構築情報MMは、予測対象、入力属性項目パターン、データセットDSおよびアルゴリズムを指定する情報である。例えば、図9のモデル構築情報MMaは、予測対象Ya、入力属性項目パターンNa、データセットDSaおよびアルゴリズムAaを指定する情報である。
【0057】
なお、予測対象と入力属性項目パターンとの組み合わせは膨大な数になる可能性があるが、どのような組み合わせのスコア出力モデルSSが将来的に必要になるか(クライアント会社によって所望されるか)等が考慮されて、不必要に多大とならず、かつ、クライアント会社が必要とする可能性のあるスコア出力モデルSSに対応する予測対象と入力属性項目パターンとの組み合わせが網羅されるように運用会社の担当者により選択される。また、データセットDSの選択は、データセットDSのレコードが予測対象に対応する実績関連項目を有していること(例えば、予測対象がクレカリスクの場合、クレカリスクと対応するクレジットカード貸倒れ実績(項目)を有していること)や、レコードが入力属性項目パターンに対応する項目を有していること等が考慮されて適切に行われる。なお、十分な適格性を有するデータセットDSが複数、存在する場合には、複数のデータセットDSが選択される場合もある。また、アルゴリズムとして、モデルの構築(学習)に適用可能なアルゴリズムが複数、用意される。アルゴリズムは、例えば、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング、SVM、ナイーブベイズ、ディープラーニングや、これらを応用したもの、これらを組み合わせたものである(当然、例示したものに限られない)。
【0058】
モデル構築部4は、ある1つのモデル構築情報MMに基づいて、当該情報が指定する入力属性項目パターンに対応する属性情報を説明変数とし、当該情報が指定する予測対象の予測値を目的変数とするモデルについて、当該情報が指定するデータセットDSを使用して、当該情報が指定するアルゴリズムによってモデルの学習を行い、これにより、モデルを構築する(最終的なパラメータを決定する)ことができる。なお、以下では、データセットDSの一部を学習データとして使用し一部をテストデータとして使用して構築されるモデルを「候補モデル」と表現し、データセットDSの全部を学習データと使用して構築されるモデルを「仮モデル」と表現し、これらを区別している(詳細は後に明らかになる)。
【0059】
図9に示すように、基本的には、モデル構築情報MMは、予測対象と入力属性項目パターンとデータセットDSとアルゴリズムとの組み合わせごとに生成されることになる。ただし、モデル構築部4は、モデル構築情報MMに基づいて生成される候補モデルの精度が一定よりも低い場合には、そのモデル構築情報MMについて破棄する(モデル構築情報記憶部7に記憶しない)。また、モデル構築部4は、予測対象と入力属性項目パターンとの組み合わせごとに、当該組み合わせに属する複数のモデル構築情報MM(図9に示すように、基本的にはデータセットDSとアルゴリズムとの組み合わせごとに存在する)のうち、構築される候補モデルの精度が最も高いものをプリセットモデル情報として特定する。以下、所定のモデル構築情報MMについて破棄する処理、および、プリセットモデル情報を特定する処理について説明する。
【0060】
あるモデル構築情報MMを処理対象とする場合、モデル構築部4は、モデル構築情報に基づいて候補モデルを構築する。候補モデルを生成する処理について詳述すると、モデル構築部4は、モデル構築情報MMで指定されたアルゴリズム(以下、「対象アルゴリズム」という)に応じて、モデル構築情報MMで指定されたデータセットDS(以下、「対象データセット」という)のレコードのそれぞれを単位処理用データに変換し、バッファに記憶する。単位処理用データとは、対象データセットのレコードの不必要な情報が削除された上で、対象アルゴリズムを用いたモデルの学習に利用可能な形式に変換され、かつ、正解ラベルが付与されたデータである。
【0061】
例えば、単位処理用データは、入力属性項目パターンの各項目の各項目値の特徴を数値列として表現した特徴ベクトルに、実績関連情報に基づいて正解ラベルが付与されたデータである。この場合、特徴ベクトルの各要素は、入力属性項目パターンの各項目の各項目値に対応し、各要素が候補モデルの説明変数となる。また、モデル構築部4は、対象データセットのレコードが重み(項目)を有している場合(つまり、対象データセットが異なる複数の基礎データベースDBがマージされて構築されたものである場合)には、単位処理用データと対応付けて重み値を記憶する。以下、対象データセットに基づいて生成された単位処理用データの集合を「処理用データ群」という。
【0062】
次いで、モデル構築部4は、処理用データ群をランダムに分割する。本例では、分割の割合を25:75とする。なお、分割にあたっては、分割後の各部分の正例比率が大きく異ならないように調整する。次いで、モデル構築部4は、分割後の75%のデータを学習データとして、対象アルゴリズムを用いて候補モデルを構築する。また、モデル構築部4は、損失関数を用いて算出されたロス値を低減する方法(一例として、確率的勾配降下法)でパラメータを調整していく場合には、重み値に基づいて各単位処理用データの正クラスと負クラスに付与する重みを適切に調整する。
【0063】
次いで、モデル構築部4は、残りの25%をテストデータとして、生成された候補モデルの精度を検証する。モデル構築部4は、候補モデルの精度の検証を、例えばAUC(Area Under the ROC Curve)、KS(Kolmogorov-Smirnov)、F1値、Log−Loss等の評価指標を用いて行う(当然、候補モデルを評価する方法は例示した方法に限られない)。また、モデル構築部4は、必要に応じて、学習データとテストデータとをランダムに入れ替えて評価する交差検証法を用いて、候補モデルの精度を検証する。本実施形態では、説明の便宜のため、候補モデルの精度は、ある評価指標が用いられ、定量的な値である「候補モデル精度値」として算出されるものとされる。
【0064】
モデル構築部4は、候補モデル精度値が基準に満たない場合、モデル構築情報MMを破棄し、このモデル構築情報MMをモデル構築情報記憶部7に記憶しない。一方、モデル構築部4は、候補モデル精度値が基準を満たす場合(基準より精度が高い場合)、モデル構築情報MMに、候補モデル精度値を追記する。
【0065】
以上のようにして、候補モデル精度値が基準に満たないモデル構築情報MMを破棄し、満たすモデル構築情報MMに候補モデル精度値を追記した後、モデル構築部4は、予測対象と入力属性項目パターンとの組み合わせごとに、当該組み合わせに属するモデル構築情報MMのうち、候補モデル精度値が最も高いモデル構築情報MMを特定する。以下、ここで、特定されたモデル構築情報MMを「プリセットモデル情報」という。例えば、図9の例では、モデル構築部4は、予測対象Yaと入力属性項目パターンNaとの組み合わせに属するモデル構築情報MMの群G1の中から候補モデル精度値が最も高いモデル構築情報MMをプリセットモデル情報として決定する。更にモデル構築部4は、予測対象Yaと入力属性項目パターンNbとの組み合わせに属するモデル構築情報MMの群G2の中から候補モデル精度値が最も高いモデル構築情報MMをプリセットモデル情報として決定する。
【0066】
<モデル選択/構築工程>
モデル選択/構築工程では、モデル構築部4は、クライアント会社から提供を受けた情報に基づいて、そのクライアント会社に適したモデル構築情報MMを選択し、選択したモデル構築情報MMに基づいてスコア出力モデルSSを構築する。以下、クライアント会社がクレジットカード発行会社であり、そのクライアント会社に適したモデル構築情報MMを選択し、モデル構築情報MMに基づいてクレカリスクスコアを出力とするスコア出力モデルSSを構築する場合を例にして、モデル構築部4の処理について説明する。なお、このクライアント会社は、少なくとも、属性項目として、性別(項目)、年齢(項目)および市区町村(項目)を有し、かつ、実績関連項目としてクレカ貸倒れ実績(項目)を有するレコードが蓄積された実績データベースを保有しているものとする。
【0067】
まず、クライアント会社に対して、属性項目の組み合わせ、および、予測スコアを取得することを望む予測対象を選択し入力する入力欄を有するインターフェースが提供される。スコア出力モデルSSを使用したサービスは、基本的には、1つ以上の属性情報を有する個人の予測スコア(本例では、クレカリスクスコア)の提供の要求があり、それに応じて予測スコアを提供するというものである。これを踏まえ、クライアント会社は、自身が管理する実績データベースのレコードが有する属性項目の組み合わせ(ただし、取捨選択が行われてもよい)を選択し、インターフェースの入力欄に入力する。本例では、性別(項目)、年齢(項目)および市区町村(項目)の組み合わせが入力されたものとする。また、クライントは、予測スコアを取得することを望む予測対象として、クレカ貸倒れリスクを選択し、入力する。
【0068】
なお、項目によっては、運用会社とクライアント会社とで異なる方法で項目値が表現されるものがある。例えば、年齢(項目)は、その項目値が1才刻みの具体的な年齢として表現される場合もあれば、三十代というように10才刻みで表現される場合もあり、また、若年層、中年層といった年代によって表現される場合もある。これを踏まえ、異なる方法で項目値を表現可能な項目については、その表現方法を選択して入力する欄がインターフェースに設けられている。また、クライアント会社は、所定の手段で、自身が保有する実績データベースをモデル構築装置2にアップロードする。クライアント会社により入力された属性項目の組み合わせ(以下、「選択属性項目パターン」という)、入力された予測対象(以下、「選択予測対象」という)、特定の項目について表現方法が指定されている場合におけるその表現方法を示す情報、および、実績データベース(以下、これらをまとめて「クライアント会社関連情報」という)は、クライアント会社情報記憶部9に記憶される。
【0069】
モデル構築部4が、クライアント会社に適したスコア出力モデルSSを構築する方法は、第1〜第4の方法の4つある。以下、方法ごとに順次、説明する。第1の方法では、モデル構築部4は、クライアント会社情報記憶部9に記憶されたクライアント会社関連情報を参照し、選択予測対象と選択属性項目パターンとの組み合わせを取得する。次いで、モデル構築部4は、モデル構築情報記憶部7に記憶された選択予測対象と選択属性項目パターンとの組み合わせに属するモデル構築情報MMのうち、プリセットモデル情報をモデル構築情報MMとして選択する。本例では、モデル構築部4は、性別(項目)、年齢(項目)および市区町村(項目)の組み合わせを入力属性項目として指定し、クレカリスクを予測対象として指定するモデル構築情報MMのうち、プリセットモデル情報として決定したモデル構築情報MMを選択する。
【0070】
モデル構築部4は、モデル構築情報MMに基づいてスコア出力モデルSSを構築する。モデル構築情報MMに基づいてスコア出力モデルSSを構築するとは、モデル構築情報MMにおいて指定されたデータセットDSを用いて、指定されたアルゴリズムを用いて、指定された入力属性項目パターン(=選択属性項目パターン)を入力とし、指定された予測対象(=選択予測対象)の予測スコアを出力するモデルを構築することを意味する。モデル構築部4は、構築したスコア出力モデルSSを、クライアント会社の識別情報と対応付けてスコア出力モデル記憶部8に記憶する。
【0071】
なお、スコア出力モデルSSを構築する際に、モデル構築部4は、ある項目についてクライアント会社が項目値の表現方法を指定している場合には、スコア出力モデルSSの構築に使用するデータセットDSのその項目の項目値をクライアント会社が指定した表現方法に変更する。また、モデル構築部4は、その時点でデータセット記憶部6に記憶されているデータセットDSについて学習データとテストデータに分割せず、全てのレコードを学習データとして使用してスコア出力モデルSSを構築する。なお、全てのレコードを学習データとして使用するとは、候補モデルを生成するときのように一部をテストデータとして使用する、といったことをしないことを意味し、ノイズとなり得るようなレコードを学習データから除外することは当然行われる。これは、すでに精度の検証は終了しているため、テストデータを用意する必要がなく、また、学習データの個数が多いほど、構築されるスコア出力モデルSSの精度の向上に寄与するからである。また、データセットDSとして、その時点でデータセット記憶部6に記憶されているデータセットDSを使用することにより、データ提供会社の活動により新たに追加されたレコードも含めてスコア出力モデルSSの学習を行うことができる。なお、所定の場合に項目値の表現方法を変更する点、および、スコア出力モデルSSの構築に際して、データセットDSの全てのレコードを使用する点は、後述する第2〜第4の方法で仮モデルを生成するときも同様である。
【0072】
以上の第1の方法によれば、後述する第2〜第4の方法と比較して、小さい負荷で迅速にスコア出力モデルSSを構築できる。特に、プリセットモデル情報に対応するスコア出力モデルSS(厳密には候補モデル)は、データセットDSを使用したテストにより精度の高さが証明されたモデルであるため、出力の予測スコアに十分な普遍性があると想定され、クライアント会社に提供するサービスに使用するモデルとして適格性を有していると言える。
【0073】
しかしながら、第1の方法は、クライアント会社の実績データベースを用いたテストによってスコア出力モデルSSの精度が検証されていない点で、後述する第2〜第4の方法と比較して、スコア出力モデルSSの出力の説明力が劣っている可能性がある。これを踏まえ、例えば、対価によってサービスレベルに差をつけ、低いサービスレベルの場合に第1の方法を採用するようにすることが可能である。なお、第1の方法では、クライアント会社の実績データベースを使用しないため、実績データベースの提供を受けなくてもよい。
【0074】
なお、第1の方法に関して以下の構成としてもよい。すなわち、モデル構築部4は、モデル構築情報生成工程において、モデル構築情報MMと共に、または、モデル構築情報MMに代えて、候補モデル(モデル構築情報MMが指定するデータセットDSの一部を学習データとして使用して構築したモデル)または仮モデル(モデル構築情報が指定するデータセットDSの全部を学習データとして使用して構築したモデル)を記憶する。そして、モデル選択/構築工程において、モデル構築部4は、特定の属性項目のパターンおよび特定の予測対象に関する情報と共にスコア出力モデルSSの構築の要求があった場合、プリセットモデル情報に対応する候補モデルまたは仮モデル(特定の属性項目のパターンと特定の予測対象との組み合わせについて生成した候補モデルのうち、最も精度が高い候補モデル、または、最も精度が高い候補モデルに対応する仮モデル)をスコア出力モデルSSとする。以上の構成の場合、モデル選択/構築工程において、仮モデルを構築する必要がないため、その点で当工程における処理負荷が小さい。ただし、モデル構築情報記憶部7に記憶された候補モデルまたは仮モデルは、候補モデルまたは仮モデルの生成後にデータセットDSのレコードが増加した場合には、増加分のレコードが反映されないことになり、その点で、モデル選択/構築工程において都度、仮モデルを生成する場合と比較して精度が劣ることになる。
【0075】
第2の方法は、以下である。すなわち、モデル構築部4は、クライアント会社情報記憶部9に記憶されたクライアント会社関連情報を参照し、選択予測対象と選択属性項目パターンとの組み合わせを取得する。次いで、モデル構築部4は、モデル構築情報記憶部7に記憶されたモデル構築情報MMのうち、選択予測対象と選択属性項目パターンとの組み合わせに属するモデル構築情報MMのそれぞれに基づいて仮モデルを構築する。仮モデルは、モデル構築情報MMが指定するデータセットDSのレコードを全て学習データとして使用して構築されたモデルである。
【0076】
次いで、モデル構築部4は、仮モデルのそれぞれについて、クライアント会社の実績データベースをテストデータとして使用してその精度を検証する。モデル構築部4は、仮モデルにより出力される予測スコアと実績データベースとの関係を判別力、相関性、安定性などで評価することによって、仮モデルの精度を検証する。判別力の評価には、候補モデルの精度の検証で説明したAUC、KS、F1値等を用いることができる。相関性の評価には、Pearson/Spearman相関、スコア分布のカイ二乗値、スコア分布のカルバックライブラー情報量基準等を用いることができる。安定性の評価には、時系列変数を用いた変化率(分散)、スコア分布の変化率(分布距離)等を用いることができる。本例では、モデル構築部4は、何れかの評価指標を用いて仮モデルの精度の検証を行い、仮モデルごとに、仮モデルの精度を表す定量的な値である仮モデル精度値を算出するものとする。
【0077】
なお、情報の取捨選択や、特徴ベクトル化、正解ラベルの付与等の実績データベースの各レコードをテストデータとして使用するための加工は適切に行われる。なお、仮モデルの構築に使用したデータセットDSと、クライアント会社の実績データベースとは異なるデータであることが保証されるため、モデル構築部4は、交差検証を行わない。モデル構築部4は、モデル構築情報MMのうち、仮モデル精度値が最も高いものを特定(選択)し、そのモデル構築情報MMにより生成された仮モデルを、クライアント会社に適したスコア出力モデルSSとして決定し、クライアント会社の識別情報と対応付けてスコア出力モデル記憶部8に記憶する。
【0078】
この第2の方法によれば、仮モデルのうち、クライアント会社の実際の活動に基づいて構築された実績データベースを用いて最も精度の高いと判定されたモデルがスコア出力モデルSSとして選択されるため、その点でクライアント会社にとって適したモデルを選択できる。特に、第2の方法では、選択予測対象と選択属性項目パターンとの組み合わせに属するモデル構築情報MMのそれぞれ(全て)に基づく仮モデルのそれぞれ(全て)について、クライアント会社の実績データベースを用いた精度の検証が行われた上で最適なモデルが選択されるため、構築可能な仮モデルの中からクライアント会社にとって最適と考えられる仮モデルを確実に選択することができ、その点で、全てのモデル構築情報MMに基づく全ての仮モデルについて検証を行うわけではない第3、第4の方法(後述)と比較して、優位性がある。一方、第2の方法は、選択予測対象と選択属性項目パターンとの組み合わせに属するモデル構築情報MMごとに仮モデルの構築と実績データベースをテストデータとして用いた精度の検証とを行う必要があるため、負荷が大きく、処理に要する時間が長い。その点を改善したのが、以下の第3の方法である。
【0079】
なお、第2の方法に関して以下の構成としてもよい。すなわち、モデル構築部4は、モデル構築情報生成工程において、モデル構築情報MMと共に、または、モデル構築情報MMに代えて、候補モデル(モデル構築情報MMが指定するデータセットDSの一部を学習データとして使用して構築したモデル)または仮モデル(モデル構築情報が指定するデータセットDSの全部を学習データとして使用して構築したモデル)を記憶する。そして、モデル選択/構築工程において、モデル構築部4は、特定の属性項目のパターンおよび特定の予測対象に関する情報、並びに、実績データベースの提供と共に、モデルの構築の要求があった場合、特定の属性項目のパターンおよび特定の予測対象の組み合わせに属する候補モデルまたは仮モデルのそれぞれについて実績データベースを用いたテストを行って候補モデルまたは仮モデルの精度を検証し、最も精度が高い候補モデルまたは仮モデルをスコア出力モデルとする。以上の構成の場合、モデル選択/構築工程において、仮モデルを構築する必要がないため、その点で当工程における処理負荷が小さい。ただし、モデル構築情報記憶部7に記憶された候補モデルまたは仮モデルは、候補モデルまたは仮モデルの生成後にデータセットDSのレコードが増加した場合には、増加分のレコードが反映されないことになり、その点で、モデル選択/構築工程において都度、仮モデルを生成する場合と比較して精度が劣ることになる。
【0080】
第3の方法の前提として、モデル構築部4は、第2の方法で処理を行う際に、別途、以下の処理を実行する。すなわち、モデル構築部4は、第2の方法に係る処理の過程で、処理の対象としたモデル構築情報MMごとに、モデル構築情報MMの識別情報と、その情報により構築した仮モデルをクライアント会社の実績データベースを用いて検証した結果(本例では、仮モデル精度値)との組み合わせをレコード化してモデル構築情報記憶部7の検証結果データベース(図示略)に蓄積する。ここで、モデル構築情報MMについてどのような場合に仮モデル精度値が大きくなるかは、モデル構築情報MMの種々の要素の特徴を踏まえ、モデル構築情報MMを探索空間とするような組み合わせ最適化問題と考えることができ、ベイズ最適化法などのヒューリスティック法により効率的に最適な組み合わせ(仮モデル精度値を極大化するような組み合わせ)を探索することが可能である。ただし、当然、その他の近傍探索法やその他の組み合わせ最適化手法を用いることも可能である。
【0081】
この探索空間の要素としては、例えば、以下を採用できる。予測対象の種別、モデル構築情報MMが指定するデータセットDSのレコード数、モデル構築情報MMが指定するデータセットDSの項目、モデル構築情報MMが指定するデータセットDSの正例比率、モデル構築情報MMが指定するデータセットDSの項目ごとの基礎統計値、モデル構築情報MMが指定するデータセットDSにおける項目ごとのAUC、モデル構築情報MMが指定するアルゴリズムおよび、モデル構築情報MMに基づいて生成される仮モデルのハイパーパラメータ、仮モデルにおいて変数が与える影響度。
【0082】
第3の方法において、まず、モデル構築部4は、レコードがある程度蓄積された検証結果データベースに基づいて選択用モデルを構築する。この選択用モデルは、あるモデル構築情報MMの種々の要素の特徴が所定の状態である場合(要素の特徴が所定の態様で連関している場合)に、そのモデル構築情報MMに基づいて構築される候補モデルが高精度である確からしさを出力するモデルである。本例では、選択用モデルは、モデル構築情報MMの種々の要素の特徴の特徴量を入力(変数)とし、高精度の候補モデルが構築される確からしさを定量的に表す評価値を出力するモデルであるものとする。なお、選択用モデルの入力である「モデル構築情報MMの種々の要素の特徴」は、特許請求の範囲の「仮モデルの構築に影響を与える各要素の状態」に相当する。
【0083】
モデル構築部4は、あるクライアント会社についてのモデル構築情報MMを選択するにあたって、選択用モデルを使用して、選択予測対象と選択属性項目パターンとの組み合わせに属するモデル構築情報MMの評価値を算出する。そして、モデル構築部4は、一定以上の評価値のモデル構築情報MMのみを対象として、モデル構築情報MMの選択を行う。最適なモデル構築情報MMの選択は、第2の方法と同様の方法(クライアント会社の実績データベースをテストデータとして使用する方法)で行われる。この第3方法によれば、選択予測対象と選択属性項目パターンとの組み合わせに属する全てのモデル構築情報MMを対象とする場合と比較して、実績データベースを用いた検証を行うモデル構築情報MMの個数が絞られるため、効率的にスコア出力モデルSSを構築できる。
【0084】
また、第4の方法では、モデル構築部4は、以下の処理を実行する。ここで、組み合わせ最適化手法によって高い精度のモデルを構築可能なモデル構築情報MMを選択するにあたって、モデル構築情報MMの種々の要素の特徴の他、クライアント会社の実績データベースの種々の要素の特徴を加味することによって、より高い精度でモデル構築情報MMを選択することが可能となる。
【0085】
これを踏まえ、第4の方法において、まず、モデル構築部4は、レコードがある程度蓄積された検証結果データベースに基づいて、モデル構築情報MMの種々の要素の特徴だけでなく、クライアント会社の実績データベースの種々の要素の特徴を加味した選択用モデルを構築する。この選択用モデルは、あるモデル構築情報MMの種々の要素の特徴が所定の状態であり、かつ、クライアント会社の実績データベースの種々の要素の特徴が所定の状態の場合に、そのモデル構築情報MMに基づいて構築される候補モデルが高精度である確からしさを出力するモデルである。本例では、選択用モデルは、モデル構築情報MMの種々の要素の特徴の特徴量、および、クライアント会社の実績データベースの種々の要素の特徴の特徴量を入力(変数)とし、高精度の候補モデルが構築される確からしさを定量的に表す評価値を出力するモデルであるものとする。
【0086】
実績データベースの種々の要素は、例えば、実績データベースのデータ件数、実績データベースの正例比率、実績データベースのデータ項目ごとの基礎統計値、実績データベースのデータ項目ごとのAUC、実績データベースの予測対象である。モデル構築部4は、あるクライアント会社についてのスコア出力モデルSSを選択するにあたって、そのクライアント会社から提供を受けた実績データベースの種々の要素の特徴量を算出し、選択用モデルを使用して、選択予測対象と選択属性項目パターンとの組み合わせに属する各モデル構築情報MMの評価値を算出する。そして、モデル構築部4は、一定以上の評価値のモデル構築情報MMのみを対象として、モデルの選択を行う。これにより、第3方法と比較して高い精度で、かつ、選択予測対象と選択属性項目パターンとの組み合わせに属する全てのモデル構築情報MMを対象とする第2の方法と比較して効率的にスコア出力モデルSSを構築できる。なお、選択用モデルの入力となる「実績データベースの種々の要素」は、特許請求の範囲の「実績データベースに関する各要素の状態」に相当する。
【0087】
次に、スコア出力モデルSSを使用したサービス、および、クライアント会社における予測スコアの使用のされ方について説明する。図10は、クライアント会社用のスコア出力モデルSSを使用したサービスを提供するサービス提供システム10(特許請求の範囲の「情報処理システム」に相当)の説明に用いる図である。図10に示すように、サービス提供システム10は、インターネットを含むネットワークNを介してクライアント会社の業務システム11と接続されている。また、サービス提供システム10を運用する会社(必ずしも運用会社である必要はないが、本例では運用会社であるものとする)により、サービスの提供を受けるためのWebAPIが公開されている。図10に示すように、業務システム11は、LANに接続された端末12を有する。詳細は省略するが、クライアント会社の認証や、各装置で行われる通信の暗号化は適切に行われる。クライアント会社の認証が行われたときに、サービス提供システム10は、クライアント会社の識別情報を取得する。
【0088】
以下、クライアント会社がクレジットカード発行会社であるものとし、新規顧客からクレジットカードの発行の依頼があったものとして、サービス提供システム10が提供するサービスについて説明する。なお、クレジットカードの発行の依頼の際に、新規顧客についての「クライアント会社が指定した選択属性項目パターンに含まれる各項目の各項目値」(以下、「新規顧客属性情報群」という)は、例えば、申込用紙の必須記入欄への記入等により適切に取得される。
【0089】
クライアント会社は、業務システム11の端末12のブラウザにより、所定のWebAPIを指定する情報を含み、新規顧客属性情報群をクエリパラメータとするリクエストを行って、新規顧客のクレカリスクスコアの応答を要求する。サービス提供システム10は、クライアント会社からの要求に応じて、スコア出力モデル記憶部8(当然、他の記憶手段であってもよく、他の記憶手段である場合に、モデル構築システム1やサービス提供システム10以外のシステムに属する装置の記憶手段であってもよい)から、そのクライアント会社の識別情報と対応付けられたスコア出力モデルSSを取得する。ここで取得されたスコア出力モデルSSは、上記第2〜第4の方法によりスコア出力モデルSSが構築されている場合には、そのクライアントにとって適したモデルである。サービス提供システム10は、新規顧客属性情報群をスコア出力モデルSSに入力し、このスコア出力モデルSSが出力するクレカリスクスコアを得る。サービス提供システム10は、取得したクレカリスクスコアを端末12に応答する。
【0090】
以上により、クライアント会社は、新規顧客についてのクレカリスクスコアを得ることができる。ここで、新規顧客は、過去の実績を取得できない顧客である。しかし、構築されたスコア出力モデルSSは、ある個人のある予測対象の予測スコア(リスクまたはニーズに関する予測対象の予測値)を出力するに際し、その個人の過去の実績を入力としておらず、上記例で示したように新規の顧客であっても取得可能な「属性」を入力としている。このため、構築されたスコア出力モデルSSを利用することによって、過去の実績を取得することなく、対象となる個人の属性を利用して、予測スコア、すなわち、対象となる個人のリスクやニーズの判断に利用可能な情報を提供できる。
【0091】
クライアント会社は、取得したクレカリスクスコアを例えば、以下の態様で使用する。すなわち、例えば、クライアント会社は、取得したクレジットリスクスコアを、クレカリスクを判断する有益な材料の1つとして参照する。また例えば、クライアント会社が顧客のクレカリスクに関する予測値を出力するモデルを構築している場合には、クライアント会社は、例えば以下の2つの方法でクレカリスクスコアを使用する。1つ目では、クライアント会社は、そのモデルの変数の1つとしてクレカリスクスコアを使用する(その際、正規化や、影響度を調整するための重みの設定などは適切に行われる)。2つ目では、クライアント会社は、自身のモデルが出力した予測値と、クレカリスクスコアとの組み合わせにより、最終的なクレカリスクについて検討する。単純化した一例を示すと、予測値(値が大きいほど、リスクが高いものとする)が大きい場合であっても、クレカリスクが一定以上小さい場合は、予測値だけでクレジットカードを最終的に発行しないと判断するのではなく、本来はクレカリスクが高くない顧客である可能性があるものとして、更なる検討の対象とする。
【0092】
以上、クレカリスクスコアを提供する場合を例にしてサービス提供システム10の一例を説明したが、サービス提供システム10の態様は例示したものに限らない。当然、クレカリスクスコアのようにリスクに関するスコアではなく、生命保険ニーズのようなニーズに関するスコアを提供する構成でもよい。この場合、クライアントは、顧客の属性だけで、種々の商品やサービスについてのニーズに関する予測スコアを取得することができ、予測スコアに基づいてその顧客についての種々の商品やサービスに対する潜在的なニーズを認識できる。このため、例えば、新たに取引を開始した顧客に対して、その顧客が潜在的に所望する商品やサービスを推奨することができ、機会損失の低減につなげることができる。また、クライアント会社は、既存にない商品や、サービスを提供する場合には、対応する予測対象の予測スコアとして総合リスクスコアや、総合ニーズスコアを得て、これを有益な情報と活用して、顧客のリスクやニーズについて判断することができる。
【0093】
また、上記例では、クライアント会社が新規顧客について予測スコアを得る場合を例にしたが、当然、クライアント会社は既存の顧客についても予測スコアを得ることができる。これによって、クライアント会社は、既存の顧客の潜在的なリスクやニーズを判断することができる。また、上記例では、ネットワークNにサービス提供システム10が設けられた場合を例にしたが、クライアント会社のLAN上にサービス提供システム10に相当するシステムが設けられる構成でもよい。
【0094】
以上、本発明の実施形態について説明したが、上記実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0095】
例えば、上記実施形態では、スコア出力モデルSSは、出力として、リスクまたはニーズの大きさを「確率」ではなくスコア(点数)として出力するものであった。これについて、スコア出力モデルSSをスコアに代えて、または、スコアと共に確率を出力するモデルとしてもよい。
【0096】
また、上記実施形態においてモデル構築装置2が記憶していたデータの一部又は全部をモデル構築装置2以外の装置が記憶する構成としてもよい。また、上記実施形態で、モデル構築装置2が実行した処理の少なくとも一部をモデル構築装置2以外の外部装置が実行する構成でもよい。例えば、データセット構築部3またはモデル構築部4が実行する処理の一部または全部を、モデル構築装置2と通信可能に接続された外部装置(例えば、ネットワークを介して接続されたクラウドサーバ)が実行する構成でもよい。この場合、モデル構築装置2と外部装置とが共同して特許請求の範囲の「モデル構築システム」として機能する。
【符号の説明】
【0097】
1 モデル構築システム
3 データセット構築部
4 モデル構築部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10