(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-05-26
(45)【発行日】2023-06-05
(54)【発明の名称】情報処理装置、モデル構築方法及びモデル構築プログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20230529BHJP
G06Q 30/06 20230101ALI20230529BHJP
【FI】
G06Q10/04
G06Q30/06
(21)【出願番号】P 2022149139
(22)【出願日】2022-09-20
【審査請求日】2022-09-20
【早期審査対象出願】
(73)【特許権者】
【識別番号】505057484
【氏名又は名称】国立大学法人一橋大学
(73)【特許権者】
【識別番号】399074145
【氏名又は名称】株式会社東京商工リサーチ
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】宮川 大介
(72)【発明者】
【氏名】柳岡 優希
(72)【発明者】
【氏名】三浦 風香
(72)【発明者】
【氏名】荒田 禎之
【審査官】塩田 徳彦
(56)【参考文献】
【文献】特開2022-015658(JP,A)
【文献】特開2020-135434(JP,A)
【文献】特開2019-153258(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込むデータ読込部と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築するデータ構築部と、
機械学習により前記学習用データを学習し、
推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する学習処理部と、を備える、
情報処理装置。
【請求項2】
前記入力データを前記学習済みモデルに入力して、
前記推定対象の取引元企業と取引先企業との
間の前記取引量の推定値を出力する推定部を更に備え、
前記データ構築部は、前記企業データに含まれる、
前記推定対象の取引元企業に関するデータと
前記推定対象の取引先企業に関するデータとを接続して、前記入力データを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記取引元企業と取引先企業との間の取引量を示すデータは、前記取引元企業の売上に占める、前記取引先企業に対する売り上げの比率を示す取引先構成比率であり、
前記推定部は、
前記取引量の推定値として取引先構成比率を推定する、
請求項2に記載の情報処理装置。
【請求項4】
前記取引データは、前記取引先構成比率の順位を示す取引先順位を含む、
請求項3に記載の情報処理装置。
【請求項5】
前記取引データは、前記取引先企業が前記取引元企業の株主であるか否かを示す株主情報を含む、
請求項1又は2に記載の情報処理装置。
【請求項6】
前記データ構築部は、前記取引データに基づいて、
各取引元企業について、各取引元企業がいくつの取引先企業に対して売上があるかを示す取引元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項7】
前記データ構築部は、前記取引データに基づいて、各取引元企業について、各取引元企業がいくつの取引先企業に対して売上があるかを示す取引元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項8】
前記データ構築部は、前記取引データに基づいて、各取引先企業について、各取引先企業に対していくつの取引元企業が売上があるかを示す取引先元該当数を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項9】
前記データ構築部は、前記企業データに基づいて、前記取引元企業の売上に対する前記取引先企業の売上の比率を示す売上比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項10】
前記データ構築部は、前記企業データに基づいて、前記取引元企業の従業員数に対する前記取引先企業の従業員数の比率を示す従業員数比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項11】
前記データ構築部は、前記企業データに基づいて、前記取引元企業の純利益に対する前記取引先企業の純利益の比率を示す純利益比を算出して、前記取引データの各取引元企業のデータに接続する、
請求項1又は2に記載の情報処理装置。
【請求項12】
前記データ構築部は、前記取引元企業の所在地を示す情報と、前記取引元企業の所在地を示す情報と、を、前記取引データに接続する、
請求項1又は2に記載の情報処理装置。
【請求項13】
データ読込部が、各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み、
データ構築部が、前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築し、
学習処理部が、機械学習により前記学習用データを学習し、
推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する、
モデル構築方法。
【請求項14】
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込
む処理と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築する処理と、
機械学習により前記学習用データを学習し、
推定対象の取引元企業及び取引先企業に関する取引量以外のデータが入力データとして入力された場合に、前記推定対象の取引元企業と取引先企業との間の取引量の推定値を出力する学習済みモデルを構築する処理と、をコンピュータに実行させる、
モデル構築プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、モデル構築方法及びモデル構築プログラムに関する。
【背景技術】
【0002】
企業の将来の動向を予測するため、企業の財務データや決算データに含まれるデータ(売上、利益など)を用いて予測を行うことが一般に行われている。こうして得られた予測結果は、企業の評価情報として、利用者に提供される。こうした予測手法としては、例えば、定性的な企業情報に基づく統計モデルを利用して、企業の倒産確率を予測する手法が提案されている(特許文献1)。
【0003】
このような予測を行うにあたっては、企業活動や経済に関する分析などにおいては企業間の取引関係は重要な要素であり、そのために、企業間ネットワークの分析に対する関心は高い。特に、その具体的な企業間の取引の量、すなわち企業間の繋がりの強さを知ることは、企業間の関係をより詳細に表すものと考えられる。したがって、企業間の取引量を推定することで、より精度よくサプライチェーンや将来の企業動向を予測できるものと期待される。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
一方で、企業間の取引量を推定しようとしても、モデル構築のための学習用データとして使用できる企業間の取引量を表すデータがそもそも得がたいという問題がある。したがって、企業間の取引量を補足できない場合でも、企業間の取引量の推定が可能な手法の確立が望まれている。
【0006】
本開示は上記の事情に鑑みて成されたものであり、企業間の取引量を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
一実施の形態にかかる情報処理装置は、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込むデータ読込部と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築するデータ構築部と、
前記学習用データを学習し、学習済みモデルを構築する学習処理部と、を備えるものである。
【0008】
一実施の形態にかかるモデル構築方法は、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築し、
前記学習用データを学習し、学習済みモデルを構築するものである。
【0009】
一実施の形態にかかるモデル構築プログラムは、
各企業の会計情報及び属性情報を含む企業データと、取引元企業と取引先企業との間の取引量を示すデータを含む取引データと、を読み込み処理と、
前記企業データに含まれるデータのうち、前記取引データの前記取引元企業に関するデータと、前記取引データの前記取引先企業に関するデータと、を前記取引データに接続して、学習用データを構築する処理と、
前記学習用データを学習し、学習済みモデルを構築する処理と、をコンピュータに実行させるものである。
【発明の効果】
【0010】
一実施の形態によれば、企業間の取引を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施の形態1にかかる情報処理装置を実現するためのシステム構成の一例を示す。
【
図2】実施の形態1にかかる情報処理装置の構成を模式的に示す図である。
【
図3】実施の形態1にかかる情報処理装置の構成の変形例を模式的に示す図である。
【
図4】実施の形態1にかかる企業データベースの構成例を示す図である。
【
図5】実施の形態1にかかる企業データの例を表形式にて示す図である。
【
図6】実施の形態1にかかる属性データの例を表形式にて示す図である。
【
図7】実施の形態1にかかる取引データの例を表形式にて示す図である。
【
図8】実施の形態1にかかる情報処理装置の学習用データ構築処理のフローチャートである。
【
図9】企業データCPRの会計データDA及び属性データDPから読み出したデータの取引データTRDへの接続の概要を示す図である。
【
図10】学習用データLDを表形式にて示す図である。
【
図11】実施の形態1にかかる情報処理装置の取引先構成比率の推定処理のフローチャートである。
【
図12】実験条件EAでの取引データと企業データのとの接続の概要を示す。
【
図13】実験条件EBでの取引データと企業データのとの接続の概要を示す。
【
図14】実験条件ECでの取引データと企業データのとの接続の概要を示す。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。
【0013】
実施の形態1
まず、実施の形態1にかかる情報処理装置100を理解するための前提として、情報処理装置100を実現するためのシステム構成について説明する。
図1に、実施の形態1にかかる情報処理装置100を実現するためのシステム構成の一例を示す。情報処理装置100は、専用コンピュータ、パーソナルコンピュータ(PC)などのコンピュータ1000により実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。
図1に示すように、コンピュータ1000は、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002及びRAM(Random Access Memory)1003を有し、これらがバス1004を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然有しているものとする。
【0014】
バス1004には、入出力インターフェイス1005が接続されている。入出力インターフェイス1005には、入力部1006、出力部1007、通信部1008及び記憶部1009が接続される。
【0015】
入力部1006は、例えば、キーボード、マウス、センサなどより構成される。出力部1007は、例えば、LCDなどのディスプレイ装置やヘッドフォン及びスピーカなどの音声出力装置により構成される。通信部1008は、例えば、ルータやターミナルアダプタなどにより構成される。記憶部1009は、ハードディスク、フラッシュメモリなどの記憶装置により構成される。
【0016】
CPU1001は、ROM1002に記憶されている各種プログラム、又は記憶部1009からRAM1003にロードされた各種プログラムに従って各種の処理を行うことが可能である。本実施の形態においては、CPU1001は、例えば後述する情報処理装置100の各部の処理を実行する。CPU1001とは別にGPU(Graphics Processing Unitを設け、CPU1001と同様に、ROM1002に記憶されている各種プログラム、又は記憶部1009からRAM1003にロードされた各種プログラムに従って各種の処理、本実施の形態においては、例えば後述する情報処理装置100の各部の処理を実行してもよい。なお、GPUは、定型的な処理を並列的に行う用途に適しており、後述するニューラルネットワークにおける処理などに適用することで、CPU1001に比べて処理速度を向上させることも可能である。RAM1003には又、CPU1001及びGPUが各種の処理を実行する上において必要なデータなども適宜記憶される。
【0017】
通信部1008は、ネットワーク1020を介して、サーバ1030と双方向の通信を行うことが可能である。通信部1008は、CPU1001から提供されたデータをサーバ1030へ送信したり、サーバ1030から受信したデータをCPU1001、RAM1003及び記憶部1009などへ出力することができる。通信部1008は、他の装置との間で、アナログ信号又はディジタル信号による通信を行ってもよい。記憶部1009はCPU1001との間でデータのやり取りが可能であり、情報の保存及び消去を行う。
【0018】
入出力インターフェイス1005には、必要に応じてドライブ1010が接続されてもよい。ドライブ1010には、例えば、磁気ディスク1011、光ディスク1012、フレキシブルディスク1013又は半導体メモリ1014などの記憶媒体が適宜装着可能である。各記憶媒体から読み出されたコンピュータプログラムは、必要に応じて記憶部1009にインストールされてもよい。また、必要に応じて、CPU1001が各種の処理を実行する上において必要なデータや、CPU1001の処理の結果として得られたデータなどを各記憶媒体に記憶してもよい。
【0019】
続いて、本実施の形態にかかる情報処理装置100の構成及び処理について説明する。本実施の形態では、情報処理装置100は、企業にかかる情報を示す企業データベース(以下、DB)110から、特定の項目のデータを選択的に読み込み、かつ、読み込んだデータを用いて新たな項目のデータを生成する。そして、読み込んだデータと、生成した新たな項目のデータと、を結合して、推定のためのモデルの構築に用いる学習用データを生成することができる。
【0020】
後述するように、本実施の形態において構築される学習用データには、複数の期間のそれぞれでの各企業の属性や状態を示す1つ以上のデータ項目からなる第1の特徴量と、各企業と他の企業との取引状態を示す第2の特徴量と、が含まれる。
【0021】
学習用アルゴリズム(プログラム)がこのような学習用データを学習することで、企業の属性や状態を説明変数、取引状態を目的変数として学習してモデルを構築することができる。このように構築したモデルに、取引状態が未知である推定対象企業の属性や状態を示す情報をモデルに入力することで、推定対象企業の取引状態を推定することが可能となる。
【0022】
図2に、実施の形態1にかかる情報処理装置100の構成を模式的に示す。情報処理装置100の各処理は、ハードウェア上では、実際にはソフトウェアと上記のCPU1001などのハードウェア資源とが協働して実現される。情報処理装置100は、データ読込部1、データ構築部2、学習処理部3及び推定部4を有する。
【0023】
データ読込部1は、例えば、外部の記憶装置10に格納された企業データベース110から、必要に応じて、企業データCPR及び取引データTRDを読み込むことができる。
【0024】
図2では、外部の記憶装置10に企業データベース110が格納されるものとして説明したが、企業データベース110は、情報処理装置100に設けられた記憶部に格納されていてもよい。
図3に、実施の形態1にかかる情報処理装置100の構成の変形例を模式的に示す。
図10では、
図2と比べて、情報処理装置100に記憶部5が追加されている。この場合、データ読込部1は、記憶部5に格納された企業データベース110から、必要に応じて、企業データCPR及び取引データTRDを読み込むことができる。
【0025】
データ構築部2は、データ読込部1が読み込んだデータを参照して、学習用データLD及び入力データINを構築可能に構成される。そして、学習用データLDは学習処理部3へ出力され、入力データINは推定部4へ出力される。
【0026】
学習処理部3は、データ構築部2から受け取った学習用データLDをモデルに入力して学習処理を行い、学習済みモデルMを構築する。
【0027】
推定部4は、学習処理部3が構築した学習済みモデルMに、入力データINを入力することで、企業間の未知の取引量を推定する。
【0028】
次に、学習用データの生成の基礎となる、企業データCPR及び取引データTRDについて説明する。
図4に、実施の形態1にかかる企業データベース110の構成例を示す。企業データCPR及び取引データTRDは、予め収集され、企業データベース110に格納されるものである。
【0029】
企業データCPRについて説明する。企業データCPRは、企業識別情報に、各企業に関する情報(例えば、売上、従業員数及び業種など)が紐付けられたレコードが複数含まれるものとして構成される。ここでいう各企業に関する情報は、売上や純利益などの財務諸表に含まれる情報からなる会計データDA、及び、従業員数、業種、取扱品又は取扱役務などの各企業の属性を示す情報からなる属性データDPを少なくとも含む。
【0030】
ここで、会計データDAは、企業の決算日に作成される財務諸表に含まれる情報であり、したがって、年ごとに取得されるデータである。これに応じて、属性データDPについても、年ごとに取得してもよい。財務諸表が取得されるタイミングは、各企業の決算日が基準となり、通常は1年に1回であるが、場合によっては1年以内に2回など変則的に決算日が設定される場合もある。
【0031】
ここでは、説明の簡略化のため、1年に1回だけ決算日が到来するものとして説明する。この場合、会計データDAを含む企業データCPRについても、年ごとに作成されるデータであることが理解できる。換言すれば、T年の企業データCPR(T)は、T年の会計データDA(T)と属性データDP(T)とを含むデータとして構成される。なお、当然のことながら、データが取得される年数は2年以上であってもよい。すなわち、企業データは、Nを任意の正の整数とすると、CPR(1)~CPR(N)のように、任意の複数年の企業データが存在してもよいことは、言うまでも無い。
【0032】
また、各年の企業データCPRに対して、対応して取引データTRDが取得される。したがって、企業データCPRの年数分だけ取引データTRDが存在する。換言すれば、N年分の企業データCPR(1)~CPR(N)が存在する場合には、N年分の取引データTRD(1)~TRD(N)が存在することとなる。
【0033】
T年の企業データCPR(T)に対応する取引データTRD(T)については、任意の時点に収集することが可能である。例えば、取引データTRD(T)は、企業データCPR(T)の基準となる決算日よりも後の特定の期間に収集してもよい。また、企業データCPR(T)は、企業データCPR(T)の基準となる決算日よりも前の特定の期間に収集されたものであってもよい。
【0034】
但し、T年の企業データCPR(T)に対応する取引データTRD(T)には、特定の企業について2つ以上のレコードが存在する場合があり得る。具体的には、企業Aの決算日(例えば、2021年3月)よりも後の第1のタイミング(例えば2021年5月1日)に取得したデータと、さらに後の第2のタイミング(例えば2021年10月1日)に取得したデータと、が含まれてもよい。換言すれば、1つの企業の1つの決算日に着目した場合、その決算日から1年以内又は1年以内の期間内において、複数のタイミングで取引データが取得されてもよい。
【0035】
以下では、説明の簡略化のため、ある1年分の企業データCPR及び取引データTRDについて説明する。
【0036】
図5に、実施の形態1にかかる企業データCPRの例を表形式にて示す。企業データCPRの1つのレコードに関連付けられるフィールド、すなわち表の列方向には、会計データDA及び属性データDPが配列される。なお、以下では、各フィールドを、単にデータ項目と称する。
【0037】
企業IDは、企業を識別するために各企業に割り当てられるものである。データ読込部1は、企業IDを指定することで、指定した企業IDを含むレコード、すなわち指定した企業IDに紐付けられた各データ項目を読み込むことが可能である。このとき、データ読込部1は、企業IDに紐付けられた全データ項目を読み込んでもよいし、必要なデータ項目のみを読み込んでもよい。
【0038】
つまり、企業データCPRから読み込んだ各企業のデータを示すレコードは、企業IDと、企業IDに紐付けられた複数のデータ項目と、で構成される。換言すれば、読み込んだ1つの企業のデータは、企業IDと1つ以上のデータ項目とを要素とするベクトルとして表現することが可能である。
【0039】
企業IDは、企業名などのテキストデータでもよいし、変数などの数値データであってもよい。なお、
図4及び
図5では、企業IDとして変数を用いている。この場合、企業IDは、必要に応じて、例えば企業の業種などの情報を示す他の変数を含んでもよい。
【0040】
会計データDAについて説明する。会計データDAには、財務諸表に掲載される売上及び純利益などの各種の数値データが含まれる。但し、会計データDAには、財務諸表に含まれるもの以外の情報や、必要に応じてテキストデータが含まれてもよい。
【0041】
属性データDPについて説明する。
図6に、実施の形態1にかかる属性データDPの例を表形式にて示す。属性データDPには、例えば、従業員数など数値データ、及び、業種、取扱品又は取扱役務、商号、住所、電話番号、創業年、設立年月、取引金融機関名、取引金融機関店舗名、代表者に関する情報、役員に関する情報、決算年月、上場区分などのテキストデータが含まれる。テキストデータについては、データ項目ごとに分類処理を行い、分類結果に応じて数値コードを付与することで数値データに変換してもよい。例えば、商号は企業IDに変換してもよいし、住所は郵便番号などに変換してもよい。また、例えば、取引金融機関は金融機関コードで表してもよいし、業種は業種コードで表してもよい。
【0042】
業種は、1つではなく、例えば業種1、業種2、...のように、複数であってもよい。取扱品又は取扱役務は、1つではなく、例えば取扱品又は取扱役務1、取扱品又は取扱役務2、...のように、複数であってもよい。一般に、企業は複数の業種にわたって複数の取扱品及び役務を取り扱うことが常態であるため、このように、業種の区分や取扱品又は取扱役務の区分を複数とすることで、各企業の実態を企業データCPRにより反映させることが可能となる。
【0043】
次に、取引データTRDについて説明する。ここでは、財又は役務を提供する行為と、これに対して対価の支払いが行われる行為とがなされる関係を、取引関係と定義する。取引データTRDには、複数の取引関係を示す情報が記録される。
図7に、実施の形態1にかかる取引データTRDの例を表形式にて示す。取引データTRDは、1つの取引関係を示すレコードが複数含まれ、各レコードには、企業ID、取引関係を調査した調査年月日、財や役務の提供を行う取引元企業を示す取引元ID、財や役務の提供に対して対価を支払う取引先企業を示す取引先ID、株主フラグ、取引先構成比率、取引先順位が少なくとも記録されている。
【0044】
取引の実情に鑑みれば、取引先企業が取引元企業の株主である場合、すなわち株主関係にある場合が想定できる。株主関係がある場合には、株主関係がない場合と比べて、取引先企業と取引元企業との関係はより密接であることが予想される。よって、ここでは、株主関係を表現するために取引データTRDに株主フラグを含めている。ここでは、株主フラグは、取引先企業が取引元企業の株主である場合に「1」、株主でない場合に「0」となる。なお、株主関係にある場合に「1」、株主関係にない場合に「0」を記録するのはあくまで例示であり、株主関係にある場合に「0」、株主関係にない場合に「1」を記録してもよく、又は、株主関係の有無に応じて他の値や情報を記録してもよい。
【0045】
取引の実情に鑑みれば、1つの取引元企業が複数の取引先企業と取引を行うのが一般的である。よって、各レコードには、取引元企業にとって個々の取引先企業との取引関係の重要度を補足する情報として、調査時点(取得日)における取引元企業の売上高Sに占める取引先企業sに対する売上高を示す取引先構成比率(すなわち、売上高の割合であるSa/S)、と、取引先構成比率の順位を示す取引先順位と、が格納されている。なお、取引元ID及び取引先IDは、企業IDと同様であるので、説明を省略する。
【0046】
次に、本実施の形態における学習用データの構築について説明する。
図8に、実施の形態1にかかる情報処理装置100の学習用データ構築処理のフローチャートを示す。データ構築部2は、以下の手順で、取引データTRDに企業データCPRを接続して、学習用データを構築する。
図9に、企業データCPRの会計データDA及び属性データDPから読み出したデータの取引データTRDへの接続の概要を示す。
図10に、学習用データLDを表形式にて示す。
【0047】
ステップS11
データ読込部1は、企業データベース110から、学習用データの構築に用いる企業データCPR及び取引データTRDを読み込む。
【0048】
ステップS12
データ構築部2は、取引データTRDに企業データCPRの会計データDA及び属性データDPから読み出したデータを接続する。具体的には、データ構築部2は、企業データCPRから、取引元企業及び取引先企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を読み込み、それぞれの企業IDに後続するフィールドとして挿入する。ここでは、取引元ID、取引元企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を取引元データ、取引先ID、取引先企業の売上、純利益、従業員数、業種、取扱品又は取扱役務を取引先データと呼称する。
【0049】
データ接続においては、取引データTRDの各レコードの取得日を基準として、所定期間の企業データを参照して、参照可能な期間に含まれる各企業の決算日の中から選択した1つの決算日にかかる取引元データ及び取引先データを接続する。また、参照期間は、例えば、取引データTRDの1つのレコードに注目した場合、取引データTRDの注目する1つのレコードの取得日よりも前の期間でもよく、後の期間でもよく、1つのレコードの取得日を含む過去及び将来の期間であってもよい。また、取引元データを参照する期間と、取引先データを参照する期間とは、同じであってもよいし、異なっていてもよい。
【0050】
参照期間に含まれる各企業の決算日が複数存在する場合、例えば、参照期間のうちで最も新しい1つの決算日の企業データを選択してもよいし、参照期間のうちで最も古い1つの決算日の企業データを選択してもよい。また、過去又は将来に限らず、取引データTRDの注目する1つのレコードの取得日に最も近い決算日の企業データを選択してもよい。
【0051】
なお、取引データTRDの2つの以上のレコードに同じ決算日の取引元データ又は取引先データが接続可能である場合には、いずれか取引データTRDの2つの以上のレコードを接続することが望ましい。例えば、1つの決算日の取引元データ又は取引先データに対して接続可能な取引データTRDの2つの以上のレコードのうち、決算日に最も近いレコードのみを接続してもよいし、最も遠いレコードを接続してもよい。
【0052】
なお、以下では、ステップS12以降における取引データTRDに所定のデータ項目が挿入されたデータを中間データINTと呼称する。
【0053】
ステップS13
データ構築部2は、企業データCPR及び取引データTRDを参照して、対比データを構成するデータを算出して、中間データINTに挿入する。ここでは、対比データを構成するデータとして、取引先該当数、取引元該当数、取引元企業と取引先企業との売上比、従業員数比及び純利益比、都道府県コードの差、及び、地域コードの差を算出する。
【0054】
取引元該当数は、取引元企業がいくつの企業に対して販売しているかを示す特徴量である。データ構築部2は、取引データTRDの全レコードを参照して、各企業の企業IDが取引元IDとしていくつ記録されているかカウントし、カウント結果を各企業にかかる取引元該当数として取得する。換言すれば、ある取引元企業に着目した場合、着目した取引元企業がいくつの取引先企業に対して売上があるかを示すのが、取引元該当数である。例えば、取引データTRDにおいて、企業Aの企業IDが、10個のレコードで取引元IDとして記録されている場合には、企業Aの取引元該当数は10となる。
【0055】
取引先元該当数は、取引元企業がいくつの企業から販売されているか、すなわち仕入れているか、を示す特徴量である。データ構築部2は、取引データTRDの全レコードを参照して、各企業の企業IDが取引先IDとしていくつ記録されているかカウントし、カウント結果を各企業にかかる取引先該当数として取得する。換言すれば、ある取引先企業に着目した場合、着目した取引先企業に対して、いくつの取引元企業が売上があるかを示すのが、取引先該当数である。例えば、取引データTRDにおいて、企業Aの企業IDが、5個のレコードで取引先IDとして記録されている場合には、企業Aの取引先該当数は5となる。
【0056】
売上比について説明する。データ構築部2は、取引元情報及び取引先情報を参照して、取引元企業の売上に対する取引先企業の売上の比率、すなわち、取引元企業の売上をSa、取引先企業の売上をSbとすると、Sb/Saを売上比として算出する。
【0057】
従業員数比について説明する。データ構築部2は、取引元情報及び取引先情報を参照して、取引元企業の従業員数に対する取引先企業の従業員数の比率、すなわち、取引元企業の従業員数をNa、取引先企業の従業員数をNbとすると、Nb/Naを従業員数比として算出する。
【0058】
純利益比について説明する。データ構築部2は、取引元情報及び取引先情報を参照して、取引元企業の純利益に対する取引先企業の純利益の比率、すなわち、取引元企業の純利益をPa、取引先企業の純利益をPbとすると、Pb/Paを純利益比として算出する。
【0059】
都道府県コードの差について説明する。データ構築部2は、企業データCPRを参照して、取引元企業のJISコードのうちで都道府県を示すコードと、取引先企業のJISコードのうちで都道府県を示すコードと、を取得する。そして、取得した2つの都道府県を示すコード間の差を算出する。ここでは、都道府県を示すコードは、企業データCPRに予め含まれているものとする。なお、都道府県を示すコードは、予め企業データCPRに含まれる都道府県を示すコードなどの各企業の所在地を示す情報に基づいて、データ構築部2が付与してもよい。
【0060】
地域コードの差について説明する。データ構築部2は、企業データCPRを参照して、取引元企業の地域コードと、取引先企業の地域コードと、を取得する。地域コードについては、例えば、各企業の所在地を参照し、北海道、東北、関東、中部、関西、中国、四国、九州、沖縄の順に、1~9の番号を割り当てる。そして、取得した2つの地域コード間の差を算出する。ここでは、予め企業データCPRに含まれる住所や都道府県を示すコードなどの各企業の所在地を示す情報に基づいて、地域コードを付与するものとする。なお、地域コードは、予め企業データCPRに含まれていてもよい。
【0061】
そして、データ構築部2は、算出した取引先該当数、取引元該当数、売上比、従業員数比及び純利益比、都道府県コードの差、及び、地域コードの差を、中間データINTの取引先該当数及び取引元該当数に後続するフィールドに挿入して、学習用データLDを構築する。
【0062】
また、学習用データの基礎となる企業データCPR及び取引データTRDには、欠測値が存在する場合が考え得る。こうした欠測値については、モデル構築の障害にならないような値で補完してもよい。例えば、ある閾値に対する大小判定を行うデータ項目については、閾値から大きく離れた値で欠測値を補完してもよい。また、必要に応じて、各データ項目の平均値や中央値などの統計量によって、欠測値を補完してもよい。また、欠測値が存在する場合には、欠測値が存在するデータ項目について欠測値の有無を示すフィールドを設け、欠測値の有無を示すフラグを記録してもよい。この場合、後述するモデル構築のときに、欠測値フラグを参照して、欠測値を有するレコードを除外するなどの処理を行ってもよい。
【0063】
ステップS14
データ構築部2は、ステップS11~S13によって構築した学習用データLDを、学習処理部3へ出力する。
【0064】
ステップS15
学習処理部3は、受け取った学習用データを入力データとして学習を行う。学習手法としては、例えば、ランダムフォレストを用いることができる。この場合、学習等データからサンプリングを行い、サンプルサイズnのサンプルをm個生成して、決定木を作成する。そして、m個のサンプルのそれぞれにおいて変数の一部をサンプリングして変数の候補として用い、変数の候補からデータを最もよく分割する変数及び閾値を選んで分岐条件を決定することで、学習器を作成する。最後に、各学習器の学習結果を統合することで、分類器として機能する学習済みモデルMを構築することができる。ここでは、学習処理部3は、構築した学習済みモデルMを推定部4に渡す。
【0065】
これにより、情報処理装置100は、取引先構成比率が未知である特定の取引元企業及び取引先企業の組み合わせについて、取引先構成比率を推定する。
【0066】
次いで、本実施の形態における取引先構成比率の推定処理について説明する。推定処理においては、推定部4が、未知の入力データを学習済みの分類器に入力することで、取引構成先比率の推定結果を出力する。言うまでもないが、この場合の入力データは、
図10に示すデータ形式から、推定対象となる取引構成先比率を除いたデータとなる。
図11に、実施の形態1にかかる情報処理装置100の取引先構成比率の推定処理のフローチャートを示す。
【0067】
ステップS21
データ読込部1は、企業データベース110から、取引構成先比率の推定対象となる企業データCPR及び取引データTRDを読み込む。なお、ここで読み込まれる取引データTRDの各レコードは、
図7に示すデータ形式から、推定対象となる取引構成先比率を除いたレコードとなっている。
【0068】
ステップS22
ステップS22は、ステップS12と同様であるので、説明を省略する。
【0069】
ステップS23
ステップS23の処理は、ステップS13の学習用データLDに代えて、推定対象の入力データINが構築されることを除き、ステップS23と同様であるので、重複する説明を省略する。なお、上述したように、構築された入力データは、
図10に示すデータ形式から、推定対象となる取引構成先比率を除いたデータとなる。
【0070】
ステップS24
データ構築部2は、ステップS21~S23によって構築した入力データINを、推定部4へ出力する。
【0071】
ステップS25
推定部4は、入力データINを学習済みモデルMによって構成される分類器に入力することで、取引構成先比率の推定結果RESを出力する。これにより、情報処理装置100は、取引先構成比率が未知である特定の取引元企業及び取引先企業の組み合わせについて、取引先構成比率を推定する。
【0072】
以上、本構成によれば、企業データと取引データとを接続することで学習用データを取得し、これを学習することで、ある取引先企業と取引元企業との組み合わせについて、取引構成先比率を推定することが可能となる。
【0073】
次いで、本実施の形態における推定方法の推定精度について、実験により検証を行った。実験にあたっては、企業データとして、ここでは、2012年10月1日から2021年9月30日までの期間のクロスセクションデータを含むパネルデータとして構築し、これに対応する取引データを構築した。ここでは、構築した学習用データのうち、取引元の売上が0のレコード及び取引先構成比率が0のレコードは除外した。また、構築したデータのうち、各年について、学習用データが8割、テストデータが2割となるようにデータを分割した。
【0074】
取引データに接続するときに参照する企業データの収集期間の影響を比較するため、以下の3つの実験条件EA~ECを設定した。
【0075】
実験条件EA
図12に、実験条件EAでの取引データと企業データのとの接続の概要を示す。
図12では、説明の簡略ため、取引先データの決算日は、取引元データの決算日と同じD1~D7とし、決算日の間隔は1年とする。取引データTRDの注目する1つのレコードの取得日は、決算日D4と次の決算日D5との間とする。
【0076】
本条件では、1つの取引データのレコードに対して接続する企業データの参照期間は、取引元データについては対象となる取引データのレコードの取得日よりも前の1年以内のものを参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、
図12の例では、決算日D4の取引データが、取引データTDRの注目レコードと接続される。なお、
図12の例に限らず、1年以内に適切な決算日の取引元データが存在しない場合には、データの接続を中止してもよい。
【0077】
取引先データについては対象となる取引データのレコードの取得日よりも前の3年以内のものを参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、
図12の例では、決算日D4の取引先データが、取引データTDRの注目レコードと接続される。なお、
図12の例に限らず、3年以内に適切な決算日の取引データが存在しない場合には、データの接続を中止してもよい。また、例えば、決算日D4において取引先データが収集されていない場合には、最新の決算日D3の取引先データを接続対象として選択される。
【0078】
実験条件EB
図13に、実験条件EBでの取引データと企業データのとの接続の概要を示す。
図13における決算日及び取引データTRDの注目レコードの取得日は、
図12と同様である。
【0079】
取引元データについては対象となる取引データのレコードの取得日よりも前の期間を参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、
図13の例では、決算日D4の取引元データが、取引データTDRの注目レコードと接続される。例えば、決算日D4において取引元データが収集されていない場合には、最新の決算日D3の取引元データを接続対象とすることになる。つまり、参照期間において実際に存在する取引元データのうち、最新の決算日のものが選択される。
【0080】
取引先データについては対象となる取引データのレコードの取得日よりも前の期間を参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、
図13の例では、決算日D4の取引先データが、取引データTDRの注目レコードと接続される。例えば、決算日D4において取引先データが収集されていない場合には、最新の決算日D3の取引先データを接続対象とすることになる。つまり、参照期間において実際に存在する取引先データのうち、最新の決算日のものが選択される。
【0081】
実験条件EC
図14に、実験条件ECでの取引データと企業データのとの接続の概要を示す。
図14における決算日及び取引データTRDの注目レコードの取得日は、
図13及び
図14と同様である。
【0082】
取引元データについては、対象となる取引データのレコードの取得日を含む全期間の取引元データを参照し、このうちで最新の決算日の取引元データを接続対象として選択する。よって、
図14の例では、決算日D7の取引元データが、取引データTDRの注目レコードと接続される。例えば、決算日D7において取引元データが収集されていない場合には、最新の決算日D6の取引元データを接続対象とすることになる。つまり、参照期間において実際に存在する取引元データのうち、最新の決算日のものが選択される。
【0083】
取引先データについては、対象となる取引データのレコードの取得日を含む全期間の取引先データを参照し、このうちで最新の決算日の取引先データを接続対象として選択する。よって、
図14の例では、決算日D7の取引先データが、取引データTDRの注目レコードと接続される。例えば、決算日D7において取引先データが収集されていない場合には、最新の決算日D6の取引先データを接続対象とすることになる。つまり、参照期間において実際に存在する取引先データのうち、最新の決算日のものが選択される。
【0084】
以上の各条件において、学習済みモデルMを構築し、その学習済みモデルMにテストデータを入力して、取引構成先比率を推定した。そして、推定した取引先構成比率とテストデータの取引先構成比率とを比較して、推定精度を評価した。推定精度の評価にあたっては、二乗平均平方根誤差(RMSE:Root Mean Squared Error)及び平均絶対誤差(MAE:Mean Absolute Error)を算出した。
【0085】
図15に、実験結果を示す。学習用データとテストデータとへの分割前のデータのレコード数は、実験条件EAが477,999、実験条件EBが509,375、実験条件ECが716,287であった。RMSEについては、実験条件EAが0.0982、実験条件EBが0.0980、実験条件ECが0.0817となった。MAEについては、実験条件EAが0.0616、実験条件EBが0.0610、実験条件ECが0.0471となった。
【0086】
このように、実験条件EA~ECのいずれにおいても、良好な推定結果が得られることが理解できる。また、取引データの1つのレコードに対する企業データの参照期間を長くすることで、推定精度の向上が認められた。
【0087】
以上、本構成によれば、条件による変動はあるものの、学習済みモデルMに取引元企業と取引先企業とを指定した入力データを入力することで、取引先構成比率を高い精度で推定できることが理解できる。
【0088】
その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態にかかる情報処理装置が実行する処理は、ASIC(Application Specific Integrated Circuit)を含む半導体処理装置を用いて実現されてもよい。また、これらの処理は、少なくとも1つのプロセッサ(e.g. マイクロプロセッサ、CPU、GPU、MPU、DSP(Digital Signal Processor))を含むコンピュータシステムにプログラムを実行させることによって実現されてもよい。具体的には、これらの送信信号処理又は受信信号処理に関するアルゴリズムをコンピュータシステムに行わせるための命令群を含む1又は複数のプログラムを作成し、当該プログラムをコンピュータに供給すればよい。
【0089】
これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0090】
上述の実施の形態では、学習用データの学習手法としてランダムフォレストを用いる例について説明したが、学習手法はこれに限られず、適宜、各種の手法を用いてもよい。例えば、学習用データの学習手法として勾配ブースティング決定木(Gradient Boosting Decision Tree:GBDT)を用いてもよい。
【符号の説明】
【0091】
CPR 企業データ
DA 会計データ
DP 属性データ
DC 相関データ
IN 入力データ
INT 中間データ
LD 学習用データ
M 学習済みモデル
TRD 取引データ
1 データ読込部
2 データ構築部
3 学習処理部
4 推定部
5 記憶部
100 情報処理装置
1001 CPU
1002 ROM
1003 RAM
1004 バス
1005 入出力インターフェイス
1006 入力部
1007 出力部
1008 通信部
1009 記憶部
1010 ドライブ
1011 磁気ディスク
1012 光ディスク
1013 フレキシブルディスク
1014 半導体メモリ
1020 ネットワーク
1030 サーバ
1000 コンピュータ
【要約】
【課題】企業間の取引を推定することができる情報処理装置、モデル構築方法及びモデル構築プログラムを提供する。
【解決手段】データ読込部1は、企業データCPRと、取引データTRDと、を読み込む。データ構築部2は、企業データCPRに含まれるデータのうち、取引データTRDの取引元企業に関するデータと、取引データTRDの前記取引先企業に関するデータと、を取引データTRDに接続して、学習用データLDを構築する。学習処理部3は、学習用データLDを学習し、学習済みモデルMを構築する。
【選択図】
図2