IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社xenodata lab.の特許一覧

特許7235329経済指標推定システムおよびそのプログラム
<>
  • 特許-経済指標推定システムおよびそのプログラム 図1
  • 特許-経済指標推定システムおよびそのプログラム 図2
  • 特許-経済指標推定システムおよびそのプログラム 図3
  • 特許-経済指標推定システムおよびそのプログラム 図4
  • 特許-経済指標推定システムおよびそのプログラム 図5
  • 特許-経済指標推定システムおよびそのプログラム 図6
  • 特許-経済指標推定システムおよびそのプログラム 図7
  • 特許-経済指標推定システムおよびそのプログラム 図8
  • 特許-経済指標推定システムおよびそのプログラム 図9
  • 特許-経済指標推定システムおよびそのプログラム 図10
  • 特許-経済指標推定システムおよびそのプログラム 図11
  • 特許-経済指標推定システムおよびそのプログラム 図12
  • 特許-経済指標推定システムおよびそのプログラム 図13
  • 特許-経済指標推定システムおよびそのプログラム 図14
  • 特許-経済指標推定システムおよびそのプログラム 図15
  • 特許-経済指標推定システムおよびそのプログラム 図16
  • 特許-経済指標推定システムおよびそのプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-28
(45)【発行日】2023-03-08
(54)【発明の名称】経済指標推定システムおよびそのプログラム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20230301BHJP
【FI】
G06Q10/04
【請求項の数】 16
(21)【出願番号】P 2020097567
(22)【出願日】2020-06-04
(65)【公開番号】P2021189995
(43)【公開日】2021-12-13
【審査請求日】2022-11-25
【早期審査対象出願】
(73)【特許権者】
【識別番号】516308102
【氏名又は名称】株式会社xenodata lab.
(74)【代理人】
【識別番号】100101982
【弁理士】
【氏名又は名称】久米川 正光
(72)【発明者】
【氏名】奥野 達也
(72)【発明者】
【氏名】高橋 明生
(72)【発明者】
【氏名】黒野 昭彦
【審査官】宮地 匡人
(56)【参考文献】
【文献】特開2020-024689(JP,A)
【文献】特開2011-123795(JP,A)
【文献】国際公開第2016/063341(WO,A1)
【文献】和泉 潔,経済因果チェーン検索のシステム紹介と応用,第33回人工知能学会全国大会論文集 [ONLINE],2019年07月01日,4Rin1-28
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
特定の経済指標を表す経済指標値の離散的な時系列と、前記経済指標値に影響を及ぼす経済事象とに基づいて、所望の時間分解能で経済指標を推定する経済指標推定システムにおいて、
外部より収集されたニュース群から抽出された経済事象の内容を、予め定められた複数の項目で構造化した経済事象ダイジェストを生成するダイジェスト生成部と、
前記経済事象ダイジェストを格納する経済事象データベースと、
前記経済事象データベースに格納された前記経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、前記経済事象ダイジェストを内容的な共通性を有する経済事象パターン別に分類し、それぞれの経済事象パターンの出現頻度を集計する頻度集計部と、
前記集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる経済事象頻度ベクトルが、前記集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定するベクトル推定部と、
前記経済指標値の時間分解能に相当する第1の時間単位毎に、前記第1の時間単位に属する経済事象頻度ベクトルを集計して、前記第1の時間単位内における各経済事象パターンの出現度合いを表す第1の経済事象集計ベクトルを生成するベクトル集計部と、
前記第1の経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、前記経済指標を推定するための回帰モデルの学習を行う学習処理部と
を有することを特徴とする経済指標推定システム。
【請求項2】
前記ニュース群のうち、予め設定されたニュースメディアリストに記述されたメディア名のものを抽出して、前記ダイジェスト生成部に出力するニュースフィルタ部をさらに有することを特徴とする請求項1に記載された経済指標推定システム。
【請求項3】
前記ダイジェスト生成部によって生成された前記経済事象ダイジェストのうち、予め設定された絞込条件に合致したものを抽出して、前記経済事象データベースに格納する絞込処理部をさらに有することを特徴とする請求項1に記載された経済指標推定システム。
【請求項4】
前記絞込処理部は、前記絞込条件として、推定対象となる特定の経済指標値に影響を与える経済事象ダイジェストのパターンが記述された業績要因リストを参照して、前記経済事象ダイジェストを抽出することを特徴とする請求項3に記載された経済指標推定システム。
【請求項5】
前記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された前記経済事象頻度ベクトルの和を算出し、前記第1の時間単位における前記出現頻度で正規化することによって、前記第1の経済事象集計ベクトルを生成することを特徴とする請求項1に記載された経済指標推定システム。
【請求項6】
第2の経済事象集計ベクトルの入力に対する学習済の前記回帰モデルの応答を、前記第2の経済事象集計ベクトルと時間的に対応する経済指標の推定値として出力する推定処理部をさらに有し、
前記ベクトル集計部は、前記経済指標値とは時間分解能が異なる第2の時間単位に属する経済事象頻度ベクトルを集計して、前記第2の時間単位内における各経済事象パターンの出現度合いを表す前記第2の経済事象集計ベクトルを生成することを特徴とする請求項1に記載された経済指標推定システム。
【請求項7】
前記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された前記経済事象頻度ベクトルの和を算出し、前記第2の時間単位における前記出現頻度で正規化することによって、前記第2の経済事象集計ベクトルを生成することを特徴とする請求項6に記載された経済指標推定システム。
【請求項8】
前記第2の時間単位は、前記経済指標値よりも時間分解能が高いことを特徴とする請求項6または7に記載された経済指標推定システム。
【請求項9】
特定の経済指標を表す経済指標値の離散的な時系列と、前記経済指標値に影響を及ぼす経済事象とに基づいて、所望の時間分解能で経済指標を推定する経済指標推定プログラムにおいて、
外部より収集されたニュース群から抽出された経済事象の内容を、予め定められた複数の項目で構造化した経済事象ダイジェストを生成する第1のステップと、
前記経済事象ダイジェストを経済事象データベースに格納する第2のステップと、
前記経済事象データベースに格納された前記経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、前記経済事象ダイジェストを内容的な共通性を有する経済事象パターン別に分類し、それぞれの経済事象パターンの出現頻度を集計する第3のステップと、
前記集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる経済事象頻度ベクトルが、前記集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定する第4のステップと、
前記経済指標値の時間分解能に相当する第1の時間単位毎に、前記第1の時間単位に属する経済事象頻度ベクトルを集計して、前記第1の時間単位内における各経済事象パターンの出現度合いを表す第1の経済事象集計ベクトルを生成する第5のステップと、
前記第1の経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、前記経済指標を推定するための回帰モデルの学習を行う第6のステップと
を有する処理をコンピュータに実行させることを特徴とする経済指標推定プログラム。
【請求項10】
前記第1のステップは、前記ニュース群のうち、予め設定されたニュースメディアリストに記述されたメディア名のものを抽出するステップを有することを特徴とする請求項9に記載された経済指標推定プログラム。
【請求項11】
前記第1のステップは、前記経済事象ダイジェストのうち、予め設定された絞込条件に合致したものを抽出して、前記経済事象データベースに格納するステップを有することを特徴とする請求項9に記載された経済指標推定プログラム。
【請求項12】
前記第1のステップは、前記絞込条件として、推定対象となる特定の経済指標値に影響を与える経済事象ダイジェストのパターンが記述された業績要因リストを参照して、前記経済事象ダイジェストを抽出することを特徴とする請求項11に記載された経済指標推定プログラム。
【請求項13】
前記第3のステップは、各次元の構成要素の和が1になるように正規化された前記経済事象頻度ベクトルの和を算出し、前記第1の時間単位における前記出現頻度で正規化することによって、前記第1の経済事象集計ベクトルを生成することを特徴とする請求項9に記載された経済指標推定プログラム。
【請求項14】
第2の経済事象集計ベクトルの入力に対する学習済の前記回帰モデルの応答を、前記第2の経済事象集計ベクトルと時間的に対応する経済指標の推定値として出力する第7のステップと、
前記経済指標値とは時間分解能が異なる第2の時間単位に属する経済事象頻度ベクトルを集計して、前記第2の時間単位内における各経済事象パターンの出現度合いを表す前記第2の経済事象集計ベクトルを生成する第8のステップと
を有することを特徴とする請求項9に記載された経済指標推定プログラム。
【請求項15】
前記第8のステップは、各次元の構成要素の和が1になるように正規化された前記経済事象頻度ベクトルの和を算出し、前記第2の時間単位における前記出現頻度で正規化することによって、前記第2の経済事象集計ベクトルを生成することを特徴とする請求項14に記載された経済指標推定プログラム。
【請求項16】
前記第2の時間単位は、前記経済指標値よりも時間分解能が高いことを特徴とする請求項14または15に記載された経済指標推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、経済指標を推定する経済指標推定システムおよびそのプログラムに関する。
【背景技術】
【0002】
従来、ニュース記事などの様々なテキストデータを活用して、経済環境や金融市場の動向を予測する手法が知られている。例えば、非特許文献1には、日々配信されている経済ニュースを指数化して景気動向のナウキャスティングを行い、景況感ニュース指数による資産価格のボラティリティ予測を行う手法が開示されている。この手法の特徴は、第1に、経済ニュースより景況感を推定するにあたって、深層学習モデルの一つである畳み込みニューラル・ネットワーク(CNN)を用いる点、そして、第2に、日次のニュースを指数化することによって、日次での景気動向を計測する点である。ニュース指数を構築するために、まず、内閣府が公表している景気ウォッチャー調査の景気判断理由集を訓練データとして、CNNによる教師あり学習を行い、テキスト分類を行う学習器を構築する。つぎに、訓練した学習器を用いて、経済ニュースの日本語記事を構成する文に対して景況感に関するスコアを付与する。最後に、スコアが付与された文章を月次および日次で集計することによって、ニュース指数を構築する。
【0003】
非特許文献2には、再帰型ニューラルネットワーク(RNN)によって自動的にテキストの景気センチメントを判別することで、金融レポートのテキストを低コストかつ高速に数値(センチメント指数)化して集計する手法が開示されている。景気ウォッチャー調査のテキストから、その景気センチメント(ポジティブ/ネガティブ)を予測するタスクをRNNで学習させた上で、文書の景気センチメントを判別させる。また、非特許文献2には、このようなセンチメント推定モデルを使って政府や日銀が発行する月次レポートのセンチメントを推定し指数化したところ、得られた指数の変動はマクロの景気変動の動きと良く連動していること、および、日経平均との相関を算出したところ、既に投資指標として広く用いられている日銀短観や景気ウォッチャー指数と比べても高い値を示したことが記載されている。
【0004】
また、非特許文献3には、日本銀行の景気に対するセンチメントを日本銀行の発行するテキストに対して、トピックモデルおよびニューラルネットワーク用いて、トピック毎に分解した指数化を行う手法が開示されている。
【0005】
さらに、特許文献1には、ニュース情報等の公表に有無にかかわらず経済指標を予測する情報処理装置が開示されている。この情報処理装置は、モデル記憶部と、取得部と、予測部とを有する。モデル記憶部は、端末の位置情報に基づいて設定された予測モデルを記憶する。取得部は、一または複数の端末の位置情報を取得する。予測部は、モデル記憶部に記憶された予測モデルを、取得部により取得された位置情報を適用して、指定された経済指標を予測する。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2019-46376号公報
【非特許文献】
【0007】
【文献】五島圭一 他2名,「自然言語処理による景況感ニュース指数の構築とボラティリティ予測への応用」,[online],2019年1月、IMES DISCUSSION PEPER SERIES,日本,日本銀行金融研究所,[2020年5月28日検索],インターネット<URL:http://www.imes.boj.or.jp/research/papers/japanese/19-J-03.pdf>
【文献】山本裕樹 他1名,「景気ウォッチャー調査の深層学習を用いた金融レポートの指数化」,[online],2016年6月6日、第30回全国大会(2016),日本,一般社団法人日本人工知能学会,[2020年5月28日検索],インターネット<URL:https://www.ai-gakkai.or.jp/jsai2016/webprogram/2016/pdf/219.pdf>
【文献】余野京登 他1名,「金融レポート、およびマクロ経済指数によるリアルタイム日銀センチメントの予測」,[online],2017年5月23日、第31回全国大会(2017),日本,一般社団法人日本人工知能学会,[2020年5月28日検索],インターネット<URL:https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2D13/_pdf/-char/ja>
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、経済指標を任意の時間分解能で推定する新規な手法を提供することである。
【課題を解決するための手段】
【0009】
かかる課題を解決すべく、第1の発明は、特定の経済指標を表す経済指標値の離散的な時系列と、経済指標値に影響を及ぼす経済事象とに基づいて、所望の時間分解能で経済指標を推定する経済指標推定システムを提供する。このシステムは、ダイジェスト生成部と、経済事象データベースと、頻度集計部と、ベクトル集計部と、学習処理部とを有する。ダイジェスト生成部は、外部より収集されたニュース群から抽出された経済事象の内容を、予め定められた複数の項目で構造化した経済事象ダイジェストを生成する。経済事象データベースには、経済事象ダイジェストが格納される。頻度集計部は、経済事象データベースに格納された経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、経済事象ダイジェストを内容的な共通性を有する経済事象パターン別に分類し、それぞれの経済事象パターンの出現頻度を集計する。ベクトル推定部は、集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる経済事象頻度ベクトルが、集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定する。ベクトル集計部は、経済指標値の時間分解能に相当する第1の時間単位毎に、第1の時間単位に属する経済事象頻度ベクトルを集計して、第1の時間単位内における各経済事象パターンの出現度合いを表す第1の経済事象集計ベクトルを生成する。学習処理部は、第1の経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、経済指標を推定するための回帰モデルの学習を行う。
【0010】
ここで、第1の発明において、ニュース群のうち、予め設定されたニュースメディアリストに記述されたメディア名のものを抽出して、ダイジェスト生成部に出力するニュースフィルタ部を設けてもよい。また、ダイジェスト生成部によって生成された経済事象ダイジェストのうち、予め設定された絞込条件に合致したものを抽出して、経済事象データベースに格納する絞込処理部を設けてもよい。この場合、上記絞込処理部は、上記絞込条件として、推定対象となる特定の経済指標値に影響を与える経済事象ダイジェストのパターンが記述された業績要因リストを参照して、経済事象ダイジェストを抽出することが好ましい。
【0011】
第1の発明において、上記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された経済事象頻度ベクトルの和を算出し、第1の時間単位における出現頻度で正規化することによって、第1の経済事象集計ベクトルを生成することが好ましい。
【0012】
第1の発明において、第2の経済事象集計ベクトルの入力に対する学習済の回帰モデルの応答を、第2の経済事象集計ベクトルと時間的に対応する経済指標の推定値として出力する推定処理部を設けてもよい。この場合、上記ベクトル集計部は、経済指標値とは時間分解能が異なる第2の時間単位に属する経済事象頻度ベクトルを集計して、第2の時間単位内における各経済事象パターンの出現度合いを表す第2の経済事象集計ベクトルを生成することが好ましい。また、上記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された経済事象頻度ベクトルの和を算出し、第2の時間単位における出現頻度で正規化することによって、第2の経済事象集計ベクトルを生成することが好ましい。
【0013】
第2の発明は、特定の経済指標を表す経済指標値の離散的な時系列と、経済指標値に影響を及ぼす経済事象とに基づいて、所望の時間分解能で経済指標を推定する経済指標推定プログラムを提供する。このプログラムは、以下の第1から第6までのステップを有する処理をコンピュータに実行させる。第1のステップでは、外部より収集されたニュース群から抽出された経済事象の内容を、予め定められた複数の項目で構造化した経済事象ダイジェストを生成する。第2のステップでは、経済事象ダイジェストを経済事象データベースに格納する。第3のステップでは、経済事象データベースに格納された経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、経済事象ダイジェストを内容的な共通性を有する経済事象パターン別に分類し、それぞれの経済事象パターンの出現頻度を集計する。第4のステップでは、集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる経済事象頻度ベクトルが、集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定する。第5のステップでは、経済指標値の時間分解能に相当する第1の時間単位毎に、第1の時間単位に属する経済事象頻度ベクトルを集計して、第1の時間単位内における各経済事象パターンの出現度合いを表す第1の経済事象集計ベクトルを生成する。第6のステップでは、第1の経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、経済指標を推定するための回帰モデルの学習を行う。
【0014】
ここで、第2の発明において、上記第1のステップは、ニュース群のうち、予め設定されたニュースメディアリストに記述されたメディア名のものを抽出するステップを有していてもよい。また、上記第1のステップは、経済事象ダイジェストのうち、予め設定された絞込条件に合致したものを抽出して、経済事象データベースに格納するステップを有していてもよい。この場合、上記第1のステップは、上記絞込条件として、推定対象となる特定の経済指標値に影響を与える経済事象ダイジェストのパターンが記述された業績要因リストを参照して、経済事象ダイジェストを抽出することが好ましい。
【0015】
第2の発明において、上記第3のステップは、各次元の構成要素の和が1になるように正規化された経済事象頻度ベクトルの和を算出し、第1の時間単位における出現頻度で正規化することによって、第1の経済事象集計ベクトルを生成することが好ましい。
【0016】
第2の発明において、上述したステップに加えて、以下の第7および第7のステップを有する処理をコンピュータに実行させてもよい。第7のステップでは、第2の経済事象集計ベクトルの入力に対する学習済の回帰モデルの応答を、第2の経済事象集計ベクトルと時間的に対応する経済指標の推定値として出力する。第8のステップでは、経済指標値とは時間分解能が異なる第2の時間単位に属する経済事象頻度ベクトルを集計して、第2の時間単位内における各経済事象パターンの出現度合いを表す第2の経済事象集計ベクトルを生成する。この場合、上記第8のステップは、各次元の構成要素の和が1になるように正規化された経済事象頻度ベクトルの和を算出し、第2の時間単位における出現頻度で正規化することによって、第2の経済事象集計ベクトルを生成することが好ましい。
【0017】
第1および第2の発明において、上記第2の時間単位は、経済指標値よりも時間分解能が高くてもよい。
【0018】
第1および第2の発明において、上記第2の時間単位は、経済指標値よりも時間分解能が高くてもよい。
【発明の効果】
【0019】
本発明によれば、第1の経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、回帰モデルの学習を行う。第1の経済事象集計ベクトルは、第1の時間単位内における各経済事象パターンの出現度合いを表している。回帰モデルの学習結果として、パターン化された経済事象の出現頻度、換言すれば、ある経済指標値に対する経済事象の影響度合いが考慮された形で、経済事象と経済指標値とが関連付けられる。このようにして構築された回帰モデルを利用することで、任意の時間分解能の入力に対する回帰モデルの応答として、この時間分解能に相当する経済指標推定が可能になる。
【図面の簡単な説明】
【0020】
図1】経済指標推定システムのブロック図
図2】経済指標値の時系列の一例を示す図
図3】ニュース群の一例を示す図
図4】経済事象ダイジェストの一例を示す図
図5】正規化辞書の一例を示す図
図6】絞込条件の一例を示す図
図7】企業リストの一例を示す図
図8】企業の業績要因データの一例を示す図
図9】指標推定部のブロック図
図10】経済事象パターンの出現頻度を日次で集計した結果の一例を示す図
図11】日付の潜在ベクトルθdの一例を示す図
図12】名前(item)の潜在ベクトルθiの一例を示す図
図13】要素(element)の潜在ベクトルθjの一例を示す図
図14】変動(predicate)の潜在ベクトルθkの一例を示す図
図15】日次単位の経済事象集計ベクトルの一例を示す図
図16】回帰モデルにおける入力変数と応答変数との関係の一例を示す図
図17】平滑化が行われた経済指標の推定値の一例を示す図
【発明を実施するための形態】
【0021】
図1は、本実施形態に係る経済指標推定システムのブロック図である。この経済指標推定システム1は、既知の経済指標値と、既知のニュース群より抽出される経済事象とに基づいて、所望の時間分解能で経済指標を推定する。ここで、「経済指標値」とは、特定の経済指標を表しており、日次や月次の如く、離散的な時系列(経済指標データ)として提供される。また、「経済事象」とは、推定対象となる特定の経済指標値に影響を及ぼす出来事をいう。経済事象および経済指標値は何らかの因果関係を有しており、ある時間内において経済事象(一つとは限らない。)が発生すると、これと時間的に対応する経済指標値の変動が起こり得る。
【0022】
図2は、経済指標値の時系列の一例として、月次で公表される景気ウォッチャー製造業指数の時系列を示している。この経済指標値の時間分解能は月単位であり、経済指標推定システム1に入力すべきデータとして外部から取得される。このような経済指標値としては、景気ウォッチャー製造業指数の他に、日銀短観、鉱工業生産指数、失業率、自動車販売台数、住宅着工統計などを含めて、経済事象との因果関係を有するものであれば、任意の経済指標値を用いることができる。また、経済指標値の公表周期(時間分解能)は、四半期毎や半月毎でもよく、更には不定期なものやランダムなものであっても構わない。
【0023】
図3は、経済事象の抽出元となるニュース群の一例を示す図である。このニュース群は、記事ID、メディア名、配信日時、記事本文からなるニュース記事の集合(1件であってもよい。)であって、インターネット上などに存在する様々な外部ソースより随時収集される。
【0024】
経済指標推定システム1は、ニュースフィルタ部2と、ダイジェスト生成部3と、絞込処理部4と、経済事象データベース5と、指標推定部6とを主体に構成されている。
【0025】
ニュースフィルタ部2は、入力されたニュース群のうち、経済事象に関するニュース記事を配信している可能性が高いメディア名のもののみを抽出し、それ以外については除外する。このメディア名は、ニュースメディアリストとして予め設定されており、ここに記述されていないメディア名のものは、経済事象とは本来的に無関係なノイズとみなされる。図3の例では、ニュースメディアリストに記載されていない、記事ID=「1005」の芸能新聞や記事ID=「1006」の農業新聞などのニュース記事が除外されることになる。このようなニュースのソースに基づくフィルタリングを行うことで、それ以降の処理負荷の軽減を図る。
【0026】
ダイジェスト生成部3は、ニュースフィルタ部2によってフィルタリングされたニュース群に基づいて、経済事象を抽出する。一つのニュース記事から複数の経済事象が抽出されることもあるし、一つも抽出されないこともある。抽出された経済事象の内容は、経済事象ダイジェストの形で出力される。図4は、ニュース群より抽出された経済事象ダイジェストの一例を示す図である。経済事象ダイジェストは、経済事象の内容を予め定められた複数の項目に区分することによって構造化したものであり、冗長性を排した形で経済事象の特徴(特徴量)を端的に表している。一例として、経済事象ダイジェストは、「名前(item)」、「要素(element)」および「変動(predicate)」のセットによって構成することができる。「名前(item)」は、「原油」や「ガソリン」のように、経済事象の名前を表す項目である。「要素(element)」は、「価格」や「需要」のように、経済事象の定量または傾向を表す項目である。「変動(predicate)」は、「上昇」や「増加」のように、経済事象(「要素」)の変動方向(+/-)を表す項目である。ただし、これらの3項目のうち、経済事象を特徴付けるものとして最も重要なものは、「要素(element)」および「変動(predicate)」、すなわち、「何」が「どうした」(例えば「価格」が「下落」した)である。したがって、「要素(element)」および「変動(predicate)」は必要不可欠であるが、「名前(item)」については必要に応じて適宜採用すればよく、あるいは、これら以外の別の項目を追加してもよい。
【0027】
なお、「名前(item)」、「要素(element)」および「変動(predicate)」は、表現の揺らぎを解消すべく、正規化辞書を用いて、抽出テキストを正規テキストに正規化、すなわち、表現を統一することが好ましい。図5は、正規化辞書の一例を示す。例えば、変動(predicate)に関して、「高騰」、「増加」、「多い」といった抽出テキストは、変動方向がプラスである「増」という正規テキストに変換され、「下落」、「下降」、「急落」といった抽出テキストは、変動方向がマイナスである「減」という正規テキストに変換される。これにより、抽出テキストの表現が異なっていても、システム上、同一の意味として統一的に取り扱うことが可能になる。
【0028】
絞込処理部4は、予め設定された絞込条件に従って、ダイジェスト生成部4によって生成された経済事象ダイジェストを個別に評価して、推定対象となる特定の経済指標値と関連性を有する経済事象ダイジェストを抽出する。図6は、絞込条件の一例を示している。本実施形態において、絞込条件は、推定対象となる特定の経済指標値に影響を与える経済事象ダイジェストのパターンが記述された業績要因リストとして規定されている。これにより、ダイジェスト生成部4によって生成された経済事象ダイジェストのうち、業績要因リストに記述されたパターンに合致するものが抽出され、それに合致しないものは、推定対象となる特定の経済指標値とは関連しないものとして除去される。
【0029】
業績要因リストは、例えば、企業リストと、企業の業績要因データという2種類のデータを用いて作成することができる。図7に示すように、企業リストには、推定対象である特定の経済指標値に影響を及ぼす企業名がリストアップされている。企業名の記述は、企業の名称であってもよいが、上場企業の場合には銘柄コードなどを用いれば曖昧さをなくすことができる。また、東証33業種などの分類データを活用すれば、企業リスト自体を容易に作成することができる。一方、図8に示すように、業績要因データには、「企業名」と、「経済事象ダイジェスト」と、「影響」とのセットがリストアップされており、過去の実績として、どのような経済事象ダイジェストが企業にどのような影響を与えたのかが記述されている。例えば、同図において、「白物家電/需要/増加」という経済事象ダイジェストは、「いろは電機」の「増収」という影響を、「ドル円/相場/下落」という経済事象ダイジェストは、「いろは電機」の「減収」という影響をそれぞれ与えたことを示している。このような業績要因データについては、本出願人が既に提案した特開2020-24689号公報に記載された手法を想定しているので、必要ならば参照されたい。そして、図8に示した企業の業績要因データのうち、図7に示した企業に関するものが抽出され、これによって、図6に示した業績要因リストが作成される。
【0030】
絞込処理部4によって抽出された経済事象ダイジェストは、経済事象データベース5に新規に追加される。経済事象データベース5には、今回追加される経済事象ダイジェストのみならず、それ以前に抽出された過去分の経済事象ダイジェストも格納されている。
【0031】
指標推定部6は、上述した経済指標値と、経済事象データベース5に格納された経済事象ダイジェストとに基づいて、所望の時間分解能で経済指標を推定する。図9は、指標推定部6のブロック図である。この指標推定部6は、頻度集計部6aと、ベクトル推定部6bと、ベクトル集計部6cと、学習処理部6dと、推定処理部6eと、回帰モデル6fとを主体に構成されている。頻度集計部6aおよびベクトル推定部6bは、経済事象データベース5より読みされた経済事象ダイジェストの群を入力とした前処理を行う。ベクトル集計部6cおよび学習処理部6dは、回帰モデル6fの学習を行って、経済事象ダイジェストと経済指標値との関連付けを行う。ベクトル集計部6cおよび推定処理部6eは、学習済の回帰モデル6fを用いて所望の時間分解能で経済指標を推定し、その推定結果として経済指標の推定値を出力する。
【0032】
頻度集計部6aは、経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、集計対象となる経済事象ダイジェストを内容的な共通性を有する経済事象パターン別に分類する。そして、頻度集計部6aは、それぞれの集計時間単位について、分類された経済事象パターンのそれぞれの出現頻度を集計する。集計時間単位は、本実施形態では日次としているが、これに限らず週次や月次のように任意に設定することができ、この集計時間単位が指標推定における最も高い時間分解能に相当する。
【0033】
図10は、経済事象パターンの出現頻度を日次で集計した結果の一例を示す。上述したように、経済事象パターンは、「名前(item)×要素(element)×変動(predicate)」のセットとして規定され、このセットが共通するものが同一の経済事象パターンとしてカウントされる。その結果、2018年12月14日(日次)について、経済事象パターンA(原油×価格×下落)の出現回数は3回、経済事象パターンB(自動車×販売×増加)の出現回数は2回、経済事象パターンC(携帯電話×輸出×堅調)の出現回数は1回、経済事象パターンD(ドル×価格×下落)の出現回数は1回、経済事象パターンE(住宅×需要×好調)の出現回数は1回、経済事象パターンF(ガソリン×需要×増加)の出現回数は1回となる。それぞれの経済事象パターンA~Fの出現頻度は、これと時間的に対応する経済指標値(例えば、2018年12月14日付の経済指標値、または、同日を含む所定期間の経済指標値)と相関性を有しており、出現頻度が高いものほど、この経済指標値に与える影響の度合いが大きいものとみなされる。
【0034】
ベクトル推定部6bは、集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた経済事象頻度ベクトルが、集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定する。経済事象頻度ベクトルを推定する目的は、ニュースのような離散的なデータを連続的な特徴量に変換することで、例えば、「自動車」と「石油」、または、「販売」と「需要」などを離散的な記号に写像するのではなく、r(r≧2)次元の共通の空間に写像して、同一の尺度で表現するためである。これにより、オブジェクト間の意味の差異や類似度を測ることが可能になる。この点、離散的な記号、例えば、「自動車」=id1、「石油」=id2のような表現では、四則演算などの数学的処理を行うことができない(後述するベクトル集計部6cの処理ができない。)。
【0035】
経済事象頻度ベクトルの推定は、以下の数式1に示す仮定に基づいている。ここで、記号「~」は、左辺が右辺の確率分布に従うという意味である。xdijkは、特定の集計時間単位(日付)における特定の経済事象パターンの出現頻度である。また、θd,θi,θj,θkは、r次元の潜在ベクトルであり、それぞれ、日付(集計時間単位)、名前(item)、要素(element)、変動(predicate)といったオブジェクトの連続的な数値を持つパラメータである。なお、θは非負(マイナスではないこと。)を満たす。
【0036】
【数1】
【0037】
具体的には、経済事象頻度ベクトルは、以下の数式2に基づいて推定される。ここで、xdijkは日付dにおける経済事象パターンijkの出現頻度(観測数)、θ*は経済事象頻度ベクトル(推定対象)のパラメータである。rは経済事象頻度ベクトルの次元番号であり、次元数は適宜設定される。また、dは日付に対応する添字、mdは日付dに対応する月の添字、iは経済事象パターンの名前(item)に対応する添字、jは経済事象パターンの要素(element)に対応する添字、kは経済事象パターンの変動(predicate)に相当する添字である。同数式2において、集計時間単位内における経済事象パターンの出現頻度は、ポアソン分布に従うことを仮定としている。なお、θは非負を満たしさえすれば、eθのような関数やニューラルネットのような非線形関数の形を取ることが可能である。
【0038】
【数2】
【0039】
上記数式2における各パラメータθd,θi,θj,θkは、離散的な記号を共通の空間に写像した結果となる。経済事象パターン毎の出現頻度xdijkをうまく再現できるように、これらのパラメータθd,θi,θj,θkを推定(学習)できれば、その集計時間単位(日次)内において、どのような経済事象(経済事象パターン)が出現しているかといった状況、換言すれば、各経済事象パターンの出現度合いを表現することが可能となる。
【0040】
上記数式1および2に基づいて推定結果として、経済事象頻度ベクトルは、非負の実数値によって構成される。図11から図14は、4つのパラメータθ*に分解して表現された経済事象頻度ベクトルの一例を示す図である(r=10の場合のθ*の結果)。経済事象頻度ベクトルθ*の各次元は、オブジェクト間で共通の意味を持つため、例えば、異なる名前(item)であっても非負の実数値として同じ尺度で比較することが可能になる。また、名前(item)間で推定されたパラメータの実数値が似ている傾向があると、これらを含む経済事象は同時に観測され易くなる。
【0041】
また、ベクトル推定部6bは、経済事象頻度ベクトルの各次元の構成要素(非負の実数値)の和が1になるように、経済事象頻度ベクトルを正規化する。この正規化によって、経済事象頻度ベクトル同士を同じ数値基準で評価することが可能になる。具体的には、特定の日付において出現する経済事象パターン毎に推定された経済事象頻度ベクトルに対して、以下の数式3を適用することによって正規化が行われる。この正規化を行えば、θ*の値が非負の実数値を取るため、それぞれの経済事象パターンについて正規化された経済事象頻度ベクトルΛdijkrの和が必ず1になる。この結果は、経済事象パターンの潜在的に出現率として解釈できるので、経済事象パターン毎に出現頻度を足し上げる処理が可能となる。
【0042】
【数3】
【0043】
なお、ベクトル推定部6bによって生成された経済事象頻度ベクトルは、図示しない記憶装置に格納される。この記憶装置に格納された経済事象頻度ベクトルは、経済事象頻度ベクトルの集計を行う際、ベクトル集計部6cによって随時読み出される。
【0044】
ベクトル集計部6cは、所定の時間単位毎に、この時間単位に属する経済事象頻度ベクトルを集計して、経済事象集計ベクトルを生成する。ここでいう時間単位は、回帰モデル6fの学習時では、経済指標値の時間分解能に相当する時間単位(本実施形態では月次)である。また、回帰モデル6fを用いた指標推定時では、経済指標値の時間分解能とは異なる時間単位、典型的には、経済指標値よりも時間分解能が高い時間単位(本実施形態では日次)である。経済事象集計ベクトルは、上記時間単位内における各経済事象パターンの出現度合いを表す。すなわち、上記学習時には、月次集計の結果として、1ヶ月における各経済事象パターンの出現度合いを表す経済事象集計ベクトル(第1の経済事象集計ベクトル)が生成される。また、上記指標予測時には、日次集計の結果として、1日における各経済事象パターンの出現度合いを表す経済事象集計ベクトル(第2の経済事象集計ベクトル)が生成される。
【0045】
具体的には、経済事象集計ベクトルは、以下の数式4によって計算される。上記数式3において、Λdijkrの総和が必ず1になることを利用すれば、xdijkがd日の経済事象パターンijkの出現頻度なので、xdijkΛdijkrとして、日付d日の名前(item)i、要素(element)jについてすべて和を取り、上記時間単位における出現頻度で正規化することによって、d日の経済事象集計ベクトルを計算できる。
【0046】
【数4】
【0047】
この処理は、変動(predicate)k毎に別々に行われる。なお、変動(predicate)に代えて、図8に示した企業の業績要因データにおける「影響」毎に行ってもよい。この「影響」を用いる利点としては、第1に、回帰係数の値の動向を上手く表現できること、そして、第2に、回帰係数の結果が増収ならば必ずプラス、減収ならば必ずマイナスになることを制約できることが挙げられる。また、和を取る際は、任意の関数を使って和を取ることや、過去の経済事象集計ベクトルが現在の経済事象集計ベクトルに影響を与えると仮定して和を取ることも可能である。この処理を行うことで、日付dについて、r次元のどの位置に属する事象が出現し易いかという解釈を行うことが可能になる。
【0048】
図15は、日次単位の経済事象集計ベクトルの一例を示す図である。図示した数値の意味は、各次元が経済事象の特性を表しており、ある任意の日dに関して、どのような経済事象が出現し易いのかを表している。換言すれば、その日dにおける各経済事象パターンの出現度合いとして、次元1は石油関連の事象の特性が強いとか、次元2は自動車関連の事象の特性が強いといった傾向を表している。これは、計算上必ずそうなるというわけでなく、コンピュータの計算結果を人間が解釈した結果として、そうなる可能性があるということである。
【0049】
一方、月次単位の経済事象集計ベクトルを算出する場合には、上記数式4にしたがって、月次単位毎に、その月次に属する経済事象パターン毎の経済事象頻度ベクトルを集計すればよい。回帰モデル6fの学習用の事象集計ベクトルを月次単位としているのは、経済指標値の時間分解能と整合させるためである。したがって、もし、経済指標値の時間分解能が四半期単位であるならば、学習用の事象集計ベクトルも四半期単位で生成される。
【0050】
回帰モデル6fは、統計的手法によって二つの変数の関係を推計するモデルであり、経済指標の推定を任意の時間分解能で行うために用いられる。回帰モデル6fとしては、リッジ回帰、Lasso、ガウス過程回帰、XGboost、ニューラルネットワーク、サポートベクターマシン(SVM)など含む任意のモデルを利用することができる。
【0051】
学習処理部6dは、ベクトル集計部6cによって生成された月次単位の経済事象集計ベクトル(月次集計)の入力に対して、これと時間的に対応する経済指標値が応答するように、回帰モデル6fの学習を行う。図16は、回帰モデル6fにおける入力変数と応答変数との関係の一例を示す図である。例えば、2014年1月の経済事象集計ベクトルの入力に対して、同年同月の経済指標値(57.7)が応答するように、回帰モデル6fの学習が行われることになる。
【0052】
推定処理部6eは、ベクトル集計部6cによって生成された日次単位の経済事象集計ベクトル(日次集計)を用いて、これと時間的に対応する経済指標値を推定する。具体的には、経済事象集計ベクトルが学習済の回帰モデル6fに入力され、この入力に対する回帰モデル6fの応答が経済指標の推定値として出力される。日次および月次の経済事象集計ベクトルについて同一の方法で標準化計算を行うことで、r次元の合計を1に制約をかけることができるので、月次のデータによる学習結果を用いて日次の経済指標の推定を行ったとしても、推定精度を保つことが可能となる。なお、経済指標の推定値は、日次単位よりも時間分解能が高い場合、および、これが低い場合のどちらであっても出力可能であり、また、現時点のみならず過去分についても出力可能である。
【0053】
また、推定処理部6eは、必要に応じて、回帰モデル6fの応答である経済指標の推定値に対して平滑化や季節調整といった処理を行う。図17は、カルマンフィルタによる平滑化が行われた経済指標の推定値の一例を示す図である。図2に示した元の経済指標値が月次単位であるのに対して、同図に示す経済指標の推定値の日次単位となっており、元の経済指標値よりも時間分解能が高く、かつ、なめらかに変化している。
【0054】
このように、本実施形態によれば、経済事象集計ベクトルの入力に対して、これと時間的に対応する経済指標値が応答するように、回帰モデル6fの学習を行う。経済事象集計ベクトルは、例えば月次といった時間単位内における各経済事象パターンの出現度合いを表している。回帰モデル6fの学習結果として、パターン化された経済事象の出現頻度、換言すれば、ある経済指標値に対する経済事象の影響度合いが考慮された形で、経済事象と経済指標値とが関連付けられる。このようにして構築された回帰モデル7を利用することで、任意の時間分解能の経済事象集計ベクトルの入力に対する応答として、この時間分解能に相当する経済指標の推定を精度良く行うことができる。
【0055】
さらに、本発明は、図1および図9に示した機能ブロックを等価的に実現する経済指標推定プログラムとして捉えることができる。この経済指標推定プログラムは、概略的には、以下の処理をコンピュータに実行させる。まず、ニュース群から抽出された経済事象について、経済事象ダイジェストを生成する。つぎに、予め設定された絞込条件に従って、経済指標値と関連性を有する経済事象ダイジェストを抽出すると共に、抽出された経済事象ダイジェストを経済事象データベース5に格納する。つぎに、経済事象データベース5に格納された経済事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、経済事象ダイジェストを経済事象パターン別に分類し、それぞれの経済事象パターンの出現頻度を集計する。つぎに、集計時間単位毎の経済事象パターンのそれぞれに対して、共通の空間に写像させた経済事象頻度ベクトルが、集計時間単位毎の経済事象パターンのそれぞれの出現頻度を再現するように推定する。つぎに、月次単位毎に、月次単位に属する経済事象頻度ベクトルを集計して、経済事象集計ベクトル(月次)を生成する。つぎに、経済事象集計ベクトル(月次)の入力に対して、これと時間的に対応する経済指標値(月次)が応答するように、回帰モデル6fの学習を行う。つぎに、日次単位に属する経済事象頻度ベクトルを集計して、経済事象集計ベクトル(日次)を生成する。最後に、経済事象集計ベクトル(日次)の入力に対する学習済の回帰モデル6fの応答を、経済事象集計ベクトル(日次)と時間的に対応する経済指標の推定値(日次)として出力する。
【符号の説明】
【0056】
1 経済指標推定システム
2 ニュースフィルタ部
3 ダイジェスト生成部
4 絞込処理部
5 経済事象データベース
6 指標推定部
6a 頻度集計部
6b ベクトル推定部
6c ベクトル集計部
6d 学習処理部
6e 推定処理部
6f 回帰モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17