IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社xenodata lab.の特許一覧

<>
  • 特許-指標推定システムおよびそのプログラム 図1
  • 特許-指標推定システムおよびそのプログラム 図2
  • 特許-指標推定システムおよびそのプログラム 図3
  • 特許-指標推定システムおよびそのプログラム 図4
  • 特許-指標推定システムおよびそのプログラム 図5
  • 特許-指標推定システムおよびそのプログラム 図6
  • 特許-指標推定システムおよびそのプログラム 図7
  • 特許-指標推定システムおよびそのプログラム 図8
  • 特許-指標推定システムおよびそのプログラム 図9
  • 特許-指標推定システムおよびそのプログラム 図10
  • 特許-指標推定システムおよびそのプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-17
(45)【発行日】2023-03-28
(54)【発明の名称】指標推定システムおよびそのプログラム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20230320BHJP
【FI】
G06Q10/04
【請求項の数】 10
(21)【出願番号】P 2020097566
(22)【出願日】2020-06-04
(65)【公開番号】P2021189994
(43)【公開日】2021-12-13
【審査請求日】2022-11-25
【早期審査対象出願】
(73)【特許権者】
【識別番号】516308102
【氏名又は名称】株式会社xenodata lab.
(74)【代理人】
【識別番号】100101982
【弁理士】
【氏名又は名称】久米川 正光
(72)【発明者】
【氏名】奥野 達也
【審査官】宮地 匡人
(56)【参考文献】
【文献】特開2020-024689(JP,A)
【文献】特開2011-123795(JP,A)
【文献】国際公開第2016/063341(WO,A1)
【文献】和泉 潔,経済因果チェーン検索のシステム紹介と応用,第33回人工知能学会全国大会論文集 [ONLINE],2019年07月01日,4Rin1-28
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
特定事項の指標を表す指標値の離散的な時系列と、前記指標値に影響を及ぼす事象とに基づいて、所望の時間分解能で指標推定を行う指標推定システムにおいて、
前記事象の内容を表す情報の群を集計対象として、所定の集計時間単位毎に、前記事象を内容的な共通性を有する事象パターン別に分類し、それぞれの事象パターンの出現頻度を集計する頻度集計部と、
前記集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる事象頻度ベクトルが、前記集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定するベクトル推定部と、
前記指標値の時間分解能に相当する第1の時間単位毎に、前記第1の時間単位に属する事象頻度ベクトルを集計して、前記第1の時間単位内における各事象パターンの出現度合いを表す第1の事象集計ベクトルを生成するベクトル集計部と、
前記第1の事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、前記指標推定を行うための回帰モデルの学習を行う学習処理部と
を有することを特徴とする指標推定システム。
【請求項2】
前記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された前記事象頻度ベクトルの和を算出し、前記第1の時間単位における前記出現頻度で正規化することによって、前記第1の事象集計ベクトルを生成することを特徴とする請求項1に記載された指標推定システム。
【請求項3】
第2の事象集計ベクトルの入力に対する学習済の前記回帰モデルの応答を、前記第2の事象集計ベクトルと時間的に対応する指標推定値として出力する推定処理部をさらに有し、
前記ベクトル集計部は、前記指標値とは時間分解能が異なる第2の時間単位に属する事象頻度ベクトルを集計して、前記第2の時間単位内における各事象パターンの出現度合いを表す前記第2の事象集計ベクトルを生成することを特徴とする請求項1に記載された指標推定システム。
【請求項4】
前記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された前記事象頻度ベクトルの和を算出し、前記第2の時間単位における前記出現頻度で正規化することによって、前記第2の事象集計ベクトルを生成することを特徴とする請求項3に記載された指標推定システム。
【請求項5】
前記第2の時間単位は、前記指標値よりも時間分解能が高いことを特徴とする請求項3または4に記載された指標推定システム。
【請求項6】
特定事項の指標を表す指標値の離散的な時系列と、前記指標値に影響を及ぼす事象とに基づいて、所望の時間分解能で指標推定を行う指標推定プログラムにおいて、
前記事象の内容を表す情報の群を集計対象として、所定の集計時間単位毎に、前記事象を内容的な共通性を有する事象パターン別に分類し、それぞれの事象パターンの出現頻度を集計する第1のステップと、
前記集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた非負の実数値よりなる事象頻度ベクトルが、前記集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定する第2のステップと、
前記指標値の時間分解能に相当する第1の時間単位毎に、前記第1の時間単位に属する事象頻度ベクトルを集計して、前記第1の時間単位内における各事象パターンの出現度合いを表す第1の事象集計ベクトルを生成する第3のステップと、
前記第1の事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、前記指標推定を行うための回帰モデルの学習を行う第4のステップと
を有する処理をコンピュータに実行させることを特徴とする指標推定プログラム。
【請求項7】
前記第3のステップは、各次元の構成要素の和が1になるように正規化された前記事象頻度ベクトルの和を算出し、前記第1の時間単位における前記出現頻度で正規化することによって、前記第1の事象集計ベクトルを生成することを特徴とする請求項6に記載された指標推定プログラム。
【請求項8】
前記指標値とは時間分解能が異なる第2の時間単位に属する事象頻度ベクトルを集計して、前記第2の時間単位内における各事象パターンの出現度合いを表す第2の事象集計ベクトルを生成する第5のステップと、
前記第2の事象集計ベクトルの入力に対する学習済の前記回帰モデルの応答を、前記第2の事象集計ベクトルと時間的に対応する指標推定値として出力する第6のステップと
をさらに有することを特徴とする請求項6に記載された指標推定プログラム。
【請求項9】
前記第5のステップは、各次元の構成要素の和が1になるように正規化された前記事象頻度ベクトルの和を算出し、前記第2の時間単位における前記出現頻度で正規化することによって、前記第2の事象集計ベクトルを生成することを特徴とする請求項8に記載された指標推定プログラム。
【請求項10】
前記第2の時間単位は、前記指標値よりも時間分解能が高いことを特徴とする請求項8または9に記載された指標推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定事項の指標を表す指標値を推定する指標推定システムおよびそのプログラムに関する。
【背景技術】
【0002】
従来、ニュース記事などの様々なテキストデータを活用して、経済環境や金融市場の動向を予測する手法が知られている。例えば、非特許文献1には、日々配信されている経済ニュースを指数化して景気動向のナウキャスティングを行い、景況感ニュース指数による資産価格のボラティリティ予測を行う手法が開示されている。この手法の特徴は、第1に、経済ニュースより景況感を推定するにあたって、深層学習モデルの一つである畳み込みニューラル・ネットワーク(CNN)を用いる点、そして、第2に、日次のニュースを指数化することによって、日次での景気動向を計測する点である。ニュース指数を構築するために、まず、内閣府が公表している景気ウォッチャー調査の景気判断理由集を訓練データとして、CNNによる教師あり学習を行い、テキスト分類を行う学習器を構築する。つぎに、訓練した学習器を用いて、経済ニュースの日本語記事を構成する文に対して景況感に関するスコアを付与する。最後に、スコアが付与された文章を月次および日次で集計することによって、ニュース指数を構築する。
【0003】
非特許文献2には、再帰型ニューラルネットワーク(RNN)によって自動的にテキストの景気センチメントを判別することで、金融レポートのテキストを低コストかつ高速に数値(センチメント指数)化して集計する手法が開示されている。景気ウォッチャー調査のテキストから、その景気センチメント(ポジティブ/ネガティブ)を予測するタスクをRNNで学習させた上で、文書の景気センチメントを判別させる。また、非特許文献2には、このようなセンチメント推定モデルを使って政府や日銀が発行する月次レポートのセンチメントを推定し指数化したところ、得られた指数の変動はマクロの景気変動の動きと良く連動していること、および、日経平均との相関を算出したところ、既に投資指標として広く用いられている日銀短観や景気ウォッチャー指数と比べても高い値を示したことが記載されている。
【0004】
また、非特許文献3には、日本銀行の景気に対するセンチメントを日本銀行の発行するテキストに対して、トピックモデルおよびニューラルネットワーク用いて、トピック毎に分解した指数化を行う手法が開示されている。
【0005】
さらに、特許文献1には、ニュース情報等の公表に有無にかかわらず経済指標を予測する情報処理装置が開示されている。この情報処理装置は、モデル記憶部と、取得部と、予測部とを有する。モデル記憶部は、端末の位置情報に基づいて設定された予測モデルを記憶する。取得部は、一または複数の端末の位置情報を取得する。予測部は、モデル記憶部に記憶された予測モデルを、取得部により取得された位置情報を適用して、指定された経済指標を予測する。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2019-46376号公報
【非特許文献】
【0007】
【文献】五島圭一 他2名,「自然言語処理による景況感ニュース指数の構築とボラティリティ予測への応用」,[online],2019年1月、IMES DISCUSSION PEPER SERIES,日本,日本銀行金融研究所,[2020年5月28日検索],インターネット<URL:http://www.imes.boj.or.jp/research/papers/japanese/19-J-03.pdf>
【文献】山本裕樹 他1名,「景気ウォッチャー調査の深層学習を用いた金融レポートの指数化」,[online],2016年6月6日、第30回全国大会(2016),日本,一般社団法人日本人工知能学会,[2020年5月28日検索],インターネット<URL:https://www.ai-gakkai.or.jp/jsai2016/webprogram/2016/pdf/219.pdf>
【文献】余野京登 他1名,「金融レポート、およびマクロ経済指数によるリアルタイム日銀センチメントの予測」,[online],2017年5月23日、第31回全国大会(2017),日本,一般社団法人日本人工知能学会,[2020年5月28日検索],インターネット<URL:https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2D13/_pdf/-char/ja>
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、特定の事項に関する指標を任意の時間分解能で推定する新規な手法を提供することである。
【課題を解決するための手段】
【0009】
かかる課題を解決すべく、第1の発明は、特定事項の指標を表す指標値の離散的な時系列と、指標値に影響を及ぼす事象とに基づいて、所望の時間分解能で指標推定を行う指標推定システムを提供する。この指標推定システムは、頻度集計部と、ベクトル推定部と、ベクトル集計部と、学習処理部とを有する。頻度集計部は、事象の内容を表す情報の群を集計対象として、所定の集計時間単位毎に、事象を内容的な共通性を有する事象パターン別に分類し、それぞれの事象パターンの出現頻度を集計する。ベクトル推定部は、集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた事象頻度ベクトル(このベクトルは非負の実数値よりなる。)が、集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定する。ベクトル集計部は、指標値の時間分解能に相当する第1の時間単位毎に、第1の時間単位に属する事象頻度ベクトルを集計して、第1の時間単位内における各事象パターンの出現度合いを表す第1の事象集計ベクトルを生成する。学習処理部は、第1の事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、回帰モデルの学習を行う。この回帰モデルは、指標推定を行うために用いられる。
【0010】
ここで、第1の発明において、上記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された事象頻度ベクトルの和を算出し、第1の時間単位における出現頻度で正規化することによって、第1の事象集計ベクトルを生成することが好ましい。
【0011】
第1の発明において、推定処理部を設けてもよい。この推定処理部は、第2の事象集計ベクトルの入力に対する学習済の回帰モデルの応答を、第2の事象集計ベクトルと時間的に対応する指標推定値として出力する。この場合、上記ベクトル集計部は、指標値とは時間分解能が異なる第2の時間単位に属する事象頻度ベクトルを集計して、第2の時間単位内における各事象パターンの出現度合いを表す第2の事象集計ベクトルを生成する。また、上記ベクトル集計部は、各次元の構成要素の和が1になるように正規化された事象頻度ベクトルの和を算出し、第2の時間単位における出現頻度で正規化することによって、第2の事象集計ベクトルを生成することが好ましい。
【0012】
第2の発明は、特定事項の指標を表す指標値の離散的な時系列と、指標値に影響を及ぼす事象とに基づいて、所望の時間分解能で指標推定を行う指標推定プログラムを提供する。この指標推定プログラムは、以下の第1から第4のステップを有する処理をコンピュータに実行させる。第1のステップでは、事象の内容を表す情報の群を集計対象として、所定の集計時間単位毎に、事象を内容的な共通性を有する事象パターン別に分類し、それぞれの事象パターンの出現頻度を集計する。第2のステップでは、集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた事象頻度ベクトル(このベクトルは非負の実数値よりなる。)が、集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定する。第3のステップでは、指標値の時間分解能に相当する第1の時間単位毎に、第1の時間単位に属する事象頻度ベクトルを集計して、第1の時間単位内における各事象パターンの出現度合いを表す第1の事象集計ベクトルを生成する。第4のステップでは、第1の事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、指標推定を行うための回帰モデルの学習を行う。
【0013】
ここで、第2の発明において、上記第3のステップは、各次元の構成要素の和が1になるように正規化された事象頻度ベクトルの和を算出し、第1の時間単位における出現頻度で正規化することによって、第1の事象集計ベクトルを生成することが好ましい。
【0014】
第2の発明において、以下の第5および第6のステップを有する処理をコンピュータに実行させてもよい。第5のステップでは、指標値とは時間分解能が異なる第2の時間単位に属する事象頻度ベクトルを集計して、第2の時間単位内における各事象パターンの出現度合いを表す第2の事象集計ベクトルを生成する。第6のステップでは、第2の事象集計ベクトルの入力に対する学習済の回帰モデルの応答を、第2の事象集計ベクトルと時間的に対応する指標推定値として出力する。また、上記第5のステップは、各次元の構成要素の和が1になるように正規化された事象頻度ベクトルの和を算出し、第2の時間単位における出現頻度で正規化することによって、第2の事象集計ベクトルを生成することが好ましい。
【0015】
第1および第2の発明において、上記第2の時間単位は、上記指標値よりも時間分解能が高くてもよい。
【発明の効果】
【0016】
本発明によれば、第1の事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、回帰モデルの学習を行う。第1の事象集計ベクトルは、第1の時間単位内における各事象パターンの出現度合いを表している。回帰モデルの学習結果として、パターン化された事象の出現頻度、換言すれば、ある指標値に対する事象の影響度合いが考慮された形で、事象と指標値とが関連付けられる。このようにして構築された回帰モデルを利用することで、任意の時間分解能の入力に対する回帰モデルの応答として、この時間分解能に相当する指標推定が可能になる。
【図面の簡単な説明】
【0017】
図1】指標推定システムのブロック図
図2】指標値の時系列の一例を示す図
図3】事象の内容を表す情報群の一例を示す図
図4】出現頻度の集計結果の一例を示す図
図5】日付の潜在ベクトルθdの一例を示す図
図6】名前(item)の潜在ベクトルθiの一例を示す図
図7】要素(element)の潜在ベクトルθjの一例を示す図
図8】変動(predicate)の潜在ベクトルθkの一例を示す図
図9】日次単位の事象集計ベクトルの一例を示す図
図10】回帰モデルにおける入力変数と応答変数との関係の一例を示す図
図11】平滑化が行われた指標推定値の一例を示す図
【発明を実施するための形態】
【0018】
図1は、本実施形態に係る指標推定システムのブロック図である。この指標推定システム1は、既知の指標値と、既知の事象とに基づいて、所望の時間分解能で指標推定を行う。ここで、「指標値」とは、特定事項の指標を表しており、日次や月次の如く、離散的な時系列(指標データ)として提供される。また、「事象」とは、推定対象となる特定の指標値に影響を及ぼす出来事をいう。事象および指標値は何らかの因果関係を有しており、ある時間内において事象(一つとは限らない。)が発生すると、これと時間的に対応する指標値の変動が起こり得る。
【0019】
図2は、指標値の時系列の一例として、月次で公表される景気ウォッチャー製造業指数の時系列を示している。この指標値の時間分解能は月単位であり、指標推定システム1に入力すべきデータとして用意されている。このような指標値としては、景気ウォッチャー製造業指数の他に、日銀短観、鉱工業生産指数、失業率、自動車販売台数、住宅着工統計などを含めて、事象との因果関係を有するものであれば、任意の指標値を用いることができる。また、指標値の公表周期(時間分解能)は、四半期毎や半月毎でもよく、更には不定期なものやランダムなものであっても構わない。
【0020】
図3は、上記景気ウォッチャー製造業指数に影響を及ぼす事象の内容を表す情報群の一例を示す。指標値に影響を及ぼす事象に関する情報群は、インターネット上に存在する様々なソース(ニュース記事群)から収集・抽出され、指標推定システム1に入力すべきデータとして予め用意されている。本実施形態では、事象同士の内容的な共通性を効率的に評価するためなどの理由から、事象に関する情報は、予め決められた事象ダイジェストの形に予め加工されている。事象ダイジェストは、事象の内容を予め定められた複数の項目に区分することによって構造化したものであり、冗長性を排した形で事象の特徴を端的に表している。上述した景気ウォッチャー製造業指数では、これに影響を及ぼし得る事象は経済事象である。この場合、事象ダイジェストは、経済事象の特徴を端的に表すことが要求され、一例として、「名前(item)」、「要素(element)」および「変動(predicate)」のセットによって構成することができる。「名前(item)」は、「自動車」や「携帯電話」のように、経済事象の名前を表す項目である。「要素(element)」は、「販売」、「輸出」、「価格」のように、経済事象の定量または傾向を表す項目である。「変動(predicate)」は、「増加」、「下落」、「堅調」のように、経済事象(「要素」)の変動方向(+/-)を表す項目である。なお、事象に関する情報の冗長性が低い場合には、敢えてダイジェスト化することなく、この情報そのものを取り扱ってもよい。
【0021】
指標推定システム1は、頻度集計部2と、ベクトル推定部3と、ベクトル集計部4と、学習処理部5と、推定処理部6と、回帰モデル7とを主体に構成されている。頻度集計部2およびベクトル推定部3は、事象の情報群を入力とした前処理を行う。ベクトル集計部4および学習処理部5は、回帰モデル7の学習を行って、事象と指標値との関連付けを行う。ベクトル集計部4および推定処理部6は、学習済の回帰モデル7を用いて所望の時間分解能で指標推定を行い、その推定結果として指標推定値を出力する。
【0022】
頻度集計部2は、事象の内容を表す情報の群、すなわち、本実施形態では事象ダイジェストの群を集計対象として、所定の集計時間単位毎に、集計対象となる事象を内容的な共通性を有する事象パターン別に分類する。そして、頻度集計部2は、それぞれの集計時間単位について、分類された事象パターンのそれぞれの出現頻度を集計する。集計時間単位は、本実施形態では日次としているが、これに限らず週次や月次のように任意に設定することができ、この集計時間単位が指標推定における最も高い時間分解能に相当する。
【0023】
図4は、図3に示した事象パターンの出現頻度を日次で集計した結果を示す。同図の例において、事象パターンは、「名前(item)×要素(element)×変動(predicate)」のセットとして規定され、このセットが共通するものが同一の事象パターンとしてカウントされる。その結果、2018年12月14日(日次)について、事象パターンA(原油×価格×下落)の出現回数は3回、事象パターンB(自動車×販売×増加)の出現回数は2回、事象パターンC(携帯電話×輸出×堅調)の出現回数は1回、事象パターンD(ドル×価格×下落)の出現回数は1回、事象パターンE(住宅×需要×好調)の出現回数は1回、事象パターンF(ガソリン×需要×増加)の出現回数は1回となる。それぞれの事象パターンA~Fの出現頻度は、これと時間的に対応する指標値(例えば、2018年12月14日付の指標値、または、同日を含む所定期間の指標値)と相関性を有しており、出現頻度が高いものほど、この指標値に与える影響の度合いが大きいものとみなされる。
【0024】
ベクトル推定部3は、集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた事象頻度ベクトルが、集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定する。事象頻度ベクトルを推定する目的は、ニュースのような離散的なデータを連続的な特徴量に変換することで、例えば、「自動車」と「石油」、または、「販売」と「需要」などを離散的な記号に写像するのではなく、r(r≧2)次元の共通の空間に写像して、同一の尺度で表現するためである。これにより、オブジェクト間の意味の差異や類似度を測ることが可能になる。この点、離散的な記号、例えば、「自動車」=id1、「石油」=id2のような表現では、四則演算などの数学的処理を行うことができない(後述するベクトル集計部4の処理ができない。)、
【0025】
事象頻度ベクトルの推定は、以下の数式1に示す仮定に基づいている。ここで、記号「~」は、左辺が右辺の確率分布に従うという意味である。xdijkは、特定の集計時間単位(日付)における特定の事象パターンの出現頻度である。また、θd,θi,θj,θkは、r次元の潜在ベクトルであり、それぞれ、日付(集計時間単位)、名前(item)、要素(element)、変動(predicate)といったオブジェクトの連続的な数値を持つパラメータである。なお、θは非負(マイナスではないこと。)を満たす。
【0026】
【数1】
【0027】
具体的には、事象頻度ベクトルは、以下の数式2に基づいて推定される。ここで、xdijkは日付dにおける事象パターンijkの出現頻度(観測数)、θ*は事象頻度ベクトル(推定対象)のパラメータである。rは事象頻度ベクトルの次元番号であり、次元数は適宜設定される。また、dは日付に対応する添字、mdは日付dに対応する月の添字、iは事象パターンの名前(item)に対応する添字、jは事象パターンの要素(element)に対応する添字、kは事象パターンの変動(predicate)に相当する添字である。同数式2において、集計時間単位内における事象パターンの出現頻度は、ポアソン分布に従うことを仮定としている。なお、θは非負を満たしさえすれば、eθのような関数やニューラルネットのような非線形関数の形を取ることが可能である。
【0028】
【数2】
【0029】
上記数式2における各パラメータθd,θi,θj,θkは、離散的な記号を共通の空間に写像した結果となる。事象パターン毎の出現頻度xdijkをうまく再現できるように、これらのパラメータθd,θi,θj,θkを推定(学習)できれば、その集計時間単位(日次)内において、どのような事象(事象パターン)が出現しているかといった状況、換言すれば、各事象パターンの出現度合いを表現することが可能となる。
【0030】
上記数式1および2に基づく推定結果として、事象頻度ベクトルは、非負の実数値によって構成される。図5から図8は、4つのパラメータθ*に分解して表現された事象頻度ベクトルの一例を示す図である(r=10の場合のθ*の結果)。事象頻度ベクトルθ*の各次元は、オブジェクト間で共通の意味を持つため、例えば、異なる名前(item)であっても、非負の実数値として同じ尺度で比較することが可能になる。また、名前(item)間で推定されたパラメータの実数値が似ている傾向があると、これらを含む事象は同時に観測され易くなる。
【0031】
また、ベクトル推定部3は、事象頻度ベクトルの各次元の構成要素(非負の実数値)の和が1になるように、事象頻度ベクトルを正規化する。この正規化によって、事象頻度ベクトル同士を同じ数値基準で評価することが可能になる。具体的には、特定の日付において出現する事象パターン毎に推定された事象頻度ベクトルに対して、以下の数式3を適用することによって正規化が行われる。この正規化を行えば、θ*の値が非負の実数値を取るため、それぞれの事象パターンについて正規化された事象頻度ベクトルΛdijkrの和が必ず1になる。この結果は、事象パターンの潜在的に出現率として解釈できるので、事象パターン毎に出現頻度を足し上げる処理が可能となる。
【0032】
【数3】
【0033】
なお、ベクトル推定部3によって生成された事象頻度ベクトルは、図示しない記憶装置に格納される。この記憶装置に格納された事象頻度ベクトルは、事象頻度ベクトルの集計を行う際、ベクトル集計部4によって随時読み出される。
【0034】
ベクトル集計部4は、所定の時間単位毎に、この時間単位に属する事象頻度ベクトルを集計して、事象集計ベクトルを生成する。ここでいう時間単位は、回帰モデル7の学習時では、指標値の時間分解能に相当する時間単位(本実施形態では月次)である。また、回帰モデル7を用いた指標推定時では、指標値の時間分解能とは異なる時間単位、典型的には、指標値よりも時間分解能が高い時間単位(本実施形態では日次)である。事象集計ベクトルは、上記時間単位内における各事象パターンの出現度合いを表す。すなわち、上記学習時には、月次集計の結果として、1ヶ月における各事象パターンの出現度合いを表す事象集計ベクトル(第1の事象集計ベクトル)が生成される。また、上記指標予測時には、日次集計の結果として、1日における各事象パターンの出現度合いを表す事象集計ベクトル(第2の事象集計ベクトル)が生成される。
【0035】
具体的には、事象集計ベクトルは、以下の数式4によって計算される。上記数式3において、Λdijkrの総和が必ず1になることを利用すれば、xdijkがd日の事象パターンijkの出現頻度なので、xdijkΛdijkrとして、日付d日の名前(item)i、要素(element)jについてすべて和を取り、上記時間単位における出現頻度で正規化することによって、d日の事象集計ベクトルを計算できる。
【0036】
【数4】
【0037】
この処理は、変動(predicate)k毎に別々に行われる。また、和を取る際は、任意の関数を使って和を取ることや、過去の事象集計ベクトルが現在の事象集計ベクトルに影響を与えると仮定して和を取ることも可能である。この処理を行うことで、日付dについて、r次元のどの位置に属する事象が出現し易いかという解釈を行うことが可能になる。
【0038】
図9は、日次単位の事象集計ベクトルの一例を示す図である。図示した数値の意味は、各次元が事象の特性を表しており、ある任意の日dに関して、どのような事象が出現し易いのかを表している。換言すれば、その日dにおける各事象パターンの出現度合いとして、次元1は石油関連の事象の特性が強いとか、次元2は自動車関連の事象の特性が強いといった傾向を表している。これは、計算上必ずそうなるというわけでなく、コンピュータの計算結果を人間が解釈した結果として、そうなる可能性があるということである。
【0039】
一方、月次単位の事象集計ベクトルを算出する場合には、上記数式4にしたがって、月次単位毎に、その月次に属する事象パターン毎の事象頻度ベクトルを集計すればよい。回帰モデル7の学習用の事象集計ベクトルを月次単位としているのは、指標値の時間分解能と整合させるためである。したがって、もし、指標値の時間分解能が四半期単位であるならば、学習用の事象集計ベクトルも四半期単位で生成される。
【0040】
回帰モデル7は、統計的手法によって二つの変数の関係を推計するモデルであり、指標推定を任意の時間分解能で行うために用いられる。回帰モデル7としては、リッジ回帰、Lasso、ガウス過程回帰、XGboost、ニューラルネットワーク、サポートベクターマシン(SVM)など含む任意のモデルを利用することができる。
【0041】
学習処理部5は、ベクトル集計部4によって生成された月次単位の事象集計ベクトル(月次集計)の入力に対して、これと時間的に対応する指標値が応答するように、回帰モデル7の学習を行う。図10は、回帰モデル7における入力変数と応答変数との関係の一例を示す図である。例えば、2014年1月の事象集計ベクトルの入力に対して、同年同月の指標値(57.7)が応答するように、回帰モデル7の学習が行われることになる。
【0042】
推定処理部6は、ベクトル集計部4によって生成された日次単位の事象集計ベクトル(日次集計)を用いて、これと時間的に対応する指標値を推定する。具体的には、事象集計ベクトルが学習済の回帰モデル7に入力され、この入力に対する回帰モデル7の応答が指標推定値として出力される。日次および月次の事象集計ベクトルについて同一の方法で標準化計算を行うことで、r次元の合計を1に制約をかけることができるので、月次のデータによる学習結果を用いて日次の指標推定を行ったとしても、推定精度を保つことが可能となる。なお、指標推定値は、日次単位よりも時間分解能が高い場合、および、これが低い場合のどちらであっても出力可能であり、また、現時点のみならず過去分についても出力可能である。
【0043】
また、推定処理部6は、必要に応じて、回帰モデル7の応答である指標推定値に対して平滑化や季節調整といった処理を行う。図11は、カルマンフィルタによる平滑化が行われた指標推定値の一例を示す図である。図2に示した元の指標値が月次単位であるのに対して、同図に示す指標指示値の日次単位となっており、元の指標値よりも時間分解能が高く、かつ、なめらかに変化している。
【0044】
このように、本実施形態によれば、事象集計ベクトルの入力に対して、これと時間的に対応する指標値が応答するように、回帰モデル7の学習を行う。事象集計ベクトルは、例えば月次といった時間単位内における各事象パターンの出現度合いを表している。回帰モデル7の学習結果として、パターン化された事象の出現頻度、換言すれば、ある指標値に対する事象の影響度合いが考慮された形で、事象と指標値とが関連付けられる。このようにして構築された回帰モデル7を利用することで、任意の時間分解能の事象集計ベクトルの入力に対する応答として、この時間分解能に相当する指標推定を精度良く行うことができる。
【0045】
なお、上述した実施形態では、経済分野の指標データおよび経済的な事象を例に説明したが、本発明はこれに限定されるものではなく、以下に例示するように様々な分野に適用することが可能である。第1の例として、コンピュータのコマンド履歴からコンピュータに対する侵入を検出する手法として利用できる。この場合、コンピュータのコマンド履歴から非負の事象頻度ベクトルを推定すると共に、事象頻度ベクトルの非集計な時系列を集計したベクトルを元に、に侵入有無の回帰パラメータを推定する。そして、リアルタイムのコマンド履歴から侵入の有無を監視する。第2の例として、Webでのアクセスログからのリアルタイムコンバージョンを推定する手法としても利用できる。この場合、アクセスログ履歴から非負の事象頻度ベクトルを推定すると共に、事象頻度ベクトルの非集計な時系列を集計したベクトルをもとにコンバージョン有無の回帰パラメータを推定する。そして、リアルタイムでコンバージョン率を監視することにより、ダイナミックな広告配信などを実施できる。第3の例として、物流、電力、インターネットなどのネットワークを最適化する手法としても利用できる。この場合、ネットワークの経路履歴を時系列とみなして、ノード単位で非負の事象頻度ベクトルを推定すると共に、事象頻度ベクトルの非集計なネットワーク経路履歴を集計したベクトルをもとに経過時間の回帰パラメータを推定する。そして、リアルタイムでネットワークの経路を監視することにより、より経過時間が短いノードを通る経路を予測する。
【0046】
さらに、本発明は、図1に示した機能ブロックを等価的に実現する指標推定プログラムとして捉えることができる。この指標推定プログラムは、概略的には、以下の第1から第6までのステップを有する処理をコンピュータに実行させる。第1のステップでは、事情に関する情報の群を事象パターン別に分類し、それぞれの事象パターンの出現頻度を集計する。第2のステップでは、集計時間単位毎の事象パターンのそれぞれに対して、共通の空間に写像させた事象頻度ベクトルが、集計時間単位毎の事象パターンのそれぞれの出現頻度を再現するように推定する。第3のステップでは、月次単位毎に、月次単位に属する事象頻度ベクトルを集計して、事象集計ベクトル(月次)を生成する。第4のステップでは、事象集計ベクトル(月次)の入力に対して、これと時間的に対応する指標値(月次)が応答するように、回帰モデル7の学習を行う。第5のステップでは、指標値とは時間分解能が異なる時間単位(日次)に属する事象頻度ベクトルを集計して、事象集計ベクトル(日次)を生成する。第6のステップでは、事象集計ベクトル(日次)の入力に対する学習済の回帰モデル7の応答を、事象集計ベクトル(日次)と時間的に対応する指標推定値として出力する。
【符号の説明】
【0047】
1 指標推定システム
2 頻度集計部
3 ベクトル推定部
4 ベクトル集計部
5 学習処理部
6 推定処理部
7 回帰モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11