(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023141286
(43)【公開日】2023-10-05
(54)【発明の名称】異なる対象の教師データから目的変数を推定する推定装置、プログラム及び方法
(51)【国際特許分類】
G06Q 10/00 20230101AFI20230928BHJP
【FI】
G06Q10/00
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022047520
(22)【出願日】2022-03-23
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】515303481
【氏名又は名称】金子 拓也
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】美嶋 勇太朗
(72)【発明者】
【氏名】和田 真弥
(72)【発明者】
【氏名】金子 拓也
(72)【発明者】
【氏名】相良 俊介
(72)【発明者】
【氏名】池上 照子
(72)【発明者】
【氏名】安富祖 瞬
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA00
(57)【要約】 (修正有)
【課題】第1の説明変数及び第1の目的変数を用いて、異なる対象における第2の説明変数から第2の目的変数を推定する推定装置、推定方法及びプログラムを提供する。
【解決手段】機械学習エンジンを有する推定装置であって、第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する主相関係数算出部と、第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する副相関係数算出部と、第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する相関係数判定部と、相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する目的変数推定部と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
機械学習エンジンを有する推定装置であって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する主相関係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する副相関係数算出手段と、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する相関係数判定手段と、
相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する目的変数推定手段と
を有することを特徴とする推定装置。
【請求項2】
機械学習エンジンを有する推定装置であって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する主誤差係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する副誤差係数算出手段と、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する誤差係数判定手段と、
誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する目的変数推定手段と
を有することを特徴とする推定装置。
【請求項3】
教師データは、第3の説明変数群及び第3の目的変数群を更に対応付けており、
主相関係数算出手段は、第3の説明変数群及び第3の目的変数群の間の第3の主相関係数を更に算出し、
副相関係数算出手段は、第1の目的変数群及び第3の目的変数群の間の第13の副相関係数と、第2の目的変数群及び第3の目的変数群の間の第23の副相関係数とを更に算出し、
相関係数判定手段は、第1の主相関係数及び第3の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定し、
目的変数推定手段は、相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第3の主相関係数と第12の副相関係数及び第23の副相関係数との偏回帰を用いて、第2の目的変数群を推定する
ことを特徴とする請求項1に記載の推定装置。
【請求項4】
教師データは、第3の説明変数群及び第3の目的変数群を更に対応付けており、
主誤差係数算出手段は、第3の説明変数群及び第3の目的変数群の間の第3の主誤差係数を更に算出し、
副誤差係数算出手段は、第1の目的変数群及び第3の目的変数群の間の第13の副誤差係数と、第2の目的変数群及び第3の目的変数群の間の第23の副誤差係数とを更に算出し、
誤差係数判定手段は、第1の主誤差係数及び第3の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定し、
目的変数推定手段は、誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主誤差係数及び第3の主誤差係数と第12の副誤差係数及び第23の副誤差係数との偏回帰を用いて、第2の目的変数群を推定する
ことを特徴とする請求項2に記載の推定装置。
【請求項5】
個人に所持される携帯端末、及び/又は、車両に設置された通信端末から、位置情報を、無線ネットワークを介して収集して蓄積した位置情報データベースと、
位置情報データベースを用いて、所定期間毎に、所定地域における移動体滞在数を記録した移動体滞在数データベースと
を有し、
説明変数群は、移動体滞在数を含む
ことを特徴とする請求項1から4のいずれか1項に記載の推定装置。
【請求項6】
同一業態における複数の店舗について、売上高を予測するために、
所定期間毎に、各店舗の売上高を記録した実績データベースを用いて、
第1の説明変数群及び第1の目的変数群は、第1の店舗に基づくものであり、
第2の説明変数群及び第2の目的変数群とは、第2の店舗に基づくものであり、
第1の説明変数群及び第2の説明変数群は、各店舗の所定地域における移動体滞在数であり、
第1の目的変数群及び第2の目的変数群は、各店舗の売上高である
ことを特徴とする請求項5に記載の推定装置。
【請求項7】
複数の店舗は、同一企業の運営に基づくものであるか、又は、別企業の運営であっても同一商品又は同一役務の販売に基づくものである
ことを特徴とする請求項6に記載の推定装置。
【請求項8】
第1の店舗は、地上の個別店舗に基づくものであり、
第2の店舗は、地下又はビル内の雑居店舗に基づくものである
ことを特徴とする請求項6又は7に記載の推定装置。
【請求項9】
同一業態における複数の企業について、株価を予測するために、
所定期間毎に、各企業の株価を記録した実績データベースを用いて、
第1の説明変数群及び第1の目的変数群は、第1の企業に基づくものであり、
第2の説明変数群及び第2の目的変数群とは、第2の企業に基づくものであり、
第1の説明変数群及び第2の説明変数群は、各企業の所定地域における移動体滞在数であり、
第1の目的変数群及び第2の目的変数群は、各企業の株価である
ことを特徴とする請求項5に記載の推定装置。
【請求項10】
機械学習エンジンとしてコンピュータを機能させるプログラムであって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する主相関係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する副相関係数算出手段と、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する相関係数判定手段と、
相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する目的変数推定手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項11】
機械学習エンジンとしてコンピュータを機能させるプログラムであって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する主誤差係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する副誤差係数算出手段と、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する誤差係数判定手段と、
誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する目的変数推定手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項12】
機械学習エンジンを有する装置の推定方法であって、
装置は、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する第1のステップと、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する第2のステップと、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する第3のステップと、
第3のステップによって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する第4のステップと
を実行することを特徴とする推定方法。
【請求項13】
機械学習エンジンを有する装置の推定方法であって、
装置は、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する第1のステップと、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する第2のステップと、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する第3のステップと、
第3のステップによって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する第4のステップと
を実行することを特徴とする推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、説明変数と目的変数とを対応付けた教師データから、相関関係を内在的に学習する機械学習エンジンの技術に関する。特に、ビッグデータにおけるオルタナティブデータ(Alternative Data)の分析に適する。
【背景技術】
【0002】
経済指標や企業業績を、公式発表の伝統的データ(Traditional Data)よりも先んじて予測するために、近年、AI(Artificial Intelligence)技術によって「オルタナティブデータ」を利用する技術が注目されている(例えば非特許文献1参照)。この技術によれば、スマートフォンから収集可能な位置情報に基づいて、公的人口統計を参照して拡大推計処理した人口データが提供されている。サービスタイプとしては、例えば以下のようなものがある。
移動滞在データ(地図上のメッシュ毎の移動/滞在の判定)
OD(Origin-Destination)データ(メッシュ間の移動人口の推計)
道路通行量データ
指定区域来訪データ(所定区域における滞在人口の推計)
準リアルタイムデータ
出店戦略データ
勿論、オルタナティブデータとしては、スマートフォンの位置情報に限られず、POS(Point Of Sales)データやクレジットカードデータ、衛星画像、SNS(Social Networking Service)データのようなビッグデータが利用される。
【0003】
オルタナティブデータは、経済指標や企業業績のリアルタイムな傾向を推定するための金融工学に用途がある。
例えば小売企業の各店舗の場合、当月の売上報告は、半月後、遅くは3ヶ月後と、公表までのタイムラグが長くなる。これに対し、位置情報から来店者数を集計し、各月の売上高を推測することができるとする。オルタナティブデータによれば、ユーザが所持するスマートフォンの位置情報はリアルタイムに収集することができる。そのオルタナティブデータから、当月の売上高を予測できると考えられる。
実際には、時系列的且つ複雑な予測処理を実行することなく、位置情報に基づく来店者数と売上高との回帰的な相関関係から、当月の売上高を、簡易に推定することができる。実際に人の移動を要する産業活動を行う企業については、比較的高い精度で推定することができる。
【0004】
特に、機械学習エンジンを用いることによって、ビッグデータとしてのオルタナティブデータからなる説明変数と、実際の経済指標や企業業績となる目的変数とを対応付けた教師データから、相関関係を内在的に学習することができる。これによって、リアルタイムに収集されたオルタナティブデータから、経済指標や企業業績を推定することができる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】KDDI Location Data、[online]、[令和4年3月15日検索]、インターネット<URL:https://k-locationdata.kddi.com/alternative/>
【非特許文献2】単回帰分析とは、[online]、[令和4年3月15日検索]、インターネット<URL:https://www.albert2005.co.jp/knowledge/statistics_analysis/multivariate_analysis/single_regression>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、オルタナティブデータは、ビッグデータである以上、様々な要因や外乱によって影響を受けたデータに過ぎない。そのために、オルタナティブデータからなる説明変数と、実際の経済指標や企業業績となる目的変数との間で、常に相関関係が成立しているとは限らない。
【0007】
例えば、店舗の来店者数から売上高を推定しようとしても、その店舗がビル群の地域に立地している場合、測位誤差が大きくなり、来店者数の誤差も大きくなる。また、その店舗が雑居ビル(地下や複数階層)に出店している場合、来店者数を推計することは更に困難となる。店舗が出店しているビル内に、他の大型店舗が混在して出店している場合、もはや来店者数から売上高を推定することはできない。勿論、ビル内における店舗のフロアの広さと、来店者数とを比例的に考えることもできない。
【0008】
これに対し、本願の発明者らは、所望の目的変数群について、同一対象の説明変数群との間の相関関係が成立しない場合、異なる対象の目的変数群との間の相関関係を用いることができないか、と考えた。即ち、第1の説明変数及び第1の目的変数を用いて、異なる対象における第2の説明変数から第2の目的変数を推定することができないか、と考えた。
【0009】
そこで、本発明は、第1の説明変数及び第1の目的変数を用いて、異なる対象における第2の説明変数から第2の目的変数を推定することができる推定装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、機械学習エンジンを有する推定装置であって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する主相関係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する副相関係数算出手段と、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する相関係数判定手段と、
相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する目的変数推定手段と
を有することを特徴とする。
【0011】
本発明によれば、機械学習エンジンを有する推定装置であって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する主誤差係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する副誤差係数算出手段と、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する誤差係数判定手段と、
誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する目的変数推定手段と
を有することを特徴とする。
【0012】
本発明の推定装置における他の実施形態によれば、
教師データは、第3の説明変数群及び第3の目的変数群を更に対応付けており、
主相関係数算出手段は、第3の説明変数群及び第3の目的変数群の間の第3の主相関係数を更に算出し、
副相関係数算出手段は、第1の目的変数群及び第3の目的変数群の間の第13の副相関係数と、第2の目的変数群及び第3の目的変数群の間の第23の副相関係数とを更に算出し、
相関係数判定手段は、第1の主相関係数及び第3の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定し、
目的変数推定手段は、相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第3の主相関係数と第12の副相関係数及び第23の副相関係数との偏回帰を用いて、第2の目的変数群を推定する
ことも好ましい。
【0013】
本発明の推定装置における他の実施形態によれば、
教師データは、第3の説明変数群及び第3の目的変数群を更に対応付けており、
主誤差係数算出手段は、第3の説明変数群及び第3の目的変数群の間の第3の主誤差係数を更に算出し、
副誤差係数算出手段は、第1の目的変数群及び第3の目的変数群の間の第13の副誤差係数と、第2の目的変数群及び第3の目的変数群の間の第23の副誤差係数とを更に算出し、
誤差係数判定手段は、第1の主誤差係数及び第3の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定し、
目的変数推定手段は、誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主誤差係数及び第3の主誤差係数と第12の副誤差係数及び第23の副誤差係数との偏回帰を用いて、第2の目的変数群を推定する
ことも好ましい。
【0014】
本発明の推定装置における他の実施形態によれば、
個人に所持される携帯端末、及び/又は、車両に設置された通信端末から、位置情報を、無線ネットワークを介して収集して蓄積した位置情報データベースと、
位置情報データベースを用いて、所定期間毎に、所定地域における移動体滞在数を記録した移動体滞在数データベースと
を有し、
説明変数群は、移動体滞在数を含む
ことも好ましい。
【0015】
本発明の推定装置における他の実施形態によれば、
同一業態における複数の店舗について、売上高を予測するために、
所定期間毎に、各店舗の売上高を記録した実績データベースを用いて、
第1の説明変数群及び第1の目的変数群は、第1の店舗に基づくものであり、
第2の説明変数群及び第2の目的変数群とは、第2の店舗に基づくものであり、
第1の説明変数群及び第2の説明変数群は、各店舗の所定地域における移動体滞在数であり、
第1の目的変数群及び第2の目的変数群は、各店舗の売上高である
ことも好ましい。
【0016】
本発明の推定装置における他の実施形態によれば、
複数の店舗は、同一企業の運営に基づくものであるか、又は、別企業の運営であっても同一商品又は同一役務の販売に基づくものである
ことも好ましい。
【0017】
本発明の推定装置における他の実施形態によれば、
第1の店舗は、地上の個別店舗に基づくものであり、
第2の店舗は、地下又はビル内の雑居店舗に基づくものである
ことも好ましい。
【0018】
本発明の推定装置における他の実施形態によれば、
同一業態における複数の企業について、株価を予測するために、
所定期間毎に、各企業の株価を記録した実績データベースを用いて、
第1の説明変数群及び第1の目的変数群は、第1の企業に基づくものであり、
第2の説明変数群及び第2の目的変数群とは、第2の企業に基づくものであり、
第1の説明変数群及び第2の説明変数群は、各企業の所定地域における移動体滞在数であり、
第1の目的変数群及び第2の目的変数群は、各企業の株価である
ことも好ましい。
【0019】
本発明によれば、機械学習エンジンとしてコンピュータを機能させるプログラムであって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する主相関係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する副相関係数算出手段と、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する相関係数判定手段と、
相関係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する目的変数推定手段と
してコンピュータを機能させることを特徴とする。
【0020】
本発明によれば、機械学習エンジンとしてコンピュータを機能させるプログラムであって、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する主誤差係数算出手段と、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する副誤差係数算出手段と、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する誤差係数判定手段と、
誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する目的変数推定手段と
してコンピュータを機能させることを特徴とする。
【0021】
本発明によれば、機械学習エンジンを有する装置の推定方法であって、
装置は、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主相関係数と、第2の説明変数群及び第2の目的変数群の間の第2の主相関係数とを算出する第1のステップと、
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数を算出する第2のステップと、
第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する第3のステップと、
第3のステップによって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する第4のステップと
を実行することを特徴とする。
【0022】
本発明によれば、機械学習エンジンを有する装置の推定方法であって、
装置は、
第1の説明変数群及び第1の目的変数群を対応付け、第2の説明変数群及び第2の目的変数群を対応付けた教師データを用いて、
第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する第1のステップと、
第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する第2のステップと、
第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する第3のステップと、
第3のステップによって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する第4のステップと
を実行することを特徴とする。
【発明の効果】
【0023】
本発明の推定装置、プログラム及び方法によれば、第1の説明変数及び第1の目的変数を用いて、異なる対象における第2の説明変数から第2の目的変数を推定することができる。
【図面の簡単な説明】
【0024】
【
図1】本発明の推定装置における単回帰の第1の機能構成図である。
【
図2】
図1における説明変数及び目的変数と主相関係数及び副相関係数との説明図である。
【
図3】本発明の推定装置における偏回帰の第1の機能構成図である。
【
図4】
図3における説明変数及び目的変数と主相関係数及び副相関係数との説明図である。
【
図5】本発明における推定装置のシステム構成図である。
【
図6】本発明における推定装置の具体的な機能構成図である。
【
図7】主相関係数及び副相関係数を表す説明図である。
【
図8】本発明の推定装置における単回帰の第2の機能構成図である。
【
図9】本発明の推定装置における偏回帰の第2の機能構成図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0026】
図1は、本発明の推定装置における単回帰の第1の機能構成図である。
図2は、
図1における説明変数及び目的変数と主相関係数及び副相関係数との説明図である。
【0027】
図1によれば、推定装置1は、機械学習エンジンを有するものであって、主相関係数算出部11と、副相関係数算出部12と、相関係数判定部13と、目的変数推定部14とを有する。これら機能構成部は、推定装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の推定方法としても理解できる。
【0028】
図1によれば、異なる対象それぞれについて、以下のように対応付けた教師データを用いる。
第1の説明変数群<->第1の目的変数群
第2の説明変数群<->第2の目的変数群
【0029】
[主相関係数算出部11]
主相関係数算出部11は、異なる対象の教師データをそれぞれ入力し、訓練によって「主相関係数」を算出する。
主相関係数算出部11は、以下の2つの主相関係数を算出する。
第1の説明変数群及び第1の目的変数群の間の「第1の主相関係数」
第2の説明変数群及び第2の目的変数群の間の「第2の主相関係数」
図2によれば、対象1について第1の主相関係数が算出され、対象2について第2の主相関係数が算出されている。
【0030】
[副相関係数算出部12]
副相関係数算出部12は、第1の目的変数群及び第2の目的変数群の間の「第12の副相関係数」を算出する。
副相関係数算出部12は、以下の副相関係数を算出する。
第1の目的変数群及び第2の目的変数群の間の「第12の副相関係数」
図2によれば、対象1の目的変数群と対象2の目的変数群との間で、第12の副相関係数が算出されている。
【0031】
ここで、相関係数(主相関係数及び副相関係数)は、2つの確率変数の間にある線形な関係の強弱を測る指標をいう。例えば以下のように算出される。
相関係数=(第1の変数と第2の変数との共分散)/
{(第1の変数の標準偏差)・(第2の変数の標準偏差)}
=1/n・Σi=1
n(xi-x-)(yi-y-)/
{√(1/n・Σi=1
n(xi-x-)2)・√(1/n・Σi=1
n(yi-y-)2)}
相関係数は、絶対値によって0~1の実数値をとるものであってもよい。1に近いほど、相関性が高いことを意味する。
尚、相関係数は、任意の機械学習エンジンにおける内部パラメータであってもよい。
【0032】
[相関係数判定部13]
相関係数判定部13は、第1の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する。
第1の主相関係数≧第1の所定閾値
第2の主相関係数≦第2の所定閾値
(第1の所定閾値>第2の所定閾値)
ここでは、第2の主相関係数が、第1の主相関係数よりも低いことを要する。
【0033】
[目的変数推定部14]
目的変数推定部14は、相関係数判定部13によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副相関係数を用いて第2の目的変数群を推定する。例えば単回帰に基づくものであってもよい。
【0034】
図1によれば、目的変数群を、それぞれ異なる説明変数群から推定するべく、「目的変数の間に一定の関係性がある」ことを前提として用いる。そして、説明変数群から推定が困難な目的変数群を、他の対象の目的変数群を説明変数として用いることによって推定する。
【0035】
図3は、本発明の推定装置における偏回帰の第1の機能構成図である。
図4は、
図3における説明変数及び目的変数と主相関係数及び副相関係数との説明図である。
【0036】
図3によれば、教師データとして、第3の説明変数群及び第3の目的変数群を更に対応付けている。
主相関係数算出部11は、第3の説明変数群及び第3の目的変数群の間の第3の主相関係数を更に算出する。
副相関係数算出部12は、以下の3つの副相関係数を算出する。
第1の目的変数群及び第2の目的変数群の間の第12の副相関係数(
図1同様)
第1の目的変数群及び第3の目的変数群の間の第13の副相関係数
第2の目的変数群及び第3の目的変数群の間の第23の副相関係数
相関係数判定部13は、第1の主相関係数及び第3の主相関係数が第1の所定閾値以上であって、第2の主相関係数が第2の所定閾値以下となっているか否かを判定する。即ち、第2の説明変数及び第2の目的変数の間の相関関係が低いことを意味する。
目的変数推定部14は、相関係数判定部13によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第3の主相関係数と第12の副相関係数及び第23の副相関係数との偏回帰を用いて、第2の目的変数群を推定する。例えば偏回帰に基づくものであってもよい。
【0037】
図5は、本発明における推定装置のシステム構成図である。
【0038】
図5によれば、携帯端末を所持する不特定多数の人がリアルタイムに流動している。例えば店舗毎に、その店舗を中心位置として所定半径内となる地域範囲における人口を、リアルタイムに収集するものであってもよい。重要な点としては、店舗毎に、その周辺の地域範囲に、どの程度の人が滞在しているか(移動体滞在数)を検出する。
【0039】
図1によれば、ユーザはそれぞれ、携帯端末2を所持しており、携帯通信事業者設備と常に通信している。そのために、携帯通信事業者は、携帯端末2を所持したユーザのID(例えば加入者ID)毎に、時刻及び位置を対応付けて蓄積している。
【0040】
ユーザの位置とは、例えば以下のようなものである。
(1)ユーザに所持された携帯端末2によって測位された端末測位位置
携帯端末2が自ら、GPS(Global Positioning System)によって測位した緯度経度情報である。
(2)通信事業者の基地局やアクセスポイントに接続した携帯端末の基地局測位位置
携帯端末2を配下とする基地局やアクセスポイントの位置情報から、携帯端末2の位置を推定したものであってもよい。但し、この位置情報は、空間的粒度が粗いものとなる。これら位置情報は、緯度経度又は地図座標によって表記されるものであってもよい。
【0041】
ここで、重要な点として、地域の移動体滞在数は、特定の通信事業者の通信事業設備による捕捉ユーザであって、現実のユーザ全てでなくてもよい。即ち、特定の通信事業者による捕捉人数は、その地域における実際の滞在人数よりも、少数しかカウントできない。即ち、全ての通信事業者から、全てのユーザの位置情報を収集できるわけでもない。
本発明によれば、店舗の周辺地域における絶対的な移動体滞在数を特定する必要はない。後述する例によれば、あくまで、店舗の周辺地域の「移動体滞在数」に対する「売上高」との相関性を判断できればよい。
【0042】
図6は、本発明における推定装置の具体的な機能構成図である。
【0043】
推定装置1は、「移動体滞在数」を用いて「売上高」を予測するものとする。
図6によれば、
図1及び
図3と比較して、位置情報データベース100と、移動体滞在数データベース101と、実績データベース102とを更に有する。
【0044】
[位置情報データベース100]
位置情報データベース100は、個人に所持される携帯端末(及び/又は、車両に設置された通信端末)から、位置情報を、無線ネットワークを介して収集して蓄積したものである。
固有(ユニーク)番号を持つ全てのユーザ又は車両について、所定地域に滞在した人や車両の数である「移動体滞在数」を日々集計する。本発明に基づく移動体滞在数は、日毎(時間帯毎)に集計される。
【0045】
[移動体滞在数データベース101]
移動体滞在数データベース101は、位置情報データベース100を用いて、所定期間毎に、所定地域における移動体滞在数を記録したものである。
ここで所定地域とは、実際に店舗が立地している店舗を中心とした所定半径の地域範囲であってもよい。
移動体滞在数は、携帯通信事業者によって日々集計され、確定的な数値であっても短期間に取りまとめられる。現状、集計のために数日を要するものであっても、計算速度の進化に伴い短期に算出される。
【0046】
[実績データベース102]
実績データベース102は、例えば以下のような実施形態に応じたものである。
<第1の実施形態>
実績データベース102は、同一企業又は同一業態における複数の店舗について、「売上高を予測する」ために、所定期間(例えば1ヶ月、1週間、1日)毎に、各店舗の売上高を記録したものである。
第1の説明変数群及び第1の目的変数群は、「第1の店舗」に基づくものである。
第2の説明変数群及び第2の目的変数群とは、「第2の店舗」に基づくものである。
第1の説明変数群及び第2の説明変数群は、各店舗の所定地域における「移動体滞在数」である。
第1の目的変数群及び第2の目的変数群は、各店舗の「売上高」である。
複数の店舗は、同一企業の運営に基づくものであるか、又は、別企業の運営であっても同一商品又は同一役務の販売に基づくものであるとする。
例えば第1の店舗が地上平屋の店舗であり、第2の店舗が地下又はビル内の店舗である場合、第2の店舗について、移動体滞在数から売上高の予測のための相関係数が低い(誤差係数が高い)場合に、第1の店舗の情報を用いて売上高を推定することができる。
【0047】
<第2の実施形態>
実績データベース102は、同一業態における複数の企業について、「株価を予測する」ために、所定期間毎に、各企業の株価を記録したものである。
第1の説明変数群及び第1の目的変数群は、「第1の企業」に基づくものである。
第2の説明変数群及び第2の目的変数群とは、「第2の企業」に基づくものである。
第1の説明変数群及び第2の説明変数群は、各企業の所定地域における「移動体滞在数」である。
第1の目的変数群及び第2の目的変数群は、各企業の「株価」である。
例えば第2の企業について、移動体滞在数から株価高の予測のための相関係数が低い(誤差係数が高い)場合に、第1の企業の情報を用いて株価を推定することができる。
【0048】
図7は、主相関係数及び副相関係数を表す説明図である。
【0049】
図7によれば、左縦軸は、所定地域における移動体の滞在数を表し、右縦軸は、売上高を表し、横軸は、時間経過を表す。
図4からも明らかなとおり、鉱工業売上高は、移動体滞在数に対して、時間経過に応じて同じように変化している。
推測対象が「同業種、同業態、同企業」の各店舗の業績であることを利用し、位置情報によって直接業績を推測することが困難な店舗については、一定の精度で位置情報から業績を推測できる他店舗の「推測済み」業績を代わりに説明変数とすることで精度を担保する。
【0050】
図8は、本発明の推定装置における単回帰の第2の機能構成図である。
【0051】
図8の推定装置2は、
図1の推定装置1と比較して、相関係数ではなく、「誤差係数」に基づくものである。
主誤差係数算出部21は、第1の説明変数群及び第1の目的変数群の間の第1の主誤差係数と、第2の説明変数群及び第2の目的変数群の間の第2の主誤差係数とを算出する。
副誤差係数算出部22は、第1の目的変数群及び第2の目的変数群の間の第12の副誤差係数を算出する。
誤差係数判定部23は、第1の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する。
目的変数推定部24は、誤差係数判定手段によって真と判定された際に、第2の説明変数群から、第1の主相関係数及び第12の副誤差係数を用いて、第2の目的変数群を推定する。
【0052】
図9は、本発明の推定装置における偏回帰の第2の機能構成図である。
【0053】
図9によれば、
図8と比較して、教師データとして、第3の説明変数群及び第3の目的変数群を更に対応付けている。
主誤差係数算出部21は、第3の説明変数群及び第3の目的変数群の間の第3の主誤差係数を更に算出する。
副誤差係数算出部22は、第1の目的変数群及び第3の目的変数群の間の第13の副誤差係数と、第2の目的変数群及び第3の目的変数群の間の第23の副誤差係数とを更に算出する。
誤差係数判定部23は、第1の主誤差係数及び第3の主誤差係数が第1の所定閾値以下であって、第2の主誤差係数が第2の所定閾値以上となっているか否かを判定する。
目的変数推定部24は、誤差係数判定部23によって真と判定された際に、第2の説明変数群から、第1の主誤差係数及び第3の主誤差係数と第12の副誤差係数及び第23の副誤差係数との偏回帰を用いて、第2の目的変数群を推定する。
【0054】
【0055】
図10によれば、
図9のように、複数の対象の説明変数群及び目的変数群の教師データについて、偏回帰によって目的変数群を推定する例を表す。
小売企業が、5つの店舗A~Eを運営しているとする。即ち、5つの店舗A~Eは全て、同一企業の店舗であるので、移動体滞在数と売上高との関係の傾向に類似性があると想定される。
【0056】
図10によれば、各店舗を中心とした所定地域の「移動体滞在数」を説明変数とし、「売上高」を目的変数とする。
ここで、地理的特徴として、店舗A、B、Eは地上で且つ平屋の店舗であり、位置に基づく移動体滞在数の推測が容易となる。一方で、店舗Cは地下にあり、店舗Dはビル内にあり、位置に基づく移動体滞在数の推測が困難であるとする。
即ち、店舗A、B、Eは、移動体滞在数と売上高との相関性が比較的高い(誤差が比較的小さい)ことが想定され、店舗C、Dは、移動体滞在数と売上高との相関性が比較的低い(誤差が比較的大きい)ことが想定される。
【0057】
そして、説明変数に対する目的変数を推定した場合について、その誤差(精度)を評価する。ここで、目的変数は標準化されており、誤差は、平均絶対誤差(MAE:Mean Absolute Error)で算出するとする。
例えば、2018年1月~2021年6月まで訓練データとし、2021年7月~12月までを評価データとしたとする。
図6によれば、店舗A、B、Eについては、誤差0.1未満に収まっているのに対し、店舗C、Dについては、誤差0.3前後となっている。尚、
図6について、各店舗の売上高は予め標準化されており、店舗規模の違い等により生じる売上スケールの差異は、吸収されているものとする。
例えば既存技術によれば、この推定誤差を改善することができず、このまま利用することとなる。その場合、企業全体の売上の推定誤差は、各店舗の推定誤差を加重平均した値となる。
(0.079×25+0.064×10+0.275×20+0.306×30+0.088×5)/100=0.186
【0058】
これに対し、本発明によれば、第1の所定閾値及び第2の所定閾値を、以下のように設定する。
第1の所定閾値=0.1
第2の所定閾値=0.2
ここで、第2の所定閾値=0.2以下となる店舗A、B、Eについては、自らの移動体滞在数から売上高を推定する。第2の所定閾値については、例えば投資シミュレーションを何種類かの誤差毎に実行し、一定の利益が出ることが確認できた誤差を、設定したものであってもよい。一方で、第2の所定閾値=0.2を超える店舗C、Dについては、第1の所定閾値=0.1以下となる店舗A、B、Eにおける移動体滞在数と売上高との関係を用いて、売上高を推定する。
【0059】
そして、店舗A、B、Eの売上高(例えば過去2018年1月から2021年6月まで)を説明変数とし、店舗C、Dそれぞれについて、売上高(同じ期間となる例えば2018年1月から2021年6月まで)を目的変数として、線形重回帰によって推定する。
図10によれば、線形重回帰による推定誤差が大幅に小さくなっている。但し、店舗A、B、Eの売上高(真値)を説明変数としているため、「店舗A、B、Eの売上高が正解の場合における誤差」として算出しているに過ぎない。実際に、未公表の売上高を推定する場合、店舗C、Dの誤差には、「店舗A、B、Eの売上高に含まれる推定による誤差」も追加されることに留意したい。
図10によれば、店舗A、B、Eにおける売上高も、公表前の推定値であって正解ではない。そのために、店舗A、B、Eにおける移動体滞在数から推定した位置情報を用いて、店舗C、Dの売上高を推定することになる。例えば平均絶対誤差(MAE)を用いる場合、誤差には加法性がある。
(1)店舗A、B、Eについて、2022年1月分の移動体滞在数から、2022年1月分の売上高を推定する。
(2)2022年1月の店舗A、B、Eにおける「推定された売上高」から、店舗C及びDぞれぞれの2022年1月の売上高を推定する。
ここで、店舗A、B、Eにおける推定された売上高の誤差を加味しても、店舗C,Dにおける従前の誤差より小さくなるのであれば、再推定の効果があるといえる。
【0060】
「店舗A、B、Eの売上高に含まれる推定による誤差」について、各説明変数がどの程度寄与しているか(偏回帰係数)に基づいて、各説明変数(店舗A、B、Eの売上高)の重み付き平均によって算出される。例えば、店舗C、Dの売上高が、以下の式によって表現されるとする。
売上高C=売上高A×0.5+売上高B×0.4+売上高E×0.1+定数cC
売上高D=売上高A×0.2+売上高B×0.2+売上高E×0.6+定数cD
このとき、売上高Cの誤差に内包される説明変数による誤差は、以下のように表される。
0.079(Aの売上推定誤差)×0.5(Aの売上高の偏回帰係数)+
0.064(Bの売上推定誤差)×0.4(Bの売上推定誤差)+
0.088(Eの売上推定誤差)×0.1(Eの売上推定誤差)
=0.0739≒0.074
また、売上高Dの誤差に内包される説明変数による誤差は、以下のように表される。
0.079(Aの売上推定誤差)×0.2(Aの売上高の偏回帰係数)+
0.064(Bの売上推定誤差)×0.2(Bの売上推定誤差)+
0.088(Eの売上推定誤差)×0.6(Eの売上推定誤差)
=0.0814≒0.081
最終推定誤差は、以下のようになる。
店舗Cの最終推定誤差=0.085+0.074=0.159
店舗Dの最終推定誤差=0.067+0.081=0.148
依然として、移動体滞在数による推定誤差を大きく下回っており、企業全体の売上推定誤差は、加重平均から0.115と算出される。このような手順で、実店舗を持つ企業の経済指標を予測することができる。
【0061】
尚、
図10における所定条件として、以下の制約を要する。
・各店舗で電子商取引における売上高は無いものとする。
・移動体滞在数の集計は、正式な売上高の公表される前に完了するものとする。移動体滞在数の取得タイムラグは、売上高の公表ライムラグよりも遥かに短いものとする。
・教師データとなる過去の移動体滞在数(説明変数)及び売上高(目的変数)は、欠損ないものとする。
・簡単化のために、移動体滞在数と売上高との間で相関性を有するものとする。即ち、客単価に関しても大きな変動は無いものとする。
・各店舗の1年間の売上高が、昨年1年間の企業売上高に占める割合を「売上ウェイト」として仮に設定する。
【0062】
以上、詳細に説明したように、本発明の推定装置、プログラム及び方法によれば、第1の説明変数及び第1の目的変数を用いて、異なる対象における第2の説明変数から第2の目的変数を推定することができる。
【0063】
具体的には、スマートフォンの位置情報を収集し、所定地域の移動体滞在数というビッグデータを用いることよって、店舗や企業のおける売上高や株価を予測することできる。特に、企業経営のみならず投資家や市場関係者にも、正式な情報を公表する前に、企業指標の傾向を推測することができる。
【0064】
尚、これにより、例えば「位置情報のビッグデータを用いて企業指標を予測することができる」ことから、国連が主導する持続可能な開発目標8(SDGs)の「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することが可能となる。
【0065】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0066】
1 推定装置
100 位置情報データベース
101 移動体滞在数データベース
102 実績データベース
11 主相関係数算出部
12 副相関係数算出部
13 相関係数判定部
14 目的変数推定部
2 推定装置
21 主誤差係数算出部
22 副誤差係数算出部
23 誤差係数判定部
24 目的変数推定部
2 携帯端末