(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】関連スコアに基づき所定事象に関連する情報を決定するプログラム、装置及び方法
(51)【国際特許分類】
G06Q 50/10 20120101AFI20241008BHJP
【FI】
G06Q50/10
(21)【出願番号】P 2021092161
(22)【出願日】2021-06-01
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】武田 直人
(72)【発明者】
【氏名】上坂 大輔
(72)【発明者】
【氏名】南川 敦宣
【審査官】木内 康裕
(56)【参考文献】
【文献】特開2013-068565(JP,A)
【文献】特開2008-293310(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するクラスタリング手段と、
当該条件毎に、
当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、
当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように
予め設定された
関連スコア
の関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出する関連スコア決定手段と、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定する関連情報決定手段と
してコンピュータを機能させることを特徴とする関連情報決定プログラム。
【請求項2】
前記クラスタリング手段は、当該対象事象情報から、当該所定の事象に関連し得るテキストデータを含んでいるもの、当該所定の事象に関連し得る画像データを含んでいるもの、及び/又は当該所定の事象に関連し得る音声データを含んでいるものを選択し、選択した当該対象事象情報をクラスタに分割することを特徴とする請求項1に記載の関連情報決定プログラム。
【請求項3】
複数の当該条件はそれぞれ、所定の下限値と所定の上限値との間の連続する複数の整数値を当該分割数とするクラスタリングの条件であることを特徴とする請求項1又は2に記載の関連情報決定プログラム。
【請求項4】
当該対象事象情報は、時系列の若しくは時間に紐づいた複数の情報単位を含み、
前記クラスタリング手段は、当該複数の情報単位を当該分割数だけのクラスタに分類し、
前記関連スコア決定手段は、
当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該情報単位の数と当該所定事象情報との時間軸上の相関の度合いを算出し、また、
当該条件の下で分割された互いに異なる
当該クラスタに含まれている当該情報単位の数の間における時間軸上の相関の度合いを算出する
ことを特徴とする請求項1から3のいずれか1項に記載の関連情報決定プログラム。
【請求項5】
当該対象事象情報の当該情報単位はネットワーキングサービスの投稿データであって、当該所定の事象は、当該投稿データがそれについて言及し得る所定のイベントを原因として又は当該所定のイベントに関連して生じ得る事象であることを特徴とする請求項4に記載の関連情報決定プログラム。
【請求項6】
前記関連情報決定手段は、当該所定の事象に関連する情報として決定した当該対象事象情報の部分としての当該投稿データ群からトピックを抽出し、当該トピックを、当該所定のイベントに関連するトピックに決定することを特徴とする請求項5に記載の関連情報決定プログラム。
【請求項7】
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するクラスタリング手段と、
当該条件毎に、
当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、
当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように
予め設定された
関連スコア
の関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出する関連スコア決定手段と、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定する関連情報決定手段と
を有することを特徴とする関連情報決定装置。
【請求項8】
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するステップと、
当該条件毎に、
当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、
当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように
予め設定された
関連スコア
の関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出するステップと、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定するステップと
を有することを特徴とする、コンピュータ
によって各ステップが実行される関連情報決定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、調査対象の情報を、クラスタリングを用いて解析する技術に関する。
【背景技術】
【0002】
近年、SNS(Social Networking Service)やミニブログ(mini-blog)等のネットワーキングサービスにおける投稿の情報から、様々な事象の発生を検出する技術が大きな注目を集めている。例えば、投稿のストリームデータから、人口動態時系列データを用いてコンサート等のイベントの発生を検出することも可能となっている。
【0003】
このように、ネットワーキングサービスの投稿データ群から、所定の事象に関連する情報を抽出しようとする場合、従来、当該投稿データ群に対しクラスタリングを行い、所定の事象に関連するクラスタを決定することがしばしば行われてきた。
【0004】
例えば、非特許文献1には、クラスタリングを用いて、投稿データから「祭り」や「スポーツ」といったようなイベントに関連するトピックを抽出する技術が開示されている。具体的には、"festival"や"sports"等のseed wordに基づいてfasttext等の自然言語処理ライブラリによりクエリ拡張を行い、関連した投稿群を抽出した上で、クラスタリングの一種であるLDA(Latent Dirichlet Allocation,潜在的ディリクレ配分法)を用いて、抽出した投稿群の可視化処理を行っている。ここで、クラスタ数は予め10に固定されてクラスタリングが行われている。
【0005】
また、特許文献1には、事前にクラスタ数を指定する必要のある、LDA等のクラスタリング手法において、クラスタ数を断続的に指定し、各クラスタ数で得られた分類結果の適切さを、AIC(Akaike's Information Criterion,赤池情報量基準)によって推定し、最適なクラスタ数を決定する技術が開示されている。
【0006】
さらに、非特許文献2~4には、特許文献1と同様、クラスタ数を断続的に変化させ、特定の評価指標に基づきクラスタリング結果を評価することによって、最適なクラスタ数を決定する技術が開示されている。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【文献】Shuhua Liu and Patrick Jansson, “City Event Detection from Social Media with Neural Embeddings and Topic Model Visualization", In proceedings of the 2017 IEEE International Conference on Big Data (BIGDATA 2017), pp.4111-4116, 2017年
【文献】Peter J. Rousseeuw, “Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis”, Computational and Applied Mathematics, vol. 20, pp.53-65, 1987年
【文献】Calinski, T., and Harabasz, J. “A Dendrite Method for Cluster Analysis”. Communications in Statistics-theory and Methods, vol.3, pp.1-27, 1974年
【文献】Halkidi, Maria, Batistakis, Yannis and Vazirgiannis, Michalis, “On Clustering Validation Techniques”, Journal of Intelligent Information Systems, vol.17(2-3), pp.107-145, 2001年
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、以上に述べたような従来技術は依然、関連情報を抽出・決定するのに利用するクラスタリング処理を最適化するに当たり、重要な課題を解決できていない。
【0010】
例えば、非特許文献1に記載された技術では、LDAにおける重要条件であるクラスタ数(分割数)は全て、10に固定されており、しかもこの数は、著者による判断によって、すなわち人手によって決定されたものとなっている。実際、非特許文献1には、”But most often to truly evaluate the models, the topics need to be assessed by the human judgement of their practical sense and the topic coherence.”との記載が存在し、トピックモデル(LDA)を正しく評価するためには人間がトピックの意味や一貫性を判断しなければならない旨が明示されているのである。
【0011】
これに対し、特許文献1や非特許文献2~4に記載された技術はたしかに、クラスタリングの重要条件であるクラスタ数に関し、人手ではなく、AIC等の特定の評価指標に基づいて評価を行っている。しかしながらこれらの技術で用いられる評価指標はあくまで、対象となる(投稿データ群といったような)事象情報に対してクラスタリングを行った結果、具体的にはクラスタの凝集性やクラスタ間の独立性、にのみ着目して設定されたものとなっている。
【0012】
したがって、これらの従来技術は、対象となる事象情報からクラスタリングを用い、所定事象に関連する情報を抽出・決定する場面において、例えばこの所定事象に係る情報も考慮してクラスタリングの評価を行うものとはなっていない。その結果、最適なクラスタリング条件を求める点で大きな課題を残しているのである。例えば、コンサート等のイベントの発生に関連する投稿データ群を抽出する場面において、当該イベントの発生に係る時系列情報も考慮した最適なクラスタリング条件を決定することができず、その結果、当該イベントと関連する投稿データ群だけを抽出することに失敗する可能性も生じてしまうのである。
【0013】
そこで、本発明は、対象となる事象情報からクラスタリングを用いて所定事象に関連する関連情報を抽出するに当たり、より好適なクラスタリングの条件を決定して、より適切な関連情報を決定することができる関連情報決定プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明によれば、
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するクラスタリング手段と、
当該条件毎に、当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように予め設定された関連スコアの関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出する関連スコア決定手段と、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定する関連情報決定手段と
してコンピュータを機能させる関連情報決定プログラムが提供される。
【0015】
この本発明による関連情報決定プログラムの一実施形態として、クラスタリング手段は、当該対象事象情報から、当該所定の事象に関連し得るテキストデータを含んでいるもの、当該所定の事象に関連し得る画像データを含んでいるもの、及び/又は当該所定の事象に関連し得る音声データを含んでいるものを選択し、選択した当該対象事象情報をクラスタに分割することも好ましい。
【0016】
また、本発明による関連情報決定プログラムにおいて、複数の当該条件はそれぞれ、所定の下限値と所定の上限値との間の連続する複数の整数値を当該分割数とするクラスタリングの条件であることも好ましい。
【0017】
さらに、本発明による関連情報決定プログラムの他の実施形態として、当該対象事象情報は、時系列の若しくは時間に紐づいた複数の情報単位を含み、
クラスタリング手段は、当該複数の情報単位を当該分割数だけのクラスタに分類し、
関連スコア決定手段は、当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該情報単位の数と当該所定事象情報との時間軸上の相関の度合いを算出し、また、当該条件の下で分割された互いに異なる当該クラスタに含まれている当該情報単位の数の間における時間軸上の相関の度合いを算出することも好ましい。
【0018】
また、本発明による関連情報決定プログラムの具体的な適用例として、当該対象事象情報の当該情報単位はネットワーキングサービスの投稿データであって、当該所定の事象は、当該投稿データがそれについて言及し得る所定のイベントを原因として又は当該所定のイベントに関連して生じ得る事象であることも好ましい。
【0019】
さらに、上記の具体的な適用例において、関連情報決定手段は、当該所定の事象に関連する情報として決定した当該対象事象情報の部分としての当該投稿データ群からトピックを抽出し、当該トピックを、当該所定のイベントに関連するトピックに決定することも好ましい。
【0020】
本発明によれば、また、
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するクラスタリング手段と、
当該条件毎に、当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように予め設定された関連スコアの関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出する関連スコア決定手段と、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定する関連情報決定手段と
を有する関連情報決定装置が提供される。
【0021】
本発明によれば、さらに、
所定の事象に関連し得る事象に係る情報である対象事象情報であって、少なくともその一部が、当該所定の事象に係る情報である所定事象情報と相関し得る対象事象情報を、分割数の互いに異なるクラスタリングの条件毎に、当該分割数だけのクラスタに分割するステップと、
当該条件毎に、当該条件の下で分割された各クラスタについて当該クラスタに含まれている当該対象事象情報の部分に係る情報と当該所定事象情報との相関の度合いを算出して、その中から所定条件を満たすだけの高い第1の相関の度合いを決定し、また、当該条件の下で分割された互いに異なる当該クラスタに含まれている当該対象事象情報の部分に係る情報間の相関の度合いを算出して、その中から所定条件を満たすだけの高い第2の相関の度合いを決定し、第1の相関の度合い及び第2の相関の度合いについてそれぞれ単調増加及び単調減少を示すように予め設定された関連スコアの関数形に対し、当該条件について決定された第1の相関の度合い及び当該条件について決定された第2の相関の度合いを代入して、当該条件についての関連スコアを算出するステップと、
算出された当該関連スコアが所定条件を満たすだけ高くなる当該条件についての第1の相関の度合いに係る当該対象事象情報の部分を、当該所定の事象に関連する情報に決定するステップと
を有する、コンピュータによって各ステップが実行される関連情報決定方法が提供される。
【発明の効果】
【0022】
本発明の関連情報決定プログラム、装置及び方法によれば、対象となる事象情報からクラスタリングを用いて所定事象に関連する関連情報を抽出するに当たり、より好適なクラスタリングの条件を決定して、より適切な関連情報を決定することができる。
【図面の簡単な説明】
【0023】
【
図1】本発明による関連情報決定装置の一実施形態を示す機能ブロック図である。
【
図2】本発明に係るクラスタリング手段によって生成されたクラスタリング結果の一具体例を説明するための模式図である。
【
図3】本発明による関連情報決定方法の一実施形態を概略的に示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0025】
[関連情報決定装置]
図1は、本発明による関連情報決定装置の一実施形態を示す機能ブロック図である。
【0026】
図1に示したトピック抽出装置1は、本発明による関連情報決定装置の一実施形態としての機能を含み、
(a)所定の事象(本実施形態ではあるエリアでの人の集合離散)に関連する可能性のある事象(本実施形態ではネットワーキングサービスの投稿の発生)に係る情報である「対象事象情報」(本実施形態では投稿情報)
を取得し、この「対象事象情報」(投稿情報)に対しクラスタリングを行って、
(b)所定の事象(人の集合離散)に関連する情報である「関連情報」(本実施形態では、人の集合離散の原因となる若しくは人の集合離散に関連するトピックについての投稿群)
を決定することの可能な装置となっている。
【0027】
ここで、上記(a)の「対象事象情報」(投稿情報)は、少なくともその一部が、所定事象(人の集合離散)に係る情報である「所定事象情報」(本実施形態では当該エリアでの人口動態情報)と相関する可能性のあるものとなっており、トピック抽出装置1は、(後に詳細に説明を行うが)このような相関について所定の条件を満たす「対象事象情報の部分」を、上記(b)の「関連情報」に決定するのである。
【0028】
ここでトピック抽出装置1は、本実施形態において、
(ア)外部に設置された(例えばネットワーキングサービス事業者の投稿管理サーバに設置された)投稿情報データベース(DB)2から、所定期間(例えばある1日間)における投稿情報(対象事象情報)を取得し、また、
(イ)外部に設置された(例えば通信事業者の通信端末管理サーバに設置された)人口動態情報DB3から、あるエリアでの当該所定期間(1日間)における人口動態情報(所定事象情報)を取得する。
【0029】
ちなみに、上記(イ)のあるエリアでの人口動態情報(人口動態時系列データ)は例えば、当該エリアを通信エリアとする基地局(群)に通信接続された通信端末の数に係る情報とすることができ、通信事業者ならば取得可能な情報となっている。または、通信端末に搭載されたGPS(Global Positioning System)による測位を行うアプリから、その旨の許諾を得た上で当該通信端末の位置情報を取得し、当該位置情報に基づき当該エリアにおける当該通信端末数を導出して、人口動態情報とすることもできる。ただし勿論、人手によるカウントや街頭カメラのカメラ映像を用いたカウント等、公知の手法によって当該エリア内の滞在人数を推定し人口動態情報を生成することも可能である。
【0030】
いずれにしても、上記(ア)及び(イ)の情報を取得して「関連情報」(人の集合離散の原因となるトピックについての投稿群)を抽出・決定する、関連情報決定装置としてのトピック抽出装置1は、具体的に、
(A)取得した「対象事象情報」(投稿情報)を、分割数(クラスタ数)kの互いに異なる「クラスタリング条件」毎に、当該分割数kだけのクラスタに分割するクラスタリング部111と、
(B)「クラスタリング条件」毎(分割数k毎)に、分割された各クラスタについて、
(B1)当該クラスタに含まれている「対象事象情報の部分」に係る情報(例えば当該クラスタに属する投稿の数)と「所定事象情報」(人口動態情報)との相関の度合いを算出して、その中から所定条件を満たすだけの高い「第1の相関の度合い」を決定し、また、
(B2)互いに異なる当該クラスタに含まれている「対象事象情報の部分」に係る情報(当該クラスタに属する投稿の数)間の相関の度合いを算出して、その中から所定条件を満たすだけの高い「第2の相関の度合い」を決定し、
(B3)「第1の相関の度合い」及び「第2の相関の度合い」についてそれぞれ単調増加及び単調減少を示すように設定されたスコアである「関連スコア」rkを算出する関連スコア決定部112と、
(C)算出された「関連スコア」rkが所定条件を満たすだけ高くなる「クラスタリング条件」(分割数k)についての「第1の相関の度合い」に係る「対象事象情報の部分」(該当するクラスタに属する投稿群)を、所定事象に関連する「関連情報」(人の集合離散の原因となるトピックについての投稿群)に決定する関連情報決定部113と
を有している。
【0031】
ここで、上記(B3)の「関連スコア」rkは、本願発明者等が考案したいわば「クラスタリング条件判定基準」であり、その特徴として、上記(B2)の「第2の相関の度合い」が指し示す“クラスタ間の独立性”だけでなく、上記(B1)の「第1の相関の度合い」が指し示す“クラスタと所定事象との相関性”をも勘案した判定基準となっている。より具体的に言えば、分割したいずれかのクラスタが所定事象と高い相関を示し、且つ分割したクラスタ同士が十分に独立するようなクラスタリングの条件(分割数k)を見出すための好適な指標と捉えられる。
【0032】
このように「関連スコア」rkは、一般に、対象となる事象情報からクラスタリングを用いて所定事象に関連する情報を抽出・決定するに際し、より好適なクラスタリング条件(分割数k)を決定可能な有効な判定基準となっているのである。また、トピック抽出装置1によれば、このような「関連スコア」rkを適宜、自動的に算出することができるので、より好適な「クラスタリング条件」(分割数k)の下でクラスタリングを行うことによって、より適切な「関連情報」を決定することが可能となるのである。
【0033】
なお当然ではあるが、本発明の関連情報決定装置が取り扱う「対象事象情報」及び「所定事象情報」はそれぞれ、以上に述べたような投稿情報及び人口動態情報に限定されるものではない。
【0034】
例えば「対象事象情報」を、所定年度にリリースされた複数(多数)の楽曲の音声データとし、一方「所定事象情報」を(景気指標としての)株価データとしてもよい。この場合、本発明によれば、楽曲音声データを好適にクラスタリングして、景気変動と関連のある楽曲群を、景気関連情報として抽出・決定することができる。またこれにより例えば、曲調の明るい曲のリリース数は景気変動と関係しないが、暗い曲のリリース数は景気変動と関連する、といったような知見を得ることも可能となるのである。ここで、このような本発明による音声データのクラスタリングは、従来ならば曲のテンポやリズムに基づき人手で楽曲分類を行わざるを得ないところ、好適な分割数(クラスタ数)kを自動で決定して自動的に実施されるのである。
【0035】
また、以上に述べた例において、「対象事象情報」を、楽曲音声データに代えて所定期間に発行された新聞記事データとし、株価の変動に影響を与えるような新聞記事(のトピック)を抽出・決定することもできる。
【0036】
さらに例えば「対象事象情報」を、所定期間に放映されたテレビ番組の映像データや音声データとし、一方「所定事象情報」を、携帯電話通信網を構成する基地局のトラヒックデータとすることもできる。この場合、本発明によれば、従来のような人手によるテレビ番組の分類設定を行うことなく、テレビ番組を自動的にクラスタリングして、どのテレビ番組(のジャンル)が基地局のトラヒックに影響しているかを明らかにすることが可能となる。またこれにより、通信事業者は、将来のトラヒック推定のための有用な知見を得ることもできるのである。
【0037】
なお、以上に説明した本発明に係る「対象事象情報」及び「所定事象情報」は、いずれも時系列情報(時系列データ)、すなわち情報単位(データ単位)の順序付けをする際の(さらには相関をとる際の)パラメータとして時間を採用可能な情報、となっているが、勿論それに限定されるものではない。例えば、当該パラメータとして位置座標値を採用可能な、位置座標値の関数となっている情報を「対象事象情報」及び「所定事象情報」とすることも可能である。例えば、あるエリアにおける特定の化学物質の地中濃度データを「所定事象情報」とし、当該エリアにおける各種植物の繁殖度合いを「対象事象情報」とすることができる。この場合、その生育に当該化学物質の影響を受ける植物(の種別)を決定することも可能となるのである。
【0038】
いずれにしても本発明によれば例えば、「所定事象情報」と関連する情報部分を有しているがそれ以外に相当の若しくは大量のノイズデータを含む「対象事象情報」から、当該情報部分を、教師データ無しで抽出することも可能となるのである。
【0039】
[装置機能構成,関連情報決定プログラム・方法]
以下、本発明による関連情報決定装置の一実施形態についてより詳細に説明を行う。なお、以下に示す実施形態では、対象事象情報及び所定事象情報がそれぞれ、投稿情報及び人口動態情報となっているが、上述したように本発明はこれらに限定されるものではない。
【0040】
同じく
図1の機能ブロック図において、本発明による関連情報決定装置の一実施形態としてのトピック抽出装置1は、通信インタフェース部101と、投稿情報保存部102と、人口動態情報保存部103と、関連情報保存部104と、キーボード(KB)105と、ディスプレイ(DP)106と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、本発明による関連情報決定プログラムを保存しており、また、コンピュータ機能を有していて、この関連情報決定プログラムを実行することによって、関連情報決定処理を実施する。
【0041】
またこのことからトピック抽出装置1は、関連情報決定処理専用の装置であってもよいが、本発明による関連情報決定プログラムを搭載した、汎用のクラウドサーバや非クラウド型サーバであってもよく、さらにはパーソナルコンピュータ(PC)、ノート型若しくはタブレット型コンピュータや、スマートフォン、さらにはウェアラブル装置とすることも可能である。
【0042】
また、プロセッサ・メモリは、機能構成部として、投稿情報選択部111aを含むクラスタリング部111と、クラスタ・事象相関算出部112a及びクラスタ間相関算出部112bを含む関連スコア決定部112と、トピック決定部113aを含む関連情報決定部113と、通信制御部121と、入出力制御部122とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された関連情報決定プログラムの機能と捉えることができ、また、
図1の機能ブロック図におけるトピック抽出装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による関連情報決定方法の一実施形態としても理解される。
【0043】
同じく
図1の機能ブロック図において、投稿情報保存部102及び人口動態情報保存部103はそれぞれ、投稿情報DB2及び人口動態情報DB3から、情報収集用API(Application Programing Interface)を用い、通信インタフェース部101及び通信制御部121を介して収集された投稿情報(投稿データ群)及び人口動態情報(人口動態時系列データ)を、保存・管理する。
【0044】
ここで投稿情報は、1つ1つの投稿(投稿データ)を情報単位とした情報、すなわち投稿データ群を含む情報となっており、またこれらの投稿データを、その投稿日時によって時系列に並べることができるという意味で時系列情報となっているのである。
【0045】
さらに本実施形態において、所定事象は「あるエリアでの人の集合離散」に設定されているが、これは、投稿データがそれについて言及し得る所定のイベント(例えば当該エリア内にあるアルファスタジアムで催されるコンサート)を原因として生じ得る事象、又は当該所定のイベントに関連して生じ得る事象となっている。またこの場合、当該エリアでの人口動態情報(人口動態時系列データ)は、所定事象(人の集合離散)に係る所定事象情報となっているのである。
【0046】
同じく
図1の機能ブロック図において、クラスタリング部111の投稿情報選択部111aは、投稿情報保存部102から取り出した、投稿日時が所定期間(例えばある1日間)内となっている投稿情報(対象事象情報)から、
(a)所定事象(人の集合離散)に関連し得るテキストデータ(例えば“アルファスタジアム”)を含んでいるもの、
(b)所定事象(人の集合離散)に関連し得る画像データ(例えばアルファスタジアムの外観写真画像データ(のうちの判定可能な画像部分データ))を含んでいるもの、及び
(c)所定事象(人の集合離散)に関連し得る音声データ(例えば“アルファスタジアム”)を含んでいるもの
のうちの少なくとも1つ、好ましくは全てを選択する(フィルタリングにより取得する)。
【0047】
このうち上記(b)の画像データを含む投稿データには、画像データの添付されたテキストベースの投稿データや、Instagram(登録商標)等の写真・動画共有SNSの投稿データが該当し得る。また、上記(c)の音声データを含む投稿データには、音声データの添付されたテキストベースの投稿データや、音声SNSの投稿データが該当し得るのである。なお勿論、投稿情報選択部111aによるこのような投稿選択処理は、省略することも可能である。例えばここで選択されるような投稿情報を、投稿情報DB2から、予め検索した上で取得してもよいのである。
【0048】
ここで例えば、ある特定の日付をもって投稿された投稿データ群から、その日にアルファスタジアムで催されたイベントに関連する投稿データを抽出するタスクを考える。この場合、投稿情報選択部111aは、“アルファスタジアム”という単語を含む投稿データを選択することができる。ちなみに、アルファスタジアムで催されるイベントに関連する投稿の数は、アルファスタジアムを含む当該エリア(メッシュ)の人口動態と連動して増減することが期待されるので、当該エリア(メッシュ)における人口動態情報を、所定事象情報に設定することが妥当となるのである。
【0049】
次いで本実施形態において、クラスタリング部111は、このように選択された投稿情報(対象事象情報)を、分割数(クラスタ数)kの互いに異なるクラスタリング条件毎に、当該分割数kだけのクラスタに分割する。
【0050】
ここで、これらのクラスタリング条件はそれぞれ、所定の2以上の下限値(例えば2)と所定の上限値(例えば8)との間の連続する複数の整数値(例えば、2, 3,・・,8の7つ)を分割数kとする条件とすることも好ましい。例えば、クラスタリング部111は、投稿情報(対象事象情報)に対し、分割数kがそれぞれ2~8である7つのクラスタリング処理を個別に実施し、7つのクラスタリング結果を生成してもよいのである。
【0051】
なお本実施形態において、投稿情報(対象事象情報)は、投稿日時順に並べることの可能な(すなわち時系列の)若しくは投稿日時に紐づいた(すなわち時間情報に紐づいた)複数の情報単位としての投稿データ群である。クラスタリング部111は、これらの複数(多数)の投稿データを、その「特徴ベクトル」に基づき特徴ベクトル空間において、k個のクラスタに分類するのである。
【0052】
ここで具体的に、投稿データの「特徴ベクトル」は、例えばテキストデータであればBERT(Bidirectional Encoder Representations from Transformers)や、画像データであればImageNetといったような公知の学習済みモデルを用い、データの次元を削減することによって生成することができる。また、特徴量化された投稿データのクラスタリングは、例えばk-means法やLDAといったような、予め分割数(クラスタ数)を指定しておく必要のある公知の手法によって実施されてもよい。
【0053】
同じく
図1の機能ブロック図において、関連スコア決定部112は、クラスタリング部111によって生成された、分割数kの互いに異なるクラスタリング条件毎のクラスタリング結果の各々について、「関連スコア」r
kを算出する。以下、
図2に示した具体例を用いて、得られた複数のクラスタリング結果の各々から関連スコアr
kを算出する手順を説明する。
【0054】
図2は、クラスタリング部111によって生成されたクラスタリング結果の一具体例を説明するための模式図である。ここで、
図2における特徴ベクトル空間内の1つの黒丸は、1つの投稿(投稿データ)を示している。
【0055】
図2に示した具体例では、クラスタリング部111は、取得され選択された投稿データ群(投稿情報)から、
図2(A):k-means法による分割数k=2とのクラスタリング条件の下、クラスタa及びクラスタbからなるクラスタリング結果を生成し、また、
図2(B):k-means法による分割数k=3のクラスタリング条件の下、クラスタa、並びに(クラスタbが更に分割された結果に相当する)クラスタb1及びクラスタb2からなるクラスタリング結果を生成し、さらに、
図2(C):k-means法による分割数k=4のクラスタリング条件の下、(クラスタaが更に分割された結果に相当する)クラスタa1及びクラスタa2、並びにクラスタb1及びクラスタb2からなるクラスタリング結果を生成している。
【0056】
ここで
図2(A)~(C)の各クラスタリング結果(クラスタのイメージ図)の下に示されたグラフは、各クラスタリング条件の下で分割された各クラスタに属する投稿データにおける、その投稿日時(の属する時間スリット)と、その数(投稿数)との関係を表したグラフとなっている。なお本具体例では、1つの時間スリットは1時間の幅のスリットとなっている。
【0057】
最初に、分割数k=2の場合の(
図2(A)の)グラフでは、クラスタaの投稿数が、クラスタbの投稿数とは異なり大きな時間変化を示している。このようにクラスタリングによって、投稿データ群(対象事象情報)のうちで人口動態時系列データ(所定事象情報)に関連(相関)し得る投稿データ群(対象事象情報の関連部分)が抽出可能となっていくことが理解される。ただし、この段階(k=2)では、投稿データ群(対象事象情報)の分離・分割はまだ不十分である可能性が残っている。
【0058】
次いで、分割数k=3の場合の(
図2(B)の)グラフでは、投稿データ群(対象事象情報)の分離・分割が進み、時間推移について互いに独立した(互いの相関の程度が低い)クラスタa、クラスタb1及びクラスタb2が得られている。
【0059】
最後に、分割数k=4の場合の(
図2(C)の)グラフでは、投稿データ群(対象事象情報)の分離・分割が更に進んで、4つのクラスタが得られている。ここで、そのうちクラスタa1とクラスタa2とは、時間推移について相当の相関を示している(互いに独立していない)ことが認められる。したがって、この段階(k=4)に至ると、投稿データ群(対象事象情報)が必要以上に分離・分割されている可能性があるのである。
【0060】
以上の3つのグラフを考察した結果からすると、人口動態時系列データ(所定事象情報)に関連する投稿データ群(対象事象情報の関連部分)を決定するには、分割数k=3のクラスタリング結果を用いるのが最適であると考えられる。
【0061】
ここで関連スコア決定部112は、以上に述べたような人の考察による(若しくは経験による)労力の膨大な且つ不確実な分割数kの決定を行うことなく、自動的に最適分割数kidealを決定可能とする「関連スコア」rkを算出するのである。
【0062】
この関連スコアr
kを算出するに当たっては具体的に、関連スコア決定部112のクラスタ・事象相関算出部112a(
図1)は、複数のクラスタリング条件(
図2ではk=2,3,4の3つの条件)の当該条件毎に、分割された各クラスタ(
図2(B)のk=3の場合、クラスタa,b1,b2の各々)について当該クラスタに含まれている投稿データ群(対象事象情報の部分)に係る情報(本具体例では投稿数)と人口動態時系列データ(所定事象情報)との(時間推移における/時間軸上の)「相関の度合い」を算出して、その中から所定条件を満たすだけの高い(本実施形態では最大の)「第1の相関の度合い」を決定する。
【0063】
また、関連スコア決定部112のクラスタ間相関算出部112b(
図1)は、複数のクラスタリング条件(
図2ではk=2,3,4の3つの条件)の当該条件毎に、互いに異なるクラスタに含まれている投稿データ群(対象事象情報の部分)に係る情報(本具体例では投稿数)間の(時間推移における/時間軸上の)「相関の度合い」を算出して、その中から所定条件を満たすだけの高い(本実施形態では最大の)「第2の相関の度合い」を決定する。
【0064】
ここで、上記のように決定された「(第1の)相関の度合い」及び「(第2の)相関の度合い」は、例えば相関係数や、DTW(Dynamic Time Warping,動的時間伸縮法)のDTW値といったような相関値とすることができる。いずれにしても、第1の相関の度合いは“クラスタと所定事象との相関性の高さ”を指し示しており、一方、第2の相関の度合いは“クラスタ間の非独立性の程度”を指し示す指標となっている。
【0065】
次いで、関連スコア決定部112(
図1)は、第1の相関の度合いの単調増加関数となり、且つ第2の相関の度合いの単調減少関数となるように予め設定された関連スコアr
kの関数形に対し、複数のクラスタリング条件(
図2ではk=2,3,4の3つの条件)の当該条件毎に、決定された第1の相関の度合い及び第2の相関の度合いを代入して、当該条件毎の関連スコアr
k(
図2の場合、r
2、r
3及びr
4の3つ)を算出する。
【0066】
ここで関連スコアrkの関数形の好適な具体例として、次式
(1) rk=max1≦l≦k(corr(Cl,S))/maxi≠j(corr(Ci,Cj))
を採用することも好ましい。ここで、maxは引数の中の最大値を返す関数であって、corrは相関関数であり、max1≦l≦k(corr(Cl,S))は第1の相関の度合いであって、クラスタCl(1≦l≦k)に属する投稿データの数(投稿数)と、人口動態時系列データ(所定事象情報)との間の時間推移についての相関値(相関係数やDTW値等)における最大のものとなっている。また、maxi≠j(corr(Ci,Cj))は第2の相関の度合いであって、クラスタCi(1≦i≦k)に属する投稿データの数(投稿数)と、クラスタCj(1≦j≦k,j≠i)に属する投稿データの数(投稿数)との間の時間推移についての相関値(相関係数やDTW値等)における最大のものとなっている。
【0067】
なお勿論、関連スコアrkは上式(1)の形に限定されるものではなく、例えば、
(2) rk=W1・ln{max1≦l≦k(corr(Cl,S))}-W2・ln{maxi≠j(corr(Ci,Cj))}
としてもよい。ここでlnは自然対数であり、W1及びW2は所定の重み係数である。
【0068】
以上説明したような、関連スコア決定部112(
図1)で算出・決定される関連スコアr
kは、すでに述べたように、本願発明者等が考案した好適且つ有効な「分割数(クラスタ数)kの判定基準」となっている。具体的に、関連スコアr
kがより高い値を示す(分割数kの)クラスタリング結果ほど、分割したいずれかのクラスタが所定事象とより高い相関を示し、且つ分割したクラスタ同士が十分に独立した結果となっている、言い換えると、所定事象に関連する関連情報をより適切に分離できている結果である、と判断することができるのである。
【0069】
図1の機能ブロック図に戻って、関連情報決定部113は、
(a)算出・決定された関連スコアr
kが、所定条件を満たすだけ高くなる(本実施形態では最大となる)クラスタリング条件(分割数k)についての「第1の相関の度合い」(上式(1)及び(2)においてはmax
1≦l≦k(corr(C
l,S)))を決定し、
(b)決定した「第1の相関の度合い」(max
1≦l≦k(corr(C
l,S)))に係る「対象事象情報の部分」(Sと最も高い相関を示すC
lに属する投稿データ群)を、所定事象(人の集合離散)に関連する「関連情報」に決定する。
【0070】
ここで関連情報決定部113は、最適クラスタリング条件、すなわち最適分割数kidealを、例えば次式
(3) kideal=argmax(rk)
によって決定することもできるのである。
【0071】
またさらに本実施形態において、関連情報決定部113のトピック決定部113aは、「関連情報」として決定した(対象事象情報の部分としての)投稿データ群から、後に説明する手法をもって「トピック」を抽出し、この抽出されたトピック(例えば“コンサート”)を、所定事象(人の集合離散)の原因となる(又は所定事象と関連して生じる)イベント(例えば所定エリア内にあるアルファスタジアムで催されるイベント)に関連するトピックに決定する。ここで抽出されたトピックは、言い換えると、分割数kidealに係るクラスタClであってSと最も高い相関を示すクラスタClに属する投稿データ群から抽出されたトピックtkidealとなっているのである。
【0072】
このように、本実施形態のトピック抽出装置1によれば、所定エリアにおける所定事象(人の集合離散)に関連しているイベントの種別・内容を、抽出したトピックから適切に推定することも可能となるのである。
【0073】
なお、上述したように本実施形態では「第1の相関の度合い」(max1≦l≦k(corr(Cl,S)))として、関連スコアrkが最大であるものを1つ決定しているが、変更態様として複数決定することも可能である。例えば、関連スコアrkの高い順に所定個(例えば3つ)の「第1の相関の度合い」(max1≦l≦k(corr(Cl,S)))を決定してもよい。この場合、対応する複数(例えば3つ)のクラスタのそれぞれから抽出されたトピックが、所定事象に係るイベントに関連し得るものとみなされることになる。
【0074】
<投稿データ群からのトピック抽出>
投稿データ群からのトピック抽出処理として、例えば以下の(a)~(f)が挙げられる。
(a)予めトピック毎に単語を対応付けた単語辞書を用意しておき、対象の投稿データ群において所定以上の頻度で出現している単語を抽出し、当該単語の対応付けられたトピックを、対象の投稿データ群から抽出したトピックとする。
(b)予めトピック毎にハッシュタグを対応付けたハッシュタグ辞書を用意しておき、対象の投稿データ群において所定以上の頻度で付されているハッシュタグを抽出し、当該ハッシュタグの対応付けられたトピックを、対象の投稿データ群から抽出したトピックとする。
【0075】
(c)大規模コーパスを用いて、LDAやDTM(Dynamic Topic Model)等の、投稿データからトピックを推定するトピックモデルを構築しておき、対象の投稿データ群を当該トピックモデルへ入力して、出力されたトピックを、抽出されたトピックとする。
(d)上記(c)とは異なり、複数の投稿データの結合系からトピック構成比を推定するトピックモデルを予め構築しておき、対象となる全ての投稿データを結合した上で当該トピックモデルへ入力して、出力されたトピック構成比に基づき、所定以上の又は最大の構成比を有するトピックを、対象の投稿データ群から抽出したトピックとする。
【0076】
(e)大規模コーパスを用いて、word2vec、doc2vecや、fastText等の単語ベクトル化手段によって特徴ベクトル化された投稿データからトピックを推定するニューラルネットワーク(NN,Neural Networks)トピックモデルを構築しておき、対象の投稿データ群を当該NNトピックモデルへ入力して、出力されたトピックを、抽出されたトピックとする。
(f)事前学習無しにトピック推定を行う場合(教師無し学習でモデルを設定する場合)として、実際に投稿された投稿データ群でトピックモデルを構築し、例えば「単語「電車」と単語「遅延」がともに含まれる投稿に係るトピックは"電車遅延"とする」といったようなルールを予め設けておき、対象の投稿データ群の各々のトピックを同定した上で、構成比が所定以上の又は最大となるトピックを、抽出されたトピックとする。
【0077】
同じく
図1の機能ブロック図において、関連情報決定部113は、例えばユーザによる関連情報・トピック決定処理の実行指示を、キーボード105及び入出力制御部122を介して受け取った際、以上説明したように所定事象の関連情報や関連するトピックを決定し、これらの情報を、関連情報保存部104に適宜、保存し管理させたり、入出力制御部122を介してディスプレイ106に表示させたり、さらに、通信制御部121及び通信インタフェース部101を介して、外部の情報処理装置へ送信させたりしてもよい。
【0078】
[関連情報決定方法]
図3は、本発明による関連情報決定方法の一実施形態を概略的に示すフローチャートである。
【0079】
(S101)人口動態情報保存部103から、所定エリアにおける所定期間での人口動態時系列データを取得する。
(S102)投稿情報保存部102から、当該所定期間内に投稿された投稿データ群を取得する。
(S103)取得した投稿データ群から、予め設定されたトピック関連語を含む投稿データを選択する。
(S104)所定の学習済みモデルを用いて、選択した投稿データの特徴ベクトルを生成する。
【0080】
次いで、以下のステップS105~S107を、分割数kが順次、NS(下限値)からNC(上限値)までの各整数値に設定された各条件の下で繰り返す。
(S105)選択した投稿データ(の特徴ベクトル)に対し、分割数kのクラスタリング処理を実施する。
(S106)生成されたk個のクラスタの各々において、当該クラスタに属する投稿データを時間(スロット)軸上に展開する。
(S107)取得した人口動態時系列データ、及び時間(スロット)軸上に展開した(k個のクラスタの各々に係る)投稿データから、関連スコアrkを算出する。
【0081】
(S108)設定された(NC-NS+1)個の分割数の各々について算出された(NC-NS+1)個の関連スコアrkのうちで最大のものを特定し、この最大の関連スコアrkに係る分割数を、最適分割数kidealに決定する。
(S109)上記の最大の関連スコアrk(最適分割数kideal)に係るクラスタに属する投稿データを、(当該所定エリアに係るイベントに関連する)関連投稿データ群(関連情報)に決定する。
(S110)決定した関連投稿データ群からトピックを抽出し、この抽出したトピックを、(当該所定エリアに係るイベントに関連する)関連トピックに決定する。
【0082】
以上詳細に説明したように、本発明によれば、対象となる事象情報からクラスタリングを用いて所定事象に関連する関連情報を抽出するに当たり、本願発明者等の考案による(クラスタリング条件判定基準である)「関連スコア」を適用することによって、より好適なクラスタリングを行って、より適切な関連情報を決定することが可能となるのである。
【0083】
ここで一具体例ではあるが、所定事象を人口動態(人の集合離散)とした場合に、本発明によれば、この格別の「関連スコア」を適用することによって、例えばネットワーキングサービスの投稿群やテレビ番組・新聞記事等のマスコミ情報から、より関連性の高い且つより具体的なトピックを決定することも可能となるのである。
【0084】
またこのように、人口動態現象を適切に説明するトピックを明らかにすることによって、例えばイベント発生時、災害時や、緊急事態発令時等における都市変動特性をより正確に把握したり、さらにそこでの人流制御を適切に実施したりすることも可能になる。またこのことから、本発明は、現在話題となっているスマートシティにおける種々の事象の定常変動要因を推定する場面においても、大いに活用されるものであることが理解される。またさらに言えば、本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に大きく貢献することも可能となるのである。
【0085】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0086】
1 トピック抽出装置(関連情報決定装置)
101 通信インタフェース部
102 投稿情報保存部
103 人口動態情報保存部
104 関連情報保存部
105 キーボード(KB)
106 ディスプレイ(DP)
111 クラスタリング部
111a 投稿情報選択部
112 関連スコア決定部
112a クラスタ・事象相関算出部
112b クラスタ間相関算出部
113 関連情報決定部
113a トピック決定部
121 通信制御部
122 入出力制御部
2 投稿情報データベース(DB)
3 人口動態情報DB