(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024131686
(43)【公開日】2024-09-30
(54)【発明の名称】プログラム、情報処理システム、データ処理システム
(51)【国際特許分類】
G06F 16/906 20190101AFI20240920BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023042101
(22)【出願日】2023-03-16
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(71)【出願人】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】池 昂一
(72)【発明者】
【氏名】相馬 亘
(72)【発明者】
【氏名】青山 秀明
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA03
5B175FB04
5B175KA10
(57)【要約】
【課題】分析対象に関する値がどのように推移したかを分析する技術を提供すること。
【解決手段】本発明は、情報処理システムを、年月日時分秒のいずれか1つ以上が対応付けられたデータを取得するデータ取得部と、前記データ取得部が取得したデータから1つ以上の分析対象を抽出するデータ処理部と、前記分析対象に関する値の期間に対する累積値のグラフを作成するグラフ作成部と、前記グラフがx軸と形成する第1面積を算出する面積算出部と、前記第1面積に基づいて、グラフ形状のパターンを判別するパターン判別部、として機能させるためのプログラムを提供する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
情報処理システムを、
年月日時分秒のいずれか1つ以上が対応付けられたデータを取得するデータ取得部と、
前記データ取得部が取得したデータから1つ以上の分析対象を抽出するデータ処理部と、
前記分析対象に関する値の、期間に対する累積値のグラフを作成するグラフ作成部と、
前記グラフがx軸と形成する第1面積を算出する面積算出部と、
前記第1面積に基づいて、グラフ形状のパターンを判別するパターン判別部、
として機能させるためのプログラム。
【請求項2】
前記面積算出部は、前記グラフの二乗関数がx軸と形成する第2面積を算出し、
前記パターン判別部は、前記第1面積をx軸、前記第2面積をy軸とする散布図におけるデータ点の位置に基づいて、前記グラフ形状のパターンを判別する請求項1に記載のプログラム。
【請求項3】
前記面積算出部は、前記グラフの二乗関数がx軸と形成する第2面積A2を算出し、前記グラフがx軸と形成する第1面積A1と前記第2面積A2を用いて、式(6)で前記第2面積A2を第3面積B2に変換し、
【数6】
前記パターン判別部は、前記第1面積A1をx軸、前記第3面積B2をy軸とする散布図におけるデータ点の位置に基づいて、前記グラフ形状のパターンを判別する請求項1に記載のプログラム。
【請求項4】
前記パターン判別部は、前記第1面積をx軸、前記第2面積をy軸とする散布図におけるデータ点の位置が右上の場合に、前記グラフ形状が、前記期間の始期に前記分析対象に関する値が増加して前記期間の終期にはほとんど出現しないパターンであると判別し、
前記データ点の位置が左下の場合に、前記グラフ形状が、前記期間の終期に前記分析対象に関する値が急激に伸びているパターンであると判別する請求項2に記載のプログラム。
【請求項5】
前記パターン判別部は、前記第1面積をx軸、前記第3面積をy軸とする散布図におけるデータ点の位置が右端の場合に、前記グラフ形状が、前記期間の始期に前記分析対象に関する値が増加して前記期間の終期にはほとんど出現しないパターンであると判別する請求項3に記載のプログラム。
【請求項6】
前記パターン判別部は、前記第1面積をx軸、前記第3面積をy軸とする散布図におけるデータ点の位置が左端の場合に、前記グラフ形状が、前記期間の終期に前記分析対象に関する値が急激に伸びているパターンであると判別する請求項3に記載のプログラム。
【請求項7】
前記パターン判別部は、前記第1面積をx軸、前記第3面積をy軸とする散布図におけるデータ点の位置が上端の場合に、前記グラフ形状が、前記期間の中央付近で前記分析対象に関する値が急激に伸びたが前記期間の終期には出現しないパターンであると判別する請求項3に記載のプログラム。
【請求項8】
前記パターン判別部は、前記第1面積をx軸、前記第3面積をy軸とする散布図におけるデータ点の位置が下端の場合に、前記グラフ形状が、前記期間の始期から前記分析対象に関する値が出現しているが一度廃れ、前記期間の終期に前記分析対象に関する値が伸びているパターンであると判別する請求項3に記載のプログラム。
【請求項9】
前記分析対象は前記データに含まれるキーワードであり、前記値はキーワードの出現回数である請求項1~8のいずれか1項に記載のプログラム。
【請求項10】
前記分析対象は前記データに含まれる金融商品の取引の情報であり、前記値が取引回数である請求項1~8のいずれか1項に記載のプログラム。
【請求項11】
前記情報処理システムを、
前記散布図を表示する画面を生成する画面生成部と、
前記画面の画面情報を、ネットワークを介して端末装置に送信する通信部、
として機能させる請求項2~8のいずれか1項に記載のプログラム。
【請求項12】
前記分析対象が前記データに含まれる金融商品の取引の情報であり、前記値が取引回数であり、前記取引の情報が基準時に対応付けられており、
前記パターン判別部は、前記第1面積をx軸、前記第3面積をy軸とする散布図におけるデータ点の位置に基づいて、前記取引が行われた、基準時が異なる地域を判別する請求項3に記載のプログラム。
【請求項13】
年月日時分秒のいずれか1つ以上が対応付けられたデータを取得するデータ取得部と、
前記データ取得部が取得したデータから1つ以上の分析対象を抽出するデータ処理部と、
前記分析対象に関する値の期間に対する累積値のグラフを作成するグラフ作成部と、
前記グラフがx軸と形成する第1面積を算出する面積算出部と、
前記第1面積に基づいて、グラフ形状のパターンを判別するパターン判別部と、
を有する情報処理システム。
【請求項14】
端末装置と情報処理システムがネットワークを介して通信するデータ処理システムであって、
年月日時分秒のいずれか1つ以上が対応付けられたデータを取得するデータ取得部と、
前記データ取得部が取得したデータから1つ以上の分析対象を抽出するデータ処理部と、
前記分析対象に関する値の期間に対する累積値のグラフを作成するグラフ作成部と、
前記グラフがx軸と形成する第1面積を算出する面積算出部と、
前記第1面積に基づいて、グラフ形状のパターンを判別するパターン判別部と、
を有するデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラム、情報処理システム、及びデータ処理システムに関する。
【背景技術】
【0002】
時系列データに含まれるキーワードなど種々の分析対象を取り出して、最近の話題などを分析したい場合がある。例えば、時代の趨勢、潮流、流行等の傾向を発見する手法として、キーワードの出現頻度が分析される。各キーワードの出現頻度の分析により、種々の分野で最近増加している話題、トピック、テーマ、人気、気になる事象などを発見しやすくなる。
【0003】
分析対象の文書集合と関係の強いトレンド及びトレンドを反映した分析対象文書を提示する技術が考案されている(例えば特許文献1参照)。特許文献1には、対象文書の単語を抽出した回数の合計と対象文書の作成日時が現在日時に近い過去において出現回数の多い単語を急騰度が高くなるようにトレンド抽出し、単語と関連性の高い関連文書をユーザーへ提示するシステムが開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の従来では、分析対象に関する値が時間と共にどのように変化したか分析されていない。すなわち、あるキーワードの出現頻度が急激に増加する場合もある一方、時間と共に徐々に増加する場合もあるが、どちらも単に出現頻度が増加したキーワードがあると判断されていた。
【0005】
本発明は、上記課題に鑑み、分析対象に関する値がどのように推移したかを分析する技術を提供する。
【課題を解決するための手段】
【0006】
上記課題に鑑み、本発明は、情報処理システムを、年月日時分秒のいずれか1つ以上が対応付けられたデータを取得するデータ取得部と、前記データ取得部が取得したデータから1つ以上の分析対象を抽出するデータ処理部と、前記分析対象に関する値の期間に対する累積値のグラフを作成するグラフ作成部と、前記グラフがx軸と形成する第1面積を算出する面積算出部と、前記第1面積に基づいて、グラフ形状のパターンを判別するパターン判別部、として機能させるためのプログラムを提供する。
【発明の効果】
【0007】
分析対象に関する値がどのように推移したかを分析する技術を提供できる。
【図面の簡単な説明】
【0008】
【
図1】特定の技術分野内の論文から複数のキーワードを抽出し、変化や兆しを検知する流れを説明する図である。
【
図2】技術とその技術を使用した事業の時間に対するサイクルを模式的に示す図である。
【
図3】所定のキーワードについて出現頻度が増加するまでの推移を分析する処理を説明する図である。
【
図4】データ処理システムのシステム構成図の一例である。
【
図5】情報処理システム及び端末装置の一例のハードウェア構成を示す図である。
【
図6】データ処理システムの機能構成の一例を示す図である。
【
図7】出現頻度の推移の分析に使用されるキーワードを含むデータの一例を示す図である。
【
図8】
図7の出現回数を累積値に変換したデータの一例を示す図である。
【
図9】
図8のデータの累積値と期間がそれぞれ規格化されたデータの一例を示す図である。
【
図10】規格化された期間をx軸、規格化された累積値をy軸としたあるキーワードの出現頻度の推移を示すグラフの一例である。
【
図11】2つの異なるキーワードについて、ワード出現頻度グラフの一例を示す図である。
【
図12】面積A1が0.5のワード出現頻度グラフのいくつかのバリエーションを示す図である。
【
図13】面積A1と面積A2によるワード出現頻度グラフの形状のパターン分析を説明する図である。
【
図14】面積A1が徐々に変化する複数のワード出現頻度グラフの一例を示す図である。
【
図15】面積A1に対する面積B2の散布図の一例である。
【
図16】出現回数が一定以上のキーワードについて算出された面積A1と面積B2をアイマップ上に示す図である。
【
図17】データ処理システムがキーワードの出現頻度の推移をパターン分析する処理を説明するシーケンス図の一例である。
【
図18】総出現回数が10以上のキーワードについて、面積A1が小さい順に上位100個のキーワードの初出現年度、総出現回数、面積A1、面積A2を示す図の一例である。
【
図19】上位100個のキーワード中の兆しワードの抽出率を示す図の一例である。
【
図20】(a)はユーザーの一日の取引の毎分ごとの取引回数の平均値を示す。(b)はx軸を規格化し、取引回数を累積値にしたグラフを示す。
【
図21】
図20(a)(b)と同じ取引データについて、x軸の時刻を米国東部標準時で表した図である。
【
図22】機械学習を使用したパターン分析装置の機能ブロック図の一例である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態の一例として、情報処理システムと情報処理システムが行うパターン分析方法について図面を参照しながら説明する。
【0010】
<時系列データの推移について>
ある分野で何が現在の話題になっているか、又は、今後、話題になりそうかをこの分野で使用されているキーワードから分析したい場合がある。例えば、特定の技術分野においてどのような技術が話題になっているか、その変化点や兆しを検知できれば今後の研究テーマに選択するなどの早期の対応が可能になる。
【0011】
図1は、特定の技術分野内の論文から複数のキーワードを抽出し、変化や兆しを検知する流れを説明する図である。通常の技術分野では一般に論文が作成されているので、論文に記載のキーワードが話題の変化や今後話題になりそうな技術を表していると考えられる。そこで、
図1に示すように、後述する情報処理システムが論文からキーワードを取り出して、期間に対しその出現頻度がどのように推移したかを表すことが有効である。
図1ではキーワードAとBの出現頻度の推移が示されているが、キーワードAは徐々に出現頻度が増加し、キーワードBは最近出現頻度が増加していること分かる。例えば研究者としてはキーワードBを特定できれば、キーワードBを次の研究テーマに選択することも検討できる。
【0012】
図2は、技術とその技術を使用した事業の時間に対するサイクルを模式的に示す図である。ライン201は特定の技術の成熟度、採用度、社会への適用度を示す(このラインをハイプサイクルという)。ライン201が示すように、一般に技術は、黎明期に多くの研究者が試行的に研究することで研究が進み、研究が一通り進むと、いったんは下火になることが多い。そして、マーケットの見通しや採算が取れる可能性があると、その技術が事業化される。事業化される技術は再度、製品化等のために研究が進められ、ライン202で示すように事業化(製品、サービス化)も進む。したがって、ライン201がいったん下火になった後の上昇部203が、技術が再度研究され始めたタイミングである。企業がこの上昇部203を捉えることができれば、早期に事業化できるのでビジネス上有利になる。上昇部203は、当該技術が実用的な意味で話題になる兆しということができ、本実施形態のデータ分析方法は、一例としてこの兆しを捉えることを可能にする。
【0013】
次に、
図3を参照して、本実施形態におけるデータ分析方法の概略を説明する。
図3は、所定のキーワードについて出現頻度が増加するまでの推移を分析する処理を説明する図である。
【0014】
(1)
図3(a)に示すように、情報処理システムは、一例として論文のタイトルを形態素解析し(分かち書き)、各キーワードごとに発行年別の出現頻度を算出する。
【0015】
(2) 情報処理システムは、キーワード間で出現頻度の推移を比較できるように、キーワードごとに、発行年と出現頻度の累積値をそれぞれ0~1に正規化する。
図3(b-1)(b-2)に示すように、発行年xを横軸、出現頻度の累積値yを縦軸とするグラフが得られる。このようにグラフにすることで、キーワードの出現頻度の推移が視覚化される。
図3(b-1)は、出現頻度が近年急激に増加したキーワードであることを示し、
図3(b-2)は、早い時期に出現頻度が増加したが近年はほとんど使用されないキーワードであることを示す。
【0016】
(3) 情報処理システムは、(2)のグラフのグラフ形状がどのパターンに近いかをマップを使用して分析する。詳細は後述するが、情報処理システムは、グラフとx軸が形成する面積を算出し、キーワードごとに出現頻度の推移のパターンをマップ内の位置で表す(
図3(c))。以下、このマップをアイマップ210という。アイマップ210は、1つのキーワードについて出現頻度の推移のパターンをデータ点(例えば211~214)の位置(座標)で示す。データ点の位置により出現頻度がどのように推移したか判断される。例えば、アイマップ210の左端のデータ点212に対応するキーワードは、「近年急激に増加しているキーワード」、右端のデータ点214に対応するキーワードは「昔増加したがほとんど流行らなかったキーワード」、上端のデータ点211に対応するキーワードは「途中急激に出現回数が増加したが今は廃れているキーワード」、下端のデータ点213に対応するキーワードは「昔からあるが一度廃れ、再度注目されはじめているキーワード」であることを示す。
【0017】
したがって、ユーザーは、アイマップ210のどこにキーワードのデータ点があるかを判断することにより、どのようにキーワードの出現頻度が推移したのか把握できる。例えば特定の技術分野においてどのような技術が話題になっているか、今後話題になりそうかの兆しを抽出できる。
【0018】
<用語について>
データとは、時間と共にどのように推移するかが分析されるキーワードや数値等の分析対象が含まれるものであればよい。データ又は分析対象には年月日時分秒の1つ以上が対応付けられていることが好ましい。
【0019】
分析対象とは、時間と共にどのように推移するかが分析される対象であり、例えばキーワードや数値等をいう。
【0020】
分析対象に関する値とは、データに含まれる分析対象に直接含まれた値だけでなく、分析対象を加工することで得られる値など、処理により抽出可能な何らかの値であればよい。本実施形態では、分析対象に関する値は、出現回数や取引回数という用語で説明される。
【0021】
グラフ形状のパターン分析とは、グラフ形状がどのような形状かをこのグラフ形状と近い型(パターン)と比較して分析する方法をいう。グラフ形状のパターンは分析対象に関する値の期間に対する変動パターンでもある。
【0022】
<システム構成例>
図4は、データ処理システム100のシステム構成図の一例である。データ処理システム100は、情報処理システム10と、端末装置30と、を有する。ただし、端末装置30は汎用的なコンピュータでよく、データ処理システム100に含まれない場合がある。
【0023】
情報処理システム10と端末装置30は、インターネット等の広域的なネットワークN1を介して通信可能に接続されている。情報処理システム10は、クラウドやデータセンターなどに設置されていてもよいし、オンプレミスに設置されていてもよい。情報処理システム10は端末装置30からの要求に応じて、処理結果を返す端末装置30にWebサーバーであってよい。サーバーとは、クライアントからの要求に対して情報や処理結果を提供する機能を果たすコンピュータやソフトウェアである。
【0024】
情報処理システム10は、例えば、ユーザー9が端末装置30により指定するデータ(例えば複数の文献のタイトルなど)からキーワードを抽出し、各キーワードの出現頻度の推移をアイマップ210に示す。あるいは、情報処理システム10は、例えば、ユーザーが端末装置30により指定するキーワードが、あるデータの中でどのように出現頻度が推移したかをアイマップ210に示す。
【0025】
情報処理システム10は、予め、ユーザーが分析に指定するデータが保存されたデータ記憶装置を有していてよい。あるいは、情報処理システム10は、データサーバやNAS(Network Attached Storage)からデータを取得してもよい。また、情報処理システム10は、ネットワーク上からWebスクレイピングを行うことでデータを取得してもよい。あるいは、ユーザーが端末装置30から分析の対象のデータを情報処理システム10に送信してもよい。
【0026】
情報処理システム10は、クラウドコンピューティングに対応していてもよい。クラウドコンピューティングとは、特定ハードウェア資源が意識されずにネットワーク上のリソースが利用される利用形態をいう。したがって、情報処理システム10は、1つの筐体に収納されていたり一まとまりの装置として備えられていたりする必要はない。情報処理システム10は複数の情報処理装置にその機能が分散されていてもよいし、複数の情報処理装置がそれぞれ全ての機能を有し、負荷分散などにより処理する情報処理装置が切り替えられてもよい。
【0027】
端末装置30は、企業、教育機関、工場などの施設に配置されており、ネットワークN2に接続されている。ネットワークN2は、LAN、Wi-Fi(登録商標)、広域イーサネット(登録商標)、4G、5G、6G等の携帯電話網、などでよい。
【0028】
端末装置30は、ユーザーが使用する汎用的なコンピュータである。ここでユーザーとは、情報処理システム10を使用する者である。したがって、情報処理システム10を使用する者は、キーワード等の出現頻度の推移を分析したい者であればよい。また、ユーザーには、分析対象のデータを情報処理システム10等に登録する者が含まれてよい。
【0029】
端末装置30ではWebブラウザや情報処理システム10に専用のネイティブアプリが動作する。端末装置30がWebブラウザを実行する場合、端末装置30と情報処理システム10はWebアプリを実行する。Webアプリとは、Webブラウザ上で動作するプログラミング言語(例えばJavaScript(登録商標))によるプログラムとWebサーバー(情報処理システム10)側のプログラムが協調することによって動作するアプリケーションである。Webアプリの実行時、キーワードの出現頻度の推移の分析は情報処理システム10が行ってもよいし、Webアプリを受信した端末装置30が行ってもよい。
【0030】
端末装置30にインストールされなければ実行されないアプリケーションをネイティブアプリという。本実施形態に関しても、端末装置30で実行されるアプリケーションはWebアプリでもネイティブアプリでもよい。この場合も、キーワードの出現頻度の推移の分析は情報処理システム10が行ってもよいし、端末装置30がネイティブアプリで行ってもよい。
【0031】
また、本実施形態では、情報処理システム10が、キーワードの出現頻度の推移を分析するとして説明するが、
図4(b)に示すように、端末装置30が単体でデータ分析してもよい。この場合、端末装置30ではデータが含むキーワードの出現頻度の推移を分析するネイティブアプリが動作する。ただし、端末装置30はネットワーク上のデータサーバからデータを取得してよい。したがって、
図4(b)の形態でも、端末装置30はネットワークに接続できることが好ましい。
【0032】
端末装置30は、例えば、ユーザーが使用するデスクトップPC、ノート型PC、スマートフォン、PDA(Personal Digital Assistant)、タブレット端末等である。この他、端末装置30はWebブラウザやネイティブアプリが動作する装置であればよい。端末装置30は、電子黒板、テレビ会議端末等でもよい。
【0033】
なお、本実施形態では、特に言及しない限り、
図4(a)の形態に基づいて説明する。
【0034】
<ハードウェア構成例>
図5を参照して、本実施形態に係るデータ処理システム100に含まれる情報処理システム10及び端末装置30のハードウェア構成について説明する。
【0035】
<<情報処理システム及び端末装置>>
図5は、本実施形態に係る情報処理システム10及び端末装置30の一例のハードウェア構成を示す図である。
図5に示されているように、情報処理システム10及び端末装置30はコンピュータ500によって構築されており、CPU501、ROM502、RAM503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
【0036】
これらのうち、CPU501は、情報処理システム10及び端末装置30全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークN2を利用してデータ通信をするためのインターフェースである。バスライン510は、
図5に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0037】
また、キーボード511は、文字、数値、又は各種指示などの入力に使用される複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWドライブ514は、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
【0038】
<機能について>
次に、
図6を用いて、本実施形態に係るデータ処理システム100の機能構成について説明する。
図6は、本実施形態に係るデータ処理システム100の機能構成の一例を示す図である。
【0039】
<<情報処理システムの機能構成>>
情報処理システム10は、通信部11、データ取得部12、データ処理部13、出現頻度算出部14、規格化部15、グラフ作成部16、面積算出部17、パターン判別部18、及び、画面生成部19を有している。これら各部は、
図5に示されている各構成要素のいずれかが、RAM503に展開されたプログラムに従ったCPU501からの命令によって動作することで実現される機能、又は機能する手段である。また、各機能の詳細は後に図を用いて説明する。
【0040】
通信部11は、端末装置30との間で各種の情報を送受信する。本実施形態では、通信部11は、Webアプリや分析結果であるアイマップを端末装置30に送信し、ユーザーからの各種の操作内容や指示を受信する。
【0041】
データ取得部12は、出現頻度の推移の分析対象であるキーワードが含まれたデータを取得する。データ取得部12は、端末装置30からデータを受信してもよいし、NASやデータサーバからデータを取得してもよい。また、データ取得部12はWebスクレイピングによりデータを取得してもよい。
【0042】
データ処理部13は、必要に応じてデータに形態素解析を行い正規表現に直すことで、キーワードを抽出する。データ処理部13は、表形式のテーブルの決まった列からキーワードを抽出してもよく、形態素解析が不要な場合もある。例えば、形態素解析は、データ形式がテーブル形式(XML,JSON、CSV等)に清書されている場合等はなくてもよい場合がある。
【0043】
出現頻度算出部14は、形態素解析で得た各キーワードの単位期間ごとの出現頻度を数え、それを期間に対する累積値に変換する。単位期間は出現回数を数える期間であり、後述の論文分析では1年である。単位期間は、年月日時分秒など分析対象や目的によって適宜設定されてよい。また、期間とは、単位期間の始めから終わりまでを総計した全期間である。
【0044】
規格化部15は、キーワードごとに、累積値と期間をそれぞれ最小値0、最大値1となるように規格化する。規格化される期間は、初出現年度等がキーワードによって異なっていても、全てのキーワードで同じ期間でよい。
【0045】
グラフ作成部16は、キーワードごとに、期間をx軸、出現頻度の累積値をy軸とするグラフ(後述するワード出現頻度グラフ)を作成する。また、グラフ作成部16は、出現頻度の推移のパターンを区別できるように、このグラフにおける累積値の二乗をy軸とするグラフも作成する。元のグラフの累積値が二乗されたグラフを二乗関数という。
【0046】
面積算出部17は、グラフがx軸との間に形成する面積(この面積をA1とする)を算出する(面積A1は第1面積の一例)。面積算出部17は、二乗関数がx軸との間に形成する面積(この面積をA2とする)を算出する。面積A2(面積A2は第2面積の一例)を求めることで、面積A1だけでは区別が困難なキーワードについて出現頻度の推移のパターンを区別しやすくなる。更に、面積算出部17は、面積A2をアイマップ用の面積B2(面積B2は第3面積の一例)に変換する。
【0047】
パターン判別部18は、面積A1をx軸、面積A2をy軸とする散布図を作成し、面積A1に対応する面積A2のデータ点をこの散布図に配置する。同様に、パターン判別部18は、面積A1をx軸、面積B2をy軸とする散布図を作成し、面積A1に対応する面積B2のデータ点をこの散布図に配置する。どちらの散布図でも、データ点の位置によってどのような推移で出現頻度が増加したかの傾向を示すので、ユーザーは任意のキーワードの出現頻度がどのように推移したかをデータ点の位置で把握できる。
【0048】
画面生成部19は端末装置30が表示する画面情報の生成を行う。端末装置30がWebアプリを実行する場合は、画面情報は、HTML、XML、CSS(Cascade Style Sheet)、及びJavaScript(登録商標)等により作成される。端末装置30がネイティブアプリを実行する場合は、画面情報は端末装置30が保持しており、表示される情報がXML等で送信される。
【0049】
<<端末装置>>
端末装置30は、キーワードの出現頻度の推移を分析したいユーザーにより使用される。端末装置30は、通信部31と、表示制御部32と、操作受付部33とを有する。これら各機能部は、端末装置30にインストールされた1以上のプログラムに含まれる命令をCPU501が実行することで実現される機能又は手段である。なお、このプログラムはWebブラウザが実行するWebアプリでもよいし、専用のネイティブアプリでもよい。
【0050】
通信部31は、情報処理システム10との間で各種の情報を送受信する。本実施形態では、通信部31は、Webアプリやアイマップ210等の画面情報を情報処理システム10から受信し、ユーザーの操作内容や指示を情報処理システム10に送信する。
【0051】
表示制御部32は、各種の画面の画面情報を解釈してディスプレイ506に表示させる。操作受付部33は、ディスプレイ506に表示された各種画面におけるユーザーの各種操作を受け付ける。
【0052】
<出現頻度の規格化>
以下、情報処理システム10が行うパターン分析の流れについて図を参照しながら詳細に説明する。また、以下では、情報処理システム10が、技術文献をデータとし、技術文献に含まれるキーワードの出現頻度の推移を分析する処理を一例として説明する。しかしながら、本実施形態のデータ分析方法は、年月日時分秒の少なくとも1つを有するデータ(時系列データ)であれば好適に適用できる。また、キーワードの出現頻度の推移に限らず、時系列な何らかの値であってもその推移の分析が可能である。
【0053】
図7は、出現頻度の推移の分析に使用されるキーワードを含むデータの一例を示す。データ取得部12は、ネットワーク上や端末装置30からデータとしてファイルを取得する。データ処理部13は、例えばユーザーが指定したファイルから、論文のタイトル(テキストデータ)と出版年を抽出し、必要に応じてタイトルに形態素解析を行う。
図7では、複数のキーワードで1つの意味をなす複合語が取得されているが、本実施形態では、単にキーワードという。単一のキーワードの出現頻度の推移も当然可能である。出現頻度算出部14は、このキーワードごとに出版年べつ(単位期間の一例)の出現頻度を算出する。
【0054】
図7では、一例として1989年から2020年まで、各キーワードの出現回数が論文の出版年ごとに示されている。
図7では、一年間の出現回数が算出されているが、1月ごと、1週ごと、1日ごと等、出現回数を算出する単位期間は任意でよい。また、複数年が1つの単位期間でもよい。また、分析対象のデータが有するキーワードに時刻、分、又は秒が対応付けられている場合、出現回数を算出する単位期間を時刻、分、又は秒とすることもできる。
【0055】
次に、
図8に示すように、出現頻度算出部14は
図7のデータを累積値に変換する。
図8は、
図7の出現回数が累積値に変換されたデータを示す。累積値なので出現回数が期間に対し減少することはない。累積値にすることで出現頻度の推移のパターンは期間に対しい減少しないので、パターン分析が容易になる。
【0056】
次に、
図9、
図10に示すように、規格化部15は、累積値と期間を、それぞれ最小値0、最大値1となるように規格化する。
図9は、
図8のデータの累積値と期間がそれぞれ規格化されたデータを示す。期間については、規格化部15は、例えば2020-1989=31年を0~1に割り当てる。累積値については、規格化部15は、各キーワードごとに該キーワードの累積値の最大値と最小値の差を0~1に割り当てる。
【0057】
図10は、規格化された期間をx軸、規格化された累積値をy軸としたあるキーワードの出現頻度の推移を示すグラフである。
図10では、データ点271が各出版年の累積値であり、各データ点271の近似曲線をグラフ272として示す。以下、各データ点271を結んだ折れ線グラフを「ワード出現頻度グラフ」という。なお、ワード出現頻度グラフはデータ点271の近似曲線でもよい。
【0058】
累積値を規格化するのは、キーワードの出現回数が異なってもキーワード間の比較を容易にするためである。累積値と期間を規格化することで、キーワード出現頻度グラフとx軸が形成する面積も規格化でき、この面積により出現頻度の推移をパターン分析できるようになる。
【0059】
<面積の算出>
次に、ワード出現頻度グラフのグラフ形状を定量的に扱う方法の1つとして、ワード出現頻度グラフとx軸が形成する面積について説明する。
【0060】
図11は、2つの異なるキーワードについて、ワード出現頻度グラフを示す。
図11(a)は「international scientific conference camstech」というキーワード(複合語)のワード出現頻度グラフであり、
図11(b)は「peek/carbon composite」というキーワード(複合語)のワード出現頻度グラフである。
【0061】
図11(a)のワード出現頻度グラフのグラフ形状は、キーワードの出現頻度が近年急激(ある期間の終期)に伸びている形状の一例である。
図11(b)は、早い時期(ある期間の始期)にキーワードの出現頻度が増加したが近年(ある期間の終期)はほとんど出現しないグラフ形状の一例である。2つのワード出現頻度グラフを比較すると、ワード出現頻度グラフがx軸と形成する面積が大きく違うことが分かる。したがって、面積算出部17がこの面積を算出することで、近年、急激に伸びている兆しを示すキーワードを抽出できる。
【0062】
面積の算出方法を説明する。面積算出部17は、ワード出現頻度グラフに対しいわゆる積分を行えばよい。ここでは台形近似による面積の求め方を説明する。台形近似による任意のデータ点とデータ点の間の面積は式(1)により算出される。Sは台形の面積、yは累積値、xは期間である。
【数1】
各台形の総和Iは式(2)により算出される。
【数2】
総和Iを書き直すと式(3)になる。
【数3】
y
0=0、y
n=1とすると、総和Iは式(4)で表すことができる。総和Iが、ワード出現頻度グラフがx軸と形成する面積A1である。
【数4】
<<二乗関数の面積について>>
図11にて説明したように、面積の大小で
図11(a)(b)のような出現頻度の推移の違いは判別できる。つまり、面積が極端に小さい又は大きい場合、ワード出現頻度グラフの形状のバリエーションは少なく面積A1で判別可能である。しかし、面積A1が同程度でも、ワード出現頻度グラフの形状が大きく異なる場合も存在する。
【0063】
図12は、面積A1が0.5のワード出現頻度グラフのいくつかのバリエーションを示す。
図12(a)~(e)のワード出現頻度グラフ221~225は形状が全て異なっているが、いずれも面積A1が0.5である。このように、面積A1が0.5に近い場合、面積A1だけでは、出現頻度の推移の違いを判別できない。
【0064】
そこで、本実施形態では、グラフ作成部16が、ワード出現頻度グラフの二乗(二乗関数という)をy軸の値とするグラフを作成する。
図12(f)~(j)は、
図12(a)~(e)のワード出現頻度グラフ221~225について二乗関数226~230を示す。面積算出部17は、二乗関数226~230がx軸と形成する面積(これは2nd momentとも呼ばれる)を算出する。以下、二乗関数がx軸と形成する面積を面積A2という。
【0065】
図12(f)~(j)の元のワード出現頻度グラフ221~225は、いずれも面積A1が0.5であるが、二乗関数の面積A2はそれぞれ異なっていることが分かる。すなわち、
図12(f)の面積A2(0.475)>
図12(g)の面積A2(0.428)>
図12(h)の面積A2(0.383)>
図12(i)の面積A2(0.333)>
図12(j)の面積A2(0.273)、の関係がある。
【0066】
したがって、二乗関数の面積A2を使用すれば、面積が0.5近くのワード出現頻度グラフ221~225であっても、キーワードの出現頻度の推移を判別できる。
【0067】
図13は、面積A1と面積A2によるワード出現頻度グラフの形状のパターン分析を説明する図である。
図13(a)は、面積A1が0.5のワード出現頻度グラフの面積A2をデータ点231~235で示す。面積A1が0.5のワード出現頻度グラフとして
図12(a)~(e)を使用した。データ点231はワード出現頻度グラフ221の面積A2であり、データ点232はワード出現頻度グラフ222の面積A2であり、データ点233はワード出現頻度グラフ223の面積A2であり、データ点234はワード出現頻度グラフ224の面積A2であり、データ点235はワード出現頻度グラフ225の面積A2である。任意のキーワードについて面積A2のデータ点がどのワード出現頻度グラフのデータ点(231~235)に近いかにより、ワード出現頻度グラフの形状がどのパターンに近いかを分析できる。
【0068】
図13(b)は、全ての面積A1について、面積A2が取り得る範囲240を示す。この範囲240は、面積A1が0.5の場合と同様に、面積A1の範囲(0~1)をいくつかに分割して、それぞれで面積A1になるいくつかのワード出現頻度グラフを用意することで求められる。例えば面積A1が0.1となるワード出現頻度グラフのバリエーションをいくつか用意し(
図12(a)に示すようなバリエーションで面積A1が0.1のもの)、各ワード出現頻度グラフの面積A2を算出すると、面積A1=0.1における面積A2の上下範囲が求められる。同じ処理を面積A1が0.2~1.0のそれぞれで行うと、範囲240が求められる。
【0069】
面積A2の計算にバリエーションとして用いたワード出現頻度グラフが既知なので、任意のキーワードの面積A2のデータ点が範囲240のどこにあるかで、任意のキーワードのワード出現頻度グラフの形状がどのパターンに近いかを分析できる。パターン判別部18はデータ点を範囲240に配置することでワード出現頻度グラフの形状を既存のパターンに対応付けられる。なお、範囲240の左下のデータ点は
図11(a)のグラフ形状に対応し、範囲240の右上のデータ点は
図11(b)のグラフ形状に対応する。
【0070】
図13のグラフ250について補足する。
図14は、面積A1が徐々に変化する複数のワード出現頻度グラフを示す。
図14のワード出現頻度グラフは各面積A1を示すグラフ形状のうち標準的なものである。
図13(a)(b)のグラフ250は、
図14の各ワード出現頻度グラフから算出された面積A1と面積A2の散布図である。
【0071】
<<アイマップ>>
図13のように面積A1と面積A2の散布図を作成してもパターン分析は可能であるが、縦軸の面積A2を変換すると、更に詳細なパターン分析が可能になる。まず、面積A2の変換方法を説明する。
【0072】
面積算出部17は、式(5)を用いて面積A2を面積B2に変換する。
【数5】
図15は、面積A1に対する面積B2の散布図を示す。
図15ではアイマップ210が
図13(b)の範囲240に対応する。面積A1に対する面積B2の全てのデータ点はアイマップ210に含まれる。その形状から
図15の散布図をアイマップ210という。アイマップ210は範囲240に対応するので、アイマップ210は、
図13(b)の範囲240を上下左右対称に拡大したものになり、詳細なパターン分析が可能になる。
【0073】
図15にはいくつかのワード出現頻度グラフのデータ点が示されている。
データ点211はワード出現頻度グラフ221に対応する。
データ点216はワード出現頻度グラフ222に対応する。
データ点218はワード出現頻度グラフ224に対応する。
データ点219はワード出現頻度グラフ253に対応する。
データ点213はワード出現頻度グラフ225に対応する。
データ点212はワード出現頻度グラフ251に対応する。
データ点217はワード出現頻度グラフ252に対応する。
データ点220はワード出現頻度グラフ254に対応する。
データ点214はワード出現頻度グラフ255に対応する。
【0074】
したがって、データ点の位置(アイマップ210内の座標)によりキーワードの出現頻度の推移をパターンに当てはめることができる。パターン判別部18はデータ点をアイマップ210に配置することでワード出現頻度グラフの形状を既存のパターンに対応付けられる。例えばデータ点の位置によって以下のようなパターン分析が可能である。左端のデータ点212のキーワードは、「近年(ある期間の終期)急激に増加しているキーワード」、右端のデータ点214のキーワードは「昔(ある期間の始期)増加したがほとんど流行らなかったキーワード」、上端のデータ点211のキーワードは「途中(ある期間の中央付近)急激に出現回数が増加したが今は廃れているキーワード」、下端のデータ点213のキーワードは「昔(ある期間の始期)からあるが一度廃れ、再度、近年(ある期間の終期)注目されはじめているキーワード」であることを示す。
【0075】
この他、データ点の位置とワード出現頻度グラフの形状の対応は既知であるので、任意のキーワードのデータ点がアイマップ210のどこにあるかで、任意のキーワードのワード出現頻度グラフの形状がどのパターンに近いかを分析できる。また、あまり馴染みがないキーワード(技術テーマ)においても、出現頻度のおおまかな推移を把握することができる。
【0076】
図16は、出現回数が一定以上のキーワードについて算出された面積A1と面積B2をアイマップ210上に示す。
図16は、CFRP(Carbon Fiber Reinforced Plastics)という技術分野の複数の論文から抽出されたキーワードの分析結果を示す。なお、出現回数が少ないキーワードについては非表示になっている。
図16(a)はアイマップ210を示し、1つのデータ点が1つのキーワードを表す。ユーザーは各キーワードの出現頻度の推移にどのような傾向があるかを把握できる。
図16(b)は、各キーワードの出現回数(最終的な出現回数の累積値)をアイマップ210上に棒グラフで示したものである。こうすることで、ユーザーは出現頻度が大きいキーワード及び小さいキーワードについて、出現頻度の推移がどのパターンに近いかを把握できる。
【0077】
また、ユーザーが任意のデータ点をマウスカーソル等でクリックすると、データ点に対応するキーワード261、出現回数262、及び、初出現年度263などが表示される。ユーザーはデータ点が表すキーワード、出現回数、及び、初出現年度を確認できる。
【0078】
<処理又は動作>
図17は、データ処理システム100がキーワードの出現頻度の推移をパターン分析する処理を説明するシーケンス図である。
【0079】
S1:ユーザーは端末装置30を情報処理システム10に接続させ、端末装置30にWebアプリを実行させる。端末装置30が実行するWebアプリに対し、ユーザーはデータを指定して、データが含むキーワードについて出現頻度の推移の分析開始を指示する。
【0080】
S2:端末装置30の操作受付部33が指示を受け付け、通信部31がデータの指定と分析要求を情報処理システム10に送信する。通信部31がデータそのものを送信してもよい。
【0081】
S3:情報処理システム10の通信部11は分析要求を受信し、データ取得部12が分析対象のデータを取得する。データ取得部12はデータそのものを端末装置30から受信してもよいし、ネットワーク上から取得してもよい。
【0082】
S4:次に、データ処理部13はデータを形態素解析し、出現頻度算出部14がキーワードごとに単位期間べつの出現頻度を算出する。データ形式によっては、形態素解析は不要でよい。
【0083】
S5:次に、規格化部15は、期間と出現頻度の累積値とを、それぞれ0~1に正規化する。
【0084】
S6:次に、グラフ作成部16は、期間に対する出現頻度の累積値をグラフ化(ワード出現頻度グラフを作成)する。
【0085】
S7:同様に、グラフ作成部16は、ワード出現頻度グラフの二乗関数を作成する。
【0086】
S8:面積算出部17は、ワード出現頻度グラフがx軸との間に形成する面積A1、及び、二乗関数がx軸との間に形成する面積A2をそれぞれ算出する。
【0087】
S9:面積算出部17は、面積A2を面積B2に変換する。
図13にて説明したように、面積A2のままパターン分析する場合、ステップS9の処理は不要である。
【0088】
S10:パターン判別部18は、面積A1に対応する面積B2のデータ点を散布図に配置する(アイマップ210を作成)。面積A2のまま分析する場合、パターン判別部18は、面積A1に対応する面積A2のデータ点を散布図に配置する。
【0089】
S11:情報処理システム10の画面生成部19は、アイマップ210を表示する画面を作成し、通信部11がこの画面情報を端末装置30に送信する。
【0090】
S12:端末装置30の通信部31は画面情報を受信し、表示制御部32がアイマップ210を含む画面をディスプレイ506に表示する。
【0091】
<アイマップによるパターン分析の検証>
次に、
図18,
図19に基づいて、アイマップ210によるパターン分析の検証例を説明する。ここでは、面積A1が小さいキーワードが、最近話題になっている又は今後話題になりそうなキーワードであるかの検証例を説明する。つまり、本実施形態の分析方法が、最近注目されている又は今後注目されそうな技術の兆しを捉えているかを検証する。
【0092】
図18は、総出現回数が10以上のキーワードについて、面積A1が小さい順に上位100個のキーワードの初出現年度、総出現回数、面積A1、面積A2を示す。技術分野はCFRPである。この100個のキーワードは、面積A1が小さいので、最近話題になっている又は今後話題になりそうなキーワードであることが推測される。また、情報処理システム10は同様の分析を量子コンピュータという技術分野でも行った。
【0093】
図19は、上位100個のキーワード中の兆しキーワードの抽出率を示す。
図19では、100個のキーワードの内、何個が最近話題になっている又は今後話題になりそうなキーワードであるかの個数と割合を示す。割合が抽出率である。
図19(a)はCFRPを技術分野とする論文において最近話題になっている又は今後話題になりそうなキーワードの抽出率を示す。
図19(b)は量子コンピュータを技術分野とする論文において最近話題になっている又は今後話題になりそうなキーワードの抽出率を示す。各キーワードが、最近話題になっている又は今後話題になりそうなキーワードであるかは各分野の専門家が判断した。
図19では、最近話題になっているキーワードを「兆し(トレンド)」、今後話題になりそうなキーワードを「兆し(フューチャー)」とした。
【0094】
図19(a)(b)に示すように、CFRPと量子コンピュータのいずれも、本実施形態のデータ分析方法で抽出した上位100キーワードのうち、兆しキーワードの割合(抽出率)が60%を超えており、面積A1により、有望領域を探索する上で有用なキーワードを抽出できたことが分かる。なお、
図19では、総出現回数が10以上を閾値としたが、最適な条件は適宜設定されてよい。
【0095】
<論文以外のデータ分析例>
本実施形態のデータ分析方法は、年月日時分秒の1つ以上が対応づけられた値を含む時系列データであれば好適に適用できる。以下では、その一例として、ユーザーの暗号資産(金融商品の一例)の取引データからユーザーの所属地(国や地域)を推定する方法を説明する。なお、金融商品としては、株式、投資信託、債券、商品先物、FX(Foreign Exchange)などでもよい。
【0096】
図20(a)は、ユーザーの一日の取引の毎分ごとの取引回数の平均値(例えば1時間ごと)を示す。x軸が基準時(世界時間(UTS))、y軸が1分ごとの取引回数の平均である。
図20(a)では、日本で朝九時から午後5時まであるユーザーが一定回数の取引をした場合を想定する。
【0097】
図20(b)は、x軸を規格化し、取引回数の平均値を累積値にしたグラフ(上記のワード出現頻度グラフに相当)である。
図20(b)の取引データの面積A1は0.733333、面積B2は0.0207407であった。
【0098】
図21(a)(b)は
図20(a)(b)と同じ取引データについて、x軸の基準時を米国東部標準時(EST)で表したものである。
図21(b)の取引データの面積A1は0.28、面積B2は0.0415407であった。
【0099】
図20(b)と
図21(b)のグラフを比較するとその形状が異なるが、形状の違いは面積A1と面積B2に現れている。したがって、キーワードの出現頻度と同様に、取引データに対応するデータ点がアイマップ210のどこにあるかでユーザーの所属地を推定できる。
【0100】
<機械学習を使用したパターン分析>
本実施形態では、情報処理システム10が、ワード出現頻度グラフの面積A1に対する面積A2又はB2の散布図を作成することで、パターン分析を行ったが、機械学習を使用してパターン分析してもよい。
【0101】
機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、更に、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。機械学習の手法には、パーセプトロン、ディープラーニング、サポートベクターマシン、ロジスティック回帰、ナイーブベイズ、決定木、ランダムフォレストなどがあり、本実施形態で説明する手法には限られない。
【0102】
例えば、ディープラーニングは、入力されたデータABCに基づいてXYZを予測した後に、教師データとの誤差を減らすために誤差逆伝播法でニューラルネットワーク間の重みを調整するアルゴリズムである。より具体的には、ワード出現頻度グラフ(座標)を入力、アイマップ210をいくつかに区分した領域の識別情報を正解データの組とするトレーニングデータを管理者が用意し、機械学習部が、ワード出現頻度グラフと領域の識別情報の対応を学習する。
【0103】
ブースティング決定木は、決定木など複数の弱識別機を独立に学習させ、複数の弱識別機による予測結果を、多数決などを用いて統合し、全体(強識別機)の予測結果として出力するアルゴリズムである。この場合、機械学習部は、同様のトレーニングデータを用いて、ワード出現頻度グラフ(座標)を、領域の識別情報に分類する複数の異なる決定木を作成し、これらの多数決で最終的な領域の識別情報を出力する。
【0104】
図22は、機械学習を使用したパターン分析装置320の機能ブロック図である。
図22に示されるように、パターン分析装置320は、ワード出現頻度グラフ取得部321、教師データ格納部322、機械学習部323、学習済みモデル格納部324、及び、推論部325を備えることができる。以下、それぞれについて説明する。ワード出現頻度グラフ取得部321は、グラフ作成部16が作成したワード出現頻度グラフを取得する。
【0105】
<学習フェーズ>
教師データ格納部322には、機械学習のための教師データが格納されている。教師データ格納部322内の教師データは、ワード出現頻度グラフ取得部321が一定期間取得して蓄積した、ワード出現頻度グラフの座標(入力)と、アイマップ210内の領域の識別情報(出力)である。
【0106】
機械学習部323は、受信したワード出現頻度グラフの座標から、出力する領域の識別情報を導出するための学習済みモデルを生成する。具体的には、機械学習部323は、受信したワード出現頻度グラフの座標を入力データとし、そのワード出現頻度グラフが分類されるべき正しい領域の識別情報を出力データとした教師データを用いて機械学習を行い、学習済みモデルを生成する。また、機械学習部323は、生成した学習済みモデルを学習済みモデル格納部324に格納する。学習済みモデル格納部324には、機械学習部323が生成した学習済みモデルが格納されている。
【0107】
<推論フェーズ>
推論部325は、現在のワード出現頻度グラフの座標を取得して、アイマップ210においてキーワードが配置される領域の識別情報を推論する。具体的には、推論部325は、ワード出現頻度グラフ取得部321から、ワード出現頻度グラフの座標を取得する。また、推論部325は、学習済みモデル格納部324内の学習済みモデルにワード出現頻度グラフの座標を入力して、アイマップ210においてキーワードが配置される領域の識別情報を出力させる。
【0108】
<主な効果>
以上説明したように、本実施形態のデータ処理システムは、時系列データを規格化してx軸との面積A1と二乗関数の面積A2又はB2を算出し、面積A1に対する面積A2又はB2の散布図を作成することで、時系列データがどのように推移したかをパターン分析できる。例えば特定の技術分野においてどのような技術が話題になっているか、今後話題になりそうかの兆しを抽出でき、早期に事業化できる可能性が高まる。
【0109】
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0110】
例えば、本実施形態では、データに含まれるキーワードについて出現頻度の推移をパターン分析したが、ユーザーが指定したキーワードについて出現頻度の推移をパターン分析してもよい。この場合、情報処理システム10は1つキーワードについてのみパターン分析すればよい。
【0111】
また、キーワードはテキスト化されていなくてもよい。情報処理システム10は例えば各種の会議で録音された音声データを音声認識して、含まれるキーワードについて出現頻度の推移をパターン分析してもよい。ユーザーは、各種開催される会議で、どのような話題がどのようなパターンで推移したかを解析できる。また、情報処理システム10は、コールセンターにかかってくる会話の音声データを音声認識して、含まれるキーワードについて出現頻度の推移をパターン分析してもよい。ユーザーは、どのようなキーワードについて問い合わせが多いかを分析して、システムやサービスを改良することができる。
【0112】
また、情報処理システム10がスクレイピングする例としてSNSへの投稿内容があり、投稿内容からキーワードを抽出してよい。情報処理システム10は、現在、話題になっているキーワードを特定できる。
【0113】
また、本実施形態では、出現頻度の累積値を求めたので、ワード出現頻度グラフが期間に対し減少することはなかったが、ワード出現頻度グラフを180°回転させてパターン分析してもよい。
【0114】
また、本実施形態では、グラフ作成部16がワード出現頻度グラフ等を作成したが、本実施形態で作成されるグラフは視覚化されることまでは必要ない。すなわち、本実施形態で示したグラフは説明のためのものであり、面積A1、A2、B2を算出できれば、表示されなくてもよい。ただし、ワード出現頻度グラフ等がアイマップ210と共に表示されることで、ユーザーはワード出現頻度グラフの形状を目視で確認できる。
【0115】
また、本実施形態では、分析対象の一例として、技術分野の論文のタイトルに含まれるキーワードの出現頻度の推移をパターン分析したり、暗号資産の取引回数の推移をパターン分析したりしたが分析対象はこれらに限られない。例えば論文は技術分野でなく、医学、薬学、思想、芸術、文学、言語、歴史、地理、文化人類、法学、政治、経済、社会、教育、心理、数学、物理、天文学、化学、エネルギー、生化学、農芸化学、土木、スポーツなど論文の形式であればよい。
【0116】
また、キーワードが含まれていればデータは論文に限られない。データは、書籍、雑誌、議事録、日報、経理書類などでもよい。また、キーワードは、人名、地名、企業名等の固有名詞でもよい。
【0117】
また、データは画像データでもよい。この場合、認識装置が画像データに写っている被写体をキーワードに変換する。例えば、情報処理システム10が画像データに光学的文字認識処理を行うことでキーワードを抽出する。あるいは、情報処理システム10が画像データから歩行者や車両の数を認識し、これらの数と撮影日時とを抽出してもよい。情報処理システム10は所定の時間ない歩行者や車両の数がどのように推移するかをパターン分析できる。歩行者や車両の数に限らず、時間と共に変化する被写体の数について、情報処理システム10は同様に分析可能である。
【0118】
また、
図6などの構成例は、端末装置30、及び情報処理システム10による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。端末装置30、及び情報処理システム10の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
【0119】
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理システム10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
【0120】
更に、情報処理システム10は、本実施形態で開示された処理ステップ、例えば
図17等を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、情報処理システム10が有する複数の情報処理装置によって実行され得る。また、情報処理システム10は、1つのサーバー装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0121】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等のデバイスを含むものとする。
【符号の説明】
【0122】
10 情報処理システム
30 端末装置
100 データ処理システム
【先行技術文献】
【特許文献】
【0123】