IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社大和総研の特許一覧

特開2024-66852系列データ可視化システムおよびプログラム
<>
  • 特開-系列データ可視化システムおよびプログラム 図1
  • 特開-系列データ可視化システムおよびプログラム 図2
  • 特開-系列データ可視化システムおよびプログラム 図3
  • 特開-系列データ可視化システムおよびプログラム 図4
  • 特開-系列データ可視化システムおよびプログラム 図5
  • 特開-系列データ可視化システムおよびプログラム 図6
  • 特開-系列データ可視化システムおよびプログラム 図7
  • 特開-系列データ可視化システムおよびプログラム 図8
  • 特開-系列データ可視化システムおよびプログラム 図9
  • 特開-系列データ可視化システムおよびプログラム 図10
  • 特開-系列データ可視化システムおよびプログラム 図11
  • 特開-系列データ可視化システムおよびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024066852
(43)【公開日】2024-05-16
(54)【発明の名称】系列データ可視化システムおよびプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240509BHJP
   G06F 16/26 20190101ALI20240509BHJP
【FI】
G06F16/35
G06F16/26
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022176600
(22)【出願日】2022-11-02
(71)【出願人】
【識別番号】596108508
【氏名又は名称】株式会社大和総研
(74)【代理人】
【識別番号】100114638
【弁理士】
【氏名又は名称】中野 寛也
(72)【発明者】
【氏名】原 悟
(72)【発明者】
【氏名】加藤 惇雄
(72)【発明者】
【氏名】原田 辰彦
(72)【発明者】
【氏名】參木 裕之
(72)【発明者】
【氏名】各務 公将
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
【課題】可変長カテゴリ系列データについてカテゴリの内容を加味した適切なクラスタリングを実現できるとともに、クラスタリング結果についての視認性を向上させることができ、一画面で膨大な情報を俯瞰することができる系列データ可視化システムを提供する。
【解決手段】系列データ可視化システム10では、ベクトル化手段21により、複数の可変長カテゴリ系列データの各々をベクトルに変換し、系列間類似度算出手段22により、ベクトル化処理後のデータを用いて系列間類似度を算出し、クラスタリング手段23により、系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成し、出力手段24により、デンドログラムと複数の可変長カテゴリ系列データとを対応させて表示または印刷する。
【選択図】図1
【特許請求の範囲】
【請求項1】
可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムであって、
系列データ記憶手段に記憶されている複数の前記可変長カテゴリ系列データの各々を数値で構成されるベクトルに変換するベクトル化処理を実行するベクトル化手段と、
このベクトル化手段により得られた複数の前記可変長カテゴリ系列データの各々についてのベクトル化処理後のデータを用いて、前記可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行する系列間類似度算出手段と、
この系列間類似度算出手段により得られた前記系列間類似度を用いて複数の前記可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する処理を実行するクラスタリング手段と、
このクラスタリング手段によるクラスタリング対象とされた複数の前記可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、前記クラスタリング手段により作成した前記デンドログラムの最下層側の端部と、複数の前記可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行する出力手段と
を備えたことを特徴とする系列データ可視化システム。
【請求項2】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々について、前記可変長カテゴリ系列データを構成するカテゴリの各々を前記ベクトルに変換してカテゴリベクトルの系列を作成するカテゴリ単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記カテゴリベクトルの系列に含まれる前記カテゴリベクトルの各々を用いて、動的時間伸縮法により、前記カテゴリベクトル間の類似度を算出しながら、前記系列間類似度を算出する処理を実行する構成とされている
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項3】
前記ベクトル化手段による前記カテゴリ単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、この単語ベクトルを前記カテゴリベクトルとして用いて、前記可変長カテゴリ系列データを構成するカテゴリの各々を、対応する単語ベクトルに置き換えることにより、前記カテゴリベクトルの系列を作成する処理である
ことを特徴とする請求項2に記載の系列データ可視化システム。
【請求項4】
可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムであって、
系列データ記憶手段に記憶されている複数の前記可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、各カテゴリ間の類似度を、求めた各単語ベクトル間の類似度として算出するか、または、ユーザによる各カテゴリ間の類似度の設定入力を受け付ける処理を実行するカテゴリ間類似度設定手段と、
このカテゴリ間類似度設定手段により設定した各カテゴリ間の類似度を用いて、動的時間伸縮法のアルゴリズムにより、前記可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行する系列間類似度算出手段と、
この系列間類似度算出手段により得られた前記系列間類似度を用いて複数の前記可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する処理を実行するクラスタリング手段と、
このクラスタリング手段によるクラスタリング対象とされた複数の前記可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、前記クラスタリング手段により作成した前記デンドログラムの最下層側の端部と、複数の前記可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行する出力手段と
を備えたことを特徴とする系列データ可視化システム。
【請求項5】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々を系列全体として一体的に前記ベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記系列間類似度として、前記ベクトル化手段による前記系列単位ベクトル化処理で得られた系列全体を示す前記ベクトル間の類似度を算出する処理を実行する構成とされ、
前記ベクトル化手段による前記系列単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を文書とみなし、これらの複数の前記可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、Doc2Vecまたはその他の文書の分散表現を取得する方法により、文書ベクトルを求め、複数の前記可変長カテゴリ系列データの各々を、求めた各文書ベクトルに置き換える処理である
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項6】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々を系列全体として一体的に前記ベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記系列間類似度として、前記ベクトル化手段による前記系列単位ベクトル化処理で得られた系列全体を示す前記ベクトル間の類似度を算出する処理を実行する構成とされ、
前記ベクトル化手段による前記系列単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を文書とみなし、これらの複数の前記可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、文書中の各単語の重要度を示す単語重要度ベクトルを求めるか、または、文書中の各単語の出現回数若しくは出現頻度を示す単語出現回数ベクトル若しくは単語出現頻度ベクトルを求め、複数の前記可変長カテゴリ系列データの各々を、求めた各単語重要度ベクトルまたは各単語出現回数ベクトル若しくは各単語出現頻度ベクトルに置き換える処理である
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項7】
前記出力手段は、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
複数種類のカテゴリの中からユーザにより選択された指定カテゴリ、並びに、系列においてこの指定カテゴリよりも並び順の前方および/または後方に配置されたユーザの指定個数若しくは予め定められた個数のカテゴリの各データを、これらのカテゴリの並び順を保持した状態で、画面表示若しくは印刷する指定カテゴリ前後出力処理とを、
切り替えて実行するか、または同時に実行する構成とされている
ことを特徴とする請求項1または4に記載の系列データ可視化システム。
【請求項8】
前記系列データ記憶手段には、
複数の前記可変長カテゴリ系列データの各々を構成する各カテゴリのデータと、これらのデータの発生時期とが関連付けられて記憶され、
前記出力手段は、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、これらのデータに対応する前記発生時期を用いて、絶対的な時間軸上および/または先頭のデータの前記発生時期からの相対的な時間軸上で画面表示若しくは印刷する時間軸出力処理とを、
切り替えて実行するか、または同時に実行する構成とされている
ことを特徴とする請求項1または4に記載の系列データ可視化システム。
【請求項9】
請求項1または4に記載の系列データ可視化システムとして、コンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムおよびプログラムに係り、例えば、システムエラーメッセージログ、システム操作ログ、顧客の行動ログ、営業員の行動ログ、顧客の購買履歴、システムへのアクセスログ、Webの閲覧ログ等を構成する各種のラベルをカテゴリとし、これらのカテゴリを並べて形成された可変長カテゴリ系列データを可視化する場合に利用できる。
【背景技術】
【0002】
通常、クラスタリングでは、ある基準に基づいてデータ間の類似度(若しくは非類似度)を計算し、データをクラスタにまとめる。数値データを並べて形成された系列データについても、系列データ間の類似度を算出することによって、既存のクラスタリング手法(例えば、ウォード(Ward)法、k-means(k平均法)等)を適用し、系列をクラスタに分類することが可能である。なお、本願では、「系列データ(並べられたデータ、すなわちデータの並び順に情報としての価値があるデータ群)」を、単に「系列」と呼ぶことがある。
【0003】
また、固定長系列データ(系列を構成するデータの個数が変動しない場合)であれば、系列における各点の対応付け(ある固定長系列データを構成する各データと、別の固定長系列データを構成する各データとの対応付け)が明確であるため、対応付けられた点どうし(データどうし)の類似度を基に系列全体の類似度を算出することができる。しかし、可変長系列データ(系列を構成するデータの個数が変動する場合)では、系列における各点の対応付けが不明確であるため、動的時間伸縮法(DTW:Dynamic Time Warping)という手法を用いて各点の対応付けを行い、系列間類似度(系列全体どうしの類似度)を算出する。
【0004】
以上は、主として数値データやそれを並べて形成された系列データについて述べている。しかし、データには、数値データ(量的データのことであり、以下、単に「数値」と呼ぶことがある。)だけではなく、カテゴリデータ(質的データのことであり、以下、単に「カテゴリ」と呼ぶことがある。)もある。従って、系列データには、カテゴリデータを並べて形成された系列データ、すなわちカテゴリ系列データもある。
【0005】
このようなカテゴリ系列データをクラスタリングした例としては、TF-IDF特徴量のクラスタリングを行った運転支援装置が知られている(特許文献1参照)。なお、TF-IDFは、文書内の単語の重要度(重み)を示す手法の1つであり、TFは、単語の出現頻度(Term Frequency)、IDFは、逆文書頻度(Inverse Document Frequency)である。この運転支援装置では、ドライバーの運転操作およびその運転操作の結果として表れる車両挙動が反映されたデータ等の運転行動データについて記号化し、運転記号として付与する。そして、蓄積された運転記号列、すなわち記号化された運転行動データに基づき、ドライバー毎のTF-IDF特徴量を算出し、特徴量の類似度として、例えば、ベクトルで表された各TF-IDF特徴量間のコサイン類似度を算出し、その後、TF-IDF特徴量のクラスタリングを実行する。
【0006】
ところで、クラスタリングの結果として得られたクラスタ情報は、階層クラスタリングであれば、デンドログラム(樹形図)として出力(画面表示または印刷)される。この出力では、通常、デンドログラムの最下層の端部に、クラスタリングの対象とされた個々のデータ(本願では、個票データと呼ぶことがある。)の識別情報(例えば、X,Y,Z等の記号や、名称など)が示される。
【0007】
また、クラスタ情報であるデンドログラム(樹形図)と、各個票データ(識別情報ではなく、個票データ自体という意味。)とを対応させて表示する例も存在する。例えば、デンドログラムと、各ベクトルデータ(4次元のデータ)とを対応させて表示するクラスタリングシステムが知られている(特許文献2参照)。
【0008】
さらに、特殊な表示例としては、クラスタ情報であるデンドログラム(樹形図)と、白黒の濃淡で示されたDEGs度数行列の値(値の大小を色(白黒の濃淡)で俯瞰している。)とを対応させて表示する情報処理装置が知られている(特許文献3参照)。なお、デンドログラムと対応しているのは、カメラ、マイク、または各種センサ等から取り込まれた時系列データ(画像データ、音声データ、またはセンサデータ等)そのものではない。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2017-71333号公報(段落[0014]~[0017]、[0022]~[0025]、図2
【特許文献2】特開2006-163894号公報(段落[0013]、[0015]、図4図6図8
【特許文献3】特開2014-229142号公報(段落[0010]、[0011]、[0024]、図8
【発明の概要】
【発明が解決しようとする課題】
【0010】
前述したように、可変長系列データのクラスタリングでは、動的時間伸縮法(DTW)のアルゴリズムにより、系列における各点の対応付けを行い、系列間類似度(系列全体どうしの類似度)を算出する。しかし、可変長系列データであっても、数値データを並べて形成された可変長系列データの場合には、通常の方法で動的時間伸縮法(DTW)を適用すればよいが、カテゴリデータを並べて形成された可変長カテゴリ系列データの場合には、系列間類似度の算出に動的時間伸縮法(DTW)を適用する際に、以下のような問題が生じる。
【0011】
すなわち、第1の問題点として、系列の各要素(系列を構成する各データ)が、数値データではなく、カテゴリデータであることによって生じる問題がある。カテゴリ単体どうしの類似度を算出する場合には、それらのカテゴリどうしが同じものであるか否かの情報しか取得することができない。つまり、カテゴリデータ(質的データ)は、数値データとは異なり、ラベルなので、そのラベルの内容に該当するか否かの判断しか行うことができない。このため、カテゴリが連なった系列どうしの類似度を動的時間伸縮法(DTW)によって算出する場合には、どのくらい同じカテゴリがあるかが類似性として表現されるだけなので、「似ている」行動をしているといった情報が欠落してしまう問題がある。
【0012】
また、第2の問題点として、一方の系列にしか存在しない要素による影響がある。動的時間伸縮法(DTW)では、比較する2つの系列の要素すべて(系列を構成する全データ)の対応付けを試行するため、一方にしか存在しない要素が存在する場合、結果全体の対応付けに誤りが発生し、正確な類似度を求めることができない場合がある。但し、上記の第1の問題点で述べたように、カテゴリどうしが同じものであるか否かの情報しか取得することができないので、そのような情報の取得形態が適切であると考えれば、対応付けに誤りが発生したわけではなく、取得できた情報の範疇で、正確な対応付けを行っていることになる。従って、ここで正確な類似度を求めることができない場合があると言っているのは、次のように考えた場合である。カテゴリデータ(質的データ)が2種類しかなければ(例えば、カテゴリA,Bだけしかなければ)、データの比較は、AとB、AとA、BとBしかないので、同じでものであるか否かの情報を取得すればよいことになるが、3種類以上ある場合には、通常、各カテゴリデータの内容は、似ていない、やや似ている、非常に似ている等の程度(類似の度合い)が存在する。従って、例えば、カテゴリA,B,Cがある場合には、本来、Cは、BよりもAに似ているのに、CとBとの比較判断結果、CとAとの比較判断結果に区別が無くなってしまい(つまり、いずれも、カテゴリが同じではないという比較判断結果になってしまい)、Cが、似ているほうのAではなく、似ていないほうのBに対応付けられてしまうという問題が生じる。この状況は、同じでものであるか否かの情報の取得形態が適切であると考えれば、正確な対応付けであると言えるが、カテゴリの内容からすれば、本来的には、対応付けに誤りが発生している状況に等しいので、改善する必要がある。
【0013】
具体的には、図12の左側の表90に示すように、ABAという系列(Cがない系列)と、ABBCAという系列との系列間類似度(系列全体どうしの類似度)を算出する場合に、DTWのアルゴリズムでは、黒丸91の対応付けとなる。本来的には、Cは、BよりもAに似ているので、白丸92の対応付けとなるべきであっても、DTWのアルゴリズムにより、同じでものであるか否かの情報の取得しかしていなければ、CとBとの比較判断結果、CとAとの比較判断結果に区別が無いので、黒丸91の対応付けとなってしまう。これが、上述した第2の問題点である。
【0014】
一方、図12の右側の表93に示すように、ABCAという系列と、ABBCAという系列との系列間類似度(系列全体どうしの類似度)を算出する場合には、一方の系列にしか存在しない要素はないので、DTWのアルゴリズムでは、黒丸94の対応付けとなる。つまり、双方の系列にCがあるので、CとCの対応付けとなる。従って、前述した第2の問題点は生じないが、前述した第1の問題点は生じている。
【0015】
さらに、以上のようなカテゴリ系列についての系列間類似度(系列全体どうしの類似度)の算出に動的時間伸縮法(DTW)を適用する場合に生じる問題とは直接関係ないが、一般的に、クラスタリングの結果をユーザに効果的に伝達することが困難であるという問題がある。前述したように、階層クラスタリングの結果は、デンドログラムで示されるが、通常、デンドログラムの最下層の端部に、クラスタリングの対象とされた各個票データの識別情報(例えば、X,Y,Z等の記号や、名称など)が示される。しかし、そのような出力(画面表示または印刷)では、システムのユーザは、クラスタリングの結果としてのクラスタ情報は得られるが、各識別情報に対応する個票データの内容を鮮明に記憶していない限りは、そのような出力を見ただけでは、短時間で有用な情報を得ることは困難である。
【0016】
また、前述した特許文献2に記載されたクラスタリングシステムでは、デンドログラムに対応させて、各個票データとして、ベクトルデータを表示しているが(特許文献2の段落[0015]参照)、このベクトルデータの表示は、固定長の4次元のデータ(特許文献2の段落[0013]参照)を折れ線で図示したものであるから(特許文献2の図4図6図8参照)、ユーザが見て取れる情報量はそれ程多くはなく、識別情報(各個票データの名称等)と同程度の情報量であるともいえる。従って、情報の可視化が行われているものの、一画面で膨大な情報を俯瞰することができるわけではない。
【0017】
本発明の目的は、可変長カテゴリ系列データについてカテゴリの内容を加味した適切なクラスタリングを実現できるとともに、出力されたクラスタリング結果についての視認性を向上させることができ、一画面で膨大な情報を俯瞰することができる系列データ可視化システムおよびプログラムを提供するところにある。
【課題を解決するための手段】
【0018】
<基本構成>
【0019】
本発明は、可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムであって、
系列データ記憶手段に記憶されている複数の可変長カテゴリ系列データの各々を数値で構成されるベクトルに変換するベクトル化処理を実行するベクトル化手段と、
このベクトル化手段により得られた複数の可変長カテゴリ系列データの各々についてのベクトル化処理後のデータを用いて、可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行する系列間類似度算出手段と、
この系列間類似度算出手段により得られた系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する処理を実行するクラスタリング手段と、
このクラスタリング手段によるクラスタリング対象とされた複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、クラスタリング手段により作成したデンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行する出力手段と
を備えたことを特徴とするものである。
【0020】
このような本発明の系列データ可視化システムにおいては、ベクトル化手段により、複数の可変長カテゴリ系列データの各々をベクトルに変換し、系列間類似度算出手段により、ベクトル化処理後のデータを用いて系列間類似度(系列全体どうしの類似度)を算出し、クラスタリング手段により、系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する。このため、可変長カテゴリ系列データについて、カテゴリの内容を加味した系列間類似度を算出することができるようになり、適切なクラスタリングを実現することが可能となる。
【0021】
また、出力手段により、複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、デンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷するので、出力されたクラスタリング結果についての視認性を向上させることができ、ユーザは、一画面で膨大な情報を俯瞰することが可能となる。このため、ユーザによるデータへの理解が深まる。
【0022】
さらに、ユーザは、デンドログラムに対応させて配置された複数の可変長カテゴリ系列データを見ることで、グループ別に、特徴的なパターンを抽出することが可能となる。このため、ユーザは、抽出した特徴的なパターンを使って様々な分析を行い、予測を立て、業務の遂行、計画、情報提供、推薦、選択、各種の処理の実行等に役立てることができ、これらにより前記目的が達成される。
【0023】
なお、前述した特許文献1に記載された運転支援装置では、TF-IDF特徴量のクラスタリングを行っているが、デンドログラムと各個票データとを対応付けた表示は行っていない。
【0024】
また、前述した特許文献2に記載されたクラスタリングシステムでは、デンドログラムと各個票データとを対応付けて表示しているが(特許文献2の図4図6図8参照)、この図4の402は、ベクトルデータであり(特許文献2の段落[0015]参照)、4次元のデータである(特許文献2の段落[0013]参照)。従って、本願のようなカテゴリデータではなく、また、可変長のデータでもない。
【0025】
さらに、前述した特許文献3に記載された情報処理装置では、カメラ、マイク、または各種センサ等から、画像データ、音声データ、またはセンサデータ等の時系列データを取り込んでいる(特許文献3の段落[0010]、[0011]参照)。そして、デンドログラムと、白黒の濃淡で示されたDEGs度数行列の値とを対応させて表示しているが(特許文献3の図8、段落[0024]参照)、この図8の横軸が、時系列データそのものになっているわけではない。従って、可視化という観点では、値の大小を色(白黒の濃淡)で俯瞰しているということと、可変長のカテゴリ系列について各カテゴリの並び順を俯瞰しているわけではないことから、本願とは異なる。
【0026】
<カテゴリの単位でベクトル化処理を実行し、動的時間伸縮法(DTW)により、カテゴリベクトル間の類似度を算出しながら、系列間類似度を算出する構成>
【0027】
また、前述した系列データ可視化システム(基本構成)において、
ベクトル化手段は、
複数の可変長カテゴリ系列データの各々について、可変長カテゴリ系列データを構成するカテゴリの各々をベクトルに変換してカテゴリベクトルの系列を作成するカテゴリ単位ベクトル化処理を実行する構成とされ、
系列間類似度算出手段は、
カテゴリベクトルの系列に含まれるカテゴリベクトルの各々を用いて、動的時間伸縮法により、カテゴリベクトル間の類似度を算出しながら、系列間類似度を算出する処理を実行する構成とされていることが望ましい。
【0028】
このようにカテゴリ単位ベクトル化処理を実行し、動的時間伸縮法(DTW)により、カテゴリベクトル間の類似度を算出しながら、系列間類似度(系列全体としての類似度)を算出する構成とした場合には、系列間類似度を算出するにあたり、可変長の系列データを対象とすることができるDTWを用い、その際に、比較する2つの系列を構成する各カテゴリが、同じでものであるか否かを判断するのではなく、カテゴリの内容を加味してカテゴリ間(カテゴリベクトル間)の類似度を算出して2つの系列の要素間(データ間)の対応付けを行うことができるので、DTWの特徴を十分に発揮させることができ、より適切なクラスタリングを実現することが可能となる。
【0029】
さらに、「ベクトル化手段」は、カテゴリをベクトルに変換する際には、カテゴリに付帯するメタ情報を用いてもよいが、次のように、Word2Vec(ワード・ツー・ベック)またはその他の単語の分散表現を取得する方法により得られた単語ベクトルを用いることが好ましい。
【0030】
<ベクトル化手段によるカテゴリ単位ベクトル化処理で、Word2Vecまたはその他の単語の分散表現を取得する方法により得られた単語ベクトルを用いる構成>
【0031】
前述したカテゴリ単位ベクトル化処理を実行し、動的時間伸縮法(DTW)により、カテゴリベクトル間の類似度を算出しながら、カテゴリベクトルの系列間類似度を算出する構成とした場合において、
ベクトル化手段によるカテゴリ単位ベクトル化処理は、
複数の可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、この単語ベクトルをカテゴリベクトルとして用いて、可変長カテゴリ系列データを構成するカテゴリの各々を、対応する単語ベクトルに置き換えることにより、カテゴリベクトルの系列を作成する処理であることが望ましい。
【0032】
このようにベクトル化手段によるカテゴリ単位ベクトル化処理で、Word2Vecまたはその他の単語の分散表現を取得する方法により得られた単語ベクトルを用いる構成とした場合には、カテゴリの内容を、より一層適切に捉えたベクトル化処理を実現することができ、より一層適切なクラスタリングを実現することが可能となる。
【0033】
<動的時間伸縮法(DTW)のアルゴリズムにより系列間類似度を算出するにあたり、各カテゴリ間の類似度を、単語ベクトル間の類似度として予め算出しておくか、または、ユーザが予め設定しておく構成>
【0034】
また、本発明は、可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムであって、
系列データ記憶手段に記憶されている複数の可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、各カテゴリ間の類似度を、求めた各単語ベクトル間の類似度として算出するか、または、ユーザによる各カテゴリ間の類似度の設定入力を受け付ける処理を実行するカテゴリ間類似度設定手段と、
このカテゴリ間類似度設定手段により設定した各カテゴリ間の類似度を用いて、動的時間伸縮法のアルゴリズムにより、可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行する系列間類似度算出手段と、
この系列間類似度算出手段により得られた系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する処理を実行するクラスタリング手段と、
このクラスタリング手段によるクラスタリング対象とされた複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、クラスタリング手段により作成したデンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行する出力手段と
を備えたことを特徴とするものである。
【0035】
このような本発明の系列データ可視化システムにおいては、カテゴリ間類似度設定手段により、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、各カテゴリ間の類似度を、求めた各単語ベクトル間の類似度として予め算出しておくか、または、ユーザによる各カテゴリ間の類似度の設定入力を予め受け付けておき、系列間類似度算出手段により、予め設定(算出設定または入力設定)されている各カテゴリ間の類似度を用いて、動的時間伸縮法のアルゴリズムにより、系列間類似度(系列全体どうしの間の類似度)を算出する。従って、動的時間伸縮法のアルゴリズムにより、2つの可変長カテゴリ系列データの各々を構成する各カテゴリを対応付ける際およびそれらの系列間類似度(系列全体どうしの間の類似度)を算出する際には、予め設定(算出設定または入力設定)されている各カテゴリ間の類似度を用いることになるので、可変長カテゴリ系列データについてカテゴリの単位でのベクトル化を行わなくても、同等の演算を実現することができ、動的時間伸縮法を適用することが可能となる。その後、クラスタリング手段により、系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する。このため、可変長カテゴリ系列データについて、カテゴリの内容を加味した系列間類似度を算出することができるようになり、適切なクラスタリングを実現することが可能となる。
【0036】
また、出力手段により、複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、デンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷するので、出力されたクラスタリング結果についての視認性を向上させることができ、ユーザは、一画面で膨大な情報を俯瞰することが可能となる。このため、ユーザによるデータへの理解が深まる。
【0037】
さらに、ユーザは、デンドログラムに対応させて配置された複数の可変長カテゴリ系列データを見ることで、グループ別に、特徴的なパターンを抽出することが可能となる。このため、ユーザは、抽出した特徴的なパターンを使って様々な分析を行い、予測を立て、業務の遂行、計画、情報提供、推薦、選択、各種の処理の実行等に役立てることができ、これらにより前記目的が達成される。
【0038】
<カテゴリ単位ではなく、系列単位で、すなわち系列全体を単位としてベクトル化処理を実行し、その際に、Doc2Vecまたはその他の文書の分散表現を取得する方法により得られた文書ベクトルを用いる構成>
【0039】
また、前述した系列データ可視化システム(基本構成)において、
ベクトル化手段は、
複数の可変長カテゴリ系列データの各々を系列全体として一体的にベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
系列間類似度算出手段は、
系列間類似度として、ベクトル化手段による系列単位ベクトル化処理で得られた系列全体を示すベクトル間の類似度を算出する処理を実行する構成とされ、
ベクトル化手段による系列単位ベクトル化処理は、
複数の可変長カテゴリ系列データの各々を文書とみなし、これらの複数の可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、Doc2Vecまたはその他の文書の分散表現を取得する方法により、文書ベクトルを求め、複数の可変長カテゴリ系列データの各々を、求めた各文書ベクトルに置き換える処理である構成としてもよい。
【0040】
このように系列単位ベクトル化処理を実行し、その際に、Doc2Vecまたはその他の文書の分散表現を取得する方法により得られた文書ベクトルを用いる構成とした場合には、可変長の系列から、固定長の文書ベクトル(文書の分散表現)が得られ、系列におけるカテゴリの並び順を考慮したベクトル化処理を行うことが可能となる。
【0041】
<系列単位ベクトル化処理を実行し、その際に、単語重要度ベクトル(TF-IDFなど)を求めるか、または、単語出現回数ベクトル若しくは単語出現頻度ベクトルを求める構成>
【0042】
また、前述した系列データ可視化システム(基本構成)において、
ベクトル化手段は、
複数の可変長カテゴリ系列データの各々を系列全体として一体的にベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
系列間類似度算出手段は、
系列間類似度として、ベクトル化手段による系列単位ベクトル化処理で得られた系列全体を示すベクトル間の類似度を算出する処理を実行する構成とされ、
ベクトル化手段による系列単位ベクトル化処理は、
複数の可変長カテゴリ系列データの各々を文書とみなし、これらの複数の可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、文書中の各単語の重要度を示す単語重要度ベクトルを求めるか、または、文書中の各単語の出現回数若しくは出現頻度を示す単語出現回数ベクトル若しくは単語出現頻度ベクトルを求め、複数の可変長カテゴリ系列データの各々を、求めた各単語重要度ベクトルまたは各単語出現回数ベクトル若しくは各単語出現頻度ベクトルに置き換える処理である構成としてもよい。
【0043】
このように系列単位ベクトル化処理を実行し、その際に、単語重要度ベクトル(TF-IDFなど)を求めるか、または、単語出現回数ベクトル若しくは単語出現頻度ベクトルを求める構成とした場合には、データ量が少なくても実行が可能となる。なお、この場合は、系列におけるカテゴリの並び順を考慮しないベクトル化処理となる。
【0044】
<出力手段が、標準出力処理と、指定カテゴリ前後出力処理とを、切り替えて実行するか、または同時に実行する構成>
【0045】
さらに、以上に述べた系列データ可視化システムにおいて、
出力手段は、
可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
複数種類のカテゴリの中からユーザにより選択された指定カテゴリ、並びに、系列においてこの指定カテゴリよりも並び順の前方および/または後方に配置されたユーザの指定個数若しくは予め定められた個数のカテゴリの各データを、これらのカテゴリの並び順を保持した状態で、画面表示若しくは印刷する指定カテゴリ前後出力処理とを、
切り替えて実行するか、または同時に実行する構成としてもよい。
【0046】
このように出力手段が、標準出力処理と、指定カテゴリ前後出力処理とを、切り替えて実行するか、または同時に実行する構成とした場合には、ユーザは、クラスタリングの結果を多面的に捉えることが可能となり、より多くの情報が得られるようになる。
【0047】
<出力手段が、標準出力処理と、時間軸出力処理とを、切り替えて実行するか、または同時に実行する構成>
【0048】
また、以上に述べた系列データ可視化システムにおいて、
系列データ記憶手段には、
複数の可変長カテゴリ系列データの各々を構成する各カテゴリのデータと、これらのデータの発生時期とが関連付けられて記憶され、
出力手段は、
可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
可変長カテゴリ系列データを構成する各カテゴリのデータを、これらのデータに対応する発生時期を用いて、絶対的な時間軸上および/または先頭のデータの発生時期からの相対的な時間軸上で画面表示若しくは印刷する時間軸出力処理とを、
切り替えて実行するか、または同時に実行する構成としてもよい。
【0049】
このように出力手段が、標準出力処理と、時間軸出力処理とを、切り替えて実行するか、または同時に実行する構成とした場合には、ユーザは、クラスタリングの結果を多面的に捉えることが可能となり、より多くの情報が得られるようになる。
【0050】
<プログラムの発明>
【0051】
そして、本発明のプログラムは、以上に述べた系列データ可視化システムとして、コンピュータを機能させるためのものである。
【0052】
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
【発明の効果】
【0053】
以上に述べたように本発明によれば、複数の可変長カテゴリ系列データの各々をカテゴリ単位または系列単位でベクトル化して系列間類似度を算出するか、あるいは、予め設定(算出設定または入力設定)されている各カテゴリ間の類似度を用いて、動的時間伸縮法(DTW)のアルゴリズムにより系列間類似度を算出するので、可変長カテゴリ系列データについてカテゴリの内容を加味した適切なクラスタリングを実現できるとともに、階層クラスタリングで得られたデンドログラムと、複数の可変長カテゴリ系列データの各々とを対応付けて出力するので、出力されたクラスタリング結果についての視認性を向上させることができ、一画面で膨大な情報を俯瞰することができるという効果がある。
【図面の簡単な説明】
【0054】
図1】本発明の一実施形態の系列データ可視化システムの全体構成図。
図2】前記実施形態のベクトル化方法の選択画面の一例を示す図。
図3】前記実施形態の系列データ可視化システムによる処理の流れを示すフローチャートの図。
図4】前記実施形態のWord2Vec等による単語ベクトルの作成、およびDTWによる系列間類似度の算出の説明図。
図5】前記実施形態のDoc2Vecによる文書ベクトルの作成の説明図。
図6】前記実施形態のTF-IDFによる単語重要度ベクトルの作成の説明図。
図7】前記実施形態のBoWによる単語出現回数ベクトルの作成の説明図。
図8】前記実施形態の出力手段による出力の一例を示す図。
図9】前記実施形態の出力手段による標準表示の切替の説明図。
図10】前記実施形態の出力手段による指定カテゴリ前後出力処理の説明図。
図11】前記実施形態の出力手段による時間軸出力処理の説明図。
図12】従来の方法により可変長カテゴリ系列データにDTWを適用した場合の説明図。
【発明を実施するための形態】
【0055】
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態の系列データ可視化システム10の全体構成が示されている。図2には、ベクトル化方法の選択画面50の一例が示され、図3には、系列データ可視化システム10による処理の流れがフローチャートで示されている。また、図4は、Word2Vec等による単語ベクトルの作成、およびDTWによる系列間類似度の算出の説明図であり、図5は、Doc2Vecによる文書ベクトルの作成の説明図であり、図6は、TF-IDFによる単語重要度ベクトルの作成の説明図であり、図7は、BoWによる単語出現回数ベクトルの作成の説明図である。さらに、図8図11には、出力手段24による各種の出力例が示されている。
【0056】
<系列データ可視化システム10の全体構成>
【0057】
図1において、系列データ可視化システム10は、可変長カテゴリ系列データの可視化のための処理を実行するシステムであり、1台または複数台のコンピュータにより構成された本体20と、この本体20に接続されたマウスやキーボード等の入力手段40と、液晶ディスプレイ等の表示手段41とを備えている。また、図示は省略されているが、本体20には印刷装置が接続されていてもよい。
【0058】
なお、図1は、スタンドアロン型のシステムの記載となっているが、サーバ・クライアント型のシステムでもよく、その場合には、本体20が、1台または複数台のコンピュータにより構成されたサーバであり、このサーバにネットワークを介して接続されたクライアント端末に、入力手段40や表示手段41を設ければよい。
【0059】
本体20は、可変長カテゴリ系列データの可視化のために必要となる各種の処理を実行する処理手段20Aと、この処理手段20Aに接続されて可変長カテゴリ系列データの可視化のために必要となる各種のデータを記憶する記憶手段30とを備えている。
【0060】
処理手段20Aは、ベクトル化手段21と、系列間類似度算出手段22と、クラスタリング手段23と、出力手段24とを含んで構成されている。これらの処理手段20Aを構成する各手段21~24は、本体20の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラム、並びに、主メモリやキャッシュメモリ等の作業用メモリ等により実現される。なお、これらの各手段21~24の詳細は、後述する。
【0061】
また、記憶手段30は、系列データ記憶手段31と、ベクトル記憶手段32と、クラスタリング結果記憶手段33とを含んで構成されている。これらの各記憶手段31~33は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等により実現され、また、一部のデータ(計算途中のデータ)については、主メモリ上の記憶領域でよい。なお、これらの各記憶手段31~33の詳細は、後述する。
【0062】
<可変長カテゴリ系列データの意味>
【0063】
この系列データ可視化システム10で取り扱う「可変長カテゴリ系列データ」の「可変長」は、系列を構成する要素の数、すなわち系列全体の長さ(データ数)が固定ではなく、変化するという意味である。但し、系列データ可視化システム10は、取り扱う複数の可変長カテゴリ系列データの全部が、たまたま同じ長さ(同じデータ数)の系列になっていても対応することができ、また、たまたまではなく、本来的に同じ長さ(同じデータ数)の系列しかない固定長カテゴリ系列データを取り扱うこともできる。
【0064】
「可変長カテゴリ系列データ」の「カテゴリ」(カテゴリデータ)は、前述したように質的データ(ラベル)のことであり、数値データ(量的データ)と対比されるものである。
【0065】
「可変長カテゴリ系列データ」の「系列」(系列データ)は、データの連なりを意味し、前述したように、並べられたデータ、すなわちデータの並び順に情報としての価値があるデータ群である。このデータの並びは、時間的な並びでもよく、空間的(場所的)な並びでもよい。前者の時間的な並びの場合は、通常、時系列データ(広義)と呼ばれるが、時間軸上において、任意の時間間隔で並べられたデータ(不規則に発生するデータ)でもよく、例えば5分置きに発生するデータ等のように同じ時間間隔で並べられたデータ(狭義の時系列データ)でもよい。後者の空間的(場所的)な並びの場合は、直線上の並びだけではなく、曲線上の並びや、ギザギザの線上の並び、階段のような並び等でもよく、例えば、ATGCの4文字からなる文字列で表現されるDNAの塩基配列、鉄道線路上における各駅停車・快速・急行・特急等の停車駅の並び、道路脇にある各種の店舗の並び等も含まれる。
【0066】
より具体的には、時間的な並びを示す可変長カテゴリ系列データには、例えば、システムエラーメッセージログ、システム操作ログ、顧客の行動ログ、営業員の行動ログ、顧客の購買履歴、システムへのアクセスログ、Webの閲覧ログ、マクロ的に見た各国の歴史等がある。
【0067】
システムエラーメッセージログの場合、系列を構成するカテゴリ(ラベル)には、例えば、入力エラー1、入力エラー2、入力エラー3、操作エラー、タイムアウト、メモリエラー等がある。この場合、データ(カテゴリデータ)の収集単位は、システムであり、クラスタリング対象識別情報(対象ID)は、システムを識別する情報である。
【0068】
システム操作ログの場合、系列を構成するカテゴリ(ラベル)には、例えば、ファイル操作_作成、ファイル操作_編集、ファイル操作_削除、ファイル閲覧、ダウンロード、アップロード等がある。この場合、データの収集単位は、操作者(人間)であり、クラスタリング対象識別情報(対象ID)は、操作者を識別する情報である。
【0069】
顧客の行動ログの場合、系列を構成するカテゴリ(ラベル)には、例えば、商品1取引、商品2取引、商品3取引、電話面談、対面面談、ウェビナー等がある。この場合、データの収集単位は、顧客(人間)であり、クラスタリング対象識別情報(対象ID)は、顧客を識別する情報である。
【0070】
営業員の行動ログの場合、系列を構成するカテゴリ(ラベル)には、例えば、電話、訪問、打合せ等がある。この場合、データの収集単位は、営業員(人間)であり、クラスタリング対象識別情報(対象ID)は、営業員を識別する情報である。
【0071】
顧客の購買履歴の場合、系列を構成するカテゴリ(ラベル)には、例えば、文房具、洗面用具、食料品、本、衣類等がある。この場合、データの収集単位は、顧客(人間)であり、クラスタリング対象識別情報(対象ID)は、顧客を識別する情報である。
【0072】
Webの閲覧ログの場合、系列を構成するカテゴリ(ラベル)には、例えば、ニュース、スポーツ、ショッピング、エンタメ等がある。この場合、データの収集単位は、Webの閲覧者(人間)であり、クラスタリング対象識別情報(対象ID)は、Webの閲覧者を識別する情報である。
【0073】
マクロ的に見た各国の歴史の場合、系列を構成するカテゴリ(ラベル)には、例えば、飢饉、大災害、戦争、平和条約締結、ハイパーインフレ等である。この場合、データの収集単位は、国家であり、クラスタリング対象識別情報(対象ID)は、国家を識別する情報である。
【0074】
なお、データの収集単位は、システム、一人の人間、国家の他、例えば、団体やグループ単位(同じログインIDが、同じ団体や同じグループに所属する複数人で使用された場合など)、端末単位(同じ端末が複数人で使用された場合など)、工場や事業所単位、ビル単位、地域単位、1匹の動物単位等でもよく、任意である。
【0075】
また、可変長カテゴリ系列データは、系列の長さ(データの個数)が変わるものであるが、系列データ可視化システム10は、無限に長い系列データを取り扱うことはできないので、当然、有限の長さの可変長カテゴリ系列データを処理することになる。例えば、金融機関に口座を開設した顧客の行動ログの場合であれば、口座開設時から始まり、現在に至るまで続く長さを有する可変長カテゴリ系列データを処理することができる。また、例えば、年始から年末までの1年間に発生したカテゴリ(カテゴリデータ)を連ねた可変長カテゴリ系列データ等のように、一定期間に発生した可変長カテゴリ系列データを処理してもよい。一定期間に発生した可変長カテゴリ系列データであっても、各カテゴリデータの発生した時間間隔は、一律ではないので、各系列データは、異なる長さ(データ数)となる。つまり、データの収集期間の長さと、系列データの長さ(データ数)とは、比例しない。
【0076】
<系列データ可視化システム10を構成する各部の詳細構成>
【0077】
<ベクトル化手段21の構成>
【0078】
ベクトル化手段21は、系列データ記憶手段31(図4参照)に記憶されている複数の可変長カテゴリ系列データの各々を数値で構成されるベクトルに変換し、ベクトル化した後のデータ(カテゴリ単位、系列単位の双方のデータ)をベクトル記憶手段32に記憶させるベクトル化処理を実行するものである。このベクトル化処理には、大別すると、カテゴリ単位ベクトル化処理と、系列単位ベクトル化処理とがあり、ベクトル化手段21は、ユーザの選択に基づき、これらのベクトル化処理を選択的に実行する。
【0079】
(ベクトル化方法の選択画面50:図2
図2には、ベクトル化方法の選択画面50が示されている。この選択画面50中の[1]系列を構成する各カテゴリのベクトル化は、カテゴリ単位ベクトル化処理、すなわち可変長カテゴリ系列データを構成する個々のカテゴリデータ(質的データ)を、個別にベクトル化して数値データ(量的データ)に変換する処理である。一方、[2]系列を全体としてベクトル化は、系列単位ベクトル化処理、すなわち可変長カテゴリ系列データを、系列全体として一体的にベクトル化して数値データ(量的データ)に変換する処理である。
【0080】
図2のベクトル化方法の選択画面50には、[1]系列を構成する各カテゴリのベクトル化として、[1-1]Word2Vecによる単語ベクトルを用いる場合の選択部51と、[1-2]カテゴリのメタ情報を用いる場合の選択部52とが設けられている。
【0081】
一方、[2]系列を全体としてベクトル化は、[2A]系列におけるカテゴリの並び順を考慮する場合と、[2B]系列におけるカテゴリの並び順を考慮しない場合とに分かれている。[2A]には、[2A-1]Doc2Vecによる文書ベクトルを用いる場合の選択部53が設けられ、[2B]には、[2B-1]TF-IDFによる単語重要度ベクトルを用いる場合の選択部54と、[2B-2]BoWによる単語出現回数ベクトルを用いる場合の選択部55とが設けられている。
【0082】
このように図2のベクトル化方法の選択画面50には、複数(本実施形態では、一例として5つ)の選択部51~55が設けられ、系列データ可視化システム10は、複数種類の方法でベクトル化を実現することができる構成とされているが、本発明の系列データ可視化システムは、必ずしもこのように複数種類のベクトル化の方法を選択できるようになっている必要はなく、複数(5つ)の選択部51~55のうちの1つの選択部に相当する機能だけを備えた系列データ可視化システムとしてもよい。すなわち、本実施形態では、説明の便宜上、複数種類のベクトル化の方法を1つのシステムとして実現する記載とされているが、別々のシステムとして実現してもよい。
【0083】
([1-1]Word2Vecによる単語ベクトルを用いる場合:図2の選択部51、図4
図2の選択画面50において、ユーザが、[1-1]の選択部51を選択した場合には、ベクトル化手段21は、複数の可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vec(ワード・ツー・ベック)により単語ベクトルを求め、この単語ベクトルをカテゴリベクトル(カテゴリデータをベクトル化したもの)として用いて、可変長カテゴリ系列データを構成するカテゴリの各々を、対応する単語ベクトルに置き換えることにより、カテゴリベクトルの系列を作成する処理を実行する。なお、図2では、Word2Vecと記載されているが、このWord2Vecを含め、様々な単語の分散表現を取得する方法により単語ベクトルを求めることができる。
【0084】
例えば、Word2Vecのモデルであるコンティニュアス・バッグ・オブ・ワード(CBOW)やスキップ・グラム(Skip-gram)、あるいは、グローヴ(GloVe)、ファースト・テキスト(fastText)、リカレント・ニューラル・ネットワーク(RNN)の1種であるロング・ショート・ターム・メモリ(LSTM)によるエルモ(ELMo)、さらには、ニューラル・ネットワーク(NN)以外でも、例えば、ライン(LINE)等のアルゴリズムによる単語ベクトルを用いることができる。
【0085】
また、ベクトル化手段21は、Word2Vec等により得られた単語ベクトルを、対応するカテゴリ種別の識別情報(A,B,C,…)と関連付けてベクトル記憶手段32に記憶させる。従って、前回処理で求めた単語ベクトルがベクトル記憶手段32に記憶されている場合には、単語ベクトルを求める処理を省略してもよい。また、前回処理で求めた単語ベクトルが記憶されていても、改めて単語ベクトルを求めてもよい。
【0086】
具体的には、図4に示すように、カテゴリA,B,C,D,E,…があるものとすると、例えば、可変長カテゴリ系列データがシステムエラーメッセージログの場合には、カテゴリA=入力エラー1、カテゴリB=入力エラー2、カテゴリC=入力エラー3、カテゴリD=操作エラー、カテゴリE=タイムアウト、カテゴリF=メモリエラー等のラベルである。そして、可変長カテゴリ系列データ=BACDは、カテゴリデータが、B,A,C,Dの順に並んでいるという意味である。
【0087】
また、クラスタリング対象識別情報(対象ID)=X,Y,Z,W,…は、例えば、システムX,Y,Z,W,…、操作者X,Y,Z,W,…、顧客X,Y,Z,W,…等であり、どのような単位でデータ(カテゴリデータ)を収集しているのかを示す。可変長カテゴリ系列データがシステムエラーメッセージログの場合には、複数のシステムX,Y,Z,W,…があり、それぞれのシステムについてデータを収集していることになり、同様に、システム操作ログの場合には、複数の操作者X,Y,Z,W,…がいて、それぞれの操作者についてデータを収集し、顧客の行動ログの場合には、複数の顧客X,Y,Z,W,…がいて、それぞれの顧客についてデータを収集していることになる。
【0088】
図4の例では、ベクトル化手段21は、対象ID=X,Y,Z,W,…の全ての可変長カテゴリ系列データを用いて、カテゴリA,B,C,D,E,…を単語とみなし、Word2Vec等による学習で、単語の分散表現を示す単語ベクトルを求める。単語ベクトルの次元数kは任意であり、例えば、k=100次元等である。従って、n種類のカテゴリがある場合は、n個のk次元ベクトルが得られる。例えば、カテゴリA(入力エラー1等)に対し、k次元のカテゴリベクトル(a1,a2,a3,…,ak)が得られ、カテゴリB(入力エラー2等)に対し、k次元のカテゴリベクトル(b1,b2,b3,…,bk)が得られ、カテゴリC,D,E,…も同様である。a1やb1等は、数値である。
【0089】
続いて、図4の例では、ベクトル化手段21は、求めた単語ベクトルを用いて、対象ID=Xについての可変長カテゴリ系列データ=BACDであれば、その系列における各カテゴリB,A,C,Dをそれぞれに対応する単語ベクトル(カテゴリベクトル)に個別に置き換えて、(b1,b2,b3,…,bk,a1,a2,a3,…,ak,c1,c2,c3,…,ck,d1,d2,d3,…,dk)というカテゴリベクトルの系列を作成するカテゴリ単位ベクトル化処理を実行する。すなわち、先頭のカテゴリBをそれに対応する単語ベクトル(カテゴリベクトル)=(b1,b2,b3,…,bk)に置き換え、2番目のカテゴリAをそれに対応する単語ベクトル(カテゴリベクトル)=(a1,a2,a3,…,ak)に置き換え、3番目のカテゴリCをそれに対応する単語ベクトル(カテゴリベクトル)=(c1,c2,c3,…,ck)に置き換え、4番目のカテゴリDをそれに対応する単語ベクトル(カテゴリベクトル)=(d1,d2,d3,…,dk)に置き換える。また、ベクトル化手段21は、作成したカテゴリベクトルの系列を、クラスタリング対象識別情報(対象ID)と関連付けてベクトル記憶手段32に記憶させる。
【0090】
([1-2]カテゴリのメタ情報を用いる場合:図2の選択部52)
図2の選択画面50において、ユーザが、[1-2]の選択部52を選択した場合には、ベクトル化手段21は、カテゴリ種別の識別情報(A,B,C,…)と関連付けられてカテゴリ情報記憶手段(不図示)に記憶されている各カテゴリに付帯する「メタ情報」を用いて、各カテゴリに対応するカテゴリベクトルを作成する。
【0091】
また、ベクトル化手段21は、作成したカテゴリベクトルを、対応するカテゴリ種別の識別情報(A,B,C,…)と関連付けてベクトル記憶手段32に記憶させる。従って、前回処理で求めたカテゴリベクトルがベクトル記憶手段32に記憶されている場合には、カテゴリベクトルを求める処理を省略してもよい。また、前回処理で求めたカテゴリベクトルが記憶されていても、改めてカテゴリベクトルを求めてもよい。
【0092】
カテゴリに付帯する「メタ情報」は、数値化できる情報であれば、あらゆる情報が含まれる。カテゴリに付帯する「メタ情報」が更にカテゴリになっている場合には、例えば、ワンホットベクトル(One hot vector)等により数値化して使用することができる。「メタ情報」が数値データであれば、そのまま使用してもよく、別の数値データに変換して使用してもよく、複数種類の「メタ情報」を複合的に用いてもよい。例えば、カテゴリが店舗であり、カテゴリ系列データが、営業員の回った店舗のログ(店舗A、店舗C、店舗B、…等の順序を示すデータ)であれば、店舗に付帯する「メタ情報」は、店舗の位置情報(緯度・経度)、住所や所在地(都道府県・市町村)、設立年月日や営業年数、営業時間、主要販売品、売り場面積、従業員数、資本金、年間売上高、駐車場の有無や駐車可能台数、最寄り駅からの距離、周辺地域の人口密度等である。
【0093】
そして、前述した[1-1]の選択部51を選択した場合と同様に、ベクトル化手段21は、メタ情報を用いて作成したカテゴリベクトルを用いて、図4の例に示された対象ID=Xについての可変長カテゴリ系列データ=BACDであれば、その系列における各カテゴリB,A,C,Dをそれぞれに対応するカテゴリベクトルに個別に置き換えて、カテゴリベクトルの系列を作成するカテゴリ単位ベクトル化処理を実行する。また、ベクトル化手段21は、作成したカテゴリベクトルの系列を、クラスタリング対象識別情報(対象ID)と関連付けてベクトル記憶手段32に記憶させる。
【0094】
([2A-1]Doc2Vecによる文書ベクトルを用いる場合:図2の選択部53、図5
図2の選択画面50において、ユーザが、[2A-1]の選択部53を選択した場合には、ベクトル化手段21は、複数の可変長カテゴリ系列データの各々を文書とみなし、これらの複数の可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、Doc2Vec(ドック・ツー・ベック)により、文書ベクトルを求め、複数の可変長カテゴリ系列データの各々を、求めた各文書ベクトルに置き換える処理を実行する。これは、複数の可変長カテゴリ系列データの各々を系列全体として一体的にベクトルに変換する系列単位ベクトル化処理である。なお、図2では、Doc2Vecと記載されているが、Doc2Vec以外の文書の分散表現を取得する方法により、文書ベクトルを求めてもよい。
【0095】
図5には、ベクトル化手段21がDoc2Vec等により作成した文書ベクトルが示されている。図5の例では、対象ID=X,Y,Z,W,…についての可変長カテゴリ系列データの各々に対し、m次元ベクトルである文書ベクトルが作成されている。従って、作成される文書ベクトルの数は、処理対象の可変長カテゴリ系列データの数と同じである。これらの文書ベクトルは固定長であり、その次元数mは、例えば、m=1,000次元等であるが、任意に定めてよい。g(X,1)やg(Y,1)等は、数値である。また、ベクトル化手段21は、Doc2Vec等により作成した文書ベクトルを、クラスタリング対象識別情報(対象ID)と関連付けてベクトル記憶手段32に記憶させる。
【0096】
([2B-1]TF-IDFによる単語重要度ベクトルを用いる場合:図2の選択部54、図6
図2の選択画面50において、ユーザが、[2B-1]の選択部54を選択した場合には、ベクトル化手段21は、複数の可変長カテゴリ系列データの各々を文書とみなし、これらの複数の可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、TF-IDF(term frequency - inverse document frequency:ティーエフアイディーエフ)により、文書中の各単語の重要度を示す単語重要度ベクトルを求め、複数の可変長カテゴリ系列データの各々を、求めた各単語重要度ベクトルに置き換える処理を実行する。これは、複数の可変長カテゴリ系列データの各々を系列全体として一体的にベクトルに変換する系列単位ベクトル化処理である。なお、図2では、TF-IDFによる単語重要度ベクトルと記載されているが、TF-IDF以外の方法により単語重要度ベクトルを求めてもよい。
【0097】
図6には、ベクトル化手段21がTF-IDF等により作成した単語重要度ベクトルが示されている。カテゴリの種類の数をnとすると、単語重要度ベクトルは、n次元ベクトルとなり、固定長のベクトルである。図6の例では、対象ID=X,Y,Z,W,…についての可変長カテゴリ系列データの各々に対し、n次元ベクトルである単語重要度ベクトルが作成されている。k(X,A)やk(Y,A)等は、数値である。また、ベクトル化手段21は、TF-IDF等により作成した単語重要度ベクトルを、クラスタリング対象識別情報(対象ID)と関連付けてベクトル記憶手段32に記憶させる。
【0098】
([2B-2]BoWによる単語出現回数ベクトルを用いる場合:図2の選択部55、図7
図2の選択画面50において、ユーザが、[2B-2]の選択部55を選択した場合には、ベクトル化手段21は、複数の可変長カテゴリ系列データの各々を文書とみなし、これらの複数の可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、BoW(Bag of Words:バッグ・オブ・ワーズ)により、文書中の各単語の出現回数を示す単語出現回数ベクトルを求め、複数の可変長カテゴリ系列データの各々を、求めた各単語出現回数ベクトルに置き換える処理を実行する。これは、複数の可変長カテゴリ系列データの各々を系列全体として一体的にベクトルに変換する系列単位ベクトル化処理である。なお、図2では、BoWによる単語出現回数ベクトルと記載されているが、単語出現回数ベクトルに代えて、文書中の各単語の出現頻度を示す単語出現頻度ベクトルを求めてもよい。
【0099】
図7には、ベクトル化手段21がBoWにより作成した単語出現回数ベクトル(単語出現頻度ベクトルでもよい)が示されている。カテゴリの種類の数をnとすると、単語出現回数ベクトル(単語出現頻度ベクトルも同様)は、n次元ベクトルとなり、固定長のベクトルである。図7の例では、対象ID=X,Y,Z,W,…についての可変長カテゴリ系列データの各々に対し、n次元ベクトルである単語出現回数ベクトル(単語出現頻度ベクトルも同様)が作成されている。h(X,A)やh(Y,A)等は、数値であり、単語出現回数(単語出現頻度でもよい)を示している。つまり、可変長カテゴリ系列データの中に、各カテゴリが何回出現するかを示しており、例えば、対象ID=Xについての系列=BACDであれば、カテゴリAが1回、カテゴリBが1回、カテゴリCが1回、カテゴリDが1回、カテゴリE,…がそれぞれ0回の出現なので、単語出現回数ベクトル=(1,1,1,1,0,…)となる。また、ベクトル化手段21は、BoWにより作成した単語出現回数ベクトル(単語出現頻度ベクトルでもよい)を、クラスタリング対象識別情報(対象ID)と関連付けてベクトル記憶手段32に記憶させる。
【0100】
<系列間類似度算出手段22の構成>
【0101】
系列間類似度算出手段22は、ベクトル化手段21により得られた複数の可変長カテゴリ系列データの各々についてのベクトル化処理後のデータを用いて、系列間類似度(系列全体どうしの間の類似度、すなわち可変長カテゴリ系列データどうしの間の類似度)を算出する処理を実行するものである。この系列間類似度の算出は、処理対象の複数の可変長カテゴリ系列データについて総当たりで行う。系列間類似度の算出方法は、図2の選択画面50で選択したベクトル化方法により異なる。
【0102】
なお、ここでいう類似度には、ユークリッド距離(距離が短ければ、類似度が高く、距離が長ければ、類似度が低い)、コサイン類似度(値が大きければ、類似度が高く、値が小さければ、類似度が低い)等の様々なものが含まれる。
【0103】
また、系列間類似度算出手段22により算出した系列間類似度(系列全体どうしの間の類似度)は、クラスタリング手段23による処理で用いられるが、主メモリ上の領域に保持していればよいため、系列間類似度記憶手段としての図示は省略している。
【0104】
(動的時間伸縮法(DTW)による系列間類似度の算出)
図2の選択画面50において、[1]系列を構成する各カテゴリのベクトル化を選択した場合、すなわち[1-1]の選択部51または[1-2]の選択部52のいずれかを選択した場合には、ベクトル化手段21によるベクトル化処理後のデータは、図4に示すように、カテゴリベクトルの系列(カテゴリベクトルを並べて形成された系列データ)となるので、系列全体としては、可変長のベクトルデータとなる。従って、系列間類似度算出手段22は、動的時間伸縮法(DTW)により系列間類似度(系列全体どうしの間の類似度)を算出する。
【0105】
動的時間伸縮法(DTW)では、2つの系列を構成する各要素(各データ)間の類似度)を総当たりで算出し、2つの系列を構成する各要素(各データ)間の対応付けをする。この対応付けのアルゴリズムは、既存のDTWの手法として公知であるため、ここでは詳しい説明を省略する。
【0106】
具体的には、図4に示すように、カテゴリベクトルどうしの間の類似度を算出しながら対応付けを行う。カテゴリベクトルどうしの間の類似度というのは、例えば、カテゴリAに対応するカテゴリベクトル=(a1,a2,a3,…,ak)と、カテゴリBに対応するカテゴリベクトル=(b1,b2,b3,…,bk)との間の類似度であり、その他に、AとA、AとC、AとD、AとE、BとB、BとC、BとD、BとE、CとC、CとD、CとE、DとD、DとE、EとE等の間の類似度である。図4の例では、対象ID=Xについての系列=BACDと、対象ID=Yについての系列=BAACEとの間で、カテゴリベクトルどうしの間の類似度を算出しながら対応付けを行った結果、5つの双方向矢印で示された関係の対応付けとなっている。
【0107】
そして、動的時間伸縮法(DTW)では、上記のように対応付けられた要素間の類似度を加算し、系列間類似度(系列全体どうしの間の類似度)を算出する。図4の例では、5つの双方向矢印で示された関係の対応付けとなっているので、BとBとの間、AとAとの間、AとAとの間、CとCとの間、DとEとの間の各類似度(例えば、ユークリッド距離)の総和を求め、系列間類似度(系列全体どうしの間の類似度)を算出する。この例の場合は、ユークリッド距離であれば、DとEとの間以外は、値がゼロであるから、ユークリッド距離の総和は、DとEとの間のユークリッド距離となり、その値が、Xの系列とYの系列との間の系列間類似度となる。
【0108】
(動的時間伸縮法(DTW)を使用しない系列間類似度の算出)
図2の選択画面50において、[2]系列を全体としてベクトル化を選択した場合、すなわち[2A-1]の選択部53、[2B-1]の選択部54、または[2B-2]の選択部55のいずれかを選択した場合には、ベクトル化手段21によるベクトル化処理後のデータは、図5図6図7に示すように、固定長のベクトルデータとなる。従って、この場合は、系列間類似度算出手段22は、動的時間伸縮法(DTW)を使用するのではなく、これらのベクトル間の類似度(例えば、コサイン類似度)を算出し、それを系列間類似度(系列全体どうしの間の類似度)とする。
【0109】
<クラスタリング手段23の構成>
【0110】
クラスタリング手段23は、系列間類似度算出手段22により得られた系列間類似度(系列全体どうしの間の類似度)を用いて、処理対象の複数の可変長カテゴリ系列データについて階層クラスタリングを行うことにより、クラスタ情報としてのデンドログラム(樹形図)を作成し、作成したデンドログラムを、処理対象の可変長カテゴリ系列データについてのクラスタリング対象識別情報(対象ID)と関連付けてクラスタリング結果記憶手段33に記憶させる処理を実行するものである。
【0111】
なお、階層クラスタリングについては、既存の手法でよいため、ここでは詳しい説明を省略する。
【0112】
<出力手段24の構成:図8図11
【0113】
出力手段24は、クラスタリング結果記憶手段33に記憶されているクラスタ情報としてのデンドログラム、および系列データ記憶手段31に記憶されている複数の可変長カテゴリ系列データを用いて、クラスタリング手段23による処理対象とされた複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、デンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行するものである。
【0114】
具体的には、出力手段24は、図8に示すクラスタリング結果表示画面60を、表示手段41の画面上に表示する。また、本体20に印刷装置が接続されている場合には、出力手段24は、画面表示された内容を印刷することもできる。
【0115】
図8のクラスタリング結果表示画面60には、デンドログラム表示部61と、クラスタリング対象識別情報(対象ID)表示部62と、可変長カテゴリ系列データ表示部63とが設けられている。
【0116】
デンドログラム表示部61は、本実施形態では、図8に示すように、デンドログラムが横に寝かされ、かつ、最下層側の端部が右側にきて、それよりも上位の層が左側にくる状態で表示されているが、デンドログラムの表示方向は、これに限定されるものではなく、任意であり、例えば、左右が図8と逆になっていてもよく、横に寝かさずに(左右方向ではなく)、上下方向に表示してもよく、デザイン性の観点等から、デンドログラムを斜め方向に表示してもよい。
【0117】
可変長カテゴリ系列データ表示部63は、本実施形態では、図8に示すように、可変長カテゴリ系列データが、左から右へと順番が進むように(すなわち、先頭のカテゴリが左側の端部にくるように)表示されているが、デンドログラムの最下層側の端部に対応させて可変長カテゴリ系列データを表示することができればよいので、可変長カテゴリ系列データの表示方向は、図8の方向に限定されるものではなく、デンドログラム表示部61におけるデンドログラムの表示方向および配置位置に合わせればよい。従って、可変長カテゴリ系列データを構成する各カテゴリの並び順が保持されることを前提とし、可変長カテゴリ系列データの表示方向は、右から左へと順番が進むように(すなわち、先頭のカテゴリが右側の端部にくるように)表示してもよく、上から下へと順番が進むように(すなわち、先頭のカテゴリが上側の端部にくるように)表示してもよく、下から上へと順番が進むように(すなわち、先頭のカテゴリが下側の端部にくるように)表示してもよく、斜め方向に表示してもよい。
【0118】
また、出力手段24は、本実施形態では、図8に示すように、可変長カテゴリ系列データを構成する各カテゴリは、色分けで表示される。なお、各カテゴリの内容を示す文字(例えば、「操作エラー」、「ウェビナー」等)や記号(例えば、ト音記号、郵便マーク、電話マーク、温度記号等)を枠内に表示または印刷したり、各カテゴリの内容を示す小さな画像や絵柄を表示または印刷したり、あるいはカテゴリ種別の識別情報(例えば、「A」、「B」、「1」、「2」等)を枠内に表示または印刷してもよいが、視認性を高めてユーザが多くの情報を短時間で把握可能にするという観点で、色分け表示にすることが好ましい。
【0119】
(出力手段24による出力処理の態様)
さらに、出力手段24は、本実施形態では、標準出力処理と、指定カテゴリ前後出力処理と、時間軸出力処理とを、入力手段40からのユーザによる選択操作に従って切り替えて実行する。また、これらの各種の態様の出力処理は、切り替えて実行するのではなく、同時に実行してもよく、同時実行の場合は、1つの画面または1つの印刷用紙の中に、複数の態様での表示または印刷が行われる。なお、これらの各種の態様での出力処理の機能は、必ずしも全てを備えている必要はなく、少なくとも1つの出力処理の機能を備えていればよい。1つの機能だけにする場合は、標準出力処理の機能とすることが好ましい。
【0120】
(標準出力処理の詳細)
標準出力処理は、可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する処理である。図8の例は、詰めた状態の表示である。また、図8の例では、隣り合う可変長カテゴリ系列データどうしも詰めた状態で表示されているが、図9に示すように、互いの間隔(図9の例では上下の間隔)を少し空けてもよい。さらに、本実施形態では、図8の下部および図9に示すように、標準出力(標準表示)を、入力手段40からのユーザによる選択操作に従って、左端揃え(デフォルト表示)と、右端揃えとで切り替えることができる。図9に示すように、カテゴリの並び順は、切替の前後で保持される。
【0121】
(指定カテゴリ前後出力処理の詳細)
指定カテゴリ前後出力処理は、図8の下部および図10に示すように、複数種類のカテゴリ(図8の例では、A,B,Cの3種類)の中からユーザにより選択された指定カテゴリ(A,B,Cのうちの1つ)、並びに、系列においてこの指定カテゴリよりも並び順の前方および/または後方に配置されたユーザの指定個数若しくは予め定められた個数のカテゴリの各データを、これらのカテゴリの並び順を保持した状態で、画面表示若しくは印刷する処理である。
【0122】
例えば、可変長カテゴリ系列データが顧客の行動ログである場合に、ユーザが、ウェビナーの参加前後のユーザの行動形態(どのような顧客が参加するのか、参加後には、どのように行動が変わるのか等)を知りたければ、「ウェビナー」というカテゴリを指定カテゴリとすればよい。
【0123】
本実施形態では、図8の下部に示すように、入力手段40からのユーザによる入力操作で、前方および後方の双方のデータ個数を指定できるようになっている。前方とは、指定カテゴリよりも順番が早いカテゴリデータであり、後方とは、指定カテゴリよりも順番が遅いカテゴリデータである。図8の下部および図10の例では、可変長カテゴリ系列データにおける指定カテゴリのデータの配置位置に対し、前方の3個のカテゴリデータおよび後方の2個のカテゴリデータが、可変長カテゴリ系列データから切り出されて表示または印刷される。前方または後方のいずれか一方で0個を指定することもでき、その場合は、いずれか他方の指定個数(1個以上)のカテゴリデータだけが表示または印刷される。なお、前方または後方のうちの一方のデータ個数しか指定できないようになっていてもよい。
【0124】
図10に示すように、指定カテゴリおよびその前後の指定個数のデータは、可変長カテゴリ系列データから切り出されて表示または印刷されるので、原則として、固定長の表示または印刷となる。また、原則として固定長であるから、複数の系列における指定カテゴリの表示位置または印刷位置は、図10中の一点鎖線で示すように同じ位置である。
【0125】
しかし、図10の例に示すように、指定個数のデータが、前方または後方にない場合には、固定長にはならない。また、図10の例に示すように、指定カテゴリのデータが連続している場合(例えば、カテゴリCが指定されて指定カテゴリになったとすると、CCのように、指定された同一種類Cのカテゴリデータが連続している場合)には、連続している同一(同一種類C)の複数のデータを1つにまとめてから、その前後のデータを数えるので、固定長にはならない。
【0126】
さらに、指定カテゴリのデータは、可変長カテゴリ系列データの中に複数存在する場合もあるので、その場合には、系列に含まれる複数の指定カテゴリのデータの中での2番目の指定カテゴリのデータおよびその前後の指定個数のデータは、図10の例に示すように、1番目の指定カテゴリおよびその前後の指定個数のデータの表示位置または印刷位置と少し間隔を置いて表示または印刷する。3番目以降も同様に、3番目の表示等は、2番目の表示等と少し間隔を置いた表示等となり、4番目の表示等は、3番目の表示等と少し間隔を置いた表示等となる。
【0127】
そして、指定カテゴリのデータが、可変長カテゴリ系列データの中に1つしかない場合は、2番目以降の表示または印刷はなく、1つもない場合は、何も表示または印刷されない。なお、カテゴリCが指定カテゴリであり、系列=BBACACBEAのように指定カテゴリのデータの間に少数の異なる種類(C以外)のカテゴリデータが介在していたとすると、1番目のCおよびその前後を切り出してBBA「C」ACを表示または印刷し、2番目のCおよびその前後を切り出してACA[C]BEを表示または印刷するので、1番目のCを基準とする表示等の中に2番目のCが含まれ、2番目のCを基準とする表示等の中に1番目のCが含まれる。
【0128】
(時間軸出力処理の詳細)
時間軸出力処理は、図8の下部および図11に示すように、可変長カテゴリ系列データを構成する各カテゴリのデータを、これらのデータに対応する発生時期(年月日や時分秒)を用いて、絶対的な時間軸上および/または先頭のデータの発生時期からの相対的な時間軸上で画面表示若しくは印刷する処理である。系列データ記憶手段31には、複数の可変長カテゴリ系列データの各々を構成する各カテゴリのデータと、これらのデータの発生時期の情報(データが発生した年月日や時分秒)とが関連付けられて記憶されている必要がある。
【0129】
前述した標準出力処理では、カテゴリの並び順を示すだけであるため、前後のデータは詰めた表示等(図8の例の場合)であるか、同一の間隔を置いた(少し隙間を空けた)表示等であるのに対し、この時間軸出力処理では、実際の時間軸で表示または印刷するので、前後のデータの間隔は、広狭、様々な間隔となる。従って、各データは、当然、発生時期の情報(年月日や時分秒等の時刻情報や、より広い視点で行動や現象等を捉える場合には、縄文時代や江戸時代等のような歴史的な時代情報)も持っている。例えば、同じCという種類のカテゴリデータであっても、2022年3月1日に発生したCのデータと、2022年3月15日に発生したCのデータとは、異なる発生時期のデータであり、時間軸上でそれらの時間間隔に応じて離れて表示または印刷される。
【0130】
時間軸出力処理は、図8の下部および図11に示すようにズームの機能を備えている。図8の下部で、入力手段40からのユーザによるズーム操作(例えば、三角マークをスライドさせる操作)を受け付けて、図11に示すようにズームイン(ZOOM IN)およびズームアウト(ZOOM OUT)することが可能となっている。実際の時間軸上でのデータの表示または印刷であるから、ズームアウトの操作を行うと、系列における各データ(各カテゴリデータ)の表示等が重畳し、ズームインの操作を行うと、系列における各データの表示等が離れる。従って、ユーザのズーム操作により、時間軸上の表示等の幅(図11の例では、時間軸が左右方向に延びているので、左右方向の幅であるが、時間軸が上下方向に延びていれば、上下方向の幅となる。)を示すスパンの広狭(図11の例では、2022年3月という期間の広狭)を調整し、前後のデータの間隔を調整することができる。具体的には、ズーム操作は、例えば、画面上のXピクセルを、Y日間(またはY時間、Y分間、Y秒間、Y週間、Y月間、Y年間、Y世紀など)に相当する表示幅から、Z日間(またはZ時間、Z分間、Z秒間、Z週間、Z月間、Z年間、Z世紀など)に相当する表示幅に変更する調整である。このため、例えば、ユーザは、ズームアウトして全体を俯瞰した後に、ズームインして詳細を確認することができ、また、その逆の流れのズーム操作を行うことができる。
【0131】
また、時間軸出力処理では、ズームの程度をユーザが自分の操作で調整する前に、全ての系列における全てのデータ(カテゴリデータ)が、重なりなく、または、ほぼ重なりなく表示または印刷できるような最適な状態を予め計算し、その状態をズームの程度のデフォルト設定とすることができる。1つの要素(ある1つのカテゴリデータ)を、どれぐらいの大きさ(長さ)で表示または印刷するかということと、系列におけるデータの密度(時間軸上の密度)とが関係する。例えば、1つの要素(1つのデータ)の表示の大きさ(長さ)の最小値がWピクセル(例えば、6ピクセル)であれば、時間軸上における前後の要素(データ)の間隔のうち最も狭い間隔を探し、その最も狭い間隔(例えば、3日間)がWピクセル(例えば、6ピクセル)になるように調整し、デフォルト設定とすることができる。また、前後の要素(データ)の表示が1/3だけ重なってよいのであれば、最も狭い間隔(例えば、3日間)がW×(2/3)ピクセル(例えば、4ピクセル)になるように調整し、デフォルト設定とすることができる。印刷の場合(ドット計算)も同様である。
【0132】
さらに、時間軸出力処理では、時間軸表示(印刷も同様なので、時間軸出力)を、(1)絶対的な時間軸表示と、(2)相対的な時間軸表示とで切り替えることができる。ある系列のデータの殆ど全てが、例えば、令和2年のデータであり、別の系列のデータの殆ど全てが、令和4年のデータであると、双方の系列に類似性はあっても、時間軸が約2年ずれていて目視での比較が困難である。そこで、ユーザは、(2)相対的な時間軸表示を選択し、先頭のデータ(先頭のカテゴリ)からの相対的な時間軸で各系列を表示することにより、データの発生時期の差(時間帯の差や、時代の差など)を吸収する。しかし、そのような発生時期の差を、あえて目視で確認したい場合もあるので、その場合には、ユーザは、(1)絶対的な時間軸表示を選択すればよい。
【0133】
<記憶手段30の詳細構成>
【0134】
系列データ記憶手段31は、図4に示すように、複数の可変長カテゴリ系列データを、クラスタリング対象識別情報(対象ID)と関連付けて記憶するものである。また、出力手段24による時間軸出力処理の機能を設ける場合には、複数の可変長カテゴリ系列データの各々を構成する各カテゴリのデータと、これらのデータの発生時期(データが発生した年月日や時分秒)とを関連付けて記憶する。例えば、図4に示された対象ID=Yについての系列=BAACEの場合であれば、対象ID=Yと関連付けて、(B、2022年1月5日)、(A、2022年1月7日)、(A、2022年1月15日)、(C、2022年1月17日)、(E、2022年1月20日)等を記憶する。
【0135】
ベクトル記憶手段32は、ベクトル化手段21によるベクトル化処理で得られたデータを記憶するものである。カテゴリ単位ベクトル化処理で得られたデータとしては、Word2Vec等による単語ベクトル(カテゴリベクトル)を、カテゴリ種別の識別情報(A,B,C,D,…)と関連付けて記憶する(図4参照)。同様に、メタ情報によるカテゴリベクトルも、カテゴリ種別の識別情報(A,B,C,D,…)と関連付けて記憶する。また、カテゴリ単位ベクトル化処理で作成されたカテゴリベクトルの系列(カテゴリベクトルを並べて形成されたベクトルデータ)を、クラスタリング対象識別情報(対象ID)と関連付けて記憶する(図4参照)。
【0136】
また、ベクトル記憶手段32は、系列単位ベクトル化処理で得られたデータとしては、Doc2Vec等による文書ベクトル、TF-IDF等による単語重要度ベクトル、BoWによる単語出現回数ベクトルまたは単語出現頻度ベクトルを、クラスタリング対象識別情報(対象ID)と関連付けて記憶する(図5図6図7参照)。
【0137】
クラスタリング結果記憶手段33は、クラスタリング手段23により作成されたクラスタ情報としてのデンドログラム(樹形図)を、クラスタリング手段23による処理対象とされた複数の可変長カテゴリ系列データについてのクラスタリング対象識別情報(対象ID)と関連付けて記憶するものである。
【0138】
また、図示は省略されているが、記憶手段30には、カテゴリ情報記憶手段が設けられている。このカテゴリ情報記憶手段には、各カテゴリに付帯するメタ情報が、カテゴリ種別の識別情報(A,B,C,…)と関連付けられて記憶されている。
【0139】
<系列データ可視化システム10による処理の流れの概略:図3
【0140】
このような本実施形態においては、以下のようにして系列データ可視化システム10により、複数の可変長カテゴリ系列データの可視化のための処理が行われる。
【0141】
図3において、先ず、図2の選択画面50で、ユーザによるベクトル化方法の選択を受け付ける(ステップS1)。
【0142】
続いて、ユーザが[1-1]を選択した場合には、図4に示すように、Word2Vec等により単語ベクトルを作成し(ステップS21)、作成した単語ベクトルをカテゴリベクトルとして用いて、系列を構成する各カテゴリをベクトル化し、カテゴリベクトルの系列(カテゴリベクトルが並べられた系列、すなわちベクトルデータ)を作成する(ステップS31)。
【0143】
ユーザが[1-2]を選択した場合には、メタ情報を用いてカテゴリベクトルを作成し(ステップS22)、作成したカテゴリベクトルを用いて、系列を構成する各カテゴリをベクトル化し、カテゴリベクトルの系列(カテゴリベクトルが並べられた系列、すなわちベクトルデータ)を作成する(ステップS32)。
【0144】
これらのステップS21,S31およびS22,S32の処理は、ベクトル化手段21によるカテゴリ単位ベクトル化処理である。
【0145】
ユーザが[2A-1]を選択した場合には、図5に示すように、Doc2Vec等により文書ベクトルを作成し(ステップS23)、作成した文書ベクトルにより系列全体を一体的にベクトル化する(ステップS33)。
【0146】
ユーザが[2B-1]を選択した場合には、図6に示すように、TF-IDF等により単語重要度ベクトルを作成し(ステップS24)、作成した単語重要度ベクトルにより系列全体を一体的にベクトル化する(ステップS34)。
【0147】
ユーザが[2B-2]を選択した場合には、図7に示すように、BoWにより単語出現回数ベクトルを作成するか、または単語出現頻度ベクトルを作成し(ステップS25)、作成した単語出現回数ベクトルまたは単語出現頻度ベクトルにより系列全体を一体的にベクトル化する(ステップS35)。
【0148】
これらのステップS23,S33、S24,S34、およびS25,S35の処理は、ベクトル化手段21による系列単位ベクトル化処理である。
【0149】
次に、ユーザが[1-1]、[1-2]を選択した場合には、図4の最下部に示すように、動的時間伸縮法(DTW)により、カテゴリ間の類似度を算出しながら、系列間類似度(系列全体どうしの類似度)を算出する(ステップS41)。
【0150】
ユーザが[2A-1]、[2B-1]、[2B-2]を選択した場合には、系列全体を示すベクトル間の類似度を算出してそれを系列間類似度とする(ステップS42)。
【0151】
これらのステップS41,S42の処理は、系列間類似度算出手段22による処理である。
【0152】
それから、クラスタリング手段23により、階層クラスタリングを行い、デンドログラムを作成する(ステップS5)。
【0153】
その後、出力手段24により、図8図11に示すように、デンドログラムと、可変長カテゴリ系列データの各々とを対応付けて表示または印刷する(ステップS6)。
【0154】
<本実施形態の効果>
【0155】
このような本実施形態によれば、次のような効果がある。すなわち、系列データ可視化システム10は、ベクトル化手段21により、複数の可変長カテゴリ系列データの各々をベクトルに変換し、系列間類似度算出手段22により、ベクトル化処理後のデータを用いて系列間類似度(系列全体どうしの類似度)を算出し、クラスタリング手段23により、系列間類似度を用いて複数の可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成することができる。このため、可変長カテゴリ系列データについて、カテゴリの内容を加味した系列間類似度を算出することができ、適切なクラスタリングを実現することができる。
【0156】
また、出力手段24により、複数の可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、デンドログラムの最下層側の端部と、複数の可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷するので、出力されたクラスタリング結果についての視認性を向上させることができ、ユーザは、一画面で膨大な情報を俯瞰することができる。このため、ユーザは、データへの理解を深めることができる。
【0157】
さらに、ユーザは、出力手段24によりデンドログラムに対応させて配置された複数の可変長カテゴリ系列データを見ることで、グループ別に、特徴的なパターンを抽出することができる。このため、ユーザは、抽出した特徴的なパターンを使って様々な分析を行い、予測を立て、業務の遂行、計画、情報提供、推薦、選択、各種の処理の実行等に役立てることができる。
【0158】
例えば、可変長カテゴリ系列データがシステムエラーメッセージログである場合には、データの収集単位がシステムであるから、障害が起きそうなシステムの検知を行うことができる。また、可変長カテゴリ系列データがシステム操作ログである場合には、データの収集単位が一人の操作者であるから、退職しそうな社員の検知を行うことができる。さらに、可変長カテゴリ系列データが顧客の行動ログである場合には、顧客の商品の購入傾向を把握した商品の推薦など、様々な行動系列の特徴に基づいた推薦や予測を行うことができる。
【0159】
また、ベクトル化手段21は、カテゴリ単位ベクトル化処理を実行し、動的時間伸縮法(DTW)により、カテゴリベクトル間の類似度を算出しながら、系列間類似度(系列全体としての類似度)を算出する構成を備えているので(図2の選択画面50で、[1-1]、[1-2]を選択した場合)、DTWを用いる際に、比較する2つの系列を構成する各カテゴリが、同じでものであるか否かを判断するのではなく、カテゴリの内容を加味してカテゴリ間(カテゴリベクトル間)の類似度を算出して2つの系列の要素間(データ間)の対応付けを行うことができる。このため、DTWの特徴を十分に発揮させることができ、より適切なクラスタリングを実現することができる。
【0160】
さらに、ベクトル化手段21は、カテゴリをベクトルに変換する際に、カテゴリに付帯するメタ情報を用いる構成(図2の選択画面50で、[1-2]を選択した場合)を備えているだけではなく、Word2Vecまたはその他の単語の分散表現を取得する方法により得られた単語ベクトルを用いる構成(図2の選択画面50で、[1-1]を選択した場合)を備えているので、カテゴリの内容を、より一層適切に捉えたベクトル化処理を実現することができ、より一層適切なクラスタリングを実現することができる。
【0161】
また、ベクトル化手段21は、カテゴリ単位ではなく、系列全体を単位とした系列単位ベクトル化処理を実行し、その際に、Doc2Vecまたはその他の文書の分散表現を取得する方法により得られた文書ベクトルを用いる構成(図2の選択画面50で、[2A-1]を選択した場合)を備えているので、可変長の系列から、固定長の文書ベクトル(文書の分散表現)を得ることができ、系列におけるカテゴリの並び順を考慮したベクトル化処理を行うことができる。
【0162】
さらに、ベクトル化手段21は、カテゴリ単位ではなく、系列全体を単位とした系列単位ベクトル化処理を実行し、その際に、単語重要度ベクトル(TF-IDFなど)を求める構成(図2の選択画面50で、[2B-1]を選択した場合)と、BoWにより単語出現回数ベクトルを求めるか、または単語出現頻度ベクトルを求める構成(図2の選択画面50で、[2B-2]を選択した場合)とを備えているので、データ量が少なくても実行が可能となる。なお、この場合は、系列におけるカテゴリの並び順を考慮しないベクトル化処理となる。
【0163】
また、出力手段24は、標準出力処理と、指定カテゴリ前後出力処理と、時間軸出力処理とを、ユーザの選択に従って、切り替えて実行するか、または同時に実行することができるので、ユーザは、クラスタリングの結果を多面的に捉えることができ、より多くの情報を得ることができる。
【0164】
<変形の形態>
【0165】
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
【0166】
(動的時間伸縮法(DTW)を適用するにあたり、カテゴリ間の類似度を予め設定しておく構成)
例えば、前記実施形態では、動的時間伸縮法(DTW)を適用する場合には、図4の最下部に示すように、カテゴリベクトル間(ベクトル化されたカテゴリデータ間)の類似度を算出しながら、2つの系列の要素間(データ間)の対応付けを行い、系列間類似度(系列全体どうしの類似度)を算出していたが、各カテゴリ間の類似度を、単語ベクトル間の類似度として予め算出して設定しておくか、または、ユーザが予め入力設定しておいてもよい。
【0167】
具体的には、例えば、4種類のカテゴリA,B,C,Dがあるとすると、それらの間の類似度を総当たりで設定しておく。これらの類似度は、各カテゴリに対応する単語ベクトル間の類似度として予め算出して設定してもよく、あるいは、ユーザが予め任意の数値を入力して設定してもよい。なお、任意の数値と言っても、妥当性のある数値であることは当然である。従って、AとAとの類似度、AとBとの類似度、AとCとの類似度、AとDとの類似度、BとBとの類似度、BとCとの類似度、BとDとの類似度、CとCとの類似度、CとDとの類似度、DとDとの類似度の合計10個の類似度を設定しておく。これらの設定情報は、図示されない設定情報記憶手段に記憶しておいて系列間類似度算出手段を実現するプログラムで読み込むようにしてもよく、当該プログラム内に記述しておいてもよい。
【0168】
この場合、本発明の系列データ可視化システムは、前記実施形態のベクトル化手段21に相当する手段を備えている必要はなく、その代わりに、次のようなカテゴリ間類似度設定手段(不図示)を備えている必要がある。従って、前記実施形態のベクトル記憶手段32に相当する手段も設ける必要はないが、設けておいて、カテゴリ間の類似度の算出に用いたデータとして、Word2Vecまたはその他の単語の分散表現を取得する方法により得られた単語ベクトルを記憶させておいてもよい。
【0169】
上記のカテゴリ間類似度設定手段(不図示)は、系列データ記憶手段31に記憶されている複数の可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、各カテゴリ間の類似度を、求めた各単語ベクトル間の類似度として算出するか、または、入力手段40からのユーザによる各カテゴリ間の類似度の設定入力を受け付ける処理を実行するものである。
【0170】
そして、この場合の系列間類似度算出手段(前記実施形態の系列間類似度算出手段22に相当する手段)は、上記のカテゴリ間類似度設定手段(不図示)により設定した各カテゴリ間の類似度を用いて、動的時間伸縮法(DTW)のアルゴリズムにより、可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行することになる。
【0171】
なお、この場合のクラスタリング手段および出力手段は、前記実施形態のクラスタリング手段23および出力手段24と同様でよい。
【0172】
このような構成の系列データ可視化システムにした場合には、先ず、カテゴリ間類似度設定手段(不図示)により、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、各カテゴリ間の類似度を、求めた各単語ベクトル間の類似度として予め算出して設定しておくか、または、入力手段40からのユーザによる各カテゴリ間の類似度の入力設定を予め受け付けておく。
【0173】
次に、系列間類似度算出手段により、予め設定(算出設定または入力設定)されている各カテゴリ間の類似度を用いて、動的時間伸縮法(DTW)のアルゴリズムにより、系列間類似度(系列全体どうしの間の類似度)を算出する。従って、動的時間伸縮法のアルゴリズムにより、2つの可変長カテゴリ系列データの各々を構成する各カテゴリを対応付ける際およびそれらの系列間類似度(系列全体どうしの類似度)を算出する際には、予め設定(算出設定または入力設定)されている各カテゴリ間の類似度を用いることになるので、可変長カテゴリ系列データについてカテゴリ単位でのベクトル化を行わなくても、同等の演算を実現することができ、動的時間伸縮法を適用することができる。
【0174】
その後、クラスタリング手段および出力手段(前記実施形態のクラスタリング手段23および出力手段24と同様)による処理を実行するので、前記実施形態と同様な効果を得ることができる。
【0175】
(時間軸を考慮した系列間類似度の算出)
時間軸(時間的な情報)を考慮した系列間類似度(系列全体どうしの類似度)の算出を行うと、それがクラスタリング手段23によるクラスタリング結果に影響し、出力手段24による出力(表示または印刷)に影響する。例えば、系列を構成する各カテゴリおよびそれらの並び順(例えば、ABCAACという並び順)が同じであっても、例えば、令和2年5月のABCAACと、令和2年6月のABCAACとは近いが、令和2年5月のABCAACと、令和4年5月のABCAACとは遠くなるようにベクトル化しておけば、クラスタリング結果は違ってくる。そのようにした場合には、データの発生時期が異なる時期(異なる時間帯、異なる時代など)における類似の系列に比べ、データの発生時期がほぼ同じ時期(同じ時間帯、同じ時代など)における類似の系列は、より一層、類似ということになり、出力手段24による出力処理で絶対的な時間軸表示を行った際でも、デンドログラムにおける近い位置に配置され、かつ、時間軸上でも近い位置に表示または印刷されて見易くなることが期待される。
【0176】
従って、ベクトル化手段によりカテゴリ単位ベクトル化処理を実行する場合には、例えば、ABCAACにおける1番目のAの発生時期の情報、Bの発生時期の情報、1番目のCの発生時期の情報、2番目のAの発生時期の情報、3番目のAの発生時期の情報、2番目のCの発生時期の情報の全部を使用する。具体的には、カテゴリAに対応するWord2Vec等による単語ベクトルまたはカテゴリAのメタ情報を用いたカテゴリベクトルに、カテゴリAのデータの発生時期の情報を示すベクトルを結合し、結合ベクトルを作成する。他の種類のカテゴリB,Cも同様であり、結合ベクトルを作成する。そして、系列間類似度算出手段は、このような各カテゴリA,B,Cに対応する結合ベクトルを用いて、DTWにより、系列間類似度(系列全体どうしの類似度)を算出する。
【0177】
データの発生時期の情報を示すベクトルは、例えば、時間軸を複数の区間に分割し(等間隔で分割する必要はない。)、分割した区間の数に相当する次元数のワンホットベクトル(One hot vector)として用意し、各データの発生時期が帰属する区間に対応する要素を1とし、残りの区間に対応する要素は0とする。例えば、2022年を月で12分割し(この場合は、等間隔での分割となる。)、2022年1月に発生したデータについては、発生時期の情報を示すベクトルを(1,0,0,0,0,0,0,0,0,0,0,0)とする等である。なお、1年を週で52分割してもよく、春夏秋冬のような季節で分割してもよい。
【0178】
また、ベクトル化手段により系列単位ベクトル化処理を実行する場合には、例えば、ABCAACにおける各データの発生時期の情報を統合して統合ベクトルを作成する。この統合ベクトルは、例えば、上記のワンホットベクトルを加算するか、平均化する等により作成する。なお、統合ベクトルは、系列を構成する全データについての発生時期の情報を統合して作成してもよく、一部のデータ(例えば、先頭および最後の2つのデータ、あるいは、先頭と最後と中間の幾つかのデータ)についての発生時期の情報を統合して作成してもよい。そして、Doc2Vec、TF-IDF、BoW等により求めた系列全体を示すベクトルに、統合ベクトルを結合し、系列全体を示す結合ベクトルを作成する。そして、系列間類似度算出手段は、系列全体を示す結合ベクトル間の類似度を算出し、それを系列間類似度(系列全体どうしの類似度)とする。
【0179】
さらに、ベクトル化手段は、カテゴリ単位ベクトル化処理または系列単位ベクトル化処理を実行して時間軸を考慮することなく求めた系列間類似度(系列全体どうしの類似度)を、例えば、西暦元年1月1日(の午前0時0分0秒)から各データの発生時期までのトータル日数、トータル月数、トータル年数、トータル時間数、トータル秒数などの数値を用いて修正し、時間軸を考慮した系列間類似度(系列全体どうしの類似度)を算出してもよい。
【産業上の利用可能性】
【0180】
以上のように、本発明の系列データ可視化システムおよびプログラムは、例えば、システムエラーメッセージログ、システム操作ログ、顧客の行動ログ、営業員の行動ログ、顧客の購買履歴、システムへのアクセスログ、Webの閲覧ログ等を構成する各種のラベルをカテゴリとし、これらのカテゴリを並べて形成された可変長カテゴリ系列データを可視化する場合に用いるのに適している。
【符号の説明】
【0181】
10 系列データ可視化システム
21 ベクトル化手段
22 系列間類似度算出手段
23 クラスタリング手段
24 出力手段
31 系列データ記憶手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-04-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
可変長カテゴリ系列データの可視化のための処理を実行するコンピュータにより構成された系列データ可視化システムであって、
系列データ記憶手段に記憶されている複数の前記可変長カテゴリ系列データの各々を数値で構成されるベクトルに変換するベクトル化処理を実行するベクトル化手段と、
このベクトル化手段により得られた複数の前記可変長カテゴリ系列データの各々についてのベクトル化処理後のデータを用いて、前記可変長カテゴリ系列データどうしの間の類似度を示す系列間類似度を算出する処理を実行する系列間類似度算出手段と、
この系列間類似度算出手段により得られた前記系列間類似度を用いて複数の前記可変長カテゴリ系列データについて階層クラスタリングを行い、デンドログラムを作成する処理を実行するクラスタリング手段と、
このクラスタリング手段によるクラスタリング対象とされた複数の前記可変長カテゴリ系列データの各々におけるカテゴリの並び順を保持した状態で、前記クラスタリング手段により作成した前記デンドログラムの最下層側の端部と、複数の前記可変長カテゴリ系列データの各々とを対応付けて画面表示または印刷する処理を実行する出力手段と
を備えたことを特徴とする系列データ可視化システム。
【請求項2】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々について、前記可変長カテゴリ系列データを構成するカテゴリの各々を前記ベクトルに変換してカテゴリベクトルの系列を作成するカテゴリ単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記カテゴリベクトルの系列に含まれる前記カテゴリベクトルの各々を用いて、動的時間伸縮法により、前記カテゴリベクトル間の類似度を算出しながら、前記系列間類似度を算出する処理を実行する構成とされている
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項3】
前記ベクトル化手段による前記カテゴリ単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を構成するカテゴリの系列を用いて、カテゴリを単語とみなし、Word2Vecまたはその他の単語の分散表現を取得する方法により単語ベクトルを求め、この単語ベクトルを前記カテゴリベクトルとして用いて、前記可変長カテゴリ系列データを構成するカテゴリの各々を、対応する単語ベクトルに置き換えることにより、前記カテゴリベクトルの系列を作成する処理である
ことを特徴とする請求項2に記載の系列データ可視化システム。
【請求項4】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々を系列全体として一体的に前記ベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記系列間類似度として、前記ベクトル化手段による前記系列単位ベクトル化処理で得られた系列全体を示す前記ベクトル間の類似度を算出する処理を実行する構成とされ、
前記ベクトル化手段による前記系列単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を文書とみなし、これらの複数の前記可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、Doc2Vecまたはその他の文書の分散表現を取得する方法により、文書ベクトルを求め、複数の前記可変長カテゴリ系列データの各々を、求めた各文書ベクトルに置き換える処理である
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項5】
前記ベクトル化手段は、
複数の前記可変長カテゴリ系列データの各々を系列全体として一体的に前記ベクトルに変換する系列単位ベクトル化処理を実行する構成とされ、
前記系列間類似度算出手段は、
前記系列間類似度として、前記ベクトル化手段による前記系列単位ベクトル化処理で得られた系列全体を示す前記ベクトル間の類似度を算出する処理を実行する構成とされ、
前記ベクトル化手段による前記系列単位ベクトル化処理は、
複数の前記可変長カテゴリ系列データの各々を文書とみなし、これらの複数の前記可変長カテゴリ系列データの各々を構成するカテゴリを単語とみなし、文書中の各単語の重要度を示す単語重要度ベクトルを求めるか、または、文書中の各単語の出現回数若しくは出現頻度を示す単語出現回数ベクトル若しくは単語出現頻度ベクトルを求め、複数の前記可変長カテゴリ系列データの各々を、求めた各単語重要度ベクトルまたは各単語出現回数ベクトル若しくは各単語出現頻度ベクトルに置き換える処理である
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項6】
前記出力手段は、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
複数種類のカテゴリの中からユーザにより選択された指定カテゴリ、並びに、系列においてこの指定カテゴリよりも並び順の前方および/または後方に配置されたユーザの指定個数若しくは予め定められた個数のカテゴリの各データを、これらのカテゴリの並び順を保持した状態で、画面表示若しくは印刷する指定カテゴリ前後出力処理とを、
切り替えて実行するか、または同時に実行する構成とされている
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項7】
前記系列データ記憶手段には、
複数の前記可変長カテゴリ系列データの各々を構成する各カテゴリのデータと、これらのデータの発生時期とが関連付けられて記憶され、
前記出力手段は、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、並び順の方向に詰めて画面表示若しくは印刷するか、または、同じ間隔を空けて画面表示若しくは印刷する標準出力処理と、
前記可変長カテゴリ系列データを構成する各カテゴリのデータを、これらのデータに対応する前記発生時期を用いて、絶対的な時間軸上および/または先頭のデータの前記発生時期からの相対的な時間軸上で画面表示若しくは印刷する時間軸出力処理とを、
切り替えて実行するか、または同時に実行する構成とされている
ことを特徴とする請求項1に記載の系列データ可視化システム。
【請求項8】
請求項1に記載の系列データ可視化システムとして、コンピュータを機能させるためのプログラム。