(58)【調査した分野】(Int.Cl.,DB名)
前記データ分析支援処理部は、過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する請求項8に記載のシステム。
【図面の簡単な説明】
【0014】
【
図2】第一の実施の形態の作業1の手順の一例を示すフローチャートである。
【
図3-A】第一の実施の形態の分析処理手順作成ダイアログの一例である。
【
図3-B】第一の実施の形態の可視化コンテンツ作成ダイアログの一例である。
【
図4-A】第一の実施の形態の分析処理手順のデータ構造及びデータの一例である。
【
図4-B】第一の実施の形態の可視化処理手順のデータ構造及びデータの一例である。
【
図5】第一の実施の形態の入力データ選択用ダイアログの一例である。
【
図6-A】第一の実施の形態の可視化コンテンツ編集ダイアログの一例である。
【
図6-B】第一の実施の形態の可視化コンテンツ編集ダイアログの表に関するパラメータ設定ダイアログの一例である。
【
図6-C】第一の実施の形態の可視化コンテンツ編集ダイアログのグラフに関するパラメータ設定ダイアログの一例である。
【
図7-A】第一の実施の形態の分析パターン作成手順の一例を示すフローチャートである。
【
図7-B】第一の実施の形態の可視化テンプレート作成手順の一例を示すフローチャートである。
【
図7-C】第一の実施の形態における、利用者が選択した選択データ、可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する手順の一例である
【
図7-D】
図7−CのS712の手順を詳細化した手順である。
【
図8-A】第一の実施の形態の分析パターン作成のイメージを示す図である。
【
図8-B】第一の実施の形態の分析パターンのデータ構造の一例を示す図である。
【
図8-C】第一の実施の形態の分析パターンのデータの一例を示す図である。
【
図9-A】第一の実施の形態の可視化テンプレート作成のイメージを示す図である。
【
図9-B】第一の実施の形態の可視化テンプレートのデータ構造の一例を示す図である。
【
図9-C】第一の実施の形態の可視化テンプレートの一例を示す図である。
【
図10-A】第一の実施の形態の可視化部品として「棒グラフ」が選択された場合の可視化コンテンツ編集支援情報生成イメージ(1)である。
【
図10-B】第一の実施の形態の可視化部品として「棒グラフ」が選択された場合の可視化コンテンツ編集支援情報生成イメージ(2)である。
【
図11】第一の実施の形態のS206の可視化コンテンツ編集支援情報が表またはグラフパラメータ設定ダイアログにセットされる手順を示すフローチャートの一例である。
【
図12-A】第一の実施の形態のS2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(1)である。
【
図12-B】第一の実施の形態のS2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(2)である。
【
図13-A】第一の実施の形態のS2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(1)である。
【
図13-B】第一の実施の形態のS2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(2)である。
【
図14】第一の実施の形態のS207の手順を詳細化した手順の一例である。
【
図15】第一の実施の形態のS2071〜S2082の処理の結果生成される分析処理手順データの一例及び分析処理手順データを実行結果のイメージを示す図である。
【
図16】第二の実施の形態の可視化コンテンツ編集ダイアログの一例である。
【
図17-A】第三の実施の形態の分析パターンのデータ構造の一例を示す図である。
【
図17-B】第三の実施の形態の分析パターンのデータの一例を示す図である。
【
図18】第三の実施の形態の類似度算出の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第一の実施の形態)
図1は、本実施の形態の分析支援システムのブロック図である。
図1に記載の分析支援システム(計算機システム)は、サーバ101、計算機102、ディスプレイ103、入力装置104、ネットワーク105、106及びデータベース1004(DB)107を備える。
サーバ101と計算機102はネットワーク105を介して互いに接続され、サーバ101とDB107はネットワーク106を介して互いに接続される。
サーバ101、計算機102は、利用者100が分析作業を行う際に利用される。さらに、分析作業に関わる機能を提供し、機能実行時の履歴を収集し、後述するテンプレートを状況に合わせて抽出・推奨することにより利用者100の分析作業を支援する。
【0016】
また、サーバ101及び計算機102は、一例として一般的なPCを用いることができる。サーバ101及び計算機102は、プロセッサ、メモリ及びインターフェースを備える。プロセッサは、メモリに記憶されたプログラムを処理することによって、各種処理を実行する。メモリは、処理を実行するためのプログラム及びデータを記憶する。インターフェースは、キーボード、マウスなどの入力装置104に接続するもの、ディスプレイ103に接続するもの、ネットワーク105を介して、サーバ101、計算機102を相互に接続するもの、及び、ネットワーク106を介してサーバ101とDB107などに接続するもの、などを備える。
DB107は、例えば、企業に関わる情報、各種統計データ、センサ等の時系列データ、Webアクセスログなどの各種データを保持するデータベースである。DB107は、サーバ101に含まれるように構成してもよいし、外部のストレージ装置に格納され、ネットワーク106を介してサーバ101に接続されるように構成してもよい。
サーバ101は、例えば、入力データ作成部111、分析処理実行部112、データ可視化部113、処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部(処理手順推奨部)117、処理手順分析部118、テンプレートDB119、及び、処理手順DB120を備える。入力データ作成部111、分析処理実行部112、データ可視化部113、処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部117、及び、処理手順分析部118は例えば、プログラムであってメモリに記憶され、プロセッサによって実行されて各部の機能が実現される。
入力データ作成部111は、利用者100あるいは処理手順実行部116の指示によりDB107から所望のデータを抽出し、抽出したデータに入力データ作成処理を施すことにより、分析対象データを作成する。
分析処理実行部112は、利用者100あるいは処理手順実行部116の指示により、入力データ作成部111が作成した分析対象データにデータ処理を施し、処理結果データを作成する。
【0017】
データ可視化部113は、利用者100あるいは処理手順実行部116の指示により、分析処理実行部112が作成した処理結果データに可視化処理を施し、可視化する。
処理手順記録部114は、入力データ作成部111、分析処理実行部112、データ可視化部113の各処理を処理手順DB120に記録する。
処理構築部115は、可視化コンテンツ編集支援情報を作成し、分析処理を構築する。
処理手順実行部116は、利用者100の指示により、処理手順DB120から処理手順を取り出し、処理手順の内容に従って入力データ作成部111、分析処理実行部112、データ可視化部113に指示し、分析処理の実行を制御する。
処理手順推奨部117は、予め定められた基準で処理手順DB120から処理手順を抽出し、ディスプレイなど適宜の出力装置により利用者100に提示する。
計算機102は、入力データ選択部121、可視化テンプレート編集部122、分析処理手順作成部123を備える。
【0018】
入力データ選択部121は、利用者100の指示により、入力データを選択するためのダイアログを表示し、利用者の選択結果を保持する。
可視化テンプレート編集部122は、利用者100の指示により、可視化テンプレートを編集するためのダイアログを表示し、利用者の編集結果を保持する。
分析処理手順作成部123は、利用者100の指示により、分析処理手順を作成するためのダイアログを表示し、利用者が作成した分析処理手順を保持する。
各ダイアログは、例えばディスプレイ103に表示され、入力装置104を用いて利用者からの各指示、選択結果、編集結果等が入力される。
サーバ101及び計算機102の各部は、ひとつの装置で構成されてもよいし、適宜分散して構成されてもよい。なお、本明細書において、例えば、サーバ101の処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部(処理手順推奨部)117及び処理手順分析部118と、計算機102の可視化テンプレート編集部122及び分析処理手順作成部123とを併せて、データ分析支援処理部と称する。
上述の分析支援システムの構成は、第一の実施の形態に限らず、他の実施の形態にも適用できる。
【0019】
図2は、第一の実施の形態の手順の一例を示すフローチャートである。
本フローチャートは、計算機102とサーバ101を含むシステム全体の動作を概略的に示す。より詳細については後述する。
まず、本実施の形態の分析支援機能を利用しない場合(S201)、計算機102(例えば分析処理手順作成部123)は、ディスプレイ103に
図3−Aに示す分析処理手順作成ダイアログを表示する(S202)。計算機102(例えば分析処理手順作成部123)は、ユーザ100が入力装置104を用いて、分析処理単位選択部301Aの「データ選択」「集約」「フィルタリング」等の分析処理単位を選択することによって作成される分析処理手順をサーバ101に送付する。サーバ101(例えば分析処理実行部112)では、受信した分析処理手順に従い分析処理を実行し、実行結果を計算機102に送付する(S203)。
【0020】
次に、計算機102は、ディスプレイ103に
図3−Bに示す可視化コンテンツ作成ダイアログをディスプレイ103に表示する。ユーザ100が入力装置104を用いて可視化部品選択部301Bに含まれる項目を選択し、可視化コンテンツ表示部302Bに追加することにより、計算機102は可視化コンテンツを作成する(S204)。可視化コンテンツには例えば受信した分析処理の実行結果が、選択された項目(例えば表やグラフ)に従い可視化されている。計算機102は、ディスプレイ103にS204の結果の可視化コンテンツを表示する(S209)。サーバ(例えば処理手順記録部114)が分析処理手順、可視化処理手順を処理手順DB120に記録する(S210)。
【0021】
図3−Aに分析処理手順作成ダイアログの一例をしめす。
利用者が分析処理手順を作成する際には、分析処理単位選択部301Aに含まれる項目を選択し、分析処理単位シーケンス表示部302Aに追加することにより、分析処理手順を作成する。分析処理手順作成の開始時、または途中で処理手順推奨部117が処理手順DB120から作成の状況に合わせて処理手順を抽出し、利用者に推薦することもできる。
ここで分析処理手順とは、分析処理単位(例えば、分析処理の最小単位。適宜の処理単位でもよい)の系列を指す。分析処理単位は具体的には、分析処理単位選択部301Aに表示されているような、「データ選択」「集約」「フィルタリング」「演算」「編集」のような処理を指す。
【0022】
図3−Bに可視化コンテンツ作成ダイアログの一例を示す。利用者が可視化コンテンツを作成する際には、可視化部品選択部301Bに含まれる項目(可視化部品)を選択し、可視化コンテンツ表示部302Bに追加することにより、可視化コンテンツを作成する。可視化コンテンツ作成の開始時、または途中で処理手順推奨部117が処理手順DB120からS203の結果えられる分析処理実行結果に合わせて可視化部品を利用者に推薦することもできる。
図2に戻り、フローチャートの説明を続ける。本実施の形態の分析支援機能を利用する場合(S201)、計算機102は、ディスプレイ103に、例えば
図5に示す入力データ選択ダイアログ、及び、
図6−Aに例示する可視化コンテンツ編集ダイアログを表示する(S205)。計算機102は、利用者が入力装置104を利用して入力データ選択ダイアログで選択したデータ及び可視化コンテンツ編集ダイアログで作成した可視化部品情報をサーバ101に送付し、サーバ101の処理構築部115が選択データ(選択された入力データ)及び可視化部品情報に基づき、後述する可視化コンテンツ編集支援情報(例えば、可視化のための設定項目の候補)を作成し、計算機102に送付する(S206)。
図6−Bに例示する表に関するパラメータ設定ダイアログ、又は、
図6−Cに例示するグラフに関するパラメータ設定ダイアログと、可視化コンテンツ編集支援情報を利用してユーザによる入力装置104の操作により可視化コンテンツを編集する。例えば、表示された設定項目の候補の中から所望の設定項目が選択される。計算機102は、編集結果をサーバ101に送付し、処理構築部115が選択データ、可視化コンテンツ編集結果に基づき分析処理を構築する(S207)。分析処理実行部112が構築された分析処理を実行し、実行結果を計算機102に送付する(S208)。ディスプレイ103にS208の結果の可視化コンテンツを表示する(S209)。ここでの可視化コンテンツは、例えば、指定された可視化部品情報及び設定項目に従い処理結果が、表示される。処理手順記録部114が分析処理手順、可視化処理手順を処理手順DB120に記録する(S210)。
【0023】
図4−Aに分析処理手順のデータ構造及びデータの一例を、
図4−Bに可視化処理手順のデータ構造及びデータの一例を示す。このようなデータが処理手順DB120に記録される。
【0024】
図5は入力データ選択用ダイアログである。入力データ一覧表示領域501に表示されたデータを、入力装置104を用いてユーザ100が選択し、OKボタン502を押下げることで入力データの選択を決定する。
【0025】
図6−Aは可視化コンテンツ編集ダイアログの一例である。ユーザが可視化コンテンツを編集する際には、入力装置104を用いて可視化部品選択部601Aに含まれる項目を選択し、可視化コンテンツ表示部602Aに追加することにより、可視化コンテンツを編集する。例えば可視化部品選択部601Aで表を選択した場合、計算機102は表に関するパラメータ設定のための表パラメータ設定ダイアログ(
図6−B)を表示し、グラフのうちいずれかを選択した場合には、計算機102はグラフに関するパラメータ設定のためのグラフパラメータ設定ダイアログ(
図6−C)を表示する。
【0026】
図6−Bに例示する表パラメータ設定ダイアログは、例えば、表側列候補一覧表示部(601B)と、表側列編集部(602B)と、表頭列パターン一覧表示部(603B)と、表頭列候補一覧表示部(604B)と、表頭列用選択列表示部(605B)とを含む。また、OKボタン(606B)とキャンセルボタン(608B)を含む。
【0027】
図6−Cに例示するグラフパラメータ設定ダイアログは、例えば、視点一覧表示部(601C)と、視点編集部(602C)と、X軸パターン一覧表示部(603C)と、X軸候補一覧表示部(604C)と、X軸パターン編集部(605C)と、Y軸パターン一覧表示部(606C)と、Y軸候補一覧表示部(607C)と、Y軸パターン編集部(608C)とを含む。また、OKボタン(609C)とキャンセルボタン(610C)を含む。
【0028】
図7−A、
図7−B、
図7−C、
図7−Dは表パラメータ設定ダイアログ(
図6−B)、グラフパラメータ設定ダイアログ(
図6−C)の各部で表示するデータを作成するための手順を示すフローチャートである。
まず
図7−Aの分析処理手順から分析パターンを作成する処理について、
図8−Aを参照して説明する。ここで分析パターンとは
図8−Aの802に示すような、分析処理手順(例えば
図8−Aの801)に連続して含まれる2つ以上の分析処理単位の組である。ここでは、連続する2つの分析処理単位の組として説明する。分析処理手順は、分析処理単位を処理順に並べたものである。処理手順分析部118が処理手順DB120から、分析パターン作成に関して未処理の分析処理手順Mを取得する(S701)。処理手順分析部118は、分析処理手順MのN番目(Nは1以上の整数)の分析処理単位とN+1番目の分析処理単位の組を取り出し、分析パターンを作成する(S702)。処理手順分析部118は、処理手順DB120に未処理の分析処理手順がなくなるまでS701、S702を繰り返す(S703)。処理手順分析部118は、作成された分析パターンが分析処理手順内で出現する確率(遷移確率)を求める。遷移確率は、分析パターンの始点となる分析処理単位の次に、分析パターンの終点となる分析処理単位が実行される確率を示す。なお、処理手順分析部118は、テンプレートDB119に分析パターンを記憶してもよい。
【0029】
図8−Aに分析パターン作成のイメージを示す。
図8−Aでは分析処理手順A〜E(801)を処理し、8以上の分析パターン(802)を作成している。
図8−Aの803は分析処理単位の一例であり、801、802の円の中の数字と表中の数字が対応している。
図8−Bに分析パターンのデータ構造の一例、また
図8−Cに分析パターンのデータの一例を示す。
【0030】
次に
図7−Bの可視化テンプレート作成に関する処理について、
図9−Aに可視化テンプレート作成のイメージを引用しながら説明する。ここで可視化テンプレートとは、可視化処理(
図9−Aの901、データ構造及び内容の例は
図9−Aの904)と分析処理結果のデータ(
図9−Aの902)との関連を示すデータである。処理手順分析部118が処理手順DB120から分析処理手順群G(
図9−Aの905)と、可視化テンプレート作成に関して未処理の可視化処理手順M(
図9−Aの904)を取得する(S704)。処理手順分析部118は、分析処理手順群Gから可視化処理手順Mの分析処理IDに該当する分析処理手順Qを取得する(S705)。分析処理手順Qの最後の分析処理単位Nと可視化処理手順Mの可視化部品の組を作成し、可視化テンプレートTを作成する(S706)。可視化テンプレートTは、例えば
図9−Bに示す情報を含む。処理手順分析部118は、可視化テンプレートTの選択列を一般化し、可視化テンプレートTを更新する(S707)。処理手順DB120に未処理の分析処理手順がなくなるまでS704〜S707を繰り返す(S708)。なお、処理手順分析部118は、テンプレートDB119に可視化テンプレートTを記憶してもよい。
【0031】
ここでS707の一般化の例を示す。
(1)Y軸列のリストに含まれる文字列に法則がある場合、パターンに置き換える。例:Y軸列リスト「2012年04月、2012年05月、…」の場合、Y軸「yyyy年MM月」。例:Y軸列リスト「S1000、S1001、S1002、…」の場合、Y軸「S####」(#は数字1文字を表す)
(2)X軸列の内容により、カテゴリに置き換える。例:数値データの場合:数値データ列、日付データの場合:日付データ列、文字列の場合:文字列データ列、など。
【0032】
図9−Aに可視化テンプレート作成のイメージ、
図9―Bに可視化テンプレートのデータ構造の一例、
図9―Cに可視化テンプレートの一例を示す。可視化テンプレートには少なくとも、直前処理(
図9−Aの902)や選択データ情報(
図9−Aの903で選択された入力データの列名、列の要素などの情報)、処理結果データ情報(
図9−Aの902を実行した時点でのデータ列名、データ要素などの情報)が含まれる。
【0033】
図7−Cは利用者が選択した選択データ、可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する手順の一例である。
まず、処理構築部115がテンプレートDB119から分析パターン、可視化テンプレートを取得する(S711)。処理構築部115が選択データと可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する(S712)。詳細は後述する。処理構築部115が、予め決められた基準で並べ替えた可視化コンテンツ編集支援情報を計算機102に送付する(713)。
【0034】
図7−DはS712の手順を詳細化した手順である。
図7−Dでは予め決められた基準を「遷移確率が大きい順」としているが、他には例えば、「「入力データ選択」から可視化処理までの分析処理単位数が少ない順」などでもよいし、他の基準でもよい。これらは設定ファイルなどで切り替えられるものとする。
【0035】
以下の説明において、J、Kはパラメータ、Nは分析処理単位、L、L0はリスト、Mは処理対象の分析処理単位また可視化処理を表す。以下の処理は、処理構築部115が実行する。
空のリストL、J=1、K=1、分析処理単位N=「入力データ選択」、空のリストL0とし、L0にNを追加、L0をLに追加する(S7121)。分析処理単位Nからの遷移確率がK番目に大きい分析処理単位また可視化処理をテンプレートDB119から取得し、Mとする(S7122)。NとMの組をまだ処理していなければS7124に進む。処理済の場合、K=K+1としてS7122に進む(S7123、S7126)。Mが可視化処理の場合、L0をリストL1にコピーし、L0にMを追加し、L0をLに登録し、L0にL1を代入しK=K+1としてS7122に進む。Mが可視化処理ではない場合、S7127に進む(S7124〜S7126)。
Mが空の場合、J=J−1、L0の先頭からJ番目までをリストL1にコピーし、K=1とし、J=0の場合S713に進む。J=0ではない場合S7122に進む(S7127、S7133、S7234)。
Mが空ではない場合、選択データにL0に含まれる分析処理を適用した結果のデータをDとし、データDに分析処理単位Mを適用する(S7127〜S7129)。適用可能な場合、L0にMを追加、N=M、J=J+1、K=1として、S7122に進む(S7130、S7131)。適用可能ではない場合、K=K+1としてS7122に進む(S7130、S7132)。
【0036】
ここで適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合。
また以下の場合適用不可とする。
分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が0の場合。
【0037】
図10−A及び
図10−Bに、可視化部品として「棒グラフ」が選択された場合の、可視化コンテンツ編集支援情報生成イメージ示す。可視化コンテンツ編集支援情報は
図10−Aに示すように、「入力データ選択」から「棒グラフ」の間を埋める処理手順を、分析パターンと可視化テンプレートを用いて、予め決められた基準で構築するための情報である。
例えば、処理構築部115は、テンプレートDB119から取得した分析パターンと可視化テンプレートに基づき、選択された入力データ(ここでは処理単位識別番号「1」)から選択された可視化部品(ここでは棒グラフ)への処理手順候補(可視化コンテンツ編集支援情報)をひとつ又は複数求める。例えば、分析パターンが示す処理の遷移と、可視化テンプレートが示す最終の分析処理単位から可視化部品への遷移をたどり、処理手順候補を求める。複数の処理手順候補は、遷移確率が大きい順などの予め定められた基準に従い並べる(順位付けする)ことができる。なお、可視化部品として棒グラフ以外が選択された場合も同様である。
【0038】
図11は、S206の可視化コンテンツ編集支援情報が表またはグラフパラメータ設定ダイアログにセットされる手順を示すフローチャートである。まず、計算機102は、可視化コンテンツ編集ダイアログの可視化部品選択部601Aの選択結果(選択された可視化部品)を取得し、選択データ(選択された入力データ)と共にサーバ101に送付する(S2061)。サーバ101の処理構築部115がS7121〜S7134で作成し、送付した可視化コンテンツ編集支援情報を、可視化テンプレート編集部122が受け取る(S2062)。可視化テンプレート編集部122は、選択された可視化部品に応じて表またはグラフ用のパラメータ設定ダイアログ(例えば
図6−B、
図6−C参照)を用意し、各一覧表示部に値をセットする(S2063)。可視化テンプレート編集部122は、各一覧表示部の選択結果を取得し、S207へ進む(S2064)。
【0039】
図12−A、
図12−Bに、S2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージを示す。利用者100が「棒グラフ」を選択した場合、サーバ101がS7121〜S7134の処理を実行して、表示部品が「棒グラフ」となる分析処理手順、可視化テンプレートの系列群を生成し、可視化コンテンツ編集支援情報とする。視点候補一覧表示部601Cには可視化テンプレートの視点選択列及び可視化処理の直前までの分析処理結果データに含まれる列を表示する(12A)。X軸パターン一覧表示部603Cには、可視化テンプレートの選択列のX軸パターンを表示する(12B)。X軸候補一覧表示部604Cには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(12C)。Y軸パターン一覧表示部606Cには、可視化テンプレートの選択列のY軸パターンを表示する(12D)。Y軸候補一覧表示部607Cには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(12E)。
【0040】
図13−A、
図13−Bに、S2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージを示す。利用者100が「表」を選択した場合、サーバ101がS7121〜S7134の処理を実行して、表示部品が「表」となる分析処理手順、可視化テンプレートの系列群を生成し、可視化コンテンツ編集支援情報とする。表側列候補一覧表示部601Bには可視化テンプレートの表側選択列及び可視化処理の直前までの分析処理結果データに含まれる列を表示する(13A)。表頭列パターン一覧表示部603Bには、可視化テンプレートの選択列の表頭パターンを表示する(13B)。表頭列候補一覧表示部604Bには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(13C)。
このように、過去に可視化に用いられたデータを示す選択列と、過去の処理結果のデータとを、各一覧表示部に表示して、ユーザによる選択を支援する。
【0041】
図14は、S207の手順を詳細化した手順である。
図14でも予め決められた基準を「遷移確率が大きい順」としているが、他には例えば、「「入力データ選択」から可視化処理までの分析処理単位数が少ない順」などが考えられる。これは設定ファイルなどで切り替えられるものとする。
以下の説明において、Kはパラメータ、Nは分析処理単位、Lはリスト、Mは処理対象の分析処理単位また可視化処理、Gは可視化処理を表す。以下の処理は、処理構築部115が実行する。
空のリストL、K=1、分析処理単位N=「入力データ選択」、可視化処理G=利用者100による可視化コンテンツ編集結果とし、LにNを追加する(S2071)。分析処理単位Nからの遷移確率がK番目に大きい分析処理単位または可視化処理をテンプレートDB119から取得し、Mとする(S2072)。NとMの組をまだ処理していなければS2075に進む。処理済の場合K=K+1としてS2072に進む(S2073、S2074)。M=Gの場合、LにMを追加し、分析処理として出力しS209に進む(S2075、S2076)。M=Gではなく、Mが空の場合K=K+1としてS2072に進む(S2077、S2074)。Mが空でない場合、選択データにLに含まれる分析処理を適用した結果のデータをDとし、データDに分析処理単位Mを適用する(S2077〜S2079)。適用可能の場合、LにMを追加、N=M、K=1として、S2072に進む(S2080、S2081)。適用可能ではない場合、K=K+1としてS2072に進む(S2080、S2082)。上記の処理の結果生成される分析処理手順は、
図15に示すように、分析処理手順と可視化処理手順を合わせたデータとなる。また、
図15に上記の処理の結果生成される分析処理手順を実行した結果のイメージを示す。
【0042】
ここで適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合
(3)(1)(2)以外の場合でも、分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が1以上の場合
第一の実施の形態によれば、利用者は入力データ選択及び可視化コンテンツ編集を行うだけで、その間を埋める分析手順については意識することなく、望みの可視化コンテンツを作成することが可能となるため、利用者100の分析作業の手間を削減することが可能となる。
【0043】
(第二の実施の形態)
第一の実施の形態では利用者が可視化部品を選択し、並べることで可視化コンテンツを作成したが、第二の実施の形態では、既存のコンテンツを利用することで可視化コンテンツを作成する。
図16は第二の実施の形態の可視化コンテンツ編集ダイアログである。第二の実施の形態の可視化コンテンツ編集ダイアログは可視化コンテンツ事例選択部(605A)をさらに含む。可視化コンテンツ事例選択部(605A)には、過去に可視化した例(例えば可視化イメージ)が示される。利用者が可視化コンテンツを編集する際に、可視化コンテンツ事例選択部605Aに表示される可視化コンテンツ事例を選択し、必要に応じて、可視化部品選択部601Aに含まれる項目を選択し、可視化コンテンツ表示部602Aに追加することにより、可視化コンテンツを編集する。
可視化コンテンツ事例の各可視化部品は
図4−A、Bに示す分析処理手順及び可視化処理手順と紐づいているため、第一の実施の形態と同様の処理を施すことにより、利用者が望む可視化コンテンツを生成することができる。
第二の実施の形態によれば、利用者は既存の可視化コンテンツを利用したい場合、データと既存コンテンツを選択するだけで、その間を埋める分析手順については意識することなく、望みの可視化コンテンツを作成することが可能となる。また、利用者100の分析作業の手間を削減することが可能となる。
【0044】
(第三の実施の形態)
第一の実施の形態のS7130、S2080でのデータDに対する分析処理単位Mの適用可能判定は、データDがパラメータPに指定された列名や要素を含むかどうかで判定されることが多いため、分析処理単位Mの適用可能範囲が小さくなってしまう。これに対し第三の実施の形態では、パラメータPの列名や要素を要素数や出現頻度に基づく類似度を加味することにより、分析処理単位Mの適用可能範囲を拡張する。
例えば、過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する。
より詳細には、適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合
(3)パラメータPが列名Aと要素名αのとき、データDが列名Aを含まない場合、または列名Aを含むが列Aが要素名αを含まない場合、分析処理単位Mのデータ情報から列名Aの情報を抽出し、列名Aと類似するデータDの列Bおよび要素名αと類似する列B中の要素を抽出する。類似列および類似要素を抽出可能な場合、適用可能とする。ここで列の類似は例えば、列の各要素の出現頻度または出現率が大きい順に差を計算し、その総和を類似度としその差が予め定められた閾値より小さい場合類似しているとする。また要素の類似は、出現頻度あるいは出現率の差が閾値より小さい場合類似しているとする。類似の定義は目的に応じて変更することが可能である。
また以下の場合適用不可とする。
分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が0の場合。
【0045】
図17−A、17−Bに第三の実施の形態の分析パターンのデータ構造とデータの一例を示す。
【0046】
図18に類似度算出の一例、パラメータP及びデータDが下記のような構成であり、閾値を30とした場合の各列、各要素の類似度算出の流れを説明する。
パラメータPの列「A」が要素αを含む割合が40%、要素βを含む割合が35%、要素γを含む割合が15%、要素δを含む割合が10%、…とする。データDは列「B」「C」「D」…を含むとし、列「B」はB1〜B4の4つの要素を含み、B1が45%、B2が30%、B3が15%、B4が5%の割合で含まれる。列「C」はC1、C2の二つの要素を含み、C1、C2ともに50%の割合で含まれる。列「D」はD1〜D4…の要素を含み、D1が5%、D2が4%、D3が4%、D4が3%、…の割合で含まれるものとする。この場合、各列の類似度を以下のように算出する。列「A」「B」間の類似度A−Bは|40−45|+|35−30|+|15−15|+|10−5|=15となる。
列「A」「C」間の類似度A−Cは|40−50|+|35−50|+|15−0|+|10−0|=15となる。列「A」「D」間の類似度A−Dは|40−5|+|35−4|+|15−4|+|10−3|+…=168となる。閾値30の場合、列「A」に類似する列は列「B」であり、要素αに最も類似する列「B」の要素はB1である。
【0047】
ここで|X−Y|はX−Yの絶対値を表すものとする。類似度の算出方法は様々考えられるが、ここでは、各列の割合が大きい順に要素を並び替え、1番大きい要素同士、2番目に大きい要素同士、…の割合を引算し、列間の要素数が等しくない場合は、例えば類似度A−Cのように列「A」の要素数が4、列「C」の要素数が2の場合は、3番目に大きい要素同士、4番目に大きい要素同士の引算は0と引算する方式を採用している。この算出方法の場合、類似度が小さい方が類似していることとなり、閾値を下回る列がない場合は、類似列なしとする。
第三の実施の形態によれば、パラメータPの列名や要素を要素数や出現頻度に基づく類似度を加味することにより、分析処理単位Mの適用範囲を拡張することが可能となる。
【0048】
(構成例)
[構成例1]
利用者が入力データ、可視化方法を指定すると、入力データに対して指定された可視化方法の実現に必要な処理手順を自動生成する分析支援方法及びシステム。
[構成例2]
表の列、グラフの軸を指定することで可視化方法の指定を支援する可視化コンテンツ作成支援方法及びシステム。
[構成例3]
既存コンテンツを指定することで分析手順、可視化方法の指定を支援する可視化コンテンツ作成支援方法及びシステム。
[構成例4]
分析処理の履歴、可視化処理の履歴を利用して、可視化方法の指定を支援するデータを生成する分析手順再構築方法及びシステム。
[構成例5]
分析処理の履歴、可視化処理の履歴を分析し、分析処理の分解、再構築を行う構成例4の分析手順再構築方法及びシステム。
[構成例6]
データ間の類似度を加味して、分析処理の適用の拡張を行う構成例4の分析手順再構築方法及びシステム。
【0049】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれている。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0050】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。