特許第6025520号(P6025520)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6025520
(24)【登録日】2016年10月21日
(45)【発行日】2016年11月16日
(54)【発明の名称】データ分析支援処理システム及び方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20161107BHJP
【FI】
   G06F17/30 310A
   G06F17/30 220Z
【請求項の数】12
【全頁数】24
(21)【出願番号】特願2012-257486(P2012-257486)
(22)【出願日】2012年11月26日
(65)【公開番号】特開2014-106611(P2014-106611A)
(43)【公開日】2014年6月9日
【審査請求日】2015年8月3日
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】100107010
【弁理士】
【氏名又は名称】橋爪 健
(72)【発明者】
【氏名】本林 正裕
(72)【発明者】
【氏名】古川 直広
(72)【発明者】
【氏名】中野 定樹
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2000−348037(JP,A)
【文献】 特開2010−250769(JP,A)
【文献】 特開2006−065482(JP,A)
【文献】 米国特許出願公開第2003/0154443(US,A1)
【文献】 米国特許出願公開第2012/0023101(US,A1)
【文献】 米国特許出願公開第2010/0287135(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
入力データに対して所定の分析処理を実行し、処理結果を可視化するシステムにおけるデータ分析支援処理方法であって、
入力装置を介して利用者が選択した入力データの識別情報と、可視化方法の識別情報を入力すると、該入力データの識別情報から予測される、可視化のための設定項目の候補を表示し、
且つ、
入力データに対する分析処理の履歴及び可視化の履歴に基づき、選択された入力データに対する分析処理及び可視化のための設定項目の候補を予測する、
データ分析支援処理方法。
【請求項2】
入力データに対して所定の分析処理を実行し、処理結果を可視化するシステムにおけるデータ分析支援処理方法であって、
入力装置を介して利用者が選択した入力データの識別情報と、可視化方法の識別情報を入力すると、該入力データの識別情報から予測される、可視化のための設定項目の候補を表示し、
且つ、
前記分析処理は、所定の分析処理単位の組合せで構成され、
入力データに対する分析処理の履歴及び可視化の履歴について、分析処理単位の遷移を示す分析パターンを解析し、選択された入力データに対する分析処理の候補を該分析パターンに従い予測する、
データ分析支援処理方法。
【請求項3】
前記設定項目の候補の中から選択された設定項目に従い、前記可視化方法で、入力データに基づく処理結果を表示する請求項1又は2に記載のデータ分析支援処理方法。
【請求項4】
選択された入力データに対する過去の可視化表示又はその概略をさらに表示する請求項1又は2に記載のデータ分析支援処理方法。
【請求項5】
過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する請求項に記載のデータ分析支援処理方法。
【請求項6】
前記可視化のための設定項目は、表の列に表示するデータ、又は、グラフの軸とするデータである請求項1又は2に記載のデータ分析支援処理方法。
【請求項7】
入力データに対して所定の分析処理を実行した処理結果を可視化するデータ可視化部と、
入力装置を介して利用者が選択した入力データの識別情報と、可視化方法の識別情報を入力すると、該入力データの識別情報から予測される、可視化のための設定項目の候補を表示するデータ分析支援処理部と
を備え
前記データ分析支援処理部は、入力データに対する分析処理の履歴及び可視化の履歴に基づき、選択された入力データに対する分析処理及び可視化のための設定項目の候補を予測する、システム。
【請求項8】
入力データに対して所定の分析処理を実行した処理結果を可視化するデータ可視化部と、
入力装置を介して利用者が選択した入力データの識別情報と、可視化方法の識別情報を入力すると、該入力データの識別情報から予測される、可視化のための設定項目の候補を表示するデータ分析支援処理部と
を備え
前記分析処理は、所定の分析処理単位の組合せで構成され、
前記データ分析支援処理部は、入力データに対する分析処理の履歴及び可視化の履歴について、分析処理単位の遷移を示す分析パターンを解析し、選択された入力データに対する分析処理の候補を該分析パターンに従い予測する、システム。
【請求項9】
前記データ分析支援処理部は、前記設定項目の候補の中から選択された設定項目に従い、前記可視化方法で、入力データに基づく処理結果を表示する請求項7又は8に記載のシステム。
【請求項10】
前記データ分析支援処理部は、選択された入力データに対する過去の可視化表示又はその概略をさらに表示する請求項7又は8に記載のシステム。
【請求項11】
前記データ分析支援処理部は、過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する請求項に記載のシステム。
【請求項12】
前記データ分析支援処理部は、前記可視化のための設定項目は、表の列に表示するデータ、又は、グラフの軸とするデータである請求項7又は8に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析支援処理システム及び方法に係り、データ分析を支援する技術に関する。
【背景技術】
【0002】
業務システムなどから蓄積される企業内の膨大なデータを、蓄積、分析、加工して、企業の意思決定に活用するビジネスインテリジェンスという手法がある。この手法は、複数のデータベース(DB)を横断し、多種、大量のデータを高速に分析可能である。この手法は、高速化のために、高度に構造化された分析対象データを分析の目的に応じて予め構築する必要があり、分析内容と必要なデータが決まっている定型分析に強い。
【0003】
一方、分析対象データやデータに対する分析処理や可視化処理が固定ではない場合には、試行錯誤のたびに,分析対象データを作り変えると共に、分析処理、可視化処理を変更しなければならない。このようなデータ分析に関連する背景技術として、特許文献1や特許文献2がある。特許文献1には、データを抽象化した情報をキーとして登録済みの分析設定情報を抽出し、それを活用することで分析手法の選択を容易にする技術が開示されている。また、特許文献2には、過去の分析履歴を利用し、複数の分析を組合せた複合分析の実行を支援する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−205218号公報
【特許文献2】特開2005−157896号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述の背景技術に見るように、分析を行う際には(1)データ選択(2)分析手法の選択(3)分析実行(4)結果出力・可視化という手順で行う場合が一般的である。このような分析手順を記録し、再利用する技術では、過去の分析手順を再現し、また利用者が分析手順を作成する際に利用者の目的に合致した分析手法を推薦し得る。しかし利用者、特に分析を業務としない利用者にとっては、どのような手順や手法を用いて分析するかはさほど重要でなく、利用者が指定したデータの分析結果にのみ興味がある、つまり、利用者は(1)と(4)のみを選択するだけで、(2)(3)については利用者に意識させないような分析支援技術が求められている。
本発明の目的は、上記の課題を解決し、入力データ及び結果出力・可視化イメージを指定することにより、その間を補間する処理を自動的に構築することが可能なデータ分析支援方法及びシステムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
[適用例1]
本データ分析支援処理方法は、
入力データに対して所定の分析処理を実行し、処理結果を可視化するシステムにおけるデータ分析支援処理方法であって、
入力装置を介して利用者が選択した入力データの識別情報と、可視化方法の識別情報を入力すると、該入力データの識別情報から予測される、可視化のための設定項目の候補を表示する。
これにより、入力データ及び結果出力・可視化イメージを指定することにより、その間を補間する可視化のための設定項目を自動的に予測して表示することが可能である。
【0007】
[適用例2]
上記データ分析支援処理方法において、
前記設定項目の候補の中から選択された設定項目に従い、前記可視化方法で、入力データに基づく処理結果を表示する。
これにより、処理結果を、指定された通りに可視化できる。
【0008】
[適用例3]
上記データ分析支援処理方法において、
選択された入力データに対する過去の可視化表示又はその概略をさらに表示する。
これにより、利用者が細かい設定なく可視化方法を設定できるよう支援情報を提供できる。
【0009】
[適用例4]
上記データ分析支援処理方法において、
入力データに対する分析処理の履歴及び可視化の履歴に基づき、選択された入力データに対する分析処理及び可視化のための設定項目の候補を予測する。
これにより、妥当性の高い分析処理及び可視化のための設定項目の候補を予測できる。
【0010】
[適用例5]
上記データ分析支援処理方法において、
前記分析処理は、所定の分析処理単位の組合せで構成され、
入力データに対する分析処理の履歴及び可視化の履歴について、分析処理単位の遷移を示す分析パターンを解析し、選択された入力データに対する分析処理の候補を該分析パターンに従い予測する。
これにより、妥当性の高い分析処理及び可視化のための設定項目の候補を予測できる。
【0011】
[適用例6]
上記データ分析支援処理方法において、
過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する。
これにより、分析処理の入力データへの適用可能性をより詳細に判断できる。
【0012】
[適用例7]
上記データ分析支援処理方法において、
前記可視化のための設定項目は、表の列に表示するデータ、又は、グラフの軸とするデータである。
これにより、利用者が表の列に表示するデータ、グラフの軸とするデータの設定項目を簡易に選択できる支援情報を提示できる。
【発明の効果】
【0013】
本発明の代表的な一形態によれば、入力データ及び結果出力・可視化イメージを指定することにより、その間を補間する処理を自動的に構築することが可能なデータ分析支援方法及びシステムを提供するができる。
【図面の簡単な説明】
【0014】
図1】分析支援システムのブロック図である。
図2】第一の実施の形態の作業1の手順の一例を示すフローチャートである。
図3-A】第一の実施の形態の分析処理手順作成ダイアログの一例である。
図3-B】第一の実施の形態の可視化コンテンツ作成ダイアログの一例である。
図4-A】第一の実施の形態の分析処理手順のデータ構造及びデータの一例である。
図4-B】第一の実施の形態の可視化処理手順のデータ構造及びデータの一例である。
図5】第一の実施の形態の入力データ選択用ダイアログの一例である。
図6-A】第一の実施の形態の可視化コンテンツ編集ダイアログの一例である。
図6-B】第一の実施の形態の可視化コンテンツ編集ダイアログの表に関するパラメータ設定ダイアログの一例である。
図6-C】第一の実施の形態の可視化コンテンツ編集ダイアログのグラフに関するパラメータ設定ダイアログの一例である。
図7-A】第一の実施の形態の分析パターン作成手順の一例を示すフローチャートである。
図7-B】第一の実施の形態の可視化テンプレート作成手順の一例を示すフローチャートである。
図7-C】第一の実施の形態における、利用者が選択した選択データ、可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する手順の一例である
図7-D】図7−CのS712の手順を詳細化した手順である。
図8-A】第一の実施の形態の分析パターン作成のイメージを示す図である。
図8-B】第一の実施の形態の分析パターンのデータ構造の一例を示す図である。
図8-C】第一の実施の形態の分析パターンのデータの一例を示す図である。
図9-A】第一の実施の形態の可視化テンプレート作成のイメージを示す図である。
図9-B】第一の実施の形態の可視化テンプレートのデータ構造の一例を示す図である。
図9-C】第一の実施の形態の可視化テンプレートの一例を示す図である。
図10-A】第一の実施の形態の可視化部品として「棒グラフ」が選択された場合の可視化コンテンツ編集支援情報生成イメージ(1)である。
図10-B】第一の実施の形態の可視化部品として「棒グラフ」が選択された場合の可視化コンテンツ編集支援情報生成イメージ(2)である。
図11】第一の実施の形態のS206の可視化コンテンツ編集支援情報が表またはグラフパラメータ設定ダイアログにセットされる手順を示すフローチャートの一例である。
図12-A】第一の実施の形態のS2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(1)である。
図12-B】第一の実施の形態のS2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(2)である。
図13-A】第一の実施の形態のS2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(1)である。
図13-B】第一の実施の形態のS2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージ(2)である。
図14】第一の実施の形態のS207の手順を詳細化した手順の一例である。
図15】第一の実施の形態のS2071〜S2082の処理の結果生成される分析処理手順データの一例及び分析処理手順データを実行結果のイメージを示す図である。
図16】第二の実施の形態の可視化コンテンツ編集ダイアログの一例である。
図17-A】第三の実施の形態の分析パターンのデータ構造の一例を示す図である。
図17-B】第三の実施の形態の分析パターンのデータの一例を示す図である。
図18】第三の実施の形態の類似度算出の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第一の実施の形態)
図1は、本実施の形態の分析支援システムのブロック図である。
図1に記載の分析支援システム(計算機システム)は、サーバ101、計算機102、ディスプレイ103、入力装置104、ネットワーク105、106及びデータベース1004(DB)107を備える。
サーバ101と計算機102はネットワーク105を介して互いに接続され、サーバ101とDB107はネットワーク106を介して互いに接続される。
サーバ101、計算機102は、利用者100が分析作業を行う際に利用される。さらに、分析作業に関わる機能を提供し、機能実行時の履歴を収集し、後述するテンプレートを状況に合わせて抽出・推奨することにより利用者100の分析作業を支援する。
【0016】
また、サーバ101及び計算機102は、一例として一般的なPCを用いることができる。サーバ101及び計算機102は、プロセッサ、メモリ及びインターフェースを備える。プロセッサは、メモリに記憶されたプログラムを処理することによって、各種処理を実行する。メモリは、処理を実行するためのプログラム及びデータを記憶する。インターフェースは、キーボード、マウスなどの入力装置104に接続するもの、ディスプレイ103に接続するもの、ネットワーク105を介して、サーバ101、計算機102を相互に接続するもの、及び、ネットワーク106を介してサーバ101とDB107などに接続するもの、などを備える。
DB107は、例えば、企業に関わる情報、各種統計データ、センサ等の時系列データ、Webアクセスログなどの各種データを保持するデータベースである。DB107は、サーバ101に含まれるように構成してもよいし、外部のストレージ装置に格納され、ネットワーク106を介してサーバ101に接続されるように構成してもよい。
サーバ101は、例えば、入力データ作成部111、分析処理実行部112、データ可視化部113、処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部(処理手順推奨部)117、処理手順分析部118、テンプレートDB119、及び、処理手順DB120を備える。入力データ作成部111、分析処理実行部112、データ可視化部113、処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部117、及び、処理手順分析部118は例えば、プログラムであってメモリに記憶され、プロセッサによって実行されて各部の機能が実現される。
入力データ作成部111は、利用者100あるいは処理手順実行部116の指示によりDB107から所望のデータを抽出し、抽出したデータに入力データ作成処理を施すことにより、分析対象データを作成する。
分析処理実行部112は、利用者100あるいは処理手順実行部116の指示により、入力データ作成部111が作成した分析対象データにデータ処理を施し、処理結果データを作成する。
【0017】
データ可視化部113は、利用者100あるいは処理手順実行部116の指示により、分析処理実行部112が作成した処理結果データに可視化処理を施し、可視化する。
処理手順記録部114は、入力データ作成部111、分析処理実行部112、データ可視化部113の各処理を処理手順DB120に記録する。
処理構築部115は、可視化コンテンツ編集支援情報を作成し、分析処理を構築する。
処理手順実行部116は、利用者100の指示により、処理手順DB120から処理手順を取り出し、処理手順の内容に従って入力データ作成部111、分析処理実行部112、データ可視化部113に指示し、分析処理の実行を制御する。
処理手順推奨部117は、予め定められた基準で処理手順DB120から処理手順を抽出し、ディスプレイなど適宜の出力装置により利用者100に提示する。
計算機102は、入力データ選択部121、可視化テンプレート編集部122、分析処理手順作成部123を備える。
【0018】
入力データ選択部121は、利用者100の指示により、入力データを選択するためのダイアログを表示し、利用者の選択結果を保持する。
可視化テンプレート編集部122は、利用者100の指示により、可視化テンプレートを編集するためのダイアログを表示し、利用者の編集結果を保持する。
分析処理手順作成部123は、利用者100の指示により、分析処理手順を作成するためのダイアログを表示し、利用者が作成した分析処理手順を保持する。
各ダイアログは、例えばディスプレイ103に表示され、入力装置104を用いて利用者からの各指示、選択結果、編集結果等が入力される。
サーバ101及び計算機102の各部は、ひとつの装置で構成されてもよいし、適宜分散して構成されてもよい。なお、本明細書において、例えば、サーバ101の処理手順記録部114、処理構築部115、処理手順実行部116、テンプレート推奨部(処理手順推奨部)117及び処理手順分析部118と、計算機102の可視化テンプレート編集部122及び分析処理手順作成部123とを併せて、データ分析支援処理部と称する。
上述の分析支援システムの構成は、第一の実施の形態に限らず、他の実施の形態にも適用できる。
【0019】
図2は、第一の実施の形態の手順の一例を示すフローチャートである。
本フローチャートは、計算機102とサーバ101を含むシステム全体の動作を概略的に示す。より詳細については後述する。
まず、本実施の形態の分析支援機能を利用しない場合(S201)、計算機102(例えば分析処理手順作成部123)は、ディスプレイ103に図3−Aに示す分析処理手順作成ダイアログを表示する(S202)。計算機102(例えば分析処理手順作成部123)は、ユーザ100が入力装置104を用いて、分析処理単位選択部301Aの「データ選択」「集約」「フィルタリング」等の分析処理単位を選択することによって作成される分析処理手順をサーバ101に送付する。サーバ101(例えば分析処理実行部112)では、受信した分析処理手順に従い分析処理を実行し、実行結果を計算機102に送付する(S203)。
【0020】
次に、計算機102は、ディスプレイ103に図3−Bに示す可視化コンテンツ作成ダイアログをディスプレイ103に表示する。ユーザ100が入力装置104を用いて可視化部品選択部301Bに含まれる項目を選択し、可視化コンテンツ表示部302Bに追加することにより、計算機102は可視化コンテンツを作成する(S204)。可視化コンテンツには例えば受信した分析処理の実行結果が、選択された項目(例えば表やグラフ)に従い可視化されている。計算機102は、ディスプレイ103にS204の結果の可視化コンテンツを表示する(S209)。サーバ(例えば処理手順記録部114)が分析処理手順、可視化処理手順を処理手順DB120に記録する(S210)。
【0021】
図3−Aに分析処理手順作成ダイアログの一例をしめす。
利用者が分析処理手順を作成する際には、分析処理単位選択部301Aに含まれる項目を選択し、分析処理単位シーケンス表示部302Aに追加することにより、分析処理手順を作成する。分析処理手順作成の開始時、または途中で処理手順推奨部117が処理手順DB120から作成の状況に合わせて処理手順を抽出し、利用者に推薦することもできる。
ここで分析処理手順とは、分析処理単位(例えば、分析処理の最小単位。適宜の処理単位でもよい)の系列を指す。分析処理単位は具体的には、分析処理単位選択部301Aに表示されているような、「データ選択」「集約」「フィルタリング」「演算」「編集」のような処理を指す。
【0022】
図3−Bに可視化コンテンツ作成ダイアログの一例を示す。利用者が可視化コンテンツを作成する際には、可視化部品選択部301Bに含まれる項目(可視化部品)を選択し、可視化コンテンツ表示部302Bに追加することにより、可視化コンテンツを作成する。可視化コンテンツ作成の開始時、または途中で処理手順推奨部117が処理手順DB120からS203の結果えられる分析処理実行結果に合わせて可視化部品を利用者に推薦することもできる。
図2に戻り、フローチャートの説明を続ける。本実施の形態の分析支援機能を利用する場合(S201)、計算機102は、ディスプレイ103に、例えば図5に示す入力データ選択ダイアログ、及び、図6−Aに例示する可視化コンテンツ編集ダイアログを表示する(S205)。計算機102は、利用者が入力装置104を利用して入力データ選択ダイアログで選択したデータ及び可視化コンテンツ編集ダイアログで作成した可視化部品情報をサーバ101に送付し、サーバ101の処理構築部115が選択データ(選択された入力データ)及び可視化部品情報に基づき、後述する可視化コンテンツ編集支援情報(例えば、可視化のための設定項目の候補)を作成し、計算機102に送付する(S206)。図6−Bに例示する表に関するパラメータ設定ダイアログ、又は、図6−Cに例示するグラフに関するパラメータ設定ダイアログと、可視化コンテンツ編集支援情報を利用してユーザによる入力装置104の操作により可視化コンテンツを編集する。例えば、表示された設定項目の候補の中から所望の設定項目が選択される。計算機102は、編集結果をサーバ101に送付し、処理構築部115が選択データ、可視化コンテンツ編集結果に基づき分析処理を構築する(S207)。分析処理実行部112が構築された分析処理を実行し、実行結果を計算機102に送付する(S208)。ディスプレイ103にS208の結果の可視化コンテンツを表示する(S209)。ここでの可視化コンテンツは、例えば、指定された可視化部品情報及び設定項目に従い処理結果が、表示される。処理手順記録部114が分析処理手順、可視化処理手順を処理手順DB120に記録する(S210)。
【0023】
図4−Aに分析処理手順のデータ構造及びデータの一例を、図4−Bに可視化処理手順のデータ構造及びデータの一例を示す。このようなデータが処理手順DB120に記録される。
【0024】
図5は入力データ選択用ダイアログである。入力データ一覧表示領域501に表示されたデータを、入力装置104を用いてユーザ100が選択し、OKボタン502を押下げることで入力データの選択を決定する。
【0025】
図6−Aは可視化コンテンツ編集ダイアログの一例である。ユーザが可視化コンテンツを編集する際には、入力装置104を用いて可視化部品選択部601Aに含まれる項目を選択し、可視化コンテンツ表示部602Aに追加することにより、可視化コンテンツを編集する。例えば可視化部品選択部601Aで表を選択した場合、計算機102は表に関するパラメータ設定のための表パラメータ設定ダイアログ(図6−B)を表示し、グラフのうちいずれかを選択した場合には、計算機102はグラフに関するパラメータ設定のためのグラフパラメータ設定ダイアログ(図6−C)を表示する。
【0026】
図6−Bに例示する表パラメータ設定ダイアログは、例えば、表側列候補一覧表示部(601B)と、表側列編集部(602B)と、表頭列パターン一覧表示部(603B)と、表頭列候補一覧表示部(604B)と、表頭列用選択列表示部(605B)とを含む。また、OKボタン(606B)とキャンセルボタン(608B)を含む。
【0027】
図6−Cに例示するグラフパラメータ設定ダイアログは、例えば、視点一覧表示部(601C)と、視点編集部(602C)と、X軸パターン一覧表示部(603C)と、X軸候補一覧表示部(604C)と、X軸パターン編集部(605C)と、Y軸パターン一覧表示部(606C)と、Y軸候補一覧表示部(607C)と、Y軸パターン編集部(608C)とを含む。また、OKボタン(609C)とキャンセルボタン(610C)を含む。
【0028】
図7−A、図7−B、図7−C、図7−Dは表パラメータ設定ダイアログ(図6−B)、グラフパラメータ設定ダイアログ(図6−C)の各部で表示するデータを作成するための手順を示すフローチャートである。
まず図7−Aの分析処理手順から分析パターンを作成する処理について、図8−Aを参照して説明する。ここで分析パターンとは図8−Aの802に示すような、分析処理手順(例えば図8−Aの801)に連続して含まれる2つ以上の分析処理単位の組である。ここでは、連続する2つの分析処理単位の組として説明する。分析処理手順は、分析処理単位を処理順に並べたものである。処理手順分析部118が処理手順DB120から、分析パターン作成に関して未処理の分析処理手順Mを取得する(S701)。処理手順分析部118は、分析処理手順MのN番目(Nは1以上の整数)の分析処理単位とN+1番目の分析処理単位の組を取り出し、分析パターンを作成する(S702)。処理手順分析部118は、処理手順DB120に未処理の分析処理手順がなくなるまでS701、S702を繰り返す(S703)。処理手順分析部118は、作成された分析パターンが分析処理手順内で出現する確率(遷移確率)を求める。遷移確率は、分析パターンの始点となる分析処理単位の次に、分析パターンの終点となる分析処理単位が実行される確率を示す。なお、処理手順分析部118は、テンプレートDB119に分析パターンを記憶してもよい。
【0029】
図8−Aに分析パターン作成のイメージを示す。図8−Aでは分析処理手順A〜E(801)を処理し、8以上の分析パターン(802)を作成している。図8−Aの803は分析処理単位の一例であり、801、802の円の中の数字と表中の数字が対応している。図8−Bに分析パターンのデータ構造の一例、また図8−Cに分析パターンのデータの一例を示す。
【0030】
次に図7−Bの可視化テンプレート作成に関する処理について、図9−Aに可視化テンプレート作成のイメージを引用しながら説明する。ここで可視化テンプレートとは、可視化処理(図9−Aの901、データ構造及び内容の例は図9−Aの904)と分析処理結果のデータ(図9−Aの902)との関連を示すデータである。処理手順分析部118が処理手順DB120から分析処理手順群G(図9−Aの905)と、可視化テンプレート作成に関して未処理の可視化処理手順M(図9−Aの904)を取得する(S704)。処理手順分析部118は、分析処理手順群Gから可視化処理手順Mの分析処理IDに該当する分析処理手順Qを取得する(S705)。分析処理手順Qの最後の分析処理単位Nと可視化処理手順Mの可視化部品の組を作成し、可視化テンプレートTを作成する(S706)。可視化テンプレートTは、例えば図9−Bに示す情報を含む。処理手順分析部118は、可視化テンプレートTの選択列を一般化し、可視化テンプレートTを更新する(S707)。処理手順DB120に未処理の分析処理手順がなくなるまでS704〜S707を繰り返す(S708)。なお、処理手順分析部118は、テンプレートDB119に可視化テンプレートTを記憶してもよい。
【0031】
ここでS707の一般化の例を示す。
(1)Y軸列のリストに含まれる文字列に法則がある場合、パターンに置き換える。例:Y軸列リスト「2012年04月、2012年05月、…」の場合、Y軸「yyyy年MM月」。例:Y軸列リスト「S1000、S1001、S1002、…」の場合、Y軸「S####」(#は数字1文字を表す)
(2)X軸列の内容により、カテゴリに置き換える。例:数値データの場合:数値データ列、日付データの場合:日付データ列、文字列の場合:文字列データ列、など。
【0032】
図9−Aに可視化テンプレート作成のイメージ、図9―Bに可視化テンプレートのデータ構造の一例、図9―Cに可視化テンプレートの一例を示す。可視化テンプレートには少なくとも、直前処理(図9−Aの902)や選択データ情報(図9−Aの903で選択された入力データの列名、列の要素などの情報)、処理結果データ情報(図9−Aの902を実行した時点でのデータ列名、データ要素などの情報)が含まれる。
【0033】
図7−Cは利用者が選択した選択データ、可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する手順の一例である。
まず、処理構築部115がテンプレートDB119から分析パターン、可視化テンプレートを取得する(S711)。処理構築部115が選択データと可視化部品情報に適用可能な可視化コンテンツ編集支援情報を生成する(S712)。詳細は後述する。処理構築部115が、予め決められた基準で並べ替えた可視化コンテンツ編集支援情報を計算機102に送付する(713)。
【0034】
図7−DはS712の手順を詳細化した手順である。図7−Dでは予め決められた基準を「遷移確率が大きい順」としているが、他には例えば、「「入力データ選択」から可視化処理までの分析処理単位数が少ない順」などでもよいし、他の基準でもよい。これらは設定ファイルなどで切り替えられるものとする。
【0035】
以下の説明において、J、Kはパラメータ、Nは分析処理単位、L、L0はリスト、Mは処理対象の分析処理単位また可視化処理を表す。以下の処理は、処理構築部115が実行する。
空のリストL、J=1、K=1、分析処理単位N=「入力データ選択」、空のリストL0とし、L0にNを追加、L0をLに追加する(S7121)。分析処理単位Nからの遷移確率がK番目に大きい分析処理単位また可視化処理をテンプレートDB119から取得し、Mとする(S7122)。NとMの組をまだ処理していなければS7124に進む。処理済の場合、K=K+1としてS7122に進む(S7123、S7126)。Mが可視化処理の場合、L0をリストL1にコピーし、L0にMを追加し、L0をLに登録し、L0にL1を代入しK=K+1としてS7122に進む。Mが可視化処理ではない場合、S7127に進む(S7124〜S7126)。
Mが空の場合、J=J−1、L0の先頭からJ番目までをリストL1にコピーし、K=1とし、J=0の場合S713に進む。J=0ではない場合S7122に進む(S7127、S7133、S7234)。
Mが空ではない場合、選択データにL0に含まれる分析処理を適用した結果のデータをDとし、データDに分析処理単位Mを適用する(S7127〜S7129)。適用可能な場合、L0にMを追加、N=M、J=J+1、K=1として、S7122に進む(S7130、S7131)。適用可能ではない場合、K=K+1としてS7122に進む(S7130、S7132)。
【0036】
ここで適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合。
また以下の場合適用不可とする。
分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が0の場合。
【0037】
図10−A及び図10−Bに、可視化部品として「棒グラフ」が選択された場合の、可視化コンテンツ編集支援情報生成イメージ示す。可視化コンテンツ編集支援情報は図10−Aに示すように、「入力データ選択」から「棒グラフ」の間を埋める処理手順を、分析パターンと可視化テンプレートを用いて、予め決められた基準で構築するための情報である。
例えば、処理構築部115は、テンプレートDB119から取得した分析パターンと可視化テンプレートに基づき、選択された入力データ(ここでは処理単位識別番号「1」)から選択された可視化部品(ここでは棒グラフ)への処理手順候補(可視化コンテンツ編集支援情報)をひとつ又は複数求める。例えば、分析パターンが示す処理の遷移と、可視化テンプレートが示す最終の分析処理単位から可視化部品への遷移をたどり、処理手順候補を求める。複数の処理手順候補は、遷移確率が大きい順などの予め定められた基準に従い並べる(順位付けする)ことができる。なお、可視化部品として棒グラフ以外が選択された場合も同様である。
【0038】
図11は、S206の可視化コンテンツ編集支援情報が表またはグラフパラメータ設定ダイアログにセットされる手順を示すフローチャートである。まず、計算機102は、可視化コンテンツ編集ダイアログの可視化部品選択部601Aの選択結果(選択された可視化部品)を取得し、選択データ(選択された入力データ)と共にサーバ101に送付する(S2061)。サーバ101の処理構築部115がS7121〜S7134で作成し、送付した可視化コンテンツ編集支援情報を、可視化テンプレート編集部122が受け取る(S2062)。可視化テンプレート編集部122は、選択された可視化部品に応じて表またはグラフ用のパラメータ設定ダイアログ(例えば図6−B、図6−C参照)を用意し、各一覧表示部に値をセットする(S2063)。可視化テンプレート編集部122は、各一覧表示部の選択結果を取得し、S207へ進む(S2064)。
【0039】
図12−A、図12−Bに、S2063のグラフパラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージを示す。利用者100が「棒グラフ」を選択した場合、サーバ101がS7121〜S7134の処理を実行して、表示部品が「棒グラフ」となる分析処理手順、可視化テンプレートの系列群を生成し、可視化コンテンツ編集支援情報とする。視点候補一覧表示部601Cには可視化テンプレートの視点選択列及び可視化処理の直前までの分析処理結果データに含まれる列を表示する(12A)。X軸パターン一覧表示部603Cには、可視化テンプレートの選択列のX軸パターンを表示する(12B)。X軸候補一覧表示部604Cには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(12C)。Y軸パターン一覧表示部606Cには、可視化テンプレートの選択列のY軸パターンを表示する(12D)。Y軸候補一覧表示部607Cには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(12E)。
【0040】
図13−A、図13−Bに、S2063の表パラメータ設定ダイアログにコンテンツ編集支援情報をセットするイメージを示す。利用者100が「表」を選択した場合、サーバ101がS7121〜S7134の処理を実行して、表示部品が「表」となる分析処理手順、可視化テンプレートの系列群を生成し、可視化コンテンツ編集支援情報とする。表側列候補一覧表示部601Bには可視化テンプレートの表側選択列及び可視化処理の直前までの分析処理結果データに含まれる列を表示する(13A)。表頭列パターン一覧表示部603Bには、可視化テンプレートの選択列の表頭パターンを表示する(13B)。表頭列候補一覧表示部604Bには、可視化処理の直前までの分析処理結果データに含まれる列を表示する(13C)。
このように、過去に可視化に用いられたデータを示す選択列と、過去の処理結果のデータとを、各一覧表示部に表示して、ユーザによる選択を支援する。
【0041】
図14は、S207の手順を詳細化した手順である。図14でも予め決められた基準を「遷移確率が大きい順」としているが、他には例えば、「「入力データ選択」から可視化処理までの分析処理単位数が少ない順」などが考えられる。これは設定ファイルなどで切り替えられるものとする。
以下の説明において、Kはパラメータ、Nは分析処理単位、Lはリスト、Mは処理対象の分析処理単位また可視化処理、Gは可視化処理を表す。以下の処理は、処理構築部115が実行する。
空のリストL、K=1、分析処理単位N=「入力データ選択」、可視化処理G=利用者100による可視化コンテンツ編集結果とし、LにNを追加する(S2071)。分析処理単位Nからの遷移確率がK番目に大きい分析処理単位または可視化処理をテンプレートDB119から取得し、Mとする(S2072)。NとMの組をまだ処理していなければS2075に進む。処理済の場合K=K+1としてS2072に進む(S2073、S2074)。M=Gの場合、LにMを追加し、分析処理として出力しS209に進む(S2075、S2076)。M=Gではなく、Mが空の場合K=K+1としてS2072に進む(S2077、S2074)。Mが空でない場合、選択データにLに含まれる分析処理を適用した結果のデータをDとし、データDに分析処理単位Mを適用する(S2077〜S2079)。適用可能の場合、LにMを追加、N=M、K=1として、S2072に進む(S2080、S2081)。適用可能ではない場合、K=K+1としてS2072に進む(S2080、S2082)。上記の処理の結果生成される分析処理手順は、図15に示すように、分析処理手順と可視化処理手順を合わせたデータとなる。また、図15に上記の処理の結果生成される分析処理手順を実行した結果のイメージを示す。
【0042】
ここで適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合
(3)(1)(2)以外の場合でも、分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が1以上の場合
第一の実施の形態によれば、利用者は入力データ選択及び可視化コンテンツ編集を行うだけで、その間を埋める分析手順については意識することなく、望みの可視化コンテンツを作成することが可能となるため、利用者100の分析作業の手間を削減することが可能となる。
【0043】
(第二の実施の形態)
第一の実施の形態では利用者が可視化部品を選択し、並べることで可視化コンテンツを作成したが、第二の実施の形態では、既存のコンテンツを利用することで可視化コンテンツを作成する。
図16は第二の実施の形態の可視化コンテンツ編集ダイアログである。第二の実施の形態の可視化コンテンツ編集ダイアログは可視化コンテンツ事例選択部(605A)をさらに含む。可視化コンテンツ事例選択部(605A)には、過去に可視化した例(例えば可視化イメージ)が示される。利用者が可視化コンテンツを編集する際に、可視化コンテンツ事例選択部605Aに表示される可視化コンテンツ事例を選択し、必要に応じて、可視化部品選択部601Aに含まれる項目を選択し、可視化コンテンツ表示部602Aに追加することにより、可視化コンテンツを編集する。
可視化コンテンツ事例の各可視化部品は図4−A、Bに示す分析処理手順及び可視化処理手順と紐づいているため、第一の実施の形態と同様の処理を施すことにより、利用者が望む可視化コンテンツを生成することができる。
第二の実施の形態によれば、利用者は既存の可視化コンテンツを利用したい場合、データと既存コンテンツを選択するだけで、その間を埋める分析手順については意識することなく、望みの可視化コンテンツを作成することが可能となる。また、利用者100の分析作業の手間を削減することが可能となる。
【0044】
(第三の実施の形態)
第一の実施の形態のS7130、S2080でのデータDに対する分析処理単位Mの適用可能判定は、データDがパラメータPに指定された列名や要素を含むかどうかで判定されることが多いため、分析処理単位Mの適用可能範囲が小さくなってしまう。これに対し第三の実施の形態では、パラメータPの列名や要素を要素数や出現頻度に基づく類似度を加味することにより、分析処理単位Mの適用可能範囲を拡張する。
例えば、過去の分析処理に用いたデータと、選択された入力データとの類似度に基づいて、該過去の分析処理を、選択された入力データに適用するか否かを判断する。
より詳細には、適用可能かどうかの判定は、データDと分析処理単位MのパラメータPが以下の条件を満たすとき適用可能とする。
(1)パラメータPが列名Aのとき、データDが列名Aを含む場合
(2)パラメータPが列名Aと要素名αのとき、データDが列名Aを含み、列名Aが要素名αを含む場合
(3)パラメータPが列名Aと要素名αのとき、データDが列名Aを含まない場合、または列名Aを含むが列Aが要素名αを含まない場合、分析処理単位Mのデータ情報から列名Aの情報を抽出し、列名Aと類似するデータDの列Bおよび要素名αと類似する列B中の要素を抽出する。類似列および類似要素を抽出可能な場合、適用可能とする。ここで列の類似は例えば、列の各要素の出現頻度または出現率が大きい順に差を計算し、その総和を類似度としその差が予め定められた閾値より小さい場合類似しているとする。また要素の類似は、出現頻度あるいは出現率の差が閾値より小さい場合類似しているとする。類似の定義は目的に応じて変更することが可能である。
また以下の場合適用不可とする。
分析処理単位MをパラメータPでデータDに適用した結果のデータD1の行数が0の場合。
【0045】
図17−A、17−Bに第三の実施の形態の分析パターンのデータ構造とデータの一例を示す。
【0046】
図18に類似度算出の一例、パラメータP及びデータDが下記のような構成であり、閾値を30とした場合の各列、各要素の類似度算出の流れを説明する。
パラメータPの列「A」が要素αを含む割合が40%、要素βを含む割合が35%、要素γを含む割合が15%、要素δを含む割合が10%、…とする。データDは列「B」「C」「D」…を含むとし、列「B」はB1〜B4の4つの要素を含み、B1が45%、B2が30%、B3が15%、B4が5%の割合で含まれる。列「C」はC1、C2の二つの要素を含み、C1、C2ともに50%の割合で含まれる。列「D」はD1〜D4…の要素を含み、D1が5%、D2が4%、D3が4%、D4が3%、…の割合で含まれるものとする。この場合、各列の類似度を以下のように算出する。列「A」「B」間の類似度A−Bは|40−45|+|35−30|+|15−15|+|10−5|=15となる。
列「A」「C」間の類似度A−Cは|40−50|+|35−50|+|15−0|+|10−0|=15となる。列「A」「D」間の類似度A−Dは|40−5|+|35−4|+|15−4|+|10−3|+…=168となる。閾値30の場合、列「A」に類似する列は列「B」であり、要素αに最も類似する列「B」の要素はB1である。
【0047】
ここで|X−Y|はX−Yの絶対値を表すものとする。類似度の算出方法は様々考えられるが、ここでは、各列の割合が大きい順に要素を並び替え、1番大きい要素同士、2番目に大きい要素同士、…の割合を引算し、列間の要素数が等しくない場合は、例えば類似度A−Cのように列「A」の要素数が4、列「C」の要素数が2の場合は、3番目に大きい要素同士、4番目に大きい要素同士の引算は0と引算する方式を採用している。この算出方法の場合、類似度が小さい方が類似していることとなり、閾値を下回る列がない場合は、類似列なしとする。
第三の実施の形態によれば、パラメータPの列名や要素を要素数や出現頻度に基づく類似度を加味することにより、分析処理単位Mの適用範囲を拡張することが可能となる。
【0048】
(構成例)
[構成例1]
利用者が入力データ、可視化方法を指定すると、入力データに対して指定された可視化方法の実現に必要な処理手順を自動生成する分析支援方法及びシステム。
[構成例2]
表の列、グラフの軸を指定することで可視化方法の指定を支援する可視化コンテンツ作成支援方法及びシステム。
[構成例3]
既存コンテンツを指定することで分析手順、可視化方法の指定を支援する可視化コンテンツ作成支援方法及びシステム。
[構成例4]
分析処理の履歴、可視化処理の履歴を利用して、可視化方法の指定を支援するデータを生成する分析手順再構築方法及びシステム。
[構成例5]
分析処理の履歴、可視化処理の履歴を分析し、分析処理の分解、再構築を行う構成例4の分析手順再構築方法及びシステム。
[構成例6]
データ間の類似度を加味して、分析処理の適用の拡張を行う構成例4の分析手順再構築方法及びシステム。
【0049】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれている。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0050】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0051】
101 サーバ
102 計算機
103 ディスプレイ
104 入力装置
105 ネットワーク
106 ネットワーク
107 DB
111 入力データ作成部
112 分析処理実行部
113 データ可視化部
114 処理手順記録部
115 処理構築部
116 処理手順実行部
117 処理手順推奨部
118 処理手順分析部
119 テンプレートDB
120 処理手順DB
図1
図2
図3-A】
図3-B】
図4-A】
図4-B】
図5
図6-A】
図6-B】
図6-C】
図7-A】
図7-B】
図7-C】
図7-D】
図8-A】
図8-B】
図8-C】
図9-A】
図9-B】
図9-C】
図10-A】
図10-B】
図11
図12-A】
図12-B】
図13-A】
図13-B】
図14
図15
図16
図17-A】
図17-B】
図18