(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-29
(45)【発行日】2022-09-06
(54)【発明の名称】データ処理方法、データ処理システム、データ処理プログラム及びデータ構造
(51)【国際特許分類】
G06F 16/904 20190101AFI20220830BHJP
G06F 16/28 20190101ALI20220830BHJP
G06F 16/903 20190101ALI20220830BHJP
【FI】
G06F16/904
G06F16/28
G06F16/903
(21)【出願番号】P 2019191477
(22)【出願日】2019-10-18
【審査請求日】2021-05-31
(73)【特許権者】
【識別番号】519052190
【氏名又は名称】株式会社MatrixFlow
(74)【代理人】
【識別番号】100137338
【氏名又は名称】辻田 朋子
(72)【発明者】
【氏名】田本 芳文
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2016-051426(JP,A)
【文献】特開2019-125198(JP,A)
【文献】特開平11-250084(JP,A)
【文献】特開2005-284424(JP,A)
【文献】沼尾 正行、外2名,多段階学習方式によるデータ収集と前処理の自動化,人工知能学会誌,日本,(社)人工知能学会,2005年03月01日,第20巻,第2号,p.164-171
【文献】梶並 知記、外4名,TETDMを用いた汎用性を考慮したシステムの設計指針に関する基礎的検討,インタラクティブ情報アクセスと可視化マイニング 第4回研究会研究発表予稿集 [online] ,日本,人工知能学会,2017年10月20日,p.34-39
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
データセットに基づく高品質なデータ解析を平易に行うためのデータ処理方法であって、
前記データセットに対する1以上のデータ前処理を決定し当該1以上の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定ステップと、
前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示ステップと、
前記表示ステップにより表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定ステップと、
前記指定ステップにより指定された前記データ前処理を実行する実行ステップと、をコンピュータ
が実行する
データ処理方法。
【請求項2】
前記指定ステップにより指定された前記データ前処理を削除又は無効化する管理ステップをさらにコンピュータ
が実行する
請求項1に記載のデータ処理方法。
【請求項3】
前記設定ステップ
において、前記データ前処理の対象となるデータ属性に基づき前記データ前処理間の依存関係の有無を判定し、前記データ前処理セットに対して前記依存関係の有無を反映する
請求項1又は2に記載のデータ処理方法。
【請求項4】
前記設定ステップ
において、前記データ前処理間で前記データ属性が一致する場合、前記データ前処理間の依存関係が有ると判定し、前記データ前処理間で前記データ属性が相違する場合、前記データ前処理間の依存関係が無いと判定する
請求項3に記載のデータ処理方法。
【請求項5】
前記表示ステップ
において、前記依存関係を有する前記データ前処理のそれぞれと対応する前記ノード間においてエッジを表示処理する
請求項4に記載のデータ処理方法。
【請求項6】
前記指定ステップ
において、前記ノードが選択されることで当該ノードと対応する前記データ前処理、及び、当該データ前処理と前記依存関係を有する前記データ前処理を指定する
請求項4又は5に記載のデータ処理方法。
【請求項7】
データセットに基づく高品質なデータ解析を平易に行うためのデータ処理システムであって、
前記データセットに対する1以上のデータ前処理を決定し当該1以上の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定手段と、
前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示手段と、
前記表示手段により表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定手段と、
前記指定手段により指定された前記データ前処理を実行する実行手段と、を有する
データ処理システム。
【請求項8】
データセットに基づく高品質なデータ解析を平易に行うためのデータ処理プログラムであって、
コンピュータを、前記データセットに対する1以上のデータ前処理を決定し当該1以上
の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定手段と、
前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示手段と、
前記表示手段により表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定手段と、
前記指定手段により指定された前記データ前処理を実行する実行手段と、として機能させる
データ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理方法、データ処理システム、データ処理プログラム及びデータ構造に関する。
【背景技術】
【0002】
機械学習を含むAI技術では、数値予測、画像処理及び自然言語処理を含む各種分野における活用例と、ドメイン知識をもたないユーザが学習モデルの構築を試みるような利用例と、が増えている。そのため、ドメイン知識をもたないユーザが平易に高品質なデータ解析を実行可能な、AI構築プラットフォームが求められている。
【0003】
高品質なデータ解析を平易に実行可能なAI構築プラットフォームを実現するためには、例として、データクレンジング等のデータ前処理に係る設定及び実行をプログラミング不要に実行可能とすることが必要となる、と把握することができる。
【0004】
特許文献1には、データ分析のために、元データのデータセットにおける不正な項目を含むデータセットを取り除くデータクレンジング処理を行う第1の処理部と、データクレンジング処理の履歴をテーブルに保存する処理部と、履歴を参照し、元データから取り除かれたデータセットにおける不正があった項目とそれ以外の項目とを判断し、当該それ以外の項目に不正が無いことを確認する第3の処理部と、判断の結果、不正が無いことが確認された項目を、データ分析のために利用可能な項目として抽出する第4の処理部とを有するデータクレンジングシステム及びプログラムに関する発明が記載されている。
【0005】
特許文献1に記載の発明は、元データを分析可能なデータセットにするためのデータクレンジングの履歴を保存する仕組みであり、データクレンジングを一例とするデータ前処理をプログラミング不要に設定及び実行可能とするような発明ではない。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、データセットに基づく高品質なデータ解析を平易に行うための新規な技術を実現することを解決すべき課題とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、データセットに基づく高品質なデータ解析を平易に行うためのデータ処理方法であって、前記データセットに対する1以上のデータ前処理を決定し当該1以上の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定ステップと、前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示ステップと、前記表示ステップにより表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定ステップと、前記指定ステップにより指定された前記データ前処理を実行する実行ステップと、をコンピュータに実行させる。
【0009】
本発明の好ましい形態では、前記指定ステップにより指定された前記データ前処理を削除又は無効化する管理ステップをさらにコンピュータに実行させる。
【0010】
本発明の好ましい形態では、前記設定ステップは、前記データ前処理の対象となるデータ属性に基づき前記データ前処理間の依存関係の有無を判定し、前記データ前処理セットに対して前記依存関係の有無を反映する。
【0011】
本発明の好ましい形態では、前記設定ステップは、前記データ前処理間で前記データ属性が一致する場合、前記データ前処理間の依存関係が有ると判定し、前記データ前処理間で前記データ属性が相違する場合、前記データ前処理間の依存関係が無いと判定する。
【0012】
本発明の好ましい形態では、前記表示ステップは、前記依存関係を有する前記データ前処理のそれぞれと対応する前記ノード間においてエッジを表示処理する。
【0013】
本発明の好ましい形態では、前記指定ステップは、前記ノードが選択されることで当該ノードと対応する前記データ前処理、及び、当該データ前処理と前記依存関係を有する前記データ前処理を指定する。
【0014】
上記課題を解決するために、本発明は、データセットに基づく高品質なデータ解析を平易に行うためのデータ処理システムであって、前記データセットに対する1以上のデータ前処理を決定し当該1以上の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定手段と、前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示手段と、前記表示手段により表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定手段と、前記指定手段により指定された前記データ前処理を実行する実行手段と、を有する。
【0015】
上記課題を解決するために、本発明は、データセットに基づく高品質なデータ解析を平易に行うためのデータ処理プログラムであって、コンピュータを、前記データセットに対する1以上のデータ前処理を決定し当該1以上の前記データ前処理をデータ前処理セットとしてデータベース上に記憶する設定手段と、前記データ前処理セットに含まれる1以上の前記データ前処理のそれぞれをノードとするグラフ構造を表示処理する表示手段と、前記表示手段により表示処理された1以上の前記ノードが選択されることで当該1以上の前記ノードのそれぞれと対応する前記データ前処理を指定する指定手段と、前記指定手段により指定された前記データ前処理を実行する実行手段と、として機能させる。
【0016】
上記課題を解決するために、本発明は、データセットに基づく高品質なデータ解析を平易に行うためのデータ構造であって、前記データセットに対する1以上のデータ前処理を実行させるために設定手段によりデータベース上に記憶され用いられ、当該1以上の前記データ前処理、及び、当該1以上の前記データ前処理のそれぞれにおける依存関係を示し、当該1以上の前記データ前処理のそれぞれと対応するノード、及び、前記依存関係と対応するエッジを含むグラフ構造を表示手段により表示処理させ、前記依存関係は、前記データ前処理の対象であるデータ属性に基づき判定される。
【発明の効果】
【0017】
本発明によれば、データセットに基づく高品質なデータ解析を平易に行うための新規な技術を実現することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態に係る処理フローチャートを示す。
【
図2】本発明の一実施形態に係る処理フローチャートを示す。
【
図3】本発明の一実施形態に係るデータセットを示す。
【
図4】本発明の一実施形態に係るグラフ構造を示す。
【
図5】本発明の一実施形態に係る解析モデル構築の概要図を示す。
【
図6】本発明の一実施形態に係る解析フローの概要図を示す。
【
図7】本発明の一実施形態に係る機能ブロック及びハードウェア構成を示す。
【
図10】本発明の一実施形態に係る表示画面を示す。
【
図11】本発明の一実施形態に係る表示画面を示す。
【
図12】本発明の一実施形態に係る表示画面を示す。
【発明を実施するための形態】
【0019】
本明細書は、本発明の一実施形態について、図面を交えて詳細に説明する。
本発明は、以下の一実施形態に限定するものではなく、様々な構成を採用し得る。
なお、本発明の一実施形態は、以下、単に「一実施形態」と記される。
【0020】
本明細書は、一実施形態に係る構成や作用効果等について説明する。
一実施形態と同様の構成のシステム、方法、プログラム及び当該プログラムを格納する記録媒体等は、同様の作用効果を奏する。
当該記録媒体は、コンピュータに当該プログラムをインストールする上で用いられる。
当該記録媒体は、フラッシュメモリ等の非一過性の記録媒体であってよい。
【0021】
図1に例示されるように、一実施形態は、データ処理ステップ0a、モデル構築ステップ0b及びデータ解析ステップ0cの少なくとも一部を、コンピュータに順不同に実行させる方法である、と把握することができる。
なお、本明細書中の説明における「コンピュータ」は、慣用の情報処理端末を示し、後述のデータ処理サーバを含むデータ処理システムの少なくとも一部を示す。
【0022】
データ処理ステップ0aは、データセット21に基づく高品質なデータ解析を行うために、データセット21に対してデータ前処理を行う。このとき、当該データ前処理は、後述するデータ前処理セット22に含まれる。
モデル構築ステップ0bは、データセット21に基づく高品質なデータ解析を行うために、解析モデル101の構築を行う。具体的には、モデル構築ステップ0bは、1以上の解析モデル101の指定及び学習処理を行う。
データ解析ステップ0cは、データセット21に基づく高品質なデータ解析を行うために、データ処理ステップ0aによりデータ前処理が行われたデータセット21と、モデル構築ステップ0bにより指定及び学習処理が行われた解析モデル101と、に基づき、データ解析を実行する。
【0023】
図2に例示されるように、データ処理ステップ0aは、設定ステップ0a1、表示ステップ0a2、指定ステップ0a3及び実行ステップ0a4を順不同でコンピュータに実行させる。
【0024】
設定ステップ0a1は、データセット21に基づく高品質なデータ解析を行うために、データベース2上のデータセット21に対する1以上のデータ前処理を、例としてインタフェース13aを介して選択されることで、決定し、当該1以上のデータ前処理をデータ前処理セット22としてデータベース2上に記憶する。
【0025】
本明細書中の説明における「データ前処理」は、欠損値処理、数値変換処理及び値の正規化処理を含むデータ処理群から適宜、選択される。データセット21がデータテーブルの態様で表される場合、データ前処理は、処理の対象となるフィールドと対応するデータ属性(カラム)と対応付けられる。なお、当該データ処理群は、前処理マスタとしてデータベース2上に予め格納されてよい。
【0026】
本明細書中の説明における「欠損値処理」は、データテーブルの態様で表されるデータセット21において、値が入力されていないフィールドに対して所定値を入力し欠損値を補完するような処理、値が入力されていないフィールドと同じ行と対応する周辺のフィールドの値に基づきルールベースで欠損値を補完するような処理、又は、値が入力されていないフィールドと同じ行と対応する周辺のフィールドの値に基づき推論し欠損値を補完するような処理を指す。
【0027】
本明細書中の説明における「数値変換処理」は、データテーブルの態様で表されるデータセット21において、各値の少なくとも一部に所定値に変換する処理を指す。
また、数値変換処理は、特徴変換の態様で、しきい値を超過する値を第1の所定値に変換ししきい値を超過しない値を第2の所定値に変換するような処理を指してもよいし、文字列を分散ベクトル表現に基づくスカラー量に変換するような処理を指してもよい。
また、数値変換処理は、データセット21における異常値や外れ値を除去する、又は、データセット21における連続値を離散値に変換するために行われてよい。
【0028】
本明細書中の説明における「値の正規化処理」は、データテーブルの態様で表されるデータセット21において、数値型特徴の正規化、又は、文字列の所定の形式への変換処理を指す。
当該形式は、マスタテーブルの態様で、データベース2上に正規化マスタとして予め格納され、所定の文字数及び記号文字の挿入場所等を示す記述ルールを示す。
より具体的な処理内容については、特開2013-175096号公報に記載の発明の少なくとも一部として、把握することができる。
【0029】
本明細書中の説明における「インタフェース」は、グラフィックユーザインタフェース(GUI)を指し、表示ステップ0a2によりその機能が提供される。
【0030】
設定ステップ0a1は、データ前処理の対象となるデータセット21内のデータ属性に基づきデータ前処理間の依存関係の有無を判定し、データベース2上のデータ前処理セット22に対して当該依存関係の有無を反映する。
また、設定ステップ0a1は、データ前処理間でデータ属性が一致する場合、データ前処理間の依存関係が有ると判定し、データ前処理間でデータ属性が相違する場合、データ前処理間の依存関係が無いと判定する。
具体的には、設定ステップ0a1は、データ前処理22b1及び22b2がともにデータセット21の内のデータ属性21bと対応するデータに対する処理である場合、データ前処理22b1及び22b2間において依存関係が有ると判定する。
また、具体的には、設定ステップ0a1は、データ前処理22a1がデータセット21の内のデータ属性21aと対応するデータに対する処理であり、データ前処理22b1がデータセット21の内のデータ属性21bと対応するデータに対する処理である場合、データ前処理22a1及び22b1間において依存関係が無いと判定する。
【0031】
表示ステップ0a2は、データ前処理セット22に含まれる1以上のデータ前処理(例として、
図2中におけるデータ前処理22a1、データ前処理22b1及びデータ前処理22b2を指す。)のそれぞれをノードとするグラフ構造30を表示処理する。
また、表示ステップ0a2は、依存関係を有するデータ前処理のそれぞれと対応するノード間においてエッジを表示処理する。
また、表示ステップ0a2は、「インタフェース」を介したデータセットやデータ前処理等の本発明に係る各種情報を選択する上で適宜、機能する。具体的には、表示ステップ0a2は、当該インタフェースを、後述の表示画面の態様で、表示処理する。
また、表示ステップ0a2は、グラフ構造30を、1のコンピュータにおいて表示処理してもよいし、ネットワークを介して相互接続された2以上のコンピュータを協調させ表示処理してもよい。
【0032】
指定ステップ0a3は、表示ステップ0a2により表示処理された1以上のノードが、インタフェース13aを介して、選択されることで当該1以上のノードのそれぞれと対応するデータ前処理を指定する。インタフェース13aは、表示ステップ0a2によりその機能が提供される。
【0033】
実行ステップ0a4は、データベース2上のデータセット21に対して、指定ステップ0a3により指定されたデータ前処理を実行し、データセット21を更新する。
【0034】
一実施形態は、指定ステップ0a3により指定されたデータ前処理を削除又は無効化しデータ前処理セット22を更新する管理ステップをさらにコンピュータに実行させる。
【0035】
図3に例示されるように、一実施形態に係るデータセット21は、データテーブルの態様で表されてもよいし、画像データ、音声データ、動画データの集合体としてもよい。
データセット21は、データ属性21aを含むデータ属性群のそれぞれと対応するフィールドを有する1以上のデータを含み、その種別に制限はない。
また、
図3に例示されるように、データセット21は、欠損値を含み得る。
【0036】
図4(a)~(c)に例示されるように、一実施形態に係るデータ前処理セット22は、グラフ構造30の態様で表示処理される。
【0037】
図4(a)に例示されるように、グラフ構造30は、データセット21と対応するノードを起点として、データ前処理と対応するノードが接続される。
グラフ構造30は、1以上のデータ前処理のそれぞれと対応する1以上のノードと、依存関係を有するノード間を結ぶ1以上のエッジと、を有する。
また、グラフ構造30において、依存関係が有る3以上のノードは直列に接続され、依存関係が無い2以上のノードは並列に接続される。
なお、グラフ構造30におけるノード及びエッジの数に制限はない。
【0038】
図4(b)に例示されるように、指定ステップ0a3は、インタフェース13aを介してノードが選択されることで、選択されたノードと対応するデータ前処理を指定する。
また、
図4(c)に例示されるように、指定ステップ0a3は、インタフェース13aを介してノードが選択されることで、選択されたノードと対応するデータ前処理、及び、選択されたノードと前記依存関係を有するノードと対応するデータ前処理を指定する。
【0039】
図5に例示されるように、モデル構築ステップ0bは、学習処理のためのデータセット21の指定と、1以上の解析モデル101と、を含む解析レシピ102が指定された後に、当該データセット21に基づき当該1以上の解析モデル101の学習処理を行い、構築済モデル103を作成する。
また、モデル構築ステップ0bは、学習処理のためのデータセット21が指定された後に、例えば正解率、再現率及び精度等の評価指標の少なくとも一部が最大となるよう、当該1以上の解析モデル101を決定してよい。
また、モデル構築ステップ0bは、当該1以上の解析モデル101のそれぞれと対応するハイパーパラメータが有る場合、当該ハイパーパラメータを、当該評価指標の少なくとも一部が最大となるよう、調整してよい。
また、モデル構築ステップ0bは、当該評価指標の少なくとも一部が最大となるよう、解析モデル101及びハイパーパラメータを決定してよい。
また、モデル構築ステップ0bは、学習処理が完了した解析モデル101のそれぞれにおいて、正解率、再現率及び精度等の評価指標を決定してよい。当該評価指標は、表示ステップ0a2により、ヒートマップの態様で、表示処理される構成としてもよい。
なお、1以上の解析モデル101は、マスタテーブルの態様で、解析モデルマスタとしてデータベース2上に予め格納されてよい。
【0040】
例として、一実施形態に係る解析モデル101は、最近傍法、確率勾配降下法、二次判別分析法、単純ベイズ、ブースティング、ランダムフォレスト、サポートベクターマシン、及び、ディシジョンツリー等の既知の手法に基づく分類モデルである。
また、例として、一実施形態に係る解析モデル101は、線形回帰、最小角度回帰、関連度自動決定回帰、フーバー回帰、リッジ回帰、ラッソ回帰、ロジスティック回帰、Elastic Net回帰等の既知の手法に基づく回帰モデルである。
また、例として、一実施形態に係る解析モデル101は、既知の形態素解析モデル、形態素列の頻度を表示又はベクトル化するモデル、形態素列に基づくワードクラウドを表示するモデル、及び、tf-idf等の形態素列に係る評価モデル等の自然言語処理に係る既知のモデルである。
また、例として、一実施形態に係る解析モデル101は、二次元畳み込み層、最大プーリング、全結合層、一次元化、形状変換等のニューラルネットワークモデルに係る既知のモデルであってよい。
【0041】
データ解析ステップ0cは、
図6(a)~(c)のそれぞれとして例示されるような種々のデータ解析フローに基づき、データセット21に基づきデータ解析を行う。
例として、
図6(a)の場合、データ解析ステップ0cは、構築済モデル103aを介して、データセット21に基づき推論処理等のデータ解析を行う。
また、例として、
図6(b)の場合、データ解析ステップ0cは、データセット21に対してデータ前処理セット22の少なくとも一部であるデータ前処理が行われた後、構築済モデル103bを介して、データ前処理が行われたデータセット21に基づき推論処理等のデータ解析を行う。
また、例として、
図6(c)の場合、データ解析ステップ0cは、データセット21に対してデータ前処理セット22の少なくとも一部であるデータ前処理が行われた後、構築済モデル103cを介して、データ前処理が行われたデータセット21に基づき推論処理等のデータ解析を行う。データ解析ステップ0cは、当該データ解析により得られた出力値に対してデータ前処理セット22の少なくとも一部であるデータ前処理が行われた後、構築済モデル103dを介して、データ前処理が行われた出力値に基づく推論処理等のデータ解析を行う。
なお、データ解析ステップ0cは、構築済モデル103内の解析モデル101の指定を行う。当該指定は、解析モデル101に係る上記評価指標に基づき行われてよい。
【0042】
図7に示すように、一実施形態に係るデータ処理システムは、ネットワーク上で相互接続されるデータ処理サーバ1、データベース2及びデータ処理クライアント3を含む。
【0043】
データ処理サーバ1は、既知のコンピュータの態様をとり、演算装置1a、主記憶装置1b、補助記憶装置1c、入力装置1d、出力装置1e、通信装置1f及びバスインタフェースを有する。
演算装置1aは、命令セットを実行可能な、既知のプロセッサを有する。
主記憶装置1bは、命令セットを記憶可能な、既知の揮発性メモリを有する。
補助記憶装置1cは、プログラム等を記録可能な、既知の記録媒体を有する。
入力装置1dは、文字や意思等を入力可能な、既知の入力デバイスを有する。
出力装置1eは、文字や画像等を出力可能な、既知の出力デバイスを有する。
通信装置1fは、コンピュータ間通信を実現可能な、既知の通信デバイスを有する。
なお、データ処理システムは、TCP/IP等の既知のインターネットプロトコルスイートを利用し、ネットワーク上で通信を行う。
なお、データ処理クライアント3も、データ処理サーバ1と同様の構成をとり得る。
【0044】
データ処理サーバ1は、設定手段11、表示手段12、指定手段13及び実行手段14を含むデータ処理手段10を有する。設定手段11、表示手段12、指定手段13及び実行手段14のそれぞれは、設定ステップ0a1、表示ステップ0a2、指定ステップ0a3及び実行ステップ0a4のそれぞれと同様の機能を発揮する。
また、データ処理サーバ1は、モデル構築手段100及びデータ解析手段1000を有する。モデル構築手段100及びデータ解析手段1000のそれぞれは、モデル構築ステップ0b及びデータ解析ステップ0cのそれぞれと同様の機能を発揮する。
【0045】
データベース2は、少なくとも、データセット21、データ前処理セット22、解析モデル101、解析レシピ102及び構築済モデル103を格納する。
また、データベース2は、上記解析モデルマスタ及び前処理マスタをさらに有する。
【0046】
データ処理クライアント3は、データ処理サーバ1に含まれる各手段と協調し、入力及び出力(表示)のそれぞれを行う、入力手段31及び表示手段32を有する。
【0047】
一実施形態に係るデータ処理システムは、データ処理サーバ1、データベース2及びデータ処理クライアント3のそれぞれに係る機能が一元化されている構成としてよい。
また、一実施形態に係るデータ処理システムは、データ処理サーバ1、データベース2及びデータ処理クライアント3のそれぞれに係る機能の少なくとも一部が独立している構成としてよい。
【0048】
一実施形態に係るデータ前処理セット22は、データセット21に基づく高品質なデータ解析を行うためのデータ構造を有する。
当該データ構造は、データセット21に対する1以上のデータ前処理を実行させるために設定手段11によりデータベース2上に記憶され用いられ、当該1以上のデータ前処理、及び、当該1以上のデータ前処理のそれぞれにおける依存関係を示し、当該1以上のデータ前処理のそれぞれと対応するノード及び依存関係と対応するエッジを含むグラフ構造30を表示手段12により表示処理させる。
当該依存関係は、データ前処理の対象であるデータ属性に基づき判定される。
なお、データ前処理セット22は、異なるコンピュータ間で共有され得る。
【0049】
表示ステップ0a2は、
図8~12に例示される表示画面を表示処理する。
このとき、表示処理される表示部等のオブジェクトの寸法、数量及び呈色に制限はない。
また、このとき、表示処理される1以上のオブジェクトの少なくとも1つは、ポップアップウィンドウ等のサブウィンドウの態様で、表示処理されてよい。
【0050】
図8に例示されるように、表示ステップ0a2は、データセット21を新たに格納又は登録するための表示画面1wを表示処理する。
表示画面1wは、アップロード対象としてのデータセット21を指定可能なインタフェースとして機能する表示部1w1と、アップロード対象としてのデータセット21を識別するための文字列を指定可能なインタフェースとして機能する表示部1w2及び1w3と、データセット21のアップロードに係る意思入力可能なインタフェースとして機能する表示部1w4と、を含む。
【0051】
図9に例示されるように、表示ステップ0a2は、データセット21を新たに取得するための表示画面2wを表示処理する。
表示画面2wは、アップロード対象としてのデータセット21を識別するための文字列を指定可能なインタフェースとして機能する表示部2w1、2w2及び2w3と、アップロード対象としてのデータセット21が格納されている外部データベースの接続先ホスト、接続先ポート、名称、データベース用ユーザ識別子及びデータベース用パスワードのそれぞれを指定可能な表示部2w4、2w5、2w6、2w7及び2w8と、を含む。
【0052】
図10に例示されるように、表示ステップ0a2は、設定ステップ0a1によるデータ前処理セット22に含まれるデータ前処理を設定可能なインタフェースとしての表示画面3wを表示処理する。
表示画面3wは、インタフェースを介して選択されたデータ属性と対応するデータ前処理を設定可能な表示部3w1、3w2、3w2a及び3w2bと、データセット21に含まれるデータ属性を選択し指定可能な表示部3w3a、3w3b、3w3c、3w3d、3w3e、3w3f、3w3g、3w3h及び3w3iの少なくとも一部と、選択されたデータ属性と対応するデータに基づくヒストグラムが表示処理される表示部3w4と、グラフ構造30が表示処理される表示部3w5(図示せず。)と、が表示処理される。このとき、表示部3w5はインタフェース13aと協調する。
なお、表示画面3wは、前処理マスタに含まれるデータ前処理を適用可能なフィールドを含むデータ属性を選択し指定可能な表示部を、データ属性と対応するその他の表示部と外観上、区別できるよう表示処理する構成としてもよい。
【0053】
図11に例示されるように、表示ステップ0a2は、モデル構築ステップ0bにより解析モデル101を構築するためのインタフェースとしての表示画面4wを表示処理する。
表示画面4wは、解析モデル101を識別可能な文字列を指定可能な表示部4w1及び4w2と、解析モデル101を構築するための学習データセットをデータベース2上のデータセット21から選択し指定可能な表示部4w3と、解析モデル101を構築するための正解ラベルとしてのデータ属性を選択し指定可能な表示部4w4と、解析モデル101を構築するための学習データをデータセット21に含まれるデータ属性から選択し指定可能な表示部4w5と、データベース2上の解析レシピ102を選択し指定可能な表示部4w6と、を含む。
【0054】
図12に例示されるように、表示ステップ0a2は、データ解析ステップ0cによりデータ解析を実行するためのインタフェースとしての表示画面5wを表示処理する。
表示画面5wは、データベース2上の構築済モデル103を選択し指定可能な表示部5w1及び5w2と、データ解析におけるデータセット21をデータベース2上のデータセット21から選択し指定可能な表示部5w3及び5w4と、データ解析ステップ0cによるデータ解析に係る意思入力を可能とする表示部5w5と、を含む。
【0055】
本発明の一実施形態では、例として、労働時間や休日取得状況等の勤怠情報や、適性検査結果や異動履歴等の人事情報を含む人事データをデータセット21として、退職リスク予測又は人事領域の指標を予測するようなデータ解析を行う構成としてもよい。
【0056】
本発明によれば、設定ステップ0a1、表示ステップ0a2、指定ステップ0a3及び実行ステップ0a4をコンピュータに実行させることで、データセットに基づく高品質なデータ解析を平易に行うための新規な技術を実現することができる。
【符号の説明】
【0057】
0a :データ処理ステップ
0a1 :設定ステップ
0a2 :表示ステップ
0a3 :指定ステップ
0a4 :実行ステップ
0b :モデル構築ステップ
0c :データ解析ステップ
1 :データ処理サーバ
1a :演算装置
1b :主記憶装置
1c :補助記憶装置
1d :入力装置
1e :出力装置
1f :通信装置
1w :表示画面
1w1 :表示部
1w2 :表示部
1w3 :表示部
1w4 :表示部
2 :データベース
2w :表示画面
2w1 :表示部
2w2 :表示部
2w3 :表示部
2w4 :表示部
2w5 :表示部
2w6 :表示部
2w7 :表示部
2w8 :表示部
3 :データ処理クライアント
3w :表示画面
3w1 :表示部
3w2 :表示部
3w2a :表示部
3w2b :表示部
3w3a :表示部
3w3b :表示部
3w3c :表示部
3w3d :表示部
3w3e :表示部
3w3f :表示部
3w3g :表示部
3w3h :表示部
3w3i :表示部
3w4 :表示部
3w5 :表示部
4w :表示画面
4w1 :表示部
4w2 :表示部
4w3 :表示部
4w4 :表示部
4w5 :表示部
4w6 :表示部
5w :表示画面
5w1 :表示部
5w2 :表示部
5w3 :表示部
5w4 :表示部
5w5 :表示部
10 :データ処理手段
11 :設定手段
12 :表示手段
13 :指定手段
13a :インタフェース
14 :実行手段
21 :データセット
21a :データ属性
21b :データ属性
22 :データ前処理セット
22a1 :データ前処理
22b1 :データ前処理
22b2 :データ前処理
30 :グラフ構造
31 :入力手段
32 :表示手段
100 :モデル構築手段
101 :解析モデル
102 :解析レシピ
103 :構築済モデル
103a :構築済モデル
103b :構築済モデル
103c :構築済モデル
103d :構築済モデル
1000 :データ解析手段