特開2019-57279(P2019-57279A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特開2019-57279推論データマイニングのための方法およびシステム
<>
  • 特開2019057279-推論データマイニングのための方法およびシステム 図000003
  • 特開2019057279-推論データマイニングのための方法およびシステム 図000004
  • 特開2019057279-推論データマイニングのための方法およびシステム 図000005
  • 特開2019057279-推論データマイニングのための方法およびシステム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-57279(P2019-57279A)
(43)【公開日】2019年4月11日
(54)【発明の名称】推論データマイニングのための方法およびシステム
(51)【国際特許分類】
   G06F 16/00 20190101AFI20190315BHJP
   G06F 16/30 20190101ALI20190315BHJP
   G06F 17/27 20060101ALI20190315BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06F17/30 210C
   G06F17/27 685
   G06F17/27 665
【審査請求】有
【請求項の数】13
【出願形態】OL
【外国語出願】
【全頁数】16
(21)【出願番号】特願2018-173404(P2018-173404)
(22)【出願日】2018年9月18日
(31)【優先権主張番号】201721033036
(32)【優先日】2017年9月18日
(33)【優先権主張国】IN
(71)【出願人】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】ラジュクマール、バーヌ
(72)【発明者】
【氏名】ソミ トゥラシラマン、バーナ プラタプ
(72)【発明者】
【氏名】スブラマニアン、サンディヤラクシミ
(72)【発明者】
【氏名】ベルサミー、ディネシュクマール
(72)【発明者】
【氏名】スブラージュ、セルヴィ
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA12
5B091CA21
5B091CC01
5B091EA01
5B091EA02
(57)【要約】      (修正有)
【課題】所定のデータセットに関する少なくとも1つの推論レポートを生成するための方法およびシステムを提供する。
【解決手段】推論マイニングのためのシステム102は、推論レポートを生成するための所定のデータセットを受け取り、クリーニング辞書およびアンソロジー辞書を使用して、浄化データを生成する学習モジュール210と、優先度を関連づけるための優先度マッピングモジュール212と、複数のバケットの形に分類する分類モジュール214と、各バケットをグループ化して、各バケット内の浄化データの各々の組合せすべてを生成するグループ化モジュール216と、生成した浄化データの各々の可能な組合せすべてとクラスタ化辞書を比較して、浄化データに関連する洞察を識別する比較モジュール218と、識別した洞察を解決辞書に結びつけることにより、識別した洞察に関する推論レポートを生成するレポート生成モジュール220と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
所定のデータセットに関する少なくとも1つの推論レポートを生成するための方法であって、
学習モジュール(210)を使用して、前記少なくとも1つの推論レポートを生成するための、構造化されていないデータを備える前記所定のデータセットを受け取るステップと、
クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、前記学習モジュール(210)により、受け取った前記データセットをクリーニングして、浄化データを生成するステップであって、前記アンソロジー辞書(224)には、英語の言葉すべてが備わり、前記クリーニング辞書(222)には、前記クリーニング中に取り除かれる言葉の詳細が備わるステップと、
優先度マッピングモジュール(212)を使用して、優先度を前記浄化データの各々と関連づけるステップであって、前記優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づくステップと、
前記浄化データの各々に関連する前記優先度に基づき、分類モジュール(214)を使用して、前記浄化データの各々を複数のバケットの形に分類するステップと、
グループ化モジュール(216)を使用して、前記複数のバケットの各々をグループ化して、前記複数のバケットの各々内の前記浄化データの各々の可能な組合せすべてを生成するステップと、
比較モジュール(218)を使用して、生成した、前記浄化データの各々の前記可能な組合せすべてとクラスタ化辞書(228)を比較して、前記浄化データに関連する洞察を識別するステップであって、前記クラスタ化辞書(228)は、事前に規定された所見を備えるステップと、
レポート生成モジュール(220)を使用して、識別した前記洞察を解決辞書(230)と結びつけることにより、前記識別した洞察に関する前記少なくとも1つの推論レポートを生成するステップであって、前記解決辞書(230)は、前記事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるステップと
からなるプロセッサ実装ステップを備える方法。
【請求項2】
前記学習モジュール(210)を使用して、受け取った前記所定のデータセット、および前記受け取った所定のデータセットに関して生成した前記推論レポートをデータベース(232)に記憶するステップと、
前記システムが第2の類似する所定のデータセットを受け取ったとき、インタフェース(204)を使用して、ユーザに前記推論レポートを表示するステップと
をさらに備える、請求項1に記載の方法。
【請求項3】
前記所定のデータセットをロードするためのテンプレートが動的に作成されるように、前記受け取った所定のデータセットを動的にロードする、請求項1に記載の方法。
【請求項4】
生成した前記少なくとも1つの推論レポートは、妥当な提案を提供する1つまたは複数の解析レポートを備える、請求項1に記載の方法。
【請求項5】
プロセッサ(202)、前記プロセッサに結合したメモリ(206)を備える、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのシステム(102)であって、前記メモリ(206)は、
前記少なくとも1つの推論レポートを生成するための、構造化されていないデータを備える前記所定のデータセットを受け取るように構成され、
クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、受け取った前記データセットをクリーニングして、浄化データを生成するようにさらに構成された学習モジュール(210)であって、前記アンソロジー辞書(224)には、英語の言葉すべてが備わり、前記クリーニング辞書には、前記クリーニング中に取り除かれる言葉の詳細が備わる学習モジュール(210)と、
優先度を前記浄化データの各々と関連づけるように構成された優先度マッピングモジュール(212)であって、前記優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づく優先度マッピングモジュール(212)と、
前記浄化データの各々に関連する前記優先度に基づき、前記浄化データの各々を複数のバケットの形に分類するように構成された分類モジュール(214)と、
前記複数のバケットの各々をグループ化して、前記複数のバケットの各々内の前記浄化データの各々の可能な組合せすべてを生成するように構成されたグループ化モジュール(216)と、
生成した、前記浄化データの各々の前記可能な組合せすべてとクラスタ化辞書(228)を比較して、前記浄化データに関連する洞察を識別するように構成された比較モジュール(218)であって、前記クラスタ化辞書(228)は、事前に規定された所見を備える比較モジュール(218)と、
識別した前記洞察を解決辞書(230)に結びつけることにより、前記識別した洞察に関する前記少なくとも1つの推論レポートを生成するように構成されたレポート生成モジュール(220)であって、前記解決辞書(230)は、前記事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるレポート生成モジュール(220)と
を備えるシステム。
【請求項6】
受け取った前記所定のデータセット、および前記受け取った所定のデータセットに関して生成した前記推論レポートをデータベース(232)に記憶するようにさらに構成された前記学習モジュール(210)と、
前記システムが第2の類似する所定のデータセットを受け取ったとき、ユーザに前記推論レポートを表示するためのインタフェース(204)と
をさらに備える、請求項5に記載のシステム(102)。
【請求項7】
前記所定のデータセットを受け取るように構成され、前記所定のデータセットは、動的にロードされ、前記所定のデータセットをロードするためのテンプレートが動的に作成される、請求項5に記載のシステム(102)。
【請求項8】
前記レポート生成モジュール(220)が生成した前記少なくとも1つの推論レポートは、妥当な提案を提供する1つまたは複数の解析レポートを備える、請求項5に記載のシステム(102)。
【請求項9】
前記学習モジュール(210)は、前記少なくとも1つの推論レポートを生成する1つまたは複数の先行するインスタンスをモニタすることに基づき、前記クリーニング辞書(222)、前記アンソロジー辞書(224),前記優先度辞書(226)、前記クラスタ化辞書(228)、および解決辞書(230)のうち1つまたは複数を更新するようにさらに構成される、請求項5に記載のシステム(102)。
【請求項10】
1つまたは複数の命令を備える1つまたは複数の非一時的機械可読情報記憶媒体であって、前記命令は、1つまたは複数のハードウェアプロセッサにより実行されたとき、
学習モジュール(210)を使用して、少なくとも1つの推論レポートを生成するための、構造化されていないデータを備える所定のデータセットを受け取るステップと、
クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、前記学習モジュール(210)により、前記受け取ったデータセットをクリーニングして、浄化データを生成するステップであって、前記アンソロジー辞書(224)には、英語の言葉すべてが備わり、前記クリーニング辞書(222)には、前記クリーニング中に取り除かれる言葉の詳細が備わるステップと、
優先度マッピングモジュール(212)を使用して、優先度を前記浄化データと関連づけるステップであって、前記優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づくステップと、
前記浄化データの各々に関連する前記優先度に基づき、分類モジュール(214)を使用して、前記浄化データの各々を複数のバケットの形に分類するステップと、
グループ化モジュール(216)を使用して、前記複数のバケットの各々をグループ化して、前記複数のバケットの各々内の前記浄化データの各々の可能な組合せすべてを生成するステップと、
比較モジュール(218)を使用して、生成した、前記浄化データの各々の前記可能な組合せすべてとクラスタ化辞書(228)を比較して、前記浄化データに関連する洞察を識別するステップであって、前記クラスタ化辞書(228)は、事前に規定された所見を備えるステップと、
レポート生成モジュール(220)を使用して、識別した前記洞察を解決辞書(230)と結びつけることにより、前記識別した洞察に関する前記少なくとも1つの推論レポートを生成するステップであって、前記解決辞書(230)は、前記事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるステップと
を引き起こす1つまたは複数の非一時的機械可読情報記憶媒体。
【請求項11】
前記学習モジュール(210)を使用して、受け取った前記所定のデータセット、および前記受け取った所定のデータセットに関して生成した前記推論レポートをデータベース(232)に記憶するステップと、
前記システムが第2の類似する所定のデータセットを受け取ったとき、インタフェース(204)を使用して、ユーザに前記推論レポートを表示するステップと
をさらに備える、請求項10に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
【請求項12】
前記所定のデータセットをロードするためのテンプレートが動的に作成されるように、前記受け取った所定のデータセットを動的にロードする、請求項10に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
【請求項13】
生成した前記少なくとも1つの推論レポートは、妥当な提案を提供する1つまたは複数の解析レポートを備える、請求項10に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本特許出願は、2017年9月18日に出願された(「推論データマイニングのための方法およびシステム」と題する)インド特許出願公開第201721033036号明細書の優先権を主張する。
【0002】
本発明は、一般にデータ解析およびデータ可視化の分野に関する。より詳細には、本発明は、推論データマイニングのための方法およびシステムに関する。
【背景技術】
【0003】
現代の技術の世界では、データ生成は、手に負えない速度で増大している。データ生成が増大することにより、妥当な理解、推論、および意志決定のために、より高速なデータの収集、記憶、解析、および提示に関する要求が増大する。データを適切に解析し、提示することにより、ユーザは、データに含有される情報の関連性および有用性を理解し、効率的なデータ駆動型決定を行うことが可能になる。
【0004】
データ解析およびデータ可視化により、任意の機械データの定性的理解をユーザに提供する目的で情報が提示される。さらに、データ解析およびデータ可視化は、非常に大規模で複雑なデータの組に関する自動解析技法と対話型可視化の組合せである。マイニング処理の総合的な目的は、1組の生データから情報を抽出して、さらに使用するためにその情報を理解可能な構造に変換することである。
【発明の概要】
【発明が解決しようとする課題】
【0005】
データ解析およびデータ可視化に関する既存の方法は、ユーザが生データをモニタし、解析する助けになるが、しかしながら、データの性質のせいで、ランダムなログおよびダンプの値などの、データのある種のストリームを効率的に処理することは困難になる。また、データマイニングが非効率である別の理由は、適切に処理するための知能を提供するためのインタフェースがないことである。さまざまな解釈および推論を生み出すために静的能力を適用することにより、生データから、エンドユーザの期待に対して明確さを提供することができない。最も普通のマイニング技術は、1つだけに集中し、異なるデータ間の正しい相関関係を獲得することができない。
【課題を解決するための手段】
【0006】
本方法、システム、およびハードウェア使用可能性について説明する前に、本発明は、本開示で明示的に示されない、本発明の複数の可能な実施形態が存在する可能性があるので、説明する特定のシステムおよび方法論に限定されないことを理解されたい。また、説明で使用する専門用語は、特定のバージョンまたは実施形態を説明するためだけのものであり、添付の特許請求の範囲だけにより限定される本発明の範囲を限定することを意図するものではないことも理解されたい。
【0007】
本出願は、所定のデータセットに関する少なくとも1つの推論レポートを生成するための方法およびシステムを提供する。
【0008】
本出願は、所定のデータセットに関する少なくとも1つの推論レポートを生成するコンピュータ実装方法であって、学習モジュール(210)を使用して少なくとも1つの推論レポートを生成するための、構造化されていないデータを備える所定のデータセットを受け取るプロセッサ実装ステップを備えるコンピュータ実装方法を提供する。方法は、クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、学習モジュール(210)により、受け取ったデータセットをクリーニングして、浄化データを生成するステップをさらに備える。一実施形態では、アンソロジー辞書(224)には、英語の言葉すべてが備わり、クリーニング辞書(222)には、クリーニング中に削除される言葉の詳細が備わっている。本開示の方法は、優先度マッピングモジュール(212)を使用して、優先度を浄化データの各々と関連づけるステップであって、優先度は優先度辞書(226)に記憶された事前に規定された優先度に基づくステップと、浄化データの各々に関連する優先度に基づき、分類モジュール(214)を使用して浄化データの各々を複数のバケットの形に分類するステップとをさらに備える。方法は、グループ化モジュール(216)を使用して、複数のバケットの各々をグループ化して、複数のバケットの各々内の浄化データの各々の可能な組合せすべてを生成するステップと、比較モジュール(218)を使用して、生成した、浄化データの各々の可能な組合せすべてとクラスタ化辞書(228)を比較して、浄化データに関連する洞察を識別するステップとをさらに備える。開示する主題の一実施形態では、クラスタ化辞書(228)は、事前に規定された所見を備える。最後に、開示する方法は、レポート生成モジュール(220)を使用して、識別した洞察を解決辞書(230)に結びつけることにより、識別した洞察に関する少なくとも1つの推論レポートを生成するステップを伴い、解決辞書(230)は、事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備える。
【0009】
別の様態では、本出願は、システム(102)を提供し、システム(102)は、プロセッサ(202)と、ユーザインタフェース(204)と、少なくとも1つの推論レポートを生成するための所定のデータセットを受け取るように構成された学習モジュール(210)を備える、プロセッサに結合したメモリ(206)とを備える。本明細書で開示する主題の一実施形態では、所定のデータセットは、構造化されていないデータを備える。さらに、学習モジュール(210)は、クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、受け取ったデータをクリーニングして、浄化データを生成するように構成される。開示する主題の一様態によれば、アンソロジー辞書(224)には、英語の言葉すべてが備わり、クリーニング辞書(222)には、クリーニング中に削除される言葉の詳細が備わっている。本明細書で開示するシステム(102)はまた、優先度を浄化データの各々と関連づけるように構成された優先度マッピングモジュール(212)を備え、優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づく。さらに、システムは、浄化データの各々に関連する優先度に基づき、浄化データの各々を複数のバケットの形に分類するように構成された分類モジュール(214)と、複数のバケットの各々をグループ化して、複数のバケットの各々内の浄化データの各々の可能な組合せすべてを生成するように構成されたグループ化モジュール(216)とを備える。さらに、別の様態では、システム(102)は、生成した、浄化データの各々の可能な組合せすべてとクラスタ化辞書(228)を比較して、浄化データに関連する洞察を識別するように構成された比較モジュール(218)であって、一様態では、クラスタ化辞書(228)は、事前に規定された所見を備える比較モジュール(218)と、識別した洞察を解決辞書(230)に結びつけることにより、識別した洞察に関する少なくとも1つの推論レポートを生成するように構成されたレポート生成モジュール(220)であって、解決辞書(230)は、事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるレポート生成モジュール(220)とを備える。
【0010】
別の様態では、本明細書は、1つまたは複数のハードウェアプロセッサにより実行されたとき、システム(102)を提供する活動を遂行する1つまたは複数の命令を備える1つまたは複数の非一時的機械可読情報記憶媒体を提供し、システム(102)は、プロセッサ(202)と、ユーザインタフェース(204)と、少なくとも1つの推論レポートを生成するための所定のデータセットを受け取るように構成された学習モジュール(210)を備える、プロセッサに結合したメモリ(206)とを備える。本明細書で開示する主題の一実施形態では、所定のデータセットは、構造化されていないデータを備える。さらに、学習モジュール(210)は、クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、受け取ったデータセットをクリーニングして、浄化データを生成するように構成される。開示する主題の一様態によれば、アンソロジー辞書(224)には、英語の言葉すべてが備わり、クリーニング辞書(222)には、クリーニング中に削除される言葉の詳細が備わっている。本明細書で開示するシステム(102)はまた、優先度を浄化データの各々と関連づけるように構成された優先度マッピングモジュール(212)を備え、優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づく。さらに、システムは、浄化データの各々に関連する優先度に基づき、浄化データの各々を複数のバケットの形に分類するように構成された分類モジュール(214)と、複数のバケットの各々をグループ化して、複数のバケットの各々内の浄化データの各々の可能な組合せすべてを生成するように構成されたグループ化モジュール(216)とを備える。さらに、別の様態では、システム(102)は、生成した、浄化データの各々の可能な組合せすべてとクラスタ化辞書(228)を比較して、浄化データに関連する洞察を識別するように構成された比較モジュール(218)であって、一様態では、クラスタ化辞書(228)は、事前に規定された所見を備える比較モジュール(218)と、識別した洞察を解決辞書(230)に結びつけることにより、識別した洞察に関する少なくとも1つの推論レポートを生成するように構成されたレポート生成モジュール(220)であって、解決辞書(230)は、事前に規定された所見に関する妥当な示唆を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるレポート生成モジュール(220)とを備える。
【0011】
本明細書のどの構成図も、本主題の原理を具体化する例示的システムの概念図を表すことを当業者は認識されたい。同様に、コンピュータ可読媒体の形で実質的に表現されてもよく、そのためコンピューティング機器またはプロセッサにより、そのようなコンピューティング機器またはプロセッサが明示的に示されていても、示されていなくても、実行されてもよいさまざまな処理を、どのフローチャート、流れ図、状態遷移図、擬似コードなども表すことを認識されよう。
【0012】
前述の概略、ならびに好ましい実施形態についての以下の詳細な説明は、添付図面と併せて読むとき、よりよく理解される。本発明を例示するために、本発明の代表的構造を図で示すが、しかしながら、本発明は、開示する具体的な方法およびシステムに限定されない。
【図面の簡単な説明】
【0013】
図1】本主題の一実施形態による、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのシステムのネットワーク実装を例示する。
図2】本主題の一実施形態による、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのシステムを例示する構成図を示す。
図3a】本主題の一実施形態による、所定のデータセットに関する少なくとも1つの推論レポートを生成するための方法を例示する流れ図を示す。
図3b】本主題の一実施形態による、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのステップを例示する流れ図を示す。
【発明を実施するための形態】
【0014】
次に、本発明の特徴すべてを例示する、本発明のいくつかの実施形態について詳細に論じる。
【0015】
用語「comprising(備える)」、「having(有する)」、「containing(含有する)」、および「including(含む)」、ならびにこれらの他の形態は、意味が同等であることが意図され、これらの用語の任意の1つに続く1つまたは複数の項目が、そのような1つまたは複数の項目の網羅的な列挙であることを意味することも、列挙した1つまたは複数の項目だけに限定されることを意味することもないという点で、オープンエンド形式であることが意図される。
【0016】
また、本明細書および添付の特許請求の範囲で使用するとき、単数形「a」、「an」、および「the」は、前後関係が他の方法で明確に規定しない限り、複数の参照を含むことを留意しなければならない。本明細書で説明するものに類似する、または均等の任意のシステムおよび方法を、本発明の実施形態の実施または試験で使用することができるが、次に、好ましいシステムおよび方法について説明する。
【0017】
開示する実施形態は、さまざまな形態で具体化してもよい、本発明を代表するものでしかない。
【0018】
図に例示する要素は、以下でより詳細に説明するように、相互に動作する。しかしながら、詳細な説明を示す前に、以下の議論のすべてでは、特定の実装について説明しているにもかかわらず、限定しているのではなく、事実上代表的なものであることが留意される。たとえば、実装の、選択された様態、特徴、または構成要素について、メモリに記憶されているとして表現するが、推論データマイニングのシステムおよび方法と整合性のあるシステムおよび方法のすべてまたは一部を、他の機械可読媒体上に記憶しても、その全体にわたって分散させても、そこから読み出してもよい。
【0019】
上記で説明した技法を、プロセッサと、プロセッサにより読出し可能および/または書込み可能な記憶媒体(たとえば、揮発性および不揮発性のメモリおよび/または記憶素子を含む)と、複数の入力ユニットと、複数の出力機器の任意の数の任意の組合せを含む、プログラム可能なコンピュータ上で実行されている(またはプログラム可能なコンピュータにより実行可能な)1つまたは複数のコンピュータプログラムに実装してもよい。複数の入力ユニットのいずれかを使用して入力された入力にプログラムコードを適用して、説明される機能を遂行して、複数の出力機器のいずれかに表示される出力を生成してもよい。
【0020】
以下の特許請求の範囲に入る各コンピュータプログラムを、アセンブリ言語、機械語、高水準の手続き型プログラミング言語、またはオブジェクト指向プログラミング言語などの、任意のプログラミング言語で実装してもよい。プログラミング言語は、たとえば、コンパイル型プログラミング言語でも、インタープリタ型プログラミング言語でもよい。そのようなコンピュータプログラムをそれぞれ、コンピュータプロセッサにより実行するために機械可読記憶装置に有形に具体化されたコンピュータプログラム製品に実装してもよい。
【0021】
コンピュータ可読媒体上に有形に具体化されたプログラムを実行する1つまたは複数のコンピュータプロセッサにより本発明の方法ステップを遂行して、入力に対して動作し、かつ出力を生成することにより、本発明の機能を遂行してもよい。例として、適切なプロセッサは、汎用マイクロプロセッサと専用マイクロプロセッサの両方を含む。一般に、プロセッサは、メモリ(読出し専用メモリおよび/またはランダム・アクセス・メモリなど)から命令およびデータを受け取り(読み出し)、メモリに命令およびデータを書き込む(記憶する)。コンピュータプログラム命令およびデータを有形に具体化するのに適した記憶装置は、たとえば、EPROM、EEPROM、およびフラッシュメモリ機器を含む半導体記憶装置、内蔵ハードディスクおよび取外し可能ディスクなどの磁気ディスク、光磁気ディスク、ならびにCD−ROMなどの、すべての形態の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(application−specific integrated circuit、特定用途向け集積回路)またはFPGA(Field−Programmable Gate Array,フィールド・プログラマブル・ゲート・アレイ)により補われても、それらに組み込まれてもよい。コンピュータはまた、一般に内蔵ディスク(図示せず)または取外し可能ディスクなどの非一時的コンピュータ可読記憶媒体からプログラムおよびデータを受け取り(読み出し)、そこにプログラムおよびデータを書き込む(記憶する)ことができる。
【0022】
本明細書で開示する任意のデータを、たとえば、非一時的コンピュータ可読媒体上に有形に記憶された1つまたは複数のデータ構造の形で実装してもよい。本発明の実施形態は、そのような1つまたは複数のデータ構造でそのようなデータを記憶し、そのような1つまたは複数のデータ構造からそのようなデータを読み出してもよい。
【0023】
本出願は、データの推論マイニングのための、コンピュータ実装方法およびシステムを提供する。本出願は、推論レポートおよび解析レポートを生成するための方法およびシステムを開示する。次に、図1を参照すると、本主題の一実施形態による、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのシステム102のネットワーク実装100を例示する。システム102をサーバ上に実装することを考慮して、本主題について説明するが、システム102を、ラップトップコンピュータ、デスクトップコンピュータ、ノートブック、ワークステーション、メインフレームコンピュータ、サーバ、ネットワークサーバなどのように、さまざまなコンピューティングシステムに実装してもよいことが理解されてもよい。一実施形態では、システム102をクラウドに基づく環境に実装してもよい。本明細書で以後、集合的にユーザ機器104と呼ぶ、1つまたは複数のユーザ機器104−1、104−2、…、104−N、またはユーザ機器104上に常駐しているアプリケーションを通して、複数のユーザがシステム102にアクセスしてもよいことが理解されよう。ユーザ機器104の例は、携帯型コンピュータ、携帯情報端末、ハンドヘルド機器、およびワークステーションを含んでもよいが、それらに限定されない。ユーザ機器104は、ネットワーク106を通してシステム102に通信可能に結合される。
【0024】
一実施形態では、ネットワーク106は、無線ネットワークでも、有線ネットワークでも、それらの組合せでもよい。ネットワーク106を、イントラネット、ローカル・エリア・ネットワーク(local area network、LAN)、広域ネットワーク(wide area network、WAN)、インターネットなどのような、異なるタイプのネットワークの1つとして実装することができる。ネットワーク106は、専用ネットワークでも、共用ネットワークでもよい。共用ネットワークは、さまざまなプロトコルを、たとえば、ハイパーテキスト転送プロトコル(Hypertext Transfer Protocol、HTTP)、HTTPS(Hypertext Transfer protocol over SSL)、伝送制御プロトコル/インターネットプロトコル(Transmission Control Protocol/Internet Protocol、TCP/IP)、ワイヤレス・アプリケーション・プロトコル(Wireless Application Protocol、WAP)などを使用して互いに通信する、異なるタイプのネットワークの関連づけを表す。さらに、ネットワーク106は、ルータ、ブリッジ、サーバ、コンピューティング機器、記憶装置などを含む、さまざまなネットワーク機器を含んでもよい。
【0025】
本発明の一実施形態では、図2を参照すると、システム102のさまざまな構成要素の詳細な動作が例示されている。
【0026】
一様態では、図2に例示するアーキテクチャによれば、システム102は、プロセッサ(202)と、ユーザインタフェース(204)と、少なくとも1つの推論レポートを生成するための所定のデータセットを受け取るように構成された学習モジュール(210)を備える、プロセッサに結合したメモリ(206)とを備える。本明細書で開示する主題の一実施形態では、所定のデータセットは、構造化されていないデータを備える。別の実施形態では、所定のデータセットをロードするためのテンプレートが作成されるように、受け取った所定のデータセットを動的にロードする。さらに、学習モジュール(210)は、クリーニング辞書(222)およびアンソロジー辞書(224)を使用して、受け取ったデータをクリーニングして、浄化データを生成するように構成される。開示する主題の一様態によれば、アンソロジー辞書(224)には、英語の言葉すべてが備わり、クリーニング辞書(222)には、クリーニング中に削除される言葉の詳細が備わっている。
【0027】
本明細書で開示するシステム(102)はまた、優先度を浄化データの各々と関連づけるように構成された優先度マッピングモジュール(212)を備え、優先度は、優先度辞書(226)に記憶された事前に規定された優先度に基づく。さらに、システムは、浄化データの各々に関連する優先度に基づき、浄化データの各々を複数のバケットの形に分類するように構成された分類モジュール(214)と、複数のバケットの各々をグループ化して、複数のバケットの各々内の浄化データの各々の可能な組合せすべてを生成するように構成されたグループ化モジュール(216)とを備える。
【0028】
システム(102)は、生成した、浄化データの各々の可能な組合せすべてとクラスタ化辞書(228)を比較して、浄化データに関連する洞察を識別するように構成された比較モジュール(218)であって、一様態では、クラスタ化辞書(228)は、事前に規定された所見を備える比較モジュール(218)と、識別した洞察を解決辞書(230)に結びつけることにより、識別した洞察に関する少なくとも1つの推論レポートを生成するように構成されたレポート生成モジュール(220)であって、解決辞書(230)は、事前に規定された所見に関する妥当な提案を伴う、ドメインに基づくカタログおよびサービスに基づくカタログを備えるレポート生成モジュール(220)とをさらに備える。
【0029】
開示する本発明の一実施形態では、任意の問題点、および入力データから照合された集合的問題点からの学習を洞察と呼ぶ。洞察は、問題点の性質、背景、相関関係、影響などを含む、各問題点に関する情報を提供する。さらに、洞察は、問題点に対処するステップを最も正確に決定するのを容易にする。
【0030】
さらに、別の実施形態では、システム(102)は、絶えず活動して連続的に学習し、すべての辞書を、更新された状態に保つ。この学習は、システム(102)が獲得した、事前に規定された所見と呼ばれ、解析を容易にしている。
【0031】
図2を参照する別の様態では、システム(102)は、データベース(232)およびインタフェース(204)であって、学習モジュール(210)が、受け取った所定のデータセット、および上記受け取った所定のデータセットに関して生成された推論レポートをデータベース(232)に記憶するようにさらに構成されてもよく、インタフェース(204)が、第2の類似する所定のデータセットをシステムが受け取ったとき、ユーザに推論レポートを提示するように構成されるようなデータベース(232)およびインタフェース(204)をさらに備える。
【0032】
本明細書で開示するシステム(102)の一実施形態では、学習モジュール(210)は、システム実行中の先行するインスタンスに基づき、1つまたは複数の辞書を更新してもよい。別の様態では、学習モジュール(210)は、推論レポートを生成するためにデータセットが実行されるたびにモニタしてもよく、ユーザが提供した更新をさらにモニタし、それに応じて、そのようなモニタに基づき、1つまたは複数の辞書を更新してもよい。
【0033】
次に、図3aおよび図3bを参照すると、所定のデータセットに関する少なくとも1つの推論レポートを生成するためのステップを例示する流れ図を例示する。ステップ302で、少なくとも1つの推論レポートを生成するための所定のデータセットを受け取る。一実施形態では、所定のデータセットをロードするためのテンプレートが作成されるように、受け取った所定のデータセットを動的にロードする。本明細書で開示する主題の別の実施形態では、所定のデータセットは、構造化されていないデータを備える。
【0034】
ステップ304で、クリーニング辞書およびアンソロジー辞書を使用して、受け取ったデータセットをクリーニングして、浄化データを生成する。一実施形態では、アンソロジー辞書には、英語の言葉すべてが備わり、クリーニング辞書には、クリーニング中に削除される言葉の詳細が備わっている。
【0035】
ステップ306で、浄化データの各々と優先度を関連づける。本明細書で開示する主題の一様態では、優先度は、優先度辞書に記憶された事前に規定された優先度に基づく。
【0036】
ステップ308で、浄化データの各々を、複数のバケットの形に分類する。一実施形態では、分類は、浄化データの各々に関連する優先度に基づいてもよい。
【0037】
ステップ310で、複数のバケットの各々をグループ化して、複数のバケットの各々内の浄化データの各々の可能な組合せすべてを生成する。
【0038】
ステップ312で、生成した、浄化データの各々の可能な組合せすべてとクラスタ化辞書を比較して、浄化データに関連する洞察を識別してもよい。一様態では、クラスタ化辞書は、事前に規定された所見を備えてもよい。
【0039】
ステップ314で、識別した洞察に関する少なくとも1つの推論レポートを生成する。一実施形態では、識別した洞察を解決辞書に結びつけることにより、少なくとも1つの推論レポートを生成してもよい。別の様態では、少なくとも1つの推論レポートは、妥当な提案を提供する、1つまたは複数の解析レポートを備える。妥当な提案は、解決辞書に記憶されたデータに基づいてもよい。
【0040】
一実施形態では、ユーザは、システムに記憶された既存のテンプレートおよびデータを変更することが可能であってもよく、自身のニーズに適したテンプレートを選択し、除外し、作成してもよく、次いで、そのようなテンプレートに所定のデータをアップロードし、推論レポートおよび解析レポートを生成するために使用する。
【0041】
以下の段落は、本発明を理解する目的のためだけに意図され、本開示の範囲を限定すると決して考えるべきではない、ある種の規定および説明を含有する。本開示の範囲は、詳細な説明に続いて示される請求項だけに基づき規定されてもよい。
【0042】
開示するシステムは、機械学習、統計情報、およびエキスパート入力が交差する部分で方法を伴う大規模データセット内にパターンを発見する計算処理を取り扱う。本明細書で開示するシステムおよび方法は、データセットから情報を抽出し、将来使用するために、理解可能な構造にその情報を変換する。
【0043】
開示するシステムは、システムに導入される、ありとあらゆるデータセットから入力を取得する。一実施形態では、本明細書で開示するシステムはまた、手動式知識供給を組み入れる。
【0044】
システムは、データに基づき推論レポートを生成するための、いくつかの辞書を備える。辞書は、a)どの言葉を取り除くべきかに関する情報(充填文字および名前)を含有するクリーニング辞書、b)言葉すべてのアンソロジーを含有する標準英語辞書であるアンソロジー辞書、c)関連性のある用語すべてに関する優先度値を伴う、関連性のある用語すべてを含有する優先度辞書、d)バケット化された洞察のさまざまな組合せを含有するクラスタ化辞書、およびe)バケット化された洞察すべてに関する妥当な提案を伴う、広範囲にわたるドメインに基づくカタログおよびサービスに基づくカタログである解決辞書を含む。
【0045】
本明細書で開示する方法に従ってこれらの辞書を使用して、推論レポートおよび解析レポートを生成する。本明細書で開示する方法の代表的なステップを以下に開示するが、しかしながら、これらのステップは例示的であり、本発明の範囲を限定すると解釈してはいけない。
【0046】
最初に、クリーニング処理で、生データから識別したフィールドをクリーニング辞書およびアンソロジー辞書と突き合わせる。これは、データセットから、英語以外の言葉、名前、ok、ah、areなどのような充填文字、および他の関係のない情報を取り除くのに役立つ。
【0047】
クリーニング処理が完了すると、次いで、各言葉の優先度の順にデータを異なるバケットにグループ化する。これにより、識別した専門用語それぞれに関係がある重要性を理解することが可能になり、問題点を正確に絞るのに役立つ。
【0048】
次のステップは、しきい値を取得して、生成すべき言葉の水準の組合せを識別する。これにより、バケット値を使用して、可能な組合せすべてが生成される。このステップでは、データの組合せは、クラスタ化辞書と比較され、最良適合を識別する。一実施形態では、システムがグループ化した組合せは、データ全体に基づき、分量に関して表現される。
【0049】
次のステップで、バケット化された洞察をそれぞれの解決辞書と突き合わせて、項目ごとに、指定された提案を識別する。これはさまざまな、ドメインに基づくカタログおよびサービスに基づくカタログ(DB、サーバ、バックアップなど)にわたり行われてもよく、(異なるパラメータに基づき)一致したとき、指定された提案を、解決辞書に対してスキャンして、提案カテゴリを明らかにしてもよい。
【0050】
一実施形態では、環境全体にわたる問題点の広がりを理解するためにマイニングした後に、さまざまな推論を示す一連のレポートとして最終データを表示してもよい。システムはまた、それぞれの問題点を最小にし、かつ予防的に回避するための方法を理解するのに役立つ、示唆に富むレポートを生成してもよい。
【0051】
一実施形態では、新しいデータセットは、それぞれの辞書と調和しない場合があり、そのようなデータセットをエキスパートが評価してもよい。エキスパートによる入力をシステムが記憶してもよく、学習モジュールがエキスパートによる入力を使用して、正確な情報を用いて辞書を更新してもよい。
【符号の説明】
【0052】
100 ネットワーク実装
102 システム
104、104−1、104−2、…、104−N ユーザ機器
106 ネットワーク
202 プロセッサ
204 ユーザインタフェース
206 メモリ
210 学習モジュール
212 優先度マッピングモジュール
214 分類モジュール
216 グループ化モジュール
218 比較モジュール
220 レポート生成モジュール
222 クリーニング辞書
224 アンソロジー辞書
226 優先度辞書
228 クラスタ化辞書
230 解決辞書
232 データベース
図1
図2
図3a
図3b
【外国語明細書】
2019057279000001.pdf