(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-27
(54)【発明の名称】データを変換、分析、および可視化するためにテキスト分析を使用するためのシステムおよび方法
(51)【国際特許分類】
G06F 16/34 20190101AFI20240820BHJP
G06F 16/35 20190101ALI20240820BHJP
【FI】
G06F16/34
G06F16/35
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024510351
(86)(22)【出願日】2022-05-26
(85)【翻訳文提出日】2024-04-03
(86)【国際出願番号】 US2022031083
(87)【国際公開番号】W WO2023022775
(87)【国際公開日】2023-02-23
(32)【優先日】2021-08-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502303739
【氏名又は名称】オラクル・インターナショナル・コーポレイション
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】マラック,マイケル
(72)【発明者】
【氏名】グプタ,マニーシャー
(72)【発明者】
【氏名】サーブ,ニキル
(72)【発明者】
【氏名】ユィ,チャオホイ
(72)【発明者】
【氏名】リーバス,ルイス・イー
(72)【発明者】
【氏名】ラミレス,ルイス
(72)【発明者】
【氏名】サボライネン,ダグラス
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB04
5B175GC03
(57)【要約】
一実施形態によれば、本明細書では、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローのサポートを含む、データを変換、分析、および可視化するためにテキスト分析を使用するためのシステムおよび方法について記載する。一実施形態によれば、システムは、セルフサービステキスト分析を可能にするクラウド環境内に実装することができる。ユーザは、ユーザインターフェースを介してシステムと対話して、入力データのデータフローまたはデータセットに自然言語処理または他のテキスト分析技術を適用し、データに関連する可視化または他のタイプの有用な情報を生成することができる。
【特許請求の範囲】
【請求項1】
非構造化テキストまたは他のタイプのテキストデータ入力のデータフローのサポートを含む、データを変換、分析、および可視化するためにテキスト分析を使用するためのシステムであって、
プロセッサと、メモリと、データにアクセスし、前記データを変換、分析、または可視化するためにクライアントデバイス/アプリケーションによるアクセスを可能にするデータエンリッチメントシステムとを含むデータ分析システム
を備え、
1つまたは複数のクラスタリングプロセスまたはセンチメント分析プロセスを実行して、入力データの特定のデータフローまたはデータセットに関連付けられる候補トピックタイトルを決定し、前記データへのテキスト分析の適用を制御または補足するように適合されている、システム。
【請求項2】
前記クラスタリングプロセスまたは前記センチメント分析プロセスは、入力データの前記特定のデータフローまたはデータセット内の文書の集まりに関連する語彙を決定し、前記文書に関連する複数のトピックを生成し、入力データの前記特定のデータフローまたはデータセットの2単語または3単語のトピックタイトルの潜在ディリクレ配分法(LDA:Latent Dirichlet Allocation)スコアを計算し、そのトピックのラベルまたは名前としてトップスコアの候補トピックタイトルを選択するLDAプロセスを含む、請求項1に記載のシステム。
【請求項3】
入力データの前記特定のデータフローまたはデータセット内の1つまたは複数の文書に対して、単語頻度-逆文書頻度(TF-IDF:term frequency-inverse document frequency)に基づくセンチメント分析、および/または読書グレードレベルの評価を実行することをさらに含み、前記読書グレードレベルの標示が、前記1つまたは複数の文書を記述する文書ベクトル内に組み込まれる、請求項1に記載のシステム。
【請求項4】
前記システムは、セルフサービステキスト分析を可能にするクラウド環境内に実装され、前記システムは、ユーザが前記システムと対話して、入力データのデータフローまたはデータセットに自然言語処理または他のテキスト分析技術を適用し、前記データに関連する可視化または他のタイプの有用な情報を生成することができるようにするユーザインターフェースを含む、請求項1に記載のシステム。
【請求項5】
前記ユーザインターフェースは、前記ユーザが、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローを含む、入力データの特定のデータフローまたはデータセットに対して操作する、1つまたは複数のテキスト分類、テキスト変換、テキスト抽出、文書クラスタリング、または他のタイプのデータフローアクションを指定することができるようにする、データフローアクションタイプへのアクセスを可能にする、請求項4に記載のシステム。
【請求項6】
非構造化テキストまたは他のタイプのテキストデータ入力のデータフローのサポートを含む、データを変換、分析、および可視化するためのテキスト分析を使用するための方法であって、
プロセッサと、メモリと、データにアクセスし、前記データを変換、分析、または可視化するためにクライアントデバイス/アプリケーションによるアクセスを可能にするデータエンリッチメントシステムとを含むデータ分析システムを提供することと、
1つまたは複数のクラスタリングプロセスまたはセンチメント分析プロセスを実行して、入力データの特定のデータフローまたはデータセットに関連付けられる候補トピックタイトルを決定し、前記データへのテキスト分析の適用を制御または補足するのに使用することと
を含む方法。
【請求項7】
前記クラスタリングプロセスまたは前記センチメント分析プロセスは、入力データの前記特定のデータフローまたはデータセット内の文書の集まりに関連する語彙を決定し、前記文書に関連する複数のトピックを生成し、入力データの前記特定のデータフローまたはデータセットの2単語または3単語のトピックタイトルの潜在ディリクレ配分法(LDA:Latent Dirichlet Allocation)スコアを計算し、そのトピックのラベルまたは名前としてトップスコアの候補トピックタイトルを選択するLDAプロセスを含む、請求項6に記載の方法。
【請求項8】
入力データの前記特定のデータフローまたはデータセット内の1つまたは複数の文書に対して、単語頻度-逆文書頻度(TF-IDF:term frequency-inverse document frequency)に基づくセンチメント分析、および/または読書グレードレベルの評価を実行することをさらに含み、前記読書グレードレベルの標示が、前記1つまたは複数の文書を記述する文書ベクトル内に組み込まれる、請求項6に記載の方法。
【請求項9】
セルフサービステキスト分析を可能にするクラウド環境内に、ユーザが前記システムと対話して、入力データのデータフローまたはデータセットに自然言語処理または他のテキスト分析技術を適用し、前記データに関連する可視化または他のタイプの有用な情報を生成することができるようにするユーザインターフェースを提供することをさらに含む、請求項6に記載の方法。
【請求項10】
前記ユーザインターフェースは、前記ユーザが、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローを含む、入力データの特定のデータフローまたはデータセットに対して操作する、1つまたは複数のテキスト分類、テキスト変換、テキスト抽出、文書クラスタリング、または他のタイプのデータフローアクションを指定することができるようにする、データフローアクションタイプへのアクセスを可能にする、請求項9に記載の方法。
【請求項11】
1つまたは複数のプロセッサを含むコンピュータによって読み取られ、実行されると、前記コンピュータに、
データ分析システムが、データにアクセスし、前記データを変換、分析、または可視化するためにクライアントデバイス/アプリケーションによるアクセスを可能にすることと、
1つまたは複数のクラスタリングプロセスまたはセンチメント分析プロセスを実行して、入力データの特定のデータフローまたはデータセットに関連付けられる候補トピックタイトルを決定し、前記データへのテキスト分析の適用を制御または補足するのに使用することと
を含む方法を実行させる命令を有する、非一時的コンピュータ可読記憶媒体。
【請求項12】
前記クラスタリングプロセスまたは前記センチメント分析プロセスは、入力データの前記特定のデータフローまたはデータセット内の文書の集まりに関連する語彙を決定し、前記文書に関連する複数のトピックを生成し、入力データの前記特定のデータフローまたはデータセットの2単語または3単語のトピックタイトルの潜在ディリクレ配分法(LDA:Latent Dirichlet Allocation)スコアを計算し、そのトピックのラベルまたは名前としてトップスコアの候補トピックタイトルを選択するLDAプロセスを含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
【請求項13】
入力データの前記特定のデータフローまたはデータセット内の1つまたは複数の文書に対して、単語頻度-逆文書頻度(TF-IDF:term frequency-inverse document frequency)に基づくセンチメント分析、および/または読書グレードレベルの評価を実行することをさらに含み、前記読書グレードレベルの標示が、前記1つまたは複数の文書を記述する文書ベクトル内に組み込まれる、請求項11に記載の非一時的コンピュータ可読記憶媒体。
【請求項14】
セルフサービステキスト分析を可能にするクラウド環境内に、ユーザが前記システムと対話して、入力データのデータフローまたはデータセットに自然言語処理または他のテキスト分析技術を適用し、前記データに関連する可視化または他のタイプの有用な情報を生成することができるようにするユーザインターフェースを提供することをさらに含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
前記ユーザインターフェースは、前記ユーザが、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローを含む、入力データの特定のデータフローまたはデータセットに対して操作する、1つまたは複数のテキスト分類、テキスト変換、テキスト抽出、文書クラスタリング、または他のタイプのデータフローアクションを指定することができるようにする、データフローアクションタイプへのアクセスを可能にする、請求項14に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
著作権表示
本特許文献の開示の一部は、著作権保護の対象となる題材を含んでいる。著作権の所有者は、特許商標庁の特許ファイルまたは記録に掲載されるように特許文献または特許開示を誰でも複製できることに対して異議はないが、その他の点ではすべての如何なる著作権をも保有する。
【0002】
優先権の主張
本出願は、2021年8月20日に出願された、出願番号第17/408,226号の「SYSTEM AND METHOD FOR USE OF TEXT ANALYTICS TO TRANSFORM, ANALYZE, AND VISUALIZE DATA」と題する、米国特許出願の優先権の利益を主張するものであり、上述の出願およびその内容は、参照により本明細書に援用される。
【0003】
技術分野
本明細書で説明する実施形態は、概して、入力データのデータフローまたはデータセットを処理するシステムおよび方法、ならびに非構造化テキストまたは他のタイプのテキストデータのデータフローのサポートを含む、データを変換、分析、および可視化するためのテキスト分析の使用に関する。
【背景技術】
【0004】
背景技術
一般的に説明すると、データ分析は、通常大量の入力データを、そのデータから追加の有用な情報を導き出すために、コンピュータベースで分析して考察することを可能にする。例えば、ビジネス組織内では、さまざまなビジネスインテリジェンス(BI)ツールを使用して、ビジネスユーザに、戦略的なビジネス上の意思決定を行う際にユーザを支援するプレゼンテーション形式で、組織データを記述する情報を提供することができる。データ分析は、理工学、メディアコミュニケーション、電子商取引、またはオンライン検索アプリケーションなど、他の環境にも適用することができる。
【0005】
過去数年の間に、ビジネスインテリジェンスおよび他の形式のデータ分析の使用は、比較的簡単な数値またはテキストカテゴリラベルのタイプのデータの分析を超えて拡大した。今日、特定の組織にとって関心のあるデータの多くは、非構造化テキストまたは他のデータ、例えば、電子メール、テキストメッセージ、オンライン調査への回答、または他のタイプの自由形式もしくは非構造化テキストなどの形式で届く。
【発明の概要】
【発明が解決しようとする課題】
【0006】
テキスト分析の使用は、このようなタイプのデータに、そうしたデータをより良く理解し利用するために適用することができる。しかしながら、テキスト分析を使用する典型的な手法では、一般に、ユーザが、コンピュータベースの自然言語処理などの技術を適用することに精通していることが必要であり、これにより、ビジネスユーザまたは日常的なユーザが利用しづらくなる可能性がある。
【課題を解決するための手段】
【0007】
概要
一実施形態によれば、本明細書では、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローのサポートを含む、データを変換、分析、および可視化するためにテキスト分析を使用するシステムおよび方法について説明する。
【0008】
さらに、特定の環境またはユースケースにおいてテキスト分析を可能にするために使用することができる、アルゴリズムプロセスおよびユーザインターフェースのさまざまな例について説明する。
【発明の効果】
【0009】
一実施形態によれば、システムは、セルフサービステキスト分析を可能にするクラウド環境内に実装することができる。ユーザ、例えば、データ処理に適用されるような機械学習の使用の専門家ではない可能性のある組織のビジネスユーザは、ユーザインターフェースを介してシステムと対話して、自然言語処理または他のテキスト分析技術を入力データのデータフローまたはデータセットに適用し、データに関連する可視化または他のタイプの有用な情報を生成することができる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムを示す図である。
【
図2】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図3】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図4】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図5】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図6】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図7】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図8】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図9】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す図である。
【
図10】一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのプロセスを示す図である。
【
図11】一実施形態による、セルフサービステキスト分析を提供するための、システムとのユーザインターフェースの使用を示す図である。
【
図12】一実施形態による、セルフサービステキスト分析を提供するための、システムとのユーザインターフェースの使用を示す図である。
【
図13】一実施形態による、セルフサービステキスト分析を提供するための、システムとのユーザインターフェースの使用を示す図である。
【
図14】一実施形態による、セルフサービステキスト分析を提供するための、システムとのユーザインターフェースの使用を示す図である。
【
図15】一実施形態による、セルフサービステキスト分析を提供するためのユーザインターフェースの使用例を示す図である。
【
図16】一実施形態による、セルフサービステキスト分析を提供するためのユーザインターフェースの別の使用例を示す図である。
【
図17】一実施形態による、セルフサービステキスト分析を提供するためのユーザインターフェースの別の使用例を示す図である。
【
図18】一実施形態による、セルフサービステキスト分析を提供するためのユーザインターフェースの別の使用例を示す図である。
【
図19】一実施形態による、セルフサービステキスト分析を提供するための、ユーザインターフェースの使用プロセスを示す図である。
【発明を実施するための形態】
【0011】
詳細な説明
上述したように、今日、特定の組織にとって関心のあるデータの多くは、非構造化データ、例えば、電子メール、テキストメッセージ、オンライン調査への回答、または他のタイプの自由形式もしくは非構造化テキストなどの形式で届く。しかしながら、このようなデータでテキスト分析を使用する一般的な手法では、ユーザが、コンピュータベースの自然言語処理(NLP)などの技術を適用することに特に精通している必要があり、これにより、ビジネスユーザまたは日常的なユーザがこのような機能を利用しづらくなる。
【0012】
一実施形態によれば、本明細書では、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローのサポートを含む、データを変換、分析、および可視化するためにテキスト分析を使用するシステムおよび方法について説明する。
【0013】
さらに、特定の環境またはユースケースにおいてテキスト分析を可能にするために使用することができる、アルゴリズムプロセスおよびユーザインターフェースのさまざまな例について説明する。
【0014】
例えば、さまざまな実施形態によれば、システムは、潜在ディリクレ配分法(LDA:Latent Dirichlet Allocation)クラスタリング、単語頻度-逆文書頻度(TF-IDF:term frequency-inverse document frequency)ベースのセンチメント分析、および/または機械学習(ML)機能としての読書グレードレベル(reading grade level)の評価を実行する1つまたは複数のアルゴリズムプロセスを適用して、入力データの特定のデータフローまたはデータセットへのテキスト分析の適用を制御または補足することができる。
【0015】
一実施形態によれば、システムは、セルフサービステキスト分析を可能にするクラウド環境内に実装することができる。ユーザ、例えば、データ処理に適用されるような機械学習の使用の専門家ではない可能性のある組織のビジネスユーザは、ユーザインターフェースを介してシステムと対話して、自然言語処理または他のテキスト分析技術を入力データのデータフローまたはデータセットに適用し、データに関連する可視化または他のタイプの有用な情報を生成することができる。
【0016】
さまざまな実施形態によれば、本明細書に記載するシステムおよび方法を使用して入力として受け取り考察することができる、自由形式または非構造化テキストデータのタイプの例としては、電子メールメッセージ、テキスト(例えば、SMS)メッセージ、オンライン調査に対するテキスト回答、ツイート、顧客サービス担当者のチャットのトランスクリプト、医療トランスクリプションメモ、オンライン製品/映画レビュー、人的資本管理(HCM)、人事部(HR)、もしくは企業資源計画(ERP)システム内で提供されたコメント、Slackチャット、スクレイピングされたウェブページ、曲の歌詞、または電子商取引製品説明が挙げられる。
【0017】
さまざまなタイプの自由形式または非構造化テキストデータの上記の例は、例として、例示の目的で提供したものであり、さまざまな実施形態によれば、本明細書に記載するシステムおよび方法は、非構造化テキストまたは他のタイプのテキストデータの他のタイプのデータフローを変換、分析、および可視化するためにテキスト分析を適用するために同様に使用することができる。
【0018】
データ分析環境
図1は、一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムを示す。
【0019】
図1に示す実施形態は、非構造化テキストまたは他のタイプのテキストデータの他のタイプのデータフローを変換、分析、および可視化するためのテキスト分析の使用を可能にするコンピューティング環境の一例を説明する目的で提供される。さまざまな実施形態によれば、本明細書で説明および図示するさまざまな構成要素、プロセス、および機能は、他のタイプのデータ分析システムまたはコンピューティング環境でも使用することができる。
【0020】
さまざまな実施形態によれば、図面に図示し本明細書でさらに説明する構成要素、プロセス、および機能は、コンピュータシステムもしくは他のタイプの処理デバイス、または、例えば、Oracle Analytics Cloud(OAC)環境などのクラウドベースのコンピューティング環境(クラウド環境)をいくつかの実施形態では含むコンピューティング環境によって実行可能な、ソフトウェアまたはプログラムコードとして提供することができる。
【0021】
図1に示すように、一実施形態によれば、データ分析システム100は、デバイスハードウェア110(例えば、プロセッサ、メモリ)を含み、分析システムによって提供されるデータにアクセスしてそれを変換、分析、または可視化するためのクライアントデバイス/アプリケーション120によるアクセスを可能にする、データエンリッチメントシステム200を提供することができる。
【0022】
例えば、一実施形態によれば、分析システムは、例えばOracle Analytics Cloud Serviceなどのクラウドサービスを介してクライアントデバイス/アプリケーションへのアクセスを可能にするOACなどのクラウド環境として提供することができる。
【0023】
他の実施形態によれば、分析システムは、例えば他のタイプのクラウド環境またはオンプレミス(例えば、非クラウド)ベースのコンピューティング環境を含む、他のタイプのコンピューティング環境によって、またはそうした他のタイプのコンピューティング環境と関連して提供することができる。
【0024】
一実施形態によれば、クライアントアプリケーションは、コンピュータシステムまたは処理デバイスによって実行可能なソフトウェアまたはコンピュータ可読プログラムコードとして、かつ例えばソフトウェアアプリケーションユーザインターフェースまたはウェブブラウザインターフェースなどのユーザインターフェース130を有するように、実装することができる。クライアントアプリケーションは、分析システムへのインターネット/HTTPもしくは他のタイプのネットワーク接続を介して、またはクラウド環境の例では、環境によって提供されるクラウドサービスを介して、データを取得するかまたはデータにアクセスすることができる。
【0025】
一実施形態によれば、ユーザインターフェースは、後にさらに詳細に説明するように、ユーザがデータセットを表示すること、またはユーザインターフェースと対話してデータを変換、分析、もしくは可視化すること、例えば、非構造化テキストまたは他のタイプのテキストデータに関連付けられたデータフローのグラフ、チャート、もしくは他のタイプのデータ分析もしくは可視化140を生成することを可能にすることを含む、セルフサービステキスト分析を可能にする、さまざまなデータフローアクションタイプへのアクセスを含むか、または提供することができる。
【0026】
一実施形態によれば、分析システムは、データセット240が、例えば1つまたは複数のデータソース接続を介して、1つまたは複数のデータソース250から取得され、受け取られ、または準備されるのを可能にする。
【0027】
上述したように、本明細書で説明するシステムおよび方法を使用して変換、分析、または可視化することができるデータのタイプの例としては、HCM、HR、もしくはERPデータ、電子メールもしくはテキストメッセージ、または他の自由形式もしくは非構造化テキストデータが挙げられる。
【0028】
例えば、組織データとともにインテリジェンス(BI)ツールが使用されるのを可能にする実施形態によれば、データベース255、データストレージサービス257、または他のタイプのデータリポジトリもしくはデータソースのうちの1つまたは複数と通信するビジネスインテリジェンスサーバ254を介して、データを取得し、受け取り、または準備することができる。
【0029】
一実施形態によれば、データ分析または可視化情報の要求142は、上述したようにクライアントアプリケーションおよびユーザインターフェースを介して受け取り、分析システムに(クラウド環境の例では、クラウドサービスを介して)伝達することができる。
【0030】
システムは、要求に関連付けられたユーザ/ビジネスコンテキスト264を作成し、要求されたデータ分析または可視化情報を生成してクライアントに返す144際に使用するために、ユーザ/ビジネスコンテキスト265をアドレス指定するために適切なデータセットを取得することができる。例えば、一実施形態によれば、データ分析システムは、例えば、SELECTステートメントまたは論理SQL266命令を使用して、データセットを取得することができる。
【0031】
一実施形態によれば、システムは、本明細書でさらに説明するように、入力データのデータフローまたはデータセットに、1つまたは複数の自然言語処理または他のテキスト分析技術を適用することを含む、さまざまなアルゴリズム処理を適用することによって、入力データのデータフローまたはデータセットの理解を反映するモデルまたはデータフロー290を作成して、可視化、またはデータに関連する他のタイプの有用な情報を生成することができる。
【0032】
一実施形態によれば、データエンリッチメントシステムは、例えば、インジェストサーバ270、準備サーバ274、変換サーバ276、推奨サーバ278、センチメント分析サーバ280、公開サーバ282、知識サーバ284、およびエンリッチサーバ286などのさまざまな構成要素、プロセス、または機能をさらに含むことができ、これらの一部またはすべては、データをさらに変換、分析、または可視化するためにシステムによってさまざまな組み合わせで使用することができる。
【0033】
例えば、一実施形態によれば、データソースは、インジェストサーバによってサンプリングすることができ、サンプリングされたデータは、エンリッチメントのために分析することができる。特定されたデータを受け取って、例えば、データエンリッチメントサーバがアクセス可能なHadoop分散ストレージ(HDFS)などの分散ストレージシステムに追加することができる。データは、多数の処理段階を有するパイプラインによって意味的に処理することができる。
【0034】
例えば、そのような処理段階は、1つまたは複数の準備サーバによって制御される準備段階、公開サーバによって制御される公開段階、および/またはエンリッチサーバによって制御されるエンリッチ化段階を含むことができる。
【0035】
一実施形態によれば、準備段階は、自動的にデータソースのフォーマットを検出し、適切なコンテンツ抽出を実行するように適合させることができる。データソースのフォーマットが特定されると、データソースは、エンリッチサーバによって処理することができるフォーマットになるように自動的に準備または正規化することができる。
【0036】
一実施形態によれば、インバウンドデータソースは、エンリッチサーバに結合された分散ストレージシステムにロードすることができ、この分散ストレージシステムは、インジェストされたデータファイル、中間処理ファイル、および公開前の結果の格納のための一時的な記憶空間を提供する。強化またはエンリッチ化された結果は、エンリッチメントプロセス中に取り込まれ、インジェストされたデータに関連付けられた任意のメタデータとともに、分散ストレージシステムに格納されることもできる。
【0037】
一実施形態によれば、データエンリッチメントシステムは、異なるデータソースからのデータのセンチメントを分析する機能を含むセンチメント分析サーバを通して、センチメント分析を提供することができる。
【0038】
一実施形態によれば、公開サーバは、分析のために(例えば、推奨されるデータ変換、エンリッチメント、および/または他の変更を表示するために)、エンリッチメント中に取り込まれたデータソースメタデータを1つまたは複数の可視化システムに提供することができる。公開サーバは、処理されたデータを、例えば、別のコンピューティングシステム、データベース、またはサービスなどの1つまたは複数のデータターゲットに送ることができる。
【0039】
一実施形態によれば、データは、例えば、未知の単語または新語の関連情報などの追加のコンテンツを含むようにエンリッチ化することができる。
【0040】
上記で示したように、さまざまな実施形態によれば、図面に示し本明細書で説明する構成要素、プロセス、および機能は、コンピュータシステムもしくは他のタイプの処理デバイス、または、OACなどのクラウド環境をいくつかの実施形態では含む、コンピューティング環境によって実行可能な、ソフトウェアまたはプログラムコードとして提供することができる。
【0041】
例えば、一実施形態によれば、データエンリッチメントシステム、ならびにそのさまざまな構成要素、プロセス、および機能は、ソフトウェア(例えば、クラウド環境内で提供される1つまたは複数のプロセッサまたは計算デバイスによって実行可能なプログラムコードまたは命令)で実装してもよい。さまざまな実施形態によれば、データは、データがどのように、何のデータが、および/またはデータがどこに格納されるかに応じて種々の方法で編成されるとともに、クラウド環境のデータストレージコンポーネント内に格納される、1つまたは複数のデータ構造を使用して、格納することができる。
【0042】
図2および
図3は、一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す。
【0043】
上記で説明したように、一実施形態によれば、システムは、入力データのデータフローまたはデータセットの理解を反映するモデルまたはデータフローを作成することができる。
【0044】
図2に示すように、一実施形態によれば、モデルまたはデータフローは、入力データのデータフローまたはデータセットに対して操作する、例えば1つまたは複数のデータフローアクション291、292を含む、適切なさまざまな自然言語処理または他のテキスト分析技術を入力データのデータフローまたはデータセットに適用することによって、さらに変更することができる。
【0045】
例えば、
図3に示すように、一実施形態によれば、システムは、入力データのデータフローまたはデータセットに対して操作する1つまたは複数のテキスト分類294、テキスト変換295、テキスト抽出296、または文書クラスタリング297のデータフローアクションを適用するように適合させることができる。
【0046】
後にさらに説明するように、一実施形態によれば、ユーザは、ユーザインターフェースを介してシステムと対話して、入力データのデータフローまたはデータセットに自然言語処理または他のテキスト分析技術を適用するようにデータフローアクションの使用を制御して、データに関連する可視化または他のタイプの有用な情報を生成することができる。
【0047】
LDAクラスタリングによって決定されるトピックの自動命名
さまざまな実施形態によれば、システムは、入力データの特定のデータフローまたはデータセットへのテキスト分析の適用を制御または補足するために潜在ディリクレ配分法(LDA)クラスタリングを実行する、1つまたは複数のアルゴリズムプロセスを適用することができる。
【0048】
一般的に説明すると、LDAアルゴリズムまたはプロセスを使用して、データ内の類似性の決定に基づいて、データセット内のさまざまなデータの観察を可能にするモデルを生成することができる。例えば、非構造化テキストまたは他のタイプのテキストデータのデータフローまたは文書に適用されるように、LDAを使用して、データセット内の単語/フレーズの存在がそれらのトピックのうちの1つに起因するように、文書をトピック(一般に、単語または複数の単語のフレーズ)で特徴付けるかまたはトピックに関連付けることができる。
【0049】
しかしながら、LDAを使用して、文書の入力データフローまたはデータセットをトピックにクラスタリングすることができるが、典型的なLDA手法は、例えば、それらのトピックのラベルまたは名前を与えない。
【0050】
一実施形態によれば、システムは、入力データのデータフローまたはデータセットに関連するトピックの自動命名を実行するLDAプロセスを、概して、複数の複数単語のトピックまたはNグラム(例えば、バイグラムすなわち2単語のトピックタイトル、およびトリグラムすなわち3単語のトピックタイトル)を生成することと、生成された各タイトルを文書全体であるかのように扱うことと、スコアリングプロセスを使用して、いずれの特定のタイトルが特定のトピックに関連している最大の確率を有するかを決定することとを含む手法を使用して、適用することができる。特定の文書が与えられると、システムは、その文書がN個のトピックの各々に属する確率を返すことができる。
【0051】
図4~
図8は、一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す。
【0052】
図4に示すように、一実施形態によれば、システムによって実行されるプロセスは以下を含む。
【0053】
入力としてまたはデータフローとして、文書D300の集まりを受け取ること。このような文書は、非構造化データ、例えば、電子メール、テキストメッセージ、オンライン調査への回答、または他のタイプの自由形式もしくは非構造化テキストなどの形式で受け取ることができる。例示として、典型的な文書は、各々おそらくは40~3000文字のいくつかの長い文字列のテキストを含む場合がある。
【0054】
文書Dの集まりから、LDA処理で使用される語彙V1(310)を生成すること。語順に含まれる情報を活用するために、この語彙は、個々の単語312だけでなく、単語の対(バイグラム314)および/もしくは単語の3つ組(トリグラム316)、またはより長いフレーズもしくはシーケンス(そのような単語のシーケンスが文書Dの集まりに十分に頻繁に出現する場合)も含むはずである。
【0055】
一実施形態によれば、LDA処理は、例えば、SciKitLearnライブラリクラスCountVectorizerを使用し、ngram_rangeパラメータをngram_range=(1,3)と指定することによって、達成することができる。このパラメータは、ユニグラム、バイグラム、およびトリグラムのすべてを候補語彙用語として考慮することができるようにシステムへ指示する。
【0056】
このような実施形態では、学習モデルのオーバーフィッティングを防止するために、他のCountVectorizerパラメータを設定することができる。例えば、max_dfパラメータ(最大文書頻度)を、0.85など、1.0未満のものに設定することができ、それにより、文書の85%超に出現する用語は、LDAによって使用される語彙として十分に特徴的であるとは見なされない。max_featuresパラメータ(結果として得られる語彙の最大サイズ)は、1000など比較的低く設定することができ、それにより、モデルは偽の用語にオーバーフィットしない。
【0057】
LDA処理の目的でSciKitLearnライブラリを利用する、本明細書で提供するさまざまな実施形態の説明は、LDA処理ライブラリ例の説明の目的で提供するものである。他の実施形態によれば、分析システムは、他のタイプのLDA処理ライブラリ、アルゴリズム、プロセス、または関数を利用することができる。
【0058】
図5に示すように、一実施形態によれば、LDAプロセスは、システムによって文書Dの集まりに対して語彙V1を用いて実行され、N個のトピック320が生成される。さまざまな実施形態によれば、Nの値は、(a)N=6など、種々のユースケースに有用なものにハードコーディングするか、(b)ユーザが指定するか、または(c)Nのさまざまな値を試み、トピックのコヒーレンスを測定することによって、システムによって自動的に決定するか、のいずれかを行える。
【0059】
図6に示すように、一実施形態によれば、システムによって、文書Dの集まりから、(例えば、この例では、314、316、およびさらに344を含むことによって)語彙V1よりもはるかに大きい第2の語彙V2(340)が生成される。
【0060】
一実施形態によれば、上記で示したように、LDA処理は、例えば、SciKitLearnライブラリクラスCountVectorizerを使用して、達成することができる。このような実施形態では、第2の語彙を生成するために、max_featuresのパラメータを(例えば、1000の代わりに100,000まで)緩和することができるように、および、ngram_range=(2,3)を設定することにより単一単語のユニグラム(例えば、この例では312、342)を除外することによってもまた、max_dfのパラメータを、(例えば、0.85の代わりに0.95まで)緩和することができる。LDAプロセスは、各語彙用語が各トピックに出現する確率を追跡する。
【0061】
上記で説明したように、LDA処理の目的のためのSciKitLearnライブラリの使用は、例示の目的で提供するものであり、他の実施形態によれば、分析システムは、他のタイプのLDA処理ライブラリ、アルゴリズム、プロセス、または関数を利用することができる。
【0062】
一実施形態によれば、システムは、N個のトピックの各々について、上位M個の単語のセットの結合(union)U330を決定し(ここで、Mの典型的な値は50である)、次いで、N個のトピックの各トピックiについて、以下を行うことによって、トピックタイトルを生成する。
【0063】
図7に示すように、語彙V2から、N個のトピックの各々について上位M個の単語のセットの結合Uに少なくとも1つの構成単語が出現する、すべての複数単語のトピックまたはNグラム(例えば、バイグラムすなわち2単語のトピックタイトル、およびトリグラムすなわち3単語のトピックタイトル)を選択することによって、候補トピックタイトルセットT350を生成すること。
【0064】
図8に示すように、以下により、Tから各候補トピックタイトルをスコアリングすること。
【0065】
そのLDAスコアを計算する(2単語または3単語のタイトルを、それが文書全体であるかのように扱い、「文書」がN個のトピックの各々にある確率を計算する)こと。これによって、各トピックの確率である長さNのベクトルSが生成される。
【0066】
候補トピックタイトルスコア(352、354)を計算することであって、ここで、sjはSのj番目の要素であり、αは通常3である。
【0067】
【0068】
一実施形態によれば、システムは、次いで、そのトピックのラベルまたは名前として、トップスコアの候補トピックタイトルを選択することができる。
【0069】
センチメント分析の使用
さまざまな実施形態によれば、システムは、単語頻度-逆文書頻度(TF-IDF)ベースのセンチメント分析、および/または機械学習機能としての読書グレードレベルの評価を実行する1つまたは複数のアルゴリズム処理を適用して、入力データの特定のデータフローまたはデータセットへのテキスト分析の適用を制御または補足することができる。
【0070】
一般的に説明すると、TF-IDFアルゴリズムまたはプロセスを使用して、特定の単語が文書の集まり内のある特定の文書にとってどの程度重要であり得るかを示す値または標示を提供することができる。TF-IDF値は、一般にいくつかの単語は相対的により頻繁に出現する可能性があるという事実を反映する、文書の集まり内の文書の数で相殺される、その単語が文書に出現する回数に比例して増加する。このようなアルゴリズムまたは処理を使用して、センチメント分析を実行するか、または特定の文書に関連する何らかの主観的な情報の標示を提供することができる。
【0071】
一般的に説明すると、読書(グレード)レベルアルゴリズムまたはプロセスを使用して、特定の文書またはテキストの読書レベルの値または標示を提供することができる。一実施形態によれば、読書グレードレベルは、例えば、文書内の文の数、単語の総数、音節の数、普通でない単語もしくは言い回しの存在、または典型的な読書グレードレベルを示す他の特性に基づいて計算することができる。
【0072】
図9は、一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのシステムをさらに示す。
【0073】
図9に示すように、一実施形態によれば、(例えば、上記で説明したように語彙V1および/または語彙V2を生成することによって)文書Dの集まりに関連する語彙が生成されると、システムは、ロジスティック回帰とともに、TF-IDFアルゴリズムまたはプロセスを適用して、特定の文書に対してセンチメント分析を実行することができる。
【0074】
一実施形態によれば、TF-IDFプロセスは、文書を数値文書ベクトル362に変換する。同時に、システムは、読書グレード分析362を実行することができ、その情報は文書ベクトルに付加され、それにより、最終的な文書ベクトル366は、後に機械学習で使用されるように、読書グレードレベル標示368を含む。
【0075】
例えば、否定的なセンチメントが相対的に低い読書グレードレベルと相関している場合など、特定のユースケースに対処する際に、文書ベクトル内に読書グレードレベル標示を組み込むことで、結果として得られるモデルの精度が向上する。
【0076】
テキスト分析プロセス
図10は、一実施形態による、データを変換、分析、または可視化するためにテキスト分析を使用するためのプロセスを示す。
【0077】
図10に示すように、一実施形態によれば、ステップ402において、データ分析システムは、データソースによって提供される1つまたは複数の構造化または非構造化データに関連する分析/可視化の要求を受け取り、システムは、複数のデータフローアクションコンポーネントを使用して、データ内の1つまたは複数の入力文書Dを記述するモデルまたはデータフローを提供するように適合される。
【0078】
ステップ404において、システムは、文書Dから、個々の単語とDに比較的高い頻度で出現するより大きいNグラム(例えば、バイグラム、トリグラム)とを含む語彙V1を作成する。
【0079】
ステップ406において、システムは、語彙V1を用いて(例えば、LDA)アルゴリズムを文書Dに適用して、N個のトピックを生成する。
【0080】
ステップ408において、システムは、文書Dから、個々の単語は除外するが、V1からのより大きいNグラムとDに比較的低い頻度で出現する追加のNグラムとを含む語彙V2を作成する。
【0081】
ステップ410において、システムは、N個のトピックの各々について、上位M個の単語のセットの結合Uを決定し、Uに少なくとも1つの構成単語が出現するV2におけるNグラムについて、候補トピックタイトルセットTを生成する。
【0082】
ステップ412において、システムは、Tから各候補トピックタイトルをスコアリングし(LDA)、文書Dに関連付けられるトップスコアの候補トピックタイトルを選択する。
【0083】
ステップ414において、システムは、(任意選択的に)文書Dに関連するセンチメント分析を実行することができ、それは、文書を数値ベクトルに変換すること(例えば、TF-IDF)、およびそのベクトルに、文書の語彙(例えば、V1、V2、その他)に関連する読書グレードレベルを付加することを含む。
【0084】
ステップ416において、システムは、データソースによって提供される1つまたは複数の構造化または非構造化データに関連する分析/可視化を、可視化としてユーザインターフェース内に提供しおよび/またはグラフィカルに表示する。
【0085】
セルフサービス分析のためのユーザインターフェース
冒頭で説明したように、このようなデータを用いてテキスト分析を使用するための典型的な手法では、ユーザが、コンピュータベースの自然言語処理などの技術を適用することに特に精通していることが必要であり、それにより、ビジネスユーザまたは日常的なユーザがこのような機能を利用しづらくなる。
【0086】
一実施形態によれば、システムは、セルフサービステキスト分析を可能にするクラウド環境内に実装することができ、そこでは、例えば、データ処理に適用されるような機械学習の使用の専門家ではない可能性のある組織のビジネスユーザが、ユーザインターフェースを介してシステムと対話して、自然言語処理または他のテキスト分析技術を入力データのデータフローまたはデータセットに適用し、データに関連する可視化または他のタイプの有用な情報を生成することができる。
【0087】
図11~
図14は、一実施形態による、セルフサービステキスト分析を提供するための、システムとのユーザインターフェースの使用を示す。
【0088】
図11~
図14に示すように、一実施形態によれば、ユーザインターフェースは、ユーザが、例えば、データの追加421、フィルタ422、数値予測の訓練423、多重分類器の訓練424、テキスト分類425、テキスト変換426、テキスト抽出427、文書クラスタリング428、または他のタイプのデータフローアクションのうちの1つまたは複数を指定することができるようにする、データフローアクションタイプ420へのアクセスを可能にし、データフローアクションタイプ420は、非構造化テキストまたは他のタイプのテキストデータ入力のデータフローを含む、特定の入力データのデータフローまたはデータセットに対して操作する(429)。
【0089】
一実施形態によれば、ユーザインターフェースは、種々の機械学習、自然言語処理、または他のテキスト分析技術を、例えば以下のような、容易にアクセス可能なデータフローアクションタイプに系統立てる。
【0090】
テキスト分類、例えば、センチメント、読書グレードレベル、エンゲージメントレベル、新規性、ユーモア、皮肉、スタンス/噂、言語検出、新語分類、外れ値スコア。
【0091】
テキスト変換、例えば、準備、補正、言語翻訳、要約、機械学習のためのベクトル化、TF-IDF、Word2Vec、Doc2Vec。
【0092】
テキスト抽出、例えば、固有表現認識、品詞タグ付け、共参照解析、単語カウント。
文書クラスタリング、例えば、LDA。
【0093】
上記例は、例として、例示の目的で提供したものであり、さまざまな実施形態によれば、ユーザインターフェースは、他の自然言語処理技術に関連する他のタイプのデータフローアクションへのアクセスを可能にすることができる。
【0094】
一実施形態によれば、ユーザインターフェースにより、ユーザは、データセットとともに使用する1つまたは複数のデータフローアクションタイプを指定するか、または他の方法でユーザインターフェースと対話して、例えばグラフ、チャート、または他のタイプのデータ分析または可視化を生成するために、データを変換、分析、または可視化することができる。
【0095】
一実施形態によれば、ユーザインターフェースにより、ユーザは、操作の対を結合して単一の操作にすることができる。例えば、ストップワード除去操作と見出語解析操作とを結合して、(ユーザが独立して制御することができる構成オプションを有する)「Prep(準備)」と呼ばれるアクションにすることができ、同様に、単語カウント結合操作とグループ化(Group By)操作を組み合わせて単一の操作にすることができる。
【0096】
一実施形態によれば、他のデータフロー環境、例えばOracle Cloud Infrastructure Data Flowとともに使用される場合、ユーザインターフェースは、機械学習を実行する汎用的な、例えばData Flowブロックを活用することができ、それにより、テキスト分析の包含が、ユーザインターフェース内で他の形態のデータフロー操作として扱われる。この手法の利点は、例えばData Flowツールパレット上で必要とされるアクションブロックの数の減少を含み、また、テキスト分析が機械学習で使用される数値データ処理とともに考慮することができることをエンドユーザに示すことも可能にする。
【0097】
ユースケース例
図15~
図18は、システムおよびユーザインターフェースを使用して、例えば、ビジネス、理工学、メディア通信、電子商取引、またはオンライン検索アプリケーションにおいて、セルフサービステキスト分析を提供することができる、さまざまな使用例を示す。
【0098】
図15に示すように、一実施形態およびHCMユースケース例によれば、ユーザは、システムおよびユーザインターフェースを使用して、この例では、1つまたは複数の文書クラスタリングおよびテキスト分類(センチメント分析)データフローアクションを含むようにモデルまたはデータフローを構成することができる。
【0099】
データが処理されると、システムは、1つまたは複数のLDAクラスタリング、TF-IDFベースのセンチメント分析、および/または機械学習機能としての読書グレードレベルの評価を実行して、上記で説明したように、データに対するテキスト分析の適用を制御または補足することができる。
【0100】
図16に示すように、一実施形態によれば、ユーザは、システムおよびユーザインターフェースを使用して、この例では、1つまたは複数のテキスト分類(センチメント分析)およびテキスト抽出(単語カウント)データフローアクションを含むように、モデルまたはデータフローを変更することができる。
【0101】
図17に示すように、一実施形態によれば、ユーザは、ユーザインターフェースと対話して、この例では、1つまたは複数のテキスト変換(データ準備)、およびテキスト分類TF-IDF操作を含むようにモデルまたはデータフローを変更し、この例では、分類および回帰のためにサポートベクターマシン(SVM)を使用して、多クラスモデルを訓練することができる。例えばData Flow MLブロックを介して、機械学習モデルの訓練に対するユーザの制御を可能にするユーザインターフェースを提供する、例えばOACなどの環境と関連して提供される場合、システムは、こうしたData Flow MLブロックを利用して、ユーザパレット内に提示されるオプションの数を減らすことができる(例えば、カスタムMLモデルを訓練するために、NLP固有のData Flowブロックをパレット上に提供する必要はない)。この手法は、ユーザの訓練時間を短縮するのに役立つことができる。
【0102】
図18に示すように、一実施形態によれば、上記の例を続けると、システムは、例えば非構造化テキストまたは他のタイプのテキストデータ入力を含むデータフローを変換し、分析し、可視化するために、上記のデータフロー中に作成されたモデルを適用し、読書グレードレベルの評価を含むことができる。
【0103】
さまざまな実施形態によれば、説明した手法を使用して、例えば、特定の文書内の肯定的/否定的なセンチメントを検出し、ヘイトスピーチを検出し、または、例えば、自由形式のHR調査結果もしくは従業員のパフォーマンスレビューの迅速な評価を提供することができる。この手法は、他のタイプの非構造化データ、例えばオンラインニュース記事または他のメディアコンテンツの評価にも同様に適用することができる。
【0104】
セルフサービス分析プロセス
図19は、一実施形態による、セルフサービステキスト分析を提供するための、ユーザインターフェースの使用のプロセスを示す。
【0105】
一実施形態によれば、ステップ432において、システムは、データ分析システムにおいて、データソースによって提供される1つまたは複数の構造化または非構造化データに関連する分析/可視化の要求を受け取り、システムは、複数のデータフローアクションコンポーネントを使用して、データ内の1つまたは複数の入力文書Dを記述するモデルまたはデータフローを提供するように適合される。
【0106】
ステップ434において、クライアントアプリケーションおよびユーザインターフェースは、データソースによって提供される1つまたは複数の構造化データまたは非構造化データに関連する分析/可視化を、ユーザインターフェース内に表示するように適合される。
【0107】
ステップ436において、ユーザインターフェース内に、入力文書とともに使用されるデータフローアクションコンポーネントのうちの選択されたものまたはタイプの操作を選択し、変更し、および/または組み合わせるための1つまたは複数のオプションが提供される。
【0108】
ステップ438において、ユーザインターフェース内に、入力文書とともに使用されるデータフローアクションコンポーネントのうちの選択されたものまたはタイプの操作を選択し、変更し、および/または組み合わせるための1つまたは複数のオプションが提供される。
【0109】
さまざまな実施形態によれば、本明細書の教示は、本開示の教示に従ってプログラムされた1つまたは複数のプロセッサ、メモリ、および/またはコンピュータ可読記憶媒体を含む、1つまたは複数の従来の汎用または専用コンピュータ、コンピューティングデバイス、機械、またはマイクロプロセッサを使用して、好都合に実施することができる。ソフトウェア技術の当業者には明らかであるように、本開示の教示に基づいて、熟練プログラマーにより、適切なソフトウェアコーディングを容易に作成することができる。
【0110】
いくつかの実施形態において、本明細書の教示は、本教示のプロセスのうちの任意のものを実行するようにコンピュータをプログラムするために使用することができる命令が格納されている非一時的コンピュータ可読記憶媒体(複数の場合もある)であるコンピュータプログラム製品を含むことができる。このような記憶媒体の例としては、限定されないが、ハードディスクドライブ、ハードディスク、ハードドライブ、固定ディスク、もしくは他の電気機械的データ記憶デバイス、フロッピー(登録商標)ディスク、光ディスク、DVD、CD-ROM、マイクロドライブ、および光磁気ディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気カードもしくは光カード、ナノシステム、または命令および/もしくはデータの非一時的記憶に好適な他のタイプの記憶媒体もしくはデバイスを挙げることができる。
【0111】
前述の説明は、例示および説明の目的で提供されたものである。網羅的であること、または保護範囲を開示した正確な形態に限定するようには意図されていない。多くの変更および変形が当業者には明らかとなろう。
【0112】
実施形態は、本教示の原理およびその実際的な適用を最もよく説明するために、選択し説明したものであり、それにより、当業者は、さまざまな実施形態を、企図される特定の使用に適したさまざまな変更とともに理解することができる。以下の特許請求の範囲およびその均等物によって範囲が定義されることが意図されている。
【国際調査報告】