特表2024-518458 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ジェネシスクラウドサービシーズインコーポレイテッドの特許一覧

特表2024-518458テキスト内の自動トピック検出のシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-01

(54)【発明の名称】テキスト内の自動トピック検出のシステム及び方法

(51)【国際特許分類】

G06F 16/383 20190101AFI20240423BHJP

【ＦＩ】

G06F16/383

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023568666

(86)(22)【出願日】2021-05-12

(85)【翻訳文提出日】2023-11-28

(86)【国際出願番号】 US2021032007

(87)【国際公開番号】W WO2022240405

(87)【国際公開日】2022-11-17

(31)【優先権主張番号】17/318,524

(32)【優先日】2021-05-12

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】523074490

【氏名又は名称】ジェネシスクラウドサービシーズインコーポレイテッド

(74)【代理人】

【識別番号】110002848

【氏名又は名称】弁理士法人ＮＩＰ＆ＳＢＰＪ国際特許事務所

(72)【発明者】

【氏名】オルバック、エヤル

(72)【発明者】

【氏名】ファイザコフ、アブラハム

(72)【発明者】

【氏名】マッツァ、アルノン

(72)【発明者】

【氏名】ハイキン、レフ

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA01

5B175FA03

5B175HA01

(57)【要約】

テキスト内の自動トピック検出のための方法及びシステムは、文書のコーパスのテキスト文書を受信することと、１つ以上の統語パターンに基づいて、文書から１つ以上のフレーズを抽出することとを含み得る。各フレーズについて、本発明の実施形態は、フレーズの１つ以上のワードにワード埋め込みニューラルネットワークを適用して、１つ以上のそれぞれのワード埋め込みベクトルを取得し、重み付きフレーズ埋め込みベクトルを算出し、重み付きフレーズ埋め込みベクトルに基づいて、フレーズ顕著性スコアを計算し得る。本発明の実施形態は、続いて、計算されたフレーズ顕著性スコアに基づいて、文書内の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベルを生成し得、コーパスのビジネスドメインとの関連性に従って１つ以上のトピックラベルを選択し得る。

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサによるテキスト内の自動トピック検出の方法であって、
第１の複数のテキスト文書のうちの少なくとも１つの第１のテキスト文書を受信することと、
１つ以上の統語パターンに基づいて、前記第１のテキスト文書から１つ以上のフレーズを抽出することであって、各フレーズは１つ以上のワードを含む、ことと、
各フレーズについて、
前記フレーズの１つ以上のワードにワード埋め込みニューラルネットワーク（ＮＮ）を適用して、１つ以上のそれぞれのワード埋め込みベクトルを取得し、
前記１つ以上のワード埋め込みベクトルに基づいて、重み付きフレーズ埋め込みベクトルを算出し、
前記重み付きフレーズ埋め込みベクトルに基づいて、フレーズ顕著性スコアを計算することと、
前記計算されたフレーズ顕著性スコアに基づいて、前記少なくとも１つの第１のテキスト文書の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベルを生成することと、を含む、方法。

【請求項2】

前記１つ以上のワード埋め込みベクトルが、前記フレーズの前記１つ以上の対応するワードの意味を符号化するように適合されている、請求項１に記載の方法。

【請求項3】

重み付きフレーズ埋め込みベクトルを算出することが、
前記フレーズの各ワードについて、前記第１の複数のテキスト文書における前記ワードの出現頻度に基づいて、ワード重み値を算出することと、
前記関連するワード重み値に基づいて、前記重み付きフレーズ埋め込みベクトルを前記関連するワード埋め込みベクトルの加重平均として算出することと、を含む、請求項１に記載の方法。

【請求項4】

フレーズ顕著性スコアを計算することが、
前記１つ以上のフレーズを無向フレーズグラフにおける頂点として配置することであって、頂点の各対が辺によって接続される、ことと、
１つ以上の辺について、対応する接続された頂点の２つのフレーズ間の意味的類似度を表す類似度重みを計算することと、
各フレーズについて、前記接続された辺の前記類似度重みに基づいて、フレーズ顕著性スコアを計算することと、を含む、請求項１に記載の方法。

【請求項5】

２つのフレーズ間の意味的類似度を表す類似度重みを割り当てることが、
前記２つのフレーズのワード埋め込みベクトル間のコサイン類似度値を算出することと、
前記２つのフレーズの前記頂点を接続する辺に前記コサイン類似度値を類似度重みとして属性付与することと、を含む、請求項４に記載の方法。

【請求項6】

フレーズ顕著性スコアを計算することが反復的に実行され、各反復が、
（ａ）前記それぞれの頂点に接続された辺の前記類似度重みと、（ｂ）少なくとも１つの第２のフレーズのフレーズ顕著性スコアとに基づいて、第１のフレーズのフレーズ顕著性スコアを計算することと、
前記第１のフレーズの前記計算されたフレーズ顕著性スコアに基づいて、前記少なくとも１つの第２のフレーズの前記フレーズ顕著性スコアを更新することと、を含む、請求項４に記載の方法。

【請求項7】

１つ以上のトピックラベルを生成することが、
前記第１の複数の文書から、複数のフレーズと、それぞれの複数のフレーズ顕著性スコアとを取得することと、
トップのフレーズ顕著性スコアに対応する、前記複数のフレーズの第１のサブセットを選択することと、
前記算出されたコサイン類似度値に基づいて、前記フレーズのサブセットをクラスタにクラスタ化することであって、各クラスタが一意のトピックラベルを表す、ことと、を含む、請求項５に記載の方法。

【請求項8】

前記第１の複数の文書が第１のビジネスドメインに関連し、前記方法が、
少なくとも１つの第２のビジネスドメインに関連する第２の複数の文書を取得することと、
各トピックラベルについて、
前記トピックラベルが前記第１の複数の文書に含まれるトピックを表す確率を表す、フォアグラウンド確率値を算出し、
前記トピックラベルが前記第１の複数の文書及び前記第２の複数の文書のうちの１つに含まれるトピックを表す確率を表す、バックグラウンド確率値を算出し、
前記フォアグラウンド確率値及び前記バックグラウンド確率値に基づいて、前記第１のビジネスドメインに対する前記トピックラベルの関連性を表す、関連性スコアを算出することと、を更に含む、請求項７に記載の方法。

【請求項9】

フォアグラウンド確率値を算出することが、
前記トピックラベルのファジー検索を実行して、前記第１の複数の文書のうち、前記関連するトピックを含む文書の数Ｎ１をカウントすることと、
前記フォアグラウンド確率値を、Ｎ１と前記第１のビジネスドメインに含まれる文書の数との比として算出することと、を含む、請求項８に記載の方法。

【請求項10】

バックグラウンド確率値を算出することが、
前記トピックラベルのファジー検索を実行して、前記第１の複数の文書及び前記第２の複数の文書のうち、前記関連するトピックを含む文書の数Ｎ２をカウントすることと、
前記バックグラウンド確率値を、Ｎ２と前記第１のビジネスドメイン及び前記少なくとも１つの第２のビジネスドメインに含まれる文書の数との比として算出することと、を含む、請求項８に記載の方法。

【請求項11】

ユーザインタフェース（ＵＩ）を介して、前記第１の複数の文書内に存在するトピックに関して、少なくとも１つのクエリを受信することと、
前記１つ以上のトピックラベルに基づいて、前記クエリに対する応答を生成することと、を更に含む、請求項１に記載の方法。

【請求項12】

ユーザインタフェース（ＵＩ）を介して、前記第１の複数の文書内に存在するトピックに関して、少なくとも１つのクエリを受信することと、
前記１つ以上のトピックラベル及び対応する関連性スコアに基づいて、前記クエリに対する応答を生成することと、を更に含む、請求項８に記載の方法。

【請求項13】

テキスト内の自動トピック検出のためのシステムであって、命令コードのモジュールが記憶される、非一時的メモリデバイスと、前記メモリデバイスに関連付けられ、前記命令コードのモジュールを実行するように構成された少なくとも１つのプロセッサと、を含み、前記命令コードのモジュールの実行時に、前記少なくとも１つのプロセッサは、
第１の複数のテキスト文書のうちの第１のテキスト文書を受信することと、
１つ以上の統語パターンに基づいて、前記第１のテキスト文書から１つ以上のフレーズを抽出することであって、各フレーズは１つ以上のワードを含む、ことと、
各フレーズについて、
前記フレーズの１つ以上のワードにワード埋め込みＮＮを適用して、１つ以上のそれぞれのワード埋め込みベクトルを取得し、
前記１つ以上のワード埋め込みベクトルに基づいて、重み付きフレーズ埋め込みベクトルを算出し、
前記重み付きフレーズ埋め込みベクトルに基づいて、フレーズ顕著性スコアを計算することと、
各フレーズの前記計算されたフレーズ顕著性スコアに基づいて、前記少なくとも１つの第１のテキスト文書の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベルを生成することと、を行うように構成されている、システム。

【請求項14】

前記少なくとも１つのプロセッサが、重み付きフレーズ埋め込みベクトルを、
前記フレーズの各ワードについて、前記第１の複数のテキスト文書における前記ワードの出現頻度に基づいて、ワード重み値を算出することと、
前記関連するワード重み値に基づいて、前記重み付きフレーズ埋め込みベクトルを前記関連するワード埋め込みベクトルの加重平均として算出することと、によって算出するように構成されている、請求項１３に記載のシステム。

【請求項15】

前記少なくとも１つのプロセッサが、フレーズ顕著性スコアを、
前記１つ以上のフレーズを無向フレーズグラフにおける頂点として配置することであって、頂点の各対が辺によって接続される、ことと、
１つ以上の辺について、対応する接続された頂点の２つのフレーズ間の意味的類似度を表す類似度重みを計算することと、
各フレーズについて、前記接続された辺の前記類似度重みに基づいて、フレーズ顕著性スコアを計算することと、によって計算するように構成されている、請求項１３に記載のシステム。

【請求項16】

前記少なくとも１つのプロセッサが、２つのフレーズ間の意味的類似度を表す類似度重みを、
前記２つのフレーズのワード埋め込みベクトル間のコサイン類似度値を算出することと、
前記２つのフレーズの前記頂点を接続する辺に前記コサイン類似度値を類似度重みとして属性付与することと、によって割り当てるように構成されている、請求項１５に記載のシステム。

【請求項17】

前記第１の複数の文書が第１のビジネスドメインに関連し、前記少なくとも１つのプロセッサが、
少なくとも１つの第２のビジネスドメインに関連する第２の複数の文書を取得することと、
各トピックラベルについて、
前記トピックラベルが前記第１の複数の文書に含まれるトピックを表す確率を表す、フォアグラウンド確率値を算出し、
前記トピックラベルが前記第１の複数の文書及び前記第２の複数の文書のうちの１つに含まれるトピックを表す確率を表す、バックグラウンド確率値を算出し、
前記フォアグラウンド確率値及び前記バックグラウンド確率値に基づいて、前記第１のビジネスドメインに対する前記トピックラベルの関連性を表す、関連性スコアを算出することと、を行うように構成されている、請求項１３に記載のシステム。

【請求項18】

前記少なくとも１つのプロセッサが、フォアグラウンド確率値を、
前記トピックラベルのファジー検索を実行して、前記第１の複数の文書のうち、前記関連するトピックを含む文書の数Ｎ１をカウントすることと、
前記フォアグラウンド確率値を、Ｎ１と前記第１のビジネスドメインに含まれる文書の数との比として算出することと、によって算出するように構成されている、請求項１７に記載の方法。

【請求項19】

前記少なくとも１つのプロセッサが、バックグラウンド確率値を、
前記トピックラベルのファジー検索を実行して、前記第１の複数の文書及び前記第２の複数の文書のうち、前記関連するトピックを含む文書の数Ｎ２をカウントすることと、
前記バックグラウンド確率値を、Ｎ２と前記第１のビジネスドメイン及び前記少なくとも１つの第２のビジネスドメインに含まれる文書の数との比として算出することと、によって算出するように構成されている、請求項１７に記載の方法。

【請求項20】

前記少なくとも１つのプロセッサが、
ＵＩを介して、前記第１の複数の文書内に存在するトピックに関して、少なくとも１つのクエリを受信することと、
前記１つ以上のトピックラベル及び対応する関連性スコアに基づいて、前記クエリに対する応答を生成することと、を行うように構成されている、請求項１７に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、自然言語処理（ＮＬＰ）の分野に関する。より具体的には、本発明は、テキストを分析するための方法及びシステムに関する。

【0002】

（関連出願の相互参照及び優先権の主張）
本出願は、２０２１年５月１２日に出願された米国特許出願第１７／３１８，５２４号、発明の名称「ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＯＦＡＵＴＯＭＡＴＩＣＴＯＰＩＣＤＥＴＥＣＴＩＯＮＩＮＴＥＸＴ」に対する優先権を主張する。

【背景技術】

【0003】

コンタクトセンターは、顧客との多くの対話に従事する。顧客対話は、例えば、電話、チャットルーム、電子メール、テキスト文書、ウェブページなど、それらのフォーマットが著しく異なることがある。顧客対話はまた、それらの主題も様々であり得、例えば、苦情、必要な助力、一般的な質問などを含み得る。

【0004】

大量の対話（例えば、１日あたり数千件程度）を分析することは、自動システムを用いるとより効率的にすることができ、そのような自動システムは、一般にトピック検出システムと呼ばれる。トピック検出システムは、繰り返されるトピックを見つけてその頻度を測定し得、関連するトピック及びサブトピックをそれらの主題に従ってグループ化し得る。

【0005】

顧客対話のコーパス全体にわたって繰り返されるトピック又は概念を見つける現在利用可能なトピック検出システムは、当技術分野で一般に呼ばれるようなノイズを生じさせやすく、トピック検出システムのエンドユーザ又は分析者にとって、必ずしも関心があるものではないトピックの検出につながる。

【0006】

組織のコンタクトセンターにおけるそのようなノイズの例は、例えば、組織のビジネスラインに関連しない可能性がある、又は対話の中心主題に関連しない可能性がある、繰り返されるフレーズを含み得る。そのような用語又はフレーズをフィルタリングするための一般的な方法は、手動で事前定義及び／又は更新され得る「許可リスト」及び／又は「拒否リスト」を維持することによるものである。しかしながら、そのような厳格な解決策は、新しい又は予期しない用語又はフレーズをうまく処理しない場合がある。

【発明の概要】

【0007】

以下の表、表１は、本明細書で使用される用語又は表現への参照として本明細書で使用され得る。

【0008】

【表1】

【0009】

したがって、トピック検出システムによって検出されたトピックラベルの自動評価及びフィルタリングのための方法及びシステムが必要である。

【0010】

本明細書で詳述するように、本発明の実施形態は、トピック検出システムによって見つけられた概念又はトピックの質又は関連性を、（ａ）対話に含まれるフレーズの顕著性又は質を評価し、質の低いフレーズをフィルタリングで除外することと、（ｂ）特定の関連するビジネスドメインの文脈において残りのフレーズの関連性を評価することとによって、改善し得る。

【0011】

いくつかの実施形態によれば、第１の段階において、本発明の実施形態は、対話に対して顕著である確率が高いフレーズを、それらが対話の中心主題に最も関連し得るという意味でマーク付け又は選択するために、対話のダイナミクスを活用し得る。例えば、この第１の段階では、本発明の実施形態は、対話の文脈において顕著性を欠き得る「自分の友達（friend of mine）」、「遠慮なく（feel free）」、「少しお付き合いください（bear with me just a moment）」、及び「お名前と電話番号（name and telephone number）」などのフレーズをフィルタリングで除外し得る。

【0012】

加えて、第２の段階では、本発明の実施形態は、マルチテナントのクラウドベースのインフラストラクチャの設定を活用して、対話内で描写されるどの概念が、特定のテナントのビジネスラインに、より高い確率で関連するかを見出し得る。例えば、この第２の段階では、本発明の実施形態は、関連性がないものであり得るか、又は特定のテナントの文脈においてあまりにも一般的で情報価値がないものであり得る「情報を収集する」、「リソースを管理する」、及び「質問に回答する」などのトピック又は概念をフィルタリングで除外し得る。

【0013】

本明細書で詳述するように、本発明の実施形態は、テナント対話を分析し得るシステムに、顕著性に従ったフレーズのフィルタリング、及び関連性に従った概念のフィルタリングを統合し、テナント（例えば、コールセンターのユーザ又は分析者）にとって関心のある繰り返されるトピックの探索を容易にし得る。

【0014】

本発明の実施形態は、少なくとも１つのプロセッサによるテキスト内の自動トピック検出の方法を含み得る。本方法の実施形態は、第１の複数のテキスト文書のうちの少なくとも１つの第１のテキスト文書を受信することと、１つ以上の統語パターンに基づいて、第１のテキスト文書から１つ以上のフレーズを抽出することであって、各フレーズは１つ以上のワードを含み得る、こととを含み得る。

【0015】

各フレーズについて、本発明の実施形態は、フレーズの１つ以上のワードにワード埋め込みニューラルネットワーク（ＮＮ）を適用して、１つ以上のそれぞれのワード埋め込みベクトルを取得し得る。１つ以上のワード埋め込みベクトルは、フレーズの１つ以上の対応するワードの意味を符号化するように適合され得る。実施形態は、次いで、１つ以上のワード埋め込みベクトルに基づいて、重み付きフレーズ埋め込みベクトルを算出し、重み付きフレーズ埋め込みベクトルに基づいて、フレーズ顕著性スコアを計算し得る。本発明の実施形態は、続いて、計算されたフレーズ顕著性スコアに基づいて、少なくとも１つの第１のテキスト文書の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベルを生成し得る。

【0016】

本発明の実施形態は、フレーズの各ワードについて、第１の複数のテキスト文書におけるワードの出現頻度に基づいて、ワード重み値を算出することと、関連するワード重み値に基づいて、重み付きフレーズ埋め込みベクトルを関連するワード埋め込みベクトルの加重平均として算出することとによって、重み付きフレーズ埋め込みベクトルを算出し得る。

【0017】

本発明の実施形態は、１つ以上のフレーズを無向フレーズグラフにおける頂点として配置することであって、頂点の各対が辺によって接続され得る、ことと、１つ以上の辺について、対応する接続された頂点の２つのフレーズ間の意味的類似度を表す類似度重みを計算することと、各フレーズについて、接続された辺の類似度重みに基づいて、フレーズ顕著性スコアを計算することとによって、フレーズ顕著性スコアを計算し得る。

【0018】

本発明の実施形態は、２つのフレーズのワード埋め込みベクトル間のコサイン類似度値を算出することと、２つのフレーズの頂点を接続する辺にコサイン類似度値を類似度重みとして属性付与することとによって、２つのフレーズ間の意味的類似度を表す類似度重みを割り当て得る。

【0019】

本発明の実施形態は、反復プロセスでフレーズ顕著性スコアを計算し得、各反復は、（ａ）それぞれの頂点に接続された辺の類似度重みと、（ｂ）少なくとも１つの第２のフレーズのフレーズ顕著性スコアとに基づいて、第１のフレーズのフレーズ顕著性スコアを計算することと、第１のフレーズの計算されたフレーズ顕著性スコアに基づいて、少なくとも１つの第２のフレーズのフレーズ顕著性スコアを更新することとを含み得る。

【0020】

本発明の実施形態は、第１の複数の文書から、複数のフレーズと、それぞれの複数のフレーズ顕著性スコアとを取得することと、トップのフレーズ顕著性スコアに対応する、複数のフレーズの第１のサブセットを選択することと、算出されたコサイン類似度値に基づいて、フレーズのサブセットをクラスタにクラスタ化することであって、各クラスタは一意のトピックラベルを表す、こととによって、１つ以上のトピックラベルを生成し得る。

【0021】

本発明のいくつかの実施形態によれば、第１の複数の文書は、第１のビジネスドメインに関連する。

【0022】

本発明の実施形態は、少なくとも１つの第２のビジネスドメインに関連する第２の複数の文書を取得し得、各トピックラベルについて、トピックラベルが第１の複数の文書に含まれるトピックを表す確率を表す、フォアグラウンド確率値を算出し、トピックラベルが第１の複数の文書及び第２の複数の文書のうちの１つに含まれるトピックを表す確率を表す、バックグラウンド確率値を算出し、フォアグラウンド確率値及びバックグラウンド確率値に基づいて、第１のビジネスドメインに対するトピックラベルの関連性を表す、関連性スコアを算出し得る。

【0023】

本発明の実施形態は、トピックラベルのファジー検索を実行して、第１の複数の文書のうち、関連するトピックを含む文書の数Ｎ１をカウントすることと、フォアグラウンド確率値を、Ｎ１と第１のビジネスドメインに含まれる文書の数との比として算出することとによってフォアグラウンド確率値を算出し得る。

【0024】

本発明の実施形態は、トピックラベルのファジー検索を実行して、第１の複数の文書及び第２の複数の文書のうち、関連するトピックを含む文書の数Ｎ２をカウントすることと、バックグラウンド確率値を、Ｎ２と第１のビジネスドメイン及び少なくとも１つの第２のビジネスドメインに含まれる文書の数との比として算出することとによってバックグラウンド確率値を算出し得る。

【0025】

本発明の実施形態は、ユーザインタフェース（ＵＩ）を介して、第１の複数の文書内に存在するトピックに関して、少なくとも１つのクエリを受信し、１つ以上の関連するトピックラベルに基づいて、クエリに対する応答を生成し得る。加えて、又は代替的に、本発明の実施形態は、１つ以上のトピックラベル及び対応する関連性スコアに基づいて、クエリに対する応答を生成し得る。

【0026】

本発明の実施形態は、テキスト内の自動トピック検出のためのシステムを含み得る。システムの実施形態は、命令コードのモジュールが記憶され得る、非一時的メモリデバイスと、メモリデバイスに関連付けられ、命令コードのモジュールを実行するように構成された少なくとも１つのプロセッサとを含み得る。

【0027】

上記命令コードのモジュールの実行時に、少なくとも１つのプロセッサは、第１の複数のテキスト文書のうちの第１のテキスト文書を受信することと、１つ以上の統語パターンに基づいて、第１のテキスト文書から１つ以上のフレーズを抽出することであって、各フレーズは１つ以上のワードを含み得る、ことと、を行うように構成され得る。

【0028】

各フレーズについて、本システムの実施形態は、フレーズの１つ以上のワードにワード埋め込みＮＮを適用して、１つ以上のそれぞれのワード埋め込みベクトルを取得し、１つ以上のワード埋め込みベクトルに基づいて、重み付きフレーズ埋め込みベクトルを算出し、重み付きフレーズ埋め込みベクトルに基づいて、フレーズ顕著性スコアを計算し得る。

【0029】

本システムの実施形態は、続いて、各フレーズの計算されたフレーズ顕著性スコアに基づいて、少なくとも１つの第１のテキスト文書の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベルを生成し得る。

【図面の簡単な説明】

【0030】

本発明と見なされる主題は、本明細書の結論部分において特に指摘され、明確に主張される。しかしながら、本発明は、添付の図面とともに読まれるとき、以下の詳細な説明への参照により、構成及び動作方法の両方に関して、その目的、特徴、及び利点とともに、最もよく理解され得る。

【図1】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得るコンピューティングデバイスを示す。

【図2】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムの概要を示す。

【図3A】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、顕著性計算モジュールを示す。

【図3B】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、顕著性計算モジュールを示す。

【図4】概略図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、フレーズ類似度グラフを示す。

【図5】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、関連性計算モジュールを示す。

【図6】本発明の実施形態による関連トピック識別の改善の一例を示すグラフである。

【図7】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得るか、又は関連付けられ得る、アプリケーションモジュールの一例を示す。

【図8】流れ図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出の方法を示す。

【0031】

例解を単純かつ明確にするために、図に示される要素は、必ずしも縮尺通りに描画されていないことは、理解されるであろう。例えば、いくつかの要素の寸法は、明確にするために他の要素に対して誇張されている場合がある。更に、適切であると考えられる場合、参照番号は、対応する又は類似の要素を示すために図面間で繰り返され得る。

【発明を実施するための形態】

【0032】

当業者は、本発明が、その趣旨又は本質的な特徴から逸脱することなく、他の特定の形態で実施され得ることを理解するであろう。したがって、前述の実施形態は、本明細書に記載される本発明を限定するのではなく、あらゆる点で例示的であると見なされるべきである。よって、本発明の範囲は、前述の説明によってではなく、添付の特許請求の範囲によって示され、したがって、特許請求の範囲の均等物の意味及び範囲内に入る全ての変更は、その中に包含されることが意図される。

【0033】

以下の詳細な説明では、本発明の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本発明がこれらの特定の詳細なしに実施され得ることは、当業者によって理解されるであろう。他の例では、本発明を不明瞭にしないように、周知の方法、手順、及び構成要素は、詳細には記載されていない。一実施形態に関して説明されるいくつかの特徴又は要素は、他の実施形態に関して説明される特徴又は要素と組み合わせられてもよい。明確にするために、同じ又は類似の特徴又は要素の説明は繰り返されない場合がある。

【0034】

本発明の実施形態はこの点で限定されないが、例えば、「処理する」、「計算する」、「算出する」、「決定する」、「確立する」、「分析する」、「チェックする」などの用語を利用する議論は、コンピュータのレジスタ及び／又はメモリ内で物理（例えば、電子）量として表されるデータを、コンピュータのレジスタ及び／又はメモリ内で、あるいは動作及び／若しくはプロセスを実行するための命令を記憶し得る他の情報非一時的記憶媒体内で、物理量として同様に表される他のデータに操作及び／又は変換するコンピュータ、コンピューティングプラットフォーム、コンピューティングシステム、又は他の電子コンピューティングデバイスの動作及び／又はプロセスを指し得る。

【0035】

本発明の実施形態はこの点で限定されないが、本明細書で使用される「複数（plurality）」及び「複数（a plurality）」という用語は、例えば、「複数（multiple）」又は「２つ以上」を含み得る。「複数（plurality）」又は「複数（a plurality）」という用語は、本明細書を通して、２つ以上の構成要素、デバイス、要素、ユニット、パラメータなどを説明するために使用され得る。「セット」という用語は、本明細書で使用される場合、１つ以上のアイテムを含み得る。

【0036】

明示的に述べられない限り、本明細書で説明される方法の実施形態は、特定の順序又はシーケンスに制約されない。加えて、説明される方法の実施形態又はその要素のうちのいくつかは、同時に、同じ時点で、又は並行して発生又は実行することができる。

【0037】

ここで図１を参照すると、この図は、いくつかの実施形態による、テキスト分析を実行するためのシステムの一実施形態に含まれ得るコンピューティングデバイスを示すブロック図である。

【0038】

コンピューティングデバイス１は、例えば、中央処理装置（ＣＰＵ）プロセッサ、チップ又は任意の適切なコンピューティングデバイス若しくは計算デバイスであり得るプロセッサ又はコントローラ２と、オペレーティングシステム３と、メモリ４と、実行可能コード５と、記憶システム６と、入力デバイス７と、出力デバイス８とを含み得る。プロセッサ２（又は、場合によっては複数のユニット若しくはデバイスにわたる、１つ以上のコントローラ若しくはプロセッサ）は、本明細書に記載の方法を実行するように、及び／又は様々なモジュール、ユニットなどとして実行又は動作するように構成され得る。２つ以上のコンピューティングデバイス１が含まれ得、１つ以上のコンピューティングデバイス１が、本発明の実施形態によるシステムの、構成要素として動作し得る。

【0039】

オペレーティングシステム３は、コンピューティングデバイス１の動作の調整、スケジューリング、調停、監督、制御、又は他の方法での管理、例えば、ソフトウェアプログラム若しくはタスクの実行をスケジューリングすること、又はソフトウェアプログラム若しくは他のモジュール若しくはユニットが通信することを可能にすることを含むタスクを実行するように設計及び／又は構成された任意のコードセグメント（例えば、本明細書で説明される実行可能コード５と同様のもの）であり得るか、又はそれを含み得る。オペレーティングシステム３は、商用オペレーティングシステムであり得る。オペレーティングシステム３は、任意選択の構成要素であり得、例えば、いくつかの実施形態では、システムは、オペレーティングシステム３を必要としない、又は含まないコンピューティングデバイスを含み得ることに留意されたい。

【0040】

メモリ４は、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤ－ＲＡＭ）、ダブルデータレート（ＤＤＲ）メモリチップ、フラッシュメモリ、揮発性メモリ、不揮発性メモリ、キャッシュメモリ、バッファ、短期記憶ユニット、長期記憶ユニット、又は他の好適なメモリユニット若しくは記憶ユニットであり得るか、又はそれらを含み得る。メモリ４は、複数の異なる可能性のあるメモリユニットであり得るか、又はそのようなメモリユニットを含み得る。メモリ４は、コンピュータ若しくはプロセッサ非一時的可読媒体、又はコンピュータ非一時的記憶媒体、例えば、ＲＡＭであり得る。一実施形態では、メモリ４、ハードディスクドライブ、別の記憶デバイスなどの非一時的記憶媒体は、プロセッサによって実行されたときに本明細書で説明される方法をプロセッサに実行させ得る命令又はコードを記憶し得る。

【0041】

実行可能コード５は、任意の実行可能コード、例えば、アプリケーション、プログラム、プロセス、タスク又はスクリプトであり得る。実行可能コード５は、場合によってはオペレーティングシステム３の制御下で、プロセッサ又はコントローラ２によって実行され得る。例えば、実行可能コード５は、本明細書で更に説明されるようにテキスト分析を実行し得るアプリケーションであり得る。明確にするために、単一アイテムの実行可能コード５が図１に示されているが、本発明のいくつかの実施形態によるシステムは、メモリ４にロードされ、本明細書に記載の方法をプロセッサ２に実行させ得る実行可能コード５に類似した複数の実行可能コードセグメントを含み得る。

【0042】

記憶システム６は、例えば、当該技術分野で知られているようなフラッシュメモリ、当該技術分野で知られているようなマイクロコントローラ若しくはチップの内部にある、若しくはそれらに埋め込まれたメモリ、ハードディスクドライブ、ＣＤ－Ｒｅｃｏｒｄａｂｌｅ（ＣＤ－Ｒ）ドライブ、ブルーレイディスク（ＢＤ）、ユニバーサルシリアルバス（ＵＳＢ）デバイス、又は他の好適なリムーバブル及び／若しくは固定記憶ユニットであり得るか、又はそれらを含み得る。テキスト分析に関連するデータは、記憶システム６に記憶され得、記憶システム６からメモリ４にロードされ得、プロセッサ又はコントローラ２によって処理され得る。いくつかの実施形態では、図１に示される構成要素のいくつかは省略され得る。例えば、メモリ４は、記憶システム６の記憶容量を有する不揮発性メモリであり得る。したがって、別個の構成要素として示されているが、記憶システム６は、メモリ４に埋め込まれても、含まれてもよい。

【0043】

入力デバイス７は、任意の好適な入力デバイス、コンポーネント、又はシステム、例えば、取り外し可能なキーボード又はキーパッド、マウスなどであり得るか、又はそれらを含み得る。出力デバイス８は、１つ以上の（場合によっては取り外し可能な）ディスプレイ若しくはモニタ、スピーカ、及び／又は任意の他の好適な出力デバイスを含み得る。任意の適用可能な入力／出力（Ｉ／Ｏ）デバイスが、ブロック７及び８によって示されるように、コンピューティングデバイス１に接続され得る。例えば、有線又は無線ネットワークインタフェースカード（ＮＩＣ）、ユニバーサルシリアルバス（ＵＳＢ）デバイス、又は外部ハードドライブが、入力デバイス７及び／又は出力デバイス８に含まれ得る。ブロック７及び８によって示されるように、任意の好適な数の入力デバイス７及び出力デバイス８がコンピューティングデバイス１に動作可能に接続され得ることは認識されるであろう。

【0044】

本発明のいくつかの実施形態によるシステムは、複数の中央処理装置（ＣＰＵ）又は（例えば、要素２と同様の）任意の他の好適な多目的若しくは特定のプロセッサ若しくはコントローラ、複数の入力ユニット、複数の出力ユニット、複数のメモリユニット、及び複数の記憶ユニットなどであるが、それらに限定されない、構成要素を含み得る。

【0045】

ニューラルネットワーク（ＮＮ）又は人工ニューラルネットワーク（ＡＮＮ）、例えば、機械学習（ＭＬ）又は人工知能（ＡＩ）機能を実装するニューラルネットワークは、ニューロンと呼ばれる、層に編成された、ニューロン間にリンクがあるノードを含み得る情報処理パラダイムを指し得る。リンクは、ニューロン間で信号を転送し得、重みに関連付けられ得る。ＮＮは、特定のタスク、例えば、パターン認識又は分類のために構成又は訓練され得る。特定のタスクについてＮＮを訓練することは、例に基づいてこれらの重みを調整することを伴い得る。中間又は最後の層の各ニューロンは、入力信号、例えば、他のニューロンからの出力信号の重み付けされた和を受信し得、線形又は非線形関数（例えば、活性化関数）を使用して入力信号を処理し得る。入力層及び中間層の結果は、他のニューロンに転送され得、出力層の結果は、ＮＮの出力として提供され得る。典型的には、ＮＮ内のニューロン及びリンクは、活性化関数並びにデータ要素及び重みの行列などの数学的構成物によって表される。プロセッサ、例えば、ＣＰＵ若しくはグラフィックス処理ユニット（ＧＰＵ）、又は専用ハードウェアデバイスが、関連する計算を実行し得る。

【0046】

ここで図２を参照すると、この図は、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムの概要を示す。

【0047】

本発明のいくつかの実施形態によれば、システム１００は、ソフトウェアモジュール、ハードウェアモジュール、又はそれらの任意の組み合わせとして実装され得る。例えば、システム１００は、図１の要素１などのコンピューティングデバイスであり得るか、又はそれを含み得、本明細書で更に説明されるように、実行可能コードの１つ以上のモジュール（例えば、図１の要素５）を実行してテキスト分析を行うように適合され得る。

【0048】

図２に示すように、矢印は、システム１００への及びシステム１００からの、並びに／又はシステム１００のモジュール若しくは要素間の１つ以上のデータ要素の流れを表し得る。いくつかの矢印は、明確にするために図２では省略されている。

【0049】

図２に示すように、システム１００は、少なくとも１つのテキスト文書データ要素２１Ａを受信するように構成された、顕著性計算モジュール２００を含み得る。テキスト文書２１Ａは、特定の組織若しくはテナント２０（例えば、特定のレンタカー代理店）及び／又は同様の組織若しくはテナント（例えば、複数のレンタカー代理店）のドメイン２０’に関連するコーパス２１に関する、当該技術分野で一般的に参照されるような、複数のグループ又はコーパス２１に関連付けられ得るか、又はそれらに含まれ得る。

【0050】

いくつかの実施形態によれば、本明細書で詳述するように、顕著性計算モジュール２００は、１つ以上の統語パターンに基づいて、テキスト文書２１Ａから１つ以上のフレーズ又はフラグメントを抽出し得る。各フラグメントは、テキスト文書２１Ａ内の隣接又は関連するワードのグループなど、１つ以上のワードを含み得る。顕著性計算モジュール２００は、続いて、１つ以上の抽出されたフレーズ又はフラグメントの顕著性スコアを算出し得る。

【0051】

いくつかの実施形態によれば、顕著性計算モジュール２００は、本明細書で詳述するように、最高ランクの顕著性スコアに対応する一部又は一定割合のフレーズを選択し得る。加えて、又は代替的に、顕著性計算モジュール２００は、本明細書で詳述するように、所定の閾値を上回るスコアを有するフレーズのサブセットを選択し得る。これらの選択されたフレーズは、図２において「顕著なフレーズ２００Ａ」と示されている。

【0052】

図２に示されるように、システム１００は、本明細書で詳述するように、１つ以上の選択された顕著なフレーズ２００Ａを受信し、受信した顕著なフレーズから、少なくとも１つの文書２１Ａ内で議論されるか又はそれに含まれるトピックの１つ以上の初期ラベル又はインジケータを生成するように適合された、関連性計算モジュール３００を含み得る。関連性計算モジュール３００は、続いて、初期ラベルを分析して、特定のテナント２０及び／又はドメイン２０’の文脈における１つ以上の（例えば、それぞれの）候補トピックの関連性スコアを決定し得る。次に、関連性計算モジュール３００は、文書２１Ａに含まれる少なくとも１つのトピックを表すものとして、最も高い関連性スコア（例えば、所定の閾値を上回るスコア）に対応する、トピックラベルのサブセット又は一部をマーク付け又は選択し得る。これらの選択されたトピックラベルは、図２において「関連トピックラベル３００Ａ」と示されている。

【0053】

いくつかの実施形態によれば、システム１００は、顕著なフレーズ２００Ａ及び／又は関連トピックラベル３００Ａをトピックデータ構造４００Ｂ（例えば、テーブル、連結リストなど）としてデータベース又は記憶若しくはメモリデバイス（例えば、図１の記憶システム６）上に含むか又は記憶し得る。例えば、トピックデータ構造４００Ｂ内の各エントリは、特定の文書２１Ａを１つ以上のそれぞれの顕著なフレーズ２００Ａ及び／又は関連トピックラベル３００Ａに関連付け得る。

【0054】

システム１００は、トピックデータ構造４００Ｂを利用して、例えば、ユーザ、又はコンピューティングデバイス（例えば、図１のコンピューティングデバイス１）上で実行されるアプリケーションに、文書２１Ａに関連する１つ以上のトピックメタデータ４００Ａデータ要素を提供し得る。例えば、ユーザは、「どの文書が特定の技術的問題のトピックを論じているか」など、複数の文書２１Ａ内のトピックの内容に関して、データベースクエリをシステム１００に提示し得る。システム１００は、トピックメタデータ４００Ａを含むクエリ応答でクエリに応答し得る。この例では、システム１００は、このクエリ応答４００Ａに、タイトルのリスト、又は特定の技術的問題を論じる文書２１Ａへのポインタを含め得る。

【0055】

当該技術分野で知られているように、トピック検出のための現在利用可能なシステムは、何らかの形態の類似度メトリックの助けを借りて、類似するフレーズを一緒にクラスタ化することによって、文書のコーパス内で繰り返されるトピックを見つけようと試み得る。クラスタ化方法及び類似度メトリックは、異なる実装形態の間で異なり得る。そのようなプロセスの出力は、特定のトピックを表すラベルのセットである。トピックラベルのセットは、ラベル間の多様度（又は最小類似度）を最大化するように形成されるべきであり、各ラベルは、エンドユーザにとって関心のあるトピックであることが理解されよう。コンタクトセンター対話の例では、これは、ユーザが、特定のトピックを含む対話の量、それらの経時的な変化など、関連するトピックに関するメタデータを見て、このトピックを含む特定の対話を見つけることに関心があることを意味する。

【0056】

トピック検出のために現在利用可能なシステムは、トピック検出プロセスのための入力が各対話の完全なテキスト（例えば、Ｎグラム又は統語パターンの形態）であり得る、単純な手法を採用し得る。

【0057】

本発明の実施形態は、現在利用可能なテキスト分析技術に対する改善を含み得る。（ａ）顕著なフレーズ２００Ａを得るために、より顕著でないテキストを入力文書からフィルタリングで除外することと、（ｂ）最も顕著なフレーズに基づいて、関連性の分析を実行して関連トピックラベル３００Ａを得ることとによって、実施形態は、本明細書で詳述するように、トピックラベルの結果セットを改善し得る。例えば、本発明の実施形態は、トピックラベルの出力セットのトピックラベル間の類似度を最小化し得る。加えて、本発明の実施形態は、本明細書で詳述するように、特定のテナント２０及び／又はドメイン２０’に最も関連するトピックラベルをより良好に選択し、（例えば、分析者に）提示し得る。

【0058】

ここで図３Ａを参照すると、この図はブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステム１００に含まれ得る、顕著性計算モジュール２００を示す。

【0059】

図３Ａに示されるように、顕著性計算モジュール２００（又は略してモジュール２００）は、フレーズ抽出モジュール２１０を含み得る。フレーズ抽出モジュール２１０は、（ａ）少なくとも１つのテキスト文書２１Ａ、及び（ｂ）１つ以上の統語パターン又は規則３１Ａを受信するように適合され得る。１つ以上の統語パターン３１Ａは、データベース（例えば、図１の記憶デバイス６）に保持又は記憶され得る、テーブルなどのデータ構造であり得るか、又はそれを含み得る。当該技術分野で知られているように、１つ以上の統語パターン３１Ａは、１つ以上のワードを人間の言語（例えば、英語、スペイン語など）のセンテンスにおける文法的役割に関連付け得、したがって、人間の言語の文法を解読し得る。フレーズ抽出モジュール２１０は、１つ以上の統語パターン３１Ａをテキスト文書２１Ａに適用して、テキスト文書２１Ａから１つ以上のフラグメント又はフレーズ２１０Ａを抽出し得、各フラグメント又はフレーズ２１０Ａは１つ以上のワード２１０Ｂを含む。

【0060】

いくつかの実施形態によれば、フレーズ抽出モジュール２１０は、自然言語処理（ＮＬＰ）アプリケーションに対して一般的に使用されているツールである、品詞（ＰｏＳ）タガーを含み得る。ＰｏＳタガーは、入ってくるセンテンスの文法を分析するように構成され得、センテンス内の各ワードに、名詞、動詞、形容詞などの適切な（ＰＯＳ）タグで注釈を付け得る。いくつかの実施形態によれば、フレーズ抽出モジュール２１０は、文書２１Ａのワードに注釈を付けるために、ＰｏＳタガーを用い得る。フレーズ抽出モジュール２１０は、続いて、それぞれのＰｏＳタグが所望の予め定義された統語パターン３１Ａのうちの１つと一致するワードのシーケンス（例えば、フレーズ２１０Ａ）を選択し得る。例えば、予め定義された統語パターン３１Ａ：（「動詞－＞限定詞－＞名詞」、「動詞－＞限定詞－＞形容詞－＞名詞」）に対して、シーケンス「ｂｏｏｋａｆｌｉｇｈｔ」及び「ｂｏｏｋａｑｕｉｃｋｆｌｉｇｈｔ」は一致し、フレーズ２１０Ａとして抽出される。一方、シーケンス「ｆｌｉｇｈｔｂｏｏｋｉｎｇ」は一致せず、フレーズ２１０Ａとして抽出されない。したがって、フレーズ抽出モジュール２１０は、テキスト会話、対話、及び／又は文書２１Ａ全体を入力として受信し得、それらから、予め定義された統語パターン３１Ａのうちの１つに一致した全てのフレーズ又はフラグメント２１０Ａを生成し得る。

【0061】

例えば、第１のフレーズ２１０Ａは、「ｗｈａｔＩａｓｋｅｄｆｏｒ」というテキストを含み得、第２のフレーズ２１０Ａは、「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」というテキストを含み得、第３のフレーズ２１０Ａは、「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」というテキストを含み得る。フレーズ２１０Ａのこれらの例は、本発明の態様を更に詳しく説明するために本明細書で使用される。

【0062】

人工知能（ＡＩ）ベースの自然言語処理（ＮＬＰ）の技術分野で知られているように、人間の言語の語彙は、ワードなどの離散要素からなる。ＮＬＰシステムは、ニューラルネットワークアーキテクチャを使用して、一般に「埋め込みベクトル空間」と呼ばれるベクトル空間内の一般に「埋め込みベクトル」と呼ばれるベクトルに各離散要素（例えば、各ワード）をマッピングし得る。ワードのこの埋め込みベクトル空間表現を使用することは、ＮＬＰシステムが人間の言語の語彙の連続的な分散表現を有することを可能にし得る。この連続的な埋め込みベクトル表現の利点は、ＮＬＰシステムが、意味において類似するワードを埋め込みベクトル空間の類似する領域にマッピングし得る（例えば、類似する埋め込みベクトルによって表される）ことである。例えば、ワード「ｃａｔ」の埋め込みベクトル表現は、ワード「ｐｉａｎｏ」の埋め込みベクトル表現よりもワード「ｆｅｌｉｎｅ」の埋め込みベクトル表現に（何らかの所定のメトリックに従って）類似し得る。

【0063】

図３Ａに示すように、モジュール２００は、ワード埋め込みベクトル算出モジュール２２０を含み得る。いくつかの実施形態では、埋め込みベクトル算出モジュール２２０は、人間の言語のワードを受信し、受信したワードの埋め込みベクトル表現２２０Ａをそのワードから生成するように適合された、ワード埋め込みニューラルネットワーク（ＮＮ）であり得るか、又はそれを含み得る。埋め込みベクトル算出モジュール２２０はまた、本明細書において、略して「モジュール２２０」又は「埋め込みＮＮ２２０」として示され得る。

【0064】

いくつかの実施形態によれば、モジュール２００は、抽出されたフラグメント２１０Ａの１つ以上のワード２１０Ｂに埋め込みＮＮ２２０を適用して、１つ以上のそれぞれのワード埋め込みベクトル２２０Ａを取得し得る。上記で説明したように、埋め込みベクトル２２０Ａは、フラグメント又はフレーズ２１０Ａの１つ以上の対応するワード２１０Ｂの意味を符号化するように適合され得る。

【0065】

フレーズ２１０Ａの例「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」に関して、埋め込みＮＮ２２０は、フレーズ２１０Ａから、ワード２１０Ｂ「ｓｏｍｅｔｈｉｎｇ」を表す第１の埋め込みベクトル２２０Ａと、ワード２１０Ｂ「ｓｉｍｉｌａｒ」を表す第２の埋め込みベクトル２２０Ａとを生成し得る。

【0066】

ＮＬＰの技術分野で知られているように、単語頻度－逆文書頻度（ＴＦ－ＩＤＦ）スコアは、文書のコレクション又はコーパス内の特定の文書に対してワードがどれだけ重要であるかを示し得る数値統計である。ＴＦ－ＩＤＦスコアは、例えば、テキスト情報検索及びテキストマイニングの自動検索における重み係数として使用され得る。ＴＦ－ＩＤＦスコア値は、ワードが特定の文書内に出現する回数に比例して増加し得、コーパス２１内でのそのワードを含む文書の数によってオフセットされる。このオフセットは、いくつかのワードが一般に、より頻繁に現れるという事実を補償し得る。

【0067】

図３Ａに示されるように、モジュール２００は、抽出されたフレーズ２１０Ａ（例えば、フレーズ「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」）からの少なくとも１つのワード２１０Ｂ（例えば、ワード「ｓｏｍｅｔｈｉｎｇ」）を受信し得、受信されたワード２１０Ｂに対応する重み２３０Ａを算出し得るワード重み算出モジュール２３０を含み得る。

【0068】

いくつかの実施形態によれば、重み算出モジュール２３０は、ＴＦ－ＩＤＦスコアのカルキュレータであり得、重み２３０Ａは、ＴＦ－ＩＤＦスコア値であり得る。例えば、重み算出モジュール２３０は、特定の文書２１Ａに関する特定のワードの重み２３０Ａを、（ａ）特定の文書２１Ａにおける特定のワード２１０Ｂの出現数、及び（ｂ）特定のテナント２０又はドメイン２０’に関連した、文書２１Ａのコーパス又は複数２１における特定のワード２１０Ｂの出現数のＴＦ－ＩＤＦ関数として算出し得る。

【0069】

加えて、又は代替的に、ワード重み算出モジュール２３０は、以下の式１に従って重み２３０Ａを算出し得る。

【0070】

【数1】

式中、ｉは、フレーズ２１０Ａ（例えば、フレーズ「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」）のインデックス（例えば、１、２、３）であり、
ｗ_ｉは、フレーズ２１０Ａ内のインデックスｉのワード２１０Ｂであり（例えば、「ｓｏｍｅｔｈｉｎｇ」、「ｓｉｍｉｌａｒ」）、
Ｎｄは、文書２１Ａの複数又はコーパス２１内の全ての文書の数であり、
Ｍ_ｄｆ（ｗ_ｉ）は、ワードｗ_ｉを含む文書２１Ａの数へのワードｗ_ｉのマッピングであり、α［ｗ_ｉ］は重み２３０Ａである。

【0071】

例示的な式１に示すように、当業者であれば、ワード重み２３０Ａ（例えば、α［ｗ_ｉ］）は、例えば、ＴＦ－ＩＤＦ関数の逆文書頻度関数（例えば、ＩＤＦ）として算出され得ることが理解されよう。

【0072】

ここで図３Ｂを参照すると、この図はブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステム１００に含まれ得る、顕著性計算モジュール２００の代替実装形態を示す。図３Ｂにおいて、顕著性計算モジュール２００の実装形態は２００’で示され、２００’Ａ及び２００’Ｂで示される、２つの部分又はモジュールを含み得る。

【0073】

モジュール２００’Ａ及び２００’Ｂは、図３Ａの顕著性計算モジュール２００のものと類似する又は同一であるモジュール（例えば、２１０、２２０、２３０、２４０、２５０、２６０、及び２７０）を含み得ることが理解されよう。モジュール２００’Ａ及び２００’Ｂは、同じコンピューティングデバイス（例えば、図１のコンピューティングデバイス１）上に実装されてもよく、又はクラウドコンピューティングデバイスなどの複数のコンピューティングデバイス間に分散されてもよいことが理解されよう。

【0074】

図３Ａに示されるように、モジュール２００’Ａは、複数の文書又は対話２１Ａを受信し得、（例えば、図３Ａに関して）本明細書で詳述するように、ワード埋め込みベクトル算出モジュール２２０を用いて、複数の受信された文書２１Ａのワードに対応するワード埋め込みベクトル２２０Ａを算出し得る。

【0075】

加えて、又は代替的に、モジュール２００’Ａは、（例えば、図３Ａに関して）本明細書で詳述するように、ワード重み算出モジュール２３０を用いて、複数の受信された文書２１Ａのワードに対応するワード重み２３０Ａを算出し得る。

【0076】

いくつかの実施形態によれば、モジュール２００’Ａは、ワード埋め込みベクトル２２０Ａ及び／又はワード重み２３０Ａをオフラインプロセスで生成又は算出し、ワード埋め込みベクトル２２０Ａ及び／又はワード重み２３０Ａをリポジトリ記憶装置２８０（例えば、図１の記憶要素６）に記憶し得る。「オフライン」という用語は、本明細書で詳述するように、対象となる特定の文書の分析に関連してもしなくてもよい、文書の一般コーパス２１に含まれるワードに対してワード埋め込みベクトル２２０Ａ及び／又はワード重み２３０Ａが算出又は準備される予備プロセスを示すために、この文脈で使用され得る。いくつかの実施形態によれば、記憶リポジトリ２８０は、システム２００’に含まれ得る。代替的に、図３Ｂに示されるように、システム２００’は、例えばクラウドストレージサービス上に実装され得る記憶リポジトリ２８０に関連付けられ得るか、又は通信可能に接続され得る。

【0077】

後続の「オンライン」テキスト分析プロセスにおいて、モジュール２００’（例えば、２００’Ｂ）は、リポジトリ記憶装置２８０から、準備されたワード埋め込みベクトル２２０Ａ及び／又はワード重み２３０Ａを取り出し得ることが理解されよう。次いで、モジュール２００’Ｂは、取り出したワード埋め込みベクトル２２０Ａ及び／又はワード重み２３０Ａをフレーズ埋め込みベクトル算出モジュール２４０に入力して、本明細書で詳述するように、文書２１Ａを更に分析し得る。

【0078】

図３Ａに示すように、モジュール２００は、１つ以上のワード埋め込みベクトル２２０Ａに基づいて、１つ以上の（例えば、それぞれの）抽出されたフレーズ２１０Ａに関連する重み付きフレーズ埋め込みベクトル２４０Ａを算出するように適合された、フレーズ埋め込みベクトル算出モジュール２４０（又は略してモジュール２４０）を含み得る。

【0079】

いくつかの実施形態によれば、モジュール２４０は、抽出されたフレーズ２１０Ａのワード２１０Ｂに対応するワード埋め込みベクトル２２０Ａの加重平均として、重み付きフレーズ埋め込みベクトル２４０Ａを算出し得る。この算出に使用される重みは、ＴＦ－ＩＤＦスコア値など、各ワードのそれぞれの重み値２３０Ａであり得る。

【0080】

例えば、モジュール２４０は、以下のアルゴリズム１に従って重み付きフレーズ埋め込みベクトル２４０Ａを算出し得る。

【0081】

【数2】

ここで、「ｓ」は、抽出されたフレーズ又はフラグメント２１０Ａであり、
「ｗ_ｉ」は、フレーズｓ内のインデックスｉのワード２１０Ｂであり、
Ｍ_ｖは、埋め込みベクトル２２０Ａ（ここではｖ_ｉとして示される）へのワードｗ_ｉのマッピングであり、
「ｖ_ｓ」は、フレーズｓを表す重み付きフレーズ埋め込みベクトル２４０Ａであり、
「ｍ」は、フレーズｓ内のワード２１０Ｂの数であり、
「α［ｗ_ｉ］」は重み２３０Ａである。

【0082】

アルゴリズム１に示されるように、第１の行において、重み付きフレーズ埋め込みベクトル２４０Ａは、０ベクトルとして初期化され得る。

【0083】

いくつかの実施形態によれば、「ｆｏｒｅａｃｈ」ループは、フラグメントｓ（２１０Ａ）のワードｗ_ｉ（２１０Ｂ）に対してトラバースし得、重み付きフレーズ埋め込みベクトルｖ_ｓ（２４０Ａ）は、各ワード２１０Ｂを用いて徐々に構築又は集約され得る。加えて、又は代替的に、モジュール２００は、複数の処理コアを有する１つ以上のコンピューティングデバイス（例えば、図１のコンピューティングデバイス１）によって実装され得る。そのような実施形態では、モジュール２００は、フラグメントｓ（２１０Ａ）のワードｗ_ｉ（２１０Ｂ）の並列処理を実行して重み付きフレーズ埋め込みベクトルｖ_ｓ（２４０Ａ）を算出するように、複数の処理コアを用いてアルゴリズム１の並列処理を実装し得る。

【0084】

アルゴリズム１に示すように、フレーズの各ワードについて、ワード重み算出モジュール２３０は、第１の複数のテキスト文書におけるワードの出現頻度に基づいて、ワード重み値を算出し得る。加えて、フレーズの各ワードについて、フレーズ埋め込みベクトル算出モジュール２４０は、重み付きフレーズ埋め込みベクトルｖ_ｓ（２４０Ａ）を、関連するワード重み値α［ｗ_ｉ］２３０Ａに基づいて、関連するワード埋め込みベクトルｖ_ｉ２２０Ａの加重平均として算出し得る。

【0085】

アルゴリズム１の最後の行では、重み付きフレーズ埋め込みベクトルｖ_ｓ（２４０Ａ）が、フレーズｓ内のワードの数ｍに従って正規化され得る。

【0086】

図３Ａに示されるように、モジュール２００は、本明細書で詳述するように、１つ以上の（例えば、それぞれの）抽出されたフレーズ２１０Ａに対して、重み付きフレーズ埋め込みベクトル２４０Ａに基づいてフレーズ顕著性スコア２６０Ａを計算するように適合された、フレーズ顕著性算出モジュール２６０を含み得る。

【0087】

いくつかの実施形態によれば、モジュール２００は、文書２１Ａのフレーズ２１０Ａを、それらが文書２１Ａに関してどれだけ顕著であるかに基づいてランク付けし得る。この顕著性は、特定のフレーズ２１０Ａが文書２１Ａの主要な主題又はトピックと整合する程度を示し得る。顕著なフレーズが非顕著なフレーズよりも多くのフレーズと意味において類似しているという仮定に基づいて、本発明の実施形態は、他のフレーズとの類似度に従ってフレーズ顕著性をランク付けするために、グラフアルゴリズムを用い得る。

【0088】

図３Ａに示されるように、フレーズ顕著性算出モジュール２６０は、フレーズ類似度グラフ２６０Ｂを含むか、又は維持し得、このフレーズ類似度グラフは、テーブル、リンクされたグラフなどのデータ構造として実装され得、本明細書で説明されるように、異なるフレーズ２１０Ａ間の類似度を表し得る。

【0089】

いくつかの実施形態によれば、フレーズ顕著性算出モジュール２６０は、１つ以上のフレーズ２１０Ａを無向フレーズ類似度グラフ２６０Ｂ内の頂点又はノードとして配置し得、頂点の各対は辺によって接続される。１つ以上の辺に対して、フレーズ顕著性算出モジュール２６０は、フレーズ類似度グラフ２６０Ｂ内の対応する接続された頂点の２つのフレーズ２１０Ａ間の意味的類似度を表し得る類似度重み値２６０Ｃを割り当て得る。フレーズ顕著性算出モジュール２６０は、続いて、各フレーズについて、本明細書で詳述するように、接続された辺の類似度重み値２６０Ｃに基づいて、フレーズ顕著性スコア２６０Ａを計算し得る。

【0090】

ここでまた図４も参照すると、この図は概略図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、フレーズ類似度グラフ２６０Ｂの一例を示す。

【0091】

図４に示すように、各フレーズ２１０Ａは、フレーズ類似度グラフ２６０Ｂ内のノード又は頂点によって表され得る。ノードの対間を接続する辺の太さは、接続されたノードのフレーズ２１０Ａ間の意味的類似度（例えば、意味における類似度）を示す、類似度値又は類似度重み２６０Ｃを表し得る。

【0092】

例えば、図４の例に示されるように、２つの最も類似するフレーズ２１０Ａは、「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」及び「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」であり、２つの最も類似しないフレーズ２１０Ａは、「ｗｈａｔＩａｓｋｅｄｆｏｒ」及び「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」である。

【0093】

いくつかの実施形態によれば、モジュール２００は、それぞれのフレーズ埋め込みベクトル２４０Ａに基づいて、コサイン類似度メトリックなどの所定の類似度メトリックに従って、フレーズ類似度グラフ２６０Ｂのノードの対に関連するフレーズ間の類似度２６０Ｃ（例えば、コサイン類似度）を算出し得る、フレーズ距離メトリック算出モジュール２５０を含み得る。例えば、フレーズ距離メトリック算出モジュール２５０は、２つのフレーズ２１０Ａのワード埋め込みベクトル２２０Ａ間のコサイン類似度値２６０Ｃなどの類似度メトリック値を算出し得、フレーズ顕著性算出モジュール２６０は、コサイン類似度値２６０Ｃを類似度重み値としてフレーズ類似度グラフ２６０Ｂ内の２つのそれぞれのフレーズ２１０Ａの頂点を接続する辺に属性付与し得る。

【0094】

図４の例に関連して、フレーズ顕著性算出モジュール２６０は、「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」フレーズ２１０に対応する第１のフレーズ埋め込みベクトル２４０Ａ、及び「ｓｏｍｅｔｈｉｎｇｓｉｍｉｌａｒ」フレーズ２１０に対応する第２のフレーズ埋め込みベクトル２４０Ａを受信し得る。フレーズ顕著性算出モジュール２６０は、フレーズ距離メトリック算出モジュール２５０と協働して、これらの第１及び第２のフレーズ埋め込みベクトル２４０Ａ上の距離メトリック（例えば、コサイン類似度関数）を算出し得る。したがって、フレーズ顕著性算出モジュール２６０は、それぞれのフレーズの意味的類似度を表す、類似度値又は類似度重み２６０Ｃを取得し得る。

【0095】

コサイン類似度関数は、以下の式２に従って定義され得る。

【0096】

【数3】

式中、ｖｅｃ_ｉ及びｖｅｃ_ｊは、異なるフレーズに関連する数値ベクトル（例えば、フレーズ埋め込みベクトル２４０）であり、
ｗ（ｖｅｃ_ｉ，ｖｅｃ_ｊ）は、ベクトルｖ_ｉ及びｖ_ｊに適用された、例えばコサイン類似度関数の結果として算出され得る、類似度重み２６０Ｃを表し、
ｖｅｃ_ｉ・ｖｅｃ_ｊは、ベクトルｖｅｃ_ｉ及びｖｅｃ_ｊのベクトル（例えば、「ドット」）乗算を表す。

【0097】

いくつかの実施形態によれば、フレーズ顕著性算出モジュール２６０は、特定のフレーズ２１０Ａのフレーズ顕著性スコア２６０Ａを、その特定のフレーズを表す頂点に接続された辺の類似度重み２６０Ｃの関数として算出し得る。

【0098】

例えば、フレーズ顕著性算出モジュール２６０は、特定のフレーズ２１０Ａのフレーズ顕著性スコア２６０Ａを、その特定のフレーズを表す頂点に接続された辺の類似度重み２６０Ｃの和として算出し得る。図４の例に関連して、「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」フレーズ２１０に接続された辺の類似度重み２６０Ｃは、０．５及び０．７であり得、したがって、フレーズ顕著性算出モジュール２６０は、０．５＋０．７＝１．２のフレーズ顕著性スコア２６０Ａを「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」フレーズ２１０に割り当て得る。同様に、「ｗｈａｔＩａｓｋｅｄｆｏｒ」フレーズ２１０に接続された辺の類似度重み２６０Ｃは、５及び２であり得、したがって、フレーズ顕著性算出モジュール２６０は、０．５＋０．２＝０．７のフレーズ顕著性スコア２６０Ａを「ｗｈａｔＩａｓｋｅｄｆｏｒ」フレーズ２１０に割り当て得る。

【0099】

加えて、又は代替的に、フレーズ顕著性算出モジュール２６０は、以下の式３に従って、１つ以上の特定のフレーズ２１０Ａのフレーズ顕著性スコア２６０Ａを反復プロセスで算出し得る。

【0100】

【数4】

式中、
ｖ_ｉ及びｖ_ｊは、フレーズ２１０Ａのフレーズ埋め込みベクトル２４０Ａであり（例えば、図４のノードとして示される）、
ｗ（ｖ_ｉ，ｖ_ｊ）は、ノードｖ_ｉとｖ_ｊとを接続する辺の類似度重み２６０Ｃであり（例えば、図４の辺として示される）、
Ｖは、ｖ_ｉ及びｖ_ｊを含む、全てのフレーズ埋め込みベクトル２４０Ａを含むベクトル空間であり、
｜Ｖ｜は、ベクトル空間Ｖのサイズ（例えば、ベクトル_ｉの数）であり、
ＷＳは、特定のノードのフレーズ顕著性スコア２６０Ａを表し得る。言い換えれば、ＷＳは、フレーズ埋め込みベクトルｖ_ｉ（２４０Ａ）をフレーズ顕著性スコア２６０Ａにマッピングする関数であり得る。

【0101】

式３に示されるように、特定のフレーズ（フレーズ埋め込みベクトルｖ_ｉによって表される）に関連した、特定のフレーズ顕著性スコアＷＳ（２６０Ａ）の算出は、１つ以上の他のフレーズ顕著性スコアＷＳ（２６０Ａ）の計算に依存し得る。

【0102】

例えば、反復プロセスは、各ノードのフレーズ顕著性スコアＷＳ（２６０Ａ）を「１」の値に初期化することによって開始し得る。第１の反復では、少なくとも１つのフレーズ顕著性スコアＷＳ（２６０Ａ）の値が、それぞれのノードに接続する辺（例えば、類似度重み２６０Ｃ）の和になるように更新され得る。反復プロセスの後続の各反復は、（ａ）式３に従って、第１のフラグメント又はフレーズ２１０Ａのフレーズ顕著性スコアＷＳ２６０Ａを計算することと（例えば、それぞれの頂点に接続された辺の類似度重み２６０Ｃに基づき、更に、少なくとも１つの第２のフラグメント２１０Ａのフレーズ顕著性スコア２６０Ａに基づく）、（ｂ）第１のフラグメント２１０Ａの計算されたフレーズ顕著性スコア２６０Ａに基づいて、少なくとも１つの第２のフラグメント２１０Ａのフレーズ顕著性スコア２６０Ａを更新することとを含み得る。

【0103】

図４の例を再び参照すると、「ｒｅｑｕｅｓｔａｒｅｐｌａｃｅｍｅｎｔ」というフレーズ２１０Ａは、他の２つのフレーズ又はフラグメントに対して、より中心的であり、有意な類似度を有するので、最も顕著なフレーズであり、一方、他のフレーズ又はフラグメント２１０Ａは、他の１つのフレーズに対してのみ有意な類似度を有することが分かるであろう。

【0104】

いくつかの実施形態によれば、フレーズ顕著性算出モジュール２６０は、収束条件が満たされるまで、（例えば、式３に関連して）本明細書で詳述されるようにフレーズ顕著性スコア２６０Ａ算出の反復プロセスを継続し得る。

【0105】

例えば、反復フレーズ顕著性スコア算出の収束は、以下の式４で詳述されるように、第１の反復と第２の後続の反復との間の、ＷＳによってマッピングされた値の変化の和が所定の閾値εを下回る点として定義することができる。

【0106】

【数5】

【0107】

図３に示されるように、モジュール２００は、それぞれのフレーズ顕著性スコア２６０Ａに従って、かつ所定の選択基準に基づいて、１つ以上のフレーズ２１０Ａを顕著なフレーズ２００Ａとして選択するように適合された、フレーズ選択モジュール２７０を含み得る。言い換えれば、フレーズ選択モジュール２７０は、所定のフィルタリング基準に基づいて、より小さいフレーズ顕著性スコア２６０Ａに対応するフレーズ２１０Ａをフィルタリングで除外し得る。

【0108】

例えば、フレーズ選択モジュール２７０は、トップのフレーズ顕著性スコアに対応する、所定の数、所定のサブセット、又は所定の割合のフレーズ２１０Ａを顕著なフレーズ２００Ａとして選択し得る。別の例では、フレーズ選択モジュール２７０は、フレーズ顕著性スコア２６０Ａが所定の閾値を上回るフレーズを顕著なフレーズ２００Ａとして選択し得る。フレーズ選択モジュール２７０は、関連する選択基準に適合しないフレーズ２１０Ａ（例えば、最も低いフレーズ顕著性スコア２６０Ａに対応するフレーズ２１０Ａ）を破棄し得る。

【0109】

ここで図５を参照すると、この図はブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステムに含まれ得る、関連性計算モジュール３００（又は略してモジュール３００）を示す。

【0110】

図５に示されるように、モジュール３００は、複数の文書２１Ａ及び／又は複数のコーパス２１からの複数の顕著なフレーズ２００Ａを、所定の類似度メトリックに従って、トピックラベル３１０Ａを表すグループ又はクラスタにクラスタ化するように適合された、フレーズクラスタ化モジュール３１０を含み得る。

【0111】

本明細書で詳述されるように（例えば、図３Ａに関して）、フレーズ顕著性算出モジュール２６０は、複数のフレーズ２１０Ａ及びそれぞれの複数のフレーズ顕著性スコアを取得し、本明細書では顕著なフレーズ２１０Ａと表される、トップのフレーズ顕著性スコアに対応する複数のフレーズ２１０Ａのサブセットを選択し得る。

【0112】

いくつかの実施形態によれば、クラスタ化モジュール３１０は、算出されたコサイン類似度値２６０Ｃに基づいて、フレーズのサブセット（顕著なフレーズ２１０Ａ）をクラスタ３１０Ａにクラスタ化するように適合され得、各クラスタ３１０Ａは、本明細書で詳述するように、一意のトピックラベルを表す。

【0113】

いくつかの実施形態によれば、クラスタ化モジュール３１０は、１つ以上のトピックラベル（図５において候補トピックラベル３１０Ａと示される）を生成し得る。これらのトピックラベル３１０Ａは、少なくとも１つのテキスト文書２１Ａの１つ以上のそれぞれのトピックを表し得る。クラスタ化モジュール３１０は、選択された顕著なフレーズ２００Ａ（上述したように、計算されたフレーズ顕著性スコア２６０に基づいて選択されたもの）に基づいて、１つ以上のトピックラベル３１０Ａを生成し得る。

【0114】

例えば、１つ以上の第１の文書２１Ａは、「ｔｅｃｈｎｉｃａｌａｓｓｉｓｔａｎｃｅ」という顕著なフレーズ２００Ａを含む、顕著なフレーズ２００Ａの第１のセットをもたらし得、１つ以上の第２の文書２１Ａは、「ｔｅｃｈｎｉｃａｌｈｅｌｐ」という顕著なフレーズ２００Ａを含む、顕著なフレーズ２００Ａの第２のセットをもたらし得る。フレーズクラスタ化モジュール３１０は、顕著なフレーズ２００Ａの第１のセット及び第２のセットの顕著なフレーズ２００Ａの対の間で、本明細書で詳述されるように（例えば、式２に関して）、コサイン類似度メトリック値２６０Ｃを算出し得る。フレーズクラスタ化モジュール３１０は、算出された類似度メトリック値（例えば、コサイン類似度値）を使用して、顕著なフレーズ２００Ａをグループ又はクラスタにクラスタ化し得、各クラスタはトピックラベルを表し得る。この例では、コサイン類似度メトリック値２６０Ｃは、「ｔｅｃｈｎｉｃａｌａｓｓｉｓｔａｎｃｅ」という顕著なフレーズ２００Ａ及び「ｔｅｃｈｎｉｃａｌｈｅｌｐ」という顕著なフレーズ２００Ａに対しては、それらの意味がほぼ同一であるため、高くなると予想され得る。したがって、フレーズクラスタ化モジュール３１０は、これらの顕著なフレーズ２００Ａを単一のクラスタに結合すると予想され得る。

【0115】

フレーズクラスタ化モジュール３１０は、そのクラスタ内の顕著なフレーズ２００Ａの偏在性に基づいて、各クラスタに対して適切なトピックラベル３１０Ａを属性付与するか、又は生成し得る。同じ例に関連して、「ｔｅｃｈｎｉｃａｌａｓｓｉｓｔａｎｃｅ」という顕著なフレーズ２００Ａが「ｔｅｃｈｎｉｃａｌｈｅｌｐ」という顕著なフレーズ２００Ａよりも多くコーパス２１に出現する場合、フレーズクラスタ化モジュール３１０は、より偏在する「ｔｅｃｈｎｉｃａｌａｓｓｉｓｔａｎｃｅ」という顕著なフレーズ２００Ａと同一であるトピックラベル３１０Ａを共通クラスタに割り当て得る。

【0116】

当該技術分野で知られているように、コンタクトセンターソリューションを提供するクラウドベースのサービスは、何らかの選択された粒度レベルでドメイン２０’（例えば、ビジネスドメイン２０’）にグループ化され得る様々なテナントを有し得る。例えば、第１のドメイン２０’は、保険会社であるテナント２０を含み得、第２のドメイン２０’は、通信会社であるテナント２０を含み得、第３のドメイン２０’は、レンタカー代理店であるテナント２０を含み得る。本発明の実施形態は、特定のドメイン２０’に関連し得るフレーズと、一般的なフレーズとを区別し得る。本明細書で詳述するように、フレーズクラスタ化モジュール３１０は、顕著なフレーズ２００Ａを複数の候補トピックラベル３１０Ａに集約又はクラスタ化し得、これは、様々な対話又は文書２１Ａ内で繰り返し言及されたトピックを表し得る。本明細書で詳述するように、関連性計算モジュール３００は、複数の候補トピックラベル３１０Ａから、（ａ）特定のテナント２０に対して十分に特異的ではないか、若しくは十分に関連性がないか、又は（ｂ）関心のあるグローバルトピック若しくは主題（例えば、複数のテナント２０に関連するトピック）と相関しないかのいずれかであるトピックラベルをフィルタリングで除去し得る。

【0117】

トピック検出のために現在利用可能なシステムは、単一の分析対象文書内のテキストの関連性、又は「情報性」を、（ａ）バックグラウンドコーパスのためにｎグラム言語モデルを算出することと、（ｂ）フォアグラウンドコーパスのためのｎグラム言語モデルを算出することと、（ｃ）分析対象文書に情報を寄与するようなものとして、バックグラウンドコーパスと比較して、フォアグラウンドコーパス上で著しく高い確率を有するｎグラムを優先することと、によって推定し得る。「フォアグラウンド」という用語は、この文脈において、関心のある特定のテナント２０又はドメイン２０’に関連する文書のコーパスを示すために使用され得る。補足的に、「バックグラウンド」という用語は、この文脈において、グローバルな、又は一般的なテナント２０又はドメイン２０’に関連し得る文書のコーパスを示すために使用され得る。

【0118】

ｎグラムモデルは、ワードの特定のシーケンスの出現の確率を表す、複数の確率値から構成され得る。これらの確率値は、例えば、以下の式５に基づいて、算出され得る。

【0119】

【数6】

式中、ｓは、ｎ個のワードのシーケンスであり、
ｗ_ｉは、ｉによってインデックス付けされた、シーケンスｓ内のワードであり、
Ｐ（ｓ）は、ｎ個のワードのシーケンスの出現確率であり、
ｐ（ｗ_ｉ｜ｗ_０，．．．，ｗ_ｉ－１）は、（ｉ－１）個のワードの先行シーケンスが与えられた場合のワードｗ_ｉの条件付き確率である。

【0120】

Ｎ－１個のワードの先行シーケンスが与えられた場合のワードＷ_ｎの確率は、以下の式６に示されるように、コーパス内でのサブシーケンスの発生回数（ｃによって示される）をカウントすることによって算出することができる。

【0121】

【数7】

【0122】

いくつかの実施形態によれば、本発明のコーパス２１は、多くの文書又は対話２１Ａの多様なコレクションを含み得、各々は、それ自体の書き手、話者、スタイル、及びジャーゴンを有する。更に、本発明の実施形態は、特定のトピックの関連性又は情報性を複数の文書内で、並びに特定のテナント及び／又はビジネスドメイン２０’に関して決定することを目的とし得る。本発明の実施形態は、本明細書で詳述するように、これらの目的に対応するために、トピック検出のための現在利用可能なシステムに対する複数の改善を含み得る。

【0123】

第１のそのような改善は、（例えば、図２、図３Ａに関して）本明細書で詳述するように、トピック検出のためのビルディングブロックとして、ｎグラムではなく、フレーズ又はフラグメントの使用を含み得る。この手法は、（例えば、式５、式６において詳述されるような）多数のシーケンス確率を含むｎグラムモデルを算出する必要性を回避することによって、現在利用可能なシステムに関して必要とされる計算の数を有意に減少させることが示されている。

【0124】

トピック検出のための現在利用可能なシステムに対する本発明の別の改善は、（例えば、図２に関して）本明細書で詳述されるように、関連性計算モジュール３００に入力される文書２１Ａ内のフレーズの質を改善するために、顕著なフレーズ２００Ａの抽出を含み得る。

【0125】

トピック検出のための現在利用可能なシステムに対する本発明の別の改善は、コーパス内のシーケンスの発生回数の代わりに、文書頻度（ＤＣ）のメトリック、例えば、ワードシーケンスを含む対話又は文書２１Ａの数を使用することを含み得る。したがって、本発明の実施形態は、式５及び式６に詳述されるようなサブシーケンスの確率を算出する必要性を回避し得る。言い換えれば、本発明の実施形態は、式５の縮小版である、以下の式７を使用し得、したがって、（例えば、以下に、図６に関して）本明細書で実証されるように、算出の結果を損なうことなくトピック関連性の算出を簡略化し得る。本発明の実施形態による計算のそのような低減は、実際の適用を容易にし、自然言語処理のプロセスにおける少なくとも１つのコンピューティングデバイス（例えば、図１のコンピューティングデバイス１）の性能を改善し得ることが理解されよう。

【0126】

【数8】

式中、ｓは、ワードのシーケンス（例えば、候補トピックラベル３１０Ａ）であり、
Ａは、対話のコーパス２１であり、
｜Ａ｜は、コーパス内の対話の数であり、
ＤＣ（ｓ）は、シーケンスｓを含む、コーパスＡ内の対話又は文書２１Ａの数であり、
Ｐ（ｓ）は、コーパスＡ内でのｓの出現確率である。

【0127】

トピック検出の現在利用可能な技術に対する本発明の別の改善は、本明細書で詳述するように、各テナント及び各ドメイン２０’が選択されたトピックに対して同様の効果を有するように、バックグラウンドコーパス内のテナントの効果を正規化することを含み得る。

【0128】

トピック検出のための現在利用可能なシステムに対する本発明の別の改善は、本明細書で詳述するように、厳密なｎグラム検索ではなく、文書の関連するコーパス内のトピックのファジー検索を用いることを含み得る。

【0129】

いくつかの実施形態によれば、関連性計算モジュール３００は、特定の複数の、又はコーパスの文書に関して候補トピックラベル３１０Ａの関連性を算出し得る。例えば、関連性計算モジュール３００は、第１のビジネスドメイン２０’（例えば、レンタカー代理店）に関連する第１の複数又はコーパス２１の文書２１Ａと、少なくとも１つの第２のビジネスドメイン２０’（例えば、病院）に関連する第２の複数又はコーパス２１の文書２１Ａとを受信し得る。

【0130】

関連性計算モジュール３００は、１つ以上の（例えば、それぞれの）候補トピックラベル３１０Ａについて、トピックラベルが第１の複数又はコーパス２１に含まれるトピックを表す確率を表す、フォアグラウンド確率値３２０Ａを算出し得る。加えて、関連性計算モジュール３００は、１つ以上の（例えば、それぞれの）候補トピックラベル３１０Ａについて、トピックラベルが第１のコーパス２１及び第２のコーパスのうちの少なくとも１つ（例えば、ドメインのいずれか１つ）に含まれるトピックを表す確率を表す、バックグラウンド確率値を算出し得る。関連性計算モジュール３００は、続いて、本明細書で詳述するように、フォアグラウンド確率値及びバックグラウンド確率値に基づいて、第１のビジネスドメインに対する候補トピックラベルの関連性を表す、関連性スコア３４０Ａを算出し得る。

【0131】

図５に示すように、関連性計算モジュール３００は、フォアグラウンド確率算出３２０（又は、略してモジュール３２０）を含み得る。

【0132】

いくつかの実施形態によれば、モジュール３２０は、１つ以上の文書２１Ａに関連するメタデータ２１Ｂを（例えば、図１の入力デバイス７を介して）受信し得る。メタデータ２１Ｂは、例えば、１つ以上の（例えば、それぞれの）文書２１Ａが関連するテナント２０及び／又はドメイン２０’の注釈を含み得る。例えば、メタデータ２１Ｂは、特定の文書２１Ａと、テナント２０及び／又はドメイン２０’のそれぞれの識別との間を関連付け得るデータ構造（例えば、テーブル）であり得るか、又はそれを含み得る。加えて、モジュール３２０はまた、フレーズクラスタ化モジュール３１０から、特定の文書２１Ａに（並びにメタデータ２１Ｂを介して、特定のテナント２０及び／又はドメイン２０’に）関連する、１つ以上の候補トピックラベル３１０Ａを受信し得る。

【0133】

いくつかの実施形態によれば、モジュール３２０は、当該技術分野で知られているように、文書２１Ａにおける候補トピックラベル３１０Ａのファジーワード検索を実行するように適合されたファジー検索モジュール３２１を用い得る。「ファジー」という用語は、この文脈では、（例えば、ｎグラムモデルの場合に行われるように）文書内でのワードシーケンスの正確な出現を厳密に見つけることに限定されなくてよく、語彙的に類似するワードシーケンスを見つけることも目的として、所望のシーケンスと見つかったシーケンスとの間での構成可能な量の編集操作（挿入、削除、置換）を可能にし得る検索を指すために使用され得る。例えば、ファジー検索は、最大２つの「挿入」ワードを無視して、フレーズ「ｂｏｏｋｍｅｔｗｏｔｉｃｋｅｔｓ」を所望のシーケンス「ｂｏｏｋｔｉｃｋｅｔｓ」と一致させ得る。加えて、ファジー検索は、「ｔｈｅ」、「ｉｓ」などの機能語を無視してもよく、またワードに見出し語化を適用し、その結果、「ｂｏｏｋｔｉｃｋｅｔ」及び「ｂｏｏｋｉｎｇｔｉｃｋｅｔｓ」などの変形を取り出し得る。

【0134】

いくつかの実施形態によれば、モジュール３２０は、式７を使用して、１つ以上の候補トピックラベル３１０Ａが、関心のある特定のテナント２０に関連する文書のフォアグラウンドコーパスの文書２１Ａ内に出現する確率を、ファジーワード検索に基づいて算出し得る。加えて、モジュール３２０は、１つ以上の候補トピックラベル３１０Ａがフォアグラウンドコーパスの文書２１Ａ内に現れる確率を算出し得る。

【0135】

いくつかの実施形態によれば、モジュール３２０は、以下の式８Ａに従って、同じドメイン２０’の複数のテナント２０に関連するデータを取り出し得る。モジュール３２０は、モジュール３２１のファジーワード検索結果を使用して、候補トピックラベル３１０Ａがフォアグラウンドドメイン２０’（例えば、関心のある特定のドメイン２０’）に関連する文書２１のコーパスの文書２１Ａ内に現れる確率を算出し得る。この算出において、テナント間及び／又は期間間での異なる量の文書２１は、それに応じて正規化され得る。

【0136】

【数9】

式中、
Ｐ（ｓ；ＦＧ）は、関心のあるフォアグラウンド（ＦＧ）ドメイン２０’に関連するコーパス内でのトピックラベルｓ（３１０Ａ）の出現の確率３２０Ａであり、
ｔは、関心のあるドメイン２０’に関連する特定のテナント２０であり（ｔ∈ＦＧ）、
｜ｔ｜は、テナントｔ２１に関連する文書又は対話２１Ａの数を表し、
ＤＣｔ（ｓ）は、トピックラベルｓ（３１０Ａ）を含むテナントｔ２１に関連する対話又は文書２１Ａの数であり、
Ｎｕｍ＿ｔ＿ｉｎ＿ＦＧは、関心のあるフォアグラウンド（ＦＧ）ドメイン２０’内のテナントの数である。

【0137】

いくつかの実施形態によれば、式８Ａによって詳述されるように、モジュール３２０は、（ａ）関心のあるフォアグラウンド（ＦＧ）ドメイン２０’に関連するコーパス２１に対して、トピックラベルのファジー検索３２１を適用することと、（ｂ）関連するトピックを含む文書２１Ａのコーパス２１の文書２１Ａの数ＤＣｔ（ｓ）をカウントすることと、（ｃ）フォアグラウンド確率値Ｐ（ｓ；ＦＧ）３２０Ａを、ＤＣｔ（ｓ）と｜ｔ｜、例えば、テナントｔ２１に関連する文書の数との比として算出することとによって、特定の候補トピックラベル３１０Ａのフォアグラウンド確率値Ｐ（ｓ；ＦＧ）３２０Ａを算出し得る。加えて、又は代替的に、フォアグラウンド確率値Ｐ（ｓ；ＦＧ）３２０Ａは、ＤＣｔ（ｓ）と関心のあるフォアグラウンド（ＦＧ）ドメイン２０’内の文書の数との比として算出され得る。Ｐ（ｓ；ＦＧ）３２０Ａは、Ｎｕｍ＿ｔ＿ｉｎ＿ＦＧ、例えば、関心のあるフォアグラウンドドメイン２０’内のテナントの数によって更に正規化され得る。

【0138】

いくつかの実施形態によれば、関連性計算モジュール３００は、バックグラウンド確率算出モジュール３３０（又は、略してモジュール３３０）を含み得る。いくつかの実施形態によれば、モジュール３３０は、ファジーワード検索モジュールを使用して、バックグラウンドドメイン２０’（例えば、関心のあるテナント２０又はドメイン２０’のみを含むことに限定されない一般ドメイン２０’）に関連する文書２１のコーパスの文書２１Ａに対してファジーワード検索を実行し得る。

【0139】

モジュール３３０は、モジュール３３１のファジーワード検索結果を使用して、候補トピックラベル３１０Ａがバックグラウンドドメイン２０’に関連する文書２１のコーパスの文書２１Ａ内に現れる確率を、以下の式８Ｂに従って算出し得る。この算出は、モジュール３００が、様々なドメイン２０’にわたって、候補トピックラベル３１０Ａが一般的に使用される確率を評価することを可能にし得ることが理解されよう。

【0140】

【数10】

式中、
Ｐ（ｓ；ＢＧ）は、バックグラウンド（ＢＧ）ドメイン２０’（例えば、関心のあるテナント２０又はドメイン２０’のみを含むことに限定されないドメイン２０）に関連するコーパス内でのトピックラベルｓ（３１０Ａ）の出現の確率３３０Ａであり、
ｔは、バックグラウンドドメイン２０’に関連する特定のテナント２０であり（ｔ∈ＢＧ）、
｜ｔ｜は、テナントｔ２１に関連する文書又は対話２１Ａの数を表し、
ＤＣｔ（ｓ）は、トピックラベルｓ（３１０Ａ）を含むテナントｔ２１に関連する対話又は文書２１Ａの数であり、
Ｎｕｍ＿ｔ＿ｉｎ＿ＢＧは、バックグラウンド（ＢＧ）ドメイン２０’内のテナントの数である。

【0141】

いくつかの実施形態によれば、モジュール３２０は、（ａ）バックグラウンド（ＢＧ）ドメイン２０’に関連するコーパス２１に対して、トピックラベルのファジー検索３３１を適用することと、（ｂ）関連するトピックを含む文書２１Ａのコーパス２１の文書２１Ａの数ＤＣｔ（ｓ）をカウントすることと、（ｃ）バックグラウンド確率値Ｐ（ｓ；ＢＧ）３３０Ａを、ＤＣｔ（ｓ）と｜ｔ｜、例えば、テナントｔ２１に関連する文書の数との比として算出することとによって、特定の候補トピックラベル３１０Ａのバックグラウンド確率値Ｐ（ｓ；ＢＧ）３３０Ａを算出し得る。加えて、又は代替的に、バックグラウンド確率値Ｐ（ｓ；ＢＧ）３３０Ａは、ＤＣｔ（ｓ）とＢＧドメイン２０’内の文書の数との比として算出され得る。Ｐ（ｓ；ＢＧ）は、Ｎｕｍ＿ｔ＿ｉｎ＿ＢＧ、例えば、バックグラウンドドメイン２０’内のテナントの数によって更に正規化され得る。

【0142】

いくつかの実施形態によれば、モジュール３００は、候補トピックラベル３１０Ａとは別にグローバルに重要なトピック（３５０Ａと示される）として予め定義されたトピックラベルのグループ又はリストを処理するように適合された、グローバルトピックモジュール３５０を含み得る。例えば、グローバルに重要なトピックラベル３５０Ａは、システム１００を使用するほとんど又は全てのテナント又はコンタクトセンターにとって関心があり得るトピックのリストを指し得る。グローバルに重要なトピックラベルリスト３５０Ａは、例えば、ユーザから図１の入力デバイス７を介して受信され得、例えば、「ｓｕｐｅｒｖｉｓｏｒ」、「ｌａｗｓｕｉｔ」などのトピックを含み得、時間とともに（例えば、ユーザによって）調整され得る。

【0143】

いくつかの実施形態によれば、モジュール３００は、関心のあるテナント又はドメインに対する１つ以上のトピックラベル（例えば、３１０Ａ、３５０Ａ）の関連性又は情報性を推定し、それらから１つ以上の１つ以上の関連トピックラベル３００Ａを生成するように適合された、ドメイン関連性推定モジュール３４０を含み得る。

【0144】

上で、例えば、式８Ａに関して詳述したように、モジュール３２０は、候補トピックラベルｓ３１０Ａがフォアグラウンドコーパス２１に関連する文書２１Ａ内に現れる確率Ｐ（ｓ；ＦＧ）３２０Ａを算出し得る。加えて、上で、例えば、式８Ｂに関して詳述したように、モジュール３３０は、候補トピックラベル３１０Ａがバックグラウンドコーパス２１に関連する文書２１Ａ内に現れる確率Ｐ（ｓ；ＢＧ）３３０Ａを算出し得る。

【0145】

いくつかの実施形態によれば、ドメイン関連性推定モジュール３４０は、１つ以上の（例えば、それぞれの）候補トピックラベルｓ３１０Ａについて、２つの算出された確率の偏在比として関連性スコア３４０Ａを算出し得る。例えば、関連性スコア３４０Ａは、以下の式９に従って算出され得る。

【0146】

式９
関連性スコア３４０Ａ＝Ｐ（ｓ；ＦＧ）３２０Ａ／Ｐ（ｓ；ＢＧ）３３０Ａ

【0147】

偏在比という用語は、本明細書では、（ａ）フォアグラウンドドメイン２０’に関連するコーパス２１内での候補トピックラベル３１０Ａの出現の確率、又は出現の偏在と、（ｂ）バックグラウンドドメイン２０’に関連するコーパス２１内での候補トピックラベル３１０Ａの出現の確率、又は出現の偏在との比を表し得るという意味で使用され得る。

【0148】

いくつかの実施形態によれば、ドメイン関連性推定モジュール３４０は、関連性スコア３４０Ａを所定の閾値と比較し得る。関連性スコア３４０Ａが所定の閾値を上回る場合、関連候補トピックラベル３１０Ａは、フォアグラウンドドメインの文脈において、関連する又は重要であると見なされ得る。候補トピックラベル３１０Ａは、続いて、出力関連トピックラベル３００Ａに含められ得る。

【0149】

代替的に、関連性スコア３４０Ａが所定の閾値を上回らない場合、関連候補トピックラベル３１０Ａは、除去の候補としてフラグを立てられ得る。いくつかの実施形態によれば、この条件において、グローバルトピック処理モジュール３５０は、（例えば、図３Ａに関して）本明細書で詳述するように、フレーズ距離メトリック（例えば、コサイン類似度）算出モジュール２５０を使用して、フラグを立てられた候補トピックラベル３１０Ａの１つ以上のグローバル重要トピックラベル３５０Ａに対する近さを決定し得る。フラグを立てられたラベルの各々について、グローバル重要トピックまでの算出された距離が所定の閾値を超える（例えば、コサイン類似度２６０Ｃが所定の閾値未満である）場合、関連候補トピックラベル３１０Ａは、関連しないものとして、又はフォアグラウンドドメイン２０’の文脈において重要性が低いものとして破棄され得る。

【0150】

ここで図６を参照すると、これは、本発明の実施形態による関連トピック識別の改善の一例を示すグラフである。図６の例に示されているように。オレンジ色のプロットは、（ａ）モジュール２００によるフレーズのフィルタリングを用いて、（例えば、図３Ａに関して）本明細書で詳述されるように顕著なフレーズ２００Ａを取得し、（ｂ）ドメイン関連性推定モジュール３４０を用いて、関心のあるテナント２０又はドメイン２０’に対する１つ以上の候補トピックラベル３１０Ａの関連性又は情報性を推定し得る本発明の実施形態によるトピック検出システムの性能を表す。青色のプロットは、モジュール２００によるフレーズのフィルタリングを用い得るが、ドメイン関連性推定モジュール３４０を用いない本発明の実施形態によるトピック検出システムの性能を表す。緑色のプロットは、モジュール２００によるフレーズのフィルタリングを用いず、ドメイン関連性推定モジュール３４０を用いない本発明の実施形態によるトピック検出システムの性能を表す。

【0151】

図６の例に描写されるように、「生成量」は、本発明の実施形態によって取得され得る関連トピックラベル（例えば、図５の要素３００Ａ）の数を表し得る。「精度」は、図６の例に描写されるように、生成されたトピックラベル３００Ａの総数からの真陽性のトピックラベルの割合を表し得る。

【0152】

図６の例において破線によって示されるように、３つのプロットは、生成量が１００個の関連トピックラベルに対する精度のレベルを提示する。

【0153】

トピック関連性を算出する前の予備ステップとして顕著なフレーズ２００Ａを識別するための、モジュール２００によるフレーズのフィルタリングは、識別されたトピックラベル３００Ａの質（例えば、精度）を改善し得ることが（青色のプロットと緑色のプロットとを比較することによって）理解されよう。言い換えれば、本発明の実施形態は、顕著なフレーズ２００Ａを識別し、トピック検出のために顕著なフレーズ２００Ａを（例えば、ｎグラム及び／又は一般フレーズの代わりに）使用することによって、トピック識別のための現在利用可能なシステムに対する改善を含み得る。

【0154】

加えて、特定のドメインの文脈における関連性に従って（例えば、関連性スコア３４０Ａに従って）候補トピックラベルをフィルタリングすることは、識別されたトピックラベル３００Ａの質（例えば、精度）を改善し得ることが（青色のプロットとオレンジ色のプロットとを比較することによって）理解されよう。言い換えれば、本発明の実施形態は、（例えば、図５に関連して）本明細書で詳述されるように、候補トピックラベルのテナント２０固有及び／又はドメイン２０’固有のフィルタリングを用いるトピック識別のための現在利用可能なシステムに対する改善を含み得る。

【0155】

ここで図７を参照すると、この図はブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステム（例えば、図２のシステム１００）に含まれ得るか、又は関連付けられ得る、アプリケーションモジュール４００の一例を示す。いくつかの実施形態によれば、アプリケーションモジュール４００は、図２のシステム１００と同じコンピューティングデバイス（例えば、図１の要素１）上に実装され得る。加えて、又は代替的に、アプリケーションモジュール４００は、システム１００とは別個のコンピューティングデバイス上に実装され得、コンピュータネットワーク（例えば、インターネット）を介してシステム１００に通信可能に接続され得る。

【0156】

いくつかの実施形態によれば、アプリケーションモジュール４００は、例えば、図１の入力デバイス７から、１つ以上の文書２１Ａ、及び対応するメタデータ２１Ｂを受信し得る。加えて、アプリケーションモジュール４００は、本明細書に詳述されるように、文書２１Ａ及びメタデータ２１Ｂに関連する１つ以上の関連トピックラベル３００Ａを（例えば、システム１００から）受信し得る。アプリケーションモジュール４００は、受信したデータをトピックデータ構造４００Ｂ（例えば、リスト、データベース内のテーブルなど）として（例えば、図１の記憶デバイス６上に）記憶し得る。

【0157】

いくつかの実施形態によれば、アプリケーションモジュール４００は、例えば、図１の入力デバイス７などのユーザインタフェース（ＵＩ）を介して、少なくとも１つのクエリ３１Ｂを受信し得る。クエリ３１Ｂは、例えば、１つ以上の受信された文書２１Ａ内に存在してもしなくてもよいトピックに関するものであり得る。

【0158】

いくつかの実施形態によれば、アプリケーションモジュール４００は、続いて、１つ以上の関連トピックラベル３００Ａに基づいて、クエリに対する応答４００Ａを生成し得る。

【0159】

言い換えれば、（例えば、図５に関して）本明細書で詳述されるように、モジュール３００は、関連性スコア３４０Ａに基づいて、１つ以上の候補トピックラベル３１０Ａを関連するものとして選択して、関連トピックラベル３００Ａを生成し得る。したがって、アプリケーションモジュール４００は、１つ以上の候補トピックラベル３１０Ａ及び対応する関連性スコア３４０Ａに基づいて、文書又は対話２１Ａに含まれる１つ以上のトピックに関連し得る、クエリに対する応答を生成し得る。

【0160】

例えば、クエリ３１Ｂは、特定のトピックが特定の文書２１Ａに含まれるかどうかを問い合わせ得、クエリ応答４００Ａは、その問い合わせ３１Ｂに対する回答（例えば、はい／いいえ）を含み得る。別の例では、クエリ３１Ｂは、文書２１Ａのうちのどれがトピックのリストからの１つ以上のトピックを含むかを問い合わせ得、クエリ応答４００Ａは、問い合わせ３１Ｂに対する回答（例えば、対応する文書のリスト）を含み得る。

【0161】

ここで図８を参照すると、この図は流れ図であり、本発明のいくつかの実施形態による、少なくとも１つのプロセッサ（例えば、図１のプロセッサ２）によるテキスト内の自動トピック検出の方法を示す。

【0162】

ステップＳ１００５に示されるように、少なくとも１つのプロセッサ２は、複数又はコーパス（例えば、図２のコーパス２１）のテキスト文書のうちの少なくとも１つのテキスト文書（例えば、図２の文書２１Ａ）を受信し得る。

【0163】

ステップＳ１０１０に示されるように、少なくとも１つのプロセッサ２は、フレーズ抽出モジュール（例えば、図３Ａのフレーズ抽出モジュール２１０）と協働して、少なくとも１つのテキスト文書から１つ以上のフレーズ（例えば、図３Ａのフレーズ２１０Ａ）を抽出し得る。（例えば、図３Ａに関して）本明細書で詳述するように、フレーズ抽出モジュール２１０は、１つ以上の統語パターン３１Ａに基づいてフレーズ２１０Ａを抽出し得、各フレーズ２１０Ａは、１つ以上のワード２１０Ｂを含み得る。

【0164】

ステップＳ１０１５に示されるように、各フレーズ２１０Ａについて、少なくとも１つのプロセッサ２は、１つ以上のフレーズ２１０Ａの１つ以上のワード２１０Ｂに対してワード埋め込みＮＮ（例えば、図３Ａのワード埋め込みベクトル算出モジュール２２０）を適用して、１つ以上のそれぞれのワード埋め込みベクトル（例えば、図３Ａの要素２２０Ａ）を取得し得る。

【0165】

ステップＳ１０２０及びＳ１０２５に示されるように、各フレーズ２１０Ａについて、少なくとも１つのプロセッサ２は、続いて、（例えば、図３Ａに関して）本明細書で詳述するように、１つ以上のワード埋め込みベクトル２２０Ａに基づいて、重み付きフレーズ埋め込みベクトル（例えば、図３Ａの要素２４０Ａ）を算出し得、重み付きフレーズ埋め込みベクトル２４０Ａに基づいて、フレーズ顕著性スコア２６０Ａを計算する。

【0166】

ステップＳ１０３０に示されるように、少なくとも１つのプロセッサ２は、（例えば、図３Ａ及び図５に関して）本明細書で詳述するように、計算されたフレーズ顕著性スコア２６０Ａに基づいて、少なくとも１つの第１のテキスト文書の１つ以上のそれぞれのトピックを表す、１つ以上のトピックラベル（例えば、図５の関連トピックラベル３００Ａ）を生成し得る。

【0167】

本明細書で詳述するように、本発明の実施形態は、例えば、文書及び／又はテキスト対話内の関連するトピックの決定又は識別を含む、自動化されたテキスト分析を実行する実用的なアプリケーションを含み得る。例えば、本発明の実施形態は、（例えば、図７に関して）本明細書で詳述するように、複数の文書を提示するトピックに関して、少なくとも１つのクエリ（例えば、図７のクエリ３１Ｂ）を（例えば、ＵＩを介して）受信し、１つ以上の関連トピックラベル３００Ａに基づいて、クエリに対する応答を生成するように構成され得る。

【0168】

本発明の実施形態は、テキスト分析の現在利用可能なシステム及び方法に対する技術の複数の改善を含み、（例えば、図６に関して）本明細書で詳述するように、現在利用可能なシステムよりも迅速かつ正確な方法で、テキスト文書内のトピックの自動化された識別を容易にし得る。

【0169】

明示的に述べられない限り、本明細書で説明される方法の実施形態は、特定の順序又はシーケンスに制約されない。更に、本明細書に記載される全ての式は、例としてのみ意図され、他の又は異なる式が使用されてもよい。加えて、説明される方法の実施形態又はその要素のうちのいくつかは、同じ時点で発生しても実行されてもよい。

【0170】

本発明の特定の特徴が本明細書に例示及び説明されてきたが、多くの修正、置換、変更、及び均等物が当業者に想起され得る。したがって、添付の特許請求の範囲は、本発明の真の趣旨の範囲内に入る全てのそのような修正及び変更を包含することが意図されていることを理解されたい。

【0171】

様々な実施形態が提示されてきた。これらの実施形態の各々は、当然ながら、提示される他の実施形態からの特徴を含んでもよく、具体的に説明されていない実施形態は、本明細書に説明される種々の特徴を含んでもよい。

【図1】