(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024014830
(43)【公開日】2024-02-01
(54)【発明の名称】情報処理の方法、デバイス、設備およびメモリー
(51)【国際特許分類】
G06F 16/35 20190101AFI20240125BHJP
G06F 40/279 20200101ALI20240125BHJP
G06F 16/332 20190101ALI20240125BHJP
【FI】
G06F16/35
G06F40/279
G06F16/332
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023118434
(22)【出願日】2023-07-20
(31)【優先権主張番号】202210861704.2
(32)【優先日】2022-07-20
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】202210861703.8
(32)【優先日】2022-07-20
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】202210864179.X
(32)【優先日】2022-07-20
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】リン アディ
(72)【発明者】
【氏名】フェン ルー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FA03
(57)【要約】 (修正有)
【課題】ターゲット対象に関するテキストセットからキーワードを抽出することでターゲット対象に対するターゲット要素を決定する情報処理方法、デバイス、設備およびメモリーを提供する。
【解決手段】方法は、ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出することと、複数のキーワードのうちの少なくとも一部を、複数のキーワードのセマンティクスに基づいてグループ化することと、グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素を決定することと、を含む。ターゲット要素は、ターゲット対象の1つの側面を表す。これにより、ターゲット対象に影響を与える新しい要素を特定する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
次のことを含む、情報処理の方法:
ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出すること;
前記複数のキーワードの意味に基づいて、前記複数のキーワードのうちの少なくとも一部をグループ化すること、
および
グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素を決定し、ターゲット要素は、ターゲット対象の一態様を表すこと。
【請求項2】
次のことをさらに含む、請求項1に記載の方法:
前記非構造化テキストセットに基づいて、ターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定し、ターゲット要素に関する観点を反映すること。
【請求項3】
前記少なくとも1つのターゲットセンテンスを決定することは、次のことを含む、請求項2に記載の方法:
前記非構造化テキストセットから少なくとも1つの候補センテンスを抽出し、前記少なくとも1つの候補センテンスは、前記1グループのキーワードからの少なくとも1つのキーワードを含むこと、および
少なくとも1つの候補センテンスに基づいて、少なくとも1つのターゲットセンテンスを決定すること。
【請求項4】
前記少なくとも1つのターゲットセンテンスは、以下の少なくとも1つを含む、請求項2に記載の方法:
ターゲット要素に関する肯定的な見解を反映するセンテンス、
ターゲット要素に関する否定的な見解を反映するセンテンス。
【請求項5】
前記ターゲット要素を決定することは、次のことを含む、請求項1に記載の方法:
1グループのキーワードが、ターゲット対象の構造化要素と意味的に類似しているか否かを判定すること、および
1グループのキーワードが構造化要素と意味的に類似していないと判定された場合、1グループのキーワードに基づいてターゲット要素を判定すること。
【請求項6】
次のことをさらに含む、請求項1に記載の方法:
1グループのキーワードおよび前記非構造化テキストセットのテキストに基づいて、ターゲット要素に対する測定を決定し、測定がターゲット要素の注目度を表すこと。
【請求項7】
前記測定を決定することは、以下の少なくとも1つを含む請求項6に記載の方法:
テキスト中の1グループのキーワードの出現回数を決定すること、
1グループのキーワードの中のキーワードを含むテキスト中のセンテンスの感情レベルを決定すること。
【請求項8】
前記複数のキーワードを抽出することは、次のことを含む、請求項1に記載の方法:
前記非構造化テキストセットのテキストから候補語を抽出すること;および
前記非構造化テキストセットにおける候補語の出現回数が閾値回数より大きい場合、候補語は複数のキーワードのうちの1つであることを決定すること。
【請求項9】
複数のキーワードのうちの少なくとも一部のキーワードをグループ化することが、以下のことを含む、請求項1に記載の方法:
前記複数のキーワードをクラスタリングして複数のクラスタを特定し、各クラスタは少なくとも1つのキーワードから構成されること、
複数のクラスタのそれぞれの品質を決定し、品質は、それぞれのクラスタ内のキーワードが意味的にどの程度集まるかを表すこと、
残りのキーワードを決定するために、複数のキーワードから、閾値品質よりも低い品質を有するクラスタ内のキーワードを除去すること、および
残りのキーワードは、その意味に基づいてグループ化されること。
【請求項10】
少なくとも1つの処理回路を含み、前記少なくとも1つの処理回路は、
ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出し、
前記複数のキーワードの意味に基づいて、前記複数のキーワードのうちの少なくとも一部をグループ化し、
グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素を決定し、ターゲット要素は、ターゲット対象の一態様を表すように構成されている、電子デバイス。
【請求項11】
前記少なくとも1つの処理回路は、前記非構造化テキストセットに基づいて、ターゲット要素に関する観点を反映するターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定するように構成される、請求項10に記載の電子デバイス。
【請求項12】
前記少なくとも1つの処理回路は、
前記非構造化テキストセットから少なくとも1つの候補センテンスを抽出し、前記少なくとも1つの候補センテンスが、前記1グループのキーワードから少なくとも1つのキーワードを含み、
少なくとも1つの候補センテンスに基づいて、少なくとも1つのターゲットセンテンスを決定するように構成される、請求項11に記載の電子デバイス。
【請求項13】
前記少なくとも1つのターゲットセンテンスは、以下の少なくとも1つを含む、請求項11に記載の電子デバイス:
ターゲット要素に関する肯定的な見解を反映するセンテンス、
ターゲット要素に関する否定的な見解を反映するセンテンス。
【請求項14】
前記少なくとも1つの処理回路は、1グループのキーワードが、ターゲット対象の構造化要素と意味的に類似しているか否かを判定し、
1グループのキーワードが構造化要素と意味的に類似していないと判定された場合、1グループのキーワードに基づいてターゲット要素を判定するように構成される、請求項10に記載の電子デバイス。
【請求項15】
前記少なくとも1つの処理回路は、
1グループのキーワードおよび前記非構造化テキストセットのテキストに基づいて、ターゲット要素に対する測定を決定する、測定はターゲット要素の注目度を表すように構成される、請求項10に記載の電子デバイス。
【請求項16】
前記少なくとも1つの処理回路は、以下の少なくとも1つを実行するように構成される、請求項15に記載の電子デバイス:
テキスト中の1グループのキーワードの出現回数を決定すること、
1グループのキーワードの中のキーワードを含むテキスト中のセンテンスの感情レベルを決定すること。
【請求項17】
前記少なくとも1つの処理回路は、次のことを含むように構成される、請求項10に記載の電子デバイス:
前記非構造化テキストセットのテキストから候補語を抽出すること;および
前記非構造化テキストセットにおける候補語の出現回数が閾値回数より大きい場合、候補語は複数のキーワードのうちの1つであると判定すること。
【請求項18】
前記少なくとも1つの処理回路は、次のことを含むように構成される、請求項10に記載の電子デバイス:
前記複数のキーワードをクラスタリングして複数のクラスタを特定し、各クラスタは少なくとも1つのキーワードから構成されること、
複数のクラスタのそれぞれの品質を決定し、品質は、それぞれのクラスタ内のキーワードが意味的にどの程度集まるかを表すこと、
残りのキーワードを決定するために、複数のキーワードから、閾値品質よりも低い品質を有するクラスタ内のキーワードを除去すること、および
残りのキーワードは、その意味に基づいてグループ化されること。
【請求項19】
情報処理方法を実施するためにプロセッサによって実行可能なコンピュータープログラムを格納したコンピューター読み取り可能メモリーであって、
前記情報処理方法は、以下のことを含む:
ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出すること;
前記複数のキーワードの意味に基づいて、前記複数のキーワードのうちの少なくとも一部をグループ化すること、および
グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素が決定され、ターゲット要素は、ターゲット対象の一態様を表すこと。
【請求項20】
前記情報処理方法は、さらに以下のことを含む、請求項19に記載のコンピューター読み取り可能メモリー:
前記非構造化テキストセットに基づいて、ターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定し、少なくとも1つのターゲットセンテンスがターゲット要素に関する観点を反映すること。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の例示的な実施形態は、概してコンピューターの分野に関するものであり、特に、情報処理のための方法、デバイス、設備、およびコンピューター読み取り可能メモリーに関するものである。
【背景技術】
【0002】
非構造化テキストを使用すると、製品、サービスなどの対象に対するコメントを提供できる。例えば、ユーザーのコメントは、製品の購入ページやサービスの展示ページに表示されることが多い。別の例として、アンケートには、回答者(respondent)がテキストコメントを提供するためのオープン質問を含める。このような構造化されていないテキストには、説明対象に関する豊富な情報が含まれている、こうした情報を読み解き、活用していきたい。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の第1の態様では、情報処理方法を提供する。この方法は、ターゲット対象のための非構造化テキストセットから複数のキーワードを抽出するステップと、前記複数のキーワードのうちの少なくとも一部のキーワードを、前記複数のキーワードの意味に基づいてグループ化することと、グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素が決定され、ターゲット要素は、ターゲット対象の一態様を表す。
【0004】
本開示の第2の態様では、電子デバイスを提供する。電子デバイスは、少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出するように構成される、前記複数のキーワードのうちの少なくとも一部のキーワードを、前記複数のキーワードの意味に基づいてグループ化することと、グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素が決定され、ターゲット要素は、ターゲット対象の一態様を表す。
【0005】
本開示の第3の態様では、電子デバイスを提供する。デバイスは、少なくとも1つの処理ユニットを含む、そして、少なくとも1つのメモリーを含む、少なくとも1つのメモリーが処理ユニットに結合され、少なくとも1つの処理ユニットによる実行のための命令を格納する。命令は、少なくとも1つの処理ユニットによって実行されるときに、デバイスに第1の態様を実行させる方法である。
【0006】
本開示の第4の態様では、コンピューター読み取り可能メモリーを提供する。コンピューター読み取り可能メモリーは、コンピュータープログラムをその上に記憶しており、コンピュータープログラムは、第1の態様の方法を実施するためにプロセッサによって実行可能である。
【0007】
本開示の第5の態様では、情報処理方法を提供する。この方法は以下のことを含む:ターゲット対象の1グループのターゲット要素を取得する、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表す、及び、1グループのターゲット要素とターゲット対象の1グループの構造化要素に基づいて、ターゲット対象に対する少なくとも1つのキー要素を決定し、1グループのターゲット要素のうちの少なくとも1つのターゲット要素は1グループの構造化要素とは異なる。
【0008】
本開示の第6の態様では、電子デバイスを提供する。電子デバイスは、少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、以下のように構成される:ターゲット対象に関する1グループのターゲット要素を取得し、1グループのターゲット要素はターゲット対象に関する構造化されていないテキストセットに基づいて決定され、各ターゲット要素はターゲット対象の側面を表す;1グループのターゲット要素とターゲット対象に関する1グループの構造化要素に基づいてターゲット対象に関する少なくとも1つのキー要素を決定し、1グループのターゲット要素内のターゲット要素の少なくとも1つは1グループの構造化要素とは異なる。
【0009】
本開示の第7の態様では、電子デバイスが提供される。デバイスは、少なくとも1つの処理ユニット;および少なくとも1つのメモリーを含み、少なくとも1つのメモリーは、少なくとも1つの処理ユニットに結合され、少なくとも1つの処理ユニットによる実行のための命令を記憶する。命令は、少なくとも1つの処理ユニットによって実行されると、デバイスに第5の態様の方法を実行させる。
【0010】
本開示の第8の態様では、コンピューター読み取り可能メモリーを提供する。コンピューター読み取り可能メモリーには、第5の態様の方法を実施するためにプロセッサによって実行可能なコンピュータープログラムが記憶されている。
【0011】
本開示の第9の態様では、情報処理方法を提供する。この方法は以下を含む:ターゲット対象の1グループのターゲット要素を取得する、1グループのターゲット要素は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表すと、タステップ、及びターゲット対象の少なくとも1つのキー要素に基づいて、ターゲット対象の記述を収集するための情報収集シートを提示し、少なくとも1つのキー要素が、ターゲット対象の1グループの構造化要素と1グループのターゲット要素とから決定される。
【0012】
本開示の第10の態様では、電子デバイスを提供する。電子デバイスは、少なくとも1つの処理回路を含む。少なくとも1つの処理回路は、ターゲット対象の1グループのターゲット要素を取得するように構成され、1グループのターゲット要素は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素は、ターゲット対象の一態様を表す、及びターゲット対象の少なくとも1つのキー要素に基づいて、ターゲット対象の説明を収集するための情報収集シートが提示され、少なくとも1つのキー要素は、ターゲット対象の1グループの構造化要素および1グループのターゲット要素から決定される。
【0013】
本開示の第11の態様では、電子デバイスを提供する。デバイスは、少なくとも1つの処理ユニットを含む、そして、少なくとも1つの処理ユニットに結合され、少なくとも1つの処理ユニットによる実行のための命令を格納する少なくとも1つのメモリーを含む。命令は、少なくとも1つの処理ユニットによって実行されるときに、第7の態様の方法をデバイスに実行させる。
【0014】
本開示の第12の態様では、コンピューター読み取り可能メモリーを提供する。コンピューター読み取り可能メモリーは、第9の態様の方法を実行するためにプロセッサによって実行可能なコンピュータープログラムを記憶する。
【0015】
本開示の内容に記載されたものは、本開示の実施形態の重要な特徴または重要な特徴を限定することを意図しているものではなく、本開示の範囲を限定するためにも使用されていないことが理解されるべきである。本開示の他の特徴は、以下の説明によって容易に理解される。
【図面の簡単な説明】
【0016】
添付図に関連し、以下の詳細な説明を参照すると、本開示の実施形態の上記特徴および他の特徴、利点、態様は、より明らかになる。図面において、同一又は類似の符号は、同一又は類似の要素を表す:
【
図1】本開示の実施形態が実施される例示的環境の概略図である、
【
図2】本開示のいくつかの実施形態に従った情報収集シートの一例の概略図である、
【
図3】本開示のいくつかの実施形態に従ったターゲット要素を決定するプロセスのフローチャートである、
【
図4】本開示のいくつかの実施形態によるキーワードグループ化の概略図である、
【
図5】本開示のいくつかの実施形態によるターゲット要素に関連する情報の概略図である、
【
図6A】本開示のいくつかの実施形態によるターゲット要素の測定の一例を示す図である、
【
図6B】本開示のいくつかの実施形態によるターゲット要素の測定の別の例を示す図である、
【
図7】本開示のいくつかの実施形態によるキー要素を決定するプロセスのフローチャートである、
【
図8A】本開示のいくつかの実施形態に従って、ターゲット要素および構造化要素からそれぞれキー要素を選択する概略図である、
【
図8B】本開示のいくつかの実施形態に従って、ターゲット要素と構造化要素の両方からキー要素を集中的に選択する概略図である、
【
図9】本開示のいくつかの実施形態による、携帯電話情報リストを提示するプロセスのフローチャートを示す図である;
【
図10】本開示のいくつかの実施形態に従った情報収集シートの更新バージョンの概略図である、
【
図11】本開示のいくつかの実施形態によるターゲット要素に関するヒントの概略図である、
【
図12A】本開示のいくつかの実施形態による傾向スコアのための機械学習モデルの概略図である、
【
図12B】本開示のいくつかの実施形態による、条件付き結果期待のための機械学習モデルの概略図である、および
【
図13】本開示の複数の実施形態を実施するデバイスのブロック図である。
【発明を実施するための形態】
【0017】
以下、添付図面を参照して、本開示の実施形態についてより詳しく説明する。本開示のいくつかの実施形態が添付図に示されているが、本開示は様々な形態で実施されることができ、本文に記載された実施形態に限定されるものとして解釈されるべきではなく、むしろ、本開示をより完全かつ完全に理解するためにこれらの実施形態を提供することが理解されるべきである。本開示の図面および実施形態は、例示的な動作のためにのみ使用され、本開示の保護の範囲を制限するために使用されるものではないことが理解されるべきである。
【0018】
本開示の実施形態の説明では、用語「含む」およびそれに類する用語は、オープン含む(開放性包含)、すなわち「含むが、限定されない」と理解されるべきである。用語「ベース」は、「少なくとも部分的にベース」と理解されるべきである。用語「1つの実施形態」または「本実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「いくつかの実施形態」は、「少なくともいくつかの実施形態」と理解されるべきである。以下に、他の明示的な定義と暗黙的な定義を含めることもできる。
【0019】
本文で使用される用語「回路」は、ハードウェア回路、および/またはハードウェア回路とソフトウェアとの組み合わせを意味する。例えば、回路は、アナログおよび/またはデジタルハードウェア回路とソフトウェア/ファームウェアとの組み合わせであってもよい。別の例として、回路は、(複数の)デジタル信号プロセッサと、ソフトウェアと、デバイスが様々な機能を実行するために動作することを可能にするために一緒に動作する(複数の)メモリーとを含むソフトウェアを有するハードウェアプロセッサの任意の部分とする。さらに別の例では、回路は、動作のためにソフトウェア/ファームウェアを必要とするが、動作のために必要でない場合には、ソフトウェアが存在しなくてもよいマイクロプロセッサまたはその一部のようなハードウェア回路および/またはプロセッサであってもよい。本文で使用される、「回路」という用語は、ハードウェア回路またはプロセッサのみ、またはハードウェア回路またはプロセッサの一部、ならびにそれら(またはそれら)に付随するソフトウェアおよび/またはファームウェアの実装をも含む。
【0020】
本文で使用される、「モデル」という用語は、訓練データから対応する入力と出力との間の関連付けを学習することができ、訓練の完了後に所与の入力に対して対応する出力を生成する。モデルの生成は、機械学習技術に基づく。ディープラーニングは、入力を処理し、対応する出力を提供するために複数層の処理ユニットを使用する機械学習アルゴリズムである。本文では、「モデル」を「機械学習モデル」、「機械学習ネットワーク」、または「ネットワーク」と呼ぶこともでき、これらの用語は本文で交換可能に使用される。モデルはさらに、異なるタイプの処理ユニットまたはネットワークを含む。
【0021】
前述のように、対象に関する非構造化テキストには、その対象に関する豊富な情報が含まれる。こうした情報を読み解き、利用することが期待される。従来のシナリオでは、対象は、手動で指定されたセンテンスやテキストから抽出されたセンテンスを使用して記述される。このような従来方式では、その対象に対する要素を抽出することはできず、それらの要素の注目度(degree of concern)を定量化することもできない。したがって、従来のスキームでは、非構造化テキストの解釈には限界があり、さらなる利用のための情報も提供されていない。
【0022】
本開示の実施形態は、情報処理のための態様を提案する。本開示の一態様では、ターゲット対象に関するテキストセットからキーワードが抽出され、抽出されたキーワードのグループ化に基づいて、ターゲット対象に対する1グループのターゲット要素を決定する。各ターゲット要素は、ターゲット対象の一態様を表す。非構造化テキストからターゲット要素を抽出することにより、ターゲット対象に影響を与える新たな要素を発見する。
【0023】
本開示の別の態様では、ターゲット対象の少なくとも1つのキー要素は、1グループのターゲット要素と、ターゲット対象のための1グループの構造化要素とから決定される。少なくとも1つのターゲット要素は、構造化要素とは異なる。既に存在する構造化要素と新たに抽出されたターゲット要素の両方を考慮することにより、キー要素をより正確に決定する。これは、ターゲット対象の主要な側面を認識するのに役立ち、ターゲット対象の最適化を容易にする。
【0024】
本開示の更なる別の態様では、決定された少なくとも1つのキー要素に基づいて、ターゲット対象の記述を収集するための情報収集シートが提示される。このようにして、情報収集シートの設計を最適化することにより、ターゲット対象に関する評価情報をより効率的に収集する。
【0025】
サンプル環境
図1は、本開示の実施形態が実施される例示的な環境100の概略図である。環境100において、第1コンピューティングデバイス110は、ターゲット対象に関するテキストセット105を受信するか、または、第1コンピューティングデバイス110は、オリジナルデータからテキストセット105を抽出する。テキストセット105は、総称して、または個別にテキスト101とも呼ばれる複数のテキスト101-1、101-2、・・・を含む。ターゲット対象には、有形対象、無形対象、およびそれらの組み合わせを含む。例えば、ターゲット対象は、生活用品、食品などの製品であってもよい。別の例として、ターゲット対象は、クラウドコンピューティングサービス、クラウドストレージサービスなどのサービスであってもよい。別の例として、対象となるのは、航空便、レストラン、ホテルなど、サービスや物品を提供する実体であってもよい。
【0026】
テキスト101は、ターゲット対象のユーザーによるターゲット対象の説明であってもよい。テキスト101は、リンゴがおいしい、リンゴがおいしくないなどの感情的なセンテンスを含む。テキスト101は、例えば私はリンゴを食べましたなどの感情を持たないセンテンスを含む。テキスト101は、ターゲット対象に対する評価(evaluation)、コメント(comments)、レビュー(reviews)、評価(assessment)、アドバイス、感想等であってもよい。テキスト101は、ターゲット対象に影響を与える要素に関する情報を含む。テキストセット105内の個々のテキスト101は、異なるユーザーによって提供されるか、または異なる時間に同じユーザーによって提供される。
【0027】
いくつかの実施形態では、テキスト101は、ターゲット対象の表示ページにおけるユーザーの評価であってもよい。展示ページは例えば、ショッピングアプリ(アプリ)、サービス提供アプリ、口コミアプリなどから生まれ得る。
【0028】
いくつかの実施形態では、
図1に示すように、テキスト101は、ターゲット対象のための情報収集シート150から生成されてもよい。なお、本文で用いられるように、「情報収集シート」は、ターゲット対象に関する記述(例えば、評価、感想等)を収集するためのものであり、例えば、電子アンケート、コメント等であってもよい。情報収集シート150は、ターゲット対象に関するオープン質問を含む。テキスト101は、オープン質問に対するユーザーの回答であってもよい。
【0029】
図2は、情報収集シート150の一例を示している。この例では、あるフライトのための情報収集シート150は、オープン質問230を含む。利用者はテキストボックスを通じて、そのフライトの評価などを提供できる。情報収集シート150の回答セット250は表形式で示されている。回答セット250の各行は、同じユーザーからの回答レコードを表す。各回答レコードにおいて、列258はオープン質問230への回答である。テキスト101は、列258内のテキストであってもよい。
【0030】
図1を引き続き参照する。第1コンピューティングデバイス110は、テキストセット105に基づいて、1グループのターゲット要素102とも総称される、または単にターゲット要素102と呼ばれる、ターゲット対象のターゲット要素102-1、102-2、…を決定する。このようなターゲット要素102は、非構造化テキストから決定されるので、「抽出された要素」または「非構造化要素」とも呼ばれる。
【0031】
1グループのターゲット要素102が第2コンピューティングデバイス120に提供される。第2コンピューティングデバイス120はまた、1グループの構造化要素103としても総称されるか、別途、構造化要素103と呼ばれる、ターゲット対象の構造化要素103-1、103-2、…を受信または決定する。本文で使用される、「構造化要素」という用語は、測定基準(criterion)が所定の選択肢(例えば、所定の数値、カテゴリ、星など)を有する要素を意味する。構造化要素については、ユーザーが予め定められた選択肢の中から1つの選択肢を選択することにより、その構造化要素の観点からターゲット対象を評価または記述する。構造化要素は定量的かつ高度に組織化される。構造化された要素の記述(例えば、評価、アセスメント)はオープンではなく、所定のオプションを持つアーキテクチャに準拠する必要がある。
【0032】
構造化要素には、数値要素またはカテゴリ要素を含める。数値要素の所定の選択肢には、所定の数値や星などが含まれる。カテゴリ要素の所定のオプションは、例えば、キャビンのクラス等の所定のクラスを含む。本文では、ターゲット要素と構造化要素を総称して、あるいは単独で「要素」と呼ぶ。
【0033】
いくつかの実施形態では、1グループの構造化要素103は、
図1に示すように情報収集シート150から得られることがある。情報収集シート150は、構造化要素103に関するクローズド質問を含む。「クローズド質問」とは、答えがあらかじめ決められた選択肢の中から選択される問題である。
図2の例では、情報収集シート150は、構造化要素「seat comfort(座席の快適性)」に関するクローズド質問210-1と、構造化要素「cabin service(キャビンサービス)」に関するクローズド質問210-2と、構造化要素「food and beverage(飲食物)」に関するクローズド質問210-3と、構造化要素「entertainment(娯楽)」に関するクローズド質問210-4と、構造化要素「ground service(地上サービス)」に関するクローズド質問210-5と、構造化要素「value for money(物的価値)」に関するクローズド質問210-6を含む。クローズド質問210-1~210-6は、クローズド質問210とも総称されるか、単独で呼ばれる。各クローズド質問210は、ユーザーが選択するための5つのスコアを有する。回答セット250において、列252~257は、それぞれ、クローズド質問210-1~210-6に対するユーザーの回答である。
【0034】
図1を引き続き参照する。第2コンピューティングデバイス120は、1グループのターゲット要素102及び1グループの構造化要素103から、1グループのターゲット対象の少なくとも1つのキー要素104-1、104-2、・・を決定し、キー要素104は、総称して又は個別にキー要素104とも呼ばれる。テキストで使用されているように、「キー要素」という用語は、ターゲット対象に影響を与える要素を意味する。ターゲット対象への影響は、ターゲット対象の性能、サービス、機能、全体的な評価または満足度への影響を含む。特に、キー要素は、多くの要素のうち、ターゲット対象への影響度が高い要素であってもよい。影響度は、ターゲット対象に対する要素の重要度を反映する。
【0035】
図2の例では、情報収集シート150は、ターゲット対象の全体的な評価に関するクローズド質問220を含む。回答セット250において、列251は、クローズド質問220に対するユーザーの回答である。
【0036】
図1を引き続き参照する。決定されたキー要素104は、第3コンピューティングデバイス130に提供される。第3コンピューティングデバイス130は、キー要素104に基づいてターゲット対象のための情報収集シート160を提示する。いくつかの実施形態では、情報収集シート160は、キー要素104に基づいて生成されてもよい。いくつかの実施形態では、情報収集シート160は、情報収集シート150の更新バージョンであってもよい。
【0037】
環境100において、第1コンピューティングデバイス110、第2コンピューティングデバイス120、および第3コンピューティングデバイス130は、端末デバイスまたはサービスエンドデバイスを含む任意のタイプコンピューティングデバイスであってもよい。端末デバイスは、モバイルハンドセット、デスクトップコンピューター、ラップトップコンピューター、ラップトップコンピューター、ネットブックコンピューター、タブレットコンピューター、メディアコンピューター、マルチメディアタブレット、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受像機、ラジオ放送受信機、電子書籍デバイス、ゲームデバイス、またはこれらのデバイスの部品および周辺機器など上記の任意の組み合わせを含む、任意のタイプのモバイル端末、固定端末または携帯端末とする。サービス側デバイスは、例えば、メインフレーム、エッジコンピューティングノード、クラウド環境内のコンピューティングデバイスなどのコンピューティングシステム/サーバーを含む。
【0038】
環境100の構造および機能は、例示的な目的のためにのみ記述され、本開示の範囲に対するいかなる制限も暗示しないことが理解されるべきである。
図1には、第1コンピューティングデバイス110、第2コンピューティングデバイス120、および第3コンピューティングデバイス130が別々に示されているが、いくつかの実施形態では、第1コンピューティングデバイス110、第2コンピューティングデバイス120、および第3コンピューティングデバイス130の両方またはすべてが、同じデバイスであってもよいし、同じコンピューティングシステムに属していてもよい。
【0039】
さらに、
図2に示す情報収集シートは、本開示の範囲を制限することを意図しない例示的なものにすぎない。
図2に示されているオープン質問、クローズド質問、およびその数は例示的なものにすぎない。本開示の実施形態では、情報収集シートは、任意の適切な数のオープン質問及びクローズド質問を有する。さらに、例として英語が挙げられるが、本開示の実施形態は、任意の言語のテキストおよび情報収集シートを処理するために使用されてもよい。
【0040】
ターゲット要素の抽出
図3は、本開示のいくつかの実施形態による、ターゲット要素を決定するためのプロセス300のフローチャートである。プロセス300は、第1コンピューティングデバイス110において実施する。説明を容易にするために、プロセス300は、
図1を参照して説明する。
【0041】
ブロック310において、第1コンピューティングデバイス110は、ターゲット対象のための非構造化テキストセット105から複数のキーワードを抽出する。抽出されたキーワードは、任意の適切な数の単語分割を有する。キーワードは、「flight」、「seat」、「service」などの1つの単語キーワードと、「cabin crew」、「flight attendant」などの2つの単語キーワードを含む。任意の適切なキーワード抽出アルゴリズム、例えば、TF-IDF、KP-Miner、SBKE、RAKE、TextRank、YAKE、KeyBERT等を使用するが、これらに限定されない。
【0042】
いくつかの実施形態では、キーワード抽出アルゴリズムを適用する前に、テキストセット105内のテキスト101を前処理することができ、例えば、固有表現および停止語を除去する(stop words)。固有表現は、例えば、人名、機関名、地名等であり、ターゲット対象のいずれの態様も記述しない。英文の場合、ストップワードは、例えば、「a」、「an」、「the」、「and」などである。中国語テキストの場合、ストップワードは、例えば、「一」、「一つ」、「と」、「但し」などである。あるいは、いくつかの実施形態では、テキスト101は、キーワード抽出アルゴリズムによって前処理されてもよい。
【0043】
いくつかの実施形態では、キーワード抽出アルゴリズムを用いて、テキストセット105からキーワードとして名詞を抽出する。これにより、ターゲット対象のアスペクトの他の属性を記述できない単語が抽出されることを回避する。これにより、後続処理の難易度を効果的に低減する。
【0044】
いくつかの実施形態では、第1コンピューティングデバイス110は、テキストセット105における各単語の出現回数(すなわち、単語の頻度)に基づいてキーワードを抽出する。具体的には、第1コンピューティングデバイス110は、テキストセット105のテキスト101から候補語を抽出する。テキストセット105における候補語の出現回数が閾値回数より大きい場合には、その候補語をキーワードの1つと判定する。テキストセット105における候補語の出現回数が閾値回数未満であれば、候補語を削除する。
【0045】
例えば、キーワード抽出アルゴリズムを使用して、各回答レコードの列258から候補語を抽出する。抽出された候補語毎に、テキストセット105全体における候補語の出現回数を算出する。そして、出現回数が閾値回数より大きい候補語をキーワードと判定し、出現回数が閾値回数より小さい候補語を削除する。このような実施形態では、予め抽出された候補語をフィルタリングすることにより、重要でないワードがターゲット要素の決定に干渉することを回避する。
【0046】
あるいは、いくつかの実施形態では、第1コンピューティングデバイス110は、テキストセット105内のテキスト101の意味に基づいてキーワードを抽出する。例えば、意味解析により感情を有するセンテンスを決定し、そのようなセンテンス中の感情に関連する名詞をキーワードとする。
【0047】
ブロック320において、第1コンピューティングデバイス110は、複数のキーワードのうちの少なくとも一部を、複数のキーワードの意味に基づいてグループ化する。いくつかの実施形態では、すべてのキーワードをグループ化する。いくつかの実施形態では、キーワードは、予備的なグループ化の結果に基づいてフィルタリングされ、フィルタリングされたキーワードはグループ化されてもよい。
【0048】
第1コンピューティングデバイス110は、クラスタを利用して、抽出された複数のキーワードをグループ化する。そのため、キーワードごとに意味を表すワードベクトルを生成する。ワードベクトルは、word2vector、GloVeなど、任意の適切な方法を使用して生成する。本開示の実施形態は、この点において限定されない。
【0049】
複数のキーワードは、ワードベクトルに基づいてクラスタリングされて、複数のクラスタを決定することができ、各クラスタは少なくとも1つのキーワードを含む。クラスタリングアルゴリズムは、キーワードの意味的類似性に基づいて、これらのキーワードを独立した重ならないクラスタに分割する。任意の適切なクラスタリングアルゴリズム、例えば、K平均値(K-Means)、密度に基づいてノイズにロバストな空間クラスタリングアルゴリズム(Density-Based Spatial Clustering of Applications with Noise、DBSCAN)、ガウス混合モデルなどを採用する。
【0050】
いくつかの実施形態では、キーワードは、各クラスタの品質に基づいてフィルタリングされてもよい。クラスタの質は、そのクラスタ内のキーワードが意味的にどの程度集まっているかを表す。例えば、クラスタ内のキーワードの二乗距離の和をクラスタの品質として用いる。代替的にまたは追加的に、輪郭係数(Silhouette coefficient)をクラスタの品質として使用することもできる。
【0051】
クラスタリングによって得られた各クラスタの品質を決定する。いくつかの実施形態では、品質が閾値品質よりも低いクラスタ内のキーワードを除去して、残りのキーワードを決定する。残りのキーワードは、残りのキーワードの意味に基づいてグループ化される。例えば、残りのキーワードをクラスタリングする。得られた同一クラスタ内のキーワードを1グループのキーワードと見なす。あるいは、いくつかの実施形態では、閾値品質よりも低い品質を有するクラスタを除去し、閾値品質よりも高い品質を有する他のクラスタを保持する。予約されたクラスタでは、同じクラスタ内のキーワードは1グループのキーワードとして扱われる。このような実施形態では、残りのキーワードを再グループ化する必要はない。
【0052】
図4は、キーワードグループ化の一例を示す図である。グループ化された結果は、回答セット250内の列258内のテキストを処理することによって得られる。
図4において、キーワードグループ410、キーワードグループ420、キーワードグループ430、キーワードグループ440、キーワードグループ450、キーワードグループ460、およびキーワードグループ470は、クラスタリングによって決定される。各キーワードグループは、1つ以上のキーワードを含む。
引き続き
図3を参照する。ブロック330において、第1コンピューティングデバイス110は、グループ化の結果に基づいて、1グループのキーワードに対応するターゲット要素102を決定する。ターゲット要素102は、ターゲット対象の一態様を表す。同じ1グループのキーワードは類似した意味を持つので、ターゲット対象の同じアスペクトを表す。このことから、1グループのキーワードは、1つのターゲット要素102に対応する。
【0053】
1グループのキーワードに対応するターゲット要素102の名前または識別は、1グループのキーワードに基づいて決定される。一例として、1グループのキーワードのいずれかを用いて、対応するターゲット要素を表す。別の例として、1グループのキーワードからなるクラスタの中心を決定し、その中心に最も近い意味的特徴を有するキーワードで対応するターゲット要素を表す。さらなる例として、ターゲット要素は、1グループのキーワードによって説明されるターゲット対象の態様(例えば、サービスまたはパフォーマンス)によって表される。
【0054】
図4の例では、キーワードグループ410に対応するターゲット要素は「tv service(テレビサービス)」である。キーワードグループ420に対応するターゲット要素は「boarding procedure(搭乗手続き)」である。キーワードグループ430に対応するターゲット要素は「luggage service(ラゲッジサービス)」である。キーワードグループ440に対応するターゲット要素は、「ムービーサービス(movie service)」である。キーワードグループ450に対応するターゲット要素は「price(料金)」である。キーワードグループ460に対応するターゲット要素は「time(時間)」である。キーワードグループ470に対応するターゲット要素は「legroom(レッグルーム)」である。
【0055】
いくつかの実施形態では、構造化要素と同一または類似した1つまたは複数の1グループのキーワードを除去する。この場合、第1コンピューティングデバイス110は、除去されていないキーワードのグループに対応するターゲット要素を決定する。例えば、1グループのキーワードごとに、第1コンピューティングデバイス110は、1グループのキーワードがターゲット対象の構造化要素と意味的に類似しているか否かを判定する。1グループのキーワードが意味的に構造化要素のいずれとも類似していない場合、1グループのキーワードに基づいてターゲット要素を決定する。1グループのキーワードが意味的に構造化要素と類似している場合、1グループのキーワードを削除する。
【0056】
一例として、列258内のテキストを処理することにより、キーワード「food(食べ物)」、「meal(食事)」、「drink(飲み物)」、「snack(スナック)」のセットを得る。このキーワードグループは、
図2の構造化要素「food and beverage」と意味的に類似している。したがって、1グループのキーワードは、それに対応するターゲット要素を決定することなく除去される。
【0057】
上記のプロセス300により、オープンテキストコメントまたはコメントから、対象となるターゲット要素が抽出される。このようにして、非構造化テキストに含まれる情報を解析することは、ターゲット対象に影響を与える新たな要素を発見する。
【0058】
プロセス300は、さらに、追加のブロックを含む。いくつかの実施形態では、第1コンピューティングデバイス110は、テキストセット105に基づいて、ターゲット要素102に対応する少なくとも1つのターゲットセンテンスを決定する。ターゲットセンテンスは、ターゲット要素に関する視点を反映する。例えば、対象センテンスは、ターゲット要素に関連するわかりやすいセンテンスであってもよい。ターゲットセンテンスは、ターゲット要素を解釈するために使用できる。
【0059】
各ターゲットセンテンスは、明確な感情を持って、ターゲット要素を含む(例えば、説明または議論する)必要がある。対象センテンスは、ターゲット要素に関するポジティブな視点を反映するセンテンスであってもよい。代替的に又は追加的に、ターゲットセンテンスは、ターゲット要素に関する否定的な見解を反映するセンテンスであってもよい。加えて、各ターゲットセンテンスは、有効で理解可能なセンテンスでなければならない。いくつかの実施形態では、ターゲットセンテンスはターゲット要素のみを含み、ターゲット対象の他の要素は含まない。このような実施形態では、ターゲットセンテンスは、混乱を避けるために、単一の要素を明確に解釈する。
【0060】
第1コンピューティングデバイス110は、任意の適切な方法でターゲットセンテンスを決定する。例えば、ターゲット要素に関連する1つ以上のセンテンスを生成する。生成されたセンテンスと意味的に一致するセンテンスがテキストセット105内に存在するか否か、及び一致するセンテンスの数を判定する。一致するセンテンスの数が閾値数を超える場合は、生成されたセンテンスをターゲットセンテンスとして使用できる。
【0061】
いくつかの実施形態では、第1コンピューティングデバイス110は、ターゲット要素に対応するキーワードを利用して、ターゲットセンテンスを決定する。具体的には、第1コンピューティングデバイス110は、テキストセット105から少なくとも1つの候補センテンスを抽出する。抽出された各候補センテンスは、ターゲット要素に対応する1グループのキーワードのうちの少なくとも1つのキーワードを含む。例えば、ターゲット要素「leg room」について抽出された候補センテンスは、キーワードグループ470内の少なくとも1つのキーワードを含む。
【0062】
第1コンピューティングデバイス110は、さらに、抽出された少なくとも1つの候補センテンスに基づいて、ターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定する。例えば、抽出された候補センテンスをそのままターゲットセンテンスとする。他の例として、同一の感情を有する候補センテンスを融合して一つのターゲットセンテンスとしたり、同一の感情を有する候補センテンスに基づいて一つのターゲットセンテンスを生成したりする。
【0063】
ターゲットセンテンスは、テキストセット105内のテキストによって反映されるターゲット要素に関する見解に応じて、ターゲット要素に関するポジティブな見解を反映したもの、ターゲット要素に関するネガティブな見解を反映したもの、またはその両方を含む。すなわち、ターゲットセンテンスは、肯定的な感情を有するセンテンス、否定的な感情を有するセンテンス、またはその両方を含む。
【0064】
図5のテーブル500は、ターゲット要素「leg room」に関する情報を示す。ターゲットセンテンス501は、ターゲット要素「leg room」について肯定的な感情を有し、ターゲットセンテンス502は、ターゲット要素「leg room」について否定的な感情を有する。ターゲット要素を個別に提示することで伝わる情報は限られていたり、わかりにくかったりする。ターゲットセンテンスを使用して、ターゲット要素を解釈できる。ターゲットセンテンスをターゲット要素と共に提示することにより、ターゲット対象の関係者にターゲット要素をより直感的に理解させる。
【0065】
いくつかの実施形態では、第1コンピューティングデバイス110は、テキストセット105内のターゲットセンテンスに類似した意味を有するセンテンスの数を決定することもできる。この数は、ターゲットセンテンスの頻度として使用できる。例えば、
図5には、ターゲットセンテンス501の頻度が500であり、ターゲットセンテンス502の頻度が800であることが示されている。これは、ターゲット要素である「leg room」について、ポジティブな見方よりもネガティブな見方の方が多いことを意味する。ターゲットセンテンスの頻度を決定して提示することにより、ターゲット対象のターゲット要素の優劣を直感的に把握する。
【0066】
ターゲット要素の定量化
いくつかの実施形態では、ターゲット要素をさらに定量化する。本文で使用される、ある要素を定量化することは、その要素の注目度、重要度、または作用力の程度を表す、その要素の測定を決定することを意味する。ターゲット要素102に対する測定は、ターゲット要素102に対応する1グループのキーワードおよびテキストセット105内のテキスト101に基づいて決定する。
【0067】
このような測定は、ターゲット要素102に対応する1グループのキーワードがテキスト101内で出現する回数として表現する。ターゲット要素102の測定は、テキスト101ごとに決定される。この場合、各テキスト101におけるキーワードの出現回数を測定として決定する。テキスト101が情報収集シート150から生成される実施形態では、キーワードの出現回数は、情報収集シート150の回答レコードごとに決定されてもよい。いくつかの実施形態では、テキストの感情を分析し、感情を有するテキストに基づいてキーワードの出現数を決定することもできる。このような実施形態について、
図7を参照して以下に説明する。
【0068】
例えば、キーワードグループ470に対応するターゲット要素「leg room」の測定を決定するために、各テキスト101におけるキーワード「leg」、「leg room」、および「leg space」の出現回数を決定する。
図6Aは、ターゲット要素「leg room」の測定の一例を示す図である。列610の各数値は、列258の対応するテキストにおけるキーワード「leg」、「leg room」、「leg space」の出現回数を表す。
【0069】
あるいは、ターゲット要素102に対する測定を、ターゲット要素102に対応するキーワードを含むテキスト101中のセンテンスの感情レベルとして表現する。感情レベルは、例えば5つのレベルに分けられ、それぞれ1~5の数値で表される。ターゲット要素102の測定は、テキスト101ごとに決定される。この場合、各テキスト101中のキーワードを含むセンテンスの感情レベルを決定する。テキスト101が情報収集シート150から生成される実施形態では、センテンスの感情レベルは、回答レコードごとに決定される。
【0070】
なお、ターゲット要素「leg room」を例にとると、その測定を決定するために、各テキスト101内のキーワード「leg」、「leg room」、および「leg space」のうちの少なくとも1つを含むセンテンスの感情レベルを決定する。
図6Bは、ターゲット要素「leg room」の測定の一例を示す図である。列620の各数値は、列258の対応するテキスト内のキーワード「leg」、「leg room」、および「leg space」のうちの少なくとも1つを含むセンテンスの感情レベルを表す。数値「0」は、対応するテキストにキーワード「leg」、「leg room」、「leg space」が含まれていないこと、またはキーワード「leg」、「leg room」、「leg space」が含まれているセンテンスが情緒的でない中立的なセンテンスであることを示す。さらに、構造化要素の測定と一致するように、予備的に量化された値を変換する。例えば、数値「0」は、中立的な感情を表すスコア3に変換する。以上は、ターゲット要素の量化の一例に過ぎず、本開示の実施形態では、ターゲット要素を任意の適切な方法および回数で量化することを理解されたい。
【0071】
図6Aおよび6Bに示されるターゲット要素の測定の値は、本開示の範囲を制限することを意図しない例示的なものにすぎない。上述したターゲット要素の量化は、第1コンピューティングデバイス110または第2コンピューティングデバイス120のいずれかまたは両方によって達成される。ターゲット要素は、以下に説明する方法を使用して定量化することもできる。
【0072】
キー要素の特定
図7は、本開示のいくつかの実施形態による、キー要素を決定するためのプロセス700のフローチャートである。プロセス700は、第2コンピューティングデバイス120において実施する。説明を容易にするために、プロセス700は、
図1および
図7を参照して説明する。
【0073】
ブロック710において、第2コンピューティングデバイス120は、ターゲット対象の1グループのターゲット要素102を取得する。ターゲット要素102は、ターゲット対象に関する非構造化テキストセット105に基づいて決定され、各ターゲット要素102は、ターゲット対象の一態様を表す。
【0074】
いくつかの実施形態では、第2コンピューティングデバイス120は、
図1に示すように、第1コンピューティングデバイス110からターゲット要素102の指示を受信する。あるいは、いくつかの実施形態では、第2コンピューティングデバイス120は、
図3を参照して上述したように、テキストセット105に基づいてターゲット要素102を決定してもよい。
【0075】
第2コンピューティングデバイス120はまた、ターゲット対象の1グループの構造化要素103を受信または決定する。構造化要素103は、例えば、
図1を参照して説明したように、情報収集シート150に由来する。1グループのターゲット要素102のうちの少なくとも1つのターゲット要素は、1グループの構造化要素103とは異なる。いくつかの実施形態では、すべてのターゲット要素102は構造化要素103と異なる。
【0076】
ブロック720で、第2コンピューティングデバイス120は、1グループのターゲット要素102およびターゲット対象の1グループの構造化要素103に基づいて、ターゲット対象に対する少なくとも1つのキー要素104を決定する。いくつかの実施形態では、第2コンピューティングデバイス120は、各要素に対応するキーワードのテキストセット105内での出現数を決定する。ターゲット要素102と構造化要素103とを出現回数に応じて順位付けし、上位の一定数をキー要素として決定する。
【0077】
いくつかの実施形態では、キー要素を決定するために、第2コンピューティングデバイス120は、ターゲット要素および構造化要素を定量化する。具体的には、第2コンピューティングデバイス120は、テキストセット105内のテキスト101の感情を分析することによって、1グループのターゲット要素102のそれぞれに関する第1の測定を決定する。第1の測定は、対応するターゲット要素の注目度を表す。第2コンピューティングデバイス120は、1グループの構造化要素103のそれぞれについて、対応する構造化要素の注目度を表す第2の測定を決定することもできる。キー要素を特定するためには、様々な種類の要素の測定が一貫して行われるべきである。したがって、第1の測定と第2の測定とは、メトリクススケールに関して整合される。
【0078】
いくつかの実施形態では、第1の測定は、キーワードの出現数として表されてもよい。テキストセット105のテキスト101から、1グループのターゲット要素の各ターゲット要素について、そのターゲット要素に対応するキーワードを含み、感情を有するセンテンスを決定する。ターゲット要素の第1の測定は、ターゲット要素に対応するキーワードのセンテンス内での出現回数に基づいて決定される。
【0079】
一例として、ターゲット要素「leg room」について、キーワード「leg」、「leg room」、「leg space」を含み、感情を有するセンテンスをテキスト101毎に決定する。キーワード「leg」、「leg room」、「leg space」が、これらのセンテンスの中で出現する回数を第1の測定として決定する。例えば、
図6Aの列610は、ターゲット要素「leg room」の第1の測定を示す。
【0080】
このような実施形態では、構造化要素の第2の測定を第1の測定と一致させるために、列252~258のスコア(rating)を第2の測定として直接使用することは適切ではない。そのため、構造化要素を再定量化する必要がある。具体的には、構造化要素の1組の各々構造化要素について、第2コンピューティングデバイス120は、その構造化要素に対応するキーワードを含み、感情を有するセンテンスをテキスト101から決定する。構造化要素の第2の測定は、構造化要素に対応するキーワードのセンテンス内での出現回数に基づいて決定する。
【0081】
一例として、構造化要素「food and beverage」について、各テキスト101において、キーワード「food」、「meal」、「drink」、「snack」を含み、感情を有するセンテンスを決定する。これらのセンテンスにおけるキーワード「food」、「meal」、「drink」、「snack」の出現回数を第2の測定として決定する。例えば、
図6Aの列630は、構造化要素「food and beverage」の第2の測定を示している。
【0082】
あるいは、いくつかの実施形態では、第1の測定は、キーワードを含むセンテンスの感情レベルとして表されてもよい。1グループのターゲット要素の各ターゲット要素について、そのターゲット要素に対応するキーワードを含み、感情を有するセンテンスをテキストセット105内のテキスト101から決定する。センテンスの感情レベルに基づいて、ターゲット要素の第1の測定を決定する。センテンスの感情レベルは、任意の適切な方法で決定することができ、本開示の実施形態は、この点において限定されない。
【0083】
一例として、ターゲット要素「leg room」について、キーワード「leg」、「leg room」、「leg space」を含み、感情を有するセンテンスをテキスト101毎に決定する。センテンスの感情レベルは、第1の測定として決定される。例えば、
図6Bの列620は、ターゲット要素「leg room」の第1の測定を示す。
【0084】
このような実施形態では、構造化要素の第2の測定は、1グループの構造化要素103の各構造化要素について、その構造化要素に関するクローズド質問に対する回答に基づいて決定されてもよい。例えば、構造化された要素に対するユーザーのスコアを第2の測定として使用する。
図6Bでは、列252から258列までは、それぞれの構造化要素の第2の測定として使用する。第1の測定および第2の測定は、それぞれの回答レコードに対して決定されることが、
図6Aおよび
図6Bから分かる。
【0085】
以上、第1の測定および第2の測定の決定について説明した。第2コンピューティングデバイス120は、さらに、1グループのターゲット要素102のそれぞれの第1の測定と、1グループの構造化要素103のそれぞれの第2の測定に基づいて、各要素がターゲット対象に与える影響の程度を決定する。影響の程度は、任意の適切なアルゴリズムに基づいて決定する。このようなアルゴリズムは、線形回帰、論理回帰、シャープリー値などを含むが、これらに限定されない。
【0086】
要素強度は、影響度の指標として、ターゲット要素102と、構造化要素103毎に決定する。要素の強さは、ターゲット対象に関連する結果に、対応する要素の重要度を表す。ターゲット対象に関する結果は、例えば、ターゲット対象の性能、ターゲット対象に対する全体的な評価、ターゲット対象に対する満足度などを含む。
図2の例では、ターゲット対象に関する結果は、クローズド質問220に対する回答、すなわち、列251に列挙されたスコアである。
【0087】
そして、ターゲット要素102と構造化要素103の中から、影響度に応じてキー要素を選択する。たとえば、影響度の上位にある複数の要素を選択することができる。本文では、要素がターゲット対象に与える影響度(たとえば、要素の強さ)に応じて要素をランク付けするプロセスを「キー要素ランク付け(key factor ranking,KFR)」とも呼ぶ。
【0088】
いくつかの実施形態では、キー要素は、1グループのターゲット要素102および1グループの構造化要素103からそれぞれ選択されてもよい。具体的には、1グループのターゲット要素102がターゲット対象に与える影響の度合いに応じて、1グループのターゲット要素102の中から第1の数のターゲット要素をキー要素として選択する。1グループの構造化要素103の中から第2の数の構造化要素を、1グループの構造化要素103のそれぞれがターゲット対象に与える影響度に応じてキー要素として選択する。
【0089】
第1の数および第2の数の値は、予め定められていてもよい。あるいは、選択された要素は、影響度が閾値より大きい(例えば、要素強度が閾値強度より大きい)要素であってもよい。この場合、第1の数及び第2の数の値は予め定められていない。本開示の実施は、この点において限定されない。
【0090】
図8Aは、ターゲット要素と構造化要素のそれぞれについて、キー要素の順位付けを行った結果を示している。
図8Aの横座標の要素の強さは、対応する要素がターゲット対象に与える影響の度合いを示す。図のように、要素の強さに応じて、ターゲット要素の中から「price」「movie service」「tv service」をキー要素として選択する。要素の強さに応じて、構造化要素の中から、構造化要素「value for money」、「ground service」、「cabin service」、「seat comfort」、「food and beverage」をキー要素として選択する。
【0091】
いくつかの実施形態では、キー要素は、1グループのターゲット要素102と1グループの構造化要素103との和の集合から選択されてもよい。具体的には、ターゲット対象に対する1グループのターゲット要素102の影響度と、ターゲット対象に対する1グループの構造化要素103の影響度とに応じて、ターゲット対象に対する1グループのターゲット要素102と1グループの構造化要素103の和集合から第3の数の要素をキー要素として選択する。
【0092】
第3の数の値は、予め定められていてもよい。あるいは、選択された要素は、影響度が閾値より大きい(例えば、要素強度が閾値強度より大きい)要素であってもよい。この場合、第3の数の値は予め定められていない。本開示の実施は、この点において限定されない。
【0093】
図8Bは、ターゲット要素と構造化要素を組み合わせたキー要素の順位付けの結果を示している。
図8Bの横座標の要素強度は、対応する要素がターゲット対象に与える影響度を表している。図のように、要素の強さに応じて、要素「value for money」、「ground service」、「cabin service」、「seat comfort」、「food and beverage」、「price」、「movie service」、「tv service」をキー要素として選択する。
【0094】
情報収集シートの提示
図9は、本開示のいくつかの実施形態による、情報収集シートを提示するためのプロセス900のフローチャートを示す。プロセス900は、第3コンピューティングデバイス130において実施する。説明を容易にするために、プロセス900は、
図1および
図9を参照して説明する。
【0095】
ブロック910において、第3コンピューティングデバイス130は、ターゲット対象の1グループのターゲット要素102を取得する。ターゲット要素102は、ターゲット対象に関する非構造化テキストセット105に基づいて決定され、各ターゲット要素102は、ターゲット対象の一態様を表す。
【0096】
いくつかの実施形態では、
図1に示すように、第3コンピューティングデバイス130は、第1コンピューティングデバイス110からターゲット要素102の指示を受信する。あるいは、いくつかの実施形態では、第3コンピューティングデバイス130は、
図3を参照して上述したように、テキストセット105に基づいてターゲット要素102を決定してもよい。
【0097】
ブロック920において、第3コンピューティングデバイス130は、ターゲット対象の少なくとも1つのキー要素104に基づいて、ターゲット対象の記述を収集するための情報収集シートを提示する。少なくとも1つのキー要素104は、ターゲット対象の1グループの構造化要素103と1グループのターゲット要素102とから決定される。いくつかの実施形態では、第3コンピューティングデバイス130は、
図1に示すように、第2コンピューティングデバイス120から少なくとも1つのキー要素104に関する指示を受信する。あるいは、いくつかの実施形態では、第3コンピューティングデバイス130は、
図7を参照して上述したように、1グループの構造化要素103および1グループのターゲット要素102からキー要素を決定する。
【0098】
いくつかの実施形態では、テキストセット105内のテキスト101は、情報収集シート内のオープン質問に対する回答から生成され、情報収集シートは、1グループの構造化要素103に関する対応するクローズド質問を含む。このような実施形態では、第3コンピューティングデバイス130は、少なくとも1つのキー要素に基づいて、情報収集シートの更新バージョンを提示する。この更新バージョンには、クローズド質問が更新さる。このようにして、新しい情報収集シートは、関心のある分野に対するユーザーの評価をより直接的に収集する。
【0099】
一例として、
図2に示す情報収集シート150および対応する回答セット250に基づいて、
図8Bに示すように、キー要素「value for money」、「ground service」、「cabin service」、「seat comfort」、「food and beverage」、「price」、「movie service」および「tv service」が特定される。第3コンピューティングデバイス130は、
図2に示す情報収集シート150の更新バージョンである
図10に示す情報収集シート160を提示する。
図2と
図10を比較すると、クローズド質問210-1~210-6がクローズド質問210-1、210-2、210-3、210-5、210-6、1010に更新されている。
【0100】
いくつかの実施形態では、少なくとも1つのキー要素104がターゲット要素を含む場合、第3コンピューティングデバイス130は、情報収集シートの更新バージョンにターゲット要素に関するクローズド質問を追加する。さらに、第3コンピューティングデバイス130は、クローズド質問を含む情報収集シートの更新バージョンを提示する。
【0101】
上記の例を続けると、キー要素にはターゲット要素「price」が含まれる。したがって、提示された情報収集シート160は、ターゲット要素「price」に関するクローズド質問1010を含む。このようにして、情報収集シートにユーザーが関心を持つ可能性の高い側面を構造化要素として加える。これにより、ターゲット対象に対するユーザーの評価をより包括的かつ容易に収集することができる。
【0102】
いくつかの実施形態では、少なくとも1つのキー要素104が構造化要素を含まない場合、第3コンピューティングデバイス130は、構造化要素に関するクローズド質問を情報収集シートから除去する。さらに、第3コンピューティングデバイス130は、構造化要素に関するクローズド質問が取り除かれた更新バージョンを提示する。
【0103】
上記の例を続けると、キー要素には、情報収集シート150の構造化要素「entertainment」は含まれない。これにより、構造化要素「entertainment」に関するクローズド質問210-4が除去される。提示された情報収集シート160は、情報収集シート150と比較して、クローズド質問210-4を含んでいない。このようにして、ユーザーがあまり関心を持たない可能性のある態様は、情報収集シートから除去される。これにより、重要でない問題がユーザーに干渉することを回避する。
【0104】
あるいは、いくつかの実施形態では、第3コンピューティングデバイス130は、情報収集シートが提示されている間に、キー要素に含まれるターゲット要素に関するヒントを提示してもよい。このヒントは、ユーザーが、体験、評価、満足度などのターゲット要素に関する記述を行うことを促進する。具体的には、第3コンピューティングデバイス130は、情報収集シート160が提示されている間に、情報収集シート160内のオープン質問230に対する回答を検出する。回答が提供されていることが検出された場合、第3コンピューティングデバイス130は、そのようなヒントを提示する。
【0105】
図11は、ターゲット要素に関するヒントの例を示す図である。上記の例を続けると、主要な要素にはターゲット要素「movie service」が含まれる。図に示すように、ユーザーはオープン質問230のテキストボックス1120に「The food is OK, and」(食べ物は悪くない,そして)というテキストを入力している。テキストが入力されていることを検出したことに応答して、第3コンピューティングデバイス130は、ターゲット要素「movie service」に関するヒント1110「How about the movie」(映画はどうですか)を提示する。ヒント1110は、ターゲット要素「movie service」に対する体験または評価をユーザーに与えるように促す。
【0106】
いくつかの実施形態では、第3コンピューティングデバイス130は、対話的に情報収集シート160を決定し、提示する。具体的には、第3コンピューティングデバイス130は、少なくとも1つのキー要素104を提示する。第3コンピューティングデバイス130は、少なくとも1つのキー要素が提示されている間に、少なくとも1つのキー要素の選択を検出する。少なくとも1つのキー要素の選択が検出された場合、第3コンピューティングデバイス130は、選択されたキー要素に関するクローズド質問を情報収集シート160に追加し、さらに、クローズド質問を含む情報収集シート160を提示する。
【0107】
このような実施形態では、第3コンピューティングデバイス130は、ターゲット対象のドメインエキスパート(domain expert)に関連するデバイスであってもよい。決定されたキー要素は、分野の専門家に提示される。分野の専門家は、クローズド質問を追加する必要がある主な要素を特定できる。第3コンピューティングデバイス130は、分野の専門家の選択に応じて、情報収集シート160にクローズド質問を設定する。このようにして、客観的なデータを利用して、より良いアンケートなどのより良い情報収集シートの設計を分野の専門家が支援する。
【0108】
トピックモデルと感情表現
以上、
図3~
図6Bを参照して、ターゲット要素の決定及び定量化について説明した。キーワード支援トピックモデル(topic model)を使用して、テキストセット105からターゲット要素を抽出することもできる。キーワード支援のトピックモデル(以下、トピックモデルと略す)は、「アンカー(anchor)ワード」によって分野知識をトピックモデルに結合する。アンカーワードは、特定のトピックのマーカーとして使用することができ、すなわち、アンカーワードは、トピックモデルがアンカーワードに関連するトピックを検索することを促す。このように、アンカーワードヘルプトピックモデルは、異なるトピックを互いに分離する。トピックモデルは、関心のあるトピックを特定するのに役立つ。対象モデルにはAnchored CorEXが含まれるが、これに限定されない。
【0109】
このことから、トピックモデルを使用して、テキストセット105に暗黙的に含まれるターゲット要素を決定する。テキストセット105から抽出された複数のキーワードは、トピックモデルのアンカーワードとして用いる。この場合、ターゲット要素102として、対象モデルから得られた対象を用いる。トピックモデルにより、個々のキーワードがあるトピックにアンカーされる。したがって、トピックモデルを用いて、ターゲット要素とキーワードとの対応関係を決定する。
【0110】
トピックモデルから得られるターゲット要素は、感情表現を使用して定量化する。感情を分析する任意のテキスト分析方法を使用することができる。例として、言語探索語数(LIWC)辞書を用いる。LIWC辞書は、単語を複数のカテゴリにマップできる。これらのカテゴリは、テキストの語彙的および意味的特徴を捉える。ポジティブ感情に関連するカテゴリを使用することができる。ポジティブ感情を測るLIWCカテゴリはグループ化される。ポジティブ感情に関連するLIWCカテゴリを使用することができる。ポジティブ感情のベクトルはポジティブ感情のカテゴリに属する語の頻度を表す。あるターゲット要素の推定は、二値化されたアンカー対象変数および感情のベクトル表現から構成される。
【0111】
多モードモデル
機械学習モデルを使用して、テキストと所定の選択肢の両方を含む情報(回答セット250のような)を分析することもできる。
図12Aは、傾向スコアのための機械学習モデル1200を示す。モデル1200内の言語モデル1210は、テキスト101の特徴表現を生成するように構成されており、テキスト101の特徴表現は、テキストセット105から決定されたターゲット要素とみなす。
図3を参照して上述したプロセスとは異なり、このようにして決定されたターゲット要素は暗黙的な表現である。
【0112】
多層知覚(MLP)層1220は、構造化要素103の特徴表現を生成するために使用される。構造化要素103が、数値要素(例えば、
図2に示されるように)とカテゴリ要素(例えば、キャビンカテゴリ)との両方を含む場合、MLP層1220は、数値要素とカテゴリ要素とをそれぞれ処理するための2つのMLP層を含む。
【0113】
MLP層1230は、テキスト101の特徴表現と構造化要素103の特徴表現に基づいて特徴h^eを生成する。フィーチャーのペアによるh^eにsoftmax活性化関数を適用すると、傾向スコアを決定できる。
【0114】
モデル1200は、クロスエントロピー損失関数を使用してトレーニングする。言語モデル1210は、変換器からの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers、BERT)モデルなど、任意の適切なタイプの言語特徴付けモデルとする。
【0115】
図12Bは、条件付き結果期待のための機械学習モデル1250を示す。モデル1250内の言語モデル1260は、テキスト101の特徴表現を生成するように構成されており、テキスト101の特徴表現は、テキストセット105から決定されたターゲット要素とみなす。このようにして決定されたターゲット要素は、暗黙的な表現である。
【0116】
MLP層1270は、構造化要素103の特徴表現を生成するために使用される。構造化要素103が、数値要素(例えば、
図2に示すように)及びカテゴリ要素(例えば、キャビンカテゴリ)を含む場合、MLP層1270は、数値要素及びカテゴリ要素をそれぞれ処理するための2つのMLP層を含む。
【0117】
MLP層1280は、テキスト101の特徴表現と構造化要素103の特徴表現に基づいて特徴h^Qを生成する。結果Yが連続していない場合(カテゴリや数値など)、特徴h^Q にsoftmaxアクティブ化関数を適用して、条件付き結果の期待値を決定する。結果Yが連続する場合には、フィーチャーh^Qに対して線形活性化関数を適用して、条件付き結果の期待を決定する。
【0118】
結果Yが不連続である場合、クロスエントロピー損失関数を使用してモデル1250をトレーニングする。結果Yが連続する場合、平均分散(MSE)を用いてモデル1250を訓練する。言語モデル1210と同様に、言語モデル1260は、BERTモデルのような任意の適切なタイプの言語特徴付けモデルであってもよい。
【0119】
傾向スコアおよび条件付き結果の期待のうちの一方または両方に基づいて、キー要素の順序付けを行う。これにより、ターゲット対象のキー要素を決定する。プロセス700は、本文で説明する機械学習モデルを用いて実施することもできる。
【0120】
サンプルデバイス
図13は、本開示の1つまたは複数の実施形態が実施されるコンピューティングデバイス1300を示すブロック図である。
図13に示されたコンピューティングデバイス1300は単なる例示であり、本文に記載された実施形態の機能および範囲のいかなる制限も構成すべきではないことが理解されるべきである。
図13に示すコンピューティングデバイス1300は、
図1の第1コンピューティングデバイス110、第2コンピューティングデバイス120、または第3コンピューティングデバイス130を実装するために使用する。
【0121】
図13に示すように、コンピューティングデバイス1300は、汎用コンピューティングデバイスの形態である。コンピューティングデバイス1300の構成要素は、限定されるわけではないが、1つ以上のプロセッサまたはプロセスユニット1310、メモリー1320、ストレージデバイス1330、1つ以上の通信ユニット1340、1つ以上の入力デバイス1350、および1つ以上の出力デバイス1360を含む。プロセスユニット1310は、実プロセッサまたは仮想プロセッサであってもよく、メモリー1320に格納されたプログラムに従って様々な処理を実行する。マルチプロセッサシステムでは、コンピューティングデバイス1300の並列処理能力を向上させるために、複数の処理ユニットが計算機実行可能命令を並列に実行する。
【0122】
コンピューティングデバイス1300は、一般に、複数のコンピューターメモリーを含む。そのような媒体は、揮発性媒体および不揮発性媒体、取り外し可能媒体および取り外し不可能媒体を含むがこれらに限定されない、コンピューティングデバイス1300がアクセス可能な任意の媒体とする。メモリー1320は、揮発性メモリー(例えば、レジスタ、キャッシュ、ランダムアクセスメモリー(RAM))、不揮発性メモリー(例えば、読出し専用メモリー(ROM)、電気的消去可能プログラマブル読出し専用メモリー(EEPROM)、フラッシュメモリー)、またはこれらの何らかの組み合わせであってもよい。ストレージデバイス1330は、取り外し可能または取り外し不可能な媒体とすることができ、フラッシュドライブ、磁気ディスク、または、情報および/またはデータ(例えば、トレーニングのためのトレーニングデータ)を記憶するために使用することができ、コンピューティングデバイス1300内でアクセスする任意の他の媒体のような機械読み取り可能メモリーを含む。
【0123】
コンピューティングデバイス1300は、さらに、取り外し可能/取り外し不可能な揮発性/不揮発性メモリーを含む。
図13には示されていないが、取り外し可能な不揮発性ディスク(例えば、「フロッピーディスク」)からの読み出しまたは書き込みのためのディスクドライブと、取り外し可能な不揮発性光ディスクからの読み出しまたは書き込みのための光ディスクドライブとを備える。これらの場合、各ドライブは、1つまたは複数のデータ媒体インターフェースによってバス(図示せず)に接続されてもよい。メモリー1320は、本開示の様々な実施形態の様々な方法または動作を実行するように構成された1つまたは複数のプログラムモジュールを有するコンピュータープログラム製品1325を含む。
【0124】
通信ユニット1340は、通信媒体を介した他コンピューティングデバイスとの通信を実現する。さらに、コンピューティングデバイス1300の構成要素の機能は、単一のコンピューティングクラスタまたは通信接続を介して通信する複数のコンピューターマシンで実装する。したがって、コンピューティングデバイス1300は、1つまたは複数の他のサーバー、ネットワークパーソナルコンピューター(PC)、または別のネットワークノードとの論理接続を使用して、ネットワーク環境で動作する。
【0125】
入力デバイス1350は、マウス、キーボード、トラックボールなどの1つまたは複数の入力デバイスとする。出力デバイス1360は、ディスプレイ、スピーカ、プリンタなどの1つまたは複数の出力デバイスとする。コンピューティングデバイス1300はまた、必要に応じて、通信ユニット1340を介して、記憶デバイス、表示デバイスなどの1つ以上の外部デバイス(図示せず)と通信することができ、ユーザーがコンピューティングデバイス1300と対話することを可能にする1つ以上のデバイスと通信することができ、またはコンピューティングデバイス1300が1つ以上の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信する。このような通信は、入力/出力(I/O)インターフェース(図示せず)を介して実行する。
【0126】
本開示の例示的なインプリメンテーションによれば、上述した方法を実施するためにプロセッサによって実行されるコンピューター実行可能命令を格納するコンピューター読み取り可能メモリーを提供する。本開示の例示的なインプリメンテーションによれば、非過渡的なコンピューター読み取り可能メモリー上に有形的に格納され、上述した方法を実施するためにプロセッサによって実行されるコンピューター実行可能命令を含むコンピュータープログラム製品も提供される。
【0127】
本開示のいくつかのインプリメンテーションを以下に示す。
【0128】
第1の態様では、本開示は、情報処理方法を提供する。この方法は、ターゲット対象のための非構造化テキストセットから複数のキーワードを抽出するステップと、前記複数のキーワードのうちの少なくとも一部を、前記複数のキーワードの意味に基づいてグループ化することと、前記複数のキーワードのうちの少なくとも一部をグループ化することと、グループ化の結果に基づいて、ターゲット対象の一態様を表す1グループのキーワードに対応するターゲット要素を決定する。
【0129】
第1の態様のいくつかの実施形態では、方法は、テキストセットに基づいて、ターゲット要素に関する観点を反映する、ターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定することをさらに含む。
【0130】
第1の態様のいくつかの実施形態では、少なくとも1つのターゲットセンテンスを決定することは、1グループのキーワードのうちの少なくとも1つのキーワードを含む少なくとも1つの候補センテンスをテキストセットから抽出することと、1グループのキーワードのうちの少なくとも1つのキーワードを含む少なくとも1つの候補センテンスをテキストセットから抽出することを含む、そして、少なくとも1つの候補センテンスに基づいて、少なくとも1つのターゲットセンテンスを決定する。
【0131】
第1の態様のいくつかの実施形態では、少なくとも1つの対象センテンスは、ターゲット要素に関するポジティブな観点を反映するセンテンスと、ターゲット要素に関するネガティブな観点を反映するセンテンスと少なくとも1つを含む。
【0132】
第1の態様のいくつかの実施形態では、ターゲット要素を決定することは、1グループのキーワードがターゲット対象の構造化要素と意味的に類似しているかどうかを決定すること、そして、1グループのキーワードが意味的に構造化要素と類似していないと判定された場合には、1グループのキーワードに基づいてターゲット要素を判定する。
【0133】
第1の態様のいくつかの実施形態では、方法は、1グループのキーワードおよびテキストセット内のテキストに基づいて、ターゲット要素の注目度を表すターゲット要素の測定を決定することをさらに含む。
【0134】
第1の態様のいくつかの実施形態では、測定を決定することは、テキスト中の1グループのキーワードの出現回数を決定することと、1グループのキーワードの中のキーワードを含むテキスト中の文の感情レベルを決定することとの少なくとも1つを含む。
【0135】
第1の態様のいくつかの実施形態では、複数のキーワードを抽出するステップは、テキストセットのテキストから候補語を抽出するステップと、テキストセットのテキストから候補語を抽出するステップを含む、そして、テキストセットにおける候補語の出現回数が閾値回数より大きい場合には、候補語を複数のキーワードの1つとして決定する。
【0136】
第1の態様のいくつかの実施形態では、複数のキーワードのうちの少なくとも一部のキーワードをグループ化することは、それぞれが少なくとも1つのキーワードを含む複数のクラスタを決定するために、複数のキーワードをクラスタリングすることを含む、複数のクラスタのそれぞれの品質を決定し、品質は、それぞれのクラスタ内のキーワードが意味的にどの程度集まるかを表す、残りのキーワードを決定するために、複数のキーワードから、閾値品質よりも低い品質を有するクラスタ内のキーワードを除去することと、残りのキーワードは、残りのキーワードの意味に基づいてグループ化される。
【0137】
第1の態様では、本開示は、少なくとも1つの処理回路を含む電子デバイスを提供する。少なくとも1つの処理回路は、ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出するように構成され、ターゲット対象に対する非構造化テキストセットから複数のキーワードを抽出するように構成される、前記複数のキーワードのうちの少なくとも一部を、前記複数のキーワードの意味に基づいてグループ化することと、前記複数のキーワードのうちの少なくとも一部をグループ化することと、グループ化の結果に基づいて、ターゲット対象の一態様を表す1グループのキーワードに対応するターゲット要素を決定する。
【0138】
第2の態様のいくつかの実施形態では、少なくとも1つの処理回路は、テキストセットに基づいて、ターゲット要素に関する観点を反映するターゲット要素に関連する少なくとも1つのターゲットセンテンスを決定するようにさらに構成される。
【0139】
第2の態様のいくつかの実施形態では、少なくとも1つのターゲットセンテンスを決定することは、1グループのキーワードのうちの少なくとも1つのキーワードを含む少なくとも1つの候補センテンスをテキストセットから抽出することと、1グループのキーワードのうちの少なくとも1つのキーワードを含む少なくとも1つの候補センテンスをテキストセットから抽出することを含む、そして、少なくとも1つの候補センテンスに基づいて、少なくとも1つのターゲットセンテンスを決定する。
【0140】
第2の態様のいくつかの実施形態では、少なくとも1つの対象センテンスは、ターゲット要素に関する肯定的な観点を反映するセンテンスと、ターゲット要素に関する否定的な観点を反映するセンテンスとの少なくとも1つを含む。
【0141】
第2の態様のいくつかの実施形態では、ターゲット要素を決定することは、1グループのキーワードがターゲット対象の構造化要素と意味的に類似しているかどうかを決定すること、そして、1グループのキーワードが意味的に構造化要素と類似していないと判定された場合には、1グループのキーワードに基づいてターゲット要素を判定する。
【0142】
第2の態様のいくつかの実施形態では、少なくとも1つの処理回路は、1グループのキーワードおよびテキストセット内のテキストに基づいて、ターゲット要素の注目度を表すターゲット要素の測定を決定するようにさらに構成される。
【0143】
第2の態様のいくつかの実施形態では、測定を決定することは、テキスト中の1グループのキーワードの出現回数を決定することと、1グループのキーワードの中のキーワードを含むテキスト中のセンテンスの感情レベルを決定することとの少なくとも1つを含む。
【0144】
第2の態様のいくつかの実施形態では、複数のキーワードを抽出するステップは、テキストセットのテキストから候補語を抽出するステップと、テキストセットのテキストから候補語を抽出するステップを含む、そして、テキストセットにおける候補語の出現回数が閾値回数より大きい場合には、候補語を複数のキーワードの1つとして決定する。
【0145】
第2の態様のいくつかの実施形態では、複数のキーワードのうちの少なくとも一部のキーワードをグループ化することは、それぞれが少なくとも1つのキーワードを含む複数のクラスタを決定するために、複数のキーワードをクラスタリングすることを含む、複数のクラスタのそれぞれの品質を決定し、品質は、それぞれのクラスタ内のキーワードが意味的にどの程度集まるかを表す、残りのキーワードを決定するために、複数のキーワードから、閾値品質よりも低い品質を有するクラスタ内のキーワードを除去することと、残りのキーワードの意味に基づいてグループ化される。
【0146】
第3の態様では、本開示は、コンピュータープログラムを記憶するコンピューター読み取り可能メモリーを提供する。コンピュータープログラムは、第1の態様の情報処理方法を実装するためにプロセッサによって実行される。
【0147】
第4の態様では、本開示は、情報処理の方法を提供する。この方法は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表す、ターゲット対象の1グループのターゲット要素を取得するステップを含む。そして、1グループのターゲット要素とターゲット対象の1グループの構造化要素に基づいて、ターゲット対象に対する少なくとも1つのキー要素を決定し、1グループのターゲット要素のうちの少なくとも1つのターゲット要素は1グループの構造化要素とは異なる。
【0148】
第4の態様のいくつかの実施形態では、少なくとも1つのキー要素を決定することは、1グループのターゲット要素のそれぞれがターゲット対象に与える影響の程度に応じて、1グループのターゲット要素のうちの第1の数のターゲット要素を少なくとも1つのキー要素の一部として選択することと、1グループのターゲット要素から第1の数のターゲット要素を選択することを含む、そして、1グループの構造化要素の各々がターゲット対象に与える影響の程度に応じて、1グループの構造化要素から第2の数の構造化要素を少なくとも1つのキー要素の一部として選択する。
【0149】
第4の態様のいくつかの実施形態では、少なくとも1つのキー要素を決定することは、1グループのターゲット要素のそれぞれがターゲット対象に与える影響の程度と、1グループの構造化要素のそれぞれがターゲット対象に与える影響の程度とに応じて、1グループのターゲット要素と1グループの構造化要素のうちの第3の数の要素を少なくとも1つのキー要素として選択することを含む。
【0150】
第4の態様のいくつかの実施形態では、キー要素を決定することは、テキストセット内のテキストの感情を分析することによって、対応するターゲット要素の注目度を表す1グループのターゲット要素のそれぞれの第1の測定値を決定することと、1グループのターゲット要素のそれぞれの第1の測定値を決定することを含む、1グループの構造化要素のそれぞれについて、対応する構造化要素の注目度を表す第2の測定を決定し、第2の測定は、測定スケールの点で第1の測定と一致する、そして、第1の測定および第2の測定に基づいて、少なくとも1つのキー要素を決定する。
【0151】
第4の態様のいくつかの実施形態では、第1の測定を決定するステップは、1グループのターゲット要素のうちのターゲット要素について、ターゲット要素に対応する第1のキーワードを含み、感情を有する第1のセンテンスを、テキストセットのテキストから決定するステップと、ターゲット要素に対応する第1のキーワードを含む第1のセンテンスを決定するステップと、1グループのターゲット要素のうちのターゲット要素について決定するステップを含む、第1のセンテンスにおける第1のキーワードの出現回数に基づいて、ターゲット要素の第1の測定を決定し、第2の測定を決定することは、1グループの構造化要素における構造化要素について、構造化要素に対応する第2のキーワードを含み、感情を有する第2のセンテンスをテキストから決定することと、構造化要素に対応する第2のキーワードを含む感情を有する第2のセンテンスを決定することと、1グループの構造化要素における構造化要素について、第2の測定を決定することを含む、構造化要素の第2の測定は、第2のセンテンスにおける第2のキーワードの出現回数に基づいて決定される。
【0152】
第4の態様のいくつかの実施形態では、第1の測定を決定するステップは、1グループのターゲット要素のうちのターゲット要素について、ターゲット要素に対応するキーワードを含み、感情を有するセンテンス、テキストセットのテキストから決定するステップと、ターゲット要素に対応するキーワードを含み、感情を有するセンテンスを決定するステップと、1グループのターゲット要素のうちのターゲット要素について決定するステップを含む、センテンスの感情レベルに基づいて、ターゲット要素の第1の測定を決定し、第2の測定を決定することは、1グループの構造化要素の構造化要素、構造化要素に関するクローズド質問への回答に基づいて、構造化要素の第2の測定を決定することを含む。
【0153】
第4の態様のいくつかの実施形態では、第1の測定および第2の測定に基づいて少なくとも1つのキー要素を決定することは、第1の測定および第2の測定に基づいて、1グループのターゲット要素および1グループの構造化要素のそれぞれがターゲット対象に与える影響の度合いを決定することと、第1の測定および第2の測定に基づいて、ターゲット対象に対する影響の度合いを決定することを含む、そして、影響度に基づいて、1グループのターゲット要素及び1グループの構造化要素から少なくとも1つのキー要素を選択する。
【0154】
第4の態様のいくつかの実施形態では、影響の程度は、線形回帰、論理回帰、シャープリー値のうちの少なくとも1つに基づいて決定される。
【0155】
第5の態様では、本開示は、少なくとも1つの処理回路を含む電子デバイスを提供する。少なくとも1つの処理回路は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表す、ターゲット対象の1グループのターゲット要素を取得するように構成され、1グループのターゲット要素は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素は、ターゲット対象の一態様を表す、そして、1グループのターゲット要素とターゲット対象の1グループの構造化要素に基づいて、ターゲット対象に対する少なくとも1つのキー要素を決定し、1グループのターゲット要素のうちの少なくとも1つのターゲット要素は1グループの構造化要素とは異なる。
【0156】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、1グループのターゲット要素のそれぞれがターゲット対象に与える影響の程度に応じて、1グループのターゲット要素から第1の数のターゲット要素を少なくとも1つのキー要素の一部として選択するようにさらに構成され、1グループのターゲット要素から第1の数のターゲット要素を選択するように構成される、そして、1グループの構造化要素の各々がターゲット対象に与える影響の程度に応じて、1グループの構造化要素から第2の数の構造化要素を少なくとも1つのキー要素の一部として選択する。
【0157】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、1グループのターゲット要素のそれぞれがターゲット対象に及ぼす影響の程度と、1グループの構造化要素のそれぞれがターゲット対象に及ぼす影響の程度とに応じて、1グループのターゲット要素と1グループの構造化要素の和のセットから第3の数の要素を少なくとも1つのキー要素として選択するようにさらに構成される。
【0158】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、テキストセット内のテキストの感情を分析することによって、対応するターゲット要素の注目度を表す1グループのターゲット要素のそれぞれの第1の測定を決定するようにさらに構成され、第1の測定は、テキストセット内のテキストの感情を分析することによって、対応するターゲット要素の注目度を表す、1グループの構造化要素のそれぞれについて、対応する構造化要素の注目度を表す第2の測定を決定し、第2の測定は、測定スケールの点で第1の測定と一致する、そして、第1の測定および第2の測定に基づいて、少なくとも1つのキー要素を決定する。
【0159】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、1グループのターゲット要素のうちのターゲット要素について、ターゲット要素に対応する第1のキーワードを含み、感情を有する第1のセンテンスを、テキストセットのテキストから決定するようにさらに構成される、第1のセンテンスにおける第1のキーワードの出現回数に基づいて、ターゲット要素の第1の測定を決定し、第2の測定を決定することは、1グループの構造化要素における構造化要素について、構造化要素に対応する第2のキーワードを含み、感情を有する第2のセンテンスをテキストから決定することと、構造化要素に対応する第2のキーワードを含む感情を有する第2のセンテンスを決定することと、1グループの構造化要素における構造化要素について、第2の測定を決定することを含む、構造化要素の第2の測定は、第2のセンテンスにおける第2のキーワードの出現回数に基づいて決定される。
【0160】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、1グループのターゲット要素のうちのターゲット要素について、ターゲット要素に対応するキーワードを含み、感情を有するセンテンスを、テキストセットのテキストから決定するようにさらに構成される、センテンスの感情レベルに基づいて、ターゲット要素の第1の測定を決定し、第2の測定を決定することは、1グループの構造化要素の構造化要素について、構造化要素に関するクローズド質問への回答に基づいて、構造化要素の第2の測定を決定することを含む。
【0161】
第5の態様のいくつかの実施形態では、少なくとも1つの処理回路は、第1の測定および第2の測定に基づいて、ターゲット対象に対する1グループの対象要素および1グループの構造化要素のそれぞれの影響の程度を決定するようにさらに構成され、第1の測定および第2の測定に基づいて、ターゲット対象に対する1グループの対象要素および1グループの構造化要素の影響の程度を決定するように構成される、そして、影響度に基づいて、1グループのターゲット要素及び1グループの構造化要素から少なくとも1つのキー要素を選択する。
【0162】
第5の態様のいくつかの実施形態では、影響の程度は、線形回帰、論理回帰、シャープリー値のうちの少なくとも1つに基づいて決定される。
【0163】
第6の態様では、本開示は、コンピュータープログラムを記憶するコンピューター読み取り可能メモリーを提供する。コンピュータープログラムは、第4の態様の方法を実装するためにプロセッサによって実行される。
【0164】
第7の態様では、本開示は、情報処理方法を提供する。この方法は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表す、ターゲット対象の1グループのターゲット要素を取得するステップを含む。そして、ターゲット対象の少なくとも1つのキー要素に基づいて、ターゲット対象の記述を収集するための情報収集シートを提示し、少なくとも1つのキー要素は、ターゲット対象の1グループの構造化要素と1グループのターゲット要素とから決定される。
【0165】
第7の態様のいくつかの実施形態では、テキストセットのテキストは、情報収集シート内のオープン質問に対する回答から得られ、情報収集シートは、1グループの構造化要素に関する対応するクローズド質問を含み、情報収集シートを提示することは、少なくとも1つのキー要素に基づいて、更新されたクローズド質問を含む情報収集シートの更新バージョンを提示することを含む。
【0166】
第7の態様のいくつかの実施形態では、情報収集シートの更新バージョンを提示することは、少なくとも1つのキー要素が、1グループのターゲット要素のうちの第1のターゲット要素を含むと判定された場合に、第1のターゲット要素に関する第1のクローズド質問を含む更新バージョンを提示することを含む。
【0167】
第7の態様のいくつかの実施形態では、情報収集シートの更新バージョンを提示することは、少なくとも1つの要素が1グループの構造化要素のうちの第1の構造化要素を含まないと判定された場合に、第1の構造化要素に関する第2のクローズド質問が除去された更新バージョンを提示することを含む。
【0168】
第7の態様のいくつかの実施形態では、少なくとも1つのキー要素は、1グループのターゲット要素のうちの第2のターゲット要素を含み、方法は、情報収集シートが提示されている間に、情報収集シート内のオープン質問に対する回答を検出するステップと、情報収集シートが提示されている間に、情報収集シート内のオープン質問に対する回答を検出するステップをさらに含む、そして、回答が提供されていることを検出したことに応答して、第2のターゲット要素を記述するヒントを提示する。
【0169】
第7の態様のいくつかの実施形態では、情報収集シートを提示することは、少なくとも1つのキー要素を提示することと、情報収集シートを提示することとを含む、少なくとも1つのキー要素が提示されている間に、少なくとも1つのキー要素の選択を検出することと、前記少なくとも1つのキー要素の選択を検出すること、そして、少なくとも1つのキー要素の選択の検出に応答して、選択されたキー要素に関するクローズド質問を含む情報収集シートを提示する。
【0170】
第8の態様では、本開示は、少なくとも1つの処理回路を含む電子デバイスを提供する。少なくとも1つの処理回路は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素がターゲット対象の一態様を表す、ターゲット対象の1グループのターゲット要素を取得するように構成され、1グループのターゲット要素は、ターゲット対象に関する非構造化テキストセットに基づいて決定され、各ターゲット要素は、ターゲット対象の一態様を表す、そして、ターゲット対象の少なくとも1つのキー要素に基づいて、ターゲット対象の記述を収集するための情報収集シートを提示し、少なくとも1つのキー要素は、ターゲット対象の1グループの構造化要素と1グループのターゲット要素とから決定される。
【0171】
第8の態様のいくつかの実施形態では、テキストセットのテキストは、情報収集シート内のオープン質問に対する回答から得られ、情報収集シートは、1グループの構造化要素に関する対応するクローズド質問を含み、少なくとも1つの処理回路は、少なくとも1つのキー要素に基づいて、更新されたクローズド質問を含む情報収集シートの更新バージョンを提示するようにさらに構成される。
【0172】
第8の態様のいくつかの実施形態では、少なくとも1つの処理回路は、少なくとも1つのキー要素が1グループのターゲット要素のうちの第1のターゲット要素を含むと判定された場合、第1のターゲット要素に関する第1のクローズド質問を含む更新バージョンを提示するようにさらに構成される。
【0173】
第8の態様のいくつかの実施形態では、少なくとも1つの処理回路は、少なくとも1つの要素が1グループの構造化要素のうちの第1の構造化要素を含まないと判定された場合、第1の構造化要素に関する第2のクローズド質問が除去された更新バージョンを提示するようにさらに構成される。
【0174】
第8の態様のいくつかの実施形態では、前記少なくとも1つのキー要素は、1グループのターゲット要素のうちの第2のターゲット要素を含み、前記少なくとも1つの処理回路は、前記情報収集シートが提示されている間に、前記情報収集シート内のオープン質問に対する回答を検出し、前記情報収集シート内のオープン質問に対する回答を検出するようにさらに構成され、前記情報収集シート内のオープン質問に対する回答を検出するように構成される、そして、回答が提供されていることを検出したことに応答して、第2のターゲット要素を記述するヒントを提示する。
【0175】
第8の態様のいくつかの実施形態では、前記少なくとも1つの処理回路は、前記少なくとも1つのキー要素を提示するようにさらに構成され、前記少なくとも1つの処理回路は、前記少なくとも1つのキー要素を提示少なくとも1つのキー要素が提示されている間に、少なくとも1つのキー要素の選択を検出することと、前記少なくとも1つのキー要素の選択を検出することと、そして、少なくとも1つのキー要素の選択の検出に応答して、選択されたキー要素に関するクローズド質問を含む情報収集シートを提示する。
【0176】
第9の態様では、コンピュータープログラムを記憶するコンピューター読み取り可能メモリーを提供する。コンピュータープログラムは、第7の態様の方法を実装するためにプロセッサによって実行される。
【0177】
本開示の様々な態様は、本開示に従って実現される方法、デバイス、設備、およびコンピュータープログラム製品のフローチャートおよび/またはブロック図を参照してここで説明する。流れ図および/またはブロック図の各ブロック、ならびに流れ図および/またはブロック図の各ブロックの組み合わせは、コンピューター読み取り可能なプログラム命令によって実装されてもよいことを理解されたい。
【0178】
これらのコンピューター読み取り可能プログラム命令は、汎用コンピューター、専用コンピューター、または他のプログラマブルデータ処理デバイスの処理ユニットに提供されて、これらの命令がコンピューターまたは他のプログラマブルデータ処理デバイスの処理ユニットを介して実行されるときに、流れ図および/またはブロック図中の1つまたは複数のブロックに規定された機能/動作を実現する手段を生成するような機械を製造する。これらのコンピューター読み取り可能プログラム命令は、コンピューター、プログラマブルデータ処理デバイス、および/または他のデバイスを特定の方法で動作させるコンピューター読み取り可能メモリーに記憶することもでき、それにより、命令が記憶されたコンピューター読み取り可能メモリーは、フローチャートおよび/またはブロック図中の1つまたは複数のブロックに規定された機能/動作の様々な態様を実装する製造物品を含む。
【0179】
コンピューター読み取り可能プログラム命令は、コンピューター、他のプログラマブルデータ処理デバイス、または他のデバイスにロードされて、コンピューター、他のプログラマブルデータ処理デバイス、または他のデバイス上で実行される命令が、フローチャートおよび/またはブロック図中の1つまたは複数のブロックに規定された機能/動作を実施するように、コンピューター実装プロセスを生成するために、コンピューター、他のプログラマブルデータ処理デバイス、または他のデバイス上で実行される一連の動作ステップが実行されるように、コンピューター、他のプログラマブルデータ処理デバイス、または他のデバイス上で実行されるプロセスを生成する。
【0180】
添付図のフローチャートおよびブロック図は、本開示の複数の実施形態に従って、システム、方法、およびコンピュータープログラム製品の可能な実施形態のアーキテクチャ、機能、および動作を示している。この点で、フローチャートまたはブロック図中の各ブロックは、所定の論理機能を実装するための1つまたは複数の実行可能命令を含むモジュール、プログラムセグメントまたは命令の一部を表す。代替としてのいくつかの実装では、ブロックに示された機能は、図面に示されたものとは異なる順序で発生することもある。例えば、2つの連続したブロックは、実際には実質的に並列に実行されてもよく、関係する機能に応じて逆の順序で実行されてもよい場合がある。ブロック図および/またはフローチャート中の各ブロック、および/またはブロック図および/またはフローチャート中のブロックの組み合わせは、所定の機能または動作を実行する専用ハードウェアベースのシステムで実装されてもよく、または専用ハードウェアとコンピューター命令との組み合わせで実装されてもよい。
【0181】
以上、本開示の実施形態について説明したが、上記の説明は例示的なものであり、網羅的なものではなく、開示された実施形態に限定されるものでもない。説明された各実施形態の範囲および精神から逸脱することなく、多くの修正および変更は当業者にとって自明である。本文で使用される用語の選択は、本文で開示された各実施形態を、本文で開示された各実施形態の原理、実際の適用、または市場における技術の改良を最もよく説明するか、または当技術分野の他の通常の技術者が理解できるようにすることを意図している。
【外国語明細書】