IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-526666認知集約およびオーサリング方法、システム
<>
  • 特表-認知集約およびオーサリング方法、システム 図1
  • 特表-認知集約およびオーサリング方法、システム 図2
  • 特表-認知集約およびオーサリング方法、システム 図3A
  • 特表-認知集約およびオーサリング方法、システム 図3B
  • 特表-認知集約およびオーサリング方法、システム 図4
  • 特表-認知集約およびオーサリング方法、システム 図5
  • 特表-認知集約およびオーサリング方法、システム 図6
  • 特表-認知集約およびオーサリング方法、システム 図7
  • 特表-認知集約およびオーサリング方法、システム 図8
  • 特表-認知集約およびオーサリング方法、システム 図9
  • 特表-認知集約およびオーサリング方法、システム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】認知集約およびオーサリング方法、システム
(51)【国際特許分類】
   G06F 16/38 20190101AFI20240711BHJP
【FI】
G06F16/38
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024500530
(86)(22)【出願日】2022-07-08
(85)【翻訳文提出日】2024-01-09
(86)【国際出願番号】 EP2022069202
(87)【国際公開番号】W WO2023285327
(87)【国際公開日】2023-01-19
(31)【優先権主張番号】17/372,702
(32)【優先日】2021-07-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】ボウマン、アーロン
(72)【発明者】
【氏名】ウィルキン、ニコラス
(72)【発明者】
【氏名】キャノン、グレイ
(72)【発明者】
【氏名】エッゲンベルガー、クリスチャン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB03
5B175GC03
5B175HA01
(57)【要約】
認知集約およびオーサリング方法、システムが提供される。自然言語処理技術を使用して、指定サブトピックへの関連度に基づいて複数のデジタル・コンテンツ・データセットの中から1組の候補テキスト項目を特定し、関連度スコアと特徴ベクトルとを使用して候補テキスト項目を所定数のグループにグループ化し、選択されたテキスト項目の指定グループを使用して事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングし、ここで事前トレーニング済みエンコーダ-デコーダ・モデルは特定の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされており、事前トレーニング済みエンコーダ-デコーダ・モデルを使用して特定の文体の機械作成テキスト・コンテンツを生成し、選択されたテキスト項目の指定グループに基づく指定サブトピックに関する記事を結果として得る。最後に記事をウェブサイトのための更新としてリモート・ウェブ・サーバに送信する。
【特許請求の範囲】
【請求項1】
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記1組の候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ実装方法。
【請求項2】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項1ないし3のいずれかに記載のコンピュータ実装方法。
【請求項5】
前記第1および第2の記事を前記ウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することが、前記第1および第2の記事をカスタム・ウェブページのための更新として送信することを含み、前記カスタム・ウェブページがユーザ用にカスタマイズされる、請求項1ないし4のいずれかに記載のコンピュータ実装方法。
【請求項6】
前記ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記ユーザ生成コンテンツから、前記トピックに対する選択されたユーザ生成コンテンツの関連度に基づいて、前記選択されたユーザ生成コンテンツを特定することと、をさらに含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記トピックに対する前記ユーザの感情を判定する一環として、前記選択されたユーザ生成コンテンツの極性が結果として判定される、前記選択されたユーザ生成コンテンツを解析することをさらに含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記トピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することをさらに含み、
前記候補テキスト項目を候補テキスト項目のグループにグループ化することが、前記特徴ベクトルの値を調整するために前記重みベクトルを使用することをさらに含む、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記1組の候補テキスト項目が文を含む、請求項1ないし8のいずれかに記載のコンピュータ実装方法。
【請求項10】
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・プログラム製品であって、前記プログラム命令が、プロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ・プログラム製品。
【請求項11】
前記記憶されたプログラム命令が、データ処理システムにおけるコンピュータ可読ストレージ・デバイスに記憶され、前記記憶されたプログラム命令がネットワークを介してリモート・データ処理システムから転送される、請求項10に記載のコンピュータ・プログラム製品。
【請求項12】
前記記憶されたプログラム命令が、サーバ・データ処理システムにおけるコンピュータ可読ストレージ・デバイスに記憶され、前記記憶されたプログラム命令が、リモート・データ処理システムに関連付けられたコンピュータ可読ストレージ・デバイスにおける使用のために、ネットワークを介して要求に応答して前記リモート・データ処理システムにダウンロードされ、
前記要求に関連付けられた前記プログラム命令の使用を計量するプログラム命令と、
前記計量された使用に基づいてインボイスを生成するプログラム命令とをさらに含む、請求項10または11に記載のコンピュータ・プログラム製品。
【請求項13】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項10ないし12のいずれかに記載のコンピュータ・プログラム製品。
【請求項14】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項10ないし13のいずれかに記載のコンピュータ・プログラム製品。
【請求項15】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項10ないし14のいずれかに記載のコンピュータ・プログラム製品。
【請求項16】
前記第1および第2の記事を前記ウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することが、前記第1および第2の記事をカスタム・ウェブページのための更新として送信することを含み、前記カスタム・ウェブページがユーザ用にカスタマイズされる、請求項10ないし15のいずれかに記載のコンピュータ・プログラム製品。
【請求項17】
プロセッサと、1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・システムであって、前記プログラム命令が、前記プロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ・システム。
【請求項18】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項17に記載のコンピュータ・システム。
【請求項19】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項17または18に記載のコンピュータ・システム。
【請求項20】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項17ないし19のいずれかに記載のコンピュータ・システム。
【請求項21】
複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行することと、
前記クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して、サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を抽出することと、
ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記サブトピックに対する前記ユーザの感情を判定する一環として、前記ユーザ生成コンテンツの極性が結果として判定される、前記ユーザ生成コンテンツを解析することと、
前記サブトピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記重みベクトルと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記指定グループに基づく、前記サブトピックに関する記事が結果として得られる機械作成テキスト・コンテンツを生成することと、
前記記事を、前記ユーザの前記感情に基づいて前記ユーザ用にパーソナライズされたコンテンツの表示のための更新としてリモート・ウェブ・サーバに送信することとを含む、コンピュータ実装方法。
【請求項22】
前記ユーザにフィードバック要求を送ることをさらに含み、前記フィードバック要求が、前記サブトピックに関連する意見に関する前記ユーザからのフィードバックを求める要求を含み、前記ユーザ生成コンテンツが、前記フィードバック要求に応答して前記ユーザから受け取られたフィードバックを含む、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記ユーザ生成コンテンツが、前記サブトピックに関連する記事に応答して前記ユーザによって投稿されたコメントを含む、請求項21または22に記載のコンピュータ実装方法。
【請求項24】
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・プログラム製品であって、前記プログラム命令がプロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行することと、
前記クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して、サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を抽出することと、
ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記サブトピックに対する前記ユーザの感情を判定する一環として、前記ユーザ生成コンテンツの極性が結果として判定される、前記ユーザ生成コンテンツを解析することと、
前記サブトピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記重みベクトルと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記指定グループに基づく、前記サブトピックに関する記事が結果として得られる機械作成テキスト・コンテンツを生成することと、
前記記事を、前記ユーザの前記感情に基づいて前記ユーザ用にパーソナライズされたコンテンツの表示のための更新としてリモート・ウェブ・サーバに送信することとを含む、コンピュータ・プログラム製品。
【請求項25】
前記プロセッサに、前記サブトピックに関連する意見に関する前記ユーザからのフィードバックを求める要求を含むフィードバック要求を前記ユーザに送ることを含む動作を行わせるように前記プロセッサによって実行可能なプログラム命令をさらに含み、
前記ユーザ生成コンテンツが、前記フィードバック要求に応答して前記ユーザから受け取られたフィードバックを含む、請求項24に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般には通信ネットワークを介したコンピュータ・データの配信の分野に関し、より詳細には、文脈認識による解明自然言語アーティファクトの再組合せ(elucidated natural language artifact recombination)に関する。
【背景技術】
【0002】
自然言語処理(National Language Processing(NLP))は、コンピュータ科学の分野および人工知能(AI)と、自然言語入力の何らかの形態の処理を伴う言語学とを指す。自然言語入力は、典型的には、非構造化データの形態である。非構造化データとは、事前定義されたデータ・モデルを持たないかまたは事前定義された方式で編成されていない情報を指す。非構造化データは、主として、例えば書かれた形態または音声形態の何らかの形態のテキストであることが多い。大まかに言えば、NLPは典型的には、非構造化データを構造化データに変換することを含む。
【0003】
NLPの例には、自然言語生成(Natural Language Generation(NLG))と自然言語理解(Natural Language Understanding(NLU))とが含まれる。NLUは、テキストを解析することと、概念、実体、キーワード、カテゴリ、感情、情動、関係および意味役割などの非構造化コンテンツからメタデータを抽出することとを主として含むNLPの一分野である。NLUは、典型的には、非構造化テキストからこのような情報を解析し、抽出するために深層学習アルゴリズムを使用する。例えば、NLUは、顧客のコメントの意味解析を行い、コメントが肯定的であるか否定的であるかを特定することによって、顧客フィードバックを分析するために使用することができる。
【0004】
NLGは、機械作成コンテンツを作成することを主として含むNLPの分野である。例えば、NLGは、抽出型要約に使用可能である。抽出型要約は、キーとなる用語および語句を特定するために大規模な文書を解析することと、次に、その情報を使用して文書の要約を作成することを含む。
【0005】
NLPの上記およびその他の形態は、データ・マイニングまたは抽出型要約などのタスクを行うためのそれぞれのプラットフォームおよびサービスを介して利用可能である。これらの技術は、情報の本体またはコーパスを解析するためのNLPパイプラインを設定するために使用することができ、それぞれのNLPパイプラインで実装される技術に応じて異なる結果を返すことになる。これは、異なる形態の情報が求められる状況において有用な場合がある。例えば、何らかの関心総合分野の統計情報を検索するためにNLPパイプラインを設定することができ、同じ関心総合分野における記事論評を検索するために別のNLPパイプラインを設定することができ、この2つのNLPパイプラインは、求められる情報の種類が異なるため、異なる形態のNLPを必要とする。しかし、2つのNLPパイプラインの相違により、統計情報の結果と記事論評の結果とは同じ関心総合分野に関連するが、詳細にはその関心総合分野の異なる側面を対象としている場合がある。その結果、複数のNLPパイプラインの出力を単一の統一性のある要約、記事または文書として組み合わせるのは困難であるかまたは不可能な場合がある。
【発明の概要】
【0006】
例示の実施形態は、文脈認識による解明自然言語アーティファクトの再組合せを提供する。一実施形態は、コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることを含み、複数のデジタル・コンテンツ・データセットは、クエリ・ステートメントを満たし、クエリ・ステートメントはその複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む。この実施形態は、各候補テキスト項目の計算関連度スコアを使用して各候補テキスト項目のサブトピックとの関連度に基づいて、複数のデジタル・コンテンツ・データセットの中から1組の候補テキスト項目を特定することも含み、計算関連度スコアは、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、候補テキスト項目のテキスト・コンテンツの解析の結果、候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、特徴ベクトルはそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む。この実施形態は、プロセッサにおける命令のセットの実行の結果として、計算関連度スコアと特徴ベクトルとを使用して、1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することも含む。この実施形態は、候補テキスト項目のグループのうちから候補テキスト項目の第1の指定グループを使用して、第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることも含み、第1の事前トレーニング済みエンコーダ-デコーダ・モデルは、第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。この実施形態は、第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、結果として候補テキスト項目の第1の指定グループに基づく、指定サブトピックに関する第1の記事となる第1の文体の機械作成テキスト・コンテンツを生成することも含む。この実施形態は、候補テキスト項目のグループの中から、候補テキスト項目の第2の指定グループを使用して、第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることも含み、第2の事前トレーニング済みエンコーダ-デコーダ・モデルは第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。この実施形態は、第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、結果として候補テキスト項目の第2の指定グループに基づく、指定サブトピックに関する第2の記事となる第2の文体の機械作成テキスト・コンテンツを生成することも含む。この実施形態は、第1および第2の記事を、リモート・ウェブ・サーバによってホストされているウェブサイトのための更新としてリモート・ウェブ・サーバに送信することも含む。この態様の他の実施形態は、それぞれがこの実施形態の動作を行うように構成された、対応するコンピュータ・システム、装置、および1つまたは複数のコンピュータ・ストレージ・デバイスに記録されたコンピュータ・プログラムを含む。
【0007】
いくつかのそのような実施形態は、ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、トピックに対する選択ユーザ生成コンテンツの関連度に基づいてユーザ生成コンテンツから選択ユーザ生成コンテンツを特定することをさらに含む。関連ユーザ生成コンテンツのロードは、トピックに対するユーザの感情の判定の一環として、有利には、選択ユーザ生成コンテンツの極性が結果として判定される選択ユーザ生成コンテンツを解析することをさらに含む実施形態を可能にする。トピックに対するユーザの感情を判定することは、有利には、トピックに対するユーザの感情に基づく重みベクトルを生成することをさらに含む実施形態を可能にする、候補テキスト項目を候補テキスト項目のグループにグループ化することは特徴ベクトルの値を調整するために重みベクトルを使用することをさらに含む。このような重みベクトルを使用した特徴ベクトルの調整は、有利には第1および第2の記事の送信がカスタム・ウェブページのための更新として使用することができるように第1および第2の記事をユーザに合わせて調整することを可能にし、カスタム・ウェブページはユーザ用にカスタマイズされる。
【0008】
本開示の別の態様によると、一実施形態は、複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行することを含む。この実施形態は、クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して指定サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出することも含み、計算関連度スコアは1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定される。この実施形態は、候補テキスト項目のテキスト・コンテンツの解析の結果、候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られることも含む。この実施形態は、特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含むことも含む。この実施形態は、ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることも含む。この実施形態は、指定サブトピックに対するユーザの感情を判定する一環として、結果としてユーザ生成コンテンツの極性が判定されるユーザ生成コンテンツを解析することも含む。この実施形態は、指定サブトピックに対するユーザの感情に基づいて重みベクトルを生成することも含む。この実施形態は、プロセッサにおける命令のセットの実行の結果として、計算関連度スコアと重みベクトルと特徴ベクトルとを使用して、1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化することも含む。この実施形態は、候補テキスト項目のグループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることも含む。この実施形態は、事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、結果として候補テキスト項目の指定グループに基づく、指定サブトピックに関する記事となる機械作成テキスト・コンテンツを生成することも含む。この実施形態は、記事をユーザの感情に基づいてユーザ用にパーソナライズされたコンテンツの表示のための更新としてリモート・ウェブ・サーバに送信することも含む。この態様の他の実施形態は、それぞれがこの実施形態の動作を行うように構成された、対応するコンピュータ・システム、装置、および1つまたは複数のコンピュータ・ストレージ・デバイスに記録されたコンピュータ・プログラムを含む。
【0009】
一実施形態は、コンピュータ使用可能プログラム製品を含む。コンピュータ使用可能プログラム製品は、コンピュータ可読記憶媒体と、記憶媒体に記憶されたプログラム命令とを含む。
【0010】
一実施形態は、コンピュータ・システムを含む。コンピュータ・システムは、プロセッサと、コンピュータ可読メモリと、コンピュータ可読記憶媒体と、メモリを介したプロセッサによる実行のために記憶媒体に記憶されたプログラムとを含む。
【0011】
本発明の特徴と見なされる新規な特徴は、添付の特許請求の範囲に記載されている。しかし、本発明自体と、本発明の好ましい使用形態、さらなる目的および利点は、例示の実施形態の以下の詳細な説明を添付図面とともに読んで参照すれば最もよくわかるであろう。
【図面の簡単な説明】
【0012】
図1】例示の実施形態を実装可能なデータ処理システムを示すブロック図である。
図2】例示の一実施形態による、例示の構成を示すブロック図である。
図3A】例示の一実施形態による、例示の構成を示すブロック図である。
図3B】例示の一実施形態による、別の例示の構成を示すブロック図である。
図4】例示の一実施形態による、別の例示の構成を示すブロック図である。
図5】例示の一実施形態による、例示のCAAシステムを示すブロック図である。
図6】例示の一実施形態による、例示のCAAシステムを示すブロック図である。
図7】例示の一実施形態による、認知集約およびオーサリングの例示のプロセスを示すフローチャートである。
図8】例示の一実施形態による、認知集約およびオーサリングの例示のプロセスを示すフローチャートである。
図9】本発明の一実施形態によるクラウド・コンピューティング環境を示す図である。
図10】本発明の一実施形態による抽象化モデル層を示す図である。
【発明を実施するための形態】
【0013】
消費のために利用可能な情報の量はかつてないペースで増大し続けている。例えば、近年、ウェブページ、ニュース記事、科学文献、電子メール、企業文書、およびソーシャル・メディア(ブログ記事、フォーラム投稿、製品レビュー、およびツイートなど)を含む、自然言語テキスト・データが劇的に増大している。この情報は、インターネットにアクセスする世界中のユーザからなる増え続ける視聴者によって消費されている。最近の統計は、現在、40億人以上がインターネットに何らかの形態でアクセスすることができることを示しており、これは世界の人口の半分以上に相当する。
【0014】
大量の情報にアクセスすることができる莫大な数のユーザが、人々が大量の情報を効果的かつ効率的に管理し、分析するのを支援するための高性能なソフトウェア・ツールの増大し続ける需要を生じさせている。この需要に対応するアプリケーションには、オンライン新聞、ブログ、ポッドキャストおよびビデオ・ブログ(vログ)などの配給ウェブ・コンテンツを閲覧しやすいように一箇所に収集する、パーソナライズされたニュース・アグリゲータなどのものが含まれる。このようなアプリケーションは、NLP技術を使用して、集約された記事のそれぞれの要約を生成し、これらの要約をユーザに提供し、それによってユーザが集約されたコンテンツの概要をより迅速に受け取ることができるようにすることによって、向上させることができることが認められている。
【0015】
NLP技術は、入手可能な大量の情報からユーザが知見(insight)を得るのを支援するこのような多くのアプリケーションにとって有用であることが実証されている。ユーザによる消費のためにテキスト・コンテンツを製作するための多くの多様な種類のNLP技術とアルゴリズムが知られている。テキスト・コンテンツの配信、内容およびスタイルは、それを収集し、製作するために使用されるNLP技術に応じて異なる。典型的には、NLPプロセスの組合せを行うNLPパイプラインを形成するために複数のNLP技術が組み合わされる。蓄積される情報のスタイルと内容の多様性を実現するために、情報を収集し、処理するための複数の異なるNLPパイプラインの使用が望ましい場合がある。しかし、この多様性は、異なるNLPパイプラインによって提供されるコンテンツを使用して記事、文書またはウェブページなどの統一性のある構成を組み立てようとする場合に、問題となる。
【0016】
一例として、スポーツ・イベント、博覧会または集会などの大きなイベント専用のアプリケーションまたはウェブページが、異なる種類のNLP技術を使用する複数の異なるNLPパイプラインを使用してコンテンツを収集する場合がある。1つのNLPパイプラインは、大量の情報からトピックに関連する記事を検索し、それらの記事を要約するために抽出型要約を使用し、トピックに対する関連度、情報の質およびその他の要素に基づいて要約をランク付けし、いくつかの最高ランクの要約を出力することによって、ファクトイドを提供する。本明細書で使用する「ファクトイド」とは、トピックに関するニュース記事、またはトピックに関するあまり知られていない(すなわちトリビアルである)が興味深い情報の要約を指す。別のNLPパイプラインは、統計データベースに構造化データとして提供されたトピックに関連する統計量をクエリし、トピックに関連する統計量に基づいて新たな文を書くために自然言語生成を使用し、トピックに対する関連度、情報の質およびその他の要素に基づいて統計的文にランク付けし、いくつかの最高ランクの統計的文を出力することによって、本明細書で「知見」とも呼ぶ統計的文を提供する。
【0017】
その結果の要約および統計的文は、特定のスポーツ、音楽ジャンルまたは技術分野などの特定のトピックに関係し得るが、それでも、そのトピックの異なる側面を対象にしている場合がある。例えば、トピックが特定のスポーツである場合、要約は選手の家庭生活、新しいスタジアム、トレーニング技術を対象としている可能性があり、一方、統計的文は特定の天候条件下での選手の成績、チームの記録、およびリーグ記録を対象としている。別々に提示されるが、これはすべて、ユーザが有益で興味深いと感じる可能性があるその与えられたトピックの関連情報である。しかし、これらの結果は、そのトピックに関する単一の統一性のある記事として一貫性があるように組み合わせるには無関係過ぎるトピックの側面に関する情報を含むため、技術的な問題がある。
【0018】
現在、AI技術も、機械作成ストーリー、コンテンツ、要約および小説テキストなどの機械作成コンテンツを生成する自然言語生成などのNLP技術を含む。これらの技術は、入力データに密接に関係するテキストを生成し、これは、これらの技術を、新たなテキスト・コンテンツを生成するために単一のNLPパイプラインからの入力データを使用することに限定している。したがって、これらの技術は、多様なNLPパイプラインから統一性のあるコンテンツを生成しようとする場合の上述の技術的問題を克服する能力に欠けている。
【0019】
他の技術的問題には、これらの技術が、生成されたテキストを各ユーザ用にパーソナライズする能力にも欠けていることが含まれる。特定のトピックに対するユーザの感情、またはユーザが好む文体の態様、あるいはその両方などの事柄を判定するために、例えばユーザ入力または活動に基づいて、ユーザの好みを確認することができる。しかし、既存のテキスト生成技術は、ユーザの好みに合った、文体またはトピック感情などの特性を有するユーザ用にパーソナライズされたテキスト・コンテンツを生成する能力に欠けている。
【0020】
例示の実施形態は、複数のNLPパイプラインから提供される入力を組み合わせる手段を与え、組み合わされた入力を新たな機械作成テキスト・コンテンツを生成するための基礎として使用することによって、これらの技術的問題に対処する。開示した実施形態は、複数ナップサック問題(Multiple Knapsack Problem(MKP))アルゴリズムを使用して複数のNLPパイプラインから提供される入力を組み合わせるNLPパイプラインを作成する。開示した実施形態は、ユーザの好みを検出し、ユーザの好みに基づいて選択された1つまたは複数の特性を有するテキストを生成するようにテキスト生成プロセスを適応化させるマスキング技術を適用する。
【0021】
複数の異なるNLPパイプラインから機械作成テキスト・コンテンツを生成するという問題には、関連のある複数の異なるNLPパイプラインからコンテンツ項目を特定することによって対処することができる。本開示の理解を助けるために示される非限定的な例として、一実施形態は、ファクトイドのための入力データを提供する第1のNLPパイプラインと、知見のための入力データを提供する第2のNLPパイプラインとを含む。いくつかの実施形態では、第1および第2のNLPパイプラインは、1つまたは複数のコーパスにクエリ・ステートメントを満たすデジタル・コンテンツ・データセットをクエリする。いくつかのそのような実施形態では、クエリ・ステートメントは、特定の関心トピック(例えば上述の例のバスケットボール)への言及を含む。
【0022】
いくつかのそのような実施形態では、第1および第2のNLPパイプラインは、クエリを満たすデジタル・コンテンツ・データセット(例えば、第1のNLPパイプラインによるファクトイドと第2のNLPパイプラインによる知見)を抽出することによって入力を提供し、それらをメモリにロードする。デジタル・コンテンツ項目は、テキスト項目であってもよく、語句、文、またはテキストのその他のブロックを含み得る。いくつかのそのような実施形態では、入力は、特定のトピックに関係するコンテンツを表示するユーザ・デバイス上で実行されるアプリケーション用のコンテンツを作成するために使用される。この実施例では現在の関連コンテンツと呼ぶこの表示コンテンツは、より古い作成コンテンツがより新しい作成コンテンツによって時々置き換えられるように、周期的に更新される。
【0023】
関連する複数の異なるNLPパイプラインからコンテンツ項目を特定するという問題は、同じアプリケーション表示内に一緒にファクトイド、知見および現在の関連コンテンツを有する同時確率の最適化と言い換えることができる。最適化問題として、この問題は以下の式(1)としてモデル化することができる。
【0024】
【数1】

一連の置換により、式(1)は、式(2)、次に式(3)、次に式(4)として書くことができる。
【0025】
【数2】

【数3】

【数4】
【0026】
式(1)~(4)において、P(R)=関連コンテンツを有する確率が、現在のトピックに関連する入力データを取り出すことができるか否かに依存する。例えば、現在のトピックが、ユーザが参加しているイベント、例えばバスケットボール・トーナメントに関するものである場合、これはNLPパイプラインがバスケットボールまたはバスケットボール・トーナメントに関連する入力を提供する確率である。P(Factoids|Insights)=知見に関連するファクトイドを取得する確率である。関連性および相関性が高いファクトイドと知見のパッケージのグループを作成するために意思決定最適化アルゴリズムが使用される。P(Insights)=トピック(すなわちこの実施例ではバスケットボール)に関するきわめて精密な構造化情報であるソース・データから良質で多様な知見を生成する確率である。実施形態は、良質で多様な知見を生成する尤度を向上させるために、自然言語生成と、トランスフォーマ・モデルと、意思決定最適化アルゴリズムとを使用する。
【0027】
式(1)~(4)によってモデル化される最適化問題にさらに焦点を合わせると、モデルは、以下の式(5)および(6)として示す2つの項を最大化することによって最大化可能な式(4)を最大化することによって最適化することができる。
【0028】
P(Factoids|R) (5)
P(Insights|R) (6)
【0029】
したがって、NLPロードマップは、ユーザが現在閲覧しているコンテンツが与えられると、ファクトイドと知見の取り出しの最適化に焦点を合わせることができる。開示した実施形態は、カスタム化またはページ編集に基づいて最も関連性のある情報に焦点を合わせるために新規なマルチヘッド・アテンション・トランスフォーマを使用して、この最適化に対処しようとする。
【0030】
いくつかの例示の実施形態では、最適化問題はMKPとしてモデル化される。MKPを解く多くの知られているアルゴリズムがあり、そのいずれもパッケージのグループを作成するために使用される意思決定最適化アルゴリズムとして使用可能である。MKPアルゴリズムは、デジタル・コンテンツ・データセット(例えば、第1のNLPパイプラインから受け取ったファクトイド文および第2のNLPパイプラインから受け取った知見文)をグループ化しようとする。
【0031】
いくつかのそのような実施形態では、NLPパイプラインからのコンテンツがMKPアルゴリズムによって処理される前に、MKPアルゴリズムによって必要とされる処理の量を減らすためにデータセットから特定の候補項目が選択される。いくつかのそのような実施形態では、複数のデジタル・コンテンツ・データセットの中から候補テキスト項目の1つまたは複数の組(それぞれのサブトピックに対応する)が特定される。いくつかのそのような実施形態では、各組内の候補テキスト項目が、候補項目の組に関連付けられたサブトピックとの関連度に基づいて特定される。
【0032】
トピックがバスケットボールである上述の実施例に従うと、例示の目的のみのために提供されるサブトピックの3つの例には、対戦チーム組合せと選手紹介と負傷報告が含まれ得る。いくつかの実施形態では、候補項目はサブトピックのそれぞれとの関連度について解析される。いくつかのそのような実施形態では、候補項目は、品質(例えば文法または綴りの誤りの量、攻撃的内容など)、感情(例えば表明された意見の強度、支持している議論の側など)、長さ、またはその他の指標などの他の要素についても評価可能である。いくつかのそのような実施形態では、この解析の結果、各候補テキスト項目の計算関連度スコアが得られ、計算関連度スコアは、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定される。この情報は、ファクトイドおよび知見候補項目のそれぞれの特徴ベクトルを生成するために使用され、ここで「特徴」は事前選択済みサブトピックであり、特徴値はファクトイドまたは知見がそれぞれのサブトピックとどの程度類似しているかを示す。いくつかの実施形態では、特徴ベクトルはこの実施例よりも多いかまたは少ない特徴を含んでもよい。したがって、特徴ベクトルは、関連付けられたファクトイドまたは知見がサブトピックのそれぞれとどの程度関連性があるかと、品質スコアと、その他の所望の要素の値とを表す数値を含む。
【0033】
例示の実施形態では、MKPアルゴリズムは候補ファクトイドのそれぞれおよび知見のそれぞれの候補項目と特徴ベクトルを受け取る。MKPアルゴリズムは、プロセッサにおける命令のセットの実行の結果として、計算関連度スコアと特徴ベクトルとを使用してその1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化する。
【0034】
いくつかの例示の実施形態は、パッケージのグループのうちの1つから文のサブセットを選択するためのクロスエントロピー品質尺度による抽出型要約の使用を含む。いくつかの実施形態では、文の最も「有望な」サブセットを選択するために、クロスエントロピー要約(CES)のような方法を使用して文のサブセットを選択することができる。背景として、クロスエントロピー(CE)法は、難しい組合せ問題を解決するための汎用モンテカルロ最適化フレームワークを提供する。この目的のために、CEは入力として例えば
【数5】

と、最大要約長Lに対する制約とを取得する。
【数6】

がCE法の単一の呼び出しを示すものとする。このような呼び出しの結果は、
【数7】

を最大化するDから選択された文のサブセットを含む単一の許容長要約S*である。例えば、CESは
【数8】

を呼び出すことによって実施される。
【0035】
所与の文s∈Dについて、ψ(s)はその文が要約Sに含まれる尤度を示す。最高エントロピー(すなわちψ(s)=0.5)を有する選択ポリシーから開始して、CE法は
【数9】

を最大化する選択ポリシーψ*(・)を学習する。
【0036】
この目的のために、ψ*(・)は重要度サンプリング手法を使用して漸増的に学習される。各反復回t=1、2、...において、前の反復回t-1において学習された選択ポリシーψt-1(・)に従ってN個の文サブセットSのサンプルが生成される。反復回tにおいて文s∈Dを選択する尤度は、以下の式(7)によって(クロスエントロピー最小化により)推算される。
【0037】
【数10】

ここで、δ[・]は、クロネッカーのデルタ(指標)関数を示し、γはサンプル・パフォーマンス
【数11】

の(1-ρ)分位数(p∈(0,1))を示す。したがって、文s∈Dを選択する尤度は、その文が、パフォーマンスが現在の最小必要品質目標値γを上回るより多くの(サブセット)サンプルに含まれる場合に高くなる。いくつかの実施形態では、ψt(・)は以下のようにさらに平滑化することができる。
Φt(・)’=αψt-1(・)+(1-α)ψ(・)
ただし、α∈[0,1]である。
【0038】
終了時、CE法は、大域的最適選択ポリシーψ*(・)に収束すると期待される。次に、この収束に基づいて単一の要約S*ψ*(・)を生成することができる。許容要約のみが生成されるように実施するために、サンプリングされた要約Sの長さがL語限界を超える場合は常に
【数12】

を設定することができる。あるいは、最大長制約はサンプリング時に直接実施されてもよい。
【0039】
いくつかの実施形態では、教師なし設定が想定されるため、トレーニングのために利用可能な実際の参照要約がない。同様に、実際の品質目標Q(S|q,D)を直接最適化することはできない。その代わりに、以下のようないくつかの要約品質予測手段によってQ(S|q,D)の「代用」とすることができる。
【0040】
【数13】
【0041】
所与の候補要約Sの顕著性(サリエンシ)(saliency)または焦点のレベルを推算するためにこのようなそれぞれの品質「予測器」
【数14】

を設計し、実際の要約品質と(ある程度まで)相関すると仮定する。説明を簡単にするために、いくつかの品質予測器が互いに独立しているものと想定し、以下のようにその積をとることによって単一の最適化目標に組み合わせられる。
【0042】
【数15】
【0043】
いくつかの実施形態では、この要約器はいくつかの異なる予測器、例えば5つの異なる予想器を採用することができる。非限定的な一例として、ある実施形態では、最初の2つの予測器が、それぞれファクトイド・コーパスと統計コーパスから構築されたユニグラム言語モデルを使用する。これらは、文中のどれだけ多くの情報がそのクエリをカバーしているか、および、どれだけ多くの量をそのクエリに当てているかを計量するために、知られている技術を採用する。第3の予測器は、要約のどの程度がそのパッケージ・セットをカバーしているかを判定する。第4の予測器は、文中の多様性を実現するためにエントロピーを計量する。最後の2つの予測器は、長さがより長く、述語項構造によって記述されるバイアス文のために備えるものである。いくつかの実施形態では、この要約器はより多いかまたはより少ない予測器を採用してもよい。
【0044】
したがって、上記で式(7)として示した最適化式は、元の制約(上記の式(5)および(6))に従う文の最良の組合せを見つけるためのモデルを提供する。次に、文のこの組合せが、文をテキストの統一性のある単位に書き換えることによってT5トランスフォーマなどの機械作成テキスト・コンテンツを生成するアルゴリズムに入力される。
【0045】
いくつかの実施形態では、コンテンツはエンド・ユーザ用にパーソナライズされる。いくつかのそのような実施形態では、コンテンツをパーソナライズするためのプロセスがユーザ生成コンテンツをメモリにロードする。例えば、いくつかの実施形態では、プロセスは、サブトピックに関連するエディトリアル記事において表明されている意見に関するフィードバックを求める要求を含むフィードバック要求をユーザに送る。ユーザは、その意見に関してコメントするように、または単に意見に同意するか反対するかを示すように求められてもよい。したがって、ユーザ生成コンテンツは、フィードバック要求に応答してユーザから受け取ったフィードバックを含むことになる。いくつかの実施形態では、ユーザ生成コンテンツは、ユーザが、例えばニュース・ウェブサイトまたはソーシャル・メディア・ウェブサイト上のサブトピックに関する投稿または記事に応答して投稿した1つまたは複数のコメントを含んでもよい。そのような実施形態では、ユーザは、ユーザが積極的に参加するそのようなウェブサイトのリストを事前に提供しており、プロセスがユーザによって事前に投稿されたこれらのコメントにアクセスすることを許可すると選択することに同意することを表明済みであることになる。
【0046】
いくつかの実施形態では、プロセスは、ユーザ生成コンテンツの極性を判定するためにユーザ生成コンテンツを解析し、プロセスは指定サブトピックに対するユーザの感情を判定するために使用する。いくつかのそのような実施形態では、プロセスは、指定サブトピックに対するユーザの感情に基づいて重みベクトルを生成する。この重みベクトルは、候補ファクトイドおよび知見のそれぞれの候補項目および特徴ベクトルとともにMKPアルゴリズムに入力される。重みベクトルは、特徴ベクトルの特定の特徴を強調するかまたは強調しないマスクとして機能する、特徴ベクトルの各値のための値を有する。例えば、ユーザが第1のサブトピックと第3のサブトピックに関心があるが、第2のサブトピックには関心がない場合、重み値をユーザにとっての関心サブトピックのための第1の値(例えば1または100)に設定し、他の重み値をユーザにとって関心のないサブトピックのための第2の値(例えばゼロ)に設定してもよい。その結果、MKPアルゴリズムは、計算関連度スコアと重みベクトルと特徴ベクトルとに基づいて、候補テキスト項目を所定数のグループにグループ化する。
【0047】
また、いくつかのそのような実施形態では、プロセスは、候補テキスト項目のグループのうちの候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。プロセスは次に、事前トレーニング済みエンコーダ-デコーダ・モデルを利用して機械作成テキスト・コンテンツを生成し、その結果として、候補テキスト項目の指定グループに基づく指定サブトピックに関する記事ができる。
【0048】
例示の実施形態は、任意の種類のデータ、データ・ソース、またはデータ・ネットワークを介したデータ・ソースへのアクセスに関して実装可能である。任意の種類のデータ・ストレージ・デバイスが、本発明の範囲内で、データ処理システムにおいてローカルで、またはデータ・ネットワークを介して本発明の実施形態にデータを提供することができる。実施形態についてモバイル・デバイスを使って説明している場合、そのモバイル・デバイスとともに使用するのに適した任意の種類のデータ・ストレージ・デバイスが、例示の実施形態の範囲内で、モバイル・デバイスにおいてローカルで、またはデータ・ネットワークを介してそのような実施形態にデータを提供することができる。
【0049】
例示の実施形態については、特定のコード、設計、アーキテクチャ、プロトコル、レイアウト、図式およびツールを例としてのみ使用して説明しており、例示の実施形態に対する限定ではない。また、例示の実施形態について、場合によっては、説明がわかりやすいように一例としてのみ特定のソフトウェア、ツールおよびデータ処理環境を使用して説明している。例示の実施形態は、他の同等または類似した目的の構造体、システム、アプリケーションまたはアーキテクチャとともに使用可能である。例えば、他の同等のモバイル・デバイス、そのための構造体、システム、アプリケーションまたはアーキテクチャが、本発明の範囲内で本発明のそのような実施形態とともに使用されてもよい。例示の一実施形態は、ハードウェア、ソフトウェアまたはこれらの組合せで実装可能である。
【0050】
本開示における実施例は、説明をわかりやすくするためにのみ使用されており、例示の実施形態に対する限定ではない。本開示から、追加のデータ、動作、アクション、タスク、活動および操作が想到可能であり、例示の実施形態の範囲内で企図される。
【0051】
本明細書で列挙されているいずれの利点も、例に過ぎず、例示の実施形態に対する限定は意図されていない。特定の例示の実施形態によって、追加の利点または異なる利点も実現可能である。また、特定の例示の一実施形態が、上記で列挙されている利点の一部または全部を有する場合があり、またはいずれも有しない場合もある。
【0052】
本開示は、クラウド・コンピューティング環境についての詳細な説明を含むが、本明細書に記載の教示の実装はクラウド・コンピューティング環境には限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているかまたは今後開発される任意の他の種類のコンピューティング環境とともに実装可能である。
【0053】
クラウド・コンピューティングは、最小限の管理労力またはサービス・プロバイダとの相互連絡で迅速にプロビジョニングすることができ、解放することができる、構成可能コンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共用プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配布のモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つの展開モデルとを含み得る。
【0054】
特徴は以下の通りである。
【0055】
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダとの間で人間の介在を必要とせずに一方的に、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能をプロビジョニングすることができる。
【0056】
広いネットワーク・アクセス:機能は、ネットワークを介して利用可能であり、異種のシン・クライアントまたはシック・クライアント・プラットフォーム(例えば携帯電話、ラップトップ、およびパーソナル・デジタル・アシスタント(PDA))による使用を促進する標準機構を介してアクセスする。
【0057】
リソース・プール:マルチテナント・モデルを使用して複数の消費者に対応するために、プロバイダのコンピューティング・リソースがプールされ、需要に応じて、異なる物理および仮想リソースが動的に割り当てられ、再割り当てされる。消費者は一般に、提供されるリソースの厳密な場所について管理することができず知識もないが、より高い抽象レベルの場所(例えば、国、州、またはデータセンター)を指定することが可能な場合があるという点で、位置独立感がある。
【0058】
迅速な伸縮性:迅速かつ伸縮性をもって、いくつかの場合では自動的に機能をプロビジョニングして、迅速にスケールアウトすることができ、また、迅速に機能を解放して迅速にスケールインすることができる。消費者にとっては、プロビジョニングのために利用可能な機能はしばしば無限であるように見え、いつでも好きなだけ購入することができる。
【0059】
従量制サービス:クラウド・システムが、サービスの種類(例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に応じて適切な何らかの抽象化レベルの計量機能を利用することによって、リソース利用を自動的に制御し、最適化する。リソース使用量を監視、制御および報告することができ、利用されたサービスの透明性をプロバイダと消費者の両方に与えることができる。
【0060】
サービス・モデルは以下の通りである。
【0061】
ソフトウェア・アズ・ア・サービス(Software as a Service(SaaS)):消費者に提供される機能は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブ・ベースのEメール)を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ固有アプリケーション構成設定の考えられる例外を除き、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個別のアプリケーション機能まで含めて、基礎にあるクラウド・インフラストラクチャを管理も制御もしない。
【0062】
プラットフォーム・アズ・ア・サービス(Platform as a Service(PaaS)):消費者に提供される機能は、クラウド・インフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成または取得アプリケーションを展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎にあるクラウド・インフラストラクチャを管理も制御もしないが、展開されたアプリケーションと、場合によってはアプリケーション・ホスティング環境構成とを制御することができる。
【0063】
インフラストラクチャ・アズ・ア・サービス(Infrastructure as a Service(IaaS)):消費者に提供される機能は、処理、ストレージ、ネットワークおよびその他の基本的コンピューティング・リソースをプロビジョニングすることであり、その際、消費者は、オペレーティング・システムとアプリケーションとを含み得る任意のソフトウェアを展開し、実行することができる。消費者は、基礎にあるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システムと、ストレージと、展開されたアプリケーションとを制御することができ、場合によっては選択されたネットワーク・コンポーネント(例えばホスト・ファイアウォール)の限定的な制御を行うことができる。
【0064】
展開モデルは以下の通りである。
【0065】
プライベート・クラウド:このクラウド・インフラストラクチャは、組織のためにのみ運用される。組織または第三者によって管理可能であり、オンプレミスまたはオフプレミスに存在可能である。
【0066】
コミュニティ・クラウド:このクラウド・インフラストラクチャは、いくつかの組織によって共用され、共通の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス事項)を有する特定のコミュニティをサポートする。組織または第三者が管理することができ、オンプレミスまたはオフプレミスに存在可能である。
【0067】
パブリック・クラウド:このクラウド・インフラストラクチャは、公衆または大規模業界団体が利用することができ、クラウド・サービスを販売する組織によって所有される。
【0068】
ハイブリッド・クラウド:このクラウド・インフラストラクチャは、独自の実体のままであるが、データおよびアプリケーション可搬性を可能にする標準化技術または専有技術(例えば、クラウド間のロード・バランシング用のクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティまたはパブリック)の複合体である。
【0069】
クラウド・コンピューティング環境は、ステートレス性、疎結合性、モジュール性、および意味的相互運用性に焦点を合わせたサービス指向型である。クラウド・コンピューティングの核心にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
【0070】
図面、特に図1および図2を参照すると、これらの図面は、例示の実施形態を実装可能なデータ処理環境の例示の図である。図1および図2は例に過ぎず、異なる実施形態を実装可能な環境に関していかなる限定も主張または含意することを意図していない。特定の実装形態は、以下の説明に基づいて図示されている環境に多くの修正を加えることができる。
【0071】
図1は、例示の実施形態を実装可能なデータ処理システムのネットワークのブロック図を示す。データ処理環境100は、例示の実施形態を実装可能なコンピュータのネットワークである。データ処理環境100は、ネットワーク102を含む。ネットワーク102は、データ処理環境100内で互いに接続されている様々なデバイスおよびコンピュータ間に通信リンクを提供するために使用される媒体である。ネットワーク102は、ワイヤ、無線通信リンクまたは光ファイバ・ケーブルなどの接続を含み得る。
【0072】
クライアントまたはサーバは、ネットワーク102に接続されている特定のデータ処理システムの役割の例に過ぎず、これらのデータ処理システムの他の構成または役割を排除することは意図されていない。サーバ104およびサーバ106は、ストレージ・ユニット108とともにネットワーク102に結合する。データ処理環境100内のいずれのコンピュータ上でもソフトウェア・アプリケーションが実行可能である。クライアント110、112および114もネットワーク102に結合されている。サーバ104もしくは106、またはクライアント110、112もしくは114などのデータ処理システムは、データを含むことができ、その上で実行されるソフトウェア・アプリケーションまたはソフトウェア・ツールを有することができる。一実施形態では、データ処理システム104は、1つまたは複数の実施形態による、本明細書に記載のデータ・プロセッサ機能のうちの1つまたは複数の機能を実装するように構成可能なアプリケーション105Aを含む、メモリ124を含む。
【0073】
サーバ106は、ストレージ・ユニット108とともにネットワーク102に結合する。ストレージ・ユニット108は、様々な実施形態に関して本明細書に記載のようなデータ、例えば画像データおよび属性データを記憶するように構成されたデータベース109を含む。サーバ106は従来のデータ処理システムである。一実施形態では、サーバ106は、1つまたは複数の実施形態による、本明細書に記載のプロセッサ機能のうちの1つまたは複数の機能を実装するように構成可能なニューラル・ネットワーク・アプリケーション105Bを含む。
【0074】
クライアント110、112および114もネットワーク102に結合されている。サーバ106、またはクライアント110、112もしくは114などの従来のデータ処理システムが、データを含むことができ、その上で従来のコンピューティング・プロセスを実行するソフトウェア・アプリケーションまたはソフトウェア・ツールを有することができる。
【0075】
一例に過ぎず、このようなアーキテクチャに対するいかなる限定も含意せずに、図1に、一実施形態の例示の実装形態において使用可能な特定のコンポーネントを示す。例えば、サーバ104および106と、クライアント110、112、114は、一例としてのみサーバおよびクライアントとして図示されており、クライアント-サーバ・アーキテクチャに対する限定を含意していない。別の例として、一実施形態は、図示されるようにいくつかのデータ処理システムとデータ・ネットワークにわたって分散可能であるが、別の実施形態は、例示の実施形態の範囲内で、単一のデータ処理システム上で実装可能である。データ処理システム104、106、110、112および114は、一実施形態を実装するのに適した、クラスタにおける例示のノード、パーティション、およびその他の構成も表す。
【0076】
デバイス132は、本明細書に記載のデバイスの一例である。例えば、デバイス132は、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、固定または携帯型の形態のクライアント110、ウェアラブル・コンピューティング・デバイス、または任意のその他の適切なデバイスの形態をとることができる。図1の別のデータ処理システムにおいて実行されるものとして説明されている任意のソフトウェア・アプリケーションを、同様の方式でデバイス132において実行されるように構成することができる。図1の別のデータ処理システムにおいて記憶または生成される任意のデータまたは情報を、同様の方式でデバイス132において記憶または生成されるように構成可能である。
【0077】
アプリケーション105A/105Bが、本明細書に記載の一実施形態を実装する。アプリケーション105A/Bは、サーバ104ならびに106、クライアント110、112ならびに114、およびデバイス132のいずれかで実行される。
【0078】
サーバ104および106と、ストレージ・ユニット108と、クライアント110、112および114と、デバイス132とは、有線接続、無線通信プロトコル、またはその他の適切なデータ接続を使用してネットワーク102に結合可能である。クライアント110、112および114は、例えばパーソナル・コンピュータまたはネットワーク・コンピュータであってもよい。
【0079】
図示されている実施例では、サーバ104は、ブート・ファイル、オペレーティング・システム・イメージおよびアプリケーションなどのデータを、クライアント110、112、および114に提供することができる。クライアント110、112および114は、この実施例ではサーバ104に対するクライアントとすることができる。クライアント110、112、114またはこれらの任意の組合せは、それ自体のデータ、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションを含み得る。データ処理環境100は、示されていない追加のサーバ、クライアントおよびその他のデバイスを含み得る。
【0080】
図示されている実施例では、メモリ124は、ブート・ファイル、オペレーティング・システム・イメージおよびアプリケーションなどのデータを、プロセッサ122に提供することができる。プロセッサ122は、それ自体のデータ、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションを含み得る。データ処理環境100は、図示されていない追加のメモリ、プロセッサおよびその他のデバイスを含み得る。
【0081】
図示されている実施例では、データ処理環境100はインターネットであってもよい。ネットワーク102は、互いに通信するために伝送制御プロトコル/インターネット・プロトコル(TCP/IP)およびその他のプロトコルを使用するネットワークとゲートウェイの集合を表し得る。インターネットの核心には、データおよびメッセージをルーティングする数千の商業、政府、教育およびその他のコンピュータ・システムを含む、主要ノードまたはホスト・コンピュータ間のデータ通信リンクの基幹回線がある。当然ながら、データ処理環境100は、例えばイントラネット、ローカル・エリア・ネットワーク(LAN)、またはワイド・エリア・ネットワーク(WAN)などのいくつかの異なる種類のネットワークとしても実装可能である。図1は、一例として意図されており、異なる例示の実施形態のアーキテクチャの限定としては意図されていない。
【0082】
データ処理環境100は、数ある用途の中でも、例示の実施形態を実装可能なクライアント-サーバ環境を実装するために使用可能である。クライアント-サーバ環境は、アプリケーションがクライアント・データ処理システムとサーバ・データ処理システムとの間の相互接続を使用して機能するように、ソフトウェア・アプリケーションおよびデータがネットワークに分散されることを可能にする。データ処理環境100は、ネットワークに分散された相互運用可能なソフトウェア・コンポーネントを一貫性のあるビジネス・アプリケーションとしてまとめてパッケージ化可能な、サービス指向アーキテクチャも採用してもよい。データ処理環境100は、クラウドの形態をとってもよく、最小限の管理労力またはサービス・プロバイダとの相互連絡によって迅速にプロビジョニングと解放が可能な構成可能コンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするために、サービス配信のクラウド・コンピューティング・モデルを採用してもよい。
【0083】
図2を参照すると、この図は例示の実施形態を実装可能なデータ処理システムのブロック図を示している。データ処理システム200は、図1のサーバ104および106またはクライアント110、112および114などのコンピュータの一例であるか、または、プロセスを実装するコンピュータ使用可能プログラム・コードまたは命令を例示の実施形態のために配置することができる別の種類のデバイスである。
【0084】
データ処理システム200は、例示の実施形態のプロセスを実装するコンピュータ使用可能プログラム・コードまたは命令を配置可能な、図1のデータ処理システム132などのデータ処理システムまたはデータ処理システムにおける構成も表す。データ処理システム200について、一例としてのみコンピュータとして説明するが、コンピュータには限定されない。図1のデバイス132などの他のデバイスの形態の実装形態が、タッチ・インターフェースを追加するなどしてデータ処理システム200を変更してもよく、本明細書に記載のデータ処理システム200の動作および機能の概説から逸脱することなく、データ処理システム200から特定の図示されているコンポーネントを省いてもよい。
【0085】
図示されている実施例では、データ処理システム200は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202と、サウス/ブリッジおよび入力/出力(I/O)コントローラ・ハブ(SB/ICH)204とを含むハブ・アーキテクチャを採用する。処理ユニット206とメイン・メモリ208とグラフィックス・プロセッサ210とが、NB/MCH202に結合される。処理ユニット206は、1つまたは複数のプロセッサを含んでもよく、1つまたは複数の異種プロセッサ・システムを使用して実装されてもよい。処理ユニット206は、マルチコア・プロセッサであってもよい。特定の実装形態では、グラフィックス・プロセッサ210は、アクセラレーテッド・グラフィックス・ポート(AGP)を介してNB/MCH202に結合されてもよい。
【0086】
図示されている実施例では、LANアダプタ212が、SB/ICH204に結合される。オーディオ・アダプタ216と、キーボードおよびマウス・アダプタ220と、モデム222と、読み出し専用メモリ(ROM)224と、ユニバーサル・シリアル・バス(USB)およびその他のポート232と、PCI/PCIeデバイス234とが、バス238を介してSB/ICH204に結合される。ハード・ディスク・ドライブ(HDD)またはソリッド・ステート・ドライブ(SSD)226とコンパクト・ディスク読み出し専用メモリ(CD-ROM)230とが、バス240を介してSB/ICH204に結合される。PCI/PCIeデバイス234は、例えば、ノートブック・コンピュータ用のEthernet(R)アダプタ、アドイン・カード、およびPCカードを含むことができる。PCIはカード・バス・コントローラを使用し、PCIeは使用しない。ROM224は、例えばフラッシュ・バイナリ入力/出力システム(BIOS)であってもよい。HDD226およびCD-ROM230は、例えばインテグレーテッド・ドライブ・エレクトロニクス(IDE)、シリアル・アドバンスド・テクノロジー・アタッチメント(SATA)インターフェース、またはエクスターナルSATA(eSATA)およびマイクロSATA(mSATA)などの変形版を使用してもよい。スーパーI/O(SIO)デバイス236が、バス238を介してSB/ICH204に結合されてもよい。
【0087】
メイン・メモリ208、ROM224またはフラッシュ・メモリ(図示せず)などのメモリが、コンピュータ使用可能ストレージ・デバイスのいくつかの例である。HDDまたはSSD226、CD-ROM230およびその他の同様に使用可能デバイスが、コンピュータ使用可能記憶媒体を含むコンピュータ使用可能ストレージ・デバイスのいくつかの例である。
【0088】
処理ユニット206上でオペレーティング・システムが稼働する。オペレーティング・システムは、図2のデータ処理システム200内の様々なコンポーネントを連係させ、制御を与える。オペレーティング・システムは、サーバ・システム、パーソナル・コンピュータおよびモバイル・デバイスを含むがこれらには限定されない任意の種類のコンピューティング・プラットフォーム用の市販オペレーティング・システムであってよい。オブジェクト指向またはその他の種類のプログラミング・システムが、オペレーティング・システムとともに動作可能であり、データ処理システム200上で実行されているプログラムまたはアプリケーションからオペレーティング・システムに呼び出しを与えることができる。
【0089】
オペレーティング・システム、オブジェクト指向プログラミング・システム、および図1のアプリケーション105などのアプリケーションまたはプログラムのための命令が、ハード・ディスク・ドライブ226上のコード226Aの形態などでストレージ・デバイス上に配置され、処理ユニット206による実行のためにメイン・メモリ208などの1つまたは複数のメモリのうちの少なくとも1つのメモリにロード可能である。例示の実施形態のプロセスは、例えばメイン・メモリ208、読み出し専用メモリ224などのメモリ、または1つまたは複数の周辺デバイスにあり得るコンピュータ実装命令を使用して、処理ユニット206によって実行可能である。
【0090】
また、一事例では、コード226Aは、類似のコード201Cがストレージ・デバイス201Dに記憶されているリモート・システム201Bから、ネットワーク201Aを介してダウンロードされてもよい。別の事例では、コード226Aは、ダウンロードされたコード201Cがストレージ・デバイス201Dに記憶されているリモート・システム201Bに、ネットワーク201Aを介してダウンロードされてもよい。
【0091】
図1および図2のハードウェアは、実装形態によって異なり得る。フラッシュ・メモリ、同等の不揮発性メモリ、または光ディスク・ドライブなどの、他の内部ハードウェアまたは周辺デバイスも、図1および図2に示すハードウェアに加えて、または代えて使用することができる。さらに、例示の実施形態のプロセスは、マルチプロセッサ・データ処理システムに適用されてもよい。
【0092】
いくつかの例示の実施例では、データ処理システム200は、オペレーティング・システム・ファイルまたはユーザ生成データあるいはその両方を記憶するための不揮発性メモリを提供するようにフラッシュ・メモリを備えて一般的に構成されたPDAであってもよい。バス・システムは、システム・バス、I/OバスおよびPCIバスなどの1つまたは複数のバスを含み得る。当然ながら、バス・システムは、ファブリックまたはアーキテクチャに接続された異なるコンポーネントまたはデバイス間のデータの転送を実現する任意の種類の通信ファブリックまたはアーキテクチャを使用して実装可能である。
【0093】
通信ユニットは、モデムまたはネットワーク・アダプタなど、データを送受信するために使用される1つまたは複数のデバイスを含み得る。メモリは、例えば、メイン・メモリ208、またはNB/MCH202にあるキャッシュなどのキャッシュであってもよい。処理ユニットは、1つまたは複数のプロセッサまたはCPUを含み得る。
【0094】
図1および図2に図示されている実施例および上述の実施例は、アーキテクチャの限定を含意することを意図していない。例えば、データ処理システム200は、モバイルまたはウェアラブル・デバイスの形態をとることに加えて、タブレット・コンピュータ、ラップトップ・コンピュータ、または電話デバイスであってもよい。
【0095】
コンピュータまたはデータ処理システムについて仮想マシン、仮想デバイスまたは仮想コンポーネントとして説明されている場合、その仮想マシン、仮想デバイスまたは仮想コンポーネントは、データ処理システム200に図示されている一部または全部のコンポーネントの仮想化された具現化を使用して、データ処理システム200の方式で動作する。例えば、仮想マシン、仮想デバイスまたは仮想コンポーネントでは、処理ユニット206は、ホスト・データ処理システムで利用可能なハードウェア処理ユニット206の数のうちの全部または一部の仮想化インスタンスとして具現化され、メイン・メモリ208はホスト・データ処理システムで利用可能となり得るメイン・メモリ208の全部または一部の仮想化インスタンスとして具現化され、ディスク226はホスト・データ処理システムで利用可能となり得るディスク226の全部または一部の仮想化インスタントして具現化される。このような場合のホスト・データ処理システムは、データ処理システム200によって表される。
【0096】
図3Aおよび図3Bを参照すると、これらの図は例示の実施形態による例示の構成300Aおよび300Bのブロック図を示す。例示の実施形態はそれぞれ、認知集約およびオーサリング(CAA)システム302を含む。いくつかの実施形態では、CAAシステム302は図1のアプリケーション105A/105Bの一例である。
【0097】
例示の実施形態では、パーソナル・コンピュータなどのユーザ・デバイス310が情報を求める要求を送信するために使用される。例えば、ユーザ・デバイス310は、現在の重大ニュースまたはユーザが参加しているイベントに関連するトピックまたはユーザにとって関心のある別のトピックなどの特定のトピックに関連するニュース記事またはその他の形態のデジタル・コンテンツあるいはその両方を受け取ることを要求してもよい。ユーザ・デバイス310は、ネットワーク308を介してCAAシステム302に要求を出す。以下で詳述するように、CAAシステム302は、複数のデータ・ソース、例えばデータベース304~306、またはインターネットを介して入手可能な情報のその他の供給源から情報を受け取る。CAAシステム302は、この情報を使用して機械作成コンテンツを生成する。いくつかの実施形態では、CAAシステム302は、トピックに関連する情報を特定し、それらのトピック関連情報をグループに編成することによって、特定のトピックのためのコンテンツを生成する。いくつかの実施形態では、CAAシステム302は、グループ化された情報の関連度および希望に応じてその他の品質指標を最大化するために、複数ナップサック・アルゴリズムを使用してグループを最適化する。CAAシステム302は次に、グループを選択し、機械作成コンテンツを生成するためにそのグループ内の情報を使用する。
【0098】
図3Aに示す構成300Aなどのいくつかの実施形態では、ユーザ・デバイス310は、ネットワーク308を介してCAAシステム302上のサービスに直接、情報を求める要求を出す。図3Bに示す構成300Bなどの代替の実施形態では、ユーザ・デバイス310は、CAAシステム302に間接的に要求を出す。例えば、構成300Bの図示されている実施形態では、ユーザ・デバイス310は、サードパーティ・サービス312に要求を出し、そのサードパーティ・サービス312がCAAシステム302と相互連絡する。いくつかのそのような実施形態では、サードパーティ・サービス312は、サードパーティ・サービス312がCAAシステム302からそのためにコンテンツを受け取る、オンライン新聞、デジタル・マガジンまたはニュース・アグリゲータなどの、ニュース・ウェブサイトまたはモバイル・アプリケーションを運営する。
【0099】
図4を参照すると、この図は例示の一実施形態による、例示の構成400のブロック図を示す。例示の実施形態は、CAAシステム418を含む。いくつかの実施形態では、CAAシステム418は、図3Aおよび図3BのCAAシステム302および図1のアプリケーション105A/105Bの一例である。
【0100】
例示の実施形態では、スマートフォン、タブレット・コンピュータ、またはその他のコンピューティング・デバイスなどのユーザ・デバイス422が、情報を求める要求を送信するアプリケーション424を実行する。例えば、ユーザ・デバイス422は、現在の重大ニュースまたはユーザが参加しているイベントかまたはユーザにとって関心のある別のトピックに関連するトピックなどの特定のトピックに関連する、ニュース記事またはその他の形態のデジタル・コンテンツあるいはその両方を受け取ることを要求する。ユーザ・デバイス422は、ネットワーク420を介してその要求を(直接または間接的に)CAAシステム418に出す。以下で詳述するように、CAAシステム418は、複数のデータ・ソース、例えばコーパス414~416、またはインターネットを介して入手可能な情報のその他の供給源から情報を受け取る。CAAシステム418は、この情報を、機械作成コンテンツを生成するために使用する。いくつかの実施形態では、CAAシステム418は、トピックに関連する情報を特定し、そのトピック関連情報をグループに編成することによって、特定のトピックのためのコンテンツを生成する。いくつかの実施形態では、CAAシステム418は、グループ化された情報の関連度および希望に応じてその他の品質指標を最大化するために、複数ナップサック・アルゴリズムを使用してグループを最適化する。CAAシステム418は次に、グループを選択し、機械作成コンテンツを生成するためにそのグループ内の情報を使用する。
【0101】
図4に示す構成400などのいくつかの実施形態では、コーパス414~416は、それぞれの独立したNLPパイプライン410~412によって生成される。NLPパイプライン410は、NLPパイプライン410がネットワーク406を介してアクセスするデータ・ソース402からのデータを使用してコーパス414を構築する。NLPパイプライン411は、NLPパイプライン411がネットワーク407を介してアクセスするデータ・ソース403からのデータを使用してコーパス415を構築する。NLPパイプライン412は、NLPパイプライン412がネットワーク408を介してアクセスするデータ・ソース404からのデータを使用してコーパス416を構築する。
【0102】
3つのNLPパイプライン410~412が示されているが、代替の実施形態は任意の数のNLPパイプラインを含むことができる。CAAシステム418の情報源として機能することができるNLPパイプラインの例には、情報検索、単語頻度分布を調べるための字句解析、パターン認識、タグ付け/注釈、情報抽出、リンクおよび関連性分析を含むデータ・マイニング技術、視覚化および予測解析を含み得るテキスト解析システムが含まれる。
【0103】
いくつかの実施形態では、NLPパイプライン410~412のうちの1つまたは複数のNLPパイプラインが、構造化データから生成されたテキスト・コンテンツを使用して知見を生成する処理を含む。例えば、いくつかの実施形態では、NLP処理は、例えば、特定のトピックに関連する情報について数万または数十万のデータ・ソースにクエリを行い、クエリ結果における数ギガバイトのデータを取得することによって、大量のデータ・ソースをデータ・マイニングすることを含む。いくつかのそのような実施形態では、NLP処理は、知見に富む要約、例えば、因果関係の理解に寄与するかまたは理解を助ける関係および挙動を特定することを含む、特定の文脈またはシナリオ内の因果関係を説明する要約を生成するための、自然言語生成とトランスフォーマ・モデルと意思決定最適化の使用をさらに含む。
【0104】
いくつかの実施形態では、NLPパイプライン410~412のうちの1つまたは複数が、定評のあるデータ・ソースからテキスト・コンテンツとしてファクトイドを生成するための処理を含む。本明細書で使用する「ファクトイド」とは、あまり知られていない(すなわちトリビアである)が興味深い情報を指す。いくつかのそのような実施形態では、NLP処理は、例えば、特定のトピックに関連する情報について数万または数十万のデータ・ソースにクエリを行い、クエリ結果における数ギガバイトのデータを取得することによって、大量のデータ・ソースをデータ・マイニングすることを含む。処理は次に、記事または記事の一部を要約する文を見つけるためにクエリ結果内で記事に抽出型要約を適用することを含む。いくつかの実施形態では、例えば結果が特定の関心トピックにどの程度密接に関連しているか、文章の質(例えば結果が文法の誤り、綴りの誤りまたは乱暴な言葉を含むか否か)、またはその他の所望の基準に基づいて、結果にランク付けするために、1つまたは複数の品質指標が使用される。
【0105】
図5を参照すると、この図は、例示の一実施形態による、例示のCAAシステム500のブロック図を示す。特定の一実施形態では、CAAシステムは、図1のアプリケーション105A/105B、図3Aおよび図3BのCAAシステム302、および図4のCAAシステム418の一例である。
【0106】
いくつかの実施形態では、CAAシステム500は、ローディング・モジュール502と、候補選択モジュール504と、グループ化モジュール506と、トレーニング・モジュール508と、記事生成モジュール510と、記事公開モジュール512と、管理インターフェース514と、メモリ516と、プロセッサ518とを含む。代替の実施形態では、CAAシステム500は、本明細書に記載の機能であるが、1つまたは複数のモジュールに異なる方式でグループ化された機能の一部または全部を含むことができる。いくつかの実施形態では、本明細書に記載の機能は、ソフトウェアまたはハードウェア・ベースのシステムあるいはその両方の組合せ、例えば特定用途向け集積回路(ASIC)、コンピュータ・プログラム、またはスマートフォン・アプリケーションを含み得る複数のシステムに分散される。いくつかの実施形態では、モジュール502~512および管理インターフェース514は、プロセッサ518に本明細書に記載の動作を行わせるようにプロセッサ518によって実行可能なプログラム命令を含むソフトウェア・モジュールである。
【0107】
この例示の実施形態では、ローディング・モジュール502は、1つまたは複数のコーパス520からコンテンツを抽出する一環として、複数のデジタル・コンテンツ・データセットをメモリ516にロードする。複数のデジタル・コンテンツ・データセットは、その複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含むクエリ・ステートメントを満たす。
【0108】
候補選択モジュール504は、複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用して1つまたは複数のそれぞれのサブトピックへの各候補テキスト項目の関連度に基づいて、候補テキスト項目の1つまたは複数の組を特定する。いくつかの実施形態では、項目は文または語句である。いくつかの実施形態では、候補選択モジュール504は、1つまたは複数の自然言語処理技術を利用して、それぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定される関連度を計算する。いくつかの実施形態では、候補選択モジュール504は、候補テキスト項目の解析に基づいて候補テキスト項目のそれぞれの特徴ベクトルを生成する。いくつかの実施形態では、特徴ベクトルはそれぞれ、1つまたは複数の関連度値と、任意選択で1つまたは複数の品質値を含む。いくつかの実施形態では、1組の候補テキスト項目は、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む。いくつかの実施形態では、1組の候補テキスト項目は、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む。
【0109】
グループ化モジュール506は、計算関連度スコアと特徴ベクトルとを使用して、1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化する。いくつかの実施形態では、グループ化モジュール506は、候補テキスト項目の所定数のグループを結果としてもたらすMKPの解を求めることによって、候補テキスト項目をグループ化する。
【0110】
トレーニング・モジュール508は、候補テキスト項目のグループの中から、候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。事前トレーニング済みエンコーダ-デコーダ・モデルは、特定の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。記事生成モジュール510は、事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の指定グループに基づく指定サブトピックに関する記事が結果として得られるその特定の文体の機械作成テキスト・コンテンツを生成する。
【0111】
いくつかの実施形態では、トレーニング・モジュール508は、候補テキスト項目のグループの中から、候補テキスト項目の複数の指定グループのうちのそれぞれ1つを使用して、複数の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。複数の事前トレーニング済みエンコーダ-デコーダ・モデルは、それぞれ互いに異なり得るそれぞれの文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。記事生成モジュール510は、複数の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の指定グループに基づく指定サブトピックに関する複数の記事が結果として得られるそれぞれの文体の機械作成テキスト・コンテンツを生成する。
【0112】
記事公開モジュール512は、記事をリモート・ウェブ・サーバ522によってホストされるウェブサイトのための更新としてリモート・ウェブ・サーバ522に送信する。いくつかのそのような実施形態では、記事公開モジュール512は、記事をリモート・ウェブ・サーバ522にカスタム・ウェブページの更新として送信し、カスタム・ウェブページはユーザ用にカスタマイズされる。いくつかのそのような実施形態では、メモリ516は、トピックまたはサブトピックに対するユーザの感情を示す、ユーザによって生成されたユーザ生成コンテンツを記憶する。いくつかの実施形態では、ユーザは、コンピュータ・デバイス524を操作してユーザ管理インターフェース514を介して、例えば調査質問に回答するか、ユーザ・プロファイルを記入するか、またはその他のプロセスによって、ユーザ生成コンテンツの少なくとも一部を入力する。いくつかのそのような実施形態では、候補選択モジュール504が、トピックまたはサブトピックに対するユーザの感情に基づいて重みベクトルを生成し、グループ化モジュール506が、特徴ベクトルの値を調整するために重みベクトルを使用して候補テキスト項目を候補テキスト項目のグループにグループ化する。
【0113】
図6を参照すると、この図は例示の一実施形態による例示のCAAシステム600のブロック図を示す。特定の一実施形態では、CAAシステムは、図1のアプリケーション105A/105B、図3Aおよび図3BのCAAシステム302、および図4のCAAシステム418の一例である。
【0114】
いくつかの実施形態では、CAAシステム600は、ローディング・モジュール602と、候補選択モジュール604と、グループ化モジュール606と、トレーニング・モジュール608と、記事生成モジュール610と、記事公開モジュール612と、管理インターフェース614と、メモリ616と、プロセッサ618と、感情解析モジュール626と、マスキング・モジュール634と、極性検出モジュール636と、ユーザ・フィードバック・モジュール638とを含む。代替の実施形態では、CAAシステム600は、本明細書に記載の機能であるが1つまたは複数のモジュールに異なる方式でグループ化されている機能の一部または全部を含むことができる。いくつかの実施形態では、本明細書に記載の機能は、ソフトウェアまたはハードウェア・ベースのシステムあるいはその両方の組合せ、例えばASIC、コンピュータ・プログラム、またはスマートフォン・アプリケーションを含み得る複数のシステムに分散される。いくつかの実施形態では、モジュール602~612、626および634~638と管理インターフェース614は、プロセッサ618に本明細書に記載の動作を行わせるようにプロセッサ618によって実行可能なプログラム命令を含むソフトウェア・モジュールである。
【0115】
この例示の実施形態では、ローディング・モジュール602は、1つまたは複数のコーパス620からコンテンツを抽出する一環として、複数のデジタル・コンテンツ・データセットをメモリ616にロードする。複数のデジタル・コンテンツ・データセットは、その複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含むクエリ・ステートメントを満たす。
【0116】
候補選択モジュール604は、複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用して1つまたは複数のそれぞれのサブトピックへの各候補テキスト項目の関連度に基づいて、候補テキスト項目の1つまたは複数の組を特定する。いくつかの実施形態では、項目は文または語句である。いくつかの実施形態では、候補選択モジュール604は、1つまたは複数の自然言語処理技術を利用して、それぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定される関連度を計算する。いくつかの実施形態では、候補選択モジュール604は、候補テキスト項目の解析に基づいて候補テキスト項目のそれぞれの特徴ベクトルを生成する。いくつかの実施形態では、極性検出モジュール636は、NLPを使用して候補テキスト項目のそれぞれの極性を判定し、記事が最適化されている程度を示す極性スコアを与え、その記事が支持している論点の側の標識も含んでもよい。いくつかの実施形態では、特徴ベクトルはそれぞれ、1つまたは複数の関連度値と任意選択で1つまたは複数の品質値および極性スコアを含む。いくつかの実施形態では、1組の候補テキスト項目は、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む。いくつかの実施形態では、1組の候補テキスト項目は、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む。
【0117】
ユーザ・フィードバック・モジュール638は、ユーザによって生成されたユーザ生成コンテンツをメモリ616にロードする。感情解析モジュール626は、サブトピックに対するユーザの感情を判定する一環として、ユーザ生成コンテンツを解析し、その結果としてユーザ生成コンテンツの極性を判定する。マスキング・モジュール634は、サブトピックに対するユーザの感情に基づいて重みベクトルを生成する。
【0118】
グループ化モジュール606は、計算関連度スコアと特徴ベクトルと重みベクトルとを使用して、1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化する。いくつかの実施形態では、グループ化モジュール606は、候補テキスト項目の所定数のグループを結果として得られるMKPの解を求めることによって、候補テキスト項目をグループ化する。
【0119】
トレーニング・モジュール608は、候補テキスト項目のグループの中から、候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。事前トレーニング済みエンコーダ-デコーダ・モデルは、特定の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。記事生成モジュール610は、事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の指定グループに基づく指定サブトピックに関する記事が結果として得られるその特定の文体の機械作成テキスト・コンテンツを生成する。
【0120】
いくつかの実施形態では、トレーニング・モジュール608は、候補テキスト項目のグループの中から、候補テキスト項目の複数の指定グループのうちのそれぞれ1つを使用して、複数の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。複数の事前トレーニング済みエンコーダ-デコーダ・モデルは、それぞれ互いに異なり得る文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる。記事生成モジュール610は、複数の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の指定グループに基づく指定サブトピックに関する複数の記事が結果として得られるそれぞれの文体の機械作成テキスト・コンテンツを生成する。
【0121】
記事公開モジュール612は、記事を、インターネットを含み得るネットワーク628を介してリモート・ウェブ・サーバ622に、スマートフォンまたはタブレットなどのコンピューティング・デバイス630上で動作するアプリケーション用の、リモート・ウェブ・サーバ622によってホストされるウェブサイトのための更新された記事632として送信する。いくつかのそのような実施形態では、記事公開モジュール612は、記事をリモート・ウェブ・サーバ622にカスタム・ウェブページのための更新として送信し、カスタム・ウェブページはユーザ用にカスタマイズされる。いくつかのそのような実施形態では、メモリ616が、トピックまたはサブトピックに対するユーザの感情を示す、ユーザによって生成されたユーザ生成コンテンツを記憶する。いくつかの実施形態では、ユーザは、コンピュータ・デバイス624を操作してユーザ管理インターフェース614を介して、例えば調査質問に回答するか、ユーザ・プロファイルを記入するか、またはその他のプロセスによって、ユーザ生成コンテンツの少なくとも一部を入力する。いくつかのそのような実施形態では、候補選択モジュール604が、トピックまたはサブトピックに対するユーザの感情に基づいて重みベクトルを生成し、グループ化モジュール606が、特徴ベクトルの値を調整するために重みベクトルを使用して候補テキスト項目を候補テキスト項目のグループにグループ化する。
【0122】
図7を参照すると、この図は、例示の一実施形態による認知集約およびオーサリングのための例示のプロセス700のフローチャートを示す。いくつかの実施形態では、CAAシステム302、CAAシステム418、CAAシステム500、またはCAAシステム600がプロセス700を実施する。
【0123】
一実施形態では、ブロック702で、プロセスは、コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードする。複数のデジタル・コンテンツ・データセットは、その複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含むクエリ・ステートメントを満たす。
【0124】
次に、ブロック704で、プロセスは、各候補テキスト項目の計算関連度スコアを使用して、サブトピックに対する各候補テキスト項目の関連度に基づいて複数のデジタル・コンテンツ・データセットの中から1組の候補テキスト項目を特定する。いくつかの実施形態では、項目は文または語句である。いくつかの実施形態では、計算関連度スコアは、1つまたは複数の自然言語処理技術を利用して、それぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定される。いくつかの実施形態では、候補テキスト項目のテキスト・コンテンツの解析の結果、候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られる。いくつかの実施形態では、特徴ベクトルはそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む。いくつかの実施形態では、1組の候補テキスト項目は、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む。いくつかの実施形態では、1組の候補テキスト項目は、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む。
【0125】
次に、ブロック706で、プロセスは、プロセッサにおける命令のセットの実行の結果として、計算関連度スコアと特徴ベクトルとを使用して、1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化する。いくつかの実施形態では、候補テキスト項目のグループ化は、結果として候補テキスト項目の所定数のグループが得られる、MKPの解を求めることを含む。次に、ブロック708で、プロセスは候補テキスト項目のグループの中から、候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。第1の事前トレーニング済みエンコーダ-デコーダ・モデルは、第1の文体に従ったテキスト・コンテンツを生成するように事前トレーニングされる。次に、ブロック710で、プロセスは、第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、結果として候補テキスト項目の第1の指定グループに基づく指定サブトピックに関する第1の記事となる第1の文体の機械作成テキスト・コンテンツを生成する。次に、ブロック712で、プロセスは、候補テキスト項目のグループの中から候補テキスト項目の第2の指定グループを使用して、第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。第2の事前トレーニング済みエンコーダ-デコーダ・モデルは、第2の文体に従ったテキスト・コンテンツを生成するように事前トレーニングされる。次に、ブロック714で、プロセスは、第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の第2の指定グループに基づく、指定サブトピックに関する第2の記事が結果として得られる、第2の文体の機械作成テキスト・コンテンツを生成する。
【0126】
次に、ブロック716で、プロセスは、第1および第2の記事をリモート・ウェブ・サーバに、リモート・ウェブ・サーバによってホストされているウェブサイトのための更新として送信する。いくつかのそのような実施形態では、第1および第2の記事をリモート・ウェブ・サーバにウェブサイトの更新として送信することは、第1および第2の記事をカスタム・ウェブページの更新として送信することを含み、カスタム・ウェブページはユーザ用にカスタマイズされる。いくつかのそのような実施形態では、プロセスは、ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、トピックに対するユーザの感情を判定する一環として、選択ユーザ生成コンテンツの極性が結果として判定される、選択ユーザ生成コンテンツを解析することと、そのユーザ生成コンテンツから、トピックに対する選択ユーザ生成コンテンツの関連度に基づいて選択ユーザ生成コンテンツを特定することとを含む。いくつかのそのような実施形態では、プロセスは、トピックに対するユーザの感情に基づいて重みベクトルを生成することを含み、候補テキスト項目を候補テキスト項目のグループにグループ化することが、特徴ベクトルの値を調整するために重みベクトルを使用することをさらに含む。
【0127】
図8を参照すると、この図は、例示の一実施形態による認知集約およびオーサリングのための例示のプロセス800のフローチャートを示す。いくつかの実施形態では、CAAシステム302、CAAシステム418、CAAシステム500、またはCAAシステム600がプロセス800を実施する。
【0128】
一実施形態では、ブロック802で、プロセスは、複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行する。
【0129】
次に、ブロック804で、プロセスは、クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して指定サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出する。計算関連度スコアは、1つまたは複数の自然言語処理技術を使用して、候補テキスト項目のテキスト・コンテンツを解析することによって決定される。候補テキスト項目のテキスト・コンテンツの解析の結果、候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られる。特徴ベクトルはそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む。
【0130】
次に、ブロック806で、プロセスはユーザ生成コンテンツをメモリにロードする。例えば、いくつかの実施形態では、プロセスは、ユーザに、サブトピックに関連するエディトリアル記事において表明されている意見に関するフィードバックを求める要求を含む、フィードバック要求を送る。ユーザは、意見に関してコメントするように、または単に意見に同意するか反対するかを示すように求められてもよい。したがって、ユーザ生成コンテンツは、フィードバック要求に応答してユーザから受け取ったフィードバックを含むことになる。いくつかの実施形態では、ユーザ生成コンテンツは、ユーザが、例えばニュース・ウェブサイトまたはソーシャル・メディア・ウェブサイト上のサブトピックに関する投稿または記事に応答して投稿した1つまたは複数のコメントを含んでもよい。そのような実施形態では、ユーザは、ユーザが積極的に参加するそのようなウェブサイトのリストを事前に提供しており、プロセスがユーザによって事前に投稿されたこれらのコメントにアクセスすることを許可すると選択することに同意することも表明済みであることになる。
【0131】
次に、ブロック808で、プロセスは、プロセスが指定サブトピックに対するユーザの感情を判定するために使用するユーザ生成コンテンツの極性を判定するために、ユーザ生成コンテンツを解析する。
【0132】
次に、ブロック810で、プロセスは、指定サブトピックに対するユーザの感情に基づいて重みベクトルを生成する。次に、ブロック812で、プロセスは、計算関連度スコアと重みベクトルと特徴ベクトルとに基づいて、候補テキスト項目を所定数のブロックにグループ化する。
【0133】
次に、ブロック814で、プロセスは、候補テキスト項目のグループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングする。次に、ブロック816で、プロセスは、事前トレーニング済みエンコーダ-デコーダ・モデルを利用して機械作成テキスト・コンテンツを生成し、その結果として候補テキスト項目の指定グループに基づく指定サブトピックに関する記事が得られる。次に、ブロック818で、プロセスは、記事をリモート・ウェブ・サーバに、ユーザの感情に基づいてユーザ用にパーソナライズされたコンテンツの表示のための更新として送信する。
【0134】
図9を参照すると、この図はクラウド・コンピューティング環境950を示す。図示されるように、クラウド・コンピューティング環境950は、例えばパーソナル・デジタル・アシスタント(PDA)または携帯電話954A、デスクトップ・コンピュータ954B、ラップトップ・コンピュータ954Cまたは自動車コンピュータ・システム954Nあるいはこれらの組合せなど、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信することができる、1つまたは複数のクラウド・コンピューティング・ノード910を含む。ノード910は互いに通信することができる。ノード910は、上述のプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウドまたはハイブリッド・クラウドあるいはこれらの組合せなどの1つまたは複数のネットワークにおいて物理的または仮想的にグループ化(図示せず)されてもよい。これによって、クラウド・コンピューティング環境950は、インフラストラクチャ、プラットフォーム、またはソフトウェアあるいはこれらの組合せを、クラウド消費者がそのためにローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提供することができる。図9に示すコンピューティング・デバイス954Aないし954Nの種類は、例示を意図したものに過ぎず、コンピューティング・ノード910およびクラウド・コンピューティング環境950は、(例えばウェブ・ブラウザを使用して)任意の種類のネットワーク接続またはネットワーク・アドレス指定可能接続あるいはその組合せを介して、任意の種類のコンピュータ化デバイスと通信することができるものと理解される。
【0135】
図10を参照すると、この図はクラウド・コンピューティング環境950(図9)によって提供される1組の機能抽象化層を示す。図10に示すコンポーネント、層および機能は、例示のみを意図したものであり、本発明の実施形態はこれらには限定されないことを予め理解されたい。図示のように、以下の層および対応する機能が提供される。
【0136】
ハードウェアおよびソフトウェア層1060は、ハードウェア・コンポーネントとソフトウェア・コンポーネントとを含む。ハードウェア・コンポーネントの例としては、メインフレーム1061、縮小命令セットコンピュータ(RISC)アーキテクチャ・ベースのサーバ1062、サーバ1063、ブレード・サーバ1064、ストレージ・デバイス1065、およびネットワークおよびネットワーキング・コンポーネント1066がある。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア1067およびデータベース・ソフトウェア1068を含む。
【0137】
仮想化層1070は、以下のような仮想実体の例を与えることができる抽象化層を提供する。すなわち、仮想サーバ1071と、仮想ストレージ1072と、仮想プライベート・ネットワークを含む仮想ネットワーク1073と、仮想アプリケーションおよびオペレーティング・システム1074と、仮想クライアント1075である。
【0138】
一実施例では、管理層1080は、以下に記載の機能を提供することができる。リソース・プロビジョニング1081は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよびその他のリソースの動的調達を行う。メータリングおよびプライシング1082は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡と、これらのリソースの消費に対する対価の請求またはインボイス処理を行う。一実施例ではこれらのリソースにはアプリケーション・ソフトウェア・ライセンスが含まれてもよい。セキュリティは、クラウド消費者およびタスクのための本人検証と、データおよびその他のリソースの保護とを行う。ユーザ・ポータル1083は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理1084は、必要なサービス・レベルが満たされるようにクラウド・コンピューティングリソース割り当ておよび管理を行う。サービス・レベル・アグリーメント(Service Level Agreement(SLA))計画および履行1085は、SLAに従って将来の要求が予想されるクラウド・コンピューティングリソースのための事前取り決めおよび調達を行う。
【0139】
ワークロードの層1090は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロードおよび機能の例には、マッピングおよびナビゲーション1091、ソフトウェア開発およびライフサイクル管理1092、仮想教室教育配信1093、データ分析処理1094、トランザクション処理1095、および文脈認識による解明自然言語アーティファクトの再組合せ1096が含まれる。
【0140】
特許請求の範囲および本明細書の解釈のために以下の定義および略語を使用するものとする。本明細書で使用する「備える(comprises)」、「備えている(comprising)」、「含む(includes)」、「含んでいる(including)」、「有する(has)」、「有している(having)」、「含有する(contains)」、または「含有している(containing)」という用語またはこれらの任意のその他の変形は、非排他的包含を含むものと意図されている。例えば、列挙されている要素を含む組成物、混合物、プロセス、方法、物、または装置は、必ずしもそれらの要素のみには限定されず、明示的に列挙されていないかまたはそのような組成物、混合物、プロセス、方法、物、または装置に固有の他の要素を含み得る。
【0141】
さらに、本明細書では「例示の」という用語を使用して、「例、事例または例示となる」ことを意味する。「例示の」として本明細書に記載されているいずれの実施形態または設計も、必ずしも他の実施形態または設計よりも好ましいかまたは有利であるものと解釈されるべきではない。「少なくとも1つの」および「1つまたは複数の」という用語は、1以上の任意の整数、すなわち1、2、3、4などを含むものと理解される。「複数の」という用語は、2以上の任意の整数、すなわち、2、3、4、5などを含むものと理解される。「接続」という用語は、間接的な「接続」と直接的な「接続」とを含み得る。
【0142】
本明細書で「一実施形態」「ある実施形態」、「例示の実施形態」などと言う場合、それは、記載の実施形態が、特定の特徴、構造または特性を含み得るが、すべての実施形態がその特定の特徴、構造または特性を備えていてもいなくてもよいことを示している。また、そのような語句は必ずしも同じ実施形態を指していない。さらに、ある実施形態に関連して特定の特徴、構造または特性が記載されている場合、明示的に記載されているか否かを問わず、そのような特徴、構造または特性を他の実施形態に関連して影響を与えることが当業者の知識の範囲内にあるものと認められる。
【0143】
「約」、「実質的に」、「おおよそ」という用語およびこれらの変形は、本出願の出願時点で利用可能な装置に基づく特定の数量の測定に付随する誤差を含むことが意図されている。例えば、「約」は、所与の値の±8%または5%、または2%の範囲を含み得る。
【0144】
例示のために本発明の様々な実施形態に関する説明を提示したが、網羅的であること、または開示した実施形態に限定することを意図したものではない。説明した実施形態の範囲および思想から逸脱することなく多くの変更および変形が当業者には明らかであろう。本明細書で使用されている用語は、実施形態の原理、実際の適用、または市場に見られる技術に対する技術的改良を最もよく説明するため、または当業者が本明細書に記載の実施形態を理解することができるようにするために選択されている。
【0145】
本発明の様々な実施形態の説明を例示のために提示したが、網羅的であることも開示した実施形態に限定することも意図していない。当業者には、説明した実施形態の範囲および思想から逸脱することなく多くの修正および変形が明らかであろう。本明細書で使用されている用語は、実施形態の原理、実際の適用または市場に見られる技術に対する技術的改良を最もよく説明するため、または当業者が本明細書に記載の実施形態を理解することができるようにするために選択されている。
【0146】
したがって、例示の実施形態ではCAAシステム環境を管理するためのコンピュータ実装方法、システムまたは装置、およびコンピュータ・プログラム製品、ならびにその他の関連する特徴、機能または動作が提供される。実施形態またはその一部についてある種類のデバイスに関連して説明している場合、コンピュータ実装方法、システムまたは装置、コンピュータ・プログラム製品またはその一部は、その種類のデバイスの適切な同等の具現化とともに使用するように適合または構成される。
【0147】
実施形態についてアプリケーションで実装されるものとして説明している場合、SaaSモデルでのアプリケーションの配布が、例示の実施形態の範囲内で企図される。SaaSモデルでは、一実施形態を実装するアプリケーションの機能は、クラウド・インフラストラクチャにおいてアプリケーションを実行することによってユーザに提供される。ユーザは、様々なクライアント・デバイスを使用してウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブ・ベースのEメール)またはその他の軽量クライアント・アプリケーションを介してアプリケーションにアクセスすることができる。ユーザは、クラウド・インフラストラクチャのネットワーク、サーバ、オペレーティング・システム、またはストレージを含めて、基礎にあるクラウド・インフラストラクチャを管理も制御もしない。いくつかの場合では、ユーザはSaaSアプリケーションの機能の管理も制御さえもしなくてもよい。いくつかの他の場合では、アプリケーションのSaaS実装形態は、限られたユーザ固有アプリケーション構成設定の考えられる例外を許容することがある。
【0148】
本発明は、統合の任意の可能な技術的詳細レベルのシステム、方法、またはコンピュータ・プログラム製品あるいはこれらの組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体(または複数の媒体)を含み得る。
【0149】
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学式ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであってよいが、これらには限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、可搬コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、可搬CD-ROM、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピィ・ディスク、パンチカードまたは命令が録音された溝内の隆起構造などの機械的に符号化されたデバイス、およびこれらの任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体とは、電波またはその他の自由に伝播する電磁波、導波路またはその他の伝送媒体を伝播する電磁波(例えば光ファイバ・ケーブルを通る光パルス)、またはワイヤを介して伝送される電気信号などの、一過性の信号自体であると解釈すべきではない。
【0150】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワークまたはこれらの組合せを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはこれらの組合せを含んでもよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。
【0151】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、または、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語、または同様のプログラム言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上でまたは一部がユーザのコンピュータ上で、または一部がユーザのコンピュータ上で一部がリモート・コンピュータ上で、または全体がリモート・コンピュータまたはサーバ上で実行されてもよい。後者の場合、リモート・コンピュータは、LANまたはWANを含む、任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または接続は(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して行ってもよい。いくつかの実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を使用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
【0152】
本発明の態様について、本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品を示すフローチャート図またはブロック図あるいはその両方を参照しながら説明している。フローチャート図またはブロック図あるいはその両方の図の各ブロックおよび、フローチャート図またはブロック図あるいはその両方の図のブロックの組合せは、コンピュータ可読プログラム命令によって実装可能であることを理解されたい。
【0153】
これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラマブル・データ処理装置のプロセッサにより実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定されている機能/動作を実装する手段を形成するように、汎用コンピュータ、専用コンピュータまたはその他のプログラマブル・データ処理装置のプロセッサに供給されてマシンを実現するものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定されている機能/動作の態様を実装する命令を含む製造品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、またはその他のデバイスあるいはこれらの組合せに対して特定の方式で機能するように指示することができるものであってもよい。
【0154】
また、コンピュータ可読プログラム命令は、コンピュータ、その他のプログラマブル装置またはその他のデバイス上で実行される命令がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定されている機能/動作を実装するように、コンピュータ実装プロセスを実現させるべく、コンピュータ、その他のプログラマブル・データ処理装置、またはその他のデバイスにロードされ、コンピュータ、その他のプログラマブル装置、またはその他のデバイス上で一連の動作ステップを実行させるものであってもよい。
【0155】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能および動作を示す。これに関連して、フローチャートまたはブロック図の各ブロックは、指定されている論理機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表し得る。いくつかの別の実装形態では、ブロックに記載されている機能は、図に記載されている順序とは異なる順序で行われてもよい。例えば、連続して示されている2つのブロックは、関与する機能に応じて、実際には、実質的に並行して実行されてもよく、またはブロックは場合によっては逆の順序で実行されてもよい。また、ブロック図またはフローチャート図あるいはその両方の図の各ブロック、およびブロック図またはフローチャート図あるいはその両方の図のブロックの組合せは、指定されている機能または動作を実行する、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実装可能であることにも留意されたい。
【0156】
本発明の実施形態は、クライアント企業、非営利組織、政府機関、内部組織構造などとのサービス契約の一部としても配布可能である。これらの実施形態の態様には、本明細書に記載の方法の一部または全部を実行するようにコンピュータ・システムを構成することと、本明細書に記載の方法の一部または全部を実装するソフトウェア、ハードウェアおよびウェブ・サービスを展開することが含まれ得る。これらの実施形態の態様には、クライアントの運用を分析することと、その分析に応じた推奨事項を作成することと、推奨事項の一部を実装するシステムを構築することと、それらのシステムを既存のプロセスおよびインフラストラクチャに組み込むことと、それらのシステムの使用を計量することと、それらのシステムのユーザに費用を配分することと、それらのシステムの使用の対価を請求することも含まれ得る。本発明の上記の実施形態のそれぞれについてそれぞれその個別の利点を記載することによって説明したが、本発明はそれらの特定の組合せには限定されない。逆に、そのような実施形態は、その有益な効果を失うことなく、本発明の意図された展開に従って任意の方式および数でも組み合わせることができる。
図1
図2
図3A
図3B
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-04-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記1組の候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ実装方法。
【請求項2】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項1ないしのいずれかに記載のコンピュータ実装方法。
【請求項5】
前記第1および第2の記事を前記ウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することが、前記第1および第2の記事をカスタム・ウェブページのための更新として送信することを含み、前記カスタム・ウェブページがユーザ用にカスタマイズされる、請求項1ないしのいずれかに記載のコンピュータ実装方法。
【請求項6】
前記ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記ユーザ生成コンテンツから、前記トピックに対する選択されたユーザ生成コンテンツの関連度に基づいて、前記選択されたユーザ生成コンテンツを特定することと、をさらに含む、請求項に記載のコンピュータ実装方法。
【請求項7】
前記トピックに対する前記ユーザの感情を判定する一環として、前記選択されたユーザ生成コンテンツの極性が結果として判定される、前記選択されたユーザ生成コンテンツを解析することをさらに含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記トピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することをさらに含み、
前記候補テキスト項目を候補テキスト項目のグループにグループ化することが、前記特徴ベクトルの値を調整するために前記重みベクトルを使用することをさらに含む、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記1組の候補テキスト項目が文を含む、請求項1ないしのいずれかに記載のコンピュータ実装方法。
【請求項10】
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・プログラム製品であって、前記プログラム命令が、プロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ・プログラム製品。
【請求項11】
前記記憶されたプログラム命令が、データ処理システムにおけるコンピュータ可読ストレージ・デバイスに記憶され、前記記憶されたプログラム命令がネットワークを介してリモート・データ処理システムから転送される、請求項10に記載のコンピュータ・プログラム製品。
【請求項12】
前記記憶されたプログラム命令が、サーバ・データ処理システムにおけるコンピュータ可読ストレージ・デバイスに記憶され、前記記憶されたプログラム命令が、リモート・データ処理システムに関連付けられたコンピュータ可読ストレージ・デバイスにおける使用のために、ネットワークを介して要求に応答して前記リモート・データ処理システムにダウンロードされ、
前記要求に関連付けられた前記プログラム命令の使用を計量するプログラム命令と、
前記計量された使用に基づいてインボイスを生成するプログラム命令とをさらに含む、請求項10または11に記載のコンピュータ・プログラム製品。
【請求項13】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項10ないし11のいずれかに記載のコンピュータ・プログラム製品。
【請求項14】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項10ないし11のいずれかに記載のコンピュータ・プログラム製品。
【請求項15】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項10ないし11のいずれかに記載のコンピュータ・プログラム製品。
【請求項16】
前記第1および第2の記事を前記ウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することが、前記第1および第2の記事をカスタム・ウェブページのための更新として送信することを含み、前記カスタム・ウェブページがユーザ用にカスタマイズされる、請求項10ないし11のいずれかに記載のコンピュータ・プログラム製品。
【請求項17】
プロセッサと、1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・システムであって、前記プログラム命令が、前記プロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
コーパスからのコンテンツの抽出の一環として、複数のデジタル・コンテンツ・データセットをメモリにロードすることであって、前記複数のデジタル・コンテンツ・データセットがクエリ・ステートメントを満たし、前記クエリ・ステートメントが、前記複数のデジタル・コンテンツ・データセットが関連しているコンテンツ・トピックを含む、前記複数のデジタル・コンテンツ・データセットをメモリにロードすることと、
前記複数のデジタル・コンテンツ・データセットの中から、各候補テキスト項目の計算関連度スコアを使用してサブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を特定することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を特定することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を、候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第1の指定グループを使用して第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルが第1の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第1の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第1の指定グループに基づく、前記サブトピックに関する第1の記事が結果として得られる、前記第1の文体の機械作成テキスト・コンテンツを生成することと、
候補テキスト項目の前記グループの中から候補テキスト項目の第2の指定グループを使用して第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることであって、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルが第2の文体に従ってテキスト・コンテンツを生成するように事前トレーニングされる、前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記第2の事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記第2の指定グループに基づく、前記サブトピックに関する第2の記事が結果として得られる、前記第2の文体の機械作成テキスト・コンテンツを生成することと、
前記第1および第2の記事をリモート・ウェブ・サーバによってホストされているウェブサイトのための更新として前記リモート・ウェブ・サーバに送信することとを含む、コンピュータ・システム。
【請求項18】
前記1組の候補テキスト項目が、第1の情報源からのファクトイドと第2の情報源からの統計量とを含む、請求項17に記載のコンピュータ・システム。
【請求項19】
前記1組の候補テキスト項目が、それぞれの異なる文体で書かれた第1の候補テキスト項目と第2の候補テキスト項目とを含む、請求項17または18に記載のコンピュータ・システム。
【請求項20】
前記候補テキスト項目をグループ化することが、候補テキスト項目の前記所定数のグループが結果として得られる、複数ナップサック問題の解を求めることを含む、請求項17ないし18のいずれかに記載のコンピュータ・システム。
【請求項21】
複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行することと、
前記クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して、サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を抽出することと、
ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記サブトピックに対する前記ユーザの感情を判定する一環として、前記ユーザ生成コンテンツの極性が結果として判定される、前記ユーザ生成コンテンツを解析することと、
前記サブトピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記重みベクトルと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記指定グループに基づく、前記サブトピックに関する記事が結果として得られる機械作成テキスト・コンテンツを生成することと、
前記記事を、前記ユーザの前記感情に基づいて前記ユーザ用にパーソナライズされたコンテンツの表示のための更新としてリモート・ウェブ・サーバに送信することとを含む、コンピュータ実装方法。
【請求項22】
前記ユーザにフィードバック要求を送ることをさらに含み、前記フィードバック要求が、前記サブトピックに関連する意見に関する前記ユーザからのフィードバックを求める要求を含み、前記ユーザ生成コンテンツが、前記フィードバック要求に応答して前記ユーザから受け取られたフィードバックを含む、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記ユーザ生成コンテンツが、前記サブトピックに関連する記事に応答して前記ユーザによって投稿されたコメントを含む、請求項21または22に記載のコンピュータ実装方法。
【請求項24】
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体にまとめて記憶されたプログラム命令とを含むコンピュータ・プログラム製品であって、前記プログラム命令がプロセッサに動作を行わせるように前記プロセッサによって実行可能であり、前記動作が、
複数のコーパスで指定トピックに関連するコンテンツを検索するクエリ・プロセスを実行することと、
前記クエリ・プロセスから受け取った検索結果の中から、各候補テキスト項目の計算関連度スコアを使用して、サブトピックに対する各候補テキスト項目の関連度に基づいて1組の候補テキスト項目を抽出することであって、
前記計算関連度スコアが、1つまたは複数の自然言語処理技術を利用してそれぞれの候補テキスト項目のテキスト・コンテンツを解析することによって決定され、
前記候補テキスト項目の前記テキスト・コンテンツの前記解析の結果、前記候補テキスト項目のそれぞれについてそれぞれの特徴ベクトルが得られ、
前記特徴ベクトルがそれぞれ、それぞれの関連度値とそれぞれの品質値とを含む、
前記1組の候補テキスト項目を抽出することと、
ユーザによって生成されたユーザ生成コンテンツをメモリにロードすることと、
前記サブトピックに対する前記ユーザの感情を判定する一環として、前記ユーザ生成コンテンツの極性が結果として判定される、前記ユーザ生成コンテンツを解析することと、
前記サブトピックに対する前記ユーザの前記感情に基づいて重みベクトルを生成することと、
プロセッサにおける命令のセットの実行の結果として、前記計算関連度スコアと前記重みベクトルと前記特徴ベクトルとを使用して、前記1組の候補テキスト項目のうちの候補テキスト項目を候補テキスト項目の所定数のグループにグループ化することと、
候補テキスト項目の前記グループの中から候補テキスト項目の指定グループを使用して、事前トレーニング済みエンコーダ-デコーダ・モデルをトレーニングすることと、
前記事前トレーニング済みエンコーダ-デコーダ・モデルを利用して、候補テキスト項目の前記指定グループに基づく、前記サブトピックに関する記事が結果として得られる機械作成テキスト・コンテンツを生成することと、
前記記事を、前記ユーザの前記感情に基づいて前記ユーザ用にパーソナライズされたコンテンツの表示のための更新としてリモート・ウェブ・サーバに送信することとを含む、コンピュータ・プログラム製品。
【請求項25】
前記プロセッサに、前記サブトピックに関連する意見に関する前記ユーザからのフィードバックを求める要求を含むフィードバック要求を前記ユーザに送ることを含む動作を行わせるように前記プロセッサによって実行可能なプログラム命令をさらに含み、
前記ユーザ生成コンテンツが、前記フィードバック要求に応答して前記ユーザから受け取られたフィードバックを含む、請求項24に記載のコンピュータ・プログラム製品。
【国際調査報告】