IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッドの特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特許7520246テキストを生成するための方法および装置
<>
  • 特許-テキストを生成するための方法および装置 図1
  • 特許-テキストを生成するための方法および装置 図2
  • 特許-テキストを生成するための方法および装置 図3
  • 特許-テキストを生成するための方法および装置 図4
  • 特許-テキストを生成するための方法および装置 図5
  • 特許-テキストを生成するための方法および装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】テキストを生成するための方法および装置
(51)【国際特許分類】
   G06F 40/279 20200101AFI20240712BHJP
   G06F 40/56 20200101ALI20240712BHJP
【FI】
G06F40/279
G06F40/56
【請求項の数】 13
(21)【出願番号】P 2023553758
(86)(22)【出願日】2021-12-15
(65)【公表番号】
(43)【公表日】2023-11-30
(86)【国際出願番号】 CN2021138296
(87)【国際公開番号】W WO2022156434
(87)【国際公開日】2022-07-28
【審査請求日】2023-05-24
(31)【優先権主張番号】202110085890.0
(32)【優先日】2021-01-22
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】523194846
【氏名又は名称】ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room A402, 4/f, No. 2 Building, No. 18 Kechuang 11th Street Economic And Technological Development Zone Beijing 100176 (CN)
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】リャン、 ジャフイ
(72)【発明者】
【氏名】バオ、 ジュンウェイ
(72)【発明者】
【氏名】ウー、 ヨウシェン
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2019/0325066(US,A1)
【文献】米国特許出願公開第2019/0278835(US,A1)
【文献】特開2020-166735(JP,A)
【文献】特開2002-183171(JP,A)
【文献】中国特許出願公開第110399606(CN,A)
【文献】特開2019-057266(JP,A)
【文献】木村 輔、外2名,文エンコーダによるクエリ指向要約モデルの強化,第11回データ工学と情報マネジメントに関するフォーラム (第17回日本データベース学会年次大会) [online] ,日本,2019年04月19日,p.1-8
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される、テキストを生成するための方法であって、
オリジナルテキストおよび要素ラベルを受信するステップと、
前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて、符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、
事前訓練されたデコーダを用いて、次の復号ステップを実行するステップとを含み、
前記復号ステップは、
前記デコーダの現在時刻における隠れ状態ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、前記オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、
前記デコーダの現在時刻における隠れ状態ベクトル、前記符号化文特徴ベクトルおよび前記要素ラベルに基づいて、前記オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、
前記文注意重みおよび前記単語注意重みに基づいて、現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、
前記方法は、前記デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む、
テキストを生成するための方法。
【請求項2】
前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて、符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップは、
前記オリジナルテキストに基づいてテキスト特徴行列を生成するステップと、
前記テキスト特徴行列を事前訓練された第1のエンコーダに入力して、前記符号化テキスト特徴ベクトルを取得するステップと、
前記テキスト特徴行列を事前訓練された第2のエンコーダに入力して、前記オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、
前記オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、前記オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、
前記オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、前記オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップは、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するステップと、
前記コンテキスト特徴ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するステップと、
を含む請求項1に記載の方法。
【請求項4】
前記要素ラベルは、
前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、
前記クラスタラベルセットから目標クラスタラベルを決定するステップと、
前記目標クラスタラベルを前記要素ラベルとして決定するステップと、
によって生成される請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップは、
予め設定された句読点を分割境界として前記オリジナルテキストを分割し、短文セットを取得するステップと、
前記短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するステップと、
前記更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、前記単語特徴に基づいて各短文の文特徴を決定するステップと、
前記更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、前記更新済み短文セット内の各短文のクラスタラベルを決定し、前記クラスタラベルセットを取得するステップと、
を含む請求項4に記載の方法。
【請求項6】
テキストを生成するための装置であって、
オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニットと、
前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニットと、
事前訓練されたデコーダを用いて次の復号ステップを実行するように構成される復号ユニットであって、前記復号ステップは、前記デコーダの現在時刻における隠れ状態ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、前記オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、前記デコーダの現在時刻における隠れ状態ベクトル、前記符号化文特徴ベクトルおよび前記要素ラベルに基づいて、前記オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、前記文注意重みおよび前記単語注意重みに基づいて、現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニットと、
前記デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成するように構成される生成ユニットと、を備える、
テキストを生成するための装置。
【請求項7】
前記符号化ユニットは、
前記オリジナルテキストに基づいてテキスト特徴行列を生成するように構成される特徴行列生成モジュールと、
前記テキスト特徴行列を事前訓練された第1のエンコーダに入力して、前記符号化テキスト特徴ベクトルを取得するように構成される第1の符号化モジュールと、
前記テキスト特徴行列を事前訓練された第2のエンコーダに入力して、前記オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第2の符号化モジュールと、
前記オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、前記オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、
前記オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、前記オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第3の符号化モジュールと、
をさらに備える請求項6に記載の装置。
【請求項8】
前記復号ユニットは、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、
前記コンテキスト特徴ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、
をさらに備える請求項6に記載の装置。
【請求項9】
前記装置は、
前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、前記クラスタラベルセットから目標クラスタラベルを決定し、前記目標クラスタラベルを前記要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える請求項6~8のいずれか1項に記載の装置。
【請求項10】
要素ラベル生成ユニットは、
予め設定された句読点を分割境界として前記オリジナルテキストを分割し、短文セットを取得するように構成される分割モジュールと、
前記短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、
前記更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、前記単語特徴に基づいて各短文の文特徴を決定するように構成される特徴抽出モジュールと、
前記更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、前記更新済み短文セット内の各短文のクラスタラベルを決定し、前記クラスタラベルセットを取得するように構成されるラベル生成モジュールと、
をさらに備える請求項9に記載の装置。
【請求項11】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~5のいずれか1項に記載の方法を実現させる、電子機器。
【請求項12】
コンピュータプログラムが格納されるコンピュータ可読媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~5のいずれか1項に記載の方法を実現するコンピュータ可読媒体。
【請求項13】
プロセッサによって実行されると、請求項1~5のいずれか1項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本開示は、2021年1月22日に提出された、出願番号が202110085890.0で、発明の名称が「テキストを生成するための方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文は引用により本開示に組み込まれる。
【0002】
本開示の実施形態は、コンピュータ技術分野に関し、具体的に深層学習分野に関し、特にテキストを生成するための方法および装置に関する。
【背景技術】
【0003】
テキスト要約とは、オリジナルテキストを、重要な情報のみを含む洗練されたテキストに変換することをいい、主に、抽出型要約と生成型要約の2つのタイプを含む。抽出型要約は、主に、クラスタリングまたはシーケンスラベリングなどのアルゴリズムによって、ソース文書から重要な単語または短文を抽出する。生成型要約は、主に深層学習の方法を用い、系列変換(Sequence2Sequence,seq2seq)のフレームワークを利用し、まずソース文書をエンコーダによって固定次元の隠れベクトルに符号化し、次にデコーダ側に入力して段階的に文字を生成する。
【0004】
関連技術において、ポインタ生成ネットワーク(Pointer Generator Network)は、seq2seqモデルに基づいて、コピーメカニズムおよびオーバーライドメカニズムを導入する。コピーメカニズムは復号の各ステップにソース文書の全ての単語の注意重みを計算し、選択的に原文の一部を要約にコピーすることができ、さらに語彙リストに出現したことのない単語を生成することができる。オーバーライドメカニズムは復号の各ステップに現在のステップおよび以前の全てのステップの注意重みを累計し、原文の既に高い重みを取得した部分の連続コピーを回避する。
【発明の概要】
【0005】
本開示の実施形態は、テキストを生成するための方法および装置を提供する。
【0006】
第1の態様では、本開示の実施形態は、テキストを生成するための方法を提供し、当該方法は、オリジナルテキストおよび要素ラベルを受信するステップと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、事前訓練されたデコーダを用いて、次の復号ステップを実行するステップと、を含み、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、当該方法は、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む。
【0007】
いくつかの実施形態では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップは、オリジナルテキストに基づいて、テキスト特徴行列を生成するステップと、テキスト特徴行列を事前訓練された第1のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するステップと、テキスト特徴行列を事前訓練された第2のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、を含む。
【0008】
いくつかの実施形態では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するステップと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するステップとを含む。
【0009】
いくつかの実施形態では、要素ラベルは、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、クラスタラベルセットから目標クラスタラベルを決定するステップと、目標クラスタラベルを要素ラベルとして決定するステップと、によって生成される。
【0010】
いくつかの実施形態では、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するステップと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するステップと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、単語特徴に基づいて各短文の文特徴を決定するステップと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するステップとを含む。
【0011】
第2の態様では、本開示の実施形態は、テキストを生成するための装置を提供し、当該装置は、オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニットと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニットと、事前訓練されたデコーダを用いて、次の復号ステップを実行するように構成される復号ユニットであって、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニットと、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するように構成される生成ユニットと、を備える。
【0012】
いくつかの実施形態では、符号化ユニットは、オリジナルテキストに基づいて、テキスト特徴行列を生成するように構成される特徴行列生成モジュールと、テキスト特徴行列を事前訓練された第1のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するように構成される第1の符号化モジュールと、テキスト特徴行列を事前訓練された第2のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第2の符号化モジュールと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第3の符号化モジュールとをさらに備える。
【0013】
いくつかの実施形態では、復号ユニットは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、をさらに備える。
【0014】
いくつかの実施形態では、当該装置は、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、クラスタラベルセットから目標クラスタラベルを決定し、目標クラスタラベルを要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える。
【0015】
いくつかの実施形態では、要素ラベル生成ユニットは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するように構成される分割モジュールと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、且つ単語特徴に基づいて、各短文の文特徴を決定するように構成される特徴抽出モジュールと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するように構成されるラベル生成モジュールと、をさらに備える。
【0016】
第3の態様では、本開示の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに第1の態様のいずれかの実施形態に記載の方法を実現する、電子機器を提供する。
【0017】
第4の態様では、本開示の実施形態は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、当該コンピュータプログラムがプロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法を実現する、コンピュータ可読媒体を提供する。
【0018】
第5の態様では、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0019】
本開示の一実施形態に係るテキストを生成するための方法および装置は、オリジナルテキストをエンコーダにより圧縮し、デコーダにより各単語の単語注意重みを決定し、オリジナルテキストにおける各文と要素ラベルとの関連性に基づいて各文の文注意重みを決定し、さらに単語注意重みと文注意重みとに基づいて正規化後の単語注意重みを決定し、正規化後の単語注意重みに基づいて目標単語を推定し、最終的に目標単語に基づいて目標テキストを生成する。それにより、目標テキストにおける文および単語と要素ラベルとの関連性が高くなり、テキスト生成の精度および制御性が向上される。
【図面の簡単な説明】
【0020】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
図1】本開示のいくつかの実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
図2】本開示に係るテキストを生成するための方法の一実施形態のフローチャートである。
図3】本開示に係るテキストを生成するための方法の一実施形態の適用シーンを示す概略図である。
図4】本開示に係るテキストを生成するための方法の更なる実施形態のフローチャートである。
図5】本開示に係るテキストを生成するための装置の一実施形態の構造概略図である。
図6】本開示の実施形態の実現に適する電子機器の構造概略図である。
【発明を実施するための形態】
【0021】
以下、図面および実施形態を参照しながら本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0022】
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
【0023】
図1は、本開示の実施形態に係るテキストを生成するための方法またはテキストを生成するための装置が適用可能な例示的なシステムアーキテクチャ100を示している。
【0024】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0025】
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをしてもよい。例えば、オリジナルテキストをサーバに送信したり、サーバから目標テキストを受信したりすることができる。
【0026】
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、通信機能を有する電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102および103がソフトウェアである場合、上記例示された電子機器にインストールされてもよい。それは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0027】
サーバ105は、様々なサービスを提供するサーバであってもよく、例えば、端末装置101、102、103がアップロードしたオリジナルテキストを処理する(例えば、オリジナルテキストに基づいて目標テキストを生成する)バックエンドデータサーバであってもよい。バックエンドデータサーバは、受信したオリジナルテキスト等のデータに対して符号化、復号などの処理を行うことができ、且つ処理結果(例えば目標テキスト)を端末装置にフィードバックすることができる。
【0028】
なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装されてもよい。サーバがソフトウェアである場合、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0029】
なお、本開示の実施形態によって提供されるテキストを生成するための方法は、端末装置101、102、103によって実行されてもよいし、サーバ105によって実行されてもよい。それに応じて、テキストを生成するための装置は、端末装置101、102、103に設置されてもよいし、サーバ105に設置されてもよい。ここでは特に限定しない。
【0030】
次に、図2を参照し、本開示に係るテキストを生成するための方法の一実施形態のフロー200を示している。このテキストを生成するための方法は、次のステップを含む。
【0031】
ステップ201ではオリジナルテキストおよび要素ラベルを受信する。
【0032】
この実施形態では、要素ラベルは、目標テキストのコンテンツに対するユーザの要求を表してもよく、ユーザによって実際のニーズに応じて予め設定されてもよい。
【0033】
一例として、オリジナルテキストは商品の詳細情報であってもよく、目標テキストは当該商品の情報要約であってもよい。ユーザが、目標テキストに「アピアランス」に関連するコンテンツを含めることを望む場合、要素ラベルを「アピアランス」に設定し、その商品の詳細情報と要素ラベルをこの実施形態の実行主体(例えば、図1に示すサーバ105)に送信するようにしてもよい。別の例として、ユーザが、目標テキストに「売上高」に関連するコンテンツを含めることを望む場合、要素ラベルは「売上高」に設定されてもよい。
【0034】
この実施形態のいくつかのオプション的な実施形態では、要素ラベルは、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、クラスタラベルセットから目標クラスタラベルを決定するステップと、目標クラスタラベルを要素ラベルとして決定するステップと、によって生成される。
【0035】
この実施形態では、クラスタラベルは、オリジナルテキストのコンテンツ特徴を表してもよい。実行主体は、クラスタリングアルゴリズムを用いてオリジナルテキストからクラスタラベルを抽出し、その中から要素ラベルを選択してもよい。それにより、要素ラベルとオリジナルテキストのコンテンツとの関連性を確保することができる。
【0036】
一例として、実行主体は、オリジナルテキストを、TF- IDF、word2vecなどのような事前訓練されたテキストクラスタリングモデルに入力して、オリジナルテキストのクラスタラベルセットを得ることができる。その後、実行主体は、クラスタラベルセットをユーザに提示することができ、ユーザによってクラスタラベルセットから目標クラスタラベルを選択し、それによりユーザによって選択されたクラスタラベルを要素ラベルとして決定する。
【0037】
ステップ202では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成する。
【0038】
この実施形態では、エンコーダは、オリジナルテキストを所定の次元の符号化テキスト特徴ベクトルに変換し、オリジナルテキスト内の各文を符号化文特徴ベクトルに変換するために使用される。ここで、符号化テキスト特徴ベクトルは、オリジナルテキスト中のすべての単語の単語ベクトルを含み、オリジナルテキストのコンテンツの特徴を表す。符号化文特徴ベクトルは、当該文におけるすべての単語の単語ベクトルを含み、当該文のコンテンツの特徴を表す。単語ベクトルは、予め設定された語彙リストにおける単語の位置を表してもよい。
【0039】
エンコーダは、様々なタイプの深層学習モデルを用いてもよい。例えば、CNN(Convolutional Neural Networks,畳み込みニューラルネットワーク)、RNN(Recurrent Neural Network,再帰型ニューラルネットワーク)、GRU(Gated Recurrent Unit,ゲート付き再帰ユニット)などであってもよい。
【0040】
一例として、実行主体は、LSTM(Long Short-Term Memory,長短期記憶)ネットワークをエンコーダとしてもよい。実行主体は、オリジナルテキストをエンコーダに入力し、所定の次元の符号化テキスト特徴ベクトルを取得し、次いでオリジナルテキストの各文をそれぞれエンコーダに入力し、各文の符号化文特徴ベクトルを取得することができる。
【0041】
この実施形態のいくつかのオプション的な実施形態では、符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルは、オリジナルテキストに基づいて、テキスト特徴行列を生成するステップと、テキスト特徴行列を事前訓練された第1のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するステップと、テキスト特徴行列を事前訓練された第2のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、によって取得され得る。
【0042】
この実施態様では、実行主体は、オリジナルテキストをテキスト特徴行列に変換するために埋め込み行列を使用してもよい。埋め込み行列は、単語と単語特徴値との対応関係を表す。単語特徴値は、語彙リストにおける単語の位置を表す。その後、実行主体は、第1のエンコーダによって符号化テキスト特徴ベクトルを取得し、第2のエンコーダおよび第3のエンコーダによってオリジナルテキストの各文の符号化文特徴ベクトルを取得する。
【0043】
一例として、第1のエンコーダはLSTMエンコーダであってもよく、第2のエンコーダおよび第3のエンコーダはGRUエンコーダであってもよい。実行主体は、テキスト特徴行列をそれぞれ第1のエンコーダに入力し、テキスト特徴行列を第1の所定の次元の符号化テキスト特徴ベクトルに符号化する。テキスト特徴行列を第2のエンコーダに入力し、テキスト特徴行列内の各単語ベクトルを第2の所定の次元の符号化単語ベクトルに符号化した後、実行主体は、各文内の各単語の符号化単語ベクトルの平均値を当該文の文特徴ベクトルとし、文特徴ベクトルを第3のエンコーダに入力して、オリジナルテキスト内の各文の符号化文特徴ベクトルを得る。さらに、例えば、実行主体は、各文における各単語の符号化単語ベクトルのうちの最大値を、当該文の文特徴ベクトルとしてもよいし、各文の文末にある単語の符号化単語ベクトルを、その文の文特徴ベクトルとしてもよい。
【0044】
ステップ203では、事前訓練されたデコーダを用いて、復号ステップであるステップ2031~ステップ2034を実行する。
【0045】
この実施形態では、デコーダは、エンコーダから出力された符号化テキスト特徴ベクトルから目標単語を推定するために使用される。デコーダは、エンコーダと同様の深層学習モデルを採用してもよい。
【0046】
ステップ2031では、デコーダの現在時刻における隠れ状態ベクトルと符号化テキスト特徴ベクトルに基づいて、オリジナルテキストにおける各単語の現在時刻における単語注意重みを決定する。
【0047】
通常、デコーダは、1ステップの復号を行う度に、現在時刻における隠れ状態ベクトルを出力する。隠れ状態ベクトルは、前のステップの復号におけるデコーダの各隠れ層の状態パラメータを表すために使用される。
【0048】
この実施形態では、現在時刻における隠れ状態ベクトルと符号化テキスト特徴ベクトルから決定された単語注意重みは、デコーダが現在時刻においてその単語を選択する確率を表すことができる。
【0049】
一例として、実行主体は、ステップ202で得られた符号化テキストベクトルBを、事前訓練されたLSTMデコーダに入力し、符号化テキスト特徴ベクトルは、LSTMデコーダによって段階的に復号される。LSTMが第nステップの復号を完了したと仮定すると、現在時刻における隠れ状態ベクトルは第nステップの復号に対応する隠れ状態ベクトルAであり、実行主体は、隠れ状態ベクトルAと符号化テキスト特徴ベクトルBに基づいて、現在時刻における各単語の単語注意重み{C }を計算して取得する。ここで、Cは単語注意重みを表し、iはオリジナルテキスト中のi番目の単語を表す。その後、LSTMは第n+1ステップの復号を完了すると、現在時刻における隠れ状態ベクトルは第n+1ステップの復号に対応する隠れ状態ベクトルAn+1である。実行主体は、An+1と符号化テキスト特徴ベクトルBに基づいて、現在時刻における各単語の単語注意重み{C n+1}を計算して取得する。
【0050】
ステップ2032では、デコーダの現在時刻における隠れ状態ベクトルと、符号化文特徴ベクトルと、要素ラベルとに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定する。
【0051】
この実施形態では、文注意重みは、文のコンテンツの特徴(例えば、文法構造、セマンティックなどの特徴)と要素ラベルとの関連度を表しており、関連度が高いほど文注意重みの数値が高くなる。
【0052】
具体的な例示として、実行主体は、予め設定された要素ラベルと数値との対応関係リストに基づいて、要素ラベルの値を決定し、ベクトル形式に変換して、要素ラベルベクトルを取得してもよい。その後、実行主体は、隠れ状態ベクトルを要素ラベルベクトルと組み合わせて1つの組み合わせベクトルにしてもよい。そして、実行主体は、各文の符号化文特徴ベクトルと組み合わせベクトルとの関連度を計算して、各文の文注意重みを取得する。
【0053】
ステップ2033では、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定する。
【0054】
この実施形態では、文注意重みは、文のコンテンツの特徴と要素ラベルとの関連度を表すので、正規化後の単語注意重みは、単語と要素ラベルとの関連度を表してもよい。
【0055】
一例として、実行主体は、正規化後の単語注意重みとして、文注意重みと単語注意重みとの積を用いてもよい。そうすると、正規化後の単語注意重みは、単語と要素ラベルとの関連度に対して正の相関関係を有する。
【0056】
ステップ2034では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻の目標単語を推定する。
【0057】
この実施形態では、実行主体に搭載されたデコーダは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、オリジナルテキストの各単語の信頼度を決定し、信頼度が最も高い単語を現在時刻における目標単語として決定する。その後、デコーダは、デコーダが符号化テキスト特徴ベクトルを完全に復号するまで、次の復号ステップを実行して次の時刻の目標単語を出力し、目標単語シーケンスを得ることができる。
【0058】
この実施形態のいくつかのオプション的な実施形態では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成し、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定する。
【0059】
この実施形態では、コンテキスト特徴ベクトルは、オリジナルテキストにおけるコンテキストが単語の信頼度に及ぼす影響を表してもよい。したがって、エンコーダは、現在時刻での目標単語を決定する過程において、コンテキストが単語に及ぼす影響を導入することができ、目標単語とオリジナルテキストのコンテンツとの適合度をさらに高めることができる。
【0060】
ステップ204では、デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成する。
【0061】
この実施形態では、実行主体は、デコーダから出力された各目標単語を時系列に従って直列接続して、目標テキストを得ることができる。各目標単語は、いずれもオリジナルテキストに由来し、要素ラベルに関連するので、目標テキストは、実行主体が要素ラベルに従ってオリジナルテキストから抽出したテキストを表してもよい。
【0062】
次に、図3を参照し、図3は、図2に示す方法の一実施形態の応用シーンを示す概略図である。図3に示すシーン300では、オリジナルテキストは商品情報303であり、例えば商品名および商品の詳細情報を含んでもよく、目標テキストは商品情報要約305である。端末装置301は、商品情報303および要素ラベル304をネットワークを介してサーバ302に送信することができる。サーバ302には、事前訓練されたテキスト生成モデルが搭載されている。テキスト生成モデルは、注意モジュールを含むLSTMエンコーダおよびLSTMデコーダであってもよい。サーバ302は、受信した商品情報および要素ラベルを当該テキスト生成モデルに入力し、次のテキスト生成ステップを実行する。テキスト生成ステップは、LSTMエンコーダにより商品情報を第3の所定の次元の符号化テキスト特徴ベクトルに符号化し、商品情報内の各文を第4の所定の次元の符号化文特徴ベクトルに符号化するステップを含む。その後、LSTMエンコーダにより、符号化テキスト特徴ベクトルに対して、現在時刻における隠れ状態ベクトルを段階的に出力し、次に、注意モジュールにより、符号化テキスト特徴ベクトルと隠れ状態ベクトルとに基づいて、商品情報における各単語の現在時刻における単語注意重みを決定し、符号化文特徴ベクトルと要素ラベルと隠れ状態ベクトルとに基づいて、商品情報における各文の文注意重みを決定し、単語の単語注意重みとその単語を含む全ての文の文注意重みとの積を正規化後の単語注意重みとして、オリジナルテキストにおける各単語の現在時刻における正規化後の単語注意重みを得る。その後、エンコーダは、符号化テキスト特徴ベクトルとオリジナルテキスト中の各単語の現在時刻における正規化後の単語注意重みに基づいて、現在時刻における目標単語を推定し、各時刻の目標単語を時系列に従って直列接続して目標テキストとすることにより、商品情報の要約を得ることができ、かつ、要約のコンテンツと要素ラベルとの関連度が高い。
【0063】
本開示の一実施形態に係るテキストを生成するための方法および装置は、オリジナルテキストをエンコーダにより圧縮し、デコーダにより各単語の単語注意重みを決定し、オリジナルテキストにおける各文と要素ラベルとの関連性に基づいて各文の文注意重みを決定し、さらに単語注意重みと文注意重みとに基づいて正規化後の単語注意重みを決定し、正規化後の単語注意重みに基づいて目標単語を推定し、最終的に目標単語に基づいて目標テキストを生成する。それにより、目標テキストにおける文および単語と要素ラベルとの関連性が高くなり、テキスト生成の精度および制御性が向上される。
【0064】
さらに、テキストを生成するための方法のもう一つの実施形態のフロー400を示す図4を参照する。このテキストを生成するための方法のフロー400は、次のステップを含む。
【0065】
ステップ401では、オリジナルテキストを受信する。
【0066】
ステップ402では、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得する。
【0067】
この実施形態では、実行主体は、句点、感嘆符、または疑問符を分割境界として、オリジナルテキストをいくつかの短文に分割して、短文セットを得てもよい。このようにして、各短文のセマンティック上の完全性を確保することができる。
【0068】
ステップ403では、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得する。
【0069】
一例として、予め設定された条件は、短文に少なくとも1つのコンマが含まれ、かつ短文の長さが予め設定された長さ区間内にあることであってもよい。実行主体は、この予め設定された条件に基づいて、ステップ402で得られた短文をスクリーニングし、条件を満たさない短文を削除することにより、ノイズデータの干渉を低減することができる。
【0070】
ステップ404では、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、単語特徴に基づいて各短文の文特徴を決定する。
【0071】
この実施形態では、短文の文特徴は、短文のコンテンツの特徴を表すものであり、例えば、短文の文法構造特徴およびセマンティック特徴を含んでもよい。
【0072】
特徴抽出モデルは、TF-IDFまたはword2vecなどの既存または将来に開発可能なモデルを採用してもよい。本開示はこれを限定しない。
【0073】
一例として、実行主体は、事前訓練されたBERT(Bidirectional Encoder Representation from Transformers,変圧器からの双方向エンコーダ表現)モデルを用いて、各短文から単語の特徴を抽出し、各単語の特徴を加重平均してその短文の文特徴としてもよい。
【0074】
ステップ405では、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得する。
【0075】
一例として、実行主体は、K-means(K平均法クラスタリングアルゴリズム)モデルを用いて短文の文特徴をクラスタリングし、短文ごとのクラスタラベルを得、更新済み短文セット全体に対応するクラスタラベルセットを得ることができる。
【0076】
また、クラスタモデルは、変分オートエンコーダまたはDBSCAN(Density-Based Spatial Clustering of Applications with Noise,密度に基づくクラスタリングアルゴリズム)などの既存または将来に開発されるクラスタモデルであってもよい。
【0077】
ステップ406では、クラスタラベルセットから目標クラスタラベルを決定する。
【0078】
ステップ407では、目標クラスタラベルを要素ラベルとして決定する。
【0079】
この実施形態では、クラスタラベルは、オリジナルテキストのコンテンツの特徴を表すことができ、要素ラベルは、目標テキストのコンテンツに対するユーザの要求を表し、クラスタラベルセットから決定された要素ラベルは、オリジナルテキストのコンテンツの特徴とユーザのコンテンツに対する要求とを兼ね合うことができる。
【0080】
ステップ408では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成する。このステップは、上記ステップ202に対応しており、ここではその説明を省略する。
【0081】
ステップ409では、事前訓練されたデコーダを用いて、復号ステップを実行する。このステップは、上記ステップ203に対応しており、ここではその説明を省略する。
【0082】
ステップ410では、デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成する。このステップは、上記ステップ204に対応しており、ここではその説明を省略する。
【0083】
図4から分かるように、この実施形態におけるテキストを生成するための方法のフロー400は、クラスタリングアルゴリズムに基づいてオリジナルテキスト中の短文のクラスタラベルを抽出し、クラスタラベルから要素ラベルを決定するステップを示しており、要素ラベルとオリジナルテキストとの関連度を高めることができ、さらに、生成された目標テキスト中の文および単語と要素ラベルとの関連度を高めることができ、これにより、テキスト生成の精度および制御性をさらに高めることができる。
【0084】
さらに図5を参照すると、上記の各図に示す方法の実施形態として、本開示は、テキストを生成するための装置500の一実施形態を提供し、当該装置の実施形態は、図2に示す方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0085】
図5に示すように、本実施形態のテキストを生成するための装置500は、オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニット501と、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニット502と、事前訓練されたデコーダを用いて、次の復号ステップを実行するように構成される復号ユニット503であって、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニット503と、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するように構成される生成ユニット504と、を備える。
【0086】
この実施形態では、符号化ユニット502は、オリジナルテキストに基づいて、テキスト特徴行列を生成するように構成される特徴行列生成モジュールと、テキスト特徴行列を事前訓練された第1のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するように構成される第1の符号化モジュールと、テキスト特徴行列を事前訓練された第2のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第2の符号化モジュールと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第3のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第3の符号化モジュールとをさらに備える。
【0087】
この実施形態では、復号ユニット503は、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、をさらに備える。
【0088】
この実施形態では、当該装置500は、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、クラスタラベルセットから目標クラスタラベルを決定し、目標クラスタラベルを要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える。
【0089】
この実施形態において、要素ラベル生成ユニットは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するように構成される分割モジュールと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、且つ単語特徴に基づいて、各短文の文特徴を決定するように構成される特徴抽出モジュールと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するように構成されるラベル生成モジュールと、をさらに備える。
【0090】
以下、本開示の実施形態を実現するために適用される電子機器(例えば、図1に示すサーバまたは端末装置)600の構造概略図を示す図6を参照する。本開示の実施形態における端末装置は、携帯電話、ノート型コンピュータ、デジタル放送受信機、PDA(Personal Digital Assistants,パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)等の携帯端末並びにデジタルTV、デスクトップコンピュータ等の固定端末を含むが、これらに限定されない。図6に示す端末装置は、あくまでも一例に過ぎず、本開示の実施形態の機能および使用範囲には如何なる制限をも与えない。
【0091】
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているプログラムまたは記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理装置(例えば、中央処理装置、グラフィックスプロセッサなど)601を含んでもよい。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータが更に格納されている。処理装置601、ROM602およびRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インタフェース605もバス604に接続されている。
【0092】
通常、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力装置606、液晶ディスプレイ(LCD)、スピーカ、振動子などを含む出力装置607、例えば、磁気テープ、ハードディスクなどを含む記憶装置608、および通信装置609がI/Oインタフェース605に接続されてもよい。通信装置609により、電子機器600は、データを交換するために他のデバイスと無線または有線で通信可能になる。図6は、様々な装置を有する電子機器600を示しているが、図示された装置のすべてを実装または具備することが要求されないことを理解すべきである。オプション的に実行されるか、またはより多いまたはより少ない装置が実装されてもよい。図6に示す各ブロックは、1つの装置を表すことも、必要に応じて複数の装置を表すこともできる。
【0093】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信装置609を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶装置608またはROM602からインストールされ得る。当該コンピュータプログラムが処理装置601によって実行されると、本開示の実施形態の方法で限定された上記機能を実行する。なお、本開示の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線により電気的に接続された、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示の実施形態において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示の実施形態において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読信号媒体は、指令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0094】
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、当該電子機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は、1つまたは複数のプログラムを担持しており、上記1つまたは複数のプログラムが当該電子機器によって実行されると、当該電子機器に次の方法を実行させる。当該方法は、オリジナルテキストおよび要素ラベルを受信するステップと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、事前訓練されたデコーダを用いて、次の復号ステップを実行するステップと、を含み、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、当該方法は、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む。
【0095】
本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、上記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部コンピュータに接続することができる。
【0096】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係るシステム、方法およびコンピュータプログラムによって実現できるアーキテクチャ、機能および動作の表示例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応答して、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【0097】
本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記載されたユニットは、プロセッサに設置されてもよく、例えば、「受信ユニット、符号化ユニット、復号ユニットおよび生成ユニットを備えるプロセッサ」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「オリジナルテキストおよび要素ラベルを受信するユニット」として記載されてもよい。
【0098】
以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上述した技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上述した本開示の趣旨を逸脱しない範囲で、上述した技術的特徴またはそれらの均等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示の実施形態に開示された類似の機能を持っている技術的特徴(これらに限定されていない)と互いに置き換えてなる技術案が挙げられる。
図1
図2
図3
図4
図5
図6