特許7520246 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジンウォドンチアンジュンインフォメーションテクノロジーカンパニーリミテッドの特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特許7520246テキストを生成するための方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-11

(45)【発行日】2024-07-22

(54)【発明の名称】テキストを生成するための方法および装置

(51)【国際特許分類】

G06F 40/279 20200101AFI20240712BHJP

G06F 40/56 20200101ALI20240712BHJP

【ＦＩ】

G06F40/279

G06F40/56

【請求項の数】 13

(21)【出願番号】P 2023553758

(86)(22)【出願日】2021-12-15

(65)【公表番号】

(43)【公表日】2023-11-30

(86)【国際出願番号】 CN2021138296

(87)【国際公開番号】W WO2022156434

(87)【国際公開日】2022-07-28

【審査請求日】2023-05-24

(31)【優先権主張番号】202110085890.0

(32)【優先日】2021-01-22

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】523194846

【氏名又は名称】ベイジンウォドンチアンジュンインフォメーションテクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢＥＩＪＩＮＧＷＯＤＯＮＧＴＩＡＮＪＵＮＩＮＦＯＲＭＡＴＩＯＮＴＥＣＨＮＯＬＯＧＹＣＯ．，ＬＴＤ．

【住所又は居所原語表記】ＲｏｏｍＡ４０２，４／ｆ，Ｎｏ．２Ｂｕｉｌｄｉｎｇ，Ｎｏ．１８Ｋｅｃｈｕａｎｇ１１ｔｈＳｔｒｅｅｔＥｃｏｎｏｍｉｃＡｎｄＴｅｃｈｎｏｌｏｇｉｃａｌＤｅｖｅｌｏｐｍｅｎｔＺｏｎｅＢｅｉｊｉｎｇ１００１７６（ＣＮ）

(73)【特許権者】

【識別番号】517241916

【氏名又は名称】北京京東世紀貿易有限公司

【氏名又は名称原語表記】ＢＥＩＪＩＮＧＪＩＮＧＤＯＮＧＣＥＮＴＵＲＹＴＲＡＤＩＮＧＣＯ．，ＬＴＤ．

【住所又は居所原語表記】Ｒｏｏｍ２０１，２／Ｆ，ＢｌｏｃｋＣ，Ｎｏ．１８，Ｋｅｃｈｕａｎｇ１１ｔｈＳｔｒｅｅｔ，ＢｅｉｊｉｎｇＥｃｏｎｏｍｉｃａｎｄＴｅｃｈｎｏｌｏｇｉｃａｌＤｅｖｅｌｏｐｍｅｎｔＺｏｎｅ，Ｂｅｉｊｉｎｇ１００１７６，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110004222

【氏名又は名称】弁理士法人創光国際特許事務所

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】リャン、ジャフイ

(72)【発明者】

【氏名】バオ、ジュンウェイ

(72)【発明者】

【氏名】ウー、ヨウシェン

【審査官】齊藤貴孝

(56)【参考文献】

【文献】米国特許出願公開第２０１９／０３２５０６６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０２７８８３５（ＵＳ，Ａ１）

【文献】特開２０２０－１６６７３５（ＪＰ，Ａ）

【文献】特開２００２－１８３１７１（ＪＰ，Ａ）

【文献】中国特許出願公開第１１０３９９６０６（ＣＮ，Ａ）

【文献】特開２０１９－０５７２６６（ＪＰ，Ａ）

【文献】木村輔、外２名，文エンコーダによるクエリ指向要約モデルの強化，第１１回データ工学と情報マネジメントに関するフォーラム（第１７回日本データベース学会年次大会）［ｏｎｌｉｎｅ］，日本，2019年04月19日，ｐ．１－８

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

コンピュータによって実行される、テキストを生成するための方法であって、
オリジナルテキストおよび要素ラベルを受信するステップと、
前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて、符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、
事前訓練されたデコーダを用いて、次の復号ステップを実行するステップとを含み、
前記復号ステップは、
前記デコーダの現在時刻における隠れ状態ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、前記オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、
前記デコーダの現在時刻における隠れ状態ベクトル、前記符号化文特徴ベクトルおよび前記要素ラベルに基づいて、前記オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、
前記文注意重みおよび前記単語注意重みに基づいて、現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、
前記方法は、前記デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む、
テキストを生成するための方法。

【請求項2】

前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて、符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップは、
前記オリジナルテキストに基づいてテキスト特徴行列を生成するステップと、
前記テキスト特徴行列を事前訓練された第１のエンコーダに入力して、前記符号化テキスト特徴ベクトルを取得するステップと、
前記テキスト特徴行列を事前訓練された第２のエンコーダに入力して、前記オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、
前記オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、前記オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、
前記オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、前記オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、
を含む請求項１に記載の方法。

【請求項3】

前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップは、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するステップと、
前記コンテキスト特徴ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するステップと、
を含む請求項１に記載の方法。

【請求項4】

前記要素ラベルは、
前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、
前記クラスタラベルセットから目標クラスタラベルを決定するステップと、
前記目標クラスタラベルを前記要素ラベルとして決定するステップと、
によって生成される請求項１～３のいずれか１項に記載の方法。

【請求項5】

前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップは、
予め設定された句読点を分割境界として前記オリジナルテキストを分割し、短文セットを取得するステップと、
前記短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するステップと、
前記更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、前記単語特徴に基づいて各短文の文特徴を決定するステップと、
前記更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、前記更新済み短文セット内の各短文のクラスタラベルを決定し、前記クラスタラベルセットを取得するステップと、
を含む請求項４に記載の方法。

【請求項6】

テキストを生成するための装置であって、
オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニットと、
前記オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよび前記オリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニットと、
事前訓練されたデコーダを用いて次の復号ステップを実行するように構成される復号ユニットであって、前記復号ステップは、前記デコーダの現在時刻における隠れ状態ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、前記オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、前記デコーダの現在時刻における隠れ状態ベクトル、前記符号化文特徴ベクトルおよび前記要素ラベルに基づいて、前記オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、前記文注意重みおよび前記単語注意重みに基づいて、現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニットと、
前記デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成するように構成される生成ユニットと、を備える、
テキストを生成するための装置。

【請求項7】

前記符号化ユニットは、
前記オリジナルテキストに基づいてテキスト特徴行列を生成するように構成される特徴行列生成モジュールと、
前記テキスト特徴行列を事前訓練された第１のエンコーダに入力して、前記符号化テキスト特徴ベクトルを取得するように構成される第１の符号化モジュールと、
前記テキスト特徴行列を事前訓練された第２のエンコーダに入力して、前記オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第２の符号化モジュールと、
前記オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、前記オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、
前記オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、前記オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第３の符号化モジュールと、
をさらに備える請求項６に記載の装置。

【請求項8】

前記復号ユニットは、
前記符号化テキスト特徴ベクトルと現在時刻における前記オリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、
前記コンテキスト特徴ベクトルおよび前記符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、
をさらに備える請求項６に記載の装置。

【請求項9】

前記装置は、
前記オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、前記クラスタラベルセットから目標クラスタラベルを決定し、前記目標クラスタラベルを前記要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える請求項６～８のいずれか１項に記載の装置。

【請求項10】

要素ラベル生成ユニットは、
予め設定された句読点を分割境界として前記オリジナルテキストを分割し、短文セットを取得するように構成される分割モジュールと、
前記短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、
前記更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、前記単語特徴に基づいて各短文の文特徴を決定するように構成される特徴抽出モジュールと、
前記更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、前記更新済み短文セット内の各短文のクラスタラベルを決定し、前記クラスタラベルセットを取得するように構成されるラベル生成モジュールと、
をさらに備える請求項９に記載の装置。

【請求項11】

１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１～５のいずれか１項に記載の方法を実現させる、電子機器。

【請求項12】

コンピュータプログラムが格納されるコンピュータ可読媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１～５のいずれか１項に記載の方法を実現するコンピュータ可読媒体。

【請求項13】

プロセッサによって実行されると、請求項１～５のいずれか１項に記載の方法を実現するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

＜関連出願の相互参照＞
本開示は、２０２１年１月２２日に提出された、出願番号が２０２１１００８５８９０．０で、発明の名称が「テキストを生成するための方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文は引用により本開示に組み込まれる。

【0002】

本開示の実施形態は、コンピュータ技術分野に関し、具体的に深層学習分野に関し、特にテキストを生成するための方法および装置に関する。

【背景技術】

【0003】

テキスト要約とは、オリジナルテキストを、重要な情報のみを含む洗練されたテキストに変換することをいい、主に、抽出型要約と生成型要約の２つのタイプを含む。抽出型要約は、主に、クラスタリングまたはシーケンスラベリングなどのアルゴリズムによって、ソース文書から重要な単語または短文を抽出する。生成型要約は、主に深層学習の方法を用い、系列変換（Ｓｅｑｕｅｎｃｅ２Ｓｅｑｕｅｎｃｅ，ｓｅｑ２ｓｅｑ）のフレームワークを利用し、まずソース文書をエンコーダによって固定次元の隠れベクトルに符号化し、次にデコーダ側に入力して段階的に文字を生成する。

【0004】

関連技術において、ポインタ生成ネットワーク（ＰｏｉｎｔｅｒＧｅｎｅｒａｔｏｒＮｅｔｗｏｒｋ）は、ｓｅｑ２ｓｅｑモデルに基づいて、コピーメカニズムおよびオーバーライドメカニズムを導入する。コピーメカニズムは復号の各ステップにソース文書の全ての単語の注意重みを計算し、選択的に原文の一部を要約にコピーすることができ、さらに語彙リストに出現したことのない単語を生成することができる。オーバーライドメカニズムは復号の各ステップに現在のステップおよび以前の全てのステップの注意重みを累計し、原文の既に高い重みを取得した部分の連続コピーを回避する。

【発明の概要】

【0005】

本開示の実施形態は、テキストを生成するための方法および装置を提供する。

【0006】

第１の態様では、本開示の実施形態は、テキストを生成するための方法を提供し、当該方法は、オリジナルテキストおよび要素ラベルを受信するステップと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、事前訓練されたデコーダを用いて、次の復号ステップを実行するステップと、を含み、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、当該方法は、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む。

【0007】

いくつかの実施形態では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップは、オリジナルテキストに基づいて、テキスト特徴行列を生成するステップと、テキスト特徴行列を事前訓練された第１のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するステップと、テキスト特徴行列を事前訓練された第２のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、を含む。

【0008】

いくつかの実施形態では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するステップと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するステップとを含む。

【0009】

いくつかの実施形態では、要素ラベルは、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、クラスタラベルセットから目標クラスタラベルを決定するステップと、目標クラスタラベルを要素ラベルとして決定するステップと、によって生成される。

【0010】

いくつかの実施形態では、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するステップと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するステップと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、単語特徴に基づいて各短文の文特徴を決定するステップと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するステップとを含む。

【0011】

第２の態様では、本開示の実施形態は、テキストを生成するための装置を提供し、当該装置は、オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニットと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニットと、事前訓練されたデコーダを用いて、次の復号ステップを実行するように構成される復号ユニットであって、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニットと、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するように構成される生成ユニットと、を備える。

【0012】

いくつかの実施形態では、符号化ユニットは、オリジナルテキストに基づいて、テキスト特徴行列を生成するように構成される特徴行列生成モジュールと、テキスト特徴行列を事前訓練された第１のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するように構成される第１の符号化モジュールと、テキスト特徴行列を事前訓練された第２のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第２の符号化モジュールと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第３の符号化モジュールとをさらに備える。

【0013】

いくつかの実施形態では、復号ユニットは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、をさらに備える。

【0014】

いくつかの実施形態では、当該装置は、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、クラスタラベルセットから目標クラスタラベルを決定し、目標クラスタラベルを要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える。

【0015】

いくつかの実施形態では、要素ラベル生成ユニットは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するように構成される分割モジュールと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、且つ単語特徴に基づいて、各短文の文特徴を決定するように構成される特徴抽出モジュールと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するように構成されるラベル生成モジュールと、をさらに備える。

【0016】

第３の態様では、本開示の実施形態は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに第１の態様のいずれかの実施形態に記載の方法を実現する、電子機器を提供する。

【0017】

第４の態様では、本開示の実施形態は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、当該コンピュータプログラムがプロセッサによって実行されると、第１の態様のいずれかの実施形態に記載の方法を実現する、コンピュータ可読媒体を提供する。

【0018】

第５の態様では、本開示の実施形態は、プロセッサによって実行されると、第１の態様のいずれかの実施形態に記載の方法が実行されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【0019】

本開示の一実施形態に係るテキストを生成するための方法および装置は、オリジナルテキストをエンコーダにより圧縮し、デコーダにより各単語の単語注意重みを決定し、オリジナルテキストにおける各文と要素ラベルとの関連性に基づいて各文の文注意重みを決定し、さらに単語注意重みと文注意重みとに基づいて正規化後の単語注意重みを決定し、正規化後の単語注意重みに基づいて目標単語を推定し、最終的に目標単語に基づいて目標テキストを生成する。それにより、目標テキストにおける文および単語と要素ラベルとの関連性が高くなり、テキスト生成の精度および制御性が向上される。

【図面の簡単な説明】

【0020】

本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。

【図1】本開示のいくつかの実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。

【図2】本開示に係るテキストを生成するための方法の一実施形態のフローチャートである。

【図3】本開示に係るテキストを生成するための方法の一実施形態の適用シーンを示す概略図である。

【図4】本開示に係るテキストを生成するための方法の更なる実施形態のフローチャートである。

【図5】本開示に係るテキストを生成するための装置の一実施形態の構造概略図である。

【図6】本開示の実施形態の実現に適する電子機器の構造概略図である。

【発明を実施するための形態】

【0021】

以下、図面および実施形態を参照しながら本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。

【0022】

なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。

【0023】

図１は、本開示の実施形態に係るテキストを生成するための方法またはテキストを生成するための装置が適用可能な例示的なシステムアーキテクチャ１００を示している。

【0024】

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

【0025】

ユーザは、メッセージを送受信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のやり取りをしてもよい。例えば、オリジナルテキストをサーバに送信したり、サーバから目標テキストを受信したりすることができる。

【0026】

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、通信機能を有する電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置１０１、１０２および１０３がソフトウェアである場合、上記例示された電子機器にインストールされてもよい。それは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

【0027】

サーバ１０５は、様々なサービスを提供するサーバであってもよく、例えば、端末装置１０１、１０２、１０３がアップロードしたオリジナルテキストを処理する（例えば、オリジナルテキストに基づいて目標テキストを生成する）バックエンドデータサーバであってもよい。バックエンドデータサーバは、受信したオリジナルテキスト等のデータに対して符号化、復号などの処理を行うことができ、且つ処理結果（例えば目標テキスト）を端末装置にフィードバックすることができる。

【0028】

なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装されてもよい。サーバがソフトウェアである場合、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。

【0029】

なお、本開示の実施形態によって提供されるテキストを生成するための方法は、端末装置１０１、１０２、１０３によって実行されてもよいし、サーバ１０５によって実行されてもよい。それに応じて、テキストを生成するための装置は、端末装置１０１、１０２、１０３に設置されてもよいし、サーバ１０５に設置されてもよい。ここでは特に限定しない。

【0030】

次に、図２を参照し、本開示に係るテキストを生成するための方法の一実施形態のフロー２００を示している。このテキストを生成するための方法は、次のステップを含む。

【0031】

ステップ２０１ではオリジナルテキストおよび要素ラベルを受信する。

【0032】

この実施形態では、要素ラベルは、目標テキストのコンテンツに対するユーザの要求を表してもよく、ユーザによって実際のニーズに応じて予め設定されてもよい。

【0033】

一例として、オリジナルテキストは商品の詳細情報であってもよく、目標テキストは当該商品の情報要約であってもよい。ユーザが、目標テキストに「アピアランス」に関連するコンテンツを含めることを望む場合、要素ラベルを「アピアランス」に設定し、その商品の詳細情報と要素ラベルをこの実施形態の実行主体（例えば、図１に示すサーバ１０５）に送信するようにしてもよい。別の例として、ユーザが、目標テキストに「売上高」に関連するコンテンツを含めることを望む場合、要素ラベルは「売上高」に設定されてもよい。

【0034】

この実施形態のいくつかのオプション的な実施形態では、要素ラベルは、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得するステップと、クラスタラベルセットから目標クラスタラベルを決定するステップと、目標クラスタラベルを要素ラベルとして決定するステップと、によって生成される。

【0035】

この実施形態では、クラスタラベルは、オリジナルテキストのコンテンツ特徴を表してもよい。実行主体は、クラスタリングアルゴリズムを用いてオリジナルテキストからクラスタラベルを抽出し、その中から要素ラベルを選択してもよい。それにより、要素ラベルとオリジナルテキストのコンテンツとの関連性を確保することができる。

【0036】

一例として、実行主体は、オリジナルテキストを、ＴＦ－ＩＤＦ、ｗｏｒｄ２ｖｅｃなどのような事前訓練されたテキストクラスタリングモデルに入力して、オリジナルテキストのクラスタラベルセットを得ることができる。その後、実行主体は、クラスタラベルセットをユーザに提示することができ、ユーザによってクラスタラベルセットから目標クラスタラベルを選択し、それによりユーザによって選択されたクラスタラベルを要素ラベルとして決定する。

【0037】

ステップ２０２では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成する。

【0038】

この実施形態では、エンコーダは、オリジナルテキストを所定の次元の符号化テキスト特徴ベクトルに変換し、オリジナルテキスト内の各文を符号化文特徴ベクトルに変換するために使用される。ここで、符号化テキスト特徴ベクトルは、オリジナルテキスト中のすべての単語の単語ベクトルを含み、オリジナルテキストのコンテンツの特徴を表す。符号化文特徴ベクトルは、当該文におけるすべての単語の単語ベクトルを含み、当該文のコンテンツの特徴を表す。単語ベクトルは、予め設定された語彙リストにおける単語の位置を表してもよい。

【0039】

エンコーダは、様々なタイプの深層学習モデルを用いてもよい。例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，畳み込みニューラルネットワーク）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，再帰型ニューラルネットワーク）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ゲート付き再帰ユニット）などであってもよい。

【0040】

一例として、実行主体は、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，長短期記憶）ネットワークをエンコーダとしてもよい。実行主体は、オリジナルテキストをエンコーダに入力し、所定の次元の符号化テキスト特徴ベクトルを取得し、次いでオリジナルテキストの各文をそれぞれエンコーダに入力し、各文の符号化文特徴ベクトルを取得することができる。

【0041】

この実施形態のいくつかのオプション的な実施形態では、符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルは、オリジナルテキストに基づいて、テキスト特徴行列を生成するステップと、テキスト特徴行列を事前訓練された第１のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するステップと、テキスト特徴行列を事前訓練された第２のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するステップと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するステップと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するステップと、によって取得され得る。

【0042】

この実施態様では、実行主体は、オリジナルテキストをテキスト特徴行列に変換するために埋め込み行列を使用してもよい。埋め込み行列は、単語と単語特徴値との対応関係を表す。単語特徴値は、語彙リストにおける単語の位置を表す。その後、実行主体は、第１のエンコーダによって符号化テキスト特徴ベクトルを取得し、第２のエンコーダおよび第３のエンコーダによってオリジナルテキストの各文の符号化文特徴ベクトルを取得する。

【0043】

一例として、第１のエンコーダはＬＳＴＭエンコーダであってもよく、第２のエンコーダおよび第３のエンコーダはＧＲＵエンコーダであってもよい。実行主体は、テキスト特徴行列をそれぞれ第１のエンコーダに入力し、テキスト特徴行列を第１の所定の次元の符号化テキスト特徴ベクトルに符号化する。テキスト特徴行列を第２のエンコーダに入力し、テキスト特徴行列内の各単語ベクトルを第２の所定の次元の符号化単語ベクトルに符号化した後、実行主体は、各文内の各単語の符号化単語ベクトルの平均値を当該文の文特徴ベクトルとし、文特徴ベクトルを第３のエンコーダに入力して、オリジナルテキスト内の各文の符号化文特徴ベクトルを得る。さらに、例えば、実行主体は、各文における各単語の符号化単語ベクトルのうちの最大値を、当該文の文特徴ベクトルとしてもよいし、各文の文末にある単語の符号化単語ベクトルを、その文の文特徴ベクトルとしてもよい。

【0044】

ステップ２０３では、事前訓練されたデコーダを用いて、復号ステップであるステップ２０３１～ステップ２０３４を実行する。

【0045】

この実施形態では、デコーダは、エンコーダから出力された符号化テキスト特徴ベクトルから目標単語を推定するために使用される。デコーダは、エンコーダと同様の深層学習モデルを採用してもよい。

【0046】

ステップ２０３１では、デコーダの現在時刻における隠れ状態ベクトルと符号化テキスト特徴ベクトルに基づいて、オリジナルテキストにおける各単語の現在時刻における単語注意重みを決定する。

【0047】

通常、デコーダは、１ステップの復号を行う度に、現在時刻における隠れ状態ベクトルを出力する。隠れ状態ベクトルは、前のステップの復号におけるデコーダの各隠れ層の状態パラメータを表すために使用される。

【0048】

この実施形態では、現在時刻における隠れ状態ベクトルと符号化テキスト特徴ベクトルから決定された単語注意重みは、デコーダが現在時刻においてその単語を選択する確率を表すことができる。

【0049】

一例として、実行主体は、ステップ２０２で得られた符号化テキストベクトルＢを、事前訓練されたＬＳＴＭデコーダに入力し、符号化テキスト特徴ベクトルは、ＬＳＴＭデコーダによって段階的に復号される。ＬＳＴＭが第ｎステップの復号を完了したと仮定すると、現在時刻における隠れ状態ベクトルは第ｎステップの復号に対応する隠れ状態ベクトルＡ_ｎであり、実行主体は、隠れ状態ベクトルＡ_ｎと符号化テキスト特徴ベクトルＢに基づいて、現在時刻における各単語の単語注意重み｛Ｃ_ｉ ^ｎ｝を計算して取得する。ここで、Ｃは単語注意重みを表し、ｉはオリジナルテキスト中のｉ番目の単語を表す。その後、ＬＳＴＭは第ｎ＋１ステップの復号を完了すると、現在時刻における隠れ状態ベクトルは第ｎ＋１ステップの復号に対応する隠れ状態ベクトルＡ_ｎ＋１である。実行主体は、Ａ_ｎ＋１と符号化テキスト特徴ベクトルＢに基づいて、現在時刻における各単語の単語注意重み｛Ｃ_ｉ ^ｎ＋１｝を計算して取得する。

【0050】

ステップ２０３２では、デコーダの現在時刻における隠れ状態ベクトルと、符号化文特徴ベクトルと、要素ラベルとに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定する。

【0051】

この実施形態では、文注意重みは、文のコンテンツの特徴（例えば、文法構造、セマンティックなどの特徴）と要素ラベルとの関連度を表しており、関連度が高いほど文注意重みの数値が高くなる。

【0052】

具体的な例示として、実行主体は、予め設定された要素ラベルと数値との対応関係リストに基づいて、要素ラベルの値を決定し、ベクトル形式に変換して、要素ラベルベクトルを取得してもよい。その後、実行主体は、隠れ状態ベクトルを要素ラベルベクトルと組み合わせて１つの組み合わせベクトルにしてもよい。そして、実行主体は、各文の符号化文特徴ベクトルと組み合わせベクトルとの関連度を計算して、各文の文注意重みを取得する。

【0053】

ステップ２０３３では、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定する。

【0054】

この実施形態では、文注意重みは、文のコンテンツの特徴と要素ラベルとの関連度を表すので、正規化後の単語注意重みは、単語と要素ラベルとの関連度を表してもよい。

【0055】

一例として、実行主体は、正規化後の単語注意重みとして、文注意重みと単語注意重みとの積を用いてもよい。そうすると、正規化後の単語注意重みは、単語と要素ラベルとの関連度に対して正の相関関係を有する。

【0056】

ステップ２０３４では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻の目標単語を推定する。

【0057】

この実施形態では、実行主体に搭載されたデコーダは、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、オリジナルテキストの各単語の信頼度を決定し、信頼度が最も高い単語を現在時刻における目標単語として決定する。その後、デコーダは、デコーダが符号化テキスト特徴ベクトルを完全に復号するまで、次の復号ステップを実行して次の時刻の目標単語を出力し、目標単語シーケンスを得ることができる。

【0058】

この実施形態のいくつかのオプション的な実施形態では、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成し、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定する。

【0059】

この実施形態では、コンテキスト特徴ベクトルは、オリジナルテキストにおけるコンテキストが単語の信頼度に及ぼす影響を表してもよい。したがって、エンコーダは、現在時刻での目標単語を決定する過程において、コンテキストが単語に及ぼす影響を導入することができ、目標単語とオリジナルテキストのコンテンツとの適合度をさらに高めることができる。

【0060】

ステップ２０４では、デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成する。

【0061】

この実施形態では、実行主体は、デコーダから出力された各目標単語を時系列に従って直列接続して、目標テキストを得ることができる。各目標単語は、いずれもオリジナルテキストに由来し、要素ラベルに関連するので、目標テキストは、実行主体が要素ラベルに従ってオリジナルテキストから抽出したテキストを表してもよい。

【0062】

次に、図３を参照し、図３は、図２に示す方法の一実施形態の応用シーンを示す概略図である。図３に示すシーン３００では、オリジナルテキストは商品情報３０３であり、例えば商品名および商品の詳細情報を含んでもよく、目標テキストは商品情報要約３０５である。端末装置３０１は、商品情報３０３および要素ラベル３０４をネットワークを介してサーバ３０２に送信することができる。サーバ３０２には、事前訓練されたテキスト生成モデルが搭載されている。テキスト生成モデルは、注意モジュールを含むＬＳＴＭエンコーダおよびＬＳＴＭデコーダであってもよい。サーバ３０２は、受信した商品情報および要素ラベルを当該テキスト生成モデルに入力し、次のテキスト生成ステップを実行する。テキスト生成ステップは、ＬＳＴＭエンコーダにより商品情報を第３の所定の次元の符号化テキスト特徴ベクトルに符号化し、商品情報内の各文を第４の所定の次元の符号化文特徴ベクトルに符号化するステップを含む。その後、ＬＳＴＭエンコーダにより、符号化テキスト特徴ベクトルに対して、現在時刻における隠れ状態ベクトルを段階的に出力し、次に、注意モジュールにより、符号化テキスト特徴ベクトルと隠れ状態ベクトルとに基づいて、商品情報における各単語の現在時刻における単語注意重みを決定し、符号化文特徴ベクトルと要素ラベルと隠れ状態ベクトルとに基づいて、商品情報における各文の文注意重みを決定し、単語の単語注意重みとその単語を含む全ての文の文注意重みとの積を正規化後の単語注意重みとして、オリジナルテキストにおける各単語の現在時刻における正規化後の単語注意重みを得る。その後、エンコーダは、符号化テキスト特徴ベクトルとオリジナルテキスト中の各単語の現在時刻における正規化後の単語注意重みに基づいて、現在時刻における目標単語を推定し、各時刻の目標単語を時系列に従って直列接続して目標テキストとすることにより、商品情報の要約を得ることができ、かつ、要約のコンテンツと要素ラベルとの関連度が高い。

【0063】

【0064】

さらに、テキストを生成するための方法のもう一つの実施形態のフロー４００を示す図４を参照する。このテキストを生成するための方法のフロー４００は、次のステップを含む。

【0065】

ステップ４０１では、オリジナルテキストを受信する。

【0066】

ステップ４０２では、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得する。

【0067】

この実施形態では、実行主体は、句点、感嘆符、または疑問符を分割境界として、オリジナルテキストをいくつかの短文に分割して、短文セットを得てもよい。このようにして、各短文のセマンティック上の完全性を確保することができる。

【0068】

ステップ４０３では、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得する。

【0069】

一例として、予め設定された条件は、短文に少なくとも１つのコンマが含まれ、かつ短文の長さが予め設定された長さ区間内にあることであってもよい。実行主体は、この予め設定された条件に基づいて、ステップ４０２で得られた短文をスクリーニングし、条件を満たさない短文を削除することにより、ノイズデータの干渉を低減することができる。

【0070】

ステップ４０４では、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、単語特徴に基づいて各短文の文特徴を決定する。

【0071】

この実施形態では、短文の文特徴は、短文のコンテンツの特徴を表すものであり、例えば、短文の文法構造特徴およびセマンティック特徴を含んでもよい。

【0072】

特徴抽出モデルは、ＴＦ－ＩＤＦまたはｗｏｒｄ２ｖｅｃなどの既存または将来に開発可能なモデルを採用してもよい。本開示はこれを限定しない。

【0073】

一例として、実行主体は、事前訓練されたＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ，変圧器からの双方向エンコーダ表現）モデルを用いて、各短文から単語の特徴を抽出し、各単語の特徴を加重平均してその短文の文特徴としてもよい。

【0074】

ステップ４０５では、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得する。

【0075】

一例として、実行主体は、Ｋ－ｍｅａｎｓ（Ｋ平均法クラスタリングアルゴリズム）モデルを用いて短文の文特徴をクラスタリングし、短文ごとのクラスタラベルを得、更新済み短文セット全体に対応するクラスタラベルセットを得ることができる。

【0076】

また、クラスタモデルは、変分オートエンコーダまたはＤＢＳＣＡＮ（Ｄｅｎｓｉｔｙ－ＢａｓｅｄＳｐａｔｉａｌＣｌｕｓｔｅｒｉｎｇｏｆＡｐｐｌｉｃａｔｉｏｎｓｗｉｔｈＮｏｉｓｅ，密度に基づくクラスタリングアルゴリズム）などの既存または将来に開発されるクラスタモデルであってもよい。

【0077】

ステップ４０６では、クラスタラベルセットから目標クラスタラベルを決定する。

【0078】

ステップ４０７では、目標クラスタラベルを要素ラベルとして決定する。

【0079】

この実施形態では、クラスタラベルは、オリジナルテキストのコンテンツの特徴を表すことができ、要素ラベルは、目標テキストのコンテンツに対するユーザの要求を表し、クラスタラベルセットから決定された要素ラベルは、オリジナルテキストのコンテンツの特徴とユーザのコンテンツに対する要求とを兼ね合うことができる。

【0080】

ステップ４０８では、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成する。このステップは、上記ステップ２０２に対応しており、ここではその説明を省略する。

【0081】

ステップ４０９では、事前訓練されたデコーダを用いて、復号ステップを実行する。このステップは、上記ステップ２０３に対応しており、ここではその説明を省略する。

【0082】

ステップ４１０では、デコーダが各時刻で出力した目標単語に基づいて目標テキストを生成する。このステップは、上記ステップ２０４に対応しており、ここではその説明を省略する。

【0083】

図４から分かるように、この実施形態におけるテキストを生成するための方法のフロー４００は、クラスタリングアルゴリズムに基づいてオリジナルテキスト中の短文のクラスタラベルを抽出し、クラスタラベルから要素ラベルを決定するステップを示しており、要素ラベルとオリジナルテキストとの関連度を高めることができ、さらに、生成された目標テキスト中の文および単語と要素ラベルとの関連度を高めることができ、これにより、テキスト生成の精度および制御性をさらに高めることができる。

【0084】

さらに図５を参照すると、上記の各図に示す方法の実施形態として、本開示は、テキストを生成するための装置５００の一実施形態を提供し、当該装置の実施形態は、図２に示す方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

【0085】

図５に示すように、本実施形態のテキストを生成するための装置５００は、オリジナルテキストおよび要素ラベルを受信するように構成される受信ユニット５０１と、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するように構成される符号化ユニット５０２と、事前訓練されたデコーダを用いて、次の復号ステップを実行するように構成される復号ユニット５０３であって、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップとを含む、復号ユニット５０３と、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するように構成される生成ユニット５０４と、を備える。

【0086】

この実施形態では、符号化ユニット５０２は、オリジナルテキストに基づいて、テキスト特徴行列を生成するように構成される特徴行列生成モジュールと、テキスト特徴行列を事前訓練された第１のエンコーダに入力して、符号化テキスト特徴ベクトルを取得するように構成される第１の符号化モジュールと、テキスト特徴行列を事前訓練された第２のエンコーダに入力して、オリジナルテキストにおける各単語の符号化単語特徴ベクトルを取得するように構成される第２の符号化モジュールと、オリジナルテキストの各文における各単語の符号化単語特徴ベクトルに基づいて、オリジナルテキストにおける各文の文特徴ベクトルを決定するように構成される文特徴ベクトル生成モジュールと、オリジナルテキストにおける各文の文特徴ベクトルを事前訓練された第３のエンコーダに入力して、オリジナルテキストにおける各文の符号化文特徴ベクトルを取得するように構成される第３の符号化モジュールとをさらに備える。

【0087】

この実施形態では、復号ユニット５０３は、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて、現在時刻におけるコンテキスト特徴ベクトルを生成するように構成されるコンテキスト特徴ベクトル生成モジュールと、コンテキスト特徴ベクトルおよび符号化テキスト特徴ベクトルに基づいて、現在時刻における目標単語を推定するように構成される目標単語出力モジュールと、をさらに備える。

【0088】

この実施形態では、当該装置５００は、オリジナルテキストをクラスタリングしてクラスタラベルセットを取得し、クラスタラベルセットから目標クラスタラベルを決定し、目標クラスタラベルを要素ラベルとして決定するように構成される要素ラベル生成ユニットをさらに備える。

【0089】

この実施形態において、要素ラベル生成ユニットは、予め設定された句読点を分割境界として、オリジナルテキストを分割して、短文セットを取得するように構成される分割モジュールと、短文セットにおける予め設定された条件を満たさない短文を削除して、更新済み短文セットを取得するように構成されるスクリーニングモジュールと、更新済み短文セットに基づいて、事前訓練された特徴抽出モデルを用いて、各短文における各単語の単語特徴を抽出し、且つ単語特徴に基づいて、各短文の文特徴を決定するように構成される特徴抽出モジュールと、更新済み短文セット内の各短文の文特徴に基づいて、事前訓練されたクラスタモデルを用いて、更新済み短文セット内の各短文のクラスタラベルを決定し、クラスタラベルセットを取得するように構成されるラベル生成モジュールと、をさらに備える。

【0090】

以下、本開示の実施形態を実現するために適用される電子機器（例えば、図１に示すサーバまたは端末装置）６００の構造概略図を示す図６を参照する。本開示の実施形態における端末装置は、携帯電話、ノート型コンピュータ、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ，パーソナルデジタルアシスタント）、ＰＡＤ（タブレットコンピュータ）等の携帯端末並びにデジタルＴＶ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されない。図６に示す端末装置は、あくまでも一例に過ぎず、本開示の実施形態の機能および使用範囲には如何なる制限をも与えない。

【0091】

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に格納されているプログラムまたは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理装置（例えば、中央処理装置、グラフィックスプロセッサなど）６０１を含んでもよい。ＲＡＭ６０３には、電子機器６００の動作に必要な様々なプログラムおよびデータが更に格納されている。処理装置６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

【0092】

通常、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力装置６０６、液晶ディスプレイ（ＬＣＤ）、スピーカ、振動子などを含む出力装置６０７、例えば、磁気テープ、ハードディスクなどを含む記憶装置６０８、および通信装置６０９がＩ／Ｏインタフェース６０５に接続されてもよい。通信装置６０９により、電子機器６００は、データを交換するために他のデバイスと無線または有線で通信可能になる。図６は、様々な装置を有する電子機器６００を示しているが、図示された装置のすべてを実装または具備することが要求されないことを理解すべきである。オプション的に実行されるか、またはより多いまたはより少ない装置が実装されてもよい。図６に示す各ブロックは、１つの装置を表すことも、必要に応じて複数の装置を表すこともできる。

【0093】

特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶装置６０８またはＲＯＭ６０２からインストールされ得る。当該コンピュータプログラムが処理装置６０１によって実行されると、本開示の実施形態の方法で限定された上記機能を実行する。なお、本開示の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、１本または複数本の導線により電気的に接続された、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示の実施形態において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示の実施形態において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読信号媒体は、指令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、ＲＦ（無線周波数）など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。

【0094】

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、当該電子機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は、１つまたは複数のプログラムを担持しており、上記１つまたは複数のプログラムが当該電子機器によって実行されると、当該電子機器に次の方法を実行させる。当該方法は、オリジナルテキストおよび要素ラベルを受信するステップと、オリジナルテキストに基づいて、事前訓練されたエンコーダを用いて符号化テキスト特徴ベクトルおよびオリジナルテキストにおける各文の符号化文特徴ベクトルを生成するステップと、事前訓練されたデコーダを用いて、次の復号ステップを実行するステップと、を含み、復号ステップは、デコーダの現在時刻における隠れ状態ベクトルおよび符号化テキスト特徴ベクトルに基づいて、オリジナルテキストの各単語の現在時刻における単語注意重みを決定するステップと、デコーダの現在時刻における隠れ状態ベクトル、符号化文特徴ベクトルおよび要素ラベルに基づいて、オリジナルテキストの各文の現在時刻における文注意重みを決定するステップと、文注意重みおよび単語注意重みに基づいて、現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みを決定するステップと、符号化テキスト特徴ベクトルと現在時刻におけるオリジナルテキストの各単語の正規化後の単語注意重みとに基づいて現在時刻における目標単語を推定するステップと、を含み、当該方法は、デコーダが各時刻で出力した目標単語に基づいて、目標テキストを生成するステップをさらに含む。

【0095】

本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、１種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、上記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続することができ、または（例えば、インターネットサービスプロバイダによるインターネットサービスを介して）外部コンピュータに接続することができる。

【0096】

図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係るシステム、方法およびコンピュータプログラムによって実現できるアーキテクチャ、機能および動作の表示例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための１つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された２つのブロックは、実際には係る機能に応答して、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および／またはフローチャートにおけるすべてのブロック、ならびにブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。

【0097】

本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記載されたユニットは、プロセッサに設置されてもよく、例えば、「受信ユニット、符号化ユニット、復号ユニットおよび生成ユニットを備えるプロセッサ」と記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「オリジナルテキストおよび要素ラベルを受信するユニット」として記載されてもよい。

【0098】

以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上述した技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上述した本開示の趣旨を逸脱しない範囲で、上述した技術的特徴またはそれらの均等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示の実施形態に開示された類似の機能を持っている技術的特徴（これらに限定されていない）と互いに置き換えてなる技術案が挙げられる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版