IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7462739シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構
<>
  • 特許-シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 図1
  • 特許-シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 図2
  • 特許-シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 図3
  • 特許-シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-28
(45)【発行日】2024-04-05
(54)【発明の名称】シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構
(51)【国際特許分類】
   G06N 3/0455 20230101AFI20240329BHJP
   G10L 13/06 20130101ALI20240329BHJP
   G10L 25/30 20130101ALI20240329BHJP
【FI】
G06N3/0455
G10L13/06 120Z
G10L25/30
【請求項の数】 22
(21)【出願番号】P 2022515964
(86)(22)【出願日】2020-09-18
(65)【公表番号】
(43)【公表日】2022-11-21
(86)【国際出願番号】 EP2020076185
(87)【国際公開番号】W WO2021053192
(87)【国際公開日】2021-03-25
【審査請求日】2023-02-24
(31)【優先権主張番号】16/575,432
(32)【優先日】2019-09-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】シェヒトマン、ヴャチェスラフ
(72)【発明者】
【氏名】ソーリン、アレクサンダー
【審査官】多賀 実
(56)【参考文献】
【文献】特開2019-091172(JP,A)
【文献】米国特許出願公開第2018/0060665(US,A1)
【文献】米国特許出願公開第2019/0122651(US,A1)
【文献】田中 宏 外3名,「文脈保持機構を用いた系列変換学習による音声変換」,電子情報通信学会技術研究報告 [オンライン],一般社団法人電子情報通信学会,2019年08月21日,第119巻, 第188号,pp.7-12,[2019年10月07日 検索], インターネット:<URL: https://www.ieice.org/ken/user/index.php?cmd=download&p=PENZ&t=IEICE-SP&l=57df8fa478d645fb26045e2762d2ba89277851794f79f693de48961f1887ea26&lang=>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
G10L 13/06
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
方法であって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
(a)それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
(b)前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
(c)訓練されたソフト選択ANNを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することと
を含む、方法。
【請求項2】
前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項1に記載の方法。
【請求項3】
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記少なくとも1つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項1または2に記載の方法。
【請求項4】
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも1つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項1または2に記載の方法。
【請求項5】
前記構造適合測度は、smooth maximum、尖度、歪度、エントロピー、L2ノルムとL1ノルムとの間の比のうちの少なくとも1つに基づく、請求項1ないし4のいずれかに記載の方法。
【請求項6】
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項1ないし5のいずれかに記載の方法。
【請求項7】
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルANNを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルANNの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項1ないし5のいずれかに記載の方法。
【請求項8】
前記訓練された一次注意機構は、加法注意機構である、請求項1ないし7のいずれかに記載の方法。
【請求項9】
前記seq2seq ANNは、テキスト-音声変換タスクのために構成され、前記方法は、
前記出力系列から音声を合成するようにボコーダを動作させることと、
合成された前記音声の少なくとも1つのプロソディ・パラメータに影響を及ぼすように、前記出力系列の前記生成の前または最中に前記二次注意ベクトルを修正することとをさらに含む、請求項1ないし8のいずれかに記載の方法。
【請求項10】
前記少なくとも1つのプロソディ・パラメータは、イントネーション、強勢、テンポ、リズム、中断、およびチャンキングからなる群から選択される、請求項9に記載の方法。
【請求項11】
ユーザから前記所望の注意ベクトル構造の定義を受信することをさらに含む、請求項1ないし10のいずれかに記載の方法。
【請求項12】
システムであって、
(i)少なくとも1つのハードウェア・プロセッサと、
(ii)プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、前記プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、
符号化入力ベクトル系列を取得することと、
前記訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、
前記一次注意ベクトル系列の各一次注意ベクトルについて、
(a)それぞれの前記一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、
(b)前記注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの前記注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、
(c)訓練されたソフト選択ANNを使用して、前記評価および前記訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システム。
【請求項13】
前記出力系列の前記生成は、
前記符号化入力ベクトル系列および前記二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、
前記訓練されたアテンティブ・デコーダを使用して、前記入力文脈ベクトルに基づいて前記出力系列を生成することと
を含む、請求項12に記載のシステム。
【請求項14】
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記少なくとも1つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、前記少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することと
を含む、請求項12または13に記載のシステム。
【請求項15】
前記注意ベクトル候補の集合の前記生成は、
現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、
前記所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、前記少なくとも1つの取得されたベクトルを、前記追加の注意ベクトルによって増補することと
を含む、請求項12または13に記載のシステム。
【請求項16】
前記構造適合測度は、smooth maximum、尖度、歪度、エントロピー、L2ノルムとL1ノルムとの間の比のうちの少なくとも1つに基づく、請求項12ないし15のいずれかに記載のシステム。
【請求項17】
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、前記マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の集合の重みを生成することと、
前記注意ベクトル候補の集合を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項12ないし16のいずれかに記載のシステム。
【請求項18】
前記二次注意ベクトルの前記生成は、
評価された前記構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度を生成することと、
注意ベクトル候補の複数の部分集合および前記候補の対応するマッピングされた構造適合測度を定義することと、
前記複数の部分集合の各々について、
交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供し、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記訓練されたシーケンシャルANNを適用し、それぞれの前記部分集合の前記マッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、
ソフトマックス層に前記暫定ベクトルを提供して、前記注意ベクトル候補の部分集合の重みを生成し、
それぞれの前記部分集合の前記注意ベクトル候補を前記候補の重みに従って結合することによって、部分集合注意ベクトル候補を形成し、
前記部分集合注意ベクトル候補について、前記部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、
評価された前記部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、
交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルANNを提供することと、
前記訓練されたアテンティブ・デコーダの前記状態変数に前記追加の訓練されたシーケンシャルANNを適用し、前記マッピングされた部分集合構造適合測度のベクトルに前記追加の訓練されたシーケンシャルANNの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、
ソフトマックス層に前記中間ベクトルを提供して、前記部分集合注意ベクトル候補の重みを生成することと、
前記部分集合注意ベクトル候補を前記候補の重みに従って結合することによって、前記二次注意ベクトルを形成することと
を含む、請求項12ないし16のいずれかに記載のシステム。
【請求項19】
前記訓練された一次注意機構は、加法注意機構である、請求項12ないし18のいずれかに記載のシステム。
【請求項20】
前記プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、以下の命令、すなわち、
ユーザから前記所望の注意ベクトル構造の定義を受信することを実施するようにさらに実行可能である、請求項12に記載のシステム。
【請求項21】
請求項1ないし11のいずれか一項に記載の方法をコンピュータに実行させるコンピュータ・プログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項22】
請求項1ないし11のいずれか一項に記載の方法をコンピュータに実行させる、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、シーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の分野に関する。
【背景技術】
【0002】
seq2seq学習および推論のためにニューラル・モデル(すなわち、ANN)を使用することは、I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," Advances in Neural Information Processing Systems 27 (NIPS2014)によって2014年に最初に紹介された。seq2seqニューラル・モデルは、入力系列の長さを事前に知ることなく、入力系列を出力系列にマッピングすることが可能である。今日、seq2seqニューラル・モデルは、機械翻訳、音声認識、テキスト-音声変換(TTS)、ビデオ・キャプション生成、テキスト要約、テキスト含意、質問応答、チャット・ボットなどのようなタスクに使用されている。
【0003】
seq2seqニューラル・モデルは、典型的には、エンコーダ-デコーダ・アーキテクチャを使用する。一般的に、エンコーダおよびデコーダは各々、長・短期記憶(LSTM)またはゲート付き回帰型ユニット(GRU)ネットワークなどの回帰型ニューラル・ネットワーク(RNN)を含む。エンコーダにおいて、入力系列は、通常は「状態ベクトル」または「文脈ベクトル」として参照されるコンパクトな表現に符号化される。これらは、デコーダへの入力としての役割を果たし、デコーダは、適切な出力系列を生成する。デコーダは、別個の反復(「時間ステップ」)において動作し、1つのそのような時間ステップにおいて、出力系列の各シンボルを出力する。
【0004】
注意機構(attention mechanism)は、seq2seqニューラル・モデルにおいて重要な役割を果たす。多くのタスクにおいて、正確な出力系列を生成するために、入力系列内のすべてのシンボルが等しく取り扱われるべきではない。例えば、機械翻訳において、入力系列内に見られる単語は、いくつかの異なる意味を有する場合があり、これを第2の言語において正しい単語に翻訳するためには、入力系列内の他の単語から、その正確な意味を文脈的に推論しなければならない。注意機構は、問題のある単語の文脈を理解するために、入力系列内の正確な単語に依拠するように、seq2seqニューラル・モデルを誘導することができる。これは、典型的には、文脈ベクトルをデコーダによって処理する前に、文脈ベクトルにバイアスをかけることによって実施される。デコーダの入力系列全体に対する、デコーダの1つの出力シンボルの相対的注意(「アラインメント(alignment)」とも)を各々が決定する、注意重みベクトル(「アラインメント・ベクトル」とも)が提供される。それらの対応する重みがアラインメント・ベクトルからとられている、符号化入力系列ベクトルの線形結合が、その後デコーダによって処理される文脈ベクトルを表す。
【0005】
関連技術の上記の例およびそれに関連する制限は、排他的ではなく、例示であるように意図されている。本明細書を読み、図面を研究すれば、関連技術の他の制限が当業者には諒解されよう。いくつかのseq2seq生成用途において、出力生成を制御するために、推論時にアラインメント・マトリックスを修正することが特に望ましい。その目的のためには、ロバストなアラインメント制御の(すなわち、アラインメント・マトリックスの構造を保持する)機構を導出しなければならない。
【0006】
したがって、当該技術分野において、前述の問題に対処することが必要とされている。
【発明の概要】
【0007】
第1の態様から見ると、本発明は、方法であって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダ(attentive decoder)において、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度(structure fit measure)を評価し、訓練されたソフト選択ANNを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを含む、方法を提供する。
【0008】
さらなる態様から見ると、本発明は、システムであって、(i)少なくとも1つのハードウェア・プロセッサと、(ii)プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、訓練されたソフト選択ANNを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システムを提供する。
【0009】
さらなる態様から見ると、本発明は、シーケンス-シーケンス人工ニューラル・ネットワークのためのコンピュータ・プログラム製品であって、処理回路によって可読なコンピュータ可読記憶媒体であり、本発明のステップを実施するための方法を実施するために、処理回路によって実行するための命令を記憶しているコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品を提供する。
【0010】
さらなる態様から見ると、本発明は、コンピュータ可読媒体上に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で作動されるときに、本発明のステップを実施するためのソフトウェア・コード部分を備える、コンピュータ・プログラムを提供する。
【0011】
以下の実施形態およびその態様は、範囲の限定ではなく、例示および実例であるように意図されているシステム、ツールおよび方法と併せて説明され、示されている。
【0012】
1つの実施形態は、方法であって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、(a)それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、(b)注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、(c)訓練されたソフト選択ANNを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを含む、方法に関する。
【0013】
別の実施形態は、システムであって、(i)少なくとも1つのハードウェア・プロセッサと、(ii)プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体とを備え、プログラム・コードは、前記少なくとも1つのハードウェア・プロセッサによって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、(a)それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、(b)注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、(c)訓練されたソフト選択ANNを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、システムに関する。
【0014】
さらなる実施形態は、プログラム・コードが具現化された非一過性コンピュータ可読記憶媒体を備えるコンピュータ・プログラム製品であって、プログラム・コードは、少なくとも1つのハードウェア・プロセッサによって、訓練されたシーケンス-シーケンス(seq2seq)人工ニューラル・ネットワーク(ANN)の訓練されたアテンティブ・デコーダにおいて、以下の命令、すなわち、符号化入力ベクトル系列を取得することと、訓練されたアテンティブ・デコーダの訓練された一次注意機構を使用して、一次注意ベクトル系列を生成することと、一次注意ベクトル系列の各一次注意ベクトルについて、(a)それぞれの一次注意ベクトルに対応する注意ベクトル候補の集合を生成し、(b)注意ベクトル候補の集合の各注意ベクトル候補について、それぞれの注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する構造適合測度を評価し、(c)訓練されたソフト選択ANNを使用して、前記評価および訓練されたアテンティブ・デコーダの状態変数に基づいて二次注意ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、符号化入力ベクトル系列および二次注意ベクトルに基づいて出力系列を生成することとを実施するように実行可能である、コンピュータ・プログラム製品に関する。
【0015】
いくつかの実施形態において、出力系列の前記生成は、符号化入力ベクトル系列および二次注意ベクトルに基づいて入力文脈ベクトルを生成することと、訓練されたアテンティブ・デコーダを使用して、入力文脈ベクトルに基づいて出力系列を生成することとを含む。
【0016】
いくつかの実施形態において、注意ベクトル候補の集合の前記生成は、現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、少なくとも1つの取得されたベクトルの内容のシャッフルおよびシフトのうちの少なくとも一方によって、少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することとを含む。
【0017】
いくつかの実施形態において、注意ベクトル候補の集合の前記生成は、現在の一次注意ベクトル、以前の一次注意ベクトルの集合、および以前の二次注意ベクトルの集合のうちの少なくとも1つを取得することと、所望の注意ベクトル構造に準拠するように追加の注意ベクトルを計算することによって、少なくとも1つの取得されたベクトルを、追加の注意ベクトルによって増補することとを含む。
【0018】
いくつかの実施形態において、構造適合測度は、smooth maximum、尖度、歪度、エントロピー、L2ノルムとL1ノルムとの間の比のうちの少なくとも1つに基づく。
【0019】
いくつかの実施形態において、二次注意ベクトルの前記生成は、評価された構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度ベクトルを生成することと、交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供することと、訓練されたアテンティブ・デコーダの状態変数に訓練されたシーケンシャルANNを適用し、マッピングされた構造適合測度ベクトルに前記適用の出力ベクトルを追加して、暫定ベクトルを生成することと、ソフトマックス層に暫定ベクトルを提供して、注意ベクトル候補の集合の重みを生成することと、注意ベクトル候補の集合をそれらの重みに従って結合することによって、二次注意ベクトルを形成することとを含む。
【0020】
いくつかの実施形態において、二次注意ベクトルの前記生成は、評価された構造適合測度にスカラー・マッピングを適用して、マッピングされた構造適合測度を生成することと、注意ベクトル候補の複数の部分集合およびそれらの対応するマッピングされた構造適合測度を定義することと、複数の部分集合の各々について、(a)交互になった線形層および非線形層と、終端線形層とを有する訓練されたシーケンシャルANNを提供し、(b)訓練されたアテンティブ・デコーダの状態変数に訓練されたシーケンシャルANNを適用し、それぞれの部分集合のマッピングされた構造適合測度に前記適用の出力ベクトルを追加して、暫定ベクトルを生成し、(c)ソフトマックス層に暫定ベクトルを提供して、注意ベクトル候補の部分集合の重みを生成し、(d)それぞれの部分集合の注意ベクトル候補をそれらの重みに従って結合することによって、部分集合注意ベクトル候補を形成し、(e)部分集合注意ベクトル候補について、部分集合注意ベクトル候補と、所望の注意ベクトル構造との類似度を定量化する部分集合構造適合測度を評価し、(f)評価された部分集合構造適合測度にスカラー・マッピングを適用して、マッピングされた部分集合構造適合測度を生成することと、交互になった線形層および非線形層と、終端線形層とを有する追加の訓練されたシーケンシャルANNを提供することと、訓練されたアテンティブ・デコーダの状態変数に追加の訓練されたシーケンシャルANNを適用し、マッピングされた部分集合構造適合測度のベクトルに追加の訓練されたシーケンシャルANNの前記適用の出力ベクトルを追加して、中間ベクトルを提供することと、ソフトマックス層に中間ベクトルを提供して、部分集合注意ベクトル候補の重みを生成することと、部分集合注意ベクトル候補をそれらの重みに従って結合することによって、二次注意ベクトルを形成することとを含む。
【0021】
いくつかの実施形態において、訓練された一次注意機構は、加法注意機構(additive attention mechanism)である。
【0022】
いくつかの実施形態において、seq2seq ANNは、テキスト-音声変換タスクのために構成され、方法または命令は、出力系列から音声を合成するようにボコーダを動作させることと、合成された音声の少なくとも1つのプロソディ・パラメータに影響を及ぼすように、出力系列の前記生成の前または最中に二次注意ベクトルを修正することとをさらに含む。
【0023】
いくつかの実施形態において、少なくとも1つのプロソディ・パラメータは、イントネーション、強勢、テンポ、リズム、中断、およびチャンキングからなる群から選択される。
【0024】
いくつかの実施形態において、方法または命令は、ユーザから所望の注意ベクトル構造の定義を受信することをさらに含む。
【0025】
上述の例示的な態様および実施形態に加えて、さらなる態様および実施形態が図面を参照することによって、および、以下の詳細な説明を研究することによって明らかとなろう。
【0026】
例示的な実施形態が、参照図面に示されている。図面に示されている構成要素および特徴の寸法は、概して、提示の便宜および明瞭さのために選択されており、必ずしも原寸に比例して示されているとは限らない。
【図面の簡単な説明】
【0027】
図1】一実施形態による、seq2seq ANNを動作させるための例示的なシステムのブロック図である。
図2】一実施形態による、seq2seq ANNを動作させるための例示的な方法の流れ図である。
図3】一実施形態による、seq2seq ANNモデルの例示的なエンコーダ-デコーダ構成の図である。
図4】実験結果による、2つの注意機構の平均アラインメント・ベクトル・エントロピーを比較したグラフ図である。
【発明を実施するための形態】
【0028】
seq2seq ANNモデル(以下「モデル」)の、構造を保持する二次注意機構が、本明細書において開示されている。モデルの既存の(「一次」)注意機構の代わりになるために使用することができる、この二次注意機構は、モデルのアラインメント安定性を改善することができ、推論中にモデルの出力系列の様々なパラメータを制御するときに特に有益である。これはまた、モデルの学習(「訓練」とも)中のアラインメント収束を改善するためにも有益である。
【0029】
有利には、構造保持二次注意機構は、一方においてはモデルの一次注意機構とは別様にデコーダの文脈ベクトルにバイアスをかけ、他方においては特定の所望の構造を保持する二次注意ベクトルを提供することが可能である。所望の構造の保持は、モデルによる出力系列の正確な予測を保証するために重要である。適切な構造を順守することなく生成される二次注意機構が、一次注意機構を改善する可能性は低い。
【0030】
注意マトリックスの所望の定性的構造は、ユーザ(例えば、目下の事例に適合する注意機構特性に関する知識を有する、モデルの開発者)によって定義されてもよく、または、ハード・コードされてもよい。例として、テキスト-音声変換モデルは、質の高い出力系列を生成するために、その注意マトリックスのために疎で単調な構造を必要とし得る。この構造は、各行のピーク位置(例えば、argmax)が先行する行のものよりも低くない、疎で単峰型のマトリックス行(すなわち、ベクトル)を伴う。
【0031】
注意マトリックスの所望の構造、したがって、そのベクトルを考慮すると、対応する構造適合測度を、生成される注意ベクトル候補の集合について評価することができる。構造適合測度は、所望の定性的注意ベクトル構造に対する各候補の適合を定量化する。構造適合測度は、主モデルに組み込まれるために、微分可能であるべきである。例えば、soft-maximum演算子(例えば、LogSumExp)出力が、単峰型の疎注意ベクトルの大まかな構造適合測度としての役割を果たすことができる。
【0032】
集合内の候補は、数例を挙げると、例えば、現在の一次注意ベクトル、1つ以上の以前の一次注意ベクトルを含む集合、または以前の二次注意ベクトル(すなわち、デコーダの1回以上の以前の反復において二次注意ベクトルとして選択されたもの)を含む集合、あるいはその組合せから取得することができる。
【0033】
任意選択的に、これらの取得された候補は、後の評価に利用可能な候補の数を増大させるために、1つ以上の追加の注意ベクトルによって増補される。追加の注意ベクトルは、例えば、取得された候補のうちの1つ以上の内容のシャッフルまたはシフトあるいはその両方を行うことによって、生成することができる。もう1つの選択肢は、所望の構造に基づいて、1つ以上の追加の注意ベクトルを新たに計算することである。
【0034】
次に、二次注意ベクトルを、ソフト選択によって生成することができる、すなわち、取得された候補ベクトル、および、任意選択的にまた、増強された候補の凸線形結合として取得することができる。少なくとも、候補の評価された構造適合測度を供給されている、訓練されたシーケンシャルANNによって、凸線形結合の重みを生成することができる。このANNは、主ネットワークの元の訓練損失を保持して、主seq2seqネットワークとともに訓練することができる。
【0035】
この技法によって生成される二次注意ベクトルは、その後、モデルによって学習または推論あるいはその両方に利用することができ、デコーダの残りの部分に供給され、出力系列を生成するために使用される入力文脈ベクトルの計算において、一次注意ベクトルに代わる。
【0036】
ここで、一実施形態による、seq2seq ANNを動作させるための例示的なシステム100のブロック図を示す、図1を参照する。システム100は、1つ以上のハードウェア・プロセッサ102と、ランダム・アクセス・メモリ(RAM)104と、1つ以上の非一過性コンピュータ可読記憶デバイス106とを含むことができる。
【0037】
記憶装置デバイス106は、ハードウェア・プロセッサ102を動作させるように構成されたプログラム命令またはコンポーネントあるいはその両方を記憶することができる。プログラム命令は、seq2seq ANNモジュール108などの、1つ以上のソフトウェア・モジュールを含むことができる。また、一般的なシステム・タスク(例えば、メモリ管理、記憶デバイス制御、電力管理など)の制御および管理、様々なハードウェアおよびソフトウェア構成要素の間の通信の促進、ならびにseq2seq ANNモジュール108の実行のための様々なソフトウェア構成要素またはドライバあるいはその両方を有するオペレーティング・システムも含まれる。
【0038】
システム100は、seq2seq ANNモジュール108の命令がプロセッサ102によって実行されているときに、これをRAM104にロードすることによって動作することができる。seq2seq ANNモジュール108の命令は、システム100に、入力系列110を受信させ、これを処理させ、出力系列112を生成させることができる。
【0039】
本明細書に記載されているものとしてのシステム100は、本発明の例示的な実施形態に過ぎず、実際には、ハードウェアのみ、ソフトアウェアのみ、またはハードウェアとソフトアウェアの両方の組合せにおいて実装されてもよい。システム100は、図示されているよりも多いもしくは少ない構成要素およびモジュールを有してもよく、構成要素のうちの2つ以上を組み合わせてもよく、または、構成要素の異なる構成もしくは配置を有してもよい。システム100は、システム100が動作可能なコンピュータ・システムとして機能することを可能にする、マザーボード、データ・バス、電源、ネットワーク・インターフェース・カードなど(図示せず)などの任意の追加の構成要素を含んでもよい。システム100の構成要素は、同一場所に配置されてもよく、または(例えば、分散コンピューティング・アーキテクチャにおいて)分散されてもよい。
【0040】
ここで、一実施形態による、seq2seq ANNを動作させるための方法200を示す図2の流れ図を参照して、seq2seq ANNモジュール108の命令を説明する。提示を単純にするために、方法200は推論の観点から説明する。これは、seq2seq ANNのすでに訓練されたアテンティブ・デコーダ(以下、略して「デコーダ」)の、そのデコーダがseq2seq ANNのエンコーダから符号化入力ベクトル系列を取得し、最終的に出力系列を生成するときの動作を参照する。そのデコーダを訓練するためには、基本的には、エンコーダに供給される訓練データを除いて、方法200の同じステップが実施され得る。また、デコーダが自己回帰型である場合、当該技術分野において知られているように、「教師強制」訓練が使用され得る。
【0041】
方法200のステップは、提示されている順序において実施されてもよく、または、順序が、特定のステップへの必要な入力が先行するステップの出力から取得されることを可能にする限り、異なる順序において(もしくはさらには並列に)実施されてもよい。加えて、方法200のステップは、別途具体的に述べられていない限り、自動的に(例えば、図1のシステム100によって)実施される。
【0042】
ステップ202において、当該技術分野において知られているように、seq2seq ANNのエンコーダから符号化入力ベクトル系列を取得することができる。
【0043】
ステップ204において、当該技術分野において知られているように、seq2seq ANNの訓練された一次注意機構(任意選択的に、加法タイプの)を使用して一次注意ベクトル系列を生成することができる。
【0044】
以下のステップ、符号206、208、および210は、ステップ204において生成された一次注意ベクトル系列の各一次注意ベクトルについて繰り返すことができる。ステップ206、208、および210は、ともに、本実施形態の二次注意機構を構成することができ、この機構は、出力系列を生成するステップ212において使用に供される。
【0045】
ステップ206において、一次注意ベクトル系列の各一次注意ベクトルについて、訓練された一次注意機構を使用して注意ベクトル候補(以下「候補」)の集合を生成することができる。これは、所望の注意ベクトル構造に最も適合する候補を後に選択することができるように行われる。
【0046】
候補の集合の生成は、集合の要素としての役割を果たす以下のベクトル、すなわち、現在の一次注意ベクトル、すなわちデコーダの動作の現在の時間ステップにおいて一次注意機構によって提供された、現在の反復のそれぞれの一次注意ベクトル、1つ以上の以前の一次注意ベクトル、すなわちデコーダの動作の1つ以上の以前の時間ステップにおいて一次注意機構によって提供された、1つ以上の以前の反復の一次注意ベクトルの集合、および、1つ以上の以前の二次注意ベクトル、すなわちデコーダの動作の以前の時間ステップにおいて二次注意機構によって提供された、1つ以上の以前の反復において二次注意ベクトルとして選択された二次注意ベクトル(下記ステップ210参照)の集合、のうちの1つ以上を取得することを含むことができる。
【0047】
サブステップ206aにおいて、取得された候補は、任意選択的に、方法の次のステップにおける評価に利用可能な候補の数を増大させるために、1つ以上の追加の注意ベクトルによって増補される。追加の注意ベクトルを生成するための1つの選択肢は、取得された候補のうちの1つ以上の内容のシャッフルまたはシフトあるいはその両方(循環回転またはゼロ詰めのいずれかによる)である。単純な例として、ベクトルの内容<9,12,23,45>は、ランダムにシャッフルして<23,9,12,45>にすることができ、または、1つのインデックス位置だけ線形シフト(ゼロ詰めによる)して<0,9,12,23>にすることができる。さらなる選択肢は、取得された候補のうちの1つ以上の内容にランダム・ノイズを追加することによって、追加の注意ベクトルを生成することである。追加の注意ベクトルを生成するためのまた別の選択肢は、所望の注意マトリックス構造に準拠するように、それらを新たに計算することである。例えば、所望の構造が疎で単調である場合、計算される追加の注意ベクトルは、各ベクトルのピーク位値(argmax)が注意マトリックスにおけるその先行するベクトルのものよりも低くない、疎で単峰型になり得る。
【0048】
ステップ208において、ステップ206において取得され、任意選択的にステップ206aにおいて増補された候補の集合の各候補について、構造適合測度を評価することができ(また、前出のように、これは一次注意ベクトル系列の各一次注意ベクトルについて生成された候補のすべての集合について別個に行われる)。構造適合測度は、それぞれの候補と、所望の注意マトリックス構造との類似度を定量化する数式とすることができる。例えば、構造適合測度は、候補の各々が、所望の構造にどれだけ近く準拠するか、例えば、疎で単調であるかを示すことができる。
【0049】
評価された構造適合測度は、ほんの一例として、[0,1](まったく類似していない状態から、同一である状態まで)など、任意の数値スケールにおいて与えられてもよい。
【0050】
ステップ210において、様々な候補、それらの構造適合測度の評価の結果、および、デコーダの1つ以上の状態変数に基づいて、二次注意ベクトルを生成することができる。ステップ206、208、および210が一次注意ベクトル系列の各一次注意ベクトルについて繰り返されることに起因して、ステップ210の実行全体の結果として、複数の二次注意ベクトルがもたらされる。
【0051】
二次注意ベクトルを生成するための1つの方法は、ソフト選択によるものである。下記の実施例の節は、各々が本発明の一実施形態である、ソフト選択モジュール、単一段選択モジュールおよび階層型選択モジュールの2つの変形例を説明する。概して、両方の変形例は、1つのまたは一連の訓練されたシーケンシャルANNを使用することができ、これは最終的に、取得された候補ベクトルの(およびまた、任意選択的に増補された候補の)凸線形結合を実施し、凸線形結合の重みは、訓練されたシーケンシャルANNに、候補の評価された構造適合測度およびデコーダ状態変数(例えば、以前の入力文脈ベクトル、デコーダの隠れ状態ベクトルなど)を供給することによって生成される。そのようなシーケンシャルANNは、主ネットワークの元の訓練損失を保持して、主seq2seqネットワークとともに訓練することができる。
【0052】
階層型選択モジュールに対する代替として、各対の要素のそれぞれの構造適合測度に従って、候補の対にバイナリ・ゲーティング機構(binary gating mechanism)を階層的に適用することによって、二次注意ベクトルが生成されてもよい。
【0053】
代替的に、二次注意ベクトルは、評価された構造適合測度を考慮する、方法200のユーザによって提供される任意の基準に従って選択または生成されてもよい。
【0054】
最後に、ステップ212において、デコーダによって、ステップ210において生成された二次注意ベクトルおよびステップ202において取得された符号化入力ベクトル系列に基づいて、出力系列を生成することができる。出力系列は、目下のタスク(背景技術の節において列挙されたタスクなどのような)に応じて、テキスト、合成音声、メディア(画像、ビデオ、オーディオ、音楽)などのような、任意のタイプのデジタル出力を含んでもよい。特定のタイプのタスクにおいて、出力系列は、これをユーザにとって意味のあるものにするために、別の先行するステップを必要とする。例えば、TTSタスクにおいて、出力系列は、当該技術分野において知られているように、可聴波形を生成するために、ボコーダによる処理を必要とするスペクトル・オーディオ特徴の系列(コンピュータ・コードによって表される)であることが多い。他のタイプのメディア(画像、ビデオ、オーディオ、音楽などのような)を生成するためには、出力系列を処理して所望のタイプのメディアにするために、他のタイプのエンコーダが使用され得る。
【0055】
任意選択的に、ステップ212はまた、推論中に、デコーダの出力系列の1つ以上の特性を制御するサブステップ212aも含む。すなわち、二次注意ベクトルの、ひいては出力系列の対応する修正を引き起こすために、出力系列の生成の前または最中に、ユーザによって1つ以上のパラメータが変更されてもよい。そのような制御は、デコーダの外部のソースからパラメータを受信し、それに従って二次注意ベクトルを修正することができる副次機構を、二次注意機構内に実装することによって実現することができる。
【0056】
デコーダの出力系列特性に対する制御は、例えば、ユーザが出力系列から合成される音声のプロソディ・パラメータを修正することを模索し得るseq2seqニューラルTTSタスクにおいて有益であり得る。プロソディは、話者または発声の様々な特徴、すなわち、話者の情動状態、発声の形態(陳述、質問、または命令)、反語法または皮肉の存在、強調、対非、および集中を反映し得る。これは、他の様態では、文法または語彙の選択によって符号化することができない言語の他の要素を反映する場合がある。例示的なプロソディ・パラメータは、イントネーション(音調、抑揚、音色、ピッチ範囲、調子)、強勢(ピッチ突出、長さ、音量、音質)、テンポ、リズム、中断、およびチャンキングを含む。プロソディに加えて、またはその代替として、合成音声の他のタイプのオーディオ特性が制御されてもよい。
【0057】
実施例
図2の)方法200を実施する例示的なアルゴリズムを下記に与える。方法200を任意の細目に限定することは意図されておらず、むしろ、そのような細目を、方法の様々なステップの追加の実施形態として与えることが意図されている。
【0058】
例示的なアルゴリズムは、エンコーダ302およびデコーダ304を有するseq2seq ANN300を示すブロック図である図3を参照して説明される。
【0059】
tを、デコーダの動作の現在の時間ステップとする。例示的なアルゴリズムは、デコーダの一次注意機構304aに代わる二次注意機構304bを利用する。二次注意機構304bは、デコーダ状態変数304cおよび符号化入力系列に対して調整された、例えば、連続集合
【数1】

などの、W個の以前に取得されたアラインメント・ベクトル候補からのt番目のアラインメント・ベクトルaを導出する。
【0060】
任意選択的に、初期のt番目のアラインメント・ベクトル候補に等しい追加の「バック・オフ」候補c=ainit,tが存在する。
【0061】
各アラインメント・ベクトル候補
【数2】

から、例えば、その成分をシャッフルまたはシフトすることによって、アラインメント・ベクトル候補の増補集合が生成される。例えば、線形シフトによる増補は、
【数3】

であり得、式中、nは入力系列インデックスであり、シフトの境界条件は(例えば、ゼロ詰めによって)適切に設定される。増補は、ランダムとすることができ、または、所望の注意重み構造に関する予備知識に基づいて決定することができる。
【0062】
次に、各アラインメント・ベクトル候補
【数4】

(増補集合が自明である、すなわち、元の候補のみを含む「バック・オフ」候補を含む)について、微分可能な構造適合測度sj,k=f(cj,k)が評価される。例示的なアルゴリズムの1つの変形例において、構造適合測度は、元のアラインメント・ベクトル候補のみ(増補前)によって決定され、すなわち、sj,k=f(c)となる。
【0063】
別の変形例において、構造適合測度は、L2ノルムとL1ノルムとの比(このアラインメント候補について、L1ノルムは常に1に等しいため、L2ノルムに等しい)によって評価される、「先鋭度」基準と組み合わされたLogSumExp smooth maximum演算子を含む。これはまた、構造適合測度の組合せ基準が範囲[0,1]内にあることを保証し、1は完全な適合を意味し、0は最悪の適合を意味する。f(c)に対して提案される例示的な式は、以下によって与えられる。
f(c)=Thresh(f(c)f(c))
式中、
【数5】


【数6】


かつ
【数7】

である。
【0064】
この基準は、最大限に疎で単峰型の確率分布(すなわち、デルタ関数)に対して好都合である。「先鋭度」基準の別の既知の代替形態は尖度であり、これを代替形態として使用することができる。
【0065】
アラインメント・ベクトル候補の増補集合
【数8】

全体が、最終的なアラインメント・ベクトルaを出力する訓練可能で微分可能な候補選択モジュールに供給される。候補選択モジュールは、デコーダ状態変数に対して調整される。候補選択モジュールはまた、適切に構造化された候補に対して好都合であるように、評価された構造適合測度も利用する。例示的なアルゴリズムの変形例は、単一段選択モジュールまたは階層型選択モジュールのいずれかを含み、これらは両方とも、以下のアラインメント・ベクトル構造適合調整を展開する。
【0066】
【数9】

を、制限されたlog(x)とし、例えば、
【数10】

である。次いで、候補構造適合測度sj,k=f(cj,k)の集合について、以下のような候補構造適合調整成分の集合が定義され、
【数11】

結果、評価された構造適合測度が、それらの元の[0,1]範囲から、より広い範囲[-100,0]へと、予め規定された様式でマッピングされる。無論、他のより広い範囲を使用することも可能である。
【0067】
そのような予め規定されたマッピングに対する代替として、デコーダの残りの部分とともに訓練される、ANNによって実装される訓練可能なスカラー・マッピングへと構造適合測度を供給することによって、マッピングが実施されてもよい。この訓練されたスカラー・マッピングANNは、次いで、構造適合調整成分ベクトルSj,kを生成する。
【0068】
さらなる代替として、追加のマッピングが必要とされないように、[0,1]よりも広い範囲内の評価結果を提供するように、構造適合測度自体が形成されてもよい。
【0069】
単一段選択モジュールによる変形例は、以下のように動作することができる。
【0070】
Kを、すべてのアラインメント・ベクトル候補Cj,kの量とし、すなわち、
【数12】

であり、Sを、対応する候補構造適合調整成分のベクトルとする。このとき、K個の候補選択重み{αj,k}が存在し、それらは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有する訓練された多層シーケンシャルANNによって評価される。この評価のK次元ベクトル出力(特に、終端線形層によって出力される)は、調整ベクトルSに加えられ、結果もたらされる暫定ベクトルが、K個の重み出力{αj,k}を有するソフトマックス層に供給される。次いで、ソフト選択動作によって、二次アラインメント・ベクトルが形成され、
=Σj,kαj,kj,k
結果、注意ベクトル候補cj,kの集合が、それらの重みに従って結合される。
【0071】
階層型選択モジュールによる変形例は、以下のように動作することができる。
【0072】
アラインメント・ベクトル候補のW個の別個の部分集合
【数13】

が定義され、これらは、対応する増補アラインメント・ベクトル集合
【数14】

から選択される。W個の部分集合の各々について、単一段選択モジュールのものと同様のプロセスが実施されるが、二次注意ベクトルによって終結する代わりに、各部分集合について、その部分集合の構造的に最良に適合する注意ベクトルを表す単一の注意ベクトル候補(「部分集合」注意ベクトル候補として参照される)が、最終的に形成される。これはまた、部分集合注意ベクトル候補の構造適合測度を評価することも伴う。次いで、すべての部分集合の構造適合測度が、追加の訓練されたシーケンシャルANNを使用して処理され、その出力がソフトマックス層に提供されて、部分集合注意ベクトル候補の重みが決定される。最後に、中間注意ベクトル候補をそれらの重みに従って結合することによって、二次注意ベクトルが形成される。
【0073】
より具体的には、j番目のソフト選択モジュール(W個のそのようなモジュールのうちの)が、多層シーケンシャルANNによってK個の選択重み{β}を予測し、多層シーケンシャルANNは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有し、その出力は、構造適合調整Sの対応する部分集合にさらに追加され、j番目の部分集合のソフト選択重みβを取得するためにソフトマックス層に通される。さらに、中間ベクトル候補のj番目のソフト選択は、以下によって実施される。
=Σβj,k
【0074】
加えて、d=cである。
【0075】
W個のソフト選択モジュールがすべて終結すると、W+1個の中間注意ベクトル候補から単一の注意ベクトル候補が選択される。(W+1)を、中間注意ベクトル候補dの量とし、Sを、対応する候補構造適合調整成分{S}のベクトルとする。
【数15】
【0076】
このとき、W+1個の最終的な候補選択重み{γ}が存在し、それらは、デコーダ状態変数によって供給される、交互になった線形層および非線形層と、終端線形層とを有する多層シーケンシャルANNによって評価される。終端線形層の(W+1)次元出力は、対応する調整Sに加えられ、結果もたらされる出力ベクトルが、(W+1)個の出力{γ}を有するソフトマックス層に供給される。最後に、以下によって、二次アラインメント・ベクトルが形成される。
=Σγd
【0077】
W=1であり、K=2である、階層型選択モジュールの単純化された使用事例において、以下のように、シグモイドをソフトマックスの代わりに使用することができる。
【0078】
ここで、f(c)は構造適合測度であり、βおよびγは、デコーダ状態変数によって供給され、シグモイド層によって終端される別個の多層シーケンシャルANNによって予測されるスカラー推移確率である。
【0079】
したがって、以下のようになる。
=β1,1+(1-β)c1,0
【数16】
【0080】
実験結果
開示されている構造保持二次注意機構は、seq2seqニューラルTTSタスクにおける試験に成功しており、訓練中の良好なアラインメント収束、および、推論時における2つのTTSプロソディ・パラメータ(発話ペース、発話ピッチ)に対するユーザ制御中の高いMOSスコアを示した。
【0081】
実験タスクは、Wavenet様の(Van Den Oord, Aaron etal. "Wavelet: A generative model for raw audio." SSW 125.2016)ニューラル・ボコーダ(Tamamori, Akira et al. "Speaker-Dependent WaveNet Vocoder." INTERSPEECH. 2017)と連結された、スペクトル特徴予測のための回帰型注意シーケンス-シーケンス・ネットワークを含む、「Tacotron2」アーキテクチャ(Shen, Jonathan, et al. "Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018)に従った。これらはすべて、合成音声品質、訓練収束、およびプロソディ制御機構に対する感受性を改善するように意図された様々な有利な修正を施されている。
【0082】
男声および女声コーパスを、22050Hzのサンプリング・レートで使用した。男性データセットは13時間の音声を含むものであり、女性データセットは22時間の音声を含むものであった。それらは両方とも、ネイティブの米国英語話者によって生成され、専門のスタジオにおいて録音された。このオーディオは発声ごとに録音されており、発声のほとんどは単一の文を含むものであった。
【0083】
プロソディ・パラメータに対する制御を促進するために、録音から抽出されるプロソディ観測結果に基づいて、適切な訓練が実施され、[-1,1]範囲内の成分ごとのオフセットを使用してこれらのパラメータを制御するための機構が組み込まれた。推論時に、プロソディ・パラメータが、符号化出力系列から予測されており、これらは、出力系列、ひいては出力波形を生成するために、ユーザによって意図的にオフセットされている場合があった。
【0084】
この特定のTTSタスク(単調アラインメント展開)の所望のアラインメント・マトリックス構造を意識して、現在の一次アラインメント・ベクトルに加えて、アラインメント・ベクトル候補の集合が以前のアラインメント・ベクトルから導出された。次いで、二次アラインメント・ベクトルを、その予測される所望の構造(すなわち、先鋭なピークを有する単峰型の形状)が保持されるように取得するために、ソフト選択が適用された。
【0085】
を、初期注意モジュールによって評価されるものとしての初期アラインメント・ベクトルとし、a[n]を、出力時間ステップtにおける二次アラインメント・ベクトルとする。Raffel, Colin, et al. “Online and linear-time attention by enforcing monotonic alignments.” Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017の単調注意を仮定して、入力シンボルをスキップすることなく、以前のアラインメント・ベクトルat-1[n]をそのシフトされたバージョンat-1[n-1]とともに現在の時間ステップtにおける現在の初期アラインメントbに加えることによって、候補集合
【数17】

が作成された。
【数18】
【0086】
この増補は、現在の時点において、出力が、以前の入力シンボルに整合したままであるか、または、次の入力シンボルに移動していると仮定する。
【0087】
この候補集合では、二次アラインメント・ベクトルを求めるようにソフト選択を訓練することしかできないが、予防措置として、この実験は、ソフト選択手段が、偶発的に注意が損なわれることを排除するように適切に構造化された候補を選好することを保証することを目標としたものであった。その目的のために、スカラー構造メトリックが、アラインメント・ベクトル候補の単峰性およびピーク先鋭度を評価する構造適合測度として使用された。この測度は、LogSumExp soft maximum評価と、McCree AV, Barnwell TP. “A mixed excitation LPC vocoder model for low bit rate speech coding.” IEEE Transactions on Speech and audio Processing. 1995 Jul;3(4):242-50の一般的な「先鋭度」メトリックから導出される追加のピーク先鋭度メトリック、すなわち、L2ノルムをL1ノルムで除算した値とを結合した。L1ノルムはアラインメント・ベクトルについては常に1に等しく、最悪の事例である平坦なアラインメント・ベクトルのL2ノルムの2乗は1/Nに等しいことに留意されたい。このメトリックの感受性を低減するために、ブースト定数1.67が実験的に設定された。
【0088】
この実験で使用される、結合された構造メトリックは、以下によって与えられる。
【数19】

式中、
【数20】

【数21】

また、閾値化演算子
【数22】

は、以下のように定義される。
【数23】
【0089】
0.12のゼロに近い閾値が実験的に設定されている、追加の閾値化演算によって、不良なアラインメント・ベクトル候補がソフト選択に適合しないことが保証されるに至った。
【0090】
アラインメント・ベクトルの構造保持ソフト選択は、2段階で実施された。第1の段階は、以下によって与えられる。
d=αat-1[n-1]+(1-α)at-1[n] (5)
式中、αは、連結デコーダ状態変数(x,h)を供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー初期段階選択重みである。第1の段階の選択(5)を観察すると、これは、入力文脈ベクトルの一部である、埋め込みプロソディ・パラメータによる明示的な音素遷移制御を提供することが分かる。
【0091】
選択手順の最終段階は、構造メトリックf(c)を利用する。
=(1-γ)βd+γ(1-β)b (6)
式中、βは、入力文脈ベクトルxを供給され、シグモイド層によって終端される、単一の全結合層によって生成されるスカラー最終段階選択重みであり、γ=f(b)(1-f(d))は、構造選好スコアである。この乗法構造選好スコアは、初期注意ベクトルが、その構造が他の候補よりも好ましい場合にのみ考慮されることを保証する。
【0092】
実験において、推論時に、Wavenetスタイルのボコーダ(Van Den Oordet al. and Tamamori et al.、前出)が使用されて、モデルから予測されるスペクトル特徴から出力波形が生成された。
【0093】
実験は、図4に見られるように、訓練中のアラインメント収束の改善を示した。この図は、13,000文のデータ・コーパスに対する訓練中の100文検証セットの平均アラインメント・ベクトル・エントロピーを示す。ミニバッチ・サイズは48であった。本発明の構造保持注意機構による平均アラインメント・ベクトル・エントロピーは、単なる通常の注意機構(モデルの既存の注意機構)のものよりも低かった。
【0094】
構造保持注意機構に基づいて作成される出力波形の品質および表現力を評価するために、2回の正式なMOSリスニング・テスト(男性および女声の音声コーパスごとに1回)が、40個の合成文に対して実施された。各テストは、4つのシステム、すなわち、本発明の構造保持注意機構(下記の表にはAugAttnと示される)を使用する第1のシステム、ならびに、3つのベンチマーク・システム、すなわち、元々の変更されていない音声録音(PCMと示される)、同じモデルの、ただし単なる一次注意機構による出力波形(RegAttnと示される)、および、Morise Masanori, Fumiya Yokomori, and Kenji Ozawa. “WORLD: A Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications.” IEICE Transactions on Information and Systems 99.7 (2016): 1877-1884の「WORLD」システムの出力波形(WORLDと示す)をレーティングした。AugAttnシステムは3回、すなわち、いかなるプロソディ制御も行わなかった1回(0,0のペースおよびピッチ)、および異なるペース制御とピッチ制御とを行った2回、レーティングされた。合成文の各々は、25人の別個の被験者によってレーティングされた。
【0095】
表1および表2は、それぞれ女声および男声の自然さおよび表現力のMOS評価の結果を列挙している。表1の結果の有意性分析は、RegAttnとAugAttn(0,0)との間の差、および、AugAttn(-0.1,0.5)とAugAttn(0.15,0.6)との間の差を除いて、システム間の表現力の差のほとんどが統計的に有意であることを明らかにした。自然さに関して、すべての増補注意システムは、わずかにより良好に機能した(p=0.046)AugAttn(-0.1,0.5)を除いて、RegAttnのように機能した(有意な差はなかった)。そのため、女声について、プロソディ制御は、元々の品質および自然さを保持しながら、知覚される表現力を有意に改善することができた。
【0096】
同様に、男声の有意性分析(表2)は、RegAttnとAugAttn(0,0)との対、および、AugAttn(0.2,0.8)とAugAttn(0.5,1.5)との対のみが、知覚される表現力に関して等価であることを明らかにした。自然さに関して、AugAttn(0.2,0.8)とAugAttn(0.5,1.5)の両方が、AugAttn(0,0)およびRegAttnと比較して有意な改善をもたらす。すなわち、男声について、プロソディ制御は、表現力、品質および自然さをすべて有意に改善することができた。
【0097】
【表1】
【0098】
【表2】
【0099】
結論として、実験は、seq2seqニューラルTTSシステムに適用された本発明の構造保持注意機構が、推論時にプロソディを制御する場合と制御しない場合の両方で高い品質および自然さを保持することを明らかにした。同様の結果が、機械翻訳、音声認識、ビデオ・キャプション生成、テキスト要約、テキスト含意、質問応答、チャット・ボットなどのような他のタイプのseq2seqニューラル・タスクにおいて達成可能である可能性が最も高いことが、当業者には認識されよう。
【0100】
実験に使用された上述の技法は、本発明の考察されている実施形態である。
【0101】
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに、本発明の諸態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。
【0102】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)ディスク、または、命令が記録されている機械的に符号化されたデバイス、および、上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、または、他の自由に伝播する電磁波、導波路もしくは他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通じて伝播する電磁波、または、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一過性(すなわち、不揮発性)媒体である。
【0103】
本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、または、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークおよび/もしくはワイヤレス・ネットワークを介して外部コンピュータもしくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。
【0104】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Java(R)、Smalltalk(R)、C++などのようなオブジェクト指向プログラミング言語、および、「C」プログラミング言語もしくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれているソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、またはその全体を遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、遠隔コンピュータが、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され、または、接続は、外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)行われる。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラム可能論理アレイ(PLA)を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。
【0105】
本発明の態様は、本明細書において、本発明の実施形態による、方法、装置(システム)およびコンピュータ・プログラム製品のフローチャートの図またはブロック図あるいはその両方を参照して説明されている。フローチャートの図またはブロック図あるいはその両方の各ブロック、および、フローチャートの図またはブロック図あるいはその両方の中の複数のブロックの組合せは、コンピュータ可読プログラム命令によって実装されることができることは理解されよう。
【0106】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプラグラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイスあるいはその組合せに特定の様式で機能するように指示することができるものであってもよい。
【0107】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するように、コンピュータで実施されるプロセスを生成するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
【0108】
図面内のフローチャートおよびブロック図は本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を例示する。これに関連して、流れ図およびブロック図内の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部分を表すことができる。また、ブロック図または流れ図あるいはその両方の図解の各ブロック、ならびに、ブロック図または流れ図あるいはその両方の図解のブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェアベース・システムによって実施することができることも留意されよう。
【0109】
数値範囲の記述は、具体的に開示されているすべての可能性のある部分範囲、および、その範囲内の個々の数値を有するものと考えられるべきである。例えば、1~6の範囲の記述は、1~3、1~4、1~5、2~4、2~6、3~6などのような具体的に開示されている部分範囲、および、その範囲内の個々の数、例えば、1、2、3、4、5、および6を有するものと考えられるべきである。これは、範囲の広さにかかわりなく適用される。
【0110】
本発明の様々な実施形態の説明は、例示の目的のために提示されているが、網羅的であることも、開示されている実施形態に限定されることも意図されていない。説明されている実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書において使用されている用語は、実施形態の原理、実際の適用または市場に見出される技術にまさる技術的改善を最良に説明するため、または、当業者が本明細書において開示されている実施形態を理解することを可能にするために選択された。
図1
図2
図3
図4