特表2023-546098 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオの特許一覧

特表2023-546098オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9a
9b
9c
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-01

(54)【発明の名称】オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法

(51)【国際特許分類】

G10L 13/06 20130101AFI20231025BHJP

G10L 13/10 20130101ALI20231025BHJP

G10L 25/30 20130101ALI20231025BHJP

【ＦＩ】

G10L13/06 120Z

G10L13/10 113Z

G10L25/30

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023522964

(86)(22)【出願日】2021-10-13

(85)【翻訳文提出日】2023-06-14

(86)【国際出願番号】 EP2021078371

(87)【国際公開番号】W WO2022079129

(87)【国際公開日】2022-04-21

(31)【優先権主張番号】20202058.2

(32)【優先日】2020-10-15

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】PCT/EP2021/072075

(32)【優先日】2021-08-06

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】591037214

【氏名又は名称】フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ

(74)【代理人】

【識別番号】110003915

【氏名又は名称】弁理士法人岡田特許事務所

(72)【発明者】

【氏名】アフマドアフマドムスタファマフムート

(72)【発明者】

【氏名】ピアニコラ

(72)【発明者】

【氏名】フックスギヨーム

(72)【発明者】

【氏名】ムルトゥルスマルクス

(72)【発明者】

【氏名】コルセスリカンス

(72)【発明者】

【氏名】グプタキシャン

(72)【発明者】

【氏名】ビューテヤン

(57)【要約】

オーディオ信号を生成し、オーディオ生成器を学習させるための技法が開示されている。オーディオ生成器（１０）はオーディオ信号（１６）、入力信号（１４）および前記オーディオ信号（１６）を表すターゲットデータ（１２）から生成することができる。ターゲットデータ（１２）はテキストから導出される。オーディオ生成器は、入力信号（１４）から導出された第１のデータ（１５，５９ａ）を受信し、第１の出力データを出力する第１の処理ブロック（４０，５０，５０ａ～５０ｈ）と、第１の出力データ（６９）または第１の出力データ（６９）から導出されたデータを第２のデータとして受信する第２の処理ブロック（４５）とを備える。第１の処理ブロック（５０）は、ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するように構成される、学習可能レイヤのコンディショニングセット（７１，７２，７３）と、コンディショニング特性パラメータ（７４，７５）を第１のデータ（１５，５９ａ）または第１のデータを正規化したもの（５９，７６’）に適用するように構成されたスタイリング要素（７７）とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力信号（１４）およびターゲットデータ（１２）からオーディオ信号（１６）を生成するように構成されたオーディオ生成器（１０）であって、前記ターゲットデータ（１２）は前記オーディオ信号（１６）を表し、
前記入力信号（１４）から導出された第１のデータ（１５，５９ａ）を受信し、第１の出力データ（６９）を出力するように構成された第１の処理ブロック（４０，５０，５０ａ～５０ｈ）であって、前記第１の出力データ（６９）は複数のチャネル（４７）を備える、第１の処理ブロック（４０，５０，５０ａ～５０ｈ）と、
前記第１の出力データ（６９）または前記第１の出力データ（６９）から導出されたデータを第２のデータとして受信するように構成された第２の処理ブロック（４５）と
を備えるオーディオ生成器（１０）であって、
前記第１の処理ブロック（５０）は前記第１の出力データの各チャネルについて、
前記ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するように構成された学習可能レイヤのコンディショニングセット（７１，７２，７３）であって、前記ターゲットデータ（１２）はテキストから導出される、学習可能レイヤのコンディショニングセット（７１，７２，７３）と、
前記コンディショニング特性パラメータ（７４，７５）を前記第１のデータ（１５，５９ａ）または前記第１のデータを正規化したもの（５９，７６’）に適用するように構成されたスタイル付与要素（７７）と
を備え、
前記第２の処理ブロック（４５）は前記第２のデータ（６９）の前記複数のチャネル（４７）を結合して前記オーディオ信号（１６）を取得するように構成される、
オーディオ生成器。

【請求項2】

前記ターゲットデータ（１２）はスペクトログラムである、請求項１に記載のオーディオ生成器。

【請求項3】

前記ターゲットデータ（１２）はメルスペクトログラムである、請求項１または請求項２に記載のオーディオ生成器。

【請求項4】

前記ターゲットデータ（１２）は、ログスペクトログラム、ＭＦＣＣ、メルスペクトログラムまたはテキストから取得したその他のタイプのスペクトログラムのうちの少なくとも１つの音響特性を備える、請求項１ないし請求項３のいずれか１項に記載のオーディオ生成器。

【請求項5】

テキストまたはテキスト要素の形式の入力を前記少なくとも１つの音響特性に変換（１１１０）することによって前記ターゲットデータ（１２）を取得するように構成される、請求項１ないし請求項４のいずれか１項に記載のオーディオ生成器。

【請求項6】

少なくとも１つ言語特性を前記少なくとも１つの音響特性に変換（１１１４）することによって前記ターゲットデータ（１２）を取得するように構成される、請求項１ないし請求項５のいずれか１項に記載のオーディオ生成器。

【請求項7】

前記ターゲットデータ（１２）は、テキストから取得した音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つの言語特性を備える、請求項１ないし請求項６のいずれかに記載のオーディオ生成器。

【請求項8】

テキストまたはテキスト要素の形式の入力を前記少なくとも１つの言語特性に変換（１１１０）することによって前記ターゲットデータ（１２）を取得するように構成される、請求項７に記載のオーディオ生成器。

【請求項9】

前記ターゲットデータ（１２）は、テキストから取得した文字および単語のうちの少なくとも１つを含む、請求項１ないし請求項８のいずれか１項に記載のオーディオ生成器。

【請求項10】

前記ターゲットデータ（１２）は、テキスト解析を行う、および／または音響モデルを使用する統計モデルを使用してテキスト（１１２）から導出される、請求項１ないし請求項９のいずれか１項に記載のオーディオ生成器。

【請求項11】

前記ターゲットデータ（１２）は、テキスト解析を行う、および／または音響モデルを使用する学習可能モデルを使用してテキスト（１１２）から導出される、請求項１ないし請求項１０のいずれか１項に記載のオーディオ生成器。

【請求項12】

前記ターゲットデータ（１２）は、テキスト解析を行うルールベースのアルゴリズム、および／または音響モデルを使用してテキスト（１１２）から導出される、請求項１ないし請求項１１のいずれか１項に記載のオーディオ生成器。

【請求項13】

少なくとも１つの決定的レイヤを通して前記ターゲットデータを導出するように構成される、請求項１ないし請求項１２のいずれか１項に記載のオーディオ生成器。

【請求項14】

少なくとも１つの学習可能レイヤを通して前記ターゲットデータを導出するように構成される、請求項１ないし請求項１３のいずれか１項に記載のオーディオ生成器。

【請求項15】

前記学習可能レイヤのコンディショニングセットは、少なくとも２つの畳み込みレイヤ（７１～７３）から成る、請求項１ないし請求項１４のいずれか１項に記載のオーディオ生成器。

【請求項16】

第１の畳み込みレイヤ（７１～７３）は、前記ターゲットデータ（１２）または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第１の活性化関数を使用して第１の畳み込み済みデータ（７１’）を取得するように構成される、請求項１５に記載のオーディオ生成器。

【請求項17】

前記学習可能レイヤのコンディショニングセット（７１～７３）および前記スタイル付与要素（７７）は、１つ以上の残差ブロック（５０，５０ａ～５０ｈ）を備えるニューラルネットワークの残差ブロック（５０，５０ａ～５０ｈ）内の加重レイヤの一部である、請求項１ないし請求項１６のいずれか１項に記載のオーディオ生成器。

【請求項18】

前記オーディオ生成器（１０）は、前記第１のデータ（５９ａ，１５）を正規化するように構成された正規化要素（７６）をさらに備える、請求項１ないし請求項１７のいずれか１項に記載のオーディオ生成器。

【請求項19】

前記オーディオ信号（１６）は音声オーディオ信号である、請求項１ないし請求項１８のいずれか１項に記載のオーディオ生成器。

【請求項20】

前記ターゲットデータ（１２）は少なくとも係数２でアップサンプリングされる、請求項１ないし請求項１９のいずれか１項に記載のオーディオ生成器。

【請求項21】

前記ターゲットデータ（１２）は非線形補間でアップサンプリング（７０）される、請求項２０に記載のオーディオ生成器。

【請求項22】

前記第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である、請求項１６または請求項１６に従属する請求項１７ないし請求項２１のいずれか１項に記載のオーディオ生成器。

【請求項23】

畳み込み動作（６１ａ，６１ｂ，６２ａ，６２ｂ）は最大膨張率２で実行される、請求項１ないし請求項２２のいずれか１項に記載のオーディオ生成器。

【請求項24】

８つの第１の処理ブロック（５０ａ～５０ｈ）と１つの第２の処理ブロック（４５）を備える、請求項１ないし請求項２３のいずれか１項に記載のオーディオ生成器。

【請求項25】

前記第１のデータ（１５，５９，５９ａ，５９ｂ）の次元が前記オーディオ信号よりも低い、請求項１ないし請求項２４のいずれか１項に記載のオーディオ生成器。

【請求項26】

入力信号（１４）およびターゲットデータ（１２）からオーディオ生成器（１０）によってオーディオ信号（１６）を生成するための方法であって、前記ターゲットデータ（１２）は前記オーディオ信号（１６）を表し且つテキストから導出される、方法であって、
第１の処理ブロック（５０，５０ａ～５０ｈ）によって、前記入力信号（１４）から導出された第１のデータ（１６，５９，５９ａ，５９ｂ）を受信するステップと、
前記第１の出力データ（５９ｂ，６９）の各チャネルについて、
前記第１の処理ブロック（５０）の学習可能レイヤのコンディショニングセット（７１，７２，７３）によって前記ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するステップと、
前記第１の処理ブロック（５０）のスタイル付与要素（７７）によって、前記コンディショニング特性パラメータ（７４，７５）を前記第１のデータ（１５，５９ａ）または前記第１のデータを正規化したもの（７６’）に適用するステップと、
前記第１の処理ブロック（５０）によって、複数のチャネル（４７）を含む第１の出力データ（６９）を出力するステップと、
第２の処理ブロック（４５）によって前記第１の出力データ（６９）または前記第１の出力データ（６９）から導出されたデータを第２のデータとして受信するステップと、
前記第２の処理ブロック（４５）によって、前記第２のデータの前記複数のチャネル（４７）を結合して前記オーディオ信号（１６）を取得するステップと、
を含む方法。

【請求項27】

前記ターゲットデータ（１２）は、ログスペクトログラム、ＭＦＣＣ、メルスペクトログラムまたはテキストから取得されたその他のタイプのスペクトログラムのうちの少なくとも１つの音響特性を備える、請求項２６に記載のオーディオ信号を生成するための方法。

【請求項28】

テキストまたはテキスト要素の形式の入力を前記少なくとも１つの音響特性に変換（１１１０）することによって前記ターゲットデータ（１２）を取得するステップを含む、請求項２６または請求項２７に記載のオーディオ信号を生成するための方法。

【請求項29】

少なくとも１つ言語特性を前記少なくとも１つの音響特性に変換（１１１４）することによって前記ターゲットデータ（１２）を取得するステップを含む、請求項２６ないし請求項２８のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項30】

前記ターゲットデータ（１２）は、テキストから取得した音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つの言語特性を備える、請求項２６ないし請求項２９のいずれかに記載のオーディオ信号を生成するための方法。

【請求項31】

テキストまたはテキスト要素の形式の入力を前記少なくとも１つの言語特性に変換（１１１０）することによって前記ターゲットデータ（１２）を取得するステップを含む、請求項３０に記載のオーディオ信号を生成するための方法。

【請求項32】

前記ターゲットデータ（１２）は、テキストから取得した文字および単語のうちの少なくとも１つを含む、請求項２６ないし請求項３１のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項33】

テキスト解析を行う、および／または音響モデルを使用する統計モデルを使用してターゲットデータ（１２）を導出するステップをさらに含む、請求項２６ないし請求項３２のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項34】

テキスト解析を行う、および／または音響モデルを使用する学習可能モデルを使用してターゲットデータ（１２）を導出するステップをさらに含む、請求項２６ないし請求項３３のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項35】

テキスト解析を行うルールベースアルゴリズム、および／または音響モデルを使用してターゲットデータ（１２）を導出するステップをさらに含む、請求項２６ないし請求項３４のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項36】

少なくとも１つの決定的レイヤを通して前記ターゲットデータ（１２）を導出するステップをさらに含む、請求項２６ないし請求項３５のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項37】

少なくとも１つの学習可能レイヤを通して前記ターゲットデータ（１２）を導出するステップをさらに含む、請求項２６ないし請求項３５のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項38】

前記学習可能レイヤのコンディショニングセット（７１～７３）は、１つまたは２つの畳み込みレイヤから成る、請求項２６ないし請求項３７のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項39】

前記学習可能レイヤのコンディショニングセット（７１～７３）によって処理するステップは、第１の畳み込みレイヤ（７１）によって、前記ターゲットデータ（１２）または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第１の活性化関数を使用して第１の畳み込み済みデータ（７１’）を取得するステップを含む、請求項３８に記載のオーディオ信号を生成するための方法。

【請求項40】

前記学習可能レイヤのコンディショニングセット（７１～７３）および前記スタイル付与要素（７７）は、１つ以上の残差ブロック（５０，５０ａ～５０ｈ）を備えるニューラルネットワークの残差ブロック（５０，５０ａ～５０ｈ）内の加重レイヤの一部である、請求項２６ないし請求項３９のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項41】

前記方法は、前記第１のデータ（１５，５９）を正規化要素（７６）によって正規化するステップをさらに含む、請求項２６ないし請求項４０のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項42】

前記オーディオ信号（１６）は音声オーディオ信号である、請求項２６ないし請求項４１のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項43】

前記ターゲットデータ（１２）は係数２でアップサンプリング（７０）される、請求項２６ないし請求項４２のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項44】

前記ターゲットデータ（１２）は非線形補間でアップサンプリング（７０）される、請求項２６ないし請求項４３のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項45】

前記第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である、請求項２６ないし請求項４４のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項46】

畳み込み動作（６１ａ，６１ｂ，６２ａ，６２ｂ）は最大膨張率２で実行される、請求項２６ないし請求項４５のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項47】

前記第１の処理ブロック（５０，５０ａ～５０ｈ）の工程を８回繰り返し、前記第２の処理ブロック（４５）の工程を１回だけ行うステップを含む、請求項２６ないし請求項４６のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項48】

前記第１のデータ（１５，５９）の次元が前記オーディオ信号よりも低い、請求項２６ないし請求項４７のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項49】

前記ターゲットデータをテキストから導出するステップをさらに含む、請求項２６ないし請求項４８のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項50】

前記ターゲットデータ（１２）はスペクトログラムである、請求項２６ないし請求項４９のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項51】

前記スペクトログラムはメルスペクトログラムである、請求項５０に記載の方法。

【請求項52】

請求項１ないし請求項２５のいずれか１項に記載のオーディオ生成器（１０）を学習（１００）させるための方法であって、前記学習（１００）は請求項２６～５１のいずれかに記載の工程を１回以上繰り返すステップを含む、方法。

【請求項53】

生成されたオーディオ信号（１４，１６）を少なくとも１つの評価器（１３２）で評価（１３０）するステップと、
前記評価（１３０）の結果に応じて前記オーディオ生成器（１０）の加重（７４，７５）を調節するステップと
をさらに含む、請求項５２に記載の方法。

【請求項54】

前記少なくとも１つの評価器（１３２）はニューラルネットワークである、請求項５３に記載の方法。

【請求項55】

前記評価器の加重を前記評価の結果に応じて調節するステップをさらに含む、請求項５３または請求項５４に記載の方法。

【請求項56】

学習（１３０）は損失関数（１４０）を最適化するステップを含む、請求項５２ないし請求項５５のいずれか１項に記載の方法。

【請求項57】

損失関数を最適化（１３０）するステップは、前記生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間の固定メトリックを計算するステップを含む、請求項５６に記載の方法。

【請求項58】

前記固定メトリックを計算するステップは、前記生成されたオーディオ信号（１６）と前記基準オーディオ信号（１０４）との間の１つ以上のスペクトル歪みを計算するステップを含む、請求項５７に記載の方法。

【請求項59】

前記１つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）のマグニチュードまたはログマグニチュードに対して行われる、請求項５８に記載の方法。

【請求項60】

前記１つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）の異なる時間または周波数解像度に対して行われる、請求項５８または請求項５９に記載の方法。

【請求項61】

前記損失関数（１４０）を最適化するステップは、１つ以上の評価器（１３２）によって前記生成されたオーディオ信号（１６）の表現または前記基準オーディオ信号（１０４）の表現をランダムに供給し評価することによって１つ以上の敵対的メトリックを導出するステップを含み、評価するステップは、前記オーディオ信号（１４，１６）の事前学習済みの自然さの分類レベルを示す既定の数の分類に、供給されたオーディオ信号（１６，１３２）を分類するステップを含む、請求項５６ないし請求項６０のいずれか１項に記載の方法。

【請求項62】

前記損失関数を最適化するステップは、１つ以上の評価器（１３２）によって固定メトリックを計算し、敵対的メトリックを導出するステップを含む、請求項５６ないし請求項６１のいずれか１項に記載の方法。

【請求項63】

前記オーディオ生成器（１０）はまず、前記固定メトリックを用いて学習させられる、請求項６２に記載の方法。

【請求項64】

４つの評価器（１３２ａ～１３２ｄ）が４つの敵対的メトリックを導出する、請求項６１ないし請求項６３のいずれか１項に記載の方法。

【請求項65】

前記評価器（１３２）はフィルタバンク（１１０）による前記生成されたオーディオ信号（１６）の前記表現または前記基準オーディオ信号（１０４）の前記表現の分解（１１０）後に動作する、請求項６１ないし請求項６４のいずれか１項に記載の方法。

【請求項66】

前記評価器（１３２ａ～１３２ｄ）はそれぞれ、前記生成されたオーディオ信号（１６）の前記表現または前記基準オーディオ信号（１０４）の前記表現の１つ以上の部分（１０５ａ～１０５ｄ）を入力として受信する、請求項６１ないし請求項６５のいずれか１項に記載の方法。

【請求項67】

前記信号部分は、ランダム窓関数を使用して、前記入力信号（１４）からランダムなウィンドウ（１０５ａ～１０５ｄ）をサンプリングして生成される、請求項６６に記載の方法。

【請求項68】

前記ランダムウィンドウ（１０５ａ～１０５ｄ）のサンプリングは、各評価器（１３２ａ～１３２ｄ）について複数回繰り返される、請求項６６または請求項６７に記載の方法。

【請求項69】

前記ランダムウィンドウ（１０５ａ～１０５ｄ）が各評価器（１３２ａ～１３２ｄ）についてサンプリングされる回数は、前記生成されたオーディオ信号の前記表現または前記基準オーディオ信号（１０４）の前記表現の長さに比例する、請求項６７または請求項６８に記載の方法。

【請求項70】

プログラムが処理デバイスで実行されるときに、請求項２６～６９の工程を実行するためのソフトウェアコード部分を含む処理デバイス用プログラムを含む、コンピュータプログラム製品。

【請求項71】

前記コンピュータプログラム製品は、前記ソフトウェアコード部分が格納されているコンピュータ可読媒体を含み、前記プログラムは前記処理デバイスの内蔵メモリに直接搭載することができる、請求項７０に記載のコンピュータプログラム製品。

【請求項72】

数理モデルを含むオーディオ信号（１６）を生成する方法であって、前記数理モデルは生成する前記オーディオ信号（１６）を表す入力シーケンス（１２）から所与の時間ステップにオーディオサンプルを出力するように構成され、
前記数理モデルは入力された代表シーケンス（１２）を使用して前記出力オーディオサンプルを作り出すためにノイズベクトル（１４）を整形するように構成され、
前記入力された代表シーケンスはテキストから導出される、
方法。

【請求項73】

前記数理モデルはオーディオデータを用いて学習させられる、請求項７２に記載の方法。

【請求項74】

前記数理モデルはニューラルネットワークである、請求項７２または請求項７３に記載の方法。

【請求項75】

前記ネットワークは順伝播型ネットワークである、請求項７４に記載の方法。

【請求項76】

前記ネットワークは畳み込み式ネットワークである、請求項７４または請求項７５に記載の方法。

【請求項77】

前記ノイズベクトル（１４）の次元は生成するオーディオ信号（１６）よりも低い、請求項７２ないし請求項７６のいずれか１項に記載の方法。

【請求項78】

前記入力された代表シーケンス（１２）を用いて前記数理モデルを条件付けするため、ひいては前記ノイズベクトル（１４）を整形するために、時間適合的脱正規化（ＴＡＤＥ）法が使用される、請求項７２ないし請求項７７のいずれか１項に記載の方法。

【請求項79】

修正ソフトマックスゲート付きＴａｎｈ（６３ａ，６４ａ，６４ｂ，４６）が前記ニューラルネットワークの各レイヤを活性化させる、請求項７４ないし請求項７８のいずれか１項に記載の方法。

【請求項80】

畳み込み動作は最大膨張率２で実行される、請求項７６ないし請求項７９のいずれか１項に記載の方法。

【請求項81】

前記ノイズベクトル（１４）ならびに前記入力された代表シーケンス（１２）はアップサンプリング（７０，３０）されて、前記ターゲットサンプリングレートで前記出力オーディオ（１６）を取得する、請求項７２ないし請求項８０のいずれか１項に記載の方法。

【請求項82】

前記アップサンプリング（７０）は前記数理モデルの異なるレイヤにおいて順次行われる、請求項８１に記載の方法。

【請求項83】

各レイヤについての前記アップサンプリングの係数は２または２の倍数である、請求項８２に記載の方法。

【請求項84】

前記入力された代表シーケンスはテキストである、請求項７２ないし請求項８３のいずれか１項に記載の方法。

【請求項85】

前記入力された代表シーケンスはスペクトログラムである、請求項７２ないし請求項８３のいずれか１項に記載の方法。

【請求項86】

前記スペクトログラムはメルスペクトログラムである、請求項８５に記載の方法。

【請求項87】

オーディオ生成のためにニューラルネットワークを学習させる方法であって、
前記ニューラルネットワークは、生成する前記オーディオデータ（１６）を表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力し、
前記ニューラルネットワークは、入力された代表シーケンス（１２）を用いて出力された前記オーディオサンプル（１６）を作り出すためにノイズベクトル（１４）を整形するように構成され、
前記ニューラルネットワークは請求項６３ないし請求項７７のいずれか１項に従って設計され、
前記学習は損失関数（１４０）を最適化するように設計される、
方法。

【請求項88】

前記損失関数は生成された前記オーディオ信号（１６）と基準オーディオ信号（１０４）との間で算出された固定メトリックを含む、請求項８７に記載の方法。

【請求項89】

前記固定メトリックは、前記生成されたオーディオ信号（１６）と前記基準オーディオ信号（１０４との間で算出された１つ以上のスペクトル歪みのうちの１つである、請求項８８に記載の方法。

【請求項90】

前記１つ以上のスペクトル歪みは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）のスペクトル表現のマグニチュードまたはログマグニチュードについて計算される、請求項８９に記載の方法。

【請求項91】

前記固定メトリックを形成する前記１つ以上のスペクトル歪みは異なる時間解像度または周波数解像度について計算される、請求項８９または請求項９０に記載の方法。

【請求項92】

前記損失関数は、追加の識別的ネットワークから導出された敵対的メトリックを含み、
前記識別的ニューラルネットワークは前記生成されたオーディオ信号（１６）の表現または前記基準オーディオ信号（１０４）の表現を入力として受信し、
前記識別的ニューラルネットワークは前記生成されたオーディオ信号（１６）がどのていど現実的であるかを評価するように構成される、
請求項８７ないし請求項９１のいずれか１項に記載の方法。

【請求項93】

前記損失関数は固定メトリックと追加の識別的ニューラルネットワークから導出された敵対的メトリックの双方を含む、請求項８７ないし請求項９２のいずれか１項に記載の方法。

【請求項94】

前記オーディオサンプルを生成する前記ニューラルネットワークは、まず固定メトリックのみを用いて学習させられる、請求項８８ないし請求項９３のいずれか１項に記載の方法。

【請求項95】

前記敵対的メトリックは、４つの識別的ニューラルネットワーク（１３２ａ～１３２ｄ）によって導出される、請求項９２ないし請求項９４のいずれか１項に記載の方法。

【請求項96】

前記識別的ニューラルネットワークは、入力された前記オーディオ信号をフィルタバンクが分解したのちに動作する、請求項９２ないし請求項９５のいずれか１項に記載の方法。

【請求項97】

各識別的ニューラルネットワーク（１３２）は、前記入力されたオーディオ信号をランダムにウィンドウ化した１つ以上のバージョンを入力として受信する、請求項９２ないし請求項９６のいずれか１項に記載の方法。

【請求項98】

前記ランダムウィンドウ（１０５ａ～１０５ｄ）の前記サンプリングは、各識別的ニューラルネットワーク（１３２）について複数回繰り返される、請求項９７に記載の方法。

【請求項99】

前記ランダムウィンドウ（１０５ａ～１０５ｄ）が各識別的ニューラルネットワーク（１３２）についてサンプリングされる回数は、前記入力されたオーディオサンプルの長さに比例する請求項９８に記載の方法。

【請求項100】

前記入力された代表シーケンスは少なくとも１つの言語特性を含む、請求項７２ないし請求項９９のいずれか１項に記載の方法。

【請求項101】

前記入力された代表シーケンスは少なくとも１つのテキスト特性を含む、請求項７２ないし請求項１００のいずれか１項に記載の方法。

【請求項102】

前記入力された代表シーケンスは少なくとも１つの音響特性を含む、請求項７２ないし請求項１０１のいずれか１項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

はじめに
下記に、異なる発明の実施形態と態様を記載する。また、添付の請求の範囲において別の実施形態が特定されることになる。請求の範囲によって特定される実施形態はすべて、本明細書に記載されるいずれかの細目（特徴および機能）によって補足することができる。

【0002】

同様に、本明細書に記載の実施形態はすべて独立して使用することができ、且つ本明細書に含まれるいずれかの特徴または請求の範囲に含まれるいずれかの特徴によって補足することができる。

【0003】

また、本明細書に記載の個々の態様は、独立してまたは組み合わせて使用することが可能なことも指摘される。このように、個々の態様のそれぞれに対し、該態様のうちの別の態様に細目を加えることなく、細目を加えることができる。

【0004】

また、本開示は、オーディオ生成器および／またはオーディオ生成方法および／またはコンピュータプログラム製品において使用可能な特徴を明示的または暗示的に記述している。よって、本明細書に記載される特徴のいずれも、装置、方法および／またはコンピュータプログラム製品の文脈において使用することができる。

【0005】

さらに、本明細書に開示される、方法に関連する特徴および機能性は、（かかる機能性を実行するように構成された）装置においても使用することができる。また、装置に関連して本明細書で開示された特徴および機能性はいずれも、対応する方法においても使用することができる。言い換えれば、本明細書に開示された方法は、装置に関連して記載された特徴および機能性のいずれによっても補足することができる。

【0006】

同様に、本明細書に記載される特徴および機能性のいずれも、下記「実装の選択肢」の項に記載の通り、ハードウェアおよびソフトウェアにおいて、あるいはハードウェアおよびソフトウェアの組み合わせを使用して、実装することができる。

【0007】

実装の選択肢
一部の態様は装置の文脈で記載されているが、これらの態様は、特徴が方法の工程または方法の工程の特徴に相当する、対応する方法の記述をも表していることは明らかである。同様に、方法の工程の文脈で記載されている態様は、対応する装置の対応する特徴の記述を表している。方法の工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等のハードウェア装置によって（あるいは用いて）実行することができる。一部の実施形態においては、最も重要な方法の工程の１つ以上がかかる装置によって行われることがある。

【0008】

所定の実装要件によっては、本発明の実施形態はハードウェアまたはソフトウェアにおいて実装することができる。実装はそれぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する（または協働することができる）電子的に可読な制御信号を記憶した、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ等のデジタル記憶媒体を用いて実行することもできる。したがって、デジタル記憶媒体はコンピュータ可読である場合がある。

【0009】

本発明に係る一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の１つが実施されるようにすることができる、電子的に可読な制御信号を有するデータキャリアを含む。

【0010】

概して、本発明の実施形態はプログラムコードを備えるコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラムがコンピュータで実行されると、方法のうちの１つを実行するように作用する。プログラムコードは例えば機械可読キャリアに記憶することができる。

【0011】

他の実施形態には、機械可読キャリアに記憶された、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムが含まれる。

【0012】

つまり、本願発明の方法の一実施形態は、コンピュータプログラムがコンピュータで実行されると本明細書に記載の方法のうちの１つを実行するためのプログラムを有するコンピュータプログラムということになる。

【0013】

本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記憶して備える、データキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）ということになる。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形で非一時的なものである。

【0014】

本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスということになる。データストリームまたは信号のシーケンスは例えば、例えばインターネットを介して等データ通信接続を介して伝送されるように構成されることもある。

【0015】

さらに別の実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス装置等の処理手段を含む。

【0016】

さらに別の実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

【0017】

本願発明にかかる別の実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機に（例えば電子的または光学的に）伝送するように構成された装置またはシステムを含む。受信機は例えば、コンピュータ、モバイル装置、メモリ装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に伝送するためのファイルサーバを含むことがある。

【0018】

一部の実施形態においては、本明細書に記載の方法の機能性の一部またはすべてを実行するためにプログラマブルな論理デバイス（フィールドプログラマブルゲートアレイ等）が使用されることがある。一部の実施形態においては、フィールドプログラマブルゲートアレイは本明細書に記載の方法のうちの１つを実行するために、マイクロプロセッサと協働することがある。概して、方法は好ましくは任意のハードウェア装置によって実行されるものとする。

【0019】

本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実施されることがある。

【0020】

本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることがある。

【0021】

本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実行されることがある。

【0022】

本明細書に記載の方法、または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行されることがある。

【0023】

上記の実施例は本願発明の原則を単に例示するものである。本明細書に記載されている構成および細目の修正および改変は、他の当業者にとって自明であるものと理解される。したがって、本明細書に記載の実施形態の記述および説明によって表される具体的な細目ではなく、係属中の特許請求の範囲によってのみ限定されることを意図するものである。

【背景技術】

【0024】

技術分野
本発明は、オーディオ生成の技術分野に属する。

【0025】

本発明の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器に関連し、ターゲットデータはオーディオ信号を表す。別の実施形態はオーディオ信号を生成するための方法、およびオーディオ生成器に学習させるための方法である。別の実施形態はコンピュータプログラム製品である。

【0026】

背景
近年、ニューラルボコーダーは、合成された音声信号の自然さおよび知覚品質の点で、従来の音声合成アプローチを上回っている。最良の結果はＷａｖｅＮｅｔやＷａｖｅＧｌｏｗ等の計算負荷の重いニューラルボコーダーによって達成されているが、ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等、敵対的生成ネットワークに基づく軽量アーキテクチャは知覚品質の点でまだ下回っている。

【0027】

ＷａｖｅＮｅｔやＬＰＣＮｅｔ、ＷａｖｅＧｌｏｗ等オーディオ波形を生成するためにディープラーニングを用いる生成モデルは、自然に聞こえる音声合成において著しい進歩を遂げている。テキスト読み上げ（ＴＴＳ）アプリケーションにおいてニューラルボコーダーと呼ばれるこれらの生成モデルは、パラメトリックな合成方法および連結的な合成方法のいずれよりも性能が優れている。所与の話者および所与の発声を再生するために、ターゲット音声（メルスペクトログラム等）の圧縮表現を使用してコンディショニングすることができる。

【0028】

過去の研究により、デコーダ側でこのような生成モデルを使用して、クリーンな音声の極低ビットレートでの音声符号化が達成できることが分かっている。これはニューラルボコーダーを従来の低ビットレート音声コーダからのパラメータでコンディショニングすることによって行うことができる。

【0029】

ニューラルボコーダーはまた、音声の脱ノイズ化または脱反響等、音声強調タスクにも使用されていた。

【0030】

これらディープ生成モデルが抱える主な問題は、通常、必要なパラメータが多量であること、そしてその結果生じる、学習および合成の双方における複雑さ（干渉）である。例えば、合成音声の品質については最先端と見なされるＷａｖｅＮｅｔはオーディオサンプルを１つずつ順次生成する。このプロセスは非常にゆっくりで計算上要求される事柄も多く、リアルタイムで行うことはできない。

【0031】

最近、迅速な波形生成のために、ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等、敵対的生成ネットワーク（ＧＡＮ）に基づく軽量敵対的ボコーダーが提案されている。しかしながら、これらのモデルを使用して生成された音声の知覚品質は報告されているところによると、ＷａｖｅＮｅｔやＷａｖｅＧｌｏｗ等のニューラルボコーダーのベースラインを著しく下回っている。この品質のギャップを埋めるためにテキスト読み上げＧＡＮ（ＧＡＮ－ＴＴＳ）が提案されたが、計算コストは未だ高い。

【0032】

ニューラルボコーダーは多種多様存在するが、これらにはすべて欠点がある。例えばＷａｖｅＮｅｔやＬＰＣＮｅｔ等の自己回帰ボコーダーは非常に品質が高く、ＣＰＵへの干渉の最適化に適していることがあるが、処理が容易には並列化できず、品質に妥協しない限りリアルタイム処理を提供することができないので、ＧＰＵでの使用には適していない。

【0033】

ＷａｖｅＧｌｏｗ等の正規化流ボコーダーも同じく非常に品質が高く、ＧＰＵへの干渉に適している可能性があるが、学習と最適化に非常に時間のかかる極めて複雑なモデルを含んでおり、同様に埋め込みデバイスには適さない。

【0034】

ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等のＧＡＮボコーダーは、ＧＰＵへの干渉に適していて且つ軽量である可能性があるが、自己回帰モデルと比べると品質が低い。

【発明の概要】

【0035】

要するに、ハイファイ音声を放出する、低複雑度な解決法は未だ存在していない。このような目的を達成するために最も研究されたアプローチがＧＡＮである。本願発明は、この問題に対する有効な解決法である。

【発明が解決しようとする課題】

【0036】

本発明の目的は、例えばＴＴＳ（テキスト読み上げ）のための、非常に高品質な音声を生成し、限られた計算資源で学習させることが可能な、軽量ニューラルボコーダーソリューションを提供することである。

【0037】

図面の簡単な説明
本発明に係る実施例を同封の図面を参照しながら下記に記載していく。

【図面の簡単な説明】

【0038】

【図1】図１は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。

【図2】図２は、本願発明にかかるオーディオ生成器を学習させるために使用することのできる識別器を示す。

【図3】図３は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。

【図4】図４は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。

【図5】図５は、異なるモデルのＭＵＳＨＲＡエキスパートリスニングテストの結果を示す。

【図6】図６は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。

【図7】図７は、本願発明に従って信号に施される演算を示す。

【図8】図８は、オーディオ生成器を使用したテキスト読み上げアプリケーションにおける演算を示す。

【図9a】図９ａは生成器の実施例を示す。

【図9b】図９ｂは生成器の実施例を示す。

【図9c】図９ｃは生成器の実施例を示す。

【図10】図１０は、本願発明の生成器の内部または外部にあり得るブロックの入力および出力のいくつかの可能性を示す。

【発明を実施するための形態】

【0039】

図面においては、同じ符号が同じ要素および特徴を示す。

【0040】

ある態様によれば、入力データおよびターゲットデータからオーディオ信号を生成するように構成されたオーディオ生成器が設けられ、ターゲットデータはオーディオ信号を表し、オーディオ生成器は、入力信号から導出された第１のデータを受信して第１の出力データを出力するように構成された第１の処理ブロックであって、第１の出力データは複数のチャネルを含む第１の処理ブロックと、第１の出力データまたは第１の出力データから導出されたデータを第２のデータとして受信するように構成された第２の処理ブロックとを備え、第１の処理ブロックは第１の出力データの各チャネルについて、テキストから導出されたターゲットデータを処理してコンディショニング特性パラメータを得るように構成された学習可能レイヤのコンディショニングセットと、コンディショニング特性パラメータを第１のデータまたは第１のデータを正規化したものに適用するように構成されたスタイル付与要素とを含み、第２の処理ブロックは第２のデータの複数のチャネルを結合してオーディオ信号を得るように構成される。

【0041】

オーディオ生成器は、ターゲットデータがスペクトログラムであってもよい。オーディオ生成器は、ターゲットデータがメルスペクトログラムであってもよい。

【0042】

オーディオ生成器は、ターゲットデータがログスペクトルグラム、ＭＦＣＣ、メルスペクトログラムあるいはテキストから得られた他のタイプのスペクトログラムのうちの少なくとも１つの音響特性を備えていてもよい。

【0043】

オーディオ生成器は、テキストまたはテキスト要素の形式の入力を少なくとも１つの音響特性に変換することによってターゲットデータを取得するように構成されていることがある。

【0044】

オーディオ生成器は、少なくとも１つの言語特性を少なくとも１つの音響特性に変換することによってターゲットデータを取得するように構成されていることがある。

【0045】

オーディオ生成器は、テキストから得られた音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの少なくとも１つの言語特性を含むことがある。

【0046】

オーディオ生成器は、テキストまたはテキスト要素の形式の入力を少なくとも１つの言語特性に変換することによってターゲットデータを取得するように構成されることがある。

【0047】

オーディオ生成器は、ターゲットデータがテキストから得られた文字または単語のうちの少なくとも１つを含むことがある。

【0048】

オーディオ生成器は、ターゲットデータが、テキスト解析を行う、および／または音響モデルを使用する統計モデルを用いてテキストから導出されることがある。

【0049】

オーディオ生成器は、ターゲットデータが、テキスト解析を行う、および／または音響モデルを使用する学習可能モデルを用いてテキストから導出されることがある。

【0050】

オーディオ生成器は、ターゲットデータが、テキスト解析を行うルールベースのアルゴリズム、および／または音響モデルを用いてテキストから導出されることがある。

【0051】

オーディオ生成器は、入力を推敲することによってターゲットデータを取得するように構成されることがある。

【0052】

オーディオ生成器は、少なくとも１つの決定的レイヤを通じてターゲットデータを導出するように構成されることがある。

【0053】

オーディオ生成器は、少なくとも１つの学習可能レイヤを通じてターゲットデータを導出するように構成されることがある。

【0054】

オーディオ生成器は、学習可能レイヤのコンディショニングセットが１つまたは少なくとも２つの畳み込みレイヤから成ることがある。

【0055】

オーディオ生成器は、第１の畳み込みレイヤがターゲットデータまたはターゲットデータをアップサンプリングしたものを畳み込んで、第１の活性化関数を使用して第１の畳み込み済データを取得するように構成されることがある。

【0056】

オーディオ生成器は、学習可能なレイヤのコンディショニングセットおよびスタイル付与要素が、１つ以上の残差ブロックを含むニューラルネットワークの残差ブロック内の加重レイヤの一部であることがある。

【0057】

方法は、ログスペクトログラム、ＭＦＣＣ、メルスペクトログラムまたはテキストから取得された別のタイプのスペクトログラムのうちの少なくとも１つの音響特性を備えることがある。

【0058】

方法は、テキストまたはテキスト要素の形式の入力を少なくとも１つの音響特性に変換することによってターゲットデータを取得することがある。

【0059】

方法は、少なくとも１つの言語特性を少なくとも１つの音響特性に変換することによってターゲットデータを取得することがある。

【0060】

方法は、テキストから得られた音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの少なくとも１つの言語特性を含むことがある。

【0061】

方法は、テキストまたはテキスト要素の形式の入力を少なくとも１つの言語特性に変換することによってターゲットデータを取得することがある。

【0062】

方法は、テキストから得られた文字または単語のうちの少なくとも１つを含むことがある。

【0063】

方法は、テキスト解析を行う、および／または音響モデルを使用する統計モデルを用いてターゲットモデルを導出することがある。

【0064】

方法は、テキスト解析を行う、および／または音響モデルを使用する学習可能モデルを用いてターゲットデータを導出することがある。

【0065】

方法は、テキスト解析を行うルールベースのアルゴリズム、および／または音響モデルを用いてターゲットデータを導出することがある。

【0066】

方法は、少なくとも１つの決定的レイヤを通じてターゲットデータを導出することがある。

【0067】

方法は、少なくとも１つの学習可能レイヤを通じてターゲットデータを導出することがある。

【0068】

オーディオ信号を生成するための方法は、テキストからターゲットデータを導出するステップをさらに含むことがある。

【0069】

方法は、入力された代表シーケンスがテキストである場合を含む。

【0070】

方法は、入力された代表シーケンスがスペクトログラムである場合を含む。方法はスペクトログラムがメルスペクトログラムである場合を含む。

【0071】

とりわけ、入力信号（例えば１４）およびターゲットデータ（例えば１２）からオーディオ信号（例えば１６）を生成するように構成されたオーディオ生成器（例えば１２）が提案されている。ターゲットデータ（例えば１２）は、オーディオ信号（例えば１６）を表し且つテキストから導出できるものであって、オーディオ生成器は入力信号（例えば１４）から導出される第１のデータ（例えば１５，５９ａ）を受信して第１の出力データ（例えば６９）を出力するように構成された第１の処理ブロック（例えば４０，５０，５０ａ～５０ｈ）であって、ここで第１の出力データ（例えば６９）は複数のチャネル（例えば４７）を含む、第１の処理ブロック（例えば４０，５０，５０ａ～５０ｈ）と、第１の出力データ（例えば６９）または第１の出力データ（例えば６９）から導出されたデータを第２のデータとして受信するように構成された第２の処理ブロック（例えば４５）とのうちの少なくとも１つを備える。

【0072】

第１の処理ブロック（例えば５０）は、第１の出力データの各チャネルについて、ターゲットデータ（例えば１２）を処理してコンディショニング特性パラメータ（例えば７４，７５）を得るための学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）と、コンディショニング特性パラメータ（例えば７４，７５）を第１のデータ（例えば１５，５９ａ）または第１のデータを正規化したもの（例えば５９，７６’）に適用するように構成されたスタイル付与要素（例えば７７）とを備える。

【0073】

第２の処理ブロック（例えば４５）は第２のデータ（例えば６９）の複数のチャネル（例えば４７）を結合してオーディオ信号（例えば１６）を取得するように構成されることがある。

【0074】

また、例えばオーディオ生成器（例えば１０）によって、入力信号（例えば１４）およびターゲットデータ（例えば１２）からオーディオ信号（例えば１６）を生成するための方法が提案されている。（例えばテキストから取得された）ターゲットデータはオーディオ信号（例えば１６）を表し、方法には、第１の処理ブロック（例えば５０，５０ａ～５０ｈ）によって、入力信号（例えば１４）から導出された第１のデータ（例えば１６５５９，５９ａ，５９ｂ）を受信するステップと、第１の出力データ（例えば５９ｂ，６９）の各チャネルについて、テキストから導出され得るターゲットデータ（例えば１２）を、第１の処理ブロック（例えば５０）の学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）によって処理して、コンディショニング特性パラメータ（例えば７４，７５）を取得するステップと、第１の処理ブロック（例えば５０）のスタイル付与要素（７７）によって、コンディショニング特性パラメータ（例えば７４，７５）を第１のデータ（例えば１５，５９）または第１のデータを正規化したもの（例えば７６’）に適用するステップと、複数のチャネル（例えば４７）を含む第１の出力データ（例えば６９）を第１の処理ブロック（例えば５０）によって出力するステップと、第２の処理ブロック（例えば４５）によって、第１の出力データ（例えば６９）または第１の出力データ（例えば６９）から導出されたデータを第２のデータとして受信するステップと、第２の処理ブロック（例えば４５）によって、第２のデータの複数のチャネル（例えば４７）を結合してオーディオ信号（例えば１６）を取得するステップと、を含む。

【0075】

オーディオ生成のためにニューラルネットワークを学習させる方法も提案されていて、ここでニューラルネットワークは、所与の時間ステップに、生成するオーディオ信号（例えば１６）を表す入力シーケンス（例えば１２）からオーディオサンプルを出力し、出力されたオーディオサンプル（例えば１６）を作り出すために、入力された代表シーケンス（例えば１２）を用いてノイズベクトル（例えば１４）を整形するように構成され、ここで学習は損失関数（例えば１４０）を最適化させるように設計されている。

【0076】

また、数理モデルを含むオーディオ信号（例えば１６）を生成するための方法も提案されている。ここで数理モデルは所与の時間ステップに、生成するオーディオデータ（例えば１６）を表す入力シーケンス（例えば１２）からオーディオサンプルを出力するように構成される。数理モデルは出力オーディオサンプルを作り出すために、入力された代表シーケンス（例えば１２）を用いてノイズベクトル（例えば１４）を整形することがある。

【0077】

この文脈において、計算が低複雑性でハイファイ音声の合成が可能な軽量ニューラルボコーダーである、ＳｔｙｌｅＭｅｌＧＡＮ（例えば、オーディオ生成器１０）を提案する。ＳｔｙｌｅＭｅｌＧＡＮは、ターゲット音声の波形の音響特性を介してサイズの小さいノイズベクトル（例えば、１２８×１ベクトル）にスタイル付与（例えば７７において）する際に時間適応的脱正規化（ＴＡＤＥ）（例えば図４の６０ａおよび６０ｂ、並びに図３の６０）を使用する、完全畳み込み式の順伝播型モデルである。このアーキテクチャにより、時には中央演算ユニット（ＣＰＵ）およびグラフィック処理ユニット（ＧＰＵ）の双方においてリアルタイムよりも高速での高度に並列可能な生成が可能になる。効率的かつ迅速な学習のために、マルチスケールスペクトル再構成損失を、音声信号１６を多数の周波数帯域でランダムなウィンドウ化（例えばウィンドウ１５０ａ，１５０ｂ，１０５ｃ，１０５ｄ）によって評価する多数の識別器（例えば１３２ａ～１３２ｄ）で計算した敵対的損失と併せて使用することが可能である。ＭＵＳＨＲＡリスニングテストおよびＰ．８００リスニングテストによれば、ＳｔｙｌｅＭｅｌＧＡＮ（例えばオーディオ生成器１０）はコピー合成およびＴＴＳシナリオの双方において、既知の既存のニューラルボコーダーを凌駕している。

【0078】

本願はとりわけ、敵対的生成ネットワーク（ＧＡＮ）が基礎であり得る、高品質の音声１６を生成するためのニューラルボコーダーを提案する。ここではＳｔｙｌｅＭｅｌＧＡＮと呼ぶ（そして例えばオーディオ生成器１０に実装される）このソリューションは、低複雑度の計算で高品質の音声１６の合成が可能となる軽量ボコーダーである。ＳｔｙｌｅＭｅｌＧＡＮは例えばターゲット音声の波形のメルスペクトログラム（１２）を使用して潜在ノイズ表現（例えば６９）に（例えばブロック７７で）スタイル付与するために時間適応的脱正規化（ＴＡＤＥ）を使用する、順伝播型の完全畳み込み式モデルである。これにより、時にＣＰＵとＧＰＵの双方でリアルタイムよりも高速での高度に並列可能な生成が可能になる。学習させるためには、マルチスケールスペクトル再構成損失、次いで敵対的損失を使用することができる。これにより、１つのＧＰＵに対し２日未満の学習で、高品質の出力を合成することが可能なモデルが得られる。

【0079】

本願発明の可能な適用および利点には以下のようなものがある。

【0080】

本願発明はテキスト読み上げに適用することができ、その結果の品質、すなわち生成された音声のＴＴＳおよびコピー合成についての品質はＷａｖｅＮｅｔおよび自然な音声に近いものとなっている。さらに迅速な学習が提供され、モデルは簡単に再学習させたりパーソナライズさせたりすることができる。比較的小型のニューラルネットワークモデルなので、使用するメモリは少ない。最後に、本願発明は複雑性において利点がある、すなわち品質と複雑性のトレードオフが優れている。

【0081】

発明は音声強調にも使用することができ、ノイズの多い音声からクリーンな音声を生成する低複雑性の頑強なソリューションを提供することができる。

【0082】

発明は音声符号化にも適用することができ、ニューラルボコーダーをコンディショニングするために必要なパラメータのみを伝送することにより、ビットレートを著しく低減することができる。またこの用途においては、軽量ニューラルボコーダーベースのソリューションは埋め込みシステムに適し、とりわけＧＰＵまたはニューラル処理ユニット（ＮＰＵ）が備わった将来の（エンド）ユーザ機器（ＵＥ）に適している。

【0083】

本願の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器であって、ターゲットデータは（例えばテキストから導出された）入力信号を表し、入力信号から導出された第１のデータを受信して第１の出力データを出力するように構成された第１の処理ブロックであって、第１の出力データは複数のチャネルを備える第１の処理ブロックと、第１の出力データまたは第１の出力データから導出されたデータを第２のデータとして受信するように構成された第２の処理ブロックとを含み、第１の処理ブロックは第１の出力データの各チャネルについて、ターゲットデータを処理してコンディショニング特性パラメータを取得するように構成された学習可能レイヤのコンディショニングセットと、コンディショニング特性パラメータを第１のデータまたは第１のデータを正規化したものに適用するように構成されたスタイル付与要素とを含み、第２の処理ブロックは第２のデータの複数のチャネルを結合してオーディオ信号を取得するように構成される、オーディオ生成器に関連する。

【0084】

一実施形態によれば、学習可能レイヤのコンディショニングセットは１つまたは２つの畳み込みレイヤから成る。

【0085】

一実施形態によれば、第１の畳み込みレイヤはターゲットデータまたはターゲットデータをアップサンプリングしたもの畳み込んで、第１の活性化関数を使用して第１の畳み込み済データを取得する。

【0086】

一実施形態によれば、学習可能レイヤのコンディショニングセットおよびスタイル付与要素は、１つ以上の残差ブロックを含むニューラルネットワークの残差ブロック内の加重レイヤの一部である。

【0087】

一実施形態によれば、オーディオ生成器は、第１のデータを正規化するように構成される正規化要素をさらに含む。例えば、正規化要素は平均がゼロで分散が単位の標準正規分布に第１のデータを正規化することがある。

【0088】

一実施形態によれば、オーディオ信号は音声オーディオ信号である。

【0089】

一実施形態によれば、ターゲットデータは、望ましくは非線形補間によって、２または２の倍数あるいは２の累乗を係数としてアップサンプリングされる。一部の実施例では、２を超える係数が代わりに使用されることもある。

【0090】

一実施形態によれば、第１の処理ブロックは、第１のデータから導出されたデータを第２の活性化関数を使用して処理するように構成された、学習可能レイヤの別のセットをさらに含み、ここで第２の活性化関数はゲート付き活性化関数である。

【0091】

一実施形態によれば、学習可能レイヤの別のセットは１つまたは２つ（あるいはそれ以上）の畳み込みレイヤから成る。

【0092】

一実施形態によれば、第２の活性化関数はソフトマックスゲート付き双曲線正接（ＴａｎＨ）関数である。

【0093】

一実施形態によれば、第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である。

【0094】

一実施形態によれば、畳み込み動作は最大拡張係数２で実行される。

【0095】

一実施形態によれば、オーディオ生成器は８つの第１の処理ブロックと１つの第２の処理ブロックを備える。

【0096】

一実施形態によれば、第１のデータの次元性はオーディオ信号よりも低い。第１のデータは１次元である、または次元がオーディオ信号よりも少なくとも１つ低いことがある。第１のデータは次元がオーディオ信号よりも１次元低いが、チャンネルの数はオーディオ信号よりも多いことがある。第１のデータは、全次元にわたるサンプルの総数がオーディオ信号においてよりも少ないことがある。

【0097】

一実施形態によれば、ターゲットデータはスペクトログラム、望ましくはメルスペクトログラム、またはビットストリームであることがある。

【0098】

ターゲットデータはテキストから導出されることがある。オーディオ生成器はターゲットデータをテキストから導出するように構成されることがある。ターゲットデータは例えば、テキストデータ（文字、単語等）、言語特性、音響特性等のうちの少なくとも１つを含むことがある。

【0099】

別の実施例においては、ターゲットデータはオーディオデータの圧縮表現であることがある、またはターゲットデータは劣化したオーディオ信号である。

【0100】

別の実施形態は、入力信号およびターゲットデータからオーディオ生成器によってオーディオ信号を生成する方法であって、ターゲットデータは（例えば導出されたテキストから）オーディオ信号を表し、入力信号から導出された第１のデータを第１の処理ブロックによって受信するステップと、第１の出力データの各チャンネルについて、第１の処理ブロックの学習可能レイヤのコンディショニングセットにより、ターゲットデータを処理してコンディショニング特性パラメータを取得するステップと、第１の処理ブロックのスタイル付与要素により、第１のデータまたは第１のデータを正規化したものにコンディショニング特性パラメータを適用するステップと、第１の処理ブロックにより、複数のチャネルを含む第１の出力データを出力するステップと、第２の処理ブロックにより、第１の出力データまたは第１の出力データから導出されたデータを第２のデータとして受信するステップと、第２の処理ブロックにより、第２のデータの複数のチャネルを結合してオーディオ信号を取得するステップとを含む。一部の実施例では、方法はターゲットデータをテキストから導出することがある。

【0101】

正規化には、例えば平均がゼロで分散が単位の標準正規分布への第１のデータの正規化を含むことがある。

【0102】

方法は、オーディオ生成器からの任意の特性または特性の組み合わせによって補足されることがある。

【0103】

別の実施形態は、上記に記載のオーディオ生成器を学習させるための方法に関連し、学習させるステップは上記の方法のうちの任意の１つの工程を１回以上繰り返すステップを含む。

【0104】

一実施形態によれば、学習させるための方法は、好ましくはニューラルネットワークである少なくとも１つの評価器によって、生成されたオーディオ信号を評価するステップと、評価結果に従って評価器の加重を適合させるステップとを含む。

【0105】

一実施形態によれば、学習させるための方法は、評価結果に従って評価器の加重を適合させるステップを含む。

【0106】

一実施形態によれば、学習させるステップは損失関数を最適化させるステップを含む。

【0107】

一実施形態によれば、損失関数を最適化させるステップは、生成されたオーディオ信号と基準オーディオ信号との間の固定のメトリックを算出するステップを含む。

【0108】

一実施形態によれば、固定のメトリックを算出するステップは、生成されたオーディオ信号と基準オーディオ信号との１つ以上のスペクトル歪みを計算するステップを含む。

【0109】

一実施形態によれば、１つ以上のスペクトル歪みを計算するステップは、生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュード、および／または異なる時間または周波数解像度に対して施される。

【0110】

一実施形態によれば、損失関数を最適化するステップは、生成されたオーディオ信号の表現または基準オーディオ信号の表現を１つ以上の評価器によってランダムに供給および評価することによって、１つ以上の敵対的メトリックを導出するステップを含み、ここで評価には供給されたオーディオ信号を、オーディオ信号の事前学習の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。

【0111】

一実施形態によれば、損失関数を最適化するステップは、固定のメトリックを算出し、１つ以上の評価器によって敵対的メトリックを導出するステップを含む。

【0112】

一実施形態によれば、オーディオ生成器はまず、固定のメトリックを使用して学習させられる。

【0113】

一実施形態によれば、４つの評価器によって４つの敵対的メトリックが導出される。

【0114】

一実施形態によれば、評価器は生成されたオーディオ信号の表現および基準オーディオ信号の表現をフィルタバンクで分解した後に動作する。

【0115】

一実施形態によれば、各評価器は入力として、生成されたオーディオ信号の表現または基準オーディオ信号の表現の１つ以上の部分を受信する。

【0116】

一実施形態によれば、信号の部分は、ランダム窓関数を使用して、入力信号からランダムなウィンドウをサンプリングして生成される。

【0117】

一実施形態によれば、ランダムなウィンドウのサンプリングは各評価器について複数回繰り返される。

【0118】

一実施形態によれば、各評価器についてランダムなウィンドウがサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例する。

【0119】

別の実施形態は、プログラムが処理デバイス上で実行されるときに本明細書に記載の方法の工程を実行するためのソフトウェアコード部分を含む、処理デバイス用プログラムを含むコンピュータプログラム製品に関連する。

【0120】

一実施形態によれば、コンピュータプログラム製品は、ソフトウェアコード部分が記憶されたコンピュータ可読媒体を含み、プログラムは処理デバイスの内蔵メモリに直接搭載することができる。

【0121】

別の実施形態は、数理モデルを含むオーディオ信号を生成する方法に関連し、数理モデルは、生成するオーディオデータを表す（例えばテキストから導出された）入力シーケンスから所与の時間ステップにオーディオサンプルを出力するように構成され、数理モデルは出力されるオーディオサンプルを入力された代表シーケンスを用いて作り出すために、ノイズベクトルを整形するように構成される。

【0122】

一実施形態によれば、数理モデルはオーディオデータを用いて学習させる。一実施形態によれば、数理モデルはニューラルネットワークである。一実施形態によれば、ネットワークは順伝播型ネットワークである。一実施形態によれば、ネットワークは畳み込みネットワークである。

【0123】

一実施形態によれば、ノイズベクトルの次元性は生成するオーディオ信号よりも低いことがある。第１のデータは一次元であるまたはオーディオ信号よりも少なくとも一次元低いことがある。第１のデータは全次元にわたるサンプル数がオーディオ信号よりも低いことがある。第１のデータはオーディオ信号よりも一次元低いが、チャネル数はオーディオ信号よりも多いことがある。

【0124】

一実施形態によれば、入力された代表シーケンスを用いて数理モデルをコンディショニングし、ひいてはノイズベクトルを整形するために、時間適応的脱正規化（ＴＡＤＥ）法が使用される。

【0125】

一実施形態によれば、修正ソフトマックスゲート付きＴａｎｈがニューラルネットワークの各レイヤを活性化させる。

【0126】

一実施形態によれば、畳み込み動作は最大膨張率２で実行される。

【0127】

一実施形態によれば、ノイズベクトルならびに入力された代表シーケンスはアップサンプリングされて、ターゲットサンプリングレートでの出力オーディオが得られる。

【0128】

一実施形態によれば、アップサンプリングは数理モデルの異なるレイヤにおいて順次行われる。

【0129】

一実施形態によれば、各レイヤのアップサンプリング係数は２または２の累乗等２の倍数である。一部の実施例においては、アップサンプリング係数の値は概して２よりも大きい場合がある。

【0130】

生成されたオーディオ信号は概して、テキスト読み上げアプリケーションにおいて使用することができ、入力された代表シーケンスはテキストから導出される。

【0131】

一実施形態によれば、生成されたオーディオ信号はオーディオデコーダで使用され、入力された代表シーケンスは伝送または格納する元のオーディオの圧縮表現である。

【0132】

一実施形態によれば、生成されたオーディオ信号は劣化したオーディオ信号のオーディオ品質を向上させるために使用され、入力された代表シーケンスは劣化した信号から導出される。

【0133】

別の実施例は、オーディオ生成のためのニューラルネットワークに学習させる方法に関連し、ここでニューラルネットワークは生成するオーディオデータを表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力し、ニューラルネットワークは出力されるオーディオサンプルを入力された代表シーケンスを使用して作り出すためにノイズベクトルを整形するように構成され、ニューラルネットワークは上記の通りに設計され、学習は損失関数を最適化するように設計される。

【0134】

一実施形態によれば、損失関数は、生成されたオーディオ信号と基準オーディオ信号の間で算出された固定のメトリックを含む。

【0135】

一実施形態によれば、固定のメトリックは生成されたオーディオ信号と基準信号との間で算出された１つ以上のスペクトル歪みである。

【0136】

一実施形態によれば、１つ以上のスペクトル歪みは生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュードに対して算出される。

【0137】

一実施形態によれば、固定のメトリックを形成する１つ以上のスペクトル歪みは異なる時間または周波数解像度に対して計算される。

【0138】

一実施形態によれば、損失関数は追加の識別的ニューラルネットワークから導出された敵対的メトリックを含み、識別的ニューラルネットワークは生成されたオーディオ信号または基準オーディオ信号の表現を入力として受信し、識別的ニューラルネットワークは生成されたオーディオサンプルがどの程度実際的であるかを評価するように構成される。

【0139】

一実施形態によれば、損失関数は固定のメトリックと、追加の識別的ニューラルネットワークから導出される敵対的メトリックとの双方を含む。

【0140】

一実施形態によれば、オーディオサンプルを生成するニューラルネットワークは、先ずは固定のメトリックのみを使用して学習させられる。

【0141】

一実施形態によれば、敵対的メトリックは４つの識別的ニューラルネットワークによって導出される。

【0142】

一実施形態によれば、識別的ニューラルネットワークは、フィルタバンクによる入力オーディオ信号の分解の後に動作する。

【0143】

一実施形態によれば、各識別的ニューラルネットワークは入力信号をランダムにウィンドウ化したもの１つ以上を入力として受信する。

【0144】

一実施形態によれば、ランダムなウィンドウのサンプリングは各識別的ニューラルネットワークについて複数回繰り返される。

【0145】

一実施形態によれば、各識別的ニューラルネットワークについてランダムなウィンドウがサンプリングされる回数は、入力オーディオサンプルの長さに比例する。

【0146】

実施形態の詳細な説明
図８はオーディオ生成器１０の実施例を示している。オーディオ生成器１０はテキスト１１２を出力されたオーディオ信号１６に変換することができる。テキスト１１２は、一部の実施例ではオーディオ表現（例えばスペクトログラム、またはより一般的にはスペクトログラム、ログスペクトログラム等のＭＦＣＣ、あるいはスペクトログラム、ＭＦＣＣまたはメルスペクトログラム、その他の音響特性）と理解することもできるターゲットデータ１２に変換することができる（下記参照）。ターゲットデータ１２は入力信号１４（例えばノイズ）をコンディショニングして入力信号１４を聞き取り可能な音声になるように処理するために使用することができる。オーディオ合成ブロック（テキスト解析ブロック）１１１０はテキスト１１２を、例えばターゲットデータ１２が設定する条件下でオーディオ表現（例えばスペクトログラム、またはより一般的にはスペクトログラム、ログスペクトログラム等のＭＦＣＣ、あるいはスペクトログラム、ＭＦＣＣまたはメルスペクトログラム、その他の音響特性）に変換することができる。オーディオ合成ブロック１１１０は、例えば音声の発声、位相整合、イントネーション、持続期間等のうちの少なくとも１つの処理において責任を負うことがある。オーディオ合成ブロック１１１０（テキスト解析ブロック）は、テキスト正規化、語の分割、韻律予測および書記素列から音素列への変換等の少なくとも１つのタスクを行うことがある。次に、生成されたターゲットデータ１２は、テキスト１１２から取得したターゲットデータ１２から取得した条件に基づいて、例えば入力信号１４から波形１６（出力オーディオ信号）を生成することができる波形合成ブロック１１２０（ボコーダー等）に入力される。

【0147】

ただし、ブロック１１１０は一部の実施例においては、生成器１０の一部ではなく、ブロック１１１０が生成器１０の外にあり得ることが指摘される。一部の実施例では、ブロック１１１０は多数のサブブロックに下位分割されることがある（さらに一部の特定の事例では、サブブロックのうちの少なくとも１つは生成器１０の一部であり、サブブロックのうちの少なくとも１つは生成器１０の外にあることがあり得る。）

【0148】

概して、ブロック１１１０（または一部の実施例では生成器１０）に入力されるテキスト（またはテキストから導出されるその他の入力）である入力は、
・テキスト１１２（例えばＡＳＣＩＩコード）
・少なくとも１つの言語特性（例えばテキストから取得される、例えば音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの少なくとも１つ）
・少なくとも１つの音響特性（例えばテキストから取得される、例えばログスペクトログラム、ＭＦＣＣ、メルスペクトログラムのうちの少なくとも１つ）
のうちの少なくとも１つの形式であることがある

【0149】

入力は、ターゲットデータ１２を得るために、（例えばブロック１１１０によって）処理されることがある。異なる実施例によれば、ブロック１１１０は、
・テキストの文字または単語のうちの少なくとも１つ
・少なくとも１つの言語特性（例えばテキストから取得される、例えば音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの少なくとも１つ）
・少なくとも１つの音響特性（例えばテキストから取得される、例えばログスペクトログラム、ＭＦＣＣ、メルスペクトログラムのうちの少なくとも１つ）
のうちの少なくとも１つの形式で（テキストから導出された）ターゲット１２を得るように処理を実行することがある。

【0150】

ターゲットデータ１２は（文字、言語特性、音響特性のいずれの形式であっても）入力信号１４の処理をコンディショニングし、ひいては出力オーディオ信号（音響波）を生成するために、生成器１０（例えば波形合成ブロック、ボコーダー、１１２０）によって使用されることになる。

【0151】

図１０はブロック１１１０をインスタンス化するためのいくつかの可能性についての概要表を示している。
Ａ）ケースＡでは、ブロック１１１０に入力される入力はプレーンテキスト１１２であり、ブロック１１１０からの出力（ターゲットデータ１２）はテキストの文字または（同じくテキストである）単語のうちの少なくとも１つである。ケースＡでは、ブロック１１１０はテキスト１１２の選択を実行してテキスト１１２の要素の形式にする。次に（テキスト１１２の要素の形式である）ターゲットデータ１２が入力信号１４への処理をコンディショニングして出力信号１６（音響波）を取得する。

【0152】

Ｂ）ケースＢでは、ブロック１１１０に入力される入力はプレーンテキスト１１２であり、ブロック１１１０からの出力（ターゲットデータ１２）は少なくとも１つの言語特性、例えば、テキスト１１２から取得された音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの言語特性等を含む。ケースＢでは、ブロック１１１０はテキスト１１２の要素に言語解析を施し、ひいては音素、語韻律、イントネーション、文章の区切り、有声休止等のうちの少なくとも１つのうちから少なくとも１つの言語特性を取得する。次に、（音素、語韻律、イントネーション、文章の区切り、有声休止等のうちの少なくとも１つの形式である）ターゲットデータ１２は入力信号１４への処理をコンディショニングして出力信号１６（音響波）を取得する。

【0153】

Ｃ）ケースＣでは、ブロック１１１０に入力される入力はプレーンテキスト１１２であり、ブロック１１１０からの出力（ターゲットデータ１２）は少なくとも１つの音響特性、例えばログスペクトログラム、ＭＦＣＣ、テキストから取得したメルスペクトログラムのうちの１つの音響特性を含む。ケースＣでは、ブロック１１１０はテキスト１１２の要素に対して音響解析を施し、ひいてはログスペクトログラム、ＭＦＣＣまたはテキスト１１２から取得したメル巣ペクラムのうちの１少なくとも１つの音響特性を取得する。次に、（例えば音素、語韻律、イントネーション、文章の区切り、および有声休止のうちの少なくとも１つの形式である）ターゲットデータ１２は入力信号１４への処理をコンディショニングして出力信号１６（音響波）を取得する。

【0154】

Ｄ）ケースＤでは、ブロック１１１０に入力される入力は言語特性（例えば音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つ）であり、出力も同じく処理された言語特性（例えば音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つ）である。次に、（音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つの形式である）ターゲットデータ１２が入力信号１４への処理をコンディショニングして出力信号１６（音響波）を取得する。

【0155】

Ｅ）ケースＥでは、ブロック１１１０に入力される入力は言語特性（例えば音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つ）であり、ブロック１１１０からの出力（ターゲットデータ１２）は少なくとも１つの音響特性、例えばログスペクトログラムまたはＭＦＣＣ、およびテキストから取得したメルスペクトログラムのうちの１つの音響特性を含む。ケースＥでは、ブロック１１１０はテキスト１１２の要素に音響解析を施し、ログスペクトログラムまたはＭＦＣＣ、およびメルスペクトログラムのうちの少なくとも１つの音響特性を取得する。次に、（例えばログスペクトログラム、ＭＦＣＣ、テキストから取得したメルスペクトログラム等のうちの少なくとも１つの音響特性の形式の）ターゲットデータ１２が入力信号１４への処理をコンディショニングして出力信号１６（音響波）を取得する。

【0156】

Ｆ）ケースＦではブロック１１１０に入力される入力は音響特性の形式（例えばログスペクトログラム、ＭＦＣＣ、テキストから得られたメルスペクトログラム等のうちの少なくとも１つの形式）であり、出力（ターゲットデータ１２）は処理済みの音響特性の形式（例えばログスペクトログラム、ＭＦＣＣ、テキストから得られたメルスペクトログラム等のうちの少なくとも１つの形式）である。次に、（例えば、ログスペクトログラム、ＭＦＣＣ、テキストから取得したメルスペクトログラム等のうちの少なくとも１つなど、処理済みの音響特性の形式である）ターゲットデータ１２は、入力信号１４の処理をコンディショニングして出力信号１６（音響波）を取得する。

【0157】

図９ａはブロック１１１０がサブブロック１１１２（テキスト解析ブロック）と、その下流にサブブロック１１１４（例えば音響モデルを使用したオーディオ合成）を含む実施例を示している。サブブロック１１１２は中間ターゲットデータ２１２をもたらし、サブブロック１１１４はターゲットデータ１２を音響特性の形式で生成する。したがって、図９ａにおいては、サブブロック１１１２およびサブブロック１１１４がいずれも生成器１０の一部である場合、ケースＣということになる。サブブロック１１１２が生成器１０の一部ではないがサブブロック１１１４が生成器１０の一部である場合、ケースＥとなる。

【0158】

図９ｂはブロック１１１０がテキスト解析のみを行ってターゲットデータ１２を言語特性の形式でもたらす実施例を示している。したがって、図９ｂにおいては、ブロック１１１０が生成器１０の一部であれば、ケースＢということになる。

【0159】

図９ｃはブロック１１１０がなく、ターゲットデータ１２が言語特性の形式である実施例を示している。

【0160】

概して、ブロック１１１０は（存在する場合）、ブロック１１１０に入力された入力よりも推敲されたターゲットデータに向けた処理において、テキスト（またはテキストから得られた他の入力）をより一層推敲していくように動作する。ブロック１１１０はまた、元テキストにはない制約（アテンション機能、男声／女声、アクセント、感情特性評価等）を使用することもある。これらの制約は概して、ユーザから供給される。

【0161】

上述および後述のケースの場合、ブロック１１１０（または、ブロック１１１２や１１１４のいずれか等、存在する場合は任意のサブブロック）は、例えばテキスト解析を実行する、および／または音響モデルを使用する統計モデルを使用することがあることも指摘される。さらにまたはあるいは、ブロック１１１０（または、ブロック１１１２や１１１４のいずれか等、存在する場合は任意のサブブロック）は、例えばテキスト解析を実行する、および／または音響モデルを使用する学習可能モデルを使用することもある。学習可能モデルは、例えばニューラルネットワーク、マルコフ連鎖等に基づいていることがある。さらに加えて、またはさらにあるいは、ブロック１１１０（または、ブロック１１１２や１１１４のいずれか等、存在する場合は任意のサブブロック）はテキスト解析を実行するルールベースのアルゴリズムを使用するおよび／または音響モデルに基づくこともある。

【0162】

ブロック１１１０（または、ブロック１１１２またはブロック１１１４のいずれか等、存在する場合は任意のサブブロック）は、一部の実施例では、ターゲットデータを決定的に導出することができる。したがって、一部のサブブロックが学習可能で、他のサブブロックは決定的であることもある。

【0163】

ブロック１１１０は（例えばテキストを少なくとも１つの言語特性に変換する際に）「テキスト解析ブロック」または（例えばテキストまたは少なくとも１つの言語特性を例えばスペクトログラム等の少なくとも１つの音響特性に変換する際に）「オーディオ合成ブロック」とも呼ばれる。いずれにせよ、ターゲットデータは実施形態に応じて、テキスト、言語特性または音響特性の形式であるということは、維持される。

【0164】

とりわけ、図１０は、一部の変換の組み合わせが一般に行われないことを示している。これは、精緻化された特性から単純な特性への変換（例えば、言語特性からテキスト、あるいは音響特性からテキストまたは言語特性への変換）は想定されていないからである。

【0165】

図６は、例えばＳｔｙｌｅＭｅｌＧＡＮによって、オーディオ信号（出力信号）１６を生成（合成等）することができるオーディオ生成器１０の実施例を示している。図６では、テキスト１１２を例えばテキスト解析ブロック１１１０で処理して、ターゲットデータ１２を得ることができる。次に、波形合成ブロック１１２０において、ターゲットデータ１２を使用して入力信号１４（ノイズ等）を処理して、可聴オーディオ信号１６（音響波形）を得ることができる。得られたターゲットデータ１２はテキストから導出することができる。

【0166】

とりわけ、出力オーディオ信号１６は入力信号１４（潜伏信号とも呼ばれ、ホワイトノイズ等のノイズであることもある）およびターゲットデータ１２（「入力シーケンス」とも呼ばれ、一部の実施例ではテキストから導出される）に基づいて生成され、且つ例えばブロック１１１０でテキスト１１２から取得することができる。ターゲットデータ１２は例えば、スペクトログラム（例えばメルスペクトログラム）を含む（例えば、そのものである）ことがあり、メルスペクトログラムは例えば時間サンプルのシーケンスのメルスケールへのマッピングをもたらす。さらに、またはあるいは、ターゲットデータ１２はビットストリームを含む（例えば、そのものである）こともある。例えば、ターゲットデータは、オーディオ（例えばテキスト読み上げ）で再生されるテキストである、またはテキストを含む（あるいはより一般的には、テキストから導出される）ことがある。ターゲットデータ１２は概して、ヒトである聴取者が自然だと認識することができる言語音を取得するために処理される。入力信号１４はホワイトノイズ等のノイズである（ひいては有用な情報を運搬しない）ことがあるが、生成器１０においては、ノイズから取得されたノイズベクトルに（例えば７７で）スタイル付与され、ターゲットデータ１２によってコンディショニングされた音響特性を備えるノイズベクトルが得られることになる。最終的には、ヒトである聴取者は、出力されたオーディオ信号１６を音声として理解することになる。図１においてと同様、ノイズベクトル１４は１２８×１のベクトル（単一のサンプル、例えば時間領域サンプルまたは周波数領域サンプルと、１２８のチャネル）であることがある。他の実施例では、ノイズベクトル１４の異なる長さが使用されることもある。

【0167】

第１の処理ブロック５０が図６に示されている。（例えば図１に）図示される通り、第１の処理ブロック５０は複数のブロック（図１では、ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈ）のうちのそれぞれによってインスタンス化されることがある。ブロック５０ａ～５０ｈは１つの単一のブロック４０を形成していると理解することができる。第１の処理ブロック４０，５０において、学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）を使用してターゲットデータ１２および／または入力信号１４を処理することができることが示される。したがって、コンディショニング特性パラメータ７４，７５（図３ではガンマ（γ）およびベータ（β）とも呼ばれる）が、例えば学習中の畳み込みによって得られる。したがって、学習可能レイヤ７１～７３は学習ネットワーク、あるいはより一般的には別の学習構造の加重レイヤの一部となり得る。第１の学習ブロック４０，５０は少なくとも１つのスタイル付与要素７７を含むことがある。少なくとも１つのスタイル付与要素７７は第１の出力データ６９を出力することがある。少なくとも１つのスタイル付与要素７７は入力信号１４（潜在）または入力信号１４から取得した第１のデータ１５にコンディショニング特性パラメータ７４，７５を適用することがある。

【0168】

各ブロック５０の第１の出力データは複数のチャネル内にある。オーディオ生成器１０は第２の処理ブロック４５（図１ではブロック４２，４４，４６を含むものとして示されている）を含むことがある。第２の処理ブロック４５は、（第２の入力データまたは第２のデータとして入力される）第１の出力データ６９の複数のチャネル４７を結合して出力されたオーディオ信号１６を単一のチャネルで、ただしサンプルのシーケンスで取得するように構成されることがある。

【0169】

「チャネル」というのは、ステレオサウンドの文脈ではなく、ニューラルネットワーク（例えば畳み込みニューラルネットワーク）の文脈で理解されるべきである。例えば、入力信号（例えば、潜在ノイズ）１４は（時間領域表現において）チャネルのシーケンスが提供されているため、チャネルが１２８個ある可能性がある。例えば、信号に１７６のサンプルと６４のチャネルがあれば、１７６列６４行のマトリクスと理解され、信号に３５２のサンプルと６４のチャネルがあれば、３５２列６４行のマトリクスと理解され得る（他の図式化も可能である）。したがって、生成されたオーディオ信号１６（図１では１×２２５２８行のマトリクスとなり、２２５２８は別の数字で置き換えることができる）は、モノラル信号と理解することができる。ステレオ信号を生成する場合には、単に開示された技術を各ステレオチャンネルについて繰り返して多数のオーディオ信号１６を取得して、次いでミックスすることになる。

【0170】

少なくとも元の入力信号１４および／または生成された音声１６はベクトルであり得る。逆に、ブロック３０および５０ａ～５０ｈ，４２，４４の各々の出力は概して、次元が異なる。第１のデータは一次元であるまたはオーディオ信号の次元よりも少なくとも１次元低い。第１のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第１のデータは次元がオーディオ信号よりも１次元低いが、チャネルの数はオーディオチャネルよりも多いことがある。ブロック３０および５０ａ～５０ｈの各々において、ノイズ１４から進展して音声１６になる信号はアップサンプリングされることがある。例えば、ブロック５０ａ～５０ｈのうちの第１のブロック５０ａの前のアップサンプリングブロック３０において、８８回のアップサンプリングが実行される。アップサンプリングの例としては、１）同じ値を繰り返す、２）ゼロを挿入する、３）再び繰り返しまたはゼロの挿入および線形フィルタ処理、等の手順が含まれることがある。

【0171】

生成されたオーディオ信号１６は概して、単一チャネルの信号（例えば、１×２２５２８）であることがある。（例えば、ステレオサウンド再生のために）多数のオーディオチャネルが必要な場合には、本願に記載の手順は原則として複数回繰り返されるものとする。

【0172】

同様に、ターゲットデータ１２も原則として、（テキストである場合、またはより一般的に、ケースＡにおいてまたは図９ｃにおいて等、テキストから導出されている場合）単一のチャネルまたは複数のチャネル（ケースＣ、Ｅ、Ｆの場合等、例えばテキストから導出される、例えばスペクトログラム、例えばメルスペクトログラム）であることがある。いずれにせよ、（例えば２、２の累乗、２の倍数、または２よりも大きい値で）アップサンプリングして後続のレイヤ（５０ａ～５０ｈ，４２）に沿って進展する信号（５９ａ，１５，６９）の次元と適合させ、例えば信号の次元と適合した次元でコンディショニング特性パラメータ７４，７５を取得することができる。

【0173】

第１の処理ブロックが例えば少なくとも複数のブロック５０ａ～５０ｈでインスタンス化されると、チャネル数は、例えば複数のブロック５０ａ～５０ｈについて同じままであることがある。第１のデータは一次元であるまたはオーディオ信号の次元よりも１次元低いことがある。第１のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第１のデータの次元はオーディオ信号よりも１次元低いが、チャネル数はオーディオ信号より多いことがある。

【0174】

後続のブロックにおける信号は、互いに次元が異なることがある。例えば、サンプル数のアップサンプリング回数を多くして、例えば８８サンプルから最後のブロック５０ｈでは２２５２８サンプルに達することもある。同様に、ターゲットデータ１２も各処理ブロック５０でアップサンプリングされる。したがって、コンディショニング特性パラメータ７４，７５は処理する信号のサンプル数に適合させることができる。よって、ターゲットデータ１２が提供する意味情報は後続のレイヤ５０ａ～５０ｈにおいても失われない。

【0175】

実施例は敵対的生成ネットワーク（ＧＡＮ）のパラダイムでも実行され得ると理解される。ＧＡＮはＧＡＮ生成器１１（図１）と、波形合成ブロックの１１２０の一部としても理解することのできるＧＡＮ識別器１００（図２）とを備える。ＧＡＮ生成器１１は、可能な限り実際の信号に近いオーディオ信号１６を生成しようとする。ＧＡＮ識別器１００は生成されたオーディオ信号が（図２の実際のオーディオ信号１０４のように）実際のものなのか、（生成されたオーディオ信号１６のように）フェイクなのかを識別するものとする。ＧＡＮ生成器１１およびＧＡＮ識別器１００のいずれもニューラルネットワークとして取得することができる。ＧＡＮ生成器１１は（例えば勾配法その他の方法によって）損失を最小化し、ＧＡＮ識別器１００において結果を考慮することで、コンディショニング特性パラメータ７４，７５を更新する。ＧＡＮ識別器１００は（例えば勾配法その他の方法によって）自身の識別損失を削減し、自身の内部パラメータを更新する。したがって、ＧＡＮ生成器１１はより優れたオーディオ信号１６を提供するように学習させられる一方で、ＧＡＮ識別器１００はＧＡＮ生成器１１が生成したフェイクのオーディオ信号から実際の信号１６を識別するように学習させられる。概して、ＧＡＮ生成器１１は生成器１０の機能のうち、少なくともＧＡＮ識別器１００の機能を除いた機能を含み得ると理解することができる。したがって、上記のほとんどにおいて、ＧＡＮ生成器１１およびオーディオ生成器１０は、ＧＡＮ識別器１００の特性を除くと、多かれ少なかれ同じ特性を有していることがある。オーディオ生成器１０は内蔵コンポーネントとして識別器１００を備えることがある。したがって、ＧＡＮ生成器１１とＧＡＮ識別器１００はオーディオ生成器１０を構成するうえで一致し得る。ＧＡＮ識別器１００がない実施例においては、オーディオ生成器１０はＧＡＮ生成器１１のみで構成されることがある。

【0176】

「学習可能レイヤのコンディショニングセット」という言葉でも説明されている通り、オーディオ生成器１０は条件付きＧＡＮのパラダイムに従って、例えば条件情報に基づいて取得することができる。例えば、条件情報は、レイヤのコンディショニングセット７１～７３（加重レイヤ）が学習させられ、コンディショニング特性パラメータ７４，７５が取得されるターゲットデータ（またはターゲットデータをアップサンプリングしたバージョン）１２で構成されることがある。したがって、スタイル付与要素７７は学習可能レイヤ７１～７３によってコンディショニングされる。

【0177】

実施例は畳み込みニューラルネットワークに基づいていることもある。例えば、３×３のマトリクス（または４×４のマトリクス等）の小型のマトリクス（フィルタまたはカーネル等）は、例えばフィルタ（カーネル）要素とより大型のマトリクスの要素（活性化マップまたは活性化信号）との結合（乗算および積の和、ドット積等）を伴うより大型のマトリクス（チャンネル×サンプル潜在または入力信号および／またはスペクトログラムおよび／またはスペクトログラムまたはアップサンプリングされたスペクトログラムまたはより一般的にターゲットデータ１２）に沿って畳み込まれる（コンボリューションされる）。学習中、損失を最小化させる、フィルタ（カーネル）要素が取得される（学習される）。干渉中、学習中に取得されたフィルタ（カーネル）要素が使用される。畳み込みの例はブロック７１～７３，６１ａ，６１ｂ，６２ａ，６２ｂにある（下記参照）。ブロックが条件付きの場合（例えば図３のブロック６０）、入力信号１４から中間信号５９ａ（１５），６９を介してオーディオ信号１６に向けて進展する信号等には必ずしも畳み込みが適用されないが、ターゲット信号１４には適用され得る。他の場合（例えばブロック６１ａ，６１ｂ，６２ａ，６２ｂ）では、畳み込みは条件付きでない場合もあり、例えば入力信号１４からオーディオ信号１６に進展していく信号５９ａ（１５），６９等に直接適用されることもある。図３および図４からも見て取れるように、条件付きおよび条件なしの畳み込みのいずれも行われることがある。

【0178】

一部の実施例では、畳み込みの下流に、意図する効果において異なる活性化関数（ＲｅＬｕ、ＴａｎＨ、ソフトマックス等）があることがある。ＲｅＬｕは０と畳み込みにおいて得られた値との間に最大値をマッピングすることがある（実際には、正の場合には同じ値を維持し、負の値の場合には０を出力する）。リーキーＲｅＬｕはｘ＞０であればｘを出力し、ｘ≦０であれば０．１×ｘを出力する。ここでｘは畳み込みによって得られた値である（一部の実施例では、０．１±０．０５の範囲の既定の値等、別の値が０．１の代わりに使用されることもある）。（例えばブロック６３ａおよび／または６３ｂで実装され得る）ＴａｎＨは、例えば
ＴａｎＨ（ｘ）＝（ｅ^x－ｅ^-x）／（ｅ^x＋ｅ^-x）
によって畳み込みで得られた値の双曲線正接を与えることができ、ここでｘは（例えばブロック６１ａおよび／または６１ｂにおける）畳み込みで得られた値である。（例えばブロック６４ａおよび／または６４ｂで適用される）ソフトマックスは、（例えばブロック６２ａおよび／または６２ｂで提供される）畳み込みの結果の要素のうちの各要素にべき指数を適用して、べき指数の合計によって除算することで正規化する。（例えば６４ａおよび／または６４ｂにおける）ソフトマックスは、（例えば６２ａおよび／６２ｂで提供される）畳み込みから生じるマトリクス内の入力の確率分布を提供することがある。活性化関数の適用後、一部の実施例ではプーリング工程が実行され得る（図面には図示無し）が、別の実施例では避けられることもある。

【0179】

図４は、（例えば６３ａおよび／または６３ｂで得られた）ＴａｎＨ関数の結果を（例えば６４ａおよび／または６４ｂで得られた）ソフトマックス関数の結果で（例えば６５ａおよび／または６５ｂにおいて）例えば乗算することによって、ソフトマックスゲート付きＴａｎＨ関数を得ることも可能であることを示している。

【0180】

畳み込みの多数のレイヤ（例えば学習可能レイヤのコンディショニングセット）は、相次いでいる、および／または互いに並列していて、効率性が高まるようになっている。活性化関数の適用および／またはプーリングが行われれば、別のレイヤで繰り返される（あるいは例えば異なる活性化関数が異なるレイヤに適用される）ことがある。

【0181】

入力信号１４（ノイズ等）は異なる工程で処理され、（例えば学習可能レイヤのコンディショニングセット７１～７３が設定する条件下で、且つ学習可能レイヤのコンディショニングセット７１～７３が学習したパラメータ７４，７５に基づいて、）生成されたオーディオ信号１６になる。したがって、入力信号は処理方向（図６の１４から１６）に進展して生成されたオーディオ信号１６（音声等）になると理解される。条件はターゲット信号１２および（最も好ましいパラメータ７４，７５のセットになるための）学習に基づいて実質的に生成される。

【0182】

また、入力信号（またはそれが進化したもののいずれか）の多数のチャネルは、学習可能レイヤのセットとスタイル付与要素が関連付けられていると見なすことができることが指摘される。例えば、マトリクス７４および７５の各行は、入力信号（またはそれが進化したもののうちの１つ）の特定のチャネルに関連付けられ、ひいてはその特定のチャネルに関連付けられた特定の学習可能レイヤから取得される。同様に、スタイル付与要素７７も多様なスタイル付与要素（入力信号ｘ，ｃ，１２，７６，７６’，５９，５９ａ，５９ｂ等の各行に対して１つ）によって形成されると見なすことができる。

【0183】

【0184】

【0185】

ノイズベクトル１４は（例えばブロック５０ａ～５０ｈ，４２，４４，４６等において）工程毎に処理され、例えばノイズ１４から例えば音声１６に進展する（進化した信号は、例えば１５，５９ａ，ｘ，ｃ，７６’，７９，７９ａ，５９ｂ，７９ｂ，６９等異なる信号によって示される）。

【0186】

ブロック３０において、入力信号（ノイズ）１４はアップサンプリングされて、８８（別の数もあり得る）のサンプルと６４（別の数もあり得る）のチャネルを有するようになることがある。

【0187】

見て取れるように、８つの処理ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈ（全体で図６の第１の処理ブロック５０を体現する）は、アップサンプリング（例えば、最大で２回のアップサンプリング）を実行することによってサンプル数を増大させることができる。ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈに沿って、チャネル数は常に同じ（例えば６４）であり続けることもある。サンプルは例えば、秒（またはその他の時間単位）あたりのサンプルの数であることもある。ブロック５０ｈの出力で、２２ｋＨｚ超でサウンドを得ることができる。

【0188】

ブロック５０ａ～５０ｈ（５０）はそれぞれ、ＴＡＤＥＲｅｓＢｌｏｃｋ（時間適応的脱正規化（ＴＡＤＥ）の文脈における残差ブロック）でもあり得る。とりわけ、ブロック５０ａ～５０ｈはそれぞれ、ターゲットデータ１２によってコンディショニングされることがある（例えばテキスト特性、言語特性またはメルスペクトログラム等の音響特性）。

【0189】

第２の処理ブロック４５（図１および図６）においては、１つだけのチャネルしか取得することはできず、多数のサンプルが単一の大きさで取得される。見てわかる通り、（ブロック５０ａ～５０ｈに加え、）（単一のチャネルへと限縮する）別のＴＡＤＥ－ＲｅｓＢｌｏｃｋ４２が使用される。そのうえで、畳み込みレイヤおよび（例えばＴａｎＨ４６であり得る）活性化関数が実行され得る。その後に、音声１６が取得（および、場合によっては記憶、レンダリング、符号化等）される。

【0190】

ブロック５０ａ～５０ｈのうちの少なくとも１つ（または特定の実施例では、それぞれ）は、例えば残差ブロックであり得る。残差ブロックは入力信号１４（ノイズ等）から出力オーディオ信号１６へと進展する信号の残差コンポーネントに対してのみ予測を施す。残差信号は主信号の一部（残差コンポーネント）に過ぎない。例えば、多数の残差信号を互いに加算して、最終出力オーディオ信号１６を取得することができる。

【0191】

図４はブロック５０ａ～５０ｈ（５０）の１つの実施例を示す。見て取れるように、各ブロック５０には第１のデータ５９ａが入力され、これは入力信号１４（またはアップサンプリングブロック３０が出力した、アップサンプリングしたバージョン）または先行するブロックからの出力のいずれかである。例えば、ブロック５０ｂにはブロック５０ａの出力が入力され、ブロック５０ｃにはブロック５０ｂの出力が入力される等、である。

【0192】

従って、図４において、ブロック５０（５０ａ～５０ｈ）に供給される第１のデータ５９ａが処理され、その出力が出力信号６９（後続のブロックに対し入力として供給される）であると見ることができる。線５９ａ’で示される通り、第１の処理ブロック５０ａ～５０ｈに入力される第１のデータ５９ａの主コンポーネントは、第１の処理ブロック５０ａ～５０ｈ（５０）の処理のほとんどを実質上バイパスする。例えば、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６５ａ，６０ｂ，６１ｂ，６２ｂ，６３ｂ，６４ｂ，６５ｂはバイパス線５９ａ’によってバイパスされている。次に第１のデータ５９ａは加算器６５ｃ（図４に記載されているが、図示されていない）において残差部分６４ｂ’に加算される。バイパス線５９ａ’と加算器６５ｃにおける加算は、各ブロック５０（５０ａ～５０ｈ）が残差信号への演算を処理し、そのうえで信号の主部分に加算されることをインスタンス化すると理解することができる。したがって、ブロック５０ａ～５０ｈはそれぞれ、残差ブロックだと見なすことができる。

【0193】

とりわけ加算器６５ｃにおける加算は、必ずしも残差ブロック５０（５０ａ～５０ｈ）内で実行しなければならないというわけではない。複数の残差信号６５ｂ’（それぞれ、残差ブロック５０ａ～５０ｈのそれぞれから出力されている）の加算が１回のみ、（例えば第２の処理ブロック４５の例えば加算ブロックにおいて）実行することができる。したがって、異なる残差ブロック５０ａ～５０ｈは互いに並列して動作することができる。

【0194】

図４の実施例においては、各ブロック５０は畳み込みレイヤを２回繰り返すことができる（例えば、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６４ａ，６５ａのうちの少なくとも１つを含むレプリカ６００で１回目を行って信号５９ｂを取得し、ブロック６０ｂ，６１ｂ，６２ｂ，６３ｂ，６４ｂ，６５ｂのうちの少なくとも１つを含むレプリカ６０１で２回目を行って、主コンポーネント５９ａ’に加算されることがある信号６５ｂ’を取得する）。

【0195】

各レプリカ（６００，６０１）について、入力信号１６からオーディオ出力信号１６に進化する信号に対し、学習可能レイヤ７１～７３のコンディショニングセットおよびスタイル付与要素が（例えば各ブロック５０につき２回）適用される。第１のレプリカ６００の第１のデータ５９ａに対し、第１の時間適応的脱正規化（ＴＡＤＥ）がＴＡＤＥブロック６０ａで行われる。ＴＡＤＥブロック６０ａは、ターゲットデータ１２が設定する条件下で第１のデータ５９ａ（入力信号、または例えば処理済みノイズ）の変調を行う。第１のＴＡＤＥブロック６０ａでは、ターゲットデータ１２のアップサンプリングがアップサンプリングブロック７０で行われ、ターゲットデータ１２のアップサンプリングバージョン１２’が取得される。アップサンプリングは、例えば２の係数、２の累乗、２の倍数その他２よりも大きい値を使用した非線形補間を通じて取得することができる。したがって、一部の実施例においては、スペクトログラム１２’が、スペクトログラムによってコンディショニングされる信号（７６，７６’，ｘ，ｃ，５９，５９ａ，５９ｂ等）と同じ大きさである（例えば、一致する）ことがある。ブロック７７（スタイル付与要素）において、処理済みノイズ（第１のデータ）（７６，７６’，ｘ，ｃ，５９，５９ａ，５９ｂ等）に対しスタイル付与情報の適用が行われることもある。後続のレプリカ６０１においては、別のＴＡＤＥブロック６０ｂが第１のレプリカ６００の出力５９ｂに適用されることがある。ＴＡＤＥブロック６０（６０ａ，６０ｂ）の実施例が図３に示されている（下記も参照のこと）。第１のデータ５９ａを変調させた後、畳み込み６１ａおよび６２ａが実行される。次に、活性化関数ＴａｎＨおよびソフトマックス関数（例えばソフトマックスゲート付きＴａｎＨ関数を構成するもの）が同様に実行される（６３ａ，６４ａ）。活性化関数６３ａおよび６４ａの出力は乗算ブロック６５ａで乗算され（例えばゲート付与をインスタンス化し）、結果５９ｂを取得する。２つの異なるレプリカ６００および６０１を使用する場合（または２つ以上のレプリカを使用する場合）は、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６４ａ，６５ａの通過が繰り返される。

【0196】

実施例において、それぞれＴＡＤＥブロック６０ａおよび６０ｂの下流にある６１ｂおよび６２ｂにおける第１および第２の畳み込みは、カーネル内の同じ数の要素（例えば９、例えば３×３）で行うことができる。ただし、第２の畳み込み６１ｂおよび６２ｂは膨張率２であることがある。実施例においては、畳み込みの最大膨張率は２であることがある。

【0197】

【0198】

スタイル付与要素７７の後に、信号が出力される。畳み込み７２および７３はかならずしも下流に活性化関数があるわけではない。さらに、パラメータγ（７４）はバリアンス、β（７５）はバイアスと理解することができることも指摘される。また、図１のブロック４２は図３のブロック５０としてインスタンス化することができる。そのうえで、例えば畳み込みレイヤ４４がチャネル数を１に削減して、そのうえで、ＴａｎＨ５６が実行されて音声１６が得られる。

【0199】

図７はブロック５０ａ～５０ｈのうちの１つのレプリカ６００および６０１のうちの１つにおける、ターゲットデータ１２（メルスペクトログラム等）および５９ａでも示される、または入力信号１２から生成されたオーディオ信号１６へと進化する信号としての、潜在ノイズｃ（１４）の進化の例を示している。

【0200】

とりわけ、６１ａ，６１ｂ，６２ａ，６２ｂは第１のデータ（例えば、交代で入力信号１４から）から導出されたデータを、ゲート付き活性化関数（第２の活性化関数）である活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ等）を用いて処理するように構成された学習可能レイヤのセットである（またはその一部である）ことがある。この学習可能レイヤのセットは１つまたは２つあるいはそれ以上の畳み込みレイヤから成る場合がある。第２の活性化関数はゲート付き活性化関数（ＴａｎＨおよびソフトマックス等）である場合がある。この特性は、（第１の畳み込み済データ７１’を得るための）第１の活性化関数がＲｅＬｕまたはリーキーＲｅＬＵであることと組み合わせることができる。

【0201】

以下の手順（または少なくとも工程のうちの１つ）が行われることがある。
・テキスト１１２等の入力（情報交換用米国標準コード（ＡＳＣＩＩコード）または他のタイプのコード等）から、ターゲットデータ１２（テキスト特性、言語特性またはメルスペクトログラム等の音響特性）が生成される（異なるタイプのターゲットデータが使用されることがある）。
・ターゲットデータ（例えばメルスペクトログラム）１２が以下の工程のうちの少なくとも１つに付される。
・アップサンプリングブロック７０でアップサンプリングされ、アップサンプリング済みスペクトログラム１２’を取得する。
・畳み込みレイヤ７１～７３（加重レイヤの一部）で畳み込みが実施される（例えばカーネル１２ａがアップサンプリング済スペクトログラム１２’に沿って畳み込まれる）。
・ γ（７４）およびβ（７５）は取得（学習）される。
・ γ（７４）およびβ（７５）が入力信号１４から進化する潜在信号５９ａ（１５）および生成されたオーディオ信号１６に（例えば畳み込みによって）適用される。

【0202】

ＴＴＳ
（例えばブロック１１１０を用いて行われる）テキスト読み上げ（ＴＴＳ）は理解可能で自然に聞こえる音声１６が付与されたテキスト１１２を合成しようとするものである。産業上の可用性は、とりわけ機械対ヒトの通信において広範にわたる。

【0203】

本願発明のオーディオ生成器１０は最終段階に様々なコンポーネント、中でもボコーダー１１２０を含んでおり、またテキスト特性、言語特性または音響特性をオーディオ波形１６に変換するためのブロックを主に含んでいる。

【0204】

とりわけ、ブロック１１１０において、テキスト１１２（入力）が解析され、例えば図９ａに示されるテキスト解析モジュール（サブブロック）１１１２によって、テキスト１１２から言語特性が抽出される。テキスト解析には、例えば、テキスト正規化、語の分割、音韻予測および書記素列から音素列への変換等多数のタスクが含まれることがある（図８も参照のこと）。その後（中間ターゲットデータ２１２の役割を果たし得る）これらの言語特性は、例えば音響モデルを通じて（例えばサブブロック１１１４によって）、図１および図３～８のターゲットデータ１２を構成し得る、ＭＦＣＣ、基本周波数、メルスペクトログラム等の音響特性、あるいはこれらの組み合わせに変換される。

【0205】

このパイプラインは例えばＤＮＮの導入により、エンドツーエンドの処理に置き換えることができることは指摘しておくべきだろう。例えば、（例えば図１０のケースＢおよびＤにおいて）ニューラルボコーダー１１２０を直接言語特性からコンディショニングすることが可能である、あるいは音響モデルがテキスト解析ステージ（図９ａのサブブロック１１１４が使用されない）をバイパスして直接文字を処理することも可能であろう。例えば、Ｔａｃｏｔｒｏｎ１および２等のエンドツーエンドモデルをブロック１１１０で使用してテキスト解析モジュールを単純化して、文字／音素シーケンスを例えば音響特性（ターゲットデータ１２）として例えばメルスペクトログラムの形式で出力する、入力シーケンスとして直接とらえることも可能である。

【0206】

このソリューションはＴＴＳシステム（すなわち、ブロック１１１０および１１２０を両方含むもの）として使用することができ、ここでターゲットデータ１２は一部の実施例では、テキスト１１２から導出された情報ストリームまたは音声表現を含むことがある。表現は例えばテキスト１１２から導出された文字または音素、すなわちテキスト解析ブロックへの通常の入力であり得る。この場合、例えばニューラルボコーダー（ブロック１１２０等）に適した音響特性またはコンディショニング特性（ターゲットデータ１２）を抽出するために、ブロック１１１０に事前にコンディショニングされた（事前コンディショニング）学習レイヤを使用することがある。この事前コンディショニングレイヤ１１１０は、文字や音素を直接音響特性にマッピングするためにエンコーダアテンションデコーダ等のディープニューラルネットワーク（ＤＮＮ）を使用することがある。あるいは、表現（ターゲットデータ）１２は言語特性、つまり韻律、イントネーション、休止等の情報に関連付けられた音韻である、またはこれを含むことがある。あるいは、表現（ターゲットデータ）１２は言語特性、つまり韻律、イントネーション、休止等の情報に関連付けられた音素である、またはこれを含むことがある。この場合、事前コンディショニングされた学習可能レイヤ１１１０は隠れマルコフモデル（ＨＭＭ）、ディープニューラルネットワーク（ＤＮＮ）あるいは回帰型ニューラルネットワーク（ＲＮＮ）等の統計モデルに基づいて言語特性を音響特性にマッピングする音響モデルでありうる。最後に、ターゲットデータ１２はテキスト１１２から導出され、例えば学習可能レイヤまたは決定的事前コンディショニングレイヤ１１１０の後にコンディショニング特性として使用することができる音響特性を直接含むことがある。極端なケース（例えば図１０のケースＦ）では、ターゲットデータ１２内の音響特性をコンディショニング特性およびバイパスされた任意の事前コンディショニングレイヤとして直接使用することができる。
上記により、オーディオ合成ブロック１１１０（テキスト解析ブロック）は一部の実施例では決定的であり得るが、別のケースでは少なくとも１つの学習可能レイヤを介して取得することができる。

【0207】

実施例において、ターゲットデータ１２はログスペクトログラムまたはスペクトログラム、ＭＦＣＣまたはテキスト１１２から取得したメルスペクトログラム等の音響特性を含むことがある。

【0208】

あるいは、ターゲットデータ１２はテキストから取得した音素、語韻律、イントネーション、文章の区切り、または有声休止等の言語特性を含むことがある。

【0209】

ターゲットデータは、テキスト解析および／または音響モデルを含むことがある、統計モデル、学習可能モデルまたはルールベースのアルゴリズムのうちの少なくとも１つを用いてテキストから導出することができる。

【0210】

したがって、概して、テキスト１１２等の入力（例えばテキスト）からターゲットデータ１２を出力（してターゲットデータ１２がテキスト１１２から導出されるように）するオーディオ合成ブロック１１１０は決定的ブロックまたは学習可能ブロックのいずれでもあり得る。

【0211】

概して、ターゲットデータ１２は複数のチャネルを備え、（ターゲットデータ１２が導出される）テキスト１１２は１つしかチャネルがないこともある。

【0212】

図９ａは（生成器１０の実施例でありうる）生成器１０ａの実施例を示している。ここでターゲットデータ１２はログスペクトログラム、またはテキスト１１２から取得したスペクトログラム、ＭＦＣＣまたはメルスペクトログラム等の音響特性のうちの少なくとも１つを含んでいる。ここで、ブロック１１１０は、テキスト１１２から取得した音素、語韻律、イントネーション、文章の区切り、または有声休止等の言語特性のうちの少なくとも１つを含みうる、中間ターゲットデータ２１２を提供するテキスト解析ブロック１１１２を含む。次に、（例えば音響モデルを使用する）オーディオ合成ブロック１１１４がログスペクトログラム、またはテキスト１１２から取得したスペクトログラム、ＭＦＣＣまたはメルスペクトログラム等の音響特性のうちの少なくとも１つとしてターゲットデータ１２を生成する。

【0213】

その後に、（上記波形合成ブロックのうちのいずれかであり得る）波形合成ブロック１１２０を使用して出力オーディオ信号１６を生成することができる。

【0214】

図９ｂは（生成器１０の実施例であり得る）生成器１０ｂの実施例を示す。ここでターゲットデータはテキスト１１２から取得した音素、語韻律、イントネーション、文章の区切り、または有声休止等の言語特性のうちの少なくとも１つを含む。オーディオ信号１６を出力するために波形合成（ボコーダー１１２０等）が使用され得る。波形合成ブロック１１２０は上記に論じた図１～８に記載のうちのどれであってもよい。この場合、例えばターゲットデータは学習可能レイヤ７１～７３のコンディショニングセットに直接取り込んで、γおよびβ（７４および７５）を取得することができる。

【0215】

図９ｃには、（図１～８のいずれかの生成器１０の実施例であり得る）生成器１０ｃの実施例が示されている。ここでは、テキスト１１２がターゲットデータとして直接使用されている。ターゲットデータ１２がテキスト１１２から取得した文字または単語の少なくとも一方を含んでいるので、波形合成ブロック１１２０は上記の実施例のうちの任意のものであり得る。

【0216】

概して、上記のいずれのオーディオ生成器（とりわけテキスト解析ブロック１１１０のうちのいずれ（例えば図８または９ａ～９ｃのうちの任意のもの））も、テキスト解析および／または音響モデルから成る統計モデル、学習可能モデルまたはルールベースのアルゴリズムのうちの少なくとも１つを使用して、テキストからターゲットデータを導出することができる。

【0217】

一部の実施例では、ブロック１１２０によってターゲットデータ１２を決定的に取得することができる。別の実施例では、ターゲットデータ１２は非決定的に取得することができ、ブロック１１１０は学習可能レイヤまたは複数の学習可能レイヤであり得る。

【0218】

ＧＡＮ識別器
学習中、例えば入力信号１２（または入力信号を処理および／または正規化したバージョン）に適用されるパラメータ７４および７５を取得するために、図２のＧＡＮ識別器が使用されることがある。学習は干渉前に行われ、パラメータ７４および７５は、例えば非一時的メモリに格納され、その後に使用することができる（ただし、一部の実施例では、パラメータ７４および７５が作動中に計算されることもあり得る）。

【0219】

ＧＡＮ識別器１００は、生成されたオーディオ信号（例えば上記の通りに合成されたオーディオ信号１６）を実際の入力信号（例えば実音声）１０４からどのように識別するかを学習する役割を有する。したがって、ＧＡＮ識別器１００の役割は主に学習（例えばパラメータ７２および７３の学習）中に発揮され、（ＧＡＮ識別器１００を備えないオーディオ生成器１０と見なすことができる）ＧＡＮ生成器１１の役割の対極と見なされる。

【0220】

概して、ＧＡＮ識別器１００は、ＧＡＮ生成器１０によって合成され生成されたオーディオ信号１６と、例えばマイクロフォンを介して取得された実際のオーディオ信号（例えば実音声）１０４の双方によって入力され、信号を処理して最小化されるメトリック（例えば損失）を取得する。実際のオーディオ信号１０４は基準オーディオ信号と見なすこともできる。学習中、音声１６を合成するための上記に説明したような動作が例えば複数回繰り返され、例えばパラメータ７４および７５が取得されることがある。

【0221】

実施例においては、基準オーディオ信号１０４全体および／または生成されたオーディオ信号１６全体を解析する代わりに、その一部（例えば一部分、スライス、ウィンドウ等）のみを解析することも可能である。生成されたオーディオ信号１６および基準オーディオ信号１０４からサンプリングされたランダムウィンドウ（１０５ａ～１０５ｄ）で生成された信号部分が得られる。例えば、ランダム窓関数を使用して、ウィンドウ１０５ａ，１０５ｂ，１０５ｃ，１０５ｄのどれが使用されるかが先験的に事前設定されていないようにすることができる。また、ウィンドウの数も必ずしも４ではなく、変動することがある。

【0222】

ウィンドウ（１０５ａ～１０５ｄ）において、ＰＱＭＦ（直交ミラーフィルタバンク）１１０が適用されることがある。こうして、サブバンド１２０が得られる。ひいては、生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を分解したもの（１１０）が得られる。

【0223】

評価を実行するために評価ブロック１３０が使用されることがある。複数の評価器１３２ａ，１３２ｂ，１３２ｃ，１３２ｄ（複合的に１３２で示される）が使用されることがある（異なる数が使用されることもある）。概して、ウィンドウ１０５ａ，１０５ｂ，１０５ｃ，１０５ｄはそれぞれ、各評価器１３２ａ，１３２ｂ，１３２ｃ，１３２ｄに入力されうる。ランダムウィンドウ（１０５ａ～１０５ｄ）のサンプリングが各評価器（１３２ａ～１３２ｄ）について複数回繰り返されることがある。実施例では、ランダムウィンドウ（１０５ａ～１０５ｄ）が各評価器（１３２ａ～１３２ｄ）についてサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例することがある。したがって、各評価器（１３２ａ～１３２ｄ）は、生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を入力として受信することがある。

【0224】

評価器１３２ａ～１３２ｄはそれぞれ、ニューラルネットワークそのものであることがある。各評価器１３２ａ～１３２ｄは、とりわけ、畳み込みニューラルネットワークのパラダイムに従うことがある。各評価器１３２ａ～１３２ｄは残差評価器であることもある。各評価器１３２ａ～１３２ｄには、学習中に（例えば上記に説明したものの１つと同様に）適合されるパラメータ（加重等）があることがある。

【0225】

図２に示される通り、各評価器１３２ａ～１３２ｄは（例えば４その他のダウンサンプリング率で）ダウンサンプリングを行う。各評価器１３２ａ～１３２ｄについて、チャネル数が（例えば４倍、または一部の実施例ではダウンサンプリング率と同じ数の倍数分）増大することになる。

【0226】

評価器の上流および下流に、畳み込みレイヤ１３１および／または１３４が設けられることがある。上流畳み込みレイヤ１３１は、例えば大きさが１５（例えば５×３または３×５）のカーネルを備えることがある。下流畳み込みレイヤ１３４は、例えば大きさが３（例えば３×３）のカーネルを備えることがある。

【0227】

学習中、損失関数（敵対的損失）１４０が最適化されることがある。損失関数１４０は生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間に（例えば事前学習工程で取得された）固定のメトリックを含むことがある。固定のメトリックは生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間の１つ以上のスペクトル歪みを計算することによって取得し得る。歪みは
－生成されたオーディオ信号（１６）および基準オーディオ信号（１０４）のスペクトル表現のマグニチュードまたはログマグニチュード、および／または
－異なる時間または周波数解像度
を考慮して測定されるものとする。

【0228】

実施例においては、敵対的損失は生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を１つ以上の評価器（１３２）でランダムに供給・評価することによって得ることができる。評価は供給されたオーディオ信号（１６，１３２）を、事前学習されたオーディオ信号（１４，１６）の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。既定の数の区分は、例えば、「実」対「フェイク」であり得る。

【0229】

【0230】

【0231】

【0232】

他のタイプの最小化が行われることもある。

【0233】

概して、２小敵対的損失１４０はスタイル付与要素７７に適用される最良のパラメータ（７４，７５等）に関連付けられる。

【0234】

検討
本開示の実施例は、添付の図面を用いて詳細に説明されている。とりわけ、以下の記載において、開示の実施例のより網羅的な説明のために多くの細目が記載されている。しかしながら、他の実施例はこれらの特定の細目なしでも実施できることは当業者にとって自明である。本明細書に記載の異なる実施例の特徴は、対応する組み合わせの特徴が相互に排他的でない限り、あるいはかかる組み合わせが明示的に排除されていない限り、互いに組み合わせることができる。

【0235】

同じ機能を持つ同じまたは同様の要素は同じ参照符号で示される、または同じまたは同様の参照符号が与えられている要素の記載により同一のものとして指定される、あるいは典型的には省略されることが指摘される。参照符号が同じまたは同様の要素または同じラベルが付されている要素の記載は、相互に互換である。

【0236】

テキスト読み上げ、音声符号化および音声強調等多くのアプリケーションにおいて、ニューラルボコーダーは自然な高品質の音声合成における従来のアプローチを上回っていることは証明されている。高品質の音声合成のための最初の草分け的な生成ニューラルネットワークはＷａｖｅＮｅｔであった。そしてその後まもなくから、数多くの他のアプローチが開発されてきた。これらのモデルは最高水準の品質を提供しているが、しばしば計算コストが高く合成は非常に遅かった。近年、低計算コストで音声を生成するモデルが多量紹介されている。これらのうちのいくつかは既存のモデルを最適化したバージョンで、他のものは従来の方法との統合を活用したものである。一方で、しばしばＧＡＮに依拠した、完全に新しいアプローチも数多く導入された。ほとんどのＧＡＮボコーダーはＧＰＵでの高速での生成を提供しているが、引き換えに合成音声の品質が損なわれている。

【0237】

本稿の主目的の１つは、我々がＳｔｙｌｅＭｅｌＧＡＮと呼ぶ（そして例えばオーディオ生成器１０に実装することのできる）、極めて高品質の音声１６を低計算コスト且つ迅速な学習により合成することのできるＧＡＮアーキテクチャを提案することである。ＳｔｙｌｅＭｅｌＧＡＮの生成器ネットワークは３８６万の学習可能なパラメータを備え、ＣＰＵでのリアルタイムよりも２．６倍速く、ＧＰＵでは５４倍以上速く、２２．０５ｋＨｚで音声を合成することができる。このモデルは例えば、低次元ノイズベクトル（例えば図１の３０）を生音声波形（例えば１６）に漸次変換する８つのアップサンプリングブロックから成る。合成は、時間適応的脱正規化（ＴＡＤＥ）レイヤ（６０，６０ａ，６０ｂ）を介してすべての生成器ブロック（５０ａ～５０ｈ）に挿入されうる、ターゲット音声のメルスペクトログラムに対して（あるいはより一般的に、ターゲットデータ１２によって）コンディショニングされ得る。このコンディショニング特性を挿入するアプローチは極めて効率的であり、また当方の知識の限りにおいては、オーディオ領域においては新しい。分化可能な偽直交ミラーフィルタバンク（ＰＱＭＦ）１１０の後にそれぞれ動作する４つの識別器１３２ａ～１３２ｄ（ただし一部の実施例では識別器の数は異なり得る）の集合体によって、敵対的損失が（例えば図２の構造を介して、ＧＡＮ識別器１００において）計算される。これにより、学習中に音声信号（１０４またｈ１６）の異なる周波数帯域を解析することができる。学習をよりロバストにし、生成を督励するため、識別器（例えば４つの識別器１３２ａ～１３２ｄ）は生成器１０が使用する入力音響特性によりコンディショニングされることはなく、音声信号（１０４または１６）はランダムウィンドウ（例えば１０５ａ～１０５ｄ）を用いてサンプリングされる。

【0238】

要するに、ＴＡＤＥレイヤ（例えば６０，６０ａ，６０ｂ）を介してメルスペクトルグラム（例えば１２）によりコンディショニングされる高品質の音声合成のための低複雑性のＧＡＮであるＳｔｙｌｅＭｅｌＧＡＮが提案されている。生成器１０は高度に並列可能である。生成器１０は完全に畳み込み式であり得る。上記生成器１０は、マルチスケールスペクトル再構成損失によって正則化されうるＰＱＭＦマルチサンプリングランダムウィンドウ識別器（例えば１３２ａ～１３２ｄ）の集合体によって敵対的に学習させることができる。生成された音声１６の品質は客観的評価（例えばフレシェスコア）および／または主観的評価の双方を用いて評価することができる。コピー合成シナリオについてＭＵＳＨＲＡテスト、ＴＴＳについてはＰ．８００ＡＣＲテストの２つのリスニングテストが行われ、いずれもＳｔｙｌｅＭｅｌＧＡＮが最高水準の音声品質を達成していると確証した。

【0239】

既存のニューラルボコーダーは通常、最終波形の振幅をモデリングすることによって、音声信号を直接時間領域で合成する。これらのモデルのほとんどは生成ニューラルネットワークであり、つまり自然な音声信号において観測された音声サンプルの確立分布をモデリングする。これらは自己回帰的に分割することができ、これによって分布を条件付きの分布と、そうではなく同時分布を直接モデリングする非自己回帰的または並列分布の積に因数分解する。ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮおよびＷａｖｅＲｎｎ等の自己回帰モデルは知覚品質の高い音声信号を合成すると報告されている。非自己回帰モデルの一大流派はＷａｖｅＧｌｏｗ等の正規化流である。ハイブリッドなアプローチは、ノイズ潜在表現とターゲット音声分布との間の因数分解変換を使用する逆自己回帰流の使用である。上記の例は主に自己回帰型ニューラルネットワークに関するものである。

【0240】

オーディオ用ＧＡＮの初期アプリケーションには、条件付けのない音声生成のためのＷａｖｅＧＡＮと、音楽生成のためのＧａｎ－Ｓｙｎｔｈを含む。ＭｅｌＧＡＮは音声セグメントのメルスペクトログラムと対応する時間領域の波形とのマッピングを学習する。リアルタイムよりも速い生成が保証され、スペクトル再構成損失によって正則化されたマルチスケール識別器の敵対的学習を活用する。ＧＡＮ－ＴＴＳは音響特性のコンディショニングがされている音声生成のために専ら敵対的学習を使用する最初のＧＡＮボコーダーである。敵対的損失は、条件付きおよび条件なしのランダムウィンドウ識別器の集合体によって算出される。パラレルＷａｖｅＧＡＮは構造においてＷａｖｅＮｅｔと同様の、マルチスケールスペクトル再構成損失によって正則化された条件なしの識別器を用いて学習させた生成器を使用する。同様のアイディアが、計算能力を節減しながらターゲット音声の各サブバンドを別個に生成し、そのうえで合成ＰＱＭＦを使用して最終波形を取得するマルチバンドＭｅｌＧＡＮで使用されている。そのマルチスケール識別器は全帯域音声波形を評価し、マルチバンドスケールスペクトル再構成損失を用いて正則化される。この分野での研究は非常に活発に行われていて、ＶａｃＧａｎやＨｏｏｌｉＧＡＮ等の最新のＧＡＮボコーダーが挙げられる。

【0241】

【0242】

【0243】

図４はオーディオ生成器１０の一部分の構造を示し、生成器モデルの基本構築ブロックであるＴＡＤＥ－ＲｅｓＢｌｏｃｋ５０（ブロック５０ａ～５０ｈのうちの任意のものであり得る）を図示している。完全なアーキテクチャは図１に示されている。例えばＴＡＤＥＲｅｓＢｌｏｃｋと信号７９ｂを係数２でアップサンプリングするレイヤ６０１、並びに最終活性化モジュール４６（図１では）から成る、８つのアップサンプリングステージ５０ａ～５０ｈが含まれている（他の実施例では、８以外の数であり得る）。最終活性化は１つのＴＡＤＥＲｅｓＢｌｏｃｋ４２とそれに後続する、例えばＴａｎｈ非線形性４６を備えるチャネル変更畳み込みレイヤ４４を含む。この設計により、例えば畳み込み動作のためにチャネル深さ６４を使用することができ、ひいては複雑性を節減することができる。このアップサンプリング手順により、膨張率を２未満に抑えることができる。

【0244】

図２はフィルタバンクランダムウィンドウ識別器（ＦＢ－ＲＷＤ）のアーキテクチャを示している。ＳｔｙｌｅＭｅｌＧＡＮは敵対的学習に複数（例えば４つ）の識別器１３２ａ～１３２ｄを使用することができ、実施例においては、識別器１３２～１３２ｄのアーキテクチャは平均プーリングのダウンサンプリングがない。さらに、各識別器（１３２ａ～１３２ｄ）は入力音声波形（１０４または１６）からスライスされたランダムウィンドウ（１０５ａ～１０５ｄ）に作用することがある。最後に、各識別器（１３２ａ～１３２ｄ）は、解析ＰＱＭＦ（例えば１１０）から取得した入力音声信号（１０４または１６）のサブバンド１２０を解析することがある。より正確には、実施例では、１秒の波形から抽出されたそれぞれ５１２、１０２４、２０４８、４０９６個のサンプルの選択されたランダムなセグメントからそれぞれ計算された１、２、４、および８個のサブバンドを使用することができる。これにより、音声信号（１０４または１６）のマルチ解像度敵対的評価を時間領域および周波数領域の双方で行うことができる。

【0245】

【0246】

以下に、実験で使用されたモデルをリストアップする。
・コピー合成およびテキスト読み上げにおけるターゲット実験にＷａｖｅＮｅｔ
・コピー合成およびテキスト読み上げにおけるターゲット実験にＰＷＧＡＮ
・客観的評価のコピー合成におけるターゲット実験にＭｅｌＧＡＮ
・コピー合成におけるターゲット実験にＷａｖｅＧｌｏｗ
・テキスト読み上げにおけるターゲット実験にＴｒａｎｓｆｏｒｍｅｒ．ｖ３

【0247】

上記に挙げた事前学習済みのベースラインボコーダーモデルに対するＳｔｙｌｅＭｅｌＧＡＮの客観的および主観的評価が行われた。聴取者が行ったＰ．８００リスニングテストを介したオーディオＴＴＳ出力の主観品質が制御された環境で評価された。テストセットは、同じ話者によって録音され、ＬｉｂｒｉＶｏｘオンラインコーパスからランダムに選択された未見の発声を含む。よって、モデルはロバストであり、学習データに主に依存しているわけではない。これらの発声は、わずかに異なる条件下で記録されていて、様々な韻律を呈しているため、モデルの一般化能力をテストするものである。元の発声はＧｒｉｆｆｉｎＬｉｍアルゴリズムを用いて再合成され、通常のアンカー条件の代わりに使用している。これにより、全評価尺度が使用しやすくなる。

【0248】

ＰＥＳＱやＰＯＬＱＡ等の古典的な客観的測定はニューラルボコーダーが生成した音声波形を評価するうえでは信頼できない。その代わり、条件付きフレシェディープ音声距離（ｃＦＤＳＤ）が使用されている。以下の異なるニューラルボコーダーについてのｃＦＤＳＤのスコアは、ＳｔｙｌｅＭｅｌＧＡＮが他のモデルを著しく上回っていることを示している。
・ＭｅｌＧＡＮ学習ｃＦＤＳＤ０．２３５実験ｃＦＤＳＤ０．２２７
・ＰＷＧＡＮ学習ｃＦＤＳＤ０．１２２実験ｃＦＤＳＤ０．１０１
・ＷａｖｅＧｌｏｗ学習ｃＦＤＳＤ０．０９９実験ｃＦＤＳＤ０．０７８
・ＷａｖｅＮｅｔ学習ｃＦＤＳＤ０．１７６実験ｃＦＤＳＤ０．１４０
・ＳｔｙｌｅＭｅｌＧＡＮ学習ｃＦＤＳＤ０．０４４実験ｃＦＤＳＤ０．０６８

【0249】

ＳｔｙｌｅＭｅｌＧＡＮは他の敵対的および非敵対的ボコーダーを上回っていることが見て取れる。

【0250】

１５人の熟練した聴取者のグループによるＭＵＳＨＲＡリスニングテストが行われた。このタイプのテストが選択されたのは、生成された音声品質をより正確に評価できるからである。アンカーはＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムを３２回繰り返すＰｙ－Ｔｏｒｃｈの実装を用いて生成された。図５はＭＵＳＨＲＡテストの結果を示している。ＳｔｙｌｅＭｅｌＧＡＮはおよそ１５ＭＵＳＨＲＡポイント他のボコーダーを大きく上回っていることが見て取れる。結果からは、ＷａｖｅＧｌｏｗはＷａｖｅＮｅｔと同等品質の出力を作り出しているが、パラレルＷａｖｅＧＡＮとは互角であることが見て取れる。

【0251】

オーディオＴＴＳの主観品質は制御環境で３１人の聴取者によって行われたＰ．８００ＡＣＲリスニングテストを通じて評価することができる。テストセットの翻音のメルスペクトルグラムを生成するため、ＥＳＰＮＥＴのＴｒａｎｓｆｏｒｍｅｒ．ｖ３モデルを使用することができる。全評価尺度がより使いやすくなるため、同じＧｒｉｆｆｉｎ－Ｌｉｍのアンカーを追加することもできる。

【0252】

以下の異なるＴＴＳシステムに対するＰ８００平均オピニオン評点（ＭＯＳ）は、ＳｔｙｌｅＭｅｌＧＡＮが明らかに他のモデルを上回っているという同じ知見を示している。
・ＧｒｉｆｆｉｎＬｉｍＰ８００ＭＯＳ：１．３３＋／－０．０４
・Ｔｒａｎｓｆｏｒｍｅｒ＋パラレルＷａｖｅＧＡＮＰ８００ＭＯＳ：３．１９＋／－０．０７
・Ｔｒａｎｓｆｏｒｍｅｒ＋ＷａｖｅＮｅｔＰ８００ＭＯＳ：３．８２＋／－０．０７
・Ｔｒａｎｓｆｏｒｍｅｒ＋ＳｔｙｌｅＭｅｌＧＡＮＰ８００ＭＯＳ：４．００＋／－０．０７
・録音Ｐ８００ＭＯＳ：４．２９＋／－０．０６

【0253】

以下は、異なるパラレルボコーダーモデルの実時間係数（ＲＴＦ）での生成速度とパラメータ数を示す。ＳｔｙｌｅＭｅｌＧＡＮは生成品質と推論速度との間で明確な妥協を呈している。

【0254】

以下に、検討している種々のモデルについて、ＣＰＵ（例えばＩｎｔｅｌＣｏｒｅｉ７－６７００３．４０ＧＨｚ）およびＧＰＵ（例えばＮｖｉｄｉａＧｅＦｏｒｃｅＧＴＸ１０６０）における生成のパラメータ数と実時間係数を示す。
・パラレルＷａｖｅＧＡＮパラメータ：１．４４Ｍ、ＣＰＵ：０．８ｘ、ＧＰＵ：１７ｘ
・ＭｅｌＧＡＮパラメータ：４．２６Ｍ、ＣＰＵ：７ｘ、ＧＰＵ：１１０ｘ
・ＳｔｙｌｅＭｅｌＧＡＮパラメータ：３．８６Ｍ、ＣＰＵ：２．６ｘ、ＧＰＵ：５４ｘ
・ＷａｖｅＧｌｏｗパラメータ：８０Ｍ、－、ＧＰＵ：５ｘ

【0255】

最後に、図５はＭＵＳＨＲＡエキスパートリスニングテストの結果を示している。ＳｔｙｌｅＭｅｌＧＡＮは最新モデルを上回っていることが見て取れる。

【0256】

結論
本稿はハイファイ音声合成のための軽量且つ効率的な敵対的ボコーダーであるＳｔｙｌｅＭｅｌＧＡＮを紹介するものである。このモデルは単に第１のレイヤにコンディショニングを供給する代わりに、すべての生成レイヤに十分かつ正確なコンディショニングを配布するために時間適応型正規化（ＴＡＤＥ：ｔｅｍｐｏｒａｌａｄａｐｔｉｖｅｎｏｒｍａｌｉｚａｔｉｏｎ）を使用する。敵対的学習のために、生成器は時間領域と周波数領域の双方で音声信号のマルチスケール表現を提供するフィルタバンクランダムウィンドウ識別器と競合する。ＳｔｙｌｅＭｅｌＧＡＮは実時間よりも早いマグニチュードの規模でＣＰＵとＧＰＵの双方で動作する。実験の客観的および主観的結果は、ＳｔｙｌｅＭｅｌＧＡＮは先行する敵対的ボコーダー並びに自己回帰ボコーダー、流ベースボコーダーおよび拡散ベースボコーダーを著しく上回り、ニューラル波形生成の新しい最高水準のベースラインをもたらしていることが示されている。

【0257】

最後に、本明細書に記載の実施形態は、本明細書に記載の任意の重要ポイントまたは様態によって随意に捕捉することができる。ただし、本明細書に記載の重要ポイントおよび様態は、個別にまたは組み合わせて使用することができ、また本明細書に記載の任意の実施形態に個別にまたは組み合わせて組み入れることができることが指摘される。

【0258】

一部の様態は装置の文脈で記載されているが、これらの様態は対応する方法の記載をも示すことは明らかであり、装置またはその一部は方法工程または方法工程の特徴に対応する。同様に、方法工程の文脈で記載された様態は対応する装置または装置の一部または対応する装置のアイテムまたは特性も示す。方法工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等、ハードウェア装置によって（または使って）実行することができる。一部の実施形態においては、１つ以上の最重要方法工程がこのような装置によって実行されることがある。

【0259】

一部の実装要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアで実装されることがある。実装は例えば電子的に可読な制御信号が格納され、それぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する（または協働することが可能な）フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリ等のデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

【0260】

本発明にかかる一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の１つが実行されるようにすることができる、電子的に可読な制御信号を備えるデータキャリアを含む。

【0261】

概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることがあり、プログラムコードはコンピュータプログラム製品がコンピュータ上で実行されると、方法の１つを実行するように動作する。プログラムコードは例えば機械可読キャリアに記憶されていることがある。

【0262】

他の実施形態は、機械可読なキャリアに記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

【0263】

言い換えれば、本願発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータで実行されたときに本明細書に記載の方法の１つを実行するためのプログラムコードを備えたコンピュータプログラムである。

【0264】

本願発明の別の実施形態は、従って、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録して含む、データキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は典型的に有形で、非一時的である。

【0265】

本願発明の別の実施形態は、したがって、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して伝送されるように構成されていてもよい。

【0266】

別の実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス等の処理手段を含む。

【0267】

別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

【0268】

本発明にかかる別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信器に（例えば電子的または工学的に）伝送するように構成された装置またはシステムを含む。受信器は例えばコンピュータ、モバイルデバイス、メモリデバイス等であり得る。装置またはシステムは、例えばコンピュータプログラムを受信器に伝送するためのファイルサーバを含むことがある。

【0269】

一部の実施形態では、本明細書に記載の方法の機能の一部または全部を実行するためにプログラマブルな論理デバイス（例えばフィールドプログラマブルゲートアレイ）が使用されることがある。一部の実施形態では、フィールドプログラマブルゲートアレイは本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働することがある。該して、方法は好ましくは任意のハードウェア装置によって実行される。

【0270】

本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実装されることがある。本明細書に記載の装置または本明細書に記載の装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることがある。本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実行されることがある。本明細書に記載の方法または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実行されることがある。

【0271】

上記の実施形態は本発明の原則を単に例証するものである。本明細書に記載の構成および細目の修正および改変は、当業者には自明と理解されるものとする。したがって、本願特許請求の範囲によって限定され、本明細書に記載の実施例の記載および説明によって示される具体的な細目によって限定されないものとする。

【0272】

先行技術文献
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
R. Prenger, R. Valle, and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617？3621.
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, et al., "SampleRNN: An Unconditional End-to-End Neural Audio Generation Model," arXiv:1612.07837, 2016.
N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, et al., "Efficient neural audio synthesis," arXiv:1802.08435, 2018.
A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, et al., "Parallel WaveNet: Fast High-Fidelity Speech Synthesis," in Proceedings of the 35th ICML, 2018, pp. 3918？3926.
J. Valin and J. Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 5891？5895.
K. Kumar, R. Kumar, de T. Boissiere, L. Gestin, et al., "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis," in Advances in NeurIPS 32, pp. 14910？14921. 2019.
R. Yamamoto, E. Song, and J. Kim, "Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6199？6203.
M. Bin´kowski, J. Donahue, S. Dieleman, A. Clark, et al., "High Fidelity Speech Synthesis with Adversarial Networks," arXiv:1909.11646, 2019.
T. Park, M. Y. Liu, T. C. Wang, and J. Y. Zhu, "Se-mantic Image Synthesis With Spatially-Adaptive Normalization," in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
P. Govalkar, J. Fischer, F. Zalkow, and C. Dittmar, "A Comparison of Recent Neural Vo-coders for Speech Signal Reconstruction," in Proceedings of the ISCA Speech Synthesis Workshop, 2019, pp. 7？12.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, et al., "Generative Adversarial Nets," in Advances in NeurIPS 27, pp. 2672？2680. 2014.
C. Donahue, J. McAuley, and M. Puckette, "Adversarial Audio Synthesis," arXiv:1802.04208, 2018.
J. Engel, K. K. Agrawal, S. Chen, I. Gulrajani, et al., "GANSynth: Adversarial Neural Au-dio Synthesis," arXiv:1902.08710, 2019.
G. Yang, S. Yang, K. Liu, P. Fang, et al., "Multiband MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech," arXiv:2005.05106, 2020.
J. Yang, J. Lee, Y. Kim, H. Cho, and I. Kim, "VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network," arXiv:2007.15256, 2020.
Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, "Hifi-gan: Generative adversarial net-works for efficient and high fidelity speech synthesis," arXiv preprint arXiv:2010.05646, 2020.
D. Ulyanov, A. Vedaldi, and V. Lempitsky, "Instance normalization: The missing ingredient for fast stylization," arXiv:1607.08022, 2016.
A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml, and A. Maier, "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding," in Proc. Inter-speech, 2019, pp. 191？195.
T. Q. Nguyen, "Near-perfect-reconstruction pseudo-QMF banks," IEEE Transactions on Signal Processing, vol. 42, no. 1, pp. 65？76, 1994.
T. Salimans and D. P. Kingma, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," in Advances in NeurIPS, 2016, pp. 901？909.
K. Ito and L. Johnson, "The LJ Speech Dataset," https://keithito.com/LJ-Speech-Dataset/, 2017.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv:1412.6980, 2014.
T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, et al., "Espnet-tts: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7654？7658.
A. Gritsenko, T. Salimans, R. van den Berg, J. Snoek, and N. Kalchbrenner, "A Spectral Energy Distance for Parallel Speech Synthesis," arXiv:2008.01160, 2020.
“P.800: Methods for subjective determination of transmission quality," Standard, International Telecommunication Union, 1996.

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9a】

【図9b】

【図9c】

【図10】

【手続補正書】

【提出日】2023-06-15

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記ターゲットデータ（１２）はスペクトログラムである、請求項１に記載のオーディオ生成器。

【請求項3】

前記ターゲットデータ（１２）はメルスペクトログラムである、請求項１または請求項２に記載のオーディオ生成器。

【請求項4】

前記ターゲットデータ（１２）は、ログスペクトログラム、ＭＦＣＣ、メルスペクトログラムまたはテキストから取得されたその他のタイプのスペクトログラムのうちの少なくとも１つの音響特性を備える、請求項１ないし請求項３のいずれか１項に記載のオーディオ生成器。

【請求項5】

【請求項6】

【請求項7】

前記ターゲットデータ（１２）は、テキストから取得した音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つの言語特性を備える、請求項１ないし請求項６のいずれか１項に記載のオーディオ生成器。

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

前記ターゲットデータ（１２）は、テキスト解析を行うルールベースアルゴリズム、および／または音響モデルを使用してテキスト（１１２）から導出される、請求項１ないし請求項１１のいずれか１項に記載のオーディオ生成器。

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

前記オーディオ信号（１６）は音声オーディオ信号である、請求項１ないし請求項１８のいずれか１項に記載のオーディオ生成器。

【請求項20】

【請求項21】

前記ターゲットデータ（１２）は非線形補間でアップサンプリング（７０）される、請求項２０に記載のオーディオ生成器。

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

入力信号（１４）およびターゲットデータ（１２）からオーディオ生成器（１０）によってオーディオ信号（１６）を生成するための方法であって、前記ターゲットデータ（１２）は前記オーディオ信号（１６）を表し且つテキストから導出される、方法であって、
第１の処理ブロック（５０，５０ａ～５０ｈ）によって、前記入力信号（１４）から導出された第１のデータ（１５，５９，５９ａ，５９ｂ）を受信するステップと、
前記第１の出力データ（５９ｂ，６９）の各チャネルについて、
前記第１の処理ブロック（５０）の学習可能レイヤのコンディショニングセット（７１，７２，７３）によって前記ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するステップと、
前記第１の処理ブロック（５０）のスタイル付与要素（７７）によって、前記コンディショニング特性パラメータ（７４，７５）を前記第１のデータ（１５，５９ａ）または前記第１のデータを正規化したもの（７６’）に適用するステップと、
前記第１の処理ブロック（５０）によって、複数のチャネル（４７）を含む第１の出力データ（６９）を出力するステップと、
第２の処理ブロック（４５）によって前記第１の出力データ（６９）または前記第１の出力データ（６９）から導出されたデータを第２のデータとして受信するステップと、
前記第２の処理ブロック（４５）によって、前記第２のデータの前記複数のチャネル（４７）を結合して前記オーディオ信号（１６）を取得するステップと、
を含む方法。

【請求項27】

【請求項28】

【請求項29】

【請求項30】

前記ターゲットデータ（１２）は、テキストから取得した音素、語韻律、イントネーション、文章の区切り、有声休止のうちの少なくとも１つの言語特性を備える、請求項２６ないし請求項２９のいずれか１項に記載のオーディオ信号を生成するための方法。

【請求項31】

【請求項32】

【請求項33】

【請求項34】

【請求項35】

【請求項36】

【請求項37】

【請求項38】

【請求項39】

【請求項40】

【請求項41】

【請求項42】

【請求項43】

【請求項44】

【請求項45】

【請求項46】

【請求項47】

【請求項48】

【請求項49】

【請求項50】

【請求項51】

前記スペクトログラムはメルスペクトログラムである、請求項５０に記載の方法。

【請求項52】

【請求項53】

コンピュータで実行されると、コンピュータに請求項２６ないし請求項５２のいずれかに記載の方法を実行させる命令を格納した、非一時的記憶ユニット。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版