特開2023-30349 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特開2023-30349オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023030349

(43)【公開日】2023-03-08

(54)【発明の名称】オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム

(51)【国際特許分類】

G10L 13/06 20130101AFI20230301BHJP

【ＦＩ】

G10L13/06 120Z

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021135430

(22)【出願日】2021-08-23

(71)【出願人】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】100143498

【弁理士】

【氏名又は名称】中西健

(74)【代理人】

【識別番号】100136319

【弁理士】

【氏名又は名称】北原宏修

(72)【発明者】

【氏名】岡本拓磨

(72)【発明者】

【氏名】戸田智基

(72)【発明者】

【氏名】河井恒

(57)【要約】

【課題】高速処理が可能なＧＰＵを用いることなく、高品質なオーディオ生成処理を高速に実現するオーディオデータ生成装置を実現する。
【解決手段】オーディオデータ生成装置１００では、マルチストリーム生成部１により複数のストリームデータを取得する構成を有し、さらに、学習可能な畳み込み処理部３を導入したことにより、高精度なオーディオデータ識別装置Ｄｅｖ＿Ｄとの敵対的学習が可能となる。そして、当該敵対的学習により取得されたオーディオデータ生成装置１００により、高速かつ高精度なオーディオデータ生成処理を行うことができる。さらに、オーディオデータ生成装置１００は、シンプルな構成を有しているので、高速処理が可能なＧＰＵを用いることなく、高品質なオーディオデータ生成処理（例えば、音声合成処理）を高速に実現することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

学習可能な機能部を含み、メルスペクトログラムデータから、複数のストリームデータを取得するマルチストリーム生成部と、
前記複数のストリームデータのそれぞれに対してアップサンプリング処理を行うことで、アップサンプリングマルチストリームデータを取得するアップサンプリング部と、
畳み込み処理を決定するためのパラメータについて学習可能な畳み込み処理部であって、前記アップサンプリングマルチストリームデータに対して畳み込み処理を実行することで、オーディオ波形データを取得する前記畳み込み処理部と、
を備えるオーディオデータ生成装置。

【請求項2】

前記畳み込み処理部は、バイアスなしの畳み込み処理を行う、
請求項１に記載のオーディオデータ生成装置。

【請求項3】

前記アップサンプリング部は、ゼロ挿入型アップサンプリング処理を行う、
請求項１または２に記載のオーディオデータ生成装置。

【請求項4】

請求項１から３のいずれかに記載のオーディオデータ生成装置と、
学習可能な機能部を含み、オーディオデータの大局特徴に基づいて、オーディオデータの真偽を識別する大局特徴識別器と、
学習可能な機能部を含み、オーディオデータの詳細特徴に基づいて、オーディオデータの真偽を識別する詳細特徴識別器と、
を備えるオーディオデータ識別装置とを用いて実行されるオーディオデータ生成装置の敵対的学習方法であって、
前記オーディオデータ生成装置により生成されたオーディオデータ、または、当該オーディオデータの正解データを前記オーディオデータ識別装置に入力し、前記オーディオデータ識別装置により、入力データの真偽を識別させる識別ステップと、
前記識別ステップの結果データに基づいて、損失関数による損失評価データを取得する損失評価ステップと、
前記損失評価ステップで取得された前記損失評価データに基づいて、前記オーディオデータ生成装置の前記畳み込み処理部のパラメータおよび前記マルチストリーム生成部の前記学習可能な機能部のパラメータを更新する生成器パラメータ更新ステップと、
前記損失評価ステップで取得された前記損失評価データに基づいて、前記オーディオデータ識別装置の前記大局特徴識別器の前記学習可能な機能部のパラメータを更新するとともに、前記オーディオデータ識別装置の前記詳細特徴識別器の前記学習可能な機能部のパラメータを更新する識別器パラメータ更新ステップと、
を備えるオーディオデータ生成装置の敵対的学習方法。

【請求項5】

請求項１から３のいずれかに記載のオーディオデータ生成装置の学習方法であって、
前記オーディオデータ生成装置に入力されるメルスペクトログラムに対応するオーディオデータと、前記オーディオデータ生成装置において、入力されたメルスペクトログラムから生成された生成オーディオデータとの損失を、短期間フーリエ変換損失関数により評価するＳＴＦＴ損失評価ステップと、
前記ＳＴＦＴ損失評価ステップでの評価結果に基づいて、前記オーディオデータ生成装置の前記畳み込み処理部のパラメータおよび前記マルチストリーム生成部の前記学習可能な機能部のパラメータを更新する生成器パラメータ更新ステップと、
を備えるオーディオデータ生成装置の学習方法。

【請求項6】

テキストデータからメルスペクトラムデータを出力するオーディオ処理装置と、
請求項１から３のいずれかに記載のオーディオデータ生成装置と、
を備える音声合成処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオデータ合成技術（例えば、音声合成技術）に関する。

【背景技術】

【0002】

近年、ニューラルネットワークを用いた音声合成技術は、進展を遂げ、自然音声とほぼ変わらない高品質な音声合成が可能になっている。多くのニューラルネットワークを用いた音声合成技術において、音声合成処理をリアルタイムに行うためには高速なＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）演算が必要である。しかし、実サービスとして普及させるためには、ＧＰＵを必要とせず、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のみで高速かつ高品質に音声合成可能な技術の実現が重要である。

【0003】

ＣＰＵを用いて高速かつ高品質なニューラルボコーダを実現する技術として、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮ（非特許文献１を参照）とＨｉＦｉ－ＧＡＮ（非特許文献２を参照）がある。両者はともに、敵対的生成ネットワークに基づく方式であり、生成器と識別器とを同時に学習させる方式（敵対的学習型ニューラルボコーダ）である。生成器は、識別器を騙すように学習され、識別器は、学習に用いた音声波形を本物と判定し、生成器から生成された音声波形を偽物と判定するように学習される、つまり、識別器は、高精度に本物のデータと偽物のデータとを区別するように学習される。

【0004】

Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮの前身であるＭｅｌＧＡＮ（非特許文献３を参照）は、入力された音響特徴量を数段のアップサンプリング層と畳み込み層によって音声波形へと変換する生成器を用いる方式である。Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮでは、従来のＭｅｌＧＡＮを高速化するために、マルチレート信号処理に基づくサブバンド処理を用いてフル帯域の音声信号を複数のサブバンド信号（＝マルチバンド信号）へと分割し、生成器は分割された複数の帯域の音声波形（サブバンド信号）を同時に生成し、生成したサブバンド信号に対してゼロ挿入型アップサンプリング処理を施した後、あらかじめ計算しておいた合成フィルタ（ＦＩＲフィルタ）により、ゼロ挿入型アップサンプリング処理後の信号から、フル帯域音声信号を生成する。この場合、識別器は、（１）マルチバンド信号の短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）振幅損失、（２）フル帯域信号のＳＴＦＴ振幅損失、および、（３）識別器の識別結果である識別損失により学習される。これにより、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮでは、最後のアップサンプリング処理（例えば、４分割したサブバンド信号を用いる場合、データ数を４倍にするアップサンプリング処理）が単純なゼロ挿入処理とＦＩＲフィルタ処理へと簡略化される。その結果、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮでは、ＭｅｌＧＡＮの音声合成精度を維持しつつ、高速化を可能としている。

【0005】

一方、ＨｉＦｉ－ＧＡＮは、ＭｅｌＧＡＮと同様に、数段のアップサンプリング層と畳み込み層からなる生成器と、２種類の識別器とから構成される。最初の層のチャネル数が５１２の生成器をＶ１生成器と呼び、最初の層のチャネル数が１２８の生成器をＶ２生成器と呼ぶ。

【0006】

Ｖ１生成器は、高音質な音声合成処理が可能であり、かつ、複数のＣＰＵコアを用いることによりリアルタイムで音声を生成（音声合成）することが可能である。Ｖ２生成器は、Ｖ１生成器ほど高精度な音声を生成（音声合成）することはできないが、１つのＣＰＵコアでもリアルタイムファクター（１秒の音声を生成するのに要する時間）約０．１程度で高速な音声合成が可能である。

【0007】

ＨｉＦｉ－ＧＡＮでは、Ｍｕｌｔｉ－ｐｅｒｉｏｄｄｉｓｃｒｉｍｉｎａｔｏｒとＭｕｌｔｉ－ｓｃａｌｅｄｉｓｃｒｉｍｉｎａｔｏｒという２つの識別器を導入することにより、音声波形の周期パターンおよび連続性、並びに、音声波形の長期依存性をそれぞれ高精度にモデル化できる。このため、ＨｉＦｉ－ＧＡＮでは、洗練されたネットワーク（音声波形の多様な特徴（大局的特徴および局所的特徴）を考慮したモデル（ニューラルネットワーク））により、高速処理を可能とし、かつ、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮよりも高品質な音声合成処理を実現できる。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】G. Yang, S. Yang, K. Liu, P. Fang, W. Chen, and L. Xie, "Multi-band MelGAN: Faster waveform generation for high-quality text-to-speech," in Proc. SLT, Jan. 2021, pp. 492-498.

【非特許文献2】J. Kong, J. Kim, and J. Bae, "HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis," in Proc. NeurIPS, Dec. 2020, pp. 17022-17033.

【非特許文献3】K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, W. Z. Teoh, J. Sotelo, A. de Bre bisson, Y. Bengio, and A. C Courville, "MelGAN: Generative adversarial networks for conditional waveform synthesis," in Proc. NeurIPS, Dec. 2019, pp. 14910- 14921.

【発明の概要】

【発明が解決しようとする課題】

【0009】

ＨｉＦｉ－ＧＡＮは、高品質な音声を高速で生成（合成）することが可能であるが、音質と生成速度（音声合成処理速度）との間にはトレードオフの関係がある。すなわち、ＨｉＦｉ－ＧＡＮのＶ１生成器（Ｖ１モデル）では、生成される音声は高品質であるが生成速度（音声合成処理速度）はそれほど速くはない。一方、Ｖ２生成器（Ｖ２モデル）では、生成速度（音声合成処理速度）はＭｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮと同様に高速であるが、生成される音声の品質（音質）はそれほど高くはなく、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮと同程度である。

【0010】

高品質な音声合成処理を高速に実現するための単純な解決策として、マルチバンド生成アルゴリズムをＨｉＦｉ－ＧＡＮに導入する方式が考えられるため、予備実験において、この方式の検討を行った。しかしながら、マルチバンド生成アルゴリズムをＨｉＦｉ－ＧＡＮに導入する方式では、生成器の損失を下げることができず、うまく学習できないという問題があることが分かった。マルチバンド生成アルゴリズムをＨｉＦｉ－ＧＡＮに導入する方式において、生成器の損失を下げることができず、うまく学習できない理由は、ＨｉＦｉ－ＧＡＮの２つの識別器は識別能力が非常に高いため、マルチバンドという制約が入った時点で偽物であると識別可能となるためである。Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮで用いられている、ＳＴＦＴ振幅損失のみを用いた事前学習を用いたとしても、検討の結果、やはりうまく学習することはできないことが分かった。

【0011】

そこで本発明は、上記課題に鑑み、高速処理が可能なＧＰＵを用いることなく、高品質なオーディオ生成処理（例えば、音声合成処理）を高速に実現するオーディオデータ生成装置を実現することを目的とする。

【課題を解決するための手段】

【0012】

上記課題を解決するための第１の発明は、マルチストリーム生成部と、アップサンプリング部と、畳み込み処理部と、を備えるオーディオデータ生成装置である。

【0013】

マルチストリーム生成部は、学習可能な機能部を含み、メルスペクトログラムデータから、複数のストリームデータを取得する。

【0014】

アップサンプリング部は、複数のストリームデータのそれぞれに対してアップサンプリング処理を行うことで、アップサンプリングマルチストリームデータを取得する。

【0015】

畳み込み処理部は、畳み込み処理を決定するためのパラメータについて学習可能であり、アップサンプリングマルチストリームデータに対して畳み込み処理を実行することで、オーディオ波形データを取得する。

【0016】

このオーディオデータ生成装置では、マルチストリーム生成部により複数のストリームデータ（例えば、４つのデータ駆動分解データ（オーディオ波形データ））を取得する構成を有し、さらに、学習可能な畳み込み処理部３を導入したことにより、高精度なオーディオデータ識別装置との敵対的学習が可能となる。そして、当該敵対的学習により取得されたオーディオデータ生成装置により、高速かつ高精度なオーディオデータ生成処理を行うことができる。さらに、このオーディオデータ生成装置は、シンプルな構成を有しているので、高速処理が可能なＧＰＵを用いることなく、高品質なオーディオデータ生成処理（例えば、音声合成処理）を高速に実現することができる。

【0017】

第２の発明は、第１の発明であって、畳み込み処理部は、バイアスなしの畳み込み処理を行う。

【0018】

これにより、このオーディオデータ生成装置では、畳み込み処理部の構成がＦＩＲフィルタの構成と同様の構成とすることができる。

【0019】

第３の発明は、第１または第２の発明であって、アップサンプリング部は、ゼロ挿入型アップサンプリング処理を行う。

【0020】

これにより、このオーディオデータ生成装置では、シンプルな構成によりアップサンプリング処理を実行できるため、高速処理が可能となる。

【0021】

第４の発明は、第１から第３のいずれかの発明であるオーディオデータ生成装置と、
学習可能な機能部を含み、オーディオデータの大局特徴に基づいて、オーディオデータの真偽を識別する大局特徴識別器と、
学習可能な機能部を含み、オーディオデータの詳細特徴に基づいて、オーディオデータの真偽を識別する詳細特徴識別器と、
を備えるオーディオデータ識別装置とを用いて実行されるオーディオデータ生成装置の敵対的学習方法である。オーディオデータ生成装置の敵対的学習方法は、識別ステップと、損失評価ステップと、生成器パラメータ更新ステップと、識別器パラメータ更新ステップと、を備える。

【0022】

識別ステップは、オーディオデータ生成装置により生成されたオーディオデータ、または、当該オーディオデータの正解データをオーディオデータ識別装置に入力し、オーディオデータ識別装置により、入力データの真偽を識別させる。

【0023】

損失評価ステップは、識別ステップの結果データに基づいて、損失関数による損失評価データを取得する。

【0024】

生成器パラメータ更新ステップは、損失評価ステップで取得された損失評価データに基づいて、オーディオデータ生成装置の畳み込み処理部のパラメータおよびマルチストリーム生成部の学習可能な機能部のパラメータを更新する。

【0025】

識別器パラメータ更新ステップは、損失評価ステップで取得された損失評価データに基づいて、オーディオデータ識別装置の大局特徴識別器の学習可能な機能部のパラメータを更新するとともに、オーディオデータ識別装置の詳細特徴識別器の学習可能な機能部のパラメータを更新する。

【0026】

このオーディオデータ生成装置の敵対的学習方法では、大局特徴識別器と、詳細特徴識別器と、を備え、強力な識別能力を有するオーディオデータ識別装置を用いて、敵対的学習を行うので、学習処理後のオーディオデータ生成装置では、高精度なオーディオデータを生成することが可能となる。また、このオーディオデータ生成装置の敵対的学習方法では、オーディオデータ生成装置が、複数のストリームを生成するマルチストリーム生成部と、アップサンプリング後のデータに対して学習可能な畳み込み処理部とを備えているので、強力な識別能力を有するオーディオデータ識別装置を用いて、敵対的学習を行う場合であっても、効率的に学習が進み、確実に収束させることができる。

【0027】

第５の発明は、第１から第３のいずれかの発明であるオーディオデータ生成装置の学習方法であって、ＳＴＦＴ損失評価ステップと、生成器パラメータ更新ステップと、を備える。

【0028】

ＳＴＦＴ損失評価ステップは、オーディオデータ生成装置に入力されるメルスペクトログラムに対応するオーディオデータと、オーディオデータ生成装置において、入力されたメルスペクトログラムから生成された生成オーディオデータとの損失を、短期間フーリエ変換損失関数により評価する。

【0029】

生成器パラメータ更新ステップは、ＳＴＦＴ損失評価ステップでの評価結果に基づいて、オーディオデータ生成装置の畳み込み処理部のパラメータおよびマルチストリーム生成部の学習可能な機能部のパラメータを更新する。

【0030】

これにより、このオーディオデータ生成装置の学習方法では、短期間フーリエ変換損失関数を用いた評価値（損失値）により、オーディオデータ生成装置の学習処理を行うことができる。また、例えば、このオーディオデータ生成装置の学習方法による学習処理を、オーディオデータ生成装置のオーディオデータ識別装置を用いた敵対的学習の事前学習として採用するようにしてもよい。

【0031】

第６の発明は、テキストデータからメルスペクトラムデータを出力するオーディオ処理装置と、第１から第３のいずれかの発明であるオーディオデータ生成装置と、を備える音声合成処理システムである。

【0032】

この音声合成処理システムでは、高速なＧＰＵを用いることなくＣＰＵを用いて、メルスペクトログラムから音声波形データを生成できるオーディオデータ生成装置を用いているので、高速なＧＰＵを用いることなくＣＰＵを用いて、高速、高精度な音声合成処理を行うことができる。

【発明の効果】

【0033】

本発明によれば、高速処理が可能なＧＰＵを用いることなく、高品質なオーディオ生成処理（例えば、音声合成処理）を高速に実現するオーディオデータ生成装置を実現することができる。

【図面の簡単な説明】

【0034】

【図1】第１実施形態に係るオーディオデータ処理システム１０００の概略構成図。

【図2】第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ生成装置１００のマルチストリーム生成部１の概略構成図。

【図3】第１実施形態に係るオーディオデータ生成装置１００のマルチストリーム生成部１の第１ＭＲＦ処理部１２２の概略構成図。

【図4】第１実施形態に係る第１ＭＲＦ処理部１２２の残差ブロック群１２２１の構成要素（ＲｅｓＢｌｏｃｋ［ｎ］）の概略構成図。

【図5】第１実施形態に係るオーディオデータ識別装置Ｄｅｖ＿Ｄの大局特徴識別部ＤＤ１の概略構成図。

【図6】第１実施形態に係るオーディオデータ識別装置Ｄｅｖ＿Ｄの詳細特徴識別部ＤＤ２の概略構成図。

【図7】オーディオデータ処理システム１０００で実行される学習処理のフローチャート。

【図8】ＣＰＵバス構成を示す図。

【発明を実施するための形態】

【0035】

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

【0036】

＜１．１：オーディオデータ処理システムの構成＞
図１は、第１実施形態に係るオーディオデータ処理システム１０００の概略構成図である。

【0037】

図２は、第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ生成装置１００のマルチストリーム生成部１の概略構成図である。

【0038】

図３は、第１実施形態に係るオーディオデータ生成装置１００のマルチストリーム生成部１の第１ＭＲＦ処理部１２２の概略構成図である。

【0039】

図４は、第１実施形態に係る第１ＭＲＦ処理部１２２の残差ブロック群１２２１の構成要素（ＲｅｓＢｌｏｃｋ［ｎ］）の概略構成図である。

【0040】

図５は、第１実施形態に係るオーディオデータ識別装置Ｄｅｖ＿Ｄの大局特徴識別部ＤＤ１の概略構成図である。

【0041】

図６は、第１実施形態に係るオーディオデータ識別装置Ｄｅｖ＿Ｄの詳細特徴識別部ＤＤ２の概略構成図である。

【0042】

オーディオデータ処理システム１０００は、図１に示すように、オーディオデータ生成装置１００と、生成データ評価部Ｇ＿Ｅｖと、セレクタＳＥＬ１と、オーディオデータ識別装置Ｄｅｖ＿Ｄと、識別データ評価部Ｄ＿Ｅｖと、更新データ選択処理部Ｇ＿ｕｐｄとを備える。

【0043】

（１．１．１：オーディオデータ生成装置）
オーディオデータ生成装置１００は、図１に示すように、マルチストリーム生成部１と、アップサンプリング部２と、畳み込み処理部３とを備える。オーディオデータ生成装置１００は、メルスペクトログラムのデータであるデータＤｉｎを入力とし、データＤｉｎに対して、オーディオデータ生成処理を実行し、オーディオ波形データＤｏｕｔを取得（出力）する。

【0044】

マルチストリーム生成部１は、図２に示すように、第１畳み込み処理部１１と、ＭＲＦ部１２と、第１活性化処理部１３と、第２畳み込み処理部１４と、第２活性化処理部１５とを備える。

【0045】

第１畳み込み処理部１１は、メルスペクトログラムのデータであるデータＤｉｎを入力し、データＤｉｎに対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）（データＤｉｎ（メルスペクトラムデータを２次元データとみなして、１次元畳み込み処理））を実行する。そして、第１畳み込み処理部１１は、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤ１１としてＭＲＦ部に出力する。なお、第１畳み込み処理部１１で実行される１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）は、例えば、カーネルサイズを「７」（７サンプルに相当）とし、チャネル数を「５１２」として実行される。

【0046】

ＭＲＦ部１２は、図２に示すように、第１アップサンプリング部１２１と、第１ＭＲＦ処理部１２２と、第２アップサンプリング部１２３と、第２ＭＲＦ処理部１２４とを備える。

【0047】

第１アップサンプリング部１２１は、第１畳み込み処理部１１から出力されるデータＤ１１を入力し、データＤ１１に対してアップサンプリング処理を行う。第１アップサンプリング部１２１は、アップサンプリング処理後のデータをデータＤ１２として第１ＭＲＦ処理部１２２に出力する。なお、第１アップサンプリング部１２１で実行されるアップサンプリング処理は、例えば、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数を「２５６」として実行される。アップサンプリング処理の方式としては、例えば、以下のものを採用するようにすればよい。
（１）サブピクセル畳み込み処理によるアップサンプリング処理
例えば、カーネルサイズを「３」として、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）を実行し、その後、リシェイプ（Ｒｅｓｈａｐｅ）処理を行うことでアップサンプリング処理を実現する。なお、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数が「２５６」となるように、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）のチャネル数、および、リシェイプ（Ｒｅｓｈａｐｅ）処理の長さ（Ｌｅｎｇｔｈ）、チャネル数を調整すればよい。
（２）転置畳み込み処理（Transposed Convolution）によるアップサンプリング処理
例えば、ｎ×１のカーネルを用いて、ストライドをｎ／２とした転置畳み込み処理（Transposed Convolution）を行うことでアップサンプリング処理を実現する。なお、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数が「２５６」となるように、転置畳み込み処理のカーネルサイズを決定するｎおよびチャネル数を調整すればよい。
（３）インターポーレートおよび１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）によるサンプリング処理
例えば、インターポーレート処理（例えば、隣接するサンプルを内挿する処理）を行い、さらに、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）を実行することで、アップサンプリング処理を実現する。なお、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数が「２５６」となるように、インターポーレート処理の内挿するサンプル数、および、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）のカーネルサイズ、チャネル数を調整すればよい。

【0048】

第１ＭＲＦ処理部１２２は、例えば、図３に示すように、残差ブロック群１２２１と、加算部１２２２とを備える。

【0049】

残差ブロック群１２２１は、図３に示すように、それぞれ、第１アップサンプリング部１２１から出力されるデータＤ１２を入力する複数の残差ブロックＲｅｓＢｌｏｃｋ［１］～ＲｅｓＢｌｏｃｋ［｜ｋ_ｒ｜］を備える。

【0050】

残差ブロックＲｅｓＢｌｏｃｋ［ｎ］（１≦ｎ≦｜ｋ_ｒ｜）（｜ｋ_ｒ｜は、配列ｋ_ｒの要素数（配列数）を表す）は、図４に示すように、ブロックＢＬ１を複数個（｜Ｄｒ［ｎ］｜個）連続して接続した構成を有している。

【0051】

ブロックＢＬ１は、複数個（｜Ｄｒ［ｎ，ｍ］｜個）連続して接続したブロックＢＬ２と、データＤ１２と最終段のブロックＢＬ２の出力とを加算する加算器Ａｄｄ１とを備える。

【0052】

ブロックＢＬ２は、図４に示すように、活性化処理部ＢＬ２１と、畳み込み処理部ＢＬ２２とを備える。

【0053】

活性化処理部ＢＬ２１は、ＬｅａｋｙＲｅＬＵ関数による活性化処理を行う機能部である（図４で「ＬｅａｋｙＲｅＬＵ」で示した機能部）。

【0054】

畳み込み処理部ＢＬ２は、ｋ_ｒ［ｎ］×１のカーネルによる畳み込み処理を行う機能部（図４で「ｋ_ｒ［ｎ］×１Ｃｏｎｖ」で示した機能部）である。なお、畳み込み処理部ＢＬ２は、ダイレーション（dilation）をＤｒ［ｎ，ｍ，Ｌ］として、ｋ_ｒ［ｎ］×１のカーネルにより、前段の活性化処理部ＢＬ２１からの出力データに対して畳み込み処理を行う。

【0055】

例えば、ｋ_ｒ、Ｄｒを以下のように設定した場合について、説明する。
ｋ_ｒ＝［ｋ１，ｋ２，ｋ３］
Ｄｒ＝［［［ａ１，ａ２］，［ｂ１，ｂ２］，［ｃ１，ｃ２］］，
［［ｄ１，ｄ２］，［ｅ１，ｅ２］，［ｆ１，ｆ２］］］
上記の場合、｜ｋ_ｒ｜＝３であり、｜Ｄｒ［ｎ，ｍ］｜＝３である。

【0056】

また、上記の場合、Ｄｒ［ｎ，ｍ，Ｌ］について、Ｄｒ［１，１，１］＝ａ１、Ｄｒ［１，１，２］＝ａ２、Ｄｒ［１，１，２］＝ｂ１、Ｄｒ［１，２，２］＝ｂ２、・・・、Ｄｒ［２，３，１］＝ｆ１、Ｄｒ［２，３，２］＝ｆ２である。

【0057】

残差ブロックＲｅｓＢｌｏｃｋ［ｎ］は、上記構成により、処理した結果データをデータＤ１２＿ｏｕｔ［ｎ］として、加算部１２２２に出力する。

【0058】

加算部１２２２は、残差ブロック群１２２１の各ブロックからの出力データＤ１２＿ｏｕｔ［１］～Ｄ１２＿ｏｕｔ［｜ｋ_ｒ｜］を加算し、加算結果データをデータＤ１３として、第２アップサンプリング部１２３に出力する。

【0059】

第２アップサンプリング部１２３は、第１ＭＲＦ処理部１２２から出力されるデータＤ１３を入力し、データＤ１３に対してアップサンプリング処理を行う。第２アップサンプリング部１２３は、アップサンプリング処理後のデータをデータＤ１４として第２ＭＲＦ処理部１２４に出力する。なお、第２アップサンプリング部１２３で実行されるアップサンプリング処理は、例えば、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数を「１２８」として実行される。アップサンプリング処理の方式としては、第１アップサンプリング部と同様に、
（１）サブピクセル畳み込み処理によるアップサンプリング処理
（２）転置畳み込み処理（Transposed Convolution）によるアップサンプリング処理
（３）インターポーレートおよび１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）によるサンプリング処理
のいずれかを採用すればよい。

【0060】

第２ＭＲＦ処理部１２４は、第１ＭＲＦ処理部と同様の構成を有しており、第２アップサンプリング部１２３から出力されるデータＤ１４に対して、第１ＭＲＦ処理部と同様の処理（なお、ｋ_ｒ、Ｄｒの設定値は、第１ＭＲＦ処理部の設定値と異なるものであってもよい）を行う。そして、第２ＭＲＦ処理部１２４は、第２ＭＲＦ処理部１２４での処理後のデータをデータＤ１５として第１活性化処理部１３に出力する。

【0061】

第１活性化処理部１３は、ＭＲＦ部１２の第２ＭＲＦ処理部１２４から出力されるデータＤ１５を入力し、当該データＤ１５に対して、ＬｅａｋｙＲｅＬＵ関数による活性化処理を行う。そして、第１活性化処理部１３は、活性化処理後のデータをデータＤ１６として、第２畳み込み処理部１４に出力する。

【0062】

第２畳み込み処理部１４は、第１活性化処理部１３から出力されるデータＤ１６を入力し、当該データＤ１６に対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）を実行する。そして、第２畳み込み処理部１４は、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤ１７として第２活性化処理部１５に出力する。なお、第２畳み込み処理部１４で実行される１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）は、例えば、カーネルサイズを「７」（７サンプルに相当）とし、チャネル数を「４」として実行される。

【0063】

第２活性化処理部１５は、第２畳み込み処理部１４から出力されるデータＤ１７を入力し、当該データＤ１７に対して、ｔａｎｈ関数による活性化処理を行う。そして、第２活性化処理部１５は、活性化処理後のデータをデータＤ１として、アップサンプリング部２に出力する。なお、データＤ１は、第２畳み込み処理部１４のチャネル数が「４」である場合、第２畳み込み処理部１４から出力される４つのオーディオ波形データのそれぞれに対して第２活性化処理部１５による活性化処理を施したオーディオ波形データ（４つのオーディオ波形データ）、すなわち、マルチストリームデータ（複数のオーディオ波形データ）となる。

【0064】

なお、マルチストリーム生成部１は、学習時において、畳み込み処理部３から出力されるパラメータ更新データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）（マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_ｇ＿ｍｓのパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）に基づいて、マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0065】

また、マルチストリーム生成部１のＭＲＦ部の構成（例えば、第１ＭＲＦ処理部１２２、第２ＭＲＦ処理部１２４等の構成）については、例えば、非特許文献２に開示されている技術により実現するようにしてもよい。

【0066】

アップサンプリング部２は、マルチストリーム生成部１の第２活性化処理部１５から出力されるデータＤ１（マルチストリームデータ（複数のオーディオ波形データ））を入力し、当該データＤ１に対して、例えば、ゼロ挿入型のアップサンプリング処理を行う。そして、アップサンプリング処理は、アップサンプリング処理後のデータをデータＤ２（アップサンプリング処理後のマルチストリームデータ（複数のオーディオ波形データ））として、畳み込み処理部３に出力する。

【0067】

畳み込み処理部３は、アップサンプリング部２から出力されるデータＤ２を入力し、当該データＤ２に対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理（バイアスなし））を実行する。そして、畳み込み処理部３は、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤｏｕｔとして生成データ評価部、およびセレクタＳＥＬ１に出力する。

【0068】

なお、畳み込み処理部３で実行される１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理（バイアスなし））は、例えば、カーネルサイズを「６３」（６３サンプルに相当）とし、チャネル数を「１」として実行される。つまり、畳み込み処理部３に入力されたデータＤ２（マルチストリームデータ（例えば、４つのオーディオ波形データ））が、畳み込み処理部３による１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理（バイアスなし））により、合成され、１つのオーディオ波形データとして取得（生成）される。

【0069】

なお、畳み込み処理部３は、学習時において、更新データ選択処理部Ｇ＿ｕｐｄから出力されるデータｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）（畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}のパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）に基づいて、畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0070】

また、畳み込み処理部３は、上記更新処理を行った後、マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータを更新するためのパラメータ更新データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）を生成し、当該パラメータ更新データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）をマルチストリーム生成部１出力する。

【0071】

（１．１．２：生成データ評価部Ｇ＿Ｅｖ）
生成データ評価部Ｇ＿Ｅｖは、オーディオデータ生成装置１００から出力されるデータＤｏｕｔと、当該データＤｏｕｔを生成するために使用したオーディオデータ生成装置１００の入力データＤｉｎ（メルスペクトログラムのデータ）に対応するオーディオ波形データＤ＿ｃｏｒｒｅｃｔ（正解データ）とを入力する。生成データ評価部Ｇ＿Ｅｖは、データＤｏｕｔおよびデータＤ＿ｃｏｒｒｅｃｔ（正解データ）に対して、ＳＴＦＴ損失（ＳＴＦＴ：ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を評価する評価関数（損失関数）を用いて、両者の誤差（損失）を評価する。そして、生成データ評価部Ｇ＿Ｅｖは、ＳＴＦＴ損失の評価関数の出力（結果）に基づいて、オーディオデータ生成装置１００の学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｇを更新するためのデータであるパラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を生成し、当該パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を更新データ選択処理部Ｇ＿ｕｐｄに出力する。

【0072】

（１．１．３：セレクタＳＥＬ１）
セレクタＳＥＬ１は、２入力１出力の切替器であり、オーディオデータ生成装置１００にから出力されるデータＤｏｕｔ（オーディオデータ生成装置１００により生成されたデータＤｏｕｔ（合成データ（偽のデータ）））と、本物のデータＤ＿ｃｏｒｒｅｃｔ（例えば、データＤｏｕｔを生成するために使用したオーディオデータ生成装置１００の入力データＤｉｎ（メルスペクトログラムのデータ）に対応するオーディオ波形データＤ＿ｃｏｒｒｅｃｔ（正解データ））とを入力する。

【0073】

セレクタＳＥＬ１は、例えば、制御部（不図示）から出力される選択信号ｓｅｌ１に従い、データＤｏｕｔ、および、データＤ＿ｃｏｒｒｅｃｔのうちいずれか一方を選択し、選択したデータをデータＤｄ１として、オーディオデータ識別装置Ｄｅｖ＿Ｄに入力する。

【0074】

（１．１．４：オーディオデータ識別装置Ｄｅｖ＿Ｄ）
オーディオデータ識別装置Ｄｅｖ＿Ｄは、敵対的学習に使用する識別器であり、敵対的学習において、オーディオデータ生成装置１００を生成器としたときの識別器である。オーディオデータ識別装置Ｄｅｖ＿Ｄは、図１に示すように、大局特徴識別部ＤＤ１と、詳細特徴識別部ＤＤ２とを備える。

【0075】

大局特徴識別部ＤＤ１は、図５に示すように、複数の識別器ＭＳＤ［ｋ］（図５では、識別器ＭＳＤ［１］～ＭＳＤ［３］）（ＭＳＤ：Ｍｕｌｔｉ－ｓｃａｌｅＤｅｓｃｒｉｍｉｎａｔｏｒ）を備える。なお、説明便宜のため、識別器ＭＳＤ［ｋ］が３個の場合について、以下説明するが、識別器ＭＳＤ［ｋ］の数は、３個に限定されることはなく、他の数であってもよい。

【0076】

第１の識別器ＭＳＤ［１］は、図５に示すように、データＤｄ１をそのまま識別部に入力する。識別部は、例えば、図５に示すように、畳み込み層ＭＳ１と、ダウンサンプリング層ＭＳ２（例えば、ダウンサンプリング層を４個連続して接続した構成）と、畳み込み層ＭＳ３と、畳み込み層ＭＳ４とを備える。そして、最終段の畳み込み層ＭＳ４から、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ１＿ＭＳＤ＿ｏｕｔ［１］が出力される。

【0077】

第２の識別器ＭＳＤ［２］は、図５に示すように、平均プーリング層と、識別部とを備える。

【0078】

平均プーリング層は、Ｄｄ１の隣接する（時系列に隣接する）２つのサンプルの値を平均した値を出力データとする平均プーリング処理を行う。

【0079】

そして、平均プーリング層の出力は、第２の識別器ＭＳＤ［２］の識別部に入力される。

【0080】

第２の識別器ＭＳＤ［２］の識別部は、第１の識別器ＭＳＤ［１］の識別部と同様の構成を有している。第２の識別器ＭＳＤ［２］の識別部は、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ１＿ＭＳＤ＿ｏｕｔ［２］を出力する。

【0081】

第３の識別器ＭＳＤ［３］は、図５に示すように、平均プーリング層と、識別部とを備える。

【0082】

平均プーリング層は、Ｄｄ１の隣接する（時系列に隣接する）４つのサンプルの値を平均した値を出力データとする平均プーリング処理を行う。

【0083】

そして、平均プーリング層の出力は、第３の識別器ＭＳＤ［３］の識別部に入力される。

【0084】

第３の識別器ＭＳＤ［３］の識別部は、第１の識別器ＭＳＤ［１］の識別部と同様の構成を有している。第３の識別器ＭＳＤ［３］の識別部は、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ１＿ＭＳＤ＿ｏｕｔ［３］を出力する。

【0085】

そして、大局特徴識別部ＤＤ１の複数の識別器ＭＳＤ［ｋ］の出力データ（データＤＤ１＿ＭＳＤ＿ｏｕｔ［１］～ＤＤ１＿ＭＳＤ＿ｏｕｔ［３］）は、識別データ評価部Ｄ＿Ｅｖに出力される。

【0086】

なお、大局特徴識別部ＤＤ１の複数の識別器ＭＳＤ［ｋ］の出力データ（データＤＤ１＿ＭＳＤ＿ｏｕｔ［１］～ＤＤ１＿ＭＳＤ＿ｏｕｔ［３］）をまとめたデータをデータＤｄ１＿ｏｕｔと表記する。

【0087】

詳細特徴識別部ＤＤ２は、図６に示すように、複数の識別器ＭＰＤ［ｋ］（図６では、識別器ＭＰＤ［１］～ＭＰＤ［Ｍ］）（ＭＰＤ：Ｍｕｌｔｉ－ｐｅｒｉｏｄＤｅｓｃｒｉｍｉｎａｔｏｒ）（Ｍ：自然数）を備える。

【0088】

第ｋの識別器ＭＰＤ［ｋ］（ｋ：自然数、１≦ｋ≦Ｍ）は、図５に示すように、リシェイプ部と、識別部とを備える。

【0089】

リシェイプ部は、データＤｄ１（１次元のデータ）を、周期ｐ［ｋ］ごと（ｐ［ｋ］個のサンプルごと）に区切り、２次元のデータ（データＤｄ１のサンプル数をＴとすると、ｐ［ｋ］×ｃｅｉｌ（Ｔ／ｐ［ｋ］）の２次元データ（ｃｅｉｌ（）は、天井関数））に変換する。そして、リシェイプ部は、処理後の２次元データを識別部に出力する。

【0090】

識別部は、リシェイプ部から出力される２次元データに対して、畳み込み処理を実行し、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ２＿ＭＰＤ＿ｏｕｔ［ｋ］を取得する。

【0091】

識別部は、図６に示すように、５×１の畳み込み層（ストライド：（３，１）、チャネル数：２＾（５＋Ｌ））と、活性化処理部（ＬｅａｋｙＲｅＬＵ関数による活性化処理を行う機能部）とを備えるブロックを４個連続して接続した構成に、さらにその後段に、５×１の畳み込み層（チャネル数：１０２４）、活性化処理部（ＬｅａｋｙＲｅＬＵ関数による活性化処理を行う機能部）、および、３×１の畳み込み層（チャネル数：１）を備える構成を有している。

【0092】

識別部は、上記構成による畳み込み処理、活性化処理を行うことで、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ２＿ＭＰＤ＿ｏｕｔ［ｋ］を取得する。

【0093】

そして、詳細特徴識別部ＤＤ２の複数の識別器ＭＰＤ［ｋ］の出力データ（データＤＤ２＿ＭＰＤ＿ｏｕｔ［１］～ＤＤ２＿ＭＰＤ＿ｏｕｔ［Ｍ］）は、識別データ評価部Ｄ＿Ｅｖに出力される。

【0094】

なお、詳細特徴識別部ＤＤ２の複数の識別器ＭＰＤ［ｋ］の出力データ（データＤＤ２＿ＭＰＤ＿ｏｕｔ［１］～ＤＤ２＿ＭＰＤ＿ｏｕｔ［Ｍ］）をまとめたデータをデータＤｄ２＿ｏｕｔと表記する。

【0095】

また、大局特徴識別部ＤＤ１（識別器ＭＳＤ［ｋ］）、詳細特徴識別部ＤＤ２（識別器ＭＰＤ［ｋ］）については、例えば、非特許文献２、および、非特許文献３に開示されている技術により実現するようにしてもよい。

【0096】

また、オーディオデータ識別装置Ｄｅｖ＿Ｄは、学習時において、識別データ評価部Ｄ＿Ｅｖから出力されるデータＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）（オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能部（畳み込み層等）のパラメータθ_ｄのパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_ｄ）に基づいて、オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能部（畳み込み層等）のパラメータθ_ｇ＿ｄの更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0097】

（１．１．５：識別データ評価部Ｄ＿Ｅｖ）
識別データ評価部Ｄ＿Ｅｖは、オーディオデータ識別装置Ｄｅｖ＿Ｄから出力されるデータＤｄ１＿ｏｕｔ、および、Ｄｄ２＿ｏｕｔを入力し、生成器（オーディオデータ生成装置１００に対応）用の損失関数、および、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに対応）用の損失関数を用いて、敵対的学習における損失評価を行う。

【0098】

そして、識別データ評価部Ｄ＿Ｅｖは、上記の損失評価の結果に基づいて、オーディオデータ生成装置１００の学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｇを更新するためのデータであるパラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を生成し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を更新データ選択処理部Ｇ＿ｕｐｄに出力する。

【0099】

また、識別データ評価部Ｄ＿Ｅｖは、上記の損失評価の結果に基づいて、オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｄを更新するためのデータであるパラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）を生成し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）をオーディオデータ識別装置Ｄｅｖ＿Ｄに出力する。

【0100】

（１．１．６：更新データ選択処理部Ｇ＿ｕｐｄ）
更新データ選択処理部Ｇ＿ｕｐｄは、生成データ評価部Ｇ＿Ｅｖから出力されるパラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）と、識別データ評価部Ｄ＿Ｅｖから出力されるパラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）とを入力する。

【0101】

そして、更新データ選択処理部Ｇ＿ｕｐｄは、事前学習時は、パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を選択し、当該パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を、パラメータ更新データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）として、オーディオデータ生成装置１００の畳み込み処理部３に出力する。

【0102】

また、更新データ選択処理部Ｇ＿ｕｐｄは、学習時（敵対的学習時）は、パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を選択し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を、パラメータ更新データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）として、オーディオデータ生成装置１００の畳み込み処理部３に出力する。

【0103】

＜１．２：オーディオデータ処理システムの動作＞
以上のように構成されたオーディオデータ処理システム１０００の動作について以下説明する。以下では、オーディオデータ処理システム１０００の動作を、（１）学習処理と、（２）推論処理（予測処理）とに分けて説明する。

【0104】

（１．２．１：学習処理）
図７は、オーディオデータ処理システム１０００で実行される学習処理のフローチャートである。

【0105】

以下では、オーディオデータ処理システム１０００で実行される学習処理について、フローチャートを参照しながら説明する。

【0106】

（ステップＳ１）：
ステップＳ１では、オーディオデータ生成装置１００の事前学習処理が実行される。具体的には、以下の処理が実行される。

【0107】

メルスペクトログラムのデータであるデータＤｉｎが、マルチストリーム生成部１の第１畳み込み処理部１１に入力される。

【0108】

そして、第１畳み込み処理部１１は、データＤｉｎに対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）（データＤｉｎ（メルスペクトラムデータを２次元データとみなして、１次元畳み込み処理））を実行し、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤ１１としてＭＲＦ部に出力する。なお、第１畳み込み処理部１１で実行される１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）は、例えば、カーネルサイズを「７」（７サンプルに相当）とし、チャネル数を「５１２」として実行される。

【0109】

【0110】

そして、第１アップサンプリング部１２１での処理により取得されたデータＤ１２は、第１ＭＲＦ処理部１２２に出力される。

【0111】

第１ＭＲＦ処理部１２２では、データＤ１２に対して、ＭＲＦ処理が実行される。具体的には、以下の処理が実行される。

【0112】

データＤ１２は、残差ブロック群１２２１の残差ブロックＲｅｓＢｌｏｃｋ［ｎ］（１≦ｎ≦｜ｋ_ｒ｜）（｜ｋ_ｒ｜は、配列ｋ_ｒの要素数（配列数）を表す）（図４のように構成されたブロック）に入力され、ブロックＢＬ２において、活性化処理部ＢＬ２１によるＬｅａｋｙＲｅＬＵ関数による活性化処理、および、ブロックＢＬ２２によるｋ_ｒ［ｎ］×１のカーネルによる畳み込み処理を、複数回（｜Ｄｒ［ｎ，ｍ］｜回）実行され、当該処理後のデータが加算器Ａｄｄ１にて、データＤ１２と加算される（ブロックＢＬ１の処理）。

【0113】

そして、上記のブロックＢＬの処理が複数回（｜Ｄｒ［ｎ］｜回）実行される。そして、当該処理後のデータがデータＤ１２＿ｏｕｔ［ｎ］として、加算部１２２２に出力される。

【0114】

【0115】

このように、第１ＭＲＦ処理部１２２では、多様な受容野に相当するカーネルを用いて、残差ブロックにより畳み込み処理が実行され、当該処理結果のデータが加算部１２２２で統合されるため、加算部１２２２から出力されるデータＤ１３は、多様な受容野に相当するカーネルを用いて抽出した特徴を含むデータとして取得されることになる。

【0116】

そして、第１ＭＲＦ処理部１２２での処理により取得されたデータＤ１３は、第２アップサンプリング部１２３に出力される。

【0117】

第２アップサンプリング部１２３は、第１ＭＲＦ処理部１２２から出力されるデータＤ１３に対してアップサンプリング処理を行う。第２アップサンプリング部１２３で実行されるアップサンプリング処理は、例えば、入力データのサンプル数を８倍（×８）のサンプル数にし、チャネル数を「１２８」として実行される。アップサンプリング処理の方式としては、第１アップサンプリング部と同様に、例えば、サブピクセル畳み込み処理によるアップサンプリング処理を採用する。

【0118】

そして、第２アップサンプリング部１２３での処理により取得されたデータＤ１４は、第２ＭＲＦ処理部１２４に出力される。

【0119】

【0120】

第１活性化処理部１３は、ＭＲＦ部１２の第２ＭＲＦ処理部１２４から出力されるデータＤ１５に対して、ＬｅａｋｙＲｅＬＵ関数による活性化処理を行う。そして、第１活性化処理部１３は、活性化処理後のデータをデータＤ１６として、第２畳み込み処理部１４に出力する。

【0121】

第２畳み込み処理部１４は、第１活性化処理部１３から出力されるデータＤ１６に対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）を実行する。そして、第２畳み込み処理部１４は、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤ１７として第２活性化処理部１５に出力する。なお、第２畳み込み処理部１４で実行される１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）は、例えば、カーネルサイズを「７」（７サンプルに相当）とし、チャネル数を「４」として実行される。

【0122】

第２活性化処理部１５は、第２畳み込み処理部１４から出力されるデータＤ１７に対して、ｔａｎｈ関数による活性化処理を行う。そして、第２活性化処理部１５は、活性化処理後のデータをデータＤ１として、アップサンプリング部２に出力する。なお、データＤ１は、第２畳み込み処理部１４のチャネル数が「４」である場合、第２畳み込み処理部１４から出力される４つのオーディオ波形データのそれぞれに対して第２活性化処理部１５による活性化処理を施したオーディオ波形データ（４つのオーディオ波形データ）、すなわち、マルチストリームデータ（複数のオーディオ波形データ）となる。

【0123】

そして、第２活性化処理部１５での処理により取得されたデータＤ１は、マルチストリーム生成部１からアップサンプリング部２に出力される。

【0124】

アップサンプリング部２は、マルチストリーム生成部１の第２活性化処理部１５から出力されるデータＤ１（マルチストリームデータ（複数のオーディオ波形データ））に対して、例えば、ゼロ挿入型のアップサンプリング処理を行う。そして、アップサンプリング処理は、アップサンプリング処理後のデータをデータＤ２（アップサンプリング処理後のマルチストリームデータ（複数のオーディオ波形データ））として、畳み込み処理部３に出力する。

【0125】

畳み込み処理部３は、アップサンプリング部２から出力されるデータＤ２に対して、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理（バイアスなし））を実行する。そして、畳み込み処理部３は、１次元畳み込み処理（Ｃｏｎｖ１Ｄ処理）後のデータをデータＤｏｕｔとして生成データ評価部、およびセレクタＳＥＬ１に出力する。

【0126】

【0127】

そして、オーディオデータ生成装置１００により、上記処理を実行することで取得されたデータＤｏｕｔは、生成データ評価部Ｇ＿Ｅｖに出力される。

【0128】

生成データ評価部Ｇ＿Ｅｖは、オーディオデータ生成装置１００から出力されるデータＤｏｕｔと、当該データＤｏｕｔを生成するために使用したオーディオデータ生成装置１００の入力データＤｉｎ（メルスペクトログラムのデータ）に対応するオーディオ波形データＤ＿ｃｏｒｒｅｃｔ（正解データ）とを入力する。生成データ評価部Ｇ＿Ｅｖは、データＤｏｕｔおよびデータＤ＿ｃｏｒｒｅｃｔ（正解データ）に対して、ＳＴＦＴ損失（ＳＴＦＴ：ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を評価する評価関数（損失関数）を用いて、両者の誤差（損失）を評価する。

【0129】

具体的には、生成データ評価部Ｇ＿Ｅｖは、以下のＳＴＦＴ損失関数を使用して、損失を評価する。

【0130】

１つのＳＴＦＴの取得期間（ＦＦＴをかける期間）の損失関数Ｌ_ｓｃ、Ｌ_ｍｇを以下のように定義する。

【数1】

ｘ：本物のオーディオ波形データ（正解データ）
ｘ＿ｐｒｅｄ：生成（予測）したオーディオ波形データ（オーディオデータ生成装置１００からの出力データＤｏｕｔに相当）
｜ＳＴＦＴ（・）｜：ＳＴＦＴの振幅（Ｍａｇｎｉｔｕｄｅｓ）を取得する関数
｜｜・｜｜_Ｆ：フロベニウスノルム

【数2】

ｘ：本物のオーディオ波形データ（正解データ）
ｘ＿ｐｒｅｄ：生成（予測）したオーディオ波形データ（オーディオデータ生成装置１００からの出力データＤｏｕｔに相当）
｜ＳＴＦＴ（・）｜：ＳＴＦＴの振幅（Ｍａｇｎｉｔｕｄｅｓ）を取得する関数
｜｜・｜｜_１：Ｌ１－ノルム
Ｎ：要素数（ＳＴＦＴの振幅データを取得した要素数（サンプル数））
そして、生成器Ｇ（オーディオデータ生成装置１００に相当）のＭ個のＳＴＦＴの取得期間（ＦＦＴをかける期間）分の損失関数Ｌ_{ｍｒ＿ｓｔｆｔ}を以下のように定義する。

【数3】

Ｅ_{ｘ，ｘｐｒｅｄ}［・］：ｘ、ｘ_ｐｒｅｄについての期待値
生成データ評価部Ｇ＿Ｅｖは、オーディオデータ生成装置１００から出力されるデータＤｏｕｔと、当該データＤｏｕｔを生成するために使用したオーディオデータ生成装置１００の入力データＤｉｎ（メルスペクトログラムのデータ）に対応するオーディオ波形データＤ＿ｃｏｒｒｅｃｔ（正解データ）とを用いて、損失関数Ｌ_{ｍｒ＿ｓｔｆｔ}によりＳＴＦＴ評価値（ＳＴＦＴ損失値）を取得する（上記数式に相当する処理を実行して取得する）。そして、生成データ評価部Ｇ＿Ｅｖは、取得したＳＴＦＴ評価値（ＳＴＦＴ損失値）に基づいて、オーディオデータ生成装置１００の学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｇを更新するためのデータであるパラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を生成し、当該パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を更新データ選択処理部Ｇ＿ｕｐｄに出力する。

【0131】

更新データ選択処理部Ｇ＿ｕｐｄは、オーディオデータ生成装置１００の事前学習時において、パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を選択し、当該パラメータ更新データｐｒｅ＿ｕｐｄａｔｅ（θ_ｇ）を、パラメータ更新データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）として、オーディオデータ生成装置１００の畳み込み処理部３に出力する。

【0132】

畳み込み処理部３は、事前学習時において、更新データ選択処理部Ｇ＿ｕｐｄから出力されるデータｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）（畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}のパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）に基づいて、畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0133】

【0134】

マルチストリーム生成部１は、事前学習時において、畳み込み処理部３から出力されるパラメータ更新データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）（マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_ｇ＿ｍｓのパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）に基づいて、マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0135】

そして、オーディオデータ処理システム１０００において、上記処理を繰り返し実行し（入力データＤｉｎを変更しながら上記処理を繰り返し実行し）、生成データ評価部Ｇ＿Ｅｖにより取得されるＳＴＦＴ評価値（ＳＴＦＴ損失値）が、（１）所定の範囲内となったら、あるいは、（２）所定の値以上変動しなくなったら、事前学習処理が収束したと判断する。

【0136】

そして、上記事前学習処理が収束したと判断されたときのパラメータがオーディオデータ生成装置１００の畳み込み処理部３、および、マルチストリーム生成部１において設定される。

【0137】

（ステップＳ２）：
ステップＳ２において、ループ処理（ループ１）（オーディオデータ生成装置１００、および、オーディオデータ識別装置Ｄｅｖ＿Ｄによる敵対的学習処理）が開始される。

【0138】

（ステップＳ３）：
ステップＳ３において、オーディオデータ識別装置Ｄｅｖ＿Ｄのパラメータ更新処理が実行される。具体的には、以下の処理が実行される。

【0139】

セレクタＳＥＬ１は、例えば、制御部（不図示）から出力される選択信号ｓｅｌ１に従い、データＤｏｕｔ（オーディオデータ生成装置１００により生成したデータ（偽物のデータ））を選択し、選択したデータをデータＤｄ１として、オーディオデータ識別装置Ｄｅｖ＿Ｄに入力する。

【0140】

大局特徴識別部ＤＤ１の第１の識別器ＭＳＤ［１］は、図５に示すように、データＤｄ１をそのまま識別部に入力する。第１の識別器ＭＳＤ［１］の識別部は、データＤｄ１に対して畳み込み層ＭＳ１と、ダウンサンプリング層ＭＳ２（例えば、ダウンサンプリング層を４個連続して接続した構成）と、畳み込み層ＭＳ３と、畳み込み層ＭＳ４とによる処理を実行し、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ１＿ＭＳＤ＿ｏｕｔ［１］を識別データ評価部Ｄ＿Ｅｖに出力する。

【0141】

大局特徴識別部ＤＤ１の第１の識別器ＭＳＤ［１］以外の識別器についても、上記と同様の処理が実行され、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ１＿ＭＳＤ＿ｏｕｔ［ｋ］が識別データ評価部Ｄ＿Ｅｖに出力される。

【0142】

また、詳細特徴識別部ＤＤ２の第ｋの識別器ＭＰＤ［ｋ］（ｋ：自然数、１≦ｋ≦Ｍ）は、図５に示すように、データＤｄ１を、第ｋの識別器ＭＰＤ［ｋ］のリシェイプ部に入力する。

【0143】

第ｋの識別器ＭＰＤ［ｋ］のリシェイプ部は、データＤｄ１（１次元のデータ）を、周期ｐ［ｋ］ごと（ｐ［ｋ］個のサンプルごと）に区切り、２次元のデータ（データＤｄ１のサンプル数をＴとすると、ｐ［ｋ］×ｃｅｉｌ（Ｔ／ｐ［ｋ］）の２次元データ（ｃｅｉｌ（）は、天井関数））に変換する。例えば、ｐ［ｋ］＝３とし、Ｔ＝３００とすると、第ｋの識別器ＭＰＤ［ｋ］のリシェイプ部は、データＤｄ１（１次元のデータ）を、３×１００の２次元データに変換する。

【0144】

そして、第ｋの識別器ＭＰＤ［ｋ］のリシェイプ部は、処理後の２次元データを、第ｋの識別器ＭＰＤ［ｋ］の識別部に出力する。

【0145】

第ｋの識別器ＭＰＤ［ｋ］の識別部は、リシェイプ部から出力される２次元データに対して、畳み込み処理を実行し、入力されたデータＤｄ１の真偽（データＤｄ１が本物のデータであるか（Ｒｅａｌ）、あるいは、オーディオ生成処理により生成された偽のデータであるか（Ｆａｋｅ））を示す結果データＤＤ２＿ＭＰＤ＿ｏｕｔ［ｋ］を取得する。

【0146】

詳細特徴識別部ＤＤ２の複数の識別器ＭＰＤ［１］～ＭＰＤ［Ｍ］により取得された結果データＤＤ２＿ＭＰＤ＿ｏｕｔ［１］～ＤＤ２＿ＭＰＤ＿ｏｕｔ［Ｍ］は、識別データ評価部Ｄ＿Ｅｖに出力される。

【0147】

識別データ評価部Ｄ＿Ｅｖは、オーディオデータ識別装置Ｄｅｖ＿Ｄから出力されるデータＤｄ１＿ｏｕｔ（ＤＤ１＿ＭＳＤ＿ｏｕｔ［１］～ＤＤ１＿ＭＳＤ＿ｏｕｔ［３］）、および、Ｄｄ２＿ｏｕｔ（ＤＤ２＿ＭＰＤ＿ｏｕｔ［１］～ＤＤ２＿ＭＰＤ＿ｏｕｔ［Ｍ］）を入力し、各識別器での結果データを、正しく判定できたか否かの情報も含めて、記憶保持する。

【0148】

次に、セレクタＳＥＬ１は、例えば、制御部（不図示）から出力される選択信号ｓｅｌ１に従い、本物のデータＤ＿ｃｏｒｒｅｃｔ（例えば、データＤｏｕｔを生成するために使用したオーディオデータ生成装置１００の入力データＤｉｎ（メルスペクトログラムのデータ）に対応するオーディオ波形データＤ＿ｃｏｒｒｅｃｔ（正解データ）（本物ノデータ））を選択し、選択したデータをデータＤｄ１として、オーディオデータ識別装置Ｄｅｖ＿Ｄに入力する。そして、オーディオデータ識別装置Ｄｅｖ＿Ｄにおいて、上記と同様の処理を行う。

【0149】

そして、上記と同様に、識別データ評価部Ｄ＿Ｅｖは、オーディオデータ識別装置Ｄｅｖ＿Ｄから出力されるデータＤｄ１＿ｏｕｔ（ＤＤ１＿ＭＳＤ＿ｏｕｔ［１］～ＤＤ１＿ＭＳＤ＿ｏｕｔ［３］）、および、Ｄｄ２＿ｏｕｔ（ＤＤ２＿ＭＰＤ＿ｏｕｔ［１］～ＤＤ２＿ＭＰＤ＿ｏｕｔ［Ｍ］）を入力し、各識別器での結果データを記憶保持する。

【0150】

さらに、オーディオデータ識別装置Ｄｅｖ＿Ｄに入力するデータを本物のデータ、偽物のデータに変更しながら、上記オーディオデータ識別装置Ｄｅｖ＿Ｄでの処理を繰り返す。

【0151】

識別データ評価部Ｄ＿Ｅｖは、各識別器での結果データが正しく識別する確率（本物のデータを本物と判定し、偽物のデータを偽物と判定する確率）を取得する。

【0152】

そして、この取得した確率を用いて、生成器（オーディオデータ生成装置１００に相当）用の敵対的学習用損失関数、および、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習用損失関数により、生成器の損失、および、識別器の損失を評価し、その評価値により、オーディオデータ識別装置Ｄｅｖ＿Ｄ（識別器）の学習可能な機能部のパラメータを更新し、また、オーディオデータ生成装置１００の学習可能な機能部のパラメータを更新する。

【0153】

ここで、生成器（オーディオデータ生成装置１００に相当）用の敵対的学習用損失関数、および、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習用損失関数について説明する。

【0154】

生成器Ｇとともに敵対的学習を行う識別器Ｄの損失関数Ｌ_Ａｄｖ（Ｄ；Ｇ）、および、識別器Ｄとともに敵対的学習を行う生成器Ｇの損失関数Ｌ_Ａｄｖ（Ｇ；Ｄ）を以下のように定義する。

【数4】

ｘ：本物のオーディオ波形データ（正解データ）
ｓ：入力条件（本物のオーディオ波形データ（正解データ）のメルスペクトログラム）
Ｄ（ｘ）：入力データｘが正解データ（本物のデータ）である確率
Ｇ（ｓ）：入力条件（本物のオーディオ波形データ（正解データ）のメルスペクトログラム）ｓから生成器Ｇ（オーディオデータ生成装置１００）が生成したデータ
また、生成器Ｇのメルスペクトログラムについての損失関数Ｌ_Ｍｅｌ（Ｇ）を以下のように定義する。

【数5】

φ（・）：オーディオ波形データから、当該データに対応するメルスペクトログラムを取得する関数
また、識別器Ｄとともに敵対的学習を行う生成器Ｇの特徴データ（特徴マップ）に関する損失関数Ｌ_ＦＭ（Ｇ；Ｄ）を以下のように定義する。

【数6】

Ｔ：識別器の層の数
Ｄ^ｉ：識別器のｉ番目の層の特徴データ（特徴マップ）
Ｎ^ｉ：識別器のｉ番目の層の特徴データ（特徴マップ）の数
そして、Ｋ個の識別器を有する場合の生成器（オーディオデータ生成装置１００に相当）の敵対的学習の損失関数Ｌ_Ｇを以下のように定義する。

【数7】

λ_ｆｍ：係数
λ_ｍｅｌ：係数
Ｄ_ｋ：ｋ番目の識別器
Ｋ：識別器の数
また、Ｋ個の識別器を有する識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習の損失関数Ｌ_Ｄを以下のように定義する。

【数8】

なお、本実施形態の場合、１～３番目の識別器Ｄ_１～Ｄ_３は、ＭＳＤ［１］～ＭＳＤ［３］に対応し、４～４＋Ｍ－１番目の識別器Ｄ_４～Ｄ_{４＋Ｍ－１}は、ＭＰＤ［１］～ＭＰＤ［Ｍ］に対応する（Ｋ＝Ｍ＋３）。

【0155】

識別データ評価部Ｄ＿Ｅｖは、各識別器での結果データが正しく識別する確率（本物のデータを本物と判定し、偽物のデータを偽物と判定する確率）を取得し、上記評価関数に相当する処理を行い、オーディオデータ生成装置１００（生成器）の敵対的学習の損失関数Ｌ_Ｇと、オーディオデータ識別装置Ｄｅｖ＿Ｄ（識別器）の敵対的学習の損失関数Ｌ_Ｄと、を取得する。

【0156】

そして、識別データ評価部Ｄ＿Ｅｖは、上記の損失評価の結果（損失関数Ｌ_Ｄ）に基づいて、オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｄを更新するためのデータであるパラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）を生成し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）をオーディオデータ識別装置Ｄｅｖ＿Ｄに出力する。

【0157】

オーディオデータ識別装置Ｄｅｖ＿Ｄは、学習時（敵対的学習時）において、識別データ評価部Ｄ＿Ｅｖから出力されるデータＧＡＮ＿ｕｐｄａｔｅ（θ_ｄ）（オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能部（畳み込み層等）のパラメータθ_ｄのパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_ｄ）に基づいて、オーディオデータ識別装置Ｄｅｖ＿Ｄの学習可能部（畳み込み層等）のパラメータθ_ｇ＿ｄの更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0158】

（ステップＳ４）：
ステップＳ３において、オーディオデータ生成装置１００のパラメータ更新処理が実行される。具体的には、以下の処理が実行される。

【0159】

ステップＳ３と同様に、セレクタＳＥＬ１により、オーディオデータ識別装置Ｄｅｖ＿Ｄに入力するデータを本物のデータ（データＤ＿ｃｏｒｒｅｃｔ）、偽物のデータ（オーディオデータ生成装置１００により生成されたデータＤｏｕｔ）に変更しながら、ステップＳ３で実行した上記オーディオデータ識別装置Ｄｅｖ＿Ｄの処理（ステップＳ３と同様の処理）を繰り返す。

【0160】

そして、ステップＳ３と同様に、識別データ評価部Ｄ＿Ｅｖは、各識別器での結果データが正しく識別する確率（本物のデータを本物と判定し、偽物のデータを偽物と判定する確率）を取得する。

【0161】

そして、この取得した確率を用いて、生成器（オーディオデータ生成装置１００に相当）用の敵対的学習用損失関数、および、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習用損失関数により、生成器の損失、および、識別器の損失を評価し、その評価値により、オーディオデータ生成装置１００の学習可能な機能部のパラメータを更新する。

【0162】

具体的には、識別データ評価部Ｄ＿Ｅｖは、Ｋ個の識別器を有する場合の生成器（オーディオデータ生成装置１００に相当）の敵対的学習の損失関数Ｌ_Ｇにより取得される損失を小さくするように、オーディオデータ生成装置１００の学習可能な機能部（学習可能な畳み込み層等）のパラメータθ_ｇを更新するためのデータであるパラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を生成し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を更新データ選択処理部Ｇ＿ｕｐｄに出力する。

【0163】

更新データ選択処理部Ｇ＿ｕｐｄは、オーディオデータ生成装置１００の学習時（敵対的学習時）において、パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を選択し、当該パラメータ更新データＧＡＮ＿ｕｐｄａｔｅ（θ_ｇ）を、パラメータ更新データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）として、オーディオデータ生成装置１００の畳み込み処理部３に出力する。

【0164】

畳み込み処理部３は、学習時（敵対的学習時）において、更新データ選択処理部Ｇ＿ｕｐｄから出力されるデータｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）（畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}のパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_{ｇ＿ｃｎｖ}）に基づいて、畳み込み処理部３の畳み込み層のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0165】

【0166】

マルチストリーム生成部１は、学習時（敵対的学習時）において、畳み込み処理部３から出力されるパラメータ更新データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）（マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_ｇ＿ｍｓのパラメータ更新データ）を入力し、当該データｕｐｄａｔｅ（θ_ｇ＿ｍｓ）に基づいて、マルチストリーム生成部１（第２畳み込み部１４、ＭＲＦ部１２、第１畳み込み処理部１１）のパラメータθ_{ｇ＿ｃｎｖ}の更新処理（損失が小さくなるようにパラメータ更新処理）を行う。

【0167】

（ステップＳ５）：
ステップＳ５において、ループ処理（ループ１）の終了条件を満たしているか否かの判定を行い、終了条件を満たしていないと判定された場合、ステップＳ２～Ｓ４の処理を繰り返す。

【0168】

一方、ループ処理（ループ１）の終了条件を満たしていると判定された場合、学習処理を終了させる。なお、ループ処理（ループ１）の終了条件を満たしていると判定される場合は、敵対的学習が収束したと判断できる場合であり、例えば、以下のような場合である。
（１）識別データ評価部Ｄ＿Ｅｖにより、生成器（オーディオデータ生成装置１００に相当）の敵対的学習の損失関数Ｌ_Ｇの値が所定の範囲内に収束し、かつ、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習の損失関数Ｌ_Ｄの値が所定の範囲内に収束した場合。
（２）識別データ評価部Ｄ＿Ｅｖにより、生成器（オーディオデータ生成装置１００に相当）の敵対的学習の損失関数Ｌ_Ｇの値の変化量が所定の範囲内であり、かつ、識別器（オーディオデータ識別装置Ｄｅｖ＿Ｄに相当）の敵対的学習の損失関数Ｌ_Ｄの値の変化量が所定の範囲内である場合。

【0169】

上記終了条件を満たす場合、オーディオデータ処理システム１０００は、学習処理を終了させ、学習処理が終了したときのオーディオデータ生成装置１００に設定されているパラメータ（学習可能な機能部に設定されているパラメータ）を最適パラメータとして、当該最適パラメータが設定されているオーディオデータ生成装置１００を学習済みのオーディオデータ生成装置１００として取得する。

【0170】

そして、学習済みのオーディオデータ生成装置１００（最適パラメータが設定されているオーディオデータ生成装置１００）に、所定のメルスペクトログラムのデータをデータＤｉｎとして入力し、学習済みのオーディオデータ生成装置１００で処理することで、入力されたメルスペクトログラムに対応するオーディオ波形データＤｏｕｔが取得される。

【0171】

学習済みのオーディオデータ生成装置１００では、非常に高速なオーディオデータ生成処理が可能であり、かつ、非常に高精度なオーディオデータ（オーディオ波形データ）を生成することができる。

【0172】

学習済みのオーディオデータ生成装置１００では、マルチストリーム生成部１により複数のストリームデータ（マルチストリームデータ、例えば、４つのデータ駆動分解データ（オーディオ波形データ））がデータＤ１として取得され、取得されたデータＤ１に対して、アップサンプリング部２によりゼロ挿入型アップサンプリング処理が施され、さらに、アップサンプリングされたデータ（例えば、４つのアップサンプリングされたデータ駆動分解データ（オーディオ波形データ））に対して畳み込み処理部３により畳み込み処理（Ｃｏｎｖ１Ｄ処理、バイアスなし）が実行される。つまり、学習済みのオーディオデータ生成装置１００では、複数のストリームデータ（マルチストリームデータ）を取得するので、その構成がシンプルにでき、さらに、複数のストリームデータ（マルチストリームデータ）に対して、簡単な処理である、（１）アップサンプリング処理（ゼロ挿入型アップサンプリング処理後）、および、（２）畳み込み処理部３による畳み込み処理（複数のストリームデータに対して、ＦＩＲフィルタを施して、合成する処理と等価な処理）を行うだけで、オーディオ波形データを生成することができる。

【0173】

すなわち、学習済みのオーディオデータ生成装置１００では、シンプルな構成による処理を行うので、高速処理が可能なＧＰＵを用いることなく、ＣＰＵで処理することも可能となる。

【0174】

さらに、学習済みのオーディオデータ生成装置１００では、大局特徴を識別する大局特徴識別部ＤＤ１と、詳細特徴を識別する詳細特徴識別部ＤＤ２とを備え、非常に強力な識別能力を有するオーディオデータ識別装置Ｄｅｖ＿Ｄを用いた敵対的学習により、最適パラメータを取得しているので、非常に高精度なオーディオデータ（オーディオ波形データ）を生成することができる。

【0175】

なお、オーディオデータ生成装置１００では、マルチストリーム生成部１により取得された複数のストリームデータをアップサンプリングし、畳み込み処理を行ったオーディオ波形データ（データＤｏｕｔ）を用いて、オーディオデータ識別装置Ｄｅｖ＿Ｄと敵対的学習を行うため、従来技術（Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮ）のように、サブバンド信号を用いなければならないという制約がなく、敵対的学習を効率良く進めることが可能である。

【0176】

以上のように、オーディオデータ生成装置１００では、マルチストリーム生成部１により複数のストリームデータ（例えば、４つのデータ駆動分解データ（オーディオ波形データ））を取得する構成を有し、さらに、学習可能な畳み込み処理部３を導入したことにより、高精度なオーディオデータ識別装置Ｄｅｖ＿Ｄとの敵対的学習が可能となる。そして、当該敵対的学習により取得されたオーディオデータ生成装置１００により、高速かつ高精度なオーディオデータ生成処理を行うことができる。さらに、オーディオデータ生成装置１００は、シンプルな構成を有しているので、高速処理が可能なＧＰＵを用いることなく、高品質なオーディオデータ生成処理（例えば、音声合成処理）を高速に実現することができる。

【0177】

［他の実施形態］
上記実施形態では、オーディオデータ生成装置１００において、ＨｉＦｉ－ＧＡＮの構成をベースとしてマルチストリーム生成部１を構成する場合について説明したが、これに限定されることはなく、例えば、Ｍｕｌｔｉ－ｂａｎｄＭｅｌＧＡＮの構成（アップサンプリング処理ブロック、残差（Ｒｓｉｄｕａｌ）ブロックの構成）をベースとしてマルチストリーム生成部１を構成するようにしてもよい。

【0178】

また、上記実施形態において、敵対的学習に使用する損失関数として示した損失関数は、一例であり、他の損失関数を用いて、オーディオデータ処理システム１０００において、敵対的学習を行うようにしてもよい。

【0179】

また、上記実施形態のオーディオデータ生成装置１００（学習済みのオーディオデータ生成装置１００）を、例えば、テキストデータからメルスペクトログラムを生成するオーディオデータ処理システムに接続し、音声合成システム（ＴＴＳシステム、ＴＴＳ：Ｔｅｘｔ－ｔｏ－Ｓｐｅｅｃｈ）を実現するようにしてもよい。

【0180】

また上記実施形態で説明したオーディオデータ処理システム１０００、オーディオデータ生成装置１００、オーディオデータ識別装置Ｄｅｖ＿Ｄにおいて、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

【0181】

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

【0182】

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサーで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

【0183】

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

【0184】

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

【0185】

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図８に示したハードウェア構成（例えばＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

【0186】

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図８に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

【0187】

また上記実施形態（変形例を含む）における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

【0188】

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

【0189】

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

【0190】

また、本明細書内の記載、特許請求の範囲の記載において、「最適化」とは、最も良い状態にすることをいい、システム（モデル）を「最適化」するパラメータとは、当該システムの目的関数の値が最適値となるときのパラメータのことをいう。「最適値」は、システムの目的関数の値が大きくなるほど、システムが良い状態となる場合は、最大値であり、システムの目的関数の値が小さくなるほど、システムが良い状態となる場合は、最小値である。また、「最適値」は、極値であってもよい。また、「最適値」は、所定の誤差（測定誤差、量子化誤差等）を許容するものであってもよく、所定の範囲（十分収束したとみなすことができる範囲）に含まれる値であってもよい。

【0191】

なお本発明の具体的な構成は、前述の実施形態（変形例を含む）に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

【符号の説明】

【0192】

１０００オーディオデータ処理システム
１００オーディオデータ生成装置
１マルチストリーム生成部
２アップサンプリング部
３畳み込み処理部
Ｄｅｖ＿Ｄオーディオデータ識別装置
Ｄ＿Ｅｖ識別データ評価部
Ｇ＿Ｅｖ生成データ評価部

【図1】