特開2022-136297 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特開2022-136297データ変換学習装置、データ変換装置、方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022136297

(43)【公開日】2022-09-15

(54)【発明の名称】データ変換学習装置、データ変換装置、方法、及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20220908BHJP

【ＦＩ】

G06N20/00

【審査請求】有

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022121734

(22)【出願日】2022-07-29

(62)【分割の表示】P 2019033199の分割

【原出願日】2019-02-26

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】特許業務法人太陽国際特許事務所

(72)【発明者】

【氏名】金子卓弘

(72)【発明者】

【氏名】亀岡弘和

(72)【発明者】

【氏名】田中宏

(72)【発明者】

【氏名】北条伸克

(57)【要約】

【課題】変換先のドメインのデータに精度良く変換することができる。
【解決手段】学習部３２は、目的関数を最適化するように、順方向生成器と、逆方向生成器と、変換先識別器と、変換元識別器とを学習する。
【選択図】図４

【特許請求の範囲】

【請求項1】

変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習する学習部とを含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換学習装置。

【請求項2】

前記データは、特徴量系列であって、
前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する請求項１記載のデータ変換学習装置。

【請求項3】

変換元のドメインのデータを受け付ける入力部と、
前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成するデータ変換部とを含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換装置。

【請求項4】

入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること、を含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換学習方法。

【請求項5】

入力部が、変換元のドメインのデータを受け付け、
データ変換部が、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること、を含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含むデータ変換方法。

【請求項6】

コンピュータに、
変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること
を実行させるためのプログラムであって、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、プログラム。

【請求項7】

コンピュータに、
変換元のドメインのデータを受け付け、
前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること
を実行させるためのプログラムであって、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含むプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ変換学習装置、データ変換装置、方法、及びプログラムに係り、特に、データを変換するためのデータ変換学習装置、データ変換装置、方法、及びプログラムに関する。

【背景技術】

【0002】

外部データ、外部モジュールを要することなく、かつ、系列データのパラレルデータを用意することなく、データ変換を実現する方法が知られている（非特許文献１、２）。

【0003】

この方法では、Cycle Generative Adversarial Network(CycleGAN)を用いた学習を行っている。また、学習時の損失関数として、Identity-mapping lossを用い、生成器において、Gated CNN(Convolutional Neural Network)を用いている。

【0004】

CycleGANでは、変換データがターゲットに属するか否かを表すAdversarial lossと、変換データを逆変換すると元に戻ることを表すCycle-consistency lossとを含む損失関数を用いている（図１２）。

【0005】

具体的には、CycleGANは、順方向生成器G_X→Yと、逆方向生成器G_Y→Xと、変換先識別器D_Yと、変換元識別器D_Xとを構成要素としている。順方向生成器G_X→Yは、ソースデータxをターゲットデータG_X→Y(x)に順変換する。逆方向生成器G_Y→Xは、ターゲットデータyをソースデータG_Y→X(y)に逆変換する。変換先識別器D_Yは、変換ターゲットデータG_X→Y(x)（生成物、偽物）とターゲットデータy（本物）とを識別する。変換元識別器D_Xは、変換ソースデータG_Y→X(x)（生成物、偽物）とソースデータx（本物）とを識別する。

【0006】

Adversarial lossは、以下の式（１）で表される。このAdversarial lossが、目的関数に含まれる。

【0007】

【数1】

（１）

【0008】

Adversarial lossでは、変換先識別器D_Yが、変換ターゲットデータG_X→Y(x)（生成物、偽物）と本物のターゲットデータyの各々を識別する際に、変換先識別器D_Yは、Adversarial lossを最大化することで順方向生成器G_X→Yに騙されないように偽物と本物を識別するように学習される。順方向生成器G_X→Yは、Adversarial lossを最小化することで変換先識別器D_Yを騙せるデータを生成するように学習される。

【0009】

また、Cycle-consistency lossは、以下の式（２）で表される。このCycle-consistency lossが、目的関数に含まれる。

【0010】

【数2】

（２）

【0011】

Adversarial lossは、本物らしくなるように制約を与えるだけなので、適切な変換ができるとは限らない。そこで、Cycle-consistency lossにより、ソースデータxを順方向生成器G_X→Yにより順変換して逆方向生成器G_Y→Xにより逆変換して得られたデータG_Y→X(G_X→Y(x))が、元に戻るように制約を与えること（x = G_Y→X(G_X→Y(x))）で、擬似的なペアデータを探索しながら生成器G_X→Y、G_Y→Xを学習する。

【0012】

また、Identity-mapping lossは、以下の式（３）で表される（図１３）。このIdentity-mappingが、目的関数に含まれる。

【0013】

【数3】

（３）

【0014】

上記Identity-mapping lossにより、生成器G_X→Y、G_Y→Xが入力情報を保つように制約が与えられる。

【0015】

また、生成器は、図１４に示すGated CNNを用いて構成されている。このGated CNNでは、l層と(l+1)層の間でデータドリブンに選択しながら情報を伝播する。これにより、時系列データの系列的構造及び階層的構造を効率的に表現することができる。

【先行技術文献】

【非特許文献】

【0016】

【非特許文献1】T. Kaneko and H. Kameoka," CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks," 2018 26th European Signal Processing Conference (EUSIPCO).

【非特許文献2】T. Kaneko and H. Kameoka, “Parallel-data-free voice conversion using cycle-consistent adversarial networks,” in arXiv preprint arXiv:1711.11293, Nov. 30, 2017.

【発明の概要】

【発明が解決しようとする課題】

【0017】

上記式（２）に示すCycle-consistency lossでは、明示的な距離関数（例：L1）でソースデータxと、順変換して逆変換したデータG_Y→X(G_X→Y(x))の距離を計測している。この距離は、実際には複雑な形状をしているが、それを明示的な距離関数（例：L1）で近似する結果、平滑化される。

【0018】

また、順変換して逆変換したデータG_Y→X(G_X→Y(x))は、距離関数を用いて学習された結果であるため、質の高い（識別が難しい）データを生成しやすいが、ソースデータを順変換したデータG_Y→X(y)は、距離関数を用いて学習された結果ではないため、質の低い（識別がしやすい）データを生成しやすい。質の高いデータを識別できるように学習が進むと、質の低いデータは簡単に識別できてしまうため、無視されやすくなり、学習が進みにくくなる。

【0019】

本発明は、上記問題点を解決するために成されたものであり、変換先のドメインのデータに精度よく変換することができる生成器を学習できるデータ変換学習装置、方法、及びプログラムを提供することを目的とする。

【0020】

また、変換先のドメインのデータに精度よく変換することができるデータ変換装置を提供することを目的とする。

【課題を解決するための手段】

【0021】

上記目的を達成するために、第一の態様に係るデータ変換学習装置は、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習する学習部であって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する学習部を含む。

【0022】

また、第二の態様に係るデータ変換学習装置は、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習する学習部とを含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。

【0023】

また、第三の態様に係るデータ変換装置は、変換元のドメインのデータを受け付ける入力部と、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成するデータ変換部とを含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。

【0024】

また、第四の態様に係るデータ変換学習方法は、入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する、ことを含む。

【0025】

また、第五の態様に係るデータ変換学習方法は、入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること、を含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。

【0026】

また、第六の態様に係るデータ変換方法は、入力部が、変換元のドメインのデータを受け付け、データ変換部が、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること、を含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。

【0027】

また、第七の態様に係るプログラムは、コンピュータに、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習することを実行させるためのプログラムである。

【0028】

また、第八の態様に係るプログラムは、コンピュータに、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習することを実行させるためのプログラムであって、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。

【0029】

また、第九の態様に係るプログラムは、コンピュータに、変換元のドメインのデータを受け付け、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成することを実行させるためのプログラムであって、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。

【発明の効果】

【0030】

本発明の一態様に係るデータ変換学習装置、方法、及びプログラムによれば、変換先のドメインのデータに精度よく変換することができる生成器を学習することができる、という効果が得られる。

【0031】

本発明の一態様に係るデータ変換装置、方法、及びプログラムによれば、変換先のドメインのデータに精度よく変換することができる、という効果が得られる。

【図面の簡単な説明】

【0032】

【図1】本発明の実施の形態に係る学習処理の方法を説明するための図である。

【図2】本発明の実施の形態に係る生成器の構成を示す図である。

【図3】本発明の実施の形態に係る識別器の構成を示す図である。

【図4】本発明の実施の形態に係るデータ変換学習装置の構成を示すブロック図である。

【図5】本発明の実施の形態に係るデータ変換装置の構成を示すブロック図である。

【図6】データ変換学習装置又はデータ変換装置として機能するコンピュータの一例の概略ブロック図である。

【図7】本発明の実施の形態に係るデータ変換学習装置におけるデータ変換学習処理ルーチンを示すフローチャートである。

【図8】本発明の実施の形態に係るデータ変換学習装置における生成器及び識別器を学習する処理の流れを示すフローチャートである。

【図9】本発明の実施の形態に係るデータ変換装置におけるデータ変換処理ルーチンを示すフローチャートである。

【図10】生成器のネットワーク構成を示す図である。

【図11】識別器のネットワーク構成を示す図である。

【図12】従来技術のCycleGANを説明するための図である。

【図13】従来技術のIdentity-mapping lossを説明するための図である。

【図14】従来技術のGated CNNを説明するための図である。

【図15】従来技術の１ＤＣＮＮを説明するための図である。

【図16】従来技術の１ＤＣＮＮを用いた生成器を説明するための図である。

【図17】従来技術の２ＤＣＮＮを説明するための図である。

【図18】従来技術の２ＤＣＮＮを用いた生成器を説明するための図である。

【図19】従来技術の識別器を説明するための図である。

【発明を実施するための形態】

【0033】

以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0034】

＜本発明の実施の形態に係る概要＞
まず、本発明の実施の形態における概要を説明する。

【0035】

本発明の実施の形態では、CycleGANを改良して、変換元識別器D_X’と変換先識別器D_Y’とを構成要素として追加する（図１参照）。変換元識別器D_X’は、順変換して逆変換したデータG_Y→X(G_X→Y(x))とソースデータxとの各々について、生成物又は偽物であるか、本物であるかを識別する。変換先識別器D_Y’は、逆変換して順変換したデータG_X→Y(G_Y→X(x))とターゲットデータyとの各々について、生成物又は偽物であるか、本物であるかを識別する。これは、異なる質のfakeデータを適切に識別するためである。つまり、realデータ(ターゲットデータ)との距離を測る損失関数も一緒に学習するRealデータに比較的近いFakeデータと、そのような制約がないため質が低いFakeデータと、の両方を適切に取り扱いたいものの、１つの識別器で、上記のように質の高さが異なる2種類のFakeデータを適切に取り扱うためである。

【0036】

また、目的関数は、以下の式（４）に示すSecond adversarial lossを更に含む。

【0037】

【数4】

（４）

【0038】

変換元識別器D_X’は、Second adversarial lossを最大化することで順方向生成器G_X→Y、逆方向生成器G_Y→Xに騙されないように生成物又は偽物と本物とに正しく識別するように学習される。また、順方向生成器G_X→Y、逆方向生成器G_Y→Xは、Second adversarial lossを最小化することで、変換元識別器D_X’を騙せるデータを生成するように学習される。

【0039】

また、ソースデータxと逆変換したデータG_Y→X(y)との各々について識別を行う変換元識別器D_Xのパラメータと、ソースデータxと順変換して逆変換したデータG_Y→X(G_X→Y(x))との各々について識別を行う変換元識別器D_X’のパラメータとを、別々に学習することが好ましい。

【0040】

また、変換先識別器D_Y’についても、上記式（４）と同様に、Second adversarial lossを定義し、目的関数に含める。

【0041】

すなわち、最終的な目的関数は、以下の式（５）で表される。

【0042】

【数5】

（５）

【0043】

また、本実施の形態では、生成器のネットワーク構造を、１ＤＣＮＮと２ＤＣＮＮを組み合わせたものに改良する。

【0044】

ここで、１ＤＣＮＮと２ＤＣＮＮとについて説明する。

【0045】

１ＤＣＮＮでは、図１５に示すように、畳み込みによりダウンサンプリングする際に、データのチャネル方向の全領域及び幅方向の局所領域での畳み込みを用いる。

【0046】

例えば、図１６に示すように、１ＤＣＮＮを用いた生成器において、幅を、時間Ｔとし、チャネルを特徴量の次元Qとすると、畳み込む際に、時間方向（T）については局所的な関係を見て、特徴量次元方向（Q）については全ての関係を見ることになる。これにより、ダイナミックな変化を表現しやすい一方、変化をし過ぎて詳細構造を失ってしまうことがある。例えば、音声の場合、男性から女性への大きな変換を表現しやすい一方、声の自然性を表す細い構造を失ってしまい、合成音感が増してしまう。

【0047】

また、１ＤＣＮＮを用いた生成器では、時間方向について効率的に関係を見るために時間方向についてダウンサンプリングを行い、代わりにチャネル方向に次元を増す。次に、複数層から構成されたメイン変換部により徐々に変換を行う。そして、時間方向についてアップサンプリングを行い、元のサイズに戻す。

【0048】

このように、１ＤＣＮＮを用いた生成器では、ダイナミックな変換が可能である一方、詳細情報を失ってしまうことがある。

【0049】

２ＤＣＮＮでは、図１７に示すように、畳み込みによりダウンサンプリングする際に、データのチャネル方向の局所領域及び幅方向の局所領域での畳み込みを用いる。

【0050】

例えば、図１８に示すように、２ＤＣＮＮを用いた生成器において、幅を、時間Ｔとし、チャネルを特徴量の次元Qとすると、畳み込む際に、時間方向（T）については局所的な関係を見て、特徴量次元方向（Q）についても局所的な関係を見ることになる。これにより、変換範囲が局所的となり、詳細構造を保持しやすい一方、ダイナミックな変化を表現しにくい。例えば、音声の場合、声の自然性を表す細い構造を保持しやすい一方、男性から女性への大きな変換を表現しにくく、中立的な声になってしまう。

【0051】

また、２ＤＣＮＮを用いた生成器では、時間方向及び特徴量次元方向について効率的に関係を見るために時間方向及び特徴量次元方向についてダウンサンプリングを行い、代わりにチャネル方向に次元を増す。次に、複数層から構成されたメイン変換部により徐々に変換を行う。そして、時間方向及び特徴量次元方向についてアップサンプリングを行い、元のサイズに戻す。

【0052】

このように、２ＤＣＮＮを用いた生成器では、詳細な情報を保持することが可能な一方、ダイナミックな変換が難しい。

【0053】

本発明の実施の形態では、生成器として、２ＤＣＮＮと１ＤＣＮＮを組み合わせたものを用いる。例えば、図２に示すように、生成器は、ダウンサンプリング変換部Ｇ１と、メイン変換部Ｇ２と、アップサンプリング変換部Ｇ３と、を含む。まず、ダウンサンプリング変換部Ｇ１が、２ＤＣＮＮを用いた生成器と同様に、時間方向及び特徴量次元方向について効率的に関係を見るために時間方向及び特徴量次元方向についてダウンサンプリングを行う。次に、メイン変換部Ｇ２は、１ＤＣＮＮに合わせた形状に変更した上で、チャネル方向について圧縮を行う。次に、メイン変換部Ｇ２は、１ＤＣＮＮによりダイナミックに変換を行う。そして、メイン変換部Ｇ２は、チャネル方向について拡張を行い、そして、２ＤＣＮＮに合わせた形状に変更する。そして、アップサンプリング変換部Ｇ３は、２ＤＣＮＮを用いた生成器と同様に、時間方向及び特徴量次元方向についてアップサンプリングを行い、元のサイズに戻す。なお、メイン変換部Ｇ２は、ダイナミック変換部の一例である。

【0054】

ここで、ダウンサンプリングやアップサンプリングの部分では、２ＤＣＮＮを使うことで、詳細構造の保持を優先する。

【0055】

このように、本実施の形態では、生成器として、２ＤＣＮＮと１ＤＣＮＮを組み合わせたものを用いることにより、２ＤＣＮＮを用いて詳細構造を保持することができ、１ＤＣＮＮを用いてダイナミックに変換することができる。

【0056】

また、メイン変換部では、例えば、以下の式に示す通常のNetworkを用いることができる。
y = F(x)

【0057】

ただし、上記のNetworkでは、変換の過程で元の情報（x）を失ってしまうことがある。

【0058】

そこで、本発明の実施の形態では、メイン変換部において、例えば、以下の式に示すResidual Networkを用いる。
y = x + R(x)

【0059】

上記のResidual Networkでは、元の情報（x）を保持しながら変換していくことが可能となる。このように、メイン変換部では、Residual構造により詳細構造の保持が元から可能であるため、生成器において１ＤＣＮＮを用いることでダイナミックな変換と詳細構造の保持の両方を可能とする。

【0060】

また、本発明の実施の形態では、従来技術における識別器のネットワーク構造を改良する。

【0061】

従来技術では、図１９に示すように、識別器の最終層において全結合層を用いるため、パラメータ数が多く、学習が困難である。

【0062】

そこで、本実施の形態では、図３に示すように、識別器の最終層において全結合層の代わりに畳み込み層を用いるため、パラメータ数が減り、学習の難しさが緩和される。

【0063】

＜本発明の実施の形態に係るデータ変換学習装置の構成＞
次に、本発明の実施の形態に係るデータ変換学習装置の構成について説明する。図４に示すように、本発明の実施の形態に係るデータ変換学習装置１００は、ＣＰＵと、ＲＡＭと、後述するデータ変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このデータ変換学習装置１００は、機能的には図４に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

【0064】

入力部１０は、変換元のドメインの音声信号の集合、及び変換先のドメインの音声信号の集合を受け付ける。

【0065】

演算部２０は、音響特徴抽出部３０と、学習部３２を含んで構成されている。

【0066】

音響特徴抽出部３０は、入力された変換元のドメインの音声信号の集合に含まれる音声信号の各々から、音響特徴量系列を抽出する。また、音響特徴抽出部３０は、入力された変換先のドメインの音声信号の集合に含まれる音声信号の各々から、音響特徴量系列を抽出する。

【0067】

学習部３２は、変換元のドメインの音声信号の各々における音響特徴量系列と、変換先のドメインの音声信号の各々における音響特徴量系列とに基づいて、変換元のドメインの音声信号の音響特徴量系列から変換先のドメインの音声信号の音響特徴量系列を生成する順方向生成器G_X→Yと、変換先のドメインの音声信号の音響特徴量系列から変換元のドメインの音声信号の音響特徴量系列を生成する逆方向生成器G_Y→Xとを学習する。

【0068】

具体的には、学習部３２は、目的関数の値を最小化するように、順方向生成器G_X→Y、逆方向生成器G_Y→Xを学習する。また、学習部３２は、上記式（５）に示す目的関数の値を最大化するように、変換先識別器D_Y、D_Y'、変換元識別器D_X、D_X'を学習する。このとき、変換先識別器D_Y、D_Y'のパラメータを別々に学習すると共に、変換元識別器D_X、D_X'のパラメータを別々に学習する。

【0069】

この目的関数は、上記式（５）に示すように、（ａ）順方向生成器G_X→Yによって生成された順方向生成データについての、順方向生成器G_X→Yによって生成された順方向生成データであるか否かを識別する変換先識別器D_Yによる識別結果、（ｂ）変換元のドメインの音声信号の音響特徴量系列と、変換元のドメインの音声信号の音響特徴量系列から順方向生成器G_X→Yによって生成された順方向生成データから、逆方向生成器G_Y→Xによって生成された逆方向生成データとの距離、（ｃ）順方向生成データから逆方向生成器G_Y→Xによって生成された逆方向生成データについての、逆方向生成器G_Y→Xによって生成された逆方向生成データであるか否かを識別する変換元識別器D_X'による識別結果、（ｄ）逆方向生成器G_Y→Xによって生成された逆方向生成データについての、逆方向生成器G_Y→Xによって生成された逆方向生成データであるか否かを識別する変換元識別器D_Xによる識別結果、（ｅ）変換先のドメインの音声信号の音響特徴量系列と、変換先のドメインの音声信号の音響特徴量系列から逆方向生成器G_Y→Xによって生成された逆方向生成データから、順方向生成器G_X→Yによって生成された順方向生成データとの距離、（ｆ）逆方向生成データから順方向生成器G_X→Yによって生成された順方向生成データについての、順方向生成器G_X→Yによって生成された順方向生成データであるか否かを識別する変換先識別器D_Y'による識別結果、（ｇ）変換先のドメインの音声信号の音響特徴量系列の変換先識別器D_Yによる識別結果、（ｈ）変換元のドメインの音声信号の音響特徴量系列についての変換元識別器D_Xによる識別結果、（ｉ）変換先のドメインの音声信号の音響特徴量系列と、変換先のドメインの音声信号の音響特徴量系列から順方向生成器G_X→Yによって生成された順方向生成データとの距離、及び（ｊ）変換元のドメインの音声信号の音響特徴量系列と、変換元のドメインの音声信号の音響特徴量系列から逆方向生成器G_Y→Xによって生成された逆方向生成データとの距離を用いて表される。

【0070】

学習部３２は、予め定められた終了条件を満たすまで、上記の順方向生成器G_X→Y、逆方向生成器G_Y→X、変換先識別器D_Y、D_Y'、及び変換元識別器D_X、D_X'の学習を繰り返し、最終的に得られた順方向生成器G_X→Y、逆方向生成器G_Y→Xを出力部５０により出力する。ここで、順方向生成器G_X→Y及び逆方向生成器G_Y→Xの各々は、２ＤＣＮＮと１ＤＣＮＮを組み合わせたものであり、ダウンサンプリング変換部Ｇ１と、メイン変換部Ｇ２と、アップサンプリング変換部Ｇ３と、を含む。順方向生成器G_X→Yのダウンサンプリング変換部Ｇ１は、変換元のドメインの音声信号の音響特徴量系列の局所的な構造を保持したダウンサンプリングを行う。メイン変換部Ｇ２は、ダウンサンプリング変換部Ｇ１の出力データをダイナミックに変換する。アップサンプリング変換部Ｇ３は、メイン変換部Ｇ２の出力データのアップサンプリングにより順方向生成データを生成する。

【0071】

逆方向生成器G_Y→Xのダウンサンプリング変換部Ｇ１は、変換先のドメインの音声信号の音響特徴量系列の局所的な構造を保持したダウンサンプリングを行う。メイン変換部Ｇ２は、ダウンサンプリング変換部Ｇ１の出力データをダイナミックに変換する。アップサンプリング変換部Ｇ３は、メイン変換部Ｇ２の出力データのアップサンプリングにより逆方向生成データを生成する。

【0072】

また、順方向生成器G_X→Y及び逆方向生成器G_Y→Xの各々は、一部の層について、Gated CNNが用いて出力が計算されるように構成されている。

【0073】

また、変換先識別器D_Y、D_Y'及び変換元識別器D_X、D_X'の各々は、最終層が畳み込み層を含むように構成されたニューラルネットワークを用いて構成される。

【0074】

＜本発明の実施の形態に係るデータ変換装置の構成＞
次に、本発明の実施の形態に係るデータ変換装置の構成について説明する。図５に示すように、本発明の実施の形態に係るデータ変換装置１５０は、ＣＰＵと、ＲＡＭと、後述するデータ変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このデータ変換装置１５０は、機能的には図５に示すように入力部６０と、演算部７０と、出力部９０とを備えている。

【0075】

入力部６０は、変換元のドメインの音声信号を、入力として受け付ける。

【0076】

演算部７０は、音響特徴抽出部７２と、データ変換部７４と、変換音声生成部７８とを含んで構成されている。

【0077】

音響特徴抽出部７２は、入力された変換元のドメインの音声信号から、音響特徴量系列を抽出する。

【0078】

データ変換部７４は、データ変換学習装置１００により学習された順方向生成器G_X→Yを用いて、音響特徴抽出部７２により抽出された音響特徴量系列から、変換先のドメインの音声信号の音響特徴量系列を推定する。

【0079】

変換音声生成部７８は、推定された変換先のドメインの音声信号の音響特徴量系列から、時間領域信号を生成し、変換先のドメインの音声信号として出力部９０により出力する。

【0080】

データ変換学習装置１００及びデータ変換装置１５０の各々は、一例として、図６に示すコンピュータ８４によって実現される。コンピュータ８４は、ＣＰＵ８６、メモリ８８、プログラム８２を記憶した記憶部９２、モニタを含む表示部９４、及びキーボードやマウスを含む入力部９６を含んでいる。ＣＰＵ８６、メモリ８８、記憶部９２、表示部９４、及び入力部９６はバス９８を介して互いに接続されている。

【0081】

記憶部９２はＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現される。記憶部９２には、コンピュータ８４をデータ変換学習装置１００又はデータ変換装置１５０として機能させるためのプログラム８２が記憶されている。ＣＰＵ８６は、プログラム８２を記憶部９２から読み出してメモリ８８に展開し、プログラム８２を実行する。なお、プログラム８２をコンピュータ可読媒体に格納して提供してもよい。

【0082】

＜本発明の実施の形態に係るデータ変換学習装置の作用＞
次に、本発明の実施の形態に係るデータ変換学習装置１００の作用について説明する。入力部１０により、変換元のドメインの音声信号の集合、及び変換先のドメインの音声信号の集合を受け付けると、データ変換学習装置１００は、図７に示すデータ変換学習処理ルーチンを実行する。

【0083】

まず、ステップＳ１００では、音響特徴抽出部３０は、入力された変換元のドメインの音声信号の各々から、音響特徴量系列を抽出する。また、入力された変換先のドメインの音声信号の各々から、音響特徴量系列を抽出する。

【0084】

次に、ステップＳ１０２では、学習部３２は、変換元のドメインの音声信号の各々における音響特徴量系列と、変換先のドメインの音声信号の各々における音響特徴量系列とに基づいて、順方向生成器G_X→Y、逆方向生成器G_Y→X、変換先識別器D_Y、D_Y'、及び変換元識別器D_X、D_X'を学習し、学習結果を出力部５０により出力して、データ変換学習処理ルーチンを終了する。

【0085】

上記ステップＳ１０２の学習部３２の処理は、図８に示す処理ルーチンにより実現される。

【0086】

まず、ステップＳ１１０において、変換元のドメインの音声信号の各々における音響特徴量系列の集合Ｘから、変換元のドメインの音声信号における音響特徴量系列ｘをランダムに１つだけ取得する。また、変換先のドメインの音声信号の各々における音響特徴量系列の集合Ｙから、変換先のドメインの音声信号における音響特徴量系列ｙをランダムに１つだけ取得する。

【0087】

ステップＳ１１２では、順方向生成器G_X→Yを用いて、変換元のドメインの音声信号における音響特徴量系列ｘを順方向生成データG_X→Y(x)に変換する。また、逆方向生成器G_Y→Xを用いて、変換先のドメインの音声信号における音響特徴量系列ｙを逆方向生成データG_Y→X(y)に変換する。

【0088】

ステップＳ１１４では、変換先識別器D_Yを用いて、順方向生成データG_X→Y(x)の識別結果と、変換先のドメインの音声信号における音響特徴量系列ｙの識別結果とを取得する。また、変換元識別器D_Xを用いて、逆方向生成データG_Y→X(y)の識別結果と、変換元のドメインの音声信号における音響特徴量系列ｘの識別結果とを取得する。

【0089】

ステップＳ１１６では、逆方向生成器G_Y→Xを用いて、順方向生成データG_X→Y(x)を逆方向生成データG_Y→X(G_X→Y(x))に変換する。また、順方向生成器G_X→Yを用いて、逆方向生成データG_Y→X(y)を順方向生成データG_X→Y(G_Y→X(y))に変換する。

【0090】

ステップＳ１１８において、変換先識別器D_Y’を用いて、順方向生成データG_X→Y(G_Y→X(y))の識別結果と、変換先のドメインの音声信号における音響特徴量系列ｙの識別結果とを取得する。また、変換元識別器D_X’を用いて、逆方向生成データG_Y→X(G_X→Y(x))の識別結果と、変換元のドメインの音声信号における音響特徴量系列ｘの識別結果とを取得する。

【0091】

ステップＳ１２０では、変換元のドメインの音声信号における音響特徴量系列xと、逆方向生成データG_Y→X(G_X→Y(x))との距離を測定する。また、変換先のドメインの音声信号における音響特徴量系列ｙと、順方向生成データG_X→Y(G_Y→X(y))との距離を測定する。

【0092】

ステップＳ１２２では、順方向生成器G_X→Yを用いて、変換先のドメインの音声信号における音響特徴量系列yを順方向生成データG_X→Y(y)に変換する。また、逆方向生成器G_Y→Xを用いて変換元のドメインの音声信号における音響特徴量系列xを逆方向生成データG_Y→X(x)に変換する。

【0093】

ステップＳ１２４では、変換先のドメインの音声信号における音響特徴量系列yと、順方向生成データG_X→Y(y)との距離を測定する。また、変換元のドメインの音声信号における音響特徴量系列xと、逆方向生成データG_Y→X(x)との距離を測定する。

【0094】

ステップＳ１２６では、上記ステップＳ１１４、Ｓ１１８、ステップＳ１２０、Ｓ１２４で得られた各種データに基づいて、上記式（５）に示す目的関数の値を最小化するように、順方向生成器G_X→Y、逆方向生成器G_Y→Xのパラメータを学習する。また、学習部３２は、上記ステップＳ１１４、Ｓ１１８、ステップＳ１２０、Ｓ１２４で出力された各種データに基づいて、上記式（５）に示す目的関数の値を最大化するように、変換先識別器D_Y、D_Y'、及び変換元識別器D_X、D_X'のパラメータを学習する。

【0095】

ステップＳ１２８において、全てのデータについて終了したか否かを判断する。全てのデータについて終了していない場合、ステップＳ１００に戻り、再度ステップＳ１１０～Ｓ１２６の処理を行う。

【0096】

一方、全てのデータについて終了している場合、処理を終了する。

【0097】

＜本発明の実施の形態に係るデータ変換装置の作用＞
次に、本発明の実施の形態に係るデータ変換装置１５０の作用について説明する。入力部６０により、データ変換学習装置１００による学習結果を受け付ける。また、入力部６０により、変換元のドメインの音声信号を受け付けると、データ変換装置１５０は、図９に示すデータ変換処理ルーチンを実行する。

【0098】

まず、ステップＳ１５０では、入力された変換元のドメインの音声信号から、音響特徴量系列を抽出する。

【0099】

次に、ステップＳ１５２では、データ変換学習装置１００により学習された順方向生成器G_X→Yを用いて、音響特徴抽出部７２により抽出された音響特徴量系列から、変換先のドメインの音声信号の音響特徴量系列を推定する。

【0100】

ステップＳ１５６では、推定された変換先のドメインの音声信号の音響特徴量系列から、時間領域信号を生成し、変換先の音声信号として出力部９０により出力して、データ変換処理ルーチンを終了する。

【0101】

＜実験結果＞
本発明の実施の形態の手法によるデータ変換効果を確認するため、Voice Conversion Challenge(VCC)2018の音声データ（女性話者VCC2SF3、男性話者VCC2SM3、女性話者VCC2TF1、男性話者VCC2TM1）を用いて音声変換実験を行った。

【0102】

また、各話者につき81文を学習データ、35文をテストデータとし、全音声信号のサンプリング周波数は22.05kHzとした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F₀)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。

【0103】

本実験では、順方向生成器G_X→Y及び逆方向生成器G_Y→Xの各々のネットワーク構成を図１０のとおりとし、変換先識別器D_Y及び変換元識別器D_Xのネットワーク構成を図１１のとおりとした。

【0104】

ここで、上記図１０、図１１において、"c", "h", "w" はそれぞれ、生成器の入出力および識別器の入出力を画像と見なしたときのチャネル、高さ、幅を表す。"Conv", "Batch norm", "GLU", "Deconv", "Softmax"はぞれぞれ畳み込み層、バッチ正規化層、ゲート付き線形ユニット、転置畳み込み層、ソフトマックス層を表す。畳み込み層または転置畳み込み層における"k", "c", "s" はそれぞれカーネルサイズ、出力チャネル数、ストライド幅を表す。

【0105】

また、音声変換の実験結果として、メルケプ歪み（Mel-cepstral distortion (MCD)）で評価した結果を表１に示す。このメルケプ歪みでは、変換元のデータと変換先のデータのグローバルな構造（系列データの全体的な変動具合）の差異を評価することができ、値が小さいほうが良いことを示している。

【0106】

【表1】

【0107】

１段目は、従来技術の目的関数を用いた場合であり、すなわち、目的関数として、上記式（５）からSecond adversarial lossを除いたものである。２段目～５段目は、目的関数として、上記式（５）に示したものを用いている。１段目と５段目とを比較すると、本実施の形態に係る目的関数を用いることにより、グローバルな構造に関して音声変換精度が向上することがわかる。

【0108】

また、音声変換の実験結果として、モジュレーションスペクトログラム距離（Modulation spectra distance (MSD)）で評価した結果を表２に示す。このモジュレーションスペクトログラム距離では、変換元のデータと変換先のデータの詳細な構造（系列データの微細な振動具合）の差異を評価することができ、値が小さいほうが良いことを示している。

【0109】

【表2】

【0110】

１段目と５段目とを比較すると、本実施の形態に係る目的関数を用いることにより、詳細な構造に関して音声変換精度が向上することがわかる。また、表１、表２において、２段目は、上記図１６に示す生成器を用いた場合である。２段目と５段目とを比較すると、本実施の形態に係る生成器を用いることにより、音声変換精度が向上することがわかる。また、表１、表２において、３段目は、上記図１８に示す生成器を用いた場合である。３段目と５段目とを比較すると、本実施の形態に係る生成器を用いることにより、音声変換精度が向上することがわかる。

【0111】

また、表１、表２において、４段目は、上記図１９に示す識別器を用いた場合である。４段目と５段目とを比較すると、本実施の形態に係る生成器を用いることにより、グローバルな構造及び詳細な構造に関して音声変換精度が向上することがわかる。

【0112】

以上説明したように、本発明の実施の形態に係るデータ変換学習装置は、順方向生成器によって生成された順方向生成データについての、順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器による識別結果、変換元のドメインのデータと、変換元のドメインのデータから順方向生成器によって生成された順方向生成データから、逆方向生成器によって生成された逆方向生成データとの距離、順方向生成データから逆方向生成器によって生成された逆方向生成データについての、逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器による識別結果、逆方向生成器によって生成された逆方向生成データについての、逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器による識別結果、変換先のドメインのデータと、変換先のドメインのデータから逆方向生成器によって生成された逆方向生成データから、順方向生成器によって生成された順方向生成データとの距離、及び逆方向生成データから順方向生成器によって生成された順方向生成データについての、順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、順方向生成器、逆方向生成器、変換先識別器、及び変換元識別器を学習する。また、順方向生成器及び逆方向生成器の各々は、２ＤＣＮＮと１ＤＣＮＮを組み合わせたものであり、ダウンサンプリング変換部Ｇ１と、メイン変換部Ｇ２と、アップサンプリング変換部Ｇ３と、を含む。これにより、変換先のドメインのデータに精度よく変換することができる生成器を学習することができる。

【0113】

また、本発明の実施の形態に係るデータ変換装置の順方向生成器及び逆方向生成器の各々は、２ＤＣＮＮと１ＤＣＮＮを組み合わせたものであり、ダウンサンプリング変換部Ｇ１と、メイン変換部Ｇ２と、アップサンプリング変換部Ｇ３と、を含む。これにより、変換先のドメインのデータに精度よく変換することができる。

【0114】

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0115】

例えば、上述した実施の形態では、データ変換学習装置及びデータ変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

【0116】

また、変換対象となるデータが、音声信号の音響特徴量系列であり、女性から男性へと話者変換を行う場合を例に説明したが、これに限定されるものではない。例えば、変換対象となるデータが、音信号の音響特徴量系列であり、曲調変換を行う場合に適用してもよい。例えば、曲調をクラシックからロックへ変換する。

【0117】

また、変換対象となるデータが、音信号の音響特徴量系列であり、楽器変換を行う場合に適用してもよい。例えば、楽器をピアノからフルートへ変換する。

【0118】

また、変換対象となるデータが、音声信号の音響特徴量系列であり、感情変換を行う場合に適用してもよい。例えば、怒った声から嬉しい声へ変換する。

【0119】

また、変換対象となるデータが、音声信号の音響特徴量系列である場合を例に説明したが、これに限定されるものではなく、画像や、センサデータ、映像、テキストなどの特徴量又は特徴量系列を対象としてもよい。例えば、変換元のドメインを機械A種の異常データとした場合、本発明を適用した結果得られた機械B種の異常データ、機械A種の別の異常データ等として、機械B種の異常データの自然性や機械A種もしくは機械B種の異常データらしさを向上させた異常データを得ることができる。

【0120】

変換対象となるデータが、時系列データである場合を例に説明したが、これに限定されるものではなく、変換対象となるデータが、時系列データではないデータであってもよい。例えば、変換対象となるデータが、画像であってもよい。

【0121】

また、変換先識別器D_Y、D_Y'のパラメータが共通であってもよい。また、変換元識別器D_X、D_X'のパラメータが共通であってもよい。

【0122】

また、生成器において、中央の１ＤＣＮＮの間に２ＤＣＮＮを挟んだり、中央の１ＤＣＮＮの部分で１ＤＣＮＮと２ＤＣＮＮを交互に配置するように構成してもよい。例えば、前のＣＮＮの出力結果を次のＣＮＮに適するように変形する処理と、次のＣＮＮの出力結果を逆変形する処理と、を追加するようにすることで、２以上の１ＤＣＮＮと2ＤＣＮＮを組み合わせることができる。また、上記の実施の形態では、１ＤＣＮＮと２ＤＣＮＮを組み合わせる場合を例として記載したが、ＮＤＣＮＮとＭＤＣＮＮのように任意のＣＮＮを組合せることができる。
また、Adversarial lossでは、binary cross entropyを用いた場合を説明したが、least square lossやWasserstein lossなどの任意のGANの目的関数を用いてもよい。

【0123】

また、上述のデータ変換学習装置、データ変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

【0124】

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

【符号の説明】

【0125】

１０、６０入力部
２０、７０演算部
３０音響特徴抽出部
３２学習部
５０、９０出力部
７２音響特徴抽出部
７４データ変換部
７８変換音声生成部
８２プログラム
８４コンピュータ
１００データ変換学習装置
１５０データ変換装置

【図1】