IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7517601ハイパーパラメータ最適化システム、方法およびプログラム
<>
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図1
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図2
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図3
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図4
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図5
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図6
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図7
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図8
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図9
  • 特許-ハイパーパラメータ最適化システム、方法およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】ハイパーパラメータ最適化システム、方法およびプログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20240709BHJP
   G10L 25/30 20130101ALI20240709BHJP
   G10L 15/20 20060101ALN20240709BHJP
【FI】
G10L21/0208 100B
G10L25/30
G10L15/20 380
【請求項の数】 10
(21)【出願番号】P 2023517722
(86)(22)【出願日】2020-10-15
(65)【公表番号】
(43)【公表日】2023-10-02
(86)【国際出願番号】 JP2020038860
(87)【国際公開番号】W WO2022079848
(87)【国際公開日】2022-04-21
【審査請求日】2023-03-16
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【弁理士】
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【弁理士】
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】ワン チョンチョン
(72)【発明者】
【氏名】越仲 孝文
【審査官】毛利 太郎
(56)【参考文献】
【文献】国際公開第2020/045313(WO,A1)
【文献】Micro Ravanelli, et al.,A Network of Deep Neural Networks for Distant Speech Recognition,ICASSP2017,米国,2017年06月19日,p.4880-4884,[online], <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7953084>, [検索日:2020年11月17日]
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 - 25/93
G10K 11/00 - 11/36
(57)【特許請求の範囲】
【請求項1】
スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定するスピーチ強調手段と、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化手段と、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成するマスク生成手段とを備え、
前記マスク生成手段は、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクを生成する
ことを特徴とするハイパーパラメータ最適化システム。
【請求項2】
第一ハイパーパラメータ最適化手段は、雑音を含むスピーチデータが入力された際に、第一ハイパーパラメータを出力するように、下流タスクの処理結果を示す下流タスクラベル、ノイズを含むトレーニングスピーチ、前記強調マスクおよび下流タスクのニューラルネットワークのパラメータを含む教師データを用いた機械学習処理が施された学習済みの第一ハイパーパラメータニューラルネットワークを有する
請求項1記載のハイパーパラメータ最適化システム。
【請求項3】
スピーチ強調手段は、雑音を含むスピーチデータが入力された際に、当該スピーチデータから強調マスクを出力するように機械学習処理が施された学習済みのスピーチ強調ニューラルネットワークを有する
請求項1または請求項2記載のハイパーパラメータ最適化システム。
【請求項4】
トレーニングスピーチ、強調マスクおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と、第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク学習手段を備えた
請求項1から請求項3のうちのいずれか1項に記載のハイパーパラメータ最適化システム。
【請求項5】
トレーニングスピーチ、強調マスク、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク&下流タスクニューラルネットワーク学習手段を備えた
請求項1から請求項3のうちのいずれか1項に記載のハイパーパラメータ最適化システム。
【請求項6】
ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク&スピーチ強調ニューラルネットワーク学習手段を備えた
請求項1から請求項3のうちのいずれか1項に記載のハイパーパラメータ最適化システム。
【請求項7】
ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワーク、および、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワークを学習する3種ニューラルネットワーク学習手段を備えた
請求項1から請求項3のうちのいずれか1項に記載のハイパーパラメータ最適化システム。
【請求項8】
音声強化ニューラルネットワークの訓練に使用される第2のハイパーパラメータを最適化する第二ハイパーパラメータ最適化手段と、
第二ハイパーパラメータ最適化手段から第2ハイパーパラメータを受け取り、第2ハイパーパラメータの累乗のマスクをターゲットとして算出するターゲット計算手段とを備えた
請求項6または請求項7記載のハイパーパラメータ最適化システム。
【請求項9】
スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定し、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定し、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成し、
前記適応的マスクを生成する際、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクが生成される
ことを特徴とするハイパーパラメータ最適化方法。
【請求項10】
コンピュータに、
スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定するスピーチ強調処理
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化処理および、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成するマスク生成処理を実行させ
前記マスク生成処理で、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクを生成させる
ためのハイパーパラメータ最適化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声強調に用いられるマスクの最適なハイパーパラメータを決定するハイパーパラメータ最適化システム、ハイパーパラメータ最適化方法およびハイパーパラメータ最適化プログラムに関する。
【背景技術】
【0002】
ニュートラルネットワークベースの音声強調方法は、複数の前処理ステップを手動で行う一般的な方法よりも有望である。例えば、非特許文献1には、音声強調を行う際に用いられる分離アリゴリズムとして、ディープラーニングに基づく教師付き音声分離方法が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】D. L. Wang and J. Chen, "Supervised speech separation based on deep learning: An overview", IEEE/ACM, Trans. Audio Speech Lang. Process., 26, pp.1702-1726, 2018
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、音声強調の目的は音声品質を改良することである。そのため、音声強調は、例えば、音声認識や話者認識など、強調された音声を用いた後続のタスク(以下、下流のタスクと記す。)を保証するものではない。言い換えると、適切な音声強調方法は、下流のタスクによって異なる場合がある。そのため、例えば、非特許文献1に記載された音声強化を用いた場合、クリーンまたはノイズの少ないスピーチにより、下流のタスクの性能が低下する可能性がある。
【0005】
そこで、下流のタスクに応じて音声強調を行うマスクを設定することが考えられる。しかし、音声強調を行う際に用いられるマスクのハイパーパラメータをユーザが下流のタスクごとに適切に設定することは難しい。そのため、下流のタスクの性質に応じて音声強調を行うマスクの最適なハイパーパラメータを決定できることが好ましい。
【0006】
そこで、下流のタスクの性質に応じて音声強調を行うマスクの最適なハイパーパラメータを決定できるハイパーパラメータ最適化システム、ハイパーパラメータ最適化方法およびハイパーパラメータ最適化プログラムを提供することが、本開示の例示的な目的である。
【課題を解決するための手段】
【0007】
ハイパーパラメータ最適化システムは、スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクをそのテスト発話から決定するスピーチ強調手段と、テスト発話が入力されると、強調されたそのテスト発話を用いて処理が行われる下流タスクを考慮して設定される、マスクを用いてテスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化手段と、決定された強調マスクおよび第一ハイパーパラメータから、下流タスクに適したテスト発話の強調を行う適応的マスクを生成するマスク生成手段とを備え、マスク生成手段が、第一ハイパーパラメータをマスクの累乗とする適応的マスクを生成することを特徴とする。
【0008】
ハイパーパラメータ最適化方法は、スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクをそのテスト発話から決定し、テスト発話が入力されると、強調されたそのテスト発話を用いて処理が行われる下流タスクを考慮して設定される、マスクを用いてテスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定し、決定された強調マスクおよび第一ハイパーパラメータから、下流タスクに適したテスト発話の強調を行う適応的マスクを生成し、適応的マスクを生成する際、第一ハイパーパラメータをマスクの累乗とする適応的マスクが生成されることを特徴とする。
【0009】
ハイパーパラメータ最適化プログラムは、コンピュータに、スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクをそのテスト発話から決定するスピーチ強調処理、テスト発話が入力されると、強調されたそのテスト発話を用いて処理が行われる下流タスクを考慮して設定される、マスクを用いてテスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化処理、および、決定された強調マスクおよび第一ハイパーパラメータから、下流タスクに適したテスト発話の強調を行う適応的マスクを生成するマスク生成処理を実行させ、マスク生成処理で、第一ハイパーパラメータをマスクの累乗とする適応的マスクを生成させることを特徴とする。
【図面の簡単な説明】
【0010】
図1】本開示によるハイパーパラメータ最適化システムの第一の実施形態の構成例を示すブロック図である。
図2】第一の実施形態のハイパーパラメータ最適化システム100の動作例を示すフローチャートである。
図3】本開示によるハイパーパラメータ最適化システムの第二の実施形態の構成例を示すブロック図である。
図4】第二の実施形態のハイパーパラメータ最適化システム200の動作例を示すフローチャートである。
図5】本開示によるハイパーパラメータ最適化システムの第三の実施形態の構成例を示すブロック図である。
図6】第三の実施形態のハイパーパラメータ最適化システム300の動作例を示すフローチャートである。
図7】本開示によるハイパーパラメータ最適化システムの第四の実施形態の構成例を示すブロック図である。
図8】第四の実施形態のハイパーパラメータ最適化システム400の動作例を示すフローチャートである。
図9】本開示によるハイパーパラメータ最適化システムの概要を示すブロック図である。
図10】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態を図面を参照して説明する。
【0012】
なお、以下の説明では、テキストにギリシャ文字を使用する場合、ギリシャ文字の英語表記を大括弧([])で囲むことがある。また、各ブロック図で示す一方向性の矢印は、情報の流れの方向を端的に示したものであり、双方向性を排除するものではない。
【0013】
実施形態1.
図1は、本開示によるハイパーパラメータ最適化システムの第一の実施形態の構成例を示すブロック図である。第一の実施形態のハイパーパラメータ最適化システム100は、トレーニングスピーチ入力部12と、スピーチ強調ニューラルネットワークパラメータ(以下、スピーチ強調NNパラメータと記す。)記憶部14と、第一スピーチ強調部16と、下流タスクニューラルネットワークパラメータ(以下、下流タスクNNパラメータと記す。)記憶部18と、第一ハイパーパラメータニューラルネットワーク(以下、第一ハイパーパラメータNNと記す。)学習部20と、第一ハイパーパラメータNNパラメータ記憶部22と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とを備えている。
【0014】
トレーニングスピーチ入力部12は、後述する第一ハイパーパラメータNN学習部20が、トレーニングに用いるスピーチデータ(以下、トレーニングスピーチと記す。)を受け付ける。具体的には、トレーニングスピーチ入力部12は、トレーニングスピーチとして、雑音を含むスピーチ(以下、雑音スピーチと記す。)を受け付ける。また、トレーニングスピーチには、雑音スピーチに対して後述する下流タスク処理部32が行うと想定される処理結果を示すラベル(以下、下流タスクラベルと記すこともある。)が含まれる。
【0015】
雑音スピーチは、音声強調を行う対象のスピーチデータが取得される環境(例えば、雑音が含まれる状況や、言語、ドメインなど)に則して作成される。また、下流タスクラベルは、下流タスク処理部32が行う処理の内容に応じて決定される。例えば、下流タスク処理部32が話者認識を行う場合、下流タスクラベルは、話者ID等である。
【0016】
トレーニングスピーチ入力部12は、外部のストレージサーバ(図示せず)からトレーニングスピーチの入力を受け付けてもよく、ハイパーパラメータ最適化システム100が備える記憶部(図示せず)からトレーニングスピーチを取得してもよい。
【0017】
スピーチ強調NNパラメータ記憶部14は、音声強調を行うマスクに基づいて生成される強調マスク(以下、単にマスクと記すこともある。)をスピーチデータから生成するニューラルネットワークの学習済みパラメータを記憶する。また、スピーチ強調ニューラルネットワークをスピーチ強調NNと記す。なお、強調マスクは、例えば、マスクのハイパーパラメータの累乗で定義され、所望の音声を強調するために用いられる。
【0018】
スピーチ強調NNは、雑音を含むスピーチデータ(音声信号)から強調マスクを出力するよう、コンピュータを機能させるための学習済みモデルである。具体的には、スピーチ強調NNは、雑音を含むスピーチデータが入力された際に、そのスピーチデータに含まれる所望の音声の強調に用いられる最適なマスク(すなわち、強調マスク)を算出するように、教師データを用いた機械学習処理が施された学習済みのニューラルネットワークである。
【0019】
本実施形態で用いられるマスクの態様は、特に限定されない。マスクは、例えば、理想比マスク、複素理想比マスク、スペクトルマグニチュードマスク、および位相感応マスクのうちの少なくとも1つの形態をとる実数または複素数の連続値からなる行列である。
【0020】
なお、第一の実施形態では、スピーチ強調NNが他の学習装置(図示せず)等により予め学習され、学習されたスピーチ強調NNのパラメータがスピーチ強調NNパラメータ記憶部14に記憶されているものとする。
【0021】
第一スピーチ強調部16は、スピーチ強調NNパラメータ記憶部14に記憶されたスピーチ強調NNパラメータを用いて、受け付けたトレーニングスピーチから音声強調に用いられるマスク(すなわち、強調マスク)を決定する。具体的には、第一スピーチ強調部16は、スピーチ強調NNパラメータで示されるニューラルネットワークの入力層にトレーニングスピーチを適用して、出力層から強調マスクを出力する。なお、第一スピーチ強調部16は、スピーチ強調NNパラメータ記憶部14に記憶されたスピーチ強調NNパラメータを取得することから、スピーチ強調NNを有しているとも言える。
【0022】
下流タスクNNパラメータ記憶部18は、後述する下流タスク処理部32が処理を行う際に用いるニューラルネットワーク(以下、下流タスクNNと記す。)のパラメータを記憶する。以下、本実施形態では、下流タスクNNパラメータ記憶部18は、既に学習された下流タスクNNのパラメータを記憶しているものとする。
【0023】
第一ハイパーパラメータNN学習部20は、後述する第一ハイパーパラメータ最適化部26が、スピーチデータに対して下流タスクの処理に適した強調を行うマスク(以下、適応的マスクと記す。)の累乗に対応するハイパーパラメータγ(以下、第一ハイパーパラメータと記す。)を推定するニューラルネットワーク(以下、第一ハイパーパラメータNNと記す。)を学習する。なお、ハイパーパラメータγは、非負のスカラ値である。
【0024】
この第一ハイパーパラメータは、下流のタスクを考慮して設定される、マスクを用いてテストに用いられる発話データを表わす信号を維持する度合いを表わすハイパーパラメータであり、値が小さいほど、より多くの信号を維持することを示す。
【0025】
また、第一ハイパーパラメータNNは、雑音を含むスピーチデータが入力された際に、最適な第一ハイパーパラメータを算出するように、トレーニングスピーチ(下流タスクラベル含む)、マスク(強調マスク)および下流タスクNNのパラメータを含む教師データを用いた機械学習処理が施された学習済みニューラルネットワークである。
【0026】
具体的には、第一ハイパーパラメータNN学習部20は、スピーチデータの入力を受け付ける入力層と、第一ハイパーパラメータを出力する出力層とを含むニューラルネットワークに対し、ノイズを含むトレーニングスピーチ(下流タスクラベル含む)、マスクおよび下流タスクNNのパラメータを含むデータを教師データとして用いて、下流タスクラベルと後述する下流タスク処理部32(下流タスクNN)の処理結果との誤差を示す損失関数を最小化するようにニューラルネットワークの重み付け係数を学習する。
【0027】
なお、損失関数の内容は、下流タスクの態様に依存する。例えば、下流タスクが話者認識であり、下流タスク処理部32が処理結果として、推定された話者IDの事後確率を出力するとする。この場合、第一ハイパーパラメータNN学習部20は、下流タスクラベルが示す実際の話者IDと、推定された話者IDの事後確率と間のクロスエントロピー誤差を最小化するようにニューラルネットワークの重み付け係数を学習してもよい。
【0028】
第一ハイパーパラメータNNパラメータ記憶部22は、第一ハイパーパラメータNN学習部20によって学習された第一ハイパーパラメータNNのパラメータを記憶する。
【0029】
第二スピーチ強調部24は、テスト発話が入力されると、スピーチ強調NNパラメータ記憶部14に記憶されたスピーチ強調NNパラメータを用いて、そのテスト発話から強調マスクを決定する。なお、マスクの決定方法は、第一スピーチ強調部16が行う方法と同様である。なお、第二スピーチ強調部24も、スピーチ強調NNパラメータ記憶部14に記憶されたスピーチ強調NNパラメータを取得することから、スピーチ強調NNを有していると言える。
【0030】
第一ハイパーパラメータ最適化部26は、テスト発話が入力されると、入力されたテスト発話を第一ハイパーパラメータNNに適用して、最適化されたハイパーパラメータγ(すなわち、第一ハイパーパラメータ)を算出する。
【0031】
マスク生成部28は、第二スピーチ強調部24により決定された強調マスクおよび第一ハイパーパラメータ最適化部26により最適化された第一ハイパーパラメータγから、下流タスクに適したテスト発話の強調を行うマスク(すなわち、適応的マスク)Mγを生成する。具体的には、マスク生成部28は、第一ハイパーパラメータγをマスクの累乗とする適応的マスクを生成する。適応的マスクMγも、実数値の時間周波数行列である。
【0032】
適応的スピーチ強調部30は、テスト発話に適応的マスクMγを適用して、強調されたスピーチデータ(以下、適応的スピーチデータと記す。)を生成する。なお、音声強調されたスピーチデータY´は、テスト発話をYとすると、以下に例示する式1で表わされる。
【0033】
Y´=Y*M (式1)
【0034】
下流タスク処理部32は、適応的スピーチ強調部30によって生成された適応的スピーチデータを下流タスクNNに入力して、処理結果を出力する。なお、下流タスクNNの態様は、処理内容に応じて定められる。例えば、下流タスクの内容が、話者認識である場合、下流タスク処理部32は、処理結果として、上述するように話者IDの事後確率を出力してもよい。
【0035】
なお、第一ハイパーパラメータNN学習部20は、出力された処理結果に基づき、損失関数を用いて誤差を算出し、算出した誤差を第一ハイパーパラメータNNに伝播させる。
【0036】
トレーニングスピーチ入力部12と、第一スピーチ強調部16と、第一ハイパーパラメータNN学習部20と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とは、プログラム(ハイパーパラメータ最適化プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、パラメータ最適化システムが備える記憶媒体(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、トレーニングスピーチ入力部12、第一スピーチ強調部16、第一ハイパーパラメータNN学習部20、第二スピーチ強調部24、第一ハイパーパラメータ最適化部26、マスク生成部28、適応的スピーチ強調部30および下流タスク処理部32として動作してもよい。また、ハイパーパラメータ最適化システム100の機能がSaaS(Software as a Service )形式で提供されてもよい。
【0037】
また、トレーニングスピーチ入力部12と、第一スピーチ強調部16と、第一ハイパーパラメータNN学習部20と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
【0038】
また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0039】
また、スピーチ強調NNパラメータ記憶部14と、下流タスクNNパラメータ記憶部18と、第一ハイパーパラメータNNパラメータ記憶部22とは、例えば、磁気ディスク等により実現される。
【0040】
次に、本実施形態のハイパーパラメータ最適化システムの動作を説明する。図2は、第一の実施形態のハイパーパラメータ最適化システム100の動作例を示すフローチャートである。
【0041】
第二スピーチ強調部24は、テスト発話をスピーチ強調NNに入力して強調マスクを決定する(ステップS11)。また、第一ハイパーパラメータ最適化部26は、テスト発話を第一ハイパーパラメータNNに入力して、第一ハイパーパラメータγを出力する(ステップS12)。そして、マスク生成部28は、決定された強調マスクおよび第一ハイパーパラメータから、適応的マスクMγを生成する(ステップS13)。
【0042】
以降、適応的スピーチ強調部30が適応的マスクMγを用いてテスト発話から適応的スピーチデータを生成し、下流タスク処理部32が、生成された適応的スピーチデータを下流タスクNNに入力して、処理結果を出力する。
【0043】
なお、本実施形態では、第一ハイパーパラメータNN学習部20が、トレーニングスピーチ、強調マスクおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、第一ハイパーパラメータNNを学習する。
【0044】
以上のように、本実施形態では、第二スピーチ強調部24が、テスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクをそのテスト発話から決定し、第一ハイパーパラメータ最適化部26が、テスト発話が入力されると、第一ハイパーパラメータγを決定する。そして、マスク生成部28が、第一ハイパーパラメータをマスクの累乗とする適応的マスクMγを生成する。よって、下流のタスクの性質に応じて音声強調を行うマスクの最適なハイパーパラメータを決定できる。
【0045】
すなわち、本実施形態では、第一ハイパーパラメータNN学習部20で学習された第一ハイパーパラメータNNから、下流タスクに適したテスト発話の強調を行う適応的マスクを生成する。その結果、音声の明瞭化と下流タスクの音声に対する処理精度とのトレードオフを考慮して、音声を強調することが可能になる。
【0046】
実施形態2.
次に、本開示のハイパーパラメータ最適化システムの第二の実施形態を説明する。第一の実施形態では、下流タスクNNのパラメータが予め学習され、下流タスクNNパラメータ記憶部18に記憶されている構成を例示した。第二の実施形態では、第一ハイパーパラメータNNおよび下流タスクNNの学習を併せて行う構成例を説明する。
【0047】
図3は、本開示によるハイパーパラメータ最適化システムの第二の実施形態の構成例を示すブロック図である。第二の実施形態のハイパーパラメータ最適化システム200は、トレーニングスピーチ入力部12と、スピーチ強調NNパラメータ記憶部14と、第一スピーチ強調部16と、下流タスクラベル記憶部34と、第一ハイパーパラメータNN&下流タスクNN学習部36と、下流タスクNNパラメータ記憶部18と、第一ハイパーパラメータNNパラメータ記憶部22と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とを備えている。
【0048】
すなわち、本実施形態のハイパーパラメータ最適化システム200は、第一の実施形態のハイパーパラメータ最適化システム100と比較し、下流タスクラベル記憶部34をさらに備え、第一ハイパーパラメータNN学習部20の代わりに第一ハイパーパラメータNN&下流タスクNN学習部36を備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。
【0049】
下流タスクラベル記憶部34は、後述する第一ハイパーパラメータNN&下流タスクNN学習部36が下流タスクNNの学習に用いるタスクトレーニングデータを記憶する。タスクトレーニングデータは、スピーチデータと下流タスクの正解ラベル(すなわち、下流タスクラベル)とを対応付けたデータであり、下流タスクの内容に応じて定められる。例えば、下流タスクが話者認識の場合、下流タスクラベル記憶部34は、タスクトレーニングデータとして、雑音のないスピーチ(以下、クリーンスピーチと記す。)と話者IDとを対応付けたデータを記憶していてもよい。また、例えば、下流タスクが音声認識の場合、下流タスクラベル記憶部34は、タスクトレーニングデータとして、雑音のないスピーチとテキストの内容とを対応付けたデータを記憶していてもよい。
【0050】
第一ハイパーパラメータNN&下流タスクNN学習部36は、第一ハイパーパラメータNNおよび下流タスクNNを学習する。具体的には、第一ハイパーパラメータNN&下流タスクNN学習部36は、スピーチデータの入力を受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータNN、および、スピーチデータの入力を受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクNNに対し、トレーニングスピーチ、マスク、および、タスクトレーニングデータを教師データとして用いて、下流タスクラベルと下流タスク処理部32の処理結果との誤差を示す損失関数を最小化するように、第一ハイパーパラメータNN、および、下流タスクNNの重み付け係数を学習する。
【0051】
トレーニングスピーチ入力部12と、第一スピーチ強調部16と、第一ハイパーパラメータNN&下流タスクNN学習部36と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とは、プログラム(ハイパーパラメータ最適化プログラム)に従って動作するコンピュータのCPUによって実現される。
【0052】
次に、本実施形態のハイパーパラメータ最適化システムの動作を説明する。図4は、第二の実施形態のハイパーパラメータ最適化システム200の動作例を示すフローチャートである。
【0053】
第一ハイパーパラメータNN&下流タスクNN学習部36は、トレーニングスピーチ、マスク、および、タスクトレーニングデータを教師データとして用いた機械学習処理により、第一ハイパーパラメータNNおよび下流タスクNNを学習する(ステップS21)。以降、学習された第一ハイパーパラメータNNおよび下流タスクNNを用いて、図2におけるステップS11からステップS13の処理が行われる。
【0054】
以上のように、本実施形態では、第一ハイパーパラメータNN&下流タスクNN学習部36が、第一ハイパーパラメータNNおよび下流タスクNNを学習する。よって、第一の実施形態の効果に加え、下流タスクNNも同時に最適化できる。
【0055】
実施形態3.
次に、本開示のハイパーパラメータ最適化システムの第三の実施形態を説明する。第一の実施形態および第二の実施形態では、スピーチ強調NNのパラメータが予め学習され、スピーチ強調NNパラメータ記憶部14に記憶されている構成を例示した。第三の実施形態では、第一ハイパーパラメータNNおよびスピーチ強調NNの学習を併せて行う構成例を説明する。
【0056】
図5は、本開示によるハイパーパラメータ最適化システムの第三の実施形態の構成例を示すブロック図である。第三の実施形態のハイパーパラメータ最適化システム300は、ノイズ記憶部42と、クリーンスピーチ記憶部44と、結合部46と、ノイズスピーチ記憶部48と、第二ハイパーパラメータ最適化部50と、ターゲット計算部52と、ターゲット記憶部54と、第一ハイパーパラメータNN&スピーチ強調NN学習部56とを備えている。
【0057】
さらに、第三の実施形態のハイパーパラメータ最適化システム300は、第二の実施形態のハイパーパラメータ最適化システム200と同様の構成として、スピーチ強調NNパラメータ記憶部14と、下流タスクラベル記憶部34と、下流タスクNNパラメータ記憶部18と、第一ハイパーパラメータNNパラメータ記憶部22と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とを備えている。
【0058】
ノイズ記憶部42は、テスト発話に対して想定される一種類以上のノイズ信号を記憶する。また、クリーンスピーチ記憶部44は、テスト発話と同様の条件(同様のドメイン)等で取得され得る、ノイズを含まないスピーチ(クリーンスピーチ)を記憶する。ノイズ信号およびクリーンスピーチは、ユーザ等により予め準備され、ノイズ記憶部42およびクリーンスピーチ記憶部44にそれぞれ記憶される。
【0059】
結合部46は、ノイズ信号とクリーンスピーチとを組み合わせて、ノイズを含むスピーチ(以下、ノイズスピーチと記すこともある。)を生成する。生成されるノイズスピーチは、例えば、以下の式で表わされる。なお、ここでのxは、生成されたノイズスピーチのSNR(音声ノイズ比:speech-noise ratio)を決定するために使用される。また、ノイズスピーチの生成方法は広く知られているため、ここでは詳細な説明は省略する。
【0060】
ノイズスピーチ=(ノイズ信号*x+クリーンスピーチ)
【0061】
結合部46は、生成したノイズスピーチをノイズスピーチ記憶部48に記憶させる。
【0062】
ノイズスピーチ記憶部48は、ノイズスピーチを記憶する。ノイズスピーチ記憶部48は、結合部46によって生成されたノイズスピーチを記憶していてもよく、マルチSNR学習データを記憶していてもよい。
【0063】
第二ハイパーパラメータ最適化部50は、スピーチ強調NNがスピーチを維持する度合い(言い換えると、ノイズを除去する度合い)を示すハイパーパラメータαを決定する。以下の説明では、このハイパーパラメータαを、第二ハイパーパラメータと記す。
【0064】
より具体的には、第二ハイパーパラメータαは、マスクを用いた音声強調において、スピーチ強調NNがスピーチを維持するためにどれだけの重みを置くか、およびノイズ除去にどれだけの重みを置くかをトレーニングにおいて制御するハイパーパラメータである。なお、第二ハイパーパラメータαは、正のスカラ値である。
【0065】
本実施形態では、第二ハイパーパラメータは、ユーザ等により手動で調整された予め定められるハイパーパラメータであり、第二ハイパーパラメータ最適化部50は、このハイパーパラメータを第二ハイパーパラメータαとして用いると決定する。なお、第二ハイパーパラメータは、例えば、最急降下法に基づいて最適化された値であってもよい。
【0066】
ターゲット計算部52は、音声強調に用いるとして予め定めたマスクおよび第二ハイパーパラメータαから、マスクの第二ハイパーパラメータαの累乗Mαを計算する。Mαは、マスクに基づいて算出される音声強調度合いを示す行列ということができ、このMαのことを、“ターゲット”と記すこともある。Mαは、マスクMおよびMγと同様に、実数値の時間周波数行列である。
【0067】
ターゲット記憶部54は、ターゲット計算部52が計算したターゲットMαを記憶する。
【0068】
第一ハイパーパラメータNN&スピーチ強調NN学習部56は、第一ハイパーパラメータNNおよびスピーチ強調NNを学習する。具体的には、第一ハイパーパラメータNN&スピーチ強調NN学習部56は、ノイズスピーチ、ターゲット、タスクトレーニングデータおよび下流タスクNNのパラメータを含むデータを教師データとして用いて、(スピーチデータの入力を受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む)第一ハイパーパラメータNNに対し、下流タスクラベルと下流タスクの処理結果との誤差を示す第一損失と、(スピーチデータの入力を受け付ける入力層とターゲットを出力する出力層とを含む)スピーチ強調NNに対し、教師データに含まれるターゲットと、スピーチ強調NNにより出力されるターゲットとの誤差を示す第二損失との重み付き和を最小化するように、第一ハイパーパラメータNNの重み付け係数、および、スピーチ強調NNの重み付け係数を学習する。
【0069】
結合部46と、第二ハイパーパラメータ最適化部50と、ターゲット計算部52と、第一ハイパーパラメータNN&スピーチ強調NN学習部56と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とは、プログラム(ハイパーパラメータ最適化プログラム)に従って動作するコンピュータのCPUによって実現される。
【0070】
次に、本実施形態のハイパーパラメータ最適化システムの動作を説明する。図6は、第三の実施形態のハイパーパラメータ最適化システム300の動作例を示すフローチャートである。
【0071】
第一ハイパーパラメータNN&スピーチ強調NN学習部56は、結合部46によって生成されたノイズスピーチ、ターゲット計算部52により計算されたターゲット、および、タスクトレーニングデータ、並びに、下流タスクNNのパラメータを教師データとして用いた機械学習処理により、第一ハイパーパラメータNNおよびスピーチ強調NNを学習する(ステップS31)。以降、学習された第一ハイパーパラメータNNおよびスピーチ強調NNを用いて、図2におけるステップS11からステップS13の処理が行われる。
【0072】
以上のように、本実施形態では、第一ハイパーパラメータNN&スピーチ強調NN学習部56が、第一ハイパーパラメータNNおよびスピーチ強調NNを学習する。よって、第一の実施形態の効果に加え、スピーチ強調NNも同時に最適化できる。
【0073】
実施形態4.
次に、本開示のハイパーパラメータ最適化システムの第四の実施形態を説明する。第四の実施形態では、第一ハイパーパラメータNN、スピーチ強調NN、および、下流タスクNNの学習を併せて行う構成例を説明する。
【0074】
図7は、本開示によるハイパーパラメータ最適化システムの第四の実施形態の構成例を示すブロック図である。本実施形態のハイパーパラメータ最適化システム400は、第三の実施形態のハイパーパラメータ最適化システム300の構成と比較し、第一ハイパーパラメータNN&スピーチ強調NN学習部56の代わりに、第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62を備えている。それ以外の構成は、第三の実施形態と同様である。
【0075】
第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62は、第一ハイパーパラメータNN、下流タスクNNおよびスピーチ強調NNを学習する。具体的には、第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62は、ノイズスピーチ、ターゲット、および、タスクトレーニングデータを教師データとして用いて、(スピーチデータの入力を受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む)第一ハイパーパラメータNN、および、(スピーチデータの入力を受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む)下流タスクNNに対し、下流タスクラベルと下流タスクの処理結果との誤差を示す第一損失と、(スピーチデータの入力を受け付ける入力層とターゲットを出力する出力層とを含む)スピーチ強調NNに対し、教師データに含まれるターゲットとスピーチ強調NNにより出力されるターゲットとの誤差を示す第二損失との重み付き和を最小化するように、第一ハイパーパラメータNN、下流タスクNN、および、スピーチ強調NNの重み付け係数を学習する。
【0076】
結合部46と、第二ハイパーパラメータ最適化部50と、ターゲット計算部52と、第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62と、第二スピーチ強調部24と、第一ハイパーパラメータ最適化部26と、マスク生成部28と、適応的スピーチ強調部30と、下流タスク処理部32とは、プログラム(ハイパーパラメータ最適化プログラム)に従って動作するコンピュータのCPUによって実現される。
【0077】
次に、本実施形態のハイパーパラメータ最適化システムの動作を説明する。図8は、第四の実施形態のハイパーパラメータ最適化システム400の動作例を示すフローチャートである。
【0078】
第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62は、ノイズスピーチ、ターゲット、および、タスクトレーニングデータを教師データとして用いた機械学習処理により、第一ハイパーパラメータNN、下流タスクNN、および、スピーチ強調NNを学習する(ステップS41)。以降、学習された第一ハイパーパラメータNN、下流タスクNN、および、スピーチ強調NNを用いて、図2におけるステップS11からステップS13の処理が行われる。
【0079】
以上のように、本実施形態では、第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62が、第一ハイパーパラメータNN、下流タスクNN、および、スピーチ強調NNを学習する。よって、第一の実施形態の効果に加え、スピーチ強調NNおよび下流タスクNNも同時に最適化できる。
【0080】
次に、本開示の概要を説明する。図9は、本開示によるハイパーパラメータ最適化システムの概要を示すブロック図である。本発明によるハイパーパラメータ最適化システム80(例えば、ハイパーパラメータ最適化システム100~400)は、スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスク(例えば、M)に基づいて生成される強調マスクをそのテスト発話から決定するスピーチ強調手段81(例えば、第二スピーチ強調部24)と、テスト発話が入力されると、強調されたテスト発話を用いて処理が行われる下流タスクを考慮して設定される、マスクを用いてテスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータ(例えば、γ)を決定する第一ハイパーパラメータ最適化手段82(例えば、第一ハイパーパラメータ最適化部26)と、決定された強調マスクおよび第一ハイパーパラメータから、下流タスクに適したテスト発話の強調を行う適応的マスク(例えば、Mγ)を生成するマスク生成手段83(例えば、マスク生成部28)とを備えている。
【0081】
そして、マスク生成手段83は、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクを生成する。
【0082】
そのような構成により、下流のタスクの性質に応じて音声強調を行うマスクの最適なハイパーパラメータを決定できる。
【0083】
また、第一ハイパーパラメータ最適化手段は、雑音を含むスピーチデータが入力された際に、第一ハイパーパラメータを出力するように、下流タスクの処理結果を示す下流タスクラベル、ノイズを含むトレーニングスピーチ、強調マスクおよび下流タスクのニューラルネットワークのパラメータを含む教師データを用いた機械学習処理が施された学習済みの第一ハイパーパラメータニューラルネットワークを有していてもよい。
【0084】
また、スピーチ強調手段81は、雑音を含むスピーチデータが入力された際に、当該スピーチデータから強調マスクを出力するように、機械学習処理が施された学習済みニューラルネットワークであるスピーチ強調ニューラルネットワークを有していてもよい。
【0085】
また、ハイパーパラメータ最適化システム80は、トレーニングスピーチ、強調マスクおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と、第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク学習手段(例えば、第一ハイパーパラメータNN学習部20)を備えていてもよい。
【0086】
また、ハイパーパラメータ最適化システム80は、トレーニングスピーチ、強調マスク、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク&下流タスクニューラルネットワーク学習手段(例えば、第一ハイパーパラメータNN&下流タスクNN学習部36)を備えていてもよい。
【0087】
また、ハイパーパラメータ最適化システム80は、ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワークを学習する第一ハイパーパラメータNN&スピーチ強調ニューラルネットワーク学習手段(例えば、第一ハイパーパラメータNN&スピーチ強調NN学習部56)を備えていてもよい。
【0088】
また、ハイパーパラメータ最適化システム80は、ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワーク、および、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワークを学習する3種ニューラルネットワーク学習手段(例えば、第一ハイパーパラメータNN&下流タスクNN&スピーチ強調NN学習部62)を備えていてもよい。
【0089】
また、ハイパーパラメータ最適化システム80は、音声強化ニューラルネットワークの訓練に使用される第二のハイパーパラメータを最適化する第二ハイパーパラメータ最適化手段(例えば、第二ハイパーパラメータ最適化部50)と、第二ハイパーパラメータ最適化手段から第二ハイパーパラメータを受け取り、その第二ハイパーパラメータの累乗のマスク(例えば、Mα)をターゲットとして算出するターゲット計算手段(例えば、ターゲット計算部52)とを備えていてもよい。
【0090】
また、第2のハイパーパラメータは、勾配法の少なくとも1つに基づいて最適化されてもよい。
【0091】
また、マスクは、理想比マスク、複素理想比マスク、スペクトルマグニチュードマスク、および位相感応マスクのうちの少なくとも1つの形態をとる実数または複素数の連続値からなる行列であってもよい。
【0092】
また、ハイパーパラメータ最適化システム80は、テスト発話に適応的マスクを適用して、強調されたスピーチデータである適応的スピーチデータを生成する適応的スピーチ強調手段(例えば、適応的スピーチ強調部30)と、適応的スピーチデータを入力して処理結果を出力する下流タスク処理手段(例えば、下流タスク処理部32)とを備えていてもよい。
【0093】
図10は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
【0094】
上述のハイパーパラメータ最適化システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(ハイパーパラメータ最適化プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
【0095】
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
【0096】
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0097】
例示的な実施形態を参照して本開示が説明されたが、本開示は上記実施形態に限定されるものではない。特許請求の範囲によって定義される本開示の精神および範囲から逸脱することなく、構成および詳細における様々な変更がなされ得ることは、当業者によって理解され得る。
【0098】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0099】
(付記1)スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定するスピーチ強調手段と、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化手段と、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成するマスク生成手段とを備え、
前記マスク生成手段は、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクを生成する
ことを特徴とするハイパーパラメータ最適化システム。
【0100】
(付記2)第一ハイパーパラメータ最適化手段は、雑音を含むスピーチデータが入力された際に、第一ハイパーパラメータを出力するように、下流タスクの処理結果を示す下流タスクラベル、ノイズを含むトレーニングスピーチ、前記強調マスクおよび下流タスクのニューラルネットワークのパラメータを含む教師データを用いた機械学習処理が施された学習済みの第一ハイパーパラメータニューラルネットワークを有する
付記1記載のハイパーパラメータ最適化システム。
【0101】
(付記3)スピーチ強調手段は、雑音を含むスピーチデータが入力された際に、当該スピーチデータから強調マスクを出力するように機械学習処理が施された学習済みのスピーチ強調ニューラルネットワークを有する
付記1または付記2記載のハイパーパラメータ最適化システム。
【0102】
(付記4)トレーニングスピーチ、強調マスクおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と、第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク学習手段を備えた
付記1から付記3のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0103】
(付記5)トレーニングスピーチ、強調マスク、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク&下流タスクニューラルネットワーク学習手段を備えた
付記1から付記3のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0104】
(付記6)ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータおよび下流タスクのニューラルネットワークのパラメータを含むデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、および、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワークを学習する第一ハイパーパラメータニューラルネットワーク&スピーチ強調ニューラルネットワーク学習手段を備えた
付記1から付記3のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0105】
(付記7)ノイズを含むスピーチデータ、マスクに基づいて算出される音声強調度合いを示すターゲット、および、スピーチデータと下流タスクの正解ラベルとを対応付けたタスクトレーニングデータを教師データとして用いた機械学習処理により、スピーチデータを受け付ける入力層と第一ハイパーパラメータを出力する出力層とを含む第一ハイパーパラメータニューラルネットワーク、スピーチデータを受け付ける入力層と前記ターゲットを出力する出力層とを含むスピーチ強調ニューラルネットワーク、および、スピーチデータを受け付ける入力層と下流タスクによる処理結果を出力する出力層とを含む下流タスクニューラルネットワークを学習する3種ニューラルネットワーク学習手段を備えた
付記1から付記3のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0106】
(付記8)音声強化ニューラルネットワークの訓練に使用される第2のハイパーパラメータを最適化する第二ハイパーパラメータ最適化手段と、
第二ハイパーパラメータ最適化手段から第2ハイパーパラメータを受け取り、第2ハイパーパラメータの累乗のマスクをターゲットとして算出するターゲット計算手段とを備えた
付記6または付記7記載のハイパーパラメータ最適化システム。
【0107】
(付記9)第2のハイパーパラメータは、勾配法の少なくとも1つに基づいて最適化される
付記8記載のハイパーパラメータ最適化システム。
【0108】
(付記10)マスクは、理想比マスク、複素理想比マスク、スペクトルマグニチュードマスク、および位相感応マスクのうちの少なくとも1つの形態をとる実数または複素数の連続値からなる行列である
付記1から付記9のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0109】
(付記11)テスト発話に適応的マスクを適用して、強調されたスピーチデータである適応的スピーチデータを生成する適応的スピーチ強調手段と、
前記適応的スピーチデータを入力して処理結果を出力する下流タスク処理手段とを備えた
付記1から付記10のうちのいずれか1つに記載のハイパーパラメータ最適化システム。
【0110】
(付記12)スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定し、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定し、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成し、
前記適応的マスクを生成する際、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクが生成される
ことを特徴とするハイパーパラメータ最適化方法。
【0111】
(付記13)スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定し、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定し、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成し、
第一ハイパーパラメータを前記マスクの累乗とする適応的マスクが生成される
処理をプロセッサに実行させるハイパーパラメータ最適化プログラムを記憶した非一時的でコンピュータ読み取り可能な情報記録媒体。
【0112】
(付記14)コンピュータに、
スピーチデータとしてのテスト発話が入力されると、音声強調を行うマスクに基づいて生成される強調マスクを当該テスト発話から決定するスピーチ強調処理、
前記テスト発話が入力されると、強調された当該テスト発話を用いて処理が行われる下流タスクを考慮して設定される、前記マスクを用いて前記テスト発話を表わす信号を維持する度合いを表わすハイパーパラメータである第一ハイパーパラメータを決定する第一ハイパーパラメータ最適化処理、および、
決定された前記強調マスクおよび前記第一ハイパーパラメータから、前記下流タスクに適した前記テスト発話の強調を行う適応的マスクを生成するマスク生成処理を実行させ、
前記マスク生成処理で、第一ハイパーパラメータを前記マスクの累乗とする適応的マスクを生成させる
ためハイパーパラメータ最適化プログラム。
【符号の説明】
【0113】
12 トレーニングスピーチ入力部
14 スピーチ強調ニューラルネットワークパラメータ記憶部
16 第一スピーチ強調部
18 下流タスクニューラルネットワークパラメータ記憶部
20 第一ハイパーパラメータニューラルネットワーク学習部
22 第一ハイパーパラメータNN記憶部
24 第二スピーチ強調部
26 第一ハイパーパラメータ最適化部
28 マスク生成部
30 適応的スピーチ強調部
32 下流タスク処理部
34 下流タスクラベル記憶部
36 第一ハイパーパラメータNN&下流タスクNN学習部
42 ノイズ記憶部
44 クリーンスピーチ記憶部
46 結合部
48 ノイズスピーチ記憶部
50 第二ハイパーパラメータ最適化部
52 ターゲット計算部
54 ターゲット記憶部
56 第一ハイパーパラメータNN&スピーチ強調NN学習部
62 スピーチ強調NN&第一ハイパーパラメータNN&下流タスクNN学習部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10