(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-17
(45)【発行日】2023-11-28
(54)【発明の名称】機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数
(51)【国際特許分類】
G10L 19/00 20130101AFI20231120BHJP
G06N 3/08 20230101ALI20231120BHJP
G10L 25/30 20130101ALI20231120BHJP
【FI】
G10L19/00 250
G06N3/08
G10L19/00 400Z
G10L25/30
(21)【出願番号】P 2020555354
(86)(22)【出願日】2019-04-10
(86)【国際出願番号】 US2019026824
(87)【国際公開番号】W WO2019199995
(87)【国際公開日】2019-10-17
【審査請求日】2022-04-08
(32)【優先日】2018-04-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-05-22
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2019-04-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】フェイギン,ロイ エム.
(72)【発明者】
【氏名】デイヴィッドソン,グラント エー.
(72)【発明者】
【氏名】ウー,チー-ウェイ
(72)【発明者】
【氏名】クマール,ヴィヴェク
【審査官】大野 弘
(56)【参考文献】
【文献】特開2009-223437(JP,A)
【文献】特開2000-242299(JP,A)
【文献】特表2016-505902(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
G06N 3/08
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
1つ以上のプロセッサと1つ以上の非一時的記憶媒体とを含む制御システムにより実装される自己符号化器ニューラルネットワークをトレーニングする、コンピュータにより実施される方法であって、
前記自己符号化器ニューラルネットワークにより、音声信号を含む入力音声信号を受信するステップと、
前記自己符号化器ニューラルネットワークのエンコーダ部分により、前記入力音声信号に基づき、符号化音声信号を生成するステップと、
前記自己符号化器ニューラルネットワークのデコーダ部分により、前記符号化音声信号を復号して、復号音声信号
を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号音声信号
と、グラウンドトルース音声信号と、を受信するステップと、
前記損失関数生成モジュールにより、前記復号音声信号
に対応する損失関数値を生成するステップと、
前記損失関数値に基づき、前記自己符号化器ニューラルネットワークをトレーニングするステップであって、前記トレーニングは、前記自己符号化器ニューラルネットワークの少なくとも1つの重みを更新するステップを含む、ステップと、
を含み、前記損失関数値を生成するステップは、ノイズ対マスク比の計算を含む心理音響モデルを適用するステップを含む、方法。
【請求項2】
前記自己符号化器ニューラルネットワークは、前記損失関数値に基づく後方伝搬を含む、請求項1に記載の方法。
【請求項3】
前記自己符号化器ニューラルネットワークをトレーニングするステップは、前記自己符号化器ニューラルネットワークの少なくとも1つの重みに対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含む、請求項1又は2に記載の方法。
【請求項4】
前記自己符号化器ニューラルネットワークの前記エンコーダ部分は、入力ニューロン層と複数の隠れニューロン層とを含み、前記入力ニューロン層は、最終隠れニューロン層より多くのニューロンを含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記自己符号化器ニューラルネットワークの前記エンコーダ部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成される、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記自己符号化器ニューラルネットワークの前記デコーダ部分の隠れ層の中の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成され、前記デコーダ部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成される、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記心理音響モデルは、1つ以上の心理音響マスク閾値に少なくとも部分的に基づく、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記心理音響モデルは、以下:
外耳伝達関数のモデル化、
臨界帯域へのグループ化、
限定ではなくレベル依存拡散を含む周波数ドメインマスキング、
周波数依存聴力閾値のモデル化、
のうちの1つ以上を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記損失関数値を生成するステップは、
前記復号音声信号を周波数ドメインに変換して、周波数変換復号音声信号を生成するステップと、
前記グラウンドトルース音声信号を前記周波数ドメインに変換して、周波数変換グラウンドトルース音声信号を生成するステップと、
外耳伝達関数を前記周波数変換復号音声信号に適用して、第1中間信号を生成するステップと、
前記外耳伝達関数を前記周波数変換グラウンドトルース音声信号に適用して、第2中間信号を生成するステップと、
前記第1中間信号と前記第2中間信号との間の差を決定して、差信号を生成するステップと、
前記
差信号に帯域操作を適用して、前記
差信号の複数の周波数帯域を生成するステップと、
前記第2中間信号に前記帯域操作を適用して、前記第2中間信号の複数の周波数帯域を生成するステップと、
前記第2中間信号の前記複数の周波数帯域に周波数マスキング操作を提供して、複数のマスク済み帯域を生成するステップと、
前記
差信号の前記複数の周波数帯域と前記マスク済み帯域とを用いて、ノイズ対マスク比を決定するステップと、
前記損失関数値として前記ノイズ対マスク比を使用するステップと、
を含む、請求項8に記載の方法。
【請求項10】
前記損失関数
値を生成するステップは、平均ノイズ対マスク比を計算するステップを含み、前記トレーニングするステップは、前記平均ノイズ対マスク比を最小化するステップを含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記ノイズ対マスク比の前記計算は、帯域処理を含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記帯域処理は、Zwicker帯域処理又はMoore帯域処理である、請求項11のいずれか一項に記載の方法。
【請求項13】
音声エンコーダであって、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのエンコーダ部分を含み、前記音声エンコーダは、
現在入力音声信号を受信し、
前記現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化信号を出力する、
よう更に構成される音声エンコーダ。
【請求項14】
音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは、請求項13に記載の音声エンコーダを実装するよう構成される、制御システムと、
を含む音声符号化機器。
【請求項15】
音声デコーダであって、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのデコーダ部分を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットに復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、
よう更に構成される音声デコーダ。
【請求項16】
音声復号機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは音声デコーダを実装するよう構成され、前記音声デコーダは、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのデコーダ部分を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットに復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、
よう更に構成される、機器。
【請求項17】
システムであって、請求項16に記載の音声復号機器を含み、前記システムは、前記復号音声信号を再生するよう構成される1つ以上のトランスデューサを更に含む、システム。
【請求項18】
コンピュータプログラムを記憶している1つ以上の非一時的媒体であって、前記
コンピュータプログラムは、
1つ以上の装置に請求項1~12のいずれか一項に記載の方法を実行
させる、非一時的媒体。
【請求項19】
コンピューティング装置又はシステムにより実行されると、該コンピューティング装置又はシステムに請求項1~12のいずれか一項に記載の方法を実行させる命令を有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声信号の処理に関する。特に、本開示は、音声データの符号化及び復号に関する。
【背景技術】
【0002】
音声コーデックは、特定の音声ファイル又はストリーミングメディア音声フォーマットが与えられると、デジタル音声データを符号化及び/又は復号できる装置又はコンピュータプログラムである。音声コーデックの主な目的は、通常、最小ビット数により音声信号を表現しつつ、該ビット数で妥当な程度の音声品質を維持することである。このような音声データ圧縮は、音声データのために必要な記憶空間、及び音声データの送信に必要な帯域幅の両方を削減できる。
【発明の概要】
【0003】
種々のオーディオ処理方法が本願明細書で開示される。いくつかのこのような方法は、1つ以上のプロセッサと1つ以上の非一時的記憶媒体を含む制御システムにより実装されたニューラルネットワークにより、入力音声信号を受信するステップを含む。このような方法は、前記ニューラルネットワークにより、及び前記入力音声信号に基づき、符号化音声信号を生成するステップを含んでよい。幾つかのこのような方法は、前記制御システムにより、前記符号化音声信号を復号して、復号音声信号を生成するステップと、前記制御システムにより実装される損失関数生成モジュールにより、前記復号音声信号及びグラウンドトルース音声信号を受信するステップと、を含んでよい。このような方法は、前記損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップを含んでよい。損失関数値を生成するステップは、心理音響モデルを適用するステップを含んでよい。このような方法は、前記損失関数値に基づき、前記ニューラルネットワークをトレーニングするステップを含んでよい。トレーニングする前記ステップは、前記ニューラルネットワークの少なくとも1つの重みを更新するステップを含んでよい。
【0004】
幾つかの実装によると、前記ニューラルネットワークをトレーニングするステップは、前記損失関数値に基づく後方伝搬を含んでよい。幾つかの例では、前記ニューラルネットワークは、自己符号化器を含んでよい。前記ニューラルネットワークをトレーニングするステップは、前記ニューラルネットワークの少なくとも1つの重みに対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含んでよい。
【0005】
幾つかの実装では、前記ニューラルネットワークの第1部分は前記符号化音声信号を生成してよく、前記ニューラルネットワークの第2部分は前記符号化音声信号を復号してよい。幾つかのこのような実装では、前記ニューラルネットワークの前記第1部分は、入力ニューロン層と複数の隠れニューロン層とを含んでよい。前記入力ニューロン層は、幾つかの例では、最終隠れニューロン層より多くのニューロンを含んでよい。前記ニューラルネットワークの前記第1部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成されてよい。幾つかの例では、前記ニューラルネットワークの前記第2部分の隠れ層の中の少なくとも幾つかのニューロンは、ReLU活性化関数により構成されてよく、前記第2部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成されてよい。
【0006】
幾つかの例によると、前記心理音響モデルは、1つ以上の心理音響マスキング閾値に少なくとも部分的に基づいてよい。幾つかの実装では、前記心理音響モデルは、外耳伝達関数をモデル化するステップと、臨界帯域にグループ化するステップと、(限定ではないがレベル依存拡散を含む)周波数ドメインマスキングするステップと、周波数依存聴力閾値のモデル化と、及び/又は、ノイズ対マスク比の計算と、を含んでよい。幾つかの例では、前記損失関数は、平均ノイズ対マスク比を計算するステップを含んでよく、前記トレーニングするステップは、前記平均ノイズ対マスク比を最小化するステップを含んでよい。
【0007】
幾つかの音声符号化方法及び装置が本願明細書に開示される。幾つかの例では、音声符号化方法は、1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力音声信号を受信するステップを含んでよい。前記制御システムは、本願明細書に開示する方法のうちのいずれかに従いトレーニングされたニューラルネットワークを含む音声エンコーダを実装するよう構成されてよい。このようなモデルは、前記音声エンコーダにより、前記現在入力音声信号を圧縮音声フォーマットに符号化するステップと、前記圧縮音声フォーマットの符号化音声信号を出力するステップと、を含んでよい。
【0008】
幾つかの音声復号方法及び装置が本願明細書に開示される。幾つかの例では、音声復号方法は、1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力圧縮音声信号を受信するステップを含んでよい。前記制御システムは、本願明細書に開示する方法のうちのいずれかに従いトレーニングされたニューラルネットワークを含む音声デコーダを実装するよう構成されてよい。このような方法は、前記音声デコーダにより、前記現在入力圧縮音声信号を復号するステップと、復号音声信号を出力するステップと、を含んでよい。幾つかのこのような方法は、1つ以上のトランスデューサにより、前記復号音声信号を再生するステップを含んでよい。
【0009】
本願明細書に記載の方法のうちの一部または全部は、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従い1つ以上の装置により実行されてよい。このような非一時的媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、等を含むがこれらに限定されない、本願明細書に記載のようなメモリ装置を含んでよい。したがって、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも1つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、本願明細書に開示されるような、制御システムの1つ以上のコンポーネントにより実行可能であってよい。ソフトウェアは、例えば、本願明細書に開示される方法のうちの1つ以上を実行するための命令を含んでよい。
【0010】
本開示の少なくとも幾つかの態様は、機器を介して実装されてよい。例えば、1つ以上の装置は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの実装では、機器は、インタフェースシステムおよび制御システムを含んでよい。インタフェースシステムは、1つ以上のネットワークインタフェース、制御システムとメモリシステムとの間の1つ以上のインタフェース、制御システムと別の装置との間の1つ以上のインタフェース、および/または1つ以上の外部装置インタフェースを含んでよい。制御システムは、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、または個別ハードウェアコンポーネント、のうちの少なくとも1つを含んでよい。従って、幾つかの実装では、前記制御システムは、1つ以上のプロセッサと、前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含んでよい。
【0011】
幾つかのこのような例によると、機器は、インタフェースシステム及び制御システムを含んでよい。前記制御システムは、例えば、本願明細書に開示される方法のうちの1つ以上を実施するよう構成されてよい。例えば、前記制御システムは、音声エンコーダを実装するよう構成されてよい。前記音声エンコーダは、本願明細書に開示される方法のうちの1つ以上に従いトレーニングされたニューラルネットワークを含んでよい。前記制御システムは、現在入力音声信号を受信し、前記現在入力音声信号を圧縮音声フォーマットに符号化し、及び(例えば、前記インタフェースシステムにより)前記圧縮音声フォーマットで符号化音声信号を出力するよう構成されてよい。
【0012】
代替又は追加で、前記制御システムは、音声デコーダを実装するよう構成されてよい。前記音声デコーダは、前記ニューラルネットワークにより及び前記インタフェースシステムにより、入力トレーニング音声信号を受信するステップと、前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、を含む処理に従いトレーニングされたニューラルネットワークを含んでよい。前記処理は、前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、を含んでよい。前記処理は、前記損失関数生成モジュールにより、前記復号トレーニング音声信号に対応する損失関数値を生成するステップを含んでよい。損失関数値を生成するステップは、心理音響モデルを適用するステップを含んでよい。前記処理は、前記損失関数値に基づき、前記ニューラルネットワークをトレーニングするステップを含んでよい。
【0013】
前記音声エンコーダは、現在入力音声信号を受信し、前記現在入力音声信号を圧縮音声フォーマットに符号化し、及び前記圧縮音声フォーマットで符号化音声信号を出力するよう更に構成されてよい。
【0014】
幾つかの実装では、開示されるシステムは、音声復号機器を含んでよい。前記音声復号機器はインタフェースシステムと制御システムとを含んでよく、前記制御システムは、1つ以上のプロセッサと、前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含む。前記制御システムは、音声デコーダを実装するよう構成されてよい。
【0015】
前記音声デコーダは、前記ニューラルネットワークにより及び前記インタフェースシステムにより、入力トレーニング音声信号を受信するステップと、前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、を含む処理に従いトレーニングされたニューラルネットワークを含んでよい。前記処理は、前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、を含んでよい。前記処理は、前記損失関数生成モジュールにより、前記復号トレーニング音声信号に対応する損失関数値を生成するステップを含んでよい。損失関数値を生成するステップは、心理音響モデルを適用するステップを含んでよい。前記処理は、前記損失関数値に基づき、前記ニューラルネットワークをトレーニングするステップを含んでよい。
【0016】
前記音声デコーダは、圧縮音声フォーマットの現在入力符号化音声信号を受信し、前記現在入力符号化音声信号を非圧縮音声フォーマットに復号し、及び前記非圧縮音声フォーマットで復号音声信号を出力するよう更に構成されてよい。幾つかの実装によると、前記システムは、前記復号音声信号を再生するよう構成される1つ以上のトランスデューサを含んでよい。
【0017】
本願明細書に記載の主題の1つ以上の実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、態様、および利点は、説明、図面、及び特許請求の範囲から明らかになる。以下の図面の相対的寸法は縮尺通りに描かれないことがある。種々の図面において類似する番号および指示は、概して同様の要素を示す。
【図面の簡単な説明】
【0018】
【
図1】本願明細書に開示された方法のうちの少なくとも一部を実行するよう構成されてよい機器のコンポーネントの例を示すブロック図である。
【0019】
【
図2】一例による、知覚に基づく損失関数に従う機械学習の処理を実装するブロックを示す。
【0020】
【
図3】本願明細書に開示された幾つかの実装による、ニューラルネットワークのトレーニング処理の一例を示す。
【0021】
【
図4-1】本願明細書に開示された方法のうちの幾つかを実装するために適するニューラルネットワークの代替例を示す。
【
図4-2】本願明細書に開示された方法のうちの幾つかを実装するために適するニューラルネットワークの代替例を示す。
【0022】
【
図5A】一例による、音声符号化及び復号のためにニューラルネットワークをトレーニングする方法のブロックを概説するフロー図である。
【0023】
【
図5B】一例による、音声符号化のためにトレーニングされたニューラルネットワークを使用する方法のブロックを概説するフロー図である。
【0024】
【
図5C】一例による、音声復号のためにトレーニングされたニューラルネットワークを使用する方法のブロックを概説するフロー図である。
【0025】
【
図6】平均二乗誤差に基づき損失関数を生成するよう構成される損失関数生成モジュールを示すブロック図である。
【0026】
【
図7A】人間の外耳道の標準的な音響応答を近似する関数のグラフである。
【0027】
【
図7B】人間の外耳道の標準的な音響応答に基づき損失関数を生成するよう構成される損失関数生成モジュールを示す。
【0028】
【
図8】帯域操作に基づき損失関数を生成するよう構成される損失関数生成モジュールを示す。
【0029】
【
図9A】幾つかの例による周波数マスキングに含まれる処理を示す。
【0030】
【0031】
【
図10】損失関数生成モジュールの代替の実装の一例を示す。
【0032】
【
図11】幾つかの開示された実装の客観的テスト結果の一例である。
【0033】
【
図12】様々な種類の損失関数を用いてトレーニングされたニューラルネットワークにより生成された男性の話者に対応する音声データの主観的テスト結果の例を示す。
【0034】
【
図13】
図12に示した同じ種類の損失関数を用いてトレーニングされたニューラルネットワークにより生成された女性の話者に対応する音声データの主観的テスト結果の例を示す。
【発明を実施するための形態】
【0035】
以下の説明は、本開示の幾つかの新規な態様、および該新規な態様の実装され得るコンテキストの例を説明することを目的として、特定の実装を対象とする。しかしながら、本願明細書における教示は、種々の異なる方法で適用できる。更に、記載される実施形態は、種々のハードウェア、ソフトウェア、ファームウェア、等で実装されてよい。例えば、本願の態様は、少なくとも部分的に、機器、1つより多くの装置を含むシステム、方法、コンピュータプログラムプロダクト、等で実現されてよい。したがって、本願の態様は、ハードウェアの実施形態、ソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード、等を含む)、および/またはソフトウェアとハードウェアの態様の両者を組み合わせる実施形態の形式を取ってよい。このような実施形態は、本願明細書では、「回路」、「モジュール」、又は「エンジン」と呼ばれてよい。本願の幾つかの態様は、コンピュータ可読プログラムコードを実装された1つ以上の非一時的媒体に具現化されたコンピュータプログラムプロダクトの形式を取ってよい。このような非一時的媒体は、例えば、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含んでよい。したがって、本開示の教示は、本願明細書に図示されたおよび/または記載された実装に限定されず、むしろ広範な適用可能性を有する。
【0036】
本発明者は、限定ではないが、音声データ符号化及び復号を含む音声データ処理に関連する種々の機械学習方法を研究した。特に、発明者は、人間が音を知覚し始める方法に関連する損失関数を用いて異なる種類のニューラルネットワークをトレーニングする種々の方法を研究した。これらの損失関数の各々の効果は、ニューラルネットワーク符号化により生成される音声データに従い評価された。音声データは、主観的及び客観的基準に従い評価された。幾つかの例では、平均二乗誤差に基づく損失関数を用いてトレーニングされたニューラルネットワークにより処理された音声データは、本願明細書に開示される方法に従い生成された音声データを評価するための基礎として使用された。幾つかの例では、主観的基準による評価の処理は、人間の聴き手に、結果として生じた音声データを評価させるステップと、聴き手のフィードバックを取得するステップと、を含む。
【0037】
本願明細書に開示される技術は、上述の研究に基づく。本開示は、音声データ符号化及び/又は復号のためにニューラルネットワークをトレーニングするために知覚に基づく損失関数を使用する種々の例を提供する。幾つかの例では、知覚に基づく損失関数は、心理音響モデルに基づく。心理音響モデルは、例えば、1つ以上の心理音響マスキング閾値に少なくとも部分的に基づいてよい。幾つかの実装では、心理音響モデルは、外耳伝達関数をモデル化するステップと、臨界帯域にグループ化するステップと、(限定ではないがレベル依存拡散を含む)周波数ドメインマスキングするステップと、周波数依存聴力閾値のモデル化と、及び/又は、ノイズ対マスク比の計算と、を含んでよい。幾つかの実装では、損失関数は、平均ノイズ対マスク比を計算するステップを含んでよい。幾つかのこのような例では、トレーニング処理は、平均ノイズ対マスク比を最小化するステップを含んでよい。
【0038】
図1は、本願明細書に開示された方法のうちの少なくとも一部を実行するよう構成されてよい機器のコンポーネントの例を示すブロック図である。幾つかの例では、機器105は、音声処理を提供するよう構成される、パーソナルコンピュータ、デスクトップコンピュータ、又は他のローカル装置であってよく又はそれを含んでよい。幾つかの例では、機器105は、サーバであってよく、又はそれを含んでよい。幾つかの例によると、機器105は、ネットワークインタフェースを介してサーバと通信するよう構成されるクライアント装置であってよい。機器105のコンポーネントは、ハードウェアにより、非一時的媒体に記憶されたソフトウェアにより、ファームウェアにより、および/またはそれらの組み合わせにより、実装されてよい。
図1および本願明細書に開示される他の図面に示すコンポーネントの種類および数は、単なる例として示される。代替の実装は、より多くの、少ない、および/または異なるコンポーネントを含んでよい。
【0039】
本例では、機器105は、インタフェースシステム110および制御システム115を含む。インタフェースシステム110は、1つ以上のネットワークインタフェース、制御システム115とメモリシステムとの間の1つ以上のインタフェース、および/または1つ以上の外部インタフェース(例えば、1つ以上のユニバーサルシリアルバス(USB)インタフェース)を含んでよい。幾つかの実装では、インタフェースシステム110は、ユーザインタフェースシステムを含んでよい。ユーザインタフェースシステムは、ユーザから入力を受信するよう構成されてよい。幾つかの実装では、ユーザインタフェースシステムは、ユーザにフィードバックを提供するよう構成されてよい。例えば、ユーザインタフェースシステムは、タッチおよび/またはジェスチャ検出システムに対応する1つ以上のディスプレイを含んでよい。幾つかの例では、ユーザインタフェースシステムは、1つ以上のマイク及び/又はスピーカを含んでよい。幾つかの例によると、ユーザインタフェースシステムは、モータ、振動子、等のような、触覚フィードバックを提供する機器を含んでよい。制御システム115は、例えば、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、および/または個別ハードウェアコンポーネント、を含んでよい。
【0040】
幾つかの例では、機器105は、単一の装置に実装されてよい。しかしながら、幾つかの実装では、機器105は、1つより多くのの装置に実装されてよい。幾つかのこのような実装では、制御システム115の機能は1つより多くの装置に含まれてよい。幾つかの例では、機器105は、別の装置のコンポーネントであってよい。
【0041】
図2は、一例による、知覚に基づく損失関数に従う機械学習の処理を実装するブロックを示す。本例では、入力音声信号205は、機械学習モジュール210に提供される。入力音声信号205は、幾つかの例では、人間の会話に対応して良い。しかしながら、他の例では、入力音声信号205は、音楽等のような他の音に対応してよい。
【0042】
幾つかの例によると、システム200の要素は、限定ではないが、機械学習モジュール210を含み、制御システム115のような1つ以上の制御システムにより実装されてよい。機械学習モジュール210は、例えば、インタフェースシステム110のようなインタフェースシステムにより、入力音声信号205を受信してよい。幾つかの例では、機械学習モジュール210は、本願明細書に開示されるニューラルネットワークのような1つ以上のニューラルネットワークを実装するよう構成されてよい。しかしながら、他の実装では、機械学習モジュール210は、Non-negative Matrix Factorization、Robust Principal Component Analysis、Sparse Coding, Probabilistic Latent Component Analysis、等のような1つ以上の他の種類の機械学習を実装するよう構成されてよい。
【0043】
図2に示す例では、機械学習モジュール210は、出力音声信号215を損失関数生成モジュール220に提供する。損失関数生成モジュール225及び任意的なグラウンドトルースモジュール220は、例えば、制御システム115のような制御システムにより実装されてよい。幾つかの例では、損失関数生成モジュール225、機械学習モジュール210、及び任意的なグラウンドトルースモジュール220は、同じ装置により実装されてよい。一方で、他の例では、損失関数生成モジュール225、任意的なグラウンドトルースモジュール220、及び機械学習モジュール210は、異なる装置により実装されてよい。
【0044】
本例によると、損失関数生成モジュール225は、入力音声信号205を受信し、入力音声信号205を誤差決定のための「グラウンドトルース」として使用する。しかしながら、幾つかの代替の実装では、損失関数生成モジュール225は、任意的なグラウンドトルースモジュール220からグラウンドトルースデータを受信してよい。このような実装は、例えば、グラウンドトルースが元の入力音声信号ではない、会話拡張又は会話ノイズ除去のようなタスクを含んでよい。グラウンドトルースデータが入力音声信号205か、又は任意的なグラウンドトルースモジュールから受信されたデータであるかに関わらず、損失関数生成モジュール225は、損失関数アルゴリズム及びグラウンドトルースデータに従い出力音声信号を評価し、損失関数値230を機械学習モジュール210に提供する。幾つかのこのような実装では、機械学習モジュール210は、
図3を参照して後述される最適化モジュール315の実装を含む。他の例では、システム200は、機械学習モジュール210及び損失関数生成モジュール225と別個であるがそれらと通信する最適化モジュール315の実装を含む。損失関数の種々の例が本願明細書に開示される。本例では、損失関数生成モジュール225は、心理音響モデルに基づいてよい知覚に基づく損失関数を適用する。本例によると、機械学習モジュール210により実装される機械学習の処理(例えば、ニューラルネットワークをトレーニングする処理)は、損失関数値230に少なくとも部分的に基づく。
【0045】
心理音響モデルに基づく損失関数のような知覚に基づく損失関数を、機械学習のために(例えば、ニューラルネットワークをトレーニングするために)利用することは、平均二乗誤差(mean squared error (MSE))、L1-norm、等に基づく伝統的な損失関数を用いる機械学習処理により生成された出力音声信号の知覚的品質と比べて、出力音声信号215の知覚的品質を向上できる。例えば、心理音響モデルに基づく損失関数により所与の時間長の間トレーニングされたニューラルネットワークは、同じ時間長の間MSEに基づく損失関数によりトレーニングされた同じアーキテクチャを有するニューラルネットワークにより生成された出力音声信号の知覚的品質と比べて、出力音声信号215の知覚的品質を向上できる。更に、心理音響モデルに基づく損失関数により収束するようトレーニングされたニューラルネットワークは、通常、MSEに基づく損失関数により収束するようトレーニングされた同じアーキテクチャを有するニューラルネットワークの出力音声信号より高い知覚的品質の出力音声信号を生成できる。
【0046】
幾つかの開示される損失関数は、出力音声信号215のどの差が平均的人物に聞き取れるか、及び平均的人物に聞き取れないかを決定するために、心理音響原理を利用する。幾つかの例では、心理音響モデルに基づく損失関数は、時間マスキング、周波数マスキング、音量等大曲線、レベルに依存するマスキング、及び/又は人間の聴力閾値のような心理音響現象を利用してよい。幾つかの実装では、知覚損失関数は時間ドメインで動作してよく、他の実装では、知覚損失関数は周波数ドメインで動作してよい。代替の実装では、知覚損失関数は、時間ドメイン及び周波数ドメイン動作の両方を含んでよい。幾つかの例では、損失関数は、1フレーム入力を使用して損失関数を計算してよく、他の例では、損失関数は、複数入力フレームを使用して損失関数を計算してよい。
【0047】
図3は、本願明細書に開示された幾つかの実装による、ニューラルネットワークのトレーニング処理の一例を示す。本願明細書で提供される他の図と同様に、要素の数及び種類は、単なる例である。幾つかの例によると、システム301の要素は、制御システム115のような1つ以上の制御システムにより実装されてよい。
図3に示す例では、ニューラルネットワーク300は、自己符号化器(autoencoder)である。自己符号化器を設計する技術は、参照によりここに組み込まれるchapter 14 of Goodfellow, Ian, Yoshua Bengio, and Aaron Courville, Deep Learning (MIT Press, 2016)に記載されている。
【0048】
ニューラルネットワーク300は、本願明細書で「ニューロン」とも呼ばれるノードの層を含む。各ニューロンは、実数値の活性化関数を有する。その出力は、入力又は入力のセットが与えられると、ニューロンの出力を定義する「活性化(activation)」と一般的に呼ばれる。幾つかの例によると、ニューラルネットワーク300のニューロンは、シグモイド活性化関数、ELU活性化関数及び/又はtanh活性化関数を利用してよい。代替又は追加で、音声ニューラルネットワーク300のニューロンは、正規化線形ユニット(rectified linear unit (ReLU))活性化関数を利用してよい。
【0049】
ニューロンの間の各接続(「シナプス」とも呼ばれる)は、変更可能な実数の重みを有する。ニューロンは、(ネットワークの外部からデータを受信する)入力ニューロン、出力ニューロン、又は入力ニューロンから出力ニューロンへの途中でデータを変更する隠れニューロンであってよい。
図3に示す例では、ニューロン層1の中のニューロンは入力ニューロンであり、ニューロン層7の中のニューロンは出力ニューロンであり、ニューロン層2~6の中のニューロンは隠れニューロンである。5個の隠れニューロン層が
図3にis召されるが、幾つかの実装」は、より多くの又は少ない隠れ層を含んでよい。ニューラルネットワーク300の幾つかの実装は、より多くの又は少ない隠れ層、例えば10以上の隠れ層を含んでよい。例えば、幾つかの実装は、10、20、30、40、50、60、70、80、90、又はそれより多くの隠れ層を含んでよい。
【0050】
ここで、ニューラルネットワーク300の第1部分(エンコーダ部分305)は、符号化音声信号を生成するよう構成され、ニューラルネットワーク300の第2部分(デコーダ部分310)は符号化音声信号を復号するよう構成される。本例では、符号化音声信号は圧縮音声信号であり、復号音声信号は非圧縮(伸長)音声信号である。従って、入力音声信号205は、ニューロン層1~4を説明するために使用されるブロックの縮小したサイズにより示唆されるように、エンコーダ部分305により圧縮される。幾つかの例では、入力ニューロン層は、エンコーダ部分305の隠れニューロン層のうちの少なくとも1つより多くのニューロンを含んでよい。しかしながら、代替の実装では、ニューロン層1~4は、全て同じ数のニューロン、又は実質的に同様の数のニューロンを有してよい。
【0051】
従って、エンコーダ部分305により提供される圧縮音声信号は、次に、デコーダ部分310のニューロン層により復号されて、出力信号215を構成し、出力信号215は入力音声信号205の推定である。心理音響に基づく損失関数のような知覚損失関数は、トレーニング段階の間に、ニューラルネットワーク300のパラメータの更新を決定するために使用されてよい。これらのパラメータは、後に、トレーニングアルゴリズムから受信したパラメータにより決定される重みを用いて、符号化された(例えば、圧縮された)任意の音声信号を復号するために(例えば、伸長するために)使用できる。言い換えると、符号化及び復号は、ニューラルネットワーク300の満足できる重みが決定された後に、トレーニング処理と別に行われてよい。
【0052】
本例によると、損失関数生成モジュール225は、音声信号205の少なくとも一部を受信し、これをグラウンドトルースデータとして使用する。ここで、損失関数生成モジュール225は、損失関数アルゴリズム及びグラウンドトルースデータに従い出力音声信号を評価し、損失関数値230を最適化モジュール315に提供する。本例では、最適化モジュール315は、ニューラルネットワークに関する情報及び損失関数生成モジュール225により使用される損失関数により初期化される。本例によると、最適化モジュール315は、該情報を、最適化モジュール315が損失関数生成モジュール225から受信した損失値と一緒に用いて、ニューラルネットワークの重みに関して損失関数の勾配を計算する。この勾配が分かると、最適化モジュール315は、最適化アルゴリズムを用いて、ニューラルネットワークの重みに対する更新320を生成する。幾つかの実装によると、最適化モジュール315はStochastic Gradient Descent又はAdam最適化アルゴリズムのような最適化アルゴリズムを利用してよい。Adam最適化アルゴリズムは、参照によりここに組み込まれるD. P. Kingma and J. L. Ba, “Adam: a Method for Stochastic Optimization,” in Proceedings of the International Conference on Learning Representations (ICLR), 2015, pp. 1-15に開示されている。
図3に示す例では、最適化モジュール315は、ニューラルネットワーク300に対する更新320を提供するよう構成される。本例では、損失関数生成モジュール225は、心理音響モデルに基づいてよい知覚に基づく損失関数を適用する。本例によると、ニューラルネットワーク300をトレーニングする処理は、後方伝搬に少なくとも部分的に基づく。この後方伝搬は、ニューロン層の間の点線矢印により
図3に示される。後方伝搬(「backpropagation」としても知られる)は、データのバッチが処理された後に各ニューロンの誤差貢献を計算するためにニューラルネットワークにおいて使用される方法である。後方伝搬技術は、誤り(誤差)が出力において計算されたニューラルネットワーク層を通じて後方に分散され得るので、時に誤りの後方伝搬とも呼ばれる。
【0053】
ニューラルネットワーク300は、
図1を参照して上述した制御システム115のような制御システムにより実装されてよい。従って、ニューラルネットワーク300をトレーニングするステップは、ニューラルネットワーク300の中の重みに対応する非一時的記憶媒体位置の物理状態を変化させるステップを含んでよい。記憶媒体位置は、制御システムにより又はその部分によりアクセス可能な1つ以上の記憶媒体の部分であってよい。上述のような重みは、ニューロン間の接続に対応する。ニューラルネットワーク300をトレーニングするステップは、ニューロンの活性化関数の値に対応する非一時的記憶媒体位置の物理状態を変化させるステップを含んでよい。
【0054】
図4-1(A)~(C)は、本願明細書に開示された方法のうちの幾つかを実装するために適するニューラルネットワークの代替例を示す。これらの例によると、入力ニューロン及び隠れニューロンは、正規化線形ユニット(rectified linear unit (ReLU))活性化関数を利用し、出力ニューロンはシグモイド活性化関数を利用する。しかしながら、ニューラルネットワーク300の代替の実装は、限定ではないがELU(Exponential Linear Unit)及び/又はtanh活性化関数を含む他の活性化関数及び/又は活性化関数の他の組み合わせを含んでよい。
【0055】
これらの例によると、入力音声データは、256次元音声データである。
図4-1(A)に示す例では、エンコーダ部分305は、入力音声データを32次元音声データに圧縮して、最大で8x圧縮(reduction)を提供する。
図4-1(B)に示す例によると、エンコーダ部分305は、入力音声データを16次元音声データに圧縮して、最大で16x圧縮(reduction)を提供する。
図4-1(C)に示すニューラルネットワーク300は、入力音声データを8次元音声データに圧縮して、最大で32x圧縮(reduction)を提供するエンコーダ部分305を含む。発明者は、
図4-1(B)に示した種類のニューラルネットワークに基づき聴力テストを行った。その幾つかの結果が以下に記載される。
【0056】
図4-2(D)は、代替の例による自己符号化器のエンコーダ部分のブロックの例を示す。エンコーダ部分305は、
図1を参照して上述した制御システム115のような制御システムにより実装されてよい。エンコーダ部分305は、例えば、1つ以上の非一時的記憶媒体に格納されたソフトウェアに従い制御システムの1つ以上のプロセッサにより実装されてよい。
図4-2(D)に示した要素の数及び種類は単なる例である。エンコーダ部分305の他の実装は、より多くの、少ない、又は異なる要素を含んでよい。
【0057】
本例では、エンコーダ部分305は、3つのニューロン層を含む。幾つかの例によると、エンコーダ部分305のニューロンは、ReLU活性化関数を利用してよい。しかしながら、幾つかの代替の例によると、エンコーダ部分305のニューロンは、シグモイド活性化関数及び/又はtanh活性化関数を利用してよい。ニューロン層1~3内のニューロンは、N次元入力データを処理しながら、そのN次元状態を維持する。層450は、ニューロン層3の出力を受信し、プーリングアルゴリズムを適用するよう構成される。プーリングは、非線形ダウンサンプリングの形式である。本例によると、層450は、ニューロン層3の出力をM個の重複しない部分のセット又は「サブ領域」に分け、各サブ領域について最大値を出力する最大プーリング関数を適用するよう構成される。
【0058】
図5Aは、一例による、音声符号化及び復号のためにニューラルネットワークをトレーニングする方法のブロックを概説するフロー図である。方法500は幾つかの例では、
図1の機器により、又は別の種類の機器により、実行されてよい。幾つかの例では、方法500のブロックは、1つ以上の非一時的媒体に記憶されたソフトウェアにより、実装されてよい。方法500のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示及び/又は記載のものより多数または少数のブロックを含んでよい。
【0059】
ここで、ブロック505は、1つ以上のプロセッサと1つ以上の非一時的記憶媒体を含む制御システムにより実装されたニューラルネットワークにより、入力音声信号を受信するステップを含む。幾つかの例では、ニューラルネットワークは、自己符号化器を含んでよく又は含まなくてよい。幾つかの例によると、ブロック505は、インタフェースシステム110を介して入力音声信号を受信する
図1の制御システムを含んでよい。幾つかの例では、ブロック505は、
図2~4Cを参照して上述したように入力音声信号205を受信するニューラルネットワーク300を含んでよい。幾つかの実装では、入力音声信号205は、TIMITとして知られる公衆に利用可能な会話データセットのような会話データセットの少なくとも一部を含んでよい。TIMITは、異なる性別及び方言の米国英語話者の音素及び単語表記の会話のデータセットである。TIMITは、DARPA(Defense Advanced Research Projects Agency)により委託された。TIMITのコーパス設計は、テキサスインスツルメンツ(Texas Instruments (TI))、マサチューセッツ工科大学(MIT)、SRIインターナショナルの間の共同研究である。幾つかの例によると、方法500は、入力音声信号205を、時間ドメインから周波数ドメインへと、例えば高速フーリエ変換(fast Fourier transform (FFT))、離散コサイン変換(discrete cosine transform (DCT))、又は短時間フーリエ変換(short-time Fourier transform (STFT))により変換するステップを含んでよい。幾つかの実装では、最小/最大スケーリングが、ブロック510の前に、入力音声信号205に適用されてよい。
【0060】
本例によると、ブロック510は、ニューラルネットワークにより、及び入力音声信号に基づき、符号化音声信号を生成するステップを含む。符号化音声信号は、圧縮音声信号であってよく又はそれを含んでよい。ブロック510は、例えば、本願明細書に記載されるニューラルネットワーク300のエンコーダ部分305のようなニューラルネットワークのエンコーダ部分により実行されてよい。しかしながら、他の例では、ブロック510は、ニューラルネットワークの部分ではないエンコーダにより、符号化音声信号を生成するステップを含んでよい。幾つかのこのような例では、ニューラルネットワークを実装する制御システムは、ニューラルネットワークの部分ではないエンコーダも含んでよい。例えば、ニューラルネットワークは、復号部分を含むが符号化部分を含まなくてよい。
【0061】
本例では、ブロック515は、制御システムにより、符号化音声信号を復号して復号音声信号を生成するステップを含む。復号音声信号は、非圧縮音声信号であってよく又はそれを含んでよい。幾つかの実装では、ブロック515は、復号変換係数を生成するステップを含んでよい。ブロック515は、例えば、本願明細書に記載されるニューラルネットワーク300のデコーダ部分310のようなニューラルネットワークのデコーダ部分により実行されてよい。しかしながら、他の例では、ブロック510は、ニューラルネットワークの部分ではないデコーダにより、復号音声信号及び/又は復号変換係数を生成するステップを含んでよい。幾つかのこのような例では、ニューラルネットワークを実装する制御システムは、ニューラルネットワークの部分ではないデコーダも含んでよい。例えば、ニューラルネットワークは、符号化部分を含むが復号部分を含まなくてよい。
【0062】
従って、幾つかの実装では、ニューラルネットワークの第1部分は符号化音声信号を生成するよう構成されてよく、ニューラルネットワークの第2部分は符号化音声信号を復号するよう構成されてよい。幾つかのこのような実装では、ニューラルネットワークの第1部分は、入力ニューロン層と複数の隠れニューロン層とを含んでよい。幾つかの例では、入力ニューロン層は、第1部分の隠れニューロン層のうちの少なくとも1つより多くのニューロンを含んでよい。しかしながら、代替の実装では、入力ニューロン層は、第1部分の隠れニューロン層と同じ数のニューロン、又は実質的に同様の数のニューロンを有してよい。
【0063】
幾つかの例によると、ニューラルネットワークの第1部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成されてよい。幾つかの実装では、ニューラルネットワークの第2部分の隠れ層の中の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成されてよい。幾つかのこのような実装によると、第2部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成されてよい。
【0064】
幾つかの実装では、ブロック520は、制御システムにより実装される損失関数生成モジュールにより、復号音声信号及び/又は復号変換係数、及びグラウンドトルース信号を受信するステップを含んでよい。グラウンドトルース信号は、例えば、グラウンドトルース音声信号及び/又はグラウンドトルース変換係数を含んでよい。幾つかのこのような例では、グラウンドトルース信号は、
図2に示され上述したグラウンドトルースモジュール220のようなグラウンドトルースモジュールから受信されてよい。しかしながら、幾つかの実装では、グラウンドトルース信号は、入力音声信号又は入力音声信号の一部であってよい(又はそれを含んでよい)。損失関数生成モジュールは、例えば、本願明細書に開示される損失関数生成モジュール225のインスタンスであってよい。
【0065】
幾つかの実装によると、ブロック525は、損失関数生成モジュールにより、復号音声信号及び/又は復号変換係数に対応する損失関数値を生成するステップを含んでよい。幾つかのこのような実装では、損失関数値を生成するステップは、心理音響モデルを適用するステップを含んでよい。
図5Aに示す例では、ブロック530は、損失関数値に基づき、ニューラルネットワークをトレーニングするステップを含む。トレーニングするステップは、ニューラルネットワークの中の少なくとも1つの重みを更新するステップを含んでよい。幾つかのこのような例では、
図3を参照して上述した最適化モジュール315のような最適化器は、ニューラルネットワークに関する情報及び損失関数生成モジュール225により使用される損失関数により初期化されてよい。最適化モジュール315は、該情報を、最適化モジュール315が損失関数生成モジュール225から受信した損失関数値と一緒に用いて、ニューラルネットワークの重みに関して損失関数の勾配を計算する。勾配を計算した後に、最適化モジュール315は、最適化アルゴリズムを使用して、ニューラルネットワークの重みに対する更新を生成し、及びこれらの更新をニューラルネットワークに提供してよい。ニューラルネットワークをトレーニングするステップは、最適化モジュール315により提供される更新に基づく後方伝搬を含んでよい。ニューラルネットワークをトレーニングする処理の間の検出及びアドレッシング過学習の技術は、参照によりここに組み込まれるchapter 5 and 7 of Goodfellow, Ian, Yoshua Bengio, and Aaron Courville, Deep Learning (MIT Press, 2016)に記載されている。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークの少なくとも1つの重み又は少なくとも1つの活性化関数値に対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含んでよい。
【0066】
心理音響モデルは、特定の実装に従い変化してよい。幾つかの例によると、心理音響モデルは、1つ以上の心理音響マスキング閾値に少なくとも部分的に基づいてよい。幾つかの実装では、心理音響モデルを適用するステップは、外耳伝達関数をモデル化するステップと、臨界帯域にグループ化するステップと、(限定ではないがレベル依存拡散を含む)周波数ドメインマスキングするステップと、周波数依存聴力閾値のモデル化と、及び/又は、ノイズ対マスク比の計算と、を含んでよい。幾つかの例は、
図6~10Bを参照して以下に記載される。
【0067】
幾つかの実装では、損失関数の損失関数生成モジュールの決定は、平均ノイズ対マスク比(noise-to-masking ratio (NMR))のようなノイズ対マスク比を計算するステップを含んでよい。トレーニング処理は、平均NMRを最小化するステップを含んでよい。幾つかの例が以下に説明される。
【0068】
幾つかの例によると、ニューラルネットワークをトレーニングするステップは、損失関数が比較的「平坦」になるまで継続してよい。その結果、現在の損失関数値と(以前の損失関数値のような)前の損失関数値との間の差が、閾値に又はそれより低くなる。
図5に示す例では、ニューラルネットワークをトレーニングするステップは、現在の損失関数値と前の損失関数値との間の差が所定値より小さく又は等しくなるまで、ブロック505~535のうちの少なくとも幾つかを繰り返すステップを含んでよい。
【0069】
ニューラルネットワークがトレーニングされた後に、ニューラルネットワーク(又はその部分)は、音声データを処理するために、例えば音声データを符号化する又は復号するために、使用されてよい。
図5Bは、一例による、音声符号化のためにトレーニングされたニューラルネットワークを使用する方法のブロックを概説するフロー図である。方法540は幾つかの例では、
図1の機器により、又は別の種類の機器により、実行されてよい。幾つかの例では、方法540のブロックは、1つ以上の非一時的媒体に記憶されたソフトウェアにより、実装されてよい。方法540のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示および/または記載のものより多数または少数のブロックを含んでよい。
【0070】
本例では、ブロック545は、現在入力されている音声信号を受信するステップを含む。本例では、ブロック545は、制御システムにより現在入力音声信号を受信するステップを含み、該制御システムは、1つ以上のプロセッサと、1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体と、を含む。ここで、制御システムは、本願明細書に開示する方法のうちの1つ以上に従いトレーニングされたニューラルネットワークを含む音声エンコーダを実装するよう構成される。
【0071】
幾つかの例では、トレーニング処理は、ニューラルネットワークにより及びインタフェースシステムを介して、入力トレーニング音声信号を受信するステップと、ニューラルネットワークにより及び入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、制御システムにより、符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、制御システムにより実装される損失関数生成モジュールにより、復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、損失関数生成モジュールにより、復号トレーニング音声信号に対応する損失関数値を生成するステップであって、損失関数値を生成するステップは心理音響モデルを適用するステップを含む、ステップと、損失関数値に基づきニューラルネットワークをトレーニングするステップと、を含んでよい。
【0072】
本実装によると、ブロック550は、音声エンコーダにより、現在入力音声信号を圧縮音声フォーマットに符号化するステップを含む。ここで、ブロック555は、圧縮音声フォーマットの符号化音声信号を出力するステップを含む。
【0073】
図5Cは、一例による、音声復号のためにトレーニングされたニューラルネットワークを使用する方法のブロックを概説するフロー図である。方法560は幾つかの例では、
図1の機器により、又は別の種類の機器により、実行されてよい。幾つかの例では、方法560のブロックは、1つ以上の非一時的媒体に記憶されたソフトウェアにより、実装されてよい。方法560のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示および/または記載のものより多数または少数のブロックを含んでよい。
【0074】
本例では、ブロック565は、現在入力されている圧縮音声信号を受信するステップを含む。幾つかのこのような例では、現在入力されている圧縮音声信号は、方法540に従い又は同様の方法により生成されてよい。本例では、ブロック565は、制御システムにより現在入力されている圧縮入力音声信号を受信するステップを含み、該制御システムは、1つ以上のプロセッサと、1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体と、を含む。ここで、制御システムは、本願明細書に開示する方法のうちの1つ以上に従いトレーニングされたニューラルネットワークを含む音声デコーダを実装するよう構成される。
【0075】
本実装によると、ブロック570は、音声デコーダにより、現在入力されている圧縮音声信号を復号するステップを含む。例えば、ブロック570は、現在入力されている圧縮音声信号を伸長するステップを含んでよい。ここで、ブロック575は、復号音声信号を出力するステップを含む。幾つかの例によると、方法540は、1つ以上のトランスデューサにより、復号音声信号を再生するステップを含んでよい。
【0076】
上述のように、発明者は、人間が音を知覚し始める方法に関連する損失関数を用いて異なる種類のニューラルネットワークをトレーニングする種々の方法を研究した。これらの損失関数の各々の効果は、ニューラルネットワーク符号化により生成される音声データに従い評価された。幾つかの例では、平均二乗誤差(mean squared error (MSE))に基づく損失関数を用いてトレーニングされたニューラルネットワークにより処理された音声データは、本願明細書に開示される方法に従い生成された音声データを評価するための基礎として使用された。
【0077】
図6は、平均二乗誤差に基づき損失関数を生成するよう構成される損失関数生成モジュールを示すブロック図である。ここで、ニューラルネットワークにより生成された音声信号の推定された大きさ、及びグラウンドトルース/真の音声信号の大きさは、両方とも、損失関数生成モジュール225に提供される。損失関数生成モジュール225は、MSE値に基づき、損失関数値230を生成する。損失関数値230は、トレーニングのためにニューラルネットワークの重みに対する更新を生成するよう構成される最適化モジュールに提供されてよい。
【0078】
発明者は、「耳モデル」とも呼ばれてよい人間の耳の1つ以上の部分の音響応答モデルに少なくとも部分的に基づき損失関数の幾つかの実装を評価した。
図7Aは、人間の外耳道の標準的な音響応答を近似する関数のグラフである。
【0079】
図7Bは、人間の外耳道の標準的な音響応答に基づき損失関数を生成するよう構成される損失関数生成モジュールを示す。本例では、関数Wは、ニューラルネットワークにより生成された音声信号及びグラウンドトルース/真の音声信号の両方に適用される。
【0080】
幾つかの例では、関数Wは以下の通りであってよい。
【数1】
【0081】
式1は、人間の外耳道の音響応答をモデル化する、音声品質の目的の知覚評価(Perceptual Evaluation of Audio Quality (PEAQ))アルゴリズムの実装において使用されている。式1で、fは音声信号の周波数を表す。本例では、損失関数生成モジュール225は、2つの結果として生じる値の間の差に基づき、損失関数値230を生成する。損失関数値230は、トレーニングのためにニューラルネットワークの重みに対する更新を生成するよう構成される最適化モジュールに提供されてよい。
【0082】
MSEに基づく損失関数に従いトレーニングされたニューラルネットワークにより生成された音声信号と比較すると、
図7Bに示すような損失関数を用いてニューラルネットワークをトレーニングすることにより生成される音声信号は、僅かな向上しか提供しない。例えば、知覚客観的リスニング品質分析(Perceptual Objective Listening Quality Analysis (POLQA))に基づく客観的標準を用いて、MSEに基づく音声データはスコア3.41に達した。一方で、
図7Bに示したような損失関数を用いるニューラルネットワークをトレーニングすることにより生成された音声データは3.48のスコアを達成した。
【0083】
幾つかの実験で、発明者は、帯域操作に基づく損失関数に従いトレーニングされたニューラルネットワークにより生成された音声信号をテストした。
図8は、帯域操作に基づき損失関数を生成するよう構成される損失関数生成モジュールを示す。本例では、損失関数生成モジュール225は、ニューラルネットワークにより生成された音声信号及びグラウンドトルース/真の音声信号に対して帯域操作を実行するよう、及び結果の間の差を計算するよう、構成される。
【0084】
幾つかの実装では、帯域操作は、参照によりここに組み込まれるchapter 6 (Critical Bands and Excitation) of Fastl, H., & Zwicker, E. (2007), Psychoacoustics: Facts and Models (3rd ed., Springer)に従い定義された臨界帯域である「Zwicker」帯域に基づく。代替の実装では、帯域操作は、参照によりここに組み込まれるchapter 3 (Frequency Selectivity, Masking, and the Critical Band) of Moore, B. C.J. (2012), An Introduction to the Psychology of Hearing (Emerald Group Publishing)に従い定義された臨界帯域である「Moore」帯域に基づく。しかしながら、他の例は、当業者に知られている他の種類の帯域操作を含んでよい。
【0085】
発明者の実験に基づき、発明者は、帯域操作単独では、満足のいく結果を提供する可能性が低いと結論付けた。例えば、POLQAに基づく客観的標準を使用して、MSEに基づく音声データは3.41のスコアを達成した。一方で、帯域操作を用いるニューラルネットワークにより生成された音声データは、1.62のスコアを達成しただけである。
【0086】
幾つかの実験で、発明者は、周波数マスキングに少なくとも部分的に基づく損失関数に従いトレーニングされたニューラルネットワークにより生成された音声信号をテストした。
図9Aは、幾つかの例による周波数マスキングに含まれる処理を示す。本例では、拡散関数が周波数ドメインで計算される。この拡散関数は、例えば、入力音声信号から、例えば書く入力音声フレームから推定できるレベル及び周波数依存関数であってよい。次に、入力音声信号の周波数スペクトルによる畳み込みが実行されてよく、これはExcitationパターンを生成する。入力音声データと拡散関数との間の畳み込みの結果は、人間の聴覚フィルタが入来音声のExcitationにどのように反応するかの近似である。従って、処理は、人間の聴力メカニズムのシミュレーションである。幾つかの実装では、音声データは、周波数ビンへとグループ化され、畳み込み処理は、周波数ビン毎に、該周波数ビンの対応する音声データにより拡散関数を畳み込むステップを含む。
【0087】
Excitationパターンは、マスキングパターンを生成するために調整されてよい。幾つかの例では、Excitationパターンは、マスキングパターンを生成するために、下方向に例えば20dBだけ調整されてよい。
【0088】
図9Bは、拡散関数の一例を示す。本例によると、拡散関数は、効率的実装のために予め計算可能な簡略非対称三角関数である。この簡易な例では、垂直軸はデシベルを表し、水平軸はBarkサブ帯域を表す。1つのこのような例によると、拡散関数は以下の通り計算される。
【数2】
【0089】
式2及び3で、S
lはピーク周波数の左側にある
図9Bの拡散関数の部分の勾配を表し、S
uはピーク周波数の右側にある拡散関数の部分の勾配を表す。勾配の単位はdB/Barkである。式3で、fcは拡散関数の中心又はピーク周波数を表し、Lは音声データのレベル又は振幅を表す。幾つかの例では、拡散関数の計算を簡略化するために、Lは定数と考えられてよい。幾つかのこのような例によると、Lは70dBであってよい。
【0090】
幾つかのこのような実装では、Excitationパターンは次式のように計算されてよい。
【数3】
【0091】
式4で、EはExcitation関数(本願明細書ではExcitationパターンとも呼ばれる)を表し、SFは拡散関数を表し、BPは周波数ビニングされた(frequency-binned)音声データの帯域処理された(banded)パターンを表す。幾つかの実装では、Excitationパターンは、マスキングパターンを生成するために調整されてよい。幾つかの例では、Excitationパターンは、マスキングパターンを生成するために、下方向に例えば20dBだけ、24dBだけ、27dBだけ、等、調整されてよい。
【0092】
図10は、損失関数生成モジュールの代替の実装の一例を示す。損失関数生成モジュール225の要素は、例えば、
図1を参照して上述した制御システム115のような制御システムにより実装されてよい。
【0093】
本例では、参照音声信号xrefは、本願明細書の他の場所ではグラウンドトルース信号のインスタンスと呼ばれ、損失関数生成モジュール225の高速フーリエ変換(fast Fourier transform (FFT))ブロック1005aに提供される。テスト音声信号xは、本願明細書に開示されたもののうちの1つのようなニューラルネットワークにより生成され、損失関数生成モジュール225のFFTブロック1005bに提供される。
【0094】
本例によると、FFTブロック1005aの出力は、耳モデルブロック1010aに提供され、FFTブロック1005aの出力は、耳モデルブロック1010bに提供される。耳モデルブロック1010a及び1010bは、例えば、人間の耳のうりの1つ以上の部分の標準的な音響応答に基づく関数を提供するよう構成されてよい。1つのこのような例では、耳モデルブロック1010a及び1010bは、式1で上述した関数を適用するよう構成されてよい。
【0095】
本実装によると、耳モデルブロック1010a及び1010bの出力は、差計算ブロック1015に提供される。差計算ブロック1015は、耳モデルブロック1010aの出力と耳モデルブロック1010bの出力との間の差を計算するよう構成される。差計算ブロック1015の出力は、テスト信号xの中にあるノイズの近似として考えられてよい。
【0096】
本例では、耳モデルブロック1010aの出力は、帯域処理ブロック1020aに提供され、差計算ブロック1015の出力は、帯域処理ブロック1020bに提供される。帯域処理ブロック1020a及び1020bは、上述の帯域処理(例えば、Zwicker又はMoore帯域処理)のうちの1つであってよい同じ種類の帯域処理を適用するよう構成される。しかしながら、代替の実装では、帯域処理ブロック1020a及び1020bは、当業者に知られている任意の適切な帯域処理を適用するよう構成されてよい。
【0097】
帯域処理ブロック1020aの出力は、周波数マスキングブロック1025に提供され、周波数マスキングブロック1025は、周波数マスキング処理を適用するよう構成される。マスキングブロック1025は、例えば、本願明細書に開示した周波数マスキング処理のうちの1つ以上を適用するよう構成されてよい。
図9Bを参照して上述したように、簡略周波数マスキング処理の使用は、潜在的利点を提供できる。しかしながら、代替の実装では、マスキングブロック1025は、当業者に知られている1つ以上の他の周波数マスキング処理を適用するよう構成されてよい。
【0098】
本例によると、マスキングブロック1025の出力及び帯域処理ブロック1020bの出力は、両方とも、ノイズ対マスク比(noise-to-mask ratio (NMR))計算ブロック1030に提供される。上述のように、差計算ブロック1015の出力は、テスト信号xの中にあるノイズの近似として考えられてよい。従って、帯域処理ブロック1020bの出力は、テスト信号xの中にあるノイズの周波数帯域処理されたバージョンとして考えられてよい。一例によると、NMR計算ブロック1030は、NMRを以下のように計算してよい。
【数4】
【0099】
式5で、BPnoiseは帯域処理ブロック1020bの出力を表し、MPはマスキングブロック1025の出力を表す。幾つかの例によると、NMR計算ブロック1030により計算されたNMRは、帯域処理ブロック1020a及び1020bにより出力された全部の周波数帯域に渡る平均NMRであってよい。NMR計算ブロック1030により計算されたNMRは、例えば上述のようにニューラルネットワークをトレーニングするために損失関数値230として使用されてよい。例えば、損失関数値230は、ニューラルネットワークの更新された重みを生成するよう構成される最適化モジュールに提供されてよい。
【0100】
図11は、幾つかの開示された実装の客観的テスト結果の一例を示す。
図11は、MSE、べき法則、NMR-Zwicker(Zwicker帯域処理のような帯域処理に基づくがZwickerにより定義されたものより端数分だけ狭い帯域を有するNMR)、及びNMR-Moore(Moore帯域処理に基づくNMR)に基づく損失関数を用いてトレーニングされたニューラルネットワークにより生成された音声データのPESQスコアn間の比較を示す。これらの結果は、
図4-1(B)を参照して上述したニューラルネットワークの出力に基づくものであり、NMR-Zwicker及びNMR-Mooreの結果の両方がMSE及びべき法則の結果よりも幾らか良好であることを示す。
【0101】
図12は、様々な種類の損失関数を用いてトレーニングされたニューラルネットワークにより生成された男性の話者に対応する音声データの主観的テスト結果の例を示す。本例では、主観的テスト結果は、MUSHRA(MUltiple Stimulus test with Hidden Reference and Anchor )評価である。MUSHRAは、ITU-R BS.1534に記載されており、損失のある音声圧縮アルゴリズムからの出力の知覚品質を評価するためにコーデックリスニングテストを行うためのよく知られた方法である。MUSHRA法は、多数の刺激を同時に表示するという利点を有する。その結果、被検者は、それらの間の任意の比較を直接実行できる。MUSHRA法を用いてテストを実行するために要する時間は、他の方法と比べて有意に短縮され得る。これは、全部のコーデックからの結果が同じサンプルについて同時に表現されるので、部分的に真である。その結果、ついにされたtテスト又は分散の反復測定が統計的分析のために使用できる。
図12のx軸に沿った数値は、異なる音声ファイルの識別番号である。
【0102】
より具体的には、
図12は、MSEに基づく損失関数を用いて、べき法則に基づく損失関数を用いて、NMR-Zwickerに基づく損失関数を用いて、及びNMR-Mooreに基づく損失関数を用いてトレーニングされた同じニューラルネットワークにより生成された音声データと、3.5kHz低域通過フィルタ(MUSHRA法の標準的な「アンカー(anchor)」の1つ)を適用することにより生成された音声データと、参照音声データと、の間のMUSHRA評価の間の比較を示す。本例では、MUSHRA評価は11人の異なるリスナーから取得された。
図12に示すように、NMR-Mooreに基づく損失関数を用いてトレーニングされたニューラルネットワークにより生成される音声データの平均MUSHRA評価は、他のいずれよりも有意に高かった。差は、ほぼ30MUSHRAポイントであり、希に見る大きな効果があった。2番目に高い平均MUSHRA評価は、NMR-Zwickerに基づく損失関数を用いてトレーニングされたニューラルネットワークにより生成された音声データについてであった。
【0103】
図13は、
図12に示した同じ種類の損失関数を用いてトレーニングされたニューラルネットワークにより生成された女性の話者に対応する音声データの主観的テスト結果の例を示す。
図12におけるように、
図13のx軸に沿った数値は、異なる音声ファイルの識別番号である。本例では、最高の平均MUSHRA評価は、ここでも、NMRに基づく損失関数を用いてトレーニングされた後のニューラルネットワークにより生成された音声データに割り当てられた。NMR-Moore及びNMR-Zwicker音声データと他の音声データとの間の知覚された差は、本例では、
図12に示した知覚された差のように明白ではなかったが、それでも、
図13に示した結果は、有意な向上を示す。
【0104】
本願明細書で定められた一般的な原理は、本開示の範囲から逸脱することなく他の実装に適用されてよい。したがって、請求の範囲は、本願明細書で示された実装を限定することを意図せず、本開示、本願明細書に開示された原理および新規な特徴と整合する最も広い範囲と考えられる。
【0105】
本発明の種々の態様は、以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)から明らかであり得る。
(EEE1)コンピュータにより実施される音声処理方法であって、
1つ以上のプロセッサと1つ以上の非一時的記憶媒体とを含む制御システムにより実装されるニューラルネットワークにより、入力音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力音声信号に基づき、符号化音声信号を生成するステップと、
前記制御システムにより、前記符号化音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号音声信号及びグラウンドトルース音声信号を受信するステップと、
損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップであって、前記トレーニングするステップは前記ニューラルネットワークの少なくとも1つの重みを更新するステップを含む、ステップと、を含む方法。
(EEE2)前記ニューラルネットワークは、前記損失関数値に基づく後方伝搬を含む、EEE1に記載の方法。
(EEE3)前記ニューラルネットワークは、自己符号化器を含む、EEE1又はEEE2に記載の方法。
(EEE4)前記ニューラルネットワークをトレーニングするステップは、前記ニューラルネットワークの少なくとも1つの重みに対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含む、EEE1~3のいずれか一項に記載の方法。
(EEE5)前記ニューラルネットワークの第1部分は前記符号化音声信号を生成し、前記ニューラルネットワークの第2部分は前記符号化音声信号を復号する、EEE1~4のいずれか一項に記載の方法。
(EEE6)前記ニューラルネットワークの前記第1部分は、入力ニューロン層と複数の隠れニューロン層とを含み、前記入力ニューロン層は、最終隠れニューロン層より多くのニューロンを含む、EEE5に記載の方法。
(EEE7)前記ニューラルネットワークの前記第1部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成される、EEE5に記載の方法。
(EEE8)前記ニューラルネットワークの前記第2部分の隠れ層の中の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成され、前記第2部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成される、EEE5に記載の方法。
(EEE9)前記心理音響モデルは、1つ以上の心理音響マスク閾値に少なくとも部分的に基づく、EEE1~8のいずれか一項に記載の方法。
(EEE10)前記心理音響モデルは、以下:
外耳伝達関数のモデル化、
臨界帯域へのグループ化、
限定ではなくレベル依存拡散を含む周波数ドメインマスキング、
周波数依存聴力閾値のモデル化、
又はノイズ対マスク比の計算、
のうちの1つ以上を含む、EEE1~9のいずれか一項に記載の方法。
(EEE11)前記損失関数は、平均ノイズ対マスク比を計算するステップを含み、前記トレーニングするステップは、前記平均ノイズ対マスク比を最小化するステップを含む、EEE1~10のいずれか一項に記載の方法。
(EEE12)音声符号化方法であって、
1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力音声信号を受信するステップであって、前記制御システムは、EEE1~11に記載の方法のうちのいずれか1つに従いトレーニングされたニューラルネットワークを含む音声エンコーダを実装するよう構成される、ステップと、
前記音声エンコーダにより、前記現在入力音声信号を圧縮音声フォーマットに符号化するステップと、
前記圧縮音声フォーマットの符号化音声信号を出力するステップと、を含む方法。
(EEE13)音声復号方法であって、
1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力圧縮音声信号を受信するステップであって、前記制御システムは、EEE1~11に記載の方法のうちのいずれか1つに従いトレーニングされたニューラルネットワークを含む音声デコーダを実装するよう構成される、ステップと、
前記音声デコーダにより、前記現在入力圧縮音声信号を復号するステップと、
前記復号音声信号を出力するステップと、を含む方法。
(EEE14)1つ以上のトランスデューサにより、前記復号音声信号を再生するステップを更に含むEEE13に記載の方法。
(EEE15)機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは、EEE1~14のいずれか一項に記載の方法を実施するよう構成される、制御システムと、
を含む機器。
(EEE16)ソフトウェアを記憶している1つ以上の非一時的媒体であって、前記ソフトウェアは、EEE1~14のいずれか一項に記載の方法を実行するよう1つ以上の装置を制御するための命令を含む、非一時的媒体。
(EEE17)音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは音声エンコーダを実装するよう構成され、前記音声エンコーダは、EEE1~11のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークを含む、制御システムと、を含み、
前記制御システムは、
現在入力音声信号を受信し、
前記現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化音声信号を出力する、
よう構成される、機器。
(EEE18)音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムと、を含み、
前記制御システムは、音声エンコーダを実装するよう構成され、前記音声エンコーダは、処理に従いトレーニングされたニューラルネットワークを含み、前記処理は、
前記ニューラルネットワークにより及び前記インタフェースシステムを介して、入力トレーニング音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、
前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、
前記損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは、心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップと、
を含み、前記音声エンコーダは、
現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化音声信号を出力する、よう更に構成される、機器。
(EEE19)音声復号機器を含むシステムであって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムと、を含み、
前記制御システムは、音声デコーダを実装するよう構成され、前記音声デコーダは、処理に従いトレーニングされたニューラルネットワークを含み、前記処理は、
前記ニューラルネットワークにより及び前記インタフェースシステムを介して、入力トレーニング音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、
前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、
前記損失関数生成モジュールにより、前記復号トレーニング音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは、心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップと、
を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットへと復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、よう更に構成される、機器。
(EEE20)前記システムは、前記復号音声信号を再生するよう構成される1つ以上のトランスデューサを更に含む、EEE19に記載のシステム。