(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-26
(54)【発明の名称】生成ネットワークを用いたユニバーサル・スピーチ強調
(51)【国際特許分類】
G10L 21/0208 20130101AFI20240918BHJP
G10L 25/30 20130101ALI20240918BHJP
【FI】
G10L21/0208 100Z
G10L25/30
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024519253
(86)(22)【出願日】2022-09-29
(85)【翻訳文提出日】2024-03-28
(86)【国際出願番号】 EP2022077144
(87)【国際公開番号】W WO2023052523
(87)【国際公開日】2023-04-06
(32)【優先日】2021-09-29
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2021-12-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-07-27
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-18
(33)【優先権主張国・地域又は機関】ES
(81)【指定国・地域】
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】セラ,ジョアン
(72)【発明者】
【氏名】パスクアル,サンティアゴ
(72)【発明者】
【氏名】ポンス プイグ,ジョルディ
(57)【要約】
本開示は、スピーチ強調のためのニューラル・ネットワーク・ベースのシステムに関連し、システムは、強調されたオーディオ信号を生成する生成ネットワークと、生成ネットワークの条件付け信号を生成する条件付けネットワークとを含む。条件付けネットワークは、複数の層を含み、且つ:オーディオ信号を入力として受信し、複数の層を介してオーディオ信号を伝搬させ、オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、条件付け情報として提供するように構成されており、オーディオ信号の1つ以上の第1の内部表現は、条件付けネットワークのそれぞれの層で取り出される。生成ネットワークは、ノイズ・ベクトル及び条件付け情報を入力として受信し、ノイズ・ベクトル及び条件付け情報に基づいて、強調されたオーディオ信号を生成するように構成されている、本開示はシステムを訓練する方法にも関連している。
[
図1]
【特許請求の範囲】
【請求項1】
オーディオ信号のスピーチ強調のためのニューラル・ネットワーク・ベースのシステムであって、強調されたオーディオ信号を生成する生成ネットワークと、前記生成ネットワークの条件付け信号を生成する条件付けネットワークとを含み、
前記条件付けネットワークは、複数の層を含み、且つ:
前記オーディオ信号を入力として受信するステップ;
前記複数の層を介して前記オーディオ信号を伝搬させるステップ;及び
前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供するステップ;
を行うように構成されており、前記オーディオ信号の1つ以上の第1の内部表現は、前記条件付けネットワークのそれぞれの層で取り出され;
前記生成ネットワークは:
ノイズ・ベクトル及び前記条件付け情報を入力として受信するステップ;及び
前記ノイズ・ベクトル及び前記条件付け情報に基づいて、前記強調されたオーディオ信号を生成するステップ;
を行うように構成されている、システム。
【請求項2】
請求項1に記載のシステムにおいて、前記条件付け情報の第1の内部表現は、様々な時間分解能における、前記オーディオ信号の表現の階層に関連している、システム。
【請求項3】
請求項1又は2に記載のシステムにおいて、前記条件付け情報の第1の内部表現各々又はその処理されたバージョンは、前記生成ネットワークにおける個々の第2の内部表現と結合される、システム。
【請求項4】
請求項1~3のうちの何れか一項に記載のシステムにおいて、前記条件付けネットワークは、第1のサイド情報を入力として受信するように更に構成されており、前記条件付けネットワークによる前記オーディオ信号の処理は、前記第1のサイド情報に依存している、システム。
【請求項5】
請求項4に記載のシステムにおいて、前記第1のサイド情報は:
前記オーディオ信号に存在するアーチファクトのタイプ;
前記オーディオ信号に存在するノイズのレベル;
前記オーディオ信号に関して実行される強調処理;及び
前記オーディオ信号の特徴に関する情報;
のうちの1つ以上についての数値的記述を含む、システム。
【請求項6】
請求項1~5のうちの何れか一項に記載のシステムにおいて、前記生成ネットワークは、第2のサイド情報を入力として受信するように更に構成されており、前記生成ネットワークによる前記ノイズ・ベクトルの処理は、前記第2のサイド情報に依存している、システム。
【請求項7】
請求項6に記載のシステムにおいて、前記第2のサイド情報は:
前記オーディオ信号に存在するアーチファクトのタイプ;
前記オーディオ信号に存在するノイズのレベル;
前記オーディオ信号に関して実行される強調処理;及び
前記オーディオ信号の特徴に関する情報;
のうちの1つ以上についての数値的記述を含む、システム。
【請求項8】
請求項1~7のうちの何れか一項に記載のシステムにおいて、前記条件付けネットワークの複数の層は、1つ以上の中間層を含む、システム。
【請求項9】
請求項8に記載のシステムにおいて、前記オーディオ信号の1つ以上の第1の内部表現は、前記1つ以上の中間層から取り出される、システム。
【請求項10】
請求項1~9のうちの何れか一項に記載のシステムにおいて、前記条件付けネットワークは、エンコーダ_デコーダ構造に基づいており、オプションとして、前記エンコーダ_デコーダ構造はReSNetを使用し、及び/又は前記エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる、システム。
【請求項11】
請求項1~10のうちの何れか一項に記載のシステムにおいて、前記生成ネットワークは、拡散ベース・モデル、変分オートエンコーダ、自己回帰モデル、及び敵対的生成ネットワークの形式のうちの何れかに基づいている、システム。
【請求項12】
請求項1~11のうちの何れか一項に記載のシステムにおいて、前記生成ネットワークは、エンコーダ_デコーダ構造に基づいており、オプションとして、前記エンコーダ_デコーダ構造はReSNetを使用し、及び/又は前記エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる、システム。
【請求項13】
請求項1~12のうちの何れか一項に記載のシステムにおいて、当該システムは、クリーンなオーディオ信号と、前記クリーンなオーディオ信号から導出された又はそれに対応する歪んだオーディオ信号とをそれぞれが含むデータ・ペアを使用して、推論の前に訓練されており、前記歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む、システム。
【請求項14】
請求項13に記載のシステムにおいて、前記データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、前記クリーンなオーディオ信号のプログラム変換及び/又はノイズの加算により生成されたものとを含んでいる、システム。
【請求項15】
請求項13又は14に記載のシステムにおいて、前記条件付けネットワークは、訓練のために、前記オーディオ信号の1つ以上の第3の内部表現を提供するように更に構成されており、前記オーディオ信号の1つ以上の第3の内部表現は、前記条件付けネットワークの個々の層で取り出されるものであり;
前記システムは、前記歪んだオーディオ信号が前記条件付けネットワークに前記オーディオ信号として入力された場合の前記システムの出力に対する前記クリーンなオーディオ信号の比較に基づいて、及び、個々の補助ニューラル・ネットワークによる前記第3の内部表現の処理の後の、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と前記第3の内部表現との比較に基づいて、各データ・ペアについて訓練されているシステム。
【請求項16】
請求項15に記載のシステムにおいて、前記比較は、個々の損失関数に基づいている、システム。
【請求項17】
請求項15又は16に記載のシステムにおいて、前記オーディオ特徴は、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む、システム。
【請求項18】
請求項15~17のうちの何れか一項に記載のシステムにおいて、前記条件付けネットワークから抽出された第3の内部表現各々について各自1つの補助ニューラル・ネットワークが存在している、システム。
【請求項19】
請求項15~18のうちの何れか一項に記載のシステムにおいて、前記1つ以上の補助ニューラル・ネットワークは、混合密度ネットワークに基づいている、システム。
【請求項20】
請求項13~19のうちの何れか一項に記載のシステムにおいて、前記条件付けネットワーク及び前記生成ネットワークは合同訓練されている、システム。
【請求項21】
ニューラル・ネットワーク・ベースのシステムを用いてスピーチ強調のためにオーディオ信号を処理する方法であって、前記システムは、強調されたオーディオ信号を生成する生成ネットワークと、前記生成ネットワークの条件付け信号を生成する条件付けネットワークとを含み、前記方法は:
前記オーディオ信号を前記条件付けネットワークに入力するステップ;
前記条件付けネットワークの複数の層を介して前記オーディオ信号を伝搬させるステップ;及び
前記オーディオ信号の1つ以上の第1の内部表現を、前記条件付けネットワークのそれぞれの層で取り出し、前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供するステップ;
ノイズ・ベクトル及び前記条件付け情報を前記生成ネットワークに入力するステップ;及び
前記ノイズ・ベクトル及び前記条件付け情報に基づいて、前記強調されたオーディオ信号を生成するステップ;
を含む方法。
【請求項22】
請求項21に記載の方法において、前記条件付け情報の第1の内部表現は、様々な時間分解能における、前記オーディオ信号の表現の階層に関連している、方法。
【請求項23】
請求項21又は22に記載の方法において、前記条件付け情報の第1の内部表現各々又はその処理されたバージョンを、前記生成ネットワークにおける個々の第2の内部表現と結合するステップを更に含む方法。
【請求項24】
請求項21~23のうちの何れか一項に記載の方法において、第1のサイド情報を前記条件付けネットワークに入力する、及び/又は、第2のサイド情報を前記生成ネットワークに入力するステップを更に含む、方法。
【請求項25】
請求項1~12のうちの何れか一項に記載のニューラル・ネットワーク・ベースのシステムを訓練する方法であって、前記訓練は、クリーンなオーディオ信号と、前記クリーンなオーディオ信号から導出された又はそれに対応する歪んだオーディオ信号とをそれぞれが含むデータ・ペアに基づいており、前記歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む、方法。
【請求項26】
請求項25に記載の方法において、前記データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、前記クリーンなオーディオ信号のプログラム変換及び/又はノイズの加算により生成されたものとを含んでいる、方法。
【請求項27】
請求項25又は26のうちの何れか一項に記載の方法において、各データ・ペアについて:
前記歪んだオーディオ信号を前記条件付けネットワークに前記オーディオ信号として入力し;
前記条件付けネットワークの複数の層を介して前記オーディオ信号を伝搬させ;
前記条件付けネットワークの個々の層において、前記オーディオ信号の1つ以上の第1の内部表現を取り出し、前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供し;
前記条件付けネットワークの個々の層において、前記オーディオ信号の1つ以上の第3の内部表現を取り出し;
前記第3の内部表現の各々を、個々の補助ニューラル・ネットワークにより処理し;
前記ノイズ・ベクトル及び前記条件付け情報を前記生成ネットワークに入力し;
前記生成ネットワークを使用して、前記ノイズ・ベクトル及び前記条件付け情報に基づいて前記システムの出力を生成し;
前記システムの出力を前記クリーンなオーディオ信号と比較し;及び
前記補助ニューラル・ネットワークによる処理の後に、前記第3の内部表現を、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と比較するステップ;
を含む方法。
【請求項28】
請求項27に記載の方法において、前記システムの出力を前記クリーンなオーディオ信号と比較し;前記第3の内部表現を、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と比較することは、個々の損失関数に基づいている、方法。
【請求項29】
請求項27又は28に記載の方法において、前記オーディオ特徴は、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む、方法。
【請求項30】
請求項27~29のうちの何れか一項に記載の方法において、前記1つ以上の補助ニューラル・ネットワークは、混合密度ネットワークに基づいている、方法。
【請求項31】
請求項27~30のうちの何れか一項に記載の方法において、前記条件付けネットワーク、前記生成ネットワーク、及び1つ以上の補助ニューラル・ネットワークは、合同訓練されている、方法。
【請求項32】
プロセッサにより実行されると、請求項21~31のうちの何れか一項に記載の方法を前記プロセッサに実行させる命令を含むコンピュータ・プログラム。
【請求項33】
請求項32に記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本件出願は、以下の先行出願:2021年9月29日付で出願されたスペイン特許出願第P202130914号(参照番号D21101ES)、2021年12月8日付けで出願された米国仮特許出願第63/287,207号(参照番号D21101USP1)、及び2022年7月27日付けで出願された米国仮特許出願第63/392,575号(参照番号D21101USP2)についての優先権を主張しており、各々の内容全体は参照により援用される。
【0002】
技術分野
本開示は、オーディオ信号のスピーチ強調(speech enhancement)のためのニューラル・ネットワーク・ベースの技術、及びスピーチ強調のためのニューラル・ネットワークに基づくシステムの訓練に関連する。特に、本開示は、オーディオ信号のノイズ除去に加えて、スピーチを含むノイズの多いオーディオ信号から、様々なアーチファクトを除去することが可能な技術に関連している。これらの技術は、生成モデル又は生成ネットワーク(又は、一般的な生成技術)に関連する可能性がある。
【背景技術】
【0003】
スピーチの録音又はストリーム、特に、専門家でない者によって又はロー・エンド・デバイスで作成されたものは、録音の品質に深刻な影響を及ぼす可能性のある背景雑音を含んでおり、背景雑音は最終的には何が話されているかの理解を妨げてしまう。このことは、スピーチ・ノイズ除去又は強調アルゴリズムであってスピーチの自然さを損なうことなくノイズ成分を除去しようとするものの開発を動機付ける。これらの場合、特に話者が室内にいる場合に見受けられる別のアーチファクトは、残響(reverberation)である。従って、スピーチ強調アルゴリズムが、シンプルなノイズ除去から離れて、背景雑音と残響の両方に取り組む方向に向かうことは、有利なことであろう。更に、スピーチ録音又はストリームは、ノイズ及びリバーブ(reverb)以外の更なるアーチファクトを含む可能性があり、これには、例えば、クリッピング、無音ギャップ、等化、誤ったレベル、及びコーデック・アーチファクトを含む可能性がある。
【0004】
従って、これらのアーチファクトの何れか又は全てを単一のステップで除去することが可能な改善された(例えば、ユニバーサルな)スピーチ強調技術に対するニーズが存在する。
【発明の概要】
【0005】
このようなニーズを考慮して、本開示は、スピーチ強調のためのニューラル・ネットワーク・ベースのシステム、ニューラル・ネットワーク・ベースのシステムを用いてスピーチ強調のためにオーディオ信号を処理する方法、ニューラル・ネットワーク・ベースのシステムを訓練する方法、コンピュータ・プログラム、及びコンピュータ読み取り可能な記憶媒体であって、それぞれ独立請求項の特徴を有するものを提供する。
【0006】
本開示の態様は、オーディオ信号のスピーチ強調のためのニューラル・ネットワークに基づくシステムに関連する。ニューラル・ネットワーク・ベースのシステムは、例えば、コンピュータで実施することが可能である。システムは、強調されたオーディオ信号を生成するための生成ネットワークと、生成ネットワークのための条件付け情報(conditioning information)を生成するための条件付けネットワークとを含む可能性がある。条件付けネットワークは、複数の層(例えば、畳み込み層)を含む可能性がある。更に、条件付けネットワークは、オーディオ信号を入力として受信するように構成される可能性がある。条件付けネットワークは、更に、複数の層を介してオーディオ信号を伝搬させるように構成される可能性がある。条件付けネットワークは、更に、オーディオ信号の1つ以上の第1の内部表現(internal representations)(又は1つ以上の第1の内部表現の処理されたバージョン)を、条件付け情報として提供するように構成される可能性がある。オーディオ信号の1つ以上の第1の内部表現は、条件付けネットワークのそれぞれの層で抽出される可能性がある。生成ネットワークは、ノイズ・ベクトル及び条件付け情報を入力として受信するように構成される可能性がある。生成ネットワークは、ノイズ・ベクトル及び条件付け情報に基づいて、強調されたオーディオ信号を生成するように更に構成される可能性がある。
【0007】
上記のように構成され、ランダム・ベクトルを処理する生成ネットワークと、オーディオ信号を処理して、生成ネットワークのための条件付け情報を生成する条件付けネットワークとを備える提案システムは、スピーチ信号のノイズ除去だけでなく、クリッピング、ギャップ、等化、誤ったレベル、コーデック・アーチファクトを含む、スピーチ信号に存在する可能性のあるあらゆる種類のアーチファクトを除去することによって、スピーチを強調することができる。
【0008】
一部の実施形態では、条件付け情報の第1の内部表現は、異なる時間分解能(temporal resolutions)でのオーディオ信号の表現の階層に関連する可能性がある。これは、異なる粒度でのオーディオ信号の特性に関する情報を生成ネットワークに伝達して、強化されたオーディオ信号の自然な結果を保証することを可能にする。
【0009】
一部の実施形態では、条件付け情報の第1の内部表現各々(又はその処理されたバージョン)は、生成ネットワークにおける個々の第2の内部表現と結合される可能性がある。ここで及び以下において、(例えば、条件付けのために)内部表現を結合することは、例えば、加算、乗算、及び連結のうちの1つ以上を含む可能性がある。一部の実装では、内部表現の結合は、加算と乗算を使用することが可能である。
【0010】
一部の実施形態では、条件付けネットワークは、第1のサイド情報を入力として受信するように更に構成される可能性がある。そして、条件付けネットワークによるオーディオ信号の処理は、第1のサイド情報に依存する可能性がある。
【0011】
第1のサイド情報は、強調されるべきオーディオ信号に関する追加情報を、条件付けネットワークに提供し、それによって、異なる種類のオーディオ信号に対するより大きな適応性をシステムに提供できる可能性がある。
【0012】
一部の実施形態では、第1のサイド情報は:オーディオ信号に存在するアーチファクトのタイプ;オーディオ信号に存在するノイズのレベル;オーディオ信号に関して実行される強調処理;及びオーディオ信号の特徴に関する情報;のうちの1つ以上の数値的又はテキスト記述を含む可能性がある。オーディオ信号の特徴は、例えば、話者の身元、言語情報、部屋の特徴、及びマイクロフォン特性のうちの1つ以上を含む可能性がある。
【0013】
一部の実施形態では、生成ネットワークは、第2のサイド情報を入力として受信するように更に構成される可能性がある。従って、生成ネットワークによるノイズ・ベクトルの処理は、第2のサイド情報に依存する可能性がある。
【0014】
第2のサイド情報は、強調されるべきオーディオ信号に関する追加情報を、生成ネットワークに提供し、それによって、異なる種類のオーディオ信号に対するより大きな適応性をシステムに提供できる可能性がある。
【0015】
一部の実施形態では、第2のサイド情報は:オーディオ信号に存在するアーチファクトのタイプ;オーディオ信号に存在するノイズのレベル;オーディオ信号に関して実行される強調処理;及びオーディオ信号の特徴に関する情報;のうちの1つ以上の数値的又はテキスト記述を含む可能性がある。オーディオ信号の特徴は、例えば、話者の身元、言語情報、部屋の特徴、及びマイクロフォン特性のうちの1つ以上を含む可能性がある。
【0016】
一部の実施形態では、条件付けネットワークの複数の層は、1つ以上の中間層を含む可能性がある。更に、オーディオ信号の1つ以上の第1の内部表現は、1つ以上の中間層から取り出される可能性がある。
【0017】
一部の実施形態では、条件付けネットワークは、エンコーダ_デコーダ構造に基づいている可能性がある。オプションとして、エンコーダ_デコーダ構造はReSNetを使用する可能性がある。追加的又は代替的に、エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる可能性がある。
【0018】
一部の実施形態では、生成ネットワークは、エンコーダ_デコーダ構造に基づいている可能性がある。オプションとして、エンコーダ_デコーダ構造はReSNetを使用する可能性がある。追加的又は代替的に、エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる可能性がある。例えば、生成ネットワークは、UNet構造に基づく可能性がある。オプションとして、UNet構造は、内部層におけるスキップ接続、内部層における残差接続、及びリカレント・ニューラル・ネットワークのうちの1つ以上を含む可能性がある。
【0019】
一部の実施形態では、生成ネットワークは、拡散ベース・モデル、変分オートエンコーダ、自己回帰モデル、及び敵対的生成ネットワークの形式のうちの何れかに基づいている可能性がある。
【0020】
一部の実施形態では、システムは、クリーンなオーディオ信号(clean audio signal)と、クリーンなオーディオ信号から導出された又はそれに対応する歪んだオーディオ信号(distorted audio signal)とをそれぞれが含むデータ・ペアを使用して、推論の前に訓練されている可能性がある。ここで、歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む可能性がある。
【0021】
一部の実施形態では、データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、クリーンなオーディオ信号のプログラム変換(programmatic transformation)及び/又はノイズの加算により生成されたものとを含んでいる可能性がある。例えば、プログラム変換は、帯域制限、コーデック・アーチファクト、信号歪み、ダイナミクス、等化、記録されたノイズ、リバーブ/遅延、スペクトル処理、合成ノイズ、及び伝送アーチファクトのうちの何れか又は全てに関連するアーチファクト又は歪を導入する可能性がある。
【0022】
この方法で生成されたデータ・ペアを使用することにより、プログラム変換及び/又は特定のノイズに対応する特定のアーチファクトを除去するように、システムを訓練することができる。
【0023】
一部の実施形態では、条件付けネットワークは、訓練のために、オーディオ信号の1つ以上の第3の内部表現を提供するように更に構成されている可能性がある。ここで、オーディオ信号の1つ以上の第3の内部表現は、条件付けネットワークの個々の層で取り出される可能性がある。更に、システムは、歪んだオーディオ信号が条件付けネットワークにオーディオ信号として入力された場合のシステムの出力に対するクリーンなオーディオ信号の比較に基づいて、そして更に、個々の補助ニューラル・ネットワーク及び/又は内部層による第3の内部表現の処理の後の、クリーンなオーディオ信号から導出されたオーディオ特徴又はクリーンなオーディオ信号の表現と第3の内部表現との比較に基づいて、各データ・ペアについて訓練されている可能性がある。
【0024】
一部の実施形態では、比較は、それぞれの損失関数に基づく可能性がある。これらの損失関数は、負の対数尤度、Lpノルム、最大平均不一致(maximum mean discrepancy)、敵対的損失、及び特徴損失のうちの1つ以上に関連する可能性がある。
【0025】
一部の実施形態では、オーディオ特徴は、メル・バンド・スペクトル表現(mel band spectral representations)、音量、ピッチ、ハーモニシティ(harmonicity)/周期、発声活動検出、ゼロ交差率(zero-crossing rate)、エンコーダからの自己教師あり学習特徴(self-supervised feature)、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む可能性がある。
【0026】
一部の実施形態では、条件付けネットワークから抽出された第3の内部表現各々について各自1つの補助ニューラル・ネットワークが存在している可能性がある。
【0027】
一部の実施形態では、1つ以上の補助ニューラル・ネットワークは、混合密度ネットワーク(mixture density networks)に基づいている可能性がある。
【0028】
一部の実施形態では、条件付けネットワーク及び生成ネットワークは合同訓練される(jointly trained)可能性がある。
【0029】
本開示の別の態様は、ニューラル・ネットワーク・ベースのシステムを使用してスピーチ強調のためにオーディオ信号を処理する方法に関連する。この方法は、例えば、コンピュータで実行することが可能である。システムは、強調されたオーディオ信号を生成するための生成ネットワークと、生成ネットワークのための条件付け情報を生成するための条件付けネットワークとを含む可能性がある。方法は、オーディオ信号を条件付けネットワークに入力するステップを含む可能性がある。方法は、条件付けネットワークの複数の層(例えば、畳み込み層)を介してオーディオ信号を伝搬させるステップを含む可能性がある。方法は、更に、オーディオ信号の1つ以上の第1の内部表現を、条件付けネットワークのそれぞれの層で取り出し、オーディオ信号の1つ以上の第1の内部表現(又は1つ以上の第1の内部表現の処理されたバージョン)を、条件付け情報として提供するステップを含む可能性がある。方法は、ノイズ・ベクトル及び条件付け情報を生成ネットワークに入力するステップを含む可能性がある。方法は、ノイズ・ベクトル及び条件付け情報に基づいて、強調されたオーディオ信号を生成するステップを更に含む可能性がある。
【0030】
一部の実施形態では、条件付け情報の第1の内部表現は、様々な時間分解能における、オーディオ信号の表現の階層に関連している可能性がある。
【0031】
一部の実施形態では、方法は、条件付け情報の第1の内部表現各々(又はその処理されたバージョン)を、生成ネットワークにおける個々の第2の内部表現と結合するステップを更に含む可能性がある。内部表現を結合することは、例えば、加算、乗算、及び連結のうちの1つ以上を含む可能性がある。
【0032】
一部の実施形態では、方法は、第1のサイド情報を条件付けネットワークに入力するするステップ、及び/又は第2のサイド情報を生成ネットワークに入力するステップを更に含む可能性がある。
【0033】
本開示の別の態様は、上記第1の態様又はその何れかの実施形態のニューラル・ネットワーク・ベースのシステムを訓練する方法に関する。訓練は、クリーンなオーディオ信号と、クリーンなオーディオ信号に対応する又はクリーンなオーディオ信号から導出される歪んだオーディオ信号とをそれぞれが含むデータ・ペアに基づく可能性がある。歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む可能性がある。
【0034】
一部の実施形態では、データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、クリーンなオーディオ信号のプログラム変換及び/又はノイズの加算により生成されたものとを含んでいる可能性がある。場合によっては、クリーンなオーディオ信号のプログラム変換は、アーチファクトの追加に対応する可能性がある。
【0035】
一部の実施形態では、方法は、各データ・ペアについて、歪んだオーディオ信号を条件付けネットワークにオーディオ信号として入力するステップを含む可能性がある。方法は、各データ・ペアについて、条件付けネットワークの複数の層を介してオーディオ信号を伝搬させるステップを更に含む可能性がある。方法は、各データ・ペアについて、条件付けネットワークの個々の層において、オーディオ信号の1つ以上の第1の内部表現を取り出し、オーディオ信号の1つ以上の第1の内部表現(又は1つ以上の第1の内部表現の処理されたバージョン)を、条件付け情報として提供するステップを含む可能性がある。方法は、各データ・ペアについて、条件付けネットワークの個々の層において、オーディオ信号の1つ以上の第3の内部表現を取り出すステップを更に含む可能性がある。方法は、各データ・ペアについて、第3の内部表現の各々を、個々の補助ニューラル・ネットワークにより処理するステップを更に含む可能性がある。方法は、各データ・ペアについて、ノイズ・ベクトル及び条件付け情報を生成ネットワークに入力するステップを含む可能性がある。方法は、各データ・ペアについて、ノイズ・ベクトル及び条件付け情報に基づいて、システムの出力を、生成ネットワークを用いて生成するステップを含む可能性がある。方法は、各データ・ペアについて、システムの出力をクリーンなオーディオ信号と比較するステップを含む可能性がある。方法は、各データ・ペアについて、個々の補助ニューラル・ネットワークによる処理の後に、第3の内部表現を、クリーンなオーディオ信号から導出されたオーディオ特徴又はクリーンなオーディオ信号の表現と比較するステップを更に含む可能性がある。
【0036】
一部の実施形態では、システムの出力をクリーンなオーディオ信号と比較し;第3の内部表現を、クリーンなオーディオ信号から導出されたオーディオ特徴又はクリーンなオーディオ信号の表現と比較することは、個々の損失関数に基づいている可能性がある。損失関数は、負の対数尤度、Lpノルム、最大平均不一致(maximum mean discrepancy)、敵対的損失、及び特徴損失のうちの1つ以上に関連する可能性がある。
【0037】
一部の実施形態では、オーディオ特徴は、メル・バンド・スペクトル表現、音量、ピッチ、ハーモニシティ/周期、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む可能性がある。
【0038】
一部の実施形態では、1つ以上の補助ニューラル・ネットワークは、混合密度ネットワークに基づいている可能性がある。
【0039】
一部の実施形態では、条件付けネットワーク、生成ネットワーク、及び1つ以上の補助ネットワークは、合同訓練される可能性がある。
【0040】
別の態様によれば、オーディオ信号のスピーチ強調のための装置が提供される。装置は、プロセッサと、プロセッサに結合され且つプロセッサの命令を格納するメモリとを含む可能性がある。プロセッサは、前述の態様及びそれらの実施形態に従って、方法の全てのステップを実行するように構成される可能性がある。
【0041】
更に別の態様によれば、コンピュータ・プログラムが述べられる。コンピュータ・プログラムは、演算デバイス(例えば、プロセッサ)によって実行されると、本開示全体にわたって説明されている方法又は方法ステップを実行するための実行可能命令を含む可能性がある。
【0042】
別の態様によれば、コンピュータ読み取り可能な記憶媒体が述べられる。記憶媒体は、演算デバイス(例えば、プロセッサ)上で動作するように適合され、且つ、演算デバイス上で実行されると、本開示全体にわたって説明されている方法又は方法ステップを実行するためのコンピュータ・プログラムを格納する可能性がある。
【0043】
本開示で説明されるような好ましい実施形態を含む方法及びシステムは、独立して、又は本明細書で開示される他の方法及びシステムと組み合わせて、使用される可能性がある、ということに留意すべきである。更に、本開示において説明される方法及びシステムの全ての態様は、任意に組み合わせられる可能性がある。特に、クレームの特徴は、任意の方法で互いに組み合わせられる可能性がある。
【0044】
装置の特徴及び方法のステップは、多くの方法で交換される可能性がある、ということが理解されるであろう。特に、当業者には理解されるように、開示される方法の詳細は、対応する装置によって実現される可能性があり、その逆もまた可能である。更に、方法(及び、例えば、それらのステップ)に関して行われた上記の何れの記述も、対応する装置(及び、例えば、それらのブロック、ステージ、ユニット)に同様に適用され、逆もまた同様であることが理解される。
【図面の簡単な説明】
【0045】
以下、本発明を添付図面を参照しながら例示的に説明する。
【
図1】
図1は、本開示の実施形態によるニューラル・ネットワーク・ベースのシステムの一例を概略的に示している。
【
図2】
図2は、本開示の実施形態による、
図1のニューラル・ネットワーク・ベースのシステムを使用してオーディオ信号を処理する方法の一例を示すフローチャートである。
【
図3】
図3は、本開示の実施形態による、訓練中のニューラル・ネットワーク・ベースのシステムの一例を概略的に示す。
【
図4】
図4は、本開示の実施形態による、
図3のニューラル・ネットワーク・ベースのシステムを訓練する方法の一例を示すフローチャートである。
【
図5】
図5は、本開示の実施形態による、ニューラル・ネットワーク・ベースのシステム及びニューラル・ネットワーク・ベースの技術を実装するための装置の一例を概略的に示す。
【発明を実施するための形態】
【0046】
以下、添付図面を参照して本開示の実施例を説明する。各図において同一の構成要素は同一の参照番号により指定され、それについての重複する説明は省略される可能性がある。
【0047】
本開示は、ユニバーサル・スピーチ強調のためのシステム及び方法に関連する。これらのシステム及び方法は、アーチファクトを除去する現実世界のあらゆる可能性及び組み合わせを包含している。この新しいタスクは、以前はスピーチが存在していなかったところで(例えば、オーディオ信号がクリッピング又は無音ギャップを含む場合に)スピーチを生成することを含み、以下のような生成システムが必要とされ、それは、適切なコンテキスト及び内部キューが与えられると、元のクリーンなオーディオ信号に対応する現実味のあるスピーチ信号を生成するものである。本開示は、そのような生成システムを提示する。
【0048】
生成は、機械学習技術である生成ニューラル・ネットワークを使用して実行されることが可能なものであり、条件付け信号及びランダム・ノイズ源が与えられると、ノイズの多い/歪んだソースに存在していたスピーチの細かい特徴や内容に合致する現実的なスピーチを生成することが可能なものである。以下、より詳細に説明されるように、生成ネットワークは、条件付け信号及びノイズ・ベクトルを入力として必要とするだけである。一方、条件付け信号は、条件付けネットワークを使用して、ノイズの多い/歪んだスピーチに基づいて取得される。
【0049】
訓練に関し、提示されるスピーチ強調技術は、おそらくは手作業で生成された訓練データに加えて、プログラム的に生成される訓練データ(programmatically-generated training data)に依存する可能性がある。プログラム的に生成される訓練データに対して、信号ペア(y*,y)が、クリーンなスピーチ及びノイズ・データ・セットのプールから生成され、ここで、y*は、何らかのクリーンなスピーチ信号のランダムな抜粋(random excerpt)であり、yは、ランダムな信号対雑音比を用いた実際の又は合成によるノイズ信号のランダムな抜粋とy*との混合であり、又は、yは、例えば、ロー・パス・フィルタリングのような付加されたアーチファクトとy*との混合である。重要なことに、yの生成に使用される信号y*は、ノイズ信号と混合される前又は後に、多数のプログラム変換を受けることが可能である。このような変換は、例えば、残響(合成によるもの、又はシミュレートされた/実際の室内インパルス応答からのもの)、ロー・パス・フィルタリング、クリッピング、パケット損失シミュレーション、トランスコーディング、ランダム等化、レベル・ダイナミクス歪など、を加えることのうちの1つ以上を含むことが可能である。
【0050】
従って、本開示で説明されるモデル又はシステムを訓練することは、スピーチ記録のクリーン及びプログラム的に歪めたペアのデータ・セットを使用することであると言及されてもよい。追加的(又は代替的に)、訓練は、現実の生活環境で記録された歪んだスピーチ記録及びクリーンなスピーチ記録であって時間整合されているもの(即ち、記録どうしの間に遅延のないもの)のデータ・セットを使用することが可能である。
【0051】
一例では、クリーンなスピーチを取得するために、一定量のオーディオ(例えば、1,500時間のオーディオ)が、データ・セットのオーディオ・プール(例えば、内部プール)からサンプリングされ、特定のサンプリング・レート(例えば、16 kHzモノラル)に変換される可能性がある。例えば、サンプルは、多数の話者からの、及び/又は幾つかの言語での、及び/又は幾つかの異なる記録条件での、数秒の長さ(例えば、3.5秒ないし5.5秒の間)の多数(例えば、約120万)の発話から構成される可能性がある。
【0052】
例えば、VCTK及びハーバード・センテンス(Harvard sentences)からサンプリングされたクリーンな発話が、DEMAND及びFSDnoisy18kからのノイズ/背景とともに使用されることが可能である。(例えば、アーチファクトの付加によって)歪められたスピーチをプログラム的に生成するために、複数の歪ファミリ又はクラスを考慮することが可能である。これらは、例えば、帯域制限、コーデック・アーチファクト、信号歪、ダイナミクス、等化、記録されたノイズ、残響/遅延、スペクトル処理、合成ノイズ、及び伝送アーチファクト、のうちの何れか又は全てを含む可能性がある。各々の歪ファミリは、一般に、「タイプ」と呼ばれる可能性のある様々な歪アルゴリズムを含む可能性がある。
例えば、帯域制限のタイプは、バンド・パス・フィルタ、ハイ・パス・フィルタ、ロー・パス・フィルタ、及び/又はダウン・サンプルを含む可能性がある。
コーデック・アーチファクトのタイプは、例えば、AC3コーデック、EAC3コーデック、MP2コーデック、MP3コーデック、Mu-law量子化、OGG/Vorbisコーデック、OPUSコーデック1、及び/又はOPUSコーデック2に関連する可能性がある。
歪のタイプは、例えば、より多くの破裂音(plosiveness)、より多くの甲高い歯擦音(sibilance)、オーバードライブ、及び/又は閾値クリッピングを含む可能性がある。
ダイナミクスのタイプは、例えば、コンプレッサ、破壊レベル、ノイズ・ゲーティング、シンプル・コンプレッサ、シンプル・エキスパンダー、及び/又はトレモロ(tremolo)を含む可能性がある。
等化のタイプは、例えば、帯域阻止フィルタ、ランダム等化器、及び/又は2極フィルタを含む可能性がある。
記録されるノイズのタイプは、例えば、加法性ノイズ及び/又はインパルス状の加法性ノイズを含む可能性がある。
残響/遅延のタイプは、例えば、アルゴリズム的な残響(例えば、1又は2)、一斉に上がった声(chorus)、フェイザー(phaser)、RIR畳み込み、非常に短い遅延、遅延、及び/又は、部屋のインパルス応答(例えば、実際の及び/又はシミュレートされたもの)を含む可能性がある。
スペクトル処理のタイプは、例えば、畳み込みスペクトログラム、グリフィン・リム(Griffin-Lim)、位相ランダム化、位相シャッフル、スペクトル・ホール、及び/又はスペクトル・ノイズを含む可能性がある。
合成ノイズのタイプは、例えば、有色ノイズ、DC成分、電気トーン、非定常ノイズ・バースト(例えば、非定常有色ノイズ、非定常DC成分、非定常電気トーン、非定常ランダム・トーン)、及び/又はランダム・トーンを含む可能性がある。伝送アーチファクトのタイプは、例えば、フレーム・シャッフル、挿入減衰、挿入ノイズ、摂動振幅、サンプル複製、サイレント・ギャップ(パケット損失)、及び/又は電話会話を含む可能性がある。
強度、周波数、フィルタ特性、ビット・レート、コーデック設定、ゲイン、調和性、比率、コンプレッサ特性、SNR、残響特性などのような歪タイプ・パラメータは、上記の歪ファミリ及びタイプに対してランダムに設定される可能性がある。
【0053】
図1は、本開示の実施形態によるスピーチ強調(例えば、ユニバーサル・スピーチ強調)のためのニューラル・ネットワーク・ベースのシステム100を概略的に示す。コンピュータで実施される可能性のあるシステム100は、ジェネレータ・ネットワーク又は生成ネットワーク(generator network or generative network GN)110と条件付けネットワーク(conditioning network,CN)120を含む。訓練の目的で、システム100は、1つ以上の補助ネットワーク130を更に含む可能性がある。システムへの入力は、ノイズのある/歪んだ信号y,10と、ランダム・ベクトル(ノイズ・ベクトル、ランダム・ノイズ・ベクトル)z,20と、第1のサイド情報s,50と、第2のサイド情報s,55とを含む。システム100は、強調されたオーディオ信号(クリーン・オーディオ信号)x,30を出力する。以下で詳細に説明されるように、第1のサイド情報と第2のサイド情報は同一であってもよい。
【0054】
生成ネットワーク110は、強調オーディオ信号(クリーン・オーディオ信号)x,30を生成するためのニューラル・ネットワークであり、それは、複数の層(例えば、畳み込み層、トランスフォーマ層、リカレント・ニューラル・ネットワーク層)を含む。生成ネットワーク110は、2つの入力、即ち、ランダム・ベクトル(ランダム・ノイズ・ベクトル)z,20と、条件付け情報40とを取り、クリーン信号x,30を生成する。ランダム・ベクトルz,20は、生成モデル(例えば、生成ネットワーク110)に必要な変動性(variability)を提供する。条件付け情報40は、合成されたクリーン・オーディオ信号x,30の特性を定義する1つ以上の条件付け信号cを含む。複数の層を使用して、生成ネットワーク110は、複数のアップ・サンプリング又はダウン・サンプリング動作を実行する可能性があり、その結果、生成ネットワーク110の内部表現は、異なる時間分解能(different temporal resolution)を有することが可能である。
【0055】
オプションとして、生成ネットワーク110は、第2のサイド情報s,55を入力として更に受信する可能性がある。生成ネットワーク110によるノイズ・ベクトルz, 20の処理は、少なくとも部分的に、第2のサイド情報55に依存する可能性がある。第2のサイド情報55は:
yに存在するアーチファクトのタイプ及び強度の数値的記述,
yに存在するノイズのレベル,
システム100によって実行されなければならない(強調)処理(即ち、例えば、特定のアーチファクトを除去することだけを必要とするのか又は完全な強調を実行することを必要とするのか),又は
ネットワークの正しい/意図された動作のための他の何らかの利用可能な追加情報(例えば、話者の身元、言語、部屋/マイクロフォン特性などの1つ以上の記述を含む、オーディオ信号yの特性に関する情報)
についての潜在的なサブセットを含む可能性がある。
【0056】
生成ネットワーク110のための条件付け信号c(条件付け情報40)を取得するために、条件付けネットワーク120が使用される。条件付けネットワーク120は、複数の層(例えば、畳み込み層)を含み、それは、オプションとして、第1のサイド情報s,50とともに、ノイズのある/歪められた信号yを入力として受け取る。第1のサイド情報50は、上述した第2のサイド情報55と同じであってもよいし、又は、第2のサイド情報55と相違していてもよい。条件付けネットワーク120は、主要な強調動作を実行することを担当ことであると言うことが可能である。それにもかかわらず、システム100全体がエンド・ツー・エンドで訓練される場合、強調の少なくとも一部は、生成ネットワーク110によっても実行されることも可能である。例えば、補助損失(以下により詳細に説明する)によって生成される強調があるにもかかわらず、条件付け信号c(条件付け情報40)が、オーディオ信号y,10内の元のノイズに起因する幾らかのアーチファクトを依然として含む場合があり得る。次いで、生成ネットワーク110は、強調されたオーディオ信号x,30がクリーンな信号と比較される場合に、そのようなノイズをフィルタリングすることを更に学習することが可能である。
【0057】
複数の層を使用して、条件付けネットワーク120は、複数のアップ・サンプリング又はダウン・サンプリング動作を実行してもよく、その結果、条件付けネットワーク120の内部表現は、異なる時間分解能を有する可能性がある。例えば、16 kHzの入力オーディオの場合、異なる時間分解能は、16 kHz,8 kHz,2 kHz,500 Hz,及び100 Hzのうちの何れか又は全てに関連する可能性がある。更に、32 kHzの入力オーディオの場合、異なる時間分解能は、32 kHz,8 kHz,2 kHz,500 Hz,及び100 Hzのうちの何れか又は全てに関連する可能性がある。
【0058】
システム100の動作の概要は以下の通りである。条件付けネットワーク120は、入力として(ノイズ/歪みのある)オーディオ信号y,10を受信するように構成される。次いで、条件付けネットワークは、オーディオ信号y,10が複数の層によって連続的に処理され、1つの層の出力が次の層への入力(及び潜在的には、残差接続及び/又はスキップ接続への入力)に使用されるという意味で、複数の層(例えば、畳み込み層)を介してオーディオ信号y,10を伝搬させる。そのように動作する一方、条件付けネットワーク120は、オーディオ信号の1つ以上の第1の内部表現(又は1つ以上の第1の内部表現の処理されたバージョン)を、条件付け情報40(即ち、条件付け信号)又は条件付け情報の一部として提供する。オーディオ信号のこれらの1つ以上の第1の内部表現は、条件付けネットワーク120のそれぞれの層において抽出される。例えば、条件付けネットワークの複数の層は、1つ以上の中間層を含む可能性があり、オーディオ信号の1つ以上の第1の内部表現は、1つ以上の中間層から抽出されることが可能である。何れの場合も、条件付け情報の第1の内部表現は、異なる時間分解能におけるオーディオ信号の表現の階層に関連する可能性がある。
【0059】
一般に、条件付け情報c,40は、条件付け信号を含むことが可能であり、例えば、ノイズ・レベル、ターゲット・スピーカ、維持されるべき劣化(例えば、部屋の元々の残響が保存されるべき場合)等のような他の関連情報の可能性とともに、生成ネットワーク110に提供される可能性がある。条件付け信号は、第1の内部表現の生の(例えば、未処理の)バージョン、又は第1の内部表現の処理されたバージョンのうちの何れかであるとすることが可能である。
【0060】
一方、生成ネットワーク110は、ノイズ・ベクトルz,20及び条件付け情報c,40を入力として受信するように構成される。ノイズ・ベクトルz,20及び条件付け情報c,40に基づいて、生成ネットワーク110は、強調されたオーディオ信号(クリーン信号)x,30を生成する。その場合において、条件付け情報40の各第1の内部表現(又はその処理されたバージョン)は、生成ネットワーク110内のそれぞれの第2の内部表現と組み合わせられる。ここで、条件付けの目的のための組み合わせ又は結合とは、意図的な限定を伴うことなく、例えば、加算、乗算、連結のうちの少なくとも1つを意味する可能性がある。或る実装は、加算と乗算を使用する。第2の内部表現は、生成ネットワーク110の各層で存在する可能性がある。例えば、第2の内部表現は、生成ネットワーク110の各層の出力であってもよい。意図的な限定を伴うことなく、条件付けのために結合される第1及び第2の内部表現は、同じ時間分解能を有する可能性がある、ということが理解される。しかしながら、一部の実装では、第1及び第2の内部表現は、時間的なリサンプリングによって、異なる時間分解能で結合されてもよい。
【0061】
入力信号yを強調することができるように、条件付けネットワーク120は、条件付けネットワーク120の各層から取り出される1つ以上の第3の内部表現h,60を使用して訓練されることが可能である。訓練のために、これらの内部表現hは、補助ニューラル・ネットワーク(補助ネットワーク・ブロック)130及び補助損失関数に送付されることが可能である。重要なことに、h,60は、(例えば、yをダウン・サンプリングするか、又は条件付けネットワーク120の潜在表現をアップ・サンプリングすることによって得られる)表現の階層に対応することが可能であり、c,40に直接的に関連付けられることが可能であり(例えば、c,40自体に対応する)、又はc,40の更なる処理されたバージョン(即ち、1つ以上の追加のニューラル・ネットワーク層を介してc,40から得られる表現)であるとすることが可能である。
【0062】
訓練に使用するための補助ネットワーク130は、
図3を参照して以下においてより詳細に説明されるように、単一の線型層又はより精巧な構造に対応することが可能である。補助損失は、ノイズの多い/歪んだ表現h,60を、クリーンな表現と比較し、x,30とも比較される。損失は、それらの間の差分のシンプルなLpノルムに対応することが可能であるし、或いは、以下でより詳細に説明するように、より複雑な定式化に対応することも可能である。このような表現の比較は、例えば、オーディオ特徴(例えば、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期性、発声活動検出、及びゼロ交差率)のレベル、及び、生のオーディオ波形のレベルで実行される可能性がある。しかしながら、事前に訓練されたニューラル・ネットワーク・モデルの潜在的な特徴や、例えばHuBERT又はwav2vecのような自己教師あり学習モデルで学習されたもののように、対照的な方法で学習された表現のような、他の表現レベルも同様に考慮することが可能である。
【0063】
図1に示される補助ネットワーク130は、厳密には、訓練目的のためにのみ必要であることが理解されるべきである。推論では、補助ネットワーク130はオプションであってよい。しかしながら、場合によっては、推論時に1つ以上の補助ネットワーク130を提供することは、分類情報などのような、強調されたスピーチ信号に関する追加情報を取得するために有益である可能性がある。
【0064】
補助ネットワークは、
(a)損失によって生じた何らかのエラーを、主信号経路から分離することができること、及び
(b)隠れ表現が、損失演算ドメインと相違することを可能にすることが可能であること、
という2つの点で、スピーチ強調プロセスに有益である可能性がある。
【0065】
利点(a)については、ネットワーク予測は決して完全ではなく、常に(僅かではあるが不可避的な)誤差を含むであろう。このような誤差が信号経路に直接的に生じる場合、それは更なる処理とともにカスケード式に流れ/増幅されてゆくであろう。一方、誤差が信号経路から何層も離れたところ(即ち、隠れ表現)にある場合、主要ネットワークにとって、その誤差を見えなくし、信号経路を介する伝播を回避することを学習する機会が存在する。
【0066】
利点(b)については、補助ネットワークを使用することは、隠れた表現が、ネットワーク又は学習プロセスによって決定/必要とされるあらゆる形式も有することが可能になる。それを行うために、補助ネットワークは、多数の層を使用して、内部表現を損失ドメインに変換する(例えば、短時間フーリエ変換(short-time Fourier transform)であり、その場合、平均二乗誤差損失が計算される可能性がある)。このようにして、推論時間の間に必要でない主要経路における不必要な変換を回避することができ、これらの変換は、訓練及び損失計算について必要であるだけである可能性がある、ということに留意されたい。
【0067】
推論時に追加の補助ネットワークをオプションとして使用することは、強調のために学習された内部表現が、話者分類のような追加のタスクのための何らかの手がかりを提供し、その逆もまた同様であるという事実に基づいており、その結果、強調ネットワークに、訓練時に話者どうしを区別させることによって、強調プロセスの強化につながる可能性がある。
【0068】
システム100の実施形態は、生成ネットワーク110に対して拡散ベース・モデル(diffusion-based model)を使用する。代替的に、生成ネットワーク110は、特に、変分オートエンコーダ、自己回帰モデルから構成されてもよいし、又はそれらを含んでもよいし、或いはGAN定式化に基づいていてもよい。更に、生成ネットワーク110のアーキテクチャは、UNet構造に基づいていてもよい。UNet構造は、例えば、その内部畳み込みブロック内のスキップ接続及び/又は残差接続を含むことが可能である。更に、UNet構造は、途中にリカレント・ニューラル・ネットワーク(recurrent neural network,RNN)を含んでいてもよい。例えば、WaveNet又はTransformerアーキテクチャ、又はコンフォーマー、知覚者、インセプション、又はスクイーズド・アンド・エキサイテーション・ブロックのような、他のディープ・ラーニング・アーキテクチャ及びブロックが、前述のものに追加又は置換されることが可能である。
【0069】
条件付けネットワーク120のアーキテクチャは、エンコーダ・デコーダ構造に基づくことが可能であり、例えば、ResNetsを使用してもよく、オプションとしてエンコーダにおいてスキップ接続を使用してもよい。生成ネットワーク110と同様に、条件付けネットワーク120もまた、中間に(例えば、エンコーダ及びスキップ接続の後に)RNNを有する畳み込みブロックを使用する可能性がある。条件付け信号c(例えば、第1の内部表現又はその処理されたバージョン)は、デコーダ構造の異なるレベルから抽出され、異なるサンプリング速度の階層を構成する可能性がある。第3の内部表現h,60は、エンコーダ(ダウン・サンプリングを使用する)及びデコーダ(アップ・サンプリングを使用する)ブロックの後で抽出されてもよい。一般に、条件付け情報c,40(条件付け信号)及び第3の内部表現h,60は、条件付けネットワーク120内の任意の点から抽出されることが可能である。
【0070】
特定の実装は、生成ネットワーク110、条件付けネットワーク120、及びオプションの補助ネットワーク130に対して、畳み込みブロック及び一組の双方向リカレント層を使用する。畳み込みブロックは、3つの1D畳み込み層によって形成されることが可能であり、それら各々は、マルチ・パラメトリックReLU(multi-parametric ReLU,PReLU)活性化によって先行され、それらの全ては、残差接続の下にある。必要に応じて、アップ又はダウン・サンプリングは、それぞれ、残差リンクの前又は後に適用されることが可能である。アップ/ダウン・サンプリングは、例えば、全てのステップでチャネルの数を半分にしたり倍にしたりして、転置/ストライド畳み込みにより実行されることが可能である。ダウン・サンプリング因子は、例えば、16 kHz入力に対して100 Hzの潜在表現をもたらす{2,4,4,5}であってもよい。
【0071】
特定の実装では、生成ネットワーク110は、スキップ接続vとゲート付きリカレント・ユニット(gated recurrent unit,GRU)を中央に有するUNet状の構造によって形成されてもよい。生成器における畳み込みブロックは、ノイズ・レベルσについてネットワークに通知するアダプタ信号gと、合成に必要なスピーチ・キューを提供する条件付け信号cとを受信することが可能である。信号g及びcは、それぞれ特徴ワイズ線型変調(Feature-wise Linear Modulation,FiLM)及び加算を使用して、UNet活性化と混合されてもよい。gを得るために、σの対数が、ランダム・フーリエ特徴埋め込み及び多層パーセプトロン(Multilayer Perceptron,MLP)を用いて処理されることが可能である。条件付けネットワークは、例えば、yから抽出されたlog-mel特徴を更に利用することが可能なダウン・サンプリングされた潜在性に対するスキップ接続を特徴付ける畳み込みブロックを用いて、歪んだ信号yを処理する。ネットワークの中間部分及び復号化部分は、2層GRU及び複数の畳み込みブロックによって形成されることが可能であり、デコーダは、潜在表現をアップ・サンプリングして、多重・解像度・条件付けcを生成ネットワーク110に提供する。マルチ・ヘッド及びターゲット情報を利用して、潜在的表現を改善し、より良いcを提供することが可能である。
【0072】
図2は、例えば、スピーチ強調の目的で、上述のニューラル・ネットワーク・ベースのシステム100を使用して、スピーチ信号10を処理する例示的な方法200を示す。特に、ニューラル・ネットワークに基づくシステム100は、強調されたオーディオ信号30を生成するための生成ネットワーク(ジェネレータ・ネットワーク)110と、生成ネットワーク110のための条件付け情報40を生成するための条件付けネットワーク120とを含むように理解される。方法200は、ステップS210ないしS250を含む。
【0073】
ステップS210において、オーディオ信号y,10が、条件付けネットワーク120に入力される。オプションとして、上述の第1のサイド情報50は、追加の入力として条件付けネットワーク120に提供されてもよい。
【0074】
ステップS220において、オーディオ信号y,10が、条件付けネットワーク120の複数の層を介して伝搬される。即ち、オーディオ信号y,10は、条件付けネットワーク120の複数の層(例えば、畳み込み層)によって連続的に処理される。
【0075】
ステップS230において、オーディオ信号の1つ以上の第1の内部表現(例えば、条件付け信号)が、条件付けネットワーク120の各層で抽出される。これらの第1の内部表現は、異なる時間分解能におけるオーディオ信号の表現の階層に関連する可能性がある。オーディオ信号の1つ以上の第1の内部表現(又はその処理されたバージョン)は、生成ネットワーク110のための条件付け情報c,40として提供される。
【0076】
ステップS240において、ノイズ・ベクトル20(ランダム・ベクトル、ランダム・ノイズ・ベクトル)と、条件付け情報40とが、生成ネットワーク110に入力される。オプションとして、上述したような第2のサイド情報55が、追加の入力として生成ネットワーク110に提供されてもよい。
【0077】
ステップS250において、強調されたオーディオ信号30が、ノイズ・ベクトル20と条件付け情報40とに基づいて生成される。オプションとして、利用可能であれば、強化されたオーディオ信号30は、第2のサイド情報55に更に基づいて生成されることが可能である。
【0078】
ここで、条件付け情報(例えば、条件付けネットワーク120から抽出された第1の内部表現又はその処理されたバージョン)は、当業者が容易に利用可能な技術を使用して、生成ネットワーク110を条件付けるために使用されてもよい。例えば、条件付け情報40の各々の第1の内部表現(又はその処理されたバージョン)は、生成ネットワーク110内のそれぞれの第2の内部表現と結合されることが可能である。如何なる結合された第1及び第2の内部表現も、同じ時間分解能を有する可能性がある、ということが理解される。条件付けの目的で内部表現を結合する例は、加算(例えば、要素ごと)、乗算(例えば、要素ごと)、及び連結のうちの1つ以上を含む可能性がある。1つの実装は、内部表現を結合するために加算と乗算を使用する。
【0079】
ニューラル・ネットワークに基づくシステム及び/又このシステムを用いてスピーチを強調する方法が説明されてきた。システムは、推論に先立って適切に訓練されている、ということが理解される。この訓練は、同じオーディオ信号(例えば、スピーチ信号)の歪められたバージョンy及びクリーンなバージョンy*に対応するデータ・ペア(y,y*)を使用する可能性がある。歪んだバージョンyは、ノイズ及び/又はアーチファクトを含み、それぞれのクリーン・バージョンy*から、クリーン・バージョンy*のプログラム的変換及び/又はノイズの加算によって、生成されることが可能である。あるいは、y及びy*は、それぞれ、(実世界の)歪められた及びクリーンなオーディオ(即ち、手作業で生成された訓練データ)の記録されたバージョンに関連していてもよい。このような記録されたバージョンは、例えば、関連するデータベースから取得することが可能である。
【0080】
図3は、訓練中のスピーチ強調(例えば、ユニバーサル・スピーチ強調)のためのニューラル・ネットワーク・ベースのシステム100を概略的に示す。このシステムは、
図1に示されるものに対応するが、補助ネットワーク130が訓練のためのオプションではないという相違がある。
図3に更に示されているものは、損失関数90及び補助損失関数95であって、生成ネットワーク110及び補助ネットワーク130の出力をそれぞれ評価するために使用されるものである。
【0081】
これは必ずしもそのケースではないが、一部の実装では、生成ネットワーク110と条件付けネットワーク120とが合同訓練される(jointly trained)ことが可能である。更に、生成ネットワーク110、条件付けネットワーク120、及び補助ネットワーク130は、一部の実装では、合同訓練されてもよい。
【0082】
入力信号y,10を強調できるようになるために、上述のように、1つ以上の補助ネットワーク130を使用して、条件付けネットワーク120を訓練する必要がある。1つ以上の第3の内部表現h,60が、条件付けネットワーク120から抽出され、それぞれの損失関数95を有するそれぞれの補助ニューラル・ネットワーク130に送られる。重要なことに、hは、表現の階層に対応することが可能であり(例えば、yをダウン・サンプリングすること、及び/又は、条件付けネットワーク120の潜在的表現をアップ・サンプリングすることによって得られる)に対応することが可能であり、c,40に直接的に関連付けられることが可能であり(例えば、c自体に対応するもの)、或いは、cの更に処理されたバージョン(例えば、1つ以上の追加のニューラル・ネットワーク層を介してcから取得される表現)であることが可能である。補助ネットワーク130は、1つ以上の第3の内部表現h,60を処理して、その処理されたバージョンv,80をもたらす。
【0083】
補助ネットワーク130は、単一の線型層(例えば、畳み込み層)又はより複雑な構造に対応することが可能である。例えば、補助ネットワーク130のアーキテクチャ(例えば、各々の第3の内部表現hごとに1つあるもの)は、混合密度ネットワーク(mixture density network,MDN)であって、例えば、先行する正規化層及びパラメトリック正規化線型ユニット(ReLU)活性化を伴うものに対応する可能性がある。しかしながら、他の任意のニューラル・ネットワーク・ブロックも同様に使用できることが、理解されるであろう。
【0084】
補助損失95は、ノイズの多い/歪められた表現を、クリーンな表現と比較し、強調されたオーディオ信号x,30もまたクリーンな表現と比較される。第3の内部表現60は、それぞれの補助ニューラル・ネットワーク130による処理の後に、クリーン・オーディオ信号y*,70の表現、又はクリーン・オーディオ信号y*から導出されたオーディオ特徴と比較される。損失は、それらの間の差分の単純なLpノルム、又はより複雑に定式化されたものに対応することが可能である。例えば、補助損失95は、MDNを用いて算出された負の対数尤度に対応する可能性があるが、Lpノルム、最大平均不一致、敵対的又は特徴的損失のような、他の損失も同様に使用される可能性がある。強調オーディオ信号x,30とクリーン・オーディオ信号y*,70とを比較するための主要損失関数90は、生成ネットワーク110に対して選択された生成モデルに依存する可能性がある。
【0085】
表現のクリーン・バージョンとの比較は、オーディオ特徴(例えば、メル・バンド・スペクトル表現、ラウドネス、ピッチ、調和性/周期性、発声活動検出、及びゼロ交差率)のレベル、及び生のオーディオ波形のレベルで実行されてもよい。しかしながら、事前に訓練されたニューラル・ネットワーク・モデルの潜在的な特徴や、例えばHuBERT又はwav2vecのような自己教師あり学習モデルで学習された表現のように、対照的な方法で学習された表現など、他の表現レベルも同様に考慮されることが可能である。
【0086】
一般に、訓練のために複数の損失を考慮すること(即ち、1つ以上の補助ネットワーク130を使用することによって可能になるようなアンサンブル化)は、訓練結果の品質を改善する可能性がある。即ち、与えられたタスクに対して完璧な損失を発見できることはほとんどない。典型的には、幾つかの不完全性が存在する可能性があるが、それでも使用可能な損失(例えば、代理(proxy)として使用可能な損失)が存在する可能性がある。従って、1つの特定の損失を選択するだけでなく、異なる損失を「アンサンブル(ensemble)」することを提案する。これは、これらの損失を同時に使用することに関わる可能性があり、内部表現において合意に達する必要があること、及び、この合意は、単一の損失を使用するよりも良い表現を促進するであろう、ということに留意されたい。
【0087】
次いで、
図3及び
図4を参照して、ニューラル・ネットワーク・ベースのシステム100のための例示的な訓練手順又は方法を説明する。これらのうち、
図4は、ニューラル・ネットワーク・ベースのシステム100を訓練する例示的な方法400のフローチャートを示す。方法400は、ステップS410ないしS490を含むが、これらは必ずしも図面に示された順序で実行されることを必要としない。
【0088】
入力は、クリーン信号y*,70、歪んだ信号y,10、及び、ランダム・ベクトルz,20(例えば、ランダム・ノイズ・ベクトルz)である。留意すべきことに、入力は必ずしもサイド情報を含まない。クリーン信号y*,70と歪んだ信号y,10は、例えば、上述のように作成されることが可能なデータ・ペア(y*,y)に対応する可能性がある。ステップS410ないしS490は、複数のデータ・ペア(y*,y)のそれぞれに対して実行されてもよい。
【0089】
ステップS410において、歪んだオーディオ信号10が、オーディオ信号として条件付けネットワーク120に入力される。このステップは、
図2を参照して上述した方法200のステップS210に対応することが可能である。
【0090】
ステップS420において、オーディオ信号10は、条件付けネットワーク120の複数の層を介して伝搬させられる。このステップは、上述の方法200のステップS220に対応することが可能である。
【0091】
ステップS430において、オーディオ信号の1つ以上の第1の内部表現が、条件付けネットワークのそれぞれの層で抽出される。オーディオ信号の1つ以上の第1の内部表現(又は1つ以上の第1の内部表現の処理されたバージョン)は、条件付け情報c,40として提供される。このステップは、上述の方法200のステップS230に対応することが可能である。
【0092】
ステップS440において、オーディオ信号の1つ以上の第3の内部表現60が、条件付けネットワーク120の各層で抽出される。
【0093】
ステップS450において、第3の内部表現60の各々が、それぞれの補助ニューラル・ネットワーク130によって処理される。
【0094】
ステップS460において、ノイズ・ベクトル20と条件付け情報40が、生成ネットワーク110に入力される。このステップは、上述の方法200のステップS240に対応することが可能である。
【0095】
ステップS470において、システムの出力が、生成ネットワーク110を用いて、ノイズ・ベクトル20と条件付け情報40に基づいて生成される。このステップは、上述の方法200のステップS250に対応することが可能である。
【0096】
ステップS480において、システムの出力(即ち、強調されたオーディオ信号x,30)が、クリーン・オーディオ信号y*,70と比較される。これは、上述の(主要な)損失関数90を使用して行うことが可能である。比較は、例えば、波形のレベルで行うことが可能である。
【0097】
ステップS490において、補助ニューラル・ネットワーク130による処理の後に(処理されたバージョンv,80を生成した後に)、第3の内部表現60が、クリーン・オーディオ信号y*,70の表現、又はクリーン・オーディオ信号y*,70から導出されたオーディオ特徴と比較される。これらのオーディオ特徴は、例えば、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期性、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、及びHuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む可能性がある。それぞれの第3の内部表現h,60の各々の処理されたバージョンv,80は、それぞれの補助損失関数95を用いて、クリーンなオーディオ信号y*,70の適切に処理されたバージョンと比較される、ということが理解される。
【0098】
ステップS480においてシステムの出力をクリーン・オーディオ信号70と比較すること、及び/又は、ステップS490において第3の内部表現60をクリーン・オーディオ信号70の表現又はクリーン・オーディオ信号70から導出されたオーディオ特徴と比較することは、それぞれの損失関数90,95に基づく可能性がある。これらの損失関数は、例えば、負の対数尤度、Lpノルム、最大平均不一致、敵対的損失、及び特徴損失のうちの1つ以上に関連する可能性がある。
【0099】
最終的に、全ての損失の誤差は合計され、勾配がネットワークを介して逆伝搬させられて、システムを訓練し、システムの係数及びパラメータを連続的に適応させることができる。
【0100】
一部の実装において、第1及び第2のサイド情報50,55もまた、訓練中に、それぞれ条件付けネットワーク120及び生成ネットワーク110への入力として提供される可能性がある。
【0101】
上記から分かるように、条件付けネットワーク120、生成ネットワーク110、及び1つ以上の補助ニューラル・ネットワーク130は、一部の実装では共同で訓練されることが可能である。
【0102】
上記に従って、ニューラル・ネットワークに基づくシステムの訓練例は、以下のように要約することも可能である:
1)yが、条件付けネットワークに入り、幾つかの層を介して転送させられる。
2)中間表現h1が抽出され、後のために保持される。
3)中間表現h1が、幾つかの他の層を介して転送される。条件付け表現cが中間ブロックで抽出され、後のために保持される。留意すべきことに、h1及びcを抽出する順序は任意的であってよい。
4)条件付けネットワークの最終的な表現が取得される:h2。最終表現以外の他の如何なる表現も、h2として取得されることが可能である。一部の実装では、追加の表現hxが抽出されてもよい。
5)zが、生成ネットワークに入り、幾つかの層を介して転送させられる。層の全ての中間ブロック(即ち、適切な層)において、内部表現の内容は、条件付け表現cとマージ(例えば、結合)される。
6)出力クリーン信号xが、GNにより生成される。
7)h1とh2(及び場合によっては追加の内部表現hx)が、補助ネットワークの1つ又は複数の層を介して転送させられる。出力表現v1とv2(及び場合によっては追加の出力表現vx)が取得される。
8)損失関数が、v1とv2(及び場合によっては追加の出力表現vx)に対して算出される。例えば、v2は、生のクリーン・オーディオy*と比較されることが可能であり、v1は、y*から抽出された古典的なスピーチ特徴(classical speech features)f*と比較されることが可能である。
9)損失関数がxについて算出され、それとy*とを比較する。
10)全ての損失の誤差が合計され、勾配がネットワークを通じて逆伝搬させられる。
【0103】
推論アプリケーションの例は、方法400に従ってて、以下のようになる:
上記のステップ1)ないし6)を実施し、ステップ7)ないし10)は省略される。
入力は、単に、歪められた信号y、ランダム・ベクトルz、及びオプションとしてサイド情報である。
【0104】
ニューラル・ネットワークに基づくシステムのシステム・アーキテクチャ及び対応する方法が上記で説明されてきたが、本開示は、同様に、システム又は方法を実施するための装置にも関連していることが理解される。
【0105】
図5は、本開示の実施形態による、ニューラル・ネットワーク・ベースのシステム及びニューラル・ネットワーク・ベースの技術を実装するための装置500の例を概略的に示している。装置は、プロセッサ510と、プロセッサ510に結合されたメモリ520とを含む。メモリ520は、プロセッサ510による実行のための命令を格納する。プロセッサ510は、本開示全体にわたって説明されるニューラル・ネットワーク・ベースのシステムを実装するように、及び/又は本開示全体にわたって説明される方法(例えば、スピーチ強調方法)を実行するように適合させられる。装置500は、入力530(例えば、歪んだオーディオ信号、クリーンな及び歪んだオーディオ信号のデータ・ペア、サイド情報など)を受信し、出力540(例えば、強調されたオーディオ信号、訓練のための内部表現など)を生成することが可能である。
【0106】
解 釈
本件で説明されるシステムの態様は、デジタル又はデジタル化されたオーディオ・ファイルを処理するための適切なコンピュータ・ベースのサウンド処理ネットワーク環境(例えば、サーバー又はクラウド環境)で実施されてもよい。開示されたシステムの一部は、コンピュータ間で伝送されるデータをバッファリングし、ルーティングするように機能する1つ以上のルーター(図示せず)を含む、任意の所望の数の個々のマシンを含む1つ以上のネットワークを含む可能性がある。このようなネットワークは、様々な異なるネットワーク・プロトコル上に構築される可能性があり、インターネット、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、又はそれらの任意の組み合わせであってもよい。
【0107】
コンポーネント、ブロック、プロセス、又はその他の機能コンポーネントのうちの1つ以上は、システムのプロセッサ・ベースの演算デバイスの実行を制御するコンピュータ・プログラムを介して実装される可能性がある。また、本件において開示される様々な機能は、任意数のハードウェア、ファームウェアの組み合わせを用いて、及び/又は、様々な機械読み取り可能な又はコンピュータ読み取り可能な媒体に具現化されたデータ及び/又は命令として、それらの動作、レジスタ転送、論理コンポーネント、及び/又はその他の特性の観点から説明される可能性がある、ということに留意されたい。そのようなフォーマットされたデータ及び/又は命令が実施される可能性のあるコンピュータ読み取り可能な媒体は、光学、磁気、又は半導体記憶媒体のような、様々な形態における物理的(非一時的)な不揮発性記憶媒体を含むが、これらに限定されない。
【0108】
具体的には、実施形態は、ハードウェア、ソフトウェア、及び電子コンポーネント又はモジュールであって、議論の目的のために、コンポーネントの大部分がハードウェア内で実装されただけであるかのように例示及び記載されている可能性があるもの、を含むことが可能であるということが理解されるべきである。しかしながら、当業者は、本件の詳細な説明の理解に基づいて、少なくとも1つの実施形態において、電子的な基本態様は、マイクロプロセッサ及び/又は特定用途向け集積回路(「ASIC」)のような1つ以上の電子プロセッサによって実行可能なソフトウェア(例えば、非一時的なコンピュータ読み取り可能な媒体に格納されたもの)で実装されてもよい、ということを認識するであろう。従って、複数のハードウェア及びソフトウェア・ベースのデバイス、並びに、複数の異なる構造的コンポーネントを利用して、実施形態を実現することができる、ということに留意すべきである。例えば、本件で説明されたコンピュータ実装ニューラル・ネットワークは、1つ以上の電子プロセッサ、1つ以上のコンピュータ読み取り可能な媒体モジュール、1つ以上の入力/出力インターフェース、及び様々な構成要素を接続する様々な接続(例えば、システム・バス)を含むことが可能である。
【0109】
1つ以上の実装が、例として、かつ特定の実施形態に関して説明されているが、1つ以上の実装は、開示された実施形態に限定されない、ということが理解されるべきである。これに対して、当業者には明らかであるように、様々な修正及び類似の構成をカバーすることが意図されている。従って、添付のクレームの範囲は、このような全ての修正及び同様な構成を包含するように、最も広い解釈が与えられるべきである。
【0110】
また、本件で使用される表現法及び用語は、説明目的のためのものであり、限定と見なされるべきではない、ということが理解されるべきである。「含む」、「備える」、又は「有する」及びそれらの派生語の使用は、その後に付随する事項及びそれらの均等物、並びに更なる事項を包含するように意図されている。別意に指定されたり又は限定されたりしていない限り、「取り付けられた」、「接続された」、「支持された」、及び「結合された」という用語、並びにそれらの派生語は、広義に使用されており、直接的な及び間接的な取り付け、接続、支持、及び結合の両方を包含している。
例示的実施形態の列挙
本発明の様々な態様及び実装は、特許請求の範囲ではない以下に列挙された例示的な実施形態(enumerated example embodiments,EEEs)からも理解される可能性がある。
【0111】
EEE1.
歪んだオーディオ信号のユニバーサル・スピーチ強調のためのシステムであって、本システムは:
複数の層を含む条件付けネットワーク(入力として、少なくとも、歪められたオーディオ信号yを受信し;複数の層のうちの1つ以上の層から、1つ以上の表現hを抽出し;複数の層のうちの1つ以上の層から、1つ以上の条件付け表現cを抽出するように構成されている);
少なくとも、ランダム・ベクトルz、及び、1つ以上の条件付け表現cに基づいて、クリーン信号xを生成するように構成された生成ネットワーク;及び
hとクリーンなオーディオ信号y*との比較及び/又はxとy*との比較に基づいて、歪んだオーディオ信号を強調するように構成された1つ又は複数の補助ネットワーク;
を含み、y及びy*は、それぞれ、同じスピーチの歪められたバージョン及びクリーンなバージョンに対応する。
【0112】
EEE2.
EEE1のシステムにおいて、条件付けニューラル・ネットワークが、入力として、サイド情報を受け取るように更に構成されている。
【0113】
EEE3.
EEE2のシステムにおいて、サイド情報は、yに存在するアーチファクトのタイプの数値(又はテキスト)記述、yに存在するアーチファクトの強度の数値的記述、yに存在するノイズのレベル、システムによって実行される強調処理、話者の身元の記述、言語のタイプ、部屋の特性、及び/又は、マイクロフォンの特性のうちの少なくとも1つを含む。
【0114】
EEE4.
EEE1又はEEE2のシステムにおいて、複数の層が1つ以上の中間層を含む。
【0115】
EEE5.
EEE4のシステムにおいて、1つ以上の表現hが、1つ以上の中間層から抽出される。
【0116】
EEE6.
EEE4又はEEE5のシステムにおいて、1つ以上の条件付け表現cが、1つ以上の中間層から抽出される。
【0117】
EEE7.
EEE1ないしEEE6のうちの何れかのシステムにおいて、1つ以上の表現hが、少なくとも、表現の階層を含み、cに直接的に関連しているか、又はcの更なる処理バージョンである。
【0118】
EEE8.
EEE1ないしEEE7のうちの何れかのシステムにおいて、比較は、y*及びh及び/又はy*及びxに基づいて、損失関数を計算することを含む。
【0119】
EEE9.
EEE8のシステムにおいて、損失関数を計算することは、h及びy*のオーディオ特徴に基づいてh及びy*を比較することを含む。
【0120】
EEE10.
EEE9のシステムにおいて、オーディオ特徴は、メル・バンド・スペクトル表現、ラウドネス、ピッチ、調和性/周期性、発声活動検出、ゼロ交差速度、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、及び/又はHuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む。
【0121】
EEE11.
EEE1ないしEEE7のうちの何れかのシステムにおいて、h及びy*及び/又はx及びy*の算出された損失関数に基づいて、歪んだオーディオ信号を強調することは、生のオーディオ波形表現レベル、潜在空間表現レベル、又は対照的方法(contrastive manner)で学習された表現レベルのうちの少なくとも1つに基づいて、h及びy*及び/又はx及びy*を比較することを含む。
【0122】
EEE12.
EEE1ないしEEE11のうちの何れかのシステムにおいて、1つ以上の表現hのそれぞれに対して、対応する補助ネットワークが存在する。
【0123】
EEE13.
EEE1ないしEEE12のうちの何れかのシステムにおいて、1つ以上の補助ネットワークは、混合密度ネットワークに基づいて構成される。
【0124】
EEE14.
EEE1ないしEEE13のうちの何れかのシステムにおいて、算出された損失関数が、負の対数尤度、Lpノルム、最大平均不一致、敵対的損失、及び/又は、特徴損失のうちの少なくとも1つを含む。
【0125】
EEE15.
EEE1ないしEEE14のうちの何れかのシステムにおいて、条件付けニューラル・ネットワークは、ResNetsを使用するエンコーダ_デコーダ構造に基づいて構成され、エンコーダ構造はスキップ接続を含む。
【0126】
EEE16.
EEE1ないしEEE15のうちの何れかのシステムにおいて、生成ニューラル・ネットワークは、少なくとも、拡散ベース・モデル、変分オートエンコーダ、自己回帰モデル、又は敵対的生成ネットワークの定式化に基づいて構成される。
【0127】
EEE17.
EEE1ないしEEE16のうちの何れかのシステムにおいて、生成ニューラル・ネットワークは、複数の層のうちの内部層におけるスキップ接続と残差接続の両方を含むUNet構造に基づいて構成されており、生成ニューラル・ネットワークは、リカレント・ニューラル・ネットワークを更に含む。
【手続補正書】
【提出日】2023-07-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号のスピーチ強調のためのニューラル・ネットワーク・ベースのシステムであって、強調されたオーディオ信号を生成する生成ネットワークと、前記生成ネットワークの条件付け信号を生成する条件付けネットワークとを含み、
前記条件付けネットワークは、複数の層を含み、且つ:
前記オーディオ信号を入力として受信するステップ;
前記複数の層を介して前記オーディオ信号を伝搬させるステップ;及び
前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供するステップ;
を行うように構成されており、前記オーディオ信号の1つ以上の第1の内部表現は、前記条件付けネットワークのそれぞれの層で取り出され;
前記生成ネットワークは:
ノイズ・ベクトル及び前記条件付け情報を入力として受信するステップ;及び
前記ノイズ・ベクトル及び前記条件付け情報に基づいて、前記強調されたオーディオ信号を生成するステップ;
を行うように構成されている、システム。
【請求項2】
請求項1に記載のシステムにおいて、前記条件付け情報の第1の内部表現は、様々な時間分解能における、前記オーディオ信号の表現の階層に関連している、システム。
【請求項3】
請求項
1に記載のシステムにおいて、前記条件付け情報の第1の内部表現各々又はその処理されたバージョンは、前記生成ネットワークにおける個々の第2の内部表現と結合される、システム。
【請求項4】
請求項
1に記載のシステムにおいて、前記条件付けネットワークは、第1のサイド情報を入力として受信するように更に構成されており、前記条件付けネットワークによる前記オーディオ信号の処理は、前記第1のサイド情報に依存している、システム。
【請求項5】
請求項4に記載のシステムにおいて、前記第1のサイド情報は:
前記オーディオ信号に存在するアーチファクトのタイプ;
前記オーディオ信号に存在するノイズのレベル;
前記オーディオ信号に関して実行される強調処理;及び
前記オーディオ信号の特徴に関する情報;
のうちの1つ以上についての数値的記述を含む、システム。
【請求項6】
請求項
1に記載のシステムにおいて、前記生成ネットワークは、第2のサイド情報を入力として受信するように更に構成されており、前記生成ネットワークによる前記ノイズ・ベクトルの処理は、前記第2のサイド情報に依存している、システム。
【請求項7】
請求項6に記載のシステムにおいて、前記第2のサイド情報は:
前記オーディオ信号に存在するアーチファクトのタイプ;
前記オーディオ信号に存在するノイズのレベル;
前記オーディオ信号に関して実行される強調処理;及び
前記オーディオ信号の特徴に関する情報;
のうちの1つ以上についての数値的記述を含む、システム。
【請求項8】
請求項
1に記載のシステムにおいて、前記条件付けネットワークの複数の層は、1つ以上の中間層を含む、システム。
【請求項9】
請求項8に記載のシステムにおいて、前記オーディオ信号の1つ以上の第1の内部表現は、前記1つ以上の中間層から取り出される、システム。
【請求項10】
請求項
1に記載のシステムにおいて、前記条件付けネットワークは、エンコーダ_デコーダ構造に基づいており、オプションとして、前記エンコーダ_デコーダ構造はReSNetを使用し、及び/又は前記エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる、システム。
【請求項11】
請求項
1に記載のシステムにおいて、前記生成ネットワークは、拡散ベース・モデル、変分オートエンコーダ、自己回帰モデル、及び敵対的生成ネットワークの形式のうちの何れかに基づいている、システム。
【請求項12】
請求項
1に記載のシステムにおいて、前記生成ネットワークは、エンコーダ_デコーダ構造に基づいており、オプションとして、前記エンコーダ_デコーダ構造はReSNetを使用し、及び/又は前記エンコーダ_デコーダ構造のエンコーダの部分は1つ以上のスキップ接続を含んでいる、システム。
【請求項13】
請求項1~12のうちの何れか一項に記載のシステムにおいて、当該システムは、クリーンなオーディオ信号と、前記クリーンなオーディオ信号から導出された又はそれに対応する歪んだオーディオ信号とをそれぞれが含むデータ・ペアを使用して、推論の前に訓練されており、前記歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む、システム。
【請求項14】
請求項13に記載のシステムにおいて、前記データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、前記クリーンなオーディオ信号のプログラム変換及び/又はノイズの加算により生成されたものとを含
み、前記プログラム変換は、残響追加、ロー・パス・フィルタリング、クリッピング、パケット損失シミュレーション、トランスコーディング、ランダム等化、及びレベル・ダイナミクス歪のうちの1つ以上を含む、システム。
【請求項15】
請求項1
3に記載のシステムにおいて、前記条件付けネットワークは、訓練のために、前記オーディオ信号の1つ以上の第3の内部表現を提供するように更に構成されており、前記オーディオ信号の1つ以上の第3の内部表現は、前記条件付けネットワークの個々の層で取り出されるものであり;
前記システムは、前記歪んだオーディオ信号が前記条件付けネットワークに前記オーディオ信号として入力された場合の前記システムの出力に対する前記クリーンなオーディオ信号の比較に基づいて、及び、個々の補助ニューラル・ネットワークによる前記第3の内部表現の処理の後の、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と前記第3の内部表現との比較に基づいて、各データ・ペアについて訓練されているシステム。
【請求項16】
請求項15に記載のシステムにおいて、前記比較は、個々の損失関数に基づいている、システム。
【請求項17】
請求項1
5に記載のシステムにおいて、前記オーディオ特徴は、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む、システム。
【請求項18】
請求項1
5に記載のシステムにおいて、前記条件付けネットワークから抽出された第3の内部表現各々について各自1つの補助ニューラル・ネットワークが存在している、システム。
【請求項19】
請求項1
5に記載のシステムにおいて、前記1つ以上の補助ニューラル・ネットワークは、混合密度ネットワークに基づいている、システム。
【請求項20】
請求項1
3に記載のシステムにおいて、前記条件付けネットワーク及び前記生成ネットワークは合同訓練されている、システム。
【請求項21】
ニューラル・ネットワーク・ベースのシステムを用いてスピーチ強調のためにオーディオ信号を処理する方法であって、前記システムは、強調されたオーディオ信号を生成する生成ネットワークと、前記生成ネットワークの条件付け信号を生成する条件付けネットワークとを含み、前記方法は:
前記オーディオ信号を前記条件付けネットワークに入力するステップ;
前記条件付けネットワークの複数の層を介して前記オーディオ信号を伝搬させるステップ;及び
前記オーディオ信号の1つ以上の第1の内部表現を、前記条件付けネットワークのそれぞれの層で取り出し、前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供するステップ;
ノイズ・ベクトル及び前記条件付け情報を前記生成ネットワークに入力するステップ;及び
前記ノイズ・ベクトル及び前記条件付け情報に基づいて、前記強調されたオーディオ信号を生成するステップ;
を含む方法。
【請求項22】
請求項21に記載の方法において、前記条件付け情報の第1の内部表現は、様々な時間分解能における、前記オーディオ信号の表現の階層に関連している、方法。
【請求項23】
請求項2
1に記載の方法において、前記条件付け情報の第1の内部表現各々又はその処理されたバージョンを、前記生成ネットワークにおける個々の第2の内部表現と結合するステップを更に含む方法。
【請求項24】
請求項2
1に記載の方法において、第1のサイド情報を前記条件付けネットワークに入力する、及び/又は、第2のサイド情報を前記生成ネットワークに入力するステップを更に含む、方法。
【請求項25】
請求項
1に記載のニューラル・ネットワーク・ベースのシステムを訓練する方法であって、前記訓練は、クリーンなオーディオ信号と、前記クリーンなオーディオ信号から導出された又はそれに対応する歪んだオーディオ信号とをそれぞれが含むデータ・ペアに基づいており、前記歪んだオーディオ信号は、ノイズ及び/又はアーチファクトを含む、方法。
【請求項26】
請求項25に記載の方法において、前記データ・ペアのうちの1つ以上は、個々のクリーンなオーディオ信号と、個々の歪んだオーディオ信号であって、前記クリーンなオーディオ信号のプログラム変換及び/又はノイズの加算により生成されたものとを含
み、前記プログラム変換は、残響追加、ロー・パス・フィルタリング、クリッピング、パケット損失シミュレーション、トランスコーディング、ランダム等化、及びレベル・ダイナミクス歪のうちの1つ以上を含む、方法。
【請求項27】
請求項2
5に記載の方法において、各データ・ペアについて:
前記歪んだオーディオ信号を前記条件付けネットワークに前記オーディオ信号として入力し;
前記条件付けネットワークの複数の層を介して前記オーディオ信号を伝搬させ;
前記条件付けネットワークの個々の層において、前記オーディオ信号の1つ以上の第1の内部表現を取り出し、前記オーディオ信号の1つ以上の第1の内部表現又はその処理されたバージョンを、前記条件付け情報として提供し;
前記条件付けネットワークの個々の層において、前記オーディオ信号の1つ以上の第3の内部表現を取り出し;
前記第3の内部表現の各々を、個々の補助ニューラル・ネットワークにより処理し;
前記ノイズ・ベクトル及び前記条件付け情報を前記生成ネットワークに入力し;
前記生成ネットワークを使用して、前記ノイズ・ベクトル及び前記条件付け情報に基づいて前記システムの出力を生成し;
前記システムの出力を前記クリーンなオーディオ信号と比較し;及び
前記補助ニューラル・ネットワークによる処理の後に、前記第3の内部表現を、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と比較するステップ;
を含む方法。
【請求項28】
請求項27に記載の方法において、前記システムの出力を前記クリーンなオーディオ信号と比較し;前記第3の内部表現を、前記クリーンなオーディオ信号の表現又は前記クリーンなオーディオ信号から導出されたオーディオ特徴と比較することは、個々の損失関数に基づいている、方法。
【請求項29】
請求項2
7に記載の方法において、前記オーディオ特徴は、メル・バンド・スペクトル表現、ラウドネス、ピッチ、ハーモニシティ/周期、発声活動検出、ゼロ交差率、エンコーダからの自己教師あり学習特徴、wave2vecモデルからの自己教師あり学習特徴、HuBERTモデルからの自己教師あり学習特徴のうちの少なくとも1つを含む、方法。
【請求項30】
請求項2
7に記載の方法において、前記1つ以上の補助ニューラル・ネットワークは、混合密度ネットワークに基づいている、方法。
【請求項31】
請求項2
7に記載の方法において、前記条件付けネットワーク、前記生成ネットワーク、及び1つ以上の補助ニューラル・ネットワークは、合同訓練されている、方法。
【請求項32】
プロセッサにより実行されると、請求項21~31のうちの何れか一項に記載の方法を前記プロセッサに実行させる命令を含むコンピュータ・プログラム。
【請求項33】
請求項32に記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
【国際調査報告】