IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7665660ラベル付きデータ及びラベル無しデータを組み合わせるオーディオ品質メトリックを学習する方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-11
(45)【発行日】2025-04-21
(54)【発明の名称】ラベル付きデータ及びラベル無しデータを組み合わせるオーディオ品質メトリックを学習する方法
(51)【国際特許分類】
   G10L 25/60 20130101AFI20250414BHJP
   G10L 25/30 20130101ALI20250414BHJP
【FI】
G10L25/60
G10L25/30
【請求項の数】 26
(21)【出願番号】P 2022579132
(86)(22)【出願日】2021-06-21
(65)【公表番号】
(43)【公表日】2023-07-21
(86)【国際出願番号】 EP2021066786
(87)【国際公開番号】W WO2021259842
(87)【国際公開日】2021-12-30
【審査請求日】2023-02-17
(31)【優先権主張番号】P202030605
(32)【優先日】2020-06-22
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】63/072,787
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/090,919
(32)【優先日】2020-10-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】20203277.7
(32)【優先日】2020-10-22
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】セラ,ホアン
(72)【発明者】
【氏名】ポンス プイグ,ジョルディ
(72)【発明者】
【氏名】パスクアル,サンティアゴ
【審査官】中村 天真
(56)【参考文献】
【文献】特表2019-531494(JP,A)
【文献】特表2000-506327(JP,A)
【文献】特開平09-331391(JP,A)
【文献】特開平04-345327(JP,A)
【文献】米国特許出願公開第2019/0172479(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
G06N 3/02- 3/10
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オーディオ入力のオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステムを訓練する方法であって、当該方法は:
オーディオ・サンプルを含む少なくとも1つの訓練セットを入力として取得するステップであって、前記オーディオ・サンプルは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含み、前記第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、前記第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して相対的に表す情報でラベル付けされている、ステップ;
前記訓練セットを、前記ニューラル・ネットワーク・ベースのシステムに入力するステップ;及び
前記訓練セット中の前記オーディオ・サンプルのそれぞれのラベル情報を予測するように、前記システムを反復的に訓練するステップ;
を含み、前記訓練は複数の損失関数に基づいており;及び
前記複数の損失関数は、前記訓練セット中の前記オーディオ・サンプルの前記ラベル情報とそれら各自の予測との間の差分を反映するように生成されており;
前記第1のタイプのオーディオ・サンプルは、人間が注釈を付けたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は前記それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、前記第2のタイプのオーディオ・サンプルは、アルゴリズムにより生成されたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は相対的なオーディオ品質メトリックを表す情報でラベル付けされており;
前記アルゴリズムにより生成されたオーディオ・サンプルの各々は、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・サンプルに又は別のアルゴリズムにより生成されたオーディオ・サンプルに選択的に適用することによって生成され、前記ラベル情報は、適用されているそれぞれの劣化関数及び/又はそれぞれの劣化強度を示す情報を含んでいる、方法。
【請求項2】
請求項1に記載の方法において、前記人間が注釈を付けたオーディオ・サンプルは、平均オピニオン・スコア(MOS)オーディオ・サンプル及び/又は丁度可知差異(JND)オーディオ・サンプルを含む、方法。
【請求項3】
請求項1に記載の方法において、前記ラベル情報は、前記訓練セットにおける他のオーディオ・サンプルに対する又は前記参照オーディオ・サンプルに対する劣化を表す情報を更に含む、方法。
【請求項4】
請求項1又は3に記載の方法において、前記劣化関数は、複数の利用可能な劣化関数の中から選択される、方法。
【請求項5】
請求項4に記載の方法において、前記複数の利用可能な劣化関数は、残響、クリッピング、異なるコーデックを用いた符号化、位相歪、オーディオ・リバース、及び背景雑音のうちの1つ以上に関連する関数を含む、方法。
【請求項6】
請求項1ないし5のうちの何れか1項に記載の方法において、前記アルゴリズムにより生成されたオーディオ・サンプルは、ペアのオーディオ・フレーム{xi,xj}及び/又はクアドルプルのオーディオ・フレーム{xik,xil,xjk,xjl}として生成され、前記オーディオ・フレームxiは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・フレームに選択的に適用することによって生成され、前記オーディオ・フレームxjは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、前記オーディオ・フレームxiに選択的に適用することによって生成され、前記オーディオ・フレームxik,xilは、それぞれの時間遅延を前記オーディオ・フレームxiに選択的に適用することによって、オーディオ・フレームxiから抽出され、前記オーディオ・フレームxjk,xjlは、それぞれの時間遅延を前記オーディオ・フレームxjに選択的に適用することによって、オーディオ・フレームxjから抽出されている、方法。
【請求項7】
請求項1ないし6のうちの何れか1項に記載の方法において、前記損失関数は、MOSエラー・メトリックを表す第1の損失関数を含み、前記第1の損失関数は、前記訓練セット中のオーディオ・サンプルのMOSグランド・トゥルースと前記オーディオ・サンプルの予測との間の差分に基づいて計算される、方法。
【請求項8】
請求項1ないし7のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルの前記ラベル情報は、あるオーディオ・サンプルが別のオーディオ・サンプルより多く劣化しているかどうかを表す相対的な情報を含み、前記損失関数は、ペアのランキング・メトリックを表す第2の損失関数を含み、前記第2の損失関数は、相対的な劣化情報とその予測とを含むラベル情報によって設定されるランキングに基づいて計算される、方法。
【請求項9】
請求項8に記載の方法において、前記システムは、より少なく劣化した或るオーディオ・サンプルが、より多く劣化した別のオーディオ・サンプルよりも良いオーディオ品質を表すオーディオ品質メトリックを獲得するような方式で訓練されている、方法。
【請求項10】
請求項1ないし7のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプル間の知覚的関連性を表す相対的な情報を含み、前記損失関数は一貫性メトリックを表す第3の損失関数を含み、前記第3の損失関数は、前記知覚的関連性の情報を含むラベル情報とその予測との間の差分に基づいて計算される、方法。
【請求項11】
請求項10に記載の方法において、前記一貫性メトリックは、2つ以上のオーディオ・サンプルが、同じ劣化関数及び劣化強度を有し、同じ時間フレームに対応するかどうかを示す、方法。
【請求項12】
請求項1ないし7のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルのラベル情報は、或るオーディオ・サンプルが別のオーディオ・サンプルと同じ劣化関数及び同じ劣化強度で適用されているかどうかを表す相対的な情報を含み、前記損失関数は劣化状態メトリックを表す第4の損失関数を含み、前記第4の損失関数は、相対的な劣化情報を含むラベル情報とその予測との間の差分に基づいて計算される、方法。
【請求項13】
請求項1ないし12のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルのラベル情報は、互いに対する知覚的な相違を表す相対的な情報を含み、前記損失関数はJNDメトリックを表す第5の損失関数を含み、前記第5の損失関数は、相対的な知覚的な相違を含むラベル情報とその予測との間の差分に基づいて計算される、方法。
【請求項14】
請求項1ないし13のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化関数を表す情報を含み、前記損失関数は劣化タイプ・メトリックを表す第6の損失関数を含み、前記第6の損失関数は、それぞれの劣化関数の情報を含むラベル情報とその予測との間の差分に基づいて計算される、方法。
【請求項15】
請求項1ないし14のうちの何れか1項に記載の方法において、前記第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化強度を表す情報を含み、前記損失関数は劣化強度メトリックを表す第7の損失関数を含み、前記第7の損失関数は、それぞれの劣化強度の情報を含むラベル情報とその予測との間の差分に基づいて計算される、方法。
【請求項16】
請求項1ないし15のうちの何れか1項に記載の方法において、前記損失関数は回帰メトリックを表す第8の損失関数を含み、前記回帰メトリックは、参照に基づいた品質尺度及び参照によらない品質尺度のうちの少なくとも1つに従って計算される、方法。
【請求項17】
請求項16に記載の方法において、前記参照に基づいた品質尺度は、PESQ,CSIG,CBAK,COVL,SSNR,LLR,WSSD,STOI,SISDR,メル・ケプストラム歪,及び対数-メル-帯域歪のうちの少なくとも1つを含む、方法。
【請求項18】
請求項1ないし17のうちの何れか1項に記載の方法において、前記訓練セット中の前記オーディオ・サンプルの各々は、前記複数の損失関数のうちの少なくとも1つにおいて使用され、前記訓練のための最終的な損失関数は、前記複数の損失関数のうちの1つ以上についての平均化プロセスに基づいて生成される、方法。
【請求項19】
請求項1ないし18のうちの何れか1項に記載の方法において、前記システムは、前記オーディオ入力を特徴空間表現にマッピングする符号化ステージと、前記特徴空間表現に基づいて、ラベル情報の予測を生成する評価ステージとを含む、方法。
【請求項20】
請求項19に記載の方法において、前記特徴空間表現を生成するための符号化ステージが、ニューラル・ネットワーク・エンコーダを含んでいる、方法。
【請求項21】
請求項1ないし20のうちの何れか1項に記載の方法において、前記複数の損失関数の各々は、線形層又は多層パーセプトロン(MLP)を含むニューラル・ネットワークに基づいて決定される、方法。
【請求項22】
入力オーディオ・サンプルのオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステムであって:
符号化ステージ;及び
評価ステージ;
を備え、前記符号化ステージは、前記入力オーディオ・サンプルを特徴空間表現にマッピングするように構成されており;及び
前記評価ステージは、前記特徴空間表現に基づいて、所定のオーディオ品質メトリックを表す情報を予測し、且つ参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報を更に予測するように構成されており;当該システムは:
少なくとも1つの訓練セットを入力として取得するステップであって、前記訓練セットは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含み、前記第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、前記第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して相対的に表す情報でラベル付けされている、ステップ;
前記訓練セットを、前記システムに入力するステップ;及び
複数の損失関数に基づいて前記訓練セット中の前記オーディオ・サンプルのそれぞれのラベル情報を予測するように、前記訓練セットに基づいて前記システムを反復的に訓練するステップであって、前記複数の損失関数は、前記訓練セット中の前記オーディオ・サンプルの前記ラベル情報とそれら各自の予測との間の差分を反映するように生成されている、ステップ;
を実行するように構成されており;
前記第1のタイプのオーディオ・サンプルは、人間が注釈を付けたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は前記それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、前記第2のタイプのオーディオ・サンプルは、アルゴリズムにより生成されたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は相対的なオーディオ品質メトリックを表す情報でラベル付けされており;
前記アルゴリズムにより生成されたオーディオ・サンプルの各々は、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・サンプルに又は別のアルゴリズムにより生成されたオーディオ・サンプルに選択的に適用することによって生成され、前記ラベル情報は、適用されているそれぞれの劣化関数及び/又はそれぞれの劣化強度を示す情報を含んでいる、システム。
【請求項23】
請求項1に記載の方法が実行された後に、入力オーディオ・サンプルのオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステムを動作させる方法であって、前記システムは符号化ステージと評価ステージとを含み、当該方法は:
前記符号化ステージにより、前記入力オーディオ・サンプルを特徴空間表現にマッピングするステップ;及び
前記評価ステージにより、所定のオーディオ品質メトリックを表す情報と、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報とを、前記特徴空間表現に基づいて予測するステップ;
を含む方法。
【請求項24】
命令を含むプログラムであって、前記命令は、プロセッサにより実行されると、請求項1ないし21及び23のうちの何れか1項に記載の方法のステップを前記プロセッサに実行させる、プログラム。
【請求項25】
請求項24に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項26】
プロセッサと前記プロセッサに結合されたメモリとを備える装置であって、前記プロセッサは、請求項1ないし21及び23のうちの何れか1項に記載の方法のステップを前記装置に実行させるように構成されている、装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は以下の先の出願による優先権を主張しており、これらは参照により本件に援用される:2020年6月22日付で出願されたES出願第202030605号(参照番号:D20045ES)、2020年8月31日付で出願された米国仮出願第63/072,787号(参照番号:D20045USP1)、2020年10月13日付で出願された米国仮出願第63/090,919号(参照番号:D20045USP2)、及び2020年10月22日付で出願されたEP出願第20203277.7号(参照番号:D20045EP)。
【0002】
技術分野
本開示は概してオーディオ処理の分野に関連する。特に、本開示は、機械学習モデル又はシステムを使用するスピーチ/オーディオ品質評価のための技術、及びスピーチ/オーディオ品質評価のための機械学習モデル又はシステムを訓練するためのフレームワークに関連する。
【背景技術】
【0003】
スピーチやオーディオの品質評価は、無数の研究テーマ及び現実世界のアプリケーションにとって極めて重要である。その必要性は、アルゴリズムの評価や開発から、基本的な分析や情報化された意思決定に至るまで多岐にわたる。大まかに言えば、オーディオ品質の評価は、主観的なリスニング・テストにより、又は客観的な品質メトリックにより実行されることが可能である。人間の判断に良く相関する客観的なメトリックは、主観の対応物についての、取るに足りない僅かな労力、時間、及びコストでの一貫した結果とともに、自動品質評価を拡大してゆく可能性を開く。伝統的な客観的なメトリックは、短時間フーリエ変換のような標準的な信号処理ブロック、又はガンマトーン・フィルタ・バンク(Gammatone filter bank)のような知覚的に動機付けられたブロックに依存している。それらは、更なる処理ブロックと共に、しばしば入り組んだ複雑なルール・ベースのシステムを生み出す。代替的なアプローチは、機械学習技術を、注意深く選択された要因及びそれに対応する人的な評価と組み合わせることによって、生データからスピーチ品質を直接的に学習することである。ルール・ベースのシステムは、知覚的に動機付けられ、ある程度は解釈可能であるという利点を有するが、電話信号又はボイス・オーバーIP劣化(voice-over-IP(VoIP)degradations)のような特定のタイプの信号又は劣化に関する狭いフォーカスをしばしば与える。他方、学習ベースのシステムは、通常、他のタスク及び劣化に再利用することが容易であるが、かなりの量の人間が注釈したデータを必要とする。ルール・ベースのシステムも学習ベースのシステムも、更に、汎化能力(generalization)に欠けていることに悩まされる可能性があり、従って、フォーカスしたデータ以外のサンプルについては貧弱にしか動作しない可能性がある。
【0004】
従って、(自動)オーディオ品質評価を実行する方法及びシステム、並びに、そのようなシステムを訓練する方法であって、(例えば、誤り率、一致性などの観点から)改善されたパフォーマンス及び/又は効率を達成することが可能である一方、新たなオーディオ(例えば、録音)及び/又はリスナーに対して良好な汎化を同時に可能にする方法についてもニーズが存在する。
【発明の概要】
【0005】
上記を考慮して、本開示は、一般に、オーディオ入力のオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステムを訓練する方法、入力オーディオ・サンプルのオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステム、及び入力オーディオ・サンプルのオーディオ品質の指標を決定するニューラル・ネットワーク・ベースのシステムの作動方法に加えて、それぞれの独立クレームの特徴を有する対応するプログラム、コンピュータ読み取り可能な記憶媒体、及び装置を提供する。従属クレームは好ましい実施態様に関連する。
【0006】
本開示の一態様によれば、オーディオ入力のオーディオ品質の指標を決定するディープ・ラーニング・ベースの(例えば、ニューラル・ネットワーク・ベースの)システムを訓練する方法が提供される。訓練は、システムを実装するために使用される深層学習モデル(例えば、ニューラル・ネットワーク)のパラメータを決定することを意味する場合がある。更に、訓練は、反復的な訓練を意味する場合がある。オーディオ入力のオーディオ品質の指標は、例えばスコアであってもよい。スコアは、必要に応じて、1ないし5の間のような所定のスケールに正規化(限定)されてもよい。方法は、オーディオ・サンプルを含む少なくとも1つの訓練セットを入力として取得することを含むことが可能である。特に、オーディオ・サンプルは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含む可能性がある。より詳細には、第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報(例えば、1ないし5の間のもの)でラベル付けされていてもよく、第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して(例えば、訓練セット中の別のオーディオ・サンプルのものに対して)相対的に表す情報でラベル付けされていてもよい。換言すれば、第1のタイプのオーディオ・サンプルは、各々が、絶対的なオーディオ品質メトリックを表すラベル情報を、各々が含んでいるものとして理解されてもよい(例えば、1ないし5の間で正規化され、5が最高のオーディオ品質を有する)。これに対して、第2のタイプのオーディオ・サンプルは、相対的なオーディオ品質メトリックを示すラベル情報を、各々が含んでいるものとして理解されてもよい。当業者に理解され認められるように、本件で使用される参照オーディオ・サンプルは、必ずしも必須ではないが、訓練セット内の別のオーディオ・サンプルであってもよい。言い換えると、参照オーディオ・サンプルは、外部参照オーディオ・サンプル(即ち、訓練セット内には無いもの)又は内部参照オーディオ・サンプル(即ち、訓練セット内に有るもの)であってもよい。更に、参照オーディオ・サンプルは、任意の適切なオーディオ・サンプルであってもよく、例えば、予め定義又は予め決定されている、(比較の際の)参照として役立つように使用されることが可能なものであってもよく、その結果、広義には、オーディオ・サンプルを参照オーディオ・サンプルと比較することによって、相対的なメトリックを決定(例えば、計算)することが可能である。幾つかの例において、相対的なラベル情報は、オーディオ・サンプルが(所定の)参照オーディオ・サンプル(例えば、訓練セット内の別のオーディオ・サンプル)よりも多く劣化している(又は少なく劣化している)ことを示す情報を含んでもよい。幾つかの例において、相対的なラベル情報は、例えば、(劣化した)オーディオ・サンプルを生成する場合に、例えば参照オーディオ・サンプル(例えば、訓練セット内の別のオーディオ・サンプル)に適用されている特定の劣化関数(及びオプションとして、対応する劣化強度)を表す情報を含んでもよい。もちろん、当業者に理解され認められるように、必要に応じて又は適切であれば、適切な任意の他の相対的ラベル情報が含められてもよい。方法は、訓練セットを、ディープ・ラーニング・ベースのシステムに入力すること、及び、訓練セット中のオーディオ・サンプルのそれぞれのラベル情報を予測するように、システムを反復的に訓練することを更に含むことが可能である。訓練は複数の損失関数に基づいていてもよい。特に、複数の損失関数は、訓練セット中のオーディオ・サンプルのラベル情報とそれら各自の予測との間の差分を反映するように生成されてもよい。
【0007】
上述のように構成されることで、広義には、提案される方法は、利用者に負担をかけない品質評価をもたらすニューラル・ネットワークを訓練することができる。評価はデータから学習されるので、訓練される際のオーディオ・タイプを変更することにより、フォーカスは再設定されることが可能であり、学習する対象の劣化を選択することも可能である。特に、提案される方法は、一般的には、半教師あり学習(semi-supervised)であり、これは、様々なデータ・ソースから得られる絶対的及び相対的な評価の両方を活用できることを意味する。このようにして、高価で時間のかかるリスナー・データ(listener data)の必要性を緩和することができる。複数のソースから学習することに加えて、提案される方法は、複数の損失関数(データ・ソース内のオーディオ・サンプルに従って生成されるもの)に基づいて、ネットワークを訓練することによって、それらのソースの複数の特徴から学習し、それにより、はるかに一般的な自動評価を導くことができる。
【0008】
幾つかの例では、第1のタイプのオーディオ・サンプルは、人間が注釈を付けたオーディオ・サンプルを含んでもよい。人間が注釈を付けたオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされてもよい。当業者に理解され認められるように、オーディオ・サンプルは、例えば、オーディオ専門家、通常のリスナー、メカニカル・ターカー(mechanical turkers)(例えば、クラウド・ソーシング)などによって、任意の適切な手段で注釈を付けられてもよい。
【0009】
幾つかの例では、人間が注釈を付けたオーディオ・サンプルは、平均オピニオン・スコア(mean opinion score,MOS)オーディオ・サンプル及び/又は丁度可知差異(just-noticeable difference,JDN)オーディオ・サンプルを含んでもよい。MOSデータ・セットとJNDデータ・セットに関する幾つかの可能性のある例は、本件に含まれる付録のセクションB.1及びB.2にそれぞれ与えられている。
【0010】
幾つかの例では、第2のタイプのオーディオ・サンプルは、アルゴリズムにより(又はプログラムにより、人工的に)生成されたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は相対的な所定のオーディオ品質メトリックを表す情報でラベル付けされている。
【0011】
幾つかの例では、アルゴリズムにより生成されたサンプルの各々は、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・サンプルに又は別のアルゴリズムにより生成されたオーディオ・サンプルに選択的に適用することによって生成されてもよい。そのような例において、ラベル情報は、適用されているそれぞれの劣化関数及び/又はそれぞれの劣化強度を示す情報を含んでもよい。もちろん、当業者に理解されるように、適切な他の任意のアルゴリズム及び/又はプログラムが、第2のタイプのオーディオ・サンプルを生成するために使用されてもよい。
【0012】
幾つかの例では、ラベル情報は、互いに対する劣化を表す情報を更に含んでもよい。即ち、幾つかの例では、ラベル情報は、訓練セットにおける他のオーディオ・サンプルに対する又は参照オーディオ・サンプルに対する劣化を表す情報を更に含んでもよい。例えば、ラベル情報は、あるオーディオ・サンプルが、別のオーディオ・サンプル(例えば、訓練セット内の別のオーディオ・サンプル又は外部の参照オーディオ・サンプル)よりも相対的に多く又は少なく劣化していることを示す相対的な情報を含んでいてもよい。
【0013】
幾つかの例では、劣化関数は、複数の利用可能な劣化関数の中から選択されてもよい。複数の利用可能な劣化関数は、劣化関数のプールとして実現されてもよい。追加的又は代替的に、それぞれの劣化強度は、その最小値において、(例えば、エキスパート、リスナー、又は作者により)劣化が知覚的にそれでも顕著であるように設定されていてもよい。
【0014】
幾つかの例では、複数の利用可能な劣化関数は、残響(reverberation)、クリッピング、異なるコーデックを用いた符号化、位相歪、オーディオ・リバース、及び背景雑音のうちの1つ以上の関数、処理又はプロセスに関連する関数を含んでもよい。更に、(背景)雑音は、現実の(例えば、記録された)背景雑音又は人工的に生成された背景雑音を含んでもよい。ある場合には、選択される劣化強度は、全ての劣化のうちの一態様のみであってもよいこと、また、別の関連する態様では、それは経験的に選択された値の中でランダムにサンプリングされてもよいことに留意されたい。例えば、残響(reverb)効果の場合、信号対雑音比(SNR)が主要な強度として選択されるかもしれないが、残響のタイプ、幅、遅延などがランダムに選択されてもよい。劣化及び/又は強度についての幾つかの可能な例が、本件に含まれる付録のセクションCに与えられている。
【0015】
幾つかの例では、アルゴリズムにより生成されたオーディオ・サンプルは、ペアのオーディオ・フレーム{xi,xj}及び/又はクアドルプルのオーディオ・フレーム{xik,xil,xjk,xjl}として生成されてもよい。特に、オーディオ・フレームxiは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、(例えば、外的な)参照オーディオ・フレーム(又は訓練セットからのオーディオ・フレーム)に選択的に適用することによって生成されてもよい。次いで、オーディオ・フレームxjは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、前記オーディオ・フレームxiに選択的に適用することによって生成されてもよい。更に、オーディオ・フレームxik,xilは、それぞれの時間遅延をオーディオ・フレームxiに選択的に適用することによって、オーディオ・フレームxiから抽出されてもよく、オーディオ・フレームxjk,xjlは、それぞれの時間遅延をオーディオ・フレームxjに選択的に適用することによって、オーディオ・フレームxjから抽出されてもよい。限定としてではなく例示として、オーディオ・フレームxiは1.1秒の長さのものであってもよく、1.1秒のオーディオ・フレームxiから抽出されるオーディオ・フレームxik,xilは、1秒の長さのものであってもよい。当業者に理解され認められることが可能であるように、オーディオ・サンプルは、種々の実装及び/又は要件に応じて、適切な
任意の手段で生成されることが可能である。
【0016】
幾つかの例では、損失関数は、MOSエラー・メトリックを表す第1の損失関数を含む可能性がある。第1の損失関数は、訓練セット中のオーディオ・サンプルのMOSグランド・トゥルースとオーディオ・サンプルの予測との間の差分に基づいて計算されてもよい。この意味において、第1の損失関数は、幾つかのケースでは、MOSオピニオン・スコア・メトリックを示しているように考えられてもよい。もちろん、差分に加えて、当業者に理解され認められるように、ダイバージェンスやクロス・エントロピーのような適切な数学的概念のような、任意の他の適切な手段が、第1の損失関数(又は以下で詳細に説明される任意の他の適切な損失関数)を決定(計算)するために使用されてもよい。
【0017】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、あるオーディオ・サンプルが別のオーディオ・サンプルより多く(又は、幾つかのケースではより少なく)劣化しているかどうかを示す相対的な(ラベル)情報を含んでもよい。上記の第1の損失関数に加えて又はその代わりに、別の損失関数は、ペアのランキング・メトリックを表す第2の損失関数を含んでもよい。特に、第2の損失関数は、相対的な劣化情報とその予測とを含むラベル情報によって設定されるランキングに基づいて計算されてもよい。
【0018】
幾つかの例では、システムは、より少なく劣化した或るオーディオ・サンプルが、より多く劣化した別のオーディオ・サンプルよりも良いオーディオ品質を示すオーディオ品質メトリックを獲得するような方式で訓練されていてもよい。
【0019】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプル間の知覚的関連性を表す相対的な情報を含んでもよい。知覚的関連性は、例えば、2つのオーディオ・サンプル間、又は2つのペアのオーディオ・サンプル間の知覚的な相違又は知覚的な類似性を表すものであってもよい。即ち、大まかに言えば、2つのオーディオ信号が同じ(オーディオ)ソースから抽出され、僅か数個のオーディオ・サンプルだけしか相違していない場合、或いは、2つの信号の間の差が知覚的に無関係である場合、それぞれの品質メトリック(又は品質スコア)は本質的に同じはずである。補足的に、2つの信号が知覚的に区別可能である場合、それらのメトリック/スコアの差は、一定のマージンを上回るはずである。特に、これらの2つの考え方は、例えば、スコア差分のペアの間の一貫性を考慮することによって、ペアのペアに拡張することも可能である。従って、損失関数は、追加的又は代替的に、一貫性メトリックを表す第3の損失関数を含んでもよく、特に、第3の損失関数は、知覚的関連性の情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよい。この意味において、第3の損失関数は、幾つかのケースでは、スコア一貫性メトリックを示しているように考えられてもよい。
【0020】
幾つかの例では、一貫性メトリックは、2つ以上のオーディオ・サンプルが、同じ劣化関数及び/又は劣化強度を有し、同じ時間フレームに対応するかどうかを示していてもよい。
【0021】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、或るオーディオ・サンプルが別のオーディオ・サンプルと同じ劣化関数及び同じ劣化強度で適用されているかどうかを表す相対的な情報を含んでもよい。従って、損失関数は、追加的又は代替的に、(同じ又は異なる)劣化状態メトリックを表す第4の損失関数を含んでもよい。特に、第4の損失関数は、相対的な劣化情報/状態を含むラベル情報とその予測との間の差分に基づいて計算されてもよい。
【0022】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、互いに対する知覚的な相違を表す相対的な情報を含んでもよい。従って、損失関数は、追加的又は代替的に、JNDメトリックを表す第5の損失関数を含み、第5の損失関数は、相対的な知覚的な相違を含むラベル情報とその予測との間の差分に基づいて計算されてもよい。
【0023】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化関数を表す情報を含んでもよい。従って、損失関数は、追加的又は代替的に、劣化タイプ・メトリックを表す第6の損失関数を含んでもよい。特に、第6の損失関数は、それぞれの劣化関数のタイプ情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよい。
【0024】
幾つかの例では、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化強度を表す情報を含んでもよい。従って、損失関数は、追加的又は代替的に、劣化強度メトリックを表す第7の損失関数を含んでもよい。そして、第7の損失関数は、それぞれの劣化強度の情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよい。
【0025】
幾つかの例では、損失関数は、追加的又は代替的に、回帰メトリックを表す第8の損失関数を含んでもよい。特に、回帰メトリックは、参照に基づいた品質尺度及び参照によらない品質尺度のうちの少なくとも1つに従って計算されてもよい。
【0026】
幾つかの例では、参照に基づいた品質尺度は:スピーチ品質の知覚的評価(perceptual evaluation of speech quality,PESQ)、信号のコンポジット尺度(composite measure for signal,CSIG)、雑音のコンポジット尺度(composite measure for noise,CBAK)、全体的品質のコンポジット尺度(composite measure for overall quality,COVL)、セグメント信号対雑音比(segmental signal-to-noise ratio, SSNR)、対数尤度比(log-likelihood ratio,LLR)、加重傾斜スペクトル距離(weighted slope spectral distance,WSSD)、短期的客観的明瞭性(short-term objective intelligibility,STOI)、スケール不変信号歪比(scale-invariant signal distortion ratio,SISDR)、メル・ケプストラム歪(Mel cepstral distortion)、及び対数メル帯域歪(log-Mel-band distortion)のうちの少なくとも1つを含む可能性があるが、これらに限定されない。もちろん、当業者に認められるように、任意の他の適切な参照に基づく品質尺度及び/又は参照に基づかない品質尺度が使用されてもよい。
【0027】
幾つかの例では、訓練セット中のオーディオ・サンプルの各々は、複数の損失関数のうちの少なくとも1つにおいて使用されてもよい。即ち、訓練セット内のオーディオ・サンプルのうちの一部が、1つ以上の損失関数によって再利用又は共用されてもよい。例えば、第3の損失関数(即ち、スコア一貫性メトリック)を計算するための(アルゴリズムにより生成された)オーディオ・サンプルが、第4の損失関数(即ち、同じ/異なる劣化条件メトリック)を計算する場合に再利用されてもよく、あるいはその逆も可能である。従って、システムを訓練する際の効率を、著しく改善する可能性がある。特に、訓練のための最終的な損失関数は、複数の損失関数のうちの1つ以上についての平均化プロセスに基づいて生成されてもよい。当業者に認められるように、任意の数の適切な損失関数に基づいて最終的な損失関数を生成するために、任意の他の適切な手段又はプロセスが、様々な実装及び/又は要件に応じて使用されてもよい。
【0028】
幾つかの例では、システムは、オーディオ入力を特徴空間表現にマッピングする(例えば、変換する)符号化ステージ(又は、単にエンコーダと呼ばれる)を含む可能性がある。特徴空間表現は、例えば(特徴)潜在空間((feature)latent space)であってもよい。システムは、特徴空間表現に基づいて、ラベル情報の予測を生成する評価ステージを含む可能性がある。
【0029】
幾つかの例では、中間表現を生成するための符号化ステージは、ニューラル・ネットワーク・エンコーダを含んでいてもよい。
【0030】
幾つかの例では、複数の損失関数の各々は、線形層又は多層パーセプトロン(multilayer perceptron,MLP)を含むニューラル・ネットワークに基づいて決定されてもよい。
【0031】
本開示の別の態様によれば、入力オーディオ・サンプルのオーディオ品質の指標を決定するディープ・ラーニング・ベースの(例えば、ニューラル・ネットワーク・ベースの)システムが提供される。システムは、上記の例のうちの任意の1つに従って訓練されることが可能である。特に、システムは、符号化ステージと評価ステージを含むことが可能である。より具体的には、符号化ステージは、入力オーディオ・サンプルを特徴空間表現にマッピングするように構成されていてもよい。更に、評価ステージは、特徴空間表現に基づいて、所定のオーディオ品質メトリックを表す情報を予測し、且つ参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報を更に予測するように構成されていてもよい。当業者に理解され認められることが可能であるように、ここで使用される参照オーディオ・サンプルは、必ずしも必須ではないが、システムを訓練するための訓練セット内の別のオーディオ・サンプルであってもよい。言い換えると、参照オーディオ・サンプルは、外部参照オーディオ・サンプル(即ち、訓練セット内に無いもの)又は内部参照オーディオ・サンプル(即ち、訓練セット内に有るもの)であるとすることが可能である。更に、参照オーディオ・サンプルは、任意の適切なオーディオ・サンプルであってもよく、例えば、予め定義又は予め決定されている、(比較の際の)参照として役立つように使用されることが可能なものであってもよく、その結果、広義には、オーディオ・サンプルを参照オーディオ・サンプルと比較することによって、相対的なメトリックを決定(例えば、計算)することが可能である。更に、予測された情報(例えば、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを示すもの)が、システムを更に訓練(正則化(regularizing))するために使用されてもよい。
【0032】
幾つかの例では、幾つかの例では、システムは、少なくとも1つの訓練セットを入力として取得するように構成されている可能性がある。特に、訓練セットは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含む可能性があり、第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して相対的に表す情報、又は訓練セット中の別のオーディオ・サンプルのものに対して相対的に表す情報でラベル付けされている。更に、システムは、訓練セットを、システムに入力し;及び複数の損失関数に基づいて訓練セット中のオーディオ・サンプルのそれぞれのラベル情報を予測するように、訓練セットに基づいてシステムを反復的に訓練するように構成されている可能性があり、複数の損失関数は、訓練セット中のオーディオ・サンプルのラベル情報とそれら各自の予測との間の差分を反映するように生成されている。
【0033】
本開示の別の態様によれば、入力オーディオ・サンプルのオーディオ品質の指標を決定するディープ・ラーニング・ベースの(例えば、ニューラル・ネットワーク・ベースの)システムを動作させる方法が提供される。システムは、上述の例示的なシステムのうちの任意の1つに対応していてもよく;システムは、上述の例示的な方法のうちの任意の1つに従って訓練される可能性がある。例えば、システムは符号化ステージと評価ステージとを含む可能性がある。特に、方法は、符号化ステージにより、入力オーディオ・サンプルを特徴空間表現にマッピングするステップを含む可能性がある。方法は、評価ステージにより、所定のオーディオ品質メトリックを表す情報と、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報とを、特徴空間表現に基づいて予測するステップを更に含む可能性がある。当業者に理解され認められるように、本件で使用される参照オーディオ・サンプルは、必ずしも必須ではないが、訓練セット内の別のオーディオ・サンプルであってもよい。言い換えると、参照オーディオ・サンプルは、外部参照オーディオ・サンプル(即ち、訓練セット内には無いもの)又は内部参照オーディオ・サンプル(即ち、訓練セット内に有るもの)であってもよい。更に、参照オーディオ・サンプルは、任意の適切なオーディオ・サンプルであってもよく、例えば、予め定義又は予め決定されている、(比較の際の)参照として役立つように使用されることが可能なものであってもよく、その結果、広義には、オーディオ・サンプルを参照オーディオ・サンプルと比較することによって、相対的なメトリックを決定(例えば、計算)することが可能である。更に、予測された情報(例えば、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを示すもの)が、システムを更に訓練(正則化)するために使用されてもよい。
【0034】
本開示の別の態様によれば、コンピュータ・プログラムが提供される。コンピュータ・プログラムは命令を含むことが可能であり、命令は、プロセッサによって実行されると、本開示全体を通じて説明された例示的な方法の全てのステップを、プロセッサに実行させる。
【0035】
更なる態様によれば、コンピュータ読み取り可能な記憶媒体が提供される。コンピュータ読み取り可能な記憶媒体は、前述したコンピュータ・プログラムを記憶することが可能である。
【0036】
更に別の態様によれば、プロセッサとプロセッサに結合されたメモリとを含む装置が提供される。プロセッサは、本開示全体を通じて説明された例示的な方法の全てのステップを、装置に実行させるように構成されることが可能である。
【0037】
システムの特徴及び方法のステップは、多くの方法で可換であり得ることが理解されるであろう。特に、当業者が理解するように、開示された方法の詳細は、対応するシステムによって実現されることが可能であり、その逆も可能である。更に、方法に関する上記の如何なる説明も、対応するシステムに同様に適用されるように理解され、その逆も可能であると理解される。
【図面の簡単な説明】
【0038】
以下、本開示の例示的な実施形態を、添付図面を参照しながら説明する。
図1A図1Aは、本開示の実施形態によるオーディオ品質評価のためのシステムのブロック図の概略図である。
図1B図1Bは、本開示の実施形態によるオーディオ品質評価のためのシステムの別のブロック図の概略図である。
図2図2は、本開示の実施形態による、オーディオ入力の音声品質の指標を決定ディープ・ラーニング・ベースのシステムを訓練する方法の一例を示すフローチャートである。
図3図3は、本開示の実施形態による、入力オーディオ・サンプルのオーディオ品質の指標を決定するディープ・ラーニング・ベースのシステムを動作させる方法の一例を示すフローチャートである。
図4図4は、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図5図5は、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図6A図6Aは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図6B図6Bは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図6C図6Cは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図7A図7Aは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図7B図7Bは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図8A-8B】図8A図8Bは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図8C図8Cは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図8D図8Dは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図8E図8Eは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
図8F図8Fは、本開示の実施形態に基づく様々な結果及び比較を示す例示的な説明図である。
【発明を実施するための形態】
【0039】
図面(Figs.)及び以下の説明は、例示としての好ましい実施形態に関連しているだけである。以下の説明から、本件で開示される構造及び方法の代替的な実施形態は、クレームされているものの原理から逸脱することなく使用されることが可能な実行可能な代替例として容易に認識されるであろう、ということに留意すべきである。
【0040】
本件では幾つもの実施形態が詳細に参照され、その例示が添付図面に示されている。可能な限り、類似の又は同様な参照番号が図中で使用される場合があり、それらは類似の又は同様な機能を示す可能性があることに留意を要する。図面は、開示されたシステム(又は方法)の例示のみを目的とした実施形態を示す。当業者は、本件で示される構造及び方法の代替的な実施形態が本件で説明される原理から逸脱することなく使用される可能性がある、ということを以下の説明から容易に理解するであろう
【0041】
一般的に言えば、チャネル歪を監視すること、ないし新しい処理アルゴリズムを開発することまでの幅広い用途とともに、品質評価はオーディオ業界では不可欠である。伝統的に、品質評価は、金銭、時間、及びインフラストラクチャに関するかなりの投資を用いて、標準の又は専門的なリスナーから取得されている。本件の開示では、このような品質評価を提供する自動ツールが提案されている。
【0042】
オーディオ品質を測定する自動ツール(又はアルゴリズム)の目的は、前述の投資を克服する、人間による評価の信頼できる代役(reliable proxy)を得ることである。オーディオ・ファイルのスピーチ品質を測定するための自動ツールが幾つか存在する。何らかの入力オーディオが与えられた場合、このようなツールは、典型的には1ないし5の間のスコアを生み出し、これはオーディオ品質の何らかの主観的評価に関連している。
【0043】
これらのツール間の1つの区別の仕方は、それらが比較のために参照(クリーン)オーディオを使用するかどうか(負担をかける方式_対_負担をかけない方式)(intrusive vs.non-intrusive)である。別の区別の仕方は、それらが手作業で作成されているか/予め定義されているか、又はデータから学習されているかである。更に考慮すべきことは、分析される予定のオーディオの範囲と、特定の劣化又は歪(測定はこれらを検出することができる)である。
【0044】
従って、本開示の重要な要素(key driver)は、平均オピニオン・スコア(MOS)のような、オーディオ品質の慣例又は評価尺度との相関性を超えて、追加的な評価基準/タスクが考慮されるべきである、ということに気付くことである。それは特にこのような追加的な評価基準から学習するように決定される。本開示の別の基本態様は、これらの基準を補足し、スピーチ品質及びスコアのより堅牢な表現を学習することに役立つことが可能な更なる課題、データ・セット、及びタスクが存在する、ということを認識させるものである。
【0045】
これらの観点から広く言えば、本開示は、負担をかけない品質評価をもたらすニューラル・ネットワークを訓練する方法を提案する。評価はデータから学習されるので、ニューラル・ネットワークが訓練される際のオーディオ・タイプを変更することにより、フォーカスは再設定されることが可能であり、学習する対象の劣化を選択することも可能である。特に、提案される方法は、一般的には、半教師あり学習であり、これは、人間のリスナーから得られる評価(例えば、人間が注釈を付けたデータに組み込まれているものであり、しばしばラベル付けされたデータとも言及される)及び生の(評価されていない)オーディオの両方を入力データ(しばしばラベル付けされていないデータとも言及される)として活用できることを意味する。このようにして、高価で時間のかかるリスナー・データの必要性を緩和することができる。複数のソースからの学習に加えて、提案される方法はこれらのソースの複数の特徴付けからも学習し、従って、はるかに一般的な自動測定に導く。提案される方法(及びシステム)の追加的な設計原理は、軽量で高速な動作、本質的に完全に微分可能なであること、及び、例えば48 kHzでのような短時間の生のオーディオ・フレームを処理する能力(従って、時間変化する動的な推定をもたらす)を含む可能性があるが、これらに限定されない。
【0046】
図1Aを参照すると、本開示の実施形態によるオーディオ品質評価のためのシステム100の(簡略化された)ブロック図の概略図が示されている。システム100は、符号化ステージ(又は単にエンコーダと称する)1010と、評価ステージ1020とで構成されてもよい。図1Aの例に示されるように、評価ステージ1020は、しばしばHとして(集合的に)示される一連の「ヘッド」1021,1022及び1023を含んでいてもよい。様々なヘッドは、図1Bを参照しながら以下において詳細に説明される。大まかに言えば、各ヘッドは、それぞれのオーディオ・サンプル(フレーム)に関連付けられたそれぞれのラベル情報(例えば、絶対品質メトリック、又は相対品質メトリック)の決定に適した個々の計算ユニットとして考えられてもよい。一般に、エンコーダ1010は、生の入力オーディオ信号(例えば、オーディオ・フレーム)x 1000を取り込み、それらを、例えば潜在空間表現(ベクトル)z 1005にマッピング(又は変換)することが可能である。次いで、様々なヘッドは、これらの潜在ベクトルz 1005を取り込み、1つ以上の考慮される基準(1025として例示的に示されている)についての出力を計算することが可能である。特に、幾つかのケースでは、ペア{zi,zj}を取り扱う場合に、ヘッドは、それらの連結(又はその他の適切な形式)を入力として取り込むことが可能である。
【0047】
エンコーダ1010は、幾つかの例では、図1Aに示されるように、4つのメイン・ステージから構成されていてもよい。先ず、エンコーダ1010は、学習可能なμを用いて、μ-law公式(例えば、量子化を伴わないもの)を適用することによって、x 1000の分布を変換することが可能である。一般に、μ-lawアルゴリズム(「mu-law」と書かれる場合もある)は、コンパンディング(companding)アルゴリズムであり、例えば、8ビットPCMデジタル通信システムで主に使用されている。特に、コンパンディング・アルゴリズムは、オーディオ信号のダイナミック・レンジを低減させるために使用することが可能である。アナログ・システムでは、これは、伝送中に達成されるSNRを増加させることができる一方、デジタル領域では、量子化誤差を減少させることができる(従って、信号対量子化雑音比を増加させる)。例えば、μの値は、最初に8に初期化されていてもよい。次に、ブロック1001が使用されてもよく、これは、幾つかの例では、一連の(例えば、4つの)プーリング・サブ・ブロックを含むことが可能であり、これは、畳み込み、バッチ正規化(batch normalization,BN)、正規化線形ユニット(rectified linear unit,ReLU)活性化、BlurPool、又はその他の任意の適切なブロック/モジュールから構成されている。限定ではく一例として、カーネル幅4及びダウンサンプリング因子4を有する32,64,128,及び256個のフィルタが使用されてもよい。もちろん、当業者に理解されるように、任意の他の適切な実装も同様に使用することができる。例えば、畳み込みに対する可能な代替例は、線形層、リカレント・ニューラル・ネットワーク、アテンション・モジュール、又はトランスフォーマ(transformers)を含むが、これらに限定されない。バッチ正規化に対する可能な代替例は、レイヤ正規化、インスタンス正規化、又はグループ正規化を含むが、これらに限定されない。幾つかの他の実装では、バッチ正規化は完全に省略されてもよい。ReLUに対する可能な代替例は、シグモイド・ゲート、tanhゲート、ゲート付きリニア・ユニット、パラメトリックReLU、又はリーキーReLUを含むが、これらに限定されない。BlurPoolに対する可能な代替例は、ストライド、maxプーリング、又は平均プーリングを用いる畳み込みを含むが、これらに限定されない。前述の代替的な実装は、当業者が認めるように、必要に応じて又は実現可能性に応じて、互いに組み合わせることが可能である、ということが更に理解される。
【0048】
次に、ブロック1002が使用されてもよく、これは、幾つかの例では、BN先行活性化により形成される複数の(例えば、6つの)残差ブロック(residual blocks)と、その後に続く3ブロック(ReLU、畳み込み、BNによるもの)を含んでもよい。限定ではなく一例として、カーネル幅1、3、及び1を有する512、512、及び256個のフィルタが使用されてもよく、パラメトリック線形平均化による残差接続は次のように行われる:
【数1】

ここで、a’は0ないし1の間の学習可能なパラメータのベクトルであり、Fは残差ネットワークである(例えば、aの成分は3に初期化されてもよく、その結果、訓練はhからh’へほとんどバイパスすることから始まる)。残差ブロック1002の後、時間的統計量がブロック1003において計算されてもよく、例えばチャネル毎の平均及び標準偏差をとる。このステップは、全ての時間的情報を、単一のベクトル(例えば、2×256次元)に集約することが可能である。続いて、ブロック1004において、BNがそのようなベクトルに関して実行され、次いで、中央のReLU活性化を使用して、例えばBNを伴う2つの線形層によって形成される多層パーセプトロン(MLP)に入力されてもよい。限定ではなく一例として、1024及び200個のユニットが使用されてもよい。
【0049】
次に、図1Bを参照すると、本開示の実施形態によるオーディオ品質評価のためのシステム110のより詳細なブロック図の概略図が示されている。特に、図1Bのシステム110における同一又は類似の参照番号は、図1Aに示されるようなシステム100における同一又は類似の要素を示し、そのため、それらの繰り返しの説明は、簡潔性の理由から省略することが可能である。特に、図1Bの例示的なシステム110では、評価ステージ1120に焦点が当てられており、ここで、ヘッドの様々な学習/訓練基準が以下で詳細に説明される。
【0050】
図1Bのシステム110を参照すると、大まかに言えば、(畳み込み)ニューラル・ネットワークを訓練することが可能であり、これは、オーディオ入力x 1100を(低次元の)潜在空間表現z 1105に変換することが可能であり、後者は単一の値のスコア1140を出力することが可能である。図1Aに示されているものと同様に、ネットワーク/システムは、2つのメイン・ブロック(ステージ)、即ち潜在ベクトルz 1105を出力する符号化ステージ(又はエンコーダ・ネットワークとしばしば言及される)1110と、潜在ベクトルz 1105を更に処理する複数の様々な「ヘッド」を含む評価ステージ1120とにより形成されてもよい。特に、ヘッドのうちの1つは、最終スコアs 1140を生成することを担当し、残りのヘッドは、潜在空間を正則化するために一般的に使用される(これらは、訓練される量に対する予測子(predictors)として使用することも可能である)。
【0051】
図1Aのものと同様に、符号化ステージ1110は、オーディオのμ-law対数表現をとり込み、それを一連の畳み込みブロックに渡すことができる。例えば、最初に、複数のBlurPoolブロック(例えば、1101)が、信号をより低い時間スパンまでデシメートしてもよい。次いで、複数のResNetブロック(例えば、1102)が、取得した表現を更に処理してもよい。次いで、オーディオ・フレームを要約するために、平均、標準偏差、最小、及び最大のような時間的統計量(例えば、1103)がとられてもよい。最後に、MLP (例えば、1104)を使用して、これらの統計量とz値1105との間のマッピングを実行してもよい。
【0052】
様々なヘッドは、ベクトルz 1105をとり込み、様々な量1121-1128を予測することができる。一般に、訓練時間において、全てのヘッドは、スコアs 1140又は潜在空間z 1105の何れかに対する望ましい特性を刷り込む(imprinting)損失関数を有することが可能である。
【0053】
特に、スコアsは、当業者に認められるように、任意の適切な方法で計算されてもよい。スコアsがどのように計算することができるかに関する幾つかの可能な例は、例えば、本件に含まれる付録のセクションAに与えられている。
【0054】
次に、図1Bのシステム110に関連して、可能なヘッド及びそれら各自の損失関数に対応する様々な可能な学習又は評価基準の例を、以下において詳細に説明する。これらの基準のうちの幾つかは、場合によっては、補助的なタスクとして考えられてもよい。言い換えると、システムの訓練を実行する際に、必ずしも全ての基準が使用されるわけではなく、幾つかの基準は、様々な実装及び/又は要件に応じて、省略又はバイパスされてもよい。もちろん、当業者に理解され認められるように、基準(又はヘッド)は、本件で説明されるものに限定されず、任意の特定のケースに拡張又は適合されることが可能である。
【0055】
平均オピニオン・スコア
従来のアプローチで考慮される原則的でほとんど固有の基準は、MOSエラーであるかもしれない。幾つかのケースでは、これは、単にスコア・ヘッド1121と称されてもよい。一般に、このスコア・ヘッドは、z 1105を入力として取り込み、それを例えば線形層(MLP又は任意の他の適切なニューラル・ネットワークで有るとすることが可能である)1131を通過させて、単一の品質スコア値sを生成することができる。一例として、このようなスコアは、シグモイド関数で境界を定められ、例えば、1ないし5(例えば、5が最も高い品質である)の間にあるように再スケーリングされることが可能である。また、このヘッドの損失を計算するために、例えば、利用可能であれば、人間のリスナーによって提供される評価が使用されてもよい。代替例は、他の既存の品質尺度(参照ベースによるもの又は参照によらないもの)によって提供される評価を使用することであってもよい。言い換えると、大まかに言えば、損失関数は、MOSエラー・メトリックを表す第1の損失関数を含んでもよく、第1の損失関数は、訓練セット内のオーディオ・サンプルのMOSグランド・トゥルースとオーディオ・サンプルの予測との間の差分に基づいて計算されてもよい、と考えられてもよい。
【0056】
より具体的に(制限としてではなく)、学習ベースのアプローチでは、通常、教師あり回帰問題が、次のように設定される:
【数2】

ここで、si * 1141はMOSグランド・トゥルースであり、siはモデルにより予測されるスコアであり、|| ||は何らかのノルムに対応する。例えば、L1ノルム(平均絶対誤差)又は適切な任意の他のノルムが使用されてもよい。
【0057】
一例において、システム110は、例えば、線形ユニット及びシグモイド活性化σを使用することによって、スコアsiを潜在表現ziから予測することができる:
【数3】

ここで、例示的な係数1及び4は、スコアを1と5の間のMOS値に適合させるためのものである。潜在表現ziは、ニューラル・ネットワーク・エンコーダ1110を介して、生のオーディオ・フレームxiを符号化することによって取得されてもよい。
【0058】
ペアワイズ・ランキング
MOSの他に、品質評価において直感的ではあるがしばしば見過ごされる考え方は、ペアワイズ・ランキングであるかもしれない。場合によっては、これは、単にランク・ヘッド1122と称されてもよい。一般的に言えば、このペアワイズ・ランキング・ヘッド1122は、例えば、スコアのペア、例えばs1,s2を入力として取り込むことが可能であり、これらは、オーディオx1,x2を処理した後に、先行するスコア・ヘッドから得られるものであってもよい。次いで、利用可能であれば、どのオーディオがより多く(又はより少なく)劣化しているかをシグナリングするフラグ(例えば、ラベル情報)を使用して、ランク・ベースの損失を計算することが可能である。例えば、損失は、x1がx2より多く劣化/破壊されている場合に、s2より低いs1に働きかけるかもしれない(又はその逆も可能である)。換言すれば、大まかに言えば、損失関数は、ペアワイズ・ランキング・メトリックを表す第2の損失関数を含んでもよく、第2の損失関数は、相対的な劣化情報を含むラベル情報(例えば、ラベル情報によって設定されるランキング)とその予測との間の差分に基づいて計算されてもよい、と考えることが可能である。
【0059】
より具体的に(限定としてではなく)、ペアワイズ・ランキングの考え方の下で、スピーチ信号xjが、同じ(元の「クリーン(clean)な」又は「よりクリーンな(cleaner)」)発声xiについてのプログラム的に(アルゴリズム的に)劣化させたバージョンである場合、それらのスコアは、そのような関係を反映すべきであり、即ち、si≧sjである。そして、この考え方は、ラーニング・ツー・ランク戦略(learning-to-rank strategies)を考慮することによって、訓練方式に導入されてもよい。一例において、これは次のようなマージン損失式に従ってもよい:
【数4】

ここで、α=0.3(又は適切な他の任意の値)がマージン定数として使用されてもよい。
【0060】
一例において、ペア{xi,xj}1142は、「クリーンな」スピーチ(又は参照スピーチとも呼ばれる)を有する幾つかのデータ・セット及び幾つかの劣化関数のプールを考慮することによってプログラム的に生成されてもよい。
【0061】
ペアの{xi,xj}1142は、任意の適切な手段で生成されてもよい。限定ではなく一例として、全てのペアを形成するために、以下のように進行してもよい:
・データ・セットを一様にサンプリングし、そこからファイルを一様にサンプリングする。
・サイレント又は大部分がサイレントなフレームを避けながら、1.1秒(又は適切な他の任意の長さ)のフレームを均一にサンプリングする。それを最大絶対振幅が1になるように正規化する。
・確率0.84,0.12,0.04で、利用可能な劣化のプールの中から、0,1,又は2の劣化をサンプリングする(詳細は後述)。ゼロの劣化の場合、信号は直ちにxiになる。そうでない場合、各々の劣化に対する強度は、均一に選択され、xiを生成するように順に適用されることが可能である。
・確率0.75,0.2,0.04,0.01で、利用可能な劣化のプールの中から、1,2,3,又は4の劣化をサンプリングする。強度を均一に選択し、それらをxiに適用して順にxjを生成する。
【0062】
上記の確率を含む上記の実装は、如何なる限定も伴うことなく、単に説明の目的に役立っているに過ぎないことが理解されるべきである。当業者に理解されるように、任意の他の適切な確率又は実装が、それらに適用されてもよい。
【0063】
次いで、生成されたペア{xi,xj}は、劣化タイプ及び/又は強度の情報(例えば、ラベル情報として記憶される)と共に記憶されてもよい。
【0064】
ペアを生成する可能な手段に関する追加情報は、例えば、本件に含まれる付録のセクションB.3にも見出すことが可能である。
【0065】
追加的又は代替的に、ランダム・ペアは、例えば(人間により)注釈されたデータから収集されてもよく、例えば対応するs*に応じてインデックスi及びjを割り当て、そのため、より大きなs*を有するペアの要素がインデックスiを獲得してもよいし、又はその逆も可能である。注釈付きデータに由来するペアの場合、マージン定数は、例えば、α’=min(α,si*-sj*)又は任意の他の適切な値として設定されてもよい。
【0066】
スコア一貫性
一貫性は、オーディオ品質評価において見過ごされている別の考え方でもある。一般的に言えば、一貫性ヘッド1123は、オーディオx1,x2にそれぞれ対応するスコアs1,s2のペアを入力として取り込むことが可能である。次いで、利用可能であれば、オーディオが同じ劣化タイプ及び/又はレベルを有スル可能性があるかどうかをシグナリングするフラグ(例えば、ラベル情報)を使用して、距離ベースの損失を計算することができる。例えば、損失は、x1がx2と同じ歪/劣化を同じレベルで有する場合に、s2により近づくようにs1に働きかけてもよい(幾つかのケースでは、必要ならば、類似する元の内容がx1,x2双方に存在することが仮定されていてもよい)。また、異なる劣化x 1,x 2を有する類似する実現x1,x2もまた、ともに近接している可能性があるように(例えば、x1と x 1, x2, とx 2)働きかけてもよい。換言すれば、広義には、損失関数は、一貫性メトリックを表す第3の損失関数を含んでもよいこと、及び、第3の損失関数は、知覚的関連情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよいこと、が考えられてもよい。
【0067】
より具体的に(限定としてではなく)、スコアの一貫性の考え方の下で、2つの信号xk,klが(本質的に)同じソースから抽出され、僅か数個のオーディオ・サンプルだけしか相違していない場合、又は、2つの信号xk,klの差分が知覚的に無関係である場合には、それらのスコアは本質的に同一であるべきであり、即ち、sk=slである。補足的に、2つの信号xi,xjが知覚的に区別可能である場合、それらのスコアの差分は、所定の(例えば、予め定められた)マージンを上回るべきであり、即ち、
|si-sj|≧β
である。これら2つの考え方は、例えば、スコア差分のペア同士の間の一貫性を考慮することによって、ペアのペアに更に拡張されてもよいことに留意されたい。1つの可能な実装では、第1の考え方は、次のように拡張することが可能である:2つの信号xik,xjkがあり、これらはそれぞれxil,kjlと知覚的に同一である場合(xjはxiより多く劣化しており、信号k,lはそれらから取り出される)、スコア差分は等しくなる傾向があり、即ち、sik-sjk=sil-sjl である。
【0068】
一例では、上記の3つの考え方の全てを考慮に入れた場合、一貫性損失は以下のように提案される可能性がある:
【数5】

ここで、β=0.1(又は適切な他の任意の値)は別のマージン定数である。
【0069】
特に、オーディオ・フレーム/信号のペア{xi,xj}1142は、ペアワイズ・ランキングの計算中に上述のように、又は他の任意の適切な手段において生成されてもよい。更に、オーディオ・フレームの4つ組{xik,xil,xjk,xjl}1142は、例えば、ランダムな小さな遅延(例えば、100ms未満)を用いてペアxi,xjからそれらを抽出することによって、生成されてもよい。限定としてではなく一例として、所与のペア{xi,xj}から各々の4つ組を形成するために、以下のように進行してもよい:
・0ないし100 msの間の時間遅延を均一にサンプリングする。そのような遅延を使用して、xiから1sのフレームxik,xilを抽出し、同じことをxjからのxjk,xjlについて実行する。
【0070】
上記と同様に、生成された4つ組{xik,xil,xjk,xjl}は、劣化タイプ及び/又は強度の情報(例えば、ラベル情報として記憶される)と共に記憶されてもよい。
【0071】
4つ組を生成するための可能な手段に関する追加情報は、例えば、本件に含まれる付録のセクションB.3にも見出すことが可能である。
【0072】
追加的又は代替的に、ペア{xi,xj}及び/又は{xk,xl}は、(予め決定されている)JNDデータ・セット1143から取り込まれてもよく、また、4つ組{xik,xil,xjk,xjl}は、次いで、それらのペア{xi,xj}及び/又は{xk,xl}から生成されてもよい。
【0073】
異/同条件
上述のようにLCONSに関してプログラムにより生成されたデータを用いて、(本質的に)同じ劣化条件に対応する信号のペア、即ち、同じ劣化タイプ及び(選択的に)同じ強度を受ける信号のペアに関して情報を提供することも可能である。換言すれば、広義には、損失関数は、劣化条件メトリックを表す第4の損失関数を含んでもよく、第4の損失関数は、相対的な劣化情報を含むラベル情報とその予測値との間の差分に基づいて計算されてもよいと考えることが可能である。
【0074】
次いで、1つの可能な例において、この情報は、ヘッド1124における分類損失を考慮することによって含められてもよい:
【数6】

ここで、BCEはバイナリ・クロス・エントロピーを表し、δSD∈{0,1}は、潜在ベクトルzu,zvが同じ条件に対応しているかどうかを示し
【数7】

Hは、例えば、2つのベクトルの連結をとることが可能であり且つ単一の確率値を生成することが可能な小さなニューラル・ネットワーク1132であってもよい。
【0075】
丁度可知差異
上述したように、知覚的な相違(又は関連性)に関する人間の注釈を伴う信号のペアが、訓練セットからアクセス可能又は利用可能であり得る場合、知覚的な相違(又は関連性)の考え方は、例えば、ヘッド1125における別の分類損失とともに、潜在空間で更に強制されてもよい:
【数8】

ここで、δJND∈{0,1}は、潜在表現zu,zvがJDNに対応しているかどうかを示す。BCE (バイナリ・クロス・エントロピー)及びH(小規模なニューラル・ネットワーク1133)は、上述されたものと同一又は類似であってもよく、又は適切な任意の他の形態におけるものであってもよい。
【0076】
換言すれば、大まかに言えば、損失関数は、JND測定量を表す第5の損失関数を含んでもよく、第5の損失関数は、相対的な知覚的差異を含むラベル情報とその予測との間の差分に基づいて計算されてもよい、と考えることが可能である。
【0077】
劣化タイプ
プログラム的に生成されたデータの別の利点は、クリーンと考えられる又は顕著な劣化を伴わない信号からスタートする場合、どの劣化が適用されているかを知ることができる、ということである。従って、大まかに言えば、この劣化タイプ・ヘッド(しばしば、分類ヘッドとも称される)1126は、潜在ベクトルzを取り込み、(例えば、MLP 1134を介して)それらを更に処理して、確率出力を生成することができる。それは、利用可能である場合に、元のオーディオにおける歪のタイプをシグナリングするフラグ(例えば、ラベル情報)を使用して、バイナリ・クロス・エントロピーを更に計算することが可能である。換言すれば、広義に言えば、損失関数は、劣化タイプ・メトリックを表す第6の損失関数を含んでもよく、第6の損失関数は、それぞれの劣化関数情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよい、と考えることが可能である。
【0078】
より具体的には、1つの可能な実装では、多クラス分類損失は以下のように構築されてもよい:
【数9】

ここで、δn DT∈{0,1}は、潜在表現zが劣化nを含むかどうかを示す。BCE (バイナリ・クロス・エントロピー)及びH(ニューラル・ネットワーク1134)は、上述したものと同一又は類似であってもよく、又は適切な多の任意の形態であってもよい。幾つかの例では、劣化が存在しないケースも、n個の可能性のうちの1つとして含まれてもよく、従って、そのバイナリ・クリーン/劣化分類器を構成しているように理解される。
【0079】
劣化強度
一般的に言えば、この劣化強度ヘッド1127(しばしば、上述した分類ヘッド1126から区別可能であるように劣化ヘッドとも呼ばれる)は、潜在ベクトルzを取り込み、(例えば、MLP 1135により)それらを更に処理して、例えば1ないし5の間の値のような出力を生成することが可能である。次いで、利用可能であれば(例えば、利用可能なラベル情報から)オーディオに導入されている劣化のレベルを用いて回帰ベースの損失を計算することが可能である。幾つかの実装では、劣化のこのレベルは、ネットワーク/システムの訓練の前に適用されている(自動)劣化アルゴリズムからログに記録(記憶)されてもよい。換言すれば、広義に言えば、損失関数は、劣化強度メトリックを表す第7の損失関数を含んでもよく、第7の損失関数は、それぞれの劣化強度情報を含むラベル情報とその予測との間の差分に基づいて計算されてもよい、と考えることが可能である。
【0080】
より具体的に(限定としてではなく)、信号に劣化を適用する時点において、対応する劣化強度も通常的には決定(及びそれに適用)されることが可能である。従って、可能な例では、対応するリグレッサー(regressors)が次のように追加されてもよい。
【数10】

ここで、ζn DS∈[0,1]は、劣化nの強度を示す。
【0081】
その他の品質評価尺度
最後に、ペア{xi,xj}が生成されているので、これらのペアにわたるその他の又は従来の参照ベース(又は参照フリー)の品質尺度を計算し、それらから学習することが常に可能である。
【0082】
一般的に言えば、この回帰ヘッド1128は、潜在ベクトルzを取り込み、(例えば、MLP 1136により)それらを更に処理して、利用可能な代替的なメトリック、又は利用可能である場合に想定されるオーディオのために事前に算出されている代替的なメトリック、と同程度に多い出力を生成することが可能である。換言すれば、大まかに言えば、損失関数は、回帰メトリックを表す第8の損失関数を含んでもよく、回帰メトリックは、参照に基づく及び/又は参照に基づかない品質尺度のうちの少なくとも1つに従って計算されてもよい、と考えることが可能である。
【0083】
一つの可能な実装において、回帰損失のプールは、次のようにして実装されてもよい:
【数11】

ここで、
【数12】

は、{xi,xj}に関して計算された尺度mの値である。幾つかの例において、ζm MRは、ゼロ平均及び単位分散を有するように、訓練データに基づいて、必要に応じて正規化されてもよい。参照に基づいた品質尺度の幾つかの可能性のある具体例は:スピーチ品質の知覚的評価(PESQ)、信号のコンポジット尺度(CSIG)、雑音のコンポジット尺度(CBAK)、全体的品質のコンポジット尺度(COVL)、セグメント信号対雑音比(SSNR)、対数尤度比(LLR)、加重傾斜スペクトル距離(WSSD)、短期的客観的明瞭性(STOI)、スケール不変信号歪比(SISDR)、メル・ケプストラム歪、及び対数メル帯域歪を含む可能性があるが、これらに限定されない。もちろん、当業者に認められるように、任意の他の適切な参照に基づく品質尺度及び/又は参照に基づかない品質尺度が使用されてもよい。
【0084】
特に、訓練セット内の各オーディオ・サンプルは、上記で説明した複数の損失関数のうちの1つ以上(必ずしも全てではない)で使用される可能性がある、ということが理解されるべきである。即ち、訓練セット内のオーディオ・サンプルのうちの一部が、1つ以上の損失関数によって再利用又は共用されてもよい。これもまた図1Bにおいて反映され示される。例えば、スコア一貫性ヘッド(メトリック)1123を表す損失関数を計算するための(アルゴリズム的に生成された)オーディオ・サンプル1142は、劣化条件ヘッド(メトリック)1124を表す損失関数を計算する場合に再利用されてもよく、又はその逆も可能である。従って、システムの訓練における効率は、著しく改善される可能性がある。更に、場合によっては、複数の損失関数のうちの1つ以上に基づいて、例えばそれらの損失関数に関する平均化プロセスを利用することによって、訓練プロセスのための最終的な(全体的な)損失関数を生成するように更に構成されてもよい、ということに留意すべきである。当業者に認められるように、様々な実装及び/又は要件に応じて、任意の数の適切な損失関数に基づいてそのような最終的な損失関数を生成するために、適切な他の任意の手段又はプロセスを使用することが可能である。
【0085】
また、上記で説明された複数のヘッド1121-1128は、(おそらくは全てが終端にBNを備える)適切な任意の数のユニット(例えば、400個)を備えるMLP(例えば、2層MLP)又は線形層の何れかから構成されてもよい、ということに更に留意を要する。場合によっては、ヘッドではなくエンコーダに働きかけるために単純なヘッドを使用して、限られた能力しか有しないネットワークでさえ首尾良く利用できる上位レベル特徴(high-level features)を学習することが好ましいかもしれない。場合によっては、線形層又はMLPのどちらを使用するかの決定は、補助的な作業が適切であればあるほど、ヘッドが有するべき能力は少ない、というアイディアに基づいていてもよい。このように、一部の実装では、スコアs(即ち、1131)及びJND及びDTヘッド(即ち、それぞれは1133及び1134である)に対する線形層は、経験的に選択されてもよい。これら3つのヘッドに対する線形層を設定することは、関心のある特性を潜在空間に与えることができ、s及びLJNDに起因する潜在表現の間の「距離」をそれに反映させ、LDTに起因する劣化タイプのグループ化/クラスター化を促す、ということに留意されたい。もちろん、当業者に認められるように、適切な他の任意の構成が適用されてもよい。
【0086】
図2は、本開示の実施形態によるオーディオ入力のオーディオ品質の指標を決定するディープ・ラーニング・
ベース(例えば、ニューラル・ネットワーク・ベース)のシステムを訓練する方法200の一例を示すフローチャートである。システムは、例えば、図1Aに示されるようなシステム100、又は図1Bに示されるようなシステム110と同一又は類似のものであってもよい。
【0087】
特に、方法200は、入力として、オーディオ・サンプルを含む少なくとも1つの訓練セットを取得することによって、ステップS210から始まる。より詳細には、オーディオ・サンプルは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含み、第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのもの(例えば、訓練セット中の別のオーディオ・サンプルのもの)に対して相対的に表す情報でラベル付けされている。上述したように、ここで使用される参照オーディオ・サンプルは、訓練セット内の別のオーディオ・サンプルであってもよいが、必ずしも必須ではない。言い換えると、参照オーディオ・サンプルは、当業者に理解され認められるように、外部参照オーディオサンプル(即ち、訓練セット内に無いもの)又は内部参照オーディオ・サンプル(即ち、訓練セット内に有るもの)であってもよい。
【0088】
(適切なラベル情報と共に)必要なオーディオ・サンプルを含むこのような訓練セットは、当業者に認められるように、適切な任意の方法で取得(生成)されることが可能である。例えば、第1のタイプのオーディオ・サンプルについては、人間が注釈を付けたオーディオ・データ(サンプル、信号、フレーム)が使用されてもよく、これは、内的に(例えば、オーディオ専門家、通常のリスナー、又は機械的なターカー(turker)によって)又は外的に(例えば、公的に利用可能なデータ・セットを使用して)取得されてもよい。具体例として、このような人間が注釈を付けたオーディオ・データは、MOSデータ、JNDデータ等であってもよい。なお、人間が注釈を付けたものとして使用される可能性のあるデータ・セットに関する更なる情報は、例えば、本件に含まれる付録のセクションB.1及びB.2にも見出すことが可能である。一方、第2のタイプのオーディオ・サンプルについては、プログラムにより生成されたオーディオ・データ(サンプル、信号、フレーム)を使用することが可能であり、そのうちの幾つかの例は上記で説明されている。プログラム的に生成されるものとして使用される可能性のあるデータ・セットに関する更なる情報は、例えば、本件に含まれる付録のセクションB.3節にも見出すことが可能である。
【0089】
方法200は、次いで、図1Aにおける入力x 1000又は図1Bにおけるx 1100のような訓練セットを、ディープ・ラーニング・ベース(ニューラル・ネットワーク・ベース)のシステムに入力することによって、ステップS220に続く。
【0090】
続いて、方法200は、訓練セット中のオーディオ・サンプルのそれぞれのラベル情報を予測するように、システムを反復的に訓練するステップS230を実行する。特に、図1Bを参照しながら上述したように、訓練は複数の損失関数に基づいていてもよく、複数の損失関数は、訓練セット中のオーディオ・サンプルのラベル情報とそれら各自の予測との間の差分を反映するように生成されていてもよい。
【0091】
一般的に言えば、ネットワーク/システム全体は、例えば、確率勾配降下法及び逆伝搬を用いて、エンド・ツー・エンドで訓練されることが可能である。訓練の前に、オーディオ・サンプルのプールが上述したように取り込まれてもよく、それらに対して幾つかの劣化が実行されてもよい。当業者に認められるように、それに適用される種々の適切な劣化は、残響、クリッピング、異なるコーデックを用いてそれらを符号化すること、位相歪、それをリバースすること、(実際の又は人工的な)背景雑音を付加することを含むオペレーション/プロセスを含む可能性があるが、これらに限定されない。幾つかの可能性のある劣化を具体例として以下に示すが、限定としてではない:
・加法的な実際のノイズ(異なるソースから生じる)
・加法的な人工ノイズ(生成された有色ノイズ)
・加法的なトーン/ハム・ノイズ
・オーディオ・リサンプリング
・μ-law量子化
・クリッピング
・オーディオ・リバーシング
・無音挿入
・ノイズ挿入
・減衰挿入
・振幅摂動
・遅延
・等化、帯域通過、帯域除去フィルタリング
・ロー/ハイ・パス・フィルタリング
・コーラス(Chorus)
・オーバードライブ(Overdrive)
・フェイザー(Phaser)
・ピッチ・シフト
・リバーブ(Reverb)
・トレモロ(Tremolo)
・位相歪:Griffin-Lim,ランダム位相,位相シャッフル,スペクトログラム・ホール(spectrogram holes),スペクトログラム畳み込み
・トランスコーディング(オーディオ・コーデックによるコーディング及び再コーディング・バック)
【0092】
特に、劣化は、完全なオーディオ・フレームに又はその一部分だけに、非定常的な方法で適用されることが可能である。また、場合によっては、何らかの既存の(自動)測定が、これらのオーディオのペアに関して実行されてもよい。自動生成されたデータの主な用途は、人間が注釈したデータを補完することであるが、2つのうちの1つによらずに、開示されるネットワーク又はシステムを依然として訓練することができ、最小限の適応性とともに合理的な結果を依然として得ることができる。
【0093】
なお、可能性のある劣化関数及び選択的にそれらの対応する劣化強度に関する更なる情報は、例えば、本件に含まれる付録のセクションCにも見出すことが可能である。
【0094】
システムは、適切な任意のコンフィギュレーション又はセットによる適切な任意の方法で訓練されてもよい。例えば、幾つかの可能な実装では、システムは、RangerQHオプティマイザーにより、例えば、デフォルト・パラメータ及び10-3の学習率を使用することによって、訓練されてもよい。学習率は、ある因子(例えば、訓練のうちの70ないし90%では1/5)によって減衰させられてもよい。更に、汎化を促進し且つパフォーマンスを僅かに改善するように、必要であれば、最後の訓練エポックの間で、確率論的重み平均化が採用されてもよい。一般に、数回の反復の後に、全ての損失は、同様なスケール内にある可能性があるので、損失の重み付けは、実行されない可能性がある。
【0095】
一旦訓練が終了すると、訓練されたシステムは、次いで、入力オーディオに対する品質指標メトリックを決定するために使用され又は動作させられてもよい。ここで、図3を参照すると、本開示の実施形態による、オーディオ入力のオーディオ品質の指標を決定するディープ・ラーニング・ベース(例えば、ニューラル・ネットワーク・ベース)のシステムを訓練する方法300の一例を示すフローチャートが示されている。システムは、例えば、図1Aに示されるようなシステム100、又は図1Bに示されるようなシステム110と同一又は類似のものであってもよい。即ち、システムは、何れかの図に示されているように、適切な符号化ステージと適切な評価ステージとを含むことが可能である。また、システムは、例えば図2に示されるような訓練プロセスを経てもよい。従って、簡潔性の理由から、それらの反復的な説明を省略することが可能である。
【0096】
特に、方法300は、符号化ステージにより、入力オーディオ・サンプルを特徴空間表現(例えば、上述したような潜在空間表現z)にマッピングするステップS310から始まってもよい。
【0097】
次いで、方法300は、評価ステージにより、所定のオーディオ品質メトリックを表す情報と、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報とを、特徴空間表現に基づいて予測するステップ320に続くことが可能である。予測された情報(例えば、参照オーディオ・サンプルに対する相対的なオーディオ品質メトリックの指標)は、図1Bを参照しながら上記で詳細に説明されたように、システムを更に訓練(正則化)するために使用されてもよい。
【0098】
従って、スコア(例えば、図1Bに示されるようなスコアs 1140)のような最終的な品質メトリックを生成することが可能であり、その結果、出力メトリック(又はスコア)は、入力オーディオ・サンプルの品質の指標として使用されることが可能である。上述したように、メトリック(又はスコア)は、1ないし5の間の値のような(例えば、1又は5の何れかが、最高のオーディオ品質を示す)、適切な任意の表現として生成されてもよい。
【0099】
要するに、大まかに言えば、本開示は、半教師ありアプローチに従って、複数の目的変数を組み合わせるスピーチ品質のモデルを学習することを提案する。場合によっては、開示されるアプローチは、半教師ありスピーチ品質評価(又は、略称SESQA)とシンプルに言及されることもしばしばある。特に、本開示は、(理論的には無限の)数量のラベルなしの又はプログラムにより生成されたデータと共に、既存のラベル付きデータから学習し、使用可能な潜在的特徴及び有益な補助出力と共に、スピーチ品質スコアを生成する。スコアと出力は、関連する手がかりがそれら全ての中に存在するというアイディアとともに、多くの相違するが相補的な客観的基準により、マルチタスク設定の中で同時に最適化される。共有される潜在的空間ボトルネックを通じて情報を流すことによって、考慮される対象は協調するように学習し、本質的でない情報を破棄しつつ、より良いより堅牢なロバストな表現を促す。
【0100】
特に、本開示は、幾つかの方法、例えば以下のもの:
・アップロードされたオーディオの品質スコアを取得するためのクラウドAPIとして
・コミュニケーションを監視するツールとして
・コーデック劣化を監視するツールとして
・オーディオ処理アルゴリズムのパフォーマンスを評価するための(例えば、内部の)ツールとして
・深層学習モデル(例えば、ニューラル・ネットワーク・モデル)を訓練又は正規化するための損失関数として
・どのタイプの歪がオーディオ信号に存在するかを知るための特徴抽出器として
利用されることが可能である(但し、これらに限定されない)。
もちろん、当業者に理解され認められるように、適切な他の任意のユース・ケースを利用することが可能である。
【0101】
図4-8はそれぞれ本開示の実施形態に基づく様々な結果及び比較を示す例示である。特に、定量的な比較が、多くの既存の又は従来のアプローチを用いて行われている。特に、比較のために使用される既存のアプローチのうちの幾つかに関する詳細は、例えば、本件に含まれる付録のセクションDに見出すことが可能である。
【0102】
なお、評価のために本開示は一般に3つのMOSデータ・セット、2つの内的なもの及び1つの公に利用可能なものを使用していることに留意を要する。第1の内部データ・セットは、1,109個の録音と合計1.5時間のオーディオから構成され、主にユーザー生成コンテンツ(user-generated content,UGC)を特徴付けている。第2の内部データ・セットは、8,016個の録音と15時間のオーディオから構成され、電話及びVoIP劣化を特徴付けている。第3のデータ・セットはTCD-VoIPであり、これは384個の録音と0.7時間のオーディオで構成され、複数のVoIP劣化を特徴付けている。我々が使用する別のデータ・セットはJNDデータ・セットであり、これは20,797ペアの録音と28時間のオーディオから構成されている。訓練セットの更なる詳細は、例えば、本件に含まれる付録のセクションBに見出すことが可能である。プログラムによるデータの生成のために、本開示は、一般に、内的な及び公のデータ・セットのプールを使用し、78時間オーディオに適合する70,000個のクアドルプルを生成する。更に、合計37個の可能性のある劣化が使用され、これは、加法的な背景雑音、ハム・ノイズ(hum noise)、クリッピング、サウンド効果、パケット損失、位相歪、及び複数のオーディオ・コーデックを含む(更なる詳細は、例えば、本件に含まれる付録のセクションCに見出すことが可能である)。本開示は、次いで、ITU-P563と比較され、特徴損失に基づく2つのアプローチのうちの1つはJND (FL-JND)を使用しており、別の1つはPASE(FL-PASE),SRMR,Auto-MOS,Quality-Net、WEnets,CNN-ELM,及びNISQAを使用している。評価のために、それらのうちの幾つかは、本開示の訓練及び評価パイプラインに適合するように再実装されており、必要/可能であれば、48 kHzで動作するように適合させられている。FL,AutoMOS,NISQAは、一般に、MOS以外の部分的な追加データを利用しており、従って、弱い半教師ありのアプローチであることに留意を要する。ベースライン・アプローチに関する更なる詳細は、例えば、本件に含まれる付録のセクションDに見出すことも可能である。
【0103】
全てのアプローチは、同じ設定の下に置かれ、検証セットに関して最良の最適化ツール(best optimizer)及びハイパー・パラメータを選択している。データ拡張(data augmentation)を実行し、エポック内でMOSデータを再利用することにより、5エポックの間、1秒の弱いラベル付けフレームで訓練される(例えば、エポックは、プログラム的に生成されたデータを完全に通り過ぎるように定義されてもよい)。ランダムなスケーリング、位相反転、及び時間的サンプリングもまた、データ拡張として使用されてもよい。評価には、LMOSとLCONSが使用され、不適切に分類されたランキングの比率RRANKが計算される(説明のためにLRANKの代わりにRRANKが報告される)。更に、我々は合計誤差
ETOTAL=0.5LMOS+RRANK+LCONS
を計算している(異なる範囲を補償するために、0.5のウェイトが導入されている)。5重の交差検証も実行されており、平均誤差が報告される。
【0104】
もちろん、様々な実装及び/又は要件に従って、適切な他の任意の訓練データ・セット及び/又は評価手段が採用されてもよい、ということが理解されるべきである。
【0105】
これらの結果によれば、本開示で開示されるアプローチは、考慮されてきた評価メトリックにおけるものより優れたパフォーマンスを示しているように思われる。また、スコア・ヘッドから得られるスコアは、品質の人間による判断と良い相関を示していること、それらは多くの歪に対して異なるレベルの劣化を検出できること、及び、潜在空間zは劣化タイプをクラスター化することも観察されている。
【0106】
例えば、図4は、スコアが人間の判断と良い相関を示すように見えることを、一般的に示している。
【0107】
図5は、潜在空間ベクトルzの間の距離の経験的な分布を示す。より小さな距離は同じ劣化のタイプ及び強度を伴う類似の発声に対応していること(例えば、平均距離7.6及び標準偏差3.4)を、ダイヤグラム510から、より大きな距離は異なる劣化の異なる発声に対応していること(例えば、平均距離16.9及び標準偏差3.9)を、ダイヤグラム530から理解することが可能である。両者の重なりは小さく、平均プラス1標準偏差は互いに交じわらない。異なる劣化を有する類似の発声(ダイヤグラム520)は、前述の2つの分布の間に広がっている(例えば、平均距離13.7及び標準偏差が5.5である)。これは、小さな強度と大きな強度の間で広い範囲を伴う、劣化と強度によって組織される潜在空間において理にかなっている。この全体的な挙動は、全ての損失、特にsとLJNDとそれらの(線形の)ヘッド、の結果である可能性がある、と仮定することができる。
【0108】
図6Aは、劣化を伴わないテスト信号から計算されたスコアsが、劣化強度を増加させてゆく場合に、どのように低くなる傾向があるかを示す。多くのケースにおいて、影響は明確で一貫性があるように思われる(例えば、加法的な雑音又はEAC3コーデック)。他のケースでは、高い強度(例えば、μ-law量子化又はクリッピング)に対して、効果は飽和しているように見える。また、強度が単一変数に対応していない数例の劣化も存在するように思われ、その影響は明らかではないように思われる。全体として、劣化と強度の間に一貫した挙動が観察されている。LMOS,LRANK,LDSはこの挙動を達成するための主要な原動力である可能性があると仮定できる。図6B及び6Cは、スコアが進行性のオーディオ劣化を十分に反映していると思われる同様な追加結果を概略的に示している。
【0109】
図7Aは、潜在空間ベクトルzの3つの低次元t-SNE射影を示す。この図において、異なる劣化タイプがともにどのようにグループ化又はクラスター化しているかを見ることができる。例えば、200というパープレキシティ(perplexity)の場合に、加法的なノイズを含むフレームの潜在ベクトルはともに中央にグループ化されている、ということを理解することができる。興味深いことに、同様の劣化は互いに近接して配置される可能性がある、ということも理解することができる。これは、例えば、加法的及び有色ノイズ、MP3及びOPUSコーデック、又はGriffin-Lim及びSTFT位相歪それぞれの場合である。このクラスタリングの挙動は、LDTとその(線形)ヘッドの直接的な結果である可能性がある仮定できる。
【0110】
図7Bは、分類ヘッドが、劣化のタイプを区別する可能性があると思われる同様な追加の結果を概略的に示す。
【0111】
図8Aは、幾つかの既存の又は従来のアプローチとの比較を概略的に示す。図8Aから、全体的に、全てのアプローチはランダムなベースラインを明らかに上回るように見えること、及び、それらの約半分が、人間スコア間の変動性に匹敵する誤差を達成しているように見えることが観察される(LMOSは、リスナー間の標準偏差をとり、発声全体にわたって平均化することにより推定される)。また、多くの既存のアプローチは、LCONSに関し、ランダムなベースラインの6分の1である0.1のレンジで、適切な一貫性を報告していることも観察される。しかしながら、既存のアプローチは、相対的なペアワイズ・ランキング(RRANK)を考慮する場合に、かなりの誤差を生じさせている。本開示は、標準的なLMOSを含む、想定されている全ての評価尺度において、列挙されている全ての既存のアプローチを、大きなマージンで上回っているように思われる。前述の説明の唯一の例外は、ITU-P563アプローチのLCONSメトリックに関するものであるように思われるが、それでもこれは高いLCONSとほとんどランダムなRRANKを伴っているように思われる。サマリー・メトリックETOTALを考慮すると、本開示は、既存の最良のアプローチの誤差を、36%カットしているように思われる。
【0112】
図8Bは、考慮されている基準/タスクが、本開示の開示された方法のパフォーマンスに及ぼす影響を概略的に示す。先ず、1つの基準を削除することによっては、誤差は決して減少しないように思われることが観察されている。このことは、それらのいずれもパフォーマンスの観点からは有害ではないと思われることを示している可能性がある。次に、除去された場合にかなりの影響を及ぼす幾つかの関連する基準(例えば、LMOS及びLRANK)が存在することが観察されている。しかしながら、そのような関連する基準の1つの欠如は、既存のアプローチの平均誤差をまだ生じさせるに至っていない(例えば、図8Aを参照)。幾つかの関連性の低いタスクに関しては、それらが生成する出力について、あるいは潜在空間zの組織化に与える特性について、それらがまだ役立っているよう見えることに留意を要する(例えば、1対の信号がJND差分をもたらしたかどうかを知る)。最後に、LMOS基準のみを考慮した場合(図8Bの最後の行を参照されたい)、何らかの既存の最良性能のアプローチ(例えば、図8AのNISQA及びCNN-ELMを参照されたい)と同等の性能が得られるように思われる点を強調しておくことも興味深い。全体として、これは、複数の最適化基準及びタスクを考慮することが、優れたパフォーマンスを達成するための鍵であるように思われることを実証しており、本開示のようなオーディオ品質評価に対する半教師ありアプローチを実験的に正当化している。
【0113】
図8Cは、アウト・オブ・サンプル・データ(out-of-sample data)を用いて事後的非公式テスト(post-hoc informal test)を実行することによって、想定されるアプローチの般化能力を更に評価した結果を概略的に示す。そのために、例えば、UGCから20個の新しい録音が選ばれてもよく、これは、クリーンな又は制作品質のスピーチと、実際の背景雑音、コーデックのアーチファクト、又はマイクロホン歪のような劣化を伴うスピーチとを特徴付ける。次いで、新しいセットのリスナーは、1ないし5の間のスコアで録音の品質を評価し、それらの評価を、我々の内輪のUGCデータ・セットで事前に訓練済みのモデルによって予測されたものと比較するように、依頼を受けることが可能である。既存のアプローチのランキングは変化し、幾つかはアウト・オブ・サンプル・データに対する汎化の際に他のものよりも優れていることを示す、ということを図8Cから理解することができる。それにもかかわらず、本開示は、全ての列挙されたメトリックにおいて、大きなマージンをもって、それらを依然として上回っているように思われる。特に、最良の列挙されている既存のアプローチのLMOSを21%カットしているように思われ、既存の最良の値は、イン・サンプル・データ(in-sample data)に対して観察される相対的なLMOS差分よりかなり大きく、それは(図8Aから)7%であった。これは、本開示が、アウト・オブ・サンプルであるが関連しているデータに対して、より良く汎化していることを示している。
【0114】
図8D及び図8Eは、更に、想定されるデータ・セットについての誤差値を、データ・セットにわたるLTOTAL平均と共に概略的に示す。特に、図8Dは、本開示を既存のアプローチと概略的に比較しており、図8Eは、LMOSのみを使用することに加えて、想定されている損失の1つを伴わない訓練の効果を概略的に示している。特に、上述したものと同様に、
ETOTAL=0.5LMOS+RRANK+LCONS
である。図8Fは、本開示の提案されるアプローチ(最後の行)が、列挙されている従来のアプローチよりも優れているように思われることを概略的に示す、幾つかの追加の結果を更に提供する。
【0115】
上記では、入力オーディオ・サンプルのオーディオ品質の指標を決定するためのディープ・ラーニング・ベース(例えば、ニューラル・ネットワーク・ベース)のシステムを訓練する及び動作させる可能な方法、並びにそのようなシステムの可能な実装が説明されている。更に、本開示はまた、これらの方法を実施するための装置にも関連している。このような装置の具体例は、プロセッサ(例えば、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、1つ以上の無線周波数集積回路(RFIC)、又はこれらの任意の組み合わせ)と、プロセッサに結合されたメモリとを含む可能性がある。プロセッサは、本開示を通じて説明される方法のステップの全部又は一部を実行するように構成されてもよい。
【0116】
装置は、サーバー・コンピュータ、クライアント・コンピュータ、パーソナル・コンピュータ(PC)、タブレットPC、セット・トップ・ボックス(STB)、パーソナル・デジタル・アシスタント(PDA)、セルラー電話、スマートフォン、ウェブ・アプライアンス、ネットワーク・ルーター、スイッチ又はブリッジ、又は、任意のマシンであって、装置により行われるべき動作を指定する命令(シーケンシャルなもの又はそれ以外のもの)を実行することが可能なマシンであってもよい。更に、本開示は、本件で説明される方法のうちの任意の1つ以上を実行するための命令を個別に又は一緒に実行する任意の装置の集まりに関連するものとする。
【0117】
本開示は、プロセッサによって実行されると、プロセッサに、本件で説明された方法のステップの全部又は一部を実行させる命令を含むプログラム(例えば、コンピュータ・プログラム)に更に関連する。
【0118】
更に、本開示は、上述のプログラムを記憶するコンピュータ読み取り可能な(又は機械読み取り可能な)記憶媒体に関連する。ここで、「コンピュータ読み取り可能な記憶媒体」という用語は、例えば、ソリッド・ステート・メモリ、光媒体、及び磁気媒体の形態におけるデータ・リポジトリを含むが、これらに限定されない。
【0119】
具体的に別意に言明されていない限り、以下の議論から明らかなように、本開示の説明を通じて、「処理する」、「演算する」、「計算する」、「決定する」、「分析する」などの用語を使用することは、物理量として(例えば、電子として)表現されるデータを、物理量として同様に表現される別のデータに、操作及び/又は変換する、コンピュータ又は演算システム或いは類似の電子計算デバイスの動作及び/又はプロセスを指すことが認められる。
【0120】
同様に、用語「プロセッサ」は、例えばレジスタ及び/又はメモリからの電子データを、例えばレジスタ及び/又はメモリに記憶することが可能な他の電子データに変換するために、電子データを処理する何らかのデバイス又はデバイスの一部を指す可能性がある。「コンピュータ」又は「演算マシン」又は「演算プラットフォーム」は、1つ以上のプロセッサを含む可能性がある。
【0121】
本件で説明される方法は、例示的な一実施形態において、命令のセットを含むコンピュータ読み取り可能な(機械読み込み可能な、とも呼ばれる)コードを受け入れる1つ以上のプロセッサによって実行可能であり、命令は、1つ以上のプロセッサによって実行されると、本件で説明される方法のうちの少なくとも1つを実行する。実行されるべき動作を指定する一連の命令(シーケンシャルなもの又はそれ以外のもの)を実行することが可能な如何なるプロセッサも含まれる。従って、1つの例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、及びプログラマブルDSPユニットのうちの1つ以上を含む可能性がある。処理システムは更に、メインRAM及び/又はスタティックRAM、及び/又はROMを含むメモリ・サブシステムを含んでもよい。バス・サブシステムが構成要素間で通信するために含まれている可能性がある。処理システムは、更に、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイのようなディスプレイが含まれてもよい。手動データ入力が必要とされる場合には、処理システムは、キーボードのような英数字入力ユニット、マウスのようなポインティング・コントロール・デバイス等のうちの1つ以上のような入力デバイスも含む。処理システムはまた、ディスク・ドライブ・ユニットのような記憶システムを包含することも可能である。幾つかの構成における処理システムは、オーディオ出力デバイス及びネットワーク・インターフェース・デバイスを含む可能性がある。従って、メモリ・サブシステムは、1つ以上のプロセッサによって実行された場合に、本件で説明される1つ以上の方法を実行させる一組の命令を含むコンピュータ読み取り可能なコード(例えば、ソフトウェア)を運ぶコンピュータ読み取り可能な搬送媒体を含む。方法が幾つかの要素、例えば、幾つかのステップを含む場合、そのような要素の順序は、具体的に述べられない限り、暗示されていないことに留意されたい。ソフトウェアは、ハード・ディスク内に常駐していてもよいし、あるいはコンピュータ・システムによる実行中に、RAM内に及び/又はプロセッサ内に、完全に又は少なくとも部分的に常駐することも可能である。従って、メモリ及びプロセッサは、コンピュータ読み取り可能なコードを運ぶコンピュータ読み取り可能な搬送媒体も構成する。更に、コンピュータ読み取り可能な搬送媒体は、コンピュータ・プログラム製品を形成するか、又はコンピュータ・プログラム製品に含まれてもよい。
【0122】
代替的な例示的な実施形態では、1つ以上のプロセッサは、スタンドアロン・デバイスとして動作するか、又は、例えば、他のプロセッサにネットワーク接続されてるように、ネットワーク化された配備の中で接続されてもよく、1つ以上のプロセッサは、サーバー又はサーバー・ユーザー・ネットワーク環境内のユーザー・マシンの能力において動作してもよく、あるいは、ピア・ツー・ピア又は分散ネットワーク環境内のピア・マシンとして動作してもよい。1つ以上のプロセッサは、パーソナル・コンピュータ(PC)、タブレットPC、パーソナル・デジタル・アシスタント(PDA)、セルラー電話、ウェブ・アプライアンス、ネットワーク・ルーター、スイッチ又はブリッジ、又は、任意のマシンであって、そのマシンにより行われるべき動作を指定する命令(シーケンシャルなもの又はそれ以外のもの)を実行することが可能なマシンであってもよい。
【0123】
「機械又はマシン」という用語はまた、本件で説明される方法の任意の1つ以上を実行するための命令のセット(又は複数のセット)を個別に又は共同で実行するマシンの任意の集まりを含むように解釈されるものとする、ということに留意されたい。
【0124】
従って、本件で説明される各方法の例示的な一実施形態は、命令のセット、例えばコンピュータ・プログラムであって、1つ以上のプロセッサ、例えば、ウェブ・サーバ構成の一部である1つ以上のプロセッサ上で実行するためのコンピュータ・プログラム、を搬送するコンピュータ読み取り可能なキャリア媒体の形態におけるものである。従って、当業者に理解されるように、本開示の例示的な実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、又はコンピュータ読み取可能なキャリア媒体、例えばコンピュータ・プログラム製品として具体化されることが可能である。コンピュータ読み取り可能な搬送媒体は、1つ以上のプロセッサ上で実行された場合に、プロセッサ又は複数のプロセッサに方法を実施させる命令のセットを含むコンピュータ読み取り可能なコードを搬送する。
【0125】
従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又は、ソフトウェアとハードウェアの態様を組み合わせた例示的な実施形態の形式をとることが可能である。更に、本開示は、媒体に組み込まれたコンピュータ読み取り可能なプログラム・コードを運ぶキャリア媒体(例えば、コンピュータ読み取り可能な記憶媒体におけるコンピュータ・プログラム製品)の形態をとることが可能である。
【0126】
ソフトウェアは、更に、ネットワーク・インターフェース・デバイスを介してネットワークにおいて送受信されてもよい。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、1つ以上の命令セットを記憶する単一の媒体又は複数の媒体(例えば、セントラル化された又は分散されたデータベース、及び/又は関連するキャッシュ及びサーバー)を含む意味にとられるべきである。用語「キャリア媒体」はまた、1つ以上のプロセッサによる実行のための命令セットを記憶、符号化、又は搬送することが可能な任意の媒体であって、本開示の方法の任意の1つ以上の方法を1つ以上のプロセッサに実行させる任意の媒体を含む意味にとられるものとする。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとることが可能であり、これらに限定されない。不揮発性媒体は、例えば、光ディスク、磁気ディスク、及び磁気光学ディスクを含む。揮発性媒体は、メイン・メモリのようなダイナミック・メモリを含む。伝送媒体は、バス・サブシステムを構成するワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。また、伝送媒体は、無線波及び赤外線データ通信の間に生じるような、音波又は光波の形態をとることも可能である。従って、例えば、「キャリア媒体」という用語は、ソリッド・ステート・メモリ、光学的及び磁気的な媒体に具現化されたコンピュータ製品;少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能な伝搬信号を運び、実行時に方法を実現する命令のセットを表す媒体;及び1つ以上のプロセッサの少なくとも1つのプロセッサによって検出可能な伝搬信号を運び、命令セットを表す、ネットワーク内の伝送媒体を含むがこれらに限定されない意味にとられるものとする。
【0127】
説明される方法のステップは、例示的な一実施形態において、ストレージに記憶された命令(コンピュータ読み取り可能なコード)を実行する処理システム(例えばコンピュータ)の適切なプロセッサ(又は複数のプロセッサ)によって実行される、ということが理解されるであろう。また、本開示は何らかの特定の実装やプログラミング技術に限定されないこと、及び本開示は本件で説明される機能を実装するための適切な任意の技術を用いて実施されてよいことも理解されるであろう。本開示は、何らかの特定のプログラミング言語やオペレーティング・システムに限定されない。
【0128】
本開示全体を通じて、「例示的な一実施形態」、「一部の例示的な実施形態」又は「例示的な実施形態」に対する言及は、例示的な実施形態に関連して説明された特定の素性、構造又は特徴が、本開示の少なくとも1つの例示的な実施形態に含まれる、ということを意味する。従って、本開示を通じて様々な箇所における「例示的な一実施形態において」、「一部の例示的な実施形態において」又は「例示的な実施形態において」という語句の登場は、必ずしも全てが同じ例示的な実施形態を参照しているわけではない。更に、特定の素性、構造又は特徴は、本開示から当業者にとって明らかであるように、1つ以上の例示的な実施形態において、任意の適切な方法で組み合わせられてもよい。
【0129】
本件で使用されているように、別意に指定されていない限り、共通の対象を記述するための序数形容詞「第1の」、「第2の」、「第3の」などの使用は、類似の対象のうちの異なるインスタンスが参照されていることを単に示しており、そのように記述された対象が、時間的又は空間的な所与の順番の中に、ランキングの中に、又はその他の何らかの方式の中に、なければならないことを意味するようには意図されていない。
【0130】
以下のクレーム及び本件の説明において、含む、含まれる、又は含むもの等の用語のうちの何れの1つも、それに続く少なくとも1つの要素/特徴を、他を排除することなく含んでいることを意味するオープンな用語である。従って、クレームで使用される場合に、含むという用語は、それ以降に列挙される手段、要素、又はステップに限定されるものとして解釈されるべきではない。例えば、A及びBを含むデバイスという表現の範囲は、要素A及びBのみからなるデバイスに限定されるべきではない。本件で使用されるように、~を含む、~を含む事物、~を含むもの等の用語のうちの何れの1つもまた、それに続く少なくとも1つの要素/特徴を、他を排除することなく含んでいることを意味するオープンな用語である。従って、~を含むは、~を有すると同義であり且つそれを意味する。
【0131】
本開示の例示的な実施形態の上記の説明では、開示の流れを良くし、1つ以上の種々の発明態様の理解を支援する目的で、開示の種々の特徴は、単一の例示的な実施形態、図面、又はそれらの説明にともにしばしばグループ化されている、ということが認められるはずである。しかしながら、開示のこの方法は、クレームが、各クレームで明示的に記載されているものより多くの特徴を必要とするという意図を反映しているものとして解釈されるべきではない。むしろ、以下のクレームが反映するように、発明の態様は、前述の単一の開示された例示的な実施形態の全ての特徴よりも少ないものの中にある。従って、明細書に続くクレームは、ここに本明細書に明示的に組み込まれ、各クレームは本開示の個々の例示的な実施形態としてそれ自体成立する。
【0132】
更に、本件で説明される一部の例示的な実施形態は、他の例示的な実施形態に含まれるものを除く一部の特徴を含むが、当業者に理解されるように、異なる例示的な実施形態の特徴の組み合わせは、本開示の範囲内にあり且つ例示的な異なる実施形態を形成するように意図される。例えば、以下のクレームでは、任意のクレームされた例示的な実施形態は、任意の組み合わせで使用されることが可能である。
【0133】
本件で行われる説明では、多数の具体的な詳細が述べられている。しかしながら、本開示の例示的な実施形態は、これらの具体的な詳細なしに実施されてもよい、ということが理解される。他の例では、周知の方法、構造及び技術は、本説明の理解を不明瞭にしないように詳細には示されていない。
【0134】
従って、本開示のベスト・モードであると考えられるものが説明されているが、当業者は、本開示の精神から逸脱することなく、他の更なる修正がそれらに施される可能性があることを認識するであろうし、そのような全ての変形や修正は本開示の範囲に含まれるように保護を請求することが意図されている。例えば、上述の何れの数式も、使用される可能性のある手順の単なる表現であるに過ぎない。ブロック図から機能性が追加又は削除されてもよく、機能性ブロック間で動作が交換されてもよい。本開示の範囲内で説明される方法に対してステップが追加又は削除されてもよい。
【0135】
本開示の列挙される例示的な実施形態(「EEE」)は、オーディオ入力のオーディオ品質の指標を決定するための方法及びシステムに関連して上記で説明されている。従って本発明の実施形態は以下に列挙される1つ以上の例に関連することが可能である:
【0136】
EEE 1.
オーディオ信号のオーディオ品質評価を決定する畳み込みニューラル・ネットワーク(convolutional neural network,CNN)を訓練するための方法であって、当該方法は:
オーディオ信号を、低次元の潜在空間表現のオーディオ信号に変換するステップ;
低次元の潜在空間表現のオーディオ信号を、エンコーダ・ステージへ入力するステップ;
エンコーダ・ステージにより、低次元の潜在空間表現のオーディオ信号を処理して、低次元の潜在空間表現のオーディオ信号のパラメータを決定するステップ;
パラメータと低次元の潜在空間表現のオーディオ信号とに基づいて、オーディオ信号のオーディオ品質スコアを決定するステップ;
を含む方法。
【0137】
EEE 2.
オーディオ入力のオーディオ品質の指標を決定するディープ・ラーニング・ベースのシステムを訓練する方法であって、当該方法は:
オーディオ・サンプルを含む少なくとも1つの訓練セットを入力として取得するステップであって、オーディオ・サンプルは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含み、第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して又は訓練セット中の別のオーディオ・サンプルのものに対して、相対的に表す情報でラベル付けされている、ステップ;
訓練セットを、ディープ・ラーニング・ベースのシステムに入力するステップ;及び
訓練セット中のオーディオ・サンプルのそれぞれのラベル情報を予測するように、システムを反復的に訓練するステップ;
を含み、訓練は複数の損失関数に基づいており;及び
複数の損失関数は、訓練セット中のオーディオ・サンプルのラベル情報とそれら各自の予測との間の差分を反映するように生成されている、方法。
【0138】
EEE 3.
IEEE 2による方法において、第1のタイプのオーディオ・サンプルは、人間が注釈を付けたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々はそれぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされている。
【0139】
EEE 4.
IEEE 3による方法において、人間が注釈を付けたオーディオ・サンプルは、平均オピニオン・スコア(MOS)オーディオ・サンプル及び/又は丁度可知差異(JDN)オーディオ・サンプルを含む。
【0140】
EEE 5.
上記のIEEEのうちの何れか1項による方法において、第2のタイプのオーディオ・サンプルは、アルゴリズムにより生成されたオーディオ・サンプルを含み、当該オーディオ・サンプルの各々は相対的な所定のオーディオ品質メトリックを表す情報でラベル付けされている。
【0141】
EEE 6.
IEEE 5による方法において、アルゴリズムにより生成されたオーディオ・サンプルの各々は、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・サンプルに又は別のアルゴリズムにより生成されたオーディオ・サンプルに選択的に適用することによって生成され、ラベル情報は、適用されているそれぞれの劣化関数及び/又はそれぞれの劣化強度を示す情報を含む。
【0142】
EEE 7.
IEEE 6による方法において、ラベル情報は、訓練セットにおける他のオーディオ・サンプルに対する又は参照オーディオ・サンプルに対する劣化を表す情報を更に含む。
【0143】
EEE 8.
IEEE 6又は7による方法において、劣化関数は、複数の利用可能な劣化関数の中から選択され、及び/又はそれぞれの劣化強度は、最小値において、劣化が知覚的に顕著であるように設定されている。
【0144】
EEE 9.
IEEE 8による方法において、複数の利用可能な劣化関数は、残響、クリッピング、異なるコーデックを用いた符号化、位相歪、オーディオ・リバース、及び背景雑音のうちの1つ以上に関連する関数を含む。
【0145】
EEE 10.
IEEE 6ないし9のうちの何れか1項による方法において、アルゴリズムにより生成されたオーディオ・フレームは、ペアのオーディオ・フレーム{xi,xj}及び/又はクアドルプルのオーディオ・フレーム{xik,xil,xjk,xjl}として生成され、オーディオ・フレームxiは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、参照オーディオ・フレームに選択的に適用することによって生成され、オーディオ・フレームxjは、各々がそれぞれの劣化強度を伴う少なくとも1つの劣化関数を、オーディオ・フレームxiに選択的に適用することによって生成され、オーディオ・フレームxik,xilは、それぞれの時間遅延を前記オーディオ・フレームxiに選択的に適用することによって、オーディオ・フレームxiから抽出され、オーディオ・フレームxjk,xjlは、それぞれの時間遅延をオーディオ・フレームxjに選択的に適用することによって、オーディオ・フレームxjから抽出されている。
【0146】
EEE 11.
上記のIEEEのうちの何れか1項による方法において、損失関数は、MOSエラー・メトリックを表す第1の損失関数を含み、第1の損失関数は、訓練セット中のオーディオ・サンプルのMOSグランド・トゥルースとオーディオ・サンプルの予測との間の差分に基づいて計算される。
【0147】
EEE 12.
IEEE 5ないし10のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 11による方法において、第2のタイプのオーディオ・サンプルのラベル情報は、あるオーディオ・サンプルが別のオーディオ・サンプルより多く劣化しているかどうかを示す相対的な情報を含み、損失関数は、ペアのランキング・メトリックを表す第2の損失関数を含み、第2の損失関数は、相対的な劣化情報とその予測とを含むラベル情報によって設定されるランキングに基づいて計算される。
【0148】
EEE 13.
IEEE 12による方法において、システムは、より少なく劣化した或るオーディオ・サンプルが、より多く劣化した別のオーディオ・サンプルよりも良いオーディオ品質を表すオーディオ品質メトリックを獲得するような方式で訓練されている。
【0149】
EEE 14.
IEEE 5ないし10、12及び13のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 11による方法において、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプル間の知覚的関連性を表す相対的な情報を含み、損失関数は一貫性メトリックを表す第3の損失関数を含み、第3の損失関数は、知覚的関連性の情報を含むラベル情報とその予測との間の差分に基づいて計算される。
【0150】
EEE 15.
IEEE 14による方法において、一貫性メトリックは、2つ以上のオーディオ・サンプルが、同じ劣化関数及び劣化強度を有し、同じ時間フレームに対応するかどうかを示す。
【0151】
EEE 16.
IEEE 5ないし10及び12ないし15のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 10による方法において、第2のタイプのオーディオ・サンプルのラベル情報は、或るオーディオ・サンプルが別のオーディオ・サンプルと同じ劣化関数及び同じ劣化強度で適用されているかどうかを表す相対的な情報を含み、損失関数は劣化状態メトリックを表す第4の損失関数を含み、第4の損失関数は、相対的な劣化情報を含むラベル情報とその予測との間の差分に基づいて計算される。
【0152】
EEE 17.
IEEE 5ないし10及び12ないし16のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 11による方法において、第2のタイプのオーディオ・サンプルのラベル情報は、互いに対する知覚的な相違を表す相対的な情報を含み、損失関数はJNDメトリックを表す第5の損失関数を含み、第5の損失関数は、相対的な知覚的な相違を含むラベル情報とその予測との間の差分に基づいて計算される。
【0153】
EEE 18.
IEEE 5ないし10及び12ないし17のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 11に記載の方法において、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化関数を表す情報を含み、損失関数は劣化タイプ・メトリックを表す第6の損失関数を含み、第6の損失関数は、それぞれの劣化関数の情報を含むラベル情報とその予測との間の差分に基づいて計算される。
【0154】
EEE 19.
IEEE 5ないし10及び12ないし18のうちの何れか1項、又はIEEE 5ないし10のうちの何れか1項に従属する場合のIEEE 11による方法において、第2のタイプのオーディオ・サンプルのラベル情報は、オーディオ・サンプルに適用されている劣化強度を表す情報を含み、損失関数は劣化強度メトリックを表す第7の損失関数を含み、第7の損失関数は、それぞれの劣化強度の情報を含むラベル情報とその予測との間の差分に基づいて計算される。
【0155】
EEE 20.
上記のIEEEのうちの何れか1項による方法において、損失関数は回帰メトリックを表す第8の損失関数を含み、回帰メトリックは、参照に基づいた品質尺度及び参照によらない品質尺度のうちの少なくとも1つに従って計算される。
【0156】
EEE 21.
IEEE 20による方法において、参照に基づいた品質尺度は、PESQ,CSIG,CBAK,COVL,SSNR,LLR,WSSD,STOI,SISDR,メル・ケプストラム歪,及び対数-メル-帯域歪のうちの少なくとも1つを含む。
【0157】
EEE 22.
上記のIEEEのうちの何れか1項による方法において、訓練セット中のオーディオ・サンプルの各々は、複数の損失関数のうちの少なくとも1つにおいて使用され、訓練のための最終的な損失関数は、複数の損失関数のうちの1つ以上についての平均化プロセスに基づいて生成される。
【0158】
EEE 23.
上記のIEEEのうちの何れか1項による方法において、システムは、オーディオ入力を特徴空間表現にマッピングする符号化ステージと、特徴空間表現に基づいて、ラベル情報の予測を生成する評価ステージとを含む。
【0159】
EEE 24.
上記のIEEEのうちの何れか1項による方法において、中間表現を生成するための符号化ステージが、ニューラル・ネットワーク・エンコーダを含んでいる。
【0160】
EEE 25.
上記のIEEEのうちの何れか1項による方法において、複数の損失関数の各々は、線形層又は多層パーセプトロン(MLP)を含むニューラル・ネットワークに基づいて決定される。
【0161】
EEE 26.
入力オーディオ・サンプルのオーディオ品質の指標を決定するディープ・ラーニング・ベースのシステムであって、当該システムは:
符号化ステージ;及び
評価ステージ;
を備え、符号化ステージは、入力オーディオ・サンプルを特徴空間表現にマッピングするように構成されており;及び
評価ステージは、特徴空間表現に基づいて、所定のオーディオ品質メトリックを表す情報を予測し、且つ別のオーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報を更に予測するように構成されている、システム。
【0162】
EEE 27.
IEEE 26によるシステムにおいて、当該システムは:
少なくとも1つの訓練セットを入力として取得するステップであって、訓練セットは、第1のタイプのオーディオ・サンプルと第2のタイプのオーディオ・サンプルとを含み、第1のタイプのオーディオ・サンプルの各々は、それぞれの所定のオーディオ品質メトリックを表す情報でラベル付けされており、第2のタイプのオーディオ・サンプルの各々は、それぞれのオーディオ品質メトリックを、参照オーディオ・サンプルのものに対して又は訓練セット中の別のオーディオ・サンプルのものに対して、相対的に表す情報でラベル付けされている、ステップ;
訓練セットを、システムに入力するステップ;及び
複数の損失関数に基づいて訓練セット中のオーディオ・サンプルのそれぞれのラベル情報を予測するように、訓練セットに基づいてシステムを反復的に訓練するステップであって、複数の損失関数は、訓練セット中のオーディオ・サンプルのラベル情報とそれら各自の予測との間の差分を反映するように生成されている、ステップ;
を実行するように構成されている、システム
【0163】
EEE 28.
入力オーディオ・サンプルのオーディオ品質の指標を決定するディープ・ラーニング・ベースのシステムを動作させる方法であって、システムは符号化ステージと評価ステージとを含み、当該方法は:
符号化ステージにより、入力オーディオ・サンプルを特徴空間表現にマッピングするステップ;及び
評価ステージにより、所定のオーディオ品質メトリックを表す情報と、別のオーディオ・サンプルに対する相対的なオーディオ品質メトリックを表す情報とを、特徴空間表現に基づいて予測するステップ;
を含む方法。
【0164】
EEE 29.
命令を含むプログラムにおいて、命令は、プロセッサにより実行されると、IEEE 1ないし15及び28のうちの何れか1項による方法のステップをプロセッサに実行させる。
【0165】
EEE 30.
IEEE 29によるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【0166】
EEE 31.
プロセッサとプロセッサに結合されたメモリとを備える装置において、プロセッサは、IEEE 1ないし25及び28のうちの何れか1項による方法のステップを装置に実行させるように構成されている。
【0167】
付録
付録A:参照信号を用いたスコア計算
参照フリーによるものではなく、参照ベースの設定においてスコアsを計算するために、2つの信号xi,xjがエンコーダに通されて、対応する潜在点(latent)zi,zjを取得する。次いで、例えば、両方の潜在点について線形ユニットを用いて、
【数13】

が計算される。他の選択肢は、潜在ベクトル差分
【数14】

から単独のスコアを計算するか、又は潜在点を連結して、サイズを2倍にしたレイヤを使用することである:
【数15】

更なる観点は、ベクトル差分又は線形層を、より複雑な非線形の、パラメトリックな、及び/又は学習可能な関数で置換することを含む。
【0168】
付録B:データ
既に述べたように、半教師ありアプローチでは、MOSデータ、JNDデータ、及びプログラム的に生成されたデータという3種類のデータが使用される。事後的リスニング・テストで使用される追加のアウト・オブ・サンプル・データ・セットは、説明中で要約されており、その劣化特性は、内部UGCデータ・セット(下記参照)におけるものと類似している。
【0169】
B.1. MOSデータ
ネットワーク/システム全体は、異なるサイズ及び特徴の3つの異なるMOSデータ・セットで訓練されて評価される:
1.内部UGCデータ・セット - このデータ・セットは、UGCの1,109個の録音から構成され、合計1.5時間のオーディオに至るまで加えたものである。全ての記録は48 kHzにおけるモノラルWAV PCMに変換され、同じ音の大きさを有するように正規化される。発声は、単一の単語から数行に及び、様々な条件下で男性及び女性の両方の話者によって発声され、異なる言語を使用している(大部分は英語であるが、中国語、ロシア語、スペイン語などである場合もある)。録音における一般的な劣化は、背景雑音(ストリート、カフェテリア、風、背景のテレビ/ラジオ、他人の話し声など)、残響、帯域幅の減少(3 kHzまでのローパス低下)、及びコーディング・アーチファクト(MP3,OGG,AACなど)を含む。品質評価は、オーディオ処理/エンジニアリングで少なくとも数年の経験を有する10名の専門リスナーの集まりの助けを借りて収集された。記録は4ないし10の評価の間にあり、IEEE及びITUに記載されているものと同様な標準手順に従うことによって取得された(これについては、下記文献及びその参考文献を参照されたい):
P. C. Loizou, “Speech quality assessment,” in Multimedia Analysis, Processing and Communications, ser. Studies in Computational Intelligence. Berlin, Germany: Springer, 2011, vol. 346, pp. 623-654
【0170】
2.インターナル電話/VoIPデータ・セット - このデータ・セットは、典型的な電話及びVoIPの劣化を伴う8,016個の録音から構成され、合計15時間のオーディオに至るまで加えられたものである。僅かな割合の部分を除いて、全てのオーディオは、当初は48 kHzで記録され、その後に、同じ音の大きさを有するように処理及び正規化される。記録は、無音(silence)によって区切られた2つの文を含み、5ないし15秒の間の持続時間を有し、ITU-P800と同様のプロトコルに従っている。男性及び女性の発声はバランスをとっており、様々な言語が存在する(英語、フランス語、イタリア語、チェコ語など)。一般的な劣化は、パケット損失(20ないし60ms)、帯域幅の減少(3 kHzまでのローパス低下)、加法的な合成ノイズ(異なるSNR)、及びコーディング・アーチファクト(G772,OPUS,AC3など)を含む。品質評価は、通常のリスナーの集まりによって提供され、各々の記録は10ないし15の間の評価を有する。評価は、ITUにより記載されている標準手順に従うことによって取得された(これについては、下記文献及びその参考文献を参照されたい):
P. C. Loizou, “Speech quality assessment,” in Multimedia Analysis, Processing and Communications, ser. Studies in Computational Intelligence. Berlin, Germany: Springer, 2011, vol. 346, pp. 623-654.
【0171】
3.TCD-VoIPデータ・セット - これは、
http://www:mee:tcd:ie/~ sigmedia/Resources/TCD-VoIP
でオンラインで公に利用可能なデータ・セットである。これは、一般的なVoIP劣化を伴う384個の記録から構成され、合計0.7時間に至るまで加えられたものである。データ・セットについての良い説明はオリジナルの参考に与えられている
(N. Harte, E. Gillen, and A. Hines, “TCD-VoIP, a research database of degraded speech for assessing quality in VoIP applications,” in Proc. of the Int. Workshop on Quality of Multimedia Experience (QoMEX), 2015)
VoIP劣化であるにもかかわらず、その多くは我々のインターナル電話/VoIPデータ・セットと(タイプ及び強度の両方において)相違する。
【0172】
B.2. JNDデータ
JNDデータも訓練に使用される。マノーシャ等(Manocha et al.)によりコンパイルされたデータ・セットが使用され(P. Manocha, A. Finkelstein, Z. Jin, N. J. Bryan, R. Zhang, and G. J. Mysore, “A differentiable perceptual audio metric learned from just noticeable differences,” ArXiv:2001.04460, 2020)、これは以下のサイトで利用可能である:
https://github:com/pranaymanocha/PerceptualAudio
データ・セットは、20,797ペアの「摂動を受けた(perturbed)」記録(28時間のオーディオ)から構成され、各ペアは同じ発声に由来しており、そのような摂動がペア毎に顕著であるか否かの注釈が伴っている。注釈付けは、特定の手順に従うアマゾン・メカニカル・タークからクラウド・ソーシングされている(P. Manocha, A. Finkelstein, Z. Jin, N. J. Bryan, R. Zhang, and G. J. Mysore, “A differentiable perceptual audio metric learned from just noticeable differences,” ArXiv:2001.04460, 2020)。摂動は、加法的な線形背景雑音、残響、及びコーディング/圧縮に対応する。
【0173】
B.3. プログラムにより生成されたデータ
クアドルプル{xik,xil,xjk,xjl}はプログラムで生成されたデータから算出される。そのために、48 kHzにおけるオーディオの10個のデータ・セットのリストが使用され、それらはクリーンであって処理を受けていないものと考えられる。これは、プライベート/プロプライエタリなデータ・セット及び公のデータ・セットを含み、後者は例えば次のようなものである:
VCTK (Y. Yamagishi, C. Veaux, and K. MacDonald, “CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice cloning toolkit (version 0.92),” University of Edinburgh, The Centre for Speech and Technology Research (CSTR), 2019. [Online]. Available: https://doi:org/10:7488/ds/2645),
RAVDESS (S. R. Livingstone and F. A. Russo, “The Ryerson audio-visual database of emotional speech and song (RAVDESS),” PLoS ONE, vol. 13, no. 5, p. e0196391, 2018. [Online]. Available: https://zenodo:org/record/1188976), 又は
TSP Speech (http://www-mmsp:ece:mcgill:ca/Documents/Data/).
本開示の実験のために、50,000個のクアドルプルが訓練に使用され、検証のために10,000個、そしてテストのために10,000個が使用されている。全てのクアドルプルを形成するために、以下のように進行してもよい:
【0174】
・データ・セットを一様にサンプリングし、そこからファイルを一様にサンプリングする。
・サイレント又は大部分がサイレントなフレームを避けながら、1.1秒のフレームを均一にサンプリングする。それを最大絶対振幅が1を有するように正規化する。
・確率0.84,0.12,0.04で、利用可能な劣化のプールの中から、0,1,又は2の劣化をサンプリングする(下記参照)。ゼロの劣化の場合、信号は直ちにxiになる。そうでない場合、我々は、各々の劣化に対して強度を均一に選択し、xiを生成するようにそれらを順に適用する。
・確率0.75,0.2,0.04,0.01で、利用可能な劣化のプールの中から、1,2,3,又は4の劣化をサンプリングする(下記参照)。強度を均一に選択し、それらをxiに適用して順にxjを生成する。
・0ないし100msの間で時間遅延を均一にサンプリングする。そのような遅延を用いてxiから1sのフレームxik,xilを抽出し、同じことをxiからxjk,xjlについて行う。
・{xik,xil,xjk,xjl}を、劣化タイプ及び強度の情報とともに記憶する。

合計78時間のオーディオ:1×4×(50000+10000+10000)/3600 = 77:77 h が使用される:
【0175】
付録C:劣化及び強度
37個の可能性のある劣化が、それらの対応する強度とともに考察された。強度は、最小値において、それらが作者によって知覚的に顕著であるように設定されている。場合によっては、以下において選択された強度は、劣化全体のうちの唯の一態様であるに過ぎないこと、及び、他の関連する態様に関し、我々は経験的に選択した値の間でランダムにサンプリングすることに留意されたい。例えば、残響効果の場合、SNRが主強度(main strength)として選択されているが、残響のタイプ、幅、遅延などもランダムに選択される。
【0176】
1.加法的なノイズ - 確率0.29で、ノイズ・データ・セットの利用可能なプールの中からノイズ・フレームをサンプリングする。35ないし-15 dBの間にあるSNRとともにそれをxに加える。ノイズ・データ・セットは、プライベート/プロプライエタリなデータ・セット及び公のデータ・セットを含み、後者は例えば次のようなものである:
ESC (K. J. Piczak, “ESC: dataset for environmental sound classification,” in Proc. of the ACM Conf. on Multimedia (ACM-MM), 2015, pp. 1015-1018. [Online]. Available: https://doi:org/10:7910/DVN/YDEPUT) or
FSDNoisy18k (E. Fonseca, M. Plakal, D. P. W. E. Ellis, F. Font, X. Favory, and X. Serra, “Learning sound event classifiers from web audio with noisy labels,” ArXiv: 1901.01189, 2019. [Online]. Available: https://doi:org/10:5281/zenodo:2529934).
この劣化は、フレーム全体に、又は確率0.25でフレームの一部分だけに(最低300ms)適用されることが可能である。
【0177】
2.有色ノイズ - 確率0.07で、0ないし0.7の間の一様な指数を有する有色ノイズ・フレームを生成する。45ないし-15 dBの間にあるSNRとともにそれをxに加える。この劣化は、フレーム全体に、又は確率0.25でフレームの一部分だけに(最低300ms)適用されることが可能である。
【0178】
3.ハム・ノイズ - 確率0.035で、35ないし-15 dBの間にあるSNRとともに、50又は60 Hz付近のトーン(正弦波、鋸波、矩形波)を加える。この劣化は、フレーム全体に、又は確率0.25でフレームの一部分だけに(最低300ms)適用されることが可能である。
【0179】
4.トーナル・ノイズ - 確率0.011で、上記と同様なことを行うが、周波数は20ないし12,000 Hzの間にある。
【0180】
5.リサンプリング - 確率0.011で、信号を2ないし32 kHzの間にある周波数にリサンプリングし、それを48 kHzに変換する。
【0181】
6.μ-law量子化 - 確率0.011で、2ないし10ビットの間でμ-law量子化を適用する。
【0182】
7.クリッピング - 確率が0.011で、信号の0.5ないし99%の間でクリップする。
【0183】
8.オーディオ・リバース - 確率0.05で、信号を時間的に反転させる。
【0184】
9.無音挿入 - 確率0.011で、20ないし120msの間の長さに、1ないし10個の間の無音セクションを挿入する。
【0185】
10.ノイズ挿入 - 確率0.011で、上記と同様なことを行うが、ホワイト・ノイズを利用する。
【0186】
11.減衰挿入 - 確率0.011で、上記と同様なことを行うが、最大線形利得0.8を乗じることによってセクションを減衰させる。
【0187】
12.振幅摂動 - 確率0.011で、上記と同様なことを行うが、乗法性ガウス雑音を挿入する。
【0188】
13.サンプル複製 - 確率0.011で、上記と同様なことを行うが、以前の差プルを繰り返す。
【0189】
14.遅延 - 確率0.035で、最大500msの遅延を使用して、信号の遅延したバージョン(シングル・タップ及びマルチ・タップ)を加える。
【0190】
15.エクストリーム等化 - 確率0.006で、ランダムなQ及び利得が20 dBより高いか又は-20 dBより低い等化フィルタを適用する。
【0191】
16.バンド・パス - 確率0.006で、100ないし4000 Hzの間のランダムな周波数でランダムなQのバンド・パス・フィルタを適用する。
【0192】
17.帯域除去 - 確率0.006で、上記と同様なことを行うが、帯域を阻止する。
【0193】
18.ハイ・パス - 確率0.011で、150ないし4000 Hzの間のランダムな周波数でランダムなQのバンド・パス・フィルタを適用する。
【0194】
19.ロー・パス - 確率0.011で、250ないし8000 Hzの間のランダムなカットオフ周波数で、ロー・パス・フィルタを適用する。
【0195】
20.コーラス - 確率0.011で、0.15ないし1の間にある線形利得とともにコーラス効果を加える。
【0196】
21.オーバードライブ - 確率0.011で、12ないし50 dBの間の利得とともにオーバードライブ効果を加える。
【0197】
22.フェイザー - 確率 0.011で、0.1及び1の間にある線形利得とともにフェイザー効果を加える。
【0198】
23.残響 - 確率0.035で、-5ないし10dBの間のSNRとともに残響を加える。
【0199】
24.トレモロ - 確率0.011で、30ないし100%の間の深度とともにトレモロ効果を加える。
【0200】
25.Griffin-Lim再構成 - 確率0.023で、信号のSTFTのGriffin-Lim再構成を実施する。STFTは、ランダムなウィンドウ長と50%のオーバーラップを使用して計算される。
【0201】
26.位相ランダム化 - 確率0.011で、上記と同様なことを行うが、ランダムな位相情報を使用する。
【0202】
27.位相シャッフル - 確率0.011で、上記と同様なことを行うが、ウィンドウ位相を時間内でシャッフルする。
【0203】
28.スペクトログラム畳み込み - 確率0.011で、信号のSTFTを2Dカーネルで畳み込む。STFTは、ランダムなウィンドウ長と50%のオーバーラップを使用して計算される。
【0204】
29.スペクトログラム・ホール - 確率0.011で、0.15ないし0.98の間にある確率のスペクトル振幅にドロップアウトを適用する。
【0205】
30.スペクトログラム・ノイズ - 確率0.011で、上記と同様なことを行うが、0をランダム値で置き換える。
【0206】
31.トランスコーディングMP3 - 確率0.023で、libmp3lameを用いてMP3に符号化し、2ないし96 kbpsの間を用いて戻す(全てのコーデックはffmpegから来ている)。
【0207】
32.トランスコーディングAC3 - 確率0.035で、AC3に符号化し、2ないし96 kbpsの間を用いて戻す。
【0208】
33.トランスコーディングEAC3 - 確率0.023で、EAC3に符号化し、16ないし96 kbpsの間を用いて戻す。
【0209】
34.トランスコーディングMP2 - 確率0.023で、MP2に符号化し、32ないし96 kbpsの間を用いて戻す。
【0210】
35.トランスコーディングWMA - 確率0.023で、WMAに符号化し、32ないし128 kbpsの間を用いて戻す。
【0211】
36.トランスコーディングOGG - 確率0.023で、OGGに符号化し、32ないし64 kbpsの間を用いて戻す。
【0212】
37.トランスコーディングOPUS - 確率0.046で、OPUSに符号化し、libopus及び2ないし64 kbpsの間を用いて戻す。
【0213】
付録D:考慮されたアプローチ
本開示は、9つの既存のアプローチと比較されている:
1.ITU-P563 (L. Malfait, J. Berger, and M. Kastner, “P.563 - The ITU-T standard for single-ended speech quality assessment,” IEEE Trans. On Audio, Speech and Language Processing, vol. 14, no. 6, pp. 1924-1934, 2010) - これは、狭帯域の電話に関して設計された参照フリーの規格である。これが選ばれた理由は、我々がアクセスできた参照フリーの規格に最も適合していたからである。生成されたスコアは直接的に使用された。
【0214】
2.FL-JND - Inspired by Manocha et al. (P. Manocha, A. Finkelstein, Z. Jin, N. J. Bryan, R. Zhang, and G. J. Mysore, “A differentiable perceptual audio metric learned from just noticeable differences,” ArXiv:2001.04460, 2020), 提案されるエンコーダ・アーキテクチャは、JNDタスクに関して実装され訓練された。次いで、各データ・セットについて、全てのエンコーダ層から潜在的特徴を入力として取り込み、品質スコアを予測する小さなMLPがシグモイド出力とともに訓練された。
【0215】
3.FL-PASE - A PASE encoder (S. Pascual, M. Ravanelli, J. Serra A. Bonafonte, and Y. Bengio, “Learning problem-agnostic speech representations from multiple self-supervised tasks,” in Proc. of the Int. Speech Comm. Assoc. Conf. (INTERSPEECH), 2019, pp. 161-165) は、JND,DT及び話者識別のタスクに関して訓練された。次いで、各データ・セットについて、最終層から潜在的特徴を入力として取り込み、品質スコアを予測する小さなMLPがシグモイド出力とともに訓練された。
【0216】
4.SRMR (T. H. Falk, C. Zheng, and W.-Y. Chan, “A non-intrusive quality and intelligibility measure of reverberant and dereverberated speech,” IEEE Trans. on Audio, Speech, and Language Processing, vol. 18, no. 7, pp. 1766-1774, 2010) - https://github:com/jfsantos/SRMRpyからの尺度が使用され、それを対応するデータ・セットに適合させるシグモイド出力をともなう小さなMLPが使用されている。
【0217】
5.AutoMOS (B. Patton, Y. Agiomyrgiannakis, M. Terry, K. Wilson, R. A. Saurous, and D. Sculley, “AutoMOS: learning a non-intrusive assessor of naturalness-of-speech,” in NIPS16 End-to-end Learning for Speech and Audio Processing Workshop, 2016) - このアプローチは再実装されたが、合成されたスピーチ埋め込み及びその補助損失はLMRで置き換えられた。
【0218】
6.Quality-Net (S.-W. Fu, Y. Tsao, H.-T. Hwang, and H.-M. Wang, “Quality-Net: an end-to-end non-intrusive speech quality assessment model based on BLSTM,” in Proc. of the Int. Speech Comm. Assoc. Conf. (INTERSPEECH), 2018, pp. 1873-1877) - 提案されるアプローチが再実装された。
【0219】
7.WEnets (A. A. Catellier and S. D. Voran, “WEnets: a convolutional framework for evaluating audio waveforms,” ArXiv:1909.09024, 2019) - 提案されるアプローチが、回帰MOS(regress MOS)に適用された。
【0220】
8.CNN-ELM (H. Gamper, C. K. A. Reddy, R. Cutler, I. J. Tashev, and J. Gehrke, “Intrusive and non-intrusive perceptual speech quality assessment using a convolutional neural network,” in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2019, pp. 85-89) - 提案されるアプローチが再実装された。
【0221】
9.NISQA (G. Mittag and S. Moeller, “Non-intrusive speech quality assessment for super-wideband speech communication networks,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 7125-7129) - 提案されるアプローチがMOSとともに動作するように適合され、補助POLQA損失はLMRで置き換えられた。
図1A
図1B
図2
図3
図4
図5
図6A
図6B
図6C
図7A
図7B
図8A-8B】
図8C
図8D
図8E
図8F