(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-29
(45)【発行日】2024-06-06
(54)【発明の名称】機械学習による信号の純度の定量化
(51)【国際特許分類】
G10L 25/51 20130101AFI20240530BHJP
G10L 25/30 20130101ALI20240530BHJP
【FI】
G10L25/51
G10L25/30
(21)【出願番号】P 2022176806
(22)【出願日】2022-11-03
【審査請求日】2022-11-03
(32)【優先日】2021-11-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】508197206
【氏名又は名称】新唐科技股▲ふん▼有限公司
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(72)【発明者】
【氏名】バーカイ,イッタイ
(72)【発明者】
【氏名】タミール,イタマール
【審査官】中村 天真
(56)【参考文献】
【文献】特表2009-500952(JP,A)
【文献】米国特許出願公開第2019/0287550(US,A1)
【文献】米国特許出願公開第2018/0114536(US,A1)
【文献】Gabriel MITTAG et al.,“Semantic Labeling of Quality Impairments in Speech Spectrograms with Deep Convolutional Networks”,2019 Eleventh International Conference on Quality of Multimedia Experience (QoMEX),2019年06月,p,1-3
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
機械学習(ML)モデルを格納するように構成されたメモリ、および
第1の持続時間の範囲内の第1の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得て、
前記初期オーディオ信号を、第2の持続時間の範囲内の前記第1の持続時間より短い第2の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成し、
前記トレーニングオーディオ信号をそれぞれの第1の画像に変換し、
前記MLモデルをトレーニングして、前記それぞれの第1の画像に基づいて前記歪みのレベルを推定し、
前記第2の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信し、
前記入力オーディオ信号を第2の画像に変換し、且つ
前記トレーニングされたMLモデルを前記第2の画像に適用することにより、前記入力オーディオ信号の歪みのレベルを推定するように構成されるプロセッサを含
み、
前記歪みは全高調波歪み(THD)を含むシステム。
【請求項2】
前記プロセッサは
、所与の画像の画素値を設定して
、所与のトレーニングオーディオ信号の振幅を時間の関数として表すことで
前記所与のトレーニングオーディオ信号を
前記所与の画像に変換するように構成される請求項1に記載のシステム。
【請求項3】
前記それぞれの第1の画像と前記第2の画像は2次元(2D)である請求項
1に記載のシステム。
【請求項4】
前記それぞれの第1の画像と前記第2の画像は3次元以上である請求項
1に記載のシステム。
【請求項5】
前記MLモデルは畳み込みニューラルネットワーク(CNN)、または敵対的生成ネットワーク(GAN)を含む請求項
1に記載のシステム。
【請求項6】
前記入力オーディオ信号は、非線形オーディオ処理回路から受信される請求項
1に記載のシステム。
【請求項7】
前記MLモデルは、前記トレーニングオーディオ信号にラベル付けされた前記歪みのレベルに従って前記歪みを分類する請求項
1に記載のシステム。
【請求項8】
前記MLモデルは、回帰を用いて前記歪みのレベルを推定する請求項
1に記載のシステム。
【請求項9】
前記プロセッサは、前記推定された前記歪みのレベルを用いて、前記入力オーディオ信号を生成するオーディオシステムを制御するようにさらに構成される請求項
1に記載のシステム。
【請求項10】
第1の持続時間の範囲内の第1の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得るステップ、
前記初期オーディオ信号を、第2の持続時間の範囲内の前記第1の持続時間より短い第2の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成するステップ、
前記トレーニングオーディオ信号をそれぞれの第1の画像に変換するステップ、
機械学習(ML)モデルをトレーニングし、前記それぞれの第1の画像に基づいて前記歪みのレベルを推定するステップ、
前記第2の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信するステップ、
前記入力オーディオ信号を第2の画像に変換するステップ、および
前記入力オーディオ信号の前記歪みのレベルを、前記トレーニングしたMLモデルを前記第2の画像に適用することで推定するステップを含
み、
前記歪みは全高調波歪み(THD)を含む方法。
【請求項11】
所与のトレーニングオーディオ信号を所与の画像に変換するステップは、前記所与の画像の画素値を設定して、前記所与のトレーニングオーディオ信号の振幅を時間の関数として表すステップを含む請求項
10に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の処理に関するものであり、特に、オーディオ信号の純度を定量化するための方法とシステムに関するものである。
【背景技術】
【0002】
一般的に、オーディオシステムは、入力信号と、システム自体の副産物である付加的なオーディオアーチファクトとの比率が最小に保持されている場合、「高品質」とみなされる。このようなアーティファクトは、ノイズ、非高調波歪み、および高調波歪みに分類されることができる。このようなアーティファクトを感知して定量化することは、より良いシステムの設計、および自動チューニングシステムのリアルタイム制御の提供の両方に必要である。
【0003】
オーディオ信号の歪みを感知する技術は、既に特許文献で提案されている。例えば、オーディオシステムでは、歪みの感知、防止、および/または歪みを考慮した低音増強を提供するシステムおよび方法を記載しており、これらは、さまざまなアプリケーションで実装することができる(特許文献参照)。感知回路は、音響出力が生成されるように受信した入力信号に基づいて統計を生成することができる。いくつかの実施形態では、感知回路は、機械学習、統計学習、予測学習、または人工知能を含むグループから選択された技術を用いて、スピーカーの出力で、歪みの可能性または不快な(objectionable)、知覚可能な、または測定可能な歪みの程度に対応するソフト指標を計算するように動作可能である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
オーディオ信号の純度を定量化するための方法とシステムを提供する。
【課題を解決するための手段】
【0006】
以下に説明される本発明の実施形態は、メモリおよびプロセッサを含むシステムを提供する。メモリは、機械学習(ML)モデルを格納するように構成される。プロセッサは、(i)それぞれのレベルの歪みでラベル付けされたトレーニングオーディオ信号のセットを得る、(ii)トレーニングオーディオ信号をそれぞれの画像に変換する、(iii)MLモデルをトレーニングして、画像に基づいて歪みのレベルを推定する、(iv)入力オーディオ信号を受信する、(v)入力オーディオ信号を画像に変換する、および(vi)トレーニングされたMLモデルを画像に適用することにより、入力オーディオ信号の歪みのレベルを推定するように構成される。
【0007】
いくつかの実施形態では、歪みは全高調波歪み(THD)を含む。
【0008】
いくつかの実施形態では、プロセッサは、所与の画像の画素値を設定して、所与のトレーニングオーディオ信号の振幅を時間の関数として表すことで所与のトレーニングオーディオ信号を所与の画像に変換するように構成される。
【0009】
いくつかの実施形態では、それぞれの画像と画像は2次元(2D)である。
【0010】
いくつかの実施形態では、それぞれの画像と画像は3次元以上である。
【0011】
いくつかの実施形態では、プロセッサは、(i)第1の持続時間を有する初期オーディオ信号を受信する、および(ii)初期オーディオ信号を第2の、より短い持続時間を有するスライスにスライスし、トレーニングオーディオ信号を生成することによってトレーニングオーディオ信号を得るように構成される。
【0012】
いくつかの実施形態では、MLモデルは畳み込みニューラルネットワーク(CNN)を含む。
【0013】
いくつかの実施形態では、MLモデルは敵対的生成ネットワーク(GAN)を含む。
【0014】
いくつかの実施形態では、入力オーディオ信号は、非線形オーディオ処理回路から受信される。
【0015】
いくつかの実施形態では、MLモデルは、トレーニングオーディオ信号にラベル付けされた歪みのレベルに従って歪みを分類する。
【0016】
いくつかの実施形態では、MLモデルは、回帰を用いて歪みのレベルを推定する。
【0017】
いくつかの実施形態では、プロセッサは、推定された歪みのレベルを用いて、入力オーディオ信号を生成するオーディオシステムを制御するようにさらに構成される。
【0018】
本発明のもう1つの実施形態による、メモリおよびプロセッサを含むシステムがさらに提供される。メモリは、機械学習(ML)モデルを格納するように構成される。プロセッサは、(i)第1の持続時間の範囲内の第1の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得る、(ii)初期オーディオ信号を、第2の持続時間の範囲内の第1の持続時間より短い第2の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成する、(iii)トレーニングオーディオ信号に基づいて、MLモデルをトレーニングし、歪みのレベルを推定する、(iv)第2の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信する、および(v)トレーニングされたMLモデルを入力オーディオ信号に適用することにより、入力オーディオ信号の歪みのレベルを推定するように構成される。
【0019】
いくつかの実施形態では、プロセッサは、(i)トレーニングオーディオ信号をそれぞれの画像に変換する、および(ii)MLモデルをトレーニングし、画像に基づいて歪みのレベルを推定することによって、MLモデルをトレーニングするように構成される。
【0020】
いくつかの実施形態では、プロセッサは、(i)入力オーディオ信号を画像に変換する、および(ii)トレーニングしたMLモデルを画像に適用することによって、入力オーディオ信号の歪みのレベルを推定するように構成される。
【0021】
いくつかの実施形態では、それぞれの画像は2次元(2D)画像である。
【0022】
いくつかの実施形態では、それぞれの画像と画像は3次元以上である。
【0023】
本発明のもう1つの実施形態による、それぞれの歪みのレベルでラベル付けされたトレーニングオーディオ信号のセットを得るステップを含む方法がさらに提供される。トレーニングオーディオ信号は、それぞれの2次元(2D)画像に変換される。機械学習(ML)モデルは、トレーニングされ、2D画像に基づいて歪みのレベルを推定する。入力オーディオ信号が受信される。入力オーディオ信号は2D画像に変換される。入力オーディオ信号の歪みのレベルは、トレーニングしたMLモデルを2D画像に適用することで推定される。
【0024】
本発明のもう1つの実施形態による、第1の持続時間の範囲内の第1の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得るステップを含む方法がさらに提供される。初期オーディオ信号は、第2の持続時間の範囲内の第1の持続時間より短い第2の持続時間を有するスライスにスライスされ、トレーニングオーディオ信号のセットを生成する。MLモデルは、トレーニングされ、トレーニングオーディオ信号に基づいて、歪みのレベルを推定する。第2の持続時間の範囲内の持続時間を有する入力オーディオ信号が受信される。入力オーディオ信号の歪みのレベルは、トレーニングされたMLモデルを入力オーディオ信号に適用することにより、推定される。
【0025】
添付の図面とともに以下の詳細な説明及び実施例を検討することで、本発明をより完全に理解できる。
【図面の簡単な説明】
【0026】
【
図1】
図1は、本発明の一実施形態による、オーディオ信号の短い応答時間および長い応答時間で構成されたダイナミックレンジコンプレッサ(DRC)によるオーディオ圧縮の効果を示すグラフである。
【
図2】
図2は、本発明の一実施形態による、オーディオ処理装置によって出力される短いオーディオサンプルの仮想全高調波歪み(vTHD)を推定するシステムを概略的に示すブロック図である。
【
図3】
図3は、本発明の一実施形態による、
図2のシステムにおいて人工ニューラルネットワーク(ANN)をトレーニングする際に用いられる2次元(2D)画像のセットを示している。
【
図4】
図4は、本発明の一実施形態による、
図2のシステムを用いて推定されたvTHDを
図3のグラウンドトゥルースTHDと比較する混同行列を示している。
【
図5】
図5は、本発明の一実施形態による、
図2のシステムを用いて短いオーディオサンプルのvTHDを推定する方法を概略的に示すフローチャートである。
【発明を実施するための形態】
【0027】
オーディオ(例えば、音楽または音声)は、主に連続的または離散的な(discrete)周波数範囲に分布する音響エネルギーの方式である。オーディオ機器のオーディオ品質を特徴付ける1つの技術は、その機器が入力オーディオ信号内に導入する全高調波歪み(THD)を測定することである。THDは、信号に存在する高調波歪みを測定するものであり、全ての高調波成分の電力の合計と、基本周波数の電力との比として定義され、基本周波数は正弦波である。
【0028】
主な性能基準が元の正弦波の「純度」(言い換えれば、その高調波に対する元の周波数の寄与(contribution))である場合、この測定は、最も一般的には、より高い調波周波数の集合の二乗平均平方根(RMS)振幅Aと、第1の調波周波数または基本周波数のRMS振幅との比として定義される。
【数1】
【0029】
オーディオシステムでは、THDが低い(即ち、歪みが少ない)ということは、ラウドスピーカー、アンプ、信号処理ユニット、マイク、またはその他のオーディオ機器などのオーディオ機器が、元の入力オーディオをより正確に再生することを意味する。
【0030】
例えば、純粋な正弦波に対する波形の歪みは、THDアナライザーを用いて出力波をその構成(constituent)高調波に解析し、基本波に対する各高調波の振幅をラベル付けする(note)ことによって、またはノッチフィルターを用いて基本周波数を除去して、全高調波歪みにノイズをプラスした、残りの信号を測定することによって測定されることができる。
【0031】
非常に低い固有(inherent)歪みの正弦波発生器がある場合、発生器の出力は、増幅装置への入力として用いられることができ、異なる周波数および信号レベルでの歪みは、出力波形を調べることで、測定することができる。専用の電子機器が正弦波の生成と歪みの測定の両方に用いられることができるが、サウンドカードと適切なソフトウェアを搭載した汎用デジタルコンピュータは、高調波解析を行うことができる。
【0032】
入力した時間領域の信号からのさまざまな異なる周波数の識別は、通常、数学的積分に基づくフーリエ変換を用いて行われる。このプロセスは、測定に必要な特定のスペクトル分解能を達成する、最小の持続時間を有する信号が必要である。従って、THDは、入力した時間領域の信号の十分なサイクル数に対してのみ適切に定義されることができる。例えば、低周波数の正弦波(例えば、100Hzの低音単調(bass monotone)と10ミリ秒(mSec)の対応するサイクル)を測定するには、入力した時間領域の信号が少なくとも数百ミリ秒にわたって(少なくとも数十回にわたって)安定していなければならない。
【0033】
これは、THDが「瞬時」オーディオ信号に対して推定されることができないことを意味しており、例えば、ドラムのビートのサウンドドミナント(sound-dominant)部分でのオーディオパフォーマンスは、通常、最大数十ミリ秒しか持続しない。一方、人間の耳は、このようなドラムのビートの歪みを認識することができる。
【0034】
特に、THDの測定がない場合、(a)測定を用いて、より線形のシステムを設計する(歪みが意図的でないとき)、および(b)リアルタイムを含む測定を用いて、例えば、非線形オーディオ処理要素によりもたらされた意図的な歪みの量を制御(例えば、制限)することができなくなる。
【0035】
本明細書に記載された本発明の実施形態は、機械学習(ML)モデル(例えば、人工ニューラルネットワーク(ANN))、および例えばトレーニング済みMLモデルを用いた人工知能(AI)技術を適用することによって、オーディオ信号の歪みのレベルを定義および推定するシステムおよび方法を提供する。いくつかの実施形態は、瞬時THDの測定として記述されることができる「仮想THD(vTHD)」を定義および推定することによって、高調波歪みを定義および推定する。THDが適切に定義されたオーディオ信号の場合、vTHDは、所与の許容範囲内のTHDと一致する(例えば、1つ小さいまたは1つ大きい分類されたTHD値のなど、最も近いラベル付けされたTHD値への分類誤差を許容する)。しかしながら、THDが非常に短い持続時間のオーディオ信号でフェイルしたとき、vTHDは、そのような信号のvTHDを推定する開示された技術に基づいて、オーディオ品質を推定する新しい標準(standard)を提供する。
【0036】
開示された解決策のいくつかの実施形態は、ノイズに関係なく、非常に短い時間で高調波歪みを感知し、定量化することに焦点を当てている。この特徴は、開示された技術を動的(即ち、急速に変化する)信号に適用できるようにし、より優れたシステムエンジニアリングのための強力なツールを提供する。
【0037】
開示されたML技術は、複雑な信号(例えば、ドラムビート)上で非常に短い時間(例えば、数ミリ秒)で、いわゆる「瞬時」THD(即ち、実体(entity)のvTHD)を体系的に定量化することができる。
【0038】
このようなML技術の課題と機能を説明するために、例として、入力ダイナミックレンジを出力側のより小さいダイナミックレンジにマッピングするダイナミックレンジコンプレッサー(DRC)非線形オーディオ機器を検討することができる。この種の圧縮は通常、信号の高エネルギー部分を低下させることによって実現される。
【0039】
DRCの応答時間と副作用として生じる高調波歪みの量との間には強い関連性がある。一般的な例として、非常に遅い信号(例えば、100Hz)に非常に速い応答時間(例えば、1ミリ秒)を設定したとき、コンプレッサーが出力を大幅に減衰させると歪みが生じる。DRCは、そこから選択することができる異なる応答時間の動作プロファイル(profile)を有することができる。従って、開示された技術を用いると、設計者およびそのような装置のシステムアーキテクトが、vTHDスケールを用いて、異なるDRC設計の歪みの程度を定量化することができる。
【0040】
開示された技術は、DRCに限定されるものではない。DRCの実施形態は、DRCが非常に一般的なツールであり、DRCの歪みアーティファクトが制御可能であることから、このユースケースは、この技術を説明するのに良いツールとなるため、後続して詳しく説明する。
【0041】
いくつかの実施形態では、開示された技術は、画像として(例えば、2D情報に)提示されるオーディオ信号内のオーディオ歪みを検出するよう努める。このため、開示された技術は、測定可能なTHDを有するより長い信号からスライスされた(sliced)信号を用いることによってトレーニングされたモデルに従って、歪みのセットを分類する。特に、より長い信号のTHDは、実験室グレードのアナライザーで測定されることができる。この技術は、短い(例えば、スライスされた)信号のセットを用いてMLモデルをトレーニングし、ラベルのセットに従って任意の短い信号を分類し、このラベルはTHDからvTHDに1対1で変換され、歪みのvTHDは推論(inference)によってのみ決定される。
【0042】
この変換の有効性に関する推測を検証するシナリオの1つは、THDが測定され得る長く安定した信号(例えば、数百サイクル続く)を検討することである。長い信号の数サイクルのみをスライスすることにより、THDが定義されていない非常に短い信号が受信されるが、歪みはまだ存在しており、従って、vTHDスケールの有効な定義は以下の規定に従う:
vTHD(スライスされた信号(sliced_signal)):=THD(長い信号(long_signal))
【0043】
一実施形態では、機械学習(ML)モデルを格納するように構成されたメモリ、およびプロセッサを含み、次のステップを行うように構成されたシステムが提供される:
(i)第1の持続時間の範囲内の第1の持続時間を有し、それぞれ歪みのレベルでラベル付けされた複数の初期オーディオ信号を得る。本発明の実施形態の文脈では、「得る(Obtain)」は、「外部から受け取るおよび/または内部で生成する」ことを意味する。
(ii)初期オーディオ信号を、第1の持続時間よりも短い、第2の持続時間の範囲内の第2の持続時間を有するスライスにスライスすることにより、初期オーディオ信号のスライスを前処理し、トレーニングオーディオ信号のセットを生成する。
(iii)トレーニングオーディオ信号に基づいて、MLモデルをトレーニングし、歪みのレベルを推定する。例えば、MLモデルをトレーニングし、前処理されたオーディオ信号のvTHDを推定する。
(iv)第2の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信する。
(v)トレーニングされたMLモデルを入力オーディオ信号に適用することにより、入力オーディオ信号の歪みのレベル(vTHDのレベルなど)を推定する。
【0044】
特定の実施形態では、プロセッサは、(i)トレーニングオーディオ信号をそれぞれの画像(例えば、2次元(2D)画像、第1の画像とも呼ばれる)に変換する、および(ii)MLモデルをトレーニングし、画像(第1の画像)に基づいて歪みのレベルを推定することによって、MLモデルをトレーニングするように構成される。プロセッサは、(i)入力オーディオ信号を2D画像(第2の画像とも呼ばれる)に変換する、および(ii)トレーニングしたMLモデルを2D画像(第2の画像)に適用することによって、入力オーディオ信号(例えば、そのvTHD)の歪みのレベルを推定するように構成される。しかしながら、開示された技術は、オーディオ信号をテンソルなどの多次元数学的構造(例えば、3Dなど)に変換し、例えば、グラフィックスプロセッシングユニット(GPU)またはテンソルプロセッシングユニット(TPU)などの専用コンピューティングハードウェアを用いることができることに留意されたい。さらに、その入力で他の数学的構造に最適化されたMLモデルのタイプ(例えば、NNのタイプ)が与えられると、本開示の技術は、適切な修正を経た後、オーディオ信号を3D RGB画像などのその数学的構造に変換し、トレーニングされたMLモデルの所与のタイプに適用することができる。
【0045】
トレーニングオーディオ信号は通常、THDのグラウンドトゥルーススケールに従ってラベル付けされ、例えば、推論中に、THDの異なるラベルに従って新しい前処理されたオーディオ信号を推定および分類する。プロセッサはMLモデルを実行して、新しい前処理されたオーディオ信号を推論し、それぞれのvTHDを用いてTHDの異なるラベルに従って新しいオーディオ信号を分類する。しかしながら、実際のTHD測定は行われることができないため、MLモデルは短い信号の歪みパターンを認識するようにトレーニングされる。このようにして、前述のように、vTHDは、非常に短い持続時間の信号のオーディオ処理パフォーマンスを比較するための一貫した(consistent)スケールとなる。
【0046】
一実施形態では、プロセッサは、各オーディオ信号をそれぞれの2D画像に変換することにより、トレーニングオーディオ信号を前処理するように構成される。例えば、プロセッサは、以下に説明されるように、時間軸および信号振幅軸を含む2D平面でオーディオ信号をバイナリコーディングすることによって、各オーディオ信号をそれぞれの白黒の2D画像に変換するように構成され、バイナリコーディングは、グラフにより限定された領域を黒色にエンコードし、2D画像の残りの部分を白色にエンコードすることで具現化される。
【0047】
もう1つの実施形態では、トレーニングサンプルはスライスされ、さらなる前処理を行わずに(例えば、白黒領域のエンコードを行わずに)、このような方式で2D画像の入力として用いられ、トレーニングを行い、新しい信号は、MLモデルがそのオーディオ信号に推論を実行する前に、前処理されない。
【0048】
さらにもう1つの実施形態では、MLモデルは、ANNを任意波形の学習および推論に特に柔軟性がある敵対的生成ネットワーク(GAN)として用いる。一般に、さまざまなMLモデルが、所与のMLモデル用に最適化された(例えば、オーディオサンプルから変換された)データフォーマットで用いられることができる。
【0049】
さらに、必要な変更を行うことで、開示された技術は、高調波歪み以外のオーディオ歪みを識別し、推定することができる。例えば、開示された技術は、適切な修正を経た後、オーディオ信号の位相ノイズ、チャープ(chirp)、およびダンピング(damping)のうちの1つを識別および推定するように適用されることができる。
【0050】
仮想THDと呼ばれるMLベースのオーディオ歪みスケールを提供することにより、オーディオエンジニアは、既存の技術を用いて定量化されることができないオーディオパフォーマンスを定量化することができる。
【0051】
DRCによる短い持続時間のオーディオ歪み(DRC-induced audio distortion over short time durations)
【0052】
DRCが増加した入力信号に応答する(即ち、圧縮する)(「アタック(attack)」)、またはDRCがその処理を停止する(「リリース(release)」)のに必要な持続時間は、オーディオ品質にとって重要なパラメーターである。アタックとリリースを極端に短く設定すると、高調波歪みが発生するため、ユーザーは、単純に「アタックとリリースの設定」を最小値にすることはできない。このアーティファクト、例えば、THDは、DRC設定と入力信号およびその特性との組み合わせの副産物である。
【0053】
出力信号のTHD(即ち、DRC設定の副産物であるTHD)は人間のリスナーが容易に認識できるため、各DRCはそのアタックおよびリリースノブ(または自動設定)を有する。さらに、THDは波形表示装置で見ることができる。
【0054】
人間のユーザーには聞こえて見えるのだが、この歪みを定量化する測定方法がないことは非常に驚くべきことである。この定量化をすることができないということは、DRCエンジニアおよびシステム設計者が、アーティファクトを定量化することで将来のDRCの開発プロセスを体系化するのを助けることができる、科学的測定ツールを欠くことになるということである。前述のように、これはDRCに対してだけでなく、実際にはあらゆる非線形プロセッサ(ゲート、リミッター、サチュレーターなど)に対しても言えることである。
【0055】
図1は、本発明の一実施形態による、オーディオ信号のオーディオ圧縮の効果を示すグラフ10であり、この圧縮は短い応答時間および長い応答時間で構成されたダイナミックレンジコンプレッサ(DRC)により行われている。
【0056】
図示の実施形態では、コンプレッサーまたはDRCは、入力した正弦波信号の入力ダイナミックレンジ13を、ユーザーにより設定された目標ダイナミックレンジ15にマッピングする。このプロセスは、しきい値オーディオエネルギー以上では、DRCが圧縮し、しきい値オーディオエネルギー以下ではDRCが信号を変えない、しきい値オーディオエネルギー(threshold audio energy)、圧縮率、およびアタックとリリースの設定(または自動設定)を含む。
【0057】
図1の例では、入力信号は、DRCのしきい値以下および以上に変えられることができる振幅の固定された1KHzの周波数を有する。
図1の例示的な測定では、DRCのしきい値は-15dB、圧縮率は1:99である。2つの異なるアタック時間(10μSec対2mSec)を用いると、出力結果の歪みが視覚的に非常に鮮明である。図から分かるように、短いアタック時間は、非常に歪んだ信号22となる。一方、長いアタック時間からなる信号12は、大部分が振幅変調をいくらか有する正弦波である。しかしながら、上述のように、信号22および12によって示された異なるレベルの歪みは、現時点では定量化することができない。本開示は、異なる短い持続時間のオーディオ歪み(例えば、数ミリ秒以下の持続時間で発生する歪み)を定量化できる実施形態を提供する。
【0058】
システム記述
【0059】
図2は、本発明の一実施形態による、オーディオ処理装置101によって出力される短いオーディオ信号(121)の仮想全高調波歪み(vTHD)を推定するシステム201を概略的に示すブロック図である。
【0060】
図から分かるように、システム201は、入力信号を歪ませない線形利得回路103、および線形増幅された入力信号を歪ませることができる、前述のDRCなどの非線形プロセッサ105を含むオーディオ処理装置101に結合される。出力信号は、ラウドスピーカーなどの出力装置107に導かれる。
【0061】
vTHDの推定のためのシステム201は、非線形プロセッサ105により導入された意図しない歪みのvTHD210のグレードを提供することによって、オーディオ処理装置101、特に非線形プロセッサ105の非線形オーディオ効果を推定するように構成される。推定されたvTHDを用いると、ユーザーまたはプロセッサが、オーディオ処理装置101の設定を最適化して、意図的な歪みの量、例えば意図的な歪みを所望のレベルに抑えるなど、最適化させることができる。
【0062】
さらに見られるように、システム201は、非線形プロセッサ105で処理された後に歪んだオーディオ信号121で入力される。
【0063】
プロセッサ208または前処理回路206は、オーディオ信号121の1D波形を、
図3に見られる画像などの2D白黒画像211に変換(例えば、符号化)することにより、オーディオ信号121の前処理を行う。換言すれば、プロセッサ208は、2D画像の画素値を設定することによって、所与のトレーニングオーディオ信号を所与の2D画像に変換し、所与のトレーニングオーディオ信号の振幅を時間の関数として表す。
【0064】
次に、プロセッサ208は、メモリ209に保持されたトレーニングされたANN207(2つのオプションを挙げると、畳み込みANN(CNN)またはGANであることができる)を実行し、オーディオ信号121のvTHD210を推定する画像211に推論を行う。
【0065】
最後に、プロセッサ208と非線形プロセッサ105との間のフィードバックライン283は、推定されたvTHDに基づいて、出力オーディオ信号121内のアーティファクトの量を制御することを可能にする。そのようなフィードバックラインは、代替的に、または追加的に、プロセッサ208と線形利得回路103との間で用いられることができる。
【0066】
図2の実施形態は、単に分かりやすくするために例として説明されている。例えば、前処理回路206は、他のタイプの前処理を行う、または所与の適切なMLモデルが用いられているとき、オーディオ信号121の前処理を行なわない(例えば、THDを測定した後にそれらをスライスすることは別として)ことができる。
【0067】
図2に示されたシステム201およびオーディオ処理装置101の異なる要素は、1つ以上のディスクリートコンポーネント、1つ以上の特定用途向け集積回路(ASIC)、および/または1つ以上のフィールドプログラマブルゲートアレイ(FPGA)などの適切なハードウェアを用いて実装されることができる。システム201の機能のいくつかは、本明細書に記載された機能を実行するようにソフトウェアにプログラムされた1つ以上の汎用プロセッサに実装されることができる。
【0068】
ソフトウェアは、例えば、ネットワークを介して、またはホストから、電子形式でプロセッサにダウンロードされることができ、あるいは代替的または追加的に、磁気、光学、または電子メモリ媒体などの非一時的な有形媒体に提供および/または格納されることができる。
【0069】
ANNを用いてVTHDを後続して決定するオーディオ信号の前処理
【0070】
図3は、本発明の一実施形態による、
図2のシステムにおいて人工ニューラルネットワーク(ANN)207をトレーニングする際に使用される2次元(2D)画像のセット202を示している。図から分かるように、セット202の画像は、徐々に増加するTHDレベルに関連付けられる。THDは、2D画像が生成されたトレーニングオーディオ信号から測定され、トレーニングオーディオ信号は、それぞれ1KHzで48サイクル長(即ち、48ミリ秒の持続時間のサンプル)である。前処理された2D画像は、トレーニングオーディオサンプルが切り出されて(例えば、スライスされて)5サイクルのみが残った後に生成される。従って、トレーニングは短い持続時間のサンプル(例えば、1KHz波の5サイクル)を用い、各サンプルの全持続時間は5ミリ秒である。上記で強調したように、この持続時間は非常に短く、例えば、高調波歪みの有意義なFFT分析を行えないと見なされている。原理的には、信号は1サイクルの数分の1(例えば、1/4サイクル)まで切り出されることができ、開示された技術は、そのような超短オーディオ信号を用いて歪んだvTHDスケールを生成する。切り出された信号を用いると、例えば、開示された技術の低い信号対雑音比に対する耐性を最大化することがさらに可能になり、同時に超短持続時間のオーディオ高調波歪みの分析を得ることができる。
【0071】
トレーニング画像のセット202は、カスケードの前処理された正弦波信号であり、最初の正弦波信号は、正弦波をその最小および最大絶対値でクリップする、増加した「デジタル飽和」レベルを有する。図から分かるように、クリッピングは初めがなく、即ち、THD=0を有するゼロクリッピングから始まり、飽和効果が、測定の(例えばグラウンドトゥルース)THDが28の矩形波のような波形となる最大のクリッピングまで増加する。所与の例では、
図4で説明されているように、提示を簡単にするために、実際のテストは4%のTHD(即ち、THD=4)から開始する。
【0072】
増加したTHDのレベルは、より高い高調波(3ω、5ω、7ω)、ωの純粋な、正弦波高調波の信号への相対的な寄与の増加を反映している。
【0073】
セット202の各2D画像は、
図2で説明されたように、画像211がそれぞれのオーディオ信号121から受信された方法と同様に、1Dの波形から受信される。
【0074】
特に、前処理は、エンベロープと水平軸との間の領域212を黒色にし、各画像の残りを白色に維持するコードを用いることができる。
【0075】
図3によって例示された特定の例では、データ前処理はこれらのステップを含む:
1.データのデジタル化(8ビット): セット202のようなセットのN個の波形のうちの各波形iは、jが時間インデックスである時間 {Sj} のシーケンスによってサンプリングされる。
データの正規化: 全てのデータサンプル値は-1から1に正規化される。
2.データ変換: ANNの畳み込みNN(CNN)アーキテクチャを用いるために、データは1Dデータ(シーケンスデータ-オーディオ信号)から2Dデータに変換される。
2.1. 全ての正弦波サンプル配列(array)は行列(matrix)に変換される(グレースケール画像で表される)
2.2. 全ての行列セルは白色で開始される。各行iは正弦波の振幅を表す(所与の精度で)。各列は、サンプリングの時間jを表す。
2.3. 行列を埋める(Filling the matrix): 波形サンプル i=1, 2, ・・・Nの振幅は、式 Matrix[(1 - Amplitude[Sij]) * 100][Sij] = 0 を用いて変換される。(黒色)。
このステップを適用することで、Si振幅とゼロ振幅行の間の全ての領域(同様に白色で埋められる。これは、全てのサンプル内により多くのデータを追加するために行われた。この方法は、信号のコントラストを最大化し、より良い画像処理をする。
【0076】
VTHDの分類におけるANNの性能の分析
【0077】
MLの分野、特に統計的分類の問題では、エラー行列とも呼ばれる混同行列は、アルゴリズムの性能を視覚化できる特定のテーブルレイアウトであり、通常は、教師あり学習アルゴリズム(即ち、ラベル付けされたトレーニングデータを用いて学習するアルゴリズム)である。行列の各行は実際のクラスのインスタンスを表し、各列は予測されたクラスのインスタンスを表す(またはその逆)。この名前は、システムが2つのクラスを混同しているかどうかを簡単に確認できるという事実から由来している(即ち、一般的に、一方を他方と誤ってラベル付けしている)。
【0078】
図4は、本発明の一実施形態による、
図2のシステム201を用いて推定されたvTHD210を
図3のグラウンドトゥルースTHDと比較する混同行列302を示している。各THDレベルで推論されたサンプル数は、スケール304によって示され、サンプル数は、数個から20個以上の間である。
【0079】
図から分かるように、THD>4の場合、トレーニングされたANN207による推論中に発生したエラーは、最大で1クラスの偏差である(例えば、THD=jのいくつかのオーディオサンプルは、VTHD=j+1またはVTHD=j-1と分類されている場合がある)。オーディオサンプルの大部分は、システム201によって正確に分類された。
【0080】
図4に示した例は一例である。もう1つの例として、分類を用いてグラウンドトゥルースTHDと比較してvTHDのエラーを推定するのではなく、以下で説明するように、MLモデルは、回帰ベースのスコアリングを用いることができる。
【0081】
短いオーディオサンプルのVTHDの推定方法
【0082】
図5は、本発明の一実施形態による、
図2のシステム201を用いて短いオーディオサンプルのvTHDを推定する方法を概略的に示すフローチャートである。提示された実施形態によるアルゴリズムは、トレーニング段階401と推論段階403間で分けられるプロセスを実行する。
【0083】
トレーニング段階は、アップロードステップ402で始まる。アップロードステップ402の間、プロセッサ208は、メモリ209から、
図3で用いられる5サイクルオーディオサンプルのような短い(例えば、スライスされた)トレーニングオーディオサンプルのセットをアップロードする。次に、前処理回路206は、データフォーマット変換ステップ404で、
図3に示されるように、オーディオサンプルを白黒画像に変換する。
【0084】
ANNトレーニングステップ406では、プロセッサ208は、白黒画像を用いてANN207をトレーニングし、オーディオ信号のvTHDを推定する。
【0085】
推論段階403は、オーディオサンプル入力ステップ408で、システム201が短い持続時間のオーディオサンプル(例えば、数ミリ秒の持続時間)を入力として受信することによって開始する。
【0086】
次に、前処理回路206は、データフォーマット変換ステップ410で、短いオーディオサンプルを白黒画像に変換する。次いで、プロセッサ208は、vTHD推定ステップ412で、トレーニングされたANN207を実行してオーディオサンプルのvTHD値を推定する。最後に、vTHD出力ステップ414で、システム201のプロセッサ208は、推定されたvTHDをユーザーまたはプロセッサに出力し、例えば、オーディオ処理装置101の非線形プロセッサ105によって課される飽和レベルを調整するなど、所望のvTHD値に従って非線形オーディオ段階を調整する。
【0087】
図5のフローチャートは、単に分かりやすくするために例として説明されている。例えば、他の前処理ステップまたはより少ないステップが用いられてもよい。
【0088】
回帰ベースのVTHD推定
【0089】
前述のように、回帰ベースのスコアリングが
図4に示された分類によるvTHD推定に加えて、またはその代替として、用いられることができる。回帰ベースのスコアリングでは、システムは同じ処理済みデータを用いる(白く塗られた(white painted)データおよび/または黒く塗られた(black painted)データが用いられることができる)。この実施形態では、CNNは、予測の平均二乗誤差関数を損失関数として用い、vTHDがグラウンドトゥルースTHD値にどれだけ近いかを示す数値を出力する。
【0090】
アルゴリズムは以下のステップに従う:
前処理:
1.分類アーキテクチャと同様に同じ波形のトレーニングに用いる
2.YベクトルにスタックしたTHD値に正規化し、[0,1]値に正規化する。
3.分類ネットワークと同様に乱数発生器を用いたデータ分割を行う
出力:
1.正規化されたvTHD値
2.トレーニングオーディオサンプルが推定された場合、サンプルのvTHDのCNN予測と、初期オーディオ信号で測定されたTHDの真値との間の推定誤差を出力する。例えば、モデルがvTHD=0.8(正規化された)の結果を与えると仮定すると、グラウンドトゥルースTHDは[0.75, 0.85]の範囲内にある可能性がある。
【0091】
分類の方法と回帰ベースの方法の両方の精度は、例えば、8ビットの代わりに16ビットのデジタル化スキームを用いることによって、データサンプリングの精度によって向上させることができる。
【0092】
留意することは、数学的には、データセットはYベクトルに関して分類問題と回帰問題で異なって見えることである(分類では、全ての例Sjに対して1Dの分類ベクトルがある)。各例Sjの回帰には、スカラー回帰スコアがある。
【0093】
本明細書で説明する実施形態は主に、オーディオエンジニアリングスーツおよび/または消費者向けデバイスのオーディオ処理に対処するが、本明細書に記載の方法およびシステムは、例えば、オーディオ品質の分析、フィルター設計、または静止画像処理またはビデオ処理のためのフィルターの自動自己制御などの他のアプリケーションに用いられ、適切な修正を経た後、FFT分析に基づく、または部分的に基づくデータ圧縮の符号化および復号化技術に用いられることもできる。
【0094】
上述の実施形態は、例として引用されており、以下の特許請求の範囲は、上述に具体的に開示および記載された内容に限定されないことに留意されたい。むしろ、この範囲は、上述の様々な特徴のコンビネーションおよびサブコンビネーションの両方、ならびに前述の説明を読んで当業者が知るであろう、先行技術に開示されていないその変更および修正を含む。参照することにより本特許出願に組み込まれた文書は、組み込まれた文書の用語の定義が本明細書で明示的または暗黙的になされた定義と矛盾する場合を除いて、本出願の不可欠な部分と見なされ、本明細書の定義のみが考慮されるべきである。
【符号の説明】
【0095】
10 グラフ
12、22 信号
13 入力ダイナミックレンジ
15 目標ダイナミックレンジ
101 オーディオ処理装置
103 線形利得回路
105 非線形プロセッサ
107 出力装置
121 オーディオ信号
201 システム
202 セット
206 前処理回路
207 人工ニューラルネットワーク(ANN)
208 プロセッサ
209 メモリ
210 vTHD
211 画像
212 領域
283 フィードバックライン
302 混同行列
304 スケール
401 トレーニング段階
402 アップロードステップ
403 推論段階
404 データフォーマット変換ステップ
406 ANNトレーニングステップ
408 オーディオサンプル入力ステップ
410 データフォーマット変換ステップ
412 vTHD推定ステップ
414 vTHD出力ステップ