特許7496399 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 新唐科技股▲ふん▼有限公司の特許一覧

特許7496399機械学習による信号の純度の定量化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-29

(45)【発行日】2024-06-06

(54)【発明の名称】機械学習による信号の純度の定量化

(51)【国際特許分類】

G10L 25/51 20130101AFI20240530BHJP

G10L 25/30 20130101ALI20240530BHJP

【ＦＩ】

G10L25/51

G10L25/30

【請求項の数】 11

(21)【出願番号】P 2022176806

(22)【出願日】2022-11-03

(65)【公開番号】P2023070158

(43)【公開日】2023-05-18

【審査請求日】2022-11-03

(31)【優先権主張番号】17/518,616

(32)【優先日】2021-11-04

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】508197206

【氏名又は名称】新唐科技股▲ふん▼有限公司

(74)【代理人】

【識別番号】110000291

【氏名又は名称】弁理士法人コスモス国際特許商標事務所

(72)【発明者】

【氏名】バーカイ，イッタイ

(72)【発明者】

【氏名】タミール，イタマール

【審査官】中村天真

(56)【参考文献】

【文献】特表２００９－５００９５２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１９／０２８７５５０（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１８／０１１４５３６（ＵＳ，Ａ１）

【文献】Gabriel MITTAG et al.，“Semantic Labeling of Quality Impairments in Speech Spectrograms with Deep Convolutional Networks”，2019 Eleventh International Conference on Quality of Multimedia Experience (QoMEX)，2019年06月，p,1-3

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２５／００－２５／９３

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

機械学習（ＭＬ）モデルを格納するように構成されたメモリ、および
第１の持続時間の範囲内の第１の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得て、
前記初期オーディオ信号を、第２の持続時間の範囲内の前記第１の持続時間より短い第２の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成し、
前記トレーニングオーディオ信号をそれぞれの第１の画像に変換し、
前記ＭＬモデルをトレーニングして、前記それぞれの第１の画像に基づいて前記歪みのレベルを推定し、
前記第２の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信し、
前記入力オーディオ信号を第２の画像に変換し、且つ
前記トレーニングされたＭＬモデルを前記第２の画像に適用することにより、前記入力オーディオ信号の歪みのレベルを推定するように構成されるプロセッサを含み、
前記歪みは全高調波歪み（ＴＨＤ）を含むシステム。

【請求項2】

前記プロセッサは、所与の画像の画素値を設定して、所与のトレーニングオーディオ信号の振幅を時間の関数として表すことで前記所与のトレーニングオーディオ信号を前記所与の画像に変換するように構成される請求項１に記載のシステム。

【請求項3】

前記それぞれの第１の画像と前記第２の画像は２次元（２Ｄ）である請求項１に記載のシステム。

【請求項4】

前記それぞれの第１の画像と前記第２の画像は３次元以上である請求項１に記載のシステム。

【請求項5】

前記ＭＬモデルは畳み込みニューラルネットワーク（ＣＮＮ）、または敵対的生成ネットワーク（ＧＡＮ）を含む請求項１に記載のシステム。

【請求項6】

前記入力オーディオ信号は、非線形オーディオ処理回路から受信される請求項１に記載のシステム。

【請求項7】

前記ＭＬモデルは、前記トレーニングオーディオ信号にラベル付けされた前記歪みのレベルに従って前記歪みを分類する請求項１に記載のシステム。

【請求項8】

前記ＭＬモデルは、回帰を用いて前記歪みのレベルを推定する請求項１に記載のシステム。

【請求項9】

前記プロセッサは、前記推定された前記歪みのレベルを用いて、前記入力オーディオ信号を生成するオーディオシステムを制御するようにさらに構成される請求項１に記載のシステム。

【請求項10】

第１の持続時間の範囲内の第１の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得るステップ、
前記初期オーディオ信号を、第２の持続時間の範囲内の前記第１の持続時間より短い第２の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成するステップ、
前記トレーニングオーディオ信号をそれぞれの第１の画像に変換するステップ、
機械学習（ＭＬ）モデルをトレーニングし、前記それぞれの第１の画像に基づいて前記歪みのレベルを推定するステップ、
前記第２の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信するステップ、
前記入力オーディオ信号を第２の画像に変換するステップ、および
前記入力オーディオ信号の前記歪みのレベルを、前記トレーニングしたＭＬモデルを前記第２の画像に適用することで推定するステップを含み、
前記歪みは全高調波歪み（ＴＨＤ）を含む方法。

【請求項11】

所与のトレーニングオーディオ信号を所与の画像に変換するステップは、前記所与の画像の画素値を設定して、前記所与のトレーニングオーディオ信号の振幅を時間の関数として表すステップを含む請求項１０に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ信号の処理に関するものであり、特に、オーディオ信号の純度を定量化するための方法とシステムに関するものである。

【背景技術】

【0002】

一般的に、オーディオシステムは、入力信号と、システム自体の副産物である付加的なオーディオアーチファクトとの比率が最小に保持されている場合、「高品質」とみなされる。このようなアーティファクトは、ノイズ、非高調波歪み、および高調波歪みに分類されることができる。このようなアーティファクトを感知して定量化することは、より良いシステムの設計、および自動チューニングシステムのリアルタイム制御の提供の両方に必要である。

【0003】

オーディオ信号の歪みを感知する技術は、既に特許文献で提案されている。例えば、オーディオシステムでは、歪みの感知、防止、および／または歪みを考慮した低音増強を提供するシステムおよび方法を記載しており、これらは、さまざまなアプリケーションで実装することができる（特許文献参照）。感知回路は、音響出力が生成されるように受信した入力信号に基づいて統計を生成することができる。いくつかの実施形態では、感知回路は、機械学習、統計学習、予測学習、または人工知能を含むグループから選択された技術を用いて、スピーカーの出力で、歪みの可能性または不快な（ｏｂｊｅｃｔｉｏｎａｂｌｅ）、知覚可能な、または測定可能な歪みの程度に対応するソフト指標を計算するように動作可能である。

【先行技術文献】

【特許文献】

【0004】

【文献】米国特許第１０５５９３１６号

【発明の概要】

【発明が解決しようとする課題】

【0005】

オーディオ信号の純度を定量化するための方法とシステムを提供する。

【課題を解決するための手段】

【0006】

以下に説明される本発明の実施形態は、メモリおよびプロセッサを含むシステムを提供する。メモリは、機械学習（ＭＬ）モデルを格納するように構成される。プロセッサは、（ｉ）それぞれのレベルの歪みでラベル付けされたトレーニングオーディオ信号のセットを得る、（ｉｉ）トレーニングオーディオ信号をそれぞれの画像に変換する、（ｉｉｉ）ＭＬモデルをトレーニングして、画像に基づいて歪みのレベルを推定する、（ｉｖ）入力オーディオ信号を受信する、（ｖ）入力オーディオ信号を画像に変換する、および（ｖｉ）トレーニングされたＭＬモデルを画像に適用することにより、入力オーディオ信号の歪みのレベルを推定するように構成される。

【0007】

いくつかの実施形態では、歪みは全高調波歪み（ＴＨＤ）を含む。

【0008】

いくつかの実施形態では、プロセッサは、所与の画像の画素値を設定して、所与のトレーニングオーディオ信号の振幅を時間の関数として表すことで所与のトレーニングオーディオ信号を所与の画像に変換するように構成される。

【0009】

いくつかの実施形態では、それぞれの画像と画像は２次元（２Ｄ）である。

【0010】

いくつかの実施形態では、それぞれの画像と画像は３次元以上である。

【0011】

いくつかの実施形態では、プロセッサは、（ｉ）第１の持続時間を有する初期オーディオ信号を受信する、および（ｉｉ）初期オーディオ信号を第２の、より短い持続時間を有するスライスにスライスし、トレーニングオーディオ信号を生成することによってトレーニングオーディオ信号を得るように構成される。

【0012】

いくつかの実施形態では、ＭＬモデルは畳み込みニューラルネットワーク（ＣＮＮ）を含む。

【0013】

いくつかの実施形態では、ＭＬモデルは敵対的生成ネットワーク（ＧＡＮ）を含む。

【0014】

いくつかの実施形態では、入力オーディオ信号は、非線形オーディオ処理回路から受信される。

【0015】

いくつかの実施形態では、ＭＬモデルは、トレーニングオーディオ信号にラベル付けされた歪みのレベルに従って歪みを分類する。

【0016】

いくつかの実施形態では、ＭＬモデルは、回帰を用いて歪みのレベルを推定する。

【0017】

いくつかの実施形態では、プロセッサは、推定された歪みのレベルを用いて、入力オーディオ信号を生成するオーディオシステムを制御するようにさらに構成される。

【0018】

本発明のもう１つの実施形態による、メモリおよびプロセッサを含むシステムがさらに提供される。メモリは、機械学習（ＭＬ）モデルを格納するように構成される。プロセッサは、（ｉ）第１の持続時間の範囲内の第１の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得る、（ｉｉ）初期オーディオ信号を、第２の持続時間の範囲内の第１の持続時間より短い第２の持続時間を有するスライスにスライスし、トレーニングオーディオ信号のセットを生成する、（ｉｉｉ）トレーニングオーディオ信号に基づいて、ＭＬモデルをトレーニングし、歪みのレベルを推定する、（ｉｖ）第２の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信する、および（ｖ）トレーニングされたＭＬモデルを入力オーディオ信号に適用することにより、入力オーディオ信号の歪みのレベルを推定するように構成される。

【0019】

いくつかの実施形態では、プロセッサは、（ｉ）トレーニングオーディオ信号をそれぞれの画像に変換する、および（ｉｉ）ＭＬモデルをトレーニングし、画像に基づいて歪みのレベルを推定することによって、ＭＬモデルをトレーニングするように構成される。

【0020】

いくつかの実施形態では、プロセッサは、（ｉ）入力オーディオ信号を画像に変換する、および（ｉｉ）トレーニングしたＭＬモデルを画像に適用することによって、入力オーディオ信号の歪みのレベルを推定するように構成される。

【0021】

いくつかの実施形態では、それぞれの画像は２次元（２Ｄ）画像である。

【0022】

いくつかの実施形態では、それぞれの画像と画像は３次元以上である。

【0023】

本発明のもう１つの実施形態による、それぞれの歪みのレベルでラベル付けされたトレーニングオーディオ信号のセットを得るステップを含む方法がさらに提供される。トレーニングオーディオ信号は、それぞれの２次元（２Ｄ）画像に変換される。機械学習（ＭＬ）モデルは、トレーニングされ、２Ｄ画像に基づいて歪みのレベルを推定する。入力オーディオ信号が受信される。入力オーディオ信号は２Ｄ画像に変換される。入力オーディオ信号の歪みのレベルは、トレーニングしたＭＬモデルを２Ｄ画像に適用することで推定される。

【0024】

本発明のもう１つの実施形態による、第１の持続時間の範囲内の第１の持続時間を有し、それぞれの歪みのレベルでラベル付けされた複数の初期オーディオ信号を得るステップを含む方法がさらに提供される。初期オーディオ信号は、第２の持続時間の範囲内の第１の持続時間より短い第２の持続時間を有するスライスにスライスされ、トレーニングオーディオ信号のセットを生成する。ＭＬモデルは、トレーニングされ、トレーニングオーディオ信号に基づいて、歪みのレベルを推定する。第２の持続時間の範囲内の持続時間を有する入力オーディオ信号が受信される。入力オーディオ信号の歪みのレベルは、トレーニングされたＭＬモデルを入力オーディオ信号に適用することにより、推定される。

【0025】

添付の図面とともに以下の詳細な説明及び実施例を検討することで、本発明をより完全に理解できる。

【図面の簡単な説明】

【0026】

【図1】図１は、本発明の一実施形態による、オーディオ信号の短い応答時間および長い応答時間で構成されたダイナミックレンジコンプレッサ（ＤＲＣ）によるオーディオ圧縮の効果を示すグラフである。

【図2】図２は、本発明の一実施形態による、オーディオ処理装置によって出力される短いオーディオサンプルの仮想全高調波歪み（ｖＴＨＤ）を推定するシステムを概略的に示すブロック図である。

【図3】図３は、本発明の一実施形態による、図２のシステムにおいて人工ニューラルネットワーク（ＡＮＮ）をトレーニングする際に用いられる２次元（２Ｄ）画像のセットを示している。

【図4】図４は、本発明の一実施形態による、図２のシステムを用いて推定されたｖＴＨＤを図３のグラウンドトゥルースＴＨＤと比較する混同行列を示している。

【図5】図５は、本発明の一実施形態による、図２のシステムを用いて短いオーディオサンプルのｖＴＨＤを推定する方法を概略的に示すフローチャートである。

【発明を実施するための形態】

【0027】

オーディオ（例えば、音楽または音声）は、主に連続的または離散的な（ｄｉｓｃｒｅｔｅ）周波数範囲に分布する音響エネルギーの方式である。オーディオ機器のオーディオ品質を特徴付ける１つの技術は、その機器が入力オーディオ信号内に導入する全高調波歪み（ＴＨＤ）を測定することである。ＴＨＤは、信号に存在する高調波歪みを測定するものであり、全ての高調波成分の電力の合計と、基本周波数の電力との比として定義され、基本周波数は正弦波である。

【0028】

主な性能基準が元の正弦波の「純度」（言い換えれば、その高調波に対する元の周波数の寄与（ｃｏｎｔｒｉｂｕｔｉｏｎ））である場合、この測定は、最も一般的には、より高い調波周波数の集合の二乗平均平方根（ＲＭＳ）振幅Ａと、第１の調波周波数または基本周波数のＲＭＳ振幅との比として定義される。

【数1】

【0029】

オーディオシステムでは、ＴＨＤが低い（即ち、歪みが少ない）ということは、ラウドスピーカー、アンプ、信号処理ユニット、マイク、またはその他のオーディオ機器などのオーディオ機器が、元の入力オーディオをより正確に再生することを意味する。

【0030】

例えば、純粋な正弦波に対する波形の歪みは、ＴＨＤアナライザーを用いて出力波をその構成（ｃｏｎｓｔｉｔｕｅｎｔ）高調波に解析し、基本波に対する各高調波の振幅をラベル付けする（ｎｏｔｅ）ことによって、またはノッチフィルターを用いて基本周波数を除去して、全高調波歪みにノイズをプラスした、残りの信号を測定することによって測定されることができる。

【0031】

非常に低い固有（ｉｎｈｅｒｅｎｔ）歪みの正弦波発生器がある場合、発生器の出力は、増幅装置への入力として用いられることができ、異なる周波数および信号レベルでの歪みは、出力波形を調べることで、測定することができる。専用の電子機器が正弦波の生成と歪みの測定の両方に用いられることができるが、サウンドカードと適切なソフトウェアを搭載した汎用デジタルコンピュータは、高調波解析を行うことができる。

【0032】

入力した時間領域の信号からのさまざまな異なる周波数の識別は、通常、数学的積分に基づくフーリエ変換を用いて行われる。このプロセスは、測定に必要な特定のスペクトル分解能を達成する、最小の持続時間を有する信号が必要である。従って、ＴＨＤは、入力した時間領域の信号の十分なサイクル数に対してのみ適切に定義されることができる。例えば、低周波数の正弦波（例えば、１００Ｈｚの低音単調（ｂａｓｓｍｏｎｏｔｏｎｅ）と１０ミリ秒（ｍＳｅｃ）の対応するサイクル）を測定するには、入力した時間領域の信号が少なくとも数百ミリ秒にわたって（少なくとも数十回にわたって）安定していなければならない。

【0033】

これは、ＴＨＤが「瞬時」オーディオ信号に対して推定されることができないことを意味しており、例えば、ドラムのビートのサウンドドミナント（ｓｏｕｎｄ－ｄｏｍｉｎａｎｔ）部分でのオーディオパフォーマンスは、通常、最大数十ミリ秒しか持続しない。一方、人間の耳は、このようなドラムのビートの歪みを認識することができる。

【0034】

特に、ＴＨＤの測定がない場合、（ａ）測定を用いて、より線形のシステムを設計する（歪みが意図的でないとき）、および（ｂ）リアルタイムを含む測定を用いて、例えば、非線形オーディオ処理要素によりもたらされた意図的な歪みの量を制御（例えば、制限）することができなくなる。

【0035】

本明細書に記載された本発明の実施形態は、機械学習（ＭＬ）モデル（例えば、人工ニューラルネットワーク（ＡＮＮ））、および例えばトレーニング済みＭＬモデルを用いた人工知能（ＡＩ）技術を適用することによって、オーディオ信号の歪みのレベルを定義および推定するシステムおよび方法を提供する。いくつかの実施形態は、瞬時ＴＨＤの測定として記述されることができる「仮想ＴＨＤ（ｖＴＨＤ）」を定義および推定することによって、高調波歪みを定義および推定する。ＴＨＤが適切に定義されたオーディオ信号の場合、ｖＴＨＤは、所与の許容範囲内のＴＨＤと一致する（例えば、１つ小さいまたは１つ大きい分類されたＴＨＤ値のなど、最も近いラベル付けされたＴＨＤ値への分類誤差を許容する）。しかしながら、ＴＨＤが非常に短い持続時間のオーディオ信号でフェイルしたとき、ｖＴＨＤは、そのような信号のｖＴＨＤを推定する開示された技術に基づいて、オーディオ品質を推定する新しい標準（ｓｔａｎｄａｒｄ）を提供する。

【0036】

開示された解決策のいくつかの実施形態は、ノイズに関係なく、非常に短い時間で高調波歪みを感知し、定量化することに焦点を当てている。この特徴は、開示された技術を動的（即ち、急速に変化する）信号に適用できるようにし、より優れたシステムエンジニアリングのための強力なツールを提供する。

【0037】

開示されたＭＬ技術は、複雑な信号（例えば、ドラムビート）上で非常に短い時間（例えば、数ミリ秒）で、いわゆる「瞬時」ＴＨＤ（即ち、実体（ｅｎｔｉｔｙ）のｖＴＨＤ）を体系的に定量化することができる。

【0038】

このようなＭＬ技術の課題と機能を説明するために、例として、入力ダイナミックレンジを出力側のより小さいダイナミックレンジにマッピングするダイナミックレンジコンプレッサー（ＤＲＣ）非線形オーディオ機器を検討することができる。この種の圧縮は通常、信号の高エネルギー部分を低下させることによって実現される。

【0039】

ＤＲＣの応答時間と副作用として生じる高調波歪みの量との間には強い関連性がある。一般的な例として、非常に遅い信号（例えば、１００Ｈｚ）に非常に速い応答時間（例えば、１ミリ秒）を設定したとき、コンプレッサーが出力を大幅に減衰させると歪みが生じる。ＤＲＣは、そこから選択することができる異なる応答時間の動作プロファイル（ｐｒｏｆｉｌｅ）を有することができる。従って、開示された技術を用いると、設計者およびそのような装置のシステムアーキテクトが、ｖＴＨＤスケールを用いて、異なるＤＲＣ設計の歪みの程度を定量化することができる。

【0040】

開示された技術は、ＤＲＣに限定されるものではない。ＤＲＣの実施形態は、ＤＲＣが非常に一般的なツールであり、ＤＲＣの歪みアーティファクトが制御可能であることから、このユースケースは、この技術を説明するのに良いツールとなるため、後続して詳しく説明する。

【0041】

いくつかの実施形態では、開示された技術は、画像として（例えば、２Ｄ情報に）提示されるオーディオ信号内のオーディオ歪みを検出するよう努める。このため、開示された技術は、測定可能なＴＨＤを有するより長い信号からスライスされた（ｓｌｉｃｅｄ）信号を用いることによってトレーニングされたモデルに従って、歪みのセットを分類する。特に、より長い信号のＴＨＤは、実験室グレードのアナライザーで測定されることができる。この技術は、短い（例えば、スライスされた）信号のセットを用いてＭＬモデルをトレーニングし、ラベルのセットに従って任意の短い信号を分類し、このラベルはＴＨＤからｖＴＨＤに１対１で変換され、歪みのｖＴＨＤは推論（ｉｎｆｅｒｅｎｃｅ）によってのみ決定される。

【0042】

この変換の有効性に関する推測を検証するシナリオの１つは、ＴＨＤが測定され得る長く安定した信号（例えば、数百サイクル続く）を検討することである。長い信号の数サイクルのみをスライスすることにより、ＴＨＤが定義されていない非常に短い信号が受信されるが、歪みはまだ存在しており、従って、ｖＴＨＤスケールの有効な定義は以下の規定に従う：
ｖＴＨＤ（スライスされた信号（ｓｌｉｃｅｄ＿ｓｉｇｎａｌ））：＝ＴＨＤ（長い信号（ｌｏｎｇ＿ｓｉｇｎａｌ））

【0043】

一実施形態では、機械学習（ＭＬ）モデルを格納するように構成されたメモリ、およびプロセッサを含み、次のステップを行うように構成されたシステムが提供される：
（ｉ）第１の持続時間の範囲内の第１の持続時間を有し、それぞれ歪みのレベルでラベル付けされた複数の初期オーディオ信号を得る。本発明の実施形態の文脈では、「得る（Ｏｂｔａｉｎ）」は、「外部から受け取るおよび／または内部で生成する」ことを意味する。
（ｉｉ）初期オーディオ信号を、第１の持続時間よりも短い、第２の持続時間の範囲内の第２の持続時間を有するスライスにスライスすることにより、初期オーディオ信号のスライスを前処理し、トレーニングオーディオ信号のセットを生成する。
（ｉｉｉ）トレーニングオーディオ信号に基づいて、ＭＬモデルをトレーニングし、歪みのレベルを推定する。例えば、ＭＬモデルをトレーニングし、前処理されたオーディオ信号のｖＴＨＤを推定する。
（ｉｖ）第２の持続時間の範囲内の持続時間を有する入力オーディオ信号を受信する。
（ｖ）トレーニングされたＭＬモデルを入力オーディオ信号に適用することにより、入力オーディオ信号の歪みのレベル（ｖＴＨＤのレベルなど）を推定する。

【0044】

特定の実施形態では、プロセッサは、（ｉ）トレーニングオーディオ信号をそれぞれの画像（例えば、２次元（２Ｄ）画像、第１の画像とも呼ばれる）に変換する、および（ｉｉ）ＭＬモデルをトレーニングし、画像（第１の画像）に基づいて歪みのレベルを推定することによって、ＭＬモデルをトレーニングするように構成される。プロセッサは、（ｉ）入力オーディオ信号を２Ｄ画像（第２の画像とも呼ばれる）に変換する、および（ｉｉ）トレーニングしたＭＬモデルを２Ｄ画像（第２の画像）に適用することによって、入力オーディオ信号（例えば、そのｖＴＨＤ）の歪みのレベルを推定するように構成される。しかしながら、開示された技術は、オーディオ信号をテンソルなどの多次元数学的構造（例えば、３Ｄなど）に変換し、例えば、グラフィックスプロセッシングユニット（ＧＰＵ）またはテンソルプロセッシングユニット（ＴＰＵ）などの専用コンピューティングハードウェアを用いることができることに留意されたい。さらに、その入力で他の数学的構造に最適化されたＭＬモデルのタイプ（例えば、ＮＮのタイプ）が与えられると、本開示の技術は、適切な修正を経た後、オーディオ信号を３ＤＲＧＢ画像などのその数学的構造に変換し、トレーニングされたＭＬモデルの所与のタイプに適用することができる。

【0045】

トレーニングオーディオ信号は通常、ＴＨＤのグラウンドトゥルーススケールに従ってラベル付けされ、例えば、推論中に、ＴＨＤの異なるラベルに従って新しい前処理されたオーディオ信号を推定および分類する。プロセッサはＭＬモデルを実行して、新しい前処理されたオーディオ信号を推論し、それぞれのｖＴＨＤを用いてＴＨＤの異なるラベルに従って新しいオーディオ信号を分類する。しかしながら、実際のＴＨＤ測定は行われることができないため、ＭＬモデルは短い信号の歪みパターンを認識するようにトレーニングされる。このようにして、前述のように、ｖＴＨＤは、非常に短い持続時間の信号のオーディオ処理パフォーマンスを比較するための一貫した（ｃｏｎｓｉｓｔｅｎｔ）スケールとなる。

【0046】

一実施形態では、プロセッサは、各オーディオ信号をそれぞれの２Ｄ画像に変換することにより、トレーニングオーディオ信号を前処理するように構成される。例えば、プロセッサは、以下に説明されるように、時間軸および信号振幅軸を含む２Ｄ平面でオーディオ信号をバイナリコーディングすることによって、各オーディオ信号をそれぞれの白黒の２Ｄ画像に変換するように構成され、バイナリコーディングは、グラフにより限定された領域を黒色にエンコードし、２Ｄ画像の残りの部分を白色にエンコードすることで具現化される。

【0047】

もう１つの実施形態では、トレーニングサンプルはスライスされ、さらなる前処理を行わずに（例えば、白黒領域のエンコードを行わずに）、このような方式で２Ｄ画像の入力として用いられ、トレーニングを行い、新しい信号は、ＭＬモデルがそのオーディオ信号に推論を実行する前に、前処理されない。

【0048】

さらにもう１つの実施形態では、ＭＬモデルは、ＡＮＮを任意波形の学習および推論に特に柔軟性がある敵対的生成ネットワーク（ＧＡＮ）として用いる。一般に、さまざまなＭＬモデルが、所与のＭＬモデル用に最適化された（例えば、オーディオサンプルから変換された）データフォーマットで用いられることができる。

【0049】

さらに、必要な変更を行うことで、開示された技術は、高調波歪み以外のオーディオ歪みを識別し、推定することができる。例えば、開示された技術は、適切な修正を経た後、オーディオ信号の位相ノイズ、チャープ（ｃｈｉｒｐ）、およびダンピング（ｄａｍｐｉｎｇ）のうちの１つを識別および推定するように適用されることができる。

【0050】

仮想ＴＨＤと呼ばれるＭＬベースのオーディオ歪みスケールを提供することにより、オーディオエンジニアは、既存の技術を用いて定量化されることができないオーディオパフォーマンスを定量化することができる。

【0051】

ＤＲＣによる短い持続時間のオーディオ歪み（ＤＲＣ－ｉｎｄｕｃｅｄａｕｄｉｏｄｉｓｔｏｒｔｉｏｎｏｖｅｒｓｈｏｒｔｔｉｍｅｄｕｒａｔｉｏｎｓ）

【0052】

ＤＲＣが増加した入力信号に応答する（即ち、圧縮する）（「アタック（ａｔｔａｃｋ）」）、またはＤＲＣがその処理を停止する（「リリース（ｒｅｌｅａｓｅ）」）のに必要な持続時間は、オーディオ品質にとって重要なパラメーターである。アタックとリリースを極端に短く設定すると、高調波歪みが発生するため、ユーザーは、単純に「アタックとリリースの設定」を最小値にすることはできない。このアーティファクト、例えば、ＴＨＤは、ＤＲＣ設定と入力信号およびその特性との組み合わせの副産物である。

【0053】

出力信号のＴＨＤ（即ち、ＤＲＣ設定の副産物であるＴＨＤ）は人間のリスナーが容易に認識できるため、各ＤＲＣはそのアタックおよびリリースノブ（または自動設定）を有する。さらに、ＴＨＤは波形表示装置で見ることができる。

【0054】

人間のユーザーには聞こえて見えるのだが、この歪みを定量化する測定方法がないことは非常に驚くべきことである。この定量化をすることができないということは、ＤＲＣエンジニアおよびシステム設計者が、アーティファクトを定量化することで将来のＤＲＣの開発プロセスを体系化するのを助けることができる、科学的測定ツールを欠くことになるということである。前述のように、これはＤＲＣに対してだけでなく、実際にはあらゆる非線形プロセッサ（ゲート、リミッター、サチュレーターなど）に対しても言えることである。

【0055】

図１は、本発明の一実施形態による、オーディオ信号のオーディオ圧縮の効果を示すグラフ１０であり、この圧縮は短い応答時間および長い応答時間で構成されたダイナミックレンジコンプレッサ（ＤＲＣ）により行われている。

【0056】

図示の実施形態では、コンプレッサーまたはＤＲＣは、入力した正弦波信号の入力ダイナミックレンジ１３を、ユーザーにより設定された目標ダイナミックレンジ１５にマッピングする。このプロセスは、しきい値オーディオエネルギー以上では、ＤＲＣが圧縮し、しきい値オーディオエネルギー以下ではＤＲＣが信号を変えない、しきい値オーディオエネルギー（ｔｈｒｅｓｈｏｌｄａｕｄｉｏｅｎｅｒｇｙ）、圧縮率、およびアタックとリリースの設定（または自動設定）を含む。

【0057】

図１の例では、入力信号は、ＤＲＣのしきい値以下および以上に変えられることができる振幅の固定された１ＫＨｚの周波数を有する。図１の例示的な測定では、ＤＲＣのしきい値は－１５ｄＢ、圧縮率は１：９９である。２つの異なるアタック時間（１０μＳｅｃ対２ｍＳｅｃ）を用いると、出力結果の歪みが視覚的に非常に鮮明である。図から分かるように、短いアタック時間は、非常に歪んだ信号２２となる。一方、長いアタック時間からなる信号１２は、大部分が振幅変調をいくらか有する正弦波である。しかしながら、上述のように、信号２２および１２によって示された異なるレベルの歪みは、現時点では定量化することができない。本開示は、異なる短い持続時間のオーディオ歪み（例えば、数ミリ秒以下の持続時間で発生する歪み）を定量化できる実施形態を提供する。

【0058】

システム記述

【0059】

図２は、本発明の一実施形態による、オーディオ処理装置１０１によって出力される短いオーディオ信号（１２１）の仮想全高調波歪み（ｖＴＨＤ）を推定するシステム２０１を概略的に示すブロック図である。

【0060】

図から分かるように、システム２０１は、入力信号を歪ませない線形利得回路１０３、および線形増幅された入力信号を歪ませることができる、前述のＤＲＣなどの非線形プロセッサ１０５を含むオーディオ処理装置１０１に結合される。出力信号は、ラウドスピーカーなどの出力装置１０７に導かれる。

【0061】

ｖＴＨＤの推定のためのシステム２０１は、非線形プロセッサ１０５により導入された意図しない歪みのｖＴＨＤ２１０のグレードを提供することによって、オーディオ処理装置１０１、特に非線形プロセッサ１０５の非線形オーディオ効果を推定するように構成される。推定されたｖＴＨＤを用いると、ユーザーまたはプロセッサが、オーディオ処理装置１０１の設定を最適化して、意図的な歪みの量、例えば意図的な歪みを所望のレベルに抑えるなど、最適化させることができる。

【0062】

さらに見られるように、システム２０１は、非線形プロセッサ１０５で処理された後に歪んだオーディオ信号１２１で入力される。

【0063】

プロセッサ２０８または前処理回路２０６は、オーディオ信号１２１の１Ｄ波形を、図３に見られる画像などの２Ｄ白黒画像２１１に変換（例えば、符号化）することにより、オーディオ信号１２１の前処理を行う。換言すれば、プロセッサ２０８は、２Ｄ画像の画素値を設定することによって、所与のトレーニングオーディオ信号を所与の２Ｄ画像に変換し、所与のトレーニングオーディオ信号の振幅を時間の関数として表す。

【0064】

次に、プロセッサ２０８は、メモリ２０９に保持されたトレーニングされたＡＮＮ２０７（２つのオプションを挙げると、畳み込みＡＮＮ（ＣＮＮ）またはＧＡＮであることができる）を実行し、オーディオ信号１２１のｖＴＨＤ２１０を推定する画像２１１に推論を行う。

【0065】

最後に、プロセッサ２０８と非線形プロセッサ１０５との間のフィードバックライン２８３は、推定されたｖＴＨＤに基づいて、出力オーディオ信号１２１内のアーティファクトの量を制御することを可能にする。そのようなフィードバックラインは、代替的に、または追加的に、プロセッサ２０８と線形利得回路１０３との間で用いられることができる。

【0066】

図２の実施形態は、単に分かりやすくするために例として説明されている。例えば、前処理回路２０６は、他のタイプの前処理を行う、または所与の適切なＭＬモデルが用いられているとき、オーディオ信号１２１の前処理を行なわない（例えば、ＴＨＤを測定した後にそれらをスライスすることは別として）ことができる。

【0067】

図２に示されたシステム２０１およびオーディオ処理装置１０１の異なる要素は、１つ以上のディスクリートコンポーネント、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、および／または１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの適切なハードウェアを用いて実装されることができる。システム２０１の機能のいくつかは、本明細書に記載された機能を実行するようにソフトウェアにプログラムされた１つ以上の汎用プロセッサに実装されることができる。

【0068】

ソフトウェアは、例えば、ネットワークを介して、またはホストから、電子形式でプロセッサにダウンロードされることができ、あるいは代替的または追加的に、磁気、光学、または電子メモリ媒体などの非一時的な有形媒体に提供および／または格納されることができる。

【0069】

ＡＮＮを用いてＶＴＨＤを後続して決定するオーディオ信号の前処理

【0070】

図３は、本発明の一実施形態による、図２のシステムにおいて人工ニューラルネットワーク（ＡＮＮ）２０７をトレーニングする際に使用される２次元（２Ｄ）画像のセット２０２を示している。図から分かるように、セット２０２の画像は、徐々に増加するＴＨＤレベルに関連付けられる。ＴＨＤは、２Ｄ画像が生成されたトレーニングオーディオ信号から測定され、トレーニングオーディオ信号は、それぞれ１ＫＨｚで４８サイクル長（即ち、４８ミリ秒の持続時間のサンプル）である。前処理された２Ｄ画像は、トレーニングオーディオサンプルが切り出されて（例えば、スライスされて）５サイクルのみが残った後に生成される。従って、トレーニングは短い持続時間のサンプル（例えば、１ＫＨｚ波の５サイクル）を用い、各サンプルの全持続時間は５ミリ秒である。上記で強調したように、この持続時間は非常に短く、例えば、高調波歪みの有意義なＦＦＴ分析を行えないと見なされている。原理的には、信号は１サイクルの数分の１（例えば、１／４サイクル）まで切り出されることができ、開示された技術は、そのような超短オーディオ信号を用いて歪んだｖＴＨＤスケールを生成する。切り出された信号を用いると、例えば、開示された技術の低い信号対雑音比に対する耐性を最大化することがさらに可能になり、同時に超短持続時間のオーディオ高調波歪みの分析を得ることができる。

【0071】

トレーニング画像のセット２０２は、カスケードの前処理された正弦波信号であり、最初の正弦波信号は、正弦波をその最小および最大絶対値でクリップする、増加した「デジタル飽和」レベルを有する。図から分かるように、クリッピングは初めがなく、即ち、ＴＨＤ＝０を有するゼロクリッピングから始まり、飽和効果が、測定の（例えばグラウンドトゥルース）ＴＨＤが２８の矩形波のような波形となる最大のクリッピングまで増加する。所与の例では、図４で説明されているように、提示を簡単にするために、実際のテストは４％のＴＨＤ（即ち、ＴＨＤ＝４）から開始する。

【0072】

増加したＴＨＤのレベルは、より高い高調波（３ω、５ω、７ω）、ωの純粋な、正弦波高調波の信号への相対的な寄与の増加を反映している。

【0073】

セット２０２の各２Ｄ画像は、図２で説明されたように、画像２１１がそれぞれのオーディオ信号１２１から受信された方法と同様に、１Ｄの波形から受信される。

【0074】

特に、前処理は、エンベロープと水平軸との間の領域２１２を黒色にし、各画像の残りを白色に維持するコードを用いることができる。

【0075】

図３によって例示された特定の例では、データ前処理はこれらのステップを含む：
１．データのデジタル化（８ビット）: セット２０２のようなセットのＮ個の波形のうちの各波形ｉは、ｊが時間インデックスである時間｛Ｓｊ｝のシーケンスによってサンプリングされる。
データの正規化: 全てのデータサンプル値は－１から１に正規化される。
２．データ変換: ＡＮＮの畳み込みＮＮ（ＣＮＮ）アーキテクチャを用いるために、データは１Ｄデータ（シーケンスデータ－オーディオ信号）から２Ｄデータに変換される。
２．１．全ての正弦波サンプル配列（ａｒｒａｙ）は行列（ｍａｔｒｉｘ）に変換される（グレースケール画像で表される）
２．２．全ての行列セルは白色で開始される。各行ｉは正弦波の振幅を表す（所与の精度で）。各列は、サンプリングの時間ｊを表す。
２．３．行列を埋める（Ｆｉｌｌｉｎｇｔｈｅｍａｔｒｉｘ）: 波形サンプルｉ＝１，２，・・・Ｎの振幅は、式Ｍａｔｒｉｘ［（１ - Ａｍｐｌｉｔｕｄｅ［Ｓｉｊ］）＊１００］［Ｓｉｊ］＝０を用いて変換される。（黒色）。
このステップを適用することで、Ｓｉ振幅とゼロ振幅行の間の全ての領域（同様に白色で埋められる。これは、全てのサンプル内により多くのデータを追加するために行われた。この方法は、信号のコントラストを最大化し、より良い画像処理をする。

【0076】

ＶＴＨＤの分類におけるＡＮＮの性能の分析

【0077】

ＭＬの分野、特に統計的分類の問題では、エラー行列とも呼ばれる混同行列は、アルゴリズムの性能を視覚化できる特定のテーブルレイアウトであり、通常は、教師あり学習アルゴリズム（即ち、ラベル付けされたトレーニングデータを用いて学習するアルゴリズム）である。行列の各行は実際のクラスのインスタンスを表し、各列は予測されたクラスのインスタンスを表す（またはその逆）。この名前は、システムが２つのクラスを混同しているかどうかを簡単に確認できるという事実から由来している（即ち、一般的に、一方を他方と誤ってラベル付けしている）。

【0078】

図４は、本発明の一実施形態による、図２のシステム２０１を用いて推定されたｖＴＨＤ２１０を図３のグラウンドトゥルースＴＨＤと比較する混同行列３０２を示している。各ＴＨＤレベルで推論されたサンプル数は、スケール３０４によって示され、サンプル数は、数個から２０個以上の間である。

【0079】

図から分かるように、ＴＨＤ＞４の場合、トレーニングされたＡＮＮ２０７による推論中に発生したエラーは、最大で１クラスの偏差である（例えば、ＴＨＤ＝ｊのいくつかのオーディオサンプルは、ＶＴＨＤ＝ｊ＋１またはＶＴＨＤ＝ｊ－１と分類されている場合がある）。オーディオサンプルの大部分は、システム２０１によって正確に分類された。

【0080】

図４に示した例は一例である。もう１つの例として、分類を用いてグラウンドトゥルースＴＨＤと比較してｖＴＨＤのエラーを推定するのではなく、以下で説明するように、ＭＬモデルは、回帰ベースのスコアリングを用いることができる。

【0081】

短いオーディオサンプルのＶＴＨＤの推定方法

【0082】

図５は、本発明の一実施形態による、図２のシステム２０１を用いて短いオーディオサンプルのｖＴＨＤを推定する方法を概略的に示すフローチャートである。提示された実施形態によるアルゴリズムは、トレーニング段階４０１と推論段階４０３間で分けられるプロセスを実行する。

【0083】

トレーニング段階は、アップロードステップ４０２で始まる。アップロードステップ４０２の間、プロセッサ２０８は、メモリ２０９から、図３で用いられる５サイクルオーディオサンプルのような短い（例えば、スライスされた）トレーニングオーディオサンプルのセットをアップロードする。次に、前処理回路２０６は、データフォーマット変換ステップ４０４で、図３に示されるように、オーディオサンプルを白黒画像に変換する。

【0084】

ＡＮＮトレーニングステップ４０６では、プロセッサ２０８は、白黒画像を用いてＡＮＮ２０７をトレーニングし、オーディオ信号のｖＴＨＤを推定する。

【0085】

推論段階４０３は、オーディオサンプル入力ステップ４０８で、システム２０１が短い持続時間のオーディオサンプル（例えば、数ミリ秒の持続時間）を入力として受信することによって開始する。

【0086】

次に、前処理回路２０６は、データフォーマット変換ステップ４１０で、短いオーディオサンプルを白黒画像に変換する。次いで、プロセッサ２０８は、ｖＴＨＤ推定ステップ４１２で、トレーニングされたＡＮＮ２０７を実行してオーディオサンプルのｖＴＨＤ値を推定する。最後に、ｖＴＨＤ出力ステップ４１４で、システム２０１のプロセッサ２０８は、推定されたｖＴＨＤをユーザーまたはプロセッサに出力し、例えば、オーディオ処理装置１０１の非線形プロセッサ１０５によって課される飽和レベルを調整するなど、所望のｖＴＨＤ値に従って非線形オーディオ段階を調整する。

【0087】

図５のフローチャートは、単に分かりやすくするために例として説明されている。例えば、他の前処理ステップまたはより少ないステップが用いられてもよい。

【0088】

回帰ベースのＶＴＨＤ推定

【0089】

前述のように、回帰ベースのスコアリングが図４に示された分類によるｖＴＨＤ推定に加えて、またはその代替として、用いられることができる。回帰ベースのスコアリングでは、システムは同じ処理済みデータを用いる（白く塗られた（ｗｈｉｔｅｐａｉｎｔｅｄ）データおよび／または黒く塗られた（ｂｌａｃｋｐａｉｎｔｅｄ）データが用いられることができる）。この実施形態では、ＣＮＮは、予測の平均二乗誤差関数を損失関数として用い、ｖＴＨＤがグラウンドトゥルースＴＨＤ値にどれだけ近いかを示す数値を出力する。

【0090】

アルゴリズムは以下のステップに従う：
前処理：
１．分類アーキテクチャと同様に同じ波形のトレーニングに用いる
２．ＹベクトルにスタックしたＴＨＤ値に正規化し、［０，１］値に正規化する。
３．分類ネットワークと同様に乱数発生器を用いたデータ分割を行う
出力：
１．正規化されたｖＴＨＤ値
２．トレーニングオーディオサンプルが推定された場合、サンプルのｖＴＨＤのＣＮＮ予測と、初期オーディオ信号で測定されたＴＨＤの真値との間の推定誤差を出力する。例えば、モデルがｖＴＨＤ＝０．８（正規化された）の結果を与えると仮定すると、グラウンドトゥルースＴＨＤは［０．７５，０．８５］の範囲内にある可能性がある。

【0091】

分類の方法と回帰ベースの方法の両方の精度は、例えば、８ビットの代わりに１６ビットのデジタル化スキームを用いることによって、データサンプリングの精度によって向上させることができる。

【0092】

留意することは、数学的には、データセットはＹベクトルに関して分類問題と回帰問題で異なって見えることである（分類では、全ての例Ｓｊに対して１Ｄの分類ベクトルがある）。各例Ｓｊの回帰には、スカラー回帰スコアがある。

【0093】

本明細書で説明する実施形態は主に、オーディオエンジニアリングスーツおよび／または消費者向けデバイスのオーディオ処理に対処するが、本明細書に記載の方法およびシステムは、例えば、オーディオ品質の分析、フィルター設計、または静止画像処理またはビデオ処理のためのフィルターの自動自己制御などの他のアプリケーションに用いられ、適切な修正を経た後、ＦＦＴ分析に基づく、または部分的に基づくデータ圧縮の符号化および復号化技術に用いられることもできる。

【0094】

上述の実施形態は、例として引用されており、以下の特許請求の範囲は、上述に具体的に開示および記載された内容に限定されないことに留意されたい。むしろ、この範囲は、上述の様々な特徴のコンビネーションおよびサブコンビネーションの両方、ならびに前述の説明を読んで当業者が知るであろう、先行技術に開示されていないその変更および修正を含む。参照することにより本特許出願に組み込まれた文書は、組み込まれた文書の用語の定義が本明細書で明示的または暗黙的になされた定義と矛盾する場合を除いて、本出願の不可欠な部分と見なされ、本明細書の定義のみが考慮されるべきである。

【符号の説明】

【0095】

１０グラフ
１２、２２信号
１３入力ダイナミックレンジ
１５目標ダイナミックレンジ
１０１オーディオ処理装置
１０３線形利得回路
１０５非線形プロセッサ
１０７出力装置
１２１オーディオ信号
２０１システム
２０２セット
２０６前処理回路
２０７人工ニューラルネットワーク（ＡＮＮ）
２０８プロセッサ
２０９メモリ
２１０ｖＴＨＤ
２１１画像
２１２領域
２８３フィードバックライン
３０２混同行列
３０４スケール
４０１トレーニング段階
４０２アップロードステップ
４０３推論段階
４０４データフォーマット変換ステップ
４０６ＡＮＮトレーニングステップ
４０８オーディオサンプル入力ステップ
４１０データフォーマット変換ステップ
４１２ｖＴＨＤ推定ステップ
４１４ｖＴＨＤ出力ステップ

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版