IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

特許7125447方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス
<>
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図1
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図2
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図3
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図4
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図5
  • 特許-方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-16
(45)【発行日】2022-08-24
(54)【発明の名称】方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス
(51)【国際特許分類】
   G10L 19/035 20130101AFI20220817BHJP
   G10L 19/24 20130101ALI20220817BHJP
【FI】
G10L19/035 B
G10L19/24
【請求項の数】 14
【外国語出願】
(21)【出願番号】P 2020095195
(22)【出願日】2020-06-01
(65)【公開番号】P2021006898
(43)【公開日】2021-01-21
【審査請求日】2022-03-08
(31)【優先権主張番号】19179214.2
(32)【優先日】2019-06-10
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】イエラチッチ, メルサド
(72)【発明者】
【氏名】テデンバル, マルクス
(72)【発明者】
【氏名】ゲラルト, マルクス
(72)【発明者】
【氏名】ダニエルソン ファン, シン
(72)【発明者】
【氏名】ワンデルレフ, リカール
【審査官】米倉 秀明
(56)【参考文献】
【文献】特表2009-524099(JP,A)
【文献】特開2011-209733(JP,A)
【文献】特開2018-106208(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/035
G10L 19/24
(57)【特許請求の範囲】
【請求項1】
可変ビットレートを用いてオーディオ信号(30)をエンコーディングする方法(100)であって、
エンコードされる前記オーディオ信号(30)であって、複数の連続するオーディオフレーム(32)を含む前記オーディオ信号(30)を受信すること(S102)と、
前記オーディオ信号(30)の連続する前記オーディオフレーム(32)のそれぞれに対して、
前記オーディオフレーム(32)を、複数の周波数サブバンド(34)に関する周波数ドメインにて表すこと(S104)と、
前記オーディオフレーム(32)を、前記周波数サブバンド(34)のそれぞれにて、前記周波数サブバンド(34)に特有の背景モデルを使用して、背景又は前景のいずれかとして分類すること(S106)と、
前記オーディオ信号(30)の連続する前記オーディオフレーム(32)のそれぞれをエンコーディングすること(S108)と、を含み、
前記オーディオフレーム(32)の前記周波数サブバンド(34)のそれぞれに対してビット数が割り当てられ、
前記周波数サブバンド(34)に対して割り当てられた前記ビット数は、前記オーディオフレーム(32)が、前記周波数サブバンド(34)にて前景として分類された場合の方が、前記オーディオフレーム(32)が、前記周波数サブバンド(34)にて背景として分類された場合よりも多い、方法(100)。
【請求項2】
前記オーディオフレーム(32)の、背景に分類された前記周波数サブバンド(34)をエンコーディングするために割り当てられるビット数は、前記オーディオフレーム(32)の、背景に分類された前記周波数サブバンド(34)の周波数レンジに依存する、及び/又は、
前記オーディオフレーム(32)の、前景に分類された前記周波数サブバンド(34)をエンコーディングするために割り当てられるビット数は、前記オーディオフレーム(32)の、前景に分類された前記周波数サブバンド(34)の前記周波数レンジに依存する、請求項1に記載の方法(100)。
【請求項3】
前記オーディオ信号(30)がエンコードされ、第1のオーディオフレームの、背景に分類された第1の周波数サブバンドに割り当てられるビット数は、前記第1のオーディオフレームに先ずる前記オーディオフレームにおける同じ第1の周波数サブバンドが前景として分類された場合の方が、前記第1のオーディオフレームに先ずる前記オーディオフレームにおける前記同じ第1の周波数サブバンドが背景として分類された場合と比較して、より多くなる、請求項1から請求項2のいずれか一項に記載の方法(100)。
【請求項4】
前記オーディオフレーム(32)の前記周波数サブバンド(34)をエンコーディングする(S108)ために割り当てられるビット数は、さらに、心理音響的モデルに依存する、請求項1から請求項3のいずれか一項に記載の方法(100)。
【請求項5】
前記オーディオフレーム(32)の前記周波数サブバンド(34)をエンコーディングする(S108)ために割り当てられるビット数は、心理音響的モデルにしたがう前記オーディオフレーム(32)の前記周波数サブバンド(34)の前記周波数レンジに依存する、請求項2に記載の方法(100)。
【請求項6】
前記オーディオフレーム(32)の、背景に分類された前記周波数サブバンド(34)をエンコーディングする(S108)ために割り当てられるビット数は、前記オーディオフレーム(32)の、背景に分類された前記周波数サブバンド(34)が表す周波数レンジには依存せず、
前記オーディオフレーム(32)の、前景に分類された前記周波数サブバンド(34)をエンコーディングする(S108)ために割り当てられるビット数は、前記オーディオフレーム(32)の、前景に分類された前記周波数サブバンド(34)が属する周波数レンジには依存しない、請求項1に記載の方法(100)。
【請求項7】
請求項1から請求項6のいずれか一項に記載の方法(100)であって、
前記オーディオ信号(30)の前記オーディオフレーム(32)に対して、
前記オーディオフレーム(32)の前記周波数サブバンド(34)に対して、
前記オーディオフレーム(32)の前記周波数サブバンド(34)に対応する、前記周波数サブバンド(34)に特有の背景モデルを、前記オーディオフレーム(32)の前記周波数サブバンド(34)の周波数コンテンツに基づいて更新すること(S110)をさらに含む、方法(100)。
【請求項8】
前記周波数サブバンド(34)に特有の前記背景モデルは、ガウス混合モデル(50)(Gaussian Mixture Model又はGMM)を含み、前記GMM(50)は、複数のガウス分布(52)を含み、前記複数のガウス分布(52)のそれぞれは、前記周波数サブバンド(34)におけるエナジーレベルに対する確率分布を表す、請求項1から請求項7のいずれか一項に記載の方法(100)。
【請求項9】
前記オーディオフレーム(32)の前記周波数サブバンド(34)は、前記オーディオフレーム(32)の前記周波数サブバンド(34)の前記エナジーレベルが、前記周波数サブバンド(34)に特有の前記背景モデルの前記GMM(50)の前記ガウス分布(52)の内の1つの平均値前後の所定の標準偏差数(54)内にある場合、及び、前記ガウス分布(52)の重みであって、前記オーディオフレーム(32)の前記周波数サブバンド(34)の前記エナジーレベルが、前記ガウス分布(52)の前記平均値前後の前記所定の標準偏差数(54)内となる確率を表す前記重みが、閾値を超えている場合に、背景として分類される、請求項8に記載の方法(100)。
【請求項10】
前記エナジーレベルは、パワースペクトル密度(power spectral density又はPSD)の測定値である、請求項8から請求項9のいずれか一項に記載の方法(100)。
【請求項11】
請求項1から請求項10のいずれか一項に記載の方法(100)であって、
前記オーディオ信号(30)のエンコードされた前記オーディオフレーム(32)を、メタデータであって、前記オーディオフレーム(32)の前記周波数サブバンド(34)の分類(36)を示す前記メタデータと共に送信すること(S112)をさらに含む、方法。
【請求項12】
プロセッサ(14)上にて実行されると、前記プロセッサ(14)に、請求項1から請求項11のいずれか一項に記載の方法(100)を実行させるコンピュータ可読命令を保存するコンピュータ可読媒体。
【請求項13】
可変ビットレートを用いてオーディオ信号(30)をエンコーディングするためのエンコーダ(10)であって、
レシーバ(12)と、
1つ又はそれ以上のプロセッサ(14)と、を含むエンコーダ(10)であって、
前記レシーバ(12)は、エンコードされる前記オーディオ信号(30)であって、複数の連続するオーディオフレーム(32)を含む前記オーディオ信号(30)を受信するよう構成されており、
前記1つ又はそれ以上のプロセッサ(14)は、
前記オーディオ信号(30)の連続する前記オーディオフレーム(32)のそれぞれに対して、
前記オーディオフレーム(32)を、複数の周波数サブバンド(34)に関する周波数ドメインにて表し、
前記オーディオフレーム(32)を、前記周波数サブバンド(34)のそれぞれにて、前記周波数サブバンド(34)に特有の背景モデルを使用して、背景又は前景のいずれかとして分類し、
前記オーディオ信号(30)の連続する前記オーディオフレーム(32)のそれぞれをエンコードするよう構成されており、前記オーディオフレーム(32)の前記周波数サブバンド(34)のそれぞれに対してビット数が割り当てられ、前記周波数サブバンド(34)に対して割り当てられた前記ビット数は、前記オーディオフレーム(32)が、前記周波数サブバンド(34)にて前景として分類された場合の方が、前記オーディオフレーム(32)が、前記周波数サブバンド(34)にて背景として分類された場合よりも多い、エンコーダ(10)。
【請求項14】
オーディオ信号(30)を記録するよう構成されているマイクロフォン(2)と、
前記オーディオ信号(30)を、前記マイクロフォン(2)から受信し、可変ビットレートを用いて前記オーディオ信号(30)をエンコードするよう構成されている、請求項13に記載のエンコーダ(10)と、を含む、モニタリングデバイス(1)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、オーディオ信号のエンコーディングに関し、より具体的には、可変ビットレートでのオーディオ信号のエンコーディングに関する。
【背景技術】
【0002】
オーディオコーデックは、オーディオデータをデジタル的にエンコードし、結果として得られるビットストリームを圧縮し得、それが効率よく保存される、又は、送信されるようにし得る。保存又は送信後、同オーディオコーデックは、デコーディングに使用され得、オーディオが再現され得るようにする。いくつかのオーディオコーデックは、例えば、256Kbpsの一定のビットレート(constant bitrate又はCBR)を使用して、オーディオデータを圧縮する。他のオーディオコーデックは、可変ビットレート(variable bitrate又はVBR)を使用しての、オーディオデータの圧縮をサポートする。VBRエンコーディングでは、エンコードされるオーディオデータのビットレートは、動的に変化し得る。例えば、ビットレートは、オーディオデータが、個別の周波数をどれだけ含むかに依存して変わり得、いくらかの個別の周波数は、複雑な信号に対するものよりも少ないビットを必要とする。ビットレートは、したがって、時間と共に、例えば、65Kbps及び320Kbpsの間を変化し得る。VBRエンコーディングの利点は、CBRエンコーディングよりも少ないデータを通常生成することである。したがって、保存されるオーディオデータに対する保存スペース要件が減らされてよい。同様に、転送されるオーディオデータに対する帯域幅要件が減らされてよい。
【0003】
しかし、出力データのサイズをさらに減らすオーディオエンコーディングの分野において、改善の余地がある。
【発明の概要】
【0004】
本発明の目的は、オーディオデータの、改善されたエンコーディングを提供することである。本発明のさらなる目的は、転送されるオーディオデータに対する帯域幅要件を減らすこと、及び/又は、保存されるオーディオデータに対する保存スペース要件を減らすことである。
【0005】
本発明のこれら及び他の目的は、独立請求項において画定されるように、本発明により少なくとも部分的に満たされる。好ましい実施形態が、従属請求項に提示される。
【0006】
本発明の第1の態様によると、可変ビットレートを用いてオーディオ信号をエンコーディングする方法が提供される。この方法は、
エンコードされるオーディオ信号であって、複数の連続するオーディオフレームを含むオーディオ信号を受信することと、
オーディオ信号の連続するオーディオフレームのそれぞれに対して、
オーディオフレームを、複数の周波数サブバンドに関する周波数ドメインにて表すことと、
オーディオフレームを、周波数サブバンドのそれぞれにて、周波数サブバンドに特有の背景モデルを使用して、背景又は前景のいずれかとして分類することと、
オーディオ信号の連続するオーディオフレームのそれぞれをエンコーディングすることと、を含み、オーディオフレームの周波数サブバンドのそれぞれに対してビット数が割り当てられ、周波数サブバンドに対して割り当てられたビット数は、オーディオフレームが、周波数サブバンドにて前景として分類された場合の方が、オーディオフレームが、周波数サブバンドにて背景として分類された場合よりも多い。
【0007】
オーディオ信号は、いずれのタイプのオーディオ信号であってよく、それは、例えば、監視カメラなどのモニタリングデバイス又はマイクロフォンにより記録されたオーディオ信号であってよいことが理解されるべきである。オーディオ信号の連続するオーディオフレームのそれぞれは、例えば、20ms、60ms、又は150msの持続時間を有してよい。オーディオフレームは、圧縮されなくとも、圧縮されてもよい。
【0008】
オーディオフレームは、例えば、フーリエ変換(Fourier transform)を行うことにより、周波数ドメインにて表されてよいことも理解されるべきである。これは、例えば、高速フーリエ変換(fast Fourier transform又はFFT)又は変形離散コサイン変換(modified discrete cosine transform又はMDCT)を使用して行われてよい。周波数ドメインでは、オーディオフレームの特定の周波数サブバンドが、音などを表してよい。これは、オーディオフレームにおいて、その特定の周波数サブバンド内にて、多数の周波数成分として生じる。周波数成分の大きさは、オーディオフレームにおけるその周波数成分の音量を表してよい。複数の周波数サブバンドは、例えば、2、3、5、8、16などの周波数サブバンドを含んでよい。周波数サブバンドの境界の間隔は、等距離であってもよいし、そうでなくともよい。周波数サブバンドは、対数的に間隔があけられてよく、ここでは、サブバンドのそれぞれは、前のものより2倍広い。一例では、8つの周波数サブバンドがある。これらは、対数的に間隔があけられている。ここでは、最も低い周波数レンジを有する周波数サブバンドは、20から40Hzをカバーし得る。別の例では、最も低い周波数レンジは、0Hzにて始まる。
【0009】
背景モデルは、オーディオフレームの周波数サブバンドを、オーディオフレームの周波数サブバンドが含む、音の重要度にしたがって分類するよう構成されてよいことも理解されるべきである。重要な音は、ここでは、前景として分類されてよい。一方、重要でない音は、背景として分類される。例えば、オーディオフレームの周波数サブバンドが、重要な音を含む場合、オーディオフレームの周波数サブバンドは、前景として分類されてよい。別の例では、オーディオフレームの周波数サブバンドは、それが重要でない音を主に含む場合、背景として分類される。音の重要度は、この特定の音が、前のオーディオフレームにおける周波数サブバンドにどれほどの頻度にて含まれているか、に基づいて判定されてよい。
【0010】
背景モデルは、オーディオフレームの周波数サブバンドを、オーディオフレームの周波数サブバンドが含む音に対する期待値にしたがって分類するよう構成されてよいことも理解されるべきである。予期しない音は、ここでは、前景として分類されてよい。一方、予期した音は、背景として分類される。例えば、オーディオフレームの周波数サブバンドが、予期した音、若しくは、一般的な音を含む、又は、音をまったく含まない場合、オーディオフレームの周波数サブバンドは、背景として分類されてよい。別の例では、オーディオフレームの周波数サブバンドは、周波数サブバンドの内容が、背景分類のための要件に合わない場合に、前景として分類される。
【0011】
オーディオフレームの周波数サブバンドを前景又は背景として分類するための背景モデル条件は、背景モデルが、周波数サブバンドに特有であることにより、1つの周波数サブバンドから別の周波数サブバンドに変化し得ることも理解されるべきである。例えば、モニタリングデバイスは、第1の機械が稼働中であり得る、又は、第1及び第2の機械が稼働中であり得る、のいずれかであるワークショップを監視してよい。特定の周波数サブバンド内では、第1のレベルにある音量は、第1の機械が稼働中であることを表してよく、第2のレベルにある音量は、第1及び第2の機械が稼働中であることを表してよい。したがって、その周波数サブバンドにおけるオーディオフレームが、低レベル、第1のレベル、又は第2のレベルにある音量を表す場合、オーディオフレームの周波数サブバンドは、背景として分類されてよい。これは、重要でない音、又は、予期した音をなしてよい。しかし、その周波数サブバンドにおけるオーディオフレームが、これらのレベルの間の音量、又は、これらのレベルを超える音量を表す場合、これは、前景として分類されてよい。これは、例えば、オーディオフレームにおける、1つ又はそれ以上のサブバンドにおける異なる音量をもたらす、稼働中である第1の機械の音の上に重ね合わせられた話し声、又は、稼働中に障害が発生している機械の音などの、重要な音又は予期しない音をなしてよい。異なる周波数サブバンドでは、音量レベルのそれぞれは異なるように選ばれ、何が、その周波数サブバンド内の前景音及び背景音をなすべきかを反映してよい。背景モデルは、音量レベルとは別の他の特徴に関して、周波数サブバンドに特有であってもよい。例えば、オーディオフレームの周波数サブバンドの周波数成分の相対的な大きさが、重要でない音又は予期した音のスペクトルに対応する場合、これは、背景分類となってよい。別の例では、1つ又はいくらかの主な周波数成分の、特定の周波数サブバンド内での出現は、オーディオフレームにおけるその周波数サブバンドの前景分類をトリガしてよい。例えば、サイレンは通常、3つの隣り合う全音から構成される三全音を使用する。3つの対応する周波数成分の出現は、したがって、サイレンが鳴り、前景分類をトリガすることを示す、スペクトルの明確な特徴とみなされてよい。
【0012】
本発明が実現するものは、オーディオフレームの周波数サブバンドのそれぞれに対して、ビット数を割り当てることにより、オーディオ信号の効率的なエンコーディングが促進され、重要な事象又は予期しない事象が発生していない周波数サブバンドに、少ないビットが与えられ/割り当てられ、これにより高レベルに圧縮され得るようにすることである。異なる周波数サブバンドに対してビット数を個々に設定できる場合、オーディオフレーム全体に割り当てられる合計ビット数は少なくなり得る。一方、合計ビット数がフレーム毎に、異なる周波数サブバンドの間を区別することなく判定される場合、多くの合計ビット数が必要となり得る。
【0013】
本発明がさらに実現するものは、各周波数サブバンドのそれぞれに対して特定の背景モデルを使用して、それらの各分類を判定し、ビット割り当て条件が、周波数サブバンドのそれぞれに対してカスタマイズされ得るにしたがって、オーディオ信号の効率的なエンコーディングをさらに促進することである。
【0014】
この方法の利点は、したがって、それが、転送されるオーディオデータに対する、帯域幅要件の削減を促進すること、及び/又は、保存されるオーディオデータに対する、保存スペース要件の削減を促進することである。
【0015】
別の利点は、デコードされるオーディオ信号の、認識される品質が高いことである。この方法は、内容に基づく圧縮を提供してよい。ここでは、重要な性質又は予期しない性質のものであり得る前景音は、重要でない性質又は予期した性質のものであり得る背景音よりも大きく圧縮され得ない。この方法は、したがって、所与の帯域幅又は保存スペースリソースを、オーディオ信号の、高品質が最も重要とされる各部に集中し得る。これにより、オーディオ信号がデコードされると、その高く認識された品質が提供される。
【0016】
エンコーディングすることのステップは、ビットを、オーディオ信号の周波数スパンに割り当ててよく、ここでは、周波数スパンは、分類することのステップの周波数サブバンドと同じ、又は、それとは異なる、のいずれかであることが理解されるべきである。第1の例では、エンコーディングすることのステップにおける、2つの隣り合う周波数スパンが、分類することのステップにおける、単一の周波数サブバンドに対応する。この場合、単一の周波数サブバンドが、前景として分類される場合、隣り合う周波数スパンの双方には、同じビット数が与えられてよい。ここでは、このビット数は、単一の周波数サブバンドの前景分類により判定されたビット数に対応する。第2の例では、エンコーディングすることのステップにおける、単一の周波数スパンは、分類することのステップにおける、2つの異なる周波数サブバンドに対応する。この場合、周波数サブバンドのどちらかの前景分類、又は、周波数サブバンドの双方の前景分類により、エンコーディングすることのステップの周波数スパンには、前景分類により判定されたビット数に対応するビット数が与えられることとなってよい。
【0017】
分類することのステップの周波数サブバンドと、エンコーディングすることのステップの周波数スパンと、が異なる場合、分類することのステップの周波数サブバンド、又は、エンコーディングすることのステップの周波数スパンのいずれが分解されてよいことも理解されるべきである。第1の例では、周波数サブバンドが、前景として分類される場合、これは分解され、エンコーディングすることのステップの周波数スパンに合う、分解された周波数サブバンドを使用して再分析されてよい。これは、エンコーダの周波数スパンのどれに、前景分類に対応するビット数が割り当てられるべきかを判定するために行われてよい。分類することのステップにおいて、エンコーダにおけるものと同じ周波数サブバンドを使用しないことの理由は、異なる周波数サブバンドの割り当てにより、よりよい分類結果となることであり得る。第2の例では、エンコーダが、エンコーダのステップの周波数スパンを分解する可能性を与える場合、分類することのステップの前景サブバンドに合う、分解された周波数スパンにビットを割り当てることのみが可能であってよい。
【0018】
エンコーディングすることのステップは、ビットを、オーディオフレームに割り当ててよく、ここでは、エンコーディングすることのステップのオーディオフレーム持続時間は、分類することのステップのオーディオフレーム持続時間と同じ、又は、異なる、のいずれかであることも理解されるべきである。例えば、分類のステップは、60msのオーディオフレーム持続時間を有してよい。一方、エンコーディングすることのステップは、20msのオーディオフレーム持続時間を有する。
【0019】
オーディオフレームの、背景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、背景に分類された周波数サブバンドの周波数レンジに依存してよい。代替的に又は追加的に、オーディオフレームの、前景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、前景に分類された周波数サブバンドの周波数レンジに依存してよい。
【0020】
一例として、20から40Hzの周波数レンジをカバーする周波数サブバンドは、それが前景として分類される場合には、5ビット/サンプルが割り当てられてよく、それが背景として分類される場合には、1ビット/サンプルが割り当てられてよい。一方、80から160Hzの周波数レンジは、それが前景として分類される場合には、7ビット/サンプルが割り当てられてよく、それが背景として分類される場合には、2ビット/サンプルが割り当てられてよい。
【0021】
割り当てビット数に対して、周波数への依存性を使用することの利点は、それが、オーディオ信号の効率的なエンコーディングを促進することである。例えば、他よりも重要な周波数サブバンドには、さらに多くのビットが割り当てられてよい。例えば、周波数サブバンドを表す、又は、周波数サブバンドの一部を表す周波数レンジ内に、重要な音が出現すると予期される周波数サブバンドには、それが前景として分類される場合に、多くのビット数が割り当てられてよい。割り当てられるビット数は、周波数サブバンドを表す周波数レンジのサイズに依存してもよい。例えば、周波数レンジが狭い場合と比較して、周波数レンジが広い場合には、前景分類及び背景分類に対応するビット数の双方は、多くともよい。
【0022】
オーディオフレームの異なる周波数サブバンドに割り当てるために、固定合計ビット数が利用可能であってよい。固定合計ビット数は、1つのフレームから連続するフレームまで一定であってよい。一例では、背景分類とされた周波数サブバンドには、最小ビット数又はゼロビットが割り当てられてよい。固定合計ビット数の残りは、前景に分類された、残りの周波数サブバンドのそれぞれに分配されてよい。
【0023】
オーディオ信号がエンコードされ、第1のオーディオフレームの、背景に分類された第1の周波数サブバンドに割り当てられるビット数は、第1のオーディオフレームに先ずるオーディオフレームにおける同じ第1の周波数サブバンドが前景として分類された場合の方が、第1のオーディオフレームに先ずるオーディオフレームにおける同じ第1の周波数サブバンドが背景として分類された場合と比較して、より多くなるようになってよい。
【0024】
一例として、ゼロ番目のオーディオフレームにおける周波数サブバンドには、それが前景として分類される場合には、400ビットが割り当てられてよく、それが背景として分類される場合には、50ビットが割り当てられてよい。ゼロ番目のオーディオフレームにおける周波数サブバンドが、背景として分類され、後続の第1のオーディオフレームにおける同じ周波数サブバンドが、背景として分類された場合には、第1のオーディオフレームにおける同じ周波数サブバンドには、50ビットが割り当てられてもよい。その代わりに、ゼロ番目のオーディオフレームにおける周波数サブバンドが、前景として分類され、後続の第1のオーディオフレームにおける同じ周波数サブバンドが、背景として分類された場合には、第1のオーディオフレームにおける同じ周波数サブバンドには、例えば、350ビットが割り当てられてよい。
【0025】
現在のオーディオフレームの周波数サブバンドの分類だけでなく、先のオーディオフレームの周波数サブバンドの分類にも依存して、ビット数を割り当てることの利点は、それが、健全なエンコーディングを促進することである。誤った背景分類の結果は、先のオーディオフレームの周波数サブバンドの分類が考慮される場合には、それほど深刻でない場合がある。先の分類が前景だった場合には、それが背景だった場合よりも、背景分類が誤っている可能性が高い場合がある。したがって、前景分類から背景分類への切り替えが生じると、割り当てられるビット数は、即座にではないが、段階的に減らされてよい。これは、誤った分類に基づく高レベルの圧縮による、重要なオーディオ成分のロスを減らし得る。
【0026】
別の利点は、エンコードされたオーディオ信号が聞きやすくなることであってよい。圧縮レベルにおける急激な変化は、デコーディング後に再現される信号の認知におけるエラーに関して、信号における副作用を生成する場合がある。
【0027】
割り当てビット数は、直前のオーディオフレームの分類のみに依存し得ないことが理解されるべきである。それは、さらに前のオーディオフレームの分類に依存してもよい。例えば、背景から前景への遷移は、割り当てられるビット数の、低い値から高い値への即時の変化をトリガしてよい。一方、前景から背景への遷移は、割り当てられるビット数の段階的な減少をトリガしてよい。最後の前景分類の後、割り当てビットの減少は、例えば、低い値に到達するまで、新たな背景分類のそれぞれに対して、同じであってよい。
【0028】
オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、さらに、心理音響的モデルに依存してよい。
【0029】
心理音響的モデルは、人が音を認知するモデルであってよいことが理解されるべきである。
【0030】
心理音響的モデルは、例えば、音量スケールに関しての、認知限界を反映してよい。心理音響的モデルは、ここでは、例えば、周波数に応じての音圧などを表す等音量曲線であってよい。ここでは、等音量曲線上の異なるトーンが、人の耳により、それらの音圧が異なるものの、同じ音量を有するものと認識される。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、ここでは、周波数サブバンドが、人の耳の感度が最も高い周波数に近い場合には、それが離れている場合より多くともよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、この実施形態では、周波数サブバンドが、等音量曲線の下限に近い場合には、それが離れている場合より多くともよい。音量スケールに関しての、人の耳の認知限界を反映する他のスケールが使用されてもよいことが理解されるべきである。
【0031】
心理音響的モデルは、例えば、マスキング効果を反映してよい。ここでは、人の耳が、特定の大きさの第1の周波数成分を検出できるかどうかは、第2の異なる周波数成分が存在するか否かに依存する。第2の周波数成分が存在する場合、第1の周波数成分はマスクされ、人の耳による検出が不可能であってよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、この実施形態によると、周波数サブバンドの内容がマスクされている場合には、それがマスクされていない場合より少なくともよい。
【0032】
心理音響的モデルにしたがってビット数を割り当てることの利点は、それが、高品質の圧縮を提供することであってよい。オーディオ信号の、人の耳が容易に認識しない各部は、人の耳の感度が高い各部よりも高いレベルに圧縮されてよい。
【0033】
オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、心理音響的モデルにしたがうオーディオフレームの周波数サブバンドの周波数レンジに依存してよい。
【0034】
心理音響的モデルは、例えば、周波数スケールに関しての、人の耳の認知限界を反映してよい。心理音響的モデルは、例えば、バーク(Bark)スケールであってよい。バークスケールは、人の聴覚システムの分解能をモデル化する、非線形の周波数スケールであってよい。バークスケールでの1バーク距離は、ここでは、いくらかの周波数に対して、周波数に対数的に比例する、臨界帯域幅と呼ばれるものに等しくともよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、ここでは、バーク距離にて測定される周波数レンジに比例してよい。周波数スケールに関しての、人の耳の認知限界を反映する他のスケールが使用されてもよいことが理解されるべきである。
【0035】
心理音響的モデルにしたがう、オーディオフレームの周波数サブバンドの周波数レンジに基づいて、ビット数を割り当てることの利点は、それが、高品質の圧縮を提供することであってよい。人の耳が、高い周波数分解能を有する周波数サブバンドには、人の耳が、低い周波数分解能を有する周波数サブバンドと比較して、より多くのビットが割り当てられてよい。
【0036】
オーディオフレームの、背景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、背景に分類された周波数サブバンドが表す周波数レンジには依存しなくともよい。オーディオフレームの、前景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、前景に分類された周波数サブバンドが属する周波数レンジには依存しなくともよい。
【0037】
この実施形態の利点は、それが、迅速なエンコーディングを促進することであってよい。同じ少ないビット数を、オーディオフレームの、背景に分類された周波数サブバンドのすべてに割り当てることは、例えば、背景に分類された周波数サブバンドのそれぞれに対して個々に割り当てられるべきビットがどれほどかを判定することより迅速に行われ得る。さらに、同じ多くのビット数を、オーディオフレームの、前景に分類された周波数サブバンドのすべてに割り当てることは、例えば、前景に分類された周波数サブバンドのそれぞれに対して個々に割り当てられるべきビットがどれほどかを判定することより迅速に行われ得る。
【0038】
この方法は、
オーディオ信号のオーディオフレームに対して、
オーディオフレームの周波数サブバンドに対して、
オーディオフレームの周波数サブバンドに対応する、周波数サブバンドに特有の背景モデルを、オーディオフレームの周波数サブバンドの周波数コンテンツに基づいて更新することも含んでよい。
【0039】
周波数コンテンツは、ここでは、周波数サブバンドにて表される、音の性質であってよい。周波数コンテンツは、例えば、周波数サブバンド全体のパワースペクトル密度(power spectral density又はPSD)、周波数サブバンド内のパワースペクトル密度の測定値、周波数サブバンド内の各周波数成分の大きさ、周波数サブバンド内の複数の周波数成分の大きさ、周波数サブバンド内の周波数成分それぞれの分布、又は、周波数サブバンドのエナジーレベル(フレームxのバンドbのサブバンドエナジー)であってよい。
【0040】
背景モデルを更新することの利点は、それが、エンコードされたオーディオ信号を転送させるための帯域幅要件のさらなる削減、及び/又は、エンコードされたオーディオ信号を保存するための保存スペース要件のさらなる削減を促進すること、及び/又は、デコーディング後に認識されるオーディオ信号の品質を改善することであってよい。
【0041】
背景モデルを更新することは、時間と共に変わり得る、適応性の高い背景モデルをもたらしてよい。背景モデルは、したがって、オーディオ信号の記録中の環境の変化に適応してよい。例えば、新たな音が導入されると、それは前景として分類され、その新たな音をエンコーディングするために、多くのビットが割り当てられるようになってよい。しかし、後続のオーディオフレームにおいてその音が依然として生じている場合、その音は、関心の対象でない可能性があり得る。このモデルは続いて更新され、その音が、後のオーディオフレームにて背景として識別されるようになってよい。これは、その音が、より高いレベルに圧縮されるようになり得、各リソースを節約し得る。
【0042】
背景モデルを更新することが、背景モデルの展開中に各リソースを節約してもよい。静的モデルが使用される場合、それが、異なる音を正確に分類できるようになる前に、それは、訓練される必要があってよい。訓練データを集めて選ぶことは、時間又は経費のいずれかに関して大きな捻出となり得る。周波数サブバンドの、それが分類する内容に基づいて更新される背景モデルは、それ自身を訓練してよい。これは、例えば包括的なモデルとして展開され、続いて、それが機能する環境に適応してよい。これにより、時間及び経費を節約する。
【0043】
周波数サブバンドに特有の背景モデルは、ガウス混合モデル(Gaussian Mixture Model又はGMM)を含んでよい。GMMは、複数のガウス分布を含む。それらのそれぞれは、周波数サブバンドにおけるエナジーレベルに対する確率分布を表す。
【0044】
エナジーレベル、又は、サブバンドエナジーは、ここでは、周波数サブバンドにて表される音の音量の性質であってよい。エナジーレベルは、例えば、周波数サブバンド全体のPSD、周波数サブバンド内のPSDの測定値、周波数サブバンドにおける音のウェーブレットエナジー、周波数サブバンド内の各周波数成分の大きさ、周波数サブバンド内の複数の周波数成分の合計した大きさ、又は、周波数サブバンド内の周波数成分すべての合計した大きさであってよい。ガウス分布は、ここでは、例えば、平均値及び標準偏差、又は、平均値及び差異により表されてよい。ガウス分布は、正規化されてもよく、されなくともよい。ここでは、正規化されたガウス分布は、1に等しい整数を有する。ガウス分布により表される確率分布は、ここでは、周波数サブバンドにおけるエナジーレベルの測定値の結果が異なり得る確率を提供してよい。複数のガウス分布は、例えば、3から6のガウス分布、又は、2から10のガウス分布からなってよい。
【0045】
例示のための一例では、各ガウス分布は、特定の音に対する、周波数サブバンド全体のPSDに対する確率分布である。第1のガウス分布は、例えば、稼働中である第1の機械の音などの、第1の背景音を表してよい。オーディオフレームの周波数サブバンド全体のPSDが、第1のガウス分布の平均値と同じ値を有する場合、これは、オーディオフレームの周波数サブバンドの内容が、第1の機械の音であることを示すものと、高い確率をもってみなしてよい。オーディオフレームの周波数サブバンド全体のPSDが、第1のガウス分布の平均値より少し高い、又は、少し低い値を有する場合、これは、周波数サブバンドの内容が第1の音である確率が、少し低いことを示してよい。したがって、確率分布は、周波数サブバンドに対して測定されたエナジーレベルを、周波数サブバンドが特定の内容を有する確率、例えば、第1の機械の音を含む確率、に変換する関数であってよい。内容が背景音である確率が高いということはつまり、周波数サブバンドの背景分類が保証され得る、ということを示してよい。しかし、分類の判定を示す他のものがあってもよいことが理解されるべきである。
【0046】
そのような背景モデルを使用することは、周波数サブバンドの内容を識別する効率的な方法であってよい。分類に必要な処理能力がしたがって、低くともよい。
【0047】
そのような背景モデルは、周波数サブバンドの内容を識別する正確な方法でもある。確率分布は、例えば、測定されたエナジーレベルを閾値と単に比較することと比較して、内容を判定する、より正確な方法であり得る連続関数であってよい。複数のガウス分布を使用することにより、周波数サブバンドの異なる内容を表す複数の背景モデルが含まれてよい。ガウス分布の混合は、したがって、例えば、周波数サブバンドの内容が、複数の異なる音のいずれの1つのである確率を説明してよい複雑な確率分布を表してよい。
【0048】
そのような背景モデルは、適応性の高いモデルを実施する効率的な方法であってもよい。オーディオフレームの周波数サブバンドは、共通の異なる音がその周波数サブバンド内にどのように存在するかの統計を構築するサンプルとみなされてよい。例えば、測定されたPSD値が、特定の周波数サブバンドに特有のガウス分布の平均値よりも少し低い場合、そのガウス分布に対する平均値は、以降のオーディオフレームに対して少し減らされてよい。
【0049】
オーディオフレームの周波数サブバンドは、オーディオフレームの周波数サブバンドのエナジーレベルが、周波数サブバンドに特有の背景モデルのGMMのガウス分布の内の1つの平均値前後の所定の標準偏差数内にある場合、及び、そのガウス分布の重みであって、オーディオフレームの周波数サブバンドのエナジーレベルが、そのガウス分布の平均値前後の所定の標準偏差数内となる確率を表す重みが、閾値を超えている場合に、背景として分類されてよい。
【0050】
所定の標準偏差数は、例えば、2、2.5、又は3の標準偏差の、いずれの適切な数値であってよい。
【0051】
この実施形態の利点は、それが、周波数サブバンドの分類における高精度を促進することであってよい。種々の音は、ここでは、例えば、それらの音が時間と共に変化しても、正確に分類されてよい。例えば、特定の背景音の音量は変化してよい。背景音は、例えば、部屋の背景での、働いている人たちの話し声であってよい。その背景音の音量は続いて、それらの人たちの数に依存して変化してよい。ここでは、音量が特定の範囲内にある場合には、それらの話し声は背景として分類されるのが望ましい。予期した範囲の音量レベルは続いて、平均値及び標準偏差に関してのガウス分布により画定されてよい。オーディオフレームの周波数サブバンドのエナジーレベルが、平均値前後の所定の標準偏差数内にある場合、これは、周波数サブバンドの内容が背景音であることの可能性を示してよい。しかし、これは、背景分類をトリガするには十分でなくともよい。そのガウス分布により表される背景モデルは、例えば、不確実なものであってよい。ガウス分布は、したがって、不確実性を説明する重みを有してよい。背景モデルが、周波数サブバンドの内容が特定の背景音であることの可能性を示すものであるべき制約がどれほどかが、続いて、所定の標準偏差数により規制されてよい。周波数サブバンドの内容が特定の背景音であることの可能性を示すものが、背景分類をもたらすべきか否かは、続いて、重みにより規制されてよい。背景モデルを更新する際には、第1のガウス分布の平均値前後の所定の標準偏差数内にある、測定されたPSD値は、第1のガウス分布の重みを、例えば、所定の値により増やしてよい。代替的に又は追加的に、GMMの残りのガウス分布の重みは、所定の値により減らされてよい。
【0052】
エナジーレベルは、パワースペクトル密度(power spectral density又はPSD)の測定値であってよい。
【0053】
PSDは、ここでは、パワーがどのように、オーディオ信号の周波数成分のそれぞれに分配されるかを表してよい。PSDは、例えば、ユールウォーカー自己回帰(Yule-Walker auto regressive)法、又は、バートレット(Bartlett)法を使用して測定されてよい。PSDは、例えば、周波数サブバンド全体のPSD測定値、又は、周波数サブバンド内の、1つの周波数成分、若しくは、多数の周波数成分に対する、周波数サブバンド内のPSD測定値、であってよい。
【0054】
エナジーレベルのそのような定義を使用することの利点は、それが、周波数サブバンドの分類における高精度を促進することである。PSD値は、音量を正確に表すものであってよい。さらに、PSD値をフーリエ変換から計算することは、コンピュータ的に容易であり得る。分類に必要な計算能力は、これにより、低くともよい。
【0055】
この方法は、
オーディオ信号のエンコードされたオーディオフレームを、メタデータであって、オーディオフレームの周波数サブバンドの分類を表すメタデータと共に送信することをさらに含んでよい。
【0056】
メタデータを、エンコードされたオーディオフレームと共に送信することの利点は、それが、効率的なデコーディングを促進することであってよい。例えば、異なる方法を使用して、前景及び背景の周波数サブバンドをデコードしてよい。周波数サブバンドの分類が、メタデータを使用してマークされる場合、どの方法がどの周波数サブバンドに適用されるべきであるかが容易に判定され得る。これは、各処理リソースを節約し得る。
【0057】
オーディオ信号のエンコーディングは、オーパス(Opus)オーディオコーデックにより行われてよい。
【0058】
オーパスオーディオコーデックは、ビットの、エンコーダによりエンコードされる、異なる周波数サブバンドへの割り当てを内部的に判定してよい。例えば、オーパスでは、最大割り当てベクトルと呼ばれるメカニズムが、この目的に使用されてよい。本発明は、続いて、ビットの割り当てを変更し、背景とみなされている周波数バンドにおけるビット数を、前景とみなされている周波数バンドにおいてビットを使用するために、減らしてよい。オーパス以外のコーデックが使用されてよいことも理解されるべきである。
【0059】
本発明に関するコンセプトの第2の態様によると、プロセッシングユニット上にて実行されると、そのプロセッシングユニットに、先の特許請求の範囲のいずれか一項に係る方法を実行させるコンピュータ可読命令を保存するコンピュータ可読媒体を含む、コンピュータプログラム製品が提供される。
【0060】
この第2の態様の効果及び特徴は、一般的に、第1の態様に関連するそれら上記の説明に類似する。第1の態様に関連して言及する実施形態は、一般的に、第2の態様と両立する。
【0061】
そのようなコンピュータプログラム製品は、したがって、この方法の上述する利点を得るためのプログラムをインストールして実行する可能性を提供し得る。
【0062】
本発明に関するコンセプトの第3の態様によると、可変ビットレートを用いてオーディオ信号をエンコーディングするためのエンコーダが提供される。エンコーダは、レシーバと、1つ又はそれ以上のプロセッサと、を含む。
レシーバは、エンコードされるオーディオ信号を受信するよう構成されている。オーディオ信号は、複数の連続するオーディオフレームを含む。
1つ又はそれ以上のプロセッサは、
オーディオ信号の連続するオーディオフレームのそれぞれに対して、
オーディオフレームを、複数の周波数サブバンドに関する周波数ドメインにて表し、
オーディオフレームを、周波数サブバンドのそれぞれにて、周波数サブバンドに特有の背景モデルを使用して、背景又は前景のいずれかとして分類し、
オーディオ信号の連続するオーディオフレームのそれぞれをエンコードするよう構成されている。オーディオフレームの周波数サブバンドのそれぞれに対して、ビット数が割り当てられる。周波数サブバンドに対して割り当てられたビット数は、オーディオフレームが、周波数サブバンドにて前景として分類された場合の方が、オーディオフレームが、周波数サブバンドにて背景として分類された場合よりも多い。
【0063】
この第3の態様の効果及び特徴は、一般的に、第1の態様に関連するそれら上記の説明に類似する。第1の態様に関連して言及する実施形態は、一般的に、第3の態様と両立する。
【0064】
エンコーダは、オーディオ信号を記録するデバイスに物理的に接続されてよいことが理解されるべきである。しかし、エンコーダは、オーディオ信号を記録するデバイスにワイヤレスにて接続されてよく、エンコーダは、例えば、サーバー内に設置されてよく、サーバーは、オーディオ信号を記録するデバイスと通信することも理解されるべきである。
【0065】
本発明に関するコンセプトの第4の態様によると、モニタリングデバイスが提供される。モニタリングデバイスは、
オーディオ信号を記録するよう構成されているマイクロフォンと、
オーディオ信号を、マイクロフォンから受信し、可変ビットレートを用いてオーディオ信号をエンコードするよう構成されている、第3の態様に係るエンコーダと、を含む。
【0066】
この第4の態様の効果及び特徴は、一般的に、第1の態様に関連するそれら上記の説明に類似する。第1の態様に関連して言及する実施形態は、一般的に、第4の態様と両立する。
【0067】
マイクロフォンとエンコーダとを組み合わせることの利点は、モニタリングデバイスが自立して動作できる程度が大きくなることである。例えば、モニタリングデバイスは、エンコードされたオーディオ信号を、ネットワーク上に、他のデバイス又はサーバーのサポートなく送信してよい。
【0068】
上記の、そしてさらなる目的も同様に、本発明に関するコンセプトの特徴及び利点は、添付の図面を参照しての、以下に例示する、非限定の、詳細な説明を通してよく理解されるであろう。図中、特に明記しない限り、同様の構成要素には同様の参照符号が使用される。
【図面の簡単な説明】
【0069】
図1図1は、モニタリングデバイス内のエンコーダの図である。
図2図2は、マイクロフォンにワイヤレスにて接続されたエンコーダの図である。
図3図3は、可変ビットレートを用いてオーディオ信号をエンコーディングする方法のフローチャートである。
図4図4は、周波数ドメインにて表されて分類されたオーディオ信号である。
図5図5は、ガウス混合モデルである。
図6図6は、ビットレートが段階的に減少する圧縮の模式図である。
【発明を実施するための形態】
【0070】
添付の図面を参照して、本発明の技術的内容及び詳細な説明を、好適であり、特許請求の範囲を限定することに使用されない実施形態にしたがって、以下に記載する。本発明は、多くの異なる形態にて体現されてよく、以下に示す実施形態に限定されるものとして理解すべきでない。むしろこれらの実施形態は、完璧性及び完全性のために、そして、本発明の範囲を当業者に十分に伝えるために提供される。
【0071】
図1及び図2は、レシーバ12と、プロセッサ14と、を含むエンコーダ10の模式図である。図1では、エンコーダ10はモニタリングデバイス1内に設置されている。モニタリングデバイス1は、レシーバ12を通過したオーディオ信号30を記録するよう構成されているマイクロフォン2をさらに含む。モニタリングデバイス1は、ビデオ信号を追加的に記録できてもよいし、できなくともよい。図2では、エンコーダ10は、複数のマイクロフォン2をサポートする。エンコーダ10は、したがって、ネットワークビデオレコーダやネットワークオーディオレコーダなどの、スタンドアローン型モニタリングデバイスの一部、又は、中央サポートユニットの一部であってよい。
【0072】
エンコーダ10は、例えば、マイクロフォン2からオーディオ信号30を受信し、そのオーディオ信号30を、プロセッサ14を使用してその信号を処理することにより、エンコードする。エンコードされたオーディオ信号は、続いて、例えば、ローカルエリアネットワークを経由して送信されてよい。エンコードされたオーディオ信号は、モニタリングデバイス1上にローカルに、又は、リモートストレージメディア上に保存されてもよい。
【0073】
マイクロフォン2からエンコーダ10に通過したオーディオ信号30は、マイクロフォン2に当たる音波をアナログ又はデジタルにて表すものであってよい。受信したオーディオ信号30は、複数の連続するオーディオフレーム32を含む。オーディオ信号30の、連続するオーディオフレーム32のそれぞれは、60msなどの、特定の持続時間のオーディオ信号の、時間セグメントを表してよい。オーディオフレーム32は、例えば、ビットストリングにより表される時間セグメントのそれぞれにより、明確に画定されてよい。オーディオフレーム32は、例えば、オーディオフレーム32のそれぞれの開始を画定するフレームクロックにより、暗に画定されてもよい。オーディオフレーム32は、圧縮されなくともよい。しかし、オーディオフレーム32は、圧縮されてもよい。オーディオ信号30は、例えば、予め圧縮されてよい。エンコーダ10は、続いて、さらなる圧縮を加えてよい。
【0074】
図1は、マイクロフォン2及びエンコーダ10の間の、オーディオ信号30がエンコーダ10に通過する有線接続を示す。図2は、エンコーダ10及びマイクロフォン2の間の無線接続を示す。
【0075】
図3は、可変ビットレートを用いてオーディオ信号30をエンコーディングする方法100を示すフローチャートを示す。方法100は、例えば、エンコーダ10により使用され、可変ビットレートを用いてオーディオ信号30をエンコードしてよい。図3は、方法100のステップのそれぞれについての特定の順序を画定しないことが理解されるべきである。
【0076】
方法100によると、S102にて、オーディオ信号30が受信される。オーディオ信号30は、複数の連続するオーディオフレーム32を含む。
【0077】
連続するオーディオフレーム32のそれぞれは、続いて、S104にて、複数の周波数サブバンド34に関する周波数ドメインにて表される(図4とあわせて以下をさらに参照されたい)。これは、例えば、高速フーリエ変換(fast Fourier transform又はFFT)又は変形離散コサイン変換(modified discrete cosine transform又はMDCT)を使用して行われてよい。オーディオフレーム32が周波数ドメインにて表されると、周波数サブバンド34のそれぞれは、1つ又はそれ以上の周波数成分を含み得る。周波数成分のそれぞれは、ここでは、例えば、周波数成分により表される周波数スパンのエナジーレベルであってよい。周波数ドメインでは、オーディオフレーム32は、したがって、スペクトルであってよい。ここでは、エナジーレベルは、オーディオ信号のパワーがどのように、異なる周波数サブバンド34の周波数成分のそれぞれにわたって分配されるかを説明する。エナジーレベル値は、ここでは、周波数成分の周波数スパンに関して正規化され、それが、スペクトル分解能には依存しなくなってよい。
【0078】
連続するオーディオフレーム32のそれぞれは、以下に説明するように、S106にて、周波数サブバンド34のそれぞれにて、周波数サブバンド34に特有の背景モデルを使用して、背景又は前景のいずれかとして、さらに分類される。
【0079】
オーディオ信号の連続するオーディオフレーム32のそれぞれは、S108にて、さらにエンコードされる。ここでは、オーディオフレーム32の周波数サブバンド34のそれぞれに対して、ビット数が割り当てられる。ここでは、周波数サブバンド34に対して割り当てられたビット数は、オーディオフレーム32が、周波数サブバンド34にて前景として分類された場合の方が、オーディオフレーム32が、周波数サブバンド34にて背景として分類された場合よりも多い。S108でのエンコーディングすることを、以下にさらに説明する。
【0080】
S104での表すことと、S106での分類することと、S108でのエンコーディングすることと、の各ステップが、オーディオフレーム32のそれぞれに対して順次行われてよい。しかし、すべてのステップは、次のオーディオフレーム32に移動する前に、1つのオーディオフレーム32に対して必ずしも完了されなくともよい。例えば、S104での表すことと、S106での分類することと、は、オーディオフレーム32のそれぞれに対して順次行われてよい。多くのフレームが分類されてバッファされると、バッファされたオーディオフレーム32が、S108にてエンコードされてよい。
【0081】
方法100は、S110での、背景モデルを更新する任意のステップをさらに含む。ここでは、背景モデルが、オーディオフレーム32の周波数サブバンド34に対して、オーディオフレーム32の周波数サブバンド34の周波数コンテンツに基づいて、更新される。
【0082】
方法100は、S112での、オーディオ信号30のエンコードされたオーディオフレーム32を、メタデータと共に送信する任意のステップをさらに含む。ここでは、メタデータは、オーディオフレーム32の周波数サブバンド34の分類36を表す。
【0083】
図4は、S104にて周波数ドメインにて表され、S106にて分類された、オーディオ信号30の一例を模式的に示す。オーディオ信号30は、ここでは、時間ドメインにて、多くのオーディオフレーム32に分割され、周波数ドメインにて、多くの周波数サブバンド34に分割されたものとみなされてよい。オーディオフレーム32のそれぞれの周波数サブバンド34のそれぞれは、分類36を有する。分類36は、S108でのエンコーディングするステップにて、周波数サブバンド34に対して割り当てられるビット数の判定に使用される。この図及び以降の図では、前景分類は、FGとマークされており、背景分類は、BGとマークされている。
【0084】
ここでは、S106での、オーディオフレーム32の周波数サブバンド34を分類することのステップをさらに詳細に説明する。図5は、周波数サブバンド34に特有の背景モデルとしていくつかの実施形態にて使用されるGMM50を示す。オーディオフレームに対する背景モデルを、GMMを使用して判定することのコンセプトは、「複雑なオーディオ環境に対する、オンラインでのオーディオ背景の判定(On-line Audio Background Determination for Complex Audio Environments)」[マルチメディアコンピューティング通信及びアプリケーションにおけるACMトランザクション:2007年5月(ACM Transactions on Multimedia Computing Communications and Applications May 2007)]モンクリフ(Moncrieff)ら、にさらに説明されている。これは、背景モデル化技術を使用して、オーディオを前景/背景に分離する方法を説明する。
【0085】
ここに描くGMM50は、3つのガウス分布52を含む。それらのそれぞれは、周波数サブバンドにおける、エナジーレベルに対する確率分布を表す。周波数サブバンド34のそれぞれは、ここでは、その周波数サブバンド34内の音がどのように分類されるべきであるかをモデル化する、それ自身のガウス分布52を有してよい。図中のガウス分布52のそれぞれは、平均値及び標準偏差を有する。ここでは、平均値前後の、あらかじめ定められた標準偏差数54が、ガウス分布52のそれぞれのエナジーレベルの範囲を画定する。いくつかの実施形態では、ガウス分布52のそれぞれは、さらに、重みと関連付けられている。重みは、オーディオフレーム32の周波数サブバンド34のエナジーレベルが、そのガウス分布52の平均値前後の所定の標準偏差数54内となる確率を表す。ガウス分布の重みのそれぞれは、正規化されてもよく、されなくともよい。
【0086】
いくつかの実施形態では、オーディオフレーム32の周波数サブバンド34は、2つの条件が満たされる場合に、背景として分類される。第1の条件は、周波数サブバンド34の測定されたエナジーレベル56が、ガウス分布52の内の1つの、あらかじめ定められた標準偏差数54により画定された、エナジーレベルの範囲内に収まることである。図4では、周波数サブバンド34の測定されたエナジーレベル56が、真ん中のガウス分布52の平均値前後の、あらかじめ定められた標準偏差数54内に収まる。第2の条件は、そのガウス分布52が、閾値を超える重みを有することである。いくつかの実施形態では、周波数サブバンド34の測定されたエナジーレベル56は、ガウス分布54の内の1つを超える、あらかじめ定められた標準偏差数54により画定された、エナジーレベルの範囲内に収まってよい。これらの場合では、周波数サブバンド34は、ガウス分布52に対応する分類を、最も高い重みと共に受信してよい。最も高い重みが、閾値としての重みを超える場合、周波数サブバンド34は、背景として分類される。
【0087】
いくつかの実施形態では、背景モデルは、オーディオフレーム32の周波数サブバンド34の周波数コンテンツに基づいて更新される。例えば、図5のGMM50は、いくつかの実施形態にて、それが、オーディオフレーム32の周波数サブバンド34に使用された後に、更新され得る。更新されたガウス分布53が、したがって、ガウス分布52及び測定されたエナジーレベル56に基づいて形成されてよい。図5は、更新されたガウス分布53を示す。更新されたガウス分布53は、真ん中のガウス分布52の代わりに、後続のオーディオフレームに使用される。
【0088】
以下に、更新の例の包括的でないリストを説明する。測定されたエナジーレベル56が、ガウス分布52に適合する場合、つまり、ガウス分布52の平均値前後の、あらかじめ定められた標準偏差数54内に収まる場合、適合するガウス分布52が更新されてよい。例えば、適合するガウス分布52の平均値及び/又は標準偏差は、調整されてよい。平均値は、例えば、測定されたエナジーレベル56が、適合するガウス分布52の平均値未満であった場合には、減らされてよい。適合するガウス分布52の重みも、調整されてよい。適合するガウス分布52の重みは、増えてよい。測定されたエナジーレベル56に適合しなかったガウス分布52の重みは、減ってよい。測定されたエナジーレベル56が、いずれのガウス分布52にも適合しなかった場合、最も低い重みを有するガウス分布52が、測定されたエナジーレベル56に等しい平均値と、あらかじめ定められた標準偏差と、あらかじめ定められた(低い)重みと、を有する新たなガウス分布52と置き換えられてよい。適合するガウス分布52の重みは、更新が行われる際に考慮されてもよいことが理解されるべきである。複数のガウス分布52が、1つの測定されたエナジーレベル56に適合してよいことも理解されるべきである。複数のガウス分布52も、背景モデルの単一の更新において調整されてよい。
【0089】
ここでは、S108での、オーディオフレーム32をエンコーディングするステップをさらに詳細に説明する。S108での、オーディオフレーム32をエンコーディングすることは、異なる周波数サブバンド34に対して異なるビット数を割り当てることをサポートするオーディオコーデックを使用して行われてよい。そのようなオーディオコーデックは、例えば、オーパスオーディオコーデックである。MP3コーデックやMPEGコーデックなどの他のコーデック、又は、VBRをサポートする他のコーデックが採用されてよい。S108にて、オーディオフレーム32がエンコードされると、オーディオフレーム32の周波数サブバンド34に対して割り当てられるビット数は、オーディオフレーム32が、周波数サブバンド34にて前景として分類された場合の方が、オーディオフレーム32が、周波数サブバンド34にて背景として分類された場合よりも多い。
【0090】
割り当てビット数は、例えば、ビットレートが段階的に減少する圧縮58において、現在のオーディオフレーム32の分類、及び、先のオーディオフレーム32の分類、の双方に依存してよい。図6は、周波数サブバンド34に対する、ビットレートが段階的に減少する圧縮58を模式的に示す。この図は、割り当てビット数が、先のオーディオフレーム32の分類36に依存する場合の、時間に応じての割り当てビット数を示す。ここに示す状況では、前景分類から背景分類への切り替えにより、割り当てられるビット数は、即座にではないが、段階的に減らされることとなる。前景分類から背景分類への切り替え後、割り当てられるビット数は、周波数サブバンド34における、オーディオフレーム32の後続の背景分類のそれぞれに対して、予め設定された低い値に到達するまで、減らされる。一方、背景分類から前景分類への切り替えにより、割り当てられるビット数は、高い値へと即座に増やされることとなってよい。
【0091】
割り当てビット数は、先のオーディオフレーム32の分類には依存しなくともよい。割り当てビット数は、例えば、前景として分類された、オーディオフレーム32の周波数サブバンド34のそれぞれに対して、高い値に設定されてよい。割り当てビット数は、例えば、背景として分類された、オーディオフレーム32の周波数サブバンド34のそれぞれに対して、低い値に設定されてよい。
【0092】
いくつかの実施形態では、低い値及び高い値をなすものが、すべての周波数サブバンドにて同じである。いくつかの実施形態では、低い値及び高い値をなすものは、1つの周波数サブバンドから別の周波数サブバンドのそれぞれの間にて、異なる。オーディオフレーム32の、背景に分類された周波数サブバンド34をエンコーディングするために割り当てられるビット数は、例えば、オーディオフレーム32の、背景に分類された周波数サブバンド34の周波数レンジに依存してよい。オーディオフレーム32の、前景に分類された周波数サブバンド34をエンコーディングするために割り当てられるビット数は、例えば、オーディオフレーム32の、前景に分類された周波数サブバンド34の周波数レンジに依存してよい。前景又は背景に分類された周波数サブバンド34をエンコーディングするために割り当てられるビット数は、心理音響的モデルに依存してもよい。
【0093】
オーディオフレーム32がエンコードされると、それらは送信されてよく、例えば、エンコーダ10により送信されてよい。オーディオフレーム32は、例えば、有線接続を経由、又は、ワイヤレス、のいずれかにて、ネットワークに送信されてよい。オーディオフレーム32の周波数サブバンド34の分類は、ここでは、エンコードされたオーディオフレームと共に、メタデータとして送信されてよい。
【0094】
これまで、本発明に関するコンセプトを、限られた例を参照して主に説明した。しかし、当業者にただちに明白であるように、上記に開示するものとは異なる他の実施例も、特許請求の範囲に規定されるように、本発明に関するコンセプトの範囲内にて等しく可能である。
図1
図2
図3
図4
図5
図6