特許第5666023号(P5666023)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許5666023残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法
<>
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000017
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000018
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000019
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000020
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000021
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000022
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000023
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000024
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000025
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000026
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000027
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000028
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000029
  • 特許5666023-残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法 図000030
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5666023
(24)【登録日】2014年12月19日
(45)【発行日】2015年2月4日
(54)【発明の名称】残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法
(51)【国際特許分類】
   G10K 15/00 20060101AFI20150115BHJP
   G10K 15/12 20060101ALI20150115BHJP
   H04R 3/00 20060101ALI20150115BHJP
【FI】
   G10K15/00 M
   G10K15/00 B
   H04R3/00
【請求項の数】15
【全頁数】24
(21)【出願番号】特願2013-555829(P2013-555829)
(86)(22)【出願日】2012年2月24日
(65)【公表番号】特表2014-510474(P2014-510474A)
(43)【公表日】2014年4月24日
(86)【国際出願番号】EP2012053193
(87)【国際公開番号】WO2012116934
(87)【国際公開日】20120907
【審査請求日】2013年10月28日
(31)【優先権主張番号】61/448,444
(32)【優先日】2011年3月2日
(33)【優先権主張国】US
(31)【優先権主張番号】11171488.7
(32)【優先日】2011年6月27日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085464
【弁理士】
【氏名又は名称】野口 繁雄
(72)【発明者】
【氏名】クリスティン・ウーレ
(72)【発明者】
【氏名】ヨウニ・パウルス
(72)【発明者】
【氏名】ユエルゲン・ヘーレ
(72)【発明者】
【氏名】ペーテル・プロケイン
(72)【発明者】
【氏名】オリベル・ヘルムート
【審査官】 大野 弘
(56)【参考文献】
【文献】 国際公開第2006/022248(WO,A1)
【文献】 特開2007−271686(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/00
G10K 15/12
(57)【特許請求の範囲】
【請求項1】
直接信号成分(100)と残響信号成分(102)とからなる混合信号における残響知覚レベルの大きさを決定するための装置であって、
前記直接信号成分(100)、前記残響信号成分(102)又は前記混合信号をフィルタリングするための知覚フィルタステージを備えたラウドネス・モデル・プロセッサ(104)であって、前記知覚フィルタステージは、フィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得るために、実体の聴覚知覚機構をモデル化するように構成されているラウドネス・モデル・プロセッサ(104)と、
前記フィルタリングされた直接信号を用いて第1のラウドネスの大きさ(106)を推定し、かつ前記フィルタリングされた残響信号又は前記フィルタリングされた混合信号を用いて第2のラウドネスの大きさ(108)を推定するためのラウドネス推定器(104b)であって、前記フィルタリングされた混合信号は前記直接信号成分と前記残響信号成分との重畳から導出されたものとなっているラウドネス推定器(104b)と、
前記残響知覚レベルの大きさ(112)を得るために、前記第1及び第2のラウドネスの大きさ(106、108)を結合するためのコンバイナ(110)と、を備えている装置。
【請求項2】
前記ラウドネス推定器(104b)は、前記フィルタリングされた直接信号が励振であり前記フィルタリングされた残響信号がノイズであるとみなして前記第1のラウドネスの大きさを推定し、又は前記フィルタリングされた残響信号が励振であり前記フィルタリングされた直接信号がノイズであるとみなして前記第2のラウドネスの大きさ(108)を推定するように構成されている請求項1に記載の装置。
【請求項3】
前記ラウドネス推定器(104b)は、前記第1のラウドネスの大きさを前記フィルタリングされた直接信号のラウドネスとして計算するように、又は前記第2のラウドネスの大きさを前記フィルタリングされた残響信号又は前記混合信号のラウドネスとして計算するように構成されている請求項1又は請求項2に記載の装置。
【請求項4】
前記コンバイナ(110)は、前記第1のラウドネスの大きさ(106)と前記第2のラウドネスの大きさ(108)を用いて差分を計算するように構成されている請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記残響の知覚レベルを、異なる信号フレームの知覚されたラウドネス(k)の少なくとも2つの大きさの平均値(904)に基づいて予測するための予測器(114)をさらに備えている請求項1に記載の装置。
【請求項6】
前記予測器(114)は、予測(900)において、定数項(901、903)、前記平均値(904)に依存する線形項及び倍率(902)を用いるように構成されている請求項5に記載の装置。
【請求項7】
前記定数項(903)は、人工的残響装置において前記残響信号を発生させるために使用される残響フィルタ(606)を記述する残響パラメータに依存する請求項に記載の装置。
【請求項8】
前記知覚フィルタステージは時間−周波数変換ステージ(300)を含み、
前記ラウドネス推定器(104b)は、前記直接信号成分と前記残響信号成分とを含む広帯域混合信号の前記第1及び第2のラウドネスの大きさ(106、108)を導出するために、複数の帯域について得られた結果を加算する(104c、104d)ように構成されている請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記知覚フィルタステージは、前記フィルタリングされた直接信号、又は前記フィルタリングされた残響信号、又は前記フィルタリングされた混合信号を導出するために、耳伝達関数(302)と、励起パターン計算器(304)と、時間積分器(306)とを備えている請求項1から8のいずれか一項に記載の装置。
【請求項10】
直接信号成分(100)と残響信号成分(102)とからなる混合信号における残響知覚レベルの大きさを決定する方法であって、
前記直接信号成分(100)、前記残響信号成分(102)又は前記混合信号をフィルタリングすること(104)であって、このフィルタリングは実体の聴覚知覚機構をモデル化するように構成されている知覚フィルタステージを用いて、フィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得るように実行されるものであることと、
前記フィルタリングされた直接信号を用いて第1のラウドネスの大きさ(106)を推定することと、
前記フィルタリングされた残響信号又は前記フィルタリングされた混合信号を用いて第2のラウドネスの大きさ(108)を推定することであって、前記フィルタリングされた混合信号は、前記直接信号成分と前記残響信号成分との重畳から導出されたものであることと、
前記残響知覚レベルの大きさ(112)を得るために、前記第1及び第2のラウドネスの大きさ(106、108)を結合すること(110)と、を含む方法。
【請求項11】
直接信号成分(800)から残響づけられた混合信号(808)を発生するためのオーディオプロセッサであって、
残響づけられた信号成分(806)を得るために前記直接信号成分(800)を反響させるための残響装置(801)と、
前記直接信号成分と前記残響づけられた信号成分とを含む前記残響づけられた混合信号における残響知覚レベルの大きさを決定するための、請求項1から9のいずれか一項に記載の装置(802)と、
残響知覚レベルの大きさを決定するための装置(802)によって生成された知覚レベルを受信し、前記知覚レベル及び標的値に従って制御信号(804)を発生するためのコントローラ(803)と、
前記直接信号成分(800)又は前記残響信号成分(806)を前記制御値(804)に従って操作するためのマニピュレータ(805)と、
前記残響づけられた混合信号(808)を得るために、前記操作された直接信号成分と前記操作された残響信号成分とを結合するため、又は前記直接信号成分と前記操作された残響信号成分とを結合するため、又は前記操作された直接信号成分と前記残響信号成分とを結合するためのコンバイナ(807)と、を備えたオーディオプロセッサ。
【請求項12】
前記マニピュレータ(805)は前記制御信号によって決定された利得値によって前記残響信号成分を重み付けするための重み付け器を備えているか、又は、
前記残響装置(801)は、前記制御信号(804)に応答して可変の可変フィルタを備えている請求項11に記載のオーディオプロセッサ
【請求項13】
前記残響装置(801)は固定フィルタを有し、
前記マニピュレータ(805)は前記操作された残響信号成分を発生するために前記重み付け器を有し、
前記コンバイナ(807)は前記残響づけられた混合信号(808)を得るために、前記直接信号成分と前記操作された残響信号成分とを加算するように構成されている請求項11に記載のオーディオプロセッサ
【請求項14】
直接信号成分(800)から残響づけられた混合信号(808)を発生するためにオーディオ信号を処理する方法であって、
残響づけられた信号成分(806)を得るために前記直接信号成分(800)を反響させること(801)と、
前記直接信号成分と前記残響づけられた信号成分とを含む前記残響づけられた混合信号における残響知覚レベルの大きさを決定する請求項10に記載の方法(802)と、
残響知覚レベルの大きさを決定するための前記方法(802)によって発生された前記知覚レベルを受信することと、
前記知覚レベル及び標的値に従って制御信号(804)を発生すること(803)と、
前記制御値(804)に従って、前記直接信号成分(800)又は前記残響信号成分(806)を操作すること(805)と、
前記残響づけられた混合信号(808)を得るために、前記操作された直接信号成分と前記操作された残響信号成分とを結合すること、又は前記直接信号成分と前記操作された残響信号成分とを結合すること、又は前記操作された直接信号成分と前記残響信号成分とを結合すること(807)と、を含む方法。
【請求項15】
コンピュータ、請求項10又は請求項14に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、具体的には、人工的残響装置において使用可能なオーディオ処理に関する。
【背景技術】
【0002】
残響知覚レベルの大きさ(measure)の決定が求められるのは、例えば、人工的残響プロセッサが自動化された方法で動作され、かつ残響の知覚レベルが目標値に一致するようにそのパラメータを入力信号へ適合化する必要のある用途に対してである。残響という用語は、一般に受け入れられている定義と同じ主題を暗示するが、そうではない点に留意されたい。その一般に受け入れられている定義は、聞き取りテストと予測シナリオにおける定量的な大きさとしての使用を困難にするものである。
【0003】
人工的残響プロセッサは、線形で時間的に不変のシステムとして構成され、直接音対残響音比(DRR:direct-to-reverberation ratio)を制御するために、図6に示されているように、プリディレイd、残響インパルス応答(RIR:reverberation impulse response)及び倍率(scaling factor)gをもつ送信−戻り信号経路において動作させられることが多い。パラメトリックな残響プロセッサとして構成される場合、それらの残響プロセッサは、例えばRIRの形状と密度を制御する様々なパラメータ、及び1つ又は複数の周波数帯域におけるマルチチャネルプロセッサのRIRのチャネル間コヒーレンス(ICC:inter-channel coherence)を特徴とする。
【0004】
図6は、入力600において入力される直接信号x[k]を示し、この信号は加算器602へ転送されて重み付け器604から出力される残響信号成分r[k]へ加算される。重み付け器604は、その第1の入力において残響フィルタ606により出力される信号を受信し、その第2の入力において利得係数gを受信する。残響フィルタ606はその上流に接続される任意の遅延ステージ608をもつことができるが、残響フィルタ606はそれ自体が幾分かの遅延を含むという事実によって、ブロック608内での遅延は残響フィルタ606に包含させることができ、したがって、図6における上側の分岐は、遅延と残響を組み込んだ単一のフィルタを備えるだけ、又は如何なる遅延も追加されない残響を組み込むだけとすることができる。フィルタ606によって残響信号成分が出力され、この残響信号成分は乗算器604により利得係数gに応答して修正されて操作された残響信号成分r[k]を得ることができる。操作された残響信号成分r[k]は、次に、入力600に入力された直接信号成分と結合され、最終的に、加算器602の出力において混合信号m[k]が得られる。「残響フィルタ」という用語は、人工的残響に共通の実施形態(FIRフィルタリングに等しい畳み込みとして、又は再帰構造を用いる実施形態、例えばフィードバック遅延ネットワーク、全域通過フィルタとフィードバック・コム・フィルタのネットワーク、もしくは他の再帰フィルタ等として)を指すが、残響信号を生成する一般的な処理を指すことに留意されたい。このような処理は、非線形処理又は時間的に変化する処理、例えば信号の振幅又は遅延長さの低周波数変調等を含むことができる。これらの事例において、「残響フィルタ」という用語は、厳密な技術的意味合いでは、線形で時間的に不変(LTI:Linear Time Invariant)なシステムには当てはまらないであろう。実際には、「残響フィルタ」は残響信号を出力する処理を指し、それは計算又は記録された残響信号をメモリから読み取る機構を含む可能性がある。
【0005】
これらのパラメータは、知覚レベル、距離、部屋のサイズ、音調及び音質に関して、結果的に生じるオーディオ信号に影響を及ぼす。さらに、残響の知覚特性は、入力信号の時間特性とスペクトル特性に依存する(非特許文献1参照)。極めて重要な感覚、すなわちラウドネス(loudness)に注目すると、知覚される残響のラウドネスは、入力信号の非定常性に単調に関連することを観察することができる。直観的に言えば、包絡線が大きく変化するオーディオ信号は、残響を高レベルで励起し、残響をより低いレベルで可聴にすることができる。デシベル単位で表現される長期DRRが正である典型的なシナリオでは、そのエネルギー包絡線が増大する場面で直接信号が残響信号をほぼ完全にマスクすることができる。一方、信号が終了する度に、(最大200msでの)ポストマスキングのスロープと聴覚系の(適度のレベルについては最大200msでの)積分時間によって決定される最小持続時間を超える間隙において、先に励起された残響の尾部が現れる。
【0006】
これを例示するために、図4Aは合成オーディオ信号と人工的に生成された残響信号の時間信号包絡線を示し、図4Bはラウドネスの計算モデルによって計算された予測ラウドネス関数と予測部分ラウドネス関数を示す。ここでは、50msの短いプリディレイをもつRIRを使用し、早期反射を除外し、指数関数的に減衰するホワイトノイズをもつ残響の後期部分を合成している(非特許文献2参照)。入力信号は、短い減衰をもつ第1の事象と長い減衰をもつ第2の事象とが知覚されるように、高調波広帯域信号と包絡線関数から生成されている。長い事象はより多くの合計残響エネルギーを生成するが、より多くの残響として知覚されるのが短い音であることについては驚くに当たらない。より長い事象の減衰する勾配が残響をマスキングする場合、短い音は、残響が生まれる前に既に消滅し、これにより、残響が知覚される間隙が開いている。ここで用いるマスキングの定義は、完全なマスキングと部分的なマスキングの双方を含んでいることに留意されたい(非特許文献3参照)。
【0007】
このような観察は何回も行われている(非特許文献4、5、6参照)が、それらを強調することにはなお意義がある。というのは、このような観察は、部分ラウドネスのモデルをこの研究の状況に当て嵌めることができる理由を定性的に説明することになるからである。実際に、残響の知覚は、聴覚系におけるストリーム分離プロセスから発生することが指摘されており(非特許文献4、5、6参照)、直接信号による残響の部分的なマスキングにより影響される。
【0008】
上述の考察は、ラウドネス・モデルの使用に動機付けをする。関連の調査はLeeらによって実行され、RIRを直接聞くときのRIRの主観的な減衰速度の予測(非特許文献7参照)と、残響に対する再生レベルの効果(非特許文献8参照)に注目している。非特許文献9では、ラウドネスに基づく早期減衰時間を用いる残響の予測器が提案されている。その研究に対して、本明細書において提案する予測方法は、直接信号と残響信号を部分ラウドネスの計算モデルを用いて(低複雑性の実施形態の探索ではその簡易版を用いて)処理し、これにより、入力(直接)信号の感覚に対する影響を考察する。最近では、TsilfidisとMourjopoulusが、単チャネルレコーディングにおける後期残響抑止のためのラウドネス・モデルの使用について研究している(非特許文献10)。直接信号の推定値が残響入力信号からスペクトル減算法を用いて計算され、残響マスキング指数が聴覚マスキング計算モデルによって導出される。聴覚マスキング計算モデルは残響処理を制御するものである。
【0009】
知覚の観点から音をよりよくするために残響を加えることは、マルチチャネル合成器及び他の装置の特徴である。一方、発生される残響は人工的信号であり、低レベルで信号に付加されるとほとんど聴き取れず、かつ高レベルで付加されると不自然で不快な音の最終混合信号となる。事態をさらに悪化させるものは、図4A及び図4Bの状況において論じたように、残響の知覚レベルが信号に強く依存しているということ、したがって所定の残響フィルタがある種の信号に対しては極めて良好に作用する場合もあるが、異なる種類の信号に対しては、聴覚的効果をもたないか、又はさらに悪くは重大な可聴アーティファクトを発生する可能性があるということである。
【0010】
残響に関連するさらなる問題は、残響づけられた(reverberated)信号が人等の実体又は個体の耳に対するものであり、かつ直接信号成分と残響信号成分をもつ混合信号を発生することの最終目的が、この混合信号又は「残響づけられた信号」を実体がよい響き、又は自然な響きとして知覚することにある点である。しかしながら、聴覚知覚機構又は音が個体によって実際に知覚される機構は、人の聞き取り能力が機能する帯域のみならず、帯域内の信号処理に関しても極めて非線形的である。さらに、人による音の知覚は、例えばデジタルサンプルを2乗することによって計算されることが可能な音圧レベルによってさほど導かれないが、それよりもラウドネスの感覚によってより多く制御されることが知られている。さらに、直接成分及び残響信号成分を含む混合信号の場合、残響成分のラウドネスの感覚は、直接信号成分の種類のみならず、直接信号成分のレベル又はラウドネスにも依存する。
【0011】
したがって、実体の聴覚知覚機構に関連する上述の問題点に対処するために、直接信号成分及び残響信号成分よりなる信号における残響知覚レベルの大きさを決定することが必要とされている。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】[1] A. Czyzewski, “A method for artificial reverberation quality testing,” J. Audio Eng. Soc., vol. 38, pp. 129-141, 1990.
【非特許文献2】[2] J.A. Moorer, “About this reverberation business,” Computer Music Journal, vol. 3, 1979.
【非特許文献3】[3] B. Scharf, “Fundamentals of auditory masking,” Audiology, vol. 10, pp. 30-40, 1971.
【非特許文献4】[4] W.G. Gardner and D. Griesinger, “Reverberation level matching experiments,” in Proc. of the Sabine Centennial Symposium, Acoust. Soc. of Am., 1994.
【非特許文献5】[5] D. Griesinger, “How loud is my reverberation,” in Proc. Of the AES 98th Conv., 1995.
【非特許文献6】[6] D. Griesinger, “Further investigation into the loudness of running reverberation,” in Proc. of the Institute of Acoustics (UK) Conference, 1995.
【非特許文献7】[7] D. Lee and D. Cabrera, “Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time varying-loudness to model reverberance,” Applied Acoustics, vol. 71, pp. 801-811, 2010.
【非特許文献8】[8] D. Lee, D. Cabrera, and W.L. Martens, “Equal reverberance matching of music,” Proc. of Acoustics, 2009.
【非特許文献9】[9] D. Lee, D. Cabrera, and W.L. Martens, “Equal reverberance matching of running musical stimuli having various reverberation times and SPLs,” in Proc. of the 20th International Congress on Acoustics, 2010.
【非特許文献10】[10] A. Tsilfidis and J. Mourjopoulus, “Blind single-channel suppression of late reverberation based on perceptual reverberation modeling,” J. Acoust. Soc. Am, vol. 129, pp. 1439-1451, 2011.
【非特許文献11】[11] B.C.J. Moore, B.R. Glasberg, and T. Baer, “A model for the prediction of threshold, loudness, and partial loudness,” J. Audio Eng. Soc., vol. 45, pp. 224-240, 1997.
【非特許文献12】[12] B.R. Glasberg and B.C.J. Moore, “Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds,” J. Audio Eng. Soc., vol. 53, pp. 906-918, 2005.
【非特許文献13】[13] J. Paulus, C. Uhle, and J. Herre, “Perceived level of late reverberation in speech and music,”in Proc. of the AES 130th Conv., 2011.
【非特許文献14】[14] J.L. Verhey and S.J. Heise, “Einfluss der Zeitstruktur des Hintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in German),” in Proc. of DAGA, 2010.
【非特許文献15】[15] C. Bradter and K. Hobohm, “Loudness calculation for individual acoustical objects within complex temporally variable sounds,” in Proc. of the AES 124th Conv., 2008.
【非特許文献16】[16] International Telecommunication Union, Radiocommunication Assembly, “Algorithms to measure audio programme loudness and true-peak audio level,” Recommendation ITU-R BS. 1770, 2006, Geneva, Switzerland.
【非特許文献17】[17] S. Hase, A. Takatsu, S. Sato, H. Sakai, and Y. Ando, “Reverberance of an existing hall in relation to both subsequent reverberation time and SPL,” J. Sound Vib., vol. 232, pp. 149-155, 2000.
【非特許文献18】[18] D. Griesinger, “The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment,” in Proc. of the AES 126th Conv., 2009.
【非特許文献19】[19] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, “Ambience separation from mono recordings using Non-negative Matrix Factorization,” in Proc. of the AES 30th Conf., 2007.
【発明の概要】
【発明が解決しようとする課題】
【0013】
したがって、本発明の1つの目的は、残響知覚レベルの大きさを決定するための装置又は方法を提供すること、又は、オーディオ信号を処理する、向上した特性をもつオーディオプロセッサ又は方法を提供することにある。
【課題を解決するための手段】
【0014】
この目的は、請求項1に記載の残響知覚レベルの大きさを決定するための装置、請求項10に記載の残響知覚レベルの大きさを決定するための方法、請求項11に記載のオーディオプロセッサ、請求項14に記載のオーディオ信号を処理する方法又は請求項15に記載のコンピュータプログラムによって達成される。
【0015】
本発明は、信号における残響知覚レベルの大きさは、実体の聴覚知覚機構をモデル化するために知覚フィルタを用いて、直接信号成分、残響信号成分又は混合信号成分をフィルタリングするための知覚フィルタステージを備えたラウドネス・モデル・プロセッサにより決定される、という事実認定にに基づいている。知覚的にフィルタリングされた信号に基づいて、ラウドネス推定器が、フィルタリングされた直接信号を用いて第1のラウドネスの大きさを推定し、かつフィルタリングされた残響信号又はフィルタリングされた混合信号を用いて第2のラウドネスの大きさを推定する。次に、コンバイナが、第1のラウドネスの大きさと第2のラウドネスの大きさとを結合して、残響知覚レベルの大きさを得る。具体的には、2つの異なるラウドネスの大きさを好ましくは差分を計算することによって結合する方法は、残響の感覚が直接信号又は混合信号の感覚に比べてどの程度強力であるかの定量的な値又は大きさを生成する。
【0016】
ラウドネスの大きさの計算に際しては、ラウドネスの絶対的大きさを用いることができ、具体的には、直接信号、混合信号又は残響信号のラウドネスの絶対的大きさを用いることができる。また、ラウドネス・モデルにおいて、第1のラウドネスの大きさが直接信号を励振とし残響信号をノイズとして用いることにより決定され、かつ第2のラウドネスの大きさが残響信号を励振とし直接信号をノイズとして用いることにより計算される場合には、部分ラウドネスも計算することができる。具体的には、これらの2つの大きさをコンバイナにおいて結合することにより、残響の知覚レベルの有益な大きさが得られる。このような有益な大きさは、単に単一のラウドネスの大きさを発生することからは決定できないこと、例えば、直接信号のみを用いるか、又は混合信号のみもしくは残響信号のみを用いることからは決定できないことが発明者達によってわかった。代わりに、人の聴力の相互依存性によって、これらの3信号の何れかから相違して導出された大きさを結合することにより、信号における残響の知覚レベルは、高精度に決定又はモデル化することができる。
【0017】
好ましくは、ラウドネス・モデル・プロセッサは、時間/周波数変換を提供し、かつ耳伝達関数を、人の聴力において実際に発生し、かつ聴覚モデルによりモデル化された励起パターンと共に認識する。
【0018】
好適な実施形態において、残響知覚レベルの大きさは予測器へ転送され、予測器は残響の知覚レベルを実際にソーンスケール(Sone-scale)等の有用な尺度で出力する。この予測器は、好ましくは聞き取りテストのデータによってトレーニングされ、かつ好適な線形予測器の予測器パラメータは、定数項及び倍率を含む。その定数項は、好ましくは、実際に使用される残響フィルタの特性に依存し、一実施形態においては、残響フィルタ特性パラメータT60に依存する。その残響フィルタ特性パラメータT60は、人工的残響装置に使用される簡単な周知の残響フィルタで使用できる。しかしながら、この特性が知られていない場合でも、例えば、残響信号成分を別個には入手できないが、本発明装置での処理の前に残響信号成分が混合信号から分離されている場合には、定数項の推定値を導出することができる。
【0019】
次に、本発明の好適な実施形態を、添付の図面に関連して説明する。
【図面の簡単な説明】
【0020】
図1図1は残響知覚レベルの大きさを決定するための装置又は方法を示すブロックである。
図2A図2Aはラウドネス・モデル・プロセッサの好適な一実施形態を示す。
図2B図2Bはラウドネス・モデル・プロセッサのさらなる好適な実装を示す。
図3図3はラウドネス・モデル・プロセッサのさらなる好適な実装を示す。
図4A図4Aは時間信号包絡線の例を示す。
図4B図4Bは対応するラウドネスと部分ラウドネスの例を示す。
図5A図5Aは予測器をトレーニングするための実験データに関する情報を示す。
図5B図5Bは予測器をトレーニングするための実験データに関する情報を示す。
図6図6は人工的残響プロセッサを示すブロック図である。
図7図7は本発明の実施形態の評価尺度(metrics)を表示するための表を示す。
図8図8は人工的残響を目的として残響知覚レベルの大きさを用いるために実施されるオーディオ信号プロセッサを示す。
図9図9は残響の時間平均知覚レベルに依存する予測器の好適な一実施形態を示す。
図10図10は比ラウドネスを計算するための好適な一実施形態において使用されるMoore、Grasberg、Baerの1997年度刊行物からの式を示す。
【発明を実施するための形態】
【0021】
残響の知覚レベルは、入力オーディオ信号とインパルス応答の双方に依存する。本発明の実施形態の目的は、デジタル・オーディオエフェクトにおいて現れる直接信号と残響信号の別々の信号経路に基づいて、この観察を定量化しかつ後期残響の知覚レベルを予測することにある。この課題へのアプローチを開発し、続いて、予測結果に対する残響時間の影響を考慮してこれを拡大する。これにより、聞き取りテストから導かれた実験データが示すように知覚レベルを高精度で予測することができる、2つの入力変数をもつ線形回帰モデルがもたらされる。このモデルを精巧化と計算の複雑さの度合いが異なる幾つかに変形し、それらを精度に関して比較する。用途は、オーディオ信号を自動的にミキシングするためのデジタル・オーディオエフェクトの制御を含むものである。
【0022】
本発明の実施形態は、直接信号と残響インパルス応答(RIR)が別々に利用可能である場合の音声と音楽における残響の知覚レベルの予測のために有益であるだけではない。本発明は、残響づけられた信号が発生する他の実施形態でも適用することができる。しかしながら、この例では、混合信号から直接信号成分と残響づけられた信号成分を分離するために、直接/雰囲気分離器、又は直接/残響分離器が含まれることになる。よって、このようなオーディオプロセッサは、より良い音の残響づけられた信号又はより良い音の混合信号を発生させるためにこの信号における直接/残響比を変更するのに有益となる。
【0023】
図1は、直接信号成分又はドライ信号成分100と残響信号成分102とを含む混合信号における残響知覚レベルの大きさを決定するための装置を示す。ドライ信号成分100と残響信号成分102は、ラウドネス・モデル・プロセッサ104へ入力される。ラウドネス・モデル・プロセッサは、直接信号成分100を残響信号成分102を受信するように構成され、さらに、図2Aに示されているように、知覚フィルタステージ104aと後続のラウドネス計算器104bとを備えている。ラウドネス・モデル・プロセッサは、その出力において、第1のラウドネスの大きさ106と第2のラウドネスの大きさ108を発生する。双方のラウドネスの大きさは、第1のラウドネスの大きさ106と第2のラウドネスの大きさ108とを結合するためのコンバイナ110へ入力され、最終的に、残響知覚レベルの大きさ112が取得される。実施によっては、知覚レベルの大きさ112は予測器114へ入力させることができる。予測器114は、図9の状況において論じるように、異なる信号フレームについて知覚されたラウドネスのための少なくとも2つの大きさの平均値に基づいて残響の知覚レベルを予測するものであるが、図1の予測器114は必須でないだけでなく、実際には、知覚レベルの大きさは、ラウドネスに関連する定量的値を与えることに有益な、所定の値の範囲又は単位の範囲、例えばソーン単位の範囲に変換される。しかしながら、知覚レベルの大きさ112が予測器114によって処理されない他の使用法も可能であり、例えば図8のオーディオプロセッサで使用することができる。図8のオーディオプロセッサは、予測器114により出力される値に必ずしも依存する必要はなく、知覚レベルの大きさ112を直接処理することができる。その直接処理は、直接形式でなされるか、好ましくは、ある種の平滑化された形式、又は後に論じるように図6もしくは図8に示されているある種の利得係数gでなされる。その平滑化された形式では、残響づけられた信号の補正でレベルが大きく変化しないように時間的に平滑化されることが好ましい。
【0024】
具体的には、知覚フィルタステージは直接信号成分、残響信号成分又は混合信号成分をフィルタリングするように構成されており、この場合、知覚フィルタステージは人等の実体がフィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得る聴覚知覚機構をモデル化するように構成されている。実施によっては、知覚フィルタステージは、並列して動作する2つのフィルタを備えてもよく、又は、全く同一のフィルタが3つの信号、すなわち残響信号、混合信号及び直接信号の各々をフィルタリングするために事実上使用できることから、1つの記憶装置と単一のフィルタとを備えることできる。ここでは、しかし、図2Aは聴覚知覚機構をモデル化するn個のフィルタを示しているが、実際には残響信号成分、混合信号成分及び直接信号成分を含むグループからの2つの信号をフィルタリングする2つのフィルタ又は単一のフィルタで十分であることに留意されるべきである。
【0025】
ラウドネス計算器104b又はラウドネス推定器は、フィルタリングされた直接信号を用いて第1のラウドネス関連の大きさを推定し、かつフィルタリングされた残響信号又はフィルタリングされた混合信号を用いて第2のラウドネスの大きさを推定するように構成されている。ここで、混合信号は、直接信号成分と残響信号成分の重畳から導出されるものである。
【0026】
図2Cは、残響知覚レベルの大きさを計算する4つの好適な様式を示す。実施形態1は、部分ラウドネスに依存するものであって、ラウドネス・モデル・プロセッサにおいて直接信号成分xと残響信号成分rの両方が使用されるが、第1の大きさEST1を決定するために、残響信号が励振として、かつ直接信号がノイズとして使用される。第2のラウドネスの大きさEST2の決定に際しては、状況が変わり、直接信号成分が励振として、かつ残響信号成分がノイズとして使用される。そして、コンバイナにより発生される補正の知覚レベルの大きさは、第1のラウドネスの大きさEST1と第2のラウドネスの大きさEST2との差である。
【0027】
しかしながら、この他にも計算効率的な実施形態がさらに存在し、図2Cの2行目、3行目及び4行目に示されている。これらのより計算効率的な方法は、混合信号m、直接信号x及び残響信号からなる3つの信号の合計ラウドネスを計算することに依存する。コンバイナが実行し図2Cの最終欄に示されている計算は、要請によっては、第1のラウドネスの大きさEST1は混合信号又は残響信号の合計ラウドネスであり、かつ第2のラウドネスの大きさEST2は直接信号成分x又は混合信号成分mの合計ラウドネスであるが、実際の組合せは図2Cに示されている通りである。
【0028】
さらなる実施形態において、ラウドネス・モデル・プロセッサ104は、図3でより詳細に論じるように、周波数領域において動作している。このような状況において、ラウドネス・モデル・プロセッサ、及び具体的にはラウドネス計算器104bは、帯域毎に第1の大きさと第2の大きさを生成する。n個全ての帯域にわたるこれらの第1の大きさは、続いて第1の分岐用の加算器104cと第2の分岐の加算器104dにおいて加算又は互いに結合され、最終的に広帯域信号の第1の大きさと広帯域信号の第2の大きさが得られる。
【0029】
図3は、図1図2A図2B図2Cに関連する幾つかの態様において既に論じたラウドネス・モデル・プロセッサの好適な実施形態を示す。具体的には、知覚フィルタステージ104aは分岐毎に時間−周波数変換器300を備えている。図3の実施形態において、x[k]は励振を指し、かつn[k]はノイズを指す。時間/周波数変換された信号は、耳伝達関数ブロック302へ転送され(あるいは、耳伝達関数は時間−周波数変換器に先行して計算されて同様の結果を得ることができるが、計算負荷が高くなることに留意されたい)、このブロック302の出力は励起パターン計算ブロック304へ入力され、励起パターン計算ブロック304の出力は時間積分ブロック306へ入力される。次に、ブロック308において、この実施形態における比ラウドネスが計算される。ブロック308は、図2Aのラウドネス計算器ブロック104bに相当する。続いて、ブロック310において周波数上の積分が実行される。ブロック310は、図2Bにおいて104c及び104dとして既に述べた加算器に相当する。ブロック310が、励振とノイズの第1のセットのための第1の大きさ、及び励振とノイズの第2のセットのための第2の大きさを発生することは留意されるべきである。具体的には、図2Bの考察に当たって、第1の大きさを計算する際の励振は残響信号であり、ノイズは直接信号であるが、第2の大きさを計算する際には状況が変わり、励振は直接信号成分、ノイズは残響信号成分である。したがって、2つの異なるラウドネスの大きさを発生するために、図3に示されている手順は2回実行されている。しかしながら、計算の変更は、図10の状況においてさらに論じるように異なった動作をするブロック308において発生するのみであり、よって、ブロック300からブロック306までに示されているステップは一度だけ実行されればよく、時間積分ブロック306の結果は、図2Cにおける実施形態1について第1の推定されたラウドネスと第2の推定されたラウドネスを計算するために保持することができる。図2Cにおける他の実施形態2、3、4の場合、ブロック308は、分岐毎に「合計ラウドネスを計算する」という個々のブロックで置換されることは留意されるべきであるが、この実施形態において、ある信号が励振と考えられるかノイズと考えられるかは重要ではない。
【0030】
続いて、図3に示すラウドネス・モデルをさらに詳細に論じる。
【0031】
図3におけるラウドネス・モデルの実行は非特許文献11、12における記述に準じるが、後に詳述するような修正がある。予測のトレーニング及び検証は、非特許文献13に記述され、後に簡単に要約する聞き取りテストからのデータを用いる。後期残響の知覚レベルを予測するためのラウドネス・モデルの適用についても後述する。以下に、実験結果を述べる。
【0032】
このセクションでは、部分ラウドネスのモデル、残響の知覚レベルの計算予測のための基礎事実として使用された聞き取りテストデータ、及び部分ラウドネス・モデルに基づいて提案している予測方法の実施について述べる。
【0033】
ラウドネス・モデルは、信号x[k]がマスキング信号n[k]と同時に生じる場合の信号x[k]の部分ラウドネスNx,n[k]を計算する。
x,n[k]=f(x[k],n[k]) (1)
【0034】
初期のモデルは、定常背景ノイズにおけるラウドネスの知覚を取り扱っているが、研究の中には、共変調ランダムノイズ(非特許文献14参照)、複合環境音(非特許文献12参照)及び音楽信号(非特許文献15参照)の背景におけるラウドネスの知覚に関するものも存在する。図4Bは、図4Aに示されている信号例の成分の合計ラウドネスと部分ラウドネスであって本明細書で使用しているラウドネス・モデルによって計算されたものを示す。
【0035】
この研究に使用したモデルは、非特許文献11、12におけるモデルに類似するものであり、それ自体、Fletcher、Munson、Stevens及びZwickerによる先の研究を利用し、後述するような幾つかの修正が加えられている。ラウドネス・モデルのブロック図は図3に示されている。入力信号は、周波数領域において、短時間フーリエ変換(STFT:Short-time Fourier transform)を用いて処理される。非特許文献12では、全ての周波数において周波数分解能と時間分解能が人聴覚系のそれと良好に整合するように、長さの異なる6つのDFTが使用されている。本研究では、計算効率のために、サンプリング速度48kHzにおけるフレーム長さ21ms、オーバーラップ50%及びハン(Hann)窓関数をもつDFT長さを1つだけ用いる。外耳と中耳を介する伝達は、固定フィルタを用いてシミュレートする。励起関数は、等価矩形帯域幅(ERB:equivalent rectangular bandwidth)尺度で離隔された40個の聴覚フィルタ帯域について、レベル依存の励起パターンを用いて計算する。STFTの窓処理による時間積分に加えて、励起信号が減衰する時間でのみ活性である再帰積分を時定数25msで実行する。
【0036】
比部分ラウドネス、すなわち、聴覚フィルタ帯域の各々において誘起される部分ラウドネスを、図10に示されている方程式(17)−(20)(非特許文献11)に従って、対象の信号(励振)及び干渉ノイズからの励起レベルから計算する。これらの方程式は4つの事例を包含しており、すなわち信号がノイズの聴力しきい値を超える場合、超えない場合、混合信号の励起が100dB未満である場合、及び混合信号の励起が100dB以上の場合である。モデルに干渉信号が供給されなければ、すなわちn[k]=0であれば、結果は励振x[k]の合計ラウドネスNx[k]に等しい。
【0037】
具体的には、図10は、刊行物「しきい値、ラウドネス及び部分ラウドネスの予測のためのモデル」B. C. J. Moore, B. R. Glasberg, T. Baer共著、オーディオ技術学会誌、第45巻第4号、1997年4月、に記載されている方程式17、18、19、20を示す。この引例は背景音とともに生じる信号の事例を記述している。背景音はどのようなタイプの音であってもよいが、この引例では、ラウドネスが判定されるべき信号から区別するために「ノイズ」と称されている。ノイズの存在は信号のラウドネスを低減するが、これは部分的なマスキングと呼ばれる効果である。信号のラウドネスは、そのレベルがしきい値から20〜30dB上まで高められると急速に増大する。同論文において、ノイズ内に生じる信号の部分ラウドネスは、周波数にわたって信号の部分比ラウドネスを(ERB尺度で)合計して計算できることが想定されている。方程式は、部分比ラウドネスを4つの限定事例を考慮して計算するように導かれている。ESIGは信号によって誘起される励起を示し、ENOISEはノイズによって誘起される励起を示し、ESIG>ETHRQ、及び(ESIG+ENOISE)<1010であることが想定されている。合計比ラウドネスN'TOTは、次式のように定義される。
N'TOT=C{[(ESIG+ENOISE)G+A]a−Aa}
【0038】
聞き手は、所定の中心周波数において信号の比ラウドネスとノイズの比ラウドネスとの間で比ラウドネスを区別化できるが、それは、合計比ラウドネス、すなわち、
N'TOT=N'SIG+NNOISE
を選好しての区別化であることが想定されている。
【0039】
部分マスキングを測定する大部分の実験では、聞き手には、まずノイズのみが聞こえ、次にノイズに加えて信号が聞こえることから、この想定には矛盾がない。しきい値より上であることが想定されるノイズのみの比ラウドネスは、
N'NOISE=C[(ENOISEG+A)a−Aa]
である。
【0040】
故に、信号の比ラウドネスが、単純に合計比ラウドネスからノイズの比ラウドネスを減算することにより導出されるとすれば、結果は、
N'SIG=C{[(ESIG+ENOISE)G+A]a−Aa}−C[(ENOISEG+A)a−Aa]
となる。
【0041】
実際には、信号とノイズとの間で比ラウドネスが区分化される方法は、信号とノイズの相対励起に依存して変わるように思われる。
【0042】
異なる信号レベルにおいて比ラウドネスがどのように割り当てられるか、を示す4つの状況について考察する。ETHRNは、正弦波信号が背景ノイズにおけるそのマスキングしきい値にあるときのその正弦波信号によって誘起されるピーク励起を表すものとする。ESIGがETHRNより遙かに小さいとき、全ての比ラウドネスはノイズに割り当てられ、よって信号の部分比ラウドネスはゼロに近づく。第2に、ENOISEがETHRQより遙かに小さいとき、部分比ラウドネスは、静寂時の信号がもつと思われる値に近づく。第3に、励起信号がそのマスキングしきい値にあるとき、すなわち励起ETHRNにあるとき、部分比ラウドネスは、絶対しきい値における信号で発生すると思われる値に等しいことが想定される。最後に、信号が狭帯域の中心に置かれ、ノイズがそのマスキングしきい値より遙かに上であるとき、信号のラウドネスはその非マスキング値に近づく。したがって、信号の部分比ラウドネスもその非マスキング値に近づく。
【0043】
これらの様々な境界条件の含意するものについて考察されたい。マスキングしきい値において、比ラウドネスは静寂におけるしきい値での信号のそれに等しい。この比ラウドネスは、おそらくは信号の比ラウドネスの幾らかがノイズに割り当てられることに起因して、上述の方程式から予測されると思われるものより少ない。信号の正しい比ラウドネスを得るために、ノイズに割り当てられる比ラウドネスは係数Bで増大されることが想定される。但し、
である。
【0044】
この係数を、上述のN’SIGの方程式における第2項に当てはめると、
N'SIG=C{[(ESIG+ENOISE)G+A]a−Aa}−C{[(ETHRN+ENOISE)G+A]a−(ETHRQG+A)a}
となる。
【0045】
信号がマスキングしきい値に存在するとき、そのピーク励起ETHRNは、KENOISE+ETHRQに等しいことが想定される。但し、Kは、より高い妨害音(masker)レベルにおけるしきい値に要求される、聴覚フィルタの出力における信号対雑音比である。ノッチノイズを用いるマスキング実験用に取得されたKの最近の推定値は、Kが超低周波数で顕著に増大し、1より大きくなることを示唆している。当該引例において、Kの値は、周波数の関数として推定される。その値は、低周波数における高レベルから、より高い周波数における一定の低レベルまで低下する。残念ながら、100Hzより下の中心周波数に関するKには推定値が存在せず、よって、50Hzから100Hzまでに関する値は、上述の方程式のETHRNを置換して、
N'SIG=C{[(ESIG+ENOISE)G+A]a−Aa}−C{[(ENOISE(1+K)+ETHRQ)G+A]a−(ETHRQG+A)a}
となる。
【0046】
SIG=ETHRNのとき、この方程式は、静寂での絶対しきい値における信号のピーク比ラウドネスを特定する。
【0047】
信号がそのマスキングしきい値を遙かに上回る場合、すなわち、ESIG>>ETHRNのとき、信号の比ラウドネスは、背景ノイズが存在しない場合にもつはずの値に近づく。これは、ノイズに割り当てられる比ラウドネスがほとんど無であるくらいに小さくなることを意味する。これを適応させるために、上述の方程式は、比ETHRN/ESIGに依存する項をさらに導入することにより修正される。この項は、SIGが、マスキングしきい値に一致する値を超えて増大されるにつれて低下する。故に、上述の方程式は、図10の方程式17になる。
【0048】
これは、ESIG>ETHRN及びESIG+ENOISE≦1010のときの事例におけるN’SIGの最終的な方程式である。最終項における指数0.3は、ノイズ内のトーンのラウドネスに関するデータによく適合するように信号対雑音比の関数として経験的に選ばれたものである。
【0049】
次に、ESIG<ETHRNである状況について考察する。ESIGがETHRNよりほんの少し少ない限られた状態で、比ラウドネスは、図10における方程式17で与えられる値に近づく。ESIGがETHRNを遙かに下回る値まで下がると、比ラウドネスは、急激に小さくなるはずである。これは、図10における方程式18で表わされる。括弧内の第1項は、ESIGがETHRNを下回って下がるにつれて比ラウドネスが低下する速度を決定する。これは、式18ではETHRNが置換されていることを除いて、ESIG<ETHRQであるときの静寂時信号の比ラウドネスと励起との関係性を記述している。大括弧内の第1項は、ESIGがETHRNに接近するにつれて、比ラウドネスが図10の方程式17により規定される値に近づくことを確実にするものである。
【0050】
これまでに記述した部分ラウドネスの方程式は、ESIG+ENOISE<1010のときに当てはまる。図10の方程式(17)の導出に用いた同じ論法を適用すれば、図10における方程式19に概略が示されているように、ENOISE≧ETHRNかつESIG+ENOISE>1010の場合の如何なる方程式も導出することができる。C2=C/(1.04×1060.5である。同様に、図10の方程式(18)の導出に用いた同じ論法を適用すれば、図10における方程式20に概略が示されているように、ESIG<ETHRNかつESIG+ENOISE>1010の場合の方程式を導出することができる。
【0051】
以下の点については、留意されるべきである。この先行技術が本発明に適用されるのは、第1の実行において、SIGが例えば「励振」としての直接信号に相当し、かつNoiseが例えば「ノイズ」としての残響信号又は混合信号に相当する場合である。よって、第2の実行では、図2Cにおける第1の実施形態について論じたように、SIGは、「励振」としての残響信号に相当し、かつ「ノイズ」は直接信号に相当することになる。よって、2つのラウドネスの大きさが得られ、これらは、次に、コンバイナによって、好ましくは差を形成することにより結合される。
【0052】
後期残響の知覚レベルを予測するタスクのための記述されたラウドネス・モデルの適合性を評価するためには、聞き手の応答から生成されるグラウンドトルースを集成することが好ましい。この目的に沿って、非特許文献13では、幾つかの聞き取りテストを集めている調査からのデータを用いている。以下にそれを簡単に要約する。各聞き取りテストは、異なる直接信号と異なる状態の人工的残響との混合を提示する複数のグラフィカル・ユーザ・インタフェース画面で構成されていた。聞き手は、この知覚された残響の量を0点から100点までの尺度で格付けするように求められた。さらに、10点及び90点に2つのアンカ信号が提示された。これらのアンカ信号は、残響の状態が異なる同じ直接信号から生成された。
【0053】
テスト項目の生成に使用された直接信号は、音声、個々の楽器及び種々のジャンルの音楽をそれぞれ約4秒間モノラルに記録したものであった。項目の大部分は、無響録音からのものであったが、もともとの残響を少し含む商業録音も使用された。
【0054】
RIRは後期残響を表わし、周波数依存減衰速度を有する指数関数的に減衰するホワイトノイズを用いて発生された。減衰速度は、残響時間が、ベース残響時間T60を始点として低周波数から高周波数へ向かって減少するように選ばれる。この研究では、初期反射が無視されている。残響信号r[k]及び直接信号x[k]は、ITU−R BS.1770(非特許文献16参照)によるそれらの平均ラウドネスの大きさの比が所望されるDRRに一致するように、かつ全てのテスト信号混合体が等しい長期ラウドネスをもつように、調整されて付加された。テスト参加者は全て、オーディオ分野の従業者であり、主観的な聞き取りテストに関する経験をもっていた。
【0055】
予測方法のトレーニングと検証/試験に使用されたグラウンドトルース・データは、2つの聞き取りテストから入手され、各々AとBで表されている。データ集合Aは、54個の信号に対して14名の聞き手による評点で構成された。聞き手はテストをもう一度繰り返し、28個の評点全てから、項目毎に平均評点が取得された。
及びプリディレイなしで、6つの異なる直接信号と9個のステレオ残響状態とを組み合わせることにより54個の信号が生成された。
【0056】
Bにおけるデータは、60個の信号に対して14名の聞き手による評点から取得された。信号は、15個の直接信号と36個の残響状態を用いて生成された。残響状態は、4つのパラメータ、即ちT60、DRR、プリディレイ及びICC、をサンプリングした。各直接信号について4つのRIRが選ばれ、2つがプリディレイをもたず他の2つが短いプリディレイ50msをもつように、また2つがモノラル音であり他の2つがステレオ音であるように選ばれた。
【0057】
続いて、図1におけるコンバイナ110の好適な一実施形態のさらなる特徴について論じる。
【0058】
予測方法の基本的な入力特徴は、方程式(2)に従って、残響信号r[k]の部分ラウドネスNr,x[k](直接信号x[k]が干渉物)と、x[k]のラウドネスNx、r[k](この場合はr[k]が干渉物)との差から計算される。
ΔNr,x[k]=Nr,x[k]−Nx,r[k] (2)
【0059】
方程式(2)の背後にある理論的根拠は、差分ΔNr,x[k]は、残響の感覚が直接信号の感覚と比較してどの程度強いかを示す大きさである、というものである。また、差分をとることは、予測結果を再生レベルに対してほぼ不変にすることも見出された。再生レベルは、調査される感覚に影響を与える(非特許文献17、8参照)が、その程度は、再生レベルの増大に伴う部分ラウドネスNr,xの増大による反映よりも僅かである。典型的には、音楽録音は、約12から20dBの低レベルでよりも、中から高レベル(約75〜80dB SPLで始まる)において適度により反響して鳴動する。この効果は、DRRが正である事例において特に明らかであり、これは、「録音された音楽のほぼ全てに」関してその通りであるが(非特許文献18参照)、「聞き手が臨界距離を遙かに超えて存在することが多い」コンサート音楽の全ての事例においてそうであるわけではない(非特許文献6参照)。
【0060】
再生レベルの低下に伴う残響の知覚レベルの低減は、残響のダイナミックレンジは直接音のそれより小さい(又は、残響の時間−周波数表現はより密であるが、直接音の時間−周波数表現はより希薄である(非特許文献19参照))、という事実によって最もよく説明される。このようなシナリオでは、残響信号は、聴力しきい値を超えて降下する可能性が直接音より高い。
【0061】
方程式(2)は、組合せ演算として、2つのラウドネスの大きさ、Nr,x[k]及びNx,r[k]間の差分を記述しているが、乗算、除算又はさらに加算等の他の組合せを実行することもできる。何れにしても、2つのラウドネスの大きさによって示される2つの代替案は、双方の代替案が結果に影響を与えるように組み合わされることで足りる。しかしながら、実験は、差分が結果的にモデルからの最良の値をもたらすこと、すなわちモデルの結果において差分が聞き取りテストに大いに適合することを示しており、よって、この差分は、組合せの好ましい方法である。
【0062】
続いて、図1に示されている予測器114について詳細を述べる。これらの詳細は、好適な一実施形態を参照したものである。
【0063】
以下に述べる予測方法は、線形的であり、モデル係数の計算には最小二乗適合を用いる。予測器をトレーニングしかつ試験するためのデータ集合サイズが制限され、より多い自由度をもつ回帰方法、例えばニューラルネットワークを用いる場合にモデルの過剰適合を引き起こす可能性もある状況においては、単純な構造の予測器が効果的である。
は、係数aiをもつ方程式(3)に従って線形回帰により導出される。但し、Kは、フレーム内の信号の長さである。
【0064】
本モデルは、唯一の独立変数、即ちΔNr,x[k]の平均をもつ。変化を追跡し、かつリアルタイム処理を実行できるように、平均の計算は漏れのある積分器を用いて概算することができる。トレーニング用データ集合Aを用いる際に導出されるモデルパラメータは、a0=48.2及びa1=14.0であり、a0は全ての聞き手と項目の平均評点に等しい。
【0065】
図5Aは、データ集合Aの予測された感覚を描いたものである。予測は、相関係数0.71で聞き手の平均評点と適度に相関されることが分かる。回帰係数の選択は、この相関に影響しないことに留意されたい。下側のプロットに示されているように、同じ直接信号により発生される各混合で、点は、対角線付近を中心とする特徴的な形状を示している。この形状は、
はRをある程度予測することができるが、評点に対するT60の影響を反映しないことを示す。データポイントの外観検査はT60への線形依存性を示唆する。オーディオエフェクトを制御する場合がそうであるように、T60の値が既知であれば、強化予測を導出するために、線形回帰モデルへこれを容易に組み込むことができる。
【0066】
データ集合Aから導出されるモデルパラメータは、a0=48.2、a1=12.9、a2=10.2である。結果は、図5Bにおいて、データ集合毎に分けて示されている。次のセクションでは、結果の評価についてさらに詳しく述べる。
【0067】
あるいは、少なくとも2つのブロックにわたる平均が行われる限り、それより多いか又はそれより少ない数のブロックにわたる平均化を実行することも可能であるが、一次方程式の理論によって、所定のフレームまでの全音楽ピースにわたる平均化が実行されるときに最良の結果を得ることができる。しかしながら、リアルタイム用途では、実際の用途に応じて、平均化を行うフレームの数を減らすことが好ましい。
【0068】
さらに、図9は、定数項がa0及びa2・T60によって規定されることを示している。2番目の項a2・T60は、この方程式を単一の残響装置、即ち図6のフィルタ600が変更されない状況にだけでなく適用するポジションに存在するように選択されている。したがって、無論定数項であるが、図6の実際に使用される残響フィルタ606に依存するこの方程式は、他の値のT60をもつ他の残響フィルタに全く同じ方程式を用いる柔軟性を与える。この技術分野では既知であるように、T60は所定の残響フィルタを記述するパラメータであり、具体的には、残響エネルギーが初期の最大残響エネルギー値から60dBだけ低減されていることを意味する。典型的には、残響曲線は時間と共に低下し、故に、T60は、信号励起により発生される残響エネルギーが60dBだけ低減した時間期間を示す。T60を類似情報(RIRの長さ情報)を表すパラメータ、例えばT30、で置換することにより、予測精度に関して同様の結果が得られる。
【0069】
以下、聞き手の平均評点と予測された感覚との間の相関係数r、平均絶対誤差(MAE:mean absolute error)及び二乗平均平方根誤差(RMSE:root mean squared error)を用いてモデルを評価する。実験は二重の相互検証として実行される。すなわち、予測器がデータ集合Aによってトレーニングされてデータ集合Bによって試験され、さらにデータ集合Bによるトレーニングとデータ集合Aによる試験で実験が繰り返される。双方の実行から取得される評価尺度は、トレーニング及び試験について別々に平均される。
【0070】
予測モデル
及び
に関する結果が表1に示されている。予測因子
は、RMSEが10.6という精確な結果をもたらしている。項目毎の個別の聞き手による評点の標準偏差の平均は、(項目毎の全ての聞き手による評点の)平均からの分散の大きさとして、データ集合Aでは
データ集合Bでは
として与えられる。RMSEとの比較は、
が聞き取りテストにおける平均的な聞き手と少なくとも同じ精度であることを示している。
【0071】
これらのデータ集合の予測精度は、僅かに相違し、例えば、
の場合、MAE及びRMSEは共に、データ集合Aで試験する場合は平均値(表に記載)より約1ポイント低く、データ集合Bで試験する場合は平均より1ポイント高い。トレーニング及び試験の評価尺度が同等であるということは、予測器の過剰適合が回避されていることを指す。
【0072】
このような予測モデルを経済的に実装しやすくするために、以下の実験は、計算の複雑さをより少なくしたラウドネス特徴の使用が予測結果の精度にどのように影響するかを調べる。その実験は、部分ラウドネスの計算を合計ラウドネスの推定で置換することと、励起パターンの簡略化した実施に焦点を合わせている。
【0073】
部分ラウドネスの差分ΔNr,x[k]を用いる代わりに、方程式(5)〜方程式(7)で各々示されているように、合計ラウドネス推定値の3つの差分を調べる。但し、直接信号のラウドネスはNx[k]、残響のラウドネスはNr[k]、混合信号のラウドネスはNm[k]である。
ΔNm-x[k]=Nm[k]−Nx[k] (5)
【0074】
方程式(5)は、残響信号の知覚レベルは、ドライ信号へ残響を付加することによって引き起こされる全体ラウドネスの差分(増大)として表すことができるという仮定に基づいている。
【0075】
方程式(2)における部分ラウドネスの差分に関する同様の理論的根拠に従って、残響信号の合計ラウドネスと混合信号又は直接信号各々との差分を用いるラウドネス特徴が方程式(6)と方程式(7)において規定されている。感覚を予測するための大きさは、別々に聴き取られる場合の残響信号のラウドネスとして導出される。ここで、負の項は、各々部分マスキングをモデル化するためと、混合信号又は直接信号から導出される再生レベルを正規化するためのものである。
ΔNr-m[k]=Nr[k]−Nm[k] (6)
ΔNr-x[k]=Nr[k]−Nx[k] (7)
【0076】
表2は、これらの特徴により合計ラウドネスと残響に基づいて得られた結果を示し、かつ実際には、これらのうちの2つ、すなわちΔNm-x[k]とΔNr-x[k]が
とほぼ同じ精度の予測をもたらすことを明らかにしている。しかし、表2に示されているように、ΔNr-m[k]でも、結果に見合う使用を与えている。
【0077】
最後に、追加の実験において、広がり関数を実装する影響が調査される。これは、多くの用途シナリオにとって特に重大である。というのは、レベル依存励起パターンの使用は、高い計算複雑性の実装を要求するからである。
の場合と同様の処理を行い、広がりなしの1つのラウドネス・モデルと、レベル不変の広がり関数をもつ1つのラウドネス・モデルとを用いた実験は、表2に示されている結果を導いた。広がりの影響は無視できるように見える。
【0078】
したがって、図2Cの実施形態2、3、4を示す方程式(5)、(6)及び(7)は、異なる組合せの信号成分又は信号について、部分ラウドネスなしでも、合計ラウドネスを用いれば、同様に、混合信号における残響の知覚レベルのための良好な値又は大きさが得られることを示している。
【0079】
続いて、残響知覚レベルの大きさを決定する本発明の好適な適用を、図8について論じる。図8は、入力800において入力される直接信号成分から残響づけられた信号を発生するためのオーディオプロセッサを示す。直接又はドライ信号成分は、残響装置801へ入力される。残響装置801は、図6における残響装置606に類似するものとすることができる。入力800のドライ信号成分は、さらに、知覚されるラウドネスの大きさを決定する装置802へ入力される。その装置802は、図1図2A及び図2C図3図9及び図10に関して論じたように実現することができる。装置802の出力は、混合信号における残響知覚レベルの大きさRであり、これがコントローラ803へ入力される。コントローラ803は、さらなる入力において残響の知覚レベルの大きさに対する標的値を受信し、かつこの標的値及び実測値Rからさらに、出力の値804を計算する。
【0080】
この利得値はマニピュレータ805へ入力される。マニピュレータ805は、この実施形態では残響装置801により出力される残響信号成分806を操作するように構成されている。図8に示されているように、装置802は、さらに、知覚されるラウドネスの大きさを決定する装置を記述している図1及び他の図に関して述べられているように、残響信号成分806も受信する。マニピュレータ805の出力は加算器807へ入力される。この場合、図8の実施形態では、マニピュレータの出力は操作された残響成分を含み、加算器807の出力は、標的値により決定された知覚される残響をもつ混合信号808を示す。コントローラ803は、フィードバック制御のためにこの分野で規定された任意の制御規則を実行するように構成することができる。その場合、標的値は設定値であり、装置802により生成される値Rは実測値であり、そして利得804は実測値Rがコントローラ803へ入力される標的値に近似するように選択される。図8では、マニピュレータ805が具体的には乗算器又は重み付け器を備え、残響信号がマニピュレータ805における利得によって操作されるように示されているが、他の実施形態も実現できる。他の実施形態の1つでは、例えば、残響信号806ではなく、任意のライン809が示すようにドライ信号成分がマニピュレータによって操作される。この場合、残響装置801により出力され操作されない残響信号成分は、任意のライン810が示すように、加算器807へ入力されることになる。当然ながら、加算器807により出力される混合信号808内に所定の大きさの知覚される残響ラウドネスを導入又は設定するためには、ドライ信号成分及び残響信号成分の操作も実行される可能性がある。他の実施形態の1つでは、例えば残響時間T60が操作される。
【0081】
本発明は、計算複雑性が様々であるラウドネス・モデルを用いて、残響、具体的には音声と音楽における後期残響、の知覚レベルの単純かつロバストな予測を提供するものである。予測モジュールは、3つの聞き取りテストから導出される主観的データを用いてトレーニングされかつ評価されている。開始点として、部分ラウドネス・モデルの使用は、図6のRIR606のT60が既知である場合に、高精度の予測モデルとなっている。部分ラウドネスのモデルが、図10に関して論じたような直接音と残響音の励振によって独自に開発されたものではないことを考えると、この結果は、知覚的観点からも興味深い。予測方法の入力特徴の計算に対する後続の修正は、手近なデータ集合に対して比肩し得る性能を達成することが示された一連の簡易モデルに繋がる。これらの修正には、合計ラウドネスのモデル及び単純化された広がり関数の使用が含まれていた。また、本発明の実施形態は、初期反射とより大きいプリディレイを含む、より多様なRIRにも適用できる。また、本発明は、他のタイプの追加又は残響オーディオエフェクトの知覚されるラウドネスの寄与を決定しかつ制御するためにも有益である。
【0082】
態様の中には装置に関して説明されているものがあるが、これらの態様が対応する方法の説明をも表すことは明らかであって、ブロック又はデバイスは方法ステップ又は方法ステップの特徴に相当する。同様に、方法ステップに関して説明されている態様も、対応する装置の対応するブロック又はアイテム又は特徴を表す。
【0083】
所定の実施の要件によって、本発明の実施形態は、ハードウェアでもソフトウェアでも実施することができる。その実施はデジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行することができる。そのようなデジタル記憶媒体は、個々の方法が実行されるようにプログラム可能コンピュータシステムと共働する(又は共働することができる)電子的に読取り可能な制御信号を格納している。
【0084】
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと共働することができる電子的に読取り可能な制御信号をもつ非一時的な又は有形のデータキャリアを含む。
【0085】
一般に、本発明の実施形態は、プログラムコードをもつコンピュータプログラム製品として実施することができる。そのプログラムコードは、このコンピュータプログラム製品がコンピュータ上で実行されると本発明の方法のうちの1つを実行するように動作可能である。そのプログラムコードは、例えば、機械読取り可能キャリア上に格納することができる。
【0086】
他の実施形態は、機械読取り可能キャリア上に格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0087】
したがって、言い替えれば、本発明的方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードをもつコンピュータプログラムである。
【0088】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録して備えているデータキャリア(又は、デジタル記憶媒体又はコンピュータ読取り可能媒体)である。
【0089】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0090】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成又は適合化された処理手段、例えばコンピュータ、又はプログラマブル論理デバイスを含む。
【0091】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0092】
幾つかの実施形態において、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を、本明細書に記述されている方法の機能のうちの幾つか又は全てを実行するために使用することができる。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと共働することができる。一般に、本発明方法は、好ましくは任意のハードウェア装置によって実行することができる。
【0093】
これまでに述べた実施形態は、単に、本発明の原理を例示するものである。本明細書に記述されている装置及び詳細の修正及び変形が、他の当業者に明らかとなることは理解される。したがって、本発明は、添付の特許請求の範囲によってのみ限定されることが意図され、本明細書における実施形態の記述及び説明によって提示された特定の詳細によって限定されるべきものではない。
図1
図2A
図2B
図2C
図3
図4A
図4B
図5A
図5B
図6
図7
図8
図9
図10