IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イニット オーディオ アーベーの特許一覧

特表2023-545547左右の耳間における複数次HRTFによる音再生
<>
  • 特表-左右の耳間における複数次HRTFによる音再生 図1
  • 特表-左右の耳間における複数次HRTFによる音再生 図2
  • 特表-左右の耳間における複数次HRTFによる音再生 図3
  • 特表-左右の耳間における複数次HRTFによる音再生 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-30
(54)【発明の名称】左右の耳間における複数次HRTFによる音再生
(51)【国際特許分類】
   H04S 1/00 20060101AFI20231023BHJP
【FI】
H04S1/00 500
H04S1/00 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023523301
(86)(22)【出願日】2021-10-14
(85)【翻訳文提出日】2023-04-11
(86)【国際出願番号】 SE2021051005
(87)【国際公開番号】W WO2022086393
(87)【国際公開日】2022-04-28
(31)【優先権主張番号】2051210-9
(32)【優先日】2020-10-19
(33)【優先権主張国・地域又は機関】SE
(81)【指定国・地域】
(71)【出願人】
【識別番号】523136341
【氏名又は名称】イニット オーディオ アーベー
【氏名又は名称原語表記】INNIT AUDIO AB
【住所又は居所原語表記】Sankt Lars vag 41a 222 70 LUND Sweden
(74)【代理人】
【識別番号】100081961
【弁理士】
【氏名又は名称】木内 光春
(74)【代理人】
【識別番号】100112564
【弁理士】
【氏名又は名称】大熊 考一
(74)【代理人】
【識別番号】100163500
【弁理士】
【氏名又は名称】片桐 貞典
(74)【代理人】
【識別番号】230115598
【弁護士】
【氏名又は名称】木内 加奈子
(72)【発明者】
【氏名】ベーマー,ベルント
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA05
5D162CA01
5D162CA11
5D162CA21
5D162CA26
5D162CD01
5D162CD07
5D162CD26
5D162EA02
5D162EA05
(57)【要約】
【課題】
【解決手段】空間に音源を配置するために、いわゆる頭部伝達関数(HRTF)が一般的に適用される。典型的には、数百人の個人についての頭部関連周波数特性(HRFR)は、各場所についての平均HRFRを生成するために平均化される。その後、平均HRFRデータは、録音及び再生時の音源の位置符号化に使用される。本開示は、時間領域に焦点を当てた新しいアプローチを導入する新規の方法で定位プロセスを分解することにより、位置符号化を解決する。本開示によれば、このアプローチは、複数次HRTFと呼ばれる。このアプローチは、個人間の平均化を可能にし、時間領域の符号化により、ヘッドホンを通してリスナーの頭の外側に明確に配置された音源のより安定した定位を提供する。また、一対のステレオスピーカーからの直接音に符号化された位置情報を埋め込むことにより、ステレオスピーカーを2つのみ使用してリスニングルームの周囲に仮想のサラウンド音源を作成することができる。
【選択図】図2
【特許請求の範囲】
【請求項1】
複数次の頭部関連伝達関数(HRTF)による位置符号化を備え、
少なくとも左耳への1次HRTF、次に左耳から右耳への2次HRTF、同時に右耳への1次HRTF、次に右耳から左耳への2次HRTFにより音を再生する、
音再生方法。
【請求項2】
右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも3次HRTFと、
好ましくは右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも4次HRTFと、
を含む請求項1の音再生方法。
【請求項3】
前記音に符号化された位置情報を埋め込むことにより、1つ以上の仮想音源を作成することを備える、請求項1又は2の音再生方法。
【請求項4】
2次以上の各前記頭部関連伝達関数(HRTF)は、時間遅延、周波数特性、及び減衰のパラメータを含む、請求項1乃至3の音再生方法。
【請求項5】
例えば頭の前の片方の耳からもう片方の耳への音経路と頭の後ろの音経路との差である、異なる音経路の差を考慮することを備える、請求項1乃至4の音再生方法。
【請求項6】
平均化を備える、請求項1乃至5の音再生方法。
【請求項7】
互いに独立した時間遅延、周波数特性、及び減衰の前記パラメータの平均化を備える、請求項1乃至6の音再生方法。
【請求項8】
時間領域に焦点を当てた平均化を備える、請求項1乃至7の音再生方法。
【請求項9】
請求項1乃至8の方法を使用して設定されるヘッドホン再生システム。
【請求項10】
請求項1乃至8の方法を使用して設定されるスピーカー再生システム。
【請求項11】
一対のステレオスピーカーを備える再生システムであって、
前記一対のステレオスピーカーからの直接音に符号化された位置情報を埋め込むことによりリスニングルームの周囲に仮想のサラウンド音源を作成するために、請求項1乃至8の方法を使用して設定される、システム。
【請求項12】
請求項1乃至8の方法を使用して設定されるゲーミングエンジンシステム。
【請求項13】
請求項1乃至8の方法を使用して設定されるデジタル・オーディオ・ワークステーション(DAW)ソフトウェアシステム。

【発明の詳細な説明】
【背景技術】
【0001】
オーディオ業界では、録音された音や再生された音へのリスナーの関与と没入感を高めることが長年の目標となっている。この探求は、アラン・ブルムラインがステレオを発明した1931年から既に始まっていた。その後、音質と没入感は徐々に良くなっていく。サラウンドサウンドは様々な形で早くから存在していたが、70年代にドルビーがドルビー・ステレオを発表し、その名前とは裏腹に、商業的に成功した最初のサラウンドサウンド形式となった。サラウンドサウンドは、それまで到達できなかった高いレベルの没入感を提供するものであった。近年では、Dolby AtmosやSony 360のようなオブジェクトベースのオーディオ形式が登場し、没入感をさらに高めている。
【0002】
全てのサラウンド形式に共通する大きな課題の1つにサラウンド音場の再現がある。部屋の周囲に何百ものスピーカーを配置した商業用のDolby Atmosシアターは非常に印象的な音を提供可能であるが、個人宅でこのような設定を再現することは現実的ではない。また、この業界では、ヘッドホンによるサラウンド音場の再現にも苦戦している。多くの研究努力にもかかわらず、現在の技術では、ヘッドホンでリスナーの頭から大きく外れた音場を再現することはできない。一般的に、音はほとんど頭の中にあるように感じられ、意図するようにリスナーを囲んでいるようには感じられない。さらに、リスナーの頭の外のわずかな音は、リスナーの耳のすぐ左右又はわずかにその後ろに位置するのが主流である。これでは、明らかに非常に望ましい前半球の安定した位置を提供することが不可能である。
【0003】
空間に音源を配置するために、いわゆる頭部伝達関数(HRTF)が一般的に適用される。映画やゲーム用に作られるサラウンドサウンドや、多くのステレオ録音は、HRTFによる音の符号化を含む。HRTFによる位置の符号化は、サラウンドサウンド及びステレオ録音の両方に存在し、ラウドスピーカー及びヘッドホンによる再生の両方に適している。ヘッドホン用のDolby Atmos等、いくつかの再生アルゴリズムも、音の位置を特定するためにHRTFによる符号化を採用する。
【0004】
数百人の被験者の測定値を含むいくつかのHRTFデータベースが研究コミュニティによりウェブ上で公開され、ダウンロード可能である。データベースは、通常、複数の各被験者の周囲の場所に関連する周波数特性、頭部関連周波数特性(HRFR)を含む。また、データベースによっては、頭部関連インパルス応答(HRIR)と呼ばれる関連する時間領域応答を含む。
【0005】
典型的には、数百人の個人についてのHRFRは、各場所についての平均HRFRを生成するために平均化される。その後、平均HRFRデータは、録音及び再生時の音源の位置符号化に使用される。
【0006】
前述のように、この種類のHRFR符号化は、ヘッドホンについて納得のいく結果が得られず、多数のスピーカーを部屋中に配置する必要がある。また、多数の被験者の測定値を平均化したにもかかわらず、知覚される位置は個人によって大きく変化する。
【0007】
しかしながら、リスナー毎のHRIRを個別に測定することで、良い結果を得ることができる。通常のFIRフィルタを用いて再生素材を個別のHRIRでコンボリューションすれば、サラウンドサウンドにおいて完全にリアルな没入感をヘッドホンで実現できるが、これは再生コンボリューション時に個人のHRIRが使用された人だけ可能である。録音を聴こうとする全ての人について個別のHRIRデータを作成することは、明らかに不可能である。個人から提供された個人の身体的特性に関する情報から一般に使用される平均HRFRデータをカスタマイズする試みがいくつか為されているが、いずれも成果を得られなかった。
【0008】
HRIRには、フィルタのレイテンシの問題もある。良好な結果を得るためにはHRIRをかなり長くする必要があるが、大きなレイテンシを許容できない仮想現実、ゲーム、その他類似のアプリケーションにおいて導入されたレイテンシは大きな問題を引き起こす。
【0009】
HRFR平均化のような単純な平均化アプローチは、時間領域でも成功しない。図1は、時間領域HRIR平均化の難しさを示す。図1のトレース1、2、3は、3人の異なる被験者のHRIRデータである。体格が異なり、かつ関連する音波の移動時間が異なるため、HRIRデータの2つ目の段差は、トレース上の左側の大きな最初の到着とは異なる時間に発生しています。トレース4は、1、2、3の平均を表す。これは、明らかに身体的に異なる3人の被験者の平均値として適切ではない。この例において、トレース2が個人の体格の平均値として最適であるが、トレース4はトレース2とは全く異なる。トレース1~3の3つの段差は、時間的に不鮮明である。時間的な平均点であるトレース2に明確な波面が到達する代わりに、波面は時間的に不鮮明で抑制されており、これは望ましい結果ではない。
【0010】
本発明は、時間領域に焦点を当てた新しいアプローチを導入する新規の方法で定位プロセスを分解することにより、位置符号化を解決する。このアプローチは、複数次HRTFと呼ばれる。このアプローチは、個人間の平均化を可能にし、時間領域の符号化により、ヘッドホンを通してリスナーの頭の外側に、また所望であれば前方に明確に配置された音源のより安定した定位を提供する。また、一対のステレオスピーカーからの直接音に符号化された位置情報を埋め込むことにより、ステレオスピーカーを2つのみ使用してリスニングルームの周囲に仮想のサラウンド音源を作成することができる。
【発明の概要】
【0011】
本発明は、音再生方法であって、複数次の頭部関連伝達関数(HRTF)による位置符号化を備え、少なくとも左耳への1次HRTF、次に左耳から右耳への2次HRTF、同時に右耳への1次HRTF、次に右耳から左耳への2次HRTFにより音を再生する。上記に関して、「複数次」は2次、3次、又は任意のレベルまでの次数を意味する。これに関して、1つの実施形態によれば、方法は、右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも3次HRTF、好ましくは右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも4次HRTFを含んでよい。
【図面の簡単な説明】
【0012】
また、本開示の概念が、以下に図面、特に図2に関連して説明される。
【0013】
さらに、本発明に関連して、例えばUS2020/0037097に開示されるような、いくつか/複数のHRTFを使用する多くの既知の方法が知られているが、これらは本発明により開示及び提供されるものと同じ概念ではない。ここでも、本発明は、少なくとも左耳への1次HRTF、次に左耳から右耳への2次HRTF、同時に右耳への1次HRTF、次に右耳から左耳への2次HRTFを用いる音再生を含む方法を提供する。これは、多くの既知の方法で利用されるいくつか/複数のHRTFを使用することと混同されるべきではない。
【0014】
複数次HRTFの詳細な説明
人間の聴覚が音の時間領域の特性に極めて敏感であることは、音響心理学の研究からよく知られている。木と金属との音の違いは、素材を叩いた後の最初の数ミリ秒で聞こえる。バイオリンとトランペットとの音の立ち上がり波形はとても異質であり、その差は容易を聞き取ることができる。しかしながら、それぞれの楽器の持続音を立ち上がりなしで聴いた場合、両者を区別することは難しい。
【0015】
同様に、音源の位置は、HRFRだけでなく、時間領域情報からも解釈される。このような困難から、従来の定位の課題は、時間領域情報を無視した平均HRFRデータに焦点を合わせていた。しかしながら、結果は良いものではなかった。個人HRIRデータは、時間領域情報を取得するが、一度に一人の個人に対してのみ、その個人についてサラウンド音場の印象を良くすることに成功している。
【0016】
図2は、音源からリスナーの頭部及びその周囲までの音経路を示す。1がリスナー、2が音源、3~8が頭部及びその周囲への音波の経路を可視化したものである。図2は、1つの音源の位置を示すが、3次元空間内のどの位置でも同様の音経路が想定可能である。図2は一般的な原理を示し、他の音源位置の経路を容易に推定可能である。
【0017】
各音経路3~8には、時間遅延、周波数特性及び減衰が関連付けられている。経路3は、音源2から右耳までの音の移動時間である時間遅延を有するが、この特別なケースは、リスナーへの音の最初の到着であり、リスナーに到達するまでの音の移動時間と並行する遅延を設ける必要がないため、遅延はゼロである。この特定の1次経路の減衰も、減衰を生じさせる障害物がなく音が直接耳に届くため、ゼロである。周波数特性は、典型的には、右耳の音源位置のよく知られた平均HRFRである。しかしながら、音波は、右耳に到達しても止まらない。音波は、頭の周囲を経路6に沿って左耳に到達する。この経路は、音の移動時間による両耳間の時間遅延、頭等による高周波の影による周波数特性、頭の周囲を回って反対の耳へ向かうことによる減衰を有する。この第2の波経路が2次HRTFである。音波が左耳に到達すると、音波は再び経路8を通って右耳に戻り、この経路に時間遅延、周波数特性、減衰が再び関連付けされる。これが3次HRTFである。図2は、明確化のため、高次のHRTFを示さないが、原理は明らかとなり、頭の周囲の経路を続けるだけで高次のHRTFを容易に推定可能である。
【0018】
両耳間の経路に関連する時間遅延は、両耳間の物理的な距離と直接結びついており、200μsから1msであり、典型的には約600μsである。音波が片方の耳からもう片方の耳へ伝わるときに頭によって生じる周波数特性の変化は、一般に、400Hz~2.5kHzで始まる高周波スペクトルのダウンシェルビングであり、人間の可聴域の限界である20kHzまで続く。また、人間の頭及び肩の物理的特性により、特定の経路に関連したいくつかのディップ及びピークが存在する。減衰は、典型的には、1次経路では0~6dB、2次経路では3~12dB、3次経路では6~24dB、4次経路では9~48dBの範囲で変化する。各経路に関連する正確な時間遅延及び減衰を取得するための方法及び技術は、標準的な方法を使用する当業者にとって簡単であるため、説明は省略する。
【0019】
関係する周波数特性は、容易に入手可能なHRTFデータから決定できる。図3は、図2の音位置2、音経路6に関連する周波数特性を、周波数(Hz)に対する大きさ(dB)として示す。
【0020】
音響測定は、前述のように音波が物体の周囲を数回伝播することが示されており、2次、3次、4次HRTFが追加されると、音がより自然に感じられ、音源の定位が大きく改善されることが分かる。定位及び自然さは、4次までは追加すればするほど良くなるが、それ以降はあまり目立たなくなる。当然、HRTFは2次から数百、果ては数千等の可能な任意の次数までを使うことができるが、上述のように、4次以上では小さな効果しか得られないことが理解される。
【0021】
また、音源から左耳への経路4から始まる音経路は、上記の経路3から始まる経路と同様に、時間遅延、周波数特性、及び減衰をそれぞれ有する。しかしながら、経路4の時間遅延は、経路3のようにゼロではなく、両耳間の時間差に起因する。発生する周波数変化は、典型的には、左耳の音源位置の既知の平均HRFRである。経路4に沿った減衰は、典型的には、実施例で示されるように音源が配置されている場合、4.5dBである。次の2次、3次の経路5、及びそれに続く経路7も時間遅延、周波数特性、及び減衰に関連付けされる。
【0022】
頭の前を通る片方の耳からもう片方の耳への音経路は、頭の後ろの音経路よりわずかに長い。また、この音経路は、頭の後ろの音経路とはわずかに異なる減衰と周波数変化を生じさせる。これを考慮すると、頭及び耳は、音源の位置が異なれば一連の特有な複数次HRTFの音経路を生み出すことのできる優れた定位装置であることが分かる。その結果、複数次HRTFは、頭の前後の両方で音源の安定した定位を実現可能である。
【0023】
複数次HRTFは周波数特性の変化を分離するため、被験者間で平均化される各経路の減衰及び時間遅延は、複雑でなくなる。多人の個人の経路の周波数特性は、既存の方法で容易に平均化可能であり、減衰及び遅延は、単に各経路の被験者の減衰及び移動距離の平均となる。多数の個人の特性を平均化することは、全てのリスナーに対して安定した同様の結果を得るために重要である。
【0024】
各経路に関連する周波数の変化は、FIRフィルタに関連するレイテンシを排除する標準的なIIRフィルタを用いて容易に実装可能である。従って、複数次HRTFは、いかなるレイテンシをも発生させることなく動作し、VR、ゲーム、ゼロ又は極めて低いレイテンシを必要とするアプリケーション等に適している。図4は、典型的な複数次HRTFのDSP実装のブロック図である。1つの音源位置に対する4次実装が示されている。勿論、複数次HRTFは他の多くの方法によっても実装可能であり、図4は多数の可能なトポロジーの1例を示すに過ぎないことが明らかである。ブロック11、21、31、41、51、61、71、81は、4次実装における各耳の4つの経路の各セットに関連する遅延を適用する遅延ブロックである。ブロック12、22、32、42、52、62、72、82は、各経路に関連する周波数変化を適用する。ブロック13、23、33、43、53、63、73、83は、各経路に存在する減衰を適用するゲインブロックである。最後に、100は4つの経路からの全ての出力を左耳へと単純に合計する加算器ブロックであり、200は右耳用の加算器である。100及び200からの出力は、それぞれ、左チャンネル及び右チャンネルに送信される。
【0025】
複数次HRTFを利用するアプリケーションは、ステレオ及びマルチチャンネルの両方の入力信号を有してよい。複数次HRTFにより複数の仮想音源を作成することができる。入力信号が通常の5チャンネルサラウンドサウンド形式である場合、複数次HRTFを使用して、例えばフロント左右、中央、サラウンド左右である、5チャンネルサラウンドサウンドセットアップの通常の位置にある5つの仮想スピーカーを作成することができる。その後、個別の入力チャンネルが、対応する仮想スピーカーにより再生される。同様に、より多くのサラウンドスピーカー及び追加のシーリングスピーカーを備える最新のサラウンドサウンド形式では、より多くの仮想スピーカーを作成することができる。ステレオ入力信号の場合、通常のサウンド抽出及びステアリング処理により、個々のフィードを仮想スピーカーへと抽出することができる。この場合、ステレオ抽出及びステアリング処理は、通常のサラウンドサウンド製品と同じとなる。
【0026】
複数次HRTFで作成した仮想音源は、ヘッドホン及びスピーカーの両方で機能する。ヘッドホンの場合、個人用に測定したHRIRを用いた体感に近いサラウンド音場を作成することができる。スピーカーの場合、仮想スピーカーを、仮想のセンタースピーカー、サラウンドスピーカー、及びハイトスピーカーを作成する一対のステレオスピーカーからの音へと符合化できる。複数次HRTF仮想スピーカーの場合、多数のスピーカーを設置した場合と同様のサラウンド音場を実現可能である。
【0027】
複数次HRTF仮想音源を使用する再生は、当然、現在のステレオ及びサラウンド形式並びにそれら音源の位置に限定されない。上記の例は、可能な複数次HRTFのアプリケーションを例示したに過ぎず、任意の位置、任意の数の所望の仮想スピーカーを作成してよい。
【0028】
複数次HRTFは、音の録音/生成から再生までの任意の段階で適用可能であり、再生段階に限定されない。ヘッドホン、通常のステレオ、マルチチャンネルの再生システムで再生されるであろう音に対して複数次HRTFを使用して位置を適用する設計及び/又は制作において、複数次HRTFを使用することができる。例えば、複数次HRTFは、ゲームエンジンにおいて、ゲームの生成音場内の音の位置を特定するために使用できる。別の例として、複数次HRTFは、DAWソフトウェア内において、統合またはプラグインとしてサウンド制作における音場内の音の位置を特定するために使用できる。換言すれば、複数次HRTFアルゴリズム及び音響処理は、任意の段階において適用可能であり、同じ結果を得ることができる。
【0029】
以下に本開示のいくつかの特定の実施形態を示す。
【0030】
本開示の1つの特定の実施形態によれば、方法は、右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも3次HRTF、好ましくは右耳から左耳への場合と同様に左耳から右耳へと向かう少なくとも4次HRTFを含む。
【0031】
さらに、別の実施形態によれば、当該方法は、音に符号化された位置情報を埋め込むことにより1つ以上の仮想音源を作成することを含む。
【0032】
さらなる別の実施形態によれば、2次以上の各頭部関連伝達関数(HRTF)は、時間遅延、周波数特性、及び減衰等のパラメータを含む。
【0033】
さらに、別の実施形態によれば、方法は、例えば頭の前の片方の耳からもう片方の耳への音経路と頭の後ろの音経路との差である、異なる音経路の差を考慮する。これについて、片方の耳からもう片方の耳への音経路は頭の周囲の任意の経路である。従って、本開示に係る方法は、複数の音経路を含んでよい。
【0034】
また、さらなる別の実施形態によれば、方法は、平均化を含む。上記のように、本開示によれば、個人間で平均化が可能である。時間領域の符号化の場合、リスナーの頭の外側に、また所望であれば前方に明確に配置された音源のより安定した定位を提供する。これに基づいて、本開示の1つの実施形態によれば、方法は、時間領域に焦点を当てた平均化を含む。さらに、本開示の1つの実施形態によれば、方法は、互いに独立した時間遅延、周波数特性、及び減衰等のパラメータの平均化を含む。これは、今日使用される既知の方法による平均化と比較した時、さらなる差異の1つである。
【0035】
また、本開示は、異なる種類のシステム、ハードウェア及びソフトウェア実装を対象とする。
【0036】
1つの実施形態によれば、本開示は、本開示に係る方法を使用するために設定されたヘッドホン再生システムを対象とする。
【0037】
さらに、本開示は、本開示に係る方法を使用するために設定されたスピーカー再生システムも対象とする。
【0038】
さらに、本開示は、一対のステレオスピーカーを備える再生システムを対象とし、当該システムは、一対のステレオスピーカーからの直接音に符号化された位置情報を埋め込むことによりリスニングルームの周囲に仮想のサラウンド音源を作るために本開示に係る方法を使用するために設定される。
【0039】
上記から明らかなように、本開示によれば他のアプリケーションも可能である。
【0040】
1つの実施形態によれば、本開示は、本開示に係る方法を使用するために設定されるゲーミングエンジンシステムを対象とする。別の実施形態によれば、本開示は、本開示に係る方法を使用するために設定されるデジタル・オーディオ・ワークステーション(DAW)ソフトウェアシステムを提供する。

図1
図2
図3
図4
【国際調査報告】