IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オランジュの特許一覧

特開2023-99599バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理
<>
  • 特開-バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理 図1
  • 特開-バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理 図2
  • 特開-バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理 図3
  • 特開-バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理 図4
  • 特開-バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023099599
(43)【公開日】2023-07-13
(54)【発明の名称】バイノーラルコンテンツを配信する3D音声デコーダにおけるモノラル信号の処理
(51)【国際特許分類】
   H04S 7/00 20060101AFI20230706BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】11
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023077357
(22)【出願日】2023-05-09
(62)【分割の表示】P 2020533148の分割
【原出願日】2018-12-07
(31)【優先権主張番号】1762478
(32)【優先日】2017-12-19
(33)【優先権主張国・地域又は機関】FR
(71)【出願人】
【識別番号】591034154
【氏名又は名称】オランジュ
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】グレゴリー・パローネ
(57)【要約】
【課題】コーデックに必要な帯域幅を最適化しながら配信可能にする解決策を提供する。
【解決手段】本発明は、ヘッドセットによる空間的配信を意図して復号された信号に対してバイノーラル化処理を実行するステップを含む、3D音声デコーダ内で音声モノラル信号を処理する方法に関する。本方法は、モノラル信号を表すデータストリーム内で、空間位置情報の加工が関連付けられた非バイノーラル化処理の指示を検出(E200)すると、復号されたモノラル信号が、位置情報を考慮に入れて2個の加工チャネルを構築(E220)するステレオ加工エンジンに誘導(O-E200)され、2個のチャネルが、ヘッドセットを介して配信(E240)されるべく、2個のチャネルをバイノーラル化処理から出力されたバイノーラル信号と合算する直接混合ステップ(E230)で直接処理される。本発明はまた、本処理方法を実装するデコーダ装置にも関する。
【選択図】図2
【特許請求の範囲】
【請求項1】
音声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するステップを含む、3D音声デコーダ内での音声モノラル信号を処理する方法であって、
前記モノラル信号を表すデータストリーム内で、空間位置情報の加工が関連付けられた非バイノーラル化処理の指示を検出すると(E200)、前記復号されたモノラル信号が、位置情報を考慮に入れて2個の加工チャネルを構築する(E220)ステレオ加工器に誘導され(O-E200)、前記2個のチャネルが、前記音声ヘッドセットによる加工(E240)を目的として、前記2個のチャネルをバイノーラル化処理から生じたバイノーラル信号と合算する直接混合ステップ(E230)で処理される方法。
【請求項2】
前記加工空間位置情報が、前記加工音声ヘッドセットの単一のチャネルを示すバイナリデータである、請求項1に記載の方法。
【請求項3】
前記バイナリデータで示すチャネルに対応する加工チャネルだけが、前記直接混合ステップにおける前記バイノーラル信号の対応するチャネルと合算され、他の加工チャネルの値はヌルである、請求項2に記載の方法。
【請求項4】
前記モノラル信号が、前記加工空間位置情報と共に、前記ステレオ加工器に誘導されるチャネル型信号である、請求項1に記載の方法。
【請求項5】
前記加工空間位置情報が両耳間レベル差(ILD)に関するデータである、請求項4に記載の方法。
【請求項6】
前記モノラル信号が、前記非バイノーラル化指示及び前記加工位置情報を含む加工パラメータの組に関連付けられたオブジェクト型信号であり、前記信号が前記加工位置情報と共に前記ステレオ加工器に誘導されている、請求項1に記載の方法。
【請求項7】
前記加工空間位置情報が方位角に関するデータである、請求項6に記載の方法。
【請求項8】
音声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するモジュールを含む、音声モノラル信号の処理装置であって、
-前記モノラル信号を表すデータストリーム内で、加工空間位置情報に関連付けられた非バイノーラル化処理の指示を検出可能な検出モジュール(330;430)と、
-前記検出モジュールによる検出が成功した場合に、前記復号されたモノラル信号をステレオ加工器に誘導可能な転送モジュール(330,430)と、
-位置情報を考慮に入れて2個の加工チャネルを構築可能なステレオ加工器(331;431)と、
-2個の加工チャネルを、前記音声ヘッドセットによる加工を目的として、バイノーラル化処理(320;420)を実行するモジュールにより生成されたバイノーラル信号と合算することにより、直接処理可能な直接混合モジュール(340;440)とを含む装置。
【請求項9】
前記ステレオ加工器が前記直接混合モジュールに組み込まれている、請求項8に記載の処理装置。
【請求項10】
前記モノラル信号がチャネル型信号であり、前記ステレオ加工器が、マルチチャネル信号用の加工チャネルを更に構築するチャネル加工器に組み込まれている、請求項8に記載の装置。
【請求項11】
前記モノラル信号がオブジェクト型信号であり、前記ステレオ加工器が、加工パラメータの組に関連付けられたモノラル信号用の加工チャネルを更に構築するオブジェクト加工器に組み込まれている、請求項8に記載の装置。
【請求項12】
請求項8~11のいずれか1項に記載の処理装置を含む音声デコーダ。
【請求項13】
プロセッサにより実行されたとき、請求項1~7のいずれか1項に記載の処理方法のステップを実行するコード命令を含むコンピュータプログラム。
【請求項14】
請求項1~7のいずれか1項に記載の処理方法を実行する命令を含むコンピュータプログラムを保存するプロセッサ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、MPEG-H3D音声標準を満たすコーデック等、3D音声復号システムにおける音声信号の処理に関する。本発明はより具体的には、さらにバイノーラル音声信号を受信するヘッドセットによる加工を意図したモノラル信号の処理に関する。
【背景技術】
【0002】
バイノーラルという用語は、音声ヘッドセット又は一対のイヤホンによる、しかも空間化効果を伴う音声信号の加工を指す。以下でバイノーラル化又はバイノーラル化処理と呼ばれる音声信号のバイノーラル処理は、音源と聴取者の耳との間の音響伝達関数を再現すべく、周波数領域でHRTF(頭部伝達関数)フィルタを、又は時間領域でHRIR、BRIR(頭部インパルス応答、バイノーラル室内インパルス応答)フィルタを用いる。これらのフィルタは、聴取者が現実の聴取状況にいるように音源の位置を特定可能にする聴覚位置の手掛かりをシミュレートする役割を果たす。
【0003】
右耳用の信号はモノラル信号を右耳の伝達関数(HRTF)でフィルタリングすることにより得られ、左耳用の信号は同じモノラル信号を左耳の伝達関数でフィルタリングすることにより得られる。(非特許文献1)に記述されているMPEG-H3D音声等のNGA(次世代音声)コーデックにおいて、又は(非特許文献2)に記述されているAC4においても、デコーダが受信した信号は最初に復号され、次いで音声ヘッドセットによる加工の前に上述のようなバイノーラル化処理を受ける。音声ヘッドセットにより加工された音声が空間化されること、すなわちバイノーラル信号を用いるケースがここでの関心事項の一つである。
【0004】
上述のコーデックは従って、複数の仮想的スピーカーにより、ヘッドセットを介して聴取されるバイノーラル信号を加工する可能性の基礎となるだけでなく、複数のリアルスピーカーにより、空間化された音声を加工する可能性の基礎となる。
【0005】
特定のケースにおいて、聴取者の頭部を追跡する機能(頭部追跡機能)にはバイノーラル化処理が関連付けられており、この機能はまた、静的加工とは逆に動的加工と称される。この種の処理により、各々の耳に合わせて加工された音声を、音声シーンの加工を安定に保つべく変更する目的で、聴取者の頭部の動きを考慮に入れることができる。換言すれば、聴取者は、頭部を動かすか否かに依らず、音源が物理空間内の同一箇所に位置しているように知覚するであろう。
【0006】
これは360°のビデオコンテンツを視聴する場合に重要であり得る。
【0007】
しかし、特定コンテンツをこの種の処理により処理することは望ましくない。具体的には、特定のケースにおいて、コンテンツが特にバイノーラル加工用に生成された場合、例えば信号が人工頭部を用いて直接録音されたか又はバイノーラル化処理により既に処理済みである場合、それらは直接、ヘッドセットのイヤホンにより加工される必要がある。これらの信号は追加的なバイノーラル化処理を必要としない。
【0008】
同様に、コンテンツ制作者は、例えばボイスオフの場合、音声信号を音声シーンとは独立に、すなわち音声シーンとは別の音声として知覚されるように加工したい場合がある。
【0009】
この種の加工は例えば、更に加工されている音声シーンに説明を付与することができる。例えば、コンテンツ制作者は、意図的に「イヤホン」効果が得られるように、すなわちこの音声が片方の耳だけに聞こえるように、片方の耳に対して音声を加工したい場合がある。たとえ聴取者が先の例のように頭部を動かしたとしても、この音声が他方の耳では絶対聞こえないことが望まれる場合がある。コンテンツ制作者はまた、たとえ聴取者が頭部を動かしたとしても、この音声が聴取者の耳に関して(片方の耳の内側だけでなく)音声空間内の正確な位置で加工されることを望む場合がある。
【0010】
上述のようなモノラル信号が復号されて、MPEG-H3D音声又はAC4コーデック等の加工システムに入力されると、バイノーラル化されるであろう。音声は次いで両耳の間で分散(たとえ反対側の耳では静かであっても)され、聴取者が頭部を動かしたとしても、頭部追跡処理を用いている場合、音源の位置を最初の音声シーンと同じ位置に留めるため、当人の耳は同じように音声を知覚しないであろう。両方の耳の各々における音量は従って、頭部の位置に応じて変動するように感じられる。
【0011】
MPEG-H3D音声標準の一補正案において、(非特許文献3)に、バイノーラル化により変更すべきでないコンテンツの識別が提案されている。
【0012】
従って、「両耳分離」識別にはバイノーラル化処理すべきでないコンテンツが関連付けられている。
【0013】
従って「両耳分離」と呼ばれるものを除く全ての音声要素がバイノーラル化される。「両耳分離」とは各々の耳に異なる信号が送られることを意味する。
【0014】
同様に、AC4標準において、データビットは信号が既に仮想化されていることを示す。このビットにより後処理を無効化することができる。このように識別されたコンテンツは、音声ヘッドセット用に既にフォーマット化されたコンテンツ、すなわちバイノーラルコンテンツである。これらは2個のチャネルを含んでいる。
【0015】
これらの方法は、音声シーンの制作者がバイノーラル化を望まないモノラル信号のケースを扱わない。
【0016】
これは、「イヤホン」モードと称するモードで聴取者の耳に関して正確な位置でモノラル信号が音声シーンとは独立に加工されるのを防止する。従来の2チャネル技術を用いて、片方の耳に望まれる加工を実現する一方式は、一方のチャネルでは信号、他方のチャネルでは無音からなる2チャネルコンテンツを生成すること、又は実際に所望の空間位置を考慮に入れながらステレオコンテンツを生成してこのコンテンツを送信前に既に空間化されているものとして認識することである。
【0017】
しかし、この種の処理は、上述のステレオコンテンツを生成する必要があるため、複雑になり、このステレオコンテンツの送信に追加的な帯域幅を必要とする。
【先行技術文献】
【非特許文献】
【0018】
【非特許文献1】ISO/IEC23008-3“High efficiency coding and media delivery in heterogenous environments-Part 3:3D audio”(25/07/2014)
【非特許文献2】ETSI TS 103 190“Digital Audio Compression Standard”(April,2014)
【非特許文献3】ISO/IEC JTC1/SC29/WG11 MPEG2015/M37265(October 2015)
【発明の概要】
【発明が解決しようとする課題】
【0019】
従って、同一ヘッドセットにより加工される音声シーンとは独立に、音声ヘッドセット着用者の片方の耳に関して正確な位置で加工される信号を、使用するコーデックに必要な帯域幅を最適化しながら、配信可能にする解決策を提供するニーズがある。
【0020】
本発明は、この状況の改善を目的とする。
【課題を解決するための手段】
【0021】
この目的のため、音声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するステップを含む、3D音声デコーダ内での音声モノラル信号を処理する方法を提案する。本方法では、モノラル信号を表すデータストリーム内で、空間位置情報の加工が関連付けられた非バイノーラル化処理の指示が検出されると、復号されたモノラル信号が、位置情報を考慮に入れて2個の加工チャネルを構築するステレオ加工器に誘導され、2個のチャネルは、音声ヘッドセットによる加工を目的として、2個のチャネルをバイノーラル化処理から生じたバイノーラル信号と合算する直接混合ステップで処理される。
【0022】
従って、モノラルコンテンツが、聴取者の片方の耳に関して正確な空間位置で加工されなければならず、且つバイノーラル化処理を受けないことを指定することにより、加工された信号が「イヤホン」効果を有する、すなわち、たとえ聴取者の頭部が動いたとしても、ステレオ信号と同様に、聴取者の頭内で片方の耳に関して画定された位置で聴取者に聞こえるようにすることができる。
【0023】
具体的には、ステレオ信号は、チャネル間にボリューム差(又は両耳間レベル差を略してILD)及び時には時間差(又は両耳間時間差を略してITD)を有する2個(左右)の出力チャネルの各々に各音源が存在するという事実により特徴付けけられる。ヘッドセットでステレオ信号を聴取する場合、音源は聴取者の頭内の左耳と右耳の間に位置する、ILD及び/又はITDに依存する箇所で知覚される。バイノーラル信号は、音源から聴取者の耳までの音響経路を再現するフィルタが音源に適用される点でステレオ信号とは異なる。ヘッドセットでバイノーラル信号が聴取された場合、音源は、使用するフィルタに応じて、頭部外の球面上に位置する箇所で知覚される。
【0024】
ステレオ及びバイノーラル信号は、2個(左右)のチャネルを含む点で類似しており、これら2個のチャネルのコンテンツで異なる。
【0025】
加工されたモノ(モノラルの略)信号は次いで、他の加工済み信号に重ね合わされて、3D音声シーンを形成する。
【0026】
この種のコンテンツを示すのに必要な帯域幅は、コード化、伝達、次いで復号すべきこの空間位置を考慮に入れてステレオ信号を必要とする方法とは逆に、非バイノーラル化指示に加えて、音声シーン内での位置の指示を単にコード化して、実行する処理をデコーダに通知するだけで充分であるため、最適化されている。
【0027】
以下に述べる様々な特定の実施形態は独立に、又は互いを組み合わせて、上述の処理方法のステップに追加されてよい。
【0028】
特定の一実施形態において、加工空間位置情報は、加工音声ヘッドセットの単一のチャネルを示すバイナリデータである。
【0029】
上述の情報は1個のコード化ビットだけを必要とするため、必要とされる帯域幅を更に制限することができる。
【0030】
本実施形態において、バイナリデータで示すチャネルに対応する加工チャネルだけが、直接混合ステップにおけるバイノーラル信号の対応するチャネルと合算され、他の加工チャネルの値はヌルである。
【0031】
このように実行される合算は実行が簡単であり、加工された音声シーンへのモノ信号の重ね合せの所望の「イヤホン」効果を実現する。
【0032】
特定の一実施形態において、モノラル信号は、加工空間位置情報と共に、ステレオ加工器に誘導されるチャネル型信号である。
【0033】
従って、モノラル信号は、バイノーラル化処理が実行されるステップを受けず、従来技術の方法において従来処理されていたチャネル型信号のようには処理されない。この信号は、チャネル型信号に用いる既存の加工器とは異なるステレオ加工器により処理される。この加工器は、モノラル信号を2個のチャネルで複製するが、加工空間位置情報に依存する係数を2個のチャネルに適用する。
【0034】
上述のステレオ加工器は更に、この加工器に入力された信号に適用された検出に応じて処理が異なるように、チャネル加工器に組み込まれていても、又はこのステレオ加工器により生成されたチャネルと、バイノーラル化処理を実行するモジュールにより生成されたバイノーラル信号とを合算する直接混合モジュールに組み込まれていてもよい。
【0035】
上述のチャネル型信号に関連付けられた一実施形態において、加工空間位置情報は、両耳間レベル差に関するILDデータ、又はより一般的に左右のチャネル間のレベル比に関する情報である。
【0036】
別の実施形態において、モノラル信号は、非バイノーラル化指示及び加工位置情報を含む加工パラメータの組に関連付けられたオブジェクト型信号であり、信号は加工空間位置情報と共にステレオ加工器の方向に誘導されている。
【0037】
上述の別の実施形態において、加工空間位置情報は例えば方位角に関するデータである。
【0038】
上述の情報により、音声が音声シーンに重ね合わせて加工されるように、音声ヘッドセットの着用者の耳に関する加工位置を特定することができる。
【0039】
従って、モノラル信号は、バイノーラル化処理が実行されるステップを受けず、従来技術の方法で従来処理されていたオブジェクト型信号のようには処理されない。この信号は、オブジェクト型信号に用いる既存の加工器とは異なるステレオ加工器により処理される。非バイノーラル化処理指示及び加工位置情報は、オブジェクト型信号に関連付けられた加工パラメータ(メタデータ)に含んでいる。この加工器は更に、オブジェクト加工器に組み込まれていても、又はこのステレオ加工器により生成されたチャネルと、バイノーラル化処理を実行するモジュールにより生成されたバイノーラル信号とを合算する直接混合モジュールに組み込まれていてもよい。
【0040】
本発明はまた、音声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するモジュールを含む、音声モノラル信号の処理装置に関する。本装置は、
-モノラル信号を表すデータストリーム内で、加工空間位置情報に関連付けられた非バイノーラル化処理の指示を検出可能な検出モジュールと、
-検出モジュールによる検出が成功した場合に、復号されたモノラル信号をステレオ加工器に誘導可能な転送モジュールと、
-位置情報を考慮に入れて2個の加工チャネルを構築可能なステレオ加工器と、
-2個の加工チャネルを、音声ヘッドセットによる加工を目的として、バイノーラル化処理を実行するモジュールにより生成されたバイノーラル信号と合算することにより、直接処理可能な直接混合モジュールとを含む。
【0041】
本装置は、自身が実行する上述の方法と同じ利点を有している。
【0042】
特定の一実施形態において、ステレオ加工器は直接混合モジュールに組み込まれている。
【0043】
従って、加工チャネルが構築されるのは直接混合モジュール内だけであり、次いで位置情報だけが直接混合モジュールにモノ信号と共に送信される。この信号は、チャネル型であってもオブジェクト型であってもよい。
【0044】
一実施形態において、モノラル信号はチャネル型信号であり、ステレオ加工器は、マルチチャネル信号用の加工チャネルを更に構築するチャネル加工器に組み込まれている。
【0045】
別の実施形態において、モノラル信号はオブジェクト型信号であり、ステレオ加工器は、加工パラメータの組に関連付けられたモノラル信号用の加工チャネルを更に構築するオブジェクト加工器に組み込まれている。
【0046】
本発明は、上述のような処理装置を含む音声デコーダ、及びプロセッサにより実行された場合に上述の処理方法のステップを実行するコード命令を含むコンピュータプログラムに関する。
【0047】
最後に、本発明は、任意選択的に着脱可能であって、処理装置に組み込まれていても、又は組み込まれていなくてもよく、上述の処理方法を実行する命令を含むコンピュータプログラムを保存するプロセッサ可読記憶媒体に関する。
【0048】
本発明の他の特徴及び利点は、添付の図面を参照しながら、非限定的な例として与えるに過ぎない以下の記述を精査することにより明らかになろう。
【図面の簡単な説明】
【0049】
図1】従来技術に見られるようなMPEG-H3D音声デコーダを示す。
図2】本発明の一実施形態による処理方法のステップを示す。
図3】本発明の第1の実施形態による処理装置を含むデコーダを示す。
図4】本発明の第2の実施形態による処理装置を含むデコーダを示す。
図5】本発明の一実施形態による処理装置のハードウェア表現を示す。
【発明を実施するための形態】
【0050】
図1は、上述の文献で指定されたMPEG-H3D音声標準等により標準化されたデコーダを模式的に示す。ブロック101は、(メタデータ)空間化パラメータ(Obj.MeDa.)及びHOA(高次アンビソニックの略)音声フォーマットにおける音声信号に関連付けられた「チャネル」型のマルチチャネル音声信号(Ch.)及び「オブジェクト」型のモノラル音声信号(Obj.)の両方を復号するコア復号モジュールである。
【0051】
チャネル型信号は、このチャネル信号を音声加工システムに適合させるべくチャネル加工器102(MPEG-H3D音声標準における「フォーマット変換器」とも称する)により復号されて処理される。チャネル加工器は、加工システムの特徴を認識しており、従って、リアルスピーカー又は仮想スピーカーに供給する目的で加工チャネル(Rdr.Ch)毎に1個の信号を配信する(これは次いでヘッドセットによる加工のためにバイノーラル化される)。
【0052】
上述の加工チャネルは、混合モジュール110により、後述するオブジェクト及びHOA加工器103、105により生成された他の加工チャネルと混合される。
【0053】
オブジェクト型信号(Obj.)は、モノラル信号を空間化された音声シーンに配置できるようにする空間化パラメータ(方位角、仰角)、優先権パラメータ又は音声ボリュームパラメータ等のメタデータに関連付けられたモノラル信号である。このオブジェクト信号及び関連パラメータは復号モジュール101により復号されて、加工システムの特徴を認識し、これらのモノラル信号を特徴に適合させるオブジェクト加工器103により処理される。このように生成された各種の加工チャネル(Rdr.Obj.)は、混合モジュール110により、チャネル及びHOA加工器により生成された他の加工チャネルと混合される。
【0054】
同様に、HOA(高次アンビソニックの略)信号は復号され、復号されたアンビソニック成分は、これらの成分を音声加工システムに適合させるべくHOA加工器105に入力される。
【0055】
上述のHOA加工器により生成された加工チャネル(Rdr.HOA)は、110で他の加工器102、103により生成された加工チャネルと混合される。
【0056】
混合モジュール110から出力された信号は、加工室に配置されたリアルスピーカーHPにより加工されてよい。この場合、混合モジュールから出力された信号出力は、1個のチャネルが1個のスピーカーに対応するように、これらのリアルスピーカーへ直接供給されてよい。
【0057】
混合モジュールから出力された信号は、音声ヘッドセットCAにより加工され、次いでこれらの信号は、例えばMPEG-H3D音声標準に関して引用された文献に記述されているバイノーラル化技術を用いて、バイノーラル化処理を実行するモジュール120により処理される。
【0058】
このように、音声ヘッドセットによる加工を意図された全ての信号は、バイノーラル化処理を実行するモジュール120により処理される。
【0059】
図2に、本発明の一実施形態による処理方法のステップを示す。
【0060】
本方法は、3D音声デコーダ内でのモノラル信号の処理に関する。ステップE200は、モノラル信号を表すデータストリーム(SMo)(例えば音声デコーダに入力されたビットストリーム)が、加工空間位置情報に関連付けられた非バイノーラル化指示を含むか否かを検出する。否定的な場合(ステップE200でN)、信号をバイノーラル化する必要がある。これは、加工音声ヘッドセットによりE240で加工される前に、ステップE210でバイノーラル化処理を実行することにより処理される。このバイノーラル信号は、下記のステップE220で生成される他のステレオ信号と混合されてよい。
【0061】
モノラル信号を表すデータストリームが非バイノーラル化指示(Di.)及び空間位置情報(Pos.)の両方を含む(ステップE200でY)場合、復号されたモノラル信号はステップE220で処理すべくステレオ加工器に誘導される。
【0062】
上述の非バイノーラル化指示は例えば、従来技術と同様に、モノラル信号に与えられた「両耳分離」識別子、又は信号をバイノーラル化処理により処理しない旨の命令として理解される別の識別子であってよい。加工空間位置情報は例えば、左又は右耳に関する音の加工位置を示す方位角、又はモノラル信号のエネルギーを左右のチャネルの間で分散できるようにするILD情報等、左右のチャネルのレベル差の指示であっても、或いは右又は左耳に対応する単一の加工チャネルを用いる旨の指示であってもよい。後者の場合、この情報は、極めて狭い帯域幅(1データビット)しか必要としないバイナリ情報である。
【0063】
ステップE220において、位置情報を考慮に入れて、音声ヘッドセットの2個のイヤホン用の2個の加工チャネルを構築する。このように構築された2個の加工チャネルは、これらの2個のステレオのチャネルと、バイノーラル化処理E210から生じた2個のバイノーラル信号チャネルとを合算する直接混合ステップE230により直接処理される。
【0064】
ステレオ加工チャネルの各々は次いで、対応するバイノーラル信号と合算される。
【0065】
上述の直接混合ステップに続いて、混合ステップE230で生成された2個の加工チャネルがE240で音声ヘッドセットCAにより加工される。
【0066】
加工空間位置情報が加工音声ヘッドセットの単一のチャネルを示すバイナリデータである実施形態において、これはこのヘッドセットの1個のイヤホンだけでモノラル信号を加工する必要があることを意味する。ステップE220でステレオ加工器により構築された2個の加工チャネルは従って、モノラル信号を含む1個のチャネルからなり、他はヌルであり、従って存在しない可能性がある。
【0067】
従って直接混合ステップE230において、単一のチャネルがバイノーラル信号の対応するチャネルと合算され、他のチャネルはヌルである。従ってこの混合ステップが簡素化される。
【0068】
従って、音声ヘッドセットを着用している聴取者には一方で、バイノーラル信号から生成された空間化された音声シーンが聞こえ(動的加工の場合、聴取者に聞こえる音声シーンの物理レイアウトは、たとえ頭部を動かしたとしても変わらない)、他方で片方の耳と頭部中央との間で頭内に位置する、音声シーンに独立に重ね合わされた音声が聞こえる、すなわち聴取者が頭部を動かしてもこの音声は片方の耳に関して同じ位置で聞こえる。
【0069】
この音声は従って、音声シーンの他のバイノーラル化された音に重ね合わされたように知覚され、例えばこの音声シーンでボイスオフとして機能する。
【0070】
従って「イヤホン」効果が実現される。
【0071】
図3に、図2を参照して記述した処理方法を実装する処理装置を含むデコーダの第1の実施形態を示す。この例示的な実施形態において、実装された処理により処理されるモノラル信号はチャネル型信号(Ch.)である。
【0072】
オブジェクト型信号(Obj.)及びHOA型信号(HOA)は、図1を参照して記述したブロック103、104及び105と同様に各々のブロック303、304及び305により処理される。同様に、混合ブロック310は、図1のブロック110を参照して記述したような混合を実行する。
【0073】
ブロック330はチャネル型信号を受信し、加工位置空間情報(Pos.)に関連付けられた非バイノーラル化指示(Di.)含むモノラル信号を、これらの情報を含んでいない別の信号、特にマルチチャネル信号とは異なる仕方で処理する。これらの情報を含んでいない信号は、図1を参照して記述したブロック102と同様にブロック302で処理される。
【0074】
加工空間位置情報に関連付けられた非バイノーラル化指示を含むモノラル信号に対して、ブロック330はルータ又はスイッチとして機能し、復号されたモノラル信号(Mo.)をステレオ加工器331に誘導する。ステレオ加工器は更に、復号モジュールから空間位置情報(Pos.)を受信する。この情報により、加工音声ヘッドセット左右のチャネルに対応する2個の加工チャネル(2Vo.)を構築することにより、これらのチャネルは音声ヘッドセットCAにより加工することができる。
【0075】
例示的な一実施形態において、加工空間位置情報は、左右のチャネル間における両耳のレベル差に関する情報である。この情報により、この加工空間位置を実現すべく各々の加工チャネルに適用する必要がある係数を決定することができる。
【0076】
これらの係数は、文献MPEG-2AAC:ISO/IEC 13818-4:2004/DCOR2、強度ステレオを記述するセクション7.2のAACのように定義されていてよい。
【0077】
音声ヘッドセットによる加工の前に、上述の加工チャネルが、図1のブロック120と同様にバイノーラル化処理を実行するバイノーラル化モジュール320により生成されたバイノーラル信号のチャネルに追加される。
【0078】
チャネルを合算する上述のステップは、直接混合モジュール340により実行され、ヘッドセットCAによる加工の前に、ステレオ加工器331により生成された左チャネルをバイノーラル化処理モジュール320により生成されたバイノーラル信号の左チャネルと合算し、ステレオ加工器331により生成された右チャネルをバイノーラル化処理モジュール320から生じたバイノーラル信号の右チャネルと合算する。
【0079】
従って、モノラル信号はバイノーラル化処理モジュール320を経由せずに、バイノーラル信号と直接混合される前にステレオ加工器331へ直接送信される。
【0080】
従って上述の信号もまた頭部追跡処理を受けない。加工された音声は従って聴取者の片方の耳に関する加工位置にあり、たとえ聴取者が頭部を動かしたとしてもこの位置に留まる。
【0081】
本実施形態において、ステレオ加工器331はチャネル加工器302に組み込まれていてよい。この場合、このチャネル加工器は、加工空間位置情報(Pos.)を受信したとき、上述のように、図1を参照して記述したような従来のチャネル型信号の適合と、加工器331の2個の加工チャネルの構築の両方を実行する。従って2個の加工チャネルだけが、音声ヘッドセットCAによる加工の前に混合モジュール340へ直接転送される。
【0082】
一変型実施形態において、ステレオ加工器331は直接混合モジュール340に組み込まれている。この場合、ルーティングモジュール330は、(非バイノーラル化指示及び加工空間位置情報が検出されている)復号されたモノラル信号を直接混合モジュール340に誘導する。更に、復号された加工空間位置情報(Pos.)もまた直接混合モジュール340に送信される。従ってこの直接混合モジュールはステレオ加工器を含んでいるため、加工空間位置情報を考慮に入れた2個の加工チャネルの構築、及びこれら2個の加工チャネルとバイノーラル化処理モジュール320により生成されたバイノーラル信号の加工チャネルとの混合を実行する。
【0083】
図4に、図2を参照して記述した処理方法を実装する処理装置を含むデコーダの第2の実施形態を示す。この例示的な実施形態において、実装された処理を用いて処理されるモノラル信号はオブジェクト型信号(Obj.)である。
【0084】
チャネル型信号(Ch.)及びHOA型信号(HOA)は、図1を参照して記述したブロック102、105の場合と同様に各々のブロック402、405により処理される。同様に、混合ブロック410は、図1のブロック110を参照して記述したような混合を実行する。
【0085】
ブロック430はオブジェクト型信号(Obj.)を受信して、加工位置空間情報(Pos.)に関連付けられた非バイノーラル化指示(Di.)が、これらの情報が検出されていない別のモノラル信号とは異なる仕方で検出されているモノラル信号を処理する。
【0086】
これらの情報が検出されていないモノラル信号に関して、図1のブロック104と同様にメタデータを復号するブロック404により復号されたパラメータを用いて、図1を参照して記述したブロック103と同様に、ブロック403により処理される。
【0087】
加工空間位置情報に関連付けられた非バイノーラル化指示が検出されているオブジェクト型のモノラル信号の場合、ブロック430は、ルータ又はスイッチとして機能して復号されたモノラル信号(Mo.)をステレオ加工器431に誘導する。
【0088】
非バイノーラル化指示(Di.)及び加工空間位置情報(Pos.)は、オブジェクト型信号に関連付けられたメタデータ又はパラメータを復号するブロック404により復号される。非バイノーラル化指示(Di.)は、ルーティングブロック430に送信され、加工空間位置情報はステレオ加工器431に送信される。
【0089】
このように空間位置情報(Pos.)を受信する上述のステレオ加工器は、加工音声ヘッドセットの左右のチャネルに対応する2個の加工チャネルを構築することで、これらのチャネルを音声ヘッドセットCAにより加工することができる。
【0090】
例示的な一実施形態において、加工空間位置情報は、所望の加工位置と聴取者の頭部の中央とがなす角度を決定する方位角に関する情報である。
【0091】
この情報により、この加工空間位置を実現すべく各々の加工チャネルに適用する必要がある係数を決定することができる。
【0092】
左右のチャネルの利得係数は、J. Audio Eng.Soc.,Vol.45,No.6,June,1997のVille Pulkkiによる文献「Virtual Sound Source Positioning Using Vector Base Amplitude Panning」に示す方式で計算することができる。
【0093】
例えば、ステレオ加工器の利得係数は、次式で与えられる。
g1=(cosO.sinH+sinO.cosH)/(2.cosH.sinH)
g2=(cosO.sinH-sinO.cosH)/(2.cosH.sinH)
ここでg1、g2は左右のチャネルの信号の係数に対応し、Oは前方方向とオブジェクトがなす角度(方位角と称する)、Hは前方方向と仮想スピーカーの位置がなす角度(スピーカー間の半角に対応)であり、例えば45°に設定されている。
【0094】
音声ヘッドセットによる加工の前に、これらの加工チャネルは、図1のブロック120と同様にバイノーラル化処理を実行するバイノーラル化モジュール420により生成されたバイノーラル信号のチャネルに追加される。
【0095】
チャネルを合算する上述のステップは、ヘッドセットCAによる加工の前に、ステレオ加工器431により生成された左チャネルをバイノーラル化処理モジュール420により生成されたバイノーラル信号の左チャネルと合算し、ステレオ加工器431により生成された右チャネルをバイノーラル化処理モジュール420から生じたバイノーラル信号の右チャネルに合算する直接混合モジュール440により実行される。
【0096】
従って、モノラル信号はバイノーラル化処理モジュール420を経由せずに、バイノーラル信号と直接混合される前にステレオ加工器431へ直接送信される。
【0097】
従って上述の信号もまた頭部追跡処理を受けない。加工された音声は従って聴取者の片方の耳に関する加工位置にあり、たとえ聴取者が頭部を動かしたとしてもこの位置に留まる。
【0098】
本実施形態において、ステレオ加工器431は、オブジェクト加工器403に組み込まれていてよい。この場合、このオブジェクト加工器は、パラメータ復号モジュール404から加工空間位置情報(Pos.)を受信したとき、図1を参照して記述したような従来のオブジェクト型信号の適合、及び上述のような加工器431の2個の加工チャネルの構築の両方を実行する。次いで2個の加工チャネル(2Vo.)だけが音声ヘッドセットCAによる加工の前に直接混合モジュール440へ転送される。
【0099】
一変型実施形態において、ステレオ加工器431は直接混合モジュール440に組み込まれている。この場合、ルーティングモジュール430は、(非バイノーラル化指示及び加工空間位置情報が検出されている)復号されたモノラル信号(Mo.)を直接混合モジュール440に誘導する。更に、復号された加工空間位置情報(Pos.)はまた、パラメータ復号モジュール404により直接混合モジュール440に送信される。従ってこの直接混合モジュールはステレオ加工器を含んでいるため、加工空間位置情報を考慮に入れた2個の加工チャネルの構築、及びこれら2個の加工チャネルと、バイノーラル化処理モジュール420により生成されたバイノーラル信号の加工チャネルとの混合を実行する。
【0100】
ここで、図5に、本発明による処理方法を実装可能な処理装置のハードウェア実施形態の一例を示す。
【0101】
装置DISは、例えばメモリMEM等の記憶空間530と、メモリ530に保存されたコンピュータプログラムPgにより制御されるプロセッサPROCを含み、且つ本発明による処理方法を実行する処理ユニット520とを含んでいる。
【0102】
コンピュータプログラムPgは、本発明による処理方法のステップを実行するコード命令を含み、これらの命令がプロセッサPROCにより実行され、特に、モノラル信号を表すデータストリーム内で、加工空間位置情報に関連付けられた非バイノーラル化処理の指示を検出すると、復号されたモノラル信号を、位置情報を考慮に入れて、音声ヘッドセットによる加工を目的としてこれら2個のチャネルをバイノーラル化処理から生じたバイノーラル信号と合算する直接混合ステップにより直接処理される2個の加工チャネルを構築するステレオ加工器に誘導するステップを実行する。
【0103】
典型的に、図2の記述はこのようなコンピュータプログラムのアルゴリズムのステップに適用できる。
【0104】
初期化に際して、プログラムPgのコード命令は、処理ユニット520のプロセッサPROCにより実行される前に、例えばRAM(図示せず)にロードされる。プログラム命令は、フラッシュメモリ、ハードディスク又は他の任意の非一時的記憶媒体等の記憶媒体に保存されていてよい。
【0105】
装置DISは、特にモノラル信号を表すデータストリームSMoを受信可能な受信モジュール510を含んでいる。装置DISは、このデータストリーム内で、加工空間位置情報に関連付けられた非バイノーラル化処理の指示を検出可能な検出モジュール540を含んでいる。装置DISは、検出モジュール540による検出が成功した場合、復号されたモノラル信号をステレオ加工器560に誘導するモジュール550を含み、ステレオ加工器560は位置情報を考慮に入れて2個の加工チャネルを構築することができる。
【0106】
装置DISはまた、2個の加工チャネルを、バイノーラル化処理モジュールにより生成されたバイノーラル信号の2個のチャネルと合算することにより、直接処理可能な直接混合モジュール570を含んでいる。このように得られた加工チャネルは、加工されるべく、出力モジュール560を介して音声ヘッドセットCAに送信される。
【0107】
これら各種モジュールの実施形態は、図3、4を参照して記述された通りである。
【0108】
モジュールという用語は、ソフトウェア要素又はハードウェア要素或いはハードウェア要素とソフトウェア要素の組み合わせに対応していてよく、1個のソフトウェア要素が1個以上のコンピュータプログラム又はサブルーチン或いはより一般的に注目するモジュールについて述べたような機能又は機能の組を実装可能なプログラムの任意の要素に対応していてよい。同様に、1個のハードウェア要素が、注目するモジュールの機能又は機能の組を実装可能なハードウェアアセンブリの任意の要素(集積回路、チップカード、メモリカード等)に対応している。
【0109】
本装置は、図3、4に示すような音声デコーダに組み込まれていてよく、例えばセットトップボックス又は音声或いはビデオコンテンツのリーダー等のマルチメディア装置に組み込まれていてよい。これらはまた、携帯電話又は通信ゲートウェイ等の通信装置に組み込まれていてよい。
【符号の説明】
【0110】
101 復号モジュール
102 チャネル加工器
103 オブジェクト加工器
105 加工器
110 混合モジュール
120 モジュール
302 チャネル加工器
310 混合ブロック
320 バイノーラル化処理モジュール
331 ステレオ加工器
340 直接混合モジュール
403 オブジェクト加工器
404 メタデータを復号するブロック
410 混合ブロック
420 バイノーラル化処理モジュール
430 ルーティングモジュール
431 ステレオ加工器
440 直接混合モジュール
510 受信モジュール
520 処理ユニット
530 メモリ
540 検出モジュール
550 誘導するモジュール
560 ステレオ加工器
570 直接混合モジュール
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2023-06-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するステップを含む、3D音声デコーダ内での音声モノラル信号を処理する方法であって、
前記音声モノラル信号を表すデータストリーム内で、前記音声ヘッドセットの単一のチャネルを示すバイナリデータである加工空間位置情報が関連付けられた非バイノーラル化処理の指示を検出すると(E200)、前記音声モノラル信号が、前記加工空間位置情報を考慮に入れて2個の加工チャネルを構築する(E220)ステレオ加工器及び/又は混合モジュールに誘導され(O-E200)、前記2個の加工チャネルが、前記音声ヘッドセットによる加工(E240)を目的として、前記2個の加工チャネルをバイノーラル化処理から生じたバイノーラル信号と合算する直接混合ステップ(E230)で直接処理される方法
【請求項2】
記バイナリデータで示すチャネルに対応する加工チャネルだけが、前記直接混合ステップにおける前記バイノーラル信号の対応するチャネルと合算され、他の加工チャネルの値はヌルである、請求項に記載の方法。
【請求項3】
前記音声モノラル信号が、前記加工空間位置情報と共に、前記ステレオ加工器及び/又は前記混合モジュールに誘導されるチャネル型信号である、請求項1に記載の方法
【請求項4】
音声モノラル信号が、前記非バイノーラル化処理の指示及び前記加工空間位置情報を含む加工パラメータの組に関連付けられたオブジェクト型信号であり、前記信号が前記加工空間位置情報と共に前記ステレオ加工器及び/又は混合モジュールに誘導されている、請求項1に記載の方法
【請求項5】
声ヘッドセットによる空間的加工を意図して復号された信号に対してバイノーラル化処理を実行するモジュールを含む、音声モノラル信号の処理装置であって、
-前記音声モノラル信号を表すデータストリーム内で、前記音声ヘッドセットの単一のチャネルを示すバイナリデータである加工空間位置情報に関連付けられた非バイノーラル化処理の指示を検出可能な検出モジュール(330;430)と、
-前記検出モジュールによる検出が成功した場合に、前記音声モノラル信号をステレオ加工器及び/又は混合モジュールに誘導可能な転送モジュール(330,430)と、
前記加工空間位置情報を考慮に入れて2個の加工チャネルを構築可能なステレオ加工器(331;431)及び/又は混合モジュール(340;440)と、
-2個の加工チャネルを、前記音声ヘッドセットによる加工を目的として、バイノーラル化処理(320;420)を実行するモジュールにより生成されたバイノーラル信号と合算することにより、直接処理可能な混合モジュール(340;440)とを含む装置。
【請求項6】
前記ステレオ加工器が前記混合モジュールに組み込まれている、請求項に記載の装置。
【請求項7】
前記音声モノラル信号がチャネル型信号であり、前記ステレオ加工器が、マルチチャネル信号用の加工チャネルを更に構築するチャネル加工器に組み込まれている、請求項に記載の装置。
【請求項8】
前記音声モノラル信号がオブジェクト型信号であり、前記ステレオ加工器が、加工パラメータの組に関連付けられた音声モノラル信号用の加工チャネルを更に構築するオブジェクト加工器に組み込まれている、請求項に記載の装置。
【請求項9】
請求項のいずれか1項に記載の処理装置を含む音声デコーダ。
【請求項10】
プロセッサにより実行されたとき、請求項1~のいずれか1項に記載の処理方法のステップを実行するコード命令を含むコンピュータプログラム。
【請求項11】
請求項1~のいずれか1項に記載の処理方法を実行する命令を含むコンピュータプログラムを保存するプロセッサ可読記憶媒体。
【外国語明細書】