IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2025-156905音声処理装置ならびにそのプログラム
<>
  • 特開-音声処理装置ならびにそのプログラム 図1
  • 特開-音声処理装置ならびにそのプログラム 図2
  • 特開-音声処理装置ならびにそのプログラム 図3
  • 特開-音声処理装置ならびにそのプログラム 図4
  • 特開-音声処理装置ならびにそのプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025156905
(43)【公開日】2025-10-15
(54)【発明の名称】音声処理装置ならびにそのプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20251007BHJP
   H04R 25/00 20060101ALI20251007BHJP
【FI】
H04S7/00 310
H04R25/00 Z
H04R25/00 H
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2024059651
(22)【出願日】2024-04-02
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】杉本 岳大
(72)【発明者】
【氏名】小倉 知美
(72)【発明者】
【氏名】岩崎 泰士
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162CA11
5D162CD30
5D162EG03
(57)【要約】
【課題】レンダリングによる再生音を、聴覚支援機器を使用するユーザに対し聞き取りやすく提供する。
【解決手段】聴覚支援特性設定部は聴覚支援に関する聴覚支援関連情報に基づいて聴覚支援機器の音響特性である聴覚支援特性を設定し、聴覚支援特性適用部は音声信号に聴覚支援特性を適用し、レンダリング部は音声オブジェクトごとに目標位置と聴取位置および聴取方向に応じて聴覚支援特性を適用した音声信号の音響特性を調整する。本実施形態は、音声処理装置、プログラムなど、いずれの形態でも実施することができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
聴覚支援に関する聴覚支援関連情報に基づいて聴覚支援機器の音響特性である聴覚支援特性を設定する聴覚支援特性設定部と、
音声信号に前記聴覚支援特性を適用する聴覚支援特性適用部と、
音声オブジェクトごとに、目標位置と聴取位置および聴取方向に応じて、前記聴覚支援特性を適用した音声信号の音響特性を調整するレンダリング部と、を備える
音声処理装置。
【請求項2】
前記聴覚支援特性設定部は、前記聴覚支援機器の集音機能の指向性と、前記聴取位置を基準とする前記目標位置の方向に基づいて前記聴覚支援機器の感度を定め、
前記感度を含めて前記聴覚支援特性を設定する
請求項1に記載の音声処理装置。
【請求項3】
前記聴覚支援特性設定部には、前記聴覚支援機器の機種ごとに集音機能の指向性が設定され、
前記聴覚支援関連情報で指示される機種の指向性を特定する
請求項2に記載の音声処理装置。
【請求項4】
前記聴覚支援特性設定部は、前記聴覚支援関連情報に含まれる聴覚支援要否情報に基づいて前記聴覚支援特性の設定の要否を判定する
請求項1に記載の音声処理装置。
【請求項5】
前記レンダリング部は、
前記聴取位置を基準とする前記目標位置の方向である目標方向が背面方向よりも正面方向に近い音声オブジェクトである前方オブジェクトよりも、前記目標方向が正面方向よりも背面方向に近い音声オブジェクトである後方オブジェクトに対して小さい利得を設定する
請求項1に記載の音声処理装置。
【請求項6】
前記レンダリング部は、
他の音声オブジェクトよりも優先して提供する音声オブジェクトに対しては、前記目標方向が正面方向よりも背面方向に近い場合、前記前方オブジェクトよりも小さい利得を設定しない
請求項5に記載の音声処理装置。
【請求項7】
コンピュータに
請求項1に記載の音声処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、音声処理装置ならびにそのプログラムに関する。本願は、例えば、聴取者により聴取位置を設定可能とする6DoF(Degrees of Freedom)アプリケーションにおいて、聴覚支援機器の音響特性を付加するための技術に関する。
【背景技術】
【0002】
近年、音声信号と音響メタデータ(非特許文献1、2、参照)を用いて音響コンテンツを操作できるオブジェクトベース音響システム(非特許文献3-5、参照)を拡張し、6DoFアプリケーションに対応したオーディオ技術(非特許文献6、7、参照)が開発されている。6DoFとは、三次元空間における6方向のオブジェクトの動きの自由度を意味する。6DoFアプリケーションの特徴は、聴取者が任意の位置、向きを聴取位置、聴取方向として設定し、設定した聴取位置から聴取方向に向いた状態で視聴されるコンテンツが模擬される点である。即ち、設定された受聴位置または受聴方向に応じたレンダリングにより再生音が変化する点で従来のオーディオシステムと異なる。
【0003】
6DoFアプリケーションは、主に電子ゲームに用いられることが多かったが、職業体験、バーチャル旅行など、用途が拡大している。従って、健常者の利用だけを想定したシステム設計では多様なニーズに応え切れなくなることが予想される。例えば、聴覚支援を必要とするユーザが6DoFアプリケーションを使用する際、その再生音が聴覚支援機器に適合されることが期待される。これは、指向性集音機能を有する補聴器(非特許文献8参照)を用いるユーザは指向性をもって集音された音空間を知覚しているのに対し、指向性集音機能を用いない健常者は全指向的な音空間を知覚しているためである。聴覚支援機器に備わる指向性集音機能は、ユーザの正面方向に到来する音を選択的に集音して、聞き取りやすさを実現している。この集音特性は、一般的な人間の行動特性として関心を有する対象物が存在する方向に頭部を向けることに基づく。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ITU-R BS.2076-1, Audio Definition Model, June 2017
【非特許文献2】ITU-R BS.2125-0, A serial representation of the Audio Definition Model, January 2019
【非特許文献3】ISO/IEC 23008-3:2019, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3 3D audio, 2019
【非特許文献4】ETSI TS 103 190-2, Digital Audio Compression (AC-4) Standard; Part2: immersive and personalized audio, V1.2.1,2018-02
【非特許文献5】ATSC Standard: A/342:2021 Part 3, MPEG-H System, 11 March 2021
【非特許文献6】MPEG-I Immersive Audio Encoder Input Format, Version 5, April 4, 2023
【非特許文献7】Report ITU-R BT.2420-5 (09/2022), Collection of usage scenarios of advanced immersive sensory media systems (09/2022)
【非特許文献8】テオドア・H・べネマ著、中川辰雄訳, 臨床家のためのデジタル補聴器入門, 海文堂出版株式会社, 2008年9月
【発明の概要】
【発明が解決しようとする課題】
【0005】
6DoFアプリケーションでは、バイノーラル再生方式を用いて2チャンネルの音声が提供されることが多い。バイノーラル再生方式は、特定の方向に音が聞こえるように音声オブジェクトの音声信号を処理する手法である。あるコンテンツを構成する素材をなす音声オブジェクトの数は、必ずしも1個に限られず、複数個になることが通例である。しかしながら、バイノーラル再生方式では、音声オブジェクトの数に関わらず、個々の音声オブジェクトの成分が2チャンネル分の音声信号に集約されるにも関わらず、指向性集音機能などの聴覚支援機器の音響特性の影響が考慮されていなかった。
【0006】
本願の実施形態は上記の課題を解決するためになされたものであり、レンダリングによる再生音を、聴覚支援機器を使用するユーザに対して聞き取りやすくすることを1つの課題とする。
【課題を解決するための手段】
【0007】
[1]本実施形態の一態様は、聴覚支援に関する聴覚支援関連情報に基づいて聴覚支援機器の音響特性である聴覚支援特性を設定する聴覚支援特性設定部と、音声信号に前記聴覚支援特性を適用する聴覚支援特性適用部と、音声オブジェクトごとに、目標位置と聴取位置および聴取方向に応じて、前記聴覚支援特性を適用した音声信号の音響特性を調整するレンダリング部と、を備える音声処理装置である。
[1]の構成によれば、聴覚支援機器の音響特性である聴覚支援特性を適用した音声信号に対して、音声オブジェクトごとの目標位置とユーザの聴取位置および聴取方向に応じて音響特性が調整される。聴覚支援機器による音響特性への影響を含めることで、聴覚支援機器の使用時と同等の聞き取りやすさをもたらす再生音が実現される。
【0008】
[2]本実施形態の一態様は、上述の音声処理装置であって、前記聴覚支援特性設定部は、前記聴覚支援機器の集音機能の指向性と、前記聴取位置を基準とする前記目標位置の方向に基づいて前記聴覚支援機器の感度を定め、前記感度を含めて前記聴覚支援特性を設定してもよい。
[2]の構成によれば、音声オブジェクトの目標位置に応じた聴覚支援機器の集音機能の指向性の影響が再生音に反映される。そのため、聴覚支援機器の集音機能の使用時と同等の聞き取りやすさをもたらす再生音が得られる。
【0009】
[3]本実施形態の一態様は、上述の音声処理装置であって、前記聴覚支援特性設定部には、前記聴覚支援機器の機種ごとに集音機能の指向性が設定され、前記聴覚支援関連情報で指示される機種の指向性を特定してもよい。
一般に集音機能の指向性の影響は聴覚支援機器の機種により異なりうるが、この構成によれば特定した機器の指向性が再生音に反映される。そのため、特定した機種の聴覚支援機器の集音機能の使用時と同等の聞き取りやすさをもたらす再生音が得られる。
【0010】
[4]本実施形態の一態様は、上述の音声処理装置であって、前記聴覚支援特性設定部は、前記聴覚支援関連情報に含まれる聴覚支援要否情報に基づいて前記聴覚支援特性の設定の要否を判定してもよい。
[4]の構成によれば、この構成によれば、聴覚支援の要否により聴覚支援機器による音響特性への影響を含めるか否かが定まる。そのため、聴覚支援の要否に応じて、聴覚支援機器の集音機能の使用時と同等の再生音を提供するか否かが容易に変更される。
【0011】
[5]本実施形態の一態様は、上述の音声処理装置であって、前記レンダリング部は、前記聴取位置を基準とする前記目標位置の方向である目標方向が背面方向よりも正面方向に近い音声オブジェクトである前方オブジェクトよりも、前記目標方向が正面方向よりも背面方向に近い音声オブジェクトである後方オブジェクトに対して小さい利得を設定してもよい。
[5]の構成によれば、再生音における前方オブジェクトの成分のレベルが、後方オブジェクトの成分のレベルよりも相対的に高くなる。そのため、再生音のうち前方オブジェクトの音が、後方オブジェクトの音よりも明瞭に受聴される。
【0012】
[6]本実施形態の一態様は、上述の音声処理装置であって、前記レンダリング部は、他の音声オブジェクトよりも優先して提供する音声オブジェクトに対しては、前記目標方向が正面方向よりも背面方向に近い場合、前記前方オブジェクトよりも小さい利得を設定しなくてもよい。
[6]の構成によれば、優先して提供する音声オブジェクトの目標方向が後方に近い場合であっても、当該音声オブジェクトに対して前方オブジェクトよりも小さい利得は設定されない。再生音における当該音声オブジェクトの成分のレベルが、前方オブジェクトの成分のレベルよりも相対的に低くならずに維持される。そのため、当該オブジェクトの音が明瞭性を失わずに受聴される。
【0013】
[7]本実施形態の一態様は、コンピュータに、上述の音声処理装置として機能させるためのプログラムであってもよい。
[7]の構成によれば、聴覚支援機器の音響特性である聴覚支援特性を適用した音声信号に対して、音声オブジェクトごとの目標位置と聴取位置および聴取方向に応じて音響特性が調整される。聴覚支援機器による音響特性への影響を含めることで、聴覚支援機器の使用時と同等の聞き取りやすさをもたらす再生音が実現される。
【発明の効果】
【0014】
本実施形態によれば、レンダリングによる再生音を、聴覚支援機器を使用するユーザに対して聞き取りやすく提供することができる。
【図面の簡単な説明】
【0015】
図1】本実施形態に係る音声処理システムの概要を例示する概略ブロック図である。
図2】本実施形態に係る音声処理装置の機能構成例を示す概略ブロック図である。
図3】本実施形態に係る重み付け係数算出部の機能構成例を示す概略ブロック図である。
図4】6DoFコンテンツ空間を例示する模式図である。
図5】本実施形態に係る音声処理の例を示すフローチャートである。
【発明を実施するための形態】
【0016】
まず、図面を参照しながら本願の実施形態の概要について説明する。図1は、本実施形態に係る音声処理システムS1の概要を例示する概略ブロック図である。音声処理システムS1は、音声処理装置10と、再生デバイス20と、を備える。音声処理システムS1は、オブジェクトベース音響システムの一例である。以下の説明では、音声処理システムS1は、3次元の6DoFコンテンツ空間において6DoF音声コンテンツを再生可能とする場合を例示する。
【0017】
音声処理装置10は、コンテンツ空間において音声オブジェクトから発されユーザに聴取される音を模擬するオーディオレンダリング装置として機能する。音声オブジェクトからユーザへの音波の伝達特性は、コンテンツ空間における音声オブジェクトの目標位置とユーザの聴取位置により定まる。音声オブジェクトの目標位置は、音声オブジェクト位置情報により指示される。ユーザの聴取位置および聴取方向は、ユーザ位置情報により指示される。
音声処理装置10は、目標位置と聴取位置および聴取方向に応じて、音声オブジェクトの音声信号の音響特性を再生デバイス20の機能に応じて調整し、当該音声オブジェクトの再生信号に変換する。
【0018】
本実施形態に係る音声処理装置10は、さらに聴覚支援関連情報を設定する。聴覚支援関連情報は、聴覚支援の要否に関する情報が含まれうる。音声処理装置10は、聴覚支援を要する場合、聴覚支援機器の音響特性(本願では、「聴覚支援特性」と呼ぶことがある)を音声信号に適用した後でレンダリングを行う。レンダリングにおいて、音声オブジェクトの目標方向とユーザの聴取位置および聴取方向に応じて音声信号の音響特性が調整される。聴覚支援機器として、補聴器が代表的である。聴覚支援機器は、聴覚支援を主目的とせず他の機能を主とする電子機器、例えば、多機能携帯電話機(いわゆるスマートフォン)、音声案内装置、受話器、集音器などであってもよい。
【0019】
音声処理装置10は、聴覚支援を要しない場合、聴覚支援特性を設定せずに音声オブジェクトの音声信号に対してレンダリングを行って音響特性を調整する。
音声処理装置10は、聴覚支援特性の設定の要否に関わらず、音声オブジェクトごとに音響特性が調整された音声信号を成分として含む再生信号を再生デバイス20に出力する。
【0020】
再生デバイス20は、音声処理装置10から入力される再生信号に基づいて音を再生する。再生デバイス20は、2個の再生音源を有し、個々の再生音源をユーザの各耳に接触または近接して装着もしくは装用される音響機器である。再生デバイス20は、2チャンネルヘッドホン、2チャンネルイヤホン、ウェアラブルスピーカ、ネックスピーカ、骨伝導レシーバなどのいずれであってもよい。
【0021】
ユーザが聴覚支援を要する場合、音声オブジェクトの目標位置と聴取位置および聴取方向に応じた音響特性の他、聴覚支援特性が再生信号の音響特性に含まれる。そのため、ユーザが注目した音声オブジェクトの音が、聴覚支援装置の利用により提示されるものと同様な音響特性を有する音として提示される。ユーザには聴覚支援機器により慣れ親しんだ特性を有する音が再生デバイス20から提示されるので、その音声オブジェクトの音を聞き取りやすく、没入感を向上させることができる。
ユーザが聴覚支援を要しない場合には、音声処理装置10は、聴覚支援特性を含めずに、目標位置と聴取位置および聴取方向に応じた音響特性を有する音が再生デバイス20から提示される。
【0022】
なお、音声コンテンツにおいて提供される音声オブジェクトの個数は、1個であることも、2個以上となることもある。音声処理装置10は、2個以上の音声オブジェクトのそれぞれについて目標位置を可変にしてもよいし、一部の音声オブジェクトについて目標位置を可変とし、その他の音声オブジェクトの目標位置を予め設定した位置に固定してもよい。音声処理装置10は、目標位置を可変とする音声オブジェクトに対しては、ユーザの正面方向を聴取方向として可変としてもよい。音声処理装置10において音声オブジェクト位置情報を可変に設定可能とする音声オブジェクトは、必須音声オブジェクトに限定され、その他の音声オブジェクトに対しては音声オブジェクト位置情報の変更が許容されなくてもよい。必須音声オブジェクトは、他の音声オブジェクトよりも優先して音を再生する音声オブジェクトである。必須音声オブジェクトは、優先音声オブジェクトとも呼ばれる。必須音声オブジェクトとして、例えば、映画、ドラマなどの出演者のセリフの音声、スポーツ中継やニュース番組における解説音声、などに適用されることがある。必須音声オブジェクトは、音声コンテンツのメタデータに含まれる必須フラグを用いて識別される。
【0023】
次に、本実施形態に係る音声処理装置10への入力情報について説明する。図2に例示されるように、音声処理装置10には、ユーザ位置情報、聴覚支援関連情報、音声オブジェクト位置情報および音声信号が入力される。
【0024】
ユーザ位置情報は、コンテンツ空間におけるユーザの位置を示す情報である。ユーザ位置情報には、ユーザの向きを示す情報が含まれうる。ユーザの向きは、例えば、ユーザ頭部の正面方向で代表される。本願では、ユーザの位置を「聴取位置」と呼び、ユーザの向きを「聴取方向」と呼ぶことがある。ユーザ位置情報として、現実の位置情報が取得されてもよいし、仮想的な位置情報が取得されてもよい。現実の位置情報と仮想的な位置情報のいずれを採用するかは、音声コンテンツにより指定されてもよい。音声処理装置10は、例えば、ヘッドマウンテッドディスプレイ(HMD:Head Mounted Display)、ヒューマントラッカ、など位置センサを備える入力デバイスから、その検出対象とするユーザの現実のユーザ位置情報を取得することができる。音声処理装置10は、例えば、マウス、タッチセンサ、ジョイスティック、など、受け付けた操作に応じて位置を指示可能とする入力デバイスから、指示された位置または向きを示す仮想的なユーザ位置情報を取得してもよい。
【0025】
聴覚支援関連情報は、ユーザに対する聴覚支援の要否を示す情報(本願では、「聴覚支援要否情報」と呼ぶことがある)を含む。聴覚支援関連情報は、例えば、入力デバイスから取得される。聴覚支援機器装用情報は、ユーザにおける聴覚支援機器の装用の有無を示す。聴覚支援機器の装用の有無を示す情報は、聴覚支援要否情報の一形態とみなすこともできる。聴覚支援機器の装用の有無を示す情報は、装用フラグを用いて表わされてもよい。装用フラグは、聴覚支援機器の装用の有無を示す1ビットの値で表現されてもよい。例えば、装用フラグの値が1とは、聴覚支援機器の装用ありを示し、装用フラグの値が0とは、聴覚支援機器の装用なしを示す。
【0026】
聴覚支援関連情報には、ユーザが装用する聴覚支援機器に関する聴覚支援機器情報が含まれてもよい。聴覚支援機器の情報には、聴覚支援機器の機種を示す機種情報が含まれてもよい。機種情報は、例えば、聴覚支援機器の型番で表されてもよい。機種情報は、個々の機器を識別するための識別情報(例えば、シリアル番号)に含めて表現されることもある。音声処理装置10の重み付け係数算出部110(後述)は、入力デバイスと有線または無線で接続を検出するか否かにより、聴覚支援機器の装用の有無を示す聴覚支援機器装用情報を設定してもよい。重み付け係数算出部110は、聴覚支援機器との接続処理中、または、接続の確立後に接続先の聴覚支援機器から聴覚支援機器情報を受信してもよい。
【0027】
機種情報は、集音機能情報を含んでもよいし、集音機能情報を含まないが重み付け係数算出部110において関連付けて予め設定されてもよい。重み付け係数算出部110は、取得した機種情報に対応する集音機能情報を特定することができる。集音機能情報は、聴覚支援機器の集音機能の特性を示す情報である。集音機能情報には、例えば、指向性情報が含まれる。指向性情報は、集音器を基準とする音源方向ごとの感度で表現されてもよいし、典型的な指向性の区別、例えば、全指向性、両指向性、単一指向性、などが表現されてもよい。指向性の区別は、値で表現されてもよい。両指向性、単一指向性など、特定の方向への感度が他の方向への感度よりも高い指向性に対しては、その主軸方向の情報が含まれる。
【0028】
聴覚支援関連情報には、聴覚支援特性を取得するための手続選択に関する聴覚支援特性取得手続情報が含まれてもよい。聴覚支援特性取得手続情報は、例えば、手続選択フラグを用いて表現される。手続選択フラグは、聴覚支援特性を取得するための手続、即ち、処理方法として、例えば、重み付け係数表と重み付け係数アルゴリズムのいずれを用いるかを示す1ビットの値で表現されてもよい。例えば、手続選択フラグの値が1とは、重み付け係数アルゴリズムを示し、手続選択フラグの値が0とは、重み付け係数表を示す。
聴覚支援特性は、複数の周波数帯域のそれぞれに対する重み係数を用いて表現される。複数の周波数帯域は、人間の発話音声の主成分をなす周波数帯域(典型的には、100Hz~4kHz)を含む可聴帯域を網羅する。複数の周波数帯域は、例えば、低域(典型的には250Hz以下)、中域(250Hzより高く2.5kHzより低い、高域(2.5kHz以上)に区分された3つの周波数帯域でもよいし、1/3オクターブ帯域など、対数領域で等幅に区分された周波数帯域でもよい。重み係数は、集音された音声信号の周波数帯域ごとの成分の振幅に対する利得に相当する。
【0029】
音声オブジェクト位置情報は、コンテンツ空間における音声オブジェクトの位置を示す情報である。音声オブジェクト位置情報は、音声コンテンツにおいて音声オブジェクトの音声信号と対応付けて提供されてもよいし、音声処理装置10において独自に取得されてもよい。音声コンテンツには、必須音声オブジェクトが指示されることがある。必須音声オブジェクトは、例えば、必須フラグを用いて指示される。必須フラグは、音声コンテンツに含まれるメタデータの一部として提供されうる。必須音声オブジェクトに対して、音声処理装置10は、音声オブジェクト位置情報を独自に取得し、音声コンテンツに含まれる他の音声オブジェクトに対して、音声オブジェクト位置情報を取得しなくてもよい。音声処理装置10は、例えば、受け付けた操作に応じて位置を指示可能とする入力デバイスから、指示された位置を示す音声オブジェクト位置情報を取得する。
【0030】
音声信号は、音声オブジェクトから発される音声の波形を示す信号である。音声信号は、音声オブジェクトごとに音声コンテンツに含めて提供される。音声コンテンツは、音声オブジェクトごとの音声信号とメタデータを含んで構成される。メタデータには、上記の音声オブジェクト位置情報と必須フラグの一方または両方が含まれることもあるし、含まれないこともある。
【0031】
次に、音声処理装置10の機能構成例について説明する。図2は、本実施形態に係る音声処理装置10の機能構成例を示す概略ブロック図である。但し、図2は、ユーザが装用する聴覚支援機器の聴覚支援特性が、その通過帯域ごとの重み付け係数を用いて表される場合を例にする。聴覚支援特性は、集音信号に対する周波数特性の調整量に相当する。
音声処理装置10は、重み付け係数算出部110と、重み付け係数適用部120と、バイノーラルレンダリング部130と、を備える。
【0032】
重み付け係数算出部110は、コンテンツ空間において、ユーザ位置情報に示されるユーザ位置を基準とし、音声オブジェクト位置情報に示される音声オブジェクト位置の方向を音声オブジェクト方向として算出する。重み付け係数算出部110は、音声オブジェクト方向として、ユーザ位置情報で示される聴取方向を基準とし、ユーザ位置から音声オブジェクト位置への方向を、音声オブジェクトごとに算出する。
【0033】
重み付け係数算出部110は、聴覚支援関連情報をなす装用フラグを取得し、装用フラグに基づいて聴覚支援機器の装用の有無を判定する。重み付け係数算出部110は、聴覚支援機器の装用ありと判定するとき、聴覚支援関連情報をなす聴覚支援機器の機種情報を取得する。重み付け係数算出部110は、取得した機種情報に対応する集音機能情報を特定し、特定した集音機能情報に示される聴覚支援機器の集音機能の指向性を特定する。重み付け係数算出部110は、特定した指向性ならびに音声オブジェクト方向に基づいて、集音機能情報を参照し、聴覚支援関連情報に含まれる聴覚支援特性取得手続情報で指示される聴覚支援特性の取得方式に従って聴覚支援特性を表す重み付け係数を算出する。重み付け係数算出部110は、音声オブジェクトごとに算出した重み付け係数を重み付け係数適用部120に出力する。
【0034】
なお、重み付け係数算出部110に聴覚支援関連情報が入力されない場合、または、聴覚支援関連情報が入力されても、装用フラグが聴覚支援機器の装用なしを示す場合には、重み付け係数算出部110は、重み付け係数を算出しない。その場合には、重み付け係数は重み付け係数算出部110から出力されないので、重み付け係数適用部120は、音声オブジェクトごとに入力される音声信号をそのままオブジェクト別音声信号としてバイノーラルレンダリング部130に出力する。
【0035】
重み付け係数適用部120は、音声オブジェクトごとに重み付け係数算出部から入力される重み付け係数を音声信号に適用する。重み付け係数を適用することで聴覚支援機器の周波数特性が音声信号に付加され、周波数特性が調整された音声信号が得られる。重み付け係数適用部120は、入力される音声信号に異なる通過帯域をもってフィルタリング処理を行い、周波数帯域が異なる通過信号に変換する。重み付け係数適用部120は、周波数帯域ごとに通過信号の振幅に、その周波数帯域に対応する重み付け係数を乗算して、振幅調整後の通過信号を生成する。重み付け係数適用部120は、周波数帯域間で振幅調整後の通過信号を加算して得られる重み付け係数適用後の音声信号をオブジェクト別音声信号として音声オブジェクトごとにバイノーラルレンダリング部130に出力する。
【0036】
バイノーラルレンダリング部130は、重み付け係数適用部120から入力されるオブジェクト別音声信号に対して、音声オブジェクト位置情報とユーザ位置情報に基づいて音声オブジェクトごとにユーザの左右両耳に到来する音声波形を示す音声信号であるオブジェクト別バイノーラル信号に変換する。ここで、バイノーラルレンダリング部130に入力されるオブジェクト別音声信号には、音声オブジェクトで示される目標位置とユーザ位置情報で示される聴取位置に所在するユーザの左右各耳への音波の伝達特性を示す頭部伝達関数が適用され、左右各耳に対応するチャンネル(本願では、「左チャンネル」または「右チャンネル」と呼ぶことがある)ごとに、音声オブジェクトとチャンネルからなるセット別の音声信号(本願では、「オブジェクト別チャンネル信号」と呼ぶことがある)が得られる。オブジェクト別バイノーラル信号は、左右各チャンネルのオブジェクト別チャンネル信号を含んで構成される。
【0037】
バイノーラルレンダリング部130は、左チャンネル、右チャンネルのそれぞれについて、音声オブジェクトごとにオブジェクト別チャンネル信号の信号値に予め定めた利得を乗算して、オブジェクト別チャンネル信号の振幅を調整する。
バイノーラルレンダリング部130は、左チャンネル、右チャンネルのそれぞれについて振幅調整後のオブジェクト別チャンネル信号を音声オブジェクト間で加算(即ち、ミキシング)することにより左右2チャンネルのバイノーラル信号を生成する。バイノーラルレンダリング部130は、生成したバイノーラル信号を再生信号として再生デバイス20に出力する。
【0038】
バイノーラルレンダリング部130は、例えば、次の手法を用いて音声オブジェクトごとに目標位置と聴取位置および聴取方向に対応する頭部伝達関数を導出することができる。バイノーラルレンダリング部130には、予め音声オブジェクト方向ごとに左右各耳に対応する頭部伝達関数を示す頭部伝達関数データを設定しておく。バイノーラルレンダリング部130は、聴取方向(即ち、ユーザの正面方向)を基準とする聴取位置から目標位置への方向を音声オブジェクト方向として特定し、予め設定された頭部伝達関数データを参照し、特定した音声オブジェクト方向に対応する頭部伝達関数を定める。聴取方向は、ユーザ位置情報で指示される。また、バイノーラルレンダリング部130には、音源距離と音量の減衰率との関係を示す音量モデルを予め設定しておく。音量モデルとして、例えば、コンテンツ空間において点音源と近似できる音声オブジェクトに対しては逆二乗則が用いられる。線音源と近似できる音声オブジェクトに対しては反比例則が用いられる。バイノーラルレンダリング部130は、聴取位置から目標位置までの距離を音源距離として特定し、音声オブジェクトごとに予め設定された音量モデルを用い、特定した音源距離に対応する減衰率を算出する。そして、バイノーラルレンダリング部130は、左右各耳について音声オブジェクト方向に対応する頭部伝達関数に算出した減衰率を乗じて目標位置と聴取位置および聴取方向に対応する頭部伝達関数を算出する。
【0039】
なお、バイノーラルレンダリング部130は、上記頭部伝達関数の適用に先んじて、各音声オブジェクトをコンテンツ空間の仮想スピーカ群(例えば、22.2ch音響、11.2ch音響、5.1ch音響、等)にレンダリングした後、仮想スピーカ個々の方向に基づいた頭部伝達関数を適用してもよい。即ち、バイノーラルレンダリング部130には、複数の仮想スピーカを備える音響再生系において、所定の聴取方向を基準とする所定の聴取位置から個々の仮想スピーカが配置された位置への方向(以下、「仮想スピーカ方向」と呼ぶ)に対応する頭部伝達関数を予め左右各耳について設定しておく。そして、バイノーラルレンダリング部130は、個々の音声オブジェクトに対して特定した音声オブジェクト方向について、例えば、予め設定した複数の仮想スピーカ方向のうち最も近似する仮想スピーカ方向に対応する頭部伝達関数を左右各耳に対して特定する。または、バイノーラルレンダリング部130は、個々の音声オブジェクトに対して特定した音声オブジェクト方向を挟んで隣接する2個以上の仮想スピーカ方向を特定し、特定した仮想スピーカ方向ごとに対応する頭部伝達関数を補間して、音声オブジェクト方向に対応する頭部伝達関数を算出してもよい。頭部伝達関数の補間において、例えば、sin則、tan則などのパンニング則が適用されてもよい。
【0040】
(重み付け係数算出部)
次に、本実施形態に係る重み付け係数算出部110の機能構成例について説明する。図3は、本実施形態に係る重み付け係数算出部110の機能構成例を示す概略ブロック図である。重み付け係数算出部110は、音声オブジェクト方向算出部112と重み付け係数決定部114とを備える。また、重み付け係数算出部110には、重み付け係数表WTと重み付け係数算出アルゴリズムWAを予め設定しておく。
重み付け係数表WTは、音源方向ごとに周波数帯域別の重み係数を示すデータテーブルである。
重み付け係数算出アルゴリズムWAは、入力として音源方向に対応する周波数帯域別の重み係数を出力として算出するための数理モデルである。重み付け係数算出アルゴリズムWAの具体例については、後述する。
【0041】
音声オブジェクト方向算出部112は、ユーザ位置情報に示される聴取位置を基準とし、音声オブジェクト位置情報で示される目標位置の方向を音声オブジェクト方向として音声オブジェクトごとに算出する。音声オブジェクト方向は、ユーザ位置情報に示される聴取方向を基準とする角度で表現されてもよい。音声オブジェクト方向算出部112は、算出した音声オブジェクト方向を重み付け係数決定部114に出力する。
【0042】
重み付け係数決定部114は、聴覚支援関連情報に手続選択フラグが含まれているか否かを判定する。
手続選択フラグが含まれている場合には、重み付け係数決定部114は、手続選択フラグに従って重み付け係数の決定に際し、重み付け係数表WTと重み付け係数算出アルゴリズムWAのいずれを用いるかを選択する。
手続選択フラグが含まれていない場合には、重み付け係数決定部114は、重み付け係数表WTと重み付け係数算出アルゴリズムWAのうち、予め定めた方を選択する。
【0043】
重み付け係数表WTを選択する場合、重み付け係数決定部114は、算出した音声オブジェクト方向に対応する周波数帯域別の重み係数を重み付け係数表WTから読み出す。
重み付け係数算出アルゴリズムWAを選択する場合、重み付け係数決定部114は、次の処理を実行して周波数帯域別の重み係数を算出する。重み付け係数算出アルゴリズムWAについて、図4を用いて説明する。
【0044】
図4は、6DoFコンテンツ空間を例示する模式図である。以下の説明では、原点Oを基準点とする3次元のグローバル座標系を用いる。図4において、u,f,sは、それぞれユーザの聴取位置、聴取位置uから聴取方向、即ち、ユーザの正面方向に基準距離rだけ離れた位置、第i(iは、音声オブジェクトを示す自然数である)音声オブジェクトの目標方向を示すベクトルである。ここで、r=|f-u|である。聴取位置を基準とする第i音声オブジェクトの位置は、s-uと表される。従って、聴取方向を基準とする音声オブジェクトiとなす角度ξは、聴取方向を示す単位ベクトルf-uと聴取位置を基準とする音声オブジェクトiの位置を示すベクトルs-uとの内積を、その絶対値|f-u|で正規化して得られる正規化値の逆余弦となる。但し、式(1)では、r=1と正規化されている。音声オブジェクト方向算出部112は、式(1)を用いて、聴取位置uと音声オブジェクトiの位置sに基づいて、角度ξを、音声オブジェクトiに係る音声オブジェクト方向として算出することができる。
【0045】
【数1】
【0046】
重み付け係数決定部114は、聴覚支援関連情報が指向性情報を有するか否かを判定する。指向性情報は、聴覚支援機器に備わる集音機能の指向性を示す情報である。指向性情報が存在する場合には、重み付け係数決定部114、その指向性情報に示される指向性を採用する。重み付け係数決定部114は、聴覚支援関連情報が型番情報を有するか否かを判定する。型番情報は、聴覚支援機器の型番を示す情報である。型番情報は、聴覚支援機器の機種を示す機種情報の一例である。重み付け係数決定部114には、型番情報ごとに対応する指向性情報を示す機器データを予め設定させておく。型番情報が存在する場合、重み付け係数決定部114は、機器データを参照して、型番情報に対応する指向性情報に示される指向性を採用してもよい。
【0047】
指向性は、指向性の種別、例えば、全指向性、単一指向性、両指向性などの区別を示すインデックスで表されてもよいし、聴取位置を基準とする音源方向ごとの感度で表されてもよい。集音機能により得られる音声信号s^は、p(ξ)sと音声オブジェクトiから提供される音sに対して集音機能の指向性p(ξ)を作用して得られる。重み付け係数決定部114は、周波数帯域ごとの指向性p(ξ)を周波数帯域内で平均して重み付け係数を算出することができる。重み付け係数決定部114は、周波数帯域ごとに算出した重み付け係数を重み付け係数適用部120に出力する。
【0048】
例えば、集音機能の指向性が全指向性である場合、その指向性p(ξ)は、音声オブジェクト方向ξに関わらず一定値である。典型的には、全指向性マイクロホンを備える補聴器により集音する場合が該当する。その場合、集音信号における第i音声オブジェクトの成分s^ は、sとなる。但し、指向性p(ξ)が1となるように集音機能の感度が正規化されている。
【0049】
集音機能の指向性が両指向性である場合、その指向性p(ξ)は、cosξに比例する。典型的には、両指向性マイクロホンを備える補聴器により集音する場合が該当する。その場合、集音信号における第i音声オブジェクトの成分s^ は、cosξとなる。但し、指向性p(ξ)の最大値、即ち、最も感度が高い主軸方向の感度が1となるように正規化されている。指向性p(ξ)が負値となることは、集音機能から出力される音声信号の位相が反転していることに相当する。
【0050】
集音機能の指向性が単一指向性である場合、その指向性p(ξ)は、(1+cosξ)/2に比例する。典型的には、単一指向性マイクロホンを備える補聴器により集音する場合が該当する。その場合、集音信号における第i音声オブジェクトの成分s^ は、(1+cosξ)s/2となる。但し、指向性p(ξ)の最大値、即ち、最も感度が高い主軸方向の感度が1となるように集音機能の感度が正規化されている。
【0051】
なお、上記の説明では、重み係数が集音機能の指向性による依存性を示す場合を例示したが、これには限らない。重み付け係数算出部110は、上記の過程により得られた周波数帯域ごとの重み係数にユーザの聴力に応じた調整量をさらに加算してもよい。また、重み付け係数算出部110は、聴覚支援信号の周波数帯域ごとの当該周波数成分の強度が、ユーザが聴取可能とする強度の最大値である最大可聴レベルと最小値である最小可聴レベルの範囲内に収まるように当該周波数帯域に係る重み係数をスケーリングしてもよい。ここで、聴覚支援信号の周波数成分は、オブジェクト別音声信号の周波数成分に当該周波数帯域に係る重み係数を乗じて得られる乗算値の音声オブジェクト間の総和に相当する。
【0052】
次に、本実施形態に係る音声処理の例について説明する。図5は、本実施形態に係る音声処理の例を示すフローチャートである。
(ステップS102)重み付け係数算出部110は、ユーザの聴取位置を示すユーザ位置情報を取得する。
(ステップS104)重み付け係数算出部110は、音声オブジェクトに係る音声オブジェクト位置情報を取得する。
(ステップS106)重み付け係数適用部120は、音声オブジェクトに係る音声信号を取得する。
(ステップS108)重み付け係数算出部110は、ユーザの聴覚支援機器の装用に係る聴覚支援情報を取得する。
【0053】
(ステップS110)重み付け係数算出部110は、聴覚支援機器の装用フラグを参照して聴覚支援機能の要否を判定する。必要と判定される場合(ステップS110 YES)、ステップS112の処理に進む。不要と判定される場合(ステップS110 NO)、重み付け係数適用部120は、音声オブジェクトごとの音声信号に重み付け係数を適用する処理を行わずに、オブジェクト別音声信号としてバイノーラルレンダリング部130に出力する。その後、ステップS124の処理に進む。
(ステップS112)音声オブジェクト方向算出部112は、音声オブジェクトごとにユーザ位置情報に示される聴取位置から音声オブジェクト位置情報に示される目標位置への方向であって、聴取方向を基準とする方向を音声オブジェクト方向として算出する。
【0054】
(ステップS114)重み付け係数決定部114は、手続選択フラグを参照して重み付け係数を算出するための手続き、即ち、処理方法を定める。重み付け係数算出アルゴリズムWAを用いると判定される場合(ステップS114 YES)、ステップS116の処理に進む。重み付け係数表WTを用いると判定される場合(ステップS114 NO)、ステップS118の処理に進む。
(ステップS116)重み付け係数決定部114は、算出した音声オブジェクト方向に対応する周波数帯域別の重み係数を重み付け係数表WTから読み出す。
(ステップS118)重み付け係数決定部114は、装用される聴覚支援機器の集音機能の指向性を参照し、算出した音声オブジェクト方向に対応する感度に基づいて周波数帯域別に重み係数を算出する。
(ステップS120)重み付け係数決定部114は、音声オブジェクトごとに定めた周波数帯域別の重み係数を重み付け係数適用部120に出力する。
【0055】
(ステップS122)重み付け係数適用部120は、音声オブジェクトごとの音声信号の周波数帯域別の周波数帯域成分に、当該周波数帯域の重み係数を乗じて得られる乗算値を周波数帯域間でミキシングしてオブジェクト別聴覚支援音声信号を取得する。重み付け係数適用部120は、音声オブジェクトごとのオブジェクト別聴覚支援音声信号をオブジェクト別音声信号としてバイノーラルレンダリング部130に出力する。
【0056】
(ステップS124)バイノーラルレンダリング部130は、音声オブジェクトごとのオブジェクト別音声信号に目標位置から聴取位置に所在し、頭部の正面を聴取方向に向けたユーザの左右各耳までの頭部伝達関数を適用し、音声オブジェクトと左右各耳のセットごとにオブジェクト別チャンネル信号を生成する。バイノーラルレンダリング部130は、オブジェクト別チャンネル信号を音声オブジェクト間でミキシングし、左右各耳についてチャンネル信号を合成する。
(ステップS126)バイノーラルレンダリング部130は、左右各耳のチャンネル信号からなるバイノーラル信号を再生信号として再生デバイス20に出力する。その後、図5の処理を終了する。
【0057】
なお、バイノーラルレンダリング部130は、ユーザの側方から後方に位置する音声オブジェクト(以下、「後方オブジェクト」と呼ぶことがある)に対して、ユーザの前方から側方に位置する音声オブジェクト(以下、「前方オブジェクト」と呼ぶことがある)よりもオブジェクト別バイノーラル信号のレベルが相対的に小さくなるように利得を再設定してもよい。ここで、バイノーラルレンダリング部130は、(1)前方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを変更せずに維持しながら後方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを低下させてもよいし、(2)前方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを増加させ、後方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを変化せずに維持してもよいし、(3)前方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを増加させるとともに、後方オブジェクトに対するオブジェクト別バイノーラル信号のレベルを低下させてもよい。
【0058】
ここで、バイノーラルレンダリング部130は、聴取位置を基準とする目標方向が、ユーザの背面方向よりも正面方向(即ち、聴取方向)に近い音声オブジェクトを前方オブジェクトとして判定することができる。バイノーラルレンダリング部130は、聴取位置を基準とする目標方向が、ユーザの正面方向よりも背面方向に近い音声オブジェクトを後方オブジェクトとして判定することができる。
【0059】
バイノーラルレンダリング部130は、利得を再設定した音声オブジェクトに対しては、予め定めた利得に代え、再設定した利得をオブジェクト別バイノーラル信号の信号値に乗算することで、振幅を調整したオブジェクト別バイノーラル信号を含むように再生信号を合成する。
よって、再生デバイス20により再生信号に基づいて提示される再生音において前方オブジェクトの成分が、後方オブジェクトの成分よりも相対的に多くなる。そのため、ユーザにとり、前方オブジェクトの音が後方オブジェクトの音よりも相対的に聞き取りやすくなる。
【0060】
また、バイノーラルレンダリング部130は、必須オブジェクトがユーザの側方から後方に位置する後方オブジェクトに該当するか否かに関わらず、オブジェクト別バイノーラル信号のレベルが相対的に小さくなるように利得を再設定しなくともよい。優先的に音声またはレンダリング機能を提供すべき必須オブジェクトのオブジェクト別バイノーラル信号に対しては、当該必須オブジェクトがユーザの後方に位置する場合でも利得を低下させない。そのため、再生音における必須オブジェクトの成分に対する聞き取りやすさが維持される。
【0061】
なお、バイノーラルレンダリング部130は、6DoF空間において聴取位置、聴取方向および音声オブジェクトごとの音声オブジェクト位置を示すコンテンツ空間画面をディスプレイに表示させてもよい。音声処理装置10は、入力デバイスから入力される操作信号に基づいて聴取位置、聴取方向、音声オブジェクト位置のいずれか1個、または、いずれか複数個からなる組が指示されてもよい。
また、上記の説明では、6DoFコンテンツ空間における音声オブジェクトに係るレンダリングに適用する場合を例にしたが、これには限られない。本実施形態は、2次元の4DoFコンテンツ空間における音声オブジェクトに係るレンダリングに適用されてもよい。その場合、3次元空間における高さ方向または仰角方向が捨象されてもよい。
【0062】
重み付け係数算出部110は、聴覚支援関連情報を設定するための設定画面をディスプレイ(図示せず)に表示させてもよい。重み付け係数算出部110は、聴覚支援関連情報の要素となる要素情報を入力デバイスから入力される操作信号に基づいて設定してもよい。設定可能な要素情報として、聴覚支援機器の装用の有無(装用フラグに対応)、型番情報もしくは集音機能の指向性の種別の一部または全部が含まれる。指向性の種別として、予め定めた典型的な指向性(例えば、両指向性、単一指向性など)の候補から、いずれか1通りが選択されてもよい。
【0063】
また、重み付け係数算出部110は、ユーザが装用する聴覚支援機器と無線または有線で接続し、接続された聴覚支援機器に対する要求に応じて、または、聴覚支援機器から自発的に提供される型番情報もしくは指向性の種別の情報を取得してもよい。その場合には、重み付け係数算出部110は、接続された聴覚支援機器から、周波数帯域ごとの聴力に応じた重み付け係数の調整量を取得してもよい。取得された調整量は、重み係数の調整に用いられる。また、重み付け係数算出部110は、接続された聴覚支援機器から周波数帯域ごとにユーザが聴取可能とする強度の範囲(即ち、最大値と最小値)を取得してもよい。取得された強度の範囲は、重み付け係数のスケーリングに用いられる。
【0064】
上記の説明では、集音機能の指向性と音声オブジェクト方向に基づく重み付け係数が周波数帯域ごとに設定される場合を例示したが、これには限られない。重み付け係数は、周波数帯域に関わらず、全周波数帯域一括に設定されてもよい。音声処理装置10のユーザは、必ずしも聴覚障がい者に限られず健常者であってもよい。健常者に対しては、装用フラグに聴覚支援機器の装用なしと設定されてもよいし、聴覚支援機器の装用ありと設定されてもよい。装用ありと設定されることで、再生音における集音機能の指向性と音声オブジェクト方向による音響特性の影響が模擬される。
また、聴覚支援特性に係るパラメータとして周波数帯域ごとの重み付け係数に代え、予め定めた周波数帯域よりも、より細分化された周波数幅(例えば、離散周波数)ごとに聴覚支援に係る強度の調整量が用いられてもよい。
【0065】
以上に説明したように、本実施形態に係る音声処理装置10は、聴覚支援に関する聴覚支援関連情報に基づいて聴覚支援機器(例えば、補聴器)の音響特性である聴覚支援特性を設定する聴覚支援特性設定部(例えば、重み付け係数算出部110)と、音声信号に聴覚支援特性を適用する聴覚支援特性適用部(例えば、重み付け係数適用部120)と、音声オブジェクトごとに、目標位置と聴取位置および聴取方向に応じて、聴覚支援特性を適用した音声信号の音響特性を調整するレンダリング部(例えば、バイノーラルレンダリング部130)と、を備える。
この構成によれば、聴覚支援機器の音響特性である聴覚支援特性を適用した音声信号に対して、音声オブジェクトごとの目標位置と聴取位置および聴取方向に応じて音響特性が調整される。聴覚支援機器による音響特性への影響を含めることで、聴覚支援機器の使用時と同等の聞き取りやすさをもたらす再生音が実現される。
【0066】
また、聴覚支援特性設定部は、聴覚支援機器の集音機能の指向性と、聴取位置を基準とする目標位置の方向に基づいて聴覚支援機器の感度を定め、定めた感度を含めて聴覚支援特性を設定してもよい。
この構成によれば、音声オブジェクトの目標位置に応じた聴覚支援機器の集音機能の指向性の影響が再生音に反映される。そのため、聴覚支援機器の集音機能の使用時と同等の聞き取りやすさをもたらす再生音が得られる。
【0067】
また、聴覚支援特性設定部には、聴覚支援機器の機種(例えば、型番)ごとに集音機能の指向性が設定され、聴覚支援関連情報で指示される機種の指向性を特定してもよい。
一般に、集音機能の指向性の影響は聴覚支援機器の機種により異なりうる。この構成によれば、特定した機器の指向性が再生音に反映される。そのため、特定した機種の聴覚支援機器の集音機能の使用時と同等の聞き取りやすさをもたらす再生音が得られる。
【0068】
また、聴覚支援特性設定部は、聴覚支援関連情報に含まれる聴覚支援要否情報(例えば、装用フラグ)に基づいて聴覚支援特性の設定の要否を判定してもよい。
この構成によれば、聴覚支援の要否により聴覚支援機器による音響特性への影響を含めるか否かが定まる。そのため、聴覚支援の要否に応じて、聴覚支援機器の集音機能の使用時と同等の再生音を提供するか否かが容易に変更される。
【0069】
また、レンダリング部は、聴取位置を基準とする目標位置の方向である目標方向が背面方向よりも正面方向に近い音声オブジェクトである前方オブジェクトよりも、目標方向が正面方向よりも背面方向に近い音声オブジェクトである後方オブジェクトに対して小さい利得を設定してもよい。
この構成によれば、再生音における前方オブジェクトの成分のレベルが、後方オブジェクトの成分のレベルよりも相対的に高くなる。そのため、再生音のうち前方オブジェクトの音が、後方オブジェクトの音よりも明瞭に受聴される。
【0070】
また、レンダリング部は、他の音声オブジェクトよりも優先して提供する音声オブジェクト(例えば、必須オブジェクト)に対しては、目標方向が正面方向よりも背面方向に近い場合、前方オブジェクトよりも小さい利得を設定しなくてもよい。
この構成によれば、優先して提供する音声オブジェクトの目標方向が後方に近い場合であっても、当該音声オブジェクトに対して前方オブジェクトよりも小さい利得は設定されない。再生音における当該音声オブジェクトの成分のレベルが、前方オブジェクトの成分のレベルよりも相対的に低くならずに維持される。そのため、当該オブジェクトの音が明瞭性を失わずに受聴される。
【0071】
なお、上述した音声処理装置10の全部または一部、例えば、重み付け係数算出部110と重み付け係数適用部120およびバイノーラルレンダリング部130の一部または全部をコンピュータで実現するようにしてもよい。その機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録しておき、当該記録媒体に記録されたプログラムをコンピュータシステムのプロセッサに読み込ませ、プログラムに記述された指令で指示される処理を実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10に内蔵されたコンピュータシステムであって、OS(Operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0072】
また、上述した実施形態における音声処理装置10の一部、または全部をLSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0073】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0074】
S1…音声処理システム、10…音声処理装置、20…再生デバイス、110…重み付け係数算出部、112…音声オブジェクト方向算出部、114…重み付け係数決定部、120…重み付け係数適用部、130…バイノーラルレンダリング部
図1
図2
図3
図4
図5