IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2024-154456環境音合成装置、その方法及びプログラム
<>
  • 特開-環境音合成装置、その方法及びプログラム 図1
  • 特開-環境音合成装置、その方法及びプログラム 図2
  • 特開-環境音合成装置、その方法及びプログラム 図3
  • 特開-環境音合成装置、その方法及びプログラム 図4
  • 特開-環境音合成装置、その方法及びプログラム 図5
  • 特開-環境音合成装置、その方法及びプログラム 図6
  • 特開-環境音合成装置、その方法及びプログラム 図7
  • 特開-環境音合成装置、その方法及びプログラム 図8
  • 特開-環境音合成装置、その方法及びプログラム 図9
  • 特開-環境音合成装置、その方法及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024154456
(43)【公開日】2024-10-31
(54)【発明の名称】環境音合成装置、その方法及びプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241024BHJP
   H04R 3/00 20060101ALI20241024BHJP
【FI】
H04S7/00 300
H04R3/00 310
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023068262
(22)【出願日】2023-04-19
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】佐藤 尚
(72)【発明者】
【氏名】鎌本 優
(72)【発明者】
【氏名】石川 憲治
(72)【発明者】
【氏名】河原 一彦
(72)【発明者】
【氏名】井上 礁太郎
(72)【発明者】
【氏名】辛川 雅浩
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA06
5D162AA07
5D162CA26
5D162CD07
5D220AA50
(57)【要約】
【課題】伝送元で収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を空間的な音源位置の広がりを考慮して生成することができる環境音合成装置等を提供する。
【解決手段】環境音合成装置は、環境音分析装置から環境音量パラメタを受信するデータ受信部と、環境音量パラメタで特定される音量に応じた1フレーム分の環境音のテンプレートに、環境音量パラメタから推定される頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する定位感付加音源合成部とを含み、頭部伝達関数は、伝送先で想定される聴取者の位置である仮想聴取者位置における、仮想的に設定される音源の位置である仮想位置に対する頭部伝達関数である。
【選択図】図3
【特許請求の範囲】
【請求項1】
環境音分析装置から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成装置であって、
前記環境音分析装置から前記環境音量パラメタを受信するデータ受信部と、
前記環境音量パラメタで特定される音量に応じた1フレーム分の環境音のテンプレートに、前記環境音量パラメタから推定される頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する定位感付加音源合成部とを含み、
前記頭部伝達関数は、伝送先で想定される聴取者の位置である仮想聴取者位置における、仮想的に設定される音源の位置である仮想位置に対する頭部伝達関数である、
環境音合成装置。
【請求項2】
請求項1の環境音合成装置であって、
1フレーム分の環境音のテンプレートと当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部と、
仮想位置に関する情報と、仮想位置に対応する頭部伝達関数とを対応付けて記憶する頭部伝達関数記憶部と、を含み、
前記定位感付加音源合成部は、前記環境音量パラメタで特定される音量に応じたテンプレートを前記テンプレート記憶部から選択し、前記環境音量パラメタから推定される仮想位置に関する情報に対応付けられた頭部伝達関数を前記頭部伝達関数記憶部から選択し、選択したテンプレートに選択した頭部伝達関数を適用し、前記環境音量パラメタで特定される音量に合せて、仮想位置の定位感を加えた環境音を生成する、
環境音合成装置。
【請求項3】
請求項2の環境音合成装置であって、
前記仮想位置に関する情報は、音源の仮想位置と仮想聴取者位置との距離、または、仮想聴取者位置に対する音源の仮想位置の方向である、
環境音合成装置。
【請求項4】
請求項1の環境音合成装置であって、
1フレーム分の環境音のテンプレートに頭部伝達関数を適用して得られるテンプレートと、頭部伝達関数適用後のテンプレートの環境音の音量に対応する情報とを対応付けて記憶するテンプレート記憶部を含み、
前記定位感付加音源合成部は、前記環境音量パラメタで特定される音量に応じたテンプレートを前記テンプレート記憶部から選択し、選択した前記テンプレートを合成して環境音を生成する、
環境音合成装置。
【請求項5】
請求項1の環境音合成装置であって、
1つ以上の仮想位置が与えられるものとし、
前記環境音量パラメタから与えられた各仮想位置における仮想音量を求める駆動パラメタ算出部を含み、
前記定位感付加音源合成部は、前記駆動パラメタ算出部で求めた仮想音量に応じた1フレーム分の環境音のテンプレートに、当該仮想音量に対応する仮想位置に応じた頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する、
環境音合成装置。
【請求項6】
請求項1の環境音合成装置であって、
想定され得る最大個数の仮想位置と、各仮想位置における仮想音量とが与えられるものとし、
前記環境音量パラメタから当該環境音量パラメタを取得したフレームに対応する1つ以上の仮想位置とその仮想位置における仮想音量とを求める駆動パラメタ算出部を含み、
前記定位感付加音源合成部は、前記駆動パラメタ算出部で求めた仮想音量に応じた1フレーム分の環境音のテンプレートに、当該仮想音量に対応する仮想位置に応じた頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する、
環境音合成装置。
【請求項7】
伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する環境音合成方法であって、
データ受信部が、前記環境音量パラメタを受信するデータ受信ステップと、
定位感付加音源合成部が、前記環境音量パラメタで特定される音量に応じた1フレーム分の環境音のテンプレートに、前記環境音量パラメタから推定される頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する定位感付加音源合成ステップとを含み、
前記頭部伝達関数は、伝送先で想定される聴取者の位置である仮想聴取者位置における、仮想的に設定される音源の位置である仮想位置に対する頭部伝達関数である、
環境音合成方法。
【請求項8】
請求項1の環境音合成装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、伝送元で収音された環境音を、伝送先で再生する環境音合成装置、その方法及びプログラムに関する。
【背景技術】
【0002】
実測データをもとに算出した個人差や、速度・大きさの揺らぎの程度を利用して、単独のユーザと同期するように複数の拍手音を合成し出力する技術が提案されている(非特許文献1)。また、ある地点の音を別の場所に伝送し再生する技術として、音響符号化技術が知られている。
【0003】
非特許文献1は、ユーザと同調する複数の人がその場にいるような環境を仮想的に実現することを目的としたものであり、ユーザの拍手のピッチに合わせて仮想的な拍手音を合成する技術であり、実在する遠隔地の場の状況(拍手音や手拍子)を、別の場所に伝送し再現することはできなかった。また、声援・掛け声などの拍手音以外の環境音を伝送し再現することは対象としていない。また、拍手音や声援・掛け声などの環境音は純粋な音声や楽器音とは異なり白色雑音に近いため、非特許文献2のような従来の音響符号化技術ではうまく表現できず、音質が劣化していた。
【0004】
例えば、非特許文献2では、聴覚マスキングを巧みに利用し、また楽器の特性を利用して低域の成分を高域にコピーして使うという楽音の特性に合わせたモデルにより、低ビットレートで品質の高い音響符号化技術が提案されている。
【0005】
特許文献1の環境音合成装置では、テンプレート記憶部に1フレーム分(一定時間分)の環境音のテンプレートと当該テンプレートの環境音の音量に対応する情報とを対応付けて記憶しておき、音源合成部が受信した環境音量パラメタと同じ音量大きさのテンプレートをテンプレート記憶部から選択し、選択したテンプレートを合成して環境音を生成する。
【0006】
特許文献2の環境音合成装置では、さらに、伝送先で空間的な広がりをもった環境音を生成するために伝送先で伝送元の場の雰囲気を、残響を考慮して再現する環境音を生成する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2014-63145号公報
【特許文献2】特開2017-146391号公報
【非特許文献】
【0008】
【非特許文献1】西村竜一、宮里勉、「仮想的集団による拍手音の合成」、電子情報通信学会技術研究報告、電子情報通信学会、1999年3月、MVE,マルチメディア・仮想環境基礎、98(684), p.17-24,
【非特許文献2】Stefan Meltzer and Gerald Moser,"MPEG-4 HE-AAC v2 - audio coding for today's digital media world," EBU technical review, Jan., 2006.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献2の環境音合成装置では、空間的な残響は再現されるものの、本来、視聴者を包むように様々な位置から聞こえるべき環境音が、一点から発せられるように聞こえてしまい、違和感を生じるという課題がある。
【0010】
本発明は、伝送元で収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を空間的な音源位置の広がりを考慮して生成することができる環境音合成装置、その方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記の課題を解決するために、本発明の一態様によれば、環境音合成装置は、環境音分析装置から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する。環境音合成装置は、環境音分析装置から環境音量パラメタを受信するデータ受信部と、環境音量パラメタで特定される音量に応じた1フレーム分の環境音のテンプレートに、環境音量パラメタから推定される頭部伝達関数を適用して得られるテンプレートを合成して、環境音を生成する定位感付加音源合成部とを含み、頭部伝達関数は、伝送先で想定される聴取者の位置である仮想聴取者位置における、仮想的に設定される音源の位置である仮想位置に対する頭部伝達関数である。
【発明の効果】
【0012】
本発明によれば、伝送元において収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を空間的な音源位置の広がりを考慮して再現することができるという効果を奏する。
【図面の簡単な説明】
【0013】
図1】本発明の環境音伝送システムの構成例を示すブロック図。
図2】第一実施形態に係る環境音合成装置の構成を示すブロック図。
図3】第一実施形態に係る環境音合成装置の動作を示すフローチャート。
図4】環境音量パラメタと、仮想位置と仮想聴取者位置との距離との関係を説明するための図。
図5】環境音量パラメタと、仮想聴取者位置音源に対する仮想位置の方向との関係を説明するための図。
図6】第二実施形態に係る環境音合成装置の構成を示すブロック図。
図7】第二実施形態に係る環境音合成装置の動作を示すフローチャート。
図8】仮想聴取者位置と仮想位置との位置関係を説明するための図。
図9】仮想聴取者位置と仮想位置との位置関係を説明するための図。
図10】本手法を適用するコンピュータの構成例を示す図。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0015】
<用語の定義>
・仮想環境音源:伝送元では拍手音や声援・掛け声などの環境音を人が発する。仮想環境音源とは、伝送先で環境音を再現しようとする場合に仮想的に設定する音の発生源を指す。本実施形態では、例えば、仮想音量と仮想位置とによって仮想環境音源を表す。
【0016】
・仮想聴取者位置:伝送先で本システムを利用する利用者を想定して設定する仮想的な視聴位置を指す。
【0017】
・定位感特性:伝送先で環境音を再現する際に、伝送元の雰囲気を再現するために必要な環境音の発生位置の定位感に関する特性を指す。例えば後ろから一人の掛け声が聞こえた、大きな拍手に包まれた、といった感覚を再現するために、環境音に必要な音響特性のことである。本実施形態では、例えば、定位感特性は、1つ以上の仮想環境音源の重なりあわせとして表現され、1つ以上の、仮想音量と仮想位置がペアとなった情報により構成される。
【0018】
<第一実施形態>
以下、図1を参照して本発明の環境音伝送システムについて説明する。図1は本発明の環境音伝送システムの構成例を示すブロック図である。図1に示すように、本実施形態の環境音伝送システムは、伝送元の環境音分析装置1と、伝送先の環境音合成装置3から構成される。
【0019】
図1に示すように、環境音分析装置1は、入力された音響信号(環境音)の音量に対応する情報(環境音量パラメタPj)を抽出し、出力する。
【0020】
環境音合成装置3は、予め記憶された環境音のテンプレートと頭部伝達関数(Head-Related Transfer Function、以下「HRTF」ともいう)を、入力された環境音量パラメタPjを用いて選択し、選択したテンプレートとHRTFとを用いて環境音を合成し、出力する。
【0021】
環境音分析装置1および環境音合成装置3は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。環境音分析装置1および環境音合成装置3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。環境音分析装置1および環境音合成装置3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。環境音分析装置1および環境音合成装置3の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。環境音分析装置1および環境音合成装置3が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも環境音分析装置1および環境音合成装置3がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、環境音分析装置1および環境音合成装置3の外部に備える構成としてもよい。
【0022】
まず、環境音分析装置1について説明する。
【0023】
<環境音分析装置1>
拍手や手拍子音、声援・掛け声などの環境音の総音量は、観客の人数が多いほど大きくなる。環境音分析装置11では伝送元の環境音そのものを伝送するのではなく、環境音の音量を表す情報だけを抽出することにより、収音された環境音を効率よく低遅延に伝送することが可能となっている。図1に示すように、環境音分析装置1は、入力された音響信号(環境音)の音量に対応する情報(環境音量パラメタPj)を抽出し、出力する。ここでjはフレームのインデックスを示し、環境音分析装置1はフレーム毎に環境音量パラメタPjを出力する。環境音量パラメタPjは、環境音の音量に対応する情報であればよく、その抽出方法としては様々な方法を用いることができる。例えば、特許文献1の方法により環境音量パラメタPjを抽出してもよく、伝送元で収音した音響信号の平均エネルギーに対応する情報(平均エネルギーそのもの、平均エネルギーを量子化したもの、平均エネルギーを変形して得られる情報、さらにマッピングテーブルを用いて変形して得られる情報をマッピングしたもの等)を環境音量パラメタPjとして用いることができる。
【0024】
次に環境音合成装置3について説明する。
【0025】
<環境音合成装置3>
以下、図2図3を参照して本実施形態の環境音合成装置3について説明する。図2は本実施形態の環境音合成装置3の構成を示すブロック図である。図3は本実施形態の環境音合成装置3の動作を示すフローチャートである。図2に示すように、本実施形態の環境音合成装置3は、データ受信部31と、定位感付加音源合成部32と、テンプレート記憶部33と、再生部34と、HRTF記憶部35とを備える。環境音合成装置3は環境音分析装置1から伝送元の音響信号の音量に関する環境音量パラメタを取得して環境音を生成する装置である。環境音合成装置3は、環境音合成において、伝送されてくる環境音量パラメタだけから、再生される環境音の音量を伝送元と一致させながら仮想環境音源の仮想位置を設定し、仮想位置に応じたHRTFを適用することで、環境音の定位感を高め、伝送先における環境音の再現性や自然性を高める。以下、環境音の例として拍手音を用いて説明を進める。
【0026】
<データ受信部31>
データ受信部31は、環境音分析装置1から環境音量パラメタPjを受信し(S31)、定位感付加音源合成部32に出力する。本実施形態では、環境音量パラメタPjは伝送元の環境音の音量に対応する値である。例えば、20msのフレームあたり環境音量パラメタに拍手音量として8bitのバリエーションを設定すれば、400bit/secで拍手音を伝送できる。
【0027】
<テンプレート記憶部33>
テンプレート記憶部33には、拍手音の各音量バリエーションに対して拍手音のテンプレートが記憶されている。つまり、テンプレート記憶部33には、iをフレームのインデックスとした場合に、1フレーム分の拍手音を含む環境音のテンプレートTiと当該テンプレートの環境音の音量に対応する情報E'iとが対応付けて記憶されているものとする。例えば、環境音から環境音量パラメタPjを求める際に用いた方法と同様の方法により、テンプレートTiから情報E'iを求めておく。拍手音のテンプレートは、複数の人間による複数の拍手音(1フレーム分)のテンプレートであってもよいし、一人の人間による一拍分の拍手音(300ms程度)であってもよい。
【0028】
<HRTF記憶部35>
HRTF記憶部35には、各音源位置に対応した複数のHRTFが記憶されている。より具体的には仮想聴取者位置からみた音源の仮想位置S'kに対応するHRTFがHkとして記憶されている。ここでは、HRTF記憶部35には、仮想位置に関する情報と、その仮想位置に対応するHRTFとが対応付けて記憶されているものとする。なお、後述するように、仮想聴取者位置からみた音源の仮想位置は、環境音量パラメタPjから推定されるので、環境音量パラメタPj自体や仮想位置に対応する環境音量パラメタの範囲を「仮想位置に関する情報」として用いてもよい。HRTFの一例として参考文献1,2等が知られている。
【0029】
(参考文献1)渡邉貫治、岩谷幸雄、行場次朗、鈴木陽一、「仮想音環境のための頭部伝達関数コーパス」、FIT2005情報技術レターズ 2005、p. 237-240.
(参考文献2)岩谷幸雄、「頭部伝達関数による音像定位」、日本音響学会誌 73 巻 3 号(2017)P.173-180.
本実施形態では、「仮想位置に関する情報」として、音源の仮想位置S'kと仮想聴取者位置との距離の大きさを用いる。本実施形態では、音源の仮想位置S'kと仮想聴取者位置との距離が小さいことを示す情報が、音源の仮想位置S'kと仮想聴取者位置との距離が小さい場合に対応するHRTFを表すHNと対応付けて記憶され、音源の仮想位置S'kと仮想聴取者位置との距離が大きいことを示す情報が、音源の仮想位置S'kと仮想聴取者位置との距離が大きい場合に対応するHRTFを表すHLと対応付けて記憶されている。ここで用いるHRTFは、環境音合成処理を行う前に予め実測やシミュレーション等により求めておく。
【0030】
<定位感付加音源合成部32>
定位感付加音源合成部32は、環境音量パラメタPjを入力とし、環境音量パラメタPjで特定される音量に応じた1フレーム分の環境音のテンプレートに、環境音量パラメタPjから推定されるHRTFを適用して得られるテンプレート(以下「仮想位置の定位感を加えた環境音のテンプレート」ともいう)を合成して、音響信号(環境音)を生成し(S32)、出力する。
【0031】
本実施形態では、定位感付加音源合成部32は、入力された環境音量パラメタPjで特定される音量に応じたテンプレートのうちいずれか1つをテンプレート記憶部33からランダムに選択する。つまり、Pj=E'iを満たすE'iに対応づけられているテンプレートTiのうち、いずれか1つをランダムに選択する。
【0032】
さらに、定位感付加音源合成部32は、入力された環境音量パラメタPjから仮想位置に関する情報を推定し、推定した仮想位置に関する情報に対応付けられたHRTFをHRTF記憶部35から選択する。ここでは、環境音量パラメタで特定される音量が大きいほど、伝送元の空間の広いと仮定する。例えば、以下のようにして、環境音量パラメタPjから仮想位置に関する情報を推定し、HRTFを選択する。環境音量パラメタPjで特定される音量が所定の閾値よりも小さい場合は、図4のように伝送元の空間は狭い空間であり、伝送元の空間が広い場合と比べて近くにいる少人数が発する音(例えば拍手音)が聞こえることが自然と想定されるので、音源の仮想位置S'kと仮想聴取者位置との距離が小さいことを示す仮想位置に関する情報に対応するHRTFを表すHNをHRTF記憶部35から選択する。一方、環境音量パラメタPjで特定される音量が所定の閾値以上の場合は、図4のように伝送元の空間は広い空間であり、伝送元の空間が狭い場合と比べて遠くにいる大人数が発する音(例えば拍手音)が聞こえると想定されるので、音源の仮想位置S'kと仮想聴取者位置との距離が大きいことを示す仮想位置に関する情報に対応するHRTFを表すHLをHRTF記憶部35から選択する。なお、環境音量パラメタPjを「仮想位置に関する情報」として用いた場合、HRTF記憶部35には、環境音量パラメタPjとHRTFとが対応付けられて記憶されており、環境音量パラメタPjから直接HRTFを推定することができる。また、所定の閾値は、例えば実験やシミュレーション等により適切な値を調べ、設定すればよい。
【0033】
定位感付加音源合成部32は、選択したテンプレートに選択したHRTFを適用し環境音量パラメタで特定される音量に合わせて、テンプレートを合成して、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する。
【0034】
<再生部34>
再生部34は、定位感付加音源合成部32が合成した音響信号(環境音)を入力とし、環境音を再生する(S34)。例えば、再生部34はイヤホン等により実装される。再生部34は、視聴者の両耳に異なる音を提示可能な音再生装置ならばよい。当然ながら、定位感付加音源合成部32で用いられるHRTFはこの再生部34で採用される再生装置の提示特性を反映したものであることが望ましい。
【0035】
<効果>
このような構成によって、伝送元において収音された環境音を効率よく伝送し、伝送先で伝送元の場の雰囲気を空間的な音源位置の広がりを考慮して再現することができる。環境音合成において、環境音量パラメタPjを用いることで、全体の環境音の音量は環境音量パラメタと一致させながら、仮想位置を環境音量パラメタから推定することにより、定位感のある環境音を作り出す。これは別途、伝送元の環境音源の位置を測定し、その位置を伝送先に送るよりもはるかに経済的で効率的である。
【0036】
なお、本実施形態において、想定する仮想位置は、仮想聴取者位置との距離が大きい場合と小さい場合とでそれぞれ一つずつであり、一点から環境音が発せられるように聞こえるが、HRTFを適用することで、空間的な音源位置の広がりを考慮して環境音を合成することができる。また、テンプレート記憶部33に記憶されるテンプレートが、複数の人間による複数の拍手音(1フレーム分)のテンプレートであっても、一人の人間による一拍分の拍手音(300ms程度)であっても、HRTFを適用することで、空間的な音源位置の広がりを考慮して環境音を合成することができる。
【0037】
<変形例1>
第一実施形態では、環境音量パラメタPjに基づき音源の仮想位置S'kと仮想聴取者位置との距離に対応するHRTFを選択するが、HRTFはある程度離れると、距離より方向による差が大きくなる。そこで、本変形例では、音源の仮想位置S'kと仮想聴取者位置との距離ではなく、仮想聴取者位置に対する音源の仮想位置S'kの方向によって環境音の定位感を変える。別の言い方をすると、本変形例では、環境音量パラメタPjから仮想聴取者位置音源に対する仮想位置S'kの方向を推定し、推定した方向に対応付けられたHRTFをHRTF記憶部35から選択する。
【0038】
本実施形態では、「仮想位置に関する情報」として仮想聴取者位置音源に対する仮想位置S'kの方向を用いる。本実施形態では、仮想聴取者位置からみた音源の仮想位置S'kの方向が聞こえづらい方向であることを示す情報が、仮想聴取者位置からみた音源の仮想位置S'kの方向が聞こえづらい方向である場合(例えば後方)に対応するHRTFを表すHBと対応付けて記憶され、仮想聴取者位置からみた音源の仮想位置S'kの方向が聞こえやすい方向であることを示す情報が、仮想聴取者位置からみた音源の仮想位置S'kの方向が聞こえやすい方向である場合(例えば側方)に対応するHRTFを表すHSと対応付けて記憶されている。ここで用いるHRTFは、環境音合成処理を行う前に予め実測やシミュレーション等により求めておく。
【0039】
定位感付加音源合成部32は、環境音量パラメタPjを入力とし、環境音量パラメタPjで特定される音量に応じた1フレーム分の環境音のテンプレートに、環境音量パラメタPjから推定されるHRTFを適用して得られるテンプレートを合成して、音響信号(環境音)を生成し(S32)、出力する。
【0040】
本変形例では、定位感付加音源合成部32は、入力された環境音量パラメタPjで特定される音量に応じたテンプレートのうちいずれか1つをテンプレート記憶部33からランダムに選択する。つまり、Pj=E'iを満たすE'iに対応づけられているテンプレートTiのうち、いずれか1つをランダムに選択する。
【0041】
さらに、定位感付加音源合成部32は、入力された環境音量パラメタPjから仮想位置に関する情報を推定し、推定した仮想位置に関する情報に対応付けられたHRTFをHRTF記憶部35から選択する。ここでは、環境音量パラメタで特定される音量が大きいほど、音源が聞こえやすい方向に位置すると仮定する。例えば、以下のようにして、環境音量パラメタPjから仮想位置に関する情報を推定し、HRTFを選択する。環境音量パラメタPjで特定される音量が所定の閾値よりも小さい場合は、図5のように音源が聞こえづらい方向に位置すると想定されるので、例えば、仮想聴取者位置からみた音源の仮想位置S'kの方向を後方とし、後方に対応するHRTFを表すHBをHRTF記憶部35から選択する。一方、環境音量パラメタPjで特定される音量が所定の閾値以上の場合は、図5のように音源が聞こえやすい方向に位置すると想定されるので、例えば、仮想聴取者位置からみた音源の仮想位置S'kの方向を側方とし、側方に対応するHRTFを表すHSをHRTF記憶部35から選択する。なお、所定の閾値は、例えば実験やシミュレーション等により適切な値を調べ、設定すればよい。
【0042】
定位感付加音源合成部32は、選択したテンプレートに選択したHRTFを適用し、環境音量パラメタで特定される音量に合わせてテンプレートを合成して、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する。
【0043】
このような構成により、環境音の音量が大きくなるとともに音源方向を変化させることが可能である。
【0044】
<変形例2>
第一実施形態と変形例1では、1つの閾値を設け、その閾値と環境音量パラメタPjで特定される音量との大小関係に基づき、2つのHRTFの何れかを選択しているが、Q個の閾値を設け、Q個の閾値と環境音量パラメタPjで特定される音量との大小関係に基づき、Q+1個のHRTFの中から1つのHRTFを選択する構成としてもよい。HRTF記憶部35では、Q+1個のHRTFを用意し、Q+1個の仮想位置に関する情報と、Q+1個の仮想位置にそれぞれ対応するQ+1個のHRTFとが対応付けて記憶されているものとする。定位感付加音源合成部32は、入力された環境音量パラメタPjから仮想位置に関する情報を推定し、HRTF記憶部35に記憶されているQ+1個のHRTFの中から推定した仮想位置に関する情報に対応付けられたHRTFを選択する。
【0045】
<変形例3>
第一実施形態およびその変形例1,2において、都度テンプレート記憶部33からのテンプレートとHRTF記憶部35からのHRTFを畳み込んでいるが、あらかじめ畳み込んだ音素片を記憶部に持たせておいてもよい。
【0046】
第一実施形態では、テンプレート記憶部33には、1フレーム分の拍手音を含む環境音のテンプレートTiと当該テンプレートの環境音の音量に対応する情報E'iとが対応付けて記憶されていたが、本変形例では、1フレーム分の拍手音を含む環境音のテンプレートTiに、情報E''iから推定される仮想位置に対応するHRTFを適用して得られるテンプレートと、HRTF(頭部伝達関数)適用後のテンプレートの環境音の音量に対応する情報E''iとを対応付けて記憶されている。なお、環境音量パラメタから仮想位置を推定する方法と同様の方法により情報E''iから仮想位置を推定する。「1フレーム分の拍手音を含む環境音のテンプレートTiに、情報E''iから推定される仮想位置に対応するHRTFを適用して得られるテンプレート」は、前述の「仮想位置の定位感を加えた環境音のテンプレート」と同じものとなる。仮想位置の定位感を加えた環境音のテンプレートは、ダミーヘッドなどを用いて所望のHRTFと同等の効果を観測できる環境で録音したものでもよいし、モノラルマイクで録音した信号にHRTFを畳み込んだものでもよい。
【0047】
本変形例では、HRTF記憶部35を設ける必要はない。
【0048】
定位感付加音源合成部32は、環境音量パラメタPjを入力とし、環境音量パラメタPjで特定される音量に応じた1フレーム分の仮想位置の定位感を加えた環境音のテンプレートをテンプレート記憶部33から選択し、選択したテンプレートを合成して、音響信号(環境音)を生成し(S32)、出力する。
【0049】
このような構成により、定位感付加音源合成部において畳み込み処理に伴う演算量、時間を省くことができる。なお、本変形例と、以降の第二実施形態、第三実施形態、第一実施形態の変形例4とを組み合わせてもよい。
【0050】
<変形例4>
上述の第一実施形態では、伝送元の環境音の例として拍手音を対象とし、伝送元の拍手音を分析する環境音分析装置1の動作例を説明したが、これに限らず拍手音以外の環境音を対象としても良い。例えば、声援や掛け声などを環境音としても良いし、伝送元で収音される音の中から伝送元会場のメインコンテンツの音を除いた音響信号(雑音を含む)を環境音としても良い。
【0051】
拍手音や声援・掛け声、雑音などは、いずれも伝送元の会場の雰囲気を決定づける重要な要素である一方で、いろいろな音響信号が混合された白色雑音に近い信号である。前述したようにこれらの音を環境音と呼ぶ。伝送元で環境音が発せられたタイミング及び音量が保たれていれば、信号そのものは伝送元の環境音と全く同じ信号でなくとも、場の雰囲気を再現することができる。そこで、環境音分析装置1において、伝送元の環境音の音量に関するパラメタを抽出することで、伝送元において収音された環境音を効率よく低遅延に伝送することができる。なお、本変形例と、以降の第二実施形態、第三実施形態、第一実施形態の変形例1~3とを組み合わせてもよい。
【0052】
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
【0053】
図1に示すように、本実施形態の環境音伝送システムは、伝送元の環境音分析装置1と、伝送先の環境音合成装置4から構成される。
【0054】
<環境音合成装置4>
以下、図6図7を参照して本実施形態の環境音合成装置4について説明する。図6は本実施形態の環境音合成装置4の構成を示すブロック図である。図7は本実施形態の環境音合成装置4の動作を示すフローチャートである。図6に示すように、本実施形態の環境音合成装置4は、データ受信部31と、駆動パラメタ算出部46と、定位感付加音源合成部42と、テンプレート記憶部33と、再生部34と、HRTF記憶部45とを備える。データ受信部31と、テンプレート記憶部33と、再生部34については第一実施形態と同様なので説明を省略する。ただし、データ受信部31は、受信した環境音量パラメタPjを駆動パラメタ算出部46に出力する点が異なる。
【0055】
<駆動パラメタ算出部46>
駆動パラメタ算出部46は、環境音量パラメタPjを入力とし、伝送元での環境音の発生状況を伝送先で仮想的に実現するための定位感特性を算出し(S46)、駆動パラメタとして出力する。
【0056】
前述の通り、定位感特性は、1つ以上の仮想環境音源の重なりあわせとして表現され、1つ以上の、仮想音量と仮想位置がペアとなった情報により構成される。環境音の仮想環境音源の総数をNとし、n=1,2,…,Nとし、仮想音量を[D1j,D2j,…Dnj ,…DNj]とし、仮想位置を[S1,S2,…Sn,…SN]とする。仮想位置[S1,S2,…Sn,…SN]は、環境音合成処理を行う前に予め与えられているものとし、図示しない記憶部に記憶されている。例えば、図8のように仮想聴取者位置を取り囲むように仮想位置を設定してもよいし、聴取者が正面を向いてスクリーンを視聴する場合には図9のように仮想聴取者位置とスクリーンの端点を結ぶ領域(スクリーン視野範囲)の外側に仮想位置を設定してもよい。一般的に、スクリーンに投影されない物体(人)から発せられる環境音の位置がスクリーン方向に定位されると違和感が生じるが、図9のように、スクリーンの外側にのみ仮想位置を設定することで、この違和感を防ぐことができる。図8では、伝送先を10m×10mの部屋とし、仮想聴取者位置を中心において、仮想聴取者位置を取り囲むように均一に分散した仮想位置を設定する。
【0057】
駆動パラメタ算出部46は、環境音量パラメタPjが入力されると、環境音量パラメタPjから仮想音量[D1j,D2j,…Dnj,…DNj]を求める。例えば、仮想音量[D1j,D2j,…Dnj,…DNj]の総和が環境音量パラメタPjで特定される音量と一致するようにN個の仮想音量Dnjを求める。この場合、駆動パラメタ算出部46は、仮想音量をDnj=Pj/Nとして求めてもよい。また、例えば、仮想位置Snにおいて仮想音量Dnjで音が発せられたときに仮想聴取者位置で得られる音量をFnjとし、Fnj=Pj/Nとなるように音量Fnjと仮想位置Snと仮想聴取者位置とから仮想音量Dnjを求めてもよい。駆動パラメタ算出部46は、各仮想環境音源に対応する[Dnj,Sn]の組を出力する。例えば、図8のようにN=8として、仮想位置[S1,S2,…,S8]を均一に分散する。
【0058】
<HRTF記憶部45>
HRTF記憶部45には、N個の仮想位置に対応したN個のHRTFが記憶されている。より具体的には仮想聴取者位置からみた音源の仮想位置Skに対応するHRTFがHkとして記憶されている。ここでは、HRTF記憶部45には、N個の仮想位置[S1,S2,…Sn,…SN]と、その仮想位置に対応するHRTF[H1,H2,…Hn,…HN]とが対応付けて記憶されているものとする。前述の通り、仮想位置[S1,S2,…Sn,…SN]は、環境音合成処理を行う前に予め与えられているので、環境音合成処理を行う前に予め実測やシミュレーション等により仮想位置[S1,S2,…Sn,…SN]から対応するHRTF[H1,H2,…Hn,…HN]を求めておく。
【0059】
<定位感付加音源合成部42>
定位感付加音源合成部42は、駆動パラメタ([D1j,S1],[D2j,S2],…,[DNj,SN])を入力とし、仮想音量Dnjに応じた1フレーム分の環境音のテンプレートに、仮想位置Snに応じたHRTFを適用して得られるテンプレートを合成して、環境音を生成し(S42)、出力する。
【0060】
本実施形態では、定位感付加音源合成部42は、入力された駆動パラメタ([D1j,S1],[D2j,S2],…,[DNj,SN])に含まれる仮想音量Dnjに応じたテンプレートのうちいずれか1つをテンプレート記憶部33からランダムに選択する。つまり、Dnj=E'iを満たすE'iに対応づけられているテンプレートTiのうち、いずれか1つをランダムに選択する。
【0061】
さらに、定位感付加音源合成部42は、入力された駆動パラメタ([D1j,S1],[D2j,S2],…,[DNj,SN])に含まれる仮想位置Snに基づいてHRTF記憶部45より対応するHRTFを選択する。本実施形態では、仮想位置[S1,S2,…Sn,…SN]に対応するHRTF[H1,H2,…Hn,…HN]がHRTF記憶部45に記憶されているため、定位感付加音源合成部42は、仮想位置Snから対応する頭部伝達関数Hnを選択することができる。
【0062】
定位感付加音源合成部42は、選択したテンプレートに選択したHRTFを適用し、仮想位置Snから仮想音量Dnjに相当する環境音が発生したかのような仮想環境音源をN(本実施形態ではN=8)個生成し、N個のテンプレートを加算することでテンプレートを合成し、必要に応じて前のフレームと補間をして、1フレーム分の音響信号を合成して環境音(この動作例では拍手音)を生成する。N個のテンプレートを加算する処理は、各仮想環境音源を全体として重ね合わせる処理に相当する。Nの最適な値は、例えば実験やシミュレーション等により適切な値を調べ、設定すればよい。
【0063】
<効果>
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、全体の環境音の音量は環境音量パラメタと一致させながら、仮想位置を複数設定することにより、多数の観客が発する環境音を再現することができる。また、図9のように伝送先の視聴環境を考慮した仮想位置を設定すると、目の前のスクリーンから拍手が聞こえると言った違和感をなくすことができる。
【0064】
<第三実施形態>
第二実施形態と異なる部分を中心に説明する。
【0065】
駆動パラメタ算出部46の処理内容が第二実施形態とは異なる。
【0066】
駆動パラメタ算出部46は、環境音量パラメタPjを入力とし、伝送元での環境音の発生状況を伝送先で仮想的に実現するための定位感特性を算出し(S46)、駆動パラメタとして出力する。
【0067】
第二実施形態では、仮想位置[S1,S2,…Sn,…SN]のみが環境音合成処理を行う前に予め与えられていたが、本実施形態では、仮想位置[S1,S2,…Sn,…SN]だけでなく仮想音量[D1,D2,…Dn ,…DN]も、環境音合成処理を行う前に予め与えられ、図示しない記憶部に記憶されている。
【0068】
駆動パラメタ算出部46は、環境音量パラメタPjからM個の仮想音量[D1,D2,…Dn,…DM]とM個の仮想位置[S1,S2,…Sn,…SM]とを求め、駆動パラメタとして出力する。
【0069】
なお、本実施形態では、Nは仮想環境音源の想定され得る最大個数である。Mはあるフレームjにおける仮想環境音源の個数を表す自然数であり、フレームjごとに異なる値をとり、1からNまでの間の何れかの数である。
【0070】
駆動パラメタ算出部46は、環境音量パラメタPjからM個の仮想位置[S1,S2,…Sn,…SM]とその仮想位置におけるM個の仮想音量[D1,D2,…Dn,…DM]とを求める。例えば、駆動パラメタ算出部46は、jフレーム目に入力される環境音量パラメタPjに対し、m=1から順に仮想音量Dmの和を求めていき、その総和が環境音量パラメタPjにより特定される音量を超えるまでのM個の[Dm,Sm]を出力する。例えば、以下のようなアルゴリズムにより、M個の[Dm,Sm]を得る。
【0071】
1. Jフレーム目のPjを読み込む
2. M←0, D'←0
3. もし D'<Pjなら4.へ、D'≧Pjなら7.へ
4. M←M+1
5. [SM,DM]を出力キューに格納する。
【0072】
6. D'←D'+DM を計算し、3.に戻る
7. 出力キューに蓄積した [S1, D1], [S2, D2], … [SM, DM]を出力する
なお、あらかじめ定める仮想位置[S1,S2,…Sn,…SN]、仮想音量[D1,D2,…Dn ,…DN]は例えば実験やシミュレーション等により適切な値を調べ、設定すればよい。
【0073】
また、例えば、仮想位置Smにおいて仮想音量Dmで音が発せられたときに仮想聴取者位置で得られる音量をFmとし、m=1から順にFmの和を求めていき、その総和が環境音量パラメタPjにより特定される音量を超えるまでのM個の[Dm,Sm]を出力する構成としてもよい。
【0074】
<効果>
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、環境音量パラメタの変動とともに動的に仮想位置が増減するように設計できるため、ある仮想位置から掛け声が広がっていく状況や、はじめは周辺で生じた小さな拍手が包まれるように広がる状況などを再現することができる。
【0075】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0076】
<プログラム及び記録媒体>
上述の各種の処理は、図10に示すコンピュータ2000の記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040、表示部2050などに動作させることで実施できる。
【0077】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0078】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0079】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0080】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10