(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-26
(45)【発行日】2023-02-03
(54)【発明の名称】複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法
(51)【国際特許分類】
H04S 7/00 20060101AFI20230127BHJP
H04R 3/00 20060101ALI20230127BHJP
H04R 1/40 20060101ALI20230127BHJP
【FI】
H04S7/00 300
H04R3/00 320
H04R1/40 320A
(21)【出願番号】P 2020025587
(22)【出願日】2020-02-18
【審査請求日】2022-01-18
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】堀内 俊治
【審査官】岩田 淳
(56)【参考文献】
【文献】特開2017-123650(JP,A)
【文献】特表2013-543987(JP,A)
【文献】特開2018-019294(JP,A)
【文献】堀内 俊治, 外2名,インタラクティブ視聴を実現する音場のズーム合成技術,映像情報メディア学会誌, [online],2019年,第73巻, 第1号,第167-172ページ,[2022年12月27日検索], <URL: https://www.jstage.jst.go.jp/article/itej/73/1/73_167/_article/-char/ja>
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
H04R 3/00- 3/14
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
収音信号をミキシングする装置において、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする装置。
【請求項2】
M個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することを特徴とする請求項1に記載の装置。
【請求項3】
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことを特徴とする請求項2に記載の装置。
【請求項4】
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことを特徴とする請求項3に記載の装置。
【請求項5】
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う2個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことを特徴とする請求項4に記載の装置。
【請求項6】
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から5のいずれか1項に記載の装置。
【請求項7】
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から6のいずれか1項に記載の装置。
【請求項8】
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことを特徴とする請求項1から7のいずれか1項に記載の装置。
【請求項9】
収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項10】
収音信号をミキシングする装置のミキシング方法において、
装置は、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第1のステップと、
M個の収音信号をそれぞれ、時間周波数成分に変換する第2のステップと、
第2のステップによって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第3のステップと、
第3のステップによって生成された隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第4のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第5のステップと
を実行することを特徴とする装置のミキシング方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロフォンにおける収音信号をミキシング(mixing)する技術に関する。
【背景技術】
【0002】
近年、VR(Virtual Reality)やAR(Augmented Reality)の技術の進展によって、ユーザに対するインタラクティブ視聴が注目されてきている。例えば全方位的(360度)な動画を再生する際に、ユーザ自らが、視野の画角(360度内における角度区間)を選択的に指定して、その画角の動画をディスプレイに表示することができる。
また、全方位的な動画を再生しつつ、360度全ての方向から収音した音響を再生する。この再生には、音場の全方位的合成を目的として、アンビソニックス方式、バイノーラル方式又はサラウンド方式が一般的に用いられる。
【0003】
図1は、従来技術における円状マイクロフォンアレイの指向性を表す説明図である。
【0004】
円状マイクロフォンアレイは、複数の指向性マイクロフォンを仮想的に3次元方向に向けて収音する。指向性マイクロフォン毎に、異なる角度を設定し、異なる方向から到来する音響を収音することができる。
図1によれば、例えば楽曲の演奏者が円周状に位置する場合、その中心に、円状マイクロフォンアレイを配置している。そのために、できる限り演奏者毎に指向性を向けて収音することができる。
【0005】
従来、複数のマイクロフォンによって収音された音響信号を、ミキシングする技術がある。
例えば、2つのマイクロフォンによって収音した音響信号に対して、音場範囲の幅を調整(広げたり又は狭めたり)することができるステレオ幅制御の技術がある(例えば特許文献1参照)。この技術は、2つのマイクロフォンの収音信号から、音場の伸縮率に基づいて、右チャネルと左チャネルの2つの音響信号を生成する。チャネル毎の音響信号を、1組のステレオスピーカで駆動することによって、ユーザにとって音場範囲が調整されて聞こえる。
【0006】
また、3つ以上のマイクロフォンについても、ステレオ幅を制御すると共に、時間周波数マスキングを制御する技術もある(例えば特許文献2参照)。この技術によれば、予め配置された3つ以上のマイクロフォンによって収音した音響信号から、音場を選択的に合成することができる。
【先行技術文献】
【特許文献】
【0007】
【文献】特許第3905364号公報
【文献】特開2019-068210号公報
【非特許文献】
【0008】
【文献】電子情報通信学会「知識の森」、2群(画像・音・言語)-6編(音響信号処理)-2章(音源分離)、[online]、[令和2年2月15日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
【文献】ZYLIA ZM-1 microphone(マルチトラック・レコーティング マイクロフォン・アレイ)、[online]、[令和2年2月16日検索]、インターネット<URL:https://www.minet.jp/brand/zylia/zylia-music-set/>
【文献】Insta360 Pro2、[online]、[令和2年2月16日検索]、インターネット<https://hacosco.com/insta360-pro2/>
【発明の概要】
【発明が解決しようとする課題】
【0009】
複数のマイクロフォンそれぞれの収音信号をそのままミキシングした場合、スピーカから聞くユーザに向けて、各収音信号を同じレベルとして出力される。人の聴覚は全方位的であるために、収音信号を単に合成するに過ぎなかった。
この場合、例えばユーザがバイオリン演奏者を見ている場合であっても、そのバイオリンの収音信号は、他の楽器の収音信号と同じレベルとして聞こえてしまう。そのために、ユーザは、見ている映像範囲と、音場範囲とに、乖離を感じることとなっていた。
【0010】
また、特許文献2に記載の技術によれば、3つ以上のマイクロフォンは所定位置に予め配置されることを想定したものである。そのめに、調整すべき音場範囲が狭い場合には、有効なマイクロフォンの数が少なくなり、音像の定位精度が低下することとなっていた。
【0011】
そこで、本発明は、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明によれば、収音信号をミキシングする装置において、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段によって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
を有することを特徴とする。
【0013】
本発明の装置における他の実施形態によれば、
M個の収音信号を録音すると同時に、収音信号全体の音場範囲を撮影した音場映像を記憶する音場映像記憶手段と、
音場映像記憶手段に記憶された映像を視覚的に再生するディスプレイと、
合成音響信号生成手段から出力された音響信号を再生するチャネル毎のスピーカと
を更に有することも好ましい。
【0014】
本発明の装置における他の実施形態によれば、
ディスプレイは、タッチパネルデバイス又はポインティングデバイスに対するユーザ操作に応じて、当該映像を拡大又は縮小可能なものであり、
角度区間設定手段は、ディスプレイに表示された当該映像における当該マイクロフォンから見た角度区間に設定する
ことも好ましい。
【0015】
本発明の装置における他の実施形態によれば、
複数のマイクロフォンは、同一収音位置に配置されたものであり、
収音信号は、全方位に向けて配置された、各マイクロフォンによって録音されたものであり、
映像は、全方位を撮影可能なカメラによって録画されたものである
ことも好ましい。
【0016】
本発明の装置における他の実施形態によれば、
ディスプレイに表示される映像は、全方位を撮影した映像を、当該ディスプレイの水平方向へ並んで展開したものとなり、
ビームフォーミング手段から出力された各時間周波数成分に基づくマイクロフォンの位置は、当該ディスプレイの水平方向へ並んで展開したものとなり、
角度区間は、ディスプレイに表示された映像の水平方向の表示区間に応じたものとなり、
隣り合う2個の時間周波数成分の組は、ディスプレイに表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものである
ことも好ましい。
【0017】
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるスケーリング手段を更に有し、
スケーリング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
【0018】
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるシフト手段を更に有し、
シフト行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
【0019】
本発明の装置における他の実施形態によれば、
ビームフォーミング手段と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるマスキング手段を更に有し、
マスキング行列は、ディスプレイに映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される
ことも好ましい。
【0020】
本発明によれば、収音信号をミキシングする装置に搭載されたコンピュータを機能させるプログラムにおいて、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶する収音信号記憶手段と、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する角度区間設定手段と、
M個の収音信号をそれぞれ、時間周波数成分に変換する周波数分析手段と、
周波数分析手段から出力されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成するビームフォーミング手段と、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する合成音響信号生成手段と
してコンピュータを機能させることを特徴とする。
【0021】
本発明によれば、収音信号をミキシングする装置のミキシング方法において、
装置は、
M(≧2)個のマイクロフォンそれぞれの収音信号を記憶しており、
ユーザによって選択された、同一収音位置からの任意の角度区間を設定する第1のステップと、
M個の収音信号をそれぞれ、時間周波数成分に変換する第2のステップと、
第2のステップによって変換されたM個の時間周波数成分に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗じて、隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第3のステップと、
第3のステップによって生成された隣り合う2個の時間周波数成分の組毎に、2チャネルの複数の音響信号を生成する第4のステップと、
全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する第5のステップと
を実行することを特徴とする。
【発明の効果】
【0022】
本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。
【図面の簡単な説明】
【0023】
【
図1】従来技術における円状マイクロフォンアレイの指向性を表す説明図である。
【
図2】本発明のメディア再生装置及び収音録画装置からなるシステム構成図である。
【
図3】本発明におけるメディア再生装置の機能構成図である。
【
図4】ユーザの視聴範囲とマイクロフォンの収音方向との位置関係を表す説明図である。
【
図5】音場の映像範囲と仮想マイクロフォンの位置との関係を表す説明図である。
【
図6】入力音響信号とステレオ音響信号との関係を表す第1の模式図である。
【
図7】入力音響信号とステレオ音響信号との関係を表す第2の模式図である。
【
図8】仮想マイクロフォンと音源との位置関係を表す説明図である。
【
図9】マイクロフォン同士の組を表す説明図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0025】
図2は、本発明のメディア再生装置及び収音録画装置からなるシステム構成図である。
【0026】
<収音録画装置2>
収音録画装置2は、球状マイクロフォンアレイ21と、全方位型カメラ22とから構成されている。
【0027】
[球状マイクロフォンアレイ21]
球状マイクロフォンアレイ21は、複数(M個)のマイクロフォンを幾何学的に並べて、異なる方向からの収音を可能とする(例えば非特許文献2参照)。幾何学的とは、複数のマイクロフォンを等間隔に並べることに限られない。
また、球状マイクロフォンアレイ21に搭載される複数のマイクロフォンは、無指向性のものであってもよいし、指向性を持つものであってもよい。
【0028】
図2によれば、球状マイクロフォンアレイ21は、各マイクロフォンを球表面に配置し、全方位から収音する。勿論、必ずしも球状である必要はなく、3次元的に立体配置されたものであってもよいし、2次元的に平面配置されたものであってもよい。
また、複数のマイクロフォンは、球表面上又は円周上に配置されることなく、例えば直線上、任意の曲線状、地理的な任意の位置上に配置されるものであってもよい。
【0029】
[全方位型カメラ22]
全方位型カメラ22は、複数のカメラそれぞれ異なる方向を撮影し、複数の撮影映像を合成した360度映像を生成する(例えば非特許文献3参照)。360度映像は、音場範囲を撮影した音場映像である。全方位型カメラ22は、球状マイクロフォンアレイ21の収音と同期して撮影する。
【0030】
収音録画装置2は、球状マイクロフォンアレイ21によるマイクロフォン毎の収音信号と、全方位型カメラ22による音場映像とを、メディア再生装置1へ送信する。
【0031】
<メディア再生装置1>
メディア再生装置1は、収音録画装置2から、各マイクロフォンの収音信号と、360度映像とを受信する。
メディア再生装置1は、ユーザが操作可能な端末であって、例えばスマートフォンやタブレット端末のように、少なくともディスプレイ及びスピーカを搭載したものである。
【0032】
図3は、本発明におけるメディア再生装置の機能構成図である。
【0033】
図3によれば、メディア再生装置1は、収音信号記憶部101と、音場映像記憶部102と、ディスプレイ103と、スピーカ104とを有する。
【0034】
収音信号記憶部101は、収音録画装置1から、複数のマイクロフォンそれぞれの収音信号を受信して記憶する。
図2によれば、各収音信号は、同一位置から3次元方向に立体配置されたM(≧2)個のマイクロフォンそれぞれのものである。また、収音信号毎に、同一位置における角度位置も予め記憶している。
【0035】
音場映像記憶部102は、収音録画装置1から、音場範囲を撮影した音場映像を受信して記憶する。
【0036】
ディスプレイ103は、音場映像記憶部102に記憶された映像を視覚的に再生するものである。例えばスマートフォンやタブレットのディスプレイであってもよいし、VRのヘッドマウントディスプレイであってもよい。
ディスプレイ103は、タッチパネルデバイス又はポインティングデバイスによってユーザ操作可能なものであって、表示される視覚範囲の映像に対して、表示位置の変更、及び、表示範囲の拡大又は縮小が可能なものである。
【0037】
スピーカ104は、最終的にミキシングされた音響信号を再生する。ステレオの場合、左チャネル用のスピーカと右チャネル用のスピーカとからそれぞれ、合成された音響信号が出力される。
【0038】
また、メディア再生装置1は、角度区間設定部11と、周波数分析部12と、ビームフォーミング部130と、合成音響信号生成部14とを有する。これら機能構成部は、メディア再生装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、メディア再生方法としても理解できる。
【0039】
[角度区間設定部11]
角度区間設定部11は、ユーザによって選択された、同一収音位置からの任意の角度区間(角周波数ω)を設定する。設定された角度区間は、ビームフォーミング部130へ出力される。
また、角度区間設定部11は、複数のマイクロフォンそれぞれの配置位置の情報を保持する。これによって、配置位置が隣り合うマイクロフォン同士を1つの組として分類する。
【0040】
図4は、ユーザの視聴範囲とマイクロフォンの収音方向との位置関係を表す説明図である。
【0041】
図4(a)によれば、角度区間設定部11は、ディスプレイ103に表示された映像から、収音録画装置2(複数のマイクロフォン)から見た角度区間を取得する。球状マイクロフォンアレイとして複数のマイクロフォンが球表面上に配置された場合、角度区間が取得される。ユーザは、ディスプレイ103に表示される映像の視聴範囲を、自らの操作によって設定することができる。即ち、角度範囲の設定とは、ディスプレイ103に表示される中心位置及びその視聴範囲(視野の角度区間)を設定することとなる。
【0042】
また、角度区間は、複数のマイクロフォンが配置された直線又は曲線に沿った区間であってもよい。円周や曲線であっても、複数のマイクロフォンの位置を直線上に並べて、その区間を設定することができる。
【0043】
図4(a)によれば、配置位置が隣り合うマイクロフォン同士を1つの組として、6個の組が構成されている。このように、円周の閉じた角度区間に複数のマイクロフォンを配置する場合、N個のマイクロフォンに対して、N個の組が設定される。一方、直線状に複数のマイクロフォンを配置する等、閉じていない直線上又は曲線状に複数のマイクロフォンを配置する場合には、N個のマイクロフォンに対して、N-1個の組が設定される。但し、閉じた角度区間に複数のマイクロフォンを配置する場合であっても、その一部の角度区間にのみマイクロフォンを配置する場合には、N個のマイクロフォンに対して、N-1個の組が設定される。
【0044】
[周波数分析部12]
周波数分析部12は、M個の収音信号をそれぞれ、時間区間毎に離散フーリエ変換を実行し、時間周波数成分x(ω)に変換する。時間周波数成分はそれぞれ、入力音響信号(x(ω)=(x1,x2,・・・,xM)T)として、ビームフォーミング部130へ出力される。
【0045】
[ビームフォーミング部130]
ビームフォーミング部130は、周波数分析部12によって変換されたM個の入力音響信号(x(ω)=(x1,x2,・・・,xM)T)に対して、角度区間に仮想マイクロフォンを集中配置するビームフォーミング行列を乗ずる。そして、隣り合う2個の入力音響信号(時間周波数成分)の組毎に、2チャネルの複数の音響信号を生成する。
【0046】
「ビームフォーミング」とは、マイクロフォンアレイを用いて指向性を制御する信号処理をいう(例えば非特許文献1参照)。音源からマイクロフォンへの音波伝搬がそれぞれ異なることに基づいて、遅延及びフィルタにより位相や振幅を制御した信号同士を干渉させて、特定方向からの信号を強調又は低減する。
本発明によれば、「固定ビームフォーミング」を適用する。その中でも、フィルタによって周波数と指向性との関係を変化させる「フィルタ アンド サムビームフォーマ(Filter-and-Sum Beamformer)」を適用する。
【0047】
y(ω)=Σ
n=1
NB
n(ω,n)・x(ω)
x(ω)=(x
1,x
2,・・・,x
M)
T:マイクロフォン毎の入力音響信号
y(ω) =(y
L,y
R)
T:合成した2チャネルのステレオ音響信号
B(ω):視聴範囲に複数の仮想マイクロフォンを集中配置する
ビームフォーミング行列
B
n(ω,n):仮想マイクロフォン毎のビームフォーミング行列
N:M個の入力信号x(ω)の中で隣り合う仮想マイクロフォンペア数
n:仮想マイクロフォンペア毎
【数1】
【0048】
図4(b)によれば、視聴範囲に対して、仮想マイクロフォン毎の音場範囲の幅が制御されている。ここで、各仮想マイクロフォンの収音方向(ビーム方向)は、視聴範囲に集中配置される。例えば、1個の仮想マイクロフォンの組のみの収音方向を、視聴範囲外へ向けて、N-1個の仮想マイクロフォンの組の収音方向を、視聴範囲内へ等角度に向けるものであってもよい。勿論、視聴範囲外へ向ける仮想マイクロフォンの組を、1個とすることなく、任意の個数とするものであってもよい。
【0049】
図5は、音場の映像範囲と仮想マイクロフォンの位置との関係を表す説明図である。
【0050】
図5によれば、収音録画装置2によって全方位を撮影した360度映像を、水平方向の平面状に並べて展開している。メディア再生装置1のディスプレイ103に表示される視聴範囲は、平面状の360度映像の一部(角度区間)となる。即ち、角度区間は、ディスプレイ103に表示された映像の水平方向の表示区間に対応する。
また、隣り合う2個の入力音響信号の組は、ディスプレイ103に表示された映像の水平方向に隣り合うマイクロフォンの収音信号に基づくものとなる。
【0051】
図5(a)によれば、
図4(a)に対応して、マイクロフォンの位置が表されている。マイクロフォンが等角度に配置されている場合、仮想マイクロフォン同士の位置の幅も等しくなる。
図5(b)によれば、
図4(b)に対応して、仮想マイクロフォンの位置が表されている。ここでは、複数の仮想マイクロフォンの収音方向が、視聴範囲に集中配置される。
【0052】
[合成音響信号生成部14]
合成音響信号生成部14は、全ての組における音響信号をチャネル毎に合成して、チャネル毎の音響信号を出力する。チャネル毎の音響信号は、1組のスピーカへ出力される。
y(ω)=Σn=1
NBn(ω,n)・x(ω)
【0053】
図6は、入力音響信号とステレオ音響信号との関係を表す第1の模式図である。
【0054】
図6によれば、複数のマイクロフォンそれぞれからの入力音響信号x(ω)は、各ビームフォーミング部130によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、各ビームフォーミング部130から出力された音響信号は、チャネル毎に加算される。
【0055】
<他の実施形態>
前述した実施形態によれば、ビームフォーミングに注目して説明した。これに対しビームフォーミング部130と共に、スケーリング部131と、シフト部132と、マスキング部133とを更に備えることも好ましい。これら機能構成部については、特許文献2にも詳述されたものである。
【0056】
[スケーリング部131]
スケーリング部131は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の拡縮率となるスケーリング行列(拡縮係数)を乗ずるものである。
スケーリング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
【数2】
K
n(ω,κn):ステレオ幅の拡大又は縮小するスケーリング行列
κ
n:音場範囲を制御するスケーリング(拡縮)係数(0~2)
κ
n=1:変更なし、κ
n<1:縮小、κ
n>1:拡大
φ(ω):2つの音響信号の偏角の主値(-π<Φ(ω)≦πとする整数)
【0057】
例えばユーザが、ディスプレイ103に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκnを大きく、左及び右のκnを小さくする。
【0058】
[シフト部132]
シフト部132は、ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の左右移動のシフト量となるシフト行列(シフト係数)を乗ずるものである。
シフト行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
【数3】
T
n(ω,τ
n):左右に移動させるシフト行列
τ
n:シフト量(-c≦τ
n≦c、c:時間定数)
τ
n<0(負値):左移動、τ
n>0(正値):右移動
【0059】
例えばユーザが、ディスプレイ103に表示される映像の中央を拡大するように操作した場合、中央付近に更なる仮想マイクロフォンを集中させ、中央のκnを変更せず、左側のτnは左移動のために負値に、右側のτnは右移動のために正値とする。
【0060】
[マスキング部133]
ビームフォーミング部130と共に、隣り合う2個の時間周波数成分の組毎に、仮想マイクロフォン間の音場の減衰量となるマスキング行列(減衰係数)を乗ずるものである。
マスキング行列は、ディスプレイ103に映る映像の表示範囲と、ビームフォーミングに基づく仮想マイクロフォンの配置間隔とから決定される。
Mn(ω,mn(ω))=diag(mn(ω),mn+1(ω))
Mn(ω,mn(ω)):複数チャネル間の音場の選択的合成を実現するマスキング行列
mn(ω):マスキング減衰係数(0~1)
mn(ω)=1:通過、mn(ω)<1:抑圧、mn(ω)=0:不通過
マスキング減衰係数は、音場の選択的合成とマイクロフォンの指向性パターンを考慮して、距離減衰の効果を与える。
【0061】
前述したように、ビームフォーミング部130に加えて、スケーリング部131、シフト部132及びマスキング部133を考慮すると、合成音響信号生成部14は、以下のようなステレオ音響信号を生成する。
y(ω)=Σn=1
NMn(ω,mn(ω))Tn(ω,τn)K(ω,κn)Bn(ω,n)・x(ω)
【0062】
図7は、入力音響信号とステレオ音響信号との関係を表す第2の模式図である。
【0063】
図7によれば、複数のマイクロフォンそれぞれからの入力音響信号x(ω)は、各ビームフォーミング部130、スケーリング部131、シフト部132及びマスキング部133によって離散逆フーリエ変換され、右チャネルの音響信号と左チャネルの音響信号とが出力される。そして、最終段のマスキング部133から出力された音響信号は、チャネル毎に加算される。
【0064】
図8は、仮想マイクロフォンと音源との位置関係を表す説明図である。
【0065】
図8によれば、仮想マイクロフォンA及びBの間に、音源C及びDが位置する場合を表す。
仮想マイクロフォンAの入力音響信号A
仮想マイクロフォンBの入力音響信号B
左チャネルの出力音響信号L
右チャネルの出力音響信号R
【0066】
図8(a)によれば、以下のように設定されているとする。
マスキング減衰係数:m
1=1、m
2=1
シフト量:τ=0
スケーリング係数:κ=1
この場合、行列M及びTについては、入力音響信号A及びBを何ら変化させることがなく、以下のような出力音響信号となる。
出力音響信号R=入力音響信号A
出力音響信号L=入力音響信号B
そのために、仮想マイクロフォンA及びBの位置にスピーカを置いて音響信号R及びLでそれぞれを駆動すると、マイクロフォンA及びBが配置されている方向における音場範囲は、マイクロフォンA及びBの収音範囲と同等になる。
図8(a)における音源C及びDの位置では、中央破線の位置は、マイクロフォンAとBとの中間位置である。この場合、出力音響信号となる音源C及び音源Dの音像の位置は、音源C及び音源Dの配置位置と同じ位置となる。
【0067】
図8(b)によれば、以下のように設定されているとする。
マスキング減衰係数:m
1=1、m
2=1
シフト量:τ=0
ここで、スケーリング係数κ<1の音場範囲は、κ=1の音場範囲よりも短くなる。このとき、マイクロフォンA及びBの位置に配置したスピーカから出力音響信号R及び音響信号Lで駆動すると、音源Cの音像の位置は、音源Cの配置位置と同じ中央破線になる。しかしながら、音源Dの音像の位置は、音源Dの配置位置より中央破線に近づくようになる。
逆に、スケーリング係数κ>1の音場範囲は、κ=1の音場範囲よりも長くなる。
【0068】
図8(a)(b)のように、τ=0のとき、行列Tは、入力音響信号A及びBに何ら影響を与えない。一方で、τ≠0のとき、行列Tは、入力音響信号A及びBにそれぞれ同じ絶対値で異なる符号の位相変化を与える。そのために、音像の位置がτの値に応じてマイクロフォンA又はBの方向にシフトする。尚、シフトの方向は、τの正負に応じて決定され、τの絶対値が大きくなるほど、そのシフト量は大きくなる。
【0069】
図8(c)によれば、
図8(b)の音場範囲となるκとした上で、τ≠0に設定したときの音場範囲を表している。音源C及びDの音像の位置は、
図8(b)よりも左側にシフトしている。
【0070】
尚、
図8については、説明のためにスピーカをマイクロフォンA及びBの位置に置くものとしたが、RチャネルとLチャネルの2つのスピーカを設置する距離は任意の距離とすることができる。この場合、音場範囲はスピーカの配置距離に応じたものにもなる。
【0071】
図9は、マイクロフォン同士の組を表す説明図である。
【0072】
最初に、視聴範囲の角度区間内に少なくとも1つのマイクロフォンが含まれるか否かを判定する。
図9(a)によれば、角度区間内に少なくとも1つのマイクロフォンが含まれる場合を表す。
第1組:両方のマイクロフォンが角度区間に含まれる組
第2組:両方のマイクロフォンが共に角度区間に含まれない組
第3組:一方のマイクロフォンが角度区間に含まれ、他方のマイクロフォンが角度
区間に含まれない組
L1:一方のマイクロフォンの位置から角度区間境界までの重複区間
L2:他方のマイクロフォンの位置から角度区間境界までの非重複区間
【0073】
図9(b)によれば、マイクロフォンが1つも角度区間内に含まれない場合である。この場合、以下のようにする。
第3組:角度区間に最も近い2つのマイクロフォンの組
両方のマイクロフォンの位置から角度区間境界までの2つの非重複区間
第2組:上記の第3組以外のマイクロフォンの組
【0074】
第1組について、例えばτ=0、κ=1、mA=0、mB=0とする。即ち、音場の拡縮、シフト、減衰をさせないとする。
一方で、第3組について、κ及びτは、音場範囲が重複区間に応じたものとなるように設定する。即ち、第3組のスケーリング係数κを、重複区間の長さL1に基づいて設定する。具体的には、第3組の2つのマイクロフォン間の距離Lとして、L1/Lの拡縮率となるように、当該第3組に対するスケーリング係数κを決定する。これによって、第3組の重複区間の長さが短くなるほど、音場範囲を短くするように当該第3組のスケーリング係数κを決定する。
また、重複区間の中心位置に音場の中心位置がくるように第3組のシフト係数τを設定する。そのために、2つのマイクロフォンの配置位置の中心と重複区間の中心との距離に応じて第3組のシフト係数を決定する。
更に、第3組の2つのマイクロフォンの減衰係数について、mA=1及びmB=1に設定する。又は、第3組について、角度区間に含まれるマイクロフォンの減衰係数を、第1組の2つのマイクロフォンの減衰係数と同じ値に設定する。これによって、角度区間に含まれないマイクロフォンの減衰係数については、角度区間に含まれるマイクロフォンの減衰量より大きい減衰量となるように設定する。又は、第3組の角度区間に含まれないマイクロフォンの減衰係数については、非重複区間の長さ、即ち、マイクの配置位置から視聴範囲の角度区間までの最短距離L2が大きくなるほど、減衰量が大きくなるように設定する。
【0075】
第2組については、第1組と同様に、例えばτ=0、κ=1とする。ここで、2つのマイクロフォンの減衰係数については、第1組及び第3組のマイクに対して設定した減衰係数より減衰量が大きくなる値に設定する。例えば第2組の2つのマイクロフォンの減衰係数を減衰量が最大となる値、即ち、0に設定するか、又は、0に近い所定の値に設定する。
【0076】
図9(c)によれば、以下のような組となる。
第3組:マイクロフォンA及びBの組
第3組:マイクロフォンA及びCの組
第2組:その他の組は
ここで、第2組のマイクロフォンに対する減衰量は大きいため、これらの組の音響信号は、出力音響信号R及びLには殆ど含まれなくなる。
【0077】
以上、詳細に説明したように、本発明の装置、プログラム及び方法によれば、ユーザにとって視覚的な映像範囲と聴覚的な音場範囲とに乖離を感じないように、複数のマイクロフォンの収音信号をミキシングすることができる。
本発明によれば、ユーザにとって、音像の高い定位精度を持つ360度動画のインタラクティブ視聴を提供することができる。
【0078】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0079】
1 メディア再生装置
101 収音信号記憶部
102 音場映像記憶部
103 ディスプレイ
104 スピーカ
11 角度区間設定部
12 周波数分析部
130 ビームフォーミング部
131 スケーリング部
132 シフト部
133 マスキング部
14 合成音響信号生成部
2 収音録画装置
21 球状マイクロフォンアレイ
22 全方位型カメラ