(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-14
(45)【発行日】2023-12-22
(54)【発明の名称】異なる音場の複数の録音音響信号を合成する音響信号合成装置、プログラム及び方法
(51)【国際特許分類】
G10K 15/12 20060101AFI20231215BHJP
G10K 15/00 20060101ALI20231215BHJP
H04S 7/00 20060101ALN20231215BHJP
【FI】
G10K15/12
G10K15/00 L
H04S7/00 350
(21)【出願番号】P 2020207541
(22)【出願日】2020-12-15
【審査請求日】2023-02-10
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】大久保 翔太
(72)【発明者】
【氏名】堀内 俊治
【審査官】中嶋 樹理
(56)【参考文献】
【文献】特開2020-145577(JP,A)
【文献】特開平03-290697(JP,A)
【文献】特開2003-122378(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/12
G10K 15/00
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
異なる音場で収音された複数の録音音響信号yを合成する音響信号合成装置において、
所定残響特性hxを記憶する残響特性記憶手段と、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号y'nを、合成音響信号y'として合成する音響信号合成手段と
を有
し、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする音響信号合成装置。
【請求項2】
所定残響特性hxは、
予め決定された残響特性、
複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性、又は、
複数の音場におけるいずれか1つの録音音場残響特性に設定した残響特性
とすることを特徴とする請求項1に記載の音響信号合成装置。
【請求項3】
残響特性整合手段は、所定残響特性hxと、各音場の録音音場残響特性hnの逆フィルタ残響特性hn
-1とを畳み込んだ差分残響特性hx*hn
-1を、各音場の音響信号ynに畳み込む(y'n=yn*(x*hn
-1))
ことを特徴とする請求項1
又は2に記載の音響信号合成装置。
【請求項4】
残響特性記憶手段は、スピーカから再生される音場における再生音場残響特性hmを更に記憶しており、
合成音響信号y'に、再生音場残響特性hmの逆フィルタ残響特性hm
-1を畳み込むことによって再生音場音響信号y''(=y'*hm
-1)を生成する再生音場音響信号生成手段
を更に有することを特徴とする請求項1から
3のいずれか1項に記載の音響信号合成装置。
【請求項5】
残響特性記憶手段は、ユーザ自ら所望する疑似音場残響特性hlを更に記憶しており、
再生音場音響信号y''に、疑似音場残響特性hlを畳み込むと共に、所定残響特性hxの逆フィルタ残響特性hx
-1を畳み込むことによって、疑似音場音響信号y'''(=y''*hx
-1*hl)を生成する疑似音場音響信号生成手段
を更に有することを特徴とする請求項
4に記載の音響信号合成装置。
【請求項6】
複数の音響信号は、オンライン電話システム、ビデオ会議システム、Web会議システム、又は、リモートセッションシステムに基づくものである
ことを特徴とする請求項1から
5のいずれか1項に記載の音響信号合成装置。
【請求項7】
請求項1から
6のいずれか1項に記載された音響信号合成装置としての端末であって、
各音場に配置された複数の他の端末から受信した録音音響信号ynを同時に受信し、
各音場の端末から受信した録音音響信号ynを合成し、合成音響信号y'をスピーカから再生する
ことを特徴とする端末。
【請求項8】
請求項1から
6のいずれか1項に記載された音響信号合成装置としてのサーバと、各音場に配置された複数の端末とが、ネットワークを介して録音音響信号ynを同時に送受信するシステムであって、
サーバは、各音場の端末から受信した録音音響信号ynを合成し、合成音響信号y'を任意の音場の端末へ送信する
ことを特徴とするシステム。
【請求項9】
異なる音場で収音された複数の録音音響信号yを合成するようにコンピュータを機能させるプログラムにおいて、
所定残響特性hxを記憶する残響特性記憶手段と、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号y'nを、合成音響信号y'として合成する音響信号合成手段としてコンピュータを機能させ
、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とするプログラム。
【請求項10】
異なる音場で収音された複数の録音音響信号yを合成する装置の音響信号合成方法において、
装置は、
所定残響特性hxを記憶しており、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する第1のステップと、
整合された複数の音響信号y'nを、合成音響信号y'として合成する第2のステップと
を実行
し、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする音響信号合成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音響信号を合成する技術に関する。特に、異なる音場で収音された複数の音響信号を、ネットワークを介して受信し且つ再生するシステムに適する。
【背景技術】
【0002】
例えばSkype(登録商標)やZoom(登録商標)のようなWeb会議システムが、一般的に利用されている。このようなシステムによれば、複数のユーザの端末がそれぞれ、遠隔地に位置し、ネットワークを介して多対地に接続される。そして、端末同士で相互に、ユーザの顔映像や発話音声の情報を送受信し、人間同士の対面会話環境を提供する。このとき、聞き手のユーザにとって、話し手のユーザの発話音声に、残響音及び周辺環境音が混在したり、遅延が生じたとしても、会話に支障がない程度であれば継続できる。
【0003】
近年、異なる拠点に滞在する演奏家同士が、ネットワークを介して、リアルタイムな音楽合奏環境を提供するサービスもある(例えば非特許文献1参照)。演奏家同士は互いの音を聞きながら演奏するために、このサービスの場合、音声データの遅延をできる限り小さくする技術を採用している。
大気中での音の速度を約340m/sとすると、5m離れた相手に音が届くには、15msの遅延が発生する。現実的に、この程度の遅延であれば、人間は問題なく合奏をすることができる。一方で、音の遅延が大きくなるほど、合奏が難しくなる。
非特許文献1に記載の技術は、ネットワーク接続時に接続コンディションを計測し、音声データのバッファサイズをできる限り小さくすることによって、遅延を小さくしている。接続後も、音声データの遅延幅を常に監視し、自動的に音声データを補正し、ネットワークの揺らぎを吸収する。これによって、ネットワークを介した音楽合奏環境を提供している。
【0004】
尚、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第6085538号公報
【文献】特開平05-083786号公報
【非特許文献】
【0006】
【文献】「SYNCROOM」、YAMAHA、[online]、[令和2年11月16日検索]、インターネット<URL:https://syncroom.yamaha.com/>
【文献】「室内音響の測定、-インパルス応答の読み方-」、[online]、[令和2年11月16日検索]、インターネット<URL:https://www.noe.co.jp/technology/04/04inv1.html>
【文献】「Swept-Sine(TSP)信号を使ったインパルス応答測定(python)」、[online]、[令和2年11月16日検索]、インターネット<URL:http://samuiui.com/2019/06/10/swept-sinetsp信号を使ったインパルス応答測定python/>
【文献】電子情報通信学会「知識の森」、「4-2 残響抑圧」、[online]、[令和2年11月16日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_04.pdf>
【文献】「FDTD法による音響シミュレーション」、[online]、[令和2年11月16日検索]、インターネット<URL:http://samuiui.com/2019/06/03/fdtd法による音響シミュレーション/>
【文献】「Demo, download and share acoustic impulse responses for auralization」、[online]、[令和2年11月16日検索]、インターネット<URL:https://www.openair.hosted.york.ac.uk>
【文献】「静岡県清水町地域交流センター多目的ホール コンサートも可能な音響特性に改善する」、[online]、[令和2年11月16日検索]、インターネット<URL:http://www.salogic.com/Shimizu-cho-Hall/shimizu-cho-hall01.html>
【文献】「残響、残響時間(RT60)、反射音」、[online]、[令和2年12月8日検索]、インターネット<URL:http://www.ari-web.com/service/kw/sound/reverb.htm>
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、非特許文献1のような技術を用いて、できる限り遅延を小さくできたとしても、聞き手には臨場感に乏しいと感じられる。
ここで、本願の発明者らは、異なる音場で収音された音響信号について、各音場の残響特性の相違が、臨場感の低下につながっているのではないか、と考えた。
【0008】
「残響」とは、音源からの音波が、壁、天井、床などに反射しながらエネルギー減衰し、様々な方向から遅れて到達する複雑な組合せの反射音をいう。音源からの音波でどこにも反射せずに収音された直接音に続いて、壁などに反射した反射音が収音される。残響特性とは、室内毎に相違する例えば反射音の性質をいう。
【0009】
例えば全く同じ音響信号を異なる拠点で再生させた場合、その拠点毎の残響特性が影響して、人間の聴覚的には異なる音響信号として聞こえる。例えばインパルス信号としての1回の手合わせ音であっても、自宅における手合わせ音と、コンサートホールにおける手合わせ音と、野外における手合わせ音と、ライン録音(無響)における手合わせ音とは、人間の聴覚的には全く異なる音響信号として聞こえる。
【0010】
また、非特許文献1のような音楽合奏環境の場合、異なる音場で収音された音響信号はそれぞれ、異なる残響特性が収音されたものとなる。自宅に滞在する演奏家もいれば、防音加工のあるスタジオに滞在する演奏家、楽器を直接的にライン接続した演奏家もいる。それらの音響信号を単に合成した場合、異なる残響特性も混在することとなる。また、異なる残響特性が混在した音響信号は、スピーカから出力される際に、その再生音場の残響特性の影響も二重に反映されることとなる。
このように、異なる音場で収音された音響信号について、各音場の残響特性の相違が、臨場感の低下につながっていると考えられる。
【0011】
そこで、本発明は、異なる音場で収音された複数の音響信号を、残響特性が統一化(均質化)されるべく合成する音響信号合成装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明によれば、異なる音場で収音された複数の録音音響信号yを合成する音響信号合成装置において、
所定残響特性hxを記憶する残響特性記憶手段と、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号y'nを、合成音響信号y'として合成する音響信号合成手段と
を有し、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。
【0013】
本発明の音響信号合成装置における他の実施形態によれば、
所定残響特性hxは、
予め決定された残響特性、
複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性、又は、
複数の音場におけるいずれか1つの録音音場残響特性に設定した残響特性
とすることも好ましい。
【0015】
本発明の音響信号合成装置における他の実施形態によれば、
残響特性整合手段は、所定残響特性hxと、各音場の録音音場残響特性hnの逆フィルタ残響特性hn-1とを畳み込んだ差分残響特性hx*hn-1を、各音場の音響信号ynに畳み込む(y'n=yn*(x*hn-1))
ことも好ましい。
【0016】
本発明の音響信号合成装置における他の実施形態によれば、
残響特性記憶手段は、スピーカから再生される音場における再生音場残響特性hmを更に記憶しており、
合成音響信号y'に、再生音場残響特性hmの逆フィルタ残響特性hm-1を畳み込むことによって再生音場音響信号y''(=y'*hm-1)を生成する再生音場音響信号生成手段
を更に有することも好ましい。
【0017】
本発明の音響信号合成装置における他の実施形態によれば、
残響特性記憶手段は、ユーザ自ら所望する疑似音場残響特性hlを更に記憶しており、
再生音場音響信号y''に、疑似音場残響特性hlを畳み込むと共に、所定残響特性hxの逆フィルタ残響特性hx-1を畳み込むことによって、疑似音場音響信号y'''(=y''*hx-1*hl)を生成する疑似音場音響信号生成手段
を更に有することも好ましい。
【0018】
本発明の音響信号合成装置における他の実施形態によれば、
複数の音響信号は、オンライン電話システム、ビデオ会議システム、Web会議システム、又は、リモートセッションシステムに基づくものである
ことも好ましい。
【0019】
本発明によれば、前述した音響信号合成装置としての端末であって、
各音場に配置された複数の他の端末から受信した録音音響信号ynを同時に受信し、
各音場の端末から受信した録音音響信号ynを合成し、合成音響信号y'をスピーカから再生する
ことを特徴とする。
【0020】
本発明によれば、前述した音響信号合成装置としてのサーバと、各音場に配置された複数の端末とが、ネットワークを介して録音音響信号ynを同時に送受信するシステムであって、
サーバは、各音場の端末から受信した録音音響信号ynを合成し、合成音響信号y'を任意の音場の端末へ送信する
ことを特徴とする。
【0021】
本発明によれば、異なる音場で収音された複数の録音音響信号yを合成するようにコンピュータを機能させるプログラムにおいて、
所定残響特性hxを記憶する残響特性記憶手段と、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号y'nを、合成音響信号y'として合成する音響信号合成手段としてコンピュータを機能させ、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。
【0022】
本発明によれば、異なる音場で収音された複数の録音音響信号yを合成する装置の音響信号合成方法において、
装置は、
所定残響特性hxを記憶しており、
各音場の録音音響信号yn(=原音響信号xn*録音音場残響特性hn)について、録音音場残響特性hnが所定残響特性hxに一致するように、残響特性を整合する第1のステップと、
整合された複数の音響信号y'nを、合成音響信号y'として合成する第2のステップと
を実行し、
所定残響特性hxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。
【発明の効果】
【0023】
本発明の音響信号合成装置、プログラム及び方法によれば、異なる音場で収音された複数の音響信号を、残響特性が統一化(均質化)されるべく合成することができる。これによって、ネットワークを介したコミュニケーションシステムについて、臨場感を高めた音場環境を提供することができる。
【図面の簡単な説明】
【0024】
【
図1】本発明における第1のシステム構成図である。
【
図2】本発明における第2のシステム構成図である。
【
図3】原音響信号と残響特性と録音音響信号との関係を表す説明図である。
【
図4】本発明における音響信号合成装置の機能構成図である。
【
図6】本発明における残響特性記憶部に記憶された残響特性を表す説明図である。
【
図7】本発明における残響特性整合部の説明図である。
【
図8】本発明における音響信号合成部の説明図である。
【
図9】本発明における再生音場音響信号生成部の説明図である。
【
図10】本発明における疑似音場音響信号生成部の説明図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0026】
図1は、本発明における第1のシステム構成図である。
【0027】
複数の端末は、異なる拠点に位置し、ネットワークを介して接続されている。
これら端末は、自らの拠点の音響信号をマイクで収音し、その録音音響信号をネットワークを介して相手方端末へ送信する。これと同時に、自らの拠点の映像をカメラで取得し、その映像信号も相手方端末へ送信することもできる。
一方で、複数の端末から録音音響信号を受信した端末は、それら録音音響信号を合成し、スピーカから再生する。これと同時に、映像信号も受信した場合、アプリケーションによってディスプレイに各拠点の映像を映し出す。
【0028】
図1によれば、リモートセッションシステムについて記載されている。ここでは、異なる拠点に位置する複数の演奏家が、ネットワークを介して音楽合奏をしているとする。勿論、本発明はリモートセッションシステムに限られるものではなく、オンライン電話システム、ビデオ会議システム又はWeb会議システムに基づくものであってもよい。
【0029】
本発明によれば、音声信号の受信側となる端末1における「音響信号合成機能」に特徴がある。端末1は、各音場に配置された複数の他の端末から受信した録音音響信号ynを同時に受信し、それら録音音響信号ynを合成し、その合成音響信号y'をスピーカから再生する。
【0030】
図2は、本発明における第2のシステム構成図である。
【0031】
図2によれば、
図1と異なって、音響信号合成装置としてのサーバが配置されている。
サーバは、各音場に配置された複数の端末に対して、ネットワークを介して音響信号及び映像信号を同時に送受信するものである。サーバは、各音場の端末から受信した録音音響信号ynを合成し、その合成音響信号y'を任意の音場の端末へ送信する。
【0032】
図3は、原音響信号と残響特性と録音音響信号との関係を表す説明図である。
【0033】
図3によれば、例えばギターのような音源と、その音響を収音するマイクとが配置されているとする。
この場合、マイクには、ギターの原音響信号xnに、録音音場の残響特性hnが畳み込まれた録音音響信号ynが収音されることとなる。
録音音響信号yn=原音響信号xn*録音音場残響特性hn
*:畳み込み演算
勿論、録音音響信号ynは、演奏者自らの耳(聴覚)に入る音響信号と同じものである。
また、録音音場残響特性hnは、一般的にインパルス応答に基づくものである。
【0034】
図4は、本発明における音響信号合成装置の機能構成図である。
図5は、本発明におけるフローチャートである。
【0035】
図4によれば、端末1に、音響信号合成機能が搭載されており、異なる音場で収音された複数の録音音響信号yを合成する。
音響信号合成装置としての端末1は、残響特性記憶部10と、残響特性整合部11と、音響信号合成部12と、再生音場音響信号生成部13と、疑似音場音響信号生成部14と、音響信号再生部15と、映像再生部16と、メディア分離部17とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、音響信号合成方法としても理解できる。
【0036】
端末1は、ネットワークを介して音響信号を受信すると共に、映像信号も同時に受信するものであってもよい。これら信号は、メディア分離部17によって、音響信号及び映像信号と区分される。そして、音響信号は、残響特性整合部11へ出力され、映像信号は、映像再生部16へ出力される。映像再生部16は、受信した複数の映像を同時に、ディスプレイに表示する。
【0037】
[残響特性記憶部10]
残響特性記憶部10は、所定残響特性hxを記憶するものである。
「残響特性」とは、部屋の形状や壁の材質などに由来する残響時間や周波数の変化を含めた音響変化をいう。部屋に残響が存在する環境下で、マイクから離れた音源からの音を収音する場合、音源からの直接音に加えて残響も一緒に収音され音が変形する。その拠点毎の残響特性に応じて、人間の聴覚的には異なる音響信号として聞こえる。
【0038】
残響特性として代表的には、室内の音の響きの状態を表す指標として「残響時間」があり、時間経過に対する振幅の変化を意味する。この残響時間の評価尺度に、「インパルス応答」が用いられる。インパルス応答は、例えば音楽合奏環境(ホールや、スタジオなど)に基づく残響特性の評価尺度の殆どに、一般的に用いられている。
【0039】
残響時間は、室内の音のエネルギーが-60dB(100万分の1)になるまでの時間をRT60と表記する(例えば非特許文献8参照)。一般的なサウンドレベルメータ(騒音計)で残響時間を測定する場合は、音源からピンクノイズやピストルの発射音などを発生させ、その残響音のレベルが減衰するまでの時間を計測する。
【0040】
図6は、本発明における残響特性記憶部に記憶された残響特性を表す説明図である。
【0041】
図6(a)によれば、残響特性は、「インパルス信号」を無指向性スピーカから発生させ、マイクによって直接的に録音した音響信号について、時間経過に対する振幅変位である。即ち、音場で、事前に、インパルス信号を発生させ、録音した音響信号をそのままインパルス応答として計測することができる(例えば非特許文献3参照)。
【0042】
図6(b)によれば、残響特性は、インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたSS(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である。
【0043】
インパルス信号は、ある1点でのみエネルギーを持つ信号である。しかしながら、電気信号をスピーカから放射させる時も、エネルギーに限界がある。そのために、エネルギーの大きい時間伸長信号としてのSS信号を放射し、収音時に時間圧縮の演算処理を実行する。パルスであるために、聴感上も残響を感じることできる。
【0044】
インパルス信号を時間軸に伸長した信号は、TSP(Time-Stretched Pulse)信号であって、周波数の低い方から高い方へ掃引されたsin波という意味で「SS信号」と称される。雑音と残響とは、妨害音という点で類似するものである。しかしながら、雑音は、音源信号との無相関性を持つが、残響は、パワーの大きな残響の初期反射部分について音源信号と強い相関性を持つ。
【0045】
SS信号をスピーカから発生すると共に、マイクでその音響信号を収音し、その録音音響信号にSS信号の逆関数(逆フィルタ)を畳み込むことによってインパルス応答を検出する(例えば非特許文献2参照)。SS信号の逆関数は、経過時間に伴って周波数が降下するSS信号となる。
尚、収音された音響信号から残響特性を除去/抑圧するために、他の技術を適用することもできる(例えば非特許文献4参照)。
【0046】
勿論、残響特性として、時間領域有限差分法に基づくFDTD法(Finite-Difference Time-Domain)を用いることもできる(例えば非特許文献5参照)。この技術は、音の振る舞いを表す式を差分によって表現したものを、時間変化させていくことで音の伝搬をシミュレートするものである。
【0047】
尚、残響特性としては、残響時間以外に、以下のような評価尺度の情報項目であってもよい。
・「初期残響時間」 :残響減衰の初期10dB部分の減衰傾斜に基づく残響時間
・「時間重心」 :主観的に感じられる響きの量
・「Clarity」 :直接音と残響音とのエネルギー比[対数]で表される
音の明瞭度
・「直接音全エネルギー比」:直接音と全体(直接音+残響音)とのエネルギー比で
表される主にスピーチの明瞭度
・「初期側方反射音と直接音のエネルギー比」
・「初期側方反射音+後続反射音と直接音のエネルギー比」
・「両耳相互相関係数」
・「ダミーヘッド録音」
【0048】
残響特性記憶部10に記憶された「所定残響特性hx」としては、複数の音場の残響特性を統一化(均質化)する基準を表す。例えば以下のものがある。
(1)予め決定された残響特性
(2)複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性
(3)複数の音場におけるいずれか1つの録音音場残響特性に設定した残響特性
所定残響特性hxを、いずれの残響特性にするかは、オペレータ又はユーザによって設定される。
【0049】
図6によれば、残響特性記憶部10は、各録音音場の残響特性のデータと、再生音場の残響特性のデータと、疑似音場の残響特性のデータとが、予め記憶されたものであってもよい。勿論、その音場で予め計測されたデータに限られず、部屋のタイプによって予測(想定)されるデータであってもよい。録音音場又は再生音場であれば、「家の個室」「スタジオ」「ライン(無響)」などであり、疑似音場としては、「コンサートホール」「スタジオ」「野外ステージ」などである。様々な疑似音場の残響特性のデータは、Webサイトでも公開されている(例えば非特許文献6参照)。
【0050】
[残響特性整合部11]
残響特性整合部11は、各音場の録音音響信号ynについて、録音音場残響特性hnが所定残響特性hxに一致(統一化又は均質化)するように、残響特性を整合する。
整合された各音場の音響信号は、音響信号合成部12へ出力される。
【0051】
録音音場のインパルス応答(録音音場残響特性hn)が、所定のインパルス応答(所定残響特性hx)に一致するように整合させる。
具体的には、残響特性整合部11は、所定残響特性hxと、各音場の録音音場残響特性hnの逆フィルタ残響特性hn-1とを畳み込んだ差分残響特性hx*hn-1を、各音場の音響信号ynに畳み込む。
y'n=yn*(hx*hn-1)
=(xn*hn)*(hx*hn-1)
=xn*hx
【0052】
残響特性は、インパルス応答による変形であるために、その残響特性を打ち消す逆フィルタ(h-1)によって、その残響特性を除去することができる。
逆フィルタとしては、例えばMINT法が一般的に用いられている。これは、部屋を入出力の線形システムでモデル化し、逆フィルタが安定となる条件を導き出し、その安定な逆フィルタによって残響特性を除去する。
【0053】
図7は、本発明における残響特性整合部の説明図である。
y1=x1*h1 -> y'1=y1*(hx*h1
-1)
=(x1*h1)*(hx*h1
-1)
=x1*hx
y2=x2*h2 -> y'2=y2*(hx*h2
-1)
=(x2*h2)*(hx*h2
-1)
=x2*hx
y3=x3*h3 -> y'3=y3*(hx*h3
-1)
=(x3*h3)*(hx*h3
-1)
=x3*hx
【0054】
[音響信号合成部12]
音響信号合成部12は、整合された複数の音響信号y'nを、合成音響信号y'として合成する。複数の音響信号y'nは全て、所定残響特性hxに統一化されているので、合成音響信号y'も、所定残響特性hxに統一化されている。
そして、合成音響信号y'は、再生音場音響信号生成部13へ出力される。
【0055】
図8は、本発明における音響信号合成部の説明図である。
【0056】
図8によれば、以下のように合成音響信号y'として合成されている。
y'=y'1+y'2+y'3
=(y1*hx)+(y2*hx)+(y3*hx)
=(y1+y2+y3)*hx
【0057】
[再生音場音響信号生成部13]
残響特性記憶部10は、スピーカから再生される音場における再生音場残響特性hmを更に記憶している。再生音場とは、例えば音楽合奏を試聴するユーザの自室である場合もれば、音楽合奏の演奏家それぞれの室内の場合もある。
ここで、再生音場音響信号生成部13は、合成音響信号y'に、再生音場残響特性hmの逆フィルタ残響特性hm-1を畳み込むことによって再生音場音響信号y''(=y'*hm-1)を生成する。
【0058】
図9は、本発明における再生音場音響信号生成部の説明図である。
【0059】
図9によれば、例えば自室における再生音場残響特性hmとすると、その自室で合成音響信号y'をスピーカから発生した場合、以下のような音響信号となってユーザに聞こえる。
y''=y'*hm=((y1+y2+y3)*hx)*hm
そこで、更に、再生音場残響特性hmの逆フィルタ残響特性hm
-1を畳み込むことによって再生音場音響信号y''(=y'*hm
-1)を生成する。
y''=(y'*hm)*hm
-1
=((y1+y2+y3)*hx)*hm*hm
-1
=(y1+y2+y3)*hx
【0060】
[疑似音場音響信号生成部14]
残響特性記憶部10は、ユーザ自ら所望する疑似音場残響特性hlを更に記憶している。疑似音場とは、例えばコンサートホールや野外ステージのような自室とは異なる、ユーザ所望の室内を意味する。
疑似音場残響特性hlを、いずれの残響特性にするかは、オペレータ又はユーザによって設定される。
【0061】
ここで、疑似音場音響信号生成部14は、再生音場音響信号y''に、疑似音場残響特性hlを畳み込むと共に、所定残響特性hxの逆フィルタ残響特性hx-1を畳み込むことによって、疑似音場音響信号y'''(=y''*hx-1*hl)を生成する。
最終的に生成された疑似音場音響信号y'''は、音響信号再生部16へ出力される。
【0062】
図10は、本発明における疑似音場音響信号生成部の説明図である。
【0063】
例えばコンサートホールにおける疑似音場残響特性hlとすると、その自室で合成音響信号y'をスピーカから発生した場合、以下のような音響信号となってしまう。
y'''=((y1+y2+y3)*hx)*hl
ここでは、所定残響特性hxと疑似音場残響特性hlとが混在してしている。
そのために、所定残響特性hxの逆フィルタ残響特性hx-1を畳み込む。
y'''=((y1+y2+y3)*hx)*hl*hx-1
【0064】
[音響信号再生部15]
音響信号再生部15は、疑似音場音響信号生成部14から出力された音響信号を、スピーカから再生する。
勿論、音響信号再生部15は、音響信号合成部12又は再生音場音響信号生成部13から出力された音響信号を、スピーカから再生するものであってもよい。いずれの音響信号であっても、残響特性hが統一化(均質化されている。)
尚、スピーカは、サラウンドシステムに基づくものであってもよい。
【0065】
以上、詳細に説明したように、本発明の音響信号合成装置、プログラム及び方法によれば、異なる音場で収音された複数の音響信号を、残響特性が統一化(均質化)されるべく合成することができる。これによって、ネットワークを介したコミュニケーションシステムについて、臨場感を高めた音場環境を提供することができる。
【0066】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0067】
1 音響信号合成装置、端末、サーバ
10 残響特性記憶部
11 残響特性整合部
12 音響信号合成部
13 再生音場音響信号生成部
14 疑似音場音響信号生成部
15 音響信号再生部
16 映像再生部
17 メディア分離部