(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】音響材料特性推定プログラム、装置及び方法、並びに音響シミュレーションプログラム
(51)【国際特許分類】
G10K 15/00 20060101AFI20240730BHJP
【FI】
G10K15/00 L
G10K15/00 M
(21)【出願番号】P 2021110648
(22)【出願日】2021-07-02
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】大久保 翔太
(72)【発明者】
【氏名】堀内 俊治
【審査官】川▲崎▼ 博章
(56)【参考文献】
【文献】国際公開第2019/244315(WO,A1)
【文献】特開2012-173445(JP,A)
【文献】藤田 健斗,打撃音の特徴抽出と材質の判別,修士論文、東京大学,日本,東京大学,2020年03月23日,[オンライン],[検索日 2024.4.23],インターネット:<URL:https://irdb.nii.ac.jp/00926/0004658950>
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/00
(57)【特許請求の範囲】
【請求項1】
音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
前記音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及
び模様若しくはテクスチャに係る情報
のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された
当該少なくとも模様若しくはテクスチャに係る情報
と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
してコンピュータを機能させることを特徴とする音響材料特性推定プログラム。
【請求項2】
当該音響材を含む画像は、前記音空間内で取得された点群から生成された画像であって、前記画像領域分割手段は、各画像領域における少なくとも当該模様若しくはテクスチャに係る情報を決定することを特徴とする請求項
1に記載の音響材料特性推定プログラム。
【請求項3】
当該音響材を含む画像は色を含む画像であって、前記画像領域分割手段は、各画像領域における少なくとも当該色に係る情報を決定し、
前記音響材種別決定手段は、少なくとも決定された当該色に係る情報
も用いて、当該音響材の種別を決定する
ことを特徴とする請求項
1に記載の音響材料特性推定プログラム。
【請求項4】
当該音響材を含む画像は、前記音空間内において色画像の生成可能なデプスカメラによって生成された色を含む画像であって、前記画像領域分割手段は、各画像領域における少なくとも当該色に係る情報を決定し、
前記音響材種別決定手段は、前記音空間内で前
記デプスカメラを用いて取得された点群に係る情報も用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定することを特徴とする請求項1から
3のいずれか1項に記載の音響材料特性推定プログラム。
【請求項5】
音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
前記音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及
び模様若しくはテクスチャに係る情報
のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された
当該少なくとも模様若しくはテクスチャに係る情報
と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材料特性推定モデルにより、当該画像領域に係る当該音響材の音響材料特性を決定する音響材料特性決定手段と
してコンピュータを機能させることを特徴とする音響材料特性推定プログラム。
【請求項6】
前記音響材料特性決定手段は、前記音空間内で取得された点群に係る情報も用いて、学習済みの音響材料特性推定モデルにより、当該画像領域に係る当該音響材の音響材料特性を決定することを特徴とする請求項
5に記載の音響材料特性推定プログラム。
【請求項7】
音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
前記音空間内で取得された点群を、点間の距離に基づき対象点群に分類した際の当該対象点群に係る情報と、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材料特性推定モデルにより、当該音響材の音響材料特性を決定する音響材料特性決定手段
としてコンピュータを機能させることを特徴とする音響材料特性推定プログラム。
【請求項8】
請求項1から
7のいずれか1項に記載の音響材料特性推定プログラムを包含しており、前記音空間のインパルス応答を決定するコンピュータを機能させる音響シミュレーションプログラムであって、
前記音響材料特性推定プログラムによって決定された当該音響材の音響材料特性を境界条件とした音響シミュレーションによって、前記音空間のインパルス応答を算出する音響シミュレーション手段
としてコンピュータを更に機能させることを特徴とする音響シミュレーションプログラム。
【請求項9】
算出された当該インパルス応答を用いて、前記音空間の逆フィルタを算出する逆フィルタ生成手段としてコンピュータを更に機能させることを特徴とする請求項
8に記載の音響シミュレーションプログラム。
【請求項10】
前記音空間内に音源としてのスピーカ及び収音手段としてのマイクが設置されている場合に、前記音空間の音響特性が除去・抑制されていて前記スピーカ及び前記マイクの音響特性は残存した音響信号を取得すべく、
原信号を入力とした前記スピーカによって出力された音を収音した前記マイクから出力された音響信号に対し、又は前記スピーカへ入力される当該原信号に対し、当該逆フィルタを畳み込む音響信号生成手段としてコンピュータを更に機能させることを特徴とする請求項
9に記載の音響シミュレーションプログラム。
【請求項11】
音空間の境界をなす音響材の音響材料特性を推定する音響材料特性推定装置であって、
前記音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及
び模様若しくはテクスチャに係る情報
のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された
当該少なくとも模様若しくはテクスチャに係る情報
と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
を有することを特徴とする音響材料特性推定装置。
【請求項12】
音空間の境界をなす音響材の音響材料特性を推定する音響材料特性推定システムであって、
前記音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及
び模様若しくはテクスチャに係る情報
のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された
当該少なくとも模様若しくはテクスチャに係る情報
と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
を有することを特徴とする音響材料特性推定システム。
【請求項13】
音空間の境界をなす音響材の音響材料特性を推定するコンピュータによって実施される音響材料特性推定方法であって、
前記音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及
び模様若しくはテクスチャに係る情報
のうちの少なくとも模様若しくはテクスチャに係る情報を決定するステップと、
当該画像領域毎に、決定された
当該少なくとも模様若しくはテクスチャに係る情報
と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定するステップと、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定するステップと
を有することを特徴とする音響材料特性推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音空間の音響特性を求める音響シミュレーション技術に関する。
【背景技術】
【0002】
近年、ウェブ(Web)会議アプリ、遠隔セッションアプリ等の普及により、マイクやスピーカを利用して好適な又は所望の音響環境を提供するサービスが広く利用されている。また、高臨場感の遠隔地カンファレンスシステムやオンラインコンサートの活用も、盛んに進められている。さらに、このような音響環境を設計・評価・調整するための音響シミュレーションも、高速並列演算デバイスの普及とともに広く利用されるようになってきた。
【0003】
この音響シミュレーションの利用例として、例えば非特許文献1には、バーチャルな音響空間をCG(Computer Graphics)のように自由に構築可能な音空間レンダリング技術が開示されている。この音空間レンダリングは、室壁等の音響反射体の形状や反射率等の音響特性データに基づき、波動性を考慮した3次元音場計算である音響シミュレーションによって、特定位置でのインパルス応答を計算し、残響を含まないドライソースを畳み込んだ後に、立体音響技術などを用いて所望の音響データを可聴化する技術である。
【先行技術文献】
【非特許文献】
【0004】
【文献】土屋隆生,「音空間レンダリングとその実装」,日本音響学会誌,75巻6号,pp. 358-364,2019年
【文献】浅井拓朗,高以良光,尾本章,「境界音場制御における逆フィルタの設計指針が音場に与える影響」,日本音響学会平成26年秋季研究発表会1-Q-31,日本音響学会講演論文集pp.711-712,2014年
【発明の概要】
【発明が解決しようとする課題】
【0005】
以上、非特許文献1に開示されているように、音響シミュレーションは現在、非常に重要な技術となっている。ここで、この音響シミュレーションにおいて、より正確な結果を導出するに当たっては、音空間の境界条件、具体的には室壁等の反射率や吸音率といったような音響材料特性を適切に設定する必要がある。
【0006】
しかしながら、室壁等の音響材料特性の取得は通常、専用の測定機器を用いた実地の計測によらねばならず、それ故計測現場で多くの労力と時間がかかり、決して簡単ではなかった。したがってこのような事情もあり、例えば実際のミュージックホールや収録スタジオ等におけるインパルス応答や、そこから算出される逆フィルタは多くの場合、音響シミュレーションを用いず、非特許文献2に開示された音響再現システムのように、現場において音源としてスピーカを用い、マイク(マイクロフォン)を用いて収音を行うことにより導出されてきたのである。
【0007】
しかしながらこの場合、導出されたインパルス応答(伝達関数)は当然、スピーカとマイクを用いた音場に対するものとなるので、そこから算出された逆フィルタを用いた音響再現システムにおいては、室(音空間)の伝達関数のみならず、スピーカやマイクの伝達関数をも含めて除去・抑制された音が実現することになる。
【0008】
その結果、よくあるケースではあるが、スピーカやマイクの伝達関数を含めた音響信号の方が聴覚的により心地よい感覚をもたらすケースに対し、このような逆フィルタを適用することは全く好ましくないこととなる。さらに、導出された逆フィルタにおけるスピーカやマイクの伝達関数部分には、周波数特性に係るピークやディップが含まれていることも少なくなく、この場合、導出された逆フィルタによって実現した音に、当該ピークやディップ由来のノイズが乗ってしまうのである。
【0009】
このような事情に対し例えば、適切に求められた室壁等の音響材料特性を用いた音響シミュレーションを実施することができれば、室(音空間)のインパルス応答そのものを導出することにより、室(音空間)の伝達関数のみを除去・抑制した音を実現することも可能となる。したがって、より簡便な方法で音響材料特性を求めることが大いに望まれるところとなっている。
【0010】
そこで、本発明は、音響シミュレーションの境界条件となる、音空間の境界をなす音響材の音響材料特性を、より容易に決定することの可能な音響材料特性推定プログラム、装置及び方法を提供することを目的とする。また、ここで決定された音響材料特性を用いて音響シミュレーションを実施することの可能な音響シミュレーションプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及び模様若しくはテクスチャに係る情報のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された当該少なくとも模様若しくはテクスチャに係る情報と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
してコンピュータを機能させる音響材料特性推定プログラムが提供される。
【0013】
また上記の実施形態において、当該音響材を含む画像は、音空間内で取得された点群から生成された画像であって、画像領域分割手段は、各画像領域における少なくとも当該模様若しくはテクスチャに係る情報を決定することも好ましい。
【0014】
さらに、本発明による音響材料特性推定プログラムにおいて、当該音響材を含む画像は色を含む画像であって、画像領域分割手段は、各画像領域における少なくとも当該色に係る情報を決定し、音響材種別決定手段は、少なくとも決定された当該色に係る情報も用いて、当該音響材の種別を決定することも好ましい。
【0015】
また、本発明による音響材料特性推定プログラムの他の実施形態として、当該音響材を含む画像は、音空間内において色画像の生成可能なデプスカメラによって生成された色を含む画像であって、前記画像領域分割手段は、各画像領域における少なくとも当該色に係る情報を決定し、音響材種別決定手段は、音空間内で前記デプスカメラを用いて取得された点群に係る情報も用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定することも好ましい。
【0016】
本発明によれば、また、音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及び模様若しくはテクスチャに係る情報のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された当該少なくとも模様若しくはテクスチャに係る情報と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材料特性推定モデルにより、当該画像領域に係る当該音響材の音響材料特性を決定する音響材料特性決定手段と
してコンピュータを機能させる音響材料特性推定プログラムが提供される。
【0018】
また、この本発明による音響材料特性推定プログラムの他の実施形態として、音響材料特性決定手段は、音空間内で取得された点群に係る情報も用いて、学習済みの音響材料特性推定モデルにより、当該画像領域に係る当該音響材の音響材料特性を決定することも好ましい。
【0019】
本発明によれば、さらに、音空間の境界をなす音響材の音響材料特性を推定するコンピュータを機能させる音響材料特性推定プログラムであって、
音空間内で取得された点群を、点間の距離に基づき対象点群に分類した際の当該対象点群に係る情報と、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材料特性推定モデルにより、当該音響材の音響材料特性を決定する音響材料特性決定手段
としてコンピュータを機能させる音響材料特性推定プログラムが提供される。
【0020】
本発明によれば、また、以上に述べた音響材料特性推定プログラムを包含しており、音空間のインパルス応答を決定するコンピュータを機能させる音響シミュレーションプログラムであって、
音響材料特性推定プログラムによって決定された当該音響材の音響材料特性を境界条件とした音響シミュレーションによって、前記音空間のインパルス応答を算出する音響シミュレーション手段
としてコンピュータを更に機能させる音響シミュレーションプログラムが提供される。
【0021】
この本発明による音響シミュレーションプログラムは、その一実施形態として、算出された当該インパルス応答を用いて、音空間の逆フィルタを算出する逆フィルタ生成手段としてコンピュータを更に機能させることも好ましい。
【0022】
また、上記の実施形態における音響シミュレーションプログラムは、音空間内に音源としてのスピーカ及び収音手段としてのマイクが設置されている場合に、音空間の音響特性が除去・抑制されていてスピーカ及びマイクの音響特性は残存した音響信号を取得すべく、原信号を入力としたスピーカによって出力された音を収音したマイクから出力された音響信号に対し、又はスピーカへ入力される当該原信号に対し、当該逆フィルタを畳み込む音響信号生成手段としてコンピュータを更に機能させることも好ましい。
【0023】
本発明によれば、さらに、音空間の境界をなす音響材の音響材料特性を推定する音響材料特性推定装置であって、
音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及び模様若しくはテクスチャに係る情報のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された当該少なくとも模様若しくはテクスチャに係る情報と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
を有する音響材料特性推定装置が提供される。
【0024】
本発明によれば、また、音空間の境界をなす音響材の音響材料特性を推定する音響材料特性推定システムであって、
音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及び模様若しくはテクスチャに係る情報のうちの少なくとも模様若しくはテクスチャに係る情報を決定する画像領域分割手段と、
当該画像領域毎に、決定された当該少なくとも模様若しくはテクスチャに係る情報と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定する音響材種別決定手段と、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定する音響材料特性決定手段と
を有する音響材料特性推定システムが提供される。
【0025】
本発明によれば、さらに、音空間の境界をなす音響材の音響材料特性を推定するコンピュータによって実施される音響材料特性推定方法であって、
音空間内で生成された、当該音響材を含む画像を、予め設定されたクラスに対応する画像領域に分割し、各画像領域における色に係る情報及び模様若しくはテクスチャに係る情報のうちの少なくとも模様若しくはテクスチャに係る情報を決定するステップと、
当該画像領域毎に、決定された当該少なくとも模様若しくはテクスチャに係る情報と、取得された、当該音響材における叩かれた際に発生する音に係る情報とを用いて、学習済みの音響材種別推定モデルにより、当該画像領域に係る当該音響材の種別を決定するステップと、
当該画像領域毎に、決定された当該種別の音響材の音響材料特性を、音響材の種別とその音響材料特性とを予め対応付けた情報を用いて決定するステップと
を有する音響材料特性推定方法が提供される。
【発明の効果】
【0026】
本発明の音響材料特性推定プログラム、装置及び方法によれば、音響シミュレーションの境界条件となる、音空間の境界をなす音響材の音響材料特性を、より容易に決定することができる。また、本発明の音響シミュレーションプログラムによれば、このように決定された音響材料特性を用いて音響シミュレーションを実施することが可能となる。
【図面の簡単な説明】
【0027】
【
図1】本発明による音響材料特性推定装置の一実施形態における機能構成を示す機能ブロック図である。
【
図2】本発明による音響材料特性推定装置の収集する各種データを説明するための模式図である。
【
図3】本発明に係る音響信号生成部における音響信号生成処理の一実施形態を説明するための模式図である。
【
図4】本発明による音響材料特性推定装置の他の実施形態における機能構成を示す機能ブロック図である。
【
図5】本発明による音響材料特性推定装置の更なる他の実施形態における機能構成を示す機能ブロック図である。
【発明を実施するための形態】
【0028】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0029】
[音響材料特性推定装置]
図1は、本発明による音響材料特性推定装置の一実施形態における機能構成を示す機能ブロック図である。
【0030】
図1に示した、本発明による音響材料特性推定装置の一実施形態としての音響シミュレーション装置1は、音響特性(残響時間や周波数特性等として具現することになる音響に係る特性)を調査する対象の音空間である収録室についての音響シミュレーションを実施可能な装置である。
【0031】
この音響シミュレーション装置1は、RGBカメラ51、LiDAR(Light Detection And Ranging)52及び3次元(3D)計測・立体模型作成アプリを内蔵・搭載したスマートフォン5との間で、通信ネットワークを介して通信接続を行っており、このスマートフォン5から、
(a)RGBカメラ51を用いて生成された、収録室(音空間)の境界をなす「音響材」(例えば壁、床、天井、ドア、引戸、窓、書類棚、パーティション等の構成材や、聴衆・視聴者としての人体)を含む画像データと、
(b)LiDAR52を用いて生成された、収録室(音空間)の3D点群(ポイントクラウド)に係る情報と
を取得可能な装置となっている。
【0032】
この音響シミュレーション装置1は、その主要機能の1つとして上記「音響材」の「音響材料特性」を推定するのであるが、そのため具体的に、
(A)収録室(音空間)内で生成された、上記(a)の「音響材」を含む画像データを、予め設定されたクラスに対応する画像領域に分割し、各画像領域における「色に係る情報」及び/又は「模様若しくはテクスチャに係る情報」を決定する画像領域分割部111と、
(B)画像領域毎に、決定された「色に係る情報」及び/又は「模様若しくはテクスチャに係る情報」を用いて、学習済みの「音響材種別推定モデル」により、当該画像領域に係る「音響材」の種別を決定する音響材種別決定部113と、
(C)画像領域毎に、決定された種別の「音響材」の「音響材料特性」を、「音響材」の種別とその「音響材料特性」とを予め対応付けた情報を用いて決定する音響材料特性決定部114と
を有することを特徴としている。
【0033】
ここで上記(A)の「音響材」を含む画像データは、上記(b)の3D点群を、公知の手法で所定面へ投影することにより生成される距離画像データであってもよい(ただしこの場合、通常「色に係る情報」は決定されず、少なくとも「模様若しくはテクスチャに係る情報」を決定することになる)。
【0034】
また、上記(A)の画像領域への分割は例えば、「音響材」を含む画像データに対し、後に詳細に説明する公知のセマンティックセグメンテーション(Semantic Segmentation)処理を施すことによって実施されてもよい。さらに、上記(B)の「音響材種別推定モデル」は、例えば深層ニューラルネットワーク(Deep Neural Networks,DNN)アルゴリズムや、他の機械学習アルゴリズムで構築された推定モデルとすることができる。
【0035】
また、上記(C)で決定する「音響材料特性」は、例えば「音響材」の吸音率(垂直入射吸音率)、反射率(音波反射率)や、音響インピーダンス(及び伝播定数)等とすることができ、いずれにしてもこの後実施される音響シミュレーションの境界条件を規定する量として、重要な且つ必須の情報となっている。
【0036】
さらに上記(C)における、「音響材」の種別とその「音響材料特性」とを予め対応付けた情報は例えば、予め作成された、各種音響材(例えば(厚さ**~**ミリメートルの)**合板材、(厚さ**~**ミリメートルの)石膏ボードや、(厚さ**~**ミリメートルの)ガラス板、さらには人体等)の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を記録したデータベースであってもよい。
【0037】
このように、音響シミュレーション装置1によれば、収録室(音空間)の音響シミュレーションを実施するに当たり重要且つ必須となる「音響材」の「音響材料特性」を、例えば音響インピーダンス管等の専用の測定機器を用いることなくスマートフォン5だけで、より容易に決定することができるのである。さらに、このように決定された「音響材料特性」を用いて音響シミュレーションを実施することが可能となる。
【0038】
また、好適な他の実施形態として、スマートフォン5はマイクを内蔵していて、さらにノック音収集アプリを搭載していることも好ましい。この場合、音響シミュレーション装置1は、このスマートフォン5から、
(c)「音響材」における叩かれた際に発生する音に係る情報である「ノック音情報」
を取得し、上記の音響材種別決定部113は、
(B’)取得された「ノック音情報」も用いて、学習済みの「音響材種別推定モデル」により、当該画像領域に係る「音響材」の種別を決定する。
【0039】
ここで「ノック音情報」は、日常の経験からも理解されるように、「音響材」の種別(材質)に係る情報を含んでいる。したがって、「音響材」の「色に係る情報」や「模様若しくはテクスチャに係る情報」だけではなく、この「ノック音情報」も学習した「音響材種別推定モデル」を利用することによって、より確度の高い「音響材」の種別を推定することも可能となるのである。
【0040】
ちなみに、上記(c)の「音響材」における叩かれた際に発生する音に係る情報は、上記の「ノック音情報」のように手でノックして取得してもよいが、例えば小型の木槌等、予め取り決められた道具を用い、「音響材」に小さな打撃を加えることにより取得してもよい。また当然ではあるが、「音響材」を叩いた際に発生する音を、スマートフォン5のマイクではなく、別のマイクによって収録し、当該音に係る情報を生成することも可能である。
【0041】
さらに、上記(b)の3D点群情報は当然ながら、スマートフォン5(LiDAR52)ではなく、他のLiDAR装置、デプスカメラやSONAR(SOund NAvigation and Ranging)を用いて取得されたものとすることも可能である。また勿論、これらLiDAR装置、デプスカメラやSONARを用いて取得された3D点群を、公知の手法で所定面に投影することにより生成された距離画像データを、上記(a)の「音響材」を含む画像データとしてもよい。さらに、スマートフォン5の代わりに、RGB-D(デプス)カメラを用いれば、上記(a)の「音響材」を含む画像データ、及び上記(b)の3D点群情報をともに、このRGB-Dカメラだけで取得することも可能となる。
【0042】
また、「音響材料特性」の取得対象(音響シミュレーションを行う対象)である音空間も勿論、上述したような収録室に限定されるものではない。例えば、ミュージックホールや収録スタジオといったような、そこでの音響を調査したり変更したり調整・制御したりするニーズのある空間ならば種々様々なものが、本発明の音空間に該当する。
【0043】
さらに「音響材」についても、例えば建材や、各種室内設備等に限定されるものではない。例えば、聴衆・視聴者を構成する人体や、インテリア装飾品、さらには舞台装置といったような、音空間において境界をなしていて(音空間内の露出面を構成していて)当該音空間の音響特性に影響を及ぼし得るものならば様々なものが、本発明に係る「音響材」に該当するのである。
【0044】
また、本発明においては、音響シミュレーション装置1(音響材料特性推定装置)の構成要素である上記(A)の画像領域分割部111が、別の装置、例えばスマートフォン5に具備された形態をとることもできる。または、例えば複数のサーバの全体によって上記(A)~(C)の機能を実現するような形態を採用することも可能となっている。ここでこのような場合でも、これらの関与する装置・サーバの全体をもって、本発明による音響材料特性推定方法を実施する音響材料特性推定システムと捉えることができるのである。以下、本実施形態の音響シミュレーション装置1の機能構成についてより詳細に説明を行う。
【0045】
[装置構成,音響材料特性推定プログラム・方法,音響シミュレーションプログラム]
同じく
図1の機能ブロック図において、本発明による音響材料特性推定装置の一実施形態としての音響シミュレーション装置1は、通信インタフェース101と、計測情報保存部102と、音響情報保存部103と、キーボード(KB)・ディスプレイ(DP)104と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、本発明による音響材料特性推定プログラムを包含する音響シミュレーションプログラムを保存しており、また、コンピュータ機能を有していて、この音響シミュレーションプログラムを実行することによって、材料特性推定処理を包含する音響シミュレーション処理を実施する。
【0046】
またこのことから音響シミュレーション装置1は、音響シミュレーション処理専用の装置であってもよいが、本発明による音響シミュレーションプログラムを搭載した、汎用のクラウドサーバや非クラウド型サーバであってもよく、さらにはパーソナルコンピュータ(PC)、ノート型若しくはタブレット型コンピュータや、スマートフォン等とすることも可能である。
【0047】
また、プロセッサ・メモリは、機能構成部として、画像領域分割部111と、特徴量生成部112と、音響材種別決定部113と、音響材料特性決定部114と、音響シミュレーション部115と、逆フィルタ生成部116と、音響信号生成部117と、通信制御部121と、入出力制御部122とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された、本発明による音響材料特性推定プログラムを包含する音響シミュレーションプログラムの機能と捉えることができ、また、
図1の機能ブロック図における音響シミュレーション装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による音響材料特性推定方法を包含する音響シミュレーション方法の一実施形態としても理解される。
【0048】
同じく
図1の機能ブロック図において、計測情報保存部102は、スマートフォン5から通信ネットワーク、通信インタフェース101及び通信制御部121を介して収集された
(a)調査対象の音空間である収録室の中央から上下・左右・前後の6つの向きの方を撮影することによって得られた、「音響材」を含む(各壁面の)画像データと、
(b)スマートフォン5に搭載された3D計測・立体模型作成アプリによって生成された3D点群に係る情報、例えば、この収録室の3D形状データ(例えば、室内の各種位置関係・寸法を再現した立体模型データ)と、
(c)この収録室の「音響材」を叩いた際に発生する音に係るノック音情報、具体的にはノック音の波形データや周波数特性データ等と
を、この収録室の識別子(ID)に紐づけて保存・管理する。
【0049】
ちなみに、上記(a)の画像データ、上記(b)の3D点群情報(例えば3D形状データ)、及び上記(c)のノック音情報(例えば波形データや周波数特性データ)は、音響シミュレーション装置1の収集する各種データを説明するための模式図である
図2に、概略的に示されている。
【0050】
ここで本実施形態において、上記(a)の画像データには、撮影時に撮影者によって指定された、撮影する向き、又は撮影対象(例えば壁や床等)の室内での位置に係る情報が紐づけられている。さらに、上記(c)のノック音情報にも、ノック時に同撮影者によって指定された、ノック対象(例えば壁や床等)の室内での位置又は向きに係る情報が紐づけられている。これにより、これら画像データやノック音情報が、上記(b)の収録室の3D形状データにおけるどの位置・向きに係るものであるかを特定可能となる。
【0051】
なお、上記(b)の3D形状データ(室内の各種位置関係・寸法を再現した立体模型データ)を生成する3D計測・立体模型作成アプリとしては、LiDARを搭載したスマートフォンに標準実装されている3D計測アプリ、Occipital社のCanvasアプリや、Tasmanic Editions社のCamToPlanアプリが公知である。ちなみに、上記(b)における3D点群に係る情報は、LiDARやRGB-Dカメラ等によって生成された点群情報そのものとすることも可能である。
【0052】
同じく
図1の機能ブロック図において、画像領域分割部111は、上記(a)の「音響材」を含む画像データを、セマンティックセグメンテーション処理によって複数の画像領域に分割し、各画像領域における色情報及び模様・テクスチャ情報を決定する。以下、
図2を用いて、セマンティックセグメンテーション処理を説明する。
【0053】
セマンティックセグメンテーション処理は、1フレームの画像データの各画素をクラス、例えば"壁"、"ドア・引戸"、"窓"や、"床"等、さらには"その他(壁面外)"に分類した上で、画像データ内にクラス領域、例えば"壁"領域、"ドア・引戸"領域、"窓"領域や、"床"領域等を決定する公知の処理である。
【0054】
図2の右側には、具体例として、略直方体形状である収音室の1つの壁面を撮影した画像データに対し、セマンティックセグメンテーション処理を施した結果が示されている。ここでは、この1つの壁面の画像データが、"壁"領域と、"ドア・引戸"領域とに分割されている。
【0055】
このように、セマンティックセグメンテーション処理によれば、画像内に写っているモノが何であるかの意味付けを行うことが可能となり、その結果、意味付けされた各画素領域(画像領域)を、1つの種別の「音響材」から形成された(音空間の)境界部分とみなすことが決定可能となるのである。
【0056】
次いで画像領域分割部111(
図1)は、得られた各画像領域について、当該画像領域内の画素値の平均値や、代表値(例えば、所定以上の面積をなす画像領域部分の画素値)等を、当該画像領域の色情報とすることができる。また、当該画像領域の画像データを、公知のエッジ・輪郭検出手法や公知の画像トレース手法を用いてベクトルデータ化し、これを当該画像領域の模様・テクスチャ情報としてもよい。
【0057】
図1の機能ブロック図に戻って、特徴量生成部112は、この後、音響材種別決定部113において使用する「音響材種別推定モデル」へ入力する特徴量データを生成する。具体的に、特徴量生成部112は本実施形態では、画像領域分割部111で生成された各画像領域において、
(a)当該画像領域の色情報及び模様・テクスチャ情報と、
(b)計測情報保存部102から取得した、当該画像領域に係るノック音情報であるノック音の波形データや、それをフーリエ変換した結果としての周波数特性データからそれぞれ、波形そのものの(又は波形画像の)特徴量や、周波数特性を表現した特徴量を抽出して生成したノック音特徴データと
を規格化した上で連結して、当該画像領域についての特徴量データを生成する。ここで、上記(b)のノック音特徴データは、その精度を上げるべく、LPC(Linear Predictive Coding,線形予測符号)やMFCC(Mel-Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)といった公知の特徴量化手法によって生成した特徴量を更に追加したものとすることも可能である。
【0058】
また、上記(b)の「当該画像領域に係るノック音情報」は、当該画像領域の元の画像データに紐づけられた撮影向き情報や(撮影対象の)室内位置情報と、ノック音情報に紐づけられた(ノック対象の)室内位置・向き情報とを比較して特定することができる。
【0059】
なお、上記(a)における色情報及び模様・テクスチャ情報のいずれか一方のみを用いて特徴量データを生成することも可能であるが、少なくとも色情報を用いることが、音響材種別の推定精度を向上させる観点から好ましく、両者を用いることがより好ましい。また、上記(b)のノック音情報を特徴量データ生成に用いないことも可能であるであるが、やはり同観点から用いることがより好ましい。例えば、上記(a)において色情報及び模様・テクスチャ情報のいずれか一方のみを用いて特徴量データを生成する場合は、それを補うべく上記(b)のノック音情報も用いることがより好ましいのである。
【0060】
同じく
図1の機能ブロック図において、音響材種別決定部113は、画像領域分割部111で生成された画像領域毎に、特徴量生成部112で生成された当該画像領域の特徴量データを、学習済みの音響材種別推定モデルへ入力し、このモデルの出力から、当該画像領域の「音響材」の種別を推定・決定する。
【0061】
ここで、音響材種別推定モデルは本実施形態において、深層ニューラルネットワーク(Deep Neural Networks,DNN)アルゴリズムで構築されており、この構築(学習)に当たっては、
(a)「音響材」について実際に収集された色情報及び模様・テクスチャ情報と、
(b)当該「音響材」の種別についての正解データ(例えば、(厚さ**~**ミリメートルの)**合板材、(厚さ**~**ミリメートルの)石膏ボード、(厚さ**~**ミリメートルの)ガラス板や、人体等の各々に予め割り当てられた種別ID)と
を対応付けた多数の学習データを用いて学習処理を実施することができる。
【0062】
ここで本実施形態において、音響材種別推定モデルの出力層はソフトマックス層(Softmax Layer)であって、この出力層の各ノードは、入力された特徴量データに係る画像領域の「音響材」の種別が、当該ノードに対応付けられた種別(例えば**合板材)である確率値(0~1の値)を出力する。音響材種別決定部113は、このうち最も高い確率値を示すノードに対応付けられた種別を、当該画像領域の「音響材」の種別に決定してもよい。
【0063】
同じく
図1の機能ブロック図において、音響材料特性決定部114は本実施形態において、音響材の種別とその音響材料特性とを予め対応付けた情報である音響材料特性データベースを利用し、画像領域毎に、当該画像領域で決定された種別の「音響材」の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を決定する。ここで、音響材料特性データベースは、各種音響材(例えば(厚さ**~**ミリメートルの)**合板材、(厚さ**~**ミリメートルの)石膏ボードや、(厚さ**~**ミリメートルの)ガラス板、さらには人体等)の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を記録したものとなっている。
【0064】
以上、音響シミュレーション装置1によれば、音響シミュレーションを実施するに当たり重要且つ必須となる「音響材」の「音響材料特性」を、音響インピーダンス管等の専用の測定機器を用いることなく、例えばスマートフォン5だけで、より容易に推定することが可能となるのである。以下、このように推定された音響材料特性を用いて音響シミュレーションを実施する形態を説明する。
【0065】
同じく
図1の機能ブロック図において、音響シミュレーション部115は、音響材料特性決定部114で決定された「音響材」の音響材料特性を境界条件とした音響シミュレーションによって、収録室の(単位)インパルス応答h_roomを算出する。
【0066】
具体的に、音響シミュレーション部115は本実施形態において、決定された収録室の3D形状データからシミュレーション対象となる音空間の形状を決定し、さらに決定された各画像領域の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を境界条件として、収録室内の収音位置(マイクの位置)及び出音位置(スピーカの位置)を設定した上で、公知の時間領域差分(Finite-Difference Time-Domain,FDTD)法により、収録室においてインパルス信号、実際には(位相が周波数の二乗に比例する)TSP(Time Stretched Pulse)信号を出音した際のその反響・残響としてのインパルス応答h_roomを算出する。
【0067】
なお、上記のように数値解析的に算出されたインパルス応答h_roomは、有限の周波数成分までフラットな特性を示すものであり、正確には擬似インパルス応答となっている。また、収録室の伝達関数h_room(ω)は、収録室の時間の関数としてのインパルス応答h_room(t)をフーリエ変換することによって算出される。
【0068】
さらに、上記のTSP信号を用いた音響解析については、例えば非特許文献:Yoiti Suzuki, Futoshi Asano, Hack-Yoon Kim and Toshio Sone, "An optimum computer-generated pulse signal suitable for the measurement of very long impulse responses", J. Acoust. Soc. Am., vol. 97, No. 2, pp. 1119-1123, 1995年 において詳しく解説されている。
【0069】
ここで、インパルス応答h_room算出のための重要なパラメータである収音位置及び出音位置は、解析者が例えばキーボード104及び入出力制御部122を介して指示入力してもよい。また変更態様として、例えばスマートフォン5のRGBカメラ51又はLiDAR52による(収録室内に設置された)マイクやスピーカの検出結果から決定されたマイクの位置及びスピーカの位置をそれぞれ、収音位置及び出音位置として採用することも可能である。実際、LiDARを搭載したスマートフォンに標準実装されている3D計測アプリや、Tasmanic Editions社のCamToPlanアプリによれば、このようなマイクの位置及びスピーカの位置を容易に計測可能となっている。
【0070】
さらに、本実施形態では音響シミュレーション手法として上記のようにFDTD法が採用されているが、勿論これに限定されるものではなく、例えばFEM(Finite Element Method,有限要素法)やBEM(Boundary Element Method,境界要素法)を用いることも可能である。これらの手法は、音響シミュレーション対象となる室の事前評価や、音場の可視化・基本特性抽出等を行う場合において広く利用されている。
【0071】
同じく
図1の機能ブロック図において、逆フィルタ生成部116は、音響シミュレーション部115で算出された収録室のインパルス応答h_roomを用いて、収録室の逆フィルタh_room
-1を算出する。
【0072】
この逆フィルタh_room-1は、インパルス応答h_roomを用いて単位インパルス関数δに逆畳み込み積分を行うことによって得られ、具体的には、次式
(1) h_room-1=δ*-1 h_room ここで*-1は逆畳み込み積分演算子
を用いて算出される。
【0073】
同じく
図1の機能ブロック図において、音響信号生成部117は、逆フィルタ生成部116で算出された逆フィルタh_room
-1を用いて、収録室で収音された音響信号g(t)から、
当該収録室の(インパルス応答h_roomで特徴付けられる)空間音響特性を除去・抑制した音響信号g'(t)を生成する。
【0074】
図3は、音響信号生成部117における音響信号生成処理の一実施形態を説明するための模式図である。
【0075】
図3の実施形態では、収録室においてスピーカ・アンプ及びマイクを用い、エレキギターの演奏の収録が行われている。ここで以下、エレキギターからの原信号をf(t)とし、スピーカ・アンプの(単位)インパルス応答をh_spとし、収録室の(すでに算出されている)インパルス応答をh_roomとし、マイクのインパルス応答をh_mcとする。なお、ユーザが演奏音を聴くために用いるオーディオアンプのインパルス応答は、以下の計算では無視するか、又はインパルス応答h_mcに含まれているものとする。
【0076】
そうすると、収音したマイクから出力された音響信号g(t)は、次式
(2) g(t)=((f(t)*h_sp)*h_room)*h_mc
の形となり、スピーカ・アンプ、収録室及びマイク全ての伝達関数を反映した信号となっていることが分かる。ちなみに、スピーカ・アンプ、収録室及びマイクの伝達関数はそれぞれ、インパルス応答h_sp、h_room及びh_mcをフーリエ変換したものとなっている。
【0077】
音響信号生成部117(
図1)は、このような音響信号g(t)に対し、収録室のインパルス応答h_roomから算出された逆フィルタh_room
-1を用いて畳み込み処理を行うことにより、収録室の(インパルス応答h_roomで特徴付けられる)空間音響特性を除去・抑制した音響信号g'(t)を生成する。すなわち、音響信号g'(t)は、次式
(3) g'(t)=g(t)*h_room
-1
=(f(t)*h_sp)*h_mc
のように表され、収録室の空間音響特性が除去・抑制されており、一方、スピーカ・アンプ及びマイクの音響特性(伝達関数)は残存した音響信号となっていることが理解される。なお変更態様として、音響信号生成部117は、原信号f(t)に対し、逆フィルタh_room
-1を用いて畳み込み処理を行って、上式(3)と同様の音響信号g'(t)を生成することも可能である。
【0078】
以上説明したように、音響信号生成部117によれば、収録室のインパルス応答h_roomから算出された逆フィルタh_room-1を用いて、収録室の空間音響特性のみを除去・抑制した音響信号を生成することができる。このような音響信号は、例えば、収録室において境界となる内面形状をそのままにして全面防音(吸音率向上)加工を施した場合に得られる、理想的な音響信号と捉えることも可能である。すなわち音響信号生成部117によれば、ある室の音響信号を、同形状の理想の室における音響信号に変換することもできるのである。
【0079】
一方、従来は多くの場合、(境界条件の設定が困難な)音響シミュレーションによらず、スピーカ及びマイクを用いて原信号f(t)及び音響信号g(t)から直接、逆フィルタを算出していた。その結果、このような逆フィルタを用いることにより生成された音響信号は、収録室の空間音響特性のみならず、スピーカ及びマイクの音響特性も除去・抑制されたものとなっていた。
【0080】
その結果、よくあるケースではあるが、スピーカやマイクの伝達関数を含めた音響信号の方が聴覚的により心地よい感覚をもたらすケースに対し、そのような音響信号を生成することが非常に困難となっていた。さらに、スピーカやマイクの伝達関数には、周波数特性に係るピークやディップが含まれていることも少なくなく、この場合、このような逆フィルタによって実現した音には、当該ピークやディップ由来のノイズが乗ってしまっていたのである。
【0081】
これに対し、音響信号生成部117によれば、収録室のインパルス応答h_roomから算出された逆フィルタh_room-1を用いることができるので、スピーカ及びマイクの音響特性を残存させた(過度に音響特性が抑制されておらず聴覚的により心地よい)音響信号を生成することができる。さらに、算出した逆フィルタにはスピーカやマイクのインパルス応答分が含まれていないので、これにより、スピーカやマイクの伝達関数由来のノイズ発生が回避された音響信号を生成することも可能となるのである。
【0082】
また他の実施形態として、音響シミュレーション装置1(
図1)は、複数の同形状の収録室であって、境界をなす音響材の種別が互いに異なる複数の収録室について、それぞれの音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を推定し、この推定結果を用いて各収録室の逆フィルタを算出してもよい。
【0083】
この場合、音響信号生成部117(
図1)は、収録室毎に、当該収録室の逆フィルタを用いて、当該収録室で収音された音響信号から、当該収録室の空間音響特性のみを除去・抑制した音響信号を生成し、生成したこれらの音響信号を比較して、所望の条件を満たす(例えば所望の程度の残響成分を有する)音響信号を特定してもよい。これにより、所望の空間音響特性を備えた収録室の構成を決定することも可能となるのである。
【0084】
図1の機能ブロック図に戻って、音響情報保存部103は、音響シミュレーション部115で算出されたインパルス応答、逆フィルタ生成部116で生成された逆フィルタや、音響信号生成部117で生成された(加工・調整された)音響信号といった「音響情報」を、収録室(調査対象の音空間)のIDに紐づけて保存・管理する。また、この音響情報は、解析者によるキーボード104への提示指示入力の下、入出力制御部122を介し、ディスプレイ104に表示されてもよく、さらに、通信制御部121及び通信インタフェース101を介し、外部の情報処理装置へ送信され、そこで利用されてもよい。
【0085】
[音響材料特性推定装置の他の実施形態]
図4は、本発明による音響材料特性推定装置の他の実施形態における機能構成を示す機能ブロック図である。
【0086】
図4によれば、本発明による音響材料特性推定装置の他の実施形態としての音響シミュレーション装置2は、計測情報保存部202及び音響情報保存部203を有し、さらに本発明による音響材料特性推定プログラムを包含する音響シミュレーションプログラムに係る機能構成部として、画像領域分割部211と、特徴量生成部212と、音響材料特性決定部214と、音響シミュレーション部215と、逆フィルタ生成部216と、音響信号生成部217とを有している。
【0087】
ここで、これらの保存部(202,203)、及び音響材料特性決定部214を除く機能構成部は、音響シミュレーション装置1(
図1)における同名の保存部及び機能構成部と同様の機能を有している。そこで以下、音響シミュレーション装置2特有の音響材料特性決定部214について説明を行う。
【0088】
図4において、音響材料特性決定部214は、画像領域毎に、決定された色情報及び/又は模様・テクスチャ情報を用いて、好ましくはノック音情報も用いて、学習済みの「音響材料特性推定モデル」により、当該画像領域に係る「音響材」の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を決定する。
【0089】
具体的に音響材料特性決定部214は、画像領域分割部211で生成された各画像領域において、特徴量生成部212から、色情報及び模様・テクスチャ情報とノック音特徴データとを規格化した上で連結して生成された特徴量データを取得し、当該特徴量データを、音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)の正解値を学習した音響材料特性推定モデルへ入力して、この音響材料特性推定モデルから音響材料特性推定値を出力させることができる。
【0090】
このように、音響シミュレーション装置2は、音響シミュレーション装置1(
図1)と比較すると、音響材の種別とその音響材料特性とを予め対応付けたデータベースを利用する音響材料特性決定部(114,
図1)を必要とすることなく、推定モデルから直接、音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を決定することができる。またその結果、音響材料特性決定処理の際の計算コストをより低減することも可能となる。
【0091】
さらに好適な変更態様として、本実施形態の特徴量生成部212は、
(c)計測情報保存部202から取得した3D点群に係る情報としての、収録室の3D形状データ(室内の各種位置関係・寸法を再現した3D模型データ)
のうち各画像領域に係る部分を、公知の3D模型特徴量抽出法(例えば、複数方向から写し取った2D画像の画像特徴量を抽出する方法)によって3D特徴データとし、この3D特徴データと、色情報や模様・テクスチャ情報と、ノック音特徴データとを規格化した上で連結して特徴量データを生成してもよい。
【0092】
また更なる変更態様として、特徴量生成部212は、計測情報保存部202から3D点群に係る情報として点群情報そのものを取得し、公知の主成分分析法、マルチスケール特徴抽出法や高次元特徴記述法等を用いた、例えばオープンソースの点群特徴抽出アプリケーションを用いて、当該画像領域に係る部分の点群特徴データを生成し、この点群特徴データと、色情報や模様・テクスチャ情報と、ノック音特徴データとを規格化した上で連結して特徴量データを生成することも可能である。
【0093】
この場合、音響材料特性決定部214は、このような3D特徴データや点群特徴データを含む特徴量データを用い、当該画像領域の3D特徴や点群特徴も学習した音響材料特性推定モデルにより、当該画像領域の音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を推定・決定するのである。ここで、この音響材料特性推定モデルは、室内での設置個所・建付け具合い(固定具合い)やその厚みによって、又は隣接する音響材との位置関係次第で、同じ「音響材」でも音響材料特性に若干の影響の出る可能性がある、といったような事情も学習したモデルとなり、その結果、音響材料特性をより高い確度で推定することも可能となるのである。
【0094】
図5は、本発明による音響材料特性推定装置の更なる他の実施形態における機能構成を示す機能ブロック図である。
【0095】
図5によれば、本発明による音響材料特性推定装置の更なる他の実施形態としての音響シミュレーション装置3は、計測情報保存部302及び音響情報保存部303を有し、さらに本発明による音響材料特性推定プログラムを包含する音響シミュレーションプログラムに係る機能構成部として、特徴量生成部312と、音響材料特性決定部314と、音響シミュレーション部315と、逆フィルタ生成部316と、音響信号生成部317とを有している。
【0096】
ここで、これらの保存部(302,303)、特徴量生成部312及び音響材料特性決定部314を除く機能構成部は、音響シミュレーション装置1(
図1)における同名の保存部及び機能構成部と同様の機能を有している。そこで以下、音響シミュレーション装置3特有の特徴量生成部312及び音響材料特性決定部314について説明を行う。
【0097】
図5において、特徴量生成部312は、
(a)計測情報保存部302から取得した、収録室の3D点群を、点間の距離に基づき対象点群に分類した際の当該対象点群に係る情報、具体的には当該対象点群の点群特徴データと、
(b)計測情報保存部302から取得した、当該対象点群の室内位置に係るノック音情報であるノック音の波形データや、それをフーリエ変換した結果としての周波数特性データからそれぞれ、波形そのものの(又は波形画像の)特徴量や、周波数特性を表現した特徴量を抽出して生成したノック音特徴データと
を規格化した上で連結して、当該対象点群の室内位置に係る特徴量データを生成する。ここで、上記(b)のノック音特徴データは、その精度を上げるべく、LPCやMFCCといった公知の特徴量化手法によって生成した特徴量を更に追加したものとすることも可能である。
【0098】
なお、上記(a)の対象点群(対象ポイントクラウド)は、収録室の3D点群を、点(ポイントデータ)間の距離(例えばユークリッド距離)に基づき、例えばkd木(k-dimensional tree)を用いて、互いに隣接した点(ポイントデータ)の集合に分類することによって算出される。ちなみにkd木は、k次元のユークリッド空間にある点を分類するための公知の空間分割データ構造の一種となっている。
【0099】
同じく
図5において、音響材料特性決定部314は、当該対象点群に係る情報と、当該対象点群の室内位置に係るノック音情報とを用いて、学習済みの「音響材料特性推定モデル」により、収録室における音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を決定するのである
【0100】
具体的に音響材料特性決定部314は、特徴量生成部312から、分類された対象点群毎に、当該対象点群についての特徴量データを取得し、当該特徴量データを、音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)の正解値を学習した音響材料特性推定モデルへ入力して、この音響材料特性推定モデルから音響材料特性推定値を出力させることができる。
【0101】
このように、音響シミュレーション装置3は、音響シミュレーション装置1(
図1)と比較すると、音響材の種別とその音響材料特性とを予め対応付けたデータベースを利用する音響材料特性決定部(114,
図1)を必要とすることなく、推定モデルから直接、音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)を決定することができる。またその結果、音響材料特性決定処理の際の計算コストをより低減することも可能となる。さらに、セマンティックセグメンテーション処理を実施して色情報や模様・テクスチャ情報を抽出する必要がないので、比較的、特徴量生成処理の負担が小さくなっている。
【0102】
さらに音響材料特性決定部314で使用される音響材料特性推定モデルは、室内での設置個所・建付け具合い(固定具合い)やその厚みによって、又は隣接する音響材との位置関係次第で、同じ「音響材」でも音響材料特性(吸音率、反射率及び/又は音響インピーダンス等)に若干の影響の出る可能性がある、といったような事情も学習したものとなり、その結果、音響材料特性をより高い確度で推定することも可能となるのである。
【0103】
以上詳細に説明したように、本発明によれば、音空間の音響シミュレーションを実施するに当たり重要且つ必須となる、当該音空間の境界をなす音響材の音響材料特性を、例えば音響インピーダンス管等の専用の測定機器を用いることなく、容易に決定することができる。また、本発明における好適な一実施形態によれば、当該音響材における叩かれた際に発生する音に係る情報(例えばノック音情報)も用いて、当該音響材の種別を、より高い確度で容易に決定することも可能となる。
【0104】
さらに本発明を用いれば、このように決定された音響材料特性を用いて音空間の音響シミュレーションを実施し、例えば当該音空間そのもののインパルス応答を算出したり、さらに算出したインパルス応答から逆フィルタを生成し、例えば当該音空間の空間音響特性のみを除去・抑制した音響信号を生成したりすることも可能となるのである。
【0105】
またさらに、本発明は例えば、近年広く利用されているウェブ会議、遠隔セッションや、遠隔地カンファレンス、さらにはオンラインコンサート等において、好適な又は所望の音響環境を提供することに大いに貢献し得るものとなっている。
【0106】
また本発明によれば、例えばコンサートホールのような豊かな空間音響特性を備えた音楽教材や、無駄な残響等が除去されており子供達や受講者にとって聞き取りやすい言語教育教材を準備し、都市部だけでなく地方の子供達や受講者に対し例えばオンラインで、このような質の高い音楽教材や言語教育教材を活用した優れた音楽教育・言語教育を受ける機会を提供することも可能となる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標4「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。
【0107】
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0108】
1、2、3 音響シミュレーション装置(音響材料特性推定装置)
101 通信インタフェース
102、202、302 計測情報保存部
103、203、303 音響情報保存部
104 キーボード(KB)・ディスプレイ(DP)
111、211 画像領域分割部
112、212、312 特徴量生成部
113 音響材種別決定部
114、214、314 音響材料特性決定部
115、215、315 音響シミュレーション部
116、216、316 逆フィルタ生成部
117、217、317 音響信号生成部
121 通信制御部
122 入出力制御部
5 スマートフォン
51 RGBカメラ
52 LiDER(Light Detection And Ranging)