IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クレプシードラ株式会社の特許一覧

<>
  • 特許-音響装置 図1
  • 特許-音響装置 図2A
  • 特許-音響装置 図2B
  • 特許-音響装置 図3
  • 特許-音響装置 図4
  • 特許-音響装置 図5
  • 特許-音響装置 図6
  • 特許-音響装置 図7
  • 特許-音響装置 図8
  • 特許-音響装置 図9
  • 特許-音響装置 図10
  • 特許-音響装置 図11
  • 特許-音響装置 図12
  • 特許-音響装置 図13
  • 特許-音響装置 図14
  • 特許-音響装置 図15
  • 特許-音響装置 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-20
(45)【発行日】2023-09-28
(54)【発明の名称】音響装置
(51)【国際特許分類】
   G10K 15/00 20060101AFI20230921BHJP
   G10K 15/12 20060101ALI20230921BHJP
【FI】
G10K15/00 L
G10K15/12
【請求項の数】 11
(21)【出願番号】P 2020518358
(86)(22)【出願日】2019-05-10
(86)【国際出願番号】 JP2019018746
(87)【国際公開番号】W WO2019216414
(87)【国際公開日】2019-11-14
【審査請求日】2022-03-22
(31)【優先権主張番号】P 2018092622
(32)【優先日】2018-05-11
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】520090756
【氏名又は名称】クレプシードラ株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100198845
【弁理士】
【氏名又は名称】井上 善喬
(72)【発明者】
【氏名】小池 英樹
(72)【発明者】
【氏名】今 誉
【審査官】中嶋 樹理
(56)【参考文献】
【文献】米国特許第06996244(US,B1)
【文献】特開2015-060181(JP,A)
【文献】特開2015-061277(JP,A)
【文献】米国特許第07856106(US,B2)
【文献】米国特許出願公開第2015/0373477(US,A1)
【文献】米国特許出願公開第2017/0270406(US,A1)
【文献】DeepEarNet: Individualizing Spatial Audio with Photography, Ear Shape Modeling, and Neural Networks,2016 AES International Conference on Audio for Virtual and Augmented Reality,2016年,第1-9ページ,[2023年3月14日検索], <URL: https://www.aes.org/e-lib/browse.cfm?elib=18509>
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/00
G10K 15/12
(57)【特許請求の範囲】
【請求項1】
音場に影響を与える構造物を撮像して画像データを形成する撮像装置と、前記構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、前記サンプル画像に表された構造物の音場モデルを学習する音響プログラムを有する演算装置とを備え、
前記演算装置は、前記撮像装置で撮像されたサンプル画像または予め撮像されたサンプル画像について、前記集音装置で集音された音響データから、空間音響フィルタ係数を用いて音場モデルを構築し、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする音響装置。
【請求項2】
前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定し、前記空間音響フィルタ係数を用いて前記未知の画像の音場モデルを構築する、ことを特徴とする請求項1記載の音響装置。
【請求項3】
前記未知の画像は、耳介または外耳道のうち少なくとも何れかの画像であり、前記演算装置は、前記画像から、空間音響フィルタ係数を推定することを特徴とする請求項2記載の音響装置。
【請求項4】
音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記構造物で発生した音を集音しまたは集音された音響データを収集する集音装置と、前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データから、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定し、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする音響プログラムを用いる音響装置。
【請求項5】
音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記撮像装置で撮像された画像データについて、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え
前記演算装置は、前記撮像装置で撮像された画像に、予め撮像された画像または予め撮像された画像を前記演算装置内で演算して作成された画像のうちいずれかを重畳させることを特徴とする音響装置。
【請求項6】
音場に影響を与える構造物を撮像し、または、撮像された画像データを収集する撮像装置と、前記撮像装置で撮像された画像データについて、空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする、音響装置。
【請求項7】
前記演算装置は、前記画像データおよび音響データが入力されると、該画像データに関連する前記空間音響フィルタ係数を推定して、該空間音響フィルタ係数から得られる残響特性を付加した音響を出力することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
【請求項8】
前記音響データは、映像コンテンツの吹替え音声であることを特徴とする請求項7に記載の音響装置。
【請求項9】
残響特性が付加された音響を出力する音響出力装置をさらに備えることを特徴とする請求項1~7のうち何れか一項に記載の音響装置。
【請求項10】
音響プログラムをクラウド上に構築して、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
【請求項11】
多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行う音響プログラムを、クラウド上に構築し、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~6のうち何れか一項に記載の音響装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響装置に関する。
【背景技術】
【0002】
従来、音響技術の分野において、実際にその場にいるような自然な聞こえ方(以下、臨場感とも記す)となるように、フィルタ処理を施して録音場に特有の残響音(以下、残響とも記す)等の音響特性を立体的に再現する音響システムが研究されている(たとえば、特許文献1~4等参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2006-60610号公報
【文献】特開2008-178000号公報
【文献】特開2017-50843号公報
【文献】特開2017-175503号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、3D空間モデルを用いて音の反射を計算することで音響特性を記録し、音場を再生する際のフィルタ特性として利用しようとする試みがある。
しかしながら、このようなものでは、3D空間モデルを用いて音の反射を計算する必要がある。
特に、室内空間では、部屋の構造により各所で異なる反射特性が残響音として大きく影響する。このため、音線法等によって音場を可聴化 (auralization)しようとすると、2Dの画像から3Dモデルを詳細に復元(3D Reconstruction)する処理等が必要となる。したがって音場モデルの計算の情報量が増大して、膨大な演算を行わなければならなかった。
一方、熟練した建築音響の技術者、録音技師などの長年音響に携わる者は、部屋の構造を見て、音響特性を把握できるケースがある。
【0005】
そこで、本発明は、音場に影響を与える構造物を撮像して画像データを形成する撮像装置と、構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習する音響プログラムを有する演算装置とを備え、演算装置は、撮像装置で撮像されたサンプル画像または予め撮像されたサンプル画像について、集音装置で集音された音響データから、空間音響フィルタ係数を用いて音場モデルを構築することを特徴としている。
【課題を解決するための手段】
【0006】
本発明に係る音響装置は、未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響装置であり、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習する音響プログラムを用いて、音場となる構造物を撮像して画像データを形成する、または、撮像された画像データを収集する撮像装置と、構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、撮像装置で撮像されたサンプル画像について、集音装置で集音された音響データをパラメータとする空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備えることを特徴としている。
【発明の効果】
【0007】
本発明によれば、2Dの画像データから簡易に音場モデルが再現される。さらに本発明は、パラメータが不明な未知の画像データの音響フィルタを容易に得られる。
【図面の簡単な説明】
【0008】
図1】本実施形態の音響システムであって、デコーダおよびエンコーダとなる音響装置の構成を説明するブロック図である。
図2A】学習の際、複数の音場の映像データに音響データを関連させる様子を示した模式図である。
図2B】学習の際、複数の音場の映像データに音響データを関連させる様子を示した模式図である。
図3】音響システムのエンコーダとなる音響装置のプログラムを用いた情報処理の一例を示すフローチャートである。
図4】音響システムのデコーダとなる音響装置の構成を説明するブロック図である。
図5】本実施形態の音響システムでディープラーニングを用いて空間音響フィルタ特性を演算する様子を説明する模式図である。
図6】音響システムのデコーダとなる音響装置のプログラムを用いた情報処理の一例を示すフローチャートである。
図7】本実施形態の音響システムで、クラウドサーバにより構築される音場および映像データをARヘッドマウントディスプレイによって現実空間と重畳させる様子を説明する模式図である。
図8】本実施形態の音響システムを補聴器に応用する場合を説明するブロック図である。
図9】本実施形態の音響システムを補聴器に応用した場合の情報処理の一例を示すフローチャートである。
図10】本実施形態の音響システムを吹替に応用する場合のブロック図である。
図11】本実施形態の音響システムを吹替に応用した場合の情報処理の一例を示すフローチャート図である。
図12】本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
図13】本実施形態の音響システムを残響処理に応用した場合の情報処理の一例を示すフローチャート図である。
図14】本実施形態の音響システムをノイズキャンセリングに応用する場合のブロック図である。
図15】本実施形態の音響システムをノイズキャンセリングに応用して乗物等の移動物体の発する騒音を打消す場合を説明するブロック図である。
図16】本実施形態の音響システムをノイズキャンセリングに応用した場合の情報処理の一例を示すフローチャート図である。
【発明を実施するための形態】
【0009】
本発明の実施形態について、図面を参照して詳細に示す。説明において、同一の要素には同一の番号を付し、重複する説明は省略する。
【0010】
<エンコーダ>
図1に示す音響装置100は、主にコンピュータで構成される演算部101に、撮像装置2と、集音装置3と、記憶装置4とを接続して構成されている。
このうち、演算部101は、パラメータ(特徴量)が不明な未知の画像(以下、未知の画像とも記す)の音場を立体的に再現するための空間音響フィルタ係数(以下、単に係数ともいう)を関連させるエンコーダとして機能する。
すなわち、演算部101は、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求める。そして、演算部101は、複数のサンプル画像に表された構造物のそれぞれの音場モデルを学習する。学習は、数十~数千のサンプル画像と、これらのそれぞれのサンプル画像に対応する空間音響フィルタ係数を用いて行われる。
【0011】
音響装置100は、エンコーダとして機能する場合、ディープラーニングによる学習を行う(後記)。音響装置100は、例えば空間音響フィルタ特性400e(後記)から特徴量を推定するためにニューラルネットワーク300(後記)を学習する。
【0012】
また、音響装置100は、音響フィルタ生成のデコード処理や音響処理を行うデコーダとして機能する。
【0013】
撮像装置2は、カメラ等の情報機器により主に構成されている。撮像装置2は、建築物の内部空間、たとえばコンサートホールや講堂等の2D(二次元平面画像、以下単に2Dと記す)のサンプル画像を収集する。サンプル画像は、静止画に限らず、動画を用いてもよい。すなわち、撮像装置2は、音場となる建物等の構造物を撮像して、画像データとして演算部101に出力する。また、撮像装置2は、予め撮像されたサンプル画像を画像データとして演算部101に出力するようにしてもよい。
【0014】
集音装置3は、マイク等によって主に構成されている。サンプル画像の音響データを収集する際には、集音装置3は、コンサートホール等の客席で、聴衆と同じ位置となるように配置され、構造物で発生した音を集音する。
そして、集音装置3には、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式若しくは他の方式で発生した音による構造物からの反響音を集音する。
ここで、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行ってもよい。
【0015】
すなわち、同じコンサートホールの画像であっても、一部の壁や床が拡大された画像では、正しくパラメータ推定することが困難である。
例えば、床が拡大された画像であった場合、これがコンサートホールの画像なのか、狭い部屋の床であるか判別が困難であり、学習画像にコンサートホールの床の拡大図があった場合、たとえ入力が狭い部屋の床であったとしても、誤ってコンサートホールのようなパラメータが推定されてしまう可能性がある。
【0016】
そこで、画角・構造判別の一例として、例えば床認識、壁認識、天井認識などを行う。そして、三次元空間で撮影された室内壁の六面のうち、少なくとも三面の面を認識した場合とするか、あるいは、画像から深度推定を行い、一定値以上の深度の差分が見られた場合のみ、パラメータ推定するものとしてもよい。
あるいは、熟練の音響技術者がパラメータ推定について可能か否かを判別した大量の画像を用いてニューラルネットワークを学習させた判別器を用いて、画角・構造判別を行ってもよい。
なお、サンプル画像と関連付けることにより、予め集音された音響データを集音装置3に入力して収集するようにしてもよい。
【0017】
記憶装置4は、メモリ若しくはハードディスクドライブによって構成されている。記憶装置4は、生成された音響フィルタの空間音響フィルタ係数からなる音場モデルを保持して読み書き可能としている。
【0018】
なお、撮像装置2および集音装置3は、音響装置100を構成する一例であって、必須の構成要素ではない。
【0019】
演算部101は、音響プログラムを実行する。音響プログラムは、予め演算部101に組込まれていてもよいし、読み込まれるように構成されていてもよい。また、たとえば、後述するクラウド上のクラウドサーバ104(図7参照)に、演算部101を設けて音響プログラムの一部または全部をクラウドサーバ104で実行するようにしてもよい。音響プログラムは、音響推定プログラムおよび音響合成プログラムを示す(以下、音響推定プログラムまたは音響合成プログラムのうち少なくとも何れか一方を含むものを、音響プログラムと記す。)。
【0020】
本実施形態の音響プログラムは、音場を立体的に再現するために、既定の室内空間データであるサンプル画像に対応する空間音響フィルタ係数に関連する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習する。
【0021】
また、音響プログラムは、記憶装置4に保持されているサンプル画像を用いて音場モデルを構築する。
すなわち、音響プログラムは、予め学習されたサンプル画像の音場モデルから、実際に撮像装置2で撮像されて、パラメータが不明な未知の画像について、構築された音場モデルに基づいて空間音響フィルタ係数を推定する。
そして、音響プログラムは、集音装置3から入力された音響データに、サンプル画像の構造物で演奏等されている状態に近似した音場モデルの残響データを掛け合わせて付加する。
【0022】
図2A-Bは、学習の際、音場の映像データと対応する音響データとを複数、関連させる様子を示した模式図である。この図2のグラフでは、縦軸に音量(dB)、横軸に周波数(Hz)および時間(Sec)がそれぞれ設定されている。
本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音がオクターブバンドとして200hzごとに10個の音域に区分されてサンプリングされる。
200hzごとにサンプリングされた空間音響フィルタ特性(初期値から60dB低下するまでの傾き)400a~400dは、サンプル画像a~dの構造物に対応して少しずつ相違していることがわかる。
そして、これらの相違点は、後述するディープラーニングによる学習と推定の際に、構造物によって特性が異なることに着目して、関連付けられる。たとえば、サンプル画像の特徴点として、材質が高い周波数は吸収し易い点や、残響に空間の奥行き寸法や、出入口や窓等の開口部の有無等が影響するといった点等が挙げられる。
【0023】
<音場モデルの構築>
次に、音響装置100のエンコーダ処理/デコーダ処理について、図2Bおよび図3に示すデコーダ処理のフローチャートに沿って説明する。
この音響装置100では、音場モデルの構築の処理が下記のように実行される。
図3に示すステップS1では、撮像装置2にて、サンプル画像が撮影される。
これと同時に、実際の構造物の反響音が集音装置3によって集音されて測定される。測定方法は、インパルスを時間的に引き延ばしてエネルギを大きくした時間引き延ばしパルス、すなわち、TSP(Time Stretched Pulse)を用いる。
【0024】
ステップS2では、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行う。
ステップS3では、サンプル画像に対して、空間音響フィルタ係数(パラメータ)が演算部201にて推定される。空間音響フィルタ係数の生成は、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式で行われる(図1参照)。
【0025】
ステップS4では、CG画像が実際の室内空間の未知の画像に重畳される。ここでは、実際の室内空間の未知の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。
ステップS5では、空間音響フィルタ処理が演算部201にて実行されて、音響フィルタが生成される。生成された音響フィルタは、対応するサンプル画像のデータとともに記憶装置4に蓄積されて、後述するディープラーニングによる学習に用いられる。
【0026】
そして、ステップS6では、図示しないスピーカ等の音響出力機器へ演算部101から音響出力が実施されて、生成された音場モデルによる音響を聴覚で確認してもよい。音響装置100は、音響の出力により処理を終了する。
【0027】
このように構成された実施形態の音響装置100では、演算部101で音響プログラムが実行される。音響プログラムは、音場を立体的に再現するための空間音響フィルタ係数を未知の画像に関連させる。
本実施形態では、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータが求められて、サンプル画像に表された構造物の音場モデルが学習されている。
このため、建築物の内部空間、たとえばコンサートホールや講堂等の内部の情報が、2Dの未知のサンプル画像のみであっても、簡易に対応する音場モデルを構築して再現できる。
【0028】
本実施形態の音響システムの音響装置100では、撮像装置2から演算部101に入力されるサンプル画像に対応させて、音場モデルを構築するものを示して説明してきた。
しかしながら、特にこれに限らず、たとえば、予め他の場所で撮像されたサンプル画像のデータを音響装置100に入力してもよい。この場合、データ入力されたサンプル画像に対応して、空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを演算部101で構築する。
また、実際の構造物の反響音を測定しない場合は、記憶装置4に蓄積された他の構造物に対応させた音響フィルタを、後述するディープラーニングで学習させて、実際の構造物の反響音に近似する空間音響フィルタ係数からなる音場モデルを演算することができる。
【0029】
<デコーダ>
図4は、音響システムの音響装置200の構成を説明するブロック図である。本実施形態では、図1に示す音響装置100と図4に示す音響装置200とを個別に構成している。しかしながら、特にこれに限らず、たとえば一つの演算部101または201によって、この音響システムの音響装置を構成して、一つの音響プログラムで音場モデルの学習による構築と、音場モデルを用いた音響の再生とを実行するようにしてもよい。
【0030】
本実施形態では、音響装置100と重複する部分は、同一符号を付して説明を省略し、音響装置100と相違する部分を中心に説明する。
図4に示すように、音響装置200の音響フィルタ処理には、記憶装置6に記憶された音源データや再生音データが入力される。音響装置200は、演算部201に再生装置5が接続されている。
そして、音響装置200は、音響プログラムを実行することによりデコーダとして機能する。デコーダは、予め学習されたサンプル画像の音場モデルを用いて、パラメータが不
明な未知の画像に関する空間音響フィルタ係数を推定する。
再生装置5は、音響出力装置として機能する。音響出力装置は、主に構築された音場モデルに基づいて、入力した音響を入力された画像に対応させて、残響特性を掛合わせて付加された音響を出力する機能を有する。他の構成は、音響装置100と同一乃至均等であるので説明を省略する。
【0031】
<ディープラーニング>
図5は、演算部201で実行される多数段に畳み込まれたディープラーニングの手法を用いた空間音響フィルタ係数の推定の様子を示す模式図である。
具体的には、音場モデルを構築するために図5に示すディープラーニング(図5中左から2番目)を用いる場合、4つの入力で4つの出力(パラメータ)が出力される状況では、乗算の重みをフィードバックにより変えている。
すなわち、学習の際、正解データとの差分(損失関数)が大きい場合、逆伝搬により後ろの重み係数のパラメータを更新する。この繰り返しにより、たとえば、奥行きが残響に与える影響が大きい場合、重み係数を増大させる。
また、天井の相違が少ないとする場合は、重み係数が0となると使われない枝が生じ、フィードバックによる精度を向上させる。
一方、後述する音響フィルタを推定する出力の場合では、4つの入力でそのまま、4つの出力(パラメータ)がベクトルの演算として出力される。
【0032】
本実施形態の演算部201は、ニューラルネットワーク300(図5中左から2番目)を用いて、未知の画像e(図中左端)の空間音響フィルタ特性(図5中左から3番目)を、蓄積された画像と関連する空間音響フィルタ係数を演算する。
ニューラルネットワーク300は、ディープラーニングを行うため、判断とフィードバックとが繰り返されるように多数段に畳み込まれている。ニューラルネットワーク300では、図5中左側からの入力により右側に向けて出力される判断と、後段に戻るフードバックとが複数回、本実施形態では、四段繰り返されて、空間音響フィルタ特性がパラメータとして演算される。
【0033】
ディープラーニングでは、未知の画像として完全に一致するサンプル画像が予め学習されている場合には、このサンプル画像と同じ空間音響フィルタ係数を関連する空間音響フィルタ係数として推定する。
また、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合には、このサンプル画像と近似する空間音響フィルタ係数を関連する空間音響フィルタ係数として推定することができる。
【0034】
さらに、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像の空間音響フィルタ係数にはない空間音響フィルタ係数であっても、未知の画像eに関連する空間音響フィルタ係数として、推定することができる。
このように、学習されたサンプル画像の空間音響フィルタ係数以外の異なる空間音響フィルタ係数が出力として得られることも、ディープラーニングの特徴の一つである。
そして、本実施形態の音響システムでは、未知の画像eとともに入力された音響は、この推定された空間音響フィルタ特性400eから得られる残響特性500e(図中右端)を掛け合わせて付加することにより、未知の画像eに対応する音響、ここでは、最も顕著に表れる残響特性を主として掛け合わされた音響が出力される。
【0035】
<音響フィルタの推定>
次に、音響装置200のデコーダ処理について、図6に示すフローチャートに沿って説明する。図6は、クラウドを用いた場合のデコーダの応用フローチャートである。
音響装置200で処理を開始する。まず、ステップS10では、撮像装置2にて、未知の画像が撮影される。
【0036】
ステップS11では、未知の画像の画像データがサーバに送信される。本実施形態では、サーバとして、図1の演算部101および記憶装置4を用いている。しかしながら、特にこれに限らず、図7に示すクラウドサーバ104であってもよい。
【0037】
ステップS12では、未知の画像に対応する空間音響フィルタ係数が推定される。空間音響フィルタ係数の生成は、既存のFIR、FFT、またはIIRの何れか若しくは他の方式で行われる(図4参照)。
ステップS13では、CG画像が実際の室内空間の画像に重畳される。ここでは、実際の室内空間の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。このため、ユーザは、実際の室内空間である自宅の部屋に居ながら、コンサートホール等の舞台側の映像および音響を観賞できる。
また、後述する図7のCG画 のように、AR(Augmented Reality:拡張現実)ヘッドマウントディスプレイ105を用いて実際の室内空間の画像に重畳させてもよい。
【0038】
ステップS14では、空間音響フィルタ処理が実行されて、音響フィルタが生成される。生成された音響フィルタは、記憶装置4または、クラウド上のクラウドサーバ104に蓄積される。クラウドサーバ104では、音響プログラムが構築され、クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することができる。
このため、画像データおよび音響データの数量を増大させて、学習および推定の精度を向上させることができる。
【0039】
ステップS15では、演算部201がスピーカ等により構成される再生装置5に音響を出力する。音響の出力によりデコーダ処理は、終了する。
このように構成された実施形態の音響装置200では、パラメータが不明な未知の画像であっても、画像データに対応する音響フィルタを容易に得られる。
しかも、音響フィルタは、演算部201のディープラーニングにより、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像のうち、もっとも未知の画像eに近いサンプル画像の空間音響フィルタ係数よりもさらに、未知の画像eの空間音響フィルタ係数として、ふさわしい空間音響フィルタ係数を、推定することができる。
このため、単なる学習したサンプル画像の数量を増大させることにより得られる一致度よりも高い一致度で未知の画像eの空間音響フィルタ係数を推定することができる。
【0040】
<クラウドコンピューティングおよびARへの応用>
図7は、クラウドサーバ104により構築される音場に基づいて映像データを、音響出力装置の一つとしてのARヘッドマウントディスプレイ105によって、現実空間に重畳させる様子を示している。
【0041】
たとえば、コンサートホールの映像データを現実空間に重畳させることにより、演奏者がコンサートホール内で演奏しているかのような視聴覚効果が得られる。
さらに、ARヘッドマウントディスプレイ105に撮像装置106を設ければ、ユーザPが見ている現実の空間とバイザーに投影される画像とを重畳させることが出来、画像で登場した演奏者の位置に対応した立体的な音響をヘッドホンから出力することもできる。
【0042】
また、クラウドコンピューティング(cloud computing:インターネットなどを経由し
て、コンピュータ資源をサービスの形で提供する利用形態)のクラウドサーバ104に音響システムの一部または全部を委ねることができる。
この場合、インターネットを介してクラウドサーバ104に接続された複数の撮像装置2を含む多数の情報端末から、画像データおよび音響データを収集できる。
このため、構造物のサンプル画像に対応する音響データの数量を増大させることが可能となり、残響音等の学習および推定の時間を短縮して、未知の画像に対応させる空間音響フィルタ係数の精度を向上させることができる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
【0043】
上述してきたように、本実施形態の音響プログラム、音響装置、および音響システムでは、サンプル画像と残響音のパラメータとを組み合せて、ディープラーニングを行うニューラルネットワーク300で学習させる。これにより、熟練した技術者のように2Dの画像から音場の特性を推定することができる。
【0044】
また、2Dの画像データから簡易に音場モデルが再現される。このため、3Dモデルを用いる場合に比べて、コンピュータまたはクラウドサーバ104の処理負荷を減少させることができる。
【0045】
<補聴器への応用>
図8は、本実施形態の音響システムを補聴器に応用する場合のブロック図である。
従来、補聴器は、音質を含む音の調整を人手で行っていたため、手間がかかるといった問題があった。
また、集音器の場合は、スマートフォンのアプリケーションなどを用いて使用者が音を調整できる。
しかしながら、外耳や外耳道(主に耳介とも記す)による回折や反射の影響で、強調しても無駄な周波数があり、使用者が個人で調整することは困難であった。
さらに、自然な音色再現には、相対的な周波数のバランスが重要である。たとえば一部の周波数のみを強調してしまうと不自然になってしまう、といった問題もあった。
【0046】
図8に示すように、スマートフォン600などに設けられた音響プログラムを用いて、外耳の映像から音響フィルタパラメータ推定を行う。
たとえば、耳介の画像から、干渉する周波数(ノッチ周波数、つまり、想定される鼓膜位置で節となる周波数)、振幅(ゲイン)、および周波数の幅(バンド幅)を1つ以上推定する。
または、耳介の画像から、共鳴する周波数(ピーク周波数、つまり、想定される鼓膜位置で腹となる周波数)、振幅(ゲイン)、及び周波数の幅(バンド幅)を1つ以上推定する。
生成された係数FIR、FFT、またはIIRは、補聴器本体700に送られる。そして、補聴器本体700は、集音装置であるマイク800で拾われた音を、音響フィルタ処理する。
音量が調整された音響フィルタ処理後の音は、イヤホン等の再生処理部900により、聞き易い音となり再生される。
【0047】
図9は、本実施形態の音響システムを補聴器に応用した場合のフローチャートである。
まず、ステップS20で処理が開始されると、ステップS20では、スマートフォン600などのカメラで耳介が撮影されて、耳介の画像が取得される。
ステップS21では、画像から耳の反射や回折の影響を推定する。すなわち、耳形状に影響する干渉周波数を阻止する。あるいは、自然な音色の再現の為の耳形状に影響する相対的な周波数フィルタが得られるフィルタ係数を推定して生成する。
そして、強調することにより効率的に聞き易さが変化する周波数帯域を透過し、聞き易さが変化しにくい非効率的な周波数帯を阻止するフィルタ係数を生成する。
ステップS22では、スマートフォン600から補聴器本体700に生成されたフィルタ係数を送信する。
音響フィルタ処理では、干渉または共鳴する周波数、振幅および周波数の幅の少なくとも何れかを用いて、所望の周波数帯域の音量を増減することができる。
ステップS23では、全体の音量が調整される。
そして、ステップS24では、マイク800で拾われた音にフィルタをかけて出力して、処理を終了する。
【0048】
このように、スマートフォン600側で聞き易くなる音域の調整が行える。したがって、補聴器は、調整が簡便になる。また、非効率的な周波数帯には、無駄な音エネルギを用いない。このため、ダイナミックレンジを大きくして、所望の音量を得ることができる。 さらに、一部の周波数のみを強調してしまうことが無くなり、自然な音色再現性を保ったまま、音量調整が可能となる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
【0049】
〈吹替えへの応用〉
図10は、本実施形態の音響システムを吹替えに応用する場合を説明するブロック図である。 一般に、映画、ドラマなどの映像コンテンツの言語の吹替えを行う場合、台詞を除いたコンテンツを輸入し、輸入国で吹替えている。
吹替えの際、吹替えられる言語のエフェクト処理は、現地のサウンドエンジニアによって行われる。
エフェクト処理の一つとして残響を付加する作業がある。この残響付加作業は、サウンドエンジニアの技量に左右される。また、作業工程も煩雑で膨大なものとなるといった問題があった。
【0050】
図10に示す音響装置1100は、演算部1101に、吹替え音声を入力する記録装置1103と,DVD,Blu-ray(登録商標)等の記憶媒体をフォーマットとして読書きを行うオーサリング装置1104とが接続されている。
また、演算部1101には、音響プログラムとして残響パラメータ推定を行うフィルタ係数生成部1102が設けられている。
【0051】
図11は、本実施形態の音響システムを吹替えに応用した場合のフローチャートである。
まず、処理を開始すると、ステップS30は、映画の場面である記録装置からの画像が演算部1101に入力される。場面は、静止画であっても動画であってもよい。
ステップS31では、フィルタ係数生成部1102が映画の場面に合致するフィルタ係数の一つである空間音響フィルタ係数を生成する。
ステップS32では、演算部1101がサウンドミキシングツールに生成された残響係数を送信する。
ステップS33では、記録装置1103を用いて吹替え音声の録音が行われる。
ステップS34では、吹替え音声に空間音響フィルタ係数をかけてミキシングおよび音量調整された後、オーサリング装置1104を用いてオーサリングされたデータが記憶媒体に書込まれて、再生可能な形式となり処理が終了する。
【0052】
このように、本実施形態の吹替えでは、映画、ドラマのなどのコンテンツの場面に合わせて、吹替えた音声に周囲の環境にあった自然な残響を付加することができる。
このため、サウンドエンジニアの作業工程が減少し、労力を削減できる。
【0053】
〈残響除去への応用〉
図12は、本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
図12に示す音響システム1200は、マイク800で集音された音声を音声認識処理部1210で認識して、受け答えまたは、家電製品のスイッチ操作を行う音声認識機器である。
音声認識機器の音声認識率を向上させるため、残響処理は重要な課題の一つである。たとえば、複数のマイクで話者の方向を推定して、マイクの指向性を調整することで話者がいない方向の反射音や残響音を除去する方法がある。
しかしながら、この方法では、マイクの数量を多数用意しなければならず、効率的ではなかった。
【0054】
また、マイク入力から残響特性を推定する方法も知られている。
この方法では、無音時や小音量の際には、残響を推定することが困難であり、マイクから大きな入力がなければ残響を推定することができない。
【0055】
図12に示す本実施形態の音響システム1200は、演算部1201に撮像装置2からの画像データが入力するように構成されている。
【0056】
次に、この音響システム1200の演算処理に沿って作用効果を説明する。
図13に示すフローチャートは、音響システムを残響処理に応用した場合の情報処理を示すものである。
まず、処理を開始すると、ステップS40で、撮像装置2(図12参照)を用いて部屋の画像を撮影する。
ステップS41では、演算部1201に送られた画像データから、部屋の残響パラメータを推定し、残響除去フィルタ係数を生成する。
ステップS42では、マイク800から話者の音声が入力される。
ステップS43では、マイク800で拾われた音声を演算部1201が残響除去フィルタをかけることによりフィルタ処理する。
ステップS44では、音声認識処理部1210が音声認識を行い、受け答えまたは、家電製品のスイッチ操作等を行い、処理を終了する。
【0057】
本実施形態の音響システム1200は、画像から残響特性を推定する。これにより、音声の残響を除去できる。したがって、音声認識機器の音声認識の精度を向上させることができる。
【0058】
〈ノイズキャンセリングへの応用〉
図14図16は、本実施形態の音響システムをノイズキャンセリングに応用するものを示している。
従来から、騒音をあるポイント(制御点)で逆位相となる信号を出力し、騒音を打消すアクティブノイズキャンセリングという信号処理方法が知られている。
このようなものでは、参照マイクで騒音を集音し、騒音が制御点に到達するまでにスピーカからの出力を逆位相となるように制御する。
しかしながら、この方法では、高い周波数ほど波長が短く、逆位相で打消すのが困難である。このため、電車内や飛行機内など利用される状況を想定して、打消すために必要とされる周波数帯域に制限して逆位相フィルタを実現している。
【0059】
また、ヘッドホンやイヤホンには無い空間的にノイズを打消す場合には、次のような問題もある。
たとえば、空間的にノイズを打消すためには、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性を加味する必要がある。ここで、伝搬特性としては、点音源の球面波、線音源や面音源などの平面波等により異なることが知られている。
つまり、一種類の騒音削減は可能でも、様々な騒音に対応しようとすると、騒音の入力から、このようなパターンを推定する必要がある。このため、即時性が重要とされるアクティブノイズキャンセリングでは、大きな遅延を起こし、所望の消音性能を発揮できない虞があった。
また、騒音源がない場合は、ノイズを打消すキャンセル信号を出力すべきではない。しかしながら、騒音源を音で認識させるには、実際に音が参照信号を伝播してマイク入力する必要があり、大きな遅延の原因となっていた。
【0060】
図14は、音響システムをノイズキャンセリングに応用した場合を説明するブロック図である。
このようなものでは、演算部1310に、複数個のマイク800と、複数個のスピーカ1320とが接続されている。
また、演算部1310は、ノイズ源を判定するノイズ判定部1310nと、ノイズ周波数特性のパラメータを推定/分類する周波数特性推定部1310aと、ノイズの伝搬パターンを推定/分類する伝搬パターン特性推定部1310bとを備える。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンとを用いて、フィルタ係数を複数、生成する。生成された複数のフィルタ係数は、複数のスピーカ1320からノイズキャンセル信号として出力される。
【0061】
図15は、移動物体のノイズキャンセリングに応用するものを示している。図15では、図14の処理に加えて更に、ノイズ位置情報部1310cを用いてノイズを発生させている移動物体の位置情報を考慮したフィルタ係数を生成する。
このため、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性が加味されて、生成された複数のフィルタ係数となる。伝搬特性は、点音源の球面波、線音源や面音源などの平面波のうち、少なくとも何れか一つである。そして、フィルタ係数に基づいて、複数のスピーカ1320からノイズキャンセル信号が出力される。
他の構成は、図14と同様である。
【0062】
図16は、ノイズキャンセリングの情報処理の一例を示すフローチャート図である。
まず、処理を開始すると、ステップS50では、複数の撮像装置2でノイズ源が撮影される。
ステップS51で、演算部1310(1410)」は、消すべきノイズ源か否かを判定する。ステップS51で、消すべきノイズ源であると判定された場合(ステップS51でyes)は、次のステップS52に進み、消すべきノイズ源ではないと判定された場合(ステップS51でno)は、ステップS50に戻り、複数の撮像装置2で撮影を続ける。
【0063】
ステップS53では、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数を複数、生成する。この際、画像データは、動画であってもよい。そして、動画のフレームと、背景画像または前フレームとの差分を用いて、前記空間音響フィルタ係数を推定する。
ステップS54では、複数のノイズ参照用のマイク800の入力にノイズキャンセリングをかけて、複数のスピーカ1320から出力し、処理を終了する。
【0064】
このように、本実施形態では、画像からノイズキャンセリングの対象となる状況および現象を認識して、判定する。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数が複数、生成される。
このため、さらに、ノイズキャンセリングの精度を向上させることができる。
【0065】
すなわち、画像は、光を媒体とするため、高速で捉えられ、マイク800で音を捉える音速より早く、フィルタ係数の生成を開始することができる。
このため、演算量を増大させて、リアルタイム性をより向上させることができる。
また、騒音源がない場合は、ノイズキャンセリングを行う信号がスピーカ1320から出力されない。したがって無駄な演算処理がない。さらに、意図せぬ信号がスピーカ1320から出力されないため、キャンセリング波が周囲に悪影響を及ぼすリスクを減少させることができる。 他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
【0066】
以上、本実施形態に係る音響プログラム、音響装置、および音響システムおよび画像生成プログラムについて詳述してきたが、本発明はこれらの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更可能であることは言うまでもない。
【0067】
たとえば、本実施形態の演算部101は、システムを構成するコンピュータに設けられているが特にこれに限らない。たとえば、演算部101を図7に示すようなクラウドサーバ104に設けてもよい。
また、コンピュータの演算部101と独立させてクラウドサーバ104にニューラルネットワーク300を設けてもよい。さらに、ディープラーニングを行うニューラルネットワーク300についても、特に実施形態のような多数段に畳み込まれるものに限らない。
たとえば、サンプル画像と残響音のパラメータとを組み合せて、音場モデルの学習と推定が行えるものであれば、どのような人工知能やプログラムを用いてもよい。
【0068】
そして、本実施形態では、エンコーダとしての音響装置100と、デコーダとしての音響装置200とを個別に設けているが特にこれに限らず、音響装置100および音響装置200を一体に設けて、共通の一つの演算部がエンコーダとデコーダとして機能するようにしてもよい。
さらに、音響装置100,200の演算部101,201に接続される撮像装置2、集音装置3、記憶装置4、および再生装置5についても、特に実施形態に限らず、特に画像データや音響データを接続により入力可能なデバイス等、どのような情報の入出力が行える装置が接続されていてもよい。
【0069】
さらに、構造物の反響音を測定する測定方法についても、TSP(Time Stretched
Pulse)に限らない。たとえば、他のインパルスを用いた測定方法や、M系列、ホワイトノイズ、ピンクノイズを用いる測定方法等、どのような音の反響音を測定する測定方法であってもよい。
【0070】
また、本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音が200hzごとにサンプリングされている。しかしながら特にこれに限らず、1オクターブ毎、1/3オクターブ毎等、どのような単位でサンプリングしてもよい。
【符号の説明】
【0071】
2 撮像装置
3 集音装置
4 記憶装置
5 再生装置(音響出力装置)
100,200 音響装置
101,201 演算部
104 クラウドサーバ
300 ニューラルネットワーク
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16