(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-02
(45)【発行日】2024-10-10
(54)【発明の名称】信号処理装置、及びプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20241003BHJP
【FI】
H04R3/00 320
(21)【出願番号】P 2020117496
(22)【出願日】2020-07-08
【審査請求日】2023-07-04
(73)【特許権者】
【識別番号】520090756
【氏名又は名称】クレプシードラ株式会社
(74)【代理人】
【識別番号】100140958
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100198845
【氏名又は名称】井上 善喬
(72)【発明者】
【氏名】今 誉
(72)【発明者】
【氏名】前野 悠
【審査官】毛利 太郎
(56)【参考文献】
【文献】特開2008-245267(JP,A)
【文献】特開平05-095596(JP,A)
【文献】特表2006-523828(JP,A)
【文献】特表2015-510320(JP,A)
【文献】米国特許出願公開第2009/0316916(US,A1)
【文献】特開2010-263354(JP,A)
【文献】特開平03-280700(JP,A)
【文献】特開2017-011541(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 1/00 - 31/00
G10L 13/00 - 25/93
G10K 11/00 - 11/36
(57)【特許請求の範囲】
【請求項1】
音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号、及び前記音響伝送系の内側の第2の位置に配置された前記第1のマイクロフォンとは異なる特性を有する第2のマイクロフォンにより取得された第2の音響信号を合成することで出力信号を生成する信号処理部、
を備
え、
前記信号処理部は、前記第1の音響信号に対し、前記第1の音響信号を構成する複数の周波数成分のうち所定の基準を満たす周波数成分である第1の周波数成分を、前記第2の音響信号を構成する複数の周波数成分のうち前記第1の周波数成分と同一周波数の周波数成分である第2の周波数成分に置き換える処理を適用することで、前記出力信号を生成する、
信号処理装置。
【請求項2】
前記第1の位置及び前記第2の位置は、前記音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置である、
請求項1に記載の信号処理装置。
【請求項3】
前記信号処理部は、一定とみなせる前記位相差に基づいて、前記第1の音響信号の位相と前記第2の音響信号の位相とを揃えた上で、前記第1の音響信号及び前記第2の音響信号を合成する、
請求項2に記載の信号処理装置。
【請求項4】
前記音響伝送系は、音響管であり、
前記第1の位置及び前記第2の位置の少なくともいずれかは、前記音響管の開口からの距離が前記音響管の内径の半分以上である位置である、
請求項2又は3に記載の信号処理装置。
【請求項5】
前記音響伝送系は、音響管及び前記音響管に結合される音響ホーンであり、
前記第1の位置及び前記第2の位置の各々は、前記音響管の内側の位置、又は前記音響ホーンの内側であって前記音響管と前記音響ホーンとの結合位置からの距離が前記音響管の内径以下の位置のいずれかである、
請求項2又は3に記載の信号処理装置。
【請求項6】
前記音響伝送系は、人間の耳であり、
前記音響管は外耳道であり、前記音響ホーンは耳殻であり、
前記第1の位置及び前記第2の位置は、前記外耳道の内側の位置、又は前記耳殻の内側であって前記外耳道の入口からの距離が6mm以下の位置のいずれかである、
請求項5に記載の信号処理装置。
【請求項7】
前記所定の基準は、前記第1のマイクロフォンの最大入力音圧に応じた所定の閾値を超える大きさを有する周波数成分であることを含む、
請求項
1~6のいずれか一項に記載の信号処理装置。
【請求項8】
前記所定の基準は、前記所定の閾値を超える大きさを有する他の周波数成分によりマスキングされる周波数成分であることを含む、
請求項
7に記載の信号処理装置。
【請求項9】
前記第1のマイクロフォンは、前記第2のマイクロフォンと比較して高SN比(Signal to Noise Ratio)であり、
前記第2のマイクロフォンは、前記第1のマイクロフォンと比較して高耐圧である、
請求項
6~8のいずれか一項に記載の信号処理装置。
【請求項10】
前記第1の音響信号及び前記第2の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置及び前記第2の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第3の位置に配置された第3のマイクロフォンにより取得された第3の音響信号を出力するモデルを学習する学習部をさらに備える、
請求項1~
9のいずれか一項に記載の信号処理装置。
【請求項11】
前記信号処理部は、前記第1の音響信号及び前記第2の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置及び前記第2の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第3の位置に配置された第3のマイクロフォンにより取得された第3の音響信号を出力するよう学習されたモデルに対し、前記第1の音響信号及び前記第2の音響信号を入力することで、前記出力信号を生成する、
請求項1~
10のいずれか一項に記載の信号処理装置。
【請求項12】
前記第3のマイクロフォンは、前記第2のマイクロフォンと比較して高SN比であり、前記第1のマイクロフォンと比較して高耐圧である、
請求項
10又は
11に記載の信号処理装置。
【請求項13】
音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第4の位置に配置された第4のマイクロフォンにより取得された第4の音響信号を出力するよう学習されたモデルに対し、前記第1の音響信号を入力することで出力信号を生成する信号処理部、
を備える信号処理装置。
【請求項14】
コンピュータを、
音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号、及び前記音響伝送系の内側の第2の位置に配置された前記第1のマイクロフォンとは異なる特性を有する第2のマイクロフォンにより取得された第2の音響信号を合成することで出力信号を生成する信号処理部、
として機能さ
せ、
前記信号処理部は、前記第1の音響信号に対し、前記第1の音響信号を構成する複数の周波数成分のうち所定の基準を満たす周波数成分である第1の周波数成分を、前記第2の音響信号を構成する複数の周波数成分のうち前記第1の周波数成分と同一周波数の周波数成分である第2の周波数成分に置き換える処理を適用することで、前記出力信号を生成する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理装置、及びプログラムに関する。
【背景技術】
【0002】
近年、音声コンテンツの再現環境の進歩に伴い、マイクロフォンの録音性能を向上させることが求められている。ただし、マイクロフォンを単に高性能化しようとすると、ダイアフラムが大型になったり、コストが非常に高くなったりする等の不都合があった。そこで、下記非特許文献1では、特性の異なる2つのマイクロフォンを併用することで、疑似的に録音性能を向上させる技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Takashi Kasai et al. ,“Novel concept for a MEMS microphone with dual channels for an ultrawide dynamic range,” 2011 IEEE 24th International Conference on Micro Electro Mechanical Systems.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記非特許文献1に開示された技術は、特性の異なる2つのマイクロフォンにより得られた2つの音響信号のうちいずれの音響信号を出力するかを、入力音圧に応じてスイッチするものであった。このような単純なスイッチングを経て得られた出力信号を再生すると、スイッチング前後で不自然な変化が生じてしまい、聴覚上の違和感をユーザに与えてしまっていた。
【0005】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、録音された音を再生した際にユーザに与える聴覚上の違和感を抑制することが可能な仕組みを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のある観点によれば、音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号、及び前記音響伝送系の内側の第2の位置に配置された前記第1のマイクロフォンとは異なる特性を有する第2のマイクロフォンにより取得された第2の音響信号を合成することで出力信号を生成する信号処理部、を備える信号処理装置が提供される。
【0007】
前記第1の位置及び前記第2の位置は、前記音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置であってもよい。
【0008】
前記信号処理部は、一定とみなせる前記位相差に基づいて、前記第1の音響信号の位相と前記第2の音響信号の位相とを揃えた上で、前記第1の音響信号及び前記第2の音響信号を合成してもよい。
【0009】
前記音響伝送系は、音響管であり、前記第1の位置及び前記第2の位置の少なくともいずれかは、前記音響管の開口からの距離が前記音響管の内径の半分以上である位置であってもよい。
【0010】
前記音響伝送系は、音響管及び前記音響管に結合される音響ホーンであり、前記第1の位置及び前記第2の位置の各々は、前記音響管の内側の位置、又は前記音響ホーンの内側であって前記音響管と前記音響ホーンとの結合位置からの距離が前記音響管の内径以下の位置のいずれかであってもよい。
【0011】
前記音響伝送系は、人間の耳であり、前記音響管は外耳道であり、前記音響ホーンは耳殻であり、前記第1の位置及び前記第2の位置は、前記外耳道の内側の位置、又は前記耳殻の内側であって前記外耳道の入口からの距離が6mm以下の位置のいずれかであってもよい。
【0012】
前記信号処理部は、前記第1の音響信号に対し、前記第1の音響信号を構成する複数の周波数成分のうち所定の基準を満たす周波数成分である第1の周波数成分を、前記第2の音響信号を構成する複数の周波数成分のうち前記第1の周波数成分と同一周波数の周波数成分である第2の周波数成分に置き換える処理を適用することで、前記出力信号を生成してもよい。
【0013】
前記所定の基準は、前記第1のマイクロフォンの最大入力音圧に応じた所定の閾値を超える大きさを有する周波数成分であることを含んでいてもよい。
【0014】
前記所定の基準は、前記所定の閾値を超える大きさを有する他の周波数成分によりマスキングされる周波数成分であることを含んでいてもよい。
【0015】
前記第1のマイクロフォンは、前記第2のマイクロフォンと比較して高SN比(Signal to Noise Ratio)であり、前記第2のマイクロフォンは、前記第1のマイクロフォンと比較して高耐圧であってもよい。
【0016】
前記第1の音響信号及び前記第2の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置及び前記第2の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第3の位置に配置された第3のマイクロフォンにより取得された第3の音響信号を出力するモデルを学習する学習部をさらに備えていてもよい。
【0017】
前記信号処理部は、前記第1の音響信号及び前記第2の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置及び前記第2の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第3の位置に配置された第3のマイクロフォンにより取得された第3の音響信号を出力するよう学習されたモデルに対し、前記第1の音響信号及び前記第2の音響信号を入力することで、前記出力信号を生成してもよい。
【0018】
前記第3のマイクロフォンは、前記第2のマイクロフォンと比較して高SN比であり、前記第1のマイクロフォンと比較して高耐圧であってもよい。
【0019】
また、上記課題を解決するために、本発明の別の観点によれば、音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号が入力された場合に、前記音響伝送系の内側であって、前記音響伝送系の外部から到来した音の前記第1の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第4の位置に配置された第4のマイクロフォンにより取得された第4の音響信号を出力するよう学習されたモデルに対し、前記第1の音響信号を入力することで出力信号を生成する信号処理部、を備える信号処理装置が提供される。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、音響伝送系の内側の第1の位置に配置された第1のマイクロフォンにより取得された第1の音響信号、及び前記音響伝送系の内側の第2の位置に配置された前記第1のマイクロフォンとは異なる特性を有する第2のマイクロフォンにより取得された第2の音響信号を合成することで出力信号を生成する信号処理部、として機能させるためのプログラムが提供される。
【発明の効果】
【0021】
以上説明したように本発明によれば、録音された音を再生した際にユーザに与える聴覚上の違和感を抑制することが可能な仕組みが提供される。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施形態に係る信号処理装置の構成の一例を示すブロック図である。
【
図2】本実施形態に係る音響信号取得部の構成の一例を模式的に示す図である。
【
図3】本実施形態に係る音響信号取得部の構成の一例を模式的に示す図である。
【
図4】本実施形態に係る信号処理部における信号処理の一例を示すシグナルフロー図である。
【
図5】本実施形態に係る信号処理部における信号処理の一例を説明するためのグラフである。
【
図6】本実施形態に係る信号処理装置において実行される信号処理の流れの一例を示すフローチャートである。
【
図7】本変形例に係る信号処理装置の構成の一例を示すブロック図である。
【
図8】本変形例に係る音響信号取得部の構成の一例を模式的に示す図である。
【
図9】本変形例に係る信号処理装置の構成の一例を示すブロック図である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
<1.構成例>
図1は、本発明の一実施形態に係る信号処理装置の構成の一例を示すブロック図である。
図1に示すように、本実施形態に係る信号処理装置1は、音響信号取得部10、記憶部20、出力部30、及び制御部40を含む。
【0025】
音響信号取得部10は、到来した音を示す音響信号を取得する機能を有する。
図1に示すように、音響信号取得部10は、マイクロフォン(以下、マイクとも称する)11A及び11B、アンプ12A及び12B、A/D変換器13A及び13Bを含む。
【0026】
なお、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合がある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じてマイク11A及び11Bのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、マイク11A及び11Bを特に区別する必要が無い場合には、単にマイク11と称する。
【0027】
マイク11は、到来した音を示す音響信号を取得する。アンプ12は、マイク11により取得された音響信号を増幅して出力する。A/D変換器13は、アンプ12から出力されたアナログ信号をデジタル信号に変換する。以下では、マイク11Aを第1のマイク11Aとも称し、マイク11Bを第2のマイク11Bとも称する場合がある。また、第1のマイク11Aにより取得された音響信号を、以下では第1の音響信号とも称する。ただし、第1の音響信号は、アンプ12Aにより増幅され、A/D変換器13Aによりデジタル信号に変換された信号を意味していてもよい。同様に、第2のマイク11Bにより取得された音響信号を、以下では第2の音響信号とも称する。ただし、第2の音響信号は、アンプ12Bにより増幅され、A/D変換器13Bによりデジタル信号に変換された信号を意味していてもよい。
【0028】
記憶部20は、各種情報を記憶する機能を有する。記憶部20は、所定の記憶媒体に対してデータの記憶及び読み出しを行う。所定の記憶媒体の一例として、フラッシュメモリ等の不揮発性の記憶媒体が挙げられる。
【0029】
出力部30は、情報を出力する機能を有する。出力部30は、ネットワークインタフェースを含んでいてもよく、接続されたネットワークを介して外部に情報を送信してもよい。出力部30は、スピーカを含んでいてもよく、音を再生してもよい。例えば、出力部30は、制御部40により生成された出力信号を、送信又は再生する。
【0030】
制御部40は、演算処理装置及び制御装置として機能し、各種プログラムに従って信号処理装置1内の動作全般を制御する。制御部40は、例えばCPU(Central Processing Unit)、及びDSP(Digital Signal Processor)等の電子回路によって実現される。なお、制御部40は、使用するプログラム及び演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
【0031】
とりわけ、制御部40は、音響信号取得部10により取得された音響信号に対し各種信号処理を適用する信号処理部として機能する。
【0032】
<2.技術的特徴>
(1)技術的課題
上記非特許文献1に開示された技術は、特性の異なる2つのマイクにより得られた2つの音響信号のうちいずれの音響信号を出力するかを、入力音圧に応じてスイッチするものであった。
【0033】
通常、異なる位置に配置された2つのマイクの各々により取得された音響信号に生じる位相差は、音源方向(即ち、音の到来方向)によって変化する。そのため、単純にスイッチングを行うと、再生音の位相が不連続となるので、聴覚上の違和感をユーザに与えてしまっていた。
【0034】
さらに、高SN比のマイクにより得られた音響信号から低SN比のマイクにより得られた音響信号へスイッチングされると、ノイズフロアが上がるので、さらなる聴覚上の違和感をユーザに与えてしまっていた。また、単周波数の大音量の音が発生している環境で、低耐圧なマイクから高耐圧なマイクにスイッチングされた場合、当該周波数以外の音については、高耐圧なマイクの自己ノイズが聴こえてしまっていた。
【0035】
(2)マイクの配置
第1のマイク11Aは、音響伝送系の内側の第1の位置に配置される。第2のマイク11Bもまた、音響伝送系の内側の第2の位置に配置される。ただし、第1のマイク11Aと第2のマイク11Bとは、特性が異なる。ここでの特性とは、例えば、SN比(Signal to Noise Ratio)及び耐圧性である。なお、耐圧性とは、最大入力音圧の大きさを示す指標である。
【0036】
制御部40は、第1の音響信号、及び第2の音響信号を合成することで出力信号を生成する。例えば、制御部40は、第1の音響信号の周波数成分及び第2の音響信号の周波数成分の各々を含む出力信号を生成する。かかる構成によれば、出力信号が特性の異なる2つのマイクにより取得された音響信号の双方を含有することとなるので、単にスイッチングされる場合と比較して、聴覚上の違和感を軽減することが可能である。
【0037】
第1の位置及び第2の位置は、音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置である。さらに言えば、第1の位置及び第2の位置は、音響伝送系の外部から到来した音の特性(例えば、周波数エネルギー及び共振周波数)が、音源方向によらず一定とみなせる位置である。かかる構成によれば、音響伝送系の外部から到来した音の、第1の位置における音と第2の位置における音との位相差及び相対的な特性を、音源方向によらず一定に保つことができる。よって、第1の音響信号と第2の音響信号とを合成する際の処理を簡易にすることが可能となる。
【0038】
制御部40は、音響伝送系の外部から到来した音の第1の位置における位相と第2の位置における位相との間の、一定とみなせる位相差に基づいて、第1の音響信号の位相と第2の音響信号の位相とを揃えた上で、第1の音響信号及び第2の音響信号を合成する。典型的には、音響伝送系の外部から到来した音の、第1の位置における位相と第2の位置における位相との間の位相差は、第1の位置と第2の位置との相対関係(例えば、距離)に対応する。そこで、制御部40は、第1の位置と第2の位置との相対関係(例えば、距離)に対応する位相差を、第1の音響信号又は第2の音響信号のいずれかに付与した上で(例えば、遅延させて)、第1の音響信号及び第2の音響信号を合成する。かかる構成により、同一位相の信号を合成することができるので、聴覚上の違和感を軽減することが可能である。
【0039】
-音響伝送系が音響管である場合
音響伝送系は、音響管であってもよい。ただし、音響管は、一端が開口であり他端が閉じられているものとする。その場合、第1の位置及び第2の位置の少なくともいずれかは、音響管の内側であって、音響管の開口からの距離が音響管の内径の半分以上である位置である。音響管の開口からの距離が音響管の内径の半分以上である位置では、音響伝送系の外部から到来した音を平面波とみなすことができることが知られている。よって、第1の位置及び第2の位置の双方が、音響管の開口からの距離が音響管の内径の半分以上である位置である場合、第1の音響信号と第2の音響信号との位相差を一定とみなして、位相を揃えて合成することが可能となる。
【0040】
また、第1の位置及び第2の位置の一方が、音響管の内側であって音響管の開口からの距離が音響管の内径の半分以上である位置であれば、他方は、音響管の内側であって音響管の開口からの距離が音響管の内径の半分未満の位置であってもよい。一例として、第1の位置が音響管の開口からの距離が音響管の内径の半分未満の位置であり、第2の位置が音響管の開口からの距離が音響管の内径の半分以上の位置であるものとする。その場合、第1の位置に到来した音に対し、第1の位置と第2の位置との相対関係に対応する位相差を付与することで、周波数エネルギー及び共振周波数等の特性を第2の位置に到来する音と同等に近似することができる。よって、平面波である第2の音響信号と、平面波である第2の音響信号に近似した第1の音響信号とを、位相を揃えて合成することが可能となる。もちろん、第1の位置と第2の位置とが逆であってもよい。
【0041】
第1の位置及び第2の位置の具体例を、
図2を参照しながら説明する。
【0042】
図2は、本実施形態に係る音響信号取得部10の構成の一例を模式的に示す図である。
図2では、上段に音響信号取得部10Aの構成が示されており、下段に音響信号取得部10Bの構成が示されている。音響信号取得部10A及び音響信号取得部10Bでは、中空部材15の内側に、第1のマイク11A及び第2のマイク11Bが配置されている。中空部材15は、一端が開口であり他端が閉じられた円筒状の部材である。中空部材15は、音響管の一例である。
図2各段の左図は、中空部材15の開口側から音響信号取得部10を見た正面図である。
図2各段の右図は、中空部材15の長手方向に沿って音響信号取得部10を切断した場合の断面図である。
【0043】
図2の上段に示すように、音響信号取得部10Aでは、第1のマイク11Aが、中空部材15の開口付近、即ち、中空部材15の開口からの距離が中空部材15の内径dの半分であるd/2未満である位置に配置されている。他方、第2のマイク11Bは、中空部材15の開口からの距離が中空部材15の内径dの半分であるd/2である位置に配置されている。例えば、中空部材15の内径が6mmであれば、第2のマイク11Bは中空部材15の開口から3mmの位置に配置されている。この場合、第2のマイク11Bの位置では、中空部材15の外部から到来した音を平面波とみなすことができる。他方、第1のマイク11Aの位置では、中空部材15の外部から到来した音に所定の位相差を付与することで、第2のマイク11Bの到来する音と特性を同等にすることができる。よって、中空部材15の外部から到来した音の、第1のマイク11Aの位置における位相と第2のマイク11Bの位置における位相との間の位相差を一定とみなして、第1の音響信号と第2の音響信号の位相とを位相を揃えて合成することが可能となる。なお、第1のマイク11Aと第2のマイク11Bの配置は逆であってもよい。
【0044】
図2の下段に示すように、音響信号取得部10Bでは、第1のマイク11A及びマイク11Bの双方が、中空部材15の開口からの距離が中空部材15の内径dの半分であるd/2以上の位置に配置されている。例えば、中空部材15の内径が6mmであれば、第1のマイク11A及び第2のマイク11Bは中空部材15の開口からの距離が3mm以上の位置に配置されている。この場合、第1のマイク11Aの位置及び第2のマイク11Bの位置では、中空部材15の外部から到来した音を平面波とみなすことができる。よって、中空部材15の外部から到来した音の、第1のマイク11Aの位置における位相と第2のマイク11Bの位置における位相との間の位相差を一定とみなして、第1の音響信号と第2の音響信号とを位相を揃えて合成することが可能となる。
【0045】
-音響伝送系が音響管と音響ホーンとの結合である場合
音響伝送系は、音響管及び音響管に結合される音響ホーンであってもよい。ただし、音響管の端部のうち、音響ホーンに接続された側の端部が開口であり、他方の端部は閉じられているものとする。音響ホーンとは、一端(スロートとも称される)から他端(マウスとも称される)にかけて徐々に径が大きくなる管状の形状を有する部材である。音響ホーンのマウスに側に対し外部から到来した音は、音響ホーンの内部のスロート側の位置では平面波に近似することができることが知られている。
【0046】
そこで、第1の位置及び第2の位置の各々は、音響管の内側の位置、又は音響ホーンの内側であって音響管と音響ホーンとの結合位置からの距離が音響管の内径以下の位置のいずれかであればよい。これらの位置であれば、音響伝送系の外部から到来した音を平面波とみなす、又は平面波に近似することができる。よって、第1の音響信号と第2の音響信号とを、位相を揃えて合成することが可能となる。
【0047】
例えば、音響伝送系は、人間の耳であってもよい。その場合の第1の位置及び第2の位置の具体例を、
図3を参照しながら説明する。
【0048】
図3は、本実施形態に係る音響信号取得部10の構成の一例を模式的に示す図である。
図3では、上段に音響信号取得部10Cの構成が示されており、下段に音響信号取得部10Dの構成が示されている。音響信号取得部10C及び音響信号取得部10Dでは、外耳道16又は耳殻17の内側に、第1のマイク11A及び第2のマイク11Bが配置されている。外耳道16は、音響管の一例である。耳殻17は、音響ホーンの一例である。そして、外耳道16の入口18は、音響管と音響ホーンとの結合位置の一例である。外耳道16のうち外耳道16の入口18の反対側の端部は、鼓膜により閉じられている。
図3各段の左図は、外耳道16の外側から音響信号取得部10を見た正面図である。
図3各段の右図は、外耳道16の長手方向に沿って音響信号取得部10を切断した場合の断面図である。
【0049】
図3の上段に示すように、音響信号取得部10Aでは、第1のマイク11Aが、耳殻17の内側であって、外耳道16の入口18からの距離が外耳道16の内径d以下の位置に配置されている。例えば、外耳道16の内径が6mmであれば、第1のマイク11Aは、耳殻17の内側であって、外耳道16の入口18からの距離が6mm以下の位置に配置されている。他方、第2のマイク11Bは、外耳道16の内側に配置されている。この場合、第1のマイク11Aの位置及び第2のマイク11Bの位置では、外部から到来した音を平面波とみなす、又は平面波に近似することができる。よって、外部から到来した音の、第1のマイク11Aの位置における位相と第2のマイク11Bの位置における位相との間の位相差を一定とみなして、第1の音響信号と第2の音響信号とを位相を揃えて合成することが可能となる。
【0050】
図3の下段に示すように、音響信号取得部10Bでは、第1のマイク11A及び第2のマイク11Bが、耳殻17の内側であって、外耳道16の入口18からの距離が外耳道16の内径d以下の位置に配置されている。例えば、外耳道16の内径が6mmであれば、第1のマイク11A及び第2のマイク11Bは、耳殻17の内側であって、外耳道16の入口18からの距離が6mm以下の位置に配置されている。この場合、第1のマイク11Aの位置及び第2のマイク11Bの位置では、外部から到来した音を平面波とみなす、又は平面波に近似することができる。よって、外部から到来した音の、第1のマイク11Aの位置における位相と第2のマイク11Bの位置における位相との間の位相差を一定とみなして、第1の音響信号と第2の音響信号とを位相を揃えて合成することが可能となる。
【0051】
-補足
なお、音響管の内径dは、音の波長λよりも十分小さいものとする。人間の平均的な外耳道の内径dを6mm~7mmとすると、d=λ/2が成り立つ音の波長は24kHz~28kHzである。
【0052】
また、バイノーラル技術分野において、人間の耳に到来した音の、耳における各位置における特性が、非特許文献「Henrik Moller,“Fundamentals of binaural technology”,Applied Acoustics,36(3-4):171-218,December 1992.」において報告されている。当該非特許文献の
図4を参照すると、外耳道の内側の位置、及び耳殻の内側であって外耳道の入口からの距離が6mm以下の位置であれば、外部から到来した音の特性が音源方向によらずほぼ一定となることが分かる。
【0053】
(3)信号処理の詳細
以下、
図4を参照しながら、本実施形態における信号処理の詳細を説明する。
図4は、本実施形態に係る信号処理部における信号処理の一例を示すシグナルフロー図である。なお、
図4では、
図2に示した音響信号取得部10Aのように、第1のマイク11Aの方が第2のマイク11Bより音源に近い場合のシグナルフローを示している。
【0054】
図4に示すように、制御部40は、第1の音響信号を遅延させた上で、周波数分解する。例えば、制御部40は、第1の位置と第2の位置との相対関係に対応する、第1の音響信号と第2の音響信号との間の一定とみなせる位相差の分だけ、第1の音響信号を遅延させる。他にも、制御部40は、第1の位置と第2の位置との相対関係に対応する、第1の音響信号と第2の音響信号との間の一定とみなせる位相差の分だけ、第1の音響信号を移相させるフェイズシフトフィルタを適用してもよい。他方、制御部40は、第2の音響信号を、周波数分解する。
【0055】
そして、制御部40は、第1の音響信号と第2の音響信号とを合成する。その際、制御部40は、第1の音響信号に対し、第1の音響信号を構成する複数の周波数成分のうち所定の基準を満たす周波数成分である第1の周波数成分を、第2の音響信号を構成する複数の周波数成分のうち第1の周波数成分と同一周波数の周波数成分である第2の周波数成分に置き換える処理を適用することで、出力信号を生成する。つまり、制御部40は、第1の音響信号のうち、第1の周波数成分を第2の周波数成分に置き換えることで、出力信号を生成する。かかる構成によれば、出力信号において、同一周波数の第1の音響信号と第2の音響信号とが並存することが回避されるので、聴覚上の違和感を軽減することが可能である。
【0056】
所定の基準は、第1のマイク11Aの最大入力音圧に応じた所定の閾値を超える大きさを有する周波数成分であることを含んでいてもよい。所定の閾値の一例は、第1のマイク11Aの最大入力音圧である。以下では、所定の閾値を、単に最大入力音圧とも称する。かかる構成によれば、第1の音響信号を構成する複数の周波数成分のうち、音圧(例えば、周波数エネルギー)が最大入力音圧を超える周波数成分を、第2の音響信号の周波数成分に置き換えることができる。従って、音圧が最大入力音圧を超える(即ち、飽和する)ことで発生する歪みを出力信号から除去することができるので、聴覚上の違和感を軽減することが可能である。
【0057】
所定の基準は、最大入力音圧を超える大きさを有する他の周波数成分によりマスキングされる周波数成分であることを含んでいてもよい。ある音が他の音によって遮蔽されて聞こえなくなる現象は、マスキング効果とも称される。マスキング効果は、同一の周波数の音だけでなく、周辺の周波数の音にも及ぶことが知られている。マスキング効果が及ぶ範囲は、マスキングレベルとも称される。かかる構成によれば、最大入力音圧を超える周波数成分だけでなく、最大入力音圧を超えた周波数成分のマスキングレベルが及ぶ範囲の周波数成分を、まとめて置き換えることができる。これにより、聴覚上の違和感を軽減することが可能である。また、ある程度まとまった範囲の周波数成分を置き換えことで、帯域分割数を少なくすることができるので、聴覚上の違和感をさらに軽減することが可能である。
【0058】
以下、
図5を参照しながら、これらの基準に基づく信号処理について詳細に説明する。
【0059】
図5は、本実施形態に係る信号処理部における信号処理の一例を説明するためのグラフである。本グラフの横軸は周波数であり、縦軸は音の大きさを示すレベルである。マスキングレベル100Aは、周波数が1kHzであり大きさが100dBである音が鳴っている場合のマスキングレベルを模式的に示している。マスキングレベル100Bは、周波数が1kHzであり大きさが60dBである音が鳴っている場合のマスキングレベルを模式的に示している。マスキングレベル100Cは、周波数が1kHzであり大きさが20dBである音が鳴っている場合のマスキングレベルを模式的に示している。これらの音が鳴っている場合、各周波数においてマスキングレベルよりも小さな音は、マスキング効果により聞こえなくなる。
図5に示すように、各周波数のマスキングレベルは、鳴っている音の大きさによって異なる。また、各周波数のマスキングレベルは、鳴っている音の周波数によっても異なる。
【0060】
図5に示したグラフにおいて、周波数成分110A~110Dは、第1の音響信号の周波数成分である。周波数成分110Cは、1kHzの成分であり、その大きさは100dBである。第1のマイク11Aの最大入力音圧120が60dBであるとすると、周波数成分110Cは最大入力音圧を超えているから、置き換えの対象となる。また、周波数成分110Cのマスキング効果は、マスキングレベル100Aにより示される。0.2kHzの周波数成分110Aについては、大きさがマスキングレベル100Aを上回るので、周波数成分110Cによるマスキング効果は及ばない(即ち、聞こえる)。他方、0.5kHzの周波数成分110B、及び2kHの周波数成分110Dは、大きさがマスキングレベル100Aを下回るので、周波数成分110Cによるマスキング効果が及ぶ(即ち、聞こえない)。そのため、周波数成分110B及び周波数成分110Dもまた、置き換えの対象となる。以上から、制御部40は、第1の音響信号のうち、0.5kHzの周波数成分110B、1kHzの周波数成分110C、及び2kHの周波数成分110Dを、第2の音響信号の0.5kHzの周波数成分、1kHzの周波数成分、及び2kHの周波数成分に置き換える。
【0061】
第1のマイク11Aは、第2のマイク11Bと比較して、高SN比であってもよい。他方、第2のマイク11Bは、第1のマイク11Aと比較して、高耐圧であってもよい。かかる構成によれば、高SN比なマイクにより取得された音のうち、最大入力音圧を超える音圧が得られた周波数については、高耐圧なマイクにより取得された音に置き換えることができる。高耐圧なマイクの最大入力音圧は、低耐圧なマイクの最大入力音圧よりも高いので、低耐圧なマイクで発生していた歪みを軽減する又は無くすことができる。従って、本実施形態では、出力信号において、高SN比と高耐圧とを疑似的に両立させることが可能となる。
【0062】
(4)処理の流れ
図6は、本実施形態に係る信号処理装置1において実行される信号処理の流れの一例を示すフローチャートである。ここでは、第1のマイク11Aは、第2のマイク11Bと比較して高SN比であり、第2のマイク11Bは、第1のマイク11Aと比較して高耐圧であるものとする。
【0063】
図6に示すように、まず、制御部40は、第1の位置と第2の位置との相対関係に基づいて、第1の音響信号と第2の音響信号との位相を揃える(ステップS102)。例えば、制御部40は、第1の音響信号又は第2の音響信号の一方を、第1の位置と第2の位置との相対関係に対応する、第1の音響信号と第2の音響信号との間の一定とみなせる位相差の分だけ、遅延又は移相させる。
【0064】
次いで、制御部40は、第1の音響信号及び第2の音響信号の各々を周波数分解する(ステップS104)。例えば、制御部40は、第1の音響信号及び第2の音響信号の各々に対し、短時間フーリエ変換(STFT:short-time Fourier transform)、又はオクターブバンドフィルタを適用する。
【0065】
次に、制御部40は、第1のマイク11Aの最大入力音圧に基づいて、第1の音響信を構成する複数の周波数成分から置き換え対象の周波数成分を選択する(ステップS106)。詳しくは、制御部40は、第1の音響信号を構成する複数の周波数成分のうち、第1のマイク11Aの最大入力音圧に対応する所定の閾値を超える大きさを有する周波数成分を、置き換え対象の周波数成分として選択する
【0066】
次いで、制御部40は、置き換え対象の周波数成分として選択された周波数成分が有るか否かを判定する(ステップS108)。
【0067】
選択された周波数成分が有ると判定された場合(ステップS108:YES)、制御部40は、第1の音響信号を構成する複数の周波数成分の一部が置き換え対象として選択されたか否かを判定する(ステップS110)。
【0068】
第1の音響信号を構成する複数の周波数成分の一部が置き換え対象として選択されたと判定された場合(ステップS110:YES)、制御部40は、置き換え対象の周波数成分の周波数及び周波数エネルギーに対応する、各周波数のマスキングレベルを取得する(ステップS112)。
【0069】
次に、制御部40は、マスキングレベルに基づいて、置き換え対象の周波数成分をさらに選択する(ステップS114)。詳しくは、制御部40は、第1の音響信号を構成する複数の周波数成分のうち、マスキングレベルよりも低い大きさを有する周波数成分を、置き換え対象の周波数成分としてさらに選択する。
【0070】
次いで、制御部40は、置き換え対象の周波数成分を、対応する第2の音響信号の周波数成分に置き換える(ステップS116)。詳しくは、制御部40は、第1の音響信号を構成する複数の周波数成分のうち、置き換え対象の周波数成分を、第2の音響信号を構成する複数の周波数成分のうち置き換え対象の周波数成分と同一周波数の周波数成分に置き換える。
【0071】
次に、制御部40は、置き換え後の信号を時間領域の信号に復元することで、出力信号を生成する(ステップS118)。詳しくは、制御部40は、一部の周波数成分が第2の音響信号のものに置き換えられた、複数の周波数成分の分解された第1の音響信号を、時間領域の信号に復元することで、出力信号を生成する。例えば、制御部40は、周波数領域の信号に対しIFFT(inverse fast Fourier transform)等を適用することで、時間領域の信号に変換する。
【0072】
ステップS108において、選択された周波数成分が無いと判定された場合(ステップS108:NO)、制御部40は、時間領域の第1の音響信号を、出力信号として出力する(ステップS120)。
【0073】
ステップS110において、第1の音響信号を構成する複数の周波数成分の全部が置き換え対象として選択されたと判定された場合(ステップS110:NO)、制御部40は、時間領域の第2の音響信号を、出力信号として出力する(ステップS122)。
【0074】
<3.変形例>
(1)第1の変形例
本変形例は、高SN比と高耐圧とを疑似的に両立させた出力信号を、モデルの学習により得る例である。
【0075】
図7は、本変形例に係る信号処理装置1の構成の一例を示すブロック図である。
図7に示すように、本変形例に係る信号処理装置1は、
図1に示した構成における音響信号取得部10に、マイク11C、アンプ12C、及びA/D変換器13Cが追加された構成を有する。ただし、後述するように、信号処理装置1は、学習済みのモデルを使用する際には、マイク11C、アンプ12C、及びA/D変換器13Cを有していなくてもよい。
【0076】
マイク11Cを、以下では第3のマイク11Cとも称する。第3のマイク11Cにより取得された信号を、以下では第3の音響信号とも称する。ただし、第3の音響信号は、アンプ12Cにより増幅され、A/D変換器13Cによりデジタル信号に変換された信号を意味していてもよい。
【0077】
第1のマイク11Aは、第2のマイク11Bと比較して高SN比であり、第2のマイク11Bは、第1のマイク11Aと比較して高耐圧であるものとする。そして、第3のマイク11Cは、第2のマイク11Bと比較して高SN比であり、第1のマイク11Aと比較して高耐圧であるものとする。例えば、第3のマイク11Cは、第1のマイク11Aと同等のSN比であり、第2のマイク11Bと同等の耐圧性を有していてもよい。かかる構成により、後述するように、学習済みのモデルを使用して生成される出力信号において、高SN比と高耐圧とを疑似的に両立させることが可能となる。
【0078】
第1のマイク11A及び第2のマイク11Bの配置は、上記実施形態において説明した通りである。
【0079】
第3のマイク11Cは、音響伝送系の内側であって、音響伝送系の外部から到来した音の第1の位置及び第2の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第3の位置に配置される。換言すると、第1の位置、第2の位置及び第3の位置は、音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置である。さらに言えば、第1の位置、第2の位置、及び第3の位置は、音響伝送系の外部から到来した音の特性(例えば、周波数エネルギー及び共振周波数)が、音源方向によらず一定とみなせる位置である。かかる構成によれば、音響伝送系の外部から到来した音の、第3の位置における音と第1の位置における音及び第2の位置における音の各々との間の位相差及び相対的な特性を、音源方向によらず一定に保つことができる。よって、後述するモデルの学習を簡易且つ精度よく行うことが可能となる。
【0080】
音響伝送系が音響管である場合、第3の位置は、音響管の内側であって、音響管の開口からの距離が音響管の内径の半分以上である位置である。ただし、第1の位置及び第2の位置の双方が、音響管の内側であって、音響管の開口からの距離が音響管の内径の半分以上である位置である場合、第3の位置は、音響管の内側の任意の位置であってよい。音響伝送系が音響管及び音響管に結合される音響ホーンである場合、第3の位置は、音響管の内側の位置、又は音響ホーンの内側であって音響管と音響ホーンとの結合位置からの距離が音響管の内径以下の位置のいずれかである。いずれの場合も、上記実施形態において説明した理由と同様の理由で、音響伝送系の外部から到来した音の第1の位置及び第2の位置における位相と第3の位置における位相との間の位相差を、音源方向によらず一定とみなすことが可能となる。
【0081】
図8は、本変形例に係る音響信号取得部10の構成の一例を模式的に示す図である。
図8の左図は、中空部材15の開口側から音響信号取得部10Eを見た正面図である。
図8の右図は、中空部材15の長手方向に沿って音響信号取得部10Eを切断した場合の断面図である。音響信号取得部10Eでは、中空部材15の内側に第1のマイク11A、第2のマイク11B及び第3のマイク11Cが配置されている。第1のマイク11Aは、中空部材15の開口付近、即ち、中空部材15の開口からの距離が中空部材15の内径dの半分未満である位置に配置されている。第2のマイク11Bは、中空部材15の開口からの距離が中空部材15の内径dの半分であるd/2である位置に配置されている。さらに、第3のマイク11Cは、第2のマイク11Bよりも奥に、即ち、中空部材15の開口からの距離が中空部材15の内径dの半分であるd/2を超える位置に配置されている。この場合、第2のマイク11B及び第3のマイク11Cの位置では、中空部材15の外部から到来した音を平面波とみなすことができる。他方、第1のマイク11Aの位置では、中空部材15の外部から到来した音に所定の位相差を付与することで、第2のマイク11B及び第3のマイク11Cの各々に到来する音と特性を同等にすることができる。よって、中空部材15の外部から到来した音の、第1のマイク11Aの位置及び第2のマイク11Bの位置における位相と第3のマイク11Cの位置における位相との間の位相差を一定とみなして、モデルの学習を行うことができる。
【0082】
制御部40は、第1の音響信号及び第2の音響信号が入力された場合に第3の音響信号を出力するモデルを学習する学習部として機能する。例えば、制御部40は、第1の音響信号及び第2の音響信号を入力(即ち、データ)とし、第3の音響信号を出力(即ち、ラベル)とする教師データを使用して、モデルを学習する。モデルは、例えばニューラルネットワークにより構成されてもよい。なお、教師データは、時間領域の信号であってもよいし、周波数領域の信号であってもよい。後者の場合、制御部40は、第1の音響信号及び第2の音響信号の各々を周波数分解したものをデータとし、及び第3の音響信号を周波数分解したものをラベルとする教師データを使用して、モデルを学習する。かかる構成によれば、第1の音響信号及び第2の音響信号を入力することで、高SN比と高耐圧とを両立する第3のマイク11Cから出力される第3の音響信号と同等の音響信号を出力するモデルを、学習することが可能となる。
【0083】
ニューラルネットワークとは、入力層、ひとつ以上の中間層、及び出力層により構成されるネッワークである。各層は、ひとつ以上のノードを含み、隣接する層に属するノード同士は重みが付されたリンクにより接続される。典型的には、各ノードは、リンクで接続された前段の層に属するひとつ以上のノードから出力された情報に対し、リンクに付された重みを乗算したものを積算し、出力する。入力層に対し情報が入力されると、入力層から出力層に向けてこのような演算が行われ、出力層から情報が出力される。ニューラルネットワークの学習とは、リンクの重み等のパラメータを学習することを意味する。
【0084】
制御部40は、学習部により学習されたモデルに対し、第1の音響信号及び第2の音響信号を入力することで、出力信号を生成する。かかる構成によれば、学習済みのモデルに第1の音響信号及び第2の音響信号を入力して演算を行うことで、上記実施形態において説明した信号処理を行った場合と同等の出力信号を生成することが可能となる。即ち、本変形例では、出力信号において、高SN比と高耐圧とを疑似的に両立させることが可能となる。なお、周波数領域の信号が教師データとして使用されて学習されたモデルを使用する場合、制御部40は、第1の音響信号及び第2の音響信号を周波数分解したものをモデルに入力し、モデルからの出力を時間領域の信号に復元することで、出力信号を生成する。
【0085】
ここで、本変形例に係る信号処理装置1は、モデル学習時に第3のマイク11Cを有していればよく、販売及び流通時には第3のマイク11Cを有していなくてもよい。例えば、プロトタイプとして第3のマイク11Cを有する信号処理装置1を製造してモデルを学習させ、第3のマイク11Cを有さず学習済みのモデルを搭載した信号処理装置1を製造及び販売することができる。かかる構成によれば、販売する商品の低コスト化が可能となる。
【0086】
(2)第2の変形例
本変形例は、高SN比と高耐圧とを疑似的に両立させた出力信号を、モデルの学習により得る例である。ただし、本変形例は、第1の変形例と比較して、モデルに入力する音響信号がひとつ少ない。
【0087】
図9は、本変形例に係る信号処理装置1の構成の一例を示すブロック図である。
図9に示すように、本変形例に係る信号処理装置1は、
図1に示した構成と同様に、音響信号取得部10、記憶部20、出力部30及び制御部40を備える。ただし、音響信号取得部10は、第2のマイク11B、アンプ12B、及びA/D変換器13Bの代わりに、マイク11D、アンプ12D、及びA/D変換器13Dを備える。ただし、後述するように、信号処理装置1は、学習済みのモデルを使用する際には、マイク11D、アンプ12D、及びA/D変換器13Dを有していなくてもよい。
【0088】
マイク11Dを、以下では第4のマイク11Dとも称する。第4のマイク11Dにより取得された信号を、以下では第4の音響信号とも称する。ただし、第4の音響信号は、アンプ12Dにより増幅され、A/D変換器13Dによりデジタル信号に変換された信号を意味していてもよい。
【0089】
第4のマイク11Dは、第1のマイク11Aと比較して高SN比又は高耐圧の少なくともいずれかである。例えば、第4のマイク11Dは、第1のマイク11Aと同等のSN比であり、第1のマイク11Aよりも高い耐圧性を有していてもよい。かかる構成により、後述するように、学習済みのモデルを使用して生成される出力信号において、高SN比と高耐圧とを疑似的に両立させることが可能となる。
【0090】
第1のマイク11Aの配置は、上記実施形態において説明した通りである。
【0091】
第4のマイク11Dは、音響伝送系の内側であって、音響伝送系の外部から到来した音の第1の位置における位相との位相差が、音源方向によらず一定とみなせる位置である第4の位置に配置される。換言すると、第1の位置、及び第4の位置は、音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置である。さらに言えば、第1の位置、及び第4の位置は、音響伝送系の外部から到来した音の特性(例えば、周波数エネルギー及び共振周波数)が、音源方向によらず一定とみなせる位置である。かかる構成によれば、音響伝送系の外部から到来した音の、第1の位置における音と第4の位置における音との間の位相差及び相対的な特性を、音源方向によらず一定に保つことができる。よって、後述するモデルの学習を簡易且つ精度よく行うことが可能となる。
【0092】
音響伝送系が音響管である場合、第4の位置は、音響管の内側であって、音響管の開口からの距離が音響管の内径の半分以上である位置である。音響伝送系が音響管及び音響管に結合される音響ホーンである場合、第4の位置は、音響管の内側の位置、又は音響ホーンの内側であって音響管と音響ホーンとの結合位置からの距離が音響管の内径以下の位置のいずれかである。例えば、第4のマイク11Dは、
図2及び
図3に示した例における第2のマイク11Bの位置に配置されてもよい。第4の位置がこれらの位置である場合、上記実施形態において説明したように、音響伝送系の外部から到来した音の第1の位置における位相と第4の位置における位相との間の位相差を、音源方向によらず一定とみなすことが可能となる。
【0093】
制御部40は、第1の音響信が入力された場合に第4の音響信号を出力するモデルを学習する学習部として機能する。例えば、制御部40は、第1の音響信号を入力(即ち、データ)とし、第4の音響信号を出力(即ち、ラベル)とする教師データを使用して、モデルを学習する。モデルは、例えばニューラルネットワークにより構成されてもよい。なお、教師データは、時間領域の信号であってもよいし、周波数領域の信号であってもよい。かかる構成によれば、第1の音響信号を入力することで、高SN比と高耐圧とを両立する第4のマイク11Dから出力される第3の音響信号と同等の音響信号を出力するモデルを、学習することが可能となる。
【0094】
制御部40は、学習部により学習されたモデルに対し、第1の音響信号を入力することで、出力信号を生成する。かかる構成によれば、学習済みのモデルに第1の音響信号を入力して演算を行うことで、上記実施形態において説明した信号処理を行った場合と同等の出力信号を生成することが可能となる。即ち、本変形例では、出力信号において、高SN比と高耐圧とを疑似的に両立させることが可能となる。なお、周波数領域の信号が教師データとして使用されて学習されたモデルを使用する場合、制御部40は、第1の音響信号を周波数分解したものをモデルに入力し、モデルからの出力を時間領域の信号に復元することで、出力信号を生成する。
【0095】
ここで、本変形例に係る信号処理装置1は、モデル学習時に第4のマイク11Dを有していればよく、販売及び流通時には第4のマイク11Dを有していなくてもよい。例えば、プロトタイプとして第4のマイク11Dを有する信号処理装置1を製造してモデルを学習させ、第4のマイク11Dを有さず学習済みのモデルを搭載した信号処理装置1を製造及び販売することができる。かかる構成によれば、販売する商品の低コスト化が可能となる。
【0096】
<4.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0097】
例えば、上記実施形態では、音響信号取得部10により取得された音響信号に対し信号処理が適用される例を説明したが、本発明はかかる例に限定されない。例えば、音響信号取得部10により取得された音響信号が記憶部20に一旦記憶され、記憶された音響信号に対し信号処理が適用されてもよい。即ち、信号処理装置1は、録音時に信号処理を行ってもよいし、再生時に信号処理を行ってもよい。
【0098】
例えば、上記実施形態では、第1のマイク11A及び第2のマイク11Bの2つのマイク11により取得された音響信号を合成することで出力信号を生成する例を説明したが、本発明はかかる例に限定されない。例えば、3つ以上のマイク11により取得された3つ以上の音響信号を合成することで、出力信号を生成してもよい。その場合、3つ以上のマイク11の位置は、音響伝送系の外部から到来した音の位相差が、音源方向によらず一定とみなせる位置にそれぞれ配置される。そして、信号処理装置1は、当該一定とみなせる前記位相差に基づいて、3つ以上の音響信号の位相を揃えた上で合成する。なお、3つ以上のマイク11の特性はそれぞれ異なっていてもよい。そして、信号処理装置1は、あるマイク11により取得された音響信号のうち置き換え対象の周波数成分を、他の2以上のマイク11のうち特性に応じて選択した1つのマイク11により取得された音響信号の周波数成分で置き換えてもよい。
【0099】
例えば、音響信号取得部10における各マイク11の位置は、上記実施形態で例示した位置に限定されない。例えば、
図2に示した音響信号取得部10A及び
図3に示した音響信号取得部10Cでは、音響信号取得部10の開口側から奥側に向かって、第1のマイク11A、第2のマイク11Bの順にマイク11が配置されているが、逆順に配置されてもよい。また、
図8に示した音響信号取得部10Eでは、音響信号取得部10の開口側から奥側に向かって、第1のマイク11A、第2のマイク11B、第3のマイク11Cの順にマイク11が配置されているが、本発明はかかる例に限定されない。一例として、音響信号取得部10の開口側から奥側に向かって、第3のマイク11C、第2のマイク11B、第1のマイク11Aの順にマイク11が配置されていてもよい。他の一例として、音響信号取得部10の開口側から奥側に向かって、第3のマイク11C、第1のマイク11A、第2のマイク11Bの順にマイク11が配置されていてもよい。他の一例として、第1のマイク11A、第2のマイク11B、及び第3のマイク11Cのうち少なくとも2以上が、音響信号取得部10の開口からの距離が同じ位置に配置されてもよい。また、
図2に示した音響信号取得部10A、
図3に示した音響信号取得部10C、及び
図8に示した音響信号取得部10Eでは、各々の正面図に示したように、各マイク11が奥行き方向に直行する方向で重複する位置に配置されているが、ずれた位置に配置されていてもよい。
【0100】
例えば、上記実施形態では、中空部材15の断面形状が円形である例を説明したが、本発明はかかる例に限定されない。例えば、中空部材15の断面形状は楕円、3角形、又は4角形以上の多角形であってもよい。
【0101】
例えば、上記実施形態において説明した信号処理において、制御部40は、ウィンドウ処理(例えば、hann窓)を適用してもよい。また、制御部40は、前後のウィンドウをクロスフェードさせてもよい。かかる構成によれば、聴覚上の違和感をさらに軽減することが可能である。
【0102】
本発明は、多様な装置に適用可能である。例えば、本発明は、バイノーラル録音を行うためのマイクであるバイノーラルマイク、アンビソニックスマイク等のVR(virtual reality)用のマイク、及び監視カメラのマイク等に適用可能である。
【0103】
なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、
図1、
図7、及び
図9に示した信号処理装置1の機能構成のうち、記憶部20及び制御部40としての機能が、音響信号取得部10及び出力部30とネットワーク等で接続されたサーバ等の装置に備えられていても良い。
【0104】
なお、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。上記記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
【0105】
また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
【符号の説明】
【0106】
1:信号処理装置、 10:音響信号取得部、 11:マイク、 12:アンプ、 13:A/D変換器、 20:記憶部、 30:出力部、 40:制御部