(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-29
(45)【発行日】2023-10-10
(54)【発明の名称】頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20231002BHJP
G10K 15/00 20060101ALI20231002BHJP
G06N 3/04 20230101ALI20231002BHJP
G06N 3/08 20230101ALI20231002BHJP
【FI】
H04S7/00 300
G10K15/00 L
G06N3/04
G06N3/08
(21)【出願番号】P 2019138608
(22)【出願日】2019-07-29
【審査請求日】2022-06-17
(73)【特許権者】
【識別番号】000101732
【氏名又は名称】アルパイン株式会社
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(74)【代理人】
【識別番号】100098497
【氏名又は名称】片寄 恭三
(74)【代理人】
【識別番号】100099748
【氏名又は名称】佐藤 克志
(74)【代理人】
【識別番号】100103171
【氏名又は名称】雨貝 正彦
(72)【発明者】
【氏名】石井 卓也
(72)【発明者】
【氏名】勇 萌音
(72)【発明者】
【氏名】丹野 慶太
【審査官】渡邊 正宏
(56)【参考文献】
【文献】国際公開第2017/047309(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00- 3/04
G06N 3/06-99/00
G10K 15/00-15/12
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであり、耳介形状に応じた深度がドット単位で表された耳介形状関連データと、上記耳介形状に関して実測された頭部伝達関数を表すHRTFデータとをデータセットとして、複数のデータセットを学習用データとして入力する学習用データ入力部と、
上記学習用データ入力部により入力された上記学習用データを用いて機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に上記受聴者の頭部伝達関数を出力するためのHRTF推定モデルを生成する推定モデル生成部とを備え、
上記学習用データ入力部により入力される上記HRTFデータは、耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データであ
って、複数の角度について1つの画像で構成された画像データであり、
上記HRTF推定モデルは、上記耳介形状関連データを入力とし、上記頭部伝達関数を表す上記周波数スペクトラムの画像データを出力とするものであることを特徴とする頭部伝達関数の推定モデル生成装置。
【請求項2】
上記HRTF推定モデルは、上記耳介形状関連データから上記耳介形状の特徴量を抽出するための畳み込みニューラルネットワークと、当該畳み込みニューラルネットワークにより抽出された特徴量をもとに上記頭部伝達関数を表す上記周波数スペクトラムの画像データを推定するための逆畳み込みニューラルネットワークとにより構成されることを特徴とする請求項1に記載の頭部伝達関数の推定モデル生成装置。
【請求項3】
上記学習用データ入力部により入力される上記HRTFデータは、上記耳介の位置を基準として水平方向および垂直方向にそれぞれ角度を変えて計測した複数のインパルス応答のデータを用いて、上記垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データを上記水平方向の角度ごとに生成したものであり、
上記HRTF推定モデルは、上記水平方向の角度ごとに存在し、
上記推定モデル生成部は、上記水平方向の角度ごとに存在する複数の上記HRTF推定モデルごとに上記機械学習処理を行うことを特徴とする請求項1または2に記載の頭部伝達関数の推定モデル生成装置。
【請求項4】
受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する推定用データ入力部と、
上記推定用データ入力部により入力された耳介形状関連データを、請求項1~
3の何れか1項に記載の推定モデル生成装置により生成された上記HRTF推定モデルに入力することにより、上記受聴者の頭部伝達関数を表す周波数スペクトラムの画像データを推定するHRTF推定部とを備えたことを特徴とする頭部伝達関数の推定装置。
【請求項5】
センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであり、耳介形状に応じた深度がドット単位で表された耳介形状関連データと、上記耳介形状に関して実測された頭部伝達関数を表すHRTFデータとをデータセットとして、複数のデータセットを学習用データとして入力する学習用データ入力手段、および
上記学習用データ入力手段により入力された上記学習用データを用いて機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に上記受聴者の頭部伝達関数を出力するためのHRTF推定モデルを生成する推定モデル生成部手段
として推定モデル生成装置のコンピュータを機能させ、
上記学習用データ入力手段により入力される上記HRTFデータは、耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データであ
って、複数の角度について1つの画像で構成された画像データであり、
上記HRTF推定モデルは、上記耳介形状関連データを入力とし、上記頭部伝達関数を表す上記周波数スペクトラムの画像データを出力とするものであることを特徴とする頭部伝達関数の推定用プログラム。
【請求項6】
受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する推定用データ入力手段、および
上記推定用データ入力手段により入力された耳介形状関連データを、請求項1~
3の何れか1項に記載の推定モデル生成装置により生成された上記HRTF推定モデルに入力することにより、上記受聴者の頭部伝達関数を表す周波数スペクトラムの画像データを推定するHRTF推定手段
として推定装置のコンピュータを機能させるための頭部伝達関数の推定用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、頭部伝達関数の推定モデル生成装置、頭部伝達関数の推定装置および頭部伝達関数の推定用プログラムに関し、特に、耳介形状に依存して異なる頭部伝達関数を推定するためのシステムに用いて好適なものである。
【背景技術】
【0002】
ある音源に対して人間が知覚する音の空間的な像を「音像」という。また、音像の空間位置を知覚することを「音像定位」という。音像定位を適切に制御することにより、より臨場感ある立体音響を再現できることが知られている。一般に、スピーカ等の音源から出力された音は、人間の頭部や耳介の影響を受けて両耳の鼓膜に到達する。そのため、精度の高い音像定位を実現するには、頭部伝達関数(Head Related Transfer Function:HRTF)を用いて立体音響を再現することが重要とされている。
【0003】
頭部伝達関数(HRTF)とは、音源から受聴者の耳までの伝達特性を表す関数であり、受聴者の頭部形状や耳介形状といった身体特徴量に依存することが知られている。したがって、受聴者ごとにHRTFを測定すれば、個々の受聴者にとって精度の高い音像定位を実現することが可能である。しかしながら、全ての受聴者のHRTFを測定することは、膨大な時間と無響室などの設備が必要であり、現実的ではない。これに対し、測定した耳介形状からHRTFを推定する技術が知られている(例えば、特許文献1参照)。
【0004】
特許文献1に記載の情報処理装置は、ユーザに適したHRTFを簡便に生成して良好な音像定位を実現ことを目的としたものである。当該情報処理装置は、ダミーヘッドや特定の人物の頭部を用いて測定された、複数方向夫々に対応するHRTFのデータセットを記憶したデータベースを備え、当該データベースに蓄積された既存のHRTFを補正することにより、ユーザに良好な音像定位感を与えるHRTFを生成する。
【0005】
具体的には、ユーザの耳介角度とダミーヘッドの耳介角度とを取得するとともに、ユーザの頭部に対する指定方向を入力し、入力された指定方向を、ユーザの耳介角度とダミーヘッドの耳介角度との差分に基づいて補正する。そして、補正後の指定方向に対応するHRTFをデータベースから取得し、これを音響信号のフィルタ演算部に出力する。補正された指定方向に対応するHRTFがデータベースに存在しない場合は、最近傍のデータを対応するHRTFとして取得し、これをフィルタ演算部に出力する。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【文献】日本音響学会誌71巻3号 pp.127-135 「耳介形状と頭部伝達関数のなぞ」
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記特許文献1に記載された技術では、基本的には、耳介角度に基づいて補正した頭部の指定方向に対応する既存のHRTFをデータベースから取得して利用しているだけなので、データベースに記憶されているデータセット以上にHRTFの精度を上げることができない。特に、指定方向に対応するHRTFがデータベースにない場合は、単に最近傍のデータを対応するHRTFとして取得しているだけなので、受聴者の耳介形状に適合したHRTFとは言い難い。個々の受聴者の耳介形状に適合したHRTFを得るためには、データベースに蓄積するデータセットの数を多くする必要がある。しかし、そのためには、多数の人物および多数のダミーヘッドを用いてメジャー等により手作業で耳介形状を計測する必要があり、膨大な手間と時間を要するという問題があった。
【0009】
また、非特許文献1に記載されているように、HRTFは、耳介角度だけでなく、耳介全体の大きさ、耳介各部位の大きさや凸凹の形状などにも依存することが知られている。非特許文献1には、
図8(非特許文献1の図-7を引用)に示す9箇所の耳介形状を比較すると各部位において個人差があり、それに応じて最適なHRTFが変わることが記載されている。しかしながら、上記特許文献1に記載された技術では、耳介角度のみに基づいた補正を行っているため、HRTFの精度を上げるのに十分とは言えない。HRTFの精度を上げるために、メジャー等により手動で耳介形状を計測してもよいが、計測に膨大な手間と時間を要するという問題があった。また、得られる情報が計測した箇所の情報のみに限られてしまうため、HRTFの精度を上げるのにこれで十分とは言えない。
【0010】
本発明は、このような問題を解決するために成されたものであり、個々の受聴者の耳介形状に適合した頭部伝達関数(HRTF)をより簡便に得ることができるようにすることを目的とする。
【課題を解決するための手段】
【0011】
上記した課題を解決するために、本発明では、センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであり、耳介形状に応じた深度がドット単位で表された耳介形状関連データと、耳介形状に関して実測された頭部伝達関数を表すHRTFデータとから成る複数のデータセットを学習用データとして機械学習処理を行うことにより、受聴者に関する耳介形状関連データが入力された際に受聴者の頭部伝達関数を出力するためのHRTF推定モデルを生成するようにしている。ここで、学習用データとして入力されるHRTFデータは、耳介の位置を基準とした垂直方向の角度に対するピーク周波数およびノッチ周波数のパターンを示す周波数スペクトラムの画像データであって、複数の角度について1つの画像で構成された画像データであり、当該学習用データを用いて生成されるHRTF推定モデルは、頭部伝達関数を表す周波数スペクトラムの画像データを出力するものである。
【発明の効果】
【0012】
上記のように構成した本発明によれば、耳介形状と、当該耳介形状に関して実測された頭部伝達関数(HRTF)とから成る複数の組み合わせをもとに機械学習により適切なHRTF推定モデルが生成される。このため、受聴者の耳介形状を表す耳介形状関連データを、学習済みのHRTF推定モデルに推定用データとして入力することにより、受聴者の頭部伝達関数を推定することができる。
【0013】
これにより、受聴者の耳介形状を表す耳介形状関連データさえ取得すれば、頭部伝達関数を実測しなくても、また耳介形状とHRTFとの対応付けを大量に記憶したデータベースをあらかじめ用意しなくても、受聴者に適合した頭部伝達関数を推定することができる。しかも、HRTF推定モデルにより推定される頭部伝達関数は、耳介の位置を基準とした垂直方向の角度に対するピーク周波数およびノッチ周波数のパターンを示す周波数スペクトラムとして表されているので、耳介に対して音源が存在する方向である垂直方向の角度に応じた頭部伝達関数を簡便に得ることができる。これにより、本発明によれば、個々の受聴者の耳介形状に適合した頭部伝達関数をより簡便に得ることができる。
【図面の簡単な説明】
【0014】
【
図1】本実施形態による頭部伝達関数の推定モデル生成装置の機能構成例を示すブロック図である。
【
図2】本実施形態のHRTFデータ生成部によるHRTFデータの生成内容を模式的に示す図である。
【
図3】本実施形態の推定モデル生成部が生成するHRTF推定モデルとその生成内容を模式的に示した図である。
【
図4】本実施形態によるHRTF推定モデルの逆畳み込みニューラルネットワークによる処理内容を模式的に示す図である。
【
図5】本実施形態による頭部伝達関数の推定装置の機能構成例を示すブロック図である。
【
図6】本実施形態のHRTF推定部による処理内容を模式的に示す図である。
【
図7】本実施形態の推定装置により推定された頭部伝達関数を適用する音響装置の畳み込み演算部を模式的に示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による頭部伝達関数の推定モデル生成装置(以下、単に推定モデル生成装置100という)の機能構成例を示すブロック図である。
図1に示すように、本実施形態の推定モデル生成装置100は、機能構成として、学習用データ入力部11および推定モデル生成部12を備えている。
【0016】
上記学習用データ入力部11および推定モデル生成部12は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記学習用データ入力部11および推定モデル生成部12は、実際にはコンピュータのCPUまたはGPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された頭部伝達関数の推定用プログラムが動作することによって実現される。
【0017】
学習用データ入力部11は、耳介形状を表す耳介形状関連データと、耳介形状に関して実測された頭部伝達関数(HRTF)を表すHRTFデータとをデータセットとして、複数のデータセットを学習用データとして入力する。ここで、耳介形状関連データは、耳介形状関連データ生成部101により生成される。また、HRTFデータは、HRTFデータ生成部102により生成される。複数のデータセットは、複数人の被験者の耳介から生成される。
【0018】
耳介形状関連データ生成部101は、例えばデプスセンサ(距離センサ、3Dセンサともいう)であり、被験者の耳介形状の深度を測定することにより、2次元のデプス画像を生成する。2次元のデプス画像とは、センサから耳介の各点までの距離(深度)をそれぞれ色や濃淡などの違いで表した画像データであり、耳介の形状に応じた深度がドット単位で表されたものである。デプスセンサは、例えば2台のカメラにより耳介を撮影した2つの画像間の視差を計算して距離を検出するものを用いることが可能である。なお、デプスセンサの方式はこれに限定されるものではなく、これ以外の方式のデプスセンサを用いてもよい。
【0019】
また、耳介形状関連データ生成部101は、デプスセンサに限定されない。例えば、3Dスキャナで耳介をスキャンして2次元のデプス画像を生成するようにしてもよい。また、デプスセンサの代わりに単眼カメラを複数使用し、複数の単眼カメラにより撮影した画像間の視差を計算して距離を検出するシステムや、1つの単眼カメラにより複数アングルで撮影した画像から距離を検出するシステムとしてもよい。あるいは、1つの単眼カメラを使って撮影した画像に対して畳み込みニューラルネットワークを用いた深度推定アルゴリズム(例えば、深度推定できるように学習したCNN-DepthやDNNに基づく推定モデル)を使用して各画素の深度を検出するシステムを用いてもよい。
【0020】
HRTFデータ生成部102は、無響室内で耳介のインパルス応答を計測し、その計測結果を高速フーリエ変換(FFT:Fast Fourier Transform)等の周波数変換手段を用いて周波数領域の情報として表すことにより、頭部伝達関数を表す周波数スペクトラムを生成する。例えば、被験者の耳介を3Dスキャナでスキャンし、そのスキャンデータを用いて3次元の耳型を3Dプリンタで印刷する。そして、こうして形成した3次元の耳型をダミーヘッドに装着し、耳型に対して所定位置に設置したスピーカから放音してインパルス応答を計測する。なお、被験者本人に耳栓型のマイクを付けてもらってインパルス応答を計測するようにしてもよい。
【0021】
ここで、インパルス応答の計測は、耳介に対して正面方向だけでなく、耳介の位置を基準として水平方向および垂直方向にそれぞれ角度を変えて(例えば、5度刻み)計測する。耳介に対する正面方向とは、例えば、被験者の顔を真横から見たときの方向を水平方向の基準とし、耳介の中心位置の高さを垂直方向の基準とした場合において、水平方向および垂直方向が共に基準の方向を向いている状態をいう。なお、正面方向は任意に定義することが可能であり、上記の定義は一例に過ぎない。
【0022】
図2は、HRTFデータ生成部102によるHRTFデータの生成内容を模式的に示す図である。
図2(a)に示すように、HRTFデータ生成部102は、上述のように計測したインパルス応答のうち、残響効果を含まない前半部分FHを切り出し、これを周波数変換して頭部伝達関数の周波数スペクトラムを生成する。HRTFデータ生成部102は、耳介の正面方向から水平方向(方位角)および垂直方向(仰角および俯角の少なくとも一方)にそれぞれ角度を変えて複数のインパルス応答を計測し、それぞれを周波数変換する。
【0023】
さらに、HRTFデータ生成部102は、複数のインパルス応答から変換した複数の周波数スペクトラムを用いて、
図2(b)に示すように、垂直方向の角度に対する周波数特性(ピーク周波数およびノッチ周波数を含む)のパターンを示す周波数スペクトラムの画像データを水平方向の角度ごとに生成する。
図2(b)は、水平方向の角度をある角度に固定し、垂直方向の角度を変えて測定した複数のインパルス応答から生成した1つの周波数スペクトラムの画像データを示している。HRTFデータ生成部102は、このような周波数スペクトラムの画像データを水平方向の角度を変えてそれぞれ生成し、これを1つのHRTFデータとする。HRTFデータ生成部102は、このHRTFデータを複数の被験者の耳介についてそれぞれ生成する。
【0024】
推定モデル生成装置100の学習用データ入力部11は、以上のようにして複数人の被験者の耳介から耳介形状関連データ生成部101により生成された複数の耳介形状関連データ(以下、デプス画像として説明する)と、複数人の被験者の耳介からHRTFデータ生成部102により生成された複数のHRTFデータ(以下、
図2(b)のような周波数スペクトラム画像として説明する)とを複数組のデータセットとして入力する。なお、
図1では、耳介形状関連データ生成部101およびHRTFデータ生成部102が共に推定モデル生成装置100に接続された構成として図示しているが、このような接続関係で構成することは必須ではない。
【0025】
例えば、耳介形状関連データ生成部101(デプスセンサ等)により生成されたデプス画像を記憶媒体に記憶し、当該記憶媒体を推定モデル生成装置100に接続することにより、学習用データ入力部11が記憶媒体からデプス画像を入力するようにしてもよい。この場合の記憶媒体は、リムーバル記憶媒体としてもよいし、LAN(Local Area Network)またはインターネット等の通信ネットワークに接続されたサーバが備える外部ストレージ装置としてもよい。
【0026】
また、HRTFデータ生成部102をパーソナルコンピュータにより実装し、当該パーソナルコンピュータで生成した周波数スペクトラム画像を記憶媒体に記憶して、当該記憶媒体を推定モデル生成装置100に接続することにより、学習用データ入力部11が記憶媒体から周波数スペクトラム画像を入力するようにしてもよい。この場合の記憶媒体は、リムーバル記憶媒体としてもよいし、LANまたはインターネット等の通信ネットワークに接続されたサーバが備える外部ストレージ装置としてもよい。
【0027】
推定モデル生成部12は、学習用データ入力部11により入力された学習用データを用いて機械学習処理を行うことにより、受聴者に関するデプス画像が入力された際に受聴者の頭部伝達関数(周波数スペクトラム画像)を出力するためのHRTF推定モデルを生成する。受聴者とは、自分の耳介形状に合わせた頭部伝達関数を測定して音像定位を行い、頭部伝達関数に合わせたパラメータを音響装置に設定したいと考えているユーザである。
【0028】
図3は、推定モデル生成部12が生成するHRTF推定モデルとその生成内容を模式的に示した図である。
図3に示すように、HRTF推定モデル30は、デプス画像から耳介形状の特徴量を抽出するための畳み込みニューラルネットワーク(以下、畳み込みNN31と記す)と、当該畳み込みNN31により抽出された特徴量をもとに頭部伝達関数を表す周波数スペクトラム画像を推定するための逆畳み込みニューラルネットワーク(以下、逆畳み込みNN32と記す)とにより構成される。
【0029】
畳み込みNN31は複数の畳み込み層を有し、それぞれの畳み込み層において、画像上に設定したフィルタと呼ばれる小領域(m画素×n画素のエリア)の各画素値に対して所定の演算を行うことによって特徴量を抽出する。このフィルタ処理を、小領域をスライドさせながら繰り返すことにより、小領域ごとに特徴量を抽出する。第1の畳み込み層では、耳介形状関連データ生成部101により生成されたデプス画像を、当該デプス画像よりサイズの小さい第1の特徴量画像に圧縮する。第2の畳み込み層では、第1の畳み込み層で生成された第1の特徴量画像を、当該第1の特徴量画像よりサイズの小さい第2の特徴量画像に圧縮する。畳み込みNN31は、このような処理を複数階層にわたって繰り返すことにより、ダウンサンプリングされた所定サイズの特徴量画像を生成する。
【0030】
図4は、逆畳み込みNN32による処理内容を模式的に示す図である。逆畳み込みNN32による処理は、いわゆるGAN(Generative Adversarial Network:敵対的生成ネットワーク)として知られた学習アルゴリズムを応用したものである。
図4に示すように、逆畳み込みNN32は、機能構成として、画像生成部41および評価値算出部42を備えている。画像生成部41は、GANにおいて一般的に生成器(generator)と呼ばれるものに相当する。一方、評価値算出部42は、GANにおいて一般的に識別器(discriminator)と呼ばれるものに相当する。
【0031】
画像生成部41は複数の逆畳み込み層を有し、所定の画像生成アルゴリズムに従って、それぞれの逆畳み込み層において特徴量画像の画素値をアップサンプリングすることにより、画像を復元していく。ただし、画像生成部41は、特徴量画像から元のデプス画像を復元するのではなく、HRTFデータ生成部102により生成された周波数スペクトラム画像に近い画像(以下、復元画像という)を復元するように動作する。
【0032】
評価値算出部42は、画像生成部41により生成された復元画像を入力するとともに、HRTFデータ生成部102により生成された周波数スペクトラム画像を正解画像(教師データ)として入力する。そして、所定の識別アルゴリズムに従って、入力された復元画像が正解画像であるか否かを識別し、その識別結果に応じた評価値を画像生成部41に出力する。例えば、正解画像であると識別された場合は“1”、正解画像ではないと識別された場合は“0”の評価値を画像生成部41に出力する。
【0033】
逆畳み込みNN32では、復元画像を入力として評価値算出部42により算出される評価値が“1”となるように画像生成部41の画像生成アルゴリズムを改変する。画像生成アルゴリズムを改変するとは、画像生成処理ロジックの変更や、その画像生成処理ロジックにおいて用いる関数やパラメータの変更、画像生成処理ロジックにおいて用いるライブラリの変更などの少なくとも1つを含む。
【0034】
また、逆畳み込みNN32では、復元画像を入力として評価値算出部42により算出される評価値が“0”となり、正解画像を入力として評価値算出部42により算出される評価値が“1”となるように評価値算出部42の識別アルゴリズムを改変する。識別アルゴリズムを改変するとは、入力された復元画像が正解画像か否かを識別する際の識別処理ロジックの変更や、その識別処理ロジックにおいて用いる関数やパラメータの変更、識別処理ロジックにおいて用いるライブラリの変更などの少なくとも1つを含む。
【0035】
ここで、復元画像を入力として評価値算出部42により算出される評価値が“0”となり、正解画像を入力として評価値算出部42により算出される評価値が“1”となるように識別アルゴリズムを改変するというのは、識別器に相当する評価値算出部42が、入力される復元画像が正解画像なのかそうでないのかを識別する能力を高めるように学習することを意味する。この識別能力が高まっていけば、評価値算出部42は、正解画像とわずかに異なる画像であっても、それが正解画像ではないと識別することができるようになる。
【0036】
一方、復元画像を入力として評価値算出部42により算出される評価値が“1”となるように画像生成部41の画像生成アルゴリズムを改変するというのは、画像生成部41が、評価値算出部42が正解画像かどうかを識別できないような復元画像を生成する能力を高めるように学習することを意味する。この生成能力が高まっていけば、画像生成部41は、正解画像と殆ど相違のない周波数スペクトラム画像を生成することができるようになる。
【0037】
実際には、画像生成部41による学習と、評価値算出部42による学習とを交互に繰り返す。このように、画像生成部41(generator)は、正解画像にできるだけ近く評価値算出部42を騙せるような復元画像を生成し、評価値算出部42(discriminator)は、画像生成部41が正解画像に似せようとして生成した復元画像と正解画像とをできるだけ見分けられるように学習する。これにより、学習が進むと、画像生成部41は、HRTFデータ生成部102により生成された周波数スペクトラム画像(正解画像)と殆ど見分けがつかない復元画像を生成することができるようになる。
【0038】
図3に示すように、HRTF推定モデル30は水平方向の角度ごとに存在し、推定モデル生成部12は、水平方向の角度ごとに存在する複数のHRTF推定モデル30ごとに機械学習処理を行う。具体的には、教師データとして提示する周波数スペクトラム画像の水平方向の角度に応じて、HRTF推定モデル30を適宜切り替えて学習を行う。そして、学習されたHRTF推定モデル30を推定モデル記憶部103に記憶させる。推定モデル記憶部103は、リムーバル記憶媒体であってもよいし、LANまたはインターネット等の通信ネットワークを介して接続されたサーバが備える外部ストレージ装置であってもよい。
【0039】
図5は、本実施形態による頭部伝達関数の推定装置(以下、単に推定装置200という)の機能構成例を示すブロック図である。本実施形態の推定装置200は、
図1に示した推定モデル生成装置100により生成されたHRTF推定モデルを用いて、受聴者に適合した頭部伝達関数の周波数スペクトラム画像を推定するものである。
【0040】
図5に示すように、本実施形態の推定装置200は、機能構成として、推定用データ入力部21およびHRTF推定部22を備えている。推定用データ入力部21およびHRTF推定部22は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、推定用データ入力部21およびHRTF推定部22は、実際にはコンピュータのCPUまたはGPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶された頭部伝達関数の推定用プログラムが動作することによって実現される。
【0041】
推定用データ入力部21は、受聴者の耳介形状を表す耳介形状関連データを推定用データとして入力する。推定用データ入力部21が入力する耳介形状関連データは、学習用データ入力部11が入力する耳介形状関連データと同様であり、受聴者について耳介形状関連データ生成部101により生成される耳介のデプス画像である。
【0042】
HRTF推定部22は、
図6に示すように、推定用データ入力部21により入力された受聴者の耳介のデプス画像を、推定モデル生成装置100により生成されたHRTF推定モデル30(推定モデル記憶部103に記憶された学習済みのHRTF推定モデル30)に入力することにより、受聴者の頭部伝達関数を表す周波数スペクトラム画像を推定する。HRTF推定モデル30の学習が十分に進んでいれば、HRTF推定モデル30による推定によって個人特性を考慮したHRTFが得られるため、個々の受聴者について無響室等でHRTFを実測する必要はない。
【0043】
なお、以上のように推定したHRTFを用いて音像を定位する場合は、任意の定位させたい角度(耳介から音源が存在する水平方向の角度および垂直方向の角度)に対応するHRTFを選択し、当該選択したHRTFの周波数特性を実現する音響パラメータh
0,h
1,・・・,h
n-1を音響装置の畳み込み演算部(参考として模式的な構成を
図7に示す)に設定すればよい。このとき、必要に応じて残響効果を付加するための音響パラメータを追加設定してもよい。このようにすることで、耳介から所望の角度の方向に音源が存在するように音像を適切に定位した状態で音を再生することができる。すなわち、個人最適化した頭部伝達関数を再生時の音声に畳み込むことにより、イヤホン、ヘッドホン、または2台のスピーカのみで高臨場感の音空間を再現することが可能になる。
【0044】
以上詳しく説明したように、本実施形態では、複数の被験者の耳介形状を表す耳介形状関連データ(デプス画像)と、複数の被験者の耳介形状に関して実測された頭部伝達関数を表すHRTFデータ(耳介の位置を基準とした垂直方向の角度に対する周波数特性のパターンを示す周波数スペクトラムの画像データ)とから成る複数のデータセットを学習用データとして機械学習処理を行うことにより、デプス画像を入力としてHRTFの周波数スペクトラム画像を出力とするHRTF推定モデルを生成するようにしている。そして、受聴者の耳介形状を表す耳介形状関連データ(デプス画像)を学習済みのHRTF推定モデルに入力することにより、受聴者の頭部伝達関数を表す周波数スペクトラム画像を推定するようにしている。
【0045】
このように構成した本実施形態によれば、耳介形状と、当該耳介形状に関して実測されたHRTFとから成る複数の組み合わせをもとに機械学習により適切なHRTF推定モデルが生成され、生成されたHRTF推定モデルを用いて、受聴者の耳介形状を表すデプス画像から受聴者の頭部伝達関数が推定される。このため、受聴者の耳介形状を表すデプス画像さえ取得すれば、頭部伝達関数を実測しなくても、また耳介形状とHRTFとの対応付けを大量に記憶したデータベースをあらかじめ用意しなくても、その受聴者に適合した頭部伝達関数を推定することができる。
【0046】
デプス画像は、センサから耳介の各点までの距離をそれぞれ表示態様の違いで表した画像データであり、耳介の形状に応じた深度がドット単位で表されたものである。このため、デプス画像は、メジャー等により手動で耳介形状を計測する場合のように、耳介の限定された箇所について計測された限定された情報ではなく、耳介全体の大きさ、耳介の各部位の大きさや凸凹の形状などの情報を網羅的に含んでいる。本実施形態によれば、このような耳介形状の情報を含んだデプス画像をデプスセンサにより簡単に得て、これを用いて頭部伝達関数を推定することができるため、耳介形状の特徴量を損なわずに、精度よく頭部伝達関数の推定を行うことができる。
【0047】
しかも、HRTF推定モデルにより推定される頭部伝達関数は、耳介の位置を基準とした垂直方向の角度に対する周波数特性(ピーク周波数およびノッチ周波数を含む)のパターンを示す周波数スペクトラム画像として表されているので、耳介に対して音源が存在する方向である垂直方向の角度に応じた頭部伝達関数を簡便に得ることができる。
【0048】
また、本実施形態では、垂直方向の角度に対する周波数特性を表した周波数スペクトラム画像を水平方向の角度ごとに生成して学習用データとし、水平方向の角度ごとに存在する複数のHRTF推定モデルごとに機械学習処理を行うようにし、水平方向の角度ごとに学習したHRTF推定モデルを用いて受聴者の頭部伝達関数の周波数スペクトラム画像を推定するようにしている。これにより、耳介に対して音源が存在する方向として、垂直方向の角度に加えて水平方向の角度に応じた頭部伝達関数を簡便に得ることができる。
【0049】
なお、上記実施形態では、垂直方向の角度に対する周波数特性を示す周波数スペクトラム画像を水平方向の角度ごとに用いる例について説明したが、本発明はこれに限定されない。例えば、より簡便なモデルとして、水平方向については基準の角度(正面方向の角度)に固定し、垂直方向の角度のみを変えた1つの周波数スペクトラム画像を用いるようにしてもよい。
【0050】
また、上記実施形態では、耳介形状関連データとしてデプス画像を用いる例について説明したが、本発明はこれに限定されない。例えば、単眼カメラを使って撮影した耳介の2D画像(耳の輪郭形状)を耳介形状関連データとして用いるようにしてもよい。
【0051】
なお、上記実施形態では、
図1に示す推定モデル生成装置100と
図5に示す推定装置200とを別装置として構成する例について説明したが、本発明はこれに限定されない。例えば、HRTF推定モデルを生成する機能とHRTFを推定する機能とを備えた1つの装置として構成するようにしてもよい。
【0052】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0053】
11 学習用データ入力部
12 推定モデル生成部
21 推定用データ入力部
22 HRTF推定部
100 推定モデル生成装置
101 耳介形状関連データ生成部
102 HRTFデータ生成部
200 推定装置