(58)【調査した分野】(Int.Cl.,DB名)
前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、請求項1に記載の音源位置推定装置。
前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、請求項5に記載の音源位置推定装置。
前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、請求項1〜8のいずれか1項に記載の音源位置推定装置。
【発明を実施するための形態】
【0012】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0013】
なお、説明は以下の順序で行うものとする。
1.本実施形態に係るネックバンドの外観
2.ネックバンド型デバイスの装着ずれ
3.音源位置を特定するための演算
4.最適化計算について
5.音源位置推定装置の構成例
6.ビームフォーミング処理について
7.ネックバンド型デバイスの傾きと直径の設定
【0014】
1.本実施形態に係るネックバンド型デバイスの外観
まず、
図1を参照して、本開示の一実施形態に係るネックバンド型デバイス(リング状デバイス)1000の概略構成について説明する。
図1に示すように、本実施形態に係るネックバンド型デバイス1000は、円形のリング状とされ、開口部1002が設けられている。ユーザは、開口部1002を開くことで、ネックバンド型デバイス1000を首に装着することができる。
【0015】
ネックバンド型デバイス1000は、マイクロフォン1010、スピーカ1020、カメラ1030、GPS1040を備える。ネックバンド型デバイス1000は、ユーザの声の音声情報を音声認識により取得し、音声情報に応じて、スピーカ1020から音を発することでユーザに情報を提供する。また、ネックバンド型デバイス1000は、カメラ1030による撮像により画像情報を取得することができる。また、ネックバンド型デバイス1000は、GPS1040で取得したユーザの位置情報に応じて、推奨する場所、店舗等の情報をユーザに伝えることもできる。
【0016】
以上のようなネックバンド型デバイス1000の機能は、基本的にユーザが発した声による指令に基づいて、ユーザがネックバンド型デバイス1000の操作を行うことなく、ハンズフリーによって実現される。このため、マイクロフォン1010がユーザの声を正確に認識するように構成されている。
【0017】
2.ネックバンド型デバイスの装着ずれ
ネックバンド型デバイス1000のようにユーザの体に固定されていないデバイスでは、基準とする装着状態からずれた状態となることがある(このようなずれを「装着ずれ」と称することとする)。
図2及び
図3は、装着ずれを説明するための模式図である。
図2は、通常装着時を示しており、開口部1002の位置がユーザの正面を向いており、正しい装着状態を示している。一方、
図3は、
図2に対してネックバンド型デバイス1000の開口部1002が手前側に回転し、装着ずれが発生した状態を示している。
【0018】
ネックバンド型デバイス1000に複数のマイクロフォン1010を搭載することにより、ユーザの音声を強調する信号処理を行うことができるが、装着ずれがある場合には、ユーザの口元から各マイクロフォン1010までの伝達特性を逐次推定するような適応的な信号処理が必要となる。このため、本実施形態では、ネックバンド型デバイス1000に装着ずれがある場合においても、高性能な信号処理を可能とする。以下、詳細に説明する。
【0019】
3.音源位置を特定するための演算
図1に示したように、ネックバンド型デバイス1000の形状は円Cに倣った略円形状である。このため、ネックバンド型デバイス1000の筐体に搭載された複数のマイクロフォン1010も円周上に存在する。これにより、
図3に示した装着ずれは、ネックバンド型デバイス1000が張る2次元平面P(以降、回転面と呼ぶ)内における回転運動であり、その回転軸Sはネックバンド型デバイス1000が作る円Cの中心を通ると考えてよい。
【0020】
図2及び
図3に示すように、本実施形態に係るネックバンド型デバイス1000では、装着時に回転面と水平面のなす角度θとネックバンド型デバイス1000(円C)の直径dを適切に選ぶことにより、ユーザの口元から回転面へ垂線Vを下ろした場合に、ネックバンド型デバイス1000が作る円Cに交わるようにする。このような幾何学的関係を作ることで、装着ずれの程度に関わらず、垂線Vと円Cは交わることになる。角度θと直径dの具体的な設定方法、調整方法については、後述する。
【0021】
このような幾何学的関係において、ユーザの口元座標(x
0,y
0,z
0)は、ネックバンド型デバイス1000の円Cを含む円柱の側面上の点であると数学的に表現することができる。
図4は、口元座標(x
0,y
0,z
0)とネックバンド型デバイス1000との位置関係を示す模式図である。
図4において、座標軸はネックバンド型デバイス1000に固定して定義している。また、
図4では、マイクロフォン1010が3つ設けられた構成を示している。
【0022】
図4に示すように、ユーザの口元座標(x
0,y
0,z
0)は、円Cを含む円柱の側面上の点であると考えることができるため、以下の式(1)が成立する。
【0024】
式(1)を用いることで、既知のマイクロフォン1010の座標(マイク座標)から口元座標(x
0,y
0,z
0)を求めることができる。
図5は、マイクロフォン1010が2つ設けられた場合に、マイク座標(x
1,y
1,z
1)とマイク座標(x
2,y
2,z
2)から口元座標(x
0,y
0,z
0)を求める手法を説明するための模式図である。
【0025】
ここで、時刻tにおけるユーザの音声信号をs(t)とする。s(t)のフーリエ変換をs(ω)と表す。ただし、ω=2πfは角周波数、fは周波数である。以降では、ある狭帯域信号に限定し、s(ω)を単にsと表すことにし、周波数スペクトルと呼ぶ。
図5において、口元座標(x
0,y
0,z
0)と各マイク座標の距離をd
1,d
2とすると、各マイクロフォン1010で観測された周波数スペクトルp
1,p
2は、以下の式(2)、式(3)で表すことができる。ただし、jは虚数単位、exp(a)はaの指数関数を表す。
【0027】
また、p
1≠p
2であれば、振幅比と位相差の関係から、以下の式(4)、式(5)により距離d
1,d
2が求まる。
【0029】
一方、幾何学的な関係から以下の式(6)、式(7)が成立する。
d
12=(x
1−x
0)
2+(y
1−y
0)
2+z
02 ・・・(6)
d
22=(x
2−x
0)
2+(y
2−y
0)
2+z
02 ・・・(7)
【0030】
式(6)、式(7)に式(4)、式(5)から求まる距離d
1,d
2を代入し、式(1)を加えて連立方程式を解くことができる。式(6)、式(7)は球面を表す方程式であり、式(1)は円柱面を表す方程式であるため、口元座標(x
0,y
0,z
0)はそれらの交点として得ることができる。
【0031】
解の算出には解析的な方法を用いても良いし、ニュートン法などの数値的な方法を用いても良い。交点(解)は2点存在する場合があるため、その場合にはy
0>0として1点に決定する。すなわち、装着ずれは±90度以内と仮定する。
【0032】
以上のように、式(6)、式(7)のみでは口元座標を算出することはできないが、本実施形態のネックバンド型デバイス1000に特有な式(1)の関係を用いることにより、通常では算出不可能な口元座標を算出できる。また、口元座標のz
0が一度既知になると、z
0は装着ずれに応じて変化することはないため、以降は3つの方程式(式(1)、式(6)、式(7))に対して未知数が2つになり、最適化によりx
0,y
0を算出することが可能となる。なお、最適化計算の手法については、後で詳細に説明する。このように、ネックバンド型デバイス1000が存在する平面と垂直な軸に射影した口元座標を時間的に一定の値として扱うことで、推定パラメータ数を減らして最適化計算を行うことができる。そして、算出したx
0,y
0から距離d
1,d
2を再計算することにより、距離d
1,d
2をより高精度に算出することが可能である。これにより、例えばビームフォーミングなどの性能を大幅に向上することができる。また、口元座標に基づいてネックバンド型デバイス1000側で装着ずれの有無が分かるため、スピーカ1020から音声を発する等の手法によりユーザに装着ずれが発生していることを警告できる。
【0033】
図6は、マイクロフォン1010が3つ以上(n個)設けられた場合に、マイク座標(x
i,y
i,z
i)から口元座標(x
0,y
0,z
0)を求める手法を説明するための模式図である。なお、i=1,...,nとする。
【0034】
図6において、口元座標(x
0,y
0,z
0)と各マイク座標の距離をd
iとすると、各マイクロフォン1010で観測された周波数スペクトルp
iは、以下の式(8)で表すことができる。
【0036】
また、振幅比と位相差の関係から、以下の式(9)、式(10)が得られる。この際、求めたいd
iの数よりも式の数の方が多いため、線形最適化によりd
iを得ることができる。
【0038】
また、マイクロフォン1010が2つの場合と同様に、幾何学的関係から以下の式(11)が成り立つ。
d
i2=(x
1−x
i)
2+(y
1−y
i)
2+z
02 ・・・(11)
【0039】
以上により、未知数はx
0,y
0,z
0の3つであり、n+1本の方程式が得られるため、非線形最適化により口元座標(x
0,y
0,z
0)を決定できる。また、得られた口元座標(x0,y0,z0)の値を用いて距離d
iを算出することにより、より高精度な距離d
iを得ることができる。
【0040】
最適化計算では、式(9)、式(10)において、以下のような誤差λi,μiが含まれるものとする(但し、i=1の場合を除く)。
【0041】
【数6】
・・・(9)’,(10)’
【0042】
そして、最適化計算では、式(9)’、式(10)’において、以下の二乗誤差を最小にするd
i(i=1,・・・,n)を求める。
【0044】
最適化計算において、方程式の数が1つ増えることにより、距離d
iの精度が向上する。これにより、マイクロフォン1010から口元への伝達特性(ステアリングベクトル)が正確に得られることになり、ビームフォーミング等の信号処理の性能が向上する。特にn≧3の場合には、n=3では未知数の数と方程式の数が一致するため、最適化計算を行うことができないが、本実施形態に係る方法により最適化計算を行うことで精度の向上が期待できる。また、上記と同様、z
0が既知になると、未知数の数が減ることにより、より精度の向上が期待できる。
【0045】
図7は、マイクロフォン1010が点対称の位置にある場合を示す模式図である。2つのマイクロフォン1010から口元座標(x
0,y
0,z
0)までの距離をl
1,l
2とすると、タレスの定理により以下の式(12)の関係が常に成立する。
l
12+l
22=d
2 ・・・(12)
【0046】
口元座標(x
0,y
0,z
0)と各マイク座標の距離をd
1,d
2とすると、式(12)は以下の式(15)のように変形できる。
d
12+d
22=d
2+2z
02 ・・・(13)
【0047】
式(13)が常に成り立つとして、式(1)の代わりに用いることで、口元座標(x
0,y
0,z
0)を求めることができる。
【0048】
4.最適化計算について
本実施形態における最適化計算では、式(1)の扱い方により2つの方法が考えられる。ここでは一般化のため、任意の位置に3つ以上のマイクロフォン1010が配置されている場合を考える。
【0049】
第1の方法は、制約付き最適化である。この方法では、ネックバンド型デバイス1000の形状が充分に理想的であり、式(1)が誤差なく成立すると考えられる場合に、式(1)を制約条件として以下の式(16)の二乗誤差を最小にする(x
0,y
0,z
0)を求める。
【0051】
第2の方法は、制約無し最適化であって、ネックバンド型デバイス1000の形状が条件を充分には満たしていない場合に、式(1)にも誤差が含まれると考え、以下の式(17)、式(18)を設定する。
【0053】
そして、以下の式(19)の二乗誤差を最小にする(x
0,y
0,z
0)を求める。
【0055】
5.音源位置推定装置の構成例
図8は、上述した演算によりネックバンド型デバイス1000における音源位置を推定する音源位置推定装置100の構成を示す模式図である。
図8に示すように、音源位置推定装置100は、スペクトル取得部102、音源距離演算部104、音源位置演算部106、を有して構成されている。音源位置演算部106によって算出された距離diは、ビームフォーミング演算部108へ送られる。スペクトル取得部102は、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。音源距離演算部104は、上述した式(4)、式(5)(または式(9)、式(10))に基づいて、口元座標とマイク座標との距離d
iを求める。音源位置演算部106は、上述した式(1)、式(6)、式(7)(または式(1)、式(11))に基づいて、口元座標(x
0,y
0,z
0)を演算する。また、音源位置演算部106は、求めた口元座標(x
0,y
0,z
0)とマイク座標に基づいて、距離d
iを再計算し、より高精度に距離d
iを算出する。ビームフォーミング演算部108は、高精度に再計算された距離diに基づいて、ビームフォーミング処理を行う。
図8に示す音源位置推定装置100は、ネックバンド型デバイス1000の内部に設けられるが、音源位置推定装置100を外部機器(クラウドコンピュータ等)に設け、ネックバンド型デバイス1000から外部機器へ必要なパラメータを送信し、外部機器側で演算された音源位置をネックバンド型デバイス1000が受信しても良い。
図8に示す音源位置推定装置100の各構成要素は、回路(ハードウェア)、またはCPUなどの中央演算処理装置とこれを機能させるためのプログラム(ソフトウェア)から構成されることができる。また、そのプログラムは、メモリ等の記録媒体に格納されることができる。
【0056】
6.ビームフォーミング処理について
図9は、ビームフォーミング演算部108の構成を示す模式図である。ビームフォーミング演算部108は、スペクトル取得部108a、ビームフォーミング処理部108b、ビームフォーミング係数算出部108cを有して構成される。なお、スペクトル取得部108aは、スペクトル取得部102と同一の機能を有する構成要素である。
【0057】
上述のように、口元座標(x
0,y
0,z
0)と各マイクロフォン1010のマイク座標(x
i,y
i,z
i)との距離d
iを精度良く求めることができるため、以下に説明するように、ビームフォーミング演算部108におけるビームフォーミング処理の性能向上を達成できる。先ず、得られた距離d
iを用いて、口元から各マイクロフォン1010までの伝達関数を並べた以下の式(20)のようなベクトル(ステアリングベクトル)を作成する。但し、式(20)において、cは音速、nはマイクロフォン1010の数である。また、上付きのTは転置を表す。
【0059】
各マイクロフォン1010での周波数スペクトルを並べたベクトルp(式(21)参照)に対してフィルタwを乗じて目的信号以外の信号を抑圧する場合、目的音源は変化しないという拘束の下で出力パワーを最小にする以下の最適化問題の解として、以下の式(22)からフィルタwを得ることができる。
【0061】
但し、E[α]はαの期待値である、また上付きのHは共役転置を表す。この最適化問題の解はpの共分散行列であるR(式(23)参照)を用いて以下の式(24)ように表すことができる。
【0062】
【数13】
・・・(23),(24)
【0063】
このようにして得られたフィルタwを用いて、以下の式(25)からqを得ることでビームフォーミング処理を実現する。
【0065】
図9に示す構成において、スペクトル取得部108aは、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。スペクトル取得部108aは、
図8のスペクトル取得部102と同様の機能を有するため、両者は一体に構成されていて良い。ビームフォーミング処理部108bは、式(25)の演算処理を行う。また、ビームフォーミング係数算出部では、式(23)、式(24)によりフィルタwを算出する処理を行う。
【0066】
以上のように本実施形態によれば、ネックバンド型デバイス1000において音源位置(口元座標(x
0,y
0,z
0))を算出することが可能となり、装着ずれがある状況下における各種信号処理(特にステアリングベクトルを用いたビームフォーミング)の性能を向上させることができる。また、マイクロフォン1010が2つの場合であっても、音源位置(口元座標)を算出することができる。更に、装着ずれをより高精度に検出してユーザへ通知することも可能となる。
【0067】
7.ネックバンド型デバイスの傾きと直径の調整
次に、ネックバンド型デバイス1000の角度θと直径dの設定について説明する。上述した演算によりユーザの口元座標(x
0,y
0,z
0)を算出する際には、角度θと直径dを所定値に定めておくことが望ましい。
図10〜
図13は、角度θと直径dを所望の値にするための構成を示す模式図である。ネックバンド型デバイス1000の内周面には、
図10に示す領域Aにおいて、
図11に示すような傾斜面(傾き調整部)1004が設けられている。傾斜面1004は、ネックバンド型デバイス1000がユーザの首に装着された場合に、首と接触する。このため、傾斜面1004の角度を最適な角度に設定することで、角度θを所望の値に設定することができる。好適には、ネックバンド型デバイス1000の開口部1002側に重みを持たせておくことにより、傾斜面1004を確実にユーザの首に接触させることができる。傾斜面1004を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
【0068】
また、
図10に示す領域Bにおいて、角度θを設定する部材を設けても良い。ネックバンド型デバイス1000の開口部1002の近傍に部材を設け、ネックバンド型デバイス1000の前方(開口部1002側)に重みをもたせておくことにより、装着者の体表(鎖骨周辺)とネックバンド型デバイス1000の筐体のすき間を埋めて角度を固定することもできる。
図12は、ネックバンド型デバイス1000の開口部1002の近傍に突起部(傾き調整部)1006を設けた例を示す模式図である。この構成では、ネックバンド型デバイス1000がユーザの首に装着された場合に、突起部1006の先端が鎖骨の近傍に当接する。このため、突起部1006の長さを最適な長さに設定することで、角度θを所望の値に設定することができる。また、
図13は、
図12の突起部1006の代わりに、前方に行くにつれて太さが増す傾斜部(傾き調整部)1008を設けた例を示す模式図である。
図13の構成例において、傾斜部1008の鎖骨側への長さを最適な長さに設定することで、角度θを所望の値に設定することができる。突起部1006、または傾斜部1008を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
【0069】
図10に示すように、ネックバンド型デバイス1000には、スライダー(直径調整部)1100が設けられており、後側筐体1110に対して前部筐体1120がスライド可能とされている。これにより、後側筐体1110に対して前部筐体1120がスライドさせることで、ネックバンド型デバイス1000の直径dを所望の値に設定することができる。なお、異なる直径dのネックバンド型デバイス1000を複数用意し、その中から所望の直径dを有するネックバンド型デバイス1000を選択するなどの手法を用いる場合は、ネックバンド型デバイス1000にスライダー1100を設けなくても良い。
【0070】
なお、上述した傾斜面1004、突起部1006、傾斜部1008、スライダー1100による角度θ、直径dの設定は、平均的なユーザの身体(首回り)の寸法に応じて予め設定されていても良いし、傾斜面1004、突起部1006、傾斜部1008、スライダー1100を事後的に調整することで、個々のユーザに応じて角度θ、直径dを調整するものであっても良い。
【0071】
以上説明したように本実施形態によれば、ネックバンド型デバイス1000における音源の位置(ユーザの口元の位置)を高精度に推定することができる。従って、音源の位置に基づいてビームフォーミング処理などの各種処理を最適に行うことが可能となる。
【0072】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0073】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0074】
なお、以下のような構成も本開示の技術的範囲に属する。
(1) リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、
前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、
前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、
を備える、音源位置推定装置。
(2) 前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、前記(1)に記載の音源位置推定装置。
(3) 前記マイクロフォンは2つ設けられ、
音源位置演算部は、前記それぞれの距離を半径とする球面を表す2つの式と前記円柱面を表す式を連立して解くことで、前記球面と前記円柱面との交点を求める、前記(1)又は(2)に記載の音源位置推定装置。
(4) 前記マイクロフォンは3つ以上設けられ、
前記スペクトル取得部は、線形最適化により前記周波数スペクトルを取得する、前記(1)又は(2)に記載の音源位置推定装置。
(5) 前記マイクロフォンは3つ以上設けられ、
音源位置演算部は、前記それぞれの距離を半径とする球面を表す式と、前記円柱面を表す式とに基づいて、非線形最適化により前記音源の位置を演算する、(1)又は(2)に記載の音源位置推定装置。
(6) 前記音源位置演算部は、前記円柱面を表す式を制約条件として、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(7) 前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(8) 前記マイクロフォンは前記円の中心に対して点対称の位置に設けられ、
前記音源位置演算部は、前記円柱面を表す式の代わりに、前記それぞれの距離と前記円の直径との関係を示す式を用いて前記球面と前記円柱面との交点を求める、前記(3)に記載の音源位置推定装置。
(9) 前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、前記(1)〜(8)のいずれかに記載の音源位置推定装置。
(10) 前記音源位置演算部により再計算された前記音源までのそれぞれの距離に基づいて、ビームフォーミング処理が行われる、前記(9)に記載の音源位置推定装置。
(11) 前記スペクトル取得部は、複数の前記マイクロフォンで観測された信号をAD変換し、帯域分割処理を行うことにより、前記周波数スペクトルを取得する、前記(1)〜(10)のいずれかに記載の音源位置推定装置。
(12) 複数のマイクロフォンが設けられたリング状の筐体と、
複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、
を備える、ウェアラブルデバイス。
(13) 前記円柱面に前記音源が位置するように、身体の装着部位に対する前記筐体の傾きを調整する傾き調整部を備える、前記(12)に記載のウェアラブルデバイス。
(14) 前記円柱面に前記音源が位置するように、前記筐体におけるリングの直径を調整する直径調整部を備える、前記(12)又は(13)に記載のウェアラブルデバイス。