(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-10
(45)【発行日】2025-01-21
(54)【発明の名称】聴覚支援装置及びシステム、並びに音源定位装置
(51)【国際特許分類】
G10L 21/0272 20130101AFI20250114BHJP
G10L 25/51 20130101ALI20250114BHJP
H04R 3/00 20060101ALI20250114BHJP
H04R 25/00 20060101ALI20250114BHJP
【FI】
G10L21/0272 100Z
G10L25/51 400
H04R3/00 320
H04R25/00 H
(21)【出願番号】P 2021019825
(22)【出願日】2021-02-10
【審査請求日】2023-12-20
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年11月5日、ウェブサイト https://keihanana-digital.com/atr-openhouse2020/entrance 及び https://keihanana-digital.com/vr/ksc2020/420/vtour/tour.html?s=pano2830&3h=180 で公開されたATRオープンハウス2020にて発表。
(73)【特許権者】
【識別番号】393031586
【氏名又は名称】株式会社国際電気通信基礎技術研究所
(74)【代理人】
【識別番号】100099933
【氏名又は名称】清水 敏
(72)【発明者】
【氏名】イシイ カルロス トシノリ
(72)【発明者】
【氏名】劉 超然
【審査官】相澤 祐介
(56)【参考文献】
【文献】特開2017-092732(JP,A)
【文献】特開2015-211303(JP,A)
【文献】特開2016-177153(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0272
G10L 25/51
H04R 3/00
H04R 25/00
(57)【特許請求の範囲】
【請求項1】
利用者の聴覚を補助するための聴覚支援装置であって、
対象物の位置を検出する位置検出装置の出力と、マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、
周囲の音声を表す音声信号を送信可能な端末からの音声信号、前記マイクロフォンアレイからの音声信号、及び前記音源定位手段により特定された前記音源の位置に基づき、前記音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、
前記利用者の顔姿勢、前記音源定位手段により特定された前記音源の位置、及び前記音源分離手段により各音源について分離して出力された音声信号に基づき、特定の音源からの音声信号を選択的に再構成するための音声信号再構成手段と
、
前記端末を管理する端末管理手段と、
前記端末管理手段により管理されている前記端末のうち任意の端末をターゲット又はアンチターゲットとして指定するための端末指定手段と、
前記端末指定手段により指定された端末からの音声信号を、指定にしたがって前記音声信号再構成手段による音声信号の再構成の対象として選択又は除外するためのターゲット選択・除外手段とを含み、
前記端末指定手段は、
前記端末管理手段により管理されている端末を表すシンボルと、前記音源分離手段により分離された音源を表すシンボルとを、各シンボルの位置を表す二次元的表示として表示装置上に表示するシンボル表示手段と、
前記表示装置に表示されている前記端末のシンボルのいずれかをユーザとの対話により選択して、ターゲット又はアンチターゲットとする指定に関するユーザ入力を受けるためのターゲット・アンチターゲット入力手段と、
前記端末管理手段により管理されている端末のうち、前記ターゲット・アンチターゲット入力手段によりターゲット又はアンチターゲットとして指定された端末に関し、当該指定を表すターゲットフラグを記憶するターゲットフラグ記憶手段とを含む、聴覚支援装置。
【請求項2】
さらに、前記端末からの音声信号が所定のアンチターゲットフラグにより標識されていることに応答して、当該端末からの音声信号を前記音声信号再構成手段による音声信号の再構成の対象から除外するためのアンチターゲット除外手段を含む、請求項1に記載の聴覚支援装置。
【請求項3】
前記端末管理手段は、
前記聴覚支援装置による聴覚支援への参加を求める端末からの参加要求に応答して、当該端末の初期位置を決定して記憶するための位置記憶手段と、
前記表示装置に表示されている特定の端末を表す特定シンボルの、前記表示装置上での表示位置を変化させるユーザ入力に応答して、前記特定シンボルの前記表示装置上での表示位置に基づいて、前記位置記憶手段に記憶されている前記特定の端末の位置を更新する位置更新手段とを含む、
請求項1又は請求項
2に記載の聴覚支援装置。
【請求項4】
前記端末管理手段はさらに、
参加可能な聴覚支援に関する情報を求める新規端末からの要求に応答して、当該新規端末に対して前記聴覚支援装置を識別する識別情報を送信する識別情報送信手段と、
前記識別情報に応答して前記新規端末から前記識別情報を指定した参加要求があったことに応答して、当該新規端末に関する情報を記憶するための新たなレコードを前記位置記憶手段に生成するレコード生成手段とを含む、請求項
3に記載の聴覚支援装置。
【請求項5】
前記端末は所定の通信規格により無線通信を行う機能を持つ通信端末であり、
前記聴覚支援装置は、前記所定の通信規格に従う無線通信を行う無線通信装置をさらに含み、
前記音源分離手段は、前記無線通信装置が前記端末から受信する音声信号を用いて前記音源の位置を決定する、請求項1から請求項
4のいずれか1項に記載の聴覚支援装置。
【請求項6】
前記通信端末はスマートフォンである、請求項
5に記載の聴覚支援装置。
【請求項7】
利用者の聴覚を補助するための聴覚支援システムであって、
対象物の位置を検出する位置検出装置と、
少なくとも1つのマイクロフォンアレイと、
前記位置検出装置の出力と、前記マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、
周囲の音声を表す音声信号を送信可能な端末からの音声信号、前記マイクロフォンアレイからの音声信号、及び前記音源定位手段により特定された前記音源の位置に基づき、
各前
記音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、
前記利用者の顔姿勢、前記音源定位手段により特定された前記音源の位置、及び前記音源分離手段により各音源について分離して出力された音声信号に基づき、特定の音源からの音声信号を選択的に再構成するための音声信号再構成手段と
、
前記端末を管理する端末管理手段と、
前記端末管理手段により管理されている前記端末のうち任意の端末をターゲット又はアンチターゲットとして指定するための端末指定手段と、
前記端末指定手段により指定された端末からの音声信号を、指定にしたがって前記音声信号再構成手段による音声信号の再構成の対象として選択又は除外するためのターゲット選択・除外手段とを含み、
前記端末指定手段は、
前記端末管理手段により管理されている端末を表すシンボルと、前記音源分離手段により分離された音源を表すシンボルとを、各シンボルの位置を表す二次元的表示として表示装置上に表示するシンボル表示手段と、
前記表示装置に表示されている前記端末のシンボルのいずれかをユーザとの対話により選択して、ターゲット又はアンチターゲットとする指定に関するユーザ入力を受けるためのターゲット・アンチターゲット入力手段と、
前記端末管理手段により管理されている端末のうち、前記ターゲット・アンチターゲット入力手段によりターゲット又はアンチターゲットとして指定された端末に関し、当該指定を表すターゲットフラグを記憶するターゲットフラグ記憶手段とを含む、聴覚支援システム。
【請求項8】
利用者の聴覚を補助するための聴覚支援システムで使用される音源定位装置であって、
対象物の位置を検出する位置検出装置の出力と、マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、
周囲の音声を表す音声信号を送信可能な端末からの音声信号、前記マイクロフォンアレイからの音声信号、及び前記音源定位手段により特定された前記音源の位置に基づき、
各前
記音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、
前記音源定位手段により特定された前記音源の位置を示す音源位置情報と、前記音源分離手段により音源ごとに分離された音声信号とを互いに関連付けて出力する出力手段と
、
前記端末を管理する端末管理手段と、
前記端末管理手段により管理されている前記端末のうち任意の端末をターゲット又はアンチターゲットとして指定するための端末指定手段と、
前記端末指定手段により指定された端末からの音声信号を、指定にしたがって前記出力手段による音声信号の出力の対象として選択又は除外するためのターゲット選択・除外手段とを含み、
前記端末指定手段は、
前記端末管理手段により管理されている端末を表すシンボルと、前記音源分離手段により分離された音源を表すシンボルとを、各シンボルの位置を表す二次元的表示として表示装置上に表示するシンボル表示手段と、
前記表示装置に表示されている前記端末のシンボルのいずれかをユーザとの対話により選択して、ターゲット又はアンチターゲットとする指定に関するユーザ入力を受けるためのターゲット・アンチターゲット入力手段と、
前記端末管理手段により管理されている端末のうち、前記ターゲット・アンチターゲット入力手段によりターゲット又はアンチターゲットとして指定された端末に関し、当該指定を表すターゲットフラグを記憶するターゲットフラグ記憶手段とを含む、音源定位装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音源定位及び音源分離技術を用いて、利用者の聴覚の支援をするための技術に関する。
【背景技術】
【0002】
世界各国で共通して、その国における人口の1割~2割程度が難聴・聴覚障害を持っているといわれている。2009年の日本補聴器販売店協会による「補聴器供給システムの在り方に関する研究」報告書の中で、日本の難聴者人口は15.7%(1944万人)と報告されている。65歳以上では25~40%、75歳以上では40~66%の割合で見られる。高齢者の難聴は、神経細胞等の老化現象としての老人性難聴である。今後、日本の人口の高齢化に伴い、難聴者数は更に増加すると予想される。
【0003】
しかし、日本で補聴器を使っている人は400万人程度であり、難聴者のうち5人に1人しか補聴器を使っていないことになる。補聴器を途中で使わなくなる難聴者も多い。利用者が補聴器の使用を止める原因は、多くの場合、利用者に合った補聴器を選べていない、又は設定が難しく誤った設定で使用しているためとされている。しかし、それらが適切であっても補聴器単体による快適さ(聞こえやすさ)には限界がある。
【0004】
補聴器があまり使用されない一つの理由として、一般の補聴器にはマイクが埋め込まれているため、周囲の雑音も増幅されてしまうという根本的な問題がある。また、このマイクのためにハウリング(ピーピー音)も起きやすく利用者に苦痛を感じさせる。ハウリング防止の信号処理を施しているものもあるが、その分、補聴器の音量を抑える必要があり、重度難聴には十分な音量が確保できない。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来の補聴器等の聴覚支援装置には、上記した問題だけではなく他の問題もある。例えば、複数の人物がいる場所で複数の人々が会話している状況を考える。通常、人間はこうした状況でも目的とする音声のみを選択し、周囲の音声と区別して聞き取ることができる。ところが、従来の補聴器を使用するだけではこのように選択的に音声を聞き取ることが難しいという問題がある。
【0007】
こうした問題を解決するための一つの提案が、上記特許文献1に開示されている。特許文献1の開示の全てを、ここに参照により援用する。
【0008】
図20を参照して、特許文献1に開示された聴覚支援システム900は、マイクロフォンアレイ群910と、対象物(話者)までの距離を計測するためのLRF(Laser Rangefinder)群912と、マイクロフォンアレイ群910の出力及びLRF群912の出力に基づいて周囲に存在する音源(話者)の位置を決定しその情報を出力するための音源定位装置914と、利用者916が装着する、頭部姿勢センサ918を持つヘッドセット920と、音源定位装置914の出力及び頭部姿勢センサ918の出力に基づき、利用者が注目している方向の音源(話者)の音声に関し、利用者916に3次元的空間のその方向からの音声として聞こえるように音声信号を合成しヘッドセット920に出力するための空間感覚合成部924と、各音源の位置を2次元的に表示し、音源のうちから音声を再構成すべき音源と音声を抑圧すべき音源とを指定する利用者の入力に応答し、空間感覚合成部924に対してその情報を与えるための表示部922とを含む。
【0009】
空間感覚合成部924は、頭部姿勢センサ918の出力に基いて利用者916の顔の方向を推定する顔姿勢推定部954と、様々な状況における頭部伝達関数を記憶するデータベース952と、マイクロフォンアレイ群910の中のマイクロフォンアレイと音源との間の距離に基づき、音源定位装置914から出力される各音源からの音声信号(音源信号)の振幅を補正するための音量制御部950と、音量制御部950により音量が制御された音源信号に対し、顔姿勢推定部954により推定された利用者916の顔の方向及び音源の間の角度に基き、データベース952から利用者916の左右の耳のための適切な頭部伝達関数を選択して適用することで、利用者916の顔の向きに応じて音声空間を再構成する音声信号を生成するための音空間再構成部956とを含む。
【0010】
このとき、利用者916の顔の向きに応じ、顔の前方の所定範囲内にある音源からの音は強調され、所定範囲外にある音源からの音は減衰されるように、それぞれの音声が調節される。そのため、利用者は自己が注目している音源からの音声を、他の音声より強調した形で聞くことができる。利用者の顔姿勢に基づいて強調すべき音源を特定できるので、利用者にとって自然な形で自分が注目している話者の音声を聞くことができる。
【0011】
しかし、上記特許文献1に開示の聴覚支援システムは、複数のマイクロフォンアレイと複数のLRFとを必要とする。例えば利用者が外出したり、必要な設備が整っていない部屋で会合に出席したりする場合、これらを全て携帯することは現実的ではない。したがって、特許文献1に開示されたような聴覚支援システムによる効果を、より手軽に実現できる聴覚支援システムが望まれている。
【0012】
それ故にこの発明は、目的となる音声を他の音声と区別して明瞭に聞くことができ、かつ手軽に実現できる聴覚支援装置及びシステム、音源定位装置、聴覚支援システムのための入力装置、コンピュータプログラム、並びに距離検出装置一体型マイクロフォンアレイを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明の第1の局面に係る、利用者の聴覚を補助するための聴覚支援装置は、対象物の位置を検出する位置検出装置の出力と、マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、周囲の音声を表す音声信号を送信可能な端末からの音声信号、マイクロフォンアレイからの音声信号、及び音源定位手段により特定された音源の位置に基づき、音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、利用者の顔姿勢、音源定位手段により特定された音源の位置、及び音源分離手段により各音源について分離して出力された音声信号に基づき、特定の音源からの音声信号を選択的に再構成するための音声信号再構成手段とを含む。
【0014】
好ましくは、聴覚支援装置は、さらに、端末からの音声信号が所定のアンチターゲットフラグにより標識されていることに応答して、当該端末からの音声信号を音声信号再構成手段による音声信号の再構成の対象から除外するためのアンチターゲット除外手段を含む。
【0015】
より好ましくは、聴覚支援装置は、さらに、端末を管理する端末管理手段と、端末管理手段により管理されている端末のうち任意の端末をターゲット又はアンチターゲットとして指定するための端末指定手段と、端末指定手段により指定された端末からの音声信号を、指定にしたがって音声信号再構成手段による音声信号の再構成の対象として選択又は除外するためのターゲット選択・除外手段とを含む。
【0016】
さらに好ましくは、端末指定手段は、端末管理手段により管理されている端末を表すシンボルと、音源分離手段により分離された音源を表すシンボルとを、各シンボルの位置を表す二次元的表示として表示装置上に表示するシンボル表示手段と、表示装置に表示されている端末のシンボルのいずれかをユーザとの対話により選択して、ターゲット又はアンチターゲットとする設定に関するユーザ入力を受けるためのターゲット・アンチターゲット入力手段と、端末管理手段により管理されている端末のうち、ターゲット・アンチターゲット入力手段によりターゲット又はアンチターゲットとして設定された端末に関し、当該指定を表すターゲットフラグを記憶するターゲットフラグ記憶手段とを含む。
【0017】
好ましくは、端末管理手段は、聴覚支援装置による聴覚支援への参加を求める端末からの参加要求に応答して、当該端末の初期位置を決定して記憶するための位置記憶手段と、表示装置に表示されている特定の端末を表す特定シンボルの、表示装置上での表示位置を変化させるユーザ入力に応答して、特定シンボルの表示装置上での表示位置に基づいて、位置記憶手段に記憶されている特定の端末の位置を更新する位置更新手段とを含む。
【0018】
より好ましくは、端末管理手段はさらに、参加可能な聴覚支援に関する情報を求める新規端末からの要求に応答して、当該新規端末に対して聴覚支援装置を識別する識別情報を送信する識別情報送信手段と、識別情報に応答して新規端末から識別情報を指定した参加要求があったことに応答して、当該新規端末に関する情報を記憶するための新たなレコードを位置記憶手段に生成するレコード生成手段とを含む。
【0019】
さらに好ましくは、端末は所定の通信規格により無線通信を行う機能を持つ通信端末であり、聴覚支援装置は、所定の通信規格に従う無線通信を行う無線通信装置をさらに含み、音源分離手段は、無線通信装置が端末から受信する音声信号を用いて音源の位置を決定する。
【0020】
好ましくは、通信端末はスマートフォンである。
【0021】
本発明の第2の局面に係る聴覚支援システムは、利用者の聴覚を補助するための聴覚支援システムであって、対象物の位置を検出する位置検出装置と、少なくとも1つのマイクロフォンアレイと、位置検出装置の出力と、マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、周囲の音声を表す音声信号を送信可能な端末からの音声信号、マイクロフォンアレイからの音声信号、及び音源定位手段により特定された音源の位置に基づき、各音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、利用者の顔姿勢、音源定位手段により特定された音源の位置、及び音源分離手段により各音源について分離して出力された音声信号に基づき、特定の音源からの音声信号を選択的に再構成するための音声信号再構成手段とを含む。
【0022】
本発明の第3の局面に係る音源定位装置は、利用者の聴覚を補助するための聴覚支援システムで使用される音源定位装置であって、対象物の位置を検出する位置検出装置の出力と、マイクロフォンアレイからの出力とを用いて音源の位置を特定し出力する音源定位手段と、周囲の音声を表す音声信号を送信可能な端末からの音声信号、マイクロフォンアレイからの音声信号、及び音源定位手段により特定された音源の位置に基づき、各音源からの音声を互いに分離して音声信号として出力するための音源分離手段と、音源定位手段により特定された音源の位置を示す音源位置情報と、音源分離手段により音源ごとに分離された音声信号とを互いに関連付けて出力する出力手段とを含む。
【0023】
本発明の第4の局面に係る入力装置は、利用者の聴覚を補助するための聴覚支援システムで使用される入力装置であって、少なくとも聴覚支援システムにおいて使用される端末を管理するための端末管理手段と、端末管理手段により管理されている端末を表すシンボルと、聴覚支援システム内の音源を表すシンボルとを、各端末の位置を表す二次元的表示として表示装置上に表示するシンボル表示手段と、表示装置に表示されている端末のシンボルのいずれかをユーザとの対話により選択して、ターゲット又はアンチターゲットとする設定に関するユーザ入力を受けるためのターゲット・アンチターゲット入力手段と、ターゲット・アンチターゲット入力手段による設定がされた端末と、当該端末に対する当該設定とを関連付けて出力する設定出力手段とを含む。
【0024】
好ましくは、入力装置はさらに、端末管理手段により管理されている端末の各々について、表示装置を使用した利用者との対話型処理により当該端末の位置を更新するための位置更新手段を含む。
【0025】
本発明の第5の局面に係るコンピュータプログラムは、マイクロフォンと、無線通信装置と、マイクロフォン及び無線通信装置に接続されたコンピュータとを含む通信端末を、利用者の聴覚を補助するための聴覚支援システムにおける音声入力装置として機能させるためのコンピュータプログラムであって、コンピュータを、通信端末を聴覚支援システムにおけるアンチターゲットとして設定するか否かに関するユーザ入力を設定する設定入力手段と、無線通信装置を介して、マイクロフォンから入力された音声信号を聴覚支援システム内の音源定位装置に送信する送信手段と、設定入力手段により入力された設定にしたがって、送信手段により送信される音声信号をアンチターゲットフラグにより標識するための標識手段として機能させる。
【0026】
本発明の第6の局面に係る距離検出装置一体型マイクロフォンアレイは、筐体と、筐体に設けられたマイクロフォンアレイと、筐体に設けられ、筐体の周囲に存在する対象物までの距離を検出する距離検出装置と、マイクロフォンアレイの出力及び距離検出装置の出力を外部に送信する無線通信機とを含む。
【0027】
好ましくは、距離検出装置は、各々が筐体に設けられ、筐体の周囲の所定角度範囲に存在する対象物までの距離を検出する、複数個のレーザレンジファインダを含む。
【0028】
より好ましくは、複数個のレーザレンジファインダは、当該複数個のレーザレンジファインダにより筐体の周囲の全周角度内に存在する距離を検出可能となるように配置されている。
【0029】
この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
【図面の簡単な説明】
【0030】
【
図1】
図1は、第1実施形態の使用状態を説明するための模式図である。
【
図2】
図2は、第1実施形態の使用状態を説明するための模式図である。
【
図3】
図3は、第1実施形態に係る聴覚支援システムの全体の概略構成を示す概念図である。
【
図4】
図4は、聴覚支援システムの構成を示すブロック図である。
【
図5】
図5は、操作I/F(インターフェイス)を実現するコンピュータの画面表示例を示す図である。
【
図6】
図6は、第1実施形態の利用者別音源分離部のブロック図である。
【
図7】
図7は、
図6に示すマイクロフォンアレイのブロック図である。
【
図8】
図8は、
図6に示すスマートフォンマイクのブロック図である。
【
図9】
図9は、
図6に示すマイクロフォンアレイの出力のゲインを正規化するためのゲイン正規化部のブロック図である。
【
図10】
図10は、
図4に示す利用者指向音声再生部のうち、選択的音量制御部及び音声信号生成部のより詳細な構成を示すブロック図である。
【
図11】
図11は、
図4に示す選択的音量制御部が利用者の頭部動作追跡部の推定した利用者の頭部姿勢に基づいて各音源からの音声信号に対して定めるゲインと、利用者から見た各音源の角度との関係を示すグラフである。
【
図12】
図12は、第1実施形態を実現するハードウェア構成例を示す図である。
【
図13】
図13は、
図12に示すノートブック型コンピュータのハードウェア構成を示すブロック図である。
【
図14】
図14は、
図12に示すタブレット型コンピュータのハードウェア構成を示すブロック図である。
【
図15】
図15は、
図12に示すスマートフォンが第1実施形態に係る聴覚支援システムに参加するために必要とする機能の組み合わせを示すブロック図である。
【
図16】
図16は、
図12に示すタブレット型コンピュータが第1実施形態に係る聴覚支援システムで利用されるために備える機能の組み合わせを示すブロック図である。
【
図17】
図17は、
図12に示すノートブック型コンピュータがスマートフォンからの音声を処理するために実行するプログラムの制御構造を示すフローチャートである。
【
図18】
図18は、第2実施形態に係る利用者別音源分離部のブロック図である。
【
図19】
図19は、第1実施形態及び第2実施形態において、スマートフォンが聴覚支援システムに参加する際のスマートフォンと各聴覚支援装置との間で行われる通信のシーケンスを示すシーケンス図である。
【
図20】
図20は、従来の聴覚支援システムの概略ブロック図である。
【発明を実施するための形態】
【0031】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
【0032】
第1 第1実施形態
1 構成
(1)概略構成
図1を参照して、室内に複数の話者54、…、話者64がいるものとする。これら話者のうち、話者54は話者56と、話者58は話者60と、話者62は話者64と、それぞれ会話している。この状況で、例えば聴覚に障害を持つ利用者50がこれらの対話の内容を聞き取る場合を考える。この例では、16個のMEMS(Micro-Electro-Mechanical Systems)マイクロフォンを半球状に離散的に配置した1台のマイクロフォンアレイと2台のLRFとが一体となったLRF一体型マイクロフォンアレイ52を用い、例えば話者が座っている前のテーブルの中央にこのLRF一体型マイクロフォンアレイ52を配置する。LRF一体型マイクロフォンアレイ52が一体型であるため、このLRF一体型マイクロフォンアレイ52は容易に携帯できる。またLRF一体型マイクロフォンアレイ52の筐体には、前記した2台のLRFが互いに背中合わせに設けられている。これらLRFの各々はその前方180度の範囲の対象物までの距離を測定できる。その結果、LRF一体型マイクロフォンアレイ52は、その全周にわたりLRF一体型マイクロフォンアレイ52から対象物までの距離を測定できる。またこの例では、MEMSマイクロフォンは、それぞれ観葉植物を模して半球状に配置された16枚の葉の中央に設けられている。
【0033】
この実施形態では、利用者50はその両耳にマイク内蔵型のイヤホンを装着している。このイヤホンは通常時には補聴器としても動作する構成を持つ。ここでは、イヤホンには利用者50の頭部の姿勢を検知するためのセンサも搭載されており、この実施形態に係る聴覚支援システムの中心である聴覚支援装置にその情報を送信する。頭部の姿勢に関する情報は、利用者50の顔姿勢の推定に用いられる。
【0034】
図1に示すように利用者50が話者54及び話者56の方を向いているときには、この聴覚支援装置は、頭部姿勢センサの出力に基いて利用者50が話者54及び話者56の方向を向いていると判定する。そして、話者54、…、話者64の音声のうち、話者54及び話者56の音声のみを3次元空間的に話者54及び話者56からの音声として利用者50が感じられるように、話者54及び話者56の音声を表わす音声信号を再構成し、利用者50のイヤホンに送信する。利用者50はイヤホンにより再生された音声により、話者54及び話者56の対話を明瞭に聞き取ることができる。
【0035】
一方、
図2を参照して、利用者50が話者62及び話者64の方向を向いたものとする。利用者50の姿勢センサの出力に基づき、図示しない聴覚支援装置は利用者50が注目している方向を推定し、その方向にいる話者62及び話者64の音声を
図1の話者54及び話者56の音声と同様に再構成して得た音声信号を利用者50のイヤホンに送信する。したがって
図2に示す状態では利用者50は、話者62及び話者64の音声を明瞭に聞き取ることができる。
【0036】
ところで、特許文献1に記載の聴覚支援システムでは、複数個のマイクロフォンアレイを使用することが前提とされている。それらのマイクロフォンアレイの出力と複数のLRFの出力とを使用することで、複数の音源の定位と各音源からの音声の分離とが可能になる。
【0037】
しかし、
図1及び
図2に示すようにLRF一体型マイクロフォンアレイ52のみを用いる場合、マイクロフォンアレイとの距離が大きな話者については、その音声を十分に取得できない。そのため、特許文献1に記載されたように特定の話者の音声を常に明瞭に再構成することが難しいという問題がある。マイクロフォンアレイが複数あればこうした問題を解決することは容易になるが、この実施形態のように聴覚支援システムを出先でも構築するという目的に照らすと複数のマイクロフォンアレイを用いることは現実的ではない。
【0038】
そこでこの実施形態では、LRF一体型マイクロフォンアレイ52が取得する音声だけではなく、話者54、…、話者64が持ついわゆるスマートフォンをマイクロフォン代わりに用いることとする。スマートフォンはマイクを持っているため、少なくともスマートフォンの近傍にいる話者の音声を電気信号に変換できる。さらにほとんど全てのスマートフォンはワイファイ通信機能を持っているため、ワイファイ通信を介して聴覚支援装置に対して音声を送信できる。聴覚支援装置はワイファイ通信を介して受信したスマートフォンの音声から、そのスマートフォンの近傍にいる特定の話者の音声を再構成できる。なおこの場合、各話者のスマートフォンを全て使用する必要はない。例えば話者54、話者56についてはいずれか一方が所有するスマートフォンのみを両者の間に置けば、1台のスマートフォンで両者の音声を取得できる。
【0039】
図3に、この実施形態に係る聴覚支援システム100の概念的な概略構成を示す。
図3を参照して、聴覚支援システム100は、
図1及び
図2に示すLRF一体型マイクロフォンアレイ52を含む。聴覚支援システム100はさらに、追加のLRF104及びマイクロフォンアレイ106等をLRF一体型マイクロフォンアレイ52とは別に入力装置として持つこともできる。ただしそのように追加のLRF及びマイクロフォンアレイを使用する場合、話者のスマートフォンを使用する必要はなく、実質的に特許文献1に開示された聴覚支援装置と同じ構成を持つことになる。したがって以下の説明では、LRF104もマイクロフォンアレイ106も利用せず、LRF一体型マイクロフォンアレイ52のみを使用する場合を想定して聴覚支援システム100の概略構成について説明する。
【0040】
LRF一体型マイクロフォンアレイ52は、マイクロフォンアレイ134と、LRF130及びLRF132とを含む。LRF130及びLRF132は互いに背中合わせにLRF一体型マイクロフォンアレイ52の筐体に配置される。LRF130及びLRF132は各々、前方の180度の範囲内に存在する対象物までの距離を検出可能である。したがってLRF130及びLRF132によりLRF一体型マイクロフォンアレイ52の全周について、LRF一体型マイクロフォンアレイ52から対象物までの距離を測定できる。
【0041】
聴覚支援システム100はさらに、LRF一体型マイクロフォンアレイ52のLRF130及びLRF132からの出力に基づき、人の位置を検出し追跡してその情報を出力する人位置検出追跡部112と、ユーザの指示を受けるための操作I/F122と、人位置検出追跡部112のマイクロフォンアレイ134からの音声、人位置検出追跡部112の出力、利用者が装着するユーザマイク118及び頭部姿勢センサ120、操作I/F122を介して受けたアンチターゲット(音声を抑圧する対象の話者)に関する利用者の指示、及びこの聴覚支援システム100に参加している話者が使用しているスマートフォン108、110等及びユーザマイク118からの音声信号に基づき、ユーザが注目している範囲に存在する話者の音声を強調して音空間の再構成を行い、ユーザが装着しているステレオイヤホン116に音声信号を送信するための注意指向・取捨選択型聴覚支援装置114とを含む。
【0042】
注意指向・取捨選択型聴覚支援装置114は、人位置検出追跡部112の出力及びマイクロフォンアレイ134の出力に基いて、各音源の音声を分離し追跡する音声追跡部136と、人位置検出追跡部112の出力する各音源の位置、音声追跡部136により追跡されている各音源からの音声信号及び頭部姿勢センサ120の出力から推定される利用者の顔の向き(顔姿勢)に基き、利用者のステレオイヤホン116の左右のチャネルに対応した頭部伝達関数HRTF(Head-Related Transfer Function)を用いてステレオイヤホン116で再生する左右の音声信号を再構成して合成するHRTF処理部138とを含む。
【0043】
(2)詳細構成
ア 聴覚支援システム100
図4以下を参照して、
図3に示す聴覚支援システム100について、その具体的な構成について説明する。聴覚支援システム100は、環境センサネットワーク150、音環境処理装置152、利用者指向音声再生部154及び利用者装着デバイス156を含む。
【0044】
環境センサネットワーク150は
図3に示すLRF一体型マイクロフォンアレイ52、マイクロフォンアレイ106、LRF104、スマートフォン108及びスマートフォン110を含む。なお、
図4では環境センサネットワーク150はマイクロフォンアレイ群及び距離センサ群を含む。しかし、以下の説明ではマイクロフォンアレイ群としては
図3に示すマイクロフォンアレイ134のみを使用し、距離センサ群としては
図3に示すLRF130及びLRF132のみを使用する。この実施形態は、LRF一体型マイクロフォンアレイ52のみが使用可能であることを想定しているためである。これ以上の数のマイクロフォンアレイ及び距離センサを使用する場合、聴覚支援システム100の構成及び動作が実質的に特許文献1による処理と同様の構成と同様になると考えられる。
【0045】
図4を参照して、利用者が装着する利用者装着デバイス156は、左右マイク220、左イヤホン222及び右イヤホン224、並びに頭部姿勢センサ120を含む。
【0046】
図3の人位置検出追跡部112及び注意指向・取捨選択型聴覚支援装置114は、
図4の音環境処理装置152及び利用者指向音声再生部154により実現される。
【0047】
音環境処理装置152は、マイクロフォンアレイ群の出力に基づいて、LRF一体型マイクロフォンアレイ52の位置を中心とする3次元の音源方向を推定する3次元空間音源方向推定部170と、距離センサ群の出力に基いて各測定時点での各話者の位置を検出するための人位置検出部172と、3次元空間音源方向推定部170の出力及び人位置検出部172の出力に基づき、3次元の音環境(音源の位置)を示す音環境知能地図を作成する音環境知能地図作成部176と、音環境知能地図作成部176が作成する音環境知能地図を記憶するための音環境知能地図記憶部174と、環境センサネットワーク150のマイクロフォンアレイ群及びスマートフォン群が出力する音声信号と、音環境知能地図作成部176により作成された音環境知能地図による音源の配置(位置)とに基いて、利用者ごとに選択的に音源を分離する利用者別音源分離部178、180、及び182とを含む。例えば利用者別音源分離部178は、第1の利用者を支援するために、第1の利用者が注目する音源からの音声を環境センサネットワーク150からの音声信号から選択的に分離し、各音源の位置に関する情報(位置情報)とともに出力する選択的音源分離部190を含む。利用者別音源分離部180及び182も同様に構成されている。
【0048】
音環境知能地図作成部176による音源の位置の推定は以下のようにして行われる。3次元空間音源方向推定部170により、マイクロフォンアレイに到来する音声の到来方向が推定される。人位置検出部172の出力とLRF一体型マイクロフォンアレイ52の位置とに基づき、距離センサ群が検知した物体の位置に関する情報が得られる。距離センサ群が検知した物体のいずれかが、マイクロフォンアレイから音源の方向に引いた半直線のいずれかの上、又はその半直線から所定の範囲内にあれば、その物体がその音声の音源であると判定し、距離センサ群が検知した位置をその音源の位置と判定する。以下の説明では、利用者以外の話者がJ人いるものとする。
【0049】
なお、ここでいう「利用者」とは、聴覚支援システムの支援を受ける利用者のことをいい、単に聴覚支援システム内の会話に参加している「話者」とは異なる。この聴覚支援システムは、一つの聴覚支援システムのみを運用してその中で複数の利用者を支援することもできるし、複数の聴覚支援システムを運用しながら、各システムの利用者を別々に支援することもできる。以下では、説明を簡明にするために、支援対象となる利用者が1名のみ、例えば利用者別音源分離部178に対応する第1の利用者のみであるものとする。
【0050】
また、選択的音源分離部190は、音源分離を行うときに、左右マイク220が収集する利用者の声が左イヤホン222及び右イヤホン224を介して少し遅れて利用者に聞こえることを防ぐよう、左右マイク220の出力を受けて各音声信号に利用者の声を抑圧する機能を持つ。
【0051】
利用者指向音声再生部154は、頭部姿勢センサ120の出力に基いて利用者の頭部動作(姿勢)を追跡するための利用者の頭部動作追跡部206と、選択的音源分離部190から受けた各音源、LRF一体型マイクロフォンアレイ52及び各スマートフォンの位置と、聴覚支援システム100の支援を受ける利用者の位置とを表示装置上に表示し、利用者の操作により後述するようにスマートフォンの位置、及びターゲット(音声を聞く対象となる話者)又はアンチターゲットの指定を利用者との対話型処理により受け、更新後の状況を表示する音選択インターフェイス200と、選択的音源分離部190から受ける各音源の音声信号、音選択インターフェイス200から受ける各音源及び各スマートフォンの位置、ターゲット/アンチターゲットの指定、及び利用者の頭部動作追跡部206から受ける利用者の顔の推定角度230を使用して、利用者の注意対象及び各話者のプライバシーを考慮した選択的な音量制御を各音源からの音声に対して行うための選択的音量制御部202と、利用者の頭部動作追跡部206から受ける利用者の頭部姿勢並びに選択的音源分離部190から受ける各音源の方向・位置情報及び推定された利用者の顔の向きに応じて音源の位置を再構成し、利用者の両耳のための左右のチャネルに対応した正確な頭部伝達関数をそれぞれ生成するための音源の空間的変換部204と、音源の空間的変換部204により再構成された頭部伝達関数を用いて、利用者の両耳のための音声信号を左右のチャネルについてそれぞれ生成し、左イヤホン222及び右イヤホン224に出力するための音声信号生成部208とを含む。
【0052】
なお、利用者装着デバイス156は聴覚支援システム100を用いた聴覚支援のための音声信号の再生にも用いられるが、単独で補聴器としても用いられる。したがって、利用者装着デバイス156には、聴覚支援システム100による支援を受けるために利用するときと、補聴器として使用するときとで、異なる音量バランスで左右マイク220からの音声を左イヤホン222及び右イヤホン224にフィードバックするための音量制御機構(図示せず)が設けられる。
【0053】
図5を参照して、音選択インターフェイス200には、音環境知能地図作成部176により作成された音環境知能地図に応じて、LRF一体型マイクロフォンアレイ52、各話者(話者54、…、話者64)、及び利用者50がそれぞれに対応する位置にシンボルで表示される。LRF一体型マイクロフォンアレイ52、話者、及び利用者50はそれぞれ異なるシンボルで表示され、各話者は同じシンボルだが例えば互いに異なる番号(図示せず)が重畳される。また、音源とは別にこのシステムに参加しているスマートフォン250、…、スマートフォン254もこれらとは別のシンボルで表示される。デフォルトではLRF一体型マイクロフォンアレイ52が画面中央に配置される。
図5の場合には、この図はLRF一体型マイクロフォンアレイ52の前面が右に来るように描画されるが、利用者50が画面の下部中央にくるように回転して表示することもできる。
【0054】
例えば利用者指向音声再生部154は利用者50が持つタブレット型コンピュータにより実現され、
図5に示す画面はそのディスプレイに表示される。利用者が特定の音源をターゲット又はアンチターゲットとして指定する場合、利用者50はその音源に対応するシンボルをディスプレイ上でタップする。所定のダイアログがディスプレイに現れ、利用者はその音源をターゲット又はアンチターゲットとして指定する。スマートフォン250、…、スマートフォン254については、この実施形態では、後述するように各スマートフォンが聴覚支援システム100に参加するときに、そのGPS(Global Positioning System)機能により得た位置情報をタブレット型コンピュータに送信する。この位置情報を受信したタブレット型コンピュータはその位置にスマートフォンのシンボルを表示する。その位置は必ずしも正確とは言えないが、そのシンボルを利用者50がドラッグアンドドロップによりし正しい位置に移動させることにより、利用者指向音声再生部154の音選択インターフェイス200がスマートフォンの位置を正しく決定できる。
【0055】
図6を参照して、
図4に示す選択的音源分離部190は、マイクロフォンアレイ134から各音源の音声を分離した音源信号292、…、音源信号294を、ユーザマイク118から利用者50の音声信号を、スマートフォンマイク286、…、スマートフォンマイク288から各スマートフォンの音声信号をそれぞれ受け、各デバイスからの信号を同期した後、チャネル間の干渉信号(妨害音)の漏れを抑える処理を行うためのチャネル間抑圧部290とを含む。チャネル間抑圧部290は、マイクロフォンアレイ134からの音源信号292、…、294についてはそれぞれチャネル間抑圧後の音源信号310、…、312を、スマートフォンマイク286、…、288については同様にチャネル間抑圧後の音源信号314、…、316を、それぞれ出力する。チャネル間抑圧部290は、ユーザマイク118からの音声については、チャネル間抑圧の際に用いるだけで、出力はしない。
【0056】
選択的音源分離部190はさらに、チャネル間抑圧部290から出力される、マイクロフォンアレイ134からの信号である音源信号310、…、312について、マイクロフォンアレイ134から各音源までの距離を要素とする距離ベクトルr1を用いて、距離による音声信号の振幅の正規化をし正規化された音源信号群330を出力するためのゲイン正規化部300と、スマートフォンマイク286、…、288から各話者までの距離rp1、…、rpnを用いてこれらの出力する音声信号の、距離による正規化を行い正規化された音源信号334及び336を出力するゲイン正規化部304、…、306とを含む。
【0057】
なお、ここではマイクロフォンアレイがマイクロフォンアレイ134の1個だけの場合を示している。しかしマイクロフォンアレイが2個以上あってもよいことは当然であり、それは特許文献1に記載されているとおりである。ただし、前述したようにこの発明はマイクロフォンアレイが1個だけのときに特に意味がある。マイクロフォンアレイが複数個あるときにはスマートフォンを使用する必要がないため、その構成及び動作は特許文献1と基本的に同様であると考えてよい。したがって、ここでは、マイクロフォンアレイ134以外のマイクロフォンアレイは存在していないものとして説明する。
【0058】
また、
図6の前段の処理として、
図6には図示してないが、スマートフォンからの信号に含まれるターゲット・アンチターゲットフラグを参照し、このフラグの値が「1」のときにはその信号に対するゲインを0とする処理が存在する。この処理については
図17を参照して後述する。
【0059】
チャネル間抑圧部290は、マイクロフォンアレイ134によるビームフォーミングでは十分な音源分離が出来ずチャネル間で干渉信号(妨害信号)の漏れがあるときに、そのような干渉信号の漏れを抑えるための処理である。この処理には、例えば特許文献1に記載のようにウィーナーフィルタを用いればよい。
【0060】
図7を参照して、
図6に示すマイクロフォンアレイ134がN1個のマイクを持つものとする。これらは
図7ではマイク
1
1、…、
1
N1として示されている。マイクロフォンアレイ134は、これらN1個のマイクからの音声信号の各々についてノイズの抑圧を行うためのノイズ処理部320と、ノイズ処理部320によりノイズが抑圧された音声信号を、
図4に示す音環境知能地図作成部176により推定された各音源(話者)の位置に関する情報を用いたビームフォーミングにより分離し、分離後の音声信号(音源信号292、…、音源信号294)を出力するためのビームフォーマ生成部322とを含む。前述したように、ここでは、利用者以外の話者が全部でJ人いるものとしている。
【0061】
ノイズ処理部320は、マイクロフォンアレイ134の1番目のマイク1
1からの音声信号のノイズを推定するためのノイズ推定部340と、ノイズ推定部340により推定されたノイズをマイク1
1の音声信号から除去することによりノイズを抑圧するためのノイズ抑圧部344とを含む。ノイズ処理部320は以下同様にして、マイクロフォンアレイ134のN1番目のマイク1
N1からの音声信号のノイズを推定するためのノイズ推定部342と、ノイズ推定部342により推定されたノイズをマイク1
N1からの音声信号から除去することによりノイズを抑圧するためのノイズ抑圧部346まで、全部でN1個のノイズ推定部及びノイズ抑圧部の組を含む。ここでの抑圧の対象となるノイズは定常ノイズであって、対象となる音源からの音声信号が存在しない区間での平均スペクトルとして推定される。
【0062】
ビームフォーマ生成部322は、音環境知能地図作成部176により推定された第1話者の位置に基づき、ノイズ処理部320に含まれるノイズ推定部342、…、346の出力を用いたDS(Delay-Sum)ビームフォーミングを行い、第1話者からの音声を分離・強調した音源信号292として出力するDSビームフォーマ360を含む。以下同様にして、ビームフォーマ生成部322は、話者が全部でJ人いるものとして、第J話者からの音声を分離・強調した信号を出力するDSビームフォーマ362まで、全部でJ個のDSビームフォーマを含む。
【0063】
図8を参照して、
図6に示すスマートフォンマイク286は、ノイズ推定部380と、ノイズ推定部380の出力に基づきスマートフォンマイク286の音声信号からノイズを除去するノイズ抑圧部382とを含む。この構成は基本的に
図7に示すノイズ処理部320の各マイクに関するものと同じである。
図6に示すスマートフォンマイク288もまたスマートフォンマイク286と同様の構成を持つ。
【0064】
図9を参照して、
図6に示すゲイン正規化部300は、チャネル間抑圧部290から出力されるノイズが抑圧された音源信号310、…、312に対し、LRF一体型マイクロフォンアレイ52から各話者までの距離r
1、…、r
Jを用いて、g=1/r
i(i=1、…、J)により示されるゲインをそれぞれ乗じることによりゲイン正規化を行い正規化された音源信号群330を出力するためのJ個の個別ゲイン正規化部400、…、402を含む。
【0065】
図10を参照して、
図4に示す選択的音量制御部202及び音声信号生成部208はそれぞれ以下のような構成を持つ。なお、この実施形態では、前述したようにマイクロフォンアレイが1個の場合を想定する。したがって
図10以下では、
図6に示すマイクロフォンアレイ134及びゲイン正規化部300については説明するが、それ以外のマイクフォロンアレイに関する構成は図示していないことに注意が必要である。
【0066】
選択的音量制御部202は、ゲイン正規化部300からの正規化された音源信号群330(音源信号414、…、音源信号416)、ゲイン正規化部304、…、306からの音源信号334、…、336を受け、音源信号のうち、利用者がターゲットとして指定した音源からの信号についてはゲインを1に、利用者又はスマートフォンの所有者がアンチターゲットとして指定した音源からの信号についてはゲインを0に、それぞれ設定するためのターゲット/アンチターゲット選択部420と、ターゲット/アンチターゲット選択部420が出力する各音源信号のうち、
図4に示す利用者の頭部動作追跡部206により推定された利用者の顔の推定角度230により、利用者が注意を向けている方向の対象音源に3dBのゲインをかけ、それ以外の方向には-3dBのゲインをかけることにより、利用者の注意に応じた音源からの音声を選択的に強調するための注意対象の自動選択部422とを含む。
【0067】
より詳細には、この実施形態では、注意対象の自動選択部422は
図11の加算器510により示すようなゲインを利用者の顔の方向に対する角度に基いて、各方向の音声信号に乗ずる。この実施形態では注意対象の自動選択部422は、顔の方向を0度とする相対角度で-30度から30度の範囲のビームに対し、コサイン波で-3dBから3dBとなるようゲインを自動調整している。このゲインをアテンション・ゲインと呼ぶ。このアテンション・ゲインにより、利用者の顔が向いている方向を中心とするその両側30度内に存在する音源からの音声が、それ以外の音声に対して選択的に強調される。ゲインは、利用者の顔が向いている方向が最大となり、そこからはなれるほど小さくなり、利用者の顔が向いている方向から30度以上離れたところからは一定のゲインとなる。
【0068】
音声信号生成部208は、注意対象の自動選択部422が出力するマイクロフォンアレイからの音源信号、及びスマートフォンからの音源信号に対しそれぞれ設けられ、それら音源信号に対し、利用者の顔の方向と、利用者から音源への方向との間の角度に基いてそれぞれ適切な頭部伝達関数に基づいて利用者に与える左右の音声信号を生成し出力する音像再構築部450を含む。
【0069】
音像再構築部450は、各音源に対して設けられ、各音源からの音源信号にそれぞれの音源について算出された頭部伝達関数に基くフィルタを適用し、左右の音声信号を出力するための複数のHRTF処理部470、…、478を含む。これらHRTF処理部470、…、478はいずれも同じ構成を持つ。
【0070】
例えばHRTF処理部470はマイクロフォンアレイ134からの第1話者の音源信号に対する処理を行う。HRTF処理部470は、利用者の顔の方向と、利用者の位置及び第1話者の位置とから、利用者の顔の方向と、利用者から第1話者への方向との相対的角度を算出するためのターゲット角度算出部480と、算出されたターゲット角度に基いて適切な頭部伝達関数を選択し、注意対象の自動選択部422からの第1話者の音源信号に対しこの頭部伝達関数に基づく左耳用のフィルタを通し、左耳用の音声信号を生成するための左耳HRTFフィルタ482と、同じく右耳用の音声信号を生成するための右耳HRTFフィルタ484とを含む。HRTF処理部472、…、476等の構成もHRTF処理部470と同様である。したがって音像再構築部450からは、話者の数×2+スマートフォンの数×2の数だけの音声信号が出力される。
【0071】
音声信号生成部208はさらに、音像再構築部450の出力のうち、左耳用の音声信号を全て加算し左耳のための音声信号を生成する左音声合成部490と、同様に音像再構築部450の出力のうち、右耳用の音声信号を全て加算して右耳用の音声信号を生成する右音声合成部492とを含む。
【0072】
左音声合成部490は、HRTF処理部470、…、476からの左耳用の音声信号を全て加算する加算器500と、加算器500の出力に対し、利用者装着デバイス156を単体で使用するときと、聴覚支援システム100を利用したときとの音量バランスを設定するためのフィードバックゲイン設定部502と、フィードバックゲイン設定部502による設定にしたがって加算器500の出力を調整する加算器504とを含む。
【0073】
右音声合成部492も同様の構成であり、HRTF処理部470、…、476からの右耳用の音声信号を全て加算する加算器510と、加算器510の出力に対し、利用者装着デバイス156を単体で使用するときと、聴覚支援システム100を利用したときとの音量バランスを設定するためのフィードバックゲイン設定部512と、フィードバックゲイン設定部512による設定にしたがって加算器510の出力を調整する加算器514とを含む。
【0074】
2 動作
図12を参照して、聴覚支援システム100は以下のように動作する。以下の説明では、この実施形態に係る聴覚支援システム100は、
図4に示す音環境処理装置152として機能するコンピュータシステム530と、スマートフォン250、スマートフォン252及びスマートフォン254と、
図4に示す利用者指向音声再生部154として機能する、ユーザが保持するタブレット型コンピュータ532と、タブレット型コンピュータ532とペアリングされる、1組で
図4に示す利用者装着デバイス156として機能する左イヤホン222及び右イヤホン224とを含むものとする。左イヤホン222及び右イヤホン224は無線によりタブレット型コンピュータ532と通信可能である。また
図12には示していないが、左イヤホン222及び右イヤホン224には、それぞれ
図4に示す左右マイク220と頭部姿勢センサ120とが組み込まれている。LRF一体型マイクロフォンアレイ52、コンピュータシステム530、スマートフォン250、…、254及びタブレット型コンピュータ532はいずれも所定の無線規格によって高速に通信可能である。
【0075】
ここでは、利用者がタブレット型コンピュータ532、コンピュータシステム530及びLRF一体型マイクロフォンアレイ52を所持しており、ある部屋にセットアップしたものとする。利用者はLRF一体型マイクロフォンアレイ52を部屋の中央等、音源定位がしやすい場所に配置する。利用者がコンピュータシステム530及びタブレット型コンピュータ532の電源を入れ、コンピュータシステム530では聴覚支援プログラムを、タブレット型コンピュータ532では聴覚支援クライアントアプリを、それぞれ起動することによりLRF一体型マイクロフォンアレイ52、コンピュータシステム530及びタブレット型コンピュータ532が協調してこの実施形態に係る聴覚支援システム100としての動作を開始する。
【0076】
例えばスマートフォン250を持つ話者がこのシステムに参加するものとする。話者がLRF一体型マイクロフォンアレイ52が管理可能な範囲に入ると、
図3に示すLRF一体型マイクロフォンアレイ52のLRF130及びLRF132のいずれかがその位置を検知し
図4に示す人位置検出部172に位置情報を与える。この話者が何らかの音声を発すると、その音声が
図3に示すマイクロフォンアレイ134によりキャプチャされ、LRF一体型マイクロフォンアレイ52から見たその話者の方向(所定方向を基準とする角度)が
図3に示す3次元空間音源方向推定部170により推定される。3次元空間音源方向推定部170はこの角度を示す情報を音環境知能地図作成部176に与える。
【0077】
音環境知能地図作成部176は、前述したように人位置検出部172から入力された対象物の位置と、3次元空間音源方向推定部170から与えられた音源方向の情報とに基づき、空間内の話者の位置を推定し、音環境知能地図を作成する。この地図は音環境知能地図記憶部174に保存される。新たな話者はこのようにして自動的に音環境知能地図作成部176により認識される。話者が減少するときも同様である。音環境知能地図作成部176は、このようにして話者が増減するたびに音環境知能地図記憶部174を更新する。
【0078】
スマートフォン250を持つ利用者は、そのスマートフォン250で所定の聴覚支援用アプリを起動し、その聴覚支援用アプリをコンピュータシステム530で動作している聴覚支援プログラムに接続する。その手順等については後述する。この実施形態では、後述するように聴覚支援用アプリを起動することで、スマートフォン250の持つマイクロフォンが
図6に示すスマートフォンマイク286として機能し、スマートフォン250が収集するその周囲の音声を示す音声信号をコンピュータシステム530に無線で送信する。
【0079】
このようにして複数の話者がこの聴覚支援システムに参加するものとする。ただし、例えば会話に参加する全ての話者がスマートフォンをコンピュータシステム530に接続させる必要はない。スマートフォンのマイクロフォンは特定の話者に限らず周囲の音声を収集するので、例えば互いに近い位置に2人の話者がいるときには、そのうちの一方のみがそのスマートフォンを聴覚支援システムに参加させればよい。
【0080】
またこの実施形態では、聴覚支援システムに参加するスマートフォンの各々について、参加する話者のプライバシーを保護するために、聴覚支援アプリにおいてそのスマートフォンをアンチターゲットとすることを指定できる。スマートフォンを持つ話者は、いつでもそのスマートフォンをターゲットとアンチターゲットとの間で自由に切り替えることができる。
【0081】
同様に、利用者の側でも、興味のない話については利用者装着デバイス156により収集されないよう、スマートフォンごとにターゲットとアンチターゲットとを指定できる。この指定は、
図12に示すタブレット型コンピュータ532を用いた対話型の処理により行われる。ただし、利用者がターゲットとして指定したスマートフォンであっても、スマートフォン側でアンチターゲットを指定している場合には利用者にはその音声は聞こえない。こうすることで、利用者にとって不要な音は抑圧でき、またスマートフォンの近傍の話者のプライバシーが保護される。
【0082】
図4を参照して、このようにして音環境処理装置152がリアルタイムに音環境知能地図を更新している間に、
図3に示すマイクロフォンアレイ134からの音声信号が選択的音源分離部190により音源ごとに分離された音源信号として選択的音量制御部202に入力される。同様にスマートフォン250、…、254からの音声信号がこれらから無線により音環境処理装置152に送信され選択的音源分離部190を経て選択的音量制御部202に入力される。
【0083】
具体的には、
図3及び
図6に示すマイクロフォンアレイ134は以下のように動作する。
図7に示すように、マイクロフォンアレイ134のノイズ処理部320のうち、ノイズ推定部340は、音源からの音声信号が存在しない区間の音声信号から、その平均スペクトルとして定常ノイズを推定しノイズ抑圧部344に与える。ノイズ抑圧部344は、マイク
1
1の出力する音声信号からこの定常ノイズを減算することでマイク
1
1の音声信号のノイズを抑圧し、ビームフォーマ生成部322に与える。他のノイズ推定部342及びノイズ抑圧部346等も同様に動作する。この結果、ノイズ処理部320からビームフォーマ生成部322へは、各マイクが収集した周囲の音声を示す音声信号がマイクの数だけ与えられる。
【0084】
ビームフォーマ生成部322のDSビームフォーマ360には、
図3に示す音環境知能地図作成部176から第1話者の位置を示す情報が与えられる。DSビームフォーマ360はこの情報に基いてノイズ処理部320から与えられる各マイクからの音声信号を用いて第1話者の位置に対するビームフォーミングを行い、第1話者の音声を選択し強調し音源信号292として
図6に示すチャネル間抑圧部290に与える。他のビームフォーマにもそれぞれ対応する各話者の位置を示す情報が与えられる。例えばDSビームフォーマ362には第J話者の位置情報が与えられ、DSビームフォーマ362はマイクロフォンアレイ134の出力に基づき、第J話者の音声を選択し強調した音源信号294を出力してチャネル間抑圧部290(
図6)に与える。
【0085】
図8に示すスマートフォンマイク286において、ノイズ推定部380及び382も
図7のノイズ推定部340及び344と同様の処理をスマートフォンからの音声信号に対して行い、処理の音声信号をチャネル間抑圧部290に与える。他のスマートフォンマイク、例えばスマートフォンマイク288も同様である。
【0086】
チャネル間抑圧部290はこうして入力された各音源からの音源信号について、チャネル間の干渉信号の漏れを防ぐよう、前述したとおりウィーナーフィルタを通し音源信号310、…、312、314、…、316として
図10に示すターゲット/アンチターゲット選択部420に与える。
【0087】
図9を参照して、ゲイン正規化部300には、第1話者から第J話者というJ個の音源にそれぞれ対応するノイズが抑圧された音源信号310、…、312が与えられる。音源信号310は個別ゲイン正規化部400に与えられ、以下他の音源信号も同様にして対応の個別ゲイン正規化部に与えられる。例えば最後の音源信号312は個別ゲイン正規化部402に与えられる。
【0088】
個別ゲイン正規化部400には、
図3に示すマイクロフォンアレイ134の位置(LRF一体型マイクロフォンアレイ52の位置)から第1話者までの距離r
1
1が与えられる。個別ゲイン正規化部400はこの距離r
1
1を用い、1/r
1
1で示されるゲインを音源信号310に乗ずることで距離による振幅の正規化を行う。他の個別ゲイン正規化部、例えば個別ゲイン正規化部402も同様である。すなわち個別ゲイン正規化部402には、第J話者までの距離r
1
Jが与えられる。個別ゲイン正規化部402は1/r
1
Jで示されるゲインを音源信号312に乗ずることで距離による振幅の正規化を行う。このようにして音源信号414、…、416からなる正規化された音源信号群330が
図10に示す選択的音量制御部202のターゲット/アンチターゲット選択部420に与えられる。
【0089】
図6に示すスマートフォンマイク286、…、288等からの音声信号についても同様の処理が行われる。これらについて距離の正規化が行われた音源信号334、…、336も同様に
図10に示す選択的音量制御部202のターゲット/アンチターゲット選択部420に与えられる。
【0090】
図10を参照して、ターゲット/アンチターゲット選択部420は、正規化された音源信号群330(音源信号414、…、416)、及び各スマートフォンからの正規化された音源信号334、…、336のうち、話者又は利用者によりアンチターゲットとして指定されたスマートフォンの音声信号についてはゲインを0に、話者によりアンチターゲットして指定されてないスマートフォンのうち、利用者がターゲットとして指定したスマートフォンからの音声信号についてはゲインを1にして音声信号に乗じ注意対象の自動選択部422に出力する。
【0091】
注意対象の自動選択部422は、このようにして得られた各音源の音源信号に対し、利用者の顔の推定角度230と、その方向並びに各音源及び各スマートフォンへの方向との間の相対的な角度に基づき、各音声信号に
図11のゲイン波形520に示すような大きさのゲインを利用者の顔の方向を基準として乗じる。この結果、利用者の注意対象となっている音源からの音声信号が自動的に選択され強調され、それ以外の音源からの音声信号は自動的に減衰される。
【0092】
音声信号生成部208の音像再構築部450は、音源及びスマートフォンからの音声信号について、それぞれ利用者の顔の方向と対応する音源との間の相対的角度を算出して、適切な頭部伝達関数により左耳用の音声信号と右耳用の音声信号とを生成し音声合成部452に与える。音声合成部452の左音声合成部490は、音像再構築部450から出力された左耳用の音声信号を全て加算し、さらにフィードバックゲイン設定部502により設定されたフィードバックゲインを加算することで利用者の左耳用音声信号を生成し、左イヤホン222に与える。音声合成部452も同様にして右耳用音声信号を生成し、右イヤホン224に与える。
【0093】
この結果、左イヤホン222及び右イヤホン224から再生される音声により、利用者の注意対象としている音声が選択的に強調された上で利用者にとって音響空間が再構築され、利用者が注意対象としている話者の音声が適切な方向から明確に聞こえてくるという経験ができる。マイクロフォンアレイの代わりにスマートフォンを使用できるので、複数のマイクフォンアレイが不要で、LRF一体型マイクロフォンアレイ52のみを用いて手軽に聴覚支援システムを構築し運用できる。
【0094】
またこの聴覚支援システムを利用する利用者が複数いるときでも、コンピュータシステム530で音響知能地図を共有するようにしてそれらのためのプロセスを複数個動かし、各利用者がタブレット型コンピュータ532又はスマートフォンを音声信号生成部208として機能させることで、同時に利用できる。また各スマートフォンの所有者はそのスマートフォンをアンチターゲットに指定できるので、各話者のプライバシーも保護できる。
【0095】
3 コンピュータによる実現
図13を参照して、この発明の上記実施の形態に係る聴覚支援システム100の一部を構成するコンピュータシステム530及びその構成要素は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。
図13はコンピュータシステム530のハードウェア構成を示す。
【0096】
図13を参照して、コンピュータシステム530は、ネットワーク556に接続可能なコンピュータ540と、コンピュータ540に接続される入力機器であるマウス546及びキーボード544と、コンピュータ540に接続される出力機器であるモニタ542と、モニタ542に接続されるスピーカ550及びマイクロフォン552と、モニタ542に着脱可能で、随時読み出し・書き換えが可能なUSB(Universal Serial Bus)メモリ554とを含む。
【0097】
コンピュータ540は、CPU(Central Processing Unit)560と、CPU560が接続されるバス580と、バス580に接続され、多数の積和演算を並列かつ高速に実行可能なGPU(Graphics Processing Unit)562と、バス580に接続され、コンピュータシステム530のブートアッププログラム等を記憶するROM(Read-Only Memory)566と、バス580に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶する随時書き換え及び読み出し可能なRAM(Random Access Memory)568と、バス580に接続された不揮発性メモリであるSSD(Solid State Drive)570と、バス580に接続され、DVD(Digital Versatile Disc)548が装着可能なDVDドライブ572とを含む。
【0098】
コンピュータ540はさらに、バス580に接続され、ネットワーク556への接続を提供するネットワークI/F578と、バス580に接続され、USBメモリ554が着脱可能に装着されるUSBポート576と、バス580に接続され、スピーカ550への音声信号の出力及びマイクロフォン552からの音声信号をデジタル化してCPU560が処理可能となるようにする音声I/F574とを含む。
【0099】
本実施の形態では、
図4に示す音環境知能地図記憶部174、音選択インターフェイス200により設定されるターゲット/アンチターゲット情報、
図11に示すコンピュータシステム520を特定するデータその他、プログラム実行中に生成されるデータは、プログラム実行時には基本的にRAM568に記憶され、必要に応じてSSD570に書き出され、SSD570から読み出されてRAM568にロードされる。
【0100】
基本的にこのコンピュータ540が実行するコンピュータプログラムは、高級言語で書かれたソースプログラムをコンパイラによりコンパイルしてCPU560が解釈及び実行可能な機械語に変換した後、必要な処理を実現するためにシステムに予めインストールされているライブラリの一部とリンクされたオブジェクトプログラムとして生成される。このコンピュータプログラムは、DVD548又はUSBメモリ554に記憶され、DVDドライブ572又はUSBポート576を介してSSD570に転送される。又は、このコンピュータプログラムはネットワーク556を通じてコンピュータ540に送信されネットワークI/F578からSSD570に格納されてもよい。プログラムは実行の際にRAM568にロードされ、実行中には必要に応じてシステムに予めインストールされたライブラリ中のルーチンと動的にリンクされる。又はこのプログラムは、DVD548からDVDドライブ572を介して、USBメモリ554からUSBポート576を介して、又はネットワーク556及びネットワークI/F578を介して、他の端末又はネットワークに接続された記憶装置から直接にRAM568にロードされてもよい。
【0101】
このプログラムは、コンピュータ540にこの実施の形態の聴覚支援システム100の一部である音環境処理装置152として機能させる複数の命令を含む。この動作を行わせるのに必要な基本的機能のいくつかはソースプログラムをコンパイルした後、リンカにより所定のライブラリからリンクされる。さらに他の基本的機能のいくつかは、コンピュータ540上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ540にインストールされる各種ツールキットのモジュールにより、プログラムの実行時に動的リンクを介して提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は機械語ルーチンを呼出すことにより、上記したコンピュータシステム530及びその構成要素としての動作を実行する命令のみを含んでいればよい。コンピュータシステム530の動作は周知であるので、ここでは繰返さない。
【0102】
図14は、タブレット型コンピュータ532のハードウェア構成を示すブロック図である。
図14を参照して、タブレット型コンピュータ532は、プロセッサ660、ペリフェラルI/F664及びメモリコントローラ662を搭載した集積回路638を含む。プロセッサ660、ペリフェラルI/F664及びメモリコントローラ662は互いにバス666を介して通信可能である。
【0103】
集積回路638のメモリコントローラ662にはメモリ628が接続されている。メモリ628はこの実施の形態では揮発性メモリと不揮発性メモリとの組み合わせを含む。不揮発性メモリは書き換え可能なフラッシュメモリを含み、例えばプロセッサ660を動作させるための基本的プログラム、アプリケーションプログラム等を記憶している。揮発性メモリは作業用メモリ、プログラムの実行時の作業用メモリとして使用される。
【0104】
タブレット型コンピュータ532はさらに、ペリフェラルI/F664を介してプロセッサ660との相互通信が可能な無線通信装置620、オーディオ回路622、センサ群624、ディスプレイコントローラ632及びカメラコントローラ636と、集積回路638に接続され、図示しない可搬型メモリ、可搬型ハードディスク等が接続可能な外部ポート626とを含む。ディスプレイコントローラ632にはさらにタッチパネルディスプレイ630が接続される。カメラコントローラ636には同様にカメラ634が接続される。
【0105】
タブレット型コンピュータ532の動作も基本的には
図13に示すコンピュータシステム530と同様である。ただし、タブレット型コンピュータ532の場合には、プログラムはメモリ628内の不揮発メモリに記憶されており、実行時にはメモリ628内の揮発性メモリにロードされる。無線通信装置620は、いわゆるワイファイによる通信に加え、近距離で他の装置と直接に通信することもできる。携帯電話回線を介して他の装置と通信可能な機能を持っていてもよい。スマートフォンの場合も構成は
図14に示すものと同様である。ただしスマートフォンの場合には、無線通信装置620は携帯電話回線による無線通信及び通話も可能である。またオーディオ回路622はマイク、スピーカ及びイヤホン出力回路、並びにデジタル及びアナログ変換回路を含み、マイクにより収集された音声をデジタル変換した後、プロセッサ660によりさらに通信用に処理され、無線通信装置620を介してパケットとしてタブレット型コンピュータ532に送信される。
【0106】
図15は、スマートフォン(例えばスマートフォン250)において、スマートフォン250をアンチターゲットとして処理するために、コンピュータプログラムと
図14に示すようなハードウェアとの協働により実現される機能を示す。
図15を参照して、スマートフォン250は、プロセッサ660のようなプロセッサが実行するプログラムにより、
図14に示すタッチパネルディスプレイ630を用いたユーザとの対話処理により、アンチターゲットの設定及び非設定の入力を受け付けるアンチターゲット情報入力部604と、アンチターゲット情報入力部604により入力されたアンチターゲットに関する設定を記憶するためのアンチターゲット情報記憶部606と、マイクロフォン602が収集した周囲の音声をデジタル化する音声取得部608と、音声取得部608によりデジタル化された音声をさらに通信に適した形式に変換した後、所定長の一連のパケットとして組み立てるためのパケット組立部610として機能する。
【0107】
スマートフォン250はさらに、パケット組立部610が組み立てた一連のパケットの各々について、そのパケットヘッダ内の所定の位置にアンチターゲット情報記憶部606に記憶されたアンチターゲットに関する情報を示すフラグを設定するパケットヘッダ設定部612と、パケットヘッダ設定部612が出力する各パケットを、無線通信装置616を介してコンピュータシステム530に送信するためのパケット送信部614として機能する。
【0108】
スマートフォン250を持つ話者が、自分たちの会話を利用者に聞いてほしくないと思ったときには、その話者はユーザインターフェイス600を介してスマートフォン250をアンチターゲットに指定する。この設定はアンチターゲット情報入力部604からアンチターゲット情報記憶部606により与えられ記憶される。
【0109】
一方、音声取得部608はマイクロフォン602により収集された周囲の音声をデジタル化し、パケット組立部610に与える。パケット組立部610はこの音声を通信に適するように符号化し、送信先アドレス等を含むヘッダとデータからなるボディとを含むデータパケットを組み立て、パケットヘッダ設定部612に順次与える。パケットヘッダ設定部612は、これらデータパケットのヘッダ内の、ターゲット/アンチターゲットを示す情報部分にアンチターゲット情報記憶部606に記憶されているターゲット/アンチターゲットを示すフラグをセットし、パケット送信部614に与える。パケット送信部614はこのパケットを、無線通信装置616を介してコンピュータシステム530に送信する。ここでは、ターゲット/アンチターゲットを示すフラグは、1のときにアンチターゲットを示し、それ以外のときにターゲットであることを示すものとする。
【0110】
図16は、
図12及び
図13に示すタブレット型コンピュータ532が、
図4に示す音選択インターフェイス200の一部として、利用者からターゲット及びアンチターゲットに関する設定を受けるために、プログラムと
図14に示されるハードウェアとの協働により実現する機能を示すブロック図である。
【0111】
図16を参照して、タブレット型コンピュータ532は、
図14に示すタッチパネルディスプレイ630及びディスプレイコントローラ632と、プログラムとにより、ユーザから任意のスマートフォンについてのターゲット/アンチターゲットの設定の入力を受けるためのターゲット・アンチターゲット情報入力部642と、各音源及び各スマートフォンの位置情報を
図4に示す選択的音源分離部190から受信して記憶し、ターゲット・アンチターゲット情報入力部642により指定されたスマートフォンについて、ターゲット・アンチターゲット情報入力部642により設定されたターゲット/アンチターゲット情報を記憶するための記憶装置644と、記憶装置644に記憶された各音源及び各スマートフォンの位置情報に基づき、
図5に示すような音源配置を、各音源及び各スマートフォンを表わすシンボルとして
図14に示すタッチパネルディスプレイ630上に表示するための音環境知能地図表示部646と、音環境知能地図表示部646に表示されたスマートフォンのシンボルに対してユーザインターフェイス640を介してユーザが表示上の位置を変更する処理を行ったことに応答して、記憶装置644に記憶されているそのスマートフォンの位置を変更するためのスマートフォン位置設定部648として機能する。音環境知能地図表示部646による表示はユーザインターフェイス640による操作と記憶装置644の記憶内容の変化とに応じ、スマートフォンの位置の変化をリアルタイムで反映する。
【0112】
タブレット型コンピュータ532はさらに、記憶装置644に記憶されたスマートフォンの位置に変更があったことに応答して、スマートフォンを識別する情報と、その新たな位置とを無線通信装置652を介して
図4に示す音環境知能地図作成部176に送信するための通信制御部650を含む。
【0113】
コンピュータシステム530では各スマートフォンからの音声データを受信するプログラムが動作している。その制御構造を
図17に示す。
図17を参照してこのプログラムは、データパケットを受信するたびに起動され、そのパケットヘッダを読み(ステップ680)、ターゲット/アンチターゲットフラグの値が1か否かを判定し、判定結果にしたがって制御の流れを分岐させる(ステップ682)。ステップ682の判定が肯定であれば、そのスマートフォンからの音声信号に対するゲインを0に設定し(ステップ684)、このデータパケットに対する処理を終了する。
【0114】
ステップ682の判定が否定であればさらに、該当するスマートフォンについてタブレット型コンピュータ532により設定されたターゲット/アンチターゲットフラグを読む(ステップ686)。さらにこのターゲット/アンチターゲットフラグが1か否かを判定し(ステップ688)、判定結果にしたがって制御の流れを分岐させる。ステップ688の判定が肯定であれば制御はステップ684に進み、そのスマートフォンからの音声信号に対するゲインを0に設定してプログラムの実行を終了する。ステップ688の判定が否定であれば制御はステップ690に進み、そのスマートフォンからの音声信号に対するゲインを1に設定しプログラムの実行を終了する。
【0115】
このような機能を実装することにより、スマートフォンの近くの話者がそのスマートフォンをアンチターゲットに指定すると、その指定は直ちにコンピュータシステム530及びタブレット型コンピュータ532に送信され記憶される。そのスマートフォンからの音声信号に関する選択的音量制御部202でのゲインは直ちに0に設定される。したがって利用者にそのスマートフォンからの会話音声が聞こえることはない。そのスマートフォンをターゲットに指定すると、その指定も直ちにコンピュータシステム530及びタブレット型コンピュータ532に直ちに送信され記憶される。したがってすぐにそのスマートフォンからの音声が利用者に聞こえるようになる。
【0116】
同様に、利用者がタブレット型コンピュータ532により特定のスマートフォンについてアンチターゲットに指定すると、そのスマートフォンからの音声信号のゲインは0となる。またターゲットに指定すると、そのスマートフォンからの音声信号のゲインは1となる。
【0117】
以上の処理の結果、スマートフォンを持つ話者のプライバシーを尊重しながら、かつ利用者に不要な音は利用者に聞こえないようにしながら、利用者が聞きたい音声については利用者が明瞭に聴くことができる。マイクフォロンアレイを複数個準備しなくとも、話者が持っているスマートフォンを利用して、利用者の聴覚支援を手軽に行うことができる。
【0118】
第2 第2実施形態
1 構成
第1実施形態では、
図6に示すように、チャネル間抑圧部290の後段に各音源信号のゲイン正規化を行っている。しかしこの発明はそのような実施形態に限定される訳ではない。この第2実施形態では、ゲイン正規化をチャネル間抑圧部290の前段に設ける。
【0119】
図18を参照して、この第2実施形態に係る利用者別音源分離部700は、
図6に示す第1実施形態の選択的音源分離部190に代えて用いることができる。利用者別音源分離部700は、
図6と同様のマイクロフォンアレイ134、ユーザマイク118、スマートフォンマイク286、…、288と、マイクロフォンアレイ134から各音源までの距離を要素とする距離ベクトルr
1を受ける、
図9に示す個別ゲイン正規化部400と同様の構成を持つゲイン正規化部720と、ユーザマイク118の出力に対しユーザマイク118から利用者までの距離r
Uを受け、その距離r
Uによりユーザマイク118の出力に対し距離による振幅の正規化を行うゲイン正規化部730と、スマートフォンマイク286、…、288の出力に対し、それらとその所持者との間の距離r
p1、…、r
pnを用いて、
図6に示すゲイン正規化部304、…、306と同様、距離による振幅の正規化を行うゲイン正規化部732、…、734とを含む。
【0120】
ゲイン正規化部720の出力する音源信号群、ゲイン正規化部730、…、732の出する音源信号は、いずれもチャネル間抑圧部290に入力され、チャネル間抑圧部290でチャネル間の干渉信号の抑圧がされる。
【0121】
その他の点では、この実施形態に係る聴覚支援システムは第1実施形態に係る聴覚支援システム100と同様の構成を持ち、同様に動作する。
【0122】
このようにゲイン正規化部をチャネル間抑圧部290の前に配置することにより、デバイス間のゲインの違いを補正し、チャネル間抑圧の処理で過度または不十分な抑圧を防げるという効果がある。
【0123】
第3 聴覚支援システムへの参加シーケンス
図19を参照して、スマートフォンを聴覚支援システムに参加させる際の、聴覚支援システムとスマートフォンとの通信シーケンスは以下のとおりである。ここでは、同じ、又は隣接する空間で、2つの聴覚支援装置762及び764がそれぞれ別々の聴覚支援システムのサービスを提供しているものとする。上記実施形態に関する説明からも分かるように、聴覚支援装置762及び聴覚支援装置764は互いに重なり合う空間でも別々に聴覚支援システムを形成できる。
【0124】
例えば聴覚支援装置762にスマートフォン760が参加する場合を想定する。スマートフォン760は、近隣の聴覚支援装置に対し、近隣支援システムへの参加のために、各聴覚支援装置の識別子の返信要求を無線通信によりブロードキャストする(ステップ780)。この要求に対して聴覚支援装置762及び764はそれぞれ自分の位置(又はそれらで使用しているLRF一体型マイクロフォンアレイの位置)と、それぞれが運営している聴覚支援システムの識別子とをスマートフォン760に返信する(ステップ782、ステップ784)。
【0125】
スマートフォン760は、これらの配置を、識別子を付したアイコンのようなシンボルで2次元的に表示する。スマートフォン760の利用者は、いずれかのシンボルをクリックすることでそのシンボルにより表される聴覚支援装置(例えば聴覚支援装置762)を選択する(ステップ786)。スマートフォン760は、聴覚支援装置762への接続要求をスマートフォン760の位置情報とともに聴覚支援装置762に通知する(ステップ788)。この通知を受けた聴覚支援装置762はスマートフォン760を音環境知能地図に登録し(ステップ790)、スマートフォン760からの音声信号の処理を行うサービスを開始する(ステップ792)。
【0126】
一方、聴覚支援装置764では、聴覚支援装置764の通知を送信した後、所定時間内にスマートフォン760からの参加通知がない場合には、スマートフォン760の参加はないものとし、スマートフォン760に関する以後の処理を停止する(ステップ794)。
【0127】
以上のような手順でスマートフォンを聴覚支援システムに参加させることにより、例えば比較的狭い場所で複数組の聴覚支援システムが別々に運営されているときでも、スマートフォンを適切な聴覚支援システムに参加させることができる。その結果、多くの人が存在している場所で様々なグループが話をしているときでも、利用者は所望のグループの所望の話を選択して明瞭に聴くことが可能になる。
【0128】
また上記実施形態では利用者の顔の方向を、利用者が装着した頭部姿勢センサにより検 第4 変形例
上記実施形態では、
図7に示されるように、ノイズ抑圧をビームフォーマの前に行っている。しかしこの発明はそうした実施形態に限定されるわけではなく、ノイズ抑圧をビームフォーマの後に行うようにしてもよい。
【0129】
また上記実施形態では利用者の顔の方向を、利用者が装着した頭部姿勢センサにより検出している。しかしこの発明はそのような実施形態に限定されるわけではない。たとえばLRF一体型マイクロフォンアレイ52に利用者の上半身を撮像するカメラを設け、このカメラにより撮影された利用者の画像から、利用者の顔の方向を検出するようにしてもよい。
【0130】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0131】
50 ユーザ
52 LRF一体型マイクロフォンアレイ
54、56、58、60、62、64 話者
100、900 聴覚支援システム
104、130、132 LRF
106、134 マイクロフォンアレイ
108、110、250、252、254、760 スマートフォン
112 人位置検出追跡部
114 注意指向・取捨選択型聴覚支援装置
116 ステレオイヤホン
118 ユーザマイク
120、918 頭部姿勢センサ
122 操作I/F
136 音声追跡部
138 HRTF処理部
150 環境センサネットワーク
152 音環境処理装置
154 利用者指向音声再生部
156 利用者装着デバイス
170 3次元空間音源方向推定部
172 人位置検出部
174 音環境知能地図記憶部
178、180、182、700 利用者別音源分離部
190 選択的音源分離部
202 選択的音量制御部
204 音源の空間的変換部
206 利用者の頭部動作追跡部
208 音声信号生成部
290 チャネル間抑圧部
292、294、314、316、414、416 音源信号
300、302、304、306、720、730、732、734 ゲイン正規化部
310、312 音源信号群
420 ターゲット/アンチターゲット選択部
422 注意対象の自動選択部
450 音像再構築部
452 音声合成部
480 ターゲット角度算出部
604 アンチターゲット情報入力部
606 アンチターゲット情報記憶部
608 音声取得部
612 パケットヘッダ設定部
614 パケット送信部
642 ターゲット・アンチターゲット情報入力部
644 記憶装置
646 音環境知能地図表示部
648 スマートフォン位置設定部
660 プロセッサ
762、764 聴覚支援装置