特許第6587047号(P6587047)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社国際電気通信基礎技術研究所の特許一覧

特許6587047臨場感伝達システムおよび臨場感再現装置
<>
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000005
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000006
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000007
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000008
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000009
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000010
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000011
  • 特許6587047-臨場感伝達システムおよび臨場感再現装置 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6587047
(24)【登録日】2019年9月20日
(45)【発行日】2019年10月9日
(54)【発明の名称】臨場感伝達システムおよび臨場感再現装置
(51)【国際特許分類】
   H04S 1/00 20060101AFI20191001BHJP
   G01S 3/46 20060101ALI20191001BHJP
   H04S 7/00 20060101ALI20191001BHJP
   H04R 3/00 20060101ALI20191001BHJP
   G10L 25/51 20130101ALI20191001BHJP
   H04R 1/40 20060101ALI20191001BHJP
【FI】
   H04S1/00 500
   G01S3/46
   H04S7/00 320
   H04R3/00 320
   G10L25/51 400
   H04R1/40 320A
【請求項の数】11
【全頁数】18
(21)【出願番号】特願2014-234480(P2014-234480)
(22)【出願日】2014年11月19日
(65)【公開番号】特開2016-100677(P2016-100677A)
(43)【公開日】2016年5月30日
【審査請求日】2017年10月19日
【国等の委託研究の成果に係る記載事項】(出願人による申告)JST戦略的創造研究推進事業/チーム型研究(CREST)、研究領域「共生社会に向けた人間調和型情報技術の構築」、研究課題名「人の存在を伝達する携帯型遠隔操作アンドロイドの研究開発」、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】393031586
【氏名又は名称】株式会社国際電気通信基礎技術研究所
(74)【代理人】
【識別番号】100109162
【弁理士】
【氏名又は名称】酒井 將行
(72)【発明者】
【氏名】イシイ・カルロス・トシノリ
(72)【発明者】
【氏名】劉 超然
(72)【発明者】
【氏名】石黒 浩
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2014−207568(JP,A)
【文献】 特開2012−211768(JP,A)
【文献】 特開2010−041425(JP,A)
【文献】 特開2003−122374(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00
G01S 3/46
G10L 25/51
H04R 1/40
H04R 3/00
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
第1の場所の音環境を第2の場所に伝送して再現するための臨場感伝達システムであって、
前記第1の場所に設置される音源定位装置を備え、前記音源定位装置は、
前記第1の場所における対象物の位置を検出する位置検出手段と、
マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、前記位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、
特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、
前記第2の場所に設置される音声合成装置をさらに備え、前記音声合成装置は、
前記第2の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
記音源定位手段から、前記音源の位置の位置を受信し、検出された顔姿勢に応じて、前記第1の場所の第1の座標系における前記音源の位置を前記第2の場所の第2の座標系における位置に変換して、前記第2の場所において、定位された前記音源からの音声が特定の方向から聞こえるように、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への前記特定の方向に対応する頭部伝達関数を用いて、前記音源分離手段からの分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む、臨場感伝達システム。
【請求項2】
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項1記載の臨場感伝達システム。
【請求項3】
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項1記載の臨場感伝達システム。
【請求項4】
前記マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、
前記音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と前記位置検出手段で検出された音源の位置が、交差することに応じて、前記音源の位置を特定し、
前記音空間再構成手段は、前記音源分離手段からの分離音をそれぞれ受信して、前記マイクロフォンアレイから前記音源までの距離による違いを補正するために、各分離音の音量をそれぞれ正規化するための音量制御処理手段を含む、請求項1〜3のいずれか1項に記載の臨場感伝達システム。
【請求項5】
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項1〜4のいずれか1項に記載の臨場感伝達システム。
【請求項6】
前記音声合成装置は、
前記被験者が前記第2の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項1〜5のいずれか1項に記載の臨場感伝達システム。
【請求項7】
第1の場所の音環境に関する情報を送信する送信装置からの情報に基づき、前記第1の場所の音環境を第2の場所で再現するための臨場感再現装置であって、前記送信装置からは、前記第1の場所における音源の位置を示す位置情報と、前記位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、
前記第2の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
記音源定位手段から、前記音源の位置の位置を受信し、検出された顔姿勢に応じて、前記第1の場所の第1の座標系における前記音源の位置を前記第2の場所の第2の座標系における位置に変換して、前記第2の場所において、定位された前記音源からの音声が特定の方向から聞こえるように、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への前記特定の方向に対応する頭部伝達関数を用いて、前記分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える、臨場感再現装置。
【請求項8】
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項7記載の臨場感再現装置。
【請求項9】
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項7記載の臨場感再現装置。
【請求項10】
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項7〜9のいずれか1項に記載の臨場感再現装置。
【請求項11】
前記被験者が前記第2の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項7〜10のいずれか1項に記載の臨場感再現装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は音源定位技術と音空間再構成技術に関し、特に、音源定位および音源分離技術を用いて、遠隔地への臨場感を伝達するための技術に関する。
【背景技術】
【0002】
近年、ロボット遠隔操作システムにおいて、操作者の存在感をロボット側に伝達する研究が広く行われている(たとえば、非特許文献1、非特許文献2、非特許文献3を参照)。しかし、操作者側へ遠隔地の臨場感を伝達することに注目した研究は少ない。
【0003】
対面コミュニケーションに比べて、遠隔地にいる人物がロボットを介して人とコミュニケーションする場合、空間情報などの欠落によって相手との共有情報が不足する。そのため、操作者側ではコミュニケーションが行われている現場の臨場感を感じることが困難である。
【0004】
臨場感の伝達に大きな手助けとなるのは、バーチャルリアリティ技術である。現在では多くの遠隔医療・軍事・コミュニケーション目的のアプリケーションなどにおいてバーチャルリアリティ技術が利用されており、臨場感の伝達はこれらの一つの大きな目的となっている。
【0005】
一方で、ロボットと人とのコミュニケーションにおける音源定位および音源分離の技術についてもすでに多くの報告がある。人とロボットとの音声コミュニケーションにおいて、ロボットに取付けたマイクロフォンは通常離れた位置(1m以上)にある。したがって例えば電話音声のよう にマイクと口との距離が数センチの場合と比べて、信号と雑音の比(SNR)は低くなる。このため、傍にいる他人の声や環境の雑音が妨害音となり、ロボット による目的音声の認識が難しくなる。従って、ロボットへの応用として、音源定位や音源分離は重要である。
【0006】
音源定位に関して、実環境を想定した従来技術として特許文献1または特許文献2に記載のものがある。特許文献1または特許文献2に記載の技術は、分解能が高いMUSIC法と呼ばれる公知の音源定位の手法を用いている。
【0007】
特許文献1または特許文献2に記載の発明では、マイクロフォンアレイを用い、マイクロフォンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルで ある雑音空間とを求める。さらに、マイクロフォンアレイのうち、1つのマイクロフォンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、MUSIC法により音源の方向を推定する。
【0008】
さらに、特許文献3では、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と 雑音とを精度高く分離することを目的として、音源定位および音源分離をするシステムが開示されている。ここでは、音源定位装置は、人の位置を検出するLRF(レーザレンジファインダ)群と、マイクロフォンアレイ群の出力から得られる複数チャンネルの音源信号の各々と、マイクロフォンアレイに含まれる各マイクロフォンの間の位置関係と、LRF群の出力とに基づいて、複数の方向の各々について、所定時間ごとにMUSICパワーを算出し、そのピークを音源位置として所定時間ごとに検出する音源定位処理部と、マイクロフォンアレイの出力信号から、音源定位処理部により検出された音源位置からの音声信号を分離する音源分離処理部と、分離された音声信号の属性を人位置計測装置の出力を用いて高精度で 判定する音源種類同定処理部とを含む。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2008−175733号公報明細書
【特許文献2】特開2011−220701号公報明細書
【特許文献3】特開2012−211768号公報明細書
【非特許文献】
【0010】
【非特許文献1】Nishio, S., Ishiguro, H., Hagita, N. Can a Teleoperated Android Represent Personal Presence? - A Case Study with Children. Psychologia, 50(4): 330-342. 2007.
【非特許文献2】Ishi, C.T., Liu, C., Ishiguro, H., Hagita, N. 2010. Head motion during dialogue speech and nod timing control in humanoid robots. In Proceedings of 5th ACM/IEEE International Conference on Hu-man-Robot Interaction (HRI 2010). OSAKA, JAPAN. 293-300.
【非特許文献3】Sumioka, H., Nishio, S., Minato, T., Yamazaki, R., Ishiguro, H. Minimal Human Design Approach for Sonzai-kan Media: Investigation of a Feeling of Human Presence. Cognitive Computation, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、上述したような、これらバーチャルリアリティに関する研究の大部分は、視覚における臨場感伝達に着目しているものである。音環境の構築に関するバーチャルリアリティの研究は、ゲームなどのアプリケーションで用いられているものの、未だ少ないのが現状である。
【0012】
3次元音場を再現するため従来広く使われた方法は、バイノーラル(両耳)レコーディングされた音声をステレオで再生することである。この方法は簡便であるという利点があるが、正確なステレオマイクロフォンのセッティングが必要で、尚且つダミーヘッドが動かないためダイナミックに音場を再現することができない。さらに、各音源に対して加工を加えることも不可能である。
サラウンドチャンネルスピーカーは空間的な音場の再現のために開発されており、DirAC(Directional Audio Coding)を用いた音場再現の研究は少なくない。
【0013】
しかし、サラウンドスピーカーシステムには二つの問題点がある。一つ目は、音場を録音した環境とそれを再生する環境が異なる場合、部屋の大きさや形状などの環境的要素が音響の伝達に影響を与えてしまい、これらの影響を正確に補正することは困難であるという点である。二つ目は、サラウンドスピーカーシステムでは “sweet spot” の位置がシステムの中心付近に限られている、という点である。即ち、聴者の場所が制限される。
【0014】
このような事情はあるものの、再現側でのリッチな音環境の構築は、遠隔操作ロボットなどのソーシャルメディアにおいても、操作者に遠隔地での自身の存在感や現場の臨場感を伝えるために重要な要素であると考えられる。
【0015】
この発明は、このような問題点を解決するためになされたものであって、その目的は、第1の場所において観測された3次元的な音環境を、第2の場所にいる人に対して再現することで、臨場感を伝達することが可能な臨場感伝達システムおよび臨場感再現装置を提供することである。
【課題を解決するための手段】
【0016】
この発明の1つの局面に従うと、第1の場所の音環境を第2の場所に伝送して再現するための臨場感伝達システムであって、第1の場所に設置される音源定位装置を備え、音源定位装置は、第1の場所における対象物の位置を検出する位置検出手段と、マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、第2の場所に設置される音声合成装置をさらに備え、音声合成装置は、第2の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源定位手段から、音源の位置の位置を受信し、検出された顔姿勢に応じて、第1の場所の第1の座標系における音源の位置を第2の場所の第2の座標系における位置に変換して、第2の場所において、定位された音源からの音声が特定の方向から聞こえるように、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への特定の方向に対応する頭部伝達関数を用いて、音源分離手段からの分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む。
【0017】
好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、ヘッドフォンに装着されたジャイロおよびコンパスを含む。
【0018】
好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、撮像された被験者の画像から被験者の顔姿勢を推定する。
【0019】
好ましくは、マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、
音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と位置検出手段で検出された音源の位置が、交差することに応じて、音源の位置を特定し、音空間再構成手段は、音源分離手段からの分離音をそれぞれ受信して、マイクロフォンアレイから音源までの距離による違いを補正するために、各分離音の音量をそれぞれ正規化するための音量制御処理手段を含む。
【0020】
好ましくは、音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数をデータベースから選択して、各耳へ再現するための音信号を合成する。
【0021】
好ましくは、音空間再構成装置は、被験者が第2の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。
【0022】
この発明のさらに他の局面に従うと、第1の場所の音環境に関する情報を送信する送信装置からの情報に基づき、第1の場所の音環境を第2の場所で再現するための臨場感再現装置であって、送信装置からは、第1の場所における音源の位置を示す位置情報と、位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、第2の場所内の被験者の顔姿勢をリアルタイムで連続的に検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源定位手段から、音源の位置の位置を受信し、検出された顔姿勢に応じて、第1の場所の第1の座標系における音源の位置を第2の場所の第2の座標系における位置に変換して、第2の場所において、定位された音源からの音声が特定の方向から聞こえるように、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への特定の方向に対応する頭部伝達関数を用いて、分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える。
【0023】
好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、ヘッドフォンに装着されたジャイロおよびコンパスを含む。
【0024】
好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、撮像された被験者の画像から被験者の顔姿勢を推定する。
【0025】
好ましくは、音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数をデータベースから選択して、各耳へ再現するための音信号を合成する。
【0026】
好ましくは、被験者が第2の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。
【発明の効果】
【0027】
本発明によれば、第1の場所において観測された3次元的な音環境を、第2の場所にいる人に対して再現することで、臨場感を伝達することが可能である。
【0028】
また、この発明によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。
【図面の簡単な説明】
【0029】
図1】本実施の形態の臨場感伝達システム1000の構成を説明するためのブロック図である。
図2】音源定位装置300の構成を説明するための機能ブロック図である。
図3】受信側の音声合成装置500を説明するための機能ブロック図である。
図4】音源定位装置300のハードウェア構成を説明するためのブロック図である。
図5】実験系を説明するための図である。
図6】実験結果を示す図である。
図7】インタフェースの画面表示例を示す図である。
図8】ユーザインタフェースの実験結果を示す図である。
【発明を実施するための形態】
【0030】
以下、本発明の実施の形態の臨場感伝達システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。
【0031】
なお、以下の説明では、音センサとしては、いわゆるマイクロフォン、より特定的にはエレクトレットコンデンサマイクロフォンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。
【0032】
以下に説明するように、本実施の形態の臨場感伝達システムは、遠隔地にあるロボット周囲に分布している複数の音源から構成される音環境(3次元音場)を、操作者(オペレーター)側に再現・加工することで、音の臨場感を伝達する。
【0033】
そして、操作者側の音環境の再生には、ヘッドフォンを例として説明することにする。
【0034】
図1は、本実施の形態の臨場感伝達システム1000の構成を説明するためのブロック図である。
【0035】
図1では、臨場感の送信側の座標系は、(x,y,z)であり、受信側の座標系は、(x´,y´,z´)であるものとする。
【0036】
臨場感伝達システム1000において、臨場感の送信側は、複数のマイクロフォンアレイ10.1〜10.Mを含むマイクロフォンアレイ群100と、複数のレーザレンジファインダ(LRF:Laser Range Finder)20.1〜20.Lを含むLRF群200と、マイクロフォンアレイ群100とLRF群200との出力に基づいて、送信側の環境に存在する音源の定位と音源の分離を行う音源定位装置300とを備える。
【0037】
音源定位装置300において、人位置検出追跡部310は、LRF群200の出力を用いて、どの位置に人間が存在するかを示す情報(人位置情報と呼ぶ)を検出し、人の動きに応じて、非発声期間においても人位置の追跡を行う。音源定位部320は、マイクロフォンアレイ群52の出力および人位置検出追跡部310から出力される人位置情報を受けて、マイクロフォンアレイ群52から出力される音声信号に基づいて音源定位を行ない、音源分離部330は、音源を分離して分離した各音源からの音を収集し、分離音を受信側に送信する。また、音源定位部からの音源の方向および位置の情報(方向・位置情報と呼ぶ)も受信側に送信される。
【0038】
臨場感伝達システム1000の受信側(オペレーター側:臨場感再現装置)の処理では、音声合成装置500は、音源分離部330からの分離音を受信して音量を正規化するための音量制御部510と、オペレーター2が装着したヘッドホン上のセンサ600からの情報を基に、オペレータ2の顔の向きを推定する顔姿勢推定部520と、受信した方向・位置情報と推定されたオペレーター2の顔の向きに応じて、音源の位置および顔の向きから、左右のチャンネルに対応した頭部伝達関数(HTRF:Head Relative Transfer Function)をデータベース530から選択し、分離した音声に畳み込み演算を行い、ステレオヘッドフォン610でオペレーター2に再生する音声を再構成して合成する音空間再構成部540とを備える。
【0039】
オペレーター2の頭部回転トラッキングのためのセンサ600としては、ヘッドフォン610の上部に取り付けたジャイロセンサーおよびコンパスを用いることができる。
【0040】
また、音量制御部310においては、分離した各音源のボリュームについては、オペレータ2が、表示部650に表示されるユーザインタフェースにて独立して調節することが可能な構成としてもよい。
【0041】
なお、送信側および受信側の処理では、システムを構成する各部の同期を制御するための同期用タイムサーバを設け、各処理を同期して処理する構成としてもよい。
【0042】
図2は、音源定位装置300の構成を説明するための機能ブロック図である。
【0043】
図2を参照して、音源定位部320は、各マイクロフォンアレイ10.1〜10.Mからの信号によって、それぞれ、音の3次元到来方向(DOA:Direction Of Arrival)を推定する3次元空間DOA評価部3202.1〜3202.Mと、3次元空間地図を格納する3次元空間地図格納部3204とを備え、空間情報統合部3206は、3次元空間地図で表現される環境とマイクロフォンアレイの位置関係、各音源のDOA、および人位置検出追跡部310からの情報を統合することで、3次元上での人位置情報を取得する。この人位置情報は、ヒューマントラッキングシステムを構成する人位置検出追跡部310により、非発声時にも常時追跡されている。
【0044】
音源分離部330において、音源分離処理部3302.1〜3302.nは、推定した人位置情報に基づいて各人の音声を分離し、空間情報統合部3206からの位置情報と合わせて受信側(オペレーター側)のシステムに送信する。
【0045】
以下、各部の動作について、さらに詳しく説明する。
(3次元音源定位)
音源定位に関しては、まず、3次元空間DOA評価部3202.1〜3202.Mが、各マイクロフォンアレイ10.1〜10.Mのそれぞれに対してDOA推定を行う。空間情報統合部3206は、複数のアレイによるDOA情報と人位置検出追跡部310からの人位置情報を統合することで、音源の3次元空間内の位置を推定する。
実環境での音のDOA推定は広く研究されてきており、MUSIC法は、複数のソースを高い分解能で定位できる最も有効な手法の一つであり、たとえば、上述した特許文献1,2にも開示されている。音源数を固定した数値に仮定し、しきい値を超えたMUSICスペクトルのピークを音源として認識する。ここでは、たとえば、MUSIC法の実装にあたり、100msごとに1度の分解能を有するように構成したとしても、動作クロック周波数2GHzのシングルコアCPUで、リアルタイムに音源の方向を探索することができる。
さらに、コミュニケーションロボットの遠隔操作システムにとって、最も重要な音源は人の音声である。そこで、音源定位装置300では、人の声を漏れ無く抽出するために、複数の2次元LRFで構成したヒューマントラッキングシステムを使用する。空間情報統合部3206は、複数のマイクロフォンアレイからのDOA推定出力とLRFのトラッキング結果が同じ位置で交差すれば、そこに音源がある可能性が高いと判断する。
【0046】
ここで、音源定位装置300のように、2次元のLRFを用いている場合は、人位置情報は2次元に限られる。ここでは、検出された音源の位置が口元の高さの範囲内にあるかの制限(たとえば、z=1〜1.6m)もかけて音源の特定を行う。 無音区間や音源方向推定が不十分な区間では、最後に推定された口元の高さと最新の2次元位置情報を用いて、音源分離を行う。
(音源分離)
音源分離部330では、選択された複数の人物(人数:n人)をパラレルに分離している。
【0047】
音源分離処理部3302.1〜3302.nでは、計算量が少なく且つロバストな遅延和ビームフォーマ(Delay-Sum Beamformer)を用いて、目的方向の人の声を分離する。フレーム長は20msで、シフト長は10msである。
ここで、遅延和ビームフォーマについては、たとえば、以下の文献に開示がある。
【0048】
文献1:国際公開WO2004/034734公報(再表2004-034734号公報)
ビームフォーミングの基本原理を、2マイクロホンの場合を例に簡単に説明する。
【0049】
特性が全く等しい2個の全指向性マイクロホンを間隔dで配置し、これらに対して平面波が方向θから到来する状況を考える。この平面波は各マイクロホンにおいて、経路差dsinθの分だけ、伝搬遅延時間が異なる信号として受信される。ビームフォーミングを行う装置であるビームフォーマでは、或る方向θ0から到来する信号に関する伝搬遅延を補償するように、δ=dsinθ/c(cは音速)だけ、一方のマイクロホン信号を遅延させ、その出力信号を他方のマイクロホン信号と加算または減算する。
【0050】
加算器の入力では、方向θから到来する信号の位相が一致する。従って、加算器の出力において、方向θから到来した信号は強調される。一方、θ以外の方向から到来した信号は、互いに位相が一致しないため、θから到来した信号ほど強調されることはない。その結果、加算器出力を用いるビームフォーマは、θにビーム(Beam:特に感度の高い方向)を有する指向性を形成する。対照的に、減算器では、方向θから到来する信号が完全にキャンセルされる。従って、減算器出力を用いるビームフォーマは、θにヌル(Null:特に感度の低い方向)を有する指向性を形成する。このように遅延と加算のみを行うビームフォーマを、「遅延和ビームフォーマ」と呼ぶ。
【0051】
ここで、より一般に、空間に指向性音源Sと無指向性雑音源Nが存在すると仮定すると、遅延和ビームフォーマの出力は以下の形になる:
【0052】
【数1】
Yは周波数fに対応したビームフォーマの出力で、Sdirは信号の方向、wSdirはSdir方向のビームフォーマレスポンスを指す。式の二つ目の項目は、分離音声に混在する雑音を表している。この雑音成分を低減させるために、各周波数に以下のようなウェイトを掛ける。
【0053】
【数2】
PFはウェイト掛けした後のビームフォーマ出力である。
図3は、受信側の音声合成装置500を説明するための機能ブロック図である。
【0054】
音量制御部510は、音源分離部330からの分離音をそれぞれ受信して音量をそれぞれ正規化するための音量制御処理部5102.1〜5102.nを備える。
【0055】
音量制御部510は、各音源とアレイの間の距離による違いを補正するため、分離した各音声に対して距離によって以下のように正規化を行う。
【0056】
【数3】
このうち、Nは音源の数で、distnはn番目の音源とアレイの距離を表す。giはi番目の音源に掛ける正規化ファクタで、Yiはi番目の音源の分離結果を示している。
【0057】
顔姿勢推定部520は、オペレーター2が装着したヘッドホン上のセンサ600からの情報を基に、オペレータ2の顔の向きを推定する。
【0058】
ただし、たとえば、オペレータ2の顔の向きを推定する方法は、このような構成に限定されるわけでなく、たとえば、オペレータ2の画像を撮像し、この撮像データからオペレータ2の頭部姿勢を推定することとしてもよい。このような撮像画像による頭部姿勢の推定については、特に限定されないが、たとえば、以下の文献に開示がある。
【0059】
文献2:特開2014−93006号公報
音空間再構成部540において、空間再構成部550は、送信側から受信した方向・位置情報と推定されたオペレーター2の顔の向きに応じて、座標系(x´,y´,z´)における音源の位置を再構成し、推定された顔の向きから、左右のチャンネルに対応した正確な頭部伝達関数(HTRF:Head Relative Transfer Function)をデータベース530から選択する。
【0060】
ここで、頭部伝達関数HTRFとは、任意に配置された音源から発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答であり、たとえば、以下の文献にも開示がある。
【0061】
文献3:特開2010−118978号公報
音空間再構成部540において、HTRF処理部5502.1〜5502.nは、分離され音量が制御された音声に、選択された頭部伝達関数との畳み込み演算を行い、左耳音声合成部5504.1および右耳音声合成部5504.2は、ステレオヘッドフォン610の左右のスピーカでオペレーター2に再生する左耳用音声および右耳用音声をそれぞれ合成する。
【0062】
ヘッドフォンを用いた3D音場の再現においては、日常、人は両耳に到達した音波の違いによって音源定位を行っていることを利用する。ヘッドフォン610で、この違いを再現することで、ステレオヘッドフォンで3D音場を合成することが可能になる。
【0063】
頭部伝達関数HTRFは、空間内の音源から発した音波が人の両耳に到達する時点の違いを表現する関数であって、3D音場のバイナル再現に多く使われる。しかし、ヘッドフォンを使って空間上に存在する音源を再現する際には、バーチャルな音源が聴者の頭部・体の動きと共に動いてしまうという問題点がある。人の日常経験を考えると、外部音源の位置は聴者の体の動きに関連せず、固定されている。ヘッドフォンによる3D音場の再現ではこの経験と異なるため、臨場感の伝達にマイナスに働き、不自然な印象の原因となってしまう。さらに、頭部伝達関数を使った場合、前後の誤判断が起こるという問題がある。これは、前方にある音源が後方にあるように聞こえる、もしくはその逆の現象である。日常生活では音源を定位するために意識的・無意識的に頭部を回し、その効果を定位の補助に用いている。
【0064】
これらを考慮し、臨場感伝達システム1000では、オペレーター2の頭部回転をトラッキングすることで、頭部の向きに合わせたHTRFを用いてステレオ音声を合成する。正確なHTRFを選択するのに必要な連続的音源位置情報は、複数のマイクロフォンアレイのDOA推定結果、および、人位置推定システムから取得されている。
【0065】
すなわち、一つの音声を特定の方向から聞こえるようにするため、その方向に対応したHTRFによってフィルタリングしてステレオ化する。HTRFを表す係数のデータベースとしては、特に限定されないが、たとえば、一般公開されているKEMAR(Knowles Elec-tronics Manikin for Acoustic Research) ダミーヘッドのHTRFデータベースを利用することができる。KEMARは、HTRF研究のために一般的な頭部サイズを使って作られたダミーヘッドで、データベースには空間からのインパルス信号に対するダミーヘッドの左右耳のレスポンスとして、仰角−40度から90度までの総計710方向のインパルス応答が含まれている。各インパルス応答の長さは512サンプルで、サンプリング周波数は44.1kHzである。なお、被験者の頭部の形状に対応したHTRFを合成しておき、これをデータベースとして使用することも可能である。
【0066】
HTRFを用いてダイナミックに音場を合成するには、頭部の向きのリアルタイム検出が必要であるため、上述のように、ヘッドフォンの上部にジャイロセンサーとコンパスを取り付け、頭部回転のトラッキングを行う構成とすることができる。このとき、角度情報はシリアルおよびブルートゥース経由のいずれかでシステムに送られる。音場の合成に使う方向は音源方向から頭部角度を引いたもので、この方向に対応した左右チャンネルのインパルス応答がデータベースから選出され、分離結果と畳み込み演算を行った音声がオペレーターの両耳に再生される。
【0067】
図4は、音源定位装置300のハードウェア構成を説明するためのブロック図である。
【0068】
なお、音声合成装置500も、基本的には、同様の構成を有する。すなわち、図2または図3に示した各機能ブロックの機能は、以下に説明するようなハードウェア上で動作するソフトウェアにより実現される。
【0069】
図4に示されるように、音源定位装置300は、外部記録媒体64に記録されたデータを読み取ることができるドライブ装置52と、バス66に接続された中央演算装置(CPU:Central Processing Unit)56と、ROM(Read Only Memory) 58と、RAM(Random Access Memory)60と、不揮発性記憶装置54と、マイクフォンアレイ10.1〜10.Mからの音声データおよびレーザレンジファインダ20.1〜20.Lからの測距データを取込むためのデータ入力インタフェース(以下、データ入力I/F)68とを含んでいる。
【0070】
外部記録媒体64としては、たとえば、CD−ROM、DVD−ROMのような光ディスクやメモリカードを使用することができる。ただし、記録媒体ドライブ52の機能を実現する装置は、光ディスクやフラッシュメモリなどの不揮発性の記録媒体に記憶されたデータを読み出せる装置であれば、対象となる記録媒体は、これらに限定されない。また、不揮発性記憶装置54の機能を実現する装置も、不揮発的にデータを記憶し、かつ、ランダムアクセスできる装置であれば、ハードディスクのような磁気記憶装置を使用してもよいし、フラッシュメモリなどの不揮発性半導体メモリを記憶装置として用いるソリッドステートドライブ(SSD:Solid State Drive)を用いることもできる。
【0071】
このような音源定位装置300の主要部は、コンピュータハードウェアと、CPU56により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアは、マスクROMやプログラマブルROMなどにより、音源定位装置300の製造時に記録されており、これが実行時にRAM60に読みだされる構成としてもよいし、ドライブ装置52により記録媒体64から読取られて不揮発性記憶装置54に一旦格納され、実行時にRAM60に読みだされる構成としてもよい。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから、一旦、不揮発性記憶装置54にコピーされ、不揮発性記憶装置54からRAM60に読出されてCPU56により実行される構成であってもよい。
【0072】
図4に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分の1つは、不揮発性記憶装置54等の記録媒体に記憶されたソフトウェアである。
【0073】
また、音声合成装置500の場合は、不揮発性記憶装置54にデータベース530も格納される構成とできる。
(システム評価実験)
以下では、臨場感伝達システム1000を評価するために行った被験者実験について説明する。
【0074】
図5は、このような実験系を説明するための図である。
【0075】
図5(c)には、オペレーター側の環境を、図5(b)にロボット側の環境の様子を示す。
【0076】
図5(c)に示す被験者(オペレータ)は、ロボットを介してロボット側にいる人物(図5(b)内の人物)と会話をし、ロボット側の視覚情報無しの状態で、その対話相手のいる方向を推定することが求められる。
比較対象として、図5(a)に示すロボットの耳に位置するステレオマイクロフォンを用いた。この実験ではミニマルデザインされているヒューマノイドロボットTelenoid-R3を使用した。このロボットは両耳位置にマイクの装着が可能で、且つ、首には3自由度があるため、図5(c)の被験者の頭部動作を線形的にマッピングすることができる。
以下に、比較対象の条件を述べる。この条件では、ロボットの耳にある二つのマイクロフォンから採った音を、そのままオペレーターのステレオヘッドフォンの左右チャンネルで再生する。トラッキングしたオペレーターの首の動きは、線形的にロボットにマッピングされる。
ロボット側の3次元音源位置推定は、図5(b)中に白矢印で示す3つのマイクロフォンアレイによって行われた。天井には直径15cmで8チャンネルのマイクが円形に配置されたマイクロフォンアレイが2つ設置してあり、卓上には直径30cmで16チャンネルのマイクが半球面上に配置されたマイクロフォンアレイが設置してある。
総計20名の被験者がこの実験に参加した。全て大学生で、ロボットや音響研究に関わりがない者である。被験者にはオペレーター役として、別室のロボット側にいる話者1名(研究補助者)とロボットを介して会話し、その相手のいる方向を判定するように指示した。実験補助者はランダムに方向を選び、その方向から会話を進める。被験者は方向の判定ができたら協力者に知らせ、協力者は次の方向に移動する。この手順を4回繰り返した。方向の判定は8方向に制限しており、被験者はそのうちのどの方向かを回答するという形式である。
実験の最後に、二つの条件について、臨場感と聞き取り易さに関する主観評価のアンケートを採った。1から7までの七段階評価で、1は「臨場感が低い/聞き取り難い」で、7は「臨場感が高い/聞き取り易い」を示す。
図6は、実験結果を示す図である。
【0077】
図6(a)は、臨場感伝達システム1000での条件と比較条件での方向定位の精度の平均値とその標準偏差を示す。
【0078】
t検定の結果、両者の精度差に有意差がみられた(t = 0.59、 p < 0.001)。
図6(b)(c)に示すように、主観評価アンケートでは、臨場感と聞き取り易さの評価で類似した結果が得られた。臨場感と聞き取り易さの両方において、臨場感伝達システム1000での条件での評価は、比較条件よりも有意に高い(t = 6.68、 p < 0.001とt = 4.86、 p < 0.001)。
臨場感の評価での両条件の有意差の可能な理由としては、ロボットの首と人間の首の可動範囲が違うことも考えられる。
(バーチャル音場における音源ボリュームの調整)
臨場感伝達システム1000では、選択されたすべての音源に対して、位置情報を反映したステレオ音声を合成し、足し合わせて、バーチャル音場を表現する出力が再生される。しかし、これでは選択された各音源のボリュームが予測できない。もし、オペレーター側で各音源のボリュームを各々独立して操作することができれば、自分にとって最も快適な音環境を作ることができる。このことに注目して、オペレーターがバーチャル空間上にある音源や自分の位置を変えることができるように、インタフェースも設けてもよい。
以下では、バーチャル音場をコントロールするための2つの異なる操作パターンのユーザインタフェースについて説明する。
【0079】
図7は、このようなインタフェースの画面表示例を示す図である。
図7(a)に示す1つ目のインタフェースでは、オペレーターがスクリーン上の白円(これはバーチャル空間(座標系(x´,y´,z´))上でのオペレーターの位置を表す)を任意の場所にマウスでドラッグ&ドロップすることによって、各音源のボリュームを調整する。黒丸が実験補助者の位置を示す。
【0080】
希望の場所へ自身のバーチャルな位置を移動させることによって各音源との距離・角度が再計算され、音源のボリュームがその距離に従って変更される(特定の音源に接近させると、その音源のボリュームが大きくなる)。このインタフェースを“drag-and-drop”と表記する。実環境での会話シーンでは、会話参加者間の物理的距離は環境や相手との社会的関係に影響される。“drag-and-drop”は、この観点に注目したバーチャル音場コントロール法である。
図7(b)に示す2つ目のインタフェースでは、オペレーターの顔の向きによって各音源のボリュームが調整される。オペレーターの顔方向を利用して音源の音量を操作するため、両手が解放される。オペレーターの顔の前方にある音源は強調され、後方にある音源は減衰される。ボリュームを調節するファクタは角度と比例する。このインタフェースを“face dir”と表記する。顔の向きや視線方向は現時点における人の注意を示すだけでなく、次のターゲットやそのゴールをも示す。“face dir”はこの観点に注目したバーチャル音場コントロール法である。
図7(b)中では、被験者(オペレータ)の顔の向きは、白丸に付随する矢印で示されている。
(提案ユーザインタフェースの評価)
図7のユーザインタフェースを評価するための被験者実験を行った。比較対象として、従来のモノラルマイクロフォンを使ったインタフェースを用いた。
図5で述べた実験被験者が、この実験にも参加した(大学生16名。前セクションの220名中最初の4は従来法との比較を行っていないため除外)。
【0081】
実験のデザインは被験者内比較を採用した。被験者は提案インタフェース及び従来のインタフェースを使って、ロボット側の環境にいる対話者2名(研究補助者)と会話をする。会話トピックに制限はない。用いたインタフェースごとに会話のセッションを分けた。セッションの長さは3分間で、各セッション終了後にインタフェースの「使い易さ」「臨場感」「聞取り易さ」に関して前実験と同じく1から7まで7段階の主観評価アンケートを採った。
図8は、ユーザインタフェースの実験結果を示す図である。
【0082】
図8には、各インタフェースに対する主観評価の平均値と標準偏差を示す。実験結果に対して分散分析(ANOVA, with-in participants、 Bonferroni’s posttest)を行った。
図8(a)に示す「使い易さ」と図8(b)の「臨場感」では、主観評価の平均値に有意差が見られた(F(2、13)=16.03、 p<0.001 and F(2、13)=6.74、 p=0.009)。
【0083】
多重比較(Bonferroni法)の結果、“drag-and-drop” と “face dir” は従来法よりも使い易く(“drag-and-drop” vs. “conventional”: p=0.001; “face
dir” vs. “conventional”: p=0.001)、臨場感が高い(“drag-and-drop” vs. “conventional”: p=0.006; “face dir” vs. “conventional”: p=0.04)と評価された。
【0084】
しかし、「聞取り易さ」では有意差が見られなかった(F(2、13)=3.67、 p=0.052)。
以上の結果は、提案したインタフェースの有効性を示している。
【0085】
なお、以上の説明では、臨場感伝達システム1000において、送信側で音源としての位置の特定を行うのは、人であるものとして説明したが、このような場合には限定されず、臨場感伝達システム1000は、移動しながら音を発生する音源がある音環境を受信側において再現することに使用することが可能である。
【0086】
以上説明したように、臨場感伝達システム1000によれば、所定の場所において観測された3次元的な音環境を、それとは異なる場所にいる人に対して再現することで、臨場感を伝達することが可能である。
【0087】
また、この臨場感伝達システム1000によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。
【0088】
また、臨場感伝達システム1000によれば、ユーザの操作によって、離れた場所での音の聞こえ方を制御することで、被験者の意志にしたがって、臨場感を変化させつつ体験することが可能である。
【0089】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0090】
2 被験者、10.1〜10.M マイクロフォンアレイ、20.1〜20.L LRF、100 マイクロフォンアレイ群、200 LRF群、300 音源定位装置、310 人位置検出追跡部、320 音源定位部、330 音源分離部、500 音声合成装置、510 音量制御部、520 顔姿勢推定部、530 データベース、540 空間音声再構成部、550 音声合成部、600 センサ、610 ヘッドフォン、650 表示部。
図1
図2
図3
図4
図5
図6
図7
図8