特許第6248930号(P6248930)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧
<>
  • 特許6248930-情報処理システムおよびプログラム 図000002
  • 特許6248930-情報処理システムおよびプログラム 図000003
  • 特許6248930-情報処理システムおよびプログラム 図000004
  • 特許6248930-情報処理システムおよびプログラム 図000005
  • 特許6248930-情報処理システムおよびプログラム 図000006
  • 特許6248930-情報処理システムおよびプログラム 図000007
  • 特許6248930-情報処理システムおよびプログラム 図000008
  • 特許6248930-情報処理システムおよびプログラム 図000009
  • 特許6248930-情報処理システムおよびプログラム 図000010
  • 特許6248930-情報処理システムおよびプログラム 図000011
  • 特許6248930-情報処理システムおよびプログラム 図000012
  • 特許6248930-情報処理システムおよびプログラム 図000013
  • 特許6248930-情報処理システムおよびプログラム 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6248930
(24)【登録日】2017年12月1日
(45)【発行日】2017年12月20日
(54)【発明の名称】情報処理システムおよびプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20171211BHJP
   H04R 3/00 20060101ALI20171211BHJP
   H04R 1/40 20060101ALI20171211BHJP
   G10L 15/28 20130101ALI20171211BHJP
   G10L 19/008 20130101ALI20171211BHJP
   G10L 15/00 20130101ALI20171211BHJP
   G10L 21/0208 20130101ALI20171211BHJP
【FI】
   H04S7/00 330
   H04R3/00 310
   H04R3/00 320
   H04S7/00 320
   H04R1/40 320A
   H04R1/40 310
   G10L15/28 400
   G10L19/008
   G10L15/00 200A
   G10L21/0208 100A
【請求項の数】9
【全頁数】23
(21)【出願番号】特願2014-524672(P2014-524672)
(86)(22)【出願日】2013年4月19日
(86)【国際出願番号】JP2013061647
(87)【国際公開番号】WO2014010290
(87)【国際公開日】20140116
【審査請求日】2016年3月9日
(31)【優先権主張番号】特願2012-157722(P2012-157722)
(32)【優先日】2012年7月13日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニー株式会社
(74)【代理人】
【識別番号】100095957
【弁理士】
【氏名又は名称】亀谷 美明
(74)【代理人】
【識別番号】100096389
【弁理士】
【氏名又は名称】金本 哲男
(74)【代理人】
【識別番号】100101557
【弁理士】
【氏名又は名称】萩原 康司
(74)【代理人】
【識別番号】100128587
【弁理士】
【氏名又は名称】松本 一騎
(72)【発明者】
【氏名】佐古 曜一郎
(72)【発明者】
【氏名】浅田 宏平
(72)【発明者】
【氏名】迫田 和之
(72)【発明者】
【氏名】荒谷 勝久
(72)【発明者】
【氏名】竹原 充
(72)【発明者】
【氏名】中村 隆俊
(72)【発明者】
【氏名】渡邊 一弘
(72)【発明者】
【氏名】丹下 明
(72)【発明者】
【氏名】花谷 博幸
(72)【発明者】
【氏名】甲賀 有希
(72)【発明者】
【氏名】大沼 智也
【審査官】 菊池 充
(56)【参考文献】
【文献】 特開平09−261351(JP,A)
【文献】 特開昭64−007100(JP,A)
【文献】 特開2010−130411(JP,A)
【文献】 特開2004−328662(JP,A)
【文献】 米国特許出願公開第2004/0213412(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00− 7/00
H04R 1/36− 1/40
H04R 3/00− 3/14
G10L 15/00−17/26
G10L 19/00−21/18
(57)【特許請求の範囲】
【請求項1】
特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、
前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、
を備え
前記複数のセンサは、複数のマイクロフォンを含み、
前記複数のアクチュエータは、複数のスピーカーであって、
前記信号処理部は、
前記推定した前記特定ユーザの位置に基づいて、前記複数のスピーカーから、当該特定ユーザを取り囲むスピーカー群を選出し;
前記所定の対象の周辺に配された前記複数のマイクロフォンにより収音されたオーディオ信号を、前記選出したスピーカーから出力された際に前記所定の対象周辺の音響空間を再現する音場を形成するよう処理する、情報処理システム。
【請求項2】
前記信号処理部は、前記所定の対象の周辺に配される複数のセンサから取得した信号を処理する、請求項1に記載の情報処理システム。
【請求項3】
前記特定ユーザの周辺に配される複数のセンサは、マイクロフォンであって、
前記認識部は、前記マイクロフォンにより検知されたオーディオ信号に基づいて、前記所定の対象を認識する、請求項1または2に記載の情報処理システム。
【請求項4】
前記認識部は、前記特定ユーザの周辺に配されるセンサにより検知された信号に基づいて、前記所定の対象に対する要求をさらに認識する、請求項1〜3のいずれか1項に記載の情報処理システム。
【請求項5】
前記特定ユーザの周辺に配されるセンサは、マイクロフォンであって、
前記認識部は、前記マイクロフォンにより検知されたオーディオ信号に基づいて、前記所定の対象に対する発呼要求を認識する、請求項4に記載の情報処理システム。
【請求項6】
前記特定ユーザの周辺に配されるセンサは、圧力センサであって、
前記認識部は、前記圧力センサにより特定のスイッチの押圧が検知された場合、前記所定の対象に対する発呼要求を認識する、請求項4に記載の情報処理システム。
【請求項7】
前記特定ユーザの周辺に配されるセンサは、撮像センサであって、
前記認識部は、前記撮像センサにより取得された撮像画像に基づいて、前記所定の対象に対する発呼要求を認識する、請求項4に記載の情報処理システム。
【請求項8】
前記特定ユーザの周辺に配されるセンサは、マイクロフォンおよび撮像センサを含み、
前記信号処理部は、前記特定ユーザの口元に収音位置がフォーカスするよう、前記特定ユーザの周辺に配されるセンサであるマイクロフォンにより検知したオーディオ信号を処理する、請求項4に記載の情報処理システム。
【請求項9】
コンピュータを、
特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、
前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、
として機能させ
前記複数のセンサは、複数のマイクロフォンを含み、
前記複数のアクチュエータは、複数のスピーカーであって、
前記信号処理部は、
前記推定した前記特定ユーザの位置に基づいて、前記複数のスピーカーから、当該特定ユーザを取り囲むスピーカー群を選出し;
前記所定の対象の周辺に配された前記複数のマイクロフォンにより収音されたオーディオ信号を、前記選出したスピーカーから出力された際に前記所定の対象周辺の音響空間を再現する音場を形成するよう処理する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システムおよび記憶媒体に関する。
【背景技術】
【0002】
近年、データ通信の分野において様々な技術が提案されている。例えば、下記特許文献1では、M2M(Machine−to−Machine)ソリューションに関する技術が提案されている。具体的には、特許文献1に記載の遠隔管理システムは、インターネットプロトコル(IP)のマルチメディアサブシステム(IMS)プラットフォーム(IS)を利用し、装置によるプレゼンス情報の公開や、ユーザと装置の間のインスタントメッセージングを介して、権限のあるユーザのクライアント(UC)と機械のクライアント(DC)の相互作用が実現される。
【0003】
一方、音響技術の分野において、音響ビームを形成することができるアレイスピーカーが種々開発されている。例えば、下記特許文献2には、複数のスピーカーをその波面を共通にして一つのキャビネットに取り付け、各スピーカーから発する音の遅延量とレベルを制御するアレイスピーカーについて記載されている。また、下記特許文献2には、同様の原理によるアレイマイクも開発されている旨が記載され、当該アレイマイクは、各マイクの出力信号のレベルと遅延量とを調整することにより、その集音点を任意に設定でき、これにより効率のよい集音が可能となる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2008−543137号公報
【特許文献2】特開2006−279565号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1、2では、大量のイメージセンサ、マイク、スピーカー等を広範囲に配し、ユーザの身体拡張を実現する手段として捉える技術やコミュニケーション方法については、何ら言及されていない。
【0006】
そこで、本開示では、ユーザ周辺の空間を他の空間と相互連携させることが可能な、新規かつ改良された情報処理システムおよび記憶媒体を提案する。
【課題を解決するための手段】
【0007】
本開示によれば、特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、前記認識部により認識された前記所定の対象を同定する同定部と、前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、を備える情報処理システムを提案する。
【0008】
本開示によれば、特定ユーザの周辺のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、前記認識部により認識された前記所定の対象を同定する同定部と、前記同定部により同定された前記所定の対象の周辺に配される複数のセンサから取得された信号に基づき、前記特定ユーザの周辺のアクチュエータから出力する信号を生成する信号処理部と、を備える情報処理システムを提案する。
【0009】
本開示によれば、コンピュータを、特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、前記認識部により認識された前記所定の対象を同定する同定部と、前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、として機能させるためのプログラムが記憶された記憶媒体を提案する。
【0010】
本開示によれば、コンピュータを、特定ユーザの周辺のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、前記認識部により認識された前記所定の対象を同定する同定部と、前記同定部により同定された前記所定の対象の周辺に配される複数のセンサから取得された信号に基づき、前記特定ユーザの周辺のアクチュエータから出力する信号を生成する信号処理部と、として機能させるためのプログラムが記憶された記憶媒体を提案する。
【発明の効果】
【0011】
以上説明したように本開示によれば、ユーザ周辺の空間を他の空間と相互連携させることが可能となる。
【図面の簡単な説明】
【0012】
図1】本開示の一実施形態による音響システムの概要を説明するための図である。
図2】本開示の一実施形態による音響システムのシステム構成を示す図である。
図3】本実施形態による信号処理装置の構成を示すブロック図である。
図4】本実施形態による音響閉曲面の形状について説明するための図である。
図5】本実施形態による管理サーバの構成を示すブロック図である。
図6】本実施形態による音響システムの基本処理を示すフローチャートである。
図7】本実施形態によるコマンド認識処理を示すフローチャートである。
図8】本実施形態による収音処理を示すフローチャートである。
図9】本実施形態による音場再生処理を示すフローチャートである。
図10】本実施形態による信号処理装置の他の構成例を示すブロック図である。
図11】本実施形態による他のコマンド例を説明するための図である。
図12】本実施形態による大空間の音場構築について説明するための図である。
図13】本実施形態による音響システムの他のシステム構成を示す図である。
【発明を実施するための形態】
【0013】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0014】
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による音響システムの概要
2.基本構成
2−1.システム構成
2−2.信号処理装置
2−3.管理サーバ
3.動作処理
3−1.基本処理
3−2.コマンド認識処理
3−3.収音処理
3−4.音場再生処理
4.補足
5.まとめ
【0015】
<1.本開示の一実施形態による音響システムの概要>
まず、本開示の一実施形態による音響システム(情報処理システム)の概要について、図1を参照して説明する。図1は、本開示の一実施形態による音響システムの概要を説明するための図である。図1に示すように、本実施形態による音響システムでは、部屋、家、ビル、屋外、地域、国等の世界の至る所に大量のマイクロフォン10、イメージセンサ(不図示)、およびスピーカー20等の各種センサおよびアクチュエータが配置されている状況を想定する。
【0016】
図1に示す例では、ユーザAが現在居る屋外の一のエリア「サイトA」の道路等に、複数のセンサの一例として、複数のマイクロフォン(以下、マイクと称す)10A、および複数のアクチュエータの一例として、複数のスピーカー20Aが配されている。また、ユーザBが現在居る屋内の一のエリア「サイトB」では、壁、床、天井等に、複数のマイク10Bおよび複数のスピーカー20Bが配されている。なお、サイトA、Bには、センサの一例として、図示しない人感知センサやイメージセンサがさらに配されていてもよい。
【0017】
ここで、サイトAとサイトBはネットワークを介して接続可能であって、サイトAの各マイクおよびスピーカーで入出力される信号と、サイトBの各マイクおよびスピーカーで入出力される信号は、互いに送受信される。
【0018】
これにより、本実施形態による音響システムは、所定対象(人物、場所、建物等)に対応する音声や画像をユーザの周囲に配された複数のスピーカーやディスプレイでリアルタイムに再生する。また、本実施形態による音響システムは、ユーザの音声をユーザの周囲に配された複数のマイクにより収音して所定対象の周囲でリアルタイムに再生することができる。このように、本実施形態による音響システムでは、ユーザ周辺の空間を他の空間と相互連携させることが可能となる。
【0019】
また、屋内や屋外の至る所に配されるマイクロフォン10、スピーカー20、イメージセンサ等を用いて、実質的にユーザの口、目、耳等の身体を広範囲に拡張させることが可能となり、新たなコミュニケーション方法を実現することができる。
【0020】
さらに、本実施形態による音響システムでは、至る所にマイクロフォンやイメージセンサ等が配されているので、ユーザはスマートフォンや携帯電話端末を所有する必要がなく、声やジェスチャーで所定対象を指示し、所定対象周辺の空間と接続させることができる。以下、サイトAに居るユーザAがサイトBに居るユーザBと会話がしたい場合における本実施形態による音響システムの適用について簡潔に説明する。
【0021】
(データ収集処理)
サイトAでは、複数のマイク10A、イメージセンサ(不図示)、および人感センサ(不図示)等により継続的にデータ収集処理が行われている。具体的には、本実施形態による音響システムは、複数のマイク10Aで収音した音声、イメージセンサで撮像した撮像画像、または人感センサの検知結果を収集し、これによりユーザの位置を推定する。
【0022】
また、本実施形態による音響システムは、予め登録された複数のマイク10Aの位置情報、および推定されたユーザの位置に基づいて、ユーザの声が十分収音可能な位置に配されているマイク群を選出してもよい。そして、本実施形態による音響システムは、選出した各マイクにより収音されたオーディオ信号のストリーム群に対してマイクアレイ処理を行う。特に、本実施形態による音響システムは、ユーザAの口元に収音点が合うような遅延和アレイを行ってもよく、これによりアレイマイクの超指向性を形成できる。よって、ユーザAのつぶやき程度の小さな声も収音され得る。
【0023】
また、本実施形態による音響システムは、収音したユーザAの音声に基づいてコマンドを認識し、コマンドに従った動作処理を実行する。例えば、サイトAに居るユーザAが「Bさんと話したい」とつぶやくと、「ユーザBへの発呼要求」がコマンドとして認識される。この場合、本実施形態による音響システムは、ユーザBの現在位置を同定し、ユーザBが現在居るサイトBとユーザAが現在居るサイトAを接続させる。これにより、ユーザAは、ユーザBと通話を行うことができる。
【0024】
(オブジェクト分解処理)
通話中においては、サイトAの複数のマイクで収音されたオーディオ信号(ストリームデータ)に対して、音源分離(ユーザAの周囲のノイズ成分や、ユーザAの周囲の人物の会話などを分離)、残響抑制、ノイズ/エコー処理等のオブジェクト分解処理が行われる。これにより、S/N比のよい、残響感も抑制されたストリームデータがサイトBに送られる。
【0025】
なお、ユーザAが移動しながら話している場合も想定されるが、本実施形態による音響システムは、上記データ収集を継続的に行うことで対応することができる。具体的には、本実施形態による音響システムは、複数のマイク、イメージセンサ、および人感センサ等に基づいて継続的にデータ収集を行い、ユーザAの移動経路や向いている方向を把握する。そして、本実施形態による音響システムは、移動しているユーザAの周囲に配される適切なマイク群の選出を継続的に更新し、また、移動しているユーザAの口元に常に収音点が合うようアレイマイク処理を継続的に行う。これにより、本実施形態による音響システムは、ユーザAが移動しながら話す場合にも対応することができる。
【0026】
また、音声のストリームデータとは別に、ユーザAの移動方向や向き等がメタデータ化され、ストリームデータと共にサイトBに送られる。
【0027】
(オブジェクト合成)
そして、サイトBに送られたストリームデータは、サイトBに居るユーザBの周囲に配されたスピーカーから再生される。この際、本実施形態による音響システムは、サイトBにおいて、複数のマイク、イメージセンサ、および人感センサによりデータ収集を行い、収集したデータに基づいてユーザBの位置を推定し、さらにユーザBの周囲を音響閉曲面で囲う適切なスピーカー群を選出する。サイトBに送られたストリームデータは、このように選出したスピーカー群から再生され、音響閉曲面内側のエリアが適切な音場として制御される。なお、本明細書において、ある対象物(例えばユーザ)を取り囲むような形で、近接する複数のスピーカーまたは複数のマイクの位置を繋いだ場合に形成される面を、概念的に「音響閉曲面」と称す。また、「音響閉曲面」は、必ずしも完全な閉曲面を構成するものではなく、おおよそ対象物(例えばユーザ)を取り囲むような形であればよい。
【0028】
また、ここでの音場は、ユーザBが自ら任意で選択できるようにしてもよい。例えば、本実施形態による音響システムは、ユーザBが、サイトAを音場に指定した場合、サイトAの環境がサイトBで再現される。具体的には、例えばリアルタイムに収音されるアンビエントとしての音情報や、予め取得されたサイトAに関するメタ情報に基づいて、サイトAの環境がサイトBで再現される。
【0029】
また、本実施形態による音響システムは、サイトBにおいてユーザBの周辺に配された複数のスピーカー20Bを用いて、ユーザAの音像を制御することも可能である。すなわち、本実施形態による音響システムは、アレイスピーカー(ビームフォーミング)を形成することで、ユーザBの耳元や、音響閉曲面の外側にユーザAの声(音像)を再現することも可能である。また、本実施形態による音響システムは、ユーザAの移動経路や向きのメタデータを利用して、サイトBにおいて、ユーザAの実際の移動に合わせてユーザAの音像をユーザBの周囲で移動させてもよい。
【0030】
以上、データ収集処理、オブジェクト分解処理、およびオブジェクト合成処理の各ステップに分けてサイトAからサイトBへの音声通信について概要を説明したが、サイトBからサイトAの音声通信においても当然に同様の処理が行われる。これにより、サイトAおよびサイトBで双方向の音声通信が可能となる。
【0031】
以上、本開示の一実施形態における音響システム(情報処理システム)の概要について説明した。続いて、本実施形態による音響システムの構成について図2図5を参照して詳細に説明する。
【0032】
<2.基本構成>
[2−1.システム構成]
図2は、本実施形態による音響システムの全体構成を示す図である。図2に示すように、音響システムは、信号処理装置1A、信号処理装置1B、および管理サーバ3を有する。
【0033】
信号処理装置1Aおよび信号処理装置1Bは、有線/無線によりネットワーク5に接続し、ネットワーク5を介して互いにデータの送受信が可能である。また、ネットワーク5には管理サーバ3が接続され、信号処理装置1Aおよび信号処理装置1Bは、管理サーバ3とデータの送受信を行うことも可能である。
【0034】
信号処理装置1Aは、サイトAに配される複数のマイク10Aおよび複数のスピーカー20Aにより入出力される信号を処理する。また、信号処理装置1Bは、サイトBに配される複数のマイク10Bおよび複数のスピーカー20Bにより入出力される信号を処理する。なお、信号処理装置1A、1Bを区別して説明する必要がない場合は、信号処理装置1と称する。
【0035】
管理サーバ3は、ユーザの認証処理や、ユーザの絶対位置(現在位置)を管理する機能を有する。さらに、管理サーバ3は、場所や建物の位置を示す情報(IPアドレス等)を管理してもよい。
【0036】
これにより、信号処理装置1は、ユーザにより指定された所定の対象(人物、場所、建物等)の接続先情報(IPアドレス等)を管理サーバ3に問い合わせて取得することができる。
【0037】
[2−2.信号処理装置]
次に、本実施形態による信号処理装置1の構成について詳細に説明する。図3は、本実施形態による信号処理装置1の構成を示すブロック図である。図3に示すように、本実施形態による信号処理装置1は、複数のマイク10(アレイマイク)、アンプ・ADC(アナログデジタルコンバータ)部11、信号処理部13、マイク位置情報DB(データベース)15、ユーザ位置推定部16、認識部17、同定部18、通信I/F(インターフェース)19、スピーカー位置情報DB21、DAC(デジタルアナログコンバータ)・アンプ部23、および複数のスピーカー20(アレイスピーカー)を有する。以下、各構成について説明する。
【0038】
(アレイマイク)
複数のマイク10は、上述したように、あるエリア(サイト)の至る所に配置されている。例えば、屋外であれば、道路、電柱、街灯、家やビルの外壁等、屋内であれば、床、壁、天井等に配置される。また、複数のマイク10は、周囲の音を収音し、アンプ・ADC部11に各々出力する。
【0039】
(アンプ・ADC部)
アンプ・ADC部11は、複数のマイク10から各々出力された音波の増幅機能(amplifier)、および音波(アナログデータ)をオーディオ信号(デジタルデータ)に変換する機能(Analog・to・Digital Converter)を有する。アンプ・ADC部11は、変換した各オーディオ信号を信号処理部13に出力する。
【0040】
(信号処理部)
信号処理部13は、マイク10により収音され、アンプ・ADC部11を介して送られた各オーディオ信号や、DAC・アンプ部23を介してスピーカー20から再生する各オーディオ信号を処理する機能を有する。また、本実施形態による信号処理部13は、マイクアレイ処理部131、高S/N化処理部133、および音場再生信号処理部135として機能する。
【0041】
・マイクアレイ処理部
マイクアレイ処理部131は、アンプ・ADC部11から出力された複数のオーディオ信号に対するマイクアレイ処理として、ユーザの音声にフォーカスするよう(収音位置がユーザの口元になるよう)指向性制御を行う。
【0042】
この際、マイクアレイ処理部131は、ユーザ位置推定部16により推定されたユーザの位置や、マイク位置情報DB15に登録されている各マイク10の位置に基づいて、ユーザの音声収音に最適な、ユーザを内包する音響閉曲面を形成するマイク群を選択してもよい。そして、マイクアレイ処理部131は、選択したマイク群により取得されたオーディオ信号に対して指向性制御を行う。また、マイクアレイ処理部131は、遅延和アレイ処理、Null生成処理によりアレイマイクの超指向性を形成してもよい。
【0043】
・高S/N化処理部
高S/N化処理部133は、アンプ・ADC部11から出力された複数のオーディオ信号に対して、明瞭度が高くS/N比がよいモノラル信号となるよう処理する機能を有する。具体的には、高S/N化処理部133は、音源を分離し、残響・ノイズ抑制を行う。
【0044】
なお、高S/N化処理部133は、マイクアレイ処理部131の後段に設けられてもよい。また、高S/N化処理部133により処理されたオーディオ信号(ストリームデータ)は、認識部17による音声認識に用いられたり、通信部I/F19を介して外部に送信されたりする。
【0045】
・音場再生信号処理部
音場再生信号処理部135は、複数のスピーカー20から再生するオーディオ信号に関する信号処理を行い、ユーザの位置付近に音場が定位するよう制御する。具体的には、例えば音場再生信号処理部135は、ユーザ位置推定部16により推定されたユーザの位置やスピーカー位置情報DB21に登録されている各スピーカー20の位置に基づいて、ユーザを内包する音響閉曲面を形成する最適なスピーカー群を選択する。そして、音場再生信号処理部135は、選択したスピーカー群に応じた複数のチャンネルの出力バッファに、信号処理したオーディオ信号を書き込む。
【0046】
また、音場再生信号処理部135は、音響閉曲面の内側のエリアを適切な音場として制御する。音場の制御方法は、例えばキルヒホッフ・ヘルムホルツの積分則、またはレイリー積分則として知られるものであり、これを応用した波面合成法(WFS:Wave Field Synthesis)等が一般的に知られている。また、音場再生信号処理部135は、特許第4674505号、および特許第4735108号等に記載の信号処理技術を応用してもよい。
【0047】
なお、上述したマイクまたはスピーカーにより形成される音響閉曲面の形状は、ユーザを取り囲む立体的な形状であれば特に限定されず、例えば、図4に示すような楕円型の音響閉曲面40−1、円柱型の音響閉曲面40−2、または多角形型の音響閉曲面40−3であってもよい。図4に示す例では、一例としてサイトBにおいてユーザBの周辺に配される複数のスピーカー20B−1〜20B−12による音響閉曲面の形状を示すが、複数のマイク10による音響閉曲面の形状についても同様である。
【0048】
(マイク位置情報DB)
マイク位置情報DB15は、サイトに配される複数のマイク10の位置情報を記憶する記憶部である。複数のマイク10の位置情報は、予め登録されていてもよい。
【0049】
(ユーザ位置推定部)
ユーザ位置推定部16は、ユーザの位置を推定する機能を有する。具体的には、ユーザ位置推定部16は、複数のマイク10から収音した音声の解析結果、イメージセンサにより撮像した撮像画像の解析結果、または人感センサによる検知結果に基づいて、複数のマイク10または複数のスピーカー20に対するユーザの相対位置を推定する。また、ユーザ位置推定部16は、GPS(Global Positioning System)情報を取得し、ユーザの絶対位置(現在位置情報)を推定してもよい。
【0050】
(認識部)
認識部17は、複数のマイク10により収音され、信号処理部13により処理されたオーディオ信号に基づいてユーザの音声を解析し、コマンドを認識する。例えば、認識部17は、「Bさんと話したい」というユーザの音声を形態素解析し、ユーザに指定された所定の対象「B」および要求「話す」に基づき、発呼要求コマンドを認識する。
【0051】
(同定部)
同定部18は、認識部17により認識された所定の対象を同定する機能を有する。具体的には、例えば同定部18は、所定の対象に対応する音声や画像を取得するための接続先情報を決定してもよい。同定部18は、例えば所定の対象を示す情報を通信部I/F19から管理サーバ3に送信し、管理サーバ3から所定の対象に対応する接続先情報(IPアドレス等)を取得してもよい。
【0052】
(通信I/F)
通信I/F19は、ネットワーク5を通じて他の信号処理装置や管理サーバ3との間でデータの送受信を行うための通信モジュールである。例えば、本実施形態による通信I/F19は、管理サーバ3に対して所定の対象に対応する接続先情報の問い合わせを行ったり、接続先である他の信号処理装置に、マイク10で収音して信号処理部13で処理したオーディオ信号を送信したりする。
【0053】
(スピーカー位置情報DB)
スピーカー位置情報DB21は、サイトに配される複数のスピーカー20の位置情報を記憶する記憶部である。複数のスピーカー20の位置情報は、予め登録されていてもよい。
【0054】
(DAC・アンプ部)
DAC・アンプ部23は、複数のスピーカー20から各々再生するための各チャンネルの出力バッファに書き込まれたオーディオ信号(デジタルデータ)を音波(アナログデータ)に変換する機能(Digital・to・Analog Converter)を有する。さらに、DAC・アンプ部23は、複数のスピーカー20から各々再生する音波を増幅する機能(amplifier)を有する。
【0055】
また、本実施形態によるDAC・アンプ部23は、音場再生信号処理部135により処理されたオーディオ信号に対してDA変換および増幅処理を行い、スピーカー20に出力する。
【0056】
(アレイスピーカー)
複数のスピーカー20は、上述したように、あるエリア(サイト)の至る所に配置されている。例えば、屋外であれば、道路、電柱、街灯、家やビルの外壁等、屋内であれば、床、壁、天井等に配置される。また、複数のスピーカー20は、DAC・アンプ部23から出力された音波(音声)を再生する。
【0057】
以上、本実施形態による信号処理装置1の構成について詳細に説明した。続いて、本実施形態による管理サーバ3の構成について図5を参照して説明する。
【0058】
[2−3.管理サーバ]
図5は、本実施形態による管理サーバ3の構成を示すブロック図である。図5に示すように、管理サーバ3は、管理部32、検索部33、ユーザ位置情報DB35、および通信I/F39を有する。以下、各構成について説明する。
【0059】
(管理部)
管理部32は、信号処理装置1から送信されたユーザID等に基づいて、ユーザが現在居る場所(サイト)に関する情報を管理する。例えば管理部32は、ユーザIDに基づいてユーザを識別し、識別したユーザの氏名等に、送信元の信号処理装置1のIPアドレス等を接続先情報として対応付けてユーザ位置情報DB35に記憶させる。なお、ユーザIDは、氏名、暗証番号、または生体情報等を含んでもよい。また、管理部32は、送信されたユーザIDに基づいてユーザの認証処理を行ってもよい。
【0060】
(ユーザ位置情報DB)
ユーザ位置情報DB35は、管理部32による管理に応じて、ユーザが現在居る場所に関する情報を記憶する記憶部である。具体的には、ユーザ位置情報DB35は、ユーザのID、および接続先情報(ユーザが居るサイトに対応する信号処理装置のIPアドレス等)を対応付けて記憶する。また、各ユーザの現在位置情報は時々刻々と更新されてもよい。
【0061】
(検索部)
検索部33は、信号処理装置1からの接続先(発呼先)問い合わせに応じて、ユーザ位置情報DB35を参照し、接続先情報を検索する。具体的には、検索部33は、接続先問い合わせに含まれる対象ユーザの氏名等に基づいて、対応付けられた接続先情報をユーザ位置情報DB35から検索して抽出する。
【0062】
(通信I/F)
通信I/F39は、ネットワーク5を通じて信号処理装置1との間でデータの送受信を行うための通信モジュールである。例えば、本実施形態による通信I/F39は、信号処理装置1からユーザのIDを受信したり、接続先問い合わせを受信したりする。また、通信I/F39は、接続先問い合わせに応じて、対象ユーザの接続先情報を送信する。
【0063】
以上、本開示の一実施形態による音響システムの各構成について詳細に説明した。次に、本実施形態による音響システムの動作処理について図6図9を参照して詳細に説明する。
【0064】
<3.動作処理>
[3−1.基本処理]
図6は、本実施形態による音響システムの基本処理を示すフローチャートである。図6に示すように、まず、ステップS103において、信号処理装置1AはサイトAに居るユーザAのIDを管理サーバ3に送信する。信号処理装置1Aは、ユーザAのIDを、ユーザAが所有しているRFID(Radio Frequency IDentification)等のタグから取得してもよいし、ユーザAの音声から認識してもよい。また、信号処理装置1Aは、ユーザAの身体(顔、目、手等)から生体情報を読み取り、IDとして取得してもよい。
【0065】
一方、ステップS106において、信号処理装置1Bも同様にサイトBに居るユーザBのIDを管理サーバ3に送信する。
【0066】
次に、ステップS109において、管理サーバ3は、各信号処理装置1から送信されたユーザIDに基づいてユーザを識別し、識別したユーザの氏名等に、送信元の信号処理装置1のIPアドレス等を接続先情報として対応付けて登録する。
【0067】
次いで、ステップS112において、信号処理装置1Bは、サイトBに居るユーザBの位置を推定する。具体的には、信号処理装置1Bは、サイトBに配された複数のマイクに対するユーザBの相対位置を推定する。
【0068】
次に、ステップS115において、信号処理装置1Bは、推定したユーザBの相対位置に基づき、サイトBに配された複数のマイクにより収音されたオーディオ信号に対して、ユーザBの口元に収音位置がフォーカスするようマイクアレイ処理を行う。このように、信号処理装置1Bは、ユーザBが何らかの発言を行う場合に備える。
【0069】
一方、ステップS118において、信号処理装置1Aも同様に、ユーザAの口元に収音位置がフォーカスするようサイトAに配された複数のマイクにより収音されたオーディオ信号に対してマイクアレイ処理を行い、ユーザAが何らかの発言を行う場合に備える。そして、信号処理装置1Aは、ユーザAの音声(発言)に基づいてコマンドを認識する。ここでは、一例としてユーザAが「Bさんと話したい」とつぶやいて、信号処理装置1Aが「ユーザBに対する発呼要求」コマンドとして認識した場合について説明を続ける。なお、本実施形態によるコマンド認識処理については、後述の[3−2.コマンド認識処理]において詳細に説明する。
【0070】
次に、ステップS121において、信号処理装置1Aは、接続先問い合わせを管理サーバ3に対して行う。上述したように、コマンドが「ユーザBに対する発呼要求」であった場合、信号処理装置1Aは、ユーザBの接続先情報を問い合わせる。
【0071】
次いで、ステップS125において、管理サーバ3は、信号処理装置1Aからの接続先問い合わせに応じて、ユーザBの接続先情報を検索し、続くステップS126において、検索結果を信号処理装置1Aに送信する。
【0072】
次に、ステップS127において、信号処理装置1Aは、管理サーバ3から受信したユーザBの接続先情報により接続先を同定(決定)する。
【0073】
次いで、ステップS128において、信号処理装置1Aは、同定したユーザBの接続先情報、例えばユーザBが現在居るサイトBに対応する信号処理装置1BのIPアドレスに基づいて、信号処理装置1Bに対して発呼処理を行う。
【0074】
次に、ステップS131において、信号処理装置1Bは、ユーザAからの呼び出しに応答するか否かをユーザBに問うメッセージを出力する(呼び出し通知)。具体的には、例えば信号処理装置1Bは、ユーザBの周辺に配されるスピーカーから当該メッセージを再生してもよい。また、信号処理装置1Bは、ユーザBの周辺に配された複数のマイクから収音したユーザBの音声に基づいて、呼び出し通知に対するユーザBの回答を認識する。
【0075】
次いで、ステップS134において、信号処理装置1Bは、ユーザBの回答を信号処理装置1Aに送信する。ここでは、ユーザBがOK回答を行い、ユーザA(信号処理装置1A側)とユーザB(信号処理装置1B側)の双方向通信が開始される。
【0076】
具体的には、ステップS137において、信号処理装置1Aは、信号処理装置1Bとの通信を開始すべく、サイトAにおいてユーザAの音声を収音し、音声ストリーム(オーディオ信号)をサイトB(信号処理装置1B側)に送信する収音処理を行う。なお、本実施形態による収音処理については、後述の[3−3.収音処理]において詳細に説明する。
【0077】
そして、ステップS140において、信号処理装置1Bは、ユーザBの周辺に配された複数のスピーカーによりユーザBを内包する音響閉曲面を形成し、信号処理装置1Aから送信された音声ストリームに基づいて音場再生処理を行う。なお、本実施形態による音場再生処理については、後述の[3−4.音場再生処理]において詳細に説明する。
【0078】
なお、上記ステップS137〜S140では、一例として一方向の通信を示したが、本実施形態は双方向通信が可能であるので、上記ステップS137〜S140とは逆に、信号処理装置1Bで収音処理、信号処理装置1Aで音場再生処理を行ってもよい。
【0079】
以上、本実施形態による音響システムの基本処理について説明した。これにより、ユーザAは、携帯電話端末やスマートフォン等を所持する必要なく、「Bさんと話したい」とつぶやくだけで、周辺に配された複数のマイクおよび複数のスピーカーを利用して他の場所に居るユーザBと通話を行うことができる。続いて、上記ステップS118に示したコマンド認識処理について図7を参照して詳細に説明する。
【0080】
[3−2.コマンド認識処理]
図7は、本実施形態によるコマンド認識処理を示すフローチャートである。図7に示すように、まず、ステップS203において、信号処理装置1のユーザ位置推定部16は、ユーザの位置を推定する。例えばユーザ位置推定部16は、複数のマイク10から収音した音、イメージセンサにより撮像した撮像画像、およびマイク位置情報DB15に記憶されている各マイクの配置等に基づき、各マイクに対するユーザの相対的な位置、向き、および口の位置を推定してもよい。
【0081】
次いで、ステップS206において、信号処理部13は、推定したユーザの相対的な位置、向き、および口の位置に応じて、ユーザを内包する音響閉曲面を形成するマイク群を選出する。
【0082】
次に、ステップS209において、信号処理部13のマイクアレイ処理部131は、選出したマイク群から収音したオーディオ信号に対してマイクアレイ処理を行い、ユーザの口元にフォーカスするようマイクの指向性を制御する。これにより、信号処理装置1は、ユーザが何らかの発言を行う場合に備えることができる。
【0083】
次いで、ステップS212において、高S/N化処理部133は、マイクアレイ処理部131により処理したオーディオ信号に対して、残響・ノイズ抑制等の処理を行い、S/N比を向上させる。
【0084】
次に、ステップS215において、認識部17は、高S/N化処理部133から出力されたオーディオ信号に基づいて、音声認識(音声解析)を行う。
【0085】
そして、ステップS218において、認識部17は、認識した音声(オーディオ信号)に基づいて、コマンド認識処理を行う。コマンド認識処理の具体的な内容については特に限定しないが、例えば認識部17は、予め登録された(学習した)要求パターンと認識した音声を比較し、コマンドを認識してもよい。
【0086】
上記ステップS218において、コマンドを認識できなかった場合(S218/No)、信号処理装置1は、ステップS203〜S215に示す処理を繰り返す。この際、S203およびS206も繰り返されるので、信号処理部13は、ユーザの移動に応じてユーザを内包する音響閉曲面を形成するマイク群を更新することが可能である。
【0087】
[3−3.収音処理]
次に、図6のステップS137に示す収音処理について、図8を参照して詳細に説明する。図8は、本実施形態による収音処理を示すフローチャートである。図8に示すように、まず、ステップS308において、信号処理部13のマイクアレイ処理部131は、選出/更新した各マイクから収音したオーディオ信号に対してマイクアレイ処理を行い、ユーザの口元にフォーカスするようマイクの指向性を制御する。
【0088】
次いで、ステップS312において、高S/N化処理部133は、マイクアレイ処理部131により処理したオーディオ信号に対して、残響・ノイズ抑制等の処理を行い、S/N比を向上させる。
【0089】
そして、ステップS315において、通信I/F19は、高S/N化処理部133から出力されたオーディオ信号を、上記ステップS126(図6参照)で同定した対象ユーザの接続先情報で示される接続先(例えば、信号処理装置1B)に送信する。これにより、ユーザAがサイトAで発した音声が、ユーザAの周辺に配された複数のマイクにより収音され、サイトB側に送信される。
【0090】
[3−4.音場再生処理]
次に、図6のステップS140に示す音場再生処理について、図9を参照して詳細に説明する。図9は、本実施形態による音場再生処理を示すフローチャートである。図9に示すように、まず、ステップS403において、信号処理装置1のユーザ位置推定部16は、ユーザの位置を推定する。例えばユーザ位置推定部16は、複数のマイク10から収音した音、イメージセンサにより撮像した撮像画像、およびスピーカー位置情報DB21に記憶されている各スピーカーの配置等に基づき、各スピーカー20に対するユーザの相対的な位置、向き、および耳の位置を推定してもよい。
【0091】
次いで、ステップS406において、信号処理部13は、推定したユーザの相対的な位置、向き、および耳の位置に応じて、ユーザを内包する音響閉曲面を形成するスピーカー群を選出する。なお、上記S403およびS406を継続的に行うことで、信号処理部13は、ユーザの移動に応じてユーザを内包する音響閉曲面を形成するスピーカー群を更新することが可能である。
【0092】
次に、ステップS409において、通信I/F19は、発呼元からオーディオ信号を受信する。
【0093】
次いで、ステップS412において、信号処理部13の音場再生信号処理部135は、選出/更新した各スピーカーから出力された際に最適な音場を形成するよう、受信したオーディオ信号に対して所定の信号処理を行う。
例えば、音場再生信号処理部135は、受信したオーディオ信号を、サイトBの環境(ここでは、部屋の床、壁、および天井に配された複数のスピーカー20の配置)に応じてレンダリングする。
【0094】
そして、ステップS415において、信号処理装置1は、音場再生信号処理部135で処理されたオーディオ信号を、DAC・アンプ部23を介して、上記ステップS406で選出/更新されたスピーカー群から出力する。
【0095】
これにより、サイトAで収音されたユーザAの音声が、サイトBに居るユーザBの周辺に配された複数のスピーカーから再生される。また、上記ステップS412において、サイトBの環境に応じて受信したオーディオ信号をレンダリングする際に、音場再生信号処理部135は、サイトAの音場を構築するよう信号処理を行ってもよい。
【0096】
具体的には、音場再生信号処理部135は、リアルタイムに収音されるサイトAのアンビエントとしての音や、サイトAにおけるインパルス応答の測定データ(伝達関数)等に基づいて、サイトBでサイトAの音場を再現してもよい。これにより、例えば屋内のサイトBに居るユーザBは、屋外のサイトAに居るユーザAと同じ屋外に居るような音場感を得ることができ、より豊かな臨場感に浸ることができる。
【0097】
また、音場再生信号処理部135は、ユーザBの周辺に配されたスピーカー群を用いて、受信したオーディオ信号(ユーザAの音声)の音像を制御することも可能である。例えば、複数のスピーカーによりアレイスピーカー(ビームフォーミング)を形成することで、音場再生信号処理部135は、ユーザBの耳元でユーザAの音声を再現したり、ユーザBを内包する音響閉曲面の外側にユーザAの音像を再現したりすることが可能である。
【0098】
以上、本実施形態による音響システムの各動作処理について詳細に説明した。続いて、本実施形態の補足について説明する。
【0099】
<4.補足>
[4−1.コマンド入力の変形例]
上記実施形態では、音声にてコマンドを入力していたが、本開示による音響システムのコマンド入力方法は音声入力に限定されず、他の入力方法であってもよい。以下、図10を参照して他のコマンド入力方法について説明する。
【0100】
図10は、本実施形態による信号処理装置の他の構成例を示すブロック図である。図10に示すように、信号処理装置1’は、図3に示す信号処理装置1の各構成に加えて、操作入力部25、撮像部26、および赤外線/熱センサ27を有する。
【0101】
操作入力部25は、ユーザの周辺に配される各スイッチ(不図示)に対するユーザ操作を検出する機能を有する。例えば、操作入力部25は、ユーザにより発呼要求スイッチが押下されたことを検出し、検出結果を認識部17に出力する。認識部17は、発呼要求スイッチの押下に基づいて、発呼コマンドを認識する。なお、この場合、操作入力部25は、発呼先の指定(対象ユーザの氏名等)も受け付けることが可能である。
【0102】
また、認識部17は、ユーザの周辺に配される撮像部26(イメージセンサ)により撮像された撮像画像や、赤外線/熱センサ27による検知結果に基づいて、ユーザのジェスチャーを解析し、コマンドとして認識してもよい。例えば、ユーザが電話をかけるジェスチャーを行った場合、認識部17は、発呼コマンドを認識する。また、この場合、認識部17は、発呼先の指定(対象ユーザの氏名等)を、操作入力部25から受け付けてもよいし、音声解析に基づいて判断してもよい。
【0103】
以上説明したように、本開示による音響システムのコマンド入力方法は音声入力に限定されず、例えばスイッチ押下、またはジェスチャー入力等であってもよい。
【0104】
[4−2.他のコマンド例]
上記実施形態では、所定の対象として人物が指定され、発呼要求(通話要求)をコマンドとして認識する場合について説明したが、本開示による音響システムのコマンドは発呼要求(通話要求)に限定されず、他のコマンドであってもよい。例えば、信号処理装置1の認識部17は、所定の対象として指定された場所、建物、番組、曲等をユーザが居る空間で再現するコマンドを認識してもよい。
【0105】
例えば、図11に示すように、ユーザが「ラジオを聞きたい」、「○○の△△という曲を聞きたい」、「何かニュースない?」、「今、ウィーンで開催されている音楽会を聴きたい」等と発呼要求以外の要求を発言した場合周辺に配された複数のマイク10により収音され、認識部17によりコマンドとして認識される。
【0106】
そして、信号処理装置1は、認識部17により認識された各コマンドに応じた処理を行う。例えば、信号処理装置1は、ユーザが指定する対象のラジオ、曲、ニュース、音楽祭等に対応するオーディオ信号を、所定のサーバから受信し、上述したように音場再生信号処理部135による信号処理を経て、ユーザの周囲に配されたスピーカー群から再生してもよい。なお、信号処理装置1が受信するオーディオ信号は、リアルタイムで収音されたものであってもよい。
【0107】
このように、ユーザはスマートフォンやリモートコントローラー等の端末装置を所持したり操作したりする必要なく、所望のサービスをその場で発言するだけで取得することができる。
【0108】
また、本実施形態による音場再生信号処理部135は、特に歌劇場のような広い空間で収音されたオーディオ信号を、ユーザを内包する小さな音響閉曲面を形成するスピーカー群から再生する場合に、広い空間の残響および音像定位を再現することが可能である。
【0109】
すなわち、収音環境(例えば歌劇場)で音響閉曲面を形成するマイク群の配置と、再現環境(例えばユーザの部屋)で音響閉曲面を形成するスピーカー群の配置が異なる場合であっても、音場再生信号処理部135は、所定の信号処理により、収音環境の音像定位・残響特性を再現環境で再現することが可能である。
【0110】
具体的には、例えば音場再生信号処理部135は、特許第4775487号で開示されている伝達関数を用いた信号処理を用いてもよい。特許第4775487号では、測定環境の音場に基づいて第一の伝達関数(インパルス応答の測定データ)を求め、さらに再現環境において第一の伝達関数に基づく演算処理を施された音声信号を再生することで、再現環境において測定環境の音場(例えば残響、音像定位)を再現している。
【0111】
これにより、音場再生信号処理部135は、図12に示すように、小空間に居るユーザを内包する音響閉曲面40が、大空間の音場42に没入するような音像定位および残響効果を得ることができる音場を構築することが可能となる。なお、図12に示す例では、ユーザが居る小空間(例えば部屋)に配されている複数のスピーカー20のうち、適宜ユーザを内包する音響閉曲面40を形成する複数のスピーカー20が選出されている。また、再現対象の大空間(例えば歌劇場)には、図12に示すように、複数のマイク10が配され、当該複数のマイク10から収音されたオーディオ信号が、伝達関数に基づく演算処理を施され、選出された複数のスピーカー20から再生される。
【0112】
[4−3.映像構築]
さらに、本実施形態による信号処理装置1は、上記実施形態において説明した他の空間の音場構築(音場再生処理)の他、併せて他の空間の映像構築を行うこともできる。
【0113】
例えば、ユーザが「現在行われている○○のサッカーの試合を見たい」とコマンド入力した場合、信号処理装置1は、対象の試合会場で収音されたオーディオ信号および映像を所定のサーバから受信し、ユーザが居る部屋で再生してもよい。
【0114】
映像の再生は、例えばホログラム再生による空間投影であってもよいし、部屋にあるテレビジョン、ディスプレイ、ユーザが装着するヘッドマウントディスプレイで再生してもよい。このように、音場構築と併せて映像構築も行うことで、ユーザは、試合会場への没入感を得ることができ、より臨場感に浸ることができる。
【0115】
なお、対象の試合場で没入する位置(収音・撮像位置)は、ユーザが任意に選択、移動させることも可能である。これにより、ユーザは、所定の観客席に留まらず、試合会場の中や、特定の選手を追うような臨場感に浸ることができる。
【0116】
[4−4.他のシステム構成例]
図1図2を参照して説明した上記実施形態による音響システムのシステム構成は、発呼側(サイトA)および着呼側(サイトB)の両者とも、ユーザの周辺に複数のマイクやスピーカーが配され、信号処理装置1A、1Bにより信号処理されている。しかし、本実施形態による音響システムのシステム構成は図1図2に示す構成に限定されず、例えば図13に示すような構成であってもよい。
【0117】
図13は、本実施形態による音響システムの他のシステム構成を示す図である。図13に示すように、本実施形態による音響システムは、信号処理装置1、通信端末7、および管理サーバ3が、ネットワーク5を介して接続している。
【0118】
通信端末7は、携帯電話端末やスマートフォンといった通常の単数のマイクおよび単数のスピーカーを有し、本実施形態による複数のマイクおよび複数のスピーカーが配される高機能なインターフェース空間に対して、レガシーなインターフェースである。
【0119】
本実施形態による信号処理装置1は、通常の通信端末7と接続し、通信端末7から受信した音声をユーザの周辺に配される複数のスピーカーから再生することができる。また、本実施形態による信号処理装置1は、ユーザの周辺に配される複数のマイクから収音したユーザの音声を、通信端末7に送信することができる。
【0120】
以上説明したように、本実施形態による音響システムによれば、周辺に複数のマイクおよび複数のスピーカーが配された空間に居る第1のユーザと、通常の通信端末7を所持する第2のユーザとの通話を実現することができる。すなわち、本実施形態による音響システムの構成は、発呼側および着呼側の一方が、本実施形態による複数のマイクおよび複数のスピーカーが配される高機能なインターフェース空間であってもよい。
【0121】
<5.まとめ>
上述したように、本実施形態による音響システムでは、ユーザ周辺の空間を他の空間と相互連携させることが可能となる。具体的には、本実施形態による音響システムは、所定対象(人物、場所、建物等)に対応する音声や画像をユーザの周囲に配された複数のスピーカーやディスプレイから再生し、また、ユーザの音声をユーザの周囲に配された複数のマイクで収音して所定対象の周囲で再生することができる。このように、屋内や屋外の至る所に配されるマイクロフォン10、スピーカー20、イメージセンサ等を用いて、実質的にユーザの口、目、耳等の身体を広範囲に拡張させることが可能となり、新たなコミュニケーション方法を実現することができる。
【0122】
さらに、本実施形態による音響システムでは、至る所にマイクロフォンやイメージセンサ等が配されているので、ユーザはスマートフォンや携帯電話端末を所有する必要がなく、声やジェスチャーで所定対象を指示し、所定対象周辺の空間と接続させることができる。
【0123】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0124】
例えば、信号処理装置1の構成は図3に示す構成に限定されず、例えば図3に示す認識部17および同定部18が、信号処理装置1ではなくネットワークを介して接続するサーバ側に設けられる構成であってもよい。この場合、信号処理装置1は、信号処理部13から出力されるオーディオ信号を通信I/F19を介してサーバに送信する。また、サーバは、受信したオーディオ信号に基づいて、コマンド認識や、所定の対象(人物、場所、建物、番組、曲等)を同定する処理を行い、認識結果および同定された所定の対象に対応する接続先情報を信号処理装置1に送信する。
【0125】
なお、本技術は以下のような構成も取ることができる。
(1)
特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、
前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、
を備える、情報処理システム。
(2)
前記信号処理部は、前記所定の対象の周辺に配される複数のセンサから取得した信号を処理する、前記(1)に記載の情報処理システム。
(3)
前記特定ユーザの周辺に配される複数のセンサは、マイクロフォンであって、
前記認識部は、前記マイクロフォンにより検知されたオーディオ信号に基づいて、前記所定の対象を認識する、前記(1)または(2)に記載の情報処理システム。
(4)
前記認識部は、前記特定ユーザの周辺に配されるセンサにより検知された信号に基づいて、前記所定の対象に対する要求をさらに認識する、前記(1)〜(3)のいずれか1項に記載の情報処理システム。
(5)
前記特定ユーザの周辺に配されるセンサは、マイクロフォンであって、
前記認識部は、前記マイクロフォンにより検知されたオーディオ信号に基づいて、前記所定の対象に対する発呼要求を認識する、前記(4)に記載の情報処理システム。
(6)
前記特定ユーザの周辺に配されるセンサは、圧力センサであって、
前記認識部は、前記圧力センサにより特定のスイッチの押圧が検知された場合、前記所定の対象に対する発呼要求を認識する、前記(4)に記載の情報処理システム。
(7)
前記特定ユーザの周辺に配されるセンサは、撮像センサであって、
前記認識部は、前記撮像センサにより取得された撮像画像に基づいて、前記所定の対象に対する発呼要求を認識する、前記(4)に記載の情報処理システム。
(8)
前記所定の対象の周辺のセンサは、マイクロフォンであって、
前記特定ユーザの周辺に配される複数のアクチュエータは、複数のスピーカーであって、
前記信号処理部は、前記複数のスピーカーから出力された際に前記特定ユーザの位置付近に音場を形成するよう、前記複数のスピーカーの各位置および推定された前記特定ユーザの位置に基づいて、前記所定の対象の周辺の前記マイクロフォンにより収音されたオーディオ信号を処理する、前記(1)〜(7)のいずれか1項に記載の情報処理システム。
(9)
特定ユーザの周辺のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記同定部により同定された前記所定の対象の周辺に配される複数のセンサから取得された信号に基づき、前記特定ユーザの周辺のアクチュエータから出力する信号を生成する信号処理部と、
を備える、情報処理システム。
(10)
コンピュータを、
特定ユーザの周辺に配される複数のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記複数のセンサのいずれかにより検知された信号に応じて、前記特定ユーザの位置を推定する推定部と、
前記特定ユーザの周辺に配される複数のアクチュエータから出力される際に、前記推定部により推定された前記特定ユーザの位置付近に定位するよう、前記同定部により同定された前記所定の対象の周辺のセンサから取得した信号を処理する信号処理部と、
として機能させるための、プログラム。
(11)
コンピュータを、
特定ユーザの周辺のセンサにより検知された信号に基づいて、所定の対象を認識する認識部と、
前記認識部により認識された前記所定の対象を同定する同定部と、
前記同定部により同定された前記所定の対象の周辺に配される複数のセンサから取得された信号に基づき、前記特定ユーザの周辺のアクチュエータから出力する信号を生成する信号処理部と、
として機能させるための、プログラム。
【符号の説明】
【0126】
1、1’、1A、1B 信号処理装置
3 管理サーバ
5 ネットワーク
7 通信端末
10、10A、10B マイクロフォン(マイク)
11 アンプ・ADC(アナログデジタルコンバータ)部
13 信号処理部
15 マイク位置情報DB(データベース)
16 ユーザ位置推定部
17 認識部
18 同定部
19 通信I/F(インターフェース)
20、20A、20B スピーカー
23 DAC(デジタルアナログコンバータ)・アンプ部
25 操作入力部
26 撮像部(イメージセンサ)
27 赤外線/熱センサ
32 管理部
33 検索部
40、40−1、40−2、40−3 音響閉曲面
42 音場
131 マイクアレイ処理部
133 高S/N化処理部
135 音場再生信号処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13