(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-26
(45)【発行日】2025-06-03
(54)【発明の名称】音声出力装置
(51)【国際特許分類】
H04R 1/40 20060101AFI20250527BHJP
H04R 3/00 20060101ALI20250527BHJP
【FI】
H04R1/40 320A
H04R3/00 320
(21)【出願番号】P 2021139065
(22)【出願日】2021-08-27
【審査請求日】2024-05-08
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】宮原 直也
【審査官】北原 昂
(56)【参考文献】
【文献】米国特許出願公開第2016/0173978(US,A1)
【文献】特開2007-274463(JP,A)
【文献】特表2015-520884(JP,A)
【文献】国際公開第2020/075010(WO,A1)
【文献】国際公開第2004/034734(WO,A1)
【文献】特開2007-251782(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 1/40
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
ユーザの音声を収音する複数のマイクロホンアレイと、
音声を平面波により出力する平面波スピーカと、
を備え、
前記複数のマイクロホンアレイおよび前記平面波スピーカは同一直線上に配置され、
前記複数のマイクロホンアレイは前記同一直線上で移動可能に設置される、音声出力装置。
【請求項2】
ユーザの音声を収音する複数のマイクロホンアレイと、
音声を平面波により出力する平面波スピーカと、
前記ユーザを撮像する撮像部と、
前記撮像部により得られた前記ユーザの映像に基づき、前記ユーザによる操作を認識する操作認識部と、
を備え、
前記複数のマイクロホンアレイ、前記撮像部、および前記平面波スピーカは同一直線上に配置される、音声出力装置。
【請求項3】
前記音声出力装置は、
前記ユーザを撮像する撮像部をさらに備え、
前記撮像部も前記同一直線上に配置される、請求項1に記載の音声出力装置。
【請求項4】
前記撮像部は、前記複数のマイクロホンアレイの間に位置し、
前記平面波スピーカは、前記複数のマイクロホンアレイの外側に位置する、請求項2
または3に記載の音声出力装置。
【請求項5】
前記複数のマイクロホンアレイは前記同一直線上で移動可能に設置される、請求項
2に記載の音声出力装置。
【請求項6】
前記複数のマイクロホンアレイは回転可能に設置される、請求項1~
5のいずれか一項に記載の音声出力装置。
【請求項7】
前記マイクロホンアレイおよび前記複数のマイクロホンアレイを覆うカバー部をさらに備える、請求項1~
6のいずれか一項に記載の音声出力装置。
【請求項8】
映像を表示する表示部をさらに備え、
前記カバー部は前記表示部の上に配置される、請求項
7に記載の音声出力装置。
【請求項9】
前記音声出力装置は、
前記複数のマイクロホンアレイにより収音された音声から前記ユーザの位置を含む領域から発せられた音声を抽出する音声抽出部をさらに備える、請求項1~
8のいずれか一項に記載の音声出力装置。
【請求項10】
前記音声出力装置は、
前記撮像部により得られた前記ユーザの映像に基づき、前記ユーザによる操作を認識する操作認識部をさらに備える、請求項
3に記載の音声出力装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声出力装置に関する。
【背景技術】
【0002】
近年、様々な場所に自立型の情報端末が設置されている。ある種の情報端末は、ユーザの音声を収音するマイクロホン、遠隔するオペレータの映像を表示するディスプレイ、および遠隔するオペレータの音声を出力するスピーカを有する。ユーザは、このような情報端末を使用することにより、遠隔するオペレータと対話して所望の情報を得ることができる。
【0003】
例えば、特許文献1には、スピーカとマイクロホンを有し、互いに通信網を介して接続されている2つの音声入出力装置が開示されている。2つのユーザがそれぞれ音声入出力装置を使用することで、双方向の音声通信が実現され得る。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、スピーカから出力された音声の回り込みによるハウリングを回避するためには、複数のマイクロホンアレイを利用して特定の領域から発せられた音声のみを抽出することが有用である。しかし、ディスプレイに対して複数のマイクロホンアレイおよびスピーカを含むセットを取り付ける場合、複数のマイクロホンアレイおよびスピーカの位置関係によっては、上記セットが取り付けに適さない形状となる。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、複数のマイクロホンアレイおよびスピーカの位置関係に工夫がなされた、新規かつ改良された音声出力装置を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、ユーザの音声を収音する複数のマイクロホンアレイと、音声を平面波により出力する平面波スピーカと、を備え、前記複数のマイクロホンアレイおよび前記平面波スピーカは同一直線上に配置され、前記複数のマイクロホンアレイは前記同一直線上で移動可能に設置される、音声出力装置が提供される。また、上記課題を解決するために、本発明のある観点によれば、ユーザの音声を収音する複数のマイクロホンアレイと、音声を平面波により出力する平面波スピーカと、
前記ユーザを撮像する撮像部と、前記撮像部により得られた前記ユーザの映像に基づき、前記ユーザによる操作を認識する操作認識部と、を備え、前記複数のマイクロホンアレイ、前記撮像部、および前記平面波スピーカは同一直線上に配置される、音声出力装置が提供される。
【0008】
前記音声出力装置は、前記ユーザを撮像する撮像部をさらに備え、前記撮像部も前記同一直線上に配置されてもよい。
【0009】
前記撮像部は、前記複数のマイクロホンアレイの間に位置し、前記平面波スピーカは、前記複数のマイクロホンアレイの外側に位置してもよい。
【0010】
前記複数のマイクロホンアレイは前記同一直線上で移動可能に設置されてもよい。
【0011】
前記複数のマイクロホンアレイは回転可能に設置されてもよい。
【0012】
前記マイクロホンアレイおよび前記複数のマイクロホンアレイを覆うカバー部をさらに備えてもよい。
【0013】
映像を表示する表示部をさらに備え、前記カバー部は前記表示部の上に配置されてもよい。
【0014】
前記音声出力装置は、前記複数のマイクロホンアレイにより収音された音声から前記ユーザの位置を含む領域から発せられた音声を抽出する音声抽出部をさらに備えてもよい。
【0015】
前記音声出力装置は、前記撮像部により得られた前記ユーザの映像に基づき、前記ユーザによる操作を認識する操作認識部をさらに備えてもよい。
【発明の効果】
【0016】
以上説明した本発明によれば、複数のマイクロホンアレイおよびスピーカの位置関係に工夫がなされた音声出力装置が提供される。
【図面の簡単な説明】
【0017】
【
図1】本発明の一実施形態による情報処理システムを示す説明図である。
【
図2】比較例による装置の構成を示す説明図である。
【
図3】本発明の一実施形態によるユーザ操作型端末10の外観構成を示す説明図である。
【
図4】インターフェースユニット120の構成を示す説明図である。
【
図5】インターフェースユニット120の平面図である。
【
図6】インターフェースユニット120の平面図である。
【
図7】本発明の一実施形態によるユーザ操作型端末10の機能構成を示す説明図である。
【
図9】インターフェースユニット120およびユーザの平面図である。
【
図10】マイクロホンアレイ124および平面波スピーカ126の配置に関する変形例を示す説明図である。
【
図11】マイクロホンアレイ124および平面波スピーカ126の配置に関する変形例を示す説明図である。
【
図12】ノートPC16と本発明の一実施形態によるインターフェースユニット120の組み合わせを示す説明図である。
【
図13】大型サイネージ端末18と本発明の一実施形態によるインターフェースユニット120の組み合わせを示す説明図である。
【
図14】ユーザ操作型端末10のハードウェア構成を示したブロック図である。
【発明を実施するための形態】
【0018】
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0019】
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じてマイクロホンアレイ124A、マイクロホンアレイ124Bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、マイクロホンアレイ124A、マイクロホンアレイ124Bを特に区別する必要が無い場合には、各マイクロホンアレイを単にマイクロホンアレイ124と称する。
【0020】
<情報処理システムの概要>
本発明の一実施形態は、ユーザと遠隔するオペレータがユーザに遠隔での接客サービスを提供する情報処理システムに関する。以下、本発明の一実施形態による情報処理システムの概要を説明する。
【0021】
図1は、本発明の一実施形態による情報処理システムを示す説明図である。
図1に示したように、本発明の一実施形態による情報処理システムは、ユーザ操作型端末10およびオペレータ端末30を有する。
【0022】
ユーザ操作型端末10およびオペレータ端末30はネットワーク12を介して接続されている。ネットワーク12は、ネットワーク12はネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
【0023】
(ユーザ操作型端末10)
ユーザ操作型端末10は、ユーザによる操作を受け付ける端末である。ユーザ操作型端末10は、音声出力装置としての機能を有する。より具体的には、ユーザの音声を収音する機能、ユーザを撮像する機能、およびオペレータ端末30から受信されるオペレータの映像を表示する機能、およびオペレータの音声を出力する機能などを有する。このため、ユーザは、ユーザ操作型端末10を利用することでオペレータから映像および音声を介した接客サービスを受けることが可能である。
【0024】
なお、接客サービスとしては、駅または空港などの交通機関における各種案内、または路上におけるルート案内などを行う案内サービス、映画またはレストランなどの座席を予約する座席予約サービス、アミューズメント施設などのチケットを発券するチケット発券サービスなど、多様なサービスが挙げられる。
【0025】
(オペレータ端末30)
オペレータ端末30は、オペレータが利用する端末である。オペレータ端末30は、オペレータの音声を収音する機能、オペレータを撮像する機能、およびユーザ操作型端末10から受信されるユーザの映像を表示する機能、ユーザの音声を出力する機能などを有する。オペレータ端末30は、ユーザ操作型端末10との画面共有のために任意の画面をユーザ操作型端末10に送信することも可能である。
【0026】
(背景)
上述したように、ユーザ操作型端末10は、音声を収音する機能、および音声を出力する機能を有する。このような音声を収音する機能、および音声を出力する機能を有する他の装置では、音声の回り込みによりハウリングが発生し得る。例えば、
図2に示した装置90では、スピーカ94が出力したオペレータの音声がマイクロホン98に回り込み、ハウリングが発生する場合がある。
【0027】
また、不特定のユーザに利用される装置90では、装置90に対するユーザの操作方法がタッチ操作である場合、タッチ面が不衛生になる。結果、感染症に罹患するリスクが高まる。
【0028】
なお、上述したハウリングの問題を回避するためには、複数のマイクロホンアレイを利用して特定の領域から発せられた音声のみを抽出することが有用である。しかし、ディスプレイに対して複数のマイクロホンアレイおよびスピーカを含むセットを取り付ける場合、複数のマイクロホンアレイおよびスピーカの位置関係によっては、上記セットが取り付けに適さない形状となる。
【0029】
本件発明者は、上記事情に着眼して本発明の一実施形態を創作するに至った。本発明の一実施形態によれば、上述した点を改善することが可能である。以下、このような本発明の一実施形態によるユーザ操作型端末10の構成を詳細に説明する。
【0030】
<ユーザ操作型端末10の構成>
図3は、本発明の一実施形態によるユーザ操作型端末10の外観構成を示す説明図である。
図3に示したように、本発明の一実施形態によるユーザ操作型端末10は、表示部110およびインターフェースユニット120を有する。表示部110は、多様な画面を表示する。
図3に示した例では、表示部110には、オペレータ端末30と共有されている画面52、ユーザ操作型端末10を利用するユーザの映像54およびオペレータの映像56が含まれる。
【0031】
インターフェースユニット120は、音声処理装置の一例であり、ユーザとのインターフェースになる多様な構成、およびこれら構成を覆うカバー121を有する。インターフェースユニット120は、表示部110の上に配置される。カバー121により覆われる構成について、
図4を参照して具体的に説明する。
【0032】
図4は、インターフェースユニット120の構成を示す説明図である。
図4の上段にはユーザ操作型端末10の平面図を示し、
図4の下段にはユーザ操作型端末10の正面図を示している。
図4に示したように、インターフェースユニット120は、撮像部122、複数のマイクロホンアレイ124(マイクロホンアレイ124Aおよびマイクロホンアレイ124B)、および平面波スピーカ126を有する。撮像部122は複数のマイクロホンアレイ124の間に位置し、平面波スピーカ126は複数のマイクロホンアレイ124の外側に位置している。
【0033】
撮像部122は、被写体を撮像する。例えば、撮像部122は、ユーザ操作型端末10の前にいるユーザを撮像すると、ユーザの映像を取得する。マイクロホンアレイ124Aは、複数のマイクロホンを有する。同様に、マイクロホンアレイ124Bも、複数のマイクロホンを有する。例えば、ユーザ操作型端末10の前にいるユーザが音声を発すると、マイクロホンアレイ124Aおよびマイクロホンアレイ124Bはユーザの音声を収音する。平面波スピーカ126は、音声を平面波により出力する。例えば、平面波スピーカ126は、オペレータ端末30から受信されたオペレータの音声を出力する。
【0034】
上述した複数のマイクロホンアレイ124および平面波スピーカ126は、
図4の下段に示したように、正面視において表示部110の水平方向に平行な直線L上に配置されている。複数のマイクロホンアレイ124および平面波スピーカ126は、いずれもユーザ操作型端末10に正対するユーザに向いて設置されている。さらに、撮像部122も当該直線L上に配置されていてもよい。また、
図4の上段に示したように、複数のマイクロホンアレイ124および平面波スピーカ126は平面視においても同一の直線L上に配置されていてもよい。
【0035】
なお、マイクロホンアレイ124は、
図5において矢印を付した方向に沿って、上記直線L上で移動可能に設けられる。さらに、マイクロホンアレイ124は、
図6において矢印を付した回転方向に沿って回転可能に設けられる。
【0036】
以上、本発明の一実施形態によるユーザ操作型端末10の外観構成を主に説明した。続いて、
図7を参照し、本発明の一実施形態によるユーザ操作型端末10の機能構成を説明する。
【0037】
図7は、本発明の一実施形態によるユーザ操作型端末10の機能構成を示す説明図である。
図7に示したように、本発明の一実施形態によるユーザ操作型端末10は、表示部110、撮像部122、複数のマイクロホンアレイ124、平面波スピーカ126、通信部130および制御部150を有する。表示部110、撮像部122、マイクロホンアレイ124および平面波スピーカ126の機能は上述した通りであるので、ここでの詳細な説明を省略する。
【0038】
(通信部130)
通信部130は、オペレータ端末30とのインターフェースである。通信部130は、例えば、マイクロホンアレイ124により収音されたユーザの音声(より厳密には、マイクロホンアレイ124により収音された音声から、後述する音声抽出部154により抽出された音声)、および撮像部122により取得されたユーザの映像をオペレータ端末30に送信する。また、通信部130は、オペレータの音声および映像などをオペレータ端末30から受信する。
【0039】
(制御部150)
制御部150は、ユーザ操作型端末10の動作全般を制御する。制御部150は、例えば
図7に示したように、表示制御部152、音声抽出部154および操作認識部156の機能を有する。
【0040】
表示制御部152は、表示画面を生成し、生成した表示画面を表示部110に表示させる。例えば、表示制御部152は、
図8に示すように、「いらっしゃいませ」というメッセージ、オペレータ接続ボタン62、およびポインタ表示Pを含む初期画面を生成する。ポインタ表示Pは、ユーザが指示している位置を示す表示である。ポインタ表示Pがオペレータ接続ボタン62に合っている状態でユーザが所定操作を行った場合、制御部150はユーザ操作型端末10とオペレータ端末30との接続を制御する。なお、所定操作はユーザが手を握る操作であってもよい。
【0041】
オペレータ端末30がユーザ操作型端末10から着信すると、オペレータ端末30が着信画面を表示し、オペレータが着信画面において受付操作を行うことでユーザ操作型端末10とオペレータ端末30の状態が通話状態となる。ユーザ操作型端末10とオペレータ端末30の状態が通話状態となった後、表示制御部152は、例えば
図3に示したように、オペレータ端末30と共有されている画面52、ユーザ操作型端末10を利用するユーザの映像54およびオペレータの映像56を含む表示画面を生成し、当該表示画面を表示部110に表示させる。
【0042】
音声抽出部154は、複数のマイクロホンアレイ124により収音された音声から、ユーザの位置を含む領域から発せられた音声を抽出する。このため、音声抽出部154により抽出される音声は、ユーザの音声を含む。以下、
図9を参照してより詳細に説明する。
【0043】
図9は、インターフェースユニット120およびユーザの平面図である。マイクロホンアレイ124Aおよびマイクロホンアレイ124Bは、それぞれ指向性を有する。
図9においては、マイクロホンアレイ124Aおよびマイクロホンアレイ124Bの指向性を破線で示している。指向性に基づいてマイクロホンアレイ124Aが収音の対象とする範囲と、指向性に基づいてマイクロホンアレイ124Bが収音の対象とする範囲とは交差している。
図9に示した領域Hは、双方の範囲が交差している領域である。音声抽出部154は、複数のマイクロホンアレイ124により収音された音声に共通して含まれる音声を、当該領域Hから発せられた音声として抽出することが可能である。
【0044】
操作認識部156は、撮像部122により取得されたユーザの映像に基づき、ユーザによる操作を認識する。例えば、操作認識部156は、ユーザの映像から、またはユーザの映像に左右反転処理および解像度に関する処理などが施された後の映像からユーザの手を検出し、ユーザの手の特徴点を検出する。そして、操作認識部156は、1または2以上の特徴点の位置を用いて指示位置を認識する。操作認識部156は、人差し指、中指および薬指の各々の付け根の関節である特徴点の位置の平均値を指示位置として認識してもよい。
【0045】
また、ユーザが3本の指(人差し指、中指および薬指)の位置を握ることで下げる操作を行った場合、操作認識部156は、当該操作をオペレータ接続ボタン62のような操作オブジェクトを選択する所定操作として認識する。
【0046】
<作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が得られる。例えば、本発明の一実施形態によれば、複数のマイクロホンアレイ124および平面波スピーカ126が同一直線上に、いずれもユーザ操作型端末10に正対するユーザに向くように設置されている。ここで、平面波スピーカ126は、直進性の高い平面波により音声を出力する。さらに、ユーザ操作型端末10はユーザの位置を含む領域Hから発せられた音声を抽出する音声抽出部154を有する。従って、音声抽出部154により抽出される音声への平面波スピーカ126から出力された音声の入り込み、および雑音の入り込みなどを抑制することが可能である。従って、オペレータ端末30を利用するオペレータがユーザの音声を聞き易い。
【0047】
また、本発明の一実施形態によれば、ユーザが非接触でユーザ操作型端末10に操作入力を行うことが可能である。従って、ユーザ操作型端末10では完全タッチレスが実現されるので、ユーザが感染症に罹患するリスクを低減することが可能である。また、表示部110に手が届かないユーザ(例えば、車椅子に座っているユーザ)でもユーザ操作型端末10を利用することが可能である。
【0048】
また、本発明の一実施形態によれば、複数のマイクロホンアレイ124および平面波スピーカ126が同一直線上に設置されるので、カバー121も直線的な形状に設計し易い。従って、表示部110の上部にインターフェースユニット120を取り付け易い。さらに、撮像部122も同一直線上に設置することにより、カバー121をより直線的な形状に設計し得る。
【0049】
また、本発明の一実施形態によれば、複数のマイクロホンアレイ124が直線上で移動可能であり、また、回転可能に設置される。従って、各マイクロホンアレイ124が収音の対象とする範囲を変更することにより、
図9を参照して説明した領域Hを容易に調整することが可能である。
【0050】
<変形例>
以上、本発明の一実施形態を説明した。以下では、上述した実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で上述した実施形態に適用されてもよいし、組み合わせで上述した実施形態に適用されてもよい。また、各変形例は、上述した実施形態の構成に代えて適用されてもよいし、上述した実施形態の構成に対して追加的に適用されてもよい。
【0051】
(第1の変形例)
上記では、複数のマイクロホンアレイ124の外側に1つの平面波スピーカ126が配置される例を説明したが、マイクロホンアレイ124および平面波スピーカ126の配置は上述した例に限定されない。マイクロホンアレイ124および平面波スピーカ126の配置に関する2つの変形例を
図10および
図11を参照して説明する。
【0052】
図10および
図11は、マイクロホンアレイ124および平面波スピーカ126の配置に関する変形例を示す説明図である。
図10に示したように、平面波スピーカ126は、マイクロホンアレイ124Aおよび平面波スピーカ126Bの間に配置されていてもよい。また、
図11に示したように、マイクロホンアレイ124Aおよび平面波スピーカ126Bの外側に平面波スピーカ126Aおよび平面波スピーカ126Bが配置されていてもよい。いずれの場合も、マイクロホンアレイ124および平面波スピーカ126が同一直線上に配置されることで、カバー121を直線的な形状に設計することが可能である。
【0053】
(第2の変形例)
上記では、自立型の情報端末であるユーザ操作型端末10に本発明の一実施形態が適用される例を説明したが、ノートPC、タブレット端末および大型サイネージ端末にも本発明の一実施形態を適用可能である。以下、
図12および
図13を参照し、本発明の一実施形態の適用例を説明する。
【0054】
図12は、ノートPC16と本発明の一実施形態によるインターフェースユニット120の組み合わせを示す説明図である。
図12に示した例では、インターフェースユニット120に脚が設けられ、カバー121がノートPC16の上側に位置するようにインターフェースユニット120が配置されている。インターフェースユニット120とノートPC16は例えばUSBを介して接続される。インターフェースユニット120からユーザの映像および音声がノートPC16に出力され、ノートPC16からインターフェースユニット120にオペレータの音声が出力され、ノートPC16にオペレータの映像などが表示される。このように、ノートPC16とインターフェースユニット120が完全に設置していなくても、上述した実施形態と同様の効果を得ることが可能である。
【0055】
図13は、大型サイネージ端末18と本発明の一実施形態によるインターフェースユニット120の組み合わせを示す説明図である。
図13に示した例では、大型サイネージ端末18のサイズは例えば40インチ程度であり、壁面に固定されている。インターフェースユニット120は、大型サイネージ端末18の上側で壁面に固定されている。インターフェースユニット120と大型サイネージ端末18は互いに有線または無線で接続されており、音声および映像を互いに入出力する。このように、リモートでの会話が想定されていなかった既存機器にインターフェースユニット120を組み合わせることにより、双方向のリモート通話環境を実現できる。
【0056】
<ハードウェア構成>
以上、本発明の一実施形態および変形例を説明した。上述した音声抽出および操作認識などの情報処理は、ソフトウェアと、以下に説明するユーザ操作型端末10のハードウェアとの協働により実現される。
【0057】
図14は、ユーザ操作型端末10のハードウェア構成を示したブロック図である。ユーザ操作型端末10は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、ユーザ操作型端末10は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
【0058】
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従ってユーザ操作型端末10内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述した表示制御部152、音声抽出部154および操作認識部156などの機能が実現される。
【0059】
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0060】
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロホンアレイ、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。ユーザ操作型端末10のユーザは、該入力装置208を操作することにより、ユーザ操作型端末10に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0061】
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
【0062】
ストレージ装置211は、本実施形態にかかるユーザ操作型端末10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
【0063】
ドライブ212は、記憶媒体用リーダライタであり、ユーザ操作型端末10に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
【0064】
ネットワークインターフェース215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
【0065】
なお、上述したユーザ操作型端末10のハードウェア構成はオペレータ端末30にも適用可能である。
【0066】
<補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0067】
例えば、上述したインターフェースユニット120の位置は調整可能であってもよい。具体的には、ユーザの映像からユーザの視線高さ、または身長などに応じてインターフェースユニット120を昇降させる機構(例えば、モータおよびレールなど)が設けられてもよい。かかる構成により、ユーザ間の身体的特徴差によって生じ得るユーザ操作型端末10の使用の快適性の相違を低減し得る。
【0068】
また、上記ではインターフェースユニット120に複数のマイクロホンアレイ124および平面波スピーカ126が含まれる例を説明したが、複数のマイクロホンアレイ124および平面波スピーカ126は異なるユニットとして異なるカバー内に設けられてもよい。この場合、多様な大きさの装置にもこれらユニットを適用することが可能である。また、スピーカまたはマイクなどを含まないダミーユニットも用いられてもよい。
【0069】
また、ユーザ操作型端末10は、平面波スピーカ126から出力するオペレータの音声の大きさを動的に調整してもよい。例えば、ユーザ操作型端末10の周囲の環境音が小さいほど、平面波スピーカ126から出力するオペレータの音声の大きさを小さくしてもよい。かかる構成により、環境音が大きいときにもユーザがオペレータの音声を聞くことができ、環境音が小さいときにはオペレータの音声が周囲に響き渡ることを抑制できる。
【0070】
また、ユーザ操作型端末10は、複数の平面波スピーカ126を有してもよく、この場合、各平面波スピーカ126の指向性がユーザを含む範囲で重なるようにパラメータを設定してもよい。かかる構成によれば、オペレータの音声をユーザの周囲の人に聞こえ難くすることができる。オペレータの音声にプライバシーに関する情報が含まれる場合には、プライバシーの保護に繋がる。
【0071】
また、ユーザ操作型端末10は、
図9を参照して説明した領域Hをオペレータ端末30からの指示に従って調整してもよい。例えば、ユーザが領域H外に位置することによりオペレータがユーザの音声を聞き取り難い場合、オペレータがオペレータ端末30に領域Hを移動させる操作を行い、オペレータ端末30がターゲットとなる領域を示す情報をユーザ操作型端末10に送信すると、ユーザ操作型端末10は、パラメータの調整またはマイクロホンアレイ124の移動などにより、領域Hをターゲットとなる領域に移動させる。かかる構成により、オペレータがユーザの移動を誘導しなくても、オペレータがユーザの音声を聞き取り易くなる。
【0072】
また、複数のユーザ操作型端末10を並べて使用することも可能である。その際には、マイクロホンアレイ124および平面波スピーカ126が複数のユーザ操作型端末10を通して同一直線上に配置されることが望ましい。かかる構成により、異なるユーザ操作型端末10間での音声の回り込みの発生を抑制し、快適な運用を実現することが可能である。
【0073】
また、ユーザ操作型端末10およびオペレータ端末30に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述したユーザ操作型端末10およびオペレータ端末30の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた非一時的な記憶媒体も提供される。
【0074】
また、上記では固定的に設置されるユーザ操作型端末10などに本発明の一実施形態が適用される例を主に説明したが、本発明の一実施形態は持ち運び可能な情報端末に適用されてもよい。
【符号の説明】
【0075】
10 ユーザ操作型端末
110 表示部
120 インターフェースユニット
121 カバー
122 撮像部
124 マイクロホンアレイ
126 平面波スピーカ
130 通信部
150 制御部
152 表示制御部
154 音声抽出部
156 操作認識部
30 オペレータ端末