(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022190547
(43)【公開日】2022-12-26
(54)【発明の名称】音声対話装置、音声対話方法
(51)【国際特許分類】
G10L 15/22 20060101AFI20221219BHJP
G10L 13/00 20060101ALI20221219BHJP
G06F 3/16 20060101ALI20221219BHJP
【FI】
G10L15/22 300Z
G10L13/00 100M
G06F3/16 610
G06F3/16 650
G06F3/16 690
G06F3/16 620
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2021098918
(22)【出願日】2021-06-14
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】清水 功雄
(57)【要約】 (修正有)
【課題】ユーザの発話に対する応答として、ユーザと、ユーザの発話内容に含まれている物体と、音声対話装置との間の相対的な位置関係に応じた応答を出力する音声対話装置及び音声対話方法を提供する。
【解決手段】音声対話方法は、ユーザの撮像画像およびユーザが発話した音声を取得するステップと、ユーザ、ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係を取得するステップと、取得した位置関係に応じて発話に対する応答を生成するステップと、応答を出力するステップと、を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
音声対話装置であって、
ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得手段と、
前記発話に対する応答を、前記位置関係に応じて生成する生成手段と、
前記応答を出力する出力手段と
を備えることを特徴とする音声対話装置。
【請求項2】
前記取得手段は、
前記撮像画像に含まれている物体のうち、前記ユーザ、前記ユーザの発話内容に含まれている物体、のそれぞれの前記音声対話装置に対する相対的な位置を取得し、該取得した位置を用いて前記ユーザと前記物体との間の相対的な位置関係を取得することを特徴とする請求項1に記載の音声対話装置。
【請求項3】
前記生成手段は、前記ユーザの位置に対して前記物体がどの位置にあるのかをユーザに通知するための応答を生成することを特徴とする請求項1または2に記載の音声対話装置。
【請求項4】
前記生成手段は、前記撮像画像に含まれている基準物体に対する前記物体の相対的な位置をユーザに通知するための応答を生成することを特徴とする請求項1または2に記載の音声対話装置。
【請求項5】
さらに、
ユーザが発話した問い合わせが解決しているか否かを判断する判断手段を備え、
前記生成手段は、前記問い合わせが解決していないと前記判断手段が判断した場合には、生成方法を変えて前記応答を再度生成することを特徴とする請求項1ないし4のいずれか1項に記載の音声対話装置。
【請求項6】
前記判断手段は、最後に応答を出力してから一定時間以内に前記問い合わせが解決した旨の音声入力があった場合には、前記問い合わせが解決したと判断し、最後に応答を出力してから一定時間以上経過しても前記問い合わせが解決した旨の音声入力がない場合には、前記問い合わせは解決していないと判断することを特徴とする請求項5に記載の音声対話装置。
【請求項7】
前記判断手段は、最後に応答を出力してから一定時間以内に物体の位置が変わった場合には、前記問い合わせが解決したと判断し、最後に応答を出力してから一定時間以上経過しても物体の位置が変わらなかった場合には、前記問い合わせは解決していないと判断することを特徴とする請求項5に記載の音声対話装置。
【請求項8】
前記判断手段は、応答の出力回数が一定回数未満であれば、前記問い合わせは解決していないと判断し、応答の出力回数が一定回数以上であれば、前記問い合わせは解決したと判断することを特徴とする請求項5に記載の音声対話装置。
【請求項9】
前記判断手段は、前記撮像画像における前記ユーザの状態に応じて、前記問い合わせが解決しているか否かを判断することを特徴とする請求項5に記載の音声対話装置。
【請求項10】
前記出力手段は、前記応答を音声として出力することを特徴とする請求項1ないし9のいずれか1項に記載の音声対話装置。
【請求項11】
前記出力手段は、前記ユーザの位置から前記物体の位置に向かう矢印を前記撮像画像に重ねて表示することを特徴とする請求項1ないし10のいずれか1項に記載の音声対話装置。
【請求項12】
さらに、
ユーザが発話した問い合わせが解決しているか否かを判断する判断手段と、
前記問い合わせが解決していないと前記判断手段が判断した場合には、前記音声対話装置とネットワークを介して接続されている連携デバイスに対して前記音声に対する音声認識の結果を送信し、該連携デバイスが設置されている場所を示す情報と、該連携デバイスにおいて撮像された撮像画像から前記物体が検出されたか否かを示す情報と、を含む応答を該連携デバイスから受信する通信手段と
を備え、
前記出力手段は、前記通信手段が受信した応答を出力することを特徴とする請求項1ないし4のいずれか1項に記載の音声対話装置。
【請求項13】
前記応答は、前記連携デバイスにおいて撮像された撮像画像における前記物体の位置を示す情報を含むことを特徴とする請求項12に記載の音声対話装置。
【請求項14】
前記応答は、前記連携デバイスにおいて撮像された撮像画像における前記物体の領域を示す枠を重畳させた該撮像画像を含むことを特徴とする請求項12または13に記載の音声対話装置。
【請求項15】
前記応答は、前記連携デバイスにおいて撮像された撮像画像における基準物体に対する前記物体の相対位置を示すマーカを重畳させた該撮像画像を含むことを特徴とする請求項12ないし14のいずれか1項に記載の音声対話装置。
【請求項16】
音声対話装置が行う音声対話方法であって、
前記音声対話装置の取得手段が、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得工程と、
前記音声対話装置の生成手段が、前記発話に対する応答を、前記位置関係に応じて生成する生成工程と、
前記音声対話装置の出力手段が、前記応答を出力する出力工程と
を備えることを特徴とする音声対話方法。
【請求項17】
コンピュータを、請求項1ないし15のいずれか1項に記載の音声対話装置の各手段として機能させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話技術に関するものである。
【背景技術】
【0002】
ユーザの発話に対応した処理を実行する音声対話装置が利用されている。音声対話装置の多くは、ウェイクワードと呼ばれる予め定められたキーワードに続くユーザの発話を検知することで、その発話が音声対話装置に向けられたものであることを認識し、その発話に対応した処理(コマンド)を実行する。しかしながら、該処理は、ユーザの状態(例えばユーザの位置・姿勢・視線・距離など)を考慮したものではなく、その結果、通り一辺倒の案内しか提供されないことがある。
【0003】
これに対し、特許文献1では、ユーザの位置を特定することで、距離に応じて音声対話装置が受けた発話が実際に音声対話装置に向けられたものであるかを判断することができる技術が開示されている。
【0004】
また、特許文献2では、音声対話装置が、ユーザの視線から、音声対話装置が受けた発話が音声対話装置に向けられたものであるかを判断することができる技術が開示されている。
【0005】
また、特許文献3では、音声対話装置が、ユーザとの間の対話において、ユーザからの応答がないなど空き時間が一定以上になった場合は会話が終了と判定することができる技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2018-13545号公報
【特許文献2】特開2015-219440号公報
【特許文献3】特開平07-239694号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1~3に挙げた技術を用いると、ユーザが音声対話装置に向けて発しているか、或いは対話が継続しているかの判断は行える。しかし、特許文献1~3の技術であっても、ユーザからの発話に応じて音声対話装置が行う処理は、ユーザの状態を考慮したものではない。その結果、音声対話装置はユーザからの発話に対して通り一辺倒の案内しか提供できず、ユーザからの発話に対応する課題を解決することができない場合がある。
【0008】
本発明では、ユーザの発話に対する応答として、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力するための技術を提供する。
【課題を解決するための手段】
【0009】
本発明の一様態は、音声対話装置であって、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得手段と、前記発話に対する応答を、前記位置関係に応じて生成する生成手段と、前記応答を出力する出力手段とを備えることを特徴とする。
【発明の効果】
【0010】
本発明の構成によれば、ユーザの発話に対する応答として、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力することができる。
【図面の簡単な説明】
【0011】
【
図2】音声対話装置101の機能構成例を示すブロック図。
【
図3】コンピュータ装置のハードウェア構成例を示すブロック図。
【
図4】音声対話装置101の動作を示すフローチャート。
【
図5】音声対話装置101の動作を示すフローチャート。
【
図6】音声対話装置101の動作を示すフローチャート。
【
図7】音声対話装置101の動作を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0013】
[第1の実施形態]
本実施形態では、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係を取得し、該発話に対する応答を該位置関係に応じて生成し、該応答を出力する音声対話装置について説明する。
【0014】
本実施形態では、このような音声対話装置がスマートスピーカであるケースについて説明する。しかし、音声対話装置に適用可能な装置はスマートスピーカに限らない。例えば、音声対話装置は、人工知能(Artificial Intelligence、AI)デバイス(例えば、携帯電話、パーソナルコンピュータ、タブレット端末装置、ウェアラブルデバイス、ロボット、スマート家電、サーバなどの端末デバイス、工業生産デバイス、医療機械デバイス、セキュリティデバイスなど)に適用することができる。
【0015】
本実施形態に係る音声対話装置は例えば、ユーザが探している物体Aの所在を問うべく、「物体Aはどこ?」という音声を発話すると、音声対話装置は、該音声と、撮像画像と、を用いて、ユーザ、物体A、該音声対話装置、の間の相対的な位置関係を取得する。そして音声対話装置は、該取得した位置関係から、「物体Aは貴方の右側/左側にあります」などの「該取得した位置関係に応じた応答」を出力する。
【0016】
まず、本実施形態に係る音声対話装置の外観例について、
図1を用いて説明する。
図1に示す如く、本実施形態に係る音声対話装置101は、音声を収集するマイク102、音声対話装置101の外界を撮像するカメラ104、音声を出力するスピーカ103、を有する。カメラ104は、動画像を撮像する場合には、該動画像の各フレームの画像を撮像画像として取得する。一方、カメラ104は、定期的若しくは不定期的に静止画像を撮像する場合には、該静止画像を撮像画像として取得する。また、音声対話装置101は、他の音声対話装置である音声対話装置105a、105bと有線および/または無線のネットワークを介して接続されている。音声対話装置105a、105bは、音声対話装置101と同様の機能を有する装置である。
【0017】
音声対話装置101の機能構成例を
図2のブロック図に示す。
図2の機能構成例を有する音声対話装置101の動作について
図4のフローチャートに従って説明する。
図4のフローチャートに従った処理は、ユーザが「ユーザ、ユーザの発話内容に含まれている物体、音声対話装置101の間の相対的な位置関係に対応する応答」を要求する発話(例えば上記の「物体Aはどこ?」といった音声の発話)を行った場合に実施される。
【0018】
ステップS401では、受信部201は、マイク102が収集した音声(ユーザが発話した音声)を取得すると共に、カメラ104が取得した撮像画像を取得する。言語受信部202は、受信部201が取得した音声を取得し、画像受信部203は、受信部201が取得した撮像画像を取得する。
【0019】
ステップS402では、言語解析部205は、言語受信部202が受信した音声に対して音声認識を実行する。また物体認識部206は、画像受信部203が取得した撮像画像に含まれている物体を認識する。
【0020】
物体検出部207は、物体認識部206が撮像画像から認識した物体のうちユーザの位置(音声対話装置101に対する相対位置)を取得する。撮像画像におけるユーザの位置(音声対話装置101に対する相対位置)を取得する方法には様々な方法が適用可能であり、特定の方法に限らない。例えば、2枚以上の撮像画像(スレテオ画像)を用いてユーザの位置(音声対話装置101に対する相対位置)を求めても良い。また、画像からユーザの位置(音声対話装置101に対する相対位置)を推定するよう学習済みの識別器を用いて撮像画像からユーザの位置(音声対話装置101に対する相対位置)を推定しても良い。また、距離画像を撮像し、該距離画像を用いてユーザの位置(音声対話装置101に対する相対位置)を求めても良いし、対物センサなどのセンサを用いてユーザの位置(音声対話装置101に対する相対位置)を求めても良い。
【0021】
また物体検出部207は、言語解析部205による音声認識の結果から、ユーザが探している物体を対象物体として特定し、物体認識部206が撮像画像から認識した物体のうち対象物体の位置(音声対話装置101に対する相対位置)を取得する。対象物体の位置を取得する方法には、上記のユーザの位置を取得する方法と同様の方法を適用することができる。
【0022】
そして物体検出部207は、音声対話装置101に対するユーザの相対位置、音声対話装置101に対する対象物体の相対位置、を管理部208に通知する。算出部209は、管理部208に通知された「音声対話装置101に対するユーザの相対位置」、「音声対話装置101に対する対象物体の相対位置」、を用いて、ユーザと対象物体との間の相対的な位置関係を求める。
【0023】
このような処理により、音声対話装置101に対するユーザの相対位置、音声対話装置101に対する対象物体の相対位置、ユーザと対象物体との間の相対的な位置関係、を「ユーザ、対象物体、音声対話装置101の間の相対的な位置関係」として得ることができる。
【0024】
ステップS404では、応答生成部210は、「ユーザ、対象物体、音声対話装置101の間の相対的な位置関係」に応じた応答を、ユーザの発話に対する応答として生成する。
【0025】
例えば、ユーザが「物体Aはどこ?」という音声の発話を行ったとする。このとき、ユーザの音声からは音声認識により、対象物体として「物体A」が得られるので、撮像画像に含まれている物体のうち物体Aについて「音声対話装置101に対する相対位置」が得られる。また、撮像画像におけるユーザについて「音声対話装置101に対する相対位置」も得られるので、これらの相対位置から、ユーザの位置に対して物体Aがどの位置にあるのか(ユーザに対する物体Aの相対位置)を取得することができる。よって応答生成部210は、ユーザの位置に対して物体Aがどの位置にあるのかをユーザに通知するための応答を生成する。例えば、「ユーザに対する物体Aの相対位置」が「ユーザの右下」であった場合、応答生成部210は、応答として「貴方の右下に物体Aがあります」を生成する。
【0026】
また例えば、撮像画像に物体として「机」、「椅子」、「消しゴム」が含まれており、ユーザが「消しゴムはどこ?」という音声の発話を行ったとする。このとき、撮像画像に含まれている物体のうち消しゴム以外の物体(例えば、消しゴムに最も近い位置の物体)を基準物体とし、基準物体および消しゴムについて「音声対話装置101に対する相対位置」を取得する。そして、これらの相対位置から、基準物体の位置に対して消しゴムがどの位置にあるのか(基準物体に対する消しゴムの相対位置)を取得することができる。よって応答生成部210は、基準物体の位置に対して消しゴムがどの位置にあるのかをユーザに通知するための応答を生成する。例えば、「基準物体に対する消しゴムの相対位置」が「基準物体の右下」であった場合、応答生成部210は、応答として「基準物体の右下に消しゴムがあります」を生成する。
【0027】
このように、「ユーザ、対象物体、音声対話装置101の間の相対的な位置関係」に応じた応答の生成方法には様々な生成方法があり、いずれの生成方法を適用してもよく、特定の生成方法に限らない。
【0028】
ステップS405では、応答生成部210は、ステップS404にて生成した応答を伝達部214に送出する。伝達部214は、該応答を発信部216に送出するので、発信部216は、該応答をスピーカ103を介して音声として出力する。
【0029】
なお、応答をユーザに通知する方法は音声に限らず、音声に代えて若しくは加えて画像や文字を用いても良い。例えば音声対話装置101が表示画面を有している場合、該表示画面に撮像画像を表示し、該撮像画像においてユーザおよび対象物体の位置にマーカを重ねて表示しても良いし、ユーザの位置から対象物体の位置に向かう矢印を該撮像画像に重ねて表示しても良い。このように、応答生成部210が生成する応答は、音声であっても良いし、文字であっても良いし、画像であっても良いし、これらの一部若しくは全部の組み合わせであっても良い。
【0030】
このように本実施形態によれば、ユーザ、ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力することができるため、該物体に係る課題を発話にて問い合わせた場合に、該課題を迅速に解決することができる。
【0031】
[第2の実施形態]
本実施形態を含む以下の各実施形態では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。本実施形態では、ユーザの発話に対する応答の出力後、未だユーザが課題を解決できていないと判断される場合には、異なる生成方法で更に応答を生成して出力する。これにより、ある応答内容で課題解決がされていないと判断される場合に、通り一辺倒の応答を繰り返すことがなくなり、よりユーザの課題解決を促進することが可能になる。
【0032】
本実施形態に係る音声対話装置101の動作について、
図5のフローチャートに従って説明する。
図5のフローチャートにおいて
図4に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
【0033】
ステップS406では、管理部213は、ステップS405での応答の出力後に、ユーザの課題(ユーザが発話した問い合わせ)が解決しているか否かの判断を行う。「ユーザの課題が解決しているか否かの判断」を実現するための方法は特定の方法に限らず、様々な方法を適用することができる。
【0034】
例えば、管理部213は、ステップS405にて最後に応答を出力してから一定時間以内に「見つけた」などの課題が解決された旨の音声入力があった場合には、「ユーザの課題は解決した」と判断する。一方、管理部213は、ステップS405にて最後に応答を出力してから一定時間以上経過しても「見つけた」などの課題が解決された旨の音声入力がない場合には、「ユーザの課題は解決していない」と判断する。
【0035】
また例えば、管理部213は、ステップS405にて最後に応答を出力してから一定時間以内に対象物体の位置が変わった(もしくは変化の範囲が一定範囲を超えている)場合には、「ユーザの課題は解決した」と判断する。一方、管理部213は、ステップS405にて最後に応答を出力してから一定時間以上経過しても対象物体の位置が変わらなかった(もしくは変化の範囲が一定範囲以内である)場合には、「ユーザの課題は解決していない」と判断する。
【0036】
また例えば、管理部213は、応答の出力回数が一定回数未満であれば「ユーザの課題は解決していない」と判断し、応答の出力回数が一定回数以上であれば「ユーザの課題は解決した」と判断する。
【0037】
このような判断の結果、ユーザの課題は解決していると判断した場合には、
図5のフローチャートに従った処理は終了する。一方、ユーザの課題は未だ解決していないと判断した場合には、処理はステップS407に進む。
【0038】
ステップS407では、応答生成部210は、「ユーザ、対象物体、音声対話装置101の間の相対的な位置関係」に応じた応答を、ユーザの発話に対する応答として生成する。その際、先の応答と異なる応答を生成する。本実施形態では、条件指定部215により複数の生成方法のそれぞれに対して優先順位を予め設定しておき、応答生成部210は、より高い優先順位の生成方法から順に選択して該選択した生成方法で応答を生成する。このような生成方法には、第1の実施形態でステップS404について説明した様々な生成方法が含まれ得る。また生成方法には、対象物体の位置を絶対位置でユーザに通知するための応答を生成する、という生成方法もある。
【0039】
そして処理はステップS405に進み、応答生成部210は、ステップS407にて生成した応答を伝達部214に送出し、伝達部214は、該応答を発信部216に送出するので、発信部216は、該応答をスピーカ103を介して音声として出力する。
【0040】
このように、本実施形態によれば、ユーザが課題を解決できていないと判断されるたびに、異なる生成方法で生成された応答を出力するので、よりユーザの課題解決を促進することが可能になる。
【0041】
[第3の実施形態]
本実施形態では、「ユーザの課題が解決しているか否かの判断」を実現するための方法が第2の実施形態と異なる。本実施形態に係る音声対話装置101の動作について、
図6のフローチャートに従って説明する。
図6のフローチャートにおいて
図5に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
【0042】
ステップS601では、管理部213は、ステップS405での応答の出力後に、ユーザの課題が解決しているか否かの判断を行う。「ユーザの課題が解決しているか否かの判断」を実現するための方法は特定の方法に限らず、様々な方法を適用することができる。例えば、特定部212は、物体認識部206が認識したユーザについて、該ユーザの体の向き、顔の向き、視線の方向などの「ユーザの状態」を特定する。そして管理部213は、該特定した「ユーザの状態」を用いて、該ユーザが先の応答に対して適当な行動をとっているか否か(ユーザの課題が解決しているか否か)を判断する。例えば、自宅などで探し物をしたいユーザが該探し物から距離が離れてしまっていないか、ユーザから見て探し物の方向とは異なる方向に視線が向けられていないか等を判断する。
【0043】
このような判断の結果、ユーザの課題は解決していると判断した場合には、
図6のフローチャートに従った処理は終了する。一方、ユーザの課題は未だ解決していないと判断した場合には、処理はステップS407に進む。以降は、第2の実施形態と同様である。
【0044】
なお、ステップS407では、ユーザにどのような生成方法で応答を生成するのかを画像、文字、音声などを用いて問い合わせ、該問い合わせに対してユーザが指示した生成方法でもって応答を生成するようにしても良い。つまり、生成方法を変えて応答を再度生成するための処理には様々な処理があり、上記で述べた様々な処理に限らない。
【0045】
[第4の実施形態]
本実施形態では、音声対話装置101のみでユーザの課題が解決できない場合には、該音声対話装置101と通信可能な他のデバイスである音声対話装置105aや音声対話装置105bと連携して、ユーザの課題を解決するための動作を行う。
【0046】
本実施形態に係る音声対話装置101の動作について、
図7のフローチャートに従って説明する。
図7のフローチャートにおいて
図4~6に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。
【0047】
本実施形態では、ステップS406において、ユーザの課題が解決していないと判断した場合には、処理はステップS701に進む。ステップS701では、検知部204は、音声対話装置101と有線および/または無線のネットワークを介して接続されているデバイス(連携デバイス)があるか否かを判断する。この判断の結果、連携デバイスがある場合には、処理はステップS702に進み、連携デバイスがない場合には、処理はステップS405に進む。以下では、音声対話装置105aおよび音声対話装置105bが連携デバイスとして音声対話装置101と有線および/または無線のネットワークを介して接続されているものとする。
【0048】
ステップS702では、連携部211は、言語解析部205による音声認識の結果を含む依頼指示を生成し、該依頼指示を、発信部216を介して音声対話装置105aおよび音声対話装置105bに対して送信する。
【0049】
音声対話装置105aおよび音声対話装置105bは音声対話装置101から依頼指示を受けると、依頼指示に含まれている音声認識の結果から音声対話装置101と同様にユーザが探している物体を対象物体として特定し、自身が撮像した撮像画像から認識した物体のうち対象物体を検出する検出処理を行う。そして音声対話装置105aおよび音声対話装置105bは、自装置が設置されている場所(部屋名、部屋番号など)を示す場所情報と、撮像画像から対象物体を検出できたか否かを示す判断情報と、を含む応答を音声対話装置101に対して送信する。
【0050】
ステップS703では、受信部203は、音声対話装置105aおよび音声対話装置105bから送信された応答を受信する。そして処理がステップS703からステップS405に進んだ場合、ステップS405では、応答生成部210は、ステップS703で受信したそれぞれの応答を伝達部214に送出する。伝達部214は、該それぞれの応答を順次発信部216に送出するので、発信部216は、該それぞれの応答を順次スピーカ103を介して音声として出力する。
【0051】
このようなシステムによれば、例えば、音声対話装置101が設置されている部屋Aとは別の部屋Bに探し物がある場合、該部屋Bに設置された連携デバイスは、部屋Bを示す場所情報と、撮像画像から探し物を検出できた旨を示す判断情報と、を含む応答を音声対話装置101に送信する。この場合、音声対話装置101は、該応答から、部屋Bに探し物があった旨を出力する。一方、部屋Bとは異なる部屋C(探し物がない部屋)に設置された連携デバイスは、部屋Cを示す場所情報と、撮像画像から探し物を検出できなかった旨を示す判断情報と、を応答として音声対話装置101に送信する。この場合、音声対話装置101は、該応答から、部屋Cに探し物がなかった旨を出力する。
【0052】
なお、連携デバイスは、撮像画像から対象物体を検出した場合には、基準物体との相対位置など、撮像画像中における対象物体の位置を示す情報も応答に含めて音声対話装置101に送信するようにしても良い。また、その際には、連携デバイスは、撮像画像における対象物体の領域を示す枠、基準物体などの基準に対する対象物体の相対位置を示すマーカ、などを重畳させた該撮像画像を応答に含めて音声対話装置101に送信しても良い。また、音声対話装置101や連携デバイスなど、上記の説明に登場したデバイスは、同一の施設や同一の国に存在することを要しない。
【0053】
[第5の実施形態]
図2に示した音声対話装置101の各機能部はハードウェアで実装しても良いし、ソフトウェア(コンピュータプログラム)で実装しても良い。後者の場合、該コンピュータプログラムを実行可能なコンピュータ装置は、音声対話装置101に適用可能である。音声対話装置101に適用可能なコンピュータ装置のハードウェア構成例について、
図3のブロック図を用いて説明する。
【0054】
CPU301は、RAM302やROM303に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU301は、コンピュータ装置全体の動作制御を行うと共に、音声対話装置101が行うものとして説明した各処理を実行もしくは制御する。
【0055】
RAM302は、ROM303や記憶装置305からロードされたコンピュータプログラムやデータを格納するためのエリアを有する。またRAM302は、入出力インターフェース304を介して外部(マイク102、カメラ104など)から受信したデータを格納するためのエリアを有する。またRAM302は、CPU301が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM302は、各種のエリアを適宜提供することができる。
【0056】
ROM303には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
【0057】
入出力インターフェース304は、カメラ104、マイク102、スピーカ103などの機器との間のデータ通信を行うためのインターフェースである。カメラ104から出力された撮像画像やマイク102から出力された音声は、入出力インターフェース304を介して記憶装置305やRAM302に格納される。また、コンピュータ装置にて生成した応答は、入出力インターフェース304を介してスピーカ103に対して出力される。
【0058】
記憶装置305は、ハードディスク装置、フラッシュメモリなどの大容量情報記憶装置である。記憶装置305には、OS(オペレーティングシステム)や、音声対話装置101が行うものとして説明した各処理をCPU301に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。記憶装置305に保存されているデータには、上記の説明において既知のデータとして取り扱ったデータも含まれる。
【0059】
記憶装置305に保存されているコンピュータプログラムやデータは、CPU301による制御に従って適宜RAM302にロードされ、CPU301による処理対象となる。
【0060】
CPU301、RAM302、ROM303、入出力インターフェース304、記憶装置305はいずれも、システムバス306に接続されている。なお、
図3に示したハードウェア構成は、音声対話装置101に適用可能なコンピュータ装置のハードウェア構成の一例に過ぎず、適宜変形/変更が可能である。
【0061】
また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ(情報)の送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
【0062】
また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
【0063】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0064】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0065】
201:受信部 202:言語受信部 203:画像受信部 204:検知部 205:言語解析部 206:物体認識部 207:物体検出部 208:管理部 209:算出部 210:応答生成部 211:連携部 212:特定部 213:管理部 214:伝達部 215:条件指定部