特開2022-190547 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ キヤノン株式会社の特許一覧

特開2022-190547音声対話装置、音声対話方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022190547

(43)【公開日】2022-12-26

(54)【発明の名称】音声対話装置、音声対話方法

(51)【国際特許分類】

G10L 15/22 20060101AFI20221219BHJP

G10L 13/00 20060101ALI20221219BHJP

G06F 3/16 20060101ALI20221219BHJP

【ＦＩ】

G10L15/22 300Z

G10L13/00 100M

G06F3/16 610

G06F3/16 650

G06F3/16 690

G06F3/16 620

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2021098918

(22)【出願日】2021-06-14

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】清水功雄

(57)【要約】（修正有）

【課題】ユーザの発話に対する応答として、ユーザと、ユーザの発話内容に含まれている物体と、音声対話装置との間の相対的な位置関係に応じた応答を出力する音声対話装置及び音声対話方法を提供する。
【解決手段】音声対話方法は、ユーザの撮像画像およびユーザが発話した音声を取得するステップと、ユーザ、ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係を取得するステップと、取得した位置関係に応じて発話に対する応答を生成するステップと、応答を出力するステップと、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

音声対話装置であって、
ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得手段と、
前記発話に対する応答を、前記位置関係に応じて生成する生成手段と、
前記応答を出力する出力手段と
を備えることを特徴とする音声対話装置。

【請求項2】

前記取得手段は、
前記撮像画像に含まれている物体のうち、前記ユーザ、前記ユーザの発話内容に含まれている物体、のそれぞれの前記音声対話装置に対する相対的な位置を取得し、該取得した位置を用いて前記ユーザと前記物体との間の相対的な位置関係を取得することを特徴とする請求項１に記載の音声対話装置。

【請求項3】

前記生成手段は、前記ユーザの位置に対して前記物体がどの位置にあるのかをユーザに通知するための応答を生成することを特徴とする請求項１または２に記載の音声対話装置。

【請求項4】

前記生成手段は、前記撮像画像に含まれている基準物体に対する前記物体の相対的な位置をユーザに通知するための応答を生成することを特徴とする請求項１または２に記載の音声対話装置。

【請求項5】

さらに、
ユーザが発話した問い合わせが解決しているか否かを判断する判断手段を備え、
前記生成手段は、前記問い合わせが解決していないと前記判断手段が判断した場合には、生成方法を変えて前記応答を再度生成することを特徴とする請求項１ないし４のいずれか１項に記載の音声対話装置。

【請求項6】

前記判断手段は、最後に応答を出力してから一定時間以内に前記問い合わせが解決した旨の音声入力があった場合には、前記問い合わせが解決したと判断し、最後に応答を出力してから一定時間以上経過しても前記問い合わせが解決した旨の音声入力がない場合には、前記問い合わせは解決していないと判断することを特徴とする請求項５に記載の音声対話装置。

【請求項7】

前記判断手段は、最後に応答を出力してから一定時間以内に物体の位置が変わった場合には、前記問い合わせが解決したと判断し、最後に応答を出力してから一定時間以上経過しても物体の位置が変わらなかった場合には、前記問い合わせは解決していないと判断することを特徴とする請求項５に記載の音声対話装置。

【請求項8】

前記判断手段は、応答の出力回数が一定回数未満であれば、前記問い合わせは解決していないと判断し、応答の出力回数が一定回数以上であれば、前記問い合わせは解決したと判断することを特徴とする請求項５に記載の音声対話装置。

【請求項9】

前記判断手段は、前記撮像画像における前記ユーザの状態に応じて、前記問い合わせが解決しているか否かを判断することを特徴とする請求項５に記載の音声対話装置。

【請求項10】

前記出力手段は、前記応答を音声として出力することを特徴とする請求項１ないし９のいずれか１項に記載の音声対話装置。

【請求項11】

前記出力手段は、前記ユーザの位置から前記物体の位置に向かう矢印を前記撮像画像に重ねて表示することを特徴とする請求項１ないし１０のいずれか１項に記載の音声対話装置。

【請求項12】

さらに、
ユーザが発話した問い合わせが解決しているか否かを判断する判断手段と、
前記問い合わせが解決していないと前記判断手段が判断した場合には、前記音声対話装置とネットワークを介して接続されている連携デバイスに対して前記音声に対する音声認識の結果を送信し、該連携デバイスが設置されている場所を示す情報と、該連携デバイスにおいて撮像された撮像画像から前記物体が検出されたか否かを示す情報と、を含む応答を該連携デバイスから受信する通信手段と
を備え、
前記出力手段は、前記通信手段が受信した応答を出力することを特徴とする請求項１ないし４のいずれか１項に記載の音声対話装置。

【請求項13】

前記応答は、前記連携デバイスにおいて撮像された撮像画像における前記物体の位置を示す情報を含むことを特徴とする請求項１２に記載の音声対話装置。

【請求項14】

前記応答は、前記連携デバイスにおいて撮像された撮像画像における前記物体の領域を示す枠を重畳させた該撮像画像を含むことを特徴とする請求項１２または１３に記載の音声対話装置。

【請求項15】

前記応答は、前記連携デバイスにおいて撮像された撮像画像における基準物体に対する前記物体の相対位置を示すマーカを重畳させた該撮像画像を含むことを特徴とする請求項１２ないし１４のいずれか１項に記載の音声対話装置。

【請求項16】

音声対話装置が行う音声対話方法であって、
前記音声対話装置の取得手段が、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得工程と、
前記音声対話装置の生成手段が、前記発話に対する応答を、前記位置関係に応じて生成する生成工程と、
前記音声対話装置の出力手段が、前記応答を出力する出力工程と
を備えることを特徴とする音声対話方法。

【請求項17】

コンピュータを、請求項１ないし１５のいずれか１項に記載の音声対話装置の各手段として機能させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声対話技術に関するものである。

【背景技術】

【0002】

ユーザの発話に対応した処理を実行する音声対話装置が利用されている。音声対話装置の多くは、ウェイクワードと呼ばれる予め定められたキーワードに続くユーザの発話を検知することで、その発話が音声対話装置に向けられたものであることを認識し、その発話に対応した処理（コマンド）を実行する。しかしながら、該処理は、ユーザの状態（例えばユーザの位置・姿勢・視線・距離など）を考慮したものではなく、その結果、通り一辺倒の案内しか提供されないことがある。

【0003】

これに対し、特許文献１では、ユーザの位置を特定することで、距離に応じて音声対話装置が受けた発話が実際に音声対話装置に向けられたものであるかを判断することができる技術が開示されている。

【0004】

また、特許文献２では、音声対話装置が、ユーザの視線から、音声対話装置が受けた発話が音声対話装置に向けられたものであるかを判断することができる技術が開示されている。

【0005】

また、特許文献３では、音声対話装置が、ユーザとの間の対話において、ユーザからの応答がないなど空き時間が一定以上になった場合は会話が終了と判定することができる技術が開示されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１８－１３５４５号公報

【特許文献2】特開２０１５－２１９４４０号公報

【特許文献3】特開平０７－２３９６９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１～３に挙げた技術を用いると、ユーザが音声対話装置に向けて発しているか、或いは対話が継続しているかの判断は行える。しかし、特許文献１～３の技術であっても、ユーザからの発話に応じて音声対話装置が行う処理は、ユーザの状態を考慮したものではない。その結果、音声対話装置はユーザからの発話に対して通り一辺倒の案内しか提供できず、ユーザからの発話に対応する課題を解決することができない場合がある。

【0008】

本発明では、ユーザの発話に対する応答として、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力するための技術を提供する。

【課題を解決するための手段】

【0009】

本発明の一様態は、音声対話装置であって、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、前記音声対話装置、の間の相対的な位置関係を取得する取得手段と、前記発話に対する応答を、前記位置関係に応じて生成する生成手段と、前記応答を出力する出力手段とを備えることを特徴とする。

【発明の効果】

【0010】

本発明の構成によれば、ユーザの発話に対する応答として、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力することができる。

【図面の簡単な説明】

【0011】

【図1】音声対話装置の外観例を示す図。

【図2】音声対話装置１０１の機能構成例を示すブロック図。

【図3】コンピュータ装置のハードウェア構成例を示すブロック図。

【図4】音声対話装置１０１の動作を示すフローチャート。

【図5】音声対話装置１０１の動作を示すフローチャート。

【図6】音声対話装置１０１の動作を示すフローチャート。

【図7】音声対話装置１０１の動作を示すフローチャート。

【発明を実施するための形態】

【0012】

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0013】

［第１の実施形態］
本実施形態では、ユーザの撮像画像および該ユーザが発話した音声に基づいて、該ユーザ、該ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係を取得し、該発話に対する応答を該位置関係に応じて生成し、該応答を出力する音声対話装置について説明する。

【0014】

本実施形態では、このような音声対話装置がスマートスピーカであるケースについて説明する。しかし、音声対話装置に適用可能な装置はスマートスピーカに限らない。例えば、音声対話装置は、人工知能（Artificial Intelligence、AI）デバイス（例えば、携帯電話、パーソナルコンピュータ、タブレット端末装置、ウェアラブルデバイス、ロボット、スマート家電、サーバなどの端末デバイス、工業生産デバイス、医療機械デバイス、セキュリティデバイスなど）に適用することができる。

【0015】

本実施形態に係る音声対話装置は例えば、ユーザが探している物体Ａの所在を問うべく、「物体Ａはどこ？」という音声を発話すると、音声対話装置は、該音声と、撮像画像と、を用いて、ユーザ、物体Ａ、該音声対話装置、の間の相対的な位置関係を取得する。そして音声対話装置は、該取得した位置関係から、「物体Ａは貴方の右側／左側にあります」などの「該取得した位置関係に応じた応答」を出力する。

【0016】

まず、本実施形態に係る音声対話装置の外観例について、図１を用いて説明する。図１に示す如く、本実施形態に係る音声対話装置１０１は、音声を収集するマイク１０２、音声対話装置１０１の外界を撮像するカメラ１０４、音声を出力するスピーカ１０３、を有する。カメラ１０４は、動画像を撮像する場合には、該動画像の各フレームの画像を撮像画像として取得する。一方、カメラ１０４は、定期的若しくは不定期的に静止画像を撮像する場合には、該静止画像を撮像画像として取得する。また、音声対話装置１０１は、他の音声対話装置である音声対話装置１０５ａ、１０５ｂと有線および／または無線のネットワークを介して接続されている。音声対話装置１０５ａ、１０５ｂは、音声対話装置１０１と同様の機能を有する装置である。

【0017】

音声対話装置１０１の機能構成例を図２のブロック図に示す。図２の機能構成例を有する音声対話装置１０１の動作について図４のフローチャートに従って説明する。図４のフローチャートに従った処理は、ユーザが「ユーザ、ユーザの発話内容に含まれている物体、音声対話装置１０１の間の相対的な位置関係に対応する応答」を要求する発話（例えば上記の「物体Ａはどこ？」といった音声の発話）を行った場合に実施される。

【0018】

ステップＳ４０１では、受信部２０１は、マイク１０２が収集した音声（ユーザが発話した音声）を取得すると共に、カメラ１０４が取得した撮像画像を取得する。言語受信部２０２は、受信部２０１が取得した音声を取得し、画像受信部２０３は、受信部２０１が取得した撮像画像を取得する。

【0019】

ステップＳ４０２では、言語解析部２０５は、言語受信部２０２が受信した音声に対して音声認識を実行する。また物体認識部２０６は、画像受信部２０３が取得した撮像画像に含まれている物体を認識する。

【0020】

物体検出部２０７は、物体認識部２０６が撮像画像から認識した物体のうちユーザの位置（音声対話装置１０１に対する相対位置）を取得する。撮像画像におけるユーザの位置（音声対話装置１０１に対する相対位置）を取得する方法には様々な方法が適用可能であり、特定の方法に限らない。例えば、２枚以上の撮像画像（スレテオ画像）を用いてユーザの位置（音声対話装置１０１に対する相対位置）を求めても良い。また、画像からユーザの位置（音声対話装置１０１に対する相対位置）を推定するよう学習済みの識別器を用いて撮像画像からユーザの位置（音声対話装置１０１に対する相対位置）を推定しても良い。また、距離画像を撮像し、該距離画像を用いてユーザの位置（音声対話装置１０１に対する相対位置）を求めても良いし、対物センサなどのセンサを用いてユーザの位置（音声対話装置１０１に対する相対位置）を求めても良い。

【0021】

また物体検出部２０７は、言語解析部２０５による音声認識の結果から、ユーザが探している物体を対象物体として特定し、物体認識部２０６が撮像画像から認識した物体のうち対象物体の位置（音声対話装置１０１に対する相対位置）を取得する。対象物体の位置を取得する方法には、上記のユーザの位置を取得する方法と同様の方法を適用することができる。

【0022】

そして物体検出部２０７は、音声対話装置１０１に対するユーザの相対位置、音声対話装置１０１に対する対象物体の相対位置、を管理部２０８に通知する。算出部２０９は、管理部２０８に通知された「音声対話装置１０１に対するユーザの相対位置」、「音声対話装置１０１に対する対象物体の相対位置」、を用いて、ユーザと対象物体との間の相対的な位置関係を求める。

【0023】

このような処理により、音声対話装置１０１に対するユーザの相対位置、音声対話装置１０１に対する対象物体の相対位置、ユーザと対象物体との間の相対的な位置関係、を「ユーザ、対象物体、音声対話装置１０１の間の相対的な位置関係」として得ることができる。

【0024】

ステップＳ４０４では、応答生成部２１０は、「ユーザ、対象物体、音声対話装置１０１の間の相対的な位置関係」に応じた応答を、ユーザの発話に対する応答として生成する。

【0025】

例えば、ユーザが「物体Ａはどこ？」という音声の発話を行ったとする。このとき、ユーザの音声からは音声認識により、対象物体として「物体Ａ」が得られるので、撮像画像に含まれている物体のうち物体Ａについて「音声対話装置１０１に対する相対位置」が得られる。また、撮像画像におけるユーザについて「音声対話装置１０１に対する相対位置」も得られるので、これらの相対位置から、ユーザの位置に対して物体Ａがどの位置にあるのか（ユーザに対する物体Ａの相対位置）を取得することができる。よって応答生成部２１０は、ユーザの位置に対して物体Ａがどの位置にあるのかをユーザに通知するための応答を生成する。例えば、「ユーザに対する物体Ａの相対位置」が「ユーザの右下」であった場合、応答生成部２１０は、応答として「貴方の右下に物体Ａがあります」を生成する。

【0026】

また例えば、撮像画像に物体として「机」、「椅子」、「消しゴム」が含まれており、ユーザが「消しゴムはどこ？」という音声の発話を行ったとする。このとき、撮像画像に含まれている物体のうち消しゴム以外の物体（例えば、消しゴムに最も近い位置の物体）を基準物体とし、基準物体および消しゴムについて「音声対話装置１０１に対する相対位置」を取得する。そして、これらの相対位置から、基準物体の位置に対して消しゴムがどの位置にあるのか（基準物体に対する消しゴムの相対位置）を取得することができる。よって応答生成部２１０は、基準物体の位置に対して消しゴムがどの位置にあるのかをユーザに通知するための応答を生成する。例えば、「基準物体に対する消しゴムの相対位置」が「基準物体の右下」であった場合、応答生成部２１０は、応答として「基準物体の右下に消しゴムがあります」を生成する。

【0027】

このように、「ユーザ、対象物体、音声対話装置１０１の間の相対的な位置関係」に応じた応答の生成方法には様々な生成方法があり、いずれの生成方法を適用してもよく、特定の生成方法に限らない。

【0028】

ステップＳ４０５では、応答生成部２１０は、ステップＳ４０４にて生成した応答を伝達部２１４に送出する。伝達部２１４は、該応答を発信部２１６に送出するので、発信部２１６は、該応答をスピーカ１０３を介して音声として出力する。

【0029】

なお、応答をユーザに通知する方法は音声に限らず、音声に代えて若しくは加えて画像や文字を用いても良い。例えば音声対話装置１０１が表示画面を有している場合、該表示画面に撮像画像を表示し、該撮像画像においてユーザおよび対象物体の位置にマーカを重ねて表示しても良いし、ユーザの位置から対象物体の位置に向かう矢印を該撮像画像に重ねて表示しても良い。このように、応答生成部２１０が生成する応答は、音声であっても良いし、文字であっても良いし、画像であっても良いし、これらの一部若しくは全部の組み合わせであっても良い。

【0030】

このように本実施形態によれば、ユーザ、ユーザの発話内容に含まれている物体、音声対話装置、の間の相対的な位置関係に応じた応答を出力することができるため、該物体に係る課題を発話にて問い合わせた場合に、該課題を迅速に解決することができる。

【0031】

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。本実施形態では、ユーザの発話に対する応答の出力後、未だユーザが課題を解決できていないと判断される場合には、異なる生成方法で更に応答を生成して出力する。これにより、ある応答内容で課題解決がされていないと判断される場合に、通り一辺倒の応答を繰り返すことがなくなり、よりユーザの課題解決を促進することが可能になる。

【0032】

本実施形態に係る音声対話装置１０１の動作について、図５のフローチャートに従って説明する。図５のフローチャートにおいて図４に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

【0033】

ステップＳ４０６では、管理部２１３は、ステップＳ４０５での応答の出力後に、ユーザの課題（ユーザが発話した問い合わせ）が解決しているか否かの判断を行う。「ユーザの課題が解決しているか否かの判断」を実現するための方法は特定の方法に限らず、様々な方法を適用することができる。

【0034】

例えば、管理部２１３は、ステップＳ４０５にて最後に応答を出力してから一定時間以内に「見つけた」などの課題が解決された旨の音声入力があった場合には、「ユーザの課題は解決した」と判断する。一方、管理部２１３は、ステップＳ４０５にて最後に応答を出力してから一定時間以上経過しても「見つけた」などの課題が解決された旨の音声入力がない場合には、「ユーザの課題は解決していない」と判断する。

【0035】

また例えば、管理部２１３は、ステップＳ４０５にて最後に応答を出力してから一定時間以内に対象物体の位置が変わった（もしくは変化の範囲が一定範囲を超えている）場合には、「ユーザの課題は解決した」と判断する。一方、管理部２１３は、ステップＳ４０５にて最後に応答を出力してから一定時間以上経過しても対象物体の位置が変わらなかった（もしくは変化の範囲が一定範囲以内である）場合には、「ユーザの課題は解決していない」と判断する。

【0036】

また例えば、管理部２１３は、応答の出力回数が一定回数未満であれば「ユーザの課題は解決していない」と判断し、応答の出力回数が一定回数以上であれば「ユーザの課題は解決した」と判断する。

【0037】

このような判断の結果、ユーザの課題は解決していると判断した場合には、図５のフローチャートに従った処理は終了する。一方、ユーザの課題は未だ解決していないと判断した場合には、処理はステップＳ４０７に進む。

【0038】

ステップＳ４０７では、応答生成部２１０は、「ユーザ、対象物体、音声対話装置１０１の間の相対的な位置関係」に応じた応答を、ユーザの発話に対する応答として生成する。その際、先の応答と異なる応答を生成する。本実施形態では、条件指定部２１５により複数の生成方法のそれぞれに対して優先順位を予め設定しておき、応答生成部２１０は、より高い優先順位の生成方法から順に選択して該選択した生成方法で応答を生成する。このような生成方法には、第１の実施形態でステップＳ４０４について説明した様々な生成方法が含まれ得る。また生成方法には、対象物体の位置を絶対位置でユーザに通知するための応答を生成する、という生成方法もある。

【0039】

そして処理はステップＳ４０５に進み、応答生成部２１０は、ステップＳ４０７にて生成した応答を伝達部２１４に送出し、伝達部２１４は、該応答を発信部２１６に送出するので、発信部２１６は、該応答をスピーカ１０３を介して音声として出力する。

【0040】

このように、本実施形態によれば、ユーザが課題を解決できていないと判断されるたびに、異なる生成方法で生成された応答を出力するので、よりユーザの課題解決を促進することが可能になる。

【0041】

［第３の実施形態］
本実施形態では、「ユーザの課題が解決しているか否かの判断」を実現するための方法が第２の実施形態と異なる。本実施形態に係る音声対話装置１０１の動作について、図６のフローチャートに従って説明する。図６のフローチャートにおいて図５に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

【0042】

ステップＳ６０１では、管理部２１３は、ステップＳ４０５での応答の出力後に、ユーザの課題が解決しているか否かの判断を行う。「ユーザの課題が解決しているか否かの判断」を実現するための方法は特定の方法に限らず、様々な方法を適用することができる。例えば、特定部２１２は、物体認識部２０６が認識したユーザについて、該ユーザの体の向き、顔の向き、視線の方向などの「ユーザの状態」を特定する。そして管理部２１３は、該特定した「ユーザの状態」を用いて、該ユーザが先の応答に対して適当な行動をとっているか否か（ユーザの課題が解決しているか否か）を判断する。例えば、自宅などで探し物をしたいユーザが該探し物から距離が離れてしまっていないか、ユーザから見て探し物の方向とは異なる方向に視線が向けられていないか等を判断する。

【0043】

このような判断の結果、ユーザの課題は解決していると判断した場合には、図６のフローチャートに従った処理は終了する。一方、ユーザの課題は未だ解決していないと判断した場合には、処理はステップＳ４０７に進む。以降は、第２の実施形態と同様である。

【0044】

なお、ステップＳ４０７では、ユーザにどのような生成方法で応答を生成するのかを画像、文字、音声などを用いて問い合わせ、該問い合わせに対してユーザが指示した生成方法でもって応答を生成するようにしても良い。つまり、生成方法を変えて応答を再度生成するための処理には様々な処理があり、上記で述べた様々な処理に限らない。

【0045】

［第４の実施形態］
本実施形態では、音声対話装置１０１のみでユーザの課題が解決できない場合には、該音声対話装置１０１と通信可能な他のデバイスである音声対話装置１０５ａや音声対話装置１０５ｂと連携して、ユーザの課題を解決するための動作を行う。

【0046】

本実施形態に係る音声対話装置１０１の動作について、図７のフローチャートに従って説明する。図７のフローチャートにおいて図４～６に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

【0047】

本実施形態では、ステップＳ４０６において、ユーザの課題が解決していないと判断した場合には、処理はステップＳ７０１に進む。ステップＳ７０１では、検知部２０４は、音声対話装置１０１と有線および／または無線のネットワークを介して接続されているデバイス（連携デバイス）があるか否かを判断する。この判断の結果、連携デバイスがある場合には、処理はステップＳ７０２に進み、連携デバイスがない場合には、処理はステップＳ４０５に進む。以下では、音声対話装置１０５ａおよび音声対話装置１０５ｂが連携デバイスとして音声対話装置１０１と有線および／または無線のネットワークを介して接続されているものとする。

【0048】

ステップＳ７０２では、連携部２１１は、言語解析部２０５による音声認識の結果を含む依頼指示を生成し、該依頼指示を、発信部２１６を介して音声対話装置１０５ａおよび音声対話装置１０５ｂに対して送信する。

【0049】

音声対話装置１０５ａおよび音声対話装置１０５ｂは音声対話装置１０１から依頼指示を受けると、依頼指示に含まれている音声認識の結果から音声対話装置１０１と同様にユーザが探している物体を対象物体として特定し、自身が撮像した撮像画像から認識した物体のうち対象物体を検出する検出処理を行う。そして音声対話装置１０５ａおよび音声対話装置１０５ｂは、自装置が設置されている場所（部屋名、部屋番号など）を示す場所情報と、撮像画像から対象物体を検出できたか否かを示す判断情報と、を含む応答を音声対話装置１０１に対して送信する。

【0050】

ステップＳ７０３では、受信部２０３は、音声対話装置１０５ａおよび音声対話装置１０５ｂから送信された応答を受信する。そして処理がステップＳ７０３からステップＳ４０５に進んだ場合、ステップＳ４０５では、応答生成部２１０は、ステップＳ７０３で受信したそれぞれの応答を伝達部２１４に送出する。伝達部２１４は、該それぞれの応答を順次発信部２１６に送出するので、発信部２１６は、該それぞれの応答を順次スピーカ１０３を介して音声として出力する。

【0051】

このようなシステムによれば、例えば、音声対話装置１０１が設置されている部屋Ａとは別の部屋Ｂに探し物がある場合、該部屋Ｂに設置された連携デバイスは、部屋Ｂを示す場所情報と、撮像画像から探し物を検出できた旨を示す判断情報と、を含む応答を音声対話装置１０１に送信する。この場合、音声対話装置１０１は、該応答から、部屋Ｂに探し物があった旨を出力する。一方、部屋Ｂとは異なる部屋Ｃ（探し物がない部屋）に設置された連携デバイスは、部屋Ｃを示す場所情報と、撮像画像から探し物を検出できなかった旨を示す判断情報と、を応答として音声対話装置１０１に送信する。この場合、音声対話装置１０１は、該応答から、部屋Ｃに探し物がなかった旨を出力する。

【0052】

なお、連携デバイスは、撮像画像から対象物体を検出した場合には、基準物体との相対位置など、撮像画像中における対象物体の位置を示す情報も応答に含めて音声対話装置１０１に送信するようにしても良い。また、その際には、連携デバイスは、撮像画像における対象物体の領域を示す枠、基準物体などの基準に対する対象物体の相対位置を示すマーカ、などを重畳させた該撮像画像を応答に含めて音声対話装置１０１に送信しても良い。また、音声対話装置１０１や連携デバイスなど、上記の説明に登場したデバイスは、同一の施設や同一の国に存在することを要しない。

【0053】

［第５の実施形態］
図２に示した音声対話装置１０１の各機能部はハードウェアで実装しても良いし、ソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、該コンピュータプログラムを実行可能なコンピュータ装置は、音声対話装置１０１に適用可能である。音声対話装置１０１に適用可能なコンピュータ装置のハードウェア構成例について、図３のブロック図を用いて説明する。

【0054】

ＣＰＵ３０１は、ＲＡＭ３０２やＲＯＭ３０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ３０１は、コンピュータ装置全体の動作制御を行うと共に、音声対話装置１０１が行うものとして説明した各処理を実行もしくは制御する。

【0055】

ＲＡＭ３０２は、ＲＯＭ３０３や記憶装置３０５からロードされたコンピュータプログラムやデータを格納するためのエリアを有する。またＲＡＭ３０２は、入出力インターフェース３０４を介して外部（マイク１０２、カメラ１０４など）から受信したデータを格納するためのエリアを有する。またＲＡＭ３０２は、ＣＰＵ３０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ３０２は、各種のエリアを適宜提供することができる。

【0056】

ＲＯＭ３０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

【0057】

入出力インターフェース３０４は、カメラ１０４、マイク１０２、スピーカ１０３などの機器との間のデータ通信を行うためのインターフェースである。カメラ１０４から出力された撮像画像やマイク１０２から出力された音声は、入出力インターフェース３０４を介して記憶装置３０５やＲＡＭ３０２に格納される。また、コンピュータ装置にて生成した応答は、入出力インターフェース３０４を介してスピーカ１０３に対して出力される。

【0058】

記憶装置３０５は、ハードディスク装置、フラッシュメモリなどの大容量情報記憶装置である。記憶装置３０５には、ＯＳ（オペレーティングシステム）や、音声対話装置１０１が行うものとして説明した各処理をＣＰＵ３０１に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。記憶装置３０５に保存されているデータには、上記の説明において既知のデータとして取り扱ったデータも含まれる。

【0059】

記憶装置３０５に保存されているコンピュータプログラムやデータは、ＣＰＵ３０１による制御に従って適宜ＲＡＭ３０２にロードされ、ＣＰＵ３０１による処理対象となる。

【0060】

ＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、入出力インターフェース３０４、記憶装置３０５はいずれも、システムバス３０６に接続されている。なお、図３に示したハードウェア構成は、音声対話装置１０１に適用可能なコンピュータ装置のハードウェア構成の一例に過ぎず、適宜変形／変更が可能である。

【0061】

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

【0062】

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

【0063】

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0064】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0065】

２０１：受信部２０２：言語受信部２０３：画像受信部２０４：検知部２０５：言語解析部２０６：物体認識部２０７：物体検出部２０８：管理部２０９：算出部２１０：応答生成部２１１：連携部２１２：特定部２１３：管理部２１４：伝達部２１５：条件指定部

【図1】