特許第6739907号(P6739907)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特許6739907機器特定方法、機器特定装置及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6739907
(24)【登録日】2020年7月28日
(45)【発行日】2020年8月12日
(54)【発明の名称】機器特定方法、機器特定装置及びプログラム
(51)【国際特許分類】
   G06Q 10/00 20120101AFI20200730BHJP
   G10L 15/00 20130101ALI20200730BHJP
【FI】
   G06Q10/00
   G10L15/00 200N
【請求項の数】17
【全頁数】41
(21)【出願番号】特願2015-123322(P2015-123322)
(22)【出願日】2015年6月18日
(65)【公開番号】特開2017-10176(P2017-10176A)
(43)【公開日】2017年1月12日
【審査請求日】2018年5月24日
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【弁理士】
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【弁理士】
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】大久保 雅文
(72)【発明者】
【氏名】田中 敬一
(72)【発明者】
【氏名】中村 智典
【審査官】 谷川 智秀
(56)【参考文献】
【文献】 特開2002−318843(JP,A)
【文献】 国際公開第2014/171144(WO,A1)
【文献】 特表2004−504684(JP,A)
【文献】 特開2007−121576(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00−99/00
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
ユーザが視認不可能な空間に存在する第1の機器と前記ユーザが視認可能な空間に存在する第2の機器とから前記ユーザによる操作対象となる対象機器を特定する機器特定装置が行う機器特定方法であって、
前記第1の機器及び前記第2の機器は、前記ユーザの発話に含まれる操作内容を示す情報に対応する2つの機器であり、
前記ユーザの視線が向けられている方向に関する視線情報を取得する取得ステップと、
前記視線情報に基づき、前記ユーザの視線が、前記第2の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する判断ステップと、
前記ユーザの視線が前記第1の領域に向けられていると判断された場合、前記第1の機器と前記第2の機器とのうち前記第1の機器を前記対象機器として特定する特定ステップとを含む
機器特定方法。
【請求項2】
前記判断ステップでは、さらに、前記ユーザの視線が前記第2の機器に向けられているか否かを判断し、
前記特定ステップでは、前記ユーザの視線が前記第2の機器に向けられていると判断された場合、当該第2の機器を前記対象機器として特定する
請求項1記載の機器特定方法。
【請求項3】
前記第1の領域は、前記機器特定装置が存在する領域である
請求項1又は2記載の機器特定方法。
【請求項4】
前記機器特定装置は、前記ユーザの視線が当該機器特定装置に向けられているかを検出する視線検出部を備え、
前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記機器特定装置に向けられていることを検出した旨を前記視線情報として取得し、
前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記機器特定装置に向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断する
請求項3記載の機器特定方法。
【請求項5】
前記機器特定装置は、前記複数の機器とは異なる位置に設置されている集音装置により収集された前記ユーザの発話に基づき前記対象機器を操作し、
前記第1の領域は、前記集音装置が存在する領域である
請求項1又は2記載の機器特定方法。
【請求項6】
前記集音装置は、前記ユーザの視線が当該集音装置に向けられているかを検出する視線検出部を備え、
前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記集音装置に向けられていることを検出した旨を前記視線情報として取得し、
前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記集音装置に向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断する
請求項5記載の機器特定方法。
【請求項7】
前記機器特定装置は、前記ユーザの発話に基づき前記対象機器を操作し、
前記第1の領域は、前記ユーザによる発話の相手であるオブジェクトが存在する領域である
請求項1又は2記載の機器特定方法。
【請求項8】
前記オブジェクトは、前記ユーザの視線が当該オブジェクトに向けられているかを検出する視線検出部を備え、
前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記オブジェクトに向けられていることを検出した旨を前記視線情報として取得し、
前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記オブジェクトに向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断する
請求項7記載の機器特定方法。
【請求項9】
前記機器特定装置は、前記ユーザの発話に基づき前記対象機器を操作し、
前記第1の領域は、前記ユーザによる発話の相手である仮想オブジェクトが存在する領域である
請求項1又は2記載の機器特定方法。
【請求項10】
前記取得ステップでは、撮像装置により撮影された、前記ユーザが含まれる画像を前記視線情報として取得し、
前記判断ステップでは、前記画像を解析することにより、前記ユーザの視線が前記仮想オブジェクトに向けられているか否かを判断し、前記ユーザの視線が前記仮想オブジェクトに向けられていると判断した場合、前記ユーザの視線が前記第1の領域に向けられていると判断する
請求項9記載の機器特定方法。
【請求項11】
前記機器特定方法は、さらに、
前記ユーザの発話内容に基づき前記対象機器を制御するための命令を生成し、当該命令を前記対象機器に送信する操作ステップを含む
請求項1〜10のいずれか1項に記載の機器特定方法。
【請求項12】
前記機器特定方法は、さらに、
前記ユーザに対して、前記特定された対象機器を通知するステップを含む
請求項1〜10のいずれか1項に記載の機器特定方法。
【請求項13】
前記特定ステップでは、前記ユーザの視線が前記第1の領域に向けられている場合であっても、前記ユーザによる発話の内容に、前記第2の機器を特定する情報が含まれる場合、前記第2の機器を前記対象機器として特定する
請求項1〜12のいずれか1項に記載の機器特定方法。
【請求項14】
前記特定ステップでは、前記ユーザの視線が前記第1の領域に向けられていると判断された場合であっても、前記ユーザによる発話の内容に、前記第2の機器が存在する空間を特定する情報が含まれる場合、前記第2の機器を前記対象機器として特定する
請求項1〜12のいずれか1項に記載の機器特定方法。
【請求項15】
前記機器特定装置は、複数の集音装置のいずれかにより収集された前記ユーザの発話に基づき前記対象機器を操作し、
前記複数の集音装置は、前記ユーザに予め対応付けられている第1の集音装置を含み、
前記機器特定方法は、さらに、
前記第1の集音装置により前記ユーザの発話が収集された場合、前記第1の機器及び前記第2機器のうち、前記ユーザに予め対応付けられている機器を、前記対象機器として特定する
請求項1又は2記載の機器特定方法。
【請求項16】
ユーザが視認不可能な空間に存在する第1の機器と前記ユーザが視認可能な空間に存在する第2の機器とから前記ユーザによる操作対象となる対象機器を特定する機器特定装置であって、
前記第1の機器及び前記第2の機器は、前記ユーザの発話に含まれる操作内容を示す情報に対応する2つの機器であり、
前記ユーザの視線が向けられている方向に関する視線情報を取得する取得部と、
前記視線情報に基づき、前記ユーザの視線が、前記第2の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する判断部と、
前記ユーザの視線が前記第1の領域に向けられていると判断された場合、前記第1の機器と前記第2の機器とのうち前記第1の機器を前記対象機器として特定する特定部とを備える
機器特定装置。
【請求項17】
請求項1記載の機器特定方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、複数の機器からユーザによる操作対象となる対象機器を特定する機器特定方法及び機器特定装置に関する。
【背景技術】
【0002】
音声入力を利用して家庭にある電子機器の状態を確認及び操作するシステムがある。例えば、このようなシステムでは、携帯型マイクで取得された人の発話内容がテレビなどの電子機器に転送される。電子機器は、ユーザが発した言葉を解析して発話に基づく処理を実行する。これにより、電子機器の状態の確認又は操作が実現される。
【0003】
特許文献1に記載の装置は、画像処理及び音声処理の2種類の処理の結果を解析することでユーザの発話開始から終了までの区間と音源の方向とを特定する。これにより、ユーザによる音声操作の利便性を向上できるとともに、ユーザが発した言葉の誤認識を軽減できる。
【0004】
特許文献2に記載の装置は、音声、拍手又はジェスチャ等、ユーザの利用環境に応じた複数の開始トリガを用いることで、ユーザの発話開始を特定する。これにより、音声操作の利便性を向上できる。
【0005】
また、特許文献3に記載の装置は、複数の電子機器を制御する際に、ユーザの手又は頭の動きから機器を特定することで、音声認識及び機器制御を行う。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2014−153663号公報
【特許文献2】特開2013−080015号公報
【特許文献3】特開2007−121576号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
このようなシステムでは、複数の機器から操作対象の機器を適切に判断することが望まれている。
【0008】
本開示は、複数の機器から操作対象の機器を適切に判断できる機器特定方法又は機器特定装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本開示の一態様に係る機器特定方法は、ユーザが視認不可能な空間に存在する第1の機器と前記ユーザが視認可能な空間に存在する第2の機器とから前記ユーザによる操作対象となる対象機器を特定する機器特定装置が行う機器特定方法であって、前記第1の機器及び前記第2の機器は、前記ユーザの発話に含まれる操作内容を示す情報に対応する2つの機器であり、前記ユーザの視線が向けられている方向に関する視線情報を取得する取得ステップと、前記視線情報に基づき、前記ユーザの視線が、前記第2の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する判断ステップと、前記ユーザの視線が前記第1の領域に向けられていると判断された場合、前記第1の機器と前記第2の機器とのうち前記第1の機器を前記対象機器として特定する特定ステップとを含む。
【発明の効果】
【0010】
本開示は、複数の機器から操作対象の機器を適切に判断できる機器特定方法又は機器特定装置を提供できる。
【図面の簡単な説明】
【0011】
図1A】実施の形態において対話情報提供システムが提供するサービスの全体像を示す図である。
図1B】実施の形態において機器メーカがデータセンタ運営会社に該当する例を示す図である。
図1C】実施の形態において機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。
図2】実施の形態1における対話情報提供システムの構成を示す図である。
図3】実施の形態1における対話情報提供システムによる動作を示すフローチャートである。
図4A】実施の形態1における機器管理情報の一例を示す図である。
図4B】実施の形態1における対話辞書の一例を示す図である。
図5】実施の形態1における対話情報提供システムに含まれる各装置のブロック図である。
図6】実施の形態1における対話情報提供システムの動作例を示す図である。
図7】実施の形態1における対話情報提供システムの動作例を示す図である。
図8】実施の形態1における機器の動作を示すフローチャートである。
図9】実施の形態1における集音装置の動作を示すフローチャートである。
図10】実施の形態1におけるホームゲートウェイの動作を示すフローチャートである。
図11】実施の形態1における対象機器特定処理のフローチャートである。
図12】実施の形態1における音声対話処理の動作例を示す図である。
図13】実施の形態1における音声対話処理のフローチャート図である。
図14】実施の形態1における音声認識処理の動作例を示す図である。
図15】実施の形態1における音声認識処理のフローチャート図である。
図16】実施の形態1における意図理解処理の動作例を示す図である。
図17】実施の形態2における対象機器特定処理のフローチャートである。
図18】実施の形態2における対話情報提供システムの動作例を示す図である。
図19】実施の形態3における第1の機器及び第2の機器のブロック図である。
図20A】実施の形態3における機器管理情報の一例を示す図である。
図20B】実施の形態3における機器管理情報の一例を示す図である。
図20C】実施の形態3における機器管理情報の一例を示す図である。
図21】実施の形態3における対象機器設定処理のフローチャートである。
図22】実施の形態4における対象機器設定処理のフローチャートである。
図23】実施の形態5における対話情報提供システムの構成を示す図である。
図24】実施の形態5における機器管理情報の一例を示す図である。
図25】実施の形態5における対象機器設定処理のフローチャートである。
図26】実施の形態6における対象機器特定処理のフローチャートである。
図27】対話情報提供システムの変形例の構成を示す図である。
図28】対話情報提供システムの変形例の構成を示す図である。
図29】対話情報提供システムの変形例の構成を示す図である。
図30】対話情報提供システムの変形例の構成を示す図である。
図31】サービスの類型1(自社データセンタ型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。
図32】サービスの類型2(IaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。
図33】サービスの類型3(PaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。
図34】サービスの類型4(SaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。
【発明を実施するための形態】
【0012】
(本開示の基礎となった知見)
ユーザからの発話に従って家庭内の複数の機器の状態を確認又は操作するサービスを提供するための技術が検討されている。
【0013】
このようなシステムでは、装置は、ユーザの発話開始から終了までの区間を特定することでユーザの発話内容のみの音声データを取得する。そして、装置は、音声データを解析することで、ユーザが確認又は操作したい電子機器と、その確認又は操作内容を決定する。
【0014】
また、ユーザの発話内容を取得する方法として、特定方向の音のみを選択するビームフォーミング処理、又は反響音を識別して反響音を削減するエコーキャンセル処理等を利用してノイズ低減を行なう方法が提案されている。しかし、ノイズ低減処理にも限界があり、既存のノイズ低減を利用した構成では十分なレベルの音声認識精度を実現することは困難である。
【0015】
また、確認又は操作したい電子機器とその確認又は操作内容を特定する方法として、ユーザの発話を解析し、その結果をフレーム(テンプレート)に当てはめることによって対話を進行させるスロットフィリング技術がある。例えば、フレームは、「機器」、「操作」及び「場所」の3つの情報から構成される。ユーザが「電源を入れて」と発話するとフレームの「操作」に「power_on」が設定されるが、他の「機器」及び「場所」のフレームは埋まらない。この場合、システムは、ユーザに対して「どの機器の電源を入れたいですか」「どこにあるどの機器の電源を入れたいですか」等を聞き返すことにより対話を継続する。ユーザが再度「エアコン」又は「リビングのエアコン」等の発話を行うことで空いている「機器」、及び/又は「場所」のフレームが埋められる。しかし、フレームが埋まるまでユーザに対して聞き返しを行い、ユーザに発話を促す必要があるため、ユーザを苛立たせる可能性がある。また、聞き返し時の発話を誤認識して更に聞き返しを繰り返したり、意図しない結果に陥ったりする可能性がある。
【0016】
また、ユーザは、機器に対して話しかけることに抵抗がある一方で、何も見ずに発話することに不自然さを感じる。また、発話した内容が認識されなかったり、複数の機器が存在する場合には、ユーザは、操作対象の機器を特定するために何度も言い直しをさせられたりすることで使いにくさを感じることもある。これらのニーズを満たすための技術的な解決策に関して、検討はされていなかった。
【0017】
例えば、ユーザが特定の電子機器に関連付けられていないアバター、天井マイク又はウェアラブルマイク等を利用して発話する場合、どの電子機器を操作したいのかを特定することは困難である。
【0018】
このように、操作対象の機器が複数存在する場合には、ユーザの発話に操作内容に加え、操作対象の機器を特定するための情報を含める必要がある。これにより、ユーザの発話が長くなるため、ノイズ等の影響によりユーザの発話内容を正しく把握できない状況が発生する可能性が高くなる。さらに、ユーザは機器操作のために多くの文言を発する必要があり、また、対象機器を特定できない場合には聞き返しが発生する。これにより、ユーザの利便性が低下するという課題がある。
【0019】
本開示の一態様に係る機器特定方法は、複数の機器からユーザによる操作対象となる対象機器を特定する機器特定装置が行う機器特定方法であって、前記ユーザの視線が向けられている方向に関する視線情報を取得する取得ステップと、前記視線情報に基づき、前記ユーザの視線が、当該ユーザが視認可能な空間における一部の領域であって、前記複数の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する判断ステップと、前記ユーザの視線が前記第1の領域に向けられていると判断された場合、前記複数の機器のうち、当該ユーザが視認不可能な空間に存在する第1の機器を前記対象機器として特定する特定ステップとを含む。
【0020】
これにより、ユーザの視線が、機器が存在する位置以外の特定の領域に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0021】
例えば、前記判断ステップでは、さらに、前記ユーザの視線が、当該ユーザが視認可能な空間に存在する、前記複数の機器に含まれる第2の機器に向けられているか否かを判断し、前記特定ステップでは、前記ユーザの視線が前記第2の機器に向けられていると判断された場合、当該第2の機器を前記対象機器として特定してもよい。
【0022】
これにより、ユーザがある機器に視線を向けている場合、その機器が操作対象であると特定できる。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0023】
例えば、前記第1の領域は、前記機器特定装置が存在する領域であってもよい。
【0024】
これにより、ユーザの視線がホームゲートウェイなどの機器特定装置に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0025】
例えば、前記機器特定装置は、前記ユーザの視線が当該機器特定装置に向けられているかを検出する視線検出部を備え、前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記機器特定装置に向けられていることを検出した旨を前記視線情報として取得し、前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記機器特定装置に向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断してもよい。
【0026】
これにより、ユーザの視線が機器特定装置に向けられているかを容易な構成で精度良く検出できる。
【0027】
例えば、前記機器特定装置は、前記複数の機器とは異なる位置に設置されている集音装置により収集された前記ユーザの発話に基づき前記対象機器を操作し、前記第1の領域は、前記集音装置が存在する領域であってもよい。
【0028】
これにより、ユーザの視線が、特定の機器に関連付けられていない天井マイク、又はウェアラブルマイク等の集音装置に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0029】
例えば、前記集音装置は、前記ユーザの視線が当該集音装置に向けられているかを検出する視線検出部を備え、前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記集音装置に向けられていることを検出した旨を前記視線情報として取得し、前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記集音装置に向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断してもよい。
【0030】
これにより、ユーザの視線が集音装置に向けられているかを容易な構成で精度良く検出できる。
【0031】
例えば、前記機器特定装置は、前記ユーザの発話に基づき前記対象機器を操作し、前記第1の領域は、前記ユーザによる発話の相手であるオブジェクトが存在する領域であってもよい。
【0032】
これにより、ユーザの視線が、特定の機器に関連付けられていない特定のオブジェクト(例えばぬいぐるみ)に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0033】
例えば、前記オブジェクトは、前記ユーザの視線が当該オブジェクトに向けられているかを検出する視線検出部を備え、前記取得ステップでは、前記視線検出部が前記ユーザの視線が前記オブジェクトに向けられていることを検出した旨を前記視線情報として取得し、前記判断ステップでは、前記視線検出部が前記ユーザの視線が前記オブジェクトに向けられていることを検出した場合に、前記ユーザの視線が前記第1の領域に向けられていると判断してもよい。
【0034】
これにより、ユーザの視線がオブジェクトに向けられているかを容易な構成で精度良く検出できる。
【0035】
例えば、前記機器特定装置は、前記ユーザの発話に基づき前記対象機器を操作し、前記第1の領域は、前記ユーザによる発話の相手である仮想オブジェクトが存在する領域であってもよい。
【0036】
これにより、ユーザの視線が、特定の機器に関連付けられていない仮想的なオブジェクト(例えばアバター)に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0037】
例えば、前記取得ステップでは、撮像装置により撮影された、前記ユーザが含まれる画像を前記視線情報として取得し、前記判断ステップでは、前記画像を解析することにより、前記ユーザの視線が前記仮想オブジェクトに向けられているか否かを判断し、前記ユーザの視線が前記仮想オブジェクトに向けられていると判断した場合、前記ユーザの視線が前記第1の領域に向けられていると判断してもよい。
【0038】
これにより、ユーザの視線が仮想的なオブジェクトに向けられているかを容易な構成で精度良く検出できる。
【0039】
例えば、前記機器特定方法は、さらに、前記ユーザの発話内容に基づき前記対象機器を制御するための命令を生成し、当該命令を前記対象機器に送信する操作ステップを含んでもよい。
【0040】
これにより、ユーザの発話内容に基づき、ユーザが視認不可能な空間に存在する機器を操作できる。
【0041】
例えば、前記機器特定方法は、さらに、前記ユーザに対して、前記特定された対象機器を通知するステップを含んでもよい。
【0042】
これにより、ユーザの発話内容に基づき、ユーザが視認不可能な空間に存在する機器を操作する前に操作内容をユーザに確認できるので、ユーザの意図しない操作が行われることを防止できる。
【0043】
例えば、前記特定ステップでは、前記ユーザの視線が前記第1の領域に向けられている場合であっても、前記ユーザによる発話の内容に、前記複数の機器に含まれる第3の機器を特定する情報が含まれる場合、前記第3の機器を前記対象機器として特定してもよい。
【0044】
これにより、ユーザの視線情報に基づき操作対象となる機器を特定した場合であっても、ユーザの発話内容から特定される機器を操作対象として優先させることができる。よって、ユーザの意図しない機器が誤って操作対象に選択されることを抑制できる。
【0045】
例えば、前記特定ステップでは、前記ユーザの視線が前記第1の領域に向けられていると判断された場合であっても、前記ユーザによる発話の内容に、所定の空間を特定する情報が含まれる場合、前記複数の機器のうち前記所定の空間に存在する第3の機器を前記対象機器として特定してもよい。
【0046】
これにより、ユーザの視線情報に基づき操作対象となる機器を特定した場合であっても、ユーザの発話内容から特定される空間に存在する機器を操作対象として優先させることができる。よって、ユーザの意図しない機器が誤って操作対象に選択されることを抑制できる。
【0047】
例えば、前記機器特定装置は、複数の集音装置のいずれかにより収集された前記ユーザの発話に基づき前記対象機器を操作し、前記複数の集音装置は、前記ユーザに予め対応付けられている第1の集音装置を含み、前記機器特定方法は、さらに、前記第1の集音装置により前記ユーザの発話が収集された場合、前記複数の機器のうち、前記ユーザに予め対応付けられている機器を、前記対象機器として特定してもよい。
【0048】
これにより、ユーザに対応付けられている機器を操作対象として優先させることができる。よって、ユーザの意図しない機器が誤って操作対象に選択されることを抑制できる。
【0049】
また、本開示は、以上のような特徴的な処理を実行する機器特定方法として実現することができるだけでなく、機器特定方法に含まれる特徴的なステップを実行するための処理部を備える機器特定装置などとして実現することもできる。また、このような機器特定方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【0050】
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。
【0051】
(提供するサービスの全体像)
まず、本実施の形態における情報管理システムが提供するサービスの全体像について説明する。
【0052】
図1Aは、本実施の形態における情報管理システムが提供するサービスの全体像を示す図である。情報管理システムは、グループ1100、データセンタ運営会社1110及びサービスプロバイダ1120を備える。
【0053】
グループ1100は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ1100は、第1の機器及び第2の機器を含む複数の機器1101及びホームゲートウェイ1102を備える。複数の機器1101は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明、洗濯機又は冷蔵庫等)を含む。複数の機器1101は、それ自身ではインターネットと接続不可能であっても、ホームゲートウェイ1102を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ1010は、グループ1100内の複数の機器1101を使用する。
【0054】
データセンタ運営会社1110は、クラウドサーバ1111を備える。クラウドサーバ1111は、インターネットを介して様々な機器と連携する仮想化サーバである。クラウドサーバ1111は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社1110は、データの管理、クラウドサーバ1111の管理、及びそれらを行うデータセンタの運営等を行っている。データセンタ運営会社1110が行っている役務の詳細については後述する。
【0055】
ここで、データセンタ運営会社1110は、データの管理又はクラウドサーバ1111の管理のみを行っている会社に限らない。例えば、図1Bに示すように、複数の機器1101のうちの一つの機器を開発又は製造している機器メーカが、データの管理又はクラウドサーバ1111の管理等を行っている場合は、機器メーカがデータセンタ運営会社1110に該当する。また、データセンタ運営会社1110は一つの会社に限らない。例えば、図1Cに示すように、機器メーカ及び管理会社が共同又は分担してデータの管理又はクラウドサーバ1111の管理を行っている場合は、両者又はいずれか一方がデータセンタ運営会社1110に該当する。
【0056】
サービスプロバイダ1120は、サーバ1121を備える。ここで言うサーバ1121とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ1120がサーバ1121を備えていない場合もある。
【0057】
なお、上記の情報管理システムにおいて、ホームゲートウェイ1102は必須ではない。例えば、クラウドサーバ1111が全てのデータ管理を行っている場合等は、ホームゲートウェイ1102は不要となる。また、家庭内の全ての機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。
【0058】
次に、上記の情報管理システムにおける情報の流れを説明する。
【0059】
まず、グループ1100の第1の機器又は第2の機器は、各ログ情報をデータセンタ運営会社1110のクラウドサーバ1111にそれぞれ送信する。クラウドサーバ1111は、第1の機器又は第2の機器のログ情報を集積する(図1Aの矢印1131)。ここで、ログ情報とは、複数の機器1101の例えば運転状況又は動作日時等を示す情報である。例えば、ログ情報は、テレビの視聴履歴、レコーダーの録画予約情報、洗濯機の運転日時、洗濯物の量、冷蔵庫の開閉日時、又は冷蔵庫の開閉回数などを含むが、これらの情報に限らず、種々の機器から取得が可能な種々の情報を含んでもよい。なお、ログ情報は、インターネットを介して複数の機器1101自体から直接、クラウドサーバ1111に提供されてもよい。また、ログ情報は、複数の機器1101から一旦、ホームゲートウェイ1102に集積され、ホームゲートウェイ1102からクラウドサーバ1111に提供されてもよい。
【0060】
次に、データセンタ運営会社1110のクラウドサーバ1111は、集積したログ情報を一定の単位でサービスプロバイダ1120に提供する。ここで、一定の単位とは、データセンタ運営会社1110が集積した情報を整理してサービスプロバイダ1120に提供することの出来る単位でもよいし、サービスプロバイダ1120が要求する単位でもよい。また、一定の単位で提供するとしているが、一定の単位でなくてもよく、状況に応じて提供する情報量が変化してもよい。ログ情報は、必要に応じてサービスプロバイダ1120が保有するサーバ1121に保存される(図1Aの矢印1132)。
【0061】
そして、サービスプロバイダ1120は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。情報が提供されるユーザは、複数の機器1101を使用するユーザ1010でもよいし、外部のユーザ1020でもよい。ユーザ1010及び1020への情報提供方法としては、例えば、サービスプロバイダ1120から直接ユーザ1010及び1020へ情報が提供されてもよい(図1Aの矢印1133及び1134)。また、ユーザ1010への情報提供方法としては、例えば、データセンタ運営会社1110のクラウドサーバ1111を再度経由して、ユーザ1010に情報が提供されてもよい(図1Aの矢印1135及び1136)。また、データセンタ運営会社1110のクラウドサーバ1111は、ログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ1120に提供してもよい。
【0062】
なお、ユーザ1010は、ユーザ1020と異なっていても同一であってもよい。
【0063】
(実施の形態1)
本実施の形態では、ユーザが天井マイク等のように集音機能を持つ機器を利用して発話による機器の状態を確認及び操作する場合の一例を示す。
【0064】
本実施の形態では、ユーザの視線がある機器を向いている場合には、当該機器を操作対象に決定する。また、ユーザの視線が機器のない空間を向いている(例えば、集音装置を向いている)場合には、ユーザの視認範囲にない機器を操作対象に決定する。
【0065】
図2は、本実施の形態における対話情報提供システムの構成を示す図である。この対話情報提供システムは、グループ1100と、データセンタ運営会社1110内の音声対話サーバ2100とを含む。グループ1100と、音声対話サーバ2100とはネットワーク2020を経由して接続されている。
【0066】
グループ1100は、第1の空間2001と第2の空間2002とを含む。例えば、グループ1100は、家庭(住宅)であり、第1の空間2001及び第2の空間2002はリビング又は寝室等の部屋である。なお、空間には、複数の部屋が含まれてもよい。例えば、空間は、住宅の一階、又は二階などであってもよい。また、空間は、一つの部屋のある空間(領域)であってもよい。
【0067】
また、グループ1100は、第1の機器2011、第2の機器2012、集音装置2013、及びホームゲートウェイ1102を含む。第1の機器2011、集音装置2013、及びホームゲートウェイ1102は第1の空間2001に配置されており、第2の機器2012は、第2の空間2002に配置されている。また、第1の機器2011、第2の機器2012、集音装置2013、及びホームゲートウェイ1102は、ネットワーク2021を経由して接続されている。ネットワーク2021は機器間通信できる手段であればよく、有線LAN、無線LAN、Bluetooth(登録商標)、又は特定小電力無線等である。
【0068】
ここで、第1の機器2011及び第2の機器2012は、エアコン又は照明等の家電機器であり、ユーザとの対話に基づき、その動作が操作又は制御される機器である。
【0069】
まず、本実施の形態に係る対話情報提供システムに動作の概略を説明する。図3は、本実施の形態に係る対話情報提供システムにおける操作対象の対象機器の特定処理のフローチャートである。
【0070】
なお、以下の処理は、対話情報提供システムに含まれる機器特定装置により行われる。ここで機器特定装置とは、例えば、ホームゲートウェイ1102である。なお、後述するように、以下の処理は、グループ1100に含まれる1又は複数の機器により行われてもよいし、グループ1100に含まれる1又は複数の機器と、当該機器とネットワークを経由して接続されている外部の機器(例えば、音声対話サーバ2100)とで分散処理されてもよい。
【0071】
まず、機器特定装置は、ユーザの発話内容に基づき対象機器を特定できるか否かを判定する(S101)。
【0072】
ユーザの発話内容に基づき対象機器を特定できない場合(S101でNo)、機器特定装置は、ユーザの視線がいずれかの機器を向いているか否かを判定する(S103)。具体的には、機器特定装置は、ユーザの視線が向けられている方向に関する視線情報を取得する。次に、機器特定装置は、当該視線情報に基づき、ユーザの視線が、当該ユーザが視認可能な空間に存在する、複数の機器に含まれる第2の機器に向けられているか否かを判断する。また、機器特定装置は、当該視線情報に基づき、ユーザの視線が、当該ユーザが視認可能な空間における一部の領域であって、複数の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する。ここで視認可能な空間とは、ユーザが現在の位置において視認できる空間である。
【0073】
ユーザの視線がいずれの機器にも向いていない場合、つまり、ユーザの視線が上記第1の領域に向けられていると判断された場合(S103でNo)、機器特定装置は、複数の機器のうち、当該ユーザが視認不可能な空間に存在する第1の機器を、対象機器として特定する(S105)。ここで視認不可能な空間とは、ユーザが現在の位置において視認できない空間である。
【0074】
一方、ユーザの視線がいずれかの機器を向いている場合、つまり、ユーザの視線が上記第2の機器に向けられていると判断された場合(S103でYes)、当該第2の機器を対象機器として特定する(S104)。
【0075】
また、ユーザの発話内容に基づき対象機器を特定できる場合(S101でYes)、機器特定装置は、ユーザの発話内容に基づき特定された機器を対象機器に決定する(S102)。つまり、機器特定装置は、ユーザの視線が上記第1の領域又は第2機器に向けられている場合であっても、ユーザによる発話の内容に、複数の機器に含まれる第3の機器を特定する情報が含まれる場合、当該第3機器を対象機器として特定する。
【0076】
次に、機器特定装置は、特定した対象機器が正しいかをユーザに確認する(S106)。具体的には、機器特定装置は、ユーザに対して、特定された対象機器を通知し、その返答を得る。なお、機器特定装置は、対象機器に加え、対象機器に対する制御内容をユーザに確認してもよい。
【0077】
特定した対象機器がユーザにより承認された場合(S107でYes)、機器特定装置は、特定された対象機器をユーザの操作に基づき操作する(S108)。具体的には、機器特定装置は、ユーザの発話内容に基づき対象機器を制御するための命令を生成し、当該命令を対象機器に送信する。
【0078】
一方、特定した対象機器がユーザにより承認されなかった場合(S107でNo)、機器特定装置は、ユーザに、対象機器を確認するための聞き返し対話を行い(S109)、当該対話により得られたユーザの発話内容に対してステップS101以降の処理を再度行う。
【0079】
以上により、ユーザの視線が、機器が存在する位置以外の特定の領域に向けられている場合、ユーザにとって視認することのできない空間に存在する機器が操作対象であると特定される。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0080】
例えば、ユーザがリビングにおり、リビングと寝室にエアコンが設置されている。この場合において、ユーザがリビングのエアコンを制御したい場合には、ユーザはリビングのエアコンに視線を向けて、「エアコンつけて」と発話することで、リビングのエアコンを制御できる。
【0081】
さらに、ユーザが寝室のエアコンを制御したい場合には、ユーザは、リビングに配置されているいずれの機器にも視線を向けない状態で上記発話を行うことで、寝室のエアコンを制御できる。
【0082】
このように、本実施の形態に係る手法により、対象機器がユーザの視認範囲外に存在する場合においても、ユーザの視線に基づき対象機器を特定できる。これにより、このような場合において、ユーザの発話内容を短くできるので、ユーザの利便性を向上できるとともに、ノイズ等の影響により発話内容が認識できない、又は誤って解釈されることを抑制できる。
【0083】
なお、図3では、機器特定装置は、ステップS106、S107及びS109において、対象機器の確認及び聞き返しを行っているが、これらの処理を行わなくてもよい。または、ステップS102、S104及びS105のいずれかの後のみ対象機器の確認が行われてもよい。例えば、発話内容に基づき対象機器が特定された場合(S102の後)には、対象機器の確認が行われてなくてもよい。
【0084】
また、ステップS101及びS103の判定処理の順序は一例であり、これらの処理は逆の順序で行われてもよいし、少なくとも一部が並列に行われてもよい。
【0085】
また、本実施の形態では、主にユーザの発話に基づき機器が操作される場合を例に説明を行うが、他の手法により、複数の機器が操作される場合にも同様の手法を用いることができる。例えば、ジェスチャにより機器を操作する場合にも同様の手法を用いることができる。
【0086】
以下、各機器の構成及び動作の一例を詳細に説明する。
【0087】
図2に示すように、第1の機器2011は、視線検出部2111を備え、第2の機器2012は視線検出部2121を備える。視線検出部2111、2121及び2131(後述)は、ユーザの視線方向を検出する。具体的には、視線検出部2111、2121及び2131は、赤外線カメラ又は可視カメラを備え、これらのカメラで得られた映像を解析し、顔認識等を利用してユーザの視線が自機器へ向いているかどうかを検出する。なお、視線検出部2111、2121及び2131は、ユーザの顔の向きを視線の向きとして検出してもよいし、ユーザの眼球の向きを視線の向きとして検出してもよい。
【0088】
なお、ここでは、各機器がユーザの視線が自機器に向いているかを検出する例を述べるが、グループ1100内に配置された1以上のカメラにより撮影された映像を解析することでユーザの視線の方向が検出されてもよいし、その他の手法によりユーザの視線の方向が検出されてもよい。
【0089】
また、以下では、この視線検出をトリガとしてユーザが発話を開始するのかどうか判定する例を述べるが、ユーザの発話開始のトリガとして視線検出に加え、又は視線検出の代わりに、口唇検出、ジェスチャ検出、又は「マイクオン」のような固定ワードの発話検出等が用いられてもよい。口唇検出は、カメラで撮影した画像からユーザの口の動き、すなわち、口唇動作を検出し、口唇動作に基づいてユーザが発話を開始するのかどうか判定する。ジェスチャ検出は、拍手又は手を挙げる等、ユーザが予め決められた動作を行った際にカメラで撮影した画像又は音声データに基づいてユーザが発話を開始するのかどうか判定する。
【0090】
集音装置2013は、視線検出部2131及び集音部2132を備える。集音部2132は、周辺の音声を取得し、当該音声に含まれる、ユーザの発話内容を一定期間保持する。具体的には、集音部2132は、カメラ等で得られたユーザの位置情報に基づき発話音源(ユーザ)の方向を特定し、発話音源の方向を用いて、得られた音声かから周辺ノイズを低減させることで、ユーザの発話内容を抽出する。
【0091】
なお、集音装置2013は、集音する機能を持ち、集音したデータを転送可能な機能を持つ機器であればよい。例えば、集音装置2013は、天井に設置されている天井マイク、ユーザが身につけるウェアラブルマイク、又は集音する機能が備わっているぬいぐるみ等である。
【0092】
ホームゲートウェイ1102は、機器特定部2141、及び音声対話部2143を備える。また、ホームゲートウェイ1102は、機器管理情報2142を保持している。機器特定部2141は、第1の機器2011、第2の機器2012、及び集音装置2013のいずれかの視線検出部2111、2121及び2131でユーザの視線が検出された際、機器管理情報2142を利用して操作対象の対象機器を特定する。
【0093】
機器管理情報2142は、各機器の設置場所及び視線検出機能の有無等を示す(詳細は後述する)。音声対話部2143は、音声対話処理を行う。具体的には、音声対話部2143は、集音装置2013へ集音開始指示命令を発行することでユーザの発話内容を含む音声データを取得し、取得した音声データを音声対話サーバ2100へ転送する。音声対話部2143は、音声データに含まれる発話内容に基づく制御命令を音声対話サーバ2100から取得し、制御命令を対象機器に送信する。
【0094】
なお、本実施の形態では、ホームゲートウェイ1102と集音装置2013とが別々に存在しているが、ホームゲートウェイ1102内に集音装置2013の機能が含まれてもよい。
【0095】
音声対話サーバ2100は、クラウドサーバ1111の一つであり、対話辞書2101を保持している。この音声対話サーバ2100は、音声データ解析により音声データから発話内容を特定し、対話辞書2101を利用して発話内容から制御命令を特定する。
【0096】
対話辞書2101には、発話内容(テキスト)から制御命令を特定するためのルールが記載されている(詳細は後述する)。なお、本実施の形態では、音声対話サーバ2100とホームゲートウェイ1102とが別々に存在しているが、ホームゲートウェイ1102内に音声対話サーバ2100の機能が含まれてもよい。また、ホームゲートウェイ1102内に、音声対話サーバ2100の機能の一部が含まれてもよい。
【0097】
図4Aは、本実施の形態における機器管理情報2142の一例を示す図である。
【0098】
機器管理情報2142は、機器を一意に特定する識別子情報と、機器がホームゲートウェイかどうかを示す属性情報と、機器が保有する機能のカテゴリーを示す種別情報と、機器が集音能力を保有しているかどうかを示す集音情報と、機器が設置されている場所を示す設置場所情報と、機器がユーザの発話開始トリガ(視線)を検出した機器かどうかを示す発話情報とを含む。
【0099】
識別子情報は、例えば、WiFi又はBluetooth(登録商標)等のペアリング時に機器のMACアドレス及び乱数から生成される。または、識別子情報は、ECHONET Liteのインスタンスリスト通知に含まれる識別子が利用される。
【0100】
属性情報及び種別情報は、ECHONET Lite等の家電機器制御プロトコルをサポートしている場合はその家電機器制御のカテゴリーの情報を利用して設定される。
【0101】
集音情報は、WiFi又はBluetooth(登録商標)等のペアリング時に通知された集音機能有無に基づき設定される。設置場所情報は、ホームゲートウェイ1102の設定メニュー等を利用してユーザにより設定される。発話情報は、第1の機器2011、第2の機器2012、及び集音装置2013のいずれかの視線検出部2111、2121、及び2131からユーザの発話開始トリガ(視線)が検出された際に設定される。
【0102】
図4Bは、本実施の形態における対話辞書2101の一例を示す図である。
【0103】
対話辞書2101は、音声認識の結果得られた文字列情報(発話内容)を示す発話認識テキスト情報と、発話認識テキストから制御命令を特定するためのアクション情報とを含む。アクション情報は、発話認識テキストから特定される制御命令を示す制御命令情報と、対象機器の種別(属性)を示す機器情報と、対象機器が設置されている場所を示す場所情報とを含む。
【0104】
例えば、ユーザが「リビングの照明つけて」と発話した場合、「リビング」「照明」「つけて」のキーワードマッチングにより、アクション情報として全フレーム(制御命令(power_on)、機器(照明)、場所(リビング))が埋まる。これにより、リビングに設置されている照明の電源をオンにする処理が行われる。
【0105】
また、ユーザが「エアコンつけて」と発話した場合、「エアコン」「つけて」のキーワードマッチングにより、アクション情報として場所以外のフレーム(制御命令(power_on)、機器(エアコン))が埋まる。この場合、ユーザ宅にエアコンが1台しか設置されていない場合はそのエアコンの電源をオンにする処理が行われるが、2台以上設置されている場合は「どこのエアコンの電源を入れますか」と聞き返してユーザから場所を指定して貰うことで最終的に電源をオンにする処理を行う対象のエアコンが特定される。
【0106】
また、ユーザが「冷房つけて」と発話した場合、機器そのものを特定する内容は発話されていないが機器固有の操作指示内容が発話されているので、対話辞書2101を用いて機器情報が補完される。また、ユーザが「電源入れて」又は「あたためて」と発話した場合、アクション情報として制御命令(power_on、heating_on)しか埋まらない。よって、ユーザから機器又は場所の情報を指示してもらう必要がある。
【0107】
また、ユーザが「一括オフ」と発話した場合のように、アクション情報のうち制御命令(all_poff)しか埋まらなくても操作可能になる場合もある。
【0108】
図5は、本実施の形態における対話情報提供システムに各機器の構成例を示すブロック図である。
【0109】
第1の機器2011は、先述した視線検出部2111に加え、機器通信部2112及び機器命令実行部2113を備える。第2の機器2012は、先述した視線検出部2121に加え、機器通信部2122及び機器命令実行部2123を備える。
【0110】
機器通信部2112は、ECHONET Lite等の家電機器制御のプロトコルスタックである。具体的には、機器通信部2112は、ホームゲートウェイ1102に対して、第1の機器2011が起動された際の通知等のインスタンスリスト通知と、電源入り又は切りの変化の通知等の機器状態の通知と、ホームゲートウェイ1102からの電源入り設定等の制御命令の受信及び解釈並びに制御命令の実行結果の応答とを行う。
【0111】
また、視線検出結果のホームゲートウェイ1102への通知は、この通知機能を利用しても行われてもよいし、独自のプロトコルで行われてもよい。
【0112】
機器命令実行部2113は、機器通信部2112から受けとった制御命令を機器のハードウェア命令へ変換して実行する。
【0113】
なお、視線検出部2121、機器通信部2122及び機器命令実行部2123の機能は、視線検出部2111、機器通信部2112及び機器命令実行部2113の機能と同様である。
【0114】
集音装置2013は、先述した視線検出部2131及び集音部2132に加え、情報提示部2133及び機器通信部2134を備える。
【0115】
情報提示部2133は、視線検出部2131で検出されたユーザに対して、各種情報を提示する。例えば、情報提示部2133は、ユーザに対して「お話ください」と音声を出力したり、LEDライトを発光させたりしてユーザの発話を促す。
【0116】
機器通信部2134の機能は、先述した機器通信部2112及び2122と同様である。
【0117】
ホームゲートウェイ1102は、先述した機器特定部2141及び音声対話部2143に加え、機器管理部2144、機器通信部2145及びクラウド通信部2146を備える。
【0118】
機器通信部2145の機能は、先述した機器通信部2112、2122及び2134の機能と同様である。クラウド通信部2146は、対話機能を利用するにあたって、ユーザが利用許諾に同意したかどうかを管理し、ユーザが利用許諾に同意した場合に音声対話サーバ2100との接続を確立し、音声対話サーバ2100と情報を送受信する。
【0119】
図6は、本実施の形態における、ユーザが対象機器に対して発話する場合の対話情報提供システムにおける動作例を示す図である。例えば、第1の機器2011は第1の空間2001(1階リビング)に設置されているエアコンであり、第2の機器2012は第2の空間2002(2階寝室)に設定されているエアコンであり、集音装置2013は、第1の空間2001(1階リビング)の天井に設置されているマイクである。ユーザは、第1の空間2001において、第1の機器2011に視線を向けて「エアコンつけて」と発話する。
【0120】
これにより、第1の機器2011は、ユーザの視線が自機器に向けられていることを検出し(S301)、検出結果をホームゲートウェイ1102に通知する(S302)。ホームゲートウェイ1102は、対象機器を特定する(S303)。この場合、第1の機器2011にユーザの視線が向けられているため、ホームゲートウェイ1102は、第1の機器2011を対象機器に決定する。
【0121】
次に、集音装置2013、ホームゲートウェイ1102及び音声対話サーバ2100は、音声対話処理を行う(S304)。音声対話処理は、ユーザの発話を集音した音声データを解析した結果得られた文字列情報と対話辞書2101からユーザの意図する家電操作を特定し、その結果をユーザに通知する処理である。図4Bにおける対話辞書2101の例では、発話認識テキスト「エアコンつけて」に対する「場所」のアクションを特定できないが、ステップS303で特定された対象機器に基づき、「場所」を「第1の空間(リビング)」と補完できる。
【0122】
次に、ホームゲートウェイ1102は、音声対話処理の結果に基づいて第1の機器2011に制御命令を送信する(S305)。第1の機器2011は、受信した制御命令を実行する(S306)。
【0123】
このような流れにより、ユーザが機器を特定する内容の発話を行わない場合であっても機器を特定して操作することが可能になる。
【0124】
なお、ユーザが発話内容に機器を特定する要素が入っている場合は、ステップS303で特定された機器よりも、ユーザの発話内容で特定される機器を優先し、ユーザの発話内容で特定される機器を対象機器に決定する。例えば、リビングのエアコン(第1の機器2011)を見て「寝室のエアコンつけて」と発話した場合は、リビングのエアコンではなく、寝室のエアコンの電源が入れられる。
【0125】
図7は、本実施の形態における、ユーザが集音装置2013に対して発話する場合の対話情報提供システムにおける動作例を示す図である。ユーザは、集音装置2013に視線を向けて「エアコンつけて」と発話する。
【0126】
集音装置2013は、ユーザの視線が自機器に向けられていることを検知し(S311)、検出結果をホームゲートウェイ1102に通知する(S312)。ホームゲートウェイ1102は、対象機器を特定する(S313)。この場合、集音装置2013にユーザの視線が向けられているため、ホームゲートウェイ1102は、第1の機器2011及び第2の機器2012のうち、ユーザの視認範囲外に存在する第2の機器2012を対象機器に決定する。なお、ここでは、ユーザは、第1の空間2001(リビング)に存在し、対象機器として第1の空間2001と異なる第2の空間2002(寝室)に配置されている第2の機器2012が選択される。
【0127】
次に、集音装置2013、ホームゲートウェイ1102及び音声対話サーバ2100は、ステップS304と同様に、音声対話処理を行う(S314)。そして、ホームゲートウェイ1102は、音声対話処理の結果に基づいて第2の機器2012に制御命令を送信する(S315)。第2の機器2012は、受信した制御命令を実行する(S316)。
【0128】
このような流れにより、ユーザが機器を特定する内容の発話を行わず、かつ、機器に関連付けされていない集音装置2013に対してユーザが発話した場合であっても機器を特定して操作することが可能になる。
【0129】
次に、各装置の動作を説明する。図8は、第1の機器2011の動作の流れを示すフローチャートである。なお、第2の機器2012の動作も同様である。
【0130】
まず、第1の機器2011は、ユーザの視線が自機器に向いているかを検出することで、ユーザの発話開始を検出する(S201)。第1の機器2011は、ユーザの視線を検出した場合(S201でYes)、ユーザの視線を検出したことを示す視線検出通知をホームゲートウェイ1102に送信する(S202)。
【0131】
また、第1の機器2011は、ホームゲートウェイ1102から制御命令を受信した場合(S203でYes)、受信した制御命令を実行する(S204)。
【0132】
図9は、集音装置2013の動作の流れを示すフローチャートである。まず、集音装置2013は、ユーザの視線が自機器に向いているかを検出することで、ユーザの発話開始を検出する(S211)。集音装置2013は、ユーザの視線を検出した場合(S211でYes)、ユーザの視線を検出したことを示す視線検出通知をホームゲートウェイ1102に送信する(S212)。
【0133】
図10は、ホームゲートウェイ1102の動作の流れを示すフローチャートである。ホームゲートウェイ1102は、第1の機器2011、第2の機器2012又は集音装置2013から視線検出通知を受信した場合(S221でYes)、いずれの装置で視線が検出されたかに基づき、対象機器を特定する(S222)。次に、ホームゲートウェイ1102は、音声対話処理を行う(S223)。次に、ホームゲートウェイ1102は、ステップS222で特定された対象機器に、音声対話処理で特定された制御命令を送信する(S224)。
【0134】
以下、ホームゲートウェイ1102における対象機器を特定する処理(S222)の詳細を説明する。図11は、対象機器特定処理(S222)の詳細を示すフローチャートである。
【0135】
ホームゲートウェイ1102は、機器管理情報2142を参照し、視線検出通知の送信元の装置が家電機器かどうかを判定する(S231)。ここで家電機器とは、音声対話により操作を行う対象の機器である。
【0136】
視線検出通知の送信元の装置が家電機器である場合(S231でYes)、ホームゲートウェイ1102は、視線検出通知の送信元の装置を対象機器に決定する(S232)。一方、視線検出通知の送信元の装置が家電機器でない場合(S231でNo)、ホームゲートウェイ1102は、機器管理情報2142を参照し、ユーザの視認範囲外に機器が存在するかどうか判定する(S233)。
【0137】
具体的には、ユーザがどの空間に存在するかは検出されている。例えば、ホームゲートウェイ1102は、視線検出通知の送信元の装置と同じ空間(例えば部屋)にユーザが存在していると判断する。なお、ホームゲートウェイ1102は、ユーザの音声を取得した集音装置2013と同じ空間にユーザが存在していると判定してもよい。また、ホームゲートウェイ1102は、視線検出通知の送信元の装置の近傍にユーザが存在していると判断してもよい。または、ホームゲートウェイ1102は、グループ1100内に設置されているカメラで得られた情報から、ユーザの位置を判定してもよい。
【0138】
ホームゲートウェイ1102は、機器管理情報2142を参照し、ユーザの存在する空間(例えば部屋)と異なる空間に存在する機器を、ユーザの視認範囲外の機器と判断する。なお、ここでは、ユーザと機器とが同じ空間(例えば部屋)に存在するか否かに基づき、各機器がユーザの視認範囲内であるか視認範囲外であるかが判定されているが、ホームゲートウェイ1102は、各機器及びユーザの位置をより詳細に判定するとともに、ユーザの存在する空間の詳細な間取りの情報等を用いて、ユーザの位置から実際に視認可能な機器を特定し、特定された機器以外をユーザの視認範囲外の機器と判定してもよい。
【0139】
ユーザの視認範囲外に機器が存在する場合(S233でYes)、ホームゲートウェイ1102は、ユーザの視認範囲外の機器を対象機器に決定する(S234)。
【0140】
一方、ユーザの視認範囲外に機器が存在しない場合(S233でNo)、ホームゲートウェイ1102は、対象機器を決定せず、全ての機器を対象機器の候補に決定する。
【0141】
なお、予めデフォルトの対象機器の候補として機器管理情報2142で管理されている全機器が設定され、ステップS232又はS234において、対象機器として機器が選択された場合には、当該機器のみが対象機器になるように更新されてもよい。
【0142】
また、ここでは、ステップS232及びS234において一つの機器のみが対象機器として選択される例を述べたが、対象機器を判定するための視線以外の判定基準が用いられる場合には、選択された機器の優先度が高く設定されてもよい。これにより、他の判定基準との組合せにより、最も可能性が高い機器を選択できる。また、これにより、例えば、ユーザの視認範囲外に複数の機器が存在する場合にはこれらの複数の機器の優先度を高く設定し、他の判定基準に基づき、一つの機器を選択できる。なお、以下で述べる他の実施の形態においても同様の変形例を適用できる。
【0143】
以下、図6及び図7に示す音声対話処理(S304及びS314)の詳細を説明する。図12は、音声対話処理(S304及びS314)の動作例を示す図である。
【0144】
まず、集音装置2013、ホームゲートウェイ1102及び音声対話サーバ2100は、発話内容をテキストに変換する音声認識処理を行う(S321)。次に、ホームゲートウェイ1102及び音声対話サーバ2100は、対話辞書2101に基づいて、音声認識処理の結果として得られた認識テキストから機器への制御命令を出力する意図理解処理を行う(S322)。この意図理解処理により、対象機器又は制御命令が特定できていない場合(S323)、ホームゲートウェイ1102は、ユーザに聞き返しを行うように集音装置2013へ指示する(S324)。集音装置2013は、聞き返しの指示を受信すると、ユーザに対して対象機器又は制御命令を特定するための聞き返しを行う(S325)。
【0145】
この聞き返しにより得られた発話内容に対して、再度、音声認識処理(S326)及び意図理解処理(S327)が行われる。この意図理解処理により、対象機器及び制御命令が特定できた場合(S328)、ホームゲートウェイ1102は、集音装置2013に音声対話の結果を提示させる指示を集音装置2013へ送信する(S329)。集音装置2013は、結果表示の指示を受信すると、音声対話結果の情報をユーザに対して提示する(S330)。
【0146】
図13は、ホームゲートウェイ1102による音声対話処理(図10のS223)のフローチャートである。まず、ホームゲートウェイ1102は、音声認識処理(S241)及び意図理解処理(S242)を行う。次に、ホームゲートウェイ1102は、対象機器が特定できているかを判断する(S243)。機器が特定できている場合(S243でYes)、ホームゲートウェイ1102は、制御命令が特定できているかを判断する(S244)。制御命令が特定できている場合(S244でYes)、ホームゲートウェイ1102は、集音装置2013に音声対話の結果を表示させる指示を集音装置2013へ送信する(S245)。
【0147】
一方、対象機器が特定できていないと判断された場合(S243でNo)、又は、制御命令が特定できていないと判断された場合(S244でNo)、ホームゲートウェイ1102は、ユーザに聞き返しを行うように集音装置2013へ指示する(S246)。
【0148】
ここで、音声認識処理において、対象機器特定処理によって特定された対象機器の情報を利用することにより誤認識のリスクを低減できる可能性がある。例えば、ユーザが「あたためて」と発話した場合、音声認識結果を抽出する際には、「あたためて」、「暖めて」、「温めて」、「アタタメテ」等複数の候補が考えられる。仮に、対象機器としてエアコンと特定されている場合、「暖めて」を最有力候補としたほうが意図理解による機器操作内容として正しい結果が得やすい。同様に対象機器として電子レンジが特定されている場合は「温めて」としたほうがよい。また、対象機器が特定されていない場合は「あたためて」を選定したほうがよい。
【0149】
また、聞き返しを行っても理想的な回数の発話で必ずユーザが望む機器操作が行われるわけではない。例えば、ユーザが「電源入れて」と発話した場合、図4Bに示す対話辞書2101では、聞き返しにより機器と場所との2つの情報をユーザに発話してもらえば処理が完結するはずである。ただ、実際には機器として「エアコン」、場所として「寝室」のみをはっきり大きな声で発話してもらえる保証はない。雑音が混じったり、ユーザが余計な言葉を言ったり、ユーザが小さくこもった声で発話する場合もある。このように、認識に失敗する可能性は多々あるため、対象機器特定処理によりなるべく少ない発話で機器操作を行えるようにすることでユーザの利便性は高まる。あまりに誤認識が発生する場合には、ユーザに対して認識しやすい発話例を提示することで誤認識率の低減をはかったり、愛嬌あるキャラクター等に謝罪させることによりユーザの苛立ちを緩和させるようにしたりしても良い。
【0150】
図14は、音声認識処理(図12のS321)の動作例を示す図である。まず、ホームゲートウェイ1102は、集音装置2013に対して音声を保持するように指示し(S351)、音声対話サーバ2100に対して音声認識を開始するように指示する(S352)。
【0151】
指示を受けた集音装置2013は、ユーザが発話した音声データの保持を開始する(S353)。その後、集音装置2013は、ユーザに対して発話するよう誘導するための情報を提示する(S355)。一方で、指示を受けた音声対話サーバ2100は、音声データに対する音声認識を開始する(S354)。
【0152】
次に、ホームゲートウェイ1102は、集音装置2013が保持している音声データを取得し(S356)、音声対話サーバ2100に音声データを転送する(S357)。音声対話サーバ2100は、転送された音声データに対して音声認識処理を行う(S358)。この一連の処理がユーザの発話が終了するまで繰り返される。
【0153】
ユーザの発話が終了した場合、ホームゲートウェイ1102は、集音装置2013に対して音声データの保持を終了するよう通知し(S359)、音声対話サーバ2100に対して音声認識を終了するよう通知する(S360)。
【0154】
通知を受けた集音装置2013は、ユーザが発話した音声データの保持を終了する(S361)。通知を受けた音声対話サーバ2100は、音声認識処理を終了し(S362)、ホームゲートウェイ1102へ音声認識結果を通知する(S363)。
【0155】
図15は、ホームゲートウェイ1102による音声認識処理(図13のS241)のフローチャートである。
【0156】
まず、ホームゲートウェイ1102は、集音装置2013に対して音声を保持するように指示し、音声対話サーバ2100に対して音声認識を開始するように指示する(S251)。次に、ホームゲートウェイ1102は、集音装置2013が保持している音声データを取得する(S252)。そして、ホームゲートウェイ1102は、取得した音声データに基づき、ユーザの発話が終了したかどうかを判断する(S253)。
【0157】
ユーザの発話がまだ続いていると判断された場合(S253でNo)、ホームゲートウェイ1102は、音声対話サーバ2100に音声データを転送し(S254)、ステップS252に戻る。
【0158】
一方、ユーザの発話が終了したと判断された場合(S253でYes)、ホームゲートウェイ1102は、集音装置2013に対して音声データの保持を終了するよう通知し、音声対話サーバ2100に対して音声認識を終了するよう通知する(S255)。
【0159】
次に、ホームゲートウェイ1102は、音声対話サーバ2100から送信された音声認識結果を受信する(S256)。
【0160】
図16は、意図理解処理(図12のS322及びS327)の動作例を示す図である。まず、ホームゲートウェイ1102は、音声対話サーバ2100に対して意図理解の開始を指示する(S371)。このとき、ホームゲートウェイ1102は、例えば、発話認識テキストなどを入力情報として音声対話サーバ2100に送る。
【0161】
音声対話サーバ2100は、意図理解開始の指示を受けると、発話認識テキストと対話辞書2101とを照合して、機器に対して指示するアクションを決定する(S372)。そして、音声対話サーバ2100は、ホームゲートウェイ1102に対して、決定したアクションを示す情報を送信する(S373)。
【0162】
なお、上記説明では、ユーザの視線が複数の機器が存在しない領域に向けられていることを検出する手法として、集音装置2013が備える視線検出部2131の検出結果が用いられているが、これ以外の方法が用いられてもよい。例えば、視線検出部は、複数の機器(第1の機器2011及び第2の機器2012)が配置されている領域以外の任意の領域に設けられていてもよい。
【0163】
例えば、ホームゲートウェイ1102が視線検出部を備えてもよい。または、ユーザの対話の対象となるオブジェクト(人形等)に視線検出部が設けられていてもよい。さらに、ユーザの対話の対象となるオブジェクトは仮想的なオブジェクト(フォログラム等)であってもよい。この場合、例えば、グループ1100内に設置されているカメラにより撮影された画像に基づき、ユーザの視線の方向が検出されてもよい。また、複数の機器が備える視線検出部のいずれにおいてもユーザの視線が検出されなかった場合に、ユーザの視線が複数の機器が存在しない領域に向けられていると判定されてもよい。
【0164】
なお、ユーザの視線が複数の機器が存在しない領域に向けられていることを検出する手法として、上記のいずれかが用いられても良いし、2以上の手法が用いられてもよい。
【0165】
以上のように、本実施の形態に係る機器特定方法は、複数の機器からユーザによる操作対象となる対象機器を特定する機器特定装置(例えば、ホームゲートウェイ1102等)により行われる。なお、先述したように機器特定装置は、ホームゲートウェイ1102に限定されず、システムに含まれる任意の機器であればよい。例えば、後述するように、機器特定装置は、ホームゲートウェイ1102、集音装置2013及び音声対話サーバ2100の機能のうち少なくとも一部を含んでもよい。
【0166】
まず、機器特定装置は、ユーザの視線が向けられている方向に関する視線情報を取得する。機器特定装置は、視線情報に基づき、ユーザの視線が、当該ユーザが視認可能な空間における一部の領域であって、複数の機器が存在する位置と異なる第1の領域に向けられているか否かを判断する(S103、S231)。
【0167】
例えば、第1の領域は、機器特定装置が存在する領域である。具体的には、機器特定装置は、ユーザの視線が当該機器特定装置に向けられているかを検出する視線検出部を備え、当該視線検出部がユーザの視線が機器特定装置に向けられていることを検出した旨を視線情報として取得する。機器特定装置は、視線検出部がユーザの視線が機器特定装置に向けられていることを検出した場合に、ユーザの視線が第1の領域に向けられていると判断する。
【0168】
または、機器特定装置は、複数の機器とは異なる位置に設置されている集音装置2013により収集されたユーザの発話に基づき対象機器を操作し、第1の領域は、集音装置2013が存在する領域である。具体的には、集音装置2013は、ユーザの視線が当該集音装置2013に向けられているかを検出する視線検出部2131を備える。機器特定装置は、視線検出部2131がユーザの視線が集音装置2013に向けられていることを検出した旨を視線情報として取得する。機器特定装置は、視線検出部2131がユーザの視線が集音装置2013に向けられていることを検出した場合に、ユーザの視線が第1の領域に向けられていると判断する。
【0169】
または、機器特定装置は、ユーザの発話に基づき対象機器を操作し、第1の領域は、ユーザによる発話(対話)の相手であるオブジェクト(人形等)が存在する領域である。具体的には、オブジェクトは、ユーザの視線が当該オブジェクトに向けられているかを検出する視線検出部を備える。機器特定装置は、視線検出部がユーザの視線がオブジェクトに向けられていることを検出した旨を視線情報として取得する。機器特定装置は、視線検出部がユーザの視線がオブジェクトに向けられていることを検出した場合に、ユーザの視線が第1の領域に向けられていると判断する。
【0170】
または、機器特定装置は、ユーザの発話に基づき前記対象機器を操作し、第1の領域は、ユーザによる発話(対話)の相手である仮想オブジェクト(フォログラム等)が存在する領域である。具体的には、機器特定装置は、撮像装置により撮影された、ユーザが含まれる画像を視線情報として取得する。機器特定装置は、当該画像を解析することにより、ユーザの視線が仮想オブジェクトに向けられているか否かを判断し、ユーザの視線が仮想オブジェクトに向けられていると判断した場合、ユーザの視線が第1の領域に向けられていると判断する。
【0171】
ユーザの視線が前記第1の領域に向けられていると判断された場合(S103でNo、S231でNo)、機器特定装置は、複数の機器のうち、当該ユーザが視認不可能な空間に存在する第1の機器を対象機器として特定する(S105、S234)。
【0172】
次に、機器特定装置は、特定された対象機器をユーザの操作に基づき操作する(S108)。具体的には、機器特定装置は、ユーザの発話内容に基づき対象機器を制御するための命令を生成し、当該命令を対象機器に送信する。
【0173】
また、機器特定装置は、ユーザに対して、特定された対象機器を通知し(S106)、特定された対象機器がユーザにより承認された場合(S107でYes)に、特定された対象機器をユーザの操作に基づき操作する(S108)。
【0174】
これにより、本実施の形態に係る機器特定方法は、ユーザの視線が、機器が存在する位置以外の特定の領域に向けられている場合には、ユーザにとって視認することのできない空間に存在する機器を操作対象であると特定できる。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0175】
また、機器特定装置は、ユーザの視線が、当該ユーザが視認可能な空間に存在する、複数の機器に含まれる第2の機器に向けられているか否かを判断し(S103、S231)、ユーザの視線が第2の機器に向けられていると判断された場合(S103でYes、S231でYes)、当該第2の機器を対象機器として特定する(S104、S232)。
【0176】
これにより、本実施の形態に係る機器特定方法は、ユーザがある機器に視線を向けている場合、その機器が操作対象であると特定できる。これにより、ユーザに対する聞き返しの発生を低減できるので、ユーザの利便性を向上できる。
【0177】
また、ユーザの視線が第1の領域に向けられている場合であっても、ユーザによる発話の内容に、複数の機器に含まれる第3の機器を特定する情報が含まれる場合、機器特定装置は、第3の機器を対象機器として特定する。また、ユーザの視線が第1の領域に向けられていると判断された場合であっても、ユーザによる発話の内容に、所定の空間を特定する情報が含まれる場合、複数の機器のうち所定の空間に存在する第3の機器を対象機器として特定する(S101でYes、S102)。
【0178】
これにより、ユーザの視線情報に基づき操作対象となる機器を特定した場合であっても、ユーザの発話内容から特定される機器を操作対象として優先させることができる。よって、ユーザの意図しない機器が誤って操作対象に選択されることを抑制できる。
【0179】
(実施の形態2)
本実施の形態では、上記実施の形態1に係る対話情報提供システムの変形例について説明する。なお、以下の実施の形態では、先の実施の形態と重複する説明は省略し、主に相違点を説明する。
【0180】
本実施の形態に係る対話情報提供システムは、実施の形態1に係る対話情報提供システムに対して、対象機器特定処理(図10のS222)が異なる。具体的には、本実施の形態では、ユーザの視線が機器に向いていない場合、ユーザの近くに存在する機器を対象機器として選択する。
【0181】
図17は、本実施の形態に係る対象機器特定処理(S222A)のフローチャートである。なお、図17に示す処理は、図10に示す処理に対してステップS233及びS234の代わりにステップS233A及びS234を含む。
【0182】
視線検出通知の送信元の装置が家電機器でない場合(S231でNo)、ホームゲートウェイ1102は、機器管理情報2142を参照し、ユーザの近くに機器が存在するかどうか判定する(S233A)。
【0183】
具体的には、ホームゲートウェイ1102は、機器管理情報2142を参照し、ユーザの存在する空間(例えば部屋)と同じ空間に存在する機器を、ユーザの近くの機器と判断する。
【0184】
ユーザの近くに機器が存在する場合(S233AでYes)、ホームゲートウェイ1102は、ユーザの近くの機器を対象機器に決定する(S234A)。
【0185】
一方、ユーザの近くに機器が存在しない場合(S233AでNo)、ホームゲートウェイ1102は、対象機器を決定せず、全ての機器を対象機器の候補に決定する。
【0186】
なお、予めデフォルトの対象機器の候補として機器管理情報2142で管理されている全機器が設定され、ステップS234Aにおいて、対象機器として機器が選択された場合には、当該機器のみが対象機器になるように更新されてもよい。
【0187】
図18は、本実施の形態における、ユーザが集音装置2013に対して発話する場合の対話情報提供システムにおける動作例を示す図である。なお、ユーザが対象機器に対して発話する場合の対話情報提供システムにおける動作例は、図6と同様である。
【0188】
例えば、ユーザは、集音装置2013に視線を向けて「エアコンつけて」と発話する。
【0189】
集音装置2013は、ユーザの視線が自機器に向けられていることを検知し(S311)、検出結果をホームゲートウェイ1102に通知する(S312)。ホームゲートウェイ1102は、対象機器を特定する(S313A)。この場合、集音装置2013にユーザの視線が向けられているため、ホームゲートウェイ1102は、第1の機器2011及び第2の機器2012のうち、ユーザの近くに存在する第1の機器2011を対象機器に決定する。なお、ここでは、ユーザは、第1の空間2001(リビング)に存在し、対象機器として、ユーザと同じ第1の空間2001に存在する第1の機器2011が選択される。
【0190】
次に、集音装置2013、ホームゲートウェイ1102及び音声対話サーバ2100は、ステップS304と同様に、音声対話処理を行う(S314)。そして、ホームゲートウェイ1102は、音声対話処理の結果に基づいて第1の機器2011に制御命令を送信する(S315A)。第1の機器2011は、受信した制御命令を実行する(S316A)。
【0191】
このような流れにより、ユーザが機器を特定する内容の発話を行わず、かつ、機器に関連付けされていない集音装置2013に対してユーザが発話した場合であっても機器を特定して操作することが可能になる。
【0192】
(実施の形態3)
本実施の形態では、上記実施の形態1に係る対話情報提供システムの変形例について説明する。本実施の形態では、第1の機器2011及び第2の機器2012は、さらに、ユーザとの距離を検出する機能を有する。対話情報提供システムは、検出された、機器とユーザとの距離に基づき、ユーザの視認範囲外の機器を特定する。
【0193】
図19は、本実施の形態における第1の機器2011A及び第2の機器2012Aの一例を示すブロック図である。第1の機器2011A及び第2の機器2012Aは、実施の形態1に係る第1の機器2011及び第2の機器2012の構成要素に加え、ユーザと自機器との距離を検出する距離検出部2114及び2124を備える。ここで距離検出部2114及び2124は、ユーザが自機器から所定の距離以内に存在するか否かを検出してもよいし、ユーザと自機器との距離(値)を検出してもよい。
【0194】
図20A図20Cは、本実施の形態における機器管理情報2142の一例を示す図である。図20Aに示す機器管理情報2142Aの例では、ホームゲートウェイ1102と、第1の機器2011であるエアコンと、集音装置2013である天井マイクとがリビングに設置され、第2の機器2012であるエアコンが寝室に設置されている。また、距離検出部2114及び2124で取得されたユーザと機器との距離情報として、第1の機器2011でユーザが検出されたことが示されている。
【0195】
図20Bに示す機器管理情報2142Bの例では、ホームゲートウェイ1102と、第1の機器2011であるエアコンと、第2の機器2012であるエアコンと、集音装置2013である天井マイクとが存在しているが、各装置の設置場所は設定されていない。また、距離検出部2114及び2124で取得されたユーザと機器との距離情報として、第1の機器2011でユーザが検出されたことが示されている。
【0196】
図20Cに示す機器管理情報2142Cの例では、ホームゲートウェイ1102と、第2の機器2012であるエアコンとがリビングに設置されており、第1の機器2011である電子レンジと、集音装置2013である集音マイクとがキッチンに設置されている。また、距離検出部2114及び2124で取得されたユーザと機器との距離情報として、第1の機器2011でユーザが検出されたことが示されている。
【0197】
なお、ここでは、距離情報としてどの機器でユーザが検出されたかが示されているが、距離の遠近が分かるよう数値情報が示されてもよい。また、この数値情報として、機器との通信時間を示す情報が用いられてもよい。これにより、ユーザを検出した機器が複数存在する場合に、どの機器がユーザに最も近いかを判定できる。
【0198】
図21は、図11に示す処理のうち、ユーザの視認範囲外の機器を対象機器に設定する処理(S233及びS234)の詳細を示すフローチャートである。
【0199】
まず、ホームゲートウェイ1102は、機器管理情報2142に設置場所情報が設定されているかどうか判定する(S401)。設置場所情報が設定されている場合(S401でYes)、ホームゲートウェイ1102は、ユーザと異なる空間(例えば異なる部屋)に設置されている機器を選択する(S402)。
【0200】
一方、設置場所情報が設定されていない場合(S401でNo)、ホームゲートウェイ1102は、距離情報に基づき、ユーザから所定の距離以上は離れている機器を選択する(S403)。例えば、ホームゲートウェイ1102は、ユーザを検出した機器以外の機器を選択する。
【0201】
また、ステップS402及びS403において、複数の機器が選択された場合(S404でYes)、ホームゲートウェイ1102は、最もユーザからの距離が遠い機器を選択する(S405)。
【0202】
以下、この処理の具体例を図20A及び図20Bの例で説明する。
【0203】
図20Aに示す例では、第1の機器2011はリビングに設置されているエアコンであり、第2の機器2012は寝室に設置されているエアコンであり、集音装置2013は天井に設置されているマイクである。ユーザがリビングで機器に視線を向けずに(例えば集音装置2013に視線を向けて)「あたためて」と発話した場合には、ユーザと異なる部屋に設置されている寝室のエアコンが対象機器として選択される。なお、異なる部屋に複数台のエアコンが設置されている場合は、これらの全てのエアコンが選択されてもよいし、最もユーザから遠い機器のみが選択されてもよい。
【0204】
また、図20Bに示す例では、ユーザからの距離が近い順に第1の機器2011、第2の機器2012が存在している。第1の機器2011及び第2の機器2012はエアコンであり、集音装置2013は天井に設置されているマイクである。ユーザがリビングで機器に視線を向けずに「冷房つけて」と発話した場合、ユーザからの距離が最も遠い寝室のエアコンの冷房運転が開始される。
【0205】
(実施の形態4)
本実施の形態では、上記実施の形態2に係る対話情報提供システムに対して、実施の形態3と同様の変形例を適用した場合について説明する。なお、第1の機器2011A及び第2の機器2012A、及び機器管理情報2142の構成は、実施の形態3と同様である。
【0206】
図22は、図17に示す処理のうち、ユーザの近くの機器を対象機器に設定する処理(S233A及びS234A)の詳細を示すフローチャートである。
【0207】
まず、ホームゲートウェイ1102は、機器管理情報2142に設置場所情報が設定されているかどうか判定する(S401)。設置場所情報が設定されている場合(S401でYes)、ホームゲートウェイ1102は、ユーザと同じ空間(例えば同じ部屋)に設置されている機器を選択する(S402A)。
【0208】
一方、設置場所情報が設定されていない場合(S401でNo)、ホームゲートウェイ1102は、距離情報に基づき、ユーザから所定の距離以内に存在する機器を選択する(S403A)。例えば、ホームゲートウェイ1102は、ユーザを検出した機器を選択する。
【0209】
また、ステップS402A及びS403Aにおいて、複数の機器が選択された場合(S404でYes)、ホームゲートウェイ1102は、最もユーザからの距離が近い機器を選択する(S405A)。
【0210】
以下、この処理の具体例を図20A図20Cの例で説明する。
【0211】
図20Aに示す例では、第1の機器2011はリビングに設置されているエアコンであり、第2の機器2012は寝室に設置されているエアコンであり、集音装置2013は天井に設置されているマイクである。ユーザがリビングで機器に視線を向けずに「あたためて」と発話した場合には、ユーザと同じ部屋に設置されているリビングのエアコンが対象機器として選択される。なお、リビングに複数台のエアコンが設置されている場合は、これらの全てのエアコンが選択されてもよいし、最もユーザに近い機器のみが選択されてもよい。
【0212】
また、図20Bに示す例では、ユーザからの距離が近い順に第1の機器2011、第2の機器2012が存在している。第1の機器2011及び第2の機器2012はエアコンであり、集音装置2013は天井に設置されているマイクである。ユーザがリビングで機器に視線を向けずに「冷房つけて」と発話した場合、ユーザからの距離が近いリビングのエアコンの冷房運転が開始される。これにより、ユーザにより快適な環境を提供できる。
【0213】
また、図20Cに示す例では、第1の機器2011はキッチンに設置されている電子レンジであり、第2の機器2012はリビングに設置されているエアコンであり、集音装置2013はキッチンに設置されているマイク機能を有する表示機器である。ユーザがキッチンで表示機器を利用してレシピを検索しながら「あたためて」と発話した場合にも同様に、発話しているユーザとの距離が閾値以内の機器である電子レンジが選択される。または、ユーザが居る場所をキッチンと特定すると、距離の遠近のみでなく、調理家電カテゴリーの機器である電子レンジを優先することで更にユーザの意図を推定しやすくなる可能性がある。
【0214】
(実施の形態5)
本実施の形態では、上記実施の形態4の変形例を説明する。また、本実施の形態では、ユーザが自分専用のぬいぐるみ、アバター、又はウェアラブルマイク等を利用して、発話により家電機器の状態を確認又は操作する場合について説明する。具体的には、ユーザが機器に視線を向けずに発話した場合であって、ユーザ専用の集音装置で発話が取得された場合には、そのユーザに対応付けられている機器(例えば、そのユーザの部屋に設置されている機器)が選択される。
【0215】
図23は、本実施の形態における対話情報提供システムの一例を示す図である。図23に示す対話情報提供システムは、図2に示す対話情報提供システムに対してグループ1100Aの構成がグループ1100と異なる。具体的には、グループ1100Aは、さらに、集音装置2014を含む。集音装置2014は、視線検出部2151と集音部2152を備える。視線検出部2151と集音部2152の機能は、集音装置2013が備える視線検出部2131と集音部2132と同様である。集音装置2014は、更に、ユーザ情報2155を保持している。ユーザ情報2155は、集音装置2013を使用するユーザ(所有者)の名称又は識別子等を示す。
【0216】
図24は、本実施の形態における機器管理情報2142の一例を示す図である。図24に示す機器管理情報2142Dの例では、ホームゲートウェイ1102と、第1の機器2011であるエアコンと、集音装置2013である天井マイクとがリビングに設置され、第2の機器2012であるエアコンが子供部屋に設置されている。また、子供が、集音装置2014であるウェアラブルマイクを身につけて発話しようとしている。
【0217】
図25は、ユーザの近くの機器を対象機器に設定する処理(図17のS233A及びS234A)の詳細を示すフローチャートである。図25に示す処理は、図22に示す処理に対してステップS406及びS407が追加されている。
【0218】
設置場所情報が設定されている場合(S401でYes)、ホームゲートウェイ1102は、ユーザが天井マイクのように設置場所が固定されている設置マイクを利用して発話したかどうか判定する(S406)。ユーザが設置マイクを利用して発話した場合(S406でYes)、実施の形態4と同様にステップS402A以降の処理が行われる。
【0219】
一方、ユーザが設置マイクを利用して発話していない場合、つまり、そのユーザに対応付けられているウェアラブルマイク等の携帯マイクを利用して発話した場合(S406でNo)、ホームゲートウェイ1102は、ユーザの部屋に設置されている機器を選択する(S407)。
【0220】
この処理の具体例を図24の例で説明する。
【0221】
図24の例では、第1の機器2011はリビングに設置されているエアコンであり、第2の機器2012はユーザの部屋に設置されているエアコンであり、集音装置2014はユーザ専用のウェアラブルマイクである。ユーザは、リビングでウェアラブルマイクを利用して「あたためて」と発話した場合には、ユーザの部屋に設置されている第2の機器2012が選択される。
【0222】
このようにして、「あたためて」のようにユーザが機器を特定する発話をしない場合でも機器を特定して該当機器を制御することが可能になる。
【0223】
なお、ユーザには予め優先度が設定されていてもよい。これにより、複数のユーザが同時に発話した場合に、より優先度の高いユーザの発話が優先される。例えば、家族内において大人の優先度が子供より高く設定されていてもよい。または、家族の優先度が高く設定されており、来客等の予め登録されていないユーザの優先度が低く設定されてもよい。
【0224】
なお、ここでは、実施の形態4の変形例として、本実施の形態の動作を説明したが、他の実施の形態に対しても同様の変形例を適用できる。
【0225】
以上のように、機器特定装置は、複数の集音装置2013及び2014のいずれかにより収集されたユーザの発話に基づき対象機器を操作する。複数の集音装置2013及び2014は、ユーザに予め対応付けられている第1の集音装置2014を含む。機器特定装置は、第1の集音装置2014によりユーザの発話が収集された場合、複数の機器(第1の機器2011及び第2の機器2012)のうち、ユーザに予め対応付けられている機器を対象機器として特定する。
【0226】
これにより、ユーザに対応付けられている機器を操作対象として優先させることができる。よって、ユーザの意図しない機器が誤って操作対象に選択されることを抑制できる。
【0227】
(実施の形態6)
本実施の形態では、上記実施の形態1の変形例を説明する。本実施の形態では、対話情報提供システムは、集音を開始する際にユーザに操作したい機器を明示的に指示してもらえるようユーザを誘導する。具体的には、対話情報提供システムは、ユーザに対象機器の方を向いて発話することを促す。
【0228】
図26は、対象機器特定処理(S222)の変形例(S222B)のフローチャートである。図26に示す処理は、図11に示す処理に対してステップS235及びS236が追加されている。
【0229】
視線検出通知の送信元の装置が家電機器でない場合(S231でNo)、ホームゲートウェイ1102は、ユーザに対象機器へ視線を向けて発話してもらう通知を行ったかどうか判定する(S235)。通知を行っていない場合(S235でNo)、ホームゲートウェイ1102は、ユーザへの情報提示能力を有する集音装置2013等に、ユーザにメッセージを伝えるように指示する(S236)。例えば、このメッセージとは「操作したい機器を向いてお話ください」等である。
【0230】
このようにすることで、より明確にユーザの操作したい機器を特定することが可能になる。
【0231】
(その他の変形例)
なお、上記実施の形態において説明された技術は、例えば以下の構成によっても実現されうる。
【0232】
図27では、視線検出部2131と集音部2132とが別機器に分離されている。つまり、図27に示すグループ1100Bは、集音装置2013の代わりに、視線検出部2131を備える視線検出装置2013Aと、集音部2132を備える集音装置2013Bとを備える。このような構成にすることにより、機器の単価を下げられるだけでなく、機器を小型化及び軽量化できるので機器を携帯しやすくできる。これにより、視線検出の精度を向上できる。
【0233】
図28に示すグループ1100Cでは、ホームゲートウェイ1102Aは対話辞書2147を保持している。このような構成にすることにより、電波不良又は有線LANケーブルが抜けている場合等の通信切断時においても発話による機器制御を実施できる。また、通信可能な場合においても通信によるオーバーヘッドを低減できるため応答性を高めることができる。
【0234】
なお、この場合、ホームゲートウェイ1102A、及び音声対話サーバ2100の両方で意図理解処理を実施してもよい。この場合、ホームゲートウェイ1102Aが保有する対話辞書2147と、音声対話サーバ2100が保有する対話辞書2101とに差異が発生する場合が考えられるため、いずれか一方でしか所望の結果が得られない可能性がある。
【0235】
図29に示す例では、ホームゲートウェイ1102Aに対話辞書2147が保持され、音声対話サーバ2100が存在しない。このような構成にすることにより、インターネットに接続していない環境においても発話による機器制御を実施できる。
【0236】
図30に示すグループ1100Dでは、ホームゲートウェイ1102と集音装置2013とが一体化されている。グループ1100Dに含まれるホームゲートウェイ1102Bは、視線検出部2131及び集音部2132を備える。このような構成にすることにより、視線検出通知等を機器間通信で行う必要がなくなるため通信によるオーバーヘッドが低減されるので、ユーザへの応答性を向上できる。
【0237】
なお、上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれらに限られるものでない。
【0238】
(サービスの類型1:自社データセンタ型クラウドサービス)
図31は、サービスの類型1(自社データセンタ型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ1120がグループ1100から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ1120が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ1120が、ビッグデータを管理するクラウドサーバ1111を保有している。したがって、データセンタ運営会社は存在しない。
【0239】
本類型では、サービスプロバイダ1120は、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、オペレーティングシステム(OS)1202及びアプリケーション1201を管理する。サービスプロバイダ1120は、サービスプロバイダ1120が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
【0240】
(サービスの類型2:IaaS利用型クラウドサービス)
図32は、サービスの類型2(IaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
【0241】
本類型では、データセンタ運営会社1110が、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、OS1202及びアプリケーション1201を管理する。サービスプロバイダ1120は、サービスプロバイダ1120が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
【0242】
(サービスの類型3:PaaS利用型クラウドサービス)
図33は、サービスの類型3(PaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
【0243】
本類型では、データセンタ運営会社1110は、OS1202を管理し、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、アプリケーション1201を管理する。サービスプロバイダ1120は、データセンタ運営会社1110が管理するOS1202及びサービスプロバイダ1120が管理するアプリケーション1201を用いてサービスを提供する(矢印1204)。
【0244】
(サービスの類型4:SaaS利用型クラウドサービス)
図34は、サービスの類型4(SaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
【0245】
本類型では、データセンタ運営会社1110は、アプリケーション1201を管理し、OS1202を管理し、データセンタ(クラウドサーバ)1203を運営及び管理している。また、サービスプロバイダ1120は、データセンタ運営会社1110が管理するOS1202及びアプリケーション1201を用いてサービスを提供する(矢印1204)。
【0246】
以上、いずれのクラウドサービスの類型においても、サービスプロバイダ1120がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
【0247】
以上、本開示の実施の形態に係る対話情報提供システムについて説明したが、本開示は、この実施の形態に限定されるものではない。
【0248】
また、上記実施の形態に係る対話情報提供システムに含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
【0249】
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0250】
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0251】
さらに、本開示は上記プログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
【0252】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
【0253】
また、上記フローチャート等に示す複数のステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
【0254】
以上、一つまたは複数の態様に係る対話情報提供システムについて、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
【産業上の利用可能性】
【0255】
本開示は、ユーザの発話により複数の機器を操作する機器制御システム、及び複数の機器と接続されるホームゲートウェイにおいて有用である。
【符号の説明】
【0256】
1010、1020 ユーザ
1100、1100A、1100B、1100C、1100D グループ
1101 複数の機器
1102、1102A、1102B ホームゲートウェイ
1110 データセンタ運営会社
1111 クラウドサーバ
1120 サービスプロバイダ
1121 サーバ
1201 アプリケーション
1202 OS
1203 データセンタ
2001 第1の空間
2002 第2の空間
2011、2011A 第1の機器
2012、2012A 第2の機器
2013、2013B、2014 集音装置
2013A 視線検出装置
2020、2021 ネットワーク
2100 音声対話サーバ
2101、2147 対話辞書
2111、2121、2131、2151 視線検出部
2112、2122、2134、2145 機器通信部
2113、2123 機器命令実行部
2114、2124 距離検出部
2132、2152 集音部
2133 情報提示部
2141 機器特定部
2142、2142A、2142B、2142C、2142D 機器管理情報
2143 音声対話部
2144 機器管理部
2146 クラウド通信部
2155 ユーザ情報
図1A
図1B
図1C
図2
図3
図4A
図4B
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20A
図20B
図20C
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34