(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-15
(45)【発行日】2022-01-14
(54)【発明の名称】ロボットのウェイクアップ方法、装置及びロボット
(51)【国際特許分類】
G10L 15/28 20130101AFI20220106BHJP
G10L 15/10 20060101ALI20220106BHJP
G10L 15/25 20130101ALI20220106BHJP
G10L 15/00 20130101ALI20220106BHJP
【FI】
G10L15/28 230K
G10L15/10 200W
G10L15/25
G10L15/00 200H
(21)【出願番号】P 2019561852
(86)(22)【出願日】2017-05-08
(86)【国際出願番号】 CN2017083424
(87)【国際公開番号】W WO2018205083
(87)【国際公開日】2018-11-15
【審査請求日】2019-11-08
(73)【特許権者】
【識別番号】521102638
【氏名又は名称】達闥机器人有限公司
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK特許業務法人
(74)【代理人】
【識別番号】100130328
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】駱磊
【審査官】渡部 幸和
(56)【参考文献】
【文献】米国特許出願公開第2013/0307771(US,A1)
【文献】特開2017-072857(JP,A)
【文献】特開2017-010176(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-25/93
(57)【特許請求の範囲】
【請求項1】
ロボットに適用するウェイクアップ方法において、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するステップと、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認するステップとを含み、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得する前記ステップは、
音声コマンドの時間情報と音声コマンド発行者の情報を含む音声コマンド情報を取得するステップと、
前記音声コマンド情報をブロードキャストするステップと、
同じ音声コマンドを聞いたロボットがあるか否かを確認し、あれば、前記ロボットを同じ候補グループに参加させるステップと、
前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するステップと、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報があれば、候補グループ内で前記音声コマンド発行者が音声コマンドを発行する際の視線範囲情報をブロードキャストするステップとを含む、ことを特徴とするロボットのウェイクアップ方法。
【請求項2】
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得していなければ、前記音声コマンド発行者に質問するステップをさらに含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、音声コマンド情報を取得する前記ステップは、
音声信号をモニタリングすることと、
前記音声信号におけるウェイクアップワードを解析することと、
前記音声信号の音圧レベルを確認することと、
前記ウェイクアップワードの出現が呼び出しのためであり、且つ前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記音声信号の開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録することと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録することとを含む、ことを特徴とする請求項1に記載の方法。
【請求項4】
前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、音声コマンド情報を取得する前記ステップは、
音声信号をモニタリングすることと、
前記音声信号におけるウェイクアップワードを解析することと、
前記音声信号の音圧レベルを確認することと、
前記ウェイクアップワードの出現が呼び出しのためであり、且つ前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記ウェイクアップワードの開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録することと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録することとを含む、ことを特徴とする請求項1に記載の方法。
【請求項5】
前記ウェイクアップワードは呼び出しを表す代名詞であり、
前記音声コマンド発行者に質問する前記ステップは、
前記ウェイクアップワードが単数形代名詞であるか否かを確認するステップと、
単数形代名詞であれば、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認し、音圧レベルが最も大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットを呼んでいるかを質問するようにさせるステップと、
音圧レベルが最も大きいロボットを呼んでいれば、音声コマンド発行者に応答するステップと、
そうでなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するステップと、
単数形代名詞でなければ、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認し、音圧レベルが最も大きいロボットと2番目に大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいるかを質問するようにさせるステップと、
音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいれば、音声コマンド発行者に応答するステップと、
そうでなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するステップと、
候補グループ内で前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報をブロードキャストするステップとを含み、
前記方法は、さらに、
前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認し、音声コマンド発行者に応答するステップを含む、ことを特徴とする請求項3又は4に記載の方法。
【請求項6】
自分の視覚情報と位置情報に基づいて、音声コマンド発行者の視線範囲情報を取得する前記ステップは、
前記音声コマンドの時間情報を複数の時点に均等に分割することと、
各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得することと、
取得した視線方向と前記視線方向に対応する時点とを視線範囲情報とすることとを含む、ことを特徴とする請求項1から請求項5のいずれか1項に記載の方法。
【請求項7】
自分の視覚情報と位置情報に基づいて、音声コマンド発行者の視線範囲情報を取得する前記ステップは
前記音声コマンドの時間情報を複数の時点に均等に分割することと、
各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得することと、
取得した視線方向及び前記視線方向に対応する時点に基づいて、視線区間及び前記視線区間に対応する時間範囲を取得し、前記視線区間と前記時間範囲とを視線範囲情報とすることとを含む、ことを特徴とする請求項1から請求項5のいずれか1項に記載の方法。
【請求項8】
前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認する前記ステップは、
予め設定された時間帯での自分の位置情報を取得することと、
前記視線範囲情報の1つの時点に、前記視線方向に合致する自分の位置情報があるか否かを確認し、あれば、音声コマンド発行者が自分を注視していると確認することとを含む、ことを特徴とする請求項6に記載の方法。
【請求項9】
視線範囲情報に基づいて音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認する前記ステップは、
予め設定された時間帯での自分の位置情報を取得することと、
前記視線範囲情報の時間範囲内に、自分の位置情報が前記視線区間に合致するか否かを確認し、合致すれば、音声コマンド発行者が自分を注視していると確認することとを含む、ことを特徴とする請求項7に記載の方法。
【請求項10】
ロボットに適用するウェイクアップ装置において、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するための視線範囲取得モジュールと、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認するための呼び出し確認モジュールとを含み、
前記視線範囲取得モジュールは、
音声コマンドの時間情報と音声コマンド発行者の情報を含む音声コマンド情報を取得するための音声コマンド取得サブモジュールと、
前記音声コマンド情報をブロードキャストするための音声コマンドブロードキャストモジュールと、
同じ音声コマンドを聞いたロボットがあるか否かを確認し、あれば、前記ロボットを同じ候補グループに参加させるための候補グループ参加サブモジュールと、
前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するための視線範囲取得サブモジュールと、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報があれば、候補グループ内で前記音声コマンド発行者が音声コマンドを発行する際の視線範囲情報をブロードキャストするためのブロードキャストサブモジュールとを含む、ことを特徴とするロボットウェイクアップ装置。
【請求項11】
前記ウェイクアップ装置において、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得していなければ、前記音声コマンド発行者に質問するための質問モジュールをさらに含む、ことを特徴とする請求項10に記載の装置。
【請求項12】
前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、前記音声コマンド取得サブモジュールは、
音声信号をモニタリングするための音声モニタリングサブユニットと、
前記音声信号におけるウェイクアップワードを解析するためのウェイクアップワード解析サブユニットと、
前記音声信号の音圧レベルを確認するための音圧レベル確認サブユニットと、
前記ウェイクアップワードは呼び出しを表す代名詞であり且つ当該ウェイクアップワードの出現は呼び出しのためであり、また前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記音声信号の開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録するための第1音声コマンド記録サブユニットと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録するための第2音声コマンド記録サブユニットとを含む、ことを特徴とする
請求項11に記載の装置。
【請求項13】
前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、前記音声コマンド取得サブモジュールは、
音声信号をモニタリングするための音声モニタリングサブユニットと、
前記音声信号におけるウェイクアップワードを解析するためのウェイクアップワード解析サブユニットと、
前記音声信号の音圧レベルを確認するための音圧レベル確認サブユニットと、
前記ウェイクアップワードは呼び出しを表す代名詞であり且つ当該ウェイクアップワードの出現は呼び出しのためであり、また前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記ウェイクアップワードの開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録するための第3音声コマンド記録サブユニットと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録するための第2音声コマンド記録サブユニットとを含む、ことを特徴とする
請求項11に記載の装置。
【請求項14】
前記質問モジュールは、
前記ウェイクアップワードが単数形代名詞であるか否かを確認するためのウェイクアップワード確認サブモジュールと、
単数形代名詞であれば、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認し、音圧レベルが最も大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットを呼んでいるかを質問するようにさせるための第1質問サブモジュールと、
音圧レベルが最も大きいロボットを呼んでいれば、音声コマンド発行者に応答するための第1応答サブモジュールと、
音圧レベルが最も大きいロボット呼んでいなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するための第1新しい視線範囲取得サブモジュールと、
単数形代名詞でなければ、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認し、音圧レベルが最も大きいロボットと2番目に大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいるかを質問するようにさせるための第2質問サブモジュールと、
音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいれば、音声コマンド発行者に応答するための第2応答サブモジュールと、
音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するための第2新しい視線範囲取得サブモジュールと、
候補グループ内で前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報をブロードキャストするための新しい視線範囲ブロードキャストサブモジュールとを含み、
前記装置は、さらに、
前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認し、音声コマンド発行者に応答するための呼び出し再確認モジュールとを含む、ことを特徴とする請求項12又は請求項13に記載の装置。
【請求項15】
前記視線範囲取得サブモジュールは、
前記音声コマンドの時間情報を複数の時点に均等に分割するための時分割サブユニットと、
各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得するための視線方向確認サブユニットと、
取得した視線方向と前記視線方向に対応する時点とを視線範囲情報とするための視線範囲取得サブユニットとを含む、ことを特徴とする請求項10から請求項14のいずれか1項に記載の装置。
【請求項16】
前記視線範囲取得サブモジュールは、
前記音声コマンドの時間情報を複数の時点に均等に分割するための時分割サブユニットと、
各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得するための視線方向確認サブユニットと、
取得した視線方向及び前記視線方向に対応する時点に基づいて、視線区間及び前記視線区間に対応する時間範囲を取得し、前記視線区間と前記時間範囲とを視線範囲情報とするための第2視線範囲取得サブユニットとを含む、ことを特徴とする請求項10から請求項14のいずれか1項に記載の装置。
【請求項17】
前記呼び出し確認モジュールは、
予め設定された時間帯での自分の位置情報を取得するための自分位置取得サブモジュールと、
前記視線範囲情報の1つの時点に、前記視線方向に合致する自分の位置情報があるか否かを確認し、あれば、音声コマンド発行者が自分を注視していると確認するための第1注視確認サブモジュールとを含む、ことを特徴とする請求項15に記載の装置。
【請求項18】
前記呼び出し確認モジュールは、
予め設定された時間帯での自分の位置情報を取得するための自分位置取得サブモジュールと、
前記視線範囲情報の時間範囲内に、自分の位置情報が前記視線区間に合致するか否かを確認し、合致すれば、音声コマンド発行者が自分を注視していると確認するための第2注視確認サブモジュールとを含む、ことを特徴とする請求項16に記載の装置
【請求項19】
ロボットにおいて、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサにより実行できる命令が格納され、前記命令が前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサが請求項1から請求項9のいずれか1項に記載の方法を実行できる、ことを特徴とするロボット。
【請求項20】
不揮発性コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体には、コンピュータ実行可能命令が格納され、前記コンピュータ実行可能命令がロボットにより実行されるとき、前記ロボットに請求項1から請求項9のいずれか1項に記載の方法を実行させる、ことを特徴とする不揮発性コンピュータ可読記憶媒体。
【請求項21】
コンピュータプログラム製品において、前記コンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体に格納されている、プログラム命令を含むコンピュータプログラムを含み、前記プログラム命令がロボットにより実行されるとき、前記ロボットに請求項1から請求項9のいずれか1項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、人工知能自動制御の分野に関し、例えばロボットのウェイクアップ方法、装置及びロボットに関する。
【背景技術】
【0002】
人工知能技術の発展に伴い、ロボットは人間の生産と生活に多くの利便性をもたらす。現在、ユーザがロボットに対する制御を行うとき、ロボットにウェイクアップワードを予め設定しておき、ロボットは、特定のウェイクアップワード(例えば、ロボットの名前)を聞くと、自分がユーザに呼ばれたことが分かる。例えば、ユーザは、ウェイクアップワードとしてのAlexa又はMikeをロボットに設定し、ユーザがAlexa又はMikeを呼ぶと、ロボットは自分がユーザに呼ばれたことが分かる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明者は、従来技術を研究する過程で、関連技術において、ユーザがある時点にロボットの名前を思い出せない問題、又はユーザが複数のロボットを持っていてそれぞれのロボットの名前を覚えない問題、又は一部のロボットの見た目が似ていてユーザがロボットを正確に区分できない問題があることを見出した。上記のこれらの場合、ユーザはロボットをウェイクアップさせることができないか、又は間違ったロボットをウェイクアップさせて、ユーザの実際のニーズを満たすことができない。
【課題を解決するための手段】
【0004】
本発明の実施例は、ロボットのウェイクアップ方法、装置及びロボットを提供し、代名詞を使用するだけでロボットをウェイクアップさせることができるため、ユーザがロボットそれぞれの名前を覚える必要がなく、顧客体験を向上させることを1つの目的とする。
【0005】
第1態様において、本発明の実施例は、ロボットに適用するロボットのウェイクアップ方法を提供し、前記方法は、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認することを含む。
【0006】
第2態様において、本発明の実施例は、ロボットに適用するロボットウェイクアップ装置をさらに提供し、前記装置は、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認するための呼び出し確認モジュールを含む。
【0007】
第3態様において、本発明の実施例は、ロボットをさらに提供し、前記ロボットは、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサにより実行できる命令が格納され、前記命令が前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサが上記のような方法を実行できる。
【発明の効果】
【0008】
本発明の実施例に係るウェイクアップ方法及び装置では、ロボットは、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報に基づいて、音声コマンド発行者が音声コマンドを発行する際に自分を注視しているか否かを判断し、自分を注視していれば、自分が呼ばれたと確認する。ユーザがロボットの名前を忘れた場合、ロボットを向いて音声コマンドを発行するだけで、ウェイクアップワードとしての代名詞を使用してロボットをウェイクアップさせることができ、ユーザがロボットそれぞれの名前を覚える必要がなく、ユーザ体験を向上させた。
【図面の簡単な説明】
【0009】
1つ又は複数の実施例は、それに対応する添付図面の図によって例示的に説明され、これらの例示的な説明は、実施例を限定するものではない。添付図面において、同じ参照番号を有する要素で類似の要素を示しており、添付図面の図は、特に明記しない限り、縮尺を限定するように構成されない。
【
図1】本発明の方法及び装置の利用シーンを示す模式図である。
【
図2】本発明の方法及び装置の利用シーンを示す模式図である。
【
図3】本発明のウェイクアップ方法の一実施例のフローチャートである。
【
図4】本発明のウェイクアップ方法の一実施例のフローチャートである。
【
図5】本発明のウェイクアップ方法の一実施例における音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するステップのフローチャートである。
【
図6】本発明のウェイクアップ方法の一実施例における前記音声コマンド発行者に質問するステップのフローチャートである。
【
図7】本発明のウェイクアップ方法の一実施例のフローチャートである。
【
図8】本発明のウェイクアップ装置の一実施例の構造を示す模式図である。
【
図9】本発明のウェイクアップ装置の一実施例の構造を示す模式図である。
【
図10】本発明のウェイクアップ装置の一実施例の構造を示す模式図である。
【
図11】本発明のウェイクアップ装置の一実施例における音声コマンド取得サブモジュールの構造を示す模式図である。
【
図12】本発明のウェイクアップ装置の一実施例における質問モジュールの構造を示す模式図である。
【
図13】本発明のウェイクアップ装置の一実施例における視線範囲取得サブモジュールの構造を示す模式図である。
【
図14】本発明のウェイクアップ装置の一実施例における呼び出し確認モジュールの構造を示す模式図である。
【
図15】本発明の実施例に係るウェイクアップ方法を用いたロボットのハードウェア構造を示す模式図である。
【発明を実施するための形態】
【0010】
本発明の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の実施例における添付図面を参照しながら、本発明の実施例における技術的解決手段について明確且つ完全に説明し、説明された実施例は、本発明の一部の実施例であり、全ての実施例ではないことは明らかである。本発明の実施例に基づいて、当業者の創造的な働きなしに得られたすべての他の実施例は、いずれも本発明の保護範囲に属す。
【0011】
本発明に係るロボットのウェイクアップ方法及び装置は、
図1及び2に示すような利用シーンに適用し、1つ又は複数のロボット20を含み、複数のロボット20はネットワーク30を介して互いに通信することができ、ここで、ネットワーク30は、例えば家庭、会社のローカルエリアネットワーク、又は1つの特定のネットワークなどであってもよい。ロボット20は、すくなくとも1つのネットワークインターフェースを有し、ネットワーク30と通信接続を確立して、ネットワーク30からデータ又は命令を取得する。ユーザ10は、同じ又は類似の操作行動を有する任意の数のグループ、例えば家族、ワークグループ、又は個人であってもよい。ユーザ10は、複数のロボット20に対してコマンドの設定又は発行を行うことができる。
【0012】
ロボットごとに、自分をスリープ状態からウェイクアップさせるため又はユーザの呼び出しに応答するための、それぞれに対応するウェイクアップワードを有し、前記ウェイクアップワードはユーザによって予め設定されてもよい。ここで、前記ウェイクアップワードは、ロボットの名前、識別コード又はその他の任意のワードにしてもよい。このように、ロボットごとに特定のウェイクアップワードを設定する場合、ユーザは各ロボットの特定のウェイクアップワードを覚える必要があり、ユーザが特定のウェイクアップワードを覚えることができない場合、ロボットをウェイクアップさせることができない。1つの代名詞で各特定のウェイクアップワードを代替できる場合、ユーザが各特定のウェイクアップワードを覚える手間を省くことができる。本発明に係るロボットのウェイクアップ方法及び装置は、1つの代名詞を使用してロボットをウェイクアップさせることができる。なお、本発明に係るロボットのウェイクアップ方法及び装置は、1つの代名詞をウェイクアップワードとして使用する状況に適用し、同様に特定のウェイクアップワードを使用する状況にも適用できる。前記1つの代名詞は、例えばあなた、あなたたち、おい等のような呼び出しを表す代名詞であってもよく、もしくは例えば「ハニー」又は「ロボット」のようなユーザが定義した代名詞であってもよい。さらに、前記代名詞のために単数形又は複数形の属性を定義することも可能で、例えば「あなた」、「ロボット」は単数形の代名詞を表し、「あなたたち」、「ロボットたち」は複数形の代名詞を表す。
【0013】
本発明の実施例に係るロボットのウェイクアップ方法は、
図1又は
図2に示される任意のロボットにより実行されることができ、
図3に示すように、前記ウェイクアップ方法の一実施例のフローチャートであり、前記ウェイクアップ方法は、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するステップ101と、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認するステップ102とを含む。
【0014】
人々には話す際に相手を注視する習慣があり、そのためユーザが特定のウェイクアップワードではなく1つの代名詞をウェイクアップワードとして使用しても、音声コマンドを発行する際にユーザが注視しているロボット又はロボットたちがどれかを確認することができれば、ユーザがどのロボット又はロボットたちに音声コマンドを発行したかを確認することができる。例えば、ユーザがある2つのロボットを注視しながら「あなた、あなた、部屋の掃除を手伝ってください」という音声コマンドを発行すると、この2つのロボットは、ユーザが音声コマンドを発行する際に自分を注視していると確認できれば、自分が呼ばれたと確認でき、それにより顧客に応答する。
【0015】
一般的なロボットは、いずれもカメラ又は360度パノラマカメラを有し、カメラはロボット周囲の画像を記録して視覚情報キャッシュに格納し、視覚情報キャッシュ内の画像を呼び出すことにより、ユーザの位置を判定することができ、またユーザが自分を向いているか否かを知ることができ、それによりユーザが自分を注視しているか否かを確認する。
【0016】
本発明の実施例に係るウェイクアップ方法及び装置において、ロボットは、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報に基づいて、音声コマンド発行者が音声コマンドを発行する際に自分を注視しているか否かを判断し、自分を注視していれば、自分が呼ばれたと確認する。ユーザがロボットの名前を忘れた場合、ロボットを向いて音声コマンドを発行するだけで、ウェイクアップワードとしての代名詞を使用してロボットをウェイクアップさせることができ、ユーザがロボットそれぞれの名前を覚える必要がなく、ユーザ体験を向上させた。
【0017】
図4に示すように、前記方法の別の実施例のフローチャートであり、当該実施例において、前記方法は、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するステップ201と、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を向いているか否かを確認し、自分を向いていれば、自分が呼ばれたと確認するステップ202と、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得していなければ、前記音声コマンド発行者に質問するステップ203とを含む。
【0018】
ユーザがロボットの手伝いを必要とするとき、ロボットは離れた場所で何らか他のことをしている場合もあり、実施例に係る方法を用いると、ユーザはロボットを向いてコマンドを発行するために自らロボットの手前まで行く必要がなく、その場で音声コマンドを発行することができ、音声コマンドを聞いたロボットはユーザが音声コマンドを発行する際に自分を注視していないと判断したが、顧客が自分を呼んでいるか否かを確認するために、顧客に能動的に質問する。本発明の実施例では、ユーザが1つの代名詞を使用して離れた場所にいるロボット或いは忙しいロボットを呼ぶとき、その場で呼ぶことができ、ユーザ体験をさらに向上させた。
【0019】
ここで、具体的には、前記方法の一部の実施例において、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得する前記ステップは、
音声コマンドの時間情報と音声コマンド発行者の情報を取得することと、
前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて音声コマンド発行者の視線範囲情報を取得することとを含む。
【0020】
当該実施例では、ステップ102又はステップ202において、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得する前記ステップは、すなわち、ロボット自体が音声コマンド発行者の視線範囲情報を取得することを意味する。
【0021】
選択的に、ユーザの呼び出しの精度をさらに向上させるため、同じ音声コマンドを聞いたすべてのロボット全部を1つの候補グループに配置し、候補グループ内のロボットは自分が取得したユーザが音声コマンドを発行する際の視線範囲情報をその他のロボットにブロードキャストし、候補グループ内のすべてのロボットは候補グループ内の他のロボットが取得した視線範囲情報を共有することができる。これにより、ユーザの視線範囲を捉えていないか又は捉えた視線範囲が不完全なロボットがあっても、他のロボットからユーザの視線範囲を取得することができ、それにより自分が注視されているか否かを確認する。当該実施例では、ステップ102又はステップ202において、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得する前記ステップは、すなわち、ロボット自体が音声コマンド発行者の視線範囲情報を取得すること又はロボット自体が他のロボットがブロードキャストした視線範囲情報を受信することを意味する。
【0022】
当該実施例において、
図5に示すように、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得する前記ステップは、具体的にはステップ301~ステップ305を含む。
【0023】
ステップ301、音声コマンドの時間情報と音声コマンド発行者の情報を含む音声コマンド情報を取得する。
【0024】
実際の応用において、ロボット本体にリアルタイムに音声信号を受信するためのマイクを設置することができる。前記音声コマンドは、リアルタイムに受信した音声信号であってもよい。しかし、ユーザが音声を発したが、必ずしもロボットに対する音声コマンドであるとは限らないため、音声信号に対してさらなる判断を行う必要がある。音声信号は、ユーザが発行した音声コマンドである場合にのみ記録される。状況次第で、ユーザがロボットから比較的遠く離れていて、ロボットが遠距離の音声信号を受信することができても、音声信号の音圧レベルが小さすぎると正しく解析することができない可能性があるため、音圧レベルが一定値未満の音声コマンドについては記録しない。
【0025】
具体的には、音声コマンド情報を取得する前記ステップは、
音声信号をモニタリングすることと、
前記音声信号におけるウェイクアップワードを解析することと、
前記音声信号の音圧レベルを確認することと、
前記ウェイクアップワードの出現が呼び出しのためであり、且つ前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記音声信号の開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録することと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録することとを含む。
【0026】
ここで、ウェイクアップワードの出現が呼び出しのためであるか否かを、ウェイクアップワードと続く音声内容との間にある中断時間間隔が予め設定された時間を越えるか否かを判断することにより、判断することができ、予め設定された時間を越えると、当該ウェイクアップワードの出現は呼び出しのためであり、又は、1個目のウェイクアップワードの前に他の音声内容があるかを判断することにより、判断することもでき、他の音声内容がないと、当該ウェイクアップワードの出現は呼び出しのためである。
【0027】
ここで、他の実施例において、前記音声コマンドの時間情報は、音声コマンド内のウェイクアップワードの開始時点と終了時点であってもよく、具体的にはユーザの話す習慣に基づいて選択することができる。
【0028】
人それぞれの声紋特徴はユニークであり、声紋特徴を認識することにより音声信号発声者の身分を認識することができる。ロボットの記憶部にユーザの声紋特徴を事前に格納することができ、1つのロボットに複数の主人があれば、声紋特徴と各主人の情報との対応関係を格納しておくべきである。それによりロボットが声紋特徴に基づいて主人の身分を認識することができる。
【0029】
ステップ302、前記音声コマンド情報をブロードキャストする。
【0030】
ステップ303、同じ音声コマンドを聞いたロボットがあるか否かを確認し、あれば、前記ロボットを同じ候補グループに参加させる。
【0031】
具体的には、実際の応用において、各ロボットにより音声コマンドの時間情報と音声コマンド発行者の情報を候補グループにブロードキャストし、続いて特定のロボットにより同じ音声コマンドを聞いたロボットがどれであるかを判断し、次に候補グループを作り、これらのロボットに候補グループに参加するように通知する。
【0032】
同じ音声コマンドを聞いたロボットがあるか否かを確認する前記ステップにおいて、時間情報と音声コマンド発行者の情報の両方ともに合致するロボットがあれば、前記ロボットが同じ音声コマンドを聞いたと確認する。すなわち、同じ時間に同じ人により出された音声コマンドであれば、同じ音声コマンドである。
【0033】
ステップ304、前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて、音声コマンド発行者の視線範囲情報を取得する。
【0034】
実際の応用において、音声コマンドの時間情報が音声コマンドの開始時点と終了時点であれば、ロボットは、音声コマンドの開始時点から終了時点までの視覚情報を自分の視覚情報キャッシュ(視覚情報キャッシュには例えば現在まで5s以内のような一定期間内の履歴視覚入力がキャッシュされる)から呼び出す。音声コマンドの時間情報がウェイクアップワードの開始時点と終了時点であれば、ロボットは、ウェイクアップワードの開始時点から終了時点までの視覚情報を自分の視覚情報キャッシュから呼び出す。以上から分かるように、ウェイクアップワードの開始時点と終了時点を選択すると、データ処理量が比較的少なく、稼動速度がより速い。
【0035】
実際の応用において、ロボットの記憶部にユーザの顔の特徴、声紋特徴及び顔の特徴、声紋特徴とユーザの身分との対応関係を事前に格納しておくことができる。ロボットは、ユーザの顔の特徴と結び付けて音声コマンド発行者を確定することができる。前記音声コマンドの時間情報を複数の時点に均等に分割し、各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔とロボット自体との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得する。当該視線方向は、ユーザ視線が目標方向を向いた一次方程式であり、ユーザがいくつかのロボットを呼ぶとき、いくつかの視線方向、つまりいくつかの一次方程式が生成される可能性がある。取得した視線方向と前記視線方向に対応する時点とを視線範囲情報とする。前記視線範囲情報は、1つの視線方向及び1つのそれに対応する時点であってもよく、複数の視線方向及びそれらに対応する複数の時点であってもよい。ここで、前記時間情報を複数の時点に均等に分割し、すなわち、開始時点から終了時点までの間にある複数の均等な時点を取得し、システムが提供するタイムスタンプを直接利用することもできる。
【0036】
選択的に、前記方法の他の実施例において、取得した視線方向及び前記視線方向に対応する時点に基づいて、視線区間及び前記視線区間に対応する時間範囲を取得しすることができ、前記視線区間と前記時間範囲とを視線範囲情報とする。視線の開始方向と視線の終了方向との両方向にしたがって視線区間を確定することができ、視線方向が1つしかない場合、視線区間がこの1つの視線方向である。
【0037】
ステップ305、音声コマンド発行者の視線範囲情報があれば、候補グループ内で前記音声コマンド発行者の視線範囲情報をブロードキャストする。
【0038】
なお、すべてのロボットが必ずしも上記ステップ301~305全部を実行することではなく、一般に、音声情報を聞いたロボットはステップ301と302とを実行し、候補グループ内のすべてのロボットはステップ304と305を実行する。しかし、ステップ303は、1つのロボット或いはいくつかのロボットのみにより実行され、例えば、各ロボットは他のロボットに自分の動作状態をブロードキャストし、最も暇なロボットにより実行され、続いて実行したロボットが実行結果を、ネットワークを介して他のロボットと共有する。
【0039】
選択的に、視線範囲情報は視線方向及び前記視線方向に対応する時点である一部の実施例において、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認する前記ステップは、
予め設定された時間帯での自分の位置情報を取得することを含み、
実際の応用において、ロボットの位置情報は一般的に位置情報キャッシュ(例えば現在まで5s以内のような一定期間内の履歴位置情報をキャッシュする)に格納され、ロボットは例えば現在まで5S以内又は3S以内の位置情報を呼びだすことができる。
【0040】
前記視線範囲情報の1つの時点に、前記視線方向に合致する自分の位置情報があるか否かを確認し、あれば、音声コマンド発行者が自分を注視していると確認し、そうでなければ、音声コマンド発行者が自分を注視していないと確認する。
【0041】
すなわち、自分の位置が、視線範囲情報における各時点に、対応する一次方程式上にあるか否かを確定し、ここで、顔認識により視線方向を判定するときに誤差を回避するため、自分の位置情報が前記視線方向に合致するか否かを判断するときに一定角度の範囲を残すべきであり、例えば自分の位置が、視線の一次方程式を中心軸として左右にそれぞれ2°残す範囲以内に位置することを判断する。
【0042】
選択的に、視線範囲情報が視線区間及び前記視線区間に対応する時間範囲である一部の実施例において、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認する前記ステップは、
予め設定された時間帯での自分の位置情報を取得することと、
前記視線範囲情報の時間範囲内に、自分の位置情報が前記視線区間に合致するか否かを確認し、合致すれば、音声コマンド発行者が自分を注視していると確認し、そうでなければ、音声コマンド発行者が自分を注視していないと確認することとを含む。
【0043】
すなわち、視線範囲情報における時間範囲内で、自分の位置が前記視線区間と重なるか否かを確定し、重なれば、ユーザが音声コマンドを発行する際に自分を注視していることを意味し、自分が呼ばれたことが確認できる。
【0044】
選択的に、前記方法の一部の実施例において、ユーザが自分を呼んでいると確認した後、ユーザに応答することができ、例えば、マイクアレイにより判定した音声方向に基づいてユーザに向け、且つユーザに音声で次のコマンドを質問する。ユーザが自分を呼んでいないと確認すると、候補グループから自動的に退出する。候補グループから退出するとき、自分以外に他のロボットがいなければ、候補グループから退出すると同時に候補グループを削除する。
【0045】
具体的には、前記方法の一部の実施例において、前記音声コマンド発行者に質問する前記ステップは、ステップ401~ステップ408を含む。
【0046】
ステップ401、前記ウェイクアップワードが単数形代名詞であるか否かを確認し、
前記単数形代名詞は、例えば「あなた」であり、単数形ではない代名詞は、例えば「あなたたち」、「おい」などである。
【0047】
ステップ402、単数形代名詞であれば、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認し、音圧レベルが最も大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットを呼んでいるかを質問するようにさせ、
音圧レベルが最も大きいロボットは、ユーザに最も近いロボットである可能性があり、ユーザのコマンドの対象である可能性も最も高く、ユーザに質問するとき、自分のマイクアレイが取得した音声方向にしたがって、自分をユーザに向かせることができる。
【0048】
ステップ403、自分を呼んでいれば、音声コマンド発行者に応答し、
自分を呼んでいれば、ユーザ命令に対してさらに質問するか又はユーザ命令を実行し、又は、候補グループにメッセージをブロードキャストして、各メンバに退出させ、且つ候補グループを削除することができる。
【0049】
ステップ404、自分を呼んでいなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得し、
自分を呼んでいなければ、ユーザとの対話中にユーザが新しい音声コマンドを発行する際の視線範囲を取得することができる。例えば、ユーザは「あなたを呼んでなく、私は彼を呼んだ」と言いながら、視線が別のロボットを注視する可能性がある。
【0050】
ステップ405、単数形代名詞でなければ、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認し、音圧レベルが最も大きいロボットと2番目に大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいるかを質問するようにさせる。
【0051】
ステップ406、音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいれば、音声コマンド発行者に応答し、
音声コマンド発行者に応答することは、ユーザ命令をさらに質問するか又はユーザ命令を実行することであってもよい。さらに、メッセージを候補グループにブロードキャストして、各メンバに退出させ、且つ候補グループを削除することができる。
【0052】
ステップ407、そうでなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得する。
【0053】
ステップ408、候補グループ内で前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報をブロードキャストする。
【0054】
上記実施例において、前記方法は、さらに、
前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認し、音声コマンド発行者に応答することを含む。
【0055】
ここで、前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すること、及び前記視線範囲情報に基づいて音声コマンドが発行される際に、音声コマンド発行者が自分を注視しているか否かを確認することの、具体的な方法は上記の説明を参照することができ、ここでは詳細な説明は省略する。
【0056】
なお、すべてのロボットが必ずしも上記ステップ401~408全部を実行することではない。ステップ401において前記ウェイクアップワードが単数形代名詞であるか否かを確認すること、ステップ402において候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認すること、ステップ405において候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認することは、1つのロボット或いはいくつかのロボットのみにより実行され、例えば、各ロボットは他のロボットに自分の動作状態をブロードキャストし、最も暇なロボットにより実行され、続いて実行したロボットが実行結果をネットワークを介して他のロボットと共有する。また、ステップ402において音声コマンド発行者に質問すること、及びステップ403とステップ404は音圧レベルが最も大きいロボットにより実行され、ステップ405において音声コマンド発行者に質問すること、及びステップ406とステップ407は音圧レベルが最も大きいロボットと2番目に大きいロボットにより実行され、ステップ408は音圧レベルが最も大きいロボットと2番目に大きいロボットにより、又は音圧レベルが最も大きいロボットにより実行される。
【0057】
図7に示すように、前記方法の一実施例のフローチャートであり、当該実施例において、前記方法はステップ501~ステップ515を含む。
【0058】
ステップ501、音声信号をモニタリングし、前記音声信号におけるウェイクアップワードを解析し、前記音声信号の音圧レベルを確認する。
【0059】
ステップ502、前記ウェイクアップワードの出現が呼び出しのためであり、且つ前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記ウェイクアップワードの開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録する。
【0060】
ステップ503、前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録し、前記音圧レベル、時間情報、音声コマンド発行者の情報をブロードキャストする。
【0061】
ステップ504、同じ音声コマンドを聞いたロボットがあるか否かを確認し、あれば、前記ロボットを同じ候補グループに参加させる。
【0062】
ステップ505、前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて、音声コマンド発行者の視線範囲情報を取得する。
【0063】
ステップ506、音声コマンド発行者の視線範囲情報があれば、候補グループ内で前記音声コマンド発行者の視線範囲情報をブロードキャストする。
【0064】
ステップ507、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を向いているか否かを確認し、自分を向いていれば、自分が呼ばれたと確認する。
【0065】
ここで、前記視線範囲情報は、ロボット自体が取得した視線範囲情報であってもよく、ロボットが受信する他のロボットがブロードキャストした視線範囲情報であってもよい。
【0066】
ステップ508、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得していなければ、ステップ509を実行する。
【0067】
ステップ509、前記ウェイクアップワードが単数形代名詞であるか否かを確認する。
【0068】
ステップ510、単数形代名詞であれば、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認し、音圧レベルが最も大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットを呼んでいるかを質問するようにさせ、自分を呼んでいれば、ステップ512を実行し、そうでなければステップ513を実行する。
【0069】
ステップ511、単数形代名詞でなければ、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認し、音圧レベルが最も大きいロボットと2番目に大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいるかを質問するようにさせ、そうであれば、ステップ512を実行し、そうでなければステップ513を実行する。
【0070】
ステップ512、音声コマンド発行者に応答する。
【0071】
ステップ513、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得する。
【0072】
ステップ514、候補グループ内で前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報をブロードキャストする。
【0073】
ステップ515、前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認し、音声コマンド発行者に応答する。
【0074】
対応して、本発明の実施例は、ロボットウェイクアップ装置をさらに提供し、前記ウェイクアップ装置は、
図1又は
図2に示す任意のロボット内に設置され、
図8に示すように、前記ウェイクアップ装置600は、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得するための視線範囲取得モジュール601と、
音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認するための呼び出し確認モジュール602と、を含む。
【0075】
本発明の実施例に係るウェイクアップ方法及び装置では、ロボットは、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報に基づいて、音声コマンド発行者が音声コマンドを発行する際に自分を注視しているか否かを判断し、自分を注視していれば、自分が呼ばれたと確認する。ユーザがロボットの名前を忘れた場合、ロボットを向いて音声コマンドを発行するだけで、ウェイクアップワードとしての代名詞を使用してロボットをウェイクアップさせることができ、ユーザがロボットそれぞれの名前を覚える必要がなく、ユーザ体験を向上させた。
【0076】
図9に示すように、前記装置の別の実施例の構造を示す模式図であり、当該実施例において、前記装置700は、
視線範囲取得モジュール701と、呼び出し確認モジュール702と、音声コマンド発行者が音声コマンドを発行する際の視線範囲情報を取得していなければ、前記音声コマンド発行者に質問するための質問モジュール703とを含む。
【0077】
図10に示すように、前記装置の別の実施例において、前記視線範囲取得モジュール801は、
音声コマンドの時間情報と音声コマンド発行者の情報を含む音声コマンド情報を取得するための音声コマンド取得サブモジュール8011と、
前記音声コマンド情報をブロードキャストするための音声コマンドブロードキャストモジュール8012と、
同じ音声コマンドを聞いたロボットがあるか否かを確認し、あれば、前記ロボットを同じ候補グループに参加させるための候補グループ参加サブモジュール8013と、
前記時間情報に合致する自分の視覚情報と位置情報を取得し、自分の視覚情報と位置情報に基づいて、音声コマンド発行者の視線範囲情報を取得するための視線範囲取得サブモジュール8014と、
候補グループ内で前記音声コマンド発行者の視線範囲情報をブロードキャストするためのブロードキャストサブモジュール8015と、を含む。
【0078】
ここで、前記装置の一部の実施例において、前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、前記音声コマンド取得サブモジュール900は、
音声信号をモニタリングするための音声モニタリングサブユニット901と、
前記音声信号におけるウェイクアップワードを解析するためのウェイクアップワード解析サブユニット902と、
前記音声信号の音圧レベルを確認するための音圧レベル確認サブユニット903と、
前記ウェイクアップワードが呼び出しを表す代名詞であり且つ当該ウェイクアップワードの出現は呼び出しのためであり、また前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記音声信号の開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録するための第1音声コマンド記録サブユニット904と、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録するための第2音声コマンド記録サブユニット905とを含む。
【0079】
選択的に、前記装置の他の実施例において、前記音声コマンド情報は、音声コマンドの音圧レベルをさらに含み、前記音声コマンド取得サブモジュールは、
音声信号をモニタリングするための音声モニタリングサブユニットと、
前記音声信号におけるウェイクアップワードを解析するためのウェイクアップワード解析サブユニットと、
前記音声信号の音圧レベルを確認するための音圧レベル確認サブユニットと、
前記ウェイクアップワードが呼び出しを表す代名詞であり且つ当該ウェイクアップワードの出現は呼び出しのためであり、また前記音声信号の音圧レベルが予め設定された閾値を越えた場合、前記ウェイクアップワードの開始時点と終了時点を音声コマンドの時間情報として記録し、前記音声信号の音圧レベルを音声コマンドの音圧レベルとして記録するための第3音声コマンド記録サブユニットと、
前記音声信号に基づいて音声信号の発声者を認識し、前記音声信号の発声者を音声コマンド発行者の情報として記録するための第2音声コマンド記録サブユニットと、を含む。
【0080】
具体的には、前記装置の一部の実施例において、前記質問モジュール1000は、
前記ウェイクアップワードが単数形代名詞であるか否かを確認するためのウェイクアップワード確認サブモジュール1001と、
単数形代名詞であれば、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットを確認し、音圧レベルが最も大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットを呼んでいるかを質問するようにさせるための第1質問サブモジュール1002と、
自分を呼んでいれば、音声コマンド発行者に応答するための第1応答サブモジュール1003と、
自分を呼んでいなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するための第1新しい視線範囲取得サブモジュール1004と、
単数形代名詞でなければ、候補グループ内で音声コマンドの音圧レベルが最も大きいロボットと2番目に大きいロボットを確認し、音圧レベルが最も大きいロボットと2番目に大きいロボットを音声コマンド発行者に音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼んでいるかを質問するようにさせるための第2質問サブモジュール1005と、
音圧レベルが最も大きいロボットと2番目に大きいロボットのみを呼ぶための第2応答サブモジュール1006と、
自分と音圧レベルが最も大きいか又は2番目に大きい別のロボットのみを呼ぶことではなければ、音声コマンド発行者が新しい音声コマンドを発行する場合、音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得するための第2新しい視線範囲取得サブモジュール1007と、
候補グループ内で前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報をブロードキャストするための新しい視線範囲ブロードキャストサブモジュール1008と、を含む。
【0081】
前記装置は、さらに、
前記音声コマンド発行者が新しい音声コマンドを発行する際の視線範囲情報を取得すれば、前記視線範囲情報に基づいて、音声コマンドが発行される際に音声コマンド発行者が自分を注視しているか否かを確認し、自分を注視していれば、自分が呼ばれたと確認し、音声コマンド発行者に応答するための呼び出し再確認モジュールを含む。
【0082】
ここで、前記装置の一部の実施例において、前記視線範囲取得サブモジュール1100は、
前記音声コマンドの時間情報を複数の時点に均等に分割するための時分割サブユニット1101と、
各時点では、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得するための視線方向確認サブユニット1102と、
取得した視線方向と前記視線方向に対応する時点とを視線範囲情報とするための視線範囲取得サブユニット1103とを含む。
【0083】
選択的に、前記装置の他の実施例において、前記視線範囲取得サブモジュールは、
前記音声コマンドの時間情報を複数の時点に均等に分割するための時分割サブユニットと、
1つの時点に、その時点の視覚情報に基づいて音声コマンド発行者の顔と自分との角度を確認し、且つその時点での自分の位置情報と前記角度に基づいて、その時点での視線方向を取得するための視線方向確認サブユニットと、
取得した視線方向及び前記視線方向に対応する時点に基づいて、視線区間及び前記視線区間に対応する時間範囲を取得し、前記視線区間と前記時間範囲とを視線範囲情報とするための第2視線範囲取得サブユニットと、を含む。
【0084】
具体的には、前記装置の一部の実施例において、前記呼び出し確認モジュール1200は、
予め設定された時間帯での自分の位置情報を取得するための自分位置取得サブモジュール1201と、
前記視線範囲情報の任意の時点に自分の位置情報が前記視線方向と合致するか否かを確認し、合致すれば、音声コマンド発行者が自分を注視していると確認するための第1注視確認サブモジュール1202と、を含む。
【0085】
選択的に、前記装置の他の実施例において、前記呼び出し確認モジュールは、
予め設定された時間帯での自分の位置情報を取得するための自分位置取得サブモジュールと、
前記視線範囲情報の時間範囲内に、自分の位置情報が前記視線区間に合致するか否かを確認し、あれば、音声コマンド発行者が自分を注視していると確認するための第2注視確認サブモジュールと、を含む。
【0086】
なお、上記ウェイクアップ装置は、本発明の実施例に係るウェイクアップ方法を実行することができ、方法の実行に相応する機能モジュール及び有益な効果を有する。ウェイクアップ装置の実施例において詳述されていない技術的詳細については、本発明の実施例により提供されるウェイクアップ方法を参照する。
【0087】
図15は、本発明の実施例に係るロボットのウェイクアップ方法のロボット20のハードウェア構造を示す模式図であり、
図15に示すように、当該ロボット20は、
1つ又は複数のプロセッサ21及びメモリ22を含み、
図15では1つのプロセッサ21を例とする。
【0088】
プロセッサ21とメモリ22はバスを介して接続されてもよく、他の方法を介して接続されてもよく、
図15ではバスを介して接続されることを例とする。
【0089】
メモリ22は、不揮発性コンピュータ可読記憶媒体として、本発明の実施例におけるウェイクアップ方法に対応するプログラム命令/モジュール(例えば、
図8に示す呼び出し確認モジュール601)のような不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラム及びモジュールを格納するために使用することがでる。プロセッサ21は、メモリ22に格納されている不揮発性ソフトウェアプログラム、命令及びモジュールを動作させることにより、サーバの各種機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例のウェイクアップ方法を実施する。
【0090】
メモリ22は、オペレーティングシステムと、少なくとも1つの機能に必要なアプリケーションプログラムを格納できるプログラム記憶領域と、ウェイクアップ装置の使用に基づいて作成されたデータなどを格納できるデータ記憶領域とを含んでもよい。また、メモリ22は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の不揮発性固体メモリデバイスをさらに含んでもよい。一部の実施例において、メモリ22として、ネットワークを介してウェイクアップ装置に接続できる、プロセッサ21に対して遠隔に設置されたメモリを含んだものを選択してもよい。上記ネットワークの実例は、インターネット、企業のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、それらに限定されない。
【0091】
前記1つ又は複数のモジュールは、前記メモリ22に格納されており、前記1つ又は複数のプロセッサ21により実行されるとき、上記のいずれかの方法の実施例におけるウェイクアップ方法を実行し、例えば、上記のような
図3における方法のステップ101~102と、
図4における方法のステップ201~ステップ203と、
図5における方法のステップ301~ステップ305と、
図6における方法のステップ401~ステップ408と、
図7における方法のステップ501~ステップ515とを実行し、
図8におけるモジュール601及び602と、
図9におけるサブモジュール701、702及び703と、
図10におけるモジュール801~803と、サブモジュール8011~8015と、
図11におけるサブユニット901~905と、
図12におけるサブモジュール1001~1008と、
図13におけるサブユニット1101~1103と、
図14におけるサブモジュール1201~1202との機能を実施する。
【0092】
上記製品は,本発明の実施例に係る方法を実行することができ、方法を実行することに対応する機能モジュール及び有益な効果を有する。本実施例において詳述されていない技術的詳細については、本発明の実施例により提供される方法を参照する。
【0093】
本発明の実施例は、不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータ実行可能命令が格納されており、当該コンピュータ実行可能命令は1つ又は複数のプロセッサにより実行され、例えば、
図15における1つのプロセッサ21は、上記1つ又は複数のプロセッサが上記のいずれかの方法の実施例におけるウェイクアップ方法を実行でき、例えば、上記のような
図3における方法のステップ101~102と、
図4における方法のステップ201~ステップ203と、
図5における方法のステップ301~ステップ305と、
図6における方法ステップ401~ステップ408と、
図7における方法のステップ501~ステップ515とを実行し、
図8におけるモジュール601及び602と、
図9におけるサブモジュール701、702及び703と、
図10におけるモジュール801~803と、サブモジュール8011~8015と、
図11におけるサブユニット901~905と、
図12におけるサブモジュール1001~1008と、
図13におけるサブユニット1101~1103と、
図14におけるサブモジュール1201~1202との機能を実施する。
【0094】
上記の装置の実施例は、例示的なものにすぎず、分離した部材として説明された前記ユニットは物理的に分離しているものであってもよく、分離していないものであってもよく、ユニットとして表示される部材は、物理的ユニットであってもよく、そうでなくてもよく、すなわち、1箇所に位置してもよく、複数のネットワークユニットに分散してもよい。本実施例の解決手段の目的を達成するために、実際のニーズに基づいて、ユニットの一部又は全部を選択することができる。
【0095】
上記の実施形態の説明により、当業者は、ソフトウェアに一般的なハードウェアプラットフォームを加える方法で各実施形態を実施することができ、もちろんハードウェアで実施できることも明確に理解しているだろう。当業者であれば、上記の実施例の方法における全部又は一部のフローは、コンピュータプログラムを介して関連するハードウェアを命令することにより実現でき、前記プログラムはコンピュータ可読記憶媒体に格納することができ、当該プログラムは、実行される場合、上記の各方法の実施例のようなフローを含んでもよいことが理解できるだろう。ここで、前記記憶媒体は、磁気ディスク、光ディスク、読み取り専用メモリ(Read-Only Memory、ROM)、又はランダムアクセスメモリ(Random Access Memory、RAM)であってもよい。
【0096】
最後に、上記の実施例は、本発明の技術的解決手段を説明するためのものにすぎず、それを限定するものではなく、本発明の思想において、上記の実施例又は異なる実施例における技術的特徴は組み合わせてもよく、ステップの実施順序は任意であってもよく、且つ上記のように本発明の異なる態様の他の多くの変化もあり、簡潔にするために、それらを詳細に記載していないことを理解すべきである。上記の実施例を参照して本発明について詳細に説明したが、当業者であれば、上記の各実施例に記載された技術的解決手段を修正するか、又は技術的特徴の一部に対して等価置換を行ってもよく、これらの修正又は置換に対応する技術的解決手段の本質が本発明の各実施例の技術的解決手段の範囲から逸脱しないことが理解されるべきである。