(58)【調査した分野】(Int.Cl.,DB名)
音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする
ことを特徴とする請求項2に記載の方法。
前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合することで、ロボット可変パラメータを生成することを含む
ことを特徴とする請求項1に記載の方法。
パラメータ変更確率の整合曲線を生成する前記方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む
ことを特徴とする請求項8に記載の方法。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は音声と仮想動作を同期させる方法、システム及びロボットを提供することで、マンマシンインタラクション体験を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の目的は下記技術様態で実現される:
音声と仮想動作を同期させる方法であって、
ユーザのマルチモード情報の取得と、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容の生成と、
音声情報の時間長と動作情報の時間長に対する同期調整を含むことを特徴とする音声と仮想動作を同期させる方法。
【0007】
好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0008】
好ましくは、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。
【0009】
好ましくは、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0010】
好ましくは、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間と同じようにする。
【0011】
好ましくは、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合し、それにより、ロボット可変パラメータを生成することを含む。
【0012】
好ましくは、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
【0013】
好ましくは、マルチモード情報と可変パラメータによってインタラクション内容を生成する前記ステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。
【0014】
好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸になるロボットの各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成することを含む。
【0015】
音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール、
ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール、
音声情報の時間と動作情報の時間を同じように調節するための制御モジュールを含む。
【0016】
好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合には、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0017】
好ましくは、音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0018】
好ましくは、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせ、それにより、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0019】
好ましくは、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長と同じようにする。
【0020】
好ましくは、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合し、それにより、ロボット可変パラメータを生成する処理モジュールを含む。
【0021】
好ましくは、前記可変パラメータは少なくともユーザの本来の行為と変更後の行為、及びユーザの本来の行為と変更後の行為を表すパラメータの値を含む。
【0022】
好ましくは、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。
【0023】
好ましくは、前記システムは、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成する整合曲線生成モジュールを含む。
【0024】
本発明は上記のいずれかに記載の音声と仮想動作を同期させるシステムを含むロボットを開示する。
【0025】
本発明は音声と仮想動作を同期させるシステムを開示し、マイク、アナログデジタルコンバータ、音声識別プロセッサ、画像取得装置、顔認識プロセッサ、音声合成装置、パワーアンプ、スピーカー、イメージングシステム、インタラクション内容プロセッサ及びメモリを含む。
【0026】
前記マイク、前記アナログデジタルコンバータ、前記音声識別プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記画像取得装置、前記顔認識プロセッサと前記インタラクション内容プロセッサは順次に接続され、前記インタラクション内容プロセッサは前記メモリと接続され、前記インタラクション内容プロセッサ、前記音声合成装置、前記パワーアンプ及び前記スピーカーは順次に接続され、前記イメージングシステムは前記インタラクション内容プロセッサと接続され、
前記マイクはユーザとロボットが対話する際に、ユーザの音声信号の取得に用い、前記アナログデジタルコンバータは、前記音声信号の音声デジタル情報への転換に用い、前記音声識別プロセッサは、前記音声デジタル情報を文字情報に転化する上で、前記意図識別プロセッサへの入力に用い、
前記画像取得装置はユーザがいる画像の取得に用い、前記顔認識プロセッサはユーザがいる画像からユーザの表情情報を識別し取得して、前記意図識別プロセッサへの入力に用い、
前記インタラクション内容プロセッサは、少なくとも前記文字情報と表情情報を含むユーザのマルチモード情報、及び前記メモリに記憶されている可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調整することに用い、
前記イメージングシステムは前記動作情報によって仮想3D映像を生成し、前記スピーカーは前記音声情報を同時に再生することを特徴する音声と仮想動作を同期させる方法。
【0027】
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0028】
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長と同じようにする。
【0029】
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長と動作情報の時間長を同じように調整する前記ステップは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合は、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0030】
好ましくは、前記インタラクション内容プロセッサにおいて、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長が前記音声情報の時間長と同じようにする。
【0031】
好ましくは、ロボット可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合することを介して、ロボット可変パラメータを生成することを含む。
【0032】
好ましくは、前記可変パラメータは少なくともユーザの本来行為と変更後の行為、及びユーザの本来行為と変更後の行為を表すパラメータの値を含む。
【0033】
好ましくは、前記マルチモード情報と可変パラメータによってインタラクション内容を生成するステップは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成することを含む。
【0034】
好ましくは、前記パラメータ変更確率整合曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、時間軸の場面パラメータが変えた後、生活時間軸にあるロボットの各パラメータが変化する確率を計算して、前記パラメータ変更確率の整合曲線を形成することを含む。
【0035】
従来のマンマシンインタラクション技術は一般に、一種類のマンマシンインタラクションモードだけを支持でき、或いは種類に限りのある表情を出すしかない、例えば、市販の児童コンパニオンロボットは、設定された四、五種類の表情しかできない。
従来技術と比べると、本発明は、音声と仮想動作を同期させる方法を提供し、それがユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間長と動作情報の時間長に対する同期調節を含むという利点を有する。そうすればユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同期マッチすることが可能になり、ロボットが音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、且つ生成したロボットの動作、表情は数種や十数種に限られなく、その代わり、動作ライブラリにおける動作グリップによって任意に組み合わせることが可能で、ロボットはもっと擬人化になるだけでなく、ユーザがロボットとのインタラクションの体験も向上した。
【発明を実施するための形態】
【0037】
フロー図で各操作が順序に処理されるように説明したが、その中に多くの操作は並列、合併又は同時に実行できる。各操作の順序を改めて配置することもできる。操作を完成した時には処理を中止できるが、図面に含まず追加ステップを含有してもよい。該処理は方法、関数、規則、サブルーチン、サブプログラムなどに対応することができる。
【0038】
コンピュータデバイスはユーザデバイスとネットワークデバイスを含む。ここにおいて、ユーザデバイスやクライアントはコンピュータ、スマートフォン、PDAなどを含むがそれらには限定されなく、ネットワークデバイスはシングルネットワークサーバー、マルチネットワークサーバーからなるサーバーグループ又はクラウドコンピューティングに基づいて数多いコンピュータやネットワークサーバーで構成されるクラウドを含むがそれらには限定されない。コンピュータデバイスは独立運行で本発明を実現してもよく、ネットワークにアクセスして且つそこにおける他のコンピュータデバイスとのインタラクション操作を介して、本発明を実現してもよい。コンピュータデバイスがあるネットワークはインターネット、広域ネットワーク、メトロポリタンエリアネットワーク、ローカルエリアネットワーク、VPNネットワークなどを含むが、それらには限定されない。
【0039】
ここで、「第一」、「第二」などの専門用語で各ユニットを説明したかもしれないが、これらのユニットはこれらの専門用語に限られなく、これらの専門用語の使用はただ一つのユニットを別のユニットと区別するためだけである。ここで用いる専門用語「及び/又は」は一つや複数の列挙した関連プロジェクトの任意と全部の組み合わせを含む。一つのユニットがもう一つのユニットに「接続」や「結合」された時には、それが前記もう一つのユニットに直接的接続や結合されてもよいが、中間ユニットに存在してもよい。
【0040】
ここで使用する専門用語はただ具体的な実施例を説明するだけで、例示的実施例を限定することはしない。テキストで別に明示されたもの以外は、使用した単数形「一つ」、「一項」はまた複数を含むことを図っている。なお、理解すべきなのは、ここで使用する「含む」及び/又は「含有する」という専門用語が説明した特徴、整数、ステップ、操作、ユニット及び/又はモジュールの存在を規定するが、一つや更に多い他の特徴、整数、ステップ、操作、ユニット、モジュール及び/又は組み合わせの存在や追加を取り除くわけではない。
下記、図面と優れた実施例を結合して本発明をもっと詳細に説明する。
【0041】
実施形態1
図1に示すように、本実施例は音声と仮想動作を同期させる方法を開示し、それは、
ユーザのマルチモード情報を取得するステップS101、
ユーザのマルチモード情報と可変パラメータ300に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するステップS102、
音声情報の時間と動作情報の時間を同じように調節するステップS103を含むことを特徴とする。
【0042】
本発明の音声と仮想動作を同期させる方法は、ユーザのマルチモード情報の取得、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容の生成、音声情報の時間と動作情報の時間に対する同期調節を含む。それにより、ユーザの音声、表情、動作などのマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザがロボットとのインタラクションの体験も向上した。
【0043】
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。
【0044】
本実施例において、可変パラメータは具体的に、例えば、時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯に海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することできる、例えば、ここまで怒り値がないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。
【0045】
例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
【0046】
本実施例においては、前記音声情報の時間と動作情報の時間長を同じように調節するステップが具体的に、
音声情報の時間と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0047】
音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とすことで、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0048】
そのために、音声情報と動作情報との時間差が閾値より大きいである場合、調節の具体的な意味は音声情報の時間又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことを指してもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
【0049】
例えば、音声情報の時間長と動作情報の時間長との閾値は1分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が1分で、動作情報の時間が2分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報が調節された後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍に調節してもよく、それにより音声情報の調節された後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
【0050】
その他、本実施例において、前記音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップは、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0051】
音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間長と同様にする。
【0052】
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節は一部の動作情報を追加や削除することを指し、それにより、動作情報の時間長を音声情報の時間長と同様にする。
【0053】
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間長と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
【0054】
本実施例においては、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択も可能である。
【0055】
そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致まで調節でき、且つ調節された再生もより自然で、平滑になった。
【0056】
その中の一つの実施例によって、音声情報の時間長と動作情報の時間長を同じように調節するステップに続いて、調節された後の音声情報と動作情報を仮想映像に出力して表示することを含む。
【0057】
そうすると一致するまで調節した後に出力でき、仮想映像での出力が可能であるため、それにより、仮想ロボットはもっと擬人化になり、ユーザ体験は向上した。
【0058】
そのうちの一つの実施例によって、前記ロボットの可変パラメータを生成する方法は、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータを整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータを整合し、擬人化の影響をもたらす。
【0059】
そのうちの一つの実施例によって、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
【0060】
可変パラメータは即ち、本来の計画にそっては特定の状態にあるべきが、突発した変化でユーザが別の状態に入り、可変パラメータはこの行為や状態の変化、及び変化後ユーザの状態や行為を表す。例えば、午後5時に走るべきであるが、突然ボールゲームをするなどの他の用事があって、走ることからボールゲームをすることへの変更は可変パラメータになり、それにこの変更が発生する確率を研究すべきである。
【0061】
そのうちの一つの実施例によって、前記マルチモード情報と可変パラメータに基づいてインタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。
【0062】
そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。
【0063】
そのうちの一つの実施例によって、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。
【0064】
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータと整合して、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
【0065】
実施形態2
図2に示すように、本発明に開示した音声と仮想動作を同期させるシステムは、
ユーザのマルチモード情報を取得するための取得モジュール201と、
ユーザのマルチモード情報、及び可変パラメータモジュール205で生成された可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成するための人工知能モジュール202と、
音声情報の時間長と動作情報の時間長を同じように調節する制御モジュール203を含む。
【0066】
そうすると、ユーザの音声、表情、動作などの一種や多種類を含むユーザのマルチモード情報に基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調節し、それによりロボットが音声と動作を再生する時に同時にマッチできるようになり、ロボットが音声表現のみならず、また動作などのさまざまな表現形式で対話できるようになり、ロボットの表現方法を多様化し、ロボットはもっと擬人化になり、ユーザのインタラクション体験を向上させた。
【0067】
本実施例におけるマルチモード情報はユーザの表情情報、音声情報、手振り情報、場面情報、画像情報、ビデオ情報、顔情報、虹彩情報、光感知情報や指紋情報などの一種や多種類としてもよい。
【0068】
本実施例において、可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加することができる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。
【0069】
例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
【0070】
本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値以下にある場合に、音声情報の時間長が動作情報の時間長より小さいであれば、動作情報の再生速度を速めることで、動作情報の時間長を前記音声情報の時間長と同じようにすることを含む。
【0071】
音声情報の時間長が動作情報の時間長より大きいであれば、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とすことで、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0072】
そのため、音声情報と動作情報との時間差が閾値より大きいである場合に、調節の具体的な意味は音声情報の時間長又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことをさしてもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
【0073】
例えば、音声情報の時間長と動作情報の時間長との閾値は1分で、ロボットがユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間長が1分で、動作情報の時間長が2分である場合、動作情報の再生速度を元の二倍に速めてもよく、それで動作情報の調節後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍に調節してもよく、それにより音声情報の調節後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
【0074】
その他、本実施例において、前記制御モジュールは具体的に、
音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであれば、少なくとも二組の動作情報を順序付けて組み合わせることで、動作情報の時間長を前記音声情報の時間長と同じようにする。
【0075】
音声情報の時間長が動作情報の時間長より小さいである場合、動作情報における一部の動作を選択することで、それらの動作の時間長を前記音声情報の時間と同様にする。
【0076】
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節する意味は一部の動作情報を追加や削除することで、動作情報の時間長を音声情報の時間長と同様にする。
【0077】
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間長と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
【0078】
本実施例において、人工知能モジュールは具体的に、音声情報の時間長によって、音声情報の時間長と最も近い動作情報の選択、更に動作情報の時間長によって最も近い音声情報の選択に使用しても可能である。
【0079】
そうすると、音声情報の時間長による選択を介して、制御モジュールは音声情報と動作情報の時間長を調節しやすくなり、もっと容易に一致するまで調節でき、且つ調節された再生もより自然で、平滑になった。
【0080】
その中の一つの実施例によって、前記システムはまた、調節後の音声情報と動作情報を仮想映像に出力して表示するための出力モジュール204を含む。
【0081】
そうすると一致するまで調節した後出力することは、仮想映像による出力としてよく、それにより、仮想ロボットを擬人化し、ユーザ体験を向上した。
【0082】
そのうちの一つの実施例によって、前記システムはまた、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータと整合して、可変パラメータを生成するための処理モジュールを含む。
【0083】
そうすると、可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。
【0084】
そのうちの一つの実施例によって、前記可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。
【0085】
可変パラメータは即ち、本来の計画にそっては特定の状態にあるべきが、突発した変化でユーザが別の状態に入り、可変パラメータはこの行為や状態の変化、及び変化後ユーザの状態や行為を表す。例えば、午後5時に走るべきであるが、突然ボールゲームをするなどの他の用事があって、走ることからボールゲームをすることへの変更は可変パラメータになり、それにこの変更が発生する確率を研究すべきである。
【0086】
そのうちの一つの実施例によって、前記人工知能モジュールは具体的に、前記マルチモード情報と可変パラメータ及びパラメータ変化確率の整合曲線によってインタラクション内容を生成する。
【0087】
そうすると、可変パラメータの確率訓練を経由して制御曲線を生成でき、それによりロボットインタラクション内容を生成できる。
【0088】
そのうちの一つの実施例によって、前記システムは確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、前記パラメータ変化確率の整合曲線を形成するための整合曲線生成モジュールを含む。ここにおいて確率アルゴリズムはベイズ確率アルゴリズムであってもよい。
【0089】
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
【0090】
本発明はロボット本体を開示し、上記のいずれかに記載の音声と仮想動作を同期させるシステムを含む。
【0091】
実施形態3
図3に示すように、本実施例は音声と仮想動作を同期させるシステム300を開示し、マイク301、アナログデジタルコンバータ302、音声識別プロセッサ303、画像取得装置304、顔認識プロセッサ305、インタラクション内容プロセッサ306、音声合成装置307、パワーアンプ308、スピーカー309、イメージングシステム310及びメモリ311を含む。
【0092】
前記マイク310、前記アナログデジタルコンバータ302、前記音声識別プロセッサ303と前記インタラクション内容プロセッサ306は順次に接続され、前記画像取得装置304、前記顔認識プロセッサ305と前記インタラクション内容プロセッサ306は順次に接続され、前記インタラクション内容プロセッサ306はメモリ311と接続され、前記インタラクション内容プロセッサ306、音声合成装置307、前記パワーアンプ308及び前記スピーカー309は順次に接続され、前記イメージングシステム310はインタラクション内容プロセッサ306と接続される。
【0093】
前記マイク310はユーザとロボットが対話する際に、ユーザの音声信号を取得することに用い、前記アナログデジタルコンバータ302は前記音声信号を音声デジタル情報に転換することに用い、前記音声識別プロセッサ303は前記音声デジタル情報を文字情報に転化する上で、前記インタラクション内容プロセッサ306に入力することに用いる。
【0094】
前記画像取得装置304はユーザがいる画像の取得に用い、前記顔認識プロセッサ405はユーザがいる画像から、ユーザの表情情報を識別し取得して前記インタラクション内容プロセッサ306に入力することに用いる。画像取得装置304はビデオカメラ、カメラなどとしてもよいが、ユーザの表情情報を識別する他、またユーザのいる環境、ユーザの手振り情報なども識別し、これらの情報をインタラクション内容プロセッサ306への入力としてもよく、それにより、生成したインタラクション内容はユーザの現在の需要によりよく合う。
【0095】
前記インタラクション内容プロセッサ306は、少なくとも前記文字情報と前記表情情報を含むユーザのマルチモード情報と、前記メモリ311に記憶した可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節することに用いる。ここにおいて、まずはユーザのマルチモード情報と可変パラメータに基づいてインタラクション内容の音声情報を生成し、それによってメモリ311の動作ライブラリから適切な動作グリップを選択し、適切な遷移動作を追加して完全の動作情報を完成する。
【0096】
ここにおいて、可変パラメータは少なくともユーザ本来の行為の変更と変更後の行為、及びユーザ本来の行為の変更と変更後の行為を表すパラメータの値を含む。可変パラメータは具体的に、例えば時間軸における一日の生活が食事する、眠る、対話する、走る、食事する、眠ることなど、人類とロボットに発生した突発変化を指す。そういう状況では、ロボットの場面を突然に変えると、例えば走る時間帯にロボットを海辺につれるなど、人類のロボットに対する主導的パラメータを可変パラメータとして、これらの変化はロボットの自己認識を変える傾向がある。生活時間軸と可変パラメータは気持ちの値、疲労値などの自己認識における属性を変更できる他、新たな自己認識情報を自動に添加できる、例えば、ここまで怒り値はないため、生活時間軸と可変素子に基づく場面は、この前の情報に基づいて人類の自己認識の場面を模擬し、それでロボットの自己認識を添加する。例えば、生活時間軸に従って、午前12時は食事すべき時間であるが、もしこの場面を変えると、例えば午前12時にショッピングに行ったら、ロボットはこれをそのうちの一つの可変パラメータとして記入し、この時間帯にユーザがロボットと対話する時、ロボットは、以前に午前12時に食事することのではなく、午前12時にショッピングに行くことを結合してインタラクション内容を生成することとなった、具体的なインタラクション内容を生成する時には、ロボットが取得したユーザの音声情報、ビデオ情報、画像情報などのマルチモード情報を結合して、可変パラメータを生成する。そうすると人類の生活に突発した事件をロボットの時間軸に追加でき、それによりロボットを更に擬人化にする。
【0097】
インタラクション内容プロセッサ306には、音声情報の時間長と動作情報の時間長を同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値以下にある場合は、音声情報の時間長が動作情報の時間長より小さいであるなら、動作情報の再生速度を速め、それにより、動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より大きいである場合は、音声情報の再生速度を速める又は/及び動作情報の再生速度を落とし、それにより動作情報の時間長を前記音声情報の時間長に等しいにする。
【0098】
そのために、音声情報と動作情報との時間差が閾値より大きいである場合、調節の具体的な意味は音声情報の時間又は/及び動作情報の時間長を圧縮や延長し、また再生速度を速める又は落とすことを指してもよい。例えば音声情報の再生速度を2にかけ、それとも動作情報の再生時間を0.8にかけるなど。
【0099】
例えば、音声情報の時間長と動作情報の時間長との閾値は1分である場合、ロボットはユーザのマルチモード情報に基づいて生成するインタラクション内容においては、音声情報の時間が1分で、動作情報の時間が2分である場合、動作情報の再生速度を元の二倍に速め、それで動作情報の調節された後の再生時間は1分になり、それにより音声情報と同期する。勿論、音声情報の再生速度を本来の0.5倍まで落としてもよく、それにより音声情報が調節された後の再生時間は2分になり、それで動作情報と同期する。なお、音声情報と動作情報とともに調節してもよく、例えば音声情報の速度を落とすと同時に、動作情報を速め、両者とも1分30秒まで調節することも、音声と動作を同期させることが可能となる。
【0100】
ここにおいて、インタラクション内容プロセッサ306には、音声情報の時間と動作情報の時間と同じように調節する具体的なステップが、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合には、音声情報の時間長が動作情報の時間長より大きいであるなら、少なくとも二組の動作情報を順序付けて組み合わせ、それにより動作情報の時間長を前記音声情報の時間長に等しいにし、音声情報の時間長が動作情報の時間長より小さいである場合は、動作情報における一部の動作を選択して、これらの動作の時間長を前記音声情報の時間長に等しいにすることを含む。
【0101】
そのために、音声情報の時間長と動作情報の時間長との差が閾値より大きいである場合、調節は一部の動作情報を追加や削除することを指し、それにより、動作情報の時間長を音声情報の時間長と同様にする。
【0102】
例えば、音声情報の時間長と動作情報の時間長との閾値が30秒であると、ロボットはユーザのマルチモード情報に基づいて生成したインタラクション内容においては、音声情報の時間が3分で、動作情報の時間が1分であれば、他の動作情報を本来の動作情報に加える必要となり、例えば時間が2分である動作情報を見つけて、上記二組の動作情報を組み合わせると音声情報の時間と同様にマッチできる。勿論、もし時間が2分である動作情報の代わりに、2分半である動作情報を見つけた場合は、この2分半の動作情報から、選択された動作情報の時間が2分であるように一部の動作(一部のフレーム)を選択し、そうすると音声情報の時間長を同様にマッチできる。
【0103】
イメージングシステム310は前記インタラクション内容に基づいて仮想3D映像を生成し、スピーカー309はインタラクション内容に基づいて音声信号を同期に放送する。ここで、イメージングシステム310は普通のディスプレイとしてもよく、ホログラフィック投影装置としてもよく、それにより表示したロボットの立体感と真実性を増加し、ユーザの体験を高める。
【0104】
メモリ311はインタラクション内容プロセッサ306が操作する時に用いるデータの記憶に用いられることが可能である。選択できるのは、インタラクション内容プロセッサ311はCPU(中央処理装置)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)やCPLD(Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス)としてもよい。
【0105】
図4に示すように、本実施例に開示された音声と動作を同期させるシステム300はまた複数のセンター313を含み、該センサー313はユーザのいくつかの生理信号を取得し、信号プリプロセッサ314によって生理信号を前処理した後生理パラメータを得、且つ生理パラメータをインタラクション内容プロセッサー306に送信する。相応的に、インタラクション内容プロセッサ311は文字情報、表情情報、生理パラメータによってインタラクション内容を生成し、インタラクション内容にある動作情報をイメージングシステム310に送信し、インタラクション内容にある音声情報をスピーカー309に送信する。
【0106】
音声と仮想動作を同期させるシステム300におけるセンサー313は光センサー、虹彩認識センサー、指紋取得センサー、温度センサー、心拍数センサーなどを含むがそれらには限定されなく、それにより、ユーザの光感知情報、虹彩情報、指紋情報、体温情報、心拍数情報などにおける一種や多種類の生理信号を含むマルチモード情報を豊富にする。
【0107】
本実施例にはマイク301、画像取得装置304、センサー313が取得し出力する情報をマルチモード情報と総称する。
【0108】
本実施例の音声と仮想動作を同期させるシステム300によっては、ユーザのマルチモード情報を取得でき、前記マルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節できる。それにより、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、また音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それによりロボットは音声と動作を再生する時に同期マッチできるようになり、ロボットは音声表現のみならず、また動作などのさまざまな表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっと擬人化になる他、ユーザのインタラクション体験も向上した。
【0109】
図5に示すように、一部のセンサー313は音声と仮想動作を同期させるシステム300と一体に集積され、一部のセンサー313はウェアラブルデバイス400に集積されることが可能である、例えば温度センサー、心拍数センサーをスマートリストバンドに集積し、無線通信装置によって取得した情報を音声と仮想動作を同期させるシステム300におけるインタラクション内容プロセッサ306に送信する。
図5はただ音声と仮想動作を同期させるシステム300における無線通信装置とインタラクション内容プロセッサ306との接続関係を表示するだけで、音声と仮想動作を同期させるシステム300における他の接続関係は
図3と
図4に例示された。
【0110】
システム300はまた、ロボットの可変パラメータを生成するための可変パラメータプロセッサを含み、具体的には、ロボットの自己認識パラメータを可変パラメータにおける場面パラメータに整合して、ロボット可変パラメータを生成することを含む。そうすると可変パラメータを結合したロボットの場面において、ロボット本体の自己認識を拡大し、自己認識にあるパラメータを可変パラメータ用場面パラメータに整合し、擬人化の影響をもたらす。
【0111】
ここにおいて、前記マルチモード情報と可変パラメータに基づいて、インタラクション内容を生成するステップは具体的に、マルチモード情報と可変パラメータ及びパラメータ変更確率の整合曲線によってインタラクション内容を生成することを含む。そうすると可変パラメータの確率訓練を経由して整合曲線を生成でき、それによりロボットインタラクション内容を生成できる。
【0112】
ここにおいて、前記パラメータ変更確率の制御曲線を生成する方法は、確率アルゴリズムを利用し、ロボット間のパラメータ確率をネットワークで推定し、生活時間軸にあるロボットが時間軸の場面パラメータが変えた後、その各パラメータが変化する確率を計算して、整合曲線を形成することを含む。ここにおいて、確率アルゴリズムはベイズ確率アルゴリズムを使用してもよい。
【0113】
可変パラメータを結合したロボットの場面において、ロボット本体を自己認識を拡大し、自己認識におけるパラメータを可変パラメータ用場面パラメータと整合して、擬人化の影響をもたらす。同時に、場所場面の識別を添えることで、ロボットは自分がある地理位置を分かり、その地理環境に基づいて、インタラクション内容を生成する様態を変更する。なお、ベイズ確率アルゴリズムの使用は、ロボット間のパラメータ確率をベイズネットワークで推定し、生活時間軸にあるロボット本体の時間軸場面パラメータが変化された後、各パラメータが変える確率を計算し、整合曲線を形成して、ロボット本体の自己認識を動的に影響する。そういう創造的なモジュールはロボットが人類の生活スタイルを持つようにし、表情については、ある場所場面に従って、表情を変化することが可能になる。
【0114】
本実施例に開示されたシステム300はまた無線通信装置314を含み、
図6に示すように、無線通信装置314はインタラクション内容プロセッサ306と接続され、インタラクション内容プロセッサ306はインタラクション内容を移動端末500まで送信し、移動端末500は動作情報によって仮想3D映像を生成し、且つ移動端末500のスピーカーによって音声情報同時に再生する。
図6はただ音声と仮想動作を同期させるシステム300における無線通信装置とインタラクション内容プロセッサ311との接続関係を表示するだけで、音声と仮想動作を同期させるシステム300における他の接続関係は
図3と
図4に例示された。
【0115】
本実施例に開示された仮想ロボットの音声と仮想動作を同期させるシステム300は、多方面でロボットの人類と対話する形式を豊富にし、ロボットがもっと擬人化に人類と対話でき、該システムはロボットが生成したインタラクション内容の擬人性、及び人類のインタラクション体験を向上させ、且つインテリジェント性を高めることができる。
【0116】
図7に示すように、音声と仮想動作を同期させるシステム300はまたロボット600の内部に集積されてもよく、ロボット600に備えられた音声取得装置612、ビデオカメラ611、各種類のセンサー(
図4に表示されない)、GPSナビゲーション装置(
図4に表示されない)などによってユーザのマルチモード情報を取得して、インタラクション内容プロセッサ306に送信でき、例えば、ユーザがロボットをある場所に連れる時に、GPSナビゲーション装置を介してユーザがいる位置情報が得られ、そうして生活時間軸と結合することで可変パラメータを得、且つロボット本体の自己認識を拡大し、自己認識パラメータと可変パラメータにおける応用場面パラメータを整合して、擬人化の影響をもたらす。
【0117】
インタラクション内容プロセッサ306はメモリ311に記憶されたプログラムの読み取り、下記プロセスを実行することに用いる:ユーザのマルチモード情報を取得し、ユーザのマルチモード情報と可変パラメータによって、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を等しいにしh、音声情報と動作情報が同様になるように、出力時間長を調節する。インタラクション内容プロセッサ306から出力された音声情報はロボット600の音声システム613で再生され、ロボット600のホストコントローラによって、インタラクション内容プロセッサ306から出力された動作情報をロボットのそれぞれの関節の制御信号まで転化し、ロボットのそれぞれの関節614の運動を制御し、それにより、ロボット600を音声と同期する動作をさせ、例えば、ロボット600のヘッドの内側における関節によってヘッドの横向け揺れ、前後の振り、及びうなずく動作を制御し、ロボットの運動を制御する具体的な方法は従来技術であるため、本文で詳細に説明しない。インタラクション内容プロセッサ306で処理されたデータを、無線通信装置314を経由して、無線媒質で伝送し、更に、無線通信装置314はまた、データを受信してからそれをインタラクション内容プロセッサ306に転送し、ロボット600は無線通信装置314によってインターネットにアクセスできる他、またインターネットによってユーザのさまざまなデータを取得やアップロードすることができ、また無線通信装置314を介してユーザの移動端末にアクセスし、ロボットと対話するやロボットに対して、各種類の設定をすることができる。
【0118】
音声と仮想動作を同期させるシステムも電子デバイス端末をキャリアとして、ソフトウェアを経由して実現でき、スマートフォンによるキャリアで例示すると、情報取得装置はスマートフォンに既存している音声取得装置、ビデオカメラ、各種類のセンサー、GPSナビゲーション装置などを再利用して、ユーザのマルチモード情報を取得し、且つスマートフォンに内蔵したプロセッサに送信した後、プロセッサはメモリーに記憶されたプログラムを読み取り、下記プロセスを実行する:ユーザのマルチモード情報と可変パラメータに基づいて、少なくとも音声情報と動作情報を含むインタラクション内容を生成し、音声情報の時間長と動作情報の時間長を同じように調節し、音声情報と動作情報が同様になるように、出力時間長を調節する。スマートフォンのスクリーンで仮想ロボットの動作を表示し、スピーカーで音声を同時に再生する。スマートフォンの無線通信モジュールによって外部のデバイスやネットワークと接続され、データインタラクションを完成する。
【0119】
本実施例の音声と仮想動作を同期させるシステムは、ユーザの音声、表情、動作などを含むマルチモード情報の一種や多種類によって、少なくとも音声情報と動作情報を含むインタラクション内容を生成でき、音声情報と動作情報を同期させるためには、音声情報の時間長と動作情報の時間長を同じように調整し、それにより、ロボットは音声と動作を再生する時に同期マッチすることが可能になり、ロボットは音声表現のみならず、また動作などの多種類の表現形式で対話でき、ロボットの表現形式を多様化し、ロボットがもっとり擬人化になる他、ユーザがロボットとのインタラクション体験も向上した。
【0120】
上記内容は具体的な好ましい実施様態を結合した上で、本発明に対する更に詳細な説明であるが、本発明の具体的な実施例がこれらの説明に限定されるわけではない。当業者にとっては、本発明の精神から脱逸しない前提で、上記実施様態にさまざまな変更・改良を加えることが可能であって、本発明の保護範囲に属するべきである。