IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲發▼有限公司の特許一覧

特表2022-530726インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
<>
  • 特表-インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 図1
  • 特表-インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 図2
  • 特表-インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 図3
  • 特表-インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 図4
  • 特表-インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-01
(54)【発明の名称】インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
(51)【国際特許分類】
   G06F 3/16 20060101AFI20220624BHJP
   G06F 3/0484 20220101ALI20220624BHJP
【FI】
G06F3/16 620
G06F3/0484
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021529000
(86)(22)【出願日】2020-11-18
(85)【翻訳文提出日】2021-05-21
(86)【国際出願番号】 CN2020129814
(87)【国際公開番号】W WO2021196646
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】202010247276.5
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520291939
【氏名又は名称】北京市商▲湯▼科技▲開▼▲發▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO.,LTD.
【住所又は居所原語表記】Room 1101-1117,11th Floor No.58 Northwest 4th Ring Road, Haidian District Beijing 100080 China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】▲呉▼ 文岩
(72)【発明者】
【氏名】▲呉▼ 潜溢
(72)【発明者】
【氏名】▲錢▼ 晨
(72)【発明者】
【氏名】王 宇欣
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA27
5E555AA46
5E555BA02
5E555BA04
5E555BB02
5E555BB04
5E555BC04
5E555BE17
5E555DA11
5E555DB32
5E555DB41
5E555DB57
5E555DC43
5E555DC84
5E555DC85
5E555FA00
(57)【要約】
本発明は、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の少なくとも1つの局所エリアの姿態を制御することと、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
インタラクティブ対象駆動方法であって、
音声セグメントに含まれている音声フレームのシーケンスを取得することと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を取得することと、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とするインタラクティブ対象駆動方法。
【請求項2】
前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することをさらに含む
ことを特徴とする請求項1に記載のインタラクティブ対象駆動方法。
【請求項3】
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することは、
前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得することと、
前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することと、
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することと、を含む
ことを特徴とする請求項1または2に記載のインタラクティブ対象駆動方法。
【請求項4】
前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することは、
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得ることを含み、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、
前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
【請求項5】
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することは、
前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得ることを含む
ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
【請求項6】
前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
前記音響特徴サンプルを得ることは、
1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、
前記第1画像フレームに対応する前記音声フレームの音響特徴を取得することと、
前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得することと、
前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む
ことを特徴とする請求項5に記載のインタラクティブ対象駆動方法。
【請求項7】
前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、
前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
ことを特徴とする請求項6に記載のインタラクティブ対象駆動方法。
【請求項8】
インタラクティブ対象駆動装置であって、
音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニットと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニットと、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
ことを特徴とするインタラクティブ対象駆動装置。
【請求項9】
前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える
ことを特徴とする請求項8に記載のインタラクティブ対象駆動装置。
【請求項10】
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
前記第2取得ユニットは、
前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得し、
前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得し、
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する
ことを特徴とする請求項8または9に記載のインタラクティブ対象駆動装置。
【請求項11】
前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴を取得するときに、
前記第2取得ユニットは、
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得、
前記駆動ユニットは、
前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する
ことを特徴とする請求項10に記載のインタラクティブ対象駆動装置。
【請求項12】
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得するときに、前記第2取得ユニットは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得る
ことを特徴とする請求項10に記載のインタラクティブ対象駆動装置。
【請求項13】
前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、
当該サンプル取得ユニットは、
1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、
前記第1画像フレームに対応する前記音声フレームの音響特徴を取得し、
前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得し、
前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得る
ことを特徴とする請求項12に記載のインタラクティブ対象駆動装置。
【請求項14】
トレーニングユニットをさらに備え、
当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、
前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
ことを特徴とする請求項13に記載のインタラクティブ対象駆動装置。
【請求項15】
電子デバイスであって、メモリとプロセッサとを備え、
前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、
前記プロセッサは、前記コンピュータ命令が実行されると、請求項1乃至7の中のいずれか1項に記載の方法を実現する
ことを特徴とする電子デバイス。
【請求項16】
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1乃至7の中のいずれか1項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の互いに引用>
本発明は、出願日が2020年3月31日であり、出願番号が2020102472765である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータ技術の分野に関し、具体的には、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体に関する。
【背景技術】
【0002】
ヒューマンコンピュータインタラクションは、主にキーストローク、タッチ、音声入力によって、表示スクリーンに画像、テキスト、または、仮想人物を現わして応答を行う。現在、仮想人物は、主に音声アシスタントを基に改良して得られたものである。
【発明の概要】
【0003】
本発明の実施例は、インタラクティブ対象駆動の解決策を提供する。
【0004】
本発明の1態様によると、インタラクティブ対象駆動方法を提供し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
【0005】
本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することをさらに含む。
【0006】
本発明によって提供される任意の実施形態に結合すると、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することは、前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得することと、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することと、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することと、を含む。
【0007】
本発明によって提供される任意の実施形態に結合すると、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することは、所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得ることを含む。
【0008】
本発明によって提供される任意の実施形態に結合すると、前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
【0009】
本発明によって提供される任意の実施形態に結合すると、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得ることを含む。
【0010】
本発明によって提供される任意の実施形態に結合すると、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記方法は、音響特徴サンプルを取得することをさらに含み、具体的には、1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、前記第1画像フレームに対応する前記音声フレームの音響特徴を取得することと、前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得することと、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む。
【0011】
本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む。
【0012】
本発明の1態様によると、インタラクティブ対象駆動装置を提供し、前記装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニットと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニットと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。
【0013】
本発明の1態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサは、前記コンピュータ命令が実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法を実現する。
【0014】
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムプログラムがプロセッサによって実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法が実現される。
【0015】
本発明の1つまたは複数の実施例のインタラクティブ対象駆動方法、装置、デバイス、および、コンピュータ可読記録媒体によると、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。
【図面の簡単な説明】
【0016】
以下、本発明の1つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の記述で使用する必要がある図面を簡単に紹介する。以下の記述中の図面は、本発明の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者にとって創造的な作業なしでこれら図面に基づいてその他の図面をさらに得ることができることは、明らかである。
図1】本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法中の表示デバイスの模式図である。
図2】本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法のフローチャートである。
図3】本発明の少なくとも1つの実施例によって提供される音声フレームのシーケンスに対して特徴コーディングを行う過程の模式図である。
図4】本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動装置の構成の模式図である。
図5】本発明の少なくとも1つの実施例によって提供される電子デバイスの構成を示す模式図である。
【発明を実施するための形態】
【0017】
ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
【0018】
本明細書中の「および/または」という用語は、ただ、関連オブジェクトの関連関係を叙述し、例えば、Aおよび/またはBは、Aが単独的に存在すること、AとBが同時に存在すること、および、Bが単独的に存在することのような、3種の関係が存在することができることを意味する。また、本明細書中の「少なくとも1種」という用語は、複数種の中の任意の1種、または、複数種の中の少なくとも2種の任意の組み合わせを意味し、例えば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットの中から選択した任意1つまたは複数の要素を意味する。
【0019】
本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、固定端末または移動端末であり得、たとえば、携帯電話、タブレットコンピュータ、ゲームコンソール、デスクトップコンピュータ、広告機、オールインワン器、車載端末などである。前記サーバは、ローカルサーバまたはクラウドサーバなどを含み、前記方法は、さらに、プロセッサによってメモリに記憶されているコンピュータ可読命令を呼び出す方式によって実現され得る。
【0020】
本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを行うことができる任意の仮想キャラクターであり得る。1実施例において、インタラクティブ対象は、仮想人物であり、さらに、仮想動物、仮想物品、漫画キャラクターなどの、インタラクティブ機能を実現できる他の仮想キャラクターであり得る。インタラクティブ対象の表示形式は、2Dまたは3Dであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方式は、能動的インタラクティブ方式または受動的インタラクティブ方式であり得る。1例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方式によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう1例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方式によって、目標対象が受動的方式によってインタラクティブ対象とインタラクティブを行うようにすることができる。
【0021】
前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。
【0022】
図1は、本発明の少なくとも1つの実施例によって提供される表示デバイスを示す。図1に示したように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図1の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリに、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサにより、前記コンピュータ命令が実行されるときに本発明によって提供されるインタラクティブ対象駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。
【0023】
いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方式によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。
【0024】
インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに基づいて、本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。
【0025】
図2は、本発明の少なくとも1つの実施例に係るインタラクティブ対象駆動方法を示すフローチャートであり、図2に示したように、前記方法は、ステップ201~ステップ203を含む。
【0026】
ステップ201において、音声セグメントに含まれている音声フレームのシーケンスを取得する。
【0027】
前記音声セグメントは、前記インタラクティブ対象の音声駆動データに対応する音声セグメントであり得、前記音声駆動データは、オーディオデータ(音声データ)、テキストなどを含み得る。前記音声駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを行う目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方式に対して限定しない。
【0028】
本発明の実施例において、前記音声セグメントに対して周波数分割処理を実行して、前記音声セグメントに含まれている音声フレームのシーケンスを得ることができる。前記音声セグメントに対して周波数分割処理を実行することは、前記音声セグメントを複数の音声フレームに分割し、各音声フレームを時間順に配列して音声フレームのシーケンスを形成することであり得る。周波数分割処理を実行して得られた音声フレームに含まれているサンプリング点数(持続時間)、および、フレームシフト(フレーム間のオーバーラップ程度)は、インタラクティブ対象に対する駆動要求によって決定されることができ、本発明は、これに対して限定しない。
【0029】
図3は、本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象駆動方法を示す模式図である。音声セグメント信号に対してセグメント分割/周波数分割処理を行って得られた音声フレームのシーケンスは、図3に示すようである。
【0030】
ステップ202において、前記音声フレームのシーケンスに対応する、インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を、取得する。
【0031】
前記局所エリアは、インタラクティブ対象の全体(顔部および/または体を含む)を分割することによって得られる。顔部の1つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の顔部の表情または動作に対応され、たとえば、目部エリアの制御は、インタラクティブ対象の開眼、閉眼、まばたき、視角変換などの顔部の動作に対応され得、また、たとえば口部エリアの制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔部の動作に対応され得る。体の1つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の肢体動作に対応され得、たとえば、腿部エリアの制御は、インタラクティブ対象の歩行、ジャンプ、蹴りなどの動作に対応され得る。
【0032】
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含む。各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の前記局所エリアが動作を行うように駆動するために用いられる。異なる姿態制御ベクトル値は、異なる動作または動作度合いに対応される。たとえば、口部エリアの姿態制御ベクトルの場合、その1組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がわずかに開けるようにすることができ、もう1組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がより広く開けるようにすることができる。異なる姿態制御ベクトル値に基づいて前記インタラクティブ対象を駆動することによって、該当する局所エリアが異なる動作または異なる度合いの動作を行うように駆動することができる。
【0033】
局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。
【0034】
本発明の実施例において、前記音声フレームのシーケンスの音響特徴に基づいて、インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定してもよいし、前記音声フレームのシーケンスのその他の特徴に基づいて制御パラメータ値を確定してもよい。
【0035】
本発明の実施例において、音声フレームのシーケンスの一部の特徴とインタラクティブ対象の制御パラメータ値との間の対応関係を予め構築することができ、前記音声フレームのシーケンスを得た場合、対応する制御パラメータ値を得ることができる。前記音声フレームのシーケンスとマッチングされる前記インタラクティブ対象の制御パラメータ値を取得する具体的な方法は、後続で詳細に説明する。
【0036】
ステップ203において、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。
【0037】
ここで、姿態制御ベクトル値などの前記制御パラメータ値は、前記音声セグメントに含まれている音声フレームのシーケンスとマッチングされる。たとえば、前記インタラクティブ対象を展示する表示デバイスが現在前記音声セグメントを出力している場合、または、現在前記音声セグメントに該当するテキストを展示している場合、インタラクティブ対象が行う姿態は、出力する音声および/または展示するテキストと同期化されており、したがって、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。
【0038】
本発明の実施例において、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ体験を向上させた。
【0039】
いくつかの実施例において、前記方法は、ローカルサーバまたはクラウドサーバなどを含むサーバに適用され、前記サーバは、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る。前記サーバは、前記動画を端末に送信して展示することによって、目標対象に対して交流または応答を行うことができ、さらに、前記動画をクラウドに送信することによって、端末がクラウドから前記動画を取得して、目標対象に対して交流または応答を行うようにすることができる。サーバは、前記インタラクティブ対象の制御パラメータ値を生成した後に、さらに、前記制御パラメータ値を端末に送信することによって、端末が、レンダリング、動画の生成、および、展示の過程を実行するようにする。
【0040】
いくつかの実施例において、前記方法は、端末に適用され、前記端末は、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得ることができる。前記端末は、前記動画を展示して目標対象に対して交流または応答を行うことができる。
【0041】
いくつかの実施例において、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することができる。また、音声出力および/またはテキスト展示を実行する同時に、前記制御パラメータ値に基づいて前記表示デバイス展示された前記インタラクティブ対象の姿態を制御することができる。
【0042】
本発明の実施例において、前記制御パラメータ値が前記音声セグメントの音声フレームのシーケンスとマッチングされるため、前記音声セグメントに基づいて出力する音声および/またはテキストと、前記制御パラメータ値に基づいて制御するインタラクティブ対象の姿態とが、同期に行われる場合、インタラクティブ対象が行う姿態と出力する音声および/または展示するテキストとが、同期化され、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。
【0043】
いくつかの実施例において、前記インタラクティブ対象の少なくとも1つの局所エリアの制御パラメータが姿態制御ベクトルを含む場合、以下の方式によって姿態制御ベクトルを得ることができる。
【0044】
まず、前記音声フレームのシーケンスに対応する音響特徴シーケンスを取得する。ここで、後続で言及される音響特徴シーケンスと区分するために、前記音声フレームのシーケンスに対応する音響特徴シーケンスを第1音響特徴シーケンスと呼ぶ。
【0045】
本発明の実施例において、音響特徴は、音声感情に関連する特徴であり得、たとえば基本周波数特徴、共通ピーク特徴、メル周波数ケプストラム係数(Mel Frequency Cepstral Cofficient、MFCC)などであり得る。
【0046】
前記第1音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理をおこなって得られたものであり、MFCC特徴の例を挙げると、前記音声フレームのシーケンス中の各音声フレームに対して、ウィンドウ処理、高速フーリエ変換、フィルタリング、対数処理、および離散コサイン処理を実行することによって、各音声フレームに対応するMFCC係数を得ることができる。
【0047】
前記第1音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理を行って得られたものであるため、音声セグメントの全体の音響特徴を反映した。
【0048】
本発明の実施例において、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む。MFCCの例を挙げると、前記第1音響特徴シーケンスは、各音声フレームのMFCC係数を含む。前記音声フレームのシーケンスに基づいて得られた第1音響特徴シーケンスは、図3に示したようである。
【0049】
次に、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得する。
【0050】
前記第1音響特徴シーケンスが前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む場合、前記少なくとも1つの音声フレームに対応する同じ数の特徴ベクトルを前記音声フレームの音響特徴とすることができる。ここで、上記の同じ数の特徴ベクトルは、1つの特徴行列を形成することができ、当該特徴行列が前記少なくとも1つの音声フレームに対応する音響特徴である。
【0051】
図3を例とすると、前記第1音響特徴シーケンス中のN個の特徴ベクトルは、対応するN個の音声フレームの音響特徴を形成し、ここで、Nは正の整数である。前記第1音響特徴シーケンスは、複数の音響特徴を含み得、各前記音響特徴に対応する音声フレーム同士の間は、部分的に重複されてもよい。
【0052】
最後に、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する。
【0053】
得られた少なくとも1つの音声フレームに対応する音響特徴に基づいて、少なくとも1つの局所エリアの姿態制御ベクトルを取得することができる。局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。
【0054】
音声セグメントを再生する同時に、前記第1音響特徴シーケンスによって得られた各音響特徴に対応する姿態制御ベクトルに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、端末デバイスを利用して音声を出力する同時に、インタラクティブ対象が出力する音声にマッチングされる動作を行うようにすることができる。当該動作は、顔部の動作、表情、および、肢体動作などを含み、したがって、目標対象に、インタラクティブ対象が現在話しているような感覚を与える。また、前記姿態制御ベクトルが出力される音声の音響特徴に関連されるため、前記姿態制御ベクトルに基づいて駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象の前記インタラクティブ対象とのインタラクティブ体験を向上させた。
【0055】
いくつかの実施例において、前記第1音響特徴シーケンス上でスライディングウィンドウを実行する方式によって、前記少なくとも1つの音声フレームに対応する音響特徴を取得することができる。
【0056】
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する同じ数の音声フレームの音響特徴とすることによって、これら音声フレームに共同に対応する音響特徴を得ることができる。スライディングウィンドウが完了された後に得られた複数の音響特徴に基づいて、第2音響特徴シーケンスを得ることができる。
【0057】
図3に示したインタラクティブ対象駆動方法の例を挙げると、前記音声フレームのシーケンスは毎秒100個の音声フレームを含み、前記時間ウィンドウの長さは1sであり、歩幅は0.04sである。前記第1音響特徴シーケンス中の各特徴ベクトルが音声フレームに対応するので、これに応じて、前記第1音響特徴シーケンスも同様に毎秒100個の特徴ベクトルを含むことになる。前記第1音響特徴シーケンス上でスライディングウィンドウを実行する過程において、毎回前記時間ウィンドウ内の100個の特徴ベクトルを得て、対応する100個の音声フレームの音響特徴とする。前記第1音響特徴シーケンス上で0.04sの歩幅で前記時間ウィンドウを移動して、1番目から100番目の音声フレームに対応する音響特徴1、および、4番目から104番目の音声フレームに対応する音響特徴2をそれぞれ得、類推により、第1音響特徴をトラバースした後に、音響特徴1、音響特徴2、…、音響特徴Mを得て、第2音響特徴シーケンスを得る。ここで、Mは正の整数であり、その数値は、音声フレームシーケンスのフレーム数(第1音響特徴シーケンス中の特徴ベクトルの数)、時間ウィンドウの長さ、および、歩幅によって決定される。
【0058】
音響特徴1、音響特徴2、…、音響特徴Mに基づいて、該当する姿態制御ベクトル1、姿態制御ベクトル2、…、姿態制御ベクトルMをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンスを得ることができる。
【0059】
図3に示したように、前記姿態制御ベクトルのシーケンスと前記第2音響特徴シーケンスとは時間的に整列され、前記第2音響特徴シーケンス中の音響特徴1、音響特徴2、…、音響特徴Mは、それぞれ、前記第1音響特徴シーケンス中のN個の特徴ベクトルに基づいて得られるため、前記音声フレームを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することができる。
【0060】
1番目の時間ウィンドウの所定の時点で音響特徴を出力し始めると仮定すると、前記所定の時点の前の姿態制御ベクトルをデフォルト値に設定することができ、すなわち、音声フレームシーケンスを再生し始めたばかりのとき、前記インタラクティブ対象がデフォルトの動作を実行するようにし、前記所定の時点に後に、第1音響特徴シーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。
【0061】
図3の例を挙げると、t0時点で音響特徴1を出力し始め、歩幅に対応する時間0.04sを間隔として音響特徴を出力し、t1時点で音響特徴2を出力し始め、t2時点で音響特徴3を出力し始め、…、t(M-1)時点で音響特徴Mを出力する。これに対応して、ti~t(i+1)時間帯に対応するのは、特徴ベクトル(i+1)であり、ここで、iは(M-1)よりも小さい整数であり、t0時点の前では、姿態制御ベクトルがデフォルト姿態制御ベクトルである。
【0062】
本発明の実施例において、前記音声セグメントを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、インタラクティブ対象の動作が出力する音声と同期されるようにして、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与えて、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。
【0063】
前記時間ウィンドウの長さは、前記音響特徴に含まれている情報量に関連される。時間ウィンドウの長さが大きいほど、含まれている情報量が多く、前記インタラクティブ対象を駆動して行う動作と音声との間の関連性が強い。時間ウィンドウがスライディングされる歩幅は、姿態制御ベクトルを取得する時間の間隔(頻度)に関連され、すなわち、インタラクティブ対象が動作を行うように駆動する頻度に関連される。実際のインタラクティブシナリオに応じて前記時間ウィンドウの長さおよび歩幅を設定することによって、インタラクティブ対象が行う表情および動作と音声との間の関連性がより強くようにし、より鮮やかで自然にする。
【0064】
いくつかの実施例において、前記音響特徴は、L個の次元のメル周波数ケプストラム係数MFCCを含み、ここで、Lは正の整数である。MFCCは、音声信号のエネルギーの異なる周波数範囲における分布を表し、前記音声フレームのシーケンス中の複数の音声フレームデータを周波数領域に変換し、L個のサブバンドを含むメルフィルターを利用して、L個の次元のMFCCを得ることができる。音声セグメントのMFCCに基づいて姿態制御ベクトルを取得することによって、前記姿態制御ベクトルに基づいて前記インタラクティブ対象が顔部の動作および肢体動作を行うように駆動して、インタラクティブ対象の表情および肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象のインタラクティブ体験を向上させた。
【0065】
いくつかの実施例において、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することができる。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力された音響特徴の過去情報を学習し、音響特徴シーケンスに基づいて前記少なくとも1つの局所エリアの姿態制御ベクトルを出力することができる。ここで、前記音響特徴シーケンスは、第1音響特徴シーケンスと第2音響特徴シーケンスとを含む。
【0066】
本発明の実施例において、事前にトレーニングされたリカレントニューラルネットワークを利用して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得し、音響特徴の過去特徴情報および現在特徴情報を融合することによって、過去姿態制御ベクトルが現在姿態制御ベクトルの変化に影響を与えるようにして、インタラクティブ人物の表情変化および肢体動作をよりスムーズで自然にする。
【0067】
いくつかの実施例において、以下の方式によって前記リカレントニューラルネットワークに対してトレーニングを実行することができる。
【0068】
まず、音響特徴サンプルを取得し、ここで、前記音響特徴サンプルには真の値がラベリングされており、前記真の値は前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトル値である。
【0069】
音響特徴サンプルを得た後に、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの姿態制御ベクトル値と前記真の値との間の差異を含む。
【0070】
いくつかの実施例において、以下の方法によって音響特徴サンプルを取得する。
【0071】
まず、1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出する。たとえば、実在の人物が現在話しているビデオセグメントを取得することができる。
【0072】
次に、第1サンプリング周期に従って前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、第2サンプリング周期に従って前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得る。
【0073】
ここで、前記第2サンプリング周期は、前記第1サンプリング周期よりも小さく、すなわち、音声セグメントに対してサンプリングを実行する頻度がビデオセグメントに対してサンプリングを実行する頻度よりも高いので、1つの第1画像フレームが少なくとも1つの音声フレームの音響特徴に対応されるようにする。
【0074】
その後、前記第1画像フレームに対応する少なくとも1つの音声フレームに対応する音響特徴を取得する。トレーニング過程において1つの第1画像フレームに対応される音声フレームの数は、前述した駆動過程において取得した音響特徴に対応する音声フレームの数と同じであり、また、トレーニング過程において音響特徴を取得する方法は、前述した駆動過程と同じであることに注意する必要がある。
【0075】
続いて、前記第1画像フレームを、前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得する。ここで、当該姿態制御ベクトル値は、すべての局所エリアの姿態制御ベクトル値を含んでもよいし、その中の一部の局所エリアの姿態制御ベクトル値を含んでもよい。
【0076】
前記第1画像フレームに実在の人物が含まれている画像フレームの例を挙げると、当該実在の人物の画像フレームを、インタラクティブ対象によって示されたキャラクターを含む第2画像フレームに変換することができる。前記実在の人物の各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の各局所エリアの姿態制御ベクトルに対応されるため、第2画像フレーム中のインタラクティブ対象の各局所エリアの姿態制御ベクトルを取得することができる。
【0077】
最後、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。
【0078】
本発明の実施例において、1つのキャラクターのビデオセグメントを、対応する複数の第1画像フレームおよび複数の音声フレームに分割し、実在の人物を含む第1画像フレームを、インタラクティブ対象を含む第2画像フレームに変換して、少なくとも1つの音声フレームの音響特徴に対応する姿態制御ベクトルを取得することによって、音響特徴と姿態制御ベクトルとの対応性がより良くようにし、高い品質の音響特徴サンプルを得、インタラクティブ対象の動作が対応するキャラクターの実在の動作に近くなるようにする。
【0079】
図4は、本発明の少なくとも1つの実施例に係るインタラクティブ対象駆動装置の構成を示す模式図であり、図4に示したように、当該装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニット401と、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニット402と、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット403と、を備え得る。
【0080】
いくつかの実施例において、前記装置は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える。
【0081】
いくつかの実施例において、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記第2取得ユニットは、具体的に、前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得し、前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得し、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得する。
【0082】
いくつかの実施例において、前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第1音響特徴シーケンスに基づいて少なくとも1つの音声フレームに対応する音響特徴を取得するときに、前記第2取得ユニットは、具体的に、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。
【0083】
いくつかの実施例において、前記駆動ユニットは、具体的に、前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。
【0084】
いくつかの実施例において、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得するときに、前記第2取得ユニットは、具体的に、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを得る。
【0085】
いくつかの実施例において、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、当該サンプル取得ユニットは、取得したビデオセグメントから、前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、前記第1画像フレームに対応する前記音声フレームの音響特徴を取得し、前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得し、前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。
【0086】
いくつかの実施例において、前記装置は、トレーニングユニットをさらに備え、当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記初期リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの姿態制御ベクトル値と、ラベリングした姿態制御ベクトル値と、の間の差異を含む。
【0087】
本発明の少なくとも1つの実施例は、電子デバイスをさらに提供し、図5に示したように、前記デバイスは、メモリとプロセッサとを備える。メモリは、プロセッサによって実行できる命令を記憶し、前記命令が実行されるときに、プロセッサが本発明の任意の1実施例に記載のインタラクティブ対象駆動方法を実現するようにする。
【0088】
本発明の少なくとも1つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサが本発明の任意の1実施例に記載のインタラクティブ対象駆動方法を実現するようにする。
【0089】
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記憶媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
【0090】
本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。
【0091】
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
【0092】
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
【0093】
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
【0094】
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
【0095】
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
【0096】
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。
【0097】
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。
【0098】
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
【0099】
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2021-05-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
インタラクティブ対象駆動方法であって、
音声セグメントに含まれている音声フレームのシーケンスを取得することと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータ値を取得することと、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とするインタラクティブ対象駆動方法。
【請求項2】
前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および/またはテキスト展示を実行するように、制御することをさらに含む
ことを特徴とする請求項1に記載のインタラクティブ対象駆動方法。
【請求項3】
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得することは、
前記音声フレームのシーケンスに対応する第1音響特徴シーケンスを取得することと、
前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することと、
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することと、を含む
ことを特徴とする請求項1または2に記載のインタラクティブ対象駆動方法。
【請求項4】
前記第1音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
前記第1音響特徴シーケンスに基づいて、少なくとも1つの音声フレームに対応する音響特徴を取得することは、
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第1音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも1つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第2音響特徴シーケンスを得ることを含み、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、
前記第2音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
【請求項5】
前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの姿態制御ベクトルを取得することは、
前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも1つの局所エリアの前記姿態制御ベクトルを得ることを含む
ことを特徴とする請求項3に記載のインタラクティブ対象駆動方法。
【請求項6】
前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
前記音響特徴サンプルを得ることは、
1つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第1画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、
前記第1画像フレームに対応する前記音声フレームの音響特徴を取得することと、
前記第1画像フレームを前記インタラクティブ対象を含む第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局所エリアの姿態制御ベクトル値を取得することと、
前記姿態制御ベクトル値に対して、前記第1画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む
ことを特徴とする請求項5に記載のインタラクティブ対象駆動方法。
【請求項7】
前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、
前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも1つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
ことを特徴とする請求項6に記載のインタラクティブ対象駆動方法。
【請求項8】
インタラクティブ対象駆動装置であって、
音声セグメントに含まれている音声フレームのシーケンスを取得するための第1取得ユニットと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも1つの局所エリアの制御パラメータを取得するための第2取得ユニットと、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
ことを特徴とするインタラクティブ対象駆動装置。
【請求項9】
電子デバイスであって、メモリとプロセッサとを備え、
前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、
前記プロセッサは、前記コンピュータ命令が実行されると、請求項1乃至7の中のいずれか1項に記載の方法を実現する
ことを特徴とする電子デバイス。
【請求項10】
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1乃至7の中のいずれか1項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。
【国際調査報告】