(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-21
(45)【発行日】2024-11-29
(54)【発明の名称】ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
(51)【国際特許分類】
G06T 13/40 20110101AFI20241122BHJP
G06T 7/20 20170101ALI20241122BHJP
G06T 7/00 20170101ALI20241122BHJP
G06V 40/16 20220101ALI20241122BHJP
G06V 10/70 20220101ALI20241122BHJP
【FI】
G06T13/40
G06T7/20 300B
G06T7/00 350B
G06V40/16 B
G06V10/70
(21)【出願番号】P 2023535742
(86)(22)【出願日】2021-12-15
(86)【国際出願番号】 CN2021138297
(87)【国際公開番号】W WO2022170848
(87)【国際公開日】2022-08-18
【審査請求日】2023-06-12
(31)【優先権主張番号】202110174149.1
(32)【優先日】2021-02-09
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】523194846
【氏名又は名称】ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room A402, 4/f, No. 2 Building, No. 18 Kechuang 11th Street Economic And Technological Development Zone Beijing 100176 (CN)
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100167793
【氏名又は名称】鈴木 学
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】ユアン、 シン
(72)【発明者】
【氏名】ウー、 ユンリ
(72)【発明者】
【氏名】カイ、 リュリュ
(72)【発明者】
【氏名】ツァン、 ジェンシェン
(72)【発明者】
【氏名】リウ、 ダン
(72)【発明者】
【氏名】ヘ、 シャオドン
【審査官】鈴木 明
(56)【参考文献】
【文献】特開2005-157494(JP,A)
【文献】特開平09-081632(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/40
G06T 7/20
G06T 7/00
G06V 40/16
G06V 10/70
(57)【特許請求の範囲】
【請求項1】
ヒューマンコンピュータインタラクション方法であって、
ユーザの少なくとも1種のモダリティの情報を受信するステップ
であって、前記少なくとも1種のモダリティの情報は、前記ユーザの画像データおよび音声データを含む、ステップと、
前記少なくとも1種のモダリティの情報に基づいて、
前記ユーザの意図情報を認識するステップと、
前記音声データを訓練済みの音声気分認識モデルに入力し、前記音声気分認識モデルによって出力された音声気分特徴を取得するステップと、
前記ユーザの画像データに基づいて、前記ユーザの表情特徴を認識し、前記表情特徴を訓練済みの表情気分認識モデルに入力し、前記表情気分認識モデルによって出力された表情気分特徴を取得するステップと、
前記音声気分特徴および前記表情気分特徴を加重合計して前記意図情報に対応するユーザの気分特徴を取得するステップと、
前記意図情報に基づいて、前記ユーザへの回答情報を決定するステップと、
前記ユーザの気分特徴に基づいて、前記ユーザにフィードバックするキャラクタの気分特徴を選択するステップと、
前記キャラクタの気分特徴と前記回答情報とに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するステップと、
を含むヒューマンコンピュータインタラクション方法。
【請求項2】
前記少なくとも1種のモダリティの情報に基づいて、
前記ユーザの意図情報を認識するステップは、
前記音声データからテキスト情報を取得するステップと、
前記音声データから取得された前記テキスト情報に基づいて、前記ユーザの意図情報を抽出するステップ
と、
を含む請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項3】
前記少なくとも1種のモダリティの情報は、前記ユーザ
のテキストデータ
をさらに含み、
前記少なくとも1種のモダリティの情報に基づいて、
前記ユーザの意図情報を認識するステップにおいては、前記ユーザのテキストデータに基づいて、前記ユーザの意図情報を抽出する
、
請求項1に記載のヒューマンコンピュータインタラクション方法。
【請求項4】
前記ユーザのテキストデータから前記ユーザの
テキスト気分特徴を取得するステップをさらに含み、
前記意図情報に対応するユーザの気分特徴を取得するステップにおいては、前記テキスト気分特徴、前記音声気分特徴および前記表情気分特徴を加重合計して前記意図情報に対応するユーザの気分特徴を取得する、
請求項
3に記載のヒューマンコンピュータインタラクション方法。
【請求項5】
前記キャラクタの気分特徴と前記回答情報とに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するステップは、
前記回答情報および前記キャラクタの気分特徴に基づいて、回答音声を生成するステップと、
前記回答音声、前記キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、
を含む請求項1~
4のいずれか1項に記載のヒューマンコンピュータインタラクション方法。
【請求項6】
前記回答音声、前記キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップは、
前記回答音声および前記キャラクタの気分特徴を訓練済みの口形駆動モデルに入力し、前記口形駆動モデルによって出力された口形データを取得するステップと、
前記回答音声および前記キャラクタの気分特徴を訓練済みの表情駆動モデルに入力し、前記表情駆動モデルによって出力された表情データを取得するステップと、
前記口形データおよび前記表情データに基づいて前記アニメキャラクタイメージのモデルを駆動し、3次元モデルの動作シーケンスを取得するステップと、
前記3次元モデルの動作シーケンスをレンダリングして、ビデオフレームのピクチャシーケンスを取得するステップと、
前記ビデオフレームのピクチャシーケンスを合成して、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、を含み、
ここで、前記口形駆動モデルおよび前記表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得る
請求項
5に記載のヒューマンコンピュータインタラクション方法。
【請求項7】
ヒューマンコンピュータインタラクション装置であって、
ユーザの少なくとも1種のモダリティの情報を受信するように構成される受信ユニット
であって、前記少なくとも1種のモダリティの情報は、前記ユーザの画像データおよび音声データを含む、受信ユニットと、
前記少なくとも1種のモダリティの情報に基づいて、
前記ユーザの意図情報を認識し、前記音声データを訓練済みの音声気分認識モデルに入力し、前記音声気分認識モデルによって出力された音声気分特徴を取得し、前記ユーザの画像データに基づいて、前記ユーザの表情特徴を認識し、前記表情特徴を訓練済みの表情気分認識モデルに入力し、前記表情気分認識モデルによって出力された表情気分特徴を取得し、前記音声気分特徴および前記表情気分特徴を加重合計して、前記意図情報に対応するユーザの気分特徴を取得するように構成される認識ユニットと、
前記意図情報に基づいて、前記ユーザへの回答情報を決定するように構成される決定ユニットと、
前記ユーザの気分特徴に基づいて、前記ユーザにフィードバックするキャラクタの気分特徴を選択するように構成される選択ユニットと、
前記キャラクタの気分特徴と前記回答情報とに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成されるアナウンスユニットと、
を備えるヒューマンコンピュータインタラクション装置。
【請求項8】
ヒューマンコンピュータインタラクションシステムであって、
前記システムは、採集装置と、表示装置と、前記採集装置および前記表示装置にそれぞれ接続されたインタラクションプラットフォームとを備え、
前記採集装置は、ユーザの少なくとも1種のモダリティの情報を採集するように構成され、
前記少なくとも1種のモダリティの情報は、前記ユーザの画像データおよび音声データを含み、
前記インタラクションプラットフォームは、前記ユーザの少なくとも1種のモダリティの情報を受信し、前記少なくとも1種のモダリティの情報に基づいて、
前記ユーザの意図情報を認識し、前記音声データを訓練済みの音声気分認識モデルに入力し、前記音声気分認識モデルによって出力された音声気分特徴を取得し、前記ユーザの画像データに基づいて、前記ユーザの表情特徴を認識し、前記表情特徴を訓練済みの表情気分認識モデルに入力し、前記表情気分認識モデルによって出力された表情気分特徴を取得し、前記音声気分特徴および前記表情気分特徴を加重合計して、前記意図情報に対応するユーザの気分特徴を取得し、前記意図情報に基づいて、前記ユーザへの回答情報を決定し、前記ユーザの気分特徴に基づいて、前記ユーザにフィードバックするキャラクタの気分特徴を選択し、前記キャラクタの気分特徴と前記回答情報とに基づいて、前記キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成され、
前記表示装置は、前記アナウンスビデオを受信して再生するように構成される
ヒューマンコンピュータインタラクションシステム。
【請求項9】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~
4のいずれか1項に記載のヒューマンコンピュータインタラクション方法を実行させる電子機器。
【請求項10】
コンピュータプログラムが格納されるコンピュータ可読媒体であって、
当該コンピュータプログラムがプロセッサによって実行されると、請求項1~
4のいずれか1項に記載のヒューマンコンピュータインタラクション方法を実行するコンピュータ可読媒体。
【請求項11】
プロセッサによって実行されると、請求項1~
4のいずれか1項に記載のヒューマンコンピュータインタラクション方法が実行されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本開示は、2021年2月9日付で提出された出願番号が202110174149.1で、発明の名称が「ヒューマンコンピュータインタラクション方法、装置、システム、電子機器およびコンピュータ媒体」である中国特許出願に基づく優先権を主張し、当該特許出願の全文は引用により本開示に組み込まれる。
【0002】
本開示は、人工知能技術分野、特にコンピュータビジョン、深層学習などの技術分野に関し、特にヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体およびコンピュータプログラムに関する。
【背景技術】
【0003】
従来の仮想デジタルヒューマンカスタマーサービスシステムは、単純なヒューマンコンピュータインタラクションのみを完成することができ、感情のないロボットであると理解されてもよく、単純な音声認識と意味理解を行うだけであり、複雑なカウンターサービスシステムにおいて、単純な音声認識と意味理解だけで様々な異なる気分のユーザに対して適当な気分で応答できないので、ユーザのインタラクション体験が悪い。
【発明の概要】
【0004】
本開示の実施形態は、ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体およびコンピュータプログラムを提供する。
【0005】
第1の態様において、本開示の実施形態は、ヒューマンコンピュータインタラクション方法であって、ユーザの少なくとも1種のモダリティの情報を受信するステップと、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するステップと、意図情報に基づいて、ユーザへの回答情報を決定するステップと、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択するステップと、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するステップと、を含むヒューマンコンピュータインタラクション方法を提供する。
【0006】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含み、上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するステップは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、音声データからテキスト情報を取得するステップと、テキスト情報に基づいて、ユーザの意図情報を抽出するステップと、音声データおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するステップと、を含む。
【0007】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するステップは、テキスト情報からユーザの気分特徴を取得するステップをさらに含む。
【0008】
いくつかの実施形態において、上記音声データおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するステップは、音声データを訓練済みの音声気分認識モデルに入力し、音声気分認識モデルによって出力された音声気分特徴を取得するステップと、表情特徴を訓練済みの表情気分認識モデルに入力し、表情気分認識モデルによって出力された表情気分特徴を取得するステップと、音声気分特徴および表情気分特徴を加重合計して、意図情報に対応するユーザの気分特徴を得るステップと、を含む。
【0009】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよびテキストデータを含み、上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するステップは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、テキストデータに基づいて、ユーザの意図情報を抽出するステップと、テキストデータおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するステップと、を含む。
【0010】
いくつかの実施形態において、上記キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するステップは、回答情報およびキャラクタの気分特徴に基づいて、回答音声を生成するステップと、回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、を含む。
【0011】
いくつかの実施形態において、上記回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップは、回答音声およびキャラクタの気分特徴を訓練済みの口形駆動モデルに入力し、口形駆動モデルによって出力された口形データを取得するステップと、回答音声およびキャラクタの気分特徴を訓練済みの表情駆動モデルに入力し、表情駆動モデルによって出力された表情データを取得するステップと、口形データおよび表情データに基づいてアニメキャラクタイメージのモデルを駆動し、3次元モデルの動作シーケンスを取得するステップと、3次元モデルの動作シーケンスをレンダリングして、ビデオフレームのピクチャシーケンスを取得するステップと、ビデオフレームのピクチャシーケンスを合成して、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、を含み、ここで、口形駆動モデルおよび表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得る。
【0012】
第2の態様において、本開示の実施形態は、ヒューマンコンピュータインタラクション装置であって、ユーザの少なくとも1種のモダリティの情報を受信するように構成される受信ユニットと、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するように構成される認識ユニットと、意図情報に基づいて、ユーザへの回答情報を決定するように構成される決定ユニットと、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択するように構成される選択ユニットと、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成されるアナウンスユニットと、を備えるヒューマンコンピュータインタラクション装置を提供する。
【0013】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含み、上記認識ユニットは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するように構成される認識サブユニットと、音声データからテキスト情報を取得するように構成されるテキスト取得サブユニットと、テキスト情報に基づいて、ユーザの意図情報を抽出するように構成される抽出サブユニットと、音声データおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するように構成される特徴取得サブユニットと、を備える。
【0014】
いくつかの実施形態において、上記認識ユニットのユーザの気分特徴は、さらにテキスト情報から取得される。
【0015】
いくつかの実施形態において、上記特徴取得サブユニットは、音声データを訓練済みの音声気分認識モデルに入力し、音声気分認識モデルによって出力された音声気分特徴を取得するように構成される音声取得モジュールと、表情特徴を訓練済みの表情気分認識モデルに入力し、表情気分認識モデルによって出力された表情気分特徴を取得するように構成される表情取得モジュールと、音声気分特徴および表情気分特徴を加重合計して、意図情報に対応するユーザの気分特徴を取得するように構成される加算モジュールとを備える。
【0016】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよびテキストデータを含み、上記認識ユニットは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するように構成される認識モジュールと、テキストデータに基づいて、ユーザの意図情報を抽出するように構成される抽出モジュールと、テキストデータおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するように構成される特徴取得モジュールと、を備える。
【0017】
いくつかの実施形態において、上記アナウンスユニットは、応答情報および人物気分特徴に基づいて、応答音声を生成するように構成される生成サブユニットと、回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するように構成されるビデオ取得サブユニットと、を備える。
【0018】
いくつかの実施形態において、上記ビデオ取得サブユニットは、回答音声およびキャラクタの気分特徴を訓練済みの口形駆動モデルに入力し、口形駆動モデルによって出力された口形データを取得するように構成される口形駆動モジュールと、回答音声およびキャラクタの気分特徴を訓練済みの表情駆動モデルに入力し、表情駆動モデルによって出力された表情データを取得するように構成される表情駆動モジュールと、口形データおよび表情データに基づいてアニメキャラクタイメージのモデルを駆動し、3次元モデルの動作シーケンスを取得するように構成されるモデル駆動モジュールと、3次元モデルの動作シーケンスをレンダリングして、ビデオフレームのピクチャシーケンスを取得するように構成されるピクチャ取得モジュールと、ビデオフレームのピクチャシーケンスを合成して、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するように構成されるビデオ取得モジュールと、を備える。ここで、口形駆動モデルおよび表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得る。
【0019】
第3の態様において、本開示の実施形態は、ヒューマンコンピュータインタラクションシステムであって、当該システムは、採集装置と、表示装置と、採集装置および表示装置にそれぞれ接続されたインタラクションプラットフォームとを備え、採集装置は、ユーザの少なくとも1種のモダリティの情報を採集するように構成され、インタラクションプラットフォームは、ユーザの少なくとも1種のモダリティの情報を受信し、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識し、意図情報に基づいて、ユーザへの回答情報を決定し、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択し、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成され、表示装置は、アナウンスビデオを受信して再生するように構成されるヒューマンコンピュータインタラクションシステムを提供する。
【0020】
第4の態様において、本開示の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに第1の態様のいずれかの実施形態に記載のヒューマンコンピュータインタラクション方法を実現する、電子機器を提供する。
【0021】
第5の態様において、本開示の実施形態は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、当該コンピュータプログラムがプロセッサによって実行されると、第1の態様のいずれかの実施形態に記載のヒューマンコンピュータインタラクション方法を実現するコンピュータ可読媒体を提供する。
【0022】
第6の態様において、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載のヒューマンコンピュータインタラクション方法が実行されるコンピュータプログラムを提供する。
【0023】
本開示の実施形態によって提供されるヒューマンコンピュータインタラクション方法および装置は、まず、ユーザの少なくとも1種のモダリティの情報を受信する。次に、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識する。次に、意図情報に基づいて、ユーザへの回答情報を決定する。次に、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択する。最後に、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成する。これによって、ユーザの少なくとも1種のモダリティの情報を解析して、ユーザにフィードバックするキャラクタの気分特徴を決定することで、異なる気分のユーザにその気分に応じた効果的なフィードバックが提供され、ヒューマンコンピュータインタラクションプロセス中の感情のコミュニケーションが確保される。
【図面の簡単な説明】
【0024】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
【
図1】本開示の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本開示に係るヒューマンコンピュータインタラクション方法の一実施形態のフローチャートである。
【
図3】本開示に係るユーザの意図情報およびユーザの気分特徴を認識するための一実施形態のフローチャートである。
【
図4】本開示に係るヒューマンコンピュータインタラクション装置の実施形態を示す構造概略図である。
【
図5】本開示に係るヒューマンコンピュータインタラクションシステムの実施形態を示す構造概略図である。
【
図6】本開示の実施形態の実現に適する電子機器の構造概略図である。
【発明を実施するための形態】
【0025】
以下、図面および実施形態を参照しながら本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0026】
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
【0027】
図1は、本開示に係るヒューマンコンピュータインタラクション方法が適用可能な例示的なシステムアーキテクチャ100を示している。
【0028】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、セルフサービス端末103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、セルフサービス端末103およびサーバ105の間で通信リンクを提供するための媒体として使用される。ネットワーク104は、典型的には無線通信リンクなどの様々なタイプの接続を含んでもよい。
【0029】
メッセージを送受信するために、端末装置101、102、セルフサービス端末103は、ネットワーク104を介してサーバ105と情報のやり取りをする。端末装置101、102、セルフサービス端末103には、例えば、インスタントコミュニケーションツール、メールクライアント等のような様々な通信クライアントアプリケーションがインストールされてもよい。
【0030】
端末装置101、102は、ハードウェアであってもソフトウェアであってもよい。端末装置101、102がハードウェアである場合、サーバ105と通信可能な通信・制御機能を有するユーザデバイスであってもよい。端末装置101、102がソフトウェアである場合、上記ユーザデバイスにインストールされてもよい。端末装置101、102は、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実現されてもよいし、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
【0031】
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101、102、セルフサービス端末103におけるクライアント問答システムをサポートするバックエンドサーバであってもよい。バックエンドサーバは、端末装置101、102、セルフサービス端末103で採集された関連ユーザの少なくとも1種のモダリティの情報を解析して処理し、処理結果(例えば、アニメキャラクタイメージによるアナウンスビデオ)を端末装置またはセルフサービス端末にフィードバックしてもよい。
【0032】
なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装され得る。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0033】
なお、本開示の実施形態によって提供されるヒューマンコンピュータインタラクション方法は、一般的にサーバ105によって実行される。
【0034】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0035】
図2に示すように、本開示に係るヒューマンコンピュータインタラクション方法の一実施形態のフロー200を示しており、当該ヒューマンコンピュータインタラクション方法は次のステップを含む。
【0036】
ステップ201では、ユーザの少なくとも1種のモダリティの情報を受信する。
【0037】
この実施形態では、ヒューマンコンピュータインタラクション方法が実行される実行主体は、同じ期間中にユーザの異なる出所からの情報を受信してもよい。異なる出所からの情報は、異なるモダリティの情報であり、異なる出所からの情報がある場合には、少なくとも1種のモダリティの情報ともいう。具体的には、少なくとも1種のモダリティの情報は、画像データ、音声データ、テキストデータのうちの1種以上を含んでもよい。
【0038】
この実施形態では、ユーザの少なくとも1種のモダリティの情報は、ユーザによって送信された情報または/およびユーザに関連する情報である。例えば、画像データは、ユーザの顔、ユーザの身体、ユーザの髪を撮影した画像データ等であり、音声データは、ユーザが発した音声を録音した音声データであり、テキストデータは、ユーザが実行主体に入力した文字、記号、数字等のデータである。ユーザの少なくとも1種のモダリティの情報により、ユーザの意図を解析し、ユーザの質問および目的、並びにユーザが質問したり、情報入力を行ったりする際の気分状態などを特定することができる。
【0039】
実際には、異なるモダリティの情報は、異なるセンサによって採集された同じ事物の記述情報であってもよい。例えば、ビデオ検索の場合、異なるモダリティの情報は、同一期間に採集された同一ユーザの音声データおよび画像データを含み、音声データおよび画像データは同一時刻において互いに対応する。さらに、ユーザがユーザ端末を介して、同一期間の同一ユーザの画像データ、テキストデータ等を実行主体に送信する、タスク型対話コミュニケーションプロセスが挙げられる。
【0040】
この実施形態において、ヒューマンコンピュータインタラクション方法の実行主体(例えば、
図1に示すサーバ105)は、複数の方式によりユーザの少なくとも1種のモダリティの情報を受信してもよい。例えば、ユーザ端末(例えば、
図1に示す端末装置101、102、セルフサービス端末103)から、処理されるべきデータセットをリアルタイムに採集し、処理されるべきデータセットから少なくとも1種のモダリティの情報を抽出してもよい。あるいは、複数のモダリティの情報を含む処理されるべきデータセットをローカルメモリから取得し、処理されるべきデータセットから少なくとも1種のモダリティの情報を抽出してもよい。あるいは、上記の少なくとも1種のモダリティの情報は、端末によってリアルタイムに送信された情報であってもよい。
【0041】
ステップ202では、少なくとも1種のモダリティの情報に基づいてユーザの意図情報および意図情報に対応するユーザの気分特徴を認識する。
【0042】
この実施形態において、ユーザの意図情報は、ユーザの質問、目的、挨拶等の内容を表す情報である。実行主体は、ユーザの意図情報を取得した後、意図情報の内容の違いに応じて異なるフィードバックを行ってもよい。
【0043】
ユーザの気分特徴は、ユーザが異なるモダリティの情報を送ったり提示したりするときの個人の気分状態であり、具体的に、気分状態は、憤怒、悲しみ、喜び、怒り、嫌悪などを含む。
【0044】
更に、ユーザの異なるモダリティの情報に基づいてユーザの意図情報およびユーザの気分特徴を認識する異なる方法を有してもよい。
【0045】
本開示のいくつかのオプション的な実施形態において、少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含み、上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するステップは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、音声データからテキスト情報を取得するステップと、テキスト情報に基づいて、ユーザの意図情報を抽出するステップと、音声データおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するステップと、を含む。
【0046】
このオプション的な実施形態において、ユーザの少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含む場合、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、音声データに基づいてテキスト情報を取得するステップと、テキスト情報に基づいて、意図情報を抽出するステップと、音声データおよび表情特徴に基づいて、ユーザの気分特徴を取得するステップと、を含む。これにより、ユーザの顔表情(表情特徴)および音声(音声データ)の両方に含まれる気分特徴に基づいて、ユーザの気分を総合的に判断すれば、ユーザの気分特徴を解析する信頼性がある程度向上される。
【0047】
本開示のいくつかのオプション的な実施形態において、少なくとも1種のモダリティの情報は、ユーザの画像データおよびテキストデータを含み、上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報およびユーザの気分特徴を認識する方法は、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、テキストデータに基づいて、ユーザの意図情報を抽出するステップと、テキストデータおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するステップと、を含む。
【0048】
このオプション的な実施形態によって提供されるユーザの意図情報およびユーザの気分特徴を認識する方法において、ユーザのモダリティの情報に画像データおよびテキストデータが含まれる場合、画像データに基づいて、ユーザの表情特徴を認識し、テキストデータに基づいて、意図情報を抽出し、さらにテキストデータおよび表情特徴に基づいて、ユーザの気分特徴を取得する。このように、ユーザの顔表情(表情特徴)と言語(テキスト情報)の両方に含まれる気分に基づいて、ユーザの気分を総合的に判断することにより、聾唖者の意図情報と気分の抽出に確実な気分解析手法が提供される。
【0049】
オプションとして、少なくとも1種のモダリティの情報は、ユーザの画像データ、テキストデータおよび音声データを含む。上記少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報およびユーザの気分特徴を認識する方法は、ユーザの画像データに基づいて、ユーザの表情特徴を認識するステップと、テキストデータおよび音声データに基づいて、ユーザの意図情報を抽出するステップと、テキストデータ、表情特徴および音声データに基づいて、意図情報に対応するユーザの気分特徴を取得するステップと、を含む。
【0050】
このオプション的な実施形態において、少なくとも1種のモダリティの情報がユーザの画像データ、テキストデータおよび音声データの三者を共に含む場合、ユーザの顔表情(表情特徴)、声(音声データ)および言語(テキスト情報)の3つの側面に含まれる気分情報によって、ユーザの気分を総合的に判断することができ、ユーザの気分解析の信頼性が向上される。
【0051】
この実施形態におけるテキスト情報およびテキストデータは、いずれもテキストの異なる表現形態であり、テキスト情報とテキストデータの表現を用いることは、テキストの出所または処理方式を区別するために過ぎない。
【0052】
さらに、ユーザの言語、文字および表情がいずれもユーザの気分を反映できるので、ユーザの気分特徴を得ることができる。本実施形態のいくつかのオプション的な実施形態において、上記音声データおよび表情特徴に基づいて意図情報に対応するユーザの気分特徴を取得するステップは、音声データを訓練済みの音声気分認識モデルに入力し、音声気分認識モデルによって出力された音声気分特徴を取得するステップと、表情特徴を訓練済みの表情気分認識モデルに入力し、表情気分認識モデルによって出力された表情気分特徴を取得するステップと、音声気分特徴および表情気分特徴を加重合計して、意図情報に対応するユーザの気分特徴を得るステップと、を含む。
【0053】
このオプション的な実施形態において、訓練済みの表情気分認識モデル、音声気分認識モデルによって、それぞれ表情気分特徴および音声気分特徴を認識し、それによりユーザの少なくとも1種のモダリティの情報からユーザのリアルタイム的な気分状態を迅速に取得でき、感情の表現できるアニメキャラクタイメージを実現するために信頼できる堅牢な基盤が提供される。
【0054】
オプションとして、上記テキストデータ、表情特徴および音声データに基づいて、意図情報に対応するユーザの気分特徴を取得するステップはさらに、テキストデータを訓練済みのテキスト気分認識モデルに入力し、テキスト気分認識モデルによって出力されたテキスト気分特徴を取得するステップと、音声データを訓練済みの音声気分認識モデルに入力し、音声気分認識モデルによって出力された音声気分特徴を取得するステップと、表情特徴を訓練済みの表情気分認識モデルに入力し、表情気分認識モデルによって出力された表情気分特徴を取得するステップと、テキスト気分特徴、音声気分特徴および表情気分特徴を加重合計して、意図情報に対応するユーザの気分特徴を得るステップと、を含んでもよい。
【0055】
この実施形態において、上記音声気分認識モデルは、ユーザの音声データにおける気分特徴を認識して、ユーザの発話時の気分状態を判断するように構成され、上記表情気分認識モデルは、ユーザの表情特徴のうち気分に関する表情特徴を認識して、ユーザのある表情を表現する際の気分状態を判断するように構成され、上記テキスト気分認識モデルは、ユーザのテキストデータにおける気分特徴を認識して、ユーザが出力したテキストが表す気分状態を判断するように構成される。
【0056】
上記表情気分認識モデル、音声気分認識モデルおよびテキスト気分認識モデルは、同じユーザに関する大量のマークされたテキストデータ、表情特徴および音声データが与えられた上に訓練されたモデルであってもよく、結果として得られる音声気分特徴、表情気分特徴、およびテキスト気分特徴はいずれもユーザの気分状態(喜び、怒り、悲しみ、恐怖)を表すために使用される。なお、このオプション的な実施形態における音声気分認識モデルおよび表情気分認識モデルは、他の実施形態にも適用可能である。
【0057】
ステップ203では、意図情報に基づいてユーザへの回答情報を決定する。
【0058】
この実施形態において、ユーザへの回答情報は、ユーザの意図情報に対応する情報であり、回答情報も、アニメキャラクタイメージによるアナウンスを必要とする音声コンテンツである。例えば、ユーザの意図情報が「李四さんの身長はどのくらいですか」という質問である。回答情報は、「李四さんの身長は、1.8メートルである」という回答である。
【0059】
ユーザの意図情報を取得した後、実行主体は、知識ベースへのクエリ、知識グラフの検索など、様々な方法で回答情報を特定することができる。
【0060】
ステップ204では、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択する。
【0061】
この実施形態では、キャラクタの気分特徴は、アニメキャラクタイメージの気分状態を表し、キャラクタの気分状態は、ユーザの気分特徴が表現した気分状態と同じであってもよいし、ユーザの気分特徴が表現した気分状態とは異なっていてもよい。例えば、ユーザの気分特徴が怒りである場合には、キャラクタの気分特徴は落ち着かせることとして表現されてもよい。ユーザの気分特徴が喜びである場合には、キャラクタの気分特徴も同様に喜びであると表現されてもよい。
【0062】
ヒューマンコンピュータインタラクション方法が実行される実行主体は、ユーザの気分特徴を取得した後、ユーザの気分特徴に基づいて、予め設定された気分特徴のライブラリから1つ以上の気分特徴をキャラクタの気分特徴として選択することができる。当該キャラクタの気分特徴はアニメキャラクタイメージに応用され、アニメキャラクタイメージの気分特徴の表現が実現される。
【0063】
ステップ205では、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成する。
【0064】
本実施形態では、アニメキャラクタイメージによるアナウンスビデオは、仮想的なアニメキャラクタイメージがアナウンサとして情報をアナウンスするビデオであり、キャラクタの気分特徴と回答情報は、いずれもアニメキャラクタイメージにより表現すべき情報である。回答情報を生き生きと直感的に表現するために、回答情報を回答音声に変換してもよい。アナウンスする回答音声は、アニメキャラクタイメージによるアナウンスビデオにおけるアニメキャラクタイメージの仮想的な口開き動作によって表現される。キャラクタの気分特徴は、アニメキャラクタイメージの仮想的な表情変化によって表現される。
【0065】
アニメキャラクタイメージとユーザとのコミュニケーションにおいて、キャラクタの気分特徴に基づいて、アニメキャラクタイメージの音声合成した音声に、気分を落ち着かせるようなキャラクタの気分情報が含まれてもよい。同時に、キャラクタの気分特徴に対応する顔の表情を選択して、アニメキャラクタイメージの顔に表現してもよく、アニメキャラクタイメージの表情の豊かさが向上する。
【0066】
回答音声をより生き生きとさせるために、本実施形態のいくつかのオプション的な実施態様において、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するステップは、回答情報およびキャラクタの気分特徴に基づいて、回答音声を生成するステップと、回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、を含む。
【0067】
このオプション的な実施形態において、アニメキャラクタイメージのモデルは、3次元イメージのモデリングによって取得された3次元モデルであってもよい。ここで、3次元イメージのモデリングは、3次元イメージ製作ソフトウェアを用いて3次元空間を仮想的に構築して3次元データを有するモデルを作成するプロセスである。さらに、アニメキャラクタイメージの各部位をモデリング(例えば、顔輪郭のモデリング、口部の独立モデリング、髪の独立モデリング、身体の独立モデリング、骨格の独立モデリング、顔表情のモデリングなど)し、選択した各部位のモデルを組み合わせてアニメキャラクタイメージのモデルを取得してもよい。
【0068】
このオプション的な実施形態において、回答情報およびキャラクタの気分特徴に基づいて生成された回答音声に、予め解析されたキャラクタの気分要素が含まれるので、取得されたアニメキャラクタイメージによるアナウンスビデオにおける音声が感情に富み、ユーザがその気分につりこまれやすい。キャラクタの気分特徴に基づいて取得されたアニメキャラクタイメージによるアナウンスビデオにおけるアニメキャラクタイメージの動作が感情に富み、感情の感染力を有する。
【0069】
本実施形態のいくつかのオプション的な実施形態において、上記回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップは、回答音声およびキャラクタの気分特徴を訓練済みの口形駆動モデルに入力し、口形駆動モデルによって出力された口形データを取得するステップと、回答音声およびキャラクタの気分特徴を訓練済みの表情駆動モデルに入力し、表情駆動モデルによって出力された表情データを取得するステップと、口形データおよび表情データに基づいてアニメキャラクタイメージのモデルを駆動し、3次元モデルの動作シーケンスを取得するステップと、3次元モデルの動作シーケンスをレンダリングして、ビデオフレームのピクチャシーケンスを取得するステップと、ビデオフレームのピクチャシーケンスを合成して、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するステップと、を含む。ここで、口形駆動モデルおよび表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得る。
【0070】
このオプション的な実施形態において、口形駆動モデルは、アニメキャラクタイメージの唇の3次元空間における動作軌跡を認識するためのモデルであり、また、口形駆動モデルは、口形ライブラリと組み合わせて、アニメキャラクタイメージの異なる時刻における口形データを得ることもでき、口形データは、アニメキャラクタイメージの口形変化のデータでもある。
【0071】
このオプション的な実施形態において、表情駆動モデルは、アニメキャラクタイメージの顔の特徴点が3次元空間内で移動する軌跡を認識するためのモデルであり、表情駆動モデルはまた、表情ライブラリと組み合わせて、アニメキャラクタイメージの異なる時刻における表情データを得ることもでき、表情データは、アニメキャラクタイメージの表情変化のデータでもある。
【0072】
このオプション的な実施形態において、口形駆動モデルおよび表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得るため、得られたアニメキャラクタイメージの口形と音声をよりフィットさせ、違和感なく一致させ、アナウンスビデオ中のアニメキャラクタイメージをより生き生きとし、活気に満ちさせることができる。
【0073】
あるいは、音声動画合成(STA,Speech-to-Animation)モデルを用いて、キャラクタの気分に応じたアニメキャラクタイメージによるアナウンスビデオを直接実現してもよい。音声動画合成モデルは複数の異なるタイプのモデル(アバターモデル、音声合成モデルなど)を統一的に訓練して取得され得、人工知能とコンピュータグラフィックスを結合することで、音声に対応する発音口形をリアルタイムに計算することができ、且つアニメキャラクタイメージの顔の表情を微細に動作させ、アニメーションの音声と画像の同期的な表現を実現する。
【0074】
音声動画合成モデルの訓練に関わるデータは、主に、イメージデータ、音声データおよびテキストデータを含む。3種類のデータは、イメージ訓練のためのビデオデータにおける音声と、音声認識訓練のための音声データと、音声合成訓練のための音声データとが一致するというように、ある程度の交わりがある。音声認識訓練のための音声データに対応するテキストデータは、イメージ訓練のための音声データに対応するテキストデータと一致する。これらの整合性は、音声動画合成モデルの訓練中の精度を高めるためのものであり、これに加えて、人工的にマークされたデータ、すなわち、イメージの表情、気分の特徴も必要とする。
【0075】
音声動画合成モデルは、アバターモデルおよび音声合成モデルを含む。アバターモデルのモデリングには、キャラクタの基本的な顔および顔の輪郭、五官、身体などの基本的な静的モデルの他に、キャラクタの口形、表情、動作などの動的モデルがある。音声合成モデルは、最も基本的な音色モデルに加えて、キャラクタの気分特徴も組み込まれている。
【0076】
本開示の実施形態によって提供されるヒューマンコンピュータインタラクション方法は、まず、ユーザの少なくとも1種のモダリティの情報を受信する。次に、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識する。次に、意図情報に基づいて、ユーザへの回答情報を決定する。次に、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択する。最後に、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成する。これによって、ユーザの少なくとも1種のモダリティの情報を解析して、アニメキャラクタイメージの気分特徴を決定することで、異なる気分のユーザにその気分に応じた効果的なフィードバックが提供され、ヒューマンコンピュータインタラクションプロセス中の感情のコミュニケーションが確保される。
【0077】
本開示の他の実施形態では、少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含む。
図3に示すように、本開示に係るユーザの意図情報およびユーザの気分特徴を認識するための一実施形態のフロー300を示している。当該方法は次のステップを含む。
【0078】
ステップ301では、ユーザの画像データに基づいてユーザの表情特徴を認識する。
【0079】
この実施形態では、表情特徴の認識は、顔の器官特徴、テクスチャ領域、および予め定義された特徴点の位置特定および抽出を指す。表情特徴の認識は、顔表情認識における核心ステップであり、顔認識のキーでもあり、最終的な顔認識結果を決定し、認識率の高低に直接的に影響する。
【0080】
このオプション的な実施形態において、顔の表情は身体言語にも属し、顔の表情によりユーザの気分を反映することができ、各ユーザの気分特徴はいずれもその気分に対応する表情を有する。
【0081】
ユーザの画像データは、顔画像データを含み、顔画像データを解析することによって、ユーザの表情特徴が特定される。
【0082】
あるいは、ユーザの画像データは、ユーザの身体画像データを含んでもよい。身体画像データを解析することによって、ユーザの表情特徴をより明確にすることができる。
【0083】
ステップ302では、音声データからテキスト情報を取得する。
【0084】
本実施形態では、成熟した音声認識モデルにより、テキスト情報を得ることができる。例えば、音声をテキストに変換できるASR(Automatic Speech Recognition,音声認識)モデルを用いてもよい。音声データをASRモデルに入力することにより、ASRモデルから出力される文字を得ることができ、テキスト情報の認識が可能となる。
【0085】
ステップ303では、テキスト情報に基づいてユーザの意図情報を抽出する。
【0086】
このオプション的な実施形態において、テキスト情報は、ユーザの音声データをテキストに変換した情報である。成熟した意図認識モデルによって意図情報を取得し、例えば、NLU(Natural Language Understanding,自然言語理解)モデルを用いてテキスト情報に対して文検出、単語分割、品詞タグ付け、構文解析、テキスト分類/クラスタリング、情報抽出などの処理を行ってテキスト情報に対して意味解析を行い、ユーザの意図情報を特定する。
【0087】
ステップ304では、音声データ、テキスト情報および表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得する。
【0088】
このオプション的な実施形態において、ユーザの気分特徴を判断する時、ユーザの音声データ(話しぶり)およびユーザの表情特徴から、音声モデルによって認識されたテキスト情報を組み合わせて、協同してユーザの気分特徴を判断することができる。これは、ユーザの表情のみまたはユーザの声情報のみに基づいてユーザの表情を判断するよりも精度が高く、これにより、アニメキャラクタイメージに適用するためのより適切な回答情報およびキャラクタの気分特徴を選択し、アニメキャラクタイメージを通じてユーザとコミュニケーションすることが便利になる。
【0089】
本実施形態によって提供されるユーザの意図情報およびユーザの気分特徴を認識する方法において、ユーザのモダリティの情報に画像データおよび音声データが含まれる時、画像データに基づいて、ユーザの表情特徴を認識するステップと、音声データに基づいてテキスト情報を取得するステップと、テキスト情報に基づいて、意図情報を抽出するステップと、音声データ、テキスト情報および表情特徴に基づいて、ユーザの気分特徴を取得するステップと、を含む。これにより、ユーザの顔表情(表情特徴)、声(音声データ)および言語(テキスト情報)の3つの側面に含まれる気分に基づいて、ユーザの気分を総合的に判断し、ユーザの気分特徴を解析する信頼性を高めることができる。
【0090】
更に
図4を参照すると、上記の各図に示された方法の実施態様として、本開示は、ヒューマンコンピュータインタラクション装置の一実施形態を提供し、当該装置の実施形態は、
図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0091】
図4に示すように、本開示の実施形態に係るヒューマンコンピュータインタラクション装置400を提供し、当該装置400は、受信ユニット401と、認識ユニット402と、決定ユニット403と、選択ユニット404と、アナウンスユニット405とを備える。ここで、受信ユニット401は、ユーザの少なくとも1種のモダリティの情報を受信するように構成されてもよい。認識ユニット402は、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識するように構成されてもよい。決定ユニット403は、意図情報に基づいて、ユーザへの回答情報を決定するように構成されてもよい。選択ユニット404は、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択するように構成されてもよい。アナウンスユニット405は、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成されてもよい。
【0092】
この実施形態において、ヒューマンコンピュータインタラクション装置400において、受信ユニット401、認識ユニット402、決定ユニット403、選択ユニット404、アナウンスユニット405の具体的な処理およびそれらによって奏される技術的効果は、それぞれ
図2の対応する実施形態におけるステップ201、ステップ202、ステップ203、ステップ204およびステップ205の関連する説明を参照することができる。
【0093】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含む。上記認識ユニット402は、識別サブユニット(図示せず)、テキスト取得サブユニット(図示せず)、抽出サブユニット(図示せず)、特徴取得サブユニット(図示せず)を含む。ここで、認識サブユニットは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するように構成されてもよい。テキスト取得サブユニットは、音声データからテキスト情報を取得するように構成されてもよい。抽出サブユニットは、テキスト情報に基づいて、ユーザの意図情報を抽出するように構成されてもよい。特徴取得サブユニットは、音声データおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するように構成されてもよい。
【0094】
いくつかの実施形態において、上記認識ユニットのユーザの気分特徴は、さらにテキスト情報から取得される。
【0095】
いくつかの実施形態において、上記特徴取得サブユニットは、音声取得モジュール(図示せず)と、表情取得モジュール(図示せず)と、加算モジュール(図示せず)とを備える。ここで、音声取得モジュールは、音声データを訓練済みの音声気分認識モデルに入力し、音声気分認識モデルによって出力された音声気分特徴を取得するように構成されてもよい。表情取得モジュールは、表情特徴を訓練済みの表情気分認識モデルに入力し、表情気分認識モデルによって出力された表情気分特徴を取得するように構成されてもよい。加算モジュールは、音声気分特徴および表情気分特徴を加重合計して、意図情報に対応するユーザの気分特徴を取得するように構成されてもよい。
【0096】
いくつかの実施形態において、上記少なくとも1種のモダリティの情報は、ユーザの画像データおよびテキストデータを含み、上記認識ユニット402は、認識モジュール(図示せず)、抽出モジュール(図示せず)、特徴取得モジュール(図示せず)を備える。ここで、認識モジュールは、ユーザの画像データに基づいて、ユーザの表情特徴を認識するように構成されてもよい。抽出モジュールは、テキストデータに基づいて、ユーザの意図情報を抽出するように構成されてもよい。特徴取得モジュールは、テキストデータおよび表情特徴に基づいて、意図情報に対応するユーザの気分特徴を取得するように構成されてもよい。
【0097】
いくつかの実施形態では、上記アナウンスユニット405は、生成サブユニット(図示せず)と、ビデオ取得サブユニット(図示せず)とを備える。ここで、生成サブユニットは、応答情報および人物気分特徴に基づいて、応答音声を生成するように構成されてもよい。ビデオ取得サブユニットは、回答音声、キャラクタの気分特徴、および予め作成されたアニメキャラクタイメージのモデルに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するように構成されてもよい。
【0098】
いくつかの実施形態において、上記ビデオ取得サブユニットは、口形駆動モジュール(図示せず)と、表情駆動モジュール(図示せず)と、モデル駆動モジュール(図示せず)と、ピクチャ取得モジュール(図示せず)と、ビデオ取得モジュール(図示せず)とを備える。上記ビデオ取得サブユニットは、回答音声およびキャラクタの気分特徴を訓練済みの口形駆動モデルに入力し、口形駆動モデルによって出力された口形データを取得するように構成される口形駆動モジュールと、回答音声およびキャラクタの気分特徴を訓練済みの表情駆動モデルに入力し、表情駆動モデルによって出力された表情データを取得するように構成される表情駆動モジュールと、口形データおよび表情データに基づいてアニメキャラクタイメージのモデルを駆動し、3次元モデルの動作シーケンスを取得するように構成されるモデル駆動モジュールと、3次元モデルの動作シーケンスをレンダリングして、ビデオフレームのピクチャシーケンスを取得するように構成されるピクチャ取得モジュールと、ビデオフレームのピクチャシーケンスを合成して、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを取得するように構成されるビデオ取得モジュールと、を備える。ここで、口形駆動モデルおよび表情駆動モデルは、予めマークされた同一キャラクタの音声と、その音声から得られた音声気分情報とに基づいて訓練されて得る。
【0099】
本開示の実施形態によって提供されるヒューマンコンピュータインタラクション装置は、まず、受信ユニット401は、ユーザの少なくとも1種のモダリティの情報を受信する。次に、認識ユニット402は、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識する。次に、決定ユニット403は、意図情報に基づいて、ユーザへの回答情報を決定する。次に、選択ユニット404は、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択する。最後に、アナウンスユニット405は、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成する。これによって、ユーザの少なくとも1種のモダリティの情報を解析して、アニメキャラクタイメージのキャラクタの気分特徴を決定することで、異なる気分のユーザにその気分に応じた効果的なフィードバックが提供され、ヒューマンコンピュータインタラクションプロセス中の感情のコミュニケーションが確保される。
【0100】
更に
図5を参照すると、上記の各図に示された方法の実施態様として、本開示は、ヒューマンコンピュータインタラクションシステムの一実施形態を提供し、当該システムの実施形態は、
図2に示された方法の実施形態に対応している。
【0101】
図5に示すように、本開示の実施形態は、ヒューマンコンピュータインタラクションシステム500を提供し、当該システム500は、採集装置501と、表示装置502と、採集装置501および表示装置502にそれぞれ接続されたインタラクションプラットフォーム503とを備える。採集装置501は、ユーザの少なくとも1種のモダリティの情報を採集するように構成される。インタラクションプラットフォーム503は、ユーザの少なくとも1種のモダリティの情報を受信し、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識し、意図情報に基づいて、ユーザへの回答情報を決定し、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択し、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成するように構成される。表示装置502は、アナウンスビデオを受信して再生するように構成される。
【0102】
本実施形態において、採集装置は、ユーザの少なくとも1種のモダリティの情報を採集する装置であり、異なるモダリティの情報によって採集装置の種類が異なる。例示として、少なくとも1種のモダリティの情報は、ユーザの画像データおよび音声データを含み、それに応じて、採集装置はカメラおよびスピーカを含んでもよい。さらに、少なくとも1種のモダリティの情報は、ユーザのテキストデータを含み、採集装置は、キーボードおよびマウスなどの入力装置をさらに備えてもよい。
【0103】
本実施形態において、採集装置501、表示装置502およびインタラクションプラットフォーム503の三者は、別体に設置されてもよいし、一体化されて統合型装置(例えば、
図1のセルフサービス端末、端末装置)を形成してもよい。
【0104】
以下、本開示の実施形態を実現するために適用される電子機器600を示す構造概略図である
図6を参照する。
【0105】
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているプログラムまたは記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理装置(例えば、中央処理装置、グラフィックスプロセッサなど)601を含んでもよい。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータが更に格納されている。処理装置601、ROM602およびRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インターフェース605もバス604に接続されている。
【0106】
通常、例えば、タッチスクリーン、タッチパッド、キーボードおよびマウスなどを含む入力装置606と、液晶ディスプレイ(LCD,Liquid Crystal Display)、スピーカおよび振動子などを含む出力装置607と、例えば、磁気テープおよびハードディスクなどを含む記憶装置608と、通信装置609とがI/Oインターフェース605に接続されてもよい。通信装置609により、電子機器600は、データを交換するために他のデバイスと無線または有線で通信可能になる。
図6は、様々な装置を有する電子機器600を示しているが、図示された装置のすべてを実装または具備することが要求されないことを理解すべきである。オプション的に実行されるか、またはより多いまたはより少ない装置が実装されてもよい。
図6に示す各ブロックは、1つの装置を表すことも、必要に応じて複数の装置を表すこともできる。
【0107】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信装置609を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶装置608またはROM602からインストールされ得る。当該コンピュータプログラムが処理装置601によって実行されると、本開示の実施形態の方法で限定された上記機能を実行する
【0108】
なお、本開示の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示の実施形態において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示の実施形態において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読信号媒体は、指令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、RF(Radio Frequency,無線周波数)など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0109】
上記コンピュータ可読媒体は、上記サーバに含まれるものであってもよく、当該サーバに実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体には1つまたは複数のプログラムが格納されており、上記1つまたは複数のプログラムが当該プロセッサによって実行されると、ユーザの少なくとも1種のモダリティの情報を受信し、少なくとも1種のモダリティの情報に基づいて、ユーザの意図情報および意図情報に対応するユーザの気分特徴を認識し、意図情報に基づいて、ユーザへの回答情報を決定し、ユーザの気分特徴に基づいて、ユーザにフィードバックするキャラクタの気分特徴を選択し、キャラクタの気分特徴と回答情報とに基づいて、キャラクタの気分特徴に応じたアニメキャラクタイメージによるアナウンスビデオを生成することを当該サーバに実行させる。
【0110】
本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部コンピュータに接続することができる。
【0111】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係るシステム、方法およびコンピュータプログラムによって実現できるアーキテクチャ、機能および動作を図示している。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応答して、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【0112】
本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記載されたユニットは、プロセッサに設置されてもよく、例えば、「受信ユニットと、認識ユニットと、決定ユニットと、選択ユニットと、アナウンスユニットとを備えるプロセッサ」というように記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「ユーザの少なくとも1種のモダリティの情報を受信するように構成される」ユニットとして記載されてもよい。
【0113】
以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上述した技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上述した本開示の趣旨を逸脱しない範囲で、上述した技術的特徴またはそれらの均等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示の実施形態に開示された類似の機能を持っている技術的特徴(これらに限定されていない)と互いに置き換えてなる技術案が挙げられる。