特許7469467 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 上海商▲湯▼▲臨▼港智能科技有限公司の特許一覧

特許7469467デジタルヒューマンに基づく車室インタラクション方法、装置及び車両

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6A
6B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-08

(45)【発行日】2024-04-16

(54)【発明の名称】デジタルヒューマンに基づく車室インタラクション方法、装置及び車両

(51)【国際特許分類】

G06F 3/01 20060101AFI20240409BHJP

H04N 21/44 20110101ALI20240409BHJP

H04N 21/442 20110101ALI20240409BHJP

G06F 3/16 20060101ALI20240409BHJP

B60R 16/02 20060101ALI20240409BHJP

G10L 13/00 20060101ALI20240409BHJP

【ＦＩ】

G06F3/01 510

H04N21/44

H04N21/442

G06F3/16 690

B60R16/02 660Z

G10L13/00 100V

【請求項の数】 14

(21)【出願番号】P 2022525182

(86)(22)【出願日】2020-12-17

(65)【公表番号】

(43)【公表日】2023-01-04

(86)【国際出願番号】 CN2020137074

(87)【国際公開番号】W WO2021196751

(87)【国際公開日】2021-10-07

【審査請求日】2022-04-28

(31)【優先権主張番号】202010239259.7

(32)【優先日】2020-03-30

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】202010583637.3

(32)【優先日】2020-06-23

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】521098397

【氏名又は名称】上海臨港絶影智能科技有限公司

【氏名又は名称原語表記】ＳｈａｎｇｈａｉＬｉｎｇａｎｇＪｕｅｙｉｎｇＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】▲曾▼ 彬

(72)【発明者】

【氏名】周群▲艷▼

(72)【発明者】

【氏名】李 ▲軻▼

(72)【発明者】

【氏名】▲呉▼ ▲陽▼平

(72)【発明者】

【氏名】▲許▼ 亮

(72)【発明者】

【氏名】▲鄭▼ 世静

(72)【発明者】

【氏名】伍俊

(72)【発明者】

【氏名】王 ▲飛▼

(72)【発明者】

【氏名】▲銭▼ 晨

【審査官】赤坂祐樹

(56)【参考文献】

【文献】特開２００８－２９０７１４（ＪＰ，Ａ）

【文献】特開２０１８－２０５２１１（ＪＰ，Ａ）

【文献】中国特許出願公開第１１０５３１８６０（ＣＮ，Ａ）

【文献】特開２０１６－０５４７５３（ＪＰ，Ａ）

【文献】特開２０１９－１３９５８２（ＪＰ，Ａ）

【文献】特開２０１７－２０６２２７（ＪＰ，Ａ）

【文献】特開２０１０－２０２１８１（ＪＰ，Ａ）

【文献】特開２０１９－２１０６９３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１、３／０４８－３／０４８９５、３／１６

Ｈ０４Ｎ２１／４４－２１／４４２

Ｂ６０Ｒ１６／０２

(57)【特許請求の範囲】

【請求項1】

車室内に乗っている生体の状態情報を取得するステップであって、
前記車室内の目標画像中の各オブジェクトのオブジェクト情報を特定することであって、各オブジェクトについて、当該オブジェクトのオブジェクト情報は、当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含むことと、
各前記オブジェクトのオブジェクトタイプ情報に基づいて、前記生体と前記車室内の座席とを各前記オブジェクトから選別することと、
前記生体の中心点の位置情報と前記座席の中心点の位置情報とに基づいて、前記生体が前記座席にいるか否かを特定し、特定結果を前記状態情報とすることと、を含むステップと、
前記生体が前記座席にいないことを示す前記特定結果に応答して、前記状態情報にマッチングする動作情報を特定するステップと、
前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップであって、前記デジタルヒューマンが対応する動作を実行する動画は、前記座席にいない生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画であるステップと、を含み、
前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップは、
前記状態情報にマッチングする音声情報を特定することと、
前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得することと、
前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示することと、を含むことを特徴とするデジタルヒューマンに基づく車室インタラクション方法。

【請求項2】

前記動作は、複数のサブ動作を含み、各サブ動作は、前記音声における１つの音素にマッチングし、前記タイムスタンプは、各音素のタイムスタンプを含み、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示することは、
各音素のタイムスタンプに基づいて、前記各音素にマッチングするサブ動作の実行時間を特定することと、
前記動作情報に基づいて、前記デジタルヒューマンが各音素のタイムスタンプにおいて当該音素にマッチングするサブ動作を実行する動画を生成して表示することと、を含むことを特徴とする請求項１に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項3】

前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップは、
前記動作情報に対応する少なくとも１フレームのデジタルヒューマンの動作スライスを動作モデルライブラリから呼び出すことと、
前記少なくとも１フレームのデジタルヒューマンの動作スライスのうちの各フレームを前記表示機器に順次表示することと、を含むことを特徴とする請求項１から２の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項4】

前記車室内に乗っている生体の状態情報を取得するステップは、
前記車室内の監視映像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークの出力結果に基づいて前記生体の状態情報を特定することを含むことを特徴とする請求項１から３の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項5】

前記動作情報に基づいてデジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示する前に、前記生体の状態情報、又は所定のデジタルヒューマンのイメージテンプレートに基づいて前記デジタルヒューマンのイメージを生成するステップを更に含むことを特徴とする請求項１から４の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項6】

前記状態情報に基づいて車載機器の運転状態を制御するステップを更に含むことを特徴とする請求項１から５の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項7】

前記状態情報にマッチングする動作情報を特定するステップは、
車両の走行状態を取得することと、
前記車両の走行状態と前記状態情報とにそれぞれマッチングする動作情報を特定することと、を含むことを特徴とする請求項１から６の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項8】

前記目標画像中の当該オブジェクトの中心点の位置情報は、
前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第１特徴マップを取得することと、
前記第１特徴マップにおける各特徴点をオブジェクト中心点の応答値として前記第１特徴マップの第１所定チャンネルから取得することと、
前記第１特徴マップを複数のサブ領域に分割し、各サブ領域内における最大応答値と最大応答値に対応する特徴点とを特定することと、
最大応答値が所定閾値よりも大きい特徴点を当該オブジェクトの中心点とし、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて当該オブジェクトの中心点の位置情報を特定することと、によって特定されることを特徴とする請求項１に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項9】

前記目標画像中の当該オブジェクトの中心点に対応するオブジェクトタイプ情報は、
前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第２特徴マップを取得することと、
当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスを特定することと、
当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスに対応する位置から、当該オブジェクトの中心点に対応するオブジェクトタイプ情報を取得することと、によって特定されることを特徴とする請求項８に記載のデジタルヒューマンに基づく車室インタラクション方法。

【請求項10】

車室内に乗っている生体の状態情報を取得するように構成される取得モジュールであって、具体的に、
前記車室内の目標画像中の各オブジェクトのオブジェクト情報を特定し、各オブジェクトについて、当該オブジェクトのオブジェクト情報は、当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含み、
各前記オブジェクトのオブジェクトタイプ情報に基づいて、前記生体と前記車室内の座席とを各前記オブジェクトから選別し、
前記生体の中心点の位置情報と前記座席の中心点の位置情報とに基づいて、前記生体が前記座席にいるか否かを特定し、特定結果を前記状態情報とするように構成される取得モジュールと、
前記生体が前記座席にいないことを示す前記特定結果に応答して、前記状態情報にマッチングする動作情報を特定するように構成される特定モジュールと、
前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するように構成される表示モジュールであって、前記デジタルヒューマンが対応する動作を実行する動画は、前記座席にいない生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画である表示モジュールと、を備え、
前記表示モジュールは、前記状態情報にマッチングする音声情報を特定するように構成される第１特定手段と、前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得するように構成される第１取得手段と、前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示するように構成される第１表示手段と、を備えることを特徴とするデジタルヒューマンに基づく車室インタラクション装置。

【請求項11】

コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、当該プログラムがプロセッサによって実行されたときに、請求項１から９の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法は、実施されることを特徴とするコンピュータ可読記憶媒体。

【請求項12】

コンピュータ機器であって、
メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに請求項１から９の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法を実施することを特徴とするコンピュータ機器。

【請求項13】

車両であって、
前記車両の車室内には、表示機器と、モニタリングシステムと、請求項１０に記載のデジタルヒューマンに基づく車室インタラクション装置或いは請求項１２に記載のコンピュータ機器とが設置されていることを特徴とする車両。

【請求項14】

コンピュータ指令を含むコンピュータプログラムであって、前記コンピュータ指令がプロセッサによって実行されたときに、請求項１から９の何れか一項に記載のデジタルヒューマンに基づく車室インタラクション方法は、実施されることを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

＜関連出願の相互引用＞
本発明は、２０２０年３月３０日に中国専利局へ提出された出願番号がＣＮ２０２０１０２３９２５９．７であって発明名称が「子供状態検出方法及び装置、電子機器、記憶媒体」である中国特許出願と、２０２０年６月２３日に中国専利局へ提出された出願番号がＣＮ２０２０１０５８３６３７．３であって発明名称が「デジタルヒューマンに基づく車室インタラクション方法、装置及び車両」である中国特許出願との優先権を要求し、それらの全ての内容が引用によって本発明に組み込まれる。

【0002】

本発明は、コンピュータビジョン技術分野に関し、特にデジタルヒューマンに基づく車室インタラクション方法、装置及び車両に関する。

【背景技術】

【0003】

現在、多くの車両には、車上の生体とのインタラクションを行うためのモニタリング製品が実装されている。しかし、従来のモニタリング製品のインタラクション方式は、比較的に硬くて、人間性に欠けている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明は、デジタルヒューマンに基づく車室インタラクション方法、装置及び車両を提供する。

【課題を解決するための手段】

【0005】

本発明の実施例の第１態様は、デジタルヒューマンに基づく車室インタラクション方法を提供する。前記方法は、車室内に乗っている生体の状態情報を取得するステップと、前記状態情報にマッチングする動作情報を特定するステップと、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップと、を含む。

【0006】

幾つかの実施例では、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップは、前記状態情報にマッチングする音声情報を特定することと、前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得することと、前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示することと、を含む。

【0007】

幾つかの実施例では、前記動作は、複数のサブ動作を含み、各サブ動作は、前記音声における１つの音素にマッチングし、前記タイムスタンプは、各音素のタイムスタンプを含み、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示することは、各音素のタイムスタンプに基づいて、前記各音素にマッチングするサブ動作の実行時間を特定することと、前記動作情報に基づいて、前記デジタルヒューマンが各音素のタイムスタンプにおいて当該音素にマッチングするサブ動作を実行する動画を生成して表示することと、を含む。

【0008】

幾つかの実施例では、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップは、前記動作情報に対応する少なくとも１フレームのデジタルヒューマンの動作スライスを動作モデルライブラリから呼び出すことと、前記少なくとも１フレームのデジタルヒューマンの動作スライスのうちの各フレームのデジタルヒューマンの動作スライスを前記表示機器に順次表示することと、を含む。

【0009】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報を含み、前記車室内に乗っている生体の状態情報を取得するステップは、車室内の後部座席の監視映像を収集することと、前記監視映像に対して生体検出を行い、検出された生体に対して状態分析を行い、前記生体の第１状態情報を取得することと、を含む。

【0010】

幾つかの実施例では、前記監視映像は、前記車室内のバックミラーに取り付けられ且つレンズが車室の後部座席へ向かう映像収集装置によって取得される。

【0011】

幾つかの実施例では、前記第１状態情報は、前記生体の種別情報、身分情報、属性情報、情動情報、表情情報、肢体動作情報、座席着座情報及びシートベルト着用情報のうちの少なくとも１つを含み、及び／又は、前記生体は、運転手、副運転手、子供、老人、ペット及び後部座席乗車者のうちの少なくとも１つを含む。

【0012】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報及び第２状態情報を含み、前記第１状態情報は、車室内の監視映像を基に取得され、前記車室内の生体の状態情報を取得するステップは、前記生体の所持したスマート機器から送信された第２状態情報を取得することを更に含み、前記状態情報にマッチングする動作情報を特定するステップは、前記第１状態情報と前記第２状態情報とのどちらにもマッチングする動作情報を特定することを含む。

【0013】

幾つかの実施例では、前記第２状態情報は、健康状況情報と神経系状態情報とのうちの少なくとも何れか１つを含む。

【0014】

幾つかの実施例では、前記車室内に乗っている生体の状態情報を取得するステップは、前記車室内の監視映像を予めトレーニングされたニューラルネットワークに入力することと、前記ニューラルネットワークの出力結果に基づいて前記生体の状態情報を特定することと、を含む。

【0015】

幾つかの実施例では、前記方法は、前記動作情報に基づいてデジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示する前に、前記デジタルヒューマンのイメージを生成するステップを更に含む。

【0016】

幾つかの実施例では、前記デジタルヒューマンのイメージを生成するステップは、前記生体の状態情報に基づいて前記デジタルヒューマンのイメージを生成すること、又は、所定のデジタルヒューマンのイメージテンプレートに基づいて前記デジタルヒューマンのイメージを生成することを含む。

【0017】

幾つかの実施例では、前記生体の属性情報は、年齢、性別、五感、体型、服飾、髪型及び肌色のうちの少なくとも何れか１つを含む。

【0018】

幾つかの実施例では、前記方法は、前記状態情報に基づいて車載機器の運転状態を制御するステップを更に含む。

【0019】

幾つかの実施例では、前記状態情報にマッチングする動作情報を特定するステップは、車両の走行状態を取得することと、前記車両の走行状態と前記状態情報とにそれぞれマッチングする動作情報を特定することと、を含む。

【0020】

幾つかの実施例では、前記車室内に乗っている生体の状態情報を取得するステップは、前記車室内の目標画像に基づいて、前記車室内に乗っている生体を認識することと、前記生体の位置情報に基づいて、前記生体が前記車室内の座席にいるか否かを特定することと、を含む。

【0021】

幾つかの実施例では、前記車室内に乗っている生体の状態情報を取得するステップは、前記車室内の目標画像中の各オブジェクトのオブジェクト情報を特定することであって、各オブジェクトについて、当該オブジェクトのオブジェクト情報は、当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含むことと、各前記オブジェクトのオブジェクトタイプ情報に基づいて、前記生体と前記車室内の座席とを前記オブジェクトから選別することと、前記生体の中心点位置と前記座席の中心点位置とに基づいて、前記生体が前記座席にいるか否かを特定することと、を含む。

【0022】

幾つかの実施例では、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するステップは、前記座席にいない生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画を生成して前記車室内の表示機器に表示することを含む。

【0023】

幾つかの実施例では、前記方法は、前記生体が前記座席にいないと特定されたことに応じて、プロンプト情報を発信するステップを更に含む。

【0024】

幾つかの実施例では、前記目標画像中の当該オブジェクトの中心点の位置情報は、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第１特徴マップを取得することと、前記第１特徴マップにおける各特徴点をオブジェクト中心点の応答値として前記第１特徴マップの第１所定チャンネルから取得することと、前記第１特徴マップを複数のサブ領域に分割し、各サブ領域内における最大応答値と最大応答値に対応する特徴点とを特定することと、最大応答値が所定閾値よりも大きい特徴点を当該オブジェクトの中心点とし、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて当該オブジェクトの中心点の位置情報を特定することと、によって特定される。

【0025】

幾つかの実施例では、前記目標画像中の当該オブジェクトの中心点に対応するオブジェクトタイプ情報は、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第２特徴マップを取得することと、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスを特定することと、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスに対応する位置から、当該オブジェクトの中心点に対応するオブジェクトタイプ情報を取得することと、によって特定される。

【0026】

本発明の実施例の第２態様は、デジタルヒューマンに基づく車室インタラクション装置を提供する。前記装置は、車室内に乗っている生体の状態情報を取得するように構成される取得モジュールと、前記状態情報にマッチングする動作情報を特定するように構成される特定モジュールと、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するように構成される表示モジュールと、を備える。

【0027】

幾つかの実施例では、前記表示モジュールは、前記状態情報にマッチングする音声情報を特定するように構成される第１特定手段と、前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得するように構成される第１取得手段と、前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示するように構成される第１表示手段と、を備える。

【0028】

幾つかの実施例では、前記動作は、複数のサブ動作を含み、各サブ動作は、前記音声における１つの音素にマッチングし、前記タイムスタンプは、各音素のタイムスタンプを含み、前記第１表示手段は、各音素のタイムスタンプに基づいて、前記各音素にマッチングするサブ動作の実行時間を特定するように構成される特定サブ手段と、前記動作情報に基づいて、前記デジタルヒューマンが各音素のタイムスタンプにおいて前記各音素にマッチングするサブ動作を実行する動画を生成して表示するように構成される表示サブ手段と、を備える。

【0029】

幾つかの実施例では、前記表示モジュールは、前記動作情報に対応する少なくとも１フレームのデジタルヒューマンの動作スライスを動作モデルライブラリから呼び出すように構成される呼出手段と、前記少なくとも１フレームのデジタルヒューマンの動作スライスのうちの各フレームのデジタルヒューマンの動作スライスを前記表示機器に順次表示するように構成される第２表示手段と、を備える。

【0030】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報を含み、前記取得モジュールは、車室内の後部座席の監視映像を収集するように構成される収集手段と、前記監視映像に対して生体検出を行い、検出された生体に対して状態分析を行い、前記生体の第１状態情報を取得するように構成される検出分析手段と、を備える。

【0031】

【0032】

【0033】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報及び第２状態情報を含み、前記第１状態情報は、車室内の監視映像を基に取得され、前記取得モジュールは、更に、前記生体の所持したスマート機器から送信された第２状態情報を取得するように構成され、前記特定モジュールは、前記第１状態情報と前記第２状態情報とのどちらにもマッチングする動作情報を特定するように構成される。

【0034】

幾つかの実施例では、前記第２状態情報は、健康状況情報と神経系状態情報とのうちの少なくとも何れか１つを含む。

【0035】

幾つかの実施例では、前記取得モジュールは、前記車室内の監視映像を予めトレーニングされたニューラルネットワークに入力するように構成される入力手段と、前記ニューラルネットワークの出力結果に基づいて前記生体の状態情報を特定するように構成される第２特定手段と、を備える。

【0036】

幾つかの実施例では、前記装置は、前記動作情報に基づいてデジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示する前に、前記デジタルヒューマンのイメージを生成するように構成される生成モジュールを更に備える。

【0037】

幾つかの実施例では、前記生成モジュールは、前記生体の状態情報に基づいて前記デジタルヒューマンのイメージを生成し、又は、所定のデジタルヒューマンのイメージテンプレートに基づいて前記デジタルヒューマンのイメージを生成するように構成される。

【0038】

幾つかの実施例では、前記生体の属性情報は、年齢、性別、五感、体型、服飾、髪型及び肌色のうちの少なくとも何れか１つを含む。

【0039】

幾つかの実施例では、前記装置は、前記状態情報に基づいて車載機器の運転状態を制御するように構成される制御モジュールを更に備える。

【0040】

幾つかの実施例では、前記特定モジュールは、車両の走行状態を取得し、前記車両の走行状態と前記状態情報とにそれぞれマッチングする動作情報を特定するように構成される。

【0041】

幾つかの実施例では、前記取得モジュールは、更に、前記車室内の目標画像に基づいて、前記車室内に乗っている生体を認識し、前記生体の位置情報に基づいて、前記生体が前記車室内の座席にいるか否かを特定するように構成される。

【0042】

幾つかの実施例では、前記取得モジュールは、更に、前記車室内の目標画像中の各オブジェクトのオブジェクト情報を特定し、各オブジェクトについて、当該オブジェクトのオブジェクト情報は、当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含み、各前記オブジェクトのオブジェクトタイプ情報に基づいて、前記生体と前記車室内の座席とを前記オブジェクトから選別し、前記生体の中心点位置と前記座席の中心点位置とに基づいて、前記生体が前記座席にいるか否かを特定するように構成される。

【0043】

幾つかの実施例では、前記表示モジュールは、更に、前記座席にいない生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画を生成して前記車室内の表示機器に表示するように構成される。

【0044】

幾つかの実施例では、前記装置は、前記生体が前記座席にいないと特定されたことに応じて、プロンプト情報を発信するように構成されるプロンプトモジュールを更に備える。

【0045】

幾つかの実施例では、前記取得モジュールは、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第１特徴マップを取得することと、前記第１特徴マップにおける各特徴点をオブジェクト中心点の応答値として前記第１特徴マップの第１所定チャンネルから取得することと、前記第１特徴マップを複数のサブ領域に分割し、各サブ領域内における最大応答値と最大応答値に対応する特徴点とを特定することと、最大応答値が所定閾値よりも大きい特徴点を当該オブジェクトの中心点とし、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて当該オブジェクトの中心点の位置情報を特定することと、により、前記目標画像中の当該オブジェクトの中心点の位置情報を特定するように構成される。

【0046】

幾つかの実施例では、前記取得モジュールは、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第２特徴マップを取得することと、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスを特定することと、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスに対応する位置から、当該オブジェクトの中心点に対応するオブジェクトタイプ情報を取得することとにより、前記目標画像中の当該オブジェクトの中心点に対応するオブジェクトタイプ情報を特定するように構成される。

【0047】

本発明の実施例の第３態様は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、何れか１つの実施例に記載の方法は、実施される。

【0048】

本発明の実施例の第４態様は、コンピュータ機器を提供する。コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに何れか１つの実施例に記載の方法を実施する。

【0049】

本発明の実施例の第５態様は、車両を提供する。前記車両の車室内には、表示機器と、モニタリングシステムと、本発明の何れか１つの実施例に記載のデジタルヒューマンに基づく車室インタラクション装置或いは本発明の何れか１つの実施例に記載のコンピュータ機器とが設置されている。

【0050】

本発明の実施例の第６態様は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータ指令を含み、前記コンピュータ指令がプロセッサによって実行されたときに、本発明の何れか１つの実施例に記載の方法は、実施される。

【発明の効果】

【0051】

本発明の実施例では、車室内の生体の状態情報を取得し、前記状態情報にマッチングする動作情報を特定し、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示することにより、車室内生体の状態情報に応じて異なる動作のデジタルヒューマンを表示することができ、擬人化されたインタラクションが実現され、インタラクション過程がより自然になり、インタラクション中のフィードバック情報に対する生体の受容度が向上し、車両運転中における生体の安全性が向上する。

【0052】

上述した一般的な記述及び後文の詳細に対する記述が単に例示的や解釈的なものであり、本発明を制限するためのものではないことは、理解されるべきである。

【図面の簡単な説明】

【0053】

ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書の記載とともに本発明の解決手段を解釈するために用いられる。

【図1】本発明の実施例のデジタルヒューマンに基づく車室インタラクション方法のフローチャートである。

【図2A】本発明の実施例のデジタルヒューマンの模式図である。

【図2B】本発明の他の幾つかの実施例のデジタルヒューマンの模式図である。

【図3】本発明の実施例のデジタルヒューマンに基づく車室インタラクション方式の模式図である。

【図4】本発明の実施例のデジタルヒューマンに基づく車室インタラクション装置のブロック図である。

【図5】本発明の実施例のコンピュータ機器の構造模式図である。

【図6A】本発明の実施例の車両の模式図である。

【図6B】本発明の実施例の車両の模式図である。

【発明を実施するための形態】

【0054】

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

【0055】

本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「一種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び／又は」が、１つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。また、本文における用語「少なくとも１種」は、複数種のうちの何れか１種又は複数種のうちの少なくとも２種の任意の組み合わせを指す。

【0056】

理解すべきことは、本発明において第１、第２、第３等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第１情報が第２情報と呼称されてもよく、類似的に、第２情報が第１情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。

【0057】

当業者が本発明の実施例における技術案をより良好に理解でき、且つ本発明の実施例の上記目的、特徴およびメリットがより分かりやすくなるように、以下に図面を組み合わせて本発明の実施例における技術案をより詳細に説明する。

【0058】

自家用車の普及及びスマート車室の高速な発展につれ、走行中の安全性は、広く注目されている。安全性を向上させる方式の１つは、車室内にモニタリングシステムを設置して車室内の生体をモニタリングし、モニタリング結果に応じてインタラクション情報を出力する。このように、必要の場合に車室内の生体へタイムリーにリマインドすることは、容易になる。従来のインタラクション方式は、一般的に、車室内のオーディオ再生機器を介して音声プロンプト情報を出力し、又は、音声プロンプト情報を出力しながら車両の表示機器に文字プロンプト情報を出力する。しかし、このようなインタラクション方式は、機器とのインタラクションが硬いという感覚を人へ与えやすく、インタラクション情報に対する生体の受容度が低くなりやすく、車両運転中における生体の安全性が低下してしまう。

【0059】

そこで、本発明の実施例は、デジタルヒューマンに基づく車室インタラクション方法を提供する。図１に示すように、前記方法は、以下のステップを含んでもよい。

【0060】

ステップ１０１では、車室内に乗っている生体の状態情報を取得する。

【0061】

ステップ１０２では、前記状態情報にマッチングする動作情報を特定する。

【0062】

ステップ１０３では、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示する。

【0063】

ステップ１０１において、前記車両は、自家用車、スクールバス、バス等の各種タイプの車両であってもよい。記述の便宜上、以下では、自家用車を例として、本発明の実施例の技術案を記述する。前記生体は、運転手、副運転手、子供、老人、ペット、後部座席乗車者のうちの少なくとも１つを含んでもよいが、それらに限定されない。実際の需要に応じて、異なる生体とインタラクションを行うことにより、異なる場面のインタラクション需要を満たしてもよい。

【0064】

例えば、乗車中に、後部座席に乗っている生体（例えば、子供等の後部座席乗車者又はペット等）にセキュリティリスクがある程度存在する。例えば、子供がシートベルトを外す可能性があり、ペットが座席から離れる可能性もある。しかし、運転手は、走行中に運転に専念しなければならず、車室内の後部座席の状況を考慮することができない。後部座席の生体の乗車中における安全性が向上するように、車室内の後部座席に乗っている生体とのインタラクションをデジタルヒューマンによって行ってもよい。したがって、幾つかの実施例において、前記生体は、車室内の後部座席に座っている生体である。デジタルヒューマンによって後部座席に乗っている生体とのインタラクションを行うことにより、乗っている生体の、インタラクション中におけるフィードバック情報に対する受容度が向上し、乗っている生体の安全性が向上し、運転手が走行中において運転に専念することができ、あまり精力を入れなくても後部座席の状況を考慮に入れることができる。

【0065】

幾つかの実施例では、前記状態情報は、前記生体の第１状態情報を含んでもよく、例えば、前記生体の第１状態情報は、前記生体の種別情報、身分情報、属性情報、情動情報、表情情報、肢体動作情報、座席着座情報、シートベルト着用情報のうちの少なくとも１つを含む。

【0066】

前記種別情報は、前記生体の種別を示してもよく、前記種別は、人及び／又は動物を含んでもよい。前記身分情報は、各生体を一意に認識するための前記生体の識別子情報を含んでもよい。前記属性情報は、前記生体の特徴属性を示してもよく、年齢、性別、五感、体型、服飾、髪型及び肌色のうちの少なくとも１つを含んでもよいが、それらに限定されない。前記情動情報は、前記生体の情動種別を示すために用いられ、前記情動種別は、喜び、悲しみ、怒り、恥ずかしさ、驚き、興奮、恐怖、憤怒、落ち着き等のうちの少なくとも１つの種別を含んでもよいが、それらに限定されない。前記表情情報は、前記生体のフェイス表情を表すために用いられ、前記フェイス表情は、微笑み、口とがらし、泣き、目細め、おどけた顔等のうちの少なくとも１種を含んでもよいが、それらに限定されない。前記肢体動作情報は、前記生体で実行される動作、例えば、拍手、足踏み、ドア開け、頭や手をウィンドウの外に突き出す等のうちの少なくとも１種を表すために用いられる。前記座席着座情報は、前記生体が座席（例えば、チャイルドシート）から離れているか否かを示すために用いられる。前記シートベルト着用情報は、前記生体がシートベルトを締めているか否かを示すために用いられる。

【0067】

更に、前記生体の状態情報は、前記生体の第２状態情報を更に含んでもよく、例えば、前記生体の第２状態情報は、健康状況情報と神経系状態情報とのうちの少なくとも１つを含む。前記健康状況情報は、前記生体の健康状況を表すために用いられ、例えば、心拍数、血圧、コレステロール、血糖等のうちの少なくとも１つを含んでもよいが、それらに限定されない。前記神経系状態情報は、前記生体の神経系の興奮度、例えば、前記生体が眠気を感じたり寝たりしたかを表すために用いられる。第１状態情報及び第２状態情報の両方を取得した場合に、前記動作情報は、前記第１状態情報及び前記第２状態情報のどちらにもマッチングする動作情報である。

【0068】

異なる状態情報を取得することにより、前記生体の異なる態様の状態を特定することができる。取得された状態情報の種別が多いほど、特定される前記生体の状態は、全面的に且つ正確になり、デジタルヒューマンで実行される動作は、前記生体の状態に合致し、更にデジタルヒューマンの擬人化レベルを向上させることができる。

【0069】

前記生体の状態情報は、各種の方式で取得されてもよく、例えば、車室内の監視映像に基づいて取得されてもよく、又は、車室内のオーディオモニタリング結果に基づいて取得されてもよく、又は、前記生体の所持したスマート機器から取得されてもよい。複数種の手段を組み合わせた方式で前記生体の状態情報を取得してもよい。異なる方式で状態情報を取得することにより、取得される状態情報の全面性及び柔軟性を高めることができる。異なる応用場面に応じて、異なる状態情報取得方式を選択してもよい。このように、対応性のあるように、異なる応用場面へ異なる種類の状態情報を取得する。例えば、暗いシーンでは、車室内の監視映像とオーディオモニタリング結果とに基づいて前記生体の状態情報を共同して取得可能であり、状態情報の取得正確性を向上させる。

【0070】

幾つかの実施例では、前記車室内にモニタリングシステムが実装されてもよい。実際の応用場面の需要に応じて、前記モニタリングシステムは、車室内の任意領域における生体をモニタリングしてもよい。例えば、前記モニタリングシステムは、運転座にいる運転手をモニタリングしてもよく、更に例えば、前記モニタリングシステムは、副運転座にいる副運転手をモニタリングしてもよく、より更に例えば、前記モニタリングシステムは、車室内の後部座席の生体をモニタリングしてもよい。又は、前記モニタリングシステムは、車室内の複数の領域（例えば、副運転座及び後部座席）における生体をモニタリングしてもよい。

【0071】

前記モニタリングシステムは、ビジョンモニタリングシステムとオーディオモニタリングシステムとのうちの少なくとも１つを含んでもよい。前記ビジョンモニタリングシステムは、前記生体のビジョンモニタリング結果（例えば、監視映像又はモニタリング画像）を取得する。幾つかの実施例では、前記車室内のバックミラーに取り付けられ且つレンズが車室の後部座席へ向かう映像収集装置により、監視映像を取得してもよい。映像収集装置を車室内のバックミラーに取り付けて、映像収集装置の視野を広くし、車室内の物体によって遮蔽されにくくなることにより、車室の後部座席の比較的に完全な監視映像を収集することができる。前記オーディオモニタリングシステムは、前記生体のオーディオモニタリング結果を取得し、前記オーディオモニタリング結果は、前記生体の発した音声、及び／又は、前記生体が動作（例えば、ドア開け、シートベルト締め、ウィンドウ叩き等の少なくとも１種の動作）を実行したときに発した声音等を含んでもよい。前記モニタリング結果に基づいて前記生体の第１状態情報を特定してもよい。

【0072】

車室内の監視映像に基づいて前記生体の状態情報を取得する場合に、前記監視映像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークの出力結果に基づいて前記生体の状態情報を特定してもよい。幾つかの実施例では、ニューラルネットワークと他のアルゴリズム（例えば、顔部識別アルゴリズム及び／又は骨格キーポイント検出アルゴリズム等）とを組み合わせた方式によって前記生体の状態情報を特定してもよい。幾つかの実施例では、他の方式で前記生体の状態情報を特定してもよく、ここで繰り返し説明しない。ニューラルネットワークを介して生体の状態情報を取得すると、前記状態情報の取得正確性を向上させることができる。

【0073】

前記ニューラルネットワークは、入力層、少なくとも１つの中間層及び出力層を含んでもよく、前記入力層、少なくとも１つの中間層及び出力層は、何れも１つ又は複数のニューロンを含む。前記中間層は、通常、入力層と出力層との間に位置する層、例えば、隠れ層等を指す。幾つかの例において、前記ニューラルネットワークの中間層は、畳み込み層、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔｓ、正規化線形ユニット）層等のうちの少なくとも１つを含んでもよいが、それらに限定されない。前記ニューラルネットワークに含まれる中間層の層数が多いほど、ネットワークは、深くなる。前記ニューラルネットワークは、具体的に深層ニューラルネットワーク又は畳み込みニューラルネットワークであってもよい。

【0074】

又は、車室内の後部座席の監視映像を収集し、前記監視映像に対して生体検出を行い、検出された生体に対して状態分析を行い、前記生体の第１状態情報を取得してもよい。監視映像に基づくと比較的に全面的な状態情報を取得できる一方、監視映像に含まれる複数フレームの目標画像に時間的相関が存在するため、このような時間的相関を利用して状態情報の取得正確性を向上させることができる。例えば、前記生体の監視映像を取得し、前記監視映像に対して顔部認識を行い、顔部認識結果に基づいて前記生体の身分情報を特定してもよい。

【0075】

更に例えば、監視映像に基づいて前記生体の情動情報を認識してもよい。詳細に言えば、少なくとも１フレームの前記生体を含む目標画像を前記監視映像から取得し、前記目標画像から前記生体の顔部サブ画像を切り出してもよい。前記顔部サブ画像で表される顔部上の少なくとも２つの器官のうちの各器官の動作、例えば、眉をひそめること、目をつり上げること、口角を上げることを認識する。認識された前記各器官の動作に基づいて、前記顔部サブ画像で表される顔部での情動情報を特定する。前記各器官の動作を認識する前に、顔部サブ画像に対して画像前処理を行ってもよい。詳細に言えば、顔部サブ画像中のキーポイント（例えば、目尻、口角、眉頭、眉尻、鼻等）の位置情報を特定し、キーポイントの位置情報に基づいて、顔部サブ画像に対してアフィン変換を行い、顔部サブ画像のうち、異なる向きの顔部サブ画像を正面向きの顔部サブ画像に変換し、正面向きの顔部サブ画像に対して正規化処理を行い、処理後の顔部サブ画像を取得してもよい。

【0076】

より更に例えば、前記目標画像から生体の顔部サブ画像を切り出してもよい。前記顔部サブ画像に基づいて、生体の左目開閉状態情報及び右目開閉状態情報を特定する。具体的に実施するときに、顔部サブ画像をトレーニングされたニューラルネットワークに入力し、当該ニューラルネットワークの出力結果に基づいて生体の左目開閉状態情報及び右目開閉状態情報を特定する。その後、生体の左目開閉状態情報及び右目開閉状態情報に基づいて、生体が眠気を感じたり寝たりしたかを特定する。具体的に、連続する複数フレームの前記生体の目標画像に対応する左目開閉状態情報及び右目開閉状態情報に基づいて、前記生体の累積閉眼時間を特定し、前記累積閉眼時間が所定閾値よりも大きいときに、前記生体が寝たと特定し、前記累積閉眼時間が所定閾値以下であるときに、前記生体が寝ていないと特定してもよい。

【0077】

車室内のオーディオモニタリング結果に基づいて前記生体の状態情報を取得する場合に、前記生体から発された音声を取得し、前記音声に対して音声認識を行い、音声認識結果に基づいて前記生体の身分情報及び／又は情動情報を特定してもよい。

【0078】

前記生体の所持したスマート機器から前記生体の状態情報を取得した場合に、予め関連付けられたスマート機器から収集された第２状態情報を受信してもよい。前記スマート機器は、ウェアラブル機器、例えば、スマートブレスレット、スマートメガネ等であってもよく、ハンドヘルド端末、例えば、携帯電話、タブレットＰＣ等であってもよい。

【0079】

ステップ１０２では、前記状態情報にマッチングする動作情報を特定してもよい。幾つかの実施例では、各種の動作情報と前記状態情報との合致度を特定し、合致度の最も高い動作情報を前記状態情報にマッチングする動作情報として特定してもよい。前記状態情報に複数種の情報が含まれる場合に、同一動作情報と前記状態情報における各種の情報との合致度をそれぞれ特定してから、各種の情報に対応する合致度に基づいて、前記動作情報と前記状態情報との合致度を特定してもよい。例えば、各種の情報に対応する合致度に対して加重平均を行う。他の幾つかの実施例では、異なる状態情報と、マッチングする動作情報との間のマッピング関係を予め確立し、前記マッピング関係に基づいて前記マッチングする動作情報を特定してもよい。

【0080】

ステップ１０３では、マッチングする動作情報が特定された後、前記マッチングする動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器（例えば、セントラルコントロールスクリーン又は座席の背中の表示機器）に表示してもよい。前記デジタルヒューマンは、ソフトウェアにて生成され得るとともに、車室内の表示機器に表示され得る仮想イメージである。ソフトウェア方式で生成されたデジタルヒューマンを表示する方式は、コストが低く、デジタルヒューマンの反応速度が速く、後期メンテナンスのコストが低く、且つ更新及びアップデートが便利になる。

【0081】

図２Ａと２Ｂに示すように、前記デジタルヒューマンのイメージは、カートゥーンイメージであってもよく、前記生体の真実イメージに基づいて生成された３Ｄイメージであってもよく、他のタイプのイメージであってもよい。幾つかの実施例では、前記デジタルヒューマンのイメージは、固定イメージであってもよい。即ち、毎回表示機器に表示されるデジタルヒューマンのイメージは、同じである。前記デジタルヒューマンのイメージは、例えば、男の子のイメージ、又はカートゥーンキャラクタ（例えば、ドラえもん）のイメージ等であってもよい。他の幾つかの実施例では、前記デジタルヒューマンのイメージは、実際の状況に応じて動的に生成されてもよい。即ち、異なる場合に、前記表示機器に表示されるデジタルヒューマンのイメージは、異なってくる可能性がある。

【0082】

生体の状態情報（例えば、身分情報、情動情報、属性情報のうちの少なくとも１つ）に基づいて、異なるデジタルヒューマンイメージを表示してもよい。例えば、張三へ張三に対応する第１デジタルヒューマンイメージを表示し、李四へ李四に対応する第２デジタルヒューマンイメージを表示してもよい。更に例えば、前記生体の情動が喜びである場合に、微笑み表情を浮かべ及び／又は鮮やかな衣装を着たデジタルヒューマンイメージを表示する。より更に例えば、前記生体が子供である場合に、子供デジタルヒューマンイメージを表示し、前記生体が大人である場合に、大人デジタルヒューマンイメージを表示する。より更に例えば、前記生体が長い髪である場合に、長い髪のデジタルヒューマンイメージを表示し、前記生体が短い髪である場合に、短い髪のデジタルヒューマンイメージを表示する。

【0083】

実際の応用では、所定のデジタルヒューマンのイメージテンプレートに基づいて前記デジタルヒューマンのイメージを生成してもよい。前記イメージテンプレートは、ユーザによって予め生成されてもよく、サーバから受信されてもよい。例えば、生体が車に上がったときに、車上のカメラを介して生体の画像を撮影したり、ユーザ端末から送信された生体の画像を受信したりして、前記生体の画像に基づいて前記生体のイメージテンプレートを生成してもよい。詳細に言えば、前記生体の画像に対して属性検出を行って前記生体の属性を取得し、前記生体の属性に基づいて前記生体に対応するデジタルヒューマンを生成してもよい。既に生成されたイメージテンプレートに対して再生成（例えば、新たなイメージテンプレートで既存のイメージテンプレートを置換する）又は一部編集（例えば、イメージテンプレートの髪型を変更する）を行ってもよい。イメージテンプレートの生成時に、当該イメージテンプレートのカートゥーン化度合いをカスタマイズしてもよい。

【0084】

デジタルヒューマンの動画を表示するときに、実際の状況に応じて、対応するテンプレートを呼び出して前記デジタルヒューマンのイメージを生成してもよい。前記テンプレートは、大人のイメージテンプレート、子供のイメージテンプレート又はペットのイメージテンプレート等であってもよい。生体が大人である場合に、大人のイメージテンプレートを呼び出してもよく、生体が子供である場合に、子供のイメージテンプレートを呼び出してもよい。更に、生体乗車時の状態情報がテンプレートに一致しない可能性があるため、対応するテンプレートを呼び出した後、前記生体の状態情報に基づいて前記デジタルヒューマンテンプレートの属性情報を調整することにより、表示された動画における前記デジタルヒューマンのイメージが前記生体の状態情報に一致するようにしてもよい。例えば、生体の情動に応じてデジタルヒューマンテンプレートの表情及び服飾を調整する。更に、前記生体の状態情報に基づいて、前記表示機器に前記デジタルヒューマンが表示されるときの表示インターフェースを調整してもよい。例えば、前記生体の情動が喜びである場合に、表示インターフェースの背景色を明るい色に設定し、及び／又は、表示インターフェースに花を散らす効果を表示する。

【0085】

上記方式で異なるデジタルヒューマンイメージを生成して表示することにより、デジタルヒューマンのイメージをある程度生体に合致させることができるため、生体は、インタラクション中に親切と暖かさの感覚を体験し、デジタルヒューマンとのインタラクション中におけるフィードバック情報に対する生体の受容度は、向上する。

【0086】

デジタルヒューマンが対応する動作を実行する動画を前記車室内の表示機器に表示するに加えて、インタラクション効果が更に向上するように、前記状態情報にマッチングする音声情報を特定し、前記動画を表示すると同時に、前記音声情報に基づいて対応する音声を同期に再生してもよい。例えば、前記マッチングする動作情報がシートベルトを外す動作に対応する動作情報である場合に、デジタルヒューマンが対応する動作を実行する動画を前記表示機器に表示すると同時に、音声「お子ちゃん、走行中にシートベルトを外すと危ないよ」を再生してもよい。実際の応用では、前記状態情報にマッチングする音声情報をニューラルネットワークを介して特定してもよく、又は、異なる状態情報と音声情報との間のマッピング関係を予め確立し、前記マッピング関係に基づいて前記マッチングする音声情報を特定してもよい。更に、前記音声を再生しながら、前記音声に対応する字幕情報を前記表示インターフェースに表示してもよい。

【0087】

再生される音声と表示させる動画とが同期するとは、再生される音声内容が動画におけるデジタルヒューマンの実行する動作にマッチングすることを指す、ここでの動作は、肢体動作、口型動作、眼部動作等のうちの少なくとも１つを含んでもよい。例えば、動画においてデジタルヒューマンが手を振る動作を実行し、且つ口型動作が「二ィハォ」に対応する動作である場合に、音声内容「二ィハォ」を再生する。詳細に言えば、前記状態情報にマッチングする音声情報を特定し、前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得し、前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示してもよい。上記方式により、再生される音声を動画におけるデジタルヒューマンの動作と同期に再生させるため、デジタルヒューマンの擬人化レベルが更に向上し、デジタルヒューマンと生体とのインタラクションがより自然になる。

【0088】

前記音声は、音声データベースから引き出されてもよい。引き出された音声には、前記動画におけるデジタルヒューマンが対応する動作を実行する時間が前記音声に同期するための、当該音声のタイムスタンプが付加されている。音声の引き出し時に、前記生体の状態情報（例えば、属性情報、情動情報のうちの少なくとも１つ）を取得し、前記生体の状態情報を音声データベースへ送信することで、前記音声データベースから対応する音声を引き出してもよい。例えば、生体が子供である場合に、子供の音色に合致する音声を引き出す。

【0089】

１セグメントの音声は、よく複数の音素を含み、音素は、音声の自然な属性に応じて区分された最小音声単位である。音節での発音動作に基づいて分析すると、１つの発音動作は、１つの音素を構成する。例えば、「二ィハォ」は、「二ィ」と「ハォ」の２つの音素を含む。音声に複数の音素が含まれる場合に、前記タイムスタンプは、各音素のタイムスタンプを含んでもよい。１つの動作は、一般的に複数のサブ動作を含み、例えば、手を振る動作は、アームが左へ振るサブ動作とアームが右へ振るサブ動作とを含んでもよい。表示されるデジタルヒューマンがより生き生きするように、各サブ動作を音声における１つの音素にそれぞれマッチングさせてもよい。詳細に言えば、各音素のタイムスタンプに基づいて、前記各音素にマッチングするサブ動作の実行時間を特定し、前記動作情報に基づいて、前記デジタルヒューマンが各音素のタイムスタンプにおいて当該音素にマッチングするサブ動作を実行する動画を生成して表示してもよい。例えば、音素「二ィ」を再生すると同時に、「二ィ」にマッチングする口型動作を表示するとともに、デジタルヒューマンのアームが左へ振る手を振る動作を表示する。音素「ハォ」を再生すると同時に、「ハォ」にマッチングする口型動作を表示するとともに、デジタルヒューマンのアームが右へ振る手を振る動作を表示する。各音素をデジタルヒューマンの動作と同期させることにより、同期過程の正確度が向上し、デジタルヒューマンの動作と音声再生がよりリアルになり、デジタルヒューマンの擬人化レベルが更に向上する。

【0090】

上記前記動作情報に対応する動作は、動作モデルライブラリから呼び出されてもよい。詳細に言えば、前記動作情報に対応する少なくとも１フレームのデジタルヒューマンの動作スライスを動作モデルライブラリから呼び出し、前記少なくとも１フレームのデジタルヒューマンの動作スライスのうちの各フレームのデジタルヒューマンの動作スライスを前記表示機器に順次表示してもよい。異なる動作スライスに対応するデジタルヒューマンの肢体動作、顔部表情動作、口型動作、眼部動作等のうちの少なくとも１つが異なり、対応する動作スライスを呼び出して順次表示することにより、デジタルヒューマンが前記対応する動作を実行する動画を表示機器に表示することができる。上記方式により、対応するスライスを呼び出す方式だけで、デジタルヒューマンの動画を表示することができ、表示効率が高く、コストが低くなる。

【0091】

より多くの音声素材及び動作素材を対応的に前記音声データベース及び動作モデルライブラリに追加するために、上記音声データベース及び動作モデルライブラリは、何れも更新され得る。前記音声データベースと動作モデルライブラリとの更新方式が類似する。ここで、音声データベースのみを例としてデータベースの更新方式を説明する。動作モデルライブラリの更新方式は、音声データベースを参照すればよく、ここで繰り返し説明しない。音声データベースの更新時に、サーバから更新パッケージをダウンロードし、前記更新パッケージにおけるデータを解析し、前記更新パッケージにおけるデータを前記音声データベースに追加し、又は、前記更新パッケージにおけるデータで前記音声データベースにおける既存データを上書きしてもよい。

【0092】

一実施例では、一定の時間間隔ごとに前記音声データベースを更新してもよい。別の実施例では、サーバからプッシュされた更新プロンプト情報を受信し、前記更新プロンプト情報に応じて前記音声データベースを更新してもよい。更に別の実施例では、前記生体から送信された更新指令を受信し、前記更新指令に応じてサーバへ更新要求を送信し、サーバによって前記更新要求に応じて返信された更新パッケージを受信し、その後前記更新パッケージに基づいて音声データベースを更新してもよい。他の方式で前記音声データベースを更新してもよいが、ここで繰り返し説明しない。

【0093】

幾つかの実施例では、車両の走行状態を取得し、前記車両の走行状態と前記状態情報とにそれぞれマッチングする動作情報を特定してもよい。例えば、車両が走行中である場合に、生体の肢体動作がシートベルト外しであると検出されると、前記マッチングする動作情報が前記生体に対してシートベルトを外さないよう注意する動作に対応する動作情報を含むと特定する。車両が停車してエンジンをストップした場合に生体の肢体動作がシートベルト外しであると検出されると、前記マッチングする動作情報が手を振って別れの挨拶をするという動作に対応する動作情報を含むと特定する。このような方式により、マッチングする動作情報をより正確に特定し、誤判定の確率を低減することができる。

【0094】

幾つかの実施例では、前記状態情報に基づいて車載機器の運転状態を制御してもよい。前記車載機器は、車室内の照明設備、エアコン、ウィンドウ、オーディオ再生機器及び座席のうちの少なくとも１つを含む。例えば、前記生体が眠気を感じたり、寝たりした場合に、座席を平らにして、前記生体にできるだけ座席に横にするようにしてもよい。更に例えば、前記生体が蒸し暑さを感じた場合に、ウィンドウを開けたりエアコンをつけたりしてもよい。このように、前記車室内の車室環境を調整して、より快適で安全な乗車環境を生体へ提供することができる。

【0095】

実際の応用では、本発明の実施例により、生体が車室内の座席に入ったり、座席から離れたり、ドアを開けたり閉めたり、シートベルトを締めたり外したりするなどの行為を検出可能であり、生体の状態情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を表示し、上記行為について前記生体とそれぞれ対話することができる。

【0096】

生体が車室内の座席に入ったり、座席から離れたりすることを検出することを例とすると、幾つかの実施例において、車室内に乗っている生体の状態情報を取得することは、車室内の目標画像を取得し、前記目標画像中の生体を認識し、前記生体の位置情報に基づいて、前記生体が車室内の座席にいるか否かを特定することを含んでもよい。前記目標画像は、車室内の監視映像に基づいて取得されてもよい。詳細に言えば、前記目標画像中の各オブジェクトのオブジェクト情報（当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含む）を特定し、前記オブジェクトタイプ情報に基づいて目標画像中の各オブジェクトから生体及び座席を選別し、生体の中心点の位置と座席の中心点位置とに基づいて、生体が座席にいるか否かを特定してもよい。前記生体が前記座席にいないと特定されたことに応じて、プロンプト情報を発信する。目標画像中のオブジェクトは、人顔、人体、後部座席、安全シート等を含んでもよい。例えば、車両が走行中である場合に、生体が座席にいないと検出される、生体がシートベルトを締めていないと特定可能であり、当該生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画をセントラルコントロールスクリーンに表示すると同時に、音声「お子ちゃん、早く座席に座って私と一緒にシートベルトを締めてください」を再生してもよい。動画におけるデジタルヒューマンの口型及び肢体動作は、再生された音声にマッチングする。

【0097】

幾つかの実施例では、以下のステップ６０１－６０４を用いて目標画像中の各オブジェクトの中心点の位置情報を特定してもよい。

【0098】

ステップ６０１では、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第１特徴マップを取得する。幾つかの実施例では、まず、目標画像を第１ニューラルネットワークに入力して画像特徴抽出を行わせて１つの初期特徴マップを取得する。その後、当該初期特徴マップをオブジェクト情報抽出を行うための第２ニューラルネットワークに入力し、上記第１特徴マップを取得する。上記目標画像は、サイズが６４０*４８０画素である画像であり、第１ニューラルネットワークの処理を経ると、８０*６０*Ｃの初期特徴マップは、取得することができる。Ｃは、チャンネル数を示す。初期特徴マップがオブジェクト情報抽出を行うための第２ニューラルネットワークによって処理された後、８０*６０*３の第１特徴マップは、取得され得る。

【0099】

ステップ６０２では、前記第１特徴マップにおける各特徴点をオブジェクト中心点の応答値として前記第１特徴マップの第１所定チャンネルから取得する。第１所定チャンネルは、第１特徴マップにおける第０チャンネルであってもよく、当該チャンネルは、オブジェクト中心点のチャンネルであり、当該チャンネル中の応答値は、第１特徴マップにおける各特徴点がオブジェクトの中心点である可能性を示してもよい。第１所定チャンネルにおける各特徴点に対応する応答値が取得された後、ｓｉｇｍｏｉｄを利用してこれらの応答値を０と１の間に転換してもよい。

【0100】

ステップ６０３では、前記第１特徴マップを複数のサブ領域に分割し、各サブ領域内における最大応答値と最大応答値に対応する特徴点とを特定する。幾つかの実施例では、第１特徴マップに対して、３×３のステップ長が１である最大プーリングｍａｘｐｏｏｌｉｎｇ操作を行い、３×３内の最大応答値と、当該最大応答値の第１特徴マップにおける位置インデックスとを取得してもよい。６０×８０個の最大応答値及びこれらの最大応答値のそれぞれに対応する位置インデックスを取得してもよい。その後、同じ位置インデックスをマージし、Ｎ個の最大応答値、各最大応答値に対応する位置インデックス、及び各最大応答値に対応する特徴点を取得してもよい。

【0101】

ステップ６０４では、最大応答値が所定閾値よりも大きい特徴点をオブジェクトの中心点とし、前記オブジェクトの中心点の第１特徴マップにおける位置インデックスに基づいて、オブジェクトの中心点の位置情報を特定する。閾値ｔｈｒｄを予め設定してもよい。最大応答値がｔｈｒｄよりも大きいときに、当該最大応答値に対応する特徴点がオブジェクトの中心点であると判定する。

【0102】

上記実施例では、第１特徴マップにおける応答値に対して最大プーリングの処理を行うことにより、局所範囲内で最もオブジェクトの中心点となる可能性のある特徴点を見つけることができ、中心点を特定する正確度を有効に向上可能である。

【0103】

幾つかの実施例では、オブジェクトの中心点と中心点の位置情報とをオブジェクトの中心点情報とする。幾つかの実施例では、中心点情報は、オブジェクトの中心点の長さ情報及び幅情報を更に含んでもよい。その際、以下のステップを利用して中心点の長さ情報及び幅情報を特定してもよい。

【0104】

前記第１特徴マップの第２所定チャンネルにおける、オブジェクトの中心点の位置インデックスに対応する位置から、前記オブジェクトの中心点の長さ情報を取得する。前記第１特徴マップの第３所定チャンネルにおける、前記オブジェクトの中心点の位置インデックスに対応する位置から、前記オブジェクトの中心点の幅情報を取得する。

【0105】

上記第２所定チャンネルは、第１特徴マップにおける第１チャンネルであってもよく、第３所定チャンネルは、第１特徴マップにおける第２チャンネルであってもよい。第１特徴マップ中の第１チャンネルにおける、中心点に対応する位置から、中心点の長さ情報を取得し、第１特徴マップ中の第２チャンネルにおける、中心点に対応する位置から、中心点の幅情報を取得する。

【0106】

オブジェクトの中心点が特定された後、当該オブジェクトの中心点の位置インデックスを利用すると、第１特徴マップの他の所定チャンネルからオブジェクトの中心点の長さ情報及び幅情報を正確に取得することができる。

【0107】

オブジェクトが人顔、人体、後部座席、安全シート等を含んでもよいため、具体的に実施するときに、異なるニューラルネットワークを利用して異なるオブジェクトに対応する第１特徴マップを特定してから、異なる第１特徴マップを利用して異なるオブジェクトの中心点、各中心点の位置情報、各中心点の長さ情報及び各中心点の幅情報を特定する必要がある。

【0108】

幾つかの実施例では、以下のステップ７０１－７０３を利用して前記目標画像中の当該オブジェクトの中心点に対応するオブジェクトタイプ情報を特定してもよい。

【0109】

ステップ７０１では、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第２特徴マップを取得する。目標画像を第３ニューラルネットワークに入力して画像特徴抽出を行わせて一つの初期特徴マップを取得してから、当該初期特徴マップをオブジェクトタイプ認識を行う第４ニューラルネットワークに入力して処理させて第２特徴マップを取得し、当該第２特徴マップに基づいてオブジェクトの中心点に対応するオブジェクトタイプ情報を取得することができる。上記第２特徴マップは、８０*６０*２の特徴マップであってもよい。上記第３ニューラルネットワークは、第１ニューラルネットワークと同じであってもよい。

【0110】

子供を認識する応用場面において、第２特徴マップにおける各特徴点は、１つの二次元の特徴ベクトルに対応し、オブジェクトの中心点の、上記第２特徴マップ上の特徴点に対応する二次元特徴ベクトルに対して、分類処理を行い、分類結果を取得してもよい。１種の分類結果が子供を表し、もう１種の分類結果が他を表す場合に、上記分類結果に基づくと、当該オブジェクトの中心点に対応するオブジェクトタイプ情報が子供であるか否かを特定することができる。子供を認識する応用場面において、上記オブジェクトは、人体又は人顔であってもよい。

【0111】

安全シートを認識する応用場面において、第２特徴マップにおける各特徴点は、１つの二次元の特徴ベクトルに対応し、オブジェクトの中心点の、上記第２特徴マップ上の特徴点に対応する二次元特徴ベクトルに対して、分類処理を行い、分類結果を取得してもよい。１種の分類結果が安全シートを表し、もう１種の分類結果が他を表す場合に、上記分類結果に基づくと、当該オブジェクトの中心点に対応するオブジェクトタイプ情報が安全シートであるか否かを特定することができる。理解できるように、同じ方法を用いて後部座席等を認識することができる。

【0112】

オブジェクトが人顔、人体、後部座席、安全シート等を含んでもよいため、具体的に実施する際に、異なるニューラルネットワークを用いて異なるオブジェクトに対応する第２特徴マップを特定してから、異なる第２特徴マップを用いて異なるオブジェクトのオブジェクトタイプ情報を特定する必要がある。

【0113】

ステップ７０２では、オブジェクトの中心点の第１特徴マップにおける位置インデックスに基づいて、前記オブジェクトの中心点の前記第２特徴マップにおける位置インデックスを特定する。

【0114】

ステップ７０３では、前記オブジェクトの中心点の前記第２特徴マップにおける位置インデックスに対応する位置から、前記オブジェクトの中心点に対応するオブジェクトタイプ情報を取得する。上記オブジェクトの中心点が特定された後、中心点の位置インデックスを用いて、オブジェクトの中心点に対応するオブジェクトタイプ情報を正確に取得することができる。

【0115】

各オブジェクトの中心点に対応するオブジェクトタイプ情報が特定された後、以下のステップ８０１－８０３を用いて目標画像中の特定のグループ（例えば、子供、ペット等）を認識することにより、特定のグループに対応するデジタルヒューマンに特定のグループとインタラクションさせてもよい。記述の便宜上、以下では、子供を例とし、他のグループの認識方式も類似するため、ここで繰り返し説明しない。

【0116】

ステップ８０１では、各人体の中心点に対応する位置ずれ情報に基づいて、各人体にマッチングする人顔の中心点の予測位置情報をそれぞれ特定し、同一の人に属する人体及び顔部は、互いにマッチングする。上記位置ずれ情報を特定する際に、まず、目標画像を第５ニューラルネットワークに入力して画像特徴抽出を行わせ、１つの初期特徴マップを取得してもよい。その後、当該初期特徴マップを上記位置ずれ情報を特定するための１つの第６ニューラルネットワークに入力し、１つの特徴マップを取得し、当該特徴マップに基づくと、各人体の中心点に対応する位置ずれ情報を特定することができる。当該特徴マップは、１つの８０*６０*２の特徴マップであってもよい。第５ニューラルネットワークは、第１ニューラルネットワークと同じであってもよい。

【0117】

ステップ８０２では、特定された予測位置情報と各人顔の中心点の位置情報とに基づいて、各人体にマッチングする人顔を特定する。幾つかの実施例では、予測位置情報に対応する位置のうちの最も中心点に近接する位置に対応する人顔を人体にマッチングする人顔としてもよい。

【0118】

ステップ８０３では、マッチングに成功した人体及び人顔について、マッチングに成功した人体の中心点に対応するオブジェクトタイプ情報と人顔の中心点に対応するオブジェクトタイプ情報とを利用して、当該マッチングに成功した人体及び人顔の所属する人が子供であるか否かを特定する。マッチングに成功した人体の中心点に対応するオブジェクトタイプ情報が、対応する人体の所属する人が子供であると示し、且つ人顔の中心点に対応するオブジェクトタイプ情報が、対応する人顔の所属する人が子供であると示す場合に、当該マッチングに成功した人体及び人顔の所属する人が子供であると特定する。マッチングに成功しなかった人体について、当該人体の中心点に対応するオブジェクトタイプ情報を用いて、当該人体の中心点の所属する人が子供であるか否かを特定する。具体的に、当該人体の中心点に対応するオブジェクトタイプ情報が子供を示す場合に、当該人体の所属する人が子供であると特定する。

【0119】

以下では、具体的な例を用いて本発明の実施例の技術案を説明する。

【0120】

生体が車に乗って着座したときに、モニタリングシステムを介して生体の監視映像を取得し、生体の種別情報が人間であり、生体の身分情報が小Ａであり、属性情報が子供であると検出されるとともに、生体小Ａの情動情報が喜びと検出された場合に、子供イメージを生成して表示し、即ち、微笑みを浮かべて鮮やかな衣装を着たデジタルヒューマンが手を挙げて挨拶する動画を表示し、それと同時に、挨拶の音声「小Ａ、今日はいい気持ちですね」を再生する。図３に示すように、動画におけるデジタルヒューマンの口型及び肢体動作は、再生された音声にマッチングする。生体の身分が認識されなかった場合に、挨拶するときに、性別、年齢等の属性情報に応じて、通称、例えば、ちゃん、さん等を採用してもよい。生体小Ａが着座した後で小Ａの情動が落ち着いている場合に、音声インタラクションを行わなくてもよい。車両が走行し始めた後、生体小Ａがシートベルトを締めていないと検出された場合に、子供イメージのデジタルヒューマンがシートベルトを締める模範動作を実行する動画をセントラルコントロールスクリーンに表示すると同時に、音声「小Ａ、早く私と一緒にシートベルトを締めてください」を再生する。動画におけるデジタルヒューマンの口型及び肢体動作は、再生された音声にマッチングする。

【0121】

しばらくして、小Ａが「ちょっと熱い」と話すと検出されると、ウィンドウを開けてエアコンをつける。またしばらくしてから、小Ａは、所定方式（例えば、デジタルヒューマンをクリックすること、視線でデジタルヒューマンを見ること、又は音声でデジタルヒューマンを呼ぶこと等）によってデジタルヒューマンと対話し、デジタルヒューマンは、小Ａと対話する。対話方式は、チャット、ゲーミング又は音楽再生の制御を含んでもよい。対話するときに、対話内容に基づいて、対応するデジタルヒューマン動画を表示するとともに、音声を同期に再生する。小Ａが車から降りるときに、小Ａの座席に忘れ物があるとモニタリングシステムによってモニタリングされると、デジタルヒューマンが手を振る動作を実行する動画をセントラルコントロールスクリーンに表示すると同時に、音声「小Ａ、車の中に忘れ物がありました。早く取りに来てください」を同期に再生してもよい。小Ａが車から降りた後、ウィンドウ及び音楽を閉じてもよい。

【0122】

本発明の実施例では、車室内生体の状態情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示することができるため、擬人化されたインタラクションが実現され、インタラクション過程がより自然になり、マンマシンインタラクションの暖かさが感じられ、乗車における楽しみ、快適感及び付き添い感が向上し、これによってインタラクション中のフィードバック情報に対する生体の受容度が向上し、車両運転中における生体の安全性が向上する。また、本発明の実施例では、ソフトウェア方式によってデジタルヒューマンの動画を生成するため、コストが低く、デジタルヒューマンの反応速度が速く、後期メンテナンス及び更新・アップデートが便利になる。

【0123】

当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記載順は、厳格な実行順を意味せず、実施手順について如何なる限定もなすことではない。各ステップの具体的な実行順は、その機能及び可能な内在論理で特定されるべきである。

【0124】

図４に示すように、本発明は、デジタルヒューマンに基づく車室インタラクション装置を更に提供する。前記装置は、以下のモジュールを備える。

【0125】

取得モジュール４０１は、車室内に乗っている生体の状態情報を取得するように構成される。

【0126】

特定モジュール４０２は、前記状態情報にマッチングする動作情報を特定するように構成される。

【0127】

表示モジュール４０３は、前記動作情報に基づいて、デジタルヒューマンが対応する動作を実行する動画を生成して前記車室内の表示機器に表示するように構成される。

【0128】

幾つかの実施例では、前記表示モジュール４０３は、前記状態情報にマッチングする音声情報を特定するように構成される第１特定手段と、前記音声情報に基づいて、タイムスタンプを含む対応する音声を取得するように構成される第１取得手段と、前記音声を再生しながら、前記動作情報に基づいて、前記デジタルヒューマンが前記タイムスタンプに対応する時点において前記動作を実行する動画を生成して表示するように構成される第１表示手段と、を備える。

【0129】

幾つかの実施例では、前記動作は、複数のサブ動作を含み、各サブ動作は、前記音声における１つの音素にマッチングし、前記タイムスタンプは、各音素のタイムスタンプを含み、前記第１表示手段は、各音素のタイムスタンプに基づいて、前記各音素にマッチングするサブ動作の実行時間を特定するように構成される特定サブ手段と、前記動作情報に基づいて、前記デジタルヒューマンが各音素のタイムスタンプにおいて当該音素にマッチングするサブ動作を実行する動画を生成して表示するように構成される表示サブ手段と、を備える。

【0130】

幾つかの実施例では、前記表示モジュール４０３は、前記動作情報に対応する少なくとも１フレームのデジタルヒューマンの動作スライスを動作モデルライブラリから呼び出すように構成される呼出手段と、前記少なくとも１フレームのデジタルヒューマンの動作スライスのうちの各フレームのデジタルヒューマンの動作スライスを前記表示機器に順次表示するように構成される第２表示手段と、を備える。

【0131】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報を含み、前記取得モジュール４０１は、車室内の後部座席の監視映像を収集するように構成される収集手段と、前記監視映像に対して生体検出を行い、検出された生体に対して状態分析を行い、前記生体の第１状態情報を取得するように構成される検出分析手段と、を備える。

【0132】

【0133】

【0134】

幾つかの実施例では、前記生体の状態情報は、前記生体の第１状態情報及び第２状態情報を含み、前記第１状態情報は、車室内の監視映像を基に取得され、前記取得モジュール４０１は、更に、前記生体の所持したスマート機器から送信された第２状態情報を取得するように構成され、前記特定モジュール４０２は、前記第１状態情報と前記第２状態情報とのどちらにもマッチングする動作情報を特定するように構成される。

【0135】

幾つかの実施例では、前記第２状態情報は、健康状況情報及び神経系状態情報のうちの少なくとも何れか１つを含む。

【0136】

幾つかの実施例では、前記取得モジュール４０１は、前記車室内の監視映像を予めトレーニングされたニューラルネットワークに入力するように構成される入力手段と、前記ニューラルネットワークの出力結果に基づいて前記生体の状態情報を特定するように構成される第２特定手段と、を備える。

【0137】

【0138】

【0139】

幾つかの実施例では、前記生体の属性情報は、年齢、性別、五感、体型、服飾、髪型及び肌色のうちの少なくとも何れか１つを含む。

【0140】

幾つかの実施例では、前記装置は、前記状態情報に基づいて車載機器の運転状態を制御するように構成される制御モジュールを更に備える。

【0141】

幾つかの実施例では、前記特定モジュール４０２は、車両の走行状態を取得し、前記車両の走行状態と前記状態情報とにそれぞれマッチングする動作情報を特定するように構成される。

【0142】

幾つかの実施例では、前記取得モジュール４０１は、更に、前記車室内の目標画像に基づいて、前記車室内に乗っている生体を認識し、前記生体の位置情報に基づいて、前記生体が前記車室内の座席にいるか否かを特定するように構成される。

【0143】

幾つかの実施例では、前記取得モジュール４０１は、更に、前記車室内の目標画像中の各オブジェクトのオブジェクト情報を特定し、各オブジェクトについて、当該オブジェクトのオブジェクト情報は、当該オブジェクトの中心点の位置情報と当該オブジェクトの中心点に対応するオブジェクトタイプ情報とを含み、各前記オブジェクトのオブジェクトタイプ情報に基づいて、前記生体と前記車室内の座席とを前記オブジェクトから選別し、前記生体の中心点位置と前記座席の中心点位置とに基づいて、前記生体が前記座席にいるか否かを特定するように構成される。

【0144】

幾つかの実施例では、前記表示モジュール４０３は、更に、前記座席にいない生体に対応するデジタルヒューマンが座席に座ってシートベルトを締める模範動作を実行する動画を生成して前記車室内の表示機器に表示するように構成される。

【0145】

【0146】

幾つかの実施例では、前記取得モジュール４０１は、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第１特徴マップを取得することと、前記第１特徴マップにおける各特徴点をオブジェクト中心点の応答値として前記第１特徴マップの第１所定チャンネルから取得することと、前記第１特徴マップを複数のサブ領域に分割し、各サブ領域内における最大応答値と最大応答値に対応する特徴点とを特定することと、最大応答値が所定閾値よりも大きい特徴点を当該オブジェクトの中心点とし、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて当該オブジェクトの中心点の位置情報を特定することと、により、前記目標画像中の当該オブジェクトの中心点の位置情報を特定するように構成される。

【0147】

幾つかの実施例では、前記取得モジュール４０１は、前記目標画像に対して特徴抽出を行い、前記目標画像に対応する第２特徴マップを取得することと、当該オブジェクトの中心点の前記第１特徴マップにおける位置インデックスに基づいて、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスを特定することと、当該オブジェクトの中心点の前記第２特徴マップにおける位置インデックスに対応する位置から、当該オブジェクトの中心点に対応するオブジェクトタイプ情報を取得することとにより、前記目標画像中の当該オブジェクトの中心点に対応するオブジェクトタイプ情報を特定するように構成される。

【0148】

幾つかの実施例では、本発明の実施例に係る装置が有する機能や含むモジュールは、上記方法実施例に記述された方法を実行可能であり、その具体的な実施形態は、上記方法実施例の記述を参照してもよい。簡素化のために、ここで繰り返し説明しない。

【0149】

本明細書の実施例は、コンピュータ機器を更に提供する。コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを少なくとも含む。プロセッサは、前記プログラムを実行したときに、前述の何れか１つの実施例に記載の方法を実施する。

【0150】

図５は、本明細書の実施例に係るコンピュータ機器ハードウェア構造模式図を示す。当該機器は、プロセッサ５０１、メモリ５０２、入力／出力インターフェース５０３、通信インターフェース５０４及びバス５０５を備えてもよい。プロセッサ５０１、メモリ５０２、入力／出力インターフェース５０３と通信インターフェース５０４は、バス５０５を介して互いの機器内部の通信接続を実施する。

【0151】

プロセッサ５０１は、汎用のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）、マイクロプロセッサ、応用特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、又は１つ或いは複数の集積回路等の方式によって実現されてもよく、関連するプログラムを実行することにより、本明細書の実施例に係る技術案を実現する。

【0152】

メモリ５０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、読み出し専用メモリ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）、静的記憶機器、動的記憶機器等の形態を採用して実現され得る。メモリ５０２は、オペレーティングシステム及び他のアプリケーションプログラムを記憶してもよく、ソフトウェア又はファームウェアにて本明細書の実施例に係る技術案を実施する際に、関連するプログラムコードは、メモリ５０２に保存されてプロセッサ５０１によって呼び出されて実行される。

【0153】

入力／出力インターフェース５０３は、入力／出力モジュールを接続することで情報入力及び出力を図る。入力／出力モジュールは、コンポーネントとして機器（図示せず）に配置されてもよく、機器と外付けられて対応する機能を提供してもよい。入力機器は、キーボード、マウス、タッチスクリーン、マイク、各種のセンサ等を含んでもよく、出力機器は、表示器、スピーカ、バイブレータ、インジケータランプ等を含んでもよい。

【0154】

通信インターフェース５０４は、通信モジュール（図示せず）を接続して本機器と他の機器との通信インタラクションを図る。通信モジュールは、有線方式（例えば、ＵＳＢ、ネットワークケーブル等）によって通信を実施してもよく、無線方式（例えば、モバイルネットワーク、ＷＩＦＩ、ブルートゥース（登録商標）等）によって通信を実施してもよい。

【0155】

バス５０５は、通路を含み、機器の各コンポーネント（例えば、プロセッサ５０１、メモリ５０２、入力／出力インターフェース５０３及び通信インターフェース５０４）の間で情報を伝送する。

【0156】

説明すべきことは、上記機器がプロセッサ５０１、メモリ５０２、入力／出力インターフェース５０３、通信インターフェース５０４及びバス５０５のみを示したが、具体的に実施する過程に、当該機器が正常の運転に必要な他のコンポーネントを更に備えてもよい。また、当業者であれば理解できるように、上記機器は、図に示すコンポーネントを全て含む必要がなく、本明細書の実施例案を実現するために必要なコンポーネントのみを含んでもよい。

【0157】

図６Ａ及び図６Ｂに示すように、本発明の実施例は、車両を更に提供する。前記車両の車室内には、表示機器６０１と、モニタリングシステム６０２と、デジタルヒューマンに基づく車室インタラクション装置６０３或いはコンピュータ機器６０４とが設置されている。

【0158】

前記表示機器６０１は、前記デジタルヒューマンが対応する動作を実行する動画を表示する。前記表示機器６０１は、車両のセントラルコントロールスクリーンと、車両の座席の背中に取り付けられたディスプレイスクリーンとのうちの少なくとも１つを含んでもよい。

【0159】

前記モニタリングシステム６０２は、ビジョンモニタリングシステムと音声モニタリングシステムとのうちの少なくとも１つを含んでもよく、前記ビジョンモニタリングシステムは、少なくとも１つのカメラを含んでもよく、前記カメラは、モニタリングすべき領域の上方に取り付けられてもよく、モニタリングすべき領域の映像又は画像を収集する。例えば、前記カメラは、車両のフロントガラス、又は、座席の上方等の位置に取り付けられてもよい。更に例えば、前記カメラは、前記車室内のバックミラーに取り付けられてもよく、且つレンズが車室の後部座席へ向かう。このような取付方式により、カメラの視野範囲が広くなり、車室の後部座席の監視映像を取得することが容易になる。前記音声モニタリングシステムは、モニタリングすべき領域のオーディオ信号を収集するための少なくとも１つのマイクを含んでもよい。

【0160】

本発明の実施例のデジタルヒューマンに基づく車室インタラクション装置６０３は、上記何れか１つの実施例の車室インタラクション装置を採用してもよく、本発明の実施例のコンピュータ機器６０４は、上記何れか１つの実施例のコンピュータ機器を採用してもよい。前記デジタルヒューマンに基づく車室インタラクション装置６０３又はコンピュータ機器６０４は、車両のセントラルコントロールシステムに統合されてもよい。前記モニタリングシステム６０２は、車内通信バスを介して前記車室インタラクション装置６０３又はコンピュータ機器６０４と通信を行ってもよい。例えば、前記車内通信バスは、コントローラエリアネットワーク（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ、ＣＡＮ）バスであってもよい。

【0161】

幾つかの実施例では、前記デジタルヒューマンに基づく車室インタラクション装置６０３又はコンピュータ機器６０４は、前記状態情報に基づいて、車載機器、例えば、車室内の照明設備、エアコン、ウィンドウ、オーディオ再生機器及び座席のうちの少なくとも１つを制御してもよい。

【0162】

幾つかの実施例では、前記デジタルヒューマンに基づく車室インタラクション装置６０３又はコンピュータ機器６０４は、ネットワークを介してユーザのスマート機器又は音声データベース、動作モデルデータベース等に接続されることにより、前記スマート機器又は音声データベース、動作モデルデータベースとのデータのインタラクションを行ってもよい。

【0163】

本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、前述何れか１つの実施例に記載の方法は、実施される。

【0164】

コンピュータ可読媒体は、永久性及び非永久性のもの、移動可能及び移動不可能な媒体を含み、如何なる方法や技術で情報の記憶を実施してもよい。情報は、コンピュータ可読指令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例は、相変化メモリ(ＰＲＡＭ)、スタティックランダムアクセスメモリ(ＳＲＡＭ)、ダイナミックランダムアクセスメモリ(ＤＲＡＭ)、他のタイプのランダムアクセスメモリ(ＲＡＭ)、読み出し専用メモリ(ＲＯＭ)、電気的に消去可能なプログラム可能な読み取り専用メモリ(ＥＥＰＲＯＭ)、フラッシュ記憶体若しくは他のメモリ技術、読み取り専用光ディスク・読み取り専用メモリ(ＣＤ－ＲＯＭ)、デジタル・バーサタイル・ディスク(ＤＶＤ)又は他の光学記憶形態、磁気カセット型テープ、テープ・磁気ディスク記憶若しくは他の磁気記憶機器、又は、コンピュータデバイスによってアクセスされ得る情報を記憶するための如何なる他の非伝送媒体も含むが、それらに限定されない。本明細書での定義によれば、コンピュータ可読媒体は、変調されたデータ信号や搬送波のような、一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｍｅｄｉａ）を含まない。

【0165】

以上の実施形態の記述により、当業者は、本明細書の実施例がソフトウェアプラス必須の汎用ハードウェアプラットフォームの方式で実現され得ることを明白に理解できる。このような理解を基に、本明細書の実施例の技術案は、本質的に又は従来技術に対して貢献を与える部分がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、記憶媒体、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク等に記憶され、幾つかの指令を含むことで一台のコンピュータ機器（パソコン、サーバ又はネットワーク機器等であってもよい）に本明細書の各実施例又は実施例の一部に記載の方法を実行させてもよい。

【0166】

本発明の実施例は、コンピュータプログラム製品を更に提供する。当該コンピュータプログラム製品は、コンピュータ指令を含み、前記コンピュータ指令がプロセッサによって実行されたときに、前述何れか１つの実施例に記載の方法は、実施可能である。

【0167】

上記実施例で説明されるシステム、装置、モジュール若しくは手段は、具体的にコンピュータチップ又は実体によって実施されてもよく、又はある機能を有する製品によって実施されてもよい。１つの典型的な実施機器は、コンピュータである。コンピュータの具体的な形態は、パソコン、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤー、ナビゲーション機器、電子メール送受信機器、ゲームコンソール、タブレットコンピュータ、ウェアラブル機器又はこれらの機器のうちの任意何種かの機器の組み合わせであってもよい。

【0168】

本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に装置実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。上述した装置実施例は、単に模式的なものである。上記分離部品として説明されたモジュールが物理的に分離されるものであってもよくでなくてもよい。本明細書の実施例の技術案を実施するときに、各モジュールの機能を同一又は複数のソフトウェア及び／又はハードウェアで実現可能である。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の技術案の目的を果たすことが可能である。当業者は、進歩性に値する労力を掛けずに、理解して実施可能である。

【図1】