特表2022-547479 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 上▲海▼商▲湯▼智能科技有限公司の特許一覧

特表2022-547479車載デジタル人に基づくインタラクション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7
8
9
10
11A
11B
12A
12B
12C
13A
13B
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-11-14

(54)【発明の名称】車載デジタル人に基づくインタラクション

(51)【国際特許分類】

G06F 3/01 20060101AFI20221107BHJP

G06T 7/00 20170101ALI20221107BHJP

G06T 7/20 20170101ALI20221107BHJP

G06V 20/59 20220101ALI20221107BHJP

G06V 40/16 20220101ALI20221107BHJP

G06V 40/20 20220101ALI20221107BHJP

G06V 10/82 20220101ALI20221107BHJP

G06T 13/40 20110101ALI20221107BHJP

G10L 15/00 20130101ALI20221107BHJP

G10L 15/22 20060101ALI20221107BHJP

【ＦＩ】

G06F3/01 510

G06T7/00 660Z

G06T7/20 300A

G06T7/20 300B

G06V20/59

G06V40/16 B

G06V40/20

G06V10/82

G06T7/00 350C

G06T7/00 P

G06T13/40

G06F3/01 570

G10L15/00 200Q

G10L15/22 453

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022514538

(86)(22)【出願日】2020-05-27

(85)【翻訳文提出日】2022-03-03

(86)【国際出願番号】 CN2020092582

(87)【国際公開番号】W WO2021077737

(87)【国際公開日】2021-04-29

(31)【優先権主張番号】201911008048.6

(32)【優先日】2019-10-22

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520180323

【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司

【氏名又は名称原語表記】ＳＨＡＮＧＨＡＩＳＥＮＳＥＴＩＭＥＩＮＴＥＬＬＩＧＥＮＴＴＥＣＨＮＯＬＯＧＹＣＯ．，ＬＴＤ．

【住所又は居所原語表記】Ｒｏｏｍ１６０５Ａ，Ｂｕｉｌｄｉｎｇ３，３９１ＧｕｉｐｉｎｇＲｏａｄ，ＸｕｈｕｉＤｉｓｔｒｉｃｔ，Ｓｈａｎｇｈａｉ２００２３３Ｃｈｉｎａ

(74)【代理人】

【識別番号】110000729

【氏名又は名称】特許業務法人ユニアス国際特許事務所

(72)【発明者】

【氏名】肖琴

(72)【発明者】

【氏名】曾彬

(72)【発明者】

【氏名】何任▲東▼

(72)【発明者】

【氏名】▲呉▼ ▲陽▼平

(72)【発明者】

【氏名】▲許▼ 亮

【テーマコード（参考）】

5B050

5E555

5L096

【Ｆターム（参考）】

5B050AA03

5B050AA07

5B050BA08

5B050BA09

5B050BA12

5B050CA01

5B050DA01

5B050EA07

5B050EA24

5B050EA26

5B050FA02

5B050FA10

5E555AA27

5E555AA48

5E555AA56

5E555AA64

5E555BA23

5E555BA38

5E555BB23

5E555BB38

5E555BC08

5E555CA42

5E555CA47

5E555CB64

5E555CB65

5E555CB66

5E555CB67

5E555CC22

5E555DA23

5E555DB32

5E555DC13

5E555DC21

5E555DD06

5E555DD07

5E555DD08

5E555EA11

5E555EA19

5E555EA22

5E555EA23

5E555EA27

5E555FA00

5L096AA06

5L096BA04

5L096BA18

5L096CA04

5L096DA01

5L096EA39

5L096FA19

5L096FA67

5L096FA77

5L096GA30

5L096GA51

5L096HA11

5L096JA11

5L096JA22

5L096KA04

(57)【要約】

本開示は、車載デジタル人に基づくインタラクション方法及び装置を提供し、該方法は、車載カメラにより収集された車内人員のビデオストリームを取得するステップと、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む。
【選択図】【図１】

【特許請求の範囲】

【請求項1】

車載カメラにより収集された車内人員のビデオストリームを取得するステップと、
前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む、ことを特徴とする車載デジタル人に基づくインタラクション方法。

【請求項2】

前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも１つを含み、及び／又は、
前記車内人員は、運転者、乗客の少なくとも１つを含み、及び／又は、
前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも１つを含む、ことを特徴とする請求項１に記載の方法。

【請求項3】

前記タスク処理結果に応じて、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップは、
前記タスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得することと、
前記マッピング関係に基づいて前記タスク処理結果に対応するインタラクションフィードバック命令を特定することと、
前記デジタル人を制御して前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させることとを含む、ことを特徴とする請求項１に記載の方法。

【請求項4】

前記所定タスクは、顔部認識を含み、
前記タスク処理結果は、顔部認識結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示するステップは、
前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されることに応答して、前記第１デジタル人を前記車載表示装置に表示すること、又は
前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されていないことに応答して、第２デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力することを含む、ことを特徴とする請求項１に記載の方法。

【請求項5】

前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力することは、
顔部画像の画像収集通知情報を前記車載表示装置に出力することを含み、
前記方法は、
顔部画像を取得するステップと、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得するステップと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定するステップと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成するステップとをさらに含む、ことを特徴とする請求項４に記載の方法。

【請求項6】

前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶することを含む、請求項５に記載の方法、ことを特徴とする。

【請求項7】

前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得することと、
前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整することと、
調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶することとを含む、ことを特徴とする請求項５に記載の方法。

【請求項8】

顔部画像を取得するステップは、
前記車載カメラにより収集された顔部画像を取得すること、又は
アップロードされた前記顔部画像を取得することを含む、ことを特徴とする請求項５～７のいずれかに記載の方法。

【請求項9】

前記所定タスクは、視線検出を含み、
前記タスク処理結果は、視線方向検出結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項１に記載の方法。

【請求項10】

前記所定タスクは、注視領域検出を含み、
前記タスク処理結果は、注視領域検出結果を含み、
ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップは、
前記ビデオストリームに含まれる少なくとも１フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することを含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項１に記載の方法。

【請求項11】

前記車内人員は、運転者を含み、
前記ビデオストリームに含まれる少なくとも１フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することは、
前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の１つであることを含む、ことを特徴とする請求項１０に記載の方法。

【請求項12】

予め前記車に対して空間領域分割を行って得られた前記複数カテゴリーの定義された注視領域は、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、車載表示領域のうちの２カテゴリー以上を含む、ことを特徴とする請求項１１に記載の方法。

【請求項13】

前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも１フレームの顔部画像に対して視線及び／又は頭部姿態検出を行うことと、
各フレームの顔部画像に対して、このフレームの顔部画像の視線及び／又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定することとを含む、ことを特徴とする請求項１１又は１２に記載の方法。

【請求項14】

前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記少なくとも１フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、前記複数カテゴリーの定義された注視領域の１つを指示する該顔部画像における注視領域カテゴリーのマーク情報を含み、又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされることを含む、ことを特徴とする請求項１１又は１２に記載の方法。

【請求項15】

前記方法は、前記ニューラルネットワークをトレーニングするステップをさらに含み、
前記ニューラルネットワークをトレーニングするステップは、
前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得することと、
前記顔部画像における少なくとも１つの眼の眼部画像を切り取り、前記少なくとも１つの眼は、左眼及び／又は右眼を含む、ことと、
前記顔部画像の第１特徴及び少なくとも１つの眼の眼部画像の第２特徴をそれぞれ抽出することと、
前記第１特徴と前記第２特徴を融合し、第３特徴を取得することと、
前記第３特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定することと、
前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項１４に記載の方法。

【請求項16】

前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップと、
前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるステップとをさらに含む、ことを特徴とする請求項１～１５のいずれかに記載の方法。

【請求項17】

前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、
前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
前記ターゲット車載機器をトリガーする第１車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも１つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含むこと、及び／又は
運転補助をトリガーする第２車両制御命令を生成することを含む、ことを特徴とする請求項１６に記載の方法。

【請求項18】

前記インタラクションフィードバック情報は、ジェスチャー検出結果に対する確認内容を含み、前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成することを含む、ことを特徴とする請求項１６に記載の方法。

【請求項19】

車載音声収集機器により収集された前記車内人員のオーディオ情報を取得するステップと、
前記オーディオ情報に対して音声認識を行い、音声認識結果を取得するステップと、
前記音声認識結果及び前記タスク処理結果に応じて、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとをさらに含む、ことを特徴とする請求項１～１８のいずれかに記載の方法。

【請求項20】

車載カメラにより収集された車内人員のビデオストリームを取得するための第１取得モジュール、
前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュールと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第１インタラクションモジュールとを含む、ことを特徴とする車載デジタル人に基づくインタラクション装置。

【請求項21】

コンピュータプログラムが記憶され、
プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記請求項１～１９のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。

【請求項22】

プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、請求項１～１９のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される、ことを特徴とする車載デジタル人に基づくインタラクション装置。

【請求項23】

コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードがプロセッサ上で実行されると、前記プロセッサに請求項１～１９のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行させる、ことを特徴とするコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、拡張現実分野に関し、特に車載デジタル人に基づくインタラクション方法及び装置、記憶媒体に関する。

【背景技術】

【0002】

現在、車内にロボットを配置することができ、人員が車内に入った後、ロボットを介して車内人員とインタラクションできる。しかし、ロボットと車内人員のインタラクションモードが固定され、人間性に欠けている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本開示は、車載デジタル人に基づくインタラクション方法及び装置、記憶媒体を提供する。

【課題を解決するための手段】

【0004】

本開示の実施例の第１側面によれば、車載カメラにより収集された車内人員のビデオストリームを取得するステップと、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む、車載デジタル人に基づくインタラクション方法が提供される。

【0005】

本開示の実施例の第２側面によれば、車載カメラにより収集された車内人員のビデオストリームを取得するための第１取得モジュールと、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュールと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第１インタラクションモジュールとを含む、車載デジタル人に基づくインタラクション装置が提供される。

【0006】

本開示の実施例の第３側面によれば、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体が提供され、プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記第１側面に記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる。

【0007】

本開示の実施例の第４側面によれば、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリとを含む、車載デジタル人に基づくインタラクション装置が提供され、前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、第１側面に記載の車載デジタル人に基づくインタラクション方法を実現するように構成される。

【0008】

本開示の実施例では、車内人員のビデオストリームの画像を分析することにより、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。

【0009】

上記の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定することはできないことを理解されたい。

【図面の簡単な説明】

【0010】

【図1】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。

【図2】本開示の一例示的な実施例に係るステップ１０３のフローチャートである。

【図3】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。

【図4】本開示の一例示的な実施例に係るステップ１０７のフローチャートである。

【図5A】本開示の一例示的な実施例に係るターゲットデジタル人のキャラクターテンプレートを調整するシーンの模式図である。

【図5B】本開示の一例示的な実施例に係るターゲットデジタル人のキャラクターテンプレートを調整するシーンの模式図である。

【図6】本開示の一例示的な実施例に係る車に対して空間分割を行って得られた複数カテゴリーの定義された注視領域の模式図である。

【図7】本開示の一例示的な実施例に係るステップ１０３－８のフローチャートである。

【図8】本開示の一例示的な実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のフローチャートである。

【図9】本開示の他の例示的な実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のフローチャートである。

【図10】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。

【図11A】本開示の一例示的な実施例に係るジェスチャー模式図である。

【図11B】本開示の一例示的な実施例に係るジェスチャー模式図である。

【図12A】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。

【図12B】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。

【図12C】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。

【図13A】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。

【図13B】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。

【図14】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置ブロック図である。

【図15】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置のハードウェア構造模式図である。

【発明を実施するための形態】

【0011】

ここでは、例示的な実施例を詳細に説明し、その例を図に示す。以下の説明が図面に関連する場合、別段の表現がない限り、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明された実施形態は、本開示とマッチングする全ての実施形態を表すものではない。一方、それらは、添付の特許請求の範囲に記載されたように、本開示のいくつかの態様に一致する装置および方法の例にすぎない。

【0012】

本開示で使用される用語は、本開示を限定することを目的とするものではなく、特定の実施例を説明するためのものに過ぎない。本開示および添付の特許請求の範囲において使用される単数形式の「一種」、「前記」、および「該」は、文脈が明確に他の意味を表していない限り、多数の形式を含むことが意図されている。また、本明細書で使用される用語の「および／または」は、関連してリストされた１つまたは複数の項目の任意またはすべての可能な組み合わせを指し、含みうることを理解されたい。

【0013】

本開示では、用語の第１、第２、第３などを用いて様々な情報を記述することができるが、これらの情報はこれらの用語に限定されないことを理解されたい。これらの用語は、同じタイプの情報を互いに区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の情報を第２の情報と呼ぶこともでき、同様に、第２の情報を第１の情報と呼ぶこともできる。文脈によっては、ここで使用される用語の「もし」は「…とき」または「…際」または「特定したことに応答する」と解釈され得る。

【0014】

本開示の実施例は、スマート車両、車両運転をシミュレートするスマートカーなどの運転可能なマシン機器に適用できる、車載デジタル人に基づくインタラクション方法を提供する。

【0015】

図１に示すように、図１は、一例示的な実施例に係る車載デジタル人に基づくインタラクション方法であり、ステップ１０１～ステップ１０３を含む。

【0016】

ステップ１０１では、車載カメラにより収集された車内人員のビデオストリームを取得する。

【0017】

本開示の実施例では、車載カメラは、センターコンソール、フロントガラス、又は車内人員を撮影できる他の任意位置に設置することができる。車内人員は、運転者及び／又は乗客を含む。該車載カメラにより、車内人員のビデオストリームをリアルタイムで収集できる。

【0018】

ステップ１０２では、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得する。

【0019】

ステップ１０３では、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示する又は車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。

【0020】

本開示の実施例では、前記デジタル人は、ソフトウェアによって生成された仮想キャラクターであってもよく、センターコンソールディスプレイ又は車載タブレットデバイスなどの車載表示装置に該デジタル人を表示できる。デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも１つを含む。

【0021】

上記実施例では、車内人員のビデオストリームの画像を分析することにより、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。

【0022】

いくつかの実施例では、ビデオストリームを処理すべき所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも１つを含むことができるがこれらに限られない。所定タスクのタスク処理結果に応じて、車載デジタル人に基づく人間とコンピュータのインタラクション方式を特定し、例えば、タスク処理結果に応じて、デジタル人を車載表示装置に表示することをトリガーすべきであるか否かを特定し、又は、タスク処理結果に応じて、車載表示装置に表示されたデジタル人を制御して、対応するインタラクションフィードバック情報などを出力させるべきであるか否かを特定する。

【0023】

１つの例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して顔部検出を行い、車内が顔部を含むか否かを検出し、該ビデオストリームに含まれる少なくとも１フレームの画像が顔部を含むか否かの顔部検出結果を取得し、この後、顔部検出結果に応じて、車内に人員が出入りしたか否かを判断し、さらに、デジタル人を表示するか否か、又は、デジタル人を制御して対応するインタラクションフィードバック情報を出力させるか否かを特定する。例えば、顔部検出結果が顔部を検出したばかりであることを示す場合、車載表示装置にデジタル人を自動的に表示することができ、さらにデジタル人を制御して「こんにちは」などの挨拶の言語、表情又は動作をさせることもできる。

【0024】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して視線検出又は注視領域検出を行い、それにより、車内人員の視線注視方向の検出結果又は注視領域の検出結果を取得する。この後、視線注視方向の検出結果又は注視領域の検出結果に応じて、デジタル人を表示するか否か、又はデジタル人を制御してインタラクションフィードバック情報を出力させるか否かを特定する。例えば、車内人員の視線注視方向が車載表示装置に向かう場合、デジタル人を表示できる。車内人員の注視領域が車載表示装置の配置領域と少なくとも部分的に重複する場合、デジタル人を表示する。車内人員の視線注視方向が再び車載表示装置に向かう場合、又は注視領域が車載表示装置の配置領域と再び少なくとも部分的に重複する場合、デジタル人に「何をしてほしいですか」という言語、表情又は動作をさせることができる。

【0025】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して顔部認識を行い、それにより、顔部認識結果を取得し、この後、顔部認識結果に対応するデジタル人を表示できる。例えば、顔部認識結果が予め記憶された張三の顔部とマッチングする場合、張三に対応するデジタル人を車載表示装置に表示でき、顔部認識結果が予め記憶された李四の顔部とマッチングする場合、李四に対応するデジタル人を車載表示装置に表示でき、張三及び李四のそれぞれに対応するデジタル人が異なることができ、それにより、デジタル人のキャラクターを豊富にし、乘車楽しみ、快適感及び付き添い感を向上させ、車内人員に人間とコンピュータのインタラクションの温かみを感じさせる。

【0026】

また例えば、デジタル人は、フィードバック情報の「こんにちは、張三さん又は李四さん」を音声により出力し、又は、予め設定された張三のいくつかの表情又は動作などを出力することができる。

【0027】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対する人体検出は、座り方、手部及び／又は足部の動作、頭部の位置などに対する検出を含むがこれらに限られず、人体検出結果を取得する。この後、人体検出結果に応じて、デジタル人を表示し、又は、デジタル人を制御してインタラクションフィードバック情報を出力させることができる。例えば、人体検出結果が座り方が運転に適することである場合、デジタル人を表示でき、人体検出結果が座り方が運転に適していないことである場合、デジタル人を制御して「リラックスして、楽に座ってください」という音声、表情又は動作を出力させることができる。

【0028】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対してジェスチャー検出を行い、ジェスチャー認識結果を取得し、それにより、ジェスチャー認識結果に応じて、車内人員がどのようなジェスチャーを入力したかを判断することができる。例えば、車内人員がｏｋのジェスチャーや親指立てのジェスチャーなどを入力すると、この後、入力されたジェスチャーに基づいて、デジタル人を表示し、又は、デジタル人を制御してジェスチャーに対応するインタラクションフィードバック情報を出力させることができる。例えば、ジェスチャー検出結果が車内人員が挨拶のジェスチャーを入力したことである場合、デジタル人を表示できる。又は、ジェスチャー検出結果が車内人員が親指立てジェスチャーを入力したことである場合、デジタル人を制御して「ありがとうございます」という音声、表情又は動作を出力させることができる。

【0029】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して顔部属性検出を行い、顔部属性は、二重まぶたであるか否か、メガネをかけているか否か、ひげがあるか否か、耳の形、唇の形、顔の形、ヘアスタイルなどを含むがこれらに限られず、車内人員の顔部属性検出結果を取得する。この後、顔部属性検出結果に応じて、デジタル人を表示し、又は、デジタル人を制御して顔部属性検出結果に対応するインタラクションフィードバック情報を出力させることができ、例えば、顔部属性検出結果がサングラスを装着することを示す場合、デジタル人が「このサングラスはとてもきれいですね」、「今日のヘアスタイルはいいですね」、「今日は本当に綺麗ですね」などのインタラクションフィードバック情報の音声、表情又は動作を出力することができる。

【0030】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して情緒状態検出を行うことにより、情緒状態の検出結果を取得し、該情緒状態の検出結果は、車内人員の情緒、例えば、喜び、怒り、悲しみなどを直接反映する。この後、車内人員の情緒に応じて、デジタル人を表示でき、例えば、車内人員が微笑んでいる場合、デジタル人を表示する。又は、車内人員情緒に応じて、デジタル人を制御して情緒を和らげる対応するインタラクションフィードバック情報を出力させることができ、例えば、車内人員の情緒が怒りである場合、デジタル人に「怒らないでください。冗談を言ってあげましょう」、「今日は楽しいことや楽しくないことはありますか」という音声、表情又は動作を出力させることができる。

【0031】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して疲労状態分析を行い、非疲労、軽度の疲労、重度の疲労などの疲労度検出結果を取得する。疲労度に応じて、デジタル人に、対応するインタラクションフィードバック情報を出力させることができる。例えば、疲労度が軽度の疲労である場合、デジタル人が「歌を歌ってあげましょう」、「休憩しましょうか」という音声、表情又は動作を出力して疲労を癒すことができる。

【0032】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して気散らし状態検出を行うとき、気散らし状態の検出結果を取得できる。例えば、少なくとも１フレームの画像における車内人員の視線が前方に注視しているか否かによって、現在、気を散らしているか否かを判断する。気散らし状態の検出結果に応じて、デジタル人を制御して「気をつけてください」、「上手くやっています。続けてください」などの音声、表情又は動作を出力させることができる。

【0033】

他の例では、ビデオストリームに含まれる少なくとも１フレームの画像に対して危険動作検出を行い、車内人員が現在危険動作をしているか否かの検出結果を取得することもできる。例えば、運転者の両手がハンドルにないこと、運転者が前方に注視していないことや乗客の体の部分が窓の外に置かれていることなどは危険動作である。危険動作検出に基づいて、デジタル人を制御して「窓から体を出さないでください」、「前を見てください」などの音声、表情又は動作を出力させることができる。

【0034】

本開示の実施例では、デジタルは、音声によって車内人員とインタラクションしたり、表情によって車内人員とインタラクションしたり、いくつかの予め設定された動作によって車内人員に付き添うことができる。

【0035】

上記実施例では、車内人員のビデオストリームの画像分析により、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。

【0036】

いくつかの実施例では、上記ステップ１０３は、図２に示すように、ステップ１０３－１～ステップ１０３－３を含む。

【0037】

ステップ１０３－１では、所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得する。

【0038】

本開示の実施例では、デジタル人は、車両メモリに予め記憶された所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得できる。

【0039】

ステップ１０３－２では、前記マッピング関係に基づいて前記タスク処理結果に対応するインタラクションフィードバック命令を特定する。

【0040】

デジタル人は、上記マッピング関係に基づいて、異なるタスク処理結果に対応するインタラクションフィードバック命令を特定することができる。

【0041】

ステップ１０３－３では、前記デジタル人を制御して、前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させる。

【0042】

一例では、顔部検出結果に対応するインタラクションフィードバック命令が歓迎命令であることに応じて、インタラクションフィードバック情報は、歓迎の音声、表情又は動作である。

【0043】

他の例では、視線注視検出結果又は注視領域検出結果に対応するインタラクションフィードバック命令は、デジタル人の命令を表示する又は挨拶の命令を出力することである。したがって、インタラクションフィードバック情報は、「こんにちは」という音声、表情又は動作であり得る。

【0044】

他の例では、人体検出結果に対応するインタラクションフィードバック命令は、座り方を調整し、体方向を調整することを通知する通知命令ことであり得る。インタラクションフィードバック情報は、「座り方を調整してください。楽に座ってください」という音声、表情又は動作である。

【0045】

上記実施例では、デジタル人は、取得された所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係に基づいて、前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力することができる。車内の密閉空間では、より人間的なコミュニケーション及びインタラクションモードを提供し、コミュニケーションのインタラクティブ性を向上させ、車内人員の運転車両に対する信頼感を高めることができ、それにより、運転楽しみと効率を向上させ、安全リスクを低減し、運転中の孤独感がなくなり、車載デジタル人の人工知能化度を向上させる。

【0046】

いくつかの実施例では、所定タスクは、顔部認識を含み、したがって、タスク処理結果は、顔部認識結果を含む。

【0047】

ステップ１０３は、ステップ１０３－４又はステップ１０３－５を含むことができる。

【0048】

ステップ１０３－４では、前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されることに応答して、前記第１デジタル人を前記車載表示装置に表示する。

【0049】

本開示の実施例では、顔部認識結果として該車内人員の身元が例えば張三であると認識され、車載表示装置に張三に対応する第１デジタル人が記憶される場合、この第１デジタル人を車載表示装置に直接表示できる。例えば、張三に対応する第１デジタル人がアバターである場合、アバターを表示できる。

【0050】

ステップ１０３－５では、前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されていないことに応答して、第２デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力する。

【0051】

本開示の実施例では、車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されていない場合、車載表示装置は、デフォルト設定された第２デジタル人、例えば、ドラえもんを表示できる。

【0052】

本開示の実施例では、車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されていない場合、車載表示装置は、前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力することができる。通知情報によって、車内人員に第１デジタル人の設定を通知する。

【0053】

上記実施例では、顔部認識結果に応じて、顔部認識結果に対応する第１デジタル人又は第２デジタル人を表示し、又は、車内人員に第１デジタル人を設定することができる。デジタル人のキャラクターをより豊富にし、運転中に、車内人員により設定されたデジタル人が付き添い、孤独感を減らし、運転楽しみを向上させる。

【0054】

いくつかの実施例では、ステップ１０３－５は、前記車載表示装置に顔部画像の画像収集通知情報を出力するステップを含む。

【0055】

図３は、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。図３に示すように、該インタラクション方法は、上記ステップ１０１、１０２、１０３－５及び以下のステップ１０４～１０７を含む。ステップ１０１、１０２、１０３－５は、上述した実施形態の関連する表現を参照することができ、以下では、ステップ１０４～１０７について具体的に説明する。

【0056】

ステップ１０４では、顔部画像を取得する。

【0057】

本開示の実施例では、該顔部画像は、車載カメラによりリアルタイムで収集された車内人員の顔部画像であってもよい。又は、該顔部画像は、車内人員により携帯端末を介してアップロードされた顔部画像であってもよい。

【0058】

ステップ１０５では、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得する。

【0059】

本開示の実施例では、顔部属性分析モデルを予め作成することができ、該顔部属性分析モデルは、ニューラルネットワークにおけるＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）を採用することができるが、これらに限定されない。該ニューラルネットワークは、少なくとも１つの畳み込み層、ＢＮ（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、バッチ正規化）層、分類出力層などを含むことができる。

【0060】

ラベル付きサンプル図面ライブラリをニューラルネットワークに入力し、分類器によって出力された顔部属性分析結果を取得する。顔部属性は、五官、ヘアスタイル、メガネ、服飾、帽子の有無などを含むがこれらに限られない。顔部属性分析結果は、複数の顔部属性パラメータ、例えば、ひげの有無、ひげの位置、メガネの有無、メガネの種類、メガネ枠の種類、レンズの形状、メガネ枠の太さ、ヘアスタイル、及びまぶたの種類（例えば、一重まぶた、内二重まぶた又は外二重まぶたなど）、服飾の種類、襟の有無などを含むことができる。該ニューラルネットワークによって出力された顔部属性分析結果に応じて、該ニューラルネットワークのパラメータ、例えば、畳み込み層、ＢＮ層、分類出力層のパラメータ、又はニューラルネットワーク全体の学習率などを調整し、最終的に出力された顔部属性分析結果とサンプル図面ライブラリにおけるラベル内容とが予め設定された許容差異を満たしさらに一致するようにし、最終的にニューラルネットワークに対するトレーニングを完了させ、それにより、顔部属性分析モデルを取得する。

【0061】

本開示の実施例では、少なくとも１フレームの画像を上記顔部属性分析モデルに直接入力し、該顔部属性分析モデルによって出力されたターゲット顔部属性パラメータを取得することができる。

【0062】

ステップ１０６では、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定する。

【0063】

本開示の実施例では、顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係が予め記憶され、従って、ターゲット顔部属性パラメータに基づいて、対応するターゲットデジタル人のキャラクターテンプレートを特定することができる。

【0064】

ステップ１０７では、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成する。

【0065】

本開示の実施例では、特定されたターゲットデジタル人のキャラクターテンプレートに基づいて、車内人員とマッチングする第１デジタル人を生成することができる。直接、ターゲットデジタル人のキャラクターテンプレートを第１デジタル人としてもよいし、車内人員がターゲットデジタル人のキャラクターテンプレートを調整し、調整後のキャラクターテンプレートを第１デジタル人としてもよい。

【0066】

上記実施例では、車載表示装置によって出力された画像収集通知情報に基づいて、顔部画像を取得し、さらに顔部画像に対して顔部属性分析を行い、ターゲットデジタル人のキャラクターテンプレートを特定し、それにより、前記車内人員とマッチングする前記第１デジタル人を生成することができる。上記プロセスにより、車内ユーザがマッチングする第１デジタル人を自ら設定でき、運転中に、ユーザにより自らＤＩＹされた第１デジタル人が終始付き添い、運転中の孤独感を減らし、第１デジタル人のキャラクターを豊富にする。

【0067】

いくつかの実施例では、上記ステップ１０７は、ステップ１０７－１を含むことができる。

【0068】

ステップ１０７－１では、前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶する。

【0069】

本開示の実施例では、直接、ターゲットデジタル人のキャラクターテンプレートを車内人員とマッチングする前記第１デジタル人として記憶することができる。

【0070】

上記実施例では、直接、ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶することができ、車内人員が好きな第１デジタル人を自らＤＩＹするという目的を実現する。

【0071】

いくつかの実施例では、上記ステップ１０７は、図４に示すように、ステップ１０７－２、１０７－３及び１０７－４を含むことができる。

【0072】

ステップ１０７－２では、前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得する。

【0073】

本開示の実施例では、ターゲットデジタル人のキャラクターテンプレートを特定した後に、さらに車内人員によって入力された調整情報を取得でき、例えば、ターゲットデジタル人のキャラクターテンプレートにおけるヘアスタイルがショートヘアであり、調整情報がロングヘアである。又は、ターゲットデジタル人のキャラクターテンプレートは、メガネがないが、調整情報はサングラス追加である。

【0074】

ステップ１０７－３では、前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整する。

【0075】

例えば、図５Ａに示すように、車載カメラにより顔部画像を収集し、そして車内人員が生成されたターゲットデジタル人のキャラクターテンプレートに基づいてヘアスタイル、顔の形、五官などを自らＤＩＹし、例えば、図５Ｂに示すように、ステップ１０７－４では、調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶する。

【0076】

本開示の実施例では、調整後のターゲットデジタル人のキャラクターテンプレートを該車内人員とマッチングする第１デジタル人として記憶でき、次に該車内人員を再検出すると、調整後のターゲットデジタル人のキャラクターテンプレートを出力できる。

【0077】

上記実施例では、ターゲットデジタル人のキャラクターテンプレートを車内人員の好みに応じて調整することができ、最終的に車内人員が好きな調整後の第１デジタル人を取得し、第１デジタル人のキャラクターを豊富し、車内人員が第１デジタル人を自らＤＩＹするという目的を実現する。

【0078】

いくつかの実施例では、上記ステップ１０４は、ステップ１０４－１とステップ１０４－２のいずれかを含むことができる。

【0079】

ステップ１０４－１では、前記車載カメラにより収集された顔部画像を取得する。

【0080】

本開示の実施例では、車載カメラによって、顔部画像を直接リアルタイムで収集できる。

【0081】

ステップ１０４－２では、アップロードされた前記顔部画像を取得する。

【0082】

本開示の実施例では、車内人員は、自分が好きな１枚の顔部画像をアップロードすることができ、この顔部画像は、車内人員の自分の顔部に対応する顔部画像であってもよいし、車内人員が好きな人、動物、アニメキャラクターに対応する顔部画像であってもよい。

【0083】

上記実施例では、車載カメラにより収集された顔部画像を取得してもよいし、アップロードされた顔部画像を取得してもよく、それにより、この後、顔部画像に基づいて対応する第１デジタル人を生成し、実現しやすく、利用性が高く、ユーザ体験を向上させる。

【0084】

いくつかの実施例では、所定タスクは、視線検出を含み、従って、タスク処理結果は、視線方向検出結果を含む。

【0085】

上記ステップ１０３は、ステップ１０３－６を含むことができる。

【0086】

ステップ１０３－６では、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。いくつかの実施例では、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かう時間が予め設定された時間を超えることを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。該予め設定された時間は、０．５ｓであってもよく、車内人員の需要に応じて調節できる。

【0087】

本開示の実施例では、ニューラルネットワーク、例えば、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）、ｇｏｏｇｌｅｎｅｔ、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ、ビジュアルジオメトリグループネットワーク）などを採用できる視線方向検出モデルを予め作成する。該ニューラルネットワークは、少なくとも１つの畳み込み層、ＢＮ（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、バッチ正規化）層、分類出力層などを含むことができる。

【0088】

ラベル付きサンプル図面ライブラリをニューラルネットワークに入力し、分類器によって出力された視線方向分析結果を取得できる。視線方向分析結果は、視線が注視するいずれか車載機器の方向を含むがこれらに限られない。車載機器は、車載表示装置、サウンド、エアコンなどを含む。

【0089】

本開示の実施例では、少なくとも１フレームの画像を予め作成された上記視線方向検出モデルに入力し、該視線方向検出モデルが結果を出力することができる。視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表す場合、デジタル人を車載表示装置に表示できる。

【0090】

例えば、人員が車内に入った後、視線注視によって、対応するデジタル人を呼び出すことができ、図５Ｂに示すように、該デジタル人は、この前に、該人員の顔部画像に基づいて設定される。

【0091】

又は、視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表す場合、さらに、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることもできる。

【0092】

例えば、デジタル人が音声、表情及び動作のうちの少なくとも１つによって車内人員へ挨拶などをするように制御する。

【0093】

いくつかの実施例では、所定タスクは、注視領域検出を含み、従って、タスク処理結果は、注視領域検出結果を含む。

【0094】

上記ステップ１０３は、ステップ１０３－７を含む。

【0095】

ステップ１０３－７では、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。

【0096】

本開示の実施例では、注視領域を分析し、注視領域検出結果を取得できるニューラルネットワークを予め作成することができ、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示できる。すなわち、車内人員の注視領域の検出によって、デジタル人を起動できる。

【0097】

又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることもできる。例えば、デジタル人が音声、表情及び動作のうちの少なくとも１つによって、車内人員へ挨拶などをするように制御する。

【0098】

上記実施例では、車内人員は、視線を車載表示装置に向けさせ、視線方向又は注視領域を検出することでデジタル人を起動し、又は、デジタル人にインタラクションフィードバック情報を出力させ、車載デジタル人の人工知能化度を向上させる。

【0099】

いくつかの実施例では、車内人員が運転者を含むと、ステップ１０３は、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することであり得る。この場合、ステップ１０３は、ステップ１０３－８を含む。

【0100】

ステップ１０３－８では、前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像に基づいて、それぞれ各フレームの顔部画像における前記運転者の注視領域のカテゴリーを特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の１つである。

【0101】

本開示の実施例では、運転者の顔部画像は、運転者の頭部全体を含んでもよいし、運転者の顔部輪郭及び五官を含んでもよい。ビデオストリーム中の任意のフレームの画像を運転者の顔部画像としてもよいし、ビデオストリーム中の任意のフレームの画像から運転者の顔部領域画像を検出し、該顔部領域画像を運転者の顔部画像としてもよい。上記運転者の顔部領域画像を検出する方式は、任意の顔部検出アルゴリズムであってもよいので、本開示はこれに限定されない。

【0102】

本開示の実施例では、車両の室内空間及び／又は車両の室外空間を複数の異なる領域に分割することで、異なるカテゴリーの注視領域を取得し、例を挙げると、図６は、本開示に係る注視領域のカテゴリーの分割方式であり、図６に示すように、車両に対して予め空間領域分割を行って得られた複数カテゴリーの注視領域は、左フロントガラス領域（１番の注視領域）、右フロントガラス領域（２番の注視領域）、ダッシュボード領域（３番の注視領域）、車内バックミラー領域（４番の注視領域）、センターコンソール領域（５番の注視領域）、左バックミラー領域（６番の注視領域）、右バックミラー領域（７番の注視領域）、サンバイザ領域（８番の注視領域）、シフトロッド領域（９番の注視領域）、ハンドル下方領域（１０番の注視領域）、副操縦領域（１１番の注視領域）、副操縦の前の雑物キャビネット領域（１２番の注視領域）のうちの２カテゴリー以上を含む。車載表示領域は、センターコンソール領域（５番の注視領域）を多重することができる。

【0103】

この方式を採用して車の空間領域を分割し、運転者の注意力に的を絞って分析することに有利である。上記空間領域分割方式は、運転者が運転状態にあるとき、注意する可能性のある各種の領域を十分に考慮し、車両の前方空間で運転者の注意力を全面的に分析することに有利であり、運転者の注意力分析の正確さと精度を向上させる。

【0104】

車種によって車の空間分布が同じではないため、車種によって注視領域のカテゴリーを分割してもよく、例えば、図６における運転室が車の左側にあり、正常運転中、運転者の視線がほとんど左フロントガラス領域にある一方、運転室が車の右側にある車種の場合、正常運転中、運転者の視線がほとんど右フロントガラス領域にある。注視領域のカテゴリーの分割は、図６における注視領域のカテゴリーの分割とは異なることが明らかになっている。また、車内人員の好みに応じて、注視領域のカテゴリーを分割してもよく、例えば、車内人員は、センターコンソールのスクリーン面積が小さすぎると感じ、スクリーン面積が大きい端末によってエアコンやスピーカなどの車載機器を制御することが好きである場合、該端末の配置位置に基づいて、注視領域内のセンターコンソール領域を調整することができる。また、具体的な状況に応じて他の方式で注視領域のカテゴリーを分割することができ、本開示では、注視領域のカテゴリーの分割方式については限定されない。

【0105】

眼球は、運転者が道路情報を取得する主な感覚器官であり、運転者の視線のある領域は運転者の注意力状況を大きく反映しており、ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像を処理することにより、各フレームの顔部画像における運転者の注視領域のカテゴリーを特定することができ、さらに運転者注意力に対する分析を実現する。いくつかの可能な実施形態では、運転者の顔部画像を処理し、顔部画像における運転者の視線方向を取得し、予め設定された視線方向と注視領域のカテゴリーとのマッピング関係に基づいて、顔部画像における運転者の注視領域のカテゴリーを特定する。他のいくつかの可能な実施形態では、運転者の顔部画像に対して特徴抽出処理を行い、抽出された特徴に基づいて顔部画像における運転者の注視領域のカテゴリーを特定する。いくつかの実施例では、運転者の注視領域のカテゴリーの識別情報は、各注視領域に対応する所定番号であってもよい。

【0106】

いくつかの実施例では、上記ステップ１０３－８は、図７に示すように、ステップ１０３－８１及び１０３－８２を含むことができる。

【0107】

ステップ１０３－８１では、前記ビデオストリームに含まれる前記運転領域にいる運転者の少なくとも１フレームの顔部画像に対して視線及び／又は頭部姿態検出を行う。

【0108】

本開示の実施例では、視線及び／又は頭部姿態検出は、視線検出、頭部姿態検出、視線検出及び頭部姿態検出を含む。

【0109】

予めトレーニングされたニューラルネットワークによって運転者の顔部画像に対して視線検出及び頭部姿態検出を行い、視線及び視線の起点位置を含む視線情報及び／又は頭部姿態情報を取得でき、１つの可能な実施形態では、運転者の顔部画像に対して畳み込み処理、正規化処理、線形変換を順に行うことで、視線情報及び／又は頭部姿態情報を取得する。

【0110】

運転者の顔部画像に対して、運転者顔部の確認、眼部領域の特定、虹彩中心の特定を順に行い、視線検出を実現して視線情報を特定する。いくつかの可能な実施形態では、人が正視するまたは見上げる時に、目の輪郭が見下ろ時よりも大きいので、先ず予め測定されたアイホールの大きさに基づいて、見下ろを正視及び見上げと区別する。そして、見上げるまたは正視するとき、上アイホールから眼球中心までの距離の比が異なるため、見上げと正視とを区別し、そして、左、中、右へ見る問題を処理する。すべての瞳孔点からアイホールの左側縁までの距離の二乗和と、右側縁までの距離の二乗和との比を計算し、該比に基づいて、左、中、右へ見るときの視線情報を特定する。

【0111】

さらに、運転者の顔部画像を処理し、運転者の頭部姿態を特定できる。いくつかの可能な実施形態では、運転者の顔部画像に対して面部特徴点（例えば、口、鼻、眼球）の抽出を行い、抽出された面部特徴点に基づいて、顔部画像における面部特徴点の位置を特定し、そして面部特徴点と頭部との相対位置に基づいて、顔部画像における運転者の頭部姿態を特定する。

【0112】

また、さらに、視線及び頭部姿態を同時に検出し、検出精度を向上させることができる。いくつかの可能な実施形態では、車両に配備されたカメラによって、眼部運動のシーケンス画像を収集し、該シーケンス画像と、正視時の眼部画像とを比較し、比較した違いに応じて、眼球の回転角度を得て、眼球の回転角度に基づいて視線ベクトルを特定する。ここでは、頭部が動かないと仮定して測定した検出結果である。頭部がわずかに回転した場合、座標補償メカニズムを作成し、正視時の眼部画像を調整する。一方、頭部が大きく偏向した場合、空間のある固定座標系に対する頭部の変化位置、方向を観察してから、視線ベクトルを特定する必要がある。

【0113】

以上は、本開示の実施例に係る視線及び／又は頭部姿態の検出の例であり、具体的な実現では、当業者はさらに他の方法で視線及び／又は頭部姿態を検出できるが、本開示では限定しないことを理解されたい。

【0114】

ステップ１０３－８２では、各フレームの顔部画像に対して、このフレームの顔部画像の視線及び／又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定する。

【0115】

本開示の実施例では、視線検出結果は、各フレームの顔部画像における運転者の視線ベクトル及び視線ベクトルの開始位置を含み、頭部姿態検出結果は、各フレームの顔部画像における運転者の頭部姿態を含み、視線ベクトルは、視線の方向として理解され、視線ベクトルに基づいて、顔部画像における運転者の視線の、運転者の正視時の視線に対するずれ角度を特定できる。頭部姿態は、運転者頭部の座標系におけるオーロラ角などとすることができ、上記座標系は、世界座標系、カメラ座標系、画像座標系などとすることができる。

【0116】

トレーニングセットによって注視領域分類モデルをトレーニングし、トレーニング後の注視領域分類モデルが視線及び／又は頭部姿態の検出結果に応じて、運転者の注視領域のカテゴリーを特定でき、該トレーニングセット中の顔部画像は、視線及び／又は頭部姿態検出結果、及び視線及び／又は頭部姿態検出結果に対応する注視領域カテゴリーのマーク情報を含む。上記注視領域分類モデルは、ポリシーツリー分類モデル、選択ツリー分類モデル、ｓｏｆｔｍａｘ分類モデルなどを含むことができる。いくつかの可能な実施形態では、視線検出結果及び頭部姿態検出結果は、いずれも特徴ベクトルであり、視線検出結果と頭部姿態検出結果とを融合処理し、注視領域分類モデルは、融合後の特徴に基づいて運転者の注視領域のカテゴリーを特定する。一実施例では、上記融合処理は、特徴スティッチング（ｓｔｉｔｃｈｉｎｇ）であってもよい。他のいくつかの可能な実施形態では、注視領域分類モデルは、視線検出結果又は頭部姿態検出結果に応じて運転者の注視領域のカテゴリーを特定できる。

【0117】

車種によって、車内環境及び注視領域のカテゴリーの分割方式も異なる可能性があり、いくつかの実施例では、車種に対応するトレーニングセットを用いて、注視領域を分類するための分類器をトレーニングすることで、トレーニング後の分類器を異なる車種に適用することができる。新しい車種に対応するトレーニングセット中の顔部画像は、該新しい車種注視領域カテゴリーのマーク情報に対応する視線及び／又は頭部姿態検出結果、及び対応する新しい車種の注視領域カテゴリーのマーク情報を含み、新しい車種で使用すべき分類器をトレーニングセットに基づいて監視トレーニングする。分類器は、ニューラルネットワーク、サポートベクタマシンなどに基づいて予め構築されてもよいが、本開示は、分類器の具体的な構造について限定しない。

【0118】

いくつかの可能な実施形態では、Ａ車種の場合、運転者の前方空間を１２個の注視領域に分割する一方、Ｂ車種の場合、Ｂ車種の車空間特徴に基づいて、運転者の前方空間を１０個の注視領域に分割できる。この場合、Ａ車種に基づいて構築された運転者の注意力分析ソリューションをＢ車種に適用すると、該Ａ車種に基づく注意力分析ソリューションをＢ車種に適用する前、Ａ車種の視線及び／又は頭部姿態検出技術を多重し、Ｂ車種の空間特徴に対して注視領域を再分割し、視線及び／又は頭部姿態検出技術及びＢ車種に対応する注視領域に基づいて、Ｂ車種に対するトレーニングセットを構築し、該Ｂ車種に対するトレーニングセット中の顔部画像は、視線及び／又は頭部姿態検出結果及びＢ車種に対応する注視領域のカテゴリーのマーク情報を含み、このようにして、視線及び／又は頭部姿態検出用のモデルを再トレーニングすることなく、構築されたＢ車種に対するトレーニングセットに基づいて、Ｂ車種の注視領域分類用の分類器に対して監視トレーニングを行う。トレーニング後の分類器及び多重される視線及び／又は頭部姿態検出技術は、Ｂ車種に適用できる運転者の注意力分析ソリューションを構成する。

【0119】

いくつかの実施例では、注視領域分類に必要な特徴情報検出（例えば、視線及び／又は頭部姿態検出）、及び上記特徴情報に基づく注視領域分類を独立した２つの段階に分けて行い、視線及び／又は頭部姿態などの特徴情報検出技術の、異なる車種における多重性を向上させる。注視領域分割が変化した新しい適用シーン（例えば、新しい車種など）は、新しい注視領域分割に適合する分類器又は分類方法のみを調整すればよいので、注視領域分割が変化した新しい適用シーンで、運転者の注意力分析ソリューションの調整の複雑性及び計算量を減少させ、技術的解決手段の適合性と汎化性を向上させ、これにより、多様化した実用的な適用ニーズを満足させることができる。

【0120】

注視領域分類に必要な特徴情報検出、及び上記特徴情報に基づく注視領域分類を独立した２つの段階に分けるほか、本開示の実施例は、さらに、ニューラルネットワークに基づいて、注視領域カテゴリーのエンドツーエンドの検出を行うことができ、すなわち、ニューラルネットワークに顔部画像を入力し、ニューラルネットワークが顔部画像を処理した後に注視領域カテゴリーの検出結果を出力する。ニューラルネットワークは、畳み込み層、非線形層、全結合層などのネットワークユニットに基づいて所定の方法でスタックしたり構成したりしてもよいし、従来のニューラルネットワーク構造を用いてもよいが、本開示はこれについて限定しない。トレーニングすべきニューラルネットワーク構造が特定されると、前記ニューラルネットワークは、顔部画像セットを用いて監視トレーニングを行ってもよいし、又は、顔部画像セット及び前記顔部画像セット中の各顔部画像に基づいて切り取られた眼部画像を用いて監視トレーニングしてもよい。前記顔部画像セット中の各顔部画像は、該顔部画像における注視領域カテゴリーのマーク情報を含み、該顔部画像における前記注視領域カテゴリーのマーク情報は、前記複数カテゴリーの定義された注視領域の１つを指示する。前記顔部画像セットに基づいてニューラルネットワークに対して監視トレーニングを行うことにより、該ニューラルネットワークが注視カテゴリー領域の分割に必要な特徴抽出能力、及び注視領域の分類能力の両方を学習でき、それによって、画像を入力して注視領域カテゴリーの検出結果を出力するというエンドツーエンドの検出を実現する。

【0121】

いくつかの実施例では、図８に示すように、本開示の実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のプロセス模式図である。

【0122】

ステップ２０１では、顔部画像セット中の、前記注視領域カテゴリーのマーク情報を含む顔部画像を取得する。

【0123】

本実施例では、顔部画像セット中の各フレームの顔部画像は、いずれも、注視領域のカテゴリーのマーク情報を含み、図６の注視領域のカテゴリーの分割を例とすると、各フレームの顔部画像に含まれるマーク情報は、１～１２のいずれかの数字である。

【0124】

ステップ２０２では、前記顔部画像セット中の顔部画像に対して特徴抽出処理を行い、第４特徴を取得する。

【0125】

ニューラルネットワークによって顔部画像に対して特徴抽出処理を行い、第４特徴を取得する、いくつかの可能な実施形態では、顔部画像に対して、畳み込み処理、正規化処理、第１線形変換、第２線形変換を順に行って特徴抽出処理を実現し、第４特徴を取得する。

【0126】

先ず、ニューラルネットワークにおける多層の畳み込み層によって顔部画像に対して畳み込み処理を行い、第５特徴を取得し、各々の畳み込み層から抽出された特徴内容及びセマンティクス情報はそれぞれ異なり、具体的には、多層の畳み込み層の畳み込み処理によって、画像特徴を逐次的に抽象化しながら、副次的な特徴を逐次的に除去する。従って、後で抽出される特徴サイズが小さくなるほど、内容及びセマンティクス情報が濃縮される。多層の畳み込み層によって、顔部画像に対して段階的に畳み込み操作を行い、対応する中間特徴を抽出し、最終的に一定大きさの特徴データを取得する。このようにして、顔部画像の主要内容情報（すなわち、顔部画像の特徴データ）を取得するとともに、画像サイズを狭め、システムの計算量を減少させ、速度を向上させることができる。上記畳み込み処理の実現プロセスは、畳み込み層が顔部画像に対して畳み込み処理を行い、すなわち、畳み込みコアを顔部画像をスライドさせ、顔部画像点における画素値を対応する畳み込みコアにおける数値に乗算し、そして全ての乗算値を加算して畳み込みコア中間画素に対応する画像における画素値とし、最終的に、顔部画像におけるすべての画素値をスライド処理し、第５特徴を抽出することである。本開示は、上記の畳み込み層の数について具体的に限定しないことを理解されたい。

【0127】

顔部画像に対して畳み込み処理を行うとき、データを１層のネットワークにより処理するたびに、データ分布を変更し、このように、次の層ネットワークの抽出に困難が生じる。従って、畳み込み処理して得られた第５特徴を後処理する前に、第５特徴を正規化する必要があり、すなわち、平均値が０且つ分散が１の正規分布になるように、第５特徴を正規化する。いくつかの可能な実施形態では、畳み込み層の後に正規化処理用のＢＮ層を結合し、ＢＮ層は、トレーニング可能なパラメータを追加することによって特徴を正規化処理することで、トレーニング速度を速くし、データの関連性を除去し、特徴間の分布差異を強調することができる。一例では、ＢＮ層が第５特徴を処理するプロセスは、以下を参照することができる。

【0128】

第５特徴をβ＝ｘ_１→ｍとし、合計、ｍ個のデータがあり、出力をｙ_ｉ＝ＢＮ（ｘ）とし、ＢＮ層は、第５特徴に対して以下の操作を行う。

【0129】

先ず、上記第５特徴β＝ｘ_１→ｍの平均値を求め、すなわち、

【数1】

上記平均値μ_βに基づいて、上記第５特徴の分散を特定し、すなわち、

【数2】

上記平均値μ_β及び分散

に基づいて、上記第５特徴を正規化処理し、

を取得し、
最後に、スケーリング変数γ及び並進変数δに基づいて、正規化結果を取得し、すなわち、

【数3】

ただし、γ及びδは、いずれも既知である。

【0130】

畳み込み処理及び正規化処理がデータから複雑なマッピングを学習する能力が低く、画像、ビデオ、オーディオ、音声などの複雑な種類のデータを学習処理できない。従って、正規化処理済みのデータを線形変換することにより、画像処理、ビデオ処理などの複雑な問題を解決する必要がある。ＢＮ層の後に線性活性化関数を結合し、正規化処理済みのデータを活性化関数により線形変換し、複雑なマッピングを処理できる。いくつかの可能な実施形態では、正規化処理済みのデータを正規化線形（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ、ＲｅＬＵ）関数に代入し、正規化処理済みのデータに対する第１線形変換を実現し、第６特徴を取得する。

【0131】

活性化関数層の後に全結合（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ、ＦＣ）層を結合し、全結合層によって第６特徴を処理することで、第６特徴をサンプル（すなわち、注視領域）マーク空間にマッピングすることができる。いくつかの可能な実施形態では、全結合層によって第６特徴に対して第２線形変換を行う。全結合層は、入力層（すなわち、活性化関数層）及び出力層を含み、出力層のいずれかのニューロンは、入力層の各ニューロンに結合される。出力層における各ニューロンは、いずれも、対応する重み及びバイアスを有する。従って、全結合層のすべてのパラメータは、各ニューロンの重み及びバイアスであり、該重み及びバイアスの特定の大きさは、全結合層をトレーニングすることによって得られる。

【0132】

第６特徴を全結合層に入力すると、全結合層の重み及びバイアス（すなわち、第２特徴データの重み）を取得し、重み及びバイアスに基づいて上記第６特徴を重み加算し、上記第４特徴を取得し、いくつかの可能な実施形態では、全結合層の重み及びバイアスは、それぞれ、ｗ_i及びｂ_iであり、ただし、iはニューロンの数であり、第６特徴はｘであり、全結合層が第３特徴データに対して第２線形変換を行って得られた第１特徴データは

【数4】

である。

【0133】

ステップ２０３では、第１特徴データに対して第１非線形変換を行い、注視領域カテゴリーの検出結果を取得する。

【0134】

全結合層の後にｓｏｆｔｍａｘ層を結合し、入力された異なる特徴データをｓｏｆｔｍａｘ層に内蔵されたｓｏｆｔｍａｘ関数によって０～１の値にマッピングし、マッピング後のすべての値の和は、１であり、マッピング後の値は、入力された特徴に一対一対応し、このように、各々の特徴データに対する予測が完了し、対応する確率を数値的に与えるのに相当する。１つの可能な実施形態では、第４特徴をｓｏｆｔｍａｘ層に入力し、第４特徴をｓｏｆｔｍａｘ関数に代入して第１非線形変換を行い、運転者の視線が異なる注視領域にある確率を取得する。

【0135】

ステップ２０４では、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。

【0136】

本実施例では、ニューラルネットワークは、損失関数を含み、損失関数は、交差エントロピー損失関数、平均二乗誤差損失関数、二乗損失関数などとすることができ、本開示は損失関数の具体的な形について限定しない。

【0137】

顔部画像セット中の各顔部画像は、対応するマーク情報を有し、すなわち、各顔部画像は、１つの注視領域カテゴリーに対応し、ステップ２０２で得られた異なる注視領域の確率及びマーク情報を損失関数に代入し、損失関数値を取得する。ニューラルネットワークのネットワークパラメータを調整することにより、損失関数値を設定された閾値以下にし、ニューラルネットワークのトレーニングが完了し、上記ネットワークパラメータは、ステップ２０１と２０２での各ネットワーク層の重み及びバイアスを含む。

【0138】

本実施例は、前記注視領域カテゴリーのマーク情報を含む顔部画像セットに基づいて、ニューラルネットワークをトレーニングし、トレーニング後のニューラルネットワークは、抽出された顔部画像の特徴に基づいて注視領域のカテゴリーを特定でき、本実施例に係るトレーニング方法は、顔部画像セットのみを入力すれば、トレーニング後のニューラルネットワークを取得でき、トレーニング方法が簡単で、トレーニング時間が短い。

【0139】

いくつかの実施例では、図９に示すように、図９は、本開示の他の実施例に係る上記ニューラルネットワークのトレーニング方法のプロセス模式図である。

【0140】

ステップ３０１では、前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得する。

【0141】

本実施例では、顔部画像セット中の各フレームの顔部画像は、いずれも、注視領域のカテゴリーのマーク情報を含み、図６の注視領域のカテゴリーの分割を例とすると、各フレームの顔部画像に含まれるマーク情報は１～１２のいずれかの数字である。

【0142】

異なるスケールの特徴を融合し、特徴情報を豊富にすることで、注視領域のカテゴリーの検出精度を向上させることができ、上記特徴情報を豊富するプロセスについては、ステップ３０２～３０５を参照することができる。

【0143】

ステップ３０２では、前記顔部画像における少なくとも１つの眼の眼部画像を切り取り、前記少なくとも１つの眼は、左眼及び／又は右眼を含む。

【0144】

本実施例では、顔部画像における眼部領域画像を認識し、スクリーンショットソフトウェアによって、顔部画像から眼部領域画像を切り取りしてもよいし、作図ソフトウェアによって顔部画像から眼部領域画像を切り取りしてもよい。本開示では、顔部画像における眼部領域画像を如何に認識するか、及び、顔部画像から眼部領域画像を如何に切り取るかの具体的な実現形態については、限定しない。

【0145】

ステップ３０３では、前記顔部画像の第１特徴及び少なくとも１つの眼の眼部画像の第２特徴をそれぞれ抽出する。

【0146】

本実施例では、トレーニングされたニューラルネットワークは、複数の特徴抽出ブランチを含み、異なる特徴抽出ブランチによって顔部画像及び眼部画像に対して第２特徴抽出処理を行い、顔部画像の第１特徴及び眼部画像の第２特徴を取得し、抽出された画像特徴スケールを豊富する。いくつかの可能な実施形態では、異なる特徴抽出ブランチによってそれぞれ顔部画像に対して畳み込み処理、正規化処理、第３線形変換、第４線形変換を順に行い、第１特徴及び第２特徴を取得し、視線ベクトル情報は、視線ベクトル及び視線ベクトルの起点位置を含む。上記眼部画像は、１つの眼球（左眼又は右眼）のみを含んでもよいし、２つの眼球を含んでもよいが、本開示はこれについて限定しないことを理解されたい。

【0147】

上記畳み込み処理、正規化処理、第３線形変換、第４線形変換の具体的な実現プロセスについては、ステップ２０２での畳み込み処理、正規化処理、第１線形変換、第２線形変換を参照することができ、ここでは説明を省略する。

【0148】

ステップ３０４では、前記第１特徴と前記第２特徴を融合し、第３特徴を取得する。

【0149】

同一物体（本実施例では、運転者を指す）の異なるスケールの特徴に含まれるシーン情報はそれぞれ異なるので、異なるスケールの特徴を融合することにより、より豊富な情報を得ることができる。

【0150】

いくつかの可能な実施形態では、第１特徴及び第２特徴を融合処理することにより、複数の特徴のうちの特徴情報を１つの特徴に融合することができ、運転者注視領域のカテゴリーの検出精度を向上させることに有利である。

【0151】

ステップ３０５では、前記第３特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定する。

【0152】

本実施例では、注視領域カテゴリーの検出結果は、運転者の視線が異なる注視領域にある確率であり、値範囲は０～１である。いくつかの可能な実施形態では、第３特徴をｓｏｆｔｍａｘ層に入力し、第３特徴をｓｏｆｔｍａｘ関数に代入して第２非線形変換を行い、運転者の視線が異なる注視領域にある確率を取得する。

【0153】

ステップ３０６では、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。

【0154】

【0155】

ステップ３０５で得られた異なる注視領域の確率及びマーク情報を損失関数に代入し、損失関数値を取得する。ニューラルネットワークのネットワークパラメータを調整することにより、損失関数値を設定された閾値以下にし、ニューラルネットワークのトレーニングが完了し、上記ネットワークパラメータは、ステップ３０３～３０５での各ネットワーク層の重み及びバイアスを含む。

【0156】

本実施例に係るトレーニング方法でトレーニングして得られたニューラルネットワークは、同一フレーム画像から抽出された異なるスケールの特徴を融合でき、特徴情報を豊富にし、さらに融合後の特徴に基づいて運転者の注視領域のカテゴリーを認識して認識精度を向上させる。

【0157】

本開示に係る２つのニューラルネットワークのトレーニング方法（ステップ２０１～２０４及びステップ３０１～３０６）は、ローカル端末（例えば、コンピュータ又は携帯電話）において実現されてもよく、クラウド（例えば、サーバなど）によって実現されてもよいことを当業者は理解するであろう。本開示はこれに限定されない。

【0158】

いくつかの実施例では、例えば、図１０に示すように、上記インタラクション方法は、ステップ１０８及び１０９をさらに含むことができる。

【0159】

ステップ１０８では、前記インタラクションフィードバック情報に対応する車両制御命令を生成する。

【0160】

本開示の実施例では、デジタル人によって出力されたインタラクションフィードバック情報に対応する車両制御命令を生成できる。

【0161】

例えば、デジタル人によって出力されたインタラクションフィードバック情報が「歌を流しましょう」である場合、車両制御命令は、車載オーディオ再生機器を制御してオーディオを再生させることであり得る。

【0162】

ステップ１０９では、前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させる。

【0163】

本開示の実施例では、対応するターゲット車載機器を制御して、車両制御命令によって指示される操作を実行させることができる。

【0164】

例えば、車両制御命令が窓を開くと、車窓の低下を制御できる。また、例えば、車両制御命令がラジオをオフにすると、ラジオをオフにするように制御できる。

【0165】

上記実施例では、デジタル人にインタラクションフィードバック情報を出力させることができるほか、インタラクションフィードバック情報に対応する車両制御命令を生成することもでき、それにより、対応するターゲット車載機器を制御して対応する操作を実行させ、デジタル人が車内人員と車の暖かいリンクになる。

【0166】

いくつかの実施例では、前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、ステップ１０８は、１０８－１及びステップ１０８－２のうちの少なくとも１つステップを含むことができる。

【0167】

ステップ１０８－１では、ターゲット車載機器をトリガーする第１車両制御命令を生成する。

【0168】

ただし、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも１つによって、前記車内人員の疲労又は気散らしの度合いを緩和する車載機器を含む。

【0169】

例えば、インタラクションフィードバック情報が「とても疲れたでしょう。リラックスしましょう」を含むと、車内人員の疲労レベルが最疲労であることを判断し、シートマッサージを起動する第１車両制御命令を生成でき、又は、インタラクションフィードバック情報が「気を散らさないでください」を含むと、車内人員の疲労度が最軽であることを判断し、オーディオ再生を起動する第１車両制御命令を生成でき、又は、インタラクションフィードバック情報が「気が散ってるでしょう、疲れたでしょう」を含むと、疲労レベルが中度であることを判断し、フレグランスシステムを起動する第１車両制御命令を生成できる。

【0170】

ステップ１０８－２では、運転補助をトリガーする第２車両制御命令を生成する。

【0171】

本開示の実施例では、自動運転を起動して運転者の運転を補助するなどの運転補助の第２車両制御命令をさらに生成できる。

【0172】

上記実施例では、ターゲット車載機器をトリガーする第１車両制御命令及び／又は運転補助をトリガーする第２車両制御命令をさらに生成でき、運転安全性を向上させる。

【0173】

いくつかの実施例では、前記インタラクションフィードバック情報がジェスチャー検出結果に対する確認内容を含み、例えば、図１１Ａ及び図１１Ｂに示すように、車内人員が親指を立てるジェスチャーを入力し、又は、親指と中指を立てるジェスチャーを入力し、デジタル人が「はい」、「問題なし」などのインタラクションフィードバック情報を出力し、ステップ１０８は、ステップ１０８－３を含むことができる。

【0174】

ステップ１０８－３では、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成する。

【0175】

本開示の実施例では、ジェスチャーと車両制御命令とのマッピング関係を予め記憶し、対応する車両制御命令を特定することができる。例えば、マッピング関係に基づいて、親指と中指を立てるジェスチャーに対応する車両制御命令は、車載プロセッサがブルートゥース（登録商標）によって画像を受信することである。又は、親指のみを立てるジェスチャーに対応する車両制御命令は、車載カメラが画像を撮影することである。

【0176】

上記実施例では、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成でき、車内人員がより柔軟に車両を制御でき、デジタル人が車内人員との暖かいリンクになる。

【0177】

いくつかの実施例では、デジタル人によって出力されたインタラクション情報に基づいて、他の車載機器のオンオフを制御できる。

【0178】

例えば、デジタル人によって出力されたインタラクション情報が「窓やエアコンを開いてあげましょう」を含むと、窓を開けたり、エアコンを起動したりするように制御する。また、例えば、デジタル人が乗客へ出力したインタラクション情報が「ゲームをしましょう」を含むと、車載表示装置を制御してゲームインタフェースを表示する。

【0179】

本開示の実施例では、デジタル人が車両と車内人員との暖かいリンクとして、車内人員の運転に付き添い、デジタル人がより人間的になり、よりスマートなドライブパートナーになる。

【0180】

上記実施例では、車載カメラによってビデオストリームを収集し、ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得することができる。例えば、顔部検出を行い、顔部を検出すると、視線検出又は注視領域検出を行い、視線方向が車載表示装置に向かう又は注視領域と車載機器の配置領域とが少なくとも部分的に重複することを検出した場合、デジタル人を車載表示装置に表示できる。いくつかの実施例では、少なくとも１フレームの画像に対して顔部認識を行い、車内に人がいると判断すると、図１２Ａに示すように、デジタル人を車載表示装置に表示できる。

【0181】

又は、図１２Ｂに示すように、少なくとも１フレームの画像に対して視線検出又は注視領域検出を行い、視線注視によってデジタル人を起動することを実現する。

【0182】

顔部認識結果に対応する第１デジタル人が予め記憶されていない場合、第２デジタル人を車載表示装置に表示してもよいし、又は、通知情報を出力し、車内人員に第１デジタル人を設定させてもよい。

【0183】

図１２Ｃに示すように、第１デジタル人は、運転中、車内人員に付き添うことができ、車内人員とインタラクションし、音声フィードバック情報、表情フィードバック情報及び動作フィードバック情報のうちの少なくとも１つを出力する。

【0184】

上記プロセスを通じて、視線によって、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させ、車内人員とインタラクションするという目的を実現し、本開示の実施例では、視線を用いて上記プロセスを実現することができるほか、複数のモードを通じて、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させることができる。

【0185】

図１３Ａは、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。図１３Ａに示すように、該車載デジタル人に基づくインタラクション方法は、ステップ１１０～ステップ１１２を含む。

【0186】

ステップ１１０では、車載音声収集機器により収集された前記車内人員のオーディオ情報を取得する。

【0187】

本開示の実施例では、さらに、車載音声収集機器、例えば、マイクロホンによって車内人員のオーディオ情報を収集できる。

【0188】

ステップ１１１では、前記オーディオ情報に対して音声認識を行い、音声認識結果を取得する。

【0189】

本開示の実施例では、オーディオ情報に対して音声認識を行い、異なる命令に対応する音声認識結果を取得できる。

【0190】

ステップ１１２では、前記音声認識結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。

【0191】

本開示の実施例では、車内人員がデジタル人を音声によって起動し、すなわち、前記音声認識結果に応じて、デジタル人を車載表示装置に表示してもよいし、又は、車内人員の音声に基づいてデジタル人を制御してインタラクションフィードバック情報を出力させてもよく、該インタラクションフィードバック情報は、同様に、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報のうちの少なくとも１つを含むことができる。

【0192】

例えば、車内人員が車に入った後、「デジタル人を起動する」を音声入力すると、該オーディオ情報に基づいてデジタル人を車載表示装置に表示し、このデジタル人は、この前に車内人員により予め設定された第１デジタル人であってもよいし、又は、デフォルトの第２デジタル人であってもよいし、又は、通知情報を音声出力し、車内人員に第１デジタル人を設定させてもよい。

【0193】

また、例えば、車載表示装置に表示されたデジタル人を制御して車内人員とチャットさせ、車内人員が「今日は暑いですね」を音声入力すると、デジタル人は、音声、表情又は動作のうちの少なくとも１つによって、「エアコンをつけましょうか」というインタラクションフィードバック情報を出力する。

【0194】

上記実施例では、車内人員は、視線によって、デジタル人を起動し又はデジタル人を制御してインタラクションフィードバック情報を出力させることができるほか、さらに、音声によって、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させることができ、デジタル人と車内人員のインタラクションがより多くのモードを有し、デジタル人の知能度を向上させる。

【0195】

図１３Ｂは、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。図１３Ｂに示すように、該車載デジタル人に基づくインタラクション方法は、ステップ１０１、１０２、１１０、１１１及び１１３を含む。

【0196】

ステップ１０１、１０２、１１０及び１１１についての関連説明は、上記実施例を参照することができ、ただし、ここでは説明を省略する。

【0197】

ステップ１１３では、前記音声認識結果及び前記タスク処理結果に応じて、前記デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。

【0198】

上記方法の実施例に対応して、本開示は、装置の実施例をさらに提供する。

【0199】

図１４に示すように、図１４は、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置ブロック図であり、装置は、車載カメラにより収集された車内人員のビデオストリームを取得するための第１取得モジュール４１０と、前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュール４２０と、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第１インタラクションモジュール４３０とを含む。

【0200】

いくつかの実施例では、前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも１つを含み、及び／又は、前記車内人員は、運転者、乗客の少なくとも１つを含み、及び／又は、前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも１つを含む。

【0201】

いくつかの実施例では、前記第１インタラクションモジュールは、タスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得するための第１取得サブモジュールと、前記マッピング関係に基づいて、前記タスク処理結果に対応するインタラクションフィードバック命令を特定するための特定サブモジュールと、前記デジタル人を制御して前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させるための制御サブモジュールとを含む。

【0202】

いくつかの実施例では、前記所定タスクは、顔部認識を含み、前記タスク処理結果は、顔部認識結果を含み、前記第１インタラクションモジュールは、前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されることに応答して、前記第１デジタル人を前記車載表示装置に表示するための第１表示サブモジュール、又は、前記車載表示装置に前記顔部認識結果に対応する第１デジタル人が記憶されていないことに応答して、第２デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力するための第２表示サブモジュールを含む。

【0203】

いくつかの実施例では、前記第２表示サブモジュールは、顔部画像の画像収集通知情報を前記車載表示装置に出力するための表示ユニットを含む。前記装置は、顔部画像を取得するための第２取得モジュールと、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得するための顔部属性分析モジュールと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定するためのテンプレート特定モジュールと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成するデジタル人生成モジュールとをさらに含む。

【0204】

いくつかの実施例では、前記デジタル人生成モジュールは、前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶するための第１記憶サブモジュールを含む。

【0205】

いくつかの実施例では、前記デジタル人生成モジュールは、前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得するための第２取得サブモジュールと、前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整するための調整サブモジュールと、調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶するための第２記憶サブモジュールとを含む。

【0206】

いくつかの実施例では、前記第２取得モジュールは、前記車載カメラにより収集された顔部画像を取得するための第３取得サブモジュール、又は、アップロードされた前記顔部画像を取得するための第４取得サブモジュールを含む。

【0207】

いくつかの実施例では、前記所定タスクは、視線検出を含み、前記タスク処理結果は、視線方向検出結果を含み、前記第１インタラクションモジュールは、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第３表示サブモジュールを含む。

【0208】

いくつかの実施例では、前記所定タスクは、注視領域検出を含み、前記タスク処理結果は、注視領域検出結果を含み、前記第１インタラクションモジュールは、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第４表示サブモジュールを含む。

【0209】

いくつかの実施例では、前記車内人員は、運転者を含み、前記第１インタラクションモジュールは、前記ビデオストリームに含まれる前記運転領域にいる少なくとも１フレームの運転者の顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の１つであるカテゴリー特定サブモジュールを含む。

【0210】

いくつかの実施例では、予め前記車に対して空間領域分割を行って得られた前記複数カテゴリーの定義された注視領域は、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、車載表示領域のうちの２カテゴリー以上を含む。

【0211】

いくつかの実施例では、前記カテゴリー特定サブモジュールは、前記ビデオストリームに含まれる、前記運転領域にいる運転者の少なくとも１フレームの顔部画像に対して視線及び／又は頭部姿態検出を行うための第１検出ユニットと、各フレームの顔部画像に対して、このフレームの顔部画像の視線及び／又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定するためのカテゴリー特定ユニットとを含む。

【0212】

いくつかの実施例では、前記カテゴリー特定サブモジュールは、前記少なくとも１フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、前記複数カテゴリーの定義された注視領域の１つを指示する該顔部画像における注視領域カテゴリーのマーク情報を含み、又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされる入力ユニットを含む。

【0213】

いくつかの実施例では、前記装置は、前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得するための第３取得モジュールと、前記顔部画像における少なくとも１つの眼の眼部画像を切り取るための切り取りモジュールであって、前記少なくとも１つの眼は、左眼及び／又は右眼を含む切り取りモジュールと、前記顔部画像の第１特徴及び少なくとも１つの眼の眼部画像の第２特徴をそれぞれ抽出するための特徴抽出モジュールと、前記第１特徴と前記第２特徴を融合し、第３特徴を取得するための融合モジュールと、前記第３特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定するための検出結果特定モジュールと、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整するパラメータ調整モジュールとをさらに含む。

【0214】

いくつかの実施例では、前記装置は、前記インタラクションフィードバック情報に対応する車両制御命令を生成するための車両制御命令生成モジュールと、前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるための制御モジュールとをさらに含む。

【0215】

いくつかの実施例では、前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、前記車両制御命令生成モジュールは、ターゲット車載機器をトリガーする第１車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも１つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含む第１生成サブモジュール、及び／又は、運転補助をトリガーする第２車両制御命令を生成するための第２生成サブモジュールとを含む。

【0216】

いくつかの実施例では、前記インタラクションフィードバック情報は、ジェスチャー検出結果に対する確認内容を含み、前記車両制御命令生成モジュールは、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成するための第３生成サブモジュールを含む。

【0217】

いくつかの実施例では、前記装置は、車載音声収集機器により収集された前記車内人員のオーディオ情報を取得するための第４取得モジュールと、前記オーディオ情報に対して音声認識を行い、音声認識結果を取得するための音声認識モジュールと、前記音声認識結果及び前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第２インタラクションモジュールとをさらに含む。

【0218】

装置の実施例については、基本的には方法の実施例に対応しているので、関連する部分については、方法の実施例での説明の一部を参照されたい。上記の装置の実施例は、単に例示的なものである。独立部材として説明されたユニットは、物理的に分離されてもよいし、分離されなくてもよく、ユニットとして表示された部材は、物理的ユニットであってもよいし、物理的ユニットでなくてもよく、即ち、同じ場所に設置されてもよいし、複数のネットワークユニットに分散してもよい。実際の必要に応じて、そのうちの一部または全部のユニットを選択して、本開示の解決策の目的を実現することができる。当業者は、創造的な作業なしで理解し、実行することができる。

【0219】

本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体をさらに提供し、プロセッサが該コンピュータプログラムを実行すると、プロセッサが上記実施例で説明された車載デジタル人に基づくインタラクション方法を実行する。

【0220】

いくつかの実施例では、本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品を提供し、コンピュータ読み取り可能なコードが機器上で実行されると、機器におけるプロセッサは、以上のいずれかの実施例に係る車載デジタル人に基づくインタラクション方法の命令を実行する。

【0221】

いくつかの実施例では、本開示の実施例は、コンピュータ読み取り可能な命令を記憶するための別のコンピュータプログラム製品をさらに提供し、命令が実行されると、コンピュータに上記のいずれか実施例に係る車載デジタル人に基づくインタラクション方法の操作を実行させる。

【0222】

該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェアまたはそれらの組み合わせによって実装することができる。いくつかの実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体的に具体化される。他のいくつかの実施例では、コンピュータプログラム製品は、ソフトウェア製品、例えば、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などとして具体的に具体化される。

【0223】

本開示の実施例は、車載デジタル人に基づくインタラクション装置をさらに提供し、インタラクション装置は、プロセッサが実行可能な命令を記憶するためのメモリを含み、プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、上記のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される。

【0224】

図１５は、本願の実施例に係る車載デジタル人に基づくインタラクション装置のハードウェア構造模式図である。該車載デジタル人に基づくインタラクション装置５１０は、プロセッサ５１１を含み、入力装置５１２、出力装置５１３及びメモリ５１４をさらに含むことができる。該入力装置５１２、出力装置５１３、メモリ５１４及びプロセッサ５１１は、バスを介して互いに結合される。

【0225】

メモリは、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ）、又はポータブル読み取り専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ－ＲＯＭ）を含むがこれらに限られない。該メモリは、関連する命令とデータを記憶するために用いられる。

【0226】

入力装置は、データ及び／又は信号を入力するために用いられ、出力装置は、データ及び／又は信号を出力するために用いられる。出力装置及び入力装置は、独立したデバイスであってもよいし、統合されたデバイスであってもよい。

【0227】

プロセッサは、１つ又は複数のプロセッサを含むことができ、例えば、１つ又は複数の中央プロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含み、プロセッサが１つのＣＰＵである場合、該ＣＰＵは、シングルコアＣＰＵであってもよいし、マルチコアＣＰＵであってもよい。

【0228】

メモリは、ネットワーク装置のプログラムコード及びデータを記憶するために用いられる。

【0229】

プロセッサは、該メモリにおけるプログラムコード及びデータを呼び出し、上記方法の実施例のステップを実行するために用いられる。具体的には、方法の実施例の説明を参照でき、ここでは繰り返さない。

【0230】

図１５は、車載デジタル人に基づくインタラクション装置の簡略化設計のみを示していることは理解できる。実際の応用では、該車載デジタル人に基づくインタラクション装置は、それぞれ必要な他の要素を含んでもよく、任意の数の入力／出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されず、本願の実施例の車載デジタル人に基づくインタラクションの解決手段を実現できるすべての要素は、本出願の保護範囲内にある。

【0231】

当業者は、明細書及びここに開示された発明を実践することを考慮して、本開示の他の実施形態を容易に想到できる。本開示は、本開示の任意の変形、用途または適応的変化をカバーすることを意図し、これらの変形、用途または適応的変化は、本開示の一般的な原理に従い、本開示の開示されていない本技術分野における公知の常識または慣用技術手段を含む。本開示の実際の範囲および要旨は、以下の特許請求の範囲によって示される。

【0232】

上記は本開示の好適な実施形態にすぎず、本開示を限定するものではなく、本開示の要旨及び原則の内に、行ったいかなる修正、同等置換や改善などは、本開示の保護の範囲内に含まれるものとする。

【図1】

【図2】

【図3】

【図4】

【図5A】

【図5B】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11A】

【図11B】

【図12A】

【図12B】

【図12C】

【図13A】

【図13B】

【図14】

【図15】

【手続補正書】

【提出日】2022-03-03

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも１つを含み、又は、
前記車内人員は、運転者、乗客の少なくとも１つを含み、又は、
前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも１つを含む、ことを特徴とする請求項１に記載の方法。

【請求項3】

【請求項4】

【請求項5】

前記顔部認識結果に対応する第１デジタル人を生成するための通知情報を出力することは、
顔部画像の画像収集通知情報を前記車載表示装置に出力することを含み、
画像収集通知情報に応答して取得された前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得することと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定することと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成することとをさらに含む、ことを特徴とする請求項４に記載の方法。

【請求項6】

前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第１デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶すること、又は
調整情報に基づいて調整された前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第１デジタル人として記憶し、前記調整情報が、ターゲットデジタル人のキャラクターテンプレートに基づいて取得されることを含む、ことを特徴とする請求項５に記載の方法。

【請求項7】

【請求項8】

前記所定タスクは、注視領域検出を含み、
前記タスク処理結果は、注視領域検出結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項１に記載の方法。

【請求項9】

前記車内人員は、運転者を含み、
前記ビデオストリームに含まれる少なくとも１フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得することは、
前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、
前記注視領域のカテゴリーは、予め前記車に対して空間領域分割を行って得られ、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、および、車載表示領域を含む、ことを特徴とする請求項８に記載の方法。

【請求項10】

前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記ビデオストリームに含まれる、前記運転領域にいる運転者の少なくとも１フレームの顔部画像に対して視線及び／又は頭部姿態検出を行うことと、
各フレームの顔部画像に対して、このフレームの顔部画像の視線及び／又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定することとを含む、ことを特徴とする請求項９に記載の方法。

【請求項11】

前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも１フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記少なくとも１フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、
前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、該顔部画像における顔の注視領域カテゴリーを指示する注視領域カテゴリーのマーク情報を含み、
又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされることを含む、ことを特徴とする請求項９に記載の方法。

【請求項12】

前記ニューラルネットワークをトレーニングするステップは、
前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像に対して、
前記顔部画像における少なくとも１つの眼の眼部画像を切り取り、前記少なくとも１つの眼は、左眼及び／又は右眼を含むことと、
前記顔部画像の第１特徴及び少なくとも１つの眼の眼部画像の第２特徴をそれぞれ抽出することと、
前記第１特徴と前記第２特徴を融合し、第３特徴を取得することと、
トレーニングすべきニューラルネットワークを用いて、前記第３特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定することと、
前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項１１に記載の方法。

【請求項13】

前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップと、
前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるステップとをさらに含む、ことを特徴とする請求項１～１２のいずれかに記載の方法。

【請求項14】

前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
前記ターゲット車載機器をトリガーする第１車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも１つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含むことと、
運転補助をトリガーする第２車両制御命令を生成することと、
前記インタラクションフィードバック情報がジェスチャー検出結果に対する確認内容を含む場合、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成することと、のうちのいずれか１つまたは複数を含む、ことを特徴とする請求項１３に記載の方法。

【請求項15】

【請求項16】

【請求項17】

コンピュータプログラムが記憶され、
プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記請求項１～１４のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。

【請求項18】

プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、請求項１～１４のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される、ことを特徴とする車載デジタル人に基づくインタラクション装置。

【請求項19】

コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードがプロセッサ上で実行されると、前記プロセッサに請求項１～１４のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行させる、ことを特徴とするコンピュータプログラム製品。

【手続補正書】

【提出日】2022-03-08

【手続補正1】

【補正対象書類名】図面

【補正対象項目名】図５Ａ

【補正方法】変更

【補正の内容】

【図5A】