(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-14
(54)【発明の名称】車載デジタル人に基づくインタラクション
(51)【国際特許分類】
G06F 3/01 20060101AFI20221107BHJP
G06T 7/00 20170101ALI20221107BHJP
G06T 7/20 20170101ALI20221107BHJP
G06V 20/59 20220101ALI20221107BHJP
G06V 40/16 20220101ALI20221107BHJP
G06V 40/20 20220101ALI20221107BHJP
G06V 10/82 20220101ALI20221107BHJP
G06T 13/40 20110101ALI20221107BHJP
G10L 15/00 20130101ALI20221107BHJP
G10L 15/22 20060101ALI20221107BHJP
【FI】
G06F3/01 510
G06T7/00 660Z
G06T7/20 300A
G06T7/20 300B
G06V20/59
G06V40/16 B
G06V40/20
G06V10/82
G06T7/00 350C
G06T7/00 P
G06T13/40
G06F3/01 570
G10L15/00 200Q
G10L15/22 453
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022514538
(86)(22)【出願日】2020-05-27
(85)【翻訳文提出日】2022-03-03
(86)【国際出願番号】 CN2020092582
(87)【国際公開番号】W WO2021077737
(87)【国際公開日】2021-04-29
(31)【優先権主張番号】201911008048.6
(32)【優先日】2019-10-22
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】肖 琴
(72)【発明者】
【氏名】曾 彬
(72)【発明者】
【氏名】何 任▲東▼
(72)【発明者】
【氏名】▲呉▼ ▲陽▼平
(72)【発明者】
【氏名】▲許▼ 亮
【テーマコード(参考)】
5B050
5E555
5L096
【Fターム(参考)】
5B050AA03
5B050AA07
5B050BA08
5B050BA09
5B050BA12
5B050CA01
5B050DA01
5B050EA07
5B050EA24
5B050EA26
5B050FA02
5B050FA10
5E555AA27
5E555AA48
5E555AA56
5E555AA64
5E555BA23
5E555BA38
5E555BB23
5E555BB38
5E555BC08
5E555CA42
5E555CA47
5E555CB64
5E555CB65
5E555CB66
5E555CB67
5E555CC22
5E555DA23
5E555DB32
5E555DC13
5E555DC21
5E555DD06
5E555DD07
5E555DD08
5E555EA11
5E555EA19
5E555EA22
5E555EA23
5E555EA27
5E555FA00
5L096AA06
5L096BA04
5L096BA18
5L096CA04
5L096DA01
5L096EA39
5L096FA19
5L096FA67
5L096FA77
5L096GA30
5L096GA51
5L096HA11
5L096JA11
5L096JA22
5L096KA04
(57)【要約】
本開示は、車載デジタル人に基づくインタラクション方法及び装置を提供し、該方法は、車載カメラにより収集された車内人員のビデオストリームを取得するステップと、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む。
【選択図】【
図1】
【特許請求の範囲】
【請求項1】
車載カメラにより収集された車内人員のビデオストリームを取得するステップと、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む、ことを特徴とする車載デジタル人に基づくインタラクション方法。
【請求項2】
前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも1つを含み、及び/又は、
前記車内人員は、運転者、乗客の少なくとも1つを含み、及び/又は、
前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも1つを含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記タスク処理結果に応じて、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップは、
前記タスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得することと、
前記マッピング関係に基づいて前記タスク処理結果に対応するインタラクションフィードバック命令を特定することと、
前記デジタル人を制御して前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させることとを含む、ことを特徴とする請求項1に記載の方法。
【請求項4】
前記所定タスクは、顔部認識を含み、
前記タスク処理結果は、顔部認識結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示するステップは、
前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されることに応答して、前記第1デジタル人を前記車載表示装置に表示すること、又は
前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていないことに応答して、第2デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力することを含む、ことを特徴とする請求項1に記載の方法。
【請求項5】
前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力することは、
顔部画像の画像収集通知情報を前記車載表示装置に出力することを含み、
前記方法は、
顔部画像を取得するステップと、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得するステップと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定するステップと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成するステップとをさらに含む、ことを特徴とする請求項4に記載の方法。
【請求項6】
前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶することを含む、請求項5に記載の方法、ことを特徴とする。
【請求項7】
前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得することと、
前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整することと、
調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶することとを含む、ことを特徴とする請求項5に記載の方法。
【請求項8】
顔部画像を取得するステップは、
前記車載カメラにより収集された顔部画像を取得すること、又は
アップロードされた前記顔部画像を取得することを含む、ことを特徴とする請求項5~7のいずれかに記載の方法。
【請求項9】
前記所定タスクは、視線検出を含み、
前記タスク処理結果は、視線方向検出結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項1に記載の方法。
【請求項10】
前記所定タスクは、注視領域検出を含み、
前記タスク処理結果は、注視領域検出結果を含み、
ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップは、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することを含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項1に記載の方法。
【請求項11】
前記車内人員は、運転者を含み、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することは、
前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の1つであることを含む、ことを特徴とする請求項10に記載の方法。
【請求項12】
予め前記車に対して空間領域分割を行って得られた前記複数カテゴリーの定義された注視領域は、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、車載表示領域のうちの2カテゴリー以上を含む、ことを特徴とする請求項11に記載の方法。
【請求項13】
前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも1フレームの顔部画像に対して視線及び/又は頭部姿態検出を行うことと、
各フレームの顔部画像に対して、このフレームの顔部画像の視線及び/又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定することとを含む、ことを特徴とする請求項11又は12に記載の方法。
【請求項14】
前記ビデオストリームに含まれる、前記運転領域にいる運転者の前記少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記少なくとも1フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、前記複数カテゴリーの定義された注視領域の1つを指示する該顔部画像における注視領域カテゴリーのマーク情報を含み、又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされることを含む、ことを特徴とする請求項11又は12に記載の方法。
【請求項15】
前記方法は、前記ニューラルネットワークをトレーニングするステップをさらに含み、
前記ニューラルネットワークをトレーニングするステップは、
前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得することと、
前記顔部画像における少なくとも1つの眼の眼部画像を切り取り、前記少なくとも1つの眼は、左眼及び/又は右眼を含む、ことと、
前記顔部画像の第1特徴及び少なくとも1つの眼の眼部画像の第2特徴をそれぞれ抽出することと、
前記第1特徴と前記第2特徴を融合し、第3特徴を取得することと、
前記第3特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定することと、
前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項14に記載の方法。
【請求項16】
前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップと、
前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるステップとをさらに含む、ことを特徴とする請求項1~15のいずれかに記載の方法。
【請求項17】
前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、
前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
前記ターゲット車載機器をトリガーする第1車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも1つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含むこと、及び/又は
運転補助をトリガーする第2車両制御命令を生成することを含む、ことを特徴とする請求項16に記載の方法。
【請求項18】
前記インタラクションフィードバック情報は、ジェスチャー検出結果に対する確認内容を含み、前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成することを含む、ことを特徴とする請求項16に記載の方法。
【請求項19】
車載音声収集機器により収集された前記車内人員のオーディオ情報を取得するステップと、
前記オーディオ情報に対して音声認識を行い、音声認識結果を取得するステップと、
前記音声認識結果及び前記タスク処理結果に応じて、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとをさらに含む、ことを特徴とする請求項1~18のいずれかに記載の方法。
【請求項20】
車載カメラにより収集された車内人員のビデオストリームを取得するための第1取得モジュール、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュールと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第1インタラクションモジュールとを含む、ことを特徴とする車載デジタル人に基づくインタラクション装置。
【請求項21】
コンピュータプログラムが記憶され、
プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記請求項1~19のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項22】
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、請求項1~19のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される、ことを特徴とする車載デジタル人に基づくインタラクション装置。
【請求項23】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードがプロセッサ上で実行されると、前記プロセッサに請求項1~19のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行させる、ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、拡張現実分野に関し、特に車載デジタル人に基づくインタラクション方法及び装置、記憶媒体に関する。
【背景技術】
【0002】
現在、車内にロボットを配置することができ、人員が車内に入った後、ロボットを介して車内人員とインタラクションできる。しかし、ロボットと車内人員のインタラクションモードが固定され、人間性に欠けている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、車載デジタル人に基づくインタラクション方法及び装置、記憶媒体を提供する。
【課題を解決するための手段】
【0004】
本開示の実施例の第1側面によれば、車載カメラにより収集された車内人員のビデオストリームを取得するステップと、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む、車載デジタル人に基づくインタラクション方法が提供される。
【0005】
本開示の実施例の第2側面によれば、車載カメラにより収集された車内人員のビデオストリームを取得するための第1取得モジュールと、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュールと、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第1インタラクションモジュールとを含む、車載デジタル人に基づくインタラクション装置が提供される。
【0006】
本開示の実施例の第3側面によれば、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体が提供され、プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記第1側面に記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる。
【0007】
本開示の実施例の第4側面によれば、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリとを含む、車載デジタル人に基づくインタラクション装置が提供され、前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、第1側面に記載の車載デジタル人に基づくインタラクション方法を実現するように構成される。
【0008】
本開示の実施例では、車内人員のビデオストリームの画像を分析することにより、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。
【0009】
上記の一般的な説明および以下の詳細な説明は、例示的かつ説明的なものにすぎず、本開示を限定することはできないことを理解されたい。
【図面の簡単な説明】
【0010】
【
図1】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
【
図2】本開示の一例示的な実施例に係るステップ103のフローチャートである。
【
図3】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
【
図4】本開示の一例示的な実施例に係るステップ107のフローチャートである。
【
図5A】本開示の一例示的な実施例に係るターゲットデジタル人のキャラクターテンプレートを調整するシーンの模式図である。
【
図5B】本開示の一例示的な実施例に係るターゲットデジタル人のキャラクターテンプレートを調整するシーンの模式図である。
【
図6】本開示の一例示的な実施例に係る車に対して空間分割を行って得られた複数カテゴリーの定義された注視領域の模式図である。
【
図7】本開示の一例示的な実施例に係るステップ103-8のフローチャートである。
【
図8】本開示の一例示的な実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のフローチャートである。
【
図9】本開示の他の例示的な実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のフローチャートである。
【
図10】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
【
図11A】本開示の一例示的な実施例に係るジェスチャー模式図である。
【
図11B】本開示の一例示的な実施例に係るジェスチャー模式図である。
【
図12A】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。
【
図12B】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。
【
図12C】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクションシーンの模式図である。
【
図13A】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
【
図13B】本開示の他の例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
【
図14】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置ブロック図である。
【
図15】本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置のハードウェア構造模式図である。
【発明を実施するための形態】
【0011】
ここでは、例示的な実施例を詳細に説明し、その例を図に示す。以下の説明が図面に関連する場合、別段の表現がない限り、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明された実施形態は、本開示とマッチングする全ての実施形態を表すものではない。一方、それらは、添付の特許請求の範囲に記載されたように、本開示のいくつかの態様に一致する装置および方法の例にすぎない。
【0012】
本開示で使用される用語は、本開示を限定することを目的とするものではなく、特定の実施例を説明するためのものに過ぎない。本開示および添付の特許請求の範囲において使用される単数形式の「一種」、「前記」、および「該」は、文脈が明確に他の意味を表していない限り、多数の形式を含むことが意図されている。また、本明細書で使用される用語の「および/または」は、関連してリストされた1つまたは複数の項目の任意またはすべての可能な組み合わせを指し、含みうることを理解されたい。
【0013】
本開示では、用語の第1、第2、第3などを用いて様々な情報を記述することができるが、これらの情報はこれらの用語に限定されないことを理解されたい。これらの用語は、同じタイプの情報を互いに区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の情報を第2の情報と呼ぶこともでき、同様に、第2の情報を第1の情報と呼ぶこともできる。文脈によっては、ここで使用される用語の「もし」は「…とき」または「…際」または「特定したことに応答する」と解釈され得る。
【0014】
本開示の実施例は、スマート車両、車両運転をシミュレートするスマートカーなどの運転可能なマシン機器に適用できる、車載デジタル人に基づくインタラクション方法を提供する。
【0015】
図1に示すように、
図1は、一例示的な実施例に係る車載デジタル人に基づくインタラクション方法であり、ステップ101~ステップ103を含む。
【0016】
ステップ101では、車載カメラにより収集された車内人員のビデオストリームを取得する。
【0017】
本開示の実施例では、車載カメラは、センターコンソール、フロントガラス、又は車内人員を撮影できる他の任意位置に設置することができる。車内人員は、運転者及び/又は乗客を含む。該車載カメラにより、車内人員のビデオストリームをリアルタイムで収集できる。
【0018】
ステップ102では、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得する。
【0019】
ステップ103では、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示する又は車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。
【0020】
本開示の実施例では、前記デジタル人は、ソフトウェアによって生成された仮想キャラクターであってもよく、センターコンソールディスプレイ又は車載タブレットデバイスなどの車載表示装置に該デジタル人を表示できる。デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも1つを含む。
【0021】
上記実施例では、車内人員のビデオストリームの画像を分析することにより、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。
【0022】
いくつかの実施例では、ビデオストリームを処理すべき所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも1つを含むことができるがこれらに限られない。所定タスクのタスク処理結果に応じて、車載デジタル人に基づく人間とコンピュータのインタラクション方式を特定し、例えば、タスク処理結果に応じて、デジタル人を車載表示装置に表示することをトリガーすべきであるか否かを特定し、又は、タスク処理結果に応じて、車載表示装置に表示されたデジタル人を制御して、対応するインタラクションフィードバック情報などを出力させるべきであるか否かを特定する。
【0023】
1つの例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して顔部検出を行い、車内が顔部を含むか否かを検出し、該ビデオストリームに含まれる少なくとも1フレームの画像が顔部を含むか否かの顔部検出結果を取得し、この後、顔部検出結果に応じて、車内に人員が出入りしたか否かを判断し、さらに、デジタル人を表示するか否か、又は、デジタル人を制御して対応するインタラクションフィードバック情報を出力させるか否かを特定する。例えば、顔部検出結果が顔部を検出したばかりであることを示す場合、車載表示装置にデジタル人を自動的に表示することができ、さらにデジタル人を制御して「こんにちは」などの挨拶の言語、表情又は動作をさせることもできる。
【0024】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して視線検出又は注視領域検出を行い、それにより、車内人員の視線注視方向の検出結果又は注視領域の検出結果を取得する。この後、視線注視方向の検出結果又は注視領域の検出結果に応じて、デジタル人を表示するか否か、又はデジタル人を制御してインタラクションフィードバック情報を出力させるか否かを特定する。例えば、車内人員の視線注視方向が車載表示装置に向かう場合、デジタル人を表示できる。車内人員の注視領域が車載表示装置の配置領域と少なくとも部分的に重複する場合、デジタル人を表示する。車内人員の視線注視方向が再び車載表示装置に向かう場合、又は注視領域が車載表示装置の配置領域と再び少なくとも部分的に重複する場合、デジタル人に「何をしてほしいですか」という言語、表情又は動作をさせることができる。
【0025】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して顔部認識を行い、それにより、顔部認識結果を取得し、この後、顔部認識結果に対応するデジタル人を表示できる。例えば、顔部認識結果が予め記憶された張三の顔部とマッチングする場合、張三に対応するデジタル人を車載表示装置に表示でき、顔部認識結果が予め記憶された李四の顔部とマッチングする場合、李四に対応するデジタル人を車載表示装置に表示でき、張三及び李四のそれぞれに対応するデジタル人が異なることができ、それにより、デジタル人のキャラクターを豊富にし、乘車楽しみ、快適感及び付き添い感を向上させ、車内人員に人間とコンピュータのインタラクションの温かみを感じさせる。
【0026】
また例えば、デジタル人は、フィードバック情報の「こんにちは、張三さん又は李四さん」を音声により出力し、又は、予め設定された張三のいくつかの表情又は動作などを出力することができる。
【0027】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対する人体検出は、座り方、手部及び/又は足部の動作、頭部の位置などに対する検出を含むがこれらに限られず、人体検出結果を取得する。この後、人体検出結果に応じて、デジタル人を表示し、又は、デジタル人を制御してインタラクションフィードバック情報を出力させることができる。例えば、人体検出結果が座り方が運転に適することである場合、デジタル人を表示でき、人体検出結果が座り方が運転に適していないことである場合、デジタル人を制御して「リラックスして、楽に座ってください」という音声、表情又は動作を出力させることができる。
【0028】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対してジェスチャー検出を行い、ジェスチャー認識結果を取得し、それにより、ジェスチャー認識結果に応じて、車内人員がどのようなジェスチャーを入力したかを判断することができる。例えば、車内人員がokのジェスチャーや親指立てのジェスチャーなどを入力すると、この後、入力されたジェスチャーに基づいて、デジタル人を表示し、又は、デジタル人を制御してジェスチャーに対応するインタラクションフィードバック情報を出力させることができる。例えば、ジェスチャー検出結果が車内人員が挨拶のジェスチャーを入力したことである場合、デジタル人を表示できる。又は、ジェスチャー検出結果が車内人員が親指立てジェスチャーを入力したことである場合、デジタル人を制御して「ありがとうございます」という音声、表情又は動作を出力させることができる。
【0029】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して顔部属性検出を行い、顔部属性は、二重まぶたであるか否か、メガネをかけているか否か、ひげがあるか否か、耳の形、唇の形、顔の形、ヘアスタイルなどを含むがこれらに限られず、車内人員の顔部属性検出結果を取得する。この後、顔部属性検出結果に応じて、デジタル人を表示し、又は、デジタル人を制御して顔部属性検出結果に対応するインタラクションフィードバック情報を出力させることができ、例えば、顔部属性検出結果がサングラスを装着することを示す場合、デジタル人が「このサングラスはとてもきれいですね」、「今日のヘアスタイルはいいですね」、「今日は本当に綺麗ですね」などのインタラクションフィードバック情報の音声、表情又は動作を出力することができる。
【0030】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して情緒状態検出を行うことにより、情緒状態の検出結果を取得し、該情緒状態の検出結果は、車内人員の情緒、例えば、喜び、怒り、悲しみなどを直接反映する。この後、車内人員の情緒に応じて、デジタル人を表示でき、例えば、車内人員が微笑んでいる場合、デジタル人を表示する。又は、車内人員情緒に応じて、デジタル人を制御して情緒を和らげる対応するインタラクションフィードバック情報を出力させることができ、例えば、車内人員の情緒が怒りである場合、デジタル人に「怒らないでください。冗談を言ってあげましょう」、「今日は楽しいことや楽しくないことはありますか」という音声、表情又は動作を出力させることができる。
【0031】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して疲労状態分析を行い、非疲労、軽度の疲労、重度の疲労などの疲労度検出結果を取得する。疲労度に応じて、デジタル人に、対応するインタラクションフィードバック情報を出力させることができる。例えば、疲労度が軽度の疲労である場合、デジタル人が「歌を歌ってあげましょう」、「休憩しましょうか」という音声、表情又は動作を出力して疲労を癒すことができる。
【0032】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して気散らし状態検出を行うとき、気散らし状態の検出結果を取得できる。例えば、少なくとも1フレームの画像における車内人員の視線が前方に注視しているか否かによって、現在、気を散らしているか否かを判断する。気散らし状態の検出結果に応じて、デジタル人を制御して「気をつけてください」、「上手くやっています。続けてください」などの音声、表情又は動作を出力させることができる。
【0033】
他の例では、ビデオストリームに含まれる少なくとも1フレームの画像に対して危険動作検出を行い、車内人員が現在危険動作をしているか否かの検出結果を取得することもできる。例えば、運転者の両手がハンドルにないこと、運転者が前方に注視していないことや乗客の体の部分が窓の外に置かれていることなどは危険動作である。危険動作検出に基づいて、デジタル人を制御して「窓から体を出さないでください」、「前を見てください」などの音声、表情又は動作を出力させることができる。
【0034】
本開示の実施例では、デジタルは、音声によって車内人員とインタラクションしたり、表情によって車内人員とインタラクションしたり、いくつかの予め設定された動作によって車内人員に付き添うことができる。
【0035】
上記実施例では、車内人員のビデオストリームの画像分析により、ビデオストリームの所定タスク処理のタスク処理結果を取得する。タスク処理結果に応じて、仮想のデジタル人の表示又はインタラクションフィードバックを自動的にトリガーし、それにより、人間とコンピュータのインタラクション方式が人のインタラクション習慣に符合し、インタラクション過程がより自然になり、車内人員に人間とコンピュータのインタラクションの温かみを感じさせ、乘車楽しみ、快適感及び付き添い感を向上させ、運転の安全リスクを低減させるに有利である。
【0036】
いくつかの実施例では、上記ステップ103は、
図2に示すように、ステップ103-1~ステップ103-3を含む。
【0037】
ステップ103-1では、所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得する。
【0038】
本開示の実施例では、デジタル人は、車両メモリに予め記憶された所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得できる。
【0039】
ステップ103-2では、前記マッピング関係に基づいて前記タスク処理結果に対応するインタラクションフィードバック命令を特定する。
【0040】
デジタル人は、上記マッピング関係に基づいて、異なるタスク処理結果に対応するインタラクションフィードバック命令を特定することができる。
【0041】
ステップ103-3では、前記デジタル人を制御して、前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させる。
【0042】
一例では、顔部検出結果に対応するインタラクションフィードバック命令が歓迎命令であることに応じて、インタラクションフィードバック情報は、歓迎の音声、表情又は動作である。
【0043】
他の例では、視線注視検出結果又は注視領域検出結果に対応するインタラクションフィードバック命令は、デジタル人の命令を表示する又は挨拶の命令を出力することである。したがって、インタラクションフィードバック情報は、「こんにちは」という音声、表情又は動作であり得る。
【0044】
他の例では、人体検出結果に対応するインタラクションフィードバック命令は、座り方を調整し、体方向を調整することを通知する通知命令ことであり得る。インタラクションフィードバック情報は、「座り方を調整してください。楽に座ってください」という音声、表情又は動作である。
【0045】
上記実施例では、デジタル人は、取得された所定タスクのタスク処理結果とインタラクションフィードバック命令とのマッピング関係に基づいて、前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力することができる。車内の密閉空間では、より人間的なコミュニケーション及びインタラクションモードを提供し、コミュニケーションのインタラクティブ性を向上させ、車内人員の運転車両に対する信頼感を高めることができ、それにより、運転楽しみと効率を向上させ、安全リスクを低減し、運転中の孤独感がなくなり、車載デジタル人の人工知能化度を向上させる。
【0046】
いくつかの実施例では、所定タスクは、顔部認識を含み、したがって、タスク処理結果は、顔部認識結果を含む。
【0047】
ステップ103は、ステップ103-4又はステップ103-5を含むことができる。
【0048】
ステップ103-4では、前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されることに応答して、前記第1デジタル人を前記車載表示装置に表示する。
【0049】
本開示の実施例では、顔部認識結果として該車内人員の身元が例えば張三であると認識され、車載表示装置に張三に対応する第1デジタル人が記憶される場合、この第1デジタル人を車載表示装置に直接表示できる。例えば、張三に対応する第1デジタル人がアバターである場合、アバターを表示できる。
【0050】
ステップ103-5では、前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていないことに応答して、第2デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力する。
【0051】
本開示の実施例では、車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていない場合、車載表示装置は、デフォルト設定された第2デジタル人、例えば、ドラえもんを表示できる。
【0052】
本開示の実施例では、車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていない場合、車載表示装置は、前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力することができる。通知情報によって、車内人員に第1デジタル人の設定を通知する。
【0053】
上記実施例では、顔部認識結果に応じて、顔部認識結果に対応する第1デジタル人又は第2デジタル人を表示し、又は、車内人員に第1デジタル人を設定することができる。デジタル人のキャラクターをより豊富にし、運転中に、車内人員により設定されたデジタル人が付き添い、孤独感を減らし、運転楽しみを向上させる。
【0054】
いくつかの実施例では、ステップ103-5は、前記車載表示装置に顔部画像の画像収集通知情報を出力するステップを含む。
【0055】
図3は、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
図3に示すように、該インタラクション方法は、上記ステップ101、102、103-5及び以下のステップ104~107を含む。ステップ101、102、103-5は、上述した実施形態の関連する表現を参照することができ、以下では、ステップ104~107について具体的に説明する。
【0056】
ステップ104では、顔部画像を取得する。
【0057】
本開示の実施例では、該顔部画像は、車載カメラによりリアルタイムで収集された車内人員の顔部画像であってもよい。又は、該顔部画像は、車内人員により携帯端末を介してアップロードされた顔部画像であってもよい。
【0058】
ステップ105では、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得する。
【0059】
本開示の実施例では、顔部属性分析モデルを予め作成することができ、該顔部属性分析モデルは、ニューラルネットワークにおけるResNet(Residual Network、 残差ネットワーク)を採用することができるが、これらに限定されない。該ニューラルネットワークは、少なくとも1つの畳み込み層、BN(Batch Normalization、バッチ正規化)層、分類出力層などを含むことができる。
【0060】
ラベル付きサンプル図面ライブラリをニューラルネットワークに入力し、分類器によって出力された顔部属性分析結果を取得する。顔部属性は、五官、ヘアスタイル、メガネ、服飾、帽子の有無などを含むがこれらに限られない。顔部属性分析結果は、複数の顔部属性パラメータ、例えば、ひげの有無、ひげの位置、メガネの有無、メガネの種類、メガネ枠の種類、レンズの形状、メガネ枠の太さ、ヘアスタイル、及びまぶたの種類(例えば、一重まぶた、内二重まぶた又は外二重まぶたなど)、服飾の種類、襟の有無などを含むことができる。該ニューラルネットワークによって出力された顔部属性分析結果に応じて、該ニューラルネットワークのパラメータ、例えば、畳み込み層、BN層、分類出力層のパラメータ、又はニューラルネットワーク全体の学習率などを調整し、最終的に出力された顔部属性分析結果とサンプル図面ライブラリにおけるラベル内容とが予め設定された許容差異を満たしさらに一致するようにし、最終的にニューラルネットワークに対するトレーニングを完了させ、それにより、顔部属性分析モデルを取得する。
【0061】
本開示の実施例では、少なくとも1フレームの画像を上記顔部属性分析モデルに直接入力し、該顔部属性分析モデルによって出力されたターゲット顔部属性パラメータを取得することができる。
【0062】
ステップ106では、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定する。
【0063】
本開示の実施例では、顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係が予め記憶され、従って、ターゲット顔部属性パラメータに基づいて、対応するターゲットデジタル人のキャラクターテンプレートを特定することができる。
【0064】
ステップ107では、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成する。
【0065】
本開示の実施例では、特定されたターゲットデジタル人のキャラクターテンプレートに基づいて、車内人員とマッチングする第1デジタル人を生成することができる。直接、ターゲットデジタル人のキャラクターテンプレートを第1デジタル人としてもよいし、車内人員がターゲットデジタル人のキャラクターテンプレートを調整し、調整後のキャラクターテンプレートを第1デジタル人としてもよい。
【0066】
上記実施例では、車載表示装置によって出力された画像収集通知情報に基づいて、顔部画像を取得し、さらに顔部画像に対して顔部属性分析を行い、ターゲットデジタル人のキャラクターテンプレートを特定し、それにより、前記車内人員とマッチングする前記第1デジタル人を生成することができる。上記プロセスにより、車内ユーザがマッチングする第1デジタル人を自ら設定でき、運転中に、ユーザにより自らDIYされた第1デジタル人が終始付き添い、運転中の孤独感を減らし、第1デジタル人のキャラクターを豊富にする。
【0067】
いくつかの実施例では、上記ステップ107は、ステップ107-1を含むことができる。
【0068】
ステップ107-1では、前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶する。
【0069】
本開示の実施例では、直接、ターゲットデジタル人のキャラクターテンプレートを車内人員とマッチングする前記第1デジタル人として記憶することができる。
【0070】
上記実施例では、直接、ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶することができ、車内人員が好きな第1デジタル人を自らDIYするという目的を実現する。
【0071】
いくつかの実施例では、上記ステップ107は、
図4に示すように、ステップ107-2、107-3及び107-4を含むことができる。
【0072】
ステップ107-2では、前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得する。
【0073】
本開示の実施例では、ターゲットデジタル人のキャラクターテンプレートを特定した後に、さらに車内人員によって入力された調整情報を取得でき、例えば、ターゲットデジタル人のキャラクターテンプレートにおけるヘアスタイルがショートヘアであり、調整情報がロングヘアである。又は、ターゲットデジタル人のキャラクターテンプレートは、メガネがないが、調整情報はサングラス追加である。
【0074】
ステップ107-3では、前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整する。
【0075】
例えば、
図5Aに示すように、車載カメラにより顔部画像を収集し、そして車内人員が生成されたターゲットデジタル人のキャラクターテンプレートに基づいてヘアスタイル、顔の形、五官などを自らDIYし、例えば、
図5Bに示すように、ステップ107-4では、調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶する。
【0076】
本開示の実施例では、調整後のターゲットデジタル人のキャラクターテンプレートを該車内人員とマッチングする第1デジタル人として記憶でき、次に該車内人員を再検出すると、調整後のターゲットデジタル人のキャラクターテンプレートを出力できる。
【0077】
上記実施例では、ターゲットデジタル人のキャラクターテンプレートを車内人員の好みに応じて調整することができ、最終的に車内人員が好きな調整後の第1デジタル人を取得し、第1デジタル人のキャラクターを豊富し、車内人員が第1デジタル人を自らDIYするという目的を実現する。
【0078】
いくつかの実施例では、上記ステップ104は、ステップ104-1とステップ104-2のいずれかを含むことができる。
【0079】
ステップ104-1では、前記車載カメラにより収集された顔部画像を取得する。
【0080】
本開示の実施例では、車載カメラによって、顔部画像を直接リアルタイムで収集できる。
【0081】
ステップ104-2では、アップロードされた前記顔部画像を取得する。
【0082】
本開示の実施例では、車内人員は、自分が好きな1枚の顔部画像をアップロードすることができ、この顔部画像は、車内人員の自分の顔部に対応する顔部画像であってもよいし、車内人員が好きな人、動物、アニメキャラクターに対応する顔部画像であってもよい。
【0083】
上記実施例では、車載カメラにより収集された顔部画像を取得してもよいし、アップロードされた顔部画像を取得してもよく、それにより、この後、顔部画像に基づいて対応する第1デジタル人を生成し、実現しやすく、利用性が高く、ユーザ体験を向上させる。
【0084】
いくつかの実施例では、所定タスクは、視線検出を含み、従って、タスク処理結果は、視線方向検出結果を含む。
【0085】
上記ステップ103は、ステップ103-6を含むことができる。
【0086】
ステップ103-6では、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。いくつかの実施例では、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かう時間が予め設定された時間を超えることを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。該予め設定された時間は、0.5sであってもよく、車内人員の需要に応じて調節できる。
【0087】
本開示の実施例では、ニューラルネットワーク、例えば、ResNet(Residual Network、 残差ネットワーク)、googlenet、VGG(Visual Geometry Group Network、ビジュアルジオメトリグループネットワーク)などを採用できる視線方向検出モデルを予め作成する。該ニューラルネットワークは、少なくとも1つの畳み込み層、BN(Batch Normalization、バッチ正規化)層、分類出力層などを含むことができる。
【0088】
ラベル付きサンプル図面ライブラリをニューラルネットワークに入力し、分類器によって出力された視線方向分析結果を取得できる。視線方向分析結果は、視線が注視するいずれか車載機器の方向を含むがこれらに限られない。車載機器は、車載表示装置、サウンド、エアコンなどを含む。
【0089】
本開示の実施例では、少なくとも1フレームの画像を予め作成された上記視線方向検出モデルに入力し、該視線方向検出モデルが結果を出力することができる。視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表す場合、デジタル人を車載表示装置に表示できる。
【0090】
例えば、人員が車内に入った後、視線注視によって、対応するデジタル人を呼び出すことができ、
図5Bに示すように、該デジタル人は、この前に、該人員の顔部画像に基づいて設定される。
【0091】
又は、視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表す場合、さらに、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることもできる。
【0092】
例えば、デジタル人が音声、表情及び動作のうちの少なくとも1つによって車内人員へ挨拶などをするように制御する。
【0093】
いくつかの実施例では、所定タスクは、注視領域検出を含み、従って、タスク処理結果は、注視領域検出結果を含む。
【0094】
上記ステップ103は、ステップ103-7を含む。
【0095】
ステップ103-7では、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。
【0096】
本開示の実施例では、注視領域を分析し、注視領域検出結果を取得できるニューラルネットワークを予め作成することができ、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示できる。すなわち、車内人員の注視領域の検出によって、デジタル人を起動できる。
【0097】
又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることもできる。例えば、デジタル人が音声、表情及び動作のうちの少なくとも1つによって、車内人員へ挨拶などをするように制御する。
【0098】
上記実施例では、車内人員は、視線を車載表示装置に向けさせ、視線方向又は注視領域を検出することでデジタル人を起動し、又は、デジタル人にインタラクションフィードバック情報を出力させ、車載デジタル人の人工知能化度を向上させる。
【0099】
いくつかの実施例では、車内人員が運転者を含むと、ステップ103は、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して注視領域検出処理を行い、前記注視領域検出結果を取得することであり得る。この場合、ステップ103は、ステップ103-8を含む。
【0100】
ステップ103-8では、前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも1フレームの顔部画像に基づいて、それぞれ各フレームの顔部画像における前記運転者の注視領域のカテゴリーを特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の1つである。
【0101】
本開示の実施例では、運転者の顔部画像は、運転者の頭部全体を含んでもよいし、運転者の顔部輪郭及び五官を含んでもよい。ビデオストリーム中の任意のフレームの画像を運転者の顔部画像としてもよいし、ビデオストリーム中の任意のフレームの画像から運転者の顔部領域画像を検出し、該顔部領域画像を運転者の顔部画像としてもよい。上記運転者の顔部領域画像を検出する方式は、任意の顔部検出アルゴリズムであってもよいので、本開示はこれに限定されない。
【0102】
本開示の実施例では、車両の室内空間及び/又は車両の室外空間を複数の異なる領域に分割することで、異なるカテゴリーの注視領域を取得し、例を挙げると、
図6は、本開示に係る注視領域のカテゴリーの分割方式であり、
図6に示すように、車両に対して予め空間領域分割を行って得られた複数カテゴリーの注視領域は、左フロントガラス領域(1番の注視領域)、右フロントガラス領域(2番の注視領域)、ダッシュボード領域(3番の注視領域)、車内バックミラー領域(4番の注視領域)、センターコンソール領域(5番の注視領域)、左バックミラー領域(6番の注視領域)、右バックミラー領域(7番の注視領域)、サンバイザ領域(8番の注視領域)、シフトロッド領域(9番の注視領域)、ハンドル下方領域(10番の注視領域)、副操縦領域(11番の注視領域)、副操縦の前の雑物キャビネット領域(12番の注視領域)のうちの2カテゴリー以上を含む。車載表示領域は、センターコンソール領域(5番の注視領域)を多重することができる。
【0103】
この方式を採用して車の空間領域を分割し、運転者の注意力に的を絞って分析することに有利である。上記空間領域分割方式は、運転者が運転状態にあるとき、注意する可能性のある各種の領域を十分に考慮し、車両の前方空間で運転者の注意力を全面的に分析することに有利であり、運転者の注意力分析の正確さと精度を向上させる。
【0104】
車種によって車の空間分布が同じではないため、車種によって注視領域のカテゴリーを分割してもよく、例えば、
図6における運転室が車の左側にあり、正常運転中、運転者の視線がほとんど左フロントガラス領域にある一方、運転室が車の右側にある車種の場合、正常運転中、運転者の視線がほとんど右フロントガラス領域にある。注視領域のカテゴリーの分割は、
図6における注視領域のカテゴリーの分割とは異なることが明らかになっている。また、車内人員の好みに応じて、注視領域のカテゴリーを分割してもよく、例えば、車内人員は、センターコンソールのスクリーン面積が小さすぎると感じ、スクリーン面積が大きい端末によってエアコンやスピーカなどの車載機器を制御することが好きである場合、該端末の配置位置に基づいて、注視領域内のセンターコンソール領域を調整することができる。また、具体的な状況に応じて他の方式で注視領域のカテゴリーを分割することができ、本開示では、注視領域のカテゴリーの分割方式については限定されない。
【0105】
眼球は、運転者が道路情報を取得する主な感覚器官であり、運転者の視線のある領域は運転者の注意力状況を大きく反映しており、ビデオストリームに含まれる、運転領域にいる運転者の少なくとも1フレームの顔部画像を処理することにより、各フレームの顔部画像における運転者の注視領域のカテゴリーを特定することができ、さらに運転者注意力に対する分析を実現する。いくつかの可能な実施形態では、運転者の顔部画像を処理し、顔部画像における運転者の視線方向を取得し、予め設定された視線方向と注視領域のカテゴリーとのマッピング関係に基づいて、顔部画像における運転者の注視領域のカテゴリーを特定する。他のいくつかの可能な実施形態では、運転者の顔部画像に対して特徴抽出処理を行い、抽出された特徴に基づいて顔部画像における運転者の注視領域のカテゴリーを特定する。いくつかの実施例では、運転者の注視領域のカテゴリーの識別情報は、各注視領域に対応する所定番号であってもよい。
【0106】
いくつかの実施例では、上記ステップ103-8は、
図7に示すように、ステップ103-81及び103-82を含むことができる。
【0107】
ステップ103-81では、前記ビデオストリームに含まれる前記運転領域にいる運転者の少なくとも1フレームの顔部画像に対して視線及び/又は頭部姿態検出を行う。
【0108】
本開示の実施例では、視線及び/又は頭部姿態検出は、視線検出、頭部姿態検出、視線検出及び頭部姿態検出を含む。
【0109】
予めトレーニングされたニューラルネットワークによって運転者の顔部画像に対して視線検出及び頭部姿態検出を行い、視線及び視線の起点位置を含む視線情報及び/又は頭部姿態情報を取得でき、1つの可能な実施形態では、運転者の顔部画像に対して畳み込み処理、正規化処理、線形変換を順に行うことで、視線情報及び/又は頭部姿態情報を取得する。
【0110】
運転者の顔部画像に対して、運転者顔部の確認、眼部領域の特定、虹彩中心の特定を順に行い、視線検出を実現して視線情報を特定する。いくつかの可能な実施形態では、人が正視するまたは見上げる時に、目の輪郭が見下ろ時よりも大きいので、先ず予め測定されたアイホールの大きさに基づいて、見下ろを正視及び見上げと区別する。そして、見上げるまたは正視するとき、上アイホールから眼球中心までの距離の比が異なるため、見上げと正視とを区別し、そして、左、中、右へ見る問題を処理する。すべての瞳孔点からアイホールの左側縁までの距離の二乗和と、右側縁までの距離の二乗和との比を計算し、該比に基づいて、左、中、右へ見るときの視線情報を特定する。
【0111】
さらに、運転者の顔部画像を処理し、運転者の頭部姿態を特定できる。いくつかの可能な実施形態では、運転者の顔部画像に対して面部特徴点(例えば、口、鼻、眼球)の抽出を行い、抽出された面部特徴点に基づいて、顔部画像における面部特徴点の位置を特定し、そして面部特徴点と頭部との相対位置に基づいて、顔部画像における運転者の頭部姿態を特定する。
【0112】
また、さらに、視線及び頭部姿態を同時に検出し、検出精度を向上させることができる。いくつかの可能な実施形態では、車両に配備されたカメラによって、眼部運動のシーケンス画像を収集し、該シーケンス画像と、正視時の眼部画像とを比較し、比較した違いに応じて、眼球の回転角度を得て、眼球の回転角度に基づいて視線ベクトルを特定する。ここでは、頭部が動かないと仮定して測定した検出結果である。頭部がわずかに回転した場合、座標補償メカニズムを作成し、正視時の眼部画像を調整する。一方、頭部が大きく偏向した場合、空間のある固定座標系に対する頭部の変化位置、方向を観察してから、視線ベクトルを特定する必要がある。
【0113】
以上は、本開示の実施例に係る視線及び/又は頭部姿態の検出の例であり、具体的な実現では、当業者はさらに他の方法で視線及び/又は頭部姿態を検出できるが、本開示では限定しないことを理解されたい。
【0114】
ステップ103-82では、各フレームの顔部画像に対して、このフレームの顔部画像の視線及び/又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定する。
【0115】
本開示の実施例では、視線検出結果は、各フレームの顔部画像における運転者の視線ベクトル及び視線ベクトルの開始位置を含み、頭部姿態検出結果は、各フレームの顔部画像における運転者の頭部姿態を含み、視線ベクトルは、視線の方向として理解され、視線ベクトルに基づいて、顔部画像における運転者の視線の、運転者の正視時の視線に対するずれ角度を特定できる。頭部姿態は、運転者頭部の座標系におけるオーロラ角などとすることができ、上記座標系は、世界座標系、カメラ座標系、画像座標系などとすることができる。
【0116】
トレーニングセットによって注視領域分類モデルをトレーニングし、トレーニング後の注視領域分類モデルが視線及び/又は頭部姿態の検出結果に応じて、運転者の注視領域のカテゴリーを特定でき、該トレーニングセット中の顔部画像は、視線及び/又は頭部姿態検出結果、及び視線及び/又は頭部姿態検出結果に対応する注視領域カテゴリーのマーク情報を含む。上記注視領域分類モデルは、ポリシーツリー分類モデル、選択ツリー分類モデル、softmax分類モデルなどを含むことができる。いくつかの可能な実施形態では、視線検出結果及び頭部姿態検出結果は、いずれも特徴ベクトルであり、視線検出結果と頭部姿態検出結果とを融合処理し、注視領域分類モデルは、融合後の特徴に基づいて運転者の注視領域のカテゴリーを特定する。一実施例では、上記融合処理は、特徴スティッチング(stitching)であってもよい。他のいくつかの可能な実施形態では、注視領域分類モデルは、視線検出結果又は頭部姿態検出結果に応じて運転者の注視領域のカテゴリーを特定できる。
【0117】
車種によって、車内環境及び注視領域のカテゴリーの分割方式も異なる可能性があり、いくつかの実施例では、車種に対応するトレーニングセットを用いて、注視領域を分類するための分類器をトレーニングすることで、トレーニング後の分類器を異なる車種に適用することができる。新しい車種に対応するトレーニングセット中の顔部画像は、該新しい車種注視領域カテゴリーのマーク情報に対応する視線及び/又は頭部姿態検出結果、及び対応する新しい車種の注視領域カテゴリーのマーク情報を含み、新しい車種で使用すべき分類器をトレーニングセットに基づいて監視トレーニングする。分類器は、ニューラルネットワーク、サポートベクタマシンなどに基づいて予め構築されてもよいが、本開示は、分類器の具体的な構造について限定しない。
【0118】
いくつかの可能な実施形態では、A車種の場合、運転者の前方空間を12個の注視領域に分割する一方、B車種の場合、B車種の車空間特徴に基づいて、運転者の前方空間を10個の注視領域に分割できる。この場合、A車種に基づいて構築された運転者の注意力分析ソリューションをB車種に適用すると、該A車種に基づく注意力分析ソリューションをB車種に適用する前、A車種の視線及び/又は頭部姿態検出技術を多重し、B車種の空間特徴に対して注視領域を再分割し、視線及び/又は頭部姿態検出技術及びB車種に対応する注視領域に基づいて、B車種に対するトレーニングセットを構築し、該B車種に対するトレーニングセット中の顔部画像は、視線及び/又は頭部姿態検出結果及びB車種に対応する注視領域のカテゴリーのマーク情報を含み、このようにして、視線及び/又は頭部姿態検出用のモデルを再トレーニングすることなく、構築されたB車種に対するトレーニングセットに基づいて、B車種の注視領域分類用の分類器に対して監視トレーニングを行う。トレーニング後の分類器及び多重される視線及び/又は頭部姿態検出技術は、B車種に適用できる運転者の注意力分析ソリューションを構成する。
【0119】
いくつかの実施例では、注視領域分類に必要な特徴情報検出(例えば、視線及び/又は頭部姿態検出)、及び上記特徴情報に基づく注視領域分類を独立した2つの段階に分けて行い、視線及び/又は頭部姿態などの特徴情報検出技術の、異なる車種における多重性を向上させる。注視領域分割が変化した新しい適用シーン(例えば、新しい車種など)は、新しい注視領域分割に適合する分類器又は分類方法のみを調整すればよいので、注視領域分割が変化した新しい適用シーンで、運転者の注意力分析ソリューションの調整の複雑性及び計算量を減少させ、技術的解決手段の適合性と汎化性を向上させ、これにより、多様化した実用的な適用ニーズを満足させることができる。
【0120】
注視領域分類に必要な特徴情報検出、及び上記特徴情報に基づく注視領域分類を独立した2つの段階に分けるほか、本開示の実施例は、さらに、ニューラルネットワークに基づいて、注視領域カテゴリーのエンドツーエンドの検出を行うことができ、すなわち、ニューラルネットワークに顔部画像を入力し、ニューラルネットワークが顔部画像を処理した後に注視領域カテゴリーの検出結果を出力する。ニューラルネットワークは、畳み込み層、非線形層、全結合層などのネットワークユニットに基づいて所定の方法でスタックしたり構成したりしてもよいし、従来のニューラルネットワーク構造を用いてもよいが、本開示はこれについて限定しない。トレーニングすべきニューラルネットワーク構造が特定されると、前記ニューラルネットワークは、顔部画像セットを用いて監視トレーニングを行ってもよいし、又は、顔部画像セット及び前記顔部画像セット中の各顔部画像に基づいて切り取られた眼部画像を用いて監視トレーニングしてもよい。前記顔部画像セット中の各顔部画像は、該顔部画像における注視領域カテゴリーのマーク情報を含み、該顔部画像における前記注視領域カテゴリーのマーク情報は、前記複数カテゴリーの定義された注視領域の1つを指示する。前記顔部画像セットに基づいてニューラルネットワークに対して監視トレーニングを行うことにより、該ニューラルネットワークが注視カテゴリー領域の分割に必要な特徴抽出能力、及び注視領域の分類能力の両方を学習でき、それによって、画像を入力して注視領域カテゴリーの検出結果を出力するというエンドツーエンドの検出を実現する。
【0121】
いくつかの実施例では、
図8に示すように、本開示の実施例に係る注視領域カテゴリーを検出するためのニューラルネットワークのトレーニング方法のプロセス模式図である。
【0122】
ステップ201では、顔部画像セット中の、前記注視領域カテゴリーのマーク情報を含む顔部画像を取得する。
【0123】
本実施例では、顔部画像セット中の各フレームの顔部画像は、いずれも、注視領域のカテゴリーのマーク情報を含み、
図6の注視領域のカテゴリーの分割を例とすると、各フレームの顔部画像に含まれるマーク情報は、1~12のいずれかの数字である。
【0124】
ステップ202では、前記顔部画像セット中の顔部画像に対して特徴抽出処理を行い、第4特徴を取得する。
【0125】
ニューラルネットワークによって顔部画像に対して特徴抽出処理を行い、第4特徴を取得する、いくつかの可能な実施形態では、顔部画像に対して、畳み込み処理、正規化処理、第1線形変換、第2線形変換を順に行って特徴抽出処理を実現し、第4特徴を取得する。
【0126】
先ず、ニューラルネットワークにおける多層の畳み込み層によって顔部画像に対して畳み込み処理を行い、第5特徴を取得し、各々の畳み込み層から抽出された特徴内容及びセマンティクス情報はそれぞれ異なり、具体的には、多層の畳み込み層の畳み込み処理によって、画像特徴を逐次的に抽象化しながら、副次的な特徴を逐次的に除去する。従って、後で抽出される特徴サイズが小さくなるほど、内容及びセマンティクス情報が濃縮される。多層の畳み込み層によって、顔部画像に対して段階的に畳み込み操作を行い、対応する中間特徴を抽出し、最終的に一定大きさの特徴データを取得する。このようにして、顔部画像の主要内容情報(すなわち、顔部画像の特徴データ)を取得するとともに、画像サイズを狭め、システムの計算量を減少させ、速度を向上させることができる。上記畳み込み処理の実現プロセスは、畳み込み層が顔部画像に対して畳み込み処理を行い、すなわち、畳み込みコアを顔部画像をスライドさせ、顔部画像点における画素値を対応する畳み込みコアにおける数値に乗算し、そして全ての乗算値を加算して畳み込みコア中間画素に対応する画像における画素値とし、最終的に、顔部画像におけるすべての画素値をスライド処理し、第5特徴を抽出することである。本開示は、上記の畳み込み層の数について具体的に限定しないことを理解されたい。
【0127】
顔部画像に対して畳み込み処理を行うとき、データを1層のネットワークにより処理するたびに、データ分布を変更し、このように、次の層ネットワークの抽出に困難が生じる。従って、畳み込み処理して得られた第5特徴を後処理する前に、第5特徴を正規化する必要があり、すなわち、平均値が0且つ分散が1の正規分布になるように、第5特徴を正規化する。いくつかの可能な実施形態では、畳み込み層の後に正規化処理用のBN層を結合し、BN層は、トレーニング可能なパラメータを追加することによって特徴を正規化処理することで、トレーニング速度を速くし、データの関連性を除去し、特徴間の分布差異を強調することができる。一例では、BN層が第5特徴を処理するプロセスは、以下を参照することができる。
【0128】
第5特徴をβ=x1→mとし、合計、m個のデータがあり、出力をyi=BN(x)とし、BN層は、第5特徴に対して以下の操作を行う。
【0129】
先ず、上記第5特徴β=x
1→mの平均値を求め、すなわち、
【数1】
上記平均値μ
βに基づいて、上記第5特徴の分散を特定し、すなわち、
【数2】
上記平均値μ
β及び分散
に基づいて、上記第5特徴を正規化処理し、
を取得し、
最後に、スケーリング変数γ及び並進変数δに基づいて、正規化結果を取得し、すなわち、
【数3】
ただし、γ及びδは、いずれも既知である。
【0130】
畳み込み処理及び正規化処理がデータから複雑なマッピングを学習する能力が低く、画像、ビデオ、オーディオ、音声などの複雑な種類のデータを学習処理できない。従って、正規化処理済みのデータを線形変換することにより、画像処理、ビデオ処理などの複雑な問題を解決する必要がある。BN層の後に線性活性化関数を結合し、正規化処理済みのデータを活性化関数により線形変換し、複雑なマッピングを処理できる。いくつかの可能な実施形態では、正規化処理済みのデータを正規化線形(rectified linear unit、ReLU)関数に代入し、正規化処理済みのデータに対する第1線形変換を実現し、第6特徴を取得する。
【0131】
活性化関数層の後に全結合(fully connected layers、FC)層を結合し、全結合層によって第6特徴を処理することで、第6特徴をサンプル(すなわち、注視領域)マーク空間にマッピングすることができる。いくつかの可能な実施形態では、全結合層によって第6特徴に対して第2線形変換を行う。全結合層は、入力層(すなわち、活性化関数層)及び出力層を含み、出力層のいずれかのニューロンは、入力層の各ニューロンに結合される。出力層における各ニューロンは、いずれも、対応する重み及びバイアスを有する。従って、全結合層のすべてのパラメータは、各ニューロンの重み及びバイアスであり、該重み及びバイアスの特定の大きさは、全結合層をトレーニングすることによって得られる。
【0132】
第6特徴を全結合層に入力すると、全結合層の重み及びバイアス(すなわち、第2特徴データの重み)を取得し、重み及びバイアスに基づいて上記第6特徴を重み加算し、上記第4特徴を取得し、いくつかの可能な実施形態では、全結合層の重み及びバイアスは、それぞれ、w
i及びb
iであり、ただし、iはニューロンの数であり、第6特徴はxであり、全結合層が第3特徴データに対して第2線形変換を行って得られた第1特徴データは
【数4】
である。
【0133】
ステップ203では、第1特徴データに対して第1非線形変換を行い、注視領域カテゴリーの検出結果を取得する。
【0134】
全結合層の後にsoftmax層を結合し、入力された異なる特徴データをsoftmax層に内蔵されたsoftmax関数によって0~1の値にマッピングし、マッピング後のすべての値の和は、1であり、マッピング後の値は、入力された特徴に一対一対応し、このように、各々の特徴データに対する予測が完了し、対応する確率を数値的に与えるのに相当する。1つの可能な実施形態では、第4特徴をsoftmax層に入力し、第4特徴をsoftmax関数に代入して第1非線形変換を行い、運転者の視線が異なる注視領域にある確率を取得する。
【0135】
ステップ204では、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。
【0136】
本実施例では、ニューラルネットワークは、損失関数を含み、損失関数は、交差エントロピー損失関数、平均二乗誤差損失関数、二乗損失関数などとすることができ、本開示は損失関数の具体的な形について限定しない。
【0137】
顔部画像セット中の各顔部画像は、対応するマーク情報を有し、すなわち、各顔部画像は、1つの注視領域カテゴリーに対応し、ステップ202で得られた異なる注視領域の確率及びマーク情報を損失関数に代入し、損失関数値を取得する。ニューラルネットワークのネットワークパラメータを調整することにより、損失関数値を設定された閾値以下にし、ニューラルネットワークのトレーニングが完了し、上記ネットワークパラメータは、ステップ201と202での各ネットワーク層の重み及びバイアスを含む。
【0138】
本実施例は、前記注視領域カテゴリーのマーク情報を含む顔部画像セットに基づいて、ニューラルネットワークをトレーニングし、トレーニング後のニューラルネットワークは、抽出された顔部画像の特徴に基づいて注視領域のカテゴリーを特定でき、本実施例に係るトレーニング方法は、顔部画像セットのみを入力すれば、トレーニング後のニューラルネットワークを取得でき、トレーニング方法が簡単で、トレーニング時間が短い。
【0139】
いくつかの実施例では、
図9に示すように、
図9は、本開示の他の実施例に係る上記ニューラルネットワークのトレーニング方法のプロセス模式図である。
【0140】
ステップ301では、前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得する。
【0141】
本実施例では、顔部画像セット中の各フレームの顔部画像は、いずれも、注視領域のカテゴリーのマーク情報を含み、
図6の注視領域のカテゴリーの分割を例とすると、各フレームの顔部画像に含まれるマーク情報は1~12のいずれかの数字である。
【0142】
異なるスケールの特徴を融合し、特徴情報を豊富にすることで、注視領域のカテゴリーの検出精度を向上させることができ、上記特徴情報を豊富するプロセスについては、ステップ302~305を参照することができる。
【0143】
ステップ302では、前記顔部画像における少なくとも1つの眼の眼部画像を切り取り、前記少なくとも1つの眼は、左眼及び/又は右眼を含む。
【0144】
本実施例では、顔部画像における眼部領域画像を認識し、スクリーンショットソフトウェアによって、顔部画像から眼部領域画像を切り取りしてもよいし、作図ソフトウェアによって顔部画像から眼部領域画像を切り取りしてもよい。本開示では、顔部画像における眼部領域画像を如何に認識するか、及び、顔部画像から眼部領域画像を如何に切り取るかの具体的な実現形態については、限定しない。
【0145】
ステップ303では、前記顔部画像の第1特徴及び少なくとも1つの眼の眼部画像の第2特徴をそれぞれ抽出する。
【0146】
本実施例では、トレーニングされたニューラルネットワークは、複数の特徴抽出ブランチを含み、異なる特徴抽出ブランチによって顔部画像及び眼部画像に対して第2特徴抽出処理を行い、顔部画像の第1特徴及び眼部画像の第2特徴を取得し、抽出された画像特徴スケールを豊富する。いくつかの可能な実施形態では、異なる特徴抽出ブランチによってそれぞれ顔部画像に対して畳み込み処理、正規化処理、第3線形変換、第4線形変換を順に行い、第1特徴及び第2特徴を取得し、視線ベクトル情報は、視線ベクトル及び視線ベクトルの起点位置を含む。上記眼部画像は、1つの眼球(左眼又は右眼)のみを含んでもよいし、2つの眼球を含んでもよいが、本開示はこれについて限定しないことを理解されたい。
【0147】
上記畳み込み処理、正規化処理、第3線形変換、第4線形変換の具体的な実現プロセスについては、ステップ202での畳み込み処理、正規化処理、第1線形変換、第2線形変換を参照することができ、ここでは説明を省略する。
【0148】
ステップ304では、前記第1特徴と前記第2特徴を融合し、第3特徴を取得する。
【0149】
同一物体(本実施例では、運転者を指す)の異なるスケールの特徴に含まれるシーン情報はそれぞれ異なるので、異なるスケールの特徴を融合することにより、より豊富な情報を得ることができる。
【0150】
いくつかの可能な実施形態では、第1特徴及び第2特徴を融合処理することにより、複数の特徴のうちの特徴情報を1つの特徴に融合することができ、運転者注視領域のカテゴリーの検出精度を向上させることに有利である。
【0151】
ステップ305では、前記第3特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定する。
【0152】
本実施例では、注視領域カテゴリーの検出結果は、運転者の視線が異なる注視領域にある確率であり、値範囲は0~1である。いくつかの可能な実施形態では、第3特徴をsoftmax層に入力し、第3特徴をsoftmax関数に代入して第2非線形変換を行い、運転者の視線が異なる注視領域にある確率を取得する。
【0153】
ステップ306では、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。
【0154】
本実施例では、ニューラルネットワークは、損失関数を含み、損失関数は、交差エントロピー損失関数、平均二乗誤差損失関数、二乗損失関数などとすることができ、本開示は損失関数の具体的な形について限定しない。
【0155】
ステップ305で得られた異なる注視領域の確率及びマーク情報を損失関数に代入し、損失関数値を取得する。ニューラルネットワークのネットワークパラメータを調整することにより、損失関数値を設定された閾値以下にし、ニューラルネットワークのトレーニングが完了し、上記ネットワークパラメータは、ステップ303~305での各ネットワーク層の重み及びバイアスを含む。
【0156】
本実施例に係るトレーニング方法でトレーニングして得られたニューラルネットワークは、同一フレーム画像から抽出された異なるスケールの特徴を融合でき、特徴情報を豊富にし、さらに融合後の特徴に基づいて運転者の注視領域のカテゴリーを認識して認識精度を向上させる。
【0157】
本開示に係る2つのニューラルネットワークのトレーニング方法(ステップ201~204及びステップ301~306)は、ローカル端末(例えば、コンピュータ又は携帯電話)において実現されてもよく、クラウド(例えば、サーバなど)によって実現されてもよいことを当業者は理解するであろう。本開示はこれに限定されない。
【0158】
いくつかの実施例では、例えば、
図10に示すように、上記インタラクション方法は、ステップ108及び109をさらに含むことができる。
【0159】
ステップ108では、前記インタラクションフィードバック情報に対応する車両制御命令を生成する。
【0160】
本開示の実施例では、デジタル人によって出力されたインタラクションフィードバック情報に対応する車両制御命令を生成できる。
【0161】
例えば、デジタル人によって出力されたインタラクションフィードバック情報が「歌を流しましょう」である場合、車両制御命令は、車載オーディオ再生機器を制御してオーディオを再生させることであり得る。
【0162】
ステップ109では、前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させる。
【0163】
本開示の実施例では、対応するターゲット車載機器を制御して、車両制御命令によって指示される操作を実行させることができる。
【0164】
例えば、車両制御命令が窓を開くと、車窓の低下を制御できる。また、例えば、車両制御命令がラジオをオフにすると、ラジオをオフにするように制御できる。
【0165】
上記実施例では、デジタル人にインタラクションフィードバック情報を出力させることができるほか、インタラクションフィードバック情報に対応する車両制御命令を生成することもでき、それにより、対応するターゲット車載機器を制御して対応する操作を実行させ、デジタル人が車内人員と車の暖かいリンクになる。
【0166】
いくつかの実施例では、前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、ステップ108は、108-1及びステップ108-2のうちの少なくとも1つステップを含むことができる。
【0167】
ステップ108-1では、ターゲット車載機器をトリガーする第1車両制御命令を生成する。
【0168】
ただし、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも1つによって、前記車内人員の疲労又は気散らしの度合いを緩和する車載機器を含む。
【0169】
例えば、インタラクションフィードバック情報が「とても疲れたでしょう。リラックスしましょう」を含むと、車内人員の疲労レベルが最疲労であることを判断し、シートマッサージを起動する第1車両制御命令を生成でき、又は、インタラクションフィードバック情報が「気を散らさないでください」を含むと、車内人員の疲労度が最軽であることを判断し、オーディオ再生を起動する第1車両制御命令を生成でき、又は、インタラクションフィードバック情報が「気が散ってるでしょう、疲れたでしょう」を含むと、疲労レベルが中度であることを判断し、フレグランスシステムを起動する第1車両制御命令を生成できる。
【0170】
ステップ108-2では、運転補助をトリガーする第2車両制御命令を生成する。
【0171】
本開示の実施例では、自動運転を起動して運転者の運転を補助するなどの運転補助の第2車両制御命令をさらに生成できる。
【0172】
上記実施例では、ターゲット車載機器をトリガーする第1車両制御命令及び/又は運転補助をトリガーする第2車両制御命令をさらに生成でき、運転安全性を向上させる。
【0173】
いくつかの実施例では、前記インタラクションフィードバック情報がジェスチャー検出結果に対する確認内容を含み、例えば、
図11A及び
図11Bに示すように、車内人員が親指を立てるジェスチャーを入力し、又は、親指と中指を立てるジェスチャーを入力し、デジタル人が「はい」、「問題なし」などのインタラクションフィードバック情報を出力し、ステップ108は、ステップ108-3を含むことができる。
【0174】
ステップ108-3では、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成する。
【0175】
本開示の実施例では、ジェスチャーと車両制御命令とのマッピング関係を予め記憶し、対応する車両制御命令を特定することができる。例えば、マッピング関係に基づいて、親指と中指を立てるジェスチャーに対応する車両制御命令は、車載プロセッサがブルートゥース(登録商標)によって画像を受信することである。又は、親指のみを立てるジェスチャーに対応する車両制御命令は、車載カメラが画像を撮影することである。
【0176】
上記実施例では、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成でき、車内人員がより柔軟に車両を制御でき、デジタル人が車内人員との暖かいリンクになる。
【0177】
いくつかの実施例では、デジタル人によって出力されたインタラクション情報に基づいて、他の車載機器のオンオフを制御できる。
【0178】
例えば、デジタル人によって出力されたインタラクション情報が「窓やエアコンを開いてあげましょう」を含むと、窓を開けたり、エアコンを起動したりするように制御する。また、例えば、デジタル人が乗客へ出力したインタラクション情報が「ゲームをしましょう」を含むと、車載表示装置を制御してゲームインタフェースを表示する。
【0179】
本開示の実施例では、デジタル人が車両と車内人員との暖かいリンクとして、車内人員の運転に付き添い、デジタル人がより人間的になり、よりスマートなドライブパートナーになる。
【0180】
上記実施例では、車載カメラによってビデオストリームを収集し、ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得することができる。例えば、顔部検出を行い、顔部を検出すると、視線検出又は注視領域検出を行い、視線方向が車載表示装置に向かう又は注視領域と車載機器の配置領域とが少なくとも部分的に重複することを検出した場合、デジタル人を車載表示装置に表示できる。いくつかの実施例では、少なくとも1フレームの画像に対して顔部認識を行い、車内に人がいると判断すると、
図12Aに示すように、デジタル人を車載表示装置に表示できる。
【0181】
又は、
図12Bに示すように、少なくとも1フレームの画像に対して視線検出又は注視領域検出を行い、視線注視によってデジタル人を起動することを実現する。
【0182】
顔部認識結果に対応する第1デジタル人が予め記憶されていない場合、第2デジタル人を車載表示装置に表示してもよいし、又は、通知情報を出力し、車内人員に第1デジタル人を設定させてもよい。
【0183】
図12Cに示すように、第1デジタル人は、運転中、車内人員に付き添うことができ、車内人員とインタラクションし、音声フィードバック情報、表情フィードバック情報及び動作フィードバック情報のうちの少なくとも1つを出力する。
【0184】
上記プロセスを通じて、視線によって、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させ、車内人員とインタラクションするという目的を実現し、本開示の実施例では、視線を用いて上記プロセスを実現することができるほか、複数のモードを通じて、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させることができる。
【0185】
図13Aは、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
図13Aに示すように、該車載デジタル人に基づくインタラクション方法は、ステップ110~ステップ112を含む。
【0186】
ステップ110では、車載音声収集機器により収集された前記車内人員のオーディオ情報を取得する。
【0187】
本開示の実施例では、さらに、車載音声収集機器、例えば、マイクロホンによって車内人員のオーディオ情報を収集できる。
【0188】
ステップ111では、前記オーディオ情報に対して音声認識を行い、音声認識結果を取得する。
【0189】
本開示の実施例では、オーディオ情報に対して音声認識を行い、異なる命令に対応する音声認識結果を取得できる。
【0190】
ステップ112では、前記音声認識結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。
【0191】
本開示の実施例では、車内人員がデジタル人を音声によって起動し、すなわち、前記音声認識結果に応じて、デジタル人を車載表示装置に表示してもよいし、又は、車内人員の音声に基づいてデジタル人を制御してインタラクションフィードバック情報を出力させてもよく、該インタラクションフィードバック情報は、同様に、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報のうちの少なくとも1つを含むことができる。
【0192】
例えば、車内人員が車に入った後、「デジタル人を起動する」を音声入力すると、該オーディオ情報に基づいてデジタル人を車載表示装置に表示し、このデジタル人は、この前に車内人員により予め設定された第1デジタル人であってもよいし、又は、デフォルトの第2デジタル人であってもよいし、又は、通知情報を音声出力し、車内人員に第1デジタル人を設定させてもよい。
【0193】
また、例えば、車載表示装置に表示されたデジタル人を制御して車内人員とチャットさせ、車内人員が「今日は暑いですね」を音声入力すると、デジタル人は、音声、表情又は動作のうちの少なくとも1つによって、「エアコンをつけましょうか」というインタラクションフィードバック情報を出力する。
【0194】
上記実施例では、車内人員は、視線によって、デジタル人を起動し又はデジタル人を制御してインタラクションフィードバック情報を出力させることができるほか、さらに、音声によって、デジタル人を起動する又はデジタル人を制御してインタラクションフィードバック情報を出力させることができ、デジタル人と車内人員のインタラクションがより多くのモードを有し、デジタル人の知能度を向上させる。
【0195】
図13Bは、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション方法のフローチャートである。
図13Bに示すように、該車載デジタル人に基づくインタラクション方法は、ステップ101、102、110、111及び113を含む。
【0196】
ステップ101、102、110及び111についての関連説明は、上記実施例を参照することができ、ただし、ここでは説明を省略する。
【0197】
ステップ113では、前記音声認識結果及び前記タスク処理結果に応じて、前記デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる。
【0198】
上記方法の実施例に対応して、本開示は、装置の実施例をさらに提供する。
【0199】
図14に示すように、
図14は、本開示の一例示的な実施例に係る車載デジタル人に基づくインタラクション装置ブロック図であり、装置は、車載カメラにより収集された車内人員のビデオストリームを取得するための第1取得モジュール410と、前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュール420と、前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第1インタラクションモジュール430とを含む。
【0200】
いくつかの実施例では、前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも1つを含み、及び/又は、前記車内人員は、運転者、乗客の少なくとも1つを含み、及び/又は、前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも1つを含む。
【0201】
いくつかの実施例では、前記第1インタラクションモジュールは、タスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得するための第1取得サブモジュールと、前記マッピング関係に基づいて、前記タスク処理結果に対応するインタラクションフィードバック命令を特定するための特定サブモジュールと、前記デジタル人を制御して前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させるための制御サブモジュールとを含む。
【0202】
いくつかの実施例では、前記所定タスクは、顔部認識を含み、前記タスク処理結果は、顔部認識結果を含み、前記第1インタラクションモジュールは、前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されることに応答して、前記第1デジタル人を前記車載表示装置に表示するための第1表示サブモジュール、又は、前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていないことに応答して、第2デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力するための第2表示サブモジュールを含む。
【0203】
いくつかの実施例では、前記第2表示サブモジュールは、顔部画像の画像収集通知情報を前記車載表示装置に出力するための表示ユニットを含む。前記装置は、顔部画像を取得するための第2取得モジュールと、前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得するための顔部属性分析モジュールと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定するためのテンプレート特定モジュールと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成するデジタル人生成モジュールとをさらに含む。
【0204】
いくつかの実施例では、前記デジタル人生成モジュールは、前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶するための第1記憶サブモジュールを含む。
【0205】
いくつかの実施例では、前記デジタル人生成モジュールは、前記ターゲットデジタル人のキャラクターテンプレートの調整情報を取得するための第2取得サブモジュールと、前記調整情報に基づいて前記ターゲットデジタル人のキャラクターテンプレートを調整するための調整サブモジュールと、調整後の前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶するための第2記憶サブモジュールとを含む。
【0206】
いくつかの実施例では、前記第2取得モジュールは、前記車載カメラにより収集された顔部画像を取得するための第3取得サブモジュール、又は、アップロードされた前記顔部画像を取得するための第4取得サブモジュールを含む。
【0207】
いくつかの実施例では、前記所定タスクは、視線検出を含み、前記タスク処理結果は、視線方向検出結果を含み、前記第1インタラクションモジュールは、前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第3表示サブモジュールを含む。
【0208】
いくつかの実施例では、前記所定タスクは、注視領域検出を含み、前記タスク処理結果は、注視領域検出結果を含み、前記第1インタラクションモジュールは、前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第4表示サブモジュールを含む。
【0209】
いくつかの実施例では、前記車内人員は、運転者を含み、前記第1インタラクションモジュールは、前記ビデオストリームに含まれる前記運転領域にいる少なくとも1フレームの運転者の顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、各フレームの顔部画像の注視領域は、車に対して予め空間領域分割を行って得られた複数カテゴリーの定義された注視領域の1つであるカテゴリー特定サブモジュールを含む。
【0210】
いくつかの実施例では、予め前記車に対して空間領域分割を行って得られた前記複数カテゴリーの定義された注視領域は、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、車載表示領域のうちの2カテゴリー以上を含む。
【0211】
いくつかの実施例では、前記カテゴリー特定サブモジュールは、前記ビデオストリームに含まれる、前記運転領域にいる運転者の少なくとも1フレームの顔部画像に対して視線及び/又は頭部姿態検出を行うための第1検出ユニットと、各フレームの顔部画像に対して、このフレームの顔部画像の視線及び/又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定するためのカテゴリー特定ユニットとを含む。
【0212】
いくつかの実施例では、前記カテゴリー特定サブモジュールは、前記少なくとも1フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、前記複数カテゴリーの定義された注視領域の1つを指示する該顔部画像における注視領域カテゴリーのマーク情報を含み、又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされる入力ユニットを含む。
【0213】
いくつかの実施例では、前記装置は、前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像を取得するための第3取得モジュールと、前記顔部画像における少なくとも1つの眼の眼部画像を切り取るための切り取りモジュールであって、前記少なくとも1つの眼は、左眼及び/又は右眼を含む切り取りモジュールと、前記顔部画像の第1特徴及び少なくとも1つの眼の眼部画像の第2特徴をそれぞれ抽出するための特徴抽出モジュールと、前記第1特徴と前記第2特徴を融合し、第3特徴を取得するための融合モジュールと、前記第3特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定するための検出結果特定モジュールと、前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整するパラメータ調整モジュールとをさらに含む。
【0214】
いくつかの実施例では、前記装置は、前記インタラクションフィードバック情報に対応する車両制御命令を生成するための車両制御命令生成モジュールと、前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるための制御モジュールとをさらに含む。
【0215】
いくつかの実施例では、前記インタラクションフィードバック情報は、前記車内人員の疲労又は気散らしの度合いを緩和するための情報内容を含み、前記車両制御命令生成モジュールは、ターゲット車載機器をトリガーする第1車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも1つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含む第1生成サブモジュール、及び/又は、運転補助をトリガーする第2車両制御命令を生成するための第2生成サブモジュールとを含む。
【0216】
いくつかの実施例では、前記インタラクションフィードバック情報は、ジェスチャー検出結果に対する確認内容を含み、前記車両制御命令生成モジュールは、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成するための第3生成サブモジュールを含む。
【0217】
いくつかの実施例では、前記装置は、車載音声収集機器により収集された前記車内人員のオーディオ情報を取得するための第4取得モジュールと、前記オーディオ情報に対して音声認識を行い、音声認識結果を取得するための音声認識モジュールと、前記音声認識結果及び前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第2インタラクションモジュールとをさらに含む。
【0218】
装置の実施例については、基本的には方法の実施例に対応しているので、関連する部分については、方法の実施例での説明の一部を参照されたい。上記の装置の実施例は、単に例示的なものである。独立部材として説明されたユニットは、物理的に分離されてもよいし、分離されなくてもよく、ユニットとして表示された部材は、物理的ユニットであってもよいし、物理的ユニットでなくてもよく、即ち、同じ場所に設置されてもよいし、複数のネットワークユニットに分散してもよい。実際の必要に応じて、そのうちの一部または全部のユニットを選択して、本開示の解決策の目的を実現することができる。当業者は、創造的な作業なしで理解し、実行することができる。
【0219】
本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体をさらに提供し、プロセッサが該コンピュータプログラムを実行すると、プロセッサが上記実施例で説明された車載デジタル人に基づくインタラクション方法を実行する。
【0220】
いくつかの実施例では、本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品を提供し、コンピュータ読み取り可能なコードが機器上で実行されると、機器におけるプロセッサは、以上のいずれかの実施例に係る車載デジタル人に基づくインタラクション方法の命令を実行する。
【0221】
いくつかの実施例では、本開示の実施例は、コンピュータ読み取り可能な命令を記憶するための別のコンピュータプログラム製品をさらに提供し、命令が実行されると、コンピュータに上記のいずれか実施例に係る車載デジタル人に基づくインタラクション方法の操作を実行させる。
【0222】
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェアまたはそれらの組み合わせによって実装することができる。いくつかの実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体的に具体化される。他のいくつかの実施例では、コンピュータプログラム製品は、ソフトウェア製品、例えば、ソフトウェア開発キット(Software Development Kit、SDK)などとして具体的に具体化される。
【0223】
本開示の実施例は、車載デジタル人に基づくインタラクション装置をさらに提供し、インタラクション装置は、プロセッサが実行可能な命令を記憶するためのメモリを含み、プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、上記のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される。
【0224】
図15は、本願の実施例に係る車載デジタル人に基づくインタラクション装置のハードウェア構造模式図である。該車載デジタル人に基づくインタラクション装置510は、プロセッサ511を含み、入力装置512、出力装置513及びメモリ514をさらに含むことができる。該入力装置512、出力装置513、メモリ514及びプロセッサ511は、バスを介して互いに結合される。
【0225】
メモリは、ランダムアクセスメモリ(random access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、消去可能なプログラマブル読み取り専用メモリ(erasable programmable read only memory、EPROM)、又はポータブル読み取り専用メモリ(compact disc read-only memory、CD-ROM)を含むがこれらに限られない。該メモリは、関連する命令とデータを記憶するために用いられる。
【0226】
入力装置は、データ及び/又は信号を入力するために用いられ、出力装置は、データ及び/又は信号を出力するために用いられる。出力装置及び入力装置は、独立したデバイスであってもよいし、統合されたデバイスであってもよい。
【0227】
プロセッサは、1つ又は複数のプロセッサを含むことができ、例えば、1つ又は複数の中央プロセッサ(central processing unit、CPU)を含み、プロセッサが1つのCPUである場合、該CPUは、シングルコアCPUであってもよいし、マルチコアCPUであってもよい。
【0228】
メモリは、ネットワーク装置のプログラムコード及びデータを記憶するために用いられる。
【0229】
プロセッサは、該メモリにおけるプログラムコード及びデータを呼び出し、上記方法の実施例のステップを実行するために用いられる。具体的には、方法の実施例の説明を参照でき、ここでは繰り返さない。
【0230】
図15は、車載デジタル人に基づくインタラクション装置の簡略化設計のみを示していることは理解できる。実際の応用では、該車載デジタル人に基づくインタラクション装置は、それぞれ必要な他の要素を含んでもよく、任意の数の入力/出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されず、本願の実施例の車載デジタル人に基づくインタラクションの解決手段を実現できるすべての要素は、本出願の保護範囲内にある。
【0231】
当業者は、明細書及びここに開示された発明を実践することを考慮して、本開示の他の実施形態を容易に想到できる。本開示は、本開示の任意の変形、用途または適応的変化をカバーすることを意図し、これらの変形、用途または適応的変化は、本開示の一般的な原理に従い、本開示の開示されていない本技術分野における公知の常識または慣用技術手段を含む。本開示の実際の範囲および要旨は、以下の特許請求の範囲によって示される。
【0232】
上記は本開示の好適な実施形態にすぎず、本開示を限定するものではなく、本開示の要旨及び原則の内に、行ったいかなる修正、同等置換や改善などは、本開示の保護の範囲内に含まれるものとする。
【手続補正書】
【提出日】2022-03-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
車載カメラにより収集された車内人員のビデオストリームを取得するステップと、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するステップと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとを含む、ことを特徴とする車載デジタル人に基づくインタラクション方法。
【請求項2】
前記所定タスクは、顔部検出、視線検出、注視領域検出、顔部認識、人体検出、ジェスチャー検出、顔部属性検出、情緒状態検出、疲労状態検出、気散らし状態検出、危険動作検出の少なくとも1つを含み、
又は、
前記車内人員は、運転者、乗客の少なくとも1つを含み、
又は、
前記デジタル人によって出力されたインタラクションフィードバック情報は、音声フィードバック情報、表情フィードバック情報、動作フィードバック情報の少なくとも1つを含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記タスク処理結果に応じて、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップは、
前記タスク処理結果とインタラクションフィードバック命令とのマッピング関係を取得することと、
前記マッピング関係に基づいて前記タスク処理結果に対応するインタラクションフィードバック命令を特定することと、
前記デジタル人を制御して前記インタラクションフィードバック命令に対応するインタラクションフィードバック情報を出力させることとを含む、ことを特徴とする請求項1に記載の方法。
【請求項4】
前記所定タスクは、顔部認識を含み、
前記タスク処理結果は、顔部認識結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示するステップは、
前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されることに応答して、前記第1デジタル人を前記車載表示装置に表示すること、又は
前記車載表示装置に前記顔部認識結果に対応する第1デジタル人が記憶されていないことに応答して、第2デジタル人を前記車載表示装置に表示し、又は、前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力することを含む、ことを特徴とする請求項1に記載の方法。
【請求項5】
前記顔部認識結果に対応する第1デジタル人を生成するための通知情報を出力することは、
顔部画像の画像収集通知情報を前記車載表示装置に出力することを含み、
画像収集通知情報に応答して取得された前記顔部画像に対して顔部属性分析を行い、前記顔部画像に含まれるターゲット顔部属性パラメータを取得する
ことと、予め記憶された顔部属性パラメータとデジタル人のキャラクターテンプレートとの対応関係に基づいて、前記ターゲット顔部属性パラメータに対応するターゲットデジタル人のキャラクターテンプレートを特定する
ことと、前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成する
こととをさらに含む、ことを特徴とする請求項4に記載の方法。
【請求項6】
前記ターゲットデジタル人のキャラクターテンプレートに基づいて、前記車内人員とマッチングする前記第1デジタル人を生成するステップは、
前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶すること
、又は
調整情報に基づいて調整
された前記ターゲットデジタル人のキャラクターテンプレートを前記車内人員とマッチングする前記第1デジタル人として記憶
し、前記調整情報が、ターゲットデジタル人のキャラクターテンプレートに基づいて取得されることを含む、ことを特徴とする請求項5に記載の方法。
【請求項7】
前記所定タスクは、視線検出を含み、
前記タスク処理結果は、視線方向検出結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記視線方向検出結果が前記車内人員の視線が前記車載表示装置に向かうことを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項1に記載の方法。
【請求項8】
前記所定タスクは、注視領域検出を含み、
前記タスク処理結果は、注視領域検出結果を含み、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させる前記ステップは、
前記注視領域検出結果が前記車内人員の注視領域と前記車載表示装置の配置領域とが少なくとも部分的に重複することを表すことに応答して、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させることを含む、ことを特徴とする請求項1に記載の方法。
【請求項9】
前記車内人員は、運転者を含み、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して
所定のタスク処理を行い、
タスク処理結果を取得することは、
前記ビデオストリームに含まれる、運転領域にいる運転者の少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定し、
前記注視領域のカテゴリーは、予め前記車に対して空間領域分割を行って得られ
、左フロントガラス領域、右フロントガラス領域、ダッシュボード領域、車内バックミラー領域、センターコンソール領域、左バックミラー領域、右バックミラー領域、サンバイザ領域、シフトロッド領域、ハンドル下方領域、副操縦領域、副操縦の前方の雑物キャビネット領域、
および、車載表示領域
を含む、ことを特徴とする請求項
8に記載の方法。
【請求項10】
前記ビデオストリームに含まれる、
運転領域にいる運転者の
少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記ビデオストリームに含まれる、前記運転領域にいる運転者の
少なくとも1フレームの顔部画像に対して視線及び/又は頭部姿態検出を行うことと、
各フレームの顔部画像に対して、このフレームの顔部画像の視線及び/又は頭部姿態の検出結果に応じて、このフレームの顔部画像における前記運転者の注視領域のカテゴリーを特定することとを含む、ことを特徴とする請求項
9に記載の方法。
【請求項11】
前記ビデオストリームに含まれる、
運転領域にいる運転者の
少なくとも1フレームの顔部画像に基づいて、各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ特定することは、
前記少なくとも1フレームの顔部画像をそれぞれニューラルネットワークに入力して、前記ニューラルネットワークによって各フレームの顔部画像における前記運転者の注視領域のカテゴリーをそれぞれ出力し、
前記ニューラルネットワークは、顔部画像セットを用いて予めトレーニングされ、前記顔部画像セット中の各顔部画像は、
該顔部画像における顔の注視領域カテゴリーを指示する注視領域カテゴリーのマーク情報を含み、
又は、前記ニューラルネットワークは、前記顔部画像セットを用いて、記顔部画像セット中の各顔部画像から切り取られた眼部画像に基づいて予めトレーニングされることを含む、ことを特徴とする請求項
9に記載の方法。
【請求項12】
前記ニューラルネットワークをトレーニングするステップは、
前記顔部画像セット中の、注視領域カテゴリーのマーク情報を含む顔部画像
に対して、
前記顔部画像における少なくとも1つの眼の眼部画像を切り取り、前記少なくとも1つの眼は、左眼及び/又は右眼を含む
ことと、
前記顔部画像の第1特徴及び少なくとも1つの眼の眼部画像の第2特徴をそれぞれ抽出することと、
前記第1特徴と前記第2特徴を融合し、第3特徴を取得することと、
トレーニングすべきニューラルネットワークを用いて、前記第3特徴に基づいて、前記顔部画像の注視領域カテゴリーの検出結果を特定することと、
前記注視領域カテゴリーの検出結果と前記注視領域カテゴリーのマーク情報との違いに基づいて、前記ニューラルネットワークのネットワークパラメータを調整することとを含む、ことを特徴とする請求項
11に記載の方法。
【請求項13】
前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップと、
前記車両制御命令に対応するターゲット車載機器を制御して、前記車両制御命令によって指示される操作を実行させるステップとをさらに含む、ことを特徴とする請求項
1~12のいずれかに記載の方法。
【請求項14】
前記インタラクションフィードバック情報に対応する車両制御命令を生成するステップは、
前記ターゲット車載機器をトリガーする第1車両制御命令を生成し、前記ターゲット車載機器は、味覚、嗅覚、聴覚のうちの少なくとも1つによって、前記車内人員疲労又は気散らしの度合いを緩和する車載機器を含むこと
と、
運転補助をトリガーする第2車両制御命令を生成すること
と、
前記インタラクションフィードバック情報
がジェスチャー検出結果に対する確認内容を含
む場合、ジェスチャーと車両制御命令とのマッピング関係に基づいて、前記ジェスチャー検出結果によって指示されるジェスチャーに対応する前記車両制御命令を生成すること
と、のうちのいずれか1つまたは複数を含む、ことを特徴とする請求項
13に記載の方法。
【請求項15】
車載音声収集機器により収集された前記車内人員のオーディオ情報を取得するステップと、
前記オーディオ情報に対して音声認識を行い、音声認識結果を取得するステップと、
前記音声認識結果及び前記タスク処理結果に応じて、デジタル人を前記車載表示装置に表示し、又は、前記車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるステップとをさらに含む、ことを特徴とする請求項
1~12のいずれかに記載の方法。
【請求項16】
車載カメラにより収集された車内人員のビデオストリームを取得するための第1取得モジュール、
前記ビデオストリームに含まれる少なくとも1フレームの画像に対して所定のタスク処理を行い、タスク処理結果を取得するためのタスクプロセスモジュールと、
前記タスク処理結果に応じて、デジタル人を車載表示装置に表示し、又は、車載表示装置に表示されたデジタル人を制御してインタラクションフィードバック情報を出力させるための第1インタラクションモジュールとを含む、ことを特徴とする車載デジタル人に基づくインタラクション装置。
【請求項17】
コンピュータプログラムが記憶され、
プロセッサが前記コンピュータプログラムを実行すると、前記プロセッサが上記請求項1~
14のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行するために用いられる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項18】
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリに記憶された実行可能な命令を呼び出すと、請求項1~
14のいずれかに記載の車載デジタル人に基づくインタラクション方法を実現するように構成される、ことを特徴とする車載デジタル人に基づくインタラクション装置。
【請求項19】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードがプロセッサ上で実行されると、前記プロセッサに請求項1~
14のいずれかに記載の車載デジタル人に基づくインタラクション方法を実行させる、ことを特徴とするコンピュータプログラム製品。
【手続補正書】
【提出日】2022-03-08
【手続補正1】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正2】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正3】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【国際調査報告】