特表2022-553779 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ シャンハイセンスタイムリンガンインテリジェントテクノロジーカンパニーリミテッドの特許一覧

特表2022-553779キャビン内の環境の調整方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-12-26

(54)【発明の名称】キャビン内の環境の調整方法及び装置

(51)【国際特許分類】

G06V 40/16 20220101AFI20221219BHJP

G06V 10/82 20220101ALI20221219BHJP

G06V 10/774 20220101ALI20221219BHJP

【ＦＩ】

G06V40/16 Z

G06V40/16 B

G06V10/82

G06V10/774

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022524727

(86)(22)【出願日】2020-12-10

(85)【翻訳文提出日】2022-04-26

(86)【国際出願番号】 CN2020135500

(87)【国際公開番号】W WO2021196721

(87)【国際公開日】2021-10-07

(31)【優先権主張番号】202010237887.1

(32)【優先日】2020-03-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】521147433

【氏名又は名称】シャンハイセンスタイムリンガンインテリジェントテクノロジーカンパニーリミテッド

(74)【代理人】

【識別番号】110001427

【氏名又は名称】弁理士法人前田特許事務所

(72)【発明者】

【氏名】ワンフェイ

(72)【発明者】

【氏名】チエンチェン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA08

5L096BA18

5L096CA02

5L096DA02

5L096EA13

5L096EA16

5L096EA35

5L096EA45

5L096FA02

5L096FA16

5L096FA32

5L096FA33

5L096FA62

5L096FA64

5L096FA69

5L096GA30

5L096GA51

5L096HA11

5L096JA16

5L096JA18

5L096KA04

5L096KA15

(57)【要約】

本開示は、キャビン内の環境の調整方法及び装置を提供する。当該方法は、キャビン内の人員の顔画像を取得することと、顔画像に基づいて、キャビン内の人員の属性情報及び状態情報を決定することと、キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む。当該装置は、取得モジュール（１００１）と、決定モジュール（１００２）と、調整モジュール（１００３）とを備える。電子機器（１１００）、コンピュータ可読記憶媒体及びコンピュータプログラムは、キャビン内の環境の調整方法を実行することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

キャビン内の環境の調整方法であって、
キャビン内の人員の顔画像を取得することと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定することと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む、
キャビン内の環境の調整方法。

【請求項2】

前記属性情報には年齢情報が含まれ、前記年齢情報は、第１ニューラルネットワークによって識別されて得られ、
前記第１ニューラルネットワークは、
トレーニングされるべき第１ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する
という方法に基づいて得られることを特徴とする
請求項１に記載の方法。

【請求項3】

前記サンプル画像集合は複数であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含むことを特徴とする
請求項２に記載の方法。

【請求項4】

前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項２に記載の方法。

【請求項5】

前記サンプル画像集合は複数であり、各前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項２に記載の方法。

【請求項6】

各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１損失値を計算することと、
前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第２損失値を計算することと、
前記第１損失値と前記第２損失値との和を今回のトレーニングプロセスにおける損失値とすることと、を含むことを特徴とする
請求項５に記載の方法。

【請求項7】

前記初期サンプル画像に対応する強化サンプル画像は、
前記初期サンプル画像における顔領域画像に対応する３次元顔モデルを生成し、
前記３次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第１強化サンプル画像を得て、
前記初期サンプル画像における各画素点のＲＧＢチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第２強化サンプル画像を得る
という方法に基づいて決定され、
前記強化サンプル画像は、前記第１強化サンプル画像又は前記第２強化サンプル画像であることを特徴とする
請求項４－６のいずれか一項に記載の方法。

【請求項8】

前記属性情報には性別情報が含まれ、
前記キャビン内の人員の性別情報は、
前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力し、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、
前記２次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する
という方法に基づいて決定されることを特徴とする
請求項１に記載の方法。

【請求項9】

前記設定された閾値は、
前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、
前記複数のサンプル画像を前記第２ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像に対応する予測性別を得て、
各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、
最大の予測精度に対応する候補閾値を前記設定された閾値として決定する
という方法に基づいて決定されることを特徴とする
請求項８に記載の方法。

【請求項10】

前記複数の候補閾値は、
設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する
という方法に基づいて決定されることを特徴とする
請求項９に記載の方法。

【請求項11】

前記状態情報には目開閉情報が含まれ、
前記キャビン内の人員の目開閉情報は、
前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルの各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられ、
確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定する
という方法に基づいて決定されることを特徴とする
請求項１に記載の方法。

【請求項12】

目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも１つが含まれることを特徴とする
請求項１１に記載の方法。

【請求項13】

前記状態情報には情緒情報が含まれ、
キャビン内の人員の情緒情報は、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別し、
識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する
というステップに基づいて決定されることを特徴とする
請求項１に記載の方法。

【請求項14】

顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも２つを含むことを特徴とする
請求項１３に記載の方法。

【請求項15】

前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、第３ニューラルネットワークによって実行され、前記第３ニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、
前記バックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得ることと、
各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行うことで、各前記分類ブランチネットワークで識別できる動作の発生確率を得ることと、
発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定することと、を含むことを特徴とする
請求項１３に記載の方法。

【請求項16】

キャビン内の環境を調整することの調整には、
音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも１つが含まれることを特徴とする
請求項１－１５のいずれか一項１に記載の方法。

【請求項17】

キャビン内の環境の調整装置であって、
キャビン内の人員の顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成される決定モジュールと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される調整モジュールと、を備える、
キャビン内の環境の調整装置。

【請求項18】

電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、前記電子機器が実行する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される時に請求項１－１６のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行する、
電子機器。

【請求項19】

コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に請求項１－１６のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体。

【請求項20】

コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサは、請求項１－１６のいずれか一項に記載のキャビン内の環境の調整方法を実現するためのステップを実行するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願への相互参照）
本開示は、出願番号が２０２０１０２３７８８７．１であり、出願日が２０２０年３月３０日である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張し、当該中国特許出願の全内容がここで参照により本開示に組み込まれる。

【0002】

本開示は、コンピュータ技術分野に関し、特にキャビン内の環境の調整方法及び装置に関する。

【背景技術】

【0003】

関連技術では、キャビン内の環境を設定するプロセスにおいて、例えば、キャビン内の温度を調整し、キャビン内で再生される音楽を調整する必要がある場合、一般的に、ユーザが手動で調整するが、顔識別技術の発展に伴い、ユーザごとに対応する環境情報を予め設定してもよく、ユーザが車に乗り込んだ後、顔識別技術によりユーザの身元を識別し、次にユーザの身元が識別された後、当該身元に対応する環境情報を取得し、次にキャビン内の環境の設定を行う。

【発明の概要】

【課題を解決するための手段】

【0004】

本開示の実施例は、キャビン内の環境の調整方法及び装置を少なくとも提供する。

【0005】

第１態様では、本開示の実施例によるキャビン内の環境の調整方法は、
キャビン内の人員の顔画像を取得することと、
顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定することと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む。

【0006】

１つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第１ニューラルネットワークによって識別されて得られ、以下の方法に基づいて前記第１ニューラルネットワークを得る：トレーニングされるべき第１ニューラルネットワークにより、サンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する。

【0007】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含む。

【0008】

１つの可能な実施形態では、前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含み、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0009】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することを含み、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0010】

１つの可能な実施形態では、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１損失値を計算することと、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第２損失値を計算することと、前記第１損失値と前記第２損失値との和を今回のトレーニングプロセスにおける損失値とすることと、を含む。

【0011】

１つの可能な実施形態では、以下の方法に基づいて前記初期サンプル画像に対応する強化サンプル画像を決定する：前記初期サンプル画像内の顔領域画像に対応する３次元顔モデルを生成し、前記３次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第１強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のＲＧＢチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第２強化サンプル画像を得て、前記強化サンプル画像が前記第１強化サンプル画像又は前記第２強化サンプル画像である。

【0012】

１つの可能な実施形態では、前記属性情報には性別情報が含まれ、以下の方法に基づいて前記キャビン内の人員の性別情報を決定する：前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力し、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記２次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。

【0013】

１つの可能な実施形態では、以下の方法に基づいて前記設定された閾値を決定する：前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第２ニューラルネットワークに入力し、複数の候補閾値のぞれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。

【0014】

１つの可能な実施形態では、以下の方法に基づいて前記複数の候補閾値を決定する：設定されたストライドに従って、予め設定された範囲内から前記複数の候補閾値を選択する。

【0015】

１つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定する：前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。

【0016】

１つの可能な実施形態では、目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも１つが含まれる。

【0017】

１つの可能な実施形態では、前記状態情報には情緒情報が含まれ、以下のステップに基づいて、キャビン内の人員の情緒情報を決定する：前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別し、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。

【0018】

１つの可能な実施形態では、顔の器官の動作は、眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも２つを含む。

【0019】

１つの可能な実施形態では、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、第３ニューラルネットワークによって実行され、前記第３ニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、前記顔画像に基づいて前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、バックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得ることと、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行い、各前記分類ブランチネットワークで識別できる動作の発生確率を得ることと、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定することと、を含む。

【0020】

１つの可能な実施形態では、キャビン内の環境設定を調整することの調整には、音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも１つが含まれる。

【0021】

第２態様では、本開示の実施例によるキャビン内の環境の調整装置は、
キャビン内の人員の顔画像を取得するように構成される取得モジュールと、
顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成される決定モジュールと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される調整モジュールと、を備える。

【0022】

１つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第１ニューラルネットワークによって識別されて得られ、
前記装置は、トレーニングモジュールをさらに備え、前記トレーニングモジュールは、以下の方法に基づいて前記第１ニューラルネットワークを得るように構成される：トレーニングされるべき第１ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する。

【0023】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成される。

【0024】

１つの可能な実施形態では、前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0025】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0026】

１つの可能な実施形態では、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１損失値を計算し、及び、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第２損失値を計算し、前記第１損失値と前記第２損失値との和を今回のトレーニングプロセスにおける損失値とするように構成される。

【0027】

１つの可能な実施形態では、前記トレーニングモジュールは、さらに以下の方法に基づいて初期サンプル画像に対応する強化サンプル画像を決定するように構成される：前記初期サンプル画像内の顔領域画像に対応する３次元顔モデルを生成し、前記３次元顔モデルに対して異なる角度の回転を行うとで、異なる角度での第１強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のＲＧＢチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第２強化サンプル画像を得るように構成され、前記強化サンプル画像は、前記第１強化サンプル画像又は前記第２強化サンプル画像である。

【0028】

１つの可能な実施形態では、前記属性情報には性別情報が含まれ、前記決定モジュールは、さらに以下の方法に基づいて前記キャビン内の人員の性別情報を決定するように構成される：前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力し、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記２次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。

【0029】

１つの可能な実施形態では、前記決定モジュールは、さらに以下の方法に基づいて前記設定された閾値を決定するように構成される：前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第２ニューラルネットワークに入力し、複数の候補閾値のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。

【0030】

１つの可能な実施形態では、前記決定モジュールは、さらに以下の方法に基づいて前記複数の候補閾値を決定するように構成される：設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する。

【0031】

１つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、前記決定モジュールは、さらに以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定するように構成される：前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。

【0032】

【0033】

１つの可能な実施形態では、前記状態情報には情緒情報が含まれ、前記決定モジュールは、さらに以下のステップに基づいて、キャビン内の人員の情緒情報を決定するように構成される：前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別し、識別された各前記器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。

【0034】

【0035】

１つの可能な実施形態では、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、第３ニューラルネットワークによって実行され、前記第３ニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記決定モジュールは、さらにバックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得て、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行うことで、各前記分類ブランチネットワークで識別できる動作の発生確率を得て、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定するように構成される。

【0036】

【0037】

第３の態様では、本開示の実施例による電子機器は、プロセッサ、メモリ及びバスを含み、前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、電子機器が調整する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される場合、上記の第１態様、又は第１態様の任意の一つの可能な実施形態のステップを実行する。

【0038】

第４態様では、本開示の実施例は、コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に上記の第１態様、又は第１態様の任意の一つの可能な実施形態のステップを実行するコンピュータ可読記憶媒体をさらに提供する。

【0039】

第５態様では、本開示の実施例は、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサが上記第１態様及びその任意の一つの可能な実現形態の方法を実行するコンピュータプログラムをさらに提供する。

【0040】

上記のキャビン内の環境の調整装置、電子機器、及びコンピュータ可読記憶媒体の効果の説明については、上記のキャビン内の環境の調整方法の説明を参照し、ここで説明を省略する。

【0041】

本開示の実施例の上記目的、特徴及び利点がより明確且つ理解しやすくなるために、以下に好ましい実施例を特に挙げて、前記添付の図面を参照して次のように詳しく説明する。

【図面の簡単な説明】

【0042】

【図1】本開示の実施例によるキャビン内の環境の調整方法を示す模式的フローチャートである。

【図2】本開示の実施例による第１ニューラルネットワークトレーニング方法を示す模式的フローチャートである。

【図3】本開示の実施例による強化サンプル画像決定方法を示す模式的フローチャートである。

【図4】本開示の実施例によるキャビン内の人員の性別情報の決定方法を示す模式的フローチャートである。

【図5】本開示の実施例による設定された閾値の決定方法を示す模式的フローチャートである。

【図6】本開示の実施例によるキャビン内の人員の目開閉情報の決定方法を示す模式的フローチャートである。

【図7】本開示の実施例による属性情報の決定方法を示す模式的フローチャートである。

【図8】本開示の実施例による情報抽出ニューラルネットワークのネットワーク構造を示す模式図である。

【図9】本開示の実施例によるキャビン内の人員の情緒情報の決定方法を示す模式的フローチャートである。

【図10】本開示の実施例によるキャビン内の環境の調整装置を示すアーキテクチャ模式図である。

【図11】本開示の実施例による電子機器を示す構造的模式図である。

【発明を実施するための形態】

【0043】

本開示の実施例の技術案をより明確に説明するために、以下に実施例に必要な図面を簡単に紹介するが、ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、これらの図面は、本開示に合致する実施例を示し、明細書とともに本開示の実施例の技術案を説明するために用いられる。以下の図面が本開示の幾つかの実施例のみを示すため、範囲を限定するためのものと見なすべきではなく、当業者にとって、創造的な労働をすることなく、これらの図面に基づいて他の関連する図面を取得することができることを理解すべきである。

【0044】

本開示の実施例の目的、技術案及び利点をより明確にするために、以下に本開示の実施例の図面を参照して、本開示の実施例における技術案を明確かつ全面的に説明し、明らかに、説明される実施例は、本開示の実施例の一部だけであり、全ての実施例ではない。通常、本明細書の図面に記載及び示される本開示の実施例のコンポーネントは、様々な異なる構成で配置及び設計されてもよい。したがって、以下に添付の図面に提供される本開示の実施例の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、本開示の選択された実施例を示すものだけである。本開示の実施例に基づき、当業者が創造的な労力を払わずに得る全ての他の実施例は、本開示の保護範囲に属する。

【0045】

関連技術では、車両のキャビン内の環境設定を調整するプロセスでは、１つは手動で調整することであり、もう１つは各ユーザに対応する環境設定情報を予め設定し、次にキャビン内の乗客の身元情報を識別し、さらに識別された身元情報に基づいて、当該身元情報に対応する環境設定情報に従って、環境設定を調整することであり、キャビン内の乗客が対応する環境設定情報を予め設定しない場合、又はキャビン内の乗客が予め設定された環境設定情報に従ってキャビン内の環境を設定したくない場合、乗客は、キャビン内の環境設定を手動で調整する必要がある。

【0046】

これに基づいて、本開示の実施例は、キャビン内の人員の顔画像をリアルタイムで取得し、顔画像に基づいて、キャビン内の人員の属性情報及び情緒情報を決定し、次にキャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整することができるキャビン内の環境の調整方法を提供する。この方法により、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び情緒情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。

【0047】

上記案の欠陥については、全て発明者が実践して深く研究して得た結果であり、したがって、上記問題の発見プロセス及び上記問題について以下の本開示で提出される解決案は、全て本開示の保護範囲内に含まれるべきである。

【0048】

類似する記号及びアルファベットが以下の添付図面で類似するアイテムを表すことを注意すべきであり、したがって、あるアイテムが１つの添付図面で定義されると、後の図面でそれをさらに定義及び解釈する必要がない。

【0049】

本実施例の理解を容易にするために、まず、本開示の実施例で開示されるキャビン内の環境の調整方法を詳細に紹介する。本開示の実施例で提供されるキャビン内の環境の調整方法の実行本体は、一般的に一定のコンピューティング能力を備えた電子機器である。前記キャビン内には自動車キャビン、列車キャビン、ボートキャビンなどが含まれてもよいがこれらに限定されず、環境を調整できる他の機器に対して、本開示の実施例によって提供される方法がいずれも適用可能である。

【0050】

図１は本開示の実施例によるキャビン内の環境の調整方法を示す模式的フローチャートである。前記方法は、以下の幾つかのステップを含む。

【0051】

ステップ１０１において、キャビン内の人員の顔画像を取得する。

【0052】

ステップ１０２において、顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定する。

【0053】

ステップ１０３において、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境設定を調整する。

【0054】

上記方法により、キャビン内の人員の顔画像をリアルタイムで取得し、顔画像に基づいて、キャビン内の人員の属性情報及び情緒情報を決定し、次にキャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整することができる。この方法により、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び情緒情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。

【0055】

以下は、上記のステップ１０１～１０３についての詳細な説明である。

【0056】

ステップ１０１については、
ここで、キャビン内の人員の顔画像は、キャビン内の人員の完全な顔を含む画像であってもよい。キャビン内の人員の顔画像を取得するプロセスでは、まず収集された検出される画像を取得し、次にトレーニングされた、顔検出のための顔検出ニューラルネットワークに基づいて、検出されるべき画像における顔領域情報を決定し、最後に顔領域情報に基づいて、顔画像を決定することができる。

【0057】

検出されるべき画像は、リアルタイムで収集され、且つリアルタイムで取得されるものであってもよく、１つの可能な実施形態では、キャビン内に取り付けられたカメラによって検出されるべき画像をリアルタイムで撮影することができる。

【0058】

検出されるべき画像における顔領域情報は、顔領域に対応する検出ボックスの中心点座標及び当該検出ボックスのサイズ情報を含む。顔領域情報に基づいて、顔画像を決定するプロセスでは、まず検出ボックスのサイズ情報を、予め設定された割合に従って拡大処理し、拡大後のサイズ情報を得て、次に中心点座標情報及び拡大後のサイズ情報に基づいて、検出されるべき画像から顔画像を切り取ることができる。

【0059】

顔検出ニューラルネットワークによって出力された検出ボックスに対応する領域には、キャビン内の人員の全ての顔情報が含まれない可能性があるので、取得された顔画像に全ての顔情報が含まれるように、検出ボックスを拡大処理することができる。

【0060】

１つの可能な実施形態では、サイズ情報には検出ボックスの長さ及び検出ボックスの幅が含まれてもよく、検出ボックスのサイズ情報を予め設定された割合に従って拡大処理するプロセスにおいて、検出ボックスの長さ及び検出ボックスの幅を対応する予め設定された割合に従ってそれぞれ拡大処理することができ、ここで、検出ボックスの長さに対応する予め設定された割合及び検出ボックスの幅に対応する予め設定された割合は、同一であってもよい。

【0061】

例示的に、検出ボックスの長さ及び検出ボックスの幅に対応する予め設定された割合がいずれも１０％であり、検出ボックスの長さがａであり、幅がｂである場合、拡大処理が行われた後、検出ボックスの長さが１．１ａであり、検出ボックスの幅が１．１ｂである。

【0062】

中心点座標情報及び拡大後のサイズ情報に基づいて、検出されるべき画像から顔画像を切り取るプロセスでは、中心点座標情報に対応する点を対角線の交点とし、次に拡大後のサイズ情報のうちの長さ及び幅をそれぞれ検出ボックスの長さ及び幅として、検出されるべき画像における検出ボックスの位置を決定し、最後に検出ボックスを分割線として、検出されるべき画像から画像を切り取ることができ、切り取られた画像が顔画像である。

【0063】

顔検出ニューラルネットワークのトレーニングプロセスでは、当該顔検出ニューラルネットワークのサンプルデータは、サンプル画像であってもよく、各サンプル画像は、対応するラベルデータを有し、サンプル画像に対応するラベルデータは、サンプル画像における中心点座標情報及び検出ボックスに対応するサイズ情報を含み、各サンプル画像を顔検出ニューラルネットワークに入力した後、顔検出ニューラルネットワークは、予測された中心点座標情報及び予測された検出ボックスのサイズ情報を取得し、次に予測された中心点座標情報、予測された検出ボックスのサイズ情報、サンプル画像に対応するラベルデータに基づいて、今回のトレーニングプロセスにおける損失値を決定し、損失値が予め設定された条件を満たさない場合、今回のトレーニングプロセスにおける顔検出ニューラルネットワークのネットワークパラメータ値を調整することができる。

【0064】

ステップ１０２については、
キャビン内の人員の属性情報には、年齢情報、性別情報、人種情報の少なくとも１つが含まれてもよい。キャビン内の人員の状態情報には、キャビン内の人員の情緒情報及び目開閉情報が含まれてもよく、目開閉情報は、キャビン内の人員が睡眠状態にあるか否かを検出するために用いられてもよく、情緒情報は、怒り、愁い、落ち着き、楽しみ、落ち込みのうちの任意の１つを含むことができるがこれらに限定されない。

【0065】

１つの可能な実施形態では、顔画像に基づいて、キャビン内の人員に対して属性識別を行い、キャビン内の人員の属性情報を決定し、及び、顔画像に基づいて、キャビン内の人員に対して表情識別及び／又は目開閉識別を行い、キャビン内の人員の状態情報を決定することができる。

【0066】

１つの可能な実施形態では、属性情報に年齢情報が含まれる場合、第１ニューラルネットワークによって年齢情報を識別して得ることができる。

【0067】

ここで、第１ニューラルネットワークは、トレーニングプロセスにおいて、図２に示す方法に基づいて、以下の幾つかのステップを含むことができる。

【0068】

ステップ２０１において、トレーニングされるべき第１ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行い、前記サンプル画像に対応する予測年齢値を得る。

【0069】

ステップ２０２において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する。

【0070】

１つの可能な実施形態では、第１ニューラルネットワークのネットワークパラメータを調整する上記のステップについては、サンプル画像集合によって以下の幾つかの状況に分けられてもよい。

【0071】

状況１、サンプル画像集合は複数である。

【0072】

この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することができる。

【0073】

１つの可能な実施形態では、下記の式（１）でトレーニングプロセスにおけるモデル損失値を計算することができる：

式（１）
ここで、

は、今回のトレーニングプロセスにおける損失値を表し、Ｎは、サンプル画像の個数を表し、

は、ｎ番目のサンプル画像の予測年齢値を表し、

は、ｎ番目のサンプル画像の年齢ラベルの年齢値を表し、ｉは、０からＮ－１までトラバースし、ｊは、０からＮ－１までトラバースし、ｉとｊは、等しくない。

【0074】

上記式で損失値を算出した後、算出された損失値に基づいて第１ニューラルネットワークのネットワークパラメータ値を調整することができる。

【0075】

この方法によりトレーニングされた第１ニューラルネットワークの場合、当該第１ニューラルネットワークに対応する教師ありデータには、予測年齢値及び年齢ラベルの年齢の差があり、これに加えて、サンプル画像集合におけるサンプル画像の予測年齢値の差及び年齢ラベルの年齢値の差も教師ありデータとされ、これにより、トレーニングされた第１ニューラルネットワークは、年齢識別を行う時に精度がより高い。

【0076】

状況２において、サンプル画像集合には、複数の初期サンプル画像、及び各サンプル画像に対応する強化サンプル画像が含まれ、強化サンプル画像は、初期サンプル画像に対して情報変換処理を行った後の画像である。

【0077】

初期サンプル画像に対応する強化サンプル画像を決定する場合、図３に示す方法を用いて以下の幾つかのステップを含むことができる。

【0078】

ステップ３０１において、前記初期サンプル画像における顔領域画像に対応する３次元顔モデルを生成する。

【0079】

ステップ３０２において、前記３次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第１強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のＲＧＢチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第２強化サンプル画像を得る。

【0080】

第１強化サンプル画像及び第２強化サンプル画像の両方が初期サンプル画像に対応する強化サンプル画像であることを説明すべきである。

【0081】

第２強化サンプル画像を決定する場合、初期サンプル画像における各画素点のＲＧＢの３つのチャネル上の値には３つの値が含まれ、光線影響値での第２強化画像を決定する場合、初期サンプル画像におけるすべての画素点の３つのチャネル上の値をＮに加算することができ、Ｎが光線影響値であり、数値的にはが３次元ベクトルである。１つの可能な状況において、Ｎは、ガウス分布に従うことができる。

【0082】

この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することができる。

【0083】

１つの可能な実施形態では、以下の式（２）で第１ニューラルネットワークのトレーニングプロセスにおける損失値を計算することができる：

式（２）
ここで、

は、今回のトレーニングプロセスにおける損失値を表し、Ｎは、サンプル画像の個数を表し、

表は、ｎ番目のサンプル画像の予測年齢値を表し、

は、ｎ番目のサンプル画像の年齢ラベルの年齢値を表し、

は、ｎ番目のサンプル画像に対応する強化サンプル画像の予測年齢値を表す。

【0084】

上記方法では、強化サンプル画像は、初期サンプル画像に角度及び光線の影響を加えたサンプル画像であり、初期サンプル画像及び強化サンプル画像によってトレーニングされたニューラルネットワークにより、年齢識別を行うプロセスにおいて、角度及び光線のニューラルネットワーク識別精度に対する影響を回避し、年齢識別の精度を向上させることができる。

【0085】

状況３において、サンプル画像集合は複数であり、各サンプル画像集合には、初期サンプル画像、及び各初期サンプル画像に対応する強化サンプル画像が含まれ、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られるものである。

【0086】

この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整することができる。

【0087】

１つの可能な実施形態では、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１損失値を計算し、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第２損失値を計算し、次に前記第１損失値と前記第２損失値との和を今回のトレーニングプロセスにおける損失値とすることができる。

【0088】

１つの可能な実施形態では、以下の式（３）で第１ニューラルネットワークのトレーニングプロセスにおける第１損失値を計算することができる：

式（３）

は、第１損失値を表し、Ｍは、サンプル画像集合の個数を表し、Ｎは、各サンプル画像集合に含まれるサンプル画像の個数を表し、

は、ｍ番目のサンプル画像集合におけるｎ番目のサンプル画像の予測年齢値を表し、

は、ｍ番目のサンプル画像集合におけるｎ番目のサンプル画像の年齢ラベルの年齢値を表す。

【0089】

以下の式（４）で第１ニューラルネットワークのトレーニングプロセスにおける第２損失値を計算することができる：

式（４）

は、第２損失値を表し、

は、ｍ番目のサンプル画像集合におけるｎ番目のサンプル画像の予測年齢値を表し、

は、ｍ番目のサンプル画像集合におけるｎつのサンプル画像に対応する強化サンプル画像の予測年齢値を表す。

【0090】

ここで、各サンプル画像集合に含まれるサンプル画像の個数もＮよりも大きくてもよいことを説明すべきであるが、第１ニューラルネットワークのトレーニングプロセスでは、各サンプル画像集合からＮ個のサンプル画像をランダムに抽出する。

【0091】

１つの可能な実施形態では、第１ニューラルネットワークのネットワーク構造は、特徴抽出層と年齢情報抽出層とを含むことができ、顔画像が特徴抽出層に入力された後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層に入力し、出力して顔画像の予測年齢値を得ることができる。

【0092】

ここで、同一のサンプル画像集合における初期サンプル画像は、同一の画像収集機器によって収集されて得られるものであり、したがって、サンプル画像によってニューラルネットワークをトレーニングする場合、画像収集機器の違いによる誤差影響を回避し、それと同時に、初期サンプル画像及び強化サンプル画像を用いてニューラルネットワークをトレーニングすることができ、これにより、光線及び角度の影響による誤差影響も回避することができ、したがって、トレーニングされたニューラルネットワークの精度がより高い。

【0093】

属性情報に性別情報が含まれる場合、キャビン内の人員の性別情報を決定する時に、図４で説明される方法を参照して、以下の幾つかのステップを含むことができる。

【0094】

ステップ４０１において、前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力して、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられる。

【0095】

ステップ４０２において、前記２次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。

【0096】

ここで、設定された閾値は、顔画像を収集する画像収集機器及び収集環境によって決定されてもよい。

【0097】

ここで、異なる画像収集機器及び収集環境の影響により、異なる画像収集機器及び収集環境で収集された顔画像に対する設定された閾値の識別精度は異なる可能性があり、したがって、画像収集機器及び収集環境の影響を回避するために、本開示の実施例は、設定された閾値を適応的に決定する方法を提供する。

【0098】

１つの可能な実施形態では、図５で説明される設定された閾値の決定方法を参照して、以下の幾つかのステップを含むことができる。

【0099】

ステップ５０１において、前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得する。

【0100】

サンプル画像及び顔画像の画像収集機器及び収集環境が同一であるため、これらのサンプル画像によって決定された、設定された閾値は、現在の環境のニーズを満たすことができる。

【0101】

ステップ５０２において、前記複数のサンプル画像を前記第２ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得る。

【0102】

１つの可能な実施形態では、第２ニューラルネットワークのネットワーク構造は、特徴抽出層と性別情報抽出層とを含むことができ、サンプル画像を第２ニューラルネットワークに入力した後、まずサンプル画像を特徴抽出層に入力して、サンプル画像に対応する特徴マップを得て、次に特徴マップを性別情報抽出層に入力して、出力して２次元特徴ベクトルを得て、さらに分類器によってサンプル画像に対応する予測性別を決定することができる。

【0103】

１つの可能な実施形態では、候補閾値を決定する場合、設定されたステップに従って、予め設定された値範囲から複数の候補閾値を選択することができる。実際の応用において、第２ニューラルネットワークによって出力された２次元ベクトルにおける異なる次元上の値が確率を表すため、予め設定された値範囲は０～１であってもよく、設定されたストライドは、例えば０．００１であってもよく、例示的に以下の式（５）で候補閾値を決定することができる：

式（５）
ここで、ｔｈｒｄは、候補閾値を表し、ｋは、０～１０００にトラバースする各正整数を取る。

【0104】

ステップ５０３において、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定する。

【0105】

候補閾値でのサンプル画像の予測性別、及びサンプル画像の性別ラベルに基づいて、当該候補閾値での予測精度を決定する場合、以下の方法によって決定することができる：
表１に示すように、Ｐ枚のサンプル画像における、以下のカテゴリのそれぞれの値を決定する：

【0106】

【表1】

【0107】

ここで、ＴＰは、性別ラベルが男性であり且つｔｈｒｄ閾値での予測性別が男性である数量を表し、ＴＮは、性別ラベルが男性であり且つｔｈｒｄ閾値での予測性別が女性である数量を表し、ＦＰは、性別ラベルが女性であり且つｔｈｒｄ閾値での予測性別が男性である数量を表し、ＦＮは、性別ラベルが女性であり且つｔｈｒｄ閾値での予測性別が女性である数量を表す。

【0108】

上記表１における各カテゴリの値が決定された後、以下の式（６）で精度を計算することができる：

式（６）
ここで、

。

【0109】

ステップ５０４において、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。

【0110】

設定された閾値を決定するプロセスにおいて、収集されたサンプル画像が顔画像を収集する画像収集機器によってキャビン内で収集されるものであるため、収集機器及び収集環境の設定された閾値に対する影響を保証することができ、且つ設定された閾値を決定するプロセスにおいて、予測精度の最も大きい候補閾値を設定された閾値とするため、設定された閾値を適応的に調整することができ、これにより、性別識別の精度が向上する。

【0111】

状態情報に目開閉情報が含まれる場合、図６に示す方法に基づいてキャビン内の人員の目開閉情報を決定することができ、以下の幾つかのステップを含む。

【0112】

ステップ６０１において、前記顔画像に対して特徴抽出を行い、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられる。

【0113】

１つの可能な実施形態では、顔画像を予めトレーニングされた、目開閉情報を検出するための第４ニューラルネットワークに入力することができ、第４ニューラルネットワークは、特徴抽出層と目開閉情報抽出層とを含むことができ、顔画像を第４ニューラルネットワークに入力した後、顔画像を特徴抽出層に入力し、出力して顔画像に対応する特徴マップを得て、次に顔画像に対応する特徴マップを目開閉情報抽出層に入力し、出力して多次元特徴ベクトルを得ることができる。

【0114】

目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態の少なくとも１つが含まれてもよい。

【0115】

１つの可能な実施形態では、左目状態は、以上の状態のうちの任意の１つであってもよく、右目状態も以上の状態のうちの任意の１つであってもよく、２つの目の可能な状態が９種類であり、したがって、第３ニューラルネットワークの出力は、９次元特徴ベクトルであってもよく、９次元特徴ベクトルにおける各次元上の要素値は、顔画像の２つの目が当該次元に対応する２つの目の状態にある確率を表す。

【0116】

ステップ６０２において、確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定する。

【0117】

属性情報に人種情報が含まれる場合、顔画像を人種情報抽出のための第５ニューラルネットワークに入力することができ、第５ニューラルネットワークには、特徴抽出層と人種情報抽出層が含まれ、顔画像が第５ニューラルネットワークに入力された後、まず顔画像を特徴抽出層に入力して、顔画像に対応する特徴マップを得て、次に特徴マップを人種情報抽出層に入力して、３次元特徴ベクトルを得ることができ、３次元ベクトルにおける異なる次元上の要素値は、それぞれ前記顔画像が当該次元に対応する人種である確率を表すために用いられ、前記人種は、「黄色人種」、「白色人種」、「黒色人種」を含む。

【0118】

この方式により、キャビン内の人員の目開閉情報を決定する場合、顔画像を分割することなく、顔画像により顔画像における目開閉情報を直接決定することができ、目開閉情報の検出効率が向上する。

【0119】

上記から分かるように、年齢情報を抽出するための第１ニューラルネットワーク、性別情報を抽出するための第２ニューラルネットワーク、目開閉情報を抽出するための第４ニューラルネットワーク、及び人種情報を抽出するための第５ニューラルネットワークのそれぞれには、特徴抽出層が含まれ、したがって、これらの５つのニューラルネットワークは、特徴抽出層を共有することができる。

【0120】

例示的に、図７を参照すると、本開示の実施例による属性情報決定方法は、以下の幾つかのステップを含む。

【0121】

ステップ７０１において、前記顔画像を属性識別のための第２ニューラルネットワークの特徴抽出層に入力して、前記顔画像に対応する特徴マップを得る。

【0122】

ここで、特徴抽出層は、入力された顔特徴に対して特徴抽出を行うために用いられ、例示的に、特徴抽出層は、ｉｎｃｅｐｔｉｏｎネットワーク、軽量化ネットワークｍｏｂｉｌｅｎｅｔ－ｖ２などを用いることができる。

【0123】

ステップ７０２において、前記特徴マップを情報抽出ニューラルネットワークの各属性情報抽出層にそれぞれ入力して、各属性情報抽出層によって出力された属性情報を得て、ここで、異なる属性情報抽出層は、異なる属性情報を検出するために用いられる。

【0124】

１つの可能な実施形態では、情報抽出ニューラルネットワークの各属性情報抽出層には、いずれも第１完全接続層と第２完全接続層とが含まれ、特徴マップを情報抽出ニューラルネットワークの属性情報抽出層に入力した後、先に特徴マップを属性情報抽出層の第１完全接続層に入力して、特徴マップに対応するＭ次元ベクトルを得ることに相当し、Ｍが任意の一つの属性情報に対応する予め設定された正整数であり、次にＭ次元ベクトルを当該属性情報抽出層の第２完全接続層に入力して、特徴マップに対応するＮ次元ベクトルを得て、Ｎが正整数であり、且つＭがＮよりも大きく、Ｎが当該属性情報抽出層に対応する属性情報の値の個数であり、最後に得られたＮ次元ベクトルに基づいて、当該Ｎ次元ベクトルに対応する属性情報を決定する。

【0125】

ここで、Ｎは当該属性情報抽出層に対応する値の個数であり、例示的に、属性情報抽出層から抽出された属性情報が性別である場合、当該属性情報の値は、「男」と「女」の２つを含み、当該属性情報抽出層に対応するＮの値は２である。

【0126】

以下に属性情報に年齢情報、性別情報、人種情報が含まれることを例とすると、上記情報抽出ニューラルネットワークの構造を説明し、情報抽出ニューラルネットワークのネットワーク構造は、図８に示すものであってもよい。

【0127】

顔画像を特徴抽出層に入力した後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層、性別情報抽出層、人種情報抽出層、及び目開閉情報抽出層にそれぞれ入力することができる。

【0128】

年齢情報抽出層には、第１完全接続層と第２完全接続層とが含まれ、特徴マップを第１完全接続層に入力した後、Ｋ_１次元の特徴ベクトルを得て、次にＫ_１次元の特徴ベクトルを第２完全接続層に入力して、１次元ベクトル出力を得ることができ、当該１次元ベクトルにおける要素値は、予測された年齢の値である。また、年齢の値が整数であるべきであることを考慮すると、当該１次元ベクトルの要素値を四捨五入し、最終的に予測された年齢情報を得ることができ、ここで、Ｋ_１が１より大きい。

【0129】

性別情報抽出層には、第１完全接続層と第２完全接続層とが含まれ、特徴マップを第１完全接続層に入力した後、Ｋ_２次元の特徴ベクトルを得て、次にＫ_２の次元特徴ベクトルを第２完全接続層に入力して、２次元ベクトル出力を得ることができ、当該２次元ベクトルにおける要素値は、入力された顔画像におけるユーザが男性である確率及びユーザが女性である確率をそれぞれ表し、最後に、第２完全接続層の出力に１つの二項分類ネットワークを接続し、二項分類結果に応じて、性別情報抽出層によって予測された、入力された顔画像の性別情報を決定することができ、ここで、Ｋ_２が２よりも大きい。

【0130】

人種情報抽出層では、Ｋ_３次元の特徴ベクトルを得ることができるまで特徴マップを入力し、次にＫ_３の次元特徴ベクトルを第２完全接続層に入力して、３次元ベクトル出力を得ることができ、当該３次元ベクトルの要素値は、入力された顔画像におけるユーザが「黄色人種」である確率、ユーザが「黒色人種」である確率とユーザが「白色人種」である確率をそれぞれ表し、最後に、第２完全接続層の出力に１つの分類ネットワークを接続し、分類ネットワークの分類結果に応じて、人種情報抽出層によって予測された、入力された顔画像の人種情報を決定することができ、ここで、Ｋ_３が３よりも大きい。

【0131】

また、状態情報内の目開閉情報は、上記の情報抽出ニューラルネットワークによって抽出されてもよく、目開閉情報抽出層に対して、キャビン内の人員の２つの目の状態が抽出され、ここで、目の状態は、「人の目が見えない状態」（人の目が見えないことは画像において目を検出できないこと、例えばキャビン内の人員がサングラスをかけることである）、「人の目が見え且つ目が開く状態」、及びが「人の目が見え且つ目が閉じる状態」の３種類を含み、したがって、２つの目に対して、選択可能な状態が合計９種類である。したがって、目開閉情報抽出層に対して、第１完全接続層の出力がＫ_４次元の特徴ベクトルであり、第２完全接続層の出力は、９次元の特徴ベクトルであり、ベクトルにおける各要素値は、前記顔画像におけるキャビン内の人員の目状態が当該要素値で表される状態である確率を表すために用いられ、第２完全接続層の出力に１つの分類ネットワークが接続され、分類ネットワークの分類結果に応じて目開閉情報抽出層によって予測された、入力された顔画像の目開閉情報を決定することができ、ここで、Ｋ_４が９よりも大きい。

【0132】

情報抽出ニューラルネットワークのトレーニングプロセスでは、属性情報ラベル付きのサンプル画像によってトレーニングすることができ、各属性情報抽出層が一緒にトレーニングされ、損失値を計算する場合、各属性情報抽出層の損失値をそれぞれ計算し、次に各属性情報抽出層の損失値に基づいて対応する属性情報抽出層のネットワークパラメータ値を調整し、各属性情報抽出層の損失値を加算演算して総損失値とし、次に総損失値に基づいて、特徴抽出層のネットワークパラメータ値を調整し、１つの可能な実施形態では、情報抽出ニューラルネットワークのトレーニングプロセスについて、ここで展開して紹介しない。

【0133】

１つの可能な実施形態では、キャビン内の人員の情緒情報を決定する場合、図９で説明される方法に基づいて以下の幾つかのステップを含むことができる。

【0134】

ステップ９０１において、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別する。

【0135】

ステップ９０２において、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。

【0136】

顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別する場合、第３ニューラルネットワークによって顔画像を識別することができ、第３ニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられる。

【0137】

１つの可能な実施形態では、第３ニューラルネットワークを用いて顔画像を識別する場合、まずバックボーンネットワークを用いて顔画像に対して特徴抽出を行い、顔画像の特徴マップを得て、次に各分類ブランチネットワークをそれぞれ用いて、顔画像の特徴マップにもとづいて、動作識別を行い、各分類ブランチネットワークで識別できる動作の発生確率を得て、次に発生確率が予め設定された確率よりも大きい動作を顔画像によって表される顔の器官の動作として決定することができる。

【0138】

１つの可能な実施形態では、顔画像を第３ニューラルネットワークに入力する前に、まず顔画像を前処理して顔画像の重要な情報を強化し、次に前処理された顔画像を第３ニューラルネットワークに入力することもできる。

【0139】

ここで、顔画像を前処理することは、まず顔画像内のキーポイントの位置情報を決定し、次にキーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得て、正面化された顔画像を正規化処理して、処理後の顔画像を得ることであってもい。

【0140】

正面化された顔画像を正規化処理することは、顔画像に含まれる各画素点の画素値の平均値、及び顔画像に含まれる各画素点の画素値の標準偏差を計算することと、前記画素値の平均値、及び前記画素値の標準偏差に基づいて、顔画像の各画素点の画素値を正規化処理することと、を含む。

【0141】

１つの可能な実施形態では、画素値の平均値及び画素値の標準偏差に基づいて、顔画像の各画素点の画素値を正規化処理する場合、以下の式（７）を参照することができる：

式（７）
ここで、Ｚは、画素点の正規化処理後の画素値を表し、Ｘは、画素点の正規化処理前の画素値を表し、

は、画素値の平均値を表し、

は、画素値の標準偏差を表す。

【0142】

上記処理により、顔画像における顔を正面化処理することができ、顔表情を決定する時により正確になる。

【0143】

ここで、動作ユニットによって検出される動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも１つを含む。

【0144】

顔の顔動作の検出結果、及び予め設定された顔動作と情緒情報との間のマッピング関係に基づいて、キャビン内の人員の情緒情報を決定することができ、例示的に、任意の一つの顔動作が検出されない場合、キャビン内の人員の情緒情報が落ち着きであることを決定し、キャビン内の人員の顔動作が、目に角を立てる動作、口を開く動作であることが検出された場合、キャビン内の人員の情緒情報が驚きなどであることを決定することができる。

【0145】

この方式に基づいて、ユーザが顔画像に対して表情状態を主観的に定義する必要がなく、また、顔の器官の動作がある特定の顔の特徴に焦点を合わせることができるため、顔画像上の器官の動作の識別は、表情姿態の識別を直接行うことに比べて、精度を向上させることができる。

【0146】

ステップ１０３については、
キャビン内の環境設定を調整する場合、
音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整の少なくとも１つが含まれてもよい。

【0147】

１つの可能な実施形態では、キャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整する場合、キャビン内に１人しかいないと、当該キャビン内の人員の属性情報及び情緒情報に基づいて、予め設定されたマッピング関係から対応する調整情報を直接検索し、次に調整情報に基づいてキャビン内の環境設定を調整することができ、前記マッピング関係は、属性情報及び情緒情報と調整情報との間のマッピング関係を表すために用いられる。

【0148】

キャビン内の人員が多い場合、異なるキャビン内の人員の属性情報の値のうちの優先度の高い値、及び異なるキャビン内の人員の情緒情報の値のうちの優先度の高い値を決定し、次に優先度の高い属性情報の値及び優先度の高い情緒情報の値に基づいて、キャビン内の環境設定を調整することができる。

【0149】

例示的に、キャビン内の人員が二人であり、一人の情緒情報が落ち着きであり、一人の情緒情報が悲しみである場合、「悲しみ」に応じて、再生される音楽タイプを調整することができる。

【0150】

別の可能な実施形態では、属性情報が限られ、各属性情報の値も限られ、状態情報の値も限られるため、各属性情報の値及び情緒情報の値に対応する調整情報を予め設定し、次に検出されたキャビン内の人員の属性情報及び情緒情報に基づいて、対応する調整情報を検索することができる。

【0151】

ここで、キャビン内の人員の情緒情報がリアルタイムで変化する可能性があるため、いつでもキャビン内の人員の情緒情報の変化状況に応じてキャビン内の環境設定をリアルタイムで調整することができる。

【0152】

当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序が厳格な実行順序を意味して実施プロセスに対するいかなる限定を構成せず、各ステップの実行順序がその機能及び可能な内部論理で決定されるべきであることを理解できる。

【0153】

同一の発明概念に基づいて、本開示の実施例においてキャビン内の環境の調整方法に対応するキャビン内の環境の調整装置をさらに提供する。本開示の実施例における装置が問題を解決する原理は、本開示の実施例の上記のキャビン内の環境の調整方法と類似し、したがって、装置の実施は、方法の実施を参照することができ、繰り返し点について説明を省略する。

【0154】

図１０は本開示の実施例によるキャビン内の環境の調整装置のアーキテクチャ模式図である。前記装置は、取得モジュール１００１と、決定モジュール１００２と、調整モジュール１００３と、トレーニングモジュール１００４とを備え、
取得モジュール１００１は、キャビン内の人員の顔画像を取得するように構成され、
決定モジュール１００２は、顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成され、
調整モジュール１００３は、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される。

【0155】

１つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第１ニューラルネットワークによって識別されて得られ、
前記装置は、トレーニングモジュール１００４をさらに備え、前記トレーニングモジュール１００４は、以下の方法に基づいて前記第１ニューラルネットワークを得るように構成される：トレーニングされるべき第１ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行い、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整する。

【0156】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、前記トレーニングモジュール１００４は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成される。

【0157】

１つの可能な実施形態では、前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、前記トレーニングモジュール１００４は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0158】

１つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られるものであり、前記トレーニングモジュール１００４は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、前記任意の２つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第１ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。

【0159】

１つの可能な実施形態では、前記トレーニングモジュール１００４は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の２つのサンプル画像の予測年齢値の差、及び前記任意の２つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第１損失値を計算し、及び、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第２損失値を計算し、第１損失値と前記第２損失値との和を今回のトレーニングプロセスにおける損失値とするように構成される。

【0160】

１つの可能な実施形態では、前記トレーニングモジュール１００４は、さらに以下の方法に基づいて前記初期サンプル画像に対応する強化サンプル画像を決定するように構成される：前記初期サンプル画像内の顔領域画像に対応する３次元顔モデルを生成し、前記３次元顔モデルに対して異なる角度の回転を行い、異なる角度での第１強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のＲＧＢチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第２強化サンプル画像を得るように構成され、前記強化サンプル画像は、前記第１強化サンプル画像又は前記第２強化サンプル画像である。

【0161】

１つの可能な実施形態では、前記属性情報には性別情報が含まれ、前記決定モジュール１００２は、さらに以下の方法に基づいて前記キャビン内の人員の性別情報を決定するように構成される：前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力して、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記２次元特徴ベクトルを分類器に入力して、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。

【0162】

１つの可能な実施形態では、前記決定モジュール１００２は、さらに以下の方法に基づいて、前記設定された閾値を決定するように構成される：前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第２ニューラルネットワークに入力して、複数の候補閾値内のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。

【0163】

１つの可能な実施形態では、前記決定モジュール１００２は、さらに以下の方法に基づいて前記複数の候補閾値を決定するように構成される：設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する。

【0164】

１つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、前記決定モジュール１００２は、以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定するように構成される：前記顔画像に対して特徴抽出を行い、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。

【0165】

【0166】

１つの可能な実施形態では、前記状態情報には情緒情報が含まれ、前記決定モジュール１００２は、さらに以下のステップに基づいて、キャビン内の人員の情緒情報を決定するように構成される：前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別し、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。

【0167】

【0168】

１つの可能な実施形態では、前記顔画像に基づいて前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別することは、第３ニューラルネットワークによって実行され、前記第３ニューラルネットワークは、バックボーンネットワーク及び少なくとも２つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の１つの器官の１つの動作を識別するために用いられ、
前記決定モジュール１００２は、さらにバックボーンネットワークを用いて前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得て、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行い、各前記分類ブランチネットワークで識別できる動作の発生確率を得て、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定するように構成される。

【0169】

１つの可能な実施形態では、キャビン内の環境設定の調整には、音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも１つが含まれる。

【0170】

同一の技術的概念に基づいて、本出願の実施例は、電子機器をさらに提供する。図１１は本出願の実施例による電子機器１１００の構造的模式図である。前記電子機器１１００は、プロセッサ１１０１、メモリ１１０２及びバス１１０３を備える。ここで、メモリ１０２は、実行命令を記憶するように構成され、内部メモリ１１０２１及び外部メモリ１１０２２を含む。ここでの内部メモリ１１０２１は、内部記憶装置とも呼ばれ、プロセッサ１１０１内の演算データ、及びハードディスクなどの外部メモリ１１０２２と交換するデータを一時的に記憶するように構成され、プロセッサ１１０１は、内部メモリ１１０２１を介して外部メモリ１１０２２とデータ交換を行い、電子機器１１００が動作する場合、プロセッサ１１０１とメモリ１１０２は、バス１１０３を介して通信し、これにより、プロセッサ１１０１は、上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行する。

【0171】

本開示の実施例は、コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体をさらに提供する。ここで、当該記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。

【0172】

本開示の実施例によって提供されるキャビン内の環境の調整方法のコンピュータプログラム製品は、プログラムコードを記憶するコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令が上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行するように構成されてもよく、上記方法の実施例を参照することができ、ここで説明を省略する。

【0173】

本開示の実施例は、プロセッサに実行されるときに上記の実施例の任意の一つの方法を実現するコンピュータプログラムをさらに提供する。当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせによって実現されてもよい。１つの選択可能な実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体化され、別の選択可能な実施例では、コンピュータプログラム製品は、ソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）などのソフトウェア製品として具体化される。

【0174】

当業者は、便利及び簡潔に説明するために、上記説明されたシステムと装置の動作プロセスについては、前記方法の実施例における対応するプロセスを参照でき、ここで説明を省略することを明確に理解することができる。本開示で提供される幾つかの実施例では、開示されるシステム、装置及び方法は、他の方式により実現されてもよいことが理解すべきである。上記説明された装置の実施例は例示的なものだけであり、例えば、前記ユニットの区分は、論理機能的区分だけであり、実際に実現する時に他の区分方式もあり得て、また、例えば、複数のユニット又はコンポーネントは組み合わせられてもよく又は別のシステムに統合されてもよく、又は一部の特徴は無視されてもよく、又は実行されなくてもよい。また、示され、又は議論される相互結合又は直接結合又は通信接続は、一部の通信インターフェース、装置又はユニットを介す間接的結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。

【0175】

分離部材として説明されたユニットは物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、即ち１つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全てのユニットを選択して本実施例の策の目的を達成することができる。

【0176】

また、本開示の各実施例における各機能ユニットは１つの処理ユニットに統合されてもよく、個々のユニットは単独で物理に存在してもよく、２つ又は２つ以上のユニットは１つのユニットに統合されてもよい。

【0177】

前記機能は、ソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は用いられる場合、プロセッサによって実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本開示の実施例の技術案は、本質的に又は従来技術に寄与する部分又は当該技術案の部分がソフトウェア製品の形で具体化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバー、又はネットワーク機器等であってもよい）に本開示の各実施例に記載される方法の全て又は一部のステップを実行させるための幾つかの命令を含む。前記の記憶媒体は、ＵＳＢフラッシュディスク、モバイルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。

【0178】

最後、上記実施例が本開示の具体的な実施形態だけであり、本開示の技術案を説明するためのものであり、それを限定しないことを説明すべきであり、本開示の保護範囲は、これに限定されなく、上記実施例を参照して本開示を詳細に説明するが、当業者は、いかなる当業者が本開示で開示される技術範囲内で、依然として上記実施例に記載される技術案を変更させ、又は変化を容易に想到し、又は技術的特徴の一部に対して同等の入れ替えを行うことができ、これらの変更、変化又は入れ替えが対応する技術案の本質を本発明の実施例における技術案の精神及び範囲から逸脱させなく、全て本開示の保護範囲に含まれるべきであることを理解すべきである。したがって、本開示の実施例の保護範囲は、特許請求の範囲に準拠するべきである。

【産業上の利用可能性】

【0179】

本開示の実施例によれば、キャビン内の人員の顔画像を取得し、前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定し、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整する。このように、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び状態情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2022-04-26

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】００６４

【補正方法】変更

【補正の内容】

【0064】

ステップ１０２については、
キャビン内の人員の属性情報には、年齢情報、性別情報の少なくとも１つが含まれてもよい。キャビン内の人員の状態情報には、キャビン内の人員の情緒情報及び目開閉情報が含まれてもよく、目開閉情報は、キャビン内の人員が睡眠状態にあるか否かを検出するために用いられてもよく、情緒情報は、怒り、愁い、落ち着き、楽しみ、落ち込みのうちの任意の１つを含むことができるがこれらに限定されない。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０１１７

【補正方法】削除

【補正の内容】

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】０１１９

【補正方法】変更

【補正の内容】

【0119】

上記から分かるように、年齢情報を抽出するための第１ニューラルネットワーク、性別情報を抽出するための第２ニューラルネットワーク、及び目開閉情報を抽出するための第４ニューラルネットワークのそれぞれには、特徴抽出層が含まれ、したがって、これらの４つのニューラルネットワークは、特徴抽出層を共有することができる。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】０１２６

【補正方法】変更

【補正の内容】

【0126】

以下に属性情報に年齢情報、性別情報が含まれることを例とすると、上記情報抽出ニューラルネットワークの構造を説明し、情報抽出ニューラルネットワークのネットワーク構造は、図８に示すものであってもよい。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】０１２７

【補正方法】変更

【補正の内容】

【0127】

顔画像を特徴抽出層に入力した後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層、性別情報抽出層、及び目開閉情報抽出層にそれぞれ入力することができる。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】０１３０

【補正方法】削除

【補正の内容】

【手続補正7】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

前記属性情報に性別情報が含まれる場合には、
前記キャビン内の人員の性別情報は、
前記顔画像を性別情報抽出のための第２ニューラルネットワークに入力し、前記第２ニューラルネットワークによって出力された２次元特徴ベクトルを得て、前記２次元特徴ベクトルにおける第１次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第２次元上の要素値が、前記顔画像が女性である確率を表すために用いられること、及び
前記２次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定すること、
という方法に基づいて決定され、
前記状態情報に目開閉情報が含まれる場合には、
前記キャビン内の人員の目開閉情報は、
前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルの各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられること、及び確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定すること、という方法に基づいて決定され、
前記状態情報に情緒情報が含まれる場合には、
前記キャビン内の人員の情緒情報は、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも２つの器官のそれぞれの動作を識別すること、並びに識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定すること、というステップに基づいて決定されることを特徴とする
請求項１に記載の方法。

【請求項9】

前記設定された閾値は、
前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、
前記複数のサンプル画像を前記第２ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像に対応する予測性別を得て、そのうち、前記複数の候補閾値は、設定されたストライドに従って予め設定された値範囲内から選択されたものであって、
各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、
最大の予測精度に対応する候補閾値を前記設定された閾値として決定する
という方法に基づいて決定されることを特徴とする
請求項８に記載の方法。

【請求項10】

【請求項11】

【請求項12】

電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、前記電子機器が実行する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される時に請求項１－１０のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行する、
電子機器。

【請求項13】

コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に請求項１－１０のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体。

【請求項14】

コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサは、請求項１－１０のいずれか一項に記載のキャビン内の環境の調整方法を実現するためのステップを実行するコンピュータプログラム。

【手続補正8】

【補正対象書類名】図面

【補正対象項目名】図８

【補正方法】変更

【補正の内容】

【図8】