IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッドの特許一覧

特表2022-553779キャビン内の環境の調整方法及び装置
<>
  • 特表-キャビン内の環境の調整方法及び装置 図1
  • 特表-キャビン内の環境の調整方法及び装置 図2
  • 特表-キャビン内の環境の調整方法及び装置 図3
  • 特表-キャビン内の環境の調整方法及び装置 図4
  • 特表-キャビン内の環境の調整方法及び装置 図5
  • 特表-キャビン内の環境の調整方法及び装置 図6
  • 特表-キャビン内の環境の調整方法及び装置 図7
  • 特表-キャビン内の環境の調整方法及び装置 図8
  • 特表-キャビン内の環境の調整方法及び装置 図9
  • 特表-キャビン内の環境の調整方法及び装置 図10
  • 特表-キャビン内の環境の調整方法及び装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-26
(54)【発明の名称】キャビン内の環境の調整方法及び装置
(51)【国際特許分類】
   G06V 40/16 20220101AFI20221219BHJP
   G06V 10/82 20220101ALI20221219BHJP
   G06V 10/774 20220101ALI20221219BHJP
【FI】
G06V40/16 Z
G06V40/16 B
G06V10/82
G06V10/774
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022524727
(86)(22)【出願日】2020-12-10
(85)【翻訳文提出日】2022-04-26
(86)【国際出願番号】 CN2020135500
(87)【国際公開番号】W WO2021196721
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】202010237887.1
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521147433
【氏名又は名称】シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】ワン フェイ
(72)【発明者】
【氏名】チエン チェン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA08
5L096BA18
5L096CA02
5L096DA02
5L096EA13
5L096EA16
5L096EA35
5L096EA45
5L096FA02
5L096FA16
5L096FA32
5L096FA33
5L096FA62
5L096FA64
5L096FA69
5L096GA30
5L096GA51
5L096HA11
5L096JA16
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
本開示は、キャビン内の環境の調整方法及び装置を提供する。当該方法は、キャビン内の人員の顔画像を取得することと、顔画像に基づいて、キャビン内の人員の属性情報及び状態情報を決定することと、キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む。当該装置は、取得モジュール(1001)と、決定モジュール(1002)と、調整モジュール(1003)とを備える。電子機器(1100)、コンピュータ可読記憶媒体及びコンピュータプログラムは、キャビン内の環境の調整方法を実行することができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
キャビン内の環境の調整方法であって、
キャビン内の人員の顔画像を取得することと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定することと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む、
キャビン内の環境の調整方法。
【請求項2】
前記属性情報には年齢情報が含まれ、前記年齢情報は、第1ニューラルネットワークによって識別されて得られ、
前記第1ニューラルネットワークは、
トレーニングされるべき第1ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する
という方法に基づいて得られることを特徴とする
請求項1に記載の方法。
【請求項3】
前記サンプル画像集合は複数であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項2に記載の方法。
【請求項5】
前記サンプル画像集合は複数であり、各前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項2に記載の方法。
【請求項6】
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算することと、
前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算することと、
前記第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とすることと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記初期サンプル画像に対応する強化サンプル画像は、
前記初期サンプル画像における顔領域画像に対応する3次元顔モデルを生成し、
前記3次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第1強化サンプル画像を得て、
前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得る
という方法に基づいて決定され、
前記強化サンプル画像は、前記第1強化サンプル画像又は前記第2強化サンプル画像であることを特徴とする
請求項4-6のいずれか一項に記載の方法。
【請求項8】
前記属性情報には性別情報が含まれ、
前記キャビン内の人員の性別情報は、
前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力し、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、
前記2次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する
という方法に基づいて決定されることを特徴とする
請求項1に記載の方法。
【請求項9】
前記設定された閾値は、
前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、
前記複数のサンプル画像を前記第2ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像に対応する予測性別を得て、
各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、
最大の予測精度に対応する候補閾値を前記設定された閾値として決定する
という方法に基づいて決定されることを特徴とする
請求項8に記載の方法。
【請求項10】
前記複数の候補閾値は、
設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する
という方法に基づいて決定されることを特徴とする
請求項9に記載の方法。
【請求項11】
前記状態情報には目開閉情報が含まれ、
前記キャビン内の人員の目開閉情報は、
前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルの各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられ、
確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定する
という方法に基づいて決定されることを特徴とする
請求項1に記載の方法。
【請求項12】
目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも1つが含まれることを特徴とする
請求項11に記載の方法。
【請求項13】
前記状態情報には情緒情報が含まれ、
キャビン内の人員の情緒情報は、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別し、
識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する
というステップに基づいて決定されることを特徴とする
請求項1に記載の方法。
【請求項14】
顔の器官の動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも2つを含むことを特徴とする
請求項13に記載の方法。
【請求項15】
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、第3ニューラルネットワークによって実行され、前記第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、
前記バックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得ることと、
各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行うことで、各前記分類ブランチネットワークで識別できる動作の発生確率を得ることと、
発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定することと、を含むことを特徴とする
請求項13に記載の方法。
【請求項16】
キャビン内の環境を調整することの調整には、
音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも1つが含まれることを特徴とする
請求項1-15のいずれか一項1に記載の方法。
【請求項17】
キャビン内の環境の調整装置であって、
キャビン内の人員の顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成される決定モジュールと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される調整モジュールと、を備える、
キャビン内の環境の調整装置。
【請求項18】
電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、前記電子機器が実行する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される時に請求項1-16のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行する、
電子機器。
【請求項19】
コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に請求項1-16のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体。
【請求項20】
コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサは、請求項1-16のいずれか一項に記載のキャビン内の環境の調整方法を実現するためのステップを実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本開示は、出願番号が202010237887.1であり、出願日が2020年3月30日である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張し、当該中国特許出願の全内容がここで参照により本開示に組み込まれる。
【0002】
本開示は、コンピュータ技術分野に関し、特にキャビン内の環境の調整方法及び装置に関する。
【背景技術】
【0003】
関連技術では、キャビン内の環境を設定するプロセスにおいて、例えば、キャビン内の温度を調整し、キャビン内で再生される音楽を調整する必要がある場合、一般的に、ユーザが手動で調整するが、顔識別技術の発展に伴い、ユーザごとに対応する環境情報を予め設定してもよく、ユーザが車に乗り込んだ後、顔識別技術によりユーザの身元を識別し、次にユーザの身元が識別された後、当該身元に対応する環境情報を取得し、次にキャビン内の環境の設定を行う。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の実施例は、キャビン内の環境の調整方法及び装置を少なくとも提供する。
【0005】
第1態様では、本開示の実施例によるキャビン内の環境の調整方法は、
キャビン内の人員の顔画像を取得することと、
顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定することと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む。
【0006】
1つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第1ニューラルネットワークによって識別されて得られ、以下の方法に基づいて前記第1ニューラルネットワークを得る:トレーニングされるべき第1ニューラルネットワークにより、サンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する。
【0007】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含む。
【0008】
1つの可能な実施形態では、前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0009】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0010】
1つの可能な実施形態では、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算することは、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算することと、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算することと、前記第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とすることと、を含む。
【0011】
1つの可能な実施形態では、以下の方法に基づいて前記初期サンプル画像に対応する強化サンプル画像を決定する:前記初期サンプル画像内の顔領域画像に対応する3次元顔モデルを生成し、前記3次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第1強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得て、前記強化サンプル画像が前記第1強化サンプル画像又は前記第2強化サンプル画像である。
【0012】
1つの可能な実施形態では、前記属性情報には性別情報が含まれ、以下の方法に基づいて前記キャビン内の人員の性別情報を決定する:前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力し、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記2次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。
【0013】
1つの可能な実施形態では、以下の方法に基づいて前記設定された閾値を決定する:前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第2ニューラルネットワークに入力し、複数の候補閾値のぞれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。
【0014】
1つの可能な実施形態では、以下の方法に基づいて前記複数の候補閾値を決定する:設定されたストライドに従って、予め設定された範囲内から前記複数の候補閾値を選択する。
【0015】
1つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定する:前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。
【0016】
1つの可能な実施形態では、目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも1つが含まれる。
【0017】
1つの可能な実施形態では、前記状態情報には情緒情報が含まれ、以下のステップに基づいて、キャビン内の人員の情緒情報を決定する:前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別し、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。
【0018】
1つの可能な実施形態では、顔の器官の動作は、眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも2つを含む。
【0019】
1つの可能な実施形態では、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、第3ニューラルネットワークによって実行され、前記第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、前記顔画像に基づいて前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、バックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得ることと、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行い、各前記分類ブランチネットワークで識別できる動作の発生確率を得ることと、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定することと、を含む。
【0020】
1つの可能な実施形態では、キャビン内の環境設定を調整することの調整には、音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも1つが含まれる。
【0021】
第2態様では、本開示の実施例によるキャビン内の環境の調整装置は、
キャビン内の人員の顔画像を取得するように構成される取得モジュールと、
顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成される決定モジュールと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される調整モジュールと、を備える。
【0022】
1つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第1ニューラルネットワークによって識別されて得られ、
前記装置は、トレーニングモジュールをさらに備え、前記トレーニングモジュールは、以下の方法に基づいて前記第1ニューラルネットワークを得るように構成される:トレーニングされるべき第1ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する。
【0023】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成される。
【0024】
1つの可能な実施形態では、前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0025】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0026】
1つの可能な実施形態では、前記トレーニングモジュールは、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算し、及び、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算し、前記第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とするように構成される。
【0027】
1つの可能な実施形態では、前記トレーニングモジュールは、さらに以下の方法に基づいて初期サンプル画像に対応する強化サンプル画像を決定するように構成される:前記初期サンプル画像内の顔領域画像に対応する3次元顔モデルを生成し、前記3次元顔モデルに対して異なる角度の回転を行うとで、異なる角度での第1強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得るように構成され、前記強化サンプル画像は、前記第1強化サンプル画像又は前記第2強化サンプル画像である。
【0028】
1つの可能な実施形態では、前記属性情報には性別情報が含まれ、前記決定モジュールは、さらに以下の方法に基づいて前記キャビン内の人員の性別情報を決定するように構成される:前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力し、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記2次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。
【0029】
1つの可能な実施形態では、前記決定モジュールは、さらに以下の方法に基づいて前記設定された閾値を決定するように構成される:前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第2ニューラルネットワークに入力し、複数の候補閾値のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。
【0030】
1つの可能な実施形態では、前記決定モジュールは、さらに以下の方法に基づいて前記複数の候補閾値を決定するように構成される:設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する。
【0031】
1つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、前記決定モジュールは、さらに以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定するように構成される:前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。
【0032】
1つの可能な実施形態では、目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも1つが含まれる。
【0033】
1つの可能な実施形態では、前記状態情報には情緒情報が含まれ、前記決定モジュールは、さらに以下のステップに基づいて、キャビン内の人員の情緒情報を決定するように構成される:前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別し、識別された各前記器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。
【0034】
1つの可能な実施形態では、顔の器官の動作は、眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも2つを含む。
【0035】
1つの可能な実施形態では、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、第3ニューラルネットワークによって実行され、前記第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記決定モジュールは、さらにバックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得て、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行うことで、各前記分類ブランチネットワークで識別できる動作の発生確率を得て、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定するように構成される。
【0036】
1つの可能な実施形態では、キャビン内の環境設定を調整することの調整には、音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも1つが含まれる。
【0037】
第3の態様では、本開示の実施例による電子機器は、プロセッサ、メモリ及びバスを含み、前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、電子機器が調整する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される場合、上記の第1態様、又は第1態様の任意の一つの可能な実施形態のステップを実行する。
【0038】
第4態様では、本開示の実施例は、コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に上記の第1態様、又は第1態様の任意の一つの可能な実施形態のステップを実行するコンピュータ可読記憶媒体をさらに提供する。
【0039】
第5態様では、本開示の実施例は、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサが上記第1態様及びその任意の一つの可能な実現形態の方法を実行するコンピュータプログラムをさらに提供する。
【0040】
上記のキャビン内の環境の調整装置、電子機器、及びコンピュータ可読記憶媒体の効果の説明については、上記のキャビン内の環境の調整方法の説明を参照し、ここで説明を省略する。
【0041】
本開示の実施例の上記目的、特徴及び利点がより明確且つ理解しやすくなるために、以下に好ましい実施例を特に挙げて、前記添付の図面を参照して次のように詳しく説明する。
【図面の簡単な説明】
【0042】
図1】本開示の実施例によるキャビン内の環境の調整方法を示す模式的フローチャートである。
図2】本開示の実施例による第1ニューラルネットワークトレーニング方法を示す模式的フローチャートである。
図3】本開示の実施例による強化サンプル画像決定方法を示す模式的フローチャートである。
図4】本開示の実施例によるキャビン内の人員の性別情報の決定方法を示す模式的フローチャートである。
図5】本開示の実施例による設定された閾値の決定方法を示す模式的フローチャートである。
図6】本開示の実施例によるキャビン内の人員の目開閉情報の決定方法を示す模式的フローチャートである。
図7】本開示の実施例による属性情報の決定方法を示す模式的フローチャートである。
図8】本開示の実施例による情報抽出ニューラルネットワークのネットワーク構造を示す模式図である。
図9】本開示の実施例によるキャビン内の人員の情緒情報の決定方法を示す模式的フローチャートである。
図10】本開示の実施例によるキャビン内の環境の調整装置を示すアーキテクチャ模式図である。
図11】本開示の実施例による電子機器を示す構造的模式図である。
【発明を実施するための形態】
【0043】
本開示の実施例の技術案をより明確に説明するために、以下に実施例に必要な図面を簡単に紹介するが、ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、これらの図面は、本開示に合致する実施例を示し、明細書とともに本開示の実施例の技術案を説明するために用いられる。以下の図面が本開示の幾つかの実施例のみを示すため、範囲を限定するためのものと見なすべきではなく、当業者にとって、創造的な労働をすることなく、これらの図面に基づいて他の関連する図面を取得することができることを理解すべきである。
【0044】
本開示の実施例の目的、技術案及び利点をより明確にするために、以下に本開示の実施例の図面を参照して、本開示の実施例における技術案を明確かつ全面的に説明し、明らかに、説明される実施例は、本開示の実施例の一部だけであり、全ての実施例ではない。通常、本明細書の図面に記載及び示される本開示の実施例のコンポーネントは、様々な異なる構成で配置及び設計されてもよい。したがって、以下に添付の図面に提供される本開示の実施例の詳細な説明は、保護が要求される本開示の範囲を限定することを意図するものではなく、本開示の選択された実施例を示すものだけである。本開示の実施例に基づき、当業者が創造的な労力を払わずに得る全ての他の実施例は、本開示の保護範囲に属する。
【0045】
関連技術では、車両のキャビン内の環境設定を調整するプロセスでは、1つは手動で調整することであり、もう1つは各ユーザに対応する環境設定情報を予め設定し、次にキャビン内の乗客の身元情報を識別し、さらに識別された身元情報に基づいて、当該身元情報に対応する環境設定情報に従って、環境設定を調整することであり、キャビン内の乗客が対応する環境設定情報を予め設定しない場合、又はキャビン内の乗客が予め設定された環境設定情報に従ってキャビン内の環境を設定したくない場合、乗客は、キャビン内の環境設定を手動で調整する必要がある。
【0046】
これに基づいて、本開示の実施例は、キャビン内の人員の顔画像をリアルタイムで取得し、顔画像に基づいて、キャビン内の人員の属性情報及び情緒情報を決定し、次にキャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整することができるキャビン内の環境の調整方法を提供する。この方法により、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び情緒情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。
【0047】
上記案の欠陥については、全て発明者が実践して深く研究して得た結果であり、したがって、上記問題の発見プロセス及び上記問題について以下の本開示で提出される解決案は、全て本開示の保護範囲内に含まれるべきである。
【0048】
類似する記号及びアルファベットが以下の添付図面で類似するアイテムを表すことを注意すべきであり、したがって、あるアイテムが1つの添付図面で定義されると、後の図面でそれをさらに定義及び解釈する必要がない。
【0049】
本実施例の理解を容易にするために、まず、本開示の実施例で開示されるキャビン内の環境の調整方法を詳細に紹介する。本開示の実施例で提供されるキャビン内の環境の調整方法の実行本体は、一般的に一定のコンピューティング能力を備えた電子機器である。前記キャビン内には自動車キャビン、列車キャビン、ボートキャビンなどが含まれてもよいがこれらに限定されず、環境を調整できる他の機器に対して、本開示の実施例によって提供される方法がいずれも適用可能である。
【0050】
図1は本開示の実施例によるキャビン内の環境の調整方法を示す模式的フローチャートである。前記方法は、以下の幾つかのステップを含む。
【0051】
ステップ101において、キャビン内の人員の顔画像を取得する。
【0052】
ステップ102において、顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定する。
【0053】
ステップ103において、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境設定を調整する。
【0054】
上記方法により、キャビン内の人員の顔画像をリアルタイムで取得し、顔画像に基づいて、キャビン内の人員の属性情報及び情緒情報を決定し、次にキャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整することができる。この方法により、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び情緒情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。
【0055】
以下は、上記のステップ101~103についての詳細な説明である。
【0056】
ステップ101については、
ここで、キャビン内の人員の顔画像は、キャビン内の人員の完全な顔を含む画像であってもよい。キャビン内の人員の顔画像を取得するプロセスでは、まず収集された検出される画像を取得し、次にトレーニングされた、顔検出のための顔検出ニューラルネットワークに基づいて、検出されるべき画像における顔領域情報を決定し、最後に顔領域情報に基づいて、顔画像を決定することができる。
【0057】
検出されるべき画像は、リアルタイムで収集され、且つリアルタイムで取得されるものであってもよく、1つの可能な実施形態では、キャビン内に取り付けられたカメラによって検出されるべき画像をリアルタイムで撮影することができる。
【0058】
検出されるべき画像における顔領域情報は、顔領域に対応する検出ボックスの中心点座標及び当該検出ボックスのサイズ情報を含む。顔領域情報に基づいて、顔画像を決定するプロセスでは、まず検出ボックスのサイズ情報を、予め設定された割合に従って拡大処理し、拡大後のサイズ情報を得て、次に中心点座標情報及び拡大後のサイズ情報に基づいて、検出されるべき画像から顔画像を切り取ることができる。
【0059】
顔検出ニューラルネットワークによって出力された検出ボックスに対応する領域には、キャビン内の人員の全ての顔情報が含まれない可能性があるので、取得された顔画像に全ての顔情報が含まれるように、検出ボックスを拡大処理することができる。
【0060】
1つの可能な実施形態では、サイズ情報には検出ボックスの長さ及び検出ボックスの幅が含まれてもよく、検出ボックスのサイズ情報を予め設定された割合に従って拡大処理するプロセスにおいて、検出ボックスの長さ及び検出ボックスの幅を対応する予め設定された割合に従ってそれぞれ拡大処理することができ、ここで、検出ボックスの長さに対応する予め設定された割合及び検出ボックスの幅に対応する予め設定された割合は、同一であってもよい。
【0061】
例示的に、検出ボックスの長さ及び検出ボックスの幅に対応する予め設定された割合がいずれも10%であり、検出ボックスの長さがaであり、幅がbである場合、拡大処理が行われた後、検出ボックスの長さが1.1aであり、検出ボックスの幅が1.1bである。
【0062】
中心点座標情報及び拡大後のサイズ情報に基づいて、検出されるべき画像から顔画像を切り取るプロセスでは、中心点座標情報に対応する点を対角線の交点とし、次に拡大後のサイズ情報のうちの長さ及び幅をそれぞれ検出ボックスの長さ及び幅として、検出されるべき画像における検出ボックスの位置を決定し、最後に検出ボックスを分割線として、検出されるべき画像から画像を切り取ることができ、切り取られた画像が顔画像である。
【0063】
顔検出ニューラルネットワークのトレーニングプロセスでは、当該顔検出ニューラルネットワークのサンプルデータは、サンプル画像であってもよく、各サンプル画像は、対応するラベルデータを有し、サンプル画像に対応するラベルデータは、サンプル画像における中心点座標情報及び検出ボックスに対応するサイズ情報を含み、各サンプル画像を顔検出ニューラルネットワークに入力した後、顔検出ニューラルネットワークは、予測された中心点座標情報及び予測された検出ボックスのサイズ情報を取得し、次に予測された中心点座標情報、予測された検出ボックスのサイズ情報、サンプル画像に対応するラベルデータに基づいて、今回のトレーニングプロセスにおける損失値を決定し、損失値が予め設定された条件を満たさない場合、今回のトレーニングプロセスにおける顔検出ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0064】
ステップ102については、
キャビン内の人員の属性情報には、年齢情報、性別情報、人種情報の少なくとも1つが含まれてもよい。キャビン内の人員の状態情報には、キャビン内の人員の情緒情報及び目開閉情報が含まれてもよく、目開閉情報は、キャビン内の人員が睡眠状態にあるか否かを検出するために用いられてもよく、情緒情報は、怒り、愁い、落ち着き、楽しみ、落ち込みのうちの任意の1つを含むことができるがこれらに限定されない。
【0065】
1つの可能な実施形態では、顔画像に基づいて、キャビン内の人員に対して属性識別を行い、キャビン内の人員の属性情報を決定し、及び、顔画像に基づいて、キャビン内の人員に対して表情識別及び/又は目開閉識別を行い、キャビン内の人員の状態情報を決定することができる。
【0066】
1つの可能な実施形態では、属性情報に年齢情報が含まれる場合、第1ニューラルネットワークによって年齢情報を識別して得ることができる。
【0067】
ここで、第1ニューラルネットワークは、トレーニングプロセスにおいて、図2に示す方法に基づいて、以下の幾つかのステップを含むことができる。
【0068】
ステップ201において、トレーニングされるべき第1ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行い、前記サンプル画像に対応する予測年齢値を得る。
【0069】
ステップ202において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する。
【0070】
1つの可能な実施形態では、第1ニューラルネットワークのネットワークパラメータを調整する上記のステップについては、サンプル画像集合によって以下の幾つかの状況に分けられてもよい。
【0071】
状況1、サンプル画像集合は複数である。
【0072】
この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0073】
1つの可能な実施形態では、下記の式(1)でトレーニングプロセスにおけるモデル損失値を計算することができる:

式(1)
ここで、
は、今回のトレーニングプロセスにおける損失値を表し、Nは、サンプル画像の個数を表し、
は、n番目のサンプル画像の予測年齢値を表し、
は、n番目のサンプル画像の年齢ラベルの年齢値を表し、iは、0からN-1までトラバースし、jは、0からN-1までトラバースし、iとjは、等しくない。
【0074】
上記式で損失値を算出した後、算出された損失値に基づいて第1ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0075】
この方法によりトレーニングされた第1ニューラルネットワークの場合、当該第1ニューラルネットワークに対応する教師ありデータには、予測年齢値及び年齢ラベルの年齢の差があり、これに加えて、サンプル画像集合におけるサンプル画像の予測年齢値の差及び年齢ラベルの年齢値の差も教師ありデータとされ、これにより、トレーニングされた第1ニューラルネットワークは、年齢識別を行う時に精度がより高い。
【0076】
状況2において、サンプル画像集合には、複数の初期サンプル画像、及び各サンプル画像に対応する強化サンプル画像が含まれ、強化サンプル画像は、初期サンプル画像に対して情報変換処理を行った後の画像である。
【0077】
初期サンプル画像に対応する強化サンプル画像を決定する場合、図3に示す方法を用いて以下の幾つかのステップを含むことができる。
【0078】
ステップ301において、前記初期サンプル画像における顔領域画像に対応する3次元顔モデルを生成する。
【0079】
ステップ302において、前記3次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第1強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得る。
【0080】
第1強化サンプル画像及び第2強化サンプル画像の両方が初期サンプル画像に対応する強化サンプル画像であることを説明すべきである。
【0081】
第2強化サンプル画像を決定する場合、初期サンプル画像における各画素点のRGBの3つのチャネル上の値には3つの値が含まれ、光線影響値での第2強化画像を決定する場合、初期サンプル画像におけるすべての画素点の3つのチャネル上の値をNに加算することができ、Nが光線影響値であり、数値的にはが3次元ベクトルである。1つの可能な状況において、Nは、ガウス分布に従うことができる。
【0082】
この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0083】
1つの可能な実施形態では、以下の式(2)で第1ニューラルネットワークのトレーニングプロセスにおける損失値を計算することができる:

式(2)
ここで、
は、今回のトレーニングプロセスにおける損失値を表し、Nは、サンプル画像の個数を表し、
表は、n番目のサンプル画像の予測年齢値を表し、
は、n番目のサンプル画像の年齢ラベルの年齢値を表し、
は、n番目のサンプル画像に対応する強化サンプル画像の予測年齢値を表す。
【0084】
上記方法では、強化サンプル画像は、初期サンプル画像に角度及び光線の影響を加えたサンプル画像であり、初期サンプル画像及び強化サンプル画像によってトレーニングされたニューラルネットワークにより、年齢識別を行うプロセスにおいて、角度及び光線のニューラルネットワーク識別精度に対する影響を回避し、年齢識別の精度を向上させることができる。
【0085】
状況3において、サンプル画像集合は複数であり、各サンプル画像集合には、初期サンプル画像、及び各初期サンプル画像に対応する強化サンプル画像が含まれ、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られるものである。
【0086】
この状況において、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する場合、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することができる。
【0087】
1つの可能な実施形態では、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算し、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算し、次に前記第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とすることができる。
【0088】
1つの可能な実施形態では、以下の式(3)で第1ニューラルネットワークのトレーニングプロセスにおける第1損失値を計算することができる:
式(3)
は、第1損失値を表し、Mは、サンプル画像集合の個数を表し、Nは、各サンプル画像集合に含まれるサンプル画像の個数を表し、
は、m番目のサンプル画像集合におけるn番目のサンプル画像の予測年齢値を表し、
は、m番目のサンプル画像集合におけるn番目のサンプル画像の年齢ラベルの年齢値を表す。
【0089】
以下の式(4)で第1ニューラルネットワークのトレーニングプロセスにおける第2損失値を計算することができる:
式(4)
は、第2損失値を表し、
は、m番目のサンプル画像集合におけるn番目のサンプル画像の予測年齢値を表し、
は、m番目のサンプル画像集合におけるnつのサンプル画像に対応する強化サンプル画像の予測年齢値を表す。
【0090】
ここで、各サンプル画像集合に含まれるサンプル画像の個数もNよりも大きくてもよいことを説明すべきであるが、第1ニューラルネットワークのトレーニングプロセスでは、各サンプル画像集合からN個のサンプル画像をランダムに抽出する。
【0091】
1つの可能な実施形態では、第1ニューラルネットワークのネットワーク構造は、特徴抽出層と年齢情報抽出層とを含むことができ、顔画像が特徴抽出層に入力された後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層に入力し、出力して顔画像の予測年齢値を得ることができる。
【0092】
ここで、同一のサンプル画像集合における初期サンプル画像は、同一の画像収集機器によって収集されて得られるものであり、したがって、サンプル画像によってニューラルネットワークをトレーニングする場合、画像収集機器の違いによる誤差影響を回避し、それと同時に、初期サンプル画像及び強化サンプル画像を用いてニューラルネットワークをトレーニングすることができ、これにより、光線及び角度の影響による誤差影響も回避することができ、したがって、トレーニングされたニューラルネットワークの精度がより高い。
【0093】
属性情報に性別情報が含まれる場合、キャビン内の人員の性別情報を決定する時に、図4で説明される方法を参照して、以下の幾つかのステップを含むことができる。
【0094】
ステップ401において、前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力して、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられる。
【0095】
ステップ402において、前記2次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。
【0096】
ここで、設定された閾値は、顔画像を収集する画像収集機器及び収集環境によって決定されてもよい。
【0097】
ここで、異なる画像収集機器及び収集環境の影響により、異なる画像収集機器及び収集環境で収集された顔画像に対する設定された閾値の識別精度は異なる可能性があり、したがって、画像収集機器及び収集環境の影響を回避するために、本開示の実施例は、設定された閾値を適応的に決定する方法を提供する。
【0098】
1つの可能な実施形態では、図5で説明される設定された閾値の決定方法を参照して、以下の幾つかのステップを含むことができる。
【0099】
ステップ501において、前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得する。
【0100】
サンプル画像及び顔画像の画像収集機器及び収集環境が同一であるため、これらのサンプル画像によって決定された、設定された閾値は、現在の環境のニーズを満たすことができる。
【0101】
ステップ502において、前記複数のサンプル画像を前記第2ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得る。
【0102】
1つの可能な実施形態では、第2ニューラルネットワークのネットワーク構造は、特徴抽出層と性別情報抽出層とを含むことができ、サンプル画像を第2ニューラルネットワークに入力した後、まずサンプル画像を特徴抽出層に入力して、サンプル画像に対応する特徴マップを得て、次に特徴マップを性別情報抽出層に入力して、出力して2次元特徴ベクトルを得て、さらに分類器によってサンプル画像に対応する予測性別を決定することができる。
【0103】
1つの可能な実施形態では、候補閾値を決定する場合、設定されたステップに従って、予め設定された値範囲から複数の候補閾値を選択することができる。実際の応用において、第2ニューラルネットワークによって出力された2次元ベクトルにおける異なる次元上の値が確率を表すため、予め設定された値範囲は0~1であってもよく、設定されたストライドは、例えば0.001であってもよく、例示的に以下の式(5)で候補閾値を決定することができる:
式(5)
ここで、thrdは、候補閾値を表し、kは、0~1000にトラバースする各正整数を取る。
【0104】
ステップ503において、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定する。
【0105】
候補閾値でのサンプル画像の予測性別、及びサンプル画像の性別ラベルに基づいて、当該候補閾値での予測精度を決定する場合、以下の方法によって決定することができる:
表1に示すように、P枚のサンプル画像における、以下のカテゴリのそれぞれの値を決定する:
【0106】
【表1】
【0107】
ここで、TPは、性別ラベルが男性であり且つthrd閾値での予測性別が男性である数量を表し、TNは、性別ラベルが男性であり且つthrd閾値での予測性別が女性である数量を表し、FPは、性別ラベルが女性であり且つthrd閾値での予測性別が男性である数量を表し、FNは、性別ラベルが女性であり且つthrd閾値での予測性別が女性である数量を表す。
【0108】
上記表1における各カテゴリの値が決定された後、以下の式(6)で精度を計算することができる:
式(6)
ここで、
【0109】
ステップ504において、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。
【0110】
設定された閾値を決定するプロセスにおいて、収集されたサンプル画像が顔画像を収集する画像収集機器によってキャビン内で収集されるものであるため、収集機器及び収集環境の設定された閾値に対する影響を保証することができ、且つ設定された閾値を決定するプロセスにおいて、予測精度の最も大きい候補閾値を設定された閾値とするため、設定された閾値を適応的に調整することができ、これにより、性別識別の精度が向上する。
【0111】
状態情報に目開閉情報が含まれる場合、図6に示す方法に基づいてキャビン内の人員の目開閉情報を決定することができ、以下の幾つかのステップを含む。
【0112】
ステップ601において、前記顔画像に対して特徴抽出を行い、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられる。
【0113】
1つの可能な実施形態では、顔画像を予めトレーニングされた、目開閉情報を検出するための第4ニューラルネットワークに入力することができ、第4ニューラルネットワークは、特徴抽出層と目開閉情報抽出層とを含むことができ、顔画像を第4ニューラルネットワークに入力した後、顔画像を特徴抽出層に入力し、出力して顔画像に対応する特徴マップを得て、次に顔画像に対応する特徴マップを目開閉情報抽出層に入力し、出力して多次元特徴ベクトルを得ることができる。
【0114】
目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態の少なくとも1つが含まれてもよい。
【0115】
1つの可能な実施形態では、左目状態は、以上の状態のうちの任意の1つであってもよく、右目状態も以上の状態のうちの任意の1つであってもよく、2つの目の可能な状態が9種類であり、したがって、第3ニューラルネットワークの出力は、9次元特徴ベクトルであってもよく、9次元特徴ベクトルにおける各次元上の要素値は、顔画像の2つの目が当該次元に対応する2つの目の状態にある確率を表す。
【0116】
ステップ602において、確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定する。
【0117】
属性情報に人種情報が含まれる場合、顔画像を人種情報抽出のための第5ニューラルネットワークに入力することができ、第5ニューラルネットワークには、特徴抽出層と人種情報抽出層が含まれ、顔画像が第5ニューラルネットワークに入力された後、まず顔画像を特徴抽出層に入力して、顔画像に対応する特徴マップを得て、次に特徴マップを人種情報抽出層に入力して、3次元特徴ベクトルを得ることができ、3次元ベクトルにおける異なる次元上の要素値は、それぞれ前記顔画像が当該次元に対応する人種である確率を表すために用いられ、前記人種は、「黄色人種」、「白色人種」、「黒色人種」を含む。
【0118】
この方式により、キャビン内の人員の目開閉情報を決定する場合、顔画像を分割することなく、顔画像により顔画像における目開閉情報を直接決定することができ、目開閉情報の検出効率が向上する。
【0119】
上記から分かるように、年齢情報を抽出するための第1ニューラルネットワーク、性別情報を抽出するための第2ニューラルネットワーク、目開閉情報を抽出するための第4ニューラルネットワーク、及び人種情報を抽出するための第5ニューラルネットワークのそれぞれには、特徴抽出層が含まれ、したがって、これらの5つのニューラルネットワークは、特徴抽出層を共有することができる。
【0120】
例示的に、図7を参照すると、本開示の実施例による属性情報決定方法は、以下の幾つかのステップを含む。
【0121】
ステップ701において、前記顔画像を属性識別のための第2ニューラルネットワークの特徴抽出層に入力して、前記顔画像に対応する特徴マップを得る。
【0122】
ここで、特徴抽出層は、入力された顔特徴に対して特徴抽出を行うために用いられ、例示的に、特徴抽出層は、inceptionネットワーク、軽量化ネットワークmobilenet-v2などを用いることができる。
【0123】
ステップ702において、前記特徴マップを情報抽出ニューラルネットワークの各属性情報抽出層にそれぞれ入力して、各属性情報抽出層によって出力された属性情報を得て、ここで、異なる属性情報抽出層は、異なる属性情報を検出するために用いられる。
【0124】
1つの可能な実施形態では、情報抽出ニューラルネットワークの各属性情報抽出層には、いずれも第1完全接続層と第2完全接続層とが含まれ、特徴マップを情報抽出ニューラルネットワークの属性情報抽出層に入力した後、先に特徴マップを属性情報抽出層の第1完全接続層に入力して、特徴マップに対応するM次元ベクトルを得ることに相当し、Mが任意の一つの属性情報に対応する予め設定された正整数であり、次にM次元ベクトルを当該属性情報抽出層の第2完全接続層に入力して、特徴マップに対応するN次元ベクトルを得て、Nが正整数であり、且つMがNよりも大きく、Nが当該属性情報抽出層に対応する属性情報の値の個数であり、最後に得られたN次元ベクトルに基づいて、当該N次元ベクトルに対応する属性情報を決定する。
【0125】
ここで、Nは当該属性情報抽出層に対応する値の個数であり、例示的に、属性情報抽出層から抽出された属性情報が性別である場合、当該属性情報の値は、「男」と「女」の2つを含み、当該属性情報抽出層に対応するNの値は2である。
【0126】
以下に属性情報に年齢情報、性別情報、人種情報が含まれることを例とすると、上記情報抽出ニューラルネットワークの構造を説明し、情報抽出ニューラルネットワークのネットワーク構造は、図8に示すものであってもよい。
【0127】
顔画像を特徴抽出層に入力した後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層、性別情報抽出層、人種情報抽出層、及び目開閉情報抽出層にそれぞれ入力することができる。
【0128】
年齢情報抽出層には、第1完全接続層と第2完全接続層とが含まれ、特徴マップを第1完全接続層に入力した後、K次元の特徴ベクトルを得て、次にK次元の特徴ベクトルを第2完全接続層に入力して、1次元ベクトル出力を得ることができ、当該1次元ベクトルにおける要素値は、予測された年齢の値である。また、年齢の値が整数であるべきであることを考慮すると、当該1次元ベクトルの要素値を四捨五入し、最終的に予測された年齢情報を得ることができ、ここで、Kが1より大きい。
【0129】
性別情報抽出層には、第1完全接続層と第2完全接続層とが含まれ、特徴マップを第1完全接続層に入力した後、K次元の特徴ベクトルを得て、次にKの次元特徴ベクトルを第2完全接続層に入力して、2次元ベクトル出力を得ることができ、当該2次元ベクトルにおける要素値は、入力された顔画像におけるユーザが男性である確率及びユーザが女性である確率をそれぞれ表し、最後に、第2完全接続層の出力に1つの二項分類ネットワークを接続し、二項分類結果に応じて、性別情報抽出層によって予測された、入力された顔画像の性別情報を決定することができ、ここで、Kが2よりも大きい。
【0130】
人種情報抽出層では、K次元の特徴ベクトルを得ることができるまで特徴マップを入力し、次にKの次元特徴ベクトルを第2完全接続層に入力して、3次元ベクトル出力を得ることができ、当該3次元ベクトルの要素値は、入力された顔画像におけるユーザが「黄色人種」である確率、ユーザが「黒色人種」である確率とユーザが「白色人種」である確率をそれぞれ表し、最後に、第2完全接続層の出力に1つの分類ネットワークを接続し、分類ネットワークの分類結果に応じて、人種情報抽出層によって予測された、入力された顔画像の人種情報を決定することができ、ここで、Kが3よりも大きい。
【0131】
また、状態情報内の目開閉情報は、上記の情報抽出ニューラルネットワークによって抽出されてもよく、目開閉情報抽出層に対して、キャビン内の人員の2つの目の状態が抽出され、ここで、目の状態は、「人の目が見えない状態」(人の目が見えないことは画像において目を検出できないこと、例えばキャビン内の人員がサングラスをかけることである)、「人の目が見え且つ目が開く状態」、及びが「人の目が見え且つ目が閉じる状態」の3種類を含み、したがって、2つの目に対して、選択可能な状態が合計9種類である。したがって、目開閉情報抽出層に対して、第1完全接続層の出力がK次元の特徴ベクトルであり、第2完全接続層の出力は、9次元の特徴ベクトルであり、ベクトルにおける各要素値は、前記顔画像におけるキャビン内の人員の目状態が当該要素値で表される状態である確率を表すために用いられ、第2完全接続層の出力に1つの分類ネットワークが接続され、分類ネットワークの分類結果に応じて目開閉情報抽出層によって予測された、入力された顔画像の目開閉情報を決定することができ、ここで、Kが9よりも大きい。
【0132】
情報抽出ニューラルネットワークのトレーニングプロセスでは、属性情報ラベル付きのサンプル画像によってトレーニングすることができ、各属性情報抽出層が一緒にトレーニングされ、損失値を計算する場合、各属性情報抽出層の損失値をそれぞれ計算し、次に各属性情報抽出層の損失値に基づいて対応する属性情報抽出層のネットワークパラメータ値を調整し、各属性情報抽出層の損失値を加算演算して総損失値とし、次に総損失値に基づいて、特徴抽出層のネットワークパラメータ値を調整し、1つの可能な実施形態では、情報抽出ニューラルネットワークのトレーニングプロセスについて、ここで展開して紹介しない。
【0133】
1つの可能な実施形態では、キャビン内の人員の情緒情報を決定する場合、図9で説明される方法に基づいて以下の幾つかのステップを含むことができる。
【0134】
ステップ901において、前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別する。
【0135】
ステップ902において、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。
【0136】
顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別する場合、第3ニューラルネットワークによって顔画像を識別することができ、第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられる。
【0137】
1つの可能な実施形態では、第3ニューラルネットワークを用いて顔画像を識別する場合、まずバックボーンネットワークを用いて顔画像に対して特徴抽出を行い、顔画像の特徴マップを得て、次に各分類ブランチネットワークをそれぞれ用いて、顔画像の特徴マップにもとづいて、動作識別を行い、各分類ブランチネットワークで識別できる動作の発生確率を得て、次に発生確率が予め設定された確率よりも大きい動作を顔画像によって表される顔の器官の動作として決定することができる。
【0138】
1つの可能な実施形態では、顔画像を第3ニューラルネットワークに入力する前に、まず顔画像を前処理して顔画像の重要な情報を強化し、次に前処理された顔画像を第3ニューラルネットワークに入力することもできる。
【0139】
ここで、顔画像を前処理することは、まず顔画像内のキーポイントの位置情報を決定し、次にキーポイントの位置情報に基づいて、顔画像をアフィン変換して、顔画像に対応する正面化された画像を得て、正面化された顔画像を正規化処理して、処理後の顔画像を得ることであってもい。
【0140】
正面化された顔画像を正規化処理することは、顔画像に含まれる各画素点の画素値の平均値、及び顔画像に含まれる各画素点の画素値の標準偏差を計算することと、前記画素値の平均値、及び前記画素値の標準偏差に基づいて、顔画像の各画素点の画素値を正規化処理することと、を含む。
【0141】
1つの可能な実施形態では、画素値の平均値及び画素値の標準偏差に基づいて、顔画像の各画素点の画素値を正規化処理する場合、以下の式(7)を参照することができる:
式(7)
ここで、Zは、画素点の正規化処理後の画素値を表し、Xは、画素点の正規化処理前の画素値を表し、
は、画素値の平均値を表し、
は、画素値の標準偏差を表す。
【0142】
上記処理により、顔画像における顔を正面化処理することができ、顔表情を決定する時により正確になる。
【0143】
ここで、動作ユニットによって検出される動作は、
眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも1つを含む。
【0144】
顔の顔動作の検出結果、及び予め設定された顔動作と情緒情報との間のマッピング関係に基づいて、キャビン内の人員の情緒情報を決定することができ、例示的に、任意の一つの顔動作が検出されない場合、キャビン内の人員の情緒情報が落ち着きであることを決定し、キャビン内の人員の顔動作が、目に角を立てる動作、口を開く動作であることが検出された場合、キャビン内の人員の情緒情報が驚きなどであることを決定することができる。
【0145】
この方式に基づいて、ユーザが顔画像に対して表情状態を主観的に定義する必要がなく、また、顔の器官の動作がある特定の顔の特徴に焦点を合わせることができるため、顔画像上の器官の動作の識別は、表情姿態の識別を直接行うことに比べて、精度を向上させることができる。
【0146】
ステップ103については、
キャビン内の環境設定を調整する場合、
音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整の少なくとも1つが含まれてもよい。
【0147】
1つの可能な実施形態では、キャビン内の人員の属性情報及び情緒情報に基づいて、キャビン内の環境設定を調整する場合、キャビン内に1人しかいないと、当該キャビン内の人員の属性情報及び情緒情報に基づいて、予め設定されたマッピング関係から対応する調整情報を直接検索し、次に調整情報に基づいてキャビン内の環境設定を調整することができ、前記マッピング関係は、属性情報及び情緒情報と調整情報との間のマッピング関係を表すために用いられる。
【0148】
キャビン内の人員が多い場合、異なるキャビン内の人員の属性情報の値のうちの優先度の高い値、及び異なるキャビン内の人員の情緒情報の値のうちの優先度の高い値を決定し、次に優先度の高い属性情報の値及び優先度の高い情緒情報の値に基づいて、キャビン内の環境設定を調整することができる。
【0149】
例示的に、キャビン内の人員が二人であり、一人の情緒情報が落ち着きであり、一人の情緒情報が悲しみである場合、「悲しみ」に応じて、再生される音楽タイプを調整することができる。
【0150】
別の可能な実施形態では、属性情報が限られ、各属性情報の値も限られ、状態情報の値も限られるため、各属性情報の値及び情緒情報の値に対応する調整情報を予め設定し、次に検出されたキャビン内の人員の属性情報及び情緒情報に基づいて、対応する調整情報を検索することができる。
【0151】
ここで、キャビン内の人員の情緒情報がリアルタイムで変化する可能性があるため、いつでもキャビン内の人員の情緒情報の変化状況に応じてキャビン内の環境設定をリアルタイムで調整することができる。
【0152】
当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序が厳格な実行順序を意味して実施プロセスに対するいかなる限定を構成せず、各ステップの実行順序がその機能及び可能な内部論理で決定されるべきであることを理解できる。
【0153】
同一の発明概念に基づいて、本開示の実施例においてキャビン内の環境の調整方法に対応するキャビン内の環境の調整装置をさらに提供する。本開示の実施例における装置が問題を解決する原理は、本開示の実施例の上記のキャビン内の環境の調整方法と類似し、したがって、装置の実施は、方法の実施を参照することができ、繰り返し点について説明を省略する。
【0154】
図10は本開示の実施例によるキャビン内の環境の調整装置のアーキテクチャ模式図である。前記装置は、取得モジュール1001と、決定モジュール1002と、調整モジュール1003と、トレーニングモジュール1004とを備え、
取得モジュール1001は、キャビン内の人員の顔画像を取得するように構成され、
決定モジュール1002は、顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成され、
調整モジュール1003は、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される。
【0155】
1つの可能な実施形態では、前記属性情報には年齢情報が含まれ、前記年齢情報は、第1ニューラルネットワークによって識別されて得られ、
前記装置は、トレーニングモジュール1004をさらに備え、前記トレーニングモジュール1004は、以下の方法に基づいて前記第1ニューラルネットワークを得るように構成される:トレーニングされるべき第1ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行い、前記サンプル画像に対応する予測年齢値を得て、各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する。
【0156】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、前記トレーニングモジュール1004は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成される。
【0157】
1つの可能な実施形態では、前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、前記トレーニングモジュール1004は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0158】
1つの可能な実施形態では、前記サンプル画像集合は複数であり、各前記サンプル画像集合には複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られるものであり、前記トレーニングモジュール1004は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整するように構成され、前記サンプル画像は、初期サンプル画像又は強化サンプル画像である。
【0159】
1つの可能な実施形態では、前記トレーニングモジュール1004は、さらに各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算し、及び、前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算し、第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とするように構成される。
【0160】
1つの可能な実施形態では、前記トレーニングモジュール1004は、さらに以下の方法に基づいて前記初期サンプル画像に対応する強化サンプル画像を決定するように構成される:前記初期サンプル画像内の顔領域画像に対応する3次元顔モデルを生成し、前記3次元顔モデルに対して異なる角度の回転を行い、異なる角度での第1強化サンプル画像を得て、及び、前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得るように構成され、前記強化サンプル画像は、前記第1強化サンプル画像又は前記第2強化サンプル画像である。
【0161】
1つの可能な実施形態では、前記属性情報には性別情報が含まれ、前記決定モジュール1002は、さらに以下の方法に基づいて前記キャビン内の人員の性別情報を決定するように構成される:前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力して、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられ、前記2次元特徴ベクトルを分類器に入力して、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定する。
【0162】
1つの可能な実施形態では、前記決定モジュール1002は、さらに以下の方法に基づいて、前記設定された閾値を決定するように構成される:前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、前記複数のサンプル画像を前記第2ニューラルネットワークに入力して、複数の候補閾値内のそれぞれでの各前記サンプル画像にそれぞれ対応する予測性別を得て、各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、最大の予測精度に対応する候補閾値を前記設定された閾値として決定する。
【0163】
1つの可能な実施形態では、前記決定モジュール1002は、さらに以下の方法に基づいて前記複数の候補閾値を決定するように構成される:設定されたストライドに従って、予め設定された値範囲内から前記複数の候補閾値を選択する。
【0164】
1つの可能な実施形態では、前記状態情報には目開閉情報が含まれ、前記決定モジュール1002は、以下の方法に基づいて前記キャビン内の人員の目開閉情報を決定するように構成される:前記顔画像に対して特徴抽出を行い、多次元特徴ベクトルを得て、前記多次元特徴ベクトルにおける各次元上の要素値が、前記顔画像内の目が前記次元に対応する状態にある確率を表すために用いられ、確率が予め設定された値よりも大きい次元に対応する状態を前記キャビン内の人員の目開閉情報として決定する。
【0165】
1つの可能な実施形態では、目の状態には、人の目が見えない状態、人の目が見え且つ目が開く状態、人の目が見え且つ目が閉じる状態のうちの少なくとも1つが含まれる。
【0166】
1つの可能な実施形態では、前記状態情報には情緒情報が含まれ、前記決定モジュール1002は、さらに以下のステップに基づいて、キャビン内の人員の情緒情報を決定するように構成される:前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別し、識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定する。
【0167】
1つの可能な実施形態では、顔の器官の動作は、眉をひそめる動作、目に角を立てる動作、口角を上に向ける動作、上唇を上に向ける動作、口角を下に向ける動作、口を開く動作のうちの少なくとも2つを含む。
【0168】
1つの可能な実施形態では、前記顔画像に基づいて前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、第3ニューラルネットワークによって実行され、前記第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記決定モジュール1002は、さらにバックボーンネットワークを用いて前記顔画像に対して特徴抽出を行い、前記顔画像の特徴マップを得て、各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行い、各前記分類ブランチネットワークで識別できる動作の発生確率を得て、発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定するように構成される。
【0169】
1つの可能な実施形態では、キャビン内の環境設定の調整には、音楽タイプの調整、温度の調整、ライトタイプの調整、匂いの調整のうちの少なくとも1つが含まれる。
【0170】
同一の技術的概念に基づいて、本出願の実施例は、電子機器をさらに提供する。図11は本出願の実施例による電子機器1100の構造的模式図である。前記電子機器1100は、プロセッサ1101、メモリ1102及びバス1103を備える。ここで、メモリ102は、実行命令を記憶するように構成され、内部メモリ11021及び外部メモリ11022を含む。ここでの内部メモリ11021は、内部記憶装置とも呼ばれ、プロセッサ1101内の演算データ、及びハードディスクなどの外部メモリ11022と交換するデータを一時的に記憶するように構成され、プロセッサ1101は、内部メモリ11021を介して外部メモリ11022とデータ交換を行い、電子機器1100が動作する場合、プロセッサ1101とメモリ1102は、バス1103を介して通信し、これにより、プロセッサ1101は、上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行する。
【0171】
本開示の実施例は、コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体をさらに提供する。ここで、当該記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。
【0172】
本開示の実施例によって提供されるキャビン内の環境の調整方法のコンピュータプログラム製品は、プログラムコードを記憶するコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令が上記方法の実施例で説明されるキャビン内の環境の調整方法のステップを実行するように構成されてもよく、上記方法の実施例を参照することができ、ここで説明を省略する。
【0173】
本開示の実施例は、プロセッサに実行されるときに上記の実施例の任意の一つの方法を実現するコンピュータプログラムをさらに提供する。当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせによって実現されてもよい。1つの選択可能な実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として具体化され、別の選択可能な実施例では、コンピュータプログラム製品は、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具体化される。
【0174】
当業者は、便利及び簡潔に説明するために、上記説明されたシステムと装置の動作プロセスについては、前記方法の実施例における対応するプロセスを参照でき、ここで説明を省略することを明確に理解することができる。本開示で提供される幾つかの実施例では、開示されるシステム、装置及び方法は、他の方式により実現されてもよいことが理解すべきである。上記説明された装置の実施例は例示的なものだけであり、例えば、前記ユニットの区分は、論理機能的区分だけであり、実際に実現する時に他の区分方式もあり得て、また、例えば、複数のユニット又はコンポーネントは組み合わせられてもよく又は別のシステムに統合されてもよく、又は一部の特徴は無視されてもよく、又は実行されなくてもよい。また、示され、又は議論される相互結合又は直接結合又は通信接続は、一部の通信インターフェース、装置又はユニットを介す間接的結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
【0175】
分離部材として説明されたユニットは物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示される部材は物理ユニットであってもよく又は物理ユニットでなくてもよく、即ち1つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全てのユニットを選択して本実施例の策の目的を達成することができる。
【0176】
また、本開示の各実施例における各機能ユニットは1つの処理ユニットに統合されてもよく、個々のユニットは単独で物理に存在してもよく、2つ又は2つ以上のユニットは1つのユニットに統合されてもよい。
【0177】
前記機能は、ソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は用いられる場合、プロセッサによって実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本開示の実施例の技術案は、本質的に又は従来技術に寄与する部分又は当該技術案の部分がソフトウェア製品の形で具体化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバー、又はネットワーク機器等であってもよい)に本開示の各実施例に記載される方法の全て又は一部のステップを実行させるための幾つかの命令を含む。前記の記憶媒体は、USBフラッシュディスク、モバイルハードディスク、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。
【0178】
最後、上記実施例が本開示の具体的な実施形態だけであり、本開示の技術案を説明するためのものであり、それを限定しないことを説明すべきであり、本開示の保護範囲は、これに限定されなく、上記実施例を参照して本開示を詳細に説明するが、当業者は、いかなる当業者が本開示で開示される技術範囲内で、依然として上記実施例に記載される技術案を変更させ、又は変化を容易に想到し、又は技術的特徴の一部に対して同等の入れ替えを行うことができ、これらの変更、変化又は入れ替えが対応する技術案の本質を本発明の実施例における技術案の精神及び範囲から逸脱させなく、全て本開示の保護範囲に含まれるべきであることを理解すべきである。したがって、本開示の実施例の保護範囲は、特許請求の範囲に準拠するべきである。
【産業上の利用可能性】
【0179】
本開示の実施例によれば、キャビン内の人員の顔画像を取得し、前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定し、前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整する。このように、顔画像がリアルタイムで取得されるため、決定されたキャビン内の人員の属性情報及び状態情報は、キャビン内の人員の現在の状態を表すことができ、キャビン内の人員の現在の状態に応じてキャビン内の環境設定を調整することにより、キャビン内の環境設定を自動的且つ動的に調整することができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2022-04-26
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0064
【補正方法】変更
【補正の内容】
【0064】
ステップ102については、
キャビン内の人員の属性情報には、年齢情報、性別情報の少なくとも1つが含まれてもよい。キャビン内の人員の状態情報には、キャビン内の人員の情緒情報及び目開閉情報が含まれてもよく、目開閉情報は、キャビン内の人員が睡眠状態にあるか否かを検出するために用いられてもよく、情緒情報は、怒り、愁い、落ち着き、楽しみ、落ち込みのうちの任意の1つを含むことができるがこれらに限定されない。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0117
【補正方法】削除
【補正の内容】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0119
【補正方法】変更
【補正の内容】
【0119】
上記から分かるように、年齢情報を抽出するための第1ニューラルネットワーク、性別情報を抽出するための第2ニューラルネットワーク、及び目開閉情報を抽出するための第4ニューラルネットワークのそれぞれには、特徴抽出層が含まれ、したがって、これらの4つのニューラルネットワークは、特徴抽出層を共有することができる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0126
【補正方法】変更
【補正の内容】
【0126】
以下に属性情報に年齢情報、性別情報が含まれることを例とすると、上記情報抽出ニューラルネットワークの構造を説明し、情報抽出ニューラルネットワークのネットワーク構造は、図8に示すものであってもよい。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0127
【補正方法】変更
【補正の内容】
【0127】
顔画像を特徴抽出層に入力した後、顔画像に対応する特徴マップを得て、次に特徴マップを年齢情報抽出層、性別情報抽出層、及び目開閉情報抽出層にそれぞれ入力することができる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0130
【補正方法】削除
【補正の内容】
【手続補正7】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
キャビン内の環境の調整方法であって、
キャビン内の人員の顔画像を取得することと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定することと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整することと、を含む、
キャビン内の環境の調整方法。
【請求項2】
前記属性情報には年齢情報が含まれ、前記年齢情報は、第1ニューラルネットワークによって識別されて得られ、
前記第1ニューラルネットワークは、
トレーニングされるべき第1ニューラルネットワークによってサンプル画像集合におけるサンプル画像に対して年齢予測を行うことで、前記サンプル画像に対応する予測年齢値を得て、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整する
という方法に基づいて得られることを特徴とする
請求項1に記載の方法。
【請求項3】
前記サンプル画像集合は複数であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項2に記載の方法。
【請求項5】
前記サンプル画像集合は複数であり、各前記サンプル画像集合には、複数の初期サンプル画像、及び各前記初期サンプル画像に対応する強化サンプル画像が含まれ、前記強化サンプル画像は、前記初期サンプル画像に対して情報変換処理を行った後の画像であり、同一のサンプル画像集合における複数の初期サンプル画像は、同一の画像収集機器によって収集されて得られたものであり、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、前記サンプル画像集合におけるサンプル画像の予測年齢値の差、及び前記サンプル画像集合におけるサンプル画像の年齢ラベルの年齢値の差に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算し、算出された損失値に基づいて、第1ニューラルネットワークのネットワークパラメータ値を調整することを含み、
ここで、前記サンプル画像は、初期サンプル画像又は強化サンプル画像であることを特徴とする
請求項2に記載の方法。
【請求項6】
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、前記任意の2つのサンプル画像の年齢ラベルの年齢値の差、及び前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、今回のトレーニングプロセスにおける損失値を計算することは、
各前記サンプル画像に対応する予測年齢値と前記サンプル画像の年齢ラベルの年齢値との差、同一のサンプル画像集合における任意の2つのサンプル画像の予測年齢値の差、及び前記任意の2つのサンプル画像の年齢ラベルの年齢値の差に基づいて、第1損失値を計算することと、
前記初期サンプル画像の予測年齢値と前記初期サンプル画像に対応する強化サンプル画像の予測年齢値との差に基づいて、第2損失値を計算することと、
前記第1損失値と前記第2損失値との和を今回のトレーニングプロセスにおける損失値とすることと、を含むことを特徴とする
請求項5に記載の方法。
【請求項7】
前記初期サンプル画像に対応する強化サンプル画像は、
前記初期サンプル画像における顔領域画像に対応する3次元顔モデルを生成し、
前記3次元顔モデルに対して異なる角度の回転を行うことで、異なる角度での第1強化サンプル画像を得て、
前記初期サンプル画像における各画素点のRGBチャネル上の値を異なる光線影響値に加算し、異なる光線影響値での第2強化サンプル画像を得る
という方法に基づいて決定され、
前記強化サンプル画像は、前記第1強化サンプル画像又は前記第2強化サンプル画像であることを特徴とする
請求項4-6のいずれか一項に記載の方法。
【請求項8】
前記属性情報に性別情報が含まれる場合には
前記キャビン内の人員の性別情報は、
前記顔画像を性別情報抽出のための第2ニューラルネットワークに入力し、前記第2ニューラルネットワークによって出力された2次元特徴ベクトルを得て、前記2次元特徴ベクトルにおける第1次元上の要素値が、前記顔画像が男性である確率を表すために用いられ、第2次元上の要素値が、前記顔画像が女性である確率を表すために用いられること及び
前記2次元特徴ベクトルを分類器に入力し、確率が設定された閾値よりも大きい性別を前記顔画像の性別として決定すること、
という方法に基づいて決定され
前記状態情報に目開閉情報が含まれる場合には、
前記キャビン内の人員の目開閉情報は、
前記顔画像に対して特徴抽出を行うことで、多次元特徴ベクトルを得て、前記多次元特徴ベクトルの各次元上の要素値は、前記顔画像における目が前記次元に対応する状態にある確率を表すために用いられること、及び確率が予め設定された値よりも大きい次元に対応する状態を、前記キャビン内の人員の目開閉情報として決定すること、という方法に基づいて決定され、
前記状態情報に情緒情報が含まれる場合には、
前記キャビン内の人員の情緒情報は、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別すること、並びに識別された前記各器官の動作、及び予め設定された顔動作及び情緒情報との間のマッピング関係に基づいて、前記キャビン内の人員の情緒情報を決定すること、というステップに基づいて決定されることを特徴とする
請求項1に記載の方法。
【請求項9】
前記設定された閾値は、
前記顔画像を収集する画像収集機器によって前記キャビン内で収集された複数のサンプル画像、及び各前記サンプル画像に対応する性別ラベルを取得し、
前記複数のサンプル画像を前記第2ニューラルネットワークに入力して、複数の候補閾値のそれぞれでの各前記サンプル画像に対応する予測性別を得て、そのうち、前記複数の候補閾値は、設定されたストライドに従って予め設定された値範囲内から選択されたものであって、
各前記候補閾値について、前記候補閾値での各前記サンプル画像に対応する予測性別及び性別ラベルに基づいて、前記候補閾値での予測精度を決定し、
最大の予測精度に対応する候補閾値を前記設定された閾値として決定する
という方法に基づいて決定されることを特徴とする
請求項8に記載の方法。
【請求項10】
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、第3ニューラルネットワークによって実行され、前記第3ニューラルネットワークは、バックボーンネットワーク及び少なくとも2つの分類ブランチネットワークを含み、各前記分類ブランチネットワークは、顔の1つの器官の1つの動作を識別するために用いられ、
前記顔画像に基づいて、前記顔画像によって表される顔の少なくとも2つの器官のそれぞれの動作を識別することは、
前記バックボーンネットワークを用いて前記顔画像に対して特徴抽出を行うことで、前記顔画像の特徴マップを得ることと、
各前記分類ブランチネットワークをそれぞれ用いて前記顔画像の特徴マップに対して動作識別を行うことで、各前記分類ブランチネットワークで識別できる動作の発生確率を得ることと、
発生確率が予め設定された確率よりも大きい動作を前記顔画像によって表される顔の器官の動作として決定することと、を含むことを特徴とする
請求項に記載の方法。
【請求項11】
キャビン内の環境の調整装置であって、
キャビン内の人員の顔画像を取得するように構成される取得モジュールと、
前記顔画像に基づいて、前記キャビン内の人員の属性情報及び状態情報を決定するように構成される決定モジュールと、
前記キャビン内の人員の属性情報及び状態情報に基づいて、キャビン内の環境を調整するように構成される調整モジュールと、を備える、
キャビン内の環境の調整装置。
【請求項12】
電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記メモリには前記プロセッサで実行可能な機械可読命令が記憶され、前記電子機器が実行する場合、前記プロセッサと前記メモリは、バスを介して通信し、前記機械可読命令が前記プロセッサに実行される時に請求項1-10のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行する、
電子機器。
【請求項13】
コンピュータプログラムを記憶し、当該コンピュータプログラムがプロセッサに実行される時に請求項1-10のいずれか一項に記載のキャビン内の環境の調整方法のステップを実行するコンピュータ可読記憶媒体。
【請求項14】
コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器内のプロセッサは、請求項1-10のいずれか一項に記載のキャビン内の環境の調整方法を実現するためのステップを実行するコンピュータプログラム。
【手続補正8】
【補正対象書類名】図面
【補正対象項目名】図8
【補正方法】変更
【補正の内容】
図8
【国際調査報告】