IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京市商▲湯▼科技▲開▼▲發▼有限公司の特許一覧

特許7130856動作認識方法及び装置、電子機器、並びに記憶媒体
<>
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図1
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図2
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図3a
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図3b
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図4
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図5
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図6a
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図6b
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図6c
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図7
  • 特許-動作認識方法及び装置、電子機器、並びに記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-26
(45)【発行日】2022-09-05
(54)【発明の名称】動作認識方法及び装置、電子機器、並びに記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220829BHJP
   G06T 7/60 20170101ALI20220829BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
G06T7/60 300
【請求項の数】 14
(21)【出願番号】P 2021515133
(86)(22)【出願日】2020-03-27
(65)【公表番号】
(43)【公表日】2022-01-06
(86)【国際出願番号】 CN2020081689
(87)【国際公開番号】W WO2020200095
(87)【国際公開日】2020-10-08
【審査請求日】2021-03-18
(31)【優先権主張番号】201910252534.6
(32)【優先日】2019-03-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520291939
【氏名又は名称】北京市商▲湯▼科技▲開▼▲發▼有限公司
【氏名又は名称原語表記】BEIJING SENSETIME TECHNOLOGY DEVELOPMENT CO.,LTD.
【住所又は居所原語表記】Room 1101-1117,11th Floor No.58 Northwest 4th Ring Road, Haidian District Beijing 100080 China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】▲陳▼ 彦杰
(72)【発明者】
【氏名】王 ▲飛▼
(72)【発明者】
【氏名】▲錢▼ 晨
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2013-225205(JP,A)
【文献】特開2010-036762(JP,A)
【文献】特開2009-015519(JP,A)
【文献】中国特許出願公開第104637246(CN,A)
【文献】中国特許出願公開第108960065(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/60
(57)【特許請求の範囲】
【請求項1】
動作認識方法であって、
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第1領域内の画像を特定するステップと、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得するステップと、
前記少なくとも2つの第2キーポイントに基づいて、前記口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得するステップと、を更に含み、
前記第2領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、前記第2領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする動作認識方法。
【請求項2】
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定する前に、前記動作認識方法は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得するステップと、
前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像に対して選別を行うステップと、を更に含み、
前記第1領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体を含む第1領域内の画像を特定することであり、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップは、
前記第1領域内の画像が選別を通ったことに応答して、前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定することを含む
ことを特徴とする請求項1に記載の動作認識方法。
【請求項3】
前記少なくとも2つの第1キーポイントに基づいて前記第1領域内の画像に対して選別を行うステップは、
前記少なくとも2つの第1キーポイントに基づいて、前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することと、
前記キーポイント座標に基づいて、前記第1領域内の画像に対して選別を行うことと、を含む
ことを特徴とする請求項2に記載の動作認識方法。
【請求項4】
前記少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、前記第1領域内の画像に対して選別を行うことは、
前記キーポイント座標に基づいて、前記第1領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
前記口部とインタラクションを行う物体の長さが所定値以上であることに応答して、前記第1領域内の画像が選別を通ったと特定することと、を含み、
前記動作認識方法は、
前記口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、前記第1領域内の画像が選別を通らなかったと特定するステップと、
前記第1領域内の画像にタバコが含まれていないと特定するステップと、を更に含む
ことを特徴とする請求項3に記載の動作認識方法。
【請求項5】
前記少なくとも2つの第1キーポイントに基づいて、前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定する前に、
各前記第1キーポイントを区分するための番号を前記少なくとも2つの第1キーポイントのうちの各前記第1キーポイントへ割り当てるステップを更に含む
ことを特徴とする請求項3又は4に記載の動作認識方法。
【請求項6】
前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することは、
第1ニューラルネットワークを利用して前記第1領域内の画像における前記少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することを含み、
前記第1ニューラルネットワークは、第1サンプル画像でトレーニングされたものである
ことを特徴とする請求項3から5の何れか一項に記載の動作認識方法。
【請求項7】
前記第1サンプル画像は、マーキングキーポイント座標を含み、
前記第1ニューラルネットワークをトレーニングする過程は、
前記第1サンプル画像を前記第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
前記予測キーポイント座標と前記マーキングキーポイント座標とに基づいて第1ネットワーク損失を特定し、前記第1ネットワーク損失に基づいて前記第1ニューラルネットワークのパラメータを調整することと、を含む
ことを特徴とする請求項6に記載の動作認識方法。
【請求項8】
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得するステップは、
前記第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、前記口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、前記口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得することを含む
ことを特徴とする請求項2から7の何れか一項に記載の動作認識方法。
【請求項9】
前記人顔画像に基づいて人顔の口部キーポイントを取得するステップは、
前記人顔画像に対して人顔キーポイント抽出を行って、前記人顔画像における人顔キーポイントを取得することと、
前記人顔キーポイントに基づいて前記口部キーポイントを取得することと、を含む
ことを特徴とする請求項1からの何れか一項に記載の動作認識方法。
【請求項10】
前記口部キーポイントに基づいて前記第1領域内の画像を特定するステップは、
前記口部キーポイントに基づいて前記人顔における口部の中心位置を特定することと、
前記口部の中心位置を前記第1領域の中心点とし、所定長さを辺の長さ又は半径として、前記第1領域を特定することと、を含む
ことを特徴とする請求項に記載の動作認識方法。
【請求項11】
前記口部キーポイントに基づいて前記第1領域内の画像を特定する前に、前記動作認識方法は、
前記人顔キーポイントに基づいて眉部キーポイントを取得するステップを更に含み、
前記口部の中心位置を前記第1領域の中心点とし、所定長さを辺の長さ又は半径として、前記第1領域を特定することは、
前記口部の中心位置を中心点とし、前記口部の中心位置から前記眉部キーポイントに基づいて特定された眉間までの垂直距離を辺の長さ又は半径として、前記第1領域を特定することを含む
ことを特徴とする請求項10に記載の動作認識方法。
【請求項12】
動作認識装置であって、
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第1領域内の画像を特定するための第1領域特定手段と、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段と、を備え、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含み、
前記動作認識装置は、
前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なく
とも2つの第2キーポイントを取得するための第2キーポイント手段と、
前記少なくとも2つの第2キーポイントに基づいて、前記口部とインタラクションを行
う物体に対して位置合わせ操作を実行することにより、前記口部とインタラクションを行
う物体を所定方向へ向かわせ、前記所定方向へ向かう物体であって口部とインタラクショ
ンを行う物体を含む第2領域内の画像を取得するための画像位置合わせ手段と、を更に備
え、
前記第2領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを
行う物体の画像と、を少なくとも含み、
前記喫煙認識手段は、前記第2領域内の画像に基づいて前記人顔画像における人が喫煙
しているか否かを特定する
ことを特徴とする動作認識装置。
【請求項13】
電子機器であって、
実行可能指令を記憶するためのメモリと、
前記メモリと通信して前記実行可能指令を実行することで請求項1から11の何れか一項に記載の動作認識方法の操作を実施するためのプロセッサと、を備える
ことを特徴とする電子機器。
【請求項14】
コンピュータ読み取り可能な指令を記憶するためのコンピュータ可読記憶媒体であって、
前記指令が実行されたときに、請求項1から11の何れか一項に記載の動作認識方法の操作が実施される
ことを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョン技術に関し、特に動作認識方法及び装置、電子機器、並びに記憶媒体に関する。
【0002】
<関連出願の相互引用>
本発明は、2019年03月29日に中国専利局へ提出された、出願番号がCN201910252534.6であり、発明名称が「動作認識方法及び装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
【背景技術】
【0003】
コンピュータビジョン分野では、動作認識問題は、従来から注目され続けてきている問題である。動作認識は、一般的に、ビデオの時系列特徴、人体キーポイントによって判断され得る幾つかの動作に研究の重点が置かれている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例は、動作認識技術を提供する。
【課題を解決するための手段】
【0005】
本発明の実施例の一態様は、動作認識方法を提供する。当該動作認識方法は、
人顔画像に基づいて人顔の口部キーポイントを取得するステップと、
前記口部キーポイントに基づいて第1領域内の画像を特定するステップと、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するステップと、を含み、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
【0006】
本発明の実施例の別の態様は、動作認識装置を提供する。当該動作認識装置は、
人顔画像に基づいて人顔の口部キーポイントを取得するための口部キーポイント手段と、
前記口部キーポイントに基づいて第1領域内の画像を特定するための第1領域特定手段と、
前記第1領域内の画像に基づいて、前記人顔画像における人が喫煙しているか否かを特定するための喫煙認識手段とを備え、
前記第1領域内の画像は、前記口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
【0007】
本発明の実施例のさらに別の態様は、電子機器を提供する。当該電子機器は、プロセッサを備え、前記プロセッサは、上記何れか一項の実施例に記載の動作認識装置を含む。
【0008】
本発明の実施例のもう1つの態様は、電子機器を提供する。当該電子機器は、実行可能指令を記憶するためのメモリと、前記メモリと通信して前記実行可能指令を実行することで上記何れか一項の実施例に記載の動作認識方法の操作を実施するためのプロセッサとを備える。
【0009】
本発明の実施例のもう1つの態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体は、コンピュータ読み取り可能な指令を記憶し、前記指令が実行されたときに、上記何れか一項の実施例に記載の動作認識方法の操作は、実施される。
【0010】
本発明の実施例のもう1つの態様は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含み、前記コンピュータ可読コードが機器上で運行されたときに、前記機器におけるプロセッサは、上記何れか一項の実施例に記載の動作認識方法を実施するための指令を実行する。
【発明の効果】
【0011】
本発明の上記実施例に係る動作認識方法及び装置、電子機器、並びに記憶媒体によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第1領域内の画像を特定し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。このようにして、口部キーポイントで特定された第1領域内の画像を認識することにより、人顔画像における人が喫煙しているか否かを判断するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。
【0012】
以下では、図面及び実施例により、本発明の技術案について更に詳細に記述する。
【図面の簡単な説明】
【0013】
明細書の一部を構成する図面は、本発明の実施例を記述し、且つ記述とともに本発明の原理を解釈するために用いられる。
図面を参照し、以下の詳細な記述に基づいて、本発明をより明瞭に理解できるのだろう。
図1】本発明の実施例に係る動作認識方法の模式的なフローチャートである。
図2】本発明の実施例に係る動作認識方法の別の模式的なフローチャートである。
図3a】本発明の実施例に係る動作認識方法の一例示における認識によって取得された第1キーポイントの模式図である。
図3b】本発明の実施例に係る動作認識方法の別の例示における認識によって取得された第1キーポイントの模式図である。
図4】本発明の実施例に係る動作認識方法のさらに別の模式的なフローチャートである。
図5】本発明の実施例に係る動作認識方法のもう1つの好適的な例示における口部とインタラクションを行う物体に対して位置合わせ操作を実行する模式図である。
図6a】本発明の実施例に係る動作認識方法の一例示における採集されたオリジナル画像である。
図6b】本発明の実施例に係る動作認識方法の一例示における人顔枠が検出された模式図である。
図6c】本発明の実施例に係る動作認識方法の一例示におけるキーポイントに基づいて特定された第1領域の模式図である。
図7】本発明の実施例に係る動作認識装置の構造模式図である。
図8】本発明の実施例の端末機器又はサーバの実現に適する電子機器の構造模式図である。
【発明を実施するための形態】
【0014】
現在、図面を参照して本発明の各種の例示的な実施例を詳細に記述する。注意すべきことは、別途詳細に説明しない限り、これらの実施例に記述された部品とステップの相対的な配置、数値条件式及び数値が本発明の範囲を制限しない。
【0015】
同時に、理解できるように、記述の便宜上、図面に示される各部分の寸法が実際の縮尺に応じて描かれるとは限らない。
【0016】
以下では、少なくとも1つの例示的な実施例の記述が実に説明的なものに過ぎず、決して本発明及びその応用や使用に対する如何なる制限にもならない。
【0017】
当業者にとって既知の技術、方法及び機器について詳細に議論しないが、適切な場合には、前記技術、方法及び機器が明細書の一部と見なされるべきである。
【0018】
注意すべきことは、類似する符号及びアルファベットが後の図面において類似する要素を示すため、ある要素が、1つの図面で定義されると、後の図面において更なる議論される必要がない。
【0019】
本発明の実施例は、コンピュータシステム/サーバに適用可能であり、他の大量の汎用又は専用の計算システム環境又は配置とともに操作され得る。コンピュータシステム/サーバとともに使用される周知の計算システム、環境及び/又は配置に適用される例は、パソコンシステム、サーバコンピュータシステム、薄クライアント、厚クライアント、ハンドヘルド若しくはラップトップデバイス、マイクロプロセッサによるシステム、セットトップボックス、プログラム可能消費電子製品、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記何れかのシステムを含む分散型クラウド計算技術環境等を含むが、それらに限定されない。
【0020】
コンピュータシステム/サーバは、コンピュータシステムで実行されるコンピュータシステム実行可能指令(例えば、プログラムモジュール)の一般的な文脈において記述されてもよい。通常、プログラムモジュールは、ルーチン、プログラム、ターゲットプログラム、ユニット、ロジック、データ構造等を含んでもよく、それらは、特定のタスクを実行し、又は特定の抽象データ型を実現する。コンピュータシステム/サーバは、分散型クラウド計算環境において実施されてもよい。分散型クラウド計算環境において、タスクは、通信ネットワークを介して接続された遠隔処理機器が実行するものである。分散型クラウド計算環境において、プログラムモジュールは、記憶機器を含むローカル又は遠隔計算システム記憶媒体に位置してもよい。
【0021】
図1は、本発明の実施例に係る動作認識方法の模式的なフローチャートである。本実施例は、電子機器に適用可能であり、図1に示すように、当該実施例方法は、ステップ110~ステップ130を含む。
【0022】
ステップ110において、人顔画像に基づいて人顔の口部キーポイントを取得する。
【0023】
本発明の実施例における口部キーポイントにより、人顔における口部に対してマークを付けることができる。当該口部キーポイントは、従来技術における任意の実現可能な人顔キーポイント認識方法によって取得され得る。例えば、ディープニューラルネットワークを利用して人顔における人顔キーポイントを認識し、人顔キーポイントから分離して口部キーポイントを取得してもよく、又は、直接ディープニューラルネットワーク認識によって口部キーポイントを取得してもよい。本発明の実施例において、口部キーポイントを具体的に取得する方式について限定しない。
【0024】
1つの好適的な例示において、当該ステップ110は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された口部キーポイント手段71が実行したものであってもよい。
【0025】
ステップ120において、口部キーポイントに基づいて第1領域内の画像を特定する。
【0026】
ただし、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。本発明の実施例に係る動作認識は、主に、画像における人が喫煙しているか否かを認識するために用いられる。喫煙の動作が口部とタバコとの接触によって実現されたため、第1領域内には、一部又は全部の口部キーポイントが含まれるだけでなく、口部とインタラクションを行う物体が含まれてもよい。当該口部とインタラクションを行う物体がタバコであるときに、画像における人が喫煙していると特定可能である。好ましくは、本発明の実施例における第1領域は、口部中心位置を中心点として特定された矩形又は円形等の任意形状の領域であってもよい。本発明の実施例において、第1領域画像の形状及び大きさについて限定せず、当該第1領域における出現する可能性のある口部に接触するタバコ、棒付きキャンデー等の仲介物を基準とする。
【0027】
1つの好適的な例示において、当該ステップ120は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された第1領域特定手段72が実行したものであってもよい。
【0028】
ステップ130において、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0029】
好ましくは、本発明の実施例において、口部付近の領域に含まれる、口部とインタラクションを行う物体がタバコであるか否かを認識することにより、画像における人が喫煙しているか否かを特定し、関注点を口部付近に集中させるため、他の関連しない画像が認識結果へ干渉を与える確率が低減され、喫煙動作認識に対する正確性が向上する。
【0030】
1つの好適的な例示において、当該ステップ130は、プロセッサがメモリに記憶された対応する指令を呼び出して実行したものであってもよく、プロセッサによって運行された喫煙認識手段73が実行したものであってもよい。
【0031】
本発明の上記実施例に係る動作認識方法によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第1領域内の画像を特定し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。口部キーポイントで特定された第1領域内の画像を認識することで、人顔画像における人が喫煙しているか否かを判断するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。
【0032】
図2は、本発明の実施例に係る動作認識方法の別の模式的なフローチャートである。図2に示すように、当該実施例方法は、ステップ210~ステップ240を含む。
【0033】
ステップ210において、人顔画像に基づいて人顔の口部キーポイントを取得する。
【0034】
ステップ220において、口部キーポイントに基づいて第1領域内の画像を特定する。
【0035】
ステップ230において、第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得する。
【0036】
好ましくは、ニューラルネットワークによって第1領域内の画像に対してキーポイント抽出を行うことにより、口部とインタラクションを行う物体の少なくとも2つの第1キーポイントを取得してもよい。これらの第1キーポイントは、第1領域において1本の直線(例えば、タバコの中軸線をタバコキーポイントとする)又は2本の直線(例えば、タバコの2つの側辺をタバコキーポイントとする)等として表されてもよい。
【0037】
ステップ240において、少なくとも2つの第1キーポイントに基づいて第1領域内の画像に対して選別を行う。
【0038】
ただし、選別の目的は、所定値以上の長さの物体であって口部とインタラクションを行う物体を含む第1領域内の画像を特定することにある。
【0039】
好ましくは、取得された口部とインタラクションを行う物体における少なくとも2つの第1キーポイントによって、第1領域内の口部とインタラクションを行う物体の長さを特定してもよく、口部とインタラクションを行う物体の長さが小さい(例えば、口部とインタラクションを行う物体の長さが所定値よりも小さい)ときに、第1領域に含まれる口部とインタラクションを行う物体が必ずしもタバコであるとは限らない。その際、第1領域内の画像にタバコが含まれていないと考えられてもよい。口部とインタラクションを行う物体の長さが大きい(例えば、口部とインタラクションを行う物体の長さが所定値以上である)ときこそ、第1領域内の画像にタバコが含まれる可能性があると考えられる。
【0040】
ステップ250において、第1領域内の画像が選別を通ったことに応答して、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0041】
本発明の実施例において、上記選別によって、一部の第1領域内の画像を特定する。この部分の第1領域内の画像には、設定値に達した長さの口部とインタラクションを行う物体が含まれている。口部とインタラクションを行う物体の長さが設定値に達したときこそ、当該口部とインタラクションを行う物体がタバコである可能性があると考えられる。本ステップにおいて、選別された第1領域内の画像によって人顔画像における人が喫煙しているか否かを特定する。即ち、設定値よりも大きな長さの口部とインタラクションを行う物体について判断し、当該口部とインタラクションを行う物体がタバコであるか否かを判断することで、人顔画像における人顔が喫煙しているか否かを特定する。
【0042】
好ましくは、ステップ240は、
少なくとも2つの第1キーポイントに基づいて、第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することと、
少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて第1領域内の画像に対して選別を行うことと、を含む。
【0043】
口部とインタラクションを行う物体の少なくとも2つの第1キーポイントが取得された後、人顔画像における人が喫煙しているか否かを完全に特定できるとは限らない。単に口部に他の類似する物体(例えば、棒付きキャンデー又は他の長尺形物体等)が噛まれる可能性がある。その一方、タバコが通常、一定の長さを有するため、第1領域にタバコが含まれているか否かを特定するために、本発明の実施例において、第1キーポイントのキーポイント座標を特定し、第1キーポイントの第1領域におけるキーポイント座標に基づいて、口部とインタラクションを行う物体の第1領域画像における長さを特定可能であり、更に人顔画像における人が喫煙しているか否かを特定する。
【0044】
好ましくは、少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像に対して選別を行うことは、
少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像における、口部とインタラクションを行う物体の長さを特定することと、
口部とインタラクションを行う物体の長さが所定値以上であることに応答して、第1領域内の画像が選別を通ったと特定することと、を含む。
【0045】
好ましくは、少なくとも2つの第1キーポイントのキーポイント座標が取得された後、口部とインタラクションを行う物体の長さを特定するために、少なくとも2つの第1キーポイントは、物体の口部に近接する端の一方のキーポイントと、口部から離間する他方のキーポイントとを少なくとも含む。例えば、口部とインタラクションを行う物体の口に近接するキーポイントは、それぞれp1、p2と定義され、口から離間するキーポイントは、それぞれp3、p4と定義される。p1とp2の間の中点は、p5とされ、p3とp4の間の中点は、p6とされる。その際、p5とp6との座標を利用してタバコの長さを特定してもよい。
【0046】
好ましくは、口部とインタラクションを行う物体の長さが所定値よりも小さいことに応答して、第1領域内の画像が選別を通らなかったと特定し、第1領域内の画像にタバコが含まれていないと特定する。
【0047】
喫煙動作検出の難関の1つが、タバコが画像において僅かな一部のみを露出する(即ち、タバコが基本的に1つの横断面しか露出しない時)ことと、運行者が喫煙していない状態とを如何に区分するかということにあるため、ニューラルネットワークによって抽出された特徴が画面における口部の非常に微小な細部をとらえる必要となる。1つの横断面しか露出しない喫煙ピクチャまでもネットワークによって鋭敏に検出されることを要求されれば、アルゴリズムの誤検出率が高くなるに違いない。したがって、本発明の実施例において、口部とインタラクションを行う物体の第1キーポイントを依拠として、口部とインタラクションを行う物体の露出部分が非常に少ないピクチャ又は運行者の口に何もないピクチャを分類ネットワークへ直接届ける前にフィルタリングによって除去する。トレーニングされたネットワークをテストして発見できるように、キーポイント検出アルゴリズムでは、ディップネットワークは、勾配バックプロパゲーションアルゴリズムを利用してネットワークパラメータを更新した後、画像における、口部とインタラクションを行う物体のエッジ情報が重点的に注目され、大半の人が喫煙動作をしておらず且つ口部の周囲に短冊状の物体によるストライプ干渉がないときに、キーポイントの予測は口部中心のある平均位置に分布する傾向がある(このとき、タバコが存在しなくても)。上記特性によると、口部とインタラクションを行う物体が僅かな一部を露出する画像又は運行者の口に何もない画像を第1キーポイントによってフィルタリングすることは(即ち、口部とインタラクションを行う物体が僅かな一部を露出し、横断面しか露出しない状況に近接する場合に、画像上の喫煙判断依拠が足りないとして、第1領域にタバコが含まれていないと考えられる)実現される。
【0048】
好ましくは、ステップ240は、
各第1キーポイントを区分するための番号を少なくとも2つの第1キーポイントのうちの各第1キーポイントへ割り当てることを更に含む。
【0049】
少なくとも2つの第1キーポイントのうちの各第1キーポイントへ異なる番号を割り当てることにより、各第1キーポイントを区分可能であり、異なる第1キーポイントによって異なる目的を果たす。例えば、口部キーポイントに最も近い第1キーポイントと、口部から最も遠い第1キーポイントとによって、現在タバコの長さは、特定可能である。本発明の実施例において、任意の重複しない順番で第1キーポイントへ番号を割り当て、異なる第1キーポイントのそれぞれを区別できればよい。本発明の実施例において、番号を割り当てる具体的な方式について限定しない。例えば、たすきがけ法則の順番で少なくとも2つの第1キーポイントのうちの各第1キーポイントへ異なる番号を割り当てる。
【0050】
1つ又は複数の好適な実施例において、少なくとも2つの第1キーポイントに基づいて、第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することは、
第1ニューラルネットワークを利用して第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定することを含む。
【0051】
ただし、第1ニューラルネットワークは、第1サンプル画像でトレーニングされたものである。
【0052】
好ましくは、第1サンプル画像は、マーキングキーポイント座標を含み、
第1ニューラルネットワークをトレーニングする過程は、
第1サンプル画像を第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第1ネットワーク損失を特定し、第1ネットワーク損失に基づいて第1ニューラルネットワークのパラメータを調整することと、を含む。
【0053】
好ましくは、第1キーポイント位置決めタスクは、人顔キーポイント位置決めタスクと類似し、1つの回帰タスクとして見なされてもよい。このようにして、第1キーポイントの2次元座標(x,y)のマッピング関数は得られる。アルゴリズムの記述は、下記のようになる。
第1ニューラルネットワークの第1層の入力(即ち、入力画像)がxと記され、中間層の出力がxと記され、各層のネットワークが1つの非線形関数マッピングF(x)に相当し、第1ニューラルネットワークが合計でN層を有すると仮定すれば、第1ニューラルネットワークの非線形マッピングが行われた後、ネットワークの出力は、式(1)として一般化されて示され得る。
【数1】
式(1)
ただし、
は、第1ニューラルネットワークから出力された1次元ベクトルであり、当該1次元ベクトルにおける各値は、キーポイントネットワークから最終的に出力されたキーポイント座標を示す。
【0054】
1つ又は複数の好適な実施例において、ステップ230は、
第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得することを含む。
【0055】
本発明の実施例において、第1キーポイントを定義するときに、画像における口部とインタラクションを行う物体の中軸線における中軸キーポイントを第1キーポイントとし、及び/又は、画像における口部とインタラクションを行う物体の2辺における辺キーポイントを第1キーポイントとしてもよい。好ましくは、後続のキーポイント位置合わせが進められるように、2辺のキーポイントを選択して定義する。図3aは、本発明の実施例に係る動作認識方法の一例示における認識によって取得された第1キーポイントの模式図である。図3bは、本発明の実施例に係る動作認識方法の別の例示における認識によって取得された第1キーポイントの模式図である。図3aと3bに示すように、2辺キーポイントを選択して第1キーポイントを定義する。異なる第1キーポイントを認識して異なる第1キーポイントに対応するキーポイント座標を取得するために、各第1キーポイントへ異なる番号を割り当ててもよい。
【0056】
図4は、本発明の実施例に係る動作認識方法のさらに別の模式的なフローチャートである。図4に示すように、当該実施例方法は、以下のステップを含む。
【0057】
ステップ410において、人顔画像に基づいて人顔の口部キーポイントを取得する。
【0058】
ステップ420において、口部キーポイントに基づいて第1領域内の画像を特定する。
【0059】
ステップ430において、前記第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得する。
【0060】
好ましくは、本発明の実施例において、取得された第2キーポイントと上記実施例における第1キーポイントとは、何れも口部とインタラクションを行う物体におけるキーポイントであり、第2キーポイントは、第1キーポイントと同じであってもよく、異なってもよい。
【0061】
ステップ440において、少なくとも2つの第2キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得する。
【0062】
ただし、第2領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
【0063】
本発明の実施例において、取得された第2キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を行うことにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域を取得し、第2領域と上記実施例における第1領域とは、重なる部分が存在してもよい。例えば、第2領域は、少なくとも第1領域内の画像における一部の口部キーポイント、及び、口部とインタラクションを行う物体の画像を含む。本発明の実施例に係る動作認識方法は、複数種の実現方式を含み得る。例えば、第1領域内の画像に対して選別操作のみを行う場合に、単に口部とインタラクションを行う物体の第1キーポイントを特定し、少なくとも2つの第1キーポイントに基づいて、第1領域内の画像に対して選別を行う必要がある。口部とインタラクションを行う物体に対して位置合わせ操作のみを行う場合に、単に口部とインタラクションを行う物体の第2キーポイントを特定し、少なくとも2つの第2キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行する必要がある。選別操作も実行し、位置合わせ操作も実行する場合には、口部とインタラクションを行う物体の第1キーポイントと第2キーポイントとを特定する必要がある。ただし、第1キーポイントと第2キーポイントは、同じであってもよく異なってもよい。第2キーポイント及びその座標の特定方式は、第1キーポイント及びその座標の特定方式を参照可能であり、且つ、本発明の実施例において、選別操作及び位置合わせ操作の操作順番について限定しない。
【0064】
好ましくは、ステップ440において、少なくとも2つの第2キーポイントに基づいて対応するキーポイント座標を取得し、取得された第2キーポイントのキーポイント座標に基づいて位置合わせ操作を実施可能である。第2キーポイントに基づいてキーポイント座標を取得する過程は、第1キーポイントに基づいてキーポイント座標を取得するものと類似し、ニューラルネットワークによって取得可能である。本発明の実施例において、第2キーポイントに基づいて少なくとも位置合わせ操作を行う具体的な方式について限定しない。
【0065】
好ましくは、ステップ440は、各第2キーポイントを区分するための番号を少なくとも2つの第2キーポイントのうちの各第2キーポイントへ割り当てることを更に含んでもよい。番号を割り当てるルールは、第1キーポイントに対して番号を割り当てる方式を参照可能であるため、ここで繰り返し説明しない。
【0066】
ステップ450において、第2領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0067】
畳み込みニューラルネットワークの回転不変性が悪いため、物体の異なる回転度合いでの、ニューラルネットワークの特徴抽出は、ある程度の差異を有する。その一方、人が喫煙しているときに、タバコの向きが各方向であるため。直接元の切り出されたピクチャ上において直接特徴抽出を行うと、喫煙しているか否かの結果検出性能は、ある程度低下する恐れがある。換言すれば、ニューラルネットワークは、ある程度の減結合ができるように、タバコの異なる角度での生体特徴抽出に適応する必要がある。本発明の実施例において、第2キーポイントに基づいて位置合わせ操作を行うことにより、入力された各人顔画像における口部とインタラクションを行う物体を何れも同一の方向へ向かわせ、誤検出の確率を低減できる。
【0068】
好ましくは、位置合わせ操作は、
少なくとも2つの第2キーポイントに基づいてキーポイント座標を取得し、少なくとも2つの第2キーポイントに対応するキーポイント座標に基づいて、口部とインタラクションを行う物体を取得することと、
アフィン変換を利用して所定方向に基づいて口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得することと、を含んでもよい。
ただし、アフィン変換は、回転、拡大縮小、平行移動、反転、切り取り等のうちの少なくとも1つを含んでもよいが、それらに限定されない。
【0069】
本発明の実施例において、アフィン変換によって、口部とインタラクションを行う物体の画像上の画素を、キーポイント位置合わせを経た1つの新たなピクチャにマッピングする。このようにして、既存の第2キーポイントを予め設定されたキーポイントと位置合わせする。これにより、画像における口部とインタラクションを行う物体の信号と、口部とインタラクションを行う物体の角度情報とを減結合可能であり、後続のニューラルネットワークの特徴抽出性能を向上させる。図5は、本発明の実施例に係る動作認識方法のもう1つの好適な例示における口部とインタラクションを行う物体に対して位置合わせ操作を行う模式図である。図5に示すように、第2キーポイント及び目標位置を利用してアフィン変換を行うことにより、第1領域画像における口部とインタラクションを行う物体の方向を変換する。本例示において、口部とインタラクションを行う物体(タバコ)の方向を下方向に変換する。
【0070】
キーポイント位置合わせは、アフィン変換(Affine Transformation)によって実現される。アフィン変換の機能は、2次元座標から2次元座標への線形変換であり、且つ2次元図形の「真直性」及び「平行性」を維持する。アフィン変換は、一連の原子変換の複合によって実現されてもよい。ただし、原子変換は、平行移動、拡大縮小、反転、回転及び切り取り等を含んでもよいが、それらに限定されない。
【0071】
アフィン変換のその座標系は、式(2)に示される。
【数2】
式(2)
ただし、
は、アフィン変換して得られた座標を示し、
は、抽出して取得されたタバコキーポイントのキーポイント座標を示し、
は、回転行列を示し、x及びyは、平行移動ベクトルを示す。
【0072】
上記式は、回転、平行移動、拡大縮小、回転の幾つかの操作をカバーしている。モデルから与えられたキーポイントが(x,y)の集合であり、設置された目標点位置が(x’,y’)(ここでの目標点位置は、人為的に設定されてもよい)であると仮定すれば、アフィン変換行列によってソース画像を目標画像へアフィン変換し、切り取った後、正面に回転した後のピクチャは得られる。
【0073】
好ましくは、ステップ130は、
第2ニューラルネットワークを利用し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定することを含む。
【0074】
ただし、第2ニューラルネットワークは、第2サンプル画像でトレーニングされたものである。第2サンプル画像は、喫煙のサンプル画像及び非喫煙のサンプル画像を含む。このようにして、ニューラルネットワークをトレーニングしてタバコを他の細長い物体と区分可能であるため、一体、喫煙しているか、それとも口に他のものを付けているかを認識できる。
【0075】
本発明の実施例において、取得されたキーポイント座標を第2ニューラルネットワーク(例えば、分類畳み込みニューラルネットワーク)に入力して分類させる。好ましくは、操作過程も、畳み込みニューラルネットワークによって特徴抽出を行って、二分類の結果を最後で出力する。即ち、当該画像が喫煙又は非喫煙の画像に属する確率をフィッティングする。
【0076】
好ましくは、第2サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされている。
第2ニューラルネットワークをトレーニングする過程は、
第2サンプル画像を第2ニューラルネットワークに入力して、第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第2ネットワーク損失を取得し、第2ネットワーク損失に基づいて第2ニューラルネットワークのパラメータを調整することとを含む。
【0077】
好ましくは、第2ニューラルネットワークに対するトレーニングの中、ネットワークモニタリングは、softmax損失関数を採用可能であり、式は、下記のようになる。
は、第2ニューラルネットワークから出力された第i個の第2サンプル画像の予測結果が実際の正しい種別(マーク結果)である確率であり、Nは、総サンプル数である。
損失関数は、以下の式(3)を採用可能である。
【数3】
式(3)
ネットワーク構造及び損失関数が定義された後、トレーニングとしては、ただ勾配バックプロパゲーションの算出方式によってネットワークパラメータを更新すればよい。トレーニングされた第2ニューラルネットワークのネットワークパラメータは得られる。
【0078】
第2ニューラルネットワークがトレーニングされた後、損失関数を除去してネットワークパラメータを一定のままにし、前処理された画像を同様に畳み込みニューラルネットワークに入力して特徴を抽出して分類させる。このようにして、分類モジュールから与えられた分類結果は、取得可能である。これにより、画面における人が喫煙しているか否かを判断する。
【0079】
1つ又は複数の好適な実施例において、ステップ110は、
人顔画像に対して人顔キーポイント抽出を行って、人顔画像における人顔キーポイントを取得することと、
人顔キーポイントに基づいて口部キーポイントを取得することと、を含む。
【0080】
好ましくは、ニューラルネットワークを介して人顔画像に対して人顔キーポイント抽出を行う。喫煙動作及び人との相互作用方式が主に口及び手で行われ、喫煙動作が基本的に口部の付近で行われるため、人顔検出及び人顔キーポイント位置決め技術によって有効情報領域(第1領域画像)を口部付近に絞り込むことができる。好ましくは、抽出された人顔キーポイントに対して番号を編集し、幾つかの番号のキーポイントを口部キーポイントとして設定し、又は人顔キーポイントの人顔画像における位置に応じて口部キーポイントを取得し、口部キーポイントに基づいて第1領域画像を特定してもよい。
【0081】
幾つかの好適な例示において、本発明の実施例の人顔画像は、人顔検出によって取得された。採集された画像に対して人顔検出を行って人顔画像を取得する。人顔検出は、全喫煙動作認識の底層基礎モジュールである。喫煙者が喫煙しているときに画面上に人顔が必ず出現するため、人顔検出によって人顔の位置を粗位置決めすることは可能である。本発明の実施例において、具体的な人顔検出アルゴリズムについて限定しない。
【0082】
人顔枠が人顔検出によって取得された後、人顔枠内の画像(上記実施例における人顔画像に対応する)を切り取って人顔キーポイント抽出を行う。好ましくは、人顔キーポイント位置決めタスクは、実際に1つの回帰タスクとして一般化され得る。つまり、人顔情報を含む画像を1枚与え、画像におけるキーポイントの2次元座標(x,y)のマッピング関数をフィッティングする。1枚の入力画像について、検出された人顔位置を切り出す。ネットワークのフィッティングは、1つの局所画像の範囲内でしか行われないため、フィッティングの速度が向上する。人顔キーポイントは、主に人の五感組織キーポイントを含む。本発明の実施例において、主に口部のキーポイント、例えば、口角点、唇輪郭キーポイント等が注目される。
【0083】
好ましくは、口部キーポイントに基づいて第1領域内の画像を特定することは、
口部キーポイントに基づいて人顔における口部の中心位置を特定することと、
口部の中心位置を第1領域の中心点とし、所定長さを辺の長さ又は半径として、第1領域を特定することと、を含む。
【0084】
本発明の実施例において、出現する可能性のあるタバコの領域を第1領域に含めるために、口部の中心位置を第1領域画像の中心点とし、所定長さを半径又は辺の長さとして、1つの矩形又は円形の第1領域を特定する。好ましくは、所定長さは、予め設定されてもよく、口部の中心位置と人顔におけるあるキーポイントとの距離に基づいて特定されてもよい。例えば、口部キーポイントと眉部キーポイントとの間の距離に基づいて所定長さを特定してもよい。
【0085】
好ましくは、人顔キーポイントに基づいて眉部キーポイントを取得する。
口部の中心位置を第1領域中心点とし、所定長さを辺の長さ又は半径として、第1領域を特定することは、
口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第1領域を特定する。
【0086】
ただし、眉間は、眉部キーポイントに基づいて特定されたものである。
【0087】
例えば、人顔キーポイントが位置決めされた後、口部中心と眉間との垂直距離dを算出し、その後、口部中心を中心とし、2dを辺の長さとする正四角形領域Rを取得し、R領域画像を本発明の実施例の第1領域とする。
【0088】
図6aは、本発明の実施例に係る動作認識方法の一例示における採集されたオリジナル画像である。図6bは、本発明の実施例に係る動作認識方法の一例示における人顔枠が検出された模式図である。図6cは、本発明の実施例に係る動作認識方法の一例示におけるキーポイントに基づいて特定された第1領域の模式図である。1つの好適的な例示において、図6a、6b及び6cにより、採集されたオリジナル画像に基づいて第1領域を取得する過程は、実現された。
【0089】
当業者であれば理解できるように、上記方法実施例を実施する全部又は一部のステップは、プログラム指令に関連するハードウェアにて実施されてもよい。上記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。当該プログラムが実行されたときに、上記方法実施例のステップが実行される。上記記憶媒体は、ROM、RAM、磁気ディスク又は光ディスク等の、プログラムコードを記憶可能な各種の媒体を含む。
【0090】
図7は、本発明の実施例に係る動作認識装置の構造模式図である。当該実施例の装置は、本発明の上記各方法実施例を実施してもよい。図7に示すように、当該実施例の装置は、下記の手段を備える。
口部キーポイント手段71は、人顔画像に基づいて人顔の口部キーポイントを取得する。
第1領域特定手段72は、口部キーポイントに基づいて第1領域内の画像を特定する。
ただし、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段73は、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0091】
本発明の上記実施例に係る動作認識装置によると、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第1領域内の画像を特定し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定し、第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。口部キーポイントで特定された第1領域によって喫煙しているか否かを認識するため、認識範囲が縮小され、口部及び口部とインタラクションを行う物体に注意点が集中され、検出率が高められつつ、誤検出率が低減され、喫煙認識の正確性が向上する。
【0092】
1つ又は複数の好適な実施例において、装置は、下記の手段を更に備える。
第1キーポイント手段は、第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第1キーポイントを取得する。
画像選別手段は、少なくとも2つの第1キーポイントに基づいて第1領域内の画像に対して選別を行い、第1領域内の口部とのインタラクションを行う物を特定するための長さを選別する。ただし、前記第1領域内の画像に対して選別を行うことは、所定値以上の長さの物体であって口部とインタラクションを行う物体の画像を含む第1領域内の画像を特定することである。
喫煙認識手段73は、第1領域内の画像が選別を通ったことに応答して、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0093】
好ましくは、画像選別手段は、少なくとも2つの第1キーポイントに基づいて、第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定し、少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像に対して選別を行う。
【0094】
好ましくは、画像選別手段は、少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像に対して選別を行うときに、少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像における口部とインタラクションを行う物体の長さを特定し、口部とインタラクションを行う物体の長さが所定値以上であることに応答して、第1領域内の画像が選別を通ったと特定する。
【0095】
好ましくは、画像選別手段は、少なくとも2つの第1キーポイントに対応するキーポイント座標に基づいて、第1領域内の画像に対して選別を行うときに、更に、口部とインタラクションを行う物体の長さが所定値より小さいことに応答して、第1領域内の画像が選別を通らなかったと特定し、第1領域内の画像にタバコが含まれていないと特定する。
【0096】
好ましくは、画像選別手段は、更に、各第1キーポイントを区分するための番号を少なくとも2つの第1キーポイントのうちの各第1キーポイントへ割り当てる。
【0097】
好ましくは、画像選別手段は、少なくとも2つの第1キーポイントに基づいて、第1領域内の画像における少なくとも2つの第1キーポイントに対応するキーポイント座標を特定するときに、第1ニューラルネットワークを利用して第1領域内の画像中の少なくとも2つの第1キーポイントに対応するキーポイント座標を特定する。第1ニューラルネットワークは、第1サンプル画像でトレーニングされたものである。
【0098】
好ましくは、第1サンプル画像は、マーキングキーポイント座標を含み、第1ニューラルネットワークをトレーニングする過程は、
第1サンプル画像を第1ニューラルネットワークに入力して、少なくとも2つの第1キーポイントに対応する予測キーポイント座標を取得することと、
予測キーポイント座標及びマーキングキーポイント座標に基づいて第1ネットワーク損失を特定し、第1ネットワーク損失に基づいて第1ニューラルネットワークのパラメータを調整することと、を含む。
好ましくは、第1キーポイント手段は、第1領域内の画像に対して、口部とインタラクションを行う物体のキーポイントを認識し、口部とインタラクションを行う物体の中軸線における少なくとも2つの中軸キーポイント、及び/又は、口部とインタラクションを行う物体の2辺のうちの各辺における少なくとも2つの辺キーポイントを取得する。
【0099】
1つ又は複数の好適な実施例において、本発明の実施例に係る装置は、下記の手段を更に備える。
第2キーポイント手段は、第1領域内の画像に基づいて、口部とインタラクションを行う物体における少なくとも2つの第2キーポイントを取得する。
画像位置合わせ手段は、少なくとも2つの第2キーポイントに基づいて、口部とインタラクションを行う物体に対して位置合わせ操作を実行することにより、口部とインタラクションを行う物体を所定方向へ向かわせ、所定方向へ向かう物体であって口部とインタラクションを行う物体を含む第2領域内の画像を取得し、第2領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
喫煙認識手段73は、第2領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。
【0100】
1つ又は複数の好適な実施例において、喫煙認識手段73は、第2ニューラルネットワークを利用し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。第2ニューラルネットワークは、第2サンプル画像でトレーニングされたものである。
【0101】
好ましくは、第2サンプル画像には、画像における人が喫煙しているか否かのマーク結果がマークされている。第2ニューラルネットワークをトレーニングする過程は、
第2サンプル画像を第2ニューラルネットワークに入力して、第2サンプル画像における人が喫煙しているか否かの予測結果を取得することと、
予測結果及びマーク結果に基づいて第2ネットワーク損失を取得し、第2ネットワーク損失に基づいて第2ニューラルネットワークのパラメータを調整することと、を含む。
【0102】
1つ又は複数の好適な実施例において、口部キーポイント手段71は、人顔画像に対して人顔キーポイント抽出を行って、人顔画像における人顔キーポイントを取得し、人顔キーポイントに基づいて口部キーポイントを取得する。
【0103】
好ましくは、第1領域特定手段72は、口部キーポイントに基づいて人顔における口部の中心位置を特定し、口部の中心位置を第1領域の中心点とし、所定長さを辺の長さ又は半径として、第1領域を特定する。
【0104】
好ましくは、本発明の実施例に係る装置は、以下の手段を更に備える。
眉部キーポイント手段は、人顔キーポイントに基づいて眉部キーポイントを取得する。
第1領域特定手段72は、口部の中心位置を中心点とし、口部の中心位置から眉間までの垂直距離を辺の長さ又は半径として、第1領域を特定する。眉間は、眉部キーポイントに基づいて特定されたものである。
【0105】
本発明の実施例に係る動作認識装置の何れかの実施例の動作過程、設置方式及び対応する技術効果は、何れも本発明の上記対応方法実施例の具体的な記述を参照してもよいが、紙面の都合上から、ここで繰り返し説明しない。
【0106】
本発明の実施例のさらに別の態様は、電子機器を提供する。当該電子機器は、プロセッサを備え、当該プロセッサは、上記何れか1つの実施例に供される動作認識装置を含む。
【0107】
本発明の実施例のもう1つの態様は、電子機器を提供する。当該電子機器は、実行可能指令を記憶するためのメモリと、メモリと通信して実行可能指令を実行することで上記何れか1つの実施例に供される動作認識方法の操作を実行するためのプロセッサと、を備える。
【0108】
本発明の実施例のもう1つの態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体は、コンピュータ読み取り可能な指令を記憶する。指令が実行されたときに、上記何れか1つの実施例に供される動作認識方法の操作は、実施される。
【0109】
本発明の実施例のもう1つの態様は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータ可読コードを含む。コンピュータ可読コードが機器上で運行されたときに、機器におけるプロセッサは、上記何れか1つの実施例に供される動作認識方法の指令を実行する。
【0110】
本発明の実施例は、電子機器を更に提供する。当該電子機器は、例えば、モバイル端末、パソコン(PC)、タブレットPC、サーバ等であってもよい。以下において、図8は、本発明の実施例の端末機器又はサーバの実現に適する電子機器800の構造模式図を示す。図8に示すように、電子機器800は、1つ又は複数のプロセッサ、通信部等を備える。前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理装置(CPU)801、及び/又は1つ又は複数の画像プロセッサ(加速手段)813等を備える。プロセッサは、読み出し専用メモリ(ROM)802に記憶された実行可能指令、又は、記憶部分808からランダムアクセスメモリ(RAM)803にロードされた実行可能指令により、各種の適切な動作及び処理を実行してもよい。通信部812は、ネットワークカードを含んでもよいが、それに限定されない。前記ネットワークカードは、IB(Infiniband)ネットワークカードを含んでもよいが、それに限定されない。
【0111】
プロセッサは、読み出し専用メモリ802及び/又はランダムアクセスメモリ803と通信して実行可能指令を実行してもよく、バス804を介して通信部812に接続され、通信部812を介して他の目標機器と通信することにより、本発明の実施例に係る何れか1つの方法に対応する操作を完成する。プロセッサは、例えば、人顔画像に基づいて人顔の口部キーポイントを取得し、口部キーポイントに基づいて第1領域内の画像を特定し、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定する。第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む。
【0112】
また、RAM803には、装置の操作に必要な各種のプログラム及びデータが更に記憶されてもよい。CPU801、ROM802及びRAM803は、バス804を介して互いに接続される。RAM803がある場合に、ROM802は、オプションのモジュールであってもよい。RAM803は、実行可能指令を記憶し、又は運行時にROM802へ実行可能指令を書き込む。実行可能指令により、中央処理装置801は、上記通信方法に対応する操作を実行する。入力/出力(I/O)インターフェース805もバス804に接続される。通信部812は、統合的に設置されてもよく、複数のサブモジュール(例えば、複数のIBネットワークカード)を有してバスで互いに接続させるように設置されてもよい。
【0113】
キーボード、マウス等を含む入力部分806と、例えば、陰極線管(CRT)、液晶表示器(LCD)等及びスピーカ等を含む出力部分807と、ハードディスク等を含む記憶部分808と、例えば、LANカード、モデム等のネットワークインターフェースカードを含む通信部分809とは、I/Oインターフェース805に接続されている。通信部分809は、インターネットのようなネットワークを経由して通信処理を実行する。ドライバ810は、必要に応じてI/Oインターフェース805に接続される。取り外し可能媒体811、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ810に取り付けられることにより、それから読み出されたコンピュータプログラムが必要に応じて記憶部分808にインストールされることは、便利になる。
【0114】
説明すべきことは、図8に示すアーキテクチャが単に選択可能な実現方式であり、具体的な実践過程において、実際の必要に応じて上記図8の部品数及びタイプについて選択、削減、追加又は置換を行ってもよい。異なる機能部品設置において、分離設置又は統合設置等の実現方式を採用してもよい。例えば、加速手段813及びCPU801は、分離して設置されてもよく、又は、加速手段813は、CPU801に統合されてもよい。通信部は、分離して設置されてもよく、CPU801又は加速手段813に統合設置されてもよい(等)。これらの置換可能な実施形態は、何れも本発明に開示された保護範囲に含まれる。
【0115】
特に、本発明の実施例によると、上記フローチャートを参照して記述された過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本発明の実施例は、コンピュータプログラム製品を含む。当該コンピュータプログラム製品は、機器読み取り可能な媒体に有形的に含まれるコンピュータプログラムを含み、コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含み、プログラムコードは、本発明の実施例に係る方法ステップ、例えば、人顔画像に基づいて人顔の口部キーポイントを取得するステップと、口部キーポイントに基づいて第1領域内の画像(第1領域内の画像は、口部キーポイントの一部と、口部とインタラクションを行う物体の画像と、を少なくとも含む)を特定するステップと、第1領域内の画像に基づいて、人顔画像における人が喫煙しているか否かを特定するステップと、を対応的に実行する指令を含んでもよい。このような実施例において、当該コンピュータプログラムは、通信部分809を介してネットワークからダウンロード及びインストールされ、及び/又は取り外し可能媒体811からインストールされてもよい。当該コンピュータプログラムが中央処理装置(CPU)801によって実行されたときに、本発明の方法に係る上記機能の操作が実施される。
【0116】
本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すれば分かる。システム実施例は、方法実施例に基本的に対応するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
【0117】
本発明の方法及び装置は、たくさんの方式で実現され得る。本発明の方法及び装置は、例えば、ソフトウェア、ハードウェア、ファームウェア又はソフトウェア、ハードウェア、ファームウェアの如何なる組み合わせで実現され得る。前記方法のステップのための上記順番は、単に説明用であり、本発明の方法のステップは、他の方式で特別に説明しない限り、上記具体的に記述された順番に限定されない。また、幾つかの実施例において、本発明を記録媒体に記録されたプログラムとして実施してもよい。これらのプログラムは、本発明の方法を実施するための機器読み取り可能な指令を含む。したがって、本発明は、更に、本発明の方法を実行するためのプログラムを記憶する記録媒体もカバーする。
【0118】
本発明の記述は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本発明の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。
図1
図2
図3a
図3b
図4
図5
図6a
図6b
図6c
図7
図8