(58)【調査した分野】(Int.Cl.,DB名)
前記顔領域と前記各比較領域との類似度が、現在の比較領域と前記顔領域との間の境界位置の比較、及び指定された経験的閾値に対する前記比較領域と前記次の画像フレームの座標を持つ画像のグレースケール値との間の差に基づいて計算される、
請求項2に記載の顔位置追跡方法。
前記現在の画像フレームにおける前記第1の顔の第1の顔領域を取得するステップは、分類レベルの量を低減するためのAdaboost法を用いることで第1の顔領域を取得するステップを備える、
請求項1乃至請求項7のいずれか1項に記載の顔位置追跡方法。
【発明を実施するための形態】
【0023】
当業者が本願における技術的解決策をよりよく理解できるように、本願の実施における添付図面を参照して本願の実施における技術的解決策を明確かつ十分に以下記載する。明らかなことであるが、記載の実施は、本願の実施の全てではなく、一部に過ぎない。本願の実施に基づき当業者が創造的活動なしに獲得する他の全ての実施は、本願の保護範囲に含まれる。
【0024】
以下、添付図面を参照して本願における基本的なデータ処理方法を詳細に記載する。
図1は、本願の実施形態に係る、顔位置追跡方法を示す方法フローチャートである。本願は、以下の実施又は添付図面において方法の操作ステップを提供するが、この方法は、習慣的又は非創造的な活動に基づく、より多くの又は少数の操作ステップを含むことができる。必要な論理の因果関係が存在しないステップにおいて、これらのステップの実行順序は、本願の実施において提供される実行順序に限定されない。実際の用途において装置又は端末製品によって方法が実行される場合、この方法は、実施若しくは添付図面における方法の順序に基づき実行できる、又は、並行して(例えば、並列プロセッサ又はマルチスレッド処理環境で)実行できる。
【0025】
具体的には、
図1に示すように、本願は、顔位置追跡方法の実施を提供し、この方法は、以下のステップを含むことができる。
【0026】
S1:現在の画像フレームにおける顔領域を取得する。
【0027】
一般に、顔位置追跡は、主にカメラ装置、例えば監視デバイス又はユーザの携帯電話のカメラにより録画されたビデオストリーム情報処理で用いられる。本願で提供される顔位置追跡方法は、ビデオストリーム情報処理を含むことができるが、それには限定されない。本願における解決策は、他のアプリケーションシナリオにおける連続画像又は映画フィルムデジタル情報の顔追跡にも用いることができる。本願における解決策を明確に記載するため、この実施は、ユーザが携帯電話の前向きカメラを使用して自撮り画像を撮影するアプリケーションシナリオを用いて説明できる。この実施態様において、まず現在のビデオの現在の画像フレームにおける顔領域が取得される。具体的には、顔検出は、ビデオストリームの最初のビデオ画像フレームで遂行できる。一般に、顔検出は、各画像フレームで顔が検出されるまで遂行する必要がある。一般に、現在の画像フレームから顔が検出されると、画像色パラメータ、画像大きさ、及びフレーム距離などの顔画像に関する情報を取得できる。顔位置は通常、特定の領域で表すことができる。例えば、通常は矩形マス(枠)を用いて顔が検出された領域を表すことができる。
【0028】
モバイル通信端末又は車両ダッシュボードビデオレコーダのデータ処理能力がパーソナルコンピュータ(PC)のデータ処理能力よりも低い端末製品アプリケーションシナリオにおいて、本願は顔領域を検出する実施態様を提供できる。一の実施態様において、現在の画像フレームにおける顔領域を取得するステップは:
分類レベルの量を低減するためのAdaboost法を用いることにより現在の画像フレームにおける顔領域を検出し取得するステップを含むことができる。
【0029】
Adaboostは反復アルゴリズムである。Adaboostの一次工程は、同じ学習セット用の異なる分類器(弱い分類器)に学習させるステップと、弱い分類器をより強い最終の分類器(強い分類器)に統合するステップとを含む。Adaboostアルゴリズムは通常、各学習セットにおける各サンプルの分類が正しいか否か、及び過去の全般的な分類の精度に基づき各サンプルの加重値を特定するために用いることができる。次いで、加重値が修正されている新しいデータセットを次層の分類器へ学習のために送信でき、各学習中に取得された分類器は、最終特定用の分類器に統合される。Adaboostカスケード構造における分類器は通常、一連のシリアル分類器で構成される。識別すべきサンプルを特定する場合、前のレベルで分類器により正であると特定されたサンプルのみが更なる処理のために次の分類器に送信される。そうでない場合、負サンプルは直接拒絶される。カスケード構造において、前の分類器は構造がより単純であり、用いる特徴データが少ないが、検出率は高い。対象オブジェクトとは大きく異なる負サンプルは、可能な限りフィルタ除去することができる。後続の分類器は、対象オブジェクトに類似した負サンプルを対象オブジェクトから区別できるようにより多くの特徴データを用い、構造はもっと複雑である。
【0030】
なお、この実施態様において、Adaboost法を用いることにより現在の画像フレームにおける顔領域を検出する工程では、顔検出の計算の複雑さを低減し、迅速な顔検出を遂行するため、必要に応じて一定量の分類レベルを適切に低減できる。
【0031】
本願における顔位置追跡方法の一の実施態様において、ユーザが携帯電話の前向きカメラ又は後向きカメラを用いて能動的に撮影する際に、2人以上の人物が撮影された場合、スクリーン又はディスプレイ上では、撮影された顔のうち主たる顔の比率が大きいことが普通である。この場合、カメラに最も近い顔が主たる対象となり得る。したがって、顔位置をより正確に追跡し、顔位置追跡に対するユーザの期待に応えるためには、本願の別の実施態様において、顔位置追跡の際にはカメラに最も近い顔のみを追跡してもよい。一の実施態様の処理プロセスでは、現在の画像フレームにおける最大の顔領域を顔追跡対象として選択できる。したがって、本願の別の実施態様において、現在の画像フレームにおける顔領域を取得するステップは:
現在の画像フレームから少なくとも2つの顔が検出された場合、現在の画像フレームにおける最大領域の顔に対応する領域を現在の画像フレームにおける顔領域として選択するステップを含むことができる。
【0032】
上述の実施態様により、ビデオの現在の画像フレームにおける顔領域を取得できる。
【0033】
S2:現在の画像フレームにおける顔領域に基づき、現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を特定する。
【0034】
現在の画像フレームにおける顔領域を取得した後、現在の画像フレームにおける顔領域に基づき、次の画像フレームにおける、顔を含む予測領域を特定できる。予測領域は、特定のアルゴリズム又は規則に基づき、現在の画像フレームの次の画像フレームにおいて特定された一定範囲の顔領域を含むことができる。
図2は、現在の画像フレームにおける顔領域に基づき、次の画像フレームにおける、顔を含む予測領域を特定するステップを示す概略図である。
図2に示すように、現在の画像フレームNにおいて、矩形マスAが現在の画像フレームにおける検出された顔領域である。次の画像フレームN+1において、前の画像フレームN(すなわち、現在の画像フレームN)における顔領域の矩形マスAの長さ及び幅を別々にK画素分拡大した後に取得される矩形マスBが、次の画像フレームN+1における、顔を含む予測領域として用いられる。当然、別の実施では、予測領域を、別の方法で特定できる。例えば、現在の画像フレームにおける顔領域の矩形マスAの長さ及び幅を別々に1.5倍に拡大した後に取得される矩形マスを、予測領域として用いることができる。
【0035】
現在の画像フレームの次の画像フレームにおける、顔を含む予測領域は、現在の画像フレームにおける顔領域と特定の規則に基づき特定される。
【0036】
S3:顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて予測領域を検索する。
【0037】
次の画像フレームにおける顔を含み得る予測領域を特定した後、予測領域の範囲内で、顔領域に対する類似度が高い第1の事前選択領域を検索しマッチングすることができる。この顔領域は、前の画像フレーム(すなわち、S2における現在の画像フレームN)から取得できる。
【0038】
この実施態様では、顔領域と次の画像フレームにおける第1の事前選択領域との類似度を計算するためのテンプレートマッチング法を提供できる。一の実施態様の処理プロセスにおいて、現在の画像フレームにおける顔領域は、オリジナルテンプレートとして用いることができ、顔領域の境界を移動窓として設定できる。各窓の移動中に、新しいマッチングテンプレートを取得できる。予測領域の範囲内では、予測領域が1ステップ移動する度に、新しい移動窓領域のデータを取得でき、移動窓領域と顔領域との類似度が計算される。本願において、2つの領域間の類似度を計算又は特定するステップは、特定の方法に限定されず、同一又は類似の機能を実施可能な他の方法を本願に適用することができる。具体的には、現在の画像フレームにおける顔領域に基づき、現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を特定するステップは以下を含むことができる。
【0039】
S301:第1のステップサイズ(刻み幅)に基づき、予測領域を詳しく検討(トラバース)して顔領域の比較領域を取得する。
【0040】
第1のステップサイズは、実際の顔位置追跡における処理速度又は処理精度要件に基づき設定できる。任意の実施態様においては、データ計算量を減らしてデータ処理速度を向上させることができ、顔位置追跡精度要件を確保できる。この実施態様において、第1の移動ステップの値の範囲は2画素以上とすることができる。
【0041】
S302:顔領域と比較領域との類似度を計算する。
【0042】
異なるアプリケーションシナリオ又は異なるデータ処理要件に基づき、異なる画像領域間の類似度を計算するために、対応する計算方法及び対応する計算パラメータが選択できる。例えば、顔領域と比較領域との類似度は、異なる領域の画像色、画像質感、又は画像勾配に基づき計算できる。本願は、類似度を計算する実施態様を提供する。具体的には、本願の一実施態様において、disで表される顔領域と比較領域との類似度は、下式を用いて計算できる:
【数1】
【0043】
上式において、left
ori、left
des、top
ori、及びtop
desは、それぞれ、顔領域の左側の境界の位置、現在の比較領域の左側の境界の位置、顔領域の上側の境界の位置、及び、現在の比較領域の上側の境界の位置を表す。変数widthは顔領域の幅を表し、heightは顔領域の高さを表し、f(i,j)は現在の画像フレーム(すなわち、次のフレームK+1に先行するフレームK)の顔領域内の座標が(i,j)である画素のグレースケール値を表し、g(i,j)は、次の画像フレームの比較領域における座標が(i,j)である画素のグレースケール値を表し、xは指定された経験的閾値を表し、disは顔領域と比較領域との類似度である。上式において、max(a、b)は、aとbのうち大きい方の値が選択されることを表し、min(a、b)は、aとbのうち小さい方の値が選択されることを表す。
【0044】
S303:次の画像フレームにおける類似度が所定の要件を満たす比較領域を、次の画像フレームにおける第1の事前選択領域として用いる。
【0045】
この実施態様において、所定の要件を設定し、これを用いて、予測領域において予測要件を満たす比較領域を選択できる。例えば、所定の要件を次の通り設定してもよい。すなわち、比較領域と顔領域との類似度が90%を超えている、又は、一定のパーセンテージ以内の比較領域を、類似度の並べ替え後に指定する。例えば、類似度が上から3番目までの比較領域を指定する。本願の任意の実施態様において、類似度が所定の要件を満たす比較領域として挙げられるのは:
次の画像フレームにおける比較領域の中で類似度が最大の比較領域である。
【0046】
図3は、本願による、第1の事前選択領域を求めて予測領域を検索するステップを示す概略図である。
図3に示すように、次の画像フレームN+1の予測領域Bにおいて、現在の画像フレームNにおける顔領域Aに対する類似度が要件を満たす第1の事前選択領域Cを見つけることができる。この実施態様において、次のフレームの比較領域の中にあり、現在の画像フレームにおける顔領域に対する類似度が最大である領域のみを、第1の事前選択領域として選択できる。この場合、多数の事前選択領域を選択することに比べ、データ処理量を減らすことができ、事前選択領域をより迅速に選択でき、顔位置処理速度を向上することができる。
【0047】
この実施態様において、テンプレートマッチング法を用いて第1の事前選択領域を計算する際、特定の領域内の画素のグレースケール値に対して加算及び減算をすることができる。別の既存の追跡アルゴリズムと比較して、多量の処理及び格納をする必要がなく、時間計算量及び空間計算量が少ない。この実施は、とりわけ、情報データ処理能力の低い中性能〜低性能の携帯電話及び監視デバイスに対して広く適用される。したがって、計算量を効果的に減らすことができ、顔追跡精度を高めることができる。加えて、短距離ビデオ録画の顔追跡環境における、例えば携帯電話の前向きカメラのアプリケーションシナリオにおいて、ユーザが自撮り画像を取る場合、通常、スクリーン内の顔の比率は大きくなる。この実施態様におけるテンプレートマッチング法では、ビデオスクリーンの大きな比率を占める顔領域の効果的な情報を取得でき、他の追跡アルゴリズムと比較して、追跡結果がより信頼性の高いものとなる。
【0048】
上述の実施態様により、顔領域に対する類似度が所定の要件を満たす第1の事前選択領域は、予測領域内で特定の計算方法を用いて検索できる。
【0049】
S4:次の画像フレームにおける顔領域を検出し、第1の事前選択領域、次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき次の画像フレームの顔位置追跡結果を特定する。
【0050】
現在の画像フレームが次の画像フレームに切り替わる際に、次の画像フレームに顔領域が存在するか否かを検出できる。次の画像フレームから顔領域が検出された場合、少なくとも2つの顔領域、すなわち、検出された顔領域と顔追跡予測に基づき取得される第1の事前選択領域とが次の画像フレームから取得される。本願において、次の画像フレームの最終的な顔追跡結果は、この少なくとも2つの顔領域に基づく特定の協調的な計算及び分析によって取得できる。
【0051】
本願において、所定の選択規則を使ってどの顔領域を最終的な顔位置追跡結果として用いるかを特定できる。この実施態様における選択規則としては、次の画像フレームにおける顔領域と第1の事前選択領域のいずれかにおける、次の画像フレームにおける顔領域と第1の事前選択領域との重複領域の比率に応じ、次の画像フレームにおける顔領域又は第1の事前選択領域を選択するための選択規則を挙げることができる。この実施態様において、次の画像フレームの顔領域又は第1の事前選択領域における、顔領域と第1の事前選択領域との間の重複領域の比率を、重複係数Qと定義することができる。
【0052】
図4は、本願による、顔位置追跡結果を特定する選択シナリオを示す概略図である。
図4に示すように、矩形マスDは、次の画像フレームにおける検出された顔領域を表すことができ、ここでは検出結果と呼ばれる。矩形マスCは、次の画像フレームにおける第1の事前選択領域を表すことができ、ステップS1〜S3又は別の実施態様における追跡計算によって取得されたものであり、ここでは追跡結果と呼ばれる。網掛け領域は、次の画像フレームの最終的な特定された顔位置追跡結果である。検出結果と追跡結果が次の画像フレームに共に存在するとき、検出結果が追跡結果と重複していない、すなわち、重複係数Qが0である場合、
図4の4−1に示すように、追跡結果を顔位置追跡結果として用いることができる。検出結果と追跡結果との間に重複領域が存在するが、重複領域が比較的小さく指定された重複要件を満たさない場合、
図4の4−2に示すように、追跡結果を顔位置追跡結果として用いることができる。別の場合、検出結果と追跡結果との間に重複領域が存在し、重複領域が比較的大きく指定された重複要件を満たす、例えば、領域の95%が重複している場合、
図4の4−3に示すように、検出結果を顔位置追跡結果として選択できる。当然、次の画像フレームから顔領域が検出されない場合は、
図4の4−4に示すように、追跡結果を直接顔位置追跡結果として用いることができる。
【0053】
したがって、任意の実施態様において、次の画像フレームにおける顔領域検出と所定の選択規則とに基づき、次の画像フレームの顔位置追跡結果を特定するステップは:
次の画像フレームにおける顔領域の検出結果として、顔領域が検出されない場合、第1の事前選択領域を次の画像フレームの顔位置追跡結果として用いるステップ;
次の画像フレームにおける検出された顔領域と第1の事前選択領域との間の重複係数が0である場合、第1の事前選択領域を次の画像フレームの顔位置追跡結果として用いるステップ;
次の画像フレームにおける検出された顔領域と第1の事前選択領域との間の重複係数が所定の閾値未満である場合、第1の事前選択領域を次の画像フレームの顔位置追跡結果として用いるステップ;又は
次の画像フレームにおける検出された顔領域と第1の事前選択領域との間の重複係数が所定の閾値以上である場合、次の画像フレームにおける検出された顔領域を次の画像フレームの顔位置追跡結果として用いるステップ:のいずれかを含むことができる。
【0054】
この実施は、検出結果及び追跡結果から最終の顔位置追跡結果を選択するための実施方法を提供する。本願のこの実施態様においては、急速な顔移動、突然の光変化、又は強い光干渉等の複雑な環境で、顔位置を正確かつ迅速に追跡できる。本実施態様では、ある画像フレームにおいてフレーム喪失が発生し顔が検出されない場合でも顔位置を追跡し特定することが可能であり、その結果、顔位置の連続的追跡効果を実施でき、顔追跡を円滑にできる。フレーム喪失が発生しない場合であっても、顔追跡効果の有効性及びユーザエクスペリエンスを向上させるために、所定の選択規則に基づき、画像フレームにおける検出結果と追跡結果から、より適切な領域を顔位置追跡結果として選択できる。
【0055】
なお、本願における現在のフレーム、次のフレーム、前のフレーム、及び前のフレームに先行するフレームは、実際の用途における画像フレーム情報処理対象を説明するための相対的概念であるとみなすことができる。ビデオストリームにおけるある瞬間の画像フレームを現在の画像フレーム(N)として注目できる場合、対応する次のフレームを(N+1)番目の画像フレームとしてもよく、前のフレームを(N−1)番目の画像フレームとしてもよい。(N+1)番目の画像フレームに対する追跡が完了した後、(N+2)番目の画像フレームにおける顔位置を更に追跡し処理することができる。この場合、現在の画像フレームが(N+1)番目の画像フレームであり、それに対応して、現在の画像フレーム(N+1)の次の画像フレームを(N+2)番目の画像フレームとしてもよい。
【0056】
連続する画像フレームの処理中、現在の画像フレームにおける顔位置に対する追跡処理が完了した後、現在の画像フレームの処理結果を次の画像フレームにおける顔位置追跡のための参照情報又は初期化情報として用いることにより、次の画像フレームにおける顔位置を更に追跡できる。アプリケーションシナリオによっては、ビデオストリーム中の1秒当たりの処理が必要な画像フレームの量が、通常で10フレームを超えることもあり、場合によっては数十フレームとなる。顔位置の追跡中、突然の光変化又は急速な顔移動に起因するフレームNでの顔追跡喪失により顔が検出されない場合、前のフレームN−1の検出又は処理結果から取得した顔領域を、顔追跡喪失が発生したフレームNから追跡された顔領域として用いることができる。関連する実施態様としては、さらに、前のフレームN−1からも顔が検出又は追跡されない場合、フレームN−2を検出又は処理して取得した顔領域結果を用いることもでき、以下同様に処理する。当然、所定の特定規則に基づき、多数の連続したフレームにおいて顔が検出されない場合、ビデオの録画範囲に顔が捉えられていないと特定できる。
【0057】
上記の実施態様では、次の画像フレームにおいて顔を含む予測領域を検索する場合、必要に応じて第1のステップサイズの値を決定できる。例えば、予測領域を毎回2画素分又は5画素分移動させることができる。一般に、ステップサイズが大きいほど前の画像フレームの顔領域に類似した領域を検索する速度が速いことを意味し、処理が必要なデータ量は少ない。ステップサイズが小さいほど検索精度が高いことを意味する。第1の移動ステップの値の範囲が2画素以上である実施態様においては、第1の事前選択領域を検索する精度を更に向上させるため、本願において提供する別の好適な実施において、方法は、以下を更に含むことができる:
【0058】
S304:顔領域に対する類似度が最大の第2の事前選択領域を求めて、第1の事前選択領域を囲む第2のステップサイズの範囲内を検索する。ここで第2のステップサイズは第1のステップサイズ未満である。この場合、正確な検索によって取得される第2の事前選択領域を、次の画像フレームの顔位置領域追跡結果として用いることができる。検出結果と第2の事前選択領域とのいずれかをこの後に最終の顔位置追跡結果と特定してもよい。
【0059】
これに対応して、第1の事前選択領域、次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、次の画像フレームの顔位置追跡結果を特定するステップは:第2の事前選択領域、次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、次の画像フレームの顔位置追跡結果を特定するステップを含む。
【0060】
特定の用途において、例えば、第1のステップ(刻み量)は2画素であり、類似度が最大の領域を取得するため、第1の事前選択領域を囲む1画素の範囲内における顔領域と前の画像フレームにおける顔領域との類似度をこの実施態様において計算してもよい。具体的には、この実施態様において、第2の事前選択領域は、ステップS302における類似度計算法を用いて計算できる。当然、2つの領域間の類似度を特定するための他の計算方法が除外されることはない。これらの計算方法の詳細については、ここでは記載しない。
図5は、本願の実施形態に係る、第2の事前選択領域を求めて検索するステップを示す概略図である。
図5に示すように、矩形マスCは、予測領域のステップサイズとして2画素を用いることにより特定される顔領域の第1の事前選択領域であり、矩形マスDは、第1の事前選択領域Cの1画素分右上の比較領域C_ruである。当然、第1の事前選択領域を囲む1画素の範囲は、第1の事前選択領域を1画素分下に移動させることによって形成される比較領域C_d、第1の事前選択領域を1画素分上に移動させることによって形成される比較領域C_u、第1の事前選択領域を1画素分左下角に向けて移動させることによって形成される比較領域C_ldなどを含むことができる。第1の事前選択領域を囲む1画素の比較領域と顔領域との類似度を計算することができ、類似度が最大の比較領域を第2の事前選択領域として選択できる。
【0061】
この実施態様において、第1の事前選択領域は、画像比較及び検索における計算量を効果的に減らして顔位置追跡のデータ処理速度を高めるため、比較的大きな第1のステップサイズを設定することによって計算される。この実施態様において、第1の事前選択領域の結果に基づき、第1のステップサイズよりも小さい第2のステップサイズを用いることにより、より正確な検索を遂行してより正確な追跡結果を有する第2の事前選択領域を取得できる。そうしたことから、迅速な検索を実施でき、顔追跡の精度を向上させ、それによって顔追跡の有効性を向上することができる。
【0062】
本願における顔位置追跡方法に基づき、本願は、顔位置追跡装置を提供する。
図6は、本願の実施形態に係る、顔位置追跡装置のモジュール構造を示す概略図である。
図6に示すように、この装置は、
現在の画像フレームにおける顔領域を検出するように構成された検出モジュール101と;
現在の画像フレーム内にあり、検出モジュール101によって検出された顔領域に基づき、現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を計算するように構成された予測領域計算モジュール102と;
顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて予測領域を検索するように構成された事前選択領域計算モジュール103と;
第1の事前選択領域、検出モジュール101による現在の画像フレームの次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、次の画像フレームの顔位置追跡結果を特定するように構成された追跡結果選択モジュール104と;を含むことができる。
【0063】
本願における顔位置追跡装置の実施態様において、検出モジュール101は、カメラ装置によって取得した画像フレームにおける顔領域を長時間連続して検出できる。例えば、ビデオストリームにおいて1秒当たり15フレームのビデオ画像が撮影され、顔位置の追跡中に画像の現在のフレーム(N番目のフレーム)における顔領域を検出できる。画像の現在のフレーム(N番目のフレーム)の情報データに対する検出及び追跡処理が完了した後、画像の次のフレーム((N+1)番目のフレーム)における顔領域を更に検出できる。
【0064】
本願における装置の検出モジュール101の一の実施態様において、現在の画像フレームにおける顔領域を、分類レベルの量を減らすためのAdaboost法を用いることにより検出し取得できる。そうしたことから、顔検出中のデータ計算量を減らすことができ、顔位置追跡の位置特定及び処理の速度を高めることができる。
【0065】
本願における装置の別の実施態様において、顔位置追跡処理の際には、カメラに最も近い顔のみを追跡できる。一の実施態様の処理プロセスにおいて、現在の画像フレームにおける最大の顔領域を顔追跡対象として選択できる。したがって、本願における装置の別の実施態様において、検出モジュール101が現在の画像フレームにおける顔領域を検出するステップは:
現在の画像フレームから少なくとも2つの顔が検出された場合、現在の画像フレームにおける最大領域の顔に対応する領域を現在の画像フレームにおける顔領域として選択するステップを含む。
【0066】
本願は、計算に基づく事前選択領域計算モジュール103による第1の事前選択領域を検索する方法に限定されない。
図7は、本願の実施形態に係る、装置の事前選択領域計算モジュール103のモジュール構造を示す概略図である。
図7に示すように、事前選択領域計算モジュール103は、比較領域モジュール1031、類似度計算モジュール1032、及び第1の事前選択モジュール1033を含むことができる。
【0067】
比較領域モジュール1031は、指定された第1のステップに基づき、予測領域を詳しく検討して顔領域の比較領域を取得するように構成されている。
【0068】
類似度計算モジュール1032は、顔領域と比較領域との類似度を計算するように構成されている。
【0069】
本願における装置の一の実施において、類似度計算モジュール1032は、下式を用いることにより顔領域と比較領域との類似度disを計算できる:
【数1】
【0070】
上式においてleft
ori、left
des、top
ori、及びtop
desは、それぞれ顔領域の左側の境界の位置、現在の比較領域の左側の境界の位置、顔領域の上側の境界の位置、及び現在の比較領域の上側の境界の位置を表す。変数widthは顔領域の幅を表し、heightは顔領域の高さを表し、f(i,j)は、現在の画像フレームにおける顔領域内の座標が(i,j)である画素のグレースケール値を表し、g(i,j)は、次の画像フレームの比較領域における座標が(i,j)である画素のグレースケール値を表し、xは、指定された経験的閾値を表し、disは顔領域と比較領域との類似度である。
【0071】
第1の事前選択モジュール1033は、次の画像フレームにおける類似度が所定の要件を満たす比較領域を次の画像フレームにおける第1の事前選択領域として用いるように構成されている。
【0072】
装置に含まれる類似度計算モジュール1032が用いる式は、コンピュータ読み取り可能なプログラム言語、例えばC言語を用いることにより、装置/モジュール上での特定の実施工程において実施できる、又は、必要に応じてある種のハードウェア構造を用いるハードウェア及びソフトウェアの形態で実施できる。
【0073】
任意の実施態様において、第1の事前選択モジュール1033によって指定される所定の要件を、顔領域に対する最大の類似度を用いて設定してもよい。したがって、別の実施態様において、第1の事前選択モジュール1033における類似度が所定の要件を満たす比較領域として挙げられるのは:
次の画像フレームにおける比較領域の中で類似度が最大の比較領域である。
【0074】
上記実施態様において、比較領域モジュール1031によって指定される第1のステップは、本願における顔位置追跡装置の処理速度又は処理精度についての要件に応じて設定できる。本願における装置の一の実施態様において、第1のステップサイズの値の範囲は、2画素以上となるように設定できる。
【0075】
本願は、顔位置追跡装置の好適な実施態様を更に提供できる。
図8は、本願の別の実施形態に係る、事前選択領域計算モジュールのモジュール構造を示す概略図である。
図8に示すように、事前選択領域計算モジュール103は:
顔領域に対する類似度が最大の第2の事前選択領域を求めて、第1の事前選択領域を囲む第2のステップサイズであって、第1のステップサイズ未満である第2のステップサイズの範囲内を検索するように構成された第2の事前選択モジュール1034を更に含むことができる。
【0076】
これに対応して、追跡結果選択モジュール104が、第1の事前選択領域、検出モジュール101による現在の画像フレームの次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき次の画像フレームの顔位置追跡結果を特定することは、追跡結果選択モジュール104が、第2の事前選択領域、検出モジュール101による現在の画像フレームの次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、次の画像フレームの顔位置追跡結果を特定することを含む。
【0077】
この実施態様における顔位置追跡装置において、第1の事前選択領域の結果に基づき、第1のステップサイズ未満の第2のステップサイズの範囲内で、より正確な検索をすることができ、追跡結果がより正確な第2の事前選択領域が取得される。そうしたことから、迅速な検索処理を実施することができ、顔位置追跡の精度を高め、それによって顔追跡の有効性を高めることができる。
【0078】
図9は、本願の実施形態に係る、追跡結果選択モジュール104のモジュール構造を示す概略図である。
図9に示すように、追跡結果選択モジュール104は、検出・計算モジュール1041及び選択モジュール1042を含むことができる。
【0079】
検出・計算モジュール1041は、次の画像フレームにおける顔領域を検出し、次の画像フレームにおける顔領域が検出された場合、次の画像フレームの顔領域と第1の事前選択領域との重複係数Qを計算するように構成されている。この実施態様において、重複係数Qは、顔領域と第1の事前選択領域のいずれかにおける、次の画像フレームにおける顔領域と第1の事前選択領域との重複領域の比率で表せる。
【0080】
選択モジュール1042は、検出・計算モジュール1041により次の画像フレームから顔領域が検出されない、検出・計算モジュール1041が計算した重複係数が0である、あるいは検出・計算モジュール1041が計算した重複係数が所定の閾値未満である、という条件のうちの少なくとも1つが満たされる場合、第1の事前選択領域を、次の画像フレームの顔位置追跡結果として用いるように構成されている。あるいは、選択モジュール1042は、検出・計算モジュール1041が計算した重複係数が所定の閾値以上である場合、次の画像フレーム内にあり、検出モジュール101が検出した顔領域を次の画像フレームの顔位置追跡結果として用いるように構成されている。
【0081】
この実施態様は、検出結果及び追跡結果から最終の顔位置追跡結果を選択することに対する解決策を提供する。本願のこの実施態様において、急速な顔移動、突然の光変化、又は強い光干渉のような複雑な環境で、顔位置を正確かつ迅速に追跡できる。この実施態様において、ある画像フレームにおいてフレーム喪失が発生して顔が検出されない場合でも顔位置を追跡し特定することができ、その結果、顔位置の連続的追跡効果を実施して円滑な顔追跡を確保できる。フレーム喪失が発生しない場合でも、顔追跡の有効性及びユーザエクスペリエンスを向上させるために、所定の選択規則に基づき、画像フレームにおける検出結果と追跡結果からより適切な領域を顔位置追跡結果として選択できる。
【0082】
本願における顔位置追跡方法又は装置は、多数の端末デバイスに適用してより迅速で、正確、かつ円滑な顔位置追跡を遂行できる。例えば、そうしたデバイスとしては、ビデオカメラデバイス、監視デバイス、及びAndroid(登録商標)システム又はiOSシステムに基づくモバイル通信端末の連続画像フレーム用顔位置追跡デバイスを挙げることができる。したがって、本願は、顔位置追跡電子デバイスを更に提供し、電子デバイスは、ビデオ画像フレームを検出し取得するためのカメラ装置、ビデオ再生用ディスプレイ、情報データ処理用処理ユニットなどを含むことができる。具体的には、
図10は、本願の実施形態に係る、顔位置追跡電子装置を示す概略構造図である。
図10に示すように、電子デバイスは:
処理を待つ現在の画像フレームを取得するように構成された情報取得ユニット1と;
現在の画像フレームにおける顔領域を検出し;現在の画像フレームにおける検出した顔領域基づき、現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を計算し、顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて予測領域を検索し;第1の事前選択領域、処理ユニットによる現在の画像フレームの次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、次の画像フレームにおける顔位置追跡結果を特定するように構成された処理ユニット2と;
処理ユニット2が取得した顔位置追跡結果を表示するように構成されたディスプレイユニット3と;を含むことができる。
【0083】
本願における電子デバイスの情報取得ユニット1は、モバイル端末の前向きカメラ、後向きカメラ、又は監視カメラ装置を含むことができる。別のアプリケーションシナリオにおいては、リアルタイムで取得された又は事前に取得された画像情報データをコンピュータが処理する実施が更に含まれ、例えば、コンピュータが、ビデオ情報に対して顔位置追跡処理を遂行する。処理ユニット2は、中央処理ユニット(CPU)を含むことができ、当然、論理処理能力、論理ゲート回路、集積回路などを有する単一チップマイクロコンピュータを更に含むことができる。ディスプレイユニット3は一般に、ディスプレイ、モバイル端末ディスプレイスクリーン、投影デバイスなどを含むことができる。
【0084】
顔検出方法、モジュールユニット間のデータ交換などのデータ処理、及び情報表示が本願の内容において記載されるが、本願は、一般論又は実施で述べたデータ処理及び情報表示に限定されない。本願の実施における上記の記載は、本願の一部の実施の応用に過ぎず、何らかの基準及び方法に基づきわずかに修正された処理方法も、本願の実施における解決策を実施するために用いることができる。当然、本願の実施における処理方法のステップに従う他の非創造的変更も、同じ用途を実施するために用いることができる。ここではその詳細については触れない。
【0085】
本願は、実施態様又はフローチャートにおける方法の操作ステップを提供するが、この方法は、習慣的又は非創造的活動に基づき、それよりも多数又は少数の操作ステップを含むことができる。実施態様において列挙したステップの順序は、ステップの実行順序の一種に過ぎず、一意的な実行順序を表すものではない。実際の用途において装置又はクライアント製品により方法が実行される場合、方法は、実施態様又は添付図面における方法の順序に基づき実行でき、あるいは、並行して(例えば、並行プロセッサ又はマルチスレッド処理環境)実行できる。
【0086】
上記の実施において記載したユニット又はモジュールは、具体的にはコンピュータチップ又はエンティティにより実施することができ、あるいは、ある種の機能を有する製品により実施することができる。説明を容易にするため、上記の装置及びデバイスは、様々なモジュール及び様々なユニットを用いることにより説明されている。当然、本願の実施に際し、多数のモジュールの機能を、1つ以上のソフトウェア及び/またはハードウェア、例えば、第1の事前選択モジュール及び第2の事前選択モジュールにおいて実施でき、あるいは、同じ機能を実施するモジュールを、多数のサブモジュール又はサブユニットの組合せを用いて実施できる。
【0087】
当業者にとっても周知であるが、コンピュータ読み取り可能なプログラムコードを用いることによりコントローラを実装することに加えて、方法ステップに対して論理プログラミングを遂行してコントローラが論理ゲート、スイッチ、専用集積回路、プログラマブル論理コントローラ、及び埋込型マイクロコントローラの形態で同じ機能を実施できる。したがって、コントローラは、ハードウェアコンポーネントとみなすことができ、コントローラに含まれ様々な機能を実施するために用いられる装置は更に、ハードウェアコンポーネントにおける構造体とみなすことができる。あるいは、様々な機能を実施するための装置は、場合により方法を実施するためのソフトウェアモジュールとハードウェアコンポーネントにおける構造体の両方とみなすこともできる。
【0088】
本願は、C言語、又はAndroid(登録商標)デザインプラットフォーム若しくはiOSデザインプラットフォームに基づくプログラムモジュールのようなコンピュータが実行するコンピュータ実行可能な指令の一般的文脈において記載することができる。一般に、プログラムモジュールは、特定の作業を実行する、あるいは特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造、型などを含む。本願は更に、通信ネットワークを用いることにより接続された遠隔処理デバイスによって作業が実行される分散型コンピューティング環境に適用することができる。分散型コンピューティング環境において、プログラムモジュールは、格納デバイスを含むローカル及びリモートコンピュータ格納媒体に配置することができる。
【0089】
上記実施の記載から分かることであるが、本願は、ユニバーサルハードウェアプラットフォームに加えて、ソフトウェアを用いて実施できることを当業者は明確に理解できる。こうした理解に基づき、本願における技術的解決策は本質的に、あるいは従来技術に貢献する部分は、ソフトウェア製品の形態で実施できる。ソフトウェア製品は、ROM/RAM、磁気ディスク、又は光ディスクなどの記録媒体に格納することができ、本願の実施形態又は実施形態の一部に記載した方法を遂行するようにコンピュータデバイス(パーソナルコンピュータ、モバイル端末、サーバ、又はネットワークデバイスとすることができる)に命令する幾つかの指令を含む。
【0090】
本明細書における実施は全て、進捗的な方法で記載されている。実施における同一又は類似の部分については、これらの実施を参照することができ、各実施形態は、他の実施形態との違いに焦点を当てている。本願は、多くの汎用又は専用コンピュータシステム環境若しくは構成、例えば、パーソナルコンピュータ、サーバコンピュータ、手持ち式デバイス若しくはポータブルデバイス、タブレットデバイス、モバイル通信端末、マルチプロセッサシステム、マイクロプロセッサシステム、プログラム可能電子デバイス、ネットワークPC、小型コンピュータ、メインフレームコンピュータ、及び上記システム又はデバイスのいずれかを含む分散型コンピューティング環境に適用することができる。
【0091】
実施の形態を用いて本願を記載したが、本願は本願の精神から逸脱することなく多くの変形及び変更を有し、添付の請求項は、本願の精神から逸脱することなくこれらの変形及び変更を含むことは、当業者には周知である。
以下、本発明の実施の態様の例を列挙する。
[第1の局面]
顔位置追跡方法であって:
現在の画像フレームにおける顔領域を取得するステップと;
前記現在の画像フレームにおける前記顔領域に基づき、前記現在の画像フレームの次の画像フレームにおける顔を含む予測領域を特定するステップと;
前記顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて前記予測領域を検索するステップと;
前記次の画像フレームにおける顔領域を検出し、前記第1の事前選択領域、前記次の画像フレームにおける前記顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定するステップと;を備える、
顔位置追跡方法。
[第2の局面]
前記顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて前記予測領域を検索する前記ステップが:
第1の移動ステップに基づき、前記予測領域を詳しく検討して前記顔領域の比較領域を取得するステップと;
前記顔領域と前記比較領域との類似度を計算するステップと;
前記次の画像フレームにおける類似度が前記所定の要件を満たす比較領域を、前記次の画像フレームにおける前記第1の事前選択領域として用いるステップ;を備える、
第1の局面に記載の顔位置追跡方法。
[第3の局面]
前記顔領域と前記比較領域との類似度が、下式を用いて計算される:
【数1】
(ここで、leftori、leftdes、topori、及びtopdesは、それぞれ、前記顔領域の左側の境界の位置、現在の比較領域の左側の境界の位置、前記顔領域の上側の境界の位置、及び前記現在の比較領域の上側の境界の位置を表し;widthは、前記顔領域の幅を表し、heightは、前記顔領域の高さを表し、f(i,j)は、前記現在の画像フレームにおける前記顔領域における座標が(i,j)である画素のグレースケール値を表し、g(i,j)は、前記次の画像フレームの比較領域における座標が(i,j)である画素のグレースケール値を表し;xは、指定された経験的閾値を表し、disは、前記顔領域と前記比較領域との類似度である)、
第2の局面に記載の顔位置追跡方法。
[第4の局面]
類似度が前記所定の要件を満たす前記比較領域は、前記次の画像フレームにおける比較領域の中で類似度が最大の比較領域を含む、
第2の局面に記載の顔位置追跡方法。
[第5の局面]
前記第1の移動ステップの値の範囲が2画素以上である、
第2の局面に記載の顔位置追跡方法。
[第6の局面]
顔領域に対する類似度が最大の第2の事前選択領域を求めて、第1の事前選択領域を囲む第2のステップサイズの範囲内を検索するステップであって、前記第2のステップサイズは第1のステップサイズ未満である、顔領域に対する類似度が最大の第2の事前選択領域を求めて、第1の事前選択領域を囲む第2のステップサイズの範囲内を検索するステップと;
これに対応して、前記第1の事前選択領域、前記次の画像フレームにおける前記顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定する前記ステップが、前記第2の事前選択領域、前記次の画像フレームにおける前記顔領域の前記検出結果、及び前記所定の選択規則に基づき、前記次の画像フレームの前記顔位置追跡結果を特定するステップ;を更に備える、
第2乃至5の局面のいずれかに記載の顔位置追跡方法。
[第7の局面]
前記第1の事前選択領域、前記次の画像フレームにおける前記顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定する前記ステップが:
前記次の画像フレームにおける前記顔領域の前記検出結果として、顔領域が検出されない場合、前記第1の事前選択領域を前記次の画像フレームの前記顔位置追跡結果として用いるステップと;
前記次の画像フレームにおける前記検出された顔領域と前記第1の事前選択領域との間の重複係数が0である場合、前記第1の事前選択領域を前記次の画像フレームの前記顔位置追跡結果として用いるステップと;
前記次の画像フレームにおける前記検出された顔領域と前記第1の事前選択領域との間の前記重複係数が所定の閾値未満である場合、前記第1の事前選択領域を、前記次の画像フレームの前記顔位置追跡結果として用いるステップと;
前記次の画像フレームにおける前記検出された顔領域と前記第1の事前選択領域との間の前記重複係数が前記所定の閾値以上である場合、前記次の画像フレームにおける前記検出された顔領域を前記次の画像フレームの前記顔位置追跡結果として用いるステップと;の何れかを備える、
第1の局面に記載の顔位置追跡方法。
[第8の局面]
現在の画像フレームにおける顔領域を取得する前記ステップが:
少なくとも2つの顔が前記現在の画像フレームから検出された場合、前記現在の画像フレームにおける最大領域の顔に対応する領域を、前記現在の画像フレームにおける前記顔領域として選択するステップ;を備える、
第1の局面に記載の顔位置追跡方法。
[第9の局面]
顔位置追跡装置であって:
現在の画像フレームにおける顔領域を検出するように構成された検出モジュールと;
前記現在の画像フレーム内にあり、前記検出モジュールによって検出された前記顔領域に基づき、前記現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を計算するように構成された予測領域計算モジュールと;
前記顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて前記予測領域を検索するように構成された事前選択領域計算モジュールと;
前記第1の事前選択領域、前記検出モジュールによる前記現在の画像フレームの前記次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定するように構成された追跡結果選択モジュールと;を備える、
顔位置追跡装置。
[第10の局面]
前記事前選択領域計算モジュールが:
指定された第1のステップに基づき、前記予測領域を詳しく検討して前記顔領域の比較領域を取得するように構成された比較領域モジュールと;
前記顔領域と前記比較領域との類似度を計算するように構成された類似度計算モジュールと;
前記次の画像フレームにおける類似度が前記所定の要件を満たす比較領域を、前記次の画像フレームにおける前記第1の事前選択領域として用いるように構成された第1の事前選択モジュールと;を備える、
第9の局面に記載の顔位置追跡装置。
[第11の局面]
前記顔領域と前記比較領域との類似度が、下式を用いて計算される:
【数1】
(ここで、leftori、leftdes、topori、及びtopdesは、それぞれ前記顔領域の左側の境界の位置、現在の比較領域の左側の境界の位置、前記顔領域の上側の境界の位置、及び前記現在の比較領域の上側の境界の位置を表し;widthは、前記顔領域の幅を表し、heightは、前記顔領域の高さを表し、f(i,j)は、前記現在の画像フレームにおける前記顔領域における座標が(i,j)である画素のグレースケール値を表し、g(i,j)は、前記次の画像フレームの比較領域における座標が(i,j)である画素のグレースケール値を表し;xは、指定された経験的閾値を表し、disは、前記顔領域と前記比較領域との類似度である)、
第10の局面に記載の顔位置追跡装置。
[第12の局面]
前記第1の事前選択モジュールにおける類似度が前記所定の要件を満たす前記比較領域は、前記次の画像フレームにおける比較領域の中で類似度が最大の比較領域を含む、
第10の局面に記載の顔位置追跡装置。
[第13の局面]
前記第1の移動ステップの値の範囲は2画素以上である、
第10の局面に記載の顔位置追跡装置。
[第14の局面]
前記顔領域に対する類似度が最大の第2の事前選択領域を求めて、前記第1の事前選択領域を囲む第2のステップサイズの範囲内を検索するように構成された追跡結果選択モジュールであって、前記第2のステップサイズは前記第1のステップサイズ未満である、追跡結果選択モジュールと;
これに対応して、前記追跡結果選択モジュールが、前記第1の事前選択領域、前記検出モジュールによる前記現在の画像フレームの前記次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定することは、前記追跡結果選択モジュールが、前記第2の事前選択領域、前記検出モジュールによる前記現在の画像フレームの前記次の画像フレームにおける前記顔領域前記検出結果、及び前記所定の選択規則に基づき、前記次の画像フレームの前記顔位置追跡結果を特定することを含む、
第10乃至13の局面のいずれかに記載の顔位置追跡装置。
[第15の局面]
前記追跡結果選択モジュールが:
前記次の画像フレームにおける前記顔領域を検出し、前記次の画像フレームにおける前記顔領域が検出された場合、前記次のフレームの顔領域と前記第1の事前選択領域との重複係数を計算するように構成された検出・計算モジュールと;
前記検出・計算モジュールにより前記次の画像フレームから顔領域が検出されない、前記検出・計算モジュールが計算した前記重複係数が0である、あるいは前記検出・計算モジュールが計算した前記重複係数が所定の閾値未満である、という条件のうちの少なくとも1つが満たされる場合、前記第1の事前選択領域を前記次の画像フレームの前記顔位置追跡結果として用い;前記検出・計算モジュールが計算した前記重複係数が、前記所定の閾値以上である場合、前記次の画像フレーム内にあり、前記検出モジュールが検出した前記顔領域を前記次の画像フレームの前記顔位置追跡結果として用いるように構成された選択モジュールと;を備える、
第9の局面に記載の顔位置追跡装置。
[第16の局面]
前記検出モジュールが現在の画像フレームにおける顔領域を検出することが:
少なくとも2つの顔が前記現在の画像フレームから検出された場合、前記現在の画像フレームにおける最大領域の顔に対応する領域を前記現在の画像フレームにおける前記顔領域として選択するステップを備える、
第9の局面に記載の顔位置追跡装置。
[第17の局面]
顔位置追跡電子デバイスであって:
処理を待つ現在の画像フレームを取得するように構成された情報取得ユニットと;
前記現在の画像フレームにおける顔領域を検出し;前記現在の画像フレームにおける前記検出した顔領域に基づき、前記現在の画像フレームの次の画像フレームにおける、顔を含む予測領域を計算し、前記顔領域に対する類似度が所定の要件を満たす第1の事前選択領域を求めて前記予測領域を検索し;前記第1の事前選択領域、前記処理ユニットによる前記現在の画像フレームの前記次の画像フレームにおける顔領域検出結果、及び所定の選択規則に基づき、前記次の画像フレームの顔位置追跡結果を特定するように構成された処理ユニットと;
前記処理ユニットが取得した前記顔位置追跡結果を表示するように構成されたディスプレイユニットと;を備える、
顔位置追跡電子デバイス。