特許7608709 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許7608709映像処理方法、コンピュータプログラム及び映像処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-23

(45)【発行日】2025-01-07

(54)【発明の名称】映像処理方法、コンピュータプログラム及び映像処理装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20241224BHJP

【ＦＩ】

G06T7/00 660A

【請求項の数】 28

(21)【出願番号】P 2020134567

(22)【出願日】2020-08-07

(65)【公開番号】P2021034040

(43)【公開日】2021-03-01

【審査請求日】2023-08-04

(31)【優先権主張番号】10-2019-0104570

(32)【優先日】2019-08-26

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】姜東佑

(72)【発明者】

【氏名】許珍九

(72)【発明者】

【氏名】姜柄敏

(72)【発明者】

【氏名】南東▲きょん▼

【審査官】高野美帆子

(56)【参考文献】

【文献】特開２０１０－１２８９６１（ＪＰ，Ａ）

【文献】特開２０１８－１８１１５７（ＪＰ，Ａ）

【文献】特開２００２－００８０２０（ＪＰ，Ａ）

【文献】Dongwoo KANG et al.，Pupil detection and tracking for AR 3D under various circumstances，Proc. IS&T Int' I. Symp. on Electronic Imaging; Autonomous Vehicles and Machines Conference，米国，2019年01月13日，Vol. 31，No. 15，p.55-1-55-5，DOI: 10.2352/ISSN.2470-1173.2019.15.AVM-055

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

映像フレームを取得するステップと、
前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第１事前情報に基づく顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、映像処理方法。

【請求項2】

前記第２事前情報は、前記少なくとも１つの以前フレームから前記顔領域の検出が実行されたことに基づいて取得された少なくとも１つの以前スキャン領域に関する情報を含み、
前記スキャン領域を設定するステップは、前記少なくとも１つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定するステップを含む、請求項１に記載の映像処理方法。

【請求項3】

前記スキャン領域を再設定するステップは、前記少なくとも１つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップを含む、請求項２に記載の映像処理方法。

【請求項4】

前記ウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップは、
前記以前スキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張するステップと、
前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定するステップと、
を含む、請求項３に記載の映像処理方法。

【請求項5】

前記顔領域の追跡に失敗した回数に対応して、前記ウィンドウの大きさを順次拡張するステップは、
前記顔領域の追跡に１回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前スキャン領域を上、下、左、右に拡張した第１ウィンドウの大きさで拡張するステップと、
前記顔領域の追跡に２回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第１ウィンドウに基づいて前記スキャン領域を左右に拡張した第２ウィンドウの大きさで拡張するステップと、
前記顔領域の追跡に３回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第２ウィンドウに基づいて前記スキャン領域を上下に拡張した第３ウィンドウの大きさで拡張するステップと、
のうち少なくとも１つを含む、請求項４に記載の映像処理方法。

【請求項6】

前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定するステップをさらに含む、請求項１～５のうちの何れか１項に記載の映像処理方法。

【請求項7】

前記ユーザの顔領域を追跡するステップは、
予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列するステップと、
前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡するステップと、
を含む、請求項１～６のうちの何れか１項に記載の映像処理方法。

【請求項8】

前記整列するステップは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせるステップを含む、請求項７に記載の映像処理方法。

【請求項9】

前記整列するステップは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列するステップを含む、請求項７に記載の映像処理方法。

【請求項10】

前記第１事前情報は、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも１つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも１つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも１つを含む、請求項１～５のうちの何れか１項に記載の映像処理方法。

【請求項11】

映像フレームを取得するステップと、
前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第１事前情報に基づく顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップと、
を含み、前記ユーザの顔領域を追跡するステップは、
前記第１事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップであって、前記映像フレームで前記第１事前情報に基づいて決定された前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することを含むステップと、
前記追跡マップに応じて前記ユーザの顔領域を追跡するステップと、
を含む、映像処理方法。

【請求項12】

前記ユーザの検出された顔領域に関する情報を出力するステップをさらに含む、請求項１に記載の映像処理方法。

【請求項13】

前記ユーザの顔に関する情報を出力するステップは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、及び前記スキャン領域に表現されるユーザの顔表情のうち少なくとも１つに関する情報を出力するステップを含む、請求項１２に記載の映像処理方法。

【請求項14】

前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも１つを含む、請求項１に記載の映像処理方法。

【請求項15】

少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサが映像処理方法を実行させる命令を格納するコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラムであって、
前記映像処理方法は、
映像フレームを取得するステップと、
前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第１事前情報に基づく顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて、前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて、前記映像フレームから前記顔領域を検出するステップと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、コンピュータプログラム。

【請求項16】

映像フレームを取得するセンサと、
前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第１事前情報に基づく前記顔領域の追跡の後、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを実行するプロセッサと、
前記ユーザの検出された顔領域に関する情報を出力するディスプレイと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、映像処理装置。

【請求項17】

前記第２事前情報は、
前記少なくとも１つの以前フレームから前記顔領域の検出が実行されたことに基づいて取得された少なくとも１つの以前スキャン領域に関する情報を含み、
前記プロセッサは、前記少なくとも１つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定する、請求項１６に記載の映像処理装置。

【請求項18】

前記プロセッサは、前記少なくとも１つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定する、請求項１７に記載の映像処理装置。

【請求項19】

前記プロセッサは、前記以前スキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張し、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定する、請求項１８に記載の映像処理装置。

【請求項20】

前記プロセッサは、
前記顔領域の追跡に１回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前スキャン領域を上、下、左、右に拡張した第１ウィンドウの大きさで拡張し、
前記顔領域の追跡に２回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第１ウィンドウに基づいて、前記スキャン領域を左右に拡張した第２ウィンドウの大きさで拡張し、
前記顔領域の追跡に３回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第２ウィンドウに基づいて、前記スキャン領域を上下に拡張した第３ウィンドウの大きさで拡張する、請求項１９に記載の映像処理装置。

【請求項21】

前記プロセッサは、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定する、請求項１６～２０のうちの何れか１項に記載の映像処理装置。

【請求項22】

前記プロセッサは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列し、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡する、請求項１６～２１のうちの何れか１項に記載の映像処理装置。

【請求項23】

前記プロセッサは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせる、請求項２２に記載の映像処理装置。

【請求項24】

前記プロセッサは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列する、請求項２２に記載の映像処理装置。

【請求項25】

前記第１事前情報は、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも１つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも１つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも１つを含む、請求項１６～２０のうちの何れか１項に記載の映像処理装置。

【請求項26】

映像フレームを取得するセンサと、
前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第１事前情報に基づく前記顔領域の追跡の後、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを実行するプロセッサと、
前記ユーザの検出された顔領域に関する情報を出力するディスプレイと、
を含み、前記ユーザの顔領域を追跡するステップは、
前記第１事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップであって、前記映像フレームで前記第１事前情報に基づいて決定された前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することを含むステップと、
前記追跡マップに応じて前記ユーザの顔領域を追跡するステップと、
を含む、映像処理装置。

【請求項27】

前記ディスプレイは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、前記スキャン領域に表現されるユーザの顔表情のうち少なくとも１つに関する情報を出力する、請求項１６に記載の映像処理装置。

【請求項28】

前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも１つを含む、請求項１６に記載の映像処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の実施形態は、映像処理方法、コンピュータプログラム及び映像処理装置等に関する。

【背景技術】

【0002】

カメラ基盤の目追跡技術は、例えば、視点追跡基盤の無眼鏡３Ｄ超多視点ディスプレイ、及び／又はＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）など、多くの分野で活用される可能性がある。カメラ基盤の目追跡技術は、カメラの映像品質及び／又は目追跡方法によって性能が左右される。カメラ基盤の目追跡技術は、運転環境における逆光、強い太陽光、暗い低照度の環境、トンネル通過などのように粗さが急変化する環境及び／又は運転者の動きなどにより動作の安定性が低下する。拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）３ＤＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）の実際の使用環境である運転時を考慮すると、ユーザの動き又は粗さの影響などにより、ユーザの目追跡に失敗した場合に迅速に目の位置を再検出して目の座標を確保する方法が求められている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０００－０７０２２５公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一実施形態によれば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々なアプリケーションにおいて、検出器が目又は目領域の追跡に失敗した場合、迅速に目座標を復元することにある。

【0005】

一実施形態によれば、顔追跡に失敗する場合、映像フレーム全体をスキャニングする代わりに、事前情報（例えば、以前に検出された顔領域など）に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することで、目座標の検出速度を向上させることにある。

【0006】

一実施形態によれば、再設定されたスキャン領域でも顔領域の検出に失敗した場合、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、目座標の再確保時のレイテンシを低減させることにある。

【課題を解決するための手段】

【0007】

一実施形態によれば、映像処理方法は、映像フレームを取得するステップと、前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第１事前情報に基づく顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを含む。

【0008】

前記第２事前情報は、前記少なくとも１つの以前フレームから前記顔領域の検出が実行されたことに基づいて、前記少なくとも１つの以前スキャン領域に関する情報を含み、前記スキャン領域を設定するステップは、前記少なくとも１つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定するステップを含むことができる。

【0009】

前記スキャン領域を再設定するステップは、前記少なくとも１つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップを含むことができる。

【0010】

前記ウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップは、前記以前のスキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張するステップと、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定するステップとを含むことができる。

【0011】

前記顔領域の追跡に失敗した回数に対応して、前記ウィンドウの大きさを順次拡張するステップは、前記顔領域の追跡に１回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前のスキャン領域を上、下、左、右に拡張した第１ウィンドウの大きさで拡張するステップと、前記顔領域の追跡に２回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第１ウィンドウに基づいて前記スキャン領域を左右に拡張した第２ウィンドウの大きさで拡張するステップと、前記顔領域の追跡に３回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第２ウィンドウに基づいて前記スキャン領域を上下に拡張した第３ウィンドウの大きさで拡張するステップのうち少なくとも１つを含むことができる。

【0012】

前記映像処理方法は、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定するステップをさらに含むことができる。

【0013】

前記映像処理方法は、前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップと、前記初期スキャンウィンドウによって初期スキャン領域を設定するステップとをさらに含むことができる。

【0014】

前記初期スキャンウィンドウを選択するステップは、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択するステップを含むことができる。

【0015】

前記ユーザの顔領域を追跡するステップは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列するステップと、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡するステップとを含むことができる。

【0016】

前記整列するステップは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせるステップを含むことができる。

【0017】

前記整列するステップは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列するステップを含むことができる。

【0018】

前記第１事前情報は、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも１つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも１つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも１つを含むことができる。

【0019】

前記ユーザの顔領域を追跡するステップは、前記第１事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップと、前記追跡マップに応じて前記ユーザの顔領域を追跡するステップとを含むことができる。

【0020】

前記追跡マップを生成するステップは、前記映像フレームで前記第１事前情報に基づいて前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成するステップを含むことができる。

【0021】

前記映像処理方法は、前記ユーザの検出された顔領域に関する情報を出力するステップをさらに含むことができる。

【0022】

前記ユーザの顔に関する情報を出力するステップは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、及び前記スキャン領域に表現されるユーザの顔表情のうち少なくとも１つに関する情報を出力するステップを含むことができる。

【0023】

前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも１つを含むことができる。

【0024】

一実施形態によると、少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサが映像処理方法を実行させる命令を格納するコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラムであって、前記映像処理方法は、映像フレームを取得するステップと、前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第１事前情報に基づく顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて、前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて、前記映像フレームから前記顔領域を検出するステップとを含む。

【0025】

一実施形態によると、映像処理装置は、映像フレームを取得するセンサと、前記映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡し、前記第１事前情報に基づく前記顔領域の追跡の後に、前記少なくとも１つの以前フレームから取得した第２事前情報に基づいて前記映像フレームにおけるスキャン領域を設定し、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するプロセッサと、前記ユーザの検出された顔領域に関する情報を出力するディスプレイとを含む。

【0026】

前記第２事前情報は、前記少なくとも１つの以前フレームから前記顔領域の検出が実行されたことに基づいて、前記少なくとも１つの以前スキャン領域に関する情報を含み、前記プロセッサは、前記少なくとも１つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定することができる。

【0027】

前記プロセッサは、前記少なくとも１つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定することができる。

【0028】

前記プロセッサは、前記以前のスキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張し、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定することができる。

【0029】

前記プロセッサは、前記顔領域の追跡に１回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前のスキャン領域を上、下、左、右に拡張した第１ウィンドウの大きさで拡張し、前記顔領域の追跡に２回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第１ウィンドウに基づいて、前記スキャン領域を左右に拡張した第２ウィンドウの大きさで拡張し、前記顔領域の追跡に３回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第２ウィンドウに基づいて、前記スキャン領域を上下に拡張した第３ウィンドウの大きさで拡張することができる。

【0030】

前記プロセッサは、前記少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定することができる。

【0031】

前記プロセッサは、前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択し、前記初期スキャンウィンドウによって初期スキャン領域を設定することができる。

【0032】

前記プロセッサは、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することができる。

【0033】

前記プロセッサは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列し、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡することができる。

【0034】

前記プロセッサは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせることができる。

【0035】

前記プロセッサは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列することができる。

【0036】

【0037】

前記プロセッサは、前記第１事前情報に基づいて前記顔領域に対応する追跡マップを生成し、前記追跡マップに応じて前記ユーザの顔領域を追跡することができる。

【0038】

前記プロセッサは、前記映像フレームで前記第１事前情報に基づいて前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することができる。

【0039】

前記ディスプレイは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、前記スキャン領域に表現されるユーザの顔表情のうち少なくとも１つに関する情報を出力することができる。

【0040】

前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも１つを含むことができる。

【発明の効果】

【0041】

一態様によれば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々なアプリケーションで検出器が目又は目領域の追跡に失敗した場合、迅速に目座標を復元することができる。

【0042】

一態様によれば、顔追跡に失敗する場合、映像フレーム全体をスキャニングする代わりに、事前情報（例えば、以前に検出された顔領域など）に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することで、目座標の検出速度を向上させることができる。

【0043】

一態様によれば、再設定されたスキャン領域でも顔領域の検出に失敗した場合、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、目座標の再確保時のレイテンシを低減することができる。

【図面の簡単な説明】

【0044】

【図1】一実施形態により顔領域を追跡及び検出する過程を説明するための図である。

【図2】一実施形態に係る映像処理方法を示したフローチャートである。

【図3】他の実施形態に係る映像処理方法を示したフローチャートである。

【図4】他の実施形態に係る映像処理方法を示したフローチャートである。

【図5】一実施形態により初期スキャンウィンドウの位置を設定する方法を説明するための図である。

【図6】一実施形態によりスキャン領域を設定する方法を説明するための図である。

【図7】一実施形態によりユーザの顔領域を追跡する方法を説明するための図である。

【図8】一実施形態に係る映像処理装置のブロック図である。

【発明を実施するための形態】

【0045】

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

【0046】

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

【0047】

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

【0048】

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0049】

以下、実施形態を添付する図面を参照しながら詳細に説明する。添付の図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付し、これに対する重複する説明は省略することにする。

【0050】

下記で説明される実施形態は、無眼鏡３Ｄモニター、無眼鏡３Ｄタブレット／スマートフォン、及び車両用３ＤＨＵＤ（Ｈｅａｄ－ｕｐｄｉｓｐｌａｙ）などを使用する場合、赤外線カメラ又はＲＧＢカメラを用いてユーザの目を追跡し、目の座標を出力するために活用されることができる。また、実施形態は、例えば、モニター内のチップにソフトウェアアルゴリズムの形態のように具現されたり、タブレット／スマートフォンでアプリの形態にも実現可能であり、ハードウェアの目追跡装置にも実現されることができる。実施形態は、例えば、自律走行自動車、知能型車両、スマートフォン、及びモバイル機器などに適用されてもよい。以下、添付する図面を参照しながら実施形態を詳細に説明する。各図面に提示された同じ参照符号は同じ部材を示す。

【0051】

図１は、一実施形態により顔領域を追跡及び検出する過程を説明するための図である。図１を参照すると、一実施形態に係る映像処理装置が映像フレーム１１０をスキャンして顔領域を検出し、顔領域に含まれている目及び鼻を追跡する過程が示されている。

【0052】

例えば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々な状況で、目検出器が映像フレーム１１０における目又は目領域の追跡に失敗したと仮定する。映像フレーム１１０でユーザの目追跡に失敗した場合、映像処理装置は、スキャンウィンドウ１１５を用いて映像１２０のように、ユーザの目及び鼻領域を検出することができる。以下で具体的に説明するが、スキャンウィンドウ１１５は、映像フレームでスキャン領域を設定するウィンドウである。説明の便宜上、「追跡に失敗した」と表現されている。追跡を過不足無く行う等の観点からは、実際に失敗したことが判定された後に、スキャン領域を拡張して追跡を行うことが好ましい。しかしながら、実際に失敗していることが必須ではないことは当業者に明らかであろう。例えば、初期の追跡に失敗してはいないが、以後にスキャン領域を拡張して追跡が行われてもよい。また、スキャン領域を拡張して追跡を行うことが追跡の成否によらず複数回反復されてもよい。

【0053】

映像処理装置は、映像１２０でスキャンウィンドウ１１５内に含まれている目領域、及び鼻領域に対応して、予め決定した複数の特徴点を顔に対応する位置に整列させることができる。予め決定した複数の特徴点は、例えば、目及び鼻などのように顔の特徴を示すキーポイント（ｋｅｙｐｏｉｎｔ）に該当する特徴点であり得る。複数の特徴点は、例えば、映像１２０及び映像１３０に表示されているように点（●）の形態に表示されてもよく、星印（＊）又はその他の様々な形態に表示されてもよい。図１に示す例示的な実施形態において、１１個の特徴点が顔の該当位置に整列されてもよい。

【0054】

映像処理装置は、映像１２０で整列された複数の特徴点に基づいてユーザの顔を追跡し、映像１３０のようにユーザの瞳及び／又はユーザの顔領域を抽出することができる。

【0055】

映像１３０からユーザの瞳及び／又はユーザの顔領域の抽出に失敗した場合、映像処理装置は映像フレーム１１０を再びスキャンする（１４０）。

【0056】

顔追跡に失敗（ＴｒａｃｋｉｎｇＬｏｓｔ）して顔領域を検出するために再びスキャニングを行う場合、一実施形態に係る映像処理装置は、映像フレーム全体をスキャニングする代わりに、事前情報（例えば、以前に検出された顔領域又はスキャン領域など）に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することにより、目座標の検出速度を向上させることができる。一実施形態では、車両内の運転者が撮影するときのように、運転者が固定されているカメラを用いてキャプチャーされ、運転者が制限された移動範囲内にある場合、映像フレーム内のスキャン領域が制限され、目又は顔の検出速度を向上させることができる。また、一実施形態によれば、制限されたスキャン領域から顔領域の検出に失敗した場合、スキャン領域を再設定するためのウィンドウの大きさを順次拡張させることで、目座標を検出するときのレイテンシ（ｌａｔｅｎｃｙ）を低減させることができる。

【0057】

図２は、一実施形態に係る映像処理方法を示したフローチャートである。図２を参照すると、一実施形態に係る映像処理装置は、映像フレームを取得する（Ｓ２１０）。映像フレームは、例えば、カラー映像フレーム及び／又は赤外線映像フレームを含む。映像フレームは、例えば、車両内に設けられたカメラ、画像センサなどにより撮影された運転者の映像であり得る。

【0058】

映像処理装置は、ステップＳ２１０で取得した映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡する（Ｓ２２０）。映像フレームがｔ視点に取得されれば、少なくとも１つの以前フレームは、映像フレームが取得された視点を基準にして以前視点（例えば、ｔ－１視点）あるいは複数の以前視点（例えば、ｔ－１視点、ｔ－２視点、ｔ－３視点）から取得されたものである。第１事前情報は、例えば、少なくとも１つの以前フレームで累積されたユーザの少なくとも１つの瞳孔中心の座標、少なくとも１つの以前フレームでユーザの顔に対応する特徴点の位置座標、及び少なくとも１つの以前フレームでユーザの目及び鼻に対応する特徴点の位置座標などを含んでもよい。

【0059】

ステップＳ２２０で、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位に整列し、整列された複数の特徴点に基づいてユーザの顔を追跡することができる。「複数の特徴部位」は、映像フレームの顔領域に含まれている一部の部位又は領域であって、例えば、目、鼻、その他にも、口、眉毛、メガネなどを含んでもよい。ここで、映像処理装置は、複数の特徴点を、顔領域及び／又は顔領域の隣接領域内に含まれている複数の特徴部位に整列する。映像処理装置は、顔領域内の映像情報に基づいて、予め決定した複数の特徴点を移動（又は、マッピング）させることができる。

【0060】

ステップＳ２２０で、映像処理装置は、第１事前情報に基づいてユーザの顔領域の追跡に成功したか、又は失敗したかを判断する。映像処理装置が顔領域を追跡する方法については、次の図７を参照して具体的に説明する。

【0061】

映像処理装置は、ステップＳ２２０で顔領域の追跡に失敗したという判断に応じて、少なくとも１つの以前フレームから取得した第２事前情報に基づいて映像フレームにおけるスキャン領域を設定する（Ｓ２３０）。第２事前情報は、例えば、少なくとも１つの以前フレームで顔領域の検出が実行されたことに基づいて、少なくとも１つの以前スキャン領域に関する情報を含んでもよい。少なくとも１つの以前スキャン領域は、例えば、初期スキャンウィンドウに設定される初期スキャン領域であってもよい。

【0062】

以下、説明の便宜のために、映像フレームでスキャン領域を設定するウィンドウを「スキャンウィンドウ（ｓｃａｎｗｉｎｄｏｗ）」と呼び、該当の映像フレームでスキャン領域を設定するために最初に用いられるスキャンウィンドウを「初期スキャンウィンドウ（ｉｎｉｔｉａｌｓｃａｎｗｉｎｄｏｗ）」と呼ぶ。初期スキャンウィンドウによって設定されるスキャン領域は、「初期スキャン領域」と呼ぶことができる。初期スキャンウィンドウの位置及び大きさを設定する方法は、次の図５を参照して具体的に説明する。

【0063】

一実施形態において、「スキャン領域を設定する」ことは、スキャン領域を設定する他にも、初期スキャン領域を設定すること、スキャン領域を調整又は再設定すること等を全て含む意味として理解され得る。

【0064】

ステップＳ２３０で、映像処理装置は、例えば、以前のスキャン領域を拡張した領域によりスキャン領域を再設定する。映像処理装置は、スキャン領域から顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置がスキャン領域を設定又は再設定する方法については、次の図６を参照して具体的に説明する。

【0065】

映像処理装置は、ステップＳ２３０で設定したスキャン領域に基づいて映像フレームから顔領域を検出する（Ｓ２４０）。実施形態により、映像処理装置は、ステップＳ２４０から検出した顔領域に関する情報を出力する。ここで、ユーザの顔領域に関する情報は、例えば、スキャン領域に含まれている瞳及び鼻の位置、瞳の位置による視点、スキャン領域に表現されるユーザの顔表情などを含んでもよい。映像処理装置は、顔領域に関する情報を明示的に出力することもでき、暗示的に出力することもできる。「顔領域に関する情報を明らかに出力」するという表現は、例えば、顔領域に含まれている瞳の位置及び／又は顔領域に表現される表情を画面上に表示したり、及び／又は顔領域に含まれている瞳の位置及び／又は顔領域に表示された顔表情をオーディオによって画面に出力するなどの動作を行うことを意味する。又は「顔領域に関する情報を暗示的に出力」するという表現は、例えば、顔領域に含まれている瞳の位置、瞳の位置による視点などによって、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）に表示される映像を調整したり、又は、顔領域に表現される表情に対応するサービスを提供することなどの動作を行うことを意味する。

【0066】

図３は、他の実施形態に係る映像処理方法を示したフローチャートである。図３を参照すると、一実施形態に係る映像処理装置は、カメラからｎ番目の映像フレームを取得する（Ｓ３１０）。映像フレームは、例えば、ＲＧＢカラー映像フレーム又は赤外線（ＩＲ）映像フレームであってもよい。

【0067】

映像処理装置は、以前ｎ－１番目の映像フレームから目及び鼻が検出されたかを判断する（Ｓ３２０）。ここで、映像処理装置は、例えば、以前ｎ－１番目の映像フレームの初期スキャン領域内から目及び鼻が検出されたかを判断する。ステップＳ３２０で、目及び鼻が検出されていないという判断に応じて、映像処理装置は、事前情報に基づいてスキャン領域を設定又は調整し、目又は目及び鼻を検出し（Ｓ３７０）、予め決定した特徴点（例えば、図１に示されている１１個の特徴点）をステップＳ３７０で検出された目又は目及び鼻に整列する（Ｓ３３０）。

【0068】

一方、ステップＳ３２０で、目及び鼻が検出されたという判断に応じて、映像処理装置は、例えば、検出された目又は検出された鼻に予め決定した特徴点を整列する（Ｓ３３０）。例えば、映像処理装置は、ステップＳ３３０で、スキャン領域又はスキャン領域の隣接領域内に含まれている検出された目又は検出された目及び鼻の複数の特徴部位に所定の特徴点を整列する。予め決定した特徴点は、例えば、両目それぞれの３つの特徴点、両目間の中心の１つの特徴点、鼻先の１つの特徴点、口の３つの特徴点（又は、鼻の３つの特徴点）であってもよい。

【0069】

ステップＳ３３０で、映像処理装置は、複数の特徴点を、顔領域及び顔領域の隣接領域内に含まれている複数の特徴部位に整列する。映像処理装置は、顔領域内の映像情報に基づいて、予め決定した複数の特徴点を移動させて複数の特徴部位に整列する。映像処理装置は、例えば、初期形構成から学習した下降ベクトル（ｄｅｓｃｅｎｔｖｅｃｔｏｒ）を用いて、特徴点をイメージの形に整列するＳＤＭ（ＳｕｐｅｒｖｉｓｅｄＤｅｓｃｅｎｔＭｅｔｈｏｄ）方式、形状（ｓｈａｐｅ）と形の主成分分析（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ；ＰＣＡ）に基づいて特徴点を整列するＡＳＭ（ＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌ）方式、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）方式、又はＣＬＭ（ＣｏｎｓｔｒａｉｎｅｄＬｏｃａｌＭｏｄｅｌｓ）方式などのようなさまざまな方法に基づいて、映像フレームの顔領域からユーザの目、鼻に該当する複数の特徴部位の位置を認識することができる。映像処理装置は、認識された複数の特徴部位の位置に予め決定した複数の特徴点を移動（又は、マッピング）させて整列する。例えば、映像フレームが初期映像フレームである場合、整列前の複数の特徴点は、複数のユーザの特徴部位の平均位置に対応する。また、映像フレームが初期映像フレームではない場合、整列前の複数の特徴点は、以前の映像フレームに基づいて整列された複数の特徴点に対応する。

【0070】

映像処理装置は、整列された特徴点によって複数の特徴部位の組み合わせに該当する整列結果を検証する（Ｓ３４０）。映像処理装置は、スキャン領域内の映像情報に基づいて、スキャン領域内に複数の特徴部位の組み合せ（例えば、目と鼻）に該当する顔領域の整列結果を検証する。

【0071】

映像処理装置は、スキャン領域内の映像情報に基づいて、スキャン領域内に複数の特徴部位が目及び鼻の組み合わせに該当するクラスであるか否かを検証する。映像処理装置は、例えば、スケール不変特徴変換、即ちＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴に基づく検証器を用いて、スキャン領域が顔クラスであるか否かを検証することができる。ここで、「ＳＩＦＴ特徴」は、次の２つの段階を経て取得することができる。映像処理装置は、スキャン領域の映像データから映像ピラミッドによるスケール空間で映像の明るさが地域的に極大又は極小の候補特徴点を抽出し、明暗比の低い特徴点をフィルタリングして、映像整合に使用する特徴点を選別する。映像処理装置は、選別された特徴点を中心に、周辺領域の勾配に基づいて方向成分を取得し、得られた方向成分について関心領域を再設定し、特徴点の大きさを検出し、デスクリプターを生成する。ここで、デスクリプターがＳＩＦＴ特徴に該当する。また、「検証器」は、学習映像ＤＢに格納されている各顔の目及び鼻のキーポイントに該当する特徴点を、学習映像フレームの顔領域に整列させ、整列させたそれぞれの特徴点から抽出されたＳＩＦＴ特徴を学習した分類器である。検証器は、映像フレームの顔領域内の映像情報を用いて、特徴点が整列された顔領域が実際の顔クラスに該当するかを検証する。検証器は、例えば、サポートベクトルマシーン分類器（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｃｌａｓｓｉｆｉｅｒ；ＳＶＭ）であってもよい。検証器は、顔領域に対する整列の有無を検証するという点で、「顔検証器（ｆａｃｅｃｈｅｃｋｅｒ）」と呼ぶことができる。

【0072】

映像処理装置はステップＳ３４０の検証結果、目が検出されたか否かを判断する（Ｓ３５０）。ステップＳ３５０で目が追跡されていないという判断に応じて、映像処理装置は、事前情報に基づいてスキャン領域を設定し、目又は目及び鼻を検出する（Ｓ３７０）。

【0073】

ステップＳ３５０で目が追跡されたという判断に応じて、映像処理装置は、目の座標又は瞳の座標を出力する（Ｓ３６０）。

【0074】

図４は、他の実施形態に係る映像処理方法を示したフローチャートである。図４を参照すると、一実施形態に係る映像処理装置は、映像フレーム（例えば、ｎフレーム）から目及び鼻を含む顔領域が検出されたかを判断する（Ｓ４１０）。ステップＳ４１０で、目及び鼻が検出されれば、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位（例えば、目、鼻、目との間の中間、瞳など）に整列する（Ｓ４４０）。映像処理装置は、ステップＳ４４０で整列した複数の特徴点に基づいて、ユーザの顔領域を追跡する（Ｓ４５０）。

【0075】

一方、ステップＳ４１０で顔領域が検出されていなければ、映像処理装置は、映像フレームの少なくとも１つの以前フレーム（例えば、ｎ－１フレーム）で取得した事前情報に基づいて、映像フレームにおけるスキャン領域を設定する（Ｓ４２０）。ここで、スキャン領域は、スキャン領域を設定するウィンドウによって設定されてもよい。

【0076】

映像処理装置は、ステップＳ４２０で設定されたスキャン領域から顔領域が検出されたか、言い換えれば、設定されたスキャン領域を使用することで、例えば、ｎ－番目のフレームのような映像フレームから顔領域の検出に成功したかを判断する（Ｓ４３０）。ステップＳ４３０で顔領域の検出に成功したという判断に応じて、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位に整列する（Ｓ４４０）。映像処理装置は、ステップＳ４４０で整列された複数の特徴点に基づいてユーザの顔領域を追跡する（Ｓ４５０）。

【0077】

これとは異なって、ステップＳ４３０で顔領域の検出に失敗したという判断に応じて、映像処理装置は、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置は、ステップＳ４３０で顔領域の検出に失敗したという判断に応じて、スキャンウィンドウの大きさを拡張する（Ｓ４６０）。ステップＳ４６０で、映像処理装置は、スキャン領域から顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置は、ステップＳ４６０で順次拡張されたウィンドウの大きさに応じてスキャン領域を再設定する（Ｓ４２０）。映像処理装置は、スキャン領域で顔領域の追跡に失敗した回数に対応して、スキャンウィンドウの大きさの順次的な拡張を繰り返すことによりスキャン領域を再設定することができる。例えば、映像処理装置は、スキャン領域をリセットし、スキャン領域で顔領域の追跡が失敗するごとに、スキャンウィンドウの大きさを順次拡張することができる。

【0078】

一実施形態において、スキャンウィンドウの大きさを拡張する反復回数は、ユーザによって予め一定の回数（例えば、３回又は４回）に決定してもよく、スキャン領域から顔領域の追跡に成功するまで、言い換えれば、スキャンウィンドウの大きさが映像フレーム全体に拡張されるまで繰り返してもよい。映像処理装置がスキャン領域を設定又は再設定する方法については、次の図６を参照して具体的に説明する。

【0079】

図５は、一実施形態により初期スキャンウィンドウの位置を設定する方法を説明するための図である。図５を参照すると、一実施形態に係る映像フレーム５１０で初期スキャンウィンドウ５１７が設定された図を示している。

【0080】

一実施形態に係る映像処理装置は、例えば、目、鼻、口、眉毛、メガネなどのように映像フレーム５１０の顔領域に含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウ５１５のうち、スキャン領域に対応する初期スキャンウィンドウ５１７を選択する。映像処理装置は、例えば、映像フレーム５１０を撮影したカメラの位置及びユーザの統計的な位置座標に基づいて、複数の候補ウィンドウ５１５のうち、初期スキャンウィンドウ５１７を選択する。ここで、運転環境における顔検出の実施形態でユーザの統計的な位置座標は、例えば、車両の運転席に座っているユーザが平均的に移動可能な位置座標を平均した位置座標である。映像処理装置は、初期スキャンウィンドウ５１７の位置に応じて初期スキャン領域を設定することができる。

【0081】

実施形態に従って、映像処理装置は、少なくとも１つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、該当映像フレームのための初期スキャンウィンドウ５１７を設定する。映像処理装置は、例えば、ユーザの瞳孔中心の座標に基づいて、左右マージンを置いた領域に初期スキャンウィンドウ５１７を設定することができる。

【0082】

図６は、一実施形態によりスキャン領域を設定する方法を説明するための図である。図６を参照すると、一実施形態に係る初期スキャンウィンドウ６１１、及び第１ウィンドウ６１５が設定された映像６１０、第２ウィンドウ６３５が設定された映像６３０、及び第３ウィンドウ６５５が設定された映像６５０が示されている。

【0083】

一実施形態に係る映像処理装置は、スキャン領域で顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を設定することができる。

【0084】

例えば、スキャンウィンドウにより顔領域の追跡に１回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを映像６１０に示すよう、第１ウィンドウ６１５の大きさに拡張されてもよい。第１ウィンドウ６１５の大きさは、例えば、図６に示された初期スキャンウィンドウ６１１に対応する初期スキャン領域を上、下、左、右に拡張した大きさである。第１ウィンドウ６１５の大きさは、例えば、初期スキャン領域を上、下、左、右に５％ずつ拡張した大きさであってもよい。

【0085】

例えば、顔領域の追跡に２回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを図６の映像６３０に示すように、第２ウィンドウ６３５の大きさに拡張する。第２ウィンドウ６３５の大きさは、例えば、図６に示された第１ウィンドウ６１５に基づいて、スキャン領域を左右に拡張した大きさである。第２ウィンドウ６３５の大きさは、例えば、第１ウィンドウ６１５の左右を、初期スキャンウィンドウ６１１で目の間の中心から各両目までの距離＋一定のマージン（ｍａｒｇｉｎｅ）（例えば、２ｍｍ）の距離だけ拡張した大きさである。例えば、目の間の中心から右側の目（又は、左側目）までの距離が３．５ｃｍと仮定する。この距離は、目の間の中間部分から複数のユーザの右側の目（又は、左側目）までの距離を平均することで取得される。この場合、第２ウィンドウ６３５の大きさは、第１ウィンドウ６１５の左右をそれぞれ３．７ｃｍだけ拡張した大きさである。

【0086】

例えば、顔領域の追跡に３回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを図６の映像６５０に示すように、第３ウィンドウ６５５の大きさで拡張することができる。第３ウィンドウ６５５の大きさは、例えば、図６に示された第２ウィンドウ６３５に基づいて、スキャン領域を上下に拡張した大きさである。第３ウィンドウ６５５の大きさは、例えば、第２ウィンドウ６３５の上下を、「初期スキャンウィンドウ６１１で目の間の中心から各両目までの距離＋一定のマージン（例えば、２ｍｍ）」の距離だけ拡張した大きさである。例えば、目の間の中心から右側の目（又は、左側目）までの距離が３．５ｃｍであると仮定する。この場合、第３ウィンドウ６５５の大きさは、第２ウィンドウ６３５の上下をそれぞれ３．７ｃｍだけ拡張した大きさである。

【0087】

図６において、第１ウィンドウ６１５の大きさは初期スキャンウィンドウ６１１の大きさが上向き、下向き、左側及び右側に拡張されることに対応し、第２ウィンドウ６３５の大きさは、左右に拡張された第１ウィンドウ６１５の大きさに対応し、第３ウィンドウ６５５の大きさは上下に拡張された第２ウィンドウ６３５の大きさに対応するものと記述されていが、これらは単に例示的な目的に提供された例であり、本明細書にて説明した拡長方向に制限されることはない。各ウィンドウは、任意の上向き、下向き、左側、右側又はこれらの組み合わせ、又は、任意の他の方向に拡張され得るものとして理解される。

【0088】

図７は、一実施形態によりユーザの顔領域を追跡する方法を説明するための図である。図７を参照すると、一実施形態に係る映像フレーム７１０及び映像フレーム７１０の以前のフレームに基づいて生成された追跡マップ（ｔｒａｃｋｉｎｇｍａｐ）７２０が示されている。

【0089】

一実施形態に係る映像処理装置は、映像フレーム７１０の少なくとも１つの以前フレームから取得した事前情報（例えば、第１事前情報）に基づいて、映像フレーム７１０の顔領域に対応する追跡マップ７２０を生成する。第１事前情報は、例えば、少なくとも１つの以前フレームで累積されたユーザの少なくとも１つの瞳孔中心の座標、少なくとも１つの以前フレームでユーザの顔に対応する特徴点の位置座標、及び少なくとも１つの以前フレームでユーザの目及び鼻に対応する特徴点の位置座標などを含んでもよい。

【0090】

映像処理装置は、例えば、第１事前情報に基づいて、映像フレーム７１０で移動可能な顔領域の移動範囲を決定することができる。ここで、移動可能な顔領域の移動範囲は、図７に示すように運転者が運転席に座っている姿勢で、上半身又は頭を左右に動く場合に顔領域の移動範囲だけではなく、運転者が上半身又は頭を前後に回転させる場合に顔領域の移動範囲も含む意味として理解され得る。

【0091】

映像処理装置は、顔領域の移動範囲に基づいて追跡マップ７２０を生成する。追跡マップ７２０は、顔領域の移動可能な上、下、左、右に対する顔領域の最大移動範囲に対応する座標を含んでもよい。映像処理装置は、追跡マップ７２０によりユーザの顔領域を追跡することができる。

【0092】

図８は、一実施形態に係る映像処理装置のブロック図である。図８を参照すると、一実施形態に係る映像処理装置８００は、センサ８１０、プロセッサ８３０、メモリ８５０、通信インターフェース８７０、及びディスプレイ８９０を含む。センサ８１０、プロセッサ８３０、メモリ８５０、通信インターフェース８７０及びディスプレイ８９０は通信バス８０５を介して通信することができる。

【0093】

センサ８１０は、映像フレームを取得する。センサ８１０は、例えば、赤外線照明によって入力映像を撮影するイメージセンサ、ビジョンセンサ、又は赤外線カメラであってもよい。映像フレームは、例えば、ユーザの顔映像又は車両で走行中であるユーザの映像を含んでもよい。

【0094】

プロセッサ８３０は、映像フレームの少なくとも１つの以前フレームから取得した第１事前情報に基づいて、ユーザの顔領域を追跡する。プロセッサ８３０は、第１事前情報に基づく顔領域の追跡に失敗したという判断に応じて、少なくとも１つの以前フレームから取得した第２事前情報に基づいて映像フレームにおけるスキャン領域を設定する。プロセッサ８３０は、スキャン領域に基づいて映像フレームから顔領域を検出する。プロセッサ８３０は１つであってもよく、複数であってもよい。

【0095】

プロセッサ８３０は、図１～図７を参照して前述した少なくとも１つの方法又は少なくとも１つの方法に対応するアルゴリズムを行うことができる。プロセッサ８３０は、プログラムを実行し、映像処理装置８００を制御する。プロセッサ８３０によって実行されるプログラムコードは、メモリ８５０に格納されてもよい。プロセッサ８３０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＮＰＵ（ＮｅｕｒａｌＮｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）から構成される。

【0096】

メモリ８５０は、センサ８１０によって取得した映像フレーム、プロセッサ８３０が映像フレームの少なくとも１つの以前フレームから取得した第１事前情報及び第２事前情報、プロセッサ８３０が取得したユーザの顔領域、及び／又は顔領域に関する情報などを格納する。また、メモリ８５０は、プロセッサ８３０が検出した顔領域に関する情報を格納してもよい。メモリ８５０は、揮発性メモリ又は不揮発性メモリであってもよい。

【0097】

通信インターフェース８７０は、映像処理装置８００の外部から映像フレームを受信する。通信インターフェース８７０は、プロセッサ８３０で検出した顔領域及び／又はユーザの顔領域に関する情報を出力する。通信インターフェース８７０は、映像処理装置８００の外部でキャプチャーされた映像フレーム又は映像処理装置８００の外部から受信される各種センサの情報などを受信する。

【0098】

ディスプレイ８９０は、例えば、ユーザの顔領域に関する情報などのようにプロセッサ８３０の処理結果を表示する。例えば、映像処理装置８００が車両に内装されている場合、ディスプレイ８９０は車両に設けられたヘッドアップディスプレイ（ＨＵＤ）から構成されてもよい。

【0099】

以上の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

【0100】

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

【0101】

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

【0102】

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【符号の説明】

【0103】

８００：映像処理装置
８０５：通信バス
８１０：センサ
８３０：プロセッサ
８５０：メモリ
８７０：通信インターフェース
８９０：ディスプレイ

【図1】