IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許7608709映像処理方法、コンピュータプログラム及び映像処理装置
<>
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図1
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図2
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図3
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図4
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図5
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図6
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図7
  • 特許-映像処理方法、コンピュータプログラム及び映像処理装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-23
(45)【発行日】2025-01-07
(54)【発明の名称】映像処理方法、コンピュータプログラム及び映像処理装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241224BHJP
【FI】
G06T7/00 660A
【請求項の数】 28
(21)【出願番号】P 2020134567
(22)【出願日】2020-08-07
(65)【公開番号】P2021034040
(43)【公開日】2021-03-01
【審査請求日】2023-08-04
(31)【優先権主張番号】10-2019-0104570
(32)【優先日】2019-08-26
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】姜 東 佑
(72)【発明者】
【氏名】許 珍 九
(72)【発明者】
【氏名】姜 柄 敏
(72)【発明者】
【氏名】南 東▲きょん▼
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2010-128961(JP,A)
【文献】特開2018-181157(JP,A)
【文献】特開2002-008020(JP,A)
【文献】Dongwoo KANG et al.,Pupil detection and tracking for AR 3D under various circumstances,Proc. IS&T Int' I. Symp. on Electronic Imaging; Autonomous Vehicles and Machines Conference,米国,2019年01月13日,Vol. 31,No. 15,p.55-1-55-5,DOI: 10.2352/ISSN.2470-1173.2019.15.AVM-055
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
映像フレームを取得するステップと、
前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第1事前情報に基づく顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、映像処理方法。
【請求項2】
前記第2事前情報は、前記少なくとも1つの以前フレームから前記顔領域の検出が実行されたことに基づいて取得された少なくとも1つの以前スキャン領域に関する情報を含み、
前記スキャン領域を設定するステップは、前記少なくとも1つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定するステップを含む、請求項1に記載の映像処理方法。
【請求項3】
前記スキャン領域を再設定するステップは、前記少なくとも1つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップを含む、請求項2に記載の映像処理方法。
【請求項4】
前記ウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップは、
前記以前スキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張するステップと、
前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定するステップと、
を含む、請求項3に記載の映像処理方法。
【請求項5】
前記顔領域の追跡に失敗した回数に対応して、前記ウィンドウの大きさを順次拡張するステップは、
前記顔領域の追跡に1回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前スキャン領域を上、下、左、右に拡張した第1ウィンドウの大きさで拡張するステップと、
前記顔領域の追跡に2回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第1ウィンドウに基づいて前記スキャン領域を左右に拡張した第2ウィンドウの大きさで拡張するステップと、
前記顔領域の追跡に3回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第2ウィンドウに基づいて前記スキャン領域を上下に拡張した第3ウィンドウの大きさで拡張するステップと、
のうち少なくとも1つを含む、請求項4に記載の映像処理方法。
【請求項6】
前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定するステップをさらに含む、請求項1~5のうちの何れか1項に記載の映像処理方法。
【請求項7】
前記ユーザの顔領域を追跡するステップは、
予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列するステップと、
前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡するステップと、
を含む、請求項1~のうちの何れか1項に記載の映像処理方法。
【請求項8】
前記整列するステップは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせるステップを含む、請求項に記載の映像処理方法。
【請求項9】
前記整列するステップは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列するステップを含む、請求項に記載の映像処理方法。
【請求項10】
前記第1事前情報は、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも1つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも1つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも1つを含む、請求項1~5のうちの何れか1項に記載の映像処理方法。
【請求項11】
映像フレームを取得するステップと、
前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第1事前情報に基づく顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップと、
を含み、前記ユーザの顔領域を追跡するステップは、
前記第1事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップであって、前記映像フレームで前記第1事前情報に基づいて決定された前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することを含むステップと、
前記追跡マップに応じて前記ユーザの顔領域を追跡するステップと、
を含む、映像処理方法。
【請求項12】
前記ユーザの検出された顔領域に関する情報を出力するステップをさらに含む、請求項1に記載の映像処理方法。
【請求項13】
前記ユーザの顔に関する情報を出力するステップは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、及び前記スキャン領域に表現されるユーザの顔表情のうち少なくとも1つに関する情報を出力するステップを含む、請求項12に記載の映像処理方法。
【請求項14】
前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも1つを含む、請求項1に記載の映像処理方法。
【請求項15】
少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサが映像処理方法を実行させる命令を格納するコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラムであって、
前記映像処理方法は、
映像フレームを取得するステップと、
前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、
前記第1事前情報に基づく顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて、前記映像フレームにおけるスキャン領域を設定するステップと、
前記スキャン領域に基づいて、前記映像フレームから前記顔領域を検出するステップと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、コンピュータプログラム。
【請求項16】
映像フレームを取得するセンサと、
前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第1事前情報に基づく前記顔領域の追跡の後、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを実行するプロセッサと、
前記ユーザの検出された顔領域に関する情報を出力するディスプレイと、
を含み、前記スキャン領域を設定するステップは、
前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップであって、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することを含む、ステップと、
前記初期スキャンウィンドウによって初期スキャン領域を設定するステップと、
を含む、映像処理装置。
【請求項17】
前記第2事前情報は、
前記少なくとも1つの以前フレームから前記顔領域の検出が実行されたことに基づいて取得された少なくとも1つの以前スキャン領域に関する情報を含み、
前記プロセッサは、前記少なくとも1つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定する、請求項16に記載の映像処理装置。
【請求項18】
前記プロセッサは、前記少なくとも1つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定する、請求項17に記載の映像処理装置。
【請求項19】
前記プロセッサは、前記以前スキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前スキャン領域を設定するウィンドウの大きさを順次拡張し、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定する、請求項18に記載の映像処理装置。
【請求項20】
前記プロセッサは、
前記顔領域の追跡に1回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前スキャン領域を上、下、左、右に拡張した第1ウィンドウの大きさで拡張し、
前記顔領域の追跡に2回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第1ウィンドウに基づいて、前記スキャン領域を左右に拡張した第2ウィンドウの大きさで拡張し、
前記顔領域の追跡に3回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第2ウィンドウに基づいて、前記スキャン領域を上下に拡張した第3ウィンドウの大きさで拡張する、請求項19に記載の映像処理装置。
【請求項21】
前記プロセッサは、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定する、請求項1620のうちの何れか1項に記載の映像処理装置。
【請求項22】
前記プロセッサは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列し、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡する、請求項1621のうちの何れか1項に記載の映像処理装置。
【請求項23】
前記プロセッサは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせる、請求項22に記載の映像処理装置。
【請求項24】
前記プロセッサは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列する、請求項22に記載の映像処理装置。
【請求項25】
前記第1事前情報は、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも1つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも1つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも1つを含む、請求項1620のうちの何れか1項に記載の映像処理装置。
【請求項26】
映像フレームを取得するセンサと、
前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第1事前情報に基づく前記顔領域の追跡の後、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを実行するプロセッサと、
前記ユーザの検出された顔領域に関する情報を出力するディスプレイと、
を含み、前記ユーザの顔領域を追跡するステップは、
前記第1事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップであって、前記映像フレームで前記第1事前情報に基づいて決定された前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することを含むステップと、
前記追跡マップに応じて前記ユーザの顔領域を追跡するステップと、
を含む、映像処理装置。
【請求項27】
前記ディスプレイは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、前記スキャン領域に表現されるユーザの顔表情のうち少なくとも1つに関する情報を出力する、請求項16に記載の映像処理装置。
【請求項28】
前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも1つを含む、請求項16に記載の映像処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は、映像処理方法、コンピュータプログラム及び映像処理装置等に関する。
【背景技術】
【0002】
カメラ基盤の目追跡技術は、例えば、視点追跡基盤の無眼鏡3D超多視点ディスプレイ、及び/又はHUD(Head Up Display)など、多くの分野で活用される可能性がある。カメラ基盤の目追跡技術は、カメラの映像品質及び/又は目追跡方法によって性能が左右される。カメラ基盤の目追跡技術は、運転環境における逆光、強い太陽光、暗い低照度の環境、トンネル通過などのように粗さが急変化する環境及び/又は運転者の動きなどにより動作の安定性が低下する。拡張現実(Augmented Reality)3D HUD(Head Up Display)の実際の使用環境である運転時を考慮すると、ユーザの動き又は粗さの影響などにより、ユーザの目追跡に失敗した場合に迅速に目の位置を再検出して目の座標を確保する方法が求められている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2000-070225公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一実施形態によれば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々なアプリケーションにおいて、検出器が目又は目領域の追跡に失敗した場合、迅速に目座標を復元することにある。
【0005】
一実施形態によれば、顔追跡に失敗する場合、映像フレーム全体をスキャニングする代わりに、事前情報(例えば、以前に検出された顔領域など)に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することで、目座標の検出速度を向上させることにある。
【0006】
一実施形態によれば、再設定されたスキャン領域でも顔領域の検出に失敗した場合、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、目座標の再確保時のレイテンシを低減させることにある。
【課題を解決するための手段】
【0007】
一実施形態によれば、映像処理方法は、映像フレームを取得するステップと、前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第1事前情報に基づく顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するステップとを含む。
【0008】
前記第2事前情報は、前記少なくとも1つの以前フレームから前記顔領域の検出が実行されたことに基づいて、前記少なくとも1つの以前スキャン領域に関する情報を含み、前記スキャン領域を設定するステップは、前記少なくとも1つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定するステップを含むことができる。
【0009】
前記スキャン領域を再設定するステップは、前記少なくとも1つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップを含むことができる。
【0010】
前記ウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定するステップは、前記以前のスキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張するステップと、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定するステップとを含むことができる。
【0011】
前記顔領域の追跡に失敗した回数に対応して、前記ウィンドウの大きさを順次拡張するステップは、前記顔領域の追跡に1回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前のスキャン領域を上、下、左、右に拡張した第1ウィンドウの大きさで拡張するステップと、前記顔領域の追跡に2回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第1ウィンドウに基づいて前記スキャン領域を左右に拡張した第2ウィンドウの大きさで拡張するステップと、前記顔領域の追跡に3回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第2ウィンドウに基づいて前記スキャン領域を上下に拡張した第3ウィンドウの大きさで拡張するステップのうち少なくとも1つを含むことができる。
【0012】
前記映像処理方法は、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定するステップをさらに含むことができる。
【0013】
前記映像処理方法は、前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択するステップと、前記初期スキャンウィンドウによって初期スキャン領域を設定するステップとをさらに含むことができる。
【0014】
前記初期スキャンウィンドウを選択するステップは、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択するステップを含むことができる。
【0015】
前記ユーザの顔領域を追跡するステップは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列するステップと、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡するステップとを含むことができる。
【0016】
前記整列するステップは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせるステップを含むことができる。
【0017】
前記整列するステップは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列するステップを含むことができる。
【0018】
前記第1事前情報は、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも1つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも1つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも1つを含むことができる。
【0019】
前記ユーザの顔領域を追跡するステップは、前記第1事前情報に基づいて、前記顔領域に対応する追跡マップを生成するステップと、前記追跡マップに応じて前記ユーザの顔領域を追跡するステップとを含むことができる。
【0020】
前記追跡マップを生成するステップは、前記映像フレームで前記第1事前情報に基づいて前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成するステップを含むことができる。
【0021】
前記映像処理方法は、前記ユーザの検出された顔領域に関する情報を出力するステップをさらに含むことができる。
【0022】
前記ユーザの顔に関する情報を出力するステップは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、及び前記スキャン領域に表現されるユーザの顔表情のうち少なくとも1つに関する情報を出力するステップを含むことができる。
【0023】
前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも1つを含むことができる。
【0024】
一実施形態によると、少なくとも1つのプロセッサによって実行されるとき、前記少なくとも1つのプロセッサが映像処理方法を実行させる命令を格納するコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラムであって、前記映像処理方法は、映像フレームを取得するステップと、前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡するステップと、前記第1事前情報に基づく顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて、前記映像フレームにおけるスキャン領域を設定するステップと、前記スキャン領域に基づいて、前記映像フレームから前記顔領域を検出するステップとを含む。
【0025】
一実施形態によると、映像処理装置は、映像フレームを取得するセンサと、前記映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡し、前記第1事前情報に基づく前記顔領域の追跡の後に、前記少なくとも1つの以前フレームから取得した第2事前情報に基づいて前記映像フレームにおけるスキャン領域を設定し、前記スキャン領域に基づいて前記映像フレームから前記顔領域を検出するプロセッサと、前記ユーザの検出された顔領域に関する情報を出力するディスプレイとを含む。
【0026】
前記第2事前情報は、前記少なくとも1つの以前フレームから前記顔領域の検出が実行されたことに基づいて、前記少なくとも1つの以前スキャン領域に関する情報を含み、前記プロセッサは、前記少なくとも1つの以前スキャン領域を拡張した領域に対して前記スキャン領域を再設定することができる。
【0027】
前記プロセッサは、前記少なくとも1つの以前スキャン領域から前記顔領域の追跡に失敗したか否かに基づいて、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張させることで前記スキャン領域を再設定することができる。
【0028】
前記プロセッサは、前記以前のスキャン領域から前記顔領域の追跡に失敗した回数に対応して、前記以前のスキャン領域を設定するウィンドウの大きさを順次拡張し、前記順次拡張されたウィンドウの大きさに応じて前記スキャン領域を再設定することができる。
【0029】
前記プロセッサは、前記顔領域の追跡に1回失敗したという判断に基づいて、前記ウィンドウの大きさを前記以前のスキャン領域を上、下、左、右に拡張した第1ウィンドウの大きさで拡張し、前記顔領域の追跡に2回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第1ウィンドウに基づいて、前記スキャン領域を左右に拡張した第2ウィンドウの大きさで拡張し、前記顔領域の追跡に3回失敗したという判断に基づいて、前記ウィンドウの大きさを前記第2ウィンドウに基づいて、前記スキャン領域を上下に拡張した第3ウィンドウの大きさで拡張することができる。
【0030】
前記プロセッサは、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、前記スキャン領域に対応する初期スキャンウィンドウを設定することができる。
【0031】
前記プロセッサは、前記映像フレームに含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウのうち前記スキャン領域に対応する初期スキャンウィンドウを選択し、前記初期スキャンウィンドウによって初期スキャン領域を設定することができる。
【0032】
前記プロセッサは、前記映像フレームを撮影したカメラの位置及び前記ユーザの統計的な位置座標に基づいて、前記複数の候補ウィンドウのうち前記初期スキャンウィンドウを選択することができる。
【0033】
前記プロセッサは、予め決定した複数の特徴点を前記顔領域に含まれている複数の特徴部位に整列し、前記整列された予め決定した複数の特徴点に基づいて前記ユーザの顔を追跡することができる。
【0034】
前記プロセッサは、前記顔領域内の映像情報に基づいて、前記予め決定した複数の特徴点をマッピングさせることができる。
【0035】
前記プロセッサは、前記予め決定した複数の特徴点を、前記顔領域及び前記顔領域の隣接領域内に含まれている複数の特徴部位に整列することができる。
【0036】
前記第1事前情報は、前記少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標、前記少なくとも1つの以前フレームで前記ユーザの顔に対応する特徴点の位置座標、及び前記少なくとも1つの以前フレームで前記ユーザの目及び鼻に対応する特徴点の位置座標のうち少なくとも1つを含むことができる。
【0037】
前記プロセッサは、前記第1事前情報に基づいて前記顔領域に対応する追跡マップを生成し、前記追跡マップに応じて前記ユーザの顔領域を追跡することができる。
【0038】
前記プロセッサは、前記映像フレームで前記第1事前情報に基づいて前記顔領域の移動可能な範囲に基づいて前記追跡マップを生成することができる。
【0039】
前記ディスプレイは、前記スキャン領域に含まれている瞳及び鼻の位置、前記瞳の位置による視点、前記スキャン領域に表現されるユーザの顔表情のうち少なくとも1つに関する情報を出力することができる。
【0040】
前記映像フレームは、カラー映像フレーム及び赤外線映像フレームのうち少なくとも1つを含むことができる。
【発明の効果】
【0041】
一態様によれば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々なアプリケーションで検出器が目又は目領域の追跡に失敗した場合、迅速に目座標を復元することができる。
【0042】
一態様によれば、顔追跡に失敗する場合、映像フレーム全体をスキャニングする代わりに、事前情報(例えば、以前に検出された顔領域など)に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することで、目座標の検出速度を向上させることができる。
【0043】
一態様によれば、再設定されたスキャン領域でも顔領域の検出に失敗した場合、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、目座標の再確保時のレイテンシを低減することができる。
【図面の簡単な説明】
【0044】
図1】一実施形態により顔領域を追跡及び検出する過程を説明するための図である。
図2】一実施形態に係る映像処理方法を示したフローチャートである。
図3】他の実施形態に係る映像処理方法を示したフローチャートである。
図4】他の実施形態に係る映像処理方法を示したフローチャートである。
図5】一実施形態により初期スキャンウィンドウの位置を設定する方法を説明するための図である。
図6】一実施形態によりスキャン領域を設定する方法を説明するための図である。
図7】一実施形態によりユーザの顔領域を追跡する方法を説明するための図である。
図8】一実施形態に係る映像処理装置のブロック図である。
【発明を実施するための形態】
【0045】
本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。
【0046】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
【0047】
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0048】
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0049】
以下、実施形態を添付する図面を参照しながら詳細に説明する。添付の図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付し、これに対する重複する説明は省略することにする。
【0050】
下記で説明される実施形態は、無眼鏡3Dモニター、無眼鏡3Dタブレット/スマートフォン、及び車両用3D HUD(Head-up display)などを使用する場合、赤外線カメラ又はRGBカメラを用いてユーザの目を追跡し、目の座標を出力するために活用されることができる。また、実施形態は、例えば、モニター内のチップにソフトウェアアルゴリズムの形態のように具現されたり、タブレット/スマートフォンでアプリの形態にも実現可能であり、ハードウェアの目追跡装置にも実現されることができる。実施形態は、例えば、自律走行自動車、知能型車両、スマートフォン、及びモバイル機器などに適用されてもよい。以下、添付する図面を参照しながら実施形態を詳細に説明する。各図面に提示された同じ参照符号は同じ部材を示す。
【0051】
図1は、一実施形態により顔領域を追跡及び検出する過程を説明するための図である。図1を参照すると、一実施形態に係る映像処理装置が映像フレーム110をスキャンして顔領域を検出し、顔領域に含まれている目及び鼻を追跡する過程が示されている。
【0052】
例えば、瞳孔中心又は目及び鼻を中心に顔を追跡する様々な状況で、目検出器が映像フレーム110における目又は目領域の追跡に失敗したと仮定する。映像フレーム110でユーザの目追跡に失敗した場合、映像処理装置は、スキャンウィンドウ115を用いて映像120のように、ユーザの目及び鼻領域を検出することができる。以下で具体的に説明するが、スキャンウィンドウ115は、映像フレームでスキャン領域を設定するウィンドウである。説明の便宜上、「追跡に失敗した」と表現されている。追跡を過不足無く行う等の観点からは、実際に失敗したことが判定された後に、スキャン領域を拡張して追跡を行うことが好ましい。しかしながら、実際に失敗していることが必須ではないことは当業者に明らかであろう。例えば、初期の追跡に失敗してはいないが、以後にスキャン領域を拡張して追跡が行われてもよい。また、スキャン領域を拡張して追跡を行うことが追跡の成否によらず複数回反復されてもよい。
【0053】
映像処理装置は、映像120でスキャンウィンドウ115内に含まれている目領域、及び鼻領域に対応して、予め決定した複数の特徴点を顔に対応する位置に整列させることができる。予め決定した複数の特徴点は、例えば、目及び鼻などのように顔の特徴を示すキーポイント(key point)に該当する特徴点であり得る。複数の特徴点は、例えば、映像120及び映像130に表示されているように点(●)の形態に表示されてもよく、星印(*)又はその他の様々な形態に表示されてもよい。図1に示す例示的な実施形態において、11個の特徴点が顔の該当位置に整列されてもよい。
【0054】
映像処理装置は、映像120で整列された複数の特徴点に基づいてユーザの顔を追跡し、映像130のようにユーザの瞳及び/又はユーザの顔領域を抽出することができる。
【0055】
映像130からユーザの瞳及び/又はユーザの顔領域の抽出に失敗した場合、映像処理装置は映像フレーム110を再びスキャンする(140)。
【0056】
顔追跡に失敗(Tracking Lost)して顔領域を検出するために再びスキャニングを行う場合、一実施形態に係る映像処理装置は、映像フレーム全体をスキャニングする代わりに、事前情報(例えば、以前に検出された顔領域又はスキャン領域など)に基づいて、映像フレームから目又は目領域を検出するスキャン領域を制限することにより、目座標の検出速度を向上させることができる。一実施形態では、車両内の運転者が撮影するときのように、運転者が固定されているカメラを用いてキャプチャーされ、運転者が制限された移動範囲内にある場合、映像フレーム内のスキャン領域が制限され、目又は顔の検出速度を向上させることができる。また、一実施形態によれば、制限されたスキャン領域から顔領域の検出に失敗した場合、スキャン領域を再設定するためのウィンドウの大きさを順次拡張させることで、目座標を検出するときのレイテンシ(latency)を低減させることができる。
【0057】
図2は、一実施形態に係る映像処理方法を示したフローチャートである。図2を参照すると、一実施形態に係る映像処理装置は、映像フレームを取得する(S210)。映像フレームは、例えば、カラー映像フレーム及び/又は赤外線映像フレームを含む。映像フレームは、例えば、車両内に設けられたカメラ、画像センサなどにより撮影された運転者の映像であり得る。
【0058】
映像処理装置は、ステップS210で取得した映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡する(S220)。映像フレームがt視点に取得されれば、少なくとも1つの以前フレームは、映像フレームが取得された視点を基準にして以前視点(例えば、t-1視点)あるいは複数の以前視点(例えば、t-1視点、t-2視点、t-3視点)から取得されたものである。第1事前情報は、例えば、少なくとも1つの以前フレームで累積されたユーザの少なくとも1つの瞳孔中心の座標、少なくとも1つの以前フレームでユーザの顔に対応する特徴点の位置座標、及び少なくとも1つの以前フレームでユーザの目及び鼻に対応する特徴点の位置座標などを含んでもよい。
【0059】
ステップS220で、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位に整列し、整列された複数の特徴点に基づいてユーザの顔を追跡することができる。「複数の特徴部位」は、映像フレームの顔領域に含まれている一部の部位又は領域であって、例えば、目、鼻、その他にも、口、眉毛、メガネなどを含んでもよい。ここで、映像処理装置は、複数の特徴点を、顔領域及び/又は顔領域の隣接領域内に含まれている複数の特徴部位に整列する。映像処理装置は、顔領域内の映像情報に基づいて、予め決定した複数の特徴点を移動(又は、マッピング)させることができる。
【0060】
ステップS220で、映像処理装置は、第1事前情報に基づいてユーザの顔領域の追跡に成功したか、又は失敗したかを判断する。映像処理装置が顔領域を追跡する方法については、次の図7を参照して具体的に説明する。
【0061】
映像処理装置は、ステップS220で顔領域の追跡に失敗したという判断に応じて、少なくとも1つの以前フレームから取得した第2事前情報に基づいて映像フレームにおけるスキャン領域を設定する(S230)。第2事前情報は、例えば、少なくとも1つの以前フレームで顔領域の検出が実行されたことに基づいて、少なくとも1つの以前スキャン領域に関する情報を含んでもよい。少なくとも1つの以前スキャン領域は、例えば、初期スキャンウィンドウに設定される初期スキャン領域であってもよい。
【0062】
以下、説明の便宜のために、映像フレームでスキャン領域を設定するウィンドウを「スキャンウィンドウ(scan window)」と呼び、該当の映像フレームでスキャン領域を設定するために最初に用いられるスキャンウィンドウを「初期スキャンウィンドウ(initial scan window)」と呼ぶ。初期スキャンウィンドウによって設定されるスキャン領域は、「初期スキャン領域」と呼ぶことができる。初期スキャンウィンドウの位置及び大きさを設定する方法は、次の図5を参照して具体的に説明する。
【0063】
一実施形態において、「スキャン領域を設定する」ことは、スキャン領域を設定する他にも、初期スキャン領域を設定すること、スキャン領域を調整又は再設定すること等を全て含む意味として理解され得る。
【0064】
ステップS230で、映像処理装置は、例えば、以前のスキャン領域を拡張した領域によりスキャン領域を再設定する。映像処理装置は、スキャン領域から顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置がスキャン領域を設定又は再設定する方法については、次の図6を参照して具体的に説明する。
【0065】
映像処理装置は、ステップS230で設定したスキャン領域に基づいて映像フレームから顔領域を検出する(S240)。実施形態により、映像処理装置は、ステップS240から検出した顔領域に関する情報を出力する。ここで、ユーザの顔領域に関する情報は、例えば、スキャン領域に含まれている瞳及び鼻の位置、瞳の位置による視点、スキャン領域に表現されるユーザの顔表情などを含んでもよい。映像処理装置は、顔領域に関する情報を明示的に出力することもでき、暗示的に出力することもできる。「顔領域に関する情報を明らかに出力」するという表現は、例えば、顔領域に含まれている瞳の位置及び/又は顔領域に表現される表情を画面上に表示したり、及び/又は顔領域に含まれている瞳の位置及び/又は顔領域に表示された顔表情をオーディオによって画面に出力するなどの動作を行うことを意味する。又は「顔領域に関する情報を暗示的に出力」するという表現は、例えば、顔領域に含まれている瞳の位置、瞳の位置による視点などによって、HUD(Head Up Display)に表示される映像を調整したり、又は、顔領域に表現される表情に対応するサービスを提供することなどの動作を行うことを意味する。
【0066】
図3は、他の実施形態に係る映像処理方法を示したフローチャートである。図3を参照すると、一実施形態に係る映像処理装置は、カメラからn番目の映像フレームを取得する(S310)。映像フレームは、例えば、RGBカラー映像フレーム又は赤外線(IR)映像フレームであってもよい。
【0067】
映像処理装置は、以前n-1番目の映像フレームから目及び鼻が検出されたかを判断する(S320)。ここで、映像処理装置は、例えば、以前n-1番目の映像フレームの初期スキャン領域内から目及び鼻が検出されたかを判断する。ステップS320で、目及び鼻が検出されていないという判断に応じて、映像処理装置は、事前情報に基づいてスキャン領域を設定又は調整し、目又は目及び鼻を検出し(S370)、予め決定した特徴点(例えば、図1に示されている11個の特徴点)をステップS370で検出された目又は目及び鼻に整列する(S330)。
【0068】
一方、ステップS320で、目及び鼻が検出されたという判断に応じて、映像処理装置は、例えば、検出された目又は検出された鼻に予め決定した特徴点を整列する(S330)。例えば、映像処理装置は、ステップS330で、スキャン領域又はスキャン領域の隣接領域内に含まれている検出された目又は検出された目及び鼻の複数の特徴部位に所定の特徴点を整列する。予め決定した特徴点は、例えば、両目それぞれの3つの特徴点、両目間の中心の1つの特徴点、鼻先の1つの特徴点、口の3つの特徴点(又は、鼻の3つの特徴点)であってもよい。
【0069】
ステップS330で、映像処理装置は、複数の特徴点を、顔領域及び顔領域の隣接領域内に含まれている複数の特徴部位に整列する。映像処理装置は、顔領域内の映像情報に基づいて、予め決定した複数の特徴点を移動させて複数の特徴部位に整列する。映像処理装置は、例えば、初期形構成から学習した下降ベクトル(descent vector)を用いて、特徴点をイメージの形に整列するSDM(Supervised Descent Method)方式、形状(shape)と形の主成分分析(principal component analysis;PCA)に基づいて特徴点を整列するASM(Active Shape Model)方式、AAM(Active Appearance Model)方式、又はCLM(Constrained Local Models)方式などのようなさまざまな方法に基づいて、映像フレームの顔領域からユーザの目、鼻に該当する複数の特徴部位の位置を認識することができる。映像処理装置は、認識された複数の特徴部位の位置に予め決定した複数の特徴点を移動(又は、マッピング)させて整列する。例えば、映像フレームが初期映像フレームである場合、整列前の複数の特徴点は、複数のユーザの特徴部位の平均位置に対応する。また、映像フレームが初期映像フレームではない場合、整列前の複数の特徴点は、以前の映像フレームに基づいて整列された複数の特徴点に対応する。
【0070】
映像処理装置は、整列された特徴点によって複数の特徴部位の組み合わせに該当する整列結果を検証する(S340)。映像処理装置は、スキャン領域内の映像情報に基づいて、スキャン領域内に複数の特徴部位の組み合せ(例えば、目と鼻)に該当する顔領域の整列結果を検証する。
【0071】
映像処理装置は、スキャン領域内の映像情報に基づいて、スキャン領域内に複数の特徴部位が目及び鼻の組み合わせに該当するクラスであるか否かを検証する。映像処理装置は、例えば、スケール不変特徴変換、即ちSIFT(Scale Invariant Feature Transform)特徴に基づく検証器を用いて、スキャン領域が顔クラスであるか否かを検証することができる。ここで、「SIFT特徴」は、次の2つの段階を経て取得することができる。映像処理装置は、スキャン領域の映像データから映像ピラミッドによるスケール空間で映像の明るさが地域的に極大又は極小の候補特徴点を抽出し、明暗比の低い特徴点をフィルタリングして、映像整合に使用する特徴点を選別する。映像処理装置は、選別された特徴点を中心に、周辺領域の勾配に基づいて方向成分を取得し、得られた方向成分について関心領域を再設定し、特徴点の大きさを検出し、デスクリプターを生成する。ここで、デスクリプターがSIFT特徴に該当する。また、「検証器」は、学習映像DBに格納されている各顔の目及び鼻のキーポイントに該当する特徴点を、学習映像フレームの顔領域に整列させ、整列させたそれぞれの特徴点から抽出されたSIFT特徴を学習した分類器である。検証器は、映像フレームの顔領域内の映像情報を用いて、特徴点が整列された顔領域が実際の顔クラスに該当するかを検証する。検証器は、例えば、サポートベクトルマシーン分類器(SupportVector Machine classifier;SVM)であってもよい。検証器は、顔領域に対する整列の有無を検証するという点で、「顔検証器(face checker)」と呼ぶことができる。
【0072】
映像処理装置はステップS340の検証結果、目が検出されたか否かを判断する(S350)。ステップS350で目が追跡されていないという判断に応じて、映像処理装置は、事前情報に基づいてスキャン領域を設定し、目又は目及び鼻を検出する(S370)。
【0073】
ステップS350で目が追跡されたという判断に応じて、映像処理装置は、目の座標又は瞳の座標を出力する(S360)。
【0074】
図4は、他の実施形態に係る映像処理方法を示したフローチャートである。図4を参照すると、一実施形態に係る映像処理装置は、映像フレーム(例えば、nフレーム)から目及び鼻を含む顔領域が検出されたかを判断する(S410)。ステップS410で、目及び鼻が検出されれば、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位(例えば、目、鼻、目との間の中間、瞳など)に整列する(S440)。映像処理装置は、ステップS440で整列した複数の特徴点に基づいて、ユーザの顔領域を追跡する(S450)。
【0075】
一方、ステップS410で顔領域が検出されていなければ、映像処理装置は、映像フレームの少なくとも1つの以前フレーム(例えば、n-1フレーム)で取得した事前情報に基づいて、映像フレームにおけるスキャン領域を設定する(S420)。ここで、スキャン領域は、スキャン領域を設定するウィンドウによって設定されてもよい。
【0076】
映像処理装置は、ステップS420で設定されたスキャン領域から顔領域が検出されたか、言い換えれば、設定されたスキャン領域を使用することで、例えば、n-番目のフレームのような映像フレームから顔領域の検出に成功したかを判断する(S430)。ステップS430で顔領域の検出に成功したという判断に応じて、映像処理装置は、予め決定した複数の特徴点を顔領域の複数の特徴部位に整列する(S440)。映像処理装置は、ステップS440で整列された複数の特徴点に基づいてユーザの顔領域を追跡する(S450)。
【0077】
これとは異なって、ステップS430で顔領域の検出に失敗したという判断に応じて、映像処理装置は、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置は、ステップS430で顔領域の検出に失敗したという判断に応じて、スキャンウィンドウの大きさを拡張する(S460)。ステップS460で、映像処理装置は、スキャン領域から顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を再設定することができる。映像処理装置は、ステップS460で順次拡張されたウィンドウの大きさに応じてスキャン領域を再設定する(S420)。映像処理装置は、スキャン領域で顔領域の追跡に失敗した回数に対応して、スキャンウィンドウの大きさの順次的な拡張を繰り返すことによりスキャン領域を再設定することができる。例えば、映像処理装置は、スキャン領域をリセットし、スキャン領域で顔領域の追跡が失敗するごとに、スキャンウィンドウの大きさを順次拡張することができる。
【0078】
一実施形態において、スキャンウィンドウの大きさを拡張する反復回数は、ユーザによって予め一定の回数(例えば、3回又は4回)に決定してもよく、スキャン領域から顔領域の追跡に成功するまで、言い換えれば、スキャンウィンドウの大きさが映像フレーム全体に拡張されるまで繰り返してもよい。映像処理装置がスキャン領域を設定又は再設定する方法については、次の図6を参照して具体的に説明する。
【0079】
図5は、一実施形態により初期スキャンウィンドウの位置を設定する方法を説明するための図である。図5を参照すると、一実施形態に係る映像フレーム510で初期スキャンウィンドウ517が設定された図を示している。
【0080】
一実施形態に係る映像処理装置は、例えば、目、鼻、口、眉毛、メガネなどのように映像フレーム510の顔領域に含まれているユーザの顔の特徴部位に基づいて、複数の候補ウィンドウ515のうち、スキャン領域に対応する初期スキャンウィンドウ517を選択する。映像処理装置は、例えば、映像フレーム510を撮影したカメラの位置及びユーザの統計的な位置座標に基づいて、複数の候補ウィンドウ515のうち、初期スキャンウィンドウ517を選択する。ここで、運転環境における顔検出の実施形態でユーザの統計的な位置座標は、例えば、車両の運転席に座っているユーザが平均的に移動可能な位置座標を平均した位置座標である。映像処理装置は、初期スキャンウィンドウ517の位置に応じて初期スキャン領域を設定することができる。
【0081】
実施形態に従って、映像処理装置は、少なくとも1つの以前フレームで累積されたユーザの瞳孔中心の座標に基づいて、該当映像フレームのための初期スキャンウィンドウ517を設定する。映像処理装置は、例えば、ユーザの瞳孔中心の座標に基づいて、左右マージンを置いた領域に初期スキャンウィンドウ517を設定することができる。
【0082】
図6は、一実施形態によりスキャン領域を設定する方法を説明するための図である。図6を参照すると、一実施形態に係る初期スキャンウィンドウ611、及び第1ウィンドウ615が設定された映像610、第2ウィンドウ635が設定された映像630、及び第3ウィンドウ655が設定された映像650が示されている。
【0083】
一実施形態に係る映像処理装置は、スキャン領域で顔領域の追跡に失敗したか否かに基づいて、スキャン領域を設定するウィンドウの大きさを順次拡張させることで、スキャン領域を設定することができる。
【0084】
例えば、スキャンウィンドウにより顔領域の追跡に1回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを映像610に示すよう、第1ウィンドウ615の大きさに拡張されてもよい。第1ウィンドウ615の大きさは、例えば、図6に示された初期スキャンウィンドウ611に対応する初期スキャン領域を上、下、左、右に拡張した大きさである。第1ウィンドウ615の大きさは、例えば、初期スキャン領域を上、下、左、右に5%ずつ拡張した大きさであってもよい。
【0085】
例えば、顔領域の追跡に2回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを図6の映像630に示すように、第2ウィンドウ635の大きさに拡張する。第2ウィンドウ635の大きさは、例えば、図6に示された第1ウィンドウ615に基づいて、スキャン領域を左右に拡張した大きさである。第2ウィンドウ635の大きさは、例えば、第1ウィンドウ615の左右を、初期スキャンウィンドウ611で目の間の中心から各両目までの距離+一定のマージン(margine)(例えば、2mm)の距離だけ拡張した大きさである。例えば、目の間の中心から右側の目(又は、左側目)までの距離が3.5cmと仮定する。この距離は、目の間の中間部分から複数のユーザの右側の目(又は、左側目)までの距離を平均することで取得される。この場合、第2ウィンドウ635の大きさは、第1ウィンドウ615の左右をそれぞれ3.7cmだけ拡張した大きさである。
【0086】
例えば、顔領域の追跡に3回失敗した場合、映像処理装置は、スキャンウィンドウの大きさを図6の映像650に示すように、第3ウィンドウ655の大きさで拡張することができる。第3ウィンドウ655の大きさは、例えば、図6に示された第2ウィンドウ635に基づいて、スキャン領域を上下に拡張した大きさである。第3ウィンドウ655の大きさは、例えば、第2ウィンドウ635の上下を、「初期スキャンウィンドウ611で目の間の中心から各両目までの距離+一定のマージン(例えば、2mm)」の距離だけ拡張した大きさである。例えば、目の間の中心から右側の目(又は、左側目)までの距離が3.5cmであると仮定する。この場合、第3ウィンドウ655の大きさは、第2ウィンドウ635の上下をそれぞれ3.7cmだけ拡張した大きさである。
【0087】
図6において、第1ウィンドウ615の大きさは初期スキャンウィンドウ611の大きさが上向き、下向き、左側及び右側に拡張されることに対応し、第2ウィンドウ635の大きさは、左右に拡張された第1ウィンドウ615の大きさに対応し、第3ウィンドウ655の大きさは上下に拡張された第2ウィンドウ635の大きさに対応するものと記述されていが、これらは単に例示的な目的に提供された例であり、本明細書にて説明した拡長方向に制限されることはない。各ウィンドウは、任意の上向き、下向き、左側、右側又はこれらの組み合わせ、又は、任意の他の方向に拡張され得るものとして理解される。
【0088】
図7は、一実施形態によりユーザの顔領域を追跡する方法を説明するための図である。図7を参照すると、一実施形態に係る映像フレーム710及び映像フレーム710の以前のフレームに基づいて生成された追跡マップ(tracking map)720が示されている。
【0089】
一実施形態に係る映像処理装置は、映像フレーム710の少なくとも1つの以前フレームから取得した事前情報(例えば、第1事前情報)に基づいて、映像フレーム710の顔領域に対応する追跡マップ720を生成する。第1事前情報は、例えば、少なくとも1つの以前フレームで累積されたユーザの少なくとも1つの瞳孔中心の座標、少なくとも1つの以前フレームでユーザの顔に対応する特徴点の位置座標、及び少なくとも1つの以前フレームでユーザの目及び鼻に対応する特徴点の位置座標などを含んでもよい。
【0090】
映像処理装置は、例えば、第1事前情報に基づいて、映像フレーム710で移動可能な顔領域の移動範囲を決定することができる。ここで、移動可能な顔領域の移動範囲は、図7に示すように運転者が運転席に座っている姿勢で、上半身又は頭を左右に動く場合に顔領域の移動範囲だけではなく、運転者が上半身又は頭を前後に回転させる場合に顔領域の移動範囲も含む意味として理解され得る。
【0091】
映像処理装置は、顔領域の移動範囲に基づいて追跡マップ720を生成する。追跡マップ720は、顔領域の移動可能な上、下、左、右に対する顔領域の最大移動範囲に対応する座標を含んでもよい。映像処理装置は、追跡マップ720によりユーザの顔領域を追跡することができる。
【0092】
図8は、一実施形態に係る映像処理装置のブロック図である。図8を参照すると、一実施形態に係る映像処理装置800は、センサ810、プロセッサ830、メモリ850、通信インターフェース870、及びディスプレイ890を含む。センサ810、プロセッサ830、メモリ850、通信インターフェース870及びディスプレイ890は通信バス805を介して通信することができる。
【0093】
センサ810は、映像フレームを取得する。センサ810は、例えば、赤外線照明によって入力映像を撮影するイメージセンサ、ビジョンセンサ、又は赤外線カメラであってもよい。映像フレームは、例えば、ユーザの顔映像又は車両で走行中であるユーザの映像を含んでもよい。
【0094】
プロセッサ830は、映像フレームの少なくとも1つの以前フレームから取得した第1事前情報に基づいて、ユーザの顔領域を追跡する。プロセッサ830は、第1事前情報に基づく顔領域の追跡に失敗したという判断に応じて、少なくとも1つの以前フレームから取得した第2事前情報に基づいて映像フレームにおけるスキャン領域を設定する。プロセッサ830は、スキャン領域に基づいて映像フレームから顔領域を検出する。プロセッサ830は1つであってもよく、複数であってもよい。
【0095】
プロセッサ830は、図1図7を参照して前述した少なくとも1つの方法又は少なくとも1つの方法に対応するアルゴリズムを行うことができる。プロセッサ830は、プログラムを実行し、映像処理装置800を制御する。プロセッサ830によって実行されるプログラムコードは、メモリ850に格納されてもよい。プロセッサ830は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)又はNPU(Neural Network Processing Unit)から構成される。
【0096】
メモリ850は、センサ810によって取得した映像フレーム、プロセッサ830が映像フレームの少なくとも1つの以前フレームから取得した第1事前情報及び第2事前情報、プロセッサ830が取得したユーザの顔領域、及び/又は顔領域に関する情報などを格納する。また、メモリ850は、プロセッサ830が検出した顔領域に関する情報を格納してもよい。メモリ850は、揮発性メモリ又は不揮発性メモリであってもよい。
【0097】
通信インターフェース870は、映像処理装置800の外部から映像フレームを受信する。通信インターフェース870は、プロセッサ830で検出した顔領域及び/又はユーザの顔領域に関する情報を出力する。通信インターフェース870は、映像処理装置800の外部でキャプチャーされた映像フレーム又は映像処理装置800の外部から受信される各種センサの情報などを受信する。
【0098】
ディスプレイ890は、例えば、ユーザの顔領域に関する情報などのようにプロセッサ830の処理結果を表示する。例えば、映像処理装置800が車両に内装されている場合、ディスプレイ890は車両に設けられたヘッドアップディスプレイ(HUD)から構成されてもよい。
【0099】
以上の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0100】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0101】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0102】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【符号の説明】
【0103】
800:映像処理装置
805:通信バス
810:センサ
830:プロセッサ
850:メモリ
870:通信インターフェース
890:ディスプレイ
図1
図2
図3
図4
図5
図6
図7
図8