【文献】
山添 大丈、外3名,“単眼カメラを用いた視線推定のための三次元眼球モデルの自動キャリブレーション”,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2011年 6月 1日,Vol.J94-D, No.6,pp.998-1006
(58)【調査した分野】(Int.Cl.,DB名)
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することは、
前記画像内の前記顔に基づいて対応する三次元顔モデルを生成することと、
前記眼球中心領域特徴点の二次元座標に基づき、前記三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、を含む、請求項1−5のいずれか一項に記載の方法。
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視スコアを得ることは、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得ることを含む、請求項1、8−10のいずれか一項に記載の方法。
前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得した後に、さらに、
予め設定されたフォーマットに従い、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整することを含み、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得る前記ステップは、
前記フォーマット調整後の前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって前記画像における前記顔の目の注視スコアを得ることを含む、請求項11に記載の方法。
画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得し、および前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するように構成された取得ユニットであって、前記眼部特徴点は眼球中心領域特徴点を含む取得ユニットと、
前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視スコアを得て、前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得るように構成された判定ユニットと、を含み、
前記注視スコアを予め設定された閾値と比較し、前記画像における前記顔の目の注視点位置に対する判定結果を得ることは、
前記注視スコアが前記予め設定された閾値よりも大きいことから、前記画像における前記顔の目の注視点が予め設定された領域内にあると判定するか、または、前記注視スコアが前記予め設定された閾値以下であることから、前記画像における前記顔の目の注視点が予め設定された領域外にあると判定することを含み、
前記予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含む真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含む偽陽性率との差、を含む、注視点判定装置。
【発明を実施するための形態】
【0015】
ここで、図面を参照しながら本開示の様々な例示的実施例を詳細に説明する。なお、特に断らない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本開示の範囲を限定するものではないことに注意すべきである。
【0016】
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
【0017】
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本開示およびその適用または使用へのなんらの制限にもならない。
【0018】
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
【0019】
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
【0020】
本開示の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記あらゆるシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
【0021】
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
【0022】
図1は本開示のいくつかの実施例に係る注視点判定方法のフローチャートであり、該方法はサーバ、または、例えば携帯電話、コンピュータ、車載機器などを含む端末機器によって実行され、
図1に示すように、該方法は以下のステップを含む。
【0023】
102において、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得する。
【0024】
本開示の実施例では、注視点判定用の画像は、例えば、カメラ、写真機、スキャナーなどを含み得る画像収集機器から取得されてもよいし、ハードディスク、光ディスク、フロッピーディスクなどを含み得る記憶機器から取得されてもよく、本開示の実施例は注視点判定対象の画像の取得方式を限定しない。そのうち、眼部特徴は眼球中心領域特徴点を含み、いくつかの実施例では、眼部特徴点はさらに、眼瞼輪郭特徴点および眼球輪郭特徴点を含み、本開示の実施例はこれに限定されない。
【0025】
一例では、通常ヒトの両目は同一方向に同時に注視するため、画像における顔の片方の目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。他の一例では、画像における顔の両目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。
【0026】
いくつかの実施例では、画像の特徴を抽出することで、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。例えば、画像の特徴を抽出し、画像における顔の106個の特徴点の二次元座標を取得し、続いてこの106個の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。
【0027】
いくつかの実施例では、画像における顔の目領域の特徴点の二次元座標に基づき、画像から対応する目領域の矩形画像を切り出し、続いて矩形画像の特徴を抽出し、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。
【0028】
一例では、画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、続いて矩形画像の特徴を抽出し、画像における顔の片方の目の眼部特徴点の二次元座標を取得することができる。
【0029】
他の一例では、画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、続いて矩形画像のミラーリング処理を行い、矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼部特徴点の二次元座標を取得することができる。
【0030】
いくつかの実施例では、ニューラルネットワークまたは他の機械学習の方法によって画像の特徴を抽出することができる。一例では、ニューラルネットワークは畳み込みニューラルネットワークを採用してもよい。本開示の実施例は画像の特徴抽出方法を限定しない。
【0031】
104において、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得する。
【0032】
いくつかの実施例では、画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、画像における顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。
【0033】
いくつかの実施例では、予め設定された三次元座標系は予め設定された原則、例えば、三次元座標系の座標原点は携帯電話の前面カメラの中心点とし、三次元座標系のX軸正方向は座標原点から携帯電話の前面カメラに沿って水平に左に向かっている方向とし、三次元座標系のY軸正方向は座標原点から携帯電話の前面カメラに沿って垂直に上に向かっている方向とし、三次元座標系のZ軸正方向は携帯電話の前面カメラと垂直であるように座標原点から携帯電話の前面カメラ外側に向かっている方向とするような原則に従って決定してもよい。
【0034】
106において、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得る。
【0035】
いくつかの実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視スコアを得て、続いて注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得ることができる。いくつかの実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークまたは他の機械学習の方法によって、画像における顔の目の注視スコアを得ることができる。一例では、ニューラルネットワークは完全接続層およびReLU層からなる簡単なネットワーク構造であってもよい。本開示の実施例は画像における顔の目の注視スコアを得る方法を限定しない。
【0036】
いくつかの実施例では、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するステップの後に、さらに、予め設定されたフォーマットに従い、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整し、それによりフォーマット調整後の眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視スコアを得ることができる。一例では、フォーマット調整はデータ順序の調整であり、即ち眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序を、ニューラルネットワーク訓練時のデータ順序に一致させるように調整することである。
【0037】
いくつかの実施例では、判定結果は、画像における顔の目の注視点が予め設定された領域内にあること、および画像における顔の目の注視点が予め設定された領域外にあることを含むことができる。注視スコアを予め設定された閾値と比較することで、注視スコアが予め設定された閾値よりも大きいことから、画像における顔の目の注視点が予め設定された領域内にあるという判定結果を得ることができ、そして注視スコアが予め設定された閾値以下であることから、画像における顔の目の注視点が予め設定された領域外にあるという判定結果を得ることができる。一例では、予め設定された領域は、画面領域の一部または全てを含むことができ、即ち本開示の実施例は画像における顔の目の注視点が画面領域内にあるかどうか、または画像における顔の目の注視点が画面の特定領域内にあるかどうかを判定するために用いることができる。
【0038】
いくつかの実施例では、予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含み得る真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含み得る偽陽性率との差を含むことができる。
【0039】
いくつかの実施例では、注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得るステップの後に、さらに、判定結果に対応して、画像を処理することができる。一例では、画像における顔の目の注視点が予め設定された領域内にあることに応答して、第一の予め設定された提示方式で画像を提示することができ、画像における顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で画像を提示することができる。一例では、第一の予め設定された提示方式および第二の予め設定された提示方式は提示画像に異なる色のフレームをそれぞれ配置するようにし、例えば、
図2Aおよび2Bに示すように、画像における顔の目の注視点が予め設定された領域内にあることに応答して、提示画像に赤色のフレームを配置し、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、提示画像に青色のフレームを配置する。
【0040】
いくつかの実施例では、本開示の実施例の方法は画像における顔の表情を認識するために用いることができ、また画像における顔の目の注視点位置に対する判定によって、画像における対象者が現在の状況を把握しているかどうかを判定し、それによって端末決済、端末ロック、端末ロック解除において、決済、ロック、ロック解除の安全性を保証することもできる。
【0041】
本開示の上記実施例が提供する注視点判定方法に基づき、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得し、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得て、画像における顔の目の周囲のより細かな情報を学習することで、目の状態をより正確に判定し、より正確な目の状態情報を得ることができる。
【0042】
上記各実施例では、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果を得る場合、採用されるニューラルネットワークは従来のニューラルネットワークではないため、先に該ニューラルネットワークを訓練する必要があり、また該ニューラルネットワークの入力は従来の画像ではなく、画像における顔の眼部特徴点の座標であるため、予め設定されたデータセット内の画像に基づいて該ニューラルネットワークを訓練する前、予め設定されたデータセット内の画像における顔の眼部特徴点の座標を取得する必要がある。
【0043】
以下に
図3および
図4の実施例と関連付けて、予め設定されたデータセットに基づいて予め設定されたデータセット内の各画像における顔の眼部特徴点の座標を取得する流れ、および予め設定されたデータセット内の各画像における顔の眼部特徴点の座標に基づいてニューラルネットワークを訓練する流れを詳細に説明する。
【0044】
なお、
図3および
図4に示す例は本開示の技術的解決手段に対する当業者の理解を助けるためのものに過ぎず、本開示を限定するものではないことを理解すべきである。当業者であれば、
図3および
図4に基づいて様々な変更を行うことができ、このような変更も本開示の技術的解決手段の一部と見なすべきである。
【0045】
図3に示すように、該方法は以下のステップを含む。
【0046】
302において、画像における顔の両目の眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の二次元座標を取得する。
【0047】
本開示の実施例では、画像は予め設定されたデータセットから取得されるものであり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、ここで、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。
【0048】
いくつかの実施例では、画像の特徴を抽出し、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出し、矩形画像のミラーリング処理を行い、矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の二次元座標を取得することができる。
【0049】
いくつかの実施例では、ニューラルネットワークまたは他の機械学習の方法によって画像の特徴を抽出することができる。一例では、ニューラルネットワークは畳み込みニューラルネットワークを採用してもよい。本開示の実施例は画像の特徴抽出方法を限定しない。例えば、ニューラルネットワークによって画像の特徴を抽出し、画像における顔の106個の特徴点の二次元座標を取得してもよい。
【0050】
304において、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの両目の眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得する。
【0051】
いくつかの実施例では、画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、画像内の顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に応じて、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。
【0052】
いくつかの実施例では、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの両目の眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するステップの後に、さらに、予め設定されたフォーマットに従い、眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標をファイルに記憶することができる。一例では、予め設定されたフォーマットは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序であってもよい。
【0053】
いくつかの実施例では、眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標をファイルに記憶する場合、予め設定されたデータセット内の各画像における顔の眼部特徴点の座標をテストセットおよび訓練セットに分けて、それぞれニューラルネットワークの訓練およびテストに用いることができる。
【0054】
図4に示すように、該方法は以下のステップを含む。
【0055】
402において、訓練セット内の訓練サンプルの眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果と訓練サンプルに対応する画像においてラベル付けされた顔の目の注視点位置との間の損失を得て、該損失に基づいてバックプロパゲーションによってニューラルネットワークのパラメータを更新する。
【0056】
本開示の実施例では、予め設定されたデータセット内の画像に基づいて訓練セット内の訓練サンプルを得ることができ、ここで、訓練セット内の各訓練サンプルは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標からなり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。
【0057】
一例では、ニューラルネットワークは完全接続層およびReLU層からなる簡単なネットワーク構造であってもよい。いくつかの実施例では、勾配降下法などのニューラルネットワーク訓練方法を用いてニューラルネットワークを訓練してもよく、本開示の実施例はこれを限定しない。
【0058】
404において、ニューラルネットワークの予め設定された回数の訓練を行ってから、テストセット内のテストサンプルの眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視点位置に対する判定結果の正解率を得て、該正解率に応じてニューラルネットワークの訓練を停止する。
【0059】
本開示の実施例では、予め設定されたデータセット内の画像に基づいてテストセット内のテストサンプルを得ることができ、ここで、テストセット内の各テストサンプルは眼瞼輪郭特徴点の二次元座標、眼球輪郭特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標からなり、予め設定されたデータセット内の各画像にはいずれも画像における顔の目の注視点位置がラベル付けされ、テストセットおよび訓練セットは同一予め設定されたデータセットから得られてもよいし、また異なる予め設定されたデータセットから得られてもよく、本開示の実施例はこれを限定せず、予め設定されたデータセットは従来の顔認識データセットを採用してもよく、本開示の実施例はこれを限定しない。
【0060】
いくつかの実施例では、ニューラルネットワークはタスクが比較的簡単で、過剰適合という現象が発生しやすいため、訓練セットによって得られた損失が不変で、かつテストセットによって得られた正解率が上昇し始める場合、ネットワークの訓練を早期に停止してもよい。
【0061】
上記各実施例では、ニューラルネットワークの訓練を完了してから、テストセットに基づいて画像における顔の目の注視点位置に対する判定の予め設定された閾値を決定することができる。
【0062】
テストサンプルをニューラルネットワークに入力し、各テストサンプルに対応する画像のニューラルネットワークによる注視スコアを得て、続いて各注視スコアを対応する画像のラベルと比較し、注視スコアが現在の閾値よりも大きいものを予め設定された注視領域とし、注視スコアが現在の閾値以下であるものを予め設定された非注視領域とし、True_positiveでスコアが現在の閾値よりも大きくかつラベルが陽性(注視)であるものを表し、False_negativeでスコアが現在の閾値以下かつラベルが陽性(注視)であるものを表し、False_positiveでスコアが現在の閾値よりも大きくかつラベルが陰性(非注視)であるものを表し、True_negativeでスコアが現在の閾値以下かつラベルが陰性(非注視)であるものを表すように、各テストサンプルによって得られた結果を記録し、記録した結果に基づいて真陽性率(True positive rate:Tpr)および偽陽性率(False positive rate:Fpr)を得ることができ、ここで、Tpr=True_positive/(True_positive+False_negative)、画像における顔の目の予め設定された注視領域である場合の正確判定の割合を表し、Fpr=False_positive/(True_negative+False_positive)、画像における顔の目の予め設定された非注視領域である場合の判定誤りの割合を表し、最大のMx=Tpr−Fprの場合の閾値を予め設定された閾値とし、総正解率を保存する。
【0063】
いくつかの実施例では、前記真陽性率は第一割合と呼ばれてもよく、前記偽陽性率は第二割合と呼ばれてもよい。前記「真陽性」および「偽陽性」は二つの割合を区別する名称である。
【0064】
図5は本開示のいくつかの実施例に係る注視点判定装置の構成模式図であり、該装置はサーバ、または、例えば携帯電話、コンピュータ、車載機器などを含む端末機器に設置されて運用され、
図5に示すように、該装置は、取得ユニット510および判定ユニット520を含む。
【0065】
そのうち、取得ユニット510は、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得するように構成される。
【0066】
本開示の実施例では、注視点判定用の画像は、例えば、カメラ、写真機、スキャナーなどを含み得る画像収集機器から取得されてもよいし、ハードディスク、光ディスク、フロッピーディスクなどを含み得る記憶機器から取得されてもよく、本開示の実施例は注視点判定対象の画像の取得方式を限定しない。そのうち、眼部特徴は眼球中心領域特徴点を含み、いくつかの実施例では、眼部特徴点はさらに、眼瞼輪郭特徴点および眼球輪郭特徴点を含み、本開示の実施例はこれに限定されない。
【0067】
一例では、通常ヒトの両目は同一方向に同時に注視するため、取得ユニット510は画像における顔の片方の目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。他の一例では、取得ユニット510は画像における顔の両目の眼部特徴点の二次元座標を取得することで、画像における顔の両目の注視点を判定することができる。
【0068】
いくつかの実施例では、取得ユニット510は画像の特徴を抽出することで、画像における顔の特徴点の二次元座標を取得し、続いて画像における顔の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。例えば、取得ユニット510は画像の特徴を抽出し、画像における顔の106個の特徴点の二次元座標を取得し、続いてこの106個の特徴点の二次元座標に基づき、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる。
【0069】
いくつかの実施例では、
図6に示すように、取得ユニット510は、画像における顔の目領域の特徴点の二次元座標に基づき、画像から対応する目領域の矩形画像を切り出すことができる切り出しサブユニット511、および、矩形画像の特徴を抽出し、画像における顔の少なくとも片方の目の眼部特徴点の二次元座標を取得することができる抽出サブユニット512を含んでもよい。
【0070】
一例では、切り出しサブユニット511は画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出すことができ、抽出サブユニット512は矩形画像の特徴を抽出し、画像における顔の片方の目の眼部特徴点の二次元座標を取得することができる。
【0071】
他の一例では、取得ユニット510はさらに、ミラーリングサブユニット513を含み、切り出しサブユニット511は画像における顔の片方の目領域の特徴点の二次元座標に基づき、画像から対応する目領域を含む矩形画像を切り出すことができるが、ミラーリングサブユニット513は矩形画像のミラーリング処理を行うことができ、抽出サブユニット512は矩形画像およびミラーリング処理後の矩形画像の特徴を抽出し、画像における顔の両目の眼部特徴点の二次元座標を取得することができる。
【0072】
いくつかの実施例では、ニューラルネットワークまたは他の機械学習の方法によって画像の特徴を抽出することができる。一例では、ニューラルネットワークは畳み込みニューラルネットワークを採用してもよい。本開示の実施例は画像の特徴抽出方法を限定しない。
【0073】
取得ユニット510はさらに、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得するために用いられる。
【0074】
いくつかの実施例では、取得ユニット510は画像内の顔に基づいて対応する三次元顔モデルを生成し、続いて眼球中心領域特徴点の二次元座標に基づき、三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することができる。いくつかの実施例では、画像内の顔のキーポイントを予め設定し、取得ユニット510によって画像における顔のキーポイントと三次元顔事前モデルのキーポイントとの対応関係に基づき、顔に対応する三次元顔モデルを生成することができ、例えば、複数のキーポイントは顔の外輪郭キーポイント、眼部キーポイント、眉毛キーポイント、唇キーポイント、鼻キーポイントなどを含んでもよく、本開示の実施例はキーポイントのタイプおよび数を限定しない。
【0075】
いくつかの実施例では、予め設定された三次元座標系は予め設定された原則、例えば、三次元座標系の座標原点は携帯電話の前面カメラの中心点とし、三次元座標系のX軸正方向は座標原点から携帯電話の前面カメラに沿って水平に左に向かっている方向とし、三次元座標系のY軸正方向は座標原点から携帯電話の前面カメラに沿って垂直に上に向かっている方向とし、三次元座標系のZ軸正方向は携帯電話の前面カメラと垂直であるように座標原点から携帯電話の前面カメラ外側に向かっている方向とするような原則に従って決定してもよい。
【0076】
判定ユニット520は、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得るように構成される。
【0077】
いくつかの実施例では、判定ユニット520は眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視スコアを得て、続いて注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得ることができる。いくつかの実施例では、判定ユニット520は眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークまたは他の機械学習の方法によって、画像における顔の目の注視スコアを得ることができる。一例では、ニューラルネットワークは完全接続層およびReLU層からなる簡単なネットワーク構造であってもよい。本開示の実施例は画像における顔の目の注視スコアを得る方法を限定しない。
【0078】
いくつかの実施例では、該装置はさらに調整ユニットを含み、取得ユニット510が眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得してから、調整ユニットは予め設定されたフォーマットに従い、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標のフォーマットを調整することができ、それにより判定ユニット520はフォーマット調整後の眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、ニューラルネットワークによって画像における顔の目の注視スコアを得ることができる。一例では、フォーマット調整はデータ順序の調整であり、即ち眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標の順序を、ニューラルネットワーク訓練時のデータ順序に一致させるように調整することである。
【0079】
いくつかの実施例では、判定結果は、画像における顔の目の注視点が予め設定された領域内にあること、および画像における顔の目の注視点が予め設定された領域外にあることを含むことができる。判定ユニット520は注視スコアを予め設定された閾値と比較することで、注視スコアが予め設定された閾値よりも大きいことから、画像における顔の目の注視点が予め設定された領域内にあるという判定結果を得ることができ、そして注視スコアが予め設定された閾値以下であることから、画像における顔の目の注視点が予め設定された領域外にあるという判定結果を得ることができる。一例では、予め設定された領域は、画面領域の一部または全てを含むことができ、即ち本開示の実施例は画像における顔の目の注視点が画面領域内にあるかどうか、または画像における顔の目の注視点が画面の特定領域内にあるかどうかを判定するために用いることができる。
【0080】
いくつかの実施例では、予め設定された閾値は、画像における顔の目の注視点が予め設定された領域内にある場合の正確判定の割合を含み得る真陽性率と、画像における顔の目の注視点が予め設定された領域外にある場合の判定誤りの割合を含み得る偽陽性率との差を含むことができる。
【0081】
いくつかの実施例では、該装置はさらに、注視スコアを予め設定された閾値と比較し、画像における顔の目の注視点位置に対する判定結果を得てから、さらに判定結果に対応して、画像を処理することができる処理ユニットを含む。一例では、処理ユニットは画像における顔の目の注視点が予め設定された領域内にあることに応答して第一の予め設定された提示方式で画像を提示することができ、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、第二の予め設定された提示方式で画像を提示することができる。一例では、第一の予め設定された提示方式および第二の予め設定された提示方式は提示画像に異なる色のフレームをそれぞれ配置するようにし、例えば、
図2Aおよび2Bに示すように、処理ユニットは画像における顔の目の注視点が予め設定された領域内にあることに応答して、提示画像に赤色のフレームを配置し、そして画像における顔の目の注視点が予め設定された領域外にあることに応答して、提示画像に青色のフレームを配置する。
【0082】
いくつかの実施例では、本開示の実施例の装置は画像における顔の表情を認識するために用いることができ、また画像における顔の目の注視点位置に対する判定によって、画像における対象者が現在の状況を把握しているかどうかを判定し、それによって端末決済、端末ロック、端末ロック解除において、決済、ロック、ロック解除の安全性を保証することもできる。
【0083】
本開示の上記実施例が提供する注視点判定装置に基づき、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得し、眼球中心領域特徴点の二次元座標に基づき、画像内の顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得し、眼部特徴点のうち眼球中心領域特徴点以外の特徴点の二次元座標および眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、画像における顔の目の注視点位置に対する判定結果を得て、画像における顔の目の周囲のより細かな情報を学習することで、目の状態をより正確に判定し、より正確な目の状態情報を得ることができる。
【0084】
本開示の実施例はさらに電子機器を提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に
図7を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器700の構成模式図が示される。
図7に示すように、電子機器700は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)701、および/または一つ以上の加速ユニット713などであり、加速ユニット713はGPU、FPGA、他のタイプの専用プロセッサなどを含むことができるが、これらに限定されず、プロセッサは読み取り専用メモリ(ROM)702に記憶されている実行可能命令または記憶部分708からランダムアクセスメモリ(RAM)703にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部712はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリ702および/またはランダムアクセスメモリ703と通信して実行可能命令を実行し、バス704を介して通信部712と接続し、通信部712によって他の目標機器と通信し、それにより本願の実施例が提供するいずれか一項の方法に対応する動作、例えば、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を完了することができる。
【0085】
また、RAM703には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU701、ROM702およびRAM703はバス704を介して互いに接続される。RAM703が存在する場合、ROM702は任意選択的なモジュールとなる。RAM703は実行可能命令を記憶するか、または動作時にROM702へ実行可能命令を書き込み、実行可能命令によって中央処理装置701は上記通信方法に対応する動作を実行する。入力/出力(I/O)インタフェース705もバス704に接続される。通信部712は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
【0086】
キーボード、マウスなどを含む入力部分706、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分707、ハードディスクなどを含む記憶部分708、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分709といった部品は、I/Oインタフェース705に接続される。通信部分709はインターネットのようなネットワークによって通信処理を実行する。ドライバ710も必要に応じてI/Oインタフェース705に接続される。取り外し可能な媒体711、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ710に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分708にインストールされる。
【0087】
説明すべきは、
図7に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記
図7の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えば加速ユニット713とCPU701は分離設置するかまたは加速ユニット713をCPU701に統合するようにしてもよく、通信部712通信部は分離設置してもよいし、またCPU701または加速ユニット713に統合してもよいなどである。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。
【0088】
いくつかの実施例では、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法を実行するステップに対応する命令、例えば、画像における顔の少なくとも片方の目の、眼球中心領域特徴点を含む眼部特徴点の二次元座標を取得することと、前記眼球中心領域特徴点の二次元座標に基づき、前記画像内の前記顔に対応する三次元顔モデルでの対応する眼球中心領域特徴点の予め設定された三次元座標系における三次元座標を取得することと、前記眼部特徴点のうち前記眼球中心領域特徴点以外の特徴点の二次元座標および前記眼球中心領域特徴点の予め設定された三次元座標系における三次元座標に基づき、前記画像における前記顔の目の注視点位置に対する判定結果を得ることと、を含むことができる。このような実施例では、該コンピュータプログラムは通信部分709によってネットワークからダウンロードおよびインストールでき、および/または取り外し可能な媒体711からインストールできる。該コンピュータプログラムは中央処理装置(CPU)701に実行される時、本願の方法に特定された上記機能を実行する。
【0089】
一つ以上の任意選択的な実施形態では、本開示の実施例はさらに、コンピュータ読み取り可能命令を記憶するためのコンピュータプログラム製品であって、該命令は実行される時にコンピュータに上記いずれか一つの可能な実施形態における注視点判定方法を実行させるコンピュータプログラム製品を提供する。
【0090】
該コンピュータプログラム製品は具体的にハードウェア、ソフトウェアまたはそれらの組み合わせの形態で実現できる。任意選択的な一例では、該コンピュータプログラム製品は具体的にコンピュータ記憶媒体として実現され、他の任意選択的な一例では、該コンピュータプログラム製品は具体的にソフトウェア製品、例えばソフトウェア開発キット(Software Development Kit:SDK)などとして実現される。
【0091】
一つ以上の任意選択的な実施形態では、本開示の実施例はさらに、注視点判定方法およびその対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラムならびにコンピュータプログラム製品を提供し、ここで、該方法は、第一装置が第二装置へ、第二装置に上記いずれか一つの可能な実施例における注視点判定方法を実行させる注視点判定指示を送信することと、第一装置が第二装置により送信される注視点判定結果を受信することと、を含む。
【0092】
いくつかの実施例では、該注視点判定指示は具体的に呼び出し命令であってもよく、第一装置は呼び出しの方式で第二装置に指示を出して注視点判定を実行させることができ、それに対して、呼び出し命令を受信したことに応答して、第二装置は上記注視点判定方法における任意の実施例に記載のステップおよび/またはプロセスを実行することができる。
【0093】
なお、本開示の実施例における「第一」、「第二」などの用語は区別するためのものに過ぎず、本開示の実施例を限定するものではないことを理解すべきである。
【0094】
また、本開示では、「複数」は二つ以上を指すことができ、「少なくとも一つ」は一つ、二つまたは二つ以上を指すことができることを理解すべきである。
【0095】
また、本開示に言及された任意の部品、データまたは構造は、特に断らない限り、または相反する示唆が示されない限り、通常、一つ以上と見なしてもよいことを理解すべきである。
【0096】
また、本開示は各実施例間の相違点を重点に説明し、その同じまたは類似部分は互いに参照すればよいことを理解すべきであり、その説明を簡潔にするために、ここでは説明を省略する。
【0097】
本開示の方法および装置は様々な方式で実現し得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで本開示の方法および装置を実現できる。前記方法のステップに付けられる上記順序は説明するためのものに過ぎず、本開示の方法のステップは、特に断らない限り、以上に具体的に記述した順序に限定されない。また、いくつかの実施例では、本開示を記録媒体に記録されたプログラムとして実施してもよく、これらのプログラムは本開示に係る方法を実現するための機械可読命令を含む。従って、本開示は本開示に係る方法を実行するためのプログラムを記憶する記録媒体をも包含する。
【0098】
本開示の記述は例示および説明のためのもので、漏れがないものまたは開示した形式に本開示を限定するものではない。様々な修正および変形は、当業者にとって自明である。選択および記述した実施例は、本開示の原理および実際の適用をより効果的に説明し、かつ当業者に本願を理解させて特定の用途に適する様々な修正付きの様々な実施例を設計するためのものである。