(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024095516
(43)【公開日】2024-07-10
(54)【発明の名称】視線推定に基づく視線差測定方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240703BHJP
A61B 3/113 20060101ALI20240703BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
A61B3/113
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023153679
(22)【出願日】2023-09-20
(31)【優先権主張番号】202211693813.4
(32)【優先日】2022-12-28
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】519228739
【氏名又は名称】中山大学中山眼科中心
(71)【出願人】
【識別番号】513322718
【氏名又は名称】清華大学
【氏名又は名称原語表記】TSINGHUA UNIVERSITY
【住所又は居所原語表記】1 Qinghuayuan, Haidian District, Beijing 100084, China
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【弁理士】
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【弁理士】
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】汪瑞▲シィン▼
(72)【発明者】
【氏名】林浩添
(72)【発明者】
【氏名】徐楓
(72)【発明者】
【氏名】余新平
(72)【発明者】
【氏名】呂軍鋒
【テーマコード(参考)】
4C316
5L096
【Fターム(参考)】
4C316AA16
4C316AB16
4C316FA04
4C316FB21
4C316FB26
5L096AA02
5L096AA06
5L096BA06
5L096BA13
5L096CA04
5L096DA02
5L096EA35
5L096FA16
5L096FA60
5L096FA67
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】測定コストを削減し、測定精度を高めた視線差測定方法及び装置を提供する。
【解決手段】視線差測定方法は、被検者が視標を注視するときのビデオデータを取得し、ビデオデータから顔画像シーケンスを取得することと、該顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を取得し、これらを第2のニューラルネットワークに入力して顔特徴点抽出を行い、顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得ることと、公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得ることと、第1眼部領域画像及び第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、第1眼部領域画像と第2眼部領域画像との間の予測視線差を得ることと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
視線推定に基づく視線差測定方法であって、
被検者が視標を注視するときのビデオデータを取得し、前記ビデオデータに基づいて前記被検者の顔画像シーケンスを取得することと、
前記顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得ることと、
前記第1眼位顔画像及び前記第2眼位顔画像を第2のニューラルネットワークにそれぞれ入力して顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得ることと、
公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得ることと、
前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、前記第1眼部領域画像と前記第2眼部領域画像との間の予測視線差を得ることと、を含む、ことを特徴とする視線推定に基づく視線差測定方法。
【請求項2】
前記した、前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力することの前に、
前記第1眼部領域画像と前記第2眼部領域画像とをスティッチングしてスティッチングした画像を取得し、前記スティッチングした画像を前記訓練済みの視線差分推定ネットワークに入力し、前記スティッチングした画像の予測視線差を得ることをさらに含む、ことを特徴とする請求項1に記載の視線推定に基づく視線差測定方法。
【請求項3】
前記した、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得ることは、
前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいて眼部特徴点の重心及び軸平行バウンディングボックスを決定し、前記重心をトリミング中心とし、前記軸平行バウンディングボックスをトリミング領域のサイズとし、前記第1眼位顔画像及び前記第2眼位顔画像をトリミングして、前記第1眼位顔画像に対応する第1眼部領域画像及び前記第2眼位顔画像に対応する第2眼部領域画像を得ることを含む、ことを特徴とする請求項1に記載の視線推定に基づく視線差測定方法。
【請求項4】
前記した、公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得ることは、
公開データセットから眼部領域画像セットを取得し、前記眼部領域画像セットから2つの訓練画像を選択し、2つの前記訓練画像の視線方向ラベルに基づいて真の視線差を得て、2つの前記訓練画像を視線差分推定ネットワークに入力し、2つの前記訓練画像の予測視線差を得て、前記真の視線差及び前記予測視線差に基づいて損失関数を構築し、前記損失関数に基づいて前記視線差分推定ネットワークのパラメータを最適化し、前記損失関数が収束するまで前記最適化のステップを反復して、訓練済みの視線差分推定ネットワークを得ることを含む、ことを特徴とする請求項1に記載の視線推定に基づく視線差測定方法。
【請求項5】
前記した、前記損失関数に基づいて前記視線差分推定ネットワークのパラメータを最適化することは、
適応モーメント推定方法に基づいて前記視線差分推定ネットワークのパラメータを最適化することをさらに含む、ことを特徴とする請求項4に記載の視線推定に基づく視線差測定方法。
【請求項6】
前記視線差分推定ネットワークは、特徴抽出モジュールと差分推定モジュールとを含み、前記特徴抽出モジュールの出力端子が前記差分推定モジュールの入力端子に接続され、前記特徴抽出モジュールは、前記視線差分推定ネットワークに入力された眼部領域画像に対して特徴抽出を行い、前記眼部領域画像の視線差分特徴を出力し、前記差分推定モジュールは、前記特徴抽出モジュールから入力された視線差分特徴に対して差分推定を行い、前記眼部領域画像の予測視線差を得る、ことを特徴とする請求項1に記載の視線推定に基づく視線差測定方法。
【請求項7】
視線推定に基づく視線差測定装置であって、
被検者が視標を注視するときのビデオデータを取得し、前記ビデオデータに基づいて前記被検者の顔画像シーケンスを取得するデータ取得モジュールと、
前記顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得るキーフレーム抽出モジュールと、
前記第1眼位顔画像及び前記第2眼位顔画像を第2のニューラルネットワークにそれぞれ入力して顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得る眼部トリミングモジュールと、
公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得る差分ネットワーク訓練モジュールと、
前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、前記第1眼部領域画像と前記第2眼部領域画像との間の予測視線差を得る視線差測定モジュールと、を備える、ことを特徴とする視線差測定装置。
【請求項8】
視線推定に基づく視線差測定装置であって、
前記第1眼部領域画像と前記第2眼部領域画像とをスティッチングしてスティッチングした画像を得る画像スティッチングモジュールをさらに含む、ことを特徴とする視線差測定装置。
【請求項9】
メモリと、プロセッサと、メモリに記憶されたコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行することで、請求項1~6のいずれか1項に記載の方法のステップを実現する、ことを特徴とするコンピュータ機器。
【請求項10】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法のステップを実現するコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、視線追跡の技術分野に関し、特に視線推定に基づく視線差測定方法及び装置に関する。
【背景技術】
【0002】
視線差の正確な測定は、斜視手術の設計、疾患の種類の診断や病状の推定などの支援に大きく寄与する。斜視は現在、世界中の児童の中で発病率が最も高い眼病の1つである。児童は、視覚発達の肝心な段階にあり、斜視の発症は生涯にわたる視力発達に影響する可能性があり、措置を講じて適時に矯正されなければ、深刻な場合、視野の一部を永久に失うことになりかねない。現在、視線差の測定は、主に専門の検査員が懐中電灯の光を利用して、従来のプリズムと交互遮蔽法を組み合わせて測定されているが、児童の場合、従来の測定方法に協力することが難しく、測定された度数に大きな誤差が生じてしまう。また、ヒルシュベルグ法による画像画素数計算方法のような、VR、アイトラッカー及びディスプレイなどの特殊な装置を利用して測定する新型視線差測定方法が徐々に登場しているが、技術はまだ未熟で、操作が難しく、また、測定コストも高い。
【発明の概要】
【発明が解決しようとする課題】
【0003】
そこで、本願の実施例は、操作性に優れており、計算コストを削減し、視線差の測定精度を向上させた視線推定に基づく視線差測定方法を提供する。
【課題を解決するための手段】
【0004】
第1態様では、本願は、視線推定に基づく視線差測定方法を提供する。
【0005】
本願は、以下の技術的解決手段により実現される。
【0006】
視線推定に基づく視線差測定方法であって、
被検者が視標を注視するときのビデオデータを取得し、前記ビデオデータに基づいて前記被検者の顔画像シーケンスを取得することと、
前記顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得ることと、
前記第1眼位顔画像及び第2眼位顔画像をそれぞれ第2のニューラルネットワークに入力して顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得ることと、
公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得ることと、
前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、前記第1眼部領域画像と前記第2眼部領域画像との間の予測視線差を得ることと、を含む。
【0007】
本願の好ましい例では、前記した、前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力することの前に、
前記第1眼部領域画像と前記第2眼部領域画像とをスティッチングしてスティッチングした画像を取得し、前記スティッチングした画像を前記訓練済みの視線差分推定ネットワークに入力し、前記スティッチングした画像の予測視線差を得ることをさらに含むように構成されてもよい。
【0008】
本願の好ましい例では、前記した、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得ることは、
前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいて眼部特徴点の重心及び軸平行バウンディングボックス(Axis-Aligned Bounding Box)を決定し、前記重心をトリミング中心とし、前記軸平行バウンディングボックスをトリミング領域のサイズとし、前記第1眼位顔画像及び前記第2眼位顔画像をトリミングして、前記第1眼位顔画像に対応する第1眼部領域画像及び前記第2眼位顔画像に対応する第2眼部領域画像を得ることをさらに含むように構成されてもよい。
【0009】
本願の好ましい例では、前記公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得ることは、
公開データセットから眼部領域画像セットを取得し、前記眼部領域画像セットから2つの訓練画像を選択し、2つの前記訓練画像の視線方向ラベルに基づいて真の視線差を得て、2つの前記訓練画像を視線差分推定ネットワークに入力し、2つの前記訓練画像の予測視線差を得て、前記真の視線差及び前記予測視線差に基づいて損失関数を構築し、前記損失関数に基づいて前記視線差分推定ネットワークのパラメータを最適化し、前記損失関数が収束するまで前記最適化のステップを反復して、訓練済みの視線差分推定ネットワークを得ることをさらに含むように構成されてもよい。
【0010】
本願の好ましい例では、前記した、前記損失関数に基づいて前記視線差分推定ネットワークのパラメータを最適化することは、
適応モーメント推定方法に基づいて前記視線差分推定ネットワークのパラメータを最適化することをさらに含むように構成されてもよい。
【0011】
本願の好ましい例では、さらに、前記視線差分推定ネットワークは、特徴抽出モジュールと、差分推定モジュールと、を含み、前記特徴抽出モジュールの出力端子が前記差分推定モジュールの入力端子に接続され、前記特徴抽出モジュールは、前記視線差分推定ネットワークに入力された眼部領域画像に対して特徴抽出を行い、前記眼部領域画像の視線差分特徴を出力し、前記差分推定モジュールは、前記特徴抽出モジュールから入力された視線差分特徴に対して差分推定を行い、前記眼部領域画像の予測視線差を得るように構成されてもよい。
【0012】
第2態様では、本願は、視線推定に基づく視線差測定装置を提供する。
【0013】
本願は、以下の技術的解決手段により実現される。
【0014】
視線推定に基づく視線差測定装置であって、
被検者が視標を注視するときのビデオデータを取得し、前記ビデオデータに基づいて前記被検者の顔画像シーケンスを取得するデータ取得モジュールと、
前記顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得るキーフレーム抽出モジュールと、
前記第1眼位顔画像及び第2眼位顔画像をそれぞれ第2のニューラルネットワークに入力して顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、前記第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得る眼部トリミングモジュールと、
公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得る差分ネットワーク訓練モジュールと、
前記第1眼部領域画像及び前記第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、前記第1眼部領域画像と前記第2眼部領域画像との間の予測視線差を得る視線差測定モジュールと、を備える。
【0015】
本願の好ましい例では、前記装置は、
前記第1眼部領域画像と前記第2眼部領域画像とをスティッチングしてスティッチングした画像を得る画像スティッチングモジュールをさらに含むように構成されてもよい。
【0016】
第3態様では、本願は、コンピュータ機器を提供する。
【0017】
本願は、以下の技術的解決手段により実現される。
【0018】
コンピュータ機器であって、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで実行可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行すると、上記のいずれか1つの視線推定に基づく視線差測定方法のステップを実現する。
【0019】
第4態様では、本願は、コンピュータ読み取り可能な記憶媒体を提供する。
【0020】
本願は、以下の技術的解決手段により実現される。
【0021】
コンピュータ読み取り可能な記憶媒体であって、プロセッサによって実行されると、上記のいずれか1つの視線推定に基づく視線差測定方法のステップを実現するコンピュータプログラムが記憶されている。
【発明の効果】
【0022】
上述のように、従来技術と比べて、本願の実施例で提供される技術的解決手段による有益な効果は、少なくとも、以下の効果を含む。被検者のビデオデータを収集し、このビデオデータから顔画像シーケンスを取得し、次に、構築されたニューラルネットワークを通じて顔特徴点抽出及び眼部領域のトリミングを行い、第1眼部領域画像及び第2眼部領域画像を取得し、さらに、訓練済みの視線差分推定ネットワークを利用して第1眼部領域画像と第2眼部領域画像との間の視線差を得ることによって、視線差の測定精度を効果的に向上させることができ、また、操作が容易になり、専用の装置の使用を必要とせず、適切なビデオを収集するだけで後続の測定作業を実施することができ、操作性に優れており、計算コストを削減しうる。
【図面の簡単な説明】
【0023】
【
図1】本願の例示的な一実施例による視線推定に基づく視線差測定方法の流れの概略図である。
【
図2】本願の例示的な一実施例による視線推定に基づく視線差測定装置の構造概略図である。
【発明を実施するための形態】
【0024】
この具体的な実施例は、あくまでも本願を説明するためのものにすぎず、本願を限定するものではなく、当業者であれば、本明細書に基づいて、必要に応じて本実施例に対して創造的な貢献のない変更をすることができ、その変更が本願の特許請求の範囲内で行われるものである限り、特許法によって保護される。
【0025】
本願の実施例の目的、技術的解決手段及び利点をより明瞭にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段に対して明確且つ完全な説明を行う。明らかに、説明された実施例は、本願の一部の実施例であり、すべての実施例ではない。本願における実施例に基づいて、当業者が創造的な労働をせずに取得した他のすべての実施例は、本願の保護範囲に属する。
【0026】
また、本明細書における「及び/又は」という用語は、関連対象の相互関係を説明するためのものにすぎず、3つの関係が存在し得ることを意味し、例えば、「A及び/又はB」とは、Aが単独で存在すること、AとBが同時に存在すること、Bが単独で存在することという3つの状態を意味することができる。なお、本願における記号「/」は、特に断らない限り、一般的には、前後の関連対象同士の関係が「又は」の関係であることを表す。
【0027】
本願における用語「第1」「第2」などの記載は、作用及び機能が実質的に同一である要素又は類似する要素を区別するためのものであり、「第1」、「第2」、「第n」とは、それらの間に論理的又はタイミング的な依存関係がなく、数や実行順序を限定するものでもないことを理解すべきである。
【0028】
以下、明細書の図面を参照しながら本願の実施例についてさらに詳細に説明する。
【0029】
本願の一実施例では、視線推定に基づく視線差測定方法が提供され、
図1に示すように、主なステップについて以下のように説明する。
【0030】
S10:被検者が視標を注視するときのビデオデータを取得し、該ビデオデータに基づいて該被検者の顔画像シーケンスを取得する。
【0031】
具体的には、被検者の真正面にカメラを設置し、標準化された遮蔽法の流れに基づいて、被検者に遠方視標と近方視標の2種類の視標をそれぞれ注視させ、被検者が視標を注視するときの人眼データを含むビデオデータをカメラで収集し、撮影したビデオデータに基づいて、opencv相関関数を用いて必要な顔画像シーケンスの数を設定し、ビデオデータから被検者の顔画像シーケンスを取得する。ビデオ情報を画像情報に変換して処理すると、演算コストが低減する。
【0032】
S20:該顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得る。
【0033】
具体的には、ステップS10で得られた顔画像シーケンスを第1のニューラルネットワークに入力して、上記顔画像シーケンスの分類結果を取得し、分類結果に基づいてキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を得る。
【0034】
ここで、第1のニューラルネットワークの構造は、3チャネルのカラー画像の入力を受ける深層残差ネットワークResnet1である。顔画像シーケンスを深層残差ネットワークResnet1に入力して得られた分類結果は、顔画像シーケンスにおける各フレーム画像に含まれる眼位であり、この眼位には、基準眼位、遮蔽眼位、及び斜視角眼位が含まれる。分類結果に基づいて基準眼位及び斜視角眼位に属するキーフレームを抽出し、基準眼位に属するキーフレームを第1眼位顔画像、斜視角眼位に属するキーフレームを第2眼位顔画像とする。
【0035】
S30:第1眼位顔画像及び第2眼位顔画像をそれぞれ第2のニューラルネットワークに入力して、顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、第1顔特徴点座標及び第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を得る。
【0036】
具体的には、第2のニューラルネットワークは、3チャネルのカラー画像の入力を受け、それぞれN個の特徴点の2次元座標を表すN×2次元ベクトルを結果として出力する深層残差ネットワークResnet2である。上記で得られた第1眼位顔画像及び第2眼位顔画像をそれぞれ深層残差ネットワークResnet2に入力して、第1眼位顔画像の第1顔特徴点座標及び第2眼位顔画像の第2顔特徴点座標を取得し、顔特徴点座標は、眼部特徴点座標を含み、第1顔特徴点座標及び第2顔特徴点座標をトリミングして、これらのそれぞれに対応する第1眼部領域画像及び第2眼部領域画像を得る。画像をトリミングして眼部領域画像を取得することは、後で差分推定ネットワークを利用して視線差測定を行うときの精度を向上させるのに有利である。
【0037】
好ましくは、眼部領域画像をトリミングするステップは、第1顔特徴点座標及び第2顔特徴点座標から眼部特徴点の重心及び軸平行バウンディングボックスを決定し、重心をトリミング中心とし、軸平行バウンディングボックスをトリミング領域のサイズとし、第1眼位顔画像及び第2眼位顔画像をトリミングし、第1眼部領域画像及び第2眼部領域画像を取得することを含む。
【0038】
第1眼位顔画像を例にして説明すると、まず、第2のニューラルネットワークによって抽出された第1眼位顔画像である基準眼位の第1顔特徴点座標から、これにおける眼部特徴点の重心及び軸平行バウンディングボックスを決定し、眼部特徴点の重心をトリミングの中心とし、軸平行バウンディングボックスでトリミング領域のサイズを決定し、第1眼位顔画像をトリミングして、比較的正確な第1眼部領域画像を得る。なお、バウンディングボックスアルゴリズムは、離散点集合の最適な包囲空間を求解する方法であり、一般的なバウンディングボックスアルゴリズムには、AABB軸平行バウンディングボックス、バウンディングスフィア、配向バウンディングボックスOBB(oriented bounding box)、及び固定方向凸包FDH(fixed directions hulls)が含まれている。これらの中でも、軸平行バウンディングボックスは、最も早く応用されたものであり、構造が簡単で、幾何学的演算の効率を向上できる。
【0039】
S40:公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを得る。
【0040】
具体的には、公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、眼部領域画像セットにおける各眼部領域画像は、対応するカメラ座標系での視線方向ラベルを持ち、すなわち、いずれも「眼部領域画像-視線方向」である。ここで、視線方向ラベルの決定において、1つの頭部固定台を設置し、1台のカラーカメラを頭部固定台の前方に配置し、頭部固定台に応じて等角間隔にいくつかの視標を設置する。データセットを収集する際には、頭を固定台に置き、異なる視標を順次注視するように被検者を指導し、被検者が第1視標を注視するときの眼部領域画像をカラーカメラで撮影し、第1視標の角度に基づいて、対応する視線方向をラベリングし、次に、被検者が第2視標を注視するときの眼部領域画像をカラーカメラで撮影し、第2視標の角度に基づいて、対応する視線方向をラベリングし、このように被検者が各視標を注視するときの眼部領域画像を収集する。モデル訓練の精度を高めるために、訓練データセットの数を確保する必要があるので、複数の被検者の眼部領域画像を取得するとともに、収集誤差をできるだけ小さくするように、被検者ごとに眼部領域画像を1回以上収集する。
【0041】
好ましくは、視線差分推定ネットワークを訓練して、訓練済みの視線差分推定ネットワークを得る具体的なステップでは、毎回上記の眼部領域画像セットから2つの訓練画像を選択し、上記の2つの訓練画像の視線方向ラベルからこの2つの画像の真の視線差を取得し、次に、この2つの画像を初期に構築された視線差分推定ネットワークに入力して、この2つの画像の予測視線差を出力し、真の視線差と予測視線差に基づいて損失関数を構築し、損失関数が収束するまで、初期に構築された視線差分推定ネットワークのパラメータを損失関数によって最適化して、訓練済みの視線差分推定ネットワークを得る。訓練済み視線差分推定ネットワーを後続の視線差測定モデルとする。ここで、構築された損失関数はL1損失、すなわち、平均絶対誤差である。
【0042】
好ましくは、最適化過程において、適応モーメント推定方法に基づいて前記視線差分推定ネットワークのパラメータを最適化する。勾配の第1及び第2の行列の推定値に基づいて、異なるパラメータに対する個々の適応学習率が計算される。適応モーメント推定方法は、必要な記憶容量の要求が低く、計算効率を効果的に向上させることができ、また、勾配が疎でノイズが存在するという場合にも適用でき、モデル訓練の精度を向上させることができる。
【0043】
S50:第1眼部領域画像及び第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、第1眼部領域画像と第2眼部領域画像との間の予測視線差を得る。
【0044】
具体的には、上記のトリミングにより得られた第1眼部領域画像及び第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、第1眼部領域画像と第2眼部領域画像との間の予測視線差を得る。
【0045】
好ましくは、視線差分推定ネットワークの構造は、特徴抽出モジュールと、差分推定モジュールと、を含み、特徴抽出モジュールの出力端子が差分推定モジュールの入力端子に接続され、特徴抽出モジュールは、視線差分推定ネットワークに入力された眼部領域画像に対して特徴抽出を行い、眼部領域画像の視線差分特徴を出力し、差分推定モジュールは、特徴抽出モジュールから入力された視線差分特徴に対して差分推定を行い、眼部領域画像の予測視線差を得る。
【0046】
好ましくは、第1眼部領域画像と第2眼部領域画像とをスティッチングして、スティッチングした画像を取得し、該スティッチングした画像を訓練済みの視線差分推定ネットワークに入力し、スティッチングした画像の予測視線差を得る。具体的には、3チャネルの第1眼部領域画像と3チャネルの第2眼部領域画像とをスティッチングして、6チャネルのスティッチングした画像を取得し、スティッチングした画像を訓練済みの視線差分推定ネットワークに入力し、視線差分推定ネットワークの特徴抽出モジュールによって特徴抽出を行い、スティッチングした画像の視線差分特徴を出力し、その後、該視線差分特徴を視線差分推定ネットワークの差分推定モジュールに入力し、差分推定モジュールによってスティッチングした画像における第1眼部領域画像と第2眼部領域画像との予測視線差を得る。すなわち、基準眼位と斜視角眼位との間の予測視線差を得る。2つの画像をスティッチングしてから訓練済みの視線差分推定ネットワークに入力することによって、ネットワークパラメータの利用率及びネットワークの演算効率を向上させ、視線差分推定ネットワークによる予測視線差の正確性をさらに向上させることができる。
【0047】
さらに、光学公式を使用して円周度とプリズム度数との変換を行い、被検者の眼球運動を判断するのを支援することができる。
【0048】
本実施例による方法は、カメラを用いて被検者の適切な顔画像を収集するだけで、その後の計算を行うことができ、他の専門的な装置を必要とせず、被検者の高度な協力も必要とせず、操作が簡単で操作性に優れている。被検者の眼位を長期間モニタリングする必要がある場合、測定機関に頻繁に足を運んで測定する必要がなく、自宅でビデオ撮影を行い、データを送信するだけで遠隔測定が可能となるような大きなメリットがある。
【0049】
本願は、さらに、視線推定に基づく視線差測定装置を提供し、
図2に示すように、該装置は、データ取得モジュールと、キーフレーム抽出モジュールと、眼部トリミングモジュールと、差分ネットワーク訓練モジュールと、視線差測定モジュールと、を含む。
【0050】
データ取得モジュールは、被検者が視標を注視するときのビデオデータを取得し、該ビデオデータに基づいて上記の被検者の顔画像シーケンスを取得し、
キーフレーム抽出モジュールは、顔画像シーケンスを第1のニューラルネットワークに入力してキーフレーム抽出を行い、第1眼位顔画像及び第2眼位顔画像を取得し、
眼部トリミングモジュールは、上記の第1眼位顔画像及び第2眼位顔画像をそれぞれ第2のニューラルネットワークに入力して顔特徴点抽出を行い、第1顔特徴点座標及び第2顔特徴点座標を取得し、第1顔特徴点座標及び前記第2顔特徴点座標に基づいてトリミングを行い、第1眼部領域画像及び第2眼部領域画像を取得し、
差分ネットワーク訓練モジュールは、公開データセットにおける眼部領域画像セットを利用して視線差分推定ネットワークを訓練し、訓練済みの視線差分推定ネットワークを取得し、
視線差測定モジュールは、第1眼部領域画像及び第2眼部領域画像を訓練済みの視線差分推定ネットワークに入力して、第1眼部領域画像と第2眼部領域画像との間の予測視線差を得る。
【0051】
好ましくは、該装置は、さらに、第1眼部領域画像と第2眼部領域画像とをスティッチングしてスティッチングした画像を得る画像スティッチングモジュールを含む。
【0052】
一実施例では、コンピュータ機器が提供され、このコンピュータ機器は、サーバであってもよい。
【0053】
該コンピュータ機器は、システムバスを介して接続されたプロセッサと、メモリと、ネットワークインターフェースと、データベースとを含む。ここで、該コンピュータ機器のプロセッサは、計算及び制御能力を提供するために使用される。該コンピュータ機器のメモリは、不揮発性記憶媒体と、内部メモリとを含む。該不揮発性記憶媒体は、オペレーティングシステムと、コンピュータプログラムと、データベースとを備える。該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの動作のための環境を提供する。該コンピュータ機器のネットワークインターフェースは、ネットワーク接続を介して外部の端末と通信するために使用される。該コンピュータプログラムは、プロセッサによって実行されると、上記の視線推定に基づく視線差測定方法のいずれか1つを実現する。
【0054】
一実施例では、メモリと、プロセッサと、メモリに記憶され、プロセッサで実行可能なコンピュータプログラムと、を含み、プロセッサでコンピュータプログラムを実行することにより上記の視線推定に基づく視線差測定方法のいずれか1つを実現するコンピュータ読み取り可能な記憶媒体が提供される。
【0055】
当業者であれば、上記の実施例の方法における流れの全部又は一部は、実行されると、上記の方法の実施例のような流れを含むことができる、不揮発性コンピュータ読み取り可能な記憶媒体に記憶可能なコンピュータプログラムによって、関連するハードウェアに命令を出すことによって達成されてもよいことを理解することができる。ここで、本願で提供される実施例において使用されるメモリ、ストレージ、データベース、又は他の媒体への任意の参照は、いずれも不揮発性及び/又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能なプログラマブルROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。RAMとしては、例えば、静的RAM(SRAM)、動的RAM(DRAM)、同期式DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張SDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバス動的RAM(DRDRAM)、及びメモリバス動的RAM(RDRAM)等の様々な形態が挙げられるが、これらに限定されない。
【0056】
説明の便宜及び簡潔化のために、上記の各機能ユニット、モジュールの区分のみを例として説明したが、実際の応用では、上記の機能が必要に応じて異なる機能ユニットやモジュールによって実施されてもよく、すなわち、本願に記載のシステムの内部構造が異なる機能ユニット又はモジュールに分割されて、上記した機能の全部又は一部を達成することができることを、当業者は明確に理解することができる。