(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022187547
(43)【公開日】2022-12-20
(54)【発明の名称】視線推定システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221213BHJP
G06T 7/70 20170101ALI20221213BHJP
【FI】
G06T7/00 350C
G06T7/70 B
G06T7/00 660A
【審査請求】未請求
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2021095580
(22)【出願日】2021-06-08
(71)【出願人】
【識別番号】000006895
【氏名又は名称】矢崎総業株式会社
(74)【代理人】
【識別番号】110001771
【氏名又は名称】弁理士法人虎ノ門知的財産事務所
(72)【発明者】
【氏名】▲高▼橋 勇氣
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA04
5L096CA04
5L096CA17
5L096FA67
5L096FA69
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】測定対象者の視線位置の推定処理を、精度を維持しつつ処理負荷を軽減することができる視線推定システムを提供する。
【解決手段】視線推定システム1は、撮影画像35に基づいて、水平方向学習済モデルM1を用いて、運転者20の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択し、垂直方向学習済モデルM2を用いて、運転者20の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択する。そして、水平方向の推定視線角度範囲及び垂直方向の推定視線角度範囲に基づいて、対象エリア50を構成する小エリア51のうち、運転者20の視線24が含まれる小エリア51を推定する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
測定対象者の顔を含む画像を時系列上連続して取得する画像取得部と、
取得された各前記画像に基づいて前記測定対象者の視線位置を推定する処理部と、を備え、
前記処理部は、
前記測定対象者の顔を含む画像に基づいてアピアランスベース手法による前記測定対象者の視線位置を推定する学習を行った学習済みモデルを用いて、前記画像取得部により取得された前記画像に基づいて前記視線位置を推定する視線位置推定部を有し、
前記学習済みモデルは、
第1ニューラルネットワークによる機械学習により生成され、かつ前記測定対象者の視線の水平方向における視線角度を複数の視線角度範囲に分けた場合において、複数の前記視線角度範囲のうち、前記測定対象者の視線が含まれる視線角度範囲を推定する学習を行った水平方向学習済モデルと、
第1ニューラルネットワークとは異なる第2ニューラルネットワークにより生成され、かつ前記測定対象者の視線の垂直方向における視線角度を複数の視線角度範囲に分けた場合において、複数の前記視線角度範囲のうち、前記測定対象者の視線が含まれる視線角度範囲を推定する学習を行った垂直方向学習済モデルと、で構成され、
前記視線位置推定部は、
取得された前記画像に基づいて、対象エリアを構成する小エリアのうち、前記測定対象者の視線が含まれる小エリアを推定し、
前記対象エリアは、水平方向における複数の前記視線角度範囲及び垂直方向における複数の前記視線角度範囲に基づいて複数の前記小エリアに分割されており、
前記視線位置推定部は、
前記画像取得部により取得された画像に基づいて、
前記水平方向学習済モデルを用いて、前記測定対象者の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択し、かつ
前記垂直方向学習済モデルを用いて、前記測定対象者の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択し、
前記水平方向の推定視線角度範囲及び前記垂直方向の推定視線角度範囲に基づいて、前記対象エリアから前記小エリアを推定する、
ことを特徴とする視線推定システム。
【請求項2】
前記学習済みモデルは、
分類問題を用いて生成される、
請求項1に記載の視線推定システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視線推定システムに関する。
【背景技術】
【0002】
画像処理を利用した視線推定技術には、アピアランスベース手法がある。アピアランスベース手法を用いた視線推定は、測定対象者の目を含む画像と、学習器に機械学習させた複数の学習画像と照合して視線を推定するものである(例えば特許文献1参照)。このアピアランスベース手法を用いた視線推定を実現するために、例えば、畳み込みニューラルネットワーク等による機械学習により生成された学習済モデルが利用される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、機械学習により学習済モデルを生成し、精度を向上させるためには、ネットワークの層を追加する等のモデルの構造を改良し、より多くの特徴量を捉えられるようにすることが有効である。すなわち、1つの学習済モデルで測定対象者の水平方向及び垂直方向の視線位置を精度よく推定するためには、ネットワーク層を追加し、モデルの表現力を向上させることが必要であるが、推定処理の計算負荷(処理負荷)が高くなる課題がある。そのため、測定対象者の視線位置の推定処理を、推定精度を維持しつつ処理負荷を軽減する点で改善の余地がある。
【0005】
本発明は、測定対象者の視線位置の推定処理を、精度を維持しつつ処理負荷を軽減することができる視線推定システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る視線推定システムは、測定対象者の顔を含む画像を時系列上連続して取得する画像取得部と、取得された各前記画像に基づいて前記測定対象者の視線位置を推定する処理部と、を備え、前記処理部は、前記測定対象者の顔を含む画像に基づいてアピアランスベース手法による前記測定対象者の視線位置を推定する学習を行った学習済みモデルを用いて、前記画像取得部により取得された前記画像に基づいて前記視線位置を推定する視線位置推定部を有し、前記学習済みモデルは、第1ニューラルネットワークによる機械学習により生成され、かつ前記測定対象者の視線の水平方向における視線角度を複数の視線角度範囲に分けた場合において、複数の前記視線角度範囲のうち、前記測定対象者の視線が含まれる視線角度範囲を推定する学習を行った水平方向学習済モデルと、第1ニューラルネットワークとは異なる第2ニューラルネットワークにより生成され、かつ前記測定対象者の視線の垂直方向における視線角度を複数の視線角度範囲に分けた場合において、複数の前記視線角度範囲のうち、前記測定対象者の視線が含まれる視線角度範囲を推定する学習を行った垂直方向学習済モデルと、で構成され、前記視線位置推定部は、取得された前記画像に基づいて、対象エリアを構成する小エリアのうち、前記測定対象者の視線が含まれる小エリアを推定し、前記対象エリアは、水平方向における複数の前記視線角度範囲及び垂直方向における複数の前記視線角度範囲に基づいて複数の前記小エリアに分割されており、前記視線位置推定部は、前記画像取得部により取得された画像に基づいて、前記水平方向学習済モデルを用いて、前記測定対象者の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択し、かつ前記垂直方向学習済モデルを用いて、前記測定対象者の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択し、前記水平方向の推定視線角度範囲及び前記垂直方向の推定視線角度範囲に基づいて、前記対象エリアから前記小エリアを推定する、ことを特徴とする。
【発明の効果】
【0007】
本発明に係る視線推定システムは、測定対象者の視線位置の推定処理を、精度を維持しつつ処理負荷を軽減することができる、という効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る視線推定システムの適用例を示す模式図である。
【
図2】
図2は、
図1の視線推定システムの概略構成を示すブロック図である。
【
図3】
図3は、
図1の視線推定システムで実行される視線推定処理の概要を示す模式図である。
【
図4】
図4は、
図3に示す視線推定処理で設定される対象エリアの一例を示す図である。
【
図5】
図5(A)は、
図4に示す対象エリアで設定される水平方向の正解ラベルの一例を示す図、
図5(B)は、
図4に示す対象エリアで設定される垂直方向の正解ラベルの一例を示す図である。
【
図6】
図6は、
図1の視線推定システムで実行される視線推定処理のアルゴリズムの一例を示すフローチャート図である。
【
図7】
図7(A)は、水平方向学習済モデルの生成時に機械学習の利用に供された画像データ数の一例を示す図、
図7(B)は、垂直方向学習済モデルの生成時に機械学習の利用に供された画像データ数の一例を示す図である。
【
図8】
図8(A)は、水平方向及び垂直方向を別々にして分類問題により得られた分類精度の一例を示す図、
図8(B)は、水平方向及び垂直方向を別々にすることなく分類問題により得られた分類精度の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本発明の実施形態に係る視線推定システムについて図面を参照しつつ詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。以下の実施形態における構成要素には、いわゆる当業者が容易に想定できるもの、あるいは実質的に同一のものが含まれる。また、以下の実施形態における構成要素は、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。
【0010】
[実施形態]
図1及び
図2に示す本実施形態の視線推定システム1は、測定対象者を撮影し当該測定対象者の顔を含む撮影画像に基づいて当該測定対象者の視線を推定するシステムである。本実施形態では、視線推定システム1を車両に適用した場合について説明する。視線推定システム1は、撮影ユニット12と、処理部13とを含んで構成される。
【0011】
撮影ユニット12は、画像取得部(または画像取得装置)の一例であり、車両2の運転者20の顔21を撮影し、運転者20の顔21を含む撮影画像を時系列上連続して取得するものである。本実施形態では、運転者20が測定対象者である。撮影ユニット12は、光源と、カメラとを含んで構成される。光源及びカメラは、例えば、1枚の基板上に互いに隣接して配置される。
【0012】
光源は、例えば、撮影ユニット12の外部に向けて近赤外光を出射するLED(Light Emitting Diode)である。近赤外光は、波長が凡そ0.7~2.5μmの電磁波であり、赤色の可視光線に近い波長を有し、例えば、「見えない光」として、赤外線カメラや赤外線通信等に利用されている。光源は、処理部13から入力された点灯信号に応じて点灯(赤外光を発光)し、消灯信号に応じて消灯する。光源は、被視認対象物上または被視認対象物の近傍に配置される。
【0013】
カメラは、光源の近傍に配置され、撮影ユニット12外側に設定される撮影範囲(例えば画角)を撮影する。カメラは、撮影ユニット12外側に設定される撮影範囲に運転者20が存在する場合、光源から出射された赤外光によって照らされた運転者20を撮影する。撮影ユニット12は、車両2の車室10内の運転席101に着座している運転者20の顔21を撮影するために、例えば運転席前方のメータユニット内、または、コラムカバー上部に設置される。撮影ユニット12は、処理部13に接続されており、取得した撮影画像を処理部13に出力する。
【0014】
カメラは、光源から出射される赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置される。カメラが赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置された場合、当該カメラの光軸と光源の光軸とは重なる。カメラの光軸と光源の光軸とが重なるとは、両方の光軸が同軸になることであるが、両方の光軸が並行であって反射光が受光可能な位置であればよい。カメラの撮影位置は、アプリケーションより要求される検出したい対象者(例えば運転者20)の顔が現れる範囲内において、顔21全体が十分な解像度で撮影できる条件より決めることができる。アプリケーションは、検出した視線情報を応用するシステムとして、例えば、自動販売機の興味の計測、デジタルサイネージ等の広告の視認者の自動カウント、ディスプレイシステムの視認時のみ点灯させる(または輝度をあげる)といったものがある。
【0015】
処理部13は、処理部(または処理装置)の一例であり、撮影ユニット12で取得された撮影画像に基づいて運転者20の視線の推定処理を実行するものである。処理部13は、例えば、視線推定システム1における各種処理機能を実現する処理回路(不図示)を有する。処理回路は、例えば、プロセッサによって実現される。プロセッサとは、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の回路を意味する。処理部13は、例えば、不図示の記憶回路(記憶部)から読み出したプログラムを実行することにより、各処理機能を実現する。
【0016】
処理部13は、
図2に示すように、視線位置推定部14を含んで構成される。視線位置推定部14は、運転者20の顔21を含む学習画像に基づいてアピアランスベース手法による運転者20の視線位置を推定する学習を行った学習済みモデルMを用いて、撮影ユニット12により取得された撮影画像に基づいて視線位置を推定する。本実施形態では、分類問題によるアピアランスベース手法による運転者20の視線位置を推定する学習を行った学習済モデルMを用いる。本手法は、(1)機械学習による学習済モデルMの作成と、(2)学習済モデルMを使用した視線の推定、2つのフェーズに分けられる。
【0017】
アピアランスベース手法による視線の推定は、被験者の目画像そのものを入力情報とし、機械学習によって視線と目画像の組み合わせを学習し,新規目画像に対して視線の位置を推定する手法である。機械学習手法は、例えば、深層学習手法である畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)等が用いられる。CNNは、ニューラルネットワークというパターン認識手法を多層化したDNN(Deep Neural Network,ディープニューラルネットワーク)のうち、2次元データに対応させたもので、画像に対して高いパターン認識能力が報告されている手法である。CNNで学習を実施するためには、顔や眼の撮影画像と、それらに対応する学習済モデルMを正解ラベルとして付与する。今回は入力情報として顔画像36を、正解ラベルとして測定対象者の見ている位置を与える。このときの学習方法は、教師あり学習に分類される。教師あり学習には、回帰問題と分類問題という問題設定方法がある。回帰問題によるアピアランスベース手法を利用した視線推定は、顔や目の画像などを入力して、ニューラルネットワークにより特徴を抽出し、最終的に視線の角度を数値で出力する。回帰問題によるアピアランスベース手法による視線推定の技術は、例えば、特開2019-28843号公報に示されている。
【0018】
本実施形態では、分類問題によるアピアランスベース視線推定手法を用いる。分類問題によるアピアランスベース視線推定手法では、入力をカメラで撮影した顔画像36、出力を測定対象者が見ている対象エリア50とする。対象エリア50は、本システムを使用するアプリケーションの要件より設定することができる。本実施形態では、
図4に示すように、測定対象者の正面を対象エリア50とし、当該対象エリア50を5×5に分割して小エリア51とした例について説明する。
【0019】
(1)機械学習による学習済モデルMの作成
学習済モデルMは、学習画像31を収集して作成される。学習画像31の収集については、顔画像36の取得と同時に、視線角度の検出を行い、測定対象者の視線が含まれる小エリアの位置を記録しておく。本実施形態における学習済モデルMは、水平方向学習済モデルM1と、垂直方向学習モデルM2とで構成される。
【0020】
水平方向学習済モデルM1は、第1ニューラルネットワーク41による機械学習により生成される。水平方向学習済モデルM1は、
図5の(A)に示すように、測定対象者20の視線24の水平方向における視線角度61を複数の視線角度範囲61A~61Eに分けた場合において、複数の視線角度範囲61A~61Eのうち、どの視線角度範囲に測定対象者20の視線24が含まれるかを推定する学習を行ったものである。
【0021】
垂直方向学習モデルM2は、第1ニューラルネットワーク41とは異なる第2ニューラルネットワーク42により生成される。本実施形態では、同一のニューラルネットワークで学習させるものではなく、別々のニューラルネットワークで学習させるものである。垂直方向学習モデルM2は、
図5の(B)に示すように、測定対象者20の視線24の垂直方向における視線角度62を複数の視線角度範囲62A~62Eに分けた場合において、複数の視線角度範囲62A~62Eのうち、どの視線角度範囲に測定対象者20の視線24が含まれるかを推定する学習を行ったものである。
【0022】
(2)学習済モデルMを使用した視線の推定
視線位置推定部14は、取得された撮影画像35に基づいて、対象エリア50を構成する複数の小エリア51のうち、運転者20の視線24がどの小エリア51に含まれるかを推定する。対象エリア50は、測定対象者の視線が向いている視認エリアであり、水平方向における複数の視線角度範囲61A~61E及び垂直方向における複数の視線角度範囲62A~62Eに基づいて複数の小エリア51に分割されている。
【0023】
視線位置推定部14は、撮影ユニット12により取得された撮影画像35に基づいて、水平方向学習済モデルM1を用いて、運転者20の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択する。視線位置推定部14は、取得された撮影画像35から顔部分を抽出して顔画像36を生成し、当該顔画像36を、学習時に入力される学習画像31の解像度にリサイズして、第1ニューラルネットワーク41に入力する。第1ニューラルネットワーク41は、水平方向学習済モデルM1を用いて、運転者20の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択する。水平方向推定視線角度範囲は、対象エリア50を構成する複数の小エリア51のうち、運転者20の水平方向の視線位置が含まれていると推定される範囲である。
【0024】
視線位置推定部14は、撮影ユニット12により取得された撮影画像35に基づいて、垂直方向学習済モデルM2を用いて、測定対象者20の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択する。視線位置推定部14は、取得された撮影画像35から顔部分を抽出して顔画像36を生成し、当該顔画像36を、学習時に入力される学習画像31の解像度にリサイズして、第2ニューラルネットワーク42に入力する。第2ニューラルネットワーク42は、垂直方向学習済モデルM2を用いて、運転者20の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択する。垂直方向推定視線角度範囲は、対象エリア50を構成する複数の小エリア51のうち、運転者20の垂直方向の視線位置が含まれていると推定される範囲である。
【0025】
視線位置推定部14は、上記水平方向の推定視線角度範囲及び垂直方向の推定視線角度範囲に基づいて、対象エリア50から小エリア51を推定する。
【0026】
次に、本実施形態の視線推定システム1で実行される学習済モデルMを使用した視線推定のアルゴリズムについて
図6を参照して説明する。
図6に示す処理は、例えば、電源投入(例えば車両2のIGNのON)に応じて、処理部13が記憶部から読みだしたプログラムを実行することにより、各ステップが順次行われる。
【0027】
ステップS11では、撮影ユニット12は、運転者20の顔を含む映像を撮影して映像の信号を出力する。処理部13は、撮影ユニット12から映像の信号を1フレーム分取り込む。このとき、処理部13は、グレースケール化を含む、画像のデータ形式の変換やサイズの変更などを必要に応じて実行する。
【0028】
ステップS12では、処理部13は、ステップS11で取り込んだ撮影画像35に基づいて、例えば、「Viola-Jones法」を用いて顔検出を行い、1フレームの二次元画像データの中から顔を含む顔画像36を抽出する。すなわち、顔の陰影差を特徴とし「Boosting」を用いた学習によって作成された検出器を使って顔画像36を抽出する。「Viola-Jones法」の技術は、例えば以下の文献に示されている。
「Viola,Paul and Michael J.Jones,“Rapid Object Detection using aBoosted Cascade of Simple Features”,Proceedings of the 2001 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,2001.Volume:1,pp.511-518.」
【0029】
ステップS13では、処理部13は、運転者20の水平方向の視線を推定する。ここで視線位置推定部14は、ステップS12で抽出された顔画像36に基づいて、水平方向学習済モデルM1を用いて、運転者20の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択する。
【0030】
ステップS14では、処理部13は、運転者20の垂直方向の視線を推定する。ここで視線位置推定部14は、ステップS12で抽出された顔画像36に基づいて、垂直方向学習済モデルM2を用いて、運転者20の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択する。
【0031】
ステップS15では、処理部13は、視線推定結果を出力する。ここで視線位置推定部14は、ステップS13で選択された水平方向の推定視線角度範囲、及び、ステップS14で選択された垂直方向の推定視線角度範囲に基づいて、対象エリア50から小エリア51を推定する。
【0032】
対象エリア50を測定対象者の正面±10度の視線角度とし、当該対象エリア50を水平方向及び垂直方向にそれぞれ分割して小エリアとした場合(
図4)、この対象エリア50を測定対象者が見たときの顔画像を取得し、視線データセットを作成する。例えば、視線データセットとして2981枚の画像を作成した場合、付与された正解ラベル毎の画像の枚数を
図7の(A)、
図7の(B)に示す。本実施形態では、1画素につき水平方向と垂直方向の正解ラベルを付与して、それぞれ学習を実施している。
【0033】
上述した視線データセットのうち、1割を検証用画像とし、残りを利用して、水平方向及び垂直方向のそれぞれについて学習を実行させる。学習した結果に基づいて、視線の推定を行った場合、
図8の(A)に示すように、精度(分類精度)が100%に近づいていく。これに対して、上述した視線データセットのうち、水平方向及び垂直方向のそれぞれについてではなく、25箇所全体について学習を実行させた場合、
図8の(B)に示すように、精度が大きく低下する。なお、
図8の(B)に示す表では、25箇所全体について学習を実行させたときの精度を、水平方向及び垂直方向にそれぞれの分類制度を検証した結果である。精度を向上させるためには、学習画像の数を増やす、またはネットワークの層を追加する等のモデルの構造を改良する必要がある。前者はデータ作成のコストが増加し、後者は視線推定時の計算量の増加につながる。
【0034】
以上説明した視線推定システム1は、撮影画像35に基づいて、水平方向学習済モデルM1を用いて、運転者20の水平方向の視線位置が含まれていると推定される水平方向推定視線角度範囲を選択し、垂直方向学習済モデルM2を用いて、運転者20の垂直方向の視線位置が含まれていると推定される垂直方向推定視線角度範囲を選択する。そして、水平方向の推定視線角度範囲及び垂直方向の推定視線角度範囲に基づいて、対象エリア50を構成する小エリア51のうち、運転者20の視線24がどの小エリア51に含まれるかを推定する。上記構成により、測定対象者の視線位置の推定処理を、精度を維持しつつ処理負荷を軽減することができる。
【0035】
また、視線推定システム1は、学習済モデルMが、分類問題を用いて生成される。これにより、回帰問題によるアピアランスベース手法による視線推定を行った場合に比して、より高精度に、かつ少ない学習画像の数で視線の推定を実現することができる。
【0036】
[変形例]
なお、上記実施形態では、視線推定システム1は、自動車等の車両2に適用されているが、これに限定されず、例えば車両2以外の船舶や航空機等に適用してもよい。また、視線推定システム1は、撮影ユニット12と、処理部13とに分かれているが、これに限定されず、一体で構成されていてもよい。
【0037】
また、上記実施形態では、処理回路は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理回路は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理回路が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理回路が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。
【0038】
以上で説明したプロセッサによって実行されるプログラムは、記憶回路等に予め組み込まれて提供される。なお、このプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルで、コンピュータで読み取り可能な記憶媒体に記録されて提供されてもよい。また、このプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供又は配布されてもよい。
【符号の説明】
【0039】
1 視線推定システム
12 撮影ユニット
13 処理部
14 視線位置推定部
M 学習済モデル
M1 水平方向学習済モデル
M2 垂直方向学習済モデル