(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-14
(45)【発行日】2023-06-22
(54)【発明の名称】視線入力装置、および視線入力方法
(51)【国際特許分類】
G06F 3/038 20130101AFI20230615BHJP
G06T 7/00 20170101ALI20230615BHJP
G06T 7/70 20170101ALI20230615BHJP
G06F 3/01 20060101ALI20230615BHJP
G06F 3/04817 20220101ALI20230615BHJP
【FI】
G06F3/038 310A
G06T7/00 660A
G06T7/70 B
G06T7/00 350C
G06F3/01 510
G06F3/04817
(21)【出願番号】P 2021012093
(22)【出願日】2021-01-28
【審査請求日】2021-10-08
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年10月15日 人間工学,2020,Vol.56,No.5,181-190頁(一般社団法人日本人間工学会)「畳み込みニューラルネットワークを用いたリアルタイム視線領域推定システムの構築と評価」にて発表
(73)【特許権者】
【識別番号】504237050
【氏名又は名称】独立行政法人国立高等専門学校機構
(73)【特許権者】
【識別番号】516388425
【氏名又は名称】株式会社ユニコーン
(74)【代理人】
【識別番号】100197642
【氏名又は名称】南瀬 透
(74)【代理人】
【識別番号】100099508
【氏名又は名称】加藤 久
(74)【代理人】
【識別番号】100182567
【氏名又は名称】遠坂 啓太
(74)【代理人】
【識別番号】100219483
【氏名又は名称】宇野 智也
(72)【発明者】
【氏名】柴里 弘毅
(72)【発明者】
【氏名】清田 公保
(72)【発明者】
【氏名】中島 勝幸
【審査官】星野 裕
(56)【参考文献】
【文献】特開2020-140630(JP,A)
【文献】特開2013-074601(JP,A)
【文献】特開2018-088118(JP,A)
【文献】国際公開第2015/029554(WO,A1)
【文献】特開2019-175449(JP,A)
【文献】国際公開第2019/003387(WO,A1)
【文献】国際公開第2018/186031(WO,A1)
【文献】特開2019-28843(JP,A)
【文献】中国特許出願公開第111931694(CN,A)
【文献】国際公開第2018/078857(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/038
G06T 7/00
G06T 7/70
G06F 3/01
G06F 3/048
(57)【特許請求の範囲】
【請求項1】
電子計算機への入力情報が表示された画面を見ている使用者の顔
全体を
、前記画面を有する表示部の周囲に固定された撮像手段で撮像し撮像データを取得する撮像工程と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、注視座標点の情報を有する
顔全体を含む画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力方法。
【請求項2】
前記撮像する工程の撮像データが、前記使用者の顔
全体を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データであり、
前記特定工程により、前記連続撮像データのそれぞれの撮像データについて視線領域を特定し、
前記連続撮像データに基づいて特定されたそれぞれの前記視線領域を、移動平均処理したものを、前記所定の時間の平均視線領域とする平均化処理工程を有する、請求項1に記載の視線入力方法。
【請求項3】
前記特定工程により特定される前記視線領域が所定の時間、所定の領域内と判断され、前記視線領域に入力情報が存在するとき、選択肢を強調表示する強調表示工程と、
前記強調表示されているとき、前記強調表示の入力情報を入力することを確認するための確認領域を前記画面に表示し、前記確認領域に前記使用者の視線領域が特定されたとき、前記使用者が、前記強調表示の入力情報を入力したものとする確認工程とを有する、請求項1または2に記載の視線入力方法。
【請求項4】
前記入力情報が複数設けられ、表示される前記複数の入力情報間に、入力情報としない不感帯を有する、請求項1~3のいずれかに記載の視線入力方法。
【請求項5】
前記撮像手段の画素が0.8MP~12MPであり、前記撮像手段の画角が70~90度である、請求項1~4のいずれかに記載の視線入力方法。
【請求項6】
電子計算機への入力情報が表示された画面を有する表示部と、
前記画面を見ている使用者の顔
全体を撮像し撮像データを取得する
前記表示部の周囲に固定された撮像手段と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する
顔全体を含む画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視線により表示された選択肢を特定して入力する視線入力方法に関する。また、本発明は視線入力方装置に関する。
【背景技術】
【0002】
今日、視線の推定に関しては数多くの手法(非特許文献1、非特許文献2)が提案されており、その成果は様々な分野に利用されている。一例として、発話が困難な脳血管障害者や筋萎縮性側索硬化症患者の意思表示を目的とした視線入力装置がある(非特許文献3)。視線で画面上のアイコンを選択したり、文字を入力したりすることで文章を書いて読み上げるなどの機能を備えており、意思や気持ちの伝達が可能になるため、生活の質が改善されることが期待されている。
【0003】
特許文献1は、眼球信号のためのシステム等に関して、以下のような技術を開示している。主に眼球運動に基づいてデバイス着用者の意図を識別するためのシステムおよび方法が提供される。当該システムは、アイトラッキングを実行して画面表示を制御する邪魔にならないヘッドウェア内に含まれてもよい。当該システムは、リモートアイトラッキングカメラ、リモートディスプレイおよび/または他の補助的な入力も利用してもよい。画面レイアウトは、高速眼球信号の形成および確実な検出を容易にするように最適化される。眼球信号の検出は、デバイス着用者による自発的な制御下にある生理学的な眼球運動の追跡に基づく。眼球信号の検出は、ウェアラブルコンピューティングおよび幅広いディスプレイデバイスに適合する動作をもたらす。
【0004】
特許文献2は、人物の顔を含む画像を取得する画像取得部と、前記人物の目を含む部分画像を前記画像から抽出する画像抽出部と、視線方向を推定するための機械学習を行った学習済みの学習器に前記部分画像を入力することで、前記人物の視線方向を示す視線情報を当該学習器から取得する推定部と、を備える、人物の視線方向を推定するための情報処理装置を開示している。
【0005】
特許文献3は、オペレータの視線の変化に応じた眼球の変位量を検出する眼球変位量検出手段と、眼球変位量検出手段からの変位量検出出力を受け取って所定の時間分の当該眼球変位量を平滑化する信号平滑手段と、信号平滑手段からの眼球変位量平滑出力を受け取り、表示画面上の座標との対応づけを学習,認識するニューラルネットワークとを備えたことを特徴とする視線認識装置を開示している。
【先行技術文献】
【特許文献】
【0006】
【文献】特表2017-526078号公報
【文献】特開2019-28843号公報
【文献】特開平5-46309号公報
【非特許文献】
【0007】
【文献】伊藤和幸,数藤康雄,他.重度肢体不自由者向けの視線入力式コミュニケーション装置.電子情報通信学会論文誌.2000,83(5),p.495-503.
【文献】新井康平,上滝寛美.利用者の動きを許容する黒目中心検出による視線推定に基づくコンピュータ入力システム.電気学会論文誌.2007,127(7),p.1107-1114.
【文献】後関利明,星飛雄馬,他.Tobii社製眼球運動計測装置.神経眼科.2016,33(1),p.47-52.
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1~3に開示されているように、視線領域の特定や、それによる入力・操作などを行うにあたっては、一般的には、使用者の目を撮影した情報に注目した処理が行われている。目の情報に頼ると、小さい領域の解像度が高い撮影像が必要となる。特に、目の大きさはヒトによって異なるし、さらに、いわゆる白目や黒目の位置関係に着目するにあたってもこれらの大きさもヒトによって異なる。
【0009】
さらに、黒目においても角膜内の瞳孔と虹彩のように色調の区別が難しい部分を特定しないと視線の特定ができず、より高解像度の撮影像が必要となる。このような目を中心に視線を特定しようとすると、カメラの仕様も重要となり、その撮像したデータの画像処理の負荷も大きい。また、視線領域の特定にあたっては、個人差も生じるため、操作を開始する前にキャリブレーションも必要となる。
【0010】
しかし、視線入力装置は、そもそも意思表示や難しい操作が難しい重度の重複障害等を有する特別支援学校の児童などで利用することが求められている場合がある。このような児童などに繰り返し複数回の高度な処理を求めるキャリブレーション処理などは難しい場合がある。
【0011】
かかる状況下、本発明は、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行う視線入力方法等を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明者は、上記課題を解決すべく鋭意研究を重ねた結果、下記の発明が上記目的に合致することを見出し、本発明に至った。すなわち、本発明は、以下の発明に係るものである。
【0013】
<1> 電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得する撮像工程と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力方法。
<2> 前記撮像する工程の撮像データが、前記使用者の顔を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データであり、
前記特定工程により、前記連続撮像データのそれぞれの撮像データについて視線領域を特定し、
前記連続撮像データに基づいて特定されたそれぞれの前記視線領域を、移動平均処理したものを、前記所定の時間の平均視線領域とする平均化処理工程を有する、前記<1>に記載の視線入力方法。
<3> 前記特定工程により特定される前記視線領域が所定の時間、所定の領域内と判断され、前記視線領域に入力情報が存在するとき、選択肢を強調表示する強調表示工程と、
前記強調表示されているとき、前記強調表示の入力情報を入力することを確認するための確認領域を前記画面に表示し、前記確認領域に前記使用者の視線領域が特定されたとき、前記使用者が、前記強調表示の入力情報を入力したものとする確認工程とを有する、前記<1>または<2>に記載の視線入力方法。
<4> 前記入力情報が複数設けられ、表示される前記複数の入力情報間に、入力情報としない不感帯を有する、前記<1>~<3>のいずれかに記載の視線入力方法。
<5> 前記撮像手段が、表示部の周囲に固定されたものである、前記<1>~<4>のいずれかに記載の視線入力方法。
<6> 電子計算機への入力情報が表示された画面を有する表示部と、
前記画面を見ている使用者の顔を撮像し撮像データを取得する撮像手段と、
前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである、視線入力装置。
【発明の効果】
【0014】
本発明によれば、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行う視線入力方法等が提供される。
【図面の簡単な説明】
【0015】
【
図1】本発明の視線入力方法に係るフロー図である。
【
図4】本発明の視線入力装置の使用状態を説明するための概要図である。
【
図5】本発明に用いる学習済みモデルの取得に関するフロー図である。
【
図6】本発明の視線入力方法や学習済みモデルの処理を説明するための概要図である。
【
図7】本発明に用いる学習済みモデルの取得に関する機械学習の処理の一部を説明するための概要図である。
【
図8】本願の試験例に係る試験条件の概要を説明するための概要図である。
【
図9】表示部の注視点の配置パターンを示す図である。
【
図10】基本姿勢における視線領域の推定精度のグラフである。
【
図12】推定精度の時間変化を移動平均処理したグラフである。
【
図13】距離を変更したときの推定精度のグラフである。
【
図14】顔の位置を変更したときの推定精度のグラフである。
【
図15】ヨー角を変更したときの推定精度のグラフである。
【
図16】ピッチ角を変更したときの推定精度のグラフである。
【
図17】ロール角を変更したときの推定精度のグラフである。
【
図18】複合的な条件を変更したときの推定精度のグラフである。
【
図19】複合的な条件を変更し移動平均処理をした推定精度のグラフである。
【
図20】表示部の注視点の配置パターンに不感帯を設けた状態を示す図である。
【
図21】不感帯を排除したときの推定精度を選択的に表示したグラフである。
【発明を実施するための形態】
【0016】
以下に本発明の実施の形態を詳細に説明するが、以下に記載する構成要件の説明は、本発明の実施態様の一例(代表例)であり、本発明はその要旨を変更しない限り、以下の内容に限定されない。なお、本明細書において「~」という表現を用いる場合、その前後の数値を含む表現として用いる。
【0017】
[本発明の視線入力方法]
本発明の視線入力方法は、電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得する撮像工程と、前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定工程と、を有し、
前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである。
【0018】
[本発明の視線入力装置]
本発明の視線入力装置は、電子計算機への入力情報が表示された画面を有する表示部と、前記画面を見ている使用者の顔を撮像し撮像データを取得する撮像手段と、前記撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、前記使用者の視線領域を特定する特定部と、を有し、前記予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する顔画像を学習用データとして、前記学習用データから顔領域を検出し、前記顔領域の畳み込みニューラルネットワークに対して機械学習して作成したものである。
【0019】
本発明の視線入力方法や視線入力方法によれば、キャリブレーションを必要とせず、操作者の視線により電子計算機の操作のための入力を行うことができる。なお、本願において本発明の視線入力装置により本発明の視線入力方法を行うこともでき、本願においてそれぞれに対応する構成は相互に利用することができる。
【0020】
本発明者らは、非接触型の視線入力装置について検討した。従来の視線入力装置は、使用開始前にキャリブレーションを必要としている。しかし、知的な遅れがあり身体を思うように動かすことが難しい重度重複障碍者にとって、キャリブレーションの操作指示に従い視線を移動させることは困難な場合がある。また、目の像から判断しようとするために高解像度のカメラや、専用の取り付け器具などが必要となり、設備導入の手間もかかることも視線による意思表示と入力を困難なものとしている。
【0021】
本発明者らは、キャリブレーションを行うことなく、汎用性が高いカメラでも視線領域を特定して入力する装置を検討した。この検討にあたって、注視座標点情報を有するパソコンの操作者の顔画像から、目と顔を含む領域を抽出して、畳み込みニューラルネットワークで学習することを検討した。その結果、汎用のカメラの解像度でも、使用者がキャリブレーションを行わずに視線領域を特定して入力することができる視線入力方法や視線入力装置を実現した。
【0022】
これは、視線は、目における黒目や白目の位置も重要な要素であるものの、それに加えて、首などの姿勢等の影響も受ける顔全体の向きも大きな影響を与えており、これらを入力データとして総合的に解析することが有効であることと、これらの顔全体を対象とすれば、顔における目の位置の特定などは比較的解像度が低い像からも有用なデータを得やすいためと考えられる。
【0023】
[視線入力のフロー図]
図1は、本発明の視線入力方法に係るフロー図である。また、
図2、3は、本発明の視線入力装置に係る概要図である。
図2、3に示すように視線入力装置10は、表示部1と、撮像手段2と、特定部31を含む制御部3と、記憶部4と、表示部1への信号出力などを行う出力部5を有する。制御部3や記憶部4、出力部5は電子計算機6に内蔵されている。電子計算機6と、表示部1や撮像手段2は、有線や無線で信号を入出力できる。
【0024】
図1に示すように、視線入力方法は、顔の撮像を行うステップS11を行い、次に撮像された顔に基づいて視線領域を特定するステップS21を行い、次に視線領域に対応する指示を入力する。
【0025】
ステップS11は、より詳しくは、電子計算機への入力情報が表示された画面を見ている使用者の顔を撮像手段で撮像し撮像データを取得するものである。
ステップS21は、より詳しくは、ステップS11で撮像した撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、使用者の視線領域を特定するものである。
ステップS31は、ステップS21で特定された視線領域に対応する選択肢を選択したものとして、操作するための入力を行うものである。
【0026】
[視線入力装置10]
視線入力装置10は、視線で使用者の選択した選択内容を電子計算機に入力するものである。例えば、文章などの文字入力をしようとするときは、文字の選択肢を表示部に表示したところから、視線でその選択肢を選択し、入力する。このほかにも、その時の使用者の意思表示などを視線だけで入力するものである。
【0027】
図4は、本発明の視線入力装置の使用状態を説明するための概要図である。例えば、ベッドに横になっている使用者が、使用者の視線上にアーム等で固定されたタブレット端末の画面のアイコンを注視して意思表示することができる。タブレット端末などの画面は、介助者が保持して使用者に見せることなどもできる。このような装置によれば、使用者が手や発話などで操作や指示が難しい場合も、様々な意思表示をすることができる。
【0028】
[表示部1]
表示部1は、パーソナルコンピュータなどの電子計算機に接続されたモニターや、タブレット端末やラップトップコンピュータのように電子計算機と一体化されたモニターなどを用いることができる。または、プロジェクタなどで投影した像などでもよい。
【0029】
表示部1は、電子計算機6への入力情報が表示されており、使用者はこの画面を見て、指示等を入力する。電子計算機6への入力情報は、画面上の領域として、選択肢などが表示されている。
図2(a)は、表示部1の左上に選択肢Aが表示され、右上に選択肢Bが表示され、左下に選択肢Cが表示され、右下に選択肢Dが表示されている。
図2(b)では、選択した内容が正しいかを確認したりするための選択肢として、左上に「はい」、右上に「いいえ」の選択肢が表示されている。
【0030】
[撮像手段2]
撮像手段2は、表示部1の画面を見ている使用者の顔を撮像し撮像データを取得するものである。撮像手段2は、使用者の顔を撮像することができる位置に配置され、使用者の顔を撮像できる画素数や画角などを有するものである。表示部1や撮像手段2と使用者の距離などにもよるが、1MP(100万画素)程度以上の画素で、60度以上程度の画角のものなどを用いることができる。画素数は、高すぎると解析負荷が大きく、画素数を低減する処理などが必要な場合もあるため、12MP以下程度としてもよい。また、画角も広すぎると顔周辺が十分に映らずに周囲の要素が増え、複数人映り込む恐れもあるため、90度以下程度とすることができる。画素は、0.8MP~12Mp程度や2MP~6MP程度とし、画角は70~90度程度のものを用いることができる。
【0031】
撮像手段2は、使用者を表示部1側の正面からとらえる配置とすることが好ましい。より好ましくは、表示部1の周囲に固定されたものであることが好ましい。例えば、表示部1のモニター上部や下部や左右などに取り付けたものや、インカメラタイプのモニターなどを用いることができる。
【0032】
[特定部31]
特定部31は、撮像手段2により得た撮像データを、予め作成された視線領域予測の学習済みモデルに入力して、使用者の視線領域を特定する。
【0033】
[視線領域予測の学習済みモデル]
予め作成された視線領域の学習済みモデルが、複数の注視座標点の情報を有する画像を学習用データとして用いる。また、その学習用データから、顔領域を検出して用いる。また、学習済みモデルは、画像を学習用データとして畳み込みニューラルネットワークに対して機械学習を行って、顔と目に係る特徴量を抽出することにより作成されたものである。この学習済みモデルは、顔領域を対象としていることから、顔と目に係る特徴量を抽出したものとなる。
【0034】
図5は、本発明に用いる学習済みモデルの取得に関するフロー図である。
図6は、本発明の視線入力方法や学習済みモデルの処理を説明するための概要図である。
図5に示すように、学習済みモデルの取得にあたっては、注視点や注視領域が特定されている多数の顔画像を用いる。まず、顔画像の学習データ入力を行うステップS101を行う。次に、顔領域を検出し抽出するステップS201を行う。次に、抽出された顔領域の情報を学習用データとして機械学習するステップS301を行う。そして、学習済みモデルを取得するステップS401を行う。
【0035】
ステップS101は、顔画像の学習データを入力するステップである。
図6(a1)の画像91は、表示部1の注視点11を見ている人を、表示部1の上部に取り付けた撮像手段2から撮像した像である。この画像91のような顔画像を学習用のデータとして、入力する。
【0036】
ステップS201は、画像91から顔領域を特定して抽出するステップである。
図6(a2)の画像92は、画像91から、顔領域921を特定した状態である。また、さらに
図6(a3)の画像93は、画像92で特定した顔領域921を、入力用データとして抽出した顔領域922としたものである。このとき、右上がりの斜線で塗りつぶした領域は、ノイズとなる恐れがあるため、重みづけを小さくしたり、学習用データに用いない。
【0037】
顔領域の抽出には、Haar-Like特徴量などを用いることができる。なお、顔領域を特定できない画像の場合は、学習データとして用いずに排除する。
【0038】
ステップS301は、画像93に示す、顔領域922を学習用データとして機械学習するステップである。機械学習には、100以上や、1000以上、10000以上などの注視点との関係が特定された画像を学習データセットとして用いる。なお、過学習を抑制するために、100000以下や、50000以下、30000以下などの学習データを用いるものとしてもよい。
【0039】
学習データセットは、おおむね同環境となる条件で多数の被験者等からデータを取得して用いてもよい。また、このような学習データセットとして、例えば、MPII GAZE(参考文献:University of Edinburgh, "Eye gaze software curve")などを用いることもできる。
【0040】
機械学習は、畳み込みニューラルネットワーク(CNN)を用いることが好ましい。CNNモデルには、畳み込み層やプーリング層などの層が存在し、その数や組み合わせ方により様々なモデルが存在し適宜適したものを採用する。例えばVGGや、GoogLeNet(Inception)、Xceptionなどを用いることができる。
図7は、本発明に用いる学習済みモデルの取得に関する機械学習の処理の一部を説明するための概要図である。具体的には、
図7は、VGGの一種であるVGG16の構造に基づいた、本発明の畳み込みニューラルネットワークを示す概要図である。
図7に示すように、最後の全結合層で4クラス(area1~4)の推定確率を算出している。
【0041】
VGGの参考文献:Liu, S.; Deng, W. "Very deep convolutional neural network based image classification using small training sample size". Proceedings of 2015 3rd IAPR Asian Conference on Pattern Recognition (ACPR). Kuala, Lumpur, 2015-11-03/06, p.730-734, doi: 10.1109/ACPR.2015.7486599.
【0042】
GoogLeNet(Inception)の参考文献:Szegedy, C.; Liu, W.; et al. "Going deeper with convolutions". Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, 2015-07-07/12, p.1-9, doi: 10.1109/CVPR.2015.7298594.
【0043】
Xceptionの参考文献:Chollet, F. "Xception: deep learning with depthwise separable convolutions". Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, 2017-07-21/26, p.1800-1807, doi: 10.1109/CVPR.2017.195.
【0044】
ステップS401は、機械学習された学習済みモデルを取得するもので、取得された学習済みモデルは、
図2等に示す電子計算機6の記憶部4に記憶され、特定部31での処理に用いられる。
【0045】
[記憶部4]
記憶部4は、学習済みモデルや、撮像された撮像データや、抽出された顔領域や、これらの処理を行うためのプログラムなどを記憶するメモリである。
【0046】
[平均化処理部32]
平均化処理部32は、所定の時間の平均視線領域を得る平均化処理を行う部分である。平均化処理工程は、撮像データとして、使用者の顔を、所定の時間ごとに連続的に複数回撮像した複数の撮像データを含む連続撮像データを用いて処理する。平均化処理を行うにあたって、特定工程により、連続撮像データのそれぞれの撮像データについて視線領域を特定する。そして、連続撮像データに基づいて特定されたそれぞれの視線領域を、移動平均処理したものを、所定の時間の平均視線領域とする。
【0047】
人の視線は、短時間で揺らぎが生じる場合がある。選択肢が表示されている領域を見る意思があっても、その周囲を確認のために見たり、選択肢が表示されている領域内で視線が泳いだり、瞬きなどにより視線が誤って処理されたりする場合がある。これらによる揺らぎを解消するために、移動平均処理した平均化処理を行うことが好ましい。特に本発明の視線入力方法は、解析負荷が低いため、短時間で視線領域を特定できる。このため、一定のフレームレートで連続的に撮像されている撮像データに対しても、リアルタイムで視線領域を特定できる。フレームレートは、15~60fps程度で撮像されたものを利用できる。瞬きのノイズは数フレーム程度と考えられ、視線による意思表示は、0.5秒程度でその意思がある可能性が高いものとして解析できると考えられる。このため、例えば、30fpsのフレームレートであれば、10~20コマ程度の移動平均処理をすれば、より信頼性が高い視線領域の特定ができる。
【0048】
[確認部33]
確認部33は、入力された視線領域を確認する処理を行う部分である。
図3(a)は、特定手段により特定される視線領域が所定の時間、選択肢Aに関する入力情報が存在する領域内と判断された例である。このため、その選択肢Aを強調表示する強調表示が行われている。この強調表示は、選択肢Aをハイライト表示したり、その周囲に確認のフレームを表示したり、他の選択肢の視認性を薄く表示して相対的に強調するなどの処理とすることができる。
さらに、
図3(b)は、選択肢Aが強調表示されているとき、その強調表示の入力情報を入力することを確認するための確認領域を表示部1の画面に表示し、左上に「はい」の確認領域を設け、右上に「いいえ」のキャンセル表示を行ったものである。「はい」に相当する確認領域に使用者の視線領域が特定されたとき、使用者が、強調表示の入力情報を入力したものとする確認を行うことができる。
【0049】
[出力部5]
出力部5は、撮像手段2から入力された画像などに基づいて、制御部3で処理された結果に基づいて、さらに確認の表示を行ったり、その選択に対する次の処理などを表示部1に表示させたり、他の端末等にその信号を出力する部分である。
【0050】
[電子計算機6]
これらの制御部3や出力部5は、電子計算機6にアプリケーションソフトとしてインストールさせたものとして用いることができる。電子計算機6は、さらに表示部1やカメラ2、記憶部4と一体化されたタブレット端末などを用いることもできる。
【0051】
[試験例]
本発明の視線入力に係る視線領域の特定に関して、以下の試験を行った。
【0052】
[学習済みモデルの作成]
1.学習用データの構成
機械学習の学習用データセットとして、MPII GAZEを用いた。MPII GAZEは、インカメラが設置されているノートPCを注視している15人の画像と、そのパソコンのモニター上の注視座標点に係る組み合わせの37667組で構成されている。このデータセットを用いて、以下の手順で再構成した。
(1)注視点座標から注視領域のラベリングを行う。(2)Haar-Like特徴量に基づき、元画像から顔領域のみを抽出する。(3)Haar-Like特徴量による顔領域検出ができない画像をスクリーニングして排除し、残った画像について、訓練用、検証用、テスト用データに分割した。訓練用データは18000枚、検証用データは2860枚、テスト用データは2008枚とした。訓練用データおよび検証用データは機械学習を行う際に用いて、テスト用データは推定精度を確認する際に用いた。
【0053】
2.機械学習
前述の訓練用データをおよび検証用データを用いて、畳み込みニューラルネットワークに対して機械学習を行った。畳み込みニューラルネットワークは、VGG16を用いた。この機械学習を行ったことにより作成されたCNNモデルを、学習済みモデルとして使用する。
【0054】
[リアルタイム視線領域推定]
1.撮像条件
図8本願の試験例に係る試験条件の概要を説明するための概要図である。
デスクトップパーソナルコンピュータのモニターを注視用ディスプレイとした。この注視用ディスプレイの上部にウェブカメラ(Logicool webカメラ“C270”(画素数1280×720) フレームレート25fps以上に設定)を取り付けた。
ウェブカメラからの高さ(Hc)を調整できるものとした。
ウェブカメラからの前に、実験台用顎台を配置して、この実験台用顎台上に被験者の顔を置いて撮像するものとした。
実験台用顎台は、あごの高さ(H)、ウェブカメラからの距離(L)、被験者の顔の向きに係るヨー角(Yaw)、ロール角(Roll)、ピッチ角(Pitch)を調整できるものとした。
【0055】
2.視線領域の特定
撮像した画像について、以下の処理を行って、視線領域を特定した。(1)ウェブカメラから画像フレームを取得する。(2)Haar-Like特徴量分類器を用いて、顔領域を切り出し、画像として保存する。(3)保存された顔画像を、前述のCNNモデルの入力とする。(4)画面注視領域の推定結果を比較し、最も確率の高いものを推定領域とした。なお、適宜、推定領域を画像フレームに赤枠で表示した。また、注視点は後述する4つの領域としており、その4つの領域のうちCNNの推定確率が50%を上回った領域をシステムが推定した視線領域として扱った。
【0056】
[注視点の配置パターン]
図9は、試験例における表示部の注視点の配置パターンを示す図である。No.1~9を領域1(area1)、No.10~18を領域2(area2)、No.19~27を領域3(area3)、No.28~36を領域4(area4)とした。
【0057】
[基本姿勢]
図10は、基本姿勢における視線領域の推定精度のグラフである。基本姿勢は、L=700mm、Hc=450mm、H=350mmとした。基本姿勢となる初期配置におけるヨー角を0度、ピッチ角を0度、ロール角を0度とする。1人あたり、注視点(Marker position)1点ごとに150フレームのデータを取得した。被験者は6名として、その平均を求めた。被験者は20代~50代の健常者男性である。
注視点が含まれる領域を正しく判定できたかの正確さ(Accurasy)をグラフ化したものが
図10である。
【0058】
被験者6名の平均推定精度は98.2%であった。また、個人ごとの成績としては最高で99.2%、最低97.0%であった。標本標準偏差の範囲は、0.00~11.3%、中央値は1.35%、平均値は2.01%であった。ばらつきは一定の範囲内に収まっており、再現性があることが確認された。
【0059】
[推定精度の時間変化]
図11は、推定精度の時間変化のグラフである。注視点16は、領域2(area2)に属する。しかし、他の領域との境界に近いため、誤認識が生じやすい部分である。
図11は、この点について、1名の被験者の150フレームの詳細データを示したものである。正答となるarea2が支配的なものの、領域1や領域4に誤認識される瞬間も散見された。
【0060】
[推定精度に対する移動平均処理の影響]
図12は、推定精度の時間変化を移動平均処理したグラフである。
図12は、
図11に係る推定精度の時間変化について、10フレームの移動平均処理を施したものである。移動平均処理することで、推定結果は、領域2とより正確に推定されるものとなり、他の領域に誤った推定がされる可能性が非常に低くなった。
【0061】
[距離の影響]
図13は、距離を変更したときの推定精度のグラフである。
図13は、基本姿勢に準じる条件で、距離(L)を700mmから、1200mmに変更し、被験者を4名とした試験結果である。距離を変更しても、平均推定精度97.4%を達成することができた。
【0062】
[顔の位置の影響]
図14は、顔の位置を変更したときの推定精度のグラフである。
図14は、基本姿勢に準じる条件で、顎台の高さを100mm下げて、被験者を4名とした試験結果である。顎帯の高さを変更しても、平均推定精度97.4%を達成することができた。
【0063】
[ヨー角の影響]
図15は、ヨー角を変更したときの推定精度のグラフである。
図15は、基本姿勢に準じる条件で、ヨー角を10度変更し、被験者を1名とした試験結果である。ヨー角を変更しても、高い推定精度を達成することができた。
【0064】
[ピッチ角の影響]
図16は、ピッチ角を変更したときの推定精度のグラフである。
図16は、基本姿勢に準じる条件で、ピッチ角を、15度に変更し、被験者を1名とした試験結果である。ピッチ角を変更しても、高い推定精度を達成することができた。
【0065】
[ロール角の影響]
図17は、ロール角を変更したときの推定精度のグラフである。
図17は、基本姿勢に準じる条件で、ロール角を、17度に変更し、被験者を1名とした試験結果である。ロール角を変更しても、高い推定精度を達成することができた。
【0066】
[複合的な条件の影響]
図18は、複合的な条件を変更したときの推定精度のグラフである。
図18は、基本姿勢に準じる条件で、ヨー角10度、ピッチ角15度、ロール角15度に変更し、被験者を1名とした試験結果である。これらの条件を複合的に変更しても、平均推定精度92.5%を達成することができた。ただし、最も正確性が低下した注視点は推定精度67.3%となった。
【0067】
[移動平均処理の影響]
図19は、複合的な条件を変更し移動平均処理をした推定精度のグラフである。この
図19は、
図18の試験結果に基づいて、10フレームの移動平均処理を行ったときと、15フレームの移動平均処理したときの推定精度の推移である。なお、本試験例の条件では、15フレームが約0.5秒に相当する。
【0068】
[不感帯の配置]
図20は、表示部の注視点の配置パターンに不感帯を設けた状態を示す図である。領域の境界付近となる注視点は、誤認識が生じやすいため、これらについては、
図20に右上がり斜線で示す不感帯を設けるものとすることができる。CNNモデルによる注視点座標が、仮にこの不感帯の範囲と推定された場合は、視線領域を判定しないものとすることができる。また、視線入力装置において、表示部に対しては、これらの不感帯は、選択肢が表示されないものとする。
【0069】
[不感帯を設けたときの推定精度]
図21は、不感帯を排除したときの推定精度を選択的に表示したグラフである。
図21は、不感帯に相当する部分を濃いグレーで着色している。これらの不感帯に相当する部分を排除すれば、より正確性が高い判定がされた部分のみとなるため、キャリブレーションを行わずとも、視線入力を行うことができる。
【産業上の利用可能性】
【0070】
本発明は、電子計算機等への指示を視線で入力する装置等に利用することができ、産業上有用である。
【符号の説明】
【0071】
10 視線入力装置
1 表示部
11 注視点
2 撮像手段
3 制御部
31 特定部
32 平均化処理部
33 確認部
4 記憶部
5 出力部
6 電子計算機
91~93 画像
921~922 抽出領域