IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2022-161690情報処理装置、情報処理方法、学習方法、およびプログラム
<>
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図1
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図2
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図3
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図4
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図5
  • 特開-情報処理装置、情報処理方法、学習方法、およびプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022161690
(43)【公開日】2022-10-21
(54)【発明の名称】情報処理装置、情報処理方法、学習方法、およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221014BHJP
   G06T 7/70 20170101ALI20221014BHJP
【FI】
G06T7/00 660A
G06T7/70 B
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021066697
(22)【出願日】2021-04-09
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】金原 輝
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA02
5L096DA02
5L096EA07
5L096FA67
5L096HA11
5L096KA04
(57)【要約】
【課題】人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供する。
【解決手段】人物の視線を推定する情報処理装置は、前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算手段と、前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算手段と、を備え、前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記第2モデルの係数を変更する。
【選択図】図1
【特許請求の範囲】
【請求項1】
人物の視線を推定する情報処理装置であって、
前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算手段と、
前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算手段と、
を備え、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記第2モデルの係数を変更する、
ことを特徴とする情報処理装置。
【請求項2】
前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
撮影手段で得られた前記人物の画像を取得する取得手段と、
前記取得手段で取得された前記人物の画像から、前記第1モデルに入力される前記人物の顔の画像を生成するとともに、前記第2モデルに入力される前記人物の目の画像を生成する生成手段と、
を更に備えることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記第2演算手段は、前記人物の目の画像を反転させた反転画像を前記第2モデルに入力し、前記第2モデルから出力された視線情報を反転させて得られる情報に基づいて、前記人物の視線を推定する、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記第2演算手段は、前記第1演算手段により推定された顔の向きを反転させて得られる顔の向きに応じて、前記第2モデルの係数を変更する、ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
人物の視線を推定する情報処理方法であって、
前記人物の顔の画像を入力すると顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算工程と、
前記人物の目の画像を入力すると視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算工程と、
を含み、
前記第2演算工程では、前記第1演算工程で推定された顔の向きに応じて、前記第2モデルの係数を変更する、
ことを特徴とする情報処理方法。
【請求項7】
請求項6に記載の情報処理方法の各工程をコンピュータに実行させるためのプログラム。
【請求項8】
人物の視線を推定する情報処理装置における学習方法であって、
前記人物の画像から、前記人物の顔の画像と、前記人物の目の画像とを抽出する抽出工程と、
前記抽出工程で抽出された前記顔の画像および前記目の画像に基づいて、前記人物の視線を前記情報処理装置に推定させる推定工程と、
前記人物の画像が得られたときの前記人物の視線の情報を教師データとして取得する取得工程と、
前記推定工程で推定された前記人物の視線と、前記教師データとしての前記取得工程で取得された前記人物の視線とのずれ量が低減するように、前記情報処理装置に学習させる学習工程と、
を含むことを特徴とする学習方法。
【請求項9】
請求項8に記載の学習方法の各工程をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物の視線を推定する技術に関する。
【背景技術】
【0002】
特許文献1には、運転者の眼球あるいは顔を撮影して得られた撮影画像に基づいて、運転者の視線を検出する技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005-278898号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
人物の視線は、当該人物の顔の向きに応じて変わることがあるため、当該人物の顔の向きに応じて当該人物の視線を精度よく推定する技術が望まれている。
そこで、本発明は、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本発明の一側面としての情報処理装置は、人物の視線を推定する情報処理装置であって、前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算手段と、前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算手段と、を備え、前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記第2モデルの係数を変更する、ことを特徴とする。
【発明の効果】
【0006】
本発明によれば、例えば、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することができる。
【図面の簡単な説明】
【0007】
図1】本発明に係る情報処理装置を用いたシステムの構成例を示す図
図2】撮影画像、抽出画像および入力画像の一例を示す図
図3】情報処理装置で適用される学習モデルを説明するための図
図4】情報処理装置で行われる推定処理を示すフローチャート
図5】機械学習における入出力の構造を示す概念図
図6】情報処理装置における学習方法を示すフローチャート
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について図を参照しながら説明する。本発明は、以下の実施形態に限定されるものではなく、本発明の趣旨の範囲内での構成の変更や変形も含む。また、本実施形態で説明されている特徴の組み合わせの全てが本発明に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、その説明を省略する。
【0009】
図1は、本発明に係る一実施形態の情報処理装置1を用いたシステムAの構成例を示すブロック図である。本実施形態のシステムAは、情報処理装置1と、撮影部2と、外部装置3とを備える。撮影部2は、例えばカメラを含み、画像内に人物の顔が含まれるように当該人物を撮影する。例えば、本実施形態のシステムAが車両に適用される場合、撮影部2は、当該車両の運転席に着座している運転者を撮影するように配置されうる。また、外部装置3は、情報処理装置1で推定された人物の視線情報を取得し、当該視線情報に基づいて各種の処理を行う装置である。例えば、本実施形態のシステムAが車両に適用される場合、外部装置3は、当該車両を制御する制御ユニット(一例としてECU(Electronic Control Unit))であり、情報処理装置1で推定された運転者(人物)の視線情報に基づいて、運転者が運転中にどこを向いているのかを検出する。外部装置3は、車両の自動運転を制御する制御ユニットであってもよい。
【0010】
情報処理装置1は、CPUに代表されるプロセッサ、半導体メモリ等の記憶デバイス、外部デバイスとのインタフェース等を含むコンピュータであり、撮影部2で得られた人物の画像に基づいて当該人物の視線を推定(決定、算出)する推定処理を実行する。「人物の視線」は、当該人物が見ている方向として定義され、視線方向または視線ベクトルとして理解されてもよい。本実施形態の場合、情報処理装置1は、記憶部1aと、取得部1bと、生成部1cと、モデル演算部1dとを含みうる。記憶部1aには、プロセッサが実行するプログラムや各種のデータに加えて、後述する学習モデルや学習データ等が格納されており、情報処理装置1は、記憶部1aに格納されたプログラム等を読み出して実行することにより、上記の推定処理を行うことができる。ここで、情報処理装置1が実行するプログラムは、CD-ROMやDVD等の記憶媒体に記憶させておき、当該記憶媒体から情報処理装置1にインストールすることも可能である。
【0011】
情報処理装置1の通信部1bは、撮影部2および/または外部装置3との間で情報やデータの通信を行うインタフェースであり、入出力インタフェースおよび/または通信インタフェースを含む。通信部1bは、撮影部2で得られた人物の画像を撮影部2から取得する取得部として理解されてもよいし、後述するモデル演算部1dで推定された人物の視線の情報を外部装置3に出力(供給)する出力部(供給部)として理解されてもよい。なお、以下では、撮影部2で得られた人物の画像を「撮影画像」と表記することがある。
【0012】
情報処理装置1の生成部1cは、通信部1bを介して撮影部2から取得された人物の撮影画像に対して公知の画像処理技術を適用することにより、当該撮影画像から、当該人物の顔(顔全体)の画像、当該人物の左目の画像、および当該人物の右目の画像を抽出する。そして、撮影画像からそれぞれ抽出した顔の画像、左目の画像および右目の画像から、モデル演算部1dに入力するための画像を生成する。以下では、撮影画像から抽出された画像を「抽出画像」と表記することがあり、モデル演算部1dに入力される画像を「入力画像」と表記することがある。
【0013】
本実施形態の場合、生成部1cは、左目の抽出画像および右目の抽出画像のうち一方の抽出画像に対してミラー反転処理を行うことにより、当該一方の抽出画像を左右方向にミラー反転した反転画像をモデル演算部1dに入力する。一方、左目の抽出画像および右目の抽出画像のうち他方の抽出画像についてはミラー反転処理を行わずに、左右方向にミラー反転させていない非反転画像をモデル演算部1に入力する。顔の抽出画像についてもミラー反転処理を行わずに、左右方向へミラー反転させていない非反転画像をモデル演算部1に入力する。以下では、右目の抽出画像に対してミラー反転処理を行う例について説明する。なお、「左右方向」とは、人物の撮影画像において左目と右目とが並ぶ方向(即ち、人物を基準とした左右の方向)として定義されうる。
【0014】
図2は、撮影画像、抽出画像および入力画像の一例を示す図である。図2(a)は、車両の運転席に着座している人物(運転者)を撮影部2で撮影することで得られた撮影画像10を示している。生成部1cは、図2(a)に示す撮影画像10を通信部1を介して撮影部2から取得するとともに、当該撮影画像10に対して公知の画像処理技術を適用することにより、顔の画像、左目の画像、および右目の画像をそれぞれ抽出画像として抽出する。図2(b-1)~(b-3)は、顔の抽出画像11a、左目の抽出画像12a、および右目の抽出画像13aをそれぞれ示している。また、生成部1cは、図2(b-3)に示される右目の抽出画像13aに対してミラー反転処理を行うことで、図2(c-3)に示されるように、右目の抽出画像13aを左右方向にミラー反転した反転画像を右目の入力画像13bとして生成する。一方、生成部1cは、顔の抽出画像11aおよび左目の抽出画像12aに対してはミラー反転処理を行わずに(例えば加工せずに)、抽出画像(非反転画像)を入力画像として生成する。つまり、生成部1cは、図2(c-1)に示されるように、顔の抽出画像11aを顔の入力画像11bとして生成し、図2(c-2)に示されるように、左目の抽出画像12aを左目の入力画像12bとして生成する。
【0015】
情報処理装置1のモデル演算部1dは、所定の学習モデル(ニューラルネットワーク)を用いた機械学習アルゴリズムの演算を行うことで、生成部1cにより入力された左目の入力画像12bおよび右目の入力画像12cから、左目の視線および右目の視線をそれぞれ推定(決定、算出)する。本実施形態では、学習モデル(ニューラルネットワーク)が、例えば1以上の畳み込み層、プーリング層および全結合層を含む、CNN(Convolutional Neural Network)と呼ばれるネットワーク構造を含む例について説明するが、ネットワーク構造はCNNに限られず、他の構成であってもよい。また、ResNet(Residual Network)のようにスキップコネクションを更に有する構成であってもよい。あるいは、例えばオートエンコーダのように、CNNの構造を有するエンコーダの構成に加えて、更にデコーダの構成を有してもよい。もちろん、これらの構造に限らず、画像のような空間的に分布する信号に対して用いられるニューラルネットワークの構造であれば、他の構造であってもよい。
【0016】
本実施形態のモデル演算部1dは、左目の入力画像12bから左目の視線を推定する処理と、右目の入力画像13bから右目の視線を推定する処理とを、共通の(同じ)学習モデルを用いて、それぞれ個別に(独立して)行う。共通の学習モデルとは、入力画像から視線を推定するための学習モデルの構成および関数が共通している(同じである)と理解されてもよく、より具体的には、学習モデルの係数(即ち、ニューロン間の重み付け係数)が共通している(同じである)と理解されてもよい。このように左目の入力画像12bと右目の入力画像13bとで共通の学習モデルを用いることができるのは、前述したように、左目の抽出画像12aおよび右目の抽出画像13bのうち一方の抽出画像(本実施形態では右目の抽出画像13b)を左右方向にミラー反転してモデル演算部1d(学習モデル)に入力するからである。そして、共通の学習モデルを用いることにより、1つの撮影画像10から得られる2つの抽出画像(左目、右目)を、当該学習モデルを生成する際の機械学習の入力データとして使用することができる。つまり、従来では、1つの撮影画像10から左目または右目の一方の抽出画像を入力データとして使用していたのに対し、本実施形態では、1つの撮影画像10から2つの抽出画像(左目、右目)を入力データとして使用することができる。そのため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
【0017】
また、本実施形態のモデル演算部1dは、所定の学習モデル(ニューラルネットワーク)を用いた機械学習アルゴリズムの演算を行うことにより、生成部1cにより入力された顔の入力画像11bから、人物の顔の向き(向いている方向)を推定する。そして、モデル演算部1dは、顔の向きの推定結果を、各目の入力画像12b,13bから各目の視線を推定するための学習モデルに入力し、当該学習モデルの係数(即ち、ニューロン間の重み付け係数)を変更する。これにより、各目の視線を、顔の向きに応じて精度よく推定することが可能となる。ここで、顔の向きの推定結果と係数の変更との相関は、機械学習によって設定されうる。また、学習モデルの係数を変更する機構としては、Attention機構(注意機構)が適用されうる。
【0018】
次に、本実施形態の情報処理装置1で適用される学習モデルについて説明する。図3は、本実施形態の情報処理装置1(モデル演算部1d)で適用される学習モデルを説明するためのブロック図である。本実施形態の情報処理装置1は、図3に示されるように、顔の入力画像11bから顔の向きを推定する学習モデルM1と、左目の入力画像12bから左目の視線を推定する学習モデルM2と、右目の入力画像12cから右目の視線を推定する学習モデルM3を含みうる。学習モデルM1~M3は、1つの学習モデルとして理解されてもよい。
【0019】
学習モデルM1には、顔の入力画像11bが入力される。入力画像11bは、前述したように、顔の抽出画像11aに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像11aがそのまま適用される。まず、学習モデルM1は、例えばCNNを通じて、顔の入力画像11bから、顔に関する特徴量マップの抽出処理21を行う。特徴量としては、左目、右目、鼻および口の位置が挙げられる。そして、学習モデルM1は、抽出された特徴量マップから顔の向きを算出する演算処理22を行う。演算処理22で算出された顔の向きを示すデータは、学習モデルM2のAttention機構25、および学習モデルM3のAttention機構29にそれぞれ供給される。但し、学習モデルM3のAttention機構29には、演算処理22で算出された顔の向きに対してミラー反転処理23を行うことによって当該顔の向きを左右方向にミラー反転したデータが供給される。
【0020】
学習モデルM2には、左目の入力画像12bが入力される。入力画像12bは、前述したように、左目の抽出画像12aに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像12aがそのまま適用される。学習モデルM2は、まず、例えばCNNを通じて、左目の入力画像12bから、目に関する特徴量マップの抽出処理24を行う。一例として、抽出処理24では、CNNが目的とする機能(本実施形態の場合、視線方向の推定)を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理24では、目の大きさ、目の幅、目の向き、目における瞳孔(黒目)の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルM2は、抽出処理24で抽出された特徴量マップに対し、Attention機構25で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理26を行う。このようにして学習モデルM2において視線の演算が行われる。情報処理装置1は、学習モデルM2で算出された視線の情報を、左目の視線の推定結果を示す情報32(以下では、左目の視線推定情報と表記することがある)として出力する。ここで、学習モデルM2では、Attention機構25において特徴量マップに付与する重み(重み付け係数)が、学習モデルM1から供給されたデータに基づいて変更される。
【0021】
学習モデルM3には、右目の入力画像13bが入力される。入力画像13bは、前述したように、右目の抽出画像13aに対してミラー反転処理27を行うことで得られる画像である。学習モデルM3は、学習モデルM2と同じモデルであり、具体的には、モデル構造および重み付け係数が学習モデルM2と共通している(同じである)。学習モデルM3は、まず、例えばCNNを通じて、右目の入力画像13bから、目に関する特徴量マップの抽出処理28を行う。一例として、抽出処理24では、CNNが目的とする機能(本実施形態の場合、視線方向の推定)を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理24では、目の大きさ、目の幅、目の向き、目における瞳孔(黒目)の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルM3は、抽出された特徴量マップに対し、Attention機構29で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理30を行う。このようにして学習モデルM3において視線の演算が行われる。情報処理装置1は、学習モデルM3で算出された視線に対してミラー反転処理31を行うことにより当該視線を左右方向にミラー反転し、ミラー反転後の視線の情報を、右目の視線の推定結果を示す情報33(以下では、右目の視線推定情報と表記することがある)として出力する。ここで、学習モデルM3では、Attention機構(29)において特徴量マップに付与する重み(重み付け係数)が、学習モデルM1から供給されたデータに基づいて変更される。
【0022】
次に、本実施形態の情報処理装置1で行われる推定処理について説明する。図4は、本実施形態の情報処理装置1で行われる推定処理を示すフローチャートである。
ステップS11では、情報処理装置1(通信部1b)は、人物の撮影画像10を撮影部2から取得する。次いで、ステップS12では、情報処理装置1(生成部1c)は、ステップS11で取得した撮影画像10に対して公知の画像処理技術を適用することにより、撮影画像10から、人物の顔を含む部分画像を抽出画像11aとして、人物の左目を含む部分画像を抽出画像12aとして、および、人物の右目を含む部分画像を抽出画像13aとしてそれぞれ抽出する。
【0023】
ステップS13では、情報処理装置1(生成部1c)は、ステップS12で得られた抽出画像11a,12a,13aから、学習モデルM1~M3に入力するための入力画像を生成する。前述したように、情報処理装置1は、左目の抽出画像12bおよび右目の抽出画像13aのうち一方の抽出画像に対してはミラー反転処理を行って入力画像を生成し、他方の抽出画像に対してはミラー反転処理を行わずに入力画像を生成する。本実施形態の場合、情報処理装置1は、右目の抽出画像13aに対してミラー反転処理を行うことにより右目の入力画像13bを生成し、左目の抽出画像12aに対してはミラー反転処理を行わずに当該抽出画像12aをそのまま用いて左目の入力画像12bを生成する。また、情報処理装置1は、顔の抽出画像11aに対してもミラー反転処理を行わずに当該抽出画像11aをそのまま用いて顔の入力画像11bを生成する。
【0024】
ステップS14では、情報処理装置1(モデル演算部1d)は、ステップS13で生成された入力画像11b,12b,13bを学習モデルM1~M3に入力することにより、左目の視線および右目の視線を個別に(独立して)演算する。左目の視線および右目の視線の演算方法については、図3を用いて前述したとおりである。次いで、ステップS15では、情報処理装置1(モデル演算部1d)は、ステップS14で算出された左目の視線の情報および右目の視線の情報に基づいて、左目および右目の各々について視線推定情報を個別に(独立して)決定する。情報処理装置1は、左目および右目のうちステップS13でミラー反転処理が行われた一方の視線に対し、ミラー反転処理を行って左右方向の反転を元に戻すことにより、当該一方の視線推定情報を生成する。本実施形態の場合、情報処理装置1は、ステップS14で算出された右目の視線に対してミラー反転処理を行い、ミラー反転後の視線の情報を、右目の視線推定情報として決定する。一方で、ステップS14で算出された左目の視線に対してはミラー反転処理を行わずに、算出された左目の視線の情報をそのまま左目の視線推定情報として決定する。次いで、ステップS16では、情報処理装置1は、ステップS15で決定された左目の視線推定情報および右目の視線推定情報を、例えば外部装置3に出力する。
【0025】
次に、本実施形態の情報処理装置1における学習方法について説明する。図5は、学習モデルを生成するための機械学習における入出力の構造を示す概念図である。入力データX1(41)および入力データX2(42)は、学習モデル42の入力層のデータである。入力データX1(41)としては、顔の画像(本実施形態では、顔の入力画像11b)が適用される。入力データX2(42)としては、左目および右目のうち一方の画像(本実施形態では、左目の入力画像12b)、および/または、ミラー反転処理が行われた他方の画像(本実施形態では、右目の入力画像13b)が適用される。本実施形態では、1つの撮影画像10から得られる2つの画像(左目、右目)を入力データX2としてそれぞれ適用することができるため、即ち、1つの撮影画像10から2回分の機械学習を行うことができるため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
【0026】
入力データX1(41)および入力データX2(42)を学習モデルM(43)に入力することで、視線の演算結果としての出力データY(44)が学習モデルM(43)から出力される。学習モデルM(43)は、図3の学習モデルM1およびM2、あるいは、図3の学習モデルM1およびM3を含むものとして理解されてもよい。また、機械学習時には、入力データXから算出される視線の正解データとして教師データT(44)が与えられ、出力データY(44)と教師データT(45)とを損失関数f(46)に与えることにより、視線の正解からのずれ量L(47)が得られる。多数の学習データ(入力データ)に対してずれ量Lが低減するように、学習モデルM(43)の係数(重み付け係数)などを更新することで、当該学習モデルM(43)が最適化される。
【0027】
ここで、教師データT(44)としては、人物の視線の計測結果が用いられる。例えば、人物の視線の計測として、当該人物の視線を所定箇所(目標箇所)に向けさせた状態で撮影部2により当該人物を撮影する。このときの当該人物の視線が教師データTとして用いられ、撮影部2で得られた撮影画像から抽出される顔の画像が入力データX1(41)として用いられ、当該撮影画像から抽出される目の画像が入力データX2(42)として用いられうる。
【0028】
図6は、本実施形態の情報処理装置1における学習方法を示すフローチャートである。
ステップS21では、撮影部2に人物を撮影させることで得られた撮影画像と、そのときの当該人物の視線の情報とを取得する。例えば、前述したように、人物の視線を所定箇所(目標箇所)に向けさせた状態で撮影部2に当該人物を撮影させることにより、撮影画像と人物の視線の情報とを取得することができる。本ステップS21で取得された人物の視線の情報は、教師データT(45)として用いられる。
【0029】
ステップS22では、ステップS21で取得された撮影画像から、人物の顔の部分画像を入力データX1(41)として抽出するとともに、人物の目の部分画像を入力データX2(42)として抽出する。ここで、入力データX1(41)としては、抽出された人物の目の部分画像を左右方向に反転させて得られる反転画像であってもよいし、抽出された人物の目の部分画像を反転させずに得られる非反転画像であってもよい。
【0030】
ステップS23では、ステップS22で入力データX1(41)として抽出された人物の顔の部分画像と、入力データX2(42)として抽出された人物の目の部分画像とに基づいて、学習モデルM(43)により人物の視線を情報処理装置1に推定させる。本ステップで推定される人物の視線は、図5の出力データY(44)に対応する。次いで、ステップS24では、ステップS23で出力データY(44)として推定された人物の視線と、ステップS21で教師データT(45)として取得された人物の視線とのずれ量L(47)が低減するように、情報処理装置1に学習させる。
【0031】
上述したように、本実施形態の情報処理装置1は、人物の左目および右目のうち一方の画像を反転させた反転画像を用いて当該一方の視線を推定する処理(第1処理)と、当該人物の左目および右目のうち他方の画像を反転させていない非反転画像を用いて当該他方の視線を推定する処理(第2処理)とを、共通の学習モデルを用いて個別に行う。これにより、当該共通の学習モデルを生成する際の機械学習を、1つの撮影画像10から得られる2つの画像(左目、右目)を用いて行うことができるため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
【0032】
また、本実施形態の情報処理装置1は、学習モデルM1により人物の顔の画像から当該人物の顔の向きを推定し、人物の目の画像から当該人物の視線を推定するための学習モデル(M2および/またはM3)の係数を、学習モデルM1により推定した人物の顔の向きに応じて変更する。これにより、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
【0033】
<その他の実施形態>
また、上記実施形態で説明された1以上の機能を実現するプログラムは、ネットワーク又は記憶媒体を介してシステム又は装置に供給され、該システム又は装置のコンピュータにおける1以上のプロセッサは、このプログラムを読み出して実行することができる。このような態様によっても本発明は実現可能である。
【0034】
<実施形態のまとめ>
1.上記実施形態の情報処理装置は、
人物の視線を推定する情報処理装置(例えば1)であって、
前記人物の顔の画像(例えば11b)を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデル(例えばM1)を用いて、前記人物の顔の向きを推定する第1演算手段(例えば1d)と、
前記人物の目の画像(例えば12b、13b)を入力すると前記人物の視線の演算結果を出力するように構成された第2モデル(例えばM2、M3)を用いて、前記人物の視線を推定する第2演算手段(例えば1d)と、
を備え、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記第2モデルの係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
【0035】
2.上記実施形態において、
前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構(例えば25、29)を有し、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
【0036】
3.上記実施形態において、
撮影手段(例えば2)で得られた前記人物の画像(例えば10)を取得する取得手段(例えば1b、1c)と、
前記取得手段で取得された前記人物の画像から、前記第1モデルに入力される前記人物の顔の画像(例えば11b)を生成するとともに、前記第2モデルに入力される前記人物の目の画像(例えば12b、13b)を生成する生成手段(例えば1c)と、を更に備える。
この実施形態によれば、撮影手段(カメラ)で得られた1つの人物の画像から、人物の顔の画像および目の画像をそれぞれ得ることができ、それらの画像に基づいて当該人物の画像を精度よく推定することが可能となる。
【0037】
4.上記実施形態において、
前記第2演算手段は、前記人物の目の画像を反転させた反転画像(例えば13b)を前記第2モデル(例えばM3)に入力し、前記第2モデルから出力された視線情報を反転させて得られる情報(例えば33)に基づいて、前記人物の視線を推定する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定することができ、その場合であっても、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。
【0038】
5.上記実施形態において、
前記第2演算手段は、前記第1演算手段により推定された顔の向きを反転させて(例えば23)得られる顔の向きに応じて、前記第2モデルの係数を変更する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定する場合において、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。
【0039】
本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。
【符号の説明】
【0040】
1:情報処理装置、1a:記憶部、1b:通信部、1c:生成部、1d:モデル演算部、2:撮影部、3:外部装置
図1
図2
図3
図4
図5
図6