(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023152116
(43)【公開日】2023-10-16
(54)【発明の名称】移動体、制御装置、および制御方法
(51)【国際特許分類】
G06V 40/50 20220101AFI20231005BHJP
G06T 7/00 20170101ALI20231005BHJP
G06V 40/60 20220101ALI20231005BHJP
【FI】
G06V40/50
G06T7/00 510F
G06V40/60
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022062064
(22)【出願日】2022-04-01
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】金子 笑佳
(72)【発明者】
【氏名】藤本 吉秀
(72)【発明者】
【氏名】山崎 聖一
(72)【発明者】
【氏名】細井 隆史
(72)【発明者】
【氏名】狩野 喬俊
(72)【発明者】
【氏名】長江 美佳
(72)【発明者】
【氏名】土屋 裕杜
【テーマコード(参考)】
5B043
【Fターム(参考)】
5B043AA05
5B043AA09
5B043BA04
5B043DA05
5B043EA08
5B043FA07
5B043GA02
(57)【要約】
【課題】直感的な顔登録を行う。
【解決手段】ジェスチャ制御部は、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御し、案内音声制御部は、ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する。本技術は、例えば、自律走行を行うことが可能なエージェント型のロボット装置に適用できる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える移動体。
【請求項2】
前記ジェスチャ制御部は、前記ストリーミング撮影する際にユーザが顔を動かす速度および向きを、前記移動体の顔部のジェスチャで表現させる
請求項1に記載の移動体。
【請求項3】
前記案内音声制御部は、前記速度に応じた一定のリズムを前記ジェスチャ案内音声として出力させる
請求項2に記載の移動体。
【請求項4】
前記案内音声制御部は、前記チュートリアルの後に行われる前記ストリーミング撮影においてユーザの顔の動きを案内する顔向き案内音声の出力を制御する
請求項1に記載の移動体。
【請求項5】
前記ストリーミング撮影が行われているときに、前記顔向き案内音声の案内に従ってユーザが顔の向きを変えることで取得される様々な角度のユーザの顔画像から複数の特徴ベクトルを抽出する特徴ベクトル抽出部と、
複数の前記特徴ベクトルの中心となる中心ベクトルを算出して、顔データベースに登録する中心ベクトル算出部と
をさらに備える請求項4に記載の移動体。
【請求項6】
前記顔データベースに登録されている前記中心ベクトルとの類似性を評価する顔認証処理において用いられる閾値を設定する閾値設定部
をさらに備える請求項5に記載の移動体。
【請求項7】
前記閾値設定部は、設計時に決められた値である第1の閾値、前記中心ベクトルを中心として最も離れた位置にある前記特徴ベクトルまでの距離に応じた第2の閾値、前記第1の閾値と前記第2の閾値とのうちの最大値である第3の閾値のいずれかを、前記閾値として設定する
請求項6に記載の移動体。
【請求項8】
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える制御装置。
【請求項9】
制御装置が、
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することと
を含む制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、移動体、制御装置、および制御方法に関し、特に、直感的な顔登録を行うことができるようにした移動体、制御装置、および制御方法に関する。
【背景技術】
【0002】
近年、スマートフォンなどの各種の電子機器では、事前に登録されているユーザの顔情報に基づいた顔認証を行って、ユーザ本人の顔であると識別された場合にロックを解除するような顔認証の利用方法が普及している。
【0003】
例えば、特許文献1には、画像または音声の入力結果に基づいて選択された登録顔グループに登録されている登録顔画像との類似性を評価することで入力顔画像を識別し、その識別した入力顔画像が登録顔画像の本人であることを確認する顔認識装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、従来、ユーザの顔情報を事前に登録する顔登録処理では、ディスプレイに表示される文字および画像を利用してユーザの顔の向きを案内しているが、より直感的な顔登録を行うことが求められている。
【0006】
本開示は、このような状況に鑑みてなされたものであり、直感的な顔登録を行うことができるようにするものである。
【課題を解決するための手段】
【0007】
本開示の一側面の移動体および制御装置は、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部とを備える。
【0008】
本開示の一側面の制御方法は、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することとを含む。
【0009】
本開示の一側面においては、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動が制御され、ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力が制御される。
【図面の簡単な説明】
【0010】
【
図1】本技術を適用した移動体の利用状況の一例を示す図である。
【
図2】ジェスチャ案内音声およびジェスチャ駆動の一例について説明する図である。
【
図3】移動体の一実施の形態の構成例を示すブロック図である。
【
図4】特徴ベクトルおよび中心ベクトルについて説明する図である。
【
図6】顔登録処理を説明するフローチャートである。
【
図7】本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0012】
<移動体の利用例>
図1は、本技術を適用した移動体の利用状況について説明する図である。
図1には、テーブルの上に置かれている移動体11をユーザが利用している状況を横方向から見た一例が図示されている。
【0013】
例えば、移動体11は、自律走行を行うことが可能なエージェント型のロボット装置であり、ユーザとのコミュニケーションをより自然かつ効果的に実現することを可能とする。また、移動体11は、例えば、ユーザが片手で容易に持ち上げられる程度の大きさおよび重量で構成される小型ロボットとされる。
【0014】
移動体11は、縦方向に長楕円体の本体ボディ12の上部に、半球体形状の顔部13が設けられ、顔部13の正面側(
図1で右方向を向く側)に、カメラ14および眼部15が設けられ、本体ボディ12の底面にタイヤ16が設けられた構成となっている。
【0015】
顔部13は、移動体11に内蔵されている駆動機構によって、上下方向および左右方向に自在に向きを変えることができるように構成されている。
【0016】
カメラ14は、顔部13の正面に向かう方向を撮影し、静止画像または動画像を取得する。例えば、
図1に示すように、ユーザが顔部13に対して正対している場合、カメラ14は、ユーザの顔を撮影することにより顔画像を取得することができる。
【0017】
眼部15は、例えば、LED(Light Emitting Diode)や有機EL(Electro Luminescence)などにより構成されており、視線や瞬きなどを表現することができる。なお、
図1では、1つの眼部15のみが図示されているが、
図2に示すように、顔部13を正面から見て左右に並んで2つの眼部15Lおよび眼部15Rが設けられている。
【0018】
タイヤ16は、移動体11に内蔵されている駆動機構によって自在に回転することができ、移動体11の前進や、後退、旋回、回転などの移動動作を実現する。
【0019】
このように構成される移動体11は、ユーザの顔情報を顔データベースに事前に登録しておくことができ、ユーザが利用する際に顔認証処理を行うことによって、それぞれのユーザに適したコミュニケーションを実現することができる。
【0020】
移動体11は、顔認証処理を行う場合、例えば、図示しないスピーカから「ぼくのことを見てね」という案内音声を出力する。これに応じて、ユーザが、移動体11の顔部13を見つめるように顔を近づけると、移動体11は、カメラ14によってユーザの顔を撮影した顔画像から顔情報を取得する。そして、移動体11は、そのユーザの顔情報と、顔データベースに登録済みの複数の顔情報それぞれとの類似性を評価する顔認証処理を行うことによって、個々のユーザの顔を識別することができる。
【0021】
例えば、顔情報として特徴ベクトルを利用する顔認証処理では、カメラ14により撮影されているユーザの顔から取得される特徴ベクトルを識別対象として、識別対象の特徴ベクトルと登録済みの特徴ベクトルとの距離(cos距離(類似度)やユークリッド距離など)が1対1で算出される。そして、顔認証処理では、距離が所定の閾値以上となった登録済みの特徴ベクトルの顔と、カメラ14により撮影されているユーザの顔とが、同一人物であると識別することができる。
【0022】
ところで、ユーザの顔情報を事前に登録する顔登録処理では、カメラに向かって正面、右方向、左方向、上方向、および下方向に顔の向きを変えるように、ユーザに対する案内を行う必要がある。例えば、スマートフォンにおいて顔登録処理が行われる場合には、ディスプレイに表示される文字および画像を利用して、顔の向きを変えるようにユーザに対する案内が行われる。
【0023】
これに対し、移動体11は、ジェスチャ案内音声およびジェスチャ駆動を利用したチュートリアルによって、ディスプレイを用いることなく直感的な、即ち、ユーザが顔の向きを変えることを容易に理解できるような顔登録処理を行うように構成されている。
【0024】
図2を参照して、移動体11が顔登録処理を行う際のチュートリアルにおけるジェスチャ案内音声およびジェスチャ駆動の一例について説明する。
【0025】
例えば、ジェスチャ駆動は、ストリーミング撮影する際のユーザの顔の動き(速度および向き)を移動体11の顔部13のジェスチャで表現し、ジェスチャ案内音声は、そのジェスチャに合わせて、移動体11の顔部13の速度に応じた一定のリズムを出力する。
【0026】
まず、
図2のAに示すように、移動体11は、顔部13を正面に向けた状態で、「音に合わせてゆっくり顔を動かしてね」という事前案内音声を出力することで、顔の動かし方を説明した後、チュートリアルを開始する。
【0027】
例えば、チュートリアルでは、
図2のBに示すように、移動体11は、「いーち、にーい、さーん、しーい、ご!」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で右側を向くように顔部13を回転させるジェスチャ駆動を行う。同様に、
図2のBに示すように、移動体11は、「いーち、にーい、さーん、しーい、ご!」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で左側を向くように顔部13を回転させるジェスチャ駆動を行う。
【0028】
また、
図2のDに示すように、移動体11は、「いーち、にーい、さーん、しーい、ご!」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で上側を向くように顔部13を回転させるジェスチャ駆動を行う。同様に、
図2のEに示すように、移動体11は、「いーち、にーい、さーん、しーい、ご!」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で下側を向くように顔部13を回転させるジェスチャ駆動を行う。
【0029】
そして、チュートリアルが終了した後、移動体11は、
図6のフローチャートを参照して後述するように、ストリーミング撮影を開始して、ジェスチャ駆動を行ったときのジェスチャ案内音声と同様に、「いーち、にーい、さーん、しーい、ご!」と、ユーザの顔の動きを案内する一定のリズムの顔向き案内音声を出力する。このとき、移動体11は、顔部13を正面で固定させたままユーザの顔のストリーミング撮影を行い、右方向、左方向、上方向、および下方向に順番に顔の向きを変えるように、ユーザに対する案内を行う。また、移動体11は、右方向、左方向、上方向、および下方向それぞれに顔の向きを変える間に、ユーザの顔が必ず正面を向くように案内を行う。
【0030】
なお、チュートリアルでは、右方向、左方向、上方向、および下方向の4方向へのジェスチャを全て行う必要はなく、少なくともいずれか1方向へのジェスチャを行えばよい。例えば、移動体11は、左右方向の1方向と、上下方向の1方向とのジェスチャをチュートリアルで行うようにしてもよい。
【0031】
<移動体の構成例>
図3は、移動体の一実施の形態の構成例を示すブロック図である。
【0032】
図3に示すように、移動体11は、音声出力部21、駆動部22、撮像部23、記憶部24、顔登録処理部25、および閾値設定部26を備えて構成される。また、顔登録処理部25は、顔登録処理を行い、案内音声制御部31、ジェスチャ制御部32、特徴ベクトル抽出部33、および中心ベクトル算出部34を有している。
【0033】
音声出力部21は、例えば、スピーカなどにより構成され、案内音声制御部31による制御に従って、顔登録処理を行う際の案内に必要となる案内音声を出力する。
【0034】
駆動部22は、例えば、モータなどにより構成され、ジェスチャ制御部32による制御に従って、
図2を参照して説明したように顔部13を回転させて、右方向、左方向、上方向、および下方向それぞれを向くように顔部13を動かすジェスチャ駆動を行う。
【0035】
撮像部23は、例えば、カメラ14が有する撮像素子などにより構成され、顔部13の前方にある被写体を撮影することにより画像を取得することができ、例えば、ユーザの顔をストリーミング撮影することにより顔画像を取得して特徴ベクトル抽出部33に供給する。
【0036】
記憶部24は、例えば、フラッシュメモリなどの不揮発性メモリより構成され、顔登録処理において中心ベクトル算出部34により算出される中心ベクトルを、顔データベースに登録する。
【0037】
閾値設定部26は、顔データベースに登録されている中心ベクトルとの類似性を評価する顔認証処理で用いられる閾値を設定し、記憶部24に記憶させる。なお、閾値設定部26によって設定される閾値については、
図5を参照して後述する。
【0038】
案内音声制御部31は、チュートリアル時に、移動体11の顔部13のジェスチャに合わせたジェスチャ案内音声の出力、即ち、
図2を参照して説明したような事前案内音声やジェスチャ案内音声の出力を制御する。さらに、案内音声制御部31は、後述する
図6のフローチャートを参照して説明するような開始案内音声や、顔向き案内音声、終了案内音声などの出力を制御し、音声出力部21から案内音声を出力させる。
【0039】
ジェスチャ制御部32は、チュートリアル時に、ストリーミング撮影する際のユーザの顔の動き、即ち、ユーザが顔を動かす速度および向きを、移動体11の顔部13のジェスチャで表現するジェスチャ駆動を制御する。つまり、ジェスチャ制御部32は、
図2を参照して説明したように、ジェスチャ案内音声のリズムに合わせて一定の速度で右方向、左方向、上方向、および下方向それぞれを向くように顔部13を回転させるジェスチャ駆動を行うように、駆動部22に対する制御を行う。
【0040】
特徴ベクトル抽出部33は、撮像部23によるストリーミング撮影によって取得される様々な角度の顔画像から複数の特徴ベクトルを抽出し、中心ベクトル算出部34に供給する。
【0041】
中心ベクトル算出部34は、中心ベクトル算出部34から供給される全ての特徴ベクトルの中心となる中心ベクトルを算出する。
【0042】
ここで、
図4を参照して、特徴ベクトルおよび中心ベクトルについて説明する。
【0043】
上述したように、移動体11では、顔登録処理においてストリーミング撮影を行っており、特徴ベクトル抽出部33は、ストリーミング撮影によって取得される様々な角度の顔画像から複数の特徴ベクトルを抽出する。
図4には、複数の特徴ベクトルのイメージが示されているが、実際には、特徴ベクトルは512次元の超球面上のベクトルである。
【0044】
そして、中心ベクトル算出部34は、ストリーミング撮影により取得された全ての顔画像を使用して、中心ベクトルを算出する。つまり、様々な角度の顔画像から抽出される特徴ベクトルの中心を用いることにより、結果が安定する。なお、中心ベクトル算出部34は、所定の個数(例えば、50個)の特徴ベクトルが蓄積された時点で、中心ベクトルを算出するようにしてもよい。また、特徴ベクトル抽出部33は、同じ人の顔の特徴が近く、違う人の顔が遠くなるように事前に学習されている。
【0045】
また、
図5に示すように、閾値設定部26は、決め打ちの閾値D
θ、最大距離の閾値D
R、および、決め打ちの閾値D
θと最大距離の閾値D
Rとのうちの最大値のいずれかを、顔認証処理において使用する閾値として設定する。例えば、決め打ちの閾値D
θは、移動体11の設計時に決められた値であり、最大距離の閾値D
Rは、中心ベクトルを中心として最も離れた位置にある特徴ベクトルまでの距離に応じた値である。
【0046】
このように設定される閾値を用いることで、移動体11は、顔認証処理の検証および実装を比較的に容易に行うことができるとともに、処理負荷の低減を図ることができる。
【0047】
なお、移動体11は、顔認証処理を行う際には、特徴ベクトル抽出部33が抽出する特徴ベクトルと、登録済みの中心ベクトルとの距離を算出し、距離が最も近い中心ベクトルであって、かつ、閾値設定部26により設定された閾値の範囲内に収まっているものを同一とする。
【0048】
ここで、移動体11には、各顔のクラスの中心ベクトル、あるいは、代表ベクトルと、同じ顔のクラスの特徴ベクトルとの距離を最小化するように学習した特徴抽出器が搭載されている。つまり、この特徴抽出器は、ある人のさまざまな角度の顔の特徴ベクトルを、中心ベクトル、あるいは、代表ベクトルを中心に広がるように分布させる。そのため、ストリーミング撮影で収集した様々な角度の顔画像の特徴ベクトルの中心は、その顔の特徴ベクトルの分布のおおよそ中心を捉えることができる。また、特徴抽出器の出力する特徴ベクトルを正規化し、超球面上に存在するという制約が加わることで、ベクトルの長さの影響を受けてしまうことを回避できるため、ストリーミング撮影で収集した顔画像の特徴ベクトルの中心が、安定することが期待できる。一方、各顔のクラスの中心ベクトル、あるいは、代表ベクトルと、同じ顔のクラスの特徴ベクトルとの距離を最小化するのではなく、単純に同じ顔の特徴ベクトルの距離を近づけ、異なる顔の特徴ベクトルの距離を遠ざけるように学習した特徴抽出器では、分布の形状は同心円状(多次元なので厳密には円ではなく超球)に広がる保証はなく、ストリーミング撮影で収集した顔画像の特徴ベクトルの中心を用いて、顔識別をしてもよい精度は期待できない。
【0049】
<顔登録処理の処理例>
図6に示すフローチャートを参照して、顔登録処理部25が行う顔登録処理について説明する。
【0050】
例えば、ユーザが初めて移動体11を利用するときに「友達になろうよ」と声を掛けると、その声に対する音声認識処理が行われた結果として顔登録処理が開始される。
【0051】
ステップS11において、案内音声制御部31は、事前案内音声の出力を制御し、音声出力部21から事前案内音声を出力させる。例えば、音声出力部21が、「出会った記念に、ちょっと顔を覚えさせてよ」という事前案内音声を出力し、「いろんな角度を覚えるからな~」という事前案内音声を出力することで、複数の角度で顔の撮影を行うことをユーザに説明する。なお、ユーザが移動体11のオーナである場合、ユーザの名前が事前に登録されており、顔登録処理の開始時にユーザの名前を確認してもよい。そして、音声出力部21が、「最初にボクが手本を見せるぞ!」という事前案内音声を出力することで、チュートリアルを開始することをユーザに説明し、処理はステップS12に進む。
【0052】
ステップS12において、案内音声制御部31は、ジェスチャ案内音声の出力を制御し、ジェスチャ制御部32は、ジェスチャ駆動を制御する。これにより、
図2を参照して上述したように、音声出力部21がジェスチャ案内音声を出力しながら、駆動部22がジェスチャ駆動を行うことによって、チュートリアルが行われる。
【0053】
ステップS13において、案内音声制御部31は、開始案内音声の出力を制御し、音声出力部21から開始案内音声を出力させる。例えば、音声出力部21が、「わかった?こうやってなるべくゆっくり顔を動かすんだ」という開始案内音声を出力することで、顔の動かし方を説明し、「よーし、これから顔を覚えていくよ」という開始案内音声を出力することで、顔の撮影を開始することを宣言する。そして、音声出力部21が、「ボクの顔をじっと見つめて」という開始案内音声を出力することで、ユーザに正面を向かせた後、処理はステップS14に進む。
【0054】
ステップS14において、撮像部23によるストリーミング撮影が開始され、撮像部23から特徴ベクトル抽出部33へ順次、顔画像の供給が行われる。
【0055】
ステップS15において、案内音声制御部31は、顔向き案内音声の出力を制御し、音声出力部21から顔向き案内音声の出力を開始させる。これにより、音声出力部21は、例えば、「そこから右に向いていって。いち、に、さん、しい、ご!」、「もう一度ボクの顔を見て、今度は左に向いていって。いち、に、さん、しい、ご!」、「もう一度ボクの顔を見て、今度は上に向いていって。いち、に、さん、しい、ご!」、および「もう一度ボクの顔を見て、今度は下に向いていって。いち、に、さん、しい、ご!」という顔向き案内音声の出力を開始する。
【0056】
ステップS16において、特徴ベクトル抽出部33は、撮像部23から供給される顔画像からユーザの顔を検出する。ここで、特徴ベクトル抽出部33は、検出したユーザの顔のサイズが小さい場合、ステップS17におけるパーツ点の検出が困難となるため、所定サイズ以上のユーザの顔が検出されるまでは、ステップS17には進まない。例えば、この場合、タイヤ16を駆動して移動体11を移動させて、適切なサイズの顔画像が撮影されるようにすることができる。
【0057】
ステップS17において、特徴ベクトル抽出部33は、ステップS16で検出したユーザの顔から、目や鼻、口などの各パーツの特徴となるパーツ点を検出し、それらのパーツ点に基づいて顔の向き(yaw , pitch , roll)を推定する。ここで、特徴ベクトル抽出部33は、推定した顔の向きが規定の範囲外である場合には、または、顔の向きを推定することができなかった場合には、ステップS18には進まない。
【0058】
ステップS18において、特徴ベクトル抽出部33は、ステップS17で推定したパーツ点を使って位置を調整した後、ユーザの顔の特徴ベクトルを抽出し、中心ベクトル算出部34に供給する。
【0059】
ステップS19において、顔登録処理部25は、顔向き案内が完了したか否かを判定する。例えば、顔登録処理部25は、ステップS15で開始した顔向き案内音声の出力が終了した場合、即ち、右方向、左方向、上方向、および下方向にユーザの顔を向けさせる案内が全て行われている場合、顔向き案内が完了したと判定する。
【0060】
ステップS19において、顔登録処理部25が、顔向き案内が完了していないと判定した場合、処理はステップS16に戻り、以下、同様の処理が繰り返して行われる。一方、ステップS19において、顔登録処理部25が、顔向き案内が完了したと判定した場合、処理はステップS20に進む。
【0061】
ステップS20において、撮像部23によるストリーミング撮影が終了され、撮像部23から特徴ベクトル抽出部33への顔画像の供給が停止される。このとき、中心ベクトル算出部34には、ストリーミング撮影が行われていた期間において特徴ベクトル抽出部33から供給された複数の特徴ベクトルが蓄積されている。
【0062】
ステップS21において、中心ベクトル算出部34は、特徴ベクトル抽出部33から供給された複数の特徴ベクトルの中心を算出することによって中心ベクトルを求めて、記憶部24の顔データベースに中心ベクトルを登録する。
【0063】
ステップS22において、案内音声制御部31は、終了案内音声の出力を制御し、音声出力部21から終了案内音声を出力させる。ここで、ステップS22の処理は、ステップS20およびS21の処理を行うのに必要となる時間において行うことができる。例えば、音声出力部21は、ステップS20およびS21の処理を行うのに必要となる時間において、「よーし、顔を忘れないようにするから、ちょいまち」という終了案内音声や、「いま覚えているから、ちょっと待ってー」という終了案内音声などを出力する。なお、ユーザが移動体11を初めて利用する場合には、ユーザの名前を登録するようにしてもよい。そして、ステップS20およびS21の処理が終了すると、音声出力部21は、「覚えたよ!」という終了案内音声を出力し、処理は終了される。
【0064】
以上のように、移動体11は、ディスプレイを用いずに、案内音声およびジェスチャ駆動によって、ユーザの顔情報の登録を完了することができる。即ち、移動体11は、チュートリアルにおいて、ストリーミング撮影する際のユーザの顔の動きを移動体11の顔部13の速度および向き(顔の移動範囲)によるジェスチャで表現するジェスチャ駆動を行うとともに、そのジェスチャに合わせて、移動体11の顔部13の速度に応じた一定のリズムのジェスチャ案内音声を出力することで、ユーザは、ストリーミング撮影する際に、顔の動かし方を容易に把握することができる。従って、ユーザは、顔向き案内音声に従って迷うことなく顔の向きを動かすことができる。
【0065】
また、移動体11は、ストリーミング撮影による顔登録処理において、例えば、正面以外を向いている際の特徴ベクトルが、正面の顔の特徴ベクトルと乖離するため別人扱いになってしまうことを回避することができる。また、移動体11は、顔角度の推定精度によって特定の方向を向いていることが検出されないことに起因して、顔登録処理が完遂しないことや、顔登録処理が完遂するまでに何度も撮影を繰り返すことなどを回避することができる。そして、移動体11は、様々な角度の顔画像から抽出される複数の特徴ベクトルの中心となる中心ベクトルを算出して顔データベースに登録することで、よりロバストで精度の高い顔識別機能を提供することができる。つまり、移動体11は、ストリーミング撮影によって取得される様々な角度の顔画像を用いることで、顔識別精度の向上を図ることができる。
【0066】
<コンピュータの構成例>
図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
【0067】
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103、およびEEPROM(Electronically Erasable and Programmable Read Only Memory)104は、バス105により相互に接続されている。バス105には、さらに、入出力インタフェース106が接続されており、入出力インタフェース106が外部に接続される。なお、特徴量を抽出する処理は、CPUで行う他、GPU(Graphics Processing Unit)やDSP(digital signal processor)、FPGA(Field Programmable Gate Array)などで行うことができる。
【0068】
以上のように構成されるコンピュータでは、CPU101が、例えば、ROM102およびEEPROM104に記憶されているプログラムを、バス105を介してRAM103にロードして実行することにより、上述した一連の処理が行われる。また、コンピュータ(CPU101)が実行するプログラムは、ROM102に予め書き込んでおく他、入出力インタフェース106を介して外部からEEPROM104にインストールしたり、更新したりすることができる。
【0069】
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
【0070】
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0071】
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
【0072】
また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
【0073】
また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0074】
また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
【0075】
また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
【0076】
なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
【0077】
なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
【0078】
<構成の組み合わせ例>
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える移動体。
(2)
前記ジェスチャ制御部は、前記ストリーミング撮影する際にユーザが顔を動かす速度および向きを、前記移動体の顔部のジェスチャで表現させる
上記(1)に記載の移動体。
(3)
前記案内音声制御部は、前記速度に応じた一定のリズムを前記ジェスチャ案内音声として出力させる
上記(2)に記載の移動体。
(4)
前記案内音声制御部は、前記チュートリアルの後に行われる前記ストリーミング撮影においてユーザの顔の動きを案内する顔向き案内音声の出力を制御する
上記(1)から(3)までのいずれかに記載の移動体。
(5)
前記ストリーミング撮影が行われているときに、前記顔向き案内音声の案内に従ってユーザが顔の向きを変えることで取得される様々な角度のユーザの顔画像から複数の特徴ベクトルを抽出する特徴ベクトル抽出部と、
複数の前記特徴ベクトルの中心となる中心ベクトルを算出して、顔データベースに登録する中心ベクトル算出部と
をさらに備える上記(4)に記載の移動体。
(6)
前記顔データベースに登録されている前記中心ベクトルとの類似性を評価する顔認証処理において用いられる閾値を設定する閾値設定部
をさらに備える
上記(5)に記載の移動体。
(7)
前記閾値設定部は、設計時に決められた値である第1の閾値、前記中心ベクトルを中心として最も離れた位置にある前記特徴ベクトルまでの距離に応じた第2の閾値、前記第1の閾値と前記第2の閾値とのうちの最大値である第3の閾値のいずれかを、前記閾値として設定する
上記(6)に記載の移動体。
(8)
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える制御装置。
(9)
制御装置が、
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することと
を含む制御方法。
【0079】
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
【符号の説明】
【0080】
11 移動体, 12 本体ボディ, 13 顔部, 14 カメラ, 15 眼部, 16 タイヤ, 21 音声出力部, 22 駆動部, 23 撮像部, 24 記憶部, 25 顔登録処理部, 26 閾値設定部, 31 案内音声制御部, 32 ジェスチャ制御部, 33 特徴ベクトル抽出部, 34 中心ベクトル算出部