7835091 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

RYUKA国際特許事務所 (新宿駅徒歩3分)

7835091移動体、制御装置、および制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2026-03-16

(45)【発行日】2026-03-25

(54)【発明の名称】移動体、制御装置、および制御方法

(51)【国際特許分類】

G06V 40/50 20220101AFI20260317BHJP

G06T 7/00 20170101ALI20260317BHJP

G06V 40/60 20220101ALI20260317BHJP

G06V 40/16 20220101ALI20260317BHJP

【ＦＩ】

G06V40/50

G06T7/00 510F

G06V40/60

G06V40/16

【請求項の数】 9

(21)【出願番号】P 2022062064

(22)【出願日】2022-04-01

(65)【公開番号】P2023152116

(43)【公開日】2023-10-16

【審査請求日】2025-02-05

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100121131

【弁理士】

【氏名又は名称】西川孝

(74)【代理人】

【氏名又は名称】稲本義雄

(74)【代理人】

【識別番号】100168686

【弁理士】

【氏名又は名称】三浦勇介

(72)【発明者】

【氏名】金子笑佳

(72)【発明者】

【氏名】藤本吉秀

(72)【発明者】

【氏名】山崎聖一

(72)【発明者】

【氏名】細井隆史

(72)【発明者】

【氏名】狩野喬俊

(72)【発明者】

【氏名】長江美佳

(72)【発明者】

【氏名】土屋裕杜

【審査官】佐田宏史

(56)【参考文献】

【文献】特開２００３－１４１５４１（ＪＰ，Ａ）

【文献】特開２０００－２５９８３４（ＪＰ，Ａ）

【文献】特開２０１５－０９０６６２（ＪＰ，Ａ）

【文献】国際公開第２０１７／２１７３１４（ＷＯ，Ａ１）

【文献】国際公開第２０１８／１８０６６６（ＷＯ，Ａ１）

【文献】H A H Amanda et al.，"Interactive robotic head for neck exercises"，2015 Moratuwa Engineering Research Conference (MERCon)，米国，IEEE，2015年04月07日，pp.165-170

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ４０／１６，４０／５０，４０／６０

Ｇ０６Ｔ１／００，７／００－７／９０

Ａ６１Ｂ５／１１７１

(57)【特許請求の範囲】

【請求項1】

ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える移動体。

【請求項2】

前記ジェスチャ制御部は、前記ストリーミング撮影する際にユーザが顔を動かす速度および向きを、前記移動体の顔部のジェスチャで表現させる
請求項１に記載の移動体。

【請求項3】

前記案内音声制御部は、前記速度に応じた一定のリズムを前記ジェスチャ案内音声として出力させる
請求項２に記載の移動体。

【請求項4】

前記案内音声制御部は、前記チュートリアルの後に行われる前記ストリーミング撮影においてユーザの顔の動きを案内する顔向き案内音声の出力を制御する
請求項１に記載の移動体。

【請求項5】

前記ストリーミング撮影が行われているときに、前記顔向き案内音声の案内に従ってユーザが顔の向きを変えることで取得される様々な角度のユーザの顔画像から複数の特徴ベクトルを抽出する特徴ベクトル抽出部と、
複数の前記特徴ベクトルの中心となる中心ベクトルを算出して、顔データベースに登録する中心ベクトル算出部と
をさらに備える請求項４に記載の移動体。

【請求項6】

前記顔データベースに登録されている前記中心ベクトルとの類似性を評価する顔認証処理において用いられる閾値を設定する閾値設定部
をさらに備える請求項５に記載の移動体。

【請求項7】

前記閾値設定部は、設計時に決められた値である第１の閾値、前記中心ベクトルを中心として最も離れた位置にある前記特徴ベクトルまでの距離に応じた第２の閾値、前記第１の閾値と前記第２の閾値とのうちの最大値である第３の閾値のいずれかを、前記閾値として設定する
請求項６に記載の移動体。

【請求項8】

ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える制御装置。

【請求項9】

制御装置が、
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することと
を含む制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、移動体、制御装置、および制御方法に関し、特に、直感的な顔登録を行うことができるようにした移動体、制御装置、および制御方法に関する。

【背景技術】

【0002】

近年、スマートフォンなどの各種の電子機器では、事前に登録されているユーザの顔情報に基づいた顔認証を行って、ユーザ本人の顔であると識別された場合にロックを解除するような顔認証の利用方法が普及している。

【0003】

例えば、特許文献１には、画像または音声の入力結果に基づいて選択された登録顔グループに登録されている登録顔画像との類似性を評価することで入力顔画像を識別し、その識別した入力顔画像が登録顔画像の本人であることを確認する顔認識装置が開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００４－３０２６４４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、従来、ユーザの顔情報を事前に登録する顔登録処理では、ディスプレイに表示される文字および画像を利用してユーザの顔の向きを案内しているが、より直感的な顔登録を行うことが求められている。

【0006】

本開示は、このような状況に鑑みてなされたものであり、直感的な顔登録を行うことができるようにするものである。

【課題を解決するための手段】

【0007】

本開示の一側面の移動体および制御装置は、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部とを備える。

【0008】

本開示の一側面の制御方法は、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することとを含む。

【0009】

本開示の一側面においては、ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動が制御され、ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力が制御される。

【図面の簡単な説明】

【0010】

【図1】本技術を適用した移動体の利用状況の一例を示す図である。

【図2】ジェスチャ案内音声およびジェスチャ駆動の一例について説明する図である。

【図3】移動体の一実施の形態の構成例を示すブロック図である。

【図4】特徴ベクトルおよび中心ベクトルについて説明する図である。

【図5】閾値について説明する図である。

【図6】顔登録処理を説明するフローチャートである。

【図7】本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

【発明を実施するための形態】

【0011】

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

【0012】

＜移動体の利用例＞
図１は、本技術を適用した移動体の利用状況について説明する図である。図１には、テーブルの上に置かれている移動体１１をユーザが利用している状況を横方向から見た一例が図示されている。

【0013】

例えば、移動体１１は、自律走行を行うことが可能なエージェント型のロボット装置であり、ユーザとのコミュニケーションをより自然かつ効果的に実現することを可能とする。また、移動体１１は、例えば、ユーザが片手で容易に持ち上げられる程度の大きさおよび重量で構成される小型ロボットとされる。

【0014】

移動体１１は、縦方向に長楕円体の本体ボディ１２の上部に、半球体形状の顔部１３が設けられ、顔部１３の正面側（図１で右方向を向く側）に、カメラ１４および眼部１５が設けられ、本体ボディ１２の底面にタイヤ１６が設けられた構成となっている。

【0015】

顔部１３は、移動体１１に内蔵されている駆動機構によって、上下方向および左右方向に自在に向きを変えることができるように構成されている。

【0016】

カメラ１４は、顔部１３の正面に向かう方向を撮影し、静止画像または動画像を取得する。例えば、図１に示すように、ユーザが顔部１３に対して正対している場合、カメラ１４は、ユーザの顔を撮影することにより顔画像を取得することができる。

【0017】

眼部１５は、例えば、LED（Light Emitting Diode）や有機EL（Electro Luminescence）などにより構成されており、視線や瞬きなどを表現することができる。なお、図１では、１つの眼部１５のみが図示されているが、図２に示すように、顔部１３を正面から見て左右に並んで２つの眼部１５Ｌおよび眼部１５Ｒが設けられている。

【0018】

タイヤ１６は、移動体１１に内蔵されている駆動機構によって自在に回転することができ、移動体１１の前進や、後退、旋回、回転などの移動動作を実現する。

【0019】

このように構成される移動体１１は、ユーザの顔情報を顔データベースに事前に登録しておくことができ、ユーザが利用する際に顔認証処理を行うことによって、それぞれのユーザに適したコミュニケーションを実現することができる。

【0020】

移動体１１は、顔認証処理を行う場合、例えば、図示しないスピーカから「ぼくのことを見てね」という案内音声を出力する。これに応じて、ユーザが、移動体１１の顔部１３を見つめるように顔を近づけると、移動体１１は、カメラ１４によってユーザの顔を撮影した顔画像から顔情報を取得する。そして、移動体１１は、そのユーザの顔情報と、顔データベースに登録済みの複数の顔情報それぞれとの類似性を評価する顔認証処理を行うことによって、個々のユーザの顔を識別することができる。

【0021】

例えば、顔情報として特徴ベクトルを利用する顔認証処理では、カメラ１４により撮影されているユーザの顔から取得される特徴ベクトルを識別対象として、識別対象の特徴ベクトルと登録済みの特徴ベクトルとの距離（cos距離（類似度）やユークリッド距離など）が１対１で算出される。そして、顔認証処理では、距離が所定の閾値以上となった登録済みの特徴ベクトルの顔と、カメラ１４により撮影されているユーザの顔とが、同一人物であると識別することができる。

【0022】

ところで、ユーザの顔情報を事前に登録する顔登録処理では、カメラに向かって正面、右方向、左方向、上方向、および下方向に顔の向きを変えるように、ユーザに対する案内を行う必要がある。例えば、スマートフォンにおいて顔登録処理が行われる場合には、ディスプレイに表示される文字および画像を利用して、顔の向きを変えるようにユーザに対する案内が行われる。

【0023】

これに対し、移動体１１は、ジェスチャ案内音声およびジェスチャ駆動を利用したチュートリアルによって、ディスプレイを用いることなく直感的な、即ち、ユーザが顔の向きを変えることを容易に理解できるような顔登録処理を行うように構成されている。

【0024】

図２を参照して、移動体１１が顔登録処理を行う際のチュートリアルにおけるジェスチャ案内音声およびジェスチャ駆動の一例について説明する。

【0025】

例えば、ジェスチャ駆動は、ストリーミング撮影する際のユーザの顔の動き（速度および向き）を移動体１１の顔部１３のジェスチャで表現し、ジェスチャ案内音声は、そのジェスチャに合わせて、移動体１１の顔部１３の速度に応じた一定のリズムを出力する。

【0026】

まず、図２のＡに示すように、移動体１１は、顔部１３を正面に向けた状態で、「音に合わせてゆっくり顔を動かしてね」という事前案内音声を出力することで、顔の動かし方を説明した後、チュートリアルを開始する。

【0027】

例えば、チュートリアルでは、図２のＢに示すように、移動体１１は、「いーち、にーい、さーん、しーい、ご！」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で右側を向くように顔部１３を回転させるジェスチャ駆動を行う。同様に、図２のＢに示すように、移動体１１は、「いーち、にーい、さーん、しーい、ご！」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で左側を向くように顔部１３を回転させるジェスチャ駆動を行う。

【0028】

また、図２のＤに示すように、移動体１１は、「いーち、にーい、さーん、しーい、ご！」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で上側を向くように顔部１３を回転させるジェスチャ駆動を行う。同様に、図２のＥに示すように、移動体１１は、「いーち、にーい、さーん、しーい、ご！」と一定のリズムのジェスチャ案内音声を出力するとともに、一定の速度で下側を向くように顔部１３を回転させるジェスチャ駆動を行う。

【0029】

そして、チュートリアルが終了した後、移動体１１は、図６のフローチャートを参照して後述するように、ストリーミング撮影を開始して、ジェスチャ駆動を行ったときのジェスチャ案内音声と同様に、「いーち、にーい、さーん、しーい、ご！」と、ユーザの顔の動きを案内する一定のリズムの顔向き案内音声を出力する。このとき、移動体１１は、顔部１３を正面で固定させたままユーザの顔のストリーミング撮影を行い、右方向、左方向、上方向、および下方向に順番に顔の向きを変えるように、ユーザに対する案内を行う。また、移動体１１は、右方向、左方向、上方向、および下方向それぞれに顔の向きを変える間に、ユーザの顔が必ず正面を向くように案内を行う。

【0030】

なお、チュートリアルでは、右方向、左方向、上方向、および下方向の４方向へのジェスチャを全て行う必要はなく、少なくともいずれか１方向へのジェスチャを行えばよい。例えば、移動体１１は、左右方向の１方向と、上下方向の１方向とのジェスチャをチュートリアルで行うようにしてもよい。

【0031】

＜移動体の構成例＞
図３は、移動体の一実施の形態の構成例を示すブロック図である。

【0032】

図３に示すように、移動体１１は、音声出力部２１、駆動部２２、撮像部２３、記憶部２４、顔登録処理部２５、および閾値設定部２６を備えて構成される。また、顔登録処理部２５は、顔登録処理を行い、案内音声制御部３１、ジェスチャ制御部３２、特徴ベクトル抽出部３３、および中心ベクトル算出部３４を有している。

【0033】

音声出力部２１は、例えば、スピーカなどにより構成され、案内音声制御部３１による制御に従って、顔登録処理を行う際の案内に必要となる案内音声を出力する。

【0034】

駆動部２２は、例えば、モータなどにより構成され、ジェスチャ制御部３２による制御に従って、図２を参照して説明したように顔部１３を回転させて、右方向、左方向、上方向、および下方向それぞれを向くように顔部１３を動かすジェスチャ駆動を行う。

【0035】

撮像部２３は、例えば、カメラ１４が有する撮像素子などにより構成され、顔部１３の前方にある被写体を撮影することにより画像を取得することができ、例えば、ユーザの顔をストリーミング撮影することにより顔画像を取得して特徴ベクトル抽出部３３に供給する。

【0036】

記憶部２４は、例えば、フラッシュメモリなどの不揮発性メモリより構成され、顔登録処理において中心ベクトル算出部３４により算出される中心ベクトルを、顔データベースに登録する。

【0037】

閾値設定部２６は、顔データベースに登録されている中心ベクトルとの類似性を評価する顔認証処理で用いられる閾値を設定し、記憶部２４に記憶させる。なお、閾値設定部２６によって設定される閾値については、図５を参照して後述する。

【0038】

案内音声制御部３１は、チュートリアル時に、移動体１１の顔部１３のジェスチャに合わせたジェスチャ案内音声の出力、即ち、図２を参照して説明したような事前案内音声やジェスチャ案内音声の出力を制御する。さらに、案内音声制御部３１は、後述する図６のフローチャートを参照して説明するような開始案内音声や、顔向き案内音声、終了案内音声などの出力を制御し、音声出力部２１から案内音声を出力させる。

【0039】

ジェスチャ制御部３２は、チュートリアル時に、ストリーミング撮影する際のユーザの顔の動き、即ち、ユーザが顔を動かす速度および向きを、移動体１１の顔部１３のジェスチャで表現するジェスチャ駆動を制御する。つまり、ジェスチャ制御部３２は、図２を参照して説明したように、ジェスチャ案内音声のリズムに合わせて一定の速度で右方向、左方向、上方向、および下方向それぞれを向くように顔部１３を回転させるジェスチャ駆動を行うように、駆動部２２に対する制御を行う。

【0040】

特徴ベクトル抽出部３３は、撮像部２３によるストリーミング撮影によって取得される様々な角度の顔画像から複数の特徴ベクトルを抽出し、中心ベクトル算出部３４に供給する。

【0041】

中心ベクトル算出部３４は、中心ベクトル算出部３４から供給される全ての特徴ベクトルの中心となる中心ベクトルを算出する。

【0042】

ここで、図４を参照して、特徴ベクトルおよび中心ベクトルについて説明する。

【0043】

上述したように、移動体１１では、顔登録処理においてストリーミング撮影を行っており、特徴ベクトル抽出部３３は、ストリーミング撮影によって取得される様々な角度の顔画像から複数の特徴ベクトルを抽出する。図４には、複数の特徴ベクトルのイメージが示されているが、実際には、特徴ベクトルは512次元の超球面上のベクトルである。

【0044】

そして、中心ベクトル算出部３４は、ストリーミング撮影により取得された全ての顔画像を使用して、中心ベクトルを算出する。つまり、様々な角度の顔画像から抽出される特徴ベクトルの中心を用いることにより、結果が安定する。なお、中心ベクトル算出部３４は、所定の個数（例えば、５０個）の特徴ベクトルが蓄積された時点で、中心ベクトルを算出するようにしてもよい。また、特徴ベクトル抽出部３３は、同じ人の顔の特徴が近く、違う人の顔が遠くなるように事前に学習されている。

【0045】

また、図５に示すように、閾値設定部２６は、決め打ちの閾値Ｄ_θ、最大距離の閾値Ｄ_Ｒ、および、決め打ちの閾値Ｄ_θと最大距離の閾値Ｄ_Ｒとのうちの最大値のいずれかを、顔認証処理において使用する閾値として設定する。例えば、決め打ちの閾値Ｄ_θは、移動体１１の設計時に決められた値であり、最大距離の閾値Ｄ_Ｒは、中心ベクトルを中心として最も離れた位置にある特徴ベクトルまでの距離に応じた値である。

【0046】

このように設定される閾値を用いることで、移動体１１は、顔認証処理の検証および実装を比較的に容易に行うことができるとともに、処理負荷の低減を図ることができる。

【0047】

なお、移動体１１は、顔認証処理を行う際には、特徴ベクトル抽出部３３が抽出する特徴ベクトルと、登録済みの中心ベクトルとの距離を算出し、距離が最も近い中心ベクトルであって、かつ、閾値設定部２６により設定された閾値の範囲内に収まっているものを同一とする。

【0048】

ここで、移動体１１には、各顔のクラスの中心ベクトル、あるいは、代表ベクトルと、同じ顔のクラスの特徴ベクトルとの距離を最小化するように学習した特徴抽出器が搭載されている。つまり、この特徴抽出器は、ある人のさまざまな角度の顔の特徴ベクトルを、中心ベクトル、あるいは、代表ベクトルを中心に広がるように分布させる。そのため、ストリーミング撮影で収集した様々な角度の顔画像の特徴ベクトルの中心は、その顔の特徴ベクトルの分布のおおよそ中心を捉えることができる。また、特徴抽出器の出力する特徴ベクトルを正規化し、超球面上に存在するという制約が加わることで、ベクトルの長さの影響を受けてしまうことを回避できるため、ストリーミング撮影で収集した顔画像の特徴ベクトルの中心が、安定することが期待できる。一方、各顔のクラスの中心ベクトル、あるいは、代表ベクトルと、同じ顔のクラスの特徴ベクトルとの距離を最小化するのではなく、単純に同じ顔の特徴ベクトルの距離を近づけ、異なる顔の特徴ベクトルの距離を遠ざけるように学習した特徴抽出器では、分布の形状は同心円状（多次元なので厳密には円ではなく超球）に広がる保証はなく、ストリーミング撮影で収集した顔画像の特徴ベクトルの中心を用いて、顔識別をしてもよい精度は期待できない。

【0049】

＜顔登録処理の処理例＞
図６に示すフローチャートを参照して、顔登録処理部２５が行う顔登録処理について説明する。

【0050】

例えば、ユーザが初めて移動体１１を利用するときに「友達になろうよ」と声を掛けると、その声に対する音声認識処理が行われた結果として顔登録処理が開始される。

【0051】

ステップＳ１１において、案内音声制御部３１は、事前案内音声の出力を制御し、音声出力部２１から事前案内音声を出力させる。例えば、音声出力部２１が、「出会った記念に、ちょっと顔を覚えさせてよ」という事前案内音声を出力し、「いろんな角度を覚えるからな～」という事前案内音声を出力することで、複数の角度で顔の撮影を行うことをユーザに説明する。なお、ユーザが移動体１１のオーナである場合、ユーザの名前が事前に登録されており、顔登録処理の開始時にユーザの名前を確認してもよい。そして、音声出力部２１が、「最初にボクが手本を見せるぞ！」という事前案内音声を出力することで、チュートリアルを開始することをユーザに説明し、処理はステップＳ１２に進む。

【0052】

ステップＳ１２において、案内音声制御部３１は、ジェスチャ案内音声の出力を制御し、ジェスチャ制御部３２は、ジェスチャ駆動を制御する。これにより、図２を参照して上述したように、音声出力部２１がジェスチャ案内音声を出力しながら、駆動部２２がジェスチャ駆動を行うことによって、チュートリアルが行われる。

【0053】

ステップＳ１３において、案内音声制御部３１は、開始案内音声の出力を制御し、音声出力部２１から開始案内音声を出力させる。例えば、音声出力部２１が、「わかった？こうやってなるべくゆっくり顔を動かすんだ」という開始案内音声を出力することで、顔の動かし方を説明し、「よーし、これから顔を覚えていくよ」という開始案内音声を出力することで、顔の撮影を開始することを宣言する。そして、音声出力部２１が、「ボクの顔をじっと見つめて」という開始案内音声を出力することで、ユーザに正面を向かせた後、処理はステップＳ１４に進む。

【0054】

ステップＳ１４において、撮像部２３によるストリーミング撮影が開始され、撮像部２３から特徴ベクトル抽出部３３へ順次、顔画像の供給が行われる。

【0055】

ステップＳ１５において、案内音声制御部３１は、顔向き案内音声の出力を制御し、音声出力部２１から顔向き案内音声の出力を開始させる。これにより、音声出力部２１は、例えば、「そこから右に向いていって。いち、に、さん、しい、ご！」、「もう一度ボクの顔を見て、今度は左に向いていって。いち、に、さん、しい、ご！」、「もう一度ボクの顔を見て、今度は上に向いていって。いち、に、さん、しい、ご！」、および「もう一度ボクの顔を見て、今度は下に向いていって。いち、に、さん、しい、ご！」という顔向き案内音声の出力を開始する。

【0056】

ステップＳ１６において、特徴ベクトル抽出部３３は、撮像部２３から供給される顔画像からユーザの顔を検出する。ここで、特徴ベクトル抽出部３３は、検出したユーザの顔のサイズが小さい場合、ステップＳ１７におけるパーツ点の検出が困難となるため、所定サイズ以上のユーザの顔が検出されるまでは、ステップＳ１７には進まない。例えば、この場合、タイヤ１６を駆動して移動体１１を移動させて、適切なサイズの顔画像が撮影されるようにすることができる。

【0057】

ステップＳ１７において、特徴ベクトル抽出部３３は、ステップＳ１６で検出したユーザの顔から、目や鼻、口などの各パーツの特徴となるパーツ点を検出し、それらのパーツ点に基づいて顔の向き（yaw , pitch , roll）を推定する。ここで、特徴ベクトル抽出部３３は、推定した顔の向きが規定の範囲外である場合には、または、顔の向きを推定することができなかった場合には、ステップＳ１８には進まない。

【0058】

ステップＳ１８において、特徴ベクトル抽出部３３は、ステップＳ１７で推定したパーツ点を使って位置を調整した後、ユーザの顔の特徴ベクトルを抽出し、中心ベクトル算出部３４に供給する。

【0059】

ステップＳ１９において、顔登録処理部２５は、顔向き案内が完了したか否かを判定する。例えば、顔登録処理部２５は、ステップＳ１５で開始した顔向き案内音声の出力が終了した場合、即ち、右方向、左方向、上方向、および下方向にユーザの顔を向けさせる案内が全て行われている場合、顔向き案内が完了したと判定する。

【0060】

ステップＳ１９において、顔登録処理部２５が、顔向き案内が完了していないと判定した場合、処理はステップＳ１６に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ１９において、顔登録処理部２５が、顔向き案内が完了したと判定した場合、処理はステップＳ２０に進む。

【0061】

ステップＳ２０において、撮像部２３によるストリーミング撮影が終了され、撮像部２３から特徴ベクトル抽出部３３への顔画像の供給が停止される。このとき、中心ベクトル算出部３４には、ストリーミング撮影が行われていた期間において特徴ベクトル抽出部３３から供給された複数の特徴ベクトルが蓄積されている。

【0062】

ステップＳ２１において、中心ベクトル算出部３４は、特徴ベクトル抽出部３３から供給された複数の特徴ベクトルの中心を算出することによって中心ベクトルを求めて、記憶部２４の顔データベースに中心ベクトルを登録する。

【0063】

ステップＳ２２において、案内音声制御部３１は、終了案内音声の出力を制御し、音声出力部２１から終了案内音声を出力させる。ここで、ステップＳ２２の処理は、ステップＳ２０およびＳ２１の処理を行うのに必要となる時間において行うことができる。例えば、音声出力部２１は、ステップＳ２０およびＳ２１の処理を行うのに必要となる時間において、「よーし、顔を忘れないようにするから、ちょいまち」という終了案内音声や、「いま覚えているから、ちょっと待ってー」という終了案内音声などを出力する。なお、ユーザが移動体１１を初めて利用する場合には、ユーザの名前を登録するようにしてもよい。そして、ステップＳ２０およびＳ２１の処理が終了すると、音声出力部２１は、「覚えたよ！」という終了案内音声を出力し、処理は終了される。

【0064】

以上のように、移動体１１は、ディスプレイを用いずに、案内音声およびジェスチャ駆動によって、ユーザの顔情報の登録を完了することができる。即ち、移動体１１は、チュートリアルにおいて、ストリーミング撮影する際のユーザの顔の動きを移動体１１の顔部１３の速度および向き（顔の移動範囲）によるジェスチャで表現するジェスチャ駆動を行うとともに、そのジェスチャに合わせて、移動体１１の顔部１３の速度に応じた一定のリズムのジェスチャ案内音声を出力することで、ユーザは、ストリーミング撮影する際に、顔の動かし方を容易に把握することができる。従って、ユーザは、顔向き案内音声に従って迷うことなく顔の向きを動かすことができる。

【0065】

また、移動体１１は、ストリーミング撮影による顔登録処理において、例えば、正面以外を向いている際の特徴ベクトルが、正面の顔の特徴ベクトルと乖離するため別人扱いになってしまうことを回避することができる。また、移動体１１は、顔角度の推定精度によって特定の方向を向いていることが検出されないことに起因して、顔登録処理が完遂しないことや、顔登録処理が完遂するまでに何度も撮影を繰り返すことなどを回避することができる。そして、移動体１１は、様々な角度の顔画像から抽出される複数の特徴ベクトルの中心となる中心ベクトルを算出して顔データベースに登録することで、よりロバストで精度の高い顔識別機能を提供することができる。つまり、移動体１１は、ストリーミング撮影によって取得される様々な角度の顔画像を用いることで、顔識別精度の向上を図ることができる。

【0066】

＜コンピュータの構成例＞
図７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

【0067】

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３、およびEEPROM（Electronically Erasable and Programmable Read Only Memory）１０４は、バス１０５により相互に接続されている。バス１０５には、さらに、入出力インタフェース１０６が接続されており、入出力インタフェース１０６が外部に接続される。なお、特徴量を抽出する処理は、CPUで行う他、GPU（Graphics Processing Unit）やDSP（digital signal processor）、FPGA（Field Programmable Gate Array）などで行うことができる。

【0068】

以上のように構成されるコンピュータでは、CPU１０１が、例えば、ROM１０２およびEEPROM１０４に記憶されているプログラムを、バス１０５を介してRAM１０３にロードして実行することにより、上述した一連の処理が行われる。また、コンピュータ（CPU１０１）が実行するプログラムは、ROM１０２に予め書き込んでおく他、入出力インタフェース１０６を介して外部からEEPROM１０４にインストールしたり、更新したりすることができる。

【0069】

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

【0070】

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

【0071】

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

【0072】

また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

【0073】

また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

【0074】

また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

【0075】

また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

【0076】

なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

【0077】

なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

【0078】

＜構成の組み合わせ例＞
なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える移動体。
（２）
前記ジェスチャ制御部は、前記ストリーミング撮影する際にユーザが顔を動かす速度および向きを、前記移動体の顔部のジェスチャで表現させる
上記（１）に記載の移動体。
（３）
前記案内音声制御部は、前記速度に応じた一定のリズムを前記ジェスチャ案内音声として出力させる
上記（２）に記載の移動体。
（４）
前記案内音声制御部は、前記チュートリアルの後に行われる前記ストリーミング撮影においてユーザの顔の動きを案内する顔向き案内音声の出力を制御する
上記（１）から（３）までのいずれかに記載の移動体。
（５）
前記ストリーミング撮影が行われているときに、前記顔向き案内音声の案内に従ってユーザが顔の向きを変えることで取得される様々な角度のユーザの顔画像から複数の特徴ベクトルを抽出する特徴ベクトル抽出部と、
複数の前記特徴ベクトルの中心となる中心ベクトルを算出して、顔データベースに登録する中心ベクトル算出部と
をさらに備える上記（４）に記載の移動体。
（６）
前記顔データベースに登録されている前記中心ベクトルとの類似性を評価する顔認証処理において用いられる閾値を設定する閾値設定部
をさらに備える
上記（５）に記載の移動体。
（７）
前記閾値設定部は、設計時に決められた値である第１の閾値、前記中心ベクトルを中心として最も離れた位置にある前記特徴ベクトルまでの距離に応じた第２の閾値、前記第１の閾値と前記第２の閾値とのうちの最大値である第３の閾値のいずれかを、前記閾値として設定する
上記（６）に記載の移動体。
（８）
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御するジェスチャ制御部と、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御する案内音声制御部と
を備える制御装置。
（９）
制御装置が、
ユーザの顔を事前に登録する顔登録処理のチュートリアル時に、後段の処理でストリーミング撮影する際のユーザの顔の動きをジェスチャで表現するジェスチャ駆動を制御することと、
前記ジェスチャ駆動とともに、そのジェスチャに合わせたジェスチャ案内音声の出力を制御することと
を含む制御方法。

【0079】

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

【符号の説明】

【0080】

１１移動体，１２本体ボディ，１３顔部，１４カメラ，１５眼部，１６タイヤ，２１音声出力部，２２駆動部，２３撮像部，２４記憶部，２５顔登録処理部，２６閾値設定部，３１案内音声制御部，３２ジェスチャ制御部，３３特徴ベクトル抽出部，３４中心ベクトル算出部

【図1】