IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7400866情報処理装置、情報処理方法及びプログラム
<>
  • 特許-情報処理装置、情報処理方法及びプログラム 図1
  • 特許-情報処理装置、情報処理方法及びプログラム 図2
  • 特許-情報処理装置、情報処理方法及びプログラム 図3
  • 特許-情報処理装置、情報処理方法及びプログラム 図4
  • 特許-情報処理装置、情報処理方法及びプログラム 図5
  • 特許-情報処理装置、情報処理方法及びプログラム 図6
  • 特許-情報処理装置、情報処理方法及びプログラム 図7
  • 特許-情報処理装置、情報処理方法及びプログラム 図8
  • 特許-情報処理装置、情報処理方法及びプログラム 図9
  • 特許-情報処理装置、情報処理方法及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06V 40/50 20220101AFI20231212BHJP
   G06T 7/00 20170101ALI20231212BHJP
   G06F 21/32 20130101ALI20231212BHJP
   G06F 21/45 20130101ALI20231212BHJP
【FI】
G06V40/50
G06T7/00 510F
G06F21/32
G06F21/45
【請求項の数】 18
(21)【出願番号】P 2022076465
(22)【出願日】2022-05-06
(62)【分割の表示】P 2019509328の分割
【原出願日】2018-03-19
(65)【公開番号】P2022105553
(43)【公開日】2022-07-14
【審査請求日】2022-05-09
(31)【優先権主張番号】P 2017067321
(32)【優先日】2017-03-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110003339
【氏名又は名称】弁理士法人南青山国際特許事務所
(72)【発明者】
【氏名】佐藤 達人
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2017/017900(WO,A1)
【文献】特開2013-195377(JP,A)
【文献】中国特許出願公開第105184304(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 40/50
G06T 7/00-7/90
G06F 21/32
G06F 21/45
(57)【特許請求の範囲】
【請求項1】
制御部を具備する情報処理装置であって、
前記制御部は、
撮像部により撮像されたユーザの画像から特徴量を抽出し、予め登録されている登録済みの特徴量と抽出された前記ユーザの特徴量とに基づく特徴量空間における識別によって前記ユーザを識別することができなかった場合、抽出された前記ユーザの特徴量を識別不能な特徴量として記憶部に記憶させる記憶制御処理と
記憶された前記識別不能な特徴量の中から、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定する設定処理と
前記撮像部により画像が撮像され前記特徴量が抽出された前記ユーザであり、かつ抽出された前記ユーザの特徴量と前記追加登録用の特徴量との間の類似距離が所定の閾値以下となる前記ユーザに対して、前記特徴量空間における前記追加登録用の特徴量の位置に応じた質問を音声によりインタラクションを行う音インタラクション部を介して出力させ、前記質問によるインタラクションの結果に基づいて前記追加登録用の特徴量に対応するユーザを特定する特定処理と
を実行する
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記制御部は、前記特定処理において、前記追加登録用の特徴量と、前記登録済みの特徴量との間の位置関係に基づいて、前記質問を変更する
情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記質問は、前記登録済みの特徴量に対応するユーザであるかどうかを前記ユーザに問いかける第1の質問形式を含む
情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記質問は、前記ユーザに自身の名前を答えさせるように問いかける第2の質問形式を含む
情報処理装置。
【請求項5】
請求項4に記載の情報処理装置であって、
前記制御部は、前記特定処理において、前記追加登録用の特徴量と、前記登録済みの特徴量との間の類似距離が所定の閾値以下である場合、前記第1の質問形式による質問を、前記音インタラクション部を介して出力させる
情報処理装置。
【請求項6】
請求項5に記載の情報処理装置であって、
前記制御部は、前記特定処理において、前記類似距離が前記所定の閾値を超える場合、前記第2の質問形式による質問を、前記音インタラクション部を介して出力させる
情報処理装置。
【請求項7】
請求項1に記載の情報処理装置であって、
前記制御部は、前記特定処理において、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する
情報処理装置。
【請求項8】
請求項7に記載の情報処理装置であって、
前記制御部は、前記特定処理において、特定されたユーザが、前記登録済みの特徴量に対応するユーザである場合、前記追加登録用の特徴量を、登録済みのユーザの特徴量として追加登録する
情報処理装置。
【請求項9】
請求項7に記載の情報処理装置であって、
前記制御部は、前記特定処理において、特定されたユーザが、前記登録済みの特徴量に対応するユーザでない場合、前記追加登録用の特徴量を、新規ユーザの特徴量として追加登録する
情報処理装置。
【請求項10】
請求項1に記載の情報処理装置であって、
前記制御部は、前記設定処理において、前記特徴量空間において前記識別不能な特徴量が集合している領域であって、所定の半径を有する領域の中心に位置する特徴量を、前記追加登録用の特徴量として設定する
情報処理装置。
【請求項11】
請求項10に記載の情報処理装置であって
前記所定の閾値は、前記領域における前記半径以下である
情報処理装置。
【請求項12】
請求項10に記載の情報処理装置であって、
前記制御部は、前記設定処理において、前記領域の中心に位置する特徴量を前記追加登録用の特徴量として設定したとき、前記領域内の前記識別不能な特徴量を前記記憶部から削除する
情報処理装置。
【請求項13】
請求項1に記載の情報処理装置であって、
前記制御部は、前記記憶制御処理において、前記識別不能な特徴量が前記記憶部に記憶されてから所定期間経過したとき、前記所定期間が経過した前記識別不能な特徴量を前記記憶部から削除する
情報処理装置。
【請求項14】
請求項1に記載の情報処理装置であって、
前記制御部は、前記記憶制御処理において、顔画像から前記ユーザの特徴量を取得する
情報処理装置。
【請求項15】
請求項14に記載の情報処理装置であって、
前記顔画像を取得する前記撮像部
をさらに具備する情報処理装置。
【請求項16】
請求項1に記載の情報処理装置であって、
前記情報処理装置は、サーバ装置を含む
情報処理装置。
【請求項17】
コンピュータにより実行される情報処理方法であって、
撮像部により撮像されたユーザの画像から特徴量を抽出し、予め登録されている登録済みの特徴量と抽出された前記ユーザの特徴量とに基づく特徴量空間における識別によって前記ユーザを識別することができなかった場合、抽出された前記ユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、
記憶された前記識別不能な特徴量の中から、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、
前記撮像部により画像が撮像され前記特徴量が抽出された前記ユーザであり、かつ抽出された前記ユーザの特徴量と前記追加登録用の特徴量との間の類似距離が所定の閾値以下となる前記ユーザに対して、前記特徴量空間における前記追加登録用の特徴量の位置に応じた質問を音声によりインタラクションを行う音インタラクション部を介して出力させ、前記質問によるインタラクションの結果に基づいて前記追加登録用の特徴量に対応するユーザを特定する
情報処理方法。
【請求項18】
コンピュータに情報処理方法を実行させるプログラムであって、
前記情報処理方法は、
撮像部により撮像されたユーザの画像から特徴量を抽出し、予め登録されている登録済みの特徴量と抽出された前記ユーザの特徴量とに基づく特徴量空間における識別によって前記ユーザを識別することができなかった場合、抽出された前記ユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、
記憶された前記識別不能な特徴量の中から、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、
前記撮像部により画像が撮像され前記特徴量が抽出された前記ユーザであり、かつ抽出された前記ユーザの特徴量と前記追加登録用の特徴量との間の類似距離が所定の閾値以下となる前記ユーザに対して、前記特徴量空間における前記追加登録用の特徴量の位置に応じた質問を音声によりインタラクションを行う音インタラクション部を介して出力させ、前記質問によるインタラクションの結果に基づいて前記追加登録用の特徴量に対応するユーザを特定する
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、画像などから取得されたユーザの特徴量に基づいてユーザを識別する技術に関する。
【背景技術】
【0002】
近年、セキュリティーチェックや、ログイン制限等を行うための技術として、ユーザの特徴量に基づいてユーザを識別する技術が広く用いられている。
【0003】
この種の技術では、一般的に、登録済みのユーザの特徴量と、識別時におけるユーザの特徴量との類似度を計算することによって、ユーザを識別するといった方法が用いられることが多い(例えば、特許文献1参照)。
【0004】
一方、例えば、照明環境などによってユーザの顔の明るさが変わったり、メガネや帽子の脱着などによりユーザの顔が変わったりすると、同一人物であっても、識別時におけるユーザの特徴量が、登録済みのユーザの特徴量と変わってしまう場合がある。この場合、同一人物であるにもかかわらず、正確にユーザを識別することができず、識別精度が低下してしまうといった問題がある。
【0005】
このような問題に関連する技術として、下記特許文献2が開示されている。特許文献2技術では、既に新規登録を済ませたユーザが、新規登録とは別の機会に、自分の顔の追加登録を要求することによって、ユーザの顔の明るさなどの変化に対処している。具体的には、特許文献2の技術では、登録済みの顔識別用データと、追加登録要求時の特徴量データとの一致度Sが判定され、一致度Sが所定の範囲(s1≦S≦s1')にある場合に、追加登録要求時の特徴量データが、そのユーザに対応する顔識別用データとして追加登録される。
【先行技術文献】
【特許文献】
【0006】
【文献】特許第4595750号公報
【文献】特許第6025690号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献2の技術では、登録済みの顔識別データが取得されたときの顔と、追加登録要時における特徴量データが取得されたときの顔との変化が小さい場合には追加登録が行われるが、2つの顔の変化が大きい場合には、同一人物であっても、追加登録は行われない。従って、特許文献2の技術では、未だにユーザの識別精度が低いといった問題がある。
【0008】
以上のような事情に鑑み、本技術の目的は、ユーザの識別精度を向上させることができる技術を提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本技術に係る情報処理装置は、制御部を具備する。前記制御部は、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する。
【0010】
この情報処理装置では、識別不能な特徴量の分布に基づいて、追加登録用の特徴量が設定される。このように、上記分布に基づいて、追加登録用の特徴量を設定することで、ユーザの識別精度を向上させるのに適切な追加登録用の特徴量を設定することができる。結果として、ユーザの識別精度を向上させることができる。
【0011】
上記情報処理装置において、前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定してもよい。
【0012】
これにより、ユーザの識別精度を向上させるのにさらに適した追加登録用の特徴量を設定することができる。
【0013】
上記情報処理装置において、前記制御部は、ユーザとの間でインタラクションを行って、前記追加登録用の特徴量に対応するユーザを特定してもよい。
【0014】
これにより、ユーザは、簡単なインタラクションを行うことで、追加登録用の特徴量をそのユーザの特徴量として追加登録することができる。
【0015】
上記情報処理装置において、前記制御部は、特徴量空間において、前記識別不能な特徴量の密度を判定し、前記密度に応じて、前記領域を特定してもよい。
【0016】
上記情報処理装置において、前記制御部は、或る特定の前記識別不能な特徴量に対して第1の距離以内の範囲に存在する他の前記識別不能な特徴量の数を、前記密度として判定してもよい。
【0017】
上記情報処理装置において、前記制御部は、前記密度が、所定の閾値以上である場合、前記或る特定の識別不能な特徴量から前記第1の距離以内の前記範囲を前記領域として特定してもよい。
【0018】
上記情報処理装置において、前記制御部は、前記或る特定の識別不能な特徴量を前記追加登録用の特徴量として設定してもよい。
【0019】
上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の距離に基づいて、前記インタラクションを開始するかどうかを判定してもよい。
【0020】
上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の前記距離が第2の距離以下である場合、前記インタラクションを開始してもよい。
【0021】
上記情報処理装置において、前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定してもよい。この場合、前記領域は、前記追加登録用の特徴量からの距離が第1の距離以内の範囲であり、前記第2の距離は、第1の距離以下であってもよい。
【0022】
上記情報処理装置において、前記制御部は、ユーザとの会話の音声を音出力部から出力させて、ユーザとの間でインタラクションを行ってもよい。
【0023】
上記情報処理装置において、前記制御部は、ユーザに対する質問の音声を前記音出力部から出力させて、ユーザとの間でインタラクションを行ってもよい。
【0024】
上記情報処理装置において、前記制御部は、前記質問の音声における質問形式を変更可能であってもよい。
【0025】
上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離に応じて、前記質問形式を変更してもよい。
【0026】
上記情報処理装置において、前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離が第3の距離以下であるかどうかを判定し、前記距離が第3の距離以下である場合、前記登録済みの特徴量に対応するユーザであるかどうかをユーザに問いかける第1の質問形式での音声を前記音出力部から出力させてもよい。
【0027】
上記情報処理装置において、前記制御部は、前記距離が前記第3の距離を超える場合、ユーザに自身の名前を答えさせるように問いかける第2の質問形式での音声を前記音出力部から出力させてもよい。
【0028】
上記情報処理装置において、前記制御部は、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザであるかどうかを判定し、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザでない場合、追加登録用の特徴量を、新規ユーザの特徴量として登録してもよい。
【0029】
上記情報処理装置において、前記制御部は、前記音出力部から出力された前記会話の音声に対して応答されたユーザの音声の情報を取得し、前記ユーザの音声の情報に基づいて話者認識を実行して、ユーザを特定してもよい。
【0030】
本技術に係る情報処理方法は、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する。
【0031】
本技術に係るプログラムは、登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させるステップと、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定するステップと、前記追加登録用の特徴量に対応するユーザを特定するステップと、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録するステップとをコンピュータに実行させる。
【発明の効果】
【0032】
以上のように、本技術によれば、ユーザの識別精度を向上させることができる技術を提供することができる。
【図面の簡単な説明】
【0033】
図1】第1実施形態に係るホームエージェント装置を示すブロック図である。
図2】識別不能な顔特徴量の記憶するときの処理を示すフローチャートである。
図3】登録済みの顔特徴量と、識別可能な顔特徴量と、識別不能な顔特徴量との特徴量空間における分布を、平面にプロットしたときの様子を示す図である。
図4】識別不能な顔特徴量の分布を説明するための図である。
図5】追加登録用の顔特徴量を設定するときの処理を示すフローチャートである。
図6図3図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。
図7図3図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。
図8図3図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。
図9】追加登録用の顔特徴量を追加登録するときの処理を示すフローチャートである。
図10】特徴量空間において、追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離が、第2の距離以下である場合の一例を示す図である。
【発明を実施するための形態】
【0034】
以下、本技術に係る実施形態を、図面を参照しながら説明する。
【0035】
≪第1実施形態≫
<全体構成及び各部の構成>
図1は、第1実施形態に係るホームエージェント装置10を示すブロック図である。
【0036】
図1に示すように、ホームエージェント装置10(情報処理装置)は、制御部1と、記憶部2と、撮像部3と、投影部4と、スピーカ(音出力部)5と、マイクロフォン6と、通信部7とを備えている。
【0037】
制御部1は、CPU(Central Processing Unit)等により構成されている。制御部1は、記憶部2に記憶された各種のプログラムに基づき種々の演算を実行し、ホームエージェント装置10の各部を統括的に制御する。なお、制御部1の処理については、動作説明の欄において後に詳述する。
【0038】
記憶部2は、制御部1の処理に必要な各種のプログラムや、各種のデータが記憶される不揮発性のメモリと、制御部1の作業領域として用いられる揮発性のメモリとを含む。なお、記憶部2に記憶される各種のプログラムは、光ディスク、半導体メモリなどの可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
【0039】
撮像部3は、CCDセンサ(CCD:Charge Coupled Device)、あるいはCMOSセンサ(CMOS:Complementary Metal Oxide Semiconductor)等の撮像素子と、結像レンズ等の光学系とを含む。撮像部3は、撮像によって取得された画像を制御部1へと出力する。
【0040】
投影部4は、光源、プリズム、ミラー、集光レンズ、投影レンズ、DLP(Digital Light Processing)等の各種の光学系を含む。投影部4は、制御部1によって生成された画像信号に応じた画像を生成して、スクリーンや壁などに向けて画像を投影する。
【0041】
スピーカ5は、制御部1によって生成された音声信号に応じた音を出力する。マイクロフォン6は、ユーザが発した声を集音して、集音された声を電気信号に変換して制御部131へと出力する。
【0042】
通信部7は、ネットワーク上のサーバ装置や、ユーザが所持する端末装置等との間で互いに通信可能に構成されている。
【0043】
<動作説明>
[基本的な処理]
次に、ホームエージェント装置10の基本的な処理について説明しつつ、ホームエージェント装置10が基本的にどのように使用されるかについて説明する。
【0044】
ホームエージェント装置10の基本的な処理としては、2種類存在する。1種類目は、顔識別処理であり、2種類目は、ユーザとのインタラクションにより様々な機能を実現するための処理である。
【0045】
まず、顔識別処理について説明する。この顔識別処理は、ホームエージェント装置10に対するアクセス権限を有するユーザであるかを識別したり、アクセス権限を有するユーザが複数人存在する場合には、どのユーザであるかを識別したりするために実行させる。
【0046】
顔識別処理のために、ユーザは、最初に自身の顔を撮像部3に撮像させて、自身の顔特徴量をホームエージェント装置10に予め登録しておく必要がある。このとき、制御部1は、撮像部3によって撮像された画像に基づいて、顔検出を実行して顔部分の画像を特定する。そして、制御部1は、特定された顔部分の画像から顔特徴位置(例えば、目、鼻、口等)を検出する。
【0047】
次に、制御部1は、この顔特徴位置近傍の画像から顔特徴量(例えば、256次元の顔特徴量ベクトル)を抽出し、抽出された顔特徴量を、ユーザIDに関連づけて記憶部2に記憶させる。これにより、ユーザの顔特徴量が登録済みの顔特徴量として記憶部2に記憶される。
【0048】
顔識別処理においては、制御部1は、顔登録時と同様にして、撮像部3によって撮像された画像から顔特徴量を抽出する。そして、制御部1は、特徴量空間において、登録済みの顔特徴量と、抽出によってそのとき取得された顔特徴量との類似距離を算出する。
【0049】
このとき、類似距離が所定の閾値以内であれば、制御部1は、画像内に写っている人物がアクセス権限を有するユーザであると判断する。一方、類似距離が閾値を超える場合には、画像内に写っている人物がアクセス権限を有しない人物であると判断する。また、制御部1は、画像内に写っている人物がアクセス権限を有するユーザであると判断した場合、上記登録済みの顔特徴量に関連づけられたユーザIDを記憶部2から読み出して、画像内に写っているユーザを識別する。
【0050】
このようにして、制御部1は、そのとき画像内に写った人物が、ホームエージェント装置10に対するアクセス権限があるユーザであるかを識別したり、そのユーザが誰であるかを識別したりする。
【0051】
なお、顔識別処理は、所定の周期(数秒程度)で行われており、制御部1は、画像内にアクセス権限を有するユーザが写っているかどうか、及びそのユーザが誰であるかを、所定の周期(数秒程度)で認識している。
【0052】
次に、ユーザとのインタラクションにより様々な機能を実現するための処理について説明する。
【0053】
例えば、制御部1は、顔識別処理によって、アクセス権限を有するユーザが画像内に写っていると判断した場合、所定の条件に応じて、様々な音声をからスピーカ5から出力させる。例えば、制御部1は、そのユーザに対する新着メールが存在する場合に、「新着メールが存在します」との音声をスピーカ5から出力させる。また、例えば、制御部1は、その日の朝、初めて画像内にユーザが写ったときに、「今日のスケジュールを述べますか?」との音声をスピーカ5から出力させる。
【0054】
スピーカ5からの音声に対して、ユーザが「新着メールを表示して」と言った場合、この音声の情報がマイクロフォン6を介して制御部1に出力される。この場合、制御部1は、マイクロフォン6から取得されたユーザの音声の情報に基づいて、投影部4を制御して新着メールをスクリーン上などに投影させる。
【0055】
また、スピーカ5の音声に対して、ユーザが「スケジュールを言って」と言った場合、この音声の情報がマイクロフォン6を介して制御部1に出力される。この場合、制御部1は、マイクロフォン6から取得されたユーザの音声の情報に基づいて、ユーザのスケジュールの文字情報を音声情報に変換して、この音声情報をスピーカ5から出力させる。
【0056】
このように、ホームエージェント装置10は、ユーザの生活が便利になるような様々な機能を有している。
【0057】
[顔特徴量の追加登録処理]
次に、顔特徴量の追加登録処理について説明する。ここで、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化すると、同一人物であっても、ユーザを正確に判断することができない場合がある。
【0058】
顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化する場合とは以下の様な場合がある。照明の点灯/非点灯、カーテンの開け閉め等によって、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して、明るかったり、暗かったりする。メガネ及び帽子の脱着、髪の毛の長短、髪型、髭の有無、日焼けの有無などにより、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化している。顔識別時のユーザの顔の向いている方向、顔の表情(例えば、笑っていたり、舌を出していたり)が、登録時のユーザの顔の向いている方向、顔の表情とは異なる。
【0059】
本技術では、顔識別時のユーザの顔が、顔登録時のユーザの顔に対して変化したとしても、正確にユーザを識別することができるようにするために、顔特徴量の追加登録処理を実行する。
【0060】
顔特徴量の追加登録処理は、大別して、(1)「識別不能な顔特徴量を記憶する処理」、(2)「追加登録用の顔特徴量を設定する処理」、(3)「追加登録用の顔特徴量を追加登録する処理」の3種類の処理に区分される。
【0061】
(1)「識別不能な顔特徴量を記憶する処理」
まず、識別不能な顔特徴量の記憶するときの処理について説明する。図2は、識別不能な顔特徴量の記憶するときの処理を示すフローチャートである。
【0062】
まず、制御部1は、撮像部3によって撮像された画像に基づいて、顔検出を実行して顔部分の画像を特定する(ステップ101)。次に、制御部1は、顔検出された顔のうち、いずれか1つの顔に対応する顔部分の画像を選択する(ステップ102)。
【0063】
次に、制御部1は、選択された顔部分の画像から顔特徴位置(例えば、目、鼻、口等)を検出する(ステップ103)。次に、制御部1は、この顔特徴位置近傍の画像から顔特徴量(例えば、256次元の顔特徴量ベクトル)を抽出する(ステップ104)。
【0064】
次に、制御部1は、登録済みの顔特徴量のうち、1つの顔特徴量を選択する(ステップ105)。そして、制御部1は、特徴量空間において、登録済みの顔特徴量と、そのときに取得された顔特徴量との類似距離を算出する(ステップ106)。
【0065】
次に、制御部1は、類似距離が所定の閾値以下であるかどうかを判定する(ステップ107)。類似距離が所定の閾値を超える場合(ステップ107のNO)、つまり、顔特徴量に対応する人物が、その登録済みの顔特徴量に対応するユーザではないと判断された場合、制御部1は、次のステップ108へ進む。
【0066】
ステップ108では、制御部1は、全ての登録済み顔特徴量が既に選択済みであるかどうかを判定する。選択されていない登録済みの顔特徴量が残っている場合(ステップ108のNO)、制御部1は、ステップ105へ戻って、先ほど選択された登録済みの顔特徴量とは別の登録済みの顔特徴量を選択し、ステップ106以下の処理を再び実行する。
【0067】
一方、全ての登録済みの顔特徴量が選択済みである場合(ステップ108のYES)、つまり、顔特徴量に対応する人物が誰であるかを識別できなかった場合、制御部1は、その顔特徴量を識別不能な顔特徴量として、識別不能特徴量DB(Data Base)に記憶する(ステップ109)。このとき、制御部1は、識別不能な顔特徴量を、日付情報、時刻情報などに関連づけて識別不能特徴量DBに記憶する。なお、識別不能特徴量DBは、記憶部2が有しているDBである。
【0068】
制御部1は、識別不能な顔特徴量を識別不能特徴量DBに記憶すると、次のステップ110へ進む。同様に、制御部1は、ステップ107において、上記類似距離が所定の閾値以下である場合(ステップ107のYES)、つまり、顔特徴量に対応する人物が誰であるかを識別することができた場合、制御部1は、ステップ108、109を飛ばして、次のステップ110へ進む。
【0069】
ステップ110では、制御部1は、顔検出によって検出された全ての顔が既に選択済みであるかどうかを判定する。選択されていない顔が残っている場合(ステップ110のNO)、制御部1は、ステップ102へ戻って、再び、ステップ102以降の処理を実行する。
【0070】
一方、顔検出によって検出された全ての顔が既に選択済みである場合(ステップ110のYES)、制御部1は、処理を終了する。
【0071】
図2に示す処理は、所定の周期(例えば、数秒程度)で繰り返し実行されているため、識別不能特徴量DBには、識別不能な顔特徴量が、逐次、蓄積されていく。
【0072】
制御部1は、識別不能な顔特徴量が識別不能特徴量DBに記憶されてから所定期間(例えば、数週間から数か月程度)が経過したとき、識別不能な顔特徴量を識別不能特徴量DBから削除してもよい。これに加えて、あるいは、これに代えて、制御部1は、識別不能な顔特徴量が識別不能DBに記録されている数が、所定数(例えば、数千~数十万程度)を超えた場合、古い識別不能な顔特徴量を識別不能特徴量DBから削除して、新たな識別不能な顔特徴量に置き換えてもよい。
【0073】
なお、識別不能な顔特徴量の記憶処理は、上述の基本的な処理において実行される顔識別処理によって識別することができなかった顔特徴量が識別不能特徴量DBに記憶されてもよいし、この顔識別処理とは別の処理として実行されてもよい。
【0074】
図3は、登録済みの顔特徴量と、識別可能な顔特徴量と、識別不能な顔特徴量との特徴量空間における分布を、平面にプロットしたときの様子を示す図である。識別可能な顔特徴量は、いずれかのユーザに識別された顔特徴量であり、識別不能な顔特徴量は、上述のように、どのユーザとも識別されなかった顔特徴量である。
【0075】
図3の左側には、登録済みの顔特徴量の元となった、登録時におけるユーザの顔(登録顔)も示されおり、図3に示す例では、上から順番に、父親、母親、長男、次男、三男の登録顔が示されている。
【0076】
図3において、大きな○印は、登録済みの顔特徴量を示しており、小さな○印は、識別可能な顔特徴量を示している。また、△印は、識別不能な顔特徴量を示している。なお、図3では、登録済みの顔特徴量(大きな○印)、識別可能な顔特徴量(小さな○印)は、対応するユーザ毎に、グレースケールの濃さが分けられて表示されている。
【0077】
なお、図3に示されている分布は、ホームエージェント装置10が、家族が頻繁に出入りする家のリビングルームや、ダイニングルームなどに設置され、同じ環境で取得された顔特徴量の分布が示されている。
【0078】
ここで、上述の図2における処理では、図3において△印で示されている識別不能な顔特徴量が、識別不能特徴量DB内に、逐次、蓄積されていく。
【0079】
図4は、識別不能な顔特徴量の分布を説明するための図である。なお、図4における大きな○印、小さな○印、△印は、図3と同様である。なお、図4における破線の○は、識別不能な顔特徴量が集合している領域を示している。
【0080】
図4に示す例では、照明が点いていない等の理由で暗くなっている父親の顔に対応する顔特徴量が、識別不能な顔特徴量として、左上の領域に固まって集合している。また、カーテンが開けられているなどの理由で明るくなっている父親の顔に対応する顔特徴量が、識別不能な顔特徴量として、左下の領域に固まって集合している。また、表情が変化したときの三男の顔に対応する顔特徴量が、識別不能な顔特徴量として右下の領域に固まって集合している。
【0081】
図3図4から理解されるように、同じ環境で撮像された顔の画像に基づく識別不能な顔特徴量(△印参照)は、特徴量空間において一定の領域(破線の○参照)に固って集合しやすい。従って、識別不能な顔特徴量が識別不能特徴量DBに蓄積されていくと、照明環境の変化や、表情の変化などに応じた、識別不能な顔特徴量の分布のパターンが特徴量空間上に現れてくる。
【0082】
なお、本実施形態においては、同じ環境で撮像された画像から、ある程度の数の識別不能な顔特徴量を蓄積する必要がある。従って、ホームエージェント装置10は、典型的には、ある程度高い頻度でユーザが滞在する場所、例えば、リビングルームや、ダイニングルーム等に固定して設置される。
【0083】
(2)「追加登録用の顔特徴量を設定する処理」
次に、追加登録用の顔特徴量を設定するときの処理について説明する。
【0084】
ここでの処理について簡単に説明すると、まず、図3図4に示されているような、特徴量空間における識別不能な顔特徴量(△印参照)の分布に基づいて、特徴量空間において識別不能な顔特徴量が集合している領域(破線の○参照)が特定される。すなわち、照明環境の変化や、表情変化などに起因する識別不能な顔特徴量は、ある一定の領域に固まって集合しやすいので、この領域が特定される。
【0085】
そして、領域が特定されると、この領域において、追加登録用の顔特徴量が設定される。追加登録用の顔特徴量は、後に、「追加登録用の顔特徴量を追加登録する処理」において、特定のユーザの顔特徴量として追加登録される顔特徴量である。
【0086】
以下、一例を挙げて、具体的に説明する。図5は、追加登録用の顔特徴量を設定するときの処理を示すフローチャートである。
【0087】
まず、制御部1は、識別不能特徴量DBに記憶された識別不能な顔特徴量から、識別不能な顔特徴量を1つ選択する(ステップ201)。次に、制御部1は、特徴量空間において、選択された識別不能な顔特徴量と、選択された顔特徴量以外の全ての識別不能な顔特徴量との間の類似距離をそれぞれ算出する(ステップ202)。
【0088】
次に、制御部1は、類似距離が第1の距離D1以下である識別不能な顔特徴量の数をカウントする(ステップ203)。つまり、制御部1は、選択された或る特定の識別不能な顔特徴量に対して第1の距離D1以下の範囲に存在する他の識別不能な顔特徴量の数(密度)を判定する。
【0089】
次に、制御部1は、全ての識別不能な顔特徴理が既に選択済みであるかどうかを判定する(ステップ204)。選択されていない識別不能な顔特徴量が残っている場合(ステップ204のNO)、制御部1は、ステップ201へ戻って、選択されていない識別不能な顔特徴量の中から、識別不能な顔特徴量を1つ選択する。
【0090】
一方、全ての識別不能な顔特徴理が既に選択済みである場合(ステップ204のYES)、制御部1は、カウント数が最も大きい(密度が最も高い)識別不能な顔特徴量を選択する(ステップ205)。
【0091】
次に、制御部1は、カウント数(密度)が所定の閾値以上であるかどうかどうかを判定する(ステップ206)。カウント数(密度)が所定の閾値以上である場合(ステップ206のYES)、制御部1は、選択された識別不能な顔特徴量の座標を、追加登録用の顔特徴量の座標として設定し、記憶部2に記憶させる(ステップ207)。
【0092】
次に、制御部1は、選択された識別不能な顔特徴量からの類似距離が第1の距離D1以下にある識別不能な顔特徴量(選択された識別不能な顔特徴量を含む)を識別不能特徴量DBから除去し(ステップ208)、その後、ステップ201へ戻って、ステップ201以降の処理を再び実行する。
【0093】
ステップ206において、カウント数(密度)が所定の閾値未満である場合、制御部1は、処理を終了する。
【0094】
ここで、ステップ201~206において、制御部1は、特徴量空間における識別不能な顔特徴量の分布に基づいて、識別不能な顔特徴量が集合している領域を特定している。制御部1は、密度に応じて、上記領域を特定しており、密度が、所定の閾値以上である場合に、或る特定の識別不能な顔特徴量から第1の距離D1以下の範囲を、上記領域として特定している。
【0095】
なお、上記領域は、特徴量空間において、中心(追加登録用の顔特徴量)からの距離が第1の距離D1の範囲の領域である。また、制御部1は、ステップ207において、この領域の中心に位置している識別不能な顔特徴量を、追加登録用の顔特徴量として設定している。
【0096】
次に、図3図4に示されている識別不能な顔特徴量が、図5に示す処理によってどのように処理されるかについて具体的に説明する。図6図8は、図3図4に示されている識別不能な顔特徴量が、図5に示す処理によって処理されたときの様子を示す図である。
【0097】
図6を参照して、図6に示されている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
【0098】
次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、暗くなっている父親の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
【0099】
この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
【0100】
これにより、暗くなっている父親の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
【0101】
追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、暗くなっている父親の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。そして、再び、ステップ201以降の処理が実行される。
【0102】
図7を参照して、図7においては、暗くなっている父親の顔に対応する識別不能な顔特徴量は、既に削除されている。従って、残っている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
【0103】
次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、表情変化が大きいときの三男の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
【0104】
この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
【0105】
これにより、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
【0106】
追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。そして、再び、ステップ201以降の処理が実行される。
【0107】
図8を参照して、図8においては、暗くなっている父親の顔に対応する識別不能な顔特徴量、及び、表情変化が大きいときの三男の顔に対応する識別不能な顔特徴量は、既に削除されている。従って、残っている全ての識別不能な顔特徴量(灰色の△印参照)について、それぞれ、識別不能な顔特徴量と、それ以外の全ての識別不能な顔特徴量との類似距離が算出され、類似距離が第1の距離D1以下である識別不能な顔特徴量の数がカウントされる(ステップ201~204)。
【0108】
次に、カウント数(密度)が最も大きい識別不能な顔特徴量が選択される(ステップ205)。このとき、明るくなっている父親の顔に対応する複数の識別不能な顔特徴量のうち、1つの識別不能な顔特徴量が、カウント数が最も大きい識別不能な顔特徴量として選択されたとする。そして、カウント数(密度)が、所定の閾値以上であったとする(ステップ206のYES)。
【0109】
この場合、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)から第1の距離D1以下の範囲が、識別不能な顔特徴量が集合している領域(破線の○参照)であると特定される。そして、カウント数が最も大きいとして選択された識別不能な顔特徴量(黒の△印参照)、つまり、上記領域の中心に位置する識別不能な顔特徴量が、追加登録用の顔特徴量として設定される(ステップ207)。
【0110】
これにより、明るくなっている父親の顔に対応する識別不能な顔特徴量が集合している領域が特定され、かつ、この領域の中心に、追加登録用の顔特徴量が設定される。
【0111】
追加登録用の顔特徴量が設定されると、上記領域内に存在する顔特徴量、つまり、明るくなっている父親の顔に対応する識別不能な顔特徴量が識別不能特徴量DBから削除される(ステップ208)。
【0112】
そして、再び、ステップ201以降の処理が実行され、カウント数が所定の閾値未満となった場合(ステップ206のNO)、つまり、識別不能な顔特徴量の密度が、所定の閾値以上である領域が存在しなくなった場合、処理が終了される。
【0113】
ここで、例えば、電気工事や、水道工事などの業者の顔、遊びに来た友人の顔、テレビに映っている顔が撮像部3によって撮像された場合や、顔の誤検出が行われた場合等に、これらの顔に対応する顔特徴量が、識別不能な顔特徴量として識別不能特徴量DBに記憶される場合がある。一方、このような識別不能な顔特徴量は、識別不能な顔特徴量の分布において、密度が低いので(ステップ206NO)、このような識別不能な顔特徴量に対応する追加登録用の顔特徴量は、生成されないことになる。
【0114】
以上の説明では、特徴量空間において識別不能な顔特徴量が集合している領域を特定し、この領域内に追加登録用の顔特徴量を設定する方法として、図5に示すフローチャートを例に挙げて説明した。一方、上記方法は、図5に示す例に限られない。典型的には、識別不能な顔特徴量が集合している領域を特定することができ、かつ、この領域内に追加登録用の顔特徴量を設定することができる方法であれば、どのような方法が用いられてもよい。
【0115】
例えば、識別不能な顔特徴量が集合している領域を特定するために、一般的なクラスタリング技術が用いられてもよく、クラスタ中心に追加登録用の顔特徴量が設定されてもよい。
【0116】
なお、図5に示すような処理は、処理の負荷が大きいことも予測されるため、他の処理が実行されていないアイドル状態であるときに実行されてもよい。
【0117】
(3)「追加登録用の顔特徴量を追加登録する処理」
次に、追加登録用の顔特徴量を追加登録するときの処理について説明する。
【0118】
ここでの処理について簡単に説明すると、まず、追加登録用の顔特徴量に対応するユーザを特定するために、ユーザとの間でインタラクションを開始するかどうかが判定される。そして、インタラクションが開始されると判定された場合、ユーザのとの間でスピーカ5及びマイクロフォン6を介したインタラクションが行われ、追加登録用の顔特徴量に対応するユーザが特定される。そして、追加登録用の顔特徴量が、特定されたユーザの顔特徴量として追加登録される。
【0119】
以下、一例を挙げて、具体的に説明する。図9は、追加登録用の顔特徴量を追加登録するときの処理を示すフローチャートである。
【0120】
まず、制御部1は、記憶部2に記憶されている追加登録用の顔特徴量から、追加登録用の顔特徴量を1つ選択する(ステップ301)。このとき、例えば、制御部1は、図6図8にそれぞれ示した追加登録用の顔特徴量(黒の△印参照)から、追加登録用の顔特徴量を1つ選択する。
【0121】
次に、制御部1は、選択された追加登録用の顔特徴量と、そのとき取得された顔特徴量との類似距離を算出する(ステップ302)。
【0122】
次に、制御部1は、類似距離が第2の距離D2以下であるかどうかを判定する(ステップ303)。類似距離が第2の距離D2を超える場合(ステップ303のNO)、制御部1は、全ての追加登録用の顔特徴量が既に選択済みであるかどうかを判定する(ステップ304)。
【0123】
選択されていない追加登録用の顔特徴量が残っている場合(ステップ304のNO)、制御部1は、ステップ301へ戻って、まだ選択されていない追加登録用の顔特徴量を1つ選択する。
【0124】
一方、全ての追加登録用の顔特徴量が既に選択済みである場合(ステップ304のYES)、制御部1は、処理を終了する。つまり、制御部1は、そのとき取得された顔特徴量が、どの追加登録用の顔特徴量に対しても第2の距離D2を超える(似ていない)場合、追加登録用の顔特徴量を追加登録する処理を実行せず(インタラクションを開始せず)に、処理を終了する。
【0125】
ステップ303において、類似距離が第2の距離D2以下である場合(ステップ303のYES)、つまり、そのとき取得された顔特徴量が、或る特定の追加登録用の顔特徴量に対して、第2の距離D2以下の範囲内にある(似ている)場合、制御部1は、次のステップ305へ進む。ステップ305以降では、ユーザとの間のインタラクションを行う処理などが実行される。
【0126】
ここで、制御部1は、ステップ301~304において、追加登録用の顔特徴量に対応するユーザを特定するために、ユーザとの間でインタラクションを開始するかどかを判定している。このとき、制御部1は、選択された追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離に基づいて、インタラクションを開始させるかどうかを判定している。また、制御部1は、上記類似距離が、第2の距離D2以下である場合に、インタラクションを開始している(ステップ303のYES)。
【0127】
図10は、特徴量空間において、追加登録用の顔特徴量と、そのとき取得された顔特徴量との間の類似距離が、第2の距離D2以下である場合の一例を示す図である。
【0128】
図10において、黒の△印は、暗くなっている父親の顔に対応する追加登録用の顔特徴量を示しており、白の△印は、そのとき取得された顔特徴量を示している。また、破線の○は、追加登録用顔特徴量から第1の距離D1以下の範囲(識別不能な顔特徴量が集合していると判断された領域)を示している。また、一点鎖線の○は、追加登録用の顔特徴量から第2の距離D2以下の範囲(インタラクションを開始するかどうかの基準となる範囲)を示している。
【0129】
図10に示すように、例えば、現在において父親の顔が暗くなっており、そのとき取得された顔特徴量(白の△印)が、暗くなっている父親の顔に対応する追加登録用の顔特徴量(黒の△印)から第2の距離D2以内にある場合、ユーザとの間のインタラクションが開始される。
【0130】
図10には、第1の距離D1と、第2の距離D2との関係も示されている。図10に示すように、本実施形態では、第2の距離D2は、第1の距離D1以下の距離とされている。つまり、本実施形態では、取得された顔特徴量(白の△印)が、追加登録用の顔特徴量(黒の△印)に対して十分に近い場合に、ユーザとの間のインタラクションが開始される。
【0131】
図9に戻り、ステップ303において、類似距離が第2の距離D2以下である場合(ステップ303のYES)、制御部1は、記憶部2に記憶された登録済みの顔特徴量から、登録済みの顔特徴量を1つ選択する(ステップ305)。次に、制御部1は、登録済みの顔特徴量と、追加登録用の顔特徴との類似距離を算出する(ステップ306)。
【0132】
次に、制御部1は、類似距離が第3の距離D3以下であるかどうかを判定する(ステップ307)。類似距離が、第3の距離D3以下である(似ている)場合(ステップ307のYES)、制御部1は、第1の質問形式での質問(会話の一例)の音声をスピーカ5から出力させて、ユーザとの間でインタラクションを行う(ステップ308)。
【0133】
第1の質問形式は、登録済みの顔特徴量に対応するユーザであるかどうかをユーザに問いかけ質問形式である。例えば、父親の登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離が、第3の距離D3以下である場合、例えば、制御部1は、スピーカ5を介して「・・・(父親の名前)さん、ですか?」と問いかける。また、例えば、三男の登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離が、第3の距離D3以下である場合、例えば、制御部1は、「・・・(三男の名前)さん、ですか?」と問いかける。
【0134】
次に、制御部1は、ユーザが発した音声の情報をマイクロフォン6から取得し、質問の音声に対して、ユーザが「はい」、「そうです」等の肯定的な返事をしたかどうかを判定する(ステップ309)。
【0135】
ユーザが「はい」等の肯定的な返事をした場合(ステップ309のYES)、制御部1は、登録済みの顔特徴量(追加登録用の顔特徴量からの類似距離が第3の距離D3以内である登録済みの顔特徴量)に対応するユーザIDを記憶部2から読みだす(ステップ310)。
【0136】
次に、制御部1は、追加登録用の顔特徴量を、ユーザIDに関連づけて記憶部2に記憶する(ステップ311)。ユーザIDに関連づけられた追加登録用の顔特徴量は、登録済みの顔特徴量として、上述の[基本的な処理]の欄において説明した顔識別処理で使用される。
【0137】
ステップ307において、登録済みの顔特徴量と、追加登録用の顔特徴との類似距離が、第3の距離D3を超える場合(ステップ307のNO)、制御部1は、次のステップ312へ進む。同様に、ステップ309において、質問の音声に対して、ユーザが「いいえ」、「違います」等の否定的な返事をした場合(ステップ309のNO)制御部1は、次のステップ312へ進む。
【0138】
ステップ312では、制御部1は、全ての登録済みの顔特徴量が既に選択済みであるかどうかを判定する。選択されていない登録済みの顔特徴量が残っている場合(ステップ312のNO)、制御部1は、ステップ305へ戻って、まだ選択されていない追加登録用の顔特徴量を1つ選択する。
【0139】
一方、全ての追加登録用の顔特徴量が既に選択済みである場合(ステップ312のYES)制御部1は、第2の質問形式での質問の音声をスピーカ5から出力させて、ユーザとの間でインタラクションを行う(ステップ313)。
【0140】
第2の質問形式は、ユーザに自身の名前を答えさせるように問いかける質問形式である。例えば、制御部1は、スピーカ5を介して「名前を教えていただけますか?」と問いかける。
【0141】
すなわち、制御部1は、登録済みの顔特徴量と、追加登録用の顔特徴量との類似距離に応じて、質問の音声における質問形式を変更可能とされている。
【0142】
次に、制御部1は、ユーザが発した音声の情報をマイクロフォン6から取得し、ユーザが答えた名前が、いずれかの登録済みの顔特徴量に対応するユーザであるかどうかを判定する(ステップ314)。
【0143】
ユーザが答えた名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合(ステップ314のNO)、制御部1は、処理を終了する。
【0144】
一方、ユーザが答えた名前が、いずれかの登録済みの顔特徴量に対応するユーザの名前である場合(ステップ314のYES)、制御部1は、そのユーザのユーザIDを記憶部2から読みだす(ステップ315)。そして、制御部1は、追加登録用の顔特徴量を、ユーザIDに関連づけて記憶部2に記憶する(ステップ311)。
【0145】
このようにして、制御部1は、ユーザとの間のインタラクションを行って、追加登録用の顔特徴量に対応するユーザを特定し、追加登録用の顔特徴量を、特定されたユーザの顔特徴量として、順次、追加登録していく。
【0146】
なお、「名前を教えていただけますか?」との質問に対して答えられたユーザの名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合(ステップ314のNO)、制御部1は、新規ユーザを登録するための処理を実行してもよい。
【0147】
ここで、「名前を教えていただけますか?」との質問に対して答えられたユーザの名前が、どの登録済みの顔特徴量にも対応しないユーザの名前である場合について説明する。制御部1が質問を行っているということは、対応するユーザが誰であるかが分かっていない、追加登録用の顔特徴量が存在している。この追加登録用の顔特徴量は、例えば、リビングルームや、ダイニングルームなどのホームエージェント装置10の設置場所に、誰かがある程度高い頻繁で滞在していないと生成されない。
【0148】
つまり、これは、ホームエージェント装置10の設置場所に誰かがある程度高い頻度で滞在しているが、これがどの登録済みのユーザにも対応していないことを示している。このような状況は、まだ登録を行っていない家族の一員がいる場合や、家族と新密度が非常に高い人物がいる場合などに発生しやすい。従って、このような場合には、制御部1は、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録するための処理を実行してもよい。
【0149】
この場合、例えば、制御部1は、「新規登録を希望しますか?」等の質問の音声をスピーカ5から出力させ、この質問に対する返事が「はい」などの肯定的な返事であった場合に、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録する。
【0150】
以上の説明では、制御部1が、ユーザに対する質問の音声をスピーカ5から出力することによって、ユーザとの間のインタラクションを行い、追加登録用の顔特徴量に対応するユーザを特定する場合について説明した。一方、制御部1は、「こんいちは」、「お元気ですか?」等の会話の音声をスピーカ5から出力することによって、ユーザとの間のインタラクションを行い、追加登録用の顔特徴量に対応するユーザを特定してもよい。
【0151】
この場合、例えば、スピーカ5から出力された「こんにちは」「お元気ですか?」等の会話の音声に対して、ユーザが「こんにちは」「元気ですよ」等と応答したとする。この場合、制御部1は、「こんにちは」、「元気ですよ」等のユーザの音声の情報をマイクロフォン6から取得し、話者認識を実行して、追加登録用の顔特徴量に対応するユーザを特定する。
【0152】
また、追加登録用の顔特徴量に対応するユーザを特定するための他の方法として、以下の方法が挙げられる。まず、制御部1は、撮像部3によって撮像された画像におけるユーザの顔を識別するための処理を行い、このとき、ユーザの顔の角度が大きい場合に、「こんにちは」等の音声をスピーカ5から出力させて、ユーザの顔を撮像部3の方向に向かせる。あるいは、制御部1は、投影部4による投影方向を調整して、ユーザの顔を撮像部3の方向に向かせる。そして、撮像部3によって撮像された画像におけるユーザの顔の角度が正面に近くなったときに、制御部1は、再び顔を識別するための処理を行って、そのユーザが誰であるかを特定する。
【0153】
≪作用等≫
本実施形態においては、識別不能な顔特徴量の分布に基づいて、追加登録用の顔特徴量が設定される。このように、識別不能な分布に基づいて、追加登録用の顔特徴量を設定することで、ユーザの顔識別精度を向上させるのに適切な追加登録用の顔特徴量を設定することができる(図5図6図8参照)。結果として、ユーザの顔識別精度を向上させることができる。
【0154】
また、本実施形態では、識別不能な顔特徴量の分布に基づいて、追加登録用の顔特徴量が設定されるため、特徴量空間において、顔特徴量が、登録済みの顔特徴量から離れていても、その顔特徴量を追加登録用の顔特徴量として設定することができる(図5図6図8参照)。
【0155】
ここで、比較として、ユーザの顔が識別されないようなことが頻繁に起こった場合を想定する。この場合、ユーザは、その原因(例えば、顔の明暗)が何であるかを予測して、予測した原因に基づいて、自己の顔(例えば、明るかったり暗かったりするときの顔)を追加登録する必要がある。
【0156】
一方、本実施形態では、追加登録用の顔特徴量は、制御部1によって自動的に生成される(図5図6図8参照)。従って、本実施形態では、ユーザは、どのような顔を追加登録すればよいかを予測したり、予測した原因に基づいて自己の顔を追加登録したりする必要がない。
【0157】
また、本実施形態では、識別不能な顔特徴量の分布に基づいて、特徴量空間において識別不能な顔特徴量が集合している領域が特定され、この領域内において追加登録用の顔特徴量が設定される(図5図6図8参照)。これにより、ユーザの識別精度を向上させるのにさらに適した追加登録用の顔特徴量を設定することができる。
【0158】
また、本実施形態では、識別不能な顔特徴量の分布において、識別不能な顔特徴量の密度が判定され、密度に応じて上記領域が特定されて、この領域内において追加登録用の顔特徴量が設定される(図5図6図8参照)。
【0159】
これにより、追加登録すべき適切な人物(例えば、家族の一員)に対する追加登録用の顔特徴量を適切に設定しつつ、追加登録すべきでない不適切な人物(例えば、電気工事の業者)に対する追加登録用の顔特徴量が設定されてしまうことを防止することができる。
【0160】
また、本実施形態では、ユーザとの間でインタラクションを行って、追加登録用の顔特徴量に対応するユーザが特定され、追加登録用の顔特徴量が、特定されたユーザの顔特徴量として追加登録される(図9参照)。これにより、ユーザは、ホームエージェント装置10との簡単な短いインタラクションを行うだけで、追加登録用の顔特徴量をそのユーザの顔特徴量として追加登録することができる。従って、追加登録時の煩雑な作業をユーザに強いてしまうことを防止することができる。
【0161】
なお、本実施形態では、追加登録用の顔特徴量が追加登録されると、識別不能な顔特徴量は、順次、減っていくことになり、識別不能な顔特徴量の分布に基づいて設定される追加登録用の顔特徴量も順次減っていくことになる。従って、追加登録用の顔特徴量に対応するユーザを特定するための、ユーザとの間のインタラクションも順次減っていくことになる。従って、本実施形態では、ユーザとの間のインタラクションの回数も少ない回数で済むことになる。
【0162】
また、本実施形態では、追加登録用の顔特徴量と、取得されたユーザの顔特徴量との間の類似距離に基づいて、ユーザとの間のインタラクションを開始するかどうかが判定される(図9参照)。これにより、適切なタイミングで、ユーザとの間のインタラクションを開始させることができる。
【0163】
また、本実施形態では、追加登録用の顔特徴量と、取得されたユーザの顔特徴量との間の類似距離が第2の距離D2以下である場合に、ユーザとのインタラクションが開始される。そして、第2の距離D2が第1の距離D1以下とされている(図10参照)。つまり、本実施形態では、取得された顔特徴量が、追加登録用の顔特徴量に対して十分に近い場合に、ユーザとの間のインタラクションが開始される。これにより、追加登録用の顔特徴量が、誤って、間違ったユーザの顔特徴量として追加登録されてしまうことを防止することができる。
【0164】
また、本実施形態では、ユーザに対する質問の音声がスピーカ5から出力されて、ユーザとの間でインタラクションが行われる。従って、ユーザは、質問に対して簡単な返答をするだけで、追加登録用の顔特徴量を、そのユーザの顔特徴量として追加登録することができる。
【0165】
また、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量との類似距離に応じて、質問形式が変更される(図9参照)。従って、本実施形態では、ユーザに対して、適切な質問形式での質問を問いかけることができる。
【0166】
具体的には、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量と類似距離が第3の距離D3以下である場合、「・・さん、ですか?」等の第1の質問形式での質問が行われる。一方、類似距離が第3の距離D3を超える場合、「名前を教えていただけますか?」等の第2の質問形式での質問が行われる。このように、本実施形態では、追加登録用の顔特徴量と、登録済みの顔特徴量との類似距離に応じて、ユーザに対して、適切な質問形式での質問を問いかけることができる。
【0167】
また、追加登録用の顔特徴量を、新規ユーザの顔特徴量として登録する形態の場合、追加登録用の顔特徴量を、例えば、まだ登録を行っていない家族の一員の顔特徴量として追加登録することができる。
【0168】
また、ユーザの「こんにちは」等の応答の音声に基づいて、話者認識を実行する形態においても、ユーザは、ホームエージェント装置10との簡単な短いインタラクションを行うだけで、追加登録用の顔特徴量をそのユーザの顔特徴量として追加登録することができる。
【0169】
≪各種変形例≫
以上の説明では、特徴量がユーザの顔の特徴量である場合について説明した。一方、この特徴量は、ユーザの身体の全体又は一部から取得される特徴量であれば、どのような特徴量であってもよい。
【0170】
以上の説明では、撮像部3がホームエージェント装置10内にある場合について説明したが、撮像部3は、ホームエージェント装置10とは別体であってもよい。
【0171】
以上の説明では、情報処理装置の一例としてホームエージェント装置10を挙げて説明したが、情報処理装置は、ホームエージェント装置10に限られない。典型的には、住宅内、オフィス内、車内など、撮影される人物や撮像条件が、ある程度固定されている環境下に撮像部3が配置されていれば、本技術は、どのような装置であっても実現可能である。
【0172】
例えば、上記環境下において撮像部3により撮像された画像に基づいて、ネットワーク上のサーバ装置が上記した各処理を実行することも可能である。また、2以上の装置に分担して処理を行わせることも可能である。
【0173】
本技術は以下の構成をとることもできる。
(1)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、前記追加登録用の特徴量に対応するユーザを特定し、前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する制御部
を具備する情報処理装置。
(2)上記(1)に記載の情報処理装置であって、
前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定する
情報処理装置。
(3)上記(1)又は(2)に記載の情報処理装置であって、
請求項1に記載の情報処理装置であって、
前記制御部は、ユーザとの間でインタラクションを行って、前記追加登録用の特徴量に対応するユーザを特定する
情報処理装置。
(4) 上記(2)に記載の情報処理装置であって、
前記制御部は、特徴量空間において、前記識別不能な特徴量の密度を判定し、前記密度に応じて、前記領域を特定する
情報処理装置。
(5) 上記(4)に記載の情報処理装置であって、
前記制御部は、或る特定の前記識別不能な特徴量に対して第1の距離以内の範囲に存在する他の前記識別不能な特徴量の数を、前記密度として判定する
情報処理装置。
(6) 上記(5)に記載の情報処理装置であって、
前記制御部は、前記密度が、所定の閾値以上である場合、前記或る特定の識別不能な特徴量から前記第1の距離以内の前記範囲を前記領域として特定する
情報処理装置。
(7) 上記(6)に記載の情報処理装置であって、
前記制御部は、前記或る特定の識別不能な特徴量を前記追加登録用の特徴量として設定する
情報処理装置。
(8) 上記(3)に記載の情報処理装置であって、
前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の距離に基づいて、前記インタラクションを開始するかどうかを判定する
情報処理装置。
(9) 上記(8)に記載の情報処理装置であって、
前記制御部は、前記追加登録用の特徴量と、前記取得されたユーザの特徴量との間の前記距離が第2の距離以下である場合、前記インタラクションを開始する
情報処理装置。
(10) 上記(9)記載の情報処理装置であって、
前記制御部は、前記分布に基づいて、前記特徴量空間において前記識別不能な特徴量が集合している領域を特定し、前記領域内において前記追加登録用の特徴量を設定し、
前記領域は、前記追加登録用の特徴量からの距離が第1の距離以内の範囲であり、
前記第2の距離は、第1の距離以下である
情報処理装置。
(11) 上記(3)に記載の情報処理装置であって、
前記制御部は、ユーザとの会話の音声を音出力部から出力させて、ユーザとの間でインタラクションを行う
情報処理装置。
(12) 上記(11)に記載の情報処理装置であって、
前記制御部は、ユーザに対する質問の音声を前記音出力部から出力させて、ユーザとの間でインタラクションを行う
情報処理装置。
(13) 上記(12)に記載の情報処理装置であって、
前記制御部は、前記質問の音声における質問形式を変更可能である
情報処理装置。
(14) 上記(13)に記載の情報処理装置であって、
前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離に応じて、前記質問形式を変更する
情報処理装置。
(15) 上記(14)に記載の情報処理装置であって、
前記制御部は、前記追加登録用の特徴量と、前記登録済みの特徴量との距離が第3の距離以下であるかどうかを判定し、前記距離が第3の距離以下である場合、前記登録済みの特徴量に対応するユーザであるかどうかをユーザに問いかける第1の質問形式での音声を前記音出力部から出力させる
情報処理装置。
(16) 上記(15)に記載の情報処理装置であって、
前記制御部は、前記距離が前記第3の距離を超える場合、ユーザに自身の名前を答えさせるように問いかける第2の質問形式での音声を前記音出力部から出力させる
情報処理装置。
(17) 上記(16)に記載の情報処理装置であって、
前記制御部は、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザであるかどうかを判定し、ユーザが答えた名前が前記登録済みの特徴量に対応するユーザでない場合、追加登録用の特徴量を、新規ユーザの特徴量として登録する
情報処理装置。
(18) 上記(11)に記載の情報処理装置であって、
前記制御部は、前記音出力部から出力された前記会話の音声に対して応答されたユーザの音声の情報を取得し、前記ユーザの音声の情報に基づいて話者認識を実行して、ユーザを特定する
情報処理装置。
(19)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させ、
前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定し、
前記追加登録用の特徴量に対応するユーザを特定し、
前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録する
情報処理方法。
(20)登録済みの特徴量と、取得されたユーザの特徴量とに基づく特徴量空間における識別によってユーザを識別することができなかった場合、前記取得されたユーザの特徴量を識別不能な特徴量として記憶部に記憶させるステップと、
前記特徴量空間における前記識別不能な特徴量の分布に基づいて、追加登録用の特徴量を設定するステップと、
前記追加登録用の特徴量に対応するユーザを特定するステップと、
前記追加登録用の特徴量を、特定されたユーザの特徴量として追加登録するステップと
をコンピュータに実行させるプログラム。
【符号の説明】
【0174】
1…制御部
2…記憶部
3…撮像部
4…投影部
5…スピーカ
6…マイクロフォン
7…通信部
10…ホームエージェント装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10