IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2023-181706情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023181706
(43)【公開日】2023-12-25
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231218BHJP
   H04N 7/18 20060101ALI20231218BHJP
【FI】
G06T7/00 350B
G06T7/00 660A
H04N7/18 K
H04N7/18 D
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022094980
(22)【出願日】2022-06-13
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】田中 頌二
(72)【発明者】
【氏名】佐藤 博
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054EA01
5C054EA05
5C054FC01
5C054FC12
5C054GB01
5C054HA19
5L096BA02
5L096CA04
5L096HA05
5L096HA08
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【課題】照合時の精度を維持しつつ、処理時間の短縮をも可能にする。
【解決手段】情報処理装置は、登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出し、また、登録対象の画像に対して第二の抽出処理を行って、第一の特徴情報と比較可能な第二の特徴情報を抽出する。そして情報処理装置は、第一の特徴情報と第二の特徴情報とを比較した結果を基に、第一の抽出処理または第二の抽出処理のいずれを照合処理に用いるかを、登録対象と対応付けた登録情報を登録する。
【選択図】図1
【特許請求の範囲】
【請求項1】
登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出手段と、
前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出手段と、
前記第一の特徴情報と第二の特徴情報とを比較する比較手段と、
前記比較手段による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録手段と、
を有することを特徴とする情報処理装置。
【請求項2】
前記第二の抽出処理は、前記第一の抽出処理よりも、前記特徴情報を抽出する処理の演算量が少ない抽出処理であることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第二の抽出処理は、前記第一の抽出処理よりも、前記特徴情報を抽出するのに要する構成の規模が小さい抽出処理であることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記第一の抽出手段は、学習により生成された第一のモデルを用いた前記第一の抽出処理によって前記第一の特徴情報の抽出を行い、
前記第二の抽出手段は、前記第一のモデルを用いた蒸留により生成された第二のモデルを用いた前記第二の抽出処理によって前記第二の特徴情報の抽出を行うことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記第二の抽出手段は、前記第一のモデルを用いた蒸留によって生成された複数の第二のモデルを用いて、複数の第二の特徴情報の抽出を行い、
前記比較手段は、前記第一の特徴情報と前記複数の第二の特徴情報とをそれぞれ比較し、
前記登録手段は、前記比較手段による前記比較の結果を基に、前記第一のモデルを用いた第一の抽出処理、または、前記複数の第二のモデルを用いた複数の第二の抽出処理のうちのいずれかの第二の抽出処理を用いて照合処理を行うかを、前記登録対象と対応付けた登録情報を生成することを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記比較手段は、前記第一の特徴情報と第二の特徴情報との距離を算出し、
前記登録手段は、前記比較手段により算出された距離が所定の閾値以下である場合、前記第二の抽出処理を照合処理に用いるとすることを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記登録手段は、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを示す情報と、前記照合処理に用いるとされた前記第一の抽出処理または前記第二の抽出処理のいずれかで抽出された特徴情報とを、前記登録対象に固有の識別情報と対応付けた前記登録情報を生成することを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記登録対象を含む撮影画像を取得する画像取得手段と、
前記撮影画像から前記登録対象の画像を検出する検出手段と、を有し、
前記第一の抽出手段は、前記検出された前記登録対象の画像から前記第一の特徴量を抽出し、
前記第二の抽出手段は、前記検出された前記登録対象の画像から前記第二の特徴量を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項9】
所定の時期になったときに、前記画像取得手段は前記登録対象の新たな撮影画像を取得し、前記登録対象の新たな撮影画像を基に前記検出手段から前記登録手段までの処理を行って前記登録情報を更新することを特徴とする請求項8に記載の情報処理装置。
【請求項10】
前記所定の時期は季節が変化する時期、または日照時間が変化する時期であることを特徴とする請求項9に記載の情報処理装置。
【請求項11】
外的環境の変化を検知する検知手段を有し、
前記外的環境の変化が検知された場合、前記画像取得手段は前記登録対象の新たな撮影画像を取得し、前記登録対象の新たな撮影画像を基に前記検出手段から前記登録手段までの処理を行って前記登録情報を更新することを特徴とする請求項8に記載の情報処理装置。
【請求項12】
前記検知手段は、環境光の変化、前記登録対象の撮影画像を取得する撮像装置の設置場所の変化、前記撮像装置の画角の変化、前記撮像装置の周辺の物の配置の変化の、少なくともいずれかを前記外的環境の変化として検知することを特徴とする請求項11に記載の情報処理装置。
【請求項13】
前記登録対象の画像は人物の顔画像であることを特徴とする請求項1に記載の情報処理装置。
【請求項14】
認識対象を含む撮影画像から前記認識対象の画像を検出する検出手段と、
請求項1乃至13のいずれか1項に記載の情報処理装置によって登録された登録情報を取得する登録情報取得手段と、
前記登録情報取得手段により取得された登録情報に基づいて、前記認識対象の画像から特徴情報を抽出する抽出手段と、
前記抽出手段により抽出された特徴情報を用いて、前記認識対象が前記登録対象か否かを照合する照合手段と、
を有することを特徴とする情報処理装置。
【請求項15】
前記認識対象の識別情報を取得する識別情報取得手段を有し、
前記登録情報取得手段は、前記登録情報が格納されたデータベースから、前記識別情報に応じて特定される登録対象の登録情報を取得することを特徴とする請求項14に記載の情報処理装置。
【請求項16】
前記検出手段は、前記識別情報にて特定される前記認識対象を追尾することを特徴とする請求項15に記載の情報処理装置。
【請求項17】
情報処理装置が実行する情報処理方法であって、
登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出工程と、
前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出工程と、
前記第一の特徴情報と第二の特徴情報とを比較する比較工程と、
前記比較工程による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録工程と、
を有することを特徴とする情報処理方法。
【請求項18】
情報処理装置が実行する情報処理方法であって、
認識対象を含む撮影画像から前記認識対象の画像を検出する検出工程と、
請求項1乃至13のいずれか1項に記載の情報処理装置によって登録された登録情報を取得する登録情報取得工程と、
前記登録情報取得工程により取得された登録情報に基づいて、前記認識対象の画像から特徴情報を抽出する抽出工程と、
前記抽出工程により抽出された特徴情報を用いて、前記認識対象が前記登録対象か否かを照合する照合工程と、
を有することを特徴とする情報処理方法。
【請求項19】
コンピュータを、
登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出手段と、
前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出手段と、
前記第一の特徴情報と第二の特徴情報とを比較する比較手段と、
前記比較手段による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録手段と、
を含む情報処理装置として機能させるプログラム。
【請求項20】
コンピュータを、
認識対象を含む撮影画像から前記認識対象の画像を検出する検出手段と、
請求項1乃至13のいずれか1項に記載の情報処理装置によって登録された登録情報を取得する登録情報取得手段と、
前記登録情報取得手段により取得された登録情報に基づいて、前記認識対象の画像から特徴情報を抽出する抽出手段と、
前記抽出手段により抽出された特徴情報を用いて、前記認識対象が前記登録対象か否かを照合する照合手段と、
を含む情報処理装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、照合に用いられる情報の登録、および照合のための情報処理技術に関する。
【背景技術】
【0002】
近年、画像に写っている人物が登録済みの人物かどうかを照合するような人物認識において、深層学習(Deep Learning)に基づく画像認識技術が用いられることが多くなっている。深層学習に基づく画像認識技術では、ニューラルネットワーク(以下、NNと省略する)で構成された学習モデルを用いて、人物の顔画像から特徴情報を抽出するようなことが行われる。特に、NNで構成された学習モデルが大規模で複雑であればあるほど、人物の顔画像からは表現力が高く精度のよい特徴情報を抽出することができる可能性が高くなる。ただし、学習モデルが大規模で複雑であればあるほど、画像認識に要する処理時間が長くなる。一方、小規模な学習モデルを用いれば画像認識の処理時間を短縮可能となるが、人物の顔画像から抽出される特徴情報は表現力が低く認識精度が望ましくないものになってしまうこともあり得る。
【0003】
特許文献1には、精度は低いが高速な照合手段と、精度は高いが低速な照合手段とを用いた、多段階の照合を行う技術が開示されている。すなわち、特許文献1には、精度は低いが高速な照合手段によって認識対象の絞り込みを行ってから、精度が高く低速な照合手段に切り替えて照合(認識)を行う技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010-92119号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示された技術では、精度は低いが高速な照合手段によって認識対象を絞り込んでから、精度が高く低速な照合手段に切り替えて照合(認識)を行うため、照合の精度をある程度確保することはできるが、処理時間が非常に長くなってしまう。
【0006】
そこで本発明は、照合時の精度を維持しつつ、処理時間の短縮をも可能にすることを目的とする。
【課題を解決するための手段】
【0007】
本発明の情報処理装置は、登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出手段と、前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出手段と、前記第一の特徴情報と第二の特徴情報とを比較する比較手段と、前記比較手段による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録手段と、を有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、照合時の精度の維持と処理時間の短縮を実現可能となる。
【図面の簡単な説明】
【0009】
図1】情報処理装置を含むシステムの構成例を示す図である。
図2】登録装置と認識装置の機能ブロック図である。
図3】登録処理の流れを示すフローチャートである。
図4】登録情報の例を説明する図である。
図5】認識処理の流れを示すフローチャートである。
図6】第二の実施形態における登録時の画面例を説明する図である。
【発明を実施するための形態】
【0010】
以下、本発明に係る実施形態を、図面を参照しながら説明する。以降に挙げる実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。実施形態の構成は、本発明が適用される装置の仕様や各種条件(使用条件、使用環境等)によって適宜修正又は変更され得る。また、後述する各実施形態の一部を適宜組み合わせて構成してもよい。以下の各実施形態において、同一の構成には同じ参照符号を付して説明する。
【0011】
<システム構成例>
図1は、第一の実施形態に係る情報処理装置を含む認識システムの一構成例を示した図である。
情報処理装置110は、システム制御部111、ROM(Read Only Memory)112、RAM(Random Access Memory)113、HDD(Hard Disk Drive)114、および通信部115を有する。システム制御部111は、例えばCPU(Central Processing Unit)を有し、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。CPUに替えてGPU(Graphics Processing Unit)を用いることとしてもよい。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。なお本実施形態の情報処理装置110に係る情報処理プログラムは、ROM112又はHDD114に格納されているとする。すなわち後述する本実施形態に係る各機能や処理は、システム制御部111がROM112又はHDD114に格納されている情報処理プログラムを読み出して実行することにより実現される。通信部115は、ネットワーク120を介して、サーバ100と通信可能になされている。
【0012】
サーバ100は、システム制御部101、ROM102、RAM103、HDD104、通信部105、およびデータベース(Data Base、以下DBとする)106を有している。システム制御部101は、CPUを有し、ROM102に記憶された制御プログラムを読み出して各種処理を実行する。RAM103は、システム制御部101の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD104は、各種データや各種プログラム等を記憶する。DB106は管理すべき必要なデータを記憶する。なお、DB106のデータはHDDに格納されていてもよい。通信部105は、ネットワーク120を介して、情報処理装置110と通信可能になされている。
【0013】
ここで、本実施形態の認識システムは、一例として、セキュリティゲートを人物が通過する際の入退管理において、人物の顔画像を用いた人物認識処理を行うことにより、その人物が登録済みの人物本人か否かを確認するような人物照合処理を行うものとする。このため本実施形態の認識システムは、前述した情報処理装置110とサーバ100に加え、さらにネットワークカメラ150、情報読取装置140、セキュリティゲート160、および管理者端末130を有している。そしてそれらネットワークカメラ150、情報読取装置140、セキュリティゲート160、および管理者端末130は、ネットワーク120を介してサーバ100および情報処理装置110と通信可能に接続されている。なお、ネットワーク120は、有線ネットワークに限定されず、無線ネットワークを含んでいてもよい。ネットワークカメラ150は、例えばセキュリティゲート160の前などに設置されており、人物の画像を撮影する撮像装置である。情報読取装置140は、その人物が所持している例えば識別カード(IDカード)やスマートフォン等の携帯情報端末から、当該人物に対応して予め登録されている識別情報を取得する。管理者端末130は、この認識システムを管理する管理者のパーソナルコンピュータ等の情報端末である。なお、本実施形態ではセキュリティゲート160における入退管理を例に挙げたが、例えば店舗での商品購入時の決済などにも適用可能であり、この場合、ネットワークカメラ150は例えばレジ前などに配置される。また管理者端末130は、例えばセキュリティゲート160やレジの近傍に置かれていてもよいし、管理センター等に配置されていても、或いは、管理者が所持するスマートフォンやタブレット端末等の携帯情報端末であってもよい。
【0014】
本実施形態では、認識対象の人物が、事前登録されている登録人物本人であるか否かを照合する本人認識の際に、当該人物の顔画像から抽出した顔の特徴情報(以下、特徴量とする)を用いる例を挙げる。また本実施形態では、人物の顔画像から顔の特徴量を抽出する際に、深層学習(Deep Learning)によるNN(ニューラルネットワーク)で構成された学習モデルを用いた画像認識処理を行う例を挙げる。すなわち本人認識を行う際の情報処理装置は、カメラにて撮影された人物の顔画像から、学習モデルを用いて顔の特徴量を抽出し、その特徴量と事前登録されている人物の顔の特徴量とを比較して、その人物が登録済みの人物本人かどうかを判定する。ただし、一般に、精度の高い特徴抽出が可能となるNNの学習モデルは、演算量が多い大規模で複雑な処理になるため、情報処理装置には多くのメモリおよび計算リソースが必要となる。一方で、実際に人物認識が行われる現場に設置される情報処理装置は、十分なメモリや計算リソースを有さないことが多い。
【0015】
このようなことから、本実施形態の認識システムにおいて、情報処理装置110は、登録対象の人物の登録が行われる際には、その登録対象の人物の顔画像から、演算量が異なる少なくとも二つのNNの学習モデルを用いて顔の特徴量を抽出する。本実施形態の場合、演算量が異なる学習モデルは、演算量が多く大規模で複雑なNNの学習モデルと、当該学習モデルのNNを知識蒸留して得られた演算量が少ない(規模が小さい)学習モデルの二つであるとする。これらの学習モデルの詳細は後述する。さらに情報処理装置110は、それら学習モデルごとに抽出された特徴量同士を比較し、その比較結果を基に、後に照合処理が行われる際にいずれの学習モデルを用いるべきかを設定する。そして、情報処理装置110は、照合処理の際にいずれの学習モデルを用いるべきかを示すモデル情報と、当該登録対象の人物の識別情報と、その人物の顔の特徴量とを対応付けた登録情報を生成する。この登録情報は、サーバ100に送られ、サーバ100は当該登録情報をDB106に格納する。
【0016】
また本実施形態の認識システムにおいて、情報処理装置110は、認識対象の人物が登録済みの人物か否かの照合処理を行う際には、その認識対象の人物の識別情報を基に、サーバ100のDB106から登録情報を取得する。さらに、情報処理装置110は、その登録情報内のモデル情報にて示された学習モデルを用いて、認識対象の人物の顔画像から特徴量を抽出する。そして、情報処理装置は、登録情報内のモデル情報に対応した学習モデルを用いて認識対象の人物の顔画像から抽出した特徴量と、当該登録情報内の特徴量とを比較することで、認識対象の人物が登録済みの人物本人か否かの照合を行う。
【0017】
<機能ブロック構成>
本実施形態の情報処理装置110は、登録対象の人物を登録する際の登録装置と、認識対象の人物が登録済みの人物本人かどうかの照合を行う際の照合装置との、いずれか一方の機能もしくは両機能を実行可能になされている。図2(A)は、本実施形態の情報処理装置110が登録装置200として機能する場合の機能構成例を示した機能ブロック図である。また図2(B)は、本実施形態の情報処理装置110が照合装置210として機能する場合の機能構成例を示した機能ブロック図である。
【0018】
なお本実施形態の場合、登録装置200と照合装置210の両機能は、図1の情報処理装置110により実現される例を挙げているが、例えば登録装置200の機能はサーバ100が担い、照合装置210の機能は情報処理装置110が担ってもよい。あるいは、登録装置200と照合装置210の各機能は、情報処理装置110とサーバ100で適宜分担してもよい。登録装置200と照合装置210の各機能は、本実施形態に係る情報処理プログラムをCPU(システム制御部111等)が実行することにより実現されてもよいし、それら機能の一部またはすべてがハードウェア構成により実現されてもよい。
【0019】
登録装置200は、登録対象の人物の登録情報を生成する装置であり、例えば、画像取得部201、対象検出部202、第一の抽出部203、第二の抽出部204、比較部205、および登録部206を有している。
【0020】
照合装置210は、認識対象の人物が登録済みの人物と同一人物か否かを照合(つまり同定)する装置であり、画像取得部211、対象検出部212、識別情報取得部213、登録情報取得部214、抽出部215、および照合部216を有している。本実施形態では、セキュリティゲート160へ進入する人物を認識対象の人物とし、その認識対象の人物が登録済みの人物であるかを、登録情報を用いて同定する。例えば、照合装置210は、登録されていない人物が、登録済みの人物になりすまして侵入しようとするような場合等におけるセキュリティ対策として照合処理を行う。
【0021】
まず、本実施形態の情報処理装置110が登録装置200として動作する場合について説明する。
登録装置200の画像取得部201は、ネットワークカメラ150にて撮影された画像を取得する。なお、画像取得部201にはネットワークカメラ150が含まれていてもよい。画像取得部201にて取得される画像は、登録対象の人物を撮影した画像であるとする。画像取得部201にて取得される画像は、動画を構成するフレームの画像であってもよいし、静止画であってもよい。
対象検出部202は、画像取得部201にて取得された画像から、登録対象の人物の顔の領域の画像(顔画像とする)を検出する。
【0022】
第一の抽出部203は、対象検出部202にて検出された顔画像から、第一の特徴量抽出処理によって第一の特徴量を抽出する。詳細は後述するが、本実施形態の場合、第一の特徴量抽出処理は、演算量が多く大規模で複雑なNNの学習モデルを用いて顔の特徴量(第一の特徴量)を抽出する処理である。以下、本実施形態では、顔画像から第一の特徴量を抽出する第一の特徴量抽出処理に用いられるNNの学習モデルを、第一のモデルと呼ぶことにする。第一のモデルの詳細は後述する。
【0023】
第二の抽出部204は、対象検出部202にて検出された顔画像から、第一の特徴量抽出処理よりも演算量が少なく小規模な第二の特徴量抽出処理によって第二の特徴量を抽出する。詳細は後述するが、第二の特徴量は第一の特徴量と同様な特徴を表す特徴情報であり、第二の特徴量は第一の特徴量と比較可能な特徴量として取得される。同じく詳細は後述するが、本実施形態の場合、第二の特徴量抽出処理は、第一の特徴量抽出処理における第一のモデルよりも演算量が少なく小規模な学習モデルを用いた抽出処理であるとする。以下、本実施形態では、顔画像から第二の特徴量を抽出する第二の特徴量抽出処理に用いられるNNの学習モデルを、第二のモデルと呼ぶことにする。第二のモデルの詳細は後述する。
【0024】
比較部205は、第一の抽出部203にて抽出された第一の特徴量と、第二の抽出部204にて抽出された第二の特徴量とを比較し、その比較結果を基に、照合処理時の特徴量抽出処理に第一,第二のモデルのいずれを用いるかを示すモデル情報を生成する。言い換えると、比較部205は、第一の特徴量と第二の特徴量との比較結果を基に、照合処理時に第一、第二の特徴量抽出処理のいずれを行うかを示す情報を生成する。比較部205における第一の特徴量と第二の特徴量との比較処理の詳細は後述する。
【0025】
登録部206は、特徴量とモデル情報とを、対象検出部202にて検出された登録対象の人物の識別情報に対応付けた登録情報を生成する。人物の識別情報は、登録対象の人物ごとに固有の情報であり、本実施形態では、当該人物が所持しているIDカードやスマートフォン等の携帯情報端末に予め登録されている識別情報(IDデータ等)を用いるとする。また登録情報に含められる特徴量の情報は、第一の特徴量と第二の特徴量の両方であってもよいが、本実施形態では、モデル情報に対応した特徴量とする。そして、これら特徴量とモデル情報を識別情報と対応付けた登録情報は、情報処理装置110から通信部115を介してサーバ100に通知され、DB106に格納される。なお、本実施形態では、登録情報は情報処理装置110にて生成されるとしたが、サーバ100により生成されてDB106に格納されてもよい。
【0026】
次に、本実施形態の情報処理装置110が照合装置210として動作する場合について説明する。
照合装置210の画像取得部211は、ネットワークカメラ150にて撮影された画像を取得する。なお照合装置210の画像取得部211にはネットワークカメラ150が含まれていてもよい。照合装置210の画像取得部211が取得する画像は、認識対象の人物が撮影された画像であるとする。画像取得部211が取得する画像は動画を構成するフレームの画像であってもよいし、静止画であってもよい。
【0027】
対象検出部212は、画像取得部211にて取得された画像から、認識対象となっている人物の顔画像を検出する。
識別情報取得部213は、認識対象の人物が所持しているIDカードやスマートフォン等の携帯情報端末から、当該人物に対応して予め登録されている識別情報(IDデータ等)を取得する。
【0028】
登録情報取得部214は、識別情報取得部213から識別情報を受け取り、当該識別情報に対応付けられている登録情報を、サーバ100のDB106から取得する。登録情報は、前述したように登録装置200において、特徴量とモデル情報とが識別情報に対応付けられた情報である。
【0029】
抽出部215は、登録情報取得部214にて取得された登録情報から、識別情報取得部213で取得された識別情報に対応したモデル情報を取得する。詳細は後述するが、モデル情報が第一のモデルを示している場合、抽出部215では、認識対象の人物の顔画像に対して第一のモデルを用いた特徴量抽出処理、つまり第一の特徴量抽出処理によって第一の特徴量を抽出する処理が行われる。一方、モデル情報が第二のモデルを示している場合、抽出部215では、認識対象の人物の顔画像に対して第二のモデルを用いた特徴量抽出処理、つまり第二の特徴量抽出処理によって第二の特徴量を抽出する処理が行われる。
【0030】
照合部216は、登録情報取得部214にて得られた登録情報から特徴量を取得し、その特徴量と、抽出部215で抽出した特徴量との類似度を求めて、認識対象の人物が登録済みの人物か否かを判定する照合処理を行う。詳細は後述するが、モデル情報が第一のモデルを示していた場合、照合部216では、抽出部215が認識対象の人物の顔画像から第一のモデルを用いて抽出した第一の特徴量と、登録情報の第一の特徴量との類似度に基づく照合処理が行われる。一方、モデル情報が第二のモデルを示していた場合、照合部216では、抽出部215が認識対象の人物の顔画像から第二のモデルを用いて抽出した第二の特徴量と、登録情報の第二の特徴量との類似度に基づく照合処理が行われる。
【0031】
図3は、登録装置200において行われる登録処理の流れを示すフローチャートである。なおこれ以降の各フローチャートにおいて用いる符号のSは、それぞれ処理ステップ(処理工程)を表しているとする。
まずS301において、登録装置200の画像取得部201は、セキュリティゲート160の前などに設置されるネットワークカメラ150から、登録対象の人物の顔を含む画像を取得する。なお、登録装置200の画像取得部201が取得する人物の顔画像は、予め撮影されてIDカード内のメモリ等に保存されている画像やスマートフォン等の携帯情報端末に保存されている画像、あるいは別の画像サーバ等に保存されている画像であってもよい。
【0032】
次にS302において、対象検出部202は、画像取得部201にて取得された画像から当該人物の顔領域を顔画像として検出する。顔領域の画像を検出する技術としては公知の技術を用いればよい。一例として、予め設定された目、鼻、口などの顔の特徴に基づく検出手法や、深層学習に代表される学習による顔領域の検出手法などが挙げられる。
【0033】
次にS303において、第一の抽出部203は対象検出部202にて検出された顔画像から第一の特徴量を抽出し、また、第二の抽出部204は対象検出部202にて検出された顔画像から第二の特徴量を抽出する。
第一の抽出部203は、前述したように、予め学習された第一のモデル、すなわち本実施形態の場合、演算量が多く大規模で処理が複雑なNNの第一のモデルを用いて、第一の特徴量を抽出する。なお、第一のモデルは演算量が多く大規模で処理が複雑なNNの学習モデルであるため、第一の抽出部203にて抽出される第一の特徴量は表現力が高く精度のよい特徴量である可能性が高い。
【0034】
一方、第二の抽出部204は、前述したように、予め学習された第二のモデル、すなわち本実施形態の場合、第一のモデルよりも演算量が少なく規模が小さいNNの第二のモデルを用いて、第二の特徴量を抽出する。なお、第二のモデルは演算量が少ないNNの学習モデルであるため、第二の抽出部204にて抽出される第二の特徴量は、第一の特徴量よりも表現力が低く精度も十分とは言い難いものになる可能性がある。
【0035】
ここで本実施形態において、第二のモデルは、演算量が多く規模が大きい第一のモデルのNNを、いわゆる知識蒸留した学習モデルとなされている。知識蒸留(以下、蒸留とする)とは、NNを小規模化および処理を軽量化する手法の一つであって公知の技術である。蒸留では、大規模なNNの学習モデル(一般に教師モデルと呼ばれる)の出力を用いて学習することにより、比較的小規模で且つ軽量なNNの学習モデル(一般に生徒モデルと呼ばれる)が生成される。
【0036】
より具体的に説明すると、蒸留では、教師モデルの出力と生徒モデルの出力とを比較、つまり本実施形態の場合は特徴量を比較し、それぞれの特徴量の差分が小さくなるように、生徒モデルのパラメータを学習により調整する。例えば、教師モデルにより抽出される特徴量をv1とし、生徒モデルにより抽出される特徴量をv2とすると、|v1-v2|<εとなるように生徒モデルの学習が行われる。なお、εは予め定められた所定の値である。すなわち、蒸留では教師モデルの出力(特徴量)と生徒モデルの出力(特徴量)とを直接比較して学習していることから、教師モデルが出力する特徴量と生徒モデルが出力する特徴量は比較可能なものになっているということができる。このように、生徒モデルは、教師モデルの出力を用いて学習されるモデルであるため、生徒モデルを用いて画像から抽出した特徴量は、教師モデルを用いて画像から抽出された特徴量と概ね同等の精度を示す特徴量となる可能性が高い。そのためNNの蒸留は、マシンリソースが乏しい環境、例えば個人所有の携帯情報端末等のようなエッジデバイスでNNを用いた処理を行う場合などによく用いられる技術である。ただし、特徴量抽出処理の対象となっている画像によっては、生徒モデルにより抽出された特徴量と、教師モデルにより抽出された特徴量とが、必ずしも同等の精度にならないこともある。
【0037】
次にS304において、比較部205は、第一の抽出部203が第一のモデルを用いて抽出した第一の特徴量と、第二の抽出部204が第二のモデルを用いて抽出した第二の特徴量とを比較する。具体的には、比較部205は、第一の特徴量と第二の特徴量との距離を求める。なお、距離は、同一の特徴空間において第一の特徴量(特徴ベクトル)と第二の特徴量(特徴ベクトル)とのユークリッド距離で算出される。例えば、第一の特徴量をv1とし、第二の特徴量をv2とすると、それらの距離は||V1-V2||で表現される値である。なお、この比較部205における特徴量の特徴間距離を求める処理は、前述したように、蒸留前の第一のモデルの出力と蒸留後の第二のモデルの出力とが、比較可能な特徴量であることを利用している。
【0038】
次にS305において、比較部205は、第一の特徴量と第二の特徴量との特徴間距離を用いて、S302で検出された顔の人物の照合が行われる際に第一のモデルと第二のモデルのいずれを用いるべきかを評価する。前述したように、蒸留後の第二のモデルは蒸留前の第一のモデルの出力と一致するように学習されていることから、例えば同一の画像に対して抽出した第一の特徴量と第二の特徴量とは一致するはずである。つまり前述した特徴間距離||V1-V2||の値は0になるはずである。しかしながら、特徴量抽出の対象となっている顔画像によっては、第一の特徴量と第二の特徴量とが一致しないこともある。
【0039】
このため、比較部205は、第一の特徴量と第二の特徴量との特徴間距離が、所定の閾値以下かどうかを判定することで、照合処理の際に第一のモデルと第二のモデルのいずれを用いるべきかを評価する。なお所定の閾値は、予め設定される値であるとする。ここで、特徴間距離が閾値以下である場合、つまり第一の特徴量と第二の特徴量とが近い特徴量である場合、第一のモデルと第二のモデルのいずれを用いても略々同等の特徴量を抽出することができると考えられる。一方、特徴間距離が閾値を超える場合、つまり第一の特徴量と第二の特徴量とが遠い特徴量である場合、第一のモデルを用いて得られる第一の特徴量と、第二のモデルを用いて得られる第二の特徴量とは異なる特徴量になる可能性が高いと考えられる。言い換えると、軽量な第二のモデルを用いて特徴量抽出を行った場合には、第一のモデルを用いた精度の高い第一の特徴量とは異なる特徴量として抽出される可能性があると考えられる。
【0040】
このため、次のS306とS307において、登録部206は、S305での比較部205による比較結果に基づいて、照合処理の際に第一のモデルと第二のモデルのいずれを用いるかを決定し、その決定に応じたモデル情報を登録情報に含めるようにする。
すなわち例えば、比較部205で第一,第二の特徴量の特徴間距離が閾値以下となる比較結果が得られた場合、当該人物は、第二のモデルを用いたとしても、第一のモデルを用いた場合と同等の特徴量が得られる人物であると言える。すなわち第一,第二の特徴量の特徴間距離が閾値以下となる人物は、照合処理の際に第二のモデルを用いた特徴量抽出処理を行ったとしても、誤照合が生じ難いと人物であると考えられる。したがって、登録部206は、第一,第二の特徴量の特徴間距離が閾値以下となる比較結果が得られた人物については、S306において、第二のモデルを示すモデル情報を登録情報に含めるようにする。つまりこの人物は、照合処理の際に、第二のモデルを用いて特徴量を抽出して照合する人物として登録される。
【0041】
一方、比較部205で特徴間距離が閾値を超える比較結果が得られた人物の場合、照合処理の際に第二のモデルを用いたのでは、登録人物本人であると照合できない可能性があり、また別人が登録人物である誤照合されてしまう可能性もある。したがって、登録部206は、比較部205で第一,第二の特徴量の特徴間距離が閾値を超える比較結果が得られた人物については、S307において、第一のモデルを示すモデル情報を登録情報に含めるようにする。すなわち特徴間距離が閾値を超える比較結果が得られた人物は、照合処理の際に、精度の高い第一のモデルを用いて特徴量を抽出して照合する人物として登録される。
【0042】
図4は、登録情報400としてサーバ100のDB106に登録された各情報の一例を模式的に示した図である。登録情報400は、登録対象の人物の顔画像から抽出した特徴量(顔特徴量)と、照合処理で用いる学習モデルを第一,第二のモデルのいずれにするかを示すモデル情報とが、人物の識別情報である人物IDと対応付けられた情報となされる。なお、図4の例では、第二のモデルをモデルA、第一のモデルをモデルBとして示している。また、人物の識別情報(人物ID)としては、00001、00002、および00003が例示されている。登録情報400の場合、人物IDが00001と00002の各人物については照合処理時にモデルA(第二のモデル)を使用でき、人物IDが00003の人物については照合処理時にモデルB(第一のモデル)を使用する必要があることが示されている。
【0043】
図5は、照合装置210において行われる照合処理の流れを示すフローチャートである。
まずS501において、識別情報取得部213は、認識対象となっている人物の固有の識別情報を取得する。識別情報取得部213は、例えば、セキュリティゲート160がある入口などに備えられている情報読取装置140が、その認識対象の人物が所持等するIDカードやスマートフォンから読み取った、当該人物の識別情報を取得する。このように照合装置210は、その識別情報によって、これから認識しようとしている人物を把握する。
【0044】
次にS502において、登録情報取得部214は、S401で識別情報取得部213にて取得された識別情報を基に、サーバ100のDB106から対応した登録情報を読み出す。登録情報は、図4に示したように、登録済みの人物の識別情報(人物ID)と、その人物が登録された際に顔画像から抽出された特徴量と、照合処理の際に第一,第二のモデルのいずれを用いるかを示すモデル情報とが対応付けられている。登録情報取得部214は、S501で取得された人物固有の識別情報を検索キーとしてサーバ100に問い合わせを行い、その問い合わせに応じてサーバ100から送られてくる登録情報を取得する。
【0045】
前述した図4に示した登録情報400を例に挙げて、S502における登録情報の取得処理について具体的に説明する。識別情報取得部213にて取得された識別情報(人物ID)が例えば00001であった場合、サーバ100のシステム制御部101は、その人物IDを検索キーとし、DB106に格納されている登録情報400の中から登録情報を読み出す。すなわちサーバ100のシステム制御部101は、DB106に格納されている登録情報400の中から、人物IDの00001に対応した登録情報を読み出し、通信部105を介して情報処理装置110に送信する。また例えば人物IDが00003であった場合、サーバ100からは、その人物IDに対応した登録情報が読み出されて、情報処理装置110に送信されることになる。このようにしてサーバ100から送信された登録情報を受け取った登録情報取得部214は、情報処理装置110内のメモリであるRAM113にその登録情報を格納する。この登録情報は、S405以降の処理に利用されることになる。
【0046】
次にS503において、照合装置210の画像取得部211は、セキュリティゲート160の前などに設置されるネットワークカメラ150から、認識対象となっている人物の顔を含む画像を取得する。
【0047】
次にS504において、対象検出部212は、画像取得部211にて取得された画像から当該人物の顔領域を顔画像として検出する。顔領域の画像を検出する技術としては、登録装置200の対象検出部202と同様に公知の技術を用いればよい。
【0048】
次にS505において、抽出部215は、対象検出部212にて検出された顔画像から特徴量を抽出する。このとき、抽出部215は、S502で取得された登録情報に含まれるモデル情報に対応した学習モデルを用いて特徴量を抽出する。例えば、図4に示した人物IDの00001の登録情報が得られている場合、抽出部215は、人物IDの登録情報に含まれるモデル情報(モデルA)である第二のモデル、つまり演算量が少なく規模が小さい学習モデルを用いて特徴量を抽出する。また例えば人物IDの00003の登録情報が得られている場合、抽出部215は、当該人物IDの登録情報に含まれるモデル情報(モデルB)である第一のモデル、つまり演算量は多いが高精度な出力を得ることが可能な学習モデルを用いて特徴量を抽出する。
【0049】
次にS506において、照合部216は、S502で取得された登録情報に含まれる特徴量である登録済み人物の顔の特徴量と、S505で抽出部215が抽出した特徴量との間の類似度を算出し、その類似度が所定の閾値以上であるかどうかを評価する。特徴量の類似度は、多次元の特徴量を比較可能であればどのような類似度であってもよく、その一例としてコサイン類似度を挙げることができる。コサイン類似度は、下記の式(1)で表すことができる。式(1)はそれぞれn次元の特徴ベクトルpと特徴ベクトルqとのコサイン類似度を示したものである。コサイン類似度は、二つの特徴ベクトル間の成す角度を、特徴量同士の近さとして評価することができる値であり、-1.0~1.0の値域を取る。値が-1.0の場合は特徴ベクトル同士の類似度が最も低く、値が1.0の場合は特徴ベクトル同士の類似度が最も高いことを表す。
【0050】
【数1】
【0051】
そしてS506において類似度が所定の閾値以上であると評価した場合、照合部216は、S507において、S504で検出された顔画像の人物は登録済みの人物本人であると認識する。一方、S506において類似度が所定の閾値未満であると評価した場合、照合部216は、S508において、S504で検出された顔画像の人物は登録済みの人物とは異なる他人であると認識する。なお、S506で用いる所定の閾値は、予め設定される値であり、例えば学習モデルを予め評価した際の精度によって設定された値である。学習モデルを評価した際の精度とは、事前に学習モデルにより抽出された特徴量を基に照合処理を行った結果、本人と認識されるべき人物が本人ではないと認識される本人拒否率、および、他人が本人であるとして認識されてしまう他人受け入れ率を基に設定される。
【0052】
次にS509において、照合部216は、S507またはS508での認識結果に応じた処理を実行する。例えば、照合部216は、認識結果に基づいてセキュリティゲート160の開閉等を行う。すなわち照合部216は、例えば本人であるとの認識結果が得られた場合にはセキュリティゲート160を開かせて当該人物の入場を許可し、一方、他人であるとの認識結果が得られた場合にはセキュリティゲート160を閉じて当該人物の入場を拒絶する。なお、セキュリティゲート160の開閉は不図示の別のゲート開閉装置が行い、照合部216は、認識結果に応じたゲート開閉制御命令を、そのゲート開閉装置に送ってもよい。また、認識結果は、例えば管理者端末130に通知してもよく、この時の管理者端末130では、認識結果をディスプレイ等に表示したり、認識結果に応じた音を出力したりしてもよい。
【0053】
前述したように本実施形態では、処理は軽量であるが精度は高くない第二のモデルでも認識可能な人物については、セキュリティゲートで行われる照合処理の際に第二のモデルを用いることを登録しておく。これにより、例えばメモリおよび計算リソースが乏しい情報処理装置であっても照合時における認識の精度を確保することができる。またこの場合、演算量が少ない小規模な第二のモデルが用いられることで、処理時間の短縮も可能となる。一方、第二のモデルでは精度を保証できない人物については、演算量は多いが精度のよい出力が得られる可能性が高い第一のモデルを用いることを登録しておくことで、照合時の認識の精度を確保することができる。
【0054】
なお本実施形態において、認識システムが適用される具体的なユースケースとしては、一例として、オフィスビルに設置されたセキュリティゲートにおける認識システムで考えられる。ここで、オフィスビルの利用者の年齢層としては、大多数が20歳代~50歳代であると想定され、未成年者や高齢者は利用頻度が低いと想定される。このような場所に設置される認識システムでは、蒸留後の第二のモデルを学習する際に、当該オフィスビルを利用する可能性が高い年代の顔画像を重点的に学習する。その結果、20歳代~50歳代の年齢層の人物については、演算量が少なく高速処理が可能な第二のモデルを用いたとしても、例えば未成年から高齢者までの全ての年齢層に対応した第一のモデルを用いた場合と概ね同等の精度で認識を行えることになる。一方、オフィスビルであっても未成年者や高齢者が利用する可能性もあり、それらの人物については第二のモデルを用いた場合に誤認識される可能性がある。このため、それら誤認識される可能性がある人物については、演算量が多いため処理に時間はかかるが、精度のよい第一のモデルを用いるようにする。このように、利用頻度が高い多数の人物には軽量な第二のモデルを用い、一方、利用頻度が低く誤認識の可能性がある人物には精度のよい第一のモデルを用いることで、全体として精度を保ちながら認識に要する処理時間の短縮が可能となる。
【0055】
また本実施形態では、セキュリティゲート前などの現地で撮影した顔画像を用いて認識を行う例を挙げている。このように現地で撮影した顔画像を用いる場合、登録情報を生成した際に用いた顔画像の特徴量と、照合装置で照合を行う際に撮影された顔画像の特徴量とが、例えば外的要因(環境光の変化など)で差が生じてしまうことも想定される。
【0056】
このように、登録時と照合時とで顔画像の特徴量に差異が生じ得ることを想定し、登録情報として保持される特徴量に生じる差異を考慮して特徴量を再登録するような登録情報の更新処理を行ってもよい。本実施形態の場合、特徴量に生じ得る差異を考慮した登録更新処理は、所定の時期になったとき、あるいは認識対象の人物が撮影される外的環境が変化したことを検知したときなどに行うことが想定される。登録情報の特徴量が更新された後は、その更新後の特徴量を用いて照合処理が行われる。
【0057】
ここで、登録情報を更新する所定の時期としては、例えば夏や冬のように季節が変わって日照時間が変化するような時期を挙げることができる。これらの時期では、日照時間のような環境光が変化することだけでなく、人物の身に着ける物(マスクやサングラス等)が変化することも考えられる。このように所定の時期になったことに応じて、登録情報の特徴量を更新することにより、その時期に好適な照合処理が可能となる。
【0058】
また、外的環境が変化したことの検知としては、例えば画像から環境光の変化を検知することや、照度センサなどによって環境光の変化を検知することなどを挙げることができる。さらに外的環境の変化を検知することには、環境光の変化を検知する場合の他にも、例えばカメラの設置場所の変化、画角の変化、カメラ周辺の物の配置の変化なども含まれる。なお、カメラの設置場所の変化、画角の変化、カメラ周辺の物の配置の変化などは、一例として、カメラによって撮影された画像内に写っている場所の見え方、構図、広さ等の変化や、物体等の位置の変化などを基に検知することができる。このような外的環境の変化を検知したときに、登録情報の特徴量を更新することにより、その時々の外的環境に適応した照合処理が可能となる。
【0059】
登録情報の特徴量を更新する処理としては、例えば照合処理が行われる際に、図3のフローチャートに示した登録時と同様の処理を再度行い、その処理によって得られた情報を基に登録情報を更新するような例を挙げることができる。すなわちネットワークカメラで新たに撮影された画像から検出された顔画像に対して、S304と同様に第一,第二の特徴量抽出処理を行い、さらにS305と同様の特徴量比較処理を行う。そして、S305の特徴量の比較処理において、第一,第二の特徴量の類似度が閾値以上と判定された場合にはS306で第二のモデルを適用する人物として登録する。一方、特徴量の比較処理において、第一,第二の特徴量の類似度が閾値未満と判定された場合にはS307で第一のモデルを適用する人物として登録する。照合装置での照合処理の際には、既に登録情報がDB106に格納されているため、S306およびS307では、DB106の登録情報を更新する。すなわち照合装置で実際に照合処理が行われる環境における外的要因を含む顔画像から抽出された特徴量を比較することで、それら時期や外的環境に適応した登録情報を利用することができるようになり、その結果、高精度な照合処理が実現可能となる。
【0060】
前述したように第一の実施形態によれば、人物の登録が行われる際に、後の照合処理において第一のモデルと第二のモデルのいずれを用いるかを予め決定して登録しておくことで、照合処理時の認識精度を維持しつつ高速な処理を行うことが可能となる。
【0061】
なお前述したオフィスビルの入退管理の例以外にも、登録処理や照合処理が行われる例としては以下のようなユースケースも想定可能である。
例えば朝の出勤などの際にセキュリティゲートに入場する時に顔画像の撮影と登録処理が行われ、その後、オフィスビル内の他のゲートを通過するときに顔画像の撮影と照合が行われてもよい。さらにその後、退勤などでオフィスビルから出るときには登録情報はリセットされてもよい。また例えば、登録情報については、セキュリティゲートへの入場時に一度登録してしまえば、後に更新が必要になる場合を除き、そのままサーバに保持されていて、翌日等のオフィスビルへの入場時には登録の処理は省略されてもよい。また例えば、事前に顔を正面から正しく撮影した静止画等から登録情報を生成してサーバ等に事前登録しておいて、オフィスビルに限らず様々な場所での照合の際にその登録情報を使用するようなユースケースにも本実施形態は適用可能である。
またオフィスビルへの適用に限定されるものではなく、駅舎、小売店、銀行等の施設に適用することも可能である。
その他にも、例えば、空港へのチェックイン時に前述したような登録処理を行い、手荷物検査等の保安検査場や飛行機への搭乗口を通過する際に照合処理を行うようなユースケースにも本実施形態の認識システムは適用可能である。なお空港への適用例の場合、人物の固有の識別情報としては、パスポート等のIC旅券に記録された識別情報を用いることもでき、登録時に用いる顔画像はIC旅券に記録されている顔画像を用いることもできる。さらに、識別情報や顔画像は、航空会社等における会員登録システムに登録されている識別情報や顔画像であってもよい。
【0062】
また前述した実施形態では、第一のモデルを用いた蒸留によって生成された一つの第二のモデルを用いる例を挙げたが、蒸留により生成される第二のモデルは、複数であってもよい。例えば、第一のモデルを用いた蒸留により生成される、演算量が異なる複数の学習モデルを、第二のモデルとして用いてもよい。この例の場合、登録装置では、第一のモデルと複数の第二のモデルによってそれぞれ抽出された各特徴情報を比較し、その比較の結果を基に、第一のモデル、複数の第二のモデルのいずれかを照合処理を行うかを表すモデル情報を、登録情報に含める。そして照合装置では、登録情報に含まれるモデル情報を基に、それら第一のモデル、複数の第二のモデルのいずれを用いるかが決定される。またこの例の場合、照合装置のメモリ量や処理能力に応じて、これら複数の軽量な第二のモデルのいずれかを用いるかを適宜選択してもよい。またこの例の場合、前述したような所定の時期や外的環境の変化の検知に応じて、複数の軽量な第二のモデルのいずれを用いるかを適宜選択するようなことも可能である。
【0063】
<第二の実施形態>
次に、第二の実施形態として、追尾対象の人物または物体について照合処理を行う例について説明する。第二の実施形態では、監視カメラの画像を用いて、特定の人物を追尾する例を挙げて説明する。なお、第二の実施形態のシステム構成は図1と概ね同様であるが、ネットワークカメラ150は監視カメラであるとする。また第二の実施形態の場合、セキュリティゲート160は必ずしも設けられていなくてもよい。また第二の実施形態の情報処理装置の機能ブロック構成は図2と同様であるため、その図示は省略し、また第一の実施形態の場合と同じ構成および処理の説明も省略する。
【0064】
第二の実施形態の登録装置200において行われる登録処理について図3のフローチャートを流用して説明する。
まずS301において、登録装置200の画像取得部201は、ネットワークカメラ150から画像を取得する。第二の実施形態の場合、ネットワークカメラ150は監視カメラであるため、監視対象の領域を撮影した画像が取得される。監視対象の領域内を人物が通った場合、その人物を含む画像が取得されることになる。
【0065】
次にS302において対象検出部202は、監視カメラの撮影画像から人物の画像(全身画像、上半身画像等)を検出する。第二の実施形態の場合、対象検出部202は、追尾対象となる人物を検出し、さらにその検出人物の全身画像を検出する。監視カメラの撮影画像から追尾対象の人物を検出する手法としては、公知の手法を用いればよい。一例として、予め設定された頭部、胴体、手足などの人物の特徴に基づいて人物の可能性が高い領域を候補領域として検出する手法や、深層学習に代表される学習による人物領域の検出手法などが挙げられる。さらに画像の検出技術については、第一の実施形態で説明したような公知の技術を用いることができる。なお検出される人物は一人に限らず複数人であってもよい。
【0066】
ここで、撮影画像から人物を検出する人物検出手法では、人物の検出結果として、当該人物を検出枠で囲うことで示す場合も多く、図6は撮影画像から検出された人物が検出枠601で示されている例を示している。図6の例では、例えば管理者端末130のディスプレイ画面上に撮影画像が表示され、その撮影画像内で人物が検出されたことで検出枠601が表示されている状態の例を示している。また撮影画像から検出された人物を追尾対象とするかどうかは、管理者等のユーザにより指定されることもあり、図6は、管理者端末130の管理者が追尾対象を指定している例を示している。図6の例では、管理者端末130としてのタブレット端末の画面上において、検出枠601で示された人物を追尾対象として選択する例を表している。すなわち管理者は、タブレット端末の画面上で、当該人物の検出枠601をタッチ等することにより、追尾対象として選択する。
【0067】
次にS303において、前述のようにして追尾対象として選択された人物の画像について、第一の実施形態の場合と同様に、第一の抽出部203では第一の特徴量の抽出処理が行われ、第二の抽出部204では第二の特徴量の抽出処理が行われる。
さらに次のS304において、比較部205では、第一の実施形態の場合と同様に、第一の特徴量と第二の特徴量の比較処理が行われる。
その後、第一の実施形態の場合と同様に、S305において類似度が閾値以上か否かの評価が行われ、さらにその評価結果を基にS306またはS307における登録情報の登録処理が行われる。
【0068】
以下、第二の実施形態における追尾処理について、図5のフローチャートを流用して説明する。第二の実施形態の追尾処理は、図2(B)に示した照合装置210によって行われるとする。
前述した第一の実施形態の場合、S501において、識別情報取得部213は認識対象の人物の固有の識別情報を取得したが、第二の本実施形態の識別情報取得部213は、追尾対象の識別情報を取得する。追尾対象の識別情報を取得する手法としては、例えば管理者が、管理者端末130を介して識別情報(人物ID)を入力するような手法が一例として考えられる。例えば、既にDB106に格納されている登録情報のうち、例えば人物IDが00001の人物を追尾したい場合、管理者は00001の人物IDを入力する。
【0069】
次にS502において、登録情報取得部214は、識別情報に基づいて、サーバ100のDB106から登録情報を読み出す。登録情報は、前述したように第二の実施形態の登録装置200によって登録された情報であり、登録情報取得部214は、識別情報に対応した登録情報をサーバ100から取得する。
【0070】
次にS503において、画像取得部211は、監視カメラ(ネットワークカメラ150)が監視対象の領域を撮影している画像を取得する。
次のS504において、対象検出部212は、画像取得部211にて取得された撮影画像から追尾対象の人物とその全身画像を検出するが、それに先立ち、撮影画像から追尾対象となり得る候補領域を検出する。すなわち人物を追尾対象とする場合、対象検出部212は、画像から人物の可能性が高い領域を候補領域として検出する。人物の可能性が高い領域を検出する手法は、前述したような公知の手法、例えば予め設計された頭部、胴体、手足などの人物の特徴に基づく検出手法や、深層学習に代表される学習による人物領域の検出手法などが挙げられる。なお、検出される人物は一人に限らず複数人であってもよい。
【0071】
次にS504において、抽出部215は、対象検出部212にて検出された全身画像から特徴量を抽出する。第二の実施形態においても、顔画像を全身画像に置き換えることで第一の実施形態の場合と同様に特徴量を得ることができる。つまり、抽出部215は、全身画像から特徴量を抽出する際、S502で取得された登録情報に含まれるモデル情報に対応した学習モデルを用いて特徴量の抽出を行う。
【0072】
そして、以降のS506~S508においては、照合部216は、第一の実施形態の場合と同様に、S505で抽出した特徴量に基づいて追尾対象の人物か否かを判定する。
その後、S509において、照合部216は、S507またはS508の認識結果に応じた処理を実行する。第二の実施形態の場合、照合部216は、認識結果に基づいて、例えば、認識できている追尾対象を囲う矩形枠を、その追尾対象の動きに合わせて画面上に表示するような追尾表示処理を行う。
【0073】
第二の実施形態によれば、追尾対象の人物に対して第一または第二のモデルのいずれを用いるかを予め決定して登録しておくことで、人物追尾時に適切な学習モデルを用いて検出および追尾を行うことができる。これにより、追尾精度を維持しながら、高速な人物追尾を実現することができる。
【0074】
本発明は、上述の実施形態の一以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、一以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0075】
本実施形態の開示は、以下の構成、方法、およびプログラムを含む。
(構成1)
登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出手段と、
前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出手段と、
前記第一の特徴情報と第二の特徴情報とを比較する比較手段と、
前記比較手段による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録手段と、
を有することを特徴とする情報処理装置。
(構成2)
前記第二の抽出処理は、前記第一の抽出処理よりも、前記特徴情報を抽出する処理の演算量が少ない抽出処理であることを特徴とする構成1に記載の情報処理装置。
(構成3)
前記第二の抽出処理は、前記第一の抽出処理よりも、前記特徴情報を抽出するのに要する構成の規模が小さい抽出処理であることを特徴とする構成1または2に記載の情報処理装置。
(構成4)
前記第一の抽出手段は、学習により生成された第一のモデルを用いた前記第一の抽出処理によって前記第一の特徴情報の抽出を行い、
前記第二の抽出手段は、前記第一のモデルを用いた蒸留により生成された第二のモデルを用いた前記第二の抽出処理によって前記第二の特徴情報の抽出を行うことを特徴とする構成1乃至3のいずれか1構成に記載の情報処理装置。
(構成5)
前記第二の抽出手段は、前記第一のモデルを用いた蒸留によって生成された複数の第二のモデルを用いて、複数の第二の特徴情報の抽出を行い、
前記比較手段は、前記第一の特徴情報と前記複数の第二の特徴情報とをそれぞれ比較し、
前記登録手段は、前記比較手段による前記比較の結果を基に、前記第一のモデルを用いた第一の抽出処理、または、前記複数の第二のモデルを用いた複数の第二の抽出処理のうちのいずれかの第二の抽出処理を用いて照合処理を行うかを、前記登録対象と対応付けた登録情報を生成することを特徴とする構成4に記載の情報処理装置。
(構成6)
前記比較手段は、前記第一の特徴情報と第二の特徴情報との距離を算出し、
前記登録手段は、前記比較手段により算出された距離が所定の閾値以下である場合、前記第二の抽出処理を照合処理に用いるとすることを特徴とする構成1乃至5のいずれか1構成に記載の情報処理装置。
(構成7)
前記登録手段は、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを示す情報と、前記照合処理に用いるとされた前記第一の抽出処理または前記第二の抽出処理のいずれかで抽出された特徴情報とを、前記登録対象に固有の識別情報と対応付けた前記登録情報を生成することを特徴とする構成1乃至6のいずれか1構成に記載の情報処理装置。
(構成8)
前記登録対象を含む撮影画像を取得する画像取得手段と、
前記撮影画像から前記登録対象の画像を検出する検出手段と、を有し、
前記第一の抽出手段は、前記検出された前記登録対象の画像から前記第一の特徴量を抽出し、
前記第二の抽出手段は、前記検出された前記登録対象の画像から前記第二の特徴量を抽出することを特徴とする構成1乃至7のいずれか1構成に記載の情報処理装置。
(構成9)
所定の時期になったときに、前記画像取得手段は前記登録対象の新たな撮影画像を取得し、前記登録対象の新たな撮影画像を基に前記検出手段から前記登録手段までの処理を行って前記登録情報を更新することを特徴とする構成8に記載の情報処理装置。
(構成10)
前記所定の時期は季節が変化する時期、または日照時間が変化する時期であることを特徴とする構成9に記載の情報処理装置。
(構成11)
外的環境の変化を検知する検知手段を有し、
前記外的環境の変化が検知された場合、前記画像取得手段は前記登録対象の新たな撮影画像を取得し、前記登録対象の新たな撮影画像を基に前記検出手段から前記登録手段までの処理を行って前記登録情報を更新することを特徴とする構成8に記載の情報処理装置。
(構成12)
前記検知手段は、環境光の変化、前記登録対象の撮影画像を取得する撮像装置の設置場所の変化、前記撮像装置の画角の変化、前記撮像装置の周辺の物の配置の変化の、少なくともいずれかを前記外的環境の変化として検知することを特徴とする構成11に記載の情報処理装置。
(構成13)
前記登録対象の画像は人物の顔画像であることを特徴とする構成1乃至12のいずれか1構成に記載の情報処理装置。
(構成14)
認識対象を含む撮影画像から前記認識対象の画像を検出する検出手段と、
構成1乃至13のいずれか1構成に記載の情報処理装置によって登録された登録情報を取得する登録情報取得手段と、
前記登録情報取得手段により取得された登録情報に基づいて、前記認識対象の画像から特徴情報を抽出する抽出手段と、
前記抽出手段により抽出された特徴情報を用いて、前記認識対象が前記登録対象か否かを照合する照合手段と、
を有することを特徴とする情報処理装置。
(構成15)
前記認識対象の識別情報を取得する識別情報取得手段を有し、
前記登録情報取得手段は、前記登録情報が格納されたデータベースから、前記識別情報に応じて特定される登録対象の登録情報を取得することを特徴とする構成14に記載の情報処理装置。
(構成16)
前記検出手段は、前記識別情報にて特定される前記認識対象を追尾することを特徴とする構成15に記載の情報処理装置。
(方法1)
情報処理装置が実行する情報処理方法であって、
登録対象の画像に対して第一の抽出処理を行って、前記登録対象の特徴を表す第一の特徴情報を抽出する第一の抽出工程と、
前記登録対象の画像に対して第二の抽出処理を行って、前記第一の特徴情報と比較可能な第二の特徴情報を抽出する第二の抽出工程と、
前記第一の特徴情報と第二の特徴情報とを比較する比較工程と、
前記比較工程による前記比較の結果を基に、前記第一の抽出処理または前記第二の抽出処理のいずれを照合処理に用いるかを、前記登録対象と対応付けた登録情報を登録する登録工程と、
を有することを特徴とする情報処理方法。
(方法2)
情報処理装置が実行する情報処理方法であって、
認識対象を含む撮影画像から前記認識対象の画像を検出する検出工程と、
構成1乃至13のいずれか1構成に記載の情報処理装置によって登録された登録情報を取得する登録情報取得工程と、
前記登録情報取得工程により取得された登録情報に基づいて、前記認識対象の画像から特徴情報を抽出する抽出工程と、
前記抽出工程により抽出された特徴情報を用いて、前記認識対象が前記登録対象か否かを照合する照合工程と、
を有することを特徴とする情報処理方法。
(プログラム1)
コンピュータを、構成1乃至13のいずれか1構成に記載の情報処理装置として機能させるためのプログラム。
(プログラム2)
コンピュータを、構成14乃至16のいずれか1構成に記載の情報処理装置として機能させるためのプログラム。
【符号の説明】
【0076】
100:サーバ、110:情報処理装置、200:登録装置、203:第一の抽出部、204:第二の抽出部、205:比較部、206:登録部、213:識別情報取得部、214:登録情報取得部、215:抽出部、216:照合部
図1
図2
図3
図4
図5
図6