(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025001350
(43)【公開日】2025-01-08
(54)【発明の名称】サーバ装置、情報処理システム及び情報処理方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20241225BHJP
【FI】
G06T7/00 660A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023100875
(22)【出願日】2023-06-20
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】瀬古 顕子
(72)【発明者】
【氏名】祝 克人
(72)【発明者】
【氏名】村田 時生
(72)【発明者】
【氏名】永津 正浩
(72)【発明者】
【氏名】頓所 詩織
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA21
5L096DA01
5L096DA03
5L096FA09
5L096FA64
5L096FA67
5L096GA51
5L096KA03
5L096KA11
5L096MA07
(57)【要約】
【課題】大量の顔画像の一括登録後またはシステムが自動登録した顔画像の確認作業をより効率よく行うことができるサーバ装置、情報処理システム及び情報処理方法を提供する。
【解決手段】実施形態のサーバ装置は、顔画像登録制御部と検出部と適正度算出部と表示制御部とを備える。顔画像登録制御部は、人物の顔を含む顔画像の登録を受け付ける。検出部は、前記顔画像の特徴点を検出し、前記特徴点に基づき、前記顔画像から人物の顔を示す領域を検出する。適正度算出部は、前記人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する。表示制御部は、前記適正度が低い順に前記顔画像を確認する第1表示情報を、表示装置に表示する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
人物の顔を含む顔画像の登録を受け付ける顔画像登録制御部と、
前記顔画像の特徴点を検出し、前記特徴点に基づき、前記顔画像から人物の顔を示す領域を検出する検出部と、
前記人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する適正度算出部と、
前記適正度が低い順に前記顔画像を確認する第1表示情報を、表示装置に表示する表示制御部と、
を備えるサーバ装置。
【請求項2】
前記顔画像登録制御部は、複数の顔画像を一括で受け付け、
前記表示制御部は、前記複数の顔画像を、前記適正度が低い順に前記表示装置に表示する、
請求項1に記載のサーバ装置。
【請求項3】
前記検出部は、前記顔画像が辞書登録条件を満たすか否かを判定し、
前記第1表示情報は、前記辞書登録条件を満たさない顔画像をエラー表示するエラー画像領域と、前記適正度が低い順に前記顔画像を確認する確認領域とを含み、
請求項1又は2に記載のサーバ装置。
【請求項4】
前記確認領域は、前記適正度が閾値以下の顔画像を表示する注意画像領域と、前記適正度が前記閾値より高い正常画像領域とを含み、
前記表示制御部は、前記注意画像領域の次に、前記正常画像領域を表示する、
請求項3に記載のサーバ装置。
【請求項5】
前記表示制御部は、前記エラー画像領域を、警告を促す第1表示色で表示し、前記注意画像領域を、要確認を促す第2表示色で表示し、前記正常画像領域を、正常な顔画像であることを示す第3表示色で表示する、
請求項4に記載のサーバ装置。
【請求項6】
前記顔辞書には、1名につき、少なくとも1枚の顔画像が登録され、
前記第1表示情報は、複数の顔画像が前記顔辞書に登録されている人物については、前記適正度がより低い代表顔画像を含む、
請求項1又は2に記載のサーバ装置。
【請求項7】
前記表示制御部は、前記代表顔画像が選択された場合、前記代表顔画像を含む同一人物の複数の顔画像を確認する第2表示情報を更に表示し、
前記第2表示情報は、前記同一人物の複数の顔画像を前記適正度が低い順に表示する、
請求項6に記載のサーバ装置。
【請求項8】
前記適正度算出部は、前記人物の顔を示す領域から検出される目、鼻及び口の特徴点に基づき、前記適正度を算出する、
請求項1又は2に記載のサーバ装置。
【請求項9】
前記顔辞書に登録された顔画像の特徴量と、コンテンツデータに含まれる人物の顔の特徴量とを照合し類似度を算出する類似度算出部と、
前記類似度を示す情報と、前記類似度により特定された人物を示す情報とを含む出力情報を出力する出力制御部と、
を更に備える請求項1又は2に記載のサーバ装置。
【請求項10】
前記コンテンツデータは、リアルタイムに前記サーバ装置に入力される入力映像であり、
前記類似度算出部は、前記顔辞書に登録された顔画像の特徴量と、前記入力映像に含まれる人物の顔とを照合し類似度を算出する、
請求項9に記載のサーバ装置。
【請求項11】
前記コンテンツデータに含まれる人物の顔の特徴量に基づき、前記コンテンツデータに含まれる人物の顔画像を人物ごとに集約する顔クラスタリング処理部を更に備え、
前記適正度算出部は、前記人物ごとに集約された顔画像の適正度を算出し、
前記表示制御部は、前記人物ごとに集約された顔画像のうち前記適正度がより高い顔画像を代表顔画像として表示し、前記代表顔画像の選択操作によって、選択された前記代表顔画像の前記顔辞書への登録を受け付ける第3表示情報を更に表示する、
請求項9に記載のサーバ装置。
【請求項12】
前記第1表示情報を介して、削除対象の顔画像の指定と、新たな顔画像の登録とをユーザーから受け付けると、前記削除対象の顔画像を前記顔辞書から削除し、前記削除対象の顔画像を前記新たな顔画像に置き換えることによって、前記新たな顔画像を前記顔辞書に登録する記憶制御部、
を更に備える請求項1又は2に記載のサーバ装置。
【請求項13】
前記検出部は、前記顔画像が、顔を含む画像であるか否かを確認する辞書登録条件を満たすか否か判定し、
前記適正度算出部は、前記辞書登録条件を満たす顔画像の特徴点を検出し、前記特徴点に基づき、前記辞書登録条件を満たす顔画像から、人物の顔を示す領域を検出する、
請求項1又は2に記載のサーバ装置。
【請求項14】
クライアント装置とサーバ装置とを備え、
前記サーバ装置は、
人物の顔を含む顔画像の登録を受け付ける顔画像登録制御部と、
前記顔画像の特徴点を検出し、前記特徴点に基づき、前記顔画像から人物の顔を示す領域を検出する検出部と、
前記人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する適正度算出部と、
前記適正度が低い順に前記顔画像を確認する第1表示情報を、前記クライアント装置に表示する表示制御部と、を備え、
前記クライアント装置は、
前記第1表示情報を表示する表示部と、
前記第1表示情報に対する操作入力をユーザーから受け付ける入力部と、
を備える情報処理システム。
【請求項15】
サーバ装置が、人物の顔を含む顔画像の登録を受け付けるステップと、
前記サーバ装置が、前記顔画像の特徴点を検出し、前記特徴点に基づき、前記顔画像から人物の顔を示す領域を検出する検出部と、
前記サーバ装置が、前記人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する適正度算出部と、
前記サーバ装置が、前記適正度が低い順に前記顔画像を確認する第1表示情報を、表示装置に表示する表示制御部と、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態はサーバ装置、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
顔認識システムでは、対象人物の顔が映った顔画像と、当該顔画像から生成された特徴量と、名前等とをセットにして、事前に辞書として登録しておく必要がある。高い顔認識を実現するためには、顔認識のエンジンの特性に合致した顔画像を登録することが望ましいため、顔画像の登録条件を設定している。しかし、特に映像コンテンツのメタ情報生成などの用途では、認識したい人物の顔画像を事前に準備することに多くの時間を要し、また、その顔画像の品質も多種多様であるため登録する辞書の条件にある程度の余裕を持たせ、顔画像を登録できるよう設計されている。
【0003】
顔画像に映る顔のサイズ、画質、及び、顔の検出ができないなどの辞書登録の条件を満たさない顔画像については、辞書登録失敗となり辞書登録ができないため顔認識の精度に影響を及ぼすことはないが、顔画像の条件に余裕を持たせたことにより、正常に登録できた顔画像の中に稀に、顔が傾いて映っていたり、画質が著しく悪い顔画像などが混在したり、顔以外の画像が登録されたりすることがある。これにより、当該人物本人の認識ができないことに加え、特に顔以外の画像が誤って登録された場合には過検出により背景を誤認識することが頻発するなど、当該辞書を利用して行った顔認識の全体としての精度に著しく影響を与えていた。このため、顔画像の登録後の確認作業は必須である。例えば、放送番組等の映像コンテンツの顔認識では、数百から数万に及ぶ顔画像を辞書登録する場合があるため、一括で辞書の登録を行うが、大量の画像の目視確認は作業者の負担が大きく時間を要するため、確認作業の負荷軽減が求められていた。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、大量の顔画像の一括登録後またはシステムが自動登録した顔画像の確認作業をより効率よく行うことができるサーバ装置、情報処理システム及び情報処理方法を提供することである。
【課題を解決するための手段】
【0006】
実施形態のサーバ装置は、顔画像登録制御部と検出部と適正度算出部と表示制御部とを備える。顔画像登録制御部は、人物の顔を含む顔画像の登録を受け付ける。検出部は、前記顔画像の特徴点を検出し、前記特徴点に基づき、前記顔画像から人物の顔を示す領域を検出する。適正度算出部は、前記人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する。表示制御部は、前記適正度が低い順に前記顔画像を確認する第1表示情報を、表示装置に表示する。
【図面の簡単な説明】
【0007】
【
図1】
図1は、第1実施形態の情報処理システムの装置構成の例を示す図である。
【
図2】
図2は、第1実施形態のクライアント装置の機能構成の例を示す図である。
【
図3】
図3は、第1実施形態のサーバ装置の機能構成の例を示す図である。
【
図4】
図4は、第1実施形態の顔辞書テーブルの例を示す図である。
【
図5】
図5は、第1実施形態の顔情報テーブルの例を示す図である。
【
図6】
図6は、第1実施形態の表示情報の例1を示す図である。
【
図7】
図7は、第1実施形態の表示情報の例2を示す図である。
【
図8】
図8は、第1実施形態の情報処理方法の例を示すシーケンス図である。
【
図9】
図9は、第1実施形態の情報処理方法の例を示すシーケンス図である。
【
図10】
図10は、第1実施形態の効果を説明するための図である。
【
図11】
図11は、第1実施形態の変形例の表示情報の例を示す図である。
【
図12】
図12は、第1及び第2実施形態のサーバ装置のハードウェア構成の例を示す図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、サーバ装置、情報処理システム及び情報処理方法の実施形態を詳細に説明する。
【0009】
(第1実施形態)
はじめに、第1実施形態の情報処理システムの装置構成の例について説明する。
【0010】
[装置構成の例]
図1は、第1実施形態の情報処理システム100の装置構成の例を示す図である。第1実施形態の情報処理システム100は、クライアント装置1とサーバ装置2とを備える。
【0011】
クライアント装置1では、サーバ装置2のWeb API(Application Programming Interface)、及び、Webアプリケーション等と通信するAPIクライアント及びWebクライアントが動作する。クライアント装置1とサーバ装置2との通信は、例えば、Web API及びソケット通信I/Fなどを用いて行われる。
【0012】
例えば、クライアント装置1は、業務用PC、放送用機器、ノンリニア編集システム、アーカイブシステム、素材管理システム、CG(Computer Graphics)システム及び契約管理システムなどである。
【0013】
例えば、サーバ装置2は、たとえばSDIやHDMI(登録商標)などのデジタル映像インタフェース等による入力によって、入力映像(コンテンツデータの一例)を受け付ける。例えば、サーバ装置2は、放送局において、複数の中継拠点からの入力映像から、あらかじめ登録した顔辞書を用いて、当該映像に含まれる人物を即座に特定するリアルタイム解析を行う。
【0014】
また例えば、サーバ装置2は、クライアント装置1からの映像ファイルのアップロードによって、入力映像を受け付ける。
【0015】
また、サーバ装置2は、顔辞書に登録される顔画像の追加、変更または削除のための確認を支援する表示情報を、クライアント装置1に表示する。
【0016】
[機能構成の例]
図2は、第1実施形態のクライアント装置1の機能構成の例を示す図である。第1実施形態のクライアント装置1は、入力部11、表示部12、通信部13及び記憶部14を備える。
【0017】
入力部11は、サーバ装置2から送信されたリアルタイムの表示情報に対する操作入力をユーザーから受け付ける。また、サーバ装置2に対し、サーバ装置2が提供するAPIを用いて、記憶部14に記憶されている映像コンテンツファイルの顔認識処理を要求し、サーバ装置2から送信されたオフラインの表示情報に対する操作入力をユーザから受け付ける。表示部12は、サーバ装置2から送信された表示情報を表示する。通信部13は、有線通信又は無線通信によってサーバ装置2と通信する。記憶部14は、クライアント装置1で使用される情報を記憶する。
【0018】
図3は、第1実施形態のサーバ装置2の機能構成の例を示す図である。第1実施形態のサーバ装置2は、顔画像登録制御部21、コンテンツ登録制御部22、検出部23、適正度算出部24、抽出部25、記憶制御部26、表示制御部27、類似度算出部28及び出力制御部29を備える。
【0019】
顔画像登録制御部21は、クライアント装置1などから、情報処理システム100において特定したい人物の情報を顔辞書DBへ登録する人物登録情報を受け付ける。人物登録情報は、当該人物の顔画像、名前及びプロパティなどを含む。顔画像は、顔辞書DBへ登録される人物の顔を含む画像である。名前は、顔画像に写っている人物の名前等、その人物を特定する情報である。プロパティは、例えばその人物がグループで活動している場合は、そのグループ名、顔画像ファイルを特定するパスなどの補足情報である。
【0020】
顔認識のためにあらかじめ準備する顔辞書DBの登録件数は、その用途によって異なる。例えば、国政に関わるイベントの場合、顔辞書DBの登録件数は、数百件から数千件に及ぶこともある。例えば、放送局等のアーカイブ映像にメタ情報を付与する場合、顔辞書DBの登録件数は、数万件に及ぶこともある。これらの場合、顔情報を登録するためのアプリケーションの画面から人が1件ずつ手動で登録すると時間がかかる。そのため、コンテンツ登録制御部22は、csv(Comma Separated Value)ファイルなどによるリストによって一括で複数の人物登録情報を受け付ける。
【0021】
コンテンツ登録制御部22は、映像コンテンツ及び画像ファイルなど、顔認識を行いたいコンテンツデータを含むコンテンツ登録情報を受け付ける。コンテンツデータが映像コンテンツの場合、コンテンツ登録制御部は、映像コンテンツから連続的な静止画を生成する。連続的な静止画の生成は、たとえば5fps(0.2秒に1枚)など、あらかじめ設定した間隔での切出しでもよい。
【0022】
検出部23は、顔画像登録制御部21から人物登録情報の顔画像を受け付け、コンテンツ登録制御部22からコンテンツ登録情報の映像コンテンツから切出された静止画を受け付ける。検出部23は、人物登録情報に含まれる顔画像の特徴点を検出し、当該特徴点に基づき、顔画像から人物の顔を示す領域を検出する。同様に、検出部23は、コンテンツ登録情報に含まれるコンテンツデータから切出された静止画に映る人物の顔の特徴点を検出し、当該特徴点に基づき、コンテンツデータから切出された静止画に映る人物の顔を示す領域を検出する。
【0023】
なお、人物の顔を示す領域の形状は任意でよく、人物の顔を示す領域は、例えば矩形領域である。また、検出される人物は切出された一つの静止画に対して1人又は複数でよく、検出する人数や検出する顔の領域の大きさをあらかじめ設定してもよい。
【0024】
適正度算出部24は、人物登録情報の顔画像から検出された顔を示す領域を参照し、顔辞書DBに登録される顔画像としての適正度を算出する。例えば、適正度は、数値が高いほど適正であることを示す0~100の数値で表される。また例えば、適正度は、数値が高いほど適正であることを示す0.0~1.0の数値で表される。
【0025】
適正な顔画像は、当該人物本人の認識ができ、また、過検出によって背景などを誤認識させることがない顔画像である。例えば、顔が傾いて映っていない顔画像は、顔辞書DBに登録される顔画像として適正である。また例えば、画質が良い顔画像は、顔辞書DBに登録される顔画像として適正である。また例えば、顔以外の画像は、顔辞書DBに登録される顔画像として不適正である。
【0026】
本実施対形態では、適正度の算出を、顔辞書DBの登録処理に含むため、特に数百~数万件の辞書を登録する用途においては、処理時間は可能な限り短いことが望ましい。
【0027】
具体的には、適正度算出部24は、人物の顔を示す領域から検出される目、鼻及び口の特徴点に基づき、適正度を算出する。例えば、適正度は、人物の顔を示す領域から特定された目、鼻及び口端(口角)の5点の特徴点(両目で2点、鼻で1点、口角で2点)に基づき算出される。具体的には、例えば、適正度は、特徴点の検出スコアの平均、最小値及び最大値等に基づいて算出される。また例えば、適正度は、検出された特徴点の数に基づいて算出される。
【0028】
例えば、正面に近い角度から撮像されている顔ほど、人物の特定に有用なため、正面に近い角度から撮像されている顔ほど、適正度は高く算出される。また例えば、マスクやサングラスなどにより隠れているなどの理由で、顔を特定できない領域が多く含まれているほど、適正度は低く算出される。
【0029】
抽出部25は、顔画像から検出された顔を示す領域から、当該顔の特徴を示す顔特徴量を抽出する。同様に、抽出部25は、コンテンツデータから検出された顔を示す領域から、当該顔の特徴を示す顔特徴量を抽出する。
【0030】
記憶制御部26は、顔辞書DBに登録される人物登録情報および抽出部25より抽出した当該人物の顔特徴量の記憶制御と、コンテンツDBに登録されるコンテンツ登録情報の記憶制御とを行う。
【0031】
表示制御部27は、クライアント装置へ表示される表示情報の表示制御を行う。例えば、表示制御部27は、顔画像を顔辞書DBに一括登録した結果を、適正度が低い人物から順に表示する表示情報をクライアント装置に表示する。
【0032】
類似度算出部28は、顔辞書DBに登録された顔画像の特徴量と、コンテンツDBに記憶されたコンテンツデータに含まれる人物の顔の特徴量を照合し類似度を算出する。
【0033】
出力制御部29は、例えば、顔辞書DBに含まれる情報と、コンテンツDBに含まれる情報と、類似度算出部28により算出された類似度と、を含む解析結果(出力情報)の出力制御を行う。この解析結果は、例えば、放送局により放映される映像等のコンテンツデータに含まれる個人の特定に利用される。
【0034】
顔クラスタリング処理部30は、抽出部25で抽出した顔特徴量に基づき、コンテンツに映る人物の顔画像を人物ごとに集約する。この処理結果から、適正度算出部24により算出された適正度により、クラスタの代表顔画像が抽出される。クラスタの代表顔画像は、例えば放送局により放映される映像等のコンテンツに出演する出演者の一覧の作成に利用される。また、顔辞書に登録されていない人物については、この代表顔画像を顔辞書登録用の画像としてもよい。
【0035】
[顔辞書のテーブル構造の例]
図4は、第1実施形態の顔辞書テーブルの例を示す図である。第1実施形態の顔辞書テーブルは、辞書ID、辞書名、登録件数及び更新日時を含む。辞書IDは、辞書を識別する識別情報である。辞書名は、顔辞書の名称である。登録件数は、顔辞書に登録されている顔情報の件数である。更新日時は、辞書が更新された日時である。顔辞書DBは、複数登録でき、顔認識を行う映像コンテンツ又は画像ファイルごとに切り替えて利用できてもよい。
【0036】
図5は、第1実施形態の顔情報テーブルの例を示す図である。第1実施形態の顔情報テーブルは、1以上の顔情報レコードを含む。顔辞書に登録された顔情報は、顔情報レコードにより管理される。
【0037】
顔情報レコードは、顔ID、名前及び更新日時の各項目を含む。顔IDは、顔情報レコードを識別する識別情報である。名前は、顔IDにより特定される人物の名前等である。更新日時は、顔IDにより特定されるデータが更新された日時である。
【0038】
また、顔情報レコードの顔IDには、原則1名につき1つの顔画像レコードが紐づけられるが、2以上の顔画像レコードが紐づけられてもよい。それぞれの顔画像レコードは、顔ID、画像ID、エラー、適正度、顔特徴量、ファイルパス及び更新日時の各項目を含む。顔IDは、顔情報レコードの顔IDと紐づけられる識別情報である。画像IDは、顔画像を識別する識別情報である。
【0039】
エラーは、顔辞書DBに登録した顔画像が、顔辞書DBの条件を満たさないまたは、顔検出部、抽出部等において顔認識の処理中に何らかのエラーが生じた場合に、当該エラーを示す情報である。例えば、csvエラーは、csvファイルなどによるリストによって一括で人物登録情報が受け付けられた際に、適正度算出部24により算出された適正度が、所定の閾値より低い顔画像(例えば、不鮮明な画像など)であることを示す。適正度は、当該顔画像の辞書登録の適正度を示す。
【0040】
顔特徴量は、抽出部25により抽出された顔特徴量が記録される。ファイルパスは、顔画像ファイルを参照するためのパスの所在を表す情報である。更新日時は、顔画像レコードが作成又は更新された日時である。
【0041】
[表示情報の例]
図6は、第1実施形態の表示情報の例1を示す図である。
図6の表示情報は、顔辞書DBに登録された顔情報の顔画像の確認画面の例を示す。
【0042】
1行目及び2行目のエラー画像領域101に表示された顔IDが000012及び000010の顔情報は、エラーが発生しているデータ(
図6の例では、csvエラー)を示す。エラー画像領域101は、確認画面が表示された時点で発生している全てのエラー情報を表示し、利用者によるエラーの解消のための操作を促すものである。エラーが解消されると、当該顔情報は正常画像領域103に表示される。エラー画像領域101は、エラー未発生またはすべてのエラーが解消されている場合には、表示されない。
【0043】
3行目及び4行目の注意画像領域102に表示された顔IDが000013及び000009の顔情報は、適正度があらかじめ設定した適正度の閾値である70より小さいため、登録した顔画像の目視での確認が必要なデータを示す。
図6に示すように、注意画像領域102には、適正度が閾値以下の顔画像が表示される。注意画像領域102は、全ての顔画像の適正度が適正度の閾値を上回る画像が登録されている場合には、表示されない。また、たとえば、適正度が閾値を下回る画像であっても、目視による確認の結果顔辞書DBに登録する画像として相応の場合には顔画像の再登録を行う必要はなく、目視確認の実施により、当該顔情報は正常顔画像領域103に表示されるようにしてもよい。
【0044】
5行目の正常画像領域103に表示された顔IDが000011の顔情報は、適正度が94.2である正常なデータを示す。
図6に示すように、正常画像領域103には、適正度が閾値より高い顔画像が表示される。
【0045】
図6に示すように、表示制御部27は、まず、エラーが発生しているデータを、第1表示色で最上位のエラー画像領域101に表示し、次に、エラー画像領域101の下の注意画像領域102に、注意が必要な要確認のデータを第1表示色とは異なる第2表示色で表示し、次に、注意画像領域102の下の正常画像領域103に、正常なデータを第3表示色で表示する。注意画像領域102および正常画像領域103は、それぞれの領域において適正度が低い順に表示される。これにより、ユーザーは、対応が必要な顔画像とその優先度を即座に把握できるため、顔画像登録後の確認作業をより効率よく行うことができる。
【0046】
図7は、第1実施形態の表示情報の例2を示す図である。
図6の表示情報は、顔IDに複数、登録されている顔画像の確認画面の例を示す。顔辞書には、1名につき、少なくとも1枚の顔画像が登録される。表示制御部27は、複数の顔画像が顔辞書に登録されている人物については、適正度がより低い代表顔画像を含む第1表示情報を表示する。
【0047】
複数の顔画像のうち、1枚でもエラーが含まれていれば、エラー画像領域201に示されるように、当該エラーが表示される。当該エラーが発生している顔画像(代表顔画像)は、顔辞書DBの登録条件を満たさないため顔画像は表示されない。
【0048】
更に、表示制御部27は、エラー画像領域201に表示された顔ID000008の顔情報の選択操作を受け付けると、当該顔ID000008に登録された顔画像を確認する表示情報301(第2表示情報)を表示する。なお、表示情報301の例では、エラーのため、登録済みの画像はない。
【0049】
表示領域202に表示された顔ID000006の顔情報の画像数は、2であるので、顔ID000006には2枚の顔画像が登録されている。表示制御部27は、複数の顔画像が登録されている場合、表示領域202に示されるように、適正度がより低い画像(代表顔画像)と、当該適正度とを表示する。更に、表示制御部27は、表示注意画像領域202に表示された顔ID000006の顔情報の選択操作を受け付けると、当該顔ID000006に登録された2枚の顔画像を確認する表示情報302(第2表示情報)を表示する。表示情報302では、同一人物の複数の顔画像が、適正度が低い順に表示される。また、適正度を下回るデータについては、第2表示色で表示してもよい。
【0050】
利用者は、必要に応じて当該画像を削除し、顔辞書DBの登録条件を満たす顔画像を新たに登録することで、当該顔データは注意画像領域202から正常画像領域に移行する。すなわち、記憶制御部26は、表示情報302を介して、削除対象の顔画像の指定と、新たな顔画像の登録と、をユーザーから受け付けると、削除対象の顔画像を顔辞書DBから削除し、削除対象の顔画像を新たな顔画像に置き換えることによって、新たな顔画像を顔辞書DBに登録する。
【0051】
なお、削除対象の顔画像の指定と、新たな顔画像の登録とは、
図7に示す表示情報301及び302(第2表示情報)によって受け付けてもよいし、
図6に示す表示情報(第1表示情報)から、直接、受け付けてもよい。
【0052】
[情報処理方法の例]
図8及び
図9は、第1実施形態の情報処理方法の例を示すシーケンス図である。はじめに、顔画像登録制御部21が、上述の人物登録情報のリスト(例えば、上述のcsvファイル)を登録し(ステップS1)、当該リストを検出部23及び記憶制御部26に入力する。
【0053】
次に、検出部23が、ステップS1で登録された人物登録情報に含まれる顔画像のそれぞれについて、辞書登録条件を満たすか否かを判定する(ステップS2)。例えば、辞書登録条件は、顔を含む画像であるか否かを確認する条件を含む。具体的には、辞書登録条件は、顔の大きさ、及び、顔の鮮明さ(例えば、解像度)及び、顔の向き(例えば目の特徴点の近さ等から算出する顔の確度)などに関する条件である。辞書登録の条件は、多種多様な顔画像の品質に対応できるよう余裕を持たせることが望ましいため、辞書登録に適する最低限の条件を設定する。辞書登録用の顔画像の事前準備の手間の軽減とともに、より多くの人物の顔画像の辞書登録が可能となる。
【0054】
辞書登録の条件に余裕を持たせることによる多種多様な顔画像の品質への対応より、辞書登録後の作業の軽減を優先する場合には、辞書登録条件に適正度算出部24で算出された適正度を利用してもよい。適正度に閾値を設定し、顔が検出されておりかつ閾値以上を辞書登録の条件としてもよい。
【0055】
顔画像が辞書登録条件を満たさない場合(ステップS2,No)、表示制御部27が、例えば上述の
図6に示すエラー画像領域101に表示されるエラー表示情報を生成する(ステップS9)。
【0056】
顔画像が辞書登録条件を満たす場合(ステップS2,Yes)、検出部23が、顔画像の特徴点を検出し、当該特徴点に基づき、顔画像から人物の顔を示す領域を検出する(ステップS3)。
【0057】
次に、適正度算出部24が、ステップS3で顔画像から検出された顔を示す領域を参照し、顔辞書に登録される顔画像としての適正度を算出し(ステップS4)、当該適正度を顔辞書に登録する(ステップS5)。
【0058】
次に、抽出部25が、ステップS3で顔画像から検出された顔を示す領域を参照し、当該顔の特徴を示す顔特徴量を抽出(ステップS6)し、当該顔特徴量を顔辞書に登録する(ステップS7)。
【0059】
一方、記憶制御部26は、ステップS1で生成された人物登録情報に含まれる顔画像以外の情報(例えば、文字数など)について、辞書登録条件を満たすか否かを判定する(ステップS8)。ステップS8の判定では、例えば、顔辞書DBのレコードの各フィールドに登録される情報が、各フィールドで許容されている文字数以下であるか否か、禁止文字が含まれていないかなどの判定が行われる。
【0060】
顔画像以外の情報が、辞書登録条件を満たさない場合(ステップS8,No)、表示制御部27が、例えば上述の
図6に示すエラー画像領域101に表示されるエラー表示情報を生成する(ステップS9)。
【0061】
次に、表示制御部27が、ステップS4で算出された適正度、及び、ステップS9で生成されたエラー表示情報に基づき、ステップS1で生成された人物登録情報のリストに含まれる顔画像の表示順序を並び替える(ステップS10)。
【0062】
具体的には、表示制御部27は、顔画像にエラーが発生している場合(ステップS11,Yes)、ステップS9で生成されたエラー表示情報を、警告を促す第1表示色で表示情報の最前列(例えば、上述の
図6に示すエラー画像領域101のように最上段)に表示する(ステップS12)。顔画像登録制御部21は、ステップS12により表示された表示情報を参照したユーザーから、顔画像の再登録操作を受け付けた場合、当該顔画像の再登録を行い(ステップS17)、処理はステップS2に戻る。
【0063】
次に、表示制御部27は、適正度が閾値以下の顔画像である場合(ステップS13,Yes)、ステップS12のエラー表示の次に、例えば、上述の
図6に示す注意画像領域102のように、要確認を促す第2表示色で適正度が低い順に表示する(ステップS14)。顔画像登録制御部21は、ステップS14により表示された表示情報を参照したユーザーから、顔画像の再登録操作を受け付けた場合、当該顔画像の再登録を行い(ステップS17)、処理はステップS2に戻る。
【0064】
次に、表示制御部27は、適正度が閾値より高い顔画像である場合(ステップS13,No)、ステップS15の注意表示の次に、例えば、上述の
図6に示す正常画像領域103のように、正常な顔画像であることを示す第3表示色で適正度が低い順に表示する(ステップS16)。
【0065】
以上、説明したように、第1実施形態のサーバ装置2では、顔画像登録制御部21が、人物の顔を含む顔画像の登録を受け付ける。検出部23が、顔画像の特徴点を検出し、特徴点に基づき、顔画像から人物の顔を示す領域を検出する。適正度算出部24が、人物の顔を示す領域から検出される情報に基づき、顔辞書に登録される顔画像の適正度を算出する。そして、表示制御部27が、適正度が低い順に顔画像を確認する第1表示情報を、クライアント装置1(表示装置の一例)に表示する。
【0066】
これにより第1実施形態によれば、利用者はシステムが絞り込んだ登録画像をその優先度に応じて確認すればよいため、顔画像の登録後の確認作業をより効率よく行うことができる。
【0067】
図10は、第1実施形態の効果を説明するための図である。人物の誤認識等の要因となる著しく画像品質の悪い顔画像など辞書登録に適さない画像を正確に評価できる指標が算出でき、その指標に基づき辞書登録の可否を判定できることが好ましいが、画像品質には顔の向き、画質、及び、顔の隠蔽度などの複雑な要素が関係しており、顔辞書の条件に余裕を持たせた本実施形態の用途では、現時点のAI(Artificial Intelligence)技術では登録可否を自動的に判定するに至っておらず、目視での顔画像の確認が必要である。
【0068】
図10に示すように、従来は、登録画像のどこに確認すべき画像が表示されているかがわからなかったため、目視で登録画像を全て確認する必要があったが、上述の第1実施形態によれば、適正度がより低い登録画像の確認を優先し、適正度がより高い登録画像(
図10の例では、適正度が0.8以上の正常画像領域401)の確認は優先度を下げるもしくは省略することができる。これにより、顔画像の登録後のユーザーによる確認作業の負荷を改善することができる。
【0069】
例えば、従来は、数万件の顔画像の登録が必要な場合に、登録後、数万件の顔画像の目視作業が必要になる場合があったが、辞書登録に適正である画像が適正度により可視化されることで、確認が必要な画像の絞り込みと優先度の設定が可能となる。
【0070】
また、この副次効果としては、顔画像の登録後のユーザーによる確認作業を支援できるので、顔辞書に登録される顔画像の品質に関する辞書登録条件をさらに緩和することができる。これにより、顔画像を準備するユーザーの負荷も軽減できる。すなわち、顔辞書に相応しい画像の入手が難しいケース(例えば、テレビ等の映像コンテンツの顔認識のケース)でも、エラーを抑えて辞書登録を許容し、制約のより少ない顔画像によって顔辞書を整備し、より広い範囲での顔認識を提供できる。
【0071】
また、不適切な画像登録を排除できるため、不適正な画像が混入することによるシステム全体としての著しい精度の低下の防止できる。また、万が一不適正な画像が混入した場合でも、上述のエラー表示(例えば、上述の
図6のエラー画像領域101)、及び、適正度に基づくソート表示(例えば、上述の
図6の注意画像領域102及び正常画像領域103を含む確認領域)によって、早期に原因の追究が図れる。
【0072】
(第1実施形態の変形例)
次に第1実施形態の変形例について説明する。変形例の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
【0073】
例えば、テレビ番組に、当該テレビ番組の出演者などを示すメタ情報を付与する目的で、人物の顔認識を利用する場合には、その人物の幼少期から現在に至る長期にわたる顔認識を行う必要がある。変形例では、このような場合に対応するため、顔辞書DBが、同一人物に対して、複数の時期(年代)の本人の顔画像を記憶する。
【0074】
記憶制御部26による顔画像の更新方法としては、例えば、登録されたどの顔画像を用いても、1つの映像を通して、認識精度が平均よりも低い場合等に顔画像を更新する方法が考えられる。この場合、表示制御部27が、認識精度が平均よりも低い場合、その映像から認識された当該人物の画像から代表顔画像を選定し、自動で顔辞書DBに登録する。この代表顔画像の選定に、適正度を利用してもよいし、又は何らかの手段で選定された代表顔画像の確認を、適正度を利用して利用者に提示してもよい。これにより、辞書の自動更新と更新後の確認作業の効率化により、ユーザーは最低限の確認作業で高い精度の顔認識を利用し続けることができる。
【0075】
例えば、変形例では、過去のテレビ番組において、そのすべての出演者が把握できていない場合、映像に映る人物の顔をクラスタリングすることで、すべての出演者を把握する手法が用いられる。
【0076】
図11は、第1実施形態の変形例の表示情報の例を示す図である。
図11の例では、顔クラスタリング処理部30が、コンテンツデータに含まれる人物(例えば、テレビ番組の出演者)の顔の特徴量に基づき、当該コンテンツデータに含まれる人物の顔画像を人物ごとに集約(クラスタリング)する。
【0077】
クラスタリングで得られた出演者の一覧をもとに、認識したい出演者を顔辞書DBに登録するが、この代表顔画像401の選定に、適正度を利用してもよいし、又は何らかの手段で選定された代表顔画像401の確認を、適正度を利用して利用者に提示してもよい。
【0078】
例えば、代表顔画像401の選定に適正度が利用される場合、適正度算出部24が、顔クラスタリング処理部30によって人物ごとに集約された顔画像の適正度を算出する。表示制御部27が、人物ごとに集約された顔画像のうち適正度がより高い顔画像を代表顔画像401として表示する表示情報(第3表示情報)を表示する。そして、表示制御部27が、第3表示情報における代表顔画像401の選択操作によって、選択された代表顔画像401の顔辞書DBへの登録を受け付ける(表示情報402)。なお、表示制御部27は、人物ごとに集約された顔画像のうち適正度がより高い顔画像を代表顔画像として、例えば第3表示情報を出さず上記選択操作を経ずに、顔辞書への登録を自動的に行っても良い。これによれば、辞書登録用の顔画像の事前準備なしに、クラスタリングによりコンテンツデータに含まれる人物のうち辞書未登録の人物の代表画像を効率的に顔辞書へ登録することができる。
【0079】
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。第2実施形態では、入退室管理システムなどの顔認証で使用される顔画像の追加及び更新などの管理を行う場合について説明する。
【0080】
第2実施形態のサーバ装置2では、顔辞書DBが、入退室管理システムなどの顔認証で使用される顔画像を記憶する。そして、表示制御部27が、上述の第1実施形態の表示情報(
図6)と同様の確認画面の表示制御をすることによって、管理者などのユーザーが顔画像を確認できるようにする。
【0081】
第2実施形態では、類似度算出部28は、顔辞書DBの顔画像と、顔認証時に撮像された人物の顔の撮像画像との類似度を算出する。
【0082】
なお、入退室管理システムなどの顔認証の場合には、人物の経年変化などが理由で、顔辞書DBの顔画像と、本人の撮像画像との類似度が低下してくる場合が想定される。例えば、類似度算出部28は、算出された類似度の履歴を、顔辞書DBに更に記憶しておき、類似度の推移の傾向を把握できるようにしてもよい。
【0083】
そして、表示制御部27は、類似度が低下傾向にあり、かつ、類似度が所定の閾値より小さくなった場合、例えば、類似度算出部28で使用された当該人物の最新の撮像画像により、顔画像を置き換える場合、辞書登録に最も適当な代表顔画像を適正度を利用して選定してもよいし、又は何らかの手段で選定された代表顔画像の確認を適正度を利用して利用者に提示してもよい。
【0084】
最後に、第1及び第2実施形態のサーバ装置2のハードウェア構成の例について説明する。なお、クライアント装置1のハードウェア構成の例についても、サーバ装置2のハードウェア構成の例と同じである。
【0085】
[ハードウェア構成の例]
図12は、第1及び第2実施形態のサーバ装置2のハードウェア構成の例を示す図である。サーバ装置2は、プロセッサ501、主記憶装置502、補助記憶装置503、表示装置504、入力装置505及び通信装置506を備える。プロセッサ501、主記憶装置502、補助記憶装置503、表示装置504、入力装置505及び通信装置506は、バス510を介して接続されている。
【0086】
なお、サーバ装置2は、上記構成の一部が備えられていなくてもよい。例えば、サーバ装置2が、外部の装置の入力機能及び表示機能を利用可能な場合、サーバ装置2に表示装置504及び入力装置505が備えられていなくてもよい。
【0087】
プロセッサ501は、補助記憶装置503から主記憶装置502に読み出されたプログラムを実行する。主記憶装置502は、ROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリである。補助記憶装置503は、HDD(Hard Disk Drive)及びメモリカード等である。
【0088】
表示装置504は、例えば液晶ディスプレイ等である。入力装置505は、サーバ装置2を操作するためのインタフェースである。なお、表示装置504及び入力装置505は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置506は、クライアント装置1などの他の装置と通信するためのインタフェースである。
【0089】
例えば、サーバ装置2で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、CD-RW、CD-ROM、CD-R、DVD-RAM及びDVD-R等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
【0090】
また例えば、サーバ装置2で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
【0091】
また例えば、サーバ装置2で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、例えばASP(Application Service Provider)型のクラウドサービスによって構成してもよい。
【0092】
また例えば、サーバ装置2のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0093】
サーバ装置2で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ501が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置502上にロードされる。すなわち上記各機能ブロックは主記憶装置502上に生成される。
【0094】
なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
【0095】
また複数のプロセッサ501を用いて各機能を実現してもよく、その場合、各プロセッサ501は、各機能のうち1つを実現してもよいし、各機能のうち2つ以上を実現してもよい。
【0096】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0097】
1 クライアント装置
11 入力部
12 表示部
13 通信部
14 記憶部
2 サーバ装置
21 顔画像登録制御部
22 コンテンツ登録制御部
23 検出部
24 適正度算出部
25 抽出部
26 記憶制御部
27 表示制御部
28 類似度算出部
29 出力制御部
100 情報処理システム
501 プロセッサ
502 主記憶装置
503 補助記憶装置
504 表示装置
505 入力装置
506 通信装置
510 バス