IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKサービスセンターの特許一覧

特許7580178顔認識用学習データ生成装置およびそのプログラム
<>
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図1
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図2
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図3
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図4
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図5
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図6
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図7
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図8
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図9
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図10
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図11
  • 特許-顔認識用学習データ生成装置およびそのプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-31
(45)【発行日】2024-11-11
(54)【発明の名称】顔認識用学習データ生成装置およびそのプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241101BHJP
【FI】
G06T7/00 350B
G06T7/00 660A
【請求項の数】 8
(21)【出願番号】P 2021029583
(22)【出願日】2021-02-26
(65)【公開番号】P2021136038
(43)【公開日】2021-09-13
【審査請求日】2024-01-05
(31)【優先権主張番号】P 2020031400
(32)【優先日】2020-02-27
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】望月 貴裕
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】苗村 昌秀
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2020-009300(JP,A)
【文献】特開2010-225115(JP,A)
【文献】特開2011-070408(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
キーワードと階層化されたカテゴリとを対応付けたデータセットから、顔認識用学習データを生成する顔認識用学習データ生成装置であって、
前記データセットから人物名のキーワードを抽出する人物キーワード抽出手段と、
前記データセットから人物を特定するキーワードに対応する階層化された前記カテゴリをカテゴリ情報として抽出するカテゴリ情報抽出手段と、
前記人物を特定するキーワードに関連する文書を収集する収集手段と、
前記文書に含まれる画像から顔認識により顔画像を抽出する顔画像抽出手段と、
前記顔画像から特徴量を抽出する特徴量抽出手段と、
前記特徴量を抽出した顔画像を含む前記文書に基づいて、前記特徴量と前記キーワードで特定された人物との関連度を前記特徴量に対応付けて設定する関連度設定手段と、
前記顔画像の特徴量をクラスタリングするクラスタリング手段と、
クラスタリングされた各クラスに属する特徴量に設定された前記関連度に基づいて、前記各クラスが前記特定された人物に対応するクラスか否かを判定する判定手段と、
前記人物を特定するキーワードごとに、前記特定された人物に対応すると判定されたクラスに属する特徴量と、前記カテゴリ情報とを統合して前記顔認識用学習データを生成するデータ統合手段と、
を備えることを特徴とする顔認識用学習データ生成装置。
【請求項2】
前記人物キーワード抽出手段は、人物を同定する予め定めた文字列を含むカテゴリに対応するキーワードを、前記人物名のキーワードとして抽出することを特徴とする請求項1に記載の顔認識用学習データ生成装置。
【請求項3】
前記カテゴリ情報抽出手段は、前記階層化されたカテゴリを木構造グラフで表した前記カテゴリの位置情報を前記カテゴリ情報に付加することを特徴とする請求項1または請求項2に記載の顔認識用学習データ生成装置。
【請求項4】
前記関連度設定手段は、前記文書が前記人物名を見出し語とするWeb文書である場合、前記関連度を増加させることを特徴とする請求項1から請求項3のいずれか一項に記載の顔認識用学習データ生成装置。
【請求項5】
前記関連度設定手段は、前記文書に前記人物名を示すタグが含まれている場合、前記関連度を増加させることを特徴とする請求項1から請求項4のいずれか一項に記載の顔認識用学習データ生成装置。
【請求項6】
前記データセットはキーワードに説明文が付加されており、
前記関連度設定手段は、前記人物名のキーワードに対応する前記説明文と前記文書とが類似する場合、前記関連度を増加させることを特徴とする請求項1から請求項5のいずれか一項に記載の顔認識用学習データ生成装置。
【請求項7】
前記データ統合手段は、前記特徴量に代えて、当該特徴量を抽出した顔画像を前記顔認識用学習データとすることを特徴とする請求項1から請求項6のいずれか一項に記載の顔認識用学習データ生成装置。
【請求項8】
コンピュータを、請求項1から請求項7のいずれか一項に記載の顔認識用学習データ生成装置として機能させるための顔認識用学習データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔認識用の学習データを生成する顔認識用学習データ生成装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、画像や映像中の人物の顔を認識して人物を特定する技術は、AI技術の進展により高精度化し、セキュリティ分野において実用化の域に達している。また、映像へのキーワード等のメタデータ付与を顔認識技術で行う取り組みが放送局を中心に広がりを見せている。
これらの顔認識技術は、学習用の顔画像を収集して、機械学習処理で人物間の違いを認識できる顔特徴量を計算し、その顔特徴量の類似度で顔認識を行う仕組みを基本としている(特許文献1参照)。
この顔認識処理の性能に大きく影響を与えるのは、学習処理に用いる学習データの量と質である。この学習データを生成する手法は、通常、多くの人手を介して顔画像を収集して生成する手法が一般的である。
【0003】
一方で、顔画像を収集する手法として、収集済の2次元顔画像から3次元顔画像のCGモデルを生成し、CGパラメータを操作することで、より多くの顔画像を生成する技術が開示されている(特許文献2参照)。しかし、この手法は、適切な顔画像のCGモデルを生成するために、CGパラメータの精密なチューニング処理が必要となる。
また、現実的によく用いられる手法としては、Webスクレイピング技術によって、顔画像を収集する手法がある。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2017-33372号公報
【文献】特表2016-501396号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記したように、顔画像を収集する手法は、その多くが人手を介するもので、手間がかかるという問題がある。たとえ、特許文献2に記載の発明のように、顔画像を生成する手法を用いても、その生成手法は、CGパラメータを精密にチューニングしなければならず、手間がかかるという問題は残ったままである。
また、従来の手法は、顔画像を収集する手法であって、収集した顔画像を顔認識用の学習データとするためには、人物名等のメタデータを付与する必要がある。
【0006】
しかし、従来の手法は、このようなメタデータの付与については、顔画像を収集した後、人手を介して行う必要があり、手間がかかり非効率であるという問題がある。
さらに、顔認識技術において、顔認識結果を多角的に利用するためには、顔画像にその人物が属するカテゴリ情報が関連付けられていることが望ましい。
【0007】
本発明は、このような問題に鑑みてなされたもので、人の手間をかけずに、顔画像を収集して、メタデータを付与した顔認識用の学習データを生成することが可能な顔認識用学習データ生成装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係る顔認識用学習データ生成装置は、人物名を含むキーワードと階層化されたカテゴリとを対応付けたデータセットから、顔認識用学習データを生成する顔認識用学習データ生成装置であって、人物キーワード抽出手段と、カテゴリ情報抽出手段と、収集手段と、顔画像抽出手段と、特徴量抽出手段と、関連度設定手段と、クラスタリング手段と、判定手段と、データ統合手段と、を備える構成とした。
【0009】
かかる構成において、顔認識用学習データ生成装置は、人物キーワード抽出手段によって、データセットから人物名のキーワードを抽出する。
また、顔認識用学習データ生成装置は、カテゴリ情報抽出手段によって、データセットから人物を特定するキーワードに対応する階層化されたカテゴリをカテゴリ情報として抽出する。これによって、人物名と階層化されたカテゴリとが対応付けられることになる。
【0010】
そして、顔認識用学習データ生成装置は、収集手段によって、人物を特定するキーワードに関連する文書を収集する。例えば、収集手段は、キーワードに関連する文書をWeb上で検索する。この収集した文書(Web文書)には、人物名に関連する画像が含まれている場合が多い。
そこで、顔認識用学習データ生成装置は、顔画像抽出手段によって、文書に含まれる画像から顔認識により顔画像を抽出する。そして、顔認識用学習データ生成装置は、特徴量抽出手段によって、顔画像から特徴量を抽出する。
【0011】
そして、顔認識用学習データ生成装置は、関連度設定手段によって、特徴量を抽出した顔画像を含む文書に基づいて、特徴量とキーワードで特定された人物との関連度を特徴量に対応付けて設定する。
また、顔認識用学習データ生成装置は、クラスタリング手段によって、顔画像の特徴量をクラスタリングする。
そして、顔認識用学習データ生成装置は、判定手段によって、クラスタリングされた各クラスに属する特徴量に設定された関連度に基づいて、各クラスが特定された人物に対応するクラスか否かを判定する。
【0012】
そして、顔認識用学習データ生成装置は、データ統合手段によって、人物を特定するキーワードごとに、特定された人物に対応すると判定されたクラスに属する特徴量と、カテゴリ情報とを統合して顔認識用学習データを生成する。
これによって、1つの人物名のキーワードに、人物の顔の特徴量と、人物が属するカテゴリ情報とが対応付けられる。
この顔認識用学習データ生成装置は、コンピュータを、前記した各手段として機能させるための顔認識用学習データ生成プログラムで動作させることができる。
【発明の効果】
【0015】
本発明は、以下に示す優れた効果を奏するものである。
本発明の顔認識用学習データ生成装置によれば、人の手間をかけずに大量の顔画像を収集して、顔認識用の学習データを生成することができる。また、本発明によれば、個々の学習データに階層化したカテゴリ情報を付加することができるため、カテゴリ情報をメタデータとして、学習データをデータベース化することができる
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係る顔認識用学習データ生成装置の構成を示すブロック構成図である。
図2】データセットのデータ構造のうち、ID(識別子)とキーワードとの対応関係の例を示すキーワードテーブルのデータ構造図である。
図3】データセットのデータ構造のうち、ID(識別子)とカテゴリIDとの対応関係の例を示すカテゴリテーブルのデータ構造図である。
図4】データセットのデータ構造のうち、ID(識別子)と上位階層IDとの対応関係の例を示す階層テーブルのデータ構造図である。
図5】カテゴリの階層構造の例を説明するための説明図である。
図6】人物KWとカテゴリ情報との関係を説明するための説明図である。
図7】顔画像から顔特徴量を抽出するニューラルネットワークのモデルの構成例を示すネットワーク図である。
図8】顔特徴量のクラスタリングの概念を説明するための説明図である。
図9】顔認識用学習データの構造の例を示すデータ構造図である。
図10】本発明の実施形態に係る顔認識用学習データ生成装置の動作を示すフローチャートである。
図11】本発明の実施形態に係る顔認識装置の構成を示すブロック構成図である。
図12】本発明の実施形態に係る顔認識装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。
[顔認識用学習データ生成装置の構成]
最初に、図1を参照して、本発明の実施形態に係る顔認識用学習データ生成装置1の構成について説明する。
顔認識用学習データ生成装置1は、顔認識用学習データを生成するものである。
図1に示すように、顔認識用学習データ生成装置1は、データ解析手段10と、顔画像収集手段11と、人物KW対応判定手段12と、データ統合手段13と、を備える。
【0018】
データ解析手段10は、データセットを解析し、人物名を含んだキーワードの中から、人物名のキーワード(以下、人物KW)と、人物が属するカテゴリ(属性)のキーワード(以下、カテゴリKW)とを抽出するものである。
【0019】
データセットは、人物名を含むキーワードと階層化されたカテゴリとを対応付けた大規模データである。なお、データ構造が既知であれば、どのようなデータセットを用いてもよいが、ここでは、一例としてウィキペディアのデータを用いて説明する。
まず、図2図4を参照して、データセットのデータ構造の例について説明する。
【0020】
図2は、データセットのデータ構造のうち、ID(識別子)とキーワードとの対応関係の例を示すキーワードテーブルTkのデータ構造図である。IDは、キーワードに個別に付された数字等の識別子である。キーワードは、人物名を含む種々の見出し語の文字列であって、ウィキペディアのページ見出し語である。図2の例では、キーワード「日本の政治家」にID「id」、キーワード「〇〇太郎」にID「id」等が対応付けられている。
これによって、人物名を含む種々のキーワードは、IDによって一意に特定されることになる。
【0021】
図3は、データセットのデータ構造のうち、ID(識別子)とカテゴリIDとの対応関係の例を示すカテゴリテーブルTcのデータ構造図である。カテゴリIDは、キーワードが属するカテゴリのIDを羅列したものである。図3の例では、ID「id」に、カテゴリIDとして、ID「id,id,id,id,…,id,…」が対応付けられている。これは、ID「id」に対応するキーワード「〇〇太郎」が、ID「id」に対応するキーワード(カテゴリKW)「日本の政治家」、ID「id」に対応するキーワード(カテゴリKW)「各都道府県の政治家」等に属することを意味している。
これによって、キーワードが、どのカテゴリに属するかが特定されることになる。
【0022】
図4は、データセットのデータ構造のうち、カテゴリKWのID(識別子)と上位階層IDとの対応関係の例を示す階層テーブルTuのデータ構造図である。上位階層IDは、あるIDに対して階層構造として上位の階層のIDを羅列したものである。図4の例では、ID「id」に、上位階層IDとして、ID「id,id,id」が対応付けられている。これは、ID「id」に対応するカテゴリKW「東京都選出の国会議員」に対して、ID「id」に対応するキーワード「日本の政治家」、ID「id」に対応するキーワード「各都道府県の政治家」、ID「id」に対応するキーワード「東京都の政治家」がカテゴリとして上位階層であることを意味している。
これによって、キーワードを階層化することができる。
なお、データセットをウィキペディアのデータとした場合、IDに、キーワードを説明する説明文が対応付けられたテーブル等がさらに存在するが、ここでは図示を省略する。
【0023】
図1に戻って、顔認識用学習データ生成装置1の構成について説明を続ける。
データ解析手段10は、カテゴリ階層化手段100と、人物KW抽出手段101と、カテゴリ情報抽出手段102と、を備える。
【0024】
カテゴリ階層化手段100は、データセットから、カテゴリIDと、カテゴリを階層化した位置情報とを対応付けて、カテゴリ階層情報を生成するものである。
具体的には、カテゴリ階層化手段100は、図4の階層テーブルTuを参照して、ID(識別子)ごとに、順次、再帰的に上位階層IDを対応付けることで、図5に示すような木構造グラフを生成する。ここでは、カテゴリKW「日本の政治家」を最上位の階層とした木構造の例で説明する。
なお、ウィキペディアにおいて、カテゴリの上位下位関係は、有向非巡回型の構成となっており、再帰処理において、同じカテゴリKWが出現する可能性があるため、予め最大再帰回数を定めて処理を中止させることとする。
【0025】
そして、カテゴリ階層化手段100は、カテゴリKWのIDと、木構造グラフで構成された各カテゴリKWの位置情報とを対応付けてカテゴリ階層情報を生成する。この位置情報は、木構造グラフにおけるノード(カテゴリKWに対応)の位置を示す情報であって、例えば、タプル形式で表現することができる。タプル形式の位置情報は、数値列の順に各数値が、木構造グラフの階層ごとに辿るノードの位置を表している。
【0026】
例えば、あるノードの位置情報が(0,2,25,11,2)とする。各数値は、最上位の層から順に、親ノードにおいて左から何番目の子ノードであるかを示す。なお、位置情報の1番左の値は、最上位(第1階層)のノード(ルートノード)を示すため‘0’とする。位置情報の2番目の数値‘2’は、ルートノードの1つ下の階層(第2階層)で親ノードの左から2個目の子ノードを示す。
例えば、図5において、idのカテゴリKW「日本の政治家」の位置情報は(0)、idのカテゴリKW「東京都の政治家」の位置情報は(0,1,1)となる。
カテゴリ階層化手段100は、生成したカテゴリ階層情報(IDおよび位置情報)をカテゴリ情報抽出手段102に出力する。
【0027】
人物KW抽出手段(人物キーワード抽出手段)101は、データセットから人物名のキーワード(人物KW)を抽出するものである。ここでは、人物KW抽出手段101は、データセットから、人物を同定する予め定めた文字列を含むカテゴリに対応するキーワードを、人物KWとして抽出する。
具体的には、人物KW抽出手段101は、予め定めた「年生」、「年没」、「存命人物」といった人物と同定可能な語句が含まれているキーワードを探索し、そのキーワードに対応するIDをカテゴリIDとして含むキーワードを、人物KWとして抽出する。
【0028】
例えば、人物KW抽出手段101は、図2のキーワードテーブルTkにおいて、キーワードで語句「年生」等を含んだIDを探索する。そして、人物KW抽出手段101は、図3のカテゴリテーブルTcにおいて、探索したID(ここでは、id)をカテゴリIDとして含むIDをさらに探索する。そして、人物KW抽出手段101は、図2のキーワードテーブルTkにおいて、探索したID(ここでは、id)に対応する「〇〇太郎」を、人物KWとして抽出する。
なお、ウィキペディアにおいて、「年生」、「年没」、「存命人物」のいずれかの語句をカテゴリに含むキーワードが人物KWであると同定する処理は、実験的に100%の精度であることが確認されている。
【0029】
もちろん、データセットの人物のキーワードとして、人物名に人物を特定する語句そのものを含んだキーワードを用いてもよい。例えば、「〇〇太郎(人物)」のように、予め定めた語句「人物」を含ませたキーワードとする。この場合、人物KW抽出手段101は、キーワードテーブルTkにおいて、語句「人物」を含んだキーワードを人物KWとして抽出すればよい。
人物KW抽出手段101は、抽出した人物KWを、カテゴリ情報抽出手段102と、顔画像収集手段11とに出力する。
【0030】
カテゴリ情報抽出手段102は、カテゴリ階層化手段100で階層化されたカテゴリ階層情報に基づいて、データセットから人物名のキーワードに対応する階層化されたカテゴリをカテゴリ情報として抽出するものである。
このカテゴリ情報抽出手段102は、カテゴリ階層情報から、人物KW抽出手段101で抽出された人物KWに対応するカテゴリIDを基準として、木構造の上位のIDを遡って抽出する。そして、カテゴリ情報抽出手段102は、基準のカテゴリIDおよび上位のカテゴリIDに対応するキーワードを、カテゴリ情報として生成する。
【0031】
例えば、カテゴリテーブルTc(図3)において、ある人物KW「△△花子」にカテゴリIDとして「id」しか設定されていなかった場合でも、カテゴリ情報抽出手段102は、図6に示すように、ID「id」と、カテゴリ階層情報で上位に階層化されているID「id,id,id,id」とに対応するキーワードを、カテゴリ情報として生成する。
これによって、カテゴリ情報抽出手段102は、人物KWに対して直接対応するカテゴリKW以外に、階層構造の上位のカテゴリKWも、人物KWに対応付けることができる。
カテゴリ情報抽出手段102は、人物KWとカテゴリ情報とを対応付けて、データ統合手段13に出力する。
【0032】
なお、カテゴリ情報の各キーワードには、木構造の位置情報を付加してもよい。これによって、生成する顔認識用学習データにおいて、学習データを階層化してデータベースを構築することが可能になる。
【0033】
顔画像収集手段11は、人物KWに対応する顔画像を収集するものである。
顔画像収集手段11は、Web検索手段110と、顔画像抽出手段111と、を備える。
【0034】
Web検索手段110は、ネットワーク(インターネット)N上で文書を公開、閲覧するシステムであるWeb上で、人物名のキーワードに関連する文書(Web文書)を検索して収集するものである。
Web検索手段110は、ネットワークNを介して、一般的な検索エンジンによって、WebサーバSから、データ解析手段10の人物KW抽出手段101で抽出された人物KWに関連するWeb文書を検索し、収集する。なお、検索エンジンによる人物KWの検索は、一般的なWebスクレイピング(Web scraping)の技術を用いればよい。
このWeb検索手段110によって収集されるWeb文書には、人物KWの顔を含んだ画像、顔以外の画像、テキストデータ等が含まれている。
Web検索手段110は、収集したWeb文書を顔画像抽出手段111に出力する。
【0035】
顔画像抽出手段111は、Web検索手段110で収集されたWeb文書に含まれる画像から、顔認識により顔画像を抽出するものである。
顔画像抽出手段111は、一般的な顔認識処理によって、Web文書に含まれる画像において顔を検出し、一人の顔が写っている画像のみを抽出する。
顔画像抽出手段111は、人物KWとともに、抽出した顔画像と顔画像を抽出したWeb文書とを人物KW対応判定手段12に出力する。
【0036】
人物KW対応判定手段(人物キーワード対応判定手段)12は、顔画像収集手段11で収集した顔画像が、人物KWの人物の顔画像であるか否かを判定するものである。
人物KW対応判定手段12は、特徴量抽出手段120と、クラスタリング手段121と、関連度設定手段122と、判定手段123と、を備える。
【0037】
特徴量抽出手段120は、顔画像収集手段11で収集された顔画像から特徴量(顔特徴量)を抽出するものである。
例えば、特徴量抽出手段120は、図7に示すような複数の畳み込み層CL(CL,CL,…)を備えた、予め学習した畳み込みニューラルネットワークNNを用いて、顔画像Iに対して複数の畳み込み演算を行うことで、顔特徴量Fを抽出する。この顔特徴量Fは、例えば500程度の次元数である。
この畳み込みニューラルネットワークNNは、例えば、VGG(Visual Geometry Group)19等の一般的な物体認識ネットワークの特徴抽出部分のネットワークを用いることができる。
特徴量抽出手段120は、人物KWに対応する複数の顔画像から抽出した顔特徴量{f,f,…,f}(nは顔画像の数)を、人物KWごとにクラスタリング手段121に出力する。
【0038】
クラスタリング手段121は、特徴量抽出手段120で抽出された顔特徴量をクラスタリングするものである。
このクラスタリング手段121におけるクラスタリングの手法は、一般的な手法を用いればよい。例えば、クラスタリング手段121は、クラス数も同時に求めることができるDBSCAN(Density-Based Spatial Clustering of Applications with Noise)法を用いて、顔画像の数の顔特徴量{f,f,…,f}をクラスタリングする。
【0039】
図8に、クラスタリング手段121によって、クラスタリングされた顔特徴量の概念を示す。図8は、顔特徴量{f,f,…,f}が、3つのクラス(C,C,C)に分類され、クラスCに顔特徴量{f,f,f,f}、クラスCに顔特徴量{f,f}、クラスCに顔特徴量{f,f,f}が分類された状態を示している。
これによって、クラスタリング手段121は、複数の顔特徴量を、人物KWに対応する人物のグループやそれ以外のグループ、あるいは、同じ人物KWに対応する人物であっても、正面を向いた顔、横を向いた顔等、複数のグループに分けることができる。
クラスタリング手段121は、クラスタリング結果を判定手段123に出力する。
【0040】
関連度設定手段122は、顔特徴量を抽出した顔画像を含むWeb文書に基づいて、顔特徴量と人物名との関連の度合いを示す関連度を顔特徴量に対応付けて設定するものである。
この関連度設定手段122は、予め定めた判定基準に基づいて、関連度を設定する。ここでは、関連度設定手段122は、判定基準に基づいて、予め定めた初期値(例えば、“0”)の関連度に対して、関連度を増加させる。
【0041】
例えば、関連度設定手段122は、顔画像を抽出したWeb文書が人物KWを見出し語とするウィキペディア文書である場合、関連度に予め定めた数を加算する。
また、例えば、関連度設定手段122は、Web文書内の画像を示すタグに人物KWの記述がある場合、関連度に予め定めた数を加算する。
また、例えば、関連度設定手段122は、Web文書と、データセットに含まれている人物KWを説明する説明文とが類似する場合、関連度に予め定めた数を加算する。この類似は、例えば、Web文書と説明文とで共通する単語の数が予め定めた数よりも多い場合、Web文書および説明文の全単語数に対する共通する単語の数の割合が予め定めた割合よりも多い場合等で判定することができる。
また、Web文書がウィキペディアのように予めカテゴライズされている場合、人物KWのカテゴリ情報との重なり具合を求めて関連度に加算することで関連度を更新することも可能である。
以上の関連度計算では、関連度を計算する要素である文章中の単語や画像特徴量をWORD2VEC、PCA(Principal Component Analysis)等で共通の次元空間にベクトル変換してコサイン類似度等の類似度計算処理を施して求めることも可能である。
関連度設定手段122は、人物KWに対応する複数の顔特徴量に設定した関連度W{w,w,…,w}(nは顔画像の数)を、人物KWごとに判定手段123に出力する。
【0042】
判定手段123は、クラスタリング手段121でクラスタリングされた各クラスに属する顔特徴量に設定された関連度に基づいて、各クラスが人物名に対応するクラスか否かを判定するものである。
この判定手段123は、クラスタリングされたクラスごとに、当該クラスに属する顔特徴量に対して、関連度設定手段122で設定された関連度の総和を算出し、その総和が予め定めた基準を満たすクラスを、人物KWに対応するクラスであると判定する。
【0043】
例えば、ある人物KWにおけるクラスタリング結果が、図8に示した状態であったとする。また、顔特徴量{f,f,…,f}に設定された人物KWの関連度が{w,w,…,w}であったとする。この場合、判定手段123は、クラスCの関連度の総和Wをw+w+w+wとし、クラスCの関連度の総和Wをw+wとし、クラスCの関連度の総和Wをw+w+wとして算出する。
【0044】
また、判定手段123は、判定基準として、例えば、クラスごとの関連度の総和が、予め定めた閾値を超えたか否か、あるいは、クラスごとの関連度の総和が他のクラスの総和よりも予め定めた閾値よりも差が大きいか否か等によって、各クラスが人物KWに対応するクラスであるか否かを判定する。
判定手段123は、人物KWと、人物KWのクラスと判定された顔特徴量とを対応付けて、データ統合手段13に出力する。
【0045】
データ統合手段13は、データ解析手段10で生成された人物KWに対応するカテゴリ情報と、人物KW対応判定手段12で人物KWに対応すると判定された顔特徴量とを統合して、顔認識用学習データを生成するものである。
このデータ統合手段13は、図9に示すように、人物KWごとに、顔特徴量Fとカテゴリ情報CIとを連結することで、顔認識用学習データを生成する。なお、カテゴリ情報CIの各キーワードには、木構造の位置情報を付加してもよい。
また、データ統合手段13は、顔特徴量に代えて、あるいは、顔特徴量とともに、顔特徴量を抽出した顔画像を顔認識用学習データに付加することとしてもよい。
【0046】
以上説明したように構成することで、顔認識用学習データ生成装置1は、人の手間をかけずに、顔画像を収集して、人物KWやカテゴリ情報を付加した顔認識用の学習データを生成することができる。
また、顔認識用学習データ生成装置1は、多岐にわたるカテゴリの顔画像を収集するとともに、階層化されたカテゴリの顔画像を収集することができる。これによって、顔認識用学習データ生成装置1は、網羅的かつ組織的に体系付けられた学習データを生成することができる。
なお、顔認識用学習データ生成装置1は、コンピュータを前記した各手段として機能させるためのプログラム(顔認識用学習データ生成プログラム)で動作させることができる。
【0047】
[顔認識用学習データ生成装置の動作]
次に、図10を参照(構成については、適宜図1参照)して、本発明の実施形態に係る顔認識用学習データ生成装置1の動作について説明する。
ステップS1において、データ解析手段10のカテゴリ階層化手段100は、データセットを解析し、カテゴリを階層化する。ここでは、カテゴリ階層化手段100は、階層テーブルTu(図4)を参照して、ID(識別子)ごとに、順次、再帰的に上位階層IDを対応付けることで、カテゴリを階層化し、IDおよび位置情報を木構造グラフのノードに対応付けたカテゴリ階層情報(図5)を生成する。
【0048】
ステップS2において、データ解析手段10の人物KW抽出手段101は、データセットを解析し、データセットのキーワードから、人物KWを抽出する。ここでは、人物KW抽出手段101は、キーワードテーブルTk(図2)において、「年生」、「年没」、「存命人物」のいずれかの語句を含んだIDがカテゴリテーブルTc(図3)に含まれているキーワードを、人物KWとして抽出する。
【0049】
ステップS3において、データ解析手段10のカテゴリ情報抽出手段102は、ステップS1で生成されたカテゴリ階層情報に基づいて、データセットから、ステップS2で抽出された人物KWに対応するカテゴリKWを抽出し、人物KWのカテゴリ情報(図6)を生成する。
【0050】
ステップS4において、顔画像収集手段11のWeb検索手段110は、ネットワークNを介して、WebサーバSから、ステップS2で抽出された人物KWに対応するWeb文書を収集する。ここでは、Web検索手段110は、人物KWによりWebスクレイピングによって、Web文書を収集する。
【0051】
ステップS5において、顔画像収集手段11の顔画像抽出手段111は、ステップS4で収集されたWeb文書に含まれる画像から、顔画像を抽出する。ここでは、顔画像抽出手段111は、顔認識によりWeb文書から顔を検出し、一人の顔が写っている画像のみを抽出する。
【0052】
ステップS6において、人物KW対応判定手段12の特徴量抽出手段120は、ステップS5で抽出された顔画像から、特徴量(顔特徴量)を抽出する。ここでは、特徴量抽出手段120は、予め学習した畳み込みニューラルネットワークを用いて、顔画像から顔特徴量を抽出する。
ステップS7において、人物KW対応判定手段12のクラスタリング手段121は、ステップS6で抽出された顔特徴量をクラスタリングする。
【0053】
ステップS8において、人物KW対応判定手段12の関連度設定手段122は、ステップS6で抽出された顔特徴量と、人物KWとの関連度を設定する。例えば、関連度設定手段122は、Web文書が人物KWを見出し語とするウィキペディア文書である場合等、Web文書と人物KWとの関連が大きいほど、関連度の値を大きく設定する。
【0054】
ステップS9において、人物KW対応判定手段12の判定手段123は、ステップS7でクラスタリングされたクラスごとに、ステップS8で設定された関連度に基づいて、当該クラスが人物KWに対応するクラスか否かを判定する。ここでは、判定手段123は、当該クラスに含まれる顔特徴量に対する関連度の総和を算出し、その関連度の総和が予め定めた閾値よりも大きいクラスを人物KWに対応するクラスと判定する。
【0055】
ステップS10において、データ統合手段13は、人物KWごとに、ステップS3で人物KWに対応して生成されたカテゴリ情報と、ステップS9で人物KWのクラスと判定されたクラスに属する顔特徴量とを統合し、顔認識用学習データ(図9)を生成する。
以上の動作によって、顔認識用学習データ生成装置1は、人物KWに対応する顔画像を自動収集して、顔認識用学習データを生成することができる。
【0056】
[顔認識装置の構成]
次に、図11を参照して、本発明の実施形態に係る顔認識装置2の構成について説明する。
顔認識装置2は、映像内に映った人物の顔を認識するものである。
図11に示すように、顔認識装置2は、顔認識用学習データ記憶手段20と、顔検出手段21と、特徴量抽出手段22と、類似度算出手段23と、人物特定手段24と、を備える。
【0057】
顔認識用学習データ記憶手段20は、顔認識用学習データを記憶するものであって、ハードディスク等の一般的な記憶媒体で構成することができる。
この顔認識用学習データ記憶手段20には、図1で説明した顔認識用学習データ生成装置1で生成された顔認識用学習データを予め記憶しておく。
顔認識用学習データは、図9に示したように、人物KWに顔特徴量Fとカテゴリ情報CIとを対応付けたデータベースである。
【0058】
顔検出手段21は、入力された映像に映る顔を検出するものである。この顔検出手段21は、一般的な顔認識処理によって、映像内の顔を認識する。
顔検出手段21は、検出した顔の領域(顔画像)を映像からフレームごとに抽出し、特徴量抽出手段22に出力する。
【0059】
特徴量抽出手段22は、顔検出手段21で検出された顔画像から顔特徴量を抽出するものである。この特徴量抽出手段22は、図1で説明した顔認識用学習データ生成装置1の特徴量抽出手段120と同じ手法で顔特徴量を抽出することとする。
特徴量抽出手段22は、抽出した1つまたは複数の顔特徴量を類似度算出手段23に出力する。
【0060】
類似度算出手段23は、特徴量抽出手段22で抽出された顔特徴量と、顔認識用学習データ記憶手段20に記憶されている顔特徴量との類似の度合い(類似度)を算出するものである。
ここでは、類似度算出手段23は、顔認識用学習データ記憶手段20に記憶されている顔特徴量のうちで、外部から指定されたカテゴリ情報(キーワード)に該当する顔特徴量について類似度を算出する。
例えば、カテゴリ情報として、キーワード「東京都の政治家」が指定された場合、類似度算出手段23は、顔認識用学習データ記憶手段20に記憶されている顔認識用学習データのうちで、カテゴリ情報に「東京都の政治家」のキーワードを含む学習データの顔特徴量のみを類似度の算出対象とする。
【0061】
なお、類似度算出手段23における類似度の算出手法は、一般的な手法を用いればよく、例えば、特徴量抽出手段22で抽出された顔特徴量のベクトルと、顔認識用学習データ記憶手段20に記憶されている顔特徴量のベクトルとのコサイン類似度によって算出することができる。
類似度算出手段23は、算出した類似度と、類似度の算出に用いた顔認識用学習データの人物KWを人物特定手段24に出力する。
【0062】
人物特定手段24は、類似度算出手段23で算出された類似度に基づいて、人物を特定するものである。
この人物特定手段24は、類似度算出手段23で算出された類似度が予め定めた閾値よりも大きいものを抽出する。そして、人物特定手段24は、抽出した類似度をソートし、類似度が高い方から順に、類似度の算出に用いた顔認識用学習データの人物KWを認識結果として出力する。もちろん、簡易的に、最も類似度の高い人物KWのみを出力することとしてもよい。
【0063】
なお、人物特定手段24は、人物KWに関連付けて、指定されたカテゴリ情報のキーワード、あるいは、顔認識用学習データ記憶手段20に記憶されている人物KWに対応付けられているすべてのカテゴリ情報のキーワードを出力することとしてもよい。
これによって、顔認識装置2で認識された人物KWに対して、カテゴリ情報に基づくメタデータを付加させることが可能になる。
また、顔認識用学習データ記憶手段20に記憶されている顔認識用学習データのカテゴリ情報に、木構造の位置情報が付加されている場合、人物特定手段24は、カテゴリ情報に加えて、位置情報を人物KWに関連付けて出力することとしてもよい。
【0064】
以上説明したように構成することで、顔認識装置2は、カテゴリ情報を指定して顔認識を行うことができ、顔認識の精度を高めることができる。
なお、顔認識装置2は、コンピュータを前記した各手段として機能させるためのプログラム(顔認識プログラム)で動作させることができる。
【0065】
[顔認識装置の動作]
次に、図12を参照(構成については、適宜図11参照)して、本発明の実施形態に係る顔認識装置2の動作について説明する。なお、顔認識用学習データ記憶手段20には、顔認識用学習データ生成装置1(図1)で生成された顔認識用学習データが予め記憶されているものとする。
【0066】
ステップS20において、顔検出手段21は、入力された映像に映る顔を検出する。このとき、顔検出手段21は、検出した顔の領域を顔画像として抽出する。
ステップS21において、特徴量抽出手段22は、ステップS20で検出した顔の領域(顔画像)から特徴量(顔特徴量)を抽出する。
【0067】
ステップS22において、類似度算出手段23は、ステップS21で抽出された顔特徴量と、顔認識用学習データ記憶手段20に記憶され、外部から指定されたカテゴリ情報(キーワード)に該当する顔特徴量との類似の度合い(類似度)を算出する。
ステップS23において、人物特定手段24は、ステップS22で算出された類似度に基づいて、人物を特定する。このとき、人物特定手段24は、類似度が予め定めた閾値よりも大きいものを抽出しソートを行い、類似度が高い人物KWから順に認識結果として出力する。
以上の動作によって、顔認識装置2は、カテゴリを限定して、映像から顔を認識することができる。
【0068】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
この実施形態では、データセットには人物名を含むキーワードがあり、人物名のキーワードを用いて対象人物を特定するものとして説明した。しかし、対象人物を特定できるものであれば、キーワードは人物名でなくてもかまわない。例えば、キーワードは人物を表す番号であってもよい。例えば、人物を特定できるマイナンバー等の指標である。また、データセットの文章自体が、個人を特定できないように人物名が別の指標に置き換えられていてもかまわない。
【0069】
また、この実施形態では、顔画像を含む文書を、Web上で検索して収集するものとして説明した。しかし、顔画像を含む文書は、Web上で検索して収集するものに限らず、顔画像とその顔に関連する文書データが含まれていれば何でもかまわない。例えば、顔画像を含む文書は、予め蓄積媒体に保存された文書でもかまわないし、外部から文書を読み込む形態であってもかまわない。したがって、Web検索手段110は、Web上の検索に限定されず、収集手段として構成することができる。なお、ここでの文書は、テキスト、画像、音声を含むマルチメディア文書である。
【0070】
また、この実施形態では、判定手段123は、クラスタリングされたクラスごとの関連度の総和を算出し、その算出された値で判定するものとして説明した。しかし、判定に用いる指標は、クラスごとの関連度の総和には限定されない。判定に用いる指標は、人物KWに対応すると判定できる指標であればかまわない。例えば、その指標は、クラスの関連度の平均値、クラスに属する顔特徴量の最大値等であってもよい。
【符号の説明】
【0071】
1 顔認識用学習データ生成装置
10 データ解析手段
100 カテゴリ階層化手段
101 人物KW抽出手段
102 カテゴリ情報抽出手段
11 顔画像収集手段
110 Web検索手段(収集手段)
111 顔画像抽出手段
12 人物KW対応判定手段
120 特徴量抽出手段
121 クラスタリング手段
122 関連度設定手段
123 判定手段
13 データ統合手段
2 顔認識装置
20 顔認識用学習データ記憶手段
21 顔検出手段
22 特徴量抽出手段
23 類似度算出手段
24 人物特定手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12