(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-16
(45)【発行日】2024-02-27
(54)【発明の名称】情報処理装置、画像認識方法及び学習モデル生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240219BHJP
G06T 1/00 20060101ALI20240219BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
G06T1/00 340A
(21)【出願番号】P 2019147085
(22)【出願日】2019-08-09
【審査請求日】2022-07-20
(73)【特許権者】
【識別番号】313000601
【氏名又は名称】日本テレビ放送網株式会社
(74)【代理人】
【識別番号】100201341
【氏名又は名称】畠山 順一
(74)【代理人】
【識別番号】100079005
【氏名又は名称】宇高 克己
(74)【代理人】
【識別番号】100154405
【氏名又は名称】前島 大吾
(72)【発明者】
【氏名】久野 崇文
(72)【発明者】
【氏名】佐藤 誠
(72)【発明者】
【氏名】加藤 大樹
(72)【発明者】
【氏名】横山 秀樹
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開2005-208850(JP,A)
【文献】特開2005-242566(JP,A)
【文献】特開2014-170488(JP,A)
【文献】特開2001-331791(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
(57)【特許請求の範囲】
【請求項1】
映像から人物の顔画像を抽出する顔画像抽出部と、
前記抽出された人物の顔画像が認識対象人物の顔である確からしさを出力する学習モデルと、
前記学習モデル
が出力する確からしさ
を用いて、前記映像から前記認識対象人物を認識する認識対象人物認識部と、
前記認識対象人物の顔の基本顔画像から、時間の経過によって前記認識対象人物の顔が変化した経時変化顔画像を生成する変化顔画像生成部と、
を備え、
前記変化顔画像生成部は、所定の経過時間毎に前記経時変化顔画像を生成し、
前記学習モデルは、前記認識対象人物の基本顔画像と、前記経時変化顔画像と、前記経時変化顔画像の経過時間と、を含む教師データを用いて学習された学習モデルであり、
前記学習モデルには、前記抽出された人物の顔画像と、経過時間と、が入力される、
映像処理装置。
【請求項2】
前記経過時間は、所定の競技の開始から経過した時間である、
請求項1に記載の映像処理装置。
【請求項3】
前記変化顔画像生成部は、所定の競技の開始から経過した時間にともなう前記認識対象人物の疲労を加味した前記経時変化顔画像を生成する、
請求項2に記載の映像処理装置。
【請求項4】
前記変化顔画像生成部は、前記基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、
前記学習モデルの教師データは、前記表情変化顔画像を更に含む、
請求項1から
請求項3のいずれかに記載の映像処理装置。
【請求項5】
前記変化顔画像生成部は、前記基本顔画像から、前記認識対象人物の顔に物品が装着された物品装着顔画像を生成し、
前記学習モデルの教師データは、前記物品装着顔画像を更に含む、
請求項1から
請求項4のいずれかに記載の映像処理装置。
【請求項6】
情報処理装置
が、
認識対象人物の顔の基本顔画像から、時間の経過によって前記認識対象人物の顔が変化した経時変化顔画像を
、所定の経過時間毎に生成し、
前記認識対象人物の基本顔画像と、前記経時変化顔画像と、
前記経時変化顔画像の経過時間と、を含む教師データを用いて、学習モデルを生成し、
映像から人物の顔画像を抽出し、
前記抽出された人物の顔画像と前記経過時間とを、前記学習モデルに入力し、
前記学習モデルの前記認識対象人物の顔である確からしさの出力値
を用いて、前記映像から前記認識対象人物を認識する、
画像認識方法。
【請求項7】
前記経過時間は、所定の競技の開始から経過した時間である、
請求項6に記載の画像認識方法。
【請求項8】
情報処理装置
が、所定の競技の開始から経過した時間にともなう前記認識対象人物の疲労を加味した前記経時変化顔画像を生成する、
請求項7に記載の画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理装置、画像認識方法及び学習モデル生成方法に関し、特に、認識対象の人物の顔を認識する情報処理装置、画像認識方法及び学習モデル生成方法に関する。
【背景技術】
【0002】
映像中から人物の顔を認識する技術の開発が行われている。特に、近年では、ディープラーニング、強化学習等の機械学習により、学習モデルを生成し、その学習モデルを用いて人物を画像認識する技術が盛んに行われている。高精度な認識を行う学習モデルを生成するには、大量の教師データを必要とする。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ところで、放送局等は、俳優、スポーツ選手、政治家等の多数の映像を保有している。なかでも、多数出演している俳優などは、通常の顔のみならず、笑顔や怒った顔など表現が異なる様々な表現の顔の画像を保持可能である。一方で、一部を除いて選手や政治家等は、日常的にテレビに出演又は放送されるものではなく、大会や選挙など、映像として保存される機会はあまりない。すなわち、このような人物は、様々な表現の顔の画像を保持することが不可能であり、これらの人物を画像認識する場合、教師データの絶対数が不足する。
【0004】
そこで、本発明は、機械学習による学習モデルによって人物の顔の画像認識を行う際、教師データの絶対数の不足による認識精度の低下を防ぐことができる情報処理装置、画像認識方法及び学習モデル生成方法を提供することにある。
【課題を解決するための手段】
【0005】
本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成する表情変化顔画像生成部と、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて生成された、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルと、映像から人物の顔画像を抽出し、前記学習モデルに入力する顔画像抽出部と、前記学習モデルの出力値から、前記映像から前記認識対象人物を認識する認識対象人物認識部と、を備える映像処理装置である。
【0006】
本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルを生成し、映像から人物の顔画像を抽出し、前記学習モデルに入力し、前記学習モデルの出力値から、前記映像から前記認識対象人物を認識する画像認識方法である。
【0007】
本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルを生成する学習モデル生成方法である。
【0008】
本発明の一態様は、認識対象人物の顔の基本顔画像から、前記認識対象人物の顔の経過時間情報に対応した経時変化顔画像を生成し、前記認識対象人物の識別情報、前記経過時間情報、前記認識対象人物の基本顔画像及び経時変化顔画像を含む教師データを用いて、人物の顔画像及び前記経過時間情報を入力、前記認識対象人物に関する値を出力とする学習モデルを生成する学習モデル生成方法である。
【発明の効果】
【0009】
本発明によれば、機械学習による学習モデルによって人物の顔の画像認識を行う際、教師データの絶対数の不足による認識精度の低下を防ぐことができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は第1の実施の形態の全体の構成を示すブロック図である。
【
図2】
図2は第1の実施の形態の映像処理装置2のブロック図である。
【
図3】
図3は表情変化顔画像の生成を説明するための図である。
【
図4】
図4は情報処理装置2の具体的な動作を説明するための図である。
【
図5】
図5は情報処理装置2の具体的な動作を説明するための図である。
【
図6】
図6は情報処理装置2の具体的な動作を説明するための図である。
【
図7】
図7は情報処理装置2の具体的な動作を説明するための図である。
【
図8】
図8は第1の実施の形態の変形例の映像処理装置2のブロック図である。
【
図9】
図9は物品装着顔画像の生成を説明するための図である。
【
図10】
図10は第1の実施の形態の変形例2の顔画像抽出部24を説明するための図である。
【
図11】
図11は第1の実施の形態の変形例3の顔画像抽出部24を説明するための図である。
【
図12】
図12は第1の実施の形態の変形例3の顔画像抽出部24を説明するための図である。
【
図13】
図13は第2の実施の形態の映像処理装置2のブロック図である。
【
図14】
図14は第2の実施の形態の具体的な動作を説明するための図である。
【
図15】
図15は第2の実施の形態の具体的な動作を説明するための図である。
【
図16】
図16は第3の実施の形態の映像処理装置2のブロック図である。
【
図17】
図17は第4の実施の形態の映像処理装置2のブロック図である。
【
図18】
図18は第4の実施の形態の情報処理装置2の具体的な動作を説明するための図である。
【
図19】
図19は第4の実施の形態の情報処理装置2の具体的な動作を説明するための図である。
【
図20】
図20は第4の実施の形態の情報処理装置2の具体的な動作を説明するための図である。
【
図21】
図21はコンピュータシステムによって構成された映像処理装置2のブロック図である。
【発明を実施するための形態】
【0011】
<第1の実施の形態>
第1の実施の形態を説明する。
【0012】
図1は第1の実施の形態の全体の構成を示すブロック図である。
図1中、1はカメラ、2は映像処理装置、3は表示装置である。
【0013】
カメラ1は、映像を撮影するカメラである。カメラ1は、人物などの認識のために、高画質な映像が撮影できる4K又は8Kのカメラが好ましいが、これらに限定されるものではない。
【0014】
映像処理装置2は、カメラ1の撮影映像を入力し、映像中の人物のなかから、特定の人物(以下、認識対象人物と記載する)を認識し、その結果を表示装置3に出力するものである。尚、本実施の形態では、映像処理装置2が処理する映像は、カメラ1から出力される映像であるが、カメラ1で撮影され、一度、記憶装置に記憶された映像(リアルタイムではない)でも良い。
【0015】
表示装置3は、撮影映像と、映像処理装置2から出力される認識結果とが出力されるディスプレイである。しかし、表示装置3は、表示機能のみならず、タブレット端末のように、タッチパネルの機能を持つディスプレイであっても良い。
【0016】
次に、映像処理装置2を説明する。
図2は映像処理装置2のブロック図である。
【0017】
映像処理装置2は、基本顔画像記憶部21と、表情変化顔画像生成部22と、学習モデル23と、顔画像抽出部24と、認識対象人物認識部25とを備える。
【0018】
基本顔画像記憶部21は、映像中の認識対象の人物となる複数の認識対象人物の基本顔画像が格納された記憶部である。基本顔画像は、識対象人物の基本となる表情の顔が写った顔画像である。
【0019】
表情変化顔画像生成部22は、基本顔画像を用いて、基本顔画像の顔の表情と異なる表情の認識対象人物の顔の画像(以下、表情変化顔画像と記載する)を生成する。例えば、
図3に示すような、笑顔、泣き顔、怒った顔、恐れた顔、疲労した顔など顔画像である。表情変化顔画像の生成は既知の技術を用いることが可能である。例えば、基本顔画像の顔の特徴点を抽出し、その特徴点をあるルールに従って変化させることにより、基本顔画像とは異なる他の表現の表情変化顔画像の生成が可能である。
【0020】
学習モデル23は、人物の顔画像を入力とし、認識対象人物に関する値を出力とする学習モデルである。学習モデルの生成は、各認識対象人物の識別情報(例えば、氏名)と、各認識対象人物の基本顔画像記憶部21からの基本顔画像と、各認識対象人物の表情変化顔画像生成部22によって生成された表情変化顔画像とを含む教師データを用いて、ディープラーニング、強化学習、それらの組み合わせなどにより学習する。学習モデル23の出力である認識対象人物に関する値は、例えば、入力された顔画像の人物が認識対象人物である確率などである。
【0021】
顔画像抽出部24は、入力された映像から人物の顔を検出し、その顔の顔画像を抽出し、顔画像とその顔画像を識別できる識別情報とを、学習モデル23に出力する。映像から人物の抽出は、既知の技術を用いることができる。
【0022】
認識対象人物認識部25は、学習モデル23からの値を受けて、認識対象人物を認識し、認識結果を表示装置3に出力する。例えば、学習モデルの出力値のうち、所定の閾値以上の確率を持つ顔画像の顔を、認識対象人物として認識し、認識対象人物の映像中の位置を示すマーカ(例えば、認識対象人物の顔を囲む矩形)とその認識対象人物の識別情報(例えば、氏名)とを表示装置3に出力する。
【0023】
次に、情報処理装置2の具体的な動作を説明する。
【0024】
まず、各認識対象人物の基本顔画像を用意し、表情変化顔画像生成部22に入力する。各認識対象人物の複数の表情変化顔画像を生成する。
【0025】
図4は認識対象人物Xの場合の複数の表情変化顔画像の生成を説明するための図である。認識対象人物Xの基本顔画像を用意し、表情変化顔画像生成部22に入力する。表情変化顔画像生成部22は、例えば、基本顔画像の顔の特徴点を抽出し、その特徴点をあるルールに従って変化させることにより、認識対象人物Xの基本顔画像の顔とは異なる他の表現(例えば、笑顔、泣き顔、怒った顔等)の表情変化顔画像を複数生成する。これにより、認識対象人物Xの画像認識する場合の教師データ数の不足を解決する。同様に、他の認識対象人物Y、認識対象人物Z...等の認識したい人物の基本顔画像を用意し、表情変化顔画像生成部22により、基本顔画像の顔とは異なる他の表現の表情変化顔画像を複数生成する。
【0026】
次に、少なくとも1以上の認識対象人物の識別情報(例えば、氏名)と、少なくとも1以上の認識対象人物の基本顔画像と、少なくとも1以上の認識対象人物の基本顔画像を用いて表情変化顔画像生成部22により生成された複数の表情変化顔画像とを教師データとし、顔画像から認識対象人物を認識する学習モデル23を生成する。学習モデル23の出力は、入力された顔画像の顔が、認識対象人物の顔である確率(確からしさ)である。
【0027】
学習モデル23の学習が完了した後、認識対象人物の画像認識の処理を開始する。以下の説明では、カメラ1は、選挙の演説の模様を撮影しており、その映像は
図5に示す映像であり、表示装置3に表示される映像である。
【0028】
カメラ1の映像は、顔画像抽出部24に入力される。顔画像抽出部24は、カメラ1の映像中の人物の顔を検出する。カメラ1の映像で検出された顔は、
図6に示す如く、顔A、顔B、顔C、顔D、顔E、顔Fである。尚、
図6の映像中において、検出された人物の顔を点線の矩形で示しているが、これは検出を概念的に示しているだけであり、表示装置3には点線の矩形は表示されない。
【0029】
顔画像抽出部24は、カメラ1の映像から、顔A、顔B、顔C、顔D、顔E、顔Fをそれぞれ囲む矩形領域の画像を抽出し、顔Aの顔画像、顔Bの顔画像、顔Cの顔画像、顔Dの顔画像、顔Eの顔画像、顔Fの顔画像として、学習モデル23に出力する。
【0030】
学習モデル23は、顔Aの顔画像、顔Bの顔画像、顔Cの顔画像、顔Dの顔画像、顔Eの顔画像、顔Fの顔画像に対して、各認識対象人物の顔である確率(確からしさ)を出力する。ここでは、学習モデル23の出力が、認識対象人物Xについて、顔Aの顔画像=0.1、顔Bの顔画像=0.85、顔Cの顔画像=0.05、顔Dの顔画像=0.9、顔Eの顔画像=0.3、顔Fの顔画像=0.1であり、認識対象人物Yについて、顔Aの顔画像=0.1、顔Bの顔画像=0.5、顔Cの顔画像=0.01、顔Dの顔画像=0.6、顔Eの顔画像=0.9、顔Fの顔画像=0.1であり、認識対象人物Zについて、顔Aの顔画像=0.2、顔Bの顔画像=0.1、顔Cの顔画像=0.1、顔Dの顔画像=0.2、顔Eの顔画像=0.1、顔Fの顔画像=0.9であり、...、とする。
【0031】
認識対象人物認識部25は、学習モデル23の出力値を入力する。ここで、認識対象人物認識部25は、所定の閾値以上の確率を持つ顔画像の顔を、認識対象人物として認識する。ここで、閾値を0.8とすると、顔B及び顔Dが認識対象人物Xの顔であり、顔Eが認識対象人物Yの顔であり、顔Fが認識対象人物Zの顔であると認識する。そして、顔B及び顔Dを囲む矩形と「認識対象人物X」と、顔Eを囲む矩形と「認識対象人物Y」と、顔Fを囲む矩形と「認識対象人物Z」とを表示装置3に出力する。
【0032】
図7は、表示装置3に表示される認識結果の一例であり、顔B及び顔Dは矩形で囲まれ、矩形の下には識別情報である「認識対象人物X」が表示される。同様に、顔Eは矩形で囲まれ、矩形の下には識別情報である「認識対象人物Y」が表示される。同様に、顔Fは矩形で囲まれ、矩形の下には識別情報である「認識対象人物F」が表示される。
【0033】
第1の実施の形態によれば、教師データの絶対数の不足による認識精度の低下を防ぐことができる。
【0034】
<第1の実施の形態の変形例1>
第1の実施の形態の変形例を説明する。
【0035】
図8は第1の実施の形態の変形例の映像処理装置2のブロック図である。
【0036】
第1の実施の形態の変形例は、第1の実施の形態の情報処理装置2に、物品装着画像生成部26を追加している。
【0037】
物品装着顔画像生成部26は、変化顔画像生成部22と同様に、基本顔画像を用いて、基本顔画像の顔に物品を装着した認識対象人物の顔の画像(以下、物品装着顔画像と記載する)を生成する。物品装着顔画像は、例えば、
図9に示すように、認識対象人物の基本顔画像にメガネを装着した場合の顔画像である。ここで、物品は、顔に装着するものであれば何でも良いが、例えば、めがね、サングラス、帽子、ヘルメット、アクセサリー等がある。
【0038】
第1の実施の形態の変形例は、認識対象人物がメガネなどを装着した場合の顔画像を生成し、学習モデル23の教師データとすることにより、学習モデル23の認識精度が高まるという効果がある。
【0039】
<第1の実施の形態の変形例2>
第1の実施の形態の変形例2を説明する。
【0040】
第1の実施の形態の顔画像抽出部24は、映像中に写っている人物と思われる全ての顔を検出している。しかし、放送などで使用される映像では、映像の中心付近に位置する人物は重要な被写体であることが多い。すなわち、認識対象人物が、映像の中心付近に位置することが多い。そこで、顔画像抽出部24は、顔を認識する領域を限定し、その領域に存在する人物のみの顔を検出するように構成する。
図10の例では、映像の中心付近に識別対象領域を設定し、その識別対象領域内の人物のみ顔を検出するようにしているので、検出される顔は、顔B、顔C及び顔Dとなり、第1の実施の形態と比べて検出される顔の数が減り、認識処理する数を削減すことができる。
【0041】
第1の実施の形態の変形例2は、顔を検出する領域を限定することにより、顔画像抽出部24による顔の検出数を減らすことにより、画像認識処理全体を高速化する効果を有する。
【0042】
<第1の実施の形態の変形例3>
第1の実施の形態の変形例3を説明する。
【0043】
放送等で使用される映像では、映像のセンター(中心)付近にいる人は重要な被写体であることが多い。また、グループショットの場合、センター(中心)付近にいる人と同程度の奥行に位置する人は同じく重要であることが多い。第1の実施の形態の変形例3は、これらの特徴を利用して、認識対象者を減らし、処理時間を短くする例を説明する。
【0044】
具体的に説明すると、顔画像抽出部24は、映像中の検出できる顔を検出し、その顔のサイズ(顔を囲む矩形のサイズ)を求める。
図11の例では、検出できる顔は顔Aから顔Fであり、顔Aから顔Fのサイズを求める。
【0045】
続いて、映像のセンター(中心)に最も近い位置に存在する人物の顔を認識対象とする。しかし、映像のセンター(中心)付近に位置に存在する人物を検出するのは、別途、骨格検出等の処理が必要となる。そこで、映像のセンター(中心)付近に位置に存在する人物の顔の位置を想定し、その位置を基準点とし、その基準点に最も近い顔を認識対象とする。具体的に説明すると、例えば、
図11に示すように、縦方向を上から30パーセント対70パーセントに分割する線と、横方向を50パーセント対50パーセントに分割する線との交点を基準点とする。そして、基準点に最も近い顔Bを認識対象とし、認識対象である顔Bのサイズ(顔を囲む矩形のサイズ)を検出し、これを基準サイズとする。
【0046】
次に、認識対象とした顔の基準サイズよりも一定以上小さい(例えば、70%以下)、もしくは、大きい(140%以上)サイズの顔は認識対象外とする。すなわち、それらの顔の顔画像を学習モデル23に出力しない。
図11の例では、上記の条件に合致し、顔B以外に認識対象となる顔は顔A、顔Cであり、顔D、顔E、顔Fは認識対象外となる。従って、学習モデル23に出力される顔画像は、
図12に示す如く、顔Aの顔画像、顔Bの顔画像及び顔Cの顔画像である。
【0047】
このような処理により、学習モデル23が処理する顔画像の数を削減することができ、結果として、画像認識処理全体を高速化する効果を有する。
【0048】
<第2の実施の形態>
第2の実施の形態を説明する。
【0049】
第2の実施の形態は、認識対象人物の顔の経過時間による顔の表情の変化を考慮して、画像認識を行うものである。
【0050】
図13は第2の実施の形態の映像処理装置2のブロック図である。
【0051】
第2の実施の形態の映像処理装置2が、第1の実施の形態の映像処理装置2と異なる所は、時間情報(例えば、試合の経過時間、タイムコード)を学習モデルが入力し、認識対象人物の顔の経過時間による顔の表情の変化を考慮して、学習モデル23が認識対象人物の認識を行うことである。ここで、経過時間による顔の表情の変化とは、時間の経過にともなう顔の表情の変化であり、例えば、時間経過の疲労による顔の表情の変化、年齢経過の老いによる顔の表情の変化などである。
【0052】
具体的な説明をすると、競技などでは、開始から時間が経過するにつれて、選手は疲労し、顔に疲労が表れる。特に、マラソンなどの競技では、それが顕著である。
【0053】
そこで、変化顔画像生成部22は、基本顔画像から、競技開始から経過時間に応じた疲労度を加味した変化顔画像を生成する。例えば、
図14に示すように、競技開始から1時間経過後の疲労度を加味した変化顔画像a、競技開始から2時間経過後の疲労度を加味した変化顔画像bを生成する。
【0054】
学習モデル23が学習する際、教師データとして、各認識対象人物の基本顔画像記憶部21からの基本顔画像と、各認識対象人物の表情変化顔画像生成部22によって生成された表情変化顔画像とに加えて、表情変化顔画像の時間的情報を加える。上記の例では、変化顔画像aには競技開始から1経過後、変化顔画像bには競技開始から2時間経過後という時間的情報も教師データとして用いる。
【0055】
一方、画像認識の際には、顔画像に加えて、時間情報(競技開始からの経過時間)が入力データとして、学習モデル23に入力される。
【0056】
図15はマラソンを一例とした図である。マラソン開始後は、選手も疲労はなく、基本顔画像に近い顔をしているが、1時間経過すると、選手の顔は、疲労して変化顔画像bに近い顔になる。更に、2時間経過すると、選手の顔は、更に疲労して変化顔画像cに近い顔になる。
【0057】
学習モデル23は、上記の特徴を利用し、画像認識の際には、映像とともに、競技開始からのおよその経過時間を入力し、これを認識のパラメータのひとつとする。それにより、経過時間を考慮した画像認識を行うことができ、より、高精度な画像認識を行うことができる。
【0058】
<第3の実施の形態>
第3の実施の形態を説明する。
【0059】
図16は第3の実施の形態の映像処理装置2のブロック図である。
【0060】
第3の実施の形態の映像処理装置2が、第1の実施の形態の映像処理装置2と異なる所は、映像に関する映像関連情報を用いて、学習モデル23が認識対象人物の認識を行うことである。
【0061】
ニュースのような映像は、そのニュースの原稿等の映像関連情報が存在する。原稿等は、その映像に存在する人物の氏名等が記載されている場合が多い。そこで、原稿などのテキストデータから抽出した認識対象人物の識別情報(例えば、氏名)を、そのテキストデータと映像との対応関係(例えば、タイムコード等)を用いて、学習モデル23が認識している映像時に学習モデル23に入力する。
【0062】
学習モデル23は、入力された認識対象人物の識別情報に対応する認識対象人物の確からしさに重み付けを行う。これにより、学習モデル23の認識精度を高めることができる。
【0063】
<第4の実施の形態>
図17は第4の実施の形態の映像処理装置2のブロック図である。
【0064】
第4の実施の形態の映像処理装置2が、第1の実施の形態の映像処理装置2と異なる所は、認識対象人物認識部25が認識した認識対象人物の顔のうち経時的変化を検出しない認識対象人物を認識対象から除外する認識対象除外部27を更に備えることである。
【0065】
学習モデル23は、認識対象候補人物の顔は識別することはできるが、実際にその場所にいる認識対象人物と、ポスター又は絵画やフィギュア等に写った認識対象人物とを区別することはできない。例えば、
図7に示すように、第1の実施の形態では、実際にその場所にいる認識対象人物の顔と、ポスターに写った認識対象人物の顔とを区別せず、認識対象人物の顔として検出している。
【0066】
しかし、実際にその場所にいる認識対象人物と、ポスター又は絵画やフィギュア等に写った認識対象人物とを区別し、実際にその場所にいる認識対象人物のみを識別して欲しい場合もある。
【0067】
そこで、実際にその場所にいる認識対象人物は、時間の経過とともに動いたり、笑ったりして、動きや表情の変化がある。このような性質を利用し、認識対象除外部27は、それらの認識対象人物の顔の経時的変化を検出し、経時的変化を検出しない認識対象人物の顔を除外することにより、ポスター又は絵画やフィギュア等に写った人物の顔を除外し、実際にその場所にいる認識対象人物の顔のみ認識することが出来る。
【0068】
ここで、経時的変化とは、認識対象人物の顔画像が、経時適に変化することをいい、例えば、認識対象人物の顔画像から抽出された特徴点の位置等の変化である。認識対象除外部27は、認識対象人物の顔画像のうち特徴点が変化している顔画像に対応する人物を認識対象人物として特定する。
【0069】
次に、第4の実施の形態の具体的な動作を説明する。
【0070】
認識対象人物認識部25は、
図18に示すように、顔Bを「認識対象人物X」、顔Dを「認識対象人物X」、顔Eを「認識対象人物Y」、顔Fを「認識対象人物F」と検出する。
【0071】
認識対象除外部27は、所定フレーム分の各認識対象人物の顔の顔画像を取得し、各認識対象人物の顔の特徴点の変化を検出する。ここで、顔Bは実際にその場所にいる認識対象人物の顔であり、顔D、顔E及び顔Fはポスターに写った認識対象人物の顔写真である。従って、
図19に示すように、顔Bは特徴点の変化が検出されるが、顔D、顔E及び顔Fは特徴点の変化が検出されない。
【0072】
認識対象除外部27は、特徴点の変化が検出されない顔D、顔E及び顔Fを認識対象人物の顔から除外し、特徴点の変化を検出した顔Bのみを認識対象人物として、表示装置3に出力する。
図20は、第4の実施の形態における表示装置3の表示例である。
図7と比べて、
図20の例では、実際にその場所にいる認識対象人物Xの顔Bのみが矩形で囲まれ、矩形の下に識対象人物Xが表示されている。
【0073】
第4の実施の形態は、ポスター又は絵画やフィギュア等に写った認識対象人物の顔は認識せず、実際にその場所にいる認識対象人物の顔のみ認識することが出来る。
【0074】
上述した映像処理装置2は、具体的には、各種の演算処理等を行うプロセッサを有するコンピュータシステムによって実現することもできる。
【0075】
図21はコンピュータシステムによって構成された映像処理装置2のブロック図である。
【0076】
映像処理装置2は、
図21に示す如く、プロセッサ101、メモリ(ROMやRAM)102、記憶装置(ハードディスク、半導体ディスクなど)103、入力装置(キーボード、マウス、タッチパネルなど)104、通信装置105を有するコンピュータ100により構成することができる。
【0077】
映像処理装置2は、記憶装置103に格納されたプログラムがメモリ102にロードされ、プロセッサ101により実行されることにより、表情変化顔画像生成部22、学習モデル23、顔画像抽出部24、認識対象人物認識部25、物品装着顔画像生成部26、認識対象除外部27の機能が実現されるものである。また、基本顔画像記憶部21は、記憶装置103に対応する。尚、基本顔画像記憶部21は、コンピュータ100と物理的に外部に設けられ、LAN等のネットワークを介してコンピュータ100と接続されていても良い。
【0078】
以上好ましい実施の形態をあげて本発明を説明したが、全ての実施の形態の構成を備える必要はなく、適時組合せて実施することができるばかりでなく、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
【符号の説明】
【0079】
1 カメラ
2 映像処理装置
3 表示装置
21 基本顔画像記憶部
22 表情変化顔画像生成部
23 学習モデル
24 顔画像抽出部
25 認識対象人物認識部
26 物品装着顔画像生成部
27 認識対象除外部