IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7524980判定方法、判定プログラム、及び情報処理装置
<>
  • 特許-判定方法、判定プログラム、及び情報処理装置 図1
  • 特許-判定方法、判定プログラム、及び情報処理装置 図2A
  • 特許-判定方法、判定プログラム、及び情報処理装置 図2B
  • 特許-判定方法、判定プログラム、及び情報処理装置 図3
  • 特許-判定方法、判定プログラム、及び情報処理装置 図4
  • 特許-判定方法、判定プログラム、及び情報処理装置 図5
  • 特許-判定方法、判定プログラム、及び情報処理装置 図6
  • 特許-判定方法、判定プログラム、及び情報処理装置 図7A
  • 特許-判定方法、判定プログラム、及び情報処理装置 図7B
  • 特許-判定方法、判定プログラム、及び情報処理装置 図8
  • 特許-判定方法、判定プログラム、及び情報処理装置 図9
  • 特許-判定方法、判定プログラム、及び情報処理装置 図10
  • 特許-判定方法、判定プログラム、及び情報処理装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-22
(45)【発行日】2024-07-30
(54)【発明の名称】判定方法、判定プログラム、及び情報処理装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240723BHJP
   G06V 10/62 20220101ALI20240723BHJP
   G06V 40/16 20220101ALI20240723BHJP
   G06V 40/40 20220101ALI20240723BHJP
【FI】
G06T7/00 510F
G06V10/62
G06V40/16 A
G06V40/40
【請求項の数】 7
(21)【出願番号】P 2022581139
(86)(22)【出願日】2021-02-15
(86)【国際出願番号】 JP2021005432
(87)【国際公開番号】W WO2022172430
(87)【国際公開日】2022-08-18
【審査請求日】2023-05-31
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】▲浜▼ 壮一
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2010-225118(JP,A)
【文献】特開2006-099614(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 - 7/90
G06V 10/00 - 20/90
G06V 40/00 - 40/70
(57)【特許請求の範囲】
【請求項1】
カメラにより撮影された、人物の画像領域を含む撮影画像を取得し、
取得した前記撮影画像から前記人物の画像領域以外の画像領域として、前記撮影画像の縁を外周とする環状の領域である周辺領域と、前記周辺領域の内周に囲まれた領域のうちの前記人物の画像領域以外の領域である背景領域とを含む画像領域を特定し、
前記背景領域に含まれる第1の位置と前記人物の画像領域に含まれる第3の位置との動きの分布状況に応じて前記撮影画像が前記人物の実物を撮影したものか否かを判定する第1の判定を行い、
前記第1の判定において前記撮影画像が前記人物の実物を撮影したものではないと判定された場合に、第2の判定として、前記第1の位置と前記周辺領域に含まれる第2の位置の動きの分布状況に応じて前記撮影画像が前記人物の表示物を撮影したものか否かの判定を行う、
ことをコンピュータが実行することを特徴とする判定方法。
【請求項2】
前記第2の判定は、前記第1の位置の動きと前記第2の位置の動きとの差異に基づいて行われることを特徴とする請求項に記載の判定方法。
【請求項3】
前記背景領域に含まれる前記撮影画像の各画素の動きベクトルについての平均を、第1の動きベクトルとして算出し、
前記周辺領域に含まれる前記撮影画像の各画素の動きベクトルについての平均を、第2の動きベクトルとして算出する、
ことを前記コンピュータが更に行い、
前記第2の判定は、前記第1の動きベクトルと前記第2の動きベクトルとの差分ベクトルの大きさに基づいて行われる、
ことを特徴とする請求項に記載の判定方法。
【請求項4】
前記第1の判定は、前記第1の位置の動きと前記第3の位置の動きとの差異に基づいて行われることを特徴とする請求項に記載の判定方法。
【請求項5】
前記背景領域に含まれる前記撮影画像の各画素の動きベクトルについての平均を、第1の動きベクトルとして算出し、
前記人物の画像領域に含まれる前記撮影画像の各画素の動きベクトルについての平均を、第3の動きベクトルとして算出する
ことを前記コンピュータが更に行い、
前記第1の判定は、前記第1の動きベクトルと前記第3の動きベクトルとの差分ベクトルの大きさに基づいて行われる、
ことを特徴とする請求項に記載の判定方法。
【請求項6】
カメラにより撮影された、人物の画像領域を含む撮影画像を取得し、
取得した前記撮影画像から前記人物の画像領域以外の画像領域として、前記撮影画像の縁を外周とする環状の領域である周辺領域と、前記周辺領域の内周に囲まれた領域のうちの前記人物の画像領域以外の領域である背景領域とを含む画像領域を特定し、
前記背景領域に含まれる第1の位置と前記人物の画像領域に含まれる第3の位置との動きの分布状況に応じて前記撮影画像が前記人物の実物を撮影したものか否かを判定する第1の判定を行い、
前記第1の判定において前記撮影画像が前記人物の実物を撮影したものではないと判定された場合に、第2の判定として、前記第1の位置と前記周辺領域に含まれる第2の位置の動きの分布状況に応じて前記撮影画像が前記人物の表示物を撮影したものか否かの判定を行う、
処理をコンピュータに実行させるための判定プログラム。
【請求項7】
カメラにより撮影された、人物の画像領域を含む撮影画像を取得する画像取得部と、
取得した前記撮影画像から前記人物の画像領域以外の画像領域として、前記撮影画像の縁を外周とする環状の領域である周辺領域と、前記周辺領域の内周に囲まれた領域のうちの前記人物の画像領域以外の領域である背景領域とを含む画像領域を特定する領域特定部と、
前記背景領域に含まれる第1の位置と前記人物の画像領域に含まれる第3の位置との動きの分布状況に応じて前記撮影画像が前記人物の実物を撮影したものか否かを判定する第1の判定を行うと共に、前記第1の判定において前記撮影画像が前記人物の実物を撮影したものではないと判定された場合に、第2の判定として、前記第1の位置と前記周辺領域に含まれる第2の位置の動きの分布状況に応じて前記撮影画像が前記人物の表示物を撮影したものか否かの判定を行う判定部と、
を備えることを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像の判定の技術に関する。
【背景技術】
【0002】
生体認証技術は、指紋、顔、静脈などの生体特徴を用いて本人確認を行う技術である。生体認証技術では、確認が必要な場面において取得した生体特徴を、予め登録しておいた生体特徴と比較(照合)し、両者が一致するか否かを判定することによって本人確認を行う。
【0003】
生体認証技術のうちのひとつである顔認証技術は、非接触で本人確認できる手段として注目されている。顔認証技術は、パーソナル・コンピュータ(PC)やスマートフォンなどの個人利用の端末のアクセス管理、入退室の管理、空港での搭乗ゲートでの本人確認など、様々な用途で利用されている。
【0004】
この顔認証技術において生体特徴として利用する顔画像の情報は、指紋認証や手のひら静脈認証などの他の生体認証技術において生体特徴として利用する情報とは異なり、特殊なセンサを用いずに、一般的なカメラでの撮影によっても取得できてしまう。また、顔画像は、ソーシャル・ネットワーキング・サービス(SNS)などでインターネット上に公開されている場合も多い。このため、公開されている顔画像を印刷した写真や、当該顔画像が表示されているスマートフォンなどの画面をカメラに提示することによって他人が本人になりすます不正行為が行われる懸念がある。そこで、カメラにより撮影された撮影画像が、人物の実物(撮影場所に実際にいる人物)を撮影したものか、あるいは、人物の写真や人物を映している表示画面などといった人物の表示物を撮影したものかを判定するための技術が幾つか提案されている。
【0005】
本人の顔が写っている写真や本人の顔を映している表示画面を撮影した画像と、認証情報として予め登録されている本人の顔画像とは一見して見分けがつきにくい。そこで、赤外線カメラを用いて取得される赤外線画像や、深度カメラなどを用いて取得される三次元情報を利用して、撮影対象物の特性を捉える手法が提案されている(例えば、特許文献1~特許文献3参照)。
【0006】
また、撮影画像が人物の表示物を撮影したものであった場合、そのような表示物が要求に対する応答をその場で行うことは不可能である。このことを利用し、所定の動きを認証対象者に入力させる技術や、装置の表示に対する認証対象者の応答を見る技術、更には、自然な人の動作(瞬きなど)の検出によって人物が生体か否かを判定する技術が提案されている(例えば、特許文献4~特許文献9参照)。
【0007】
更には、撮影画像における、人物の画像領域の特徴や人物の画像領域以外の画像領域(背景の画像領域)の特徴を利用して、撮影画像が人物の実物を撮影したものか否かの判定を行う技術が幾つか提案されている。より詳細には、例えば、撮影画像における人物領域以外の領域である背景領域についての特徴量に所定値以上の変動がある場合に対象物を非生体と判別するという技術が提案されている。また、例えば、撮影画像における顔領域と背景領域とのそれぞれの動き特徴量の類似度を用いて撮影対象が写真と人間とのどちらであるかを判定するという技術も提案されている(例えば、特許文献10~特許文献12参照)。
【0008】
この他、画像の判定において利用される技術が幾つか提案されている。
【0009】
例えば、撮影画像から、物体の画像領域や人の顔の画像領域を検出する技術が提案されている(例えば、非特許文献1~非特許文献4参照)。
【0010】
また、例えば、時系列の画像を構成する各画素の輝度勾配の変化から得られるオプティカルフローを利用して、画像の動きを抽出する技術が提案されている(例えば、非特許文献5参照)。
【先行技術文献】
【特許文献】
【0011】
【文献】国際公開第2009/107237号
【文献】特開2005-259049号公報
【文献】国際公開第2009/110323号
【文献】特開2016-152029号公報
【文献】国際公開第2019/151368号
【文献】特開2008-000464号公報
【文献】特開2001-126091号公報
【文献】特開2008-090452号公報
【文献】特開2006-330936号公報
【文献】特開2010-225118号公報
【文献】特開2006-099614号公報
【文献】特開2016-173813号公報
【非特許文献】
【0012】
【文献】Hengshuang Zhao et al., “Pyramid Scene Parsing Network”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, p. 2881-2890
【文献】Wei Liu et al., “SSD: Single Shot MultiBox Detector”, European Conference on Computer Vision (ECCV) 2016, Springer International Publishing, 2016, p. 21-37
【文献】Joseph Redmon et al., "You Only Look Once: Unified, Real-Time Object Detection", 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, p. 779-788
【文献】Kaipeng Zhang et al., "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks", IEEE Signal Processing Letters (SPL), Volume 23, Issue 10, Oct. 2016, p. 1499-1503
【文献】Gunnar Farneback, “Two-Frame Motion Estimation Based on Polynomial Expansion” In Proceedings of the 13th Scandinavian Conference on Image Analysis (SCIA 2003), 2003, p. 363 - 370
【発明の概要】
【発明が解決しようとする課題】
【0013】
顔認証の実施時に撮影された画像がブレていることがある。このようなブレは、例えば、電車などの車内でノートPCを膝の上に乗せて使用する場合や、カメラの固定が堅牢でないために周囲の振動でカメラが揺れてしまう場合などに発生する。このような、撮影時のカメラブレに起因して生じるブレが撮影画像に存在すると、当該撮影画像が人物の表示物を撮影したものか否かの判定の精度を低下させてしまうことがある。
【0014】
前述したように、撮影画像における人物領域以外の領域である背景領域についての特徴量に所定値以上の変動がある場合に対象物を非生体と判別するという技術が提案されている。この技術は、撮影画像が人物の実物を撮影したものである場合には背景領域の特徴量は殆ど変動しないことに着目し、このような変動の検出によって上述した判別を行うというものである。しかしながら、この技術は、前述したようなブレが存在する撮影画像からも背景領域の特徴量の変動を検出してしまう。このため、撮影画像にブレが存在する場合には、この技術は、対象物が生体であっても非生体と誤判別してしまう可能性がある。
【0015】
また、前述したように、撮影画像における顔領域と背景領域とのそれぞれの動き特徴量の類似度を用いて撮影対象が写真と人間とのどちらであるかを判定するという技術も提案されている。この技術は、人物が写っている写真を撮影して得た撮影画像では顔領域と背景領域との動きが連動することに着目し、この連動の検出によって上述した判定を行うというものである。ところが、前述したようなブレが存在する撮影画像では顔領域と背景領域との動きが連動する。このため、撮影画像にブレが存在する場合には、この技術は、撮影画像が人物の実物を撮影したものであっても写真を撮影したものと誤判定してしまう可能性がある。
【0016】
1つの側面において、本発明は、撮影画像が人物の表示物を撮影したものか否かの判定の精度を向上させることを目的とする。
【課題を解決するための手段】
【0017】
1つの案では、コンピュータは、カメラにより撮影された、人物の画像領域を含む撮影画像を取得する。コンピュータは、取得した撮影画像から人物の画像領域以外の画像領域として、撮影画像の縁を外周とする環状の領域である周辺領域と、周辺領域の内周に囲まれた領域のうちの人物の画像領域以外の領域である背景領域とを含む画像領域を特定する。コンピュータは、背景領域に含まれる第1の位置と人物の画像領域に含まれる第3の位置との動きの分布状況に応じて撮影画像が人物の実物を撮影したものか否かを判定する第1の判定を行う。コンピュータは、第1の判定において撮影画像が人物の実物を撮影したものではないと判定された場合に、第2の判定として、第1の位置と周辺領域に含まれる第2の位置の動きの分布状況に応じて撮影画像が人物の表示物を撮影したものか否かの判定を行う。
【発明の効果】
【0018】
1つの側面によれば、撮影画像が人物の表示物を撮影したものか否かの判定の精度が向上する。
【図面の簡単な説明】
【0019】
図1】撮影画像の各画像領域を説明する図である。
図2A】撮影時にカメラブレが発生している場合における撮影画像の各画像領域の動きの同期・非同期の様子を説明する図(その1)である。
図2B】撮影時にカメラブレが発生している場合における撮影画像の各画像領域の動きの同期・非同期の様子を説明する図(その2)である。
図3】例示的な情報処理装置の構成を示す図である。
図4】コンピュータのハードウェア構成例を示す図である。
図5】撮影画像判定処理の処理内容を示したフローチャートである。
図6】画像領域特定処理の処理内容を示したフローチャートである。
図7A】人物領域の特定の手法の例を説明する図(その1)である。
図7B】人物領域の特定の手法の例を説明する図(その2)である。
図8】背景領域の特定の手法の例を説明する図である。
図9】動き抽出処理の処理内容を示したフローチャートである。
図10】判定処理の処理内容を示したフローチャートである。
図11】撮影画像のペアを複数組用いて画像の動きベクトルを取得する例を説明する図である。
【発明を実施するための形態】
【0020】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0021】
本実施形態では、カメラにより撮影された撮影画像における人物の画像領域以外の画像領域に含まれる複数の位置の動きの分布状況に応じて、撮影画像が人物の表示物を撮影したものか否かの判定を行う。この手法について説明する。
【0022】
本実施形態では、まず、カメラにより撮影された撮影画像から各画像領域を検出する。
【0023】
図1は撮影画像10の各画像領域を説明する図である。本実施形態では、この撮影画像10から、周辺領域11、人物領域12、及び背景領域13の各画像領域を検出する。
【0024】
周辺領域11は、撮影画像10の外周部の領域であって、撮影画像10の縁を外周とする環状の領域である。また、人物領域12及び背景領域13は、どちらも、周辺領域11の内周に囲まれている領域である。このうちの人物領域12は、人物が表されている画像領域である。一方、背景領域13は、人物領域12以外の領域であって、人物以外のものが表されている領域である。
【0025】
撮影画像10が人物の実物を撮影したものである場合には、当該人物が人物領域12に表示され、撮影画像10の撮影時における当該人物の実際の背景が背景領域13と周辺領域11との両方に表示される。但し、周辺領域11には、背景領域13に表示される背景についての周辺の光景が表示される。
【0026】
一方、撮影画像10が人物の表示物を撮影したものである場合には、撮影画像10の撮影時に表示物に表示されている影像が人物領域12と背景領域13との両方に表示され、撮影画像10の撮影時における表示物の周辺の光景が周辺領域11に表示される。但し、人物領域12には、表示物に表されている人物の影像が表示され、背景領域13には、当該表示物で人物と共に表されている背景の影像が表示される。
【0027】
人物の実物の撮影時にカメラブレが発生した場合、当該人物の実際の背景がどちらにも表示されている周辺領域11と背景領域13とでは画像の動きが同期する。一方、当該人物が表示されている人物領域12は背景領域13とは画像の動きが同期しない。これに対し、人物の表示物の撮影時にカメラブレが発生した場合には、当該表示物の表示内容がどちらにも表示されている人物領域12と背景領域13とで画像の動きが同期する。一方、表示物の周辺の光景が表示されている周辺領域11は背景領域13とは画像の動きが同期しない。このような、カメラブレが発生した場合の撮影画像10の各画像領域の動きの同期・非同期の様子について、図2A及び図2Bを用いて説明する。
【0028】
図2A及び図2Bにおいて、実線のグラフは人物の実物を撮影して得た撮影画像10についての差分ベクトルの大きさの挙動を表しており、破線のグラフは表示物を撮影して得た撮影画像10についての差分ベクトルの大きさの挙動を表している。
【0029】
図2A及び図2Bのグラフのそれぞれにおける横軸は、撮影画像10の撮影時刻を表している。図2Aのグラフでは、人物領域12の動きを表す動きベクトルと背景領域13の動きを表す動きベクトルとの差分ベクトルの大きさが縦軸方向で表されている。一方、図2Bのグラフでは、周辺領域11の動きを表す動きベクトルと背景領域13の動きを表す動きベクトルとの差分ベクトルの大きさが縦軸方向で表されている。
【0030】
撮影画像10における2つの領域の動きが同期している場合には、当該2つの領域の動きについての差分ベクトルの大きさは小さくなり、2つの領域の動きが同期していない場合には、当該2つの領域の動きについての差分ベクトルの大きさは大きくなる。
【0031】
図2Aのグラフでは、表示物を撮影した撮影画像10についての差分ベクトルの大きさは小さく、人物の実物を撮影した撮影画像10についての差分ベクトルの大きさは大きい。従って、表示物を撮影した撮影画像10についての人物領域12と背景領域13との動きはほぼ同期しており、その一方で、人物の実物を撮影した撮影画像10についての人物領域12と背景領域13との動きは同期していないことが分かる。
【0032】
これに対し、図2Bのグラフでは、人物の実物を撮影した撮影画像10についての差分ベクトルの大きさは小さく、表示物を撮影した撮影画像10についての差分ベクトルの大きさは大きい。従って、人物の実物を撮影した撮影画像10についての周辺領域11と背景領域13との動きはほぼ同期しており、その一方で、表示物を撮影した撮影画像10についての周辺領域11と背景領域13との動きは同期していないことが分かる。
【0033】
本実施形態では、このような、ブレのある撮影画像10における各画像領域の動きの同期・非同期の関係に着目し、各画像領域に含まれるそれぞれの位置の動きの分布状況に応じて、撮影画像10が表示物を撮影したものか否かの判定を行うようにする。
【0034】
次に、撮影画像10が人物の表示物を撮影したものか否かの判定を行う装置の構成について説明する。図3は、例示的な情報処理装置20の構成を示している。
【0035】
情報処理装置20にはカメラ30が接続される。カメラ30は撮影対象を撮影して撮影画像10を出力する。カメラ30の本来の撮影対象は人物であり、例えば顔認証を行う場合には、カメラ30は認証対象者の顔を撮影する。なお、カメラ30は、撮影対象の撮影を繰り返し行って時系列の撮影画像10を出力する。時系列の撮影画像10は、撮影画像10の各領域の動きの抽出を行うために用いられる。
【0036】
情報処理装置20は、構成要素として、画像取得部21、領域特定部22、動き抽出部23、及び判定部24を備えている。
【0037】
画像取得部21は、カメラ30により撮影された撮影画像10を取得して蓄えておく。
【0038】
領域特定部22は、画像取得部21により取得された撮影画像10から、図1を用いて説明した各画像領域、より具体的には、人物領域12と人物領域12以外の領域(周辺領域11及び背景領域13)とを特定する。
【0039】
動き抽出部23は、領域特定部22により特定された各画像領域の動きを撮影画像10から抽出して、各画像領域に含まれるそれぞれの位置の動きの分布状況を取得する。
【0040】
判定部24は、動き抽出部23が取得した、各画像領域に含まれるそれぞれの位置の動きの分布状況に応じて、撮影画像10が人物の表示物を撮影したものか否かの判定を行う。
【0041】
なお、図3の情報処理装置20を、コンピュータとソフトウェアとの組合せにより構成するようにしてもよい。
【0042】
図4はコンピュータ40のハードウェア構成例を示している。
【0043】
コンピュータ40は、構成要素として、例えば、プロセッサ41、メモリ42、記憶装置43、読取装置44、通信インタフェース46、及び入出力インタフェース47の各ハードウェアを備えている。これらの構成要素はバス48を介して接続されており、構成要素間で相互にデータの授受を行える。
【0044】
プロセッサ41は、例えば、シングルプロセッサであっても、マルチプロセッサ及びマルチコアであってもよい。プロセッサ41は、メモリ42を利用して、例えば、後述する撮影画像判定処理の手順を記述した撮影画像判定処理プログラムを実行する。
【0045】
メモリ42は、例えば半導体メモリであり、RAM領域及びROM領域を含んでよい。記憶装置43は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
【0046】
読取装置44は、プロセッサ41の指示に従って着脱可能記憶媒体45にアクセスする。着脱可能記憶媒体45は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD-ROM、DVD等)などにより実現される。なお、USBは、Universal Serial Busの略称である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
【0047】
通信インタフェース46は、例えば、プロセッサ41の指示に従って通信ネットワーク(不図示)を介してデータを送受信する。
【0048】
入出力インタフェース47は、カメラ30から送られてくる撮影画像10の画像データ等の各種のデータを取得する。また、入出力インタフェース47は、プロセッサ41から出力される、後述の撮影画像判定処理の結果を出力する。
【0049】
このコンピュータ40のプロセッサ41により実行されるプログラムは、例えば、下記の形態で提供される。
(1)記憶装置43に予めインストールされている。
(2)着脱可能記憶媒体45により提供される。
(3)プログラムサーバなどのサーバから通信ネットワークを介して通信インタフェース46へ提供される。
【0050】
なお、コンピュータ40のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の機能部の一部または全部の機能がFPGA及びSoCなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。
【0051】
次に、撮影画像判定処理について説明する。図5は、この撮影画像判定処理の処理内容を示したフローチャートである。図4のコンピュータ40とソフトウェアとの組合せにより図3の情報処理装置20を構成する場合には、この撮影画像判定処理を記述した撮影画像判定プログラムをプロセッサ41に実行させるようにする。
【0052】
図5において、まず、S101では、撮影画像取得処理が行われる。この処理では、カメラ30から送られてくる、カメラ30により撮影された時系列の撮影画像10を、入出力インタフェース47を介して取得してメモリ42に蓄える処理が行われる。なお、本実施形態では、撮影画像10の外周は横長の矩形であるとする。以降の説明では、この矩形の長辺の方向を撮影画像10の横方向とする。また、この矩形の短辺の方向(撮影画像10の横方向に直交する方向)を撮影画像10の上下方向として、撮影画像10に表されている人物の頭部の方向を撮影画像10の上方向とし、当該人物の胴体の方向を撮影画像10の下方向とする。
【0053】
プロセッサ41は、このS101の処理を実行することで、図3の画像取得部21の機能を提供する。
【0054】
次に、S102において画像領域特定処理が行われる。この処理は、S101の処理により取得された撮影画像10から、人物領域12と人物領域12以外の領域(周辺領域11及び背景領域13)とを特定する処理である。この処理の詳細は後述する。
【0055】
次に、S103において動き抽出処理が行われる。この処理は、S102の処理により特定された各画像領域の動きを撮影画像10から抽出して、各画像領域に含まれるそれぞれの位置の動きの分布状況を取得する処理である。この処理の詳細は後述する。
【0056】
次に、S104において判定処理が行われる。この処理は、S102の処理により特定された各画像領域の動きを撮影画像10から抽出して、各画像領域に含まれるそれぞれの位置の動きの分布状況を取得する処理である。この処理の詳細は後述する。
【0057】
S104の処理を終えると、この撮影画像判定処理が終了する。
【0058】
次に、図5のS102の処理である画像領域特定処理の詳細を説明する。図6は画像領域特定処理の処理内容を示したフローチャートである。プロセッサ41は、この画像領域特定処理を実行することによって、図3の領域特定部22の機能を提供する。
【0059】
図6において、まず、S201では、メモリ42に蓄えられている時系列の撮影画像10の各々において周辺領域11を特定する処理が行われる。この処理では、撮影画像10における外周部の領域であって、矩形である撮影画像10の縁を外周とし、矩形である内周を有する環状の領域を、周辺領域11として特定する。
【0060】
なお、周辺領域11である環の幅は、過度に広くすると他の領域が狭くなって撮影画像10の判定の精度が却って低下してしまうことがある。このため、この幅を、必要とされる判定精度が十分に得られるような値を予め実験により求めるようにして設定することが好ましい。なお、本実施形態では、この幅の値を、撮影画像10の横幅の長さの5パーセントに設定する。
【0061】
次に、S202において、メモリ42に蓄えられている時系列の撮影画像10の各々において人物領域12を特定する処理が行われる。人物の領域を画像から特定する技術として多くの技術が周知であり、S202の処理として、これらの周知の技術のいずれを用いてもよい。
【0062】
例えば、画像内で人物に該当する画素を抽出するセマンテック・セグメンテーションという技術が知られている。セマンテック・セグメンテーションを実現する手法として、例えば、Convolutional Neural Network(CNN、畳み込みニューラルネットワーク)を用いる手法が知られている。前掲した非特許文献1において提案されている“Pyramid Scene Parsing Network”(PSPNet)は、CNNを用いてセマンテック・セグメンテーションを実現する手法の一例である。S202の処理として、このPSPNetを用いて、撮影画像10において周辺領域11の内周に囲まれている領域から人物領域12を特定するようにしてもよい。
【0063】
また、例えば、物体が表されている矩形領域(バウンディングボックス(Bounding Box)とも称されている)を画像から検出する技術が知られている。この矩形領域の検出を実現する手法としても、CNNを用いる手法が知られている。例えば、前掲した非特許文献2において提案されている”Single Shot MultiBox Detector”’(SSD)や、前掲した非特許文献3において提案されている”You Only Look Once”(YOLO)は、CNNを用いて、このような矩形領域を検出する手法の一例である。また、前掲した非特許文献4において提案されている”Multi-task Cascaded Convolutional Networks"(MTCNN)も、このような矩形領域を検出する手法の一例であるが、このMTCNNは顔の領域の検出に特化した手法である。S202の処理として、これらの矩形領域を検出する技術のいずれかを用いて、撮影画像10において周辺領域11の内周に囲まれている領域から人物領域12を特定するようにしてもよい。
【0064】
なお、PSPNetなどのセマンテック・セグメンテーションを用いて特定を行った場合には、周辺領域11の内周に囲まれている領域のうちの、頭部と胴体とを含む人物の身体部分が表されている領域が、図7Aに示すように人物領域12として特定される。一方、SSD、YOLO、MTCNNなどの手法により矩形領域の検出を行った場合には、周辺領域11の内周に囲まれている領域のうちの、人物の頭部を含む矩形領域が、顔領域14として検出される。この場合には、図7Bに示すように、顔領域14の矩形を、撮影画像10における下方向に、周辺領域11の内周に接する位置まで伸長させた矩形に含まれる領域を、人物領域12として特定して、人物の身体部分の一部も人物領域12に含めるようにするとよい。
【0065】
図6のフローチャートの説明を続ける。S202の処理に続くS203では、メモリ42に蓄えられている時系列の撮影画像10の各々において背景領域13を特定する処理が行われる。この処理では、撮影画像10のうちの、S201の処理により特定された周辺領域11と、S202の処理により特定された人物領域12とを除いた残余の領域を、背景領域13として特定する。
【0066】
なお、S202の処理において、顔領域14の矩形を撮影画像10の下方向に伸長させて人物領域12を特定した場合、上記のように残余の領域全てを背景領域13として特定すると、人物の身体の一部(肩部など)が背景領域13に含まれてしまうことがある。そこで、この場合には、図8に示すように、撮影画像10における横方向において周辺領域11の内周と人物領域12と矩形とに接する矩形の領域を、背景領域13として特定するようにするとよい。そして、この背景領域13における、撮影画像10における下方向の端を、顔領域14の矩形における当該下方向側の辺と、当該下方向の位置が等しくなるようにするとよい。このようにして背景領域13を特定すると、背景領域13に含まれてしまう人物の身体の領域が少なくなる。
【0067】
S203の処理を終えると、画像領域特定処理が終了し、プロセッサ41は、図5の撮影画像判定処理へと処理を戻す。
【0068】
以上までの処理が画像領域特定処理である。
【0069】
次に、図5のS103の処理である動き抽出処理の詳細を説明する。図9は動き抽出処理の処理内容を示したフローチャートである。プロセッサ41は、この動き抽出処理を実行することによって、図3の動き抽出部23の機能を提供する。
【0070】
図9において、まず、S301では、撮影画像10を構成する各画素における画像の動きベクトルを取得する処理が行われる。この処理では、図5のS101の処理によりメモリ42に蓄えられている時系列の撮影画像10のうちの2つでの輝度勾配の変化に基づいた動きベクトルの抽出が行われる。
【0071】
画像の動きベクトルを抽出する技術として多くの技術が周知であり、S301の処理として、これらの周知の技術のいずれを用いてもよい。例えば、このような技術のひとつとして、オプティカルフロー用いる技術が広く知られている。オプティカルフローの算出手法として、相関(ブロックマッチング法)による対応付け、勾配法による対応付け、特徴点追跡を利用した対応付けなど、様々な手法が知られている。前掲した非特許文献5において提案されている手法も、オプティカルフローの算出手法の一例である。S301の処理として、この非特許文献5において提案されている手法を用いて算出したオプティカルフローを用いて、撮影画像10についての二次元の動きベクトルを画素ごとに取得するようにしてもよい。
【0072】
次に、S302において、周辺領域11についての平均ベクトルを算出する処理が行われる。この処理では、周辺領域11に含まれる撮影画像10の各画素についてS301の処理により取得した動きベクトルの全画素についての平均を算出する処理が行われる。この処理により算出される平均ベクトルvpは、周辺領域11に含まれる位置の動きを表す動きベクトルの一例である。
【0073】
撮影画像10の周辺領域11についての平均ベクトルvpは2次元のベクトルである。本実施形態において、撮影画像10における横方向(x方向)の平均ベクトルvpの成分vpx及び上下方向(y方向)の成分vpyは、下記の[数1]式の計算を行うことによってそれぞれ算出される。
【0074】
【数1】
【0075】
なお、[数1]式において、vx(i,j)及びv(i,j)は、それぞれ、撮影画像10のx方向とy方向とで定義した2次元座標上の位置(i,j)で特定される画素(周辺領域11に含まれる画素)についての動きベクトルのx成分及びy成分の値である。また、npは、周辺領域11に含まれる画素の画素数である。つまり、[数1]式は、周辺領域11に含まれる各画素についての動きベクトルのx成分及びy成分の成分毎の合計を、周辺領域11の画素数でそれぞれ除算することで、平均ベクトルvpの成分vpx及びvpyをそれぞれ算出することを表している。
【0076】
次に、S303において、人物領域12についての平均ベクトルを算出する処理が行われる。この処理では、人物領域12に含まれる撮影画像10の各画素についてS301の処理により取得した動きベクトルの全画素についての平均を算出する処理が行われる。この処理により算出される平均ベクトルvfは、人物領域12に含まれる位置の動きを表す動きベクトルの一例である。なお、人物領域12についての平均ベクトルvfの算出の手法は、S302の処理に関して説明した、周辺領域11についての平均ベクトルvpの算出の手法と同様のものでよい。
【0077】
次に、S304において、背景領域13についての平均ベクトルを算出する処理が行われる。この処理では、背景領域13に含まれる撮影画像10の各画素についてS301の処理により取得した動きベクトルの全画素についての平均を算出する処理が行われる。この処理により算出される平均ベクトルvbは、背景領域13に含まれる位置の動きを表す動きベクトルの一例である。なお、背景領域13についての平均ベクトルvbの算出の手法についても、S302の処理に関して説明した、周辺領域11についての平均ベクトルvpの算出の手法と同様のものでよい。
【0078】
S304の処理を終えると、動き抽出処理が終了し、プロセッサ41は、図5の撮影画像判定処理へと処理を戻す。
【0079】
以上までの処理が動き抽出処理である。
【0080】
なお、図9のS302、S303、及びS304の各処理における平均ベクトルの算出において、平均ベクトルの算出の対象とする領域に、わずかな動きしか検出されない(動きベクトルの大きさがゼロに近い)画素が含まれている場合がある。例えば、一様な輝度を有している領域内の画素は、自身の周辺の画素と輝度の差が少ないために輝度勾配に変化が見られないために、正しくは大きく動いているのにもかかわらず僅かな動きしか検出されない場合がある。このような画素についての動きベクトルを用いて算出した平均ベクトルは、算出対象の領域の動きを表すベクトルとしての精度が低下していることがある。そこで、S301の処理において取得された動きベクトルの大きさが所定値よりも小さい画素については、平均ベクトルの算出に用いる画素から除外するようにしてもよい。
【0081】
また、図9のフローチャートでは、S301の処理により撮影画像10を構成する各画素における画像の動きベクトルを取得し、その後のS302、S303、S304の処理により各領域に含まれる画素についての平均ベクトルの算出を領域毎に行っている。この代わりに、撮影画像10を各領域に分割し、その後に、分割された撮影画像10に含まれる各画素における画像の動きベクトルを取得してから平均ベクトルを各領域について算出するようにしてもよい。
【0082】
次に、図5のS104の処理である判定処理の詳細を説明する。図10は判定処理の処理内容を示したフローチャートである。プロセッサ41は、この判定処理を実行することによって、図3の判定部24の機能を提供する。
【0083】
図10において、まず、S401では第1の差分ベクトルを算出する処理が行われる。第1の差分ベクトルvdiff1は、人物領域12に含まれる位置の動きを表す動きベクトルと背景領域13に含まれる位置の動きを表す動きベクトルとの差であり、本実施形態では下記の[数2]式の計算を行うことによってそれぞれ算出される。
【0084】
【数2】
【0085】
なお、[数2]式において、vf及びvbは、人物領域12及び背景領域13のそれぞれについての平均ベクトルである。また、vfx及びvfyは、人物領域12についての平均ベクトルvfのx成分及びy成分のそれぞれの値であり、vbx及びvbyは、背景領域13についての平均ベクトルvbのx成分及びy成分のそれぞれの値である。
【0086】
このようにして算出される第1の差分ベクトルvdiff1は、背景領域13に含まれる位置の動きと人物領域12に含まれる位置の動きとの差異を表す指標の一例であって、当該2つの位置の動きの分布状況を表すものの一例である。
【0087】
次に、S402において第2の差分ベクトルを算出する処理が行われる。第2の差分ベクトルvdiff2は、背景領域13に含まれる位置の動きを表す動きベクトルと周辺領域11に含まれる位置の動きを表す動きベクトルとの差であり、本実施形態では下記の[数3]式の計算を行うことによってそれぞれ算出される。
【0088】
【数3】
【0089】
なお、[数3]式において、vb及びvpは、背景領域13及周辺領域11のそれぞれについての平均ベクトルである。また、vbx及びvbyは、背景領域13についての平均ベクトルvbのx成分及びy成分のそれぞれの値であり、vpx及びvpyは、周辺領域11についての平均ベクトルvpのx成分及びy成分のそれぞれの値である。
【0090】
このようにして算出される第2の差分ベクトルvdiff2は、背景領域13に含まれる位置の動きと周辺領域11に含まれる位置の動きとの差異を表す指標の一例であって、当該2つの位置の動きの分布状況を表すものの一例である。
【0091】
次に、S403において、S401の処理により算出された第1の差分ベクトルvdiff1の大きさが、第1の閾値以上であるか否かを判定する処理が行われる。
【0092】
第1の差分ベクトルvdiff1の大きさは、第1の差分ベクトルvdiff1についてのx成分の値とy成分の値との2乗和の平方根を計算することによって算出される。
【0093】
第1の閾値は予め設定しておく値である。例えば、カメラ30を揺らしながら撮影した、人物の表示物についてのブレを含む撮影画像10における背景領域13についての平均ベクトルvbの大きさを複数回の実験により予め推定しておき、得られた推定値の1/2程度の値を第1の閾値として設定する。
【0094】
このS403の処理において、第1の差分ベクトルvdiff1の大きさが第1の閾値以上であると判定されたとき(判定結果がYESのとき)には、背景領域13の動きと人物領域12の動きとは非同期であるとみなして、S404に処理が進む。
【0095】
S404では、図10の判定処理の結果として、撮影画像10は人物の実物を撮影したものであるとの判定を下す処理が行われる。
【0096】
一方、S403の処理において、第1の差分ベクトルvdiff1の大きさが第1の閾値よりも小さいと判定されたとき(判定結果がNOのとき)にはS405に処理を進める。
【0097】
S405では、S402の処理により算出された第2の差分ベクトルvdiff2の大きさが、第2の閾値以上であるか否かを判定する処理が行われる。
【0098】
第2の差分ベクトルvdiff2の大きさは、第2の差分ベクトルvdiff2についてのx成分の値とy成分の値との2乗和の平方根を計算することによって算出される。
【0099】
第2の閾値は予め設定しておく値である。例えば、カメラ30を揺らしながら撮影した、人物の表示物についてのブレを含む撮影画像10における背景領域13についての平均ベクトルvbの大きさを複数回の実験により予め推定しておき、得られた推定値の1/2程度の値を第2の閾値として設定する。
【0100】
このS405の処理において、第2の差分ベクトルvdiff2の大きさが第2の閾値以上であると判定されたとき(判定結果がYESのとき)には、背景領域13の動きと周辺領域11の動きとは非同期であるとみなして、S406に処理が進む。
【0101】
S406では、図10の判定処理の結果として、撮影画像10は人物の表示物を撮影したものであるとの判定を下す処理が行われる。
【0102】
一方、S405の処理において、第2の差分ベクトルvdiff2の大きさが第2の閾値よりも小さいと判定されたとき(判定結果がNOのとき)には、背景領域13の動きと周辺領域11の動きとは同期しているとみなして、S404に処理が進む。従って、S404において、図10の判定処理の結果として、撮影画像10は人物の実物を撮影したものであるとの判定を下す処理が行われる。
【0103】
S404の処理若しくはS406の処理を終えるとS407に処理が進む。S407では、S404の処理若しくはS406の処理により下した判定の結果を、図5の撮影画像判定処理の処理結果として、入出力インタフェース47から出力させる処理が行われる。
【0104】
S407の処理を終えると、判定処理が終了し、プロセッサ41は、図5の撮影画像判定処理へと処理を戻す。
【0105】
以上までの処理が判定処理である。
【0106】
以上の撮影画像判定処理をプロセッサ41が実行することによって、図4のコンピュータ40が図3の情報処理装置20として動作し、撮影画像10が人物の表示物を撮影したものか否かの判定を精度良く行うことを可能にする。
【0107】
以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0108】
例えば、図9の動き検出処理におけるS301の処理では、時系列の撮影画像10のうちの2つを用いて撮影画像10を構成する各画素における画像の動きベクトルを取得するようにしている。この代わりに、図11に例示するように、時系列の撮影画像10のうちの2つからなる撮影画像10のペアを複数組用いてペア毎に各画素についての動きベクトルを取得し、得られた複数の動きベクトルの平均を、各画素についての動きベクトルとしてもよい。なお、図11は、4組の撮影画像10のペア毎に各画素の動きベクトルを取得し、得られた4つの動きベクトルの平均の動きベクトルを各画素について算出して、撮影画像10を構成する各画素における画像の動きベクトルを取得する例を表している。このようにすることで、取得される画像の動きベクトルの精度が向上する。
【0109】
また、各画素についての画像の動きベクトルとして、上記のようにして、時系列の撮影画像10のペア毎に求めた動きベクトルの平均を算出する場合に、移動平均を算出するようにしてもよい。
【0110】
更に、時系列の撮影画像10のペア毎に求めた動きベクトルの平均を算出する場合には、撮影画像10のフレーム毎に各領域の面積が異なるため、各領域の面積に応じた重み付き平均を算出するようにしてもよい。
【0111】
また、図11の例では、時系列で連続した5枚のフレームの撮影画像10のうちの隣接する2枚のクレームを1組のペアとして4組のペアを構成している。この代わりに、例えば、1組のペアを構成する2枚のフレームを、隣接する2枚のフレームとするのではなく、間に何枚かのフレームを挟んだ2枚のフレームとするようしてもよい。このようにすることで、1組のペアを構成する2枚のフレーム間での画像の違いが大きくなるので、例えば、カメラ30が非常に高いフレームレートでの撮影を行うものであっても、検出される画像の動きが安定する場合がある。
【0112】
なお、上述した実施形態では、図3の情報処理装置20に接続されるカメラ30としては、一般的なものを用いることを想定している。但し、撮影画像10がグレースケールの画像であっても画像の動きベクトルの取得は可能である。従って、グレースケールの画像を出力することが可能である、赤外線カメラや深度カメラをカメラ30として使用してもよい。
【符号の説明】
【0113】
10 撮影画像
11 周辺領域
12 人物領域
13 背景領域
14 顔領域
20 情報処理装置
21 画像取得部
22 領域特定部
23 動き抽出部
24 判定部
30 カメラ
40 コンピュータ
41 プロセッサ
42 メモリ
43 記憶装置
44 読取装置
45 着脱可能記憶媒体
46 通信インタフェース
47 入出力インタフェース
48 バス
図1
図2A
図2B
図3
図4
図5
図6
図7A
図7B
図8
図9
図10
図11