IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

<>
  • 特開-認識処理装置および認識処理方法 図1
  • 特開-認識処理装置および認識処理方法 図2
  • 特開-認識処理装置および認識処理方法 図3
  • 特開-認識処理装置および認識処理方法 図4
  • 特開-認識処理装置および認識処理方法 図5
  • 特開-認識処理装置および認識処理方法 図6
  • 特開-認識処理装置および認識処理方法 図7
  • 特開-認識処理装置および認識処理方法 図8
  • 特開-認識処理装置および認識処理方法 図9
  • 特開-認識処理装置および認識処理方法 図10
  • 特開-認識処理装置および認識処理方法 図11
  • 特開-認識処理装置および認識処理方法 図12
  • 特開-認識処理装置および認識処理方法 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024072346
(43)【公開日】2024-05-28
(54)【発明の名称】認識処理装置および認識処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240521BHJP
   G06V 10/776 20220101ALI20240521BHJP
【FI】
G06T7/00 350B
G06T7/00 660B
G06V10/776
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022183074
(22)【出願日】2022-11-16
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】小倉 卓也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096FA33
5L096FA52
5L096HA08
5L096HA11
5L096KA04
(57)【要約】
【課題】画像認識処理において人物をより適切に検出する。
【解決手段】認識処理装置10Aは、移動体に設けられるカメラ40によって撮影される映像を取得する映像取得部20と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出する人物検出部14と、取得した映像の連続する複数のフレームにおいて人物検出部14によって検出される人物の検出数のばらつきに基づいて、人物検出部14による人物の検出処理の安定性を判定する安定性判定部35と、安定性の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部36Aと、を備える。
【選択図】図8
【特許請求の範囲】
【請求項1】
移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、
単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、
前記取得した映像の連続する複数のフレームにおいて前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記人物検出部による人物の検出処理の安定性を判定する安定性判定部と、
前記安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置。
【請求項2】
前記安定性判定部は、前記人物検出部が前記第1検出モデルを用いる場合、前記第1検出モデルを用いた人物の検出の安定性を判定し、前記人物検出部が前記第2検出モデルを用いる場合、前記第2検出モデルを用いた人物の検出の安定性を判定し、
前記有効モデル判定部は、前記第1検出モデルまたは前記第2検出モデルのいずれかの安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する、請求項1に記載の認識処理装置。
【請求項3】
前記安定性判定部は、前記第1検出モデルを用いた人物の検出の安定性と、前記第2検出モデルを用いた人物の検出の安定性とを判定し、
前記有効モデル判定部は、前記第1検出モデルおよび前記第2検出モデルのそれぞれの安定性の比較結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する、請求項1に記載の認識処理装置。
【請求項4】
前記安定性判定部は、前記取得した映像の外周部分を除く範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項1から3のいずれか一項に記載の認識処理装置。
【請求項5】
前記安定性判定部は、前記取得した映像のうち複数の人物が含まれる範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項1から3のいずれか一項に記載の認識処理装置。
【請求項6】
前記安定性判定部は、前記取得した映像のうち複数の人物のそれぞれに隣接する範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項1から3のいずれか一項に記載の認識処理装置。
【請求項7】
移動体に設けられるカメラによって撮影される映像を取得するステップと、
単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、
前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定するステップと、
前記安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備える認識処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、認識処理装置および認識処理方法に関する。
【背景技術】
【0002】
車両の周囲を撮像した画像から歩行者などの対象物をパターンマッチング等の画像認識技術を用いて検出する技術が知られている。例えば、遠方用と近傍用を含む複数の認識辞書を用意し、複数の認識辞書を用いてパターンマッチングを行うことにより、検出精度を高める技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2022-17871号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
通学路や商店街といった人通りの多い場所を移動する場合、カメラの撮像方向に重なり合って見える複数の人物が映像に含まれることがある。撮像される複数の人物が歩いて移動する場合、映像に含まれる複数の人物の重なり合いの態様が時間経過とともに変化しうる。このような複数の人物を検出しようとする場合、複数の人物の重なり合いの態様によって、人物を検出できたりできなかったりすることがあり、人物を経時的に安定して検出できないことがあった。
【0005】
本発明は、上述の事情に鑑みてなされたものであり、画像認識処理において人物をより適切に検出する技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様の認識処理装置は、移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出する人物検出部と、取得した映像の連続する複数のフレームにおいて人物検出部によって検出される人物の検出数のばらつきに基づいて、人物検出部による人物の検出処理の安定性を判定する安定性判定部と、安定性の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える。
【0007】
本発明の別の態様は、認識処理方法である。この方法は、移動体に設けられるカメラによって撮影される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出するステップと、取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、検出の安定性を判定するステップと、安定性の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備える。
【発明の効果】
【0008】
本発明によれば、画像認識処理において人物をより適切に検出する技術を提供できる。
【図面の簡単な説明】
【0009】
図1】第1実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。
図2図2(a)~(d)は、単独人物画像の一例を示す図である。
図3図3(a)~(d)は、重畳人物画像の一例を示す図である。
図4】カメラの画角の一部領域に特定地点が含まれる場合を模式的に示す上面図である。
図5】特定状況ではない第1範囲と特定状況である第2範囲とを含む映像の一例を示す図である。
図6】人物検出結果が付加された表示用映像の一例を示す図である。
図7】第1実施形態に係る認識処理方法の流れの一例を示すフローチャートである。
図8】第2実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。
図9】安定性の判定対象となる映像の一部範囲の一例を示す図である。
図10】第2実施形態に係る認識処理方法の流れの一例を示すフローチャートである。
図11】第2実施形態に係る認識処理方法の流れの別の一例を示すフローチャートである。
図12】第3実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。
図13】第3実施形態に係る認識処理方法の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、図面を参照しつつ説明する。かかる実施の形態に示す具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、図面において、本発明に直接関係のない要素は図示を省略する。
【0011】
(第1実施形態)
図1は、第1実施形態に係る認識処理装置10の機能構成を模式的に示すブロック図である。認識処理装置10は、取得部12と、人物検出部14と、判定部16とを備える。認識処理装置10は、表示制御部18をさらに備えてもよい。認識処理装置10は、例えば、車両などの移動体に搭載され、車両の周囲における歩行者などの人物を検出する。本実施の形態では、認識処理装置10が車両に搭載される場合について例示する。認識処理装置10は、ドローンなどの飛行体に搭載されてもよい。
【0012】
本実施形態において示される各機能ブロックは、例えば、ハードウェアおよびソフトウェアの連携によって実現されうる。認識処理装置10のハードウェアは、コンピュータのCPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサおよびROM(Read Only Memory)やRAM(Random Access Memory)などのメモリをはじめとする素子や機械装置で実現される。認識処理装置10のソフトウェアは、コンピュータプログラム等によって実現される。
【0013】
取得部12は、映像取得部20を備える。映像取得部20は、カメラ40が撮像した映像を取得する。カメラ40は、移動体に搭載され、移動体の周囲の画像を撮像する。カメラ40は、例えば、移動体の前方の画像を撮像する。カメラ40は、移動体の後方を撮像してもよいし、移動体の側方を撮像してもよい。認識処理装置10は、カメラ40を備えてもよいし、カメラ40を備えなくてもよい。
【0014】
カメラ40は、赤外線を撮像するよう構成される。カメラ40は、いわゆる赤外線サーモグラフィであり、移動体の周辺の温度分布を画像化し、移動体の周辺に存在する熱源を特定できるようにする。カメラ40は、波長2μm~5μm程度の中赤外線を検出するよう構成されてもよいし、波長8μm~14μm程度の遠赤外線を検出するよう構成されてもよい。なお、カメラ40は、可視光を撮像するよう構成されてもよい。カメラ40は、赤色、緑色および青色のカラー画像を撮像するよう構成されてもよいし、可視光のモノクロ画像を撮像するよう構成されてもよい。本実施の形態において、カメラ40は、遠赤外線による熱画像を撮像するカメラとして説明する。カメラ40が撮像する映像は、例えば、毎秒30フレームなどの動画像である。
【0015】
取得部12は、位置情報取得部22を備えてもよい。位置情報取得部22は、位置センサ42によって測位される位置情報を取得する。位置センサ42は、移動体に搭載され、移動体の位置を測定する。位置センサ42は、例えば、GNSS(Global Navigation Satellite System)センサである。位置センサ42は、カメラ40の撮像位置を検出する。認識処理装置10は、位置センサ42を備えてもよいし、位置センサ42を備えなくてもよい。
【0016】
取得部12は、地図情報取得部24を備えてもよい。地図情報取得部24は、地図装置44から地図情報を取得する。地図装置44は、地図情報を記憶する装置であり、例えば、ナビゲーション装置である。地図情報は、人通りが多いと推定される場所を示す特定地点に関する情報を含む。人通りが多いと推定される場所は、例えば、駅周辺、通学路、商店街、商業施設周辺、観光地周辺などである。地図情報は、人通りが多いと推定される日時である特定日時に関する情報を含んでもよい。地図情報は、人通りが多いと推定される場所と日時の組み合わせを示す特定条件に関する情報を含んでもよい。認識処理装置10は、地図装置44を備えてもよいし、地図装置44を備えなくてもよい。地図情報取得部24は、図示しない無線通信機能を用いて、外部のサーバ等から地図情報を取得してもよい。
【0017】
取得部12は、時間情報取得部26を備えてもよい。時間情報取得部26は、計時装置46から時間情報を取得する。計時装置46は、例えば、現在日時を示す現在時間情報を生成する時計装置である。計時装置46は、カメラ40の撮像日時を出力する。認識処理装置10は、計時装置46を備えてもよいし、計時装置46を備えなくてもよい。
【0018】
取得部12は、方位情報取得部28を備えてもよい。方位情報取得部28は、方位センサ48によって測定される方位情報を取得する。方位センサ48は、移動体に搭載され、移動体の方位を測定する。方位センサ48は、例えば、加速度センサやジャイロセンサであり、移動体の向きまたは方角を検出する。方位センサ48は、例えば、カメラ40の撮像方向を検出する。認識処理装置10は、方位センサ48を備えてもよいし、方位センサ48を備えなくてもよい。
【0019】
人物検出部14は、映像取得部20が取得される映像において人物が含まれる領域を検出する。人物検出部14は、第1検出モデルを用いて人物を検出する第1検出部30と、第2検出モデルを用いて人物を検出する第2検出部32とを備える。人物検出部14は、第1検出部30および第2検出部32を並列的に動作させるよう構成されてもよいし、第1検出部30または第2検出部32の一方のみを選択的に動作させるよう構成されてもよい。人物検出部14は、用いる検出モデルを切り替えることによって、第1検出部30または第2検出部32の一方のみを選択的に機能させてもよい。
【0020】
第1検出部30は、単独人物画像を正解画像として使用する機械学習によって生成される第1検出モデルを用いて人物を検出する。単独人物画像とは、人物の全身像を含む画像であって、人物の背景に別の人物が含まれない画像である。
【0021】
図2(a)~(d)は、単独人物画像の一例を示す図である。図2(a),(b),(c),(d)のそれぞれの画像には、人物52a,52b,52c,52dの全身像が含まれる。図2(a),(b),(c),(d)のそれぞれには、人物52a,52b,52c,52dとは別の人物が含まれていない。単独人物画像は、例えば、人物52a~52dの全身像が含まれる領域を切り出すことによって生成される。単独人物画像は、例えば、縦方向と横方向の画像サイズが2:1となる縦長の矩形画像となるように切り出される。
【0022】
第2検出部32は、重畳人物画像を正解画像として使用する機械学習によって生成される第2検出モデルを用いて人物を検出する。重畳人物画像とは、人物の全身像を含む画像であって、人物の背景に別の人物の少なくとも一部(例えば、頭、上半身、下半身、腕、脚)が含まれる画像である。重畳人物画像は、複数の人物が重なり合って見える点で、単独人物画像とは異なる。
【0023】
図3(a)~(d)は、重畳人物画像の一例を示す図である。図3(a),(b),(c),(d)のそれぞれの画像には、破線で示される第1人物54a,54b,54c,54dと、第1人物とは別の第2人物56a,56b,56c,56dとが含まれる。第1人物54a~54dは、手前側に見える人物であり、全身像が見える状態となっている。第2人物56a~56dは、第1人物54a~54dの奥側に位置する人物である。第2人物56a~56dの全身の少なくとも一部は、第1人物54a~54dによって隠れて見えない状態となっている。重畳人物画像は、例えば、第1人物54a~54dの全身像が含まれる領域を切り出すことによって生成される。重畳人物画像は、例えば、縦方向と横方向の画像サイズが2:1となる縦長の矩形画像となるように切り出される。図3(a)~(d)の例では、重畳人物画像に2人の人物のみが含まれているが、重畳人物画像には3人以上の人物が含まれてもよい。
【0024】
機械学習に用いるモデルは、入力画像の画像サイズ(画素数)に対応する入力と、認識スコアを出力する出力と、入力と出力の間を接続する中間層とを含むことができる。中間層は、畳み込み層、プーリング層、全結合層などを含むことができる。中間層は、多層構造であってもよく、いわゆるディープラーニングが実行可能となるよう構成されてもよい。機械学習に用いるモデルは、畳み込みニューラルネットワーク(CNN)を用いて構築されてもよい。なお、機械学習に用いるモデルは上記に限られず、任意の機械学習モデルが用いられてもよい。
【0025】
第1検出モデルは、単独人物画像を用いて生成されるため、人通りの少ない場所などで単独で存在する人物を検出する精度が高い。第1検出モデルは、人通りの多い場所などで複数の人物が重なり合って見えるような状況では、人物の検出精度が低くなりやすい。一方、第2検出モデルは、重畳人物画像を用いて生成されるため、人通りの多い場所などで複数の人物が重なり合って見えるような状況において、手前側に見える人物を検出する精度が高い。第2検出モデルは、人通りの少ない場所などで単独で存在する人物の検出精度が低くなりやすい。
【0026】
第1検出モデルは、重畳人物画像を正解画像として使用しない機械学習によって生成されてもよい。第2検出モデルは、単独人物画像を正解画像として使用しない機械学習によって生成されてもよい。
【0027】
図1に戻り、判定部16は、状況判定部34を備える。状況判定部34は、人通りが多いと推定される状況(特定状況ともいう)であるか否かを判定する。状況判定部34は、映像取得部20が取得した映像の撮像位置を示す位置情報を用いて、特定状況であるか否かを判定する。状況判定部34は、例えば、位置情報取得部22が取得した位置情報を用いて、特定状況であるか否かを判定する。
【0028】
状況判定部34は、地図情報取得部24が取得した地図情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部34は、映像の撮像位置が地図情報に含まれる人通りが多いと推定される場所(つまり、特定地点)に合致する場合、特定状況であると判定してもよい。状況判定部34は、映像の撮像位置が特定地点に合致しない場合、特定状況ではないと判定してもよい。
【0029】
状況判定部34は、時間情報取得部26が取得した時間情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部34は、映像の撮像位置および撮像日時が地図情報に含まれる人通りが多いと推定される場所および日時の組み合わせ(つまり、特定条件)に合致する場合、特定状況であると判定してもよい。状況判定部34は、映像の撮像位置および撮像日時が特定条件に合致しない場合、特定状況ではないと判定してもよい。
【0030】
状況判定部34は、方位情報取得部28が取得した方位情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部34は、映像の撮像位置および撮像方向からカメラ40の画角に含まれる場所を特定してもよい。つまり、状況判定部34は、映像の撮像位置および撮像方向から、映像に含まれる場所を特定してもよい。状況判定部34は、映像に含まれる場所が地図情報に含まれる人通りが多いと推定される場所(つまり、特定地点)に合致する場合、特定状況であると判定してもよい。状況判定部34は、カメラ40の画角に含まれる場所が特定地点に合致しない場合、特定状況ではないと判定してもよい。
【0031】
状況判定部34は、位置情報、地図情報、時間情報および方位情報の任意の組み合わせを用いて、特定状況であるか否かを判定してもよい。状況判定部34は、映像に含まれる場所および撮像日時が特定条件に合致する場合、特定状況であると判定してもよい。状況判定部34は、映像に含まれる場所および撮像日時が特定条件に合致しない場合、特定状況ではないと判定してもよい。
【0032】
状況判定部34は、取得した映像の全範囲に対して特定状況であるか否かを判定してもよいし、取得した映像の一部範囲について特定状況であるか否かを判定してもよい。例えば、映像の第1範囲に特定地点が含まれ、映像の第2範囲に特定地点が含まれない場合、状況判定部34は、第1範囲について特定状況であると判定し、第2範囲について特定状況ではないと判定してもよい。
【0033】
図4は、カメラ40の画角62の一部範囲に特定地点が含まれる場合を模式的に示す上面図である。図4では、人通りが多いと推定される場所60の境界付近を移動体68が移動している。図4において、カメラ40の画角62の右側に相当する第1範囲64は特定地点または特定条件に合致せず、カメラ40の画角62の左側に相当する第2範囲66は特定地点または特定条件に合致する。この場合、状況判定部34は、第1範囲64が特定状況ではないと判定し、第2範囲66が特定状況であると判定する。
【0034】
図5は、特定状況ではない第1範囲64と特定状況である第2範囲66とを含む映像の一例を示す図である。図5の右側の第1範囲64にはオフィスビルがあり、第1範囲64に存在する人物の数は比較的少ない。一方、図5の左側の第2範囲66には商店街があるため、第2範囲66に存在する人物の数が比較的多い。
【0035】
図1に戻り、有効モデル判定部36は、状況判定部34の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する。つまり、有効モデル判定部36は、第1検出部30または第2検出部32のいずれの検出結果を有効とするかを判定する。
【0036】
有効モデル判定部36は、状況判定部34によって特定状況ではないと判定された場合、第1検出モデルを用いた人物の検出を有効とする。つまり、有効モデル判定部36は、状況判定部34によって特定状況ではないと判定された場合、第1検出部30による人物の検出を有効とする。有効モデル判定部36は、状況判定部34によって特定状況ではないと判定された場合、第2検出モデルを用いた人物の検出(つまり、第2検出部32による人物の検出)を無効としてもよい。
【0037】
有効モデル判定部36は、状況判定部34によって特定状況であると判定された場合、第2検出モデルを用いた人物の検出を有効とする。つまり、有効モデル判定部36は、状況判定部34によって特定状況であると判定された場合、第2検出部32による人物の検出を有効とする。有効モデル判定部36は、状況判定部34によって特定状況であると判定された場合、第1検出モデルを用いた人物の検出(つまり、第1検出部30による人物の検出)を無効としてもよい。
【0038】
有効モデル判定部36は、映像の一部範囲について特定状況であるか否かが判定された場合、映像の一部範囲について第1検出モデルまたは第2検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部36は、例えば、特定状況ではないと判定された映像の第1範囲について第1検出モデルを用いた人物の検出(つまり、第1検出部30による人物の検出)を有効とし、第2検出モデルを用いた人物の検出(つまり、第2検出部32による人物の検出)を無効としてもよい。有効モデル判定部36は、例えば、特定状況であると判定された映像の第2範囲について第2検出モデルを用いた人物の検出(つまり、第2検出部32による人物の検出)を有効とし、第1検出モデルを用いた人物の検出(つまり、第1検出部30による人物の検出)を無効としてもよい。
【0039】
人物検出部14は、有効モデル判定部36によって有効とされた検出モデルを用いて映像に含まれる人物を検出してもよい。人物検出部14は、有効モデル判定部36によって無効とされた検出モデルを機能させないようにしてもよい。人物検出部14は、状況判定部34によって第1検出モデルが有効とされた場合、第1検出部30のみを機能させ、第2検出部32の機能を停止させてもよい。人物検出部14は、状況判定部34によって第2検出モデルが有効とされた場合、第2検出部32のみを機能させ、第1検出部30の機能を停止させてもよい。人物検出部14は、状況判定部34の判定結果によらず、第1検出部30および第2検出部32を並列的に機能させてもよい。この場合、取得した映像の同一フレームに含まれる人物を第1検出部30および第2検出部32のそれぞれが検出してもよい。
【0040】
表示制御部18は、映像取得部20が取得した映像に人物検出部14による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置50に表示させる。表示装置50は、移動体に設けられる。表示装置50は、液晶ディスプレイ(LCD;Liquid Crystal Display)や有機エレクトロルミネッセンスディスプレイ(OELD;Organic Electro Luminescence Display)などの画像表示素子を含む。表示装置50は、例えば、移動体が車両の場合、車両の運転者が視認できる位置に配置される。認識処理装置10は、表示装置50を備えてもよいし、表示装置50を備えなくてもよい。
【0041】
表示制御部18は、人物検出部14によって検出された人物が含まれる領域を示すための枠画像などの付加画像を映像に重畳することにより、表示用映像を生成する。表示制御部18は、第1検出部30によって検出された人物に第1付加画像を付加し、第2検出部32によって検出された人物に第2付加画像を付加する。第1付加画像の表示態様は、第2付加画像の表示態様と同一であってもよい。第1付加画像の表示態様は、第2付加画像の表示態様とは異なってもよい。例えば、第1付加画像が黄色枠であり、第2付加画像が赤色枠であってもよい。
【0042】
表示制御部18は、有効モデル判定部36によって有効とされたモデルによって検出された人物に付加画像を付加する。表示制御部18は、有効モデル判定部36によって無効とされたモデルによって検出された人物には付加画像を付加しない。表示制御部18は、人物検出部14によって人物が検出されない場合、取得した映像をそのまま表示用映像とし、取得した映像をそのまま表示装置50に表示させる。
【0043】
図6は、人物検出結果が付加された表示用映像の一例を示す図である。図6は、図5に示す映像を取得したときに表示制御部18によって生成される表示用映像である。特定状況ではない第1範囲64では、第1検出部30によって検出された人物を示す枠画像である第1付加画像70が重畳される。特定状況である第2範囲66では、第2検出部32によって検出された人物を示す枠画像である第2付加画像72a,72b,72c,72d,72eが重畳される。
【0044】
図7は、第1実施形態に係る認識処理方法の流れの一例を示すフローチャートである。映像取得部20は、カメラ40が撮像した映像を取得する(ステップS10)。位置情報取得部22は、位置センサ42から映像の撮像位置を示す位置情報を取得する(ステップS12)。状況判定部34は、撮像位置に基づいて、特定状況であるか否かを判定する(ステップS14)。状況判定部34が特定状況であると判定する場合(ステップS14のYes)、有効モデル判定部36は、第2検出モデルを有効とし、人物検出部14は、重畳人物画像を正解画像として機械学習させた第2検出モデルを用いて映像に含まれる人物を検出する(ステップS16)。状況判定部34が特定状況ではないと判定する場合(ステップS14のNo)、有効モデル判定部36は、第1検出モデルを有効とし、人物検出部14は、単独人物画像を正解画像として機械学習させた第1検出モデルを用いて映像に含まれる人物を検出する(ステップS18)。表示制御部18は、映像取得部20が取得した映像に人物検出部14による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置50に表示させる(ステップS20)。ステップS10からステップS20までの処理は、認識処理装置10が動作している間、または、カメラ40によって映像が撮像されている間、繰り返し実行される。
【0045】
図7において、ステップS14の判定は、特定状況である範囲が存在するか否かを判定してもよい。この場合、ステップS16の処理は、特定状況である範囲に対して、第2検出モデルを有効として人物を検出し、特定状況ではない範囲に対して、第1検出モデルを有効として人物を検出する。
【0046】
本実施形態によれば、人通りが少ないと推定される特定状況ではない場合に、映像に含まれる人物を第1検出部30により検出する。その結果、人通りが少ないために複数の人物が重なり合わずに単独で見える可能性が高い状況下において、単独の人物を適切に検出することができる。
【0047】
本実施形態によれば、人通りが多いと推定される特定状況である場合に、映像に含まれる人物を第2検出部32により検出する。その結果、人通りが多いために複数の人物が重なり合って見える可能性が高い状況下において、重なり合って見える人物を適切に検出することができる。
【0048】
仮に、重なり合って見える人物を第1検出部30により検出しようとする場合、複数の人物の重なりの態様に応じて人物を検出できたり検出できなかったりする事象が発生する可能性がある。例えば、第1人物と第2人物の重なりの程度が大きい場合、単独人物画像との相違が大きいために、第1検出部30によって第1人物と第2人物の双方を検出できない可能性がある。一方、第1人物と第2人物の重なりの程度が小さい場合、単独人物画像の差異が小さいために、第1検出部30によって第1人物のみを検出できる可能性があり、第1検出部30によって第1人物と第2人物の双方を検出できる可能性がある。複数の人物が歩いて移動しているような場合、映像に含まれる複数の人物の重なりの態様は経時的に変化しうる。この場合、映像を構成する複数のフレームにおいて、第1検出部30によって人物が検出されるフレームと、第1検出部30によって人物が検出されないフレームとが連続する可能性がある。このような第1検出部30の人物検出結果に基づいて枠画像などの付加画像を付加すると、付加画像が表示されるフレームと、付加画像が表示されないフレームとが連続し、付加画像が点滅するように経時的に変動して表示される可能性がある。映像に人物が含まれているにも拘わらず、表示用映像において付加画像が点滅するように変動表示されることは好ましくない。本実施形態によれば、このような不適切な表示用映像が表示される可能性を低減できる。
【0049】
(第2実施形態)
図8は、第2実施形態に係る認識処理装置10Aの機能構成を模式的に示すブロック図である。第2実施形態では、判定部16が状況判定部34の代わりに安定性判定部35を備える点で、第1実施形態と相違する。以下、第2実施形態について、第1実施形態との相違点を中心に説明し、共通的について説明を適宜省略する。
【0050】
認識処理装置10Aは、取得部12と、人物検出部14と、判定部16とを備える。認識処理装置10Aは、表示制御部18を備えてもよい。取得部12は、映像取得部20を備える。人物検出部14は、第1検出部30および第2検出部32を備える。判定部16は、安定性判定部35と、有効モデル判定部36Aとを備える。表示制御部18、映像取得部20、第1検出部30および第2検出部32は、上述の第1実施形態と同様に構成される。
【0051】
安定性判定部35は、人物検出部14による人物の検出処理の安定性を判定する。安定性判定部35は、取得した映像の連続する複数のフレームにおいて人物検出部14によって検出される人物の検出数のばらつきに基づいて安定性を判定する。安定性判定部35は、連続する複数のフレームにおいて検出される人物の検出数のばらつきが少ない場合、検出処理の安定性が高いと判定する。安定性判定部35は、連続する複数のフレームにおいて検出される人物の検出数のばらつきが多い場合、検出処理の安定性が低いと判定する。
【0052】
ここで、人物検出部14による検出処理が安定している状態とは、人物が含まれる映像を取得したときに、連続する複数のフレームにおいて人物検出部14によって人物を適切に検出できている状態をいう。検出処理が安定している場合、映像に含まれる人物の実際数に変化がなければ、連続する複数のフレームにおける人物の検出数が一定となるため、検出数のばらつきが生じない。一方、人物検出部14による検出処理が安定していない状態とは、人物が含まれる映像を取得したときに、連続する複数のフレームにおいて人物検出部14によって人物を検出できる場合と検出できない場合とが頻繁に切り替わるような状態をいう。検出処理が安定していない場合、映像に含まれる人物の実際数に変化がないにも拘わらず、連続する複数のフレームにおける人物の検出数が変動するため、検出数のばらつきが生じる。
【0053】
例えば、人通りが多い状況において複数の人物が重なって見える映像に含まれる人物を第1検出部30によって検出しようとする場合、複数の人物の重なりの態様に応じて人物を検出できたり検出できなかったりする事象が発生しうる。この場合、第1検出部30による人物の検出数にばらつきが生じるため、第1検出部30による検出処理が不安定といえる。また、人通りが少ない状況において単独の人物のみが含まれる映像に含まれる人物を第2検出部32によって検出しようとする場合、単独の人物の背景の状態に応じて人物を検出できたり検出できなかったりする事象が発生しうる。この場合、第2検出部32による人物の検出数にばらつきが生じるため、第2検出部32による検出処理が不安定といえる。
【0054】
安定性判定部35は、取得した映像を構成するフレームごとに人物検出部14によって検出される人物の検出数を記録する。安定性判定部35は、所定期間(例えば1秒以上5秒以下)において連続する複数のフレームについて記録された人物の検出数を用いて、検出数のばらつきを算出する。検出数のばらつきは、連続する複数のフレームについて記録された人物の検出数の分散または標準偏差によって表すことができる。検出数のばらつきは、隣接フレーム間における人物の検出数の差を所定期間にわたって合計し、所定期間内のフレーム数で割った値で表されてもよい。
【0055】
安定性判定部35は、人物検出部14による人物の検出の安定性を示すスコアを算出してもよい。安定性判定部35は、第1検出部30によって検出される人物の検出数のばらつきに基づいて、第1モデルを用いた人物の検出の安定性を示す第1スコアを算出してもよい。安定性判定部35は、第2検出部32によって検出される人物の検出数のばらつきに基づいて、第2モデルを用いた人物の検出の安定性を示す第2スコアを算出してもよい。第1スコアおよび第2スコアは、人物の検出数のばらつきを示す値であってもよく、人物の検出数の分散や標準偏差であってもよい。この場合、安定性が高いほどスコアが低くなり、安定性が低いほどスコアが高くなる。
【0056】
安定性判定部35は、第1検出部30によって検出される人物の検出数のばらつきに基づいて、第1モデルを用いた人物の検出が安定であるか否かを判定してもよい。安定性判定部35は、第1検出部30によって検出される人物の検出数のばらつきが所定の基準値未満である場合、第1モデルを用いた人物の検出が安定であると判定し、第1スコアを「0」としてもよい。安定性判定部35は、第1検出部30によって検出される人物の検出数のばらつきが所定の基準値以上である場合、第1モデルを用いた人物の検出が安定であると判定し、第1スコアを「1」としてもよい。同様に、安定性判定部35は、第2検出部32によって検出される人物の検出数のばらつきに基づいて、第2モデルを用いた人物の検出が安定であるか否かを判定してもよい。安定性判定部35は、第2検出部32によって検出される人物の検出数のばらつきが所定の基準値未満である場合、第2モデルを用いた人物の検出が安定であると判定し、第2スコアを「0」としてもよい。安定性判定部35は、第2検出部32によって検出される人物の検出数のばらつきが所定の基準値以上である場合、第2モデルを用いた人物の検出が安定であると判定し、第2スコアを「1」としてもよい。
【0057】
安定性判定部35は、取得した映像の全範囲について安定性を判定してもよいし、取得した映像の一部範囲について安定性を判定してもよい。安定性判定部35は、取得した映像の外周部分を除く範囲において安定性を判定してもよい。この場合、安定性判定部35は、映像の外周部分を除く一部範囲において検出される人物の検出数のばらつきに基づいて安定性を判定し、映像の外周部分において検出される人物の検出数を無視して安定性を判定する。これにより、映像の外周部分において人物が出入りすることによる検出数の変動の影響を除外することができ、安定性をより適切に判定できる。
【0058】
安定性判定部35は、取得した映像のうち複数の人物が含まれる範囲について安定性を判定してもよい。図9は、安定性の判定対象となる映像の一部範囲76の一例を示す図である。図9の例では、破線枠で示される複数の人物74a~74fが人物検出部14によって検出されており、検出される複数の人物74a~74fの全てが含まれるように矩形の一部範囲76が設定される。安定性判定部35は、複数の人物74a~74fが含まれる一部範囲76において検出される人物の検出数のばらつきに基づいて安定性を判定し、一部範囲76の外側において検出される人物の検出数を無視して安定性を判定する。これにより、検出済の人物に対する検出の安定性を適切に判定できる。
【0059】
安定性判定部35は、取得した映像のうち複数の人物のそれぞれに隣接する範囲について安定性を判定してもよい。ここで、人物に隣接する範囲とは、人物検出部14によって検出された人物が含まれる領域よりも僅かに広い領域であり、重なり合って見える複数の人物が占める領域に相当する範囲である。例えば、人物検出部14によって第1人物が検出されている場合に、第1人物と重なり合って見える第2人物が存在しうる領域が第1人物に隣接する範囲に相当する。検出された人物に隣接する範囲は、検出された人物が占める領域を含むことができ、検出された人物が占める領域を中心として縦方向および横方向の少なくとも一方に広げられた範囲とすることができる。検出された人物に隣接する範囲は、検出された人物が占める領域に対し、例えば、縦方向および横方向の少なくとも一方のサイズが1.5倍以上3倍以下となるように設定できる。
【0060】
安定性判定部35は、人物検出部14によって複数の人物が検出される場合、検出された複数の人物のそれぞれに隣接する範囲ごとに安定性を評価してもよい。例えば、図9の例において、第1人物74aの隣接範囲における安定性を評価するとともに、第2人物74bの隣接範囲における安定性を評価してもよい。この場合、検出される複数の人物のそれぞれについて、人物検出部14による人物の検出の安定性を個別に評価できる。
【0061】
有効モデル判定部36Aは、第1実施形態に係る有効モデル判定部36と同様に構成されるが、安定性判定部35の判定結果を用いる点で、第1実施形態と相違する。有効モデル判定部36Aは、安定性判定部35の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する。
【0062】
有効モデル判定部36Aは、安定性判定部35によって算出される第1スコアまたは第2スコアのいずれかに基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。
【0063】
有効モデル判定部36Aは、例えば、第1検出部30によって人物が検出され、第1検出部30の安定性を示す第1スコアが算出されている場合、第1スコアに基づいて、第1検出部30または第2検出部32のいずれを有効とするかを判定してもよい。第1スコアに基づいて第1検出部30が安定であると判定される場合、有効モデル判定部36Aは、第1検出部30を有効としてもよい。第1スコアに基づいて第1検出部30が安定ではないと判定される場合、有効モデル判定部36Aは、第2検出部32を有効としてもよい。
【0064】
有効モデル判定部36Aは、例えば、第2検出部32によって人物が検出され、第2検出部32の安定性を示す第2スコアが算出されている場合、第2スコアに基づいて、第1検出部30または第2検出部32のいずれを有効とするかを判定してもよい。第2スコアに基づいて第2検出部32が安定であると判定される場合、有効モデル判定部36Aは、第2検出部32を有効としてもよい。第2スコアに基づいて第2検出部32が安定ではないと判定される場合、有効モデル判定部36Aは、第1検出部30を有効としてもよい。
【0065】
有効モデル判定部36Aは、安定性判定部35によって算出される第1スコアと第2スコアの比較結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。例えば、第1検出部30および第2検出部32が並列的に機能しており、第1スコアおよび第2スコアの双方が算出されている場合、有効モデル判定部36Aは、第1スコアと第2スコアを比較することにより、安定性のより高いモデルを有効としてもよい。
【0066】
有効モデル判定部36Aは、第1検出部30に比べて第2検出部32の安定性が高い場合、第2検出部32を有効としてもよい。有効モデル判定部36Aは、第2検出部32に比べて第1検出部30の安定性が高い場合、第1検出部30を有効としてもよい。有効モデル判定部36Aは、第1スコアと第2スコアが同等であり、かつ、第1検出部30および第2検出部32の双方の安定性が高い場合、第1検出部30を有効としてもよい。有効モデル判定部36Aは、第1スコアと第2スコアが同等であり、かつ、第1検出部30および第2検出部32の双方の安定性が低い場合、第2検出部32を有効としてもよい。
【0067】
有効モデル判定部36Aは、映像の一部範囲について第1検出部30または第2検出部32の安定性が判定された場合、映像の一部範囲について第1検出モデルまたは第2検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部36Aは、例えば、第1人物および第2人物が検出されている場合に、第1人物の隣接範囲について算出される第1スコアおよび第2スコアの少なくとも一方に基づいて、第1人物の隣接範囲にて第1検出部30または第2検出部32のいずれを有効とするかを判定してもよい。有効モデル判定部36Aは、例えば、第1人物および第2人物が検出されている場合に、第2人物の隣接範囲について算出される第1スコアおよび第2スコアの少なくとも一方に基づいて、第2人物の隣接範囲にて第1検出部30または第2検出部32のいずれを有効とするかを判定してもよい。例えば、第1人物の隣接範囲にて第1検出部30による検出を有効とし、第2人物の隣接範囲にて第2検出部32による検出を有効としてもよい。
【0068】
人物検出部14は、有効モデル判定部36Aによって有効とされた検出モデルを用いて映像に含まれる人物を検出してもよい。人物検出部14は、有効モデル判定部36Aによって無効とされた検出モデルを機能させないようにしてもよい。人物検出部14は、状況判定部34によって第1検出モデルが有効とされた場合、第1検出部30のみを機能させ、第2検出部32の機能を停止させてもよい。人物検出部14は、状況判定部34によって第2検出モデルが有効とされた場合、第2検出部32のみを機能させ、第1検出部30の機能を停止させてもよい。人物検出部14は、状況判定部34の判定結果によらず、第1検出部30および第2検出部32を並列的に機能させてもよい。
【0069】
図10は、第2実施形態に係る認識処理方法の流れの一例を示すフローチャートである。図10は、第1検出部30または第2検出部32を選択的に機能させる場合の処理の流れを示す。映像取得部20は、カメラ40が撮像した映像を取得する(ステップS30)。人物検出部14は、単独人物画像を正解画像として機械学習させた第1検出モデル、または、重畳人物画像を正解画像として機械学習させた第2検出モデルを用いて映像に含まれる人物を検出する(ステップS32)。表示制御部18は、映像取得部20が取得した映像に人物検出部14による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置50に表示させる(ステップS34)。
【0070】
安定性判定部35は、人物検出部14によって検出される人物の検出数のばらつきに基づいて、第1検出モデルまたは第2検出モデルの安定性を判定する(ステップS36)。人物検出部14が第1検出モデルを用いる場合、安定性判定部35は、第1検出モデルを用いて検出される人物の検出数のばらつきに基づいて、第1検出モデルの安定性を判定する。人物検出部14が第2検出モデルを用いる場合、安定性判定部35は、第2検出モデルを用いて検出される人物の検出数のばらつきに基づいて、第2検出モデルの安定性を判定する。安定性判定部35によって現在の検出モデルが安定ではないと判定された場合(ステップS38のNo)、有効モデル判定部36Aは、現在の検出モデルを無効とし、現在の検出モデルとは別の検出モデルを有効とし、人物検出部14は、有効とされた検出モデルに変更する(ステップS40)。第1検出モデルが安定ではないと判定された場合、有効モデル判定部36Aは、第2検出モデルを有効とし、人物検出部14は、第1検出モデルから第2検出モデルに変更する。第2検出モデルが安定ではないと判定された場合、有効モデル判定部36Aは、第1検出モデルを有効とし、人物検出部14は、第2検出モデルから第1検出モデルに変更する。安定性判定部35によって現在の検出モデルが安定であると判定された場合(ステップS38のYes)、ステップS40の処理をスキップする。この場合、有効モデル判定部36Aは、現在の検出モデルを有効とし、人物検出部14は、有効とされた現在の検出モデルを継続して使用する。
【0071】
ステップS30からステップS40までの処理は、認識処理装置10が動作している間、または、カメラ40によって映像が撮像されている間、繰り返し実行される。ステップS40にて検出モデルが変更された場合、ステップS32において、変更後の検出モデルを用いて映像に含まれる人物が検出される。
【0072】
図11は、第2実施形態に係る認識処理方法の流れの別の一例を示すフローチャートである。図11は、第1検出部30および第2検出部32を並列的に機能させる場合の処理の流れを示す。映像取得部20は、カメラ40が撮像した映像を取得する(ステップS50)。人物検出部14は、単独人物画像を正解画像として機械学習させた第1検出モデルを用いて映像に含まれる人物を検出し(ステップS52)、重畳人物画像を正解画像として機械学習させた第2検出モデルを用いて映像に含まれる人物を検出する(ステップS52)。安定性判定部35は、第1検出部30によって検出される人物の検出数のばらつきに基づいて第1検出モデルの安定性を判定し、第2検出部32によって検出される人物の検出数のばらつきに基づいて第2検出モデルの安定性を判定する(ステップS56)。有効モデル判定部36Aは、第1検出モデルおよび第2検出モデルのそれぞれの安定性に基づいて、第1検出モデルおよび第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する(ステップS58)。表示制御部18は、映像取得部20が取得した映像に、有効とされた検出モデルによる人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置50に表示させる(ステップS60)。ステップS50からステップS60までの処理は、認識処理装置10が動作している間、または、カメラ40によって映像が撮像されている間、繰り返し実行される。
【0073】
本実施形態によれば、第1検出モデルまたは第2検出モデルの安定性を判定することにより、人物検出処理がより安定している検出モデルを用いて映像に含まれる人物を検出できる。例えば、人通りが多い状況において複数の人物が重なって見えるために第1検出部30による検出の安定性が低くなる場合に、映像に含まれる人物を第2検出部32により検出することができる。逆に、人通りが少ない状況において単独の人物のみが見えるために第2検出部32による検出の安定性が低くなる場合に、映像に含まれる人物を第1検出部30により検出することができる。その結果、状況に応じて適切な検出モデルを採用することができ、映像に含まれる人物をより適切に検出することができる。
【0074】
(第3実施形態)
図12は、第3実施形態に係る認識処理装置10Bの機能構成を模式的に示すブロック図である。第3実施形態では、判定部16が状況判定部34B、安定性判定部35、有効モデル判定部36Bおよび履歴管理部37を備える点で、第1実施形態および第2実施形態と相違する。以下、第3実施形態について、第1実施形態および第2実施形態との相違点を中心に説明し、共通的について説明を適宜省略する。
【0075】
認識処理装置10Bは、取得部12と、人物検出部14と、判定部16とを備える。認識処理装置10Bは、表示制御部18を備えてもよい。取得部12は、映像取得部20および位置情報取得部22を備える。取得部12は、地図情報取得部24、時間情報取得部26および方位情報取得部28の少なくとも一つをさらに備えてもよい。人物検出部14は、第1検出部30および第2検出部32を備える。判定部16は、状況判定部34B、安定性判定部35、有効モデル判定部36Bおよび履歴管理部37を備える。表示制御部18、映像取得部20、位置情報取得部22、地図情報取得部24、時間情報取得部26、方位情報取得部28、第1検出部30、第2検出部32および安定性判定部35は、上述の第1実施形態または第2実施形態と同様に構成される。
【0076】
履歴管理部37は、安定性判定部35による安定性の判定結果の履歴情報を管理する。履歴管理部37は、安定性判定部35による安定性の判定結果を撮像位置と対応付けて記録する。履歴管理部37は、安定性判定部35による安定性の判定結果を撮像位置および撮像日時と対応付けて記録してもよい。履歴管理部37は、安定性判定部35による安定性の判定結果を撮像位置および撮像方向と対応付けて記録してもよい。履歴管理部37は、安定性判定部35による安定性の判定結果を撮像位置、撮像日時および撮像方向と対応付けて記録してもよい。このような構成の場合、判定部16は、安定性判定部35を備えなくてもよい。
【0077】
履歴管理部37は、人物検出部14による人物検出結果の履歴情報を管理してもよい。履歴管理部37は、第1検出部30または第2検出部32のいずれによって人物が検出されたかの履歴情報を撮像位置と対応付けて記録してもよい。履歴管理部37は、第1検出部30または第2検出部32のいずれによって人物が検出されたかの履歴情報を撮像位置および撮像日時と対応付けて記録してもよい。履歴管理部37は、第1検出部30または第2検出部32のいずれによって人物が検出されたかの履歴情報を撮像位置および撮像方向と対応付けて記録してもよい。履歴管理部37は、第1検出部30または第2検出部32のいずれによって人物が検出されたかの履歴情報を撮像位置、撮像日時および撮像方向と対応付けて記録してもよい。
【0078】
履歴管理部37は、安定性判定部35によって第1検出モデルの安定性が判定された場合、第1検出モデルの安定性の判定結果(例えば、第1スコア)を記録する。履歴管理部37は、安定性判定部35によって第2検出モデルの安定性が判定された場合、第2検出モデルの安定性の判定結果(例えば、第2スコア)を記録する。
【0079】
状況判定部34Bは、履歴管理部37に記録される履歴情報を用いて、特定状況であるか否かを判定する。状況判定部34Bは、現在の撮像位置に合致する履歴情報が履歴管理部37に記録されている場合、現在の撮像位置における過去の履歴情報に基づいて、特定状況であるか否かを判定する。状況判定部34Bは、現在の撮像位置において過去に判定された第1検出モデルの安定性が高い場合、特定状況ではないと判定してもよい。状況判定部34Bは、現在の撮像位置において過去に判定された第1検出モデルの安定性が低い場合、特定状況であると判定してもよい。状況判定部34Bは、現在の撮像位置において過去に判定された第2検出モデルの安定性が高い場合、特定状況であると判定してもよい。状況判定部34Bは、現在の撮像位置において過去に判定された第2検出モデルの安定性が低い場合、特定状況ではないと判定してもよい。状況判定部34Bは、現在の撮像位置において過去に第1検出モデルによって人物が検出されている場合、特定状況ではないと判定してもよい。状況判定部34Bは、現在の撮像位置において過去に第2検出モデルによって人物が検出されている場合、特定状況であると判定してもよい。
【0080】
状況判定部34Bは、現在の撮像位置および撮像時刻に合致する履歴情報が履歴管理部37に記録されている場合、現在の撮像位置および撮像時刻に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。状況判定部34Bは、現在の撮像位置および撮像方向に合致する履歴情報が履歴管理部37に記録されている場合、現在の撮像位置および撮像方向に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。状況判定部34Bは、現在の撮像位置、撮像時刻および撮像方向に合致する履歴情報が履歴管理部37に記録されている場合、現在の撮像位置、撮像時刻および撮像方向に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。
【0081】
状況判定部34Bは、現在の撮像位置、撮像時刻および撮像方向の少なくともいずれかに合致する履歴情報が履歴管理部37に記録されていない場合、地図装置44に含まれる特定条件に合致するか否かに応じて、特定状況であるか否かを判定してもよい。つまり、状況判定部34Bは、現在の状況に対応する履歴情報が履歴管理部37に記録されている場合、履歴管理部37に記録される履歴情報を優先的に用いて特定状況であるか否かを判定してもよい。
【0082】
有効モデル判定部36Bは、状況判定部34Bおよび安定性判定部35の少なくとも一方の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する。有効モデル判定部36Bは、人物検出部14によって人物が検出されていない場合、状況判定部34Bの判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部36Bは、人物検出部14によって人物が検出されている場合、安定性判定部35の判定結果に基づいて、第1検出モデルまたは第2検出モデルのいずれを有効とするかを判定してもよい。
【0083】
図13は、第3実施形態に係る認識処理方法の流れの一例を示すフローチャートである。図13は、第1検出部30または第2検出部32を選択的に機能させる場合の処理の流れを示す。図13に示すステップS70およびステップS76からステップS80の処理は、図7に示すステップS10およびステップS16からステップS20の処理と同一であるため、説明を省略する。位置情報取得部22は、位置センサ42から映像の撮像位置を示す位置情報を取得する。状況判定部34Bは、位置情報に対応する履歴情報を取得する。(ステップS72)。状況判定部34Bは、撮像位置および履歴情報に基づいて、過去に特定状況であると判定された位置であるか否かを判定する(ステップS74)。状況判定部34Bによって撮像位置に対応する履歴情報が特定状況であると判定された場合(ステップS74のYes)、ステップS76の処理を実行する。状況判定部34Bによって撮像位置に対応する履歴情報が特定状況ではないと判定された場合(ステップS74のNo)、ステップS78の処理を実行する。
【0084】
本実施形態によれば、現在の撮像位置に対応する過去の履歴情報がある場合、履歴情報に基づいて第1検出部30または第2検出部32のいずれを有効とするかを判定できる。過去の実績に応じて適切な検出モデルを採用することができ、映像に含まれる人物をより適切に検出することができる。
【0085】
以上、本発明を上述の実施の形態を参照して説明したが、本発明は上述の実施の形態に限定されるものではなく、実施の形態に示す各構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。
【0086】
以下、本開示のいくつかの態様について述べる。
【0087】
本開示の第1の態様は、移動体に設けられるカメラによって撮像される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定する状況判定部と、前記状況判定部の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置である。
【0088】
第1の態様において、前記状況判定部は、人通りが多いと推定される場所および日時の組み合わせを示す地図情報、前記カメラの撮像日時を示す時間情報、および、前記映像の撮像方向を示す方位情報の少なくとも一つをさらに用いて、前記特定状況であるか否かを判定してもよい。
【0089】
第1の態様において、前記取得した映像の撮像位置を示す位置情報と、前記人物検出部による人物検出結果とを対応付けた履歴情報を記録する履歴管理部をさらに備えてもよい。第1の態様において、前記状況判定部は、前記履歴情報をさらに用いて、前記特定状況であるか否かを判定してもよい。
【0090】
第1の態様は、認識処理方法として提供されてもよい。この方法は、移動体に設けられるカメラによって撮像される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定するステップと、前記特定状況であるか否かの判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを決定するステップと、を備えてもよい。この方法は、各ステップをコンピュータに実行させるよう構成されてもよい。
【0091】
第1の態様は、プログラムまたはプログラムを記憶する非一時的な記録媒体として提供されてもよい。このプログラムは、移動体に設けられるカメラによって撮像される映像を取得する機能と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する機能と、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定する機能と、前記特定状況であるか否かの判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを決定する機能と、をコンピュータに実現させるよう構成されてもよい。
【0092】
本開示の第2の態様は、人物の全身像を含み、前記人物の背景として別の人物の少なくとも一部が含まれる重畳人物画像を正解画像として使用する機械学習によって人物検出モデルを生成する、人物検出モデル生成方法である。第2の態様において、前記機械学習は、人物の全身像を含み、前記人物の背景として別の人物が含まれない単独人物画像を正解画像として使用しなくてもよい。
【0093】
本開示の第3の態様は、移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、前記取得した映像の連続する複数のフレームにおいて前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記人物検出部による人物の検出処理の安定性を判定する安定性判定部と、前記安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置である。
【0094】
第3の態様において、前記安定性判定部は、前記人物検出部が前記第1検出モデルを用いる場合、前記第1検出モデルを用いた人物の検出の安定性を判定し、前記人物検出部が前記第2検出モデルを用いる場合、前記第2検出モデルを用いた人物の検出の安定性を判定してもよい。第3の態様において、前記有効モデル判定部は、前記第1検出モデルまたは前記第2検出モデルのいずれかの安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。
【0095】
第3の態様において、前記安定性判定部は、前記第1検出モデルを用いた人物の検出の安定性と、前記第2検出モデルを用いた人物の検出の安定性とを判定してもよい。第3の態様において、前記有効モデル判定部は、前記第1検出モデルおよび前記第2検出モデルのそれぞれの安定性の比較結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。
【0096】
第3の態様において、前記安定性判定部は、前記取得した映像の外周部分を除く範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。
【0097】
第3の態様において、前記安定性判定部は、前記取得した映像のうち複数の人物が含まれる範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。
【0098】
第3の態様において、前記安定性判定部は、前記取得した映像のうち複数の人物のそれぞれに隣接する範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。
【0099】
第3の態様は、認識処理方法として提供されてもよい。この方法は、移動体に設けられるカメラによって撮影される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定するステップと、前記安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備えてもよい。この方法は、各ステップをコンピュータに実行させるよう構成されてもよい。
【0100】
第3の態様は、プログラムまたはプログラムを記憶する非一時的な記録媒体として提供されてもよい。このプログラムは、移動体に設けられるカメラによって撮影される映像を取得する機能と、単独人物画像を正解画像として機械学習させた第1検出モデルと、重畳人物画像を正解画像として機械学習させた第2検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する機能と、前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定する機能と、前記安定性の判定結果に基づいて、前記第1検出モデルまたは前記第2検出モデルのいずれを用いた人物の検出を有効とするかを判定する機能と、をコンピュータに実現させるよう構成されてもよい。
【符号の説明】
【0101】
10,10A,10B…認識処理装置、12…取得部、14…人物検出部、16…判定部、18…表示制御部、20…映像取得部、30…第1検出部、32…第2検出部、34,34B…状況判定部、35…安定性判定部、36,36A,36B…有効モデル判定部、37…履歴管理部、40…カメラ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13