特開2024-72346 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-72346認識処理装置および認識処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024072346

(43)【公開日】2024-05-28

(54)【発明の名称】認識処理装置および認識処理方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240521BHJP

G06V 10/776 20220101ALI20240521BHJP

【ＦＩ】

G06T7/00 350B

G06T7/00 660B

G06V10/776

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022183074

(22)【出願日】2022-11-16

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】小倉卓也

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096FA33

5L096FA52

5L096HA08

5L096HA11

5L096KA04

(57)【要約】

【課題】画像認識処理において人物をより適切に検出する。
【解決手段】認識処理装置１０Ａは、移動体に設けられるカメラ４０によって撮影される映像を取得する映像取得部２０と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出する人物検出部１４と、取得した映像の連続する複数のフレームにおいて人物検出部１４によって検出される人物の検出数のばらつきに基づいて、人物検出部１４による人物の検出処理の安定性を判定する安定性判定部３５と、安定性の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部３６Ａと、を備える。
【選択図】図８

【特許請求の範囲】

【請求項1】

移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、
単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、
前記取得した映像の連続する複数のフレームにおいて前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記人物検出部による人物の検出処理の安定性を判定する安定性判定部と、
前記安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置。

【請求項2】

前記安定性判定部は、前記人物検出部が前記第１検出モデルを用いる場合、前記第１検出モデルを用いた人物の検出の安定性を判定し、前記人物検出部が前記第２検出モデルを用いる場合、前記第２検出モデルを用いた人物の検出の安定性を判定し、
前記有効モデル判定部は、前記第１検出モデルまたは前記第２検出モデルのいずれかの安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する、請求項１に記載の認識処理装置。

【請求項3】

前記安定性判定部は、前記第１検出モデルを用いた人物の検出の安定性と、前記第２検出モデルを用いた人物の検出の安定性とを判定し、
前記有効モデル判定部は、前記第１検出モデルおよび前記第２検出モデルのそれぞれの安定性の比較結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する、請求項１に記載の認識処理装置。

【請求項4】

前記安定性判定部は、前記取得した映像の外周部分を除く範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項１から３のいずれか一項に記載の認識処理装置。

【請求項5】

前記安定性判定部は、前記取得した映像のうち複数の人物が含まれる範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項１から３のいずれか一項に記載の認識処理装置。

【請求項6】

前記安定性判定部は、前記取得した映像のうち複数の人物のそれぞれに隣接する範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定する、請求項１から３のいずれか一項に記載の認識処理装置。

【請求項7】

移動体に設けられるカメラによって撮影される映像を取得するステップと、
単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、
前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定するステップと、
前記安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備える認識処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、認識処理装置および認識処理方法に関する。

【背景技術】

【0002】

車両の周囲を撮像した画像から歩行者などの対象物をパターンマッチング等の画像認識技術を用いて検出する技術が知られている。例えば、遠方用と近傍用を含む複数の認識辞書を用意し、複数の認識辞書を用いてパターンマッチングを行うことにより、検出精度を高める技術が提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－１７８７１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

通学路や商店街といった人通りの多い場所を移動する場合、カメラの撮像方向に重なり合って見える複数の人物が映像に含まれることがある。撮像される複数の人物が歩いて移動する場合、映像に含まれる複数の人物の重なり合いの態様が時間経過とともに変化しうる。このような複数の人物を検出しようとする場合、複数の人物の重なり合いの態様によって、人物を検出できたりできなかったりすることがあり、人物を経時的に安定して検出できないことがあった。

【0005】

本発明は、上述の事情に鑑みてなされたものであり、画像認識処理において人物をより適切に検出する技術を提供することにある。

【課題を解決するための手段】

【0006】

本発明のある態様の認識処理装置は、移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出する人物検出部と、取得した映像の連続する複数のフレームにおいて人物検出部によって検出される人物の検出数のばらつきに基づいて、人物検出部による人物の検出処理の安定性を判定する安定性判定部と、安定性の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える。

【0007】

本発明の別の態様は、認識処理方法である。この方法は、移動体に設けられるカメラによって撮影される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、取得した映像に含まれる人物を検出するステップと、取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、検出の安定性を判定するステップと、安定性の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備える。

【発明の効果】

【0008】

本発明によれば、画像認識処理において人物をより適切に検出する技術を提供できる。

【図面の簡単な説明】

【0009】

【図1】第１実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。

【図2】図２（ａ）～（ｄ）は、単独人物画像の一例を示す図である。

【図3】図３（ａ）～（ｄ）は、重畳人物画像の一例を示す図である。

【図4】カメラの画角の一部領域に特定地点が含まれる場合を模式的に示す上面図である。

【図5】特定状況ではない第１範囲と特定状況である第２範囲とを含む映像の一例を示す図である。

【図6】人物検出結果が付加された表示用映像の一例を示す図である。

【図7】第１実施形態に係る認識処理方法の流れの一例を示すフローチャートである。

【図8】第２実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。

【図9】安定性の判定対象となる映像の一部範囲の一例を示す図である。

【図10】第２実施形態に係る認識処理方法の流れの一例を示すフローチャートである。

【図11】第２実施形態に係る認識処理方法の流れの別の一例を示すフローチャートである。

【図12】第３実施形態に係る認識処理装置の機能構成を模式的に示すブロック図である。

【図13】第３実施形態に係る認識処理方法の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明の実施の形態について、図面を参照しつつ説明する。かかる実施の形態に示す具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、図面において、本発明に直接関係のない要素は図示を省略する。

【0011】

（第１実施形態）
図１は、第１実施形態に係る認識処理装置１０の機能構成を模式的に示すブロック図である。認識処理装置１０は、取得部１２と、人物検出部１４と、判定部１６とを備える。認識処理装置１０は、表示制御部１８をさらに備えてもよい。認識処理装置１０は、例えば、車両などの移動体に搭載され、車両の周囲における歩行者などの人物を検出する。本実施の形態では、認識処理装置１０が車両に搭載される場合について例示する。認識処理装置１０は、ドローンなどの飛行体に搭載されてもよい。

【0012】

本実施形態において示される各機能ブロックは、例えば、ハードウェアおよびソフトウェアの連携によって実現されうる。認識処理装置１０のハードウェアは、コンピュータのＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサおよびＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などのメモリをはじめとする素子や機械装置で実現される。認識処理装置１０のソフトウェアは、コンピュータプログラム等によって実現される。

【0013】

取得部１２は、映像取得部２０を備える。映像取得部２０は、カメラ４０が撮像した映像を取得する。カメラ４０は、移動体に搭載され、移動体の周囲の画像を撮像する。カメラ４０は、例えば、移動体の前方の画像を撮像する。カメラ４０は、移動体の後方を撮像してもよいし、移動体の側方を撮像してもよい。認識処理装置１０は、カメラ４０を備えてもよいし、カメラ４０を備えなくてもよい。

【0014】

カメラ４０は、赤外線を撮像するよう構成される。カメラ４０は、いわゆる赤外線サーモグラフィであり、移動体の周辺の温度分布を画像化し、移動体の周辺に存在する熱源を特定できるようにする。カメラ４０は、波長２μｍ～５μｍ程度の中赤外線を検出するよう構成されてもよいし、波長８μｍ～１４μｍ程度の遠赤外線を検出するよう構成されてもよい。なお、カメラ４０は、可視光を撮像するよう構成されてもよい。カメラ４０は、赤色、緑色および青色のカラー画像を撮像するよう構成されてもよいし、可視光のモノクロ画像を撮像するよう構成されてもよい。本実施の形態において、カメラ４０は、遠赤外線による熱画像を撮像するカメラとして説明する。カメラ４０が撮像する映像は、例えば、毎秒３０フレームなどの動画像である。

【0015】

取得部１２は、位置情報取得部２２を備えてもよい。位置情報取得部２２は、位置センサ４２によって測位される位置情報を取得する。位置センサ４２は、移動体に搭載され、移動体の位置を測定する。位置センサ４２は、例えば、ＧＮＳＳ（Global Navigation Satellite System）センサである。位置センサ４２は、カメラ４０の撮像位置を検出する。認識処理装置１０は、位置センサ４２を備えてもよいし、位置センサ４２を備えなくてもよい。

【0016】

取得部１２は、地図情報取得部２４を備えてもよい。地図情報取得部２４は、地図装置４４から地図情報を取得する。地図装置４４は、地図情報を記憶する装置であり、例えば、ナビゲーション装置である。地図情報は、人通りが多いと推定される場所を示す特定地点に関する情報を含む。人通りが多いと推定される場所は、例えば、駅周辺、通学路、商店街、商業施設周辺、観光地周辺などである。地図情報は、人通りが多いと推定される日時である特定日時に関する情報を含んでもよい。地図情報は、人通りが多いと推定される場所と日時の組み合わせを示す特定条件に関する情報を含んでもよい。認識処理装置１０は、地図装置４４を備えてもよいし、地図装置４４を備えなくてもよい。地図情報取得部２４は、図示しない無線通信機能を用いて、外部のサーバ等から地図情報を取得してもよい。

【0017】

取得部１２は、時間情報取得部２６を備えてもよい。時間情報取得部２６は、計時装置４６から時間情報を取得する。計時装置４６は、例えば、現在日時を示す現在時間情報を生成する時計装置である。計時装置４６は、カメラ４０の撮像日時を出力する。認識処理装置１０は、計時装置４６を備えてもよいし、計時装置４６を備えなくてもよい。

【0018】

取得部１２は、方位情報取得部２８を備えてもよい。方位情報取得部２８は、方位センサ４８によって測定される方位情報を取得する。方位センサ４８は、移動体に搭載され、移動体の方位を測定する。方位センサ４８は、例えば、加速度センサやジャイロセンサであり、移動体の向きまたは方角を検出する。方位センサ４８は、例えば、カメラ４０の撮像方向を検出する。認識処理装置１０は、方位センサ４８を備えてもよいし、方位センサ４８を備えなくてもよい。

【0019】

人物検出部１４は、映像取得部２０が取得される映像において人物が含まれる領域を検出する。人物検出部１４は、第１検出モデルを用いて人物を検出する第１検出部３０と、第２検出モデルを用いて人物を検出する第２検出部３２とを備える。人物検出部１４は、第１検出部３０および第２検出部３２を並列的に動作させるよう構成されてもよいし、第１検出部３０または第２検出部３２の一方のみを選択的に動作させるよう構成されてもよい。人物検出部１４は、用いる検出モデルを切り替えることによって、第１検出部３０または第２検出部３２の一方のみを選択的に機能させてもよい。

【0020】

第１検出部３０は、単独人物画像を正解画像として使用する機械学習によって生成される第１検出モデルを用いて人物を検出する。単独人物画像とは、人物の全身像を含む画像であって、人物の背景に別の人物が含まれない画像である。

【0021】

図２（ａ）～（ｄ）は、単独人物画像の一例を示す図である。図２（ａ），（ｂ），（ｃ），（ｄ）のそれぞれの画像には、人物５２ａ，５２ｂ，５２ｃ，５２ｄの全身像が含まれる。図２（ａ），（ｂ），（ｃ），（ｄ）のそれぞれには、人物５２ａ，５２ｂ，５２ｃ，５２ｄとは別の人物が含まれていない。単独人物画像は、例えば、人物５２ａ～５２ｄの全身像が含まれる領域を切り出すことによって生成される。単独人物画像は、例えば、縦方向と横方向の画像サイズが２：１となる縦長の矩形画像となるように切り出される。

【0022】

第２検出部３２は、重畳人物画像を正解画像として使用する機械学習によって生成される第２検出モデルを用いて人物を検出する。重畳人物画像とは、人物の全身像を含む画像であって、人物の背景に別の人物の少なくとも一部（例えば、頭、上半身、下半身、腕、脚）が含まれる画像である。重畳人物画像は、複数の人物が重なり合って見える点で、単独人物画像とは異なる。

【0023】

図３（ａ）～（ｄ）は、重畳人物画像の一例を示す図である。図３（ａ），（ｂ），（ｃ），（ｄ）のそれぞれの画像には、破線で示される第１人物５４ａ，５４ｂ，５４ｃ，５４ｄと、第１人物とは別の第２人物５６ａ，５６ｂ，５６ｃ，５６ｄとが含まれる。第１人物５４ａ～５４ｄは、手前側に見える人物であり、全身像が見える状態となっている。第２人物５６ａ～５６ｄは、第１人物５４ａ～５４ｄの奥側に位置する人物である。第２人物５６ａ～５６ｄの全身の少なくとも一部は、第１人物５４ａ～５４ｄによって隠れて見えない状態となっている。重畳人物画像は、例えば、第１人物５４ａ～５４ｄの全身像が含まれる領域を切り出すことによって生成される。重畳人物画像は、例えば、縦方向と横方向の画像サイズが２：１となる縦長の矩形画像となるように切り出される。図３（ａ）～（ｄ）の例では、重畳人物画像に２人の人物のみが含まれているが、重畳人物画像には３人以上の人物が含まれてもよい。

【0024】

機械学習に用いるモデルは、入力画像の画像サイズ（画素数）に対応する入力と、認識スコアを出力する出力と、入力と出力の間を接続する中間層とを含むことができる。中間層は、畳み込み層、プーリング層、全結合層などを含むことができる。中間層は、多層構造であってもよく、いわゆるディープラーニングが実行可能となるよう構成されてもよい。機械学習に用いるモデルは、畳み込みニューラルネットワーク（ＣＮＮ）を用いて構築されてもよい。なお、機械学習に用いるモデルは上記に限られず、任意の機械学習モデルが用いられてもよい。

【0025】

第１検出モデルは、単独人物画像を用いて生成されるため、人通りの少ない場所などで単独で存在する人物を検出する精度が高い。第１検出モデルは、人通りの多い場所などで複数の人物が重なり合って見えるような状況では、人物の検出精度が低くなりやすい。一方、第２検出モデルは、重畳人物画像を用いて生成されるため、人通りの多い場所などで複数の人物が重なり合って見えるような状況において、手前側に見える人物を検出する精度が高い。第２検出モデルは、人通りの少ない場所などで単独で存在する人物の検出精度が低くなりやすい。

【0026】

第１検出モデルは、重畳人物画像を正解画像として使用しない機械学習によって生成されてもよい。第２検出モデルは、単独人物画像を正解画像として使用しない機械学習によって生成されてもよい。

【0027】

図１に戻り、判定部１６は、状況判定部３４を備える。状況判定部３４は、人通りが多いと推定される状況（特定状況ともいう）であるか否かを判定する。状況判定部３４は、映像取得部２０が取得した映像の撮像位置を示す位置情報を用いて、特定状況であるか否かを判定する。状況判定部３４は、例えば、位置情報取得部２２が取得した位置情報を用いて、特定状況であるか否かを判定する。

【0028】

状況判定部３４は、地図情報取得部２４が取得した地図情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部３４は、映像の撮像位置が地図情報に含まれる人通りが多いと推定される場所（つまり、特定地点）に合致する場合、特定状況であると判定してもよい。状況判定部３４は、映像の撮像位置が特定地点に合致しない場合、特定状況ではないと判定してもよい。

【0029】

状況判定部３４は、時間情報取得部２６が取得した時間情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部３４は、映像の撮像位置および撮像日時が地図情報に含まれる人通りが多いと推定される場所および日時の組み合わせ（つまり、特定条件）に合致する場合、特定状況であると判定してもよい。状況判定部３４は、映像の撮像位置および撮像日時が特定条件に合致しない場合、特定状況ではないと判定してもよい。

【0030】

状況判定部３４は、方位情報取得部２８が取得した方位情報をさらに用いて、特定状況であるか否かを判定してもよい。状況判定部３４は、映像の撮像位置および撮像方向からカメラ４０の画角に含まれる場所を特定してもよい。つまり、状況判定部３４は、映像の撮像位置および撮像方向から、映像に含まれる場所を特定してもよい。状況判定部３４は、映像に含まれる場所が地図情報に含まれる人通りが多いと推定される場所（つまり、特定地点）に合致する場合、特定状況であると判定してもよい。状況判定部３４は、カメラ４０の画角に含まれる場所が特定地点に合致しない場合、特定状況ではないと判定してもよい。

【0031】

状況判定部３４は、位置情報、地図情報、時間情報および方位情報の任意の組み合わせを用いて、特定状況であるか否かを判定してもよい。状況判定部３４は、映像に含まれる場所および撮像日時が特定条件に合致する場合、特定状況であると判定してもよい。状況判定部３４は、映像に含まれる場所および撮像日時が特定条件に合致しない場合、特定状況ではないと判定してもよい。

【0032】

状況判定部３４は、取得した映像の全範囲に対して特定状況であるか否かを判定してもよいし、取得した映像の一部範囲について特定状況であるか否かを判定してもよい。例えば、映像の第１範囲に特定地点が含まれ、映像の第２範囲に特定地点が含まれない場合、状況判定部３４は、第１範囲について特定状況であると判定し、第２範囲について特定状況ではないと判定してもよい。

【0033】

図４は、カメラ４０の画角６２の一部範囲に特定地点が含まれる場合を模式的に示す上面図である。図４では、人通りが多いと推定される場所６０の境界付近を移動体６８が移動している。図４において、カメラ４０の画角６２の右側に相当する第１範囲６４は特定地点または特定条件に合致せず、カメラ４０の画角６２の左側に相当する第２範囲６６は特定地点または特定条件に合致する。この場合、状況判定部３４は、第１範囲６４が特定状況ではないと判定し、第２範囲６６が特定状況であると判定する。

【0034】

図５は、特定状況ではない第１範囲６４と特定状況である第２範囲６６とを含む映像の一例を示す図である。図５の右側の第１範囲６４にはオフィスビルがあり、第１範囲６４に存在する人物の数は比較的少ない。一方、図５の左側の第２範囲６６には商店街があるため、第２範囲６６に存在する人物の数が比較的多い。

【0035】

図１に戻り、有効モデル判定部３６は、状況判定部３４の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する。つまり、有効モデル判定部３６は、第１検出部３０または第２検出部３２のいずれの検出結果を有効とするかを判定する。

【0036】

有効モデル判定部３６は、状況判定部３４によって特定状況ではないと判定された場合、第１検出モデルを用いた人物の検出を有効とする。つまり、有効モデル判定部３６は、状況判定部３４によって特定状況ではないと判定された場合、第１検出部３０による人物の検出を有効とする。有効モデル判定部３６は、状況判定部３４によって特定状況ではないと判定された場合、第２検出モデルを用いた人物の検出（つまり、第２検出部３２による人物の検出）を無効としてもよい。

【0037】

有効モデル判定部３６は、状況判定部３４によって特定状況であると判定された場合、第２検出モデルを用いた人物の検出を有効とする。つまり、有効モデル判定部３６は、状況判定部３４によって特定状況であると判定された場合、第２検出部３２による人物の検出を有効とする。有効モデル判定部３６は、状況判定部３４によって特定状況であると判定された場合、第１検出モデルを用いた人物の検出（つまり、第１検出部３０による人物の検出）を無効としてもよい。

【0038】

有効モデル判定部３６は、映像の一部範囲について特定状況であるか否かが判定された場合、映像の一部範囲について第１検出モデルまたは第２検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部３６は、例えば、特定状況ではないと判定された映像の第１範囲について第１検出モデルを用いた人物の検出（つまり、第１検出部３０による人物の検出）を有効とし、第２検出モデルを用いた人物の検出（つまり、第２検出部３２による人物の検出）を無効としてもよい。有効モデル判定部３６は、例えば、特定状況であると判定された映像の第２範囲について第２検出モデルを用いた人物の検出（つまり、第２検出部３２による人物の検出）を有効とし、第１検出モデルを用いた人物の検出（つまり、第１検出部３０による人物の検出）を無効としてもよい。

【0039】

人物検出部１４は、有効モデル判定部３６によって有効とされた検出モデルを用いて映像に含まれる人物を検出してもよい。人物検出部１４は、有効モデル判定部３６によって無効とされた検出モデルを機能させないようにしてもよい。人物検出部１４は、状況判定部３４によって第１検出モデルが有効とされた場合、第１検出部３０のみを機能させ、第２検出部３２の機能を停止させてもよい。人物検出部１４は、状況判定部３４によって第２検出モデルが有効とされた場合、第２検出部３２のみを機能させ、第１検出部３０の機能を停止させてもよい。人物検出部１４は、状況判定部３４の判定結果によらず、第１検出部３０および第２検出部３２を並列的に機能させてもよい。この場合、取得した映像の同一フレームに含まれる人物を第１検出部３０および第２検出部３２のそれぞれが検出してもよい。

【0040】

表示制御部１８は、映像取得部２０が取得した映像に人物検出部１４による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置５０に表示させる。表示装置５０は、移動体に設けられる。表示装置５０は、液晶ディスプレイ（ＬＣＤ；Liquid Crystal Display）や有機エレクトロルミネッセンスディスプレイ（ＯＥＬＤ；Organic Electro Luminescence Display）などの画像表示素子を含む。表示装置５０は、例えば、移動体が車両の場合、車両の運転者が視認できる位置に配置される。認識処理装置１０は、表示装置５０を備えてもよいし、表示装置５０を備えなくてもよい。

【0041】

表示制御部１８は、人物検出部１４によって検出された人物が含まれる領域を示すための枠画像などの付加画像を映像に重畳することにより、表示用映像を生成する。表示制御部１８は、第１検出部３０によって検出された人物に第１付加画像を付加し、第２検出部３２によって検出された人物に第２付加画像を付加する。第１付加画像の表示態様は、第２付加画像の表示態様と同一であってもよい。第１付加画像の表示態様は、第２付加画像の表示態様とは異なってもよい。例えば、第１付加画像が黄色枠であり、第２付加画像が赤色枠であってもよい。

【0042】

表示制御部１８は、有効モデル判定部３６によって有効とされたモデルによって検出された人物に付加画像を付加する。表示制御部１８は、有効モデル判定部３６によって無効とされたモデルによって検出された人物には付加画像を付加しない。表示制御部１８は、人物検出部１４によって人物が検出されない場合、取得した映像をそのまま表示用映像とし、取得した映像をそのまま表示装置５０に表示させる。

【0043】

図６は、人物検出結果が付加された表示用映像の一例を示す図である。図６は、図５に示す映像を取得したときに表示制御部１８によって生成される表示用映像である。特定状況ではない第１範囲６４では、第１検出部３０によって検出された人物を示す枠画像である第１付加画像７０が重畳される。特定状況である第２範囲６６では、第２検出部３２によって検出された人物を示す枠画像である第２付加画像７２ａ，７２ｂ，７２ｃ，７２ｄ，７２ｅが重畳される。

【0044】

図７は、第１実施形態に係る認識処理方法の流れの一例を示すフローチャートである。映像取得部２０は、カメラ４０が撮像した映像を取得する（ステップＳ１０）。位置情報取得部２２は、位置センサ４２から映像の撮像位置を示す位置情報を取得する（ステップＳ１２）。状況判定部３４は、撮像位置に基づいて、特定状況であるか否かを判定する（ステップＳ１４）。状況判定部３４が特定状況であると判定する場合（ステップＳ１４のＹｅｓ）、有効モデル判定部３６は、第２検出モデルを有効とし、人物検出部１４は、重畳人物画像を正解画像として機械学習させた第２検出モデルを用いて映像に含まれる人物を検出する（ステップＳ１６）。状況判定部３４が特定状況ではないと判定する場合（ステップＳ１４のＮｏ）、有効モデル判定部３６は、第１検出モデルを有効とし、人物検出部１４は、単独人物画像を正解画像として機械学習させた第１検出モデルを用いて映像に含まれる人物を検出する（ステップＳ１８）。表示制御部１８は、映像取得部２０が取得した映像に人物検出部１４による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置５０に表示させる（ステップＳ２０）。ステップＳ１０からステップＳ２０までの処理は、認識処理装置１０が動作している間、または、カメラ４０によって映像が撮像されている間、繰り返し実行される。

【0045】

図７において、ステップＳ１４の判定は、特定状況である範囲が存在するか否かを判定してもよい。この場合、ステップＳ１６の処理は、特定状況である範囲に対して、第２検出モデルを有効として人物を検出し、特定状況ではない範囲に対して、第１検出モデルを有効として人物を検出する。

【0046】

本実施形態によれば、人通りが少ないと推定される特定状況ではない場合に、映像に含まれる人物を第１検出部３０により検出する。その結果、人通りが少ないために複数の人物が重なり合わずに単独で見える可能性が高い状況下において、単独の人物を適切に検出することができる。

【0047】

本実施形態によれば、人通りが多いと推定される特定状況である場合に、映像に含まれる人物を第２検出部３２により検出する。その結果、人通りが多いために複数の人物が重なり合って見える可能性が高い状況下において、重なり合って見える人物を適切に検出することができる。

【0048】

仮に、重なり合って見える人物を第１検出部３０により検出しようとする場合、複数の人物の重なりの態様に応じて人物を検出できたり検出できなかったりする事象が発生する可能性がある。例えば、第１人物と第２人物の重なりの程度が大きい場合、単独人物画像との相違が大きいために、第１検出部３０によって第１人物と第２人物の双方を検出できない可能性がある。一方、第１人物と第２人物の重なりの程度が小さい場合、単独人物画像の差異が小さいために、第１検出部３０によって第１人物のみを検出できる可能性があり、第１検出部３０によって第１人物と第２人物の双方を検出できる可能性がある。複数の人物が歩いて移動しているような場合、映像に含まれる複数の人物の重なりの態様は経時的に変化しうる。この場合、映像を構成する複数のフレームにおいて、第１検出部３０によって人物が検出されるフレームと、第１検出部３０によって人物が検出されないフレームとが連続する可能性がある。このような第１検出部３０の人物検出結果に基づいて枠画像などの付加画像を付加すると、付加画像が表示されるフレームと、付加画像が表示されないフレームとが連続し、付加画像が点滅するように経時的に変動して表示される可能性がある。映像に人物が含まれているにも拘わらず、表示用映像において付加画像が点滅するように変動表示されることは好ましくない。本実施形態によれば、このような不適切な表示用映像が表示される可能性を低減できる。

【0049】

（第２実施形態）
図８は、第２実施形態に係る認識処理装置１０Ａの機能構成を模式的に示すブロック図である。第２実施形態では、判定部１６が状況判定部３４の代わりに安定性判定部３５を備える点で、第１実施形態と相違する。以下、第２実施形態について、第１実施形態との相違点を中心に説明し、共通的について説明を適宜省略する。

【0050】

認識処理装置１０Ａは、取得部１２と、人物検出部１４と、判定部１６とを備える。認識処理装置１０Ａは、表示制御部１８を備えてもよい。取得部１２は、映像取得部２０を備える。人物検出部１４は、第１検出部３０および第２検出部３２を備える。判定部１６は、安定性判定部３５と、有効モデル判定部３６Ａとを備える。表示制御部１８、映像取得部２０、第１検出部３０および第２検出部３２は、上述の第１実施形態と同様に構成される。

【0051】

安定性判定部３５は、人物検出部１４による人物の検出処理の安定性を判定する。安定性判定部３５は、取得した映像の連続する複数のフレームにおいて人物検出部１４によって検出される人物の検出数のばらつきに基づいて安定性を判定する。安定性判定部３５は、連続する複数のフレームにおいて検出される人物の検出数のばらつきが少ない場合、検出処理の安定性が高いと判定する。安定性判定部３５は、連続する複数のフレームにおいて検出される人物の検出数のばらつきが多い場合、検出処理の安定性が低いと判定する。

【0052】

ここで、人物検出部１４による検出処理が安定している状態とは、人物が含まれる映像を取得したときに、連続する複数のフレームにおいて人物検出部１４によって人物を適切に検出できている状態をいう。検出処理が安定している場合、映像に含まれる人物の実際数に変化がなければ、連続する複数のフレームにおける人物の検出数が一定となるため、検出数のばらつきが生じない。一方、人物検出部１４による検出処理が安定していない状態とは、人物が含まれる映像を取得したときに、連続する複数のフレームにおいて人物検出部１４によって人物を検出できる場合と検出できない場合とが頻繁に切り替わるような状態をいう。検出処理が安定していない場合、映像に含まれる人物の実際数に変化がないにも拘わらず、連続する複数のフレームにおける人物の検出数が変動するため、検出数のばらつきが生じる。

【0053】

例えば、人通りが多い状況において複数の人物が重なって見える映像に含まれる人物を第１検出部３０によって検出しようとする場合、複数の人物の重なりの態様に応じて人物を検出できたり検出できなかったりする事象が発生しうる。この場合、第１検出部３０による人物の検出数にばらつきが生じるため、第１検出部３０による検出処理が不安定といえる。また、人通りが少ない状況において単独の人物のみが含まれる映像に含まれる人物を第２検出部３２によって検出しようとする場合、単独の人物の背景の状態に応じて人物を検出できたり検出できなかったりする事象が発生しうる。この場合、第２検出部３２による人物の検出数にばらつきが生じるため、第２検出部３２による検出処理が不安定といえる。

【0054】

安定性判定部３５は、取得した映像を構成するフレームごとに人物検出部１４によって検出される人物の検出数を記録する。安定性判定部３５は、所定期間（例えば１秒以上５秒以下）において連続する複数のフレームについて記録された人物の検出数を用いて、検出数のばらつきを算出する。検出数のばらつきは、連続する複数のフレームについて記録された人物の検出数の分散または標準偏差によって表すことができる。検出数のばらつきは、隣接フレーム間における人物の検出数の差を所定期間にわたって合計し、所定期間内のフレーム数で割った値で表されてもよい。

【0055】

安定性判定部３５は、人物検出部１４による人物の検出の安定性を示すスコアを算出してもよい。安定性判定部３５は、第１検出部３０によって検出される人物の検出数のばらつきに基づいて、第１モデルを用いた人物の検出の安定性を示す第１スコアを算出してもよい。安定性判定部３５は、第２検出部３２によって検出される人物の検出数のばらつきに基づいて、第２モデルを用いた人物の検出の安定性を示す第２スコアを算出してもよい。第１スコアおよび第２スコアは、人物の検出数のばらつきを示す値であってもよく、人物の検出数の分散や標準偏差であってもよい。この場合、安定性が高いほどスコアが低くなり、安定性が低いほどスコアが高くなる。

【0056】

安定性判定部３５は、第１検出部３０によって検出される人物の検出数のばらつきに基づいて、第１モデルを用いた人物の検出が安定であるか否かを判定してもよい。安定性判定部３５は、第１検出部３０によって検出される人物の検出数のばらつきが所定の基準値未満である場合、第１モデルを用いた人物の検出が安定であると判定し、第１スコアを「０」としてもよい。安定性判定部３５は、第１検出部３０によって検出される人物の検出数のばらつきが所定の基準値以上である場合、第１モデルを用いた人物の検出が安定であると判定し、第１スコアを「１」としてもよい。同様に、安定性判定部３５は、第２検出部３２によって検出される人物の検出数のばらつきに基づいて、第２モデルを用いた人物の検出が安定であるか否かを判定してもよい。安定性判定部３５は、第２検出部３２によって検出される人物の検出数のばらつきが所定の基準値未満である場合、第２モデルを用いた人物の検出が安定であると判定し、第２スコアを「０」としてもよい。安定性判定部３５は、第２検出部３２によって検出される人物の検出数のばらつきが所定の基準値以上である場合、第２モデルを用いた人物の検出が安定であると判定し、第２スコアを「１」としてもよい。

【0057】

安定性判定部３５は、取得した映像の全範囲について安定性を判定してもよいし、取得した映像の一部範囲について安定性を判定してもよい。安定性判定部３５は、取得した映像の外周部分を除く範囲において安定性を判定してもよい。この場合、安定性判定部３５は、映像の外周部分を除く一部範囲において検出される人物の検出数のばらつきに基づいて安定性を判定し、映像の外周部分において検出される人物の検出数を無視して安定性を判定する。これにより、映像の外周部分において人物が出入りすることによる検出数の変動の影響を除外することができ、安定性をより適切に判定できる。

【0058】

安定性判定部３５は、取得した映像のうち複数の人物が含まれる範囲について安定性を判定してもよい。図９は、安定性の判定対象となる映像の一部範囲７６の一例を示す図である。図９の例では、破線枠で示される複数の人物７４ａ～７４ｆが人物検出部１４によって検出されており、検出される複数の人物７４ａ～７４ｆの全てが含まれるように矩形の一部範囲７６が設定される。安定性判定部３５は、複数の人物７４ａ～７４ｆが含まれる一部範囲７６において検出される人物の検出数のばらつきに基づいて安定性を判定し、一部範囲７６の外側において検出される人物の検出数を無視して安定性を判定する。これにより、検出済の人物に対する検出の安定性を適切に判定できる。

【0059】

安定性判定部３５は、取得した映像のうち複数の人物のそれぞれに隣接する範囲について安定性を判定してもよい。ここで、人物に隣接する範囲とは、人物検出部１４によって検出された人物が含まれる領域よりも僅かに広い領域であり、重なり合って見える複数の人物が占める領域に相当する範囲である。例えば、人物検出部１４によって第１人物が検出されている場合に、第１人物と重なり合って見える第２人物が存在しうる領域が第１人物に隣接する範囲に相当する。検出された人物に隣接する範囲は、検出された人物が占める領域を含むことができ、検出された人物が占める領域を中心として縦方向および横方向の少なくとも一方に広げられた範囲とすることができる。検出された人物に隣接する範囲は、検出された人物が占める領域に対し、例えば、縦方向および横方向の少なくとも一方のサイズが１．５倍以上３倍以下となるように設定できる。

【0060】

安定性判定部３５は、人物検出部１４によって複数の人物が検出される場合、検出された複数の人物のそれぞれに隣接する範囲ごとに安定性を評価してもよい。例えば、図９の例において、第１人物７４ａの隣接範囲における安定性を評価するとともに、第２人物７４ｂの隣接範囲における安定性を評価してもよい。この場合、検出される複数の人物のそれぞれについて、人物検出部１４による人物の検出の安定性を個別に評価できる。

【0061】

有効モデル判定部３６Ａは、第１実施形態に係る有効モデル判定部３６と同様に構成されるが、安定性判定部３５の判定結果を用いる点で、第１実施形態と相違する。有効モデル判定部３６Ａは、安定性判定部３５の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する。

【0062】

有効モデル判定部３６Ａは、安定性判定部３５によって算出される第１スコアまたは第２スコアのいずれかに基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。

【0063】

有効モデル判定部３６Ａは、例えば、第１検出部３０によって人物が検出され、第１検出部３０の安定性を示す第１スコアが算出されている場合、第１スコアに基づいて、第１検出部３０または第２検出部３２のいずれを有効とするかを判定してもよい。第１スコアに基づいて第１検出部３０が安定であると判定される場合、有効モデル判定部３６Ａは、第１検出部３０を有効としてもよい。第１スコアに基づいて第１検出部３０が安定ではないと判定される場合、有効モデル判定部３６Ａは、第２検出部３２を有効としてもよい。

【0064】

有効モデル判定部３６Ａは、例えば、第２検出部３２によって人物が検出され、第２検出部３２の安定性を示す第２スコアが算出されている場合、第２スコアに基づいて、第１検出部３０または第２検出部３２のいずれを有効とするかを判定してもよい。第２スコアに基づいて第２検出部３２が安定であると判定される場合、有効モデル判定部３６Ａは、第２検出部３２を有効としてもよい。第２スコアに基づいて第２検出部３２が安定ではないと判定される場合、有効モデル判定部３６Ａは、第１検出部３０を有効としてもよい。

【0065】

有効モデル判定部３６Ａは、安定性判定部３５によって算出される第１スコアと第２スコアの比較結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。例えば、第１検出部３０および第２検出部３２が並列的に機能しており、第１スコアおよび第２スコアの双方が算出されている場合、有効モデル判定部３６Ａは、第１スコアと第２スコアを比較することにより、安定性のより高いモデルを有効としてもよい。

【0066】

有効モデル判定部３６Ａは、第１検出部３０に比べて第２検出部３２の安定性が高い場合、第２検出部３２を有効としてもよい。有効モデル判定部３６Ａは、第２検出部３２に比べて第１検出部３０の安定性が高い場合、第１検出部３０を有効としてもよい。有効モデル判定部３６Ａは、第１スコアと第２スコアが同等であり、かつ、第１検出部３０および第２検出部３２の双方の安定性が高い場合、第１検出部３０を有効としてもよい。有効モデル判定部３６Ａは、第１スコアと第２スコアが同等であり、かつ、第１検出部３０および第２検出部３２の双方の安定性が低い場合、第２検出部３２を有効としてもよい。

【0067】

有効モデル判定部３６Ａは、映像の一部範囲について第１検出部３０または第２検出部３２の安定性が判定された場合、映像の一部範囲について第１検出モデルまたは第２検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部３６Ａは、例えば、第１人物および第２人物が検出されている場合に、第１人物の隣接範囲について算出される第１スコアおよび第２スコアの少なくとも一方に基づいて、第１人物の隣接範囲にて第１検出部３０または第２検出部３２のいずれを有効とするかを判定してもよい。有効モデル判定部３６Ａは、例えば、第１人物および第２人物が検出されている場合に、第２人物の隣接範囲について算出される第１スコアおよび第２スコアの少なくとも一方に基づいて、第２人物の隣接範囲にて第１検出部３０または第２検出部３２のいずれを有効とするかを判定してもよい。例えば、第１人物の隣接範囲にて第１検出部３０による検出を有効とし、第２人物の隣接範囲にて第２検出部３２による検出を有効としてもよい。

【0068】

人物検出部１４は、有効モデル判定部３６Ａによって有効とされた検出モデルを用いて映像に含まれる人物を検出してもよい。人物検出部１４は、有効モデル判定部３６Ａによって無効とされた検出モデルを機能させないようにしてもよい。人物検出部１４は、状況判定部３４によって第１検出モデルが有効とされた場合、第１検出部３０のみを機能させ、第２検出部３２の機能を停止させてもよい。人物検出部１４は、状況判定部３４によって第２検出モデルが有効とされた場合、第２検出部３２のみを機能させ、第１検出部３０の機能を停止させてもよい。人物検出部１４は、状況判定部３４の判定結果によらず、第１検出部３０および第２検出部３２を並列的に機能させてもよい。

【0069】

図１０は、第２実施形態に係る認識処理方法の流れの一例を示すフローチャートである。図１０は、第１検出部３０または第２検出部３２を選択的に機能させる場合の処理の流れを示す。映像取得部２０は、カメラ４０が撮像した映像を取得する（ステップＳ３０）。人物検出部１４は、単独人物画像を正解画像として機械学習させた第１検出モデル、または、重畳人物画像を正解画像として機械学習させた第２検出モデルを用いて映像に含まれる人物を検出する（ステップＳ３２）。表示制御部１８は、映像取得部２０が取得した映像に人物検出部１４による人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置５０に表示させる（ステップＳ３４）。

【0070】

安定性判定部３５は、人物検出部１４によって検出される人物の検出数のばらつきに基づいて、第１検出モデルまたは第２検出モデルの安定性を判定する（ステップＳ３６）。人物検出部１４が第１検出モデルを用いる場合、安定性判定部３５は、第１検出モデルを用いて検出される人物の検出数のばらつきに基づいて、第１検出モデルの安定性を判定する。人物検出部１４が第２検出モデルを用いる場合、安定性判定部３５は、第２検出モデルを用いて検出される人物の検出数のばらつきに基づいて、第２検出モデルの安定性を判定する。安定性判定部３５によって現在の検出モデルが安定ではないと判定された場合（ステップＳ３８のＮｏ）、有効モデル判定部３６Ａは、現在の検出モデルを無効とし、現在の検出モデルとは別の検出モデルを有効とし、人物検出部１４は、有効とされた検出モデルに変更する（ステップＳ４０）。第１検出モデルが安定ではないと判定された場合、有効モデル判定部３６Ａは、第２検出モデルを有効とし、人物検出部１４は、第１検出モデルから第２検出モデルに変更する。第２検出モデルが安定ではないと判定された場合、有効モデル判定部３６Ａは、第１検出モデルを有効とし、人物検出部１４は、第２検出モデルから第１検出モデルに変更する。安定性判定部３５によって現在の検出モデルが安定であると判定された場合（ステップＳ３８のＹｅｓ）、ステップＳ４０の処理をスキップする。この場合、有効モデル判定部３６Ａは、現在の検出モデルを有効とし、人物検出部１４は、有効とされた現在の検出モデルを継続して使用する。

【0071】

ステップＳ３０からステップＳ４０までの処理は、認識処理装置１０が動作している間、または、カメラ４０によって映像が撮像されている間、繰り返し実行される。ステップＳ４０にて検出モデルが変更された場合、ステップＳ３２において、変更後の検出モデルを用いて映像に含まれる人物が検出される。

【0072】

図１１は、第２実施形態に係る認識処理方法の流れの別の一例を示すフローチャートである。図１１は、第１検出部３０および第２検出部３２を並列的に機能させる場合の処理の流れを示す。映像取得部２０は、カメラ４０が撮像した映像を取得する（ステップＳ５０）。人物検出部１４は、単独人物画像を正解画像として機械学習させた第１検出モデルを用いて映像に含まれる人物を検出し（ステップＳ５２）、重畳人物画像を正解画像として機械学習させた第２検出モデルを用いて映像に含まれる人物を検出する（ステップＳ５２）。安定性判定部３５は、第１検出部３０によって検出される人物の検出数のばらつきに基づいて第１検出モデルの安定性を判定し、第２検出部３２によって検出される人物の検出数のばらつきに基づいて第２検出モデルの安定性を判定する（ステップＳ５６）。有効モデル判定部３６Ａは、第１検出モデルおよび第２検出モデルのそれぞれの安定性に基づいて、第１検出モデルおよび第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する（ステップＳ５８）。表示制御部１８は、映像取得部２０が取得した映像に、有効とされた検出モデルによる人物検出結果を付した表示用映像を生成し、生成した表示用映像を表示装置５０に表示させる（ステップＳ６０）。ステップＳ５０からステップＳ６０までの処理は、認識処理装置１０が動作している間、または、カメラ４０によって映像が撮像されている間、繰り返し実行される。

【0073】

本実施形態によれば、第１検出モデルまたは第２検出モデルの安定性を判定することにより、人物検出処理がより安定している検出モデルを用いて映像に含まれる人物を検出できる。例えば、人通りが多い状況において複数の人物が重なって見えるために第１検出部３０による検出の安定性が低くなる場合に、映像に含まれる人物を第２検出部３２により検出することができる。逆に、人通りが少ない状況において単独の人物のみが見えるために第２検出部３２による検出の安定性が低くなる場合に、映像に含まれる人物を第１検出部３０により検出することができる。その結果、状況に応じて適切な検出モデルを採用することができ、映像に含まれる人物をより適切に検出することができる。

【0074】

（第３実施形態）
図１２は、第３実施形態に係る認識処理装置１０Ｂの機能構成を模式的に示すブロック図である。第３実施形態では、判定部１６が状況判定部３４Ｂ、安定性判定部３５、有効モデル判定部３６Ｂおよび履歴管理部３７を備える点で、第１実施形態および第２実施形態と相違する。以下、第３実施形態について、第１実施形態および第２実施形態との相違点を中心に説明し、共通的について説明を適宜省略する。

【0075】

認識処理装置１０Ｂは、取得部１２と、人物検出部１４と、判定部１６とを備える。認識処理装置１０Ｂは、表示制御部１８を備えてもよい。取得部１２は、映像取得部２０および位置情報取得部２２を備える。取得部１２は、地図情報取得部２４、時間情報取得部２６および方位情報取得部２８の少なくとも一つをさらに備えてもよい。人物検出部１４は、第１検出部３０および第２検出部３２を備える。判定部１６は、状況判定部３４Ｂ、安定性判定部３５、有効モデル判定部３６Ｂおよび履歴管理部３７を備える。表示制御部１８、映像取得部２０、位置情報取得部２２、地図情報取得部２４、時間情報取得部２６、方位情報取得部２８、第１検出部３０、第２検出部３２および安定性判定部３５は、上述の第１実施形態または第２実施形態と同様に構成される。

【0076】

履歴管理部３７は、安定性判定部３５による安定性の判定結果の履歴情報を管理する。履歴管理部３７は、安定性判定部３５による安定性の判定結果を撮像位置と対応付けて記録する。履歴管理部３７は、安定性判定部３５による安定性の判定結果を撮像位置および撮像日時と対応付けて記録してもよい。履歴管理部３７は、安定性判定部３５による安定性の判定結果を撮像位置および撮像方向と対応付けて記録してもよい。履歴管理部３７は、安定性判定部３５による安定性の判定結果を撮像位置、撮像日時および撮像方向と対応付けて記録してもよい。このような構成の場合、判定部１６は、安定性判定部３５を備えなくてもよい。

【0077】

履歴管理部３７は、人物検出部１４による人物検出結果の履歴情報を管理してもよい。履歴管理部３７は、第１検出部３０または第２検出部３２のいずれによって人物が検出されたかの履歴情報を撮像位置と対応付けて記録してもよい。履歴管理部３７は、第１検出部３０または第２検出部３２のいずれによって人物が検出されたかの履歴情報を撮像位置および撮像日時と対応付けて記録してもよい。履歴管理部３７は、第１検出部３０または第２検出部３２のいずれによって人物が検出されたかの履歴情報を撮像位置および撮像方向と対応付けて記録してもよい。履歴管理部３７は、第１検出部３０または第２検出部３２のいずれによって人物が検出されたかの履歴情報を撮像位置、撮像日時および撮像方向と対応付けて記録してもよい。

【0078】

履歴管理部３７は、安定性判定部３５によって第１検出モデルの安定性が判定された場合、第１検出モデルの安定性の判定結果（例えば、第１スコア）を記録する。履歴管理部３７は、安定性判定部３５によって第２検出モデルの安定性が判定された場合、第２検出モデルの安定性の判定結果（例えば、第２スコア）を記録する。

【0079】

状況判定部３４Ｂは、履歴管理部３７に記録される履歴情報を用いて、特定状況であるか否かを判定する。状況判定部３４Ｂは、現在の撮像位置に合致する履歴情報が履歴管理部３７に記録されている場合、現在の撮像位置における過去の履歴情報に基づいて、特定状況であるか否かを判定する。状況判定部３４Ｂは、現在の撮像位置において過去に判定された第１検出モデルの安定性が高い場合、特定状況ではないと判定してもよい。状況判定部３４Ｂは、現在の撮像位置において過去に判定された第１検出モデルの安定性が低い場合、特定状況であると判定してもよい。状況判定部３４Ｂは、現在の撮像位置において過去に判定された第２検出モデルの安定性が高い場合、特定状況であると判定してもよい。状況判定部３４Ｂは、現在の撮像位置において過去に判定された第２検出モデルの安定性が低い場合、特定状況ではないと判定してもよい。状況判定部３４Ｂは、現在の撮像位置において過去に第１検出モデルによって人物が検出されている場合、特定状況ではないと判定してもよい。状況判定部３４Ｂは、現在の撮像位置において過去に第２検出モデルによって人物が検出されている場合、特定状況であると判定してもよい。

【0080】

状況判定部３４Ｂは、現在の撮像位置および撮像時刻に合致する履歴情報が履歴管理部３７に記録されている場合、現在の撮像位置および撮像時刻に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。状況判定部３４Ｂは、現在の撮像位置および撮像方向に合致する履歴情報が履歴管理部３７に記録されている場合、現在の撮像位置および撮像方向に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。状況判定部３４Ｂは、現在の撮像位置、撮像時刻および撮像方向に合致する履歴情報が履歴管理部３７に記録されている場合、現在の撮像位置、撮像時刻および撮像方向に対応する過去の履歴情報に基づいて、特定状況であるか否かを判定してもよい。

【0081】

状況判定部３４Ｂは、現在の撮像位置、撮像時刻および撮像方向の少なくともいずれかに合致する履歴情報が履歴管理部３７に記録されていない場合、地図装置４４に含まれる特定条件に合致するか否かに応じて、特定状況であるか否かを判定してもよい。つまり、状況判定部３４Ｂは、現在の状況に対応する履歴情報が履歴管理部３７に記録されている場合、履歴管理部３７に記録される履歴情報を優先的に用いて特定状況であるか否かを判定してもよい。

【0082】

有効モデル判定部３６Ｂは、状況判定部３４Ｂおよび安定性判定部３５の少なくとも一方の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する。有効モデル判定部３６Ｂは、人物検出部１４によって人物が検出されていない場合、状況判定部３４Ｂの判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを有効とするかを判定してもよい。有効モデル判定部３６Ｂは、人物検出部１４によって人物が検出されている場合、安定性判定部３５の判定結果に基づいて、第１検出モデルまたは第２検出モデルのいずれを有効とするかを判定してもよい。

【0083】

図１３は、第３実施形態に係る認識処理方法の流れの一例を示すフローチャートである。図１３は、第１検出部３０または第２検出部３２を選択的に機能させる場合の処理の流れを示す。図１３に示すステップＳ７０およびステップＳ７６からステップＳ８０の処理は、図７に示すステップＳ１０およびステップＳ１６からステップＳ２０の処理と同一であるため、説明を省略する。位置情報取得部２２は、位置センサ４２から映像の撮像位置を示す位置情報を取得する。状況判定部３４Ｂは、位置情報に対応する履歴情報を取得する。（ステップＳ７２）。状況判定部３４Ｂは、撮像位置および履歴情報に基づいて、過去に特定状況であると判定された位置であるか否かを判定する（ステップＳ７４）。状況判定部３４Ｂによって撮像位置に対応する履歴情報が特定状況であると判定された場合（ステップＳ７４のＹｅｓ）、ステップＳ７６の処理を実行する。状況判定部３４Ｂによって撮像位置に対応する履歴情報が特定状況ではないと判定された場合（ステップＳ７４のＮｏ）、ステップＳ７８の処理を実行する。

【0084】

本実施形態によれば、現在の撮像位置に対応する過去の履歴情報がある場合、履歴情報に基づいて第１検出部３０または第２検出部３２のいずれを有効とするかを判定できる。過去の実績に応じて適切な検出モデルを採用することができ、映像に含まれる人物をより適切に検出することができる。

【0085】

以上、本発明を上述の実施の形態を参照して説明したが、本発明は上述の実施の形態に限定されるものではなく、実施の形態に示す各構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。

【0086】

以下、本開示のいくつかの態様について述べる。

【0087】

本開示の第１の態様は、移動体に設けられるカメラによって撮像される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定する状況判定部と、前記状況判定部の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置である。

【0088】

第１の態様において、前記状況判定部は、人通りが多いと推定される場所および日時の組み合わせを示す地図情報、前記カメラの撮像日時を示す時間情報、および、前記映像の撮像方向を示す方位情報の少なくとも一つをさらに用いて、前記特定状況であるか否かを判定してもよい。

【0089】

第１の態様において、前記取得した映像の撮像位置を示す位置情報と、前記人物検出部による人物検出結果とを対応付けた履歴情報を記録する履歴管理部をさらに備えてもよい。第１の態様において、前記状況判定部は、前記履歴情報をさらに用いて、前記特定状況であるか否かを判定してもよい。

【0090】

第１の態様は、認識処理方法として提供されてもよい。この方法は、移動体に設けられるカメラによって撮像される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定するステップと、前記特定状況であるか否かの判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを決定するステップと、を備えてもよい。この方法は、各ステップをコンピュータに実行させるよう構成されてもよい。

【0091】

第１の態様は、プログラムまたはプログラムを記憶する非一時的な記録媒体として提供されてもよい。このプログラムは、移動体に設けられるカメラによって撮像される映像を取得する機能と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する機能と、前記取得した映像の撮像位置を示す位置情報と、人通りが多いと推定される場所を示す地図情報とを用いて、人通りが多いと推定される特定状況であるか否かを判定する機能と、前記特定状況であるか否かの判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを決定する機能と、をコンピュータに実現させるよう構成されてもよい。

【0092】

本開示の第２の態様は、人物の全身像を含み、前記人物の背景として別の人物の少なくとも一部が含まれる重畳人物画像を正解画像として使用する機械学習によって人物検出モデルを生成する、人物検出モデル生成方法である。第２の態様において、前記機械学習は、人物の全身像を含み、前記人物の背景として別の人物が含まれない単独人物画像を正解画像として使用しなくてもよい。

【0093】

本開示の第３の態様は、移動体に設けられるカメラによって撮影される映像を取得する映像取得部と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する人物検出部と、前記取得した映像の連続する複数のフレームにおいて前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記人物検出部による人物の検出処理の安定性を判定する安定性判定部と、前記安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する有効モデル判定部と、を備える認識処理装置である。

【0094】

第３の態様において、前記安定性判定部は、前記人物検出部が前記第１検出モデルを用いる場合、前記第１検出モデルを用いた人物の検出の安定性を判定し、前記人物検出部が前記第２検出モデルを用いる場合、前記第２検出モデルを用いた人物の検出の安定性を判定してもよい。第３の態様において、前記有効モデル判定部は、前記第１検出モデルまたは前記第２検出モデルのいずれかの安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。

【0095】

第３の態様において、前記安定性判定部は、前記第１検出モデルを用いた人物の検出の安定性と、前記第２検出モデルを用いた人物の検出の安定性とを判定してもよい。第３の態様において、前記有効モデル判定部は、前記第１検出モデルおよび前記第２検出モデルのそれぞれの安定性の比較結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定してもよい。

【0096】

第３の態様において、前記安定性判定部は、前記取得した映像の外周部分を除く範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。

【0097】

第３の態様において、前記安定性判定部は、前記取得した映像のうち複数の人物が含まれる範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。

【0098】

第３の態様において、前記安定性判定部は、前記取得した映像のうち複数の人物のそれぞれに隣接する範囲において前記人物検出部によって検出される人物の検出数のばらつきに基づいて、前記安定性を判定してもよい。

【0099】

第３の態様は、認識処理方法として提供されてもよい。この方法は、移動体に設けられるカメラによって撮影される映像を取得するステップと、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出するステップと、前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定するステップと、前記安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定するステップと、を備えてもよい。この方法は、各ステップをコンピュータに実行させるよう構成されてもよい。

【0100】

第３の態様は、プログラムまたはプログラムを記憶する非一時的な記録媒体として提供されてもよい。このプログラムは、移動体に設けられるカメラによって撮影される映像を取得する機能と、単独人物画像を正解画像として機械学習させた第１検出モデルと、重畳人物画像を正解画像として機械学習させた第２検出モデルとの少なくとも一方を用いて、前記取得した映像に含まれる人物を検出する機能と、前記取得した映像の連続する複数のフレームにおいて検出される人物の検出数のばらつきに基づいて、前記検出の安定性を判定する機能と、前記安定性の判定結果に基づいて、前記第１検出モデルまたは前記第２検出モデルのいずれを用いた人物の検出を有効とするかを判定する機能と、をコンピュータに実現させるよう構成されてもよい。

【符号の説明】

【0101】

１０，１０Ａ，１０Ｂ…認識処理装置、１２…取得部、１４…人物検出部、１６…判定部、１８…表示制御部、２０…映像取得部、３０…第１検出部、３２…第２検出部、３４，３４Ｂ…状況判定部、３５…安定性判定部、３６，３６Ａ，３６Ｂ…有効モデル判定部、３７…履歴管理部、４０…カメラ。

【図1】