IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特許7424236画像認識装置、画像認識方法および認識辞書生成方法
<>
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図1
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図2
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図3
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図4
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図5
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図6
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図7
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図8
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図9
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図10
  • 特許-画像認識装置、画像認識方法および認識辞書生成方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】画像認識装置、画像認識方法および認識辞書生成方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240123BHJP
【FI】
G06T7/00 350B
【請求項の数】 4
(21)【出願番号】P 2020120682
(22)【出願日】2020-07-14
(65)【公開番号】P2022017871
(43)【公開日】2022-01-26
【審査請求日】2023-03-31
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】小倉 卓也
【審査官】小太刀 慶明
(56)【参考文献】
【文献】特開2007-265149(JP,A)
【文献】特開2019-159575(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項4】
撮像画像を取得する機能と、
前記撮像画像の一部領域に所定の対象物が含まれる可能性を示す認識スコアを算出する機能であって、
a)前記一部領域の画像サイズが閾値未満である場合、所定値未満の画像サイズを有する画像を入力画像とし、前記所定の対象物が入力画像に含まれる可能性を示す認識スコアを出力とする機械学習により生成された第1認識辞書データを用いて、前記一部領域における前記所定の対象物の認識スコアを算出し、
b)前記一部領域の画像サイズが前記閾値以上である場合、前記所定値以上の画像サイズを有する画像を入力画像とし、前記所定の対象物が入力画像に含まれる可能性を示す認識スコアを出力とする機械学習により生成された第2認識辞書データを用いて、前記一部領域における前記所定の対象物の認識スコアを算出する機能と、
前記算出される認識スコアに基づいて、前記撮像画像に前記所定の対象物が含まれるか否かを判定する機能と、をコンピュータに実現させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置、画像認識方法および認識辞書生成方法に関する。
【背景技術】
【0002】
車両の周囲を撮像した画像から歩行者などの対象物をパターンマッチング等の画像認識技術を用いて検出する技術が知られている。例えば、撮像画像から近距離用、中距離用および遠距離用の三つの画像を生成し、三つの画像のそれぞれについて共通の認識辞書を用いたパターンマッチングを行うことにより、検出精度を高める技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-211943号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
撮像画像において対象物が含まれる領域の画像サイズは、主に対象物までの距離に応じて大きく変化しうる。対象物が遠い場合には対象物が含まれる領域の画像サイズは小さくなり、対象物が近い場合には対象物が含まれる領域の画像サイズは大きくなる。画像サイズの異なる対象物を共通の認識辞書を用いて検出しようとすると、検出精度が低下しうる。
【0005】
本発明は、上述の事情に鑑みてなされたものであり、認識辞書に基づく画像認識処理において対象物の検出精度を高める技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様の画像認識装置は、撮像画像を取得する画像取得部と、撮像画像の一部領域に所定の対象物が含まれる可能性を示す認識スコアを算出する認識処理部と、認識処理部により算出される認識スコアに基づいて、撮像画像に所定の対象物が含まれるか否かを判定する判定処理部と、を備える。認識処理部は、a)一部領域の画像サイズが閾値未満である場合、所定値未満の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習により生成された第1認識辞書データを用いて、一部領域における所定の対象物の認識スコアを算出し、b)一部領域の画像サイズが閾値以上である場合、所定値以上の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習により生成された第2認識辞書データを用いて、一部領域における所定の対象物の認識スコアを算出する。
【0007】
本発明の別の態様は、画像認識方法である。この方法は、撮像画像を取得するステップと、撮像画像の一部領域に所定の対象物が含まれる可能性を示す認識スコアを算出するステップと、算出される認識スコアに基づいて、撮像画像に所定の対象物が含まれるか否かを判定するステップと、を備える。認識スコアを算出するステップは、a)一部領域の画像サイズが閾値未満である場合、所定値未満の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習により生成された第1認識辞書データを用いて、一部領域における所定の対象物の認識スコアを算出し、b)一部領域の画像サイズが閾値以上である場合、所定値以上の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習により生成された第2認識辞書データを用いて、一部領域における所定の対象物の認識スコアを算出する。
【0008】
本発明のさらに別の態様は、認識辞書生成方法である。この方法は、所定値未満の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習によって第1認識辞書データを生成するステップと、所定値以上の画像サイズを有する画像を入力画像とし、入力画像に所定の対象物が含まれる可能性を示す認識スコアを出力とする機械学習によって第2認識辞書データを生成するステップと、を備える。
【発明の効果】
【0009】
本発明によれば、認識辞書に基づく画像認識処理において対象物の検出精度を高めることができる。
【図面の簡単な説明】
【0010】
図1】実施の形態に係る画像認識装置の機能構成を模式的に示すブロック図である。
図2】画像取得部が取得する撮像画像の例を示す図である。
図3】出力部が生成する出力画像の例を示す図である。
図4】画像変換部が生成する複数の変換画像を模式的に示す図である。
図5】複数の変換画像の画像サイズの一例を示すテーブルである。
図6】画像検索部による画像検索処理を模式的に示す図である。
図7図7(a)は、変換画像における切出領域の画像サイズを模式的に示す図であり、図7(b)は、撮像画像における検索領域の画像サイズを模式的に示す図である。
図8】画像検索処理の検索条件の一例を示すテーブルである。
図9】実施の形態に係る画像認識方法の流れを示すフローチャートである。
図10図10(a)~(d)は、学習用画像の例を示す図である。
図11】実施の形態に係る認識辞書生成方法の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、図面を参照しつつ説明する。かかる実施の形態に示す具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、本発明を限定するものではない。なお、図面において、本発明に直接関係のない要素は図示を省略する。
【0012】
本実施の形態を詳細に説明する前に概要を示す。本実施の形態は、取得した画像に所定の対象物が含まれるか否かを認識辞書データを用いて判定する画像認識装置である。画像認識装置は、例えば車両に搭載され、車両前方を撮像した画像を取得する。画像認識装置は、取得した画像に基づいて、歩行者やサイクリスト(自転車に乗っている人)などの対象物を検出する。認識辞書データは、検出対象となる対象物の種類ごとに用意される。本実施の形態では、同一種類の対象物(例えば、歩行者)について複数の認識辞書データを用意し、複数の認識辞書データを使い分けることで対象物の検出精度を高める。
【0013】
図1は、実施の形態に係る画像認識装置10の機能構成を模式的に示すブロック図である。画像認識装置10は、画像取得部12と、認識処理部14と、判定処理部16と、出力部18と、認識辞書記憶部20と、を備える。本実施の形態では、画像認識装置10が車両に搭載される場合について例示する。
【0014】
本実施形態において示される各機能ブロックは、ハードウェア的には、コンピュータのCPUやメモリをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックとして描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
【0015】
画像取得部12は、カメラ26が撮像した撮像画像を取得する。カメラ26は、車両に搭載され、車両の周囲の画像を撮像する。カメラ26は、例えば、車両の前方の画像を撮像する。カメラ26は、車両の後方を撮像してもよいし、車両の側方を撮像してもよい。画像認識装置10は、カメラ26を備えてもよいし、カメラ26を備えなくてもよい。
【0016】
カメラ26は、車両の周囲の赤外線を撮像するよう構成される。カメラ26は、いわゆる赤外線サーモグラフィであり、車両の周辺の温度分布を画像化し、車両の周辺に存在する熱源を特定できるようにする。カメラ26は、波長2μm~5μm程度の中赤外線を検出するよう構成されてもよいし、波長8μm~14μm程度の遠赤外線を検出するよう構成されてもよい。なお、カメラ26は、可視光を撮像するよう構成されてもよい。カメラ26は、赤色、緑色および青色のカラー画像を撮像するよう構成されてもよいし、可視光のモノクロ画像を撮像するよう構成されてもよい。
【0017】
図2は、画像取得部12が取得する撮像画像30の例を示す。図2は、交差点で停車中の車両の前方を赤外線カメラで撮像したときの画像を示し、車両の前方の横断歩道を渡っている歩行者30aやサイクリスト30bが撮像画像30に含まれている。
【0018】
認識処理部14は、画像取得部12が取得する撮像画像の一部領域に所定の対象物が含まれる可能性を示す認識スコアを算出する。認識処理部14は、例えば、図2の歩行者30aが含まれる領域を特定し、特定した領域に歩行者が含まれる可能性を示す認識スコアを算出する。認識スコアは、例えば0~1の範囲で算出され、一部領域に所定の対象物が含まれる可能性が高いほど大きな数値(つまり、1に近い値)となり、一部領域に所定の対象物が含まれる可能性が低いほど小さな数値(つまり、0に近い値)となる。
【0019】
判定処理部16は、認識処理部14が算出する認識スコアに基づいて、撮像画像30に所定の対象物が含まれるか否かを判定する。判定処理部16は、例えば、認識処理部14が算出する認識スコアが所定の基準値以上である場合、基準値以上の認識スコアとなる領域に所定の対象物が存在すると判定する。なお、基準値以上の認識スコアとなる領域がない場合、判定処理部16は、所定の対象物が存在しないと判定する。
【0020】
出力部18は、判定処理部16の判定結果に基づく情報を出力する。出力部18は、判定処理部16が所定の対象物が存在すると判定した場合、検出した対象物を強調する枠などを付加した出力画像を生成する。出力部18が生成する出力画像は、ディスプレイなどの外部装置28に表示される。出力部18は、判定処理部16が所定の対象物が存在すると判定した場合、警告音を生成してもよい。出力部18が生成する警告音声は、スピーカなどの外部装置28から出力される。画像認識装置10は、外部装置28を備えてもよいし、外部装置28を備えなくてもよい。
【0021】
図3は、出力部18が生成する出力画像38の例を示す図である。出力画像38は、撮像画像30に検出枠38a,38bを重畳したものである。出力画像38の第1検出枠38aは、撮像画像30の歩行者30aに対応する位置に重畳される。出力画像38の第2検出枠38bは、撮像画像30のサイクリスト30bに対応する位置に重畳される。
【0022】
認識辞書記憶部20は、認識処理部14が認識スコアを算出するときに用いる認識辞書データを記憶する。認識辞書記憶部20は、対象物の種類に応じた複数種類の認識辞書データを記憶する。例えば、歩行者用の認識辞書データ、サイクリスト用の認識辞書データ、動物用の認識辞書データ、および、車両用の認識辞書データなどが認識辞書記憶部20に記憶される。認識辞書データは、画像を入力とし、認識スコアを出力とするモデルを用いた機械学習によって生成される。機械学習に用いるモデルとして、畳み込みニューラルネットワーク(CNN)などを用いることができる。
【0023】
認識処理部14は、画像変換部22と、画像検索部24とを含む。画像変換部22は、画像取得部12が取得する撮像画像30の画像サイズを変換し、画像サイズが異なる複数の変換画像を生成する。画像検索部24は、画像変換部22が生成する変換画像の一部領域を切り出し、切り出した領域に所定の対象物が含まれる可能性を示す認識スコアを算出する。画像検索部24は、切出領域の位置を変えて認識スコアを順次算出することで、認識スコアの高い領域を検索する。画像サイズの異なる複数の変換画像を検索することで、撮像画像30に含まれる異なる大きさの対象物を検出可能となる。
【0024】
図4は、画像変換部22が生成する複数の変換画像32を模式的に示す図である。画像変換部22は、撮像画像30から複数であるn枚の変換画像32(32_1,・・・,32_i,・・・,32_n)を生成する。複数の変換画像32は、元となる撮像画像30の画像サイズを拡大または縮小することで生成される。複数の変換画像32は、ピラミッド構造を有するように階層化された「画像ピラミッド」と呼ばれることがある。
【0025】
本書において「画像サイズ」は、画像の縦方向および横方向の画素数で定義できる。例えば、第1変換画像32_1は、撮像画像30を第1変換倍率kで拡大することで生成される。撮像画像30の縦方向の画像サイズをhとすると、第1変換画像32_1の縦方向の画像サイズhは、h=k・hである。同様に、撮像画像30の横方向の画像サイズをwとすると、第1変換画像32_1の横方向の画像サイズwは、w=k・wである。また、第n変換画像32_nは、撮像画像30を第n変換倍率kで縮小することで生成される。第n変換画像32_nの縦方向および横方向の画像サイズh,wは、h=k・hであり、w=k・wである。複数の変換画像32のそれぞれは、縦方向および横方向の画像サイズh,wと、変換倍率kとが互いに異なる(i=1~n)。なお、複数の変換画像32のそれぞれは、縦方向および横方向の画像サイズの比率(アスペクト比)h:wが共通である。
【0026】
図5は、複数の変換画像32の画像サイズの一例を示すテーブルである。図5では、複数の変換画像32の枚数n=19であり、撮像画像30の縦方向および横方向の画像サイズが720×1280(h=720ピクセル,w=1280ピクセル)である場合を例示する。変換倍率kは、等比級数となるように設定されており、公比r=ki+1/kが約0.9となるように設定されている。図5の例では、i=1~10において撮像画像30が拡大されるように変換倍率kを1を超える値に設定している。一方、i=11~19では、撮像画像30が縮小されるように変換倍率kを1未満の値に設定している。なお、複数の変換画像32の枚数n、変換倍率k、撮像画像30の画像サイズh,wの具体的な数値は、図5の例に限られず、適宜任意の値を設定することができる。また、変換倍率kは、等比級数でなくてもよく、等差級数であってもよい。変換倍率kは、番号iに応じて段階的に値が変化する任意の数列で定義されてもよい。
【0027】
図6は、画像検索部24による画像検索処理を模式的に示す図である。画像検索部24は、変換画像32の一部である切出領域34を抽出し、切出領域34に所定の対象物が含まれる可能性を示す認識スコアを算出する。画像検索部24は、認識辞書データを用いた画像認識処理によって認識スコアを算出する。画像検索部24は、認識辞書データを読み込んでモデルを生成し、モデルに切出領域34の画像データを入力し、入力した切出領域34の認識スコアをモデルに出力させる。画像検索部24は、矢印Sで示されるように切出領域34の位置をずらしながら切出領域34の画像データをモデルに順次入力することで、変換画像32の全領域にわたって認識スコアを算出する。
【0028】
切出領域34の形状およびサイズは、認識辞書データの種類に応じて定められている。例えば、歩行者用の認識辞書データの場合、切出領域34が長方形であり、切出領域34の縦方向および横方向の画像サイズの比率a:bが約2:1となるように定められている。サイクリスト用や自動車用では、切出領域34の縦方向および横方向の画像サイズの比率a:bが歩行者用とは異なる値であってもよい。切出領域34の縦方向および横方向の画像サイズは、認識辞書データごとに固定値が設定される。切出領域34の画像サイズは、例えば、認識辞書データを生成するための機械学習において使用された学習用画像の画像サイズに一致する。
【0029】
画像検索部24は、画像サイズの異なる複数の変換画像32について、認識辞書データごとに設定される所定サイズa×bの切出領域34を切り出して画像検索処理を実行する。図7(a)は、変換画像32における切出領域34の画像サイズa×bを模式的に示す図である。図7(a)の例では、図2の歩行者30aが含まれる領域を切出領域34としている。変換画像32は、元の撮像画像30を所定の変換倍率kで拡大または縮小した画像であるため、元の撮像画像30を基準としたときの検索対象となる領域のサイズは、切出領域34を変換倍率の逆数1/kで縮小または拡大したサイズとなる。図7(b)は、撮像画像30における検索領域36の画像サイズを模式的に示す図である。図示されるように、撮像画像30を基準としたときの検索領域36の画像サイズは(a/k)×(b/k)であり、切出領域34のサイズa×bを変換倍率kで割った値となる。その結果、画像サイズの異なる複数の変換画像32について所定サイズa×bの切出領域34を画像検索することで、撮像画像30における検索領域36の画像サイズを変化させながら画像検索を実行できる。これにより、サイズの異なる対象物を検索できる。
【0030】
本実施の形態では、同一種類の対象物について複数の認識辞書データが用意され、認識辞書データごとに切出領域34の画像サイズが異なる。例えば、歩行者用の第1認識辞書データでは切出領域34の画像サイズが相対的に小さく設定され、歩行者用の第2認識辞書データでは切出領域34の画像サイズが相対的に大きく設定される。例えば、歩行者用の第1認識辞書データの切出領域34の画像サイズは、80×40(a=80ピクセル、b=40ピクセル)であり、歩行者用の第2認識辞書データの切出領域34の画像サイズは、160×80(a=160ピクセル、b=80ピクセル)である。第1認識辞書データは、低解像度の対象物画像を認識するために用いられ、主に遠くに位置する対象物を検出するための遠方用データである。一方、第2認識辞書データは、高解像度の対象物画像を認識するために用いられ、主に近くに位置する対象物を検出するための近傍用データである。
【0031】
画像検索部24は、画像サイズの異なる複数の変換画像32のそれぞれについて、一以上の認識辞書データを用いて画像検索処理を実行する。画像検索部24は、複数の変換画像32のそれぞれについて、第1認識辞書データおよび第2認識辞書データの少なくとも一方を用いて画像検索処理を実行する。画像検索部24は、撮像画像30を基準としたときの検索領域36の画像サイズが所定の閾値以上であるか否かに応じて、第1認識辞書データおよび第2認識辞書データを使い分ける。具体的には、検索領域36の画像サイズが閾値未満である場合、低解像度用の第1認識辞書データを用いる。一方、検索領域36の画像サイズが閾値以上である場合、高解像度用の第2認識辞書データを用いる。
【0032】
閾値となる画像サイズは、第1認識辞書データおよび第2認識辞書データの切出領域34の画像サイズに応じて決めることができる。閾値となる画像サイズは、例えば、第1認識辞書データの切出領域34の画像サイズ(例えば80×40)の4倍以下(320×160以下)または3倍以下(240×120以下)とすることができる。閾値となる画像サイズは、例えば、第2認識辞書データの切出領域34の画像サイズ以上(例えば160×80以上)とすることができる。閾値となる画像サイズの一例は、200×100である。
【0033】
図8は、画像検索処理の検索条件の一例を示すテーブルであり、複数の検索条件1~26について、使用する認識辞書データ、使用する変換画像32の番号i、変換画像32の変換倍率kおよび検索領域36の縦方向の画像サイズ(検索サイズ)を示している。検索条件1~19は、低解像度用の第1認識辞書データを用いる。第1認識辞書データの切出領域34の縦方向の画像サイズは80ピクセルであるため、検索条件1~19において撮像画像30を基準とする検索領域36の縦方向の画像サイズは80/kである。検索条件1の検索サイズは27ピクセルであり、検索条件19の検索サイズは199ピクセルである。このように、第1認識辞書データを用いる検索条件1~19では、検索領域36の検索サイズが閾値(200ピクセル)未満となる。
【0034】
図8の検索条件20~26は、高解像度用の第2認識辞書データを用いる。第2認識辞書データの切出領域34の縦方向の画像サイズは160ピクセルであるため、検索条件20~26において撮像画像30を基準とする検索領域36の縦方向の画像サイズは160/kである。検索条件20の検索サイズは203ピクセルであり、検索条件26の検索サイズは397ピクセルである。このように、第2認識辞書データを用いる検索条件20~26では、検索領域36の検索サイズが閾値(200ピクセル)以上となる。
【0035】
図8の検索条件1~26は、変換画像32の番号i(または変換倍率ki)に応じて分類することもできる。変換画像32の番号i=1~12の場合、つまり、変換倍率kiが所定の閾値(例えば0.8)以上である場合、低解像度用の第1認識辞書データのみを用いて画像検索処理が実行される。一方、変換画像32の番号i=13~19の場合、つまり、変換倍率kiが所定の閾値(例えば0.8)未満である場合、低解像度用の第1認識辞書データと高解像度用の第2認識辞書データの双方を用いて画像検索処理が実行される。

【0036】
画像検索部24は、検索条件1~26に示す条件のそれぞれに基づいて、画像検索処理を実行する。撮像画像30について検索条件1~26の全てに基づく画像検索処理を実行することで、様々なサイズの対象物を検出することができる。また、切出領域34のサイズが異なる複数の認識辞書データを組み合わせて用いることで、対象物の検出精度を高めることができる。仮に、第1認識辞書データのみを用いる場合、検索領域36のサイズを閾値以上とする際に撮像画像30を過度(例えば1/3未満または1/4未満)に縮小して特徴量が失われた状態で画像検索をしなければならないため、認識精度が低下してしまう。同様に、第2認識辞書データのみを用いる場合、検索領域36のサイズを閾値未満とする際に撮像画像30を過度(例えば3倍超または4倍超)に拡大した粗い画像で画像検索をしなければならないため、認識精度が低下してしまう。本実施の形態によれば、複数の認識辞書データを組み合わせることで、撮像画像30を拡大または縮小する変換倍率kの範囲を狭くできる。図8の例では、変換倍率kを1/3倍以上3倍以下の範囲にできる。その結果、撮像画像30を過度に拡大または縮小することによる認識精度の低下を防止できる。
【0037】
図9は、実施の形態に係る画像認識方法の流れを示すフローチャートである。撮像画像30を取得すると(S10)、検索条件を初期化する(S12)。検索条件に定める検索サイズが閾値未満であれば(S14のY)、第1認識辞書データを用いる画像検索により認識スコアを算出する(S16)。一方、検索サイズが閾値以上であれば(S14のN)、第2認識辞書データを用いる画像検索により認識スコアを算出する(S18)。画像検索が終了していなければ(S20のN)、検索条件を更新し(S22)、S14~S18の処理を繰り返す。画像検索が終了していれば(S20のY)、算出された認識スコアに基づいて対象物を検出する(S24)。
【0038】
つづいて、認識辞書データの生成方法について説明する。本実施の形態では、同一種類の対象物について複数の認識辞書データを生成する。例えば、歩行者用の認識辞書データとして、低解像度用(遠方用)の第1認識辞書データと、高解像度用(近傍用)の第2認識辞書データとを生成する。複数の認識辞書データは、機械学習に用いるモデルに入力する学習用画像の画像サイズを互いに異ならせることで生成できる。例えば、第1認識辞書データを生成する場合、所定値未満の画像サイズを有する学習用画像を入力として用いる。一方、第2認識辞書データを生成する場合、所定値以上の画像サイズを有する学習用画像を入力として用いる。ここで、基準となる「所定値」の画像サイズは、第2認識辞書データの切出領域34の画像サイズであり、例えば160×80である。
【0039】
機械学習に用いるモデルは、入力画像の画像サイズ(画素数)に対応する入力と、認識スコアを出力する出力と、入力と出力の間を接続する中間層とを含むことができる。中間層は、畳み込み層、プーリング層、全結合層などを含むことができる。中間層は、多層構造であってもよく、いわゆるディープラーニングが実行可能となるよう構成されてもよい。機械学習に用いるモデルは、畳み込みニューラルネットワーク(CNN)を用いて構築されてもよい。なお、機械学習に用いるモデルは上記に限られず、任意の機械学習モデルが用いられてもよい。
【0040】
機械学習に用いるモデルは、ハードウェア的には、コンピュータのCPUやメモリをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックとして描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
【0041】
図10(a)~(d)は、学習用画像の例を示す図であり、歩行者用の認識辞書データを生成するために用いる学習用画像の例を示す。図10(a),(b)は、第1認識辞書データを生成するための学習用画像41~46を示し、図10(c),(d)は、第2認識辞書データを生成するための学習用画像51~56を示す。図示されるように、第1認識辞書データ用の学習用画像41~46は、画像サイズが相対的に小さく、相対的に低解像度である。第1認識辞書データ用の学習用画像41~46の画像サイズの一例は、80×40である。一方、第2認識辞書データ用の学習用画像51~56は、画像サイズが相対的に大きく、相対的に高解像度である。第2認識辞書データ用の学習用画像51~56の画像サイズの一例は、160×80である。
【0042】
学習用画像として、図1のカメラ26と同等のカメラで撮像された画像を用いることができ、撮像画像の一部領域を切り出した画像を用いることができる。学習用画像は、撮像画像の一部領域を切り出した画像自体であってもよいし、撮像画像の一部領域を切り出した元画像の画像サイズを変換した画像であってもよい。学習用画像は、撮像画像の一部領域を切り出した元画像をモデルに合った入力画像サイズに縮小した画像であってもよい。第1認識辞書データを生成するための第1モデルの入力画像サイズは、例えば80×40であり、第2認識辞書データを生成するための第2モデルの入力画像サイズは、例えば160×80である。なお、学習用画像として、撮像画像の一部領域を切り出した元画像を拡大した画像を使用しないことが好ましい。つまり、元画像として、モデルの入力画像サイズよりも小さい画像サイズの画像を用いないことが好ましい。元画像の画像サイズがモデルの入力画像サイズに比べて小さい場合、機械学習の精度が低下しうる。
【0043】
認識辞書データを生成する機械学習では、正解画像と不正解画像をモデルに入力する教師あり学習を用いることができる。図10(a)の学習用画像41,42,43は、第1認識辞書データ用の正解画像であり、認識対象となる歩行者が含まれる。正解画像には、前向きの歩行者、横向きの歩行者、後向きの歩行者といった様々な歩行者が含まれる。正解画像をモデルに入力させる場合、モデルから出力される認識スコアが大きくなる(例えば、1に近づく)ように学習が実行される。
【0044】
図10(b)の学習用画像44,45,46は、第1認識辞書データ用の不正解画像であり、歩行者ではないが、歩行者と誤認しやすい対象物が含まれる。不正解画像には、縦に長い建造物などが含まれ、鉄塔や電柱、街灯などが含まれる。不正解画像をモデルに入力させる場合、モデルから出力される認識スコアが小さくなる(例えば、0に近づく)ように学習が実行される。
【0045】
第2認識辞書データの学習も同様であり、図10(c)の正解画像51,52,53および図10(d)の不正解画像54,55,56をモデルに入力する教師あり学習を用いることができる。なお、正解画像のみを用いる機械学習によって認識辞書データを生成してもよいし、教師なし学習によって認識辞書データを生成してもよい。
【0046】
図11は、実施の形態に係る認識辞書生成方法の流れを示すフローチャートである。学習用画像を取得し(S30)、学習用画像の画像サイズが所定値未満であれば(S32のY)、学習用画像を第1モデルに入力して機械学習させる(S34)。学習用画像の画像サイズが所定値以上であれば(S32のN)、学習用画像を第2モデルに入力して機械学習させる(S36)。S34,S36において、学習用画像の画像サイズが第1モデルまたは第2モデルに入力させる画像サイズと一致しない場合、学習用画像の画像サイズを変換(例えば縮小)してからモデルに入力させてもよい。S30~S36の処理は、第1モデルおよび第2モデルの機械学習が終了するまでが繰り返される(S38のN)。機械学習が終了した場合(S38のY)、第1モデルから第1認識辞書データが生成され(S40)、第2モデルから第2認識辞書データが生成される(S42)。第1認識辞書データは、例えば、学習済みの第1モデルを構築するための各種パラメータを含む。第2認識辞書データは、例えば、学習済みの第2モデルを構築するための各種パラメータを含む。
【0047】
本実施の形態によれば、学習用画像の画像サイズに応じて複数の認識辞書データを生成できる。具体的には、低解像度の学習用画像を入力として第1認識辞書データを生成し、高解像度の学習用画像を入力として第2認識辞書データを生成できる。その結果、低解像度の画像の認識に特化した第1認識辞書データと、高解像度の画像の認識に特化した第2認識辞書データとを用意することができ、様々な画像サイズの対象物を認識する精度を向上させることができる。
【0048】
以上、本発明を上述の実施の形態を参照して説明したが、本発明は上述の実施の形態に限定されるものではなく、実施の形態に示す各構成を適宜組み合わせたものや置換したものについても本発明に含まれるものである。
【0049】
上述の実施の形態では、歩行者用の認識辞書データとして、低解像度用の第1認識辞書データと高解像度用の第2認識辞書データを用いる場合について示した。別の実施の形態では、歩行者とは異なる種類の対象物(サイクリスト、車両、動物など)について、複数の認識辞書データを用いてもよい。その他、第1種類の対象物(例えば歩行者やサイクリスト)について複数の認識辞書データを用いる一方、第2種類の対象物(例えば車両や動物)について単一の認識辞書データのみを用いるようにしてもよい。
【0050】
上述の実施の形態では、撮像画像30から変換画像32を生成し、変換画像32の一部領域である切出領域34を抽出して画像検索処理を実行する場合について説明した。別の実施の形態では、撮像画像30の一部領域である検索領域36を抽出し、検索領域36の画像サイズを認識辞書データの入力画像サイズに変換して画像検索処理を実行してもよい。この場合、図8の検索条件1~26にしたがって検索領域36の画像サイズを変化させることによって様々な画像サイズの対象物が認識されてもよい。認識処理部14は、撮像画像30の一部領域を抽出する処理を実行した後に、変換倍率kにしたがって一部領域の画像サイズを変換してもよい。
【0051】
上述の実施の形態では、同一種類の対象物用の複数の認識辞書データとして、二つの認識辞書データを用いる場合について示した。別の実施の形態では、同一種類の対象物用に三以上の認識辞書データを用いてもよい。例えば、歩行者用の認識辞書データとして、低解像度用、中解像度用、高解像度用の三つの認識辞書データを用いてもよい。この場合、撮像画像30の検索領域36の画像サイズが第1範囲となる場合に低解像度用の第1認識辞書データを使用し、撮像画像30の検索領域36の画像サイズが第1範囲よりも大きい第2範囲となる場合に中解像度用の第2認識辞書データを使用し、撮像画像30の検索領域の画像サイズが第2範囲よりも大きい第3範囲となる場合に高解像度用の第3認識辞書データを使用してもよい。
【0052】
別の実施の形態では、同一種類の対象物用の認識辞書データとして、複数の第1認識辞書データと、複数の第2認識辞書データとを組み合わせて用いてもよい。複数の第1認識辞書データのそれぞれは、切出領域34の画像サイズがわずかに異なるように構成される。例えば、切出領域34の画像サイズが80×40、84×42および88×44である三つの第1認識辞書データを用いてもよい。複数の第1認識辞書データの切出領域34の画像サイズの差は約5%であり、第1認識辞書データと第2認識辞書データの切出領域34の画像サイズの差(100%)よりも小さい。このように画像サイズがわずかに異なる複数の第1認識辞書データを用いることで、画像認識の精度を高めることができる。同様に、切出領域34の画像サイズが160×80、168×84および196×88である三つの第2認識辞書データを用いてもよい。この場合、閾値となる画像サイズは、複数の第1認識辞書データの切出領域34の画像サイズの最小値(例えば80×40)の4倍以下(320×160以下)または3倍以下(240×120以下)とすることができる。また、閾値となる画像サイズは、複数の第2認識辞書データの切出領域34の画像サイズの最小値以上(例えば160×80以上)とすることができる。閾値となる画像サイズの一例は、200×100である。
【0053】
上述の実施の形態では、複数の変換画像32の全て(例えばi=1~19)に対して第1認識辞書データを用いる画像検索処理が実行され、複数の変換画像32の一部(例えばi=13~19)に対して第2認識辞書データを用いる画像検索処理が実行される場合について示した。別の実施の形態では、複数の変換画像32の一部(例えばi=1~17)に対して第1認識辞書データを用いる画像検索処理が実行され、複数の変換画像32の別の一部(例えばi=11~19)に対して第2認識辞書データを用いる画像検索処理が実行されてもよい。例えば、上述の閾値となる画像サイズを160×80とする場合である。この場合、第1認識辞書データのみを用いて画像検索される変換画像32(i=1~10)と、第1認識辞書データおよび第2認識辞書データの双方を用いて画像検索される変換画像32(i=11~17)と、第2認識辞書データのみを用いて画像検索される変換画像32(i=18~19)とが存在してもよい。
【0054】
上述の実施の形態では、画像認識装置10が車両に搭載される場合について示した。別の実施の形態では、画像認識装置10が設置場所は特に限られず、任意の用途に用いられてもよい。
【符号の説明】
【0055】
10…画像認識装置、12…画像取得部、14…認識処理部、16…判定処理部、18…出力部、20…認識辞書記憶部、22…画像変換部、24…画像検索部、30…撮像画像、32…変換画像、34…切出領域、36…検索領域。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11