特許7549841 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アイシン精機株式会社の特許一覧 ▶ 国立大学法人九州工業大学の特許一覧

特許7549841画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-04

(45)【発行日】2024-09-12

(54)【発明の名称】画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240905BHJP

【ＦＩ】

G06T7/00 300G

【請求項の数】 11

(21)【出願番号】P 2021054053

(22)【出願日】2021-03-26

(65)【公開番号】P2022151129

(43)【公開日】2022-10-07

【審査請求日】2023-11-08

(73)【特許権者】

【識別番号】000000011

【氏名又は名称】株式会社アイシン

(73)【特許権者】

【識別番号】504174135

【氏名又は名称】国立大学法人九州工業大学

(74)【代理人】

【識別番号】110004244

【氏名又は名称】弁理士法人仲野・川井国際特許事務所

(74)【代理人】

【識別番号】100096655

【弁理士】

【氏名又は名称】川井隆

(74)【代理人】

【識別番号】100091225

【弁理士】

【氏名又は名称】仲野均

(72)【発明者】

【氏名】山田英夫

(72)【発明者】

【氏名】柴田雅聡

(72)【発明者】

【氏名】榎田修一

(72)【発明者】

【氏名】武本崚吾

【審査官】伊知地和之

(56)【参考文献】

【文献】特開２０１８－１２４９６３（ＪＰ，Ａ）

【文献】道下裕也外５名，歩行者検出における混合正規分布を用いた状態空間の自律構成法，電気学会論文誌Ｃ，一般社団法人電気学会，2018年09月01日，第138巻第9号，pp.1100～1107

【文献】Sowmiya D. et al.，“Human detection in public environment using GHOG: Gaussian of mixtures & Histogram of Oriented Gradients”，2013 Fifth International Conference on Advanced Computing (ICoAC)，IEEE，2013年，pp.263-267，[検索日 2024.8.2], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6921961&tag=1>，DOI: 10.1109/ICoAC.2013.6921961

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

ＣＳＤＢ（日本国特許庁）

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

画像認識学習用の画像を取得する画像取得手段と、
前記取得した画像を複数のブロックに区分する区分手段と、
輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得手段と、
前記取得したブロックごとの頻度分布を統合して１の頻度分布に統一する統一手段と、
前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段と、
を具備したことを特徴とする画像処理装置。

【請求項2】

前記統一手段は、前記複数のブロックにおける頻度分布を重畳することにより前記統合を行う、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記統一手段は、前記取得したブロックごとの頻度分布に基づいてサンプルを発生させ、当該発生させたサンプルを前記複数のブロックに渡って足し合わせることにより、前記複数のブロックにおける頻度分布を重畳する、
ことを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記頻度分布取得手段は、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を取得する、
ことを特徴とする請求項１、請求項２、又は請求項３に記載の画像処理装置。

【請求項5】

前記画像取得手段は、複数の画像を取得し、
前記統一手段は、前記複数の画像のブロックごとの頻度分布を１の頻度分布に統一する、
ことを特徴とする請求項１から請求項４までのうちの何れか１の請求項に記載の画像処理装置。

【請求項6】

前記画像取得手段は、認識対象が写った認識対象画像と、認識対象が写っていない非認識対象画像を取得し、
前記頻度分布取得手段は、前記認識対象画像と前記非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得することを特徴とする、
請求項１から請求項５までのうちの何れか１の請求項に記載の画像処理装置。

【請求項7】

前記基底関数は混合ガウスモデルによる確率密度関数であって、尤度と混合数の兼ね合いから適当な混合数を決定する決定手段を具備した、
ことを特徴とする請求項１から請求項６までのうちの何れか１の請求項に記載の画像処理装置。

【請求項8】

前記複数のブロックには、頻度分布を統合する際の重み付けが設定されており、前記統一手段は、当該重み付けに従って、前記複数のブロックごとの頻度分布を統合する、
ことを特徴とする請求項１から請求項７までのうちの何れか１の請求項に記載の画像処理装置。

【請求項9】

請求項１から請求項８までのうちの何れか１の請求項に記載の基底関数を取得する基底関数取得手段と、
画像認識に係る画像を取得する画像取得手段と、
前記取得した画像をブロックに区分する区分手段と、
前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段と、
前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定手段と、
を具備したことを特徴とする画像認識装置。

【請求項10】

画像認識学習用の画像を取得する画像取得機能と、
前記取得した画像を複数のブロックに区分する区分機能と、
輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得機能と、
前記取得したブロックごとの頻度分布を統合して１の頻度分布に統一する統一機能と、
前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成機能と、
をコンピュータで実現する画像処理プログラム。

【請求項11】

請求項１から請求項８までのうちの何れか１の請求項に記載の基底関数を取得する基底関数取得機能と、
画像認識に係る画像を取得する画像取得機能と、
前記取得した画像をブロックに区分する区分機能と、
前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得機能と、
前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定機能と、
をコンピュータで実現する画像認識プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラムに関し、例えば、学習した対象を画像認識するものに関する。

【背景技術】

【0002】

自動車の自動運転技術の需要拡大にともなって、歩行者や車両を画像認識により検出する研究が盛んに行われている。
このような技術に、特許文献１に示したＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いるものがある。この技術は、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を連続値にて特徴空間に写像するものであって、先行技術であるＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量、ＣｏＨＯＧ（Ｃｏ－ｏｃｃｕｒｒｅｎｃｅＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量、ＭＲＣｏＨＯＧ（ＭｕｌｔｉｐｌｅＲｅｓｏｌｕｔｉｏｎＣｏ－ｏｃｃｕｒｅｎｃｅ．ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量などを用いた画像認識手法に比べて非常に頑健性の高い識別能力を誇っている。

【0003】

より詳細には、ＨＯＧ特徴量、ＣｏＨＯＧ特徴量、ＭＲＣｏＨＯＧ特徴量は、何れも、量子化した方向（一般的には８方向）に対応するビンに各画素の輝度勾配方向を投票することにより、その頻度分布をヒストグラムで表すものであり、ＨＯＧ特徴量では、各画素の輝度勾配方向を投票し、ＣｏＨＯＧ特徴量では、２つの画素による輝度勾配方向の共起を投票し、ＭＲＣｏＨＯＧ特徴量では、異なる解像度間での画素における輝度勾配方向の共起を投票する。
これらに対し、ＧＭＭ－ＭＲＣｏＨＯＧ特徴量では、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：混合ガウスモデル）を用いることにより、輝度勾配方向を連続値にて状態空間に配置することにより、共起の頻度分布を多峰性の確率密度関数によって表す。前３者は、状態空間を固定したビンにて形成するのに対し、ＧＭＭ－ＭＲＣｏＨＯＧ特徴量では、状態空間を自律的に形成することができる。

【0004】

ところで、ＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた画像認識では、認識の対象となる画像を複数のブロックに区分して、ブロックごとに最適化した個別の異なる基底関数を用いており、メモリ容量やＣＰＵの演算能力などの多くの計算リソースを必要とするという問題があった。
特に計算リソースが限られているＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などに実装する場合、計算リソースの節約は極めて重要である。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１８－１２４９６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、輝度勾配方向を用いた画像認識で計算リソースを節約することを目的とする。

【課題を解決するための手段】

【0007】

（１）請求項１に記載の発明では、画像認識学習用の画像を取得する画像取得手段と、前記取得した画像を複数のブロックに区分する区分手段と、輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得手段と、前記取得したブロックごとの頻度分布を統合して１の頻度分布に統一する統一手段と、前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段と、を具備したことを特徴とする画像処理装置を提供する。
（２）請求項２に記載の発明では、前記統一手段が、前記複数のブロックにおける頻度分布を重畳することにより前記統合を行うことを特徴とする請求項１に記載の画像処理装置を提供する。
（３）請求項３に記載の発明では、前記統一手段が、前記取得したブロックごとの頻度分布に基づいてサンプルを発生させ、当該発生させたサンプルを前記複数のブロックに渡って足し合わせることにより、前記複数のブロックにおける頻度分布を重畳することを特徴とする請求項２に記載の画像処理装置を提供する。
（４）請求項４に記載の発明では、前記頻度分布取得手段が、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を取得することを特徴とする請求項１、請求項２、又は請求項３に記載の画像処理装置を提供する。
（５）請求項５に記載の発明では、前記画像取得手段が、複数の画像を取得し、前記統一手段が、前記複数の画像のブロックごとの頻度分布を１の頻度分布に統一することを特徴とする請求項１から請求項４までのうちの何れか１の請求項に記載の画像処理装置を提供する。
（６）請求項６に記載の発明では、前記画像取得手段が、認識対象が写った認識対象画像と、認識対象が写っていない非認識対象画像を取得し、前記頻度分布取得手段が、前記認識対象画像と前記非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得することを特徴とする請求項１から請求項５までのうちの何れか１の請求項に記載の画像処理装置を提供する。
（７）請求項７に記載の発明では、前記基底関数は混合ガウスモデルによる確率密度関数であって、尤度と混合数の兼ね合いから適当な混合数を決定する決定手段を具備したことを特徴とする請求項１から請求項６までのうちの何れか１の請求項に記載の画像処理装置を提供する。
（８）請求項８に記載の発明では、前記複数のブロックには、頻度分布を統合する際の重み付けが設定されており、前記統一手段は、当該重み付けに従って、前記複数のブロックごとの頻度分布を統合することを特徴とする請求項１から請求項７までのうちの何れか１の請求項に記載の画像処理装置を提供する。
（９）請求項９に記載の発明では、請求項１から請求項８までのうちの何れか１の請求項に記載の基底関数を取得する基底関数取得手段と、画像認識に係る画像を取得する画像取得手段と、前記取得した画像をブロックに区分する区分手段と、前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段と、前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定手段と、を具備したことを特徴とする画像認識装置を提供する。
（１０）請求項１０に記載の発明では、画像認識学習用の画像を取得する画像取得機能と、前記取得した画像を複数のブロックに区分する区分機能と、輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得機能と、前記取得したブロックごとの頻度分布を統合して１の頻度分布に統一する統一機能と、前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成機能と、をコンピュータで実現する画像処理プログラムを提供する。
（１１）請求項１１に記載の発明では、請求項１から請求項８までのうちの何れか１の請求項に記載の基底関数を取得する基底関数取得機能と、画像認識に係る画像を取得する画像取得機能と、前記取得した画像をブロックに区分する区分機能と、前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得機能と、前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定機能と、をコンピュータで実現する画像認識プログラムを提供する。

【発明の効果】

【0008】

複数のブロックに対して統一した基底関数を用いることにより、計算リソースを節約することができる。

【図面の簡単な説明】

【0009】

【図1】画像処理装置のハードウェア的な構成の一例を示した図である。

【図2】基底関数を生成する工程を説明するための図である。

【図3】基底関数を生成する工程を説明するための図である。

【図4】基底関数を生成する工程を説明するための図である。

【図5】特徴空間への写像を説明するための図である。

【図6】赤池情報基準を説明するための図である。

【図7】各種の数式を示した図である。

【図8】基底関数生成処理を説明するためのフローチャートである。

【図9】画像認識方法を説明するための図である。

【図10】画像認識を行った結果を表したグラフである。

【発明を実施するための形態】

【0010】

（１）実施形態の概要
全ブロックの状態空間について統一したＧＭＭ－ＭＲＣｏＨＯＧ特徴量を採用することにより、各ブロックに渡って基底関数を統一する。これにより、ハードウェア化に向けて、計算リソースの使用を大幅に削減することができる。
具体的には，各ブロックで学習に用いるポジティブ画像とネガティブ画像それぞれの輝度勾配方向の頻度分布をカーネル密度推定により確率密度分布で近似する。
次に，ポジティブ画像とネガティブ画像で特徴的な部分に着目し、ＪＳ情報量に基づく尺度を用いて累積分布関数を算出する。そして、逆関数法により全ブロックの累積分布関数から一定のサンプルを共通の特徴空間に生成し、ＥＭアルゴリズムを用いて混合ガウス分布で近似する。近似の際には、赤池情報基準により、適当な混合数を自動決定する。

【0011】

（２）実施形態の詳細
図１は、画像処理装置８のハードウェア的な構成の一例を示した図である。
画像処理装置８は、ＣＰＵ８１、ＲＯＭ８２、ＲＡＭ８３、記憶装置８４、記憶媒体駆動装置８５、入力部８６、及び出力部８７などがバスラインで接続されて構成されている。
ＣＰＵ８１は、中央処理装置であって、記憶装置８４が記憶する画像処理プログラムに従って動作し、学習用画像から画像認識に用いる基底関数を生成する処理を行う。

【0012】

ＲＯＭ８２は、読み出し専用のメモリであって、ＣＰＵ８１を動作させるための基本的なプログラムやパラメータを記憶している。
ＲＡＭ８３は、読み書きが可能なメモリであって、ＣＰＵ８１が画像処理を行う際のワーキングメモリを提供する。

【0013】

記憶装置８４は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、画像処理プログラムや学習用画像（学習画像データ）などを記憶している。
画像処理プログラムは、ＣＰＵ８１に画像処理機能を発揮させるプログラムである。

【0014】

記憶媒体駆動装置８５は、例えば、半導体記憶装置やハードディスクなどの外付けの記憶媒体を駆動する装置である。
ＣＰＵ８１は、記憶媒体から学習画像データを読み込むことができる。
入力部８６は、操作担当者からの入力を受け付けるキーボード、マウスなどの入力デバイスを備えており、各種プログラムやデータの読み込みや、操作担当者からの操作を受け付ける。
出力部８７は、操作担当者に各種の情報を提示するディスプレイ、プリンタなどの出力デバイスを備えており、画像処理の操作画面、及び、画像処理結果を出力する。

【0015】

このほかに、画像処理装置８は、通信ネットワークと接続する通信制御部や外部機器と接続するためのインターフェースなどを備えており、外部のサーバから学習画像データをダウンロードすることもできる。

【0016】

画像処理装置８は、画像処理プログラムを実行することにより、図２から図４までの各図に示した工程に従って、ＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた画像認識に用いる基底関数を生成する。以下、これについて説明する。
なお、ＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた画像認識は、本願発明者らが開発した技術であって、極めて高い認識精度を誇っている。

【0017】

本実施形態では、図２（ａ）（ｄ）に示したように、画像認識対象（歩行者とする）が様々な姿態で写ったポジティブ画像１０と、歩行者を除いて背景となる様々な景色が写ったネガティブ画像２０との間のＪＳ（Ｊｅｎｓｅｎ－Ｓｈａｎｎｏｎ）情報量を用いて基底関数を作成する。
ＪＳ情報量を用いると、より頑健に画像認識を行うことができることは、本願発明者らが見出したものである。

【0018】

図では、ポジティブ画像１０とネガティブ画像２０をそれぞれ一枚ずつ示してあるが、画像処理装置８は、２万枚程度のポジティブ画像１０とネガティブ画像２０を学習して基底関数を作成する。
このように、画像処理装置８は、認識対象が写った認識対象画像（ポジティブ画像１０）と、認識対象が写っていない非認識対象画像（ネガティブ画像２０）で構成された、複数の画像認識学習用の画像を取得する画像取得手段を備えている。

【0019】

まず、画像処理装置８は、ポジティブ画像１０を複数の同じ正方形のブロック１１ａ、１１ｂ、１１ｃ、・・・に区分する。ここでは、一例として歩行者の形状に合わせて水平方向の３個、鉛直方向に６個の計１８個のブロック１１に区分する。
このように、画像処理装置８は、画像を複数のブロックに区分する区分手段を備えている。
そして、画像処理装置８は、各ブロック１１における各画素の輝度勾配方向の共起の頻度分布を、図２（ｂ）に示したブロック１１ごとの特徴空間１３ａ、１３ｂ、１３ｃ、・・・に写像する。

【0020】

輝度勾配方向は、例えば、当該画素の位置における低輝度から高輝度に向かう方向である。以下、勾配方向と略記することにする。
また、勾配方向を写像した空間、及び、これから派生する空間（後のサンプリングによる空間など）は、画像の特徴を抽出した空間であるため、特徴空間と呼ぶことにする。
ブロック１１ａ、１１ｂ、１１ｃ、・・・や特徴空間１３ａ、１３ｂ、１３ｃ、・・・を特に区別しない場合は、それぞれ、単にブロック１１や特徴空間１３と記すことにし、他の同様な構成要素についても同様とする。

【0021】

図５は、勾配方向の特徴空間１３への写像を説明するための図である。
画像処理装置８は、図５（ａ）に示したように、ポジティブ画像１０の解像度を変換して、ポジティブ画像１０から、画像サイズの異なる高解像度画像１５、中解像度画像１６、低解像度画像１７を生成する。
ポジティブ画像１０の解像度が適当な場合は、ポジティブ画像１０をそのまま高解像度画像１５として使用する。画像処理装置８は、上記各解像度の画像に対して以下の処理をブロックごとに行う。

【0022】

まず、画像処理装置８は、高解像度画像１５、中解像度画像１６、低解像度画像１７のそれぞれの画素について勾配方向を計算する。勾配方向の角度は、０°～３６０°の連続値である。３６方向など、量子化した値を用いることも可能である。

【0023】

画像処理装置８は、勾配方向を算出すると、ブロック１１ａにおいて、基準とする画素（以下、注目画素）と、これから離れた位置にある画素（以下、オフセット画素）の勾配方向の共起を次のようにして取得する。

【0024】

まず、画像処理装置８は、図５（ｂ）に示したように、高解像度画像１５に注目画素５を設定し、高解像度画像１５で注目画素５からオフセット距離１（即ち、高解像度において隣接する）にあるオフセット画素１ａ～１ｄに着目する。
なお、画素ｎ個分の距離をオフセット距離ｎと呼ぶことにする。

【0025】

そして、画像処理装置８は、注目画素５とオフセット画素１ａ～オフセット画素１ｄとの各勾配方向の共起（勾配方向の組合せ）を取得し、これに対応する点をデータ点５１、５１、・・・として、図５（ｃ）に示すブロック１１ａ用の特徴空間１３ａにプロットする。

【0026】

例えば、図５（ｂ）において、注目画素５とオフセット画素１ａの共起をプロットする場合、注目画素５の勾配方向が２６°で、オフセット画素１ａの勾配方向が１３５°であったとすると、画像処理装置８は、特徴空間１３ａの横軸が２６°で縦軸が１３５°である位置にデータ点５１をプロットする。
同様にして、画像処理装置８は、注目画素５とオフセット画素１ｂ～１ｄとの共起を取得して特徴空間１３ａにプロットする。なお、注目画素５の上及び左にある画素との共起を取得しないのは、注目画素５を右側に順次移動しながら共起を取得していくので、既に前の段階で取得してプロットしてあるためである。

【0027】

次に、画像処理装置８は、オフセット距離２に位置する中解像度画像１６のオフセット画素２ａ～２ｄについて、同様に注目画素５との勾配方向の共起を取得して特徴空間１３ａにプロットし、更に、オフセット距離３に位置する低解像度画像１５のオフセット画素３ａ～３ｄについて、同様に注目画素５との勾配方向の共起を取得して特徴空間１３ａにプロットする。

【0028】

画像処理装置８は、このようにして、高解像度から低解像度に渡るオフセット距離１～３のオフセット画素との勾配方向の共起をプロットすると、注目画素５をブロック１１ａ内で順次移動しながら（注目画素５を中解像度画像１６、低解像度画像１７にも移動する）同様の処理を行って、ブロック１１ａについての特徴空間１３ａを完成させる。

【0029】

なお、注目画素５の移動はブロック１１ａ内で行うが、オフセット画素については、ブロック１１ａを超える場合でも選択する。また、ブロック１１ａの端部で隣接するオフセット画素がないものについては適当な方法により処理する。
同様にして、画像処理装置８は、ブロック１１ｂ、１１ｃ、・・・についても特徴空間１３ｂ、１３ｃ、・・・にデータ点をプロットしていく。これにより、勾配方向の共起の頻度分布をデータ点の粗密によって表した、ブロック１１ごとの特徴空間１３を得ることができる。

【0030】

このように、画像処理装置８は、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を区分したブロックごとに取得する頻度分布取得手段を備えており、解像度の違う複数の画像間の勾配方向の共起分布を連続値のまま特徴空間１３に写像する。
図２に戻り、画像処理装置８は、図２（ｅ）に示したように、ネガティブ画像２０についても、ブロック１１ａ、１１ｂ、１１ｃ、・・・に対応する特徴空間２３ａ、２３ｂ、２３ｃ、・・・を作成する。

【0031】

次に、画像処理装置８は、図２（ｃ）に示したように、特徴空間１３にプロットしたポジティブデータ（特徴空間１３上のデータ点）から確率密度関数ｆｐ（ｘ）をブロック１１ごとに生成する。図では、密度の高低を等高線で模式的に表している。
画像処理装置８は、同様にして、図２（ｆ）に示したように、特徴空間２３にプロットしたネガティブデータ（特徴空間２３上のデータ点）から確率密度関数ｆｎ（ｘ）を生成する。

【0032】

ｆｐ（ｘ）とｆｎ（ｘ）は、図７（ａ）の式（３）で示したガウス型の関数をカーネル密度関数として、それぞれ、式（１）、（２）で表される。
ｎはデータ数である。Ｘｉ（ｐ）、Ｘｉ（ｎ）は、それぞれポジティブデータ、ネガティブデータであり、それぞれ２次元のベクトル量である。ｘは、特徴空間上の点であり、２次元のベクトル量である。

【0033】

なお、図では上下付き文字を示してあるが、文字コード誤変換を避けるため、通常の文字で記載する。他の式も同様とする。また、ベクトル量は太字で表すところ、誤変換防止のため、これも通常の文字で記載する。
ｈは、バンド幅であって、分布の広がり程度をどのくらいにするか、といったような量を規定するパラメータである。これには適当な値を設定する。

【0034】

ｆｐ（ｘ）、ｆｎ（ｘ）は、それぞれ、ポジティブ画像１０、ネガティブ画像２０における勾配方向の共起の生起確率を表している。
このように、画像処理装置８は、ポジティブデータとネガティブデータの勾配方向の共起を連続値のまま特徴空間に投票し、投票したデータ点をカーネル密度関数推定によって確率密度関数に近似する。

【0035】

次に、画像処理装置８は、図３（ａ）に示したように、ポジティブ画像１０上とネガティブ画像２０上でブロックの位置が対応する特徴空間（特徴空間１３ａと特徴空間２３ａなど）を組み合わせて、それぞれのｆｐ（ｘ）とｆｎ（ｘ）から図３（ｂ）に示したように、ＪＳ情報量３３を組ごとに生成する。
このようにして、画像処理装置８は、特徴空間１３ａと特徴空間２３ａの組からＪＳ情報量３３ａを生成し、特徴空間１３ｂと特徴空間２３ｂの組からＪＳ情報量３３ｂを生成し、といったようにＪＳ情報量３３をブロック１１ごとに生成する。

【0036】

ＪＳ情報量は、図７（ｂ）の式（５）のＪ（ｆｐ（ｘ）：ｆｎ（ｘ））で表される。
Ｊ（ｆｐ（ｘ）：ｆｎ（ｘ））は、式（４）で示したＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ）情報量が対称性を持つように式（６）を用いて定義したものである。
ＪＳ情報量は、２つの確率分布の距離を計量する計量空間を構成し、これを用いることにより、ｘに対するｆｐ（ｘ）とｆｎ（ｘ）の類似度を算出することができる。

【0037】

Ｊ（ｆｐ（ｘ）：ｆｎ（ｘ））は、ｆｐ（ｘ）とｆｎ（ｘ）の形状が異なるほど（類似していないほど）絶対値が大きくなる。このため、ＪＳ情報量によりｆｐ（ｘ）とｆｎ（ｘ）の何れか一方に特徴的な部分を表現することができる。
このような何れか一方に生起確率が偏っている、ｆｐ（ｘ）とｆｎ（ｘ）の差異の箇所が情報として有用であり（偏っていない箇所は、歩行者であるか背景であるか判断が困難）、画像処理装置８は、当該差異の大きい領域の情報をＪＳ情報量により抽出する。
このように、画像処理装置８が備える頻度分布取得手段は、認識対象画像と非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得する。

【0038】

次に、画像処理装置８は、図３（ｃ）に示したように、ブロック１１ごとのＪ（ｆｐ（ｘ）：ｆｎ（ｘ））に対して、それぞれの累積分布関数を用いた逆関数法によりサンプリングして、ブロック１１ごとにサンプル（特徴空間上の点）を発生させる。
このようにして、ＪＳ情報量３３ａ、３３ｂ、・・・から、ブロック１１ａ、１１ｂ、・・・ごとにサンプルを発生させた特徴空間３５ａ、３５ｂ、・・・を生成する。
このように、画像処理装置８は、ブロックごとの頻度分布に基づいてサンプルを発生させる。

【0039】

Ｊ（ｆｐ（ｘ）：ｆｎ（ｘ））は、ポジティブデータとネガティブデータの何れか一方に偏っているため、逆関数法を用いたサンプリングにより生起確率が偏っている箇所に集中して多数のサンプルを生成させることができる。
カーネル密度推定を用いてＪ（ｆｐ（ｘ）：ｆｎ（ｘ））を求めると、基底となる式（３）のガウス分布の数がデータ数に依存するため、パラメータ数が非常に多くなっているが、これをサンプリングによって削減することができる。

【0040】

なお、上の説明では、単一のポジティブ画像１０から特徴空間１３をブロックごとに生成しているが、画像処理装置８は、多数の学習用のポジティブ画像１０から取得した特徴空間１３をブロックごとに重畳して、ブロックごとの特徴空間１３を作成する。
例えば、１枚目のポジティブ画像１０から作成した特徴空間１３ａ１、２枚目のポジティブ画像１０から作成した特徴空間１３ａ２、・・・・を足し合わせて特徴空間１３ａを作成し、同様に特徴空間１３ｂ１、１３ｂ２・・を足し合わせて特徴空間１３ｂを作成する。ネガティブ画像２０についても同様である。

【0041】

画像処理装置８は、図４（ａ）に示したように、ブロック１１ごとのサンプリングデータによる特徴空間３５を生成した後、図４（ｂ）に示したように、これら特徴空間３５ａ、３５ｂ、・・・のサンプルを全て足し合わせることによって統合し、これによって勾配方向の頻度分布がサンプルの粗密によって表された、統一した特徴空間３６を生成する。
このように、画像処理装置８は、ブロックごとの頻度分布を重畳することにより統合して１の頻度分布に統一する統一手段を備えており、当該統一手段は、発生させたサンプルを複数のブロックに渡って足し合わせることにより、複数のブロックにおける頻度分布を重畳している。
更に、画像処理装置８は、多数の学習画像について、頻度分布を１つに統合するため、当該統一手段は、複数の画像のブロックごとの頻度分布を１の頻度分布に統一している。

【0042】

変形例として、ブロック１１に重み付けを設定しておき、当該ブロック１１に対応する特徴空間３５のサンプルを当該重み付けに従って加算するように構成することもできる。
例えば、重みの小さいブロック１１については、サンプル１つにつき１つ加算し、重みの大きいブロック１１については、サンプル１つにつき３つ加算するなどする。
これにより、重要度の低いブロック１１（歩行者の写りにくい４隅のブロックなど）の重み付けを小さく設定し、重要度の高いブロック１１の重み付けを高く設定することができる。
当該変形例では、複数のブロックに、頻度分布を統合する際の重み付けが設定されており、画像処理装置８が備える統一手段は、当該重み付けに従って、複数のブロックごとの頻度分布を統合する。

【0043】

画像処理装置８は、このように統一した特徴空間３６を生成すると、図４（ｃ）に示したように、ｃ－ＡＩＣ（後述する）を用いて混合数を決定し、更に、ＥＭアルゴリズム（ＥステップとＭステップを繰り返すことによりＧＭＭの数式を探索する手法）によってＧＭＭによる状態空間を生成し、これを基底関数３７に設定する。
ここで、状態空間とは、ヒストグラムやＧＭＭなどで特徴量の境界や配置が決定した空間を意味する。
このように、画像処理装置８は、統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段を備えている。
従来は、特徴空間３５ａ、３５ｂ、・・・ごとにＧＭＭを生成してブロック１１ごとに基底関数を生成していたが、これに対し、本実施形態の画像処理装置８は、特徴空間３６から全ブロック１１に共通の基底関数３７を生成するところが新規な点である。

【0044】

ＧＭＭは、ガウス分布を線形に重ね合わせて任意の分布を近似するモデルであり、式（１１）で表される。ｋは混合数（重ね合わせるガウス分布の数）、Ｎは、平均がμｋで分散共分散がΣｋであるｋ番目のガウス分布の確率密度関数、θは混合数ｋの混合正規分布のパラメータである。
αｊは、重ね合わせるガウス分布の重みを表す混合係数であって、足すと合計が１になる正の実数である。
ＧＭＭは、積分すると１になるように規格化されており、ＧＭＭによって特徴空間３６のサンプルの分布を多峰性の確率密度関数ｐ（ｘ｜θ）で近似することができる。

【0045】

ＧＭＭでは、混合数ｋを指定すると、対象となる分布をｋ個のクラスタにクラスタリングし、その上ガウス分布を配置する。
このように、ＧＭＭによる最適な状態空間を構成するためには混合数の決定が必要であるが、混合数は増やしすぎるとモデルの汎化能力が低下すると共に計算コストが増加するという問題がある。
そこで、画像処理装置８は、ＧＭＭを生成する前に、赤池情報基準（ＡＩＣ）に基づいた尺度によって混合数を自動決定した。

【0046】

図６は、赤池情報基準を説明するための図である。
赤池情報基準には、ＡＩＣ（Ａｋａｉｋｅ’s ＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ）と、これを用いたｃ－ＡＩＣ（ｃｏｒｒｅｃｔｉｏｎｏｆＡＩＣ）がある。
ここで、ＡＩＣは、統計的モデルの良さを評価する基準であり、汎化能力に優れたモデルであるほど小さな値となる。
一方、ｃ－ＡＩＣは、ＡＩＣを少ないサンプルでも適応可能にしたものである。
図６（ａ）に示したように、ＡＩＣは、単調減少するモデルのフィット度合いと単調増加するパラメータ数の和で表される。そして、ＡＩＣ値が最小のモデルが、ペナルティとモデルの複雑さのバランスがとれ、汎化能力に優れたモデルとなる。

【0047】

本実施形態では、ＡＩＣを図７（ｃ）の式（７）で定義した。
ｎはサンプル数、ｋは混合数、ｐは、ＧＭＭからのサンプルｘｉの生起確率、θｋ（ハットを省略）は、混合数ｋで構成されたＧＭＭのパラメータである。
ｔｋは、式（８）で表される。ここで、ｄはサンプルデータの次元数である。

【0048】

ところで、ＡＩＣは、大規模な標本サイズを前提としており、サンプル数が少ない場合にはパラメータ数を過大に見積もる傾向がある。
そこで、本実施形態では、サンプル数が少ない場合にモデルのシンプルさを高評価する、式（９）で表されたｃ－ＡＩＣに従って混合数を決定した。

【0049】

式（９）では、第１項を負の対数尤度によって構成し、モデルが複雑になるほど単調減少すると想定した。
また、第２項は、パラメータ数によるペナルティ項であり、単調増加する。
本実施形態では、いくつかの混合数に対してｃ－ＡＩＣ値を計算して曲線近似し、これによる近似値から混合数を決定した。
曲線による近似値を用いることにより、学習データのばらつきに影響されずに、最もｃ－ＡＩＣが低い混合数を決定することができる。

【0050】

このようにして適当な混合数を探索したところ図６（ｂ）のようになった。
このグラフの横軸は混合数を表しており、縦軸は負の対数尤度を示している。負の対数尤度が小さいほど（即ち、尤度が大きくなり）よいモデルであることを示している。
グラフにプロットした探査値は、ｃ－ＡＩＣの計算値であり、推定値は、探査値から求めた近似曲線上の点である。
グラフに示したように、混合数１５程度以上では、負の対数尤度がほぼ一定となっており、１５程度まで混合数を下げることが可能と思われる。
このように、画像処理装置８は、基底関数を混合ガウスモデルによる確率密度関数で生成し、尤度と混合数の兼ね合いから適当な混合数を決定する決定手段を備えている。

【0051】

図８は、画像処理装置８が行う基底関数生成処理を説明するためのフローチャートである。
ＣＰＵ８１は、記憶装置８４からポジティブ画像１０を１枚読み込み、ＲＡＭ８３に入力して記憶する（ステップ１０）。
次に、ＣＰＵ８１は、ポジティブ画像１０をブロック１１に区分し、ブロックごとに勾配方向の共起を特徴空間１３にプロットしてＲＡＭ８３に記憶する（ステップ１５）。
ＣＰＵ８１は、以上のポジティブ画像１０に対するプログラム処理を基底関数生成に必要な枚数だけ行う。
次に、ＣＰＵ８１は、ＲＡＭ８３に記憶した多数の特徴空間１３を、ブロック１１ごとに重畳することにより、ブロック１１ごとのｆｐ（ｘ）を生成してＲＡＭ８３に記憶する（ステップ２５）。

【0052】

次に、ＣＰＵ８１は、記憶装置８４に記憶してあるネガティブ画像２０に対しても、ＲＡＭ８３への入力（ステップ３５）、特徴空間２３へのプロット（ステップ４０）を必要な枚数分だけ行い、そして、ブロック１１ごとのｆｎ（ｘ）を生成してＲＡＭ８３に記憶する（ステップ５０）。

【0053】

次に、ＣＰＵ８１は、ＲＡＭ８３に記憶したｆｐ（ｘ）とｆｎ（ｘ）を用いてブロック１１ごとのＪＳ情報量を生成してＲＡＭ８３に記憶する（ステップ５５）。
次に、ＣＰＵ８１は、ＲＡＭ８３に記憶したＪＳ情報量に基づいてサンプリングを行いブロック１１ごとのサンプルによる特徴空間３５を生成してＲＡＭ８３に記憶する（ステップ６０）。

【0054】

次に、ＣＰＵ８１は、ＲＡＭ８３に記憶したブロック１１ごとの特徴空間３５を足し合わせることにより統合し、これによって統一した特徴空間３６を生成してＲＡＭ８３に記憶する（ステップ６５）。
次に、ＣＰＵ８１は、ＲＡＭ８３に記憶した特徴空間３６に対して、ｃ－ＡＩＣを用いて混合数を決定し、更に、ＥＭアルゴリズムを用いて当該混合数に基づくＧＭＭを生成する（ステップ７０）。
そして、ＣＰＵ８１は、当該ＧＭＭをＲＡＭ８３に記憶して、画像認識に用いる基底関数３７に設定する（ステップ７５）。

【0055】

次に、基底関数３７を用いた画像の特徴の抽出方法について説明する。
図示しないが、画像認識装置９は、画像処理装置８と同様のハードウェア構成を有しており、画像認識プログラム、認識対象の画像、及び画像処理装置８が生成した基底関数３７などを記憶した記憶装置９４、画像認識プログラムに従って画像認識するＣＰＵ９１、及び、これにワーキングメモリを提供するＲＡＭ９３などを備えている。

【0056】

画像認識装置９は、次のように、画像の基底関数３７に対する負担率を当該画像の特徴量として算出する。
負担率λｊは、図７（ｄ）の式（１０）で表され、ｚは潜在パラメータ（ｊ番目の成分が１で他が０となるｋ次元のベクトル量）である。
負担率λｊは、データ点の分布ｘがｊ番目のガウス分布から生成される確率を表している。
各ｚについて計算するとλｊによるｋ次元のベクトルが得られるが、画像認識装置９は、これを特徴量とする。データ点ｘがポジティブ画像１０とネガティブ画像２０の何れにも類似していない場合は０ベクトルに近づく。
このような原理に基づき、画像認識装置９は、次のようにして画像から特徴量を抽出する。

【0057】

図９は、画像認識方法を説明するための図である。
以下の処理は、ＣＰＵ９１が画像認識プログラムに従って行うものである。
図９（ａ）に示したように、画像認識装置９は、画像認識対象である画像４０をＲＡＭ９３に読み込み、その上に識別フィルタ４１ａで矩形領域を設定する。
このように、画像認識装置９は、画像認識に係る画像を取得する画像取得手段を備えている。
そして、画像認識装置９は、識別フィルタ４１ａによって抽出した画像を、例えば、ポジティブ画像１０やネガティブ画像２０と同じ３×６個のブロック１１ａ、１１ｂ、・・・に区分する。
このように、画像認識装置９は、取得した画像をブロックに区分する区分手段を備えている。

【0058】

次いで、画像認識装置９は、ブロック１１ごとに高中低の解像度に渡って勾配方向の共起を特徴空間１３にプロットする。
そして、画像認識装置９は、記憶装置９４から基底関数３７を読み出して、その基底関数３７に対する各ブロック１１の負担率を図７（ｄ）の式（１０）によって計算する。
このように、画像認識装置９は、画像処理装置８が生成した基底関数を取得する基底関数取得手段と、区分した各ブロックに対して当該基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段を備えている。

【0059】

画像認識装置９は、このようにして算出した負担率による特徴量を用いて識別フィルタ４１内の画像に歩行者が写っているか否かを判断し、判断結果をＲＡＭ９３に記憶する。
これは各種の方法が考えられ、例えば、ブロック１１ごとに判定してそれを総合判定してもよいし、あるいは、各ブロック１１の負担率を統合して全体として判定してもよい。

【0060】

判定は、例えば、ＳＶＭ（サポートベクターマシン）やＡｄａＢｏｏｓｔなどの識別器に正規化した特徴量を入力して行うことができる。
画像認識装置９は、このようにして識別フィルタ４１ａ内の画像を判定すると、識別フィルタ４１を１ブロックずつシフトしながら画像４０を走査し、同様の判定を行っていく。
このように、画像認識装置９は、各ブロックから取得した特徴量を用いて画像に所定の画像認識対象が写っているか否かを判定する判定手段を備えている。

【0061】

画像認識装置９は、全ブロック１１で統一した最適なＧＭＭによる状態空間を作成し、各ブロック１１に同一の基底関数３７を適用するため、各ブロック１１同士の状態空間に互換性がある。
これにより、識別フィルタ４１を移動させても一度計算したブロック１１は特徴量の引き継ぎが可能となり、画像中の識別フィルタ４１をスライドさせても、その都度特徴量を計算し直す必要が無くなる。

【0062】

例えば、図９（ａ）の識別フィルタ４１ａと識別フィルタ４１ｂでは、ブロック１１Ａが共通である。
従来は、識別フィルタ４１ごとのブロック１１ごとに基底関数を設定していたため、図９（ｂ）上図に示したように、同じブロック１１Ａであるにもかかわらず、特徴量を再度計算していた。

【0063】

これに対し、画像認識装置９は、同じ基底関数３７を使用するため、図９（ｂ）下図に示したように、識別フィルタ４１ａ、４１ｂで、ブロック１１Ａの特徴量が同じ値になるため、先に計算した特徴量を引き継ぐことができる。これにより計算リソースを大幅に節約することができる。

【0064】

このように、従来手法では、各ブロックで使用する基底関数が異なるため、隣接した矩形領域の特徴量を計算する際、重複した領域があるにも関わらず、全ての領域で特徴量の計算を再度行う必要があり、計算コストが高くなっていたが、共通の基底関数３７を採用することにより、これらの問題を解決することができる。

【0065】

更に、ＧＭＭを用いない従来方式では、図９（ｃ）上図のように、ブロック１１ごとに設定した２次元ヒストグラムに、例えば、８方向に量子化した勾配方向のペアを投票していた。ヒストグラムのビンは、認識対象にかかわらず設定したため、画像の特徴が現れないビンにも投票していた。
これに対し、ＧＭＭによって状態空間を生成する方式では、図９（ｃ）下図のように、画像の特徴が現れる領域に対して自律的に確率密度の高い領域が形成されるため、領域４５のように、特徴の現れない領域に対する処理を行わずに済む。これにより、計算コストを低減することができる。

【0066】

更に、従来は、ブロック１１ごとに基底関数を設定していたため、例えば、基底関数を３×６のブロック１１で生成した場合は、識別フィルタも３×６にする必要があった。
これに対し、本実施形態の方式では、基底関数３７が共通なため、識別フィルタを、例えば、３×５にするなど、ブロック単位で変形して設計することも可能な場合がある。これにより、識別フィルタ作成側のシステムと識別フィルタ使用側のシステムの結合を従来よりも疎とすることができる。

【0067】

図１０は、画像処理装置８が生成した基底関数３７を用いて画像認識を行った結果を表したグラフである。
図１０（ａ）、（ｂ）、（ｃ）は、ｃ－ＡＩＣ値に基づき、それぞれ混合数ｋ＝４５、３２、１５とした場合のＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）曲線であって、横軸は誤検出率、縦軸は正検出率を示している。

【0068】

太線は基底関数を基底関数３７に統一した画像認識装置９によるＧＭＭ－ＭＲＣｏＨＯＧ特徴量の場合、破線はブロック１１ごとに異なる基底関数を用いた従来のＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた場合、細線はヒストグラムを用いたＭＲＣｏＨＯＧ特徴量の場合を示しており、曲線が左上の隅に寄るほどよい精度であることを示している。

【0069】

グラフに示したように、ｋ＝４５では、基底関数を統一したＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた場合は、従来のＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた場合に比べて認識精度が若干劣るが、従来のＭＲＣｏＨＯＧ特徴量を用いた場合に比べて高い認識精度を誇っており、十分に実用に耐えることができる。
ｋ＝３２、１５では、基底関数を統一したＧＭＭ－ＭＲＣｏＨＯＧ特徴量を用いた場合は、ｋ＝４５の場合よりも若干認識精度が劣るが、従来のＭＲＣｏＨＯＧ特徴量を用いた場合に比べて高い認識精度を誇っており、十分に実用に耐えることができる。

【0070】

以上、本実施形態について説明したが、各種の変形が可能である。
例えば、本実施形態では、ポジティブ画像とネガティブ画像を用いたが、基底関数の作成は、ポジティブ画像だけで行うことも可能である。
また、本実施形態では、確率分布間の計量にＪＳ情報量を用いたが、他の計量を用いることも可能である。

【0071】

以上に説明したように、本実施形態によれば、各ブロックで使用する基底関数を一つに統一することでメモリの使用量を大幅に低減することができる。
また、基底関数が各ブロックで共通なため、隣接した矩形領域の特徴量を計算する際においても、既に計算した特徴量を活用でき、計算コストの削減が可能となる。
また、基底関数を統一することで精度低下が懸念されるが、赤池情報量規準に基づく尺度を用いて混合数を自動決定することにより、計算リソースの使用を抑制したまま精度を保つことができる。より精度を上げたい場合は、混合数を増加させればよい。
これにより、ＦＰＧＡや小型コンピュータ、あるいは、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）などの高機能な演算処理を有しない機器に高い識別能力を維持したまま搭載することができる。

【符号の説明】

【0072】

５注目画素
８画像処理装置
１０ポジティブ画像
１１ブロック
１３、２３、３５、３６特徴空間
１５高解像度画像
１６中解像度画像
１７低解像度画像
２０ネガティブ画像
３３ＪＳ情報量
３７基底関数
４０画像
４１識別フィルタ
４５領域
８１ＣＰＵ
８２ＲＯＭ
８３ＲＡＭ
８４記憶装置
８５記憶媒体駆動装置
８６入力部
８７出力部

【図1】