特許7368995 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7368995画像認識システム、撮像装置、認識装置及び画像認識方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-17

(45)【発行日】2023-10-25

(54)【発明の名称】画像認識システム、撮像装置、認識装置及び画像認識方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20231018BHJP

H04N 23/60 20230101ALI20231018BHJP

【ＦＩ】

G06T7/00 350C

H04N23/60 300

H04N23/60 500

【請求項の数】 6

(21)【出願番号】P 2019179524

(22)【出願日】2019-09-30

(65)【公開番号】P2021056785

(43)【公開日】2021-04-08

【審査請求日】2022-09-06

(73)【特許権者】

【識別番号】000108085

【氏名又は名称】セコム株式会社

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100180806

【弁理士】

【氏名又は名称】三浦剛

(74)【代理人】

【識別番号】100207778

【弁理士】

【氏名又は名称】阿形直起

(72)【発明者】

【氏名】野坂龍佑

(72)【発明者】

【氏名】黒川高晴

(72)【発明者】

【氏名】氏家秀紀

【審査官】佐藤直樹

(56)【参考文献】

【文献】特開平０７－０２１３８１（ＪＰ，Ａ）

【文献】特開２０１５－０８８８１７（ＪＰ，Ａ）

【文献】特許第６３２０６４９（ＪＰ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｈ０４Ｎ２３／６０

(57)【特許請求の範囲】

【請求項1】

所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成する撮像手段と、
前記第１画像が入力された場合に前記第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、前記第１画像を前記第２画像に変換する変換手段と、
前記第２画像が入力された場合に前記対象を認識するための処理を前記第２画像に対して行って認識結果を出力する認識器により、前記第２画像に対する認識結果を生成する認識手段と、を備え、
前記変換器及び前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合に出力される認識結果を前記学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする画像認識システム。

【請求項2】

前記変換器及び前記認識器は、前記結合されたニューラルネットワークに前記学習用第１画像を入力した場合に前記変換器によって出力される前記第２の階調範囲内の階調値を有する画素からなる画像を前記学習用第１画像から生成されるエッジ画像に近づけ、且つ、前記結合されたニューラルネットワークによって出力される前記認識結果を前記学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
請求項１に記載の画像認識システム。

【請求項3】

前記変換された第２画像を所定の伝送網に出力する出力手段と、
前記第２画像を前記伝送網から取得する取得手段と、
をさらに備え、
前記認識手段は、前記取得された第２画像に対する認識結果を生成する、
請求項１または２に記載の画像認識システム。

【請求項4】

所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成する撮像手段と、
前記第１画像が入力された場合に前記第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、前記第１画像を前記第２画像に変換する変換手段と、
前記第２画像を出力する出力手段と、を備え、
前記変換器は、前記変換器の出力が、前記第２画像が入力された場合に前記対象を認識するための処理を前記第２画像に対して行って認識結果を出力する認識器の入力となるように結合されたニューラルネットワークに前記第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合に出力される認識結果を前記学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする撮像装置。

【請求項5】

第１の階調範囲内の階調値を有する画素からなる第１画像が入力された場合に前記第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、撮像により生成された第１画像を変換した第２画像を取得する取得手段と、
前記第２画像が入力された場合に所定の対象を認識するための処理を前記第２画像に対して行って認識結果を出力する認識器により、前記第２画像に対する認識結果を生成する認識手段と、を備え、
前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第１の階調範囲内の階調値を有する画素からなる学習用第１画像を入力した場合に出力される認識結果を前記学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする認識装置。

【請求項6】

所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成し、
前記第１画像が入力された場合に前記第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、前記第１画像を前記第２画像に変換し、
前記第２画像が入力された場合に前記対象を認識するための処理を前記第２画像に対して行って認識結果を出力する認識器により、前記第２画像に対する認識結果を生成する、ことを含み、
前記変換器及び前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合に出力される認識結果を前記学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする画像認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像認識システム、撮像装置、認識装置及び画像認識方法に関する。

【背景技術】

【0002】

近年、防犯意識の高まりから監視カメラの設置数が増加している。これに伴い、監視カメラ等の撮像装置によって撮像された画像を監視者が視認して不審者や不審物等の対象物を認識することが難しくなっている。そこで、このような画像に対して画像認識処理を実行し、対象物を自動的に認識する要求が高まっている。

【0003】

画像認識処理を実行するためには、撮像された画像を一時記憶又は／及び伝送する必要があり、多数の撮像装置によって撮像された画像を記憶又は／及び伝送するためには多くの記憶容量又は／及び伝送容量が要求される。したがって、画像認識の精度を保ちながら、画像認識処理を実行する対象の画像のデータ容量が抑えられることが好ましい。特許文献１には、撮影画像を区分した複数のブロックに含まれるエッジの強度に基づいて各ブロックのエッジレベルを推定し、推定されたエッジレベルに基づいて各ブロックを低解像度の画像に置換する監視カメラが開示されている。特許文献２には、太さが基準以下である微細エッジ及びその近傍の微細構造領域を検出し、検出された微細構造領域の外側を低解像度の画像に置換する監視カメラが開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１５－０８８８１７号公報

【文献】特開２０１５－０８８８１８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１及び２の手法では、画像のエッジの強度等に応じて置換後の画像のデータ容量が変動するため、画像認識処理のために必要となる記憶容量又は／及び伝送容量の予測が困難であるという問題があった。そこで、画像認識の精度を保ちつつ、画像認識の対象である画像のデータ容量を安定して低減させることが望まれている。

【0006】

本発明は、上述の課題を解決するためになされたものであり、画像認識の精度を保ちつつ、画像認識の対象である画像のデータ容量を安定して低減させることを可能とする画像認識システム、撮像装置、認識装置及び画像認識方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明に係る画像認識システムは、所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成する撮像手段と、第１画像が入力された場合に第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、第１画像を第２画像に変換する変換手段と、第２画像が入力された場合に対象を認識するための処理を第２画像に対して行って認識結果を出力する認識器により、第２画像に対する認識結果を生成する認識手段と、を備えたことを特徴とする。

【0008】

また、本発明に係る画像認識システムにおいて、変換器及び認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークに第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合に出力される認識結果を学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。

【0009】

また、本発明に係る画像認識システムにおいて、変換器及び認識器は、結合されたニューラルネットワークに学習用第１画像を入力した場合に前記変換器によって出力される第２の階調範囲を有する画像を学習用第１画像から生成されるエッジ画像に近づけ、且つ、結合されたニューラルネットワークによって出力される認識結果を学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。

【0010】

また、本発明に係る画像認識システムにおいて、変換された第２画像を所定の伝送網に出力する出力手段と、第２画像を伝送網から取得する取得手段と、をさらに備え、認識手段は、取得された第２画像に対する認識結果を生成する、ことが好ましい。

【0011】

本発明に係る撮像装置は、所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成する撮像手段と、第１画像が入力された場合に第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、第１画像を第２画像に変換する変換手段と、第２画像を出力する出力手段と、を備えたことを特徴とする。

【0012】

また、本発明に係る撮像装置において、変換器は、変換器の出力が、第２画像が入力された場合に対象を認識するための処理を第２画像に対して行って認識結果を出力する認識器の入力となるように結合されたニューラルネットワークに第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合に出力される認識結果を学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。

【0013】

本発明に係る認識装置は、第１の階調範囲内の階調値を有する画素からなる第１画像が入力された場合に第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、撮像により生成された第１画像を変換した第２画像を取得する取得手段と、第２画像が入力された場合に対象を認識するための処理を第２画像に対して行って認識結果を出力する認識器により、第２画像に対する認識結果を生成する認識手段と、を備えたことを特徴とする。

【0014】

また、本発明に係る認識装置において、認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークに第１の階調範囲内の階調値を有する画素からなる学習用第１画像を入力した場合に出力される認識結果を学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。

【0015】

本発明に係る画像認識方法は、所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成し、第１画像が入力された場合に第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像を出力する変換器により、第１画像を第２画像に変換し、第２画像が入力された場合に対象を認識するための処理を第２画像に対して行って認識結果を出力する認識器により、第２画像に対する認識結果を生成する、ことを含むことを特徴とする。

【発明の効果】

【0016】

本発明に係る画像認識システム、撮像装置、認識装置、画像認識方法は、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。

【図面の簡単な説明】

【0017】

【図1】本発明の概要を説明するための模式図である。

【図2】画像認識システム１の概略構成の一例を示す図である。

【図3】学習装置２の概略構成の一例を示す図である。

【図4】撮像装置３の概略構成の一例を示す図である。

【図5】認識装置４の概略構成の一例を示す図である。

【図6】変換器の概要について説明するための模式図である。

【図7】識別器の概要について説明するための模式図である。

【図8】学習用データ２１１のデータ構造の一例を示す図である。

【図9】学習処理の流れの一例を示すフロー図である。

【図10】画像認識処理の流れの一例を示すシーケンス図である。

【図11】認識結果画面７００の一例を示す図である。

【発明を実施するための形態】

【0018】

以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

【0019】

（本発明の概要）
図１は、本発明の概要について説明するための模式図である。本発明に係る画像認識システムは、撮像手段と、変換手段と、認識手段とを有する。

【0020】

撮像手段は、所定の対象が撮像され得る空間を撮像して、第１の階調範囲内の階調値を有する画素からなる第１画像を生成する。所定の対象は例えば人であり、第１画像は、例えば、ＲＧＢの３チャネルのそれぞれについて０～２５５の階調値を有する画素からなる画像である。変換手段は、変換器により、撮像手段によって生成された第１画像を第１の階調範囲よりも小さい第２の階調範囲内の階調値を有する画素からなる第２画像に変換する。第２画像は、例えば、０又は１の階調値を有する画素からなる画像である。認識手段は、認識器により、変換手段によって変換された第２画像に対する所定の対象の認識結果を生成する。認識結果は、例えば、第２画像に写っている人の像に外接する矩形領域を示す情報である。

【0021】

変換器及び認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークを学習させることにより生成された学習済みニューラルネットワークである。学習は、第１の階調範囲内の階調値を有する画素からなる学習用第１画像が入力された場合にニューラルネットワークから出力される認識結果を学習用第１画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように行われる。

【0022】

このように、画像認識システムにおいて、変換手段は、第１画像が入力された場合に第２画像を出力する変換器により、第１画像を第２画像に変換する。このようにすることで、画像認識システムは、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。すなわち、第１画像が変換された第２画像のデータ容量は、第２の階調範囲及び画素数によって定まり、第１画像の内容に依存しない。したがって、画像認識システムは、第１画像を第２画像に変換することにより、第１画像の内容にかかわらず画像のデータ容量を安定して削減することを可能とする。

【0023】

また、第１画像を入力された場合に第２画像を出力する変換器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークを、学習用第１画像及び学習用認識結果を用いて学習させることにより生成される。このようにすることで、画像認識システムは、認識器において高い精度での画像認識が可能となるような第２画像を変換器に出力させることが可能となる。

【0024】

なお、上述した図１の説明は、本発明の内容への理解を深めるための説明にすぎない。本発明は、具体的には、次に説明する各実施形態において実施され、且つ、本発明の原則を実質的に超えずに、さまざまな変形例によって実施されてもよい。このような変形例はすべて、本発明および本明細書の開示範囲に含まれる。

【0025】

（システムの概略構成）
図２は、画像認識システム１の概略構成の一例を示す図である。画像認識システム１は、学習装置２と、撮像装置３と、認識装置４と、表示装置５とを有する。学習装置２、撮像装置３、認識装置４及び表示装置５は、インターネット又はイントラネット等の伝送網６を介して相互に接続される。

【0026】

学習装置２は、サーバ又はＰＣ（Personal Computer）等の情報処理装置である。学習装置２は、学習済みニューラルネットワークである変換器及び認識器を同時学習により生成する。変換器は、多値画像が入力された場合に二値画像を出力するニューラルネットワークである。認識器は、二値画像が入力された場合に二値画像内における人の領域を出力するニューラルネットワークである。なお、変換器及び認識器の同時学習とは、変換器及び認識器を結合したニューラルネットワークを学習させることをいう。また、多値画像は第１画像の一例であり、二値画像は第２画像の一例である。

【0027】

撮像装置３は、例えば、監視カメラである。撮像装置３は、例えば、建物内の一室を撮像することにより当該部屋の多値画像を生成する。撮像装置３は、学習装置２により生成された変換器により多値画像を二値画像に変換する。撮像装置３は、変換された二値画像を伝送網６に出力する。なお、上記部屋は対象が撮像され得る空間の一例である。

【0028】

認識装置４は、サーバ又はＰＣ等の情報処理装置である。認識装置４は、撮像装置３によって出力された二値画像を伝送網６から取得する。認識装置４は、学習装置２により生成された認識器により、二値画像に対する認識結果を生成する。認識装置４は、生成された認識結果を伝送網６に出力する。取得される二値画像のデータ容量は元の多値画像に比べて少なく、且つ固定値である。そのため、認識装置４や伝送網６が要する伝送容量を削減することができ、認識装置４が一時記憶したり保管するために要する記憶容量も削減することができる。また、二値画像は認識器と同時学習された変換器により生成されるため変換による認識精度を高く維持したまま伝送容量や記憶容量を削減できる。

【0029】

表示装置５は、サーバ又はＰＣ等の情報処理装置である。表示装置５は、認識装置４によって出力された認識結果を伝送網６から取得する。表示装置５は、取得された認識結果を表示装置５が備える液晶ディスプレイ等の表示部に表示する。

【0030】

図３は、学習装置２の概略構成の一例を示す図である。学習装置２は、第１記憶部２１と、第１通信部２２と、第１処理部２３とを備える。

【0031】

第１記憶部２１は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第１記憶部２１は、第１処理部２３による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、ＣＤ（Compact Disc）－ＲＯＭ（Read Only Memory）、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第１記憶部２１にインストールされる。

【0032】

また、第１記憶部２１は、学習用データ２１１及び学習用モデル２１２を記憶する。

【0033】

第１通信部２２は、学習装置２を他の装置と通信可能にする通信インタフェース回路を備える。第１通信部２２が備える通信インタフェース回路は、有線ＬＡＮ（Local Area Network）又は無線ＬＡＮ等の通信インタフェース回路である。第１通信部２２は、他の装置から送信されたデータを受信し、第１処理部２３に供給するとともに、第１処理部２３から供給されたデータを他の装置に送信する。

【0034】

第１処理部２３は、一又は複数個のプロセッサ及びその周辺回路を備える。第１処理部２３は、例えばＣＰＵ（Central Processing Unit）であり、学習装置２の動作を統括的に制御する。第１処理部２３は、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＬＳＩ（Large-Scaled IC）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等でもよい。第１処理部２３は、第１記憶部２１に記憶されているプログラムに基づいて学習装置２の各種処理が適切な手順で実行されるように、第１通信部２２の動作を制御するとともに、各種の処理を実行する。また、第１処理部２３は、複数のプログラムを並列に実行することができる。

【0035】

第１処理部２３は、学習用モデル取得手段２３１、学習用データ取得手段２３２、エッジ画像生成手段２３３、学習手段２３４及び出力手段２３５を備える。これらの各手段は、第１処理部２３によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして学習装置２に実装されてもよい。

【0036】

図４は、撮像装置３の概略構成の一例を示す図である。撮像装置３は、第２記憶部３１と、第２通信部３２と、撮像部３３と、第２処理部３４とを備える。

【0037】

第２記憶部３１は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第２記憶部３１は、第２処理部３４による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第２記憶部３１にインストールされる。

【0038】

第２通信部３２は、撮像装置３を他の装置と通信可能にする通信インタフェース回路を備える。第２通信部３２が備える通信インタフェース回路は、有線ＬＡＮ又は無線ＬＡＮ等の通信インタフェース回路である。第２通信部３２は、他の装置から送信されたデータを受信し、第２処理部３４に供給するとともに、第２処理部３４から供給されたデータを他の装置に送信する。

【0039】

撮像部３３は、結像光学系、撮像素子及び画像処理部等を備える。結像光学系は、例えば光学レンズであり、被写体からの光束を撮像素子の撮像面上に結像させる。撮像素子は、例えば、ＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）等であり、撮像面上に結像した被写体像の画像信号を出力する。画像処理部は、撮像素子によって生成された画像信号から所定の形式の画像データを生成して第２処理部３４に供給する。

【0040】

第２処理部３４は、一又は複数個のプロセッサ及びその周辺回路を備える。第２処理部３４は、例えばＣＰＵであり、撮像装置３の動作を統括的に制御する。第２処理部３４は、ＧＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等でもよい。第２処理部３４は、第２記憶部３１に記憶されているプログラムに基づいて撮像装置３の各種処理が適切な手順で実行されるように、第２通信部３２及び撮像部３３の動作を制御するとともに、各種の処理を実行する。また、第２処理部３４は、複数のプログラムを並列に実行することができる。

【0041】

第２処理部３４は、撮像手段３４１、変換手段３４２及び二値画像出力手段３４３を備える。これらの各手段は、第２処理部３４によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして撮像装置３に実装されてもよい。

【0042】

図５は、認識装置４の概略構成の一例を示す図である。認識装置４は、第３記憶部４１と、第３通信部４２と、第３処理部４３とを備える。

【0043】

第３記憶部４１は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第３記憶部４１は、第３処理部４３による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第３記憶部４１にインストールされる。

【0044】

第３通信部４２は、認識装置４を他の装置と通信可能にする通信インタフェース回路を備える。第３通信部４２が備える通信インタフェース回路は、有線ＬＡＮ又は無線ＬＡＮ等の通信インタフェース回路である。第３通信部４２は、他の装置から送信されたデータを受信し、第３処理部４３に供給するとともに、第３処理部４３から供給されたデータを他の装置に送信する。

【0045】

第３処理部４３は、一又は複数個のプロセッサ及びその周辺回路を備える。第３処理部４３は、例えばＣＰＵであり、認識装置４の動作を統括的に制御する。第３処理部４３は、ＧＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等でもよい。第３処理部４３は、第３記憶部４１に記憶されているプログラムに基づいて認識装置４の各種処理が適切な手順で実行されるように、第３通信部４２の動作を制御するとともに、各種の処理を実行する。また、第３処理部４３は、複数のプログラムを並列に実行することができる。

【0046】

第３処理部４３は、二値画像取得手段４３１、認識手段４３２及び認識結果出力手段４３３を備える。これらの各手段は、第３処理部４３によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして認識装置４に実装されてもよい。

【0047】

（変換器及び識別器の概要）
図６は、変換器の概要について説明するための模式図である。変換器は、多値画像が入力された場合に二値画像を出力する畳み込みニューラルネットワーク（Convolutional Neural Network；ＣＮＮ）であり、入力層、隠れ層及び出力層を有する。隠れ層は、畳み込み層、プーリング層及びアンプーリング層等である。

【0048】

変換器の入力層は、複数の多値画像Ｄ１を入力として受け付ける。多値画像Ｄ１は、例えば、ＲＧＢの３チャネルのそれぞれについて０～２５５の階調範囲内の階調値を有する画素からなる画像である。

【0049】

変換器の畳み込み層Ｐ１０１は、入力層に入力された複数の多値画像Ｄ１に対して、所定のサイズ及び係数を有する複数のフィルタによる畳み込み処理を実行し、特徴マップを生成する。生成される特徴マップは、多値画像Ｄ１と同一のサイズ及びフィルタの数と同数のチャネル数を有する（フィルタ数が２５６個なら２５６チャネル）。畳み込み層Ｐ１０１は、生成された特徴マップに対してバッチ正規化（Batch Normalization）処理を実行し、生成された特徴マップの特徴量がチャネルごとに所定の平均値及び分散値を有するように、各特徴量を補正する。畳み込み層Ｐ１０１は、バッチ正規化処理により補正された各特徴量に対して活性化関数（Activation Function）を適用する活性化処理を実行する。活性化関数は、例えば、ＲｅＬＵ（Rectified Linear Unit）関数である。活性化関数は、双曲線正接（Hyperbolic Tangent）関数でもよく、シグモイド（Sigmoid）関数でもよい。畳み込み層Ｐ１０１は、活性化関数を適用する前に、各特徴量に対して所定のバイアス値を加えてもよい。

【0050】

プーリング層Ｐ１０２は、畳み込み層Ｐ１０１の出力データである特徴マップに対してプーリング（Pooling）処理を実行する。プーリング処理は、特徴マップのサイズを減少させる処理であり、例えば、特徴マップ内の所定のサイズ（例えば、２×２）の領域に含まれる特徴量のうち最大の特徴量を抽出する最大値プーリング（Max Pooling）処理である。プーリング処理は、平均値プーリング（Average Pooling）処理でもよい。プーリング層Ｐ１０２は、プーリング処理により生成された特徴マップを出力する。プーリング層Ｐ１０２の出力データである特徴マップのサイズは、プーリング層Ｐ１０２の入力データである特徴マップのサイズより小さく、例えば、縦方向、横方向のそれぞれについて入力データのサイズの２分の１である。

【0051】

畳み込み層Ｐ１０３は、プーリング層Ｐ１０２の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。プーリング層Ｐ１０４は、畳み込み層Ｐ１０３の出力データに対してプーリング処理を実行する。プーリング層Ｐ１０４の出力データのサイズは、例えば、縦方向、横方向のそれぞれについてプーリング層Ｐ１０４の入力データのサイズの２分の１である。

【0052】

畳み込み層Ｐ１０５は、プーリング層Ｐ１０４の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。アンプーリング層Ｐ１０６は、畳み込み層Ｐ１０５の出力データに対してアンプーリング（Unpooling）処理を実行する。アンプーリング処理は、特徴マップのサイズを増大させるアップサンプリング処理である。アンプーリング層Ｐ１０６の出力データのサイズは、アンプーリング層Ｐ１０６の入力データのサイズより大きく、例えば、縦方向、横方向のそれぞれについて入力データのサイズの２倍である。

【0053】

畳み込み層Ｐ１０７は、アンプーリング層Ｐ１０６の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。加算層Ｐ１０８は、畳み込み層Ｐ１０７の出力データと畳み込み層Ｐ１０３の出力データとを加算する。加算層Ｐ１０８を設けることにより、後述する誤差逆伝播法の適用時において算出される勾配の絶対値が大きくなり、学習速度が向上される。アンプーリング層Ｐ１０９は、加算層Ｐ１０８の出力データに対してアンプーリング処理を実行する。アンプーリング層Ｐ１０９の出力データのサイズは、例えば、縦方向、横方向のそれぞれについてアンプーリング層Ｐ１０９の入力データのサイズの２倍である。

【0054】

畳み込み層Ｐ１１０は、アンプーリング層Ｐ１０９の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。加算層Ｐ１１１は、畳み込み層Ｐ１１０の出力データと畳み込み層Ｐ１０１の出力データとを加算する。

【0055】

変換層Ｐ１１２は、加算層Ｐ１１１の出力データに対してチャネル変換処理を実行する。変換層Ｐ１１２は、各画素についての複数チャネルの特徴量に基づいて、１チャネルの特徴マップを生成して出力する。例えば、加算層Ｐ１１１の出力データがＮチャネルの特徴マップであるとすると、変換層Ｐ１１２は、加算層Ｐ１１１の出力データをＮチャネルのフィルタ１個だけで畳み込んで１チャネルの特徴マップを生成する。これにより、変換層Ｐ１１２は、特徴マップのデータ容量を削減する。

【0056】

活性層Ｐ１１３は、変換層Ｐ１１２の出力データに対して活性化関数を適用する活性化処理を実行する。活性化関数は、例えば、シグモイド関数である。活性化層Ｐ１１３は、活性化関数を適用する前に、各特徴量に対して所定のバイアス値を加えてもよい。

【0057】

閾値処理層Ｐ１１４は、活性層Ｐ１１３の出力データに対して所定の閾値を有する階段関数を適用する閾値処理を実行する。階段関数は、活性層Ｐ１１３の出力である特徴マップに含まれる特徴量が閾値以上であればその特徴量を１に変換し、閾値未満であればその特徴量を０に変換する関数である。これにより、閾値処理層Ｐ１１４は、各画素に対応する特徴量が０又は１である特徴マップを出力する。

【0058】

変換器の出力層は、閾値処理層Ｐ１１４の出力である特徴マップの特徴量を各画素の階調値とする二値画像Ｄ２を出力する。二値画像Ｄ２は、多値画像Ｄ１と同一のサイズを有し、各画素の階調値が０又は１である画像である。このようにして、変換器は、多値画像Ｄ１が入力された場合に二値画像Ｄ２を出力する。

【0059】

なお、閾値処理層Ｐ１１４は、学習時、階段関数を適用する前に、活性層Ｐ１１３の出力である特徴マップにノイズを重畳してもよい（認識時は重畳しない）。例えば、閾値処理層Ｐ１１４は、特徴マップの各特徴量に、所定の分散値を有する、正規分布等の分布に基づいて生成された乱数を加算する。これにより、変換器は、活性層Ｐ１１３の出力の全ての特徴量が閾値未満、又は全ての特徴量が閾値以上である場合でも、二値画像Ｄ２の全ての画素の階調値が０又は１の何れかのみとなる確率を低減させる。二値画像Ｄ２の全ての画素の階調値が０又は１となってしまった場合、後述する認識器にその二値画像Ｄ２が入力されたとしても学習が行えなくなるため、学習速度が低下する。変換器は、そのような二値画像Ｄ２を出力する可能性を低減させることにより、学習速度を向上させることができる。

【0060】

また、この場合において、閾値処理層Ｐ１１４は、特徴マップの特徴量に応じた大きさのノイズを重畳してもよい。例えば、閾値処理層Ｐ１１４は、各特徴量について、各特徴量に乱数を加算した場合に閾値との関係が変化する確率が所定確率（例えば、１０００分の１）となる乱数の分布を決定する。閾値との関係が変化するとは、閾値未満である特徴量に乱数を加算した場合に閾値以上となること、又は、閾値以上である特徴量に乱数を加算した場合に閾値未満となることである。閾値処理層Ｐ１１４は、各特徴量について決定された分布に基づいて乱数をそれぞれ生成し、生成された乱数を各特徴量に加算する。これにより、変換器は、二値画像Ｄ２の全ての画素の階調値が０又は１となる確率を低下させつつ、ノイズによって多値画像Ｄ１との相関がない二値画像Ｄ２が出力される確率を低減させることができる。

【0061】

また、閾値処理層Ｐ１１４は、各特徴量の平均値、中央値等の統計値に基づいて一つの分布を決定し、決定された一つの分布に基づいて生成された乱数を各特徴量に加算してもよい。これにより、変換器は、少ない計算負荷でノイズを重畳することができる。

【0062】

なお、変換器において、加算層Ｐ１０８及びＰ１１１は設けられなくてもよい。

【0063】

図７は、認識器の概要について説明するための模式図である。認識器は、二値画像が入力された場合に対象の領域及び対象の種別を出力するＣＮＮであり、例えば、ＳＳＤ（Single Shot Multibox Detector）である。対象の領域は、入力された二値画像において対象の像に外接する矩形領域を示す情報である。対象の種別は、矩形領域に含まれる対象が、あらかじめ設定された複数の対象の種別の何れに該当するかを示す情報である。対象の種別は、例えば、「人」、「車両」又は「椅子」等である。対象の種別は、「人の上半身」等でもよい。なお、認識すべき対象の種別が一種類（例えば、「人」のみ）である場合、認識器は、対象の種別を出力しなくてもよい。

【0064】

認識器の入力層は、二値画像Ｄ３を入力として受け付ける。二値画像Ｄ３は、変換器から出力された二値画像Ｄ２である。

【0065】

ベースネットワーク（Base Network）Ｐ２０１は、複数の畳み込み層及び全結合層を有するＣＮＮである。ベースネットワークＰ２０１は、画像分類のために用いられる任意のＣＮＮであってよく、例えば、ＶＧＧ－１６等である。ベースネットワークＰ２０１は、二値画像Ｄ３を入力された場合に、特徴マップを出力する。

【0066】

特徴層Ｐ２０２は、ベースネットワークＰ２０１の出力データを入力として受け付ける。特徴層Ｐ２０２は、入力された特徴マップに畳み込み処理を実行し、入力データよりも小さいサイズの特徴マップを出力する。また、特徴層Ｐ２０２は、出力される特徴マップの各画素の特徴量から推定される矩形領域を示す領域情報を出力するとともに、複数の対象の種別のそれぞれについて、その矩形領域に各種別の対象が含まれる可能性を示す信頼度情報を出力する。領域情報は、例えば、矩形領域の中心座標並びに矩形領域の幅及び高さの情報である。信頼度情報は、例えば、対象の各種別に対応する、０以上１以下の値で示される複数の変数からなるベクトルであり、各変数は、その値が１に近いほど対応する種別の対象が含まれる可能性が高いことを示す。

【0067】

特徴層Ｐ２０３は、特徴層Ｐ２０２の出力データである特徴マップを入力として受け付ける。特徴層Ｐ２０３は、特徴層Ｐ２０２と同様に、畳み込み処理を実行し、入力データよりも小さいサイズの特徴マップ、並びに、その特徴マップについての領域情報及び信頼度情報を出力する。

【0068】

特徴層Ｐ２０３の次に、さらに任意の数の特徴層が設けられてもよい。

【0069】

後処理部Ｐ２０４は、各特徴層から出力された領域情報と信頼度情報とを入力として受け付ける。後処理部Ｐ２０４は、入力された信頼度情報に基づいて、各領域情報に示される矩形領域に何れかの種別の対象が含まれるか否か、及び、含まれる場合には何れの種別の対象が含まれるかを判定する。判定は、例えば、信頼度情報に含まれる各変数の値が所定値以上であるか否か、及び、所定値以上である変数が複数である場合には、何れの変数の値が最も大きいかに基づいて行われる。後処理部Ｐ２０４は、同一の種別の対象が含まれると判定され、且つ、領域が所定比率以上重複している複数の矩形領域を統合する。矩形領域の統合には、例えば、Non-Maximum Suppression等の方法が用いられる。これにより、一の対象に対して一の矩形領域が生成される。後処理部Ｐ２０４は、出力層を介して、生成された矩形領域の領域情報を対象の領域Ｄ４として出力するとともに、その矩形領域に対応する信頼度情報を対象の種別Ｄ５として出力する。

【0070】

（各種データのデータ構造）
図８は、学習装置２の第１記憶部２１に記憶される学習用データ２１１のデータ構造の一例を示す図である。学習用データ２１１は、データＩＤと、学習用多値画像と、学習用認識結果とが関連付けられたデータである。なお、学習用多値画像は、学習用第１画像の一例である。

【0071】

データＩＤは、学習用多値画像と学習用認識結果との組み合わせを識別するための識別情報である。学習用多値画像には、画像を構成する各画素の階調値の情報が含まれる。図８に示す例では、各画素について、ＲＧＢの３チャネルのそれぞれについて０～２５５の階調値が記憶されている。学習用認識結果は、学習用多値画像に対して出力されるべきものとして予め設定された認識結果であり、対象の領域と対象の種別とを含む。対象の領域は、学習用多値画像において対象の像に外接する矩形領域を示す情報であり、例えば、矩形領域の中心座標並びに矩形領域の幅及び高さの情報である。対象の種別の情報は、対象の領域によって示される矩形領域に含まれる対象が、あらかじめ設定された複数の対象の種別の何れに該当するかを示す情報である。対象の種別は、例えば、該当する種別に対応する変数の値が１で、他の種別に対応する変数の値が０である、所謂one-hotベクトルである。なお、認識すべき対象の種別が一種類である場合、学習用認識結果は、対象の種別を含まなくてもよい。また、学習用多値画像に複数の対象が含まれる場合、各対象に対応する複数の対象の領域及び対象の種別の情報が含まれてもよい。

【0072】

学習用データ２１１は、あらかじめ学習装置２の管理者によって設定され、第１記憶部２１に記憶される。

【0073】

（処理の流れ）
図９は、学習装置２によって実行される学習処理の流れの一例を示すフロー図である。学習処理は、第１記憶部２１に記憶されたプログラムに従って、第１処理部２３が学習装置２の各構成要素と協働することにより実現される。

【0074】

まず、学習用モデル取得手段２３１は、第１記憶部２１から学習用モデルを取得する（Ｓ１０１）。学習用モデルは、変換器の出力が認識器の入力となるように結合されたＣＮＮである。学習用モデル取得手段２３１は、取得された学習用モデルに含まれるフィルタの係数等のパラメータを、乱数等により初期化してもよい。

【0075】

続いて、学習用データ取得手段２３２は、第１記憶部２１から学習用データ２１１を取得する（Ｓ１０２）。

【0076】

続いて、エッジ画像生成手段２３３は、学習用データ２１１に含まれる学習用多値画像からエッジ画像を生成する（Ｓ１０３）。エッジ画像は、エッジ画素の階調値と他の画素の階調値とが互いに異なる二値画像である。エッジ画像生成手段２３３は、学習用多値画像に対してＣａｎｎｙのエッジ検出方法を適用し、学習用多値画像からエッジ画素を検出する。エッジ画像生成手段２３３は、学習用多値画像において、検出されたエッジ画素の階調値を１に、他の画素の階調値を０に設定した画像をエッジ画像として生成する。

【0077】

なお、エッジ画像生成手段２３３は、ソーベルフィルタ等の公知のエッジ検出フィルタを用いてエッジ画像を生成してもよい。

【0078】

続いて、学習手段２３４は、学習用モデルに学習用多値画像を入力することにより、認識結果を生成する（Ｓ１０４）。認識結果は、学習用モデルから出力された対象物の領域及び対象物の種別である。認識結果は、学習用モデルのうちの変換器から出力された二値画像を含んでもよい。

【0079】

なお、学習手段２３４は、学習用モデルに、学習用多値画像にノイズを付加した画像を入力してもよい。これにより、学習装置２は、入力される多値画像にノイズが含まれていても適切に認識結果が出力されるように学習用モデルを学習させることができる。ただしこの場合、エッジ画像生成手段２３３は、ノイズを付加する前の学習用多値画像からエッジ画像を生成するのが良い。

【0080】

続いて、学習手段２３４は、生成された認識結果と学習用認識結果とに基づいて、誤差を算出する（Ｓ１０５）。誤差は、変換器の学習に用いられる、生成された認識結果と学習用認識結果との間の差の程度を示す指標であり、対象の領域に関する誤差と、対象の種別に関する誤差との重み付け和である誤差関数により算出される。対象の領域に関する誤差は、例えば、生成された認識結果の矩形領域と、学習用認識結果の矩形領域との間の中心座標、幅及び高さの二乗誤差又は対数二乗誤差等である。対象の種別に関する誤差は、例えば、生成された認識結果の対象の種別と、学習用認識結果の対象の種別との間の交差エントロピー誤差である。

【0081】

誤差関数には、さらに二値画像に関する誤差が含まれてもよい。二値画像に関する誤差は、認識結果に含まれる、学習用モデルの変換器から出力された二値画像と、学習用多値画像から生成されたエッジ画像との二乗誤差である。これにより、学習装置２は、変換器によって出力される二値画像をエッジ画像に近づけ、且つ、学習用モデルによって出力される認識結果を学習用認識結果に近づけるように学習用モデルを学習させる。学習装置２は、変換器によって出力される二値画像をエッジ画像に近づけることにより、画像認識システム１のユーザが二値画像における対象の像を視認しやすくする。

【0082】

二値画像に関する誤差は、二値画像と、エッジ画像をぼかした画像との二乗誤差でもよい。エッジ画像をぼかした画像は、エッジ画像に所定のフィルタ（例えば、ガウシアンフィルタ）を適用した画像である。また、二値画像に関する誤差は、二値画像のヒストグラムと、エッジ画像のヒストグラムとの二乗誤差でもよい。ヒストグラムは、例えば、各画像を所定のサイズの領域に区分した場合に、各領域に含まれる階調値が０である画素（又は、１である画素）の数を階級とし、各階級に対応する領域の数を度数とする度数分布である。ヒストグラムは、各画像における階調値の勾配の頻度を示すＨＯＧ（Histogram of Oriented Gradients）でもよい。

【0083】

二値画像とエッジ画像との間にエッジの位置や形状の微差があったとしても、そのような微差はユーザが二値画像における対象の像を視認する際には問題となりにくい。学習装置２は、エッジ画像をぼかした画像を用いることで、このようなエッジの位置や形状の微差を誤差関数に反映されにくくし、変換器の学習を容易にする。

【0084】

また、畳み込み層と、畳み込み層の出力に基づく入力に対して活性化関数を適用する活性化層とが含まれる変換器の学習に用いられる誤差関数には、畳み込み層において適用されるフィルタの係数のノルムが含まれてもよい。フィルタの係数のノルムは、例えば、係数の二乗和（Ｌ２ノルム）又はフィルタのスペクトルノルムである。

【0085】

フィルタの係数のＬ２ノルムが大きい場合、変換器の畳み込み層において適用されるフィルタの係数の絶対値が大きいため、変換器の活性化層Ｐ１１３に入力される特徴マップの特徴量の絶対値も大きくなりやすい。この場合、活性化層Ｐ１１３により適用される活性化関数がシグモイド関数であれば、活性化層Ｐ１１３の出力の特徴量の多くは０に近い値又は１に近い値を有し、中間である０．５に近い値を有しない。このような特徴量を有する特徴マップが閾値処理層Ｐ１１４に入力された場合、閾値処理層Ｐ１１４から出力される画像の全ての画素の階調値が０又は１となる可能性が高くなり、認識器の学習が行われず、学習速度が低下する。

【0086】

また、スペクトルノルムは、畳み込み層に対する入力である複数の特徴マップのＬ２ノルムに対する、各入力に対応する出力である特徴マップのＬ２ノルムの比のうち、最大のものである。スペクトルノルムが大きい場合、畳み込み層の出力データの特徴量の絶対値が大きいため、同様に、閾値処理層Ｐ１１４の出力が全ての画素の階調値が０又は１である画像となる可能性が高くなり、学習速度が低下する。

【0087】

学習装置２は、誤差関数にＬ２ノルム又はスペクトルノルムを加えることにより、Ｌ２ノルム又はスペクトルノルムの値を小さくするようにＣＮＮを学習させる。これにより、学習装置２は、変換器から出力される二値画像の全ての画素の階調値が０又は１となる可能性を低減させ、学習速度を向上させることができる。なお、畳み込み層のフィルタのスペクトルノルムを誤差関数に加えるかわりに、スペクトルノルムが１となるように正規化したフィルタの係数を畳み込みで用いるようにしてもよい。

【0088】

また、誤差関数には、変換器から出力される二値画像を構成する画素のうち、階調値が１である画素の割合（又は、階調値が０である画素の割合）が含まれてもよい。また、誤差関数には、変換器から出力される二値画像を構成する各画素と、各画素に隣接する画素との間の階調値の二乗誤差が含まれてもよい。このようにすることで、変換器から出力される二値画像を圧縮する場合に、その圧縮効率を向上させることができる。

【0089】

続いて、学習手段２３４は、ＣＮＮのパラメータを更新する（Ｓ１０６）。学習手段２３４は、誤差逆伝播法を用いてＣＮＮの各層の勾配を算出し、算出された勾配に基づく確率的勾配法により、誤差が小さくなるようにパラメータを更新する。更新されるパラメータは、畳み込み層において適用されるフィルタの係数並びに畳み込み層におけるバッチ正規化処理により補正された各特徴量の平均値及び分散値である。更新されるパラメータには、畳み込み層及び活性化層において活性化関数が適用される前に各特徴量に加えられるバイアス値が含まれてもよい。更新されるパラメータには、閾値処理層において適用される階段関数の閾値等が含まれてもよい。

【0090】

学習手段２３４は、変換器のパラメータを更新するための誤差逆伝播法を適用する際に、階段関数とは異なる他の関数の勾配を、変換器に含まれる、入力に対して階段関数を適用する閾値処理層Ｐ１１４の勾配として用いてもよい。他の関数は、勾配が０となる区間が階段関数よりも小さい関数であり、例えば、恒等関数又はシグモイド関数等である。このようにすることで、学習装置２は、誤差をより小さくするようにパラメータを更新し、学習速度を向上させることができる。すなわち、誤差逆伝播法においては、各層の勾配に基づいてその前の層の勾配を算出し、誤差の大きな要因となるパラメータを特定することによりパラメータを更新する。したがって、階段関数のように勾配が０である区間が支配的である関数を適用する層が存在する場合、その層より前の層において誤差の要因となるパラメータを特定することが難しくなる。学習装置２は、閾値処理層Ｐ１１４の勾配として、階段関数とは異なる、勾配が０となる区間が階段関数よりも小さい他の関数の勾配を用いることにより、誤差の要因となるパラメータの特定を容易にする。

【0091】

続いて、学習手段２３４は、学習の終了条件が満たされたか否かを判定する（Ｓ１０７）。学習の終了条件は、例えば、所定回数以上パラメータが更新されたこと、又は、更新後のパラメータの更新前のパラメータに対する変化量が所定値以下であること等である。

【0092】

終了条件が満たされていないと判定された場合（Ｓ１０７－Ｎｏ）、学習手段２３４は、Ｓ１０２に処理を進める。終了条件が満たされていると判定された場合（Ｓ１０７－Ｙｅｓ）、学習手段２３４は、ＣＮＮを学習済みモデルとして第１記憶部２１に記憶し（Ｓ１０８）、一連の処理を終了する。

【0093】

このように、学習装置２は、変換器及び認識器を同時学習により生成する。これにより、学習装置２は、変換器を、認識器による対象物の認識精度が高い二値画像を出力するように学習させることを可能とする。

【0094】

図１０は、画像認識システム１によって実行される画像認識処理の流れの一例を示すシーケンス図である。画像認識処理は、第１記憶部２１、第２記憶部３１及び第３記憶部４１に記憶されたプログラムに基づいて、第１処理部２３、第２処理部３４及び第３処理部４３が各装置の構成要素と協働することにより実現される。

【0095】

まず、学習装置２の出力手段２３５は、第１通信部２２を介して、変換器及び識別器を撮像装置３及び認識装置４に対して出力する（Ｓ２０１）。出力手段２３５は、第１記憶部２１に記憶された学習済みモデルであるＣＮＮを分離することにより変換器及び認識器を生成する。出力手段２３５は、第１通信部２２を介して、変換器を撮像装置３に、認識器を認識装置４にそれぞれ送信する。撮像装置３は、変換器を受信して第２記憶部３１に記憶する。認識装置４は、認識器を受信して第３記憶部４１に記憶する。

【0096】

続いて、撮像装置３の撮像手段３４１は、撮像部３３を制御して、建物内の一室を撮像して多値画像を生成する（Ｓ２０２）。

【0097】

続いて、変換手段３４２は、生成された多値画像を二値画像に変換する（Ｓ２０３）。変換手段３４２は、第２記憶部３１に記憶された変換器に多値画像を入力し、二値画像を出力させることにより多値画像を二値画像に変換する。

【0098】

続いて、二値画像出力手段３４３は、第２通信部３２を介して、二値画像を伝送網６に対して出力する（Ｓ２０４）。二値画像出力手段３４３は、二値画像に所定の可逆圧縮技術を適用して出力してもよい。これにより、撮像装置３は、二値画像の伝送容量を抑えることができる。

【0099】

続いて、認識装置４の二値画像取得手段４３１は、第３通信部４２を介して、二値画像を伝送網６から取得する（Ｓ２０５）。

【0100】

続いて、認識手段４３２は、二値画像に対する認識結果を生成する（Ｓ２０６）。認識手段４３２は、第３記憶部４１に記憶された認識器に二値画像を入力し、認識結果を出力させることにより認識結果を生成する。

【0101】

続いて、認識結果出力手段４３３は、第３通信部４２を介して、生成された認識結果を表示装置５に対して出力し（Ｓ２０７）、一連の処理を終了する。例えば、認識結果出力手段４３３は、表示装置５が認識結果に基づく認識結果画面７００を表示するための表示データを表示装置５に送信する。

【0102】

図１１は、表示装置５に表示される認識結果画面７００の一例を示す図である。認識結果画面７００は、二値画像７１０と、対象の像７１１と、外接矩形７２０と、種別表示オブジェクト７２１とを含む。

【0103】

二値画像７１０は、撮像装置３によって生成された二値画像である。図１１に示す例では、階調値が１及び０である画素がそれぞれ黒及び白で示されている。対象の像７１１は、図１１に示す例では、人の全身画像である。外接矩形７２０は、認識装置４によって生成された対象の領域に基づいて表示される、対象の像７１１に外接する矩形のオブジェクトである。種別表示オブジェクト７２１は、認識装置４によって生成された対象の種別に基づいて表示される、対象の種別を文字等により示すオブジェクトである。種別表示オブジェクト７２１は、例えば、認識装置４によって生成された対象の種別に含まれる各変数のうち、最も値が大きい変数に対応する対象の種別を示す。

【0104】

以上説明したように、画像認識システム１において、学習装置２は、変換器の出力が認識器の入力となるように結合されたＣＮＮを学習させる。そして、撮像装置３は、学習済みモデルである変換器により多値画像を二値画像に変換し、認識装置４は、学習済みモデルである認識器により二値画像に対する認識結果を生成する。このようにすることで、画像認識システム１は、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。

【0105】

なお、上述した説明では、変換器の入力は複数のチャネルを有する画像であるものとしたが、変換器の入力は、１チャネルの画像（例えば、グレースケール画像）でもよい。

【0106】

また、上述した説明では、変換器の出力は１チャネルの二値画像であるものとしたが、これに限られない。変換器は、入力である多値画像の各チャネルに対応する複数の二値画像を出力してもよい。例えば、入力である多値画像がＲＧＢの３チャネルを有する場合、変換器は、Ｒチャネルに対応する二値画像、Ｇチャネルに対応する二値画像、及び、Ｂチャネルに対応する二値画像をそれぞれ生成する。

【0107】

この場合、認識器は、複数の二値画像を入力として受け付ける。また、エッジ画像生成手段２３３は、学習用多値画像の各チャネルの階調値に基づいて、各チャネルに対応するエッジ画像をそれぞれ生成する。このようにすることで、認識器の認識精度が向上する。

【0108】

また、変換器の出力は、変換器に入力される多値画像よりも小さい階調範囲の多値画像でもよい。これにより、認識器における認識精度が向上する。

【0109】

また、上述した説明では、画像認識システム１は、それぞれ１つの撮像装置３及び認識装置４を有するものとしたが、これに限られない。画像認識システム１は、複数の撮像装置３又は認識装置４を有してもよい。この場合、学習装置２は、複数の撮像装置３のそれぞれに変換器を出力し、又は、複数の認識装置４のそれぞれに認識器を出力する。

【0110】

また、撮像装置３又は認識装置４により学習装置２又は表示装置５の機能が実現されてもよい。

【0111】

また、上述した説明では、物体の領域または物体の領域と種別を認識する認識器とそれに対応した変換器を例示したが、人の年齢や性別等の属性を認識する認識器とそれに対応した変換器であってもよいし、人又は車両の混雑度合い又は姿勢等の状態を認識する認識器とそれに対応した変換器であってもよく、種々の対象の画像認識に適用できる。なお、それらの場合、対象に応じた学習用認識結果を設定して学習を行うことになる。

【0112】

当業者は、本発明の精神および範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。例えば、上述した各部の処理は、本発明の範囲において、適宜に異なる順序で実行されてもよい。また、上述した実施形態及び変形例は、本発明の範囲において、適宜に組み合わせて実施されてもよい。

【符号の説明】

【0113】

１画像認識システム
２学習装置
２３１学習用モデル取得手段
２３２学習用データ取得手段
２３３エッジ画像生成手段
２３４学習手段
２３５出力手段
３撮像装置
３４１撮像手段
３４２変換手段
３４３二値画像出力手段
４認識装置
４３１二値画像取得手段
４３２認識手段
４３３認識結果出力手段

【図1】