IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

特許7368995画像認識システム、撮像装置、認識装置及び画像認識方法
<>
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図1
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図2
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図3
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図4
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図5
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図6
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図7
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図8
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図9
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図10
  • 特許-画像認識システム、撮像装置、認識装置及び画像認識方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-17
(45)【発行日】2023-10-25
(54)【発明の名称】画像認識システム、撮像装置、認識装置及び画像認識方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231018BHJP
   H04N 23/60 20230101ALI20231018BHJP
【FI】
G06T7/00 350C
H04N23/60 300
H04N23/60 500
【請求項の数】 6
(21)【出願番号】P 2019179524
(22)【出願日】2019-09-30
(65)【公開番号】P2021056785
(43)【公開日】2021-04-08
【審査請求日】2022-09-06
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100180806
【弁理士】
【氏名又は名称】三浦 剛
(74)【代理人】
【識別番号】100207778
【弁理士】
【氏名又は名称】阿形 直起
(72)【発明者】
【氏名】野坂 龍佑
(72)【発明者】
【氏名】黒川 高晴
(72)【発明者】
【氏名】氏家 秀紀
【審査官】佐藤 直樹
(56)【参考文献】
【文献】特開平07-021381(JP,A)
【文献】特開2015-088817(JP,A)
【文献】特許第6320649(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
H04N 23/60
(57)【特許請求の範囲】
【請求項1】
所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成する撮像手段と、
前記第1画像が入力された場合に前記第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、前記第1画像を前記第2画像に変換する変換手段と、
前記第2画像が入力された場合に前記対象を認識するための処理を前記第2画像に対して行って認識結果を出力する認識器により、前記第2画像に対する認識結果を生成する認識手段と、を備え
前記変換器及び前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合に出力される認識結果を前記学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする画像認識システム。
【請求項2】
前記変換器及び前記認識器は、前記結合されたニューラルネットワークに前記学習用第1画像を入力した場合に前記変換器によって出力される前記第2の階調範囲内の階調値を有する画素からなる画像を前記学習用第1画像から生成されるエッジ画像に近づけ、且つ、前記結合されたニューラルネットワークによって出力される前記認識結果を前記学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
請求項に記載の画像認識システム。
【請求項3】
前記変換された第2画像を所定の伝送網に出力する出力手段と、
前記第2画像を前記伝送網から取得する取得手段と、
をさらに備え、
前記認識手段は、前記取得された第2画像に対する認識結果を生成する、
請求項1または2に記載の画像認識システム。
【請求項4】
所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成する撮像手段と、
前記第1画像が入力された場合に前記第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、前記第1画像を前記第2画像に変換する変換手段と、
前記第2画像を出力する出力手段と、を備え
前記変換器は、前記変換器の出力が、前記第2画像が入力された場合に前記対象を認識するための処理を前記第2画像に対して行って認識結果を出力する認識器の入力となるように結合されたニューラルネットワークに前記第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合に出力される認識結果を前記学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする撮像装置。
【請求項5】
第1の階調範囲内の階調値を有する画素からなる第1画像が入力された場合に前記第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、撮像により生成された第1画像を変換した第2画像を取得する取得手段と、
前記第2画像が入力された場合に所定の対象を認識するための処理を前記第2画像に対して行って認識結果を出力する認識器により、前記第2画像に対する認識結果を生成する認識手段と、を備え
前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第1の階調範囲内の階調値を有する画素からなる学習用第1画像を入力した場合に出力される認識結果を前記学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする認識装置。
【請求項6】
所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成し、
前記第1画像が入力された場合に前記第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、前記第1画像を前記第2画像に変換し、
前記第2画像が入力された場合に前記対象を認識するための処理を前記第2画像に対して行って認識結果を出力する認識器により、前記第2画像に対する認識結果を生成する、ことを含み、
前記変換器及び前記認識器は、前記変換器の出力が前記認識器の入力となるように結合されたニューラルネットワークに前記第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合に出力される認識結果を前記学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、
ことを特徴とする画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識システム、撮像装置、認識装置及び画像認識方法に関する。
【背景技術】
【0002】
近年、防犯意識の高まりから監視カメラの設置数が増加している。これに伴い、監視カメラ等の撮像装置によって撮像された画像を監視者が視認して不審者や不審物等の対象物を認識することが難しくなっている。そこで、このような画像に対して画像認識処理を実行し、対象物を自動的に認識する要求が高まっている。
【0003】
画像認識処理を実行するためには、撮像された画像を一時記憶又は/及び伝送する必要があり、多数の撮像装置によって撮像された画像を記憶又は/及び伝送するためには多くの記憶容量又は/及び伝送容量が要求される。したがって、画像認識の精度を保ちながら、画像認識処理を実行する対象の画像のデータ容量が抑えられることが好ましい。特許文献1には、撮影画像を区分した複数のブロックに含まれるエッジの強度に基づいて各ブロックのエッジレベルを推定し、推定されたエッジレベルに基づいて各ブロックを低解像度の画像に置換する監視カメラが開示されている。特許文献2には、太さが基準以下である微細エッジ及びその近傍の微細構造領域を検出し、検出された微細構造領域の外側を低解像度の画像に置換する監視カメラが開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2015-088817号公報
【文献】特開2015-088818号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1及び2の手法では、画像のエッジの強度等に応じて置換後の画像のデータ容量が変動するため、画像認識処理のために必要となる記憶容量又は/及び伝送容量の予測が困難であるという問題があった。そこで、画像認識の精度を保ちつつ、画像認識の対象である画像のデータ容量を安定して低減させることが望まれている。
【0006】
本発明は、上述の課題を解決するためになされたものであり、画像認識の精度を保ちつつ、画像認識の対象である画像のデータ容量を安定して低減させることを可能とする画像認識システム、撮像装置、認識装置及び画像認識方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る画像認識システムは、所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成する撮像手段と、第1画像が入力された場合に第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、第1画像を第2画像に変換する変換手段と、第2画像が入力された場合に対象を認識するための処理を第2画像に対して行って認識結果を出力する認識器により、第2画像に対する認識結果を生成する認識手段と、を備えたことを特徴とする。
【0008】
また、本発明に係る画像認識システムにおいて、変換器及び認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークに第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合に出力される認識結果を学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。
【0009】
また、本発明に係る画像認識システムにおいて、変換器及び認識器は、結合されたニューラルネットワークに学習用第1画像を入力した場合に前記変換器によって出力される第2の階調範囲を有する画像を学習用第1画像から生成されるエッジ画像に近づけ、且つ、結合されたニューラルネットワークによって出力される認識結果を学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。
【0010】
また、本発明に係る画像認識システムにおいて、変換された第2画像を所定の伝送網に出力する出力手段と、第2画像を伝送網から取得する取得手段と、をさらに備え、認識手段は、取得された第2画像に対する認識結果を生成する、ことが好ましい。
【0011】
本発明に係る撮像装置は、所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成する撮像手段と、第1画像が入力された場合に第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、第1画像を第2画像に変換する変換手段と、第2画像を出力する出力手段と、を備えたことを特徴とする。
【0012】
また、本発明に係る撮像装置において、変換器は、変換器の出力が、第2画像が入力された場合に対象を認識するための処理を第2画像に対して行って認識結果を出力する認識器の入力となるように結合されたニューラルネットワークに第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合に出力される認識結果を学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。
【0013】
本発明に係る認識装置は、第1の階調範囲内の階調値を有する画素からなる第1画像が入力された場合に第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、撮像により生成された第1画像を変換した第2画像を取得する取得手段と、第2画像が入力された場合に対象を認識するための処理を第2画像に対して行って認識結果を出力する認識器により、第2画像に対する認識結果を生成する認識手段と、を備えたことを特徴とする。
【0014】
また、本発明に係る認識装置において、認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークに第1の階調範囲内の階調値を有する画素からなる学習用第1画像を入力した場合に出力される認識結果を学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように学習された学習済みニューラルネットワークである、ことが好ましい。
【0015】
本発明に係る画像認識方法は、所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成し、第1画像が入力された場合に第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像を出力する変換器により、第1画像を第2画像に変換し、第2画像が入力された場合に対象を認識するための処理を第2画像に対して行って認識結果を出力する認識器により、第2画像に対する認識結果を生成する、ことを含むことを特徴とする。
【発明の効果】
【0016】
本発明に係る画像認識システム、撮像装置、認識装置、画像認識方法は、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。
【図面の簡単な説明】
【0017】
図1】本発明の概要を説明するための模式図である。
図2】画像認識システム1の概略構成の一例を示す図である。
図3】学習装置2の概略構成の一例を示す図である。
図4】撮像装置3の概略構成の一例を示す図である。
図5】認識装置4の概略構成の一例を示す図である。
図6】変換器の概要について説明するための模式図である。
図7】識別器の概要について説明するための模式図である。
図8】学習用データ211のデータ構造の一例を示す図である。
図9】学習処理の流れの一例を示すフロー図である。
図10】画像認識処理の流れの一例を示すシーケンス図である。
図11】認識結果画面700の一例を示す図である。
【発明を実施するための形態】
【0018】
以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
【0019】
(本発明の概要)
図1は、本発明の概要について説明するための模式図である。本発明に係る画像認識システムは、撮像手段と、変換手段と、認識手段とを有する。
【0020】
撮像手段は、所定の対象が撮像され得る空間を撮像して、第1の階調範囲内の階調値を有する画素からなる第1画像を生成する。所定の対象は例えば人であり、第1画像は、例えば、RGBの3チャネルのそれぞれについて0~255の階調値を有する画素からなる画像である。変換手段は、変換器により、撮像手段によって生成された第1画像を第1の階調範囲よりも小さい第2の階調範囲内の階調値を有する画素からなる第2画像に変換する。第2画像は、例えば、0又は1の階調値を有する画素からなる画像である。認識手段は、認識器により、変換手段によって変換された第2画像に対する所定の対象の認識結果を生成する。認識結果は、例えば、第2画像に写っている人の像に外接する矩形領域を示す情報である。
【0021】
変換器及び認識器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークを学習させることにより生成された学習済みニューラルネットワークである。学習は、第1の階調範囲内の階調値を有する画素からなる学習用第1画像が入力された場合にニューラルネットワークから出力される認識結果を学習用第1画像に対して出力されるべき認識結果として予め設定された学習用認識結果に近づけるように行われる。
【0022】
このように、画像認識システムにおいて、変換手段は、第1画像が入力された場合に第2画像を出力する変換器により、第1画像を第2画像に変換する。このようにすることで、画像認識システムは、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。すなわち、第1画像が変換された第2画像のデータ容量は、第2の階調範囲及び画素数によって定まり、第1画像の内容に依存しない。したがって、画像認識システムは、第1画像を第2画像に変換することにより、第1画像の内容にかかわらず画像のデータ容量を安定して削減することを可能とする。
【0023】
また、第1画像を入力された場合に第2画像を出力する変換器は、変換器の出力が認識器の入力となるように結合されたニューラルネットワークを、学習用第1画像及び学習用認識結果を用いて学習させることにより生成される。このようにすることで、画像認識システムは、認識器において高い精度での画像認識が可能となるような第2画像を変換器に出力させることが可能となる。
【0024】
なお、上述した図1の説明は、本発明の内容への理解を深めるための説明にすぎない。本発明は、具体的には、次に説明する各実施形態において実施され、且つ、本発明の原則を実質的に超えずに、さまざまな変形例によって実施されてもよい。このような変形例はすべて、本発明および本明細書の開示範囲に含まれる。
【0025】
(システムの概略構成)
図2は、画像認識システム1の概略構成の一例を示す図である。画像認識システム1は、学習装置2と、撮像装置3と、認識装置4と、表示装置5とを有する。学習装置2、撮像装置3、認識装置4及び表示装置5は、インターネット又はイントラネット等の伝送網6を介して相互に接続される。
【0026】
学習装置2は、サーバ又はPC(Personal Computer)等の情報処理装置である。学習装置2は、学習済みニューラルネットワークである変換器及び認識器を同時学習により生成する。変換器は、多値画像が入力された場合に二値画像を出力するニューラルネットワークである。認識器は、二値画像が入力された場合に二値画像内における人の領域を出力するニューラルネットワークである。なお、変換器及び認識器の同時学習とは、変換器及び認識器を結合したニューラルネットワークを学習させることをいう。また、多値画像は第1画像の一例であり、二値画像は第2画像の一例である。
【0027】
撮像装置3は、例えば、監視カメラである。撮像装置3は、例えば、建物内の一室を撮像することにより当該部屋の多値画像を生成する。撮像装置3は、学習装置2により生成された変換器により多値画像を二値画像に変換する。撮像装置3は、変換された二値画像を伝送網6に出力する。なお、上記部屋は対象が撮像され得る空間の一例である。
【0028】
認識装置4は、サーバ又はPC等の情報処理装置である。認識装置4は、撮像装置3によって出力された二値画像を伝送網6から取得する。認識装置4は、学習装置2により生成された認識器により、二値画像に対する認識結果を生成する。認識装置4は、生成された認識結果を伝送網6に出力する。取得される二値画像のデータ容量は元の多値画像に比べて少なく、且つ固定値である。そのため、認識装置4や伝送網6が要する伝送容量を削減することができ、認識装置4が一時記憶したり保管するために要する記憶容量も削減することができる。また、二値画像は認識器と同時学習された変換器により生成されるため変換による認識精度を高く維持したまま伝送容量や記憶容量を削減できる。
【0029】
表示装置5は、サーバ又はPC等の情報処理装置である。表示装置5は、認識装置4によって出力された認識結果を伝送網6から取得する。表示装置5は、取得された認識結果を表示装置5が備える液晶ディスプレイ等の表示部に表示する。
【0030】
図3は、学習装置2の概略構成の一例を示す図である。学習装置2は、第1記憶部21と、第1通信部22と、第1処理部23とを備える。
【0031】
第1記憶部21は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第1記憶部21は、第1処理部23による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、CD(Compact Disc)-ROM(Read Only Memory)、DVD(Digital Versatile Disc)-ROM等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第1記憶部21にインストールされる。
【0032】
また、第1記憶部21は、学習用データ211及び学習用モデル212を記憶する。
【0033】
第1通信部22は、学習装置2を他の装置と通信可能にする通信インタフェース回路を備える。第1通信部22が備える通信インタフェース回路は、有線LAN(Local Area Network)又は無線LAN等の通信インタフェース回路である。第1通信部22は、他の装置から送信されたデータを受信し、第1処理部23に供給するとともに、第1処理部23から供給されたデータを他の装置に送信する。
【0034】
第1処理部23は、一又は複数個のプロセッサ及びその周辺回路を備える。第1処理部23は、例えばCPU(Central Processing Unit)であり、学習装置2の動作を統括的に制御する。第1処理部23は、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、LSI(Large-Scaled IC)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等でもよい。第1処理部23は、第1記憶部21に記憶されているプログラムに基づいて学習装置2の各種処理が適切な手順で実行されるように、第1通信部22の動作を制御するとともに、各種の処理を実行する。また、第1処理部23は、複数のプログラムを並列に実行することができる。
【0035】
第1処理部23は、学習用モデル取得手段231、学習用データ取得手段232、エッジ画像生成手段233、学習手段234及び出力手段235を備える。これらの各手段は、第1処理部23によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして学習装置2に実装されてもよい。
【0036】
図4は、撮像装置3の概略構成の一例を示す図である。撮像装置3は、第2記憶部31と、第2通信部32と、撮像部33と、第2処理部34とを備える。
【0037】
第2記憶部31は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第2記憶部31は、第2処理部34による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、CD-ROM、DVD-ROM等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第2記憶部31にインストールされる。
【0038】
第2通信部32は、撮像装置3を他の装置と通信可能にする通信インタフェース回路を備える。第2通信部32が備える通信インタフェース回路は、有線LAN又は無線LAN等の通信インタフェース回路である。第2通信部32は、他の装置から送信されたデータを受信し、第2処理部34に供給するとともに、第2処理部34から供給されたデータを他の装置に送信する。
【0039】
撮像部33は、結像光学系、撮像素子及び画像処理部等を備える。結像光学系は、例えば光学レンズであり、被写体からの光束を撮像素子の撮像面上に結像させる。撮像素子は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)等であり、撮像面上に結像した被写体像の画像信号を出力する。画像処理部は、撮像素子によって生成された画像信号から所定の形式の画像データを生成して第2処理部34に供給する。
【0040】
第2処理部34は、一又は複数個のプロセッサ及びその周辺回路を備える。第2処理部34は、例えばCPUであり、撮像装置3の動作を統括的に制御する。第2処理部34は、GPU、DSP、LSI、ASIC、FPGA等でもよい。第2処理部34は、第2記憶部31に記憶されているプログラムに基づいて撮像装置3の各種処理が適切な手順で実行されるように、第2通信部32及び撮像部33の動作を制御するとともに、各種の処理を実行する。また、第2処理部34は、複数のプログラムを並列に実行することができる。
【0041】
第2処理部34は、撮像手段341、変換手段342及び二値画像出力手段343を備える。これらの各手段は、第2処理部34によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして撮像装置3に実装されてもよい。
【0042】
図5は、認識装置4の概略構成の一例を示す図である。認識装置4は、第3記憶部41と、第3通信部42と、第3処理部43とを備える。
【0043】
第3記憶部41は、プログラム又はデータを記憶するためのデバイスであり、例えば、半導体メモリ装置を備える。第3記憶部41は、第3処理部43による処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、アプリケーションプログラム、データ等を記憶する。プログラムは、例えば、CD-ROM、DVD-ROM等のコンピュータ読み取り可能且つ非一時的な可搬型記憶媒体から、公知のセットアッププログラム等を用いて第3記憶部41にインストールされる。
【0044】
第3通信部42は、認識装置4を他の装置と通信可能にする通信インタフェース回路を備える。第3通信部42が備える通信インタフェース回路は、有線LAN又は無線LAN等の通信インタフェース回路である。第3通信部42は、他の装置から送信されたデータを受信し、第3処理部43に供給するとともに、第3処理部43から供給されたデータを他の装置に送信する。
【0045】
第3処理部43は、一又は複数個のプロセッサ及びその周辺回路を備える。第3処理部43は、例えばCPUであり、認識装置4の動作を統括的に制御する。第3処理部43は、GPU、DSP、LSI、ASIC、FPGA等でもよい。第3処理部43は、第3記憶部41に記憶されているプログラムに基づいて認識装置4の各種処理が適切な手順で実行されるように、第3通信部42の動作を制御するとともに、各種の処理を実行する。また、第3処理部43は、複数のプログラムを並列に実行することができる。
【0046】
第3処理部43は、二値画像取得手段431、認識手段432及び認識結果出力手段433を備える。これらの各手段は、第3処理部43によって実行されるプログラムによって実現される機能モジュールである。これらの各手段は、ファームウェアとして認識装置4に実装されてもよい。
【0047】
(変換器及び識別器の概要)
図6は、変換器の概要について説明するための模式図である。変換器は、多値画像が入力された場合に二値画像を出力する畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)であり、入力層、隠れ層及び出力層を有する。隠れ層は、畳み込み層、プーリング層及びアンプーリング層等である。
【0048】
変換器の入力層は、複数の多値画像D1を入力として受け付ける。多値画像D1は、例えば、RGBの3チャネルのそれぞれについて0~255の階調範囲内の階調値を有する画素からなる画像である。
【0049】
変換器の畳み込み層P101は、入力層に入力された複数の多値画像D1に対して、所定のサイズ及び係数を有する複数のフィルタによる畳み込み処理を実行し、特徴マップを生成する。生成される特徴マップは、多値画像D1と同一のサイズ及びフィルタの数と同数のチャネル数を有する(フィルタ数が256個なら256チャネル)。畳み込み層P101は、生成された特徴マップに対してバッチ正規化(Batch Normalization)処理を実行し、生成された特徴マップの特徴量がチャネルごとに所定の平均値及び分散値を有するように、各特徴量を補正する。畳み込み層P101は、バッチ正規化処理により補正された各特徴量に対して活性化関数(Activation Function)を適用する活性化処理を実行する。活性化関数は、例えば、ReLU(Rectified Linear Unit)関数である。活性化関数は、双曲線正接(Hyperbolic Tangent)関数でもよく、シグモイド(Sigmoid)関数でもよい。畳み込み層P101は、活性化関数を適用する前に、各特徴量に対して所定のバイアス値を加えてもよい。
【0050】
プーリング層P102は、畳み込み層P101の出力データである特徴マップに対してプーリング(Pooling)処理を実行する。プーリング処理は、特徴マップのサイズを減少させる処理であり、例えば、特徴マップ内の所定のサイズ(例えば、2×2)の領域に含まれる特徴量のうち最大の特徴量を抽出する最大値プーリング(Max Pooling)処理である。プーリング処理は、平均値プーリング(Average Pooling)処理でもよい。プーリング層P102は、プーリング処理により生成された特徴マップを出力する。プーリング層P102の出力データである特徴マップのサイズは、プーリング層P102の入力データである特徴マップのサイズより小さく、例えば、縦方向、横方向のそれぞれについて入力データのサイズの2分の1である。
【0051】
畳み込み層P103は、プーリング層P102の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。プーリング層P104は、畳み込み層P103の出力データに対してプーリング処理を実行する。プーリング層P104の出力データのサイズは、例えば、縦方向、横方向のそれぞれについてプーリング層P104の入力データのサイズの2分の1である。
【0052】
畳み込み層P105は、プーリング層P104の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。アンプーリング層P106は、畳み込み層P105の出力データに対してアンプーリング(Unpooling)処理を実行する。アンプーリング処理は、特徴マップのサイズを増大させるアップサンプリング処理である。アンプーリング層P106の出力データのサイズは、アンプーリング層P106の入力データのサイズより大きく、例えば、縦方向、横方向のそれぞれについて入力データのサイズの2倍である。
【0053】
畳み込み層P107は、アンプーリング層P106の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。加算層P108は、畳み込み層P107の出力データと畳み込み層P103の出力データとを加算する。加算層P108を設けることにより、後述する誤差逆伝播法の適用時において算出される勾配の絶対値が大きくなり、学習速度が向上される。アンプーリング層P109は、加算層P108の出力データに対してアンプーリング処理を実行する。アンプーリング層P109の出力データのサイズは、例えば、縦方向、横方向のそれぞれについてアンプーリング層P109の入力データのサイズの2倍である。
【0054】
畳み込み層P110は、アンプーリング層P109の出力データに対して畳み込み処理、バッチ正規化処理及び活性化処理を実行する。加算層P111は、畳み込み層P110の出力データと畳み込み層P101の出力データとを加算する。
【0055】
変換層P112は、加算層P111の出力データに対してチャネル変換処理を実行する。変換層P112は、各画素についての複数チャネルの特徴量に基づいて、1チャネルの特徴マップを生成して出力する。例えば、加算層P111の出力データがNチャネルの特徴マップであるとすると、変換層P112は、加算層P111の出力データをNチャネルのフィルタ1個だけで畳み込んで1チャネルの特徴マップを生成する。これにより、変換層P112は、特徴マップのデータ容量を削減する。
【0056】
活性層P113は、変換層P112の出力データに対して活性化関数を適用する活性化処理を実行する。活性化関数は、例えば、シグモイド関数である。活性化層P113は、活性化関数を適用する前に、各特徴量に対して所定のバイアス値を加えてもよい。
【0057】
閾値処理層P114は、活性層P113の出力データに対して所定の閾値を有する階段関数を適用する閾値処理を実行する。階段関数は、活性層P113の出力である特徴マップに含まれる特徴量が閾値以上であればその特徴量を1に変換し、閾値未満であればその特徴量を0に変換する関数である。これにより、閾値処理層P114は、各画素に対応する特徴量が0又は1である特徴マップを出力する。
【0058】
変換器の出力層は、閾値処理層P114の出力である特徴マップの特徴量を各画素の階調値とする二値画像D2を出力する。二値画像D2は、多値画像D1と同一のサイズを有し、各画素の階調値が0又は1である画像である。このようにして、変換器は、多値画像D1が入力された場合に二値画像D2を出力する。
【0059】
なお、閾値処理層P114は、学習時、階段関数を適用する前に、活性層P113の出力である特徴マップにノイズを重畳してもよい(認識時は重畳しない)。例えば、閾値処理層P114は、特徴マップの各特徴量に、所定の分散値を有する、正規分布等の分布に基づいて生成された乱数を加算する。これにより、変換器は、活性層P113の出力の全ての特徴量が閾値未満、又は全ての特徴量が閾値以上である場合でも、二値画像D2の全ての画素の階調値が0又は1の何れかのみとなる確率を低減させる。二値画像D2の全ての画素の階調値が0又は1となってしまった場合、後述する認識器にその二値画像D2が入力されたとしても学習が行えなくなるため、学習速度が低下する。変換器は、そのような二値画像D2を出力する可能性を低減させることにより、学習速度を向上させることができる。
【0060】
また、この場合において、閾値処理層P114は、特徴マップの特徴量に応じた大きさのノイズを重畳してもよい。例えば、閾値処理層P114は、各特徴量について、各特徴量に乱数を加算した場合に閾値との関係が変化する確率が所定確率(例えば、1000分の1)となる乱数の分布を決定する。閾値との関係が変化するとは、閾値未満である特徴量に乱数を加算した場合に閾値以上となること、又は、閾値以上である特徴量に乱数を加算した場合に閾値未満となることである。閾値処理層P114は、各特徴量について決定された分布に基づいて乱数をそれぞれ生成し、生成された乱数を各特徴量に加算する。これにより、変換器は、二値画像D2の全ての画素の階調値が0又は1となる確率を低下させつつ、ノイズによって多値画像D1との相関がない二値画像D2が出力される確率を低減させることができる。
【0061】
また、閾値処理層P114は、各特徴量の平均値、中央値等の統計値に基づいて一つの分布を決定し、決定された一つの分布に基づいて生成された乱数を各特徴量に加算してもよい。これにより、変換器は、少ない計算負荷でノイズを重畳することができる。
【0062】
なお、変換器において、加算層P108及びP111は設けられなくてもよい。
【0063】
図7は、認識器の概要について説明するための模式図である。認識器は、二値画像が入力された場合に対象の領域及び対象の種別を出力するCNNであり、例えば、SSD(Single Shot Multibox Detector)である。対象の領域は、入力された二値画像において対象の像に外接する矩形領域を示す情報である。対象の種別は、矩形領域に含まれる対象が、あらかじめ設定された複数の対象の種別の何れに該当するかを示す情報である。対象の種別は、例えば、「人」、「車両」又は「椅子」等である。対象の種別は、「人の上半身」等でもよい。なお、認識すべき対象の種別が一種類(例えば、「人」のみ)である場合、認識器は、対象の種別を出力しなくてもよい。
【0064】
認識器の入力層は、二値画像D3を入力として受け付ける。二値画像D3は、変換器から出力された二値画像D2である。
【0065】
ベースネットワーク(Base Network)P201は、複数の畳み込み層及び全結合層を有するCNNである。ベースネットワークP201は、画像分類のために用いられる任意のCNNであってよく、例えば、VGG-16等である。ベースネットワークP201は、二値画像D3を入力された場合に、特徴マップを出力する。
【0066】
特徴層P202は、ベースネットワークP201の出力データを入力として受け付ける。特徴層P202は、入力された特徴マップに畳み込み処理を実行し、入力データよりも小さいサイズの特徴マップを出力する。また、特徴層P202は、出力される特徴マップの各画素の特徴量から推定される矩形領域を示す領域情報を出力するとともに、複数の対象の種別のそれぞれについて、その矩形領域に各種別の対象が含まれる可能性を示す信頼度情報を出力する。領域情報は、例えば、矩形領域の中心座標並びに矩形領域の幅及び高さの情報である。信頼度情報は、例えば、対象の各種別に対応する、0以上1以下の値で示される複数の変数からなるベクトルであり、各変数は、その値が1に近いほど対応する種別の対象が含まれる可能性が高いことを示す。
【0067】
特徴層P203は、特徴層P202の出力データである特徴マップを入力として受け付ける。特徴層P203は、特徴層P202と同様に、畳み込み処理を実行し、入力データよりも小さいサイズの特徴マップ、並びに、その特徴マップについての領域情報及び信頼度情報を出力する。
【0068】
特徴層P203の次に、さらに任意の数の特徴層が設けられてもよい。
【0069】
後処理部P204は、各特徴層から出力された領域情報と信頼度情報とを入力として受け付ける。後処理部P204は、入力された信頼度情報に基づいて、各領域情報に示される矩形領域に何れかの種別の対象が含まれるか否か、及び、含まれる場合には何れの種別の対象が含まれるかを判定する。判定は、例えば、信頼度情報に含まれる各変数の値が所定値以上であるか否か、及び、所定値以上である変数が複数である場合には、何れの変数の値が最も大きいかに基づいて行われる。後処理部P204は、同一の種別の対象が含まれると判定され、且つ、領域が所定比率以上重複している複数の矩形領域を統合する。矩形領域の統合には、例えば、Non-Maximum Suppression等の方法が用いられる。これにより、一の対象に対して一の矩形領域が生成される。後処理部P204は、出力層を介して、生成された矩形領域の領域情報を対象の領域D4として出力するとともに、その矩形領域に対応する信頼度情報を対象の種別D5として出力する。
【0070】
(各種データのデータ構造)
図8は、学習装置2の第1記憶部21に記憶される学習用データ211のデータ構造の一例を示す図である。学習用データ211は、データIDと、学習用多値画像と、学習用認識結果とが関連付けられたデータである。なお、学習用多値画像は、学習用第1画像の一例である。
【0071】
データIDは、学習用多値画像と学習用認識結果との組み合わせを識別するための識別情報である。学習用多値画像には、画像を構成する各画素の階調値の情報が含まれる。図8に示す例では、各画素について、RGBの3チャネルのそれぞれについて0~255の階調値が記憶されている。学習用認識結果は、学習用多値画像に対して出力されるべきものとして予め設定された認識結果であり、対象の領域と対象の種別とを含む。対象の領域は、学習用多値画像において対象の像に外接する矩形領域を示す情報であり、例えば、矩形領域の中心座標並びに矩形領域の幅及び高さの情報である。対象の種別の情報は、対象の領域によって示される矩形領域に含まれる対象が、あらかじめ設定された複数の対象の種別の何れに該当するかを示す情報である。対象の種別は、例えば、該当する種別に対応する変数の値が1で、他の種別に対応する変数の値が0である、所謂one-hotベクトルである。なお、認識すべき対象の種別が一種類である場合、学習用認識結果は、対象の種別を含まなくてもよい。また、学習用多値画像に複数の対象が含まれる場合、各対象に対応する複数の対象の領域及び対象の種別の情報が含まれてもよい。
【0072】
学習用データ211は、あらかじめ学習装置2の管理者によって設定され、第1記憶部21に記憶される。
【0073】
(処理の流れ)
図9は、学習装置2によって実行される学習処理の流れの一例を示すフロー図である。学習処理は、第1記憶部21に記憶されたプログラムに従って、第1処理部23が学習装置2の各構成要素と協働することにより実現される。
【0074】
まず、学習用モデル取得手段231は、第1記憶部21から学習用モデルを取得する(S101)。学習用モデルは、変換器の出力が認識器の入力となるように結合されたCNNである。学習用モデル取得手段231は、取得された学習用モデルに含まれるフィルタの係数等のパラメータを、乱数等により初期化してもよい。
【0075】
続いて、学習用データ取得手段232は、第1記憶部21から学習用データ211を取得する(S102)。
【0076】
続いて、エッジ画像生成手段233は、学習用データ211に含まれる学習用多値画像からエッジ画像を生成する(S103)。エッジ画像は、エッジ画素の階調値と他の画素の階調値とが互いに異なる二値画像である。エッジ画像生成手段233は、学習用多値画像に対してCannyのエッジ検出方法を適用し、学習用多値画像からエッジ画素を検出する。エッジ画像生成手段233は、学習用多値画像において、検出されたエッジ画素の階調値を1に、他の画素の階調値を0に設定した画像をエッジ画像として生成する。
【0077】
なお、エッジ画像生成手段233は、ソーベルフィルタ等の公知のエッジ検出フィルタを用いてエッジ画像を生成してもよい。
【0078】
続いて、学習手段234は、学習用モデルに学習用多値画像を入力することにより、認識結果を生成する(S104)。認識結果は、学習用モデルから出力された対象物の領域及び対象物の種別である。認識結果は、学習用モデルのうちの変換器から出力された二値画像を含んでもよい。
【0079】
なお、学習手段234は、学習用モデルに、学習用多値画像にノイズを付加した画像を入力してもよい。これにより、学習装置2は、入力される多値画像にノイズが含まれていても適切に認識結果が出力されるように学習用モデルを学習させることができる。ただしこの場合、エッジ画像生成手段233は、ノイズを付加する前の学習用多値画像からエッジ画像を生成するのが良い。
【0080】
続いて、学習手段234は、生成された認識結果と学習用認識結果とに基づいて、誤差を算出する(S105)。誤差は、変換器の学習に用いられる、生成された認識結果と学習用認識結果との間の差の程度を示す指標であり、対象の領域に関する誤差と、対象の種別に関する誤差との重み付け和である誤差関数により算出される。対象の領域に関する誤差は、例えば、生成された認識結果の矩形領域と、学習用認識結果の矩形領域との間の中心座標、幅及び高さの二乗誤差又は対数二乗誤差等である。対象の種別に関する誤差は、例えば、生成された認識結果の対象の種別と、学習用認識結果の対象の種別との間の交差エントロピー誤差である。
【0081】
誤差関数には、さらに二値画像に関する誤差が含まれてもよい。二値画像に関する誤差は、認識結果に含まれる、学習用モデルの変換器から出力された二値画像と、学習用多値画像から生成されたエッジ画像との二乗誤差である。これにより、学習装置2は、変換器によって出力される二値画像をエッジ画像に近づけ、且つ、学習用モデルによって出力される認識結果を学習用認識結果に近づけるように学習用モデルを学習させる。学習装置2は、変換器によって出力される二値画像をエッジ画像に近づけることにより、画像認識システム1のユーザが二値画像における対象の像を視認しやすくする。
【0082】
二値画像に関する誤差は、二値画像と、エッジ画像をぼかした画像との二乗誤差でもよい。エッジ画像をぼかした画像は、エッジ画像に所定のフィルタ(例えば、ガウシアンフィルタ)を適用した画像である。また、二値画像に関する誤差は、二値画像のヒストグラムと、エッジ画像のヒストグラムとの二乗誤差でもよい。ヒストグラムは、例えば、各画像を所定のサイズの領域に区分した場合に、各領域に含まれる階調値が0である画素(又は、1である画素)の数を階級とし、各階級に対応する領域の数を度数とする度数分布である。ヒストグラムは、各画像における階調値の勾配の頻度を示すHOG(Histogram of Oriented Gradients)でもよい。
【0083】
二値画像とエッジ画像との間にエッジの位置や形状の微差があったとしても、そのような微差はユーザが二値画像における対象の像を視認する際には問題となりにくい。学習装置2は、エッジ画像をぼかした画像を用いることで、このようなエッジの位置や形状の微差を誤差関数に反映されにくくし、変換器の学習を容易にする。
【0084】
また、畳み込み層と、畳み込み層の出力に基づく入力に対して活性化関数を適用する活性化層とが含まれる変換器の学習に用いられる誤差関数には、畳み込み層において適用されるフィルタの係数のノルムが含まれてもよい。フィルタの係数のノルムは、例えば、係数の二乗和(L2ノルム)又はフィルタのスペクトルノルムである。
【0085】
フィルタの係数のL2ノルムが大きい場合、変換器の畳み込み層において適用されるフィルタの係数の絶対値が大きいため、変換器の活性化層P113に入力される特徴マップの特徴量の絶対値も大きくなりやすい。この場合、活性化層P113により適用される活性化関数がシグモイド関数であれば、活性化層P113の出力の特徴量の多くは0に近い値又は1に近い値を有し、中間である0.5に近い値を有しない。このような特徴量を有する特徴マップが閾値処理層P114に入力された場合、閾値処理層P114から出力される画像の全ての画素の階調値が0又は1となる可能性が高くなり、認識器の学習が行われず、学習速度が低下する。
【0086】
また、スペクトルノルムは、畳み込み層に対する入力である複数の特徴マップのL2ノルムに対する、各入力に対応する出力である特徴マップのL2ノルムの比のうち、最大のものである。スペクトルノルムが大きい場合、畳み込み層の出力データの特徴量の絶対値が大きいため、同様に、閾値処理層P114の出力が全ての画素の階調値が0又は1である画像となる可能性が高くなり、学習速度が低下する。
【0087】
学習装置2は、誤差関数にL2ノルム又はスペクトルノルムを加えることにより、L2ノルム又はスペクトルノルムの値を小さくするようにCNNを学習させる。これにより、学習装置2は、変換器から出力される二値画像の全ての画素の階調値が0又は1となる可能性を低減させ、学習速度を向上させることができる。なお、畳み込み層のフィルタのスペクトルノルムを誤差関数に加えるかわりに、スペクトルノルムが1となるように正規化したフィルタの係数を畳み込みで用いるようにしてもよい。
【0088】
また、誤差関数には、変換器から出力される二値画像を構成する画素のうち、階調値が1である画素の割合(又は、階調値が0である画素の割合)が含まれてもよい。また、誤差関数には、変換器から出力される二値画像を構成する各画素と、各画素に隣接する画素との間の階調値の二乗誤差が含まれてもよい。このようにすることで、変換器から出力される二値画像を圧縮する場合に、その圧縮効率を向上させることができる。
【0089】
続いて、学習手段234は、CNNのパラメータを更新する(S106)。学習手段234は、誤差逆伝播法を用いてCNNの各層の勾配を算出し、算出された勾配に基づく確率的勾配法により、誤差が小さくなるようにパラメータを更新する。更新されるパラメータは、畳み込み層において適用されるフィルタの係数並びに畳み込み層におけるバッチ正規化処理により補正された各特徴量の平均値及び分散値である。更新されるパラメータには、畳み込み層及び活性化層において活性化関数が適用される前に各特徴量に加えられるバイアス値が含まれてもよい。更新されるパラメータには、閾値処理層において適用される階段関数の閾値等が含まれてもよい。
【0090】
学習手段234は、変換器のパラメータを更新するための誤差逆伝播法を適用する際に、階段関数とは異なる他の関数の勾配を、変換器に含まれる、入力に対して階段関数を適用する閾値処理層P114の勾配として用いてもよい。他の関数は、勾配が0となる区間が階段関数よりも小さい関数であり、例えば、恒等関数又はシグモイド関数等である。このようにすることで、学習装置2は、誤差をより小さくするようにパラメータを更新し、学習速度を向上させることができる。すなわち、誤差逆伝播法においては、各層の勾配に基づいてその前の層の勾配を算出し、誤差の大きな要因となるパラメータを特定することによりパラメータを更新する。したがって、階段関数のように勾配が0である区間が支配的である関数を適用する層が存在する場合、その層より前の層において誤差の要因となるパラメータを特定することが難しくなる。学習装置2は、閾値処理層P114の勾配として、階段関数とは異なる、勾配が0となる区間が階段関数よりも小さい他の関数の勾配を用いることにより、誤差の要因となるパラメータの特定を容易にする。
【0091】
続いて、学習手段234は、学習の終了条件が満たされたか否かを判定する(S107)。学習の終了条件は、例えば、所定回数以上パラメータが更新されたこと、又は、更新後のパラメータの更新前のパラメータに対する変化量が所定値以下であること等である。
【0092】
終了条件が満たされていないと判定された場合(S107-No)、学習手段234は、S102に処理を進める。終了条件が満たされていると判定された場合(S107-Yes)、学習手段234は、CNNを学習済みモデルとして第1記憶部21に記憶し(S108)、一連の処理を終了する。
【0093】
このように、学習装置2は、変換器及び認識器を同時学習により生成する。これにより、学習装置2は、変換器を、認識器による対象物の認識精度が高い二値画像を出力するように学習させることを可能とする。
【0094】
図10は、画像認識システム1によって実行される画像認識処理の流れの一例を示すシーケンス図である。画像認識処理は、第1記憶部21、第2記憶部31及び第3記憶部41に記憶されたプログラムに基づいて、第1処理部23、第2処理部34及び第3処理部43が各装置の構成要素と協働することにより実現される。
【0095】
まず、学習装置2の出力手段235は、第1通信部22を介して、変換器及び識別器を撮像装置3及び認識装置4に対して出力する(S201)。出力手段235は、第1記憶部21に記憶された学習済みモデルであるCNNを分離することにより変換器及び認識器を生成する。出力手段235は、第1通信部22を介して、変換器を撮像装置3に、認識器を認識装置4にそれぞれ送信する。撮像装置3は、変換器を受信して第2記憶部31に記憶する。認識装置4は、認識器を受信して第3記憶部41に記憶する。
【0096】
続いて、撮像装置3の撮像手段341は、撮像部33を制御して、建物内の一室を撮像して多値画像を生成する(S202)。
【0097】
続いて、変換手段342は、生成された多値画像を二値画像に変換する(S203)。変換手段342は、第2記憶部31に記憶された変換器に多値画像を入力し、二値画像を出力させることにより多値画像を二値画像に変換する。
【0098】
続いて、二値画像出力手段343は、第2通信部32を介して、二値画像を伝送網6に対して出力する(S204)。二値画像出力手段343は、二値画像に所定の可逆圧縮技術を適用して出力してもよい。これにより、撮像装置3は、二値画像の伝送容量を抑えることができる。
【0099】
続いて、認識装置4の二値画像取得手段431は、第3通信部42を介して、二値画像を伝送網6から取得する(S205)。
【0100】
続いて、認識手段432は、二値画像に対する認識結果を生成する(S206)。認識手段432は、第3記憶部41に記憶された認識器に二値画像を入力し、認識結果を出力させることにより認識結果を生成する。
【0101】
続いて、認識結果出力手段433は、第3通信部42を介して、生成された認識結果を表示装置5に対して出力し(S207)、一連の処理を終了する。例えば、認識結果出力手段433は、表示装置5が認識結果に基づく認識結果画面700を表示するための表示データを表示装置5に送信する。
【0102】
図11は、表示装置5に表示される認識結果画面700の一例を示す図である。認識結果画面700は、二値画像710と、対象の像711と、外接矩形720と、種別表示オブジェクト721とを含む。
【0103】
二値画像710は、撮像装置3によって生成された二値画像である。図11に示す例では、階調値が1及び0である画素がそれぞれ黒及び白で示されている。対象の像711は、図11に示す例では、人の全身画像である。外接矩形720は、認識装置4によって生成された対象の領域に基づいて表示される、対象の像711に外接する矩形のオブジェクトである。種別表示オブジェクト721は、認識装置4によって生成された対象の種別に基づいて表示される、対象の種別を文字等により示すオブジェクトである。種別表示オブジェクト721は、例えば、認識装置4によって生成された対象の種別に含まれる各変数のうち、最も値が大きい変数に対応する対象の種別を示す。
【0104】
以上説明したように、画像認識システム1において、学習装置2は、変換器の出力が認識器の入力となるように結合されたCNNを学習させる。そして、撮像装置3は、学習済みモデルである変換器により多値画像を二値画像に変換し、認識装置4は、学習済みモデルである認識器により二値画像に対する認識結果を生成する。このようにすることで、画像認識システム1は、画像認識の精度を保ちながら、画像認識の対象である画像のデータ容量を安定して削減することを可能とする。
【0105】
なお、上述した説明では、変換器の入力は複数のチャネルを有する画像であるものとしたが、変換器の入力は、1チャネルの画像(例えば、グレースケール画像)でもよい。
【0106】
また、上述した説明では、変換器の出力は1チャネルの二値画像であるものとしたが、これに限られない。変換器は、入力である多値画像の各チャネルに対応する複数の二値画像を出力してもよい。例えば、入力である多値画像がRGBの3チャネルを有する場合、変換器は、Rチャネルに対応する二値画像、Gチャネルに対応する二値画像、及び、Bチャネルに対応する二値画像をそれぞれ生成する。
【0107】
この場合、認識器は、複数の二値画像を入力として受け付ける。また、エッジ画像生成手段233は、学習用多値画像の各チャネルの階調値に基づいて、各チャネルに対応するエッジ画像をそれぞれ生成する。このようにすることで、認識器の認識精度が向上する。
【0108】
また、変換器の出力は、変換器に入力される多値画像よりも小さい階調範囲の多値画像でもよい。これにより、認識器における認識精度が向上する。
【0109】
また、上述した説明では、画像認識システム1は、それぞれ1つの撮像装置3及び認識装置4を有するものとしたが、これに限られない。画像認識システム1は、複数の撮像装置3又は認識装置4を有してもよい。この場合、学習装置2は、複数の撮像装置3のそれぞれに変換器を出力し、又は、複数の認識装置4のそれぞれに認識器を出力する。
【0110】
また、撮像装置3又は認識装置4により学習装置2又は表示装置5の機能が実現されてもよい。
【0111】
また、上述した説明では、物体の領域または物体の領域と種別を認識する認識器とそれに対応した変換器を例示したが、人の年齢や性別等の属性を認識する認識器とそれに対応した変換器であってもよいし、人又は車両の混雑度合い又は姿勢等の状態を認識する認識器とそれに対応した変換器であってもよく、種々の対象の画像認識に適用できる。なお、それらの場合、対象に応じた学習用認識結果を設定して学習を行うことになる。
【0112】
当業者は、本発明の精神および範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。例えば、上述した各部の処理は、本発明の範囲において、適宜に異なる順序で実行されてもよい。また、上述した実施形態及び変形例は、本発明の範囲において、適宜に組み合わせて実施されてもよい。
【符号の説明】
【0113】
1 画像認識システム
2 学習装置
231 学習用モデル取得手段
232 学習用データ取得手段
233 エッジ画像生成手段
234 学習手段
235 出力手段
3 撮像装置
341 撮像手段
342 変換手段
343 二値画像出力手段
4 認識装置
431 二値画像取得手段
432 認識手段
433 認識結果出力手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11