(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-16
(45)【発行日】2023-01-24
(54)【発明の名称】摂動画像データに対応した画像識別装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230117BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2019117196
(22)【出願日】2019-06-25
【審査請求日】2021-06-01
【前置審査】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】田坂 和之
(72)【発明者】
【氏名】菅野 勝
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2018-60296(JP,A)
【文献】国際公開第2019/087033(WO,A1)
【文献】Nicholas Carlini, 外1名,"Towards Evaluating the Robustness of Neural Networks",2017 IEEE Symposium on Security and Privacy (SP),2017年05月22日,p.39-57
【文献】Nicolas Papernot, 外5名,"The Limitations of Deep Learning in Adversarial Settings",2016 IEEE European Symposium on Security and Privacy (EuroS&P),2016年03月21日,p.372-387
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
前記学習モデルは、
前記画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、該ある画像データに対応するクラスに係る情報との組と、
(b)前記ある画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含むデータであって、当該摂動画像データに係る組については当該摂動画像データを当該ターゲットクラスに分類させる方向に学習を進めることが可能となっているデータを学習データとし、
前記クラス情報出力部における最後段であって、最終的な推定結果としての当該クラスに係る情報をモデル外部の前記情報生成手段へ提供することになる最後段における全部の出力をもって、前記学習データを用いた訓練が行われて
おり、
前記画像識別装置は、
前記学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする
画像識別装置。
【請求項2】
学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
前記学習モデルは、
前記画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、該ある画像データに対応するクラスに係る情報との組と、
(b)前記ある画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル(Adversarial Examples)としての画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含むデータであって、当該摂動画像データに係る組については当該摂動画像データを当該ターゲットクラスに分類させる方向に学習を進めることが可能となっているデータを学習データとし、
前記クラス情報出力部における最後段であって、最終的な推定結果としての当該クラスに係る情報をモデル外部の前記情報生成手段へ提供することになる最後段における全部の出力をもって、前記学習データを用いた訓練が行われて
おり、
前記画像識別装置は、
前記学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする
画像識別装置。
【請求項3】
当該摂動画像データは、前記画像データの画像単位毎において、当該画像単位での当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えることによって生成されることを特徴とする請求項1又は2に記載の
画像識別装置。
【請求項4】
当該摂動画像データは、JSMA(Jacobian-based Saliency Map Approach)法を用いて生成されたアドバーサリアル・イグザンプルであることを特徴とする請求項1から3のいずれか1項に記載の
画像識別装置。
【請求項5】
学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
前記学習モデルは、
前記画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、該ある画像データに対応するクラスに係る情報との組と、
(b)前記ある画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて訓練されており、
当該ある画像データは、情報表示体を含む画像に係るデータであって、当該ある画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であ
り、
前記画像識別装置は、
前記学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする
画像識別装置。
【請求項6】
学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
前記学習モデルは、
前記画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、該ある画像データに対応するクラスに係る情報との組と、
(b)前記ある画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル(Adversarial Examples)としての画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて訓練されており、
当該ある画像データは、情報表示体を含む画像に係るデータであって、当該ある画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であ
り、
前記画像識別装置は、
前記学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする
画像識別装置。
【請求項7】
当該情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、
当該ある画像データは、表示された当該表示画像を撮影することによって生成され、
当該摂動画像データは、当該表示画像を撮影することによって生成された当該ある画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、前記ディスプレイに表示された表示画像を撮影することによって生成される
ことを特徴とする請求項5又は6に記載の
画像識別装置。
【請求項8】
当該情報表示体は、当該情報表示体によって表示される情報の印刷された印刷部分を含み、
当該ある画像データは、当該印刷部分を撮影することによって生成され、
当該摂動画像データは、当該印刷部分を撮影することによって生成された当該ある画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したものを撮影することによって生成される
ことを特徴とする請求項5又は6に記載の
画像識別装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識・識別のための学習モデルを生成する技術に関する。
【背景技術】
【0002】
現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラで撮影され生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。
【0003】
ここで、この対象識別処理は多くの場合、対象検出用に学習を行った物体検出器を用いて実施される。このような物体検出器を利用した例として、非特許文献1は、畳み込みニューラルネットワーク(CNN,Convolutional Neural Network)を用いて、画像に含まれる対象における存在位置やその種別を推定する技術を開示している。
【0004】
また、特許文献1には、CNNを用い、特定物体の検出処理の高速化を図った物体検出技術が開示されている。この技術では具体的に、畳み込み計算を行うニューラルネットワークを1層以上備えており特徴マップを出力する特徴抽出部と、この特徴マップに対しスライディングウィンドウ処理を実行して複数の特徴マップウィンドウを出力するスライディングウィンドウ部と、これらの特徴マップウィンドウ内に特定の物体が含まれるか否かを判定する識別部とを備えている。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, “SSD: single shot multibox detector”, European Conference on Computer Vision, Computer Vision-ECCV 2016, 2016年, 21~37頁
【発明の概要】
【発明が解決しようとする課題】
【0007】
以上に説明したような従来の画像識別技術においては、識別対象の種別(クラス)を推定しようとする場合において基本的に、1つの識別対象に対し、正解となる1つの種別(クラス)を割り当てて、その対応関係を学習した学習モデルを生成し、この学習モデルを用いて識別処理を行っている。
【0008】
これに対し、本願発明者等は、1つの識別対象を撮影した画像データに関し、意図的に異なる識別結果を導出することはできないかを考えた。すなわち、1つの識別対象に係る画像データに対し、人の視覚では捉えることが困難な程度の調整を行い、調整後の画像データについては、本来の対象の種別(クラス)とは異なる識別結果を導出することができるのではないかと考えた。
【0009】
これにより、画像データ中により多くの情報を意図的に仕込むことも可能となり,このような画像データを識別させることによって、結果的により多様な情報を提供することもできるのである。また例えば、このような画像データをサーバにアップロードし、このサーバで識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となるのである。
【0010】
そこで、本発明は、1つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することを可能にする学習モデル、学習データ、学習モデル・データ生成方法、及び識別装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
上記の学習モデルは、
本画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、このある画像データに対応するクラスに係る情報との組と、
(b)上記のある画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含むデータであって、当該摂動画像データに係る組については当該摂動画像データを当該ターゲットクラスに分類させる方向に学習を進めることが可能となっているデータを学習データとし、
クラス情報出力部における最後段であって、最終的な推定結果としての当該クラスに係る情報をモデル外部の情報生成手段へ提供することになる最後段における全部の出力をもって、上記の学習データを用いた訓練が行われており、
本画像識別装置は、
上記の学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする画像識別装置が提供される。
【0012】
本発明によれば、また、学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
上記の学習モデルは、
本画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、このある画像データに対応するクラスに係る情報との組と、
(b)上記のある画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル(Adversarial Examples)としての画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含むデータであって、当該摂動画像データに係る組については当該摂動画像データを当該ターゲットクラスに分類させる方向に学習を進めることが可能となっているデータを学習データとし、
クラス情報出力部における最後段であって、最終的な推定結果としての当該クラスに係る情報をモデル外部の情報生成手段へ提供することになる最後段における全部の出力をもって、上記の学習データを用いた訓練が行われており、
本画像識別装置は、
上記の学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする画像識別装置が提供される。
【0013】
ここで、これらの本発明による画像識別装置において、当該摂動画像データは、前記画像データの画像単位毎において、当該画像単位での当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えることによって生成されることも好ましい。
【0014】
さらに、当該摂動画像データは、JSMA(Jacobian-based Saliency Map Approach)法を用いて生成されたアドバーサリアル・イグザンプルであることも好ましい。
【0015】
また、本発明によれば、学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
上記の学習モデルは、
本画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、このある画像データに対応するクラスに係る情報との組と、
(b)上記のある画像データの画像単位に係る値に対し所定の摂動を与えることによって生成された、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて訓練されており、
当該ある画像データは、情報表示体を含む画像に係るデータであって、当該ある画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であり、
本画像識別装置は、
上記の学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする画像識別装置が提供される。
さらに、本発明によれば、学習モデルを用いて入力された画像データに係る推定を行う画像識別装置であって、
上記の学習モデルは、
本画像識別装置で取得された画像データを入力として、入力された画像データの特徴に係る特徴情報を生成し出力する特徴情報出力部と、
出力された特徴情報を入力として、入力された特徴情報に係る画像データに対応するクラスに係る情報であって、コンピュータの一機能としての情報生成手段で用いられるクラスに係る情報を生成し出力するクラス情報出力部と
してコンピュータを機能させ、
(a)ある画像データと、このある画像データに対応するクラスに係る情報との組と、
(b)上記のある画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたアドバーサリアル・イグザンプル(Adversarial Examples)としての画像データである摂動画像データと、当該ターゲットクラスに係る情報との組と
を含む学習データを用いて訓練されており、
当該ある画像データは、情報表示体を含む画像に係るデータであって、当該ある画像データに対応するクラスに係る情報は、当該情報表示体に係る情報であり、当該ターゲットクラスに係る情報は、当該情報表示体によって表示される情報に係る情報であり、
本画像識別装置は、
上記の学習モデルに対し、識別対象の画像データを入力し、当該識別対象の画像データに対応するクラス又はターゲットクラスを推定する
ことを特徴とする画像識別装置が提供される。
【0016】
またこれらの本発明による画像識別装置において、当該情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、
当該ある画像データは、表示された当該表示画像を撮影することによって生成され、
当該摂動画像データは、当該表示画像を撮影することによって生成された当該ある画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、ディスプレイに表示された表示画像を撮影することによって生成されることも好ましい。
【0017】
さらにこれらの本発明による画像識別装置において、当該情報表示体は、当該情報表示体によって表示される情報の印刷された印刷部分を含み、
当該ある画像データは、当該印刷部分を撮影することによって生成され、
当該摂動画像データは、当該印刷部分を撮影することによって生成された当該ある画像データの画像単位毎に、当該画像単位における当該ターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、当該ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したものを撮影することによって生成されることも好ましい。
【発明の効果】
【0022】
本発明の学習モデル、学習データ、学習モデル・データ生成方法、及び識別装置によれば、1つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することができる。
【図面の簡単な説明】
【0023】
【
図1】本発明に係る学習モデル生成装置及び画像識別装置を備えたモデル生成・画像認識システムの一実施形態を説明するための模式図及び機能ブロック図である。
【
図2】本発明に係る学習データ生成処理及び学習モデル生成処理の一実施形態を説明するための模式図である。
【
図3】本発明に係る画像識別処理の一具体例を説明するための模式図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0025】
[モデル生成・画像認識システム]
図1は、本発明に係る学習モデル生成装置及び画像識別装置を備えたモデル生成・画像認識システムの一実施形態を説明するための模式図及び機能ブロック図である。
【0026】
図1に示した本実施形態のモデル生成・画像認識システムは、
(a)(本実施形態において移動可能な)画像識別装置である1つ以上の端末20と、
(b)端末20(又は画像データベース)から取得された画像データに基づいて学習モデルを生成可能な学習モデル生成装置であるクラウドサーバ1と
を有し、クラウドサーバ1において、この後説明する「摂動画像データ」を用いた「学習モデル」が生成されて、端末20に供給され、端末20は、この「学習モデル」を用いて画像識別処理を実施する。
【0027】
ここで、上記(a)の端末20は本実施形態において、通信機能を有するドライブレコーダであり、自動車2における例えば車両前方を撮影可能な位置(例えばダッシュボード上部)に設置されている。さらに、各端末20は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ1と無線通信接続が可能となっており、学習モデル生成のための画像データ(映像データ,画像フレーム群)をクラウドサーバ1へ送信することができる。
【0028】
一方、上記(b)のクラウドサーバ1は学習モデル生成部114を有し、上述したように「学習モデル」を生成するが、この「学習モデル」は、
(A)画像データと、この画像データに対応するクラスに係る情報との組と、
(B)上記(A)の画像データから生成された「摂動画像データ」と、新たな分類先としてのターゲットクラスに係る情報との組と
を含む学習データを用いて構築されるものとなっている。
【0029】
このうち上記(B)の「摂動画像データ」は、上記(A)の画像データの画像単位に係る値(例えばピクセル値)に対し所定の摂動を与えることによって生成される画像データであり、新たな分類先としてのターゲットクラスに分類される確率を高めた画像データとなっている。
【0030】
より具体的に「摂動画像データ」は、例えばアドバーサリアル・イグザンプル(Adversarial Examples)とすることができる。すなわちこの場合、「摂動画像データ」は、上記(A)の画像データから生成した、新たな分類先としてのターゲットクラスに分類される確率を高めたAdversarial Examplesとなる。
【0031】
ここで、Adversarial Examplesは、画像認識の分野においては、元の画像に対して人の視覚では捉えることが困難な程度の微小な変更(摂動)を与えることで生成される画像のことであり、機械学習による識別器を誤動作させる有害な画像として、現在Adversarial Examples対策の研究が精力的に行われている。ちなみにAdversarial Examplesは、例えば非特許文献:Christian Szegedy et al., "Intriguing properties of neural networks", Cornell University Library,Subjects: Computer Vision and Pattern Recognition (cs.CV), Cite as: arXiv:1312.6199, 2013年において詳細に解説されている。
【0032】
いずれにしても従来、画像認識技術にとって、Adversarial Examplesは有害な存在であり、対策を講じるべき脅威であったところ、本実施形態では、敢えて学習データにAdversarial Examplesを取り込んで「学習モデル」を生成し、推定クラスの多様性を図っているのである。
【0033】
また、画像識別装置としての端末20は、このような特徴的な「学習モデル」を利用し、例えばカメラ202で撮影し生成された画像データから、
(a)当該画像データに本来対応するクラス、及び
(b)当該画像データから生成された「摂動画像データ」に対応するターゲットクラス
のうちの一方を出力(推定)し分けることを可能にするのである。
【0034】
例えば、後に詳細に説明するが、撮影され生成された画像データからクラス"看板"が出力されるような「看板」に対し、この「看板」の表示画像に対して摂動を付与した摂動表示画像を表示した摂動看板「看板*」を作製してもよい。ここで、これらの「看板」及び「看板*」は、人の視覚では区別が困難となっている。また、ターゲットクラスは例えば"死亡事故現場の看板"に設定される。
【0035】
次いで、これらの「看板」と「看板*」とを場所によって設置し分けることによって、
(a)所定場所の「看板」を撮影した端末20は、「学習モデル」による画像識別結果としてのクラス"看板"を決定してこの決定結果を利用し、一方、
(b)別の所定場所の「看板*」を撮影した端末20は、同様に「学習モデル」による画像識別結果としてのクラス"死亡事故現場の看板"を、例えばディスプレイ203に表示してユーザに通知する
ことも可能となるのである。
【0036】
すなわち、人に対しては同様の情報を提供する「看板」及び「看板*」を用いて、端末20(のユーザ)に対し提供する情報を多様化することができる。このように、以上に説明した「学習モデル」を用いることによって、1つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することが可能となるのである。
【0037】
また、適用する実施形態によっては、画像データ中により多くの情報を意図的に仕込むことも可能となり、このような画像データを識別させることによって、結果的により多様な情報を提供することもできる。具体的には、2つ以上の(さらには多数の)ターゲットクラスを学習した「学習モデル」も生成可能であり、また、これらのターゲットクラスには種々様々な事項を採用することが可能となっている。例えば、複数のターゲットクラスのそれぞれを、「看板」に記載された複数種の文字情報とすれば、ターゲットクラスの出力によって文字認識を実施したような結果まで得られるのである。
【0038】
さらに、
図1とは別の実施形態となるが、画像データを端末からクラウドサーバにアップロードし、このクラウドサーバで画像識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となるのである。すなわち状況によっては、端末からの伝送映像データ量の低減を図ることも可能となる。
【0039】
ちなみに、端末20は当然に、自動車2に設置された車載装置(ドライブレコーダ)に限定されるものではなく、例えば自転車、鉄道車両や、ロボット、ドローン等の移動体に設置された(又は搭乗した)ものとすることができる。また、HMD(Head Mounted Display)やグラス型端末等のウェアラブル端末であってもよい。さらには、移動可能ではない(非モバイルである)パーソナル・コンピュータ(PC)等の情報処理装置とすることも可能である。また、上述したようにクラウドサーバ1が画像識別機能も備えており、端末20は、カメラ202で撮影された画像データをクラウドサーバ1へアップロードし、クラウドサーバ1から画像識別結果を取得するような実施形態をとることも可能である。
【0040】
[学習モデル生成装置の機能構成,学習モデル生成方法]
図1に示した機能ブロック図によれば、クラウドサーバ1は、通信インタフェース101と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る学習モデル生成プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この学習モデル生成プログラムを実行することによって、学習モデル生成処理を実施する。
【0041】
このことから、本発明に係る学習モデル生成装置として、本クラウドサーバ1に代えて、本発明による学習モデル生成プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。
【0042】
例えば、端末20に本発明に係る学習モデル生成プログラムを搭載し、当該端末20を本発明による学習モデル生成装置とすることもできる。また、本発明による学習モデル生成装置を、端末20とともに自動車2に設置する実施形態も可能となるのである。
【0043】
さらに、プロセッサ・メモリは、画像取得部111と、摂動画像生成部112と、学習データ生成部113と、学習モデル生成部114とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された学習モデル生成プログラムの機能と捉えることができる。また、
図1におけるクラウドサーバ1の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る学習モデル生成方法の一実施形態としても理解される。
【0044】
同じく
図1の機能ブロック図において、画像取得部111は、「学習モデル」を生成するための学習データに含まれる画像データを収集して保存し、当該画像データを、学習データ生成のために適宜出力する画像データ管理手段である。画像取得部111は例えば、各端末20から通信インタフェース101を介して多数の画像データを取得することができる。また、外部の画像データベースから、クラス情報のタグが付与された多数の画像データを取得してもよい。
【0045】
摂動画像生成部112は、「学習モデル」を生成するための学習データに含まれる「摂動画像データ」を生成する。具体的に本実施形態において、「摂動画像データ」は、画像取得部111から取り込んだ、元となる画像データの画像単位(例えばピクセル)毎において、
(a)当該画像単位(ピクセル)でのターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、さらに
(b)当該画像単位(ピクセル)でのターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、
当該画像単位に係る値(ピクセル値)に対し所定の摂動を与えることによって生成される。
【0046】
ここで、上記(a)及び(b)の「確率」は、「学習モデル」を適用した識別器から出力される値であり、またこの「確率」(識別器の出力)の勾配は、画像単位の値(ピクセル値,すなわち識別器への入力)の変動に対する変化の割合である。したがってより具体的に「摂動画像データ」は、例えばJSMA(Jacobian-based Saliency Map Approach)法を用いて生成されたAdversarial Examplesとすることができる。
【0047】
このJSMA法においては、最初に、Xiを画像単位iの値(例えばピクセルiの値,識別器への入力)とし、∂iをXiによる偏微分(すなわち∂/∂Xi)とし、Ft(X)をターゲットクラスtに分類される確率(識別器の出力)とし、Fj(X)をクラスjに分類される確率(識別器の出力)とし、さらにΣj/=tをt以外のjについての総和(summation)として、
∂iFt(X)<0、又はΣj/=t∂iFj(X)>0である場合に、
(1) S(X, t)[i]=0となり、
∂iFt(X)≧0、且つΣj/=t∂iFj(X)≦0である場合に、
(2) S(X, t)[i]=∂iFt(X)×|Σj/=t∂iFj(X)|となる
ようなS(X, t)[i]を、画像単位i毎(ピクセルi毎)に算出し、Adversarial Saliency Map:{S(X, t)[i]}を生成する。
【0048】
次いで、S(X, t)値の大きな画像単位i(ピクセルi)に対してXiに摂動を付与する処理を行う。これにより、t以外のjについての確率Fjを小さくしつつt(ターゲットクラス)についての確率Ftを大きくして、結果的に、識別器が入力をターゲットクラスtに(誤)分類し易くなるのである。ここで実際の処理では、ターゲットクラスtに(誤)分類されるまで、又は摂動の大きさが所定の上限に達するまで、摂動を増分させつつ付与することが繰り返される。
【0049】
なお、以上に述べたJSMA法は、例えば非特許文献:Nicolas Papernot et al., "The Limitations of Deep Learning in Adversarial Settings", Cornell University Library,Subjects: Cryptography and Security (cs.CR), Cite as: arXiv: 1511.07528, 2015年において詳細に解説されている。
【0050】
同じく
図1の機能ブロック図において、学習データ生成部113は、
(a)画像データと、この画像データに対応する正解としてのクラスとの(複数の)組と、
(b)上記(a)の画像データから生成された摂動画像データと、この摂動画像データ生成の際に設定されたターゲットクラスとの(複数の)組と
を含む学習データを生成する。ここで、上記(a)のクラスについては、予めクラスのタグ付けされた画像データを利用してもよく、公知の手法でタグ付けしてもよい。
【0051】
ちなみに従来、Adversarial Examplesは有害データとして取り扱われ、Adversarial Examplesを学習データに含ませるにしても、識別器のロバスト性を高め本来の正解のクラスを出力させることを目的としたものであった。これに対し、本実施形態は、それとは全く逆に、摂動画像データを積極的に学習に取り入れ、推定クラスの多様化した「学習モデル」を生成可能な学習データを構成するものとなっている。
【0052】
また、上記(a)の画像データ及びクラスの組は、1つのクラスに係る組に限定されず、互いに異なる複数のクラスに係る組を用意してもよい。さらに、上記(b)の摂動画像データ及びターゲットクラスの組も、1つのターゲットクラスに係る組に限定されず、互いに異なる複数のターゲットクラスに係る組を用意することも可能である。
【0053】
学習モデル生成部114は、学習データ生成部113で生成された学習データを用いて「学習モデル」を生成する。ここで機械学習アルゴリズムとして、画像認識用に広く使用されているディープニューラルネットワーク(DNN,Deep Neural Network)や、SVM(Support Vector machine)、さらにはランダムフォレスト(Random Forest)等、種々のアルゴリズムが適用可能である。いずれにしても、画像データが入力されて識別結果が出力される識別器を構成するアルゴリズムならば、種々のものを採用することができる。
【0054】
具体的に1つの実施態様として、学習モデル生成部114は、
(a)(摂動)画像データを入力してこれらの特徴に係る特徴情報を出力する第1NNとしての畳み込み層部(Convolutional Layers)と、
(b)畳み込み層部から出力された特徴情報を入力してクラスに係る情報を出力する第2NNとしての全結合層部(Fully-Connected Layers)と
を含む識別器を構成し、これに対し学習データを用いて学習処理を行って「学習モデル」を生成してもよい。
【0055】
ここで、上記(a)の畳み込み層部は、画像データに対しカーネル(重み付け行列フィルタ)をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこの畳み込み層部として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。
【0056】
このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ(一定領域内の畳み込みフィルタの反応)を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。
【0057】
また他の実施態様として、学習モデル生成部114は、畳み込み層を含む畳み込みニューラルネットワーク(CNN,Convolutional Neural Network)の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン(SVM)を接続した構成の識別器を構成し、これに対し学習データを用いて学習処理を行って「学習モデル」を生成することも可能である。
【0058】
いずれにしても学習モデル生成部114は、生成した「学習モデル」を、通信インタフェース101を介して、例えば画像識別装置である端末20へ送信することができる。
【0059】
図2は、本発明に係る学習データ生成処理及び学習モデル生成処理の一実施形態を説明するための模式図である。
【0060】
図2(A)(学習フェーズ)に示したように、本実施形態において学習データ生成部113は、
(a)画像データが、看板、ポスタや、電光掲示装置といったディスプレイ装置等を含む情報表示体(
図2では看板)を画像内に含む画像データであって、クラスが、この情報表示体に係る情報(
図2では"看板")であり、
(b)摂動画像データが、上記(a)の情報表示体(看板)を含む画像データに対しJSMA法による摂動付与処理を施したデータ(
図2では*印付きのデータ)であって、ターゲットクラスが、この情報表示体(看板)によって表示される情報(
図2では「注意・死亡事故現場」との文字情報)に係る情報("死亡事故現場の看板")である
ような学習のためのデータを含む学習データを生成する。
【0061】
なお上記(b)において、ターゲットクラス(当該情報表示体によって表示される情報に係る情報)は、所定の(例えば交通死亡事故ゼロキャンペーンに係る)ウェブページのURL(Uniform Resource Locator)としてもよい。その他、ターゲットクラスとして、情報表示体に表示された情報以外にユーザへ伝達したい情報を設定することが可能となっている。
【0062】
次いで、以上述べたように生成された学習データを用いて、学習モデル生成部114は「学習モデル」を生成し、生成した「学習モデル」を端末20の識別部212へ供給する。この後、
図2(B)(実行フェーズ)に示したように、識別部212は、取得した「学習モデル」を用いて入力画像データのクラスを推定するのである。
【0063】
ここで、情報表示体が、
図2の看板のように、当該情報表示体によって表示される情報の印刷された印刷部分を含み、画像データは、この印刷部分を撮影することによって生成される場合を考える。この場合、変更態様として、上記(b)の摂動画像データは、この印刷部分を撮影することによって生成された画像データの画像単位毎に、当該画像単位におけるターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る画像を、所定の基体に印刷したもの(「摂動印刷体」)を撮影することによって生成されたものであってもよい。
【0064】
なお以上に述べたように、情報表示体が当該情報の印刷された印刷部分を含む場合、いずれにしても、識別部212へ摂動画像データを提供することになる情報表示体は、上記の「摂動印刷体」とすることができる。
【0065】
さらに、情報表示体は、当該情報表示体によって表示される情報が表示画像としてディスプレイに表示されるディスプレイ装置であり、画像データは、表示された表示画像を撮影することによって生成される場合を考える。この場合、更なる変更態様として、上記(b)の摂動画像データは、この表示画像を撮影することによって生成された画像データの画像単位毎に、当該画像単位におけるターゲットクラスに分類される確率の勾配が所定条件を満たすだけ大きく、ターゲットクラス以外に分類される確率の勾配が所定条件を満たすだけ小さければ、当該画像単位に係る値に対し所定の摂動を与えて生成された画像データに係る表示画像であって、本ディスプレイ装置に表示された表示画像を撮影することによって生成されたものであってもよい。
【0066】
ちなみに、上記のように情報表示体がディスプレイ装置である場合の具体例は、後に
図3を用いて詳細に説明を行う。
【0067】
[画像識別装置の機能構成,画像識別方法]
同じく
図1に示した機能ブロック図によれば、端末20は、通信インタフェース201と、カメラ202と、ディスプレイ(DP)203と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像識別プログラムを実行することによって、画像識別処理を実施する。
【0068】
このことから、本発明に係る画像識別装置として、ドライブレコーダである本端末20に代えて、本発明に係る画像識別プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えた又はカメラと接続されたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ(PC)等を採用することも可能となる。また、ドライブレコーダとWi-Fi(登録商標)やBluetooth(登録商標)等で通信接続された端末、例えばスマートフォンを本画像識別装置としてもよい。
【0069】
さらに、プロセッサ・メモリは、映像生成部211と、識別部212と、提示情報生成部213とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像識別プログラムの機能と捉えることができる。また、
図1における端末20の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像識別方法の一実施形態としても理解される。
【0070】
同じく
図1の機能ブロック図において、映像生成部211は、カメラ202から出力された撮影データに基づいて映像データ(画像フレーム群)を生成する。本実施形態において端末20はドライブレコーダであり、映像生成部211は通常、デフォルトの設定として少なくとも自動車2の走行時は常に、車外の状況を撮影した撮影データをカメラ202から取得し、映像データ(画像フレーム群)を生成している。
【0071】
識別部212は、通信インタフェース201を介してクラウドサーバ1から取得した「学習モデル」を用いて画像データの識別処理を実施する識別器を備えており、映像生成部211で生成されたクラス推定対象としての画像データ(画像フレーム)をこの識別器に入力して、推定されるクラスを出力させる。
【0072】
ここで、
図2(A)(学習フェーズ)を用いて説明した「学習データ生成処理」及び「学習モデル生成処理」の続きとしての「画像識別処理」を、
図2(B)(実行フェーズ)を用いて説明する。
【0073】
図2(B)(実行フェーズ)に示したように、識別部212は、クラウドサーバ1の学習モデル生成部114で生成された「学習モデル」を用い、入力された識別対象である画像データに対し識別処理、具体的にはクラス推定処理を実施する。
【0074】
例えば、識別部212は、入力画像データが情報表示体(
図2では看板)の画像を含む場合、クラスとして、この情報表示体に係る情報(
図2では"看板")を出力する。一方、入力画像データが摂動画像データ(
図2では*印付きのデータ)である場合、クラスとして、この摂動画像データに係るターゲットクラス(
図2では"死亡事故現場の看板"又は"所定ウェブページのURL")を出力する。これにより、1つの識別対象(
図2では看板)に係る画像データから、識別結果として互いに異なる情報を導出することが可能となるのである。
【0075】
また、以上に説明した
図2の具体例から理解されるように、「学習モデル」を取り込んだ識別部212は、対象(
図2では看板)の種類の識別処理を実施可能であるのみならず、ターゲットクラスの設定次第によっては結果的に、対象に係る文字(
図2では看板の文字)を認識する処理に相当する処理を実施することも可能となっているのである。
【0076】
図1の機能ブロック図に戻って、提示情報生成部213は、カメラ202で撮影され映像生成部211で生成された画像データについて、識別部212で推定されたクラス情報に基づき、ユーザに伝達すべき提示情報を生成してディスプレイ203に表示させる。例えば、ディスプレイ203に表示されたリアルタイムの進行方向の映像において、看板が表示映像内に出現した際、この看板映像部分の近傍に「看板有り」との吹き出し画像を表示させてもよい。
【0077】
また、摂動画像データ相当の看板(例えば
図2における*印付きの看板)が表示映像内に出現した際、識別部212から出力される(推定されたターゲットクラスとしての)URLに係る交通死亡事故ゼロキャンペーンのウェブページを併せて表示させ、ユーザに注意喚起を行うことも好ましい。
【0078】
さらに、例えばディスプレイ203がタッチパネルも備えている場合、提示情報生成部213は、表示された道路マップにおける摂動画像データ相当の看板が識別された位置の近傍に(危険をイメージさせる)アイコンを表示させ、当該アイコンがタップされた際、当該URLに係る交通死亡事故ゼロキャンペーンのウェブページをディスプレイ203に表示させてもよい。
【0079】
図3は、本発明に係る画像識別処理の一具体例を説明するための模式図である。
【0080】
図3に示した本具体例では、識別対象となる画像を表示可能なディスプレイ装置としての電光掲示板3が利用される。電光掲示板3は、ディスプレイ制御部31及びディスプレイ32を有し、ディスプレイ制御部31は本具体例において、
(a)文字情報「交通死亡事故多発!」を含む画像データ
をディスプレイ32に表示させることができ、または、
(b)上記(a)の画像データから生成された摂動画像データ
をディスプレイ32に表示させることも可能となっている。
【0081】
ここで、端末20の識別部212が取得した「学習モデル」は、上記(a)の画像データにクラス"電光掲示板"を対応付けて学習を行っており、また、上記(b)の摂動画像データにはターゲットクラス"交通死亡事故ゼロキャンペーン・ウェブページのURL"を対応付けて学習を行ったものとなっている。
【0082】
このような状況で、電光掲示板3が上記(a)の画像データを表示した際、端末20は、カメラ202によって電光掲示板3の表示画像を撮影して画像データを生成し、当該画像データを識別部212へ入力して、画像識別結果としてのクラス"電光掲示板"を出力させる。さらに、この出力されたクラスから例えば提示情報「電光掲示板」を生成し、例えばディスプレイ203に表示させた道路マップ上の該当位置に、「電光掲示板」を表示してもよい。
【0083】
一方、電光掲示板3が上記(b)の摂動画像データを表示した際、端末20は、カメラ202によって同じく電光掲示板3の表示画像を撮影して画像データを生成し、当該画像データを識別部212へ入力して、画像識別結果としてのクラス"交通死亡事故ゼロキャンペーン・ウェブページのURL"を出力させる。さらに、この出力されたクラスに係るURLにアクセスし、該当するウェブページを例えばディスプレイ203に表示させてもよい。
【0084】
以上、詳細に説明したように、本発明による「学習モデル」によれば、1つの識別対象に係る画像データから、識別結果として互いに異なる情報を導出することができる。また、適用する実施形態によっては、画像データ中により多くの情報を意図的に仕込むことも可能となり、このような画像データを識別させることによって、結果的により多様な情報を提供することも可能となる。
【0085】
さらに、画像データを端末からクラウドサーバにアップロードし、このクラウドサーバで画像識別処理を実施する場合には結果的に、伝えるべき情報の多様性とともに伝送効率の向上も達成可能となる。例えば応用例として、自動運転車、ドローンや、各種ロボットが撮影した画像を、5G(第5世代移動通信システム)を利用して伝送する場合において、本発明は、伝送情報の多様性や伝送効率の更なる向上にも大いに貢献するものと考えられる。
【0086】
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。
【符号の説明】
【0087】
1 クラウドサーバ(学習モデル生成装置)
101、201 通信インタフェース
111 画像取得部
112 摂動画像生成部
113 学習データ生成部
114 学習モデル生成部
2 自動車
20 端末(識別装置)
202 カメラ
203 ディスプレイ(DP)
211 映像生成部
212 識別部
213 提示情報生成部
3 電光掲示板(ディスプレイ装置)
31 ディスプレイ制御部
32 ディスプレイ