IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特許-画像認識システムおよび画像認識方法 図1
  • 特許-画像認識システムおよび画像認識方法 図2
  • 特許-画像認識システムおよび画像認識方法 図3
  • 特許-画像認識システムおよび画像認識方法 図4
  • 特許-画像認識システムおよび画像認識方法 図5
  • 特許-画像認識システムおよび画像認識方法 図6
  • 特許-画像認識システムおよび画像認識方法 図7
  • 特許-画像認識システムおよび画像認識方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-08
(45)【発行日】2022-12-16
(54)【発明の名称】画像認識システムおよび画像認識方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221209BHJP
【FI】
G06T7/00 350B
【請求項の数】 9
(21)【出願番号】P 2019061478
(22)【出願日】2019-03-27
(65)【公開番号】P2020160966
(43)【公開日】2020-10-01
【審査請求日】2021-06-25
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】特許業務法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】寺下 直行
(72)【発明者】
【氏名】高野橋 健太
(72)【発明者】
【氏名】野中 雄一
(72)【発明者】
【氏名】喜多村 章悟
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2016-103245(JP,A)
【文献】国際公開第2018/158823(WO,A1)
【文献】特開2018-005773(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 -20/90
G06V 30/418
G06V 40/16 ,40/20
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
学習用画像に予め定められたメタデータが画像選別条件を満たす該学習用画像を選別する学習用画像選別処理部と、
前記学習用画像選別処理部によって選別された前記学習用画像を用いて識別器を生成する学習処理部と、
前記画像選別条件を満たすメタデータが付与されている推論用画像を推論対象画像と分類し、前記画像選別条件を満たさないメタデータが付与されている前記推論用画像を推論対象外画像と分類して選別する推論用画像選別処理部と、
前記推論対象画像に対して、前記学習処理部によって生成された前記識別器を用いて推論を行う推論処理部と、
前記推論対象外画像を利用者に対して表示部を介して表示し、該利用者が入力部を介して入力した該推論対象外画像の推論結果を取得する利用者判定フォーム処理部と、
を有することを特徴とする画像認識システム。
【請求項2】
前記学習用画像に付与されたメタデータの統計値に基づいて前記画像選別条件を決定するメタデータ選別条件決定処理部
をさらに備えたことを特徴とする請求項に記載の画像認識システム。
【請求項3】
移動能力を有する撮影機を含み、
前記撮影機は、
対象を撮影して前記学習用画像および前記推論用画像を取得するとともに、該学習用画像のメタデータおよび該推論用画像のメタデータを取得する撮影部と、
前記撮影機の移動に関する物理量を検知し、検知した該物理量を表すパラメータを出力するセンサ部と、
前記学習用画像および前記推論用画像を取得する際に、前記撮影部で取得されるメタデータが前記画像選別条件を満たすように、前記撮影部の撮影および前記撮影機の移動を制御する撮影処理部と
をさらに備えたことを特徴とする請求項1に記載の画像認識システム。
【請求項4】
前記学習処理部は、予め定められた画像分類条件に基づいて分類された学習用画像群ごとに前記識別器を生成し、
前記推論処理部は、前記画像分類条件に基づいて分類された推論用画像に対して、該画像分類条件に対応した前記識別器を用いて推論を行う
ことを特徴とする請求項1に記載の画像認識システム。
【請求項5】
前記推論処理部の推論で用いられた推論用画像に付与されているメタデータおよび前記推論処理部で用いた前記識別器の学習に使用された学習用画像に付与されているメタデータの少なくとも一方に基づいて、前記推論処理部による推論結果を解析し、推論精度向上に関する情報を出力する推論結果解析処理部
をさらに備えたことを特徴とする請求項1に記載の画像認識システム。
【請求項6】
前記識別器は、教師なし学習により学習し、入力画像に含まれる対象の異常状態を識別する
ことを特徴とする請求項1に記載の画像認識システム。
【請求項7】
前記識別器は、
前記対象の正常状態を前記推論用画像を用いた教師なし学習により予め学習し、
前記推論処理部は、
前記識別器を用いて、前記推論用画像中の被写体の正常状態を再現した画像を生成し、
生成した該画像と該推論用画像の特徴量を比較することによって前記対象の異常状態を識別する
ことを特徴とする請求項に記載の画像認識システム。
【請求項8】
前記識別器は、
前記対象の正常状態を前記推論用画像を用いた教師なし学習により予め学習し、
前記推論処理部は、
前記識別器を用いて、前記推論用画像の特徴量を抽出し、該特徴量の尤度によって前記異常状態を識別する
ことを特徴とする請求項に記載の画像認識システム。
【請求項9】
像認識システムが行う画像認識方法であって、
学習用画像選別処理部が、学習用画像に予め定められたメタデータが画像選別条件を満たす該学習用画像を選別し、
学習処理部が、前記学習用画像選別処理部によって選別された前記学習用画像を用いて識別器を生成し、
推論用画像選別処理部が、前記画像選別条件を満たすメタデータが付与されている推論用画像を推論対象画像と分類し、前記画像選別条件を満たさないメタデータが付与されている前記推論用画像を推論対象外画像と分類して選別し、
推論処理部が、前記推論対象画像に対して、前記学習処理部によって生成された前記識別器を用いて推論を行い、
利用者判定フォーム処理部が、前記推論対象外画像を利用者に対して表示部を介して表示し、該利用者が入力部を介して入力した該推論対象外画像の推論結果を取得する、
ことを特徴とする画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識システムおよび画像認識方法に関する。
【背景技術】
【0002】
画像認識のための識別器を構築する代表的な方法の一つとして、機械学習がある。機械学習は、複数の画像を用いて識別器のパラメータを最適化(学習)することで、識別器を生成する。したがって、学習に用いる画像の選択が、生成される識別器の精度を左右する。
【0003】
識別器生成のための画像の選択方法として、特許文献1に開示の技術がある。特許文献1には、「撮像装置から入力された画像を学習して画像中に存在する対象を判別する画像学習装置において、前記対象をあらかじめ設定した撮影条件にて撮影し、その撮影された画像及び該画像の撮影条件を示す撮影プロファイルを初期登録する初期登録手段と、前記初期登録手段により登録された前記画像又は前記撮影プロファイルの少なくとも1つを元にして前記学習に必要とされる不足画像を判断し、該不足画像を前記撮像装置に取得させる」という記載がある。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2003-2517号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述の従来技術は、画像認識に十分な画質ではない画像が学習用画像あるいは推論用画像に含まれる場合に、推論精度が低下する可能性については考慮されていない。
【0006】
本発明では、以上の点を考慮してなされたもので、画像認識に十分な画質な画像が得られない状況下で取得された画像が学習用画像あるいは推論用画像に含まれる場合であっても、高精度に推論を行い得るようにすることを1つの目的とする。上記以外の課題については、実施例において明らかにされる。
【課題を解決するための手段】
【0007】
かかる課題を解決するための本発明における1つの手段として、識別器を用いて画像に対して推論を行う推論処理部と、前記識別器を生成する学習処理部とを有する画像認識システムであって、前記学習処理部は、予め定められた画像選別条件に基づいて選別された学習用画像を用いて前記識別器を生成し、前記推論処理部は、前記画像選別条件に基づいて選別された推論用画像に対して推論を行うことを特徴とする。
【発明の効果】
【0008】
本発明によれば、一例として、画像認識に十分な画質な画像が得られない状況下で取得された画像が学習用画像あるいは推論用画像に含まれる場合であっても、高精度に推論を行い得る。
【図面の簡単な説明】
【0009】
図1】実施例1の画像認識システムの構成例を示す図である。
図2】実施例2の画像認識システムの構成例を示す図である。
図3】実施例2の利用者判定フォームの例を示す図である。
図4】実施例3の画像認識システムの構成例を示す図である。
図5】実施例3の撮影機の撮影処理部の処理手順を示すフローチャートである。
図6】実施例4の画像認識システムの構成例を示す図である。
図7】実施例5の画像認識システムの構成例を示す図である。
図8】実施例6の推論処理部の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下図面に基づき、本発明の実施例を詳述する。以下の実施例を説明するための各図面において、同一参照番号は同一あるいは類似の構成または処理を示し、後出の説明を省略する場合がある。また、後出の実施例では、既出の実施例との差分のみを説明し、同様の説明を省略する場合がある。また、各実施例および各変形例は、本発明の技術思想の範囲内かつ整合する範囲内でその一部または全部を組合せることができる。
【0011】
以下の実施例における「xxx処理部」は、プロセッサとメモリが協働してプログラムを実行することで実現される機能ブロックである。また、以下の実施例における「yyy格納部」は、情報を格納する揮発性または不揮発性の記憶装置である。
【実施例1】
【0012】
実施例1では、検査対象の製品の外観の画像による製品外観検査を行う画像認識システムをクラウドサーバ上に実装する場合について説明する。
【0013】
<実施例1の画像認識システムの構成>
図1は、実施例1の画像認識システムの構成例を示す図である。図1に示すように、実施例1の画像認識システム100は、学習用画像・メタデータ格納部103と、推論用画像・メタデータ格納部105と、学習用画像選別処理部107と、メタデータ選別条件格納部109と、学習処理部111と、識別器情報格納部113と、推論用画像選別処理部115と、推論処理部121とを備える。
【0014】
学習用画像・メタデータ格納部103は、後述する学習用画像選別処理部107において選別の対象となる学習用画像と、学習用画像に付与されたメタデータを格納する。
【0015】
推論用画像・メタデータ格納部105は、後述する推論用画像選別処理部115において選別の対象となる推論用画像と、推論用画像に付与されたメタデータを格納する。
【0016】
本実施例において、学習用画像および推論用画像は、カメラ等の撮影装置(不図示)を用いて取得された製品外観画像である。学習用画像に付与されたメタデータおよび推論用画像に付与されたメタデータは、撮影装置から取得されたEXIF情報に含まれる焦点距離である。学習用画像および推論用画像と、これらの画像の焦点距離は、あらかじめ画像認識システム100に転送され、学習用画像は学習用画像・メタデータ格納部103に、推論用画像は推論用画像・メタデータ格納部105にそれぞれ保存されているものとする。
【0017】
メタデータ選別条件格納部109は、後述する学習用画像選別処理部107がメタデータに基づいて学習に使用する画像を選別する際、および、後述する推論用画像選別処理部115がメタデータに基づいて推論に使用する画像を選別する際に用いるメタデータ選別条件を格納する。メタデータ選別条件は、画像認識に好適な画質が得られる条件を示し、例えば「焦点距離が0.5m以上かつ0.7m以下」のような条件である。これは、撮影時のピント不正によって一部の外観画像がぼやけてしまう場合を除外するためのものである。
【0018】
また、メタデータ選別条件は、画像認識システム100の利用者によって定義され、あらかじめメタデータ選別条件格納部109に格納しておくものとする。
【0019】
識別器情報格納部113は、推論用画像から推論を行うための識別器を表す識別器モデル情報と識別器パラメータを格納する。ここで、一例として、識別器モデル情報はニューラルネットワークの構造に関する情報であり、識別器パラメータはニューラルネットワークの重み等のパラメータである。本実施例では、後述する推論処理部121が、識別器モデル情報と識別器パラメータを用いて、推論用画像から欠陥の有無を推論する。
【0020】
学習用画像選別処理部107は、学習用画像・メタデータ格納部103から学習用画像とメタデータを読み込み、さらにメタデータ選別条件格納部109からメタデータ選別条件を読み込む。学習用画像選別処理部107は、メタデータ選別条件を満たす画像を入力された学習用画像から選別し、選別した画像を、学習に実際に使用する画像として出力する。
【0021】
学習処理部111は、識別器情報格納部113から識別器モデル情報および識別器パラメータを取得し、学習用画像選別処理部107で選別された画像を用いて識別器パラメータを学習する。学習処理部111は、学習結果である識別器パラメータ(学習済み識別器パラメータ)を識別器情報格納部113に格納する。
【0022】
推論用画像選別処理部115は、推論用画像・メタデータ格納部105から推論用画像とメタデータを読み込み、さらにメタデータ選別条件格納部109から学習用画像選別処理部107が画像選別処理で用いた同一のメタデータ選別条件を読み込む。推論用画像選別処理部115は、メタデータ選別条件を満たす画像を入力された推論用画像から選別し、選別した画像を、推論で実際に使用する画像として出力する。
【0023】
推論処理部121は、識別器情報格納部113から識別器モデル情報および学習済み識別器パラメータを読み込み、推論用画像選別処理部115で選別された画像をもとに識別器モデル情報および識別器パラメータを用いて推論する。
【0024】
以上の構成より、学習用画像および推論用画像のうち実際に使用する画像をメタデータ選別条件に基づいて選別することで、画像認識に好適な画質が得られる条件で取得された画像のみを、学習および推論処理で使用することが可能となり、精度の高い推論を行うことができる。
【0025】
<実施例1の変形例>
本実施例では、画像認識システム100は、クラウドサーバ上に実装されるとしたが、これに限らず、例えば、オンプレミスに実装されてもよい。また、例えば、画像認識システム100は、サーバではなく撮影装置上に実装されてもよい。
【0026】
また、メタデータは、本実施例の焦点距離に限らず、例えば撮影時のシャッタースピード、撮影時刻、撮影装置の加速度、GPS情報、天候、照度等の画像に付随する情報や、画素値周波数成分、画素値分散、画素値ヒストグラム、画像をニューラルネットワークに入力して得られる特徴量等の画像から抽出される情報であってもよい。
【0027】
また、推論は、検査対象の製品の欠陥の有無を判定することに限らず、例えば画像を複数のクラスに分類することや、画像中の対象物を検出したりその位置を特定したりすることであってもよい。また、撮影された画像に基づく検査対象は、製品に限らず、例えば建物や橋梁、インフラ設備等の構造物であってもよい。
【0028】
また、撮影される画像は、静止画でなく動画のように多数の画像(フレーム)が時系列で並んだものあってもよい。この場合、画像とメタデータとの対応関係は、複数のパターンが考えられる。
【0029】
1つめのパターンは、動画符号化に関するフレーム種(I-ピクチャ、P-ピクチャ、B-ピクチャ)をメタデータとみなした場合のように、フレームとメタデータとが1対1で対応する場合である。この場合は、動画からフレーム単位で画像を切り出し、各フレームに対応するフレーム種をメタデータとして対応付ける。
【0030】
2つ目のパターンは、撮影時の天候をメタデータとしてみなした場合のように、すべてのフレームに対して1つのメタデータが対応付けられる場合である。この場合は、動画からフレーム単位で画像を切り出し、各フレームに同一のメタデータを付与する。また、複数の動画ごとにメタデータが割り当てられている場合は、動画からフレーム単位で画像を切り出し、各フレームに対して、切り出し元の動画に割り当てられたメタデータを対応付ける。
【0031】
3つ目のパターンは、動画のフレームレートと異なるレートで計測された撮影時加速度値の時系列データをメタデータとみなした場合のように、フレームとメタデータとが1対1で対応しない場合である。この場合は、動画からフレーム単位で画像を切り出し、各フレームに最も近い時刻に取得された加速度値をメタデータとして対応付ける。
【0032】
上記のいずれの対応関係の場合であっても、各フレームにメタデータを対応させることができるため、本実施例を適用することができる。
【実施例2】
【0033】
実施例2では、利用者が直接操作できるローカルコンピュータ上で学習および推論を行い、推論用画像のうちメタデータ選別条件を満たさない画像については、利用者に製品外観検査の判定結果を入力させる。さらに、本実施例では、後述するメタデータ選別条件決定処理部120がメタデータ選別条件を自動的に決定する。
【0034】
<実施例2の画像認識システムの構成>
図2は、実施例2の画像認識システムの構成例を示す図である。図2に示すように、実施例2の画像認識システム100Bは、学習用画像・メタデータ格納部103と、推論用画像・メタデータ格納部105と、学習用画像選別処理部107と、メタデータ選別条件格納部109と、識別器情報格納部113と、学習処理部111と、推論用画像推論可否分類処理部116と、メタデータ選別条件決定処理部120と、推論処理部121と、利用者判定フォーム処理部123と、入力部125と、表示部131とを備える。
【0035】
図2に示す構成のうち、実施例1との差分である推論用画像推論可否分類処理部116と、メタデータ選別条件決定処理部120と、利用者判定フォーム処理部123と、入力部125と、表示部131とについて説明する。
【0036】
メタデータ選別条件決定処理部120は、学習用画像・メタデータ格納部103から学習用画像に付与されたメタデータを読み込み、読み込んだメタデータの統計値に基づいてメタデータ選別条件を決定し、メタデータ選別条件格納部109に格納する。例えば、メタデータ選別条件決定処理部120は、学習用画像に付与されたメタデータである焦点距離値の平均値μと分散値σを用いて、メタデータ選別条件を「焦点距離がμ―1.96σ以上かつμ+1.96σ以下」のように決定できる。
【0037】
推論用画像推論可否分類処理部116は、推論用画像・メタデータ格納部105から推論用画像とメタデータとを読み込み、さらにメタデータ選別条件格納部109からメタデータ選別条件を読み込む。そして、推論用画像推論可否分類処理部116は、メタデータ選別条件に基づいて推論用画像を判別し、推論処理部121に入力される識別器入力画像117と、後述する利用者判定フォーム処理部123に入力される利用者判定対象画像119とに分類する。このときの分類方法は、例えば、メタデータ選別条件「焦点距離がμ―1.96σ以上かつμ+1.96σ以下」を満たすものは識別器入力画像117に、満たさないものは利用者判定対象画像119に分類するというものである。利用者判定対象画像119は、推論処理部121に入力されない推論対象外画像である。
【0038】
なお、推論用画像推論可否分類処理部116は、実施例1の推論用画像選別処理部115を機能拡張した処理部である。
【0039】
利用者判定フォーム処理部123は、利用者判定対象画像119を用いて生成した図3に例示する判定フォーム1000を表示部131に出力し、入力部125から入力された利用者の目視判定による判定結果を取得する。
【0040】
図3は、実施例2の利用者判定フォームの例を示す図である。図3に示す判定フォーム1000は、利用者判定対象画像119を表示する領域である利用者判定対象画像表示領域1001と、利用者判定対象画像119に付与されたメタデータを表示する領域であるメタデータ表示領域1002と、利用者が判定結果を入力する領域であるユーザー判定入力領域1003と、利用者が判定結果を確定する際に用いる登録確認入力領域1004とを備えるGUI(Graphical User Interface)である。なお、判定フォーム1000は、スクロールバー(不図示)が操作されることによって表示画像をスクロールできる。
【0041】
入力部125は、利用者判定フォーム処理部123の処理により、利用者が入力する情報を取得するキーボードやマウス、タッチパネル等である。利用者が入力する情報に含まれる判定結果は、例えば、利用者判定対象画像119に対応する欠陥有(True)および欠陥無(False)の2値である。表示部131は、判定フォーム1000を表示するディスプレイ等である。
【0042】
以上の構成より、推論用画像のメタデータが選別条件を満たさず推論処理部121による推論が困難である場合に、利用者に推論結果を入力させることができるため、メタデータ選別条件によって推論不可と判定された画像に対しても推論結果を取得できる。
【0043】
また、高い推論精度を実現するために、従来の画像認識システムでは、識別器による推論と利用者の両者による判定を必要としていたが、本実施例のようにメタデータ選別条件に基づいて識別器による推論が困難と判断された画像のみを利用者が判定することで、高い識別精度を維持しつつ利用者による判定の負担を軽減することができる。
【0044】
また、本実施例の構成により、メタデータ選別条件を自動で決定するため、利用者による定義が不要となり、また、メタデータの統計値に基づいてメタデータ選別条件を決定することから、より適切なメタデータ選別条件を決定することが可能になる。
【0045】
<実施例2の変形例>
本実施例では、画像認識システム100Bは、ローカルコンピュータ上に実装されるとしたが、これに限らず、クラウドやオンプレミスのサーバ上に実装されてもよい。この場合、入力部125および表示部131が、画像認識システム100Bが実装されたサーバとネットワーク通信を行う、利用者が直接操作できるローカルコンピュータとなる。
【実施例3】
【0046】
実施例3では、移動可能な撮影機に搭載した撮影装置を用いて構造物の外観画像を撮影する際、撮影時の焦点距離および加速度をメタデータとして用い、撮影画像のメタデータが可能な限りメタデータ選別条件を満たすように撮影を行う。
【0047】
<実施例3の画像認識システムの構成>
図4は、実施例3の画像認識システムの構成例を示す図である。図4に示すように、実施例3の画像認識システム100Cは、撮影機300と、通信部101と、学習用画像・メタデータ格納部103と、推論用画像・メタデータ格納部105と、メタデータ選別条件格納部109と、学習用画像選別処理部107と、学習処理部111と、識別器情報格納部113と、推論用画像選別処理部115と、推論処理部121とを備える。
【0048】
図4に示す構成のうち、実施例1との差分である撮影機300と通信部101について説明する。なお、画像認識システム100Cのうち、学習用画像・メタデータ格納部103、推論用画像・メタデータ格納部105、学習用画像選別処理部107、メタデータ選別条件格納部109、推論用画像選別処理部115、学習処理部111、識別器情報格納部113、および推論処理部121は、実施例1の画像認識システム100に相当する。
【0049】
撮影機300は、ドローンに代表されるように、撮影装置が搭載され、遠隔操作可能な飛翔体である。撮影機300は、メタデータ選別条件格納部302と、撮影部303と、センサ部304と、画像・メタデータ格納部305と、移動制御部308と、撮影処理部309と、通信部311とを備える。なお、図4では、撮影機300の飛行等の動きを司るアクチェータの図示を省略している。
【0050】
メタデータ選別条件格納部302は、メタデータ選別条件を格納する。メタデータ選別条件格納部302は、メタデータ選別条件格納部109(図1および図2参照)と同一のメタデータ選別条件が格納されている。本実施例において、メタデータ選別条件は、「撮影時の加速度が1m/sかつ焦点距離が0.5m以下」のような条件であり、撮影機300が移動しながら撮影する場合の揺れやピント不正が発生し学習に好適な画像が得られない場合を除外するためのものである。なお、撮影時の焦点距離および加速度は、あくまで一例に過ぎない。
【0051】
撮影部303は、後述する撮影処理部309から撮影指示が入力されたことに応じて画像を撮影し、さらに撮影時の焦点距離等の撮影条件に関するメタデータを取得し、出力する。
【0052】
センサ部304は、後述する撮影処理部309から撮影指示が入力されたことに応じて、撮影時の加速度等の撮影機300の移動に関する物理量を検知し、この物理量を表すパラメータを取得してメタデータとして出力する。
【0053】
画像・メタデータ格納部305は、後述する撮影処理部309で取得された画像・メタデータを格納する。
【0054】
移動制御部308は、後述する撮影処理部309から後述する移動指示が入力されたことに応じて、撮影機300を移動指示に基づいて移動させ、移動終了後に移動完了メッセージを出力する。
【0055】
撮影処理部309は、撮影画像に付与されたメタデータが可能な限りメタデータ選別条件を満たすように撮影機300への移動制御指示および撮影部303への撮影指示を行う処理部である。撮影処理部309の処理の詳細は、図5を参照して後述する。
【0056】
通信部311は、画像・メタデータ格納部305から画像とメタデータを読み込み、通信部101へ画像・メタデータを送信する。このとき、通信部311は、例えば無線通信ネットワークを介した無線通信を行う。
【0057】
通信部101は、画像・メタデータを通信部311から受信する。通信部101は、学習時には学習用画像・メタデータ格納部103に、推論時には推論用画像・メタデータ格納部105に、受信した画像およびメタデータをそれぞれ格納する。
【0058】
<実施例3の撮影機の撮影処理部の処理>
図5は、実施例3の撮影機の撮影処理部の処理手順を示すフローチャートである。実施例3の撮影機300の撮影処理部309の処理は、学習用画像および推論用画像の取得の際に実行される。
【0059】
先ず、ステップS101では、撮影処理部309は、再撮影試行回数値に1を設定する。ステップS101に続いてステップS102では、撮影処理部309は、撮影部303に撮影指示を入力して構造物外観画像およびメタデータである焦点距離を取得し、さらにセンサ部304に撮影指示を入力してメタデータである加速度を取得する。
【0060】
ステップS102に続いてステップS103では、撮影処理部309は、ステップS102で取得されたメタデータがメタデータ選別条件格納部302に格納されたメタデータ選別条件を満足するか確認し、満足する場合(ステップS103Yes)にはステップS104へ処理を移し、満足しない場合(ステップS103No)にはステップS105へ処理を移す。
【0061】
ステップS105では、撮影処理部309は、再撮影試行回数値が再撮影上限回数(本実施例では一例として“3”)に等しいか否かを判定する。撮影処理部309は、再撮影試行回数値が再撮影上限回数に等しい場合(ステップS105Yes)にはステップS104へ処理を移し、再撮影試行回数値が再撮影上限回数と異なる場合(ステップS105No)にはステップS106へ処理を移す。
【0062】
ステップS106では、撮影処理部309は、再撮影試行回数に1を加算する。ステップS106に続いてステップS107では、撮影処理部309は、ステップS102で取得されたメタデータに基づいて移動制御部308に撮影機300の移動指示を出力する。ステップS107が終了すると、撮影処理部309は、ステップS102へ処理を移す。
【0063】
ここで、ステップS107で撮影処理部309が出力する移動指示は、次回のステップS102の実行による撮影時に取得されるメタデータが、メタデータ選別条件を満足するように、メタデータ選別条件と撮影時メタデータに基づいて決定される。
【0064】
例えば、ステップS107で撮影処理部309が出力する移動指示は、メタデータ選別条件が「撮影時の加速度が1m/sかつ焦点距離が0.5m以下」であって前回撮影時の焦点距離が0.7mのとき、「検査対象にさらに0.3mだけ接近」である。撮影機300が「検査対象にさらに0.3mだけ接近」することで、焦点距離がメタデータ選別条件を満足するようになるためである。
【0065】
また、例えば、ステップS107で撮影処理部309が出力する移動指示は、前回撮影時の撮影機300の加速度が1m/sより大きいとき、「3.0秒待機」である。撮影機300が「3.0秒待機」することで、撮影機300の加速度が1m/s以下となることが見込める。
【0066】
一方、ステップS104では、撮影処理部309は、ステップS102の実行で取得された画像およびメタデータを、画像・メタデータ格納部305に格納する。ステップS104に続いてステップS108では、撮影処理部309は、撮影が終了したか否かを確認し、撮影終了の場合(ステップS108Yes)には撮影処理部309による本処理を終了し、撮影終了でない場合(ステップS108No)にはステップS109へ処理を移す。
【0067】
ステップS109では、撮影処理部309は、移動制御部308に移動指示を出力し、次の撮影位置へ撮影機300を移動させる。ステップS109が終了すると、撮影処理部309は、ステップS101へ処理を戻す。
【0068】
以上の構成により、撮影時にメタデータがメタデータ選別条件を満足するか否かを確認し、満足しない場合にメタデータに基づいて撮影環境を変更し再撮影を行うことで、学習用画像および推論用画像中のより多くの画像がメタデータ選別条件を満足するようになる。これにより、学習時には、メタデータ選別条件を満足する画像をより多く使用できるため、推論時の推論精度が向上する。また、推論時には、より多くの画像を識別器で推論可能とすることができる。
【0069】
<実施例3の変形例>
本実施例において、移動可能な撮影機は、ドローンに限らず、地上を走行する撮影装置付きの車両や、壁面や架線に沿って移動する撮影ロボットや、水中を移動する撮影ロボットであってもよい。
【実施例4】
【0070】
実施例4では、識別器1と識別器2の二つの識別器を使用し、それぞれの識別器の構築のための学習の際に使用される画像、およびそれぞれの識別器での推論に使用される画像を、後述するメタデータ分類条件によって決定するものである。本実施例において、撮影対象は屋外構造物の外観であり、画像に付与されるメタデータは撮影時刻である。メタデータは、あらかじめ図示しない撮影装置から取得され、学習用画像・メタデータ格納部103および推論用画像・メタデータ格納部105に保存されているものとする。
【0071】
<実施例4の画像認識システムの構成>
図6は、実施例4の画像認識システムの構成例を示す図である。図6に示すように、画像認識システム100Dは、学習用画像・メタデータ格納部103と、推論用画像・メタデータ格納部105と、学習用画像分類処理部141と、推論用画像分類処理部143と、メタデータ分類条件格納部145と、学習処理部111と、推論処理部121と、識別器情報格納部113とを備える。
【0072】
識別器情報格納部113は、識別器1情報格納部165と、識別器2情報格納部163とを備える。識別器1情報格納部165は、識別器1モデル情報と、識別器1パラメータを格納する。同様に、識別器2情報格納部163は、識別器2モデル情報と、識別器2パラメータとを格納する。
【0073】
メタデータ分類条件格納部145は、後述する学習用画像分類処理部141と、後述する推論用画像分類処理部143がメタデータに基づいて学習用画像と推論用画像を分類する際に用いるメタデータ分類条件を格納する。メタデータ分類条件は、例えば「撮影時刻が8時から16時のときは識別器1学習画像に分類し、17時から19時のときは識別器2学習画像に分類する」のような条件である。メタデータ分類条件は、あらかじめ利用者によって定義され、メタデータ分類条件格納部145に格納しておくものとする。識別器1学習画像および識別器2学習画像については、後述する。
【0074】
学習用画像分類処理部141は、メタデータ分類条件格納部145からメタデータ分類条件を読み込み、さらに学習用画像・メタデータ格納部103から学習用画像と学習用画像に付与されたメタデータを読み込む。そして、学習用画像分類処理部141は、学習用画像に付与されたメタデータとメタデータ分類条件に基づき、学習用画像を識別器1学習画像147および識別器2学習画像149のいずれかに分類する。
【0075】
学習処理部111は、識別器1学習処理部155と、識別器2学習処理部157とを備える。識別器1学習処理部155は、識別器1情報格納部165から識別器1モデル情報と識別器1パラメータを取得し、識別器1学習画像147を用いて識別器1パラメータを学習し、学習済み識別器1パラメータを識別器1情報格納部165に格納する。同様に、識別器2学習処理部157は、識別器2情報格納部163から識別器2モデル情報と識別器2パラメータを取得し、識別器2学習画像149を用いて識別器2パラメータを学習し、学習済み識別器2パラメータを識別器2情報格納部163に格納する。
【0076】
推論用画像分類処理部143は、メタデータ分類条件格納部145からメタデータ分類条件を読み込み、さらに推論用画像・メタデータ格納部105から推論用画像と推論用画像に付与されたメタデータを読み込み、推論用画像に付与されたメタデータとメタデータ分類条件に基づき、推論用画像を識別器1推論用画像151および識別器2推論用画像153のいずれかに分類する。
【0077】
推論処理部121は、識別器1推論処理部161と、識別器2推論処理部159とを備える。識別器1推論処理部161は、識別器1情報格納部165から識別器1モデル情報および学習済み識別器1パラメータを読み込み、識別器1推論用画像151を推論する。同様に、識別器2推論処理部159は、識別器2情報格納部163から識別器2モデル情報および学習済み識別器2パラメータを読み込み、識別器2推論用画像153を推論する。
【0078】
本実施例は、例えば撮影画像に日中に撮影された画像と夕方に撮影された画像が含まれる場合に、画像に付随する撮影時刻情報に応じて使用する識別器を選択する、という場合に対応したものである。以上の構成により、複数の識別器は、それぞれ同様の時間帯に取得された画像の分布のみを学習すればよいため、学習が容易になり、単一の識別器で学習および推論する場合に比べて推論精度が向上する。
【0079】
なお、本実施例では、識別器が2つの場合の構成を示したが、識別器は3つ以上でもよい。
【実施例5】
【0080】
実施例5では、推論結果とメタデータとの関係を解析し、精度向上の方策に関する情報を出力する。本実施例において、撮影対象は屋外構造物の外観であり、メタデータは撮影対象周辺の照度であるが、あくまで一例に過ぎない。
【0081】
<実施例5の画像認識システムの構成>
図7は、実施例5の画像認識システムの構成例を示す図である。図7に示すように、実施例5の画像認識システム100Eは、推論用画像・メタデータ格納部105と、推論処理部174と、推論結果解析処理部177と、識別器情報格納部113と、学習用画像付随メタデータ格納部181と、推論用画像付随正解情報格納部182とを備える。
【0082】
推論用画像・メタデータ格納部105は、実施例1と同様、推論用画像とそれに付与されたメタデータを格納する。推論用画像およびメタデータは、あらかじめ図示しない撮影装置および照度計によって取得され、推論用画像・メタデータ格納部105に格納されているものとする。
【0083】
識別器情報格納部113は、実施例1と同様、画像から推論を行うための識別器モデル情報と学習済みの識別器パラメータを格納する。
【0084】
推論処理部174は、識別器情報格納部113から識別器モデル情報および学習済み識別器パラメータを読み込み、推論用画像・メタデータ格納部105から推論用画像171を読み込む。そして、推論処理部174は、識別器モデル情報および学習済み識別器パラメータを用いて、推論用画像171を推論し、推論結果を含んだ推論結果リスト175を出力する。
【0085】
学習用画像付随メタデータ格納部181は、識別器情報格納部113に格納されている識別器パラメータの学習に用いた学習用画像に付随するメタデータを格納する。
【0086】
推論用画像付随正解情報格納部182は、推論用画像に対応する正解情報を格納する。正解情報は、画像認識システム100Eの目的に関連し、本実施例では、例えば検査対象の屋外構造物の推論用画像中に含まれる屋外構造物の欠陥の有無といった情報である。
【0087】
推論結果解析処理部177は、推論用画像・メタデータ格納部105から推論用画像付随メタデータ173を読み込み、推論用画像付随正解情報格納部182から推論用画像に付随する正解情報を読み込み、さらに学習用画像付随メタデータ格納部181から学習用画像付随メタデータを読み込む。そして、推論結果解析処理部177は、読み込んだ正解情報、学習用画像付随メタデータ、推論用画像付随メタデータ173、および推論結果リスト175を用いて解析を行い、推論に好適な推論用画像や精度向上に有効な追加学習画像に関する情報である解析結果情報179を出力する。
【0088】
ここで、推論に好適な推論用画像に関する解析結果情報179は、例えば、「推論用画像の撮影は照度300ルクス以上となる環境で実施してください」のようなメッセージである。これは、推論結果解析処理部177により、正解情報と推論用画像付随メタデータ173と推論結果リスト175とに基づいた解析から、撮影時の照度と推論精度に相関関係があることが確認された場合に対応する。この相関関係は、推論用画像付随メタデータ173が照度範囲を満足する推論用画像を、照度範囲を変化させながら選択し、選択された推論用画像について推論結果リスト175と正解情報から推論精度を算出することで得られる。
【0089】
また、精度向上に有効な追加学習画像に関する解析結果情報179は、例えば、「撮影時の照度が300ルクス以下となる画像について推論精度を向上させるには、撮影時照度が300ルクス以下の画像を追加して識別器の学習を行う必要があります」のようなメッセージである。これは、推論結果解析処理部177により、学習用画像付随メタデータと推論用画像付随メタデータ173を比較し、推論用画像171の撮影時と同様の照度下で撮影された学習用画像が不足していることが確認された場合に対応する。
【0090】
以上の構成より、メタデータを使用して精度向上の方策を提示することができるため、利用者による推論用画像の撮影条件の決定を容易にし、追加学習用画像の取得を効率化することができる。
【実施例6】
【0091】
実施例6では、識別器が、推論用画像を画像空間からベクトル表現空間へ写像し潜在変数を得る関数である潜在変数推論器と、潜在変数をベクトル表現空間から画像空間へ写像する関数である生成器との両方、あるいは生成器のみから構成される。さらに、実施例6では、学習処理部が、正解データを用いない教師なし学習によって識別器を学習する。潜在変数推論器および生成器にはニューラルネットワークを用いることができる。以下、実施例1との差分について説明する。
【0092】
実施例1の図1を援用して、実施例6の画像認識システム100Fの構成例を説明する。画像認識システム100Fは、実施例1の画像認識システム100と比較して、学習用画像・メタデータ格納部103に代えて学習用画像・メタデータ格納部103fを備え、学習処理部111に代えて学習処理部111fを備え、識別器情報格納部113に代えて識別器情報格納部113fを備え、推論用画像・メタデータ格納部105に代えて推論用画像・メタデータ格納部105fを備え、推論処理部121に代えて推論処理部121fを備える。
【0093】
学習用画像・メタデータ格納部103fは、製品外観画像のうち、欠陥の無い正常な製品を撮影した学習用画像とそれに付随するメタデータを格納する。学習処理部111fは、学習用画像選別処理部107で選別された学習用画像を取得し、選別された学習用画像を用いて教師なし学習により識別器を学習する。この学習により構築される識別器の構成は、(A)生成器と潜在変数推論器の両方で構成される場合、(B)生成器のみで構成される場合、のいずれかである。
【0094】
(A)識別器を生成器と潜在変数推論器の両方で構成する場合
学習処理部111fは、生成器があらかじめ定めた事前分布からサンプリングされた潜在変数を入力として正常な製品の画像を出力し、潜在変数推論器が生成器の逆関数となるように、識別器を学習する。このとき、生成器および潜在変数推論器の学習は、Generative Adversarial Networkのように、Discriminatorを用いて、それぞれ学習用画像と生成画像の分布間誤差、潜在変数の事前分布と推定された潜在変数分布間の誤差を最小化するように学習する手法を採用してもよい。または、Variational Auto Encoderのように、潜在変数推論器を用いて、学習用画像を潜在変数に変換し、潜在変数を生成器に入力して得た画像と学習用画像との誤差を最小化するように学習する手法を採用してもよい。または、これらの2つの手法を組合せた学習手法を採用してもよい。なお、潜在変数の事前分布には正規分布を用いることができ、誤差にはKullback-Leiblerダイバージェンスを用いることができる。
【0095】
(B)識別器を生成器のみで構成する場合
学習処理部111fは、生成器がランダムな潜在変数を入力として正常な製品の画像を出力するように、識別器を学習する。このとき、生成器は、Generative Adversarial Networkのように、Discriminatorを用いて、学習用画像と生成画像の分布間の誤差を最小化するように学習できる。
【0096】
識別器情報格納部113fは、識別器が上記(A)の構成のときには生成器および潜在変数推論器の情報を、識別器が上記(B)の構成のときには生成器の情報のみを、識別器として格納する。
【0097】
推論用画像・メタデータ格納部105fは、推論に用いる製品外観画像とそれに付随するメタデータを格納する。推論用画像は、欠陥のある製品の画像を含んでいてもよい。
【0098】
推論処理部121fは、推論用画像の被写体の、正常状態に対する異常度を計算する。より具体的には、推論処理部121fは、識別器の構成および異常度の種類に応じて、図8に示す次の4種の処理のうちのいずれかを行う。図8は、実施例6の推論処理部の処理手順を示すフローチャートである。
【0099】
(処理α)識別器の構成:上記(A)、異常度:推論用画像と復元生成画像間の誤差、の場合
先ず、推論処理部121fは、推論用画像選別処理部115で選別された推論用画像と識別器情報格納部113fに格納された潜在変数推論器および生成器を取得する(ステップS11)。次に、推論処理部121fは、ステップS11で取得した潜在変数推論器を用いて推論用画像を潜在変数に変換する(ステップS12)。次に、推論処理部121fは、ステップS12で変換した潜在変数を生成器に入力して復元画像を生成し、取得する(ステップS13)。次に、推論処理部121fは、ステップS13で取得された復元画像とステップS11で取得された推論用画像との誤差を計算する(ステップS14)。ステップS14で計算された誤差を、異常度とする。このとき、誤差としては、復元生成画像と推論用画像間の距離や、復元生成用画像と推論用画像の特徴量間の距離を用いることができる。
【0100】
(処理β)識別器の構成:上記(A)、異常度:潜在変数の負の対数尤度、の場合
先ず、推論処理部121fは、推論用画像選別処理部115で選別された推論用画像と識別器情報格納部113fに格納された潜在変数推論器を取得する(ステップS21)。次に、推論処理部121fは、ステップS21で取得された潜在変数推論器を用いて推論用画像から潜在変数を推論する(ステップS22)。次に、推論処理部121fは、ステップS22で、潜在変数の事前分布に基づき推論された潜在変数の負の対数尤度を計算する(ステップS23)。ステップS23で計算された潜在変数の負の対数尤度を、異常度とする。
【0101】
(処理γ)識別器の構成:上記(A)、異常度:潜在変数推論器の内部変数の負の対数尤度、の場合
先ず、推論処理部121fは、推論用画像選別処理部115で選別された推論用画像と識別器情報格納部113fに格納された潜在変数推論器を取得する(ステップS31)。次に、推論処理部121fは、ステップS31で取得された潜在変数推論器を用いて学習用画像から潜在変数推論器内部の特徴量を推論する(ステップS32)。次に、推論処理部121fは、ステップS32で推論された特徴量の確率密度関数を推定する(ステップS33)。確率密度関数の推定には、カーネル密度推定を使用することができる。次に、推論処理部121fは、ステップS31で取得された推論用画像を潜在変数推論器に入力し潜在変数推論器内部の特徴量を推論する(ステップS34)。次に、推論処理部121fは、ステップS33で推定された確率密度関数とステップS34で推論された特徴量に基づいて、潜在変数推論器の内部変数(特徴量)の負の対数尤度を計算する(ステップS35)。ステップS35で計算された特徴量の負の対数尤度を、異常度とする。
【0102】
(処理δ)識別器の構成:上記(B)、異常度:推論用画像と生成画像間の誤差、の場合
先ず、推論処理部121fは、推論用画像選別処理部115で選別された推論用画像と識別器情報格納部113fに格納された生成器を取得する(ステップS41)。次に、推論処理部121fは、ステップS41で取得された推論用画像と、生成画像間の誤差が最小になるような潜在変数を決定する(ステップS42)。次に、推論処理部121fは、ステップS42で決定された潜在変数を生成器に入力して生成画像を取得する(ステップS43)。次に、推論処理部121fは、ステップS43で取得された生成画像とステップS41で取得された推論用画像間の誤差を計算する(ステップS44)。ステップS44で計算された推論用画像と生成画像間の誤差を、異常度とする。このとき、誤差として、生成画像と推論用画像間の距離や、生成画像と推論用画像の特徴量間の距離を用いることができる。
【0103】
教師なし学習では、学習に使用する画像が正常に撮影されていることが精度向上に寄与する。本実施例では、メタデータ選別条件によって選別された学習用画像によって潜在変数推論器と生成器の教師なし学習を行い、学習された潜在変数推論器と生成器を用いて選別済み推論用画像の推論を行うことで、異常度計算に好適な画質の復元画像が得られるため、異常度計算が正確に実行でき、推論の精度が向上する。また、学習処理部111で教師なし学習を用いることで、欠陥のある製品の画像の収集が不要になるため、欠陥のある製品が少数あるいは得られない場合でも、学習および推論が可能になる。
【0104】
<実施例6の変形例>
本実施例では、識別器の構成が上記(A)のとき、識別器は、潜在変数推論器と生成器で構成されるとした。しかし、識別器は、明示的に潜在変数推論器と生成器の2つの関数から構成されるものに限らず、教師なし学習を用いて学習を行い、画像、潜在変数、および内部特徴量の少なくとも1つを出力することができる関数であればよい。
【0105】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例を含む。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、構成の追加、削除、置換、統合、または分散をすることが可能である。また、実施例で示した各処理は、処理効率または実装効率に基づいて適宜分散または統合してもよい。
【符号の説明】
【0106】
100,100B,100C,100D,100E,100F:画像認識システム、103,103f:学習用画像・メタデータ格納部、105,105f:推論用画像・メタデータ格納部、107:学習用画像選別処理部、109:メタデータ選別条件格納部、111,111f:学習処理部、113,113f:識別器情報格納部、115:推論用画像選別処理部、116:推論用画像推論可否分類処理部、117:識別器入力画像、119:利用者判定対象画像、120:メタデータ選別条件決定処理部、121,121f:推論処理部、123:利用者判定フォーム処理部、141:学習用画像分類処理部、143:推論用画像分類処理部、145:メタデータ分類条件格納部、147:識別器1学習画像、149:識別器2学習画像、155:識別器1学習処理部、157:識別器2学習処理部、159:識別器2推論処理部、161:識別器1推論処理部、163:識別器2情報格納部、165:識別器1情報格納部、171:推論用画像、173:推論用画像付随メタデータ、175:推論結果リスト、177:推論結果解析処理部、179:解析結果情報、181:学習用画像付随メタデータ格納部、182:推論用画像付随正解情報格納部、300:撮影機、302:メタデータ選別条件格納部、303:撮影部、304:センサ部、305:画像・メタデータ格納部、308:移動制御部、309:撮影処理部
図1
図2
図3
図4
図5
図6
図7
図8