IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社IHIの特許一覧

特許7371776画像分類装置、画像分類方法、及び、画像分類プログラム
<>
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図1
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図2
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図3A
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図3B
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図3C
  • 特許-画像分類装置、画像分類方法、及び、画像分類プログラム 図3D
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-23
(45)【発行日】2023-10-31
(54)【発明の名称】画像分類装置、画像分類方法、及び、画像分類プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231024BHJP
【FI】
G06T7/00 350C
【請求項の数】 10
(21)【出願番号】P 2022524901
(86)(22)【出願日】2021-03-15
(86)【国際出願番号】 JP2021010287
(87)【国際公開番号】W WO2021235061
(87)【国際公開日】2021-11-25
【審査請求日】2022-07-07
(31)【優先権主張番号】P 2020088815
(32)【優先日】2020-05-21
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000000099
【氏名又は名称】株式会社IHI
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】服部 均
(72)【発明者】
【氏名】栗原 理也
(72)【発明者】
【氏名】米倉 一男
(72)【発明者】
【氏名】徳永 幸二
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2018-081629(JP,A)
【文献】特開2019-212073(JP,A)
【文献】特開2017-084320(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
物体を撮像した画像を受信する受信部と、
分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
に基づいて、前記画像の分類ラベルを決定するコントローラと、
を有する画像分類装置であって、
前記コントローラは、
前記画像と前記第1モデルに基づいて第1ラベルを算出し、
前記第1ラベルが所定ラベルであるか否かを判定し、
前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定し、
前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出し、前記第2ラベルを前記画像の分類ラベルとして設定し、
前記第2モデルは、前記分類済み画像の分類ラベルが前記所定ラベルである前記第2教師データのみに基づいて生成されたモデルである、画像分類装置。
【請求項2】
前記分類済み画像と前記第1モデルに基づいて算出されたラベルを再現ラベルとし、
前記分類済み画像の分類ラベルごとに算出された、前記再現ラベルと前記分類済み画像の分類ラベルが一致する割合を正答率として、
前記正答率が所定閾値以下である前記分類済み画像の分類ラベルを前記所定ラベルとする、請求項1に記載の画像分類装置。
【請求項3】
前記第1モデルは、前記第1教師データに基づく機械学習によって生成されたモデルである、請求項1又は2に記載の画像分類装置。
【請求項4】
前記領域は、前記画像における前記物体の特徴部分が写り込む領域である、請求項1~3のいずれか一項に記載の画像分類装置。
【請求項5】
前記第2モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルである、請求項1~4のいずれか一項に記載の画像分類装置。
【請求項6】
前記検出アルゴリズムは、物体検出手法(Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector))あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含む、請求項5に記載の画像分類装置。
【請求項7】
前記物体は機械を構成する部品である、請求項1~6のいずれか一項に記載の画像分類装置。
【請求項8】
前記機械は航空機エンジンである、請求項7に記載の画像分類装置。
【請求項9】
分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
に基づいて、物体を撮像した画像の分類ラベルを決定するコントローラに係る画像分類方法であって、
前記コントローラは、
前記画像と前記第1モデルに基づいて第1ラベルを算出し、
前記第1ラベルが所定ラベルであるか否かを判定し、
前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定し、
前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出し、前記第2ラベルを前記画像の分類ラベルとして設定し、
前記第2モデルは、前記分類済み画像の分類ラベルが前記所定ラベルである前記第2教師データのみに基づいて生成されたモデルである、画像分類方法。
【請求項10】
分類済み画像と前記分類済み画像の分類ラベルを組とする第1教師データに基づいて生成された第1モデルと、
前記分類済み画像と前記分類済み画像の分類ラベルと前記分類済み画像に設定された領域を組とする第2教師データに基づいて生成された第2モデルと、
に基づいて、物体を撮像した画像の分類ラベルを決定するための画像分類プログラムであって、
コンピュータに、
前記画像と前記第1モデルに基づいて第1ラベルを算出するステップと、
前記第1ラベルが所定ラベルであるか否かを判定するステップと、
前記第1ラベルが前記所定ラベルでない場合に、前記第1ラベルを前記画像の分類ラベルとして設定するステップと、
前記第1ラベルが前記所定ラベルである場合に、前記画像と前記第2モデルに基づいて第2ラベルを算出するステップと、前記第2ラベルを前記画像の分類ラベルとして設定するステップと、
を実行させ、
前記第2モデルは、前記分類済み画像の分類ラベルが前記所定ラベルである前記第2教師データのみに基づいて生成されたモデルである、画像分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像分類装置、画像分類方法、及び、画像分類プログラムに関する。
【背景技術】
【0002】
特許文献1には、ユーザが撮像画像を参照しながら撮像画像のグループ化を行うことにより、画像データのデータベースを構築することが可能なシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2005-4564号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示される技術を用いて、航空機エンジン等を分解した後の構成部品を撮像した画像を分類しようとした場合、撮像画像の分類作業に必要な時間とコストが膨大なものとなっていた。
【0005】
より具体的には、航空機エンジン等の構成部品には似たような部品が多く、細かい特徴を確認しなければ、構成部品を撮像した画像の分類の精度を向上させにくい。そのため、撮像画像の分類作業に時間とコストがかかるという問題が生じていた。また、航空機エンジン等の構成部品に関する撮像画像の分類作業に習熟した作業員を養成するための時間とコストが生じるという問題が生じていた。
【0006】
本開示は上述の状況を鑑みて成されたものである。即ち、本開示は、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる画像分類装置、画像分類方法、及び、画像分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る画像分類装置は、物体を撮像した画像を受信する受信部と、第1モデルと第2モデルに基づいて、画像の分類ラベルを決定するコントローラと、を有する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。上記コントローラは、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
【0008】
上記第2モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第2教師データのみに基づいて生成されたモデルであってもよい。
【0009】
正答率が所定閾値以下である上記分類済み画像の分類ラベルを上記所定ラベルとするものであってもよい。ここで、上記分類済み画像と上記第1モデルに基づいて算出されたラベルを再現ラベルとし、上記分類済み画像の分類ラベルごとに算出された、上記再現ラベルと上記分類済み画像の分類ラベルが一致する割合を正答率とするものであってもよい。
【0010】
上記第1モデルは、上記第1教師データに基づく機械学習によって生成されたモデルであってもよい。
【0011】
上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。
【0012】
上記第2モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。
【0013】
上記検出アルゴリズムは、物体検出手法(Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector))あるいはセマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。
【0014】
上記物体は機械を構成する部品であってもよい。
【0015】
上記機械は、例えば航空機エンジンであってもよい。
【0016】
本開示に係る画像分類方法は、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
【0017】
本開示に係る画像分類プログラムは、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類プログラムは、コンピュータに、上記画像と上記第1モデルに基づいて第1ラベルを算出させ、上記第1ラベルが所定ラベルであるか否かを判定させる。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定させる。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出させ、上記第2ラベルを上記画像の分類ラベルとして設定させる。
【発明の効果】
【0018】
本開示によれば、構成部品の細かい特徴を確認しなければ分類の精度を向上させにくい、似たような構成部品を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。
【図面の簡単な説明】
【0019】
図1】一実施形態に係る画像分類装置の構成を示すブロック図である。
図2】画像分類の処理手順を示すフローチャートである。
図3A】ファンロータを撮像した画像を模式的に示す図である。
図3B】インレットコーンを撮像した画像を模式的に示す図である。
図3C】第1のインナーシュラウドを撮像した画像を模式的に示す図である。
図3D】第2のインナーシュラウドを撮像した画像を模式的に示す図である。
【発明を実施するための形態】
【0020】
以下、いくつかの例示的な実施形態について、図面を参照して説明する。なお、各図において共通する部分には同一の符号を付し、重複する説明を省略する。
【0021】
[画像分類装置の構成]
図1は、画像分類装置の構成を示すブロック図である。図1に示すように、画像分類装置20は、受信部21と、データベース23と、コントローラ25と、出力部27と、を備える。コントローラ25は、受信部21、データベース23、出力部27と通信可能なように接続される。
【0022】
その他、出力部27は、画像分類装置20自体が備えていてもよいし、画像分類装置20の外部に設置されて、無線又は有線のネットワークによって画像分類装置20と接続されるものであってもよい。
【0023】
受信部21は、無線又は有線によって撮像装置10と通信可能なように接続される。受信部21は、撮像装置10が撮像した物体の画像を受信する。その他、受信部21は、画像を取得した日時を示すタイムスタンプを、画像と共に受信するものであってもよい。
【0024】
また、データベース23は、画像分類装置20とは異なる方法によって分類ラベルが既に設定されている画像(以下、分類済み画像)について、第1教師データ、第2教師データを記録するものであってもよい。ここで、第1教師データとは、分類済み画像と分類済み画像の分類ラベルを組とするデータである。また、第2教師データとは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とするデータである。
【0025】
画像の分類ラベルとは、当該画像に設定されたラベルであって、当該画像が属するグループを表現するラベルである。例えば、分類ラベルは、当該画像に写る物体の名前である。画像に写る物体が機械を構成する部品である場合には、分類ラベルは、機械を構成する部品の名前であってもよい。より具体的には、画像に写る物体が航空機エンジンを構成する部品である場合には、分類ラベルは、航空機エンジンを構成する部品の名前であってもよい。航空機エンジンを構成する部品の名前としては、例えば、ファンロータ、インレットコーン、インナーシュラウド、ブレード、など、様々なものが挙げられる。画像に写る物体の名前、特に、航空機エンジンを構成する部品の名前は、ここで挙げた例に限定されない。
【0026】
画像に設定された領域とは、当該画像上に設定された領域であって、当該画像に写る物体の特徴部分が写り込む領域である。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素のみから構成される領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む領域であってもよい。画像に設定された領域は、当該画像上の物体の特徴部分に対応する画素を含む、矩形状の領域であってもよい。画像に設定された領域は、その他、複数の頂点を有する多角形を境界とする領域であってもよい。
【0027】
なお、物体の特徴部分とは、当該物体を他の物体と区別する部分である。つまり、注目する物体の特徴部分とは、注目する物体と注目する物体以外の物体の間にある非類似の部分である。
【0028】
その他、第2教師データは、分類済み画像の分類ラベルが所定ラベルであるデータのみから構成されるものであってもよい。所定ラベルについては、後述する。
【0029】
その他、データベース23は、受信部21によって受信した画像を記録するものであってもよい。また、データベース23は、後述する第1モデル及び第2モデルを記録するものであってもよい。
【0030】
出力部27は、後述するコントローラ25によって生成された情報を出力する。特に、出力部27は、コントローラ25によって画像ごとに設定された分類ラベルをユーザ等に出力する。
【0031】
例えば、出力部27は、複数の表示画素の組合せにより図形、文字を表示することで、ユーザに情報を提示するディスプレイであってもよい。出力部27は、音声により、ユーザに情報を通知するスピーカであってもよい。出力部27による情報の出力方法は、ここに挙げた例に限定されない。
【0032】
コントローラ25(制御部)は、CPU(中央処理装置)、メモリ、及び入出力部を備える汎用のマイクロコンピュータである。コントローラ25には、画像分類装置20として機能するためのコンピュータプログラム(画像分類プログラム)がインストールされている。コンピュータプログラムを実行することにより、コントローラ25は、画像分類装置20が備える複数の情報処理回路(251、253、255、257)として機能する。なお、コンピュータプログラム(画像分類プログラム)は、コンピュータによって読み書き可能な記憶媒体に格納されるものであってもよい。
【0033】
本開示では、ソフトウェアによって複数の情報処理回路(251、253、255、257)を実現する例を示す。ただし、以下に示す各情報処理を実行するための専用のハードウェアを用意して、情報処理回路(251、253、255、257)を構成することも可能である。また、複数の情報処理回路(251、253、255、257)を個別のハードウェアにより構成してもよい。さらに、情報処理回路(251、253、255、257)は、撮像装置10の監視または制御に用いる制御ユニットと兼用してもよい。
【0034】
図1に示すように、コントローラ25は、複数の情報処理回路(251、253、255、257)として、第1ラベル算出部251、第2ラベル算出部253、判定部255、分類ラベル設定部257を備える。
【0035】
第1ラベル算出部251は、第1教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。同様に、第2ラベル算出部253は、第2教師データに基づいて「学習」を行い、その後、分類ラベルが設定されていない画像に基づいてラベルの「推定」を行う。
【0036】
初めに、第1ラベル算出部251、第2ラベル算出部253における「学習」について説明する。
【0037】
第1ラベル算出部251は、第1教師データに基づいて機械学習を行い、第1モデルを生成する。一方、第2ラベル算出部253は、第2教師データに基づいて機械学習を行い、第2モデルを生成する。生成された第1モデル及び第2モデルは、データベース23に記憶されるものであってもよい。
【0038】
具体的には、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークを用いて、それぞれ第1モデル、第2モデルを生成する。
【0039】
第1ラベル算出部251は、画像を入力とし、ラベルを出力とする第1ニューラルネットワークを用いて、第1モデルを生成する。その際、第1ラベル算出部251は、分類済み画像を第1ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。
【0040】
そして、第1ラベル算出部251は、誤差が最小となるように第1ニューラルネットワークを定義するパラメータの調整を行って、第1教師データを表現する特徴を学習する。第1モデルは第1ニューラルネットワークによって表現される。
【0041】
一方、第2ラベル算出部253は、画像を入力とし、ラベル及び領域情報(画像上に設定される領域を示す情報)を出力とする第2ニューラルネットワークを用いて、第2モデルを生成する。その際、第2ラベル算出部253は、分類済み画像を第2ニューラルネットワークに入力した際に得られるラベルと、入力した分類済み画像に対応する分類ラベルの誤差を算出する。
【0042】
また、第2ラベル算出部253は、分類済み画像を第2ニューラルネットワークに入力した際に得られる領域情報と、入力した分類済み画像に設定された領域情報の誤差を算出する。
【0043】
そして、第2ラベル算出部253は、ラベルに関する誤差及び領域情報に関する誤差が最小となるように第2ニューラルネットワークを定義するパラメータの調整を行って、第2教師データを表現する特徴を学習する。第2モデルは第2ニューラルネットワークによって表現される。
【0044】
なお、第2ラベル算出部253は、検出アルゴリズムを用いて、第2ニューラルネットワークに入力される画像から領域情報を算出するものであってもよい。すなわち、第2ラベル算出部253によって生成される第2モデルは、検出アルゴリズムを用いて前記画像から前記領域を推定するモデルであってもよい。
【0045】
検出アルゴリズムとしては、物体検出手法あるいはセマンティック・セグメンテーションが挙げられる。物体検出手法には、例えば、Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)などがある。その他、検出アルゴリズムとして、これらのアルゴリズムを内部に含むものが挙げられる。検出アルゴリズムは、ここに挙げた例に限定されない。
【0046】
例えば、上述したニューラルネットワークは、画像が入力される入力層、出力値が出力される出力層、入力層と出力層の間に設けられる少なくとも1層以上の隠れ層とを含み、入力層、隠れ層、出力層の順番に信号が伝搬する。入力層、隠れ層、出力層の各層は、1つ以上のユニットから構成される。層間のユニット同士が結合しており、各ユニットは活性化関数(例えば、シグモイド関数、正規化線形関数、ソフトマックス関数など)を有する。ユニットへの複数の入力に基づいて重み付きの合計が算出され、合計値を変数とする活性化関数の値が、ユニットの出力となる。
【0047】
例えば、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークを定義するパラメータのうち、各ユニットで重み付き合計を算出する際の重みを調整する。そして、第1ラベル算出部251、第2ラベル算出部253は、ニューラルネットワークの出力と分類データとの間の誤差を最小化する。複数の教師データに対して、ニューラルネットワークの出力に関する誤差の最小化には、最尤推定法などが適用可能である。
【0048】
ニューラルネットワークの出力に関する誤差を最小化するため、例えば、第1ラベル算出部251、第2ラベル算出部253は、勾配降下法、確率的勾配降下法などを用いてもよい。第1ラベル算出部251、第2ラベル算出部253は、勾配降下法、確率的勾配降下法での勾配計算のため、誤差逆伝搬法を用いてもよい。
【0049】
ニューラルネットワークによる機械学習では汎化性能(未知データに対する判別能力)と過適合(教師データに対して適合する一方で汎化性能が改善しない現象)が問題となりうる。
【0050】
そこで、第1ラベル算出部251、第2ラベル算出部253における学習モデルの作成では、過適合を緩和するため、学習時の重みの自由度を制約する正則化などの手法を用いてもよい。その他にも、ニューラルネットワーク中のユニットを確率的に選別してそれ以外のユニットを無効化するドロップアウトなどの手法を用いてもよい。さらには、汎化性能を向上させるため、教師データ中の偏りをなくすデータ正則化、データ標準化、データ拡張などの手法を用いてもよい。
【0051】
次に、第1ラベル算出部251、第2ラベル算出部253における「推定」について説明する。
【0052】
第1ラベル算出部251は、第1教師データによって生成された第1モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第1ラベル算出部251は、第1モデルを表現する第1ニューラルネットワークに画像を入力し、第1ニューラルネットワークの出力を算出する。そして、第1ニューラルネットワークの出力を第1ラベル(第1モデルによって推定された分類ラベル)とする。
【0053】
第2ラベル算出部253は、第2教師データによって生成された第2モデルを用いて、分類ラベルが未知の画像に対して分類ラベルを推定する。すなわち、第2ラベル算出部253は、第2モデルを表現する第2ニューラルネットワークに画像を入力し、第2ニューラルネットワークの出力を算出する。そして、第2ニューラルネットワークの出力を第2ラベル(第2モデルによって推定された分類ラベル)とする。
【0054】
第2モデルに基づく推定は、第1モデルに基づく推定よりも計算コストが大きい傾向にある。一方で、第2モデルに基づく推定は、第1モデルに基づく推定よりも細かい推定が可能な傾向にある。この理由は、第1モデルと比較して、第2モデルでは、画像に写り込む物体の特徴部分に関する計算が行われることにある。
【0055】
分類ラベルが設定されていない画像に対して、第1ラベルと第2ラベルのいずれが分類ラベルとして設定されるかは、次に説明する判定部255及び分類ラベル設定部257での処理によって決まる。
【0056】
なお、第1ラベル算出部251は、第1モデルを用いて、分類済み画像に対して分類ラベルを推定し、第1モデルの正答率を算出するものであってもよい。すなわち、第1ラベル算出部251は、分類済み画像と第1モデルに基づいて算出されたラベルを再現ラベルとし、再現ラベルと分類済み画像の分類ラベルが一致する割合を、分類済み画像の分類ラベルごとに算出するものであってもよい。正答率は、分類済み画像の分類ラベルごとに算出される。
【0057】
上述した正答率は、第1モデルが第1教師データを再現する度合いを示している。第1モデルを表現する第1ニューラルネットワークに分類済み画像を入力した際に、入力した分類済み画像に対応する分類ラベルが再現ラベルとして出力される確率を、正答率は表している。
【0058】
その他、第1ラベル算出部251は、正答率が所定閾値以下である分類済み画像の分類ラベルを所定ラベルとして設定するものであってもよい。所定ラベルは、正答率に基づいて設定されるものであってもよいし、画像分類装置20のユーザが、任意に設定するものであってもよい。所定ラベルの設定方法は、ここで挙げた例に限定されない。
【0059】
所定ラベルを設定する理由は、第1モデルによって再現される度合いの小さい第1教師データを用いて、第2教師データを構成することにある。
【0060】
第1モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定する際の推定の精度が低い状況を改善するため、第2モデルを用いて分類ラベルが未知の画像に対して分類ラベルを推定するのである。
【0061】
判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルであるか否かを判定する。そして、判定の結果を、分類ラベル設定部257に出力する。判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルである場合に、第2ラベルが算出されるよう、第2ラベル算出部253を制御するものであってもよい。
【0062】
分類ラベル設定部257は、判定部255による判定結果に基づいて、第1ラベル、第2ラベルの一方を、分類ラベルが設定されていない画像に対する分類ラベルとして設定する。具体的には、第1ラベルが所定ラベルでない場合には、分類ラベル設定部257は、第1ラベルを分類ラベルとして設定する。一方、第1ラベルが所定ラベルである場合には、分類ラベル設定部257は、第2ラベルを分類ラベルとして設定する。
【0063】
[画像分類の処理手順]
次に、本開示に係る画像分類装置における、画像分類の処理手順を、図2のフローチャートを参照して説明する。
【0064】
図2に示されるフローチャートの処理は、ユーザが画像分類装置を稼働させた際に開始される。なお、画像分類装置による画像の分類を始める時点で、既に第1モデル及び第2モデルが生成されているものとする。
【0065】
ステップS101にて、受信部21は、撮像装置10が撮像した物体の画像を受信する。
【0066】
ステップS103にて、第1ラベル算出部251は、画像と第1モデルに基づいて第1ラベルを算出する。つまり、第1ラベル算出部251は、第1モデルを表現する第1ニューラルネットワークに画像を入力し、第1ニューラルネットワークの出力を算出する。そして、第1ニューラルネットワークの出力を第1ラベルとする。
【0067】
ステップS105にて、判定部255は、第1ラベル算出部251によって算出した第1ラベルが所定ラベルであるか否かを判定する。
【0068】
ステップS105にて、第1ラベルが所定ラベルでないと判定された場合(ステップS105でNOの場合)、ステップS107に進み、分類ラベル設定部257は、画像に対して第1ラベルを分類ラベルとして設定する。
【0069】
一方、ステップS105にて、第1ラベルが所定ラベルであると判定された場合(ステップS105でYESの場合)、ステップS111に進み、第2ラベル算出部253は、画像と第2モデルに基づいて第2ラベルを算出する。つまり、第2ラベル算出部253は、第2モデルを表現する第2ニューラルネットワークに画像を入力し、第2ニューラルネットワークの出力を算出する。そして、第2ニューラルネットワークの出力を第2ラベルとする。
【0070】
その後、ステップS113にて、分類ラベル設定部257は、画像に対して第2ラベルを分類ラベルとして設定する。
【0071】
ステップS107又はステップS113での処理を行った後、図2に示す画像分類の処理は終了する。
【0072】
このように、ステップS107又はステップS113での処理が行われる結果、分類ラベルが未知の画像に対して分類ラベルの推定が行われ、第1ラベルと第2ラベルのうち一方が、分類ラベルとして設定される。
【0073】
[実施形態の効果]
以上詳細に説明したように、本開示に係る画像分類装置、画像分類方法、及び、画像分類プログラムは、第1モデルと第2モデルに基づいて、物体を撮像した画像の分類ラベルを決定する。ここで、第1モデルは、分類済み画像と分類済み画像の分類ラベルを組とする第1教師データに基づいて生成されたモデルである。第2モデルは、分類済み画像と分類済み画像の分類ラベルと分類済み画像に設定された領域を組とする第2教師データに基づいて生成されたモデルである。画像分類方法は、上記画像と上記第1モデルに基づいて第1ラベルを算出し、上記第1ラベルが所定ラベルであるか否かを判定する。そして、上記第1ラベルが上記所定ラベルでない場合には、上記第1ラベルを上記画像の分類ラベルとして設定する。一方、上記第1ラベルが上記所定ラベルである場合には、上記画像と上記第2モデルに基づいて第2ラベルを算出し、上記第2ラベルを上記画像の分類ラベルとして設定する。
【0074】
これにより、物体を撮像した画像の分類作業を自動化し、分類作業における作業時間及びコストを削減することができる。
【0075】
特に、本開示によれば、第2モデルよりも計算コストの小さい第1モデルに基づいて画像の粗い推定が行われる。そして、粗い推定では十分に分類できない画像に対して、第2モデルを用いて細かい推定が行われる。そのため、分類作業における計算コストを低減することができる。
【0076】
また、分類作業が自動化される結果、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
【0077】
例えば、航空機エンジンは、例えば、図3A図3B図3C図3Dに示すような部品から構成される。図3Aに示すファンロータ、図3Bに示すインレットコーンは、図3C及び図3Dに示すインナーシュラウドとは大きく外観が異なる。そのため、第1モデルに基づく粗い推定によって、図3Aに写り込む部品がファンロータであると推定でき、図3Bに写り込む部品がインレットコーンであると推定できる。
【0078】
第1モデルに基づく粗い推定によれば、図3C及び図3Dに写り込む部品がインナーシュラウドであると推定することはできる。しかしながら、図3Cに写り込む第1のインナーシュラウドと図3Dに写り込むインナーシュラウドとを互いに区別して推定することは困難である。
【0079】
そこで、例えば、所定ラベルとして、「第1のインナーシュラウド」「第2のインナーシュラウド」を設定し、第2モデルに基づく細かい推定によって、図3C及び図3Dに写り込む部品を互いに区別して推定する。
【0080】
第2モデルを生成する際、第2教師データには、第1のインナーシュラウドが写り込む画像には、図3Cに示すように領域R1が設定されている。また、第2のインナーシュラウドが写り込む画像には、図3Dに示すように領域R2が設定されている。そのため、第2モデルに基づく細かい推定によれば、図3C及び図3Dに写り込む部品を互いに区別して推定することができる。
【0081】
なお、航空機エンジンを構成する部品の名前は、上述した例に限定されない。また、所定ラベルの設定は、上述した例に限定されない。
【0082】
上記第2モデルは、上記分類済み画像の分類ラベルが上記所定ラベルである上記第2教師データのみに基づいて生成されたモデルであってもよい。これにより、第2モデルは、第1モデルに基づく分類では十分に分類できない画像の分類に特化したモデルとなる。その結果、第1モデルによる粗い推定では十分に分類できない画像に対する分類の精度を向上させることができる。さらには、第2教師データに基づく学習の時間を短縮することができる。
【0083】
正答率が所定閾値以下である上記分類済み画像の分類ラベルを上記所定ラベルとするものであってもよい。ここで、上記分類済み画像と上記第1モデルに基づいて算出されたラベルを再現ラベルとし、上記分類済み画像の分類ラベルごとに算出された、上記再現ラベルと上記分類済み画像の分類ラベルが一致する割合を正答率とするものであってもよい。
【0084】
これにより、第1モデルによる粗い推定では十分に分類できない画像に対して、第2モデルを用いて細かい推定を行うことができる。特に、正答率に基づいて所定モデルが自動設定されるため、ユーザが所定モデルを設定する作業を省略できる。その結果、分類作業における作業時間及びコストを削減することができる。
【0085】
上記第1モデルは、上記第1教師データに基づく機械学習によって生成されたモデルであってもよい。これにより、画像の粗い推定を行うことができる。また、第1モデルに基づく粗い推定で十分な分類済み画像に対する学習の時間を短縮することができる。
【0086】
上記領域は、上記画像における上記物体の特徴部分が写り込む領域であってもよい。これにより、第2モデルによる細かい推定による分類精度を向上させることができる。
【0087】
上記第2モデルは、検出アルゴリズムを用いて上記画像から上記領域を推定するモデルであってもよい。これにより、第2モデルは、第1モデルよりも細かい推定を行うことができる。
【0088】
上記検出アルゴリズムは、Faster R-CNN(Regions with Convolutional Neural Networks)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、セマンティック・セグメンテーションのうち、少なくともいずれかのアルゴリズムを含むものであってもよい。これにより、第2モデルは、第1モデルよりも細かい推定を行うことができる。
【0089】
上記物体は機械を構成する部品であってもよい。これにより、構成部品の数が多い機械の整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
【0090】
上記機械は航空機エンジンであってもよい。これにより、構成部品の数が多い航空機エンジンの整備点検のために取得した撮像画像の分類作業に係る時間を短縮できる。さらには、撮像画像の分類作業に習熟した作業員を養成する必要がなくなる。
【0091】
本開示で示した各機能は、1又は複数の処理回路によって実装されうる。処理回路には、プログラムされたプロセッサ、電気回路などが含まれ、さらには、特定用途向けの集積回路(ASIC)のような装置、又は、記載された機能を実行するよう配置された回路構成要素なども含まれる。
【0092】
本開示によれば、似たような構成部品を撮像した画像の分類作業が自動化されて、分類作業における作業時間及びコストを削減することができるので、例えば、国際連合が主導する持続可能な開発目標(SDGs)の目標12「持続可能な生産消費形態を確保する。」に貢献することができる。
【0093】
本開示は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本開示の技術的範囲は、上述の説明から妥当な請求の範囲に係る事項によってのみ定められる。
【0094】
本出願は、2020年5月21日に出願された日本国特許願第2020-088815に基づく優先権を主張しており、この出願の全内容が参照により本明細書に組み込まれる。
【符号の説明】
【0095】
10 撮像装置
20 画像分類装置
21 受信部
25 コントローラ
251 第1ラベル算出部
253 第2ラベル算出部
255 判定部
257 分類ラベル設定部
図1
図2
図3A
図3B
図3C
図3D