(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-06
(45)【発行日】2023-07-14
(54)【発明の名称】学習装置、学習システム、及び学習方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20230707BHJP
G06F 16/55 20190101ALI20230707BHJP
【FI】
G06T7/00 350B
G06F16/55
(21)【出願番号】P 2018126400
(22)【出願日】2018-07-02
【審査請求日】2021-06-07
【審判番号】
【審判請求日】2022-10-18
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110001379
【氏名又は名称】弁理士法人大島特許事務所
(72)【発明者】
【氏名】新崎 誠
(72)【発明者】
【氏名】上田 大介
(72)【発明者】
【氏名】松本 裕一
【合議体】
【審判長】畑中 高行
【審判官】樫本 剛
【審判官】川崎 優
(56)【参考文献】
【文献】国際公開第2014/208575(WO,A1)
【文献】特開2001-45471(JP,A)
【文献】特表2010-518505(JP,A)
【文献】特開2017-111731(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00 - 7/90
G06N 20/00
G06F 16/55
H04N 5/232
(57)【特許請求の範囲】
【請求項1】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、
前記学習データを生成する処理を実行するプロセッサを備え、
前記プロセッサは、
前記撮影画像を前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示
せず、
ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする学習装置。
【請求項2】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、
前記学習データを生成する処理を実行するプロセッサを備え、
前記プロセッサは、
前記撮影画像を前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、
前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とす
る学習装置。
【請求項3】
前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルによって認識される前記物体の候補から除外することを特徴とする請求項
2に記載の学習装置。
【請求項4】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、
前記学習データを生成する処理を実行するプロセッサを備え、
前記プロセッサは、
前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像のセットの各撮影画像から認識された1以上の物体の
情報、及び、
認識の確からしさを表すスコアをそれぞれ取得し、
前記認識の結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する前記各物体の情報を、対応する前記撮影画像のラベルの候補として
、当該ラベルの候補に対応する物体の画像とともにそれぞれ表示装置に表示
し、前記認識の結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とす
る学習装置。
【請求項5】
前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項
4に記載の学習装置。
【請求項6】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、
前記学習データを生成する処理を実行するプロセッサを備え、
前記プロセッサは、
前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
前記撮影された向きごとに、
予め用意された識別モデルによって前記撮影画像から認識され
た1以上の
物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記撮影した向きごとに、
前記閾値以上の値を有するスコアに対応する前記物体の情報を前記ラベルの候補
として当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、
前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とす
る学習装置。
【請求項7】
請求項1から請求項
6のいずれかに記載の1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする学習システム。
【請求項8】
前記識別モデルによって認識された1以上の物体について、前記スコアを算出するサーバ装置を更に備え、
前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする請求項
7に記載の学習システム。
【請求項9】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、
前記撮影画像を前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示
せず、
ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする学習方法。
【請求項10】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、
前記撮影画像を前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、
前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とす
る学習方法。
【請求項11】
前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルによって認識される前記物体の候補から除外することを特徴とする請求項1
0に記載の学習方法。
【請求項12】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、
前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、
予め用意された識別モデルによって前記撮影画像のセットの各撮影画像から認識された1以上の物体の
情報、及び、
認識の確からしさを表すスコアをそれぞれ取得し、
前記認識の結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する前記各物体の情報を、対応する前記撮影画像のラベルの候補として、
当該ラベルの候補に対応する物体の画像とともにそれぞれ表示装置に表示
し、前記認識の結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とす
る学習方法。
【請求項13】
前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする請求項1
2に記載の学習方法。
【請求項14】
対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、
前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、
前記撮影された向きごとに、
予め用意された識別モデルによって前記撮影画像から認識された
1以上の
物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、
前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記撮影した向きごとに、
前記閾値以上の値を有するスコアに対応する物体の情報を
、対応する前記撮影画像の前記ラベルの候補
として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示
し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とす
る学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像認識に利用される学習データを生成する学習装置、学習システム、及び学習方法に関する。
【背景技術】
【0002】
近年、カメラの撮影画像などから対象物を認識する画像認識の技術が、ディープラーニング(深層学習)などを用いた機械学習により急速に発展している。機械学習を利用した画像認識では、対象物(認識対象)を被写体とする撮影画像のデータを学習データとしてより多く収集し、これを学習器に学習させることで、未知の撮影画像における対象物を学習済モデルで認識する精度を向上させることが可能となる。
【0003】
そのような学習データの収集において、対象物の画像を含む撮影画像を網羅的に収集するためには、複数の撮影条件(カメラ設定、照明設定、対象物の配置などを含む)を適切に設定して撮影を行うなどの手間の掛かる作業が生じる。
【0004】
そこで、そのような学習データを簡易に生成するための技術が開発されており、例えば、学習データ生成装置が、被写体に対するカメラの位置に関する情報を少なくとも含む撮影条件を変更しながら、各々の撮影条件下で生成された各物体撮影画像に、撮影時の撮影条件を示す情報を含む撮影環境情報を対応づける撮影処理手段と、各物体撮影画像から、物体が写っている領域である物体領域を抽出する物体領域抽出手段とを備え、物体領域抽出手段は、物体領域の抽出元とされた第1の物体撮影画像とは撮影条件が異なる第2の物体撮影画像を用いて、第1の物体撮影画像から物体領域を抽出するようにした技術が知られている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、いわゆる教師あり学習では、学習データに正解ラベルを付与する必要があるが、上記のように学習データとしてより多くの撮影画像が取得された場合には、ラベルの入力に長い時間がかかり、その作業者には大きな負荷がかかる。
【0007】
しかしながら、上記特許文献1に記載されたような従来技術では、対象物の向きの変化に対応した撮影画像が得られるものの、そのような撮影画像へのラベルの付与の作業負荷については考慮されていなかった。
【0008】
本開示は、このような従来技術の課題を鑑みて案出されたものであり、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することができる学習装置、学習システム、及び学習方法を提供することを主目的とする。
【課題を解決するための手段】
【0009】
本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサを備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサを備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサを備え、前記プロセッサは、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像のセットの各撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記認識の結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する前記各物体の情報を、対応する前記撮影画像のラベルの候補として、当該ラベルの候補に対応する物体の画像とともにそれぞれ表示装置に表示し、前記認識の結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とする。
本開示の学習装置は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサを備え、前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記撮影した向きごとに、前記閾値以上の値を有するスコアに対応する前記物体の情報を前記ラベルの候補として当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とする。
【0010】
本開示の学習システムは、1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする。
【0011】
本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付与したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示せず、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、予め用意された識別モデルによって前記撮影画像のセットの各撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記認識の結果に所定の閾値以上の値を有するスコアが含まれる場合、前記閾値以上の値を有するスコアに対応する前記各物体の情報を、対応する前記撮影画像のラベルの候補として、当該ラベルの候補に対応する物体の画像とともにそれぞれ表示装置に表示し、前記認識の結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とする。
本開示の学習方法は、対象物を撮影する撮影装置によって生成された撮影画像にラベルを付したデータであり、画像認識の教師あり学習に利用される学習データを生成する学習装置による学習方法であって、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、予め用意された識別モデルによって前記撮影画像から認識された1以上の物体の情報、及び、認識の確からしさを表すスコアを含む認識結果を取得し、前記認識結果に所定の閾値以上の値を有するスコアが含まれる場合、前記撮影した向きごとに、前記閾値以上の値を有するスコアに対応する物体の情報を、対応する前記撮影画像の前記ラベルの候補として、当該ラベルの候補に対応する物体の画像とともに表示装置に表示し、前記認識結果に前記閾値以上の値を有するスコアが含まれない場合、前記ラベルの候補を前記表示装置に表示しないことを特徴とする。
【発明の効果】
【0012】
本開示の学習装置、学習システム、及び学習方法によれば、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することが可能となる。
【図面の簡単な説明】
【0013】
【
図1】本開示の第1実施形態に係る学習システムの概略構成図
【
図2】第1実施形態に係る撮影装置の構成例を示す説明図
【
図3】第1実施形態に係る学習装置のハードウェア構成を示す説明図
【
図4】第1実施形態に係る学習システムにおける処理の流れを示すフロー図
【
図5】
図4中のステップST101におけるユーザの操作画面の例を示す説明図
【
図6】
図4中のステップST204において算出されるスコアの一例を示す説明図
【
図7】
図4中のステップST106におけるユーザの操作画面の例を示す説明図
【
図8】
図4中のステップST107におけるユーザの操作画面の第1の例を示す説明図
【
図9】
図4中のステップST107におけるユーザの操作画面の第2の例を示す説明図
【
図10】
図4中のステップST107におけるユーザの操作画面の第3の例を示す説明図
【
図11】
図4中のステップST107におけるユーザの操作画面の第4の例を示す説明図
【
図12】本開示の第2実施形態に係る学習システムの概略構成図
【発明を実施するための形態】
【0014】
上記課題を解決するためになされた第1の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置であって、前記学習データを生成する処理を実行するプロセッサと、前記プロセッサによる制御に基づき情報を表示する表示装置と、を備え、前記プロセッサは、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として前記表示装置に表示することを特徴とする。
【0015】
これによると、画像認識に利用される学習データの生成において、対象物に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
【0016】
また、第2の発明は、前記学習装置に関し、前記プロセッサは、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
【0017】
これによると、表示装置に表示され、かつユーザによって選択されたラベルの候補を撮影画像のラベルとして付与するため、ユーザ(ラベルを付与する者)が撮影画像に対してラベルを付与する負荷をより効果的に軽減することができる。
【0018】
また、第3の発明は、前記学習装置に関し、前記プロセッサは、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
【0019】
これによると、表示装置に表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。
【0020】
また、第4の発明は、前記学習装置に関し、前記プロセッサは、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。
【0021】
これによると、不適切なラベルの候補が表示装置に繰り返し表示されることを回避することが可能となる。
【0022】
また、第5の発明は、前記学習装置に関し、前記プロセッサは、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。
【0023】
これによると、複数の方向から撮影した対象物に関するスコアに基づきラベルの候補が決定されるため、より適した方向(すなわち、対象物をより認識し易い方向)から撮影された撮影画像に基づき適切なラベルの候補を決定することができる。
【0024】
また、第6の発明は、前記学習装置に関し、前記プロセッサは、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。
【0025】
これによると、ユーザは、表示装置における各ラベルの候補の配置に基づき、より適した(すなわち、認識の確からしさを表すスコアの高い)ラベル候補を容易に認識することが可能となる。
【0026】
また、第7の発明は、前記学習装置に関し、前記プロセッサは、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。
【0027】
これによると、学習装置は、対象物を撮影した向きごとにラベル候補を表示させることができる。そのため、対象物が、特定の向きでは誤認識されやすいものであったとしても、より正確なラベル候補を提案することができる。
【0028】
また、第8の発明は、上記第1から第7の発明のいずれかに係る1以上の前記学習装置および1以上の前記撮影装置を備えたことを特徴とする学習システムである。
【0029】
これによると、画像認識に利用される学習データの生成において、対象物に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
【0030】
また、第9の発明は、前記学習システムに関し、前記スコアを算出するサーバ装置を更に備え、前記プロセッサは、前記サーバ装置によって算出された前記スコアを取得することを特徴とする。
【0031】
これによると、学習システム内に複数の学習装置を設けた場合でも、スコアを算出する処理をサーバ装置に集約することにより、システム全体の効率を向上させることが可能となる。
【0032】
また、第10の発明は、対象物を撮影する撮影装置によって生成された撮影画像から画像認識に利用される学習データを生成する学習装置による学習方法であって、前記撮影画像を前記撮影装置から取得し、前記撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補を取得し、前記物体の候補に関する情報を、対応する前記撮影画像のラベルの候補として表示装置に表示することを特徴とする。
【0033】
また、第11の発明は、前記学習方法に関し、ユーザによって選択された前記ラベルの候補のいずれかを、対応する前記撮影画像のラベルとして付与することを特徴とする。
【0034】
また、第12の発明は、前記学習方法に関し、前記ラベルの候補と共に、前記学習データのラベルをユーザが入力するための入力画面を前記表示装置に表示することを特徴とする。
【0035】
また、第13の発明は、前記学習方法に関し、前記入力画面に前記ラベルの候補とは異なるラベルが前記ユーザによって入力された場合、当該ラベルの候補を、前記対象物に関して前記識別モデルに基づき認識される前記物体の候補から除外することを特徴とする。
【0036】
また、第14の発明は、前記学習方法に関し、前記対象物を互いに異なる向きから同時に撮影した前記撮影画像のセットを前記撮影装置から取得し、前記撮影画像のセットの各撮影画像に含まれる前記対象物に関し、識別モデルに基づき認識された1以上の物体の候補、及び、認識の確からしさを表すスコアをそれぞれ取得し、前記各スコアに基づき、前記各物体の候補に関する情報を、対応する前記撮影画像のラベルの候補としてそれぞれ前記表示装置に表示することを特徴とする。
【0037】
また、第15の発明は、前記学習方法に関し、前記表示装置における前記各ラベルの候補の配置を、当該各ラベルの候補に対応する前記スコアに基づき決定することを特徴とする。
また、第16の発明は、前記学習方法に関し、前記撮影装置から前記対象物をそれぞれ異なる向きから撮影した複数の撮影画像を取得し、前記撮影された向きごとに、前記撮影画像に含まれる対象物に関し、前記識別モデルに基づき認識された前記1以上の候補を取得し、前記表示装置において、前記撮影した向きごとに、前記物体の候補に関する情報を前記ラベルの候補を表示することを特徴とする。
【0038】
以下、本開示の実施形態について、図面を参照しながら説明する。
【0039】
(第1実施形態)
図1は、本開示の第1実施形態に係る学習システム1の概略構成図である。
【0040】
学習システム1は、ユーザが対象物の撮影に用いる複数の撮影装置2と、対応する撮影装置2によって生成された撮影画像から画像認識に利用される学習データを生成する処理(以下、「学習データ生成処理」という。)を実行する複数の学習装置3と、撮影装置2によって生成された撮影画像に含まれる対象物を、識別モデルに基づき認識する処理(以下、「対象物認識処理」という。)を実行するサーバ装置4と、を主として備える。
【0041】
なお、
図1に示した複数の撮影装置2は、同様の構成を有しているため、以下では、特に必要のない限りそれらを区別することなく説明する。また、複数の学習装置3についても同様である。
【0042】
撮影装置2は、対象物を互いに異なる向きから同時に撮影可能な複数のカメラ5A-5Cを有する。異なる向きカメラを設けている理由は、対象物外観の特徴を全体的に捉え、識別装置4で対象物の姿勢が変わっても識別を正しく実施できるようにするためである。カメラ5A-5Cは、それぞれ公知の撮影機能を有するビデオカメラであり、対象物6(
図2参照)を被写体とする撮影画像(動画または静止画)を生成する。また、撮影装置2は、公知の通信機能を有し、生成した撮影画像を学習装置3に対して順次送信する。撮影装置2は、公知の通信ケーブルや無線通信により学習装置3に直接接続可能であるが、これに限らず、公知の通信ネットワーク10(LAN、インターネット等)を介して学習装置3に接続されてもよい。
【0043】
なお、撮影装置2によって撮影される対象物は、本開示に示すものに限定されず、画像認識の対象となり得る任意の物体である。また、カメラ5A-5Cによって生成される撮影画像としては、画像認識(対象物の識別)に利用可能な限りにおいて任意の形式を採用することができ、例えば、カメラ5A-5CがRGB-Dセンサを備えることにより、撮影画像としてRGB 画像および距離画像が生成されてもよい。また、本開示では、学習装置3の各々に対応して撮影装置2が配置されているが、これに限らず、1つの撮影装置2が複数の学習装置3のために撮影画像を生成してもよい。
【0044】
学習装置3において、画像取得部11は、撮影装置2によって生成された撮影画像を順次取得する。また、物体識別情報取得部12は、得られた撮影画像からサーバ装置4によって認識された1以上の物体の候補及びそれに対応するスコア(所定の識別モデルに基づく認識の確からしさを表す評価値)を取得する。本実施形態では、物体識別情報取得部12は、撮影画像をサーバ装置4に送信することにより、サーバ装置4による対象物認識処理の結果として得られた1以上の物体の候補及びそれに対応するスコアを取得する。また、ラベル候補設定部13は、得られたスコアに基づき、1以上の物体の候補に関する情報(例えば、物体の名称)を、対応する撮影画像のラベルの候補として表示部14に表示する。
【0045】
また、学習装置3は、学習データ生成処理に用いられる各種情報やデータを記憶する記憶部22と、ユーザ(例えば、撮影者)が学習装置3に対して入力操作を行うための入力部23と、を更に備える。なお、表示部14は、上述のラベルの候補以外にも、学習データ生成処理に関してユーザに必要な情報を適宜表示することができる。
【0046】
サーバ装置4は、学習装置3から送信された撮影画像を順次取得する画像取得部24と、画像認識(未知の物体の識別)に用いられる識別モデル(学習済みモデル)25を記憶する記憶部26と、撮影画像における対象物を、識別モデル25により未知の物体として識別する画像識別部27と、を備える。画像識別部27は、公知の手法により、識別モデル25により物体の識別を行うことができる。
【0047】
なお、識別モデル25としては、複数の学習装置3から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いることができる。また、学習システム1では、学習装置3の物体識別情報取得部12が撮影画像に含まれる対象物(前景領域)の特徴量を抽出し、その抽出した特徴量の情報をサーバ装置4に送信する構成も可能である。その場合、サーバ装置4の画像識別部27は、学習装置3からの特徴量の情報に基づき、識別モデル25により物体の識別を行うことができる。
【0048】
図2は、
図1に示した撮影装置2の構成例を示す説明図である。
【0049】
撮影装置2は、床面や机上面等に載置される略平板状のベース部31と、ベース部31の一端側から略鉛直方向に延出する略平板状の第1のアーム部32と、第1のアーム部32の上端からベース部31の他端側に向けて斜め上方に延出する略平板状の第2のアーム部33と、第2のアーム部33の上端からベース部31の他端側に向けて略水平に延出する第3のアーム部34と、を有する。なお、
図2では、図示を省略するが、撮影装置2は、内蔵バッテリ(または電源ケーブル)や、学習装置3との通信を行うための無線通信部(または通信ケーブル)等を備える。
【0050】
ベース部31は、鉛直方向の軸周りに回転自在に設けられた回転台41を有している。ユーザは、対象物(ここでは、飲料容器)6を回転台41上に配置し、その状態で回転台41を所望の回転角度で回転させることにより、カメラ5A-5Cに対する対象物6の方向(すなわち、カメラ5A-5Cに対する対象物6の配置)を変更することができる。
【0051】
第3のアーム部34の下面側には、平面視カメラ5Aが配置されている。平面視カメラ5Aの撮影方向は、下方の回転台41に向けられており、対象物6の平面図に概ね相当する撮影画像46を撮影可能である。
【0052】
また、第2のアーム部33の下面側(内面側)には、斜視カメラ5Bが配置されている。カメラ5Bの撮影方向は、斜め下方の回転台41に向けられており、対象物6の上側からの斜視図に概ね相当する撮影画像47を撮影可能である。
【0053】
また、第1のアーム部32の内面側(ベース部31の他端側)には、側面視カメラ5Cが配置されている。カメラ5Cの撮影方向は、略水平方向(回転台41の上方)に向けられており、対象物6の側面図に概ね相当する撮影画像48を撮影可能である。
【0054】
なお、撮影装置2の構成(例えば、カメラの数、撮影方向)は、
図2に示したものに限らず種々の変更が可能である。撮影装置2は、少なくとも1つのカメラを有するものであればよい。
【0055】
図3は、
図1に示した学習装置3のハードウェア構成を示す説明図である。
【0056】
学習装置3は、公知のハードウェア構成を有するコンピュータからなり、所定の制御プログラムに基づき、学習データの収集処理(必要に応じて物体認識処理を含む)を統括的に実行するプロセッサ51、このプロセッサ51のワークエリア等として機能する揮発性メモリであるRAM52、プロセッサ51が実行する制御プログラムやデータを格納する不揮発性メモリであるROM53、HDDやフラッシュメモリ等からなる記憶装置54、液晶モニタ等からなる表示装置55、キーボード、マウス、及びタッチパネル等の入力デバイスからなる入力装置56、他の装置との通信を実行する通信モジュール57等を有している。
【0057】
図1に示した学習装置3における表示部14、記憶部22、及び入力部23の機能は、それぞれ
図2に示した表示装置55、記憶装置54、及び入力装置56によって実現可能である。また、学習装置3における画像取得部11、物体識別情報取得部12、及びラベル候補設定部13の機能の少なくとも一部は、プロセッサ51が制御プログラムを実行することによって実現可能である。なお、学習装置3は、必ずしも
図3に示した構成に限定される必要はなく、
図1に示した学習装置3の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。
【0058】
なお、サーバ装置4のハードウェア構成については、説明を省略するが、上記学習装置3と同様の公知の構成を有するコンピュータから構成することができる。その場合、記憶部26は、記憶装置54と同様の装置によって実現可能であり、また、画像取得部24及び画像識別部27の機能の少なくとも一部は、プロセッサが制御プログラムを実行することによって実現可能である。
【0059】
図4は、学習システム1における処理(学習装置3の学習データ生成処理、サーバ装置4の対象物認識処理)の流れを示すフロー図であり、
図5は、
図4中のステップST101におけるユーザの操作画面の例を示す説明図であり、
図6は、
図4中のステップST204において算出されるスコアの一例を示す説明図であり、
図7は、
図4中のステップST106におけるユーザの操作画面の例を示す説明図であり、
図8-
図11は、それぞれ
図4中のステップST107におけるユーザの操作画面の第1-第4の例を示す説明図である。
【0060】
図4に示すように、学習装置3は、撮影装置2おいてユーザが対象物を撮影する操作が実行されると(ST101:Yes)、その撮影画像およびその関連情報(カメラ5A-5Cの撮影条件等)を含む撮影データを撮影装置2から取得する(ST102)。なお、本開示では、各カメラ5A-5Cにより複数(3つ)の撮影データ(撮影画像)が取得されるが、学習システム1では、少なくとも1つの撮影画像が得られればよい。
【0061】
上記ステップST101では、表示装置55には、例えば
図5に示すような撮影画面61が表示される。ユーザは、撮影画面61において、撮影ボタン62をクリック(押下)することにより、カメラ5A-5Cによる撮影を実行することができる。また、ユーザは、カメラ選択ボタン63を操作(カメラ1-3のいずれかのボタン押下)することにより、画像表示エリア64に表示中の撮影画像を、対応するカメラ5A-5Cのいずれかの撮影画像に変更することができる。
【0062】
次に、学習装置3は、撮影装置2から取得した撮影画像をサーバ装置4に対して送信する(ST103)。なお、ステップST103では、上述のように、学習装置3で抽出した対象物の特徴量の情報をサーバ装置4に送信する構成も可能である。
【0063】
サーバ装置4は、学習装置3から撮影画像を受信すると(ST201:Yes)、撮影画像の前景領域を物体(対象物)として抽出し(ST202)、その前景領域から特徴量を抽出する(ST203)。このとき、サーバ装置4は、例えば、HOG(Histograms of Oriented Gradients)やSURF (Speeded-Up Robust Features)などの手法や、ディープラーニングを用いた手法に基づき特徴量を抽出することができる。さらに、サーバ装置4は、識別モデル25により物体の認識を行うことにより、識別モデル25に基づき、認識した物体の候補およびその認識の確からしさを表すスコアを算出する(ST204)。
【0064】
上記ステップST204では、サーバ装置4は、物体の認識結果として、例えば
図6に示すような認識した物体の候補(ここでは、識別モデル25で用いられるラベル)およびそれに対応するスコアを算出する。ここでは、スコアは、例えば0~100の範囲で設定される値であり、より高い値ほど認識の確からしさが高いことを示す。認識の確からしさの高さを示す値であれば、他の範囲の値であってもよい。
【0065】
その後、サーバ装置4は、ステップST204における物体の認識結果に関する情報(認識した物体の候補(ラベル)およびスコアを含む)を学習装置3に対して送信する(ST205)。
【0066】
学習装置3は、サーバ装置4から物体の認識結果に関する情報を受信すると(ST104:Yes)、その認識結果に含まれるスコアについて、予め設定された閾値以上の値のスコア(すなわち、認識の確からしさの高い物体の候補)が存在するか否かを判定する(ST105)。
【0067】
ステップST105において閾値以上の値のスコアが存在しない場合(No)、学習装置3は、ユーザに撮影画像に対するラベル(学習データのラベル)を入力させるための処理を実行する(ST106)。
【0068】
上記ステップST106では、学習装置3は、例えば
図7に示すように、ユーザがラベル入力するための入力画面71を撮影画面61中に表示する。ユーザは、入力画面71において、撮影画像(すなわち、対象物)に対応するラベル(ここでは、「物体a」)を入力することができる。このように、表示されたラベルの候補が不適切な場合でも、ユーザがラベルを入力することにより、適切なラベルを付与することが可能となる。
【0069】
一方、ステップST105において、1以上の物体の候補について閾値以上の値のスコアが存在する場合(Yes)、学習装置3は、閾値以上の値のスコアを有する物体の候補をラベルの候補として表示装置55に表示する(ST107)。そこで、学習装置3は、表示装置55に表示されたラベルの候補(いずれか1つ)に対してユーザの承認を得ると(ST108:Yes)、その物体の候補を撮影画像に対応するラベルとして自動入力(学習データのラベルとして記録)する(ST109)。ステップST108では、ユーザは、例えば入力装置56の操作により、表示装置55に表示された物体の候補の1つを選択(すなわち、承認)することができる。このように、ユーザによって選択されたラベルの候補が撮影画像のラベルとして付与されるため、ユーザ(ラベルを付与する者)が撮影画像に対してラベルを付与する負荷を効果的に軽減することができる。
【0070】
また、学習装置3は、ステップST108において、ユーザの承認を得られなかった場合(No)には、上述の場合と同様に、撮影画像に対応するラベルをユーザに入力させる処理を実行する(ST106)。このとき、表示装置55に表示されたラベルの候補とは異なるラベルがユーザによって入力された場合には、学習装置3は、ユーザの承認を得られなかったラベルの候補について、次回以降にサーバ装置4が認識する物体の候補から除外(対応するデータを削除)させるための命令をサーバ装置4に送信することができる。
【0071】
上記ステップST107では、学習装置3は、例えば
図8に示すような認識結果画面75を撮影画面61中に表示することができる。
図8では、最も高いスコアを有する1つの物体の候補(物体a)がその画像と共に表示される例を示している。ユーザは、物体aが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、登録ボタン77を押下することができる。また、ユーザは、物体aが対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a以外の物体の名称)を入力することができる。
【0072】
また、別の例として、上記ステップST107では、学習装置3は、例えば
図9に示すような認識結果画面75を撮影画面61中に表示することができる。
図9では、閾値以上の値のスコアを有する複数の物体の候補(物体a、c、g)がそれらの画像と共にスコアの高い順に上から順に配置される例を示している。ユーザは、物体a、c、gのいずれかが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、認識結果画面75において、該当する1つの物体の画像を選択(クリック)した後に、登録ボタン77を押下することができる。また、ユーザは、物体a、c、gのいずれも対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a、c、g以外の物体の名称)を入力することができる。
【0073】
また、別の例として、上記ステップST107では、学習装置3は、例えば
図10に示すような認識結果画面75を表示することができる。
図10では、各カメラ5A-5Cの撮影画像(対象物)に関し、閾値以上の値のスコアを有する複数の物体の候補(物体m、c、x)がそれらの画像と共にスコアの高い順に上から順に物体表示エリア76に配置される例を示している。ユーザは、物体m、c、xのいずれかが対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、認識結果画面75において、該当する1つの物体の画像を選択(クリック)した後に、登録ボタン77を押下することができる。また、ユーザは、物体m、c、xのいずれも対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体m、c、x以外の物体の名称)を入力することができる。
【0074】
なお、本実施の形態では、撮影装置2は、各カメラ5A-5Cを固定的した向きで備えているが、1つのカメラを可動式にすることで同様の撮影画像を得ることもできる。すなわち、
図10に記載のカメラごとに候補を示す例は、撮影した向きごとに候補を表示する一例である。このようにすることで、特定の向きでは誤認識が発生しやすい対象物を学習させる場合であっても、別の向きから見た候補を表示できるため、より正確なラベルを提案できる可能性が高まる。
【0075】
また、別の例として、上記ステップST107では、学習装置3は、例えば
図11に示すような認識結果画面75を表示することができる。
図11では、閾値以上の値のスコアを有する物体aおよびその画像と共に、対応する撮影画像が比較対象として配置される例を示している。ユーザは、物体aが撮影画像に含まれる対象物に相当すると判断した場合には、上記ステップST108に関する承認の操作として、登録ボタン77を押下することができる。また、ユーザは、物体aが対象物に相当しないと判断した場合には、上記ステップST106に関する操作として、認識結果画面75に表示されたラベル入力欄78に撮影画像(すなわち、対象物)に対応するラベル(ここでは、物体a以外の物体の名称)を入力することができる。
【0076】
このように、学習システム1では、画像認識に利用される学習データの生成において、対象物6に関して所定の識別モデルに基づき認識された1以上の物体の候補に関する情報を、対応する撮影画像に関する学習データのラベルの候補として表示装置55に表示するため、撮影画像に対してラベルを付与する者の負荷を軽減することができる。
【0077】
なお、本実施形態では、サーバ装置4が認識した物体の候補およびスコアを学習装置3に送信し、学習装置3にてスコアが閾値以上の候補が存在するか否かを判定していたが、これに限られるものではない。サーバ装置4にてスコアが閾値以上の候補が存在するか否かを判定し、スコアが閾値以上の候補のみを学習装置3に送信するものとしてもよい。この場合、サーバ装置4にて候補が絞り込めるのであれば、スコアを学習装置3に送信しなくともよい。
【0078】
(第2実施形態)
図12は、本開示の第2実施形態に係る学習システム1の概略構成図である。
図12では、
図1に示したものと同様の構成要素について同一の符号が付されている。また、第2実施形態に係る学習システム1に関し、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
【0079】
上述の第1実施形態では、サーバ装置4が対象物認識処理を実行する例を示したが、第2実施形態では、学習装置3が、識別モデル(学習済みモデル)25を記憶する記憶部26と、画像識別部27とを備えることにより、サーバ装置4の代わりに対象物認識処理を実行することができる。
【0080】
このような構成により、第2実施形態に係る学習システム1では、学習装置3のみで学習データ生成処理を完結させることができる。
【0081】
以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。また、上記実施形態に示した本開示に係る学習装置、学習システム、及び学習方法は、必ずしも全てが必須ではなく、当業者であれば、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。
【0082】
上記の実施の形態では、識別モデル25として、複数の学習装置3から得られた撮影画像を含む学習データに基づく学習によって得られた学習済みモデルを用いていたが、これに限られるものではない。複数の学習装置3の間で学習結果を共有できない場合などに備え、予め用意された標準的な学習済みモデルを用意し識別モデル25として用いてもよい。
【産業上の利用可能性】
【0083】
本開示に係る学習装置、学習システム、及び学習方法は、画像認識に利用される学習データの生成において、撮影画像に対してラベルを付与する者の負荷を軽減することを可能とし、画像認識に利用される学習データを生成する学習データ収集装置、学習データ収集システム、及び学習データ収集方法などとして有用である。
【符号の説明】
【0084】
1 :学習システム
1-3 :カメラ
2 :撮影装置
3 :学習装置
4 :サーバ装置
5A-5C:カメラ
6 :対象物
10 :通信ネットワーク
11 :画像取得部
12 :物体識別情報取得部
13 :ラベル候補設定部
24 :画像取得部
25 :識別モデル
26 :記憶部
27 :画像識別部
41 :回転台
46-48:撮影画像
51 :プロセッサ
54 :記憶装置
55 :表示装置
56 :入力装置
57 :通信モジュール
61 :撮影画面
62 :撮影ボタン
63 :カメラ選択ボタン
64 :画像表示エリア
71 :入力画面
75 :認識結果画面
76 :物体表示エリア
77 :登録ボタン
78 :ラベル入力欄