(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027258
(43)【公開日】2024-03-01
(54)【発明の名称】分類器生成装置、分類器生成方法、分類器生成プログラム、および画像分類装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240222BHJP
G06T 7/11 20170101ALI20240222BHJP
G06V 10/764 20220101ALI20240222BHJP
【FI】
G06T7/00 350B
G06T7/11
G06V10/764
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022129914
(22)【出願日】2022-08-17
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】大平 英貴
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA02
5L096FA02
5L096FA32
5L096GA19
5L096GA51
5L096HA11
5L096JA22
5L096KA04
(57)【要約】
【課題】領域分類器を容易に生成する。
【解決手段】分類器生成装置10は、パッチ画像取得部40Aと、パッチ分類器生成部40Bと、領域分類結果画像生成部40Cと、領域分類器生成部40Fと、を備える。パッチ画像取得部40Aは、状態可変の対象物20の画像である教師画像における複数画素からなる部分領域をパッチ画像として取得する。パッチ分類器生成部40Bは、パッチ画像を入力とし、パッチ画像に写り込んだ対象物の状態の分類結果を出力とするパッチ分類器を生成する。領域分類結果画像生成部40Cは、パッチ分類器を用いて、画像を構成する要素であってパッチ画像より小さい領域である要素ごとに分類結果を規定した領域分類結果画像を生成する。領域分類器生成部40Fは、教師画像と領域分類結果画像との対からなる学習データを用いて、画像を入力とし領域分類結果画像である領域分類結果を出力とする領域分類器を生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
状態可変の対象物の画像である教師画像における複数画素からなる部分領域をパッチ画像として取得するパッチ画像取得部と、
前記パッチ画像を入力とし、前記パッチ画像に写り込んだ前記対象物の状態の分類結果を出力とするパッチ分類器を生成するパッチ分類器生成部と、
前記パッチ分類器を用いて、前記画像を構成する要素であって前記パッチ画像より小さい領域である前記要素ごとに前記分類結果を規定した領域分類結果画像を生成する領域分類結果画像生成部と、
前記教師画像と前記領域分類結果画像との対からなる学習データを用いて、前記画像を入力とし前記領域分類結果画像である領域分類結果を出力とする領域分類器を生成する領域分類器生成部と、
を備える分類器生成装置。
【請求項2】
前記領域分類結果画像生成部は、
前記パッチ画像の画像枠の位置を前記教師画像内で前記パッチ画像のサイズより小さいスライド幅でスライドさせ、スライドさせた各位置の前記画像枠内の枠内画像を前記パッチ分類器へ入力し、前記パッチ分類器から出力された前記枠内画像ごとの前記分類結果を用いて、前記領域分類結果画像を生成する、
請求項1に記載の分類器生成装置。
【請求項3】
前記領域分類結果画像から、前記領域分類結果画像における位置および前記教師画像における対応する画素位置の画素値が類似する複数の前記要素からなる要素群を特定する特定部と、
特定した前記要素群ごとに、前記要素群に含まれる複数の前記要素の各々に規定された前記分類結果を、前記要素群に含まれる前記要素に規定された最大数の前記分類結果に補正した、補正領域分類結果画像を生成する補正部と、
を備え、
前記領域分類器生成部は、
前記教師画像と前記領域分類結果画像を補正した前記補正領域分類結果画像との対からなる前記学習データを用いて、前記画像を入力とし前記補正領域分類結果画像である前記領域分類結果を出力とする前記領域分類器を生成する、
請求項1に記載の分類器生成装置。
【請求項4】
前記パッチ分類器生成部は、
前記パッチ画像から、前記パッチ画像を複数領域に分割した分割領域ごとに前記パッチ画像に写り込んだ前記対象物の状態の前記分類結果を出力する前記パッチ分類器を生成する、
請求項1に記載の分類器生成装置。
【請求項5】
前記パッチ分類器生成部は、
前記パッチ画像から、前記パッチ画像を前記要素ごとに分割した前記分割領域ごとに前記分類結果を出力する前記パッチ分類器を生成する、
請求項4に記載の分類器生成装置。
【請求項6】
前記パッチ分類器生成部は、
前記パッチ画像から、前記パッチ画像を前記画像に写り込んだ構造物の構造物領域と前記対象物の対象物領域とに分割した前記分割領域ごとに前記分類結果を出力する、前記パッチ分類器を生成する、
請求項4に記載の分類器生成装置。
【請求項7】
前記パッチ分類器生成部は、
前記パッチ画像、および前記パッチ画像を前記パッチ画像に写り込んだ構造物の構造物領域と前記対象物の対象物領域とに分割した分割結果から、前記パッチ画像を複数領域に分割した前記分割領域ごとの前記分類結果を出力する、前記パッチ分類器を生成する、
請求項4に記載の分類器生成装置。
【請求項8】
前記パッチ分類器生成部は、
取得した前記パッチ画像の内、1種類のみの前記状態の前記対象物が写り込んだ前記パッチ画像を用いて前記パッチ分類器を生成する、
請求項1に記載の分類器生成装置。
【請求項9】
前記パッチ分類器生成部は、
前記対象物に対する操作を行うための操作機構の動き情報を取得し、
前記教師画像の撮影時の前記操作機構の動き情報に基づいて、前記教師画像から切り出された前記パッチ画像に前記分類結果を教示し、
前記パッチ画像を入力とし、教示した前記分類結果を出力とする前記パッチ分類器を生成する、
請求項1に記載の分類器生成装置。
【請求項10】
前記パッチ分類器生成部は、
取得した前記パッチ画像の内、前記対象物に対する操作を行うための操作機構が写り込んだ前記パッチ画像を、前記パッチ分類器の生成に用いる前記パッチ画像の対象外とする、
請求項1に記載の分類器生成装置。
【請求項11】
前記パッチ画像取得部は、
取得済の前記パッチ画像とは異なる前記パッチ画像を新たな前記パッチ画像として優先的に取得する、
請求項1に記載の分類器生成装置。
【請求項12】
前記領域分類結果画像を、
三次元空間における任意の視点方向から視認した視点変換画像に変換する、視点変換画像生成部、
を備える請求項1に記載の分類器生成装置。
【請求項13】
状態可変の対象物の画像である教師画像における複数画素からなる部分領域をパッチ画像として取得するステップと、
前記パッチ画像を入力とし、前記パッチ画像に写り込んだ前記対象物の状態の分類結果を出力とするパッチ分類器を生成するステップと、
前記パッチ分類器を用いて、前記画像を構成する要素であって前記パッチ画像より小さい領域である前記要素ごとに前記分類結果を規定した領域分類結果画像を生成するステップと、
前記教師画像と前記領域分類結果画像との対からなる学習データを用いて、前記画像を入力とし前記領域分類結果画像である領域分類結果を出力とする領域分類器を生成するステップと、
を含む分類器生成方法。
【請求項14】
状態可変の対象物の画像である教師画像における複数画素からなる部分領域をパッチ画像として取得するステップと、
前記パッチ画像を入力とし、前記パッチ画像に写り込んだ前記対象物の状態の分類結果を出力とするパッチ分類器を生成するステップと、
前記パッチ分類器を用いて、前記画像を構成する要素であって前記パッチ画像より小さい領域である前記要素ごとに前記分類結果を規定した領域分類結果画像を生成するステップと、
前記教師画像と前記領域分類結果画像との対からなる学習データを用いて、前記画像を入力とし前記領域分類結果画像である領域分類結果を出力とする領域分類器を生成するステップと、
をコンピュータに実行させるための分類器生成プログラム。
【請求項15】
請求項1に記載の分類器生成装置によって生成された前記領域分類器を用いて画像を分類する画像分類装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、分類器生成装置、分類器生成方法、分類器生成プログラム、および画像分類装置に関する。
【背景技術】
【0002】
画像中の全ての画素の各々に対して正解クラスを教示した学習データを用いて、画像から分類結果を画素ごとに規定した領域分類結果を出力する領域分類器を生成する方法が開示されている(例えば、特許文献1、特許文献2、および特許文献3等参照)。また、画像中に写り込んだ対象の種類の教示、または画像中に写り込んだ対象の領域を矩形枠で囲む教示を行うことで、領域分類器を生成する方法が開示されている(例えば、非特許文献1、非特許文献2、および非特許文献3参照)。また、画像中の一部の画素に対して正解クラスを教示した学習データを用いて、領域分類器を生成する方法が開示されている(非特許文献4等参照)。
【0003】
しかし、画像中の全ての画素の各々に対して正解クラスを教示する方法は、教示作業を行うユーザの作業負荷が高い。また、互いに異なる分類結果を表す複数の領域が混在した対象物が画像中に写り込んでいる場合、領域の境界付近の画素の正解クラスをユーザが教示することは困難となる場合があった。また、画像中に写り込んだ対象の種類を教示する方法では、領域分類器の生成のために、様々な種類の対象が写り込んだ画像を大量に用意する必要があった。また、画像中に写り込んだ対象の領域を矩形枠で囲む教示を行う方法では、互いに異なる分類結果を表す複数の領域間の境界が明確な画像を用意する必要があった。また、画像中の一部の画素に対して正解クラスを教示する方法では、領域分類器の生成のために、様々な種類の対象が様々な位置に写り込んだ画像を大量に用意する必要があった。すなわち、従来技術では、領域分類器を容易に生成することは困難であった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第6309663号公報
【特許文献2】特表2021-509713号公報
【特許文献3】特許第6800901号公報
【非特許文献】
【0005】
【非特許文献1】Guolei Sun, Wenguan Wang, Jifeng Dai, and Luc Van Gool. Mining cross-image semantics for weakly supervised semantic segmentation. In ECCV, 2020.
【非特許文献2】Ahn, J., Cho, S., Kwak, S.: Weakly supervised learning of instance segmentation with inter-pixel relations. In: CVPR (2019)
【非特許文献3】A. Khoreva, R. Benenson, J. Hosang, M. Hein, and B. Schiele. Simple does it: Weakly supervised instance and semantic segmentation. In CVPR, 2017.
【非特許文献4】D. Lin, J. Dai, J. Jia, K. He, and J. Sun. Scribblesup: Scribble-supervised convolutional networks for semantic segmentation. In (CVPR), 2016.
【非特許文献5】O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional networks for biomedical image segmentation,” in MICCAI. Springer, 2015, pp. 234-241.
【非特許文献6】Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao,Gang Yu, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In Proceedings of the European Conference on Computer Vision(ECCV), pages 325-341, 2018.
【非特許文献7】P. Krahenb ¨ uhl and V. Koltun, “Efficient inference in fully connected crfs with gaussian edge potentials,” in NIPS, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、上記に鑑みてなされたものであって、領域分類器を容易に生成することができる、分類器生成装置、分類器生成方法、分類器生成プログラム、および画像分類装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
実施形態の分類器生成装置は、パッチ画像取得部と、パッチ分類器生成部と、領域分類結果画像生成部と、領域分類器生成部と、を備える。パッチ画像取得部は、状態可変の対象物の画像である教師画像における複数画素からなる部分領域をパッチ画像として取得する。パッチ分類器生成部は、前記パッチ画像を入力とし、前記パッチ画像に写り込んだ前記対象物の状態の分類結果を出力とするパッチ分類器を生成する。領域分類結果画像生成部は、前記パッチ分類器を用いて、前記画像を構成する要素であって前記パッチ画像より小さい領域である前記要素ごとに前記分類結果を規定した領域分類結果画像を生成する。領域分類器生成部は、前記教師画像と前記領域分類結果画像との対からなる学習データを用いて、前記画像を入力とし前記領域分類結果画像である領域分類結果を出力とする領域分類器を生成する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、生成システムの全体構成の一例を示す模式図である。
【
図2】
図2は、生成システムの機能的構成の一例を示すブロック図である。
【
図3】
図3は、パッチ画像の取得の一例の説明図である。
【
図4】
図4は、パッチ画像の一例を示す模式図である。
【
図5】
図5は、パッチ分類器の生成の一例の説明図である。
【
図6A】
図6Aは、領域分類結果画像の生成の一例の説明図である。
【
図6B】
図6Bは、領域分類結果画像の生成の一例の説明図である。
【
図7】
図7は、領域分類器の生成の一例の説明図である。
【
図8】
図8は、情報処理の流れの一例を示すフローチャートである。
【
図9A】
図9Aは、パッチ分類器の生成の一例の説明図である。
【
図9B】
図9Bは、パッチ分類器の生成の一例の説明図である。
【
図9C】
図9Cは、パッチ分類器の生成の一例の説明図である。
【
図10】
図10は、分類器生成装置の一例のハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して、分類器生成装置、分類器生成方法、分類器生成プログラム、および画像分類装置を詳細に説明する。
【0010】
(第1の実施形態)
図1は、本実施形態の生成システム1の全体構成の一例を示す模式図である。本実施形態では、生成システム1を、ゴミを貯留する設備に適用した例を一例として説明する。なお、生成システム1の適用対象は、ゴミを貯留する設備に限定されない。
【0011】
生成システム1は、分類器生成装置10と、撮影部12と、操作機構14と、を備える。分類器生成装置10、撮影部12、および操作機構14は、通信可能に接続されている。
【0012】
分類器生成装置10は、対象物20の画像を入力とし、対象物20の領域分類結果を出力とする領域分類器を生成する情報処理装置である。領域分類結果および領域分類器の詳細は後述する。
【0013】
対象物20とは、領域分類の対象となる物である。対象物20は、状態可変の物である。対象物20は、外部から力が加わることによって状態が変化する物、内側から力が加わることによって状態が変化する物、および、自律的に状態が変化する物、の何れであってもよい。対象物20は、例えば、ゴミ、汚泥、土、砂利、鉱物、木材、剪定枝、液体などの流動物、人、車、動物、などである。
【0014】
本実施形態では、対象物20が、ゴミである形態を一例として説明する。ゴミは、複数の物質の集合体であり、外部から力が加わることによって、物質の撹拌状態、物質の位置関係、物質の種類、等の状態が変化する。
【0015】
本実施形態では、対象物20は、構造物22内に収容されている。
【0016】
構造物22とは、実空間において少なくとも一部の領域に対象物20が接触配置された物である。構造物22は、形状および位置固定の物である。なお、構造物22は、一部の領域の形状が可変であってもよい。
【0017】
構造物22は、例えば、対象物20を保持または支持する箱状部材である。本実施形態では、構造物22が、ゴミである対象物20を内側に貯留する貯留槽である形態を一例として説明する。ゴミを貯留する貯留槽は、ゴミピットと称される場合がある。本実施形態では、構造物22は、ゴミを焼却する焼却施設等に設置されたゴミピットである場合を想定して説明する。また、本実施形態では、構造物22の形状が、略直方体形状である場合を一例として説明する。なお、構造物22の形状は、直方体形状に限定されない。
【0018】
ゴミピットである構造物22は、内側の底部に対象物20を貯留する。構造物22の壁部には、例えば、ゴミである対象物20を搬入するための搬入口22A、対象物20を焼却炉などに排出するための排出口22Dなどが設けられている。構造物22の内壁の搬入口22Aの下部には、対象物20を構造物22の底部へと導くためのスロープ22Bが設けられている。搬入口22Aを介して構造物22内に搬入された対象物20は、スロープ22Bを介して構造物22内の底部へと貯留される。スロープ22Bには、例えば、対象物20の飛散を防止し底部へ案内するための防止部材22Cが設けられている。対象物20は、防止部材22Cによって飛散を抑制されながらスロープ22Bの傾斜に沿って構造物22の底部へと流れ、底部に貯留される。なお、構造物22は、対象物20を保持または支持する箱状部材であればよく、上記構成に限定されない。
【0019】
撮影部12は、撮影によって撮影画像データを出力する。撮影部12は、例えば、ビデオカメラ、ネットワークカメラ、一眼レフカメラ、スマートフォンに搭載されたカメラ、などである。撮影部12は、対象物20および構造物22を撮影可能な位置に配置されている。撮影部12は、撮影によって対象物20および構造物22を含む撮影画像データを取得する。以下では、撮影画像データを単に画像と称して説明する。
【0020】
撮影部12によって撮影された画像には、少なくとも対象物20が写り込んでいる。画像は、カラー画像、グレースケール画像、の何れであってもよい。
【0021】
操作機構14は、実空間における対象物20に対して操作を行う機構である。対象物20に対する操作は、対象物20の全体に対する操作、対象物20の一部に対する操作、の何れであってもよい。操作機構14は、対象物20に物理的に接触して操作を行う機構、対象物20に対して光や液体などにより物理的に非接触で操作を行う機構、の何れであってもよい。対象物20に対して物理的に接触して操作を行う機構は、例えば、対象物20の把持、撹拌、移動、把持からの解放、引っ掛け、などを行うクレーン、対象物20に対して穴あけ等を行うドリル、対象物20に対して掘削などを行うショベル、などである。対象物20に対して非接触で操作を行う機構は、例えば、光を照射する機構、液体を噴射する機構、などである。対象物20が磁性を示す場合、操作機構14は、磁力によって対象物20を保持または開放する機構であってもよい。
【0022】
本実施形態では、操作機構14が、対象物20の把持、撹拌、移動、把持からの解放、引っ掛け、などの操作を行うクレーンである形態を一例として説明する。
【0023】
操作機構14は、構造物22に固定された支持部16によって支持されている。支持部16は、鉛直方向(矢印Y方向)、鉛直方向に対して直交する方向(矢印X方向、矢印Z方向)に操作機構14を移動可能に支持する。矢印Y方向は、鉛直方向に一致する方向である。矢印Y方向、矢印X方向、および矢印Z方向は、互いに直交する方向である。鉛直方向である矢印Y方向をY軸またはY軸方向、矢印X方向をX軸またはX軸方向、矢印X方向をZ軸またはZ軸方向と称して説明する場合がある。
【0024】
X軸方向、Y軸方向、およびZ軸方向に移動可能に支持されることで、操作機構14は、構造物22内の空間における様々な位置で対象物20を操作可能に構成されている。また、操作機構14の先端は、例えば、駆動可能な爪部として構成されており、爪部の駆動によって対象物20の把持、および把持からの解放などの操作が行われる。また、操作機構14は、支持部16によって移動可能に支持され、且つ、駆動する爪部を備えることで、対象物20に対して撹拌および移動などの操作可能に構成されている。
【0025】
分類器生成装置10は、撮影部12で撮影された対象物20を含む画像を用いて、領域分類器を生成する。
【0026】
図2は、生成システム1の機能的構成の一例を示すブロック図である。
図2には、説明の観点から、対象物20および構造物22の一部を合わせて示す。
【0027】
分類器生成装置10は、記憶部30と、UI(ユーザ・インターフェース)部32と、通信部34と、制御部40と、を備える。記憶部30、UI部32、通信部34、および制御部40は、バス36などを介して通信可能に接続されている。
【0028】
記憶部30は、各種のデータを記憶する。記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部30は、分類器生成装置10の外部に設けられた記憶装置であってもよい。
【0029】
通信部34は、撮影部12および操作機構14と通信する通信インターフェースである。通信部34は、ネットワーク等を介して外部の情報処理装置と更に通信してもよい。
【0030】
UI部32は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。UI部32は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。
【0031】
制御部40は、分類器生成装置10において各種の情報処理を実行する。
【0032】
制御部40は、パッチ画像取得部40Aと、パッチ分類器生成部40Bと、領域分類結果画像生成部40Cと、特定部40Dと、補正部40Eと、領域分類器生成部40Fと、視点変換画像生成部40Gと、を備える。
【0033】
パッチ画像取得部40A、パッチ分類器生成部40B、領域分類結果画像生成部40C、特定部40D、補正部40E、領域分類器生成部40F、および視点変換画像生成部40Gは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。また、上記各部の少なくとも1つを、通信部34およびネットワーク等を介して制御部40に接続された外部の情報処理装置に搭載した構成としてもよい。
【0034】
パッチ画像取得部40Aは、対象物20の画像である教師画像における、複数画素からなる部分領域をパッチ画像として取得する。
【0035】
図3は、パッチ画像54の取得の一例の説明図である。
図3には、撮影部12で撮影された画像50を教師画像52として示す。教師画像52とは、撮影部12で撮影された画像50の内、後述するパッチ分類器および後述する領域分類器の学習に用いられる画像50である。
【0036】
パッチ画像54とは、教師画像52における複数画素からなる部分領域の画像である。言い換えると、パッチ画像54は、教師画像52における任意の位置で教師画像52の一部の部分の部分領域を切り出した画像である。
図3には、教師画像52における任意の位置に配置した画像枠56内を切り出した領域をパッチ画像54として示す。また、パッチ画像54は、複数画素の群からなる領域である。パッチ画像54のサイズは、教師画像52より小さいサイズであり、教師画像52を構成する1画素分のサイズより大きいサイズであり、且つ、複数の画素群に相当するサイズである。パッチ画像54のサイズは、上記条件を満たすサイズであればよいが、パッチ画像54内に写り込んだ対象物20の状態をユーザが明確に識別可能なサイズであることが好ましい。
【0037】
パッチ画像54の形状は限定されない。パッチ画像54の形状は、矩形状、円形状、矩形状および円形状以外の任意の形状、の何れであってもよい。本実施形態では、パッチ画像54の形状が矩形状である場合を一例として説明する。
【0038】
図2に戻り説明を続ける。パッチ画像取得部40Aは、撮影部12で撮影された対象物20の画像50を、教師画像52として取得する。
【0039】
例えば、パッチ画像取得部40Aは、撮影部12で新たな画像50が撮影されるごとに、撮影された画像50を教師画像52として撮影部12から取得する。
【0040】
また、パッチ画像取得部40Aは、記憶部30から画像50を取得することで、教師画像52を取得してもよい。この場合、制御部40は、撮影部12で撮影された1または複数の画像50を記憶部30に記憶すればよい。そして、パッチ画像取得部40Aは、記憶部30に記憶されている画像50を教師画像52として取得すればよい。
【0041】
パッチ画像取得部40Aは、教師画像52中の任意の位置で、パッチ画像54の外枠である画像枠56内の領域を切り出すことで、切り出した該領域をパッチ画像54として取得する。パッチ画像取得部40Aは、1つの教師画像52における異なる複数の位置の各々から画像枠56内の領域を切り出すことで、複数のパッチ画像54を取得する。また、パッチ画像取得部40Aは、複数の教師画像52の各々から1または複数のパッチ画像54を切り出すことでパッチ画像54を取得してもよい。
【0042】
図4は、教師画像52から切り出されたパッチ画像54の一例を示す模式図である。例えば、パッチ画像取得部40Aは、教師画像52における任意の位置の各々の画像枠56内の領域を切り出すことで、複数のパッチ画像54(例えば、パッチ画像54A~パッチ画像54E)を取得する。
【0043】
【0044】
パッチ分類器生成部40Bは、パッチ分類器を生成する。
【0045】
図5は、パッチ分類器60の生成の一例の説明図である。パッチ分類器60とは、パッチ画像54を入力とし、パッチ画像54に写り込んだ対象物20の状態の分類結果58を出力とする分類器である。
【0046】
分類結果58とは、対象物20の状態の分類結果を表す情報である。分類結果58は、正解ラベル、教示データ、等と称される場合がある。対象物20がゴミである場合、対象物20の状態は、例えば、対象物20を構成する物質の種類、対象物20を構成する物質の撹拌度合い、等によって表される。対象物20の状態には、対象物20の状態を予め定めた分類規則に沿って複数の種類に分類した、各種類を用いればよい。対象物20の状態には、対象物20ではないことを表す情報が含まれていてもよい。本実施形態では、分類結果58が、撹拌済み、未撹拌、汚泥、剪定枝、構造物、の何れかの状態を表す形態を一例として説明する。構造物は、構造物22に相当する。なお、分類結果58は、対象物20の種類、および対象物20の状態の分類規則などに応じて定めればよく、撹拌済み、未撹拌、汚泥、剪定枝、構造物、等に限定されない。
【0047】
図4を用いて説明する。パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54と、パッチ画像54に対して教示された分類結果58と、の対を複数取得する。
【0048】
例えば、ユーザは、UI部32を操作することで、パッチ画像取得部40Aが取得したパッチ画像54に対して、正解ラベルである分類結果58を教示する。詳細には、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54の一覧をUI部32へ表示する。ユーザは、UI部32を操作することで、UI部32に表示されたパッチ画像54の各々に対して、正解ラベルである分類結果58を教示する。
【0049】
図4には、パッチ画像54A~パッチ画像54Eの各々に対して、それぞれ、撹拌済み、未撹拌、汚泥、剪定枝、構造物が分類結果58(分類結果58A~分類結果58E)として教示された場面を一例として示す。
【0050】
上述したように、パッチ画像54は、教師画像52における任意の位置で教師画像52の一部の部分の部分領域を切り出した画像であり、複数画素の群からなる領域である。このため、ユーザは、教師画像52を構成する画素の各々に対して画素ごとに分類結果58を教示する場合に比べて、容易且つ高精度にパッチ画像54ごとに分類結果58を教示することができる。また、ユーザは、パッチ画像54ごとに分類結果58を教示することで、画素ごとに分類結果58を教示する場合に比べて、教示作業の作業負荷の低減を図ることができる。
【0051】
なお、パッチ分類器生成部40Bは、生成済のパッチ分類器60にパッチ画像54を入力することで、パッチ分類器60からの出力として分類結果58を取得してもよい。そして、パッチ分類器生成部40Bは、パッチ分類器60に入力したパッチ画像54に対して、パッチ分類器60から出力された分類結果58を教示してもよい。
【0052】
【0053】
パッチ分類器生成部40Bは、パッチ画像54と該パッチ画像54に対して教示された分類結果58との対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器60を学習する。この学習処理によって、パッチ分類器生成部40Bは、パッチ画像54を入力とし分類結果58を出力とするパッチ分類器60を生成する。機械学習には、ディープラーニングなどを用いればよい。
【0054】
なお、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54の内、1種類のみの状態の対象物20が写り込んだパッチ画像54を用いて、パッチ分類器60を生成することが好ましい。
【0055】
1種類の状態のみの対象物20が写り込んだパッチ画像54とは、複数種類の状態が混在していないパッチ画像54であることを意味する。言い換えると、1つのパッチ画像54内に、1つの分類結果58によって表される状態のみの対象物20が写り込んだパッチ画像54であることを意味する。具体的には、1種類の状態のみの対象物20が写り込んだパッチ画像54とは、1つのパッチ画像54内に、撹拌済み、未撹拌、汚泥、剪定枝、および構造物の内の2種類以上の分類結果58によって表される状態が混在しておらず、1種類の状態のみが写り込んだパッチ画像54を意味する。
【0056】
この場合、パッチ分類器生成部40Bは、例えば、パッチ画像取得部40Aで取得したパッチ画像54の一覧をUI部32へ表示する。ユーザは、UI部32を操作することで、UI部32に表示されたパッチ画像54の一覧の内、1種類のみの状態の対象物20が写り込んだパッチ画像54に対して、分類結果58を教示する。例えば、ユーザは、パッチ画像54の全領域に渡って”撹拌済み”の状態の対象物20が写り込んだパッチ画像54に対して、分類結果58として”撹拌済み”を教示する。一方、ユーザは、パッチ画像54内に、”撹拌済み”および”未撹拌”の2つの状態の対象物20写り込んだパッチ画像54に対しては、分類結果58を教示しない。
【0057】
そして、パッチ分類器生成部40Bは、分類結果58を教示されたパッチ画像54と該分類結果58との対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器60を学習することで、パッチ分類器60を生成すればよい。
【0058】
パッチ分類器生成部40Bが、1種類のみの状態の対象物20が写り込んだパッチ画像54を用いてパッチ分類器60を生成することで、入力されたパッチ画像54に対してより正確な分類結果58を出力可能なパッチ分類器60を生成することができる。また、ユーザは、複数種類の状態の対象物20が混在して写り込んだパッチ画像54に対して、分類結果58を教示する教示作業を行う必要がない。このため、ユーザによる教示作業負荷の低減を図ることができる。
【0059】
また、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54を生成済の後述する領域分類器に入力し、領域分類器から出力された画像を構成する画素ごとに規定された分類結果58がパッチ画像54内で同一であるパッチ画像54を、1種類のみの状態の対象物20が写り込んだパッチ画像54として特定してもよい。そして、パッチ分類器生成部40Bは、特定したパッチ画像54と、該パッチ画像54内の画素ごとに規定された同一の分類結果58と、の対を第1学習データとして用いてもよい。
【0060】
ここで、上述したように操作機構14は、対象物20の把持、撹拌、移動、把持からの解放、引っ掛け、などの操作を行うクレーンなどの機構である。このため、操作機構14の動きによって、対象物20の状態は変化する。
【0061】
そこで、パッチ分類器生成部40Bは、操作機構14の動き情報に応じた分類結果58をパッチ画像54に教示してもよい。動き情報は、操作機構14の対象物20に対する操作に関する動きを表す情報である。例えば、動き情報は、対象物20の撹拌、対象物20の移動、対象物20の投入、等を表す情報である。
【0062】
この場合、パッチ分類器生成部40Bは、対象物20に対する操作を行うための操作機構14の動き情報を取得する。パッチ分類器生成部40Bは、通信部34を介して操作機構14から、操作機構14の動きを表す動き情報と、該動き情報によって表される動きを行った動き日時情報と、を取得する。そして、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54と、該パッチ画像54の切り出し元である教師画像52の撮影日時を表す撮影日時情報と、を取得する。
【0063】
パッチ分類器生成部40Bは、撮影日時情報に一致する動き日時情報に対応する動き情報を、該撮影日時情報によって表される撮影日時に撮影された教師画像52から切り出されたパッチ画像54に対応する、操作機構14の動き情報として特定する。
【0064】
そして、パッチ分類器生成部40Bは、特定した動き情報に対応する分類結果58を記憶部30から読み取ることで、ユーザによる操作指示を受け付けることなく、パッチ画像54に分類結果58を自動教示すればよい。なお、記憶部30には、操作機構14の動き情報と、動き情報によって表される動きを操作機構14が行った場合の対象物20の状態を表す分類結果58と、を予め対応付けて記憶しておけばよい。
【0065】
更に、教師画像52には、操作機構14が写り込む場合がある。上述したように操作機構14は、対象物20に対する操作を行うクレーンなどの機構である。このため、操作機構14が対象物20に対して操作を行っている期間に撮影された画像50には、操作機構14が写り込んでいる場合がある。
【0066】
このため、パッチ分類器生成部40Bは、パッチ画像取得部40Aが取得したパッチ画像54の内、操作機構14が写り込んだパッチ画像54を、パッチ分類器60の生成に用いるパッチ画像54の対象外とすることが好ましい。
【0067】
詳細には、例えば、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54の一覧をUI部32へ表示する。ユーザは、UI部32を操作することで、UI部32に表示されたパッチ画像54の一覧の内、操作機構14が写り込んだパッチ画像54には分類結果58を教示しない。そして、パッチ分類器生成部40Bは、分類結果58を教示されたパッチ画像54と、該分類結果58と、の対を第1学習データとして用いて学習することで、パッチ分類器60を生成すればよい。
【0068】
また、パッチ分類器生成部40Bは、パッチ画像取得部40Aで取得したパッチ画像54を生成済の後述する領域分類器に入力し、領域分類器から出力された画像を取得する。そして、パッチ分類器生成部40Bは、該画像構成する画素ごとに規定された分類結果58に、操作機構14を表す分類結果58が含まれる場合、該パッチ画像54をパッチ分類器60の第1学習データの対象外とすればよい。
【0069】
パッチ分類器生成部40Bが、操作機構14の映り込んだパッチ画像54をパッチ分類器60の生成に用いるパッチ画像54の対象外とすることで、高精度な分類結果58をパッチ画像54ごとに出力可能なパッチ分類器60を生成することができる。
【0070】
【0071】
領域分類結果画像生成部40Cは、パッチ分類器生成部40Bで生成されたパッチ分類器60を用いて、画像50を構成する要素ごとに分類結果58を規定した領域分類結果画像を生成する。
【0072】
要素とは、画像50を構成する要素であって、パッチ画像54より小さい領域である。詳細には、要素は、1または複数の画素群からなる領域であり、且つ、パッチ画像54より小さい領域である。本実施形態では、1要素が1画素に相当する形態を一例として説明する。このため、本実施形態では、領域分類結果画像が、画素ごとに分類結果58を規定した画像である形態を一例として説明する。
【0073】
図6Aおよび
図6Bは、領域分類結果画像62の生成の一例の説明図である。
【0074】
図6Aに示すように、領域分類結果画像生成部40Cは、パッチ画像54の画像枠56の位置を、教師画像52内で該パッチ画像54のサイズより小さいスライド幅でスライドさせる。スライド幅は、パッチ画像54のサイズより小さい幅であればよい。例えば、スライド幅は、1または複数画素に相当する幅である。
【0075】
そして、領域分類結果画像生成部40Cは、スライドさせた各位置の画像枠56内の枠内画像を、パッチ分類器60へ入力する。領域分類結果画像生成部40Cは、パッチ分類器60から出力された枠内画像ごとの分類結果58を用いて、領域分類結果画像62を生成する。
【0076】
なお、領域分類結果画像生成部40Cは、画像枠56を1回スライドさせるごとに、スライドさせた位置の画像枠56内の枠内画像をパッチ分類器60へ入力し、該枠内画像の分類結果58を取得してよい。そして、領域分類結果画像生成部40Cは、前回のスライド位置で切り出した枠内画像の分類結果58のスコア(確信度)に応じて、前回のスライド位置に対してより近い位置またはより離れた位置を、次回の枠内画像の切り出し位置として設定し、上記処理を繰り返してよい。
【0077】
詳細には、前回のスライド位置で切り出した枠内画像の分類結果58のスコアが閾値以上である場合、または、パッチ分類器60から出力された複数の種類の状態の各々のスコアの内、最も高い種類のスコアと次に高い種類のスコアとの差が所定差以上である場合がある。この場合、領域分類結果画像生成部40Cは、前回のスライド位置に対して、予め定めたスライド幅より大きいスライド幅分スライドした位置を、次回の枠内画像の切り出し位置として設定すればよい。これらの閾値および所定差は、予め定めればよい。また、これらの閾値および所定差は、ユーザによるUI部32の操作指示などによって適宜変更可能としてもよい。
【0078】
また、前回のスライド位置で切り出した枠内画像の分類結果58のスコアが閾値未満である場合、または、パッチ分類器60から出力された複数の種類の状態の各々のスコアの内、最も高い種類のスコアと次に高い種類のスコアとの差が所定差未満である場合がある。この場合、領域分類結果画像生成部40Cは、前回のスライド位置に対して、予め定めたスライド幅より小さいスライド幅分スライドした位置を、次回の枠内画像の切り出し位置として設定すればよい。これらの閾値および所定差は、予め定めればよい。また、これらの閾値および所定差は、ユーザによるUI部32の操作指示などによって適宜変更可能としてもよい。
【0079】
上記処理によって、領域分類結果画像生成部40Cは、教師画像52内におけるスライドさせた位置の画像枠56内の画像領域ごとに、分類結果58を得る。そして、領域分類結果画像生成部40Cは、教師画像52を構成する要素ごとに、該要素の位置に対して重複する複数の画像枠56の各々の分類結果58を特定する。更に、領域分類結果画像生成部40Cは、要素ごとに特定した複数の分類結果58の各々によって表される、複数種類の状態の各々のスコアを用いて、スコアの平均値またはスコアの最大値を状態の種類ごとに算出する。そして、領域分類結果画像生成部40Cは、状態の種類の各々毎に算出したスコアの平均値またはスコアの最大値の内、最も大きい値の状態の種類を、該要素に対する分類結果58として規定する。領域分類結果画像生成部40Cは、教師画像52を構成する要素ごとにこれらの処理を実行することで、要素ごとに分類結果58を規定した領域分類結果画像62を生成する。
【0080】
図6Bは、領域分類結果画像62の一例の模式図である。
図6Bに示すように、領域分類結果画像生成部40Cは、要素ごとに分類結果58A~分類結果58Eの何れかの分類結果58を規定した領域分類結果画像62を生成する。
【0081】
【0082】
特定部40Dは、領域分類結果画像生成部40Cで生成された領域分類結果画像62から、領域分類結果画像62における位置および該領域分類結果画像62の生成に用いた教師画像52における対応する画素位置の画素値が類似する、複数の要素からなる要素群を特定する。
【0083】
領域分類結果画像62における位置とは、領域分類結果画像62における画素位置を意味する。領域分類結果画像62における位置が類似する要素群とは、領域分類結果画像62における画素位置が隣接して配列された予め定めた所定数の要素の群を意味する。この所定数は、予め設定すればよい。また、この所定数は、ユーザによるUI部32の操作指示などによって適宜変更可能としてもよい。
【0084】
領域分類結果画像62の生成に用いた教師画像52とは、領域分類結果画像62の生成時に画像枠56をスライドさせた教師画像52である。教師画像52における対応する画素位置の画素値が類似するとは、領域分類結果画像62における位置が類似する要素群の内、含まれる要素の間の画素値の差が予め定めた所定範囲内の差であることを意味する。画素値には、例えば、輝度値、色値、等を用いればよい。この所定範囲は、予め設定すればよい。また、この所定範囲は、ユーザによるUI部32の操作指示などによって適宜変更可能としてもよい。
【0085】
補正部40Eは、特定部40Dが特定した要素群ごとに、要素群に含まれる複数の要素の各々に規定された分類結果58を、該要素群に含まれる要素に規定された最大数の分類結果58に補正する。具体的には、例えば、特定部40Dが特定した要素群が、10個の要素から構成される要素群である場合を想定する。そして、10個の要素からなる要素群に含まれる要素の内、7個の要素に分類結果58”撹拌済み”が規定され、3個の要素に分類結果58”構造物”が規定されている場合を想定する。この場合、補正部40Eは、該要素群を構成する要素の各々に規定されている分類結果58を、最大数の分類結果58である”撹拌済み”に補正する。
【0086】
そして、補正部40Eは、特定部40Dが特定した要素群ごとに上記補正処理を行うことで、領域分類結果画像62を補正した補正領域分類結果画像を生成する。
【0087】
次に、領域分類器生成部40Fについて説明する。
【0088】
領域分類器生成部40Fは、教師画像52と領域分類結果画像62との対からなる学習データを用いて、画像50を入力とし領域分類結果画像62を出力とする領域分類器を生成する。
【0089】
図7は、領域分類器64の生成の一例の説明図である。
【0090】
領域分類器生成部40Fは、教師画像52と領域分類結果画像62との対を第2学習データとし、複数の第2学習データを用いた機械学習により領域分類器64を学習する。この機械学習には、ディープラーニングなどを用いればよい。例えば、機械学習には、ディープラーニングのアルゴリズムであるセマンティック セグメンテーションを用いればよい。この学習処理によって、領域分類器生成部40Fは、画像50を入力とし、領域分類結果画像62である領域分類結果68を出力とする、領域分類器64を生成する。
【0091】
上述したように、領域分類結果画像62は、要素ごと、すなわち画素ごとに分類結果58を規定した画像である。このため、領域分類器生成部40Fは、学習によって領域分類器64を生成することで、画像50から、画像50に含まれる画素ごとに分類結果58を規定した領域分類結果68を得るための領域分類器64を生成することができる。
【0092】
また、領域分類器生成部40Fは、領域分類結果画像62に替えて、領域分類結果画像62を補正した補正領域分類結果画像66を用いた機械学習により領域分類器64を学習してもよい。この場合、領域分類器生成部40Fは、教師画像52と、特定部40Dおよび補正部40Eによって補正された補正領域分類結果画像66と、の対を第2学習データとし、複数の第2学習データを用いた機械学習により領域分類器64を学習する。この学習処理によって、領域分類器生成部40Fは、画像50を入力とし、補正領域分類結果画像66である領域分類結果68を出力とする、領域分類器64を生成する。
【0093】
補正領域分類結果画像66を用いた機械学習により領域分類器64を学習することで、領域分類器生成部40Fは、画像50に含まれる状態の異なる領域間の境界を構成する要素の分類結果58として、より正解に近いまたは正解の分類結果58を規定した領域分類結果68を出力する、領域分類器64を生成することができる。すなわち、領域分類器生成部40Fは、より高精度な領域分類器64を生成することができる。
【0094】
図2に戻り説明を続ける。制御部40は、領域分類器生成部40Fで生成した領域分類器64を、記憶部30へ記憶する。また、制御部40は、領域分類器生成部40Fで生成した領域分類器64を、通信部34を介して外部の情報処理装置へ送信してもよい。領域分類器64を受信した情報処理装置では、受信した領域分類器64へ画像50を入力することで、画像50の領域分類結果68を容易に得ることができる。
【0095】
また、パッチ分類器生成部40Bおよび領域分類器生成部40Fは、パッチ分類器60を生成する学習処理および領域分類器64を生成する学習処理の各々を、繰り返し実行してよい。例えば、パッチ画像取得部40Aは、新たな教師画像52から新たなパッチ画像54を取得する。そして、パッチ分類器生成部40Bは、パッチ画像取得部40Aで新たに取得したパッチ画像54を用いて、パッチ分類器60を学習する上記処理を実行すればよい。また、領域分類器生成部40Fは、新たにパッチ分類器60が学習されるごとに、領域分類器64Bを生成する上記学習処理を実行すればよい。
【0096】
パッチ分類器生成部40Bおよび領域分類器生成部40Fが学習処理を繰り返すことで、領域分類器生成部40Fは、より高精度なパッチ分類器60を生成することができる。
【0097】
学習処理の繰り返し実行時には、パッチ画像取得部40Aは、取得済のパッチ画像54とは異なるパッチ画像54を新たなパッチ画像54として優先的に取得することが好ましい。
【0098】
例えば、パッチ画像取得部40Aは、取得済すなわち学習に用いたパッチ画像54に対して、画像としての差分が閾値以上の他のパッチ画像54を、新たなパッチ画像54として優先的に取得する。画像としての差分には、例えば、画像を構成する画素値のばらつき、画素値の平均値の差、画素値の最大値または最小値の差、撮影日時の差、等を用いればよい。また、例えば、パッチ画像取得部40Aは、新たな取得対象の画像50を生成済のパッチ分類器60に入力し、パッチ分類器60におけるニューロンの発火パタンが取得済のパッチ画像54とは異なるパッチ画像54を、新たなパッチ画像54として優先的に取得してもよい。
【0099】
パッチ画像取得部40Aが取得済のパッチ画像54とは異なるパッチ画像54を新たな学習に用いるパッチ画像54として優先的に取得することで、学習処理の繰り返しにより、より様々な状態の対象物20が写り込んだ画像50から高精度な領域分類結果68を出力可能な、領域分類器64を生成することができる。
【0100】
次に、視点変換画像生成部40Gについて説明する。分類器生成装置10は、視点変換画像生成部40Gを備えた構成であってよい。
【0101】
視点変換画像生成部40Gは、画像50を領域分類器64へ入力することで、該領域分類器64からの出力として得られた領域分類結果画像62または補正領域分類結果画像66である領域分類結果68を、視点変換画像に変換する。
【0102】
詳細には、視点変換画像生成部40Gは、領域分類結果68を3次元空間における任意の視点方向から視認した視点変換画像に変換する。任意の視点方向は、予め設定されていればよい。また、任意の視点方向は、ユーザによるUI部32の操作指示などによって適宜変更可能としてもよい。視点変換画像生成部40Gは、対象物20が存在する実空間の三次元情報を他の情報処理装置または記憶部30などから取得する。そして、視点変換画像生成部40Gは、取得した三次元情報および領域分類結果68を用いて、公知の視点変換処理により、該領域分類結果68を任意の視点方向から視認した視点変換画像に変換すればよい。
【0103】
視点変換画像生成部40Gは、生成した視点変換画像をUI部32へ出力する。また、視点変換画像生成部40Gは、通信部34を介して外部の情報処理装置へ視点変換画像を送信してもよい。
【0104】
視点変換画像生成部40Gが視点変換画像をUI部32へ出力することで、ユーザに対して領域分類結果68をユーザの任意の視点方向から視認した表示形態で提供することが可能となる。
【0105】
次に、本実施形態の分類器生成装置10で実行する情報処理の流れの一例を説明する。
【0106】
図8は、本実施形態の分類器生成装置10で実行する情報処理の流れの一例を示すフローチャートである。
【0107】
パッチ画像取得部40Aは、教師画像52における部分領域をパッチ画像54として取得する(ステップS100)。
【0108】
パッチ分類器生成部40Bは、ステップS100で取得したパッチ画像54と、パッチ画像54に対して教示された分類結果58と、の対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器60を学習することで、パッチ分類器60を生成する(ステップS102)。
【0109】
領域分類結果画像生成部40Cは、ステップS102で生成されたパッチ分類器60を用いて、画像50を構成する要素ごとに分類結果58を規定した領域分類結果画像62を生成する(ステップS104)。
【0110】
特定部40Dは、ステップS104で生成された領域分類結果画像62から、領域分類結果画像62における位置および該領域分類結果画像62の生成に用いた教師画像52における対応する画素位置の画素値が類似する、複数の要素からなる要素群を特定する(ステップS108)。
【0111】
補正部40Eは、ステップS106で特定した要素群ごとに補正処理を行うことで、領域分類結果画像62を補正した補正領域分類結果画像66を生成する(ステップS108)。
【0112】
領域分類器生成部40Fは、領域分類器64を生成する(ステップS110)。領域分類器生成部40Fは、教師画像52と補正領域分類結果画像66との対を第2学習データとし、複数の第2学習データを用いた機械学習により領域分類器64を学習することで、領域分類器64を生成する。そして、本ルーチンを終了する。
【0113】
以上説明したように、本実施形態の分類器生成装置10は、パッチ画像取得部40Aと、パッチ分類器生成部40Bと、領域分類結果画像生成部40Cと、領域分類器生成部40Fと、を備える。パッチ画像取得部40Aは、状態可変の対象物20の画像50である教師画像52における複数画素からなる部分領域をパッチ画像54として取得する。パッチ分類器生成部40Bは、パッチ画像54を入力とし、パッチ画像54に写り込んだ対象物20の状態の分類結果58を出力とするパッチ分類器60を生成する。領域分類結果画像生成部40Cは、パッチ分類器60を用いて、画像50を構成する要素であってパッチ画像54より小さい領域である要素ごとに分類結果58を規定した領域分類結果画像62を生成する。領域分類器生成部40Fは、教師画像52と領域分類結果画像62との対からなる第2学習データを用いて、画像50を入力とし領域分類結果画像62である領域分類結果68を出力とする領域分類器64を生成する。
【0114】
ここで、従来技術では、画像50中の全ての画素の各々に対して人手で正解クラスを教示することで領域分類器を生成しており、教示作業を行うユーザの作業負荷が高かった。また、従来技術では、互いに異なる分類結果58を表す複数の領域が混在した対象物20が画像50中に写り込んでいる場合、領域の境界付近の画素の正解クラスをユーザが教示することは困難となる場合があった。また、画像50中に写り込んだ対象の種類を教示する従来方法では、領域分類器の生成のために、様々な種類の対象が写り込んだ画像50を大量に用意する必要があった。また、画像50中に写り込んだ対象の領域を矩形枠で囲む教示を行う従来方法では、複数の領域間の境界が明確な画像50を用意する必要があった。また、画像50中の一部の画素に対して正解クラスを教示する従来方法では、領域分類器の生成のために、様々な種類の対象が様々な位置に写り込んだ画像を大量に用意する必要があった。このように、従来技術では、領域分類器を容易に生成することは困難であった。
【0115】
一方、本実施形態の分類器生成装置10では、教師画像52における複数画素からなる部分領域であるパッチ画像54を用いてパッチ分類器60を生成し、生成したパッチ分類器60を用いて、画像50から要素ごとに分類結果58を規定した領域分類結果68を出力するための領域分類器64を生成する。
【0116】
このように、本実施形態の分類器生成装置10では、領域分類器64の生成に画素ごとの画素領域ではなく、複数画素からなる部分領域であるパッチ画像54を用いて領域分類器64を生成する。このため、本実施形態の分類器生成装置10は、教示作業の負荷軽減、および教示精度の向上を図ることができる。また、本実施形態の分類器生成装置10では、大量の教師画像52を容易することなく、領域分類器64を生成することができる。
【0117】
従って、本実施形態の分類器生成装置10は、領域分類器64を容易に生成することができる。
【0118】
(第2の実施形態)
本実施形態では、上記実施形態とは異なる方法でパッチ分類器60を生成する形態を説明する。本実施形態において上記実施形態と同じ構成部分には、同一の符号を付与し詳細な説明を省略する。
【0119】
図2は、本実施形態の生成システム1Bの機能的構成の一例を示すブロック図である。生成システム1Bは、分類器生成装置10に替えて分類器生成装置10Bを備える点以外は、上記実施形態の生成システム1と同様である。分類器生成装置10Bは、パッチ分類器生成部40Bに替えてパッチ分類器生成部41Bを備える点以外は、上記実施形態の分類器生成装置10と同様である。
【0120】
パッチ分類器生成部41Bは、上記実施形態のパッチ分類器生成部40Bと同様に、パッチ画像54を入力とし、パッチ画像54に写り込んだ対象物20の状態の分類結果58を出力とするパッチ分類器60を生成する。
【0121】
本実施形態では、パッチ分類器生成部41Bは、パッチ画像54から、パッチ画像54を複数領域に分割した分割領域ごとに、パッチ画像54に写り込んだ対象物20の状態の分類結果58を出力する、パッチ分類器60を生成する。
【0122】
図9Aは、パッチ分類器生成部41Bによるパッチ分類器61Aの生成の一例の説明図である。パッチ分類器61Aは、パッチ分類器60の一例である。
図9Aには、パッチ画像54Fを一例として示す。パッチ画像54Fはパッチ画像54の一例である。
【0123】
例えば、パッチ分類器生成部41Bは、パッチ画像54を複数領域に分割した分割領域Pとして、要素を用いる。要素とは、上記実施形態で説明したように、パッチ画像54より小さい領域であり、且つ、1または複数の画素群からなる領域である。本実施形態においても、1要素が1画素に相当する形態を一例として説明する。
【0124】
そして、パッチ分類器生成部41Bは、パッチ画像54を入力とし、パッチ画像54を要素P1ごとすなわち画素ごとに分割した分割領域Pごとの分類結果58を出力するパッチ分類器61Aを学習する。
図9Aには、パッチ画像54Fから、パッチ画像54Fに含まれる要素P1ごとに分類結果58F1~分類結果58Fnの各々を分類結果58として出力するパッチ分類器61Aを一例として示す。nは、パッチ画像54Fを構成する要素数を表す。
【0125】
パッチ分類器生成部41Bは、例えば、Grad-CAM(Gradient-weighted Class Activation Mapping)等の手法を用いて、パッチ画像54から、パッチ画像54を要素P1ごとに分割した分割領域Pごとに分類結果58を出力する、パッチ分類器61Aを生成すればよい。
【0126】
詳細には、例えば、パッチ分類器生成部40Bは、Grad-CAM等の手法を用いて、パッチ画像54の各要素P1に分類結果58を教示する。
【0127】
そして、パッチ分類器生成部41Bは、パッチ画像54と該パッチ画像54に対して要素P1ごとに教示した分類結果58との対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器61Bを学習する。この学習処理によって、パッチ分類器生成部41Bは、パッチ画像54を入力とし分割領域Pである要素P1ごとの分類結果58を出力とするパッチ分類器61Aを生成する。
【0128】
領域分類結果画像生成部40Cは、パッチ分類器生成部41Bで生成されたパッチ分類器61Aを用いて上記実施形態と同様にして領域分類結果画像62を生成することで、より高精度な領域分類結果画像62を生成することができる。そして、より高精度な領域分類結果画像62または領域分類結果画像62を補正した補正領域分類結果画像66を用いる事で、領域分類器生成部40Fは、より高精度な領域分類器64を生成することが可能となる。
【0129】
なお、パッチ分類器生成部41Bは、パッチ画像54から、パッチ画像54を複数領域に分割した分割領域Pごとの分類結果58を出力するパッチ分類器60を生成すればよい。このため、分割領域Pは、要素P1に限定されない。
【0130】
例えば、パッチ分類器生成部41Bは、画像50に写り込んだ対象物20以外の構造物22の構造物領域と、対象物20の対象物領域と、に分割した分割領域Pごとに、分類結果58を出力するパッチ分類器60を生成してもよい。
【0131】
図9Bは、パッチ分類器生成部41Bによるパッチ分類器61Bの生成の一例の説明図である。パッチ分類器61Bは、パッチ分類器60の一例である。
図9Bには、パッチ画像54Gを一例として示す。パッチ画像54Gはパッチ画像54の一例である。
【0132】
例えば、パッチ分類器生成部41Bは、パッチ画像54に写り込んだ対象物20の領域である対象物領域と、パッチ画像54写り込んだ対象物20以外の領域として構造物22の写り込んだ領域である構造物領域と、の各々を分割領域Pとして用いる。そして、パッチ分類器生成部41Bは、パッチ画像54から、パッチ画像54を対象物領域P2Aと構造物領域P2Bとに分割した分割領域Pごとに分類結果58を出力する、パッチ分類器61Bを生成する。
【0133】
この場合、パッチ分類器生成部41Bは、パッチ画像54を切り出した元画像である教師画像52と、該教師画像52の撮影画角内に対象物20が写り込まない状態で撮影された画像50と、の画素ごとの画素値の差分を計算する。そして、パッチ分類器生成部41Bは、計算結果に基づいて、画素ごとの差分が閾値以上の領域を、該教師画像52における対象物20の対象物領域として特定する。また、パッチ分類器生成部41Bは、該教師画像52における特定した対象物領域以外の領域を、構造物領域として特定する。そして、パッチ分類器生成部41Bは、該教師画像52における該パッチ画像54の各画素の位置が対象物領域P2Aおよび構造物領域P2Bの何れに対応するか特定する。この特定処理により、パッチ分類器生成部41Bは、パッチ画像54の各画素に対象物領域P2Aまたは構造物領域P2Bを教示する。
【0134】
そして、パッチ分類器生成部41Bは、パッチ画像54と該パッチ画像54に対して分割領域Pごとに教示した分類結果58との対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器61Bを学習する。この学習処理によって、パッチ分類器生成部41Bは、パッチ画像54を入力とし分割領域Pごとの分類結果58を出力とするパッチ分類器61Bを生成する。
【0135】
領域分類結果画像生成部40Cは、パッチ分類器生成部41Bで生成されたパッチ分類器61Bを用いて上記実施形態と同様にして領域分類結果画像62を生成することで、より高精度な領域分類結果画像62を生成することができる。そして、より高精度な領域分類結果画像62または領域分類結果画像62を補正した補正領域分類結果画像66を用いる事で、領域分類器生成部40Fは、より高精度な領域分類器64を生成することが可能となる。
【0136】
なお、パッチ分類器生成部41Bは、パッチ画像54、およびパッチ画像54を対象物領域P2Aと構造物領域P2Bとに分割した分割結果から、パッチ画像54を複数領域に分割した分割領域Pごとの分類結果58を出力するパッチ分類器60を生成してもよい。
【0137】
図9Cは、パッチ分類器生成部41Bによるパッチ分類器61Cの生成の一例の説明図である。パッチ分類器61Cは、パッチ分類器60の一例である。
図9Cには、パッチ画像54Fを一例として示す。パッチ画像54Fはパッチ画像54の一例である。
【0138】
例えば、パッチ分類器生成部41Bは、パッチ画像54と、パッチ画像54を対象物領域P2Aと構造物領域P2Bとに分割した領域分類結果68と、を取得する。
図9Cには、パッチ画像54Fの領域分類結果68として、領域分類結果68Fを一例として示す。パッチ分類器生成部41Bは、教師画像52と該教師画像52の撮影画角内に対象物20が写り込まない状態で撮影された画像50との画素ごとの画素値の差分を用いて、上記と同様の処理を行うことで、パッチ画像54Fの領域分類結果68を算出すればよい。
【0139】
また、パッチ分類器生成部41Bは、パッチ画像54および領域分類結果68から、Grad-CAM等の手法を用いて、パッチ画像54の各要素P1に分類結果58を教示する。
【0140】
そして、パッチ分類器生成部41Bは、パッチ画像54および領域分類結果68と、該パッチ画像54に対して要素P1ごとに教示した分類結果58との対を第1学習データとし、複数の第1学習データを用いた機械学習によりパッチ分類器61Cを学習する。この学習処理によって、パッチ分類器生成部41Bは、パッチ画像54および領域分類結果68を入力とし、分割領域Pである要素P1ごとの分類結果58を出力とするパッチ分類器61Cを生成する。このため、パッチ分類器生成部41Bは、対象物領域P2Aを構成する要素P1が選択的に分類結果58に寄与するパッチ分類器61Cを生成することができる。
【0141】
領域分類結果画像生成部40Cは、パッチ分類器生成部41Bで生成されたパッチ分類器61Cを用いて上記実施形態と同様にして領域分類結果画像62を生成することで、より高精度な領域分類結果画像62を生成することができる。そして、より高精度な領域分類結果画像62または領域分類結果画像62を補正した補正領域分類結果画像66を用いる事で、領域分類器生成部40Fは、より高精度な領域分類器64を生成することが可能となる。
【0142】
なお、本実施形態における制御部41で実行される情報処理の流れは、パッチ分類器生成部40Bに替えてパッチ分類器生成部41Bがパッチ分類器60を生成する処理を行う点以外は、上記実施形態と同様である。
【0143】
以上説明したように、本実施形態の分類器生成装置10Bでは、パッチ分類器生成部41Bが、パッチ画像54から、パッチ画像54を複数領域に分割した分割領域Pごとに、パッチ画像54に写り込んだ対象物20の状態の分類結果58を出力するパッチ分類器60(61A、61B、61C)を生成する。
【0144】
このため、本実施形態の分類器生成装置10Bでは、上記実施形態の効果に加えて、更に高精度な領域分類器64を生成することができる。
【0145】
(変形例1)
上記実施形態の分類器生成装置10または分類器生成装置10Bで生成された領域分類器64は、任意の画像から領域分類結果を出力する画像分類装置に好適に適用することができる。画像分類装置は、画像から領域分類結果を導出する情報処理装置であればよい。
【0146】
例えば、画像分類装置は、上記実施形態の分類器生成装置10または分類器生成装置10Bで生成された領域分類器64を用いて、該領域分類器64に所望の画像を入力することで、該領域分類器64からの出力として該画像の領域分類結果を導出すればよい。
【0147】
次に、上記実施形態の分類器生成装置10および分類器生成装置10Bのハードウェア構成を説明する。
【0148】
図10は、上記実施形態の分類器生成装置10および分類器生成装置10Bの一例のハードウェア構成図である。
【0149】
上記実施形態の分類器生成装置10および分類器生成装置10Bは、CPU91などの制御装置と、ROM(Read Only Memory)92やRAM(Random Access Memory)93などの記憶装置と、ネットワークに接続して通信を行う通信I/F94と、各部を接続するバス95と、を備える。
【0150】
上記実施形態の分類器生成装置10および分類器生成装置10Bで実行されるプログラムは、ROM92等に予め組み込まれて提供される。
【0151】
上記実施形態の分類器生成装置10および分類器生成装置10Bで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0152】
さらに、上記実施形態の分類器生成装置10および分類器生成装置10Bで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態の分類器生成装置10および分類器生成装置10Bで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0153】
上記実施形態の分類器生成装置10および分類器生成装置10Bで実行されるプログラムは、コンピュータを、本実施形態の分類器生成装置10の各部として機能させうる。このコンピュータは、CPU91がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。なお、画像分類装置についても、分類器生成装置10および分類器生成装置10Bと同様のハードウェア構成とすればよい。
【0154】
上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0155】
10、10B 分類器生成装置
14 操作機構
20 対象物
22 構造物
40A パッチ画像取得部
40B、41B パッチ分類器生成部
40C 領域分類結果画像生成部
40D 特定部
40E 補正部
40F 領域分類器生成部
40G 視点変換画像生成部