IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グローリー株式会社の特許一覧

特開2023-83703教師データ生成装置、教師データ生成方法、学習モデル生成装置、ピッキングシステム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023083703
(43)【公開日】2023-06-16
(54)【発明の名称】教師データ生成装置、教師データ生成方法、学習モデル生成装置、ピッキングシステム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230609BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021197544
(22)【出願日】2021-12-06
(71)【出願人】
【識別番号】000001432
【氏名又は名称】グローリー株式会社
(74)【代理人】
【識別番号】100117673
【弁理士】
【氏名又は名称】中島 了
(72)【発明者】
【氏名】善本 秀法
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA05
5L096CA24
5L096DA01
5L096FA67
5L096GA19
5L096HA08
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】機械学習における教師データをより効率的に生成することが可能な教師データ生成装置およびそれに関連する技術を提供する。
【解決手段】教師データ生成装置は、物体90を撮影した元画像220から複数の改変画像260(260a,260b,260c,...)を生成するとともに、複数の改変画像260に基づいて、物体90の認識用の学習モデルを機械学習するための複数の教師データを生成する。教師データ生成装置は、参照画像(80a,80b,80c,...)等に基づいて元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、元画像220に関する複数の改変画像260を生成する。
【選択図】図11
【特許請求の範囲】
【請求項1】
物体を撮影した元画像から複数の改変画像を生成するとともに、前記複数の改変画像に基づいて、前記物体の認識用の学習モデルを機械学習するための複数の教師データを生成する制御部と、
を備え、
前記制御部は、前記元画像の一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成することを特徴とする、教師データ生成装置。
【請求項2】
前記制御部は、前記物体の画像とは異なる少なくとも1つの参照画像を用いて、前記元画像の前記一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成することを特徴とする、請求項1に記載の教師データ生成装置。
【請求項3】
前記制御部は、前記元画像の前記一部領域の画像である部分画像を用いた画像加工処理を実行して、前記元画像の前記一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成することを特徴とする、請求項1または請求項2に記載の教師データ生成装置。
【請求項4】
前記制御部は、前記元画像内の前記一部領域の画像と前記少なくとも1つの参照画像のうちのいずれか1つ以上の参照画像とをブレンドして改変画像を生成することを特徴とする、請求項3に記載の教師データ生成装置。
【請求項5】
前記一部領域は、前記元画像において、前記物体と同一あるいは同種の物体の相互間で変動が許容される変動許容領域を含む領域であることを特徴とする、請求項1から請求項4のいずれかに記載の教師データ生成装置。
【請求項6】
前記物体は、透明部を有する物体であり、
前記一部領域は、前記元画像において、前記物体の前記透明部を含む領域であることを特徴とする、請求項1から請求項5のいずれかに記載の教師データ生成装置。
【請求項7】
前記元画像を表示する表示部と、
前記元画像における前記一部領域の範囲指定操作を受け付ける受付部と、
を備えることを特徴とする、請求項1から請求項6のいずれかに記載の教師データ生成装置。
【請求項8】
請求項1から請求項7のいずれかに記載の教師データ生成装置にて生成された第1教師データ群に基づき予め学習された学習モデルを、第2教師データ群にも基づき追加学習する学習モデル生成装置であって、
前記第1教師データ群は、前記物体である第1物体を認識させるために第1改変画像群に基づき生成された前記複数の教師データであり、
前記第1改変画像群は、前記第1物体を撮影した前記元画像である第1元画像に関する前記複数の改変画像であって、前記第1元画像の前記一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された前記複数の改変画像であり、
前記第2教師データ群は、前記第1物体とは異なる第2物体を認識させるために第2改変画像群に基づき生成された複数の教師データであり、
前記第2改変画像群は、前記第2物体を撮影した元画像である第2元画像に関する複数の改変画像であって、前記第2元画像の一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された複数の改変画像であり、
前記学習モデル生成装置は、
前記第1教師データ群に基づき予め学習された前記学習モデルの追加学習を実行する学習処理部、
を備え、
前記学習処理部は、前記追加学習の初期段階においては、前記第1教師データ群内の教師データよりも前記第2教師データ群内の教師データを多く用いて前記学習モデルを学習することを特徴とする、学習モデル生成装置。
【請求項9】
請求項1から請求項7のいずれかに記載の教師データ生成装置にて生成された第1教師データ群に基づき予め学習された学習モデルを、少なくとも1つの新たな教師データにも基づき追加学習する学習モデル生成装置であって、
前記第1教師データ群は、前記物体を認識させるために第1改変画像群に基づき生成された前記複数の教師データであり、
前記第1改変画像群は、前記物体を撮影した前記元画像に関する前記複数の改変画像であって、前記元画像の前記一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された前記複数の改変画像であり、
前記少なくとも1つの新たな教師データは、前記物体を認識させるために少なくとも1つの新たな改変画像に基づいて生成された教師データであり、
前記少なくとも1つの新たな改変画像は、前記元画像の前記一部領域の画像を、前記複数の部分画像とは異なる少なくとも1つの新たな部分画像へと変更することにより生成された改変画像であり、
前記学習モデル生成装置は、
前記第1教師データ群に基づき予め学習された前記学習モデルの追加学習を実行する学習処理部、
を備え、
前記学習処理部は、前記追加学習の初期段階においては、前記第1教師データ群内の教師データよりも前記少なくとも1つの新たな教師データを多く用いて前記学習モデルを学習することを特徴とする、学習モデル生成装置。
【請求項10】
請求項1から請求項7のいずれかに記載の教師データ生成装置にて生成された教師データに基づいて学習された学習モデル、または、請求項8あるいは請求項9に記載の学習モデル生成装置によって学習された学習モデル、に基づき、新たな入力画像に含まれる物体を認識する認識処理を実行する認識部と、
前記認識処理によって認識された物体をピッキングするピッキング部と、
を備えることを特徴とする、ピッキングシステム。
【請求項11】
a)物体を撮影した元画像を取得するステップと、
b)前記元画像から複数の改変画像を生成するとともに、前記複数の改変画像に基づいて、前記物体の認識用の学習モデルを機械学習するための複数の教師データを生成するステップと、
を備え、
前記ステップb)は、
b-1)前記元画像の一部領域を互いに異なる態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成するステップと、
b-2)前記複数の改変画像に基づき前記複数の教師データを生成するステップと、
を備えることを特徴とする、教師データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習における教師データを生成する教師データ生成装置およびそれに関連する技術に関する。
【背景技術】
【0002】
物体の撮影画像に基づき当該物体を認識する画像処理技術が存在する(たとえば、特許文献1等参照)。
【0003】
たとえば、特許文献1においては、撮影者が対象物の撮影に用いる撮影装置によって生成された撮影画像を、画像認識に利用される学習データ(機械学習における学習用データ)として収集する学習データ収集装置が示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-8904号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、撮影対象の物体(認識対象の物体)には様々な態様のものが存在する。たとえば、当該物体として、透明部を有する商品が存在する。より詳細には、袋状の商品パッケージ内に内容物(乾燥されたイカの足等)が包装されている商品(干しイカ等)において、その一部に透明部を有するものが存在する。当該商品においては、その商品パッケージの透明部から内容物(乾燥されたイカの足等)が透けて見えている。
【0006】
このような商品において、当該透明部から透けて見える内容物の状況は、多様性に富んでおり、同じ商品(同種の物体)であっても個体ごとに互いに異なっている。たとえば、イカの足の個々の太さ、長さ、およびイカの複数の足の絡まり具合、内容物(イカの足)が存在する部分の位置および大きさ、内容物(イカの足)が存在しない部分(透明部の裏側(ないし奥側)まで透けて見えている部分)の位置および大きさ等が、個体ごとに互いに異なっている。このように、透明部の様子は個体ごとに互いに異なっている。
【0007】
このような多様性を有する複数の個体を同種の物体(同一商品)であると認識するためには、当該透明部における様々な状況を網羅した多数の撮影画像を用いて、機械学習を実行させることが1つの解決策として考えられる。
【0008】
しかしながら、このような様々な状況を有する多数の個体(商品)を準備し、当該多数(たとえば1000個)の個体のそれぞれに関する撮影を繰り返すことによって、多数の撮影画像を生成することは、非常に手間がかかる作業である。換言すれば、このようにして生成された多数の撮影画像に基づいて、機械学習における教師データを生成することは効率的ではない。
【0009】
また、このような状況は、透明部を有する物体のみならず、その一部に多様性を有する他の物体を認識するための教師データ等を生成する際にも同様に生じ得る。
【0010】
そこで、この発明は、機械学習における教師データをより効率的に生成することが可能な教師データ生成装置およびそれに関連する技術を提供することを課題とする。
【0011】
なお、特許文献1では、少なくとも一部が透明な物体が撮影画像に存在すると判定された場合には、その透明な部位が対象物として認識されない可能性があるため、その撮影画像を不適切であると判定し、再撮影を推奨すること、が記載されている(特許文献1の段落0073,0074参照)。しかしながら、上記のような商品に関して再撮影を行ったとしても、その撮影画像内には透明部が依然として存在する。それ故、特許文献1に記載の再撮影によっては事態は改善されない。
【課題を解決するための手段】
【0012】
上記課題を解決すべく、本発明に係る教師データ生成装置は、物体を撮影した元画像から複数の改変画像を生成するとともに、前記複数の改変画像に基づいて、前記物体の認識用の学習モデルを機械学習するための複数の教師データを生成する制御部と、を備え、前記制御部は、前記元画像の一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成することを特徴とする。
【0013】
前記制御部は、前記物体の画像とは異なる少なくとも1つの参照画像を用いて、前記元画像の前記一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成してもよい。
【0014】
前記制御部は、前記元画像の前記一部領域の画像である部分画像を用いた画像加工処理を実行して、前記元画像の前記一部領域を互いに異なる複数の態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成してもよい。
【0015】
前記制御部は、前記元画像内の前記一部領域の画像と前記少なくとも1つの参照画像のうちのいずれか1つ以上の参照画像とをブレンドして改変画像を生成してもよい。
【0016】
前記一部領域は、前記元画像において、前記物体と同一あるいは同種の物体の相互間で変動が許容される変動許容領域を含む領域であってもよい。
【0017】
前記物体は、透明部を有する物体であり、前記一部領域は、前記元画像において、前記物体の前記透明部を含む領域であってもよい。
【0018】
前記教師データ生成装置は、前記元画像を表示する表示部と、前記元画像における前記一部領域の範囲指定操作を受け付ける受付部と、を備えてもよい。
【0019】
上記課題を解決すべく、本発明に係る学習モデル生成装置は、上記いずれかの教師データ生成装置にて生成された第1教師データ群に基づき予め学習された学習モデルを、第2教師データ群にも基づき追加学習する学習モデル生成装置であってもよい。詳細には、前記学習モデル生成装置において、前記第1教師データ群は、前記物体である第1物体を認識させるために第1改変画像群に基づき生成された前記複数の教師データであり、前記第1改変画像群は、前記第1物体を撮影した前記元画像である第1元画像に関する前記複数の改変画像であって、前記第1元画像の前記一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された前記複数の改変画像であり、前記第2教師データ群は、前記第1物体とは異なる第2物体を認識させるために第2改変画像群に基づき生成された複数の教師データであり、前記第2改変画像群は、前記第2物体を撮影した元画像である第2元画像に関する複数の改変画像であって、前記第2元画像の一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された複数の改変画像であり、前記学習モデル生成装置は、前記第1教師データ群に基づき予め学習された前記学習モデルの追加学習を実行する学習処理部、を備え、前記学習処理部は、前記追加学習の初期段階においては、前記第1教師データ群内の教師データよりも前記第2教師データ群内の教師データを多く用いて前記学習モデルを学習してもよい。
【0020】
上記課題を解決すべく、本発明に係る学習モデル生成装置は、上記いずれかの教師データ生成装置にて生成された第1教師データ群に基づき予め学習された学習モデルを、少なくとも1つの新たな教師データにも基づき追加学習する学習モデル生成装置であってもよい。詳細には、前記学習モデル生成装置において、前記第1教師データ群は、前記物体を認識させるために第1改変画像群に基づき生成された前記複数の教師データであり、前記第1改変画像群は、前記物体を撮影した前記元画像に関する前記複数の改変画像であって、前記元画像の前記一部領域の画像を互いに異なる複数の部分画像へと変更することにより生成された前記複数の改変画像であり、前記少なくとも1つの新たな教師データは、前記物体を認識させるために少なくとも1つの新たな改変画像に基づいて生成された教師データであり、前記少なくとも1つの新たな改変画像は、前記元画像の前記一部領域の画像を、前記複数の部分画像とは異なる少なくとも1つの新たな部分画像へと変更することにより生成された改変画像であり、前記学習モデル生成装置は、前記第1教師データ群に基づき予め学習された前記学習モデルの追加学習を実行する学習処理部、を備え、前記学習処理部は、前記追加学習の初期段階においては、前記第1教師データ群内の教師データよりも前記少なくとも1つの新たな教師データを多く用いて前記学習モデルを学習してもよい。
【0021】
上記課題を解決すべく、本発明に係るピッキングシステムは、上記いずれかの教師データ生成装置にて生成された教師データに基づいて学習された学習モデル、または、上記いずれかの学習モデル生成装置によって学習された学習モデル、に基づき、新たな入力画像に含まれる物体を認識する認識処理を実行する認識部と、前記認識処理によって認識された物体をピッキングするピッキング部と、を備えるピッキングシステムであってもよい。
【0022】
上記課題を解決すべく、本発明に係る教師データ生成方法は、a)物体を撮影した元画像を取得するステップと、b)前記元画像から複数の改変画像を生成するとともに、前記複数の改変画像に基づいて、前記物体の認識用の学習モデルを機械学習するための複数の教師データを生成するステップと、を備え、前記ステップb)は、b-1)前記元画像の一部領域を互いに異なる態様へと変更することにより、前記元画像に関する前記複数の改変画像を生成するステップと、b-2)前記複数の改変画像に基づき前記複数の教師データを生成するステップと、を備える教師データ生成方法であってもよい。
【発明の効果】
【0023】
本発明によれば、元画像の一部領域を互いに異なる態様へと変更することにより元画像に関する複数の改変画像が生成され、複数の改変画像に基づき複数の教師データが生成される。したがって、物体の一部領域における多様な状況を順次に発現させて撮影を繰り返すことにより複数の撮影画像を取得し当該複数の撮影画像に基づき教師データを生成する場合に比べて、機械学習における教師データを効率的に生成することが可能である。
【図面の簡単な説明】
【0024】
図1】ピッキングシステムを示す概略図である。
図2】ピッキングシステム(ピッキングロボット等)を示す外観斜視図である。
図3】一のピッキング対象物が作業平面に載置されている様子を示す図である。
図4】複数のピッキング対象物が作業平面に載置されている様子を示す図である。
図5】処理の各段階を示す図である。
図6】教師データの生成段階の処理の詳細を示すフローチャートである。
図7】学習モデル生成段階の処理を示すフローチャートである。
図8】物体認識段階の処理を示すフローチャートである。
図9】透明部を有する商品を示す図である。
図10】指定された一部領域等を示す図である。
図11】複数の改変画像が生成される様子を示す図である。
図12】複数の参照画像が利用される様子を示す図である。
図13】ブレンド処理を用いて複数の改変画像が生成される様子を示す図である。
図14】結合処理を用いて複数の改変画像が生成される様子を示す図である。
図15】部分画像と複数の参照画像のそれぞれとのブレンド処理を用いて生成される複数の改変画像を示す図である。
図16】部分画像と複数の参照画像のそれぞれとの結合処理を用いて生成される複数の改変画像を示す図である。
図17】部分画像のみを用いて(ブロック結合処理により)複数の改変画像が生成される様子を示す図である。
図18】部分画像のみを用いて(モザイク処理により)複数の改変画像が生成される様子を示す図である。
図19】透明部に囲まれる不透明領域等を示す図である。
図20】別物体認識用の新たな教師データを用いた追加学習を示す図である。
図21】同じ物体を認識するための新たな教師データを用いた追加学習について説明する図である。
図22】透明部を有しない商品(認識対象商品)を示す図である。
図23】変形し易い周縁部を有する商品(認識対象商品)を示す図である。
図24】円筒側面に凹凸部分を有する商品(ダイヤカット缶入り飲料))を示す図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態を図面に基づいて説明する。
【0026】
<1.第1実施形態>
<1-1.システム概要>
図1は、ピッキングシステム1を示す概略図である。図1に示されるように、ピッキングシステム1は、撮影画像を撮像する撮影装置20と、撮影画像を処理する画像処理装置30と、ピッキングコントローラ(システムコントローラ)40と、ピッキングロボット50とを備えている。
【0027】
撮影装置20は、対象の物体(ピッキング対象物等)を含む撮影画像を撮像し、画像処理装置30は、当該撮影画像内に含まれる物体を認識する。そして、ピッキングロボット50(ピッキング部とも称する)は、ピッキングコントローラ40の制御下において、画像処理装置30によって認識された物体をピッキングする。
【0028】
たとえば、撮影装置20の撮影対象エリア201内に単一の物体(たとえば或る商品)90が存在する状態(図3参照)において、画像処理装置30は、撮影装置20による撮影画像内の物体90を認識する認識処理を実行する。当該認識処理は、機械学習された学習モデル(学習済みモデル)400を用いて行われる。当該認識処理においては、当該物体90が所定の商品であること、ならびに当該物体90(詳細にはその存在領域(バウンディングボックス等))の位置、姿勢(および大きさ)等が認識される。当該認識処理の処理結果には、作業平面における物体90の位置(X,Y)および姿勢(作業平面に対する垂直軸周りの回転角度θ)等が含まれる。当該処理結果に基づき、ピッキングロボット50は、その手先部先端のエンドエフェクタ(たとえば吸着式エンドエフェクタ)53(図2参照)を用いて、当該物体90を把持(吸着等を含む)してピッキングする。そして、ピッキングロボット50は、ピッキングした物体(商品等)90を元の場所とは別の場所(移載先)202(図2参照)(たとえば、多数の商品をまとめて梱包するための梱包箱(段ボール箱等)の中)へと移動させる。
【0029】
あるいは、撮影対象エリア201内(ピッキングエリア内)に単一の物体90のみが存在する状況ではなく、撮影対象エリア内にて複数の物体90が作業平面上にバラ積みされている状況(図4参照)においてピッキング作業が行われてもよい。なお、図3および図4は、作業平面に載置された物体90を上方の撮影装置20から撮影した撮影画像210を示す図である。図3および図4では、物体90のテクスチャ等は省略されており、物体90の存在領域を示す矩形で物体90が(捨象されて)示されている。
【0030】
具体的には、撮影対象エリア内の作業平面上にバラ積みされた複数の物体90(その一部の物体が部分的に重なって載置された複数の同一商品)のうち、最も上方に存在すると認識された商品等が、ピッキングロボット50によりピッキングされてもよい。詳細には、当該複数の物体90のうちの全部または一部の物体90が所定の商品であると認識されるとともに、当該所定の商品として認識された物体90の位置および姿勢等もが認識される。そして、当該所定の商品として認識された複数の物体90のうち、最も上方に存在すると認識された物体90が、ピッキングロボット50の手先部先端の吸着部に吸着されてピッキングされてもよい。なお、複数の物体90のうち最も上方に存在する物体は、複数の物体90の重なり具合に関する情報(物体ごとの認識結果の信頼度等)に基づいて決定されればよい。ただし、これに限定されず、3次元カメラ(対象物までの距離情報を各画素が有する深度画像をも取得可能なカメラ)により取得された3次元情報(対象物の3次元位置情報等)に基づいて、最も上方に存在する物体が決定されてもよい。
【0031】
あるいは、作業平面上にバラ積みされた複数の物体90(その一部の物体(商品)が部分的に重なって載置された複数の別異商品)のうち、所定の商品(所定品目の商品)であり且つ最も上方に存在すると認識された商品等がピッキングされてもよい。詳細には、当該複数の物体90(たとえば、3品目(3種類)且つ合計10個の商品)のうちの全部または一部の物体90が所定品目の商品であると認識されるとともに、当該所定品目の商品として認識された物体90の位置および姿勢等もが認識される。そして、当該所定品目の商品として認識された1以上の物体90のうち最も上方に存在すると認識された物体90が、ピッキングロボット50等によってピッキングされてもよい。
【0032】
なお、ここでは、作業平面上にバラ積みされた複数の物体90のうち、最も上方に存在すると認識された物体がピッキングされる態様が例示されている。換言すれば、最も上方に存在すると認識された物体から順にピッキングされている。しかしながら、これに限定されない。たとえば、ピッキングコントローラ40は、所定の商品として認識された複数の物体のうち(最も上方の物体以外の)ピッキングし易い物体を判定するなどして、当該複数の物体のピッキング順序を決定してもよい。ピッキングし易い物体としては、最も上方の物体でなくても他の物体と重複していない物体、あるいは、ピッキングロボット50のベース部51(図2参照)に比較的近い(手前側の)物体等が例示される。そして、このような決定処理によって決定された当該ピッキング順序に従ってピッキングが実行されてもよい。また、ピッキング困難であると判断された物体は、ピッキング対象から除外されてもよい。
【0033】
画像処理装置30は、撮影画像内の物体90(ここでは商品)を識別(分類とも称される)等するための各種の処理を実行する装置である。
【0034】
具体的には、画像処理装置30は、撮影画像(入力画像)に含まれる物体90(ここでは商品)を認識する認識処理を実行する装置、すなわち、物体認識装置(ここでは商品認識装置)である。当該認識処理は、予め機械学習された学習モデル400を用いて実行される。当該学習モデル400は、入力画像に対して、当該入力画像に含まれる物体90の認識結果(商品の品目、商品の位置(X,Y)及び姿勢(回転角度θ)等)を含む情報を出力とする学習モデル(推論モデル)である。この実施形態では、画像処理装置30は、畳み込みニューラルネットワーク(Convolutional Neural Network)による学習モデル(機械学習モデル)400を利用して、上記のような認識処理(推論処理)を実行する。
【0035】
また、画像処理装置30は、当該学習モデル400を機械学習する装置、換言すれば、学習済みの学習モデル(学習済みモデル)400を生成する装置(学習モデル生成装置)でもある。当該学習モデル400の機械学習では、入力画像に対して物体90の位置(X,Y)及び姿勢(回転角度θ)をラベル情報(正解データ)として付したデータセット(ラベル付きデータ)が教師データとして利用される。
【0036】
さらに、画像処理装置30は、学習モデル400の機械学習に用いられる教師データを生成する装置(教師データ生成装置)でもある。教師データの生成については後に詳述する。
【0037】
このように、画像処理装置30は、教師データ生成装置、学習モデル生成装置、物体認識装置(ここでは商品認識装置)として動作する。
【0038】
なお、上述のように、機械学習によって学習された後の学習モデル400は、学習済みモデルとも称される。学習モデル400(学習器)の学習パラメータが所定の機械学習手法を用いて調整されることによって、学習済みの学習モデル400(学習済みモデル)が生成される。
【0039】
本願において、学習済みモデル400を生成することは、学習済みモデル400を製造(生産)することを意味するとともに、「学習済みモデルの生成方法」は「学習済みモデルの生産方法」を意味する。
【0040】
<1-2.画像処理装置30>
図1を再び参照する。図1に示されるように、画像処理装置30は、コントローラ31(制御部とも称される)と記憶部32と通信部34と操作部35とを備える。
【0041】
コントローラ31は、画像処理装置30に内蔵され、画像処理装置30の動作を制御する制御装置である。
【0042】
コントローラ31は、1又は複数のハードウェアプロセッサ(例えば、CPU(Central Processing Unit)およびGPU(Graphics Processing Unit))等を備えるコンピュータシステムとして構成される。コントローラ31は、CPU等において、記憶部(ROMおよび/またはハードディスクなどの不揮発性記憶部)32内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)を実行することによって、各種の処理を実現する。なお、当該プログラム(詳細にはプログラムモジュール群)は、USBメモリなどの可搬性の記録媒体に記録され、当該記録媒体から読み出されて画像処理装置30にインストールされるようにしてもよい。あるいは、当該プログラムは、通信ネットワーク等を経由してダウンロードされて画像処理装置30にインストールされるようにしてもよい。
【0043】
具体的には、コントローラ31は、学習モデルの機械学習用の教師データを生成する教師データ生成処理、当該学習モデルを機械学習する学習処理(学習モデルを生成する学習モデル生成処理)、および機械学習済みの学習モデルを用いた物体認識処理等を実行する。コントローラ31は、教師データ生成装置の制御部であるとともに、学習モデル生成装置の学習処理部でもあり、物体認識装置の認識部でもある。なお、画像処理装置30においては、原則として、機械学習用の教師データを生成する教師データ生成段階Ph1、機械学習により学習モデル(学習済みモデル)を生成する学習モデル生成段階Ph2、および学習済みモデルを用いた物体認識段階Ph3の各段階の処理がこの順序で実行される(図5参照)。
【0044】
記憶部32は、ハードディスクドライブ(HDD)および/またはソリッドステートドライブ(SSD)等の記憶装置で構成される。記憶部32は、学習モデル400(学習モデルに関する学習パラメータおよびプログラムを含む)(ひいては学習済みモデル420)等を記憶する。
【0045】
通信部34は、ネットワークを介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、TCP/IP(Transmission Control Protocol / Internet Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、画像処理装置30は、所望の相手先(たとえば、撮影装置20)との間で各種のデータ(撮影画像データ等)を授受することが可能である。通信部34は、画像データを取得する取得部(あるいはデータ入出力部等)とも称される。なお、ここでは、撮影装置20からの画像データが通信部34(およびネットワークケーブル等)を介して画像処理装置30に入力されるが、これに限定されない。たとえば、いわゆるネットワーク(IPプロトコルを利用したネットワーク)以外の各種の通信規格(USB:Universal Serial Bus(ユニバーサル・シリアル・バス)規格等)に準拠したデータ入出力部を介して、撮影装置20からの画像データが画像処理装置30に入力されてもよい。端的に言えば、撮影装置20は画像処理装置30に対してネットワーク接続されてもよくUSB接続等されてもよい。
【0046】
操作部35は、画像処理装置30に対する操作入力を受け付ける操作入力部(受付部とも称する)35aと、各種情報の表示出力を行う表示部35bとを備えている。操作入力部35aとしてはマウスおよびキーボード等が用いられ、表示部35bとしてはディスプレイ(液晶ディスプレイ等)が用いられる。また、操作入力部35aの一部としても機能し且つ表示部35bの一部としても機能するタッチパネルが設けられてもよい。
【0047】
<1-3.撮影装置20およびピッキングロボット50等>
撮影装置20は、たとえば、RGBカラー画像センサを備えたカラーカメラで構成され、撮影画像としてカラー画像(あるいはグレースケール画像)を撮像することが可能である。あるいは、撮影装置20は、各種方式(ステレオ視方式、TOF(Time of Flight)方式等)の3次元カメラであってもよい。当該3次元カメラによって、深度情報(距離情報)付き撮影画像(カラー画像等)が取得されてもよい。
【0048】
撮影装置20は、カメラ固定部材(不図示)によって作業空間内の所定位置に固定されて配置される。ただし、これに限定されず、撮影装置20は、ピッキングロボット50のロボットアーム部52の手先付近等に固定されてもよい。
【0049】
ピッキングコントローラ40は、画像処理装置30と同様のハードウエア構成を有するコンピュータである。ピッキングコントローラ40は、画像処理装置30による認識結果等を取得し、当該認識結果等に基づきピッキングロボット50の動作等を制御する。
【0050】
ピッキングロボット50(ピッキング部とも称する)は、図2に示されるように、ベース部51と、当該ベース部51に取り付けられたロボットアーム部52と、当該ロボットアーム部52の手先に取り付けられたエンドエフェクタ53とを備えている。ロボットアーム部52は、複数の回転関節(および/または直動関節)を有しており、水平多関節ロボットあるいは垂直多関節ロボット(4軸~7軸等)などの各種のロボットアームにより構成される。ロボットアーム部52は、各関節を駆動することによって、ロボットアーム部52の手先に設けられたエンドエフェクタ53の位置(X,Y,Z)および姿勢(回転角度θ等)を適宜変更することが可能である。エンドエフェクタ53としては、たとえば、真空吸着式のエンドエフェクタが設けられればよい。あるいは、グリッパ式ないし多指ハンド式等のエンドエフェクタが、エンドエフェクタ53として設けられてもよい。
【0051】
<1-4.認識対象物体>
上述のように、撮影対象の物体90(認識対象の物体)には様々な態様のものが存在する。たとえば、当該物体90として、透明部を有する商品(図9参照)が存在する。
【0052】
図9は、袋状の商品パッケージ91内に内容物(ここでは乾燥されたイカの足)が包装されている商品(ここでは干しイカ)90(90a)を示している。この商品パッケージ91の一部には透明部93が設けられている。当該商品においては、その商品パッケージ91の透明部93から内容物95(乾燥されたイカの足等)が透けて見えている。このような商品において、透明部93から透けて見える内容物の状況は、上述したように、多様性に富んでおり、同じ商品(同種の物体)90であっても個体ごとに互いに異なっている。
【0053】
このような多様性を有する複数の個体を同種の物体90(同一商品(同一品目の商品)等)であると学習モデル400が認識するためには、透明部93における様々な状況を網羅した多数の撮影画像を用いて、学習モデル400に対する機械学習を実行させることが考えられる。換言すれば、透明部93における様々な状況を網羅した多数の撮影画像を撮像することによって、多数の教師データを生成することが考えられる。
【0054】
しかしながら、上述したように、このような様々な状況を有する多数の個体(商品)を準備し、当該多数(たとえば1000個)の個体のそれぞれに関する撮影を繰り返すことによって、多数の撮影画像を生成することは、非常に手間がかかる作業である。換言すれば、このようにして生成された多数の撮影画像に基づいて、機械学習における多数の教師データを生成することは効率的ではない。
【0055】
そこで、この実施形態では、教師データの生成段階Ph1(図5および図6参照)において教師データを効率的に生成する技術を例示する。具体的には、コントローラ31は、物体90を撮影した元画像220の一部領域230(ここでは透明部93を含む特定の一部領域230)を互いに異なる複数の態様(外観)へと変更することにより、元画像220に関する複数の改変画像(modified image)260を生成する(図11参照)。そして、コントローラ31は、複数の改変画像260に基づいて、物体認識用の学習モデル400を機械学習するための複数の教師データを生成する。
【0056】
<1-5.教師データの生成段階>
図6は、教師データの生成段階Ph1の処理の詳細を示すフローチャートである。教師データの生成段階Ph1の処理は、上述のように画像処理装置30にて実行される。以下、図6を参照しつつ、教師データの生成段階Ph1について説明する。
【0057】
ステップS11において、画像処理装置30は、物体90を撮影した元画像(source image)220(一部領域230の改変前の(元の)画像)を取得する。
【0058】
ここでは、撮影装置20によって撮影されたオリジナルの撮影画像210(図3参照)から、物体(商品)90が写っている領域(その周辺を含んでいてもよい)をトリミング等によって抽出した抽出画像(抽出後の撮影画像)が、元画像220として取得される。当該抽出画像は、オリジナルの撮影画像210(図3参照)における物体領域(物体の存在領域)を抽出した画像であるとも表現される。このような抽出画像は、ユーザによる手作業によって抽出されてもよく、画像処理(背景除去処理等)によって自動的に抽出されてもよい。なお、図9は、このようにして取得された元画像220を示す図でもある。
【0059】
ただし、これに限定されず、撮影装置20によって撮影されたオリジナルの撮影画像210そのものが元画像220として取得されてもよい。
【0060】
次のステップS12において、画像処理装置30は、元画像220における一部領域230を特定する。
【0061】
具体的には、画像処理装置30は、ユーザからの指定操作を受け付け、当該指定操作等に基づき一部領域230を特定する。一部領域230は、ここでは、物体90(詳細には、透明部93を有する商品パッケージ91で商品内容物95を包装した商品)の透明部93を含む領域(透明部93周辺の周辺部(非透明部)92bをも若干含む領域等)である。
【0062】
より具体的には、図10に示されるように、ユーザは、表示部35bに表示された元画像220において、一部領域(マーキング領域とも称する)230として指定すべき領域(透明部93を含む領域)を矩形で囲む操作を行う。たとえば、ユーザがマウスで、矩形の左上頂点に相当する位置をポインティングした後、当該矩形の右下頂点に相当する位置までドラッグすることによって、矩形領域が指定される。図10では、当該操作によって指定された矩形領域に対して、斜めハッチングが付されている。このような矩形領域が一部領域230として指定される。このようにして、画像処理装置30は、元画像220における一部領域230の範囲指定操作を受け付ける。なお、ここでは、ユーザによる範囲指定操作に基づいて一部領域230が特定されているが、これに限定されない。たとえば、コントローラ31が、元画像220内の透明部93を自動的に検出するとともに、当該透明部93を囲む矩形領域を自動的に設定すること等によって、一部領域230を自動的に特定(設定)してもよい。あるいは、画像処理装置30は、画像認識処理によって認識された透明部93の候補を幾つか表示し、その中からいずれか1つの候補を利用者に選択させてもよい。
【0063】
ここにおいて、透明部93は、変動許容領域P1(次述)の一例である。変動許容領域P1は、認証対象の物体90と同一あるいは同種の物体の相互間で変動が許容される領域である。変動許容領域P1は、物体90の外観領域のうち多様性を許容する領域であり、物体90に関する共通特徴領域92以外の領域である。変動許容領域P1は、同種ないし同一の物体と認識させるために不要な(無用な)領域である、とも表現される。端的に言えば、変動許容領域P1は、物体90の非特徴部分である。換言すれば、変動許容領域P1は、物体固有の特徴部分(非変動部分ないし固定部分)以外の部分である。
【0064】
上述のように、物体90の透明部93から透けて見える内容物の状況は、多様性に富んでおり、同じ商品(同種の物体)90であっても個体ごとに互いに異なっている。この実施形態では、このような個体差を有する物体を同一の商品であると学習モデル400に学習(認識)させるため、物体90の透明部93(の領域)を、認証対象の物体90と同一あるいは同種の物体の相互間で変動が許容される領域(変動許容領域P1)である、とみなす。そして、変動許容領域P1(ここでは透明部93)を含む領域が一部領域230として指定される。
【0065】
なお、一部領域230は、たとえば、透明部93を含む領域として特定(指定等)されれば十分である。一部領域230は、透明部93の周辺の不透明領域92b(および/または透明部93に囲まれる不透明領域92c)等(図19参照)を含む領域であってもよい。
【0066】
元画像220(詳細には、物体90の存在領域)において、一部領域230以外の領域は、認証対象の物体90と同一あるいは同種の物体の相互間で変動が一定程度より小さいと想定される領域(「非変動領域」等とも称する)である。この非変動領域(詳細にはその画像222)(図9等参照)の共通性等を学習することによって、学習モデル400は物体90を認識できるようになる。
【0067】
これに対して、一部領域230は、認証対象の物体90と同一あるいは同種の物体の相互間で変動が一定程度より大きいと想定される領域である。
【0068】
この実施形態(特に次のステップS13,S14)では、複数の改変画像260の相互間における共通性(非変動領域の共通性)と複数の改変画像260の相互間における非共通性(一部領域230の非共通性)とを利用した学習処理を実行させるための複数の教師データが生成される。詳細には、元画像220の非変動領域(一部領域230以外の領域)を維持しつつ元画像220の一部領域230を互いに異なる複数の態様(外観態様)へと変更することにより、複数の改変画像260が生成される。そして、当該複数の改変画像260に基づいて複数の教師データが生成される。
【0069】
次のステップS13において、画像処理装置30は、元画像220の一部領域230を互いに異なる複数の態様(のそれぞれ)へと変更することにより、複数(たとえば、数百枚~数万枚)の改変画像260(図11参照)を生成する。換言すれば、一の元画像220から多数の改変画像260が生成される。
【0070】
具体的には、画像処理装置30は、複数の参照画像80(図11および図12参照)を用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更する。
【0071】
複数の参照画像80(特に図12参照)は、互いに異なる画像であり、予め準備された(記憶部32に予め記憶されている)画像である。各参照画像80は、識別対象の物体90(たとえば商品「干しイカ」)以外の画像であることが好ましい。また、各参照画像80は、識別対象物になり得る(各種の)物体(類似の商品等)の画像(その一部または全部の画像)とも異なる画像であることが好ましい。たとえば、ランダムノイズパターン画像、風景画像、建築物(建造物全体あるいはその一部の壁面等)の画像、ベタ画像(特定色による塗り潰し画像)、人物画像、動物画像などの各種の画像が、各参照画像80として用いられればよい。
【0072】
図11は、元画像220から複数の改変画像260が生成される様子を示す概念図である。図11に示されるように、互いに異なる複数の参照画像80のそれぞれが元画像220の一部領域230に配置されること(各参照画像80が一部領域230に上書き配置されること、あるいは、一部領域230の画像が各参照画像80にそれぞれ置換されること等)によって、複数の改変画像260が生成される。換言すれば、(複数回の撮影によるのではなく)元画像220の一部領域230に対する互いに異なる複数の画像処理によって、複数の改変画像260が生成される。
【0073】
たとえば、記憶部32には多数(たとえば数千枚~数万枚)の参照画像80が予め記憶されている。コントローラ31は、当該多数の参照画像80の中から所定数(たとえば、1000枚)の参照画像80(80a,80b,80c,...)を(乱数等によって)ランダムに選択する(図12参照)。コントローラ31は、選択された所定数の参照画像80(80a,80b,80c,...)のそれぞれを、元画像220の一部領域230に配置する。これによって、複数の改変画像260(260a,260b,260c,...)が生成される(図11参照)。換言すれば、各改変画像260は、元画像220に対する画像加工処理によって生成される。より詳細には、たとえば、参照画像80a(81a)を用いることによって改変画像260aが生成され、参照画像80b(81b)を用いることによって改変画像260bが生成される。他の改変画像260も、それぞれ、別異の参照画像80を用いることによって生成される。複数の改変画像260は、その一部領域230に互いに異なる参照画像80が配置され(埋め込まれ)、互いに異なる画像として生成される。なお、多数の参照画像80の中から選択される各参照画像80は、被選択画像81とも称される。また、改変画像260は、変更後画像あるいは加工後画像とも称される。
【0074】
その後、ステップS14において、画像処理装置30は、複数の改変画像260に基づき、複数の教師データを生成する。
【0075】
具体的には、画像処理装置30は、学習モデル400に対する各入力画像270(不図示)を各改変画像260に基づいて生成する。当該各入力画像270は、各改変画像260を所定の背景画面(撮影装置20による撮影対象エリアの画像等)内の特定位置(X,Y)に特定姿勢(回転角度θ)且つ特定大きさ(幅W,高さH)で配置することによって生成される。そして、各入力画像270に対してラベル情報(正解データ)を付したデータセット(ラベル付きデータ)が、教師データとして生成される。ラベル情報(正解データ)としては、たとえば、当該各入力画像270(改変画像260)内の物体90の種類(識別子)、ならびに、当該物体90の位置(X,Y)、姿勢(回転角度θ)および大きさ(W,H)が付されればよい。なお、物体90の位置および大きさは、バウンディングボックス(物体90を囲む矩形)の回転角度θを0度に(仮想的に)戻したときのバウンディングボックス(図3の破線矩形参照)の左上頂点の座標(X1,Y1)および右下頂点の座標(X2,Y2)等で示されてもよい。
【0076】
また、各改変画像260に対して、その特定位置および/または特定姿勢等を変更しつつ複数の入力画像270が生成され、当該複数の入力画像のそれぞれに対応する複数の教師データ(さらに多数の教師データ)が生成されてもよい。
【0077】
なお、ここでは、単一の元画像220に基づいて複数の改変画像260が生成されることによって、複数の教師データが生成されているが、これに限定されず、複数の元画像220のそれぞれに基づいて複数の教師データが生成されてもよい。たとえば、非変動領域(商品パッケージの共通部分等)における比較的小さな変動に対してロバストな学習モデル400となるように、数枚~数十枚の元画像220が撮影処理によって準備され、これらの複数の元画像220に基づいてより多くの教師データが生成されてもよい。
【0078】
また、ここでは、オリジナルの撮影画像210から物体領域を抽出した画像が元画像220として利用されているが、上述のように、これに限定されない。たとえば、撮影装置20によって撮影されたオリジナルの撮影画像210そのものが元画像220として取得されてもよい。この場合には、たとえば、オリジナルの撮影画像210内での物体の位置および姿勢等をも含む情報が、教師データのラベル(正解データ)として付与されればよい。
【0079】
<1-6.学習モデル400の生成段階(学習段階)>
図7は、機械学習により学習モデル400(学習済みモデル420)を生成する学習モデル生成段階Ph2の処理を示すフローチャートである。
【0080】
図7のステップS21において、画像処理装置30は、上述のステップS14で生成された複数の教師データに基づき、学習モデル400を学習する。学習モデル400は、入力画像の入力に対して、当該入力画像に関する物体の認識結果を含む情報を出力する学習モデルである。
【0081】
複数の教師データを用いて学習モデル400を学習(機械学習)することによって、当該学習モデル400(学習器)の学習パラメータが調整され、学習済みの学習モデル400(学習済みモデル420)が生成される。当該学習は、たとえば、評価用の入力画像に対する認識率が所定値(たとえば、99%)以上になるまで実行される。このような学習処理によって、学習済みモデル420が完成する(ステップS22)。
【0082】
<1-7.認識段階>
図8は、学習済みモデルを用いた物体認識段階Ph3の処理を示すフローチャートである。
【0083】
画像処理装置30は、ステップS31(図8)にて撮影装置20による新たな撮影画像を取得(入力)すると、ステップS22(図7)で完成した学習モデル400(学習済みモデル420)を用いて物体認識処理(推論処理)を実行する(ステップS32)。具体的には、当該学習モデル400は、当該新たな撮影画像(入力画像)に含まれる物体を認識するとともに、当該物体の位置、姿勢および大きさ(換言すれば、当該物体の存在領域の位置等)を認識する。
【0084】
次のステップS33において、画像処理装置30は、ピッキングコントローラ40に対してこれらの認識結果(推論結果)を送信する。ピッキングコントローラ40は、当該認識結果(認識された物体90の位置および姿勢等)に基づき、ピッキングロボット50を駆動して物体90をピッキングする。より具体的には、上述したような各種の形態によるピッキング処理等が行われる。
【0085】
<1-8.実施形態の効果等>
以上のような実施形態においては、元画像220の一部領域230を互いに異なる態様(外観)へと変更することにより元画像220に関する複数の改変画像260が生成され(ステップS13)、複数の改変画像260に基づき複数の教師データが生成される。したがって、物体の一部領域における多様な状況を順次に発現させて撮影を繰り返すことにより複数の撮影画像を取得し当該複数の撮影画像に基づき教師データを生成する場合に比べて、機械学習における教師データを効率的に生成することが可能である。
【0086】
また特に、物体90の画像とは異なる複数の参照画像80を用いて元画像220の一部領域230が互いに異なる態様へと変更されて元画像220に関する複数の改変画像260が生成され、当該複数の改変画像260に基づいて複数の教師データが生成される。このような教師データに基づいて学習モデル400が機械学習されることによれば、一部領域230内の変動許容領域P1の状況に依拠せずに(変動許容領域P1の多様性を許容しつつ)、非変動領域の画像特徴を把握するような学習モデル400(学習済みモデル420)が生成され得る。そして、当該学習モデル400(学習済みモデル420)を用いることによって、一部領域230の画像への依存性を良好に排除して物体の認識処理が行われ得る。換言すれば、一部領域230(変動許容領域P1等)の状況の影響(多様性の影響)を非常に抑制して、物体認識処理を実行することが可能である。極端な場合、変動許容領域P1が如何なる画像(たとえばイカの足とは全く異なる画像)であっても、対象物体の非変動領域が所定の商品の特徴を有していれば、対象物体が当該所定の商品(干しイカ)であることが認識され得る。端的に言えば、一部領域230を背景領域と同視して物体を認識することが可能になる。
【0087】
<1-9.変動許容領域P1等>
上記実施形態においては、袋状の物体90が例示されているが、これに限定されない。物体90は、その他の各種の形状(箱状あるいは円柱状等)を有するものであってもよい。
【0088】
また、上記実施形態においては、変動許容領域P1として透明部93が例示されているが、これに限定されない。透明部を有する物体を認識するための教師データを生成する際のみならず、その一部に多様性を有する物体(透明部を有しない物体)を認識するための教師データを生成する際にも、本発明の思想を適用することができる。
【0089】
たとえば、図22に示されるように、透明部を有しない商品パッケージ91cで包装された商品90cにおいて、「10%増量中」等が記載された特定領域96(特定期間のみ変動する領域(期間限定変動領域等とも称する))が存在することがある。あるいは、期間ごとに(及び/又は個体ごとに)異なるキャラクターが、商品パッケージ91の特定領域96に付与されることもある。変動許容領域P1は、商品パッケージの当該特定領域96を含む領域であってもよい。このように、変動許容領域P1は、物体90において時期的に及び/又は個体ごとに変動し得る特定領域であってもよい。
【0090】
また、(特にその周縁部が)変形し易い袋状の商品パッケージ91d(図23参照)で包装された商品90dにおいては、商品名表示領域および/または商標表示領域等が商品パッケージ91dの中央部97に設けられていることがある。ここにおいて、中央部97以外の周縁部98は特に変形し易い部分であることをも考慮し、当該周縁部98(斜めハッチングを付した領域(非透明領域))が、変動許容領域P1であってもよい。この場合、中央部97(共通特徴領域92でもある)の画像特徴(同一品目商品の複数の個体に共通する画像特徴等)を学習することによって、商品90dが認識されるようになる。
【0091】
あるいは、図24に示されるように、缶飲料商品の中には、ダイヤカット缶に内容物(飲料)を充填した商品90eが存在する。ダイヤカット缶は、略円筒型の缶の円筒側面(円筒曲面)においてダイヤ形状(三角形状)の凹凸部分96eを有する缶である。このような缶の凹凸部分96eは照明光を様々な方向に反射するため、元画像220において不規則な明暗(特に明部における白飛び等)が生じ得る。このような凹凸部分96eが変動許容領域P1であってもよく、当該凹凸部分96e(変動許容領域P1)を含む領域が一部領域230として特定されてもよい。そして、このような一部領域230を互いに異なる態様(外観)へと変更することにより複数の改変画像260が生成され(ステップS13)、複数の改変画像260に基づき複数の教師データが生成されてもよい。なお、この場合、円筒側面における、凹凸部分96e以外の領域(具体的には、平坦な曲面領域)が非変動領域(共通特徴領域92)として機能する。
【0092】
これによれば、当該不規則な明暗を再現した多数の撮影画像を取得することなく、複数の教師データが生成されるので、機械学習における教師データを効率的に生成することが可能である。また特に、凹凸部分96e(変動許容領域P1)を含む一部領域230の状況に依拠せずに(凹凸部分96eにおける照明の影響による多様性を許容しつつ)非変動領域(凹凸部分以外の領域)の画像特徴を把握するような学習モデル400が生成され得る。
【0093】
<1-10.その他>
上記実施形態においては、一の物体(商品)に関する元画像220に基づいて複数の改変画像260が生成される形態について主に説明している。2以上の物体(商品)を認識するための学習モデル400を生成する際には、一の物体(商品)に関する上記の処理が、他の物体(他の種類の物体)に関しても同様に繰り返されて、多数の改変画像260が生成されればよい。そして、当該多数の改変画像260に基づいて教師データが生成されればよい。
【0094】
<2.第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
【0095】
上記第1実施形態では、各改変画像260が、当該各改変画像260に対応する一の参照画像80のみを用いて生成されている(図11参照)が、これに限定されない。各改変画像260は、当該各改変画像260に対応する2以上の参照画像80を用いて生成されてもよい。第2実施形態では、このような形態を例示する。
【0096】
図13は、第2実施形態にて生成される複数の改変画像260(260a,260b,260c,...)の一例を示す図である。図13では、2以上の参照画像80の組合せであって互いに異なる組合せを用いて、複数の改変画像260が生成される。
【0097】
具体的には、図13においては、改変画像260aに関して2つの参照画像80a,80bが多数の参照画像80の中から(乱数等によって)選択され、当該改変画像260aが2つの参照画像80a(81a),80b(81b)を用いて生成される。なお、多数の参照画像80の中から選択される1つ以上の参照画像80(ここでは2つの参照画像80)(80a,80b))は、被選択画像81(81a,81b)とも称される。
【0098】
また、別の改変画像260bが、同様にして選択された2つの参照画像(当該改変画像260bに対応する2つの参照画像)80c(81c),80d(81d)を用いて生成される。また、更に別の改変画像260cが、(当該改変画像260に対応する)2つの参照画像80e,80fを用いて生成される。同様に、他の改変画像260も、対応する2以上の参照画像80を用いて生成される。
【0099】
より具体的には、2つの参照画像80に対する画像加工処理が実行されて改変画像260が生成される。図13の各改変画像260においては、当該対応する2つの参照画像80が特定比率(特定のブレンド比率(合成比率)(たとえば、50%ずつ))でブレンド(合成(透過合成))されて、その一部領域230(図10等参照)に配置されている。詳細には、2つの参照画像80a,80bを特定比率でブレンドした画像(ブレンド画像)82(82a)が、元画像220の一部領域230に配置されることによって改変画像260aが生成されている。また、2つの参照画像80c,80dを特定比率でブレンドした画像82(82b)が、元画像220の一部領域230に配置されることによって改変画像260bが生成されている。同様に、2つの参照画像80e,80fを特定比率でブレンドした画像82(82c)が、元画像220の一部領域230に配置されることによって改変画像260cが生成されている。
【0100】
当該特定比率は、一方の参照画像80に対する他方の参照画像80の要素の付与の割合を示すものであり、付与率とも称される。当該付与率は、50%に限定されず、50%以外の適宜の値(たとえば、30%あるいは70%等)であってもよい。また、当該付与率は、複数のブレンド処理(合成処理)に共通の値(同じ値)であってもよく、ブレンド処理ごとに異なる値であってもよい。複数のブレンド処理に共通の値は、固定値、あるいはユーザによる変更操作で指定された値等であってもよい。また、ブレンド処理ごとに異なる値は、規則的に変更される値、あるいは不規則に変更される値(ランダムに変更される値)などであってもよい。ブレンド処理における付与率は、ブレンド処理における各画像レイヤーのα値(透明度を表す値)を調整すること等によって、変更(調整)されればよい。
【0101】
このように、複数の参照画像80のうちの互いに異なる2つの画像のブレンド画像(透過合成画像)に基づき、図13のような複数の改変画像260が生成されてもよい。
【0102】
ただし、これに限定されず、図14に示されるように、各改変画像260において、その一部領域230を2分割した分割領域ごとに各参照画像80が配置されてもよい。換言すれば、2つの参照画像80の一部画像同士を結合した画像84が元画像220の一部領域230に配置されることによって、改変画像260が生成されてもよい。
【0103】
図14においては、対応する2つの参照画像80が、それぞれ、一部領域230を分割した分割領域に配置されている。詳細には、まず、一部領域230が左右方向に2分割されている。そして、一部領域230の左半分の分割領域に一方の参照画像80aの全部または一部(ここでは左半分)が配置され、右半分の分割領域に他方の参照画像80bの全部または一部(ここでは右半分)が配置されることによって、改変画像260aが生成されている。換言すれば、参照画像80aの左半画像と参照画像80bの右半画像との結合画像84(84a)が元画像220の一部領域230に配置されることによって、改変画像260が生成されている。同様に、左側の分割領域に参照画像80cが配置され、右側の分割領域に他方の参照画像80dが配置されることによって、改変画像260bが生成されている。他の改変画像260も同様にして生成される。
【0104】
一方の参照画像80と他方の参照画像80との結合処理における結合比率(合成比率)は、(ブレンド比率と同様に、)一方の参照画像80に対する他方の参照画像80の要素の付与の割合(付与率)、とも表現される。結合処理での付与率についても、ブレンド処理での付与率と同様の改変が行われ得る。
【0105】
また、ここでは、一部領域230が大きく2つの領域に分割されているが、これに限定されない。たとえば、一部領域230がF個のブロック領域に分割され、分割されたブロック領域ごとに一方の参照画像80と他方の参照画像80とのいずれかが採用されるようにしてもよい。そして、F個のブロック領域のうちのいくつのブロック領域に他方の参照画像が採用されるかに応じて、付与率が変更されてもよい。
【0106】
また、上記実施形態等においては、各改変画像260は、2つの改変画像260を用いて生成されているが、これに限定されず、各改変画像260は、3つ以上の参照画像80を用いて生成されてもよい。たとえば、3つの参照画像80a,80b,80cを用いて改変画像260aが生成されてもよく、3つの参照画像80c,80d,80eを用いて改変画像260bが生成されてもよい。なお、3つの参照画像(たとえば80a,80b,80c)が特定比率でブレンドされて改変画像260aが生成されてもよく、3つの参照画像(80a,80b,80c)が特定比率で結合されて改変画像260bが生成されてもよい。他の改変画像260(260c,...)についても同様である。
【0107】
また、上記実施形態等においては、2つ以上の参照画像80の組合せであって互いに異なる組み合わせを用いて、互いに異なる複数の改変画像260が生成されている。換言すれば、一の改変画像260の生成に用いられる参照画像80と、他の改変画像260の生成に用いられる参照画像80とが重複していない。しかしながら、これに限定されない。たとえば、改変画像260aが、当該改変画像260aに対応する2つの参照画像80a,80bを用いて生成され、別の改変画像260bが、当該改変画像260bに対応する2つの参照画像80b,80cを用いて生成されてもよい。また、さらに別の改変画像260cが、当該改変画像260bに対応する2つの参照画像80c,80dを用いて生成されてもよい。各改変画像260は、ブレンド(透過合成)あるいは分割結合(結合合成)等により生成されればよい。この場合、参照画像80bは、改変画像260aの生成にも改変画像260bの生成にも用いられており、参照画像80cは、改変画像260bの生成にも改変画像260cの生成にも用いられている。このように、一の改変画像260の生成に用いられる参照画像80と、他の改変画像260の生成に用いられる参照画像80とが、一部重複してもよい。
【0108】
<3.第3実施形態>
第3実施形態は、第1実施形態等の変形例である。以下では、第1実施形態等との相違点を中心に説明する。
【0109】
上記第1実施形態および第2実施形態においては、参照画像80(詳細には、識別対象の物体以外の画像)のみを用いて、元画像220の一部領域230を互いに異なる複数の態様(外観)へと変更することにより、複数の改変画像260が生成されている。
【0110】
この第3実施形態では、参照画像80のみならず、元画像220の部分画像223(識別対象の物体の画像)(図9等参照)をも用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、複数の改変画像260が生成される(図15参照)。より詳細には、部分画像223を用いた画像加工処理が実行されること等によって、複数の改変画像260が生成される。部分画像223は、図9および図10等に示されるように、元画像220の一部領域230の画像である。
【0111】
この第3実施形態では、より詳細には、部分画像223と複数の参照画像80(被選択画像81)とを用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、元画像220に関する複数の改変画像260が生成される。
【0112】
たとえば、コントローラ31は、部分画像223と複数の参照画像80とをブレンド(透過合成)して複数の改変画像260を生成する。具体的には、コントローラ31は、部分画像223と多数の参照画像80の中から選択される所定数の参照画像80(被選択画像81とも称する)のそれぞれとのブレンド処理(透過合成処理)を実行することによって、複数の改変画像260を生成する(図15参照)。なお、ここでは、1枚の参照画像80が被選択画像81として選択される場合を例示するが、これに限定されず、(第2実施形態と同様に)2以上の参照画像80が被選択画像81として選択されてもよい。
【0113】
詳細には、部分画像223と被選択画像81とのブレンド処理を、当該被選択画像81を変更しつつ且つそのブレンド比率を変更しつつ繰り返し実行することによって、複数の改変画像260が生成される。
【0114】
参照画像80と部分画像223とのブレンド比率は、部分画像223に対する参照画像80の要素の付与の割合(付与率)、とも表現される。付与率100%による合成画像は参照画像80自体と等価であり、付与率0%による合成画像は部分画像223自体と等価である。また、ここでは、参照画像80自体および部分画像223自体をそれぞれ一部領域230に配置した各改変画像260もが生成される。
【0115】
具体的には、まず、第1の被選択画像81(81a)が決定され、当該被選択画像81と部分画像223とのブレンド処理を、そのブレンド比率を変更しつつ繰り返し実行することによって、互いに異なる態様の複数のブレンド画像82が生成される。そして、当該複数のブレンド画像82のそれぞれが元画像220の一部領域230に配置されることによって、複数の改変画像260が生成される(図15参照)。
【0116】
たとえば、数%刻みの互いに異なるブレンド比率でF枚(たとえば数十枚)のブレンド画像を生成し、当該F枚のブレンド画像に基づいて、F枚の改変画像260(260a,260p,260u,...)が生成される。なお、これに限定されず、複数のブレンド画像等は、ランダムに決定されたブレンド比率等に基づいて生成されてもよい。
【0117】
改変画像260aは、部分画像223に対する被選択画像81a(参照画像80a(ここではランダムノイズパターン画像))の付与率100%の合成画像(参照画像80a自体)が一部領域230に配置されて生成された画像である。また、改変画像260pは、部分画像223に対する被選択画像81aの付与率70%の合成画像が一部領域230に配置されて生成された画像である。また、改変画像260uは、部分画像223に対する被選択画像81aの付与率30%の合成画像が一部領域230に配置されて生成された画像である。なお、図15に示されるように、付与率が低減するにつれて部分画像223が見えてくる。逆に言えば、付与率が増大するにつれて、部分画像223の要素が見え難くなり被選択画像81(参照画像80)の要素が見え易くなる。なお、図15では省略されているが、他の様々な付与率による多数の改変画像260が生成される。
【0118】
つぎに、第2の被選択画像81(81b)が決定され、当該被選択画像81と部分画像223とのブレンド処理を、そのブレンド比率を変更しつつ繰り返し実行することによって、互いに異なる態様の複数のブレンド画像82が生成される。そして、当該複数のブレンド画像82のそれぞれが元画像220の一部領域230に配置されることによって、複数の改変画像260が生成される。たとえば、数%刻みの互いに異なるブレンド比率でF枚のブレンド画像を生成し、当該F枚のブレンド画像に基づいて、F枚の改変画像260(260b,260q,260v,...)が生成される。
【0119】
さらに、第3の被選択画像81(81c)についても同様の処理が実行され、F枚の改変画像260(260c,260r,260w,...)が生成される。
【0120】
また、第4以降の各被選択画像81についても同様の処理が実行され、それぞれ、F枚の改変画像260が生成される。
【0121】
このような処理が第E(たとえば、1000枚目)の被選択画像81にまで同様に繰り返されることによって、(E×F)枚(たとえば、1000×50=50000枚)の改変画像260が生成される。そして、これらの複数の改変画像260(部分画像223に基づく改変画像260を含んでもよい)に基づき、教師データが生成される。
【0122】
以上のような実施形態によれば、第1実施形態と同様の効果を得ることができる。また、特に、より多数の改変画像260(具体的には、(E×F)枚の改変画像260)が容易に生成されるので、より多数の教師データを効率的に生成することができる。
【0123】
<第3実施形態の変形例>
なお、これに限定されず、図16に示されるように、部分画像223と被選択画像81との結合処理(合成処理)を、当該被選択画像81を変更しつつ且つその結合比率を変更しつつ繰り返し実行することによって、複数の改変画像260が生成されてもよい。被選択画像81(参照画像80)と部分画像223との結合比率は、(ブレンド比率と同様、)部分画像223に対する参照画像80の要素の付与の割合(付与率)とも表現される。付与率100%による合成画像は参照画像80自体と等価であり、付与率0%による合成画像は部分画像223自体と等価である。
【0124】
たとえば、一部領域230(図10等参照)が複数(F個)のブロック領域に分割されるとともに、各被選択画像81(あるいは部分画像223)もそれぞれ複数(F個)のブロック画像に分割される。なお、図16では、F=8の場合(詳細には縦横2×4ブロックに分割される場合)が図示されている。そして、一部領域230(詳細にはそのブロック領域)において、結合比率(付与率)に応じた数のブロック画像(被選択画像81のブロック画像)が配置される。このような画像加工処理(分割後に再結合される合成処理)において、一部領域230全体に対する被選択画像81のブロック画像の占有割合が変更されることによって、結合比率(付与率)が変更されつつ当該結合処理が行われればよい。F=8の場合において、被選択画像81の2個のブロック画像が一部領域230内の2個のブロック領域に配置され且つ残りの6個のブロック領域に部分画像223が配置されるときには、結合比率(被選択画像81の占有割合)は、25%(=2/8)である。
【0125】
より具体的には、まず、第1の被選択画像81(81a)について、当該被選択画像81aと部分画像223との結合処理を、その結合比率を変更しつつ繰り返し実行することによって、互いに異なる態様(外観)の複数の結合画像84が生成される。そして、当該複数の結合画像84のそれぞれが元画像220の一部領域230に配置されることによって、複数の改変画像260が生成される(図16参照)。たとえば、F段階の互いに異なる結合比率でF枚の合成画像(結合画像)を生成し、当該F枚の合成画像に基づいてF枚の改変画像260(260a,260p,260u,...)が生成される。また、ここでは、参照画像80自体および部分画像223自体をそれぞれ一部領域230に配置した各改変画像260もが生成される。
【0126】
つぎに、第2の被選択画像81(81b)についても同様の処理が実行され、F枚の結合画像84に基づいて、F枚の改変画像260(260b,260q,260v,...)が生成される。
【0127】
さらに、第3の被選択画像81(81c)についても同様の処理が実行され、F枚の改変画像260(260c,260r,260w,...)が生成される。
【0128】
また、第4以降の各被選択画像81についても同様の処理が実行され、それぞれ、F枚の改変画像260が生成される。
【0129】
このような処理が第E(たとえば、1000枚目)の被選択画像81にまで同様に繰り返されることによって、(E×F)枚の改変画像260が生成される。
【0130】
図16では、F=8の場合について示されているが、これに限定されず、値Fはさらに大きな数(たとえば、数十~数百)などの様々な値であってもよい。また、同一結合比率であっても、一部領域230内での被選択画像81のブロック画像の位置が変更されることによって、異なる結合画像がさらに生成されてもよい。あるいは、一部領域230における各分割領域に配置するブロック画像(被選択画像81の部分画像)が別のブロック画像に変更されることによって、異なる結合画像がさらに生成されてもよい。そして、当該互いに異なる結合画像に基づいて2以上の改変画像260が更に生成されてもよい。このような処理によれば、さらに多数の改変画像260を生成することが可能である。
【0131】
また、上記実施形態等では、第1実施形態と同様に1枚の被選択画像81と部分画像223との合成処理(ブレンド処理等)が実行されることによって、複数の改変画像260が生成されているが、これに限定されない。たとえば、第2実施形態等と同様に、部分画像223と2枚以上の被選択画像81による合成画像(ブレンド画像82あるいは分割結合画像84等)との合成処理(ブレンド処理等)が実行されることによって、複数の改変画像260が生成されてもよい。より詳細には、部分画像223と2枚以上の被選択画像81とが、各種のブレンド比率(たとえば、50:25:25(あるいは、20:40:40、50:10:40等でもよい))でブレンドされて、改変画像260が生成されてもよい。
【0132】
また、ブレンド処理と分割結合処理とが組み合わせられて実行されてもよい。たとえば、2枚以上の被選択画像81のブレンド画像と部分画像223とを結合合成した複数の合成画像に基づいて、複数の改変画像260が生成されてもよい。あるいは、2枚以上の被選択画像81の結合画像と部分画像223とをブレンド合成した複数の合成画像に基づいて、複数の改変画像260が生成されてもよい。
【0133】
また、上記実施形態等では、部分画像223と各被選択画像81とに基づいて2以上の改変画像260が生成されている。たとえば、部分画像223と被選択画像81aとに基づいて2以上の改変画像260(たとえば、260a,260p,260u,...)が生成されている。しかしながら、これに限定されず、部分画像223と各被選択画像81とに基づいて一の改変画像260がされてもよい。そして、複数の被選択画像81のそれぞれについて一の改変画像260を生成する処理によって複数の改変画像260が生成されてもよい。
【0134】
たとえば、部分画像223と複数の被選択画像81とが特定比率(特定付与率)のみでブレンドされて改変画像が生成されてもよい。より詳細には、複数のブレンド画像82(82p,82q,82r,...)に基づき、複数の改変画像260(260p,260q,260r,...)(図15の左右方向中央列参照)のみが生成されてもよい。当該複数のブレンド画像82(82p,82q,82r,...)は、部分画像223と複数の被選択画像81(81a,81b,81c,...)のそれぞれとが特定付与率(ここでは70%)でブレンドされた画像である。ただし、これに限定されず、特定付与率は、固定値(たとえば、70%)ではなく、被選択画像81ごとに(乱数等によってランダムに)変更されてもよい。
【0135】
<4.第4実施形態>
第4実施形態は、第3実施形態等の変形例である。以下では、第3実施形態等との相違点を中心に説明する。
【0136】
上記第3実施形態においては、参照画像80と部分画像223との双方を用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、複数の改変画像260が生成されている。
【0137】
この第4実施形態においては、参照画像80を用いることなく、複数の改変画像260が生成される。具体的には、部分画像(識別対象の物体の画像)223(図9および図10参照)のみを用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、複数の改変画像260が生成される(図17参照)。より詳細には、部分画像223を用いた画像加工処理が実行されることによって、複数の改変画像260が生成される。
【0138】
図17は、第4実施形態に係る複数の改変画像260を示す図である。図17に示されるように、画像処理装置30は、部分画像223をF分割(ここでは8分割)したF個の分割領域の画像(各ブロック画像)を生成する。そして、F個のブロック画像の配置を(ランダムに)変更することによって、複数の改変画像260が生成される。
【0139】
図17においては、部分画像223を8分割した8個のブロック画像B1~B8を配置し直す画像加工処理によって、互いに異なる複数の部分加工画像225(225a,225b,225c,...)が生成されている。そして、当該複数の部分加工画像225が元画像220の一部領域230に配置されることによって、改変画像260bが生成されている。なお、図17においては、最左列の部分画像223の下側と中央列の各部分加工画像225の下側とにおいてブロック番号Bi付き矩形が配置され、ブロック画像B1~B8の配置が示されている。ただし、ブロック画像B1~B8の配置は、これに限定されず、各ブロック画像Biの位置はランダムに決定されてもよい。
【0140】
以上のような実施形態によれば、第1実施形態と同様に、元画像220の一部領域230を互いに異なる態様(外観)へと変更することにより元画像220に関する複数の改変画像260が生成され(ステップS13)、複数の改変画像260に基づき複数の教師データが生成される。したがって、物体の一部領域における多様な状況を順次に発現させて撮影を繰り返すことにより複数の撮影画像を取得し当該複数の撮影画像に基づき教師データを生成する場合に比べて、機械学習における教師データを効率的に生成することが可能である。
【0141】
また、第4実施形態においては、部分画像223(元画像220の一部領域230の画像)を用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、元画像220に関する複数の改変画像260が生成される。したがって、部分画像223の画像特性(輪郭特性およびテクスチャ特性等)をも反映させるように(一部領域230にて比較的近いテクスチャを有する画像を同一ないし同種の物体として認識するように)、学習モデルを学習させることが可能である。
【0142】
なお、上記においては、部分画像223をブロック分割した画像に基づき、複数の改変画像260が生成されているが、これに限定されない。
【0143】
たとえば、図18に示されるように、部分画像223に対するモザイク処理(解像度低減処理)により生成された複数のモザイク処理画像226が元画像220の一部領域230にそれぞれ配置されることによって、複数の改変画像260が生成されてもよい。複数のモザイク処理画像226は、部分画像223に対するモザイク処理(画像加工処理)におけるブロックサイズ(解像度の低減度合い)を変更して生成される画像である。図18では、モザイク処理画像226bのブロックサイズはモザイク処理画像226aのブロックサイズよりも大きく、モザイク処理画像226cのブロックサイズはモザイク処理画像226bのブロックサイズよりも大きい。そして、モザイク処理画像226aが元画像220の一部領域230に配置されることによって改変画像260aが生成される。同様に、モザイク処理画像226bが一部領域230に配置されることによって改変画像260bが生成され、モザイク処理画像226cが一部領域230に配置されることによって改変画像260cが生成される。
【0144】
あるいは、モザイク処理に限定されず、他の各種の画像加工処理(ぼかし処理、変形処理(波紋風変形、渦巻き風変形等)、色変更処理等)が部分画像223に対して施されて、複数の改変画像260が生成されてもよい。あるいは、複数の種類の画像加工処理が(その程度を変更しつつ)部分画像223に対して施されることによって、複数の改変画像260が生成されてもよい。
【0145】
<5.第5実施形態>
上記第3実施形態においては、部分画像223と複数の参照画像80(被選択画像81)のそれぞれとの合成処理によって複数の改変画像260が生成されているが、これに限定されない。
【0146】
たとえば、部分画像223と単一の参照画像80(被選択画像81)との合成処理によって、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、複数の改変画像260が生成されてもよい。第5実施形態では、このような形態を例示する。
【0147】
第5実施形態においては、第3実施形態(図15参照)の一部の処理が行われる。具体的には、第5実施形態では、単一の参照画像80(たとえば、被選択画像81cのみ)を用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、複数の改変画像260が生成される。
【0148】
より具体的には、部分画像223と当該単一の参照画像80(81c)とのブレンド処理(透過合成処理)を、そのブレンド比率(参照画像80と部分画像223との合成比率)を変更しつつ繰り返し実行すること等によって、互いに異なる複数(F枚)のブレンド画像82が生成される。そして、当該複数のブレンド画像82に基づき複数の改変画像260が生成される。たとえば、複数のブレンド画像82c(81c自体),82r,82w,...および複数の改変画像260c,260r,260w,...が生成される。
【0149】
このように、部分画像223と一の参照画像80とのブレンド画像82(透過合成画像)に基づき、複数の改変画像260が生成されてもよい。
【0150】
ただし、これに限定されず、例えば、図16の一部の処理が実行されてもよい。
【0151】
具体的には、部分画像223と参照画像80(たとえば、被選択画像81c)との結合処理を、その結合比率等を変更しつつ繰り返し実行することによって、複数の改変画像260が生成されてもよい。
【0152】
たとえば、被選択画像81cと部分画像223との結合処理を、その結合比率(合成比率)を変更しつつ繰り返し実行することによって、互いに異なる態様の複数(F枚)の結合画像84(84c,84r,84w,...)が生成される。そして、当該複数の結合画像84のそれぞれが元画像220の一部領域230に配置されることによって、複数の改変画像260(260c,260r,260w,...)が生成される。
【0153】
このように、部分画像223と一の参照画像80との結合画像84(合成画像)に基づき、複数の改変画像260が生成されてもよい。
【0154】
第5実施形態によっても、元画像220の一部領域230を互いに異なる態様(外観)へと変更することにより元画像220に関する複数の改変画像260が生成され(ステップS13)、複数の改変画像260に基づき複数の教師データが生成される。したがって、物体の一部領域における多様な状況を順次に発現させて撮影を繰り返すことにより複数の撮影画像を取得し当該複数の撮影画像に基づき教師データを生成する場合に比べて、機械学習における教師データを効率的に生成することが可能である。
【0155】
また、第5実施形態においては、部分画像223(元画像220の一部領域230の画像)を用いて、元画像220の一部領域230を互いに異なる複数の態様へと変更することにより、元画像220に関する複数の改変画像260が生成される。そして、このような複数の改変画像260に基づく教師データを用いて学習モデル400が学習される。これによれば、部分画像223の画像特性(輪郭特性およびテクスチャ特性等)をも反映させるように(一部領域230にて比較的近いテクスチャを有する画像を同一ないし同種の物体として認識するように)、学習モデルを学習させることが可能である。
【0156】
ただし、第5実施形態では、第1実施形態~第3実施形態とは異なり、複数の参照画像80ではなく単一の参照画像80を用いて複数の改変画像260が生成されている。それ故、複数の参照画像80を用いて複数の改変画像260を生成する第1実施形態等に比べて、複数の改変画像260の多様性(一部領域230に対応する部分の多様性)が低減する。したがって、一部領域230の画像への依存性を抑制する効果(変動許容領域P1の多様性を許容する効果)は、第1実施形態等に比べて限定的である。より詳細には、一部領域230を多様に変化させた複数の改変画像260に基づく教師データによる学習によって一部領域230の状況への依存性を抑制する効果は、第1実施形態等に比べて限定的である。逆に言えば、単一の参照画像80ではなく複数の参照画像80を用いて複数の改変画像260を生成することによれば、一部領域230の状況の影響(多様性の影響)の抑制効果を向上させることが可能である。
【0157】
なお、第5実施形態と第4実施形態とが組み合わせられてもよい。たとえば、第4実施形態における複数のモザイク処理画像226(図18参照)が生成され、当該複数のモザイク処理画像226のそれぞれと単一の参照画像80とを用いて第5実施形態のような複数の改変画像260がそれぞれ生成されてもよい。換言すれば、第5実施形態における部分画像223の代わりに、当該複数のモザイク処理画像226のそれぞれが用いられてもよい。
【0158】
<6.第6実施形態>
第6実施形態においては、追加学習技術について説明する(図20参照)。具体的には、物体90a(或る品目の商品)を認識させるために生成された第1教師データ群310に基づき予め学習された学習モデル400を、別の物体90b(別の品目の商品)を認識させるために生成された第2教師データ群330に基づき追加学習する技術について説明する。このような追加学習により、学習モデル400は、物体90aのみならず物体90bをも認識することが可能になる。なお、たとえば、物体90aは、商品「干しイカ」であり、物体90bは、商品「チーズの詰め合わせ」である。ここでは、商品90aおよび商品90bのいずれも透明部93(変動許容領域P1)を有しており、透明部93を有する商品の認識に関して追加学習が行われる。
【0159】
具体的には、まず、画像処理装置30は、上記各実施形態(たとえば第1実施形態)のようにして、物体90a(或る品目の商品)に関する学習処理等を実行する(図20の上半部分参照)。詳細には、物体90aを撮影した元画像220(第1元画像220a)の一部領域230aの画像(部分画像223)を互いに異なる態様の画像(互いに異なる部分画像)へと変更することにより、複数の改変画像260が生成される(図6のステップS13参照)。当該複数の改変画像260(260a,260b,260c,...)は、第1改変画像群とも称される。そして、当該第1改変画像群(複数の改変画像260)に基づき、第1教師データ群310が生成される(ステップS14)。その後、このようにして生成された第1教師データ群310に基づく学習モデル400の機械学習処理(図7参照)が実行され、学習済みモデル420が生成される(ステップS21,S22)。
【0160】
つぎに、画像処理装置30は、別の物体90b(別品目の商品等)をも学習モデル400を用いて認識させるために、学習済みの学習モデル400(420)を新たな教師データ群(第2教師データ群330)をも用いて追加的に学習する(図20の下半部分参照)。第2教師データ群330は、物体90aとは異なる物体90bを認識させるために第2改変画像群280(後述)に基づき生成された複数の教師データである。
【0161】
具体的には、まず、物体90aとは異なる物体90bを撮影した元画像(第2元画像220b)の一部領域230bの画像(部分画像223b)を互いに異なる態様の画像(互いに異なる部分画像)へと変更することにより、複数の改変画像280が生成される。各改変画像280(280a,280b,280c,...)は、(認識対象物体が異なる点を除いて、)上述の各改変画像260と同様にして生成されればよい。当該複数の改変画像280は、第2改変画像群とも称される。つぎに、当該第2改変画像群(複数の改変画像280)に基づき、第2教師データ群330が生成される。第2教師データ群330の各教師データは、(複数の改変画像260ではなく)複数の改変画像280に基づき、第1教師データ群310の各教師データと同様にして生成されればよい。そして、画像処理装置30(学習モデル生成装置の学習処理部)は、第1教師データ群310に基づき予め学習された学習モデル400(420)を、第2教師データ群330と第1教師データ群310とに基づき追加学習する。
【0162】
このような追加学習によれば、学習モデル400を最初から学習し直す場合に比べて、商品90aのみならず商品90bをも認識可能な学習モデル(推論モデル)400を効率的に(短時間で)生成することが可能である。なお、追加学習は、学習済みの学習モデル400(420)を利用する学習形態であり、転移学習の一種である。
【0163】
また、この実施形態では、このような追加学習の初期段階(追加学習の開始直後の所定期間等)において、画像処理装置30は、第1教師データ群310内の教師データよりも第2教師データ群330内の教師データを多く用いて学習モデル400を機械学習する。
【0164】
より詳細には、追加学習の開始直後の所定期間においては、第2教師データ群330内の教師データが、第1教師データ群310内の教師データよりも高頻度で選択されるように、両教師データ群310,330の中から教師データが順次に選択される。たとえば、第1教師データ群310内の教師データと第2教師データ群330内の教師データとの比率(選択比率)が、たとえば、25%:75%(=1:3)となるように、順次に教師データが選択される。そして、選択された教師データ(第1教師データ群310内の教師データと第2教師データ群330内の教師データとのいずれか)を用いた追加学習が順次に実行される。
【0165】
当該所定期間としては、評価用のデータセット(ラベル付きデータ)に基づく認識率が第1基準値V1(たとえば、95%)に到達するまでの期間等が例示される。あるいは、当該所定期間は、所定数(たとえば数十個~数百個)の教師データによる追加学習が実行されるまでの期間等であってもよい。また、追加学習の初期段階は、学習データ数、学習時間、到達認識率などの各種の基準で区分される複数の段階(第1段階~第n段階)のうちの前半等(たとえば、4段階のうちの2段階目あるいは1段階目までの段階)であってもよい。
【0166】
なお、追加学習の開始直後の最初の教師データとしては(第1教師データ群310ではなく)第2教師データ群330のうちの一の教師データが選択され、当該一の教師データを用いて学習モデル400の追加学習が開始されることが好ましい。当該一の教師データは、第2教師データ群330の中から、乱数等によってランダムに選択されればよい。
【0167】
上記所定期間が経過した後には、たとえば、第1教師データ群310内の教師データと第2教師データ群330内の教師データとの比率(選択比率)が、同等(たとえば、50%:50%(=1:1))となるように、順次に教師データが選択される。そして、選択された教師データ(第1教師データ群310内の教師データと第2教師データ群330内の教師データとのいずれか)を用いた追加学習が順次に実行される。
【0168】
そして、評価用のデータセット(ラベル付きデータ)に基づく認識率が第2基準値V2(たとえば、99%)に到達すると、当該追加学習は終了(完了)し、物体90bをも認識可能な学習モデル400が生成される。なお、値V2は、値V1よりも大きな値である。
【0169】
以上のような追加学習処理(学習済みモデルを用いた学習処理)によれば、学習モデル400を最初から学習し直す場合に比べて、商品90aのみならず商品90bをも認識可能な学習モデル400を効率的に(短時間で)生成することが可能である。
【0170】
また、特に、追加学習の初期段階(上記所定期間内等)においては、第2教師データ群330内の教師データを第1教師データ群310内の教師データよりも多く用いて学習モデル400が学習される。このように第2教師データ群330内の教師データを初期段階において優先的に用いることによれば、物体90bをも認識するための学習パラメータ変化(学習モデル400の内部パラメータの変化)を比較的早期に比較的大きく発生させることが可能である。ひいては、物体90bをも認識させるための学習を効率的に進めることが可能である。すなわち、効率的な追加学習処理を実現することが可能である。
【0171】
なお、ここでは、互いに異なる物体として、互いに異なる品目の商品を例示しているが、これに限定されない。たとえば、同じ品目の商品の表(おもて)面と裏(うら)面とを別の物体(別の認識対象物)として認識させるようにしてもよい。
【0172】
また、ここでは、追加学習前の学習モデル400が一の物体のみを認識するように予め学習されているが、これに限定されない。たとえば、追加学習前の学習モデル400は、N個(Nは、自然数(特に2以上))の物体を認識するための複数の教師データ群(第1教師データ群~第N教師データ群)に基づき予め学習された学習モデルであってもよい。そして、当該学習モデル400を、さらに別の物体を認識するための新たな教師データ群にも基づき追加学習する際に、上記の思想が適用されてもよい。ここで、第i(ただし、iは1~Nの自然数)教師データ群は、第i物体を認識させるために第i改変画像群に基づき生成された複数の教師データである。また、第i改変画像群は、第i物体を撮影した元画像(第i元画像)に関する複数の改変画像で構成される。第i改変画像群の複数の改変画像は、第i元画像の一部領域の画像を互いに異なる態様の複数の画像(部分画像)へと変更することにより生成される。特に、値Nが非常に大きい場合(たとえば、N=1000の場合)には、追加学習による学習時間短縮効果は非常に大きい。
【0173】
また、さらに別の物体を認識するための当該新たな教師データ群は、一の新たな物体を認識するための新たな一の教師データ群に限定されず、複数の新たな物体を認識するための複数の新たな教師データ群であってもよい。このような少なくとも1つの新たな教師データ群(第(N+j)教師データ群)(ただし、jは1~Mの自然数、且つMは自然数)のそれぞれは、第1物体~第N物体とは異なる物体(第(N+j)物体)を認識させるために新たな改変画像群(第(N+j)改変画像群)に基づき生成された複数の教師データである。また、当該新たな改変画像群は、新たな物体(第(N+j)物体)を撮影した新たな元画像(第(N+j)元画像)に関する複数の改変画像であって、当該新たな元画像の一部領域の画像を互いに異なる態様の複数の画像(部分画像)へと変更することにより生成される。
【0174】
そして、当該少なくとも1つの新たな教師データ群にも基づき追加学習する際に、上記と同様の思想が適用されればよい。具体的には、当該追加学習の初期段階においては、第1教師データ群~第N教師データ群内の教師データよりも、少なくとも1つの新たな教師データ群(第(N+1)~第(N+j)教師データ群)内の教師データを多く用いて学習モデル400が学習されればよい。
【0175】
<7.第7実施形態>
第7実施形態は、第6実施形態と同様、追加学習に関する。上記第6実施形態では、或る物体を認識するための学習モデル(学習済みモデル)を別の物体の認識のための新たな教師データにより追加学習する技術について説明した。この第7実施形態では、或る物体を認識するための学習モデル(学習済みモデル)を、同じ物体の認識のための新たな教師データにより追加学習する技術について説明する。
【0176】
第7実施形態では、或る物体(或る品目の商品等)90aを認識させるために生成された第1教師データ群310に基づき予め学習された学習モデル400が、同じ物体(同一品目の商品)90aを認識させるための新たな教師データにも基づき追加学習される。
【0177】
具体的には、まず、画像処理装置30は、第6実施形態(図20の上半部分参照)と同様にして、第1教師データ群310に基づく学習モデル400の機械学習処理(図7参照)を実行し、学習済みモデル420を生成する(図21の上半部分参照)。
【0178】
つぎに、画像処理装置30は、同じ物体(同じ品目の商品等)90aを学習モデル400を用いて認識させるために、学習済みの学習モデル400を少なくとも1つの新たな教師データ(新たな教師データ群)320をも用いて追加的に学習する(図21の下半部分参照)。少なくとも1つの新たな教師データ320をも用いた追加学習によって、物体90aの認識率を向上させることが可能である。
【0179】
ここで、当該少なくとも1つの新たな教師データ320の各教師データ(たとえば2つの教師データ320a,320b)は、同じ物体90aを認識させるために、少なくとも1つの新たな改変画像270(270a,270b)に基づいて生成された教師データである。少なくとも1つの新たな改変画像270は、複数の改変画像260のいずれとも異なる改変画像であり、且つ、互いに異なる改変画像である。少なくとも1つの新たな改変画像270は、物体90aに関する元画像220の一部領域230の画像を、新たな態様の画像(互いに異なる新たな部分画像)へと変更(加工)することにより生成される。たとえば、複数の改変画像260(260a,260b,260c,...)の生成に用いられた参照画像80(80a,80b,80c,...)とは異なる参照画像80(80p,80q)に基づいて、少なくとも1つの新たな改変画像270が生成される。このように、当該各改変画像270は、複数の改変画像260に用いられた複数の参照画像80のいずれとも異なる参照画像等に基づいて生成されることが好ましい。
【0180】
このような追加学習によれば、学習モデル400を最初から学習し直す場合に比べて、商品90aのみならず商品90bをも認識可能な学習モデル(推論モデル)400を効率的に(短時間で)生成することが可能である。
【0181】
また、この実施形態では、このような追加学習(両教師データ群310,320を用いた追加学習)の初期段階において、第1教師データ群310内の教師データよりも新たな教師データ群320内の教師データを多く用いて学習モデル400が機械学習される。初期段階終了後の段階においては、第1教師データ群310内の教師データと新たな教師データ群320内の教師データとの選択比率が同等となるように順次に教師データが選択され、選択された教師データを用いた追加学習が順次に実行される。
【0182】
追加学習の初期段階において、新たな教師データ群320内の教師データを優先的に用いることによれば、新たな教師データ群320による(学習モデル400の)内部パラメータ変化を比較的早期に比較的大きく発生させることが可能である。ひいては、新たな教師データ群にも基づく学習を効率的に進めることが可能である。すなわち、効率的な追加学習処理を実現することが可能である。
【0183】
なお、ここでは、新たな教師データ320として、2つの教師データ320a,320bが主に例示されているが、これに限定されない。新たな教師データ(群)320は、単一の教師データでもよく、3つ以上の教師データでもよい。
【0184】
<8.変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。
【0185】
たとえば、上記各実施形態が適宜に組み合わせられてもよい。
【0186】
また、上記各実施形態においては、様々な処理が1つの画像処理装置30によって実現されているが、これに限定されず、様々な処理が複数の装置で分担されて実現されてもよい。たとえば、教師データ生成段階Ph1(図5参照)における教師データ生成処理と、学習モデル生成段階Ph2における学習モデル生成処理と、および物体認識段階Ph3における物体認識処理とがそれぞれ別個の装置で実行されてもよい。端的に言えば、教師データ生成装置と学習モデル生成装置と物体認識装置とがそれぞれ別個の装置として構成されてもよい。また、これらの処理のいずれか1つ以上がクラウド上で実行されてもよい。
【0187】
また、上記各実施形態においては、物体として商品を主に例示しているが、これに限定されず、商品以外の様々な物体(たとえば、機械部品等)が認識対象とされてもよい。
【0188】
また、ここでは、物体の認識結果が物体のピッキングに利用されているが、これに限定されず、物体の認識結果はその他の用途等に用いられてもよく、あるいは物体の認識結果を得ること自体が目的であってもよい。
【符号の説明】
【0189】
1 ピッキングシステム
20 撮影装置
30 画像処理装置
31 コントローラ(制御部)
50 ピッキングロボット
52 ロボットアーム部
53 エンドエフェクタ
80 参照画像
82 ブレンド画像
84 結合画像
210 撮影画像
220 元画像
223 部分画像
225 部分加工画像
226 モザイク処理画像
230 一部領域
260,270,280 改変画像
310,320,330 教師データ群
400 学習モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24