(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024140129
(43)【公開日】2024-10-10
(54)【発明の名称】重量推定装置及び教師データ作成方法
(51)【国際特許分類】
G01G 9/00 20060101AFI20241003BHJP
G06T 7/00 20170101ALI20241003BHJP
G06T 7/55 20170101ALI20241003BHJP
G06V 20/68 20220101ALI20241003BHJP
G01G 17/00 20060101ALI20241003BHJP
【FI】
G01G9/00
G06T7/00 350B
G06T7/55
G06V20/68
G01G17/00 C
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023051129
(22)【出願日】2023-03-28
(71)【出願人】
【識別番号】513087677
【氏名又は名称】PCIソリューションズ株式会社
(71)【出願人】
【識別番号】519441187
【氏名又は名称】株式会社プリバテック
(71)【出願人】
【識別番号】523114143
【氏名又は名称】データステップス株式会社
(74)【代理人】
【識別番号】110000800
【氏名又は名称】デロイトトーマツ弁理士法人
(72)【発明者】
【氏名】古賀 淳也
(72)【発明者】
【氏名】野口 雅之
(72)【発明者】
【氏名】千葉 博文
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA03
5L096CA05
5L096DA01
5L096DA02
5L096EA33
5L096EA35
5L096FA04
5L096FA16
5L096FA62
5L096FA64
5L096FA66
5L096FA69
5L096GA34
5L096GA40
5L096GA55
5L096KA04
(57)【要約】
【課題】対象物が固形物に限らず、また、対象物までの距離が固定されていなくても、対象物の重量を適切に推定することができる重量推定装置を提供する。
【解決手段】重量推定装置10は、RGBカメラ14a及びステレオカメラ14bが対象物12についてそれぞれ生成したカラー画像と深度データ画像とに基づいて、対象物12の重量を推定できるように機械学習させた機械学習モデル22と、機械学習モデル22を用いて対象物12の重量推定を行う重量推定部18と、を備えている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象物のカラー画像を撮像可能なRGBカメラと、
前記対象物までの深度情報を含む深度データ画像を撮像可能なステレオカメラと、
前記対象物の前記カラー画像と前記深度情報とに基づいて、前記対象物の重量を推定できるように機械学習させた機械学習モデルと、
撮像された前記カラー画像と前記深度データ画像とが入力された場合に、前記機械学習モデルを用いて前記対象物の重量推定を行う重量推定部と、
を備えていることを特徴とする重量推定装置。
【請求項2】
前記機械学習モデルの機械学習は、深度データ画像と対関係にあるカラー画像から作成したマスクに基づいて該深度データ画像を対象物内領域と対象物外領域とに区分けし、前記対象物内領域の深度取得不能領域を、該対象物内領域において該深度取得不能領域に隣接している深度取得領域の深度に基づいて補間された深度データ画像を機械学習用データとして使用している、請求項1に記載の重量推定装置。
【請求項3】
前記機械学習モデルは、
ランダムに生成した増減距離をランダム距離として設定するランダム距離設定部と、
対関係の既存のカラー画像及び深度データ画像をそれぞれ元カラー画像及び元深度データ画像として、前記元深度データ画像の全画素の深度を、前記ランダム距離に相当する分だけ一律に変更するとともに、元カラー画像及び元深度データ画像の画像を、変更後の深度に対応するサイズに拡縮した新カラー画像及び新深度データ画像に対応するデータを拡張データとして生成する拡張データ生成部と、
を備えている、請求項1に記載の重量推定装置。
【請求項4】
RGBカメラで撮像された対象物のカラー画像と、ステレオカメラで撮像された前記対象物までの深度情報を含む深度データ画像から機械学習用データを作成する教師データ作成方法であって、
前記カラー画像から前記対象物の外周を囲む第1画像部分を切り出す第1の対象物切出工程と、
前記第1の対象物切出工程によって切り出された前記第1画像部分を未加工で予め定めた所定サイズの枠に貼付する第1の画像貼付工程と、
前記深度データ画像から撮影範囲が前記第1画像部分と同一である第2画像部分を切り出す第2の対象物切出工程と、
前記第2の対象物切出工程によって切り出された前記第2画像部分を未加工で前記所定サイズの新たな枠に貼付する第2の画像貼付工程と、
を備えていることを特徴とする教師データ作成方法。
【請求項5】
前記機械学習用データには、対関係の既存のカラー画像及び深度データ画像をそれぞれ元カラー画像及び元深度データ画像として、前記元深度データ画像の全画素の深度を、ランダムに生成したランダム距離に相当する分だけ一律に増減するするとともに、元カラー画像及び元深度データ画像を、変更後の深度に対応するサイズに拡縮した新カラー画像及び新深度データ画像に対応するデータが拡張データとして含まれている、請求項4に記載の教師データ作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像中の対象物の重量を推定する重量推定装置、及び重量推定の機械学習に用いる教師データの作成方法に関する。
【背景技術】
【0002】
従来、撮像装置を用いて対象物を撮像し、その重量や質量を推定することができる装置が知られている。対象物の重量推定には、画像処理技術や機械学習モデルを用いた判定装置等が利用される。
【0003】
例えば、特許文献1の質量推定装置は、推定対象物を搬送する搬送面を有する搬送部と、搬送部の上方に固定された撮像部と、撮像部と接続された演算部を備えている。搬送面にばらまかれた食品を一定量搬送して停止したとき、演算部は、搬送面上の食品の内の部分的な質量を推定する。特に、演算部は、撮像部で撮像可能な撮像視野内で、位置特定マーカによって規定される所定の領域内に含まれる食品の質量を推定する。
【0004】
質量の推定アルゴリズムは、過去のデータから自動的に推定式を構成する機械学習ベースのシステムを用いる。機械学習には、畳み込みニューラルネットを用いる。また、位置特定マーカにより、搬送面のどの領域の質量を測定したのかを特定できるので、部分的に測定した質量を累積して、必要な分量の推定対象物の切り出しが容易となる(特許文献1/段落0023,0024,0037、
図1、及び
図2)。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1は、対象物を移動させたときの各視点から全体形状を認識して重量等を推定する手法であるため、形状のしっかりした固形物でないと、精度良く物理量を推定することが難しいという問題があった。例えば、レタス等の葉菜類は、ふんわりしていて、形状が不安定であるとともに、内部には間隙が存在することがある。このため、撮像部から見た二次元の形状及び大きさが同一であっても、重量が大きく異なることがある。
【0007】
さらに、特許文献1の質量推定装置は、搬送面に載せられて搬送されてくる対象物が所定位置に来た時に撮像するので、撮像時の撮像部と対象物との距離は、固定されている。したがって、撮像部と対象物との間の距離が固定されていない対象物の質量を推定するときには、推定精度が低くなっている。
【0008】
本発明は、このような事情に鑑みてなされたものであり、対象物が固形物に限らず、また、対象物までの距離が固定されていなくても、対象物の重量を適切に推定することができる重量推定装置及び教師データ作成方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の重量推定装置は、
対象物のカラー画像を撮像可能なRGBカメラと、
前記対象物までの深度情報を含む深度データ画像を撮像可能なステレオカメラと、
前記対象物の前記カラー画像と前記深度情報とに基づいて、前記対象物の重量を推定できるように機械学習させた機械学習モデルと、
撮像された前記カラー画像と前記深度データ画像とが入力された場合に、前記機械学習モデルを用いて前記対象物の重量推定を行う重量推定部と、
を備えている。
【0010】
本発明の教師データ作成方法は、
RGBカメラで撮像された対象物のカラー画像と、ステレオカメラで撮像された前記対象物までの深度情報を含む深度データ画像から機械学習用データを作成する教師データ作成方法であって、
前記カラー画像から前記対象物の外周を囲む第1画像部分を切り出す第1の対象物切出工程と、
前記第1の対象物切出工程によって切り出された前記第1画像部分を未加工で予め定めた所定サイズの枠に貼付する第1の画像貼付工程と、
前記深度データ画像から撮影範囲が前記第1画像部分と同一である第2画像部分を切り出す第2の対象物切出工程と、
前記第2の対象物切出工程によって切り出された前記第2画像部分を未加工で前記所定サイズの新たな枠に貼付する第2の画像貼付工程と、
を備えている。
【発明の効果】
【0011】
本発明の重量推定装置によれば、機械学習モデルは、カラー画像の他に深度データ画像を用いて対象物までの重量を推定する。これにより、対象物までの距離が固定されていなくても、さらには、対象物がその個々の部位で撮像部から異なる距離となっていても、対象物の重量を適切に推定することができる。
【0012】
本発明の教師データ作成方法によれば、機械学習用データの作成において、カラー画像と深度データ画像から対象物の外周を囲みかつ撮影範囲が同一である第1及び第2の画像部分が切り出され、未加工で、すなわちサイズの正規化を行うことなく、同一の所定サイズのそれぞれの枠に貼付される。これにより、RGBカメラからの距離が、部位ごとに相違している対象物に対しても重量推定についての適切な機械学習モデルを生成することができる。
【図面の簡単な説明】
【0013】
【
図1】機械学習モデルを装備して対象物の重量を推定する重量推定装置の模式図である。
【
図2】機械学習モデルに機械学習を行わせる際の教師データのカラー画像及び深度データ画像を作成する作業装置の配置図である。
【
図3】機械学習モデルの機械学習の際に教師データとして使用する種々のカラー画像を示す図である。
【
図4】対象物の複数の座標位置で対関係のカラー画像及び深度データ画像を示す図である。
【
図5】重量の異なる対象物についてのカラー画像を示す図である。
【
図6】第1の深度データ画像に対する深度データの補間処理についての説明図である。
【
図7】第2の深度データ画像に対する深度データの補間処理についての説明図である。
【
図8】第3の深度データ画像に対する深度データの補間処理についての説明図である。
【
図9】カラー画像から対象物の画像領域を切り出して最終の教師データを作成する工程説明図である。
【
図10】カラー画像及び深度データ画像からそれぞれ切出した切出し領域を対応のキャンバスに貼付した工程を並べて示した図である。
【
図11】深度増減による教師データの拡張についての説明図である。
【
図12】機械学習モデルを機械学習させたときのEpochとMSE及びMAEとの関係を調べたグラフである。
【
図13】
図12の所定のEpochのチューニングを所定回目から別途、機械学習を初回から行ったときのEpochとMSE及びMAEとの関係を調べたグラフである。
【
図14】機械学習モデルに対し対関係のRGB及び深度のうちRGBだけで機械学習させたときのEpochとMSE及びMAEとの関係を調べたグラフである。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について説明する。本発明は、実施形態に限定されないことは言うまでもない。なお、複数の実施形態間で共通する構成要素については、同一の符号を使用する。
【0015】
(実施形態)
図1は、対象物12の重量を推定する重量推定装置10の模式図である。重量推定装置10は、複合カメラ14、重量推定部18、重量表示器20及び機械学習モデル22を備えている。
【0016】
この例では、対象物12は、葉物野菜であるレタスである。このレタスは、全体の色がほぼ緑(G)で占められている。対象物12が緑色であることは、後述のマスク60aの作成に利用される。対象物12としてのレタスは、中に間隙を有しており、全体としてふかふかしていて、形状及び大きさが固形物に比して不安定となっている。このような対象物12は、固形の物体に対して重量の推定が難しくなる。重量推定装置10は、レタスのような対象物12にも重量推定を適切に実施できる機械学習モデル22を構築している。
【0017】
複合カメラ14は、RGBカメラ14a及びステレオカメラ14bを搭載している。複合カメラ14は、例えばインテル(登録商標)社の デプスカメラであるRealSense(登録商標)として市販されているものが利用可能である。
【0018】
RGBカメラ14a及びステレオカメラ14bは、それぞれカラー画像(詳細には、赤R、緑G及び青Bの3つの画像から構成されている。)及び深度データ画像を生成する。重量推定部18は、カラー画像及び深度データ画像に基づいて複合カメラ14の視野座標空間16における対象物12の各部位の座標位置を検出する。
【0019】
図では、図示の簡便上、視野座標空間16におけるX軸、Y軸及びZ軸は、直交座標で描かれている。しかしながら、詳細には、複合カメラ14が視野座標空間16の被写体の各部位について検出する座標位置は、それぞれ複合カメラ14から見て水平方向、前後方向(深度方向)及び鉛直方向の視野角を、RGBカメラ14a又はステレオカメラ14bの1画素に対応する角度で分割して、各画素の被写部位が水平方向、前後方向(深度方向)及び鉛直方向に占める角度部分に割り当てられている座標位置となる。
【0020】
重量推定部18は、対象物12のカラー画像から被写体としての対象物12の各部位のX座標及びZ座標を検出し、対象物12の深度データ画像から被写体としての対象物12の各部位のY座標(深度)を検出する。カラー画像は、詳細には、RGBカメラ14aの画素に対応する座標位置ごとにR(赤)、G(緑)及びB(青)の3つの色彩のデータを有している。
【0021】
この例では、RGBカメラ14aの画素とステレオカメラ14bの画素は、1:1に対応している。しかしながら、RGBカメラ14aの画素とステレオカメラ14bの画素との対応関係は、1:複数又は複数:1の関係であってもよい。RGBカメラ14aの画素とステレオカメラ14bの画素との対応関係が1:複数である場合は、カラー画像におけるRGBカメラ14aの各画素に対応する領域の深度(複合カメラ14からの距離)は、ステレオカメラ14bにおける複数の対応画素の深度のいずれか(例:最小深度、平均深度、最大深度又は任意)に決定される。RGBカメラ14aの画素とステレオカメラ14bの画素との対応関係が複数:1である場合は、カラー画像におけるRGBカメラ14aの複数画素に対応する領域の深度は、該複数の画素に対応するステレオカメラ14bにおける1つの画素の深度に共通に決定される。
【0022】
機械学習モデル22は、予め教師データとして用意されたカラー画像及び深度データ画像に基づく機械学習により構築されている。すなわち、学習済みのAIモデルとして、重量推定装置10に組み込まれている。
【0023】
重量推定部18は、機械学習モデル22を用いて、重量推定対象の対象物12のカラー画像及び深度データ画像に基づいて対象物12の重量を推定する。
【0024】
重量表示器20は、対象物表示部20a及び重量表示部20bを有している。対象物表示部20aには、RGBカメラ14aが生成したカラー画像から対象物12の範囲を切り抜いた画像が表示される。また、重量表示部20bには、対象物表示部20aに表示されている対象物12の推定重量が表示される。
【0025】
(教師データ)
図2は、機械学習モデル22に機械学習を行わせる際の教師データ(機械学習用データの一例)のカラー画像及び深度データ画像を作成する作業装置の配置図である。機械学習モデル22の機械学習に使用する教師データのカラー画像及び深度データ画像を作成するためには、重量推定装置10による重量推定の対象物12について、視野座標空間16における相対位置、大きさ(サイズ)、形状及び重量の各パラメータの値が想定範囲内にあって適切に分布する対象物48のカラー画像及び深度データ画像を十分な個数、用意する必要がある。
【0026】
視野座標空間16における対象物12の相対位置の検出は、必須ではない。なぜなら、対象物12は、相対位置に基づいてカラー画像及び深度データ画像から切り出されているのではなく、カラー画像及び深度データ画像において対象物12の画像部分がどれかを判断して、その判断に基づいて切り出しているからである。しかしながら、複合カメラ14からの対象物12の相対位置を変えて撮像することにより得られる「見え方のバリエーション」は教師データとして有益である。
【0027】
図1の対象物12は、重量推定装置10で実際に重量を推定する対象物である。これに対し、
図2の対象物48は、機械学習モデル22に機械学習を行わせる際の教師データを作成するための対象物である。対象物48は、対象物12と種類が同一(例:レタス)であるとともに、各パラメータ(例:形状、大きさ、重量及び座標位置)について重量推定対象の対象物12が有すると予想される値範囲内で広く分布して、機械学習用に用意される。
【0028】
図2のX軸、Y軸及びZ軸は、
図1の視野座標空間16のX軸、Y軸及びZ軸に対応している。
図1では、複合カメラ14は、位置が固定され、対象物12が複合カメラ14に対して種々の相対位置を有するようになっている。これに対し、
図2では、対象物48の位置が固定され、複合カメラ14が固定位置の対象物48に対して位置を変更するようになっている。
【0029】
カメラ用スタンド30は、X軸方向及びY軸方向に移動可能に床28に載置されている台32と、台32に立設されているストラット34と、ストラット34からの突出量がZ軸方向に調整自在である鉛直パイプ38と、鉛直パイプ38の上端部に固定されている水平パイプ40と、Y軸方向に変位自在に鉛直ヘッド36に支持されている水平パイプ40とを備えている。24は、レンズを下に向けて水平パイプ40の先端部に取り付けられている。
【0030】
矩形の不織布44は、複合カメラ14の下方において床28に載置されている。模造紙46は、形状及び大きさが不織布44に等しく、不織布44の上面に重ねて敷かれている。対象物48は、模造紙46の上面の中心位置に置かれる。
【0031】
照明スタンド50は、上端部にランプ52を下向きに備えている。照明スタンド50は、ランプ52が模造紙46の中心の直上になるように、模造紙46の外側において床28に配置される。ランプ52は、模造紙46の全体がほぼ一様な明るさとなるように、光を模造紙46に向けて照射している。
【0032】
作業者は、教師データのカラー画像及び深度データ画像を作成するために、対象物48を模造紙46の中心位置に置くとともに、カメラ用スタンド30の台32をX軸方向及びY軸方向に移動させ、さらに、鉛直ヘッド36をZ軸方向に変位させる。また、複合カメラ14の向きを、真下に維持する。こうして、複合カメラ14と対象物48との相対位置が種々変化する。作業者は、複合カメラ14と対象物48との複数の相対位置において複合カメラ14を作動させて、同一の対象物48に対して相対位置の異なる教師データとしての対関係のカラー画像及び深度データ画像を作成する。
【0033】
作業者は、1つの対象物48についての教師データを作成したら、該対象物48をパラメータ(例:形状、寸法、重量)又はその値が異なっている別の対象物48に変更して、同様に教師データを作成する。こうして、作成された教師データは、機械学習モデル22の機械学習に使用される。
【0034】
(教師データ用カラー画像/位置)
図3は、機械学習モデル22の機械学習の際に教師データとして使用する種々のカラー画像を示す図である。なお、
図3に図示のカラー画像は、各々1つであるが、カラー画像には、実際には、赤R、緑G及び青Bの3つの画像から構成されている。図面では、図示の簡略化上、赤R、緑G及び青Bの3つの画像を1つの画像として示している。
【0035】
対象物12の重量推定の学習モデルを生成する教師データとして使用する対象物48は、必須パラメータは重量とし、その他の複数のパラメータ(例:形状や大きさ)を含めて各パラメータの値範囲が広く分布する撮影画像(カラー画像及び深度データ画像)を教師データとして十分な数、収集することが好ましい。
【0036】
そして、各対象物48について、視野座標空間58内の種々の座標位置において教師データのカラー画像及び深度データ画像が作成される。なお、図面では、カラー画像は、グレースケールで示している。
【0037】
図3において、視野座標空間58は、
図2の複合カメラ14に対するものとして定義されているが、複合カメラ14が
図1の重量推定装置10の複合カメラ14と共通するものとして、
図1の視野座標空間16と同一に定義されている。
【0038】
図3の視野座標空間58のX軸、Y軸及びZ軸は、
図2のX軸、Y軸及びZ軸に対応している。視野座標空間58は、X軸、Y軸及びZ軸の各軸方向に3つに等分割されている。この結果、視野座標空間58は、3×3×3の計27個のセル空間に分割される。各セル空間を区別するために、各セル空間についてX軸方向、Y軸方向及びZ軸方向に原点Oに近い方から添え字a,b,cを付ける。各セル空間の座標は、該セル空間の中心の座標で対応させる。
【0039】
対象物48が複合カメラ14の方に向けている表面に対し、複合カメラ14の各画素に対応する部位を定義すると、部位ごとにX座標、Y座標及びZ座標が定義される。
図3の各セル空間の中心座標は、図面のカラー画像及び深度データ画像の写真の対象物48の位置を簡便に指示するために用いただけであり、実際の機械学習及び重量推定では、対象物12又は対象物48の表面の部位としての画素ごとの座標が決定されている。
【0040】
視野座標空間58では、原点Oに最も近いセル空間の座標は(Xa,Ya,Za)で表わされる。原点Oから最も遠いセル空間の座標は(Xc,Yc,Zc)で表わされる。視野座標空間58の中心のセル空間の座標は(Xb,Yb,Zb)で表わされる。
【0041】
図3において、複合カメラ14は、Y軸方向に視野座標空間58に対して(Xb,Ya,Zb)側に配置され、複合カメラ14のレンズの光軸は、Y軸に平行に(Xb,Ya,Zb)に向かっている。Ya,Yb,Ycは、複合カメラ14からの光軸上の距離で、例えば42cm、47cm及び57cmとなるY座標である。
【0042】
図3の各カラー画像における対象物48は、同じ対象物48であるので、対象物48が複合カメラ14に近いセル空間に置かれているときのカラー画像ほど、カラー画像における対象物48の寸法が大きくなっている。また、複合カメラ14から見て視野座標空間58の中心のセル空間(Xb,Yb,Zb)に対して右か左か上か下かで、各カラー画像における対象物48の位置は、該カラー画像の中心に対して右、左、上及び下に移動する。
【0043】
(対関係のカラー画像及び深度データ画像)
図4は、対象物48の複数の座標位置で対関係のカラー画像及び深度データ画像を示している。対関係のカラー画像及び深度データ画像とは、同一の対象物48を同一の座標位置でRGBカメラ14a及びステレオカメラ14bを同時に撮影したときのカラー画像及び深度データ画像をいうものとする。
図4において、上下方向に同一段のカラー画像と深度データ画像とは、対関係にある。
【0044】
カラー画像は、実際はカラーであるが、
図4では、グレースケールで表わされている。深度データ画像は、図示では、色無しの濃淡画像として生成される。複合カメラ14から対象物48までの深度(距離)は、図示の深度データ画像では、各部位の濃淡の度合いで表わされている。
【0045】
図4の各深度データ画像では、深度取得不能領域は黒になっている。深度取得不能領域は、葉物野菜のような対象物48において前の葉の影となる後ろの葉に生じやすい。深度取得不能領域を有する深度データ画像は、教師データとして好ましくないので、適切な深度データによって補間することが好ましい。
【0046】
(教師データ用カラー画像/重量)
図5は、重量の異なる対象物48についてのカラー画像を示す図である。作業者は、対象物48を、視野座標空間58における所定のセル空間に維持しつつ、対象物48(例:レタス)の葉を少しずつちぎって、重量を段階的に減少させ、重量の相違する計4つの対象物48(
図5では、深度データ画像の図示は省略している。)を作成する。
【0047】
この例では、対象物48の最初の重量は、10.5gであり、その後、7.5g、5.5g及び3、9gに変化している。そのとき、対象物48は、重量だけでなく、大きさ及び形状も変化している。これら重量の異なる4個の対象物48を視野座標空間58の計9個のセル空間に配置すれば、計36(=9×4)個の対関係のカラー画像及び深度データ画像を教師データとして追加することができる。なお、視野座標空間58の計9個とは、対象物48に対する複合カメラ14の撮影位置が、Y軸方向(深度方向)に42cm、47cm及び52cmの3つと、X軸方向(水平方向)に左、中及び右の3つの3つで、相対位置の組合せが3×3=9個あるいうことである。
【0048】
(深度データの補間)
図6-
図8は、それぞれ異なる深度データ画像に対する深度データの補間処理についての説明図である。前述したように、深度データ画像において、深度データの取得できなかった領域は、黒に表示される。黒のままの深度データ画像は、教師データの価値を低下させる。深度データの補間は、これに対処するものである。
【0049】
実施形態で採用している深度データの補間の特徴は、カラー画像由来のマスクを用いることである。具体的には、対関係のカラー画像と深度データ画像とに対し、カラー画像に基づいて対象物48のマスクを作成し、作成したマスクに基づいて深度データ画像をマスク内の対象物内領域(対象物領域)とマスク外の対象物外領域(背景領域)とに区分けする。そして、対象物内領域及び対象物外領域の欠損値(深度取得不能領域の深度)は、それぞれ対象物内領域及び対象物外領域のみにおいて隣接する深度取得領域の深度(depth値)のみに基づいて補間することである。
【0050】
図6-
図8において、注目箇所(例:補間処理を行う又は行った部位)は、円で囲ってある。また、
図6以降の図において、「RGB」とはカラー画像を意味し、「depth」とは深度データ画像を意味している。
【0051】
図6-
図8において、画像は、上下方向に3段で配列されている。全3段のうち、上から1段目の画像はカラー画像であり、2段目及び3段目の画像は、1段目のカラー画像と対関係の深度データ画像である。2段目の深度データ画像は、ステレオカメラ14bの撮像画像が出力したそのままの、すなわち深度補間の処理前の深度データ画像である。3段目の2つの画像は、2段目の深度データ画像に対して深度補間した後の深度データ画像である。左側及び右側の深度データ画像は、補間処理がそれぞれ遠景拡張補間及び物体内部補間を実行した結果データとなっている。
【0052】
図6では、カラー画像において対象物48の左側に深度取得不能領域が生じている。
図7では、対象物48は、前の葉で隠れている後ろの葉の部分に深度取得不能領域が生じている。
【0053】
図8では、対象物48は、透明のガラスコップ内に入れられて、ガラスコップの開口側から撮影されている。光がガラスコップに反射して、入射光と反射光とが混在する領域が深度取得不能領域となっている。なお、
図8では、対象物48はガラスコップ内に入れているが、これは、対象物48のサイズが小さいために、対象物48が倒れてしまうので、立てた姿勢で撮影するために、ガラスコップを使用したものである。対象物48をガラスコップに入れて撮影しても、深度取得不能領域を補間することができる。
【0054】
遠景拡張補間(
図6-
図8の一番下の段の2つの画像のうち左側の画像)では、深度取得不能領域(上から2段目の補間前の画像)の黒領域が、該黒領域に隣接する深度取得領域の深度の領域の濃淡色に等しい濃淡に変更されている。
図6及び
図7において、破線の円は、深度取得不能領域を注目するために付けたマークである。
【0055】
図8では、対象物48がコップに入れられている。
図8の各画像において、対象物48が左の大きいものと右の小さいものとの2つが含まれているのは、対象物48は本来は右の位置にあるが、小さくて見えにくいので、拡大して左の対象物48として見易くしたためである。
【0056】
なお、遠景拡張補間において、各黒領域は、深度の異なる複数の深度取得領域により囲われている。遠景補間では、各深度取得不能領域は、それを囲んでいる深度の異なる複数の深度取得領域のいずれかの深度に補間により変更される。例えば、各深度取得不能領域は、それを囲んでいる深度の異なる複数の深度取得領域のうち最大深度、最小深度及び平均深度に変更する補間であってもよい。さらに、各深度取得不能領域内の各位置の深度は、該位置に最も近い隣接深度取得領域の深度に変更する補間であってもよい。
【0057】
物体内部補間(
図6-
図8の一番下の段の2つの画像のうち右側の画像)では、マスクが使用される。マスクは、カラー画像から対象物48の周輪郭を境界線とし、該境界線の内側を補間処理領域とするものである。対象物48は、実施形態では、例としてレタスを選択している。レタスは、緑色であるので、マスクを作成する際は、例えば、単純にピクセル(画素)単位でのR:G:B比からGの割合が一定以上のピクセルを対象物48の存在するピクセルとして、そのピクセルの領域をマスクとする。また、入力画像の物体領域を検出し、ピクセルごとに検出された物体のラベルを出力するモデル(セマンティックセグメンテーションなど)を使用してマスクを作成することもできる。
【0058】
物体内部補完の具体例では、(a)深度データ画像全体に対して、サイズを指定した正方形フィルタによるdilation処理により値がゼロの領域(深度取得不可領域)を埋める。また、(b)元々値が入っているピクセルはdilation処理により変化しないよう、dilation処理前の値で上書きをする。そして、上記(a)及び(b)を繰り返すことで全ての深度取得不可領域を補完している。深度取得不可領域については、dilation処理を繰り返す中で「繰り返すごとにdilation処理の影響を受けて値が変化する」か「一度ゼロ以外の値が入ったら深度が取得できている領域と同様に値を固定する」かの選択が可能になっており、状況やタスクによってどちらが適しているかが異なる。
【0059】
(教師データ作成方法)
図9は、カラー画像から対象物48の画像領域を切り出して最終の教師データを作成する工程説明図である。マスク60aを用いて、カラー画像において切出し領域62aを決定する(
図9の最上段の画像)。切出し領域62aは、マスク60aを内包する最小の矩形の各辺に対して外側に20画素(pixel)のマージンを付けて広げた矩形領域として定義される。
【0060】
図9の上から2番目のSTEP1の切出し領域62aは、
図9の上から1番目の切出し領域62aを拡大したものである。STEP2では、カラー画像から切出し領域62aが切り出されて、キャンバス64aの中心に貼付される。キャンバス64は、画素数で480×480となっている。カラー画像内の対象物48は、複合カメラ14に近い座標位置で撮影されたものほど、カラー画像における寸法が増大し、切出し領域62aの寸法も増大する。キャンバス64の480×480は、想定される最大寸法の切出し領域62aを内側に貼付されることを保証するサイズとして設定されている。
【0061】
図10は、カラー画像及び深度データ画像からそれぞれ切出した切出し領域62a,62bを対応するキャンバス64a,64bに貼付されたSTEP2,4を並べて示している。カラー画像は、R,G,Bの3つの色別の画像を含むので、縦、横、画像数で情報量を表わすと、(480,480,3)となる。深度データ画像の情報量は、(480,480,1)で表わされる。したがって、(480,480,4)の1セットが1つの教師データを構成する。
【0062】
STEP1,2,4は、それぞれ本発明の第1の対象物切出工程、第1の画像貼付工程及び第2の画像貼付工程に相当する。本発明の第2の対象物切出工程は、図示が省略されているが、
図8のSTEP1における切出し領域62aを深度データ画像用の切出し領域に置き換えただけである。また、深度データ画像についてのマスクは、所定色(実施形態ではG)のカラー画像の微分処理でエッジとしての輪郭を抽出して作成したマスク60aが共通に使用される。
【0063】
(教師データの拡張)
図11は、深度増減(距離増減)による教師データの拡張(データ拡張)についての説明図である。データ拡張とは、元の学習用データに変換を施したデータを学習用データとして用いることで、データを水増しする手法である。一般的に、データ拡張の手法としては、(a)予め元の学習用データに変換を施したデータを学習用データに加えておくことでデータ数を増やしたデータセットで学習を行う手法、及び(b)学習用データにランダムな変換を施すジェネレータを使用する手法がある。
【0064】
(b)では、元の学習用データ数は変化させない代わりに、学習時のエポックごとに元データに対してランダムな変換を施す。そうすることでエポックごとに元データから生成された異なるデータをモデルへ与えることができる。ジェネレータの一般的な使用例としては、左右反転処理の場合、処理を施すか否かを各々50%の確率で生じさせる、ランダムシフト処理の場合、画像の縦軸、横軸方向に各々-50~+50ピクセルの範囲で画像全体を平行移動させる、など二値選択や幅を持った数値をパラメータとして設定する。その際、同エポック内の各データにおいてもそれぞれランダムに異なる値が適応される。
【0065】
この実施例では、(b)のジェネレータを使用したデータ拡張の特殊な例として、深度を、元の学習用データ-100~+100mmの範囲からランダムに生成した設定値(ランダム距離)で増減する。そして、対関係の既存のカラー画像(元カラー画像)及び深度データ画像(元深度データ画像)に対し(
図11に左右方向の中央の距離補正無しの画像)、元深度データ画像の全画素の距離を、ランダム距離だけ一律に変更するとともに、変更後の距離に基づいて元カラー画像及び元深度データ画像を拡縮した新カラー画像及び新深度データ画像(
図11に左右方向の左端及び右端のデータ拡張の画像)のデータを拡張データとして生成する。
【0066】
詳細には、
図11において、「RGB」及び「depth」はそれぞれカラー画像及び深度データ画像を意味している。また、
図11の左右方向に3列のRGB及びdepthの対において、中央列(original)は元画像(複合カメラ14による実際の撮影から生成した画像)」である。中央列に対して左側の列(-100mm)及び右側の列(+100mm)の画像は、元画像に対して複合カメラ14と対象物48との距離をそれぞれ100mmだけ近づけた及び離したときの対象物48の想定した大きさ及び形状に基づいて新規作成した拡張画像である。
【0067】
深度増減による教師データの拡張では、元距離(元画像における複合カメラ14-対象物48間の距離)Laに対する拡張後距離(拡張画像における複合カメラ14-対象物48間の距離)Lbの比Lb/Laを、対象物48の元寸法(元画像における対象物48の寸法)に掛けた値に拡張後寸法(教師データの拡張とする画像内の対象物48の寸法)に変更することになる。したがって、元画像と拡張の画像とで、画像の中心座標は同一で、形状は相似となる。
【0068】
深度増減による対象物48の深度は、各深度データ画像に書き込まれる。したがって、周知の深度変更無しの対象物48の単なる拡大及び縮小による教師データの拡張とは区別される。
【0069】
この例では、深度増減による教師データの拡張は、深度の増減だけで行っている。しかしながら、深度の増減による教師データの拡張を、周知の教師データの拡張である画像の回転、左右平行移動、上下平行移動、左右反転、上下反転及び明るさの調整のうちの1つ以上と組合せて行うこともできる。
【0070】
(データ拡張を行う際の注意点)
周知のデータ拡張を施す場合、手法の性質によって変換を施す対象を適切に選択しなければならない点に注意が必要である。例えば、明るさの調整などのカラー画像の輝度に着目したデータ拡張ではカラー画像のみに変換を施し、深度データ画像を変換対象に含めるのは不適切である。一方、左右反転、ランダム回転、平行移動など位置概念を変更するデータ拡張ではカラー画像及び深度データ画像に同様の処理を施さなければならない。今回は使用していないが、ランダムイレイジングなどデータの一部をランダムなノイズへ変換するデータ拡張を使用する場合、カラー画像と深度データ画像にそれぞれ独立してランダム値を適応することで、互いの情報からノイズ領域の推測が可能となり推論精度が向上する可能性も考えられる。
【0071】
(検証)
図12は、機械学習モデル22を機械学習させたときのEpoch(エポック数)とMSE(平均二乗誤差。損失関数に設定。)及びMAE(平均絶対誤差。重量のグラムgの誤差に相当。)との関係を調べたグラフである。なお、今回、訓練に使用するデータに関しては前述の通り1つの株から撮影方法を変更、葉を除く等して複数のデータを得た。モデルを学習する際には、適切に汎化性能を確認するために、学習用データと検証用データで同じ株由来のデータが混在しないようにした。
【0072】
今回の機械学習では以下に示す通り、1000エポックを1つのステップとして2ステップ(ステップR1とステップR2)の学習を行った。ステップR1,R2では共通してRMSpropをオプティマイザとして用いたが、学習率はステップR1では0.001、 ステップR2ではステップR1の0.1倍の0.0001とした。ステップR1では1000エポックの学習を行い、1000エポックの内、検証用データに対する損失値(MSE)が最小となった時点の重みを保存した。ステップR2ではステップR1で保存した重みパラメータをモデルの初期値として設定し、オプティマイザの設定は初期化して1000エポックの再学習を実施した。ステップR2において検証用データに対する損失値が最小となった時点での重みパラメータを搭載したモデルを最終モデルとして評価に用いた。
【0073】
図12-
図14において、実線及び破線は、それぞれ学習用データ及び検証用データのときの特性を示している。Epochが進むにつれて、検証用データのMSE及びMAEは、共に指数関数的に減少しており、重量推定装置10によって機械学習モデル22を適切に訓練することが可能であることを示している。
図12の機械学習では、対関係のRGB(カラー画像)及び深度(深度データ画像)の両方を教師データとして用いている。
【0074】
図13は、
図12のEpoch=735のチューニングを初期値としてEpoch=1から別途、機械学習させたときのEpochとMSE及びMAEとの関係を調べたグラフである。なお、
図13の縦軸の目盛り間隔は、
図12のものより広げている。
図13の方が、
図12より学習効果が高まっていることが理解できる。なお、Epoch=735が選択された理由は、ステップR1で735epochのモデルが検証用データに対するlossが最小(1.77)であったためである。
【0075】
図14は、機械学習モデル22に対し、対関係のRGB及び深度のうちRGBだけで機械学習させたときのEpochとMSE及びMAEとの関係を調べたグラフである。具体的には、
図12と同一の検証試験を行ったものである。
【0076】
図14について補足すると、実際にはステップR1の1000epochの中で検証用データに対するlossが最も小さかった822epoch時点の重みパラメータを使って、ステップR2(1001epoch以降)の訓練を行っている。したがって、
図14では1000->1001 epochが連続的に行われているように見えるが、実際は1001epoch以降は822epochの重みパラメータで再スタートしている。RGB画像のみでの検証は、ステップR1とステップR2を連続的に行ったため、記録が連続してしまったためにグラフが結合している。
【0077】
図14と
図12とを対比すると、
図12のRGB+depthでは、 735 epoch (ステップR1) -> +677 epoch (ステップR2)でlossが0.79となっている。また、
図14のRGBのみでは、 822 epoch (ステップR1) -> +107 epoch (ステップR2)でlossが1.47となっている。以上より検証用データに対するlossを比較するとRGB+depthの方がはるかに低いことから、depth情報が汎化性能の向上に寄与していることが分かる。
【0078】
(変形例)
重量推定装置10は、特定の1種類の対象物12(例:レタス)専用に、重量を推定している。しかしながら、本発明の重量推定装置は、色が明確に区別されれば(例:緑のレタスと、オレンジ色のみかんと、紫色のナスと、黄色のバナナ及び赤色のリンゴ。)、複数種類の対象物について重量の推定を行うことができる。
【0079】
重量推定装置10は、特定の1種類の対象物12(例:レタス)専用に重量を推定している。しかしながら、種類別に機械学習させた複数の機械学習モデル22を装備し、人が対象物12の種類別に対応する機械学習モデル22に手動で切り替えるようにして、重量推定装置10を複数の種類(例:レタスとブロッコリーと白菜。)の対象物12の重量推定に使用することもできる。もちろん、単一の機械学習モデルに複数の種類の対象物を学習させることで、単一の機械学習モデルを複数の種類の対象物の重量推定に使用することもできる。
【0080】
重量推定装置10では、遠景拡張補間及び物体内部補間(
図6-
図8)を、機械学習モデル22の機械学習時の教師データとして使用する深度データ画像の補間として実施している。本発明の重量推定装置では、実際の重量推定時に、重量推定対象の対象物(例:重量推定装置10の対象物12)の深度データ画像に対して、遠景拡張補間及び物体内部補間の処理を行うこともできる。
【0081】
実際の重量推定時における補間は、重量推定装置において、学習時でなく実際の重量推定時のみ実施してもよい。又は、重量推定装置において、深度データ画像に対して、カラー画像学習時の教師データとしての補間と、実際の重量推定時の補間との両方で実施することもできる。
【符号の説明】
【0082】
10・・・重量推定装置、12,48・・・対象物、14a・・・RGBカメラ、14b・・・ステレオカメラ、16・・・視野座標空間、18・・・重量推定部、22・・・機械学習モデル、60a・・・マスク、62a・・・切出し領域、64a・・・キャンバス。