(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-25
(45)【発行日】2024-05-08
(54)【発明の名称】画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240426BHJP
G06T 7/60 20170101ALI20240426BHJP
A01G 17/02 20060101ALI20240426BHJP
A01G 7/00 20060101ALI20240426BHJP
【FI】
G06T7/00 350B
G06T7/00 300F
G06T7/60 110
A01G17/02
A01G7/00 603
(21)【出願番号】P 2020094006
(22)【出願日】2020-05-29
【審査請求日】2023-05-18
(73)【特許権者】
【識別番号】304023994
【氏名又は名称】国立大学法人山梨大学
(73)【特許権者】
【識別番号】520190229
【氏名又は名称】ドリームファーム株式会社
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】茅 暁陽
(72)【発明者】
【氏名】ブアヤイ プラウィット
(72)【発明者】
【氏名】豊浦 正広
(72)【発明者】
【氏名】三井 公司
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2020-60505(JP,A)
【文献】特開2019-200563(JP,A)
【文献】特開2015-177397(JP,A)
【文献】中国特許出願公開第109255757(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/60
A01G 17/02
A01G 7/00
(57)【特許請求の範囲】
【請求項1】
画像からぶどう粒を検出する情報処理装置であって、
粒検出部と、房特定部と、統合処理部と、を備え、
前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定部は、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から
摘粒作業の対象とされているぶどう房を特定し、
前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、
摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記粒検出部は、
第1学習モデルに基づき前記画像に含まれる前記ぶどう粒を検出し、
前記第1学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである、
情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記第1学習モデルに含まれる分類器は、
特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、
前記非位置的分類器による分類結果及び前記位置的分類器による分類結果に基づき分類する、
情報処理装置。
【請求項4】
請求項2又は請求項3に記載の情報処理装置であって、
前記房特定部は、
第2学習モデルに基づき前記画像に含まれるぶどう房を検出し、
前記第2学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルであり、
前記第2学習モデルは、前記第1学習モデルと同一又は異なる学習モデルである、
情報処理装置。
【請求項5】
請求項1~請求項4の何れか1項に記載の情報処理装置であって、
粒数算出部をさらに備え、
前記粒数算出部は、
前記画像において
摘粒作業の対象とされているぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、
計測した前記ぶどう粒の数及び所定の係数に基づき、前記ぶどう房が有する粒の総数の範囲を算出する、
情報処理装置。
【請求項6】
画像からぶどう粒を検出するシステムであって、
画像撮影部と、画像解析部を備え、
前記画像撮影部は、前記画像を撮影し、
前記画像解析部は、粒検出部と、房特定部と、統合処理部を備え、
前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定部は、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から
摘粒作業の対象とされているぶどう房を特定し、
前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、
摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
システム。
【請求項7】
請求項6に記載のシステムであって、
解析結果表示部をさらに備え、
前記解析結果表示部は、
摘粒作業の対象とされているぶどう房が有するぶどう粒の総数の範囲を表示する、
システム。
【請求項8】
画像からぶどう粒を検出させるプログラムであって、
コンピュータに、粒検出工程と、房特定工程と、統合処理工程とを実行させ、
前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定工程では、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から
摘粒作業の対象とされているぶどう房を特定し、
前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、
摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
プログラム。
【請求項9】
画像からぶどう粒を検出する情報処理方法であって、
粒検出工程と、房特定工程と、統合処理工程と、を備え、
前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定工程では、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から
摘粒作業の対象とされているぶどう房を特定し、
前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、
摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法に関する。
【背景技術】
【0002】
特許文献1には、対象とするぶどう一房を仕切りによって作られた撮影空間部に配置し、ぶどう粒数を画像解析によって計数するぶどう粒計数装置等が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、ぶどう房に付いているぶどう粒を通常の摘粒作業の流れを止めずに計測するためには、仕切り等によって作られた撮影空間部に配置せず、摘粒作業者の視界と同様の、複数のぶどう房が含まれている画像からでも作業中のぶどう房に属するぶどう粒を検出できるようにする必要があった。
【0005】
本発明は、複数のぶどう房が含まれている画像から作業中のぶどう房に属するぶどう粒を検出できる情報処理装置、プログラム、システム、及び方法を提供する。
【課題を解決するための手段】
【0006】
本発明によれば、画像からぶどう粒を検出する情報処理装置であって、粒検出部と、房特定部と、統合処理部と、を備え、前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、前記房特定部は、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、情報処理装置が提供される。
【0007】
本発明では、ぶどう粒の検出とぶどう房の検出を行い、ぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定した上で、作業中のぶどう房に属する粒を決定する。このため、作業中ぶどう房を仕切り等によって作られた撮影空間部に配置しなくとも、複数のぶどう房が含まれている画像から作業中のぶどう房を特定し、作業中のぶどう房に属するぶどう粒を検出することができる。
【0008】
以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記情報処理装置において、前記粒検出部は、第1学習モデルに基づき前記画像に含まれる前記ぶどう粒を検出し、前記第1学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。
好ましくは、前記情報処理装置において、前記第1学習モデルに含まれる分類器は、特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、前記非位置的分類器による分類結果及び前記位置的分類器による分類結果に基づき分類する。
好ましくは、前記情報処理装置において、前記房特定部は、第2学習モデルに基づき前記画像に含まれるぶどう房を検出し、前記第2学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルであり、前記第2学習モデルは、前記第1学習モデルと同一又は異なる学習モデルである。
好ましくは、前記情報処理装置において、粒数算出部をさらに備え、前記粒数算出部は、前記画像において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測した前記ぶどう粒の数及び所定の係数に基づき、前記ぶどう房が有する粒の総数の範囲を算出する。
【0009】
また、本発明によれば、画像からぶどう粒を検出するシステムであって、画像撮影部と、画像解析部を備え、前記画像撮影部は、前記画像を撮影し、前記画像解析部は、粒検出部と、房特定部と、統合処理部を備え、前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、前記房特定部は、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、システムが提供される。
好ましくは、前記システムにおいて、解析結果表示部をさらに備え、前記解析結果表示部は、作業中のぶどう房が有するぶどう粒の総数の範囲を表示する、システム。
【0010】
また、本発明によれば、画像からぶどう粒を検出させるプログラムであって、コンピュータに、粒検出工程と、房特定工程と、統合処理工程とを実行させ、前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、前記房特定工程では、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、プログラムが提供される。
【0011】
また、本発明によれば、画像からぶどう粒を検出する情報処理方法であって、粒検出工程と、房特定工程と、統合処理工程と、を備え、前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、前記房特定工程では、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、情報処理方法が提供される。
【図面の簡単な説明】
【0012】
【
図1】第1実施形態に係るぶどう粒検出システム1の概要を示す図である。
【
図2】第1実施形態に係る情報処理装置10及びユーザ端末20のハードウェア構成を示すブロック図である。
【
図3】第1実施形態に係る情報処理装置10及びユーザ端末20の機能構成を示すブロック図である。
【
図4】粒検出部11aによるぶどう粒検出の結果について説明する概念図である。
【
図5】房特定部11bによる作業中のぶどう房の検出・特定の結果について説明する概念図である。
【
図6】房特定部11bによる同一ぶどう房の重複検出とその排除処理について説明する概念図である。
【
図7】統合処理部11cによる作業中のぶどう房に属するぶどう粒の検出結果について説明する概念図である。
【
図8】粒数算出部11dによる粒数算出の検証結果を示す図である。
【
図9】第2実施形態に係る畳み込みニューラルネットワークの構造の概略図である。
【
図10】領域提案ネットワークから位置情報について出力されるまでの流れの概略図である。
【
図12】ぶどう粒の検出結果をバウンディングボックスで表す場合の概略図である。
【
図13】マスクを含む学習モデルの一例の概略図である。
【
図14】細分化された領域毎に分類を行った結果をぶどう粒を塗りつぶして表した概略図である。
【
図15】複数の分類器、物体検出器を有する学習モデルの一例の概略図である。
【
図16】複数の分類器、物体検出器、マスクを有する学習モデルの一例の概略図である。
【
図17】変形例2のモデルによる画像解析の効果の検証結果を説明する図である。
【
図18】第3実施形態に係る画像合成工程を説明する概念図である。
【発明を実施するための形態】
【0013】
以下、図面を用いて本発明のいくつかの実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。また、各特徴事項について独立して発明が成立する。
【0014】
<1.第1実施形態>
(1-1.ぶどう粒検出システム1)
本発明の一実施形態に係る情報処理装置は、
図1に示すようなぶどう粒検出システム1の一部を構成するサーバ等の情報処理装置10である。ぶどう粒検出システム1は、情報処理装置10、及びユーザ端末20を備える。
【0015】
情報処理装置10は、通信回線5を介してユーザ端末20と通信可能に構成される。ユーザ端末20は、複数のぶどう房が含まれていてもよい画像P1を撮影し情報処理装置10へ送信する。情報処理装置10は、ユーザ端末20から受信した画像P1を解析する。ぶどう粒の検出、ぶどう房の検出、作業中のぶどう房を特定に基づいて、作業中のぶどう房に属するぶどう粒の検出を実現する。以下、各構成について説明する。
【0016】
(1-2.ぶどう粒検出システム1のハードウェア構成)
図2を参照し、ぶどう粒検出システム1のハードウェア構成を説明する。
【0017】
(1ー2ー1.情報処理装置10のハードウェア構成)
図2は、本実施形態に係る情報処理装置10及びユーザ端末20のハードウェア構成を示すブロック図である。情報処理装置10は、制御部11、記憶部12、通信部13を備える。また、情報処理装置10は、キーボード及びマウス等で構成された各種操作の入力を受け付ける操作入力部14、各種画像を表示する例えば液晶ディスプレイ装置等のモニタ15を備えていてもよい。
【0018】
制御部11は、例えば、CPU(Central Processing Unit)、マイクロプロセッサ、DSP(Digital Signal Processor)等であり、情報処理装置10の全体の動作を制御する。
【0019】
記憶部12の一部は、例えば、RAM(Random Access Memory)やDRAM(Dynamic Random Access Memory)等で構成されており、制御部11による各種プログラムに基づく処理の実行時のワークエリア等として用いられる。また、記憶部12の一部は、例えば、ROM(Read Only Memory)等の不揮発性メモリ、又はHDD(Hard Disk Drive)であり、各種データ及び制御部11の処理に利用されるプログラム等を保存する。
【0020】
記憶部12に記憶されるプログラムは、例えば、情報処理装置10の基本的な機能を実現するためのOS(Operating System)、各種ハードウェア制御するためのドライバ、各種機能を実現するためのプログラム等であって、本実施形態に係るコンピュータプログラムを含む。
【0021】
通信部13は、例えばNIC(Network Interface Controller)であり、通信回線5に接続する機能を有する。なお、通信部13は、NICに代えて又はNICと共に、無線LAN(Local Area Network)に接続する機能、無線WAN(Wide Area Network)に接続する機能、例えばBluetooth(登録商標)等の近距離の無線通信、及び赤外線通信等を可能とする機能を有してもよい。情報処理装置10は、通信回線5を介してユーザ端末20等の他の情報処理装置等と接続され、他の情報処理装置等との間で各種データの送受信を行うことができる。
【0022】
これら制御部11、記憶部12、通信部13、操作入力部14、及びモニタ15は、システムバス16を介して相互に電気的に接続されている。従って、制御部11は、記憶部12へのアクセス、モニタ15に対する画像の表示、ユーザによる操作入力部14に対する操作状態の把握、及び通信部13を介した各種通信網や他の情報処理装置へのアクセス等を行うことができる。
【0023】
(1-2-2.ユーザ端末20のハードウェア構成)
ユーザ端末20は、例えば、AR(拡張現実)グラス、MR(複合現実)グラス、スマートグラス、スマートフォンやタブレット端末等の情報処理端末であり、制御部21、記憶部22、通信部23、撮影部24、表示部25を備える。また、ユーザ端末20は、音を出力するスピーカ26、電源ボタンその他の操作ボタン等により構成される操作部(図示せず)等を備えていてもよい。以下、情報処理装置10との相違点を中心に説明する。
【0024】
撮影部24は、静止画、動画等を撮影できるカメラを備える。表示部25は、ユーザ端末20がAR(拡張現実)グラス、MR(複合現実)グラス、スマートグラス等である場合には、眼鏡のレンズに相当する部位と投影等の機能を有する部位との組み合わせによるディスプレイを備えうる。また、AR(拡張現実)グラス、MR(複合現実)グラス、スマートグラス等は、網膜に直接映像を照射する部位を備えていてもよい。表示部25は、ユーザ端末20がスマートフォンやタブレット端末等である場合には、画像等を表示し操作を受け付け可能なタッチパネルディスプレイ等であってもよい。
【0025】
また、スピーカ26は、後述する作業中のぶどう房が有するぶどう粒の総数に関する情報を音声や信号音等で作業者Wに伝えるために用いられてもよい。
【0026】
これら制御部21、記憶部22、通信部23、撮影部24、表示部25、及びスピーカ26は、システムバス27を介して相互に電気的に接続されている。従って、制御部21は、記憶部22へのアクセス、撮影部24に対する制御、表示部25による画像の表示、作業者による操作状態の把握、スピーカ26からの音の出力、及び通信部23を介した各種通信網や他の情報処理装置へのアクセス等を行うことができる。
【0027】
(1-3.情報処理装置10の機能構成)
図3に示すように、情報処理装置10の制御部11は、粒検出部11aと、房特定部11bと、統合処理部11cを有する。制御部11は、さらに粒数算出部11dを有していてもよい。粒検出部11a、房特定部11b、及び統合処理部11cは、これらをまとめて画像解析部30と称することもある。
【0028】
粒検出部11aは、画像P1に含まれるぶどう粒を検出する。房特定部11bは、画像P1に含まれるぶどう房を検出し、画像P1中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。統合処理部11cは、ぶどう粒の検出結果及び房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。
【0029】
また、粒数算出部11dは、画像P1において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房が有する粒の総数の範囲を算出する。各機能の詳細は、後述する。
【0030】
(1-4.ユーザ端末20の機能構成)
図3に示すように、ユーザ端末20の制御部21は、画像撮影部21aを有する。画像撮影部21aは、画像P1を撮影する。また、制御部21は、解析結果表示部21bを有していてもよい。解析結果表示部21bは、作業中のぶどう房が有するぶどう粒の総数の範囲を表示する。すなわち、解析結果表示部21bは、当該ぶどう粒の総数の範囲を、表示部25に表示することによってユーザ端末20のユーザである作業者Wに伝達する。
【0031】
上述のように、ぶどう粒検出システム1は、画像撮影部21aと、画像解析部30を備える。ぶどう粒検出システム1は、解析結果表示部21bをさらに備えてもよい。
【0032】
上述した機能構成は、情報処理装置10又はユーザ端末20に適宜インストールされるソフトウェア(いわゆるアプリを含む)によって実現してもよく、ハードウェアによって実現してもよい。ソフトウェアによって実現する場合、制御部11又は制御部21がソフトウェアを構成するプログラムを実行することによって各種機能を実現することができる。
【0033】
プログラムを実行することで実現される場合、当該プログラムは、情報処理装置10又はユーザ端末20が内蔵する記憶部12又は記憶部22に格納してもよく、コンピュータが読み取り可能な非一時的な記録媒体に格納してもよい。また、外部の記憶装置に格納されたプログラムを読み出し、いわゆるクラウドコンピューティングにより実現してもよい。もしくは、ハードウェアによって実現する場合、ASIC、SOC、FPGA、又はDRPなどの種々の回路によって実現することができる。また、情報処理装置10の機能として説明した一部の機能構成は、ソフトウェア又はハードウェアによってユーザ端末20等で処理されるようにしてもよい。反対に、ユーザ端末20の機能として説明した一部の機能構成は、ソフトウェア又はハードウェアによって情報処理装置10等で処理されるようにしてもよい。
【0034】
(1-5.粒検出部11aの機能)
図4を参照し、粒検出部11aの機能を説明する。粒検出部11aは、画像P1に含まれるぶどう粒を検出する。画像P1は、摘粒の作業者Wが有するユーザ端末20の撮影部24によって撮影され、情報処理装置10に送信された画像である。ユーザ端末20が、ARグラス等である場合には画像P1に映る範囲は、作業者Wの視野に近い範囲となりうる。
【0035】
粒検出部11aによるぶどう粒の検出は、画像P1が有する色相・明度・彩度等その他画像解析によって得られる種々の特徴量に基づき行われる。例えば、画像P1を2値化処理した上で、輪郭や大きさ等に基づき画像解析することによって検出してもよい。
【0036】
ぶどう粒検出結果は、各ぶどう粒について位置、大きさ、範囲等として得られ記憶部12に記録されうる。このようなぶどう粒検出結果に基づいて画像P1を加工すると、例えば、
図4に示す画像P2のようになる。ぶどう粒として検出されたぶどう粒(検出ぶどう粒DG)の領域は、黒く塗りつぶされている。ぶどう粒として検出されなかったぶどう粒(非検出ぶどう粒DG)の領域は、塗りつぶされず白抜きのままである。
【0037】
(1-6.房特定部11bの機能)
図5を参照し、房特定部11bの機能を説明する。房特定部11bは、画像P1に含まれるぶどう房を検出する。房特定部11bによるぶどう房の検出は、ぶどう粒の検出と同様に、画像P1が有する色相・明度・彩度等その他画像解析によって得られる種々の特徴量に基づき行われる。例えば、画像P1を2値化処理した上で、輪郭や大きさ等に基づき画像解析することによって検出してもよい。
【0038】
ぶどう房検出結果は、各ぶどう房について位置、大きさ、範囲等として得られ記憶部12に記録されうる。このようなぶどう房検出結果に基づいて画像P1を加工すると、例えば、
図5に示す画像P3のようになる。ぶどう房として検出されたぶどう房は、ぶどう房B1、ぶどう房B2、及びぶどう房B3として枠で囲われて示されている。
【0039】
房特定部11bは、画像P1中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。
図5においては、ぶどう房として、ぶどう房B1、ぶどう房B2、及びぶどう房B3が検出されているため、これらの中から作業中のぶどう房を特定する。
【0040】
ここで、「作業中のぶどう房」とは、作業者Wが作業対象とするぶどう房である。作業者Wが作業対象とするぶどう房とは、例えば、摘粒作業を行おうとしているぶどう房、摘粒作業を行っているぶどう房、摘粒作業の状態を確認しているぶどう房等を意味する。摘粒作業のために作業者Wが注目、注視しているぶどう房ともいえる。
【0041】
作業中のぶどう房を特定するために考慮する「房の位置」の判定基準は、例えば、画像P1の中心に対する検出された各ぶどう房の近さである。
図5に示すように、画像P1の左下を原点、その右方向をX軸、上方向をY軸、右端をX=1、上端をY=1と設定する。この場合、画像P1の中心は、(X,Y)=(0.5,0.5)となる点D1である。この点D1と、検出された各ぶどう房の中心との距離(画像房中心間距離)に基づき、近さを算出することができる。近さを表す指標として、例えば、1を画像房中心間距離で割った値、言い換えれば「画像中心への近接率」等を利用することができる。
【0042】
作業中のぶどう房を特定するために考慮する「ぶどう房の大きさ」は、例えば、画像P1中の検出された各ぶどう房に属する領域の面積である。画像P1中における各ぶどう房の大きさを表す指標として、例えば、「ぶどう房に属する領域の面積」を「画像P1の面積」で割った値、言い換えれば「画像における占有率」等を利用することができる。
【0043】
そして、房特定部11bが、「ぶどう房の位置」及び「ぶどう房の大きさ」に基づき作業中のぶどう房を特定する方法の一例としては、画像P1の中心に対する検出された各ぶどう房の近さと、画像P1中の検出された各ぶどう房に属する領域の面積に基づいて特定する方法が挙げられる。より具体的には、例えば、「画像中心への近接率」と「画像における占有率」を足した値を基準とする。一態様においては、足した値がより大きい方が作業中のぶどう房である確率がより高いと判断できる。
【0044】
図5において、仮に、ぶどう房B1~B3の「画像中心への近接率」がそれぞれ0.5、0.3、0.1であり、ぶどう房B1~B3の「画像における占有率」がそれぞれ0.2、0.15、0.1であるとする。このような場合、「画像中心への近接率」と「画像における占有率」を足した値、作業中のぶどう房である確率は、ぶどう房B1~B3についてそれぞれ0.7、0.45、0.2である。すなわち、画像P1の中でぶどう房B1が作業中のぶどう房である確率が一番高く、作業中のぶどう房として特定される。
【0045】
また、房特定部11bによるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する処理は、
図6の画像P3'に示すように、同一のぶどう房がぶどう房B1及びぶどう房B1'として重複して検出されてしまった際に除外することにも寄与する。ぶどう房B1'はぶどう房B1の一部が誤ってぶどう房として検出されてしまったものである。しかし、作業中のぶどう房を特定するためにぶどう房の位置及びぶどう房の大きさを考慮すると、作業中のぶどう房としてはぶどう房B1'は除外されることになり、精度良く作業中のぶどう房を特定することができる。
【0046】
(1-7.統合処理部11cの機能)
図7を参照し、統合処理部11cの機能を説明する。統合処理部11cは、ぶどう粒の検出結果及びぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。ぶどう粒の検出結果とぶどう房の特定結果を総合的に考慮して判断する。
【0047】
「ぶどう粒の検出結果」に基づきぶどう粒であると考えられるぶどう粒DGうち、「ぶどう房の特定結果」に基づき特定された作業中のぶどう房B1に属する可能性の高いものを、作業中のぶどう房B1に属するぶどう粒DGとして決定する。このような決定に基づいて画像P1を加工すると、例えば、
図7に示す画像P4のようになる。
【0048】
画像P4全体で検出されたぶどう粒DG(黒塗りの粒)は26個である。しかし、作業中と特定されたぶどう房B1は実線の枠内であり、作業中のぶどう房B1に属するぶどう粒として決定されたはぶどう粒は、ぶどう房B1は実線の枠で囲まれた範囲内の9個のぶどう粒DGとなる。
【0049】
(1-8.粒数算出部11dの機能)
粒数算出部11dは、画像P1において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測する。作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数は、例えば、
図7では、ぶどう房B1は実線の枠で囲まれた範囲内の9個である。
【0050】
また、粒数算出部11dは、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房B1が有するぶどう粒の総数の範囲を算出する。所定の係数は、例えば、2次元画像から検出し計測したぶどう房に属しているぶどう粒の数と、2次元画像上では見えない等の理由により検出されない裏側に位置しているぶどう粒等も含めた、当該ぶどう房に属しているぶどう粒の実際の数の関係に基づいて決定される係数である。
【0051】
一態様における所定の係数の決定について説明する。まず、ぶどう房に属しているぶどう粒の実際の数がわかっている複数のぶどう房について、それらのぶどう房を含む複数のサンプル画像を用意し、作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測する。計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数を集計(クラスタリング)する。このような集計によって、計測したぶどう粒の数に対応する、ぶどう房が有するぶどう粒の総数の範囲を算出する係数を決定することができる。なお、複数のぶどう房の一部は同一のぶどう房であってもよい。ただし、同一のぶどう房であっても、摘粒作業によって付いている粒の数が異なるものであることが好ましい。
【0052】
例えば、複数のサンプル画像から計測したぶどう粒の数が44の場合には、ぶどう房に属しているぶどう粒の実際の数が44~52であることがわかったとする。計測したぶどう粒の数が44の場合には、所定の係数は1(=44/44)~1.8(=52/44)と決定することができる。すなわち、計測したぶどう粒の数毎に個別に所定の係数が決定されてよい。
【0053】
計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数を集計した結果は、
図8のグラフのように表すことができる。計測したぶどう粒の数をXとし、ぶどう房に属しているぶどう粒の実際の数をYとする。全ての点(X,Y)をプロットした上で、同一のXにおけるYの最小点、最大点をプロットする。このプロットにより、各最小点に基づく回帰曲線と、各最大点に基づく回帰曲線を描くことができる。各最小点に基づく回帰曲線は、ぶどう房に属しているぶどう粒の実際の数の下限曲線となり、各最大点に基づく回帰曲線は、ぶどう房に属しているぶどう粒の実際の数の上限曲線となる。
【0054】
<粒数算出の検証>
サンプル画像として100枚の画像を用意し、検証用画像として26枚の画像を用意して試験を行った際の粒数算出の結果が
図8に示されている。サンプル画像として100枚の画像の解析に基づき下限曲線41、上限曲線42が描かれている。また、検証用画像から計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数がプロットされている。サンプル画像から作成された下限曲線41及び上限曲線42によって区切られた範囲内にプロットがほぼ収まったことがわかる。
【0055】
(1-8.処理の流れ)
ぶどう粒検出システム1による処理の流れについて説明する。まず、画像撮影工程が実行される。画像撮影工程では、ユーザ端末20の撮影部24により画像P1を撮影する。画像P1は、ユーザ端末20から情報処理装置10へ送信される。
【0056】
次に、粒検出工程が実行される。粒検出工程では、画像P1に含まれるぶどう粒を検出する。粒検出工程と前後して、又は並列的に房特定工程が実行される。房特定工程では、画像P1に含まれるぶどう房を検出し、画像P1中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。そして、統合処理工程が実行される。統合処理工程では、ぶどう粒の検出結果及び房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。これら粒検出工程、房特定工程、及び統合処理工程を含む工程を画像解析工程と称することがある。
【0057】
次に、粒数算出工程が実行される。粒数算出工程では、画像P1において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房が有する粒の総数の範囲を算出する。
【0058】
その後、解析結果表示工程が実行される。解析結果表示工程では、作業中のぶどう房が有するぶどう粒の総数の範囲をユーザ端末20の表示部25に表示する。解析結果表示工程では、ぶどう粒の領域やぶどう房の位置等の解析結果をAR技術によって視界に重ねて表示することも可能である。
【0059】
<2.第2実施形態>
(2-1.第2実施形態に係るぶどう粒検出システム1)
以下、本発明の第2実施形態に係るぶどう粒検出システム1について説明する。第2実施形態におけるぶどう粒検出システム1は、学習モデルに基づいて種々の検出、分類等を行う点で第1実施形態と異なる。以下、相違点を中心に説明する。
【0060】
(2-1.粒検出部11aの機能)
粒検出部11aは、第1学習モデルに基づき画像P1に含まれるぶどう粒を検出する。すなわち、粒検出部11aは、機械学習、ディープラーニング等に基づく画像認識処理を行い、物体の検出や分類等を行う。第1学習モデルとは、ぶどう粒を検出することができる学習モデルであれば特に制限されないが、例えば、多数の教師データ(既知の入力データと正解データの組)を用いてモデルを訓練し、将来の出力を予測可能にする学習モデルである。
【0061】
第1学習モデルには、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)を利用した深層学習モデルを採用することができる。このような学習モデルにおいては、入力画像(画像P1)に対して畳み込みニューラルネットワークによる処理を行う。畳み込みニューラルネットワークは、畳み込み層とプリーリング層の1以上の組み合わせにより構成される。例えば
図9に示すように、入力画像は、第1畳み込み層、第1プーリング層、第2畳み込み層、第2プーリング層・・・第n畳み込み層、第nプーリング層により構成される畳み込みニューラルネットワークにより処理されて、特徴マップが生成される。
【0062】
第1学習モデルは、画像P1の特徴量を利用し物体を検出する物体検出器と、画像P1の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。第1学習モデルが、畳み込みニューラルネットワークを利用した深層学習モデルである場合には、物体検出器及び分類器は、上記特徴マップを利用する。
【0063】
第1学習モデルに含まれる分類器は、特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、非位置的分類器による分類結果及び位置的分類器による分類結果に基づき分類するように構成されてもよい。学習モデルにおいて、物体の分類のためには位置に関する情報は特徴量から排除されることが通常である。画像内での位置、例えば物体が画像内で右上に位置していることは、その物体が何であるかということを判別するための分類器においては悪影響を及ぼすことが一般的だからである。
【0064】
しかし、発明者らは、第1学習モデルに、分類器として、特徴量として位置情報を分類に利用しない分類器である非位置的分類器だけを含む場合に比べ、特徴量として位置情報を分類に利用する分類器である位置的分類器も含める場合に、ぶどう粒をぶどう粒として正しく検出できた割合である再現率が改善されることを見出した。すなわち、物体をぶどう粒としてより正しく分類することができたといえる。
【0065】
また、特徴量として位置情報を分類に利用する分類器である位置的分類器も含める場合には、作業中のぶどう房に属するぶどう粒以外の検出が抑制された。その結果、検出されたぶどう粒のうちの作業中のぶどう房に属するぶどう粒の割合が向上するという効果も得られた。
【0066】
ここで、特徴量として位置情報は、種々の方法によって入力画像から得ることができるが、例えば、領域提案ネットワーク(RPN:Resion Proposal Network)を利用することによって得てもよい。領域提案ネットワークは、畳み込みニューラルネットワークと同様のネットワーク構造を有してもよい。また、
図10に示すように、領域提案ネットワークが、畳み込みニューラルネットワークにより生成された特徴マップを入力として、位置情報を出力するように構成されてもよい。
【0067】
畳み込みニューラルネットワーク(CNN)及び領域提案ネットワーク(RPN)を利用し、さらに特徴量として位置情報を分類に利用する分類器を含む第1学習モデルは、
図11のように表すことができる。すなわち、畳み込みニューラルネットワークにより出力された特徴マップを入力として領域提案ネットワークが位置情報を出力する。特徴マップと位置情報は、これらを統合するRoIプーリング層(RoI Pooling)に入力され、抽出処理が行われ、特徴量が出力される。
【0068】
物体検出器及び非位置的分類器には、RoIプーリング層で抽出された特徴量が入力される。一方、位置的分類器には、RoIプーリング層で抽出された特徴量に加え、領域提案ネットワークから出力される位置情報を含んだ特徴量も入力される。物体検出器、非位置的分類器、及び位置的分類器は、1層以上によって構成される全結合層等であってよい。
【0069】
物体検出器からは、検出した物体の画像P1中における位置、領域等の情報が出力される。
図12の例においては、物体検出の結果に基づいて加工された画像P5が示されている。この画像P5では、検出された物体の領域を四角形(バウンディングボックスBB1)で表すために、領域の左下の点D2と右上の点D3の座標が出力されている。点D2は(x
1,y
1)であり、点D3は(x
2,y
2)である。これら2つの点の座標が物体検出器から出力される情報の一例である。
【0070】
非位置的分類器からは、検出された物体について特定の物であるかの確率が出力される。粒検出部11aでは、第1学習モデルとしてぶどう粒を検出するために学習が行われた学習モデルを利用するため、検出された物体のぶどう粒である確率が出力される。この際、背景である確率も同時に出力し、分類の際に考慮してもよい。
【0071】
位置的分類器からは、入力された位置情報も利用する点で異なるが、非位置的分類器と同様に、検出された物体について特定の物であるかの確率が出力される。粒検出部11aでは、第1学習モデルとしてぶどう粒を検出するために学習が行われた学習モデルを利用するため、検出された物体のぶどう粒である確率が出力される。この際、背景である確率も同時に出力し、分類の際に考慮してもよい。
【0072】
非位置的分類器のみを分類器として含む場合には、非位置的分類器が出力する確率が一定以上であるかに基づいて、ぶどう粒か否かを分類する。非位置的分類器とともに位置的分類器を分類器として含む場合には、非位置的分類器が出力する確率と、位置的分類器が出力する確率の両方に基づいてぶどう粒か否かを分類する。より具体的には、例えば、「非位置的分類器が出力する確率」に0.5を掛けた値と、「位置的分類器が出力する確率」に0.5を掛けた値と、を足した値(すなわち、平均値)に基づいて分類する。すなわち、足した値がぶどう粒である確率となり、当該確率が一定以上であるか否かに基づいて、ぶどう粒か否かを分類する。
【0073】
(2-2.房特定部11bの機能)
房特定部11bは、第2学習モデルに基づき画像P1に含まれるぶどう房を検出するように構成されてもよい。すなわち、房特定部11bは、機械学習、ディープラーニング等に基づく画像認識処理を行い、物体の検出や分類等を行う。第2学習モデルは、画像P1の特徴量を利用し物体を検出する物体検出器と、画像P1の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。第2学習モデルには、畳み込みニューラルネットワークを利用した深層学習モデルを採用することができる。
【0074】
また、第2学習モデルは、第1学習モデルと同一又は異なる学習モデルである。第2学習モデルが、第1学習モデルと同一である場合には、ぶどう粒の検出とぶどう房の検出を同じ学習モデルによって行うように構成することができる。
【0075】
(2-3.第2実施形態の変形例1)
粒検出部11a及び房特定部11bは、細分化された領域毎に分類を行うように構成されてもよい。「細分化された領域毎」とは、例えば、ピクセル毎等である。画像全体に対して細分化された領域毎の分類を行ってもよいが、検出された物体、例えばぶどう粒やぶどう房に対してのみ細分化された領域毎の分類を行うようにしてもよい。細分化された領域毎に分類を行う処理は、セグメンテーションと称することもある。
【0076】
細分化された領域毎に分類を行う場合には、例えば、
図13に示すようなモデルを利用することができる。
図13のモデルはマスクを有し、
図11のモデルとはRoIプーリング層で抽出された特徴量がマスクにも入力される点で異なる。このマスクにより、細分化された領域毎に分類が行われる。
【0077】
物体検出器による検出結果に基づくだけでは、
図14の画像P6に示すように、バウンディングボックスBB2で囲むように物体を認識できるだけであるが、マスクを用いることでその物体(ぶどう粒)の実際の輪郭に近い形で物体を認識可能となる。
【0078】
(2-4.第2実施形態の変形例2)
図15に示すように、第1学習モデルは、物体検出器として、第1物体検出器と、第2物体検出器と、を含むように構成されてもよい。第2物体検出器による検出の閾値は、第1物体検出器による検出の閾値と異なる値であるように構成される。また、第2物体検出器は、第1物体検出器の検出結果を利用することができる。このような構成とすることにより、異なる複数の閾値により物体検出が行われ物体の検出における取りこぼしが抑制されることを期待できる。
【0079】
検出の閾値が異なる第1物体検出器及び第2物体検出器は、学習段階においては独立して学習を行うことができる。第1物体検出器及び第2物体検出器は異なる検出の閾値が設定され、学習が行われる。ここで、検出の閾値とは、例えば、IoU(Intersection over Union)に対する値であり、検出した物体の画像の重なりの割合である。バウンディングボックス同士の重なりと言い換えてもよい。
【0080】
そして、正解が未知のデータに関する推論時に第1物体検出器と第2物体検出器を連携させて用いる。例えば、推論時に
図15におけるようなモデルを用いる場合には、低い閾値で学習を行った第1物体検出器と、より高い閾値で学習を行った第2物体検出器がRolプーリング層を介して連携されている。低い閾値で学習を行った第1物体検出器では、検出の閾値が低く検出ノイズが比較的多い出力を得ることになる。より高い閾値で学習を行った第2物体検出器では、検出の閾値がより高く検出ノイズが比較的少ない出力を得ることができ、さらに第1物体検出器の出力結果を利用しているため検出精度の向上を期待できる。
【0081】
図15に示すように、第1学習モデルは、分類器として、第1分類器と、第2分類器と、を含み、第2分類器は、第1物体検出器の検出結果を利用するように構成されてもよい。より具体的には、第2分類器が有する第2位置的分類器が第1物体検出器の検出結果を利用する。第2位置的分類器は、第1物体検出器から位置情報を含む出力を受け取る。このような構成とすることにより、ぶどう粒をぶどう粒として正しく検出できた割合である再現率が向上することが期待できる。
【0082】
制御部11は、細分化された領域毎に分類を行う細分化領域検出部をさらに備えてもよい。細分化領域検出部は、第1学習モデルに基づき画像に含まれるぶどう粒の領域を細分化された領域毎に検出する。第1学習モデルは、画像P1の特徴量を利用し細分化された領域毎に物体を分類する(セグメンテーションする)マスクを含むように構成されうる。
【0083】
図16に示すように、第1学習モデルは、第2RoIプーリング層が第1物体検出器から位置情報を含む出力を受け取り、第1マスクが第2RoIプーリング層からの出力に基づき細分化された領域毎に物体を分類した結果を出力するように構成されてもよい。
【0084】
同様に、第2マスクは第3RoIプーリング層からの出力に基づき、第3マスクは第4RoIプーリング層からの出力に基づき処理を行う。このように構成することにより、モデルの後ろに位置するRoIプーリング層からの出力を利用することになり、より洗練された特徴量を利用することでより良いセグメンテーションの結果が得られることが期待できる。
【0085】
第1学習モデルが、特徴量として位置情報を分類に利用する分類器である位置的分類器を含む学習モデルである場合には、学習段階において重み付けの調整等に利用されるロス関数(損失関数)にも位置情報による項を加えてもよい。ロス関数Lは、例えば、下記式(1)のように設定されうる。
【数1】
【0086】
第1学習モデルが、複数のステージ、第1ステージ~第Tステージで構成されている場合のロス関数Lについて説明する。なお、
図16では、T=3であり、第1ステージ~第3ステージで構成されているといえる。
【0087】
Lbbox
tは、第tステージにおけるバウンディングボックス(物体検出器)のロスを表す。Lcls
tは、第tステージにおける非位置的分類器のロスを表す。Lscls
tは、第tステージにおける位置的分類器のロスを表す。Lmask
tは、第tステージにおけるマスクのロスを表す。係数αtは、各ステージのロス関数における寄与度を調整するための係数である。βは、各ロス(Lbbox
t、Lcls
t、及びLscls
t)に対する重み付け係数である。このようなロス関数における設計、各係数値の設定は、Cascade R-CNN (Cai and Vasconcelos 2019)、Mask R-CNN (He et al. 2017)、Hybrid Task Cascade (HTC) (Chen, Ouyang, et al. 2019)などを参考にすることができる。
【0088】
各ロスは下記(2)(4)(5)(6)のように定義される。下記式(2)中の「smoothL1」については、下記式(3)のように定義される。
【0089】
Lbboxは、正解とするバンディングボックスと予測したバウンディングバックスそれぞれ4次元のベクトル(位置情報x,yとサイズ情報w,h)として表すことができ、そしてロス関数は二つのベクトル間のマンハッタン距離(各次元の座標の差の絶対値の総和)として算出される。ここで、正解とするバンディングボックスについては、v=(vx,vy,vw,vh)、予測したバウンディングバックスについては、b=(bx,by,bw,bh)と表すことができる。
【0090】
【0091】
Lcls
t及びLscls
tは、交差エントロピー(cross-entropy:CE)として定義される(下記式(4))。各分類器の出力はあるクラスである(ラベルで表す)確率であり、評価ロス関数は、分類結果を実際に得られた確率(予測確率)と正解の確率との交差エントロピーとして表す。予測した結果が正解からずれるほど、この交差エントロピーの値が大きくなる。Kはモデルにおけるクラスの数であり、pは全結合層のソフトマックス関数によって算出された予測確率であり、uは各クラス毎の正解(ground truth)である。
【0092】
Kが2の場合のバイナリ交差エントロピー(binary cross-entropy loss:BCE)では、交差エントロピーは下記式(5)によって計算することができる。
【0093】
【0094】
マスクは、RoI毎に結果を出力し、K×m2次元の結果を出力する。出力は、各次元の値(1ピクセル毎の値)であり、0から1の間の実数である。マスクの正解(ground truth)は0か1の2値画像であり、LmaskはSigmoid cross entropyを使って計算でき、バイナリ交差エントロピー(binary cross-entropy loss:BCE)の平均として定義されうる。mpredは予測したマスクであり、mgtは正解である。
【0095】
【0096】
<変形例2のモデルによる画像解析の効果の検証>
発明者らは、第1学習モデルが
図16のような第1ステージ~第3ステージで構成されているモデルについて実験を行った。
【0097】
まず、790枚の画像でモデルの学習を行った。この学習の際、各ステージは個別に学習が行われた。物体検出器のUoIに関する閾値は、第1物体検出器、第2物体検出器、第3物体検出器の順で大きくなるように設定した。第1物体検出器が最も物体検出に係るノイズを許容するように設定されていた。
【0098】
学習後、各ステージを
図16の構成となるように構築し、198枚の画像でテストした。その結果を表1に示す。Hybrid Task Cascade (HTC) (Chen, Ouyang, et al. 2019)によって報告されているモデルに比べ、擬陽性率(ぶどう粒として検出した対象に占めるぶどう粒でない対象物の割合)は0.07%低下したが、再現率(ぶどう粒をぶどう粒として検出できた割合)において、1.77%の改善が見られた。また、既存手法で検出できなかったぶどうを検出できた(
図17)。
図17Aで丸で囲んだ部3つの部分に存在しているぶどう粒は、従来のモデルでは検出できなかったが、本発明の第1学習モデルでは検出することに成功した(
図17B)。
【0099】
【0100】
<3.第3実施形態>
(3-1.第3実施形態に係るぶどう粒検出システム1)
以下、本発明の第3実施形態に係るぶどう粒検出システム1について説明する。第3実施形態におけるぶどう粒検出システム1は、モデルの学習に利用される教師データとしての画像の準備に特徴を有する。以下、第1実施形態、第2実施形態との相違点を中心に説明する。
【0101】
(2-2.情報処理装置10の機能構成)
制御部11は、教師データ生成部と、モデル学習部をさらに有する。教師データ生成部は、学習モデルが学習段階で用いる教師データ(既知の入力データと正解データの組)を生成する。モデル学習部は、生成された教師データを用いてモデルを訓練する。
【0102】
(2-3.教師データ生成部)
教師データ生成部は、画像内にあるぶどう粒を一粒ずつ除去していくことで摘粒していく過程の画像を擬似的に合成する(教師データ生成工程)。教師データ生成工程は、円形度計算工程と、除去候補抽出工程と、除去補完工程とを含んでよい。
【0103】
円形度計算工程では、画像内においてぶどう粒であることが判明しているぶどう粒の領域について円形度を計算する。除去候補抽出工程では、ぶどう粒の領域の円形度が閾値以下であるぶどう粒を除去する候補として抽出する。除去補完工程では、抽出されたぶどう粒の中からランダムで一つ選択し除去し、除去した部分を背景等で画像補完を行う。画像補完はIizuka, Satoshi, Edgar Simo-Serra, and Hiroshi Ishikawa. 2017. "Globally and Locally Consistent Image Completion." ACM Transactions on Graphics (Proc. of SIGGRAPH) 36(4): 107.の技術を応用することができる。除去補完工程は、抽出された候補がなくなるまで繰り返す。繰り返し毎に摘粒状態の異なる画像を生成することができる。また、除去前を最初から、又は途中からやり直すことでランダムに摘粒された異なるパターンの画像を生成することができる。
【0104】
図18Aでは、ぶどう粒51の向こう側にぶどう粒52が位置している。このような画像において、ぶどう粒52の領域は、ぶどう粒51等に比べ円形度が低いといえる。円形度計算工程において、ぶどう粒52の領域の円形度を算出し、ぶどう粒52の領域の円形度が閾値以下である場合には除去候補抽出工程において除去候補として抽出される(
図18B)。そして、除去補完工程において、ぶどう粒52は削除され、削除によってできた画像中の穴(空白領域)をぶどう粒でない背景画像の特徴に基づいて補完する(
図18C)。
【0105】
<合成画像を用いた学習の効果の検証>
発明者らは、50枚のオリジナル画像とそれらを元に合成された790枚の合成画像でモデルの学習を行った。そして、別の10枚のオリジナル画像とそれらを元に合成された198枚の合成画像を用いてモデルのぶどう粒の検出の性能を検証した。学習にオリジナル画像50枚のみを用いた場合に比べ、再現率、偽陽性率ともに向上していることがわかる。なお、検証にはChen, Kai, Wanli Ouyang, et al. 2019. "Hybrid Task Cascade for Instance Segmentation." Proceedings of the IEEE International Conference on Computer Vision: 4969-78. http://arxiv.org/abs/1901.07518 (November 21, 2019).の深層学習モデルを使用した。
【0106】
【0107】
このような画像合成技術を用いて、オリジナル画像から教師データとなりうる多数の合成画像を生成することで、第2実施形態等で用いられる第1学習モデル等における性能を向上させることができる。
【符号の説明】
【0108】
1:粒検出システム,5:通信回線,10:情報処理装置,11:制御部,11a:粒検出部,11b:房特定部,11c:統合処理部,11d:粒数算出部,12:記憶部,13:通信部,14:操作入力部,15:モニタ,16:システムバス,20:ユーザ端末,21:制御部,21a:画像撮影部,21b:解析結果表示部,22:記憶部,23:通信部,24:撮影部,25:表示部,26:スピーカ,27:システムバス,30:画像解析部,41:下限曲線,42:上限曲線,51、52、DG、UG:ぶどう粒,B1~B3、B1:ぶどう房,BB1、BB2:バウンディングボックス,D1~D3:点,P1~P6、P3':画像,W:作業者,WAN:無線