特許7479007 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人山梨大学の特許一覧 ▶ ドリームファーム株式会社の特許一覧

特許7479007画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-25

(45)【発行日】2024-05-08

(54)【発明の名称】画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20240426BHJP

G06T 7/60 20170101ALI20240426BHJP

A01G 17/02 20060101ALI20240426BHJP

A01G 7/00 20060101ALI20240426BHJP

【ＦＩ】

G06T7/00 350B

G06T7/00 300F

G06T7/60 110

A01G17/02

A01G7/00 603

【請求項の数】 9

(21)【出願番号】P 2020094006

(22)【出願日】2020-05-29

(65)【公開番号】P2021189718

(43)【公開日】2021-12-13

【審査請求日】2023-05-18

(73)【特許権者】

【識別番号】304023994

【氏名又は名称】国立大学法人山梨大学

(73)【特許権者】

【識別番号】520190229

【氏名又は名称】ドリームファーム株式会社

(74)【代理人】

【識別番号】110001139

【氏名又は名称】ＳＫ弁理士法人

(74)【代理人】

【識別番号】100130328

【弁理士】

【氏名又は名称】奥野彰彦

(74)【代理人】

【識別番号】100130672

【弁理士】

【氏名又は名称】伊藤寛之

(72)【発明者】

【氏名】茅暁陽

(72)【発明者】

【氏名】ブアヤイプラウィット

(72)【発明者】

【氏名】豊浦正広

(72)【発明者】

【氏名】三井公司

【審査官】千葉久博

(56)【参考文献】

【文献】特開２０２０－６０５０５（ＪＰ，Ａ）

【文献】特開２０１９－２００５６３（ＪＰ，Ａ）

【文献】特開２０１５－１７７３９７（ＪＰ，Ａ）

【文献】中国特許出願公開第１０９２５５７５７（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／６０

Ａ０１Ｇ１７／０２

Ａ０１Ｇ７／００

(57)【特許請求の範囲】

【請求項1】

画像からぶどう粒を検出する情報処理装置であって、
粒検出部と、房特定部と、統合処理部と、を備え、
前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定部は、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から摘粒作業の対象とされているぶどう房を特定し、
前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
情報処理装置。

【請求項2】

請求項１に記載の情報処理装置であって、
前記粒検出部は、
第１学習モデルに基づき前記画像に含まれる前記ぶどう粒を検出し、
前記第１学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである、
情報処理装置。

【請求項3】

請求項２に記載の情報処理装置であって、
前記第１学習モデルに含まれる分類器は、
特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、
前記非位置的分類器による分類結果及び前記位置的分類器による分類結果に基づき分類する、
情報処理装置。

【請求項4】

請求項２又は請求項３に記載の情報処理装置であって、
前記房特定部は、
第２学習モデルに基づき前記画像に含まれるぶどう房を検出し、
前記第２学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルであり、
前記第２学習モデルは、前記第１学習モデルと同一又は異なる学習モデルである、
情報処理装置。

【請求項5】

請求項１～請求項４の何れか１項に記載の情報処理装置であって、
粒数算出部をさらに備え、
前記粒数算出部は、
前記画像において摘粒作業の対象とされているぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、
計測した前記ぶどう粒の数及び所定の係数に基づき、前記ぶどう房が有する粒の総数の範囲を算出する、
情報処理装置。

【請求項6】

画像からぶどう粒を検出するシステムであって、
画像撮影部と、画像解析部を備え、
前記画像撮影部は、前記画像を撮影し、
前記画像解析部は、粒検出部と、房特定部と、統合処理部を備え、
前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定部は、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から摘粒作業の対象とされているぶどう房を特定し、
前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
システム。

【請求項7】

請求項６に記載のシステムであって、
解析結果表示部をさらに備え、
前記解析結果表示部は、摘粒作業の対象とされているぶどう房が有するぶどう粒の総数の範囲を表示する、
システム。

【請求項8】

画像からぶどう粒を検出させるプログラムであって、
コンピュータに、粒検出工程と、房特定工程と、統合処理工程とを実行させ、
前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定工程では、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から摘粒作業の対象とされているぶどう房を特定し、
前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
プログラム。

【請求項9】

画像からぶどう粒を検出する情報処理方法であって、
粒検出工程と、房特定工程と、統合処理工程と、を備え、
前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、
前記房特定工程では、
前記画像に含まれるぶどう房を検出し、
前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から摘粒作業の対象とされているぶどう房を特定し、
前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、摘粒作業の対象とされているぶどう房に属するぶどう粒を決定する、
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像からぶどう粒を検出する情報処理装置、プログラム、システム、及び方法に関する。

【背景技術】

【0002】

特許文献１には、対象とするぶどう一房を仕切りによって作られた撮影空間部に配置し、ぶどう粒数を画像解析によって計数するぶどう粒計数装置等が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－２００５６３

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、ぶどう房に付いているぶどう粒を通常の摘粒作業の流れを止めずに計測するためには、仕切り等によって作られた撮影空間部に配置せず、摘粒作業者の視界と同様の、複数のぶどう房が含まれている画像からでも作業中のぶどう房に属するぶどう粒を検出できるようにする必要があった。

【0005】

本発明は、複数のぶどう房が含まれている画像から作業中のぶどう房に属するぶどう粒を検出できる情報処理装置、プログラム、システム、及び方法を提供する。

【課題を解決するための手段】

【0006】

本発明によれば、画像からぶどう粒を検出する情報処理装置であって、粒検出部と、房特定部と、統合処理部と、を備え、前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、前記房特定部は、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、情報処理装置が提供される。

【0007】

本発明では、ぶどう粒の検出とぶどう房の検出を行い、ぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定した上で、作業中のぶどう房に属する粒を決定する。このため、作業中ぶどう房を仕切り等によって作られた撮影空間部に配置しなくとも、複数のぶどう房が含まれている画像から作業中のぶどう房を特定し、作業中のぶどう房に属するぶどう粒を検出することができる。

【0008】

以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記情報処理装置において、前記粒検出部は、第１学習モデルに基づき前記画像に含まれる前記ぶどう粒を検出し、前記第１学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。
好ましくは、前記情報処理装置において、前記第１学習モデルに含まれる分類器は、特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、前記非位置的分類器による分類結果及び前記位置的分類器による分類結果に基づき分類する。
好ましくは、前記情報処理装置において、前記房特定部は、第２学習モデルに基づき前記画像に含まれるぶどう房を検出し、前記第２学習モデルは、前記画像の特徴量を利用し物体を検出する物体検出器と、前記画像の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルであり、前記第２学習モデルは、前記第１学習モデルと同一又は異なる学習モデルである。
好ましくは、前記情報処理装置において、粒数算出部をさらに備え、前記粒数算出部は、前記画像において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測した前記ぶどう粒の数及び所定の係数に基づき、前記ぶどう房が有する粒の総数の範囲を算出する。

【0009】

また、本発明によれば、画像からぶどう粒を検出するシステムであって、画像撮影部と、画像解析部を備え、前記画像撮影部は、前記画像を撮影し、前記画像解析部は、粒検出部と、房特定部と、統合処理部を備え、前記粒検出部は、前記画像に含まれる前記ぶどう粒を検出し、前記房特定部は、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理部は、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、システムが提供される。
好ましくは、前記システムにおいて、解析結果表示部をさらに備え、前記解析結果表示部は、作業中のぶどう房が有するぶどう粒の総数の範囲を表示する、システム。

【0010】

また、本発明によれば、画像からぶどう粒を検出させるプログラムであって、コンピュータに、粒検出工程と、房特定工程と、統合処理工程とを実行させ、前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、前記房特定工程では、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、プログラムが提供される。

【0011】

また、本発明によれば、画像からぶどう粒を検出する情報処理方法であって、粒検出工程と、房特定工程と、統合処理工程と、を備え、前記粒検出工程では、前記画像に含まれる前記ぶどう粒を検出し、前記房特定工程では、前記画像に含まれるぶどう房を検出し、前記画像中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定し、前記統合処理工程では、前記ぶどう粒の検出結果及び前記ぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する、情報処理方法が提供される。

【図面の簡単な説明】

【0012】

【図1】第１実施形態に係るぶどう粒検出システム１の概要を示す図である。

【図2】第１実施形態に係る情報処理装置１０及びユーザ端末２０のハードウェア構成を示すブロック図である。

【図3】第１実施形態に係る情報処理装置１０及びユーザ端末２０の機能構成を示すブロック図である。

【図4】粒検出部１１ａによるぶどう粒検出の結果について説明する概念図である。

【図5】房特定部１１ｂによる作業中のぶどう房の検出・特定の結果について説明する概念図である。

【図6】房特定部１１ｂによる同一ぶどう房の重複検出とその排除処理について説明する概念図である。

【図7】統合処理部１１ｃによる作業中のぶどう房に属するぶどう粒の検出結果について説明する概念図である。

【図8】粒数算出部１１ｄによる粒数算出の検証結果を示す図である。

【図9】第２実施形態に係る畳み込みニューラルネットワークの構造の概略図である。

【図10】領域提案ネットワークから位置情報について出力されるまでの流れの概略図である。

【図11】学習モデルの一例を示す概略図である。

【図12】ぶどう粒の検出結果をバウンディングボックスで表す場合の概略図である。

【図13】マスクを含む学習モデルの一例の概略図である。

【図14】細分化された領域毎に分類を行った結果をぶどう粒を塗りつぶして表した概略図である。

【図15】複数の分類器、物体検出器を有する学習モデルの一例の概略図である。

【図16】複数の分類器、物体検出器、マスクを有する学習モデルの一例の概略図である。

【図17】変形例２のモデルによる画像解析の効果の検証結果を説明する図である。

【図18】第３実施形態に係る画像合成工程を説明する概念図である。

【発明を実施するための形態】

【0013】

以下、図面を用いて本発明のいくつかの実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。また、各特徴事項について独立して発明が成立する。

【0014】

＜１．第１実施形態＞
（１－１．ぶどう粒検出システム１）
本発明の一実施形態に係る情報処理装置は、図１に示すようなぶどう粒検出システム１の一部を構成するサーバ等の情報処理装置１０である。ぶどう粒検出システム１は、情報処理装置１０、及びユーザ端末２０を備える。

【0015】

情報処理装置１０は、通信回線５を介してユーザ端末２０と通信可能に構成される。ユーザ端末２０は、複数のぶどう房が含まれていてもよい画像Ｐ１を撮影し情報処理装置１０へ送信する。情報処理装置１０は、ユーザ端末２０から受信した画像Ｐ１を解析する。ぶどう粒の検出、ぶどう房の検出、作業中のぶどう房を特定に基づいて、作業中のぶどう房に属するぶどう粒の検出を実現する。以下、各構成について説明する。

【0016】

（１－２．ぶどう粒検出システム１のハードウェア構成）
図２を参照し、ぶどう粒検出システム１のハードウェア構成を説明する。

【0017】

（１ー２ー１．情報処理装置１０のハードウェア構成）
図２は、本実施形態に係る情報処理装置１０及びユーザ端末２０のハードウェア構成を示すブロック図である。情報処理装置１０は、制御部１１、記憶部１２、通信部１３を備える。また、情報処理装置１０は、キーボード及びマウス等で構成された各種操作の入力を受け付ける操作入力部１４、各種画像を表示する例えば液晶ディスプレイ装置等のモニタ１５を備えていてもよい。

【0018】

制御部１１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等であり、情報処理装置１０の全体の動作を制御する。

【0019】

記憶部１２の一部は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成されており、制御部１１による各種プログラムに基づく処理の実行時のワークエリア等として用いられる。また、記憶部１２の一部は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性メモリ、又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）であり、各種データ及び制御部１１の処理に利用されるプログラム等を保存する。

【0020】

記憶部１２に記憶されるプログラムは、例えば、情報処理装置１０の基本的な機能を実現するためのＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）、各種ハードウェア制御するためのドライバ、各種機能を実現するためのプログラム等であって、本実施形態に係るコンピュータプログラムを含む。

【0021】

通信部１３は、例えばＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）であり、通信回線５に接続する機能を有する。なお、通信部１３は、ＮＩＣに代えて又はＮＩＣと共に、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）に接続する機能、無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）に接続する機能、例えばＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離の無線通信、及び赤外線通信等を可能とする機能を有してもよい。情報処理装置１０は、通信回線５を介してユーザ端末２０等の他の情報処理装置等と接続され、他の情報処理装置等との間で各種データの送受信を行うことができる。

【0022】

これら制御部１１、記憶部１２、通信部１３、操作入力部１４、及びモニタ１５は、システムバス１６を介して相互に電気的に接続されている。従って、制御部１１は、記憶部１２へのアクセス、モニタ１５に対する画像の表示、ユーザによる操作入力部１４に対する操作状態の把握、及び通信部１３を介した各種通信網や他の情報処理装置へのアクセス等を行うことができる。

【0023】

（１－２－２．ユーザ端末２０のハードウェア構成）
ユーザ端末２０は、例えば、ＡＲ（拡張現実）グラス、ＭＲ（複合現実）グラス、スマートグラス、スマートフォンやタブレット端末等の情報処理端末であり、制御部２１、記憶部２２、通信部２３、撮影部２４、表示部２５を備える。また、ユーザ端末２０は、音を出力するスピーカ２６、電源ボタンその他の操作ボタン等により構成される操作部（図示せず）等を備えていてもよい。以下、情報処理装置１０との相違点を中心に説明する。

【0024】

撮影部２４は、静止画、動画等を撮影できるカメラを備える。表示部２５は、ユーザ端末２０がＡＲ（拡張現実）グラス、ＭＲ（複合現実）グラス、スマートグラス等である場合には、眼鏡のレンズに相当する部位と投影等の機能を有する部位との組み合わせによるディスプレイを備えうる。また、ＡＲ（拡張現実）グラス、ＭＲ（複合現実）グラス、スマートグラス等は、網膜に直接映像を照射する部位を備えていてもよい。表示部２５は、ユーザ端末２０がスマートフォンやタブレット端末等である場合には、画像等を表示し操作を受け付け可能なタッチパネルディスプレイ等であってもよい。

【0025】

また、スピーカ２６は、後述する作業中のぶどう房が有するぶどう粒の総数に関する情報を音声や信号音等で作業者Ｗに伝えるために用いられてもよい。

【0026】

これら制御部２１、記憶部２２、通信部２３、撮影部２４、表示部２５、及びスピーカ２６は、システムバス２７を介して相互に電気的に接続されている。従って、制御部２１は、記憶部２２へのアクセス、撮影部２４に対する制御、表示部２５による画像の表示、作業者による操作状態の把握、スピーカ２６からの音の出力、及び通信部２３を介した各種通信網や他の情報処理装置へのアクセス等を行うことができる。

【0027】

（１－３．情報処理装置１０の機能構成）
図３に示すように、情報処理装置１０の制御部１１は、粒検出部１１ａと、房特定部１１ｂと、統合処理部１１ｃを有する。制御部１１は、さらに粒数算出部１１ｄを有していてもよい。粒検出部１１ａ、房特定部１１ｂ、及び統合処理部１１ｃは、これらをまとめて画像解析部３０と称することもある。

【0028】

粒検出部１１ａは、画像Ｐ１に含まれるぶどう粒を検出する。房特定部１１ｂは、画像Ｐ１に含まれるぶどう房を検出し、画像Ｐ１中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。統合処理部１１ｃは、ぶどう粒の検出結果及び房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。

【0029】

また、粒数算出部１１ｄは、画像Ｐ１において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房が有する粒の総数の範囲を算出する。各機能の詳細は、後述する。

【0030】

（１－４．ユーザ端末２０の機能構成）
図３に示すように、ユーザ端末２０の制御部２１は、画像撮影部２１ａを有する。画像撮影部２１ａは、画像Ｐ１を撮影する。また、制御部２１は、解析結果表示部２１ｂを有していてもよい。解析結果表示部２１ｂは、作業中のぶどう房が有するぶどう粒の総数の範囲を表示する。すなわち、解析結果表示部２１ｂは、当該ぶどう粒の総数の範囲を、表示部２５に表示することによってユーザ端末２０のユーザである作業者Ｗに伝達する。

【0031】

上述のように、ぶどう粒検出システム１は、画像撮影部２１ａと、画像解析部３０を備える。ぶどう粒検出システム１は、解析結果表示部２１ｂをさらに備えてもよい。

【0032】

上述した機能構成は、情報処理装置１０又はユーザ端末２０に適宜インストールされるソフトウェア（いわゆるアプリを含む）によって実現してもよく、ハードウェアによって実現してもよい。ソフトウェアによって実現する場合、制御部１１又は制御部２１がソフトウェアを構成するプログラムを実行することによって各種機能を実現することができる。

【0033】

プログラムを実行することで実現される場合、当該プログラムは、情報処理装置１０又はユーザ端末２０が内蔵する記憶部１２又は記憶部２２に格納してもよく、コンピュータが読み取り可能な非一時的な記録媒体に格納してもよい。また、外部の記憶装置に格納されたプログラムを読み出し、いわゆるクラウドコンピューティングにより実現してもよい。もしくは、ハードウェアによって実現する場合、ＡＳＩＣ、ＳＯＣ、ＦＰＧＡ、又はＤＲＰなどの種々の回路によって実現することができる。また、情報処理装置１０の機能として説明した一部の機能構成は、ソフトウェア又はハードウェアによってユーザ端末２０等で処理されるようにしてもよい。反対に、ユーザ端末２０の機能として説明した一部の機能構成は、ソフトウェア又はハードウェアによって情報処理装置１０等で処理されるようにしてもよい。

【0034】

（１－５．粒検出部１１ａの機能）
図４を参照し、粒検出部１１ａの機能を説明する。粒検出部１１ａは、画像Ｐ１に含まれるぶどう粒を検出する。画像Ｐ１は、摘粒の作業者Ｗが有するユーザ端末２０の撮影部２４によって撮影され、情報処理装置１０に送信された画像である。ユーザ端末２０が、ＡＲグラス等である場合には画像Ｐ１に映る範囲は、作業者Ｗの視野に近い範囲となりうる。

【0035】

粒検出部１１ａによるぶどう粒の検出は、画像Ｐ１が有する色相・明度・彩度等その他画像解析によって得られる種々の特徴量に基づき行われる。例えば、画像Ｐ１を２値化処理した上で、輪郭や大きさ等に基づき画像解析することによって検出してもよい。

【0036】

ぶどう粒検出結果は、各ぶどう粒について位置、大きさ、範囲等として得られ記憶部１２に記録されうる。このようなぶどう粒検出結果に基づいて画像Ｐ１を加工すると、例えば、図４に示す画像Ｐ２のようになる。ぶどう粒として検出されたぶどう粒（検出ぶどう粒ＤＧ）の領域は、黒く塗りつぶされている。ぶどう粒として検出されなかったぶどう粒（非検出ぶどう粒ＤＧ）の領域は、塗りつぶされず白抜きのままである。

【0037】

（１－６．房特定部１１ｂの機能）
図５を参照し、房特定部１１ｂの機能を説明する。房特定部１１ｂは、画像Ｐ１に含まれるぶどう房を検出する。房特定部１１ｂによるぶどう房の検出は、ぶどう粒の検出と同様に、画像Ｐ１が有する色相・明度・彩度等その他画像解析によって得られる種々の特徴量に基づき行われる。例えば、画像Ｐ１を２値化処理した上で、輪郭や大きさ等に基づき画像解析することによって検出してもよい。

【0038】

ぶどう房検出結果は、各ぶどう房について位置、大きさ、範囲等として得られ記憶部１２に記録されうる。このようなぶどう房検出結果に基づいて画像Ｐ１を加工すると、例えば、図５に示す画像Ｐ３のようになる。ぶどう房として検出されたぶどう房は、ぶどう房Ｂ１、ぶどう房Ｂ２、及びぶどう房Ｂ３として枠で囲われて示されている。

【0039】

房特定部１１ｂは、画像Ｐ１中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。図５においては、ぶどう房として、ぶどう房Ｂ１、ぶどう房Ｂ２、及びぶどう房Ｂ３が検出されているため、これらの中から作業中のぶどう房を特定する。

【0040】

ここで、「作業中のぶどう房」とは、作業者Ｗが作業対象とするぶどう房である。作業者Ｗが作業対象とするぶどう房とは、例えば、摘粒作業を行おうとしているぶどう房、摘粒作業を行っているぶどう房、摘粒作業の状態を確認しているぶどう房等を意味する。摘粒作業のために作業者Ｗが注目、注視しているぶどう房ともいえる。

【0041】

作業中のぶどう房を特定するために考慮する「房の位置」の判定基準は、例えば、画像Ｐ１の中心に対する検出された各ぶどう房の近さである。図５に示すように、画像Ｐ１の左下を原点、その右方向をＸ軸、上方向をＹ軸、右端をＸ＝１、上端をＹ＝１と設定する。この場合、画像Ｐ１の中心は、（Ｘ,Ｙ）＝（０．５，０．５）となる点Ｄ１である。この点Ｄ１と、検出された各ぶどう房の中心との距離（画像房中心間距離）に基づき、近さを算出することができる。近さを表す指標として、例えば、１を画像房中心間距離で割った値、言い換えれば「画像中心への近接率」等を利用することができる。

【0042】

作業中のぶどう房を特定するために考慮する「ぶどう房の大きさ」は、例えば、画像Ｐ１中の検出された各ぶどう房に属する領域の面積である。画像Ｐ１中における各ぶどう房の大きさを表す指標として、例えば、「ぶどう房に属する領域の面積」を「画像Ｐ１の面積」で割った値、言い換えれば「画像における占有率」等を利用することができる。

【0043】

そして、房特定部１１ｂが、「ぶどう房の位置」及び「ぶどう房の大きさ」に基づき作業中のぶどう房を特定する方法の一例としては、画像Ｐ１の中心に対する検出された各ぶどう房の近さと、画像Ｐ１中の検出された各ぶどう房に属する領域の面積に基づいて特定する方法が挙げられる。より具体的には、例えば、「画像中心への近接率」と「画像における占有率」を足した値を基準とする。一態様においては、足した値がより大きい方が作業中のぶどう房である確率がより高いと判断できる。

【0044】

図５において、仮に、ぶどう房Ｂ１～Ｂ３の「画像中心への近接率」がそれぞれ０．５、０．３、０．１であり、ぶどう房Ｂ１～Ｂ３の「画像における占有率」がそれぞれ０．２、０．１５、０．１であるとする。このような場合、「画像中心への近接率」と「画像における占有率」を足した値、作業中のぶどう房である確率は、ぶどう房Ｂ１～Ｂ３についてそれぞれ０．７、０．４５、０．２である。すなわち、画像Ｐ１の中でぶどう房Ｂ１が作業中のぶどう房である確率が一番高く、作業中のぶどう房として特定される。

【0045】

また、房特定部１１ｂによるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する処理は、図６の画像Ｐ３'に示すように、同一のぶどう房がぶどう房Ｂ１及びぶどう房Ｂ１'として重複して検出されてしまった際に除外することにも寄与する。ぶどう房Ｂ１'はぶどう房Ｂ１の一部が誤ってぶどう房として検出されてしまったものである。しかし、作業中のぶどう房を特定するためにぶどう房の位置及びぶどう房の大きさを考慮すると、作業中のぶどう房としてはぶどう房Ｂ１'は除外されることになり、精度良く作業中のぶどう房を特定することができる。

【0046】

（１－７．統合処理部１１ｃの機能）
図７を参照し、統合処理部１１ｃの機能を説明する。統合処理部１１ｃは、ぶどう粒の検出結果及びぶどう房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。ぶどう粒の検出結果とぶどう房の特定結果を総合的に考慮して判断する。

【0047】

「ぶどう粒の検出結果」に基づきぶどう粒であると考えられるぶどう粒ＤＧうち、「ぶどう房の特定結果」に基づき特定された作業中のぶどう房Ｂ１に属する可能性の高いものを、作業中のぶどう房Ｂ１に属するぶどう粒ＤＧとして決定する。このような決定に基づいて画像Ｐ１を加工すると、例えば、図７に示す画像Ｐ４のようになる。

【0048】

画像Ｐ４全体で検出されたぶどう粒ＤＧ（黒塗りの粒）は２６個である。しかし、作業中と特定されたぶどう房Ｂ１は実線の枠内であり、作業中のぶどう房Ｂ１に属するぶどう粒として決定されたはぶどう粒は、ぶどう房Ｂ１は実線の枠で囲まれた範囲内の９個のぶどう粒ＤＧとなる。

【0049】

（１－８．粒数算出部１１ｄの機能）
粒数算出部１１ｄは、画像Ｐ１において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測する。作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数は、例えば、図７では、ぶどう房Ｂ１は実線の枠で囲まれた範囲内の９個である。

【0050】

また、粒数算出部１１ｄは、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房Ｂ１が有するぶどう粒の総数の範囲を算出する。所定の係数は、例えば、２次元画像から検出し計測したぶどう房に属しているぶどう粒の数と、２次元画像上では見えない等の理由により検出されない裏側に位置しているぶどう粒等も含めた、当該ぶどう房に属しているぶどう粒の実際の数の関係に基づいて決定される係数である。

【0051】

一態様における所定の係数の決定について説明する。まず、ぶどう房に属しているぶどう粒の実際の数がわかっている複数のぶどう房について、それらのぶどう房を含む複数のサンプル画像を用意し、作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測する。計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数を集計（クラスタリング）する。このような集計によって、計測したぶどう粒の数に対応する、ぶどう房が有するぶどう粒の総数の範囲を算出する係数を決定することができる。なお、複数のぶどう房の一部は同一のぶどう房であってもよい。ただし、同一のぶどう房であっても、摘粒作業によって付いている粒の数が異なるものであることが好ましい。

【0052】

例えば、複数のサンプル画像から計測したぶどう粒の数が４４の場合には、ぶどう房に属しているぶどう粒の実際の数が４４～５２であることがわかったとする。計測したぶどう粒の数が４４の場合には、所定の係数は１（＝４４／４４）～１．８（＝５２／４４）と決定することができる。すなわち、計測したぶどう粒の数毎に個別に所定の係数が決定されてよい。

【0053】

計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数を集計した結果は、図８のグラフのように表すことができる。計測したぶどう粒の数をＸとし、ぶどう房に属しているぶどう粒の実際の数をＹとする。全ての点（Ｘ，Ｙ）をプロットした上で、同一のＸにおけるＹの最小点、最大点をプロットする。このプロットにより、各最小点に基づく回帰曲線と、各最大点に基づく回帰曲線を描くことができる。各最小点に基づく回帰曲線は、ぶどう房に属しているぶどう粒の実際の数の下限曲線となり、各最大点に基づく回帰曲線は、ぶどう房に属しているぶどう粒の実際の数の上限曲線となる。

【0054】

＜粒数算出の検証＞
サンプル画像として１００枚の画像を用意し、検証用画像として２６枚の画像を用意して試験を行った際の粒数算出の結果が図８に示されている。サンプル画像として１００枚の画像の解析に基づき下限曲線４１、上限曲線４２が描かれている。また、検証用画像から計測したぶどう粒の数毎に、ぶどう房に属しているぶどう粒の実際の数がプロットされている。サンプル画像から作成された下限曲線４１及び上限曲線４２によって区切られた範囲内にプロットがほぼ収まったことがわかる。

【0055】

（１－８．処理の流れ）
ぶどう粒検出システム１による処理の流れについて説明する。まず、画像撮影工程が実行される。画像撮影工程では、ユーザ端末２０の撮影部２４により画像Ｐ１を撮影する。画像Ｐ１は、ユーザ端末２０から情報処理装置１０へ送信される。

【0056】

次に、粒検出工程が実行される。粒検出工程では、画像Ｐ１に含まれるぶどう粒を検出する。粒検出工程と前後して、又は並列的に房特定工程が実行される。房特定工程では、画像Ｐ１に含まれるぶどう房を検出し、画像Ｐ１中におけるぶどう房の位置及びぶどう房の大きさに基づき、検出されたぶどう房から作業中のぶどう房を特定する。そして、統合処理工程が実行される。統合処理工程では、ぶどう粒の検出結果及び房の特定結果に基づき、作業中のぶどう房に属するぶどう粒を決定する。これら粒検出工程、房特定工程、及び統合処理工程を含む工程を画像解析工程と称することがある。

【0057】

次に、粒数算出工程が実行される。粒数算出工程では、画像Ｐ１において作業中のぶどう房に属するぶどう粒として検出されたぶどう粒の数を計測し、計測したぶどう粒の数及び所定の係数に基づき、ぶどう房が有する粒の総数の範囲を算出する。

【0058】

その後、解析結果表示工程が実行される。解析結果表示工程では、作業中のぶどう房が有するぶどう粒の総数の範囲をユーザ端末２０の表示部２５に表示する。解析結果表示工程では、ぶどう粒の領域やぶどう房の位置等の解析結果をＡＲ技術によって視界に重ねて表示することも可能である。

【0059】

＜２．第２実施形態＞
（２－１．第２実施形態に係るぶどう粒検出システム１）
以下、本発明の第２実施形態に係るぶどう粒検出システム１について説明する。第２実施形態におけるぶどう粒検出システム１は、学習モデルに基づいて種々の検出、分類等を行う点で第１実施形態と異なる。以下、相違点を中心に説明する。

【0060】

（２－１．粒検出部１１ａの機能）
粒検出部１１ａは、第１学習モデルに基づき画像Ｐ１に含まれるぶどう粒を検出する。すなわち、粒検出部１１ａは、機械学習、ディープラーニング等に基づく画像認識処理を行い、物体の検出や分類等を行う。第１学習モデルとは、ぶどう粒を検出することができる学習モデルであれば特に制限されないが、例えば、多数の教師データ（既知の入力データと正解データの組）を用いてモデルを訓練し、将来の出力を予測可能にする学習モデルである。

【0061】

第１学習モデルには、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を利用した深層学習モデルを採用することができる。このような学習モデルにおいては、入力画像（画像Ｐ１）に対して畳み込みニューラルネットワークによる処理を行う。畳み込みニューラルネットワークは、畳み込み層とプリーリング層の１以上の組み合わせにより構成される。例えば図９に示すように、入力画像は、第１畳み込み層、第１プーリング層、第２畳み込み層、第２プーリング層・・・第ｎ畳み込み層、第ｎプーリング層により構成される畳み込みニューラルネットワークにより処理されて、特徴マップが生成される。

【0062】

第１学習モデルは、画像Ｐ１の特徴量を利用し物体を検出する物体検出器と、画像Ｐ１の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。第１学習モデルが、畳み込みニューラルネットワークを利用した深層学習モデルである場合には、物体検出器及び分類器は、上記特徴マップを利用する。

【0063】

第１学習モデルに含まれる分類器は、特徴量として位置情報を分類に利用しない分類器である非位置的分類器と、特徴量として位置情報を分類に利用する分類器である位置的分類器と、を有し、非位置的分類器による分類結果及び位置的分類器による分類結果に基づき分類するように構成されてもよい。学習モデルにおいて、物体の分類のためには位置に関する情報は特徴量から排除されることが通常である。画像内での位置、例えば物体が画像内で右上に位置していることは、その物体が何であるかということを判別するための分類器においては悪影響を及ぼすことが一般的だからである。

【0064】

しかし、発明者らは、第１学習モデルに、分類器として、特徴量として位置情報を分類に利用しない分類器である非位置的分類器だけを含む場合に比べ、特徴量として位置情報を分類に利用する分類器である位置的分類器も含める場合に、ぶどう粒をぶどう粒として正しく検出できた割合である再現率が改善されることを見出した。すなわち、物体をぶどう粒としてより正しく分類することができたといえる。

【0065】

また、特徴量として位置情報を分類に利用する分類器である位置的分類器も含める場合には、作業中のぶどう房に属するぶどう粒以外の検出が抑制された。その結果、検出されたぶどう粒のうちの作業中のぶどう房に属するぶどう粒の割合が向上するという効果も得られた。

【0066】

ここで、特徴量として位置情報は、種々の方法によって入力画像から得ることができるが、例えば、領域提案ネットワーク（ＲＰＮ：ＲｅｓｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を利用することによって得てもよい。領域提案ネットワークは、畳み込みニューラルネットワークと同様のネットワーク構造を有してもよい。また、図１０に示すように、領域提案ネットワークが、畳み込みニューラルネットワークにより生成された特徴マップを入力として、位置情報を出力するように構成されてもよい。

【0067】

畳み込みニューラルネットワーク（ＣＮＮ）及び領域提案ネットワーク（ＲＰＮ）を利用し、さらに特徴量として位置情報を分類に利用する分類器を含む第１学習モデルは、図１１のように表すことができる。すなわち、畳み込みニューラルネットワークにより出力された特徴マップを入力として領域提案ネットワークが位置情報を出力する。特徴マップと位置情報は、これらを統合するＲｏＩプーリング層（ＲｏＩＰｏｏｌｉｎｇ）に入力され、抽出処理が行われ、特徴量が出力される。

【0068】

物体検出器及び非位置的分類器には、ＲｏＩプーリング層で抽出された特徴量が入力される。一方、位置的分類器には、ＲｏＩプーリング層で抽出された特徴量に加え、領域提案ネットワークから出力される位置情報を含んだ特徴量も入力される。物体検出器、非位置的分類器、及び位置的分類器は、１層以上によって構成される全結合層等であってよい。

【0069】

物体検出器からは、検出した物体の画像Ｐ１中における位置、領域等の情報が出力される。図１２の例においては、物体検出の結果に基づいて加工された画像Ｐ５が示されている。この画像Ｐ５では、検出された物体の領域を四角形（バウンディングボックスＢＢ１）で表すために、領域の左下の点Ｄ２と右上の点Ｄ３の座標が出力されている。点Ｄ２は（ｘ_１,ｙ_１）であり、点Ｄ３は（ｘ_２,ｙ_２）である。これら２つの点の座標が物体検出器から出力される情報の一例である。

【0070】

非位置的分類器からは、検出された物体について特定の物であるかの確率が出力される。粒検出部１１ａでは、第１学習モデルとしてぶどう粒を検出するために学習が行われた学習モデルを利用するため、検出された物体のぶどう粒である確率が出力される。この際、背景である確率も同時に出力し、分類の際に考慮してもよい。

【0071】

位置的分類器からは、入力された位置情報も利用する点で異なるが、非位置的分類器と同様に、検出された物体について特定の物であるかの確率が出力される。粒検出部１１ａでは、第１学習モデルとしてぶどう粒を検出するために学習が行われた学習モデルを利用するため、検出された物体のぶどう粒である確率が出力される。この際、背景である確率も同時に出力し、分類の際に考慮してもよい。

【0072】

非位置的分類器のみを分類器として含む場合には、非位置的分類器が出力する確率が一定以上であるかに基づいて、ぶどう粒か否かを分類する。非位置的分類器とともに位置的分類器を分類器として含む場合には、非位置的分類器が出力する確率と、位置的分類器が出力する確率の両方に基づいてぶどう粒か否かを分類する。より具体的には、例えば、「非位置的分類器が出力する確率」に０．５を掛けた値と、「位置的分類器が出力する確率」に０．５を掛けた値と、を足した値（すなわち、平均値）に基づいて分類する。すなわち、足した値がぶどう粒である確率となり、当該確率が一定以上であるか否かに基づいて、ぶどう粒か否かを分類する。

【0073】

（２－２．房特定部１１ｂの機能）
房特定部１１ｂは、第２学習モデルに基づき画像Ｐ１に含まれるぶどう房を検出するように構成されてもよい。すなわち、房特定部１１ｂは、機械学習、ディープラーニング等に基づく画像認識処理を行い、物体の検出や分類等を行う。第２学習モデルは、画像Ｐ１の特徴量を利用し物体を検出する物体検出器と、画像Ｐ１の特徴量を利用し物体の分類を行う分類器と、を含む学習モデルである。第２学習モデルには、畳み込みニューラルネットワークを利用した深層学習モデルを採用することができる。

【0074】

また、第２学習モデルは、第１学習モデルと同一又は異なる学習モデルである。第２学習モデルが、第１学習モデルと同一である場合には、ぶどう粒の検出とぶどう房の検出を同じ学習モデルによって行うように構成することができる。

【0075】

（２－３．第２実施形態の変形例１）
粒検出部１１ａ及び房特定部１１ｂは、細分化された領域毎に分類を行うように構成されてもよい。「細分化された領域毎」とは、例えば、ピクセル毎等である。画像全体に対して細分化された領域毎の分類を行ってもよいが、検出された物体、例えばぶどう粒やぶどう房に対してのみ細分化された領域毎の分類を行うようにしてもよい。細分化された領域毎に分類を行う処理は、セグメンテーションと称することもある。

【0076】

細分化された領域毎に分類を行う場合には、例えば、図１３に示すようなモデルを利用することができる。図１３のモデルはマスクを有し、図１１のモデルとはＲｏＩプーリング層で抽出された特徴量がマスクにも入力される点で異なる。このマスクにより、細分化された領域毎に分類が行われる。

【0077】

物体検出器による検出結果に基づくだけでは、図１４の画像Ｐ６に示すように、バウンディングボックスＢＢ２で囲むように物体を認識できるだけであるが、マスクを用いることでその物体（ぶどう粒）の実際の輪郭に近い形で物体を認識可能となる。

【0078】

（２－４．第２実施形態の変形例２）
図１５に示すように、第１学習モデルは、物体検出器として、第１物体検出器と、第２物体検出器と、を含むように構成されてもよい。第２物体検出器による検出の閾値は、第１物体検出器による検出の閾値と異なる値であるように構成される。また、第２物体検出器は、第１物体検出器の検出結果を利用することができる。このような構成とすることにより、異なる複数の閾値により物体検出が行われ物体の検出における取りこぼしが抑制されることを期待できる。

【0079】

検出の閾値が異なる第１物体検出器及び第２物体検出器は、学習段階においては独立して学習を行うことができる。第１物体検出器及び第２物体検出器は異なる検出の閾値が設定され、学習が行われる。ここで、検出の閾値とは、例えば、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）に対する値であり、検出した物体の画像の重なりの割合である。バウンディングボックス同士の重なりと言い換えてもよい。

【0080】

そして、正解が未知のデータに関する推論時に第１物体検出器と第２物体検出器を連携させて用いる。例えば、推論時に図１５におけるようなモデルを用いる場合には、低い閾値で学習を行った第１物体検出器と、より高い閾値で学習を行った第２物体検出器がＲｏｌプーリング層を介して連携されている。低い閾値で学習を行った第１物体検出器では、検出の閾値が低く検出ノイズが比較的多い出力を得ることになる。より高い閾値で学習を行った第２物体検出器では、検出の閾値がより高く検出ノイズが比較的少ない出力を得ることができ、さらに第１物体検出器の出力結果を利用しているため検出精度の向上を期待できる。

【0081】

図１５に示すように、第１学習モデルは、分類器として、第１分類器と、第２分類器と、を含み、第２分類器は、第１物体検出器の検出結果を利用するように構成されてもよい。より具体的には、第２分類器が有する第２位置的分類器が第１物体検出器の検出結果を利用する。第２位置的分類器は、第１物体検出器から位置情報を含む出力を受け取る。このような構成とすることにより、ぶどう粒をぶどう粒として正しく検出できた割合である再現率が向上することが期待できる。

【0082】

制御部１１は、細分化された領域毎に分類を行う細分化領域検出部をさらに備えてもよい。細分化領域検出部は、第１学習モデルに基づき画像に含まれるぶどう粒の領域を細分化された領域毎に検出する。第１学習モデルは、画像Ｐ１の特徴量を利用し細分化された領域毎に物体を分類する（セグメンテーションする）マスクを含むように構成されうる。

【0083】

図１６に示すように、第１学習モデルは、第２ＲｏＩプーリング層が第１物体検出器から位置情報を含む出力を受け取り、第１マスクが第２ＲｏＩプーリング層からの出力に基づき細分化された領域毎に物体を分類した結果を出力するように構成されてもよい。

【0084】

同様に、第２マスクは第３ＲｏＩプーリング層からの出力に基づき、第３マスクは第４ＲｏＩプーリング層からの出力に基づき処理を行う。このように構成することにより、モデルの後ろに位置するＲｏＩプーリング層からの出力を利用することになり、より洗練された特徴量を利用することでより良いセグメンテーションの結果が得られることが期待できる。

【0085】

第１学習モデルが、特徴量として位置情報を分類に利用する分類器である位置的分類器を含む学習モデルである場合には、学習段階において重み付けの調整等に利用されるロス関数（損失関数）にも位置情報による項を加えてもよい。ロス関数Ｌは、例えば、下記式（１）のように設定されうる。

【数1】

【0086】

第１学習モデルが、複数のステージ、第１ステージ～第Ｔステージで構成されている場合のロス関数Ｌについて説明する。なお、図１６では、Ｔ＝３であり、第１ステージ～第３ステージで構成されているといえる。

【0087】

Ｌ_ｂｂｏｘ ^ｔは、第ｔステージにおけるバウンディングボックス（物体検出器）のロスを表す。Ｌ_ｃｌｓ ^ｔは、第ｔステージにおける非位置的分類器のロスを表す。Ｌ_ｓｃｌｓ ^ｔは、第ｔステージにおける位置的分類器のロスを表す。Ｌ_ｍａｓｋ ^ｔは、第ｔステージにおけるマスクのロスを表す。係数α_ｔは、各ステージのロス関数における寄与度を調整するための係数である。βは、各ロス（Ｌ_ｂｂｏｘ ^ｔ、Ｌ_ｃｌｓ ^ｔ、及びＬ_ｓｃｌｓ ^ｔ）に対する重み付け係数である。このようなロス関数における設計、各係数値の設定は、Cascade R-CNN (Cai and Vasconcelos 2019)、Mask R-CNN (He et al. 2017)、Hybrid Task Cascade (HTC) (Chen, Ouyang, et al. 2019)などを参考にすることができる。

【0088】

各ロスは下記（２）（４）（５）（６）のように定義される。下記式（２）中の「ｓｍｏｏｔｈ_Ｌ１」については、下記式（３）のように定義される。

【0089】

Ｌ_ｂｂｏｘは、正解とするバンディングボックスと予測したバウンディングバックスそれぞれ4次元のベクトル（位置情報ｘ，ｙとサイズ情報ｗ，ｈ）として表すことができ、そしてロス関数は二つのベクトル間のマンハッタン距離（各次元の座標の差の絶対値の総和）として算出される。ここで、正解とするバンディングボックスについては、ｖ＝（ｖ_ｘ，ｖ_ｙ，ｖ_ｗ，ｖ_ｈ）、予測したバウンディングバックスについては、ｂ＝（ｂ_ｘ，ｂ_ｙ，ｂ_ｗ，ｂ_ｈ）と表すことができる。

【0090】

【数2】

【数3】

【0091】

Ｌ_ｃｌｓ ^ｔ及びＬ_ｓｃｌｓ ^ｔは、交差エントロピー（ｃｒｏｓｓ－ｅｎｔｒｏｐｙ：ＣＥ）として定義される（下記式（４））。各分類器の出力はあるクラスである（ラベルで表す）確率であり、評価ロス関数は、分類結果を実際に得られた確率（予測確率）と正解の確率との交差エントロピーとして表す。予測した結果が正解からずれるほど、この交差エントロピーの値が大きくなる。Ｋはモデルにおけるクラスの数であり、ｐは全結合層のソフトマックス関数によって算出された予測確率であり、ｕは各クラス毎の正解（ｇｒｏｕｎｄｔｒｕｔｈ）である。

【0092】

Ｋが２の場合のバイナリ交差エントロピー（ｂｉｎａｒｙｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ：ＢＣＥ）では、交差エントロピーは下記式（５）によって計算することができる。

【0093】

【数4】

【数5】

【0094】

マスクは、ＲｏＩ毎に結果を出力し、Ｋ×ｍ^２次元の結果を出力する。出力は、各次元の値（１ピクセル毎の値）であり、０から１の間の実数である。マスクの正解（ｇｒｏｕｎｄｔｒｕｔｈ）は０か１の２値画像であり、Ｌ_ｍａｓｋはＳｉｇｍｏｉｄｃｒｏｓｓｅｎｔｒｏｐｙを使って計算でき、バイナリ交差エントロピー（ｂｉｎａｒｙｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ：ＢＣＥ）の平均として定義されうる。ｍ_ｐｒｅｄは予測したマスクであり、ｍ_ｇｔは正解である。

【0095】

【数6】

【0096】

＜変形例２のモデルによる画像解析の効果の検証＞
発明者らは、第１学習モデルが図１６のような第１ステージ～第３ステージで構成されているモデルについて実験を行った。

【0097】

まず、７９０枚の画像でモデルの学習を行った。この学習の際、各ステージは個別に学習が行われた。物体検出器のＵｏＩに関する閾値は、第１物体検出器、第２物体検出器、第３物体検出器の順で大きくなるように設定した。第１物体検出器が最も物体検出に係るノイズを許容するように設定されていた。

【0098】

学習後、各ステージを図１６の構成となるように構築し、１９８枚の画像でテストした。その結果を表１に示す。Hybrid Task Cascade (HTC) (Chen, Ouyang, et al. 2019)によって報告されているモデルに比べ、擬陽性率（ぶどう粒として検出した対象に占めるぶどう粒でない対象物の割合）は０．０７％低下したが、再現率（ぶどう粒をぶどう粒として検出できた割合）において、１．７７％の改善が見られた。また、既存手法で検出できなかったぶどうを検出できた（図１７）。図１７Ａで丸で囲んだ部３つの部分に存在しているぶどう粒は、従来のモデルでは検出できなかったが、本発明の第１学習モデルでは検出することに成功した（図１７Ｂ）。

【0099】

【表1】

【0100】

＜３．第３実施形態＞
（３－１．第３実施形態に係るぶどう粒検出システム１）
以下、本発明の第３実施形態に係るぶどう粒検出システム１について説明する。第３実施形態におけるぶどう粒検出システム１は、モデルの学習に利用される教師データとしての画像の準備に特徴を有する。以下、第１実施形態、第２実施形態との相違点を中心に説明する。

【0101】

（２－２．情報処理装置１０の機能構成）
制御部１１は、教師データ生成部と、モデル学習部をさらに有する。教師データ生成部は、学習モデルが学習段階で用いる教師データ（既知の入力データと正解データの組）を生成する。モデル学習部は、生成された教師データを用いてモデルを訓練する。

【0102】

（２－３．教師データ生成部）
教師データ生成部は、画像内にあるぶどう粒を一粒ずつ除去していくことで摘粒していく過程の画像を擬似的に合成する（教師データ生成工程）。教師データ生成工程は、円形度計算工程と、除去候補抽出工程と、除去補完工程とを含んでよい。

【0103】

円形度計算工程では、画像内においてぶどう粒であることが判明しているぶどう粒の領域について円形度を計算する。除去候補抽出工程では、ぶどう粒の領域の円形度が閾値以下であるぶどう粒を除去する候補として抽出する。除去補完工程では、抽出されたぶどう粒の中からランダムで一つ選択し除去し、除去した部分を背景等で画像補完を行う。画像補完はIizuka, Satoshi, Edgar Simo-Serra, and Hiroshi Ishikawa. 2017. "Globally and Locally Consistent Image Completion." ACM Transactions on Graphics (Proc. of SIGGRAPH) 36(4): 107.の技術を応用することができる。除去補完工程は、抽出された候補がなくなるまで繰り返す。繰り返し毎に摘粒状態の異なる画像を生成することができる。また、除去前を最初から、又は途中からやり直すことでランダムに摘粒された異なるパターンの画像を生成することができる。

【0104】

図１８Ａでは、ぶどう粒５１の向こう側にぶどう粒５２が位置している。このような画像において、ぶどう粒５２の領域は、ぶどう粒５１等に比べ円形度が低いといえる。円形度計算工程において、ぶどう粒５２の領域の円形度を算出し、ぶどう粒５２の領域の円形度が閾値以下である場合には除去候補抽出工程において除去候補として抽出される（図１８Ｂ）。そして、除去補完工程において、ぶどう粒５２は削除され、削除によってできた画像中の穴（空白領域）をぶどう粒でない背景画像の特徴に基づいて補完する（図１８Ｃ）。

【0105】

＜合成画像を用いた学習の効果の検証＞
発明者らは、５０枚のオリジナル画像とそれらを元に合成された７９０枚の合成画像でモデルの学習を行った。そして、別の１０枚のオリジナル画像とそれらを元に合成された１９８枚の合成画像を用いてモデルのぶどう粒の検出の性能を検証した。学習にオリジナル画像５０枚のみを用いた場合に比べ、再現率、偽陽性率ともに向上していることがわかる。なお、検証にはChen, Kai, Wanli Ouyang, et al. 2019. "Hybrid Task Cascade for Instance Segmentation." Proceedings of the IEEE International Conference on Computer Vision: 4969-78. http://arxiv.org/abs/1901.07518 (November 21, 2019).の深層学習モデルを使用した。

【0106】

【表2】

【0107】

このような画像合成技術を用いて、オリジナル画像から教師データとなりうる多数の合成画像を生成することで、第２実施形態等で用いられる第１学習モデル等における性能を向上させることができる。

【符号の説明】

【0108】

１：粒検出システム，５：通信回線，１０：情報処理装置，１１：制御部，１１ａ：粒検出部，１１ｂ：房特定部，１１ｃ：統合処理部，１１ｄ：粒数算出部，１２：記憶部，１３：通信部，１４：操作入力部，１５：モニタ，１６：システムバス，２０：ユーザ端末，２１：制御部，２１ａ：画像撮影部，２１ｂ：解析結果表示部，２２：記憶部，２３：通信部，２４：撮影部，２５：表示部，２６：スピーカ，２７：システムバス，３０：画像解析部，４１：下限曲線，４２：上限曲線，５１、５２、ＤＧ、ＵＧ：ぶどう粒，Ｂ１～Ｂ３、Ｂ１：ぶどう房，ＢＢ１、ＢＢ２：バウンディングボックス，Ｄ１～Ｄ３:点，Ｐ１～Ｐ６、Ｐ３'：画像，Ｗ：作業者，ＷＡＮ：無線

【図1】