(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-24
(54)【発明の名称】生育不良マップの生成方法及びシステム
(51)【国際特許分類】
G06T 3/4046 20240101AFI20240717BHJP
G06T 1/00 20060101ALI20240717BHJP
A01G 7/00 20060101ALI20240717BHJP
【FI】
G06T3/4046
G06T1/00 500B
A01G7/00 603
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579670
(86)(22)【出願日】2022-06-28
(85)【翻訳文提出日】2023-12-26
(86)【国際出願番号】 EP2022067793
(87)【国際公開番号】W WO2023275086
(87)【国際公開日】2023-01-05
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】521508254
【氏名又は名称】ビーエーエスエフ アグロ トレードマークス ゲーエムベーハー
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】カシャヴ,アシシュ
(72)【発明者】
【氏名】ロペス アニェーゼ,マウリシオ
(72)【発明者】
【氏名】ゼリンガー,ザンドラ
(72)【発明者】
【氏名】パソリウス ヴェクセル,ヴァグナー
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057AA15
5B057CA08
5B057CA12
5B057CA16
5B057CB06
5B057CB20
5B057CC02
5B057CE12
5B057DA08
5B057DA12
5B057DB02
(57)【要約】
生育不良マップを生成する方法を提供する。本方法は、圃場のゾーンの空撮画像及び圃場内における多年生作物の生育不良に関する注釈を含む注釈付き訓練データを提供するステップを含む。本方法は更に、注釈付き訓練データを用いて人工知能を訓練するステップと、検査対象である圃場の少なくとも1個の空撮画像を含む圃場データを提供するステップとを含む。圃場データに対して訓練された人工知能を適用して生育不良マップを生成する。また、生育不良マップを生成するシステム及び生育不良マップの使用も提供する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
生育不良マップを生成する方法であって、
圃場のゾーンの空撮画像及び前記圃場内における多年生作物の生育不良に関する注釈を含む注釈付き訓練データを提供するステップと、
前記注釈付き訓練データを用いて人工知能を訓練するステップと、
検査対象である圃場の少なくとも1個の空撮画像を含む圃場データを提供するステップと、
前記圃場データに対して前記訓練された人工知能を適用して生育不良マップを生成するステップと、
を含む方法。
【請求項2】
請求項1に記載の方法であって、
前記生育不良マップをスケルトン化、ラインフィッティング、及び/又は生育不良の長さを推定する他の手段により変更することにより生育不良の長さを判定するステップを更に含む方法。
【請求項3】
請求項1又は2に記載の方法であって、
前記生育不良マップをスケルトン化して生育不良の列を含む生育不良列マップを生成するステップを更に含む方法。
【請求項4】
請求項1~3のいずれか1項に記載の方法であって、
前記生育不良マップ又は生育不良列マップ内の生育不良領域を識別するステップと、
前記識別された生育不良領域において作物を植え替えするための農業用設備の制御に使用可能な制御ファイルを出力するステップと、
を更に含む方法。
【請求項5】
請求項1~4のいずれか1項に記載の方法であって、
前記生育不良マップから前記圃場の複数のサブゾーンの生育不良百分率を判定するステップと、
前記判定された生育不良百分率を前記サブゾーンに割り当てるステップと、
前記サブゾーンの各々に対して前記生育不良百分率を示す生育不良百分率マップを生成するステップと、
を更に含む方法。
【請求項6】
請求項1~5のいずれか1項に記載の方法であって、
二値化又は人工知能による指標計算により作物マップを判定するステップと、
スケルトン化、ラインフィッティング、及び/又は作物の長さを推定する他の手段により前記作物マップを変更することにより作物の長さを判定するステップと、
前記圃場の複数のサブゾーンにおける前記生育不良マップから、及び前記圃場と同一区域の作物マップから前記生育不良百分率を判定するステップと、
前記判定された生育不良百分率を前記サブゾーンに割り当てるステップと、
前記サブゾーンの各々の前記生育不良百分率を示す生育不良百分率マップを生成するステップと、
を更に含む方法。
【請求項7】
請求項1~6のいずれか1項に記載の方法であって、
大津二値化を用いる緑過剰指標(ExG)計算により前記作物マップを判定するステップと、
スケルトン化、ラインフィッティング、及び/又は作物の長さを推定する他の手段により前記作物マップを変更することにより作物の長さを判定するステップと、
前記圃場の複数のサブゾーンにおける前記生育不良マップから、及び前記圃場と同一区域の作物マップから前記生育不良百分率を判定するステップと、
前記判定された生育不良百分率を前記サブゾーンに割り当てるステップと、
前記サブゾーンの各々の前記生育不良百分率を示す生育不良百分率マップを生成するステップと、
を更に含む方法。
【請求項8】
請求項1~7のいずれか1項に記載の方法であって、
前記サブゾーンが正方形であり、
前記正方形の辺の長さが、特に、10m以下であるため、ユーザーが生育不良箇所を指摘して必要な措置を決定できるようにする方法。
【請求項9】
請求項1~8のいずれか1項に記載の方法であって、
前記サブゾーンが正方形であり、前記正方形の辺の長さが、特に、10m、好適には5m、より好適には2mである方法。
【請求項10】
請求項1~9のいずれか1項に記載の方法であって、
初期注釈付き訓練データであって圃場のゾーンの空撮画像及び前記圃場内の生育不良に関連する注釈を含む初期訓練データを提供するステップと、
前記初期注釈付き訓練データを自動補正して前記注釈付き訓練データを生成するステップと、
を更に含む方法。
【請求項11】
生育不良マップを生成するシステムであって、
注釈付き訓練データ及び圃場データを提供する入力ユニットと、
請求項1~10のいずれか1項に記載の方法を実行すべく構成された計算ユニットと、
を含むシステム。
【請求項12】
請求項11に記載のシステムの計算ユニットにより実行されたならば、請求項1~10のいずれか1項に記載の方法を実行すべく構成されたコンピュータプログラム要素。
【請求項13】
請求項11に記載のシステムにおいて、請求項1~10のいずれか1項に記載の方法に従い計算ユニットを制御するデータを生成するコンピュータ可読媒体。
【請求項14】
多年生作物を含む圃場における生育不良領域を識別する生育不良マップの使用。
【請求項15】
前記識別された生育不良領域で作物が植え替えられる、請求項14に記載の使用。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はデジタル農業に関する。特に、本発明はサトウキビの生育不良検出の問題に関する。これらの生育不良は、連続的な作物列間の生育不良を示す隙間である。
【背景技術】
【0002】
昨今、農業における作物の生産性を最大化すべく、精密農業と呼ばれるカテゴリに分類される方法論が開発されつつある。その目的は生産ロスを減らして要因に関する知識を得るものである。
【0003】
圃場データを取得するツールの一つが無人航空機(UAV)である。これらのドローンにより撮影された写真を後で様々なユースケースについて解析されて精密農業を実現することができる。技術的なパイプライン全体が、農作業の効率性及び生産性の向上に貢献できる。生育不良はサトウキビの生産性を低下させる要因である。生育不良とは、同一作物列に沿って連続する2本のサトウキビ間の距離として定義される。
【0004】
生育不良を検出することは、それらの生育不良領域で、特に分げつ成長段階の頃に植え替えができるため農家にとって極めて有益である。圃場の面積が広大で、大多数の植え付けは手作業又は自動化された仕方で行われるため、圃場全体を動き回って生育不良を発見して植え替えるのは極めて困難である。自動化された生育不良検出により、必要とされる場所での植え替えの時間とリソースが節約される。
【0005】
一般に、生育不良は、古典的なコンピュータビジョン方法を用いて(主にライン検出アルゴリズムにいくつかのモルフォロジー演算を組み合わせて)検出されるが、これらはあまり正確ではなく、ユースケースでは全く機能しない。ある画像に適したパラメータが見つかったとしても、他の画像での成功が保証される訳ではなく、それらの設定は惨めに失敗する恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記に鑑み、本発明の目的は、圃場での生育不良領域を迅速、正確且つ高精度に識別できるようにするコンピュータ実装された方法を提供することである。本発明の目的はまた、圃場の扱い、特に生育不良領域における作物の植え替えに関して農家又はユーザーの迅速、リアルタイム、及び/又は効率的な意思決定を支援するコンピュータ実装された方法を提供することである。本発明の目的はまた、圃場における植え替えの労力及びリソースを最小化するコンピュータ実装された方法を提供することである。
【課題を解決するための手段】
【0007】
本発明の目的は、独立請求項の主題により解決され、更なる実施形態が従属請求項に組み込まれている。本発明の以下の記述する複数の態様及び例が本方法と共に、データ処理システム、コンピュータプログラム製品、及びコンピュータ可読記憶媒体にも適用できることに注意されたい。
【0008】
本発明は、予測精度がより高く、且つ大多数のユースケースで機能するため汎用性がある、サトウキビを自動検出する深層学習方法に関する。
【0009】
本発明の第1の態様によれば、本発明は生育不良マップを生成する方法に関し、本方法は、
圃場のゾーンの空撮画像及び圃場内における多年生作物の生育不良に関する注釈を含む注釈付き訓練データを提供するステップと、注釈付き訓練データを用いて人工知能を訓練するステップと、検査対象である圃場の少なくとも1個の空撮画像を含む圃場データを提供するステップと、圃場データに対して訓練された人工知能を適用して生育不良マップを生成するステップとを含む。
【0010】
本発明の関連で、生育不良マップは好適には、生育不良又は圃場内で生育不良が発生した区域を示す2次元マップである。
【0011】
本発明の好適な実施形態において、本方法は更に、生育不良マップをスケルトン化、ラインフィッティング、及び/又は生育不良の長さを推定する他の手段により変更することにより生育不良の長さを判定するステップを含む。
【0012】
本発明の更に好適な実施形態において、本方法は更に、生育不良マップをスケルトン化して生育不良の列を含む生育不良列マップを生成するステップを含む。
【0013】
生育不良は生育不良であると理解されたい。生育不良は、播種及び/又は植え付けた作物が出芽又は生育しなかった、通常は作物列内の空間又は場所であると理解されたい。
【0014】
本発明の更に好適な実施形態において、本方法は更に、生育不良マップ又は生育不良列マップ内の生育不良領域を識別するステップと、識別された生育不良領域において作物を植え替えするための農業用設備の制御に使用可能な制御ファイルを出力するステップとを含む。生育不良領域は好適には、生育不良マップ内の異なる標識又は識別子に基づいて自動的に識別される。本発明の関連で、「制御ファイル」という用語は、圃場で作物を植え替えできる農業用設備の制御に使用可能な任意のバイナリファイル、データ、信号、識別子、情報、又はアプリケーションマップである。本発明の更に好適な実施形態において、制御ファイルはアプリケーションマップである。農業用設備は好適には、プランター、植付機械、植付ロボット、又は圃場に作物を植え替え可能な(ドローン等の)無人車両又は無人航空機であってよい。
【0015】
本発明の更に好適な実施形態において、本方法は更に、
生育不良マップから圃場の複数のサブゾーンの生育不良百分率を判定するステップと、
判定された生育不良百分率をサブゾーンに割り当てるステップと、
サブゾーンの各々に対して生育不良百分率を示す生育不良百分率マップを生成するステップとを含む。
【0016】
本発明の更に好適な実施形態において、本方法は更に、
二値化又は人工知能による指標計算により作物マップを判定するステップと、
スケルトン化、ラインフィッティング、及び/又は作物の長さを推定する他の手段により作物マップを変更することにより作物の長さを判定するステップと、
圃場の複数のサブゾーンにおける生育不良マップから、
及び圃場と同一区域の作物マップから生育不良百分率を判定するステップと、
判定された生育不良百分率をサブゾーンに割り当てるステップと、
サブゾーンの各々の生育不良百分率を示す
生育不良百分率マップを生成するステップとを含む。
【0017】
より好適には、指標計算は、所与の画像から緑色のピクセルを識別すべく用いられる指標である緑過剰指標(ExG)を計算することにより行われる。より好適には、二値化は、大津展之にちなんで命名され、画像の自動二値化の実行に用いられる公知の方法である大津二値化で行われる。より好適には、「二値化による指標計算」は、大津二値化による緑過剰指標(ExG)の計算である。
【0018】
本発明の更に好適な実施形態において、サブゾーンは正方形であり、
これらの正方形の辺の長さは、特に10メートル以下であって、好適には
ユーザーが生育不良箇所を指摘して必要な措置を決定できるようにする。
【0019】
本発明の更に好適な実施形態において、サブゾーンは正方形であり、
これらの正方形の辺の長さは、特に10m、好適には5m、より好適には2mである。
【0020】
本発明の更に好適な実施形態において、本方法は更に、初期注釈付き訓練データであって圃場のゾーンの空撮画像及び圃場内の生育不良に関連する注釈を含む初期訓練データを提供するステップと、初期注釈付き訓練データを自動補正して注釈付き訓練データを生成するステップとを含む。
【0021】
本発明の第2の態様によれば、本発明は、生育不良マップを生成するシステムに関し、当該システムは、注釈付き訓練データを提供すると共に圃場データを提供する入力ユニットと、本発明による方法を実行すべく構成された計算ユニットを含む。
【0022】
本発明の第3の態様によれば、本発明は、本発明によるシステムの計算ユニットにより実行されたならば本発明による方法を実行すべく構成されているコンピュータプログラム要素に関する。
【0023】
本発明の第4の態様によれば、本発明は、本発明による方法に従い本発明によるシステム内の計算ユニットを制御するデータを生成するコンピュータ可読媒体に関する。
【0024】
本発明の第5の態様によれば、本発明は、多年生作物の圃場の生育不良領域を識別する生育不良マップの使用に関する。
【0025】
本発明による使用に関して、作物は好適には、識別された生育不良領域で植え替えられる。
【0026】
生育不良検出の問題は、サトウキビ以外の他の作物、すなわちトウモロコシ、コーヒー、柑橘類の作物にも拡張することができる。サトウキビ畑での生育不良の存在は、苗の品質、畝間に分布する茎、病害虫の存在、農薬散布の不適切な取り扱い、畑での機械の過度の往来、機械化された収穫による損傷や衝撃等、要するに数え切れない要因及び収穫毎に植物の樹勢が衰えることによる。
【0027】
ここでの問題は、連続した作物列の隙間を検出することであり、その長さが51cmを超えれば生育不良に相当する。圃場全体の画像から解像度480×480のパッチを抽出し、意味論的セグメンテーションネットワークを訓練して生育不良の可能性があればパッチを手作業でラベル付けする。
ここでは、適当な画像拡張の適用に加え、ラベル付けされた生育不良データで訓練されたEfficient-Net B1を根幹とする特徴ピラミッドネットワークを用いてセグメンテーションマップ、生育不良の全長、圃場の生育不良比率を予測する。
【0028】
圃場の画像はドローンに取り付けられたセンサーにより収集される。これらの画像は継ぎ合わされてサイズが大きいtif(Tagged Image Format)ファイルを出力し、そこから480×480の100パッチを抽出する。上述の画像を継ぎ合わせる解決策は、13ステップの処理であるマッパーの形式で容易に利用できる。周囲のものに対応するが作物ではない、いくつかのパッチはフィルタリングされて除外される。飛行には前提条件があり、一旦飛び立ったならば速度は高々8m/sでなければならず、それ以外は撮像には不安定である。最適な天候は曇りで、晴天はヴィネット効果が強くなって画質には都合が悪い。時間的には早朝及び夜遅くは避けるべきである。
【0029】
サトウキビには様々な成長段階がある。データセットには敵対的訓練用にあらゆる成長段階が混在しているが、その段階では農家が圃場の判定に最も関心を持っているため、予測を行う際に分げつ段階に注目する。
【0030】
データセットには約80超の圃場からの圃場データ(約4000画像)が含まれ、9:1の比率で訓練検証分割が行われる。リアルタイムのテストをシミュレートすべく全てが分げつ段階から得られた約60例を含む特定のテストセットも維持されている。
【0031】
圃場データは、サンパウロやゴイアス等、ブラジルの様々な地域から収集され、互いに大きくは異ならない。これらのデータは、オープンソースの画像注釈ツールを用いて注釈されて画像セグメンテーション及びエクスポート注釈用の訓練データを生成する。注釈は堅牢性を保証すべく農業専門家により徹底的にレビューされた。ここでは、51cm超のものだけでなく、あらゆる種類の生育不良が用いられていることを確認する必要がある。その理由は、作物列でのあらゆる隙間を検出する能力を組み込んでモデルを強化したいからである。これに続いて、51cm未満の生育不良をフここでの問題は、教師あり意味論的セグメンテーション問題に変換される。フィルタリング除去する後処理を行うことができる。
【0032】
本発明の好適な実施形態において、緑過剰指標(ExG)を用いて所与の画像から緑色のピクセルを識別する。これは以下のように定義される:ExG=2g-r-b、ここにRGB色空間におけるr、g、bは正規化された色:r=R/(R+G+B)、g=G/(R+G+B)、b=B/(R+G+B)であり、ここにR、G、Bは入力画像の色成分である。このような指標を用いて画像を非緑と緑ピクセルのバイモーダル画像に変換する。他の指標やモデルを用いることもできる。次いでこれに続いて例えば大津二値化等の二値化が行われて画像をセグメント化する。
【0033】
スケルトン化又はスケルトナイジングは、マスクをその長軸方向に収縮させて1次元表現に近いものを得られるような間引かれた表現に変換する処理である。これは、2Dマップを有していてその特性を調べたい場合の長さ測定等のアプリケーションに極めて便利である。この処理は、マスク全体にわたり連続的な反復を行い、各ループで、マスク内の特定の図形の連結性を壊さないように隣接するピクセルを削除する。これを出力結果が変化しなくなるまで行う。
【0034】
ラインフィッティングは、ブロック、範囲、又は一連のデータ点に最も良くフィットする直線を構築又は取得する処理である。
【0035】
人工ニューロンは、生物学的ニューロンを模倣した単位である。人工ニューロンは一般に全ての入力を組み合わせ、係数で重み付けし、活性化関数により合算した後で、接続された他のニューロンに出力を伝達する。
【0036】
ニューラルネットワークに存在する層には多くの種類があるが、ここでは主に二つの最も重要な層について説明する。密な層は、ある層の各ニューロンを、学習可能な重みにより次の層の各ニューロンに接続する。これらは大多数のニューラルネットワーク設計で頻繁に用いられているが一般に極めて計算量が多い。これらは初期の深層学習では極めて一般的であったが、より効率的な他のタスク専用層により代替された。畳み込みとは、入力に対してカーネルを適用し、カーネルの各要素と入力との要素毎の積を計算し、これらを合算して特徴マップを計算する演算である。これを繰り返して複数の特徴マップが得られ、各特徴マップは入力の特定の特性を学習する。畳み込み演算の最大の利点は重み共有及び並進不変性であり、これは学習可能なパラメータを減らすと共に入力のパターンをよりうまく発見するのに極めて有用である。
【0037】
活性化関数は一般に、ニューロンの出力に追加され、意思決定処理に非線形性を加えるため、入力を出力にモデル化する能力を向上させる。活性化関数には多くの種類があるが、最も普及しているのはシグモイド、Tanh、Relu、及びSoftmaxである。
【0038】
損失は、ニューラルネットワークが行った予測がどの程度正しいかを定量化する。これらは一般にタスク専用であり、予測が改良されるように損失からの勾配がネットワーク全体に逆伝播されて重みを再調整するために微分可能であることが要求される。損失は、確率的損失(分類に基づく問題)と回帰損失(回帰問題)の二つの主なクラスに分類される。適切な損失関数を選択することは、データ中の望ましいパターンを獲得するために極めて重要である。この極めて良い実例がフォーカル損失である。モデルがBCE損失を用いて訓練された場合、より高い信頼性で予測するという事実が拡張されるが、フォーカル損失はモデルにより高い自由度で予測させる。一般に、最大損失に対して最適化スキームを用いてネットワークのバランスを再調整して入出力ペアをより効率的にモデル化する。
【0039】
オプティマイザは、ニューラルネットワークのパラメータを微調整することによりネットワークの損失の最小化を試みるアルゴリズムである。勾配降下、ネステロフ加速勾配(NAG)、適応勾配(AdaGrad)、RMSprop、アダム及びニュートン法等、多くの普及しているオプティマイザがある。これらは二つの大まかなカテゴリ、すなわち1次及び2次オプティマイザに分けられる。1次オプティマイザは計算が簡単なため、2次オプティマイザよりも普及している。
【0040】
画像データ拡張は、データセット画像に変更を加えて新たな類似パターンを生成することにより手元にあるデータセットから新たな例を生成する方法であり、モデルにより多くの特徴を学習させて当該データセットにオーバーフィットしないようにするのに役立ち得る。これは適用される正則化の一形式である。これはデータセットのサンプル数が少ない場合に極めて有用になる。画像拡張は、データセットにバリエーション及び量の両方を追加する。反転、回転、拡大縮小、クロッピング、色空間シフト等の一般的な基本画像変換が古典的な画像処理技術を活用することにより実現できる。画像拡張パイプラインを構成する変換が適切に選択されたならば、モデルを極めて堅牢にすることができる。これらは一般に人間の専門家により選択されるが、昨今は訓練データの分布を学習することによりポリシを生成できる自動的な方法が普及している。
【0041】
敵対的生成ネットワーク(GAN)は生成器が識別器と競争するゲーム理論的な概念に基づいて構築されている。名称が示唆するように、生成器は偽物サンプルを生成し、識別器はそれが本物か否かを判別する。両方のネットワークは競合して良く学習し、識別器が本物と偽物を区別できなくなれば訓練が停止される。生成器は次いで、識別器を破棄した後で別個に用いることができる。生成器の生成能力は訓練データの分布に基づいている。生成器と識別器が訓練の過程で互いに競い合うことにより、自身の機能が累進的に向上する。生成器はGANの損失関数を最小化しようとするのに対し、識別器は最大化しようとする。GANの損失関数は、生成データと実データ分布の類似度をジェンセン-シャノン発散により定量化する。
【0042】
ジェンセン-シャノン発散の使用は二つの分布が不連続である場合は失敗するため、より滑らかなワッサーシュタイン距離を用いる。ワッサーシュタイン距離を用いるGANをワッサーシュタイン敵対的生成ネットワークと称する。識別器は0と1の間を出力しないが、偽物よりも本物の例の出力を大きくしようとする。このような識別器は、本物か偽物かを分類しないためクリティック(評論家)と呼ばれる。識別器はクリティック損失を最大化しようとし、生成器は生成器損失を最大化しようとする。一つの大きな問題は、上のK-リプシッツ連続性を維持することである。この解決策として勾配クリッピング(重みを[0.01,0.01]の間に挟み込む)が提案されているが、K-リプシッツ連続性を強制する、より柔軟な仕方は、損失に勾配ペナルティを加えることである。
【0043】
より高速な自動拡張は、画像拡張用の微分可能なポリシ探索パイプラインを提案し、探索空間を探索して拡張された画像の分布と原画像の分布との距離を最小化することにより拡張ポリシを発見し、従って処理全体を微分可能に保つものである。入力画像は、L個の異なるサブポリシ(l=1,2,...,L)を含むポリシにより拡張される。無作為に選択されたサブポリシが各画像Xを変換する。1個のサブポリシは、画像に1個ずつ適用されるK個の連続する画像処理演算Oを含む。連続する演算の個数Kを演算回数と称する。
【0044】
各サブポリシで用いられる演算には、シアー等のアフィン変換、ソラリゼーション等の色強調演算、カットアウト、サンプルペアリング等がある。いくつかの演算は関連付けられているが、全く関連付けられていないものもある。探索演算は、低温でベルヌーイ分布とほぼ等しくなる緩和ベルヌーイ分布を用いて最適化問題に変換される。
【0045】
原画像と拡張画像との間の分布最小化という目標は、ワッセルシュタインGANを用いてこれらの分布間のワッセルシュタイン距離を最小化することにより達成できる。ここでは、ニューラルネットワーク層を用いて画像の変換を学習する従来の生成器を用いるのではなく、ポリシが訓練され、所定の演算を用いて画像を変換し、分類器はクリティックとして機能する2層パーセプトロンとぶつかる。また、あるクラスの画像が別のクラスの画像に変換されるのを防止すべく分類損失が加えられる。
【0046】
意味論的セグメンテーションは、画像の各ピクセルを、当該画像が属するクラスにラベリングする問題として定義される。基本的な意味論的セグメンテーションは、同一クラスマップの異なるインスタンスを区別しない。主に自律走行及びライフサイエンスで多くの実用的な用途を見出すことができる。画像は、各画像に当該画像が属するカテゴリに対応する整数をラベル付けするセグメンテーションマップにマッピングされた3チャネルの行列(RGB画像)として記述することができる。意味論的セグメンテーション問題は、キャニーエッジ検出、流域、ヒストグラムに基づく方法等の古典的画像処理方法から、Unet、FPN、DeepLabV3、Linknet等の深層学習に基づく意味論的セグメンテーションモデルにわたる多くの方法により解決することができる。複雑なユースケースでは一般に統計的方法は破綻するが、充分な量のデータが存在すれば深層学習方法は良好に機能する。その単純な理由の一つは、画像の複数の部分をセグメンテーションする際に、往々にしてより複雑なアルゴリズムを必要とするクラスラベルを付与する必要があるピクセルの近傍領域のより複雑なヒューリスティックを必要とする場合が多いからである。
【0047】
特徴ピラミッドネットワーク(FPN)は、スケール不変性を実現すべく従来の古典的なコンピュータビジョン技術で極めて一般的に用いられる特徴画像ピラミッドに触発されている。これはスケール不変性を誘導し、各々の異なるスケールは異なる程度の意味論的情報を有している。一般に、畳み込みニューラルネットワークは、全てのスケールで重要な意味性を有する特徴ピラミッドを生成しながら特徴階層を作成するが、異なる層に意味論的隙間があり、これらの異なる層は意味論的情報を共有することができない。従って、特徴ピラミッドネットワークは画像を入力として、完全畳み込みにより複数のスケールで特徴マップを出力する。任意のバックボーンを用いてもよく、従ってこれは、物体検出、領域提案ネットワーク、意味論的及びインスタンスセグメンテーション等のタスクに使用できる特徴ピラミッドを構築する汎用的なソリューションとして機能する。特徴ピラミッドネットワークは、ボトムアップ経路、トップダウン経路、及び横方向接続を用いて強い意味論的情報を弱いものと組み合わせながら全てのレベルで独立した予測を行って異なるスケールからの情報を組み合わせる。ボトムアップ経路は、複数のスケールで特徴マップを含む特徴階層を計算する基幹ネットワークの前方計算である。上に行くほど解像度が低下し、更に高いレベルに行けばより高いレベルの構造が検出される。トップダウン経路を用いて、意味論的に豊富な層から解像度が高い層を構築する。再構築された層は意味論的に強いが、全てのダウンサンプリング及びアップサンプリングの後では正確ではない。再構成された層と、対応する特徴マップとの間に横方向接続が追加されてこれらをより正確にするのを支援し、スキップ接続的にも機能することで訓練をより効率的にする。トップダウンの経路を下る間、最近隣アップサンプリング等の補間を用いることにより、前の層がアップサンプリングされる。最終的なセグメンテーションマップを生成するために、特徴ピラミッドネットワークピラミッドの全てのレベルからの情報が単一の出力にマージされる。
【0048】
EfficientNetは次世代の畳み込みニューラルネットワークのファミリーである。EfficientNetの主たる概念は、深さ(層数)、幅(チャネル数)、画像解像度(入力画像サイズ)の次元をバランスよくスケールアップすることにより全体として最高の性能が得られるであろうというものである。上の設計決定の背後にある意図は、より深いネットワークは良好に一般化できるが消失勾配の問題に起因して訓練が困難であり、より広いネットワークはより高い粒度の特徴を獲得でき、且つ訓練が容易である傾向を示し、ネットワークは解像度がより高い入力画像でより微細なパターンを発見できるため、このような要因の全てについて完璧にバランスを取って最高の性能を実現することが目標となる。このためにEfficientNetは複合スケーリングを用いる。複合スケーリング技術の最初の段階は、発見的探索を実行して、限られたリソース予算内で作業しながら、ベースネットワークの様々な態様間の関係を判定することである。次いで、それらの関係を用いてベースネットワークをスケールアップする。最初に、強化学習を用いてコンパクトなモデルを生成する自動化されたモバイルニューラルアーキテクチャ探索によりベースネットワークを発見する。ニューラルアーキテクチャ探索は、ニューラルネットワークの設計処理を自動化する技術である。ニューラルアーキテクチャ探索は、適切に実行されたならば、以前行われていたように一連の意図に支援されてニューラルネットワークを設計する方式と比較してはるかに優れた選択肢である。このような自動探索方法は徐々に普及しつつある。探索により得られたベースモデルは次いで制御された仕方でス円滑にスケールアップされてEfficientNetが得られる。一般に、EfficientNetモデルは、既存の代替策と比較してパラメータ比で最高の精度を実現すると共に、浮動小数点演算の回数を大幅に削減して有効なソリューションを提供する。
【0049】
差分学習率とは、モデルの異なる部分に対して異なる学習率を用いることを意味する。特に転移学習を利用する際のコンピュータビジョンモデルのケースにおける一般的な方式は、一般的な特徴を学習する第1層を遅い学習率で訓練することにより重みが急激に変化しないようにし、モデルの後半部分をより高い学習率で訓練する。これはモデル全体に同一学習率を用いるのとは対照的で、転移学習層を固定することは、特に手元の画像ドメインが、大多数の転移学習モデルが訓練されるImageNetとは異なる場合に、より良好に機能する。この方法の背後にある意図は、第1層が、通常は大幅に変更したくない線及びエッジ等のデータの極めて基本的な詳細内容を含むことである。対照的に、データの詳細な特徴が得られる後段の層では、重みをより速く変化させることにより速く学習したいと望むであろう。
【0050】
AdamWは単に、Adamの既存の実装を大多数の深層学習ライブラリに存在するL2正則化を用いて修正したものに過ぎない。以下のモメンタムのSGDの場合は基本的に古典的なL2である。
moveavg=α*movingavg+(1-α)*(w.grad+wd*w)w=w-lr*movingavg、
一方、重みの減衰は以下のようになる、
moveavg=α*movingavg+(1-α)*w.grad
w=w-lr*movingavg-lr*wd*w.
平均的に、アダムと共に重み減衰を適切に使うことで実験で示すように大多数が良好に一般化される良い訓練ルーティンが得られる。
【0051】
学習率スケジュールは、何らかの条件に基づいて学習が進むにつれて学習率を動的に変化させるスケジュールを作成する。コサインアニーリング学習率スケジューラもこのようなスケジューラの一つである。コサインアニーリングウォームリスタート学習スケジューラは、コサインアニーリングとウォームリスタートの2個の部分を含む。コサインアニーリングとは、学習率アニーリング法として余弦関数を用いることを指し、線形アニーリングよりも性能が良いことが示されている。ウォームリスタートとは、学習率が、後に減衰させる簡単な単語が増加させて再スタートされることを意味する。ウォームリスタートに用いる戦略は高さ降下する三角形である。この種の学習率スケジューリングは損失表面をうまく探索するのに有用であり、跳ね回って徐々に安定化するため局所的医最小にはまり込むのを防げる。従って、近似的に大域最小値で終わる確率が高くなる。一般に、一定の学習率スケジュールよりも良い結果が得られることが実験的に示されており、その例が数多くある。
【0052】
エポック数が多過ぎると往々にしてオーバーフィッティングが生じる一方、逆はアンダーフィッティングにつながり得るため、ニューラルネットワーク用のエポック数の選択は常に難しい。従って早期停止は、初期化中は多数のエポックを設定し、次いで訓練中は特定の個数のエポックを待った後で検証損失が減少しなくなった時点で随時学習を停止するのに役立つ技術である。これは一般的な技術であり、多くの研究及びアプリケーションのユースケースで往々にして見られる。
【0053】
チェックポインティングは、モデルの訓練中にシステムに何らかの問題が生じたならばチェックポイントから訓練を再開する処理である。モデルのチェックポインティングは、各エポックの後で設定された検証で良い性能を発揮するモデルの保存にも使用できる。一般に、性能が最も良いモデルの重みは訓練全体を通じて保存され、後で推論のためにロードすることができる。一般に、モデルチェックポインティングは、特定のメトリックを監視して各エポック後に、当該メトリックに関して最小又は最大のいずれにせよ、どのモデルが最適な性能を発揮したかをチェックする。主な性能メトリック又は検証損失さえも監視することもできる。異なる戦略をチェックポインティングに用いることができる。メトリックが改善された都度モデルをチェックポイントにするか、又は最適なモデルだけをチェックポイントにするかのいずれかである。これはエポックの終了時点で実行されるコールバック関数として用いられる。
【0054】
確率的重み平均化(SWA)は二つのステップを含む。SWAの最初の要素は、任意のオプティマイザが損失領域を自在に探索できるためのカスタム学習率スケジュールである。従ってこれは訓練時間の最初の75%まで用いられる。第2の要素は、学習率を訓練時間の残り25パーセントの一定値に設定することを含む。次いでオプティマイザが辿ったネットワークの重みの平均が取られる。完全な訓練の後で、ネットワークの重みを計算された平均値に設定する。この技巧をネットワークを訓練する間に用いるの良い主な理由は、平坦な損失領域では、更に移動する信号が多くないため通常のオプティマイザは境界周辺で収束するからである。一方、SWAの場合は平坦な領域でも、そのような平坦な表面の中心に到達した結果を平均化するよりも、何らかの動きが起こる。このような結果は、訓練とテストの誤差表面間のシフトの影響を境界上ほどには受けないため、より良く一般化できる傾向がある。
【0055】
テスト時拡張はテスト画像に無作為な変更を加える。従って、訓練済みモデルにはクリーンなプレーン画像を一度だけ見せるのではなく、拡張された画像を数回見せる。次いで、対応する各画像の予測値に平均等の集計関数を適用し、次いで最終結果を出力する。アルゴリズムは以下の通りである。画像のバッチを入力;拡張(反転、回転、スケール等)を適用;拡張されたバッチをモデルに通す;マスク/ラベルの各バッチを逆変換;予測値(平均、最大、g平均等)をマージ;マスク/ラベルのバッチを出力。最適な集約関数は温度に敏感であり、拡張戦略は計算量が多いため、反転及び回転等の平易なものが良好に機能する。
【0056】
和集合の共通部分は、物体検出及び画像セグメンテーションシステムの評価に用いられるメトリックである。これはジャッカード係数の発想を借用しており、以下のように定義される。
IoU=(重なりの面積)/(和集合の面積)
これは極めて一般な評価メトリックであり、2個の囲み枠又はマスク同士の重なりの程度を簡単に測定する研究及び実用的なアプリケーションでよく用いられる。
【0057】
ダイス損失は、2個のサンプル間の類似性を見つけるために用いられたソーレンセンダイス係数に由来する。一般に、ピクセルの大部分が望ましいグランドトゥルースオブジェクトに含まれていないことが分かるため、ダイス損失は交差エントロピーよりも好まれる。交差エントロピー損失を使用した場合、アルゴリズムはピクセルの大部分がグランドトゥルースでなくてもそうであると予測しながら依然として生じる誤差が低い場合がある。しかし、ダイス損失のケースでモデルが全てのピクセルが背景である予測した場合、共通部分は0となって誤差が大きくなる恐れがある。ダイス損失はダイス係数を最大化可能にするダイス係数の一つである。
【0058】
以下は、各概念ブロックが順次進行する時間的順序を示すワークフローである。全ての構成ブロックは互いに独立しているが、前段階の出力に直接依存している。更に、このパイプラインは、データ使用から農家による使用にわたる、圃場のモニタリングに使用できる生育不良マップという形式での完全な問題解決パッケージを形成する。入力された圃場画像から得られたパッチに対して注釈が付けられる。次いで、自動画像拡張技術である自動拡張を用いて深層学習モデル用のデータをより多く生成する。生育不良領域に対応する生育不良マスクを予測すべく学習する意味論的セグメンテーションコンピュータビジョンアーキテクチャである深層学習モデルによりデータが消費される。これらのマスクは次いで間引かれて不良百分率の計算に用いられる。これらのブロックは全て最終的に集計されて圃場内の5×5mのパッチの生育不良百分率が計算される。これらの5×5mは最終的に組み合わされて生育不良マップを表す。
【0059】
拡張はデータサイエンスパイプラインの重要な態様であるが、拡張された画像が真のデータに類似していることを保証すべく拡張として選択すべき処理を見つけるのは極めて困難である。拡張の探索は一般に重いリソースを必要とするため、タスクに適したパラメータを用いる際に極めて巧みでなければならない。ここでは、以下のように選択対象であるいくつかのパラメータを示し、他のパラメータは既定値のままとする。
【0060】
サブポリシの個数:別々の拡張サブポリシの個数である。各ループで無作為サブポリシが選択されて入力データに適用される。ここで用いるサブポリシの個数は、適切に調節できる充分な拡張が得られることが分かったため20個である。
【0061】
チャンクの個数:全てのデータバッチはチャンクに分割され、次いで無作為サブポリシが各チャンクに適用される。リソースの制約のためここでは4個用いた。
【0062】
演算回数:各入力データインスタンスに順次適用される拡張演算の回数である。4は各入力に4回演算が連続的に適用されることを意味する。充分な多様性が得られ、且つ適度な時間で学習できるためここでは4回とする。
【0063】
ネットワーク及びエポック:セグメンテーションネットワークに対して、EfficientNetB0バックボーンによりFPNを20エポックにわたり訓練する。これらの設計決定の理由は当該ネットワークが高速に訓練して優れたポリシを学習するからである。
【0064】
以下において、設計決定についてアルゴリズムと共に説明する。ここでのモデルの選択は特徴ピラミッドネットワークであるが、その主な理由は適度なパラメータ数でより簡単且つ効率的に訓練可能だからである。バックボーンとして、全てのモデルの中でパラメータ当たり精度が最も良く、且つ転移学習能力も既に実証済みであるためEfficient Netを用いる。ここでは経済的に問題を解決するのに充分であると思われるためEfficientNetのB1、B2、B3バージョンを用いて実験を行う。最適化には、AdamWとコサインアニーリング学習率スケジュールを用いる。これらの方法は、より良い一般化のために極めて自然な正則化を行い、且つ大域的最小値で終了する確率がより高いことが保証されるため、実用的なアプリケーションで最適に機能する。更に、テスト損失曲面に雑音が極めて多い恐れがあるため、これらの方法が実世界のデータ状況において最適に機能すると思われる。損失については、一般に交差エントロピー又はダイス損失の二つの選択肢しかない。予備実験の後で、ダイス損失が手元の問題に対して極めて良好に機能することが分かった。データ拡張ポリシについては、ここでゲームチェンジャーとしての役割を果たした上述のようなポリシを用いる。この学習済みの拡張ポリシは、モデルがより良好に学習し、且つ大多数のパターンがうまく捕捉されていることを保証するのに役立つほぼ現実世界のシミュレーションを提供した。訓練期間全体を通して最も性能の良いモデルを検証データ内に保存するモデルチェックポインティングもここではコールバックとして使用する。これにより、たとえ訓練期間全体を通してモデルがオーバーフィットしても最終的には最も性能の良いモデルを得ることが保証される。50エポック毎に学習率を10ずつ下げていくことにより訓練後半でモデルがゆっくりと収束するようにして起こり得る大域的最小をオーバーシュートしないようにした多くの実験の後で150エポックまでの訓練は最終的に良い結果が得られることが分かった。また、事前訓練された画像ネットの重みに由来するエンコーダの転移学習能力を利用したかったため、エンコーダをデコーダより遅い学習率で訓練した。これも最適な訓練は必須であり、学習が安定したままであることを保証した。50エポックの後で、確率的重み平均化を有効にしたが、ここでの意図は、訓練の後半で重みを平均化することにより損失極小領域につかまるのを防ぎ、損失表面の近隣領域を若干多く探索する良い動きを誘導できるようにすることは良い考えであろうというものである。ここでの確率的重み平均化はある意味で訓練プロセスを要約している。100~150エポックの間でも、可能ならばオーバーフィッティングを少しでも回避できるように早期停止を可能にする。
【0065】
データ拡張はまた、テストデータ内の各画像の複数の異なるバージョンの予測を行うべく、予測を行っている間に適用することもできる。拡張された画像の予測は、平均化又は調和平均、或いは何らかの集約関数を用いてマージすることができるため、より良好な結果が得られる可能性がある。テスト集合もまた、画像の水平方向反転により拡張される。原画像と反転画像のソフトマックスクラス後置の平均を求めて画像の最終スコアを取得する。ここでTTAch(PyTorchによる画像テスト時間拡張!)を用いて同じ目的を果たしている。ここで用いる拡張ポリシはかなり簡素であるが、より多くの時間を要するが同じ性能しか得られない他の複雑なものに比べて最適に機能し、且つテスト画像の多過ぎるバージョンを予測するモデルに負担をかけない。
【0066】
以下は、圃場全体の生育不良がどの程度悪いかを知らせる最終的なメトリックを与える最終的な生育不良百分率計算アルゴリズムである。作物マスクとしてコンピュータビジョン方法が用いられ、ポリゴンマップの予測に深層学習モデルが用いられた。作物マスク及び生育不良マスクを用いて生育不良百分率を計算した。生育不良百分率はマスクの面積又は長さの比率として計算できる。
【0067】
本発明の好適な実施形態において、ExG指標に基づく方法及び本出願の深層学習モデルを用いて本出願の方法から、スケルトン化された出力のピクセル数を単に数えるだけで長さの計算を簡素化できるスケルトン化等のモルフォロジー演算を用いて後で間引かれるポリゴンマップを予測する。本アルゴリズムは以下を含む。ExG二値化を用いて作物マスクを作成し、作物マスクのノイズを修正する。作物マップに対してスケルトン化演算を実行する。出力マップに対してスケルトン化演算を実行する。領域特性を用いて長さが51cm未満の生育不良をフィルタリング除去して生育不良マスクを作成する。次式を介してテスト画像の生育不良百分率を収集する。
生育不良百分率=(生育不良マスク内のピクセル数)/(生育不良マスク内のピクセル数+作物マスクのピクセル数)。
【0068】
最終出力は、各格子が定義された領域を表し、色その他の区別手段により当該領域に存在する生育不良の量をパーセンテージで示唆するマップである生育不良マップである。これは、圃場のどの地域を多く監視する必要があるか農家が判断するのに有用な出力である。生育不良マップが計算される領域は圃場境界と呼ばれ、一般に圃場全体の大きさよりも小さい(この場合は生育不良マップを示す四角形)。
【0069】
以下の実施形態1~9も本発明の好適な実施形態である。
実施形態1:
生育不良マップを生成する方法であって、当該方法は、
圃場のゾーンの空撮画像及び圃場内における多年生作物の生育不良に関する注釈を含む注釈付き訓練データを提供するステップと、注釈付き訓練データを用いて人工知能を訓練するステップと、検査対象である圃場の少なくとも1個の空撮画像を含む(テスト)圃場データを提供するステップと、(テスト)圃場データに対して訓練された人工知能を適用して初期生育不良マップを生成するステップと、初期生育不良マップをスケルトン化して生育不良の列を含む生育不良列マップ生成するステップとを含む。
実施形態2:
実施形態1による方法であって、本方法は更に、
生育不良マップから圃場の複数のサブゾーンの生育不良百分率を判定するステップと、判定された生育不良百分率をサブゾーンに割り当てるステップと、サブゾーンの各々に対して生育不良百分率を示す生育不良百分率マップを生成するステップとを含む。
実施形態3:
実施形態1又は2のいずれかによる方法であって、サブゾーンが正方形であり、正方形の辺の長さが、特に、10m、好適には5m、より好適には2mである。
実施形態4:
実施形態1、2又は3のいずれかによる方法であって、当該方法は更に、
初期注釈付き訓練データであって圃場のゾーンの空撮画像及び圃場内の生育不良に関連する注釈を含む初期訓練データを提供するステップと、初期注釈付き訓練データを自動補正して注釈付き訓練データを生成するステップとを含む。
実施形態5:
生育不良マップを生成するシステムであって、当該システムは、
注釈付き訓練データ及び(テスト)圃場データを提供する入力ユニットと、
実施形態1~4のいずれかによる方法を実行すべく構成された計算ユニットを含む。
実施形態6:
実施形態5によるシステムの計算ユニットにより実行されたならば、実施形態1~4のいずれかによる方法を実行すべく構成されたコンピュータプログラム要素。
実施形態7:
実施形態5によるシステムにおいて、実施形態1~4のいずれかによる方法に従い計算ユニットを制御するデータを生成するコンピュータ可読媒体。
実施形態8:
多年生作物を含む圃場における生育不良領域を識別する生育不良マップ
の使用。
実施形態9:
実施形態8による使用において、識別された生育不良領域で作物が植え替えられる。
【0070】
本発明のこれら及び他の態様は、以下の説明において例として記載される実施形態を参照し、添付図面を参照することにより明らかになり、更に解明されるであろう。
【図面の簡単な説明】
【0071】
【
図2】テストルーチンからの一例を示す(左側:画像、中央:グランドトゥルースマスク、右側:予測マスク)。
【
図3】出力マップ(a)黒:グランドトゥルース、(b)黄色:予測)を示す。
【発明を実施するための形態】
【0072】
これらの図面は純粋に模式的であって定縮尺で描かれたものではないことに注意されたい。これらの図面において、既に記述した要素に対応する要素には同一の参照番号が付与されている場合がある。複数の例、実施形態又は任意の特徴は、非限定的として示されているか否かに依らず、請求項に記載された本発明を限定するものと理解すべきではない。
【国際調査報告】