IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人静岡大学の特許一覧 ▶ 静岡県の特許一覧

特開2023-35089リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム
<>
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図1
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図2
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図3
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図4
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図5
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図6
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図7
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図8
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図9
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図10
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図11
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図12
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図13
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図14
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図15
  • 特開-リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023035089
(43)【公開日】2023-03-13
(54)【発明の名称】リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230306BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021141700
(22)【出願日】2021-08-31
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和3年6月15日 https://tsys.jp/dicomo/2021/program/program_abst.html#4H-4にて公開 令和3年6月23日 https://tsys.jp/dicomo/cgi/online_archive.cgiにて公開 令和3年7月1日 マルチメディア、分散、協調とモバイル(DICOMO2021)シンポジウムにて公開
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和3年度、国立研究開発法人科学技術振興機構、創発的研究支援事業「マルチモーダルフェノタイピングによる適応型情報協働栽培手法の確立」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
(71)【出願人】
【識別番号】590002389
【氏名又は名称】静岡県
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】峰野 博史
(72)【発明者】
【氏名】藤浪 一輝
(72)【発明者】
【氏名】大石 直記
(72)【発明者】
【氏名】二俣 翔
(57)【要約】
【課題】本発明は、新たな偏りを発生させず、全体的な不均衡性を解消するリサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラムを提供することを目的とする。
【解決手段】リサンプリング装置は、目的変数及び説明変数を含み、データ量に不均衡性を有する学習データからクラスタリングデータ、及びリサンプリングデータを生成し、クラスタリングデータに含まれる目的変数及び説明変数に対して、データが含まれる範囲を統一する正規化、及び重み付けを行う。当該クラスタリングデータをクラスタリングして、希少度を算出し、算出した希少度を用いて、リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングを実行し、リサンプリング結果を用いて、訓練データを出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得する取得部と、
前記学習データからクラスタリングデータ、及びリサンプリングデータを生成する生成部と、
前記クラスタリングデータに含まれる前記目的変数及び前記説明変数に対して、データが含まれる範囲を統一する正規化を行う正規化部と、
正規化された前記クラスタリングデータにおける前記目的変数に対して、重み付けを行う重み付け部と、
重み付けされた前記クラスタリングデータをクラスタリングして、希少度を算出するクラスタリング部と、
算出した希少度を用いて、前記リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングするリサンプリング部と、
リサンプリング結果を用いて、データ量を均一にした訓練データを出力する出力部と、
を備えたリサンプリング装置。
【請求項2】
前記学習データは、前記目的変数として栽培における植物生理に関する栽培データ、及び前記説明変数として植物の栽培環境に関する環境データを含む請求項1に記載のリサンプリング装置。
【請求項3】
前記栽培データは、光合成速度、及び蒸発散速度の少なくとも一方を含み、
前記環境データは、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を含む、
請求項2に記載のリサンプリング装置。
【請求項4】
前記リサンプリング部は、前記クラスタリングデータにおける希少度の統計値を算出し、クラスタリングされたクラスタに係る希少度が、前記統計値に対応するまで繰り返しリサンプリングを実行する請求項1から請求項3の何れか1項に記載のリサンプリング装置。
【請求項5】
前記統計値は、前記クラスタに係るデータ量の平均値、又は中央値である請求項4に記載のリサンプリング装置。
【請求項6】
前記リサンプリング部は、クラスタリングしたクラスタに含まれるデータを選択し、前記選択されたデータと、前記選択されたデータに最も近接したデータと、を用いて、新たなデータを生成する請求項1から請求項5の何れか1項に記載のリサンプリング装置。
【請求項7】
前記学習データは、連続した期間毎に分割された時系列データである請求項1から請求項6の何れか1項に記載のリサンプリング装置。
【請求項8】
請求項1から請求項7の何れか1項に記載のリサンプリング装置と、
植物の栽培に関する学習データであって、前記リサンプリング装置によって出力された前記学習データを用いて植物の成長度合を評価するための機械学習を行った学習済みモデルを用いて、入力された環境データに対する植物の成長度合を評価する評価装置と、
を備えた情報処理システム。
【請求項9】
目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得するステップと、
前記学習データからクラスタリングデータ、及びリサンプリングデータを生成するステップと、
前記クラスタリングデータに含まれる前記目的変数及び前記説明変数に対して、データが含まれる範囲を統一する正規化を行うステップと、
正規化された前記クラスタリングデータにおける前記目的変数に対して、重み付けを行うステップと、
重み付けされた前記クラスタリングデータをクラスタリングして、希少度を算出するステップと、
算出した希少度を用いて、前記リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングするステップと、
リサンプリング結果を用いて、データ量を均一にした訓練データを出力するステップと、
を実行するリサンプリング方法。
【請求項10】
コンピュータに、
目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得し、
前記学習データからクラスタリングデータ、及びリサンプリングデータを生成し、
前記クラスタリングデータに含まれる前記目的変数及び前記説明変数に対して、データが含まれる範囲を統一する正規化を行い、
正規化された前記クラスタリングデータにおける前記目的変数に対して、重み付けを行い、
重み付けされた前記クラスタリングデータをクラスタリングして、希少度を算出し、
算出した希少度を用いて、前記リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングし、
リサンプリング結果を用いて、データ量を均一にした訓練データを出力する、
ことを実行させるためのリサンプリングプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラムに関する。
【背景技術】
【0002】
近年、機械学習を行った学習モデルを適用した農業が行われている。例えば、苺栽培では、比較的容易に収集可能な環境データを用いて、苺栽培にとって重要となる光合成速度、及び蒸発散速度を学習モデルを適用して推定し、熟練した農業者の勘及び経験に頼ることのない苺栽培の実現が注目されている。そのため、多数のデータを収集し、学習モデルに学習させる必要がある。
【0003】
しかしながら、季節、天候、温度、及び二酸化炭素濃度等の環境データにおけるデータ量は均一にならず不均衡となることが多い。機械学習において、頻出頻度が少ない希少なデータほど推定結果に大きな影響を与えることがあるが、不均衡なデータを用いると、希少なデータの寄与度が下がり適切な推定処理が行えないことがある。
【0004】
すなわち、機械学習は、与えられたデータから網羅的に学習を行うため、不均衡なデータを用いて学習を行う場合では局所的な学習となり、過学習、及び学習不足による推定の精度が低下する可能性がある。そのため、データにおける不均衡を是正する技術が提案されている。(例えば、特許文献1から特許文献3)
【0005】
例えば、引用文献1では、学習データを用いて分類器を構築する際に、一方のクラスに属する学習データの個数が他方のクラスの個数よりも極端に少ない場合でも、過不足なく学習データをサンプリングし、分類できる分類器を構築する技術について開示されている。
【0006】
また、引用文献2では、異常が発生した時の異常データを目的変数とし、機器のログデータを説明変数としてクラスタ処理を行い、対象のログデータを適用して、異常の発生確率を算出する技術について開示されている。
【0007】
また、引用文献3では、説明変数と目的変数を含むデータを用いて予測関数を作成する技術であって、説明変数の欠損パターンに応じて重みを設定し、当該重みに応じて説明変数を決定して、予測関数を作成する技術について開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2013-161298号公報
【特許文献2】特開2017-102716号公報
【特許文献3】国際公開番号WO2014/199920号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述した技術のように、データのリサンプリングによって、不均衡を是正する技術は、クラス分類処理に適用されることが多い。クラス分類処理に適用されたリサンプリングは、学習データに含まれる各クラスのデータ数を調整することで完了する。一方、回帰処理に適用されたリサンプリングにおいては、連続値が推定対象となるため、データに対して希少度及び閾値を設定し、希少性の高い範囲と低い範囲に分割し、データ数を調整する範囲を決定する必要がある。
【0010】
回帰処理に適用されたリサンプリング処理において、そのデータの専門知識に基づき希少度及び閾値の設定を行うことが理想とされるが、高度な知識を必要とし、困難であることから、目的変数の分布から希少度を算出し、適当な閾値を選択する手法が用いられる。
【0011】
しかしながら、目的変数は説明変数と必ずしも一対一対応しておらず、目的変数のみに基づく希少度の算出方法では、リサンプリング後のデータの説明変数に新たな偏りが発生する場合があった。また、単一の閾値による分割では、分割数が少なく、リサンプリング後のデータの目的変数の分布に山が追加され、新たな偏りが発生する。すなわち、従来の技術では、リサンプリング処理によって新たな偏りが発生してしまい、適切なリサンプリングが行えるとは限らなかった。
【0012】
本発明は、新たな偏りを発生させず、全体的な不均衡性を解消するリサンプリングを行うことができるリサンプリング装置、情報処理システム、リサンプリング方法、及びリサンプリングプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
第1の態様のリサンプリング装置は、目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得する取得部と、学習データからクラスタリングデータ、及びリサンプリングデータを生成する生成部と、クラスタリングデータに含まれる目的変数及び説明変数に対して、データが含まれる範囲を統一する正規化を行う正規化部と、正規化されたクラスタリングデータにおける目的変数に対して、重み付けを行う重み付け部と、重み付けされたクラスタリングデータをクラスタリングして、希少度を算出するクラスタリング部と、算出した希少度を用いて、リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングするリサンプリング部と、リサンプリング結果を用いて、訓練データを出力する出力部と、を備えている。
【0014】
第2の態様のリサンプリング装置は、第1の態様に係るリサンプリング装置において、データが、目的変数として栽培における植物生理に関する栽培データ、及び説明変数として植物の栽培環境に関する環境データを含む。
【0015】
第3の態様のリサンプリング装置は、第2の態様に係るリサンプリング装置において、栽培データは、光合成速度、及び蒸発散速度の少なくとも一方を含み、環境データは、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を含む。
【0016】
第4の態様のリサンプリング装置は、第1の態様から第3の態様の何れか1つの態様に係るリサンプリング装置において、リサンプリング部は、クラスタリングデータにおける希少度の統計値を算出し、クラスタリングされたクラスタに係る希少度が統計値に対応するまで、繰り返しリサンプリングを実行する。
【0017】
第5の態様のリサンプリング装置は、第4の態様に係るリサンプリング装置において、統計値は、クラスタに係るデータ量の平均値、又は中央値である。
【0018】
第6の態様のリサンプリング装置は、第1の態様から第5の態様の何れか1つの態様に係るリサンプリング装置において、リサンプリング部は、クラスタリングしたクラスタに含まれるデータを選択し、選択されたデータと、選択されたデータに最も近接したデータと、を用いて、新たなデータを生成する。
【0019】
第7の態様のリサンプリング装置は、第1の態様から第6の態様の何れか1つの態様に係るリサンプリング装置において、学習データは、連続した期間毎に分割された時系列データである。
【0020】
第8の態様の情報装置は、第1の態様から第7の態様の何れか1つの態様に係るリサンプリング装置と、植物の栽培に関する訓練データであって、リサンプリング装置によって出力された訓練データを用いて植物の成長度合を評価するための機械学習を行った学習済みモデルを用いて、入力された環境データに対する植物の成長度合を評価する評価装置と、を備えている。
【0021】
第9の態様のリサンプリング方法は、目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得するステップと、学習データからクラスタリングデータ、及びリサンプリングデータを生成するステップと、クラスタリングデータに含まれる目的変数及び説明変数に対して、データが含まれる範囲を統一する正規化を行うステップと、正規化されたクラスタリングデータにおける目的変数に対して、重み付けを行うステップと、重み付けされたクラスタリングデータをクラスタリングして、希少度を算出するステップと、算出した希少度を用いて、リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングするステップと、リサンプリング結果を用いて、訓練データを出力するステップと、を実行する。
【0022】
第10の態様のリサンプリングプログラムは、コンピュータに、目的変数及び説明変数を含み、データ量に不均衡性を有する学習データを取得し、学習データからクラスタリングデータ、及びリサンプリングデータを生成し、クラスタリングデータに含まれる目的変数及び説明変数に対して、データが含まれる範囲を統一する正規化を行い、正規化されたクラスタリングデータにおける目的変数に対して、重み付けを行い、重み付けされたクラスタリングデータをクラスタリングして、希少度を算出し、算出した希少度を用いて、リサンプリングデータに対して、アンダーサンプリング、及びオーバーサンプリングの少なくとも一方を実行してリサンプリングし、リサンプリング結果を用いて、訓練データを出力する、ことを実行させるためのリサンプリングプログラム。
【発明の効果】
【0023】
本開示の技術によれば、リサンプリング処理による新たなデータの偏りを防ぎ、適切なリサンプリングを行うことができる、という効果を有する。
【図面の簡単な説明】
【0024】
図1】本実施形態に係る情報処理システムの構成の一例を示すブロック図である。
図2】本実施形態に係るリサンプリング装置、及び評価装置のハードウェア構成の一例を示すブロック図である。
図3】本実施形態に係るリサンプリング装置の機能構成の一例を示すブロック図である。
図4】本実施形態に係る評価装置の機能構成の一例を示すブロック図である。
図5】本実施形態に係るリサンプリング処理、及び評価処理の流れの一例を示すデータフロー図である。
図6】本実施形態に係る正規化及び重み付けの説明に供するクラスタリングの一例を示すグラフである。
図7】本実施形態に係るクラスタリングされたクラスタリングデータの一例を示すグラフである。
図8】本実施形態に係るアンダーサンプリングの一例を示すグラフである。
図9】本実施形態に係るオーバーサンプリングの一例を示すグラフである。
図10】本実施形態に係るクラスタリングされたリサンプリングデータの一例を示すグラフである。
図11】本実施形態に係るリサンプリング処理の一例を示すフローチャートである。
図12】本実施形態に係るアンダーサンプリング処理の一例を示すフローチャートである。
図13】本実施形態に係るオーバーサンプリング処理の一例を示すフローチャートである。
図14】本実施形態に係る評価処理の一例を示すフローチャートである。
図15】本実施形態に係る光合成速度及び蒸発散速度における収集した実測値の確率密度、及び希少度の一例を示すグラフである。
図16】本実施形態に係る光合成速度及び蒸発散速度における収集した実測値、及び推定した推定値の確率密度の一例を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。
【0026】
まず、図1を参照して、情報処理システム1の構成について説明する。図1は、本実施形態に係る情報処理システム1の構成の一例を示すブロック図である。
【0027】
一例として、図1に示すように、本実施形態に係る情報処理システム1は、リサンプリング装置10、及び評価装置50を備えており、ネットワークNを介して相互に接続されている。なお、本実施形態に係るリサンプリング装置10、及び評価装置50は、パーソナルコンピュータ等の端末、又はサーバである形態について説明する。
【0028】
リサンプリング装置10は、収集したデータから後述する評価装置50が機械学習を行うための訓練データを生成する。具体的には、不均衡性を有する収集したデータに対してデータの増幅及び削減を行い、不均衡を是正した訓練データを生成する。例えば、1日周期において、植物の光合成速度のデータを収集する場合、収集したデータのうち、光合成を行わない夜間のデータが多くを占めることがある。光合成を行わない期間が多くを占める不均衡性を有する収集したデータを用いても、光合成を行う期間のデータを十分に学習できず適切に光合成速度を推定できないことがある。そのため、リサンプリング装置10は、収集したデータから夜間におけるデータを削減し、昼間におけるデータを増幅するような処理を行い、データ量が均衡となった訓練データを生成する。
【0029】
評価装置50は、リサンプリング装置10によって生成された訓練データを用いて植物の成長度合を評価するための機械学習を行った学習済みの評価モデルを備え、評価モデルを用いて、入力された環境データに対する植物の成長度合を評価する。
【0030】
なお、本実施形態に係るデータは、植物の栽培環境に関するデータ(以下、「環境データ」という。)と、栽培における植物生理に関するデータ(以下、「栽培データ」という。)と、を含んでいる植物の栽培に関するデータである形態について説明する。しかし、これに限定されない。例えば、データは、気象に関するデータ等であってもよいし、データに不均衡(偏り)が生じ得るデータであれば、如何なるデータであってもよい。
【0031】
また、本実施形態に係るリサンプリング装置10、及び評価装置50は、それぞれ別体である形態について説明した。しかし、これに限定されない。リサンプリング装置10、及び評価装置50は、同一の筐体に搭載されていてもよい。
【0032】
次に、図2を参照して、リサンプリング装置10、及び評価装置50のハードウェア構成について説明する。図2は、本実施形態に係るリサンプリング装置10、及び評価装置50のハードウェア構成の一例を示すブロック図である。
【0033】
一例として、図2に示すように、本実施形態に係るリサンプリング装置10、及び評価装置50は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、モニタ16、及び通信インターフェース(通信I/F)17を含んで構成されている。CPU11、ROM12、RAM13、ストレージ14、入力部15、モニタ16、及び通信I/F17の各々は、バス18により相互に接続されている。
【0034】
CPU11は、リサンプリング装置10、及び評価装置50の全体を統括し、制御する。ROM12は、本実施形態で用いるリサンプリングプログラム及び評価プログラムを含む各種プログラム及びデータ等を記憶している。RAM13は、各種プログラムの実行時のワークエリアとして用いられるメモリである。CPU11は、ROM12に記憶されたプログラムをRAM13に展開して実行することにより、リサンプリング処理及び評価処理を行う。ストレージ14は、一例としてHDD(Hard Disk Drive)、SSD(Solid State Drive)、又はフラッシュメモリ等である。なお、ストレージ14には、リサンプリングプログラム及び評価プログラム等を記憶してもよい。入力部15は、文字及び画像等の入力を受け付けるマウス、及びキーボード等である。モニタ16は、評価結果等を表示する。通信I/F17は、データの送受信を行う。
【0035】
次に、図3、及び図4を参照して、リサンプリング装置10、及び評価装置50の機能構成について説明する。図3は、本実施形態に係るリサンプリング装置10の機能的な構成の一例を示すブロック図である。図4は、本実施形態に係る評価装置50の機能的な構成の一例を示すブロック図である。
【0036】
図3に示すように、リサンプリング装置10は、取得部21、データ生成部22、正規化部23、重み付け部24、クラスタリング部25、リサンプリング部26、及び出力部27を備えている。CPU11がリサンプリングプログラムを実行することで、取得部21、データ生成部22、正規化部23、重み付け部24、クラスタリング部25、リサンプリング部26、及び出力部27として機能する。
【0037】
取得部21は、機械学習で用いる学習データを取得する。なお、本実施形態に係る学習データは、説明変数、及び目的変数を有しており、説明変数、及び目的変数に対して不均衡性を有している形態について説明する。ここで、説明変数とは、目的変数を説明するための変数であり、目的変数とは、推定したい変数である。本実施形態では、環境データを説明変数とし、栽培データを目的変数とする。また、環境データは、例えば、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を含むデータであり、栽培データは、光合成速度、及び蒸発散速度である。すなわち、本実施形態では、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を用いて、光合成速度、及び蒸発散速度を推定する形態について説明する。
【0038】
データ生成部22は、取得した学習データを用いて、クラスタリングデータ、及びリサンプリングデータを生成する。
【0039】
正規化部23は、生成されたクラスタリングデータに対して、データが含まれる範囲を統一する正規化を行う。
【0040】
重み付け部24は、正規化されたクラスタリングデータにおける目的変数に対して、重み付けを行う。
【0041】
クラスタリング部25は、重み付けされたクラスタリングデータを説明変数及び目的変数に応じてクラスタリング(分類)して、クラスタリングされた各々のクラスタに対して希少度を算出する。
【0042】
リサンプリング部26は、算出された希少度を用いて、リサンプリングデータに対して、オーバーサンプリング、及びアンダーサンプリングを実行する。
【0043】
出力部27は、リサンプリング結果として、リサンプリングデータに対してオーバーサンプリング、及びアンダーサンプリングを実行した訓練データを出力する。なお、以下では、オーバーサンプリング、及びアンダーサンプリングを実行した後の学習データ(リサンプリングデータ)を「訓練データ」という。
【0044】
次に、図4を参照して、評価装置50の機能構成について説明する。図4に示すように、評価装置50は、取得部51、評価部52、及び学習部53を備えている。CPU11が評価プログラムを実行することで、取得部51、評価部52、及び学習部53として機能する。なお、取得部51は、入力データ取得部51A、及び訓練データ取得部51Bを備えている。
【0045】
取得部51は、入力データ、及び訓練データを取得する。具体的には、入力データ取得部51Aは、入力データを取得し、訓練データ取得部51Bは、訓練データを取得する。
【0046】
評価部52は、学習データを用いて植物の成長度合を評価するための機械学習を行った学習済みの評価モデルを用いて、取得した入力データに対する植物の成長度合を評価する。具体的には、評価部52は、入力データとして、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を含む環境データが入力された場合、光合成速度、及び蒸発散速度を含む栽培データを推定して提示する。
【0047】
学習部53は、取得した訓練データを用いて、評価部52の評価モデルに対して、植物の成長度合を評価するための機械学習を実行する。
【0048】
次に、リサンプリング装置10、及び評価装置50の作用を説明する前に、図5から図10を参照して、訓練データの生成方法、及び評価モデルの学習方法について説明する。図5は、リサンプリング処理、及び評価処理の流れの一例を示すデータフロー図である。
【0049】
図5に示すように、環境データ、及び栽培データを含む収集したデータを学習データ31、及びテストデータ32に分割する。ここで、学習データ31とは、後述する訓練データ35を生成するためのデータである。また、テストデータ32は、評価部52の学習の度合を検証するためのデータである。
【0050】
リサンプリング装置10における取得部21は、学習データ31を取得し、データ生成部22に入力する。
【0051】
データ生成部22は、入力された学習データ31を複製し、クラスタリングデータ33、及びリサンプリングデータ34を生成する。また、データ生成部22は、生成したクラスタリングデータ33を正規化部23に入力し、リサンプリングデータ34をリサンプリング部26に入力する。
【0052】
正規化部23は、入力されたクラスタリングデータ33の正規化を実行する。具体的には、図6(a)に示すように、説明変数、及び目的変数に係る各々のデータは、それぞれ異なるデータであるため、各々の単位、及び取り得る値の範囲が異なっている。そのため、正規化部23は、クラスタリングデータ33における説明変数、及び目的変数の各々のデータについて、データの値から取り得る値の最小値を減算し、取り得る値の幅の逆数を積算して、説明変数、及び目的変数の各々の値の範囲を0から1に統一する。例えば、湿度が0パーセントから100パーセントまで取り得るとした場合、任意のデータに係る湿度の値に対して、100分の1を積算して、湿度の値を正規化する。図6(b)は、正規化したクラスタリングデータ33の一例を示すグラフである。
【0053】
また、正規化部23は、正規化したクラスタリングデータ33を重み付け部24に入力する。
【0054】
重み付け部24は、入力された正規化したクラスタリングデータ33における目的変数に対して、重み付けを行う。一例として図6に示すように、重み付け部24は、図6(b)に示すクラスタリングデータ33の目的変数に重みtを積算して、重み付けを行う。図6(c)は、目的変数に対して重み付けしたクラスタリングデータ33の一例を示すグラフである。
【0055】
ここで、重みtは、説明変数、及び目的変数に応じて予め定められてもよいし、後述する評価部52の検証結果をフィードバックして調整してもよい。
【0056】
クラスタリング部25は、一例として図7に示すように、k-means法を用いて、重み付けされたクラスタリングデータ33をk個のクラスタにクラスタリングする。
【0057】
また、クラスタリング部25は、クラスタ毎のデータを特定して、クラスタ毎のクラスタサイズ(クラスタのデータ量)を算出し、各々のクラスタの希少度、及びクラスタリングデータにおける希少度の平均値を算出する。また、クラスタリング部25は、特定したクラスタに関する情報、クラスタ毎の希少度、及び希少度の平均値をリサンプリング部26に入力する。
【0058】
具体的には、クラスタリング部25は、クラスタに属しているデータを特定して、クラスタ毎のクラスタサイズを集計し、クラスタサイズの逆数を希少度として算出する。また、クラスタリング部25は、クラスタリングデータにおけるクラスタサイズの平均値の逆数を希少度の平均値として算出する。ここで、クラスタサイズの平均値は、例えば、クラスタリングデータ33における全データ量Nに、クラスタの数kを除算する(全データ量N÷クラスタの数kを求める)ことによって算出される。
【0059】
リサンプリング部26は、入力された希少度と、希少度の平均値と、を比較して、リサンプリングデータ34に対してデータの削除及び増幅を実行する。具体的には、リサンプリング部26は、クラスタにおける希少度が平均値未満である場合、クラスタに対してアンダーサンプリングを実行し、クラスタにおける希少度が平均値を超えている場合、クラスタに対してオーバーサンプリングを実行する。
【0060】
ここで、アンダーサンプリングとは、一例として図8(a)、及び図8(b)に示すように、データ41及び42を用いて新たなデータ43を生成し、データ41及び42を削除することによって、クラスタにおけるデータ量を削減する手法である。例えば、図8(a)に示すように、クラスタにおいて、ランダムに選択されたデータ41と、選択されたデータ41に最も近接なデータ42が抽出され、抽出された2点のデータ間に新たなデータ43が生成される。また、図8(b)に示すように、2点のデータ41及び42が削除されることによって、クラスタにおけるデータ量が削減される。なお、新たなデータ43は、以下の式に従って生成される。
【0061】
【数1】
【0062】
ここで、dは、ランダムに選択された任意のデータ41の座標であり、dは、選択されたデータ41に最も近接なデータ42の座標であり、dは、新たに生成されたデータ43の座標であり、rは、0から1の範囲でランダムに設定された係数である。
【0063】
上述した式(1)に示すように、データ41及びデータ42における2点間の距離に係数rを積算した距離が算出され、新たなデータ43は、データ42の座標dから、算出した距離だけ離れた位置に生成される。すなわち、新たなデータ43は、データ41及びデータ42の2点間にランダムに生成される。
【0064】
また、オーバーサンプリングとは、一例として図9(a)、及び図9(b)に示すように、データ41及び42を用いて新たなデータ43を生成することによって、クラスタにおけるデータ量を増幅する手法である。例えば、図9(a)に示すように、クラスタにおいて、ランダムに選択されたデータ41と、選択されたデータ41に最も近接なデータ42が抽出され、抽出された2点のデータ間に新たなデータ43が生成される。オーバーサンプリングは、図8に示すアンダーサンプリングとは異なり、選択された41及び42のデータの削除は行わず、2点のデータ41及びデータ42が残ることによって、クラスタにおけるデータ量が増幅される。なお、新たなデータ43は、上述した式(1)に従って生成される。
【0065】
リサンプリング部26は、一例として図10に示すように、リサンプリングとして実行したアンダーサンプリング、及びオーバーサンプリングの実行結果をリサンプリングデータ34に対して反映する。すなわち、リサンプリング部26は、特定されたクラスタ毎に、生成する新たなデータ43と、削除するデータ41及びデータ42と、を特定し、リサンプリングデータ34に対して、データ43の生成、及びデータ41及び42の削除を行う。また、リサンプリング部26は、クラスタにおける希少度が、平均値と等しくなるまで繰り返しアンダーサンプリング、及びオーバーサンプリングを実行する。なお、図10は、リサンプリング部26によって実行されたリサンプリング結果の一例である。
【0066】
リサンプリング部26は、図5に示すように、リサンプリングデータ34に対して、アンダーサンプリング、及びオーバーサンプリングを実行して、データの削減及び増幅を行ったリサンプリング結果を出力部27に入力する。
【0067】
出力部27は、リサンプリング結果を訓練データ35として出力する。
【0068】
一方、評価装置50における訓練データ取得部51Bは、リサンプリング装置10が出力した訓練データ35を取得し、学習部53に入力する。
【0069】
学習部53は、入力された訓練データ35を用いて、評価部52における評価モデルの機械学習を実行する。
【0070】
入力データ取得部51Aは、入力データとして、テストデータ32を取得し、テストデータ32における説明変数を評価部52に入力する。
【0071】
評価部52は、入力された説明変数に対する目的変数を推定して提示する。例えば、評価部52は、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度を含む環境データに対して、光合成速度、及び蒸発散速度を含む栽培データを推定する。
【0072】
なお、本実施形態に係る評価部52は、推定した目的変数を提示する形態について説明した。しかし、これに限定されない。例えば、評価部52は、推定した目的変数と、テストデータ32における目的変数と、を比較して推定した結果を評価してもよい。具体的には、推定した目的変数と、テストデータ32における目的変数と、の差分が予め定められた範囲に納まっていない場合、評価部52は、リサンプリング装置10に対して、重みtを変更した訓練データ35を再生成する指示を送信してもよい。評価装置50は、再生成された訓練データ35を用いて評価部52の機械学習を再実行してもよい。
【0073】
次に、図11から図13を参照して、本実施形態に係るリサンプリング装置10の作用について説明する。図11は、本実施形態に係るリサンプリング処理の一例を示すフローチャートである。CPU11がROM12又はストレージ14からリサンプリングプログラムを読み出し、実行することによって、図11に示すリサンプリング処理プログラムが実行される。図11に示すリサンプリングプログラムは、例えば、ユーザから学習データが入力され、リサンプリング処理を実行する指示が入力された場合、実行される。
【0074】
ステップS101において、CPU11は、学習データ31を取得する。
【0075】
ステップS102において、CPU11は、クラスタリングデータ33、及びリサンプリングデータ34を生成する。
【0076】
ステップS103において、CPU11は、クラスタリングデータ33に対して、正規化する。
【0077】
ステップS104において、CPU11は、正規化されたクラスタリングデータ33における目的変数に対して重みを積算して重み付けをする。
【0078】
ステップS105において、CPU11は、重み付けされたクラスタリングデータ33に対してクラスタリングする。
【0079】
ステップS106において、CPU11は、希少度の平均値を算出する。ここで、希少度の平均値は、クラスタサイズの平均値の逆数である。ここで、クラスタサイズの平均値は、クラスタリングデータ33における全データ量Nに、クラスタの数kを除算して導出される。
【0080】
ステップS107において、CPU11は、クラスタリングされたクラスタのうち、1つのクラスタを特定する。
【0081】
ステップS108において、CPU11は、特定したクラスタのクラスタサイズを算出し、当該クラスタの希少度として、クラスタサイズの逆数を算出する。
【0082】
ステップS109において、CPU11は、特定したクラスタの希少度が、希少度の平均値未満であるか否かの判定を行う。特定したクラスタの希少度が、希少度の平均値未満である場合(ステップS109:YES)、CPU11は、ステップS110に移行する。一方、特定したクラスタの希少度が、希少度の平均値未満でない(クラスタの希少度が、希少度の平均値以上である)場合、CPU11は、ステップS111に移行する。
【0083】
ステップS110において、CPU11は、リサンプリングデータ34に対して、アンダーサンプリング処理を実行する。なお、アンダーサンプリング処理については、後述する図12にて詳細に説明する。
【0084】
ステップS111において、CPU11は、特定したクラスタの希少度が、希少度の平均値を超えているか否かの判定を行う。特定したクラスタの希少度が、希少度の平均値を超えている場合(ステップS111:YES)、CPU11は、ステップS112に移行する。一方、特定したクラスタの希少度が、希少度の平均値を超えていない(クラスタの希少度が、希少度の平均値である)場合、CPU11は、ステップS113に移行する。
【0085】
ステップS112において、CPU11は、リサンプリングデータ34に対して、オーバーサンプリング処理を実行する。なお、オーバーサンプリング処理については、後述する図13にて詳細に説明する。
【0086】
ステップS113において、CPU11は、クラスタリングされたクラスタについて、すべてのクラスタを処理したか否かの判定を行う。すべてのクラスタを処理した場合(ステップS113:YES)、CPU11は、ステップS114に移行する。一方、すべてのクラスタを処理していない(処理をしていないクラスタが存在する)場合、CPU11は、ステップS107に移行する。
【0087】
ステップS114において、CPU11は、リサンプリング結果を用いて、訓練データ35を生成して出力する。
【0088】
次に、図12を参照して、アンダーサンプリング処理について説明する。図12は、本実施形態に係るアンダーサンプリング処理の一例を示すフローチャートである。CPU11がROM12又はストレージ14からアンダーサンプリングプログラムを読み出し、実行することによって、図12に示すアンダーサンプリングプログラムが実行される。図12に示すアンダーサンプリングプログラムは、例えば、アンダーサンプリング処理を実行する指示が入力された場合、実行される。
【0089】
ステップS201において、CPU11は、特定されたクラスタに含まれるデータのうち、1つのデータ41をランダムに選択する。
【0090】
ステップS202において、CPU11は、選択したデータから最も近接なデータ42を選択する。
【0091】
ステップS203において、CPU11は、リサンプリングデータ34において、選択されたデータ41と、当該データに最も近接なデータ42と、2点の間に新たなデータ43を生成する。
【0092】
ステップS204において、CPU11は、リサンプリングデータ34において、選択されたデータ41と、当該データに最も近接なデータ42と、を削除する。
【0093】
ステップS205において、CPU11は、クラスタのクラスタサイズを算出し、当該クラスタの希少度として、クラスタサイズの逆数を算出する。
【0094】
ステップS206において、CPU11は、クラスタの希少度が、希少度の平均値以上であるか否かの判定を行う。クラスタの希少度が、希少度の平均値以上である場合(ステップS206:YES)、CPU11は、アンダーサンプリング処理を終了する。一方、クラスタの希少度が、希少度の平均値以上でない(クラスタの希少度が、希少度の平均値未満である)場合、CPU11は、ステップS201に移行する。
【0095】
次に、図13を参照して、オーバーサンプリング処理について説明する。図13は、本実施形態に係るオーバーサンプリング処理の一例を示すフローチャートである。CPU11がROM12又はストレージ14からオーバーサンプリングプログラムを読み出し、実行することによって、図13に示すオーバーサンプリングプログラムが実行される。図13に示すオーバーサンプリングプログラムは、例えば、オーバーサンプリング処理を実行する指示が入力された場合、実行される。
【0096】
ステップS301において、CPU11は、特定されたクラスタに含まれるデータのうち、1つのデータ41をランダムに選択する。
【0097】
ステップS302において、CPU11は、選択したデータ41から最も近接なデータ42を選択する。
【0098】
ステップS303において、CPU11は、リサンプリングデータ34において、選択されたデータ41と、当該データに最も近接なデータ42と、2点の間に新たなデータ43を生成する。
【0099】
ステップS304において、CPU11は、クラスタのクラスタサイズを算出し、当該クラスタの希少度として、クラスタサイズの逆数を算出する。
【0100】
ステップS305において、CPU11は、クラスタの希少度が、希少度の平均値以下であるか否かの判定を行う。クラスタの希少度が、希少度の平均値以下である場合(ステップS305:YES)、CPU11は、オーバーサンプリング処理を終了する。一方、クラスタの希少度が、希少度の平均値以下でない(クラスタの希少度が、希少度の平均値を超えている)場合、CPU11は、ステップS301に移行する。
【0101】
次に、図14を参照して、本実施形態に係る評価装置50の作用について説明する。図14は、本実施形態に係る評価処理の一例を示すフローチャートである。CPU11がROM12又はストレージ14から評価プログラムを読み出し、実行することによって、図14に示す評価処理プログラムが実行される。図14に示す評価プログラムは、例えば、ユーザからテストデータが入力され、リサンプリング処理を実行する指示が入力された場合、実行される。
【0102】
ステップS401において、CPU11は、リサンプリング装置10が出力した訓練データを取得する。
【0103】
ステップS402において、CPU11は、取得した訓練データ35を用いて評価モデルに対して機械学習を実行する。
【0104】
ステップS403において、CPU11は、入力データとして、テストデータ32を取得する。
【0105】
ステップS404において、CPU11は、取得したテストデータ32を用いて、テストデータ32における説明変数に対応する目的変数を推定して評価する。
【0106】
以上説明したように、本実施形態によれば、リサンプリング処理による新たなデータの偏りを防ぎ、適切なリサンプリングを行うことができる。
【0107】
なお、本実施形態では、クラスタの希少度の閾値として、希少度の平均値を算出する形態について説明した。しかし、これに限定されない。クラスタの希少度の閾値として、希少度の中央値を算出してもよいし、クラスタリングの結果からパーセンタイルを設定してもよい。また、本実施形態では、クラスタにおける希少度が、希少度の平均値と一致するまでリサンプリング処理を実行する形態について説明した。しかし、これに限定されない。例えば、希少度の平均値から予め定められた範囲に納まるまでリサンプリング処理を実行してもよい。ここで、平均値、中央値、及びパーセンタイルは、「統計値」の一例である。
【0108】
(リサンプリング装置の検証例)
以下では、本実施形態に係るリサンプリング装置10の有効性を検証した実験について説明する。
【0109】
実験の内容として、植物が行う光合成の速度を示す光合成速度、及び植物が行う蒸発及び発散の速度を示す蒸発散速度を集計し、集計した光合成速度、及び蒸発散速度と、評価装置50が推定した光合成速度、及び蒸発散速度と、の比較を行った。
【0110】
収集したデータについて、説明変数として、温度、湿度、飽差、二酸化炭素濃度、及び光合成有効光量子束密度に係るデータを収集し、目的変数として光合成速度、及び蒸発散速度を収集した。評価装置50は、説明変数を入力データとして、目的変数を推定する機械学習を行った。
【0111】
データを収集した期間は、説明変数を1分おきに収集し、目的変数を10分おきに収集した。データの収集期間は224日間であり、収集時間は24時間に亘り収集を行った。
また、収集方法として、チャンバー法を採用して、各種センサを用いて温度、湿度、飽差、二酸化炭素濃度、水蒸気量差、光合成有効光量子束密度、光合成速度、及び蒸発散速度のデータを収集した。
【0112】
なお、対象の植物として、苺(品種:きらぴ香)を採用した。また、各種センサとして、温湿度センサ、二酸化炭素センサ、光合成有効光量子束密度センサ、反射型散乱光センサを採用した。光合成速度、及び蒸発散速度は、以下の数式によって算出して実測値とした。
【0113】
【数2】

【数3】
【0114】
ここで、CERは、光合成速度でありFは、1分毎の空気の流量であり、ΔCOは、二酸化炭素濃度差であり、Tinは、チャンバー内の気温である。ETは、1分毎の蒸発散速度であり、ΔHOは、1立方メートル当たりの水蒸気量差である。
【0115】
また、本実施形態では、収集したデータ1日毎に分割したデータを1つのデータとして説明する。しかし、これに限定されない。例えば、3時間毎及び3日毎等の連続した期間毎に分割された時系列データを一つのデータとしてもよい。また、時系列データを1つのデータとする場合において、各々の時系列データにおいて他の時系列データと期間が重複するように設定されてもよい。期間が重複する時系列データを設定することによって、データの削減及び増幅を行った場合において離散的なデータとなることを抑制し、時系列を保持したままデータの削減及び増幅を行うことが可能である。
【0116】
収集した光合成速度の確率密度61、及び希少度62の対応関係と、蒸発散速度の確率密度63、及び希少度64の対応関係と、を図15に示す。図15を参照すると、光合成速度の確率密度61、及び蒸発散速度の確率密度63が「0.0」近傍に、データが集中している。そのため、光合成速度、及び蒸発散速度が大きくなるほど、光合成速度の希少度62、及び蒸発散速度の希少度64が高くなり、収集したデータは、不均衡であることがわかる。したがって、本実施形態に係るリサンプリング装置10を用いて、データ量を均一にした訓練データの生成を行い、当該訓練データを用いて評価装置50にて機械学習を実行した。
【0117】
図16は、光合成速度、及び蒸発散速度おける収集した実測値、及びリサンプリングを適用した訓練データの一例を示すグラフである。ここで、訓練データは、本実施形態に係るリサンプリング手法、及びSMOTER(Synthetic Minority Over-sampling TEchnique for Regression)により不均衡を是正したデータである。
【0118】
図16は、光合成速度における実測値65、本実施形態に係るリサンプリング装置10による訓練データ66、及びSMOTERによる訓練データ67の一例を示している。また、蒸発散速度における実測値68、本実施形態に係るリサンプリング装置10による訓練データ69、及びSMOTERによる訓練データ70の一例を示している。
【0119】
図16に示すように、光合成速度において、本実施形態に係る訓練データ66は、SMOTERによる訓練データ67と比較して、実測値65に似た形状に分布していることが分かる。また、蒸発散速度についても同様に、本実施形態に係る訓練データ69は、SMOTERによる訓練データ70と比較して、実測値68に似た形状に分布していることが分かる。
【0120】
これは、クラスタの希少度に応じて、オーバーサンプリング、及びアンダーサンプリングを実行することによって、様々な環境条件のデータを均一に学習が可能となったためである。すなわち、本実施形態に係るリサンプリング装置10におけるリサンプリング方法は、機械学習時の推定精度向上に効果的であることを示している。
【0121】
また、本実施形態に係るリサンプリング装置10は、複数の説明変数、及び目的変数を用いた場合であっても、ユーザによる希少度及び閾値の設定を要せずに、リサンプリング処理を実行することができる点で優れている。
【0122】
以上、各実施形態を用いて本発明について説明したが、本発明は各実施形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で各実施形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。
【0123】
なお、上記実施形態において、プロセッサとは広義的なプロセッサを指し、例えば汎用的なプロセッサ(例えば、CPU:Central Processing Unit)や、専用のプロセッサ(例えば、GPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
【0124】
また、本実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は本実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【0125】
また、本実施形態では、リサンプリングプログラムがストレージにインストールされている形態を説明したが、これに限定されるものではない。本実施形態に係るリサンプリングプログラムを、コンピュータが読取可能な記憶媒体に記録した形態で提供してもよい。例えば、本発明に係るリサンプリングプログラムを、CD(Compact Disc)-ROM及びDVD(Digital Versatile Disc)-ROM等の光ディスクに記録した形態で提供してもよい。本実施形態に係るリサンプリングプログラムを、USB(Universal Serial Bus)メモリ及びメモリカード等の半導体メモリに記録した形態で提供してもよい。また、本実施形態に係るリサンプリングプログラムを、通信I/Fに接続された通信回線を介して外部装置から取得するようにしてもよい。
【符号の説明】
【0126】
1 情報処理システム
10 リサンプリング装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 モニタ
17 通信I/F
18 バス
21 取得部
22 データ生成部
23 正規化部
24 重み付け部
25 クラスタリング部
26 リサンプリング部
27 出力部
31 学習データ
32 テストデータ
33 クラスタリングデータ
34 リサンプリングデータ
35 訓練データ
41、42、43 データ
50 評価装置
51 取得部
51A 入力データ取得部
51B 訓練データ取得部
52 評価部
53 学習部
61、63 確率密度
62、64 希少度
65、68 実測値
66、67、69、70 訓練データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16