IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エヌ・ティ・ティ・データの特許一覧

特開2023-124316学習データ収集装置、学習データ収集システム、及び学習データ収集方法
<>
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図1
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図2
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図3
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図4
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図5
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図6
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図7
  • 特開-学習データ収集装置、学習データ収集システム、及び学習データ収集方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023124316
(43)【公開日】2023-09-06
(54)【発明の名称】学習データ収集装置、学習データ収集システム、及び学習データ収集方法
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20230830BHJP
   G06Q 50/02 20120101ALI20230830BHJP
   G06N 20/00 20190101ALI20230830BHJP
   G16Y 10/05 20200101ALI20230830BHJP
   G16Y 10/15 20200101ALI20230830BHJP
   G16Y 30/00 20200101ALI20230830BHJP
【FI】
G06Q50/10
G06Q50/02
G06N20/00 130
G16Y10/05
G16Y10/15
G16Y30/00
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022028011
(22)【出願日】2022-02-25
(71)【出願人】
【識別番号】000102728
【氏名又は名称】株式会社エヌ・ティ・ティ・データ
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】林 慶士
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC01
5L049CC11
(57)【要約】      (修正有)
【課題】効率よく適切な学習データを入手する。
【解決手段】学習データ収集システム1において、学習データ収集装置10は、主データにメタデータを付加した学習データを複数含む学習データセットと、検索情報とを対応付けて記憶する学習データ記憶部123と、検索情報とメタデータの種別と、学習データが充足されているか否かを判定するための充足判定条件と、不足している学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部122と、主データと、当該主データに対応するメタデータとを収集するデータ収集部131と、主データに対応するメタデータを付加するアノテーション処理部132と、メタデータと、充足判定条件とに基づいて、学習データセットが充足されているか否かを判定し、学習データが充足されていない場合に、不足している学習データを充足手段情報により補完する充足処理部133と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
取得デバイスが取得した主データにメタデータを付加した学習データを複数含む学習データセットと、前記学習データセットと関連する検索情報とを対応付けて記憶する学習データ記憶部と、
前記検索情報と、前記メタデータの種別と、前記学習データが充足されているか否かを判定するための充足判定条件と、不足している前記学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部と、
前記主データと、当該主データに対応するメタデータとを収集するデータ収集部と、
前記データ収集部が収集した前記主データに対応する前記メタデータを付加する付加処理部と、
前記付加処理部が付加した前記メタデータと、前記充足条件記憶部が記憶する前記充足判定条件とに基づいて、前記学習データセットが充足されているか否かを判定し、前記学習データセットが充足されていない場合に、不足している前記学習データを前記充足手段情報により補完し、前記学習データセットが充足されている場合に、前記学習データセットと、前記検索情報とを対応付けて前記学習データ記憶部に記憶させる充足処理部と
を備えることを特徴とする学習データ収集装置。
【請求項2】
前記充足処理部は、
前記学習データセットが充足されていない、且つ、前記充足手段情報が前記学習データの再収集である場合に、前記データ収集部に前記主データ及び前記メタデータの収集を要求し、
前記学習データセットが充足されていない、且つ、前記充足手段情報が前記学習データの自動生成である場合に、不足している前記学習データを自動生成する
ことを特徴とする請求項1に記載の学習データ収集装置。
【請求項3】
指定された前記検索情報に基づいて、学習データ記憶部から前記学習データセットを検索する検索処理部を備える
ことを特徴とする請求項1又は請求項2に記載の学習データ収集装置。
【請求項4】
前記学習データ記憶部は、前記主データの種類及び前記主データのデータ量を含む属性情報と、前記検索情報と、前記学習データとを対応付けて記憶し、
前記検索処理部は、前記検索情報と前記属性情報とを組み合わせて、前記学習データセットを検索する
ことを特徴とする請求項3に記載の学習データ収集装置。
【請求項5】
利用者端末から取得した検索依頼情報に含まれる前記検索情報及び前記属性情報を検索キーワードとして抽出するキーワード抽出部を備え、
前記検索処理部は、前記キーワード抽出部が抽出した前記検索情報と前記属性情報との組み合わせにより、前記学習データセットを検索する
ことを特徴とする請求項4に記載の学習データ収集装置。
【請求項6】
請求項1から請求項5のいずれか一項に記載の学習データ収集装置と、
少なくとも前記主データを取得する前記取得デバイスと
を備えることを特徴とする学習データ収集システム。
【請求項7】
取得デバイスが取得した主データにメタデータを付加した学習データを複数含む学習データセットと、前記学習データセットと関連する検索情報とを対応付けて記憶する学習データ記憶部と、前記検索情報と、前記メタデータの種別と、前記学習データが充足されているか否かを判定するための充足判定条件と、不足している前記学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部と、を備える学習データ収集装置の学習データ収集方法であって、
データ収集部が、前記主データと、当該主データに対応するメタデータとを収集するデータ収集ステップと、
付加処理部が、前記データ収集ステップによって収集された前記主データに対応する前記メタデータを付加する付加処理ステップと、
充足処理部が、前記付加処理ステップによって付加された前記メタデータと、前記充足条件記憶部が記憶する前記充足判定条件とに基づいて、前記学習データセットが充足されているか否かを判定し、前記学習データセットが充足されていない場合に、不足している前記学習データを前記充足手段情報により補完し、前記学習データセットが充足されている場合に、前記学習データセットと、前記検索情報とを対応付けて前記学習データ記憶部に記憶させる充足処理ステップと
を含むことを特徴とする学習データ収集方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データ収集装置、学習データ収集システム、及び学習データ収集方法に関する。
【背景技術】
【0002】
近年、AI(Artificial Intelligence)などの機械学習を利用した技術が、製造業など様々な産業分野で使用され始めている。また、機械学習を利用した技術では、学習モデルを構築するために適切な学習データを入手する必要があり、適切な学習データを入手することができる特定分野向けの様々な学習データ収集システムが提案されている(例えば、特許文献1、2を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-163050号公報
【特許文献2】特開2021-144380号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した学習データ収集システムでは、例えば、学習データが不足している場合に、再収集する処理を行っているが、必ずしも適切な学習データが得られるとは限らず、非効率であるという問題があった。
【0005】
本発明は、上記問題を解決すべくなされたもので、その目的は、効率よく適切な学習データを入手することができる学習データ収集装置、学習データ収集システム、及び学習データ収集方法を提供することにある。
【課題を解決するための手段】
【0006】
上記問題を解決するために、本発明の一態様は、取得デバイスが取得した主データにメタデータを付加した学習データを複数含む学習データセットと、前記学習データセットと関連する検索情報とを対応付けて記憶する学習データ記憶部と、前記検索情報と、前記メタデータの種別と、前記学習データが充足されているか否かを判定するための充足判定条件と、不足している前記学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部と、前記主データと、当該主データに対応するメタデータとを収集するデータ収集部と、前記データ収集部が収集した前記主データに対応する前記メタデータを付加する付加処理部と、前記付加処理部が付加した前記メタデータと、前記充足条件記憶部が記憶する前記充足判定条件とに基づいて、前記学習データセットが充足されているか否かを判定し、前記学習データセットが充足されていない場合に、不足している前記学習データを前記充足手段情報により補完し、前記学習データセットが充足されている場合に、前記学習データセットと、前記検索情報とを対応付けて前記学習データ記憶部に記憶させる充足処理部とを備えることを特徴とする学習データ収集装置である。
【0007】
また、本発明の一態様は、上記の学習データ収集装置において、前記充足処理部は、前記学習データセットが充足されていない、且つ、前記充足手段情報が前記学習データの再収集である場合に、前記データ収集部に前記主データ及び前記メタデータの収集を要求し、前記学習データセットが充足されていない、且つ、前記充足手段情報が前記学習データの自動生成である場合に、不足している前記学習データを自動生成することを特徴とする。
【0008】
また、本発明の一態様は、上記の学習データ収集装置において、指定された前記検索情報に基づいて、学習データ記憶部から前記学習データセットを検索する検索処理部を備えることを特徴とする。
【0009】
また、本発明の一態様は、上記の学習データ収集装置において、前記学習データ記憶部は、前記主データの種類及び前記主データのデータ量を含む属性情報と、前記検索情報と、前記学習データとを対応付けて記憶し、前記検索処理部は、前記検索情報と前記属性情報とを組み合わせて、前記学習データセットを検索することを特徴とする。
【0010】
また、本発明の一態様は、上記の学習データ収集装置において、利用者端末から取得した検索依頼情報に含まれる前記検索情報及び前記属性情報を検索キーワードとして抽出するキーワード抽出部を備え、前記検索処理部は、前記キーワード抽出部が抽出した前記検索情報と前記属性情報との組み合わせにより、前記学習データセットを検索することを特徴とする。
【0011】
また、本発明の一態様は、上記の学習データ収集装置と、少なくとも前記主データを取得する取得デバイスとを備えることを特徴とする学習データ収集システムである。
【0012】
また、本発明の一態様は、取得デバイスが取得した主データにメタデータを付加した学習データを複数含む学習データセットと、前記学習データセットと関連する検索情報とを対応付けて記憶する学習データ記憶部と、前記検索情報と、前記メタデータの種別と、前記学習データが充足されているか否かを判定するための充足判定条件と、不足している前記学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部と、を備える学習データ収集装置の学習データ収集方法であって、データ収集部が、前記主データと、当該主データに対応するメタデータとを収集するデータ収集ステップと、付加処理部が、前記データ収集ステップによって収集された前記主データに対応する前記メタデータを付加する付加処理ステップと、充足処理部が、前記付加処理ステップによって付加された前記メタデータと、前記充足条件記憶部が記憶する前記充足判定条件とに基づいて、前記学習データセットが充足されているか否かを判定し、前記学習データセットが充足されていない場合に、不足している前記学習データを前記充足手段情報により補完し、前記学習データセットが充足されている場合に、前記学習データセットと、前記検索情報とを対応付けて前記学習データ記憶部に記憶させる充足処理ステップとを含むことを特徴とする学習データ収集方法である。
【発明の効果】
【0013】
本発明によれば、効率よく適切な学習データを入手することができる。
【図面の簡単な説明】
【0014】
図1】本実施形態による学習データ収集システムの一例を示すブロック図である。
図2】本実施形態におけるデバイス情報記憶部のデータ例を示す図である。
図3】本実施形態における充足条件記憶部のデータ例を示す図である。
図4】本実施形態におけるメタデータの充足判定条件の一例を示す図である。
図5】本実施形態における学習データ記憶部のデータ例を示す図である。
図6】本実施形態による学習データ収集装置のデータ収集処理の一例を示すフローチャートである。
図7】本実施形態による学習データの充足判定の一例を示す図である。
図8】本実施形態による学習データ収集装置の検索処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態による学習データ収集装置、学習データ収集システム、及び学習データ収集方法について、図面を参照して説明する。
【0016】
図1は、本実施形態による学習データ収集システム1の一例を示すブロック図である。
図1に示すように、学習データ収集システム1は、学習データ収集装置10と、IoT(Internet of Things)機器21(21A,21B、21C)と、ドローン22と、センサ部23(23A、23B、23C)と、データサーバ24とを備えている。学習データ収集装置10と、IoT機器21(21A、21B、21C)と、ドローン22と、センサ部23(23A、23B、23C)と、データサーバ24とは、ネットワークNW1を介して接続可能である。
【0017】
本実施形態による学習データ収集システム1は、農地FA、牧場FB、及びトンネルFCなどの異なる複数の分野の機械学習用の学習データを収集するシステムである。
農地FAには、IoT機器21Aと、複数のセンサ部23Aと、複数のドローン22とが配置されている。また、牧場FBには、IoT機器21Bと、複数のセンサ部23Bとが配置されている。また、トンネルFCには、IoT機器21Cと、複数のセンサ部23Cとが配置されている。
【0018】
また、本実施形態において、IoT機器21A、IoT機器21B、及びIoT機器21Cは、学習データ収集システム1が備える任意のIoT装置を示す場合、又は特に区別しない場合に、IoT機器21として説明する。
【0019】
また、本実施形態において、センサ部23A、センサ部23B、及びセンサ部23Cは、学習データ収集システム1が備える任意のセンサ部を示す場合、又は特に区別しない場合に、センサ部23として説明する。
【0020】
IoT機器21(21A,21B、21C)は、ネットワークNW1を介して、学習データ収集装置10に接続可能な、例えば、農地FA、牧場FB、及びトンネルFCなどに設置された管理装置である。
【0021】
例えば、農地FAのIoT機器21Aは、ドローン22及びセンサ部23Aを制御して、ドローン22及びセンサ部23Aから各種データを収集する。また、IoT機器21Aは、ドローン22及びセンサ部23Aから収集した各種データに基づいて、一部のメタデータ(例えば、日照量など)を生成する。
【0022】
また、例えば、牧場FBのIoT機器21Bは、センサ部23Bを制御して、センサ部23Bから各種データ(例えば、温度、湿度、固定カメラの画像データなど)を収集する。IoT機器21Bは、例えば、牧場FBの牛の状態を確認する画像データを撮像する固定カメラ(撮像部)を備えてもよい。
また、例えば、トンネルFCのIoT機器21Cは、センサ部23Bを制御して、センサ部23Bから各種データ(例えば、温度、湿度、車両の通過頻度など)を収集する。
【0023】
IoT機器21は、収集又は生成した各種データ(主データ及びメタデータ)を、ネットワークNW1を介して、学習データ収集装置10に送信する。
ここで、主データは、例えば、学習データのメインのデータであり、例えば、IoT機器21やドローン22が収集した画像データ、音データ、などの生データである。
また、本実施形態において、IoT機器21、及びドローン22は、主データを取得する取得デバイス20に対応するものとする。
【0024】
ドローン22は、撮像部(不図示)を備え、例えば、農地FAの農作物を撮像可能な無人航空機であり、IoT機器21の制御に基づいて、各種農作物の画像データを撮像する。ドローン22は、撮像した画像データを、例えば、IoT機器21及びネットワークNW1を介して、学習データ収集装置10に提供する。なお、ドローン22は、画像データの他に、例えば、高度情報、位置情報、ドローン22のデバイスID、及びバッテリ残量などのメタデータを取得可能である。
【0025】
センサ部23(23A、23B、23C)は、各種センサを備え、IoT機器21からの制御に基づいて、設置場所(例えば、農地FA、牧場FB、トンネルFCなど)に関する各種データを検出する。センサ部23は、例えば、温度(土壌の温度、気温など)、湿度(土壌の湿度、大気中の湿度など)、CO2濃度(二酸化炭素濃度)、等を検出し、IoT機器21及びネットワークNW1を介して、学習データ収集装置10に提供する。
【0026】
データサーバ24は、例えば、気温、降水量、風速、天気などの気象情報や日照時間などの各種データを取得可能な外部データサーバであり、ネットワークNW1を介して、学習データ収集装置10に、各種データを提供する。データサーバ24が提供する各種データは、例えば、メタデータとして利用される。
【0027】
なお、図1では説明の都合上、IoT機器21(21A,21B、21C)、ドローン22、センサ部23(23A、23B、23C)、及びデータサーバ24のそれぞれが、1台である例を記載しているが、これに限定されるものではなく、複数台あってもよい。また、農地FAは、同様の農地が複数あるものとし、牧場FBは、同様の農地が複数あるものとする。また、トンネルFCは、同様のトンネルが複数あるものとする。
【0028】
学習データ収集装置10は、ネットワークNW1に接続され、AIなどの機械学習を行うための学習データを収集し、利用者に提供するサーバ装置である。学習データ収集装置10は、例えば、NW(ネットワーク)通信部11と、記憶部12と、制御部13とを備えている。
【0029】
NW通信部11は、ネットワークNW1に接続し、ネットワークNW1を介して各種通信を行う。NW通信部11は、例えば、学習データ(主データ及びメタデータなど)を収集する際に、ネットワークNW1を介して、IoT機器21及びデータサーバ24に接続し、各種通信を行う。また、NW通信部11は、例えば、学習データを利用者に提供する際に、ネットワークNW1を介して、利用者端末30に接続し、各種通信を行う。
【0030】
記憶部12は、学習データ収集装置10が利用する各種情報を記憶する。記憶部12は、例えば、デバイス情報記憶部121と、充足条件記憶部122と、学習データ記憶部123とを備えている。
【0031】
デバイス情報記憶部121は、予め登録されている取得デバイス20(IoT機器21及びドローン22など)に関する情報を記憶する。ここで、図2を参照して、デバイス情報記憶部121のデータ例について説明する。
【0032】
図2は、本実施形態におけるデバイス情報記憶部121のデータ例を示す図である。
図2に示すように、デバイス情報記憶部121は、「デバイスID」と、「デバイス種別」と、「収集対象」と、「収集場所」と、「取得可能なメタデータ」とを対応付けて記憶する。
【0033】
ここで、「デバイスID」は、取得デバイス20を識別するデバイス識別情報を示し、「デバイス種別」は、取得デバイス20の種別(例えば、ドローン22、固定カメラなど)を示している。また、「収集対象」は、取得デバイス20が学習データ(主データ及びメタデータ)を取得可能な対象であって、学習データを収集する対象を示し、「収集場所」は、農地FAや牧場FBなどの場所を示している。また、「取得可能なメタデータ」は、当該取得デバイス20から取得可能なメタデータを示している。
【0034】
例えば、図2に示す例では、「デバイスID」が、“D0001”である取得デバイス20は、「デバイス種別」が“ドローン”(ドローン22)であり、「収集対象」が“農作物(大根)”であり、「収集場所」が“北海道○○市”であることを示している。また、この取得デバイス20の「取得可能なメタデータ」が、“高度、位置、時刻、温度、湿度などであることを示している。
【0035】
また、「デバイスID」が、“D0010”である取得デバイス20は、「デバイス種別」が“固定カメラ”であり、「収集対象」が“牧場(牛)”であり、「収集場所」が“千葉県××市”であることを示している。また、この取得デバイス20の「取得可能なメタデータ」が、“時刻、温度、湿度”などであることを示している。
【0036】
なお、デバイス情報記憶部121が記憶するデバイス情報は、後述する不足している学習データを再収集する際に、再収集する取得デバイス20の決定に利用される。
【0037】
図1の説明に戻り、充足条件記憶部122は、学習データが充足されているか否かの判定条件を記憶する。なお、本実施形態では、一例として、学習データに付加されたメタデータ(関連メタデータ)が充足されているか否かの判定条件を、学習データの充足判定条件とする。また、充足条件記憶部122は、不足している学習データを再収集するか否かの情報を含む充足手段情報を記憶する。ここで、図3を参照して、充足条件記憶部122のデータ例について説明する。
図3は、本実施形態における充足条件記憶部122のデータ例を示す図である。
【0038】
図3に示すように、充足条件記憶部122は、「検索情報」と、「関連メタデータ」と、「充足判定条件」と、「充足手段」とを対応付けて記憶する。ここで、「検索情報」は、学習データセットと関連する情報であり、後述する学習データを検索する際に、利用される情報である。「検索情報」は、例えば、収集対象の名前である。本実施形態では、例えば、農業、畜産、漁業、トンネル点検など、複数の分野の学習データセットに対応しており、「検索情報」は、複数の分野に対応した関連情報である。なお、学習データセットとは、学習データを複数含む学習データのセットである。また、学習データは、機械学習に利用する学習用データである。
【0039】
また、「関連メタデータ」は、「検索情報」に関連するメタデータを示し、「充足判定条件」は、学習データが機械学習に使用するために充分なデータ(充足されたデータ)であるか否かを判定する判定条件である。この判定条件は、例えば、統計的手法に基づいて定められており、判定条件には、例えば、複数のメタデータの間の関係を示す特性情報と、メタデータの許容範囲とが含まれる。
【0040】
また、「充足手段」は、「充足判定条件」に基づいて、学習データセットが充足されていない(不足のデータがある)と判定された場合に、不足している学習データを再収集するか否かの情報を含む補完手段を示している。「充足手段」は、例えば、“データ再収集”(再収集する)や、“データ自動生成”などの補完手段を示している。充足手段は、充足手段を示す充足手段情報の一例である。
【0041】
例えば、図3に示す例では、「検索情報」が“大根”の「関連メタデータ」が、“温度、日照量”であることを示し、「充足判定条件」が、“温度(上限、下限)、日照量(上限、下限)”であることを示している。また、この場合の「充足手段」は、“データ再収集”であり、不足の学習データを再収集することを示している。
【0042】
また、「検索情報」が“トンネル”の「関連メタデータ」が、“温度、湿度”であることを示し、「充足判定条件」が、“温度-湿度(上限、下限)”であることを示している。また、この場合の「充足手段」は、“データ自動生成”であり、不足の学習データを再収集しないことを示している。
【0043】
図4は、本実施形態におけるメタデータの充足判定条件の一例を示す図である。
図4(a)は、メタデータの温度と日照量との充足判定条件の一例を示している。
図4(a)に示す例では、温度が“Tp1”から“Tp2”の間の範囲内で、日照量が、“Min”と“Max”との間の範囲内である場合に、メタデータ(日照量、及び温度)が充足されていると判定される。
【0044】
また、温度が“Tp1”から“Tp2”の間の範囲外、又は日照量が、“Min”と“Max”との間の範囲外である場合に、メタデータ(日照量、及び温度)が充足されていないと判定される。
【0045】
図4(b)は、メタデータの温度と湿度との充足判定条件の一例を示している。
図4(b)に示す例では、温度と湿度との間に、過去の点検異常の分析から得られた相関関係があり、それらについて予測される線形回帰直線L1上で、取得されたメタデータ(〇)が、一定の推定誤差εの範囲内である場合に、メタデータ(温度及び湿度)が充足されていると判定される。
【0046】
また、取得されたメタデータ(〇)が、推定誤差εの範囲外である場合に、メタデータ(温度、湿度)が充足されていないと判定される。
充足条件記憶部122が記憶する「充足判定条件」には、このような、「検索情報」のデータ特性に応じた個別の充足条件が記憶されている。
【0047】
再び、図1の説明に戻り、学習データ記憶部123は、学習データ収集装置10が収集した学習データ(学習データセット)を記憶する。学習データ記憶部123は、学習データセットと、学習データセットと関連する検索情報とを対応付けて記憶する。ここで、図5を参照して、学習データ記憶部123のデータ例について説明する。
【0048】
図5は、本実施形態における学習データ記憶部123のデータ例を示す図である。
図5に示すように、学習データ記憶部123は、「検索情報」と、「属性情報」と、「データセット名」と、「学習データ」とを対応付けて記憶する。
【0049】
ここで、「検索情報」は、例えば、農作物の名前などの検索情報を示し、「属性情報」は、学習データの「種別」及び「データ量」を含む属性情報を示している。また、「データセット名」は、データセットを識別する識別情報を示している。また、「学習データ」は、「データファイル名」と、「メタデータ」とを含んでいる。ここで、「メタデータ」は、主データに付加されたメタデータを示している。
【0050】
図5に示す例では、「検索情報」が“大根”に対応する学習データセットが、学習データ(主データ)の「種類」が“IMG”(画像データ)であり、「データ量」が“300”(300サンプル)であることを示している。また、この学習データセットの「データセット名」が“三浦大根1”であり、「データファイル名」が、“Daikon1”であり、「メタデータ」が“温度=X1,日照量=Y1、・・・”であることを示している(データセットDS1を参照)。
【0051】
再び、図1の説明に戻り、制御部13は、例えば、CPU(Central Processing Unit)などを含むプロセッサであり、学習データ収集装置10を統括的に制御する。制御部13は、例えば、データ収集部131と、アノテーション処理部132と、充足処理部133と、キーワード抽出部134と、検索処理部135とを備えている。
【0052】
データ収集部131は、ドローン22やIoT機器21を含む、主データを取得する複数の取得デバイス20から収集した主データと、当該主データに対応するメタデータとを収集する。データ収集部131は、例えば、IoT機器21などから収集対象を撮像した画像データ(主データの一例)を、ネットワークNW1を介して取得するとともに、IoT機器21及びデータサーバ24などから、当該画像データに対応するメタデータを、ネットワークNW1を介して取得する。
【0053】
ここで、画像データには、IoT機器21又はドローン22が撮像した画像データが含まれ、メタデータには、ドローン22及びセンサ部23が検出したメタデータが含まれる。
【0054】
また、データ収集部131は、例えば、定期的にデータを収集する収集処理を実行してもよいし、IoT機器21又はデータサーバ24による収集要求に応じて、収集処理を実行してもよい。また、データ収集部131は、後述する充足処理部133の要求により、IoT機器21又はドローン22などの取得デバイス20に、所定の条件により不足する主データ及びメタデータを取得させて再収集を行う(再収集処理)。なお、この再収集処理の詳細については後述する。
【0055】
アノテーション処理部132(付加処理部の一例)は、データ収集部131が収集した主データに対応するメタデータを付加する。アノテーション処理部132は、データ収集部131が収集したメタデータをそのまま付加してもよいし、例えば、画像データから生成したメタデータ(例えば、画像の注釈(説明)や画像サイズなど)を付加してもよい。
【0056】
充足処理部133は、アノテーション処理部132が付加したメタデータと、充足条件記憶部122が記憶する充足判定条件とに基づいて、学習データセットが充足されているか否かを判定する。ここで、充足判定条件は、統計的手法に基づいて定められており、例えば、図4を参照して説明したように、複数のメタデータの間の関係を示す特性情報と、メタデータの許容範囲とが含まれる。
【0057】
充足処理部133は、充足判定条件に基づいて、各学習データのメタデータが、問題あるか否かを判定することで、学習データが充足されているか否かを判定し、その結果として、学習データセットが充足されているか否かを判定する。
なお、充足判定条件は、例えば、主データとメタデータとの組み合わせが、充足されているか否かを判定するものであってもよいし、学習データの不足していることを判定するようなものでもよい。
【0058】
充足処理部133は、学習データセットが充足されている場合に、学習データを含む学習データセットと、検索情報とを対応付けて学習データ記憶部123に記憶させる(図5を参照)。
【0059】
また、充足処理部133は、学習データセットが充足されていない場合に、不足している学習データを充足手段情報により補完する。この場合、充足処理部133は、充足条件記憶部122が記憶する充足手段情報(例えば、図3に示す「充足手段」)を取得し、当該充足手段情報によって、不足している学習データを再収集するのか否かを判定する。
【0060】
例えば、充足手段情報が“データ再収集”である場合に、充足処理部133は、不足している学習データを補完するように、データ収集部131に主データ及びメタデータの収集を要求する。充足処理部133は、例えば、デバイス情報記憶部121を参照して、各デバイスのメタデータの特性や場所の情報などから不足している学習データを収集可能なデバイスを抽出し、学習データの取得条件とともに、学習データの収集要求をデータ収集部131に送信する。
【0061】
また、例えば、充足手段情報が“データ自動生成”である場合に、充足処理部133は、不足している学習データを補完するように、主データ及びメタデータを自動生成する。
充足処理部133は、学習データを補完した後に、学習データを含む学習データセットと、検索情報とを対応付けて学習データ記憶部123に記憶させる(図5を参照)。
【0062】
このように、充足処理部133は、学習データセットが充足されていない、且つ、充足手段情報が学習データの再収集である場合に、データ収集部131に主データ及びメタデータの収集を要求する。また、充足処理部133は、学習データセットが充足されていない、且つ、充足手段情報が学習データの自動生成である場合に、学習データを自動生成する。
【0063】
キーワード抽出部134は、利用者端末30から取得した検索依頼情報(例えば、検索依頼文など)に含まれる検索情報及び属性情報を検索キーワードとして抽出する。例えば、学習データ収集装置10が、利用者端末30から「三浦大根の画像を入手したい」という検索依頼文を取得した場合に、キーワード抽出部134は、例えば、「IMG」(画像データ)、「大根」、「三浦大根」などのキーワードを抽出する。
【0064】
また、学習データ収集装置10が、利用者端末30から「直近2日間の○○牧場の画像を入手したい」という検索依頼文を取得した場合に、キーワード抽出部134は、例えば、「IMG」(画像データ)、「牛」、「○○牧場」(in ○○牧場)、「2日間」(days 2)などのキーワードを抽出する。
【0065】
検索処理部135は、指定された検索情報に基づいて、学習データ記憶部123から学習データセットを検索する。検索処理部135は、利用者端末30から送信された検索情報に基づいて、学習データ記憶部123が記憶する学習データセットを検索し、検索された学習データセットを利用者端末30に出力する。
【0066】
また、検索処理部135は、例えば、図5に示す検索情報と属性情報(種類、及びデータ量)とを組み合わせて、学習データセットを検索する。検索処理部135は、例えば、キーワード抽出部134が抽出した検索情報と属性情報との組み合わせにより、学習データセットを検索する。
【0067】
なお、図1において、利用者端末30及びAIサービスサーバ40は、学習データ収集装置10を利用する場合に用いられる構成であり、学習データ収集システム1には、含めなくてもよい構成である。
【0068】
利用者端末30(端末装置の一例)は、例えば、AIなどの機械学習を実行しようとする利用者が所有する端末装置であり、例えば、パーソナルコンピュータ(PC)やモバイル端末などである。ここで、利用者には、個人の他に、企業などの組織又は団体が含まれる。
【0069】
利用者端末30は、利用者から検索情報を受け付け、受け付けた検索情報を含む学習データの提供依頼(検索依頼)を、ネットワークNW1を介して、学習データ収集装置10に送信し、学習データ収集装置10から、ネットワークNW1を介して、検索情報に対応する学習データ(学習データセット)を入手する。
【0070】
また、利用者端末30は、学習データ収集装置10から入出した学習データ(学習データセット)を、ネットワークNW1を介して、AIサービスサーバ40に提供して、機械学習サービスを利用する。
【0071】
AIサービスサーバ40は、機械学習のサービスを提供するサーバ装置である。AIサービスサーバ40は、例えば、利用者端末30から提供された学習データ(学習データセット)によって、各種の機械学習を実行する。
【0072】
次に、図面を参照して、本実施形態による学習データ収集システム1及び学習データ収集装置10の動作について説明する。
まず、図6を参照して、学習データ収集システム1の学習データ収集装置10による学習データの収集処理について説明する。
【0073】
図6に示すように、学習データ収集装置10は、まず、主データ及びメタデータを収集する(ステップS101)。学習データ収集装置10のデータ収集部131は、例えば、IoT機器21などから農作物を撮像した画像データなどの主データを、NW通信部11を介して取得するとともに、IoT機器21及びデータサーバ24などから、当該主データに対応するメタデータを、NW通信部11を介して取得する。ここで、画像データには、IoT機器21又はドローン22が撮像した画像データが含まれ、メタデータには、ドローン22及びセンサ部23が検出したメタデータが含まれる。
【0074】
次に、学習データ収集装置10のアノテーション処理部132は、主データにメタデータを付加して学習データを生成する(ステップS102)。アノテーション処理部132は、例えば、データ収集部131が収集した画像データなどの主データに対応するメタデータを付加する。なお、アノテーション処理部132は、データ収集部131が収集したメタデータをそのまま付加してもよいし、画像データなどの主データから生成したメタデータ(例えば、画像の注釈(説明)や画像サイズなど)を付加してもよい。
【0075】
次に、学習データ収集装置10の充足処理部133は、充足判定条件に基づいて、各学習データが充足されているかを判定する(ステップS103)。充足処理部133は、アノテーション処理部132が付加したメタデータと、充足条件記憶部122が記憶する充足判定条件とに基づいて、学習データが充足されているかを判定する。ここで、図7を参照して、充足処理部133による学習データが充足されているかの処理の具体例について説明する。
【0076】
図7は、本実施形態による学習データの充足判定の一例を示す図である。
図7に示すグラフは、横軸が温度(℃)であり、縦軸が日照量であり、各白丸のマークが温度に対する日照量の各取得データを示している。また、温度及び日照量は、メタデータである。ここでの充足判定の基準は、温度が、温度Tp1から温度Tp2の間で、日照量がMinからMaxの間の範囲内であり、且つ、各点が、偏りなく分布していることである。
【0077】
図7に示す例では、取得データERR1は、範囲から外れており、測定時の取得エラーの可能性がある。また、取得データERR2の付近の取得データがなく、取得データの偏りが発生している。すなわち、取得データERR2の付近は、取得データの偏りにより不足している部分に相当する。
充足処理部133は、充足判定条件に基づいて、学習データセットが充足されているかを判定する。
【0078】
図6の説明に戻り、次に、充足処理部133は、不足データがあるか否かを判定する(ステップS104)。充足処理部133は、上述したステップS103の充足判定により、学習データが不足しているか否か(学習データセットが充足されているか否か)を判定する。充足処理部133は、不足データがあると判定された場合(ステップS104:YES)に、処理をステップS106に進める。また、充足処理部133は、上述したステップS103により不足データがない(すなわち、学習データセットが充足されている)と判定された場合(ステップS104:NO)に、処理をステップS105に進める。
【0079】
ステップS105において、充足処理部133は、検索情報と対応付けて、学習データのセットを学習データ記憶部123に記憶させる。充足処理部133は、例えば、図5に示すように、検索情報と学習データセットとを対応付けて、学習データ記憶部123に記憶させる。ステップS105の処理後に、充足処理部133は、学習データの収集処理を終了する。
【0080】
また、ステップS106において、充足処理部133は、充足条件記憶部122から充足手段情報を取得する。ここでの充足手段情報は、“データ再収集”と、“データ自動生成”とのいずれかである。
【0081】
次に、充足処理部133は、充足手段情報に基づいて、不足データを再収集するか否かを判定する(ステップS107)。充足処理部133は、例えば、充足手段情報が“データ再収集”である場合に、不足データを再収集すると判定し、例えば、充足手段情報が“データ自動生成”である場合に、不足データを再収集しないと判定する。充足処理部133は、不足データを再収集する場合(ステップS107:YES)に、処理をステップS108に進める。また、充足処理部133は、不足データを再収集しない場合(ステップS107:NO)に、処理をステップS110に進める。
【0082】
ステップS108において、充足処理部133は、IoT機器21及びドローン22に不足データを再取得させる。充足処理部133は、例えば、デバイス情報記憶部121を参照して、各デバイスのメタデータの特性や場所の情報などから不足している学習データを収集可能なデバイスを抽出し、学習データの取得条件とともに、学習データの収集要求をデータ収集部131に送信する。データ収集部131は、充足処理部133からの学習データの収集要求に応じて、不足している学習データを取得する取得条件によって、取得デバイス20(IoT機器21及びドローン22)に主データ及びメタデータを再取得させる。
【0083】
次に、データ収集部131は、再取得した主データ及びメタデータを収集する(ステップS109)。すなわち、データ収集部131は、IoT機器21から再取得した画像データなどの主データ及びメタデータを、NW通信部11を介して収集して、不足データ(不足していた学習データ)を再収集する。ステップS109の処理後に、データ収集部131は、処理をステップS102に戻す。
【0084】
また、ステップS110において、充足処理部133は、不足データを自動生成して補完する。充足処理部133は、例えば、GAN(Generative Adversarial Network)などの既存技術を利用して、不足している学習データを生成する。ステップS110の処理後に、充足処理部133は、処理をステップS105に進める。
【0085】
次に、図8を参照して、本実施形態の学習データ収集装置10による学習データの検索処理について説明する。
図8は、本実施形態による学習データ収集装置10の検索処理の一例を示すフローチャートである。
【0086】
図8に示すように、学習データ収集装置10の検索処理部135は、まず、検索依頼文を利用者端末30から取得する(ステップS201)。すなわち、検索処理部135は、利用者端末30が利用者から受け付けた、例えば、「三浦大根の画像を入手したい」などの検索依頼文を、NW通信部11を介して、利用者端末30から取得する。
【0087】
次に、学習データ収集装置10のキーワード抽出部134は、検索依頼文を解析して
検索キーワードを抽出する(ステップS202)。キーワード抽出部134は、例えば、「三浦大根の画像を入手したい」の検索依頼文から「IMG」(画像データ)、「大根」、「三浦大根」などの検索キーワードを抽出する。
【0088】
次に、検索処理部135は、検索キーワードに基づいて、学習データ記憶部123から学習データセットを抽出する(ステップS203)。検索処理部135は、例えば、「IMG」(画像データ)、「大根」、「三浦大根」に対応した、図5に示すデータセット名が“Daikon1”及び“Daikon2”のデータセットを抽出する。
【0089】
次に、検索処理部135は、抽出した学習データセットを利用者端末30に送信する(ステップS204)。検索処理部135は、学習データ記憶部123から、抽出した学習データセットを取得し、NW通信部11を介して、利用者端末30に送信(出力)する。ステップS204の処理後に、検索処理部135は、検索処理を終了する。
【0090】
以上説明したように、本実施形態による学習データ収集装置10は、学習データ記憶部123と、充足条件記憶部122と、アノテーション処理部132(付加処理部)と、充足処理部133とを備える。学習データ記憶部123は、取得デバイス20が取得した主データにメタデータを付加した学習データを複数含む学習データセットと、学習データセットと関連する検索情報とを対応付けて記憶する。充足条件記憶部122は、検索情報と、メタデータの種別と、学習データが充足されているか否かを判定するための充足判定条件と、不足している学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する。データ収集部131は、主データと、当該主データに対応するメタデータとを収集する。アノテーション処理部132は、データ収集部131が収集した主データに対応するメタデータを付加する。充足処理部133は、アノテーション処理部132が付加したメタデータと、充足条件記憶部122が記憶する充足判定条件とに基づいて、学習データセットが充足されているか否かを判定する。充足処理部133は、学習データが充足されていない場合に、不足している学習データを充足手段情報により補完し、学習データが充足されている場合に、学習データセットと、検索情報とを対応付けて学習データ記憶部123に記憶させる。
【0091】
これにより、本実施形態による学習データ収集装置10は、充足手段情報により、例えば、不足している学習データを再収集するのか、自動生成するのかを適切に判定することができ、効率よく適切な学習データを入手することができる。
【0092】
また、本実施形態による学習データ収集装置10は、充足条件記憶部122が記憶する充足判定条件に基づいて、学習データセットが充足されているか否かを判定するため、例えば、農業、牧畜、漁業、トンネル等の設備点検などの様々な分野に対応して、効率よく適切な学習データを入手することができる。
【0093】
また、本実施形態では、充足処理部133は、学習データセットが充足されていない、且つ、充足手段情報が学習データの再収集である場合に、データ収集部131に主データ及びメタデータの収集を要求する。また、充足処理部133は、学習データセットが充足されていない、且つ、充足手段情報が学習データの自動生成である場合に、学習データを自動生成する。
【0094】
これにより、本実施形態による学習データ収集装置10は、不足している学習データを再収集するのか、自動生成するのかを明確に切り分けることができる。
【0095】
また、本実施形態による学習データ収集装置10は、指定された検索情報に基づいて、学習データ記憶部123から学習データセットを検索する検索処理部135を備える。
これにより、本実施形態による学習データ収集装置10は、検索情報に基づいて、適切な学習データセットを容易に検索することができる。
【0096】
また、本実施形態では、学習データ記憶部123は、主データの種類及び主データのデータ量を含む属性情報と、検索情報と、学習データとを対応付けて記憶する。検索処理部135は、検索情報と属性情報とを組み合わせて、学習データセットを検索する。
【0097】
これにより、本実施形態による学習データ収集装置10は、検索情報と属性情報とを組み合わせて検索することで、効率よく所望の学習データを入手することができる。
【0098】
また、本実施形態による学習データ収集装置10は、利用者端末から取得した検索依頼情報に含まれる検索情報及び属性情報を検索キーワードとして抽出するキーワード抽出部134を備える。検索処理部135は、キーワード抽出部134が抽出した検索情報と属性情報との組み合わせにより、学習データセットを検索する。
【0099】
これにより、本実施形態による学習データ収集装置10は、例えば、検索依頼文などの検索依頼情報から、適切な学習データセットを容易に検索することができ、さらに効率よく所望の学習データを入手することができる。
【0100】
また、本実施形態による学習データ収集システム1は、上記に記載の学習データ収集装置10と、少なくとも主データを取得する取得デバイス20(IoT機器21、ドローン22など)とを備える。
これにより、本実施形態による学習データ収集システム1は、学習データ収集装置10と同様の効果を奏し、効率よく適切な学習データを入手することができる。
【0101】
また、本実施形態による学習データ収集方法は、取得デバイスが取得した主データにメタデータを付加した学習データを複数含む学習データセットと、学習データセットと関連する検索情報とを対応付けて記憶する学習データ記憶部123と、検索情報と、メタデータの種別と、学習データが充足されているか否かを判定するための充足判定条件と、不足している学習データを再収集するか否かの情報を含む充足手段情報とを対応付けて記憶する充足条件記憶部122と、を備える学習データ収集装置10の学習データ収集方法であって、データ収集ステップと、付加処理ステップと、充足処理ステップとを含む。データ収集ステップにおいて、データ収集部131が、主データと、当該主データに対応するメタデータとを収集する。付加処理ステップにおいて、アノテーション処理部132(付加処理部)が、データ収集ステップによって収集された主データに対応するメタデータを付加する。充足処理ステップにおいて、充足処理部133が、付加処理ステップによって付加されたメタデータと、充足条件記憶部122が記憶する充足判定条件とに基づいて、学習データセットが充足されているか否かを判定し、学習データセットが充足されていない場合に、不足している学習データを充足手段情報により補完し、学習データセットが充足されている場合に、学習データセットと、検索情報とを対応付けて学習データ記憶部123に記憶させる。
【0102】
これにより、本実施形態による学習データ収集方法は、学習データ収集装置10及び学習データ収集システム1と同様の効果を奏し、効率よく適切な学習データを入手することができる。
【0103】
なお、本発明は、上記の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の実施形態において、学習データ収集装置10は、1台の装置で構成する例を説明したが、これに限定されるものではなく、複数の装置によって構成されてもよい。
【0104】
また、上記の実施形態において、記憶部12が備える構成の一部又は全部を学習データ収集装置10の外部に設けるようにしてもよい。この場合、記憶部12が備える構成の一部又は全部は、ネットワークNW1に接続されたデータサーバなどであってもよい。
【0105】
また、上記の実施形態において、取得デバイス20が、IoT機器21と、ドローン22とである例を説明したが、これに限定されるものではなく、例えば、スマートフォンなどの携帯端末であってもよい。この場合、データ収集部131は、携帯端末の利用者に対して、不足している学習データを取得する取得条件を通知する構成としてもよい。
【0106】
また、上記の実施形態において、学習データ収集装置10は、検索した学習データセットのデータ量(サンプル数)が不足している場合に、複数の学習データセットを組み合わせて、所定数量のデータ量(サンプル数)の学習データセットを生成するようにしてもよい。例えば、三浦大根の学習データを700サンプル必要な場合に、充足処理部133は、図5に示す“Daikon1”と“Daikon2”とを統合して、700サンプルの学習データセットと利用者端末30に提供してもよい。
【0107】
なお、上述した学習データ収集システム1及び学習データ収集装置10が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した学習データ収集システム1及び学習データ収集装置10が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した学習データ収集システム1及び学習データ収集装置10が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。
【0108】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に学習データ収集システム1及び学習データ収集装置10が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0109】
また、上述した機能の一部又は全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0110】
1 学習データ収集システム
10 学習データ収集装置
11 NW通信部
12 記憶部
13 制御部
20 取得デバイス
21A、21B、21C IoT機器
22 ドローン
23A、23B、23C センサ部
24 データサーバ
30 利用者端末
40 AIサービスサーバ
121 デバイス情報記憶部
122 充足条件記憶部
123 学習データ記憶部
131 データ収集部
132 アノテーション処理部
133 充足処理部
134 キーワード抽出部
135 検索処理部
NW1 ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8