(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024123473
(43)【公開日】2024-09-12
(54)【発明の名称】学習データ提供システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240905BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023030917
(22)【出願日】2023-03-01
(71)【出願人】
【識別番号】390023249
【氏名又は名称】国際航業株式会社
(74)【代理人】
【識別番号】110001335
【氏名又は名称】弁理士法人 武政国際特許商標事務所
(72)【発明者】
【氏名】鈴木 久美子
(72)【発明者】
【氏名】横山 亮
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096BA20
5L096CA01
5L096JA28
5L096KA04
5L096KA15
(57)【要約】
【課題】本願発明の課題は、従来の問題を解決することであり、すなわち、学習済みモデルの生成により適した学習データを提供することができる学習データ提供システムを提供することである。
【解決手段】本願発明の学習データ提供システムは、中央装置と1又は2以上の端末装置を備えたものである。評価値算出手段によって得られた「推論評価値」と学習データに係る「計測ハイパーパラメータ」は中央装置に受け渡され、学習データ検出手段は、受け取った推論評価値と計測ハイパーパラメータに基づいて、学習データ記憶手段に記憶された既存学習データのなかから特定学習データを検出する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
中央装置と、
1又は2以上の端末装置と、を備え、
前記中央装置は、既存学習データを記憶する学習データ記憶手段と、該学習データ記憶手段に記憶された該既存学習データから特定学習データを検出する学習データ検出手段と、を有し、
前記端末装置は、学習データを機械学習することによって学習済みモデルを生成するモデル生成手段と、該学習済みモデルを用いた推論を評価し得る推論評価値を求める評価値算出手段と、を有し、
前記学習データは、地物を計測して得られた計測データを構成する分割領域ごとに特徴量及び属性情報が付与されたデータであって、計測に関するハイパーパラメータである計測ハイパーパラメータが関連付けられており、
前記既存学習データは、過去に地物を計測して得られた既存計測データに基づく前記学習データであり、
前記評価値算出手段によって得られた前記推論評価値と、前記学習データに係る前記計測ハイパーパラメータと、が前記中央装置に受け渡され、
前記学習データ検出手段は、受け取った前記推論評価値と前記計測ハイパーパラメータに基づいて、前記特定学習データを検出し、
前記学習データ検出手段によって検出された前記特定学習データが、前記端末装置に受け渡される、
ことを特徴とする学習データ提供システム。
【請求項2】
前記学習済みモデルを用いて推論を実行するとともに、前記推論評価値と前記計測ハイパーパラメータに基づくハイパーパラメータ探索を実行することによって新たに前記計測ハイパーパラメータを出力する推論手段を、さらに備えた、
ことを特徴とする請求項1記載の学習データ提供システム。
【請求項3】
前記モデル生成手段は、受け取った前記特定学習データをさらに機械学習することによって、新たな前記学習済みモデルを生成する、
ことを特徴とする請求項2記載の学習データ提供システム。
【請求項4】
前記推論手段は、新たに生成された前記学習済みモデルを用いて推論を実行し、
前記評価値算出手段は、前記推論手段によって実行された推論に係る前記推論評価値を求め、
また前記推論手段は、前記学習データに係る前記計測ハイパーパラメータと前記推論評価値に基づくハイパーパラメータ探索を実行することによって前記計測ハイパーパラメータを出力し、
前記評価値算出手段によって求められた前記推論評価値が、あらかじめ定められた許容値を満足しないときは、該推論評価値と新たな前記計測ハイパーパラメータとが前記中央装置に受け渡されるとともに、前記学習データ検出手段が該推論評価値と該計測ハイパーパラメータに基づいて新たな前記特定学習データを検出する、
ことを特徴とする請求項3記載の学習データ提供システム。
【請求項5】
前記計測ハイパーパラメータには、計測に関するパラメータ及び地物に関するパラメータが含まれる、
ことを特徴とする請求項1又は請求項2記載の学習データ提供システム。
【請求項6】
空中写真計測によって得られた前記計測データに付与される前記特徴量は、色情報又は濃淡情報に基づいて得られる値である、
ことを特徴とする請求項1又は請求項2記載の学習データ提供システム。
【請求項7】
レーザー計測によって得られた前記計測データに付与される前記特徴量は、反射強度に基づいて得られる値である、
ことを特徴とする請求項1又は請求項2記載の学習データ提供システム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、地物を計測して得られた計測データから目的の情報を推論する技術に関するものであり、より具体的には、推論するための学習済みモデルを生成するにあたってより適当な学習データを提供する学習データ提供システムに関するものである。
【背景技術】
【0002】
地図の作成や、地物の分類、土地利用の分類を行う場合、空中写真が利用される。具体的には、空中写真を判読することによって、建物や農地、道路、河川、森林などを読み取って地図を作成し、あるいは地物や土地利用の分類を行うわけである。なおここでいう「地物」とは、橋梁やオフィスビルといった人工物や、河川や海、森林といった自然物をはじめとする地形、あるいはコンクリート構造物のひび割れなど、地上に存在するあらゆる「物」の総称である。
【0003】
空中写真は、航空写真とも称され、地上の状態を忠実に再現するため上空から撮影される画像である。空中写真を取得するにあたっては、飛行機やヘリコプターを使用して上空から撮影したり、衛星から撮影したり、あるいはクレーン車や気球などを使用して撮影されることもある。そして地図作成などを目的とするケースでは、専用のカメラによって鉛直下方を撮影した垂直写真が取得される。なお、土地の利用は年々変化するため、定期的に同じ地域の空中写真が取得され、例えば国土地理院では平野部について5~10年周期で撮影している。
【0004】
上記したとおり空中写真を判読することによって、建物や農地といった種々の地物が抽出される。従来この写真判読は、オペレータの目視によって行われるのが主流であった。しかしながら、空中写真は広範囲を撮影したものであり、目視による写真判読はオペレータにとって相当に負担がかかる作業であり、また誤判読などいわゆるヒューマンエラーを完全に排除することは難しかった。
【0005】
そこで近年では、画像認識の技術を利用して地物の種類を選別する処理が行われることも増えてきた。つまり、ソフトウェアに係る処理をコンピュータが実行することによって、空中写真から地物の種類を自動抽出するわけである。このように自動抽出された地物の種類を最終判断として取り扱うこともあるし、その結果は一次的な判断としたうえで(つまり、スクリーニング処理としたうえで)最終的にオペレータが目視判断することもある。
【0006】
また、空中写真から地物の種類を自動抽出するにあたっては、機械学習(ML:Machine Learning)に関する技術が利用されることもある。この機械学習は、人工知能(AI:Artificial Intelligence)を支える技術の1つであり、学習用データを機械学習する(例えば、ディープラーニングなど)ことによって、目的の情報を出力することができるモデル(学習済みモデル)を生成するものである。例えば特許文献1では、空中写真を所定サイズで切り出して窓画像を作成するとともに、その窓画像をクラス分類したうえで学習データとして格納する技術について提案している。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1に開示される技術は、建物の状況に応じた学習データを作成する技術であり、すなわち1の空中写真を複数に切り分けた窓画像ごとにクラス分類(例えば、Sサイズの建物占有率が高い窓画像など)したうえで、それぞれクラスごとの学習データセットを格納するものである。そして、Sサイズの建物占有率が高い地域では、Sサイズの建物占有率が高いクラスの窓画像を学習し、Lサイズの建物占有率が高い地域では、Lサイズの建物占有率が高いクラスの窓画像を学習することとなる。
【0009】
ところで、機械学習によって学習済みモデルを生成するには、当該推論問題に適した学習データを学習することが望ましい。例えば、特許文献1に示すように地形のうち建物に関する情報を推論する場合、1の空中写真に基づいて作成される学習データを用いるよりも、複数時期に撮影された異なる空中写真に基づいて作成された学習データを用いて学習済みモデルを生成する方が、より適切な推論結果が得られやすい。地物計測用の空中写真は、同じ地域を撮影したとしても、撮影する時期(季節)によって、撮影する日の天候によって、あるいは使用する撮影機器の違いによって、画像の特徴が異なるからである。例えば、RGBの3バンドによって構成される空中写真では、たとえ同じ場所を撮影したものであっても、撮影時期や天候によってその色属性(色彩、明度、彩度)が著しく異なることもある。そのため、1時期(あるいは少ない時期)に撮影された空中写真に基づいて学習データを作成し、この学習データを学習した学習済みモデルでは、適切な推論を実行できないおそれもある。
【0010】
上記したとおり、機械学習によって学習済みモデルを生成するには当該推論問題に適した学習データを用意することが望ましいものの、はじめからそのような学習データを用意することは容易ではない。通常は、解析者が学習データのメタデータや統計値等をもとに閾値(以下、「学習用ハイパーパラメータ」という。)を変更しながら学習データのサブセットを作成したうえで学習済みモデルを生成してその推論結果(ロスなど)を確認し、許容できる推論結果が得られた段階でその学習済みモデルを確定していた。一方、地物に関する情報を推論する場合、学習データには地物計測に関連するようなハイパーパラメータ(以下、単に「計測ハイパーパラメータ」という。)が関連付けられることがあり、この計測ハイパーパラメータとしては空中写真に関する情報や、地物(建物など)に関する情報、計測業務に関する情報などが含まれる。
【0011】
従来、学習済みモデルを生成する際、学習データの計測ハイパーパラメータを変更するにあたっては、人間がその経験に頼りつつその都度、計測ハイパーパラメータを定めていた。そのため、最終的な学習済みモデルを得るまでに相当な期間を要するうえに、相当なコストがかかっていた。
【0012】
本願発明の課題は、従来の問題を解決することであり、すなわち、学習済みモデルの生成により適した学習データを提供することができる学習データ提供システムを提供することである。
【課題を解決するための手段】
【0013】
本願発明は、提供された「推論評価値(暫定的な学習済みモデルによる推論評価値)」と「計測ハイパーパラメータ」に基づいてハイパーパラメータ探索を実行し、当該推論問題により適した学習データを選出する、という点に着目したものであり、従来にはなかった発想に基づいてなされた発明である。
【0014】
本願発明の学習データ提供システムは、中央装置と1又は2以上の端末装置を備えたものである。この中央装置は、既存学習データを記憶する学習データ記憶手段と、学習データ記憶手段に記憶された既存学習データから特定学習データを検出する学習データ検出手段を有するものである。一方の端末装置は、学習データを機械学習することによって学習済みモデルを生成するモデル生成手段と、学習済みモデルを用いた推論に係る推論評価値を求める評価値算出手段を有するものである。なお学習データは、地物を計測して得られた計測データを構成する分割領域(画像における画素に相当)ごとに特徴量及び属性情報が付与されたデータであって、計測に関する計測ハイパーパラメータが関連付けられたものであり、既存学習データは、過去に地物を計測して得られた既存計測データに基づく学習データである。ここで「特徴量」とは、例えば画像の場合は画像特徴量、また点群の場合は点群特徴量であり、分割領域ごとの特徴を表す値の総称である。評価値算出手段によって得られた「推論評価値」と学習データに係る「計測ハイパーパラメータ」は中央装置に受け渡され、学習データ検出手段は、受け取った推論評価値と計測ハイパーパラメータに基づいて、学習データ記憶手段に記憶された既存学習データのなかから特定学習データを検出する。そして学習データ検出手段によって検出された特定学習データが、端末装置に受け渡される。
【0015】
本願発明の学習データ提供システムは、推論手段を、さらに備えたものとすることもできる。この推論手段は、学習済みモデルを用いて推論を実行するとともに、推論評価値と計測ハイパーパラメータに基づくハイパーパラメータ探索を実行することによって新たに計測ハイパーパラメータを出力する手段である。
【0016】
本願発明の学習データ提供システムは、受け取った特定学習データをさらに機械学習することによって新たな学習済みモデルを生成するものとすることもできる。
【0017】
本願発明の学習データ提供システムは、推論手段が新たに生成された学習済みモデルを用いて推論を実行するものとすることもできる。この場合、評価値算出手段は、推論手段によって実行された推論に係る推論評価値を求める。また推論手段は、推論評価値と計測ハイパーパラメータに基づくハイパーパラメータ探索を実行することによって新たな計測ハイパーパラメータを出力する。そして、評価値算出手段によって求められた新たな推論評価値が、あらかじめ定められた許容値を満足しないときは、推論評価値と新たな計測ハイパーパラメータ(ハイパーパラメータ探索によって出力された計測ハイパーパラメータ)が再び中央装置に受け渡されるとともに、学習データ検出手段が推論評価値と新たな計測ハイパーパラメータに基づいて新たな特定学習データとして検出する。
【0018】
本願発明の学習データ提供システムは、「計測に関するパラメータ」と「地物に関するパラメータ」が計測ハイパーパラメータに含まれたものとすることもできる。
【0019】
本願発明の学習データ提供システムは、既存計測データや新規計測データが空中写真計測によって得られた場合、それぞれの分割領域に付与される特徴量を色情報や濃淡情報に基づいて得られる値としたものとすることもできる。
【0020】
本願発明の学習データ提供システムは既存計測データや新規計測データがレーザー計測によって得られた場合、それぞれの分割領域に付与される特徴量を反射強度に基づいて得られる値としたものとすることもできる。
【発明の効果】
【0021】
本願発明の学習データ提供システムには、次のような効果がある。
(1)地物に関する情報を推論するための学習済みモデルを生成するにあたって、従来技術に比べてより適当な学習データを容易に入手することができる。
(2)適当な学習データを容易に入手することができることから、従来技術に比べてより適切に推論することができる。
(3)適当な学習データを容易に入手することができることから、最終的な学習済みモデルを得るまでの期間やコストを軽減することができる。
【図面の簡単な説明】
【0022】
【
図1】本願発明の学習データ提供システムを構成する主な装置を模式的に示すモデル図。
【
図2】本願発明の学習データ提供システムの主な構成を示すブロック図。
【
図3】複数の分割領域によって構成される地形モデルを模式的に示すモデル図。
【
図4】計測ハイパーパラメータの例を説明するモデル図。
【
図5】2種類の計測ハイパーパラメータによって尤度を表す探索用関数のグラフ図。
【
図6】本願発明の学習データ提供システムの主な処理の流れの一例を示すフロー図。
【発明を実施するための形態】
【0023】
本願発明の学習データ提供システムの実施形態の一例を、図に基づいて説明する。
【0024】
1.全体概要
本願発明は、地物を計測して得られたデータ(以下、「計測データ」という。)から、その計測データに含まれる種々の情報を把握するための技術であって、機械学習によって生成されるモデル(以下、「学習済みモデル」という。)に計測データを入力することで目的とする情報を推論するための技術である。より詳しくは、学習済みモデルを生成するにあたって、すなわち機械学習を実行するにあたって必要な学習用のデータ(以下、「学習データ」という。)を提供するものである。なお本願発明が対象とする地物データは、空中写真計測によって得られる「空中写真(オルソ画像)」のほか、レーザー計測によって得られる「点群データ」など、従来用いられている種々の計測によって得られるデータである。また本願発明では、過去の計測によって得られた計測データに加え、新たに得られた(今回計測した)計測データを利用する。そこで便宜上ここでは、過去の計測に係る計測データのことを「既存計測データ」、新規の計測に係る計測データのことを「新規計測データ」ということとし、さらに既存計測データに基づいて作成される学習データのことを「既存学習データ」、新規計測データに基づいて作成される学習データのことを「新規学習データ」ということとする。
【0025】
上記したとおり本願発明は、計測データに含まれる種々の情報を推論するための技術である。そして推論しようとする情報は、本願発明を実施する者が任意に設定することができる。例えば、計測データのうちの地盤と非地盤(地物)の領域を推論したり、地物の種別(建物、田畑、道路、河川、橋梁など)を推論したり、土地の利用状況(商業地区、工業地区、農地、山林など)を推論したり、構造物の面積や高さを推論したり、建物の密集度から居住者数や人口密度を推論したりするために利用することができる。
【0026】
2.学習データ提供システム
本願発明の学習データ提供システムについて説明する。本願発明の学習データ提供システム100は、
図1に示すように中央装置(以下、「学習データバンク200」という。)と、1又2以上(図では4つ)の端末装置300を備えたものである。それぞれの端末装置300は、無線(あるいは有線)通信手段によって学習データバンク200に接続されており、相互に種々の情報(データ)を送受信することができる。
【0027】
図2に示すように学習データバンク200は、学習データ記憶手段201と学習データ検出手段202を含んで構成される。一方の端末装置300は、モデル生成手段301と評価値算出手段303を含んで構成され、さらに推論手段302を含んで構成することもできる。
【0028】
学習データ検出手段202とモデル生成手段301、推論手段302、評価値算出手段303は、専用のものとして製造することもできるし、汎用的なコンピュータ装置を利用することもできる。すなわち、所定のプログラムによってコンピュータ装置に演算処理を実行させることで、それぞれの手段特有の処理を行うわけである。このコンピュータ装置は、CPU等のプロセッサ、ROMやRAMといったメモリを具備しており、さらにマウスやキーボード等の入力手段やディスプレイを含むものもあり、例えばパーソナルコンピュータ(PC)やサーバなどによって構成することができる。なお、
図1に示すように学習データバンク200と端末装置300はそれぞれ別の装置とし、すなわち学習データ検出手段202を構成するコンピュータ装置と、モデル生成手段301と推論手段302、評価値算出手段303を構成するコンピュータ装置とは異なるものとすることができる。あるいは、1のコンピュータ装置に、学習データ検出手段202とモデル生成手段301、推論手段302、評価値算出手段303を構成することもできる。
【0029】
また、学習データ記憶手段201は、汎用的コンピュータ(例えば、パーソナルコンピュータ)の記憶装置を利用することもできるし、データベースサーバに構築することもできる。データベースサーバに構築する場合、ローカルなネットワーク(LAN:Local Area Network)に置くこともできるし、インターネット経由で保存するクラウドサーバとすることもできる。
【0030】
以下、本願発明の学習データ提供システム100を構成する主な要素ごとに詳しく説明する。
【0031】
(学習データ記憶手段)
学習データバンク200の学習データ記憶手段201は、既存計測データに基づいて作成された学習データ、すなわち既存学習データを記憶する手段である。なお学習データ記憶手段201には、複数の(できれば数多くの)既存学習データが記憶される。ここで、学習データ提供システム100に用いられる学習データ(既存学習データと新規学習データ)について詳しく説明する。
【0032】
学習データの基礎となる計測データは、
図3に示すように計測範囲が複数(図では12×15)の小領域(以下、「分割領域PX」という。)に分割されたもので、換言すれば複数の分割領域PXによって形成されたものである。また計測データには、「計測ハイパーパラメータ」が関連付けられている。この計測ハイパーパラメータは、学習用ハイパーパラメータとは異なる概念であり、当該計測データに関するデータであって種々の情報を採用することができる。例えば
図4では、「空中写真計測に関する情報(計測に関する情報)」と「地物に関する情報」、「計測業務に関する情報」を計測ハイパーパラメータとして採用しており、空中写真計測に関する情報と地物に関する情報、計測業務に関する情報それぞれの具体例を示している。もちろん、地形計測に関する情報と地物に関する情報、計測業務に関する情報のうちいずれか1つ(あるいは2つ以上)の情報を採用することもできるし、これらの情報に限らず他の情報を計測ハイパーパラメータとして採用することもできる。また、
図4で例示した具体的な情報(撮影時期や解像度など)のうち複数の情報を組み合わせて採用することもできるし、いずれか1つの情報を採用することもできる。
【0033】
学習データは、計測データを構成するそれぞれの分割領域PXに、計測データから得られる「特徴量」と教師データである「属性情報」が付与されることで作成される。ここで特徴量とは、文字どおり分割領域ごとの特徴を示す物理量である。例えば、空中写真計測によって得られた計測データ(例えば、オルソ画像)を利用する場合は、色情報や濃淡情報、3次元座標などを特徴量とすることができ、またレーザー計測によって得られた計測データ(点群データ)を利用する場合は、反射強度や3次元座標などを特徴量とすることができる。
【0034】
なお色情報とは、色をモデル化したときの値であり、このモデル化としては赤(Red)・緑(Green)・青(Blue)の3色を基本色とするRGB、シアン(Cyan)・マゼンタ(Magenta)・イエロー(Yellow)・ブラック(Key color)の4色を基本色とするCMYK、黄・赤・青・緑・黒・白の6色を基本色とするNCSやオストワルト表色系などのモデルを用いるとよい。また濃淡情報とは、いわゆる「グレースケール」のことであり、白から黒まで複数の段階に分けるモデルにおいて、濃淡の程度を特定する値である。さらに反射強度とは、地物で反射したレーザーパルスの反射波をセンサで受信したときの強度(直接的には電圧として計測される値)であり、いわば受信した反射波のエネルギーの大きさである。
【0035】
また属性情報とは、推論しようとする情報のことであり、いわば正解となるタグ情報のことである。例えば、地盤と非地盤(地物)を推論する場合は分割領域PXごとに地盤あるいは非地盤が付与され、地物の種別を推論する場合は分割領域PXごとに建物や田畑、道路などを付与するわけである。なお推論するにあたっては、分割領域PXごと推論する仕様とすることもできるし、点や線、ポリゴン単位で推論する仕様とすることもできる。
【0036】
既述したとおり、学習データのうち既存学習データは既存計測データに基づいて作成され、学習データのうち新規学習データは新規計測データに基づいて作成される。そして計測データには、計測ハイパーパラメータが関連付けられている。すなわち既存学習データと新規学習データは、それぞれ分割領域PXごとに特徴量と属性情報が付与されたデータであって、計測ハイパーパラメータが関連付けられたデータである。
【0037】
(モデル生成手段)
端末装置300のモデル生成手段301は、複数の学習データ(以下、複数のデータという意味で「学習データセット」という。)を機械学習することによって学習済みモデルを生成する手段である。ここで用いられる学習データは、既存計測データに基づいて作成された既存学習データであり、さらに新規計測データに基づいて作成された新規学習データを含めることもできる。ただし、学習済みモデルを生成するための既存学習データは、学習データ記憶手段201に記憶されたものに限らず、端末装置300に係る者(以下、単に「ユーザ」という。)が独自に作成した既存学習データが含まれる。なお本願発明では、学習済みモデルを生成するための機械学習技術として、深層学習(deep learning)をはじめとする種々の技術を採用することができる。
【0038】
(推論手段と評価値算出手段)
端末装置300の推論手段302は、目的の情報(例えば、地物の種別)を推論する手段であり、入力用データを学習済みモデルに入力するとこの推論手段302が目的の情報を出力する。なお入力用データは、新規計測データを構成するそれぞれの分割領域PXに「特徴量」が付与されることで作成され、あるいは分割領域PXごとの特徴量に加えて、計測ハイパーパラメータを関連付けたものを入力用データとしてもよい。
【0039】
推論手段302は、推論を行うとともに、新たに計測ハイパーパラメータの候補を出力することもできる。推論手段302が新たに計測ハイパーパラメータを出力するにあたっては、ハイパーパラメータ探索を実行する。なお、ここで実行するハイパーパラメータ探索としては、「Grid Search」や、「Random Search」、「Bayes Search」など従来用いられている種々の技術を利用することができる。
【0040】
例えば、計測ハイパーパラメータを説明変数、評価値算出手段303によって算出される推論評価値を目的変数とする関数(以下、「探索用関数」という。)を設定し、ここで設定された探索用関数を用いて特定の計測ハイパーパラメータ(以下、単に「特定ハイパーパラメータ」という。)を抽出することができる。このとき、推論評価値が尤度を示す値であれば探索用関数は尤度を出力する関数となり、推論評価値がロスを示す値であれば探索用関数はロスを出力する関数となる。
図5は、2種類の計測ハイパーパラメータ(つまり、2つの説明変数X,Y)によって尤度f(X,Y)を表す探索用関数をグラフ化した図である。この図の場合、最も大きな尤度f(X,Y)を示す計測ハイパーパラメータ(2種類の計測ハイパーパラメータの組み合わせ)が特定ハイパーパラメータとして抽出される。例えば
図4のケースで、オーバーラップとサイドラップ(空中写真計測に関する情報)、担当者(計測業務に関する情報)を計測ハイパーパラメータとした場合、種々のオーバーラップとサイドラップ(例えば、50%以上、60%以上、70%以上、など)と担当者(例えば、担当者a、担当者b、担当者c、・・・担当者z、など)を組み合わせるとともに、それぞれの組み合わせを説明変数とした尤度(推論評価値)を求め、そのうち最も大きな尤度となるものを特定ハイパーパラメータ(例えば、オーバーラップ=60%以上、サイドラップ=70%以上、担当者hの組み合せ)として抽出する。一方、探索用関数がロスを出力する関数であれば、最も小さいロスを示す計測ハイパーパラメータ(あるいは計測ハイパーパラメータの組み合わせ)が特定ハイパーパラメータとして抽出される。もちろん、探索用関数を設定する計測ハイパーパラメータは、
図5に示すように2種類とすることもできるし、あるいは1種類の計測ハイパーパラメータによって探索用関数を設定することも、3種類以上の計測ハイパーパラメータによって探索用関数を設定することもできる。また、尤度やロスのほか例えば正解率なども推論評価値の対象とすることができる。
【0041】
端末装置300の評価値算出手段303は、モデル生成手段301によって生成された学習済みモデルを評価するためのいわば指標を算出する手段であり、推論手段302によって推論された結果について確からしさ(尤度)や誤り(ロス)を物理量(以下、「推論評価値」という。)として求める手段である。評価値算出手段303が推論評価値(尤度やロス)を算出するにあたっては、従来用いられている種々の技術を利用することができる。
【0042】
(学習データ検出手段)
学習データバンク200の学習データ検出手段202は、学習データ記憶手段201に記憶された複数の既存学習データの中から、より適当な既存学習データ(以下、特に「特定学習データ」という。)を検出する手段である。以下、学習データ検出手段202が特定学習データを検出する手順について説明する。
【0043】
まずは学習データバンク200が、端末装置300によって送信された計測ハイパーパラメータあるいは特定ハイパーパラメータと推論評価値を受け取る。ここで送信される計測ハイパーパラメータはモデル生成手段301が機械学習に用いた学習データセットに係る計測ハイパーパラメータ(つまり、機械学習の前にあらかじめ人が計測データに関連付けたハイパーパラメータ)であり、また特定ハイパーパラメータは推論手段302がハイパーパラメータ探索を実行することで出力した新たな計測ハイパーパラメータであり、推論評価値はモデル生成手段301によって生成された学習済みモデルによる推論に係る推論評価値である。
【0044】
計測ハイパーパラメータ(特定ハイパーパラメータ)と推論評価値を受け取ると、学習データ検出手段202は、この計測ハイパーパラメータ(特定ハイパーパラメータ)と推論評価値を手掛かりとして探索し、学習データ記憶手段201から特定学習データを検出する。具体的には、受け取った計測ハイパーパラメータ(特定ハイパーパラメータ)や推論評価値に近似する既存学習データを、特定学習データとして検出する。特定学習データとして検出するにあたっては、「Bag of Visual Words」や「T-SNE」など従来用いられている種々の技術を利用することができる。ただし、特定学習データは機械学習を実行するためのデータであるため、複数の特定学習データ(以下、複数のデータという意味で「特定学習データセット」という。)が検出される。
【0045】
学習データ検出手段202によって検出された特定学習データセットは、端末装置300に送信される。そしてモデル生成手段301が、ここで受信した特定学習データセットで改めて機械学習することによって学習済みモデルを生成する。さらに新たに生成された学習済みモデルを用いて推論手段302が改めて推論を実行するとともに新たに特定ハイパーパラメータを出力し、さらに評価値算出手段303が推論評価値を算出する。
【0046】
(処理の流れ)
以下、
図6を参照しながら本願発明の学習データ提供システム100の主な処理について詳しく説明する。
図6は、本願発明の学習データ提供システムの主な処理の流れの一例を示すフロー図であり、左側に学習データバンク200による処理を示し、右側に端末装置300による処理を示している。
【0047】
事前の処理として、学習データバンク200の学習データ記憶手段201に数多くの既存学習データが記憶される(
図6のStep411)。ここで記憶される既存学習データは、学習データバンク200側で作成したもののほか、それぞれの端末装置300から提供された既存学習データも含めることができる。
【0048】
ユーザ側(端末装置300側)では、複数の学習データ(学習データセット)を機械学習することによってモデル生成手段301が学習済みモデルを生成する(
図6のStep421)。ただし、この段階ではあくまで暫定的な学習済みモデルとして扱われる。そして、この学習済みモデルに入力用データを入力することによって推論手段302が目的の情報(例えば、地物の種別)を出力する(
図6のStep422)とともに、評価値算出手段303がその推論に対して推論評価値を算出し(
図6のStep423)、さらに推論手段302がハイパーパラメータ探索を実行することによって特定ハイパーパラメータを出力する(
図6のStep424)。
【0049】
推論評価値を算出すると、ユーザはあらかじめ定められた許容値と照らし合わせることによってその推論評価値(つまり推論した結果)を評価する(
図6のStep425)。例えば推論評価値が尤度である場合、推論評価値が許容値(閾値)を上回る(以上となる)ときは「適切(
図6のStep425のYes)」と評価し、推論評価値が許容値以下となる(下回る)ときは「不適(
図6のStep425のNo)」と評価する。あるいは推論評価値がロスである場合、推論評価値が許容値以下となる(下回る)ときは「適切(
図6のStep425のYes)」と評価し、推論評価値が許容値を超える(以上となる)ときは「不適(
図6のStep425のNo)」と評価する。
【0050】
推論評価値が「適切(
図6のStep425のYes)」と評価されると、その推論評価値に係る学習済みモデルを最終的な学習済みモデルとして確定し(
図6のStep428)、この学習済みモデルを用いて最終的な推論を実行する(
図6のStep429)。
【0051】
一方、推論評価値が「不適(
図6のStep425のNo)」と評価されると、この推論評価値と計測ハイパーパラメータ(以下、「検出用データ」という。)が送信され(
図6のStep426)、学習データバンク200がこれを受信する(
図6のSte412)。ここで送信される計測ハイパーパラメータは、モデル生成手段301が機械学習に用いた学習データセットに係る計測ハイパーパラメータとすることもできるし、ハイパーパラメータ探索によって出力された特定ハイパーパラメータとすることもできる。そして学習データ検出手段202が、この計測ハイパーパラメータ(特定ハイパーパラメータ)と推論評価値に基づいて学習データ記憶手段201から学習データセットを検出し(
図6のSte413)、この特定学習データセットが端末装置300に送信される(
図6のStep414)。
【0052】
端末装置300が特定学習データセットを受信すると(
図6のStep427)、受信した既存学習データセットを機械学習することによってモデル生成手段301が改めて学習済みモデルを生成する(
図6のStep421)。この段階でもやはり暫定的な学習済みモデルとして扱われる。そして、この新たな学習済みモデルに入力用データを入力することによって推論手段302が目的の情報を改めて出力する(
図6のStep422)とともに、評価値算出手段303がその推論に対して推論評価値を算出する(
図6のStep423)。そしてユーザは、許容値と推論評価値を照らし合わせることによってその推論評価値を評価する(
図6のStep425)。このように、推論評価値が「適切(
図6のStep425のYes)」と評価されるまで、一連の処理(
図6のStep421~Step427とStep412~Step414)が繰り返し実行される。
【産業上の利用可能性】
【0053】
本願発明の学習データ提供システムは、建物の抽出のほか、道路や鉄道域の抽出、種別ごとの農地の抽出、種別ごとの樹木の抽出など、地物に関する種々の情報の推論に利用することができる。本願発明によれば、地物に関する種々の情報を様々な地域で把握することができるため、社会インフラストラクチャーの計画や防災計画などに有効活用することができ、産業上利用できるばかりでなく社会的にも大きな貢献を期待し得る発明である。
【符号の説明】
【0054】
100 本願発明の学習データバンクシステム
200 (学習データバンクシステムの)学習データバンク
201 (学習データバンクの)学習データ記憶手段
202 (学習データバンクの)学習データ検出手段
300 (学習データバンクシステムの)端末装置
301 (端末装置の)モデル生成手段
302 (端末装置の)推論手段
303 (端末装置の)評価値算出手段
PX 分割領域