特許第6182242号(P6182242)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機インフォメーションシステムズ株式会社の特許一覧

特許6182242データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
<>
  • 特許6182242-データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム 図000002
  • 特許6182242-データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム 図000003
  • 特許6182242-データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム 図000004
  • 特許6182242-データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム 図000005
  • 特許6182242-データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6182242
(24)【登録日】2017年7月28日
(45)【発行日】2017年8月16日
(54)【発明の名称】データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
(51)【国際特許分類】
   G06N 99/00 20100101AFI20170807BHJP
   G06N 3/08 20060101ALI20170807BHJP
【FI】
   G06N99/00 153
   G06N3/08
【請求項の数】9
【全頁数】15
(21)【出願番号】特願2016-117073(P2016-117073)
(22)【出願日】2016年6月13日
【審査請求日】2016年6月13日
(73)【特許権者】
【識別番号】394013002
【氏名又は名称】三菱電機インフォメーションシステムズ株式会社
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100166235
【弁理士】
【氏名又は名称】大井 一郎
(72)【発明者】
【氏名】尾崎 隆
(72)【発明者】
【氏名】後藤 央明
(72)【発明者】
【氏名】井ノ口 裕也
【審査官】 多賀 実
(56)【参考文献】
【文献】 特開2009−282686(JP,A)
【文献】 特開2011−175540(JP,A)
【文献】 特開2010−211468(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 99/00
G06N 3/08
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
データに対するラベリングを行うためのラベリングモデルを機械学習によって作成する、機械学習方法であって、
前記機械学習方法は、少なくとも、
第1ラベルを持つテストデータと、
第1ラベルを持たないテストデータと、
第1ラベルを持つ教師データと、
第1ラベルを持たない教師データと、
良グループに属する模範教師データと、
不良グループに属する模範教師データと、
を用いて実行される、機械学習方法において、
前記機械学習方法は、
模範教師データに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定する、第1教師判定ステップと、
良グループに属する教師データおよび不良グループに属する教師データに基づき、第1ラベリングモデルを作成する、第1ラベリングモデル作成ステップと、
第1ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第1予測ステップと、
第1予測ステップに係る第1予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち良グループに属する模範教師データとする、第1模範追加ステップと、
を備える、機械学習方法。
【請求項2】
前記第1ラベリングモデル作成ステップは、
1つ以上の教師データに基づき、第1ラベリングモデルを修正するステップと、
第1ラベリングモデルの修正が収束するか否かを判定するステップと、
を反復して実行することを含み、
前記機械学習方法は、
第1ラベリングモデルの修正が収束しない場合に、良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第2ラベリングモデルを作成するステップと、
第2ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第2予測ステップと、
第2予測ステップに係る第2予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち不良グループに属する模範教師データとする、第2模範追加ステップと、
をさらに備える、請求項1に記載の機械学習方法。
【請求項3】
前記第1予測精度が前記所定の基準より低い場合に、良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第2ラベリングモデルを作成するステップと、
第2ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第2予測ステップと、
第2予測ステップに係る第2予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち不良グループに属する模範教師データとする、第2模範追加ステップと、
をさらに備える、請求項1または2に記載の機械学習方法。
【請求項4】
第1模範追加ステップは、良グループに属する教師データを、良グループに属する模範教師データとするステップを含む、請求項1〜3のいずれか一項に記載の機械学習方法。
【請求項5】
第1模範追加ステップの後に、模範教師データに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定する、第2教師判定ステップと、
良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第5ラベリングモデルを作成するステップと、
をさらに備える、請求項1〜4のいずれか一項に記載の機械学習方法。
【請求項6】
前記第1教師判定ステップは、
第1ラベルを持ち良グループに属する模範教師データおよび第1ラベルを持ち不良グループに属する模範教師データに基づき、第3ラベリングモデルを作成するステップと、
第3ラベリングモデルに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定するステップと
を含む、請求項1〜5のいずれか一項に記載の機械学習方法。
【請求項7】
ラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義される、請求項1〜6のいずれか一項に記載の機械学習方法。
【請求項8】
請求項1〜7のいずれか一項に記載の方法を実行するコンピュータ。
【請求項9】
コンピュータに請求項1〜7のいずれか一項に記載の方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データに対するラベリングを行うためのラベリングモデルを機械学習によって作成する、機械学習方法に関する。また、本発明は、コンピュータおよびプログラムに関する。
【背景技術】
【0002】
機械学習を用いてデータのラベリングを行う技術が公知である。たとえば、画像データに対するラベリングは、画像認識等に応用可能である。機械学習の一方法では、予め正しいラベルが付されたデータ(教師データ)を用いて、ラベリングモデルを定義するパラメータを機械的に学習しておき、学習されたラベリングモデルを用いて未知データのラベリングを行う。このような技術の例は、特許文献1および非特許文献1に開示される。特許文献1および非特許文献1では、データとして画像データが扱われている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−189915号公報
【非特許文献】
【0004】
【非特許文献1】岡谷貴之、「ディープラーニングと画像認識―基礎と最近の動向―」、[online]、[平成28年4月22日検索]、インターネット<URL:http://www.orsj.or.jp/archive2/or60-4/or60_4_198.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の構成では、学習に用いる教師データの質を向上させることが困難であるという問題があった。
【0006】
たとえば特許文献1の構成では、教師データごとに確信レベルを人手で決定して入力するが、入力された確信レベルが適切かどうかを判断することができないので、教師データの質は保証されない。なお、非特許文献1には、教師データの質を向上させることについては記載がない。
【0007】
この発明は、このような問題点を解決するためになされたものであり、機械学習に用いる教師データの質を向上させることができる機械学習方法、コンピュータおよびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述の問題点を解決するため、この発明に係る機械学習方法は、
データに対するラベリングを行うためのラベリングモデルを機械学習によって作成する、機械学習方法であって、
前記機械学習方法は、少なくとも、
第1ラベルを持つテストデータと、
第1ラベルを持たないテストデータと、
第1ラベルを持つ教師データと、
第1ラベルを持たない教師データと、
良グループに属する模範教師データと、
不良グループに属する模範教師データと、
を用いて実行される、機械学習方法において、
前記機械学習方法は、
模範教師データに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定する、第1教師判定ステップと、
良グループに属する教師データおよび不良グループに属する教師データに基づき、第1ラベリングモデルを作成する、第1ラベリングモデル作成ステップと、
第1ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第1予測ステップと、
第1予測ステップに係る第1予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち良グループに属する模範教師データとする、第1模範追加ステップと、
を備える。
特定の実施態様によれば、
前記第1ラベリングモデル作成ステップは、
1つ以上の教師データに基づき、第1ラベリングモデルを修正するステップと、
第1ラベリングモデルの修正が収束するか否かを判定するステップと、
を反復して実行することを含み、
前記機械学習方法は、
第1ラベリングモデルの修正が収束しない場合に、良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第2ラベリングモデルを作成するステップと、
第2ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第2予測ステップと、
第2予測ステップに係る第2予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち不良グループに属する模範教師データとする、第2模範追加ステップと、
をさらに備える。
特定の実施態様によれば、
前記第1予測精度が前記所定の基準より低い場合に、良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第2ラベリングモデルを作成するステップと、
第2ラベリングモデルに基づき、複数のテストデータについて、第1ラベルを持つか否かを予測する、第2予測ステップと、
第2予測ステップに係る第2予測精度が所定の基準より高い場合に、第1ラベルを持ち不良グループに属する教師データを、第1ラベルを持ち不良グループに属する模範教師データとする、第2模範追加ステップと、
をさらに備える。
特定の実施態様によれば、第1模範追加ステップは、良グループに属する教師データを、良グループに属する模範教師データとするステップを含む。
特定の実施態様によれば、
第1模範追加ステップの後に、模範教師データに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定する、第2教師判定ステップと、
良グループに属する教師データに基づき、不良グループに属する教師データに基づかずに、第5ラベリングモデルを作成するステップと、
をさらに備える。
特定の実施態様によれば、
前記第1教師判定ステップは、
第1ラベルを持ち良グループに属する模範教師データおよび第1ラベルを持ち不良グループに属する模範教師データに基づき、第3ラベリングモデルを作成するステップと、
第3ラベリングモデルに基づき、第1ラベルを持つ教師データについて、良グループに属するか否かおよび不良グループに属するか否かを判定するステップと
を含む。
特定の実施態様によれば、ラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義される。
また、この発明に係るコンピュータは、上述の方法を実行する。
また、この発明に係るプログラムは、コンピュータに上述の方法を実行させる。
【発明の効果】
【0009】
この発明に係る機械学習方法、コンピュータおよびプログラムによれば、教師データとは別に準備される模範教師データを用いて、教師データの質を自動的に評価することができる。
【図面の簡単な説明】
【0010】
図1】本発明の実施の形態1に係る機械学習システムの構成の例を示す図である。
図2】第1教師判定ステップに係る処理の流れを説明するフローチャートである。
図3】第1教師判定ステップに係る動作の概略を説明する図である。
図4】模範教師改良ステップに係る処理の流れを説明するフローチャートである。
図5】模範教師改良ステップに係る動作の概略を説明する図である。
【発明を実施するための形態】
【0011】
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1に、本発明の実施の形態1に係る機械学習システム10の構成の例を示す。機械学習システム10は、データに対するラベリングを行うためのラベリングモデルを機械学習によって作成する、機械学習方法を実行するシステムである。機械学習システム10は、本明細書に記載される方法を実行するコンピュータである。
【0012】
「ラベリング」とは、各データについて何らかの判定を実行し、データに応じて異なり得る結果を得ることをいう。データはたとえば画像データである。画像データの表現形式はどのようなものであってもよいが、たとえばビットマップ形式であってもよく、公知の特徴量を用いた形式であってもよい。
【0013】
画像データに対するラベリングは、たとえば、各画像データが何を表す画像であるか(人であるか、物であるか、動物であるか、等)を判定する処理として実現することができる。判定はラベリングモデルに基づいて行われる。ラベリングモデルは、機械学習によって作成されるものであり、たとえば1つ以上のパラメータを用いて表現することができる。
【0014】
本実施形態では、ニューラルネットワークを用いて学習を実現する。たとえば、本実施形態におけるラベリングモデルは、複数のニューロン層を備えるニューラルネットワークにおいて、異なる層のニューロンを結合する重みを用いて定義される。このようなニューラルネットワークおよびラベリングモデルの具体例は、たとえば非特許文献1に開示される。非特許文献1には、ディープラーニングに係るラベリングモデルが開示されている。
【0015】
図1に示すように、機械学習システム10は公知のコンピュータとしての構成を有し、演算を行う演算手段11と、情報を格納する記憶手段12とを備える。演算手段11はたとえばCPU(中央処理装置)を含み、記憶手段12はたとえば半導体メモリおよびHDD(ハードディスクドライブ)を含む。記憶手段12は、図1に示すように各種の画像データを格納する。機械学習システム10は、これらの画像データを用いて、本実施形態に係る機械学習方法を実行する。
【0016】
記憶手段12はプログラム(図示せず)も格納しており、演算手段11がこのプログラムを実行することによって、機械学習システム10は本明細書に記載される機能を実現する。すなわち、このプログラムは、コンピュータに本明細書に記載の方法を実行させることにより、そのコンピュータを機械学習システム10として機能させる。
【0017】
また、機械学習システム10は、公知のコンピュータが通常備える他の構成要素を備えてもよい。たとえば、出力装置であるディスプレイおよびプリンタ、入力装置であるキーボードおよびマウス、通信ネットワークに対する入力装置と出力装置とを兼ねるネットワークインタフェース、等を備えてもよい。
【0018】
図1に示すように、画像データは、テスト画像を表すものと、教師画像を表すものと、模範教師画像を表すものとを含む。教師画像とは、ラベリングモデルを学習するために用いられるものである。テスト画像とは、ラベリングモデルの精度を評価するために用いられるものである。模範教師画像とは、教師画像の質を評価するために用いられるものである。本実施形態では、模範教師画像は、直接的にはラベリングモデルの学習には用いられない。
【0019】
テスト画像は、人を表すテスト画像《人》D1を少なくとも1つ含む。テスト画像《人》D1は、特定のラベルである「人」(第1ラベル)を持つ画像データである。また、テスト画像は、この「人」というラベルを持たない画像データを、少なくとも1つ含む。本実施形態では、「人」というラベルを持たない画像データの例として、別のラベルである「物」(第2ラベル)を持つテスト画像《物》D2を用いる。これらのラベルは事前にテスト画像に付与されている。なお、「人」というラベルを持たないテスト画像は、いかなるラベルも持たないテスト画像を含んでもよく、さらに別のラベル(たとえば「動物」)を持つテスト画像を含んでもよい。
【0020】
教師画像は、人を表す教師画像《人》T1を少なくとも1つ含む。教師画像《人》T1は、「人」というラベルを持つ画像データである。また、教師画像は、「人」というラベルを持たない画像データを、少なくとも1つ含む。本実施形態では、「人」というラベルを持たない画像データの例として、別のラベルである「物」を持つ教師画像《物》T2を用いる。これらのラベルは事前に教師画像に付与されている。なお、「人」というラベルを持たない教師画像は、いかなるラベルも持たない教師画像を含んでもよく、さらに別のラベルを持つ教師データを含んでもよい。
【0021】
模範教師画像は、人を表す模範教師画像を含む。人を表す模範教師画像は、「人」というラベルを持つ画像データである。人を表す模範教師画像は、特定のグループである「良」グループに属する模範教師画像《人・良》E1aと、別のグループである「不良」グループに属する模範教師画像《人・不良》E1bとを、それぞれ少なくとも1つ含む。人を表す模範教師画像のうち、いずれのグループにも属さないものが存在してもよい。ラベルの付与およびグループへの分類は、事前に行われる。
【0022】
模範教師画像は、人を表さない模範教師画像を含んでもよい。本実施形態では、人を表さない模範教師画像の例として、物を表す模範教師画像を用いる。物を表す模範教師画像は、「物」というラベルを持つ画像データである。物を表す模範教師画像もまた、人を表すものと同様に、「良」グループに属する模範教師画像《物・良》E2aと、「不良」グループに属する模範教師画像《物・不良》E2bとを、それぞれ少なくとも1つ含む。物を表す模範教師画像のうち、いずれのグループにも属さないものが存在してもよい。ラベルの付与およびグループへの分類は、事前に行われる。
【0023】
「良」グループおよび「不良」グループへの模範教師画像の分類は、任意の基準に従って行うことができる。たとえば、はっきりと人が現れているものについては「良」グループに分類し、よく見ると人であることが分かるが一見して人とは認識しづらいものについては「不良」グループに分類してもよい。このような分類は、たとえば、機械学習システム10の使用者が恣意的に行ってもよいし、なんらかの方法を用いて自動的に行ってもよい。
【0024】
また、「良」グループおよび「不良」グループへの模範教師画像の分類は、各模範教師画像について算出または決定される1つ以上のパラメータに基づいて行われてもよい。各パラメータはたとえば0%〜100%の間で評価される。このようなパラメータを用いると、模範教師画像の分類を自動的に行うことがより容易になる。
【0025】
パラメータの具体例として、「角度」、「色」、「形」および「大きさ」を用いることができる。「角度」とは、画像中に現れる対象物の向きが、どの程度良い向きであるかを表す。たとえば正面向きであれば高い値となり、後ろ向きであれば低い値となるように定義することができる。「色」は、画像全体の色が、どの程度対象物を認識しやすい色であるかを表す。たとえば明瞭な色であれば高い値となり、不鮮明な色であれば低い値となるように定義することができる。「形」および「大きさ」は、それぞれ画像中に現れる対象物の形および大きさが、どの程度良い形および大きさであるかを表す。たとえば、それぞれ認識しやすい形および大きさであれば高い値となり、認識しづらい形および大きさ後ろ向きであれば低い値となるように定義することができる。このようなパラメータの取得、算出または決定は、機械学習システム10の使用者が恣意的に行ってもよいし、公知技術を用いて自動的に行ってもよい。
【0026】
パラメータが複数定義される場合には、各パラメータを含む任意の関数を用いて良否判定を行うことができる。たとえば、ある模範教師画像に係る全パラメータの平均が80%以上であればその模範教師画像を「良」グループに分類し、そうでなければその模範教師画像を「不良」グループに分類してもよい。または、たとえば、ある模範教師画像に係る特定の1パラメータ(たとえば「角度」のパラメータ)が75%以上であり、かつ、他の3パラメータの平均が50%以上であれば、その模範教師画像を「良」グループに分類し、そうでなければその模範教師画像を「不良」グループに分類してもよい。
【0027】
また、「良」および「不良」の分類基準は、必ずしも人間が見た際のわかりやすさに沿ったものである必要はない。たとえば、画像処理技術を用いて自動的に決定できる値を用いて分類してもよいし、ランダムに分類してもよい。
【0028】
機械学習に係るラベルの種類は、テスト画像および教師画像を通じて共通である。たとえば本実施形態では、テスト画像および教師画像のいずれも、人を表すものと、物を表すものとを含む。また、本実施形態では、ラベルの種類は模範教師画像まで共通であるが、模範教師画像については、すべてのラベルのものを含む必要はない。たとえば、模範教師画像は人を表すもののみによって構成されてもよい(その場合には模範教師画像への「人」というラベルの付与は省略してもよい)。
【0029】
以上のような構成を備える機械学習システム10の動作を、以下に説明する。
図2および図3は、機械学習システム10(より厳密には、演算手段11。以下同じ)が実行する第1教師判定ステップ(第1教師判定処理)に係る動作を説明する図である。図2は処理の流れを説明するフローチャートであり、図3は各画像に関する動作の概略を説明する図である。
【0030】
第1教師判定ステップは、各教師画像について、良グループに属するか否かおよび不良グループに属するか否かを判定するステップである。この判定は、たとえば模範教師画像に基づいて行われる。判定の具体的処理はどのように実行されてもよいが、本実施形態では機械学習に基づいて行われる。
【0031】
機械学習システム10は、まず、模範教師画像に基づいて機械学習を実行し、特定のラベリングモデル(第3ラベリングモデルL3)を作成する(ステップS1)。第3ラベリングモデルL3は、教師画像の良否判定モデルとして機能する。
【0032】
本実施形態では、ステップS1において、模範教師画像《人・良》E1aと、模範教師画像《人・不良》E1bとに基づいて、人を表す画像についての良否判定基準を学習するとともに、模範教師画像《物・良》E2aと、模範教師画像《物・不良》E2bとに基づいて、物を表す画像についての良否判定基準を学習する。この処理はたとえば非特許文献1に開示される技術を用いて実現することができる。
【0033】
次に、機械学習システム10は、作成した第3ラベリングモデルL3に基づき、各教師画像について、良グループに属するか否かおよび不良グループに属するか否かを判定する(ステップS2)。判定対象となる各教師画像は、必ず良グループまたは不良グループのいずれかに属すると判定されるようにしてもよいし、いずれのグループにも属さないと判定される場合を許容してもよい。この処理はたとえば非特許文献1に開示される技術を用いて実現することができる。
【0034】
結果の一例として、図3に示すように、教師画像《人》T1の一部は教師画像《人・良》T1aに属し、別の一部は教師画像《人・不良》T1bに属することになる。また、教師画像《物》T2の一部は教師画像《物・良》T2aに属し、別の一部は教師画像《物・不良》T2bに属することになる。本実施形態に係る第1教師判定ステップは、以上のようにして実行される。なお、この第1教師判定ステップの実行は、後述する図4の処理のステップS15またはステップS16より前に完了する必要がある。
【0035】
図4および図5は、機械学習システム10が実行する模範教師改良ステップ(模範教師改良処理)に係る動作を説明する図である。図4は処理の流れを説明するフローチャートであり、図5は各画像に関する動作の概略を説明する図である。
【0036】
まず機械学習システム10は、第1ラベリングモデルL1を作成する(ステップS11、第1ラベリングモデル作成ステップ)。この処理は、良グループに属する教師データ(たとえば教師画像《人・良》T1aおよび教師画像《物・良》T2a)と、不良グループに属する教師データ(たとえば教師画像《人・不良》T1bおよび教師画像《物・不良》T2b)に基づいて行われる。
【0037】
ステップS11における第1ラベリングモデルL1の作成は、任意の機械学習方法で行うことができるが、たとえばイテレーション上限を定めて収束を待つ方法とすることができる。すなわち、1つ以上の教師画像に基づき、学習によって第1ラベリングモデルL1を修正するステップと、第1ラベリングモデルL1の修正が収束するか否か(収束したか否か)を判定するステップとを、反復して実行することを含む方法である。この反復は、たとえば修正回数が所定の上限値に達するまで行われる。
【0038】
第1ラベリングモデルL1の修正処理は、たとえば非特許文献1に開示される技術を用いて実現することができる。修正が収束するか否かの判定は、たとえば修正前の第1ラベリングモデルL1と修正後の第1ラベリングモデルL1とを比較して変化度を取得し、変化度が所定の収束基準を超えていれば収束しないと判定し、収束基準未満であれば収束すると判定する(等しい場合はいずれでもよい)、というようにして実現可能である。
【0039】
変化度の取得は任意の方法で行うことができるが、たとえば精度の指標の差分として変化度を算出してもよい。精度の指標はたとえば、学習に用いた教師画像そのものをすべて対象としてラベルの予測を行い、その予測に係る正答率と非見逃し率との関数として算出することができる。この関数は、たとえば交差検証(cross validation)に係る対角線の値(たとえば正答でしかも見逃していない画像の数)を与えるものとしてもよい。また、収束基準は、たとえば指数関数を用いて定義することができる。
【0040】
機械学習システム10は、ステップS11において学習による修正が収束したか否かに応じ、以降の処理を分岐させる(ステップS12)。収束した場合には、機械学習システム10は、第1ラベリングモデルL1に基づき、複数のテスト画像(たとえばテスト画像《人》D1およびテスト画像《物》D2)について、ラベルを予測する(ステップS13、第1予測ステップ)。すなわち、第1ラベリングモデルL1を適用することにより、そのテスト画像が人を表すものであるか否か(すなわち、「人」というラベルを持つか否か)、および、そのテスト画像が物を表すものであるか否か(すなわち、「物」というラベルを持つか否か)を予測する。
【0041】
次に、機械学習システム10は、ステップS13における予測結果の精度(以下「第1予測精度」という)を取得し、第1予測精度に応じて以降の処理を分岐させる(ステップS14)。この分岐は、たとえば第1予測精度と所定の精度基準との比較結果に応じて行われる。第1予測精度の評価は、任意の方法で行うことができるが、たとえば予測に係る正答率と非見逃し率との関数として算出することができる。この関数は、たとえば交差検証(cross validation)に係る対角線の値(たとえば正答でしかも見逃していない画像の数)を与えるものとしてもよい。
【0042】
第1予測精度が所定の精度基準より高い場合には、機械学習システム10は、教師画像《人・不良》T1bを、模範教師画像《人・良》E1aとするとともに、教師画像《物・不良》T2bを、模範教師画像《物・良》E2aとする(ステップS15、第1模範追加ステップ)。
【0043】
このステップS15の技術的意義の一例として、次のようなものを挙げることができる。第1ラベリングモデルL1は「良」「不良」双方の教師画像に基づいて作成されているので、第1予測精度が高いということは、「不良」グループに属する教師画像が精度に悪影響を与えていない可能性を示唆している。このため、さしあたり「不良」とされていた教師画像も、実際には学習に良い影響を与える教師画像である可能性が高いと考えられる。したがって、ステップS15の処理は、「良」の模範教師画像グループに、学習に良い影響を与える教師画像をさらに追加するものであると解釈することができる。これは、追加により更新された模範教師画像グループが、教師画像の良否判定をより適切に行えるものとなっているということを意味する。
【0044】
次に、機械学習システム10は、ステップS15において更新された模範教師画像に基づき、各教師画像について、第2教師判定ステップ(第2教師判定処理)を実行する(ステップS21およびS22)。第2教師判定ステップは、第1教師判定ステップと同様に、各教師画像について、良グループに属するか否かおよび不良グループに属するか否かを判定するステップである。ステップS21およびS22は、それぞれ、第1教師判定ステップに含まれるステップS1およびS2と同様にして実行可能である。
【0045】
判定の対象は、たとえば教師画像《人》T1および教師画像《物》T2であるが、これらに代えて人または物を表す新たな教師画像を用いてもよいし、教師画像《人》T1および教師画像《物》T2と新たな教師画像との組み合わせを用いてもよい。この処理は、たとえば第1教師判定ステップ(ステップS1およびS2)と同様にして行うことができる。ここで作成されるラベリングモデルを第4ラベリングモデル(図示せず)とする。
【0046】
ここで、上述のように、模範教師画像全体の集合は、学習により良い影響を与えるよう分類されたものとなっているので、その後に実行される第2教師判定ステップにおいて、各教師画像が実際に「良い」ものであるか否かを、より適切に判定することができるようになる。とくに、教師画像とは別に準備される模範教師画像を用いて、教師画像の質を自動的に評価することができるので、教師画像の質を容易に向上させることができる。
【0047】
次に、機械学習システム10は、教師画像《人・良》T1aおよび教師画像《物・良》T2aのみに基づき、新たなラベリングモデルを作成する(ステップS23)。すなわち、良グループに属する教師画像に基づき、不良グループに属する教師画像に基づかずに、新たなラベリングモデルを作成する。ここで作成されるラベリングモデルを第5ラベリングモデル(図示せず)とする。
【0048】
ここで、上述のステップS15が実行された結果として、教師画像の良否判定がより適切に行われ、教師画像《人・良》T1aおよび教師画像《物・良》T2aは、実際に「良い」教師画像、すなわち予測精度がより高いラベリングモデルを学習させる可能性の高い教師画像となる可能性がある。このため、第5ラベリングモデルは、画像(テスト画像またはその他の画像)のラベルを予測する処理において、第1ラベリングモデルL1よりも高い予測精度を得られる可能性がある。このように、機械学習システム10によれば、より的確なラベリングモデルを自動的に学習することが可能になる。
【0049】
上述のステップS12において、学習による第1ラベリングモデルL1の修正が収束しない場合、および、上述のステップS14において、第1予測精度が所定の精度基準より低い場合には、機械学習システム10は、良グループに属する教師データ(たとえば教師画像《人・良》T1aおよび教師画像《物・良》T2a)に基づき、不良グループに属する教師データ(たとえば教師画像《人・不良》T1bおよび教師画像《物・不良》T2b)には基づかずに、第2ラベリングモデルL2を作成する(ステップS16)。
【0050】
ステップS16における第2ラベリングモデルL2の作成は、任意の機械学習方法で行うことができるが、たとえばステップS11における第1ラベリングモデルL1の作成と同様に、イテレーション上限を定めて収束を待つ方法とすることができる。
【0051】
機械学習システム10は、ステップS16において学習による修正が収束したか否かに応じ、以降の処理を分岐させる(ステップS17)。収束した場合には、機械学習システム10は、第2ラベリングモデルL2に基づき、複数のテスト画像(たとえばテスト画像《人》D1およびテスト画像《物》D2)について、ラベルを予測する(ステップS18、第2予測ステップ)。すなわち、第2ラベリングモデルL2を適用することにより、そのテスト画像が人を表すものであるか否か(すなわち、「人」というラベルを持つか否か)、および、そのテスト画像が物を表すものであるか否か(すなわち、「物」というラベルを持つか否か)を予測する。
【0052】
次に、機械学習システム10は、ステップS18における予測結果の精度(以下「第2予測精度」という)を取得し、第2予測精度に応じて以降の処理を分岐させる(ステップS19)。この分岐は、たとえば第2予測精度と所定の精度基準との比較結果に応じて行われる。この精度基準は、ステップS14と同一の基準を用いることができるが、これとは異なる基準を用いてもよい。
【0053】
第2予測精度が所定の精度基準より高い場合には、機械学習システム10は、教師画像《人・不良》T1bを、模範教師画像《人・不良》E1bとするとともに、教師画像《物・不良》T2bを、模範教師画像《物・不良》E2bとする(ステップS20、第2模範追加ステップ)。
【0054】
このステップS20の技術的意義の一例として、次のようなものを挙げることができる。第2ラベリングモデルL2は、不良グループに属する教師画像を排除し、良グループに属する教師画像のみに基づいて作成されているので、第2予測精度が高いということは、「不良」グループに属する教師画像が精度に悪影響を与えた可能性を示唆している。したがって、ステップS20の処理は、「不良」の模範教師画像グループに、学習に悪い影響を与える教師画像をさらに追加するものであると解釈することができる。これは、追加により更新された模範教師画像グループが、教師画像の良否判定をより適切に行えるものとなっているということを意味する。
【0055】
ステップS20の後、機械学習システム10は、上述のステップS21に処理を進める。すなわち、上述のように第4ラベリングモデルを作成し、第4ラベリングモデルに基づいて教師画像の良否判定を行い、「良」教師画像のみに基づいて第5ラベリングモデルを作成する。
【0056】
ここで、上述のステップS20が実行された結果として、教師画像の良否判定がより適切に行われ、教師画像《人・良》T1aおよび教師画像《物・良》T2aは、実際に「良い」教師画像、すなわち予測精度がより高いラベリングモデルを学習させる可能性の高い教師画像となる可能性がある。このため、第5ラベリングモデルは、(テスト画像またはその他の画像)のラベルを予測する処理において、第1ラベリングモデルL1よりも高い予測精度を得られる可能性がある。このように、機械学習システム10によれば、より的確なラベリングモデルを自動的に学習することが可能になる。
【0057】
上述のステップS17において、学習による第2ラベリングモデルL2の修正が収束しない場合、および、上述のステップS19において、第2予測精度が所定の精度基準より低い場合には、機械学習システム10は処理を終了する。これは、たとえばその時点で存在する教師画像のみでは十分な学習ができないと判断されたことに相当する。この場合には、機械学習システム10の使用者は、新たな教師画像を追加し、図2および図4に示す処理を再実行する等の対応を取ることができる。
【0058】
以上説明するように、本発明の実施の形態1に係る機械学習システム10によれば、教師画像とは別に準備される模範教師画像を用いて教師画像の良否判定を行い、「不良」と判定された教師画像が実際に学習に悪影響を与えたかどうかを判定するので、教師画像の質を自動的に評価することができる。
【0059】
たとえば、ステップS14において第1予測精度が高い値であれば、良否に関わらず教師画像が模範教師画像となるので、妥当な「良」模範教師画像の数を自動的に増加させ、教師画像の良否判定基準をより安定させることができる。
【0060】
また、ステップS14において第1予測精度が低い値であれば、「不良」教師画像を排除して予測を再度実行する。ステップS19において第2予測精度が高い値であれば(その場合には「不良」教師画像が悪影響を与えていたと解釈可能である)、「不良」教師画像を正しく「不良」模範教師画像とし、教師画像の良否判定基準をより適切なものとすることができる。
【0061】
このようにして、教師画像の品質確保を大幅に省力化でき、人手によるチューニング時間および労力等を大幅に短縮できる。また、従来に比して教師データの品質を向上することができるため、認識精度の向上も期待できる。また、さらに新たな教師画像を追加して同様の処理を繰り返し実行することにより、模範教師画像をさらに適切に追加し、教師画像の良否判定基準を漸進的に改善することができる。
【0062】
従来技術において、教師画像の良否判定を人手のみで行う(目視による等)場合があるが、そのような技術では、常に人による判断が必要になるため、属人的要素を排除できない。本発明によれば、教師画像の質を自動的に判定することができるので、そのような問題は発生しない。
【0063】
上述の実施の形態1において、次のような変形を施すことができる。
実施の形態1では、データはすべて画像データであるが、機械学習によってラベリングを行うことが可能なデータであれば、任意の他の種類のデータ(文書データ、数値データ等)を用いてもよい。
【0064】
機械学習の具体的実現方法は、任意に設計可能である。実施の形態1では、ニューラルネットワークを用いたディープラーニングを用いたが、他の機械学習方法を用いてもよい。とくに、教師画像の良否判定に用いるラベリングモデル(第3ラベリングモデルL3および第4ラベリングモデル)と、テスト画像のラベル予測に用いるラベリングモデル(第1ラベリングモデルL1、第2ラベリングモデルL2および第5ラベリングモデル)とを、異なる方式の機械学習によって構成してもよい。
【0065】
実施の形態1において、ステップS15(第1模範追加ステップ)およびステップS20(第2模範追加ステップ)では、「不良」の教師画像のみが追加の対象となるが、これに加えて、「良」の教師画像を模範教師画像として追加してもよい。たとえば、第1模範追加ステップ(または第2模範追加ステップ)は、教師画像《人・良》T1aを、模範教師画像《人・良》E1aとするステップを含むものであってもよい。
【0066】
ステップS21以降の処理は省略してもよい。ステップS15またはステップS20において、模範教師画像の集合(良否双方のグループを含む)は、全体として教師画像の良否判定をより適切に行えるものとなっているので、様々な用途に応用が可能である。
【0067】
実施の形態1では、ステップS12およびS17において学習の収束判定を行っているが、これらのいずれかまたは双方を省略してもよい。たとえば、ステップS16の後、収束したか否かに関わらずステップS18以降を実行するよう構成してもよい。または、ステップS11の後、収束したか否かに関わらずステップS13以降を実行するよう構成してもよい(その場合にはステップS16〜S20に係る構成は省略可能である)。
【0068】
実施の形態1では、模範教師画像は「人」を表すものと「物」を表すものとを含む。変形例として、「物」を表す模範教師画像を省略してもよい。その場合には、教師画像の良否判定は「人」を表す教師画像のみについて行われることになるが、少なくとも「人」を表す教師画像については本発明の効果を得ることができる。なお、この場合には、模範教師画像については事前にラベルを付与する必要はない。
【符号の説明】
【0069】
10 機械学習システム(コンピュータ)、D1 人を表すテスト画像(第1ラベルを持つテストデータ)、D2 物を表すテスト画像(第1ラベルを持たないテストデータ)、T1 人を表す教師画像(第1ラベルを持つ教師データ)、T2 物を表す教師画像(第1ラベルを持たない教師データ)、E1a 良グループに属する模範教師画像(良グループに属する模範教師データ)、E1b 不良グループに属する模範教師画像(不良グループに属する模範教師データ)、L1〜L3 第1〜第3ラベリングモデル。
【要約】
【課題】機械学習に用いる教師データの質を向上させることができる機械学習方法、コンピュータおよびプログラムを提供する。
【解決手段】機械学習システム10は、画像に対するラベリングを行うためのラベリングモデルを機械学習によって作成する。機械学習システム10は、テスト画像《人》D1と、テスト画像《物》D2と、教師画像《人》T1と、教師画像《物》T2と、模範教師画像《人・良》E1aと、模範教師画像《人・不良》E1bとを用いる。機械学習システム10は、模範教師画像に基づいて教師画像の良否判定を行い、良否双方の教師画像に基づく機械学習の予測精度が高い場合に、「不良」の教師画像を、「良」の模範教師画像とする。
【選択図】図5
図1
図2
図3
図4
図5