IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Preferred Networksの特許一覧

特開2022-43364学習装置、物体検出装置、学習方法、およびプログラム
<>
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図1
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図2
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図3
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図4
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図5
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図6
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図7
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図8
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図9
  • 特開-学習装置、物体検出装置、学習方法、およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022043364
(43)【公開日】2022-03-16
(54)【発明の名称】学習装置、物体検出装置、学習方法、およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220309BHJP
   G06N 20/00 20190101ALI20220309BHJP
   G06N 3/02 20060101ALI20220309BHJP
【FI】
G06T7/00 350C
G06N99/00 153
G06N3/02
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2018215864
(22)【出願日】2018-11-16
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 1.掲載されたウェブサイトのアドレス https://storage.googleapis.com/openimages/web/challenge.html 2.掲載年月日 平成30年9月 [刊行物等] 1.集会名 European Conference on Computer Vison 2018内のOpen Images Challenge 2018 Workshop 2.開催日 平成30年9月9日 [刊行物等]1.掲載されたウェブサイトのアドレス https://arxiv.org/abs/1809.00778 2.掲載年月日 平成30年9月 [刊行物等] 1.集会名 DLLAB Case Study Day 機械学習・深層学習の最新事例を一挙に知る日 2.開催日 平成30年9月21日 [刊行物等] 1.集会名 DLO Meetup #4 2.開催日 平成30年9月26日
(71)【出願人】
【識別番号】515130201
【氏名又は名称】株式会社Preferred Networks
(74)【代理人】
【識別番号】100091982
【弁理士】
【氏名又は名称】永井 浩之
(74)【代理人】
【識別番号】100091487
【弁理士】
【氏名又は名称】中村 行孝
(74)【代理人】
【識別番号】100082991
【氏名又は名称】佐藤 泰和
(74)【代理人】
【識別番号】100105153
【弁理士】
【氏名又は名称】朝倉 悟
(74)【代理人】
【識別番号】100118876
【弁理士】
【氏名又は名称】鈴木 順生
(74)【代理人】
【識別番号】100206243
【弁理士】
【氏名又は名称】片桐 貴士
(72)【発明者】
【氏名】二井谷 勇佑
(72)【発明者】
【氏名】小川 徹
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA20
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。
【解決手段】本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、学習部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。前記学習部は、少なくとも前記教師信号に基づき、物体検出ネットワークのパラメータを更新する。
【選択図】図1
【特許請求の範囲】
【請求項1】
物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる物体検出部と、
前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う正負判定部と、
前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する教師信号決定部と、
少なくとも前記教師信号に基づき、前記物体検出ネットワークのパラメータを更新する学習部と、
を備える学習装置。
【請求項2】
前記教師信号決定部が、適格と判定された正負判定の結果のみを教師信号に選出する
請求項1に記載の学習装置。
【請求項3】
前記教師信号決定部は、第1検出対象に対する適格性判定の結果を考慮して、前記第1検出対象に対応付けられた第2検出対象に対する適格性判定を行う
請求項1または2に記載の学習装置。
【請求項4】
第1提案領域を前記第1検出対象の正例とすべきという正負判定が適格と判定されている場合において、前記正負判定部が、第2提案領域を前記第2検出対象の負例とすべきと判定したときは、
前記教師信号決定部は、前記第2提案領域を前記第2検出対象の負例とすべきという正負判定に対し、前記第1提案領域と前記第2提案領域の位置関係に基づき、適格性判定を行う
請求項3に記載の学習装置。
【請求項5】
前記第1検出対象と前記第2検出対象は、前記第1検出対象が全体を意味し、前記第2検出対象が部分を意味する、全体部分関係にある
請求項3または4に記載の学習装置。
【請求項6】
前記データが、アノテーションが付与された物体を示している場合に、
前記教師信号決定部が、前記データによりアノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定する
請求項1ないし5のいずれか一項に記載の学習装置。
【請求項7】
前記画像に対し、アノテーションを新たに付与する擬似アノテーション付与部
をさらに備え、
前記正負判定部が、新たに付与されたアノテーションにさらに基づき、前記正負判定を行い、
前記教師信号決定部が、新たに付与されたアノテーションに対する条件をさらに用いて、前記適格性判定を行う
請求項1ないし6のいずれか一項に記載の学習装置。
【請求項8】
与えられた画像の一部を前記提案領域として提案する領域提案部
をさらに備える請求項1ないし7のいずれか一項に記載の学習装置。
【請求項9】
少なくとも前記教師信号に基づき、前記検出の結果に対し評価を行う評価部
をさらに備え、
前記学習部が、前記評価に基づき、前記物体検出ネットワークのパラメータを更新する
請求項1ないし8のいずれか一項に記載の学習装置。
【請求項10】
与えられた画像の一部を提案領域として提案する領域提案部と、
請求項1ないし9のいずれか一項に記載の学習装置により学習された物体検出ネットワークを用いて、前記提案領域から、検出対象の検出を試みる物体検出部と、
前記検出の結果に基づき、前記提案領域および前記検出対象の少なくともいずれかに関する情報を出力する出力部と、
を備える物体検出装置。
【請求項11】
物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
少なくとも前記教師信号に基づき、前記物体検出ネットワークのパラメータを更新するステップと、
を備える学習方法。
【請求項12】
物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
少なくとも前記教師信号に基づき、前記物体検出ネットワークのパラメータを更新するステップと、
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、物体検出装置、学習方法、およびプログラムに関する。
【背景技術】
【0002】
機械学習を行うには大量のデータが必要とされる。また、教師あり学習のためには、正解を示す教師データ付きのデータセットが必要である。例えば、物体検出のための教師データ付きのデータセットとしては、プリンストン大学のimageNet、GOOGLE(登録商標)のOpen Images Dataset(OID)などがある。
【0003】
従来の物体認識の機械学習においては、データセットの全ての画像に対し、等しくアノテーションがされていることが前提であった。しかし、当該前提は崩れつつある。例えば、OIDでは、認証済みラベル(verified labels)という概念が導入され、認証済みラベルで規定された物体だけにアノテーションが行われている。この認証済みラベルは画像に応じて異なるため、各画像で検出対象(クラス)の物体が必ずアノテーションされているとは限らない。例えば、1番目の画像では人の顔にアノテーションが付与されているが、2番目の画像では、表示されているにも関わらず、人の顔にアノテーションが付与されていない、といったことがあり得る。このようなアノテーションの一貫性に欠けるデータセットを用いることによって、従来のデータセットを用いた場合よりも、検出精度などが低下してしまうといった問題が生じている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Shaoqing Ren、外3名、“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks”、2016年1月6日、arXiv 1506.01497v3[cs.CV]
【非特許文献2】Tsung-Yi Lin、外5名、“Feature Pyramid Networks for Object Detection”、2017年4月19日、arXiv 1612.03144v2[cs.CV]
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、学習部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。前記学習部は、少なくとも前記教師信号に基づき、前記物体検出ネットワークのパラメータを更新する。
【図面の簡単な説明】
【0007】
図1】第1の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図。
図2】データセットの画像データの例を示す図。
図3】アノテーションに基づく誤認識について説明する図。
図4】検出対象の組み合わせの例を示すグラフ。
図5】第1の実施形態の学習装置の学習処理の概略フローチャート。
図6】第1の実施形態の学習装置の物体検出処理の概略フローチャート。
図7】第1の実施形態の学習装置の物体検出の性能に対する評価結果評価を示す図。
図8】第2の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図。
図9】第2の実施形態の学習装置の学習処理の概略フローチャート。
図10】本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら、本発明の実施形態について説明する。
【0009】
(第1の実施形態)
図1は、第1の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図である。本実施形態に係る学習装置(物体検出装置)1は、領域提案部11と、物体検出部12と、正負判定部13と、教師信号決定部(適格性判定部)14と、評価部15と、学習部16と、出力部17と、記憶部18と、を備える。
【0010】
本実施形態の学習装置1は、物体検出のためのデータセットを用いて、物体検出に関する学習を行う。そして、学習後の学習装置1は、与えられた画像から所定の物体(検出対象)を検出する。ゆえに、学習装置1は、物体検出装置とも言える。なお、本明細書においては、「学習」を「訓練」、「学習装置」を「訓練装置」と言い換えてもよく、学習されて得られる学習済みモデルは訓練済みモデルと呼ぶことができる。
【0011】
物体検出のためのデータセットは、大量の画像データの集合である。各画像データには、画像そのものだけでなく、その画像に関連する関連情報が付与されている。関連情報として、例えば、画像内に示された物体およびその位置などの情報が、画像データに含まれる。画像に付与された関連情報は、アノテーション(あるいはメタデータ)と称される。このアノテーションに基づいて学習を行うことにより、学習装置1は、与えられた画像から、検出対象の物体を検出することができるようになる。
【0012】
なお、図1では、学習装置1は、データセットの提供源からデータセットを取り込むことを想定しているが、データセットが記憶部18に予め記憶されていてもよい。
【0013】
図2は、データセットの画像データの例を示す図である。図2(A)の画像上に、画像内に示された各検出対象を囲む枠(バウンディングボックス)が表示されている。ここでは、「人」、「人の顔」、「人の腕」をそれぞれ囲むバウンディングボックスが表示されている。また、データセットには検出対象(クラス)が規定されており、各バウンディングボックスの傍に、囲まれている検出対象が表示されている。ここでは、“person”、“Human Face”、“Human arm”と表示されている。このように、画像データは、アノテーションとして、バウンディングボックスの位置および大きさ、そのバウンディングボックス内の検出対象などの情報を含んでいる。
【0014】
しかしながら、データセットの画像ごとに、アノテーションが異なる(つまり、一貫性に欠ける)場合もあり得る。例えば、図2(B)では、図2(A)同様、「人」、「人の顔」、「人の腕」が表示されている。しかし、図2(B)には、“person”に関するバウンディングボックスはあるが、“Human Face”、“Human arm”に関するバウンディングボックスが存在しない。つまり、図2(A)の画像データに含まれていたアノテーションの一部が、図2(B)の画像データには含まれていない。
【0015】
図2のようなデータセットを用いて学習を行った場合、検出精度が低下する恐れがある。例えば、一般の学習装置が図2(B)を読み込んで「人の顔」および「人の腕」を検出した場合では、図2(B)の画像データには「人の顔」および「人の腕」についてのアノテーションがないため、一般の学習装置は検出が不正解であったと誤認識することになる。
【0016】
図3は、アノテーションに基づく誤認識について説明する図である。図3には、図2(B)の画像に対して一般の学習装置が生成した提案領域(実線および点線の枠)が示されている。提案領域は、バウンディングボックスの候補を意味する。図3に示された各提案領域は、全ての検出対象に対してアノテーションが付与されている場合、正例(positvie sample)として扱われるべき領域である。しかし、上述の通り、図3の画像データには、「人」に対するアノテーションはあるが、「人の顔」と「人の腕」に対するアノテーションがない。そのため、実線の提案領域は正例と判断されるが、点線の提案領域は誤って負例(negative sample)と判断される。こうして、誤った負例が教師信号として用いられるため、検出の精度が低下する。
【0017】
データセットの画像数は今後も増加すると思われるが、画像数が増加するにつれ、アノテーションなどに掛かるコストも増加してしまう。ゆえに、データセットの提供源は、画像内の全ての検出対象についてアノテーションをする必要がない認証済みラベルのような概念を採用し、アノテーションに掛かるコストを抑えるようになると思われる。つまり、アノテーションの一貫性に欠けるデータセットが今後増加すると思われる。そこで、本実施形態の学習装置1は、アノテーションに基づく判定結果が教師信号として適格であるかを判定する。これにより、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出の精度の低下が抑えられる。
【0018】
学習装置1の処理の内容を、学習装置1の各構成要素とともに説明する。
【0019】
領域提案部11は、与えられた画像の一部を提案領域として提案する。提案領域は、画像内の検出対象を取り囲むバウンディングボックスの候補を意味する。なお、提案領域は、実際に検出対象を取り囲んでいない場合もある。領域提案部11は、例えば、画像を入力すると提案領域を出力する公知のニューラルネットワーク(領域提案ネットワーク)を用いて、提案領域を算出する。なお、効率の観点からは、領域提案ネットワークを用いることが想定されるが、領域提案ネットワーク以外の方法で、提案領域を提案してもよい。
【0020】
物体検出部12は、提案領域から、検出対象の検出を試みる。検出には、画像を入力すると所定の物体を検出する物体検出ネットワークが用いられる。具体的には、物体検出ネットワークは、提案領域が入力されると、提案領域内の物体が検出対象である確率を少なくとも出力する。この出力結果の精度が向上するように、学習が行われる。なお、物体検出部12は、当該確率をそのまま検出結果としてもよい。また、当該確率が所定値以下の場合は、検出不可という検出結果にしてもよい。また、検出対象が複数ある場合、一つの提案領域に対して、各検出対象の確率が出力されてもよいし、最も高い確率が出力されてもよい。
【0021】
物体検出ネットワークは、Faster R-CNN(Regions with Convolutional Neural Networks)、Feature Pyramid Networksなどといった公知のニューラルネットワークを用いればよい。
【0022】
正負判定部13は、画像のアノテーションに基づき、提案領域を検出対象に対する正例とすべきか、それとも負例とすべきか、を判定する。当該判定を、正負判定と記載する。
【0023】
なお、前述の通り、各画像において、検出対象に必ずアノテーションが付与されているとは限らない。ゆえに、正負判定部13は、アノテーションが付与されていないために画像内に検出対象が存在していないと誤認識して、「負例とすべき」という判定を行うことがあり得る。つまり、正負判定部13による判定結果は、実際には誤りであることがあり得る。ゆえに、正負判定の結果の全てをそのまま教師信号とは用いない。
【0024】
なお、ここでは教師信号である「正例」および「負例」と区別可能なように、正負判定の結果については、「正例とすべき」または「負例とすべき」と記載している。
【0025】
具体的には、正負判定部13は、画像データのアノテーションに示された、検出対象の真の領域を認識する。そして、提案領域と、検出対象の真の領域と、に基づき、正負判定を行う。例えば、提案領域が当該真の領域を完全に内包している場合は、「正例とすべき」と判定されることが考えられる。また、提案領域が当該真の領域を完全に内包していても、提案領域の面積が当該真の領域の面積よりも所定値を越えて大きい場合は、「負例とすべき」と判定されることが考えられる。このように、正負判定の判定条件は、適宜に定めてよい。なお、図3に示したように、一つの提案領域に複数の検出対象が含まれる場合もある。そのような場合、正負判定が各検出対象ごとに行われてもよい。あるいは、最も適した検出対象だけを「正例とすべき」と判定し、その他の検出対象については「負例とすべき」と判定してもよい。
【0026】
教師信号決定部14は、正負判定部13による正負判定が適格か不適格かを判定する適格性判定を行う。そして、適格性判定の結果に基づき、正負判定の結果を教師信号として用いるか否かについて決定する。言い換えると、適格性判定の結果に基づき、正負判定の結果を、教師信号として用いるものと、教師信号として用いないものと、に分類する。この際、適格と判定された正負判定の結果のみを教師信号と決定すれば、言い換えると、不適格とした正負判定の結果を利用せずに学習を行えば、実際には誤りである正負判定の結果が教師信号となるのを防ぐことができる。なお、不適格と判定された正負判定の結果の一部を教師信号として利用した場合、不適格と判定された正負判定の結果全てを教師信号として利用した場合よりも、物体検出精度の低下は抑えられる。ゆえに、教師信号決定部14は、不適格と判定された正負判定の結果が教師信号として利用される数を減らすようにしてもよい。
【0027】
適格性判定の判定方法の一例について説明する。教師信号決定部14は、予め対応付けられた検出対象の組み合わせを認識しておく。そして、教師信号決定部14は、今回の適格性判定が、当該組み合わせに含まれる検出対象(以下、組み合わせ内の検出対象という)であるかを確認する。組み合わせ内の検出対象に関する適格性判定であった場合は、組み合わせ内の別の検出対象の以前の適格性判定の結果を確認する。そして、別の検出対象の以前の適格性判定結果を考慮して、今回の適格性判定を行う。このように、教師信号決定部14は、ある検出対象に関する適格性判定の結果を考慮して、当該検出対象に対応付けられた別の検出対象に関する適格性判定を行う。
【0028】
組み合わせ内の検出対象は、一つの画像内に一緒に表示されている可能性が高いものとすることができる。言い換えると、一つの画像内に一緒に表示されている可能性が高い検出対象を予め対応付けておく。例えば、全体部分関係にある検出対象同士を対応付けることが想定される。本明細書において、全体部分関係とは、「人」と「顔」、「車」と「タイヤ」など、物体の全体とその一部分、または、物体の部分とそれより小さいその一部分の関係を意味する。なお、全体部分関係にある検出対象の大きいほうを「全体物」、小さいほうを「部分物」とも記載する。さらに、言い換えると、ある検出対象が検出された場合において、当該検出対象を、検出される可能性が高い別の検出対象に対応付けておく。例えば、ある検出対象のバウンディングボックス内に含まれている可能性が高い別の検出対象がある場合、ある検出対象と別の検出対象とが全体部分関係にあるとみなして、これらを対応付けてもよい。
【0029】
この検出対象の対応付け(検出対象の組み合わせ)は、例えばルールベースで設定されてもよい。また例えば、機械学習で得られたモデルによって行われてもよい。また例えば、検出対象の組み合わせについて、複数の検出対象が存在する画像を集め、部分物のうち、部分物が全体物に含まれるものの割合を計算して、その割合が大きいものについて対応付けることで行うことができる。
【0030】
図4は、検出対象の組み合わせの例を示すグラフである。図4では、三つの全体部分関係のグラフが示されている。グラフの「1」のノードが「全体」の検出対象を意味し、グラフの「2」のノードが「部分」の検出対象を意味している。最も左側のグラフでは、「全体」の検出対象として「人」が示されており、「部分」の検出対象として「帽子」、「腕」、「顔」が示されている。「帽子」は人の一部ではないように思えるが、人が帽子を着用しているときは、「帽子」は人の一部となる。ゆえに、「帽子」のような着用物も、「人」と全体部分関係にあるとしてよい。その他にも、人が使用する道具なども「部分」として扱うことも考えられる。
【0031】
全体部分関係のように、一つの画像内に一緒に表示されている可能性が高い検出対象同士の一方が既に画像内に表示されていることが確定したにも関わらず、もう一方の検出対象に関する提案領域が「負例とすべき」と判定された場合、アノテーションが付与されていない可能性がある。ゆえに、教師信号決定部14は、このような場合に、正負判定の結果を不適格とすることが考えられる。
【0032】
例えば、(1)「全体」が「人」であって「部分」が「顔」であるという全体部分関係が予め定められており、(2)正負判定部13が、第1の提案領域を「人」に対する正例とすべきと判定し、教師信号決定部14が、当該判定を適格と確定させており、(3)正負判定部13が、第2の提案領域を「顔」に対する負例とすべきと判定した、という場合を想定する。このような想定の場合、教師信号決定部14は、第2の提案領域を「顔」に対する負例とすべきという判定結果を、第1の提案領域と第2の提案領域の位置関係に基づき、不適格と判定してもよい。位置関係は、検出対象の組み合わせごとに、適宜に定めてよい。例えば、第1の提案領域(「人」の領域)が、第2の提案領域(「顔」の領域)を内包するというものでもよいし、第1の提案領域(「人」の領域)が、第2の提案領域(「顔」の領域)の少なくとも一部を含むというものでもよい。第1の提案領域または第2の提案領域に対する、第1の提案領域および第2の提案領域の共通部分(第1の提案領域∩第2の提案領域)の割合に基づき、判定を行ってもよい。当該判定を行うための、当該割合に対する閾値は、適宜に定めてよい。なお、教師信号に用いられる負例が少な過ぎると、学習に支障が出る恐れがある。ゆえに、閾値は90%程度が好ましいと考えられる。つまり、当該共通部分が第1の提案領域または第2の提案領域の90%以上である場合、第2の提案領域に関する判定結果を不適格と判定することが好ましい。また、「人」と「靴」という検出対象の組み合わせであれば、第2の提案領域(「靴」の領域)が、第1の提案領域(「人」の領域)の下半分にあるなどとしてもよい。なお、第1の提案領域と第2の提案領域は同一画像上にあるため、位置関係は問わずに、不適格と判定してもよい。つまり、上記の(1)から(3)の条件を満たし場合に、不適格と判定してもよいし、さらに位置関係に関する条件を満たした場合に、不適格と判定してもよい。
【0033】
また、OIDの認証済みラベルのように、ある画像においてアノテーションが付与された物体が、当該画像に対応する画像データにより示されている場合もあり得る。つまり、画像データから、アノテーションが付与された物体が分かる場合もあり得る。画像データが、アノテーションが付与された物体を示している場合に、教師信号決定部14は、画像データ(詳細にはそのリスト)に基づき、検出対象がアノテーションの対象であるかを確認し、アノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定してもよい。
【0034】
このようにして、教師信号決定部14は、適格と判定された正負判定の結果のみを教師信号と決定する。当然ながら、「正例とすべき」という判定結果は、教師信号の「正例」として用いられ、「負例とすべき」という判定結果は、教師信号の「負例」として用いられる。
【0035】
なお、ここでは、アノテーションが付与されていないことを想定しているが、この想定の場合、教師信号決定部14は、「正例とすべき」という判定に対して、適格性を判定しなくともよい。つまり、「正例とすべき」という判定は、適格性判定の対象としなくともよい。しかし、画像に間違ったアノテーションが付与されている場合もあり得る。ゆえに、アノテーションの真偽を判定することも考えられる。その場合、「正例とすべき」という判定も、適格性判定の対象となる。
【0036】
なお、教師信号として用いられる正例と負例の割合が大きく異なると、検出精度に関する学習速度が低下する。また、物体検知では、一般的に正例に比べて負例の数が膨大になる。ゆえに、教師信号決定部14は、適格と判定された「負例とすべき」という判定結果の全てを教師信号とはしないことにより、教師信号として用いられる正例と負例の割合を調節してもよい。調節方法および調節する数は、適宜に定めてよい。例えば、適格と判定された「負例とすべき」という判定結果を、ランダムに絞り込んでもよいし、所定の条件に基づいて絞り込んでもよい。
【0037】
評価部15は、少なくとも教師信号に基づき、検出の結果に対し評価を行う。当該評価は、物体検出部12により算出された、各検出対象の確率に対する損失で表される。損失の計算方法は、予め定められた、教師信号に関する損失関数に従えばよい。例えば、各検出対象の確率を教師信号に応じて変換し、各変換結果に基づき損失を求めることが考えられる。変換は、例えば、正例なら+1、負例なら-1、教師信号がないなら0、などとすればよい。各検出対象の変換結果は、損失関数の要素と言える。
【0038】
また、提案領域が、検出対象を真に取り囲んでいるかについても、損失に含めてもよい。つまり、提案領域と、検出対象の真の領域とを比較して得られた、位置、大きさなどに対する合致度を損失関数の要素としてもよい。
【0039】
学習部16は、評価部15の評価結果に基づき、物体検出ネットワークのパラメータを更新する。具体的には、学習部16は、当該パラメータの値を変えて、評価部による評価が高まるように(つまり、損失が小さくなるように)試みる。このようにして、検出対象の検出精度が向上する。
【0040】
出力部17は、各構成要素の処理に関する情報を出力する。例えば、物体検出部12による検出結果に関する情報を出力する。例えば、出力部17は、確率が所定閾値を超えている提案領域を、検出対象が検出された領域として、検出対象とともに、出力してもよい。
【0041】
記憶部18は、各構成要素の処理に必要なデータを記憶する。例えば、領域提案ネットワーク、物体検出ネットワーク、検出対象の組み合わせ、各構成要素の処理結果などが、記憶部18に格納される。なお、記憶部18により記憶されるデータは、特に限られるものではない。なお、記憶装置が学習装置1の外部にあり、学習装置1が処理を行う際にこれらのデータを記憶装置から取得してもよい。
【0042】
次に、各構成要素の処理の流れを説明する。図5は、第1の実施形態の学習装置1の学習処理の概略フローチャートである。本フローは、データセット内の学習用データの各画像に対して行われる。
【0043】
領域提案部11は、与えられた画像データに基づき、画像の一部分を提案領域として提案する(S101)。物体検出部12は、各提案領域に対し、各検出対象の検出を試みる(S102)。これにより、各提案対象における各検出対象の確率が算出される。
【0044】
一方、正負判定部13は、画像データのアノテーションに基づき、提案領域ごとに各検出対象に対する正負判定を実行する(S103)。正負判定の結果を受けて、教師信号決定部14は、正負判定の適格性について適格性判定を実行し(S104)、適格性判定の結果に基づいて教師信号を決定する(S105)。
【0045】
評価部15は、少なくとも教師信号に基づき、物体検出部12の検出結果を評価する(S106)。具体的には、評価部15は、教師信号と、検出対象ごとの確率と、に基づき、損失を算出する。そして、学習部が当該評価に基づき、物体検出ネットワークのパラメータを更新する(S107)。こうして、一つの画像に対する学習が終了し、次の画像に対して、同様にフローが開始される。なお、S107の処理は、複数の画像に対する評価結果を得た後に、複数の評価を用いて行われてもよい。
【0046】
図6は、第1の実施形態の学習装置1の物体検出処理の概略フローチャートである。本フローは、データセット内の評価用データの画像に対して行われてもよいし、学習に用いたデータセットとは別の画像に対して行われてもよい。
【0047】
領域提案部11は、与えられた画像データに基づき、画像内の提案領域を算出する(S201)。物体検出部が、各提案領域に対し、各検出対象の検出を試みる(S102)。これにより、各提案対象における各検出対象の確率、当該確率に基づいた検出可否などの情報が算出される。出力部17は、検出対象、検出された領域などの検出結果に関する情報を出力する(S203)。こうして、学習装置1は、与えられた画像から検出対象を検出する物体検出装置として、稼働することができる。
【0048】
なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。以降のフローチャートも同様である。
【0049】
図7は、第1の実施形態の学習装置1の物体検出の性能に対する評価結果を示す図である。適格性判定を行わなかった場合と、適格性判定を行った場合での結果が示されている。本評価結果を示した学習装置1は、Feature Pyramid Networksを物体検出ネットワークとして用いている。また、この物体検出ネットワークは、OIDの学習用データを用いて学習されている。本評価結果の表の各項目の検出対象は「人」と対応付けられており、「人」に対する適格性判定の結果を考慮して、各項目の検出対象の適格性判定が行われている。表の数値は、OIDの評価用データに対する学習装置1の物体検出の結果を、Average Precision(AP)で評価したものである。
【0050】
これらの検出対象に関しては、適格性判定を行った場合のほうが平均して9.2(A)Pほどの優れた結果を得ている。特に、「顔」、「腕」などといった人のパーツを表す検出対象(図7の表では、腕から手までの12個の検出対象)に関しては、適格性判定を行った場合のほうが22.7APほどの優れた結果を得ている。検出精度の向上させる方法としては、物体検出ネットワークのレイヤ数を増やすことが考えられるが、101層のネットワークから154層のネットワークに変更したときに得られる精度向上は、OIDの500個の検出対象の平均で1.5APほどであった。したがって、本学習装置1の精度向上が極めて大きな向上であることを理解することができる。
【0051】
以上のように、本実施形態によれば、アノテーションに基づく正負判定の結果に対して、その適格性を判定し、適格と判定された正負判定結果のみを教師信号として用いる。これにより、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。
【0052】
(第2の実施形態)
図8は、第2の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図である。第2の実施形態に係る学習装置は、擬似アノテーション付与部19をさらに備える。
【0053】
正負判定の結果が誤るのは、主に、アノテーションが付与されていない画像データがあることに起因すると考えられる。そこで、第2の実施形態では、アノテーションを補完することにより、正負判定の結果の精度を上げる。つまり、学習装置1がアノテーションを新たに付与する。学習装置1が付与したアノテーションを擬似アノテーションと記載する。また、画像データに含まれるアノテーション(データセットに設定済みのアノテーション)を、標準アノテーションと記載する。
【0054】
しかし、擬似アノテーションが必ずしも正しいとは限らず、誤った擬似アノテーションにより、正負判定の結果が誤ることもあり得る。そこで、本実施形態でも、適格性判定を行うことにより、誤った正負判定の結果が教師信号となることを防ぐ。なお、第1の実施形態と同様な点は、説明を省略する。
【0055】
擬似アノテーション付与部19は、与えられた画像から、検出対象と思われる物体を検出し、擬似アノテーションを付与する。擬似アノテーションを付与するために、学習中の物体検出ネットワークを用いてもよいし、別の物体検出ネットワークを用いてもよい。ゆえに、物体検出部12が、擬似アノテーション付与部として、上記の処理を行ってもよい。
【0056】
正負判定部13は、標準アノテーションだけでなく、擬似アノテーションにも基づき、正負判定を行う。つまり、正負判定に用いられるアノテーションが増えたことになる。それ以外は、第1の実施形態と同様に処理される。なお、擬似アノテーションに対する適格性判定を先に行い、不適格と判定された擬似アノテーションは正負判定に用いないとしてもよい。
【0057】
教師信号決定部14は、第1の実施形態と同様、正負判定結果に対して適格性判定を行うが、第2の実施形態では、適格性判定の判定条件に、擬似アノテーションに対する条件が新たに追加されている。擬似アノテーションに対する条件は、擬似アノテーションが正しいかを判定することができるように、適宜に定められる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの位置関係に関する条件が考えられる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの合致度が上限値よりも高い場合、不適格と判定するとしてもよい。逆に、当該合致度が下限値よりも低い場合も、不適格と判定するとしてもよい。上限値および下限値も適宜に定めてよい。また、認証済みラベルのように、画像データが、標準アノテーションが付与された物体を示している場合に、標準アノテーションが付与された物体に関する擬似アノテーションは不適格と判定してもよい。このように、教師信号決定部14は、新たに付与されたアノテーションに対する条件をさらに用いて、適格性判定を行えばよい。
【0058】
図9は、第2の実施形態の学習装置の学習処理の概略フローチャートである。領域提案部11の処理(S101)と並行して、擬似アノテーション付与部19が与えられた画像に対し、擬似アノテーションを付与する(S201)。正負判定部13は、擬似アノテーションと標準アノテーションを区別せずに、これらのアノテーションに基づき、提案領域ごとに各検索対象に対する正負判定を実行する。ゆえに、正負判定部13の処理は第1の実施形態と同様である(S103)。また、教師信号決定部14が適格性判定を実行するが、判定条件が第1の実施形態と異なる以外は、第1の実施形態と同じである(S104)。以降の処理も、第1の実施形態と同様である。
【0059】
以上のように、本実施形態によれば、擬似アノテーションを付与することにより、アノテーションが付与されていないことに起因する正負判定の誤りを減少させることができる。また、擬似アノテーションが誤りである可能性もあるため、適格性判定を擬似アノテーションに対して行うことにより、擬似アノテーションの誤りに起因する誤った正負判定の結果を教師信号に用いるおそれを低減することができる。これらにより、第1の実施形態同様、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。
【0060】
なお、上述の実施形態では、一つの学習装置1にて学習と物体検出の両方を行うとしたが、学習のための第1装置と、物体検出のための第2装置と、に分けてもよい。その場合、第1装置により学習された物体検出ネットワークが第2装置に送信され、第2装置は、この学習済みの物体検出ネットワークを用いて、物体検出を行う。なお、学習のための構成要素、例えば、正負判定部13、教師信号決定部14、評価部15、学習部16、擬似アノテーション付与部19は、第2装置になくてもよい。
【0061】
あるいは、上述の実施形態の構成要素を複数の装置に分散して、学習装置1を学習システムまたは物体検出システムとして構成してもよい。
【0062】
なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているIC(Integrated Circuit:集積回路)などの専用の電子回路(すなわちハードウェア)により実現されてもよい。複数の構成要素が一つの電子回路で実現されてもよいし、一つの構成要素が複数の電子回路で実現されてもよいし、構成要素と電子回路が一対一で実現されていてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア(プログラム)を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載された中央処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)などのプロセッサ(処理回路、Processing circuit、Processing circuitry)にプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。言い換えると、当該プログラムの実行により、プロセッサ(処理回路)が、各装置の各処理を実行できるように構成される。
【0063】
例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。
【0064】
図10は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。学習装置1は、プロセッサ21と、主記憶装置22と、補助記憶装置23と、ネットワークインタフェース24と、デバイスインタフェース25と、を備え、これらがバス26を介して接続されたコンピュータ装置2として実現できる。
【0065】
なお、図10のコンピュータ装置2は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図10では、1台のコンピュータ装置2が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。
【0066】
プロセッサ21は、コンピュータの制御装置および演算装置を含む電子回路(処理回路)である。プロセッサ21は、コンピュータ装置2の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ21は、コンピュータ装置2のOS(オペレーティングシステム)や、アプリケーションなどを実行することにより、コンピュータ装置2を構成する各構成要素を制御する。プロセッサ21は、上記の処理を行うことができれば特に限られるものではない。学習装置1の記憶部18以外の構成要素は、プロセッサ21により実現されることが想定される。プロセッサ21は1つ以上が備えられ、後述するメモリに接続される。
【0067】
主記憶装置22は、プロセッサ21が実行する指示および各種データなどを記憶する記憶装置であり、主記憶装置22に記憶された情報がプロセッサ21により直接読み出される。補助記憶装置23は、主記憶装置22以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。記憶部18は、主記憶装置22または補助記憶装置23により実現されてもよい。すなわち、記憶部18は、メモリでもよいし、ストレージでもよい。
【0068】
ネットワークインタフェース24は、無線または有線により、通信ネットワーク3に接続するためのインタフェースである。ネットワークインタフェース24は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース24より、通信ネットワーク3を介して、コンピュータ装置2と外部装置4Aとを接続することができる。
【0069】
デバイスインタフェース25は、外部装置4Bと直接接続するUSBなどのインタフェースである。すなわち、コンピュータ装置2と外部装置4(4Aおよび4B)との接続は、ネットワークを介してでもよいし、直接でもよい。
【0070】
なお、外部装置4(4Aおよび4B)は、学習装置1の外部の装置、学習装置1の内部の装置、外部記憶媒体、およびストレージ装置のいずれでもよい。
【0071】
上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0072】
なお、本説明において「画像」という用語は、静止画を意味してもよいし、動画を意味してもよい。動画の場合は、例えばフレーム毎に静止画に変換されて学習に用いられてもよい。また、本発明の実施形態は、画像の他、検出対象が上述の全体部分関係を有する場合の学習または検出にも適用可能である。また、上記の実施形態では、検出対象の組み合わせが「全体物」と「部分物」の2階層である場合を説明したが、3階層以上であってもよい。例えば、1層目が「人」、2層目が「人」の一部である「人の顔」と「人の手」、3層目がさらに「人の顔」の一部である「人の目」と「人の鼻」の3階層の組み合わせが定められてもよい。
【符号の説明】
【0073】
1:学習装置(物体検出装置)、11:領域提案部、12:物体検出部、13:正負判定部、14:教師信号決定部(適格性判定部)、15:評価部、16:学習部、17:出力部、18:記憶部、19:擬似アノテーション付与部、2:コンピュータ装置、21:プロセッサ、22:主記憶装置、23:補助記憶装置、24:ネットワークインタフェース、25:デバイスインタフェース、26:バス、3:通信ネットワーク、4(4A、4B):外部装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10