IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

<>
  • -画像選択装置及び画像選択方法 図1
  • -画像選択装置及び画像選択方法 図2
  • -画像選択装置及び画像選択方法 図3A
  • -画像選択装置及び画像選択方法 図3B
  • -画像選択装置及び画像選択方法 図3C
  • -画像選択装置及び画像選択方法 図4A
  • -画像選択装置及び画像選択方法 図4B
  • -画像選択装置及び画像選択方法 図4C
  • -画像選択装置及び画像選択方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022161105
(43)【公開日】2022-10-21
(54)【発明の名称】画像選択装置及び画像選択方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221014BHJP
   G08G 1/16 20060101ALI20221014BHJP
【FI】
G06T7/00 350B
G08G1/16 C
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021065656
(22)【出願日】2021-04-08
(71)【出願人】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110001933
【氏名又は名称】弁理士法人 佐野特許事務所
(72)【発明者】
【氏名】荻島 葵
(72)【発明者】
【氏名】岡田 康貴
(72)【発明者】
【氏名】関 竜介
(72)【発明者】
【氏名】片山 雄喜
(72)【発明者】
【氏名】広見 怜
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB05
5H181BB13
5H181BB15
5H181BB20
5H181CC04
5H181FF04
5H181FF10
5H181FF27
5H181FF35
5H181LL01
5L096BA04
5L096CA04
5L096FA66
5L096GA08
5L096KA04
5L096MA07
(57)【要約】      (修正有)
【課題】アノテーションにかかる工数を抑制しつつ学習データの品質を向上させる画像を選択する画像選択装置及び画像選択方法を提供する。
【解決手段】画像選択装置である情報処理装置1は、映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づいて一部の画像を選択する際に、撮影状況が近似している画像ほど選択される可能性を低くするような選択処理を行う選択部11bを備える。撮影状況は、撮影時刻及び撮影時のカメラの移動速度を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づいて一部の画像を選択する際に、
前記撮影状況が近似している画像ほど選択される可能性が低い、画像選択装置。
【請求項2】
前記撮影状況は撮影時刻を含む、請求項1に記載の画像選択装置。
【請求項3】
前記複数の画像の中から第1画像が選択された場合、前記第1画像と撮影時刻が近い画像ほど選択される可能性が低い、請求項2に記載の画像選択装置。
【請求項4】
前記撮影状況は撮影時のカメラの移動速度を含む、請求項2又は請求項3に記載の画像選択装置。
【請求項5】
前記移動速度が遅い画像ほど選択される可能性が低い、請求項4に記載の画像選択装置。
【請求項6】
映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づいて一部の画像を選択する際に、
前記撮影状況が近似している画像ほど選択される可能性が低い、画像選択方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人によるアノテーションが必要な画像を選択する技術に関する。
【背景技術】
【0002】
学習データのアノテーションを行う手法として、能動学習が近年注目されている。能動学習とは、学習データのアノテーションが行われる際に、学習データを構成する全てのサンプルが人によってアノテーションされるのではなく、人工知能によるアノテーションの確信度が低いサンプルのみが選択されて人によってアノテーションされる手法である。能動学習を活用することで、アノテーションにかかる工数を抑制しつつ学習データの品質を向上させることが期待できる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開2008/047835号
【発明の概要】
【発明が解決しようとする課題】
【0004】
映像を構成する複数の画像が学習データである場合、基本的に同じシーンの画像が複数フレームに渡って続くことがある。例えば、ドライブレコーダーによって撮影された映像を構成する複数の画像を学習データとする場合がある。この場合、ドライブレコーダーを搭載する車両が走行中ではなく停車中や駐車中であるときの映像を構成する複数の画像が、複数フレームに渡って続く「基本的に同じシーンの画像」となる。
【0005】
複数フレームに渡って続く「基本的に同じシーンの画像」が「人工知能によるアノテーションの確信度が低いサンプル」に該当した場合、基本的に同じシーンの複数の画像が人によってアノテーションされることになり、アノテーションにかかる工数の抑制及び学習データの品質向上に寄与しないことになる。
【0006】
特許文献1に記載の発明は、ラベリング済みのデータと比較して類似度が低いデータを、学習に有効なデータとして選択することで、効率的な学習を可能としている。しかしながら、特許文献1に記載の発明では、類似度の判定という比較的複雑な処理を新たに行う必要が生じる。特に、全ての画像データを読み込んでラベリング済みのデータとの類似度の判定を行う場合には、処理時間が膨大となる。
【0007】
本発明は、上記課題に鑑みて、アノテーションにかかる工数を抑制しつつ学習データの品質を向上させる画像を選択することができる技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る画像選択装置は、映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づいて一部の画像を選択する際に、前記撮影状況が近似している画像ほど選択される可能性が低い構成(第1の構成)である。
【0009】
上記第1の構成の画像選択装置において、前記撮影状況は撮影時刻を含む構成(第2の構成)であってもよい。
【0010】
上記第2の構成の画像選択装置において、前記複数の画像の中から第1画像が選択された場合、前記第1画像と撮影時刻が近い画像ほど選択される可能性が低い構成(第3の構成)であってもよい。
【0011】
上記第2又は第3の構成の画像選択装置において、前記撮影状況は撮影時のカメラの移動速度を含む構成(第4の構成)であってもよい。
【0012】
上記第4の構成の画像選択装置において、前記移動速度が遅い画像ほど選択される可能性が低い構成(第5の構成)であってもよい。
【0013】
本発明に係る画像選択方法は、映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づいて一部の画像を選択する際に、前記撮影状況が近似している画像ほど選択される可能性が低い構成(第6の構成)である。
【発明の効果】
【0014】
本発明によると、アノテーションにかかる工数を抑制しつつ学習データの品質を向上させる画像を選択することができる。
【図面の簡単な説明】
【0015】
図1】実施形態に係る情報処理装置の概略構成例を示す図
図2】実施形態に係る情報処理装置の動作例を示すフローチャート
図3A】式(1)で画像を抽出した場合の1番目に自信のない画像の一例を示す図
図3B】式(1)で画像を抽出した場合の2番目に自信のない画像の一例を示す図
図3C】式(1)で画像を抽出した場合の3番目に自信のない画像の一例を示す図
図4A】式(2)で画像を抽出した場合の1番目に自信のない画像の一例を示す図
図4B】式(2)で画像を抽出した場合の2番目に自信のない画像の一例を示す図
図4C】式(2)で画像を抽出した場合の3番目に自信のない画像の一例を示す図
図5】連続する複数の画像の一例を示す図
【発明を実施するための形態】
【0016】
以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。
【0017】
<1.情報処理装置の構成>
図1は、実施形態に係る情報処理装置の概略構成例を示す図である。情報処理装置1は、画像選択装置の一例である。情報処理装置1は、単一の場所に設置される情報処理装置であってもよく、構成要素が複数の場所に分散して設置される分散型の情報処理装置であってもよい。
【0018】
情報処理装置1は、映像に含まれる複数の画像の一部を学習用画像として選択する際に、画像に対するクラス推定の確信度及び画像の撮影状況に基づいて、学習用画像を選択する。このことにより、情報処理装置1は、アノテーションにかかる工数抑制と、学習データの品質向上とを両立させることができる。以下、詳細に説明する。
【0019】
情報処理装置1は、制御部11及び記憶部12を備える。
【0020】
制御部11は、少なくとも一つのプロセッサを備えるコンピュータである。具体的には、制御部11は、図示しないCPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)を備えるコンピュータである。制御部11は、記憶部12に記憶されたプログラムに基づいて情報の処理及び送受信を行い、情報処理装置1の全体を制御する。
【0021】
制御部11は、クラスタリング部11aと、選択部11bと、を備える。記憶部12に記憶されたプログラムやソフトウェアにしたがってCPUが演算処理を実行することにより、クラスタリング部11a等の制御部11の各種機能が実現される。
【0022】
クラスタリング部11aは、人工知能を用いて複数の画像を複数のクラスタに分類する。ここで、複数の画像は、映像又は動画像の各フレーム画像である。すなわち、クラスタリング部11aによって分類される複数の画像は、映像又は動画像を構成する。
【0023】
クラスタリング部11aは、複数の画像それぞれに対して、クラス推定の確信度をメタ情報として付与する。
【0024】
選択部11bは、上述した映像を構成する複数の画像の中から、クラス推定の確信度及び撮影状況に基づき、一部を選択する。選択部11bによって選択される画像は、人によるアノテーションが必要な画像となる。
【0025】
<2.情報処理装置の動作>
図2は、情報処理装置1の動作例を示すフローチャートである。情報処理装置1は、電源が投入され、映像を構成する複数の画像が入力されると、図2に示すフローチャートの動作を開始する。複数の画像の入力形態は特に限定されない。情報処理装置1は、複数の画像を無線通信により受信してもよく、複数の画像を有線通信により受信してもよく、情報処理装置1に対して装脱着可能な記憶媒体を介して複数の画像を入力してもよい。
【0026】
まず、クラスタリング部11aは、予め準備した人工知能を用いて複数の画像を複数のクラスタに分類する(ステップS10)。クラスタリング部11aは、例えば階層型クラスタリングを行い、最終的に分類するクラスタの個数を固定することで、複数の画像を複数のクラスタに分類する。
【0027】
次に、クラスタリング部11aは、複数の画像それぞれに対して、クラス推定の確信度を算出し、複数の画像それぞれに対して、クラス推定の確信度をメタ情報として付与する(ステップS20)。
【0028】
次に、選択部11bは、複数の画像の中から、クラス推定の確信度及び撮影状況に基づき、一部を選択する(ステップS30)。詳細は後述するが、選択部11bは、クラス推定の確信度が高い画像ほど選択する可能性が低い。
【0029】
選択部11bは、クラス推定の確信度のみならず撮影状況にも基づき、複数の画像の中から一部を選択してもよい。これにより、画像同士の類似度を判定することなく、人によるアノテーションが必要な画像を効率的に選択することができる。
【0030】
情報処理装置1に入力される時点で複数の画像それぞれには、撮影状況がメタ情報として付与されている。本実施形態では、撮影状況は撮影時刻を含む。
【0031】
通常、カメラで撮影された画像には撮影時刻がメタ情報として付与されているので、ごく一般的な画像を情報処理装置1の入力画像として用いることができる。したがって、画像選択装置の汎用性を高めることができる。
【0032】
選択部11bは、複数の画像の中から第1画像が選択部11bによって選択された場合、第1画像と撮影時刻が近い画像ほど選択部11bによって選択される可能性が低くなるような選択処理を行う。
【0033】
例えば、クラス推定の確信度が最も低い画像が、停車中や駐車中にカメラで撮影された画像である場合も考えられる。このような場合において、クラス推定の確信度のみに基づいて、クラス推定の確信度が低い順に画像を選択すると、選択される画像は、殆どが停車中や駐車中の画像になってしまう(選ばれるのは、クラス推定の確信度が「最も低い画像」に類似した画像となる可能性が高い)。そこで、本実施形態では、画像を選択する際の基準として、クラス推定の確信度と、画像の撮影状況とを用いる。本実施形態における画像の撮影状況は、画像の撮影時刻である。
【0034】
例えば、クラス推定の確信度に基づいて、Least confident法を用いて画像を抽出する場合、下記式(1)で画像を抽出することができる。しかし、下記式(1)では、画像の撮影時刻という概念が含まれていない。このため、前述のように、駐車中の画像のみが抽出されることもありうる。本実施形態では、下記式(1)ではなく、下記式(1)に画像の撮影時刻という概念を組み込んだ下記式(2)を用いて画像を抽出する。
【数1】
【数2】
【0035】
式(2)中のnの値は、選択する画像(必要な画像)の枚数に基づいて決定する。例えば、n=3の場合、選択部11bは、式(2)に基づいて、x* LC1,x* LC2,x* LC3に対応する画像を選択する。
【0036】
本実施形態では、上記式(1)に画像の撮影時刻を式の要素として組み込んだ式(2)を用いることで、撮影時刻が近似、又は、近接した画像が抽出されることを抑制する。式(1)で画像を抽出した場合、例えば1番目に自信のない画像が図3Aに示す画像となり、2番目に自信のない画像が図3Bに示す画像となり、3番目に自信のない画像が図3Cに示す画像となる。つまり、式(1)で画像を抽出した場合、撮影時刻が近似、又は、近接した画像が抽出される可能性が高くなる。これに対して、本実施形態のように式(2)で画像を抽出した場合、例えば1番目に自信のない画像(x* LC1に対応する画像)が図4Aに示す画像となり、2番目に自信のない画像(x* LC2に対応する画像)が図4Bに示す画像となり、3番目に自信のない画像(x* LC3に対応する画像)が図4Cに示す画像となる。つまり、本実施形態のように式(2)で画像を抽出した場合、撮影時刻が近似、又は、近接した画像が抽出される可能性が低くなる。
【0037】
式(2)の説明に記載されている「n番目に自信のない画像」は、n番目にクラス推定の確信度が低い画像である。具体的には、x* LC1がクラス推定の確信度が最も低い画像、x* LC2がクラス推定の確信度が2番目に低い画像、x* LC3がクラス推定の確信度が3番目に低い画像である。
【0038】
式(1)と式(2)との違いは、n≧2の場合におけるx* LCn=argmax1-Pθ(y|x)の後に存在するΠ以降の部分である。Πは相乗を意味する。式(2)では、このΠ以降の部分があるので、x* LCn のそれぞれに対して、x* LCn のそれぞれが撮影された時刻と時間的に連続していない画像を選択することができる。
【0039】
そして、選択部11bは、式(2)で決定される「自信のなさ」の順位が高い画像を優先して、複数の画像の中から一部を選択する。これにより、複数の画像の中から第1画像が選択部11bによって選択された場合、第1画像と撮影時刻が近い画像ほど選択部11bによって選択される可能性が低下する。
【0040】
例えば、複数の画像がドライブレコーダーによって撮影された画像であって、車両が停車中に撮影された図5に示す第1~第4画像P1~P4が複数の画像に含まれており、図5に示す第1画像P1が選択部11bによって選択された場合、第2~第4画像P2~P4の選択される可能性は次のようになる。
【0041】
第2~第4画像P2~P4の中で図5に示す第1画像P1と最も撮影時刻が近い第2画像P2は、第2~第4画像P2~P4の中で選択部11bによって最も選択される可能性が低い画像となる。
【0042】
第2~第4画像P2~P4の中で図5に示す第1画像P1と2番目に撮影時刻が近い第3画像P3は、第2~第4画像P2~P4の中で選択部11bによって2番目に選択される可能性が低い画像となる。
【0043】
第2~第4画像P2~P4の中で図5に示す第1画像P1と3番目に撮影時刻が近い第4画像P4は、第2~第4画像P2~P4の中で選択部11bによって3番目に選択される可能性が低い画像となる。
【0044】
図5では、選択部11bによって選択される可能性が低い画像ほど、濃いグレーの画像として示している。
【0045】
ステップS30の処理が終了し、選択部11bによって選択された画像が出力されると、情報処理装置1は図2に示すフローチャートの動作を終了する。選択部11bによって選択された画像の出力形態は特に限定されない。情報処理装置1は、選択部11bによって選択された画像を無線通信により送信してもよく、選択部11bによって選択された画像を有線通信により送信してもよく、情報処理装置1に対して装脱着可能な記憶媒体を介して選択部11bによって選択された画像を出力してもよい。
【0046】
<3.変形例>
上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。
【0047】
上述した実施形態とは異なりLeast confident法を用いて画像を抽出する場合、Least confident法を用いて画像を抽出する式に画像の撮影時刻という概念を組み込んだ下記式(3)を用いて画像を抽出するとよい。
【数3】
【0048】
上述した実施形態とは異なりentropy-based approach法を用いて画像を抽出する場合、entropy-based approach法を用いて画像を抽出する式に画像の撮影時刻という概念を組み込んだ下記式(4)を用いて画像を抽出するとよい。
【数4】
【0049】
上述した実施形態及び変形例では、画像を抽出するために用いた式に含まれる時間関数として、
【数5】
を用いたが、例えば
【数6】
などの他の時間関数を用いてもよい。
【0050】
撮影状況が撮影時刻の代わりに撮影時のカメラの移動速度を含んでもよい。また、撮影状況が撮影時刻に加えて撮影時のカメラの移動速度を含んでもよい。例えば、複数の画像がドライブレコーダーによって撮影された画像である場合には、ドライブレコーダーが搭載される車両の車速が撮影時のカメラの移動速度になる。車両の車速は、例えば、ドライブレコーダーのGPS(Global Positioning System)による位置情報の時間的変化によって算出してもよく、車載LAN(Local Area Network)経由で取得した車両の速度情報、車載LAN経由で取得した車輪回転信号等から取得してもよい。また、複数の画像がスマートフォンによって撮影された画像である場合には、スマートフォンの移動速度が撮影時のカメラの移動速度になる。スマートフォンの移動速度は、例えばスマートフォンのGPSによる位置情報の時間的変化によって算出可能である。なお、撮影状況としての撮影時のカメラの移動速度は、具体的な数値であってもよく、或る閾値(例えば時速1kmなど)によって二値化されてもよい。
【0051】
選択部11bは、撮影時のカメラの移動速度に基づき、停車(速度が所定速度以下(その速度で短時間各核の複数画像を選択する意味が無い状況)状態での画像選択を抑制するように、複数の画像から一部を選択することにより、選択部11bが撮影時刻に基づき複数の画像から一部を選択する場合と比較して、類似する画像を重複して選択することをより精度よく抑制することができる。
【0052】
選択部11bは、撮影時のカメラの移動速度が遅い画像ほど選択部11bによって選択される可能性が低くなるような選択処理を行えばよい。
【0053】
<4.変形例(その2)>
上述の実施形態では、クラスタリング部11aが分類する複数の画像は、映像又は動画像の各フレーム画像である例を説明したが、本発明はこれに限られない。複数の画像は、撮影した時間が異なる静止画像であってもよい。この場合、複数の画像は、例えば、16ミリ秒毎に撮影された画像である。
【0054】
情報処理装置1により実行される処理の一部または全部は、ソフトウェアおよびハードウェアの混在処理により実現しても良い。前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本実施形態の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体は、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、大容量DVD、次世代DVD、半導体メモリである。
【0055】
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。また、上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
【符号の説明】
【0056】
1 情報処理装置
11 制御部
11a クラスタリング部
11b 選択部
12 記憶部
図1
図2
図3A
図3B
図3C
図4A
図4B
図4C
図5