【解決手段】実施形態の一態様に係る情報処理方法は、画像に対して学習を要さない領域探索を行い、バウンディングボックスの候補を生成するステップと、バウンディングボックスの候補を画像に重畳させてユーザに提示して選択させるステップと、選択されたバウンディングボックスの候補を当該バウンディングボックスの候補によって囲まれる画像に付与するステップとを含む。
前記カーソルが重畳された前記バウンディングボックスの候補が複数存在する場合に、前記カーソルによって選択される座標から前記バウンディングボックスの候補の重心までの距離が最小の前記バウンディングボックスの候補を強調表示させるステップと
を含むことを特徴とする請求項2に記載の情報処理方法。
隣接または重畳する前記バウンディングボックスの候補によって囲まれる画像の画素値が閾値未満である場合に、前記隣接または重畳するバウンディングボックスの候補を消去してから提示するステップと
を含むことを特徴とする請求項1〜5のいずれか一つに記載の情報処理方法。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して、情報処理方法および情報処理プログラムの実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。また、以下の説明では、同一の構成要素に対して同一の符号を付することにより、重複する説明を省略する。
【0011】
図1および
図2は、実施形態に係る情報処理方法の概要説明図である。実施形態に係る情報処理方法では、機械学習の一つである教師あり学習用の教師データとして使用される画像に付与されるバウンディングボックス(以下、「BB」と記載する)の候補を教師データの作成者(以下、単に「作成者」と記載する)に提示する。
【0012】
ここでは、CNN(Convolutional Neural Network)を用いて画像認識を行う機械学習モデルに学習させる教師データ用の画像に付与されるBBの候補を提示する場合を例に挙げて説明する。
【0013】
機械学習モデルによって車両を画像認識させる場合、例えば、画像に含まれる複数の各車両に対して、各車両を囲むBBが付与された教師データを機械学習モデルに入力して事前に学習させる。機械学習モデルは、数千枚から数万枚の画像の教師データを学習することによって、車両を画像認識できるようになる。
【0014】
しかしながら、作成者は、数千枚から数万枚の画像中の各車両に対してBBの領域(座標)を指定するとなると、教師データの作成に膨大な量の作業が必要となる。また、作成者は、BBの領域(座標)の精度を向上させる場合、例えば、マウス等のデバイスを細かく動かしてBBの座標を決定する等の緻密な作業が要求されるので、教師データの作成に長い時間を要する。
【0015】
そこで、
図1に示すように、実施形態に係る情報処理方法では、コンピュータが、例えば、複数の車両が含まれる画像10に対して学習を要さない領域探索を行い、複数のBBの候補11を生成する。
【0016】
コンピュータは、BBの候補11を画像10に重畳させて作成者に提示して選択させる。なお、
図1では、1つのBBの候補にのみ符号を付しているが、
図1に示す画像10に重畳表示されている複数の矩形は、全てBBの候補である。そして、コンピュータは、選択されたBBの候補11をBBの候補によって囲まれる車両の画像に付与する。
【0017】
実施形態に係る情報処理方法によれば、作成者がBBの領域の位置や大きさ等を指定しなくても、コンピュータによって提示されるBBの候補11を作成者に選択させるだけで、各車両の画像に対してBBを付与することができる。したがって、実施形態に係る情報処理方法は、教師データの作成に要する作成者の作業を低減することができる。
【0018】
また、
図2に示すように、実施形態に係る情報処理方法では、コンピュータが、作成者の操作に応じて画面上を移動するカーソル20を表示させる。そして、コンピュータは、カーソル20が重畳されたBBの候補12を強調表示させる。これにより、実施形態に係る情報処理方法は、作成者によるBBの候補12の選択ミスを抑制することができる。
【0019】
次に、
図3を参照して実施形態に係るコンピュータの一例である情報処理装置の構成について説明する。
図3は、実施形態に係る情報処理装置の構成の一例を示すブロック図である。
【0020】
図3に示すように、情報処理装置1は、画像データベース(以下、「画像DB100」と記載する)と、端末装置101とに接続される。画像DB100は、例えば、データフラッシュ等の情報記憶デバイスであり、機械学習モデルに学習させる認識対象物が撮像された画像を記憶する記憶装置である。画像DB100には、例えば、数千枚から数万枚の画像が記憶される。
【0021】
端末装置101は、作成者によって教師データの作成に使用される装置である。端末装置101は、例えば、ノート型パソコンである。なお、端末装置101は、画像を表示する機能、およびBBの候補を選択する機能を備えるものであれば、デスクトップ型のパソコンおよびタブレット型端末等、他の装置であってもよい。
【0022】
情報処理装置1は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを有するマイクロコンピュータや各種の回路を含む。情報処理装置1は、CPUがROMに記憶されたプログラムを、RAMを作業領域として使用して実行することにより機能する画像取得部2と、BB候補生成部3と、BB候補提示部4と、BB付与部5とを備える。
【0023】
なお、情報処理装置1が備える画像取得部2、BB候補生成部3、BB候補提示部4、およびBB付与部5は、一部または全部がASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成されてもよい。
【0024】
情報処理装置1が備える画像取得部2、BB候補生成部3、BB候補提示部4、およびBB付与部5は、それぞれ以下に説明する情報処理の作用を実現または実行する。なお、情報処理装置1の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0025】
画像取得部2は、画像DB100から教師データ用の認識対象物が撮像された画像を取得してBB候補生成部3へ出力する。BB候補生成部3は、画像取得部2から入力される画像に対して学習を要さない領域探索を行い、BBの候補を生成する。
【0026】
BB候補生成部3は、例えば、セレクティブサーチ等の学習を必要としないアルゴリズムによって、画像における各認識対象物が存在する領域を検出してBBの候補を生成する。BB候補生成部3は、画像取得部2から入力される画像と、生成したBBの候補の画像における位置(座標)を示す情報とをBB候補提示部4へ出力する。
【0027】
BB候補提示部4は、画像取得部2から取得された画像にBBの候補を重畳させて端末装置101へ出力し、端末装置101に表示させることによって、作成者にBBの候補を提示する。ここで、
図4A〜
図5を参照し、実施形態に係るBBの候補の提示方法について説明する。
【0028】
図4A〜
図5は、実施形態に係るBBの候補の提示方法を示す説明図である。情報処理装置1は、画像に対してセレクティブサーチ等の学習を必要としないアルゴリズムによって領域探索を行った場合、
図1および
図2に示したように、認識対象物となる1台の車両に、大きさの異なる複数のBBを重複して重畳させることがある。
【0029】
例えば、情報処理装置1は、車体を囲む領域だけでなく、1台の車両の中でも、車両の屋根部分や車両のフロントガラス部分等の車体よりも小さな領域を車両と判断して、BBの候補を生成する場合がある。
【0030】
このように、1台の車両に、大きさの異なる複数のBBの候補が重複して重畳される場合、作成者にとっては、適切なBBの候補を選択する作業が煩雑となる。そこで、情報処理装置1は、生成するBBの候補から、BBの候補として不適切なもの、および不必要なものを事前に削除してから提示する。
【0031】
例えば、BB候補生成部3は、
図4Aのように、大きさが異なる複数の重畳されるBBの候補41,42,43,44,45,46,47,48を生成する場合がある。そこで、BB候補提示部4は、生成されたBBの候補41,42,43,44,45,46,47,48のうち、予め設定するサイズよりも小さなBBの候補44,45,46,47,48を消去してから提示する。
【0032】
これにより、
図4Bに示すように、BB候補提示部4は、予め設定されるサイズ以上のBBの候補41,42,43を作成者に提示して選択肢の数を減少させることによって、作成者に適切なBBの候補を容易に選択させることができる。
【0033】
また、例えば、BB候補生成部3は、画像中に画素値が比較的近い画素の集合が存在する場合、その領域に認識対象物がなくてもBBの候補を生成することがある。このような認識対象物が存在しない位置に生成されるBBの候補は、作成者にとっては不要なBBの候補である。
【0034】
例えば、情報処理装置1は、画像に対してセレクティブサーチ等の学習を必要としないアルゴリズムによって領域探索を行った場合、
図1および
図2に示したように、認識対象物となる車両が存在しない道路の領域にBBの候補を重畳させることがある。
【0035】
そこで、BB候補提示部4は、隣接または重畳するBBの候補によって囲まれる画像の画素値が閾値未満である場合に、隣接または重畳するBBの候補を消去してから提示する。例えば、
図5に示すように、BB候補提示部4は、道路の領域103,104に重畳されるBBの候補を消去し、道路の領域103,104以外の領域に重畳されるBBの候補11を作成者に提示する。
【0036】
これにより、BB候補提示部4は、不要なBBの候補を消去してから必要なBBの候補11を作成者に提示して選択肢の数を減少させることによって、作成者に適切なBBの候補を容易に選択させることができる。
【0037】
図2へ戻り、BB候補提示部4の説明を続ける。BB候補提示部4は、作成者にBBの候補を提示した後、作成者によって一つのBBの候補12がカーソル20によって選択された場合(
図2参照)に、BBの候補12を強調表示させる。
【0038】
BB候補提示部4は、例えば、強調表示させたBBの候補12が作成者によってダブルクリックされる場合に、そのBBの候補12の位置(座標)を端末装置101から取得する。そして、BB候補提示部4は、端末装置101から取得したBBの候補12の位置(座標)と、画像取得部2によって取得された画像とをBB付与部5へ出力する。
【0039】
BB付与部5は、BB候補提示部4から位置が入力されるBBの候補12をBBの候補12によって囲まれる画像(例えば、
図2に示す車両の画像)に付与し、教師データとして端末装置101へ出力する。
【0040】
ここでは、作成者によって一つのBBの候補12がカーソル20によって選択される場合について説明したが、カーソル20が重畳されたBBの候補が複数存在することがある。また、提示したBBの候補の中に作成者が所望するBBの候補が存在にない場合もある。
【0041】
次に、かかる場合のBB候補提示部4の動作について、
図6〜
図7Bを参照して説明する。
図6は、実施形態に係るBBの決定方法を示す説明図である。
図7Aおよび
図7Bは、実施形態に係るBBの作成方法を示す説明図である。
【0042】
図6に示すように、作成者によるBBの候補の選択操作によって、例えば、カーソル20が3つのBBの候補13,14,15に重畳される場合がある。かかる場合、BB候補提示部4は、まず、カーソル20によって選択される座標を取得する。カーソル20によって選択される座標は、
図6に示す白抜き矢印の先端の座標である。
【0043】
続いて、BB候補提示部4は、各BBの候補13,14,15の各重心13a,14a,15aの座標を取得する。その後、BB候補提示部4は、カーソル20によって選択される座標から、各BBの候補13,14,15の各重心13a,14a,15aまでの距離D13,D14,D15を算出する。
【0044】
そして、BB候補提示部4は、カーソル20によって選択される座標からBBの候補の重心までの距離が最小のBBの候補15を強調表示させる。これにより、BB候補提示部4は、カーソル20が重畳されたBBの候補が複数存在する場合に、作成者が選択を所望している可能性の高いBBの候補15を的確に選択して強調表示させることができる。
【0045】
また、
図7Aに示すように、例えば、認識対象物の車両と一部が重畳するBBの候補6,17,18は提示されるが、車両の回りを囲むBBの候補が提示されない場合がある。かかる場合、BB候補提示部4は、手動によるBBの入力要求を作成者に対して行う。
【0046】
作成者は、所望するBBの候補が提示されない場合、手動によるBBの入力要求に応じて、所望するBBの四隅となる4点をカーソル20によって選択する。BB候補提示部4は、カーソル20によって選択される四点の座標を端末装置101から取得する。
【0047】
そして、BB候補提示部4は、
図7Bに示すように、画像における任意の四点がカーソル20によって選択される場合に、四点をつなぐBB19を生成して強調表示させる。これにより、BB候補提示部4は、作成者が所望するBBの候補を領域探索によって提示できない場合であっても、作成者が所望する車両の回りを囲むBBを強調表示させて提示することができる。
【0048】
次に、
図8を参照し、実施形態に係る情報処理装置が実行する処理について説明する。
図8は、実施形態に係る情報処理装置が実行する処理の一例を示すフローチャートである。
図8に示すように、情報処理装置1は、教師データ用の画像を取得し(ステップS101)、画像に対して学習を要さない領域探索を行い(ステップS102)、BBの項を生成する(ステップS103)。
【0049】
続いて、情報処理装置1は、予め定めるサイズより小さなBBの候補を消去する(ステップS104)。その後、情報処理装置1は、各画素値の差が閾値未満のBBの候補を消去する(ステップS105)。
【0050】
続いて、情報処理装置1は、画像にBBの候補を重畳させて作成者に提示する(ステップS106)。その後、情報処理装置1は、BBの候補の選択操作があるか否かを判断する(ステップS107)。そして、情報処理装置1は、選択操作があると判断した場合(ステップS107,Yes)、複数のBBの候補があるか否かを判断する(ステップS108)。
【0051】
情報処理装置1は、複数のBBの候補があると判断した場合(ステップS108,Yes)、重心までの距離が最小のBBの候補を選択し(ステップS109)、処理をステップS110へ移す。情報処理装置1は、複数のBBの候補がないと判断した場合(ステップS108,No)、処理をステップS110へ移す。
【0052】
また、情報処理装置1は、BBの候補の選択操作がないと判断した場合(ステップS107,No)、四点選択操作があるか否かを判断する(ステップS112)。そして、情報処理装置1は、四点選択操作がないと判断した場合(ステップS112,No)、処理を終了する。その後、情報処理装置1は、再度、ステップS101から処理を開始する。
【0053】
また、情報処理装置1は、四点選択操作があると判断した場合(ステップS112,Yes)、選択された四点をつなぐBBの候補を生成し(ステップS113)、処理をステップS110へ移す。
【0054】
ステップS110において、情報処理装置1は、選択または作成されたBBの候補を強調表示させる。その御、情報処理装置1は、強調表示したBBの候補を画像に付与して(ステップS111)、処理を終了する。その後、情報処理装置1は、再度、ステップS101から処理を開始する。
【0055】
なお、情報処理装置1は、予め定めるサイズより小さなBBの候補を消去する処理(ステップS104)と、各画素値の差が閾値未満のBBの候補を消去する処理(ステップS105)とを省略することもできる。
【0056】
また、情報処理装置1は、予め定めるサイズより小さなBBの候補を消去する処理(ステップS104)と、各画素値の差が閾値未満のBBの候補を消去する処理(ステップS105)との順序を入れ替えることもできる。また、情報処理装置1は、各画素値の差と比較する閾値を任意に設定変更することができる。
【0057】
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。