(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】情報処理装置、情報処理方法、検知モデルの製造方法、およびプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241106BHJP
G06N 3/0895 20230101ALI20241106BHJP
G06T 7/00 20170101ALI20241106BHJP
G06V 10/774 20220101ALI20241106BHJP
【FI】
G06N20/00 130
G06N3/0895
G06T7/00 350B
G06V10/774
(21)【出願番号】P 2023503690
(86)(22)【出願日】2022-02-15
(86)【国際出願番号】 JP2022005877
(87)【国際公開番号】W WO2022185899
(87)【国際公開日】2022-09-09
【審査請求日】2023-08-31
(31)【優先権主張番号】PCT/JP2021/008696
(32)【優先日】2021-03-05
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】田中 勇貴
(72)【発明者】
【氏名】吉田 周平
(72)【発明者】
【氏名】寺尾 真
【審査官】北川 純次
(56)【参考文献】
【文献】特開2020-197974(JP,A)
【文献】特開2021-022380(JP,A)
【文献】国際公開第2020/225923(WO,A1)
【文献】米国特許出願公開第2020/0410388(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00 - 20/20
G06N 3/02 - 3/10
G06T 7/00
G06V 10/774
(57)【特許請求の範囲】
【請求項1】
第1のデータセットを用いて検知モデルの学習を行う学習手段と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定手段と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、
前記推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と
を備えていることを特徴とする情報処理装置。
【請求項2】
前記疑似ラベル付与後のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習手段を更に備えている
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記擬似ラベル参照学習手段は、前記対象画像用検知モデルの学習として、前記検知モデルの再学習を行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
第1のデータセットを用いて第1の検知モデルの学習を行う第1の学習手段と、
第2のデータセットを用いて第2の検知モデルの学習を行う第2の学習手段と、
第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する第1の閾値決定手段と、
第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する第2の閾値決定手段と、
前記第2のデータセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第1の推論手段と、
前記第1のデータセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第2の推論手段と、
前記第1の推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第2のデータセットを生成する第1のデータセット生成手段と、
前記第2の推論手段による1又は複数の推論結果のうち、前記第2の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第1のデータセットを生成する第2のデータセット生成手段と、
を備えていることを特徴とする情報処理装置。
【請求項5】
対象画像を取得する取得手段と、
前記対象画像を入力とし、前記対象画像に含まれるオブジェクトに関する推論結果を出力する対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、
を
更に備え、
前記対象画像用検知モデルは
、前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処
理によって学習されたものである
ことを特徴とする
請求項1から3のいずれか1項に記載の情報処理装置。
【請求項6】
少なくとも1つのプロセッサが、
第1のデータセットを用いて検知モデルの学習を行う学習工程と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定工程と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、
前記推論工程による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と
を含んでいることを特徴とする情報処理方法。
【請求項7】
前記少なくとも1つのプロセッサが、
対象画像を取得することと、
前記対象画像を入力とし、前記対象画像に含まれるオブジェクトに関する推論結果を出力する対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行うことと、
を
更に含み、
前記対象画像用検知モデルは
、前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処
理によって学習されたものである
ことを特徴とする
請求項6に記載の情報処理方法。
【請求項8】
少なくとも1つのプロセッサが、
第1のデータセットを用いて検知モデルの学習を行う学習工程と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定工程と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、
前記推論工程による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と、
前記疑似ラベル付与後のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習工程と
を含んでいることを特徴とする検知モデルの製造方法。
【請求項9】
コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、
第1のデータセットを用いて検知モデルの学習を行う学習手段と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定手段と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、
前記推論手段による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と
として機能させるプログラム。
【請求項10】
前記コンピュータを、
対象画像を取得する取得手段と、
前記対象画像を入力とし、前記対象画像に含まれるオブジェクトに関する推論結果を出力する対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、
として
更に機能させ、
前記対象画像用検知モデルは
、前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処
理によって学習されたものである
請求項9に記載のプログラム。
【請求項11】
少なくとも1つのプロセッサが、
第1のデータセットを用いて第1の検知モデルの学習を行う第1の学習工程と、
第2のデータセットを用いて第2の検知モデルの学習を行う第2の学習工程と、
第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する第1の閾値決定工程と、
第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する第2の閾値決定工程と、
前記第2のデータセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第1の推論工程と、
前記第1のデータセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第2の推論工程と、
前記第1の推論工程による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第2のデータセットを生成する第1のデータセット生成工程と、
前記第2の推論工程による1又は複数の推論結果のうち、前記第2の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第1のデータセットを生成する第2のデータセット生成工程と、
を含んでいることを特徴とする情報処理方法。
【請求項12】
コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、
第1のデータセットを用いて第1の検知モデルの学習を行う第1の学習手段と、
第2のデータセットを用いて第2の検知モデルの学習を行う第2の学習手段と、
第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する第1の閾値決定手段と、
第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する第2の閾値決定手段と、
前記第2のデータセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第1の推論手段と、
前記第1のデータセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第2の推論手段と、
前記第1の推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第2のデータセットを生成する第1のデータセット生成手段と、
前記第2の推論手段による1又は複数の推論結果のうち、前記第2の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第1のデータセットを生成する第2のデータセット生成手段と、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検知モデルの再学習に用いるデータセットに含まれる1又は複数の画像に、擬似ラベルを関連付ける技術に関する。
【背景技術】
【0002】
画像に含まれるオブジェクトを検知する検知モデルは、多数の正解ありデータを用いて学習を行うことで高精度の検知モデルとなる。一方で、多数のデータを収集し、当該データに正解ラベルを関連付ける処理は高コストである。このため、少数の正解ありデータから高精度の検知モデルを生成するために、正解なしデータに対して擬似ラベルを関連付ける技術が知られている。
【0003】
擬似ラベルとは、正解ありデータセットのみで学習を行った検知モデルを用いて、正解なしデータセットの画像を推論した推論結果のうちの信頼できるものを指す。例えば、非特許文献1には、推論結果の信頼度が閾値以上であるものを擬似ラベルとして採用する手法が開示されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】Xiangyun Zhao et. al.,"Object Detection with a Unified Label Space from Multiple Datasets",August 15, 2020,arXiv:2008.06614v1
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載の手法は、適切な閾値を設定するための調整が必要であるため、この調整にかかる時間的コスト及び計算的コストに削減の余地がある。換言すれば、擬似ラベルを用いた高精度の検知モデルの生成コストをより低減させる余地がある。
【0006】
本発明の一態様は、上記の問題に鑑みてなされたものである。すなわち、本発明の一態様は、生成コストを抑制しつつ、高精度な検知モデルを生成することのできる技術を提供することを一目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、第1のデータセットを用いて検知モデルの学習を行う学習手段と、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定手段と、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、前記推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と、を備える。
【0008】
本発明の一態様に係る情報処理装置は、第1のデータセットを用いて第1の検知モデルの学習を行う第1の学習手段と、第2のデータセットを用いて第2の検知モデルの学習を行う第2の学習手段と、第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する第1の閾値決定手段と、第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する第2の閾値決定手段と、前記第2のデータセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第1の推論手段と、前記第1のデータセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第2の推論手段と、前記第1の推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第2のデータセットを生成する第1のデータセット生成手段と、前記第2の推論手段による1又は複数の推論結果のうち、前記第2の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第1のデータセットを生成する第2のデータセット生成手段と、を備える。
【0009】
本発明の一態様に係る情報処理装置は、対象画像を取得する取得手段と、対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、を備え、前記対象画像用検知モデルは、第1のデータセットを用いて検知モデルの学習を行う学習処理、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定処理、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、前記推論処理による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理によって学習されたものである。
【0010】
本発明の一態様に係る情報処理方法は、第1のデータセットを用いて検知モデルの学習を行う学習工程と、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定工程と、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、前記推論工程による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と、を含む。
【0011】
本発明の一態様に係る情報処理方法は、対象画像を取得することと、対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行うことと、を含み、前記対象画像用検知モデルは、第1のデータセットを用いて検知モデルの学習を行う学習処理、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定処理、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、前記推論処理による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理によって学習されたものである。
【0012】
本発明の一態様に係る検知モデルの製造方法は、第1のデータセットを用いて検知モデルの学習を行う学習工程と、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定工程と、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、前記推論工程による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と、前記疑似ラベル付与後のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習工程とを含む。
【0013】
本発明の一態様に係るプログラムは、コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、第1のデータセットを用いて検知モデルの学習を行う学習手段と、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定手段と、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、前記推論手段による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と、として機能させる。
【0014】
本発明の一態様に係るプログラムは、コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、対象画像を取得する取得手段と、対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、として機能させ、前記対象画像用検知モデルは、第1のデータセットを用いて検知モデルの学習を行う学習処理、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定処理、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、前記推論処理による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理によって学習されたものである。
【発明の効果】
【0015】
本発明の一態様によれば、生成コストを抑制しつつ、高精度な検知モデルを生成することができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図2】
図1に示す情報処理装置が実行する情報処理方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図4】
図3に示す情報処理装置が実行する情報処理方法の流れを示すフロー図である。
【
図5】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図6】本発明の例示的実施形態2に係る第1のデータセットおよび第2のデータセットに含まれるデータの具体例を示す図である。
【
図7】
図5に示す情報処理装置が算出する適合率と再現率との関係を示すグラフである。
【
図8】本発明の例示的実施形態2に係る、擬似ラベルが付与されたデータセットに含まれるデータの具体例を示す図である。
【
図9】
図5に示す情報処理装置が実行する情報処理方法の流れを示すフロー図である。
【
図10】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図11】本発明の例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
【
図12】本発明の例示的実施形態3に係る第1のデータセットおよび第2のデータセットに含まれるデータの具体例を示す図である。
【
図13】本発明の例示的実施形態3に係る第2のデータセットと、第2のデータセットから生成された、擬似ラベルが付与されたデータセットとに含まれるデータの具体例を示す図である。
【
図14】本発明の例示的実施形態4に係る情報処理装置の構成を示すブロック図である。
【
図15】本発明の例示的実施形態4に係る第1のデータセットおよび第2のデータセットに含まれるデータの具体例を示す図である。
【
図16】本発明の例示的実施形態4に係る、擬似ラベルが付与されたデータセットに含まれるデータの具体例を示す図である。
【
図17】本発明の例示的実施形態5に係る情報処理装置の構成を示すブロック図である。
【
図18】
図17に示す情報処理装置が実行する情報処理方法の流れを示すフロー図である。
【
図19】本発明の例示的実施形態6に係る情報処理装置の構成を示すブロック図である。
【
図20】本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0017】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0018】
<情報処理装置10の概要>
本例示的実施形態に係る情報処理装置10は、対象のデータセットに疑似ラベルを付与することによって擬似ラベル付与後のデータセットを生成するデータセット生成装置としての機能を有している。
【0019】
より具体的に言えば、情報処理装置10は、まず、第1のデータセットを用いて検知モデルの学習を行う。さらに情報処理装置10は、評価用データセットに含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該画像の各々に付された1又は複数の正解ラベルとの比較結果とを参照して第1の閾値を決定する。さらに情報処理装置10は、第2のデータセットに含まれる1又は複数の画像の各々を検知モデルに入力することによって、当該画像の各々についての1又は複数の推論結果を取得する。さらに情報処理装置10は、第2のデータセットに含まれる1又は複数の画像からの1又は複数の推論結果のうち、第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、対応する画像に関連付けることにより、擬似ラベル付与後のデータセットを生成する。
【0020】
<情報処理装置10の構成>
本例示的実施形態に係る情報処理装置10の構成について、
図1を参照して説明する。
図1は、情報処理装置10の構成を示すブロック図である。
【0021】
図1に示すように、情報処理装置10は、学習部101と、閾値決定部102と、推論部103と、データセット生成部104とを備える。学習部101は、本例示的実施形態において学習手段を実現する構成である。閾値決定部102は、本例示的実施形態において閾値決定手段を実現する構成である。推論部103は、本例示的実施形態において推論手段を実現する構成である。データセット生成部104は、本例示的実施形態においてデータセット生成手段を実現する構成である。
【0022】
学習部101は、第1のデータセットを用いて検知モデルの学習を行う。具体的には、学習部101は、1又は複数の画像を含む第1のデータセットを用いて、当該画像に含まれるオブジェクトの検知のための検知モデルの学習を行う。検知とは、画像を検知モデルに入力することにより、
・当該画像に含まれるオブジェクトの存否
・当該画像に含まれるオブジェクトの位置
・当該画像に含まれるオブジェクトのサイズ
・当該画像に含まれるオブジェクトのカテゴリ
の少なくとも何れかに関する推論結果を出力することである。学習部101は、画像を入力とし上記のような推論結果を出力する検知モデルを学習させる。
【0023】
閾値決定部102は、評価用データセットに含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する。ここで、正解ラベルとは、評価用データセットに含まれる1又は複数の画像の各々に含まれる1又は複数のオブジェクトについて、
・当該画像に含まれるオブジェクトの位置
・当該画像に含まれるオブジェクトのサイズ
・当該画像に含まれるオブジェクトのカテゴリ
の少なくとも何れかに関する正解(Ground Truth)データを含むラベルのことである。
【0024】
推論部103は、第2のデータセットに含まれる1又は複数の画像の各々を、上述した検知モデルに入力することによって、当該画像の各々についての1又は複数の推論結果を取得する。第2のデータセットとは、第1のデータセットと異なる1又は複数の画像を含む。
【0025】
データセット生成部104は、推論部103による1又は複数の推論結果のうち、第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、対応する画像に関連付けることによって、擬似ラベル付与後のデータセットを生成する。ここで、擬似ラベルとは、第2のデータセットに含まれる1又は複数の画像の各々について、
・推論部103によってオブジェクトであると推論された1又は複数のオブジェクトの各々の位置
・上記各オブジェクトのサイズ
・上記各オブジェクトのカテゴリ
の少なくとも何れかに関するデータを含むラベルである。
【0026】
なお、あるオブジェクトに対して正解ラベルが存在すると仮定した場合、当該オブジェクトに対して付与された疑似ラベルは、当該正解ラベルと一致する場合もあるし、一致しない場合もある。例えば、当該オブジェクトに関する正解データに含まれる当該オブジェクトの位置、サイズ、カテゴリのうち、何れか1又は複数の項目が、疑似ラベルにおける当該オブジェクトの位置、サイズ、カテゴリに一致し、他の項目は一致しないといったことも起こり得る。
【0027】
疑似ラベルの精度は、一般に、上述した第1の閾値を調整することによって調整することができるが、当該第1の閾値の調整には、一般に、時間的コスト及び計算的コストが必要となり得る。
【0028】
上述のように、本例示的実施形態に係る情報処理装置10においては、第2のデータセットに含まれる画像の各々についての推論結果を擬似ラベルとするか否かを決定するための第1の閾値を自動で決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置10によれば、当該第1の閾値の調整に関するコストを削減することができるという効果が得られる。したがって、本例示的実施形態に係る情報処理装置10によれば、生成コストを抑制しつつ、高精度な検知モデルを生成することができる。
【0029】
<情報処理方法の流れ>
以上のように構成された情報処理装置10が実行する情報処理方法S10の流れについて、
図2を参照して説明する。
図2は、情報処理方法S10の流れを示すフロー図である。情報処理装置10は、擬似ラベルが関連付けられた画像を含む第2のデータセットを生成するために、情報処理方法S10を実行する。
【0030】
図2に示すように、情報処理方法S10は、ステップS101~S104を含む。
【0031】
(ステップS101)
ステップS101において、学習部101は、検知モデルの学習を行う。具体的には、学習部101は、第1のデータセットを用いて検知モデルの学習を行う。ステップS101は、本例示的実施形態における学習工程である。
【0032】
(ステップS102)
ステップS102において、閾値決定部102は、第1の閾値を決定する。具体的には、閾値決定部102は、評価用データセットに含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、擬似ラベルを決定するための第1の閾値を決定する。ステップS102は、本例示的実施形態における閾値決定工程である。
【0033】
(ステップS103)
ステップS103において、推論部103は、推論を行う。具体的には、推論部103は、第2のデータセットに含まれる1又は複数の画像の各々を検知モデルに入力することによって、当該画像の各々についての1又は複数の推論結果を取得する。ステップS103は、本例示的実施形態における推論工程である。
【0034】
(ステップS104)
ステップS104において、データセット生成部104は、擬似ラベル付与後のデータセットを生成する。具体的には、データセット生成部104は、ステップS103における1又は複数の推論結果のうち、第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、第2のデータセットにおける対応する画像に関連付けることによって、擬似ラベル付与後のデータセットを生成する。ステップS104は、本例示的実施形態におけるデータセット生成工程である。
【0035】
なお、ステップS103の実行タイミングは、ステップS102の実行後に限定されない。当該実行タイミングは、ステップS101の実行後、かつステップS104の実行前であればよく、例えば、ステップS102の実行前であってもよい。
【0036】
上述のように、本例示的実施形態に係る情報処理方法S10によれば、情報処理装置10と同様の作用効果が得られる。すなわち、本例示的実施形態に係る情報処理方法S10においては、第2のデータセットに含まれる画像の各々についての推論結果を擬似ラベルとするか否かを決定するための第1の閾値を自動で決定する構成が採用されている。このため、本例示的実施形態に係る情報処理方法S10によれば、当該第1の閾値の調整に関するコストを削減することができるという効果が得られる。したがって、本例示的実施形態に係る情報処理方法S10によれば、生成コストを抑制しつつ、高精度な検知モデルを生成することができる。
【0037】
<情報処理装置20の概要>
情報処理装置20は、対象画像を取得し、対象画像用検知モデルを用いて、当該画像に含まれるオブジェクトの検知を行う。典型的には、対象画像用検知モデルは、上述した情報処理装置10、具体的には学習部101が学習した検知モデルに対する再学習であって、情報処理装置10が生成した擬似ラベル付与後のデータセットを参照した再学習が行われた検知モデルである。なお、対象画像用検知モデルはこれに限定されない。対象画像用検知モデルは、擬似ラベル付与後のデータセットを用いて学習された検知モデルであればよく、例えば、擬似ラベル付与後のデータセットを用いて学習された、新たな検知モデルであってもよい。ここで、新たな検知モデルとは、学習部101が学習した検知モデルとは異なる検知モデルである。
【0038】
<情報処理装置20の構成>
本例示的実施形態に係る情報処理装置20の構成について、
図3を参照して説明する。
図3は、情報処理装置20の構成を示すブロック図である。
【0039】
図3に示すように、情報処理装置20は、取得部201と、検知部202とを備える。取得部201は、本例示的実施形態において取得手段を実現する構成である。検知部202は、本例示的実施形態において検知手段を実現する構成である。
【0040】
取得部201は、対象画像を取得する。ここで、対象画像とは、当該画像に含まれるオブジェクトの検知のために、検知モデルに入力される画像である。例えば、取得部201は、情報処理装置20に記憶された対象画像を読み出すことで、対象画像を取得してもよいし、撮像装置から供給される対象画像を取得してもよい。また、例えば、取得部201は、入力装置(図示せず)を介して対象画像を取得してもよい。また、例えば、取得部201は、情報処理装置20と通信可能に接続された他の装置(図示せず)から対象画像を取得してもよい。
【0041】
検知部202は、対象画像用検知モデルを用いて、対象画像に含まれるオブジェクトの検知を行う。対象画像用検知モデルは、対象画像に含まれるオブジェクトを検知するために用いる検知モデルであり、本例示的実施形態に係る対象画像用検知モデルは、上述した再学習が行われた検知モデルである。検知部202は、対象画像を対象画像用検知モデルに入力することにより、対象画像用検知モデルから出力された推論結果を取得する。例えば、検知部202は、対象画像用検知モデルを保持しており、当該対象画像用検知モデルに対象画像を入力する。また、例えば、検知部202は、記憶装置(図示せず)に記憶されている対象画像用検知モデルにアクセスし、対象画像を入力する。
【0042】
上述のように、本例示的実施形態に係る情報処理装置20においては、自動で決定された第1の閾値を用いて擬似ラベルが決定され、当該擬似ラベルが関連付けられた画像を含むデータセットを用いて学習が行われた対象画像用検知モデルを用いてオブジェクトを検知する構成が採用されている。このため、本例示的実施形態に係る情報処理装置20によれば、第1の閾値の調整に関するコストを削減した対象画像用検知モデルを用いて、画像に含まれるオブジェクトを検知することができるという効果が得られる。
【0043】
<情報処理方法の流れ>
以上のように構成された情報処理装置20が実行する情報処理方法S20の流れについて、
図4を参照して説明する。
図4は、情報処理方法S20の流れを示すフロー図である。情報処理装置20は、対象画像に含まれるオブジェクトを検知するために、情報処理方法S20を実行する。
【0044】
図4に示すように、情報処理方法S20は、ステップS201およびS202を含む。
【0045】
(ステップS201)
ステップS201において、取得部201は、対象画像を取得する。
【0046】
(ステップS202)
ステップS202において、検知部202は、オブジェクトを検知する。具体的には、検知部202は、対象画像用検知モデルを用いて、対象画像に含まれるオブジェクトの検知を行う。より具体的には、検知部202は、取得部201が取得した対象画像を対象画像用検知モデルに入力し、当該検知モデルが出力した推論結果を取得する。
上述のように、本例示的実施形態に係る情報処理方法S20によれば、情報処理装置20と同様の作用効果が得られる。すなわち、本例示的実施形態に係る情報処理方法S20においては、自動で決定された第1の閾値を用いて擬似ラベルを決定し、当該擬似ラベルが関連付けられた画像を含むデータセットを用いて学習が行われた対象画像用検知モデルを用いてオブジェクトを検知する構成が採用されている。このため、本例示的実施形態に係る情報処理方法S20によれば、第1の閾値の調整に関するコストを削減した対象画像用検知モデルを用いて、画像に含まれるオブジェクトを検知することができるという効果が得られる。
【0047】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0048】
<情報処理装置10aの概要>
本例示的実施形態に係る情報処理装置10aは、例示的実施形態1を変形したものである。具体的には、情報処理装置10aは、第1のデータセットを取得し、例示的実施形態1で説明した検知モデルの学習、閾値の決定、推論および擬似ラベル付与後のデータセットの作成を行う。さらに情報処理装置10aは、生成した擬似ラベル付与後のデータセットを用いて、対象画像用検知モデルの学習を行う。典型的には、対象画像用検知モデルは、上記検知モデルに対する再学習であって、擬似ラベル付与後のデータセットを参照した再学習が行われた検知モデルである。なお、上述したとおり、対象画像用検知モデルは、再学習が行われた検知モデルに限定されず、擬似ラベル付与後のデータセットを用いて学習された検知モデルであればよい。
【0049】
<情報処理装置10aの構成>
情報処理装置10aの構成について、
図5を参照して説明する。
図5は、情報処理装置10aの構成を示すブロック図である。
図5に示すように、情報処理装置10aは、制御部100aおよび記憶部150aを備える。制御部100aは、情報処理装置10aの各部を統括して制御する。記憶部150aは、情報処理装置10aが使用する各種プログラムやデータを記憶する。
【0050】
記憶部150aは、評価用データセットDSE、データセット1(DS1)、データセット2(DS2)、データセット2’(DS2’)、物体検知モデルDMを記憶する。評価用データセットDSEは、本例示的実施形態における評価用データセットである。データセット1(DS1)は、本例示的実施形態における第1のデータセットである。データセット2(DS2)は、本例示的実施形態における第2のデータセットである。データセット2’(DS2’)は、本例示的実施形態における、疑似ラベル付与後のデータセットである。
【0051】
ここで、データセット1(DS1)およびデータセット2(DS2)の詳細について説明する。
図6は、データセット1(DS1)およびデータセット2(DS2)に含まれるデータの具体例を示す図である。具体的には、
図6には、データセット1(DS1)に含まれる画像の1つと、データセット2(DS2)に含まれる画像の1つとが示されている。
【0052】
これらの画像の各々には、5つのオブジェクト、具体的には3人の人物と、2つの鞄とが含まれている。データセット1(DS1)に含まれる画像において、当該5つのオブジェクトの各々には、正解ラベルが関連付けられている。典型的には、正解ラベルは、
図6に示すようにカテゴリおよびバウンディングボックスを含むラベルである。カテゴリは、正解ラベルに関連付けられた画像に含まれるオブジェクトのカテゴリを示すカテゴリ情報であり、具体的には、当該オブジェクトのカテゴリに関する正解データである。
図6の例では、3人の人物の各々には「person」のカテゴリが、2つの鞄の各々には「bag」のカテゴリが関連付けられている。バウンディングボックスは、正解ラベルに関連付けられた画像に含まれるオブジェクトの領域を示す領域情報であり、具体的には、画像に含まれるオブジェクトの位置およびサイズに関する正解データである。1つのオブジェクトに1つのバウンディングボックスが関連付けられており、バウンディングボックスの典型例は、
図6に示すように、オブジェクトが内包される最小の矩形を示すデータである。
【0053】
一方、データセット2(DS2)に含まれる画像において、オブジェクトには正解ラベルは関連付けられていない。
【0054】
以上をふまえ、各例示的実施形態に記載の「画像」、「データセット」および「正解ラベル」は、以下のように表現することができる。
・検知モデルに入力される画像xは、データ空間Xの要素である。ここで、データ空間Xは当該画像xを含むデータセットに対応する。なお、1つの画像xに含まれるオブジェクトの数は任意である。
・正解ラベルは、カテゴリyおよびバウンディングボックスbの組(y,b)で表現することができる。なお、カテゴリyは、カテゴリの集合Yの要素であり、
図6の例では、集合Yは、「personおよびbag」である。
・以上より、正解ラベルが関連付けられたデータセットDは、画像xと、画像xに含まれる全てのオブジェクトの集合
【数1】
との組
【数2】
の集合として、
【数3】
と表現することができる。
【0055】
(制御部100aの構成)
図5に示すように、制御部100aは、学習部101、閾値決定部102、推論部103、データセット生成部104、及び再学習部105を備えている。また、閾値決定部102は、
図5に示すように、評価データセット推論部1021、評価値算出部1022、及び閾値判断部1023を備えている。また、データセット生成部104は、
図5に示すように、擬似ラベル生成部1041、及び関連付け部1042を備えている。
【0056】
評価データセット推論部1021、評価値算出部1022および閾値判断部1023は、例示的実施形態1における閾値決定部102に相当し、本例示的実施形態において閾値決定手段を実現する構成である。擬似ラベル生成部1041および関連付け部1042は、例示的実施形態1におけるデータセット生成部104に相当し、本例示的実施形態においてデータセット生成手段を実現する構成である。再学習部105は、本例示的実施形態において擬似ラベル参照学習手段を実現する構成である。
【0057】
学習部101は、データセット1(DS1)を取得し、当該データセット1(DS1)を用いて擬似ラベル生成用物体検知モデルの学習を行う。すなわち、学習部101は、第1のデータセットを取得する取得部としても機能する。具体的には、学習部101は、記憶部150aに記憶されているデータセット1(DS1)を読み出し、当該データセット1(DS1)、すなわち、1又は複数の画像の各々に正解ラベルが関連付けられたデータセットを用いて、擬似ラベル生成用物体検知モデルの学習を行う。そして、学習部101は、学習済みの擬似ラベル生成用物体検知モデルを評価データセット推論部1021と、推論部103とへ出力する。
【0058】
評価データセット推論部1021は、評価用データセットによる推論結果を生成する。具体的には、評価データセット推論部1021は、評価用データセットDSEおよび擬似ラベル生成用物体検知モデルを取得し、当該評価用データセットDSEに含まれる1又は複数の画像の各々を擬似ラベル生成用物体検知モデルに入力して推論結果を得る。より具体的には、評価データセット推論部1021は、記憶部150aに記憶されている評価用データセットDSEを読み出し、学習部101から取得した擬似ラベル生成用物体検知モデルに入力する。そして、評価データセット推論部1021は、擬似ラベル生成用物体検知モデルが出力した推論結果を取得し、当該推論結果を評価値算出部1022へ出力する。
【0059】
評価用データセットDSEは、データセット1(DS1)と同様に、各画像に含まれるオブジェクトの各々に正解ラベルが関連付けられたデータセットである。例えば、評価用データセットDSEに含まれる画像は、データセット1(DS1)に含まれる画像の一部であってもよい。また、例えば、評価用データセットDSEに含まれる画像は、データセット2(DS2)に含まれる画像の一部に正解ラベルを付与することにより生成されたものであってもよい。また、例えば、評価用データセットDSEに含まれる画像は、データセット1(DS1)およびデータセット2(DS2)に含まれない画像に正解ラベルを付与することにより生成されたものであってもよい。
【0060】
評価データセット推論部1021による推論結果は、評価用データセットDSEに含まれる1又は複数の画像の各々について、
・オブジェクトであると推論された1又は複数のオブジェクトの各々の位置
・上記各オブジェクトのサイズ
・上記各オブジェクトのカテゴリ
の少なくともいずれかに関するデータを含み、さらに、上記各オブジェクトについて、推論の確からしさに関するデータを含む。典型的には、評価データセット推論部1021による推論結果は、カテゴリ、バウンディングボックスおよび信頼度を含む。信頼度は、推論の確からしさに関するデータの一例であり、例えば、0を最小値、1を最大値とする数値である。
【0061】
評価値算出部1022は、推論結果に基づき評価値を算出する。具体的には、評価値算出部1022は、評価用データセットDSEに含まれる1又は複数の画像の各々における各推論結果と、当該画像の各々における正解ラベルとの比較結果に基づき、各推論結果の評価値を算出する。
【0062】
例えば、評価値は、適合率(precision)と再現率(recall)との調和平均、すなわちF値である。ここで、評価値算出部1022が実行するF値の算出処理について説明する。
【0063】
具体的には、評価値算出部1022は、以下の(1)~(6)の処理を実行する。
【0064】
(1)すべての推論結果を信頼度が高い順にソートする。
【0065】
(2)信頼度が基準値以上である推論結果を特定する。当該基準値は、例えば0.9とする。なお、後述のとおり、F値の算出処理では複数のF値を算出する。そして、当該基準値はF値の各々において異なる値となる。つまり、上述の値0.9は、基準値の初期値と表現することができる。
【0066】
(3)特定した推論結果について、TP(True Positive)、FP(false positive)のいずれであるかを特定する。ここで、TPは、バウンディングボックスと正解ラベルのバウンディングボックスとの重なり度合いが所定値以上であり、かつ、カテゴリが正解ラベルと一致している推論結果である。また、FPは、
(A)カテゴリが正解ラベルと一致しているが、バウンディングボックスと当該正解ラベルのバウンディングボックスとの重なり度合いが所定値以下である推論結果
(B)バウンディングボックスが重なる正解ラベルとカテゴリが異なる推論結果
(C)バウンディングボックスが重なる正解ラベルが存在しない推論結果
のいずれかである。なお、バウンディングボックスの重なり度合いを示す値としては、例えば、IOU(Intersection Over Union)を用いる。
【0067】
(4)正解ラベルについて、FN(false negative)となる正解ラベルを特定する。FNは、
(D)バウンディングボックスが重なる推論結果が存在しない正解ラベル
(E)バウンディングボックスが重なる推論結果とカテゴリが異なる正解ラベル
のいずれかである。
【0068】
(5)適合率および再現率を算出する。適合率は、推論結果の正解率であり、例えば、適合率=TPの数/(TPの数+FPの数)で算出される。再現率は、正解ラベルのうち、正しく推論された割合であり、例えば、再現率=TPの数/(TPの数+FNの数)で算出される。
図7は、適合率と再現率との関係を示すグラフである。
図7に示すとおり、信頼度が高いほど適合率は高くなるが、再現率が低くなる。一方、信頼度が低いほど適合率は低くなるが、再現率が高くなる。このように、適合率と再現率とはトレードオフの関係となる。なお、ここでの信頼度とは、(2)の処理で設定した基準値である。
【0069】
(6)F値を算出する。F値は、(2×適合率×再現率)/(適合率+再現率)で算出される。
【0070】
以上の処理が終了すると、評価値算出部1022は、基準値を減少させ、(2)~(6)の処理を再度実行する。例えば、評価値算出部1022は、次の基準値を0.8とする。換言すれば、評価値算出部1022は、次の基準値に基づくF値を算出する。評価値算出部1022は、(2)~(6)の処理を繰り返して、各基準値に基づくF値を算出する。これにより、異なる基準値の各々に基づく複数のF値が算出される。
【0071】
一例として、評価値算出部1022は、最小の信頼度以下の基準値でF値を算出するまで(2)~(6)の処理を繰り返す。この例の場合、最後の(2)~(6)の処理は、すべての推論結果を対象としてF値が算出される。なお、2回目以降の(2)の処理で特定された推論結果のうち、過去の(2)の処理で特定済みの推論結果については、(3)および(4)の処理を省略し、過去の(3)および(4)の処理における特定結果を用いてもよい。
【0072】
評価値算出部1022は、算出した各評価値、すなわちF値について、各F値の算出において用いた基準値を紐付けて閾値判断部1023へ出力する。
【0073】
なお、(5)の処理において、評価値算出部1022は、推論結果および正解ラベルにおいてカテゴリが複数ある場合、カテゴリ毎に適合率および再現率を算出してもよい。この例の場合、(6)の処理では、評価値算出部1022は、カテゴリ毎にF値を算出することとなる。結果として、基準値の各々には、カテゴリごとに算出された複数のF値が紐づけられる。
【0074】
また、評価値算出部1022が算出する評価値は、F値に限定されない。例えば、当該評価値は適合率または再現率を重視した値であってもよい。この例の場合、(6)の処理において、評価値算出部1022は、例えば、{(1+β2)×適合率×再現率}/{(β2×適合率)+再現率)で評価値を算出してもよい。βは再現率に対する適合率の重要度を調整するための値であり、βの値を0<β<1の範囲とすれば、再現率を重視する評価値となり、1<βの範囲とすれば、適合率を重視する評価値となる。
【0075】
なお、複数の評価値を算出するにあたり、(2)の処理において推論結果の少なくとも一部を特定する方法は、上述の例に限定されない。例えば、評価値算出部1022は、所定の個数の推論結果を信頼度が高い順に特定してもよい。この例において、評価値算出部1022は、当該所定の個数を、(6)の処理が終了し、次の(2)~(6)の処理となるたびに所定数増加させる。そして、評価値算出部1022は、すべての推論結果を(2)の処理で特定して評価値を算出するまで、(2)~(6)の処理を繰り返す。なお、最後の(2)の処理における所定の個数の増加量は、1以上所定数以下であればよい。この例では、算出した各評価値に、特定した推論結果における信頼度のうち、最小の信頼度を紐付けて閾値判断部1023へ出力する。
【0076】
また、例えば、評価値算出部1022は、(2)~(6)の処理に代えて、
・全ての推論結果について、TP,FPおよびFNを特定する。
・信頼度に複数の閾値を設定しておき、各閾値以上の信頼度であるTPの数を特定する。
・特定したTPの数の各々について、適合率および再現率を算出する。
・算出した複数の適合率および再現率の組み合わせの各々について、評価値(典型例:F値)を算出する。
との処理を実行してもよい。なお、特定するTPの数は、再現率の値に比例する。この例では、算出した各評価値に、TPの数の特定に用いた閾値を紐づけて閾値判断部1023へ出力する。
【0077】
閾値判断部1023は、評価値に基づき閾値を決定する。具体的には、閾値判断部1023は、取得した複数のF値のうち、最大値を特定し、特定したF値に紐付けられた基準値を閾値とする。ここで、F値のうちの最大値は、適合率と再現率とのバランスがとれる値と表現することができる。上述したとおり、F値は適合率および再現率を含む式で算出されるので、閾値判断部1023は、評価値算出部1022による比較結果が示す適合率と再現率とを参照して閾値を決定すると表現することができる。また、上述したとおり、適合率と再現率とはトレードオフの関係となるので、F値が最大値となる適合率および再現率は、
図7におけるグラフにおいて、適合率または再現率が最大となる点ではなく、例えば
図7におけるグラフの星印が示す点となる。閾値判断部1023は、決定した閾値を擬似ラベル生成部1041へ出力する。
【0078】
なお、カテゴリ毎にF値が算出される例の場合、閾値判断部1023は、カテゴリ毎に閾値を設定する。すなわち、閾値判断部1023は、カテゴリ毎に複数の閾値を決定し、当該複数の閾値に、対応するカテゴリを示す情報を紐づけて擬似ラベル生成部1041へ出力する。
【0079】
推論部103は、記憶部150aに記憶されているデータセット2(DS2)を読み出し、学習部101から取得した擬似ラベル生成用物体検知モデルに、当該データセット2(DS2)に含まれる1又は複数の画像の各々を入力し、当該画像の各々についての1又は複数の推論結果を取得する。推論部103は、取得した推論結果を擬似ラベル生成部1041へ出力する。
【0080】
擬似ラベル生成部1041は、擬似ラベルを生成する。具体的には、擬似ラベル生成部1041は、推論部103による1又は複数の推論結果のうち、閾値判断部1023が決定した閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。擬似ラベル生成部1041は、擬似ラベルに設定した推論結果を、関連付け部1042へ出力する。
【0081】
なお、擬似ラベル生成部1041は、カテゴリ毎に設定された複数の閾値を取得した場合、推論部103による1又は複数の推論結果のうち、カテゴリ毎に設定された閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。具体的には、擬似ラベル生成部1041は、推論部103による推論結果をカテゴリ毎に分類し、それぞれの分類について、対応する閾値、換言すれば、カテゴリが一致する閾値を特定する。そして、擬似ラベル生成部1041は、それぞれの分類について、各推論結果の信頼度と、特定した閾値とを比較し、当該閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。
【0082】
関連付け部1042は、擬似ラベル生成部1041が設定した擬似ラベルを、対応する画像に関連付ける。これにより、データセット2(DS2)に含まれる1又は複数の画像の各々に、擬似ラベルが関連付けられたデータセット2’(DS2’)が生成される。関連付け部1042は、生成したデータセット2’(DS2’)を記憶部150aに記憶し、再学習部105へ通知する。
【0083】
図8は、データセット2’(DS2’)に含まれるデータの具体例を示す図である。具体的には、
図8には、データセット2’(DS2’)に含まれる画像の1つが示されている。当該画像は、
図6に示したデータセット2(DS2)に含まれる画像であり、当該画像に含まれる5つのオブジェクトの各々に擬似ラベルが関連付けられている。典型的には、擬似ラベルは、
図8に示すようにカテゴリおよびバウンディングボックスを含むラベルである。カテゴリは、擬似ラベルに関連付けられた画像に含まれるオブジェクトのカテゴリを示すカテゴリ情報である。
図8の例では、3人の人物の各々には「person」のカテゴリが、2つの鞄の各々には「bag」のカテゴリが関連付けられている。バウンディングボックスは、擬似ラベルに関連付けられた画像に含まれるオブジェクトの領域を示す領域情報である。1つのオブジェクトに1つのバウンディングボックスが関連付けられており、バウンディングボックスの典型例は、
図8に示すように、オブジェクトが内包される最小の矩形を示すデータである。
【0084】
再学習部105は、擬似ラベル付与後のデータセットを用いて、対象画像用検知モデルの学習を行う。一例として、再学習部105は、対象画像用検知モデルの学習として、学習部101により学習された検知モデルの再学習を行う。具体的には、再学習部105は、データセット2’(DS2’)を記憶部150aから読み出し、当該データセット2’(DS2’)を用いて、物体検知モデルDMの学習を行う。そして、再学習部105は、学習済みの物体検知モデルDMを記憶部150aに記憶する。また、他の例として、再学習部105は、対象画像用検知モデルの学習として、新たな検知モデルの学習を行い、当該新たな検知モデルを記憶部150aに記憶してもよい。
【0085】
上述のように、本例示的実施形態に係る情報処理装置10aにおいては、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う構成が採用されている。このため、本例示的実施形態に係る情報処理装置10aによれば、閾値の調整に関するコストを削減して対象画像用検知モデルを生成することができるという効果が得られる。したがって、本例示的実施形態に係る情報処理装置10aによれば、生成コストを抑制しつつ、高精度な対象画像用検知モデルを生成することができる。
【0086】
また、本例示的実施形態に係る情報処理装置10aにおいては、当該対象画像用検知モデルの学習として、学習部101により学習された検知モデルの再学習を行う構成が採用されている。このため、本例示的実施形態に係る情報処理装置10aによれば、再学習にかかるコストを抑制しつつ、検知モデルをより高精度なものとすることができる。
【0087】
また、本例示的実施形態に係る情報処理装置10aにおいては、第2のデータセットに含まれる画像の各々についての推論結果を擬似ラベルとするか否かを決定するための閾値を自動で決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置10aによれば、閾値の調整の度に必要であった再学習の回数を1回とすることができるという効果が得られる。結果として、再学習にかかる時間を低減させることができ、検知モデルの生成にかかる時間を低減させることができるという効果が得られる。
【0088】
また、上述のように、本例示的実施形態に係る情報処理装置10aにおいては、正解ラベルおよび擬似ラベルが、領域情報およびカテゴリ情報を含む構成が採用されている。このため、本例示的実施形態に係る情報処理装置10aによれば、再学習後の検知モデルを用いた、画像に含まれるオブジェクトの検知の精度を向上させることができるという効果が得られる。
【0089】
また、上述のように、本例示的実施形態に係る情報処理装置10aにおいては、算出した適合率と再現率とを参照して閾値を決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置10aによれば、擬似ラベルの設定の精度を向上させることができるという効果が得られる。また、本例示的実施形態に係る情報処理装置10aによれば、学習データの質(適合率)および学習データの量(再現率)の両方を考慮して擬似ラベルを設定することができるため、高精度な対象画像用検知モデルを生成することができるという効果が得られる。
【0090】
また、上述のように、本例示的実施形態に係る情報処理装置10aにおいては、擬似ラベル生成用物体検知モデルによる、評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとにおけるカテゴリ毎に閾値が設定される構成が採用されてもよい。このため、当該構成を採用した本例示的実施形態に係る情報処理装置10aによれば、擬似ラベルの設定の精度を向上させることができる。
【0091】
また、上述のように、本例示的実施形態に係る情報処理装置10aにおいては、評価用データセットDSEに含まれる画像は、第1のデータセットに含まれる構成が採用されてもよい。このため、当該構成を採用した本例示的実施形態に係る情報処理装置10aによれば、評価用データセットDSEの生成のために、作業にかかるコストの高い正解付け作業を新たに行う必要がなくなるという効果が得られる。また、当該構成を採用した本例示的実施形態に係る情報処理装置10aによれば、予め用意する画像の数を抑えることができるという効果が得られる。
【0092】
また、上述のように、本例示的実施形態に係る情報処理装置10aにおいては、評価用データセットDSEに含まれる画像は、第2のデータセットの一部に、正解ラベルを付与することによって生成する構成が採用されてもよい。このため、当該構成を採用した本例示的実施形態に係る情報処理装置10aによれば、擬似ラベルが付与されるデータセットの一部が評価用データセットDSEとして用いられて閾値が決定されることとなるので、付与される擬似ラベルの精度を向上させることができるという効果が得られる。また、当該構成を採用した本例示的実施形態に係る情報処理装置10aによれば、あらかじめ用意する画像の数を抑えることができるという効果が得られる。
【0093】
<情報処理方法の流れ>
以上のように構成された情報処理装置10aが実行する情報処理方法S10aの流れについて、
図9を参照して説明する。
図9は、情報処理方法S10aの流れを示すフロー図である。情報処理装置10aは、擬似ラベルが関連付けられた画像を含む第2のデータセットを生成するために、情報処理方法S10aを実行する。
【0094】
(ステップS101)
ステップS101において、学習部101は、検知モデルを学習する。具体的には、学習部101は、記憶部150aに記憶されているデータセット1(DS1)を読み出し、当該データセット1(DS1)、すなわち、1又は複数の画像の各々に正解ラベルが関連付けられたデータセットを用いて、擬似ラベル生成用物体検知モデルの学習を行う。そして、学習部101は、学習済みの擬似ラベル生成用物体検知モデルを評価データセット推論部1021と、推論部103とへ出力する。
【0095】
(ステップS1021)
ステップS1021において、評価データセット推論部1021は、評価用データセットによる推論結果を生成する。具体的には、評価データセット推論部1021は、記憶部150aに記憶されている評価用データセットDSEを読み出し、学習部101から取得した擬似ラベル生成用物体検知モデルに入力する。そして、評価データセット推論部1021は、擬似ラベル生成用物体検知モデルが出力した推論結果を取得し、当該推論結果を評価値算出部1022へ出力する。
【0096】
(ステップS1022)
ステップS1022において、評価値算出部1022は、推論結果に基づき評価値を算出する。具体的には、評価値算出部1022は、評価データセット推論部1021による推論結果のうち、基準値に基づき特定された推論結果と、評価用データセットDSEに含まれる1又は複数の画像の各々における正解ラベルとの比較結果に基づき適合率および再現率を算出し、当該適合率および再現率から、評価値としてのF値を算出する。評価値算出部1022は、基準値を変更してF値の算出を繰り返し、各基準値に対応する複数のF値を算出する。評価値算出部1022は、算出したF値の各々に、対応する基準値を紐付けて閾値判断部1023へ出力する。
【0097】
(ステップS1023)
ステップS1023において、閾値判断部1023は、評価値に基づき閾値を決定する。具体的には、閾値判断部1023は、取得した複数のF値のうち、最大値を特定し、特定したF値に紐付けられた基準値を閾値とする。閾値判断部1023は、決定した閾値を擬似ラベル生成部1041へ出力する。
【0098】
なお、ステップS1021~S1023は、例示的実施形態1にて説明したステップS102に対応する。
【0099】
(ステップS103)
ステップS103において、推論部103は、推論を行う。具体的には、推論部103は、記憶部150aに記憶されているデータセット2(DS2)を読み出し、学習部101から取得した擬似ラベル生成用物体検知モデルに、当該データセット2(DS2)に含まれる1又は複数の画像の各々を入力し、当該画像の各々についての1又は複数の推論結果を取得する。推論部103は、取得した推論結果を擬似ラベル生成部1041へ出力する。
【0100】
(ステップS1041)
ステップS1041において、擬似ラベル生成部1041は、擬似ラベルを生成する。具体的には、擬似ラベル生成部1041は、推論部103による1又は複数の推論結果のうち、閾値判断部1023が決定した閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。擬似ラベル生成部1041は、擬似ラベルに設定した推論結果を、関連付け部1042へ出力する。
【0101】
(ステップS1042)
ステップS1042において、関連付け部1042は、画像と擬似ラベルとを関連付ける。具体的には、関連付け部1042は、データセット2(DS2)に含まれる1又は複数の画像の各々に、対応する擬似ラベルを関連付け、データセット2’(DS2’)を生成する。擬似ラベル生成部1041は、関連付け部1042は、生成したデータセット2’(DS2’)を記憶部150aに記憶し、再学習部105へ通知する。
【0102】
なお、ステップS1041~S1042は、例示的実施形態1にて説明したステップS104に対応する。
【0103】
また、
図9に示してはいないが、再学習部105は、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う。一例として、再学習部105は、当該学習として、学習部101により学習された検知モデルの再学習を行う。具体的には、再学習部105は、データセット2’(DS2’)を記憶部150aから読み出し、当該データセット2’(DS2’)を用いて、物体検知モデルDMの学習を行う。そして、再学習部105は、学習済みの物体検知モデルDMを記憶部150aに記憶する。また、他の例として、再学習部105は、対象画像用検知モデルの学習として、新たな検知モデルの学習を行い、当該新たな検知モデルを記憶部150aに記憶してもよい。
【0104】
上述のように、本例示的実施形態に係る情報処理方法S10aによれば、情報処理装置10aと同様の作用効果が得られる。すなわち、本例示的実施形態に係る情報処理方法S10aにおいては、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う構成が採用されている。このため、本例示的実施形態に係る情報処理方法S10aによれば、閾値の調整に関するコストを削減して、情報処理装置が使用する対象画像用検知モデルを生成することができるという効果が得られる。したがって、本例示的実施形態に係る情報処理方法S10aによれば、生成コストを抑制しつつ、高精度な検知モデルを生成することができる。
【0105】
<情報処理装置20aの構成>
本例示的実施形態に係る情報処理装置20aの構成について、
図10を参照して説明する。
図10は、情報処理装置20aの構成を示すブロック図である。
【0106】
図10に示すように、情報処理装置20aは、制御部200a、記憶部250aおよび出力部260aを備える。制御部200aは、情報処理装置20aの各部を統括して制御する。記憶部250aは、情報処理装置20aが使用する各種プログラムやデータを記憶する。出力部260aは、情報処理装置20aによる情報処理結果を出力する。
【0107】
記憶部250aは、対象データセットTDSおよび物体検知モデルDMを記憶する。対象データセットTDSは、オブジェクトの検知対象である1又は複数の対象画像を含むデータセットである。物体検知モデルDMは、対象画像用検知モデルであり、具体的には、情報処理装置10aの再学習部105が生成した物体検知モデルDMである。
【0108】
すなわち、物体検知モデルDMは、
・第1のデータセットを用いて検知モデルの学習を行う学習処理、
・評価用データセットに含まれる1又は複数の画像の各々を当該検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定処理、
・第2のデータセットに含まれる1又は複数の画像の各々を当該検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、
・当該推論処理による1又は複数の推論結果のうち、閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、対応する画像に関連付けることによって、擬似ラベル付与後のデータセットを生成するデータセット生成処理、及び
・擬似ラベル付与後のデータセットを参照して、対象画像用検知モデルの再学習を行う擬似ラベル参照学習処理
によって学習されたものである。換言すれば、物体検知モデルDMは、上記各処理の各々を行う工程を含む方法で製造される。
【0109】
(制御部200aの構成)
図10に示すように、制御部200aは、取得部201および検知部202を含む。
【0110】
取得部201は、対象画像を取得する。具体的には、取得部201は、対象データセットTDSを記憶部250aから読み出し、検知部202へ出力する。
【0111】
検知部202は、対象画像用検知モデルを用いて、対象画像に含まれるオブジェクトの検知を行う。具体的には、検知部202は、取得部201から取得した対象データセットTDSに含まれる対象画像を物体検知モデルDMに入力し、物体検知モデルDMから出力された推論結果を取得する。検知部202は、取得した推論結果を出力部260aへ出力する。これにより、出力部260aは、対象画像の各々について、
・対象画像に含まれるオブジェクトの存否
・対象画像に含まれるオブジェクトの位置
・対象画像に含まれるオブジェクトのサイズ
・対象画像に含まれるオブジェクトのカテゴリ
の少なくとも何れかを出力する。典型的には、出力部260aは、オブジェクトの少なくとも一部にカテゴリおよびバウンディングボックスが付された対象画像を表示装置に表示させる。当該表示装置は、出力部260aであってもよいし、情報処理装置20aと通信可能に接続された表示装置(図示せず)であってもよい。
【0112】
上述のように、本例示的実施形態に係る情報処理装置20aにおいては、自動で決定された閾値を用いて擬似ラベルを決定し、当該擬似ラベルが関連付けられた画像を含むデータセットを用いて学習が行われた対象画像用検知モデルを用いてオブジェクトを検知する構成が採用されている。このため、本例示的実施形態に係る情報処理装置20aによれば、閾値の調整に関するコストを削減した対象画像用検知モデルを用いて、画像に含まれるオブジェクトを検知することができるという効果が得られる。
【0113】
また、本例示的実施形態に係る情報処理装置20aにおいては、対象画像用検知モデルによる、対象画像における推論結果を出力する構成が採用されている。このため、本例示的実施形態に係る情報処理装置20aによれば、情報処理装置20aのユーザが、当該推論結果を認識することができるという効果が得られる。
【0114】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1または2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0115】
<情報処理装置10bの構成>
情報処理装置10bの構成について、
図11を参照して説明する。
図11は、情報処理装置10bの構成を示すブロック図である。
図11に示すように、情報処理装置10bは、制御部100bおよび記憶部150bを備える。制御部100bは、情報処理装置10bの各部を統括して制御する。記憶部150bは、情報処理装置10bが使用する各種プログラムやデータを記憶する。
【0116】
記憶部150bが、例示的実施形態2にて説明した記憶部150aと異なる点は、データセット2(DS2)に含まれるデータである。当該データの詳細について、
図12を参照して説明する。
【0117】
図12は、データセット1(DS1)およびデータセット2(DS2)に含まれるデータの具体例を示す図である。具体的には、
図12には、データセット1(DS1)に含まれる画像の1つと、データセット2(DS2)に含まれる画像の1つとが示されている。
【0118】
本例示的実施形態において、データセット1(DS1)に含まれる画像には、5つのオブジェクト、具体的には、3体の犬と、2体の牛とが含まれている。また、データセット2(DS2)に含まれる画像には、5つのオブジェクト、具体的には、2体の犬と、3体の牛とが含まれている。本例示的実施形態に係るデータセット1(DS1)およびデータセット2(DS2)は、正解付けされたカテゴリ(責任範囲)が異なる複数のデータセット(エキスパートデータセットとも呼ぶ)である。
【0119】
本例示的実施形態では、例示的実施形態2と異なり、データセット2(DS2)に含まれる1又は複数の画像の少なくとも一部には、1又は複数の正解ラベルが付されている。データセット1(DS1)に含まれる画像において、3体の犬の各々には正解ラベルが関連付けられている。すなわち、データセット1(DS1)は、責任範囲が「犬(dog)」であるエキスパートデータセットである。データセット2(DS2)に含まれる画像において、オブジェクトOb1を含む3体の牛の各々には正解ラベルが関連付けられている。すなわち、データセット2(DS2)は、責任範囲が「牛(cow)」であるエキスパートデータセットである。なお、図示してはいないが、本例示的実施形態に係る評価用データセットDSEは、データセット1(DS1)と同様に、犬に正解ラベルが関連付けられた画像を含むデータセットである。
【0120】
(制御部100bの構成)
図11に示すように、制御部100bが、例示的実施形態2にて説明した制御部100aと異なる点は、関連付け部1042に代えて関連付け部1042bを含む点である。擬似ラベル生成部1041および関連付け部1042bは、例示的実施形態1におけるデータセット生成部104に相当し、本例示的実施形態においてデータセット生成手段を実現する構成である。
【0121】
関連付け部1042bは、関連付け部1042の機能に加え、以下の機能を有する。すなわち、関連付け部1042bは、擬似ラベルに関連付けられた画像に含まれるオブジェクトに正解ラベルが付与されていた場合であって、当該擬似ラベルに含まれる領域情報が示す領域と、当該正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、当該擬似ラベルを削除する。
【0122】
図13は、データセット2(DS2)、データセット2’(DS2’)およびデータセット2”に含まれるデータの具体例を示す図である。具体的には、
図13には、データセット2(DS2)、データセット2’(DS2’)およびデータセット2”の各々に含まれる画像の1つが示されている。なお、本例示的実施形態に係るデータセット2(DS2)はすでに説明しているため、ここでは説明を繰り返さない。
【0123】
データセット2’(DS2’)は、例示的実施形態2にて説明したとおり、データセット2(DS2)に含まれる1又は複数の画像の各々に、擬似ラベルが関連付けられたデータセットである。当該擬似ラベルは、データセット1(DS1)および評価用データセットDSEに基づくものといえるため、
図13の例では、カテゴリが「dog」である正解ラベルが、オブジェクトの一部に関連付けられている。ここで、
図13の例では、オブジェクトOb1に「dog」とのカテゴリを含む擬似ラベル、すなわち誤った擬似ラベルが関連付けられている。なお、
図13には示していないが、データセット2’(DS2’)の生成元であるデータセット2(DS2)に含まれる画像において、オブジェクトOb1には正解ラベルが関連付けられているため、データセット2’(DS2’)に含まれる画像において、オブジェクトOb1には、擬似ラベルに加えて当該正解ラベルが関連付けられている。
【0124】
関連付け部1042bは、データセット2’(DS2’)に含まれる各画像について、データセット2(DS2)に含まれる画像から対応する画像を特定する。
【0125】
続いて、関連付け部1042bは、データセット2’(DS2’)に含まれる画像の1つを選択し、当該画像に関連付けられた擬似ラベルのバウンディングボックスの各々について、特定した画像に含まれる正解ラベルのバウンディングボックスとのIOUを算出する。当該IOUが、上述した重なりの度合いに相当する。関連付け部1042bは、データセット2’(DS2’)に含まれる画像のすべてについてこの処理を実行する。
【0126】
関連付け部1042bは、IOUが所定値以上となる正解ラベルがある場合、擬似ラベルを削除する。
図13の例では、オブジェクトOb1に関連付けられた擬似ラベルが、オブジェクトOb1に関連付けられた正解ラベルとのIOUが所定値以上となる。このため、関連付け部1042bは、オブジェクトOb1に関連付けられた擬似ラベルを削除する。
図13に示すデータセット2”に含まれる画像は、当該擬似ラベルの削除後の画像である。
図13に示すように、当該画像では、オブジェクトOb1に関連付けられていた擬似ラベルが削除され、オブジェクトOb1には正解ラベルのみが関連付けられている。
【0127】
上述のように、本例示的実施形態に係る情報処理装置10bにおいては、画像に付された擬似ラベルおよび正解ラベルにおいて、擬似ラベルに含まれる領域情報が示す領域と、正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、擬似ラベルを削除する構成が採用されている。このため、本例示的実施形態に係る情報処理装置10bによれば、擬似ラベルが適切でない場合に当該擬似ラベルが削除され、正解ラベルが残るので、対象画像用検知モデルを用いた、オブジェクトの検知精度を向上させることができるという効果が得られる。なお、擬似ラベルが適切でないとは、例えば、(1)当該擬似ラベルのカテゴリが、オブジェクトのカテゴリと異なる、(2)当該擬似ラベルのバウンディングボックスが、オブジェクトの一部を内包していない、などを指す。
【0128】
特に、本例示的実施形態にて示した犬、牛などの、見た目が似ているオブジェクトに正解ラベルが付されたエキスパートデータセットの場合、オブジェクトにカテゴリが誤った擬似ラベルが関連付けられる可能性が高い。これに対し、本例示的実施形態に係る情報処理装置10bによれば、この誤った擬似ラベルを削除することができるので、精度よく擬似ラベルを生成することができ、対象画像用検知モデルを用いた、オブジェクトの検知精度を向上させることができるという効果が得られる。
【0129】
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0130】
<情報処理装置10cの概要>
本例示的実施形態に係る情報処理装置10cは、エキスパートデータセットの各々に基づき閾値を決定し、当該閾値に基づき複数のデータセットの各々に擬似ラベルを付与する。
【0131】
<情報処理装置10cの構成>
情報処理装置10cの構成について、
図14を参照して説明する。
図14は、情報処理装置10cの構成を示すブロック図である。
図14に示すように、情報処理装置10cは、第1の制御部100c、第1の記憶部150c、第2の制御部110c、第2の記憶部160cを備える。第1の制御部100cおよび第2の制御部110cは、情報処理装置10cの各部を統括して制御する。第1の記憶部150cおよび第2の記憶部160cは、情報処理装置10cが使用する各種プログラムやデータを記憶する。
【0132】
なお、第1の制御部100cおよび第2の制御部110cは一体となっていてもよい。また、第1の記憶部150cおよび第2の記憶部160cは一体となっていてもよい。あるいは、第2の制御部110cおよび第2の記憶部160cは、情報処理装置10cと通信可能に接続された別装置に備えられていてもよい。
【0133】
第1の記憶部150cは、データセット1(DS1)、データセット2(DS2)、評価用データセット1(DSE1)および評価用データセット2(DSE2)を記憶する。データセット1(DS1)は、本例示的実施形態における第1のデータセットである。データセット2(DS2)は、本例示的実施形態における第2のデータセットである。また、データセット1(DS1)およびデータセット2(DS2)は、上述のエキスパートデータセットである。評価用データセット1(DSE1)は、本例示的実施形態における第1の評価用データセットである。評価用データセット2(DSE2)は、本例示的実施形態における第2の評価用データセットである。
【0134】
ここで、データセット1(DS1)およびデータセット2(DS2)の詳細について説明する。
図15は、データセット1(DS1)およびデータセット2(DS2)に含まれるデータの具体例を示す図である。具体的には、
図15には、データセット1(DS1)に含まれる画像の1つと、データセット2(DS2)に含まれる画像の1つとが示されている。
【0135】
これらの画像の各々には、5つのオブジェクト、具体的には3人の人物と、2つの鞄とが含まれている。データセット1(DS1)に含まれる画像において、2つの鞄の各々には正解ラベルが関連付けられている。すなわち、データセット1(DS1)は、責任範囲が「鞄(bag)」であるエキスパートデータセットである。データセット2(DS2)に含まれる画像において、3人の人物には正解ラベルが関連付けられている。すなわち、データセット2(DS2)は、責任範囲が「人物(person)」であるエキスパートデータセットである。
【0136】
評価用データセット1(DSE1)は、データセット1(DS1)と同様に、各画像に含まれる責任範囲のオブジェクトの各々に正解ラベルが関連付けられたデータセットである。
図15の例に基づけば、評価用データセット1(DSE1)は、鞄に正解ラベルが関連付けられた画像を含むデータセットである。例えば、評価用データセット1(DSE1)に含まれる画像は、データセット1(DS1)に含まれる画像の一部であってもよい。また、例えば、評価用データセット1(DSE1)に含まれる画像は、データセット1(DS1)に含まれない画像であって、データセット1(DS1)における責任範囲のオブジェクトに正解ラベルが関連付けられた画像であってもよい。
【0137】
評価用データセット2(DSE2)は、データセット2(DS2)と同様に、各画像に含まれる責任範囲のオブジェクトの各々に正解ラベルが関連付けられたデータセットである。
図15の例に基づけば、評価用データセット2(DSE2)は、人物に正解ラベルが関連付けられた画像を含むデータセットである。例えば、評価用データセット2(DSE2)に含まれる画像は、データセット2(DS2)に含まれる画像の一部であってもよい。また、例えば、評価用データセット2(DSE2)に含まれる画像は、データセット2(DS2)に含まれない画像であって、データセット2(DS2)における責任範囲のオブジェクトに正解ラベルが関連付けられた画像であってもよい。
【0138】
(第1の制御部100cの構成)
図14に示すように、第1の制御部100cは、第1の学習部101-1、第2の学習部101-2、第1の閾値決定部102-1、第2の閾値決定部102-2、第1の推論部103-1、第2の推論部103-2、第1のデータセット生成部104-1、第2のデータセット生成部104-2を備えている。
【0139】
第1の学習部101-1は、本例示的実施形態において第1の学習手段を実現する構成である。第2の学習部101-2は、本例示的実施形態において第2の学習手段を実現する構成である。第1の閾値決定部102-1は、本例示的実施形態において第1の閾値決定手段を実現する構成である。第2の閾値決定部102-2は、本例示的実施形態において第2の閾値決定手段を実現する構成である。第1の推論部103-1は、本例示的実施形態において第1の推論手段を実現する構成である。第2の推論部103-2は、本例示的実施形態において第2の推論手段を実現する構成である。第1のデータセット生成部104-1は、本例示的実施形態において第1のデータセット生成手段を実現する構成である。第2のデータセット生成部104-2は、本例示的実施形態において第2のデータセット生成手段を実現する構成である。
【0140】
第1の学習部101-1は、第1のデータセットを用いて第1の検知モデルの学習を行う。具体的には、第1の学習部101-1は、データセット1(DS1)を取得し、当該データセット1(DS1)を用いて、第1の擬似ラベル生成用物体検知モデルPDM1の学習を行う。より具体的には、第1の学習部101-1は、第1の記憶部150cに記憶されているデータセット1(DS1)を読み出し、当該データセット1(DS1)を用いて、第1の擬似ラベル生成用物体検知モデルPDM1の学習を行う。そして、第1の学習部101-1は、学習済みの第1の擬似ラベル生成用物体検知モデルPDM1を第1の閾値決定部102-1および第1の推論部103-1へ出力する。
【0141】
第1の閾値決定部102-1は、第1の評価用データセットに含まれる1又は複数の画像の各々を第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する。
【0142】
具体的には、第1の閾値決定部102-1は、第1の記憶部150cに記憶されている評価用データセット1(DSE1)を読み出し、第1の学習部101-1から取得した第1の擬似ラベル生成用物体検知モデルPDM1に入力する。そして、第1の閾値決定部102-1は、第1の擬似ラベル生成用物体検知モデルPDM1が出力した推論結果を取得する。
【0143】
続いて、第1の閾値決定部102-1は、評価用データセット1(DSE1)に含まれる1又は複数の画像の各々における各推論結果と、当該画像の各々における正解ラベルとの比較結果に基づき、各推論結果の評価値を算出する。当該評価値は、例えば、F値である。なお、評価値がF値である例における、F値の算出処理の詳細は、例示的実施形態2にて説明しているため、ここでは説明を繰り返さない。
【0144】
続いて、第1の閾値決定部102-1は、基準値ごとに算出された複数のF値のうちの最大値を特定し、特定したF値に紐づけられた基準値を閾値とする。当該閾値が上述の第1の閾値である。第1の閾値決定部102-1は、決定した第1の閾値を第1のデータセット生成部104-1へ出力する。
【0145】
第1の推論部103-1は、第2のデータセットに含まれる1又は複数の画像の各々を第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する。具体的には、第1の推論部103-1は、第1の記憶部150cに記憶されているデータセット2(DS2)を読み出し、第1の学習部101-1から取得した第1の擬似ラベル生成用物体検知モデルPDM1に、当該データセット2(DS2)に含まれる1又は複数の画像の各々を入力し、当該画像の各々についての1又は複数の推論結果PR1を取得する。第1の推論部103-1は、取得した推論結果PR1を第1のデータセット生成部104-1へ出力する。
【0146】
第1のデータセット生成部104-1は、第1の推論部103-1による1又は複数の推論結果のうち、第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、対応する画像に関連付けることによって、擬似ラベル付与後の第2のデータセットを生成する。具体的には、第1のデータセット生成部104-1は、第1の推論部103-1による1又は複数の推論結果PR1のうち、第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。続いて、第1のデータセット生成部104-1は、当該擬似ラベルを、対応する画像に関連付ける。これにより、データセット2(DS2)に含まれる1又は複数の画像の各々に、擬似ラベルが関連付けられたデータセット2’(DS2’)が生成される。第1のデータセット生成部104-1は、生成したデータセット2’(DS2’)を第2の記憶部160cに記憶する。
【0147】
第2の学習部101-2は、第2のデータセットを用いて第2の検知モデルの学習を行う。具体的には、第2の学習部101-2は、データセット2(DS2)を取得し、当該データセット2(DS2)を用いて、第2の擬似ラベル生成用物体検知モデルPDM2の学習を行う。より具体的には、第2の学習部101-2は、第1の記憶部150cに記憶されているデータセット2(DS2)を読み出し、当該データセット2(DS2)を用いて、第2の擬似ラベル生成用物体検知モデルPDM2の学習を行う。そして、第2の学習部101-2は、学習済みの第2の擬似ラベル生成用物体検知モデルPDM2を第2の閾値決定部102-2および第2の推論部103-2へ出力する。
【0148】
第2の閾値決定部102-2は、第2の評価用データセットに含まれる1又は複数の画像の各々を第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する。
【0149】
具体的には、第2の閾値決定部102-2は、第1の記憶部150cに記憶されている評価用データセット2(DSE2)を読み出し、第2の学習部101-2から取得した第2の擬似ラベル生成用物体検知モデルPDM2に入力する。そして、第2の閾値決定部102-2は、第2の擬似ラベル生成用物体検知モデルPDM2が出力した推論結果を取得する。
【0150】
続いて、第2の閾値決定部102-2は、評価用データセット2(DSE2)に含まれる1又は複数の画像の各々における各推論結果と、当該画像の各々における正解ラベルとの比較結果に基づき、各推論結果の評価値を算出する。当該評価値は、例えば、F値である。なお、評価値がF値である例における、F値の算出処理の詳細は、例示的実施形態2にて説明しているため、ここでは説明を繰り返さない。
【0151】
続いて、第2の閾値決定部102-2は、基準値ごとに算出された複数のF値のうちの最大値を特定し、特定したF値に紐づけられた基準値を閾値とする。当該閾値が上述の第2の閾値である。第2の閾値決定部102-2は、決定した第2の閾値を第2のデータセット生成部104-2に出力する。
【0152】
第2の推論部103-2は、第1のデータセットに含まれる1又は複数の画像の各々を第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する。具体的には、第2の推論部103-2は、第1の記憶部150cに記憶されているデータセット1(DS1)を読み出し、第2の学習部101-2から取得した第2の擬似ラベル生成用物体検知モデルPDM2に、当該データセット1(DS1)に含まれる1又は複数の画像の各々を入力し、当該画像の各々についての1又は複数の推論結果PR2を取得する。第2の推論部103-2は、取得した推論結果PR2を第2のデータセット生成部104-2へ出力する。
【0153】
第2のデータセット生成部104-2は、第2の推論部103-2による1又は複数の推論結果のうち、第2の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを、対応する画像に関連付けることによって、擬似ラベル付与後の第1のデータセットを生成する。具体的には、第2のデータセット生成部104-2は、第2の推論部103-2による1又は複数の推論結果PR2のうち、第2の閾値以上の信頼度を有する推論結果を擬似ラベルに設定する。続いて、第2のデータセット生成部104-2は、当該擬似ラベルを、対応する画像に関連付ける。これにより、データセット1(DS1)に含まれる1又は複数の画像の各々に、擬似ラベルが関連付けられたデータセット1’(DS1’)が生成される。第2のデータセット生成部104-2は、生成したデータセット1’(DS1’)を第2の記憶部160cに記憶する。
【0154】
ここで、データセット1’(DS1’)およびデータセット2’(DS2’)の詳細について説明する。
図16は、データセット1’(DS1’)およびデータセット2’(DS2’)に含まれるデータの具体例を示す図である。具体的には、
図16には、データセット1’(DS1’)に含まれる画像の1つと、データセット2’(DS2’)に含まれる画像の1つとが示されている。
【0155】
図16に示すデータセット1’(DS1’)に含まれる画像は、データセット1(DS1)に含まれる画像(
図15参照)と同一である。データセット1’(DS1’)に含まれる画像のオブジェクトについて、2つの鞄の各々には正解ラベルが、3人の人物の各々には擬似ラベルが関連付けられている。当該正解ラベルは、データセット1’(DS1’)の生成元であるデータセット1(DS1)に含まれる画像において、データセット1(DS1)の責任範囲である鞄に関連付けられていた正解ラベルである。また、当該擬似ラベルは、第2のデータセット生成部104-2が、推論結果PR2に基づき設定した擬似ラベルである。推論結果PR2は、責任範囲が人物であるデータセット2(DS2)による学習が行われた、第2の擬似ラベル生成用物体検知モデルPDM2を用いた推論結果であるので、当該擬似ラベルは人物に関連付けられている。
【0156】
図16に示すデータセット2’(DS2’)に含まれる画像は、データセット2(DS2)に含まれる画像(
図15参照)と同一である。データセット2’(DS2’)に含まれる画像のオブジェクトについて、3人の人物の各々には正解ラベルが、2つの鞄の各々には擬似ラベルが関連付けられている。当該正解ラベルは、データセット2’(DS2’)の生成元であるデータセット2(DS2)に含まれる画像において、データセット2(DS2)の責任範囲である人物に関連付けられていた正解ラベルである。また、当該擬似ラベルは、第1のデータセット生成部104-1が、推論結果PR1に基づき設定した擬似ラベルである。推論結果PR1は、責任範囲が鞄であるデータセット1(DS1)による学習が行われた、第1の擬似ラベル生成用物体検知モデルPDM1を用いた推論結果であるので、当該擬似ラベルは鞄に関連付けられている。
【0157】
第2の記憶部160cは、データセット1’(DS1’)、データセット2’(DS2’)および物体検知モデルDMを記憶している。データセット1’(DS1’)およびデータセット2’(DS2’)は、それぞれ、第2のデータセット生成部104-2および第1のデータセット生成部104-1が生成したデータセットである。物体検知モデルDMは、対象画像用検知モデルであり、詳細については後述する。
【0158】
(第2の制御部110cの構成)
図14に示すように、第2の制御部110cは、再学習部105を備えている。再学習部105は、本例示的実施形態において擬似ラベル参照学習手段を実現する構成である。再学習部105は、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う。具体的には、再学習部105は、当該学習として、第1の擬似ラベル生成用物体検知モデルPDM1、または、第2の擬似ラベル生成用物体検知モデルPDM2の再学習を行う。より具体的には、再学習部105は、データセット1’(DS1’)およびデータセット2’(DS2’)を第2の記憶部160cから読み出し、当該データセット1’(DS1’)およびデータセット2’(DS2’)を用いて、第1の擬似ラベル生成用物体検知モデルPDM1、または、第2の擬似ラベル生成用物体検知モデルPDM2の再学習を行う。そして、再学習部105は、当該再学習によって生成された物体検知モデルDMを第2の記憶部160cに記憶する。なお、再学習部105は、データセット1’(DS1’)およびデータセット2’(DS2’)を用いて、新たな物体検知モデルDMの学習を行ってもよい。新たな物体検知モデルDMとは、第1の擬似ラベル生成用物体検知モデルPDM1及び第2の擬似ラベル生成用物体検知モデルPDM2のいずれとも異なる対象画像用検知モデルである。
【0159】
上述のように、本例示的実施形態に係る情報処理装置10cにおいては、複数のエキスパートデータセットの各々に基づき閾値を決定し、当該閾値に基づき複数のデータセットの各々に擬似ラベルを付与する構成が採用されている。このため、本例示的実施形態に係る情報処理装置10cによれば、各々に擬似ラベルが付与された複数のデータセット、具体的には、データセット1’(DS1’)およびデータセット2’(DS2’)を用いて検知モデルの再学習を行うことができるので、再学習後の検知モデルを用いた、画像に含まれるオブジェクトの検知精度をさらに向上させることができるという効果が得られる。また、本例示的実施形態に係る情報処理装置10cによれば、各々に擬似ラベルが付与された複数のデータセットを生成する場合、すなわち、擬似ラベルを決定するための閾値が複数必要である場合でも、当該複数の閾値を自動で決定することができるので、閾値の調整に関するコストを削減することができるという効果が得られる。また、本例示的実施形態に係る情報処理装置10cによれば、責任範囲の異なる複数のデータセットから、高精度な1つの対象画像用検知モデルの学習を行うことができるという効果が得られる。
【0160】
なお、本例示的実施形態では、エキスパートデータセットの数が「2」である例を説明したが、エキスパートデータセットの数はこの例に限定されない。また、情報処理装置10cが記憶するデータセットおよび評価用データセットの数、並びに、情報処理装置10cにおける学習手段、閾値決定手段、推論手段およびデータセット生成手段を実現する部材の数は、エキスパートデータセットの数に応じたものとなる。例えば、エキスパートデータセットの数を「3」とする場合、情報処理装置10cは、第3のデータセットおよび第3の評価用データセットをさらに記憶し、また、第3の学習部、第3の閾値決定部、第3の推論部および第3のデータセット生成部をさらに備える。
【0161】
また、本例示的実施形態では、各エキスパートデータセットの責任範囲はそれぞれ異なるものとして説明したが、責任範囲が、エキスパートデータセット間で重複していてもよい。
【0162】
また、本例示的実施形態に係る第1のデータセット生成部104-1および第2のデータセット生成部104-2は、例示的実施形態3にて説明した関連付け部1042bの機能を備えていてもよい。すなわち、第1のデータセット生成部104-1は、データセット2’(DS2’)について、擬似ラベルに関連付けられた画像に含まれるオブジェクトに正解ラベルが付与されていた場合であって、当該擬似ラベルに含まれる領域情報が示す領域と、当該正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、当該擬似ラベルを削除してもよい。また、第2のデータセット生成部104-2は、データセット1’(DS1)’について、擬似ラベルに関連付けられた画像に含まれるオブジェクトに正解ラベルが付与されていた場合であって、当該擬似ラベルに含まれる領域情報が示す領域と、当該正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、当該擬似ラベルを削除してもよい。
【0163】
〔例示的実施形態5〕
本発明の第5の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0164】
<情報処理装置10dの構成>
本例示的実施形態に係る情報処理装置10dの構成について、
図17を参照して説明する。
図17は、情報処理装置10dの構成を示すブロック図である。
図17に示すように、情報処理装置10dは、制御部100dおよび記憶部150dを備える。制御部100dは、情報処理装置10dの各部を統括して制御する。記憶部150dは、情報処理装置10dが使用する各種プログラムおよびデータを記憶する。
【0165】
制御部100dは、上述した例示的実施形態2に係る学習部101、閾値決定部102、推論部103、データセット生成部104および再学習部105に加えて、学習不実施領域決定部106を備える。学習不実施領域決定部106は、本例示的実施形態において学習不実施領域決定手段を実現する構成である。
【0166】
閾値決定部102は、上述の例示的実施形態2と同様に、評価用データセットDSEに含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する。閾値決定部102が第1の閾値を決定する手法は上述の例示的実施形態2においてすでに説明しているため、ここでは説明を繰り返さない。
【0167】
また、本例示的実施形態では、閾値決定部102は更に、評価用データセットDSEに含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、第1の閾値より小さい第2の閾値を決定する。
【0168】
第2の閾値は第1の閾値より小さい値であり、一例として、第1の閾値が適合率(precision)を重視した値とし、第2の閾値を再現率(recall)を重視した値としてもよい。例えば、第1の閾値は適合率を重視したF値であるF0.5-scoreが最大値をとる信頼度であり、第2の閾値は再現率を重視したF2-scoreが最大値をとる信頼度であってもよい。
【0169】
学習不実施領域決定部106は、データセット生成部104が生成した疑似ラベル付与後のデータセット2’(DS2’)において、推論部103による1又は複数の推論結果のうち、上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。
【0170】
<情報処理方法の流れ>
以上のように構成された情報処理装置10dが実行する情報処理方法S10dの流れについて、
図18を参照して説明する。
図18は、情報処理方法S10dの流れを示すフロー図である。情報処理方法S10dは、ステップS101~S1022、S1023d、S103~S1041、S1041d、およびS1042を含む。これらのステップのうち、ステップS101~S1022、S103~S1041、およびS1042は、上述の例示的実施形態2においてすでに説明しているため、ここでは説明を繰り返さない。
【0171】
(ステップS1023d)
ステップS1023dにおいて、閾値判断部1023は、評価値に基づき第1の閾値および第2の閾値を決定する。具体的には、閾値判断部1023は、取得した、例えば適合率を重視した複数のF値のうち、最大値を特定し、特定したF値に紐付けられた基準値を第1の閾値とする。また、閾値判断部1023は、取得した、例えば再現率を重視した複数のF値のうち、最大値を特定し、特定したF値に紐付けられた基準値を第2の閾値とする。閾値判断部1023は、決定した第1の閾値及び第2の閾値を擬似ラベル生成部1041へ出力する。
【0172】
(ステップS1041d)
ステップS1041dにおいて、学習不実施領域決定部106は、データセット生成部104が生成した疑似ラベル付与後のデータセット2’(DS2’)において、推論部103による1又は複数の推論結果のうち、上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。
【0173】
上述のように、本例示的実施形態に係る情報処理装置10dにおいては、データセット生成部104が生成した疑似ラベル付与後のデータセットにおいて、推論部103による1又は複数の推論結果のうち、上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、再学習部105による対象画像用検知モデル(学習部101により学習された検知モデル)の検知精度を向上させることができる。
【0174】
また、当該構成を採用した情報処理装置10dによれば、対象画像用検知モデルの検知精度を向上させることができるため、疑似ラベルが付与された画像を含むデータセットの生成であって第1の閾値と第2の閾値とを用いた生成にかかるコストを削減することが可能となる。
【0175】
〔例示的実施形態6〕
本発明の第6の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~5にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0176】
<情報処理装置10eの構成>
本例示的実施形態に係る情報処理装置10eの構成について、
図19を参照して説明する。
図19は、情報処理装置10dの構成を示すブロック図である。
図19に示すように、情報処理装置10eは、第1の制御部100e、第2の制御部110e、第1の記憶部150e、および第2の記憶部160eを備える。第1の制御部100eおよび第2の制御部110eは、情報処理装置10eの各部を統括して制御する。第1の記憶部150eおよび第2の記憶部160eは、情報処理装置10eが使用する各種プログラムおよびデータを記憶する。
【0177】
第1の制御部100eは、上述の例示的実施形態4で示した情報処理装置10cの第1の制御部100cの構成に加え、第1の学習不実施領域決定部106-1、及び第2の学習不実施領域決定部106-2を備える。第1の学習不実施領域決定部106-1は、本例示的実施形態において第1の学習不実施領域決定手段を実現する構成である。第2の学習不実施領域決定部106-2は、本例示的実施形態において第2の学習不実施領域決定手段を実現する構成である。
【0178】
第1の閾値決定部102-1は、上述の例示的実施形態4と同様に、評価用データセット1(DSE1)に含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する。第1の閾値決定部102-1が第1の閾値を決定する手法は上述の例示的実施形態4においてすでに説明しているため、ここでは説明を繰り返さない。
【0179】
また、本例示的実施形態では、第1の閾値決定部102-1は更に、評価用データセット1(DSE1)に含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、第1の閾値より小さい第3の閾値を決定する。
【0180】
第3の閾値は第1の閾値より小さい値であり、一例として、第1の閾値が適合率(precision)を重視した値とし、第3の閾値を再現率(recall)を重視した値としてもよい。例えば、第1の閾値は適合率を重視したF値であるF0.5-scoreが最大値をとる信頼度であり、第3の閾値は再現率を重視したF2-scoreが最大値をとる信頼度であってもよい。
【0181】
第2の閾値決定部102-2は、上述の例示的実施形態4と同様に、評価用データセット2(DSE2)に含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する。第2の閾値決定部102-2が第2の閾値を決定する手法は上述の例示的実施形態4においてすでに説明しているため、ここでは説明を繰り返さない。
【0182】
また、本例示的実施形態では、第2の閾値決定部102-2は更に、評価用データセット2(DSE2)に含まれる1又は複数の画像の各々を検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、第2の閾値より小さい第4の閾値を決定する。
【0183】
第4の閾値は第2の閾値より小さい値であり、一例として、第2の閾値が適合率(precision)を重視した値とし、第4の閾値を再現率(recall)を重視した値としてもよい。例えば、第2の閾値は適合率を重視したF値であるF0.5-scoreが最大値をとる信頼度であり、第4の閾値は再現率を重視したF2-scoreが最大値をとる信頼度であってもよい。
【0184】
第1の学習不実施領域決定部106-1は、第1のデータセット生成部104-1が生成した疑似ラベル付与後のデータセット2’(DS2’)において、第1の推論部103-1による1又は複数の推論結果のうち、上記第1の閾値未満かつ上記第3の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。
【0185】
第2の学習不実施領域決定部106-2は、第2のデータセット生成部104-2が生成した疑似ラベル付与後のデータセット1’(DS1’)において、第2の推論部103-2による1又は複数の推論結果のうち、上記第2の閾値未満かつ上記第4の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。
【0186】
上述のように、本例示的実施形態に係る情報処理装置10eにおいては、第1のデータセット生成部104-1が生成した上記疑似ラベル付与後の第2のデータセット2’(DS2’)において、第1の推論部103-1による1又は複数の推論結果のうち、上記第1の閾値未満かつ上記第3の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。また、情報処理装置10eにおいては、第2のデータセット生成部104-2が生成した上記疑似ラベル付与後の第1のデータセット1’(DS1’)において、第2の推論部103-2による1又は複数の推論結果のうち、上記第2の閾値未満かつ上記第4の閾値以上の信頼度を有する推論結果に対応する領域を、再学習部105による学習の対象とならない学習不実施領域として決定する。
【0187】
上記第1の閾値未満かつ上記第3の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。また、上記第2の閾値未満かつ上記第4の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、再学習部105による対象画像用検知モデル(第1の学習部101-1、第2の学習部101-2により学習された検知モデル)の検知精度を向上させることができる。
【0188】
また、当該構成を採用した情報処理装置10eによれば、対象画像用検知モデルの検知精度を向上させることができるため、疑似ラベルが付与された画像を含むデータセットの生成であって、第1の閾値、第2の閾値、第3の閾値及び第4の閾値を用いたデータセットの生成にかかるコストを削減することが可能となる。
【0189】
〔ソフトウェアによる実現例〕
情報処理装置10、10a~10e、20および20aの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0190】
後者の場合、情報処理装置10、10a~10e、20および20aは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図20に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置10、10a~10e、20および20aとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置10、10a~10e、20および20aの各機能が実現される。
【0191】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0192】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0193】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0194】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0195】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0196】
(付記1)
第1のデータセットを用いて検知モデルの学習を行う学習手段と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定手段と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、
前記推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と
を備えていることを特徴とする情報処理装置。
【0197】
付記1の構成によれば、第1のデータセットを用いて学習が行われた検知モデルによる、評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとの比較に基づき、擬似ラベルの設定のための第1の閾値を自動で決定する。このため、付記1の構成によれば、当該第1の閾値の調整に関するコストを削減することが可能となる。そして、付記1の構成によれば、当該検知モデルによる、第2のデータセットに含まれる画像の推論結果から、自動で決定された第1の閾値以上の信頼度を有する推論結果を擬似ラベルに設定し、当該擬似ラベルを対応する画像に関連付ける。このため、付記1の構成によれば、擬似ラベルが付与された画像を含むデータセットの生成にかかるコストを削減することが可能となる。
【0198】
(付記2)
付記1に記載の情報処理装置であって、
前記疑似ラベル付与後のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習手段を更に備えている
ことを特徴とする情報処理装置。
【0199】
付記2の構成によれば、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う。このため、付記2の構成によれば、閾値の調整に関するコストを削減して、対象画像用検知モデルを生成することが可能となる。結果として、対象画像用検知モデルの学習を行うまでのコストを削減することができる。また、閾値として適切な値を決定することができれば、閾値の調整回数を低減させることができ、閾値の調整の度に必要となる対象画像用検知モデルの学習(再学習)の回数を低減することができる。結果として、対象画像用検知モデルの学習が完了するまでの時間を低減させることができる。
【0200】
(付記3)
付記2に記載の情報処理装置であって、
前記擬似ラベル参照学習手段は、前記対象画像用検知モデルの学習として、前記検知モデルの再学習を行う
ことを特徴とする情報処理装置。
【0201】
付記3の構成によれば、擬似ラベル付与後のデータセットを用いて検知モデルの再学習を行う。このため、付記3の構成によれば、検知モデルの再学習を行うまでのコストを削減することができる。また、閾値として適切な値を決定することができれば、閾値の調整回数を低減させることができ、閾値の調整の度に必要となる検知モデルの再学習の回数を低減することができる。結果として、検知モデルの再学習が完了するまでの時間を低減させることができる。
【0202】
(付記4)
付記2又は3に記載の情報処理装置であって、
前記閾値決定手段は、
前記評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、前記第1の閾値より小さい第2の閾値を決定し、
当該情報処理装置は、
前記データセット生成手段が生成した前記疑似ラベル付与後のデータセットにおいて、前記推論手段による1又は複数の推論結果のうち、前記第1の閾値未満かつ前記第2の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習手段による学習の対象とならない学習不実施領域として決定する学習不実施領域決定手段を更に備えている
ことを特徴とする情報処理装置。
【0203】
上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、付記4の構成によれば、疑似ラベル参照学習手段による対象画像用検知モデルの検知精度を向上させることができる。
【0204】
(付記5)
付記1から4のいずれか1つに記載の情報処理装置であって、
前記正解ラベルには、当該正解ラベルに関連付けられた画像に含まれるオブジェクトの領域を示す領域情報、及び、当該オブジェクトのカテゴリを示すカテゴリ情報が含まれており、
前記疑似ラベルには、当該疑似ラベルに関連付けられた画像に含まれるオブジェクトの領域を示す領域情報、及び、当該オブジェクトのカテゴリを示すカテゴリ情報が含まれている
ことを特徴とする情報処理装置。
【0205】
付記5の構成によれば、正解ラベルおよび擬似ラベルには、領域情報およびカテゴリ情報が含まれている。このため、付記5の構成によれば、擬似ラベル付与後のデータセットを用いて再学習が行われた検知モデルを用いた、画像に含まれるオブジェクトの検知の精度を向上させることが可能となる。
【0206】
(付記6)
付記5に記載の情報処理装置であって、
前記第2のデータセットに含まれる1又は複数の画像の少なくとも一部には、1又は複数の正解ラベルが付されており、
前記データセット生成手段は、
前記疑似ラベルに関連付けられた画像に含まれるオブジェクトに正解ラベルが付与されていた場合であって、当該疑似ラベルに含まれる領域情報が示す領域と、当該正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、当該疑似ラベルを削除する
ことを特徴とする情報処理装置。
【0207】
付記6の構成によれば、第2のデータセットに含まれる画像に付された擬似ラベルおよび正解ラベルにおいて、擬似ラベルに含まれる領域情報が示す領域と、正解ラベルに含まれる領域情報が示す領域との重なりの度合いが所定の度合い以上である場合に、擬似ラベルを削除する。このため、付記6の構成によれば、当該擬似ラベルが適切でない場合に当該擬似ラベルが削除され、正解ラベルが残るので、再学習後の検知モデルを用いた、オブジェクトの検知の精度を向上させることが可能となる。特に、見た目が似ているオブジェクトに正解ラベルが付されたデータセットの場合、オブジェクトにカテゴリが誤った擬似ラベルが関連付けられる可能性が高い。これに対し、付記6の構成によれば、当該誤った擬似ラベルを削除することができるので、精度よく擬似ラベルを生成することができ、対象画像用検知モデルを用いた、オブジェクトの検知精度を向上させることが可能となる。
【0208】
なお、擬似ラベルが適切でないとは、例えば、(1)当該擬似ラベルのカテゴリが、オブジェクトのカテゴリと異なる、(2)当該擬似ラベルのバウンディングボックスが、オブジェクトの一部を内包していない、などを指す。
【0209】
(付記7)
付記5又は6に記載の情報処理装置であって、
前記閾値決定手段は、カテゴリ毎に前記第1の閾値を設定し、
前記データセット生成手段は、
前記推論手段による1又は複数の推論結果のうち、カテゴリ毎に設定された前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成する
ことを特徴とする情報処理装置。
【0210】
付記7の構成によれば、第1のデータセットを用いて学習が行われた検知モデルによる、評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとにおけるカテゴリ毎に第1の閾値が設定され、当該第1の閾値以上の推論結果を擬似ラベルに設定する。このため、付記7の構成によれば、擬似ラベルの設定の精度を向上させることができる。
【0211】
(付記8)
付記1から7のいずれか1つに記載の情報処理装置であって、
前記閾値決定手段は、前記比較結果が示す適合率と再現率とを参照して前記第1の閾値を決定する
ことを特徴とする情報処理装置。
【0212】
付記8の構成によれば、第1のデータセットを用いて学習が行われた検知モデルによる、評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとの比較結果から算出した適合率と再現率とを参照して第1の閾値を決定する。このため、付記8の構成によれば、擬似ラベルの設定の精度を向上させることが可能となる。また、付記8の構成によれば、学習データの質(適合率)および学習データの量(再現率)の両方を考慮して擬似ラベルを設定することができるため、高精度な対象画像用検知モデルを生成することが可能となる。
【0213】
(付記9)
付記1から8の何れか1つに記載の情報処理装置であって、
前記評価用データセットは、前記第1のデータセットに含まれている
ことを特徴とする情報処理装置。
【0214】
付記9の構成によれば、評価用データセットに含まれる画像は、第1のデータセットに含まれる。このため、付記9の構成によれば、評価用データセットの生成のために、作業にかかるコストの高い正解付け作業を新たに行う必要がなくなる。また、付記9の構成によれば、予め用意する画像の数を抑えることが可能となる。
【0215】
(付記10)
付記1から8の何れか1つに記載の情報処理装置であって、
前記評価用データセットは、前記第2のデータセットの一部に、正解ラベルを付与することによって生成されたものである
ことを特徴とする情報処理装置。
【0216】
付記10の構成によれば、評価用データセットに含まれる画像は、第2のデータセットの一部に、正解ラベルを付与することによって生成される。このため、付記10の構成によれば、擬似ラベルが付与されるデータセットの一部が評価用データセットとして用いられて閾値が決定されることとなるので、付与される擬似ラベルの精度を向上させることが可能となる。また、付記10の構成によれば、あらかじめ用意する画像の数を抑えることが可能となる。
【0217】
(付記11)
第1のデータセットを用いて第1の検知モデルの学習を行う第1の学習手段と、
第2のデータセットを用いて第2の検知モデルの学習を行う第2の学習手段と、
第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する第1の閾値決定手段と、
第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第2の閾値を決定する第2の閾値決定手段と、
前記第2のデータセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第1の推論手段と、
前記第1のデータセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する第2の推論手段と、
前記第1の推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第2のデータセットを生成する第1のデータセット生成手段と、
前記第2の推論手段による1又は複数の推論結果のうち、前記第2の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後の第1のデータセットを生成する第2のデータセット生成手段と、
を備えていることを特徴とする情報処理装置。
【0218】
付記11の構成によれば、第1のデータセットを用いて学習が行われた検知モデルによる、第1の評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとの比較に基づき、第2のデータセットへの擬似ラベルの設定のための第1の閾値を自動で決定する。また、付記11の記載によれば、第2のデータセットを用いて学習が行われた検知モデルによる、第2の評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとの比較に基づき、第1のデータセットへの擬似ラベルの設定のための第2の閾値を自動で決定する。このため、付記11の構成によれば、第1の閾値および第2の閾値の調整に関するコストを削減することが可能となる。つまり、付記11の構成によれば、各々に擬似ラベルが付与された2つのデータセットを生成する場合でも、これら2つのデータセットの各々に擬似ラベルを設定するための2つの閾値の調整に関するコストを削減することが可能となる。そして、付記11の構成によれば、検知モデルの再学習は、擬似ラベルが付与された2つのデータセットを用いて行われることとなるので、再学習後の検知モデルを用いた、画像に含まれるオブジェクトの検知精度をさらに向上させることが可能となる。
【0219】
(付記12)
付記11に記載の情報処理装置であって、
前記疑似ラベル付与後の第1のデータセット、及び前記疑似ラベル付与後の第2のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習手段を更に備えている
ことを特徴とする情報処理装置。
【0220】
付記12の構成によれば、擬似ラベル付与後の第1のデータセット、及び疑似ラベル付与後の第2のデータセットを用いて対象画像用検知モデルの学習を行う。このため、付記12の構成によれば、第1の閾値の調整および第2の閾値の調整に関するコストを削減して、対象画像用検知モデルを生成することが可能となる。結果として、対象画像用検知モデルの学習を行うまでのコストを削減することができる。また、第1の閾値および第2の閾値として適切な値を決定することができれば、閾値の調整回数を低減させることができ、閾値の調整の度に必要となる対象画像用検知モデルの学習(再学習)の回数を低減することができる。結果として、対象画像用検知モデルの学習が完了するまでの時間を低減させることができる。
【0221】
(付記13)
付記12に記載の情報処理装置であって、
前記擬似ラベル参照学習手段は、前記対象画像用検知モデルの学習として、前記第1の検知モデル、及び前記第2の検知モデルの再学習を行う
ことを特徴とする情報処理装置。
【0222】
付記13の構成によれば、擬似ラベル付与後の第1のデータセットおよび疑似ラベル付与後の第2のデータセットを用いて第1の検知モデルおよび第2の検知モデルの再学習を行う。このため、付記13の構成によれば、第1の検知モデルおよび第2の検知モデルの再学習を行うまでのコストを削減することができる。また、第1の閾値および第2の閾値として適切な値を決定することができれば、閾値の調整回数を低減させることができ、閾値の調整の度に必要となる検知モデルの再学習の回数を低減することができる。結果として、検知モデルの再学習が完了するまでの時間を低減させることができる。
【0223】
(付記14)
付記12又は13に記載の情報処理装置であって、
前記第1の閾値決定手段は、
第1の評価用データセットに含まれる1又は複数の画像の各々を前記第1の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、前記第1の閾値より小さい第3の閾値を決定し、
前記第2の閾値決定手段は、
第2の評価用データセットに含まれる1又は複数の画像の各々を前記第2の検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して、前記第2の閾値より小さい第4の閾値を決定し、
当該情報処理装置は、
前記第1のデータセット生成手段が生成した前記疑似ラベル付与後の第2のデータセットにおいて、前記第1の推論手段による1又は複数の推論結果のうち、前記第1の閾値未満かつ前記第3の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習手段による学習の対象とならない学習不実施領域として決定する第1の学習不実施領域決定手段と、
前記第2のデータセット生成手段が生成した前記疑似ラベル付与後の第1のデータセットにおいて、前記第2の推論手段による1又は複数の推論結果のうち、前記第2の閾値未満かつ前記第4の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習手段による学習の対象とならない学習不実施領域として決定する第2の学習不実施領域決定手段と、
を備えている情報処理装置。
【0224】
上記第1の閾値未満かつ上記第3の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。また、上記第2の閾値未満かつ上記第4の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、付記14の構成によれば、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、疑似ラベル参照学習手段による対象画像用検知モデルの検知精度を向上させることができる。
【0225】
(付記15)
対象画像を取得する取得手段と、
対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、
を備え、
前記対象画像用検知モデルは、
第1のデータセットを用いて検知モデルの学習を行う学習処理、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定処理、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、
前記推論処理による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び
前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理
によって学習されたものである
ことを特徴とする情報処理装置。
【0226】
付記15の構成によれば、自動で決定された閾値を用いて擬似ラベルが決定され、当該擬似ラベルが関連付けられた画像を含むデータセットを用いて学習が行われた対象画像用検知モデルを用いて、対象画像に含まれるオブジェクトを検知する。このため、付記15の構成によれば、閾値の調整に関するコストを削減した対象画像用検知モデルを用いて、対象画像に含まれるオブジェクトを検知することが可能となる。
【0227】
(付記16)
付記15に記載の情報処理装置であって、
前記閾値決定処理では、前記比較結果を参照して、前記第1の閾値より小さい第2の閾値も決定し、
前記データセット生成処理では、前記疑似ラベル付与後のデータセットにおいて、前記推論処理による1又は複数の推論結果のうち、前記第1の閾値未満かつ前記第2の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習処理による学習の対象とならない学習不実施領域として決定し、
前記擬似ラベル参照学習処理では、前記学習不実施領域を含む前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う、
ことを特徴とする情報処理装置。
【0228】
上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、付記16の構成によれば、疑似ラベル参照学習処理における対象画像用検知モデルの検知精度を向上させることができる。
【0229】
(付記17)
第1のデータセットを用いて検知モデルの学習を行う学習工程と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定工程と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、
前記推論工程による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と
を含んでいることを特徴とする情報処理方法。
【0230】
付記17の構成によれば、付記1に記載の情報処理装置と同様の効果を奏する。
【0231】
(付記18)
付記17に記載の情報処理方法であって、
前記閾値決定工程においては、前記比較結果を参照して、前記第1の閾値より小さい第2の閾値も決定し、
前記データセット生成工程においては、前記疑似ラベル付与後のデータセットにおいて、前記推論工程による1又は複数の推論結果のうち、前記第1の閾値未満かつ前記第2の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習工程における学習の対象とならない学習不実施領域として決定する
ことを特徴とする情報処理方法。
【0232】
上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、付記18の構成によれば、疑似ラベル参照学習工程における対象画像用検知モデルの検知精度を向上させることができる。
【0233】
(付記19)
対象画像を取得することと、
対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行うことと、
を含み、
前記対象画像用検知モデルは、
第1のデータセットを用いて検知モデルの学習を行う学習処理、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定処理、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、
前記推論処理による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び
前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理
によって学習されたものである
ことを特徴とする情報処理方法。
【0234】
付記19の構成によれば、付記15に記載の情報処理装置と同様の作用効果を奏する。
【0235】
(付記20)
第1のデータセットを用いて検知モデルの学習を行う学習工程と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定工程と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論工程と、
前記推論工程による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成工程と、
前記疑似ラベル付与後のデータセットを用いて、対象画像に含まれるオブジェクトの検知のための対象画像用検知モデルの学習を行う擬似ラベル参照学習工程と
を含んでいることを特徴とする検知モデルの製造方法。
【0236】
付記20の構成によれば、第1のデータセットを用いて学習が行われた検知モデルによる、評価用データセットに含まれる画像の推論結果と、当該画像に関連付けられた正解ラベルとの比較に基づき、擬似ラベルの設定のための閾値を自動で決定する。このため、付記20の構成によれば、当該閾値の調整に関するコストを削減することが可能となる。そして、付記20の構成によれば、擬似ラベル付与後のデータセットを用いて対象画像用検知モデルの学習を行う。このため、付記20の構成によれば、閾値の調整に関するコストを削減して対象画像用検知モデルを製造することが可能となる。結果として、対象画像用検知モデルの学習を行うまでのコストを削減することができる。また、閾値として適切な値を決定することができれば、閾値の調整回数を低減させることができ、閾値の調整の度に必要となる学習の回数を低減することができる。結果として、対象画像用検知モデルの学習が完了するまでの時間を低減させることができる。
【0237】
(付記21)
付記20に記載の検知モデルの製造方法であって、
前記閾値決定工程においては、前記比較結果を参照して、前記第1の閾値より小さい第2の閾値も決定し、
前記データセット生成工程においては、前記疑似ラベル付与後のデータセットにおいて、前記推論工程による1又は複数の推論結果のうち、前記第1の閾値未満かつ前記第2の閾値以上の信頼度を有する推論結果に対応する領域を、前記擬似ラベル参照学習工程における学習の対象とならない学習不実施領域として決定する
ことを特徴とする検知モデルの製造方法。
【0238】
上記第1の閾値未満かつ上記第2の閾値以上の信頼度を有する推論結果に対応する領域は、疑似ラベルを付与したとしても、信頼性の低い疑似ラベルになるという傾向がある。このような領域を学習不実施領域に設定することによって、信頼性が相対的に高い疑似ラベルを用いて再学習をおこなうことができるので、付記21の構成によれば、疑似ラベル参照学習工程における対象画像用検知モデルの検知精度を向上させることができる。
【0239】
(付記22)
コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、
第1のデータセットを用いて検知モデルの学習を行う学習手段と、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定手段と、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論手段と、
前記推論手段による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成手段と
として機能させるプログラム。
【0240】
付記22の構成によれば、付記1に記載の情報処理装置と同様の作用効果を奏する。
【0241】
(付記23)
コンピュータを情報処理装置として機能させるためのプログラムであって、前記コンピュータを、
対象画像を取得する取得手段と、
対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知手段と、
として機能させ、
前記対象画像用検知モデルは、
第1のデータセットを用いて検知モデルの学習を行う学習処理、
評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して閾値を決定する閾値決定処理、
第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、
前記推論処理による1又は複数の推論結果のうち、前記閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び
前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理
によって学習されたものであるプログラム。
【0242】
付記23の構成によれば、付記15に記載の情報処理装置と同様の作用効果を奏する。
【0243】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0244】
少なくとも1つのプロセッサを備え、前記プロセッサは、第1のデータセットを用いて検知モデルの学習を行う学習処理と、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定処理と、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理と、前記推論手段による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理と、を実行する情報処理装置。
【0245】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記学習処理と、前記閾値決定処理と、前記推論処理と、前記データセット生成処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【0246】
少なくとも1つのプロセッサを備え、前記プロセッサは、対象画像を取得する取得処理と、対象画像用検知モデルを用いて、前記対象画像に含まれるオブジェクトの検知を行う検知処理と、を実行し、前記対象画像用検知モデルは、第1のデータセットを用いて検知モデルの学習を行う学習処理、評価用データセットに含まれる1又は複数の画像の各々を前記検知モデルに入力して得られる1又は複数の推論結果と、当該1又は複数の画像の各々に付された1又は複数の正解ラベルとの比較結果を参照して第1の閾値を決定する閾値決定処理、第2のデータセットに含まれる1又は複数の画像の各々を前記検知モデルに入力することによって、当該1又は複数の画像の各々についての1又は複数の推論結果を取得する推論処理、前記推論処理による1又は複数の推論結果のうち、前記第1の閾値以上の信頼度を有する推論結果を疑似ラベルに設定し、当該疑似ラベルを、対応する画像に関連付けることによって、疑似ラベル付与後のデータセットを生成するデータセット生成処理、及び前記疑似ラベル付与後のデータセットを参照して、前記対象画像用検知モデルの学習を行う擬似ラベル参照学習処理によって学習されたものである、情報処理装置。
【0247】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記検知処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0248】
10、10a、10b、10c、20、20a 情報処理装置
101 学習部
101-1 第1の学習部
101-2 第2の学習部
102 閾値決定部
102-1 第1の閾値決定部
102-2 第2の閾値決定部
103 推論部
103-1 第1の推論部
103-2 第2の推論部
104 データセット生成部
104-1 第1のデータセット生成部
104-2 第2のデータセット生成部
105 再学習部
106 学習不実施領域決定部
106-1 第1の学習不実施領域決定部
106-2 第2の学習不実施領域決定部
201 取得部
202 検知部
DS1 データセット1
DS1’ データセット1’
DS2 データセット2
DS2’ データセット2’
DSE 評価用データセット
DSE1 評価用データセット1
DSE2 評価用データセット2
DM 物体検知モデル