(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024080386
(43)【公開日】2024-06-13
(54)【発明の名称】頑健性測定装置、頑健性測定方法、およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240606BHJP
G06V 10/776 20220101ALI20240606BHJP
【FI】
G06T7/00 350B
G06V10/776
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022193533
(22)【出願日】2022-12-02
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】鶴山 智也
(72)【発明者】
【氏名】大平 英貴
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096EA15
5L096EA16
5L096EA39
5L096FA16
5L096FA25
5L096FA31
5L096FA32
5L096FA33
5L096FA62
5L096FA64
5L096FA69
5L096GA34
5L096GA51
5L096HA11
5L096JA11
5L096KA04
5L096MA07
(57)【要約】
【課題】教師ありまたは教師なしに関わらず、機械学習モデルの頑健性を簡易的且つ高精度に測定可能にすること。
【解決手段】実施形態の頑健性測定装置は、取得部と、推論結果群生成部と、頑健性測定部とを持つ。取得部は、入力画像を取得する。ノイズ付与部は、入力画像に対してノイズを付与することにより少なくとも1つのノイズ付与画像を生成する。推論結果群生成部は、入力画像およびノイズ付与画像の少なくとも1つに対する推論結果のうち、相互に関連付けられる推論結果をグループ化した推論結果群を生成する。頑健性測定部は、推論結果群に基づいて、検査対象モデルの頑健性を測定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力画像を取得する取得部と、
前記入力画像に対してノイズを付与することにより少なくとも1つのノイズ付与画像を生成するノイズ付与部と、
前記入力画像および前記ノイズ付与画像の少なくとも1つに対する推論結果のうち、相互に関連付けられる前記推論結果をグループ化した推論結果群を生成する推論結果群生成部と、
前記推論結果群に基づいて、検査対象モデルの頑健性を測定する頑健性測定部と、
を備える、頑健性測定装置。
【請求項2】
前記推論結果は、前記入力画像および前記ノイズ付与画像の少なくとも1つにおける物体検出結果であり、
前記推論結果群は、前記物体検出結果の物体領域候補群である、
請求項1に記載の頑健性測定装置。
【請求項3】
前記入力画像および前記ノイズ付与画像の少なくとも1つを、前記検査対象モデルに入力する画像入力部と、
前記物体検出結果として、前記入力画像および前記ノイズ付与画像の少なくとも1つが入力されたときの前記検査対象モデルの出力結果を取得する物体検出結果取得部と、
をさらに備える、
請求項2に記載の頑健性測定装置。
【請求項4】
前記頑健性測定部は、前記物体領域候補群に含まれる前記物体検出結果に対して統計処理を行うことによって、前記検査対象モデルの頑健性を測定する、
請求項2または3に記載の頑健性測定装置。
【請求項5】
前記頑健性測定部は、前記入力画像および前記ノイズ付与画像ごとの前記物体検出結果同士を比較し、重複比率が最大となる前記物体検出結果同士を、同一物体を示す前記物体領域候補群としてグループ化する、
請求項2または3に記載の頑健性測定装置。
【請求項6】
前記頑健性測定部は、前記統計処理として、前記物体領域候補群に含まれる前記物体検出結果の各々により示される物体の座標の分散、最大値、平均値、および中央値の少なくとも1つを算出する、
請求項4に記載の頑健性測定装置。
【請求項7】
前記頑健性測定部は、前記物体検出結果に含まれる前記物体を識別するラベルの分散を算出し、前記物体の座標の頑健性と、前記ラベルによるクラス識別の頑健性とを算出する、
請求項6に記載の頑健性測定装置。
【請求項8】
前記頑健性測定部は、同一物体を示す前記物体領域候補群において、他の物体検出結果と重複しない物体検出結果に付与された未検出ラベルに基づいて前記物体領域候補群内における検出率を算出し、算出した前記検出率に基づいて過検出指標を算出する、
請求項2または3に記載の頑健性測定装置。
【請求項9】
ノイズ条件ごとの重要性を示すノイズ重みを設定するノイズ重み設定部をさらに備え、
前記頑健性測定部は、設定された前記ノイズ重みに基づいて、前記頑健性を測定する、
請求項1から3のいずれか一項に記載の頑健性測定装置。
【請求項10】
前記取得部は、さらに、前記物体検出結果の正解値を取得し、
前記推論結果群生成部は、前記入力画像および前記ノイズ付与画像ごとの前記物体検出結果および前記正解値に基づいて、前記物体領域候補群を生成する、
請求項2または3に記載の頑健性測定装置。
【請求項11】
コンピュータが、
入力画像を取得し、
前記入力画像に対してノイズを付与することにより少なくとも1つのノイズ付与画像を生成し、
前記入力画像および前記ノイズ付与画像の少なくとも1つに対する推論結果のうち、相互に関連付けられる前記推論結果をグループ化した推論結果群を生成し、
前記推論結果群に基づいて、検査対象モデルの頑健性を測定する、
頑健性測定方法。
【請求項12】
コンピュータに、
入力画像を取得させ、
前記入力画像に対してノイズを付与することにより少なくとも1つのノイズ付与画像を生成させ、
前記入力画像および前記ノイズ付与画像の少なくとも1つに対する推論結果のうち、相互に関連付けられる前記推論結果をグループ化した推論結果群を生成させ、
前記推論結果群に基づいて、検査対象モデルの頑健性を測定させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、頑健性測定装置、頑健性測定方法、およびプログラムに関する。
【背景技術】
【0002】
従来、機械学習(Artificial Intelligence:AI)技術の分野において、クラス分類や回帰問題に対して、特定の入力画像に対する検査対象モデルのノイズ耐性を評価する手法が提案されている。この手法においては、正解データを元に任意のノイズを入力画像に付与した際の正解率を算出し、検査対象モデルのノイズ耐性を評価する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】“Understanding Local Robustness of Deep Neural Networks under Natural Variations”,[online],[令和4年11月10日検索]、インターネット<URL:https://arxiv.org/abs/2010.04821>
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の評価手法は、正解率の算出が必要となるため、推論時(評価時)に教師となる正解データ(正解ラベル)が存在することが前提となっていた。このため、推論時に教師となる正解データが存在しない場合には、機械学習モデルのノイズ耐性を評価することはできなかった。また、従来の評価手法は、物体検出に使用される機械学習モデルには対応できていなかった。
【0005】
本発明が解決しようとする課題は、教師ありまたは教師なしに関わらず、機械学習モデルの頑健性を簡易的且つ高精度に測定可能な頑健性測定装置、頑健性測定方法、およびプログラムを提供することである。
【課題を解決するための手段】
【0006】
実施形態の頑健性測定装置は、取得部と、推論結果群生成部と、頑健性測定部とを持つ。取得部は、入力画像を取得する。ノイズ付与部は、入力画像に対してノイズを付与することにより少なくとも1つのノイズ付与画像を生成する。推論結果群生成部は、入力画像およびノイズ付与画像の少なくとも1つに対する推論結果のうち、相互に関連付けられる推論結果をグループ化した推論結果群を生成する。頑健性測定部は、推論結果群に基づいて、検査対象モデルの頑健性を測定する。
【図面の簡単な説明】
【0007】
【
図1】第1実施形態に係る頑健性測定装置1の機能構成の一例を示す機能ブロック図。
【
図2】第1実施形態に係る画像に対してバウンダリーボックスBBが設定される様子を示す図。
【
図3】第1実施形態に係る画像に対してバウンダリーボックスBBが設定される様子の他の例を示す図。
【
図4】第1実施形態に係る画像に対してバウンダリーボックスBBが設定される様子のさらに他の例を示す図。
【
図5】第1実施形態に係る頑健性測定処理の一例を示すフローチャート。
【
図6A】第1実施形態に係る頑健性測定の第1手法の一例を示すフローチャート。
【
図6B】第1実施形態に係る頑健性測定の第2手法の一例を示すフローチャート。
【
図6C】第1実施形態に係る頑健性測定の第3手法の一例を示すフローチャート。
【
図6D】第1実施形態に係る頑健性測定の第4手法の一例を示すフローチャート。
【
図7】第2実施形態に係る頑健性測定装置1Aの機能構成の一例を示す機能ブロック図。
【
図8】第2実施形態に係るノイズ条件ごとの重みの設定処理を説明する図。
【
図9】第3実施形態に係る過検出および未検出の判定結果(教師あり)の一例を示す図。
【
図10】第3実施形態に係る正検出および過検出の判定結果(教師なし)の一例を示す図。
【発明を実施するための形態】
【0008】
以下、実施形態の頑健性測定装置、頑健性測定方法、およびプログラムを、図面を参照して説明する。
【0009】
<第1実施形態>
第1実施形態の頑健性測定装置は、任意のノイズに対する機械学習モデルの頑健性を測定する。この頑健性測定装置によれば、教師ありまたは教師なしに関わらず(正解データの有無に関わらず)、機械学習モデルの頑健性を簡易的且つ高精度に測定可能にすることができる。頑健性とは、様々なデータに対して、推論を正確に行うことができる性質のことをいう。例えば、頑健性とは、様々なノイズが付与された画像が検査対象モデルに入力された場合に、推論結果にずれが生じない性質のことをいう。
【0010】
以下の説明において、頑健性測定装置は、ネットワークを介してユーザの端末装置および推論装置と接続される単一のサーバ装置により実現される場合を例に挙げて説明する。しかしながら、頑健性測定装置は、複数の装置によって実現されるものであってもよいし、ユーザの端末装置内にインストールされることで実現されるものであってもよい。その他、頑健性測定装置は、クラウドコンピューティングの技術を用いて実現されるものであってもよい。頑健性測定装置と推論装置とは、同一の装置によって実現されるものであってもよい。
【0011】
[装置構成]
図1は、第1実施形態に係る頑健性測定装置1の機能構成の一例を示す機能ブロック図である。頑健性測定装置1は、通信ネットワークNWを介して、端末装置Tおよび推論装置IDと通信可能に接続されている。通信ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local1 Area Network)、プロバイダ装置、無線基地局等を含む。
【0012】
端末装置Tは、例えば、検査対象とする機械学習モデル(以下、「検査対象モデル」という)または機械学習モデルを用いて推論処理を行うソフトウェアの検査を行うユーザUによって操作される。端末装置Tは、例えば、パーソナルコンピュータ、スマートフォン、タブレットコンピュータ等の装置である。
【0013】
推論装置IDは、例えば、外部装置(頑健性測定装置1)からの要求に応じて、入力された入力画像に対して所定の推論処理(例えば、物体検出処理)を行い、推論結果を要求元に提供する。推論装置IDは、例えば、プラグイン機能により動作するソフトウェアによって実現されるものであってよい。推論装置IDは、例えば、推論部100と、記憶部110とを備える。推論部100は、外部から入力された入力画像を機械学習モデルに入力し、この機械学習モデルの出力である推論結果を要求元に提供する。記憶部110には、機械学習モデル(検査対象モデルM)が記憶されている。
【0014】
検査対象モデルMは、ニューラルネットワーク、サポートベクターマシン、決定木等の様々な記述方法により生成される。ニューラルネットワークは、例えば、オートエンコーダ、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)等を含む。
【0015】
頑健性測定装置1は、例えば、制御部10と、記憶部20とを備える。制御部10は、例えば、取得部11と、ノイズ付与部12と、画像入力部13と、推論結果取得部14と、推論結果群生成部15と、頑健性測定部16と、提供部17とを備える。制御部10の各機能部は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等のコンピュータがプログラムを実行することによって、実現される。また、制御部10の機能部の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアが協働することにより実現されてもよい。プログラムは、予め記憶部20(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROM等の着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
【0016】
取得部11は、ネットワークNWを介して、端末装置Tから送信される頑健性測定のリクエストを取得する。頑健性測定のリクエストには、検査に使用される入力画像Dおよび検査対象モデルM(推論装置ID)の情報が含まれている。取得部11は、入力画像Dを端末装置Tから直接取得してもよいし、リクエストに含まれる情報に基づいて、他の記憶装置(不図示)やカメラ等のデバイスから取得してもよい。また、予め、記憶部20に入力画像Dが記憶されている場合には、取得部11は、記憶部20から入力画像Dを取得してもよい。取得部11は、「取得部」の一例である。
【0017】
ノイズ付与部12は、入力画像Dに対して任意のノイズを付与することにより、ノイズが付与された少なくとも1つのノイズ付与画像NDを生成する。ノイズ付与部12は、例えば、入力画像Dの回転、反転、樽型・糸巻型・せん断歪、ガウスノイズ、色チャンネルの入れ替え、グレースケール化、ヒストグラム平坦化等の他、雨や雪等の天候ノイズの再現等により、入力画像Dに対してノイズを付与する。これにより、検査対象モデルMを実運用する際に想定されるノイズに対して頑健性を測定することが可能となる。例えば、ノイズ付与部12は、1つの入力画像Dに対して、互いに異なる種類の複数のノイズ(例えば、3つのノイズA、ノイズB、ノイズC)の各々を付与し、複数のノイズ付与画像ND(例えば、3つのノイズ付与画像ND)を生成する。互いに異なる種類の複数のノイズとは、例えば、ノイズレベルが互いに異なるノイズである。各ノイズ条件は、上記の回転等のノイズを複合したノイズも可能であり、回転と雪のノイズ付与、反転と雨のノイズ付与等、実運用環境に合わせてユーザUが設計したノイズを与えることが可能である。ノイズ付与部12は、「ノイズ付与部」の一例である。
【0018】
画像入力部13は、通信ネットワークNWを介して、推論装置IDの推論部100を呼び出し、推論部100を介して検査対象モデルMに入力画像Dおよびノイズ付与画像NDの少なくとも1つを入力する。これにより、推論部100は、入力画像Dおよびノイズ付与画像NDの少なくとも1つを検査対象モデルMに入力し、検査対象モデルMの出力として、所定の推論結果を取得する。例えば、推論結果は、画像内に含まれる物体の検出結果を含む。物体の検出結果は、例えば、物体を囲む所定の矩形の境界線(バウンダリーボックスBB:BoundaryBox)と、物体の分類示すクラスラベルとによって表される。或いは、クラスラベルの代わりに検出対象の全クラスに対する推定確率分布を出力する手法や、矩形の代わりに画素毎のクラスラベルを推定するセマンティックセグメンテーションが使用されてもよい。画像入力部13は、「画像入力部」の一例である。
【0019】
図2は、第1実施形態に係る画像に対してバウンダリーボックスBBが設定される様子を示す図である。
図2に示す例では、対象物体(人)TAが撮像された入力画像D上において、入力画像D(ノイズなし)を検査対象モデルMに入力することにより得られる対象物体TAのバウンダリーボックスBB0と、入力画像Dに対してノイズAを付与したノイズ付与画像NDを検査対象モデルMに入力することにより得られる対象物体TAのバウンダリーボックスBB1と、入力画像Dに対してノイズBを付与したノイズ付与画像NDを検査対象モデルMに入力することにより得られる対象物体TAのバウンダリーボックスBB2と、入力画像Dに対してノイズCを付与したノイズ付与画像NDを検査対象モデルMに入力することにより得られる対象物体TAのバウンダリーボックスBB3とが示されている。
【0020】
推論結果取得部14は、推論部100により出力される画像ごとの推論結果を取得して集約し、推論結果群生成部15に入力する。推論結果取得部14は、「物体検出結果取得部」の一例である。推論結果取得部14は、物体検出結果として、入力画像Dおよびノイズ付与画像NDの少なくとも1つが入力されたときの検査対象モデルMの出力結果を取得する。
【0021】
推論結果群生成部15は、画像ごと(ノイズ条件ごと)の推論結果に基づいて、相互に関連付けられる推論結果群(物体領域候補群)を生成する。推論結果群生成部15は、例えば、入力画像Dおよびノイズ付与画像NDごとの推論結果に含まれるバウンダリーボックス同士を全数探索で比較し、その重なり度合いに基づいて、相互に関連付けされる推論結果群を生成する。推論結果群生成部15は、例えば、重複率IoU(Intersection over Union)に基づいて、物体検出領域(バウンダリーボックス)同士の重複比率を算出し、ノイズ条件ごとの検出結果同士を比較して最大となる候補同士を同一物体を示す物体領域候補としてグループ化し、推論結果群を生成する。推論結果群生成部15は、例えば、ノイズなし画像である入力画像DのバウンダリーボックスBB0を基準として、このバウンダリーボックスBB0に対する重複率IoUが所定の閾値を上回る(例えば、0.5を上回る)バウンダリーボックスを、相互に関連付けされる推論結果群として生成する。或いは、推論結果群生成部15は、例えば、ノイズレベルが最も低い(或いは最も高い)ノイズ付与画像NDのバウンダリーボックスを基準として、このバウンダリーボックスに対する重複率IoUが所定の閾値を上回る(例えば、0.5を上回る)バウンダリーボックスを、相互に関連付けされる推論結果群として生成してもよい。推論結果群生成部15は、「推論結果群生成部」の一例である。
【0022】
図2に示す例では、例えば、バウンダリーボックスBB0(ノイズなし)を基準として、このバウンダリーボックスBB0との重複率IoUが所定の閾値を上回るバウンダリーボックスBB1、バウンダリーボックスBB2、およびバウンダリーボックスBB3(計4つのバウンダリーボックス)が推論結果群としてグループ化される。
【0023】
図3は、第1実施形態に係る画像に対してバウンダリーボックスBBが設定される様子の他の例を示す図である。
図3に示す例では、バウンダリーボックスBB0に対するバウンダリーボックスBB3の重複率IoUは所定の閾値以下となっている。この場合、このバウンダリーボックスBB0との重複率IoUが所定の閾値を上回るバウンダリーボックスBB1およびバウンダリーボックスBB2(バウンダリーボックスBB3は除く、計3つのバウンダリーボックス)が、推論結果群としてグループ化される。
【0024】
図4は、実施形態に係る画像に対してバウンダリーボックスBBが設定される様子のさらに他の例を示す図である。
図4に示す例では、入力画像Dに対してノイズAを付与したノイズ付与画像NDに基づくバウンダリーボックスBB1と、入力画像Dに対してノイズBを付与したノイズ付与画像NDに基づくバウンダリーボックスBB2-1およびBB2-2とが示されている。バウンダリーボックスBB2-1およびBB2-2はどちらもバウンダリーボックスBB1と重複しているが、バウンダリーボックスBB2-1の方が重複率IoUが高いため(閾値を上回るため)、ここではバウンダリーボックスBB1とバウンダリーボックスBB2-1とが同一物体を示す物体領域候補としてグループ化され、推論結果群として設定される。
【0025】
頑健性測定部16は、生成された推論結果群に基づいて、検査対象モデルMの頑健性を測定する。頑健性測定部16は、推論結果群に統計処理を行い、頑健性指標を算出する。物体領域は、矩形の中心を示す座標、矩形の幅および高さ、矩形の隅を表す1点の座標と幅および高さ、矩形の対角を示す2点の座標等で表すことができる。統計処理は、これらの測定値全てに適用可能であり、複数のノイズ条件間で同一物体について、矩形座標を元に、分散、最大値、平均値、および中央値の少なくとも1つを算出することで、ノイズの付与によって物体検出領域が移動、拡大、縮小する様子をとらえることが可能となる。同一物体を示す物体領域が変化しない場合、検出対象モデルMはノイズに頑健であると考えられ、逆に変化が大きい場合は脆弱であると言える。尚、検出領域ごとの頑健性の他に、画像毎の頑健性を考えることもできる。画像内に複数の物体検出候補が存在するため、検出領域ごとの頑健性を平均化するか最大値を採用することで、画像全体の頑健性を算出できる。最小値でなく最大値を採用するのは頑健性判定においては最も脆弱な例を代表とすることが望ましいためである。
【0026】
また、推論結果群に含まれる物体領域は推定されたクラスラベル(推定クラスラベル)を有する。同一物体を示す物体領域候補は通常同一の推定クラスラベルを有することが想定されるが、ノイズによって推定クラスラベルが変化する場合があり、推定クラスラベルの分散が小さい場合には頑健であると考えられ、逆に分散が大きい場合には脆弱であると言える。推定クラスラベルの頑健性判定処理を行うため、通常の物体検出では教師データ(正解データ)との比較による正解判定等は、全て教師データと同一のクラスラベルを有する物体領域候補にのみ適用されるが、本実施形態では推定クラスラベルを区別せずに同一物体の判定を行う。推定クラスラベルについても検出領域ごとの頑健性を平均化するか最大値を採用することで、画像の頑健性を算出できる。最小値でなく最大値を採用するのは頑健性判定においては最も脆弱な例を代表とすることが望ましいためである。すなわち、頑健性測定部16は、物体検出結果に含まれる物体を識別するラベルの分散を算出し、物体の座標の頑健性と、ラベルによるクラス識別の頑健性とを算出する。
【0027】
推論結果群生成部15にて、ノイズ毎の物体検出結果同士を比較し、推論結果群を生成する際、重複率IoUが閾値を上回る候補同士を同一物体を示す物体領域候補としてグループ化するが、他のノイズ条件で検出されなかった物体領域は重複率IoUが閾値以下となり、グループが生成されない、若しくは、一部ノイズ条件で候補が欠けた状態となる。推論結果群生成部15は、一定の閾値以下では同一物体とみなさない、またグループ内に重複比率が閾値を上回る候補が存在しないノイズ条件があった場合、未検出ラベルを付与する。同一物体を示す推論結果群において、ノイズ付与部12により付与されたノイズのうち、未検出ラベルが付与された割合に応じて、過検出か否かを判定する。例えば、ノイズを2条件、非ノイズ条件を1条件とし、閾値を0.5と設定した場合には未検出が2条件となった場合に検出率が33.3%となり、閾値以下となる。閾値以下となる場合は疑似過検出(FP’;FalsePositive’)として、逆に閾値を上回る場合は疑似正検出(TP’;TruePositive’)とする。過検出指標として疑似適合率Precision’が算出でき、以下式(1)によって表される。また、過検出指標としては画像毎の疑似過検出率(FPPI’;FalsePositive Per Image’)を採用することも可能である。
【0028】
【0029】
提供部17は、測定された頑健性の情報を、例えば、通信ネットワークNWを介して、要求元の端末装置Tに提供する。ユーザUは、端末装置Tの表示部等に表示されたこの頑健性の情報を見ることで、検査対象モデルMの頑健性を確認することができる。
【0030】
記憶部20は、例えば、入力画像D、ノイズ付与画像ND等を記憶する。記憶部20は、例えば、HDD(Hard Disk Drive)、RAM(Random Access Memory)、SSD(Solid State Drive)、フラッシュメモリ等の記憶装置である。尚、記憶部20は、NAS(Network Attached Storage)や外部ストレージサーバ装置といった通信ネットワークNWを介して接続される他の記憶装置によって実現されてもよい。
【0031】
[処理フロー]
次に、頑健性測定装置1による頑健性測定処理の流れについて説明する。
図5は、第1実施形態に係る頑健性測定処理の一例を示すフローチャートである。
【0032】
まず、取得部11は、ネットワークNWを介して、端末装置Tから送信される頑健性測定のリクエスト(入力画像D)を取得する(ステップS101)。尚、取得部11は、入力画像Dを、他の記憶装置(不図示)やカメラ等のデバイスから取得してもよいし、記憶部20から取得してもよい。
【0033】
次に、ノイズ付与部12は、入力画像Dに対してノイズを付与し、少なくとも1つのノイズ付与画像NDを生成する(ステップS103)。ノイズ付与部12は、例えば、入力画像Dの回転、反転、樽型・糸巻型・せん断歪、ガウスノイズ、色チャンネルの入れ替え、グレースケール化、ヒストグラム平坦化等の他、雨や雪等の天候ノイズの再現等により、入力画像Dに対してノイズを付与する。
【0034】
次に、画像入力部13は、通信ネットワークNWを介して、推論装置IDの推論部100を呼び出し、推論部100を介して検査対象モデルMに入力画像Dおよびノイズ付与画像NDの少なくとも1つを入力する(ステップS105)。次に、推論結果取得部14は、推論部100により出力される画像ごとの推論結果(例えば、物体検出結果)を取得する(ステップS107)。
【0035】
次に、推論結果群生成部15は、画像ごと(ノイズ条件ごと)の推論結果に基づいて、推論結果群(物体領域候補群)を生成する(ステップS109)。推論結果群生成部15は、例えば、入力画像Dおよびノイズ付与画像NDごとの推論結果に含まれるバウンダリーボックス同士を全数探索で比較し、その重なり度合いに基づいて、相互に関連付けされる推論結果群を生成する。
【0036】
次に、頑健性測定部16は、推論結果群に基づいて、検査対象モデルMの頑健性を測定する(ステップS111)。頑健性測定部16は、推論結果群に統計処理を行い、頑健性指標を算出する。頑健性指標は、入力画像Dに含まれるバウンダリーボックスごとの頑健性(局所頑健性)と、入力画像D自体の頑健性(全体頑健性)と、に大別される。また、頑健性は、検査対象モデルMが「教師あり」または「教師なし」のいずれに対応するものであるか、「回帰」または「分類」のいずれに対応するものであるかに応じて、異なる手法に基づいて、測定される。
【0037】
<バウンダリーボックスの頑健性(局所頑健性)の測定>
(1)第1手法(「教師あり」且つ「回帰」の場合)
図6Aは、第1実施形態に係る頑健性測定の第1手法の一例を示すフローチャートである。まず、頑健性測定部16は、推論結果群に基づいて、正解データである正解バウンダリーボックスに対する、入力画像D(ノイズなし)およびノイズ付与画像NDの各々に含まれるバウンダリーボックスBBの重複率IoUを算出する(ステップS201)。次に、頑健性測定部16は、算出された重複率IoUの分散または平均を算出し、頑健性の値として採用する(ステップS203)。以上により、本フローチャートの処理が完了する。
【0038】
(2)第2手法(「教師あり」且つ「分類」の場合)
図6Bは、第1実施形態に係る頑健性測定の第2手法の一例を示すフローチャートである。まず、頑健性測定部16は、推論結果群に基づいて、正解データである正解クラスラベルと、入力画像D(ノイズなし)およびノイズ付与画像NDの各々の推定クラスラベルとを比較し、両者が一致するか否かを判定する(ステップS211)。次に、頑健性測定部16は、推定クラスラベルの数(画像数と同等)に対する、正解クラスラベルと一致する推定クラスラベルの数の割合である正解率を算出し、頑健性の値として採用する(ステップS213)。以上により、本フローチャートの処理が完了する。尚、頑健性測定部16は、推定クラスラベル同士を直接評価し(未検出の場合は未検出クラスラベル)、Neighbor Accuracyを算出し、頑健性の値として採用するようにしてもよい。
【0039】
(3)第3手法(「教師なし」且つ「回帰」の場合)
図6Cは、第1実施形態に係る頑健性測定の第3手法の一例を示すフローチャートである。まず、頑健性測定部16は、同一の推論結果群に含まれるバウンダリーボックスBBの矩形座標に基づいて、その分散を算出し、頑健性の値として採用する(ステップS221)。以上により、本フローチャートの処理が完了する。
【0040】
(4)第4手法(「教師なし」且つ「分類」の場合)
図6Dは、第1実施形態に係る頑健性測定の第4手法の一例を示すフローチャートである。まず、頑健性測定部16は、同一の推論結果群に含まれるバウンダリーボックスBBのクラスラベルの分散を算出し、頑健性の値として採用する(ステップS231)。以上により、本フローチャートの処理が完了する。
【0041】
<画像全体の頑健性(全体頑健性)の測定>
上記のバウンダリーボックスの頑健性(局所頑健性)の測定と同様に、画像全体の頑健性(全体頑健性)の測定にも、上記の第1から第4手法に準じた手法を適用可能である。例えば、上記の第1から第4手法と同様に、推論結果群ごとの分散または平均(頑健性)を算出し、得られた複数の頑健性の平均または最大値をとることで、全体頑健性が測定される。
【0042】
図5に戻り、次に、提供部17は、測定された頑健性の情報を、例えば、通信ネットワークNWを介して、要求元の端末装置Tに提供する(ステップS113)。ユーザUは、端末装置Tの表示部等に表示されたこの頑健性の情報を見ることで、検査対象モデルMの頑健性を確認することができる。以上により、本フローチャートの処理が終了する。
【0043】
以上において説明した第1実施形態の頑健性測定装置1によれば、教師ありまたは教師なしに関わらず、機械学習モデルの頑健性を簡易的且つ高精度に測定可能にすることが可能となる。また、ノイズ付与部12により任意の機械学習モデルの頑健性を任意のノイズ条件でテストすることができる。また、推論結果群生成部15により正解データを有さない場合(教師なし)においても、頑健性測定部16にて、推論結果群に含まれる推論結果の統計情報から頑健性指標が測定可能となる。また、回帰および分類のいずれの推論処理に関しても、頑健性指標が測定可能となる。
【0044】
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態の頑健性測定装置は、ノイズ条件ごとの重要性を考慮して、頑健性指標の算出を行う点において第1の実施形態と異なる。以下、第1実施形態との相違点を中心として、第2実施形態の頑健性測定装置について説明する。
【0045】
図7は、第2実施形態に係る頑健性測定装置1Aの機能構成の一例を示す機能ブロック図である。頑健性測定装置1Aの制御部10Aは、例えば、取得部11と、ノイズ付与部12と、画像入力部13と、推論結果取得部14と、推論結果群生成部15と、頑健性測定部16と、提供部17とに加えて、ノイズ重み設定部18を備える。
【0046】
ノイズ重み設定部18は、ノイズ付与部12により付与されるノイズ条件ごとの重要性を考慮して、ノイズ条件ごとの重み(ノイズ重み)を設定する。ノイズ重みは、例えば、端末装置TのユーザUや、頑健性測定装置の管理者や等により定義される。
図8は、第2実施形態に係るノイズ条件ごとの重みの設定処理を説明する図である。
図8に示すように、3つのノイズ(ノイズa,ノイズb,ノイズc)を用いて3つのバウンダリーボックスBB1からBB3が生成された場合、以下の式(2)のように物体検出候補群の中心座標が求められる。式(2)において、(X
a, Y
a)、(X
b, Y
b)、および(X
c, Y
c)は、バウンダリーボックスBB1、バウンダリーボックスBB2、およびバウンダリーボックスBB3の代表点(中心座標、左上座標、左下座標、右上座標、右下座標、各辺の中点等)であり、(X
center, Y
center)は中心座標である。
【0047】
【0048】
ノイズ重みの一例として、ノイズaに対するノイズ重みをMa=0.5とし、ノイズbに対するノイズ重みをMb=0.3、ノイズcに対するノイズ重みをMc=0.2とすると、ノイズAが優先されることとなる。中心座標(Xcenter, Ycenter)を基準として、各バウンダリーボックスBB1,BB2,BB3の代表点(例えば、中央座標)までの距離をLa,Lb,Lcとすると、各重み付き距離はMaLa,MbLb,McLcとなる。頑健性測定部16は、例えば、重み付き距離はMaLa,MbLb,McLcの分散または平均値を算出することで、検査対象モデルMの頑健性を測定する。このように重み付き距離を統計処理することで、設定したノイズ重みに応じた頑健性指標が算出される。例えば、車載画像処理の例で考えると、夜間の事故率の高さを考慮して夜を模擬したノイズを優先し、比較的遭遇確立の低い雨や雪を模擬したノイズの優先度を下げる、等といった適用例が考えられる。
【0049】
上記においてはノイズの数が3の場合を例に挙げて説明したが、本実施形態はこれに限られない。ノイズの数がnの場合、各ノイズに対応するバウンダリーボックスの代表点のx座標の和およびy座標の和の各々をnで除することで中心座標を算出し、上記のように重み付き距離を算出することで、検査対象モデルMの頑健性を測定することができる。
【0050】
以上において説明した第2実施形態の頑健性測定装置1Aによれば、教師ありまたは教師なしに関わらず、機械学習モデルの頑健性を簡易的且つ高精度に測定可能にすることが可能となる。また、ノイズ付与部12により任意の機械学習モデルの頑健性を任意のノイズ条件でテストすることができる。また、推論結果群生成部15により正解データを有さない場合(教師なし)においても、頑健性測定部16にて、推論結果群に含まれる推論結果の統計情報から頑健性指標が測定可能となる。また、回帰および分類のいずれの推論処理に関しても、頑健性指標が測定可能となる。また、ノイズ重み設定部18により、所望のノイズ条件を優先した頑健性測定が可能となる。
【0051】
<第3実施形態>
以下、第3実施形態について説明する。第3実施形態の頑健性測定装置は、物体検出結果の正解データに基づいて物体領域候補群を生成することで、過検出および未検出を判定可能である点において第1の実施形態と異なる。以下、第1実施形態との相違点を中心として、第3実施形態の頑健性測定装置について説明する。
【0052】
取得部11は、入力画像Dに対応する物体検出結果(バウンダリーボックスBB)の正解データ(正解値)を取得する。取得部11は、例えば、端末装置T、記憶部20、他の記憶装置(不図示)等から正解データを取得する。推論結果群生成部15は、入力画像Dおよびノイズ付与画像NDごとの物体検出結果および正解値に基づいて、物体領域候補群を生成する。推論結果群生成部15は、物体領域候補群を生成した後、教師となる正解データ(物体領域)に対する、物体領域候補群に含まれる各バウンダリーボックスBBの重複率IoUを算出する。重複率IoUが所定の閾値(例えば、0.5)を上回る場合、物体領域候補群は教師と対応すると考えられ、閾値以下の場合は対応する教師を有さないといえる。対応する教師を有さない場合は、過検出と考えられる。
【0053】
頑健性測定部16は、検出対象モデルMの回帰指標の頑健性については、教師となる正解データに対する重複率IoUに基づいて算出する。教師となる正解データに対する重複率IoUの分散や平均を計算することで、推定した物体検出領域が安定しているかを知ることができる。頑健性測定部16は、分類指標の頑健性については、教師となる正解クラスラベルと比較し、正解率に基づいて算出する。画像全体の頑健性(全体頑健性)については、回帰指標は検出領域ごとの頑健性を平均化するか最大値を採用することで、画像の頑健性を算出できる。分類指標も同様に平均値か最大値を採用し、画像全体の頑健性指標を算出できる。
【0054】
過検出および未検出については、同一物体を示す物体検出候補群において、ノイズ付与部12により与えられたノイズのうち、未検出ラベルが付与された割合に応じて、判定される。
図9は、第3実施形態に係る過検出および未検出の判定結果(教師あり)の一例を示す図である。
図9では、2つのノイズ付与画像(ノイズA,ノイズB)と、1つの非ノイズ画像(非ノイズ)の計3つの画像を用い、検出判定の閾値を0.5と設定する場合を例に挙げる。ケース1は、同一物体を示す物体検出候補群の3つの画像において、ノイズAおよび非ノイズについては、正解データとの重複率IoUが重複率の閾値を上回り且つ推定クラスラベルが正解データと一致しているが(○:正解)、一方、ノイズBについては、正解データとの重複率IoUが重複率の閾値以下であるか或いは推定クラスラベルが正解データと不一致であった(×:不正解)場合を示している。この場合、検出率が3分の2(0.66)となり閾値を上回る。このケース1については、「正検出(TP;TruePositive)」と判定される。一方、ケース2は、同一物体を示す物体検出候補群の3つの画像において、非ノイズについては、正解データとの重複率IoUが重複率の閾値を上回り且つ推定クラスラベルが正解データと一致しているが(○:正解)、一方、ノイズAおよびノイズBについては、正解データとの重複率IoUが重複率の閾値以下であるか或いは推定クラスラベルが正解データと不一致であった(×:不正解)場合を示している。この場合、検出率が3分の1(0.33)となり閾値以下となる。このケース2については、「未検出(FN;FalseNegative)」と判定される。すなわち、検出率が閾値以下となり、教師を有する場合は未検出(FN)として、逆に閾値を上回って教師を有する場合は正検出(TP)となる。
【0055】
一方、ケース3および4は、同一物体を示す物体検出候補群の3つの画像において、正解データと重複していない(重複率IoUがゼロ)となったケース(すなわち、正解データとの紐づかないケース)である。ここで、ケース3についてはノイズAおよび非ノイズに推定クラスラベルが付与されており、ケース4についてはノイズAに推定クラスラベルが付与されているが、これらの推定クラスラベルは誤りである可能性が高いと考えられる。このため、このケース3および4については、「過検出(FP;FalsePositive)」と判定される。すなわち、正解データとの紐づかないケースにおいて、推定クラスラベルが付与されている場合は、検出率によらず過検出(FP)として扱う。以上、正検出(TP),未検出(FN),過検出(FP)からPrecisionやRecall、F値といった検出性能指標が算出できる。また、画像毎の過検出率(FPPI;FalsePositive Per Image)も同様に算出可能である。
【0056】
尚、正解データが存在しない場合(教師なし)であっても、以下のように正検出、過検出を判定することが可能である。
図10は、第3実施形態に係る正検出および過検出の判定結果(教師なし)の一例を示す図である。
図10では、2つのノイズ付与画像(ノイズA,ノイズB)と、1つの非ノイズ画像(非ノイズ)の計3つの画像を用い、検出判定の閾値を0.5と設定する場合を例に挙げる。ケース5では、ノイズAおよび非ノイズは同一物体を示す物体検出候補群に設定され、両者の推定クラスラベルが一致しているが、ノイズBは、ノイズAおよび非ノイズの物体検出候補群には含まれていない。この場合、検出率が3分の2(0.66)となり閾値を上回る。このケース5については、「疑似正検出(TP’)」と判定される。「疑似」とされているのは、教師なしの場合には正解データが存在しないため、正解の確証がないためである。一方、ケース6では、非ノイズには推定クラスラベルが付与されているが、ノイズAおよびBには未検出ラベルが付与されている。この場合、検出率が3分の1(0.33)となり閾値を上回る。このケース6については、「疑似過検出(FP’)」と判定される。
【0057】
すなわち、頑健性測定部16は、同一物体を示す物体領域候補群において、他の物体検出結果と重複しない物体検出結果に付与された未検出ラベルに基づいて物体領域候補群内における検出率を算出し、算出した検出率に基づいて過検出指標を算出する。
【0058】
以上において説明した第3実施形態の頑健性測定装置1によれば、教師ありまたは教師なしに関わらず、機械学習モデルの頑健性を簡易的且つ高精度に測定可能にすることが可能となる。また、ノイズ付与部12により任意の機械学習モデルの頑健性を任意のノイズ条件でテストすることができる。また、推論結果群生成部15により正解データを有さない場合(教師なし)においても、頑健性測定部16にて、推論結果群に含まれる推論結果の統計情報から頑健性指標が測定可能となる。また、回帰および分類のいずれの推論処理に関しても、頑健性指標が測定可能となる。
【0059】
また、物体検出において重要となる過検出の指標を得ることが可能となる。検出結果の頑健性と別に、検出自体が過検出である可能性が示唆されることで、頑健性の低いデータを元に再学習する際に、物体検出の検出閾値を調整する、一定以上の過検出性を有する結果を学習に用いない等の方策がとれるようになる。また、教師データ(正解データ)を活用してより正確な頑健性測定が可能となる。
【0060】
<活用例>
上記のように測定された頑健性指標の用途として、信頼度としての活用が考えられる。ディープニューラルネットワーク(DNN:Deep neural Network)にベイズ推定等を組み合わせて結果の信頼度を出力する手法はよく用いられている。頑健性が高いということは信頼度が高いと考えられるため、信頼度出力を有さない機械学習モデルに対して頑健性計測を適用し、信頼度の代用をすることが可能である。また、信頼度出力を有する手法であっても、ベイズ推定による信頼度出力がどの程度実用的なノイズ耐性と相関を持つか、頑健性の計測結果と比較することも可能で、信頼度出力がどの程度信用できるかを測ることが可能となる。
【0061】
信頼度としての活用例として、1つ脆弱なデータを見つけた場合、その推論結果は信頼できない、と判断することが可能と考えられる。例えば、自動運転支援システム等の車載監視システムにおいてカメラ画像が信頼できない場合にはLiDAR等の他のセンサの検出結果を優先する等の方策を取ることが可能となる。このように、随時データが更新され、随時信頼性を計測する必要があるアプリケーションでは頑健性測定が有効となりうる。監視カメラで指名手配犯を追跡する、トラブルが起きているかを検出する等のAIを使用する際もこれに該当する。列車に搭載したカメラで線路内への不審物の侵入を撮影および検知するシステム等も該当する。
【0062】
一方で、リアルタイム性を有さず、後からデータを解析する際に特定のシーンが重要視される場合も同様に信頼度が活用できる。例えば、ドライブレコーダーで記録した事故映像等、事故の瞬間の数フレームのみに着目し、その画像上での物体検出結果が重要視される場合等が該当する。監視カメラも場合によっては後から解析する事例も考えられ、犯行現場を撮影した場合に後から現場検証する事例等が考えられ得る。また、スポーツの映像記録においては、得点を得たシーンやファウルのあったシーン等の特定のシーンに着目する必要があり、チームのプレイを振り返る際等には有効と考えられる。スポーツの事例ではリアルタイムに審判のアシストを行うシステムも考えられる。
【0063】
頑健性測定は信頼度としての活用の他、再学習のための活用が考えられる。頑健性測定の結果、脆弱と判定されたデータを集め、検査対象となっていた物体検出モデルを再学習することで、脆弱なデータに対してより頑健なモデルの構築が可能となる。脆弱と判定されたデータをそのまま活用するのではなく、クラスラベルの脆弱性に着目し、脆弱なデータが所属するクラスの追加学習を検討するという方策も可能である。例えば、検査した物体検出モデルが2輪車に弱いモデルと判断されたら、2輪車の写ったシーンを集めてきて再学習を行う、といった事例が考えられる。新規に学習データの取得が難しい場合には、学習データとテストデータの分割を調整し、2輪車の画像がより学習データに多く含まれるよう調整するといった対応も可能である。
【0064】
頑健性指標には検出物体領域(バウンダリーボックス)ごとの頑健性、画像ごとの頑健性の2通りが存在する。頑健性指標を信頼度として活用する場合は、バウンダリーボックスごとの頑健性を計測できればよい。一方で、再学習の観点では脆弱な画像を用いて再学習することから、画像ごとの頑健性を採用できる。ただし、再学習もカテゴリ追加の場合はバウンダリーボックスごとに情報を集め、脆弱ラベルを特定して使用する。
【0065】
また、物体検出は検出座標の回帰と検出クラスの分類の2種のタスクの複合と考えられるが、頑健性指標は回帰指標と分類指標の2通りが独立して算出可能である。検出した車両と3次元計測技術を組み合わせて車両位置や距離を推定し、自動運転に用いる例では、避けるべき障害物の位置が重要視されることから回帰指標を採用し、一方、監視カメラで指名手配犯を見つける場合等は検出結果の分類ラベルが重要視されると考えられ、アプリケーションに依存して採用すべき指標が変化するといえる。回帰と分類の両方を重視する場合は、回帰指標と分類指標の2種類の指標を線形結合する等して1つの頑健性指標に統合することも可能である。
【0066】
教師なしの例での疑似Precision、教師ありの例でのF値等、過検出指標は画像ごとの頑健性の一種として考える。データセット全体での過検出指標の平均を監視し、閾値を超えた場合には物体検出モデルの物体検出閾値を調整する等といった対応が可能となる。尚、これらの指標について、絶対的に頑健および脆弱を2値分類するためには頑健性指標の閾値を定める必要があり、これを定めるには複数のデータセットを使用し、検査対象のドメインでの閾値を定めるといった作業が必要になる。一方で、検査対象のデータセット内で頑健性指標を比較し、相対的に脆弱なデータ点を検出することは容易であり、例えば、頑健性指標の下位10%のデータを抽出して再学習するといった方策が可能となる。
【0067】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0068】
1,1A…頑健性測定装置、10…制御部、11…取得部、12…ノイズ付与部、13…画像入力部、14…推論結果取得部、15…推論結果群生成部、16…頑健性測定部、17…提供部、18…ノイズ重み設定部、20…記憶部、100…推論部、110…記憶部、T…端末装置、NW…通信ネットワーク,ID…推論装置