特表2023-541450 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧

特表2023-541450画像を分類し、分類のロバストネスにアクセスするための装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-10-02

(54)【発明の名称】画像を分類し、分類のロバストネスにアクセスするための装置及び方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20230925BHJP

G06V 10/82 20220101ALI20230925BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023516709

(86)(22)【出願日】2021-09-13

(85)【翻訳文提出日】2023-03-14

(86)【国際出願番号】 EP2021075029

(87)【国際公開番号】W WO2022058256

(87)【国際公開日】2022-03-24

(31)【優先権主張番号】20196113.3

(32)【優先日】2020-09-15

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ヤンヘンドリクメッツェン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA06

5L096BA13

5L096GA51

5L096HA11

5L096KA04

5L096MA07

(57)【要約】

入力画像（ｘ）の第１の分類（ｃ）を特徴付ける出力信号（ｙ）を複数のクラスのうちの１つのクラスへ決定するためのコンピュータ実装された方法であって、出力信号（ｙ）は、敵対的パッチを用いた攻撃に対する第１の分類（ｃ）のロバストネスについての第２の分類（ｒ）をさらに特徴付けており、出力信号（ｙ）の決定は、・それぞれ複数のクラスのうちの１つのクラスに対応しかつ複数の領域分類を有する、複数の第１のスコアマップ（Ｍ）を決定するステップであって、各領域分類は、画像の複数の領域のうちの１つの領域に関して当該領域がクラスに属するか否かを特徴付けている、ステップと、・複数の第１のクラススコアを決定するステップであって、当該複数の第１のクラススコアのうちの各第１のクラススコアは、複数のクラスのうちの１つのクラスに対応しかつクラスへの分類を特徴付ける、クラスに対応する第１のスコアマップの領域分類を集約することによって決定される、ステップと、・最大の第１のクラススコアに対応する第１のクラスに対応する第１のスコアマップの領域分類を変化させるために敵対的パッチが入力画像に適用された場合に取得可能な最小クラススコアである、第２のクラススコアを決定するステップと、・それぞれ第１のクラスとは異なるクラスに対応しかつクラスの第１のスコアマップの領域分類を変化させるために敵対的パッチが入力画像（ｘ）に適用された場合に取得可能な最大クラススコアである、複数の第３のクラススコアを決定するステップと、・第２のクラススコアが全ての第３のクラススコア以上である場合、出力信号（ｙ）が複数の第１のクラススコアに基づいて入力画像の第１の分類（ｃ）を特徴付け、かつ、出力信号（ｙ）が第１の分類についての第２の分類（ｒ）を敵対的パッチに対してロバストであると特徴付けるように、出力信号（ｙ）を決定するステップと、・第２のクラススコアが少なくとも１つの第３のクラススコアよりも小さい場合、出力信号（ｙ）が複数の第１のクラススコアに基づいて入力画像の第１の分類（ｃ）を特徴付け、かつ、出力信号（ｙ）が第１の分類についての第２の分類（ｒ）を敵対的パッチに対してロバストではないと特徴付けるように、出力信号（ｙ）を決定するステップと、を含む、方法である。

【特許請求の範囲】

【請求項1】

入力画像（ｘ）の第１の分類（ｃ）を特徴付ける出力信号（ｙ）を複数のクラスのうちの１つのクラスへ決定するためのコンピュータ実装された方法であって、前記出力信号（ｙ）は、敵対的パッチを用いた攻撃に対する前記第１の分類（ｃ）のロバストネスについての第２の分類（ｒ）をさらに特徴付けており、
前記出力信号（ｙ）の決定は、
・それぞれ複数のクラスのうちの１つのクラスに対応しかつ複数の領域分類を有する、複数の第１のスコアマップ（Ｍ）を決定するステップであって、各領域分類は、前記画像の複数の領域のうちの１つの領域に関して当該領域が前記クラスに属するか否かを特徴付けている、ステップと、
・複数の第１のクラススコアを決定するステップであって、前記複数の第１のクラススコアのうちの各第１のクラススコアは、前記複数のクラスのうちの１つのクラスに対応しかつ前記クラスへの分類を特徴付ける、前記クラスに対応する第１のスコアマップの領域分類を集約することによって決定される、ステップと、
・最大の第１のクラススコアに対応する第１のクラスに対応する第１のスコアマップの領域分類を変化させるために敵対的パッチが前記入力画像に適用された場合に取得可能な最小クラススコアである、第２のクラススコアを決定するステップと、
・それぞれ前記第１のクラスとは異なるクラスに対応しかつ前記クラスの第１のスコアマップの領域分類を変化させるために前記敵対的パッチが前記入力画像（ｘ）に適用された場合に取得可能な最大クラススコアである、複数の第３のクラススコアを決定するステップと、
・前記第２のクラススコアが全ての前記第３のクラススコア以上である場合、前記出力信号（ｙ）が前記複数の第１のクラススコアに基づいて前記入力画像の第１の分類（ｃ）を特徴付け、かつ、前記出力信号（ｙ）が前記第１の分類についての第２の分類（ｒ）を前記敵対的パッチに対してロバストであると特徴付けるように、前記出力信号（ｙ）を決定するステップと、
・前記第２のクラススコアが少なくとも１つの前記第３のクラススコアよりも小さい場合、前記出力信号（ｙ）が前記複数の第１のクラススコアに基づいて前記入力画像の第１の分類（ｃ）を特徴付け、かつ、前記出力信号（ｙ）が前記第１の分類についての第２の分類（ｒ）を前記敵対的パッチに対してロバストではないと特徴付けるように、前記出力信号（ｙ）を決定するステップと、
を含む、方法。

【請求項2】

スコアマップの集約は、前記スコアマップが対応するクラスの分類を特徴付ける領域分類の総和を決定することによって達成される、
請求項１に記載の方法。

【請求項3】

スコアマップの集約は、入力として前記スコアマップを受容しかつ出力としてクラススコアを提供するように構成されたニューラルネットワークによって達成され、
前記ニューラルネットワークは、正の重み及び非減少の活性化関数のみを含む、
請求項２に記載の方法。

【請求項4】

前記方法はさらに、前記ニューラルネットワークをトレーニングするステップを含み、
前記ニューラルネットワークをトレーニングするステップは、敵対的トレーニングによって達成される、
請求項２に記載の方法。

【請求項5】

前記第２のクラススコアを決定するステップにおいて、前記敵対的パッチが領域分類を前記最大の第１のクラススコアから変化させ得る場合、最大量を減算することによって前記第２のクラススコアを決定する、
請求項２に記載の方法。

【請求項6】

前記複数の第３のクラススコアを決定するステップにおいて、第３のクラススコアは、前記敵対的パッチが変化させ得る領域分類の最大量を第１のクラススコアに加算することによって決定される、
請求項２又は５に記載の方法。

【請求項7】

前記第２のクラススコアを決定するステップにおいて、前記第２のクラススコアを決定するステップは、
・前記最大の第１のクラススコアに対応するクラスに対する複数の第２のスコアマップを決定するステップであって、前記入力画像内の敵対的パッチの可能な各位置に対して第２のスコアマップを決定し、前記敵対的パッチが前記領域分類に対応する領域内へ延在する場合、各第２のスコアマップに対して前記クラスを特徴付けないように領域分類が決定される、ステップと、
・各第２のスコアマップを集約して複数の中間クラススコアを決定するステップと、
・前記複数の中間クラススコアから最小の中間クラススコアを第２のクラススコアとして提供するステップと、
を含む、
請求項１乃至４のいずれか一項に記載の方法。

【請求項8】

前記複数の第３のクラススコアを決定するステップにおいて、第３のクラススコアを決定するステップは、
・前記第３のクラススコアに対応するクラスに対する複数の第２のスコアマップを決定するステップであって、前記入力画像内の敵対的パッチの可能な各位置に対して第２のスコアマップを決定し、前記敵対的パッチが前記領域分類に対応する領域内へ延在する場合、各第２のスコアマップに対して前記クラスを特徴付けるように領域分類が決定される、ステップと、
・各第２のスコアマップを集約して複数の中間クラススコアを決定するステップと、
・前記複数の中間クラススコアから最大の中間クラススコアを第２のクラススコアとして提供するステップと、
を含む、
請求項１乃至３まで又は請求項７のいずれか１項に記載の方法。

【請求項9】

前記複数の第１のスコアマップ及び／又は前記複数の第２のスコアマップは、畳み込みニューラルネットワークによって決定される、
請求項１乃至８のいずれか一項に記載の方法。

【請求項10】

前記畳み込みニューラルネットワークは、前記入力画像（ｘ）についての前記畳み込みニューラルネットワークの出力層の出力を決定し、当該出力にヘヴィサイド関数を適用することによって、第１のスコアマップを決定する、
請求項９に記載の方法。

【請求項11】

前記方法はさらに、前記畳み込みニューラルネットワークをトレーニングするステップを含み、前記トレーニングするステップは、
・前記画像を前記畳み込みニューラルネットワークに提供することによって、トレーニング画像（ｘ_ｉ）に対する複数の第１のスコアマップを決定するステップと、
・以前に決定された複数のスコアマップからの各第１のスコアマップを集約することによって、複数の第１のクラススコアを決定するステップと、
・損失値

【数1】

を決定するステップであって、ここで、

【数2】

は、前記複数の第１のクラススコアのうちのｃ番目のクラススコアであり、ｍは、予め定められたマージンを特徴付ける値であり、

【数3】

は、前記トレーニング画像（ｘ_ｉ）の所望のクラスの第１のクラススコアである、ステップと、
・バックプロパゲーションを使用して前記畳み込みニューラルネットワークの複数のパラメータに関する勾配を決定するステップであって、前記畳み込みニューラルネットワークがヘヴィサイド関数を含む場合、前記ヘヴィサイド関数の勾配がシグモイド関数の勾配によって置換される、ステップと、
・前記勾配に従って前記畳み込みニューラルネットワークのパラメータを調整するステップと、
を含む、
請求項９又は１０に記載の方法。

【請求項12】

前記出力信号に従って装置（１０，１０ａ）を制御する、
請求項１乃至１１のいずれか一項に記載の方法。

【請求項13】

請求項１乃至１１のいずれか一項に記載の出力信号（ｙ）を決定するように構成された画像分類器（６０）であって、請求項９又は１０に記載の畳み込みニューラルネットワークと、請求項２乃至４のいずれか一項に記載のスコアマップの集約を決定するように構成された集約ユニットと、を備える画像分類器（６０）。

【請求項14】

コンピュータプログラムであって、プロセッサ（４５，１４５）によって実行されるときに、請求項１乃至１２のいずれか一項に記載の方法の全てのステップをコンピュータに実施させるために構成されているコンピュータプログラム。

【請求項15】

請求項１４に記載の前記コンピュータプログラムを記憶した機械可読記憶媒体（４６，１４６）。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像を分類するための方法、アクチュエータを動作させるための方法、コンピュータプログラム、機械可読記憶媒体、分類器、及び、トレーニングシステムに関する。

【背景技術】

【0002】

従来技術
Wieland Brendel, Matthias Bethge著、「Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet」（arXiv, 20.03.2019, https://arxiv.org/abs/1904.00760v1）には、画像パッチに基づいて画像を分類する画像分類器が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Wieland Brendel, Matthias Bethge著、「Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet」（arXiv, 20.03.2019, https://arxiv.org/abs/1904.00760v1）

【発明の概要】

【発明が解決しようとする課題】

【0004】

発明の利点
分類器は、敵対例として知られる、悪意を持って変更された入力データを誤分類する傾向がある。敵対例とは、特別な形式においてこの敵対例を形成するためにデータの制約領域において変更されたデータであり得る。例えば、画像の所定の領域に別の小さい画像がオーバーレイされることがあり、これにより、こうしたことがなければ画像を正しく分類できるはずの画像分類器が欺かれる。

【0005】

このようにして敵対例を作成することは、敵対的パッチ又はパッチに基づく敵対例の脅威モデルの使用として知られている。敵対的パッチは、分類器を使用する多くの現実世界のデバイスにとって大きい重要度を有する。

【0006】

例えば、環境を通過する車両がどの歩行者にも衝突することのない安全な経路を計算すべく、少なくとも部分的に自律的な車両の周囲環境における歩行者の位置を識別するために画像分類器を使用することができる。この例においては、画像分類器に少なくとも１人の歩行者を見落とさせるために、環境の一部又は少なくとも１人の歩行者自身に対して敵対的パッチが適用され得る。このことによって、車両は、誤検出された歩行者を通過する経路を決定する可能性があり、これにより、さらに車両の安全でない挙動が生じる可能性がある。

【0007】

したがって、敵対的パッチに対する分類器の保護についての要望が存在する。

【0008】

独立請求項１の特徴を有する方法の利点は、画像の分類に加えて、分類結果が敵対的パッチによる変更に対してロバストである確率が高いかどうかを当該方法が示すことである。これにより、分類が敵対的パッチに関して信頼できる程度に安全ではない可能性がある場合にも、このことを明確に高い信頼性で示すことができるため、分類性能が向上する。さらに、当該情報は、例えば、デバイスの周辺領域を分類するための方法を使用するデバイスの制御に使用することができる。例えば、ロバストではない分類が検出された場合、装置の動作を一時停止する又は人間のオペレータに引き渡すことができる。

【課題を解決するための手段】

【0009】

発明の開示
第１の態様においては、本発明は、入力画像の第１の分類を特徴付ける出力信号を複数のクラスのうちの１つのクラスへ決定するためのコンピュータ実装された方法であって、出力信号は、敵対的パッチを用いた攻撃に対する第１の分類のロバストネスについての第２の分類をさらに特徴付けており、
出力信号の決定は、
・それぞれ複数のクラスのうちの１つのクラスに対応しかつ複数の領域分類を有する、複数の第１のスコアマップを決定するステップであって、各領域分類は、画像の複数の領域のうちの１つの領域に関して当該領域がクラスに属するか否かを特徴付けている、ステップと、
・複数の第１のクラススコアを決定するステップであって、当該複数の第１のクラススコアのうちの各第１のクラススコアは、複数のクラスのうちの１つのクラスに対応しかつクラスへの分類を特徴付ける、クラスに対応する第１のスコアマップの領域分類を集約することによって決定される、ステップと、
・最大の第１のクラススコアに対応する第１のクラスに対応する第１のスコアマップの領域分類を変化させるために敵対的パッチが入力画像に適用された場合に取得可能な最小クラススコアである、第２のクラススコアを決定するステップと、
・それぞれ第１のクラスとは異なるクラスに対応しかつクラスの第１のスコアマップの領域分類を変化させるために敵対的パッチが入力画像に適用された場合に取得可能な最大クラススコアである、複数の第３のクラススコアを決定するステップと、
・第２のクラススコアが全ての第３のクラススコア以上である場合、出力信号が複数の第１のクラススコアに基づいて入力画像の第１の分類を特徴付け、かつ、出力信号が第１の分類についての第２の分類を敵対的パッチに対してロバストであると特徴付けるように、出力信号を決定するステップと、
・第２のクラススコアが少なくとも１つの第３のクラススコアよりも小さい場合、出力信号が複数の第１のクラススコアに基づいて入力画像の第１の分類を特徴付け、かつ、出力信号が第１の分類についての第２の分類を敵対的パッチに対してロバストではないと特徴付けるように、出力信号を決定するステップと、
を含む、方法に関する。

【0010】

入力画像は、例えば、センサ、例えば、カメラセンサ、ＬｉＤＡＲセンサ、レーダセンサ、超音波センサ又はサーマルカメラにより決定され得る。入力画像が前処理ステップを別の画像に適用した結果であること、例えば、別の画像のクロッピング及び／又はスケーリング及び／又は回転及び／又は色補正による結果であることも想定可能である。入力画像はまた、例えば仮想環境を画像内へレンダリングすることによるコンピュータシミュレーション結果であってもよい。また、入力画像がデジタル描画されたものであることも考えられ得る。さらに、入力画像が複数の画像の組合せ、例えば、複数の異なるセンサからの画像であることも考えられ得る。

【0011】

方法は、好ましくは、予め定められた種類の画像を受信し、方法の全てのステップに基づいて出力信号を提供するように構成された画像分類器によって実行され得る。

【0012】

入力画像は、敵対的パッチでオーバーレイされている可能性もある。敵対的パッチは、物理的な敵対的パッチの形態、即ち、入力画像が記録される現実世界に適用されたパッチの形態を有し得る。これは、例えば、対象物にステッカーを適用することによって達成され得る。選択的に、入力画像が記録された後、入力画像に敵対的パッチがオーバーレイされることもある。これは、例えば、入力画像のセンシングを担当するセンシングデバイスに攻撃者がアクセスし、センシングデバイスによるセンシングの後に入力画像を操作できるようになった場合に起こり得る。

【0013】

本発明の文脈においては、敵対的パッチは、入力画像の正しく分類されたクラスに対応するスコアマップの領域分類をフリップさせることを意図したものとして理解され得るものであり、ここで、フリップとは、敵対的パッチが画像に適用されなかった場合の領域分類の内容に対してスコアマップの領域分類を変化させることとして理解され得る。敵対的パッチを使用する攻撃者の目標は、入力画像に対して予測されることが望まれているクラスのスコアマップの領域分類をフリップさせ、これにより、スコアマップの集約クラススコアを他の集約クラススコアよりも低くすることによって画像が誤分類されるようにすることである。

【0014】

好ましくは、複数の第１のスコアマップからの各スコアマップは、畳み込みニューラルネットワークによって決定される。これは、畳み込みニューラルネットワークが現在のところ最高性能を有する画像分類器であるため、有利である。したがって、スコアマップが、スコアマップを決定するための畳み込みニューラルネットワークを使用して、分類の集合として理解可能となるので、最高の精度を有するスコアマップを取得することができる。

【0015】

スコアマップは、複数の領域のための領域分類の、画像への割り当てとして理解され得るものであり、ここで、スコアマップは、１つのクラスに対応し、各分類は、当該クラスに属する領域又は当該クラスに属さない領域のいずれかを示す。好ましくは、スコアマップは、予め定められた高さ及び幅の行列によって与えられる。行列の各要素は、領域分類として理解することができる。

【0016】

スコアマップが畳み込みニューラルネットワークから決定される場合、畳み込みニューラルネットワークから得られる行列の各要素、即ち、各領域分類は、入力画像の所定の領域に関連する。当該領域は、行列のそれぞれの要素の受容野としても知られている。当該領域は、好ましくは、入力画像の小さい下位部分である。受容野のサイズは、畳み込みニューラルネットワークのアーキテクチャによって制御可能である。

【0017】

スコアマップは、単一のクラススコアに集約することができ、ここで、当該クラススコアは、スコアマップに対応するクラスの非正規化確率として理解することができる。

【0018】

スコアマップは、入力画像に依存する。このことは、敵対的パッチを適用することのできる複数の領域のための複数の分類スコアとして考えることができる。

【0019】

スコアマップの集約は、スコアマップが対応するクラスの分類を特徴付けるスコアマップにおける領域分類の総和を決定することによって達成されると考えることができる。選択的に、スコアマップの集約は、入力としてスコアマップを受容しかつ出力としてクラススコアを提供するように構成されたニューラルネットワークによって達成することができ、ここで、ニューラルネットワークは、正の重み及び非減少の活性化関数のみを含む。

【0020】

集約の２つの方法について、利点は、集約の基礎となる数学的関数が非減少であることである。非減少である関数とは、次のように理解することができる。即ち、スコアマップにおける領域分類が、スコアマップに対応するクラスに属することを示す分類については１として、このクラスに属さないことを示す分類については０として与えられると仮定して、集約関数が、

【数1】

のとき、

【数2】

となることが当てはまるならば、非減少として理解され得る。ここで、

【数3】

は、スコアマップＭ^（１）の位置ｉ，ｊでの領域分類であり、

【数4】

は、スコアマップＭ^（２）の位置ｉ，ｊでの領域分類であり、ｇ（・）は、関数である。

【0021】

驚くべきことに、本発明者は、当該条件が当てはまる場合、即ち、集約関数が非減少である場合、複数の第１のクラススコアのうちの最大クラススコアに対応するクラスのスコアマップがフリップ不能となり、これにより、フリップされたスコアマップを集約して得られるクラススコアが、次の条件、即ち、

【数5】

が当てはまるときに、最大クラススコアよりも低いクラススコアに対応する入力画像に対する他のいずれかのフリップされたスコアマップを集約して得られるクラススコアよりも低くなることを見出した。ここで、

【数6】

は、最大スコアに対応するクラスｃ_ｔに対して取得されたスコアマップであり、このスコアマップの領域分類は、位置ｐに挿入された敵対的パッチを有する画像Ｘ^ｐに従ってフリップされており、Ｍ^ｃ（Ｘ^ｐ）は、クラスｃに対して取得されたスコアマップであり、このスコアマップの領域分類は、位置ｐに挿入された敵対的パッチを有する画像Ｘ^ｐに従ってフリップされている。

【0022】

このことは、他の第１のクラススコアを増加させながら、敵対的パッチによって最大の第１のクラススコアがどれだけ減少し得るかを決定することと理解され得る。他の第１のクラススコアの最大増分を下回るように最大の第１のクラススコアを減少させることが不可能である場合には、敵対的パッチは、出力信号によって特徴付けられる分類を変化させることができない。

【0023】

当該条件は、敵対的パッチの可能な各位置に対して新たなスコアマップを明示的に生成することの決定なしに、次のようにして評価することができる。即ち、各スコアマップを画像の領域に関連させる。所定の位置に敵対的パッチが配置された場合、最悪の結果をもたらし得ることは、領域分類が敵対的パッチに依存しているとき、最大の第１のクラススコアに対応するスコアマップの全ての領域分類が、スコアマップのクラスに属さない分類を特徴付けるようにフリップされることである。例えば、敵対的パッチが入力画像の領域内へ延在している場合、敵対的パッチは、当該領域に対するスコアマップの領域分類をフリップさせ得る。しかも、敵対的パッチは、実際に敵対的パッチによってオーバーレイされる領域に対応する領域分類のみをフリップさせることもある。

【0024】

スコアマップを集約するためにスコアマップの総和が用いられる場合、第２のクラススコアを決定するステップにおいて、敵対的パッチが領域分類を最大の第１のクラススコアから変化させ得る場合、最大量を減算することによって第２のクラススコアを決定することをさらに想定することができる。

【0025】

この場合、複数の第３のクラススコアを決定するステップにおいて、敵対的パッチが変化させ得る領域分類の最大量を第１のクラススコアに加算することによって第３のクラススコアを決定することも想定することができる。

【0026】

当該アプローチの利点は、敵対的パッチの全ての可能な位置を明示的に計算する必要がないことである。むしろ、当該アプローチは、敵対的パッチが変化させ得る領域分類の絶対量を決定し、この量を変化させることで分類に変化が生じる可能性があるかどうかを決定する。当該アプローチは、スコアマップを調整する必要がないので、要求される計算がかなり少ないが、第１のクラススコアから結果を直接に取得することができる。実際には、これにより、同量のリソース即ちエネルギを用いて、所与の時間にわたってより多くの画像が分類されるようになる。

【0027】

スコアマップを集約するためにニューラルネットワークが使用される場合、出力信号を決定するための方法は、ニューラルネットワークをトレーニングすることをさらに含み、ニューラルネットワークをトレーニングすることが敵対的トレーニングによって達成されることがさらに想定され得る。

【0028】

例えば、入力画像から第１のスコアマップを決定するための固定の畳み込みニューラルネットワークが与えられると、集約のためのニューラルネットワークを、以下のステップを含むステップによりトレーニングすることができる、即ち、
・トレーニング画像を決定するステップと、
・ランダムに決定された位置で、敵対的パッチを用いてトレーニング画像をオーバーレイするステップと、
・入力画像に対する複数の第１のスコアマップを決定するステップと、
・ニューラルネットワークによりスコアマップを複数のクラススコアに集約するステップと、
・決定されたクラススコアと複数の所望のクラススコアとの間の差を特徴付ける損失値を決定するステップと、
・ニューラルネットワークの複数のパラメータに関する損失値の勾配を決定するステップと、
・勾配に基づいてニューラルネットワークのパラメータを更新するステップと、
を含むステップによりトレーニングすることができる。

【0029】

損失関数として、マージン損失

【数7】

を使用することができ、ここで、

【数8】

は、決定された複数のクラススコアのうちのｃ番目のクラススコアであり、ｍは、予め定められたマージンを特徴付ける値であり、

【数9】

は、トレーニング画像の所望のクラスの第１のクラススコアである。

【0030】

ニューラルネットワークの複数のパラメータは、ニューラルネットワークの重みの少なくとも一部、及び／又は、ニューラルネットワークのバイアスの少なくとも一部、及び／又は、例えば正規化層で使用される正規化パラメータを含み得る。

【0031】

さらに、第２のクラススコアを決定するステップにおいて、第２のクラススコアを決定するステップは、
・最大の第１のクラススコアに対応するクラスに対する複数の第２のスコアマップを決定するステップであって、入力画像内の敵対的パッチの可能な各位置に対して第２のスコアマップを決定し、ここで、敵対的パッチが領域分類に対応する領域内へ延在する場合、各第２のスコアマップに対してクラスを特徴付けないように領域分類が決定される、ステップと、
・各第２のスコアマップを集約して複数の中間クラススコアを決定するステップと、
・複数の中間クラススコアから最小の中間クラススコアを第２のクラススコアとして提供するステップと、
を含むことが想定可能である。

【0032】

さらに、複数の第３のクラススコアを決定するステップにおいて、第３のクラススコアを決定するステップは、
・第３のクラススコアに対応するクラスに対する複数の第２のスコアマップを決定するステップであって、入力画像内の敵対的パッチの可能な各位置に対して第２のスコアマップを決定し、ここで、敵対的パッチが領域分類に対応する領域内へ延在する場合、各第２のスコアマップに対してクラスを特徴付けるように領域分類が決定される、ステップと、
・各第２のスコアマップを集約して複数の中間クラススコアを決定するステップと、
・複数の中間クラススコアから最大の中間クラススコアを第２のクラススコアとして提供するステップと、
を含むことが想定可能である。

【0033】

当該アプローチの利点は、フリップ可能な領域分類の実際の量が決定されることである。このようにして、分類のロバストネスを決定するためのよりタイトな境界を決定することができ、即ち、最大の第１のクラススコアと他の全ての第１のクラススコアとの差が敵対的パッチによりフリップされ得る領域分類の最大量の２倍よりも小さい場合でも、第１の分類をロバストであると分類することができる。

【0034】

さらに、複数の第１のスコアマップ及び／又は複数の第２のスコアマップが畳み込みニューラルネットワークによって決定されることが想定可能である。

【0035】

畳み込みニューラルネットワークを使用する利点は、畳み込みニューラルネットワークが現在のところ画像を分類するための最高の精度を有する画像分類器であることである。複数の第１のスコアマップ及び／又は複数の第２のスコアマップの取得は画像分類として理解可能であるので、畳み込みニューラルネットワークをこうしたタスクに使用することにより、最高の分類精度が可能となる。

【0036】

好ましくは、畳み込みニューラルネットワークは、入力画像（ｘ）について畳み込みニューラルネットワークの出力層の出力を決定し、この出力にヘヴィサイド関数を適用することによって、第１のスコアマップを決定する。

【0037】

好ましくは、方法はさらに、畳み込みニューラルネットワークをトレーニングするステップを含み、当該トレーニングするステップは、
・画像を畳み込みニューラルネットワークに提供することによって、トレーニング画像に対する複数の第１のスコアマップを決定するステップと、
・以前に決定された複数のスコアマップからそれぞれ第１のスコアマップを集約することによって、複数の第１のクラススコアを決定するステップと、
・損失値

【数10】

を決定するステップであって、ここで、

【数11】

は、複数の第１のクラススコアのうちのｃ番目のクラススコアであり、ｍは、予め定められたマージンを特徴付ける値であり、

【数12】

は、トレーニング画像（ｘ_ｉ）の所望のクラスの第１のクラススコアである、ステップと、
・バックプロパゲーションを使用して畳み込みニューラルネットワークの複数のパラメータに関する勾配を決定するステップであって、畳み込みニューラルネットワークがヘヴィサイド関数を含む場合、ヘヴィサイド関数の勾配をシグモイド関数の勾配によって置換する、ステップと、
・勾配に従って畳み込みニューラルネットワークのパラメータを調整するステップと、
を含む。

【0038】

畳み込みニューラルネットワークの複数のパラメータは、ニューラルネットワークの重みの少なくとも一部、及び／又は、ニューラルネットワークのバイアスの少なくとも一部、及び／又は、例えばバッチノルム層において使用される正規化パラメータを含み得る。

【0039】

このように畳み込みニューラルネットワークをトレーニングすることは、集約の際に最大の第１のクラススコアと２番目に大きい第１のクラススコアとの間に最大可能マージンを有するスコアマップを予測するための畳み込みニューラルネットワーク学習であると理解することができる。したがって、これは、有利には、敵対的パッチを用いた攻撃に対してロバストとするための学習である。

【0040】

マージンは、敵対的パッチによってフリップされ得る領域分類の最大量に従って選択することができる。このようにして、畳み込みニューラルネットワークは、敵対的パッチがどのような手段を用いてもフリップ不能となるはずの値を一旦通過すれば、最大の第１のクラススコアを増加させる必要がなくなる。これにより、有利には学習問題が緩和され、トレーニング時間の短縮が可能となる。したがって、同量のリソース、即ち、同量のトレーニング時間が与えられれば、提案しているアプローチは、より多くの画像を用いて畳み込みニューラルネットワークをトレーニングできるので、性能が向上する。

【0041】

本発明の実施形態について、以下の図を参照してより詳細に説明する。

【図面の簡単な説明】

【0042】

【図1】画像分類器を示す図である。

【図2】アクチュエータをその環境内で制御する、画像分類器を含む制御システムを示す図である。

【図3】少なくとも部分的に自律的なロボットを制御する制御システムを示す図である。

【図4】自動パーソナルアシスタントを制御する制御システムを示す図である。

【図5】医用分析システムを制御する制御システムを示す図である。

【図6】画像分類器をトレーニングするためのトレーニングシステムを示す図である。

【発明を実施するための形態】

【0043】

実施形態の説明
図１に示されているのは、入力画像（ｘ）の第１の分類（ｃ）と、この第１の分類（ｃ）のロバストネスを特徴付ける第２の分類（ｒ）とを決定する画像分類器６０の一実施形態である。

【0044】

画像分類器（６０）は、スコアマップユニット（６１）において入力画像（ｘ）を受け取る。スコアマップユニット（６１）は、入力画像（ｘ）から複数のスコアマップ（Ｍ）を決定するように構成されている。好ましくは、スコアマップユニット（６１）は、入力画像（ｘ）を入力として取得しかつ複数のスコアマップ（Ｍ）を提供する畳み込みニューラルネットワークを含む。このために、ニューラルネットワークは、複数のスコアマップ（Ｍ）を表現するテンソルを提供するように構成することができ、ここで、当該テンソルは、予め定められた高さ、幅及び深さを有する。深さ次元に沿ったテンソルの各行列は、複数のスコアマップのうちの１つのスコアマップを表現することができ、この場合、各次元は特定のクラスに対応する。換言すれば、テンソルの深さ次元に沿った各行列は、特定のクラスのスコアマップを表現することができる。テンソル（Ｍ）は、０又は１であり得る領域分類（即ち、テンソル（Ｍ）の要素）を含む。０は、領域分類が属するスコアマップに対応するクラスに属さないものとして領域分類が領域を特徴付けることを示し得る。同様に、１は、領域分類が属するスコアマップに対応するクラスに属するものとして領域分類が領域を特徴付けることを示し得る。換言すれば、テンソル（Ｍ）を、０及び１のテンソルとすることができる。他の実施形態においては、当該二分分類は、例えばバイナリ変数（真又は偽）としての他の２つの値によっても表現され得る。さらに他の実施形態においては、テンソル（Ｍ）は、０から１までの区間（０及び１を含む）の値、例えば確率値も含み得る。

【0045】

好ましくは、テンソルを提供する畳み込みニューラルネットワークの出力層の受容野は、入力画像（ｘ）の小さい領域を包含する。例えば、畳み込みニューラルネットワークは、最終層が入力画像（ｘ）内に９×９ピクセル、１７×１７ピクセル又は３３×３３ピクセルの受容野を有するように選択され得る。

【0046】

好ましくは、畳み込みニューラルネットワークは、スコアマップ（Ｍ）のテンソルを提供する出力層における活性化関数としてのヘヴィサイド関数を含む。このように、テンソル（Ｍ）は、０及び１のみを含む。他の実施形態においては、出力層において異なる活性化が使用されること又は活性化が使用されないこと、及び、テンソル又はスコアマップ（Ｍ）を決定するために出力層の結果が予め定められた閾値と比較されることが想定され得る。

【0047】

次いで、テンソル（Ｍ）が、テンソル（Ｍ）のスコアマップを集約する分類ユニット（６３）に転送される。実施形態においては、分類ユニット（６３）は、テンソルの深さに沿って各行列の要素を合計することによって、即ち、テンソル（Ｍ）における各スコアマップの総和を決定することによって、集約を行う。結果は、複数の第１のクラススコア（ｃ）である。第１のクラススコア（ｃ）は、入力画像（ｘ）の第１の分類を特徴付けるものとして理解され得る。他の実施形態においては、スコアマップの合計に代えて、テンソル（Ｍ）を入力として取得しかつ複数の第１のクラススコア（ｃ）を提供する第２の畳み込みニューラルネットワークが使用されると考えることができる。当該他の実施形態においては、第２の畳み込みニューラルネットワークが非減少関数に類似するように構成されている。これは、第２の畳み込みニューラルネットワークが、活性化関数として非減少関数のみを使用し、正の重みのみを含むことを意味する。

【0048】

テンソル（Ｍ）はまた、ロバストネスユニット（６２）にも転送される。ロバストネスユニット（６２）は、敵対的パッチが入力画像（ｘ）に適用された場合に、第１のクラススコア（ｃ）によって特徴付けられる分類が変化し得るか否かを判定するように構成されている。ここで、敵対的パッチを入力画像（ｘ）に適用することは、敵対的パッチを入力画像（ｘ）にオーバーレイすることによって入力画像（ｘ）を直接に変化させることとして理解することができる。選択的に、敵対的パッチを入力画像（ｘ）に適用することは、入力画像（ｘ）がセンシングされるシーンに敵対的パッチを適用することとして理解することもできる。

【0049】

ロバストネスユニット（６２）は、テンソル（Ｍ）を入力とし、複数の第１のクラススコア（ｃ）のロバストネス分類（ｒ）を提供する。このために、ロバストネスユニットは、敵対的パッチが変化させ得る領域分類の最大量を決定する。実施形態においては、これは、敵対的パッチが変化させ得るスコアマップの領域分類の量を決定することによって達成される。各領域分類は入力画像（ｘ）の１つの領域のみに依存しているので、敵対的パッチは、当該領域内へ延在している又は当該領域を覆っている場合にのみ、領域分類を変化させ得る。したがって、敵対的パッチが変化させ得るスコアマップの領域分類の最大量は、敵対的パッチが入力画像（ｘ）において覆うことのできる又はその内部へ延在することのできる領域の量に等しい。当該量を取得すると、ロバストネスユニット（６２）は、複数の第１のクラススコア（ｃ）のうちの最大の第１のクラススコアが複数の第１のクラススコア（ｃ）のうちの２番目に大きい第１のクラススコアの総和以上でありかつ最大量の２倍以上である場合に第１の分類をロバストであると分類する、第２の分類（ｒ）を決定する。複数の第１のクラススコア（ｃ）のうちの最大の第１のクラススコアが複数の第１のクラススコア（ｃ）のうちの２番目に大きい第１のクラススコアの総和より小さくかつ最大量の２倍より小さい場合、第２の分類（ｒ）は、第１の分類をロバストでないと特徴付けるように決定される。

【0050】

この場合、複数の第１のクラススコア（ｃ）及びロバストネス分類（ｒ）は、画像分類器（６０）の出力信号（ｙ）として提供することができる。他の実施形態においては、画像分類器（６０）の任意選択手段としての変換ユニット（６４）が第１のクラススコア（ｃ）及び／又はロバストネス分類（ｒ）を処理し、その結果を出力信号（ｙ）として出力することができる。例えば、複数のクラススコア（ｃ）の代わりに、最大のクラススコアに対応するクラスがロバストネス分類（ｒ）と共に出力信号（ｙ）において提供されることが想定可能である。選択的に、ロバストネス分類（ｒ）がロバストな分類を特徴付けている場合、変換ユニットが出力信号（ｙ）として複数の第１のクラススコア（ｃ）又はクラスを提供するものとしてもよい。この場合、ロバストネス分類（ｒ）がロバストでない分類を特徴付け、出力信号（ｙ）が決定的な分類結果を特徴付けないように設定することもできる。これは、例えば、出力信号（ｙ）が拒絶された分類を特徴付けるように設定される形態で行われ得る。

【0051】

図２に示されているのは、環境（２０）内のアクチュエータ（１０）の一実施形態である。アクチュエータ（１０）は制御システム（４０）と相互作用する。アクチュエータ（１０）とその環境（２０）とを合わせてアクチュエータシステムと称する。好ましくは、等間隔の時点で、センサ（３０）がアクチュエータシステムの状態をセンシングする。センサ（３０）は、複数のセンサを含むものとしてよい。好ましくは、センサ（３０）は、環境（２０）を撮像する光学センサである。センシングされた状況を符号化したセンサ（３０）の出力信号（Ｓ）（又は、センサ（３０）が複数のセンサを含む場合にはセンサそれぞれの出力信号（Ｓ））が、制御システム（４０）へ送信される。

【0052】

これにより、制御システム（４０）は、センサ信号（Ｓ）のストリームを受信する。この場合、制御システムは、センサ信号（Ｓ）のストリームに依存して一連のアクチュエータ制御コマンド（Ａ）を計算し、次いで、この制御コマンドがアクチュエータ（１０）へ送信される。

【0053】

制御システム（４０）は、センサ（３０）のセンサ信号（Ｓ）のストリームを任意選択手段としての受信ユニット（５０）で受信する。受信ユニット（５０）は、センサ信号（Ｓ）を入力画像（ｘ）へ変換する。選択的に、受信ユニット（５０）が設けられていない場合、各センサ信号（Ｓ）が入力画像（ｘ）として直接に取り込まれるものとしてもよい。入力画像（ｘ）は、例えばセンサ信号（Ｓ）の抜粋として与えられ得る。選択的に、入力画像（ｘ）を形成するためにセンサ信号（Ｓ）を処理するものとしてもよい。入力画像（ｘ）は、センサ（３０）によって記録された画像に対応する画像データを含む。換言すれば、入力画像（ｘ）は、センサ信号（Ｓ）に従って提供される。

【0054】

入力画像（ｘ）は、次いで、画像分類器（６０）に渡される。

【0055】

画像分類器（６０）は、パラメータ記憶装置（Ｓｔ_１）に記憶されていて提供されるパラメータ（φ）によってパラメータ化されている。

【0056】

画像分類器（６０）は、入力画像（ｘ）から出力信号（ｙ）を決定する。出力信号（ｙ）は、入力画像（ｘ）に１つ又は複数のラベルを割り当てるための情報を含む。出力信号（ｙ）は、任意選択手段としての変換ユニット（８０）へ送信され、この変換ユニット（８０）が出力信号（ｙ）を制御コマンド（Ａ）に変換する。次いで、アクチュエータ制御コマンド（Ａ）は、これに従ってアクチュエータ（１０）を制御するためにアクチュエータ（１０）へ送信される。選択的に、出力信号（ｙ）がアクチュエータ制御コマンド（Ａ）として直接に取り込まれるものとしてもよい。

【0057】

アクチュエータ（１０）は、アクチュエータ制御コマンド（Ａ）を受信し、これに従って制御され、アクチュエータ制御コマンド（Ａ）に対応する動作を実行する。アクチュエータ（１０）がアクチュエータ制御コマンド（Ａ）をさらなる制御コマンドに変換する制御ロジックを有し、この制御ロジックがアクチュエータ（１０）を制御するために使用されるものとしてもよい。

【0058】

他の実施形態においては、制御システム（４０）がセンサ（３０）を備えるものとしてもよい。さらに他の実施形態においては、制御システム（４０）が選択的に又は付加的にアクチュエータ（１０）を備えるものとしてもよい。

【0059】

他の実施形態においては、制御システム（４０）が、アクチュエータ（１０）に代えて又はこれに加えてディスプレイ（１０ａ）を制御することを想定することができる。ディスプレイは、例えば、出力信号（ｙ）によって特徴付けられる分類を表示することができ、及び／又は、分類がロバストであるかどうかを表示することができる。

【0060】

さらに、制御システム（４０）は、プロセッサ（４５）（又は複数のプロセッサ）と、実行される際に本発明の一態様による方法を制御システム（４０）に実行させるための命令を記憶した少なくとも１つの機械可読記憶媒体（４６）とを備え得る。

【0061】

図３は、少なくとも部分的に自律的なロボット、例えば少なくとも部分的に自律的な車両（１００）を制御するために制御システム（４０）が使用される実施形態を示している。

【0062】

センサ（３０）は、１つ又は複数のビデオセンサ、及び／又は、１つ又は複数のレーダセンサ、及び／又は、１つ又は複数の超音波センサ、及び／又は、１つ又は複数のＬｉＤＡＲセンサ、及び／又は、１つ又は複数の（例えば、ＧＰＳのような）位置センサを含み得る。これらのセンサの一部又は全部は、必須ではないが、好ましくは車両（１００）に搭載されている。選択的に又は付加的に、センサ（３０）は、アクチュエータシステムの状態を判別するための情報システムを含むものとしてもよい。このような情報システムの一例は、環境（２０）における現在又は将来の天候状態を判別する天候情報システムである。

【0063】

画像分類器（６０）は、車両の自動運転を許可すべきかどうかを判定するために、車両が現在市街地の環境に位置しているのか、郊外の環境に位置しているのか、又は、高速道路上に位置しているのかを識別するように構成され得る。例えば、車両の自動運転が許可されるのは車両が高速道路上に位置する場合のみであると想定することができる。さらに、「高速道路上」との環境の分類に加えて、画像分類器（６０）の出力信号（ｙ）がロバストな分類、即ち、敵対的パッチによって変更され得ない分類を示す場合にのみ自動運転がイネーブルとなることを想定することができる。

【0064】

好ましくは、車両（１００）に組み込まれたアクチュエータ（１０）は、車両１００のブレーキ、推進システム、エンジン、ドライブトレイン又はステアリング部によって与えられ得る。車両（１００）と検出された対象物との衝突が回避されるようにアクチュエータ（又は複数のアクチュエータ）（１０）を制御すべく、アクチュエータ制御コマンド（Ａ）を決定することができる。検出された対象物は、分類器（６０）が最も可能性が高いと判断したもの、例えば歩行者又は樹木に従って分類可能であり、この分類に応じてアクチュエータ制御コマンド（Ａ）が決定され得る。

【0065】

他の実施形態においては、少なくとも部分的に自律的なロボットが、例えば飛行、泳行、潜行又は歩行によって移動可能な他の移動ロボット（図示せず）によって与えられ得る。当該移動ロボットは、特に、少なくとも部分的に自律的な芝刈り機、又は、少なくとも部分的に自律的な掃除ロボットであり得る。上記の実施形態の全てにおいて、移動ロボットと前記識別された対象物との衝突が回避可能となるように、移動ロボットの推進ユニット及び／又はステアリング部及び／又はブレーキを制御すべく、アクチュエータコマンド制御（Ａ）を決定することができる。

【0066】

図４に示されているのは、自動パーソナルアシスタント（２５０）を制御するために制御システム（４０）が使用される実施形態である。センサ（３０）は、例えば、ユーザ（２４９）のジェスチャのビデオ画像を受信する光学センサであり得る。選択的に、センサ（３０）は、例えばユーザ（２４９）の音声コマンドを受信する音響センサであってもよい。

【0067】

制御システム（４０）は、この場合、自動パーソナルアシスタント（２５０）を制御するためのアクチュエータ制御コマンド（Ａ）を決定する。アクチュエータ制御コマンド（Ａ）は、センサ（３０）のセンサ信号（Ｓ）に従って決定される。センサ信号（Ｓ）は、制御システム（４０）へ送信される。例えば、画像分類器（６０）は、例えばユーザ（２４９）の少なくとも１つの画像に基づいてジェスチャ認識を実行するように構成可能である。制御システム（４０）は、次いで、自動パーソナルアシスタント（２５０）に送信するためのアクチュエータ制御コマンド（Ａ）を決定することができる。次いで、制御システムが、アクチュエータ制御コマンド（Ａ）を自動パーソナルアシスタント（２５０）へ送信する。

【0068】

例えば、アクチュエータ制御コマンド（Ａ）は、画像分類器（６０）によって認識され識別されたユーザジェスチャに従って決定され得る。当該制御コマンド（Ａ）は、自動パーソナルアシスタント（２５０）にデータベースから情報を取得させ、当該取得させた情報をユーザ（２４９）による受信に適した形態で出力させるための情報を含み得る。

【0069】

他の実施形態においては、制御システム（４０）が、自動パーソナルアシスタント（２５０）でなく、識別されたユーザジェスチャに従って制御される家電装置（図示せず）を制御することが想定され得る。家電装置は、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗い機であってよい。

【0070】

図５には、制御システム（４０）によって制御される医用分析システム（６００）の一実施形態が示されている。医用分析システム（６００）にはマイクロアレイ（６０１）が設けられており、このマイクロアレイは医用試料に対して露出された複数のスポット（６０２、フィーチャとしても知られる）を含む。医用試料は、例えば、ヒト試料であってよく、又は、例えば、スワブから得られた動物試料であってもよい。

【0071】

マイクロアレイ（６０１）は、ＤＮＡマイクロアレイ又はタンパク質マイクロアレイであるものとしてよい。

【0072】

センサ（３０）は、マイクロアレイ（６０１）をセンシングするように構成されている。センサ（３０）は、好ましくはビデオセンサなどの光学センサである。

【0073】

画像分類器（６０）は、センサ（３０）によって供給されたマイクロアレイの入力画像（ｘ）に基づいて試料の結果を分類するように構成されている。特に、画像分類器（６０）は、マイクロアレイ（６０１）が試料中のウイルスの存在を示すかどうかを判定するように構成され得る。

【0074】

この場合、制御信号（Ａ）は、ディスプレイ（１０ａ）が分類の結果を示すように選択され得る。

【0075】

図６は、トレーニングデータセット（Ｔ）を用いて制御システム（４０）の画像分類器（６０）をトレーニングするためのトレーニングシステム（１４０）の一実施形態を示している。トレーニングデータセット（Ｔ）は、分類器（６０）のトレーニングに使用される複数の入力画像（ｘ_ｉ）を含み、ここで、トレーニングデータセット（Ｔ）はさらに、各入力画像（ｘ_ｉ）に対して当該入力画像（ｘ_ｉ）に対応しかつ当該入力画像（ｘ_ｉ）の所望の分類を特徴付ける所望の出力信号（ｙ_ｉ）を含む。

【0076】

トレーニングのために、トレーニングデータユニット（１５０）は、トレーニングデータセット（Ｔ）を提供するコンピュータ実装データベース（Ｓｔ_２）にアクセスする。トレーニングデータユニット（１５０）は、トレーニングデータセット（Ｔ）から、好ましくはランダムに少なくとも１つの入力画像（ｘ_ｉ）及び当該入力画像（ｘ_ｉ）に対応する所望の出力信号（ｙ_ｉ）を決定し、当該入力画像（ｘ_ｉ）を画像分類器（６０）へ送信する。画像分類器（６０）は、入力画像（ｘ_ｉ）に対して取得された少なくとも複数の第１のクラススコアを含む入力画像（ｘ_ｉ）に基づいて、出力信号

【数13】

を決定する。

【0077】

所望の出力信号（ｙ_ｉ）と、決定された出力信号

【数14】

とが修正ユニット（１８０）へ送信される。

【0078】

所望の出力信号（ｙ_ｉ）と、決定された出力信号

【数15】

とに基づいて、修正ユニット（１８０）が、画像分類器（６０）のための新たなパラメータ（Φ’）を決定する。この目的で、修正ユニット（１８０）は、所望の出力信号（ｙ_ｉ）と、決定された出力信号

【数16】

とを、損失関数を用いて比較する。損失関数は、決定された出力信号

【数17】

が所望の出力信号（ｙ_ｉ）からどれだけ偏差しているかを特徴付ける第１の損失値を決定する。所与の実施形態においては、マージン損失

【数18】

が損失関数として使用され、ここで、

【数19】

は、画像分類器（６０）から決定された複数の第１のクラススコアのうちのｃ番目のクラススコアであり、ｍは、予め定められたマージンを特徴付ける値であり、

【数20】

は、トレーニング画像（ｘ_ｉ）の所望のクラスの第１のクラススコアである。

【0079】

他の実施形態においては、他の損失関数、特にマルチクラス分類のための既知の損失関数、例えば多項交差エントロピー損失が使用され得る。

【0080】

修正ユニット（１８０）は、第１の損失値に基づいて新たなパラメータ（Φ’）を決定する。所与の実施形態においては、これは、勾配降下法、好ましくは確率的勾配降下法、Ａｄａｍ又はＡｄａｍＷを使用して行われる。画像分類器（６０）がヘヴィサイド関数を含む場合、ヘヴィサイド関数の勾配がシグモイド関数の勾配に置換される。

【0081】

他の好ましい実施形態においては、説明しているトレーニングは、予め定められた反復ステップ数だけ反復的に繰り返され、又は、第１の損失値が予め定められた閾値を下回るまで反復的に繰り返される。選択的に又は付加的に、テスト又は検証データセットに関する第１の平均損失値が予め定められた閾値を下回ったときにトレーニングが終了されることも考えられる。反復のうちの少なくとも１回において、先行の反復において決定された新たなパラメータ（Φ’）が分類器６０のパラメータ（Φ）として使用される。

【0082】

この実施形態においては、更新される画像分類器（６０）のパラメータ（Φ）は、画像分類器（６０）の畳み込みニューラルネットワークのトレーニング可能なパラメータである。他の実施形態においては、画像分類器（６０）は第２の畳み込みニューラルネットワークを含み得るものであり、この第２の畳み込みニューラルネットワークのパラメータは、畳み込みニューラルネットワークのパラメータに加えて又はこれに代えて、画像分類器（６０）の更新されるパラメータにも属し得る。

【0083】

さらに、トレーニングシステム（１４０）は、少なくとも１つのプロセッサ（１４５）と、プロセッサ（１４５）によって実行されるときに、本発明の態様のうちの１つによるトレーニング方法をトレーニングシステム（１４０）に実施させるための命令を含む少なくとも１つの機械可読記憶媒体（１４６）と、を備え得る。

【0084】

用語「コンピュータ」は、予め定められた計算規則を処理するための任意のデバイスを包含するものと理解され得る。これらの計算規則は、ソフトウェア、ハードウェア、又は、ソフトウェアとハードウェアとの混合形態であってよい。

【0085】

一般的には、複数性はインデクス付けによるものであり、即ち、好ましくは連続する整数を複数の要素に含まれる要素に割り当てることによって複数の要素の各要素に一意のインデクスが割り当てられることと理解することができる。好ましくは、複数の要素がＮ個の要素を有し、ここでＮが複数の要素における要素の数である場合、これらの要素に１乃至Ｎの整数が割り当てられる。複数の要素はこうしたインデクスによってアクセス可能であることがさらに理解されるであろう。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版