(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023031291
(43)【公開日】2023-03-08
(54)【発明の名称】画像の物体検出部を特定するための方法及び装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20230301BHJP
G06N 20/10 20190101ALI20230301BHJP
【FI】
G06N20/00 130
G06N20/10
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022131584
(22)【出願日】2022-08-22
(31)【優先権主張番号】10 2021 209 212.8
(32)【優先日】2021-08-23
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ダニエル ポトツキー
(57)【要約】
【課題】画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法(100)に関する。
【解決手段】当該方法は、a.画像に関して複数の物体検出部を特定するステップ(101)と、b.複数の物体検出部に基づいてグラフを特定するステップ(102)であって、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ2つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる、ステップ(102)と、c.密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてグラフのクラスタを特定するステップ(103)と、d.クラスタに基づいて1つの物体検出部を特定し、出力信号において当該物体検出部を提供するステップ(104)と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法(100)であって、
a.前記画像に関して複数の物体検出部を特定するステップ(101)と、
b.前記複数の物体検出部に基づいてグラフを特定するステップ(102)であって、前記複数の物体検出部における物体検出部は、前記グラフのノードによって特徴付けられ、それぞれ2つの物体検出部の間の重なりは、前記グラフのエッジによって特徴付けられる、ステップ(102)と、
c.密度に基づくクラスタ分析法を用いて、前記グラフの前記ノード及び前記エッジに基づいて前記グラフのクラスタを特定するステップ(103)と、
d.前記クラスタに基づいて1つの物体検出部を特定し、前記出力信号において当該物体検出部を提供するステップ(104)と、
を含む方法(100)。
【請求項2】
前記クラスタ分析法は、前記クラスタの密度尺度に基づいて、かつ、前記クラスタの接続尺度に基づいて実施される、
請求項1に記載の方法(100)。
【請求項3】
前記クラスタ分析法は、
e.前記グラフ内のそれぞれの前記ノードのエッジの重みの合計に基づいて開始ノードを特定し、前記開始ノードを前記クラスタのノードとして提供するステップ(103a)と、
f.前記クラスタに含まれておらず、かつ、前記クラスタとの接続が最大である、前記グラフのノードを特定するステップ(103b)と、
g.前記ノードの追加によってそのノードの分だけ拡張された前記クラスタの密度尺度が、所定の第1の閾値を下回らない場合であって、かつ、前記追加によって当該ノードの分だけ拡張された前記クラスタの接続尺度が、所定の第2の閾値を下回らない場合に、当該ノードを前記クラスタに追加するステップ(103c)と、
h.そうでない場合には、前記クラスタを、特定されたクラスタとして提供するステップ(103d)と、
を含む、請求項2に記載の方法(100)。
【請求項4】
前記ステップf.において反復的にノードが特定され、前記ステップg.の条件のうちの少なくとも一方がもはや満たされなくなるまで、当該ノードが前記クラスタに追加され、
前記少なくとも一方の条件がもはや満たされていない場合には、前記クラスタが提供され、前記クラスタの前記ノードが前記グラフから除去される、
請求項3に記載の方法(100)。
【請求項5】
前記ステップe.乃至ステップh.は、前記グラフ内にもはやノードが含まれなくなるまで反復的に繰り返される、
請求項4に記載の方法(100)。
【請求項6】
前記クラスタに基づいて特定された前記物体検出部は、前記クラスタが前記開始ノードのみからなる場合には、前記出力信号において提供されない、
請求項4又は5に記載の方法(100)。
【請求項7】
前記複数の物体検出部は、前記画像の複数の異なる前処理に基づいて特定される、
請求項1乃至6のいずれか一項に記載の方法(100)。
【請求項8】
前記グラフは、物体検出部のクラスに関して特定される、
請求項1乃至7のいずれか一項に記載の方法(100)。
【請求項9】
機械学習システム(60)を訓練するためのコンピュータ実装された方法であって、
i.請求項1乃至8のいずれか一項に記載の方法によって、画像(xi)に関する出力信号(ti)を特定するステップと、
j.前記機械学習システム(60)を訓練するステップであって、前記画像(xi)は、前記機械学習システムの入力信号として使用され、特定された前記出力信号(ti)は、所望の出力信号として使用される、ステップと、
を含む方法。
【請求項10】
請求項1乃至8のいずれか一項に記載の方法によって、複数の画像に対してそれぞれ1つの出力信号が特定され、
前記機械学習システムは、前記複数の画像と、それぞれ特定された前記出力信号とに基づいて訓練される、
請求項9に記載の方法。
【請求項11】
前記密度尺度は、以下の式
dZ=2・(WZ+WZk)/n・(n+1)
によって特徴付けられる、
請求項1乃至10のいずれか一項に記載の方法。
【請求項12】
前記接続尺度は、以下の式
cpZ=WZk/dZ・(n+1)
によって特徴付けられる、
請求項1乃至11のいずれか一項に記載の方法。
【請求項13】
請求項9乃至12のいずれか一項に記載の方法を実施するように構成されている訓練装置(140)。
【請求項14】
プロセッサ(45,145)によって実行された場合に、請求項1乃至12のいずれか一項に記載の方法を実施するために構成されているコンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラムが保存されている機械可読記憶媒体(46,146)。
【発明の詳細な説明】
【技術分野】
【0001】
従来技術
Radosavovicら著の「“Data Distillation: Towards Omni-Supervised Learning”, 2018年,Conference on Computer Vision and Pattern Recognition (CVPR)」は、画像の物体検出部を特定するための方法を開示している。
【背景技術】
【0002】
発明の背景
画像内の物体を検出するために、機械学習システムが益々使用されるようになっている。これらのシステムのうちの最も性能が高いシステム、即ち、最も良好な検出性能を有するシステムは、典型的には、注釈が付けられた画像に基づいて教師あり訓練される(英語:supervised learning)。このような機械学習システムの訓練は、訓練のために、注釈が付けられた多数の画像を必要とする。なぜなら、典型的には、機械学習システムの性能は、訓練中に、注釈が付けられた画像の数と共に増加するからである。
【0003】
画像内の物体への注釈付けは、時間及びコストがかかる無謀な企てであるので、機械学習システムの半教師あり学習(英語:semi-supervised learning)のための訓練方法が益々重要になってきている。この種の訓練においては、注釈が付けられた画像と注釈が付けられていない画像との両方が機械学習システムに供給される。この場合、注釈を可能な限り精確に形成することが望ましい。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Radosavovicら著、“Data Distillation: Towards Omni-Supervised Learning”, 2018年,Conference on Computer Vision and Pattern Recognition (CVPR)
【発明の概要】
【課題を解決するための手段】
【0005】
発明の開示
このような背景を前提として、本発明は、画像の物体の物体検出部を特徴付ける出力信号を特定するためのコンピュータ実装された方法であって、
a.画像に関して複数の物体検出部を特定するステップと、
b.複数の物体検出部に基づいてグラフを特定するステップであって、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ2つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる、ステップと、
c.密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてグラフのクラスタを特定するステップと、
d.クラスタに基づいて1つの物体検出部を特定し、出力信号において当該物体検出部を提供するステップと、
を含む方法に関する。
【0006】
特定された出力信号は、画像の、1つ又は複数の物体検出部を特徴付ける注釈として理解可能である。この場合の画像は、特に光学センサによって、例えば、カメラセンサ、LIDARセンサ、レーダセンサ、超音波センサ又はサーマルカメラによって記録されたものであってよい。
【0007】
特に、このように出力信号において複数の物体検出部を提供できるようにするために、本方法のステップc.及びステップd.を複数回実施することができる。
【0008】
物体検出部を、特にバウンディングボックス(英語:Bounding Box)によって特徴付けることができる。従って、出力信号は、特に1つ又は複数のバウンディングボックスを含み得る。しかしながら、物体検出部を、一般的には連続した領域によって、例えば多角形によって特徴付けることも可能である。
【0009】
画像に関して複数の物体検出部を特定するために、特に、既に訓練された物体検出器を使用することができる。例えば、半教師あり訓練方法(英語:semi-supervised learning)の一部として画像に注釈を付け、既に注釈が付けられた画像に対して事前に訓練された物体検出器によって、複数の物体検出部を特定することが可能である。一般的に、物体検出器は、特にニューラルネットワークを含み得るものであり、ニューラルネットワークの出力に基づいて物体検出部を特定することができる。物体検出器を、ニューラルネットワークとすることも可能である。
【0010】
物体検出器は、特に、画像を処理して、複数の物体検出部を予測するように構成可能である。物体検出器は、好ましくは、それぞれのバウンディングボックスごとに、そのバウンディングボックスが画像の物体のバウンディングボックスであるという確信度値を特定するように構成可能である。この確信度値は、例えば、パーセント数であるものとしてよい。
【0011】
本方法の有利な実施形態においては、複数の物体検出部を、画像の複数の異なる前処理に基づいて特定することが可能である。
【0012】
画像の前処理は、例えば、画像が種々のスケールに応じてスケーリングされるように、及び/又は、画像が鏡面反転される(英語:horizontal flip)ように、及び/又は、画像の縁部が切り落とされる(英語:cropping)ように、構成可能である。これらの前処理のうちの1つ又は複数を、前処理された画像を特定するために使用することができる。その場合、複数の物体検出部を、特に画像に関する物体検出部と、前処理された画像の物体検出部とから合成することができる。好ましくは、複数の前処理された画像を、前処理形式の種々の適用又はパラメータ化によって特定することができ、これらの複数の前処理された画像に関する物体検出部を、複数の物体検出部の一部として使用することができる。
【0013】
特に、種々異なる前処理された画像のヴァリエーションを使用する場合に、同一の物体に関する物体検出部をフィルタリングすることができるようにするために、本方法においては、有利には、密度に基づくクラスタ分析法(英語:cluster analysis)が使用される。本方法の目的は、画像の物体の十分に類似した位置及び面積を特徴付けている物体検出部をまとめることであると理解可能である。有利には、提案されている本方法においては、物体検出部のクラスタを特定するために、非最大値抑圧法(英語:non-maximum suppresion)又はバウンディングボックス投票法(英語:bounding box voting)が使用されるのではなく、密度に基づくクラスタ分析法が使用される。本発明者らは、他の方法のうちの1つを使用する方法とは異なり、このようにして特定された複数の物体検出部の方がより精確であることを発見することができた。
【0014】
物体検出部をクラスタ分析するために、特定された複数の物体検出部から、特にグラフを特定することができる。このために、複数の物体検出部における物体検出部は、それぞれグラフのノードとして理解可能であり、ノードは、エッジを介して接続されており、エッジの重みは、それぞれ、エッジによって接続されているノード同士の重なり(と、ひいては物体検出部同士の間の重なりと)を特徴付ける。重なりとして、特に、エッジによって接続されているノード同士、ひいては物体検出部同士の間の共通集合・和集合の比率(英語:intersection over union, IoU)のような指標を使用することができる。
【0015】
以下においては、ノードと、ノードによって特徴付けされた物体検出部とは、同義語として理解可能である。特に、物体検出部に関して物体検出器によって特定された確信度は、ノードの確信度として理解可能である。
【0016】
2つの物体検出部の間の重なりが所定の閾値以下である場合には、本方法においては、グラフ内において2つの物体検出部の間にエッジが存在しないことを想定することもできる。物体検出器によって特定された確信度が所定の閾値を上回っている物体検出部のみを、共にグラフに取り入れることも可能である。
【0017】
好ましくは、本方法により、画像上の種々のクラスの物体に注釈を付けることが可能である。この場合には、1つのクラスにつき1つの別個のグラフを作成し、このようにして特定されたそれぞれのグラフごとに、密度に基づくクラスタ分析法を実施することが可能である。このことは、グラフに関して、複数の物体検出部のうちの同一のクラスに所属する物体検出部だけが考慮されることであると理解可能である。
【0018】
好ましくは、クラスタ分析法は、クラスタの密度尺度に基づいて、かつ、クラスタの接続尺度に基づいて実施される。
【0019】
このアプローチの利点は、クラスタの個数、ひいては画像内の物体の個数が既知である必要がなく、本方法によって自動的に特定可能であることである。これによって、出力信号の物体検出部の精度がさらに改善される。
【0020】
クラスタ分析法を適用した結果を、1つ又は複数のクラスタとすることができる。それぞれのクラスタは、好ましくは、複数の物体検出部(例えば、複数のバウンディングボックス)を含む。クラスタは、特にクラスタの中心を含み得る。好ましくは、ノードは、クラスタの中心を特徴付けることができる。好ましくは、クラスタのノードは、クラスタのノードの確信度の中で最大の確信度を有する中心を特徴付ける。クラスタ分析法によってクラスタが特定された場合には、出力信号において物体検出部として中心を提供することができる。クラスタのノードを、そのノードの確信度に応じて重み付けしてマージすることも可能である。例えば、クラスタの物体検出部を、それぞれバウンディングボックスの中心点と高さ及び幅とによって特徴付けることができる。中心点、高さ及び幅は、特にベクトルとして表現可能であり、物体検出部同士のマージを、ベクトルの重み付けされた加算によって実施することができる。特に、クラスタに基づいて物体検出部を特定するために、加算の結果を、クラスタのノードの確信度の合計によって除算することができる。
【0021】
本方法のさらなる実施形態においては、中心点の代わりに、バウンディングボックスの他の点、例えばバウンディングボックスの角部を選択することも可能である。
【0022】
しかしながら、本発明者らは、ただ1つの物体検出部しか含まないクラスタの物体検出部を、出力信号において物体検出部として提供しないことが、完全に適当であり得ることを発見することができた。このような中心を除外することによって、出力信号の物体検出部の精度が高められる。
【0023】
出力信号を特定するための方法の好ましい実施形態においては、密度に基づくクラスタ分析法は、
e.グラフ内のそれぞれのノードのエッジの重みの合計に基づいて開始ノードを特定し、開始ノードをクラスタのノードとして提供するステップと、
f.クラスタに含まれておらず、かつ、クラスタとの接続が最大である、グラフのノードを特定するステップと、
g.ノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第1の閾値を下回らない場合であって、かつ、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第2の閾値を下回らない場合に、当該ノードをクラスタに追加するステップと、
h.そうでない場合には、クラスタを提供するステップと、
を含み得る。
【0024】
開始ノードを特定するために、最初に、グラフ内のそれぞれのノードごとに、それぞれのノードに接続されているエッジの重みの合計を特定することができる。これにより、それぞれのノードごとに1つの指数を特定することができ、最高の指数を有するノードが、開始ノードとして使用される。さらに、開始ノードは、クラスタの中心として理解可能であり、このクラスタを、クラスタ分析法の後続のステップにおいてさらなるノードの分だけ拡張することができる。
【0025】
続いて、クラスタとの数値的な最大の接続を有していて、かつ、まだクラスタの一部ではない、グラフのノードが特定される。ノードとクラスタとの接続とは、特に、ノードに関して、そのノードをクラスタのノードに接続する全てのエッジの中で、最大の重みを有するエッジが特定されることであると理解可能である。続いて、このエッジの重みを、ノードとクラスタとの接続として使用することができる。次いで、クラスタに所属していないノードの中で、最大の接続を有しているノード、即ち、クラスタとの接続が数値的に最大であるノードを特定することができる。
【0026】
ノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第1の閾値を下回らない場合であって、かつ、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第2の閾値を下回らない場合に、当該ノードをクラスタに追加することができる。このステップは、最初に、クラスタへのノードの取り入れが、そのクラスタへの作用に関してどの程度の影響を有する可能性があるかを検査することであると理解可能である。この作用を決定するための指数として、密度尺度及び接続尺度を使用することができる。
【0027】
密度尺度とは、ノードを取り入れることにより、取り入れた後にも依然としてクラスタの全てのノードが互いに十分に接続されていることが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第1の閾値を用いてチェックされる。好ましくは、密度尺度を、以下の式
dZ=2・(WZ+WZk)/n・(n+1)
によって特徴付けることができ、ここで、WZは、クラスタZのノード間のエッジの全ての重みの合計を特徴付け、WZkは、クラスタのノードからノードへのエッジの全ての重みの合計であり、nは、クラスタ内のノードの個数、即ち、潜在的にノードがクラスタに取り入れられる前のクラスタ内のノードの個数である。
【0028】
接続尺度とは、ノードを取り入れることにより、このノード自体がクラスタのノードとの十分な接続を有することが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第2の閾値を用いてチェックされる。好ましくは、接続尺度を、以下の式
cpZ=WZk/dZ・(n+1)
によって特徴付けることができる。
【0029】
好ましくは、本方法においては、ステップf.において反復的にノードを特定し、ステップg.の条件のうちの少なくとも一方がもはや満たされなくなるまで、クラスタに追加することができ、少なくとも一方の条件がもはや満たされていない場合には、クラスタが提供され、クラスタのノードがグラフから除去される。
【0030】
このことは、貪欲アルゴリズム(英語:greedy algorithm)によって徐々にクラスタが特定されることであると理解可能である。それぞれの反復において、最初に新しい開始ノードが選択され、続いて、この開始ノードに基づいてノードが反復的に追加されることによってクラスタが形成される。特に、ステップe.乃至ステップh.を、グラフ内にもはやノードが存在しなくなるまで反復的に繰り返すことができる。本発明者らは、例えば非最大値抑圧法に基づく他の方法とは異なり、このようにして得られたクラスタ、ひいては出力信号において提供される物体検出部の方がより精確であることを発見することができた。
【0031】
さらに、クラスタに基づいて特定された物体検出部は、クラスタが開始ノードのみからなる場合には、出力信号において提供されないようにすることができる。本発明者らは、1つの物体検出部のみからなるクラスタが、典型的には物体検出器の偽陽性の物体検出部に起因するものであることを確認することができた(英語:false positives)。従って、1つのノードしか、即ち、開始ノードしか含まないクラスタを除外することによって、結果のさらなる改善がもたらされる。
【0032】
一般的に、グラフは、物体検出器によって認識することができる物体検出部の全てのクラスを含むことが可能である。例えば、物体検出器は、車両の周囲の画像上において、車両、歩行者、自転車走行者及び信号機を認識することができるように構成可能である。しかしながら、好ましくは、グラフを、物体検出部のクラスに関して特定することも可能である。換言すれば、グラフを特定する際に、同一のクラスに所属する物体検出部だけを考慮することもできる。従って、上記の例においては、車両というクラスの物体検出部に関するグラフ、歩行者というクラスの物体検出部に関するグラフ、自転車走行者というクラスの物体検出部に関するグラフ、及び、信号機というクラスの物体検出部に関するグラフをそれぞれ特定することができる。
【0033】
特に、物体検出器によって分類することができるそれぞれ1つの物体のクラスについて、有利には、物体検出器によって分類することができる物体のクラスの各々に対して、上述した特徴のうちの1つにおける上述した方法を実施することができる。その後、このようにして特定された、種々異なるクラスに関する物体検出部を、出力信号において提供することができる。
【0034】
さらなる態様においては、本発明は、機械学習システムを訓練するためのコンピュータ実装された方法であって、
i.出力信号を特定するための方法の1つの実施形態によって、画像に関する出力信号を特定するステップと、
j.機械学習システムを訓練するステップであって、画像は、機械学習システムの入力信号として使用され、特定された出力信号は、所望の出力信号として使用される、ステップと、
を含む方法に関する。
【0035】
訓練するための方法は、特に、半教師あり訓練方法の一部として使用可能である。特に、機械学習システムは、複数の物体検出部を特定する物体検出器であるものとしてよい。その場合、特定された出力信号に基づいて、機械学習システムをさらに訓練することができる。好ましくは、このステップは、それぞれ異なる画像に対して複数回実施される。これによって、特に、画像のデータセットに注釈を付けることが可能となり、即ち、データセット内の画像を、機械学習システムによってその画像に対して予測されるべき所望の出力信号によってエンリッチ化することができる。その場合、特定された出力信号と組み合わせて、機械学習システムを訓練するために元々注釈が付けられている画像と、データセットの画像とに対して、機械学習システムを訓練することができる。自己教師あり訓練により、機械学習システムの予測精度が改善される。
【0036】
さらに、少なくとも1つの画像に関する出力信号を特定するための方法を用いて、第1の出力信号を特定し、第2の機械学習システムによって第2の出力信号を特定し、続いて、第1の出力信号が第2の出力信号と一致するかどうかを検査することが可能である。換言すれば、出力信号を特定するための方法によって、第2の機械学習システムをテストすることができる。一致するかどうかを検査するために、通常の尺度を使用することができ、例えば、平均期待精度(英語:mean average precision)を使用することができる。
【0037】
以下に、本発明の実施形態を、添付の図面を参照しながら、より詳細に説明する。
【図面の簡単な説明】
【0038】
【
図1】注釈を特定するための方法のフローを概略的に示す図である。
【
図2】分類器を訓練するための訓練システムを概略的に示す図である。
【
図3】アクチュエータを駆動するための制御システムの構造を概略的に示す図である。
【
図4】少なくとも半自律的なロボットを制御するための実施例を概略的に示す図である。
【
図5】製造システムを制御するための実施例を概略的に示す図である。
【
図6】アクセスシステムを制御するための実施例を概略的に示す図である。
【
図7】監視システムを制御するための実施例を概略的に示す図である。
【
図8】パーソナルアシスタントを制御するための実施例を概略的に示す図である。
【
図9】医用イメージングシステムを制御するための実施例を概略的に示す図である。
【発明を実施するための形態】
【0039】
実施例の説明
図1は、注釈を特定するための方法(100)のフローを概略的に示しており、本方法においては、複数の画像に関する注釈が反復的に特定され、これらの注釈は、画像の物体の物体検出部をそれぞれ特徴付ける。好ましくは、画像及び特定された注釈は、本方法の終了時に、例えば、全ての画像又は所望数の画像に注釈が付けられた場合に、訓練データセット(T)として提供される。
【0040】
第1のステップ(101)においては、画像に関して複数の物体検出部が特定される。このために、特に物体検出器を使用することができ、物体検出器は、画像に対して、この画像内において画像化されている物体の物体検出部を特定するように構成されている。有利には、物体検出器はさらに、それぞれの物体検出部に対して、それぞれの物体検出部がどの程度の確率で画像の物体を特徴付けているかを特定するように構成されている。画像は、好ましくは前処理方法によって処理され、従って、前処理された画像が特定される。物体検出器は、前処理された画像に対して適用され、このようにして特定された物体検出部が、複数の物体検出部に共に取り入れられる。前処理が画像の鏡像を特徴付けている場合には、前処理された画像に関して特定された物体検出部を、好ましくは、それらが複数の物体検出部に取り入れられる前に鏡面反転して戻すことができる。好ましくは、それぞれ異なる前処理方法を用いて、及び/又は、それぞれ異なる前処理方法のパラメータ化を用いて、複数の前処理された画像を特定することができ、これらの前処理された画像が、それぞれ物体検出器によって処理されて、結果として生じた物体検出部が、複数の物体検出部に取り入れられる。
【0041】
方法(100)の第2のステップ(102)においては、複数の物体検出部に基づいてグラフが特定され、複数の物体検出部における物体検出部は、グラフのノードによって特徴付けられ、それぞれ2つの物体検出部の間の重なりは、グラフのエッジによって特徴付けられる。従って、グラフのそれぞれ1つのノードと、複数の物体検出部のうちのそれぞれ1つの物体検出部との一対一の関係が存在する。このような一対一の関係は、それぞれ1つのノードがそれぞれ1つの物体検出部に対応することであるとも理解可能である。好ましくは、グラフ内のそれぞれのノードを、エッジによってグラフ内のそれぞれ他のノードと接続させることができる。特に、それぞれ対応するノードがエッジによって接続されている物体検出部同士の重なりの尺度を、エッジの重みとして使用することができる。好ましくは、グラフ内のエッジを、そのエッジの重みが所定の閾値に達している又は所定の閾値を上回っている場合にのみ、挿入することもできる。さらに、グラフを、物体検出部のクラスのみに関して特定することができる。
【0042】
第3のステップ(103)においては、密度に基づくクラスタ分析法を用いて、グラフのノード及びエッジに基づいてクラスタが特定される。好ましい実施形態においては、第3のステップ(103)は、第1のサブステップ(103a)を含み、第1のサブステップ(103a)においては、最初にクラスタの開始ノードが特定される。開始ノードを特定するために、好ましくは以下の方法を選択することができる。即ち、最初に、グラフ内のそれぞれのノードごとに、そのノードに接続されているエッジの重みの合計が特定される。これにより、それぞれのノードごとに1つの指数が特定される。次いで、数値的に最大の指数が特定されたノードが、開始ノードとして選択される。
【0043】
次いで、第3のステップ(103)の第2のサブステップ(103b)においては、まだクラスタに含まれておらず、かつ、クラスタとの接続が最大である、グラフのノードを特定することができる。ノードとクラスタとの接続とは、特に、ノードに関して、そのノードをクラスタのノードに接続する全てのエッジの中で、最大の重みを有するエッジが特定されることであると理解可能である。続いて、このエッジの重みを、ノードとクラスタとの接続として使用することができる。次いで、クラスタに所属していないノードの中で、最大の接続を有しているノード、即ち、クラスタとの接続が数値的に最大であるノードを特定することができる。
【0044】
第3のサブステップ(103c)においては、第2のサブステップで特定されたノードに関して、そのノードの追加によってそのノードの分だけ拡張されたクラスタの密度尺度が、所定の第1の閾値を下回らないかどうかをチェックすることができる。さらに、追加によってそのノードの分だけ拡張されたクラスタの接続尺度が、所定の第2の閾値を下回らないかどうかをチェックすることができる。2つのチェックに肯定回答することができた場合には、そのノードをクラスタに追加することができる。第3のサブステップ(103c)は、最初に、クラスタへのノードの取り入れが、そのクラスタへの作用に関してどの程度の影響を有する可能性があるかを検査することであると理解可能である。この作用を決定するための指数として、密度尺度及び接続尺度を使用することができる。
【0045】
密度尺度とは、ノードを取り入れることにより、取り入れた後にも依然としてクラスタの全てのノードが互いに十分に接続されていることが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第1の閾値を用いてチェックされる。好ましくは、密度尺度を、以下の式
dZ=2・(WZ+WZk)/n・(n+1)
によって特徴付けることができ、ここで、WZは、クラスタZのノード間のエッジの全ての重みの合計を特徴付け、WZkは、クラスタのノードからノードへのエッジの全ての重みの合計であり、nは、クラスタ内のノードの個数、即ち、潜在的にノードがクラスタに取り入れられる前のクラスタ内のノードの個数である。
【0046】
接続尺度とは、ノードを取り入れることにより、このノード自体がクラスタのノードとの十分な接続を有することが保証されるかどうかを特徴付けることであると理解可能であり、この場合、十分に接続されているかどうかは、第2の閾値を用いてチェックされる。好ましくは、接続尺度を、以下の式
cpZ=WZk/dZ・(n+1)
によって特徴付けることができる。
【0047】
ノードがクラスタに取り入れられた場合には、本方法においては、好ましくは第2のサブステップ(103b)に戻ることができ、グラフの新しいノードを特定することができ、この新しいノードについても上述したように、そのノードがクラスタに取り入れられるべきかどうかをチェックすることができる。
【0048】
方法(100)の、戻りによって形成されるこのループは、クラスタに取り入れられないノードが特定されるまで、又は、まだクラスタに含まれていないさらなるノードがグラフ内に存在しなくなるまで、実施可能である。この場合には、第4のサブステップ(103d)において、クラスタに含まれている全てのノードをグラフから除去して、クラスタを提供することができる。グラフ内に依然としてノードが存在している場合には、好ましくは、第1のサブステップに戻って、新しいクラスタを特定することができる。グラフが空になると、第3のステップ(103)を終了することができる。
【0049】
次いで、第4のステップ(104)においては、第3のステップ(103)において特定されたクラスタに基づいて、それぞれ1つのクラスタに対して1つの物体検出部を特定することができる。このために、クラスタのノードに対応する物体検出部同士をマージすることができる。有利には、このマージは、物体検出部の表現の重み付けされた合計によって実施可能である。表現は、例えば、物体検出部のベクトル表現であるものとしてよい。例えば、ベクトルを介して中心点と高さ及び幅とを表すことができ、この場合、ベクトルは、物体検出部であるボックスの表現である。その場合、このマージを、ベクトルの重み付けされた合計を用いて実施することができる。例えば、ベクトルを、それぞれのベクトルに対応する物体検出部の確信度に従って重み付けすることができる。好ましくは、クラスタに関する物体検出部を特定するために、この合計の結果を確信度の合計によって除算することができる。
【0050】
このようにして、第3のステップ(103)において特定されたクラスタに関して、1つ又は複数の物体検出部を特定することができる。まだ画像に注釈を付けるべき場合には、第4のステップ(104)の後、再び第1のステップ(101)に進み、この際、まだ注釈付けされていない画像を使用することができる。全ての画像又は所望数の画像に注釈が付けられた場合には、これらの画像及びそれらの画像に対応する注釈を、訓練データセット(T)として提供することができる。
【0051】
図2は、訓練データセット(T)を用いて制御システム(40)の分類器(60)を訓練するための訓練システム(140)の実施例を示している。訓練データセット(T)は、分類器(60)を訓練するために使用される複数の入力信号(x
i)を含み、訓練データセット(T)はさらに、それぞれ1つの入力信号(x
i)に対して1つの所望の出力信号(t
i)を含み、この出力信号(t
i)は、入力信号(x
i)に対応していて、入力信号(x
i)の分類を特徴付ける。
【0052】
訓練のために、訓練データユニット(150)は、コンピュータ実装データベース(St2)にアクセスし、データベース(St2)は、訓練データセット(T)を提供する。訓練データユニット(150)は、訓練データセット(T)から、好ましくはランダムに、少なくとも1つの入力信号(xi)と、この入力信号(xi)に対応する所望の出力信号(ti)とを特定し、入力信号(xi)を分類器(60)に伝送する。分類器(60)は、入力信号(xi)に基づいて出力信号(yi)を特定する。
【0053】
所望の出力信号(ti)及び特定された出力信号(yi)は、変化ユニット(180)に伝送される。
【0054】
次いで、所望の出力信号(ti)と、特定された出力信号(yi)とに基づいて、変化ユニット(180)により、分類器(60)のための新しいパラメータ(Φ’)が決定される。このために、変化ユニット(180)は、損失関数(英語:Loss Function)を用いて所望の出力信号(ti)と、特定された出力信号(yi)とを比較する。損失関数は、特定された出力信号(yi)が所望の出力信号(ti)からどの程度偏差しているかを特徴付ける第1の損失値を特定する。損失関数として、本実施例においては、負の対数尤度関数(英語:negative log-likehood function)が選択される。代替的な実施例においては、他の損失関数も考えられる。
【0055】
さらに、特定された出力信号(yi)及び所望の出力信号(ti)が、例えばテンソルの形態の複数のサブ信号をそれぞれ含むことを想定することができ、所望の出力信号(ti)のそれぞれ1つのサブ信号は、特定された出力信号(yi)の1つのサブ信号に対応する。例えば、分類器(60)が、物体検出のために構成されており、第1のサブ信号が、それぞれ入力信号(xi)の一部に関する物体の発生確率を特徴付け、第2のサブ信号が、物体の正確な位置を特徴付けることを想定することができる。特定された出力信号(yi)及び所望の出力信号(ti)が、複数の対応するサブ信号を含む場合には、好ましくは、それぞれの対応するサブ信号ごとに、適当な損失関数を用いて第2の損失値が特定され、これらの特定された第2の損失値が、例えば重み付けされた合計を介して第1の損失値のために適当にマージされる。
【0056】
変化ユニット(180)は、第1の損失値に基づいて新しいパラメータ(Φ’)を特定する。本実施例においては、このことは、勾配降下法、好ましくは、確率的勾配降下法、Adam又はAdamWによって行われる。さらなる実施例においては、訓練は、進化的アルゴリズム又は二次最適化(英語:second-order optimization)に基づくこともできる。
【0057】
特定された新しいパラメータ(Φ’)は、モデルパラメータメモリ(St1)に保存される。好ましくは、特定された新しいパラメータ(Φ’)は、パラメータ(Φ)として分類器(60)に供給される。
【0058】
さらなる好ましい実施例においては、上述した訓練が、所定回数の反復ステップだけ反復的に繰り返され、又は、第1の損失値が所定の閾値を下回るまで反復的に繰り返される。代替的又は追加的に、テストデータセット又は検証データセットに関する平均的な第1の損失値が所定の閾値を下回った場合に、訓練を終了させることを想定することもできる。複数回の反復のうちの少なくとも1回の反復において、前回の反復において決定された新しいパラメータ(Φ’)が、分類器(60)のパラメータ(Φ)として使用される。
【0059】
さらに、訓練システム(140)は、少なくとも1つのプロセッサ(145)と、少なくとも1つの機械可読記憶媒体(146)とを含み得るものであり、少なくとも1つの機械可読記憶媒体(146)は、命令を含み、これらの命令は、プロセッサ(145)によって実行された場合に、本発明の態様のうちの1つによる訓練方法を訓練システム(140)に実施させる。
【0060】
図3は、アクチュエータ(10)を、分類器(60)の出力信号(y)に基づいてアクチュエータ(10)の環境(20)において制御するための制御システム(40)を示している。環境(20)は、センサ(30)、特にカメラセンサのようなイメージングセンサにおいて、好ましくは規則的な時間間隔で検出され、このセンサ(30)は、複数のセンサによって提供可能であり、例えば、ステレオカメラであるものとしてよい。センサ(30)のセンサ信号(S)-又はセンサが複数ある場合には、それぞれ1つのセンサ信号(S)-は、制御システム(40)に伝送される。従って、制御システム(40)は、センサ信号(S)のシーケンスを受信する。制御システム(40)は、これらのセンサ信号(S)のシーケンスから駆動信号(A)を特定し、この駆動信号(A)がアクチュエータ(10)に伝送される。
【0061】
制御システム(40)は、任意選択肢の受信ユニット(50)においてセンサ(30)のセンサ信号(S)のシーケンスを受信し、受信ユニット(50)は、センサ信号(S)のシーケンスを入力信号(x)のシーケンスに変換する(代替的に、それぞれセンサ信号(S)を直接的に入力信号(x)として受信することもできる)。入力信号(x)は、例えば、センサ信号(S)の一部又は後続処理であるものとしてよい。換言すれば、入力信号(x)は、センサ信号(S)に依存して特定される。入力信号(x)のシーケンスは、分類器(60)に供給される。
【0062】
分類器(60)は、好ましくはパラメータ(Φ)によってパラメータ化され、これらのパラメータ(Φ)は、パラメータメモリ(P)に格納されており、パラメータメモリ(P)によって供給される。
【0063】
分類器(60)は、入力信号(x)から出力信号(y)を特定する。出力信号(y)は、任意選択肢の変形ユニット(80)に供給され、変形ユニット(80)は、この出力信号(y)から駆動信号(A)を特定し、この駆動信号(A)は、アクチュエータ(10)を相応に駆動するためにアクチュエータ(10)に供給される。
【0064】
アクチュエータ(10)は、駆動信号(A)を受信し、相応に駆動され、対応するアクションを実施する。この場合、アクチュエータ(10)は、(必ずしも構造的に組み込まれているわけではない)駆動ロジックを含み得るものであり、駆動ロジックは、駆動信号(A)から第2の駆動信号を特定し、次いで、この第2の駆動信号によってアクチュエータ(10)が駆動される。
【0065】
さらなる実施形態においては、制御システム(40)は、センサ(30)を含む。さらなる他の実施形態においては、制御システム(40)は、代替的又は追加的にアクチュエータ(10)も含む。
【0066】
さらなる好ましい実施形態においては、制御システム(40)は、少なくとも1つのプロセッサ(45)と、少なくとも1つの機械可読記憶媒体(46)とを含み、少なくとも1つの機械可読記憶媒体(46)上には命令が保存されており、これらの命令は、少なくとも1つのプロセッサ(45)によって実行された場合に、本発明に係る方法を制御システム(40)に実施させる。
【0067】
代替的な実施形態においては、アクチュエータ(10)に代えて又はこれに加えて、ディスプレイユニット(10a)が設けられている。
【0068】
図4は、少なくとも半自律的なロボット、ここでは少なくとも半自律的な自動車(100)を制御するために、どのようにして制御システム(40)を使用することができるかを示している。
【0069】
センサ(30)は、例えば、好ましくは、自動車(100)内に配置されているビデオセンサであるものとしてよい。入力信号(x)は、この場合には入力画像として理解可能であり、分類器(60)は、画像分類器として理解可能である。
【0070】
画像分類器(60)は、入力画像(x)上において認識可能な物体を識別するように構成されている。
【0071】
好ましくは自動車(100)内に配置されているアクチュエータ(10)は、例えば、自動車(100)のブレーキ、駆動部又は操舵部であるものとしてよい。その場合、自動車(100)が、例えば画像分類器(60)によって識別された物体との衝突を、特に、この物体が所定のクラスの物体、例えば歩行者である場合に阻止するように、アクチュエータ(10)を駆動するように、駆動信号(A)を特定することができる。
【0072】
代替的又は追加的に、駆動信号(A)によってディスプレイユニット(10a)を駆動することができ、例えば、識別された物体を表示することができる。識別された物体のうちの1つと自動車(100)とが衝突するおそれがあることが特定された場合に、光学的又は音響的な警告信号を出力するように、駆動信号(A)によってディスプレイユニット(10a)を駆動することも考えられる。警告信号を用いた警告を、触覚的な警告信号を用いて、例えば、自動車(100)のステアリングホイールの振動を用いて実施することもできる。
【0073】
代替的に、少なくとも半自律的なロボットは、他の移動型ロボット(図示せず)であるものとしてもよく、例えば、飛行、水泳、潜水又は歩行によって前進するようなロボットであるものとしてもよい。移動型ロボットは、例えば、少なくとも半自律的な芝刈り機、又は、少なくとも半自律的な掃除ロボットであるものとしてもよい。このような場合にも、少なくとも半自律的なロボットが、例えば画像分類器(60)によって識別された物体との衝突を阻止するように、移動型ロボットの駆動部及び/又は操舵部が駆動されるように、駆動信号(A)を特定することができる。
【0074】
図5は、製造機械(11)を制御するアクチュエータ(10)を駆動することによって、製造システム(200)の製造機械(11)を駆動するために制御システム(40)が使用される実施例を示している。製造機械(11)は、例えば、打ち抜き、鋸断、穿孔、及び/又は、切断のための機械であるものとしてよい。さらに、製造機械(11)を、グリッパを用いて製造生産物(12a,12b)を把持するように構成することが考えられる。
【0075】
その場合、センサ(30)は、例えば、コンベヤベルト(13)の搬送面を検出するビデオセンサであるものとしてよく、コンベヤベルト(13)上に、製造生産物(12a,12b)を配置することができる、この場合には、入力信号(x)は、入力画像(x)であり、分類器(60)は、画像分類器である。画像分類器(60)は、例えば、コンベヤベルト上の製造生産物(12a,12b)の位置を特定するように構成可能である。次いで、製造機械(11)を制御するアクチュエータ(10)を、特定された製造生産物(12a,12b)の位置に依存して駆動することができる。例えば、製造生産物(12a,12b)の所定の箇所において製造生産物(12a,12b)を打ち抜き、鋸断し、穿孔し、及び/又は、切断するように、アクチュエータ(10)を駆動することができる。
【0076】
さらに、画像分類器(60)を、位置に代えて又はこれに加えて製造生産物(12a,12b)のさらなる特性を特定するように構成することが考えられる。特に、製造生産物(12a,12b)が欠陥及び/又は損傷を有するかどうかを、画像分類器(60)が特定することを想定することができる。この場合には、欠陥及び/又は損傷を有する製造生産物(12a,12b)を製造機械(11)が選別するように、アクチュエータ(10)を駆動することができる。
【0077】
図6は、アクセスシステム(300)を制御するために制御システム(40)が使用される実施例を示している。アクセスシステム(300)は、物理的なアクセスコントロール、例えばドア(401)を含み得る。センサ(30)は、特に、ドア(401)の前方の領域を検出するように構成されているビデオセンサ又はサーモグラフィセンサであるものとしてよい。従って、分類器(60)は、画像分類器として理解可能である。画像分類器(60)を用いて、検出された画像を解釈することができる。特に、画像分類器(60)は、画像分類器(60)に伝送された入力画像(x)上の人物を検出することができる。複数の人物が同時に検出された場合には、これらの人物(即ち、物体)を相互に対応付けることにより、例えば、これらの人物の動作を分析することによって、例えば、それらの人物の身元を特に確実に特定することができる。
【0078】
アクチュエータ(10)は、駆動信号(A)に依存してアクセスコントロールを解除又は非解除するロック、例えば、ドア(401)を開放又は閉鎖するロックであるものとしてよい。このために、画像分類器(60)を用いて入力画像(x)に対して特定された出力信号(y)に依存して、駆動信号(A)を選択することができる。例えば、出力信号(y)が、画像分類器(60)によって検出された人物の身元を特徴付ける情報を含み、その人物の身元に基づいて駆動信号(A)を選択することが考えられる。
【0079】
物理的なアクセスコントロールの代わりに、論理的なアクセスコントロールを設けることもできる。
【0080】
図7は、監視システム(400)を制御するために制御システム(40)が使用される実施例を示している。この実施例は、アクチュエータ(10)の代わりに、制御システム(40)によって駆動されるディスプレイユニット(10a)が設けられているという点において、
図4に示されている実施例とは異なっている。例えば、センサ(30)は、少なくとも1人の人物が認識されるべき入力画像(x)を記録することができ、少なくとも1人の人物の位置を、画像分類器(60)を用いて検出することができる。次いで、入力画像(x)を、ディスプレイユニット(10a)上に表示することができ、この際、検出された人物を、色彩的に強調して表示することができる。
【0081】
図8は、パーソナルアシスタント(250)を制御するために制御システム(40)が使用される実施例を示している。センサ(30)は、好ましくはユーザ(249)のジェスチャの画像を受信する光学センサ、例えばビデオセンサ又はサーモグラフィカメラである。この場合には、分類器(60)は、画像分類器である。
【0082】
制御システム(40)は、センサ(30)の信号に依存して、例えば、画像分類器(60)がジェスチャ認識を実施することによって、パーソナルアシスタント(250)の駆動信号(A)を特定する。次いで、この特定された駆動信号(A)がパーソナルアシスタント(250)に伝送され、これにより、パーソナルアシスタント(250)が相応に駆動を行う。特定された駆動信号(A)を、特に、ユーザ(249)による推測される所望の駆動に対応するように選択することができる。この推測される所望の駆動は、画像分類器(60)によって認識されたジェスチャに依存して特定可能である。次いで、制御システム(40)は、推測される所望の駆動に依存してパーソナルアシスタント(250)に伝送するための駆動信号(A)を選択することができ、及び/又は、推測される所望の駆動に応じたパーソナルアシスタント(250)に伝送するための駆動信号(A)を選択することができる。
【0083】
このような対応する駆動は、例えば、パーソナルアシスタント(250)がデータベースから情報を呼び出して、この情報をユーザ(249)のために受信可能に再生することを含み得る。
【0084】
パーソナルアシスタント(250)の代わりに、家電装置(図示せず)、特に、洗濯機、コンロ、オーブン、電子レンジ又は食器洗浄機を設けて、相応に駆動することも可能である。
【0085】
図9は、医用イメージングシステム(500)、例えば、MRT装置、X線装置又は超音波装置を制御するために制御システム(40)が使用される実施例を示している。センサ(30)は、例えば、イメージングセンサによって提供可能である。従って、分類器(60)は、画像分類器として理解可能である。制御システム(40)によってディスプレイユニット(10a)が駆動される。
【0086】
センサ(30)は、患者の画像、例えば、X線画像、MRT画像又は超音波画像を特定するように構成されている。画像のうちの少なくとも一部が、入力画像(x)として画像分類器(60)に伝送される。画像分類器(60)は、例えば、入力画像(x)上において認識されるべき種々異なる種類の組織を、例えばセマンティックセグメンテーションによって分類するように構成可能である。
【0087】
次いで、特定された組織の種類がディスプレイユニット(10a)上において色彩的に強調して表示されるように、駆動信号(A)を選択することができる。
【0088】
さらなる実施例(図示せず)においては、イメージングシステム(500)を非医用目的においても使用することができ、例えば、被加工物の材料特性を特定するためにも使用することができる。この目的のために、イメージングシステム(500)は、被加工物の画像を記録することができる。画像分類器(60)は、この場合には、画像のうちの少なくとも一部を入力画像(x)として受信し、被加工物の材料特性に関して分類するように構成可能である。このことは、例えば、入力画像(x)のセマンティックセグメンテーションによって実施可能である。このようにして特定された分類を、例えば入力画像と共に表示装置(10a)上に表示することができる。
【0089】
「コンピュータ」という用語は、所定の計算規則を処理するための任意の装置を含む。これらの計算規則は、ソフトウェアの形態で、又は、ハードウェアの形態で、又は、ソフトウェアとハードウェアとの混合形態で存在することができる。
【0090】
一般的に、複数には添字が付されていると理解することができ、即ち、複数のうちのそれぞれの要素に、1つの一意の添字が割り当てられ、好ましくは、複数の中に含まれている要素に連続する整数を対応付けることによって割り当てられる。好ましくは、複数のN個の要素が含まれていて、かつ、Nが複数の中の要素の個数である場合には、これらの要素に1からNまでの整数が割り当てられる。
【外国語明細書】