(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-08
(54)【発明の名称】オブジェクトセグメンテーションのための方法、データ処理システム、コンピュータプログラムプロダクト、およびコンピュータ可読媒体
(51)【国際特許分類】
G06T 7/12 20170101AFI20230901BHJP
G06T 7/00 20170101ALI20230901BHJP
G06V 10/82 20220101ALI20230901BHJP
【FI】
G06T7/12
G06T7/00 350C
G06V10/82
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023502950
(86)(22)【出願日】2020-12-16
(85)【翻訳文提出日】2023-03-15
(86)【国際出願番号】 HU2020050059
(87)【国際公開番号】W WO2022013584
(87)【国際公開日】2022-01-20
(32)【優先日】2020-07-17
(33)【優先権主張国・地域又は機関】HU
(81)【指定国・地域】
(71)【出願人】
【識別番号】518289852
【氏名又は名称】エーアイモーティブ ケーエフティー.
(74)【代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】ウタシ,アコス
(72)【発明者】
【氏名】ブティカイ,アダム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA02
5L096DA01
5L096FA06
5L096FA23
5L096HA11
5L096KA04
(57)【要約】
本発明は画像中のオブジェクトセグメンテーションの方法であって、訓練された機械学習システムへ画像を入力する工程、およびオブジェクトのセグメンテーション輪郭を再構成する工程を含む、方法である。上記方法は、訓練された機械学習システムによって、画像中のオブジェクトのセグメンテーション輪郭の表現を推定する工程であって、セグメンテーション輪郭は、閉じた二次元パラメトリック曲線であり、各点は2つの座標成分によって定義され、座標成分が共にパラメータ化され、オブジェクトのセグメンテーション輪郭の再構成は、セグメンテーション輪郭の推定された表現から行なわれる、推定する工程を含むことを特徴とする。本発明は、さらに上記の方法を実行するデータ処理システム、コンピュータプログラムプロダクト、およびコンピューター可読媒体に関する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像中のオブジェクトセグメンテーションのための方法であって、前記方法は、
訓練された機械学習システムに前記画像を入力する工程および
オブジェクトのセグメンテーション輪郭を再構成する工程
を含み、
前記訓練された機械学習システムによって、前記画像中のオブジェクトのセグメンテーション輪郭の表現を推定することであって、前記セグメンテーション輪郭は閉じた二次元パラメトリック曲線であり、前記セグメンテーション輪郭の各点は2つの座標成分によって定義され、両方の座標成分はパラメータ化される、推定すること、および
前記オブジェクトの前記セグメンテーション輪郭の再構成は、前記セグメンテーション輪郭の推定された表現から行われること
を特徴とする、方法。
【請求項2】
前記セグメンテーション輪郭の前記2つの座標成分が、独立してパラメータ化されることを特徴とする、請求項1に記載の方法。
【請求項3】
前記セグメンテーション輪郭の前記2つの座標成分が、単一の時間様パラメータによってパラメータ化されることを特徴とする、請求項1または2に記載の方法。
【請求項4】
前記推定された表現が、
前記訓練された機械学習システムによって推定された幾何学的変換の少なくとも1つのパラメータ、および
前記訓練された機械学習システムによって推定された前記オブジェクトの典型的な外観に属する参照輪郭の表現
を含むことを特徴とする、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記セグメンテーション輪郭の再構成が、
前記参照輪郭に、前記幾何学的変換の少なくとも1つのパラメータを組み合わせることによって、調整された表現を生成し、前記調整された表現から前記セグメンテーション輪郭を再構成すること、または
前記参照輪郭の表現から前記参照輪郭を再構成し、再構成された前記参照輪郭を前記幾何学的変換で前記セグメンテーション輪郭に変換すること
によって行われることを特徴とする、請求項4に記載の方法。
【請求項6】
前記幾何学的変換が、スケーリング、平行移動、回転、および/またはミラーリングを含むことを特徴とする、請求項4または5に記載の方法。
【請求項7】
前記セグメンテーション輪郭の表現が、フーリエ変換によって得られ、前記推定された表現は、前記訓練された機械学習システムによって推定されたフーリエ記述子を含み、前記セグメンテーション輪郭の再構成は、前記フーリエ記述子に対してフーリエ逆変換を適用することを含むことを特徴とする、前記請求項のいずれか一項に記載の方法。
【請求項8】
前記フーリエ記述子が、楕円フーリエ記述子であることを特徴とする、請求項7に記載の方法。
【請求項9】
前記訓練された機械学習システムによって各セグメンテーション輪郭用の識別タグを生成する工程をさらに含むことを特徴とする、請求項1~8のいずれか一項に記載の方法。
【請求項10】
遮蔽を処理するために、前記訓練された機械学習システムによって、各セグメンテーション輪郭の表現に対して可視性スコア値が生成され、前記オブジェクトの可視性を示す可視性スコア値を有する表現に対してのみ、前記セグメンテーション輪郭が再構成されることを特徴とする、請求項9に記載の方法。
【請求項11】
遮蔽の場合には、同じオブジェクトに属するセグメンテーション輪郭には、同じ識別タグが割り当てられることを特徴とする、請求項10に記載の方法。
【請求項12】
前記訓練された機械学習システムが、ニューラルネットワークを含むことを特徴とする、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記ニューラルネットワークが、畳み込みニューラルネットワークであることを特徴とする、請求項12に記載の方法。
【請求項14】
画像中のオブジェクトセグメンテーションのためのデータ処理システムであって、前記画像中のオブジェクトのセグメンテーション輪郭の表現を推定するための訓練された機械学習システムを含み、前記セグメンテーション輪郭は閉じた二次元パラメトリック曲線であり、その各点は2つの座標成分によって定義され、両方の座標成分はパラメータ化され、前記データ処理システムは、
前記訓練された機械学習システムにセグメント化される前記画像を入力すること、および
前記セグメンテーション輪郭の推定された表現から、前記オブジェクトの前記セグメンテーション輪郭を再構成することに適している、データ処理システム。
【請求項15】
プログラムがコンピュータによって実行される場合、前記コンピュータに請求項1~13のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータプログラムプロダクト。
【請求項16】
コンピュータによって実行される場合、前記コンピュータに請求項1~13のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像内のオブジェクトセグメンテーションのための方法に関する。また、本発明は、方法を実現するデータ処理システム、コンピュータプログラムプロダクト、およびコンピュータ可読媒体に関する。
【背景技術】
【0002】
現代のコンピュータビジョンでは、画像理解は、オブジェクト検出およびセマンティックレベルまたはインスタンスレベルのセグメンテーション、言い換えればオブジェクトセグメンテーションなどの特有の作業を介して一般に検討される。オブジェクト検出では、自動運転用途の場合は、画像内のオブジェクトまたはオブジェクトインスタンス(すなわち、オブジェクトカテゴリ内のオブジェクトの特定のサンプル/種類)、例えば、個々の自動車、歩行者、交通標識の位置は、通常は境界ボックスと呼ばれる、そのオブジェクト周囲のボックス(長方形)のピクセル座標として予測される。一方で、セマンティックまたはインスタンスセグメンテーションタスクは、オブジェクトカテゴリおよび/またはすべてのピクセルの特定のインスタンスを指定して、全体画像の高密度で、ピクセルレベルのラベル付けを目的とする。特に、画像内のインスタンスセグメンテーションのタスクは、ピクセルが属するインスタンスの識別タグ、数、またはコードを用いて各ピクセルをラベル付けすることである。その結果、画像中のオブジェクトに関連するピクセルをマーキングするマスクが、各オブジェクトに提供される。この種の表現は、一般に使用される境界ボックス(または境界長方形)表現よりも、シーン中の目に見えるオブジェクトの位置、大きさ、および形状についてより正確な説明を提供する。
【0003】
ピクセルレベルのセグメンテーション方法は、遮蔽オブジェクトを検出するためのUS10,067,509 B1において開示される。方法は、各ピクセルのa)様々な対象カテゴリ(例えば、自動車や歩行者)のセマンティックラベル、およびb)ピクセルが輪郭点か否かを示すバイナリラベルを予測することにより、ピクセルレベルのインスタンスセグメンテーションを実行する。個々のインスタンスマスクは、予測された輪郭を用いてカテゴリのピクセルを分けることによって復元が可能である。
【0004】
上記の技術的解決法はUS10,311,312 B2において拡張され、2つの別個の分類器が、静的および動的なケースを別々に処理するために訓練される。動的分類器は、多数のビデオフレームに対して特定の車両のトラッキングが成功する場合に用いられ、それ以外の場合には、静的分類器が個々のフレームに対して適用される。上記の文献と同様のピクセルレベルのアプローチが、セグメンテーションに使用される。
【0005】
また、US2018/0108137 A1は、インスタンスレベルのセマンティックセグメンテーションシステムを開示し、画像中の標的オブジェクトの大まかな位置は、各オブジェクト周囲の境界ボックスを予測することにより決定される。その後、第2の工程では、各オブジェクトインスタンスの上記境界ボックスを使用してピクセルレベルのインスタンスマスクが予測される。
【0006】
ピクセルレベルのセグメンテーション方法の主な欠点は、その高度な計算の必要量および関連する時間消費である。セグメンテーションタスクの特定の態様では、自動運転車の場合などには、認識の速度は重大である。リアルタイムで結果を出すには過大な計算能力を必要とする、または単に遅すぎる方法は、そのような用途には適していない。
【0007】
計算速度を速めるためのアプローチは以下の技術的解決法に繋がり、その中ではより小さなマップ(インスタンスマップ)が、すなわち、より低い解像度で生成され、その後マップは、画像のサイズに従って拡大される。
【0008】
一例は、オブジェクトインスタンスセグメンテーションのための2段階アプローチを開示するK.He et al.の刊行物“Mask R-CNN”(2017)である。最初に、画像中の対象カテゴリまたはカテゴリのインスタンスをすべて大まかに局限するために、オブジェクト提案工程が適用される。その後、第2工程におけるインスタンスセグメンテーションの問題は、ピクセルラベル付けタスクと定義され、インスタンスのセグメンテーションマスクのバイナリピクセルは、固定サイズ(例えば、14×14ピクセル)のグリッド上で直接予測される。ここで、マスク中のバイナリ1は、対応するオブジェクトのピクセル位置を示す。その後、予測されたマスクは、オブジェクトの適切な位置およびサイズへ変形される/再スケーリングされる。この解決法の欠点は、そのような小さなグリッドにさえ、少なくとも14×14=122の出力寸法を有する非常に複雑なニューラルネットワークが使用されることである。節点の量および重み付け係数がセグメンテーションを遅らせ、その上、生成された小さなマップを、全体画像のサイズに従って拡大し補間しなければならず、この方法の速度および効率をさらに低下させる。
【0009】
同様の方法がUS2009/0340462 A1に開示され、画像中の顕著なオブジェクトのピクセルを識別するために、ニューラルネットワークが使用される。最初に、画像の解像度が減少され、この縮小画像上でニューラルネットワークが適用され、画像中のメインオブジェクトのピクセルが識別され、これに基づきオリジナルの完全な解像度の画像中のメインオブジェクトに属するピクセルが識別される。
【0010】
上記の技術的解決法の欠点は、さらなる計算能力および時間を必要とする、画像中のオブジェクトの輪郭またはピクセルを決定するために、一層の工程が必要とされることである。
【0011】
セグメンテーションの別のアプローチは、オブジェクトの輪郭を多角形で近似することであり、オブジェクトの正確な輪郭の代わりに、多角形は、好ましくは訓練されたニューラルネットワークによって予測される。このアプローチは、ピクセルレベルのセグメンテーション手法と比較して、計算の時間および必要量を著しく低減する。
【0012】
L.Castrejon et al.の文献“Annotating Object Instances with a Polygon-RNN”(The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.5230-5238)において、著者は、インスタンスをアウトライン化する多角形によってインスタンスセグメンテーションマスクを表現する解決法を提唱する。多角形の頂点は、回帰型ニューラルネットワークにより連続して一つずつ再構成される。同じ研究グループによるこのアプローチの拡張は“Polygon-RNN++”(2018)である。この解決法の欠点は、回帰型ニューラルネットワークが複雑な構造を有するために、計算がより遅くなることである。
【0013】
一層のアプローチが、N.Benbarkaet al.の文献“FourierNet:Compact mask representation for instance segmentation using differentiable shape decoders”(arXiv:2002.02709[cs.CV]、2020)に紹介される。この文献は、2段階のセグメンテーション方法とは対照的に、単段階のセグメンテーション方法を開示する。このアプローチは、輪郭の重心付近から出る仮想の光線と輪郭との交差点である点の集合によってオブジェクトの輪郭を表現し、これは輪郭の単一の構成要素のパラメータ化である。より多くの交差点が単一の光線に対して存在する場合、重心からより遠くの交差点が選択される。輪郭を表現する点の集合のフーリエ係数(フーリエ記述子)を予測するためにニューラルネットワークが使用され、輪郭は逆フーリエ変換によって再構成される。しかしながら、この方法で用いられる工程は、一方では、モデル化される形状の複雑性を制限し、他方では無視された輪郭座標中に存在する情報を低減する。この方法の最大の欠点は、凹形状を有するオブジェクトの輪郭が正確に予測も再構成もされることなく、オブジェクトの輪郭の包絡線のみ近似され得ることである。しかしながら、特定の用途では、正確な形状または輪郭の再構成が必要である。
【0014】
既知のアプローチを見る限り、凹形状の輪郭を含むあらゆる輪郭を有するオブジェクトに対して画像中のオブジェクトのセグメンテーションを実行することができる方法へのニーズがある。
【発明の概要】
【0015】
本発明の主な目的は、画像中のオブジェクトセグメンテーションの方法を提供することであり、方法には、可能な限りの範囲で先行技術のアプローチの欠点がない。
【0016】
本発明は、あらゆる形状または輪郭を有するオブジェクトのセグメンテーションを可能にするために、先行技術アプローチより効率的な方法で画像中のオブジェクトをセグメンテーションできる方法を提供することを目的とする。したがって、本発明は、画像中のあらゆる形状を有するオブジェクトの輪郭を再構成することが可能な信頼できるセグメンテーション方法を提供することを目的とする。
【0017】
本発明は、発明に係る方法の工程を実行するための手段を含む、データ処理システムを提供することをさらなる目的とする。
【0018】
さらに、本発明は、1台または複数のコンピュータ上で本発明による方法の工程を実行するための非一時的なコンピュータプログラムプロダクト、および1台または複数のコンピュータ上で本発明による方法の工程を行うための指示を含む、非一時的なコンピュータ可読媒体を提供することを目的とする。
【0019】
本発明の目的は、請求項1に記載の方法によって達成できる。本発明の目的は、さらに請求項14に記載のデータ処理システム、請求項15に記載の非一時的なコンピュータプログラムプロダクト、および請求項16に記載の非一時的なコンピュータ可読媒体によって達成することができる。本発明の好ましい実施形態は、従属請求項において定義される。
【0020】
先行技術のアプローチと比較した、本発明に係る方法の主な利点は、複雑な形状、凹形状でさえも含むあらゆる形状を有するオブジェクトの輪郭(セグメンテーション輪郭)を、再構成できるという事実に由来する。この方法によりオブジェクトの位置をより高精度で決定することができるため、先行技術において知られているどの方法よりも、より正確なオブジェクトセグメンテーションを達成することができる。
【0021】
輪郭の2つの座標のパラメータ化を用いることで、曖昧さなしで、あらゆる二次元の閉曲線、すなわち、画像中のオブジェクトの複雑な輪郭の正確な表現が可能になることが認められている。セグメンテーション方法は、意思決定プロセスにおいて、例えば、自動運転用途で頻繁に使用され、その用途では意思決定の速度は重大になり得る。意思決定プロセスを促進するためのよくある選択は、少数の特徴点からでも、容易かつ迅速に認識することができる、所定の単純な形状を使用することである。このアプローチに反して、本発明に係る方法は、任意の複雑な形状を認識することに適している。任意の複雑な形状を決定することは、方法の計算の必要量を増加させ得るが、また、検出された輪郭に基づいて意思決定プロセスの精度を増加させることが認められており、自動運転車に関連する用途または医療用途などの様々なセーフティクリティカルな用途においては望ましい。さらに、方法の正確さと計算効率との間でバランスを保つために、本発明に係るセグメンテーション輪郭のパラメータ化は、柔軟性および制御を提供する。
【0022】
また、輪郭の表現を推定するための計算の必要量を減少させるために、輪郭の単純な2つの座標表現の代わりに、例えば、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークを含む、あらゆる既知の機械学習アルゴリズムまたは方法を実施する機械学習システムによって、変換された(例えば、フーリエ変換された)表現が使用され得ることが認められ、それにより効率的な輪郭の表現の推定がもたらされる。輪郭のコンパクトな表現をもたらす、固定長の、変換された表現を用いることによって、ピクセルレベルのインスタンス記述に関する現在の技術と比較して、訓練された機械学習システムの複雑性が低減でき、その結果、より速い処理速度およびより小さなメモリフットプリントをもたらす。また、コンパクトな表現から容易に輪郭を再構成できることは有利である。
【0023】
他の利点は、計算の必要量が小さくなることにより、先行技術のソリューションが同様の計算能力を使用する場合と比較して、本発明に係る方法は、より高精度でオブジェクトの輪郭を再構成できるということである。
【0024】
本発明に係る方法は、遮蔽された、または部分的に隠れたオブジェクトを含む画像中の多数のオブジェクトをセグメント化することができる。遮蔽された、または部分的に隠れたオブジェクトは、例えば、少なくともその一部が他のオブジェクトの後ろに隠れるために、画像中では全体として見えないオブジェクトであり、その場合には、オブジェクトの可視部分はセグメント化することができ、方法の特定の実施形態に応じて、オブジェクトの遮蔽部分は無視されるか、または同じオブジェクトの可視部分に割り当てられ得る。
【0025】
本発明に係る方法の特定の実施形態は、オブジェクトの形状の典型的な外観(基礎的な表現または参照輪郭)を推定することによって、またオブジェクトのスケーリング、回転、ミラーリング、または平行移動などの幾何学的変換のうちの少なくとも1つ、またはその組合せで幾何学的パラメータを推定することによって、オブジェクトの輪郭を再構成することができ、ここで幾何学的パラメータ(複数可)は、画像中のオブジェクトのサイズ、位置、および方位に相当する。オブジェクトの基礎的な形状を分割することと上述の幾何学的変換は、より効率的な方法で推定できるオブジェクト輪郭の表現を提供し、ここで基礎的な形状または参照輪郭は、上記の幾何学的変換に対して不変である。特定の機械学習アルゴリズム/方法、例えば、畳み込みニューラルネットワークは、平行移動に対して不変であり、オブジェクト輪郭のそのような分解された表現によく整合する。この分解された表現の適用によって、同じ参照輪郭はそれらのサイズ、位置、および方位にかかわらず画像の異なる部分に位置する同じオブジェクトを推定することができる。正確なサイズ、位置、および方位に関する情報は、少数の幾何学的パラメータにおいてコード化することができる。さらに、実際の適用では、幾何学的変換は、3D空間における剛体変換、すなわち画像に投影されたオブジェクトの移動によく近似する。したがって、複数の画像、例えば、カメラストリームの画像が順番に処理される場合には、連続画像は互いに類似し、画像中のオブジェクトの全体的な形状はほとんど同一であるが、サイズ、位置、または方位はわずかに異なり得る。形状と対応する幾何学的パラメータを決定するアプローチによって、方法の計算の必要量はさらに低減され、画像中のオブジェクトの速いセグメンテーションが可能になる。畳み込みニューラルネットワークを含むが、これに限定されない機械学習方法によって、そのような表現はより容易に学習される。
【0026】
したがって、本発明による方法は、医療用途(医療用画像処理)または自動運転車の視覚の改善を含め、あらゆる視覚ベースのシーン理解システムで使用することができる。
【図面の簡単な説明】
【0027】
本発明の好ましい実施形態は、以下の図面を参照して以下に例として記述される。
【
図1】本発明に係る方法の好ましい実施形態の工程を例示する図である。
【
図2】本発明に係る方法の好ましい実施形態の工程を例示する図である。
【
図3】本発明に係る方法の別の好ましい実施形態の工程を例示する図である。
【
図4】本発明に係る方法の別の好ましい実施形態の工程を例示する図である。
【
図5】ニューラルネットワークによって決定された、セグメンテーション輪郭のフーリエ記述子の値の例である。
【
図6】画像に対する、
図4に係る方法の適用を例示する図である。
【
図7】マニュアル注釈、
図2に係る方法、および
図4に係る方法によって決定された、再構成されたセグメンテーション輪郭の比較を示す図である。
【
図8】フーリエ記述子の係数の典型的な値を示す図である。
【
図9】遮蔽されたオブジェクトのセグメンテーション輪郭を再構成するための、本発明に係る方法の使用を例示する図である。
【発明を実施するための形態】
【0028】
本発明は、一括してオブジェクトセグメンテーションと呼ばれる、画像中のオブジェクトまたはオブジェクトインスタンスのセグメンテーションのための方法に関する。オブジェクトインスタンスは、好ましくは、自動運転用途の場合には、例えば自動車、歩行者など、または医療用途の場合には様々な器官など、関心のカテゴリの特定の用途一式に制限される。記載の全体にわたって、単語「オブジェクト」は、同じカテゴリの異なるオブジェクトインスタンス、または異なるカテゴリのオブジェクトを示すことができる。さらに、用語「オブジェクトセグメンテーション」は、インスタンスセグメンテーションのタスク、すなわち、画像のピクセルを、ピクセルが属する対応するオブジェクトインスタンスの識別タグでラベル付けをするために使用される。画像中に1つのオブジェクトのみ存在する用途では、オブジェクトセグメンテーションは単純化し、セマンティックセグメンテーション、すなわち、そのカテゴリで各ピクセルにラベル付けをする。
【0029】
オブジェクトセグメンテーションの場合には、通常のタスクは、画像中の特定のオブジェクトに対応する各ピクセルのためのラベル(識別タグ、例えば、数、コード、またはタグ)を予測し、結果としてピクセル単位のオブジェクトマスクをもたらすことである。本発明に係る方法において、セグメント化されるオブジェクトは画像中のそれらの輪郭(セグメンテーション輪郭)によって表現され、それに基づいて、オブジェクトのマスクを作成することができ、すなわち、セグメンテーション輪郭内のピクセルを、セグメンテーション輪郭自体を伴って、またはセグメンテーション輪郭を伴わないで含むことによって、作成できる。
【0030】
本発明によれば、セグメンテーション輪郭点の実空間の座標を直接決定する代わりに、表現、好ましくはコンパクトな表現が、セグメンテーション輪郭点から生成される。このセグメンテーション輪郭の表現(通常は、輪郭の記述子または記述子と呼ばれる)は、機械学習システムによって学習され得る。機械学習システムは、好ましくはあらゆる既知の機械学習アルゴリズムまたは方法を実施し、例えば、機械学習システムは、ニューラルネットワーク、好ましくは畳み込みニューラルネットワークを含む。訓練された機械学習システムは、好ましくは逆変換によって、記述子を決定することができ、記述子からセグメンテーション輪郭が再構成され得る。図で示される本発明に係る方法の実施形態は、当技術分野で知られている他の機械学習アルゴリズム/方法と比較して、セグメンテーションタスクにおける高い効率によって、機械学習アルゴリズムとしてニューラルネットワークを使用することにより実施される。しかしながら、他の機械学習アルゴリズム/方法、例えば、フィルタリングまたは特徴抽出の方法(例えば、スケール不変特徴変換(SIFT)、勾配方向ヒストグラム(HOG)、Haarフィルタ、またはガボールフィルタ)、回帰法(例えば、シングルベクトル回帰(SVR)または決定木)、アンサンブル方法(例えば、ランダムフォレスト、ブースティング)、特徴選択(例えば、最小冗長性最大関連性(MRMR))、次元削減(例えば、主成分分析(PCA))、またはそのあらゆる適切な組合せも使用され得る。画像と、セグメンテーション輪郭が再構成され得るオブジェクトの輪郭の表現(記述子)とが一致するように、機械学習アルゴリズム/方法は訓練されなければならない。
【0031】
画像中のオブジェクトセグメンテーションのための本発明に係る方法は、
訓練された機械学習システムに画像を入力する工程、
訓練された機械学習システムによって、画像中のオブジェクトのセグメンテーション輪郭の表現を推定する工程であって、セグメンテーション輪郭は閉じた二次元パラメトリック曲線であって、セグメンテーション輪郭の各点は2つの座標成分によって定義され、両方の座標成分はパラメータ化される、推定する工程、および
セグメンテーション輪郭の推定された表現からオブジェクトのセグメンテーション輪郭を再構成する工程
を含む。
【0032】
本発明によれば、オブジェクトのセグメンテーション輪郭は閉じた二次元パラメトリック曲線であり、その点(輪郭点)は2つの座標成分によって定義され、両方の座標成分はパラメータ化される。輪郭点の離散数の使用は、方法の複雑性を制限、および計算の必要量を低減することができる。
【0033】
好ましくは、セグメンテーション輪郭の2つの座標成分は独立してパラメータ化され、例えば、時間様パラメータ(time-like parameter)によって、好ましくは単一の時間様パラメータによってパラメータ化される。2D平面内のパラメータ化された座標成分は、例えば、直交座標、極座標、または複素(またはあらゆる代替)座標表現を使用して、あらゆる座標系および基準座標系において表現され得る。二次元曲線の座標成分を共にパラメータ化する利点は、あらゆる形状(凹形状を含む)を有する曲線を表現できることである。本発明に係る方法の好ましい実施形態では、セグメンテーション輪郭は、直交座標によって表現され、さらに好ましくは、セグメンテーション輪郭は、曲線の軌道rをコード化する、時間様パラメータtでパラメータ化された直交座標によって表現される、すなわち、r(t)=(x(t)、y(t))であり、xおよびyは、セグメンテーション輪郭の輪郭点のそれぞれの直交座標を定義する関数である。別の好ましい実施形態では、セグメンテーション輪郭のパラメータ化はその接線ベクトル、すなわち軌道に沿った速度を介してコード化され、接線ベクトルは輪郭点の変位ベクトルとして抽出することができる。さらなる好ましい実施形態では、セグメンテーション輪郭は、セグメンテーション輪郭の点同士を結ぶ、一連の標準化された線分としてパラメータ化される。
【0034】
セグメンテーション輪郭の輪郭点を直接推定する代わりに、本発明に係る方法は、訓練された機械学習システムによって、表現、好ましくは輪郭の変換されたコンパクトな表現を推定する。方法の正確さ、すなわちオブジェクトの正確な輪郭へのセグメンテーション輪郭の接近は、変換された表現の次元によって制御することができ、例えば、利用可能な計算資源も考慮される。また、変換された表現によって、オブジェクトの一般的な形状(例えば、参照輪郭)、および形状に課された幾何学的変換を含むセグメンテーション輪郭の分解された表現が可能になる。本発明の好ましい実施形態では、コンパクトな表現はフーリエ変換によって、さらに好ましくは離散的フーリエ変換によって生成することができる。
【0035】
したがって、本発明の好ましい実施形態では、上記の変位ベクトル列は、好ましくはフーリエ変換によって、さらに好ましくは離散的フーリエ変換によって、空間領域から周波数領域に変換される。その結果、セグメンテーション輪郭はフーリエ高調波の振幅によって表現される。文献(F.P.Kuhl and C.R.Giardina,“Elliptic Fourier features of a closed contour”,Computer Graphics and Image Processing,1982)において、特にこの表現は、曲線の楕円フーリエ記述子(EFD)と一般にいう。離散的フーリエ変換の利点は、曲線のいずれの2つの構成要素のパラメータ化に対しても実行され得ることである。セグメンテーション輪郭のコンパクトな表現を得るために、記述子の係数の数は、固定値に限定されている。セグメンテーション輪郭の表現(記述子)を推定する場合、この値は、機械学習アルゴリズムのための入力パラメータになり得、再構成されたセグメンテーション輪郭の正確さ(精度)を制御する。係数の単一のベクトルによりオブジェクトのセグメンテーション輪郭を表現することによって、固定長のコンパクトな表現が提供される。このベクトルの長さは使用される高調波の数、例えば、フーリエ変換の場合には、変換の次数を示すフーリエ高調波の数に比例する。以下、この固定長ベクトルはフーリエ記述子という。
【0036】
単一の周波数については、2つの実数値のフーリエ係数は、所与の高調波の振幅および位相をそれぞれ説明する。概して、4つの実数値の係数は、二次元で現実空間輪郭に沿った2つの構成要素の軌道の単一の周波数成分を表現することが必要とされる。その結果、セグメンテーション輪郭が楕円のフーリエ記述子によって表現された場合、記述子の長さは4×Oであり、Oは、変換の高調波の数(文献では次数ともいう)を示す。このように、本発明に係る方法は、セグメンテーション輪郭の記述子を含んでいる固定長ベクトルの回帰にオブジェクトセグメンテーションのタスクを単純化する。このタスクは画像およびセグメンテーション輪郭(またはオブジェクトマスク)ペアを含んでいる既存のセットの訓練データから学習することができ、そこから上記のベクトル表現は導かれ得る。回帰は、機械学習方法/アルゴリズムを含むあらゆる形式で、例えば、畳み込みニューラルネットワークによって実施することができる。セグメンテーション輪郭は、変換の逆の適用によって記述子から再構成することができ、すなわち、楕円のフーリエ記述子の場合には、逆離散的フーリエ変換が使用できる。
【0037】
直交座標、極座標、または複素ベクトルなどの係数のあらゆる適切な表現も、提案された方法の等価であることが強調される。
【0038】
図1および
図2は、本発明に係る方法の好ましい実施形態を例示し、訓練された機械学習システムはニューラルネットワーク(20)を含む。ニューラルネットワーク(20)は、工程(S100)(
図2)における画像(10)中のオブジェクトのセグメンテーション輪郭(40)の表現を推定するように訓練され、セグメンテーション輪郭(40)の表現は、フーリエ記述子(30)であり、好ましくは楕円のフーリエ記述子であり、工程(S110)(
図2)において、そこからセグメンテーション輪郭(40)を逆フーリエ変換によって再構成できる。フーリエ記述子(30)の一例は、
図5に示される。本実施形態では、ニューラルネットワーク(20)は直接フーリエ記述子(30)を決定し、そこからセグメンテーション輪郭(40)を直接再構成でき、すなわち、再構成にはフーリエ記述子(30)の変形を必要としない。セグメント化されるオブジェクトの正確な輪郭(境界)からの再構成されたセグメンテーション輪郭(40)の偏差は、フーリエ記述子(30)で使用されるフーリエ係数の数に依存する。フーリエ記述子(30)中のフーリエ係数の数を増加させることによって、再構成されたセグメンテーション輪郭(40)は、オブジェクトの正確な輪郭(境界)に近似するが、フーリエ係数の限りある数でさえ、例えば、8の次数を有するフーリエ変換に対応する32のフーリエ係数は、正確な輪郭に相当によく近似する、再構成されたセグメンテーション輪郭(40)をもたらす(
図7およびその説明を参照されたい)。
【0039】
図3および
図4は、本発明に係る方法のさらなる好ましい実施形態を例示する。また、本実施形態では、機械学習システムは、工程(S100’)(
図4)においてオブジェクトの参照輪郭の表現を推定するように訓練されるニューラルネットワーク(20)を備え、参照輪郭はオブジェクトの典型的な外観に属する。ニューラルネットワーク(20)は、工程(S120)(
図4)において、幾何学的変換の少なくとも1つの幾何学的パラメータ(34)を推定するようにさらに訓練される。したがって、セグメンテーション輪郭の推定された表現は、オブジェクトの典型的な外観および幾何学的変換の少なくとも1つの幾何学的パラメータ(34)に属する参照輪郭の表現を含む。ニューラルネットワーク(20)は、好ましくは畳み込みニューラルネットワークであり、幾何学的変換は、好ましくはスケーリング、平行移動、回転、ミラーリング、またはそれらのあらゆる適切な組合せなどのあらゆる種類の幾何学的変換である。幾何学的パラメータ(34)は、画像(10)内のオブジェクトの実際のサイズ、位置、および方位を表現し得る。これらの特性を活用して、解きほぐされた(disentangled)/分解された表現を、これらの幾何学的因子が形状記述子(参照輪郭)から分割されるように作成できる。このコンパクトで解きほぐされた表現の使用によって、回帰問題は、参照輪郭および幾何学的変換パラメータの表現が独立して処理されるため、機械学習システムによって学習されやすくなる。この解きほぐされた表現によって、あまり複雑でないニューラルネットワーク(20)の適用が可能となって、推論時間がより速くなり、メモリフットプリントはより小さくなる。さらに、ニューラルネットワーク(20)によって、より単純な表現の学習は通常で過学習にさらされることが少なくなり、それによって学習済みモデルの一般化特性を増加させる。
【0040】
図3および
図4内に例示された実施形態では、セグメンテーション輪郭の表現は、参照輪郭のフーリエ変換であるフーリエ記述子を含む。ニューラルネットワーク(20)の出力は、セグメント化されるオブジェクトの参照輪郭のフーリエ記述子(30’)および幾何学的変換の少なくとも1つの幾何学的パラメータ(34)である。工程(S130)(
図4)において、参照輪郭のフーリエ記述子(30’)および幾何学的パラメータ(34)は、一体的に組み合わされて、調整された記述子(36)となり、調整された記述子(36)はセグメンテーション輪郭(40’)の推定された表現である。セグメンテーション輪郭(40’)は、工程(S110’)(
図4)で逆フーリエ変換、好ましくは逆離散的フーリエ変換(IDFT)の適用によって、調整された記述子(36)から再構成される。方法の上記の実施形態の工程の実例は、
図6で見ることができる。
【0041】
本発明に係る方法のさらに好ましい実施形態(図示はされず、参照符号は
図3および
図4内のものを指す)では、セグメンテーション輪郭の推定された表現は、好ましくはオブジェクトの典型的な外観に属する参照輪郭の表現および幾何学的変換の少なくとも1つの幾何学的パラメータ(34)を含む。幾何学的変換は、好ましくはスケーリング、平行移動、回転、ミラーリング、またはそれらのあらゆる適切な組合せなどのあらゆる種類の幾何学的な変換であり、幾何学的パラメータ(34)は、オブジェクトの実際のサイズ、位置、および方位を表現し得る。セグメンテーション輪郭の表現は、フーリエ記述子、好ましくは楕円のフーリエ記述子であって、参照輪郭のフーリエ変換であるフーリエ記述子を含むのが好ましい。セグメンテーション輪郭(40’)の再構成のために、最初に、参照輪郭は、好ましくは逆フーリエ変換の適用によって、さらに好ましくは参照輪郭のフーリエ記述子に対する逆離散的フーリエ変換によって、参照輪郭の表現から再構成される。その後、第2の工程では、再構成された参照輪郭は、再構成された参照輪郭に対して幾何学的変換を適用することによって、セグメンテーション輪郭(40’)に変換される。
【0042】
図5は、
図1および
図2の方法に従って、機械学習システムに含まれたニューラルネットワーク(20)によって推定された、フーリエ記述子(30)、この場合は楕円のフーリエ記述子の典型的な値を示す。例示された場合では、8番目の次数までのフーリエ変換はオブジェクトのセグメンテーション輪郭(40)を表現するために使用され、したがって、ニューラルネットワーク(20)によって8×4フーリエ係数が推定された。フーリエ記述子(30)を構成するこれらの推定された係数に対して逆フーリエ変換を適用することによって、オブジェクトのセグメンテーション輪郭(40)を再構成できる。
【0043】
図3および
図4による方法の実施は、
図6に例示される。ニューラルネットワーク(20)を備える機械学習システムの入力には、セグメント化される画像(10)が提供され、ニューラルネットワーク(20)は、好ましくは畳み込みニューラルネットワークである。ニューラルネットワーク(20)は、オブジェクトの参照輪郭(形状)および幾何学的変換の少なくとも1つの幾何学的パラメータ(34)に対応するフーリエ記述子(30’)を推定するように訓練され、幾何学的パラメータ(34)は、オブジェクトのサイズ、位置、および/または方位に対応する。
図5と同様に、フーリエ記述子(30’)は推定されたフーリエ係数によって例示される。この場合、幾何学的パラメータ(34)は、それぞれΔxおよびΔyによって表された画像(10)中のオブジェクトの水平変位および垂直変位、ならびにスケールファクタを含んでいる。フーリエ記述子(30’)および幾何学的パラメータ(34)は、組み合わさると調整された記述子(36)となり、そこからオブジェクトのセグメンテーション輪郭(40’)を、逆フーリエ変換によって再構成できる。
【0044】
また、
図6は手入力で注釈を付けられた輪郭、つまり画像(10)のグラウンドトゥルース輪郭(12)を含んでいる。グラウンドトゥルース輪郭(12)と再構成されたセグメンテーション輪郭(40’)との定性的比較から、後者は正確な輪郭の良好な近似を与え、つまりオブジェクトの位置、サイズ、全体形状は、グラウンドトゥルース輪郭(12)のそれらと一致していることを確認できる。
【0045】
手入力での注釈、
図2に係る方法、および
図4に係る方法によって決定された、再構成されたセグメンテーション輪郭の詳細な比較は、
図7に例示される。
図7の1列目は、セグメント化される画像(10a)、(10b)、(10c)からなる。画像(10a)、(10b)、(10c)は、同じオブジェクト(車)を異なる視野で示すグレースケールまたはカラー画像であるため、オブジェクトのサイズおよび位置も異なる。
図7の2列目は、手入力での注釈によって決定されたオブジェクトのグラウンドトゥルース輪郭(12a)、(12b)、(12c)を示す。
【0046】
図7の3列目は、画像(10a)、(10b)、(10c)それぞれの、
図2に係る方法の好ましい実施形態に従って再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)を示す。再構成された各セグメンテーション輪郭(40a)、(40b)、(40c)の重心は十字記号によって表される。再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)は、画像(10a)、(10b)、(10c)およびグラウンドトゥルース輪郭(12a)、(12b)、(12c)に見られるオブジェクトに合致する。再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)は、
図1および
図2に従って、訓練された機械学習システムのニューラルネットワーク(20)によって、訓練された機械学習システムが決定したフーリエ記述子(30)から再構成された。この特定の例におけるフーリエ記述子(30)は、8つの高調波を有するフーリエ変換に対応する32の係数を有している(フーリエ変換の次数は8である)。
【0047】
図7の4列目は、画像(10a)、(10b)、(10c)それぞれの、
図4に係る方法の好ましい実施形態に従って再構成されたセグメンテーション輪郭(40’a)、(40’b)、(40’c)を示す。再構成された各セグメンテーション輪郭(40a)、(40b)、(40c)の重心はプラス記号によって表される。
【0048】
図7で見られるように、本発明に係る方法の異なる実施形態、例えば、
図2による方法および
図4による方法は、同様の再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)および再構成されたセグメンテーション輪郭(40’a)、(40’b)、(40’c)をもたらす。再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)および再構成されたセグメンテーション輪郭(40’a)、(40’b)、(40’c)はすべて、それぞれのグラウンドトゥルース輪郭(12a)、(12b)、(12c)と類似する。
【0049】
図8は、
図7によるフーリエ記述子の係数(フーリエ係数)の値の比較図表を表す。フーリエ係数は、セグメンテーション輪郭の2つの座標の表現、つまりデカルト基底中のセグメンテーション輪郭の水平座標成分および垂直座標成分に従ってグループ化される。
図8の図表は、フーリエ係数のそれぞれの値を比較し、白い柱は、
図7(2列目)によるグラウンドトゥルース輪郭(12a)、(12b)、(12c)の値を表し、黒い柱は、
図2(
図7の3列目)の方法によるフーリエ係数の値を表し、縞模様の柱は、
図4(
図7の4列目)の方法によるフーリエ係数の値を表す。
図8の図表から見られるように、再構成されたセグメンテーション輪郭(40a)、(40b)、(40c)、(40’a)、(40’b)、(40’c)は、グラウンドトゥルース輪郭(12a)、(12b)、(12c)の良好な近似を与えるので、本発明に係る方法の実施形態は、画像中のオブジェクトの速く確実なセグメンテーションに使用することができる。
【0050】
図9は、画像(10)中の視界が塞がれている/遮られているオブジェクト、例えば、部分的に隠されたオブジェクトのセグメンテーション輪郭を再構成するための本発明に係る方法の使用の例を挙げる。この例において、画像(10)中のオブジェクトの一部は人為的に覆われ、他の場合には、オブジェクトは異なるオブジェクト(遮蔽オブジェクト)で覆われる場合もある。本発明に係る方法の特定の適用では、オブジェクトの遮蔽部分は無視されてもよく、または他の適用では、遮蔽部分は、同じオブジェクトの可視部分に割り当てられることになる。
【0051】
遮蔽の場合には、セグメンテーション中に同じ識別タグで同じオブジェクトの部分を表すことが望ましい。本発明に係る方法の好ましい実施形態によれば、例えば、深さまたは層を表す順序付けパラメータを、遮蔽オブジェクトに対して決定することができる。例えば、同じまたは類似した値を伴う順序付けパラメータを有する順序付けパラメータに基づいて、同じ遮蔽オブジェクトに属するセグメント化された輪郭を識別することができ、同じ識別タグを同じオブジェクトに属するセグメンテーション輪郭に割り当てることができる。
【0052】
さらなる好ましい実施形態では、遮蔽を処理するために、好ましくは各セグメンテーション輪郭の推定された表現に対して、機械学習アルゴリズムによって可視性スコア値が生成される。可視性スコア値は、好ましくは、遮蔽によってオブジェクトを複数の部分へ分割することの結果として生じる各オブジェクト部分の可視性または非可視性を示す。可視性スコア値に基づいて、非可視のオブジェクト部分は無視するか省略する、例えば、セグメント化された画像から除外することができ、あるいは、非可視のオブジェクト部分は、同じオブジェクトの可視部分に割り当てることができる、すなわち、同じ識別タグを割り当てることによって可能となる。同じ識別タグは、好ましくは上記のような順序付けパラメータに基づいて割り当てられる。
【0053】
図9に示される実施形態によれば、訓練された機械学習システムはニューラルネットワーク(20)を備え、ニューラルネットワーク(20)は、所定数のオブジェクトおよび/または所定数の部分を構成する単一のオブジェクトを検出するように訓練される。
図9による例では、オブジェクトを構成する部分の最大数は3であり、あるいは、3つの個別オブジェクトがセグメント化される。方法のこの実施形態に係るニューラルネットワーク(20)は、このようにして3つのフーリエ記述子(30)(3セットのフーリエ係数)、好ましくは楕円のフーリエ記述子を推定し、各フーリエ記述子(30)の値は、
図5と同様にグラフ中で示される。また、ニューラルネットワーク(20)は、各オブジェクトまたはオブジェクト部分の可視性を示す可視性スコア値を決定する。オブジェクトまたはオブジェクト部分が可視でない(遮蔽されている)場合、その可視性スコア値は0となる。この例において、2つの可視オブジェクトのみ(つまり、同じオブジェクトの2つの部分)が、画像(10)中にあり、したがって、これら2つのみの可視性スコア値が0ではない。
【0054】
この例における可視のオブジェクト部分の可視性スコア値は1であるが、他の0でない値は可視のオブジェクトまたはオブジェクト部分のさらなるパラメータもしくは特徴を示すために使用され得る。本発明に係る方法の特定の実施形態では、可視性スコア値は、順序付けパラメータの値、例えば、画像(10)を撮るカメラからの距離に対応する値を含むことができる。可視性スコア値および/または順序付けパラメータに基づいて、関係、好ましくは、セグメンテーション輪郭の空間的関係を決定することができ、同じオブジェクトに属するセグメンテーション輪郭を識別することができる。
【0055】
図9による例では、画像(10)中の可視のオブジェクトまたはオブジェクト部分の可視性スコア値は1であり、画像(10)中の可視でないオブジェクトまたはオブジェクト部分(隠されたもしくは遮蔽されたオブジェクトまたはオブジェクト部分)の可視性スコア値は0である。
図9によれば、セグメンテーション輪郭の再構成は、可視のオブジェクトまたはオブジェクト部分に対してのみ、すなわち、可視性を示す可視性スコア値を有する、この場合では可視性スコア値が0でないオブジェクト/オブジェクト部分に対してのみ、逆離散的フーリエ変換(IDFT)を介して実行される。各オブジェクト/オブジェクト部分の再構成されたセグメンテーション輪郭(40)は、同じ再構成されたセグメンテーション輪郭画像の中で示される。
【0056】
本発明は、本発明に係る方法の工程を実行するための手段を含むデータ処理システムにさらに関する。データ処理システムは、好ましくは1台または複数のコンピュータに対して実施され、オブジェクトセグメンテーション、例えば、オブジェクトのセグメンテーション輪郭の表現の推定の提供のために訓練される。データ処理システムの入力は、セグメント化される画像であり、画像は1または複数のオブジェクトまたはオブジェクト部分を含む。オブジェクトのセグメンテーション輪郭は閉じた二次元パラメトリック曲線として表現され、各点は2つの座標成分によって定義され、両方の座標成分はパラメータ化される。セグメンテーション輪郭の表現の特性は、
図1および
図2に関連してより詳細に述べられている。データ処理システムは、好ましくは当技術分野で知られているあらゆる訓練方法によって訓練された機械学習システムを備え、機械学習システムは、好ましくは輪郭(グラウンドトゥルース輪郭)の手入力での注釈を有するセグメント化される画像および閉じた二次元パラメトリック曲線であるセグメンテーション輪郭の表現に対して訓練され、各点は2つの座標成分によって定義され、両方の座標成分はパラメータ化される。好ましくは、セグメンテーション輪郭の表現は、フーリエ記述子、さらに好ましくは楕円のフーリエ記述子である。
【0057】
好ましくは、データ処理システムの機械学習システムは、少なくとも1つの幾何学的変換のパラメータおよび/または各オブジェクトの識別タグの推定を提供するようにさらに訓練され、幾何学的変換はスケーリング、平行移動、回転、および/またはミラーリングを含み、識別タグは好ましくは各オブジェクトの一意の識別子である。
【0058】
好ましい実施形態では、同じオブジェクト部分に同じ識別タグが割り当てられる。さらなる好ましい実施形態では、データ処理システムの機械学習システムは、画像中の複数のオブジェクトおよび/または遮蔽により部分へ分割したオブジェクトをセグメント化するように訓練される。好ましいデータ処理システムは、それぞれのオブジェクトまたはオブジェクト部分の可視性に関係する各オブジェクトまたはオブジェクト部分の可視性スコア値を決定するように訓練される、機械学習システムを備える。遮蔽を処理するために、可視性スコア値は、遮蔽するオブジェクトの相対位置を表現する順序付けパラメータの値を含んでもよく、これに基づいて同じオブジェクトに属するオブジェクト部分に、同じ識別タグを割り当てることができる。
【0059】
データ処理システムの機械学習システムは、好ましくはオブジェクトセグメンテーションのために訓練されたニューラルネットワーク、より好ましくは畳み込みニューラルネットワークを含む。
【0060】
さらに、本発明は、プログラムがコンピュータによって実行される場合に、コンピュータに本発明に係る方法の実施形態を実行させる命令を含む、コンピュータプログラムプロダクトに関する。
【0061】
コンピュータプログラムプロダクトは、1台または複数のコンピュータによって実行可能であり得る。
【0062】
また、本発明は、コンピュータによって実行される場合に、コンピュータに本発明に係る方法の実施形態を実行させる命令を含む、コンピュータ可読媒体に関する。
【0063】
コンピュータ可読媒体は、単一のものであってもよく、またはより多くの別個の部分を含んでもよい。
【0064】
本発明は、もちろん、詳細に上述された好ましい実施形態に限定されないが、さらなる変形、修正、および展開が、特許請求の範囲によって定められた保護の範囲内で可能である。さらに、あらゆる任意の従属請求項の組合せによって定義され得るすべての実施形態が、本発明に属する。
【0065】
参照符号のリスト
10 画像
10a、10b、10c 画像
12 グラウンドトゥルース輪郭
12a、12b、12c グラウンドトゥルース輪郭
20 ニューラルネットワーク
30、30’ フーリエ記述子
34 幾何学的パラメータ
36 調整された記述子
40’、40 セグメンテーション輪郭
40a、40b、40c セグメンテーション輪郭
40’a、40’b、40’c セグメンテーション輪郭
S100、S100’ (フーリエ記述子推定)工程
S110、S110’ (輪郭再構成)工程
S120 (幾何学的パラメータ推定)工程
S130 (調整された記述子生成)工程
【手続補正書】
【提出日】2022-09-23
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
本発明の目的は、請求項1に記載の方法によって達成できる。本発明の目的は、さらに請求項11に記載のデータ処理システム、請求項12に記載の非一時的なコンピュータプログラムプロダクト、および請求項13に記載の非一時的なコンピュータ可読媒体によって達成することができる。本発明の好ましい実施形態は、従属請求項において定義される。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0025
【補正方法】変更
【補正の内容】
【0025】
本発明に係る方法は、オブジェクトの形状の典型的な外観(基礎的な表現または参照輪郭)を推定することによって、またオブジェクトのスケーリング、回転、ミラーリング、または平行移動などの幾何学的変換のうちの少なくとも1つ、またはその組合せで幾何学的パラメータを推定することによって、オブジェクトの輪郭を再構成することができ、ここで幾何学的パラメータ(複数可)は、画像中のオブジェクトのサイズ、位置、および方位に相当する。オブジェクトの基礎的な形状を分離することと上述の幾何学的変換は、より効率的な方法で推定できるオブジェクト輪郭の表現を提供し、ここで基礎的な形状または参照輪郭は、上記の幾何学的変換に対して不変である。特定の機械学習アルゴリズム/方法、例えば、畳み込みニューラルネットワークは、平行移動に対して不変であり、オブジェクト輪郭のそのような分解された表現によく整合する。この分解された表現の適用によって、同じ参照輪郭はそれらのサイズ、位置、および方位にかかわらず画像の異なる部分に位置する同じオブジェクトを推定することができる。正確なサイズ、位置、および方位に関する情報は、少数の幾何学的パラメータにおいてコード化することができる。さらに、実際の適用では、幾何学的変換は、3D空間における剛体変換、すなわち画像に投影されたオブジェクトの移動によく近似する。したがって、複数の画像、例えば、カメラストリームの画像が順番に処理される場合には、連続画像は互いに類似し、画像中のオブジェクトの全体的な形状はほとんど同一であるが、サイズ、位置、または方位はわずかに異なり得る。形状と対応する幾何学的パラメータを決定するアプローチによって、方法の計算の必要量はさらに低減され、画像中のオブジェクトの速いセグメンテーションが可能になる。畳み込みニューラルネットワークを含むが、これに限定されない機械学習方法によって、そのような表現はより容易に学習される。
【手続補正3】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像(10)中のオブジェクトセグメンテーションのための方法であって、前記方法は、
訓練された機械学習システムに前記画像(10)を入力する工程、
および
前記訓練された機械学習システムによって、前記画像(10)中のオブジェクトのセグメンテーション輪郭(40、40’)の表現を推定する工程であって、前記セグメンテーション輪郭(40、40’)は閉じた二次元パラメトリック曲線である、推定する工程
を含み、
前記セグメンテーション輪郭(40、40’)の推定された表現から、
凹形状輪郭を含むあらゆる輪郭を有する前記オブジェクトの前記セグメンテーション輪郭(40、40’)を再構成することであって、
前記セグメンテーション輪郭(40、40’)の各点は2つの座標成分によって定義され、前記セグメンテーション輪郭(40、40’)の両方の座標成分は、独立してパラメータ化されること、
ならびに
前記推定された表現は、
前記訓練された機械学習システムによって推定された幾何学的変換の少なくとも1つのパラメータ、および
前記訓練された機械学習システムによって推定された前記オブジェクトの典型的な外観に属する参照輪郭の表現を含むことを特徴とする、方法。
【請求項2】
前記セグメンテーション輪郭(40、40’)の再構成が、
前記参照輪郭に、前記幾何学的変換の少なくとも1つのパラメータを組み合わせることによって調整された表現を生成し、前記調整された表現から前記セグメンテーション輪郭(40、40’)を再構成すること、または
前記参照輪郭の表現から前記参照輪郭を再構成し、再構成された前記参照輪郭を前記幾何学的変換で前記セグメンテーション輪郭(40、40’)に変換すること
によって行われれることを特徴とする、請求項1に記載の方法。
【請求項3】
前記幾何学的変換が、スケーリング、平行移動、回転、および/またはミラーリングを含むことを特徴とする、請求項1または2に記載の方法。
【請求項4】
前記セグメンテーション輪郭(40、40’)の表現が、フーリエ変換によって得られ、前記推定された表現は、前記訓練された機械学習システムによって推定されたフーリエ記述子を含み、前記セグメンテーション輪郭(40、40’)の再構成は、前記フーリエ記述子に対してフーリエ逆変換を適用することを含むことを特徴とする、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記フーリエ記述子が、楕円フーリエ記述子であることを特徴とする、請求項4に記載の方法。
【請求項6】
前記訓練された機械学習システムによって各セグメンテーション輪郭(40、40’)用の識別タグを生成する工程をさらに含むことを特徴とする、請求項1~5のいずれか一項に記載の方法。
【請求項7】
遮蔽を処理するために、前記訓練された機械学習システムによって、各セグメンテーション輪郭(40、40’)の表現に対して可視性スコア値が生成され、前記可視性スコア値は、オブジェクトまたはオブジェクト部分が可視か、隠れているか、もしくは遮蔽されるかどうかを示し、
前記セグメンテーション輪郭(40、40’)は、オブジェクトの可視性を示す可視性スコア値を有する表現だけのために再構成されることを特徴とする、請求項6に記載の方法。
【請求項8】
遮蔽の場合には、同じオブジェクトに属するセグメンテーション輪郭(40、40’)には、同じ識別タグが割り当てられることを特徴とする、請求項7に記載の方法。
【請求項9】
前記訓練された機械学習システムが、ニューラルネットワークを含むことを特徴とする、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記ニューラルネットワークが、畳み込みニューラルネットワークであることを特徴とする、請求項9に記載の方法。
【請求項11】
画像(10)中のオブジェクトセグメンテーションのためのデータ処理システムであって、前記画像(10)中のオブジェクトのセグメンテーション輪郭(40、40’)の表現を推定するための訓練された機械学習システムを含み、前記セグメンテーション輪郭(40、40’)は閉じた二次元パラメトリック曲線であり、その各点は2つの座標成分によって定義され、両方の座標成分は独立してパラメータ化され、前記データ処理システムは、
前記訓練された機械学習システムにセグメンテーションされる前記画像(10)を入力すること、および
前記セグメンテーション輪郭(40、40’)の推定された表現から前記オブジェクトの前記セグメンテーション輪郭(40、40’)を再構成することに適している、データ処理システム。
【請求項12】
プログラムがコンピュータによって実行される場合、前記コンピュータに請求項1~10のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータプログラムプロダクト。
【請求項13】
コンピュータによって実行される場合、前記コンピュータに請求項1~10のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータ可読媒体。
【手続補正書】
【提出日】2022-05-17
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
本発明の目的は、請求項1に記載の方法によって達成できる。本発明の目的は、さらに請求項13に記載のデータ処理システム、請求項14に記載の非一時的なコンピュータプログラムプロダクト、および請求項15に記載の非一時的なコンピュータ可読媒体によって達成することができる。本発明の好ましい実施形態は、従属請求項において定義される。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像
(10)中のオブジェクトセグメンテーションのための方法であって、前記方法は、
訓練された機械学習システムに前記画像(10)を入力する工程、
前記訓練された機械学習システムによって、前記画像(10)中のオブジェクトのセグメンテーション輪郭(40、40’)の表現を推定する工程であって、前記セグメンテーション輪郭(40、40’)は閉じた二次元パラメトリック曲線である、推定する工程、および
前記セグメンテーション輪郭(40、40’)の推定された表現から、前記オブジェクトの前記セグメンテーション輪郭(40、40’)を再構成する工程を含む方法を含み、
前記セグメンテーション輪郭(40、40’)の各点は2つの座標成分によって定義され、前記セグメンテーション輪郭(40、40’)の両方の座標成分は独立してパラメータ化されること
を特徴とする、方法。
【請求項2】
前記セグメンテーション輪郭(40、40’)の前記2つの座標成分が、単一の時間様パラメータによってパラメータ化されることを特徴とする、請求項1に記載の方法。
【請求項3】
前記推定された表現が、
前記訓練された機械学習システムによって推定された幾何学的変換の少なくとも1つのパラメータ、および
前記訓練された機械学習システムによって推定された前記オブジェクトの典型的な外観に属する参照輪郭の表現
を含むことを特徴とする、請求項1~2のいずれか一項に記載の方法。
【請求項4】
前記セグメンテーション輪郭(40、40’)の再構成が、
前記参照輪郭に、前記幾何学的変換の少なくとも1つのパラメータを組み合わせることによって、調整された表現を生成し、前記調整された表現から前記セグメンテーション輪郭(40、40’)を再構成すること、または
前記参照輪郭の表現から参照輪郭を再構成し、再構成された前記参照輪郭を前記幾何学的変換で前記セグメンテーション輪郭(40、40’)に変換すること
によって行われることを特徴とする、請求項3に記載の方法。
【請求項5】
前記幾何学的変換が、スケーリング、平行移動、回転、および/またはミラーリングを含むことを特徴とする、請求項3または4に記載の方法。
【請求項6】
前記セグメンテーション輪郭(40、40’)の表現が、フーリエ変換によって得られ、前記推定された表現は、前記訓練された機械学習システムによって推定されたフーリエ記述子を含み、前記セグメンテーション輪郭(40、40’)の再構成は、前記フーリエ記述子に対してフーリエ逆変換を適用することを含むことを特徴とする、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記フーリエ記述子が、楕円フーリエ記述子であることを特徴とする、請求項6に記載の方法。
【請求項8】
前記訓練された機械学習システムによって各セグメンテーション輪郭(40、40’)用の識別タグを生成する工程をさらに含むことを特徴とする、請求項1~7のいずれか一項に記載の方法。
【請求項9】
遮蔽を処理するために、前記訓練された機械学習システムによって、各セグメンテーション輪郭(40、40’)の表現に対して可視性スコア値が生成され、オブジェクトの可視性を示す可視性スコア値を有する表現に対してのみ、前記セグメンテーション輪郭(40、40’)が再構成されることを特徴とする、請求項8に記載の方法。
【請求項10】
遮蔽の場合には、同じオブジェクトに属するセグメンテーション輪郭(40、40’)には、同じ識別タグが割り当てられることを特徴とする、請求項9に記載の方法。
【請求項11】
前記訓練された機械学習システムが、ニューラルネットワークを含むことを特徴とする、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記ニューラルネットワークが、畳み込みニューラルネットワークであることを特徴とする、請求項11に記載の方法。
【請求項13】
画像(10)中のオブジェクトセグメンテーションのためのデータ処理システムであって、前記画像(10)中のオブジェクトのセグメンテーション輪郭(40、40’)の表現を推定するための訓練された機械学習システムを含み、前記セグメンテーション輪郭(40、40’)は閉じた二次元パラメトリック曲線であり、その各点は2つの座標成分によって定義され、両方の座標成分は独立してパラメータ化され、前記データ処理システムは、
前記訓練された機械学習システムにセグメント化される前記画像(10)を入力すること、および
前記セグメンテーション輪郭(40、40’)の前記推定された表現から前記オブジェクトの前記セグメンテーション輪郭(40、40’)を再構成することに適している、データ処理システム。
【請求項14】
プログラムがコンピュータによって実行される場合、前記コンピュータに請求項1~12のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータプログラムプロダクト。
【請求項15】
コンピュータによって実行される場合、前記コンピュータに請求項1~12のいずれか一項に記載の方法を行わせる指示を含む、非一時的なコンピュータ可読媒体。
【国際調査報告】