IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2025-22863画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法
<>
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図1
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図2
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図3
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図4
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図5
  • 特開-画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025022863
(43)【公開日】2025-02-14
(54)【発明の名称】画像セグメント化システムを訓練及び/又は試験するための画像を生成するための方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250206BHJP
   G06V 10/82 20220101ALI20250206BHJP
   G06T 7/11 20170101ALI20250206BHJP
   G06N 3/08 20230101ALI20250206BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/11
G06N3/08
【審査請求】未請求
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024128479
(22)【出願日】2024-08-02
(31)【優先権主張番号】23189574
(32)【優先日】2023-08-03
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(74)【代理人】
【識別番号】100210099
【弁理士】
【氏名又は名称】遠藤 太介
(72)【発明者】
【氏名】ダン チャン
(72)【発明者】
【氏名】カスパー ザクマン
(72)【発明者】
【氏名】ロビン フートマッハー
(72)【発明者】
【氏名】ウィリアム ハリス ベルーチ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA01
5L096FA02
5L096GA10
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】画像セグメント化システムを訓練及び/又は試験するための訓練画像及び訓練ラベルマップを生成するためのコンピュータ実装された方法、訓練システム、制御システム、コンピュータプログラム及び機械可読記憶装置を提供する。
【解決手段】本方法は、第1の画像i及び第1の画像に対応する第1のラベルマップlを取得し、第2の画像及び第2の画像iに対応する第2のラベルマップlを取得するステップと、第3の画像iを、入力として第2の画像を提供することによって決定し、提供された画像に基づいて第1の画像のスタイルの画像を決定するステップと、第3の画像からの画素を、第2のラベルマップからのクラスに基づいて決定するステップと、第1の画像内の対応する画素を置換することで、第1のラベルマップ内のクラスラベルを置換するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像セグメント化システム(60)を訓練及び/又は試験するための訓練画像(x)及び訓練ラベルマップ(t)を生成するためのコンピュータ実装された方法であって、前記方法は、
第1の画像(i)及び前記第1の画像(i)に対応する第1のラベルマップ(l)を取得し、第2の画像(i)及び前記第2の画像(i)に対応する第2のラベルマップ(l)を取得するステップと、
第3の画像(i)を決定するステップであって、前記第3の画像は、機械学習システム(70)への入力として前記第2の画像(i)を提供することによって決定され、前記機械学習システム(70)は、提供された画像に基づいて前記第1の画像(i)のスタイルの画像を決定するように構成される、ステップと、
前記第1の画像(i)からの画素を前記第3の画像(i)からの画素で置換することによって前記訓練画像(x)を決定するステップであって、前記第3の画像(i)からの画素は、前記第2のラベルマップ(l)からのクラスに基づいて決定される、ステップと、
前記第1のラベルマップ(l)からのクラスラベルを、異常クラスを示すクラスラベルで置換することによって、前記訓練ラベルマップ(t)を決定するステップであって、前記第1の画像(i)内の対応する画素が置換されることで、前記第1のラベルマップ(l)内の前記クラスラベルが置換される、ステップと、
を含む、方法。
【請求項2】
前記第1のラベルマップからのクラスラベルを置換することは、前記第1のラベルマップからのクラスラベルを前記第2のラベルマップからのクラスラベルで置換することによって達成され、前記第2のラベルマップからの前記クラスラベルは、対応する画素が前記第1の画像内の置換として使用された置換に使用され、前記第1のラベルマップ内の前記置換されたクラスラベルは、置換の結果としてさらに示される、請求項1に記載の方法。
【請求項3】
前記第1の画像は、前記訓練画像を決定する前に増強操作で変換される、請求項1又は2に記載の方法。
【請求項4】
前記機械学習システムは、その入力を前記機械学習システムのマスクされたノイズエンコーダに提供し、前記マスクされたノイズエンコーダの出力をStyleGAN2に提供することに基づいて、その出力を決定する、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記第1の画像は、第1の画像の第1のデータセットによって構成され、前記機械学習システムは、入力画像を前記第1の画像のスタイルに転送するように訓練される、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
画像セグメント化システム(60)を訓練するためのコンピュータ実装された方法であって、前記方法は、
請求項1乃至5のいずれか一項に記載の方法によって、訓練画像(x)及び対応する訓練ラベルマップ(t)を生成するステップと、
前記生成された訓練画像(x)及び前記訓練ラベルマップ(t)を用いて前記画像セグメント化システム(60)を教師あり訓練するステップと、
を含む、方法。
【請求項7】
教師あり訓練することは、
前記訓練画像(x)を前記画像セグメント化システム(60)への入力として提供するステップであって、前記画像セグメント化システム(60)は、前記訓練画像(x)の画素の異なるクラスのロジットを特徴付ける値を決定する、ステップと、
損失関数に基づいて損失値を決定するステップであって、前記損失関数は、前記訓練画像(x)内の画素について決定されたロジットのシグモイドの対数を特徴付ける第1項を含み、前記シグモイドの前記対数は、異常クラスとしてラベル付けされた又は前記訓練ラベルマップ(t)内で異常として示された画素について決定される、ステップと、
前記損失値を最小化することによって前記画像セグメント化システム(60)を教師あり訓練するステップと、
をさらに含む、請求項6に記載の方法。
【請求項8】
前記第1項は、所定量の最大ロジットのシグモイドの対数を特徴付ける、請求項7に記載の方法。
【請求項9】
前記第1の損失項は、以下の式によって特徴付けられ、
【数1】
ここで、i、jは、画素の高さ座標及び幅座標であり、oodは、異常として示された画素の画素座標であり、Noodは、ood内の画素の量であり、Kは、シグモイドの対数を決定するためのロジットの量であり、Si、jは、K個のロジットのセットであり、
【数2】
は、位置i、jにおける前記画素の前記ロジットのセットにおける第kのロジットである、請求項7又は8に記載の方法。
【請求項10】
出力信号(y)を決定するためのコンピュータ実装された方法であって、前記出力信号(y)は、入力画像(x)の画素の分類を異常であるか否かとして特徴付け、前記方法は、
前記入力画像(x)を画像セグメント化システム(60)への入力として提供するステップであって、前記画像セグメント化システム(60)は、請求項1乃至9のいずれか一項に記載の方法で訓練されている、ステップと、
前記画像セグメント化システム(60)により、前記画素のロジットを決定するステップと、
最大の決定されたロジットと最小の決定されたロジットとの差が所定のしきい値以下である場合には、前記出力信号(y)において異常として前記画素の分類を提供し、そうでない場合には、前記出力信号(y)において非異常として前記画素の分類を提供するステップと、
を含む、方法。
【請求項11】
請求項6乃至9のいずれか一項に記載の訓練方法を実施するように構成されている訓練システム(140)。
【請求項12】
請求項10に記載の方法を実施するように構成されている制御システム(40)であって、
前記制御システム(40)は、前記出力信号(y)に基づいて制御信号(A)を決定し、
前記制御信号(A)は、アクチュエータ(10)及び/又はディスプレイ(10a)を制御するように構成されている、制御システム(40)。
【請求項13】
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサ(45,145)によって実行される場合に、請求項1乃至10のいずれか一項に記載の方法を、前記方法のステップのすべてを用いてコンピュータに実施させるように構成されているコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムが格納されている機械可読記憶媒体(46,146)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像セグメント化システムを訓練及び/又は試験するための画像を生成するためのコンピュータ実装された方法、画像セグメント化システムを訓練するためのコンピュータ実装された方法、画像の異常を検出するためのコンピュータ実装された方法、訓練システム、制御システム、コンピュータプログラム、及び、機械可読記憶装置に関する。
【背景技術】
【0002】
Tian等著、「“Pixel-wise energy-biased abstention learning for anomaly segmentation on complex urban driving scenes”,https://arxiv.org/pdf/2111.12264.pdf,2022」は、適応画素レベルの異常クラスを学習するモデルと、異常画素分布を学習するエネルギーに基づくモデル(EBM)とを用いて画素ごとの異常抑制学習(AL)を調べる、画素ごとのエネルギーバイアス抑制学習(PEBAL)と称される異常セグメント化方法を開示している。PEBALは、EBMとALの共同訓練に基づいており、EBMは、(異常値の曝露から)異常画素の高エネルギーを出力するように訓練され、ALは、これらの高エネルギー画素が異常クラスに含まれることに対する適応的な低ペナルティを受けるように訓練される。
【0003】
Nayal等著、「“RbA:Segmenting Unknown Regions Rejected by All”,https://arxiv.org/pdf/2211.14293.pdf,2022」は、外れ値である事象をすべての既知のクラスによって拒絶されると定義することによって、RbAと称される外れ値スコアリング関数を開示している。実験は、マスク分類が既存の外れ値検出方法の性能を改善し、提案されたRbAで最良の結果が達成されることを示している。
【0004】
Li等著、「“Intra-&Extra-Source Exemplar-Based Style Synthesis for Improved Domain Generalization”,https://arxiv.org/pdf/2307.00648.pdf,2023」は、セマンティックセグメント化におけるドメイン汎化を改善するための例示に基づくスタイル合成パイプライン、特にStyleGAN2と組み合わせたマスクされたノイズエンコーダを開示している。
【0005】
環境を認識し、環境の内容を検出することは、さまざまな技術的用途、例えば、ロボット工学において重要なタスクである。典型的な目標は、例えば、環境の要素と衝突しないように、物体、植生、又は、他の関連アイテムを検出するためにカメラなどのセンサを使用することである。
【0006】
特に、自動運転(AD)などの安全性が重要な用途においては、未知の物体(分布外物体、OoD物体)を検出する能力が重要である。これはまた、異常な物体を識別すると理解することができる。より具体的には、セマンティックセグメント化シナリオで未知又は異常な物体の画素を検出することは、例えば自律型車両などの移動ロボットのためのコア知覚タスクである。
【0007】
セマンティックセグメント化タスクは、通常、ニューラルネットワークによって解決される。したがって、環境をモデル化するためにニューラルネットワークを使用するシステム全体で未知又は異常な物体を正確に識別し、それらを運転可能な空間から分離することができるように、セマンティックセグメント化のために構成されたニューラルネットワークが未知又は異常な画素を検出することもできるようにすることが望ましい。
【0008】
OoD検出の中心的な問題は、ニューラルネットワークが訓練される比較的少数の物体カテゴリと比較して、膨大な量の可能なOoD物体である。さらに、セマンティックセグメント化は、典型的には、シーン中心の入力画像、すなわち、OoD物体が環境の他の多くの既知の物体及び要素と共位置する画像を扱う。これは、物体中心データ(例えば、画像分類ベンチマーク)上のOoD検出と比較してさらに大きな課題をもたらす。シーン中心画像に伴う別の課題は、クラス不均衡である。例えば、ADシーンの道路画素は、多くの場合、訓練データの大部分を構成し、ニューラルネットワークを道路の予測に向けてバイアスする。訓練データの不均衡に起因して、ニューラルネットワークは、道路上に見られるOoD物体についての多数クラスを予測する傾向をしばしば示し、これは、最も高いレベルのリスクを伴う重大な誤差である。
【0009】
セマンティックセグメント化タスク(異常セグメント化としても知られる)において未知又は異常な物体を検出するための特に成功した技術は、外れ値曝露の一形態である。すなわち、推論時に潜在的なOoDシナリオにアクセスすることはできないが、訓練中にOoD例示として機能することができる、訓練データとは異なるすぐに使用可能なデータセットが多数存在する。例えば、MS COCOデータセットは、セマンティックセグメント化を訓練するための一般的なOoDプロキシデータセットである。例えば、MS COCOデータセットに含まれる特定の物体を切断し、次いで道路シーンに貼り付けて、例えば、ADシーンの異常な例を作成することができる。
【0010】
このようにして構築されたOoDデータは、ニューラルネットワークを最初から訓練する間、又は、事前訓練モデルのファインチューニング中に使用することができる。本発明者らは、ゼロから訓練するためにOoDデータを使用すると、ニューラルネットワーク(すなわち、既知及び/又は非異常画素に対するそのセマンティックセグメント化性能)の分布内汎化性能が低下し、ニューラルネットワークのアーキテクチャ変更を必要とする可能性があることを見出した。対照的に、著者らは、予め訓練されたニューラルネットワークのファインチューニング中にのみOoDデータを使用する場合、ニューラルネットワークは、通常、小さい重み変化の制約下にあり、したがって、オーバーフィッティングが起こりにくいことを見出した。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】Tian等著、「“Pixel-wise energy-biased abstention learning for anomaly segmentation on complex urban driving scenes”,https://arxiv.org/pdf/2111.12264.pdf,2022」
【非特許文献2】Nayal等著、「“RbA:Segmenting Unknown Regions Rejected by All”,https://arxiv.org/pdf/2211.14293.pdf,2022」
【非特許文献3】Li等著、「“Intra-&Extra-Source Exemplar-Based Style Synthesis for Improved Domain Generalization”,https://arxiv.org/pdf/2307.00648.pdf,2023」
【発明の概要】
【発明が解決しようとする課題】
【0012】
これらの発見に基づいて、本発明は、OoDデータコピーのスタイルを適合させて既存の画像に貼り付けることによってOoDデータを生成するための新しい方法を有利に提案する。スタイル転送は、未知の又は異常な物体を検出するための訓練により適した訓練データをもたらし、これは、このデータで訓練されたニューラルネットワークが、画素が異常であるか否かを判定するためにペーストされたコンテンツ(すなわち、画像の残余の部分に対して「オフ」に見える)のスタイルに依存することができないためである。本発明は、OoDデータを生成する方法から生成されたデータに基づいてニューラルネットワークを訓練するための有利な方法をさらに提案する。
【課題を解決するための手段】
【0013】
第1の態様においては、本発明は、画像セグメント化システムを訓練及び/又は試験するための訓練画像及び訓練ラベルマップを生成するためのコンピュータ実装された方法に関し、本方法は、
・第1の画像及び第1の画像に対応する第1のラベルマップを取得し、第2の画像及び第2の画像に対応する第2のラベルマップを取得するステップと、
・第3の画像を決定するステップであって、第3の画像は、機械学習システムへの入力として第2の画像を提供することによって決定され、機械学習システムは、提供された画像に基づいて第1の画像のスタイルの画像を決定するように構成される、ステップと、
・第1の画像からの画素を第3の画像からの画素で置換することによって訓練画像を決定するステップであって、第3の画像からの画素は、第2のラベルマップからのクラスに基づいて決定される、ステップと、
・第1のラベルマップからのクラスラベルを、異常クラスを示すクラスラベルで置換することによって、訓練ラベルマップを決定するステップであって、第1の画像内の対応する画素が置換されることで、第1のラベルマップ内のクラスラベルが置換される、ステップと、
を含む。
【0014】
本方法は、第1の画像を第2の画像からの画素で増強するものとして理解することができ、第2の画像は、最初に第1の画像と同類又は同一のスタイルにされる。有利には、第1の画像と第2の画像との間のこのスタイルの位置合わせは、第2の画像の画素を第1の画像に現実的に埋め込むことを可能にする。言い換えれば、第3の画像(すなわち、スタイル位置合わせ後の第2の画像)からの画素は、実際に第1の画像に属することができるかのように見える。
【0015】
そのような生成された画像で画像セグメント化システムを訓練することは、訓練データの多様性を増加させ、画像セグメント化システムの性能の向上につながる。さらにより有利には、コピーされた画素は、異常を示すものとして(異常クラスを介して、又は、ラベルマップ内の追加表示を介して)訓練ラベルマップ内にマークされ、次いで、訓練ラベルマップは、所与の画像内の特定の画素が異常であるか否かを判定するために画像セグメント化システムを訓練するために使用され得る。
【0016】
第3の画像からの画素が第1の画像からの画素のスタイルであることに起因して、画像セグメント化システム(60)は、異常な画素の指標として置換された画素のスタイルに依存することができず、したがって、有利には、画像内の画素が異常であるか否かを画像の意味論的内容(例えば、空に位置する飛行していない物体は、異常である可能性が高い)に基づいて判断することを学習しなければならない。
【0017】
ラベルマップは、一般に、画像の注釈として理解することができ、注釈は、ラベルマップが対応する画像の画素のサブセット、好ましくはすべての画素にクラスラベルを割り当てる。対応関係は、典型的には、画像と同等の幅及び高さを有するラベルマップによって達成することができ、各画素は、画像内の位置を割り当てることができ、ラベルマップ内のクラスラベル(例えば、クラスのインデックスを特徴付ける整数)をさらに割り当てることができ、クラスラベル自体は、ラベルマップ内の位置を割り当てることができる。位置は、それぞれ画像及びラベルマップの幅及び高さ寸法に沿ったインデックスによって特徴付けることができる。したがって、ラベルマップは、クラスラベルを示す整数の行列によって与えられるものとしてもよい。
【0018】
画像に対応するラベルマップは、画像の各画素の分類を含むラベルマップとして理解することができる。
【0019】
第1のラベルマップ内の置換されたクラスラベルが置換の結果としてさらに示す場合、指示は、例えば、第2のラベルマップからの対応するクラス及び「異常」を同時に示す特別なクラスラベルを割り当てることによって(例えば、そうでなければ異常でないクラスを表す整数に所定のオフセットを加えることによって)達成され得る。あるいは、生成された訓練画像の各画素について、画素が異常を特徴付けるか否か、すなわち、画素が第3の画像からコピーされたか否かを示す追加のバイナリマップが、生成された訓練ラベルマップと並んで提供されるものとしてもよい。バイナリマップは、バイナリ又は整数要素の行列の形態で提供されるものとしてもよい。
【0020】
異常は、稀な、非常な又は不合理な物体を構成する(画像の画素を介して描写された)画像の一部として理解することができる。異常な画素は、異常な物体に属する画素として理解することができる。
【0021】
機械学習システムは、特に、その入力の意味論的内容がその出力において変更されず、スタイルが変更されるように構成されると理解することができる。例えば、機械学習システムは、マスクされたノイズエンコーダ及びStyleGAN2を含むニューラルネットワークによって与えられるものとしてもよく、ニューラルネットワークは、入力として提供される画像のスタイルを変更するようにさらに構成される(すなわち、訓練されている)。
【0022】
「提供された画像に基づいて第1の画像のスタイルの画像を決定する」という用語は、画像を入力として受け入れるように構成されている機械学習システムであれば特に理解することができ、機械学習システムは、提供された入力画像を出力画像に変換し、出力画像は、入力画像とは異なるスタイルを有するが、類似の又は同一の意味論的内容を有する。
【0023】
画像は、合成(例えば、コンピュータにおける仮想シーンからのレンダリング)によって、又は、センサ、特に光学センサから記録されることによって得られると理解することができる。この場合、画像は、カメラ、ライダ、レーダ、超音波センサ、又は、熱センサの出力として理解することができる。
【0024】
画像を取得することは、例えば、画像をそれぞれのセンサで記録することによって、又は、画像のデータベースから取得することによって、画像を取得する任意の方法として理解することができる。
【0025】
第1の画像は、特に、第1の画像のデータセットからランダムに取得することができる。これは、例えば、同一のセンサ及び/又はセンサの同様の環境条件によって記録されているために、類似の視覚的スタイルを有する第1の画像として理解することができる。
【0026】
第1の画像からの画素を第3の画像からの画素と置換することによって訓練画像を決定することは、第1の画像からの画素を訓練画像としての第3の画像のそれぞれの画素と置換することから生じる画像を提供することとして理解することができる。
【0027】
第3の画像からの画素によって置換される第1の画像内の画素は、ランダムに選択されるものとしてもよい。例えば、第1の画像内でランダムな位置を選択することができ、第3の画像からの画素は、第3の画像からの画素の中心がランダムな位置に位置するようにその位置に重ね合わせることができる。この場合、第1の画像内の置換される画素は暗黙的に決定されると理解することができる。あるいは、第1の画像内の置換される画素は、第1のラベルマップのクラスに基づいて選択されるものとしてもよい。例えば、第1の画像上に貼り付けられるべき第3の画像からの画素が物体の画素を構成する場合、第1の画像内の画素は、例えば、道路、歩道などの空きスペースなどの物体を合理的に含み得る第1のラベルマップ内の部分を特徴付ける画素を表すように選択され得る。
【0028】
あるいは、物体を合理的に含み得る第1のラベルマップの一部を特徴付ける第1の画像内の位置を選択することも可能であり、第3の画像からの画素は、第3の画像からの画素の中心がその位置に位置するように第1の画像にコピーされるものとしてもよい。
【0029】
すべての例において、中心位置は単に例示的に選択されたに過ぎない。他の位置、例えば、角又は他の所望の位置を使用することもできる。
【0030】
好ましくは、置換される画素はランダムに決定される。この表現は、第1の画像内の単一の位置がランダムに選択され、第3の画像からの画素が上述のように第1の画像にコピーされる方法を含むものとしても理解される。
【0031】
好ましくは、第1のラベルマップからのクラスラベルを置換することは、第1のラベルマップからのクラスラベルを第2のラベルマップからのクラスラベルで置換することによって達成され、第2のラベルマップからのクラスラベルは、対応する画素が第1の画像内の置換として使用された置換に使用され、第1のラベルマップ内の置換されたクラスラベルは、置換の結果としてさらに示す。
【0032】
あるいは、指定された「異常」クラスを、訓練画像内の対応する画素が第3の画像からのコピーによって決定された訓練ラベルマップの要素に割り当てることも可能である。
【0033】
好ましくは、第1の画像は、訓練画像を決定する前に増強操作で変換される。
【0034】
第1の画像は、例えば、画素の置換を受ける前にトリミング又はサイズ変更されるものとしてもよい。増強は、任意の既知の増強操作であるものとしてもよい。次いで、増強操作の結果を、例えば、訓練画像を決定するための後続の動作のための第1の画像として使用することができる。
【0035】
有利には、著者らは、画像セグメント化システムが、増強された第1の画像を用いて訓練するときにさらに良好に機能することを見出した。
【0036】
好ましくは、機械学習システムは、その入力を機械学習システムのマスクされたノイズエンコーダに提供し、マスクされたノイズエンコーダの出力をStyleGAN2に提供することに基づいてその出力を決定する。
【0037】
マスクされたノイズエンコーダ及びStyleGAN2は、結合されたニューラルネットワークのサブネットワークとして特に理解することができる。マスクされたノイズエンコーダのアーキテクチャは、pSpエンコーダのアーキテクチャであるものとしてもよい。マスクされたノイズエンコーダは、提供された入力画像を事前訓練されたStyleGAN2生成器の拡張潜在空間Wにマッピングすることができる。事前訓練されたStyleGAN2生成器は、特に、都市運転シナリオ又は他の同様の画像などの複雑なシーンデータを含む画像上で事前訓練することができる。
【0038】
本発明者らは、有利には、マスクされたノイズエンコーダとStyleGAN2との組合せが、第1の画像のスタイルのより良いスタイル移行をもたらし、したがって、より良い第1の訓練画像をもたらし、これが、訓練用に訓練画像を使用するときの画像セグメント化システムの性能の向上、又は、画像セグメント化システムの試験中に訓練画像を使用するときの画像セグメント化システムの一般化能力の評価の向上をもたらすことを見出した。
【0039】
あるいは、他のスタイル移行機械学習システム、例えば、画像間を補間するように構成された拡散モデルなどの拡散モデルに基づく機械学習システムも、本方法で使用することができる。
【0040】
好ましくは、第1の画像は、第1の画像の第1のデータセットによって構成され、機械学習システムは、入力画像を第1の画像のスタイルに転送するように訓練される。
【0041】
これは、特に、画像を生成するための方法の一部として機械学習システムを訓練する追加のステップを含む方法として理解することができる。あるいは、例えば、インターネット上のリソースからダウンロードすることによって、第1の画像で訓練した後に機械学習システムを取得すると理解することができる。
【0042】
上述のような訓練方法の好ましい実施形態の一部又は全部を組み合わせて、さらなる実施形態を形成することができる。
【0043】
他の態様においては、本発明は、画像セグメント化システムを訓練するためのコンピュータ実装された方法に関し、本方法は、
・先行する請求項のいずれか一項に記載の方法によって、訓練画像及び対応する訓練ラベルマップを生成するステップと、
・生成された訓練画像及び訓練ラベルマップを用いて画像セグメント化システムを教師あり訓練するステップと、
を含む。
【0044】
画像セグメント化システムは、提供された入力画像のセマンティックセグメント化及び/又はインスタンスセグメント化を実行するように構成され得る。これは、特に、画像セグメント化及び/又はインスタンスセグメント化のために構成されたニューラルネットワークを含む又はそれからなる画像セグメント化システムによって達成され得る。セマンティックセグメント化及び/又はインスタンスセグメント化は、特に画像分類の特定の形態として理解することができる。
【0045】
訓練のための方法は、特に、ニューラルネットワークを教師付き方式で訓練することを含み得る。画像セグメント化システムはまた、画像セグメント化システムに提供される入力画像に適用される前処理ステップ、及び/又は、画像セグメント化システムの出力に適用される後処理ステップを含み得る。
【0046】
訓練のための方法は、「ゼロから」、すなわち、訓練されていない画像セグメント化システムを用いて、又は、1つ又は複数の生成された画像を用いて、他のデータを訓練する前に画像セグメント化システムが他のデータについて訓練されているファインチューニング方法として実行されるものとしてもよい。
【0047】
訓練のための方法は、好ましくは、生成された訓練画像のバッチで実行されるものとしてもよく、すなわち、訓練画像を生成するための方法は、訓練画像のバッチを決定するために、異なる画像及び/又は異なる置換画素で複数回実行されるものとしてもよい。好ましくは、生成された画像及び置換画素のない画像、例えば第1の画像は、バッチで組み合わせられる。
【0048】
好ましくは、教師あり訓練は、
・訓練画像を画像セグメント化システムへの入力として提供するステップであって、画像セグメント化システムは、訓練画像の画素の異なるクラスのロジットを特徴付ける値を決定する、ステップと、
・損失関数に基づいて損失値を決定するステップであって、損失関数は、訓練画像内の画素について決定されたロジットのシグモイドの対数を特徴付ける第1項を含み、シグモイドの対数は、異常クラスとしてラベル付けされた又は訓練ラベルマップ内で異常として示された画素について決定される、ステップと、
・損失値を最小化することによって画像セグメント化システムを教師あり訓練するステップと、
をさらに含む。
【0049】
「損失値を最小化する」という用語は、好ましくは、同一の入力が画像セグメント化システムに提供される場合に損失値がより小さくなるようにステップを実行することとして理解することができる。これは、勾配降下法、特に確率的勾配降下法によって特に達成することができる。あるいは、他の訓練方法、例えば、進化的アルゴリズムに基づく方法も可能である。
【0050】
有利には、本発明者らは、「異常」として示される画素のロジットをこのように使用することは、各画素について1対残余(OvR)分類器として画像セグメント化システムを訓練することとして理解することができ、すなわち、システムは、各画素及び各「非異常」クラスについて、画素がクラスに属する可能性を示すことができることを見出した。画素について各「非異常」クラスである可能性が低い場合(例えば、ロジットは、50%以下の確率を特徴付ける)、その画素は異常とみなすことができる。本発明者らは、これが、画素が異常であるか否かを正確に示す画像セグメント化システムの能力を有利に高めることを見出した。
【0051】
さらにより有利には、著者らは、提案された損失関数がファインチューニング中にのみ適用できることを見出した。これは、他のグラウンドトゥルースデータを必要とせず、損失関数に基づいて画像セグメント化システムを微調整するだけでよく、好ましくは第1項のみを含む訓練方法として特に理解することができる。
【0052】
あるいは、損失関数はまた、異常として示されていない画像の画素のセマンティックセグメント化のための標準的な損失を特徴付ける第2項を含み得る。例えば、ソフトマックス関数が非異常画素のロジットに適用されるものとしてもよく、第2の損失項は、訓練ラベルマップに対する交差エントロピー損失によって特徴付けられる又は与えられるものとしてもよく、非異常画素、好ましくはすべての非異常画素に対して決定されるものとしてもよい。
【0053】
好ましくは、第1項は、所定量の最大ロジットのシグモイドの対数を特徴付ける。
【0054】
有利には、本発明者らは、ロジットのシグモイドの対数が決定されるロジットの量を制限することにより、画像セグメント化システムの性能、すなわち、画素が異常であるか否かを正確に示す能力がさらに向上することを見出した。
【0055】
シグモイドの対数が決定されるロジットの量は、本方法の超パラメータと考えることができる。これは、任意の適当な超パラメータ調整方法に従って調整することができる。著者らは、特に、画素あたり3つ、5つ又は7つの最大の対数を使用して、小さい値が特に良好に機能することを見出した。しかしながら、他の量も適当であり得る。
【0056】
好ましくは、第1の損失項は、以下の式によって特徴付けられ、
【数1】
ここで、i、jは、画素の高さ座標及び幅座標であり、oodは、異常として示された画素の画素座標であり、Noodは、ood内の画素の量であり、Kは、シグモイドの対数を決定するためのロジットの量であり、Si、jは、K個のロジットのセットであり、
【数2】
は、位置i、jにおける画素のロジットのセットにおける第kのロジットである。
【0057】
第1の損失項は、好ましくは、訓練のための方法のさらなるハイパーパラメータを構成する係数によって乗算されるものとしてもよい。したがって、損失値が決定される損失関数は、以下の式によって特徴付けることができる。
L=Lsemseg+λood・Lood
ここで、Lsemsegは、第2の損失項を特徴付け、λoodは、因子を特徴付ける。
【0058】
損失関数は、例えば、画像セグメント化システムの訓練を正規化するためのさらなる項によって拡張されるものとしてもよい。
【0059】
訓練方法の好ましい実施形態の一部又は全部を組み合わせて、訓練方法の他の実施形態を形成することができる。
【0060】
他の態様においては、本発明は、出力信号を決定するためのコンピュータ実装された方法に関し、出力信号が、入力画像の画素の分類を異常であるか否かとして特徴付け、方法は、
・入力画像を画像セグメント化システムへの入力として提供するステップであって、画像セグメント化システムは、先行する請求項のいずれか一項に記載の方法で訓練されている、ステップと、
・画像セグメント化システムにより、画素のロジットを決定するステップと、
・最大の決定されたロジットと最小の決定されたロジットとの差が所定のしきい値以下である場合には、出力信号において異常として画素の分類を提供し、そうでない場合には、出力信号において非異常として画素の分類を提供するステップと、
を含む。
【0061】
「画像セグメント化システムがある方法で訓練されている」という用語は、出力信号を決定するための方法の一部として実行される訓練のための方法のステップとして理解することができる。あるいは、例えば、インターネット上のリソースから、上記のように訓練された画像セグメント化システムを取得することと理解することができる。
【0062】
好ましくは、画像セグメント化システムは、複数の画素、好ましくは入力画像のすべての画素について、それぞれの画素が異常であるか否かを判定する。さらにより好ましくは、異常であると判定されている画素は、異常であるとみなされる画像内の領域を判定するために、例えば、接続された構成要素アルゴリズムによってグループ化されるものとしてもよい。グループ化された領域は、例えば、異常画素の単一の接続された成分の画素を囲む境界ボックスによって、出力信号にも出力され得る。
【0063】
画素の分類を異常であるか否かとして判定するために、画素について異常スコアを判定することができ、異常スコアは、好ましくは、以下の式によって特徴付けられる。
【数3】
【0064】
言い換えれば、画素が分類される可能性が高いすべてのクラスについてロジットを決定し、最大及び最小のロジットの差を異常スコアとして使用することができる。あるいは、異常スコアが大きいほど画素が異常である可能性が高くなるように、差の結果に-1を乗算することも可能である。異常スコアは、各画素に対して個別に決定することもできる。
【0065】
分類を含む出力信号は、特に、分類を特徴付ける値、例えば、異常スコア、又は、異常スコアが所定のしきい値以下であるかどうかを示すバイナリ値(若しくは差が-1倍される場合は所定のしきい値以上)を含む又はそれからなる出力信号として理解することができる。
【0066】
出力信号を決定するための方法の好ましい実施形態の一部又はすべては、他の実施形態と組み合わせることができる。
【0067】
以下の図面を参照して、本発明の実施形態をより詳細に説明する。
【図面の簡単な説明】
【0068】
図1】訓練画像及び訓練ラベルマップを生成するための方法を示す図である。
図2】画像セグメント化システムを訓練するための方法を実行するように構成された訓練システムを示す図である。
図3】その環境内のアクチュエータを制御する機械学習システムを含む制御システムを示す図である。
図4】少なくとも部分的に自律的なロボットを制御する制御システムを示す図である。
図5】製造機械を制御する制御システムを示す図である。
図6】医療分析システムを制御する制御システムを示す図である。
【発明を実施するための形態】
【0069】
図1は、訓練画像及び訓練ラベルマップを生成するための方法を概略的に示す。
【0070】
本方法は、第1の画像(i)及び第1の画像(i)に対応する第1のラベルマップ(l)を取得し、第2の画像(i)及び第2の画像(i)に対応する第2のラベルマップ(l)を取得するステップを含む。第1の画像(i)及び/又は第2の画像(i)は、画像のそれぞれのデータベースから取得されるものとしてもよく、又は、センサ、特にカメラなどの光学センサによって記録されるものとしてもよい。記録はまた、本方法の一部であるものとしてもよい。好ましくは、第1の画像(i)及び第2の画像(i)は異なるスタイルを有し、例えば、画素の色分布は著しく異なる。本実施形態においては、第1の画像(i)は、例えば都市交通シーンなどの道路シーンを描写し、第2の画像(i)は、典型的には都市交通シーンでは見られない熊を含む。それぞれのラベルマップ(l、l)は、それぞれの画像(i、i)に人間又は自動化されたアルゴリズムによってラベル付けすることによって取得することができ、すなわち、自動ラベル付けすることができる。
【0071】
本方法は、第3の画像(i)を決定するステップをさらに含み、第3の画像は、機械学習システム(70)への入力として第2の画像(i)を提供することによって決定され、機械学習システム(70)は、提供された画像に基づいて第1の画像(i)のスタイルの画像を決定するように構成される。
【0072】
「提供された画像に基づいて第1の画像のスタイルの画像を決定する」という用語は、画像を入力として受け入れるように構成されている機械学習システムであれば特に理解することができ、機械学習システムは、提供された入力画像を出力画像に変換し、出力画像は、入力画像とは異なるスタイルを有するが、類似の又は同一の意味論的内容を有する。
【0073】
特に、機械学習システムは、第2の画像(i、実施形態における熊の画像)を入力として取り込み、第3の画像(i、第1の画像における都市交通シーンと同様の色分布を有する熊の画像)を提供する。
【0074】
機械学習システムは、特に、マスクされたノイズエンコーダと、第3の画像(i)を決定するためのStyleGAN2と、を含むニューラルネットワークから構成されるように構成されるものとしてもよい。
【0075】
次いで、第2のラベルマップ(l)に基づいて、第2の画像(i)からの物体を、切断操作(c)において第3の画像(i)から切断することができる。好ましくは、切出し操作は、物体クラス(すなわち、同一の物体クラスからの複数の特定のクラスラベルの接続されたコンポーネント)の接続されたクラスラベルに基づいて第2のラベルマップ(l)から物体を選択する。
【0076】
第1の画像(i)及び第1のラベルマップ(l)は、例えば、トリミング、サイズ変更、回転、ワーピングなどの任意選択の増強操作(80)を受けることができる。次いで、結果は、第1の画像(i)及び第1のラベルマップ(l)として再び使用され得る。
【0077】
増強操作が行われるかどうかにかかわらず、本方法は、第1の画像(i)からの画素を第3の画像(i)からの画素で置換することによって訓練画像(x)を決定するステップをさらに含む。言い換えれば、次に、訓練画像(x)を決定するために、切断操作から取得された画素を第1の画像(i)からの画素にわたってコピーする(すなわち、オーバーレイされている)ことができる。
【0078】
第3の画像(i)からの画素によって置換される第1の画像(i)内の画素は、ランダムに選択されるものとしてもよい。例えば、第1の画像(i)においてランダムな位置を選択することができ、第3の画像(i)からの画素の中心がランダムな位置に位置するように、第3の画像からの画素をその位置に重ね合わせることができる。この場合、第1の画像(i)において置換される画素は、暗黙的に決定されると理解することができる。あるいは、第1の画像(i)内の置換される画素は、第1のラベルマップ(l)のクラスに基づいて選択されるものとしてもよい。例えば、第1の画像(i)に貼り付けられる第3の画像(i)からの画素は、物体の画素を構成し、第1の画像(i)の画素は、それらが、例えば、道路、歩道などの空きスペースなどの物体を合理的に含み得る第1のラベルマップ(l)の部分を特徴付ける画素を表すように選択され得る。
【0079】
本方法は、第1のラベルマップ(l)からのクラスラベルを、異常クラスを示すクラスラベルで置換することによって、訓練ラベルマップ(t)を決定するステップであって、第1の画像(i)内の対応する画素が置換されることで、第1のラベルマップ(l)内のクラスラベルが置換される、ステップをさらに含む。言い換えれば、訓練画像(x)内でコピーすることによって取得された画素について、訓練ラベルマップ(t)は、異常クラスのクラスラベルを含むように決定される。
【0080】
図2は、訓練データセット(T)によって画像セグメント化システム(60)を訓練するための訓練システム(140)の一実施形態を示す。訓練データセット(T)は、複数の訓練画像(x)及び訓練ラベルマップ(l)を含み、各訓練画像(x)及び訓練ラベルマップ(l)は、図1に示す方法によって取得されている。訓練画像(x)及び訓練ラベル(l)は、例えば、第3の画像(i)からの切り抜き物体が第1の画像(i)にコピーされる異なる位置を生成及び/又は使用するための方法において異なる第1の画像(i)及び/又は異なる第2の画像(i)を使用することによって、異なる内容を示す。
【0081】
訓練のために、訓練データユニット(150)は、コンピュータ実装データベース(St)にアクセスし、データベース(St)は訓練データセット(T)を提供する。訓練データユニット(150)は、訓練データセット(T)から、好ましくはランダムに、少なくとも1つの訓練画像(x)と、訓練画像(x)に対応する訓練ラベルマップ(t)と、を決定し、訓練画像(x)を画像セグメント化システム(60)に送信する。画像セグメント化システム(60)は、訓練画像(x)に基づいて出力信号(y)を決定し、出力信号(y)は、訓練画像(x)のセマンティックセグメント化及び/又はインスタンスセグメント化を特徴付け、好ましくは各画素の異なるクラスのロジットを含む。
【0082】
訓練ラベルマップ(t)及び決定された出力信号(y)は、修正ユニット(180)に送信される。
【0083】
次いで、訓練ラベルマップ(t)及び決定された出力信号(y)に基づいて、修正ユニット(180)は、画像セグメント化システム(60)の新しいパラメータ(Φ’)、例えば、画像セグメント化システム(60)に含まれるニューラルネットワークの新しいパラメータを決定する。この目的のために、修正ユニット(180)は、損失関数を使用して訓練ラベルマップ(t)と決定された出力信号(y)とを比較し、損失関数は、訓練画像内の画素に対して決定されたロジットのシグモイドの対数を特徴付ける第1項を含み、シグモイドの対数は、異常クラスとしてラベル付けされた又は訓練ラベルマップ内で異常として示された画素に対して決定される。損失関数は、出力として損失値を決定する。好ましくは、第1の損失項は、以下の式によって特徴付けられ、
【数4】
ここで、i、jは、画素の高さ座標及び幅座標であり、oodは、異常として示された画素の画素座標であり、Noodは、ood内の画素の量であり、Kは、シグモイドの対数を決定するためのロジットの量であり、Si、jは、K個のロジットのセットであり、
【数5】
は、位置i、jにおける画素のロジットのセットにおける第kのロジットである。
【0084】
好ましくは、第1項Loodは、損失関数の唯一の項、すなわち、損失関数が第1項であると理解することができる。あるいは、Loodは、損失関数を形成するためにさらなる項と組み合わせられるものとしてもよい。例えば、損失関数は、異常として示されていない画像の画素のセマンティックセグメント化のための標準的な損失を特徴付ける第2項を含み得る。例えば、ソフトマックス関数が非異常画素のロジットに適用されるものとしてもよく、第2の損失項は、訓練ラベルマップに対する交差エントロピー損失によって特徴付けられる又は与えられるものとしてもよく、非異常画素、好ましくはすべての非異常画素に対して決定されるものとしてもよい。
【0085】
第1の損失項は、好ましくは、訓練のための方法のさらなるハイパーパラメータを構成する係数によって乗算されるものとしてもよい。したがって、損失値が決定される損失関数は、以下の式によって特徴付けることができる。
L=Lsemseg+λood・Lood
ここで、Lsemsegは、第2の損失項を特徴付け、λoodは、因子を特徴付ける。
【0086】
損失関数は、例えば、画像セグメント化システムの訓練を正規化するためのさらなる項によって拡張されるものとしてもよい。
【0087】
修正ユニット(180)は、損失値に基づいて新しいパラメータ(Φ’)を決定する。所与の実施形態においては、これは、勾配降下法、好ましくは、確率的勾配降下法、Adam、又は、AdamWを使用して行われる。さらなる実施形態においては、訓練はまた、ニューラルネットワークを訓練するための進化的アルゴリズム又は二次方法に基づくものとしてもよい。
【0088】
他の好ましい実施形態においては、記載された訓練は、所定の反復ステップ数にわたって反復的に繰り返され、又は、損失値が所定のしきい値を下回るまで反復的に繰り返される。代替的又は追加的に、試験又は検証データセットに関する平均第1の損失値が所定のしきい値を下回ったときに訓練が終了されることも可能である。反復のうちの少なくとも1つにおいては、前の反復で決定された新しいパラメータ(Φ’)が、画像セグメント化システム(60)のパラメータ(Φ)として使用される。
【0089】
さらに、訓練システム(140)は、少なくとも1つのプロセッサ(145)と、プロセッサ(145)によって実行されると、訓練システム(140)に本発明の態様のうちの1つによる訓練方法を実行させる命令を含む少なくとも1つの機械可読記憶媒体(146)とを含み得る。
【0090】
さらなる実施形態(図示せず)においては、訓練画像(x)及び訓練ラベルマップ(l)は、データベースから取得されなくてもよく、訓練の各反復において生成されるものとしてもよい。言い換えれば、訓練画像(x)及び訓練ラベルマップ(l)は、その場で生成され得る。
【0091】
図3は、画像セグメント化システム(60)の出力に基づいてその環境(20)内のアクチュエータ(10)を制御する制御システム(40)の一実施形態を示す。アクチュエータ(10)及びその環境(20)は、アクチュエータシステムと総称される。好ましくは等間隔の時点で、センサ(30)がアクチュエータシステムの状態を検知する。センサ(30)は、いくつかのセンサを含み得る。好ましくは、センサ(30)は、環境(20)の画像を撮影する光学センサである。検知された状態を符号化するセンサ(30)(又は、センサ(30)が複数のセンサを含む場合、センサの各々の出力信号(S))の出力信号(S)は、制御システム(40)に送信される。
【0092】
これにより、制御システム(40)は、センサ信号(S)のストリームを受信する。次に、センサ信号(S)の流れに応じて一連の制御信号(A)を計算し、これらはその後アクチュエータ(10)に送信される。
【0093】
制御システム(40)は、任意選択の受信ユニット(50)においてセンサ(30)のセンサ信号(S)のストリームを受信する。受信ユニット(50)は、センサ信号(S)を入力画像(x)に変換する。あるいは、受信ユニット(50)がない場合、各センサ信号(S)は、入力画像(x)として直接取得されるものとしてもよい。入力画像(x)は、例えば、センサ信号(S)からの抜粋として与えられるものとしてもよい。あるいは、センサ信号(S)を処理して入力画像(x)を得ることができる。言い換えると、入力信号(x)は、センサ信号(S)に従って提供される。
【0094】
次いで、入力画像(x)は、画像セグメント化システム(60)に渡される。
【0095】
画像セグメント化システム(60)は、パラメータ記憶装置(St)に記憶されて提供されるパラメータ(Φ)によってパラメータ化される。
【0096】
画像セグメント化システム(60)は、入力画像(x)から出力信号(y)を決定する。出力信号(y)は、入力画像(x)の画素の分類、好ましくは画素ごとのそれぞれの分類であり、分類は画素が異常であるかどうかを特徴付ける。出力信号(y)は、出力信号(y)異常スコアを変換し、分類に基づいて制御信号(A)を決定する任意の変換ユニット(80)に送信される。あるいは、出力信号(y)を直接制御信号(A)として用いるものとしてもよい。
【0097】
分類は、好ましくは、分類される各画素の異常スコアを最初に決定することによって、画像セグメント化システム(60)によって決定される。異常スコアは、好ましくは、以下の式に従って決定することができる。
【数6】
ここで、
【数7】
は、入力画像(x)内の位置i、jにおける入力画像(x)の画素に対して決定された第kのロジットλである。
【0098】
次いで、異常スコアを所定のしきい値と比較することができ、異常スコアが所定のしきい値以下である場合、画素を異常と分類することができる。あるいは、異常スコアは-1で乗算されるものとしてもよく、乗算の結果が所定のしきい値以上である場合、画素は異常として分類されるものとしてもよい。しきい値は、訓練のための方法のハイパーパラメータとして理解することができる。
【0099】
画素が異常と分類されない場合、正常な画素を示すクラスが割り当てられることが好ましい。これは、例えば、画像セグメント化システム(60)によって決定された最高ロジットに対応するクラスを画素に割り当てることによって達成され得る。
【0100】
次いで、制御信号(A)は、それに応じてアクチュエータ(10)を制御するためにアクチュエータ(10)に送信される。
【0101】
アクチュエータ(10)は、制御信号(A)を受信し、それに応じて制御され、制御信号(A)に対応する動作を実行する。アクチュエータ(10)は、制御信号(A)をアクチュエータ(10)を制御するために使用されるさらなる制御信号に変換する制御ロジックを含み得る。
【0102】
さらなる実施形態においては、制御システム(40)は、センサ(30)を含むものとしてもよい。さらに他の実施形態においては、制御システム(40)は、代替的又は追加的に、アクチュエータ(10)を含むものとしてもよい。
【0103】
さらなる実施形態においては、制御システム(40)は、アクチュエータ(10)の代わりに又はそれに加えて、ディスプレイ(10a)を制御することが想定され得る。
【0104】
さらに、制御システム(40)は、少なくとも1つのプロセッサ(45)と、実行されると、制御システム(40)に本発明の一態様による方法を実行させる命令が格納される少なくとも1つの機械可読記憶媒体(46)とを含み得る。
【0105】
図4は、制御システム(40)が少なくとも部分的に自律的なロボット、例えば、少なくとも部分的に自律的な車両(100)を制御するために使用される実施形態を示す。
【0106】
センサ(30)は、1つ又は複数のビデオセンサ及び/又は1つ又は複数のレーダセンサ及び/又は1つ又は複数の超音波センサ及び/又は1つ又は複数のLiDARセンサを含むものとしてもよい。これらのセンサの一部又は全部は、少なくとも部分的に自律型ロボット(100)に統合されることが好ましいが、必ずしもそうである必要はない。
【0107】
画像セグメント化システム(60)は、入力画像(x)に基づいて、少なくとも部分的に自律型ロボット(100)の近傍のセマンティックセグメント化又はインスタンスセグメント化を実行するように構成されるものとしてもよい。異常領域(すなわち、異常と分類された画素又は画素の接続された構成要素)が入力画像(x)で検出された場合、制御信号(A)は、この情報に従って、例えば、少なくとも部分的に自律型ロボット(100)が異常領域を通過する経路を回避するために、又は、少なくとも部分的に自律型ロボット(100)が所定のしきい値よりも異常領域に近づく経路を回避するために、決定され得る。
【0108】
好ましくは車両(100)に一体化されたアクチュエータ(10)は、車両(100)のブレーキ、推進システム、エンジン、ドライブトレイン、又は、ステアリングによって与えられるものとしてもよい。
【0109】
代替的又は追加的に、制御信号(A)はまた、例えば、画像セグメント化システム(60)によって検出された異常画素を表示するために、ディスプレイ(10a)を制御するために使用されるものとしてもよい。制御信号(A)は、車両(100)が異常画素を含む領域に近い場合に警告信号を生成するようにディスプレイ(10a)を制御することも可能である。警告信号は、警告音及び/又は触覚信号、例えば、車両のステアリングホイールの振動であるものとしてもよい。
【0110】
さらなる実施形態においては、少なくとも部分的に自律的なロボットは、例えば、飛行、水泳、潜水、又は、足踏みによって移動することができる他の移動ロボット(図示せず)によって与えられるものとしてもよい。移動ロボットは、特に、少なくとも部分的に自律的な芝刈り機、又は、少なくとも部分的に自律的な掃除ロボットであるものとしてもよい。上記の実施形態のすべてにおいて、制御信号(A)は、移動ロボットが前記識別された物体との衝突を回避することができるように、移動ロボットの推進ユニット及び/又は操舵及び/又はブレーキが制御されるように決定することができる。
【0111】
図5は、制御システム(40)を使用して、例えば、生産ラインの一部として、製造システム(200)の製造機械(11)、例えば、パンチカッタ、カッタ、ガンドリル又はグリッパを制御する実施形態を示す。製造機械は、製造された製品(12)を移動させる搬送装置(13)、例えば、コンベヤベルト又は組立ラインを含み得る。制御システム(40)は、製造機械(11)を制御するアクチュエータ(10)を制御する。
【0112】
センサ(30)は、例えば、製造された製品(12)の特性を捕捉する光学センサによって与えられるものとしてもよい。
【0113】
画像セグメント化システム(60)は、製造された製品(12)デバイスを含む入力画像(x)の部分を決定することができる。次いで、アクチュエータ(10)は、製造された製品(12)の後続の製造ステップのために、製造された製品(12)の位置に応じて制御することができる。例えば、アクチュエータ(10)は、製造された製品自体の特定の位置で製造された製品を切断するように制御されるものとしてもよい。出力信号(y)が搬送装置(13)及び/又は製造された製品(12)上に異常な画素が存在することを特定する場合、機械の動作を停止することができ、及び/又は、人間のオペレータを巻き込んで問題を評価することができる。あるいは、製造された製品に属する画素で異常が検出された場合には、製造された製品を搬送装置から取り出すようにアクチュエータ(10)を制御することができる。
【0114】
図6は、制御システム(40)によって制御される医療撮像システム(500)の一実施形態を示す。撮像システムは、例えば、MRI装置、X線撮像装置、又は、超音波撮像装置であるものとしてもよい。センサ(30)は、例えば、患者の少なくとも1つの画像を取得する、例えば、患者の異なる種類の体組織を表示する撮像センサであるものとしてもよい。
【0115】
画像セグメント化システム(60)は、例えば、画像に表示された組織を悪性組織又は良性組織のいずれかに分類することによって、検知された画像内の異なる種類の組織を検出するように構成することができる。これは、画像セグメント化システム(60)による入力画像(x)のセマンティックセグメント化によって行うことができる。次いで、制御信号(A)は、例えば、入力画像(x)を表示し、同様の組織タイプの異なる領域を同一の色で着色することによって、ディスプレイ(10a)に異なる組織を表示させるように決定され得る。制御信号(A)は、異常領域に医師の注意を向け、それらを詳細に検査するように、異常領域を異なる色で着色するようにさらに選択され得る。
【0116】
さらなる実施形態(図示せず)においては、撮像システム(500)は、例えば、ワークピースの材料特性を決定するために、非医療目的で使用されるものとしてもよい。これらの実施形態においては、画像セグメント化システム(60)は、ワークピースの少なくとも一部の入力画像(x)を受け取り、入力画像(x)のセマンティックセグメント化を実行し、それによってワークピースの材料特性を分類するように構成されるものとしてもよい。次いで、制御信号(A)を決定して、ディスプレイ(10a)に入力画像(x)及び検出された材料特性に関する情報を表示させることができる。
【0117】
「コンピュータ」という用語は、予め定義された計算規則を処理するための任意の装置を包含するものとして理解することができる。これらの計算規則は、ソフトウェア、ハードウェア、又は、ソフトウェアとハードウェアとの混合の形態とすることができる。
【0118】
一般に、複数は、インデックス付けされると理解することができ、すなわち、複数の各要素は、好ましくは、複数に含まれる要素に連続する整数を割り当てることによって固有のインデックスを割り当てられる。好ましくは、複数がN個の要素を含む場合、Nは、複数の要素内の要素の数であり、要素には、1乃至Nの整数が割り当てられる。複数の要素は、それらのインデックスによってアクセスされ得ることも理解することができる。
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2024-10-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像セグメント化システム(60)を訓練及び/又は試験するための訓練画像(x)及び訓練ラベルマップ(t)を生成するためのコンピュータ実装された方法であって、前記方法は、
第1の画像(i)及び前記第1の画像(i)に対応する第1のラベルマップ(l)を取得し、第2の画像(i)及び前記第2の画像(i)に対応する第2のラベルマップ(l)を取得するステップと、
第3の画像(i)を決定するステップであって、前記第3の画像は、機械学習システム(70)への入力として前記第2の画像(i)を提供することによって決定され、前記機械学習システム(70)は、提供された画像に基づいて前記第1の画像(i)のスタイルの画像を決定するように構成される、ステップと、
前記第1の画像(i)からの画素を前記第3の画像(i)からの画素で置換することによって前記訓練画像(x)を決定するステップであって、前記第3の画像(i)からの画素は、前記第2のラベルマップ(l)からのクラスに基づいて決定される、ステップと、
前記第1のラベルマップ(l)からのクラスラベルを、異常クラスを示すクラスラベルで置換することによって、前記訓練ラベルマップ(t)を決定するステップであって、前記第1の画像(i)内の対応する画素が置換されることで、前記第1のラベルマップ(l)内の前記クラスラベルが置換される、ステップと、
を含む、方法。
【請求項2】
前記第1のラベルマップからのクラスラベルを置換することは、前記第1のラベルマップからのクラスラベルを前記第2のラベルマップからのクラスラベルで置換することによって達成され、前記第2のラベルマップからの前記クラスラベルは、対応する画素が前記第1の画像内の置換として使用された置換に使用され、前記第1のラベルマップ内の前記置換されたクラスラベルは、置換の結果としてさらに示される、請求項1に記載の方法。
【請求項3】
前記第1の画像は、前記訓練画像を決定する前に増強操作で変換される、請求項に記載の方法。
【請求項4】
前記機械学習システム(70)は、その入力を前記機械学習システム(70)のマスクされたノイズエンコーダに提供し、前記マスクされたノイズエンコーダの出力をStyleGAN2に提供することに基づいて、その出力を決定する、請求項に記載の方法。
【請求項5】
前記第1の画像は、第1の画像の第1のデータセットによって構成され、前記機械学習システム(70)は、入力画像を前記第1の画像のスタイルに転送するように訓練される、請求項に記載の方法。
【請求項6】
画像セグメント化システム(60)を訓練するためのコンピュータ実装された方法であって、前記方法は、
請求項に記載の方法によって、訓練画像(x)及び対応する訓練ラベルマップ(t)を生成するステップと、
前記生成された訓練画像(x)及び前記訓練ラベルマップ(t)を用いて前記画像セグメント化システム(60)を教師あり訓練するステップと、
を含む、方法。
【請求項7】
教師あり訓練することは、
前記訓練画像(x)を前記画像セグメント化システム(60)への入力として提供するステップであって、前記画像セグメント化システム(60)は、前記訓練画像(x)の画素の異なるクラスのロジットを特徴付ける値を決定する、ステップと、
損失関数に基づいて損失値を決定するステップであって、前記損失関数は、前記訓練画像(x)内の画素について決定されたロジットのシグモイドの対数を特徴付ける第1の損失項を含み、前記シグモイドの前記対数は、異常クラスとしてラベル付けされた又は前記訓練ラベルマップ(t)内で異常として示された画素について決定される、ステップと、
前記損失値を最小化することによって前記画像セグメント化システム(60)を教師あり訓練するステップと、
をさらに含む、請求項6に記載の方法。
【請求項8】
前記第1の損失項は、所定量の最大ロジットのシグモイドの対数を特徴付ける、請求項7に記載の方法。
【請求項9】
前記第1の損失項は、以下の式によって特徴付けられ、
【数1】
ここで、i、jは、画素の高さ座標及び幅座標であり、oodは、異常として示された画素の画素座標であり、Noodは、ood内の画素の量であり、Kは、シグモイドの対数を決定するためのロジットの量であり、Si、jは、K個のロジットのセットであり、
【数2】
は、位置i、jにおける前記画素の前記ロジットのセットにおける第kのロジットである、請求項に記載の方法。
【請求項10】
出力信号(y)を決定するためのコンピュータ実装された方法であって、前記出力信号(y)は、入力画像(x)の画素の分類を異常であるか否かとして特徴付け、前記方法は、
前記入力画像(x)を画像セグメント化システム(60)への入力として提供するステップであって、前記画像セグメント化システム(60)は、請求項に記載の方法で訓練されている、ステップと、
前記画像セグメント化システム(60)により、前記画素のロジットを決定するステップと、
最大の決定されたロジットと最小の決定されたロジットとの差が所定のしきい値以下である場合には、前記出力信号(y)において異常として前記画素の分類を提供し、そうでない場合には、前記出力信号(y)において非異常として前記画素の分類を提供するステップと、
を含む、方法。
【請求項11】
請求項に記載方法を実施するように構成されている訓練システム(140)。
【請求項12】
請求項10に記載の方法を実施するように構成されている制御システム(40)であって、
前記制御システム(40)は、前記出力信号(y)に基づいて制御信号(A)を決定し、
前記制御信号(A)は、アクチュエータ(10)及び/又はディスプレイ(10a)を制御するように構成されている、制御システム(40)。
【請求項13】
コンピュータプログラムであって、当該コンピュータプログラムがコンピュータのプロセッサ(45,145)によって実行される場合に、請求項に記載の方法を、前記コンピュータに実施させるように構成されているコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムが格納されている機械可読記憶媒体(46,146)。
【外国語明細書】