(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025015513
(43)【公開日】2025-01-30
(54)【発明の名称】画像分割方法及び画像処理システム
(51)【国際特許分類】
G06T 7/12 20170101AFI20250123BHJP
G06T 7/00 20170101ALI20250123BHJP
【FI】
G06T7/12
G06T7/00 350B
【審査請求】有
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024115615
(22)【出願日】2024-07-19
(31)【優先権主張番号】63/514,791
(32)【優先日】2023-07-20
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502160992
【氏名又は名称】宏達國際電子股▲ふん▼有限公司
(74)【代理人】
【識別番号】100206335
【弁理士】
【氏名又は名称】太田 和宏
(72)【発明者】
【氏名】范 聖宏
(72)【発明者】
【氏名】彭 宇劭
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA01
5L096FA06
5L096GA10
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】画像分割方法を提供する。
【解決手段】入力画像を指示器モデルに提供することで、指示器モデルのタスクタイプに基づいて第1指示マークを生成するステップと、指示器モデルのタスクタイプを参照して第1指示マークに対して、タスクタイプを参照して第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って第2指示マークを生成するステップと、入力画像及び第2指示マークを分割基礎モデルに提供し、第2指示マークに基づいて入力画像において出力分割マスクを生成するステップとを含む画像分割方法。
【選択図】
図3
【特許請求の範囲】
【請求項1】
入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成するステップと、
前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成するステップと、
前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成するステップとを含む、画像分割方法。
【請求項2】
前記指示器モデルの前記タスクタイプが物体検知タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、第1エッジボックスであり、
前記第1指示マークに対して行う前記指示強化プログラムは、前記第1エッジボックスの位置を移動して第2エッジボックスを形成すること、前記第1エッジボックスのサイズを前記第2エッジボックスに拡大すること、又は前記第1エッジボックスの前記サイズを前記第2エッジボックスに縮小することを含み、
前記第2指示マークは、前記第2エッジボックスを含む、請求項1に記載の画像分割方法。
【請求項3】
前記指示器モデルの前記タスクタイプが前記物体検知タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記第2エッジボックス内で第1ノードを選択すること、又は前記第2エッジボックスの外で第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項2に記載の画像分割方法。
【請求項4】
前記指示器モデルの前記タスクタイプが画像分割タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、第1分割マスクであり、
前記第1指示マークに対して行う前記指示強化プログラムは、前記第1分割マスクの位置を移動して第2分割マスクを形成すること、前記第1分割マスクのサイズを前記第2分割マスクに拡大すること、前記第1分割マスクの前記サイズを前記第2分割マスクに縮小すること、又は前記第1分割マスクの複数のエッジノードに基づいてエッジボックスを取得することを含み、
前記第2指示マークは、前記第2分割マスク又は前記エッジボックスを含む、請求項1に記載の画像分割方法。
【請求項5】
前記指示器モデルの前記タスクタイプが前記画像分割タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記第2分割マスク内で第1ノードを選択すること、又は前記第2分割マスクの外で第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項4に記載の画像分割方法。
【請求項6】
前記指示器モデルの前記タスクタイプが分類タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、ヒートマップであり、
前記第1指示マークに対して行う前記指示強化プログラムは、
前記ヒートマップにおける複数の特徴点の値と閾値とを比較することと、
前記ヒートマップにおける前記閾値を超える複数の第1特徴点を位置決めするとともに、前記ヒートマップにおける前記閾値よりも低い複数の第2特徴点を位置決めすることと、
前記複数の第1特徴点の複数のエッジノードに基づいてエッジボックスを取得し、又は前記複数の第1特徴点に基づいて分割マスクを取得することとを含み、前記第2指示マークは、前記エッジボックス又は前記分割マスクを含む、請求項1に記載の画像分割方法。
【請求項7】
前記指示器モデルの前記タスクタイプが前記分類タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記複数の第1特徴点から第1ノードを選択すること、又は前記複数の第2特徴点から第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項6に記載の画像分割方法。
【請求項8】
出力された前記分割マスク及び前記入力画像に基づいて出力画像を生成することをさらに含む、請求項1に記載の画像分割方法。
【請求項9】
前記分割基礎モデルは、
前記入力画像を受信し、且つ前記入力画像を入力画像埋め込みベクトルに変換するための画像エンコーダと、
前記第2指示マークを受信し、且つ前記第2指示マークを指示ベクトルに変換するための指示エンコーダと、
前記入力画像埋め込みベクトル及び前記指示ベクトルに基づいて前記出力分割マスクを生成するためのマスクデコーダとを含む、請求項1に記載の画像分割方法。
【請求項10】
複数のコンピュータ実行可能な命令を記憶するための記憶ユニットと、
前記記憶ユニットに結合される処理ユニットであって、前記複数のコンピュータ実行可能な命令を実行するために用いられ、
入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成すること、
前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成すること、
前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成することに用いられる処理ユニットと、
を含む、画像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像分割方法及び画像処理システムに関し、特に分割基礎モデルと統合された画像分割方法及び画像処理システムに関する。
【背景技術】
【0002】
近年、人工知能は、急速に発展し、工業、商業、医療などの様々な応用分野ではすでに人工知能技術を広く採用してその運営を支援し始めている。しかしながら、多くの企業では、自分のニーズに合った人工知能モデルを構築するための対応する能力が不足している。そのため、多くの企業は、自動化機械学習プラットフォームを用いたり、人工知能モデルを構築するために協力を求めたりする傾向がある。自動化機械学習プラットフォームにより、人工知能の基礎知識を持つ企業ユーザーは、自動化トレーニング方法を通じて企業専用の人工知能モデルを構築することができる。これらのプラットフォームは、ユーザーにさまざまなモデル選択を提供し、それにより、彼らは、それぞれのニーズに応じて対応する能力を備えたモデルを選択し、収集したデータセットを用いて選択されたモデルをトレーニングすることができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
自動化機械学習プラットフォームは、ユーザーが選択できるように、複数のモデルを提供していたが、トレーニングに必要な重要な部分、すなわち正確なラベルを有するトレーニングデータは、ユーザー自分が用意する必要がある。大量かつ正確なラベルを有するトレーニングデータをどのように確立するかは、マーキングルールの設定、マーキングされていないデータセットの用意に関し、及び専門家(例えば、生産ライン技術者、品質管理者、放射線科医)が既定のルールに基づいてマーキングし、ラベルデータを生成する必要があるため、ユーザーにとって大きな負担となる。タスクが画像分割に関する場合は、さらに時間がかかる。画像分割タスクは、画素ごとにマーキングする必要があり、経験のあるマーキング者にとっても大量の時間がかかる。一般的に、機械学習モデルのトレーニングには、大量のラベルトレーニングデータ、一定の時間及びトレーニングを行うために必要な演算機器を必要とする。
【0004】
以上のことから、従来の画像分割モデルトレーニング過程は、データを収集するステップと、データマーキングを行うステップと、適切なモデルを選択するステップと、ラベルデータセットをロードするステップと、モデルをトレーニングするステップと、トレーニング後のモデルを取得するステップとを含む。例えば、ラベルに犬が含まれる画像データに基づいてモデルのトレーニングを行うことができ、それにより、入力画像に犬の位置を識別し且つ位置決めすることができる。トレーニング後のモデルを改善する(例えば、猫に関する分割機能を追加する)必要がある場合に、モデルを再トレーニングするために少なくとも一部のトレーニングステップを繰り返す必要があり、これらの再トレーニングステップは、多くの時間、労力、計算リソースを消費することになる。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、画像分割方法であって、入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成するステップと、前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成するステップと、前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成するステップとを含む、画像分割方法を開示する。
【0006】
本開示の別の態様によれば、画像処理システムであって、複数のコンピュータ実行可能な命令を記憶するための記憶ユニットと、記憶ユニットに結合され、前記複数のコンピュータ実行可能な命令を実行するために用いられ、入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成すること、前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記指示強化プログラムが前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成すること、前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成することに用いられる処理ユニットとを含む、画像処理システムを開示する。
【0007】
なお、上記説明及び後続の詳細な説明は、本願を実施形態で例示的に説明し、本願が要求する発明内容の解釈及び理解を支援するために用いられる。
【図面の簡単な説明】
【0008】
本開示の上記及びその他の目的、特徴及び実施例をより明確にわかりやすくするために、添付の図面は以下のように説明する。
【
図1】本開示のいくつかの実施例による画像処理システムの概略図である。
【
図2】本開示のいくつかの実施例における画像分割方法のフローチャートである。
【
図3】いくつかの実施例における画像分割方法の実行中に入力画像に基づいて生成された第1指示マーク、第2指示マーク、出力分割マスク及び出力画像の概略図である。
【
図4】本開示のいくつかの実施例による指示器モデルのトレーニング方法の方法フローチャートである。
【
図5】1つの例示的な例における指示器モデルのタスクタイプが物体検知タイプである場合に対応する入力画像、第1指示マーク及び第2指示マークの概略図である。
【
図6】別の例示的な例における指示器モデルのタスクタイプが画像分割タイプである場合に対応する入力画像、第1指示マーク及び第2指示マークの概略図である。
【
図7】別の例示的な例における指示器モデルのタスクタイプが分類タイプである場合に対応する入力画像、第1指示マーク及び第2指示マークの概略図である。
【
図8A】いくつかの実施例における分割基礎モデルが異なる指示マークに基づいて生成する異なる出力分割マスクの概略図である。
【
図8B】いくつかの実施例における分割基礎モデルが異なる指示マークに基づいて生成する異なる出力分割マスクの概略図である。
【発明を実施するための形態】
【0009】
以下の開示は、本開示の異なる特徴を実施するための多くの異なる実施例又は例証を提供する。特別な例証における素子及び構成は、以下の議論で本開示を簡略化するために用いられる。議論されているいかなる例証は、解説の目的でのみ用いられ、本開示又はその例証の範囲と意味をいかなる方式で制限することはない。適切な場合は、図面間及び対応するテキスト説明に同じ符号を用いて、同じ又は類似した素子を表す。
【0010】
図1を参照されたい。それは、本開示のいくつかの実施例による画像処理システム100の概略図である。いくつかの実施例では、画像処理システム100は、入力画像IMGiに対して特定の画像分割タスクを実行することができる。例えば、画像処理システム100は、磁気共鳴イメージング(MRI)スキャン画像における潜在的腫瘍位置をマークし、交通モニタリング画像におけるナンバープレートを識別し、芝生背景中の猫をマークし、又は前景人物と背景景色を分離するために用いることができる。いくつかの実施例では、画像処理システム100は、分割基礎モデル(SFM)192と共同で動作して上記画像分割タスクを実行するために用いられる。
【0011】
いわゆる分割基礎モデル192は、様々な画像分割タスクを実行するための総合的な深さ学習フレームワークである。分割基礎モデル192は、コンピュータ視覚における汎用ツールとして機能し、画像を有意義な部分又は局所に分割するために用いることができる。分割基礎モデル192は、一般的には先進的なニューラルネットワークアーキテクチャ、例えば、コンバータ、畳み込みニューラルネットワーク(CNN)又は全畳み込みネットワーク(FCN)に基づく。分割基礎モデル192は、様々な異なるタイプの画像と様々な分割タスクに広く応用できるために、大規模かつ多様なタイプのデータセットに基づいてトレーニングされる。いくつかの実施例では、分割基礎モデル192は、画像処理システム100の外の外部サーバー190上で動作することができる。
【0012】
いくつかの実施例では、分割基礎モデル192は、セグメントエニシングモデル(SAM)によって実現されてもよい。セグメントエニシングモデルは、指示ワード命令に基づいて画像分割タスクを完了することができる。セグメントエニシングモデルは、複数のタイプの指示マーク(例えば正方向クリック、負方向クリック、エッジボックス又はテキスト記述)をサポートする。しかしながら、セグメントエニシングモデルは、カスタマイズされた物体分割タスクに用いられる場合にいくつかの制限がある。まず、セグメントエニシングモデルは、目標分割タスクの意図を明確に示すために、正確かつ適切な指示マークが必要である。次に、セグメントエニシングモデルは、最適な分割効果を達成するために追加の特定のトレーニング(目標分割タスクに関する)が必要である。
【0013】
本開示における画像処理システム100は、入力画像IMGiに基づいて適切な指示マークを生成し且つ適切な指示マークを分割基礎モデル192に提供することができる解決手段を提供する。
図1に示すように、いくつかの実施例では、画像処理システム100は、記憶ユニット120、処理ユニット140、インタフェース160及び通信回路180を含む。処理ユニット140は、記憶ユニット120、インタフェース160及び通信回路180に結合される。いくつかの実施例では、記憶ユニット120は、メモリ、高速アクセスメモリ、又はハードディスクによって実現されてもよい。処理ユニット140は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、テンソル処理ユニット(TPU)又は特定用途向け集積回路(ASIC)によって実現されてもよく、インタフェース160は、入力端(例えばコネクタ、画像スキャナ又はカメラ)と出力端(例えばディスプレイ、コネクタ又はプロジェクタ)とを含んでもよく、通信回路180は、ネットワークアダプタ、電信通信回路又は無線通信回路によって実現されてもよい。
【0014】
記憶ユニット120は、コンピュータ実行可能な命令を記憶するために用いられる。これらのコンピュータ実行可能な命令は、画像分割方法を実行するために処理ユニット140によって実行されてもよい。
図2及び
図3を併せて参照されたい。
図2は、本開示のいくつかの実施例における画像分割方法200のフローチャートであり、
図3は、いくつかの実施例における画像分割方法200の実行中に入力画像IMGiに基づいて生成された第1指示マークPM1、第2指示マークPM2、出力分割マスクSMK及び出力画像IMGoの概略図である。
【0015】
新しいタスク目標は、猫と背景を分割できる新しい画像分割モデルを確立するものであると仮定する。この新しいタスク目標を実現するために、画像処理システム100は、指示器モデル142及び指示強化プログラム144を利用して、分割基礎モデル192の動作に必要な適切な指示マーク(例えば、猫に対する正方向クリック、背景に対する負方向クリック、猫を取り囲むエッジボックス、又は猫に対する粗い分割マスク)を生成する。この例では、分割基礎モデル192は、指示器モデル142と指示強化プログラム144により生成された適切な指示マークに基づいて、猫に関する正確分割マスクを生成することができる。指示器モデル142及び指示強化プログラム144のより多くの詳細については、後続の段落で説明する。
【0016】
図1、
図2及び
図3に示すように、画像処理システム100は、入力画像IMGiをインタフェース160を介して受信する。ステップS210において、処理ユニット140は、指示器モデル142のタスクタイプに基づいて、入力画像IMGiを指示器モデル142に提供して第1指示マークPM1(例えばエッジボックスPM1a、第1分割マスクPM1b又はヒートマップPM1c)を生成する。ステップS220において、処理ユニット140は、指示器モデル142のタスクタイプに基づいて、第1指示マークPM1に対して指示強化プログラム144を実行して、第2指示マークPM2(例えば正方向クリックPM2a、負方向クリックPM2b、第2エッジボックスPM2c、正方向軌跡PM2d、負方向軌跡PM2e又は第2分割マスクPM2f)を生成する。ステップS230において、画像処理システム100は、入力画像IMGi及び第2指示マークPM2を分割基礎モデル192に通信回路180を介して提供することで、分割基礎モデル192は、第2指示マークPM2に基づいて、入力画像IMGiにおいて出力分割マスクSMKを生成することができる。
【0017】
分割基礎モデル192との協働により、画像処理システム100は、出力分割マスクSMKを取得することができる。
図1、
図2及び
図3に示すように、ステップS240において、処理ユニット140により実行される結果生成装置146は、出力分割マスクSMKと入力画像IMGiに基づいて出力画像IMGoを生成することができる。
【0018】
いくつかの実施例では、指示器モデル142、指示強化プログラム144及び結果生成装置146は、処理ユニット140により実行されるソフトウェア命令によって実現されてもよい。指示器モデル142のタスクタイプは、物体検知タイプ、画像分割タイプ及び分類タイプなど複数の候補タスクタイプから選択されてもよい。指示器モデル142は、トレーニングデータセットに基づいてトレーニングされ、さらに物体検知、画像分割又は分類タスクのうちの1つを完了することができる。トレーニングデータセットは、複数のトレーニング画像及び複数のトレーニング画像に対応するラベルデータを含む。
【0019】
図4を併せて参照されたい。
図4は、本開示のいくつかの実施例による指示器モデル142のトレーニング方法400の方法フローチャートである。
図4に示すように、トレーニング方法400は、ステップS410を実行して、複数のトレーニング画像(例えば猫に関する画像)を収集する。ステップS420を実行し、トレーニング画像をマーキングしてラベルデータを生成する。ステップS430を実行して、指示器モデル142のタスクタイプを選択する。例えば、指示器モデル142のタスクタイプは、物体検出タイプ(例えば指示器モデル142は、YOLO又はFaster R-CNNモデルを用いてもよい)、画像分割タイプ(例えば指示器モデル142は、Unet又はDeeplabモデルを用いてもよい)及び分類タイプ(例えば指示器モデル142は、VGGNet又はResNetモデルを用いてもよい)のうちの1つを選択してもよい。ステップS440を実行して、データセット(複数のトレーニング画像と対応するラベルデータを含む)をロードしてトレーニングのために用意する。ステップS450を実行して、指示器モデル142をトレーニングする。いくつかの実施例では、ステップS450は、指示器モデル142がトレーニング画像の予測結果を生成することと、予測結果とラベルデータとを比較することと、上記比較結果に基づいて指示器モデル142のパラメータを調整することとを含む。ステップS460を実行し、トレーニング後の指示器モデル142を得る。
【0020】
いくつかの実施例では、分割基礎モデル192と比較して、指示器モデル142は、小規模で特定のタイプのデータセットを用いてトレーニングされる。これは、指示器モデル142が正確な画像分割マスク位置を生成する必要がなく、指示器モデル142の出力が指示マーク(分割基礎モデル192の分割意図の表示/手がかりとして)を生成するためだけに用いられ、正確な画像分割マスク位置を生成するような負担が重いタスクが、分割基礎モデル192により、受信された指示マークに基づいて行われるからである。なお、指示器モデル142は、特定の目的(例えば猫探し)を実現するために特化することができるため、様々な種類の入力画像を処理する必要がない。そのため、指示器モデル142は、簡単なモデルに基づいて、限られた計算リソースで実現することができ、また、小規模で特定のタイプのデータセットに基づいて、より迅速にトレーニングを完了することができる。
【0021】
図4に記載されるように、指示器モデル142は、物体検知タイプ、画像分割タイプ又は分類タイプを含む複数の異なるタスクタイプに対応する様々なモデルから選択することができる。いくつかの実施例では、指示器モデル142は、様々な異なるタスクタイプから選択されるため、指示器モデル142により生成された第1指示マークPM1は、指示器モデル142のタスクタイプを参照してさらに異なるフォーマットを有する。
図3に示すように、指示器モデル142により生成された第1指示マークPM1は、エッジボックスPM1a、第1分割マスクPM1b又はヒートマップPM1cのうちの1つであってもよい。第1指示マークPM1を処理するための指示強化プログラム144は、第1指示マークPM1の様々なタイプ(即ちエッジボックスPM1a、第1分割マスクPM1b、又はヒートマップPM1c)に応じて異なる。
【0022】
図5を併せて参照されたい。それは、1つの例示的な例における指示器モデル142のタスクタイプが物体検知タイプである場合に対応する入力画像IMGi、第1指示マークPM1及び第2指示マークPM2の概略図である。
【0023】
この例では、指示器モデル142は、猫に関する限られた数の画像を用いてトレーニングされた物体検知モデルであるとともに、入力画像IMGiに猫を含むエッジボックスをマークするために用いられる。
図5に示すように、いくつかの実施例では、指示器モデル142のタスクタイプが物体検知タイプである場合に、指示器モデル142は、第1エッジボックスPM1aを含む第1指示マークPM1を生成し、この第1エッジボックスPM1aは、興味のある物体(例えば猫)の近似位置に対応する。
【0024】
図5に示すように、指示強化プログラム144は、第1指示マークPM1(即ち第1エッジボックスPM1a)を変換することで、第1エッジボックスPM1aを第2エッジボックスPM2cに変換するために用いられる。
【0025】
いくつかの実施例では、前述変換は、(1)第1エッジボックスPM1aの位置を移動して第2エッジボックスPM2cを形成すること、(2)第1エッジボックスPM1aのサイズを第2エッジボックスPM2cに拡大すること、(3)第1エッジボックスPM1aのサイズを第2エッジボックスPM2cに縮小すること、又は(4)第1エッジボックスPM1aを第2エッジボックスPM2cにコピーすることであってもよい。
【0026】
図5の実施例では、第1エッジボックスPM1aのサイズを縮小して第2指示マークPM2の第2エッジボックスPM2cを形成する。しかしながら、本開示は、これに限定されない。変換方式は、分割基礎モデル192の特性に基づいて決定される。
【0027】
図5に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、第2エッジボックスPM2c内の1つのノードを正方向クリックPM2aの位置として選択することをさらに含む。いくつかの例では、第2エッジボックスPM2cの中心点を正方向クリックPM2aの位置として選択してもよく、第2指示マークPM2は、正方向クリックPM2aも併せて含んでもよい。
【0028】
図5に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、第2エッジボックスPM2c外の1つ又は複数のノードを負方向クリックPM2bの位置として選択することをさらに含む。いくつかの例では、第2エッジボックスPM2cから離れるランダムなノードを負方向クリックPM2bの位置として選択してもよく、第2指示マークPM2は、負方向クリックPM2bも併せて含んでもよい。
【0029】
いくつかの実施例では、第2指示マークPM2は、
図5に示す正方向クリックPM2a、負方向クリックPM2bと第2エッジボックスPM2cの組み合わせを含んでもよい。正方向クリックPM2a、負方向クリックPM2bと第2エッジボックスPM2cの3つを統合して分割基礎モデル192に指示入力として送信することができる。
【0030】
図6を併せて参照されたい。それは、別の例示的な例における指示器モデル142のタスクタイプが画像分割タイプである場合に対応する入力画像IMGi、第1指示マークPM1及び第2指示マークPM2の概略図である。
【0031】
この例では、指示器モデル142は、猫に関する限られた数の画像を用いてトレーニングされた画像分割モデルであるとともに、入力画像IMGiに猫が位置する領域を覆う分割マスクをマークするために用いられる。
図6に示すように、いくつかの実施例では、指示器モデル142のタスクタイプが画像分割タイプである場合に、指示器モデル142により生成された第1指示マークPM1は、第1分割マスクPM1bを含み、この第1分割マスクPM1bは、興味のある物体(例えば猫)の近似領域を覆う。
【0032】
図6に示すように、指示強化プログラム144は、第1指示マークPM1(即ち第1分割マスクPM1b)を変換することで、第1分割マスクPM1bを第2分割マスクPM2fに変換するために用いられる。
【0033】
いくつかの実施例では、前述変換は、(1)第1分割マスクPM1bの位置を移動して第2分割マスクPM2fを形成すること、(2)第1分割マスクPM1bのサイズを第2分割マスクPM2fに拡大すること、(3)第1分割マスクPM1bのサイズを第2分割マスクPM2fに縮小すること、又は(4)第1分割マスクPM1bを第2分割マスクPM2fにコピーすることであってもよい。
【0034】
図6に示す実施例では、第1分割マスクPM1bのサイズを縮小して第2指示マークPM2の第2分割マスクPM2fを形成する。しかしながら、本開示は、これに限定されない。
【0035】
図6に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、第1分割マスクPM1bのエッジノードの位置に基づいて第2エッジボックスPM2cを取得することをさらに含む。いくつかの例では、第1分割マスクPM1bの頂点、底点、最右側点、最左側点に基づいて第2エッジボックスPM2cのサイズと位置を決定してもよく、第2指示マークPM2は、第2エッジボックスPM2cも併せて含んでもよい。
【0036】
図6に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、第2分割マスクPM2f内の1つのノードを正方向クリックPM2aの位置として選択することをさらに含む。いくつかの例では、第2分割マスクPM2fの中心点を正方向クリックPM2aの位置として選択してもよく、第2指示マークPM2は、正方向クリックPM2aも併せて含んでもよい。
【0037】
図6に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、第2分割マスクPM2f外の1つ又は複数のノードを負方向クリックPM2bの位置として選択することをさらに含む。いくつかの例では、第2分割マスクPM2fから離れるランダムなノードを負方向クリックPM2bの位置として選択してもよく、第2指示マークPM2は、負方向クリックPM2bも併せて含んでもよい。
【0038】
いくつかの実施例では、第2指示マークPM2は、
図6に示す正方向クリックPM2a、負方向クリックPM2b、第2エッジボックスPM2cと第2分割マスクPM2fの組み合わせを含んでもよい。正方向クリックPM2a、負方向クリックPM2b、第2エッジボックスPM2cと第2分割マスクPM2fの4つを統合して一緒に分割基礎モデル192に指示入力として送信することができる。
【0039】
図7を併せて参照されたい。それは、別の例示的な例における指示器モデル142のタスクタイプが分類タイプである場合に対応する入力画像IMGi、第1指示マークPM1及び第2指示マークPM2の概略図である。
【0040】
この例では、指示器モデル142は、猫に関する限られた数の画像を用いてトレーニングされた分類モデルであるとともに、1つのヒートマップPM1cを生成するために用いられる。ヒートマップPM1cにおける複数の特徴点の数値は、興味のある物体(例えば猫)が位置する領域に属するか否かの確率値に応じて変化する。例えば、特徴点が高い確率で猫と重なる場合、ヒートマップでは濃い色(例えば数値が高い)である一方、特徴点が低い確率で猫と重なる場合、ヒートマップでは薄い色(例えば数値が低い)であり、
図7に示す。
【0041】
図7に示すように、第1指示マークPM1(例えばヒートマップPM1c)に対して行う指示強化プログラム144は、(1)ヒートマップPM1cにおける複数の特徴点の値と閾値とを比較することと、(2)ヒートマップPM1cにおける閾値を超える複数の第1特徴点を位置決めするとともに、ヒートマップPM1cにおける閾値よりも低い複数の第2特徴点を位置決めすることと、(3)これらの第1特徴点の複数のエッジノードに基づいて第2エッジボックスPM2cを取得し、又はこれらの第1特徴点に基づいて第2分割マスクPM2fを取得することとを含む。この例では、第2エッジボックスPM2c及び/又は第2分割マスクPM2fを統合して第2指示マークPM2の組み合わせに追加することができる。
【0042】
図7に示す実施例では、ヒートマップPM1cにおける高い確率値に対応する内側部分(即ち閾値を超えるこれらの第1特徴点)は、第2分割マスクPM2fを形成する。第2分割マスクPM2fのエッジノードは、第2エッジボックスPM2cを形成する。
【0043】
図7に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、閾値を超えるこれらの第1特徴点(第2分割マスクPM2f以内の領域に対応する)から第1ノードを正方向クリックPM2aの位置として選択することをさらに含む。この例では、第2分割マスクPM2fの中心点は、正方向クリックPM2aの位置として選択されてもよい。第2指示マークPM2は、正方向クリックPM2aも併せて含んでもよい。
【0044】
図7に示すように、指示強化プログラム144が第1指示マークPM1を変換することは、閾値よりも低いこれらの第2特徴点(第2分割マスクPM2f以外の領域に対応する)から1つ又は複数の第2ノードを負方向クリックPM2bの位置として選択することをさらに含む。いくつかの例では、第2分割マスクPM2fから離れるランダムなノードを負方向クリックPM2bの位置として選択してもよく、第2指示マークPM2は、負方向クリックPM2bも併せて含んでもよい。
【0045】
いくつかの実施例では、第2指示マークPM2は、
図7に示す正方向クリックPM2a、負方向クリックPM2b、第2エッジボックスPM2cと第2分割マスクPM2fの組み合わせを含んでもよい。正方向クリックPM2a、負方向クリックPM2b、第2エッジボックスPM2c及び第2分割マスクPM2fの4つを統合して一緒に分割基礎モデル192に指示入力として送信することができる。
【0046】
図3に示すように、分割基礎モデル192は、画像エンコーダ192a、指示エンコーダ192b及びマスクデコーダ192cを含む。画像エンコーダ192aは、入力画像IMGiを受信し、且つ入力画像IMGiを入力画像埋め込みベクトルIMGeに変換するために用いられる。指示エンコーダ192bは、第2指示マークPM2を受信し、且つ第2指示マークPM2を指示ベクトルPVに変換するために用いられる。マスクデコーダ192cは、画像エンコーダ192aにより生成された入力画像埋め込みベクトルIMGeと指示エンコーダ192bにより生成された指示ベクトルPVに基づいて、さらに出力分割マスクSMKを生成するために用いられる。
【0047】
いくつかの実施例では、分割基礎モデル192は、セグメントエニシングモデル(SAM)によって実現されてもよい。しかしながら、本開示は、これに限定されない。分割基礎モデル192は、コンバータアーキテクチャに基づく他の類似するベースモデル、又はエンコーダ-デコーダアーキテクチャに基づく他の類似するベースモデルによって実現されてもよい。
【0048】
図8A及び
図8Bを併せて参照されたい。それは、いくつかの実施例における分割基礎モデル192が異なる指示マークに基づいて生成する異なる出力分割マスクの概略図である。
【0049】
図8Aは、分割基礎モデル192が入力画像IMGi及び第1指示マークPM1を受信する例である。この例では、分割基礎モデル192に入力された指示は、指示強化プログラム144により処理されていない第1指示マークPM1である。
図8Aに示すように、第1指示マークPM1は、1つのエッジボックスのみを含み、このエッジボックスは、肝臓の近似位置をマークする。しかしながら、エッジボックスは、さらに肝臓の周囲のいくつかの領域を覆う。第1指示マークPM1(即ちエッジボックス)により提供される指示に基づいて、
図8Aに示す分割基礎モデル192により生成された出力分割マスクSMK1は、肝臓の周囲のその他の物体も覆う可能性がある。言い換えれば、第1指示マークPM1に基づいて生成された出力分割マスクSMK1は、正確ではない。
【0050】
図8Bは、分割基礎モデル192が入力画像IMGi及び第2指示マークPM2を受信する別の例である。この場合に、分割基礎モデル192に入力された指示は、指示強化プログラム144により処理された第2指示マークPM2である。
図8Bに示すように、第2指示マークPM2は、1つの正方向クリック、3つの負方向クリックと1つのエッジボックスの組み合わせを含む。このエッジボックスは、肝臓の近似位置をマークする。正方向クリックは、分割しようとする目標(即ち肝臓)をマークする。これらの負方向クリックは、分割目標に含めるべきではない部分をマークする。第2指示マークPM2により提供される指示に基づいて、分割基礎モデル192により生成された出力分割マスクSMK2は、
図8Bに示すように、この例における目標(即ち肝臓)をより正確に分割することができる。
【0051】
前述した実施例で説明されたように、画像処理システム100は、大量のラベルデータを用いて大規模のモデルをレーニングすることなく画像分割を行うことができる。画像処理システム100は、小規模の指示器モデル142をトレーニングすることができ、指示器モデル142と指示強化プログラム144を利用して第2指示マークPM2を生成し、且つ分割基礎モデル192に送信して出力分割マスクSMKを生成する。分割基礎モデル192は、外部で動作するプリトレーニングモデルであってもよい。通常、分割基礎モデル192は、優れた汎用性(即ち異なる画像を処理する能力)を有し、分割基礎モデル192と統合して動作する画像処理システム100は、異なるタイプの画像(例えば、医学画像、交通画像、顔識別画像、指紋画像)を処理することもできる。
【0052】
本開示のフレームワークでは、計算の複雑さが低い小型モデルを指示器モデル142として選択することができ、データマーキング(指示器モデル142をトレーニングするために用いられる)のタスク難易度を簡略化することができる。この例では、指示器モデル142は、限られた数のラベルデータと簡略化されたラベルタイプによりトレーニングすることができる。新しいタスク目標時(例えば、犬に関する画像分割)を追加する必要がある場合に、画像処理システム100は、犬に関するトレーニングデータを用いて大規模のモデルを再トレーニングする必要がなく、犬に関する限られた数のラベルデータを用いて指示器モデル142をトレーニングすることができ、指示器モデル142をトレーニングするマーキングコスト(例えば時間コストと人件費)の低減に寄与する。また、分割基礎モデル192によって適切な指示入力(例えば第2指示マークPM2)に基づいて分割結果(例えば出力分割マスクSMK)を生成することができ、それにより出力分割マスクSMKの正確性を維持する。
【0053】
本開示の特定の実施例は、上記実施例について開示しているが、これらの実施例は、本開示を限定することを意図していない。様々な代替及び改良は、本開示の原理及び精神から逸脱することなく、当業者によって本開示において実行されることができる。したがって、本開示の保護範囲は、添付の特許出願の範囲によって決定される。
【符号の説明】
【0054】
100:画像処理システム
120:記憶ユニット
140:処理ユニット
142:指示器モデル
144:指示強化プログラム
146:結果生成装置
160:インタフェース
180:通信回路
190:サーバー
192:分割基礎モデル
192a:画像エンコーダ
192b:指示エンコーダ
192c:マスクデコーダ
200:画像分割方法
400:トレーニング方法
IMGe:入力画像埋め込みベクトル
IMGi:入力画像
IMGo:出力画像
PM1:第1指示マーク
PM1a:エッジボックス
PM1b:第1分割マスク
PM1c:ヒートマップ
PM2:第2指示マーク
PM2a:正方向クリック
PM2b:負方向クリック
PM2c:第2エッジボックス
PM2d:正方向軌跡
PM2e:負方向軌跡
PM2f:第2分割マスク
PV:指示ベクトル
S210、S220、S230、S240:ステップ
S410、S420、S430、S440、S450、S460:ステップ
SMK、SMK1、SMK2:出力分割マスク
【手続補正書】
【提出日】2024-09-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成するステップと、
前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成するステップと、
前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成するステップとを含む、画像分割方法。
【請求項2】
前記指示器モデルの前記タスクタイプが物体検知タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、第1エッジボックスであり、
前記第1指示マークに対して行う前記指示強化プログラムは、前記第1エッジボックスの位置を移動して第2エッジボックスを形成すること、前記第1エッジボックスのサイズを前記第2エッジボックスに拡大すること、又は前記第1エッジボックスの前記サイズを前記第2エッジボックスに縮小することを含み、
前記第2指示マークは、前記第2エッジボックスを含む、請求項1に記載の画像分割方法。
【請求項3】
前記指示器モデルの前記タスクタイプが前記物体検知タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記第2エッジボックス内で第1ノードを選択すること、又は前記第2エッジボックスの外で第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項2に記載の画像分割方法。
【請求項4】
前記指示器モデルの前記タスクタイプが画像分割タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、第1分割マスクであり、
前記第1指示マークに対して行う前記指示強化プログラムは、前記第1分割マスクの位置を移動して第2分割マスクを形成すること、前記第1分割マスクのサイズを前記第2分割マスクに拡大すること、前記第1分割マスクの前記サイズを前記第2分割マスクに縮小すること、又は前記第1分割マスクの複数のエッジノードに基づいてエッジボックスを取得することを含み、
前記第2指示マークは、前記第2分割マスク又は前記エッジボックスを含む、請求項1に記載の画像分割方法。
【請求項5】
前記指示器モデルの前記タスクタイプが前記画像分割タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記第2分割マスク内で第1ノードを選択すること、又は前記第2分割マスクの外で第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項4に記載の画像分割方法。
【請求項6】
前記指示器モデルの前記タスクタイプが分類タイプであることに応答して、前記指示器モデルにより生成された前記第1指示マークは、ヒートマップであり、
前記第1指示マークに対して行う前記指示強化プログラムは、
前記ヒートマップにおける複数の特徴点の値と閾値とを比較することと、
前記ヒートマップにおける前記閾値を超える複数の第1特徴点を位置決めするとともに、前記ヒートマップにおける前記閾値よりも低い複数の第2特徴点を位置決めすることと、
前記複数の第1特徴点の複数のエッジノードに基づいてエッジボックスを取得し、又は前記複数の第1特徴点に基づいて分割マスクを取得することとを含み、前記第2指示マークは、前記エッジボックス又は前記分割マスクを含む、請求項1に記載の画像分割方法。
【請求項7】
前記指示器モデルの前記タスクタイプが前記分類タイプであることに応答して、前記第1指示マークに対して行う前記指示強化プログラムは、前記複数の第1特徴点から第1ノードを選択すること、又は前記複数の第2特徴点から第2ノードを選択することをさらに含み、
前記第2指示マークは、前記第1ノードに位置する正方向クリック又は前記第2ノードに位置する負方向クリックをさらに含む、請求項6に記載の画像分割方法。
【請求項8】
前記分割マスク及び前記入力画像に基づいて出力画像を生成することをさらに含む、請求項1に記載の画像分割方法。
【請求項9】
前記分割基礎モデルは、
前記入力画像を受信し、且つ前記入力画像を入力画像埋め込みベクトルに変換するための画像エンコーダと、
前記第2指示マークを受信し、且つ前記第2指示マークを指示ベクトルに変換するための指示エンコーダと、
前記入力画像埋め込みベクトル及び前記指示ベクトルに基づいて前記出力分割マスクを生成するためのマスクデコーダとを含む、請求項1に記載の画像分割方法。
【請求項10】
複数のコンピュータ実行可能な命令を記憶するための記憶ユニットと、
前記記憶ユニットに結合される処理ユニットであって、前記複数のコンピュータ実行可能な命令を実行するために用いられ、
入力画像を指示器モデルに提供することで、前記指示器モデルのタスクタイプに基づいて第1指示マークを生成すること、
前記指示器モデルの前記タスクタイプを参照して前記第1指示マークに対して、前記タスクタイプを参照して前記第1指示マークの位置、サイズ又は指示タイプを変換して第2指示マークを形成することを含む指示強化プログラムを行って前記第2指示マークを生成すること、
前記入力画像及び前記第2指示マークを分割基礎モデルに提供し、前記分割基礎モデルによって前記第2指示マークに基づいて前記入力画像において出力分割マスクを生成することに用いられる処理ユニットと、
を含む、画像処理システム。
【外国語明細書】