(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】画像処理の方法及び画像処理装置
(51)【国際特許分類】
G06V 10/26 20220101AFI20240312BHJP
G06T 7/11 20170101ALI20240312BHJP
G06T 7/00 20170101ALI20240312BHJP
G06V 10/82 20220101ALI20240312BHJP
【FI】
G06V10/26
G06T7/11
G06T7/00 350C
G06V10/82
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023558635
(86)(22)【出願日】2021-03-24
(85)【翻訳文提出日】2023-11-22
(86)【国際出願番号】 CN2021082836
(87)【国際公開番号】W WO2022198526
(87)【国際公開日】2022-09-29
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ラン カイ
(72)【発明者】
【氏名】リー ヤン
(72)【発明者】
【氏名】ジャン ニー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA05
5L096FA19
5L096FA25
5L096GA34
5L096MA03
(57)【要約】
本開示の実施形態は、画像処理の方法、装置及びコンピュータ可読媒体に関する。いくつかの実施形態において、画像処理の方法が提供される。前記方法は、異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得することを含む。前記方法は、前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成することをさらに含む。他の実施形態において、別の方法、対応する装置、コンピュータ可読媒体及びコンピュータプログラム製品が提供される。
【選択図】
図5
【特許請求の範囲】
【請求項1】
画像処理の方法であって、
異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得することと、
前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成することと、
を含む方法。
【請求項2】
前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成することと、
前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、前記セグメンテーション結果を生成することと、
をさらに含む請求項1に記載の方法。
【請求項3】
画像処理の方法であって、
異なる光源の下でキャプチャされた物体に関する複数の画像を取得することと、
前記複数の画像をレジストレーションすることと、
レジストレーションされた前記複数の画像に基づいて前記物体を識別することと、
を含む方法。
【請求項4】
前記複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含み、前記複数の画像をレジストレーションすることは、
前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成することを含み、
レジストレーションされた前記複数の画像は、前記少なくとも1つのレジストレーション画像と前記ターゲット画像とを含む
請求項3に記載の方法。
【請求項5】
レジストレーションされた前記複数の画像に基づいて前記物体を識別することは、
前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、セグメンテーション結果を生成することと、
前記セグメンテーション結果に基づいて前記物体を識別することと、
を含む請求項4に記載の方法。
【請求項6】
前記少なくとも1つのレジストレーション画像を生成することは、
前記少なくとも1つの関連画像のうちの各関連画像について、
第1の変換に基づいて前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、変換画像を生成することと、
第2の変換に基づいて、前記変換画像を前記ターゲット画像にレジストレーションすることにより、レジストレーション画像を生成することと、
を含む請求項2又は4に記載の方法。
【請求項7】
前記第1の変換はアフィン変換であり、前記第2の変換は変形可能な変換である
請求項6に記載の方法。
【請求項8】
前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることは、
訓練済みの画像レジストレーションネットワークを使用することにより、前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることを含む
請求項2又は4に記載の方法。
【請求項9】
1グループの訓練画像ペアに基づいて前記画像レジストレーションネットワークを訓練することをさらに含み、
各訓練画像ペアは、固定画像と、前記固定画像に対する移動画像とを含む
請求項8に記載の方法。
【請求項10】
前記画像レジストレーションネットワークを訓練することは、
アフィン変換に基づいて前記移動画像を前記固定画像にレジストレーションすることにより第1の変換画像を生成することと、
変形可能な変換に基づいて前記第1の変換画像を前記固定画像にレジストレーションすることにより第2の変換画像を生成することと、
前記固定画像と、前記第1の変換画像と、前記第2の変換画像とに基づいて、前記画像レジストレーションネットワークを訓練するためのターゲット損失を決定することと、
前記ターゲット損失が最小化されるように前記画像レジストレーションネットワークを訓練することと、
を含む請求項9に記載の方法。
【請求項11】
前記ターゲット損失を決定することは、
前記固定画像と前記第1の変換画像とに基づいて第1の類似度損失を決定することと、
前記固定画像と前記第2の変換画像とに基づいて第2の類似度損失を決定することと、
前記第1の変換画像と前記変形可能な変換に対応する関数とに基づいて、空間平滑性損失を決定することと、
前記第1の変換画像と前記第2の変換画像とに基づいて第3の類似度損失を決定することと、
前記第1の類似度損失と、前記第2の類似度損失と、前記空間平滑性損失と、前記第3の類似度損失との加重合計に基づいて前記ターゲット損失を決定することと、
を含む請求項10に記載の方法。
【請求項12】
前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することは、
訓練済みのセマンティックセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記セマンティックセグメンテーションを実行すること、又は
訓練済みのインスタンスセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記インスタンスセグメンテーションを実行すること、
を含む請求項2又は5に記載の方法。
【請求項13】
前記ターゲット画像についての前記セグメンテーションラベルを生成することは、
前記セグメンテーション結果の加重合計に基づいて前記ターゲット画像についての最終的なセグメンテーション結果を決定することと、
前記最終的なセグメンテーション結果に基づいて前記ターゲット画像についての前記セグメンテーションラベルを生成することと、
を含む請求項1に記載の方法。
【請求項14】
前記異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられている
請求項1~13の何れか一項に記載の方法。
【請求項15】
少なくとも1つのプロセッサを備える画像処理装置であって、
前記少なくとも1つのプロセッサは、
異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得し、
前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成する
ように設定されている画像処理装置。
【請求項16】
前記少なくとも1つのプロセッサはさらに、
前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成し、
前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、前記セグメンテーション結果を生成する
ように設定されている請求項15に記載の装置。
【請求項17】
少なくとも1つのプロセッサを備える画像処理装置であって、
前記少なくとも1つのプロセッサは、
異なる光源の下でキャプチャされた物体に関する複数の画像を取得し、
前記複数の画像をレジストレーションし、
レジストレーションされた前記複数の画像に基づいて前記物体を識別する
ように設定されている画像処理装置。
【請求項18】
前記複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含み、前記少なくとも1つのプロセッサはさらに、
前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成するように設定され、
レジストレーションされた前記複数の画像は、前記少なくとも1つのレジストレーション画像と前記ターゲット画像とを含む
請求項17に記載の装置。
【請求項19】
前記少なくとも1つのプロセッサはさらに、
前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、セグメンテーション結果を生成し、
前記セグメンテーション結果に基づいて前記物体を識別する
ように設定されている請求項18に記載の装置。
【請求項20】
前記少なくとも1つのプロセッサはさらに、
前記少なくとも1つの関連画像のうちの各関連画像について、
第1の変換に基づいて前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、変換画像を生成し、
第2の変換に基づいて前記変換画像を前記ターゲット画像にレジストレーションすることにより、レジストレーション画像を生成する
ように設定されている請求項16又は18に記載の装置。
【請求項21】
前記第1の変換はアフィン変換であり、前記第2の変換は変形可能な変換である
請求項20に記載の装置。
【請求項22】
前記少なくとも1つのプロセッサはさらに、
訓練済みの画像レジストレーションネットワークを使用することにより、前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションするように設定されている
請求項16又は18に記載の装置。
【請求項23】
前記少なくとも1つのプロセッサはさらに、
1グループの訓練画像ペアに基づいて前記画像レジストレーションネットワークを訓練するように設定され、
各訓練画像ペアは、固定画像と、前記固定画像に対する移動画像とを含む
請求項22に記載の装置。
【請求項24】
前記少なくとも1つのプロセッサはさらに、
アフィン変換に基づいて前記移動画像を前記固定画像にレジストレーションすることにより第1の変換画像を生成し、
変形可能な変換に基づいて前記第1の変換画像を前記固定画像にレジストレーションすることにより第2の変換画像を生成し、
前記固定画像と、前記第1の変換画像と、前記第2の変換画像とに基づいて、前記画像レジストレーションネットワークを訓練するためのターゲット損失を決定し、
前記ターゲット損失が最小化されるように前記画像レジストレーションネットワークを訓練する
ように設定されている請求項23に記載の装置。
【請求項25】
前記少なくとも1つのプロセッサはさらに、
前記固定画像と前記第1の変換画像とに基づいて第1の類似度損失を決定し、
前記固定画像と前記第2の変換画像とに基づいて第2の類似度損失を決定し、
前記第1の変換画像と前記変形可能な変換に対応する関数とに基づいて、空間平滑性損失を決定し、
前記第1の変換画像と前記第2の変換画像とに基づいて第3の類似度損失を決定し、
前記第1の類似度損失と、前記第2の類似度損失と、前記空間平滑性損失と、前記第3の類似度損失との加重合計に基づいて前記ターゲット損失を決定する
ように設定されている請求項24に記載の装置。
【請求項26】
前記少なくとも1つのプロセッサはさらに、
訓練済みのセマンティックセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記セマンティックセグメンテーションを実行するか、又は
訓練済みのインスタンスセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記インスタンスセグメンテーションを実行する
ように設定されている請求項16又は19に記載の装置。
【請求項27】
前記少なくとも1つのプロセッサはさらに、
前記セグメンテーション結果の加重合計に基づいて前記ターゲット画像についての最終的なセグメンテーション結果を決定し、
前記最終的なセグメンテーション結果に基づいて前記ターゲット画像についての前記セグメンテーションラベルを生成する
ように設定されている請求項15に記載の装置。
【請求項28】
前記異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられている
請求項15~27の何れか一項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、全体として、画像処理の分野に関するものであり、特に画像処理の方法、装置及びコンピュータ可読媒体に関するものである。
【背景技術】
【0002】
実際の臨床現場では、正確な診断には証拠データのあらゆる側面を考慮する必要がある。例えば、経鼻内視鏡診断では、医師は同じカメラ位置で異なる光源を手動で切り替えて疑わしい病変や腫瘍を調べることが多い。異なる光源下の病変や腫瘍は異なる特徴を示す可能性があり、医師がより正確で信頼性の高い判断を下すのに有用な情報を大量に提供することができる。したがって、これらの特徴は、経鼻内視鏡画像についての画像処理タスク(例えば、セマンティックセグメンテーション、インスタンスセグメンテーション、及び/又は物体識別)の性能向上にも寄与すると仮定するのが妥当である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
全体として、本開示の例示的な実施形態は、画像処理の方法、装置及びコンピュータ可読媒体を提供する。
【課題を解決するための手段】
【0004】
第1の態様において、画像処理の方法が提供される。前記方法は、異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得することと、前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成することと、を含む。
【0005】
第2の態様において、画像処理の方法が提供される。前記方法は、異なる光源の下でキャプチャされた物体に関する複数の画像を取得することと、前記複数の画像をレジストレーションすることと、レジストレーションされた前記複数の画像に基づいて前記物体を識別することと、を含む。
【0006】
第3の態様において、画像処理の装置が提供される。前記装置は少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得し、前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成するように設定されている。
【0007】
第4の態様において、画像処理の装置が提供される。前記装置は少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、異なる光源の下でキャプチャされた物体に関する複数の画像を取得し、前記複数の画像をレジストレーションし、レジストレーションされた前記複数の画像に基づいて前記物体を識別するように設定されている。
【0008】
第5の態様において、命令を記憶したコンピュータ可読記憶媒体が提供される。前記命令は、少なくとも1つのプロセッサ上で実行された場合、前記少なくとも一つのプロセッサに、本開示の第1又は第2の態様に記載の方法を実行させる。
【0009】
第6の態様において、マシン実行可能命令を含むコンピュータプログラム製品が提供される。前記マシン実行可能命令は、少なくとも1つのプロセッサ上で実行された場合、前記少なくとも一つのプロセッサに、本開示の第1又は第2の態様に記載の方法を実行させる。
【0010】
発明の概要は、本発明の実施形態の重要又は基本的な特徴を特定することも、本発明の範囲を限定することも意図していないことを理解すべきである。本実施形態のその他の特徴は、以下の説明により容易に理解できるはずである。
【図面の簡単な説明】
【0011】
図面において本開示のいくつかの実施形態をさらに詳細に説明することで、本開示の上述の及びその他の目的、特徴及び利点を、さらに明らかにする。図中、同じ符号は、全体として、本開示の実施形態内の同じ構成要素を参照する。
【
図1】本発明の実施形態を実施可能な例示的な画像処理システムを示す図である。
【
図2A】本開示のいくつかの実施形態にかかる画像処理の模式図である。
【
図2B】本開示のいくつかの実施形態にかかる画像処理の模式図である。
【
図2C】本開示のいくつかの実施形態にかかる画像処理の模式図である。
【
図3】本開示のいくつかの実施形態にかかる画像処理の模式図である。
【
図4】本開示のいくつかの実施形態にかかる画像レジストレーションの模式図である。
【
図5】本開示のいくつかの実施形態にかかる画像処理の例示的な方法を示す図である。
【
図6】本開示のいくつかの実施形態にかかる画像処理の例示的な方法を示す図である。
【
図7】本開示の実施形態を実現するのに適した装置の概略ブロック図である。
【発明を実施するための形態】
【0012】
ここで、いくつかの例示的実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明のためにのみ記載され、当業者が本開示を理解し、実施するのを助けるものであり、本開示の範囲に関するいかなる限定も示唆しないことを理解すべきである。本明細書で説明される開示内容は、以下で説明される方法とは異なる様々な方法で実施することができる。
【0013】
以下の説明及び特許請求の範囲において、別途定義されていない限り、本文で使用される全ての技術的及び科学的用語は、本開示の当業者が一般に理解するものと同一の意味を有する。
【0014】
本明細書で使用される単数形「1つ」、及び「前記」は、文脈に明示的に示されていない限り、複数形も含まれる。用語「含む」及びその変型は、「含むが、これらに限定されるものではない」を意味するオープンエンド用語として理解されるべきである。用語「に基づく」は、「に少なくとも部分的に基づく」と理解されるべきである。用語「一実施形態」及び「実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「別の実施形態」は、「少なくとも1つの別の実施形態」と理解されるべきである。用語「第1」、「第2」などは、異なる又は同一の対象を指してもよい。以下では、その他の明示的及び暗黙的な定義を含む場合がある。
【0015】
いくつかの例において、値、プロシージャ、又は機器は、「最良」、「最低」、「最高」、「最小」、「最大」などと称される。このような説明は、多くの使用される機能的代替案の中から選択することができることを示すことを意図されており、そして、このような選択は、他の選択より良く、より小さく、より高い必要がなく、又はそのほかの点でより好ましい必要はないことが、理解されるであろう。
【0016】
本明細書で使用されるように、「ニューラルネットワーク」又は「ネットワーク」は、入力を処理し、対応する出力を提供することができ、通常は、入力層と、出力層と、入力層と出力層との間の1つ又は複数の隠れ層を含む。ニューラルネットワークは通常、順に接続された多数の層を含み、ここで、前の層の出力は次の層の入力として提供され、入力層はニューラルネットワークの入力を受け付けて、出力層の出力はニューラルネットワークの最終出力として機能する。ニューラルネットワークの各層は、1つ又は複数のノード(プロセッシングノード又はニューロンとも称される)を含み、各ノードは、前の層からの入力を処理する。以下では、用語「ニューラルネットワーク」、「モデル」、「ネットワーク」及び「ニューラルネットワークモデル」は、互換的に使用することができる。
【0017】
上述したように、異なる光源の下でキャプチャされる同じ物体に関する画像は、異なる特徴を示し、画像処理の性能を向上させるに有用な情報を大量に提供することができる。従来の画像処理ソリューションによれば、単一の画像について画像セグメンテーション(例えば、セマンティックセグメンテーション、インスタンスセグメンテーション)又は物体識別を実行して処理結果を得ることができる。しかしながら、従来のソリューションでは、これらの特徴や有用な情報を利用して画像処理の性能を向上させることはできなかった。さらに、同じ物体に関する画像を異なる光源の下で異なる時間にキャプチャすることができるので、画像内の物体はわずかな歪みを持つかもしれない。この場合、画像について直接画像セグメンテーションや物体識別を行うことは、セグメンテーション/識別精度を悪くしてしまう可能性がある。
【0018】
本開示の実施形態は、上記の問題及び1つ又は複数の他の潜在的な問題を解決するために、画像処理のための解決策を提供する。いくつかの実施形態において、異なる光源の下でキャプチャされた物体に関する複数の画像を取得することができ、ここで、該複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含む。複数の画像のセグメンテーション結果に基づいて、ターゲット画像についてのセグメンテーションラベルを生成してもよい。こうして、異なる光源の下でキャプチャされた物体に関する画像のセグメンテーション結果を合成してターゲット画像についての最終的なセグメンテーション結果を得ることにより、ターゲット画像のセグメンテーション精度を向上させることができる。いくつかの他の実施形態において、異なる光源の下でキャプチャされた物体に関する複数の画像を取得し、レジストレーションしてもよい。レジストレーションされた複数の画像に基づいて物体を識別してもよい。こうして、異なる画像間での物体のわずかな変形の影響を画像レジストレーションにより除去することにより、物体識別の精度を向上させることができる。
【0019】
以下、添付の図面を参照して、本開示のいくつかの例示的な実施形態について説明する。しかしながら、これらの図面に関する本明細書で与えられた詳細な説明は、説明の目的のためにのみ提供され、本開示の範囲についてのいかなる限定も示唆しないことを、当業者であれば容易に理解するはずである。
【0020】
図1は本発明の実施形態を実施可能な例示的な画像処理システム100を示す図である。
図1に示すように、システム100は、画像収集装置110と画像処理装置120とを含んでもよい。いくつかの実施形態において、装置110及び120は、それぞれ異なる物理装置内で実現されてもよい。代替として、装置110及び120は、同じ物理装置内で実現されてもよい。システム100の構成は、説明の目的のためにのみ示されており、本開示の範囲についてのいかなる限定も示唆しないことを、理解すべきである。本開示の実施形態は、異なる構成を有する他のシステムにも適用されてもよい。
【0021】
画像収集装置110は、画像処理装置120により処理される画像101を収集してもよい。いくつかの実施形態において、画像収集装置110は、同じカメラ位置で異なる光源の下でキャプチャされた、物体に関する複数の画像を収集してもよい。例えば、異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられてもよい。いくつかの実施形態において、画像収集装置110は、医療補助装置又は内視鏡補助装置であってもよい。画像101は、内視鏡画像などの医用画像であってもよい。例えば、上述したように、経鼻内視鏡診断では、医師は同じカメラ位置で異なる光源を手動で切り替えて疑わしい病変を調べ、鼻病変について複数の画像をキャプチャしてもよい。画像収集装置110により収集された画像101は、画像処理装置120に提供されてもよい。画像処理装置120は、画像101を処理して画像処理結果102を生成してもよい。
【0022】
いくつかの実施形態において、画像処理装置120は、画像セグメンテーションタスクを実行してもよい。例えば、同じ物体に関する複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含んでもよい。画像処理装置120は、複数の画像のセグメンテーション結果に基づいて、ターゲット画像についてのセグメンテーションラベルを生成してもよい。画像処理結果102は、ターゲット画像についてのセグメンテーションラベルを示してもよい。本明細書で使用されるように、画像の「セグメンテーション結果」は、画像内の各画素が異なる所定のカテゴリに属するそれぞれの確率を示してもよい。例えば、セグメンテーション結果は、画素があるカテゴリに属する確率を示すために画素の明るさが使用されるヒートマップとして表されてもよい。画像の「セグメンテーションラベル」は、画像内の各画素が所定のカテゴリのうちの1つに属することを示してもよい。例えば、セグメンテーションラベルは、各画素の対応するカテゴリを示すベクトル又はアレイとして表されてもよく、又は異なるカテゴリの画素が異なる色で識別される視覚画像として表されてもよい。
【0023】
セマンティックセグメンテーションにおいて、画像のセグメンテーション結果は、画像内の各画素が異なる所定のセマンティックカテゴリに属するそれぞれの確率を示してもよい。画像のセグメンテーションラベルは、画像内の各画素が所定のセマンティックカテゴリのうちの1つに属することを示してもよい。セマンティックカテゴリの例には、背景、人物、動物、車両などが含まれてもよく、これらに限定されない。インスタンスセグメンテーションにおいて、画像のセグメンテーション結果は、画像内の各画素が異なる所定のインスタンスカテゴリに属するそれぞれの確率を示してもよい。画像のセグメンテーションラベルは、画像内の各画素が所定のインスタンスカテゴリのうちの1つに属することを示してもよい。例えば、セマンティックセグメンテーションネットワークは、画像内の異なる人物に対応する画素を、同じセマンティックカテゴリ、例えば人物に分類してもよい。しかしながら、インスタンスセグメンテーションネットワークは、これらのピクセルを異なる人物に対応する異なるインスタンスカテゴリに分類してもよい。以下では、セマンティックセグメンテーションを参照していくつかの実施形態について説明する。しかしながら、これらの実施形態は、インスタンスセグメンテーションにも適用可能であることを理解すべきである。
【0024】
図2A~2Cは、本開示のいくつかの実施形態にかかる画像処理の模式図である。
図2A~2Cに示すように、画像処理装置120は、レジストレーションモジュール121とセグメンテーションモジュール122とを備えてもよい。セグメンテーションモジュール122は、セマンティックセグメンテーションモジュール又はインスタンスセグメンテーションモジュールであってもよい。
図2A~2Cに示す例において、例えば、セグメンテーションモジュール122は、セマンティックセグメンテーションモジュールである。画像処理装置120により処理される画像には、異なる光源の下でキャプチャされた鼻病変に関する画像201、202及び203が含まれてもよい。
【0025】
図2において、例えば、セマンティックセグメンテーションが実行されるターゲット画像として画像201を選択してもよい。画像202及び203は関連画像である。レジストレーションモジュール121は、レジストレーション画像204及び205を得るために、関連画像202及び203をターゲット画像201にレジストレーションしてもよい。いくつかの実施形態において、関連画像202及び203の各々について、レジストレーションモジュール121は、第1の変換に基づいて関連画像をターゲット画像201にレジストレーションすることにより変換画像を生成してから、第2の変換に基づいて変換画像をターゲット画像201にレジストレーションすることによりレジストレーション画像を生成してもよい。いくつかの実施形態において、第1の変換は、アフィン変換又は剛体変換であってもよい。第1の変換の例は、平行移動、回転、スケーリング(scaling)などを含んでもよいが、これらに限定されない。いくつかの実施形態において、第2の変換は、変形可能な変換(deformable transformation)又は非剛体変換であってもよい。例えば、第2の変換は、画像の画素又はコンテンツの変換を指してもよい。いくつかの実施形態において、レジストレーションモジュール121は、訓練済みの画像レジストレーションネットワークを使用して、以下に
図4を参照して説明するように、関連画像202及び203をターゲット画像201にレジストレーションしてもよい。
【0026】
図2Aに示すように、ターゲット画像201及びレジストレーション画像204及び205は、セグメンテーションモジュール122に入力されてもよい。セグメンテーションモジュール122は、画像201、204及び205についてセマンティックセグメンテーションを実行して、それらのセマンティックセグメンテーション結果を生成してもよい。セマンティックセグメンテーションは、訓練済みのセマンティックセグメンテーションネットワークを使用することにより、又は、現在知られている、又は将来開発される任意の他の適切なアルゴリズムを使用することにより実行されてもよい。セグメンテーションモジュール122は、画像201、204及び205の重みに基づいて、画像201、204及び205のセマンティックセグメンテーション結果を結合することにより、最終的なセグメンテーション結果231を生成してもよい。いくつかの実施形態において、画像201、204及び205に関連付けられるそれぞれの重みは、予め決定されてもよい。例えば、ターゲット画像201について変換が行われないため、ターゲット画像201に関連付けられる重みが最も高くてもよい。レジストレーション画像204に関連付けられた重みと、レジストレーション画像205に関連付けられた重みとは、互いに同じであっても異なってもよい。セグメンテーションモジュール122は、画像201、204及び205のセマンティックセグメンテーション結果の加重合計を最終的なセグメンテーション結果211として決定してもよい。最終的なセグメンテーション結果211をargmax関数123に入力して、ターゲット画像201についてのセマンティックセグメンテーションラベル212を生成してもよい。例えば、上述したように、セマンティックセグメンテーションラベル212は、ターゲット画像201内の画素のそれぞれのセマンティックカテゴリを示してもよい。いくつかの実施形態において、セマンティックセグメンテーションラベル212は、疾患診断のために医者又は自動診断システムに提供されてもよい。
【0027】
いくつかの実施形態において、異なる光源の下でキャプチャされた同じ物体に関する同じグループの画像について、各画像をターゲット画像として選択することができるため、該グループの画像について1グループのセグメンテーションラベルを生成することができる。いくつかの実施形態において、該1グループのセグメンテーションラベルは、疾患診断のために医者又は自動診断システムに直接提供されてもよい。代替として、該1グループのセグメンテーションラベルは、適切な方法で組み合わせられ、その後、疾患診断のために医者又は自動診断システムに提供されてもよい。
【0028】
図2Bに示すように、例えば、画像203をターゲット画像として選択し、画像202及び201を関連画像として選択してもよい。レジストレーションモジュール121は、レジストレーション画像206及び207を得るために、関連画像202及び201をターゲット画像203にレジストレーションしてもよい。セグメンテーションモジュール122は、画像203、206及び207についてセマンティックセグメンテーションを実行して、それらのセマンティックセグメンテーション結果を最終的なセグメンテーション結果221に結合してもよい。最終的なセグメンテーション結果221をargmax関数123に入力して、ターゲット画像203についてのセマンティックセグメンテーションラベル222を生成してもよい。
図2Cに示すように、例えば、画像202をターゲット画像として選択し、画像203及び201を関連画像として選択してもよい。レジストレーションモジュール121は、レジストレーション画像208及び209を得るために、関連画像203及び201をターゲット画像202にレジストレーションしてもよい。セグメンテーションモジュール122は、画像202、208及び209についてセマンティックセグメンテーションを実行して、それらのセマンティックセグメンテーション結果を最終的なセグメンテーション結果231に結合してもよい。最終的なセグメンテーション結果231をargmax関数123に入力して、ターゲット画像203についてのセマンティックセグメンテーションラベル232を生成してもよい。
【0029】
例えば、セマンティックセグメンテーションラベル212、222及び232は、疾患診断のために医者又は自動診断システムに直接提供されてもよい。代替として、セマンティックセグメンテーションラベル212、222及び232は、適切な方法で組み合わせられ、その後、疾患診断のために医者又は自動診断システムに提供されてもよい。
【0030】
いくつかの実施形態において、
図1に示された画像処理装置120は、物体識別タスクを実行してもよい。例えば、異なる光源の下でキャプチャされた物体に関する複数の画像を取得したことに応じて、画像処理装置120は、該複数の画像をレジストレーションし、レジストレーションされた複数の画像に基づいて物体を識別してもよい。
【0031】
図3は本開示のいくつかの実施形態にかかる画像処理の模式図である。
図3に示すように、画像処理装置120は、
図2A~2Cと同じレジストレーションモジュール121と、物体識別モジュール124とを備えてもよい。画像処理装置120により処理される画像には、異なる光源の下でキャプチャされた鼻病変に関する画像301、302及び303が含まれてもよい。
【0032】
図3において、例えば、画像301をターゲット画像として選択してもよい。画像302及び303は関連画像である。レジストレーションモジュール121は、レジストレーション画像304及び305を得るために、関連画像302及び303をターゲット画像301にレジストレーションしてもよい。画像301、304及び305は、物体識別モジュール124に入力されてもよい。いくつかの実施形態において、物体識別モジュール124は、画像301、304及び305に基づいて物体を識別してもよい。例えば、物体識別モジュール124は、訓練済み物体識別ネットワークを使用することにより、又は現在知られている、又は将来開発される任意の適切なアルゴリズムを使用することにより、画像301、304及び305の各々について物体識別を実行して、それらのそれぞれの物体識別結果を得てもよい。そして、物体識別モジュール124は、物体識別結果を、それらのそれぞれの重みに基づいて、最終的な物体識別結果306に結合してもよい。代替として、いくつかの実施形態において、物体識別モジュール124は、画像301、304及び305の各々についてセマンティックセグメンテーション又はインスタンスセグメンテーションを実行して、それらそれぞれのセグメンテーション結果を取得し、セグメンテーション結果をそれらそれぞれの重みに基づいて最終的なセグメンテーション結果に結合してもよい。そして、物体識別モジュール124は、最終的なセグメンテーション結果に基づいて物体を識別し、最終的な物体識別結果306を得てもよい。例えば、最終的な物体識別結果306は、疾患診断のために医者又は自動診断システムに提供されてもよい。
【0033】
いくつかの実施形態において、異なる光源の下でキャプチャされた同じ物体に関する同じグループの画像について、各画像をターゲット画像として選択することができるため、該グループの画像について1グループの物体識別結果を生成することができる。いくつかの実施形態において、該1グループの物体識別結果は、疾患診断のために医者又は自動診断システムに直接提供されてもよい。代替として、該1グループの物体識別結果は、適切な方法で組み合わせられ、その後、疾患診断のために医者又は自動診断システムに提供されてもよい。
【0034】
図4は本開示のいくつかの実施形態にかかる画像レジストレーションの模式図である。
図4は、
図2A~2C及び
図3に示すレジストレーションネットワーク121において使用されることができる画像レジストレーションネットワーク400を示す。画像レジストレーションネットワーク400は、サブネットワーク410及び420を含む。サブネットワーク410は、第1の変換に基づいて画像をレジストレーションするように訓練されてもよい。上述したように、第1の変換は、アフィン変換又は剛体変換であってもよい。第1の変換の例は、平行移動、回転、スケーリング(scaling)などを含んでもよいが、これらに限定されない。サブネットワーク410は、第2の変換に基づいて画像をレジストレーションするように訓練されてもよい。上述したように、第2の変換は、変形可能な変換又は非剛体変換であってもよい。例えば、第2の変換は、画像の画素又はコンテンツの変換を指してもよい。画像レジストレーションネットワーク400は、1グループの訓練画像ペアに基づいて訓練されてもよく、ここで、各訓練画像ペアは、固定画像と、固定画像に対する移動画像とを含む。該1グループの訓練画像ペア内の固定画像と移動画像とは、同じ画素数を有してもよい。
【0035】
図4に示すように、訓練段階において、固定画像402(以下では「F」とも表される)と移動画像401(以下では「M」とも表される)とを含む各訓練画像ペアをサブネットワーク410に入力して、第1の変換関数
【数1】
を抽出する。例えば、第1の変換関数
【数2】
は、アフィン変換関数又は剛体変換関数である。第1の変換関数
【数3】
に基づいて移動画像401を固定画像402にレジストレーションすることにより、第1の変換画像403を生成することができる。例えば、第1の変換画像403は、
【数4】
として表されてもよい。第1の変換画像403及び固定画像402は、サブネットワーク420に入力されて、第2の変換関数を抽出してもよい。例えば、第2の変換関数
【数5】
は、変形可能な変換関数又は非剛体変換関数である。第2の変換関数
【数6】
に基づいて第1の変換画像403を固定画像402にレジストレーションすることにより、第2の変換画像404を生成することができる。例えば、第2の変換画像404は、
【数7】
として表されてもよい。
【0036】
いくつかの実施形態において、画像レジストレーションネットワーク400を訓練するためのターゲット損失は、固定画像402と、第1の変換画像403と、第2の変換画像404とに基づいて決定されてもよい。画像レジストレーションネットワーク400のネットワークパラメータは、ターゲット損失が最小になるように、反復的に更新されてもよい。いくつかの実施形態において、画像レジストレーションネットワーク400を訓練するためのターゲット損失は、1グループの損失の加重合計として決定されてもよい。
【0037】
図4に示すように、いくつかの実施形態において、第1の類似度損失441は、固定画像402(すなわち、F)及び第1の変換画像403(すなわち、
【数8】
)に基づいて決定されてもよい。例えば、第1の類似度損失441は、次式として表されてもよい。
【数9】
ここで、Nは、単一の画像(即ち、固定画像又は移動画像)に含まれる画素数を表す。
【0038】
図4に示すように、いくつかの実施形態において、第2の類似度損失442は、固定画像402(すなわち、F)及び第2の変換画像404(すなわち、
【数10】
)に基づいて決定されてもよい。例えば、第1の類似度損失442は、次式として表されてもよい。
【数11】
【0039】
図4に示すように、いくつかの実施形態において、第3の類似度損失443は、第1の変換画像403(すなわち、
【数12】
)及び第2の変換画像404(すなわち、
【数13】
)に基づいて決定されてもよい。例えば、第3の類似度損失443は、次式として表されてもよい。
【数14】
ここで
【数15】
である。第3の類似度損失
【数16】
は、レジストレーション精度を向上させるための、
【数17】
と
【数18】
とについての逆方向類似度損失(backward similarity loss)である。
【0040】
図4に示すように、いくつかの実施形態において、空間平滑性損失444は、第1の変換画像403(すなわち、
【数19】
)及び第2の変換432(すなわち、
【数20】
)に基づいて決定されてもよい。例えば、空間平滑性損失444は、次式として表されてもよい。
【数21】
ここで、空間平滑性損失は、空間的に平滑な変形を強制するように、
【数22】
に正則化制約を設ける。いくつかの実施形態において、ターゲット損失Lは、上記の全ての損失の加重合計として、すなわち、次式として決定することができる。
【数23】
ここで、
【数24】
である。
【0041】
上記に鑑みて、本開示の実施形態は、画像処理のための解決策を提供することが分かる。本開示のいくつかの実施形態によれば、異なる光源の下でキャプチャされた物体に関する画像のセグメンテーション結果を合成してターゲット画像についての最終的なセグメンテーション結果を得ることにより、ターゲット画像についての画像セグメンテーション(例えば、セマンティックセグメンテーション又はインスタンスセグメンテーション)の精度を向上させることができる。追加として、異なる画像間での物体のわずかな変形の影響を画像レジストレーションにより除去することにより、画像セグメンテーション及び/又は物体識別の精度を向上させることができる。
【0042】
図5は本開示のいくつかの実施形態にかかる画像処理の例示的な方法500を示す図である。方法500は、
図1に示すような画像処理装置120において実現できる。方法500は、図示されていない追加のブロックを含んでもよく、且つ/又は図示されているいくつかのブロックを省略してもよく、本開示の範囲はこの点で限定されないことを理解すべきである。
【0043】
ブロック510において、画像処理装置120は、異なる光源の下でキャプチャされた同じ物体に関する複数の画像を取得してもよく、ここで、該複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含む。
【0044】
ブロック520において、画像処理装置120は、複数の画像のセグメンテーション結果に基づいて、ターゲット画像についてのセグメンテーションラベルを生成してもよい。
【0045】
いくつかの実施形態において、方法500は、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成することと、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、該セグメンテーション結果を生成することと、をさらに含んでもよい。
【0046】
いくつかの実施形態において、該少なくとも1つのレジストレーション画像を生成することは、該少なくとも1つの関連画像のうちの各関連画像について、第1の変換に基づいて該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることにより、変換画像を生成することと、第2の変換に基づいて該変換画像を該ターゲット画像にレジストレーションすることにより、レジストレーション画像を生成することと、を含む。
【0047】
いくつかの実施形態において、第1の変換はアフィン変換であり、第2の変換は変形可能な変換である。
【0048】
いくつかの実施形態において、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることは、訓練済みの画像レジストレーションネットワークを使用することにより、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることを含む。
【0049】
いくつかの実施形態において、方法500は、1グループの訓練画像ペアに基づいて該画像レジストレーションネットワークを訓練することをさらに含んでもよく、ここで、各訓練画像ペアは、固定画像と、該固定画像に対する移動画像とを含む。
【0050】
いくつかの実施形態において、該画像レジストレーションネットワークを訓練することは、アフィン変換に基づいて該移動画像を該固定画像にレジストレーションすることにより第1の変換画像を生成することと、変形可能な変換に基づいて該第1の変換画像を該固定画像にレジストレーションすることにより第2の変換画像を生成することと、該固定画像と、該第1の変換画像と、該第2の変換画像とに基づいて、該画像レジストレーションネットワークを訓練するためのターゲット損失を決定することと、該ターゲット損失が最小化されるように該画像レジストレーションネットワークを訓練することと、を含む。
【0051】
いくつかの実施形態において、該ターゲット損失を決定することは、該固定画像と該第1の変換画像とに基づいて第1の類似度損失を決定することと、該固定画像と該第2の変換画像とに基づいて第2の類似度損失を決定することと、該第1の変換画像と該変形可能な変換に対応する関数とに基づいて、空間平滑性損失を決定することと、該第1の変換画像と該第2の変換画像とに基づいて第3の類似度損失を決定することと、該第1の類似度損失と、該第2の類似度損失と、該空間平滑性損失と、該第3の類似度損失との加重合計に基づいて該ターゲット損失を決定することと、を含む。
【0052】
いくつかの実施形態において、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することは、訓練済みのセマンティックセグメンテーションネットワークを使用することにより、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて該セマンティックセグメンテーションを実行すること、又は、訓練済みのインスタンスセグメンテーションネットワークを使用することにより、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて該インスタンスセグメンテーションを実行すること、を含む。
【0053】
いくつかの実施形態において、該ターゲット画像についての該セマンティックセグメンテーションラベルを生成することは、該セグメンテーション結果の加重合計に基づいて該ターゲット画像についての最終的なセグメンテーション結果を決定することと、該最終的なセグメンテーション結果に基づいて該ターゲット画像についての該セグメンテーションラベルを生成することと、を含む。
【0054】
いくつかの実施形態において、異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられている。
【0055】
図6は本開示のいくつかの実施形態にかかる画像処理の例示的な方法600を示す図である。方法600は、
図1に示すような画像処理装置120において実現できる。方法500は、図示されていない追加のブロックを含んでもよく、且つ/又は図示されているいくつかのブロックを省略してもよく、本開示の範囲はこの点で限定されないことを理解すべきである。
【0056】
ブロック610において、画像処理装置120は、異なる光源の下でキャプチャされた同じ物体に関する複数の画像を取得してもよい。
【0057】
ブロック620において、画像処理装置120は、複数の画像をレジストレーションしてもよい。
【0058】
ブロック630において、画像処理装置120は、レジストレーションされた複数の画像に基づいて物体を識別してもよい。
【0059】
いくつかの実施形態において、該複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含み、該複数の画像をレジストレーションすることは、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることにより少なくとも1つのレジストレーション画像を生成することを含み、ここで、レジストレーションされた該複数の画像は、該少なくとも1つのレジストレーション画像と該ターゲット画像とを含む。
【0060】
いくつかの実施形態において、レジストレーションされた該複数の画像に基づいて該物体を識別することは、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、セグメンテーション結果を生成することと、該セグメンテーション結果に基づいて該物体を識別することと、を含む。
【0061】
いくつかの実施形態において、該少なくとも1つのレジストレーション画像を生成することは、該少なくとも1つの関連画像のうちの各関連画像について、第1の変換に基づいて該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることにより、変換画像を生成することと、第2の変換に基づいて、該変換画像を該ターゲット画像にレジストレーションすることにより、レジストレーション画像を生成することと、を含む。
【0062】
いくつかの実施形態において、第1の変換はアフィン変換であり、第2の変換は変形可能な変換である。
【0063】
いくつかの実施形態において、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることは、訓練済みの画像レジストレーションネットワークを使用することにより、該少なくとも1つの関連画像を該ターゲット画像にレジストレーションすることを含む。
【0064】
いくつかの実施形態において、方法600は、1グループの訓練画像ペアに基づいて該画像レジストレーションネットワークを訓練することをさらに含んでもよく、ここで、各訓練画像ペアは、固定画像と、該固定画像に対する移動画像とを含む。
【0065】
いくつかの実施形態において、該画像レジストレーションネットワークを訓練することは、アフィン変換に基づいて該移動画像を該固定画像にレジストレーションすることにより第1の変換画像を生成することと、変形可能な変換に基づいて該第1の変換画像を該固定画像にレジストレーションすることにより第2の変換画像を生成することと、該固定画像と、該第1の変換画像と、該第2の変換画像とに基づいて、該画像レジストレーションネットワークを訓練するためのターゲット損失を決定することと、該ターゲット損失が最小化されるように該画像レジストレーションネットワークを訓練することと、を含む。
【0066】
いくつかの実施形態において、該ターゲット損失を決定することは、該固定画像と該第1の変換画像とに基づいて第1の類似度損失を決定することと、該固定画像と該第2の変換画像とに基づいて第2の類似度損失を決定することと、該第1の変換画像と該変形可能な変換に対応する関数とに基づいて、空間平滑性損失を決定することと、該第1の変換画像と該第2の変換画像とに基づいて第3の類似度損失を決定することと、該第1の類似度損失と、該第2の類似度損失と、該空間平滑性損失と、該第3の類似度損失との加重合計に基づいて該ターゲット損失を決定することと、を含む。
【0067】
いくつかの実施形態において、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することは、訓練済みのセマンティックセグメンテーションネットワークを使用することにより、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて該セマンティックセグメンテーションを実行すること、又は、訓練済みのインスタンスセグメンテーションネットワークを使用することにより、該ターゲット画像と該少なくとも1つのレジストレーション画像とについて該インスタンスセグメンテーションを実行すること、を含む。
【0068】
いくつかの実施形態において、該ターゲット画像についての該セマンティックセグメンテーションラベルを生成することは、該セグメンテーション結果の加重合計に基づいて該ターゲット画像についての最終的なセグメンテーション結果を決定することと、該最終的なセグメンテーション結果に基づいて該ターゲット画像についての該セグメンテーションラベルを生成することと、を含む。
【0069】
いくつかの実施形態において、異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられている。
【0070】
図7は本開示の実施形態を実現するのに使用できる装置700の概略ブロック図である。例えば、画像収集装置110及び/又は画像処理装置120は、装置700により実現することができる。例えば、装置700は、異なる光源の下で疑わしい病変又は腫瘍に関する画像をキャプチャすることができる医療補助装置又は内視鏡補助装置を実現するために使用されることができる。
図7に示すように、装置700は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム命令、又は記憶部708からランダムアクセスメモリ(RAM)703にアップロードされたコンピュータプログラム命令に基づいて、様々な適切な動作及び処理を実行することができる中央処理装置(CPU)701を含む。RAM 703には、装置700のオペレーションに必要とされる各種のプログラムとデータとがさらに記憶されている。CPU 701、ROM 702及びRAM 703は、バス704を介して相互接続されている。入出力(I/O)インターフェース705もバス704に接続されている。
【0071】
I/Oインターフェース705には、キーボード、マウスなどの入力部706と、各種のディスプレイとスピーカなどの出力部707と、磁気ディスクと光ディスクなどの記憶部708と、ネットワークカード、モデム、無線通信トランシーバなどの通信部709と、を含む構成要素が接続されている。通信部709により、装置700が、インターネット及び/又は電気通信ネットワークなどのコンピュータネットワークを介して他の装置とデータ/情報を交換することを可能にする。
【0072】
上述した方法又は処理、例えば、方法500及び/又は600は、処理ユニット701により実行することができる。例えば、いくつかの実現において、方法500は、記憶部708のようなマシン可読媒体中に実体的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実現において、コンピュータプログラムは、ROM 702及び/又は通信部709によって、装置700上に部分的又は完全にロード及び/又はマウントされてもよい。コンピュータプログラムがRAM 703にアップロードされ、CPU 701により実行されたときに、上述した方法500及び/又は600の1つ又は複数のステップを実行することができる。
【0073】
いくつかの実施形態において、画像処理装置は回路を備え、前記回路は、異なる光源の下でキャプチャされた物体に関する複数の画像であって、ターゲット画像と少なくとも1つの関連画像とを含む複数の画像を取得し、前記複数の画像のセグメンテーション結果に基づいて、前記ターゲット画像についてのセグメンテーションラベルを生成するように設定されている。
【0074】
いくつかの実施形態において、前記回路はさらに、前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、少なくとも1つのレジストレーション画像を生成し、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、前記セグメンテーション結果を生成するように設定されている。
【0075】
いくつかの実施形態において、画像処理装置は回路を備え、前記回路は、異なる光源の下でキャプチャされた物体に関する複数の画像を取得し、前記複数の画像をレジストレーションし、レジストレーションされた前記複数の画像に基づいて前記物体を識別するように設定されている。
【0076】
いくつかの実施形態において、該複数の画像は、ターゲット画像と少なくとも1つの関連画像とを含み、前記回路はさらに、前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより少なくとも1つのレジストレーション画像を生成するように設定され、ここで、レジストレーションされた前記複数の画像は、前記少なくとも1つのレジストレーション画像と前記ターゲット画像とを含む。
【0077】
いくつかの実施形態において、前記回路はさらに、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて、セマンティックセグメンテーション又はインスタンスセグメンテーションを実行することにより、セグメンテーション結果を生成し、前記セグメンテーション結果に基づいて前記物体を識別するように設定されている。
【0078】
いくつかの実施形態において、前記回路はさらに、前記少なくとも1つの関連画像のうちの各関連画像について、第1の変換に基づいて前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションすることにより、変換画像を生成し、第2の変換に基づいて前記変換画像を前記ターゲット画像にレジストレーションすることにより、レジストレーション画像を生成するように設定されている。
【0079】
いくつかの実施形態において、第1の変換はアフィン変換であり、第2の変換は変形可能な変換である。
【0080】
いくつかの実施形態において、前記回路はさらに、訓練済みの画像レジストレーションネットワークを使用することにより、前記少なくとも1つの関連画像を前記ターゲット画像にレジストレーションするように設定されている。
【0081】
いくつかの実施形態において、前記回路はさらに、1グループの訓練画像ペアに基づいて前記画像レジストレーションネットワークを訓練するように設定され、ここで、各訓練画像ペアは、固定画像と、前記固定画像に対する移動画像とを含む。
【0082】
いくつかの実施形態において、前記回路はさらに、アフィン変換に基づいて前記移動画像を前記固定画像にレジストレーションすることにより第1の変換画像を生成し、変形可能な変換に基づいて前記第1の変換画像を前記固定画像にレジストレーションすることにより第2の変換画像を生成し、前記固定画像と、前記第1の変換画像と、前記第2の変換画像とに基づいて、前記画像レジストレーションネットワークを訓練するためのターゲット損失を決定し、前記ターゲット損失が最小化されるように前記画像レジストレーションネットワークを訓練するように設定されている。
【0083】
いくつかの実施形態において、前記回路はさらに、前記固定画像と前記第1の変換画像とに基づいて第1の類似度損失を決定し、前記固定画像と前記第2の変換画像とに基づいて第2の類似度損失を決定し、前記第1の変換画像と前記変形可能な変換に対応する関数とに基づいて、空間平滑性損失を決定し、前記第1の変換画像と前記第2の変換画像とに基づいて第3の類似度損失を決定し、前記第1の類似度損失と、前記第2の類似度損失と、前記空間平滑性損失と、前記第3の類似度損失との加重合計に基づいて前記ターゲット損失を決定するように設定されている。
【0084】
いくつかの実施形態において、前記回路はさらに、訓練済みのセマンティックセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記セマンティックセグメンテーションを実行するか、又は訓練済みのインスタンスセグメンテーションネットワークを使用することにより、前記ターゲット画像と前記少なくとも1つのレジストレーション画像とについて前記インスタンスセグメンテーションを実行するように設定されている。
【0085】
いくつかの実施形態において、前記回路はさらに、前記セグメンテーション結果の加重合計に基づいて前記ターゲット画像についての最終的なセグメンテーション結果を決定し、前記最終的なセグメンテーション結果に基づいて前記ターゲット画像についての前記セグメンテーションラベルを生成するように設定されている。
【0086】
いくつかの実施形態において、異なる光源は、異なる波長又は波長の異なる組み合わせに関連付けられている。
【0087】
本開示は、システム、方法及び/又はコンピュータプログラム製品として実現されてもよい。本開示がシステムとして実装される場合、本明細書で説明される構成要素は、単一の装置上で実現されることに加えて、クラウドコンピューティングアーキテクチャの形で実現されてもよい。クラウドコンピューティング環境では、これらの構成要素は遠隔的に配置され、本開示に記載された機能を実現するためにともに作動することができる。クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供することができる。これらのサービスを提供するシステムやハードウェアの物理的な場所や設定をエンドユーザが知る必要はない。クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク(例えばインターネット)上でサービスを提供することができる。例えば、クラウドコンピューティングプロバイダは、広域ネットワークを介してアプリケーションを提供し、これらは、ブラウザ又は任意の他のコンピューティングコンポーネントを介してアクセスすることができる。クラウドコンピューティングコンポーネント及び対応するデータは、遠隔のサーバに記憶することができる。クラウドコンピューティング環境内のコンピューティングリソースを、遠隔のデータセンターに集中させてもよく、これらのコンピューティングリソースを分散させてもよい。クラウドコンピューティングインフラストラクチャは、たとえ共有されたデータセンターがユーザにとって単一のアクセスポイントに見えても、これらの共有されたデータセンターを介してサービスを提供することができる。したがって、クラウドコンピューティングアーキテクチャは、本明細書に記載された様々な機能を遠隔のサービスプロバイダから提供するために使用することができる。代替として、これらの機能は、従来のサーバから提供されてもよく、直接又は他の方法でクライアント装置上にインストールされてもよい。追加として、本開示は、コンピュータプログラム製品として実現されてもよい。コンピュータプログラム製品は、本開示の様々な態様を実行するためのコンピュータ可読プログラム命令がロードされたコンピュータ可読記憶媒体を含んでもよい。
【0088】
コンピュータ可読記憶媒体は、命令実行装置による使用のために命令を保持及び記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又は上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータフロッピーディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブル光ディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカード又は命令が記録された溝内の隆起構造のような機械的に符号化された装置、及び前述の任意の適切な組み合わせを含む。本明細書で使用されるように、コンピュータ可読記憶媒体は、それ自体が、電波又は他の自由に伝搬する電磁波、導波路又は他の送信媒体を伝搬する電磁波(例えば、光ケーブルを経過する光パルス)、又はワイヤを介して送信される電気信号などの一時的な信号として解釈されるべきではない。
【0089】
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から対応する計算/処理装置に、又は、インターネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークなどのネットワークを介して、外部コンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは、銅送信ケーブル、光送信ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各計算/処理装置内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの計算/処理装置内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0090】
本開示のオペレーションを実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、C++などのオブジェクト指向プログラミング言語と、「C」プログラミング言語などの従来の手続き型プログラミング言語とを含む1つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立したソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的に遠隔のコンピュータ上で、又は完全に遠隔のコンピュータ又はサーバ上で実行してもよい。後者のシナリオにおいて、遠隔のコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、又は(例えば、インターネットサービスプロバイダを利用してインターネットを介して)外部コンピュータに接続されてもよい。いくつかの実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電子回路は、本開示の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行してもよい。
【0091】
本開示の実施形態にかかる方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して、本明細書で本開示の態様について説明する。フローチャート図及び/又はブロック図の各ブロック、ならびにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令により実現nされてもよいことを、理解すべきである。
【0092】
これらのコンピュータ可読プログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行する命令がフローチャート及び/又はブロック図の一つ又は複数のブロック内で指定された機能/動作を実現するための手段を生成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供されて、マシンを生成してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置を特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよく、その結果、命令を記憶しているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロック内で規定された機能/動作の態様を実現する命令を含む製品を含む。
【0093】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、又は他の装置にロードされて、一連のオペレーションステップがコンピュータ、他のプログラマブルデータ処理装置、又は他の装置上で実行され、それによって、コンピュータ、他のプログラマブルデータ処理装置、又は他の装置上で実行される命令が、フローチャート及び/又はブロック図ブロックに規定された機能/動作を実現するように、コンピュータ実現プロセスを生成してもよい。
【0094】
フローチャート及びブロック図は、本開示の様々な実施形態にかかる、システム、方法及びコンピュータプログラム製品の可能な実現のアーキテクチャ、機能及びオペレーションを示す。この点において、フローチャート又はブロック図内の各ブロックは、規定された論理機能を実現するための1つ又は複数の実行可能命令を含むコードのモジュール、スニペット、又は部分を表してもよい。いくつかの代替的な実現において、ブロックに記録された機能は、図に記録された順序と異なる順序で発生してもよい。例えば、関連する機能によっては、連続して示される2つのブロックは実際には実質的に同時に実行されてもよく、又はこれらのブロックは時には逆の順序で実行されてもよい。ブロック図及び/又はフローチャート図内の各ブロック、ならびにブロック図及び/又はフローチャート図内のブロックの組み合わせは、特定の機能又は動作を実行する専用ハードウェアベースのシステム、又は専用ハードウェア及びコンピュータ命令の組み合わせにより実装されてもよいことにも留意すべきである。
【0095】
本開示の様々な実施形態の説明が例示の目的で提示されたが、開示された実施形態を網羅的に又は限定的に説明することを意図するものではない。説明された実施形態の範囲及び精神から逸脱することなく、多くの修正及び変更は当業者にとって明らかである。本明細書で使用される用語は、実施形態の原理、市場で見出される技術についての実用的な応用又は技術的改良を最もよく説明するため、又は当業者が本明細書で開示された実施形態を理解することを可能にするために選択されている。
【手続補正書】
【提出日】2023-12-19
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0038
【補正方法】変更
【補正の内容】
【0038】
図4に示すように、いくつかの実施形態において、第2の類似度損失442は、固定画像402(すなわち、F)及び第2の変換画像404(すなわち、
【数10】
)に基づいて決定されてもよい。例えば、
第2の類似度損失442は、次式として表されてもよい。
【数11】
【国際調査報告】