IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-164597画像分割に適用されるドメイン適応の方法、装置及び記憶媒体
<>
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図1
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図2
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図3
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図4
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図5
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図6
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図7
  • 特開-画像分割に適用されるドメイン適応の方法、装置及び記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022164597
(43)【公開日】2022-10-27
(54)【発明の名称】画像分割に適用されるドメイン適応の方法、装置及び記憶媒体
(51)【国際特許分類】
   G06V 10/82 20220101AFI20221020BHJP
   G06N 3/08 20060101ALI20221020BHJP
   G06N 3/04 20060101ALI20221020BHJP
   G06T 7/00 20170101ALI20221020BHJP
【FI】
G06V10/82
G06N3/08 180
G06N3/04 154
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022064176
(22)【出願日】2022-04-07
(31)【優先権主張番号】202110412568.4
(32)【優先日】2021-04-16
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ワン・ジエ
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】フォン・チョン
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096GA34
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】画像分割に適用されるドメイン適応の方法、装置及び記憶媒体を提供する。
【解決手段】訓練されたエンコーダ210及び第1のデコーダ220を使用して処理すべきターゲットドメイン画像に対して画像分割を実行する画像分割に適用されるドメイン適応の方法であって、エンコーダは、ソースドメイン画像Iから第1、第2のソースドメイン特徴を、ターゲットドメイン画像Iから第1、第2のターゲットドメイン特徴を抽出する。第2のデコーダ230は、再構築損失関数Lrecを設定し、第1、第2のターゲットドメイン特徴に基づいてターゲットドメイン画像を再構築し、第1、第2のターゲットドメイン特徴に基づく変換画像を生成する。第1のデコーダは、第1、第2の分割損失関数Lseg及びLseg’を設定し、第1のソースドメイン特徴に基づいて画像分割し、変換画像について抽出した特徴に基づいて変換画像に対して画像分割を実行する。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータが実行する、ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する方法であって、前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、前記方法は、
前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、
前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、
前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、
前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、
前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、
前記エンコーダが前記変換画像について特徴を抽出するステップと、
前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、
前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、
訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を含む、方法。
【請求項2】
前記第1のソースドメイン特徴(v)と前記第2のソースドメイン特徴(d)とに同一の数のチャネルが含まれるように、チャネルに基づいて前記ソースドメイン特徴を分類し、
前記第1のターゲットドメイン特徴(v)と前記第2のターゲットドメイン特徴(d)とに同一の数のチャネルが含まれるように、チャネルに基づいて前記ターゲットドメイン特徴を分類する、請求項1に記載の方法。
【請求項3】
前記第1の分割損失関数(Lseg)及び前記第2の分割損失関数(Lseg’)は、交差エントロピー損失関数であり、
前記再構築損失関数(Lrec)は、絶対値損失関数である、請求項1に記載の方法。
【請求項4】
U-netネットワークを利用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するように、知識の蒸留により、訓練された前記ニューラルネットワークの知識をU-netネットワークに転移するステップ、をさらに含む、請求項1に記載の方法。
【請求項5】
訓練された前記ニューラルネットワークがターゲットドメイン画像及び前記ターゲットドメイン画像の1つ又は複数の変換画像に対して画像分割を実行し、複数の分割確率マップを生成するステップと、
前記複数の分割確率マップに基づいて前記ターゲットドメイン画像の疑似ラベルを生成するステップと、
前記U-netネットワークが前記ターゲットドメイン画像及びソースドメイン画像に対して画像分割をそれぞれ実行するステップと、
前記ターゲットドメイン画像の疑似ラベル及び前記ソースドメイン画像の既知ラベルを使用して前記U-netネットワークを訓練するステップと、
訓練されたU-netネットワークを使用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、さらに含む、請求項4に記載の方法。
【請求項6】
前記疑似ラベルを生成するステップは、
前記複数の分割確率マップに基づいて平均確率マップを計算するステップと、
閾値に基づいて前記平均確率マップに対して二値分割処理を実行して前記疑似ラベルを取得するステップと、を含む、請求項5に記載の方法。
【請求項7】
前記U-netネットワークを訓練する際に、
前記U-netネットワークが前記ターゲットドメイン画像に対して画像分割を実行することに関する分割損失関数、
前記U-netネットワークが前記ソースドメイン画像に対して画像分割を実行することに関する分割損失関数、
前記ターゲットドメイン画像について前記U-netネットワークにより予測された分割確率マップ(p)を前記ターゲットドメイン画像について訓練された前記ニューラルネットワークにより生成された分割確率マップ(p ζ)に近づけるためのKLダイバージェンス、及び
所定のクラスについて、前記U-netネットワークにより前記ターゲットドメイン画像について抽出された画素分割特徴と前記ソースドメイン画像について抽出された画素分割特徴とを互いに近づけるための条件特徴アラインメント損失関数を使用する、請求項5に記載の方法。
【請求項8】
ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する装置であって、
前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、
前記装置は、
コンピュータプログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することで、
前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、
前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、
前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、
前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、
前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、
前記エンコーダが前記変換画像について特徴を抽出するステップと、
前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、
前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、
訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を実行する、装置。
【請求項9】
前記プロセッサは、
訓練された前記ニューラルネットワークがターゲットドメイン画像及び前記ターゲットドメイン画像の1つ又は複数の変換画像に対して画像分割を実行し、複数の分割確率マップを生成するステップと、
前記複数の分割確率マップに基づいて前記ターゲットドメイン画像の疑似ラベルを生成するステップと、
U-netネットワークが前記ターゲットドメイン画像及びソースドメイン画像に対して画像分割をそれぞれ実行するステップと、
前記ターゲットドメイン画像の疑似ラベル及び前記ソースドメイン画像の既知ラベルを使用して前記U-netネットワークを訓練するステップと、
訓練されたU-netネットワークを使用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、さらに実行する、請求項8に記載の装置。
【請求項10】
コンピュータプログラムが記憶された記憶媒体であって、前記コンピュータプログラムがコンピュータにより実行される際に、前記コンピュータに請求項1乃至7の何れかに記載のドメイン適応を実行する方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、画像分割タスクのための教師なしドメイン適応(unsupervised domain adaptation)に関し、具体的には、教師なしドメイン適応の設定において、画像分割の実行方法、ニューラルネットワーク、及びニューラルネットワークの訓練方法に関する。
【背景技術】
【0002】
画像分割(セグメンテーション)は、画像解析の基本的なビジョンタスクの1つであり、画素レベルで画像を複数のセマンティック(意味的)クラス(カテゴリ)に関連付けられた複数の異なる領域に分けるために使用される。入力された画像に対して画像分割を実行して得られた予測画像では、特定のセマンティッククラスに関連付けられた領域内の画素が該セマンティッククラスに対応する色で表示されるため、色に基づいて予測画像から異なるセマンティッククラスに属する各オブジェクトを認識することができる。
【0003】
一方、教師なしドメイン適応とは、ラベル付きソースドメインデータを用いて訓練されたモデルをラベルなしデータのターゲットドメインに転移すると共に、ターゲットドメインでの該モデルの性能を可能な限り維持することを意味する。ソースドメインとターゲットドメインとの間にデータセット偏差(ドメイン偏差)があり、且つターゲットドメインにラベル付きデータが足りないため、ラベル付きソースドメインデータを用いて訓練されたモデルは、ターゲットドメインで性能が低下する場合がある。教師なしドメイン適応の訓練プロセスは、ソースドメインのラベル付きデータとターゲットドメインのラベルなしデータの両方を利用することで、ドメインの差異による悪影響を効果的に軽減し、モデルの堅牢性を向上させることができる。
【0004】
現在、教師なしドメイン適応について、敵対的訓練により表されるドメイン不変特徴の学習方法及びマルチタスク学習方法などが提案されている。マルチタスク学習方法では、複数のタスク(例えばソースドメインデータの分類タスクやターゲットドメインデータの再構築タスク)を使用してドメイン不変特徴を学習する。ここで、分類タスクと再構築(再構成)タスクは特徴抽出器を共有し、特徴抽出器により抽出された特徴がソースドメインの分類タスクとターゲットドメインの再構築タスクの性能要求を同時に満たすように、ソースドメインデータの分類とターゲットドメインデータの再構築により訓練を交互に行う。このように抽出された共有特徴は、ドメイン不変特徴(domain invariant feature)である。
【0005】
また、教師なしドメイン適応に関する現在の研究のほとんどは画像の分類タスクに関するものであり、画像分割タスクに関する教師なしドメイン適応の研究はほとんどない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、上記の技術的問題を鑑み、画像分割タスクに適用することができる、特徴の解きほぐし(disentanglement)及び知識の蒸留(knowledge distillation)に基づく新しい教師なしドメイン適応のスキームを提供する。本発明のスキームは、セマンティック特徴と非セマンティック特徴とを解きほぐすことによって、ドメイン不変特徴を学習する。また、本発明は、知識の蒸留によりターゲットドメインの損失関数を最適化する。
【課題を解決するための手段】
【0007】
本発明の1つの態様では、コンピュータが実行する、ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する方法であって、前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、前記方法は、前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、前記エンコーダが前記変換画像について特徴を抽出するステップと、前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を含む、方法を提供する。
【0008】
本発明のもう1つの態様では、ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する装置であって、前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、前記装置は、コンピュータプログラムが記憶されたメモリと、1つ又は複数のプロセッサと、を含み、前記プロセッサは、前記コンピュータプログラムを実行することで、前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、前記エンコーダが前記変換画像について特徴を抽出するステップと、前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を実行する、装置を提供する。
【0009】
本発明のもう1つの態様では、コンピュータプログラムが記憶された記憶媒体であって、前記コンピュータプログラムがコンピュータにより実行される際に、前記コンピュータに上記のドメイン適応を実行する方法を実行させる、記憶媒体を提供する。
【図面の簡単な説明】
【0010】
図1】従来のマルチタスク学習モデルの一例を概略的に示す図である。
図2】本発明に係る特徴の解きほぐしに基づくドメイン適応モデルを概略的に示す図である。
図3】特徴の解きほぐしの視覚化効果を概略的に示す図である。
図4】U-netネットワーク構造を概略的に示す図である。
図5】本発明に係る知識蒸留のモデルを概略的に示す図である。
図6】画像分割を実行する方法を示すフローチャートである。
図7】訓練されたD-netの知識をU-netに転移する方法を示すフローチャートである。
図8】本発明を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0011】
図1は、従来のマルチタスク学習モデルの一例、即ち、深層再構築分類ネットワーク(DRCN:Deep Reconstruction-Classification Network)を概略的に示す図である。図1に示すように、画像は特徴抽出器100に入力され、畳み込み(Conv)、最大プーリング、多次元データの1次元への変換(Flatten)、全結合(Dense)、及びランダム非アクティブ化(dropout)の操作が実行される。操作の結果として、特徴抽出器100は特徴Fを出力する。図1の上の分岐部分に示すように、抽出された特徴Fは、ソースドメインデータの教師あり分類訓練に使用される。また、抽出された特徴Fは、ターゲットドメインデータについての教師なし再構築訓練にも使用される。図1の下の分岐部分に示すように、再構築プロセスは、特徴抽出器100により実行されるプロセスの逆プロセスであり、一次元データの多次元への変換(UnFlatten)、全結合(Dense)、アップサンプリング、及び畳み込み(Conv)の操作を含む。ソースドメインでの分類タスクとターゲットドメインでの再構築タスクは、特徴抽出器100を共有する。分類訓練と再構築訓練を交互に実行することにより、特徴抽出器100は、この2つのドメインでのタスクの要件を満たすドメイン不変特徴(共有特徴)を抽出することができる。
【0012】
図1に示されるモデルに基づいて、本発明は、特徴の解きほぐしのための新しいネットワーク構造を設計する。一般に、特徴の解きほぐしとは、複数のタイプの特徴を分離すること、例えば特定のタスクに有用な特徴と無用の特徴とに分離することを意味する。これによって、有用な特徴を利用して該タスクを実行することができる。
【0013】
図2は、本発明に係る特徴の解きほぐしに基づくドメイン適応モデルを概略的に示す図であり、該モデルは画像分割タスクに適用することができる。特に、以下は、網膜血管画像の分割タスクを一例として本発明を説明するが、本発明はこれに限定されず、任意の画像の分割タスクに適用されてもよい。
【0014】
図2に示すように、ソースドメイン画像I及びターゲットドメイン画像Iは、エンコーダ210に入力される。好ましくは、ソースドメイン画像I及びターゲットドメイン画像Iに対して前処理を行い、前処理が行われた画像Is-p及びIt-pをエンコーダ210に入力する。前処理は、例えば、画像をグレースケール画像へ変換すること、正規化、ヒストグラム等化、及びガンマ補正を含んでもよい。また、前処理は、モデルの一般化能力を向上させるために、回転、反転及び色のディザリングなどのデータ拡張処理をさらに含んでもよい。また、高解像度のデータセットから低解像度のデータセットへの転移タスクを実行する場合、前処理は、高解像度の画像にガウス雑音をランダムに追加することをさらに含んでもよい。該処理によれば、ドメイン適応の効果を改善することができる。また、前処理は、画像のサイズの変更をさらに含んでもよい。例えば、バイキュービック補間により画像を均一なサイズ(例えば512×512)に調整してもよい。
【0015】
エンコーダ210は、入力画像について特徴を抽出する。図2は、エンコーダ210の複数の隠れ層によりそれぞれ出力された複数(例えば4つ)の特徴を示し、各隠れ層により出力された特徴は複数(例えばN個)のチャネルを含む。本発明では、チャネルにより特徴を2つの均等な部分に分割し、前半部分vは前のN/2個のチャネルを含み、後半部分dは後のN/2個のチャネルを含む。前半部分vが内容に関するセマンティック特徴(「内容特徴」と称される)を表し、後半部分が内容に関連しない非セマンティック特徴(「スタイル特徴」と称される)を表すとする。網膜血管画像を一例にすると、内容特徴は、血管構造の特徴に対応してもよく、スタイル特徴は、画像の色、輝度、コントラスト及び背景などの特徴を含んでもよい。
【0016】
セマンティック特徴(内容特徴)はドメイン不変特徴であるが、非セマンティック特徴(スタイル特徴)はドメイン偏差を引き起こす特徴である。従って、本発明に係る特徴の解きほぐしの目的は、セマンティック特徴と非セマンティック特徴とを分離することで、セマンティック特徴を利用して画像分割タスクを実行し、ターゲットドメインでの良好な性能を達成することである。
【0017】
図2では、エンコーダ210は、ソースドメイン画像Iについてセマンティック特徴v及び非セマンティック特徴dを生成し、ターゲットドメイン画像Iについてセマンティック特徴v及び非セマンティック特徴dを生成してもよい。
【0018】
分割デコーダ220は、エンコーダ210からソースドメイン画像のセマンティック特徴vを受信し、セマンティック特徴vに基づいて分割確率マップpを生成する。監視あり分割訓練は、エンコーダ210と分割デコーダ220により構成される分割ネットワークで実行される。
【0019】
再構築デコーダ230は、エンコーダ210からターゲットドメイン画像のセマンティック特徴v及び非セマンティック特徴dを受信し、これに基づいてターゲットドメイン画像についての再構築画像Irecを生成する。再構築画像Irecは、ターゲットドメイン画像のセマンティック特徴(例えば血管構造)及び非セマンティック特徴(例えばスタイル因子)を含む。教師なし再構築訓練は、エンコーダ210及び再構築デコーダ230により構成される再構築ネットワークで実行される。
【0020】
また、再構築デコーダ230は、エンコーダ210からソースドメイン画像のセマンティック特徴v及びターゲットドメイン画像の非セマンティック特徴dをさらに受信し、ソースドメイン画像のセマンティック特徴v及びターゲットドメイン画像の非セマンティック特徴dに基づいて新しい画像Inewを作成する。新しい画像Inewは、ソースドメイン画像のセマンティック特徴(例えば血管構造)及びターゲットドメイン画像の非セマンティック特徴(例えばスタイル因子)を含む。以下は、新しい画像Inewは変換画像(translated image)とも称される。
【0021】
次に、変換画像Inewがエンコーダ210に入力される。その結果、エンコーダ210及び分割デコーダ220は、監視あり分割訓練を実行する。具体的には、変換画像についてエンコーダ210により抽出された特徴を2つの部分vとdに分類し、前半部分v(「内容特徴」)を分割デコーダ220に入力して、分割予測結果を生成する。特に、変換画像Inewはソースドメイン画像のセマンティック特徴を有するため、教師あり分割訓練では、ソースドメイン画像の真のラベルを該変換画像Inewの真のラベルとして使用する。
【0022】
以下は、図2に示すモデルを詳細に説明する。
【0023】
エンコーダ210と分割デコーダ220により構成される分割ネットワークは、f:x→yとして定義され、ここで、fは、入力画像を分割確率マップ(p)にマッピングする関数を表す。網膜血管画像の例では、分割確率マップは、画像内の各画素が血管に属する確率を表す。より具体的には、分割ネットワークにおけるエンコーダ210は、Enc:x→Fとして定義され、入力画像の特徴空間へのマッピングを表す。また、分割ネットワークにおける分割デコーダ220は、Sdec:F→yとして定義され、ここで、Fは、エンコーダ210の各隠れ層及び特徴層のセマンティック特徴を表す。
【0024】
一方、エンコーダ210と再構築デコーダ230により構成される再構築ネットワークは、f:x→xとして定義され、ここで、fは、入力画像を入力画像にマッピングする関数を表す。より具体的には、再構築デコーダ230は、Rdec:{F,F}→xとして定義され、ここで、Fは、エンコーダ210の各隠れ層及び特徴層のセマンティック特徴を表し、Fは、エンコーダ210の各隠れ層及び特徴層の非セマンティック特徴を表す。再構築デコーダ230の入力を変更することにより、再構築画像で内容又はスタイルを変更することができる。特に、変換画像Inewを生成する場合、
(外1)
として定義されてもよい。
【0025】
入力されたソースドメイン画像がxとして表され、入力されたターゲットドメイン画像がxとして表されるとすると、関数f及びfは、それぞれ次の式(1)及び(2)として表されてもよい。
【数1】
【数2】
【0026】
ここで、記号「○」は、デコーダとエンコーダとの接続を表す。
【0027】
訓練で使用される目的関数は、ソースドメイン画像についての分割損失関数Lseg、ターゲットドメイン画像についての再構築損失関数Lrec、及び変換画像についての分割損失関数Lseg’により構成される。一例として、分割損失関数Lseg及びLseg’は、交差エントロピー損失関数であってもよく、再構築損失関数Lrecは、絶対値損失関数であってもよい。次の式(3)、(4)及び(5)は、それぞれ損失関数Lseg、Lseg’及びLrecを示している。
【数3】
【数4】
【数5】
【0028】
ここで、nは、ソースドメイン画像の数を表し、nは、ターゲットドメイン画像の数を表し、ns’は、変換画像の数を表し、n×nに等しくてもよい。Kは、クラスの数を表す(例えば、血管画像の分割では、「血管」と「非血管」の2つのクラスがある)。HとWは、それぞれ画像の幅と高さを表す。x は、ソースドメイン画像サンプルを表し、xs’ は、変換画像サンプルを表し、x は、ターゲットドメイン画像サンプルを表す。y k,jは、ソースドメイン画像サンプルx における画素jのk番目のクラスの二値ラベルを表す。p(x k,jは、ソースドメイン画像サンプルx における画素jがk番目のクラスに属する予測確率を表す。p(xs’ k,jは、変換画像サンプルxs’ における画素jがk番目のクラスに属する予測確率を表す。
【0029】
上記の損失関数では、変換画像についての分割損失関数Lseg’は、セマンティック特徴(例えば血管構造)と非セマンティック特徴(例えば画像スタイル)を解きほぐすことに有効である。図3は、特徴の解きほぐしの視覚化効果を概略的に示す図である。図3では、vは、ソースドメイン画像の血管構造特徴を表し、vは、ターゲットドメイン画像の血管構造特徴を表し、dは、ソースドメイン画像のスタイル特徴を表し、dは、ターゲットドメイン画像のスタイル特徴を表す。これらの特徴の異なる組み合わせにより、異なる画像を生成することができる。画像(v,d)と(v,d)に注目し、損失関数Lseg+Lrecのみを適用している場合、これら2つの画像のうちのソースドメイン画像の血管構造とターゲットドメイン画像の血管構造とが混ざり合っており、区別することができない。損失関数Lseg’をさらに適用している場合、画像(v,d)にはソースドメイン画像の血管構造のみが含まれ、画像(v,d)にはターゲットドメイン画像の血管構造のみが含まれる。上述したように、本発明では、特徴vは内容特徴(血管構造特徴)を表し、特徴dはスタイル特徴(画像の色、輝度などの特徴)を表す。従って、特徴の解きほぐしの効果を反映できる理想的な画像(v,d)は、ソースドメイン画像の血管構造とターゲットドメイン画像のスタイルを含む画像である。同様に、理想的な画像(v,d)は、ターゲットドメイン画像の血管構造とソースドメイン画像のスタイルを含む画像である。しかし、該図はグレースケール画像であり、色などのスタイル特徴を表現することが難しいため、画像(v,d)と(v,d)ではスタイル特徴の解きほぐしが明らかではない。それにもかかわらず、本発明の特徴の解きほぐしの効果は、画像(v,d)及び(v,d)にそれぞれ1つのドメインの血管特徴のみが含まれるという事実から容易に認識することができる。例えば、少なくとも血管の特徴はうまく解きほぐされていると考えられる。
【0030】
図2に示すネットワークモデルは、上記の損失関数を利用して訓練される。訓練が完了した後、訓練されたエンコーダ210及び分割デコーダ220を利用して、実際の分割タスクを実行してもよい。具体的には、処理すべきターゲットドメイン画像(ラベル付けされていない)がエンコーダ210に入力され、分割デコーダ220により分割予測画像が生成される。
【0031】
本発明では、上記の訓練されたネットワークを知識蒸留により他のネットワークに転移すること、具体的には、訓練されたネットワーク(D-netと称される)を基礎のU-netネットワーク構造に転移することをさらに提案する。これによって、以下の利点がある。(1)D-netにより提供される信頼できる知識を利用することで、ターゲットドメインに関するリスク損失関数を最適化することができるため、性能をさらに向上させることができる。具体的には、ターゲットドメインのリスク損失関数に教師ありの分割損失関数が含まれるが、ターゲットドメインデータにラベルがないため、ターゲットドメインのリスク損失関数を直接最適化することはできない。D-netの知識をU-netに転移する過程では、訓練されたD-netによりターゲットドメインデータについて生成された信頼性のより高い分割予測結果を該ターゲットドメインデータの信頼性のより高いラベルとして使用することができるため、ターゲットドメインのリスク損失関数を直接最適化することができる。(2)解きほぐし及び再構築の分岐部分を含むD-netネットワークと比較して、U-netネットワークの構造はより単純であり、展開がより容易である。
【0032】
U-netネットワークは、Olaf Ronnebergerらによる2015年国際医学画像コンピューティング及びコンピュータ支援介入会議(MICCAI)において発表された論文「U-net: Convolutional networks for biomedical image segmentation」で詳細に説明されている。本明細書は、該論文の内容を参照により援用する。
【0033】
図4は、U-netネットワーク構造を概略的に示す図である。該ネットワーク構造は、基本的に対称的な構造のエンコーダ(左半分)とデコーダ(右半分)を含む。エンコーダは、直列に接続された4つの畳み込みモジュールを含み、各畳み込みモジュールは、2つの3×3畳み込み層により構成され、隣接する畳み込みモジュールは、2×2の最大プーリング層により接続される。デコーダは、エンコーダにおける畳み込みモジュールと同一の構造の4つの畳み込みモジュールを含むが、隣接する畳み込みモジュールは、2×2のアップサンプリング層により接続される。デコーダは、エンコーダと対称的な構造を有する。また、デコーダの各畳み込みモジュールでは、畳み込みを実行する前に、エンコーダの隠れ層により抽出された隠れ特徴とデコーダにおける対応する位置にある隠れ層により抽出された隠れ特徴とを連結し、即ち、図4に示されるスキップコネクション(skip connection)を行う。デコーダの最後の畳み込みモジュールの出力は、1×1の畳み込み層に入力され、特徴の次元を適切な次元、通常はクラスの数に低減させる。本発明の網膜血管画像分割の例では、2種類の分類に関するものであるため、上記の1×1の畳み込み層の出力の次元は1であり、該1×1の畳み込み層の後にsigmoid活性化層を接続してもよい。これによって、血管分割確率マップが出力される。
【0034】
特に、上記の図2を参照しながら説明されたエンコーダ210、分割デコーダ220及び再構築デコーダ230は、図4に示されるU-net構造を採用することができるが、適切な修正を行う必要がある。具体的には、上述したように、エンコーダ210により出力された特徴は、2つの均等的な部分vとdに分けられるため、図4のU-net構造を採用してエンコーダ210を実現する場合、各隠れ層により出力される特徴のチャネル数を2倍にする必要がある。また、図4のU-net構造を採用して再構築デコーダ230を実現する場合、エンコーダ210により出力される特徴のチャネル数が2倍になるため、エンコーダ210からセマンティック特徴vと非セマンティック特徴dの両方を受信する再構築デコーダ230は、スキップコネクションを介して受信される特徴のチャネル数もそれに応じて増加する必要がある。しかし、図4のU-net構造を採用して分割デコーダ220を実現する場合、分割デコーダ220はエンコーダ210からセマンティック特徴vのみを受信するため、スキップコネクションを介して受信される特徴のチャネル数を変更する必要がない。
【0035】
図5は、知識蒸留により訓練されたD-netネットワークの知識をU-netネットワークに転移することを概略的に示している。図5に示すように、ターゲットドメイン画像は訓練されたD-netに入力され、D-netは分割確率マップp ζを該ターゲットドメイン画像のソフトラベルとして出力する。また、ターゲットドメイン画像に対して水平反転や垂直反転などの変換を実行し、変換後の画像もD-netに入力し、D-netは分割確率マップpt_hflip ζとpt_vflip ζをそれぞれ出力する。次に、生成された分割確率マップp ζ、pt_hflip ζ及びpt_vflip ζを統合する。統合の一例として、個々の分割確率マップの平均値を計算して、平均確率マップを取得してもよい。次に、所定の閾値に基づいて、統合後の確率マップに対して二値分割処理を実行する。一例として、閾値を0.5に設定し、統合された確率マップにおける画素値が該閾値よりも大きい画素を1としてラベル付けし、画素値が該閾値よりも小さい画素を0としてラベル付けしてもよい。得られた二値分割結果は、入力されたターゲットドメイン画像の疑似ラベル(ハードラベル)として使用してもよい。
【0036】
一方、ターゲットドメイン画像はU-netに入力され、U-netは予測確率マップpを生成する。また、既知のラベルを有するソースドメイン画像はU-netに入力され、U-netは予測確率マップpを生成する。好ましくは、図5に示すように、ターゲットドメイン画像及びソースドメイン画像は、(上記のように)前処理の後に、D-net又はU-netに入力される。
【0037】
次に、疑似ラベルに基づいて、ソースドメイン画像とターゲットドメイン画像の各画素の特徴をクラスレベルで整列する。具体的には、特定のクラスについて、U-netネットワークによりソースドメイン画像について抽出された画素分割特徴とターゲットドメイン画像について抽出された画素分割特徴とを互いに近づける。該画素分割特徴は、上記の1×1畳み込み層に入力された特徴、即ち、図4に示されるデコーダの最後の畳み込みモジュールにより出力された特徴を意味してもよい。例えば、画像における各画素は、64次元の画素分割特徴を有してもよい。
【0038】
このように、U-netを訓練する際に、ラベル付きのソースドメイン画像と疑似ラベル付きの(D-netの分割予測結果に基づいて生成された)ターゲットドメイン画像を使用して教師あり分割訓練を行い、U-netによりターゲットドメイン画像について予測された分割確率マップpを、D-netにより該ターゲットドメイン画像について予測された分割確率マップp ζ(ソフトラベル)に可能な限り近づけるようにする。
【0039】
具体的には、訓練において次の数式(6)で表される損失関数を使用する。
【数6】
【0040】
ここで、Lce (p,y)は、ソースドメイン画像についてU-netが分割予測を実行するための分割損失関数を表し、標準の交差エントロピー損失関数であってもよい。yは、ソースドメイン画像の真のラベルを表し、pは、ソースドメイン画像の分割予測確率を表す。
【0041】
ce (p,ξ(pt’ ζ))は、ターゲットドメイン画像についてU-netが分割予測を実行するための分割損失関数を表し、標準の交差エントロピー損失関数であってもよい。ξ(pt’ ζ)は、D-netの予測結果に基づいて生成された疑似ラベルを表し、ここで、pt’ ζは、統合の確率マップ、例えば
(外2)
を表す。また、ξは次の数式(7)で表されてもよく、ここで、σは閾値であり、例えば0.5に設定されてもよい。
【数7】
【0042】
KL(p ζ||p)はKLダイバージェンスであり、ターゲットドメイン画像についてU-netにより予測された分割確率マップpをターゲットドメイン画像についてD-netにより予測された分割確率マップp ζにできる限り近づけるために使用される。
(外3)
は、条件特徴アラインメント損失関数を表し、該損失関数は、所定のクラスについて、該クラスに対応するソースドメイン特徴とターゲットドメイン特徴を整列させるために使用される。ここで、kは、セマンティッククラスの数を表し、F は、ソースドメイン画像におけるi番目のクラスに属する全ての画素の特徴の平均値を表し、F は、ターゲットドメイン画像におけるi番目のクラスに属する全ての画素の特徴の平均値を表す。訓練では、F 及びF の初期値は0に設定し、訓練の進行に伴い、次の数式(8)に基づいて更新してもよい。
【数8】
【0043】
ここで、F’iは、現在のミニバッチ(mini-batch)について計算されたソースドメイン画像又はターゲットドメイン画像におけるi番目のクラスの画素の特徴の平均値を表し、λは、更新レートを制御するパラメータであり、例えば、0.7に設定されてもよい。
【0044】
図6は、本発明に係る画像分割を実行する方法を示すフローチャートである。
【0045】
図6に示すように、ステップS610において、エンコーダ210は、ソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出する。
【0046】
ステップS620において、ソースドメイン特徴をソースドメイン画像における内容に関する第1のソースドメイン特徴(セマンティック特徴)vとソースドメイン画像のスタイルに関する第2のソースドメイン特徴(非セマンティック特徴)dとに分類する。同様に、ステップS630において、ターゲットドメイン特徴をターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(セマンティック特徴)vとターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(非セマンティック特徴)dとに分類する。上述したように、特徴に含まれるチャネルの数に基づいて分類を実行してもよい。
【0047】
ステップS640において、分割デコーダ220は、第1のソースドメイン特徴vに基づいてソースドメイン画像に対して画像分割を実行し、該操作について第1の分割損失関数Lsegを設定する。
【0048】
ステップS650において、再構築デコーダ230は、第1のターゲットドメイン特徴v及び第2のターゲットドメイン特徴dに基づいてターゲットドメイン画像を再構築し、該操作について再構築損失関数Lrecを設定する。
【0049】
ステップS660において、再構築デコーダ230は、第1のソースドメイン特徴v及び第2のターゲットドメイン特徴dに基づいて変換画像を生成する。
【0050】
該変換画像は、特徴を抽出するためにエンコーダ210に入力される。また、同様に、抽出された特徴は、チャネル数が等しい2つの部分、即ち、セマンティック特徴と非セマンティック特徴とに分ける。次に、ステップS670に示すように、分割デコーダ220は、該変換画像のセマンティック特徴に基づいて変換画像に対して画像分割を実行し、該操作について第2の分割損失関数Lseg’を設定する。
【0051】
ステップS680において、第1の分割損失関数Lseg、第2の分割損失関数Lseg’及び再構築損失関数Lrecに基づいて、エンコーダ210、分割デコーダ220及び再構築デコーダ230を訓練する。
【0052】
訓練が完了すると、ステップS690に示すように、訓練されたエンコーダ210及び分割デコーダ220(分割ネットワーク)を使用して処理すべきターゲットドメイン画像に対して画像分割を実行する。
【0053】
図7は、訓練されたD-netの知識をU-netに転移する方法を示すフローチャートである。
【0054】
図7に示すように、ステップS710において、訓練されたD-netはターゲットドメイン画像に対して画像分割を実行して分割確率マップp ζを生成し、D-netは該ターゲットドメイン画像の1つ又は複数の変換画像(例えば水平反転画像と垂直反転画像)に対して画像分割を実行して、複数の分割確率マップ、例えばpt_hflip ζとpt_vflip ζを生成する。
【0055】
ステップS720において、生成された複数の分割確率マップに基づいてターゲットドメイン画像の疑似ラベルを生成する。具体的には、分割確率マップp ζ、pt_hflip ζ及びpt_vflip ζの平均値を計算し、閾値(例えば0.5)に基づいて平均確率マップに対して2値化処理を実行して、疑似ラベルを取得してもよい。
【0056】
ステップS730において、U-netネットワークは、該ターゲットドメイン画像及びソースドメイン画像に対して画像分割をそれぞれ実行する。
【0057】
ステップS740において、該ターゲットドメイン画像の疑似ラベル及びソースドメイン画像の既知ラベルを使用してU-netネットワークに対して教師あり訓練を行う。具体的には、訓練時に、U-netネットワークが前記ターゲットドメイン画像に対して画像分割を実行することに関する分割損失関数、U-netネットワークがソースドメイン画像に対して画像分割を実行することに関する分割損失関数、ターゲットドメイン画像についてU-netネットワークにより予測された分割確率マップpをターゲットドメイン画像についてD-netネットワークにより生成された分割確率マップp ζに近づけるためのKLダイバージェンス、及び条件特徴アラインメント損失関数を使用してもよい。
【0058】
訓練が完了すると、ステップS750に示すように、訓練されたU-netネットワークをD-netの代わりに使用して実際の画像分割タスクを実行してもよい。
【0059】
以上は、本発明に係る画像分割タスクのための教師なしドメイン適応スキームを詳細に説明した。本発明は、マルチタスク訓練によりソースドメインとターゲットドメインにより共有される特徴空間を学習し、特徴の解きほぐしによりより優れたドメイン不変特徴を学習し、知識蒸留によりターゲットドメインの損失関数をさらに最適化し、ネットワーク構造を簡素化する。
【0060】
本発明の発明者は、本発明の性能を評価するために、網膜血管画像に基づく実験を行った。実験は公開データセットで実行され、公開データセットは、DRIVE(表1では「D」と略称される)、CHASE_DB1(「C」と略称される)、STARE(「S」と略称される)、HRF(「H」と略称される)及びIOSTAR(「I」と略称される)を含む。実験では、上記のデータセットうちの何れかをラベル付きのソースドメインデータとして使用し、他のデータセットのうちの1つをラベルなしのターゲットドメインデータとして使用して、ドメイン転移タスクを実行する。
【0061】
以下の表1は、本発明の特徴の解きほぐしネットワーク(D-net)、D-netに基づく知識蒸留スキーム(KD)及び幾つかの既存のスキームの性能を示し、F1スコア(DICE)を評価指標として採用している。既存のスキームは、source-only(訓練でターゲットドメインデータセットを使用せず、ソースドメインデータセットのみを使用するスキーム)、ドメイン敵対的ニューラルネットワーク(DANN)、及び図1に示す深層再構築分類ネットワーク(DRCN)を含む。表1におけるtarget-onlyは、ラベル付けされたターゲットドメインデータセットを使用して訓練した場合に得られたスコアを表し、各転移タスクについて取得可能な最高のスコアを表すため、参照として使用できる。表1から分かるように、本発明のD-netの性能は、他の既存のスキームよりも優れており、D-netに基づく知識蒸留スキーム(KD)は、D-netの性能よりもさらに優れている。
【表1】
【0062】
以上は具体的な実施例を参照しながら本発明の実施形態を説明した。上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ(RAM)に書き込まれ、プロセッサ(例えばCPU)により実行されることで、本明細書で説明された各処理を実現する。
【0063】
図8は、本発明を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。本発明に係る画像分割の実行装置及びニューラルネットワークは、該コンピュータハードウェアに基づいて実現されてもよい。
【0064】
図8に示すように、コンピュータ800では、中央処理装置(CPU)801、読み出し専用メモリ(ROM)802及びランダムアクセスメモリ(RAM)803がバス804により相互に接続されている。
【0065】
入力/出力インターフェース805は、バス804にさらに接続されている。入力/出力インターフェース805には、キーボード、マウス、マイクロフォンなどにより構成された入力部806、ディスプレイ、スピーカなどにより構成された出力部807、ハードディスク、不揮発性メモリなどにより構成された記憶部808、ネットワークインターフェースカード(ローカルエリアネットワーク(LAN)カード、モデムなど)により構成された通信部809、及び移動可能な媒体811をドライブするドライバ810が接続されている。移動可能な媒体811は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。
【0066】
上記の構成を有するコンピュータにおいて、CPU801は、記憶部808に記憶されているプログラムを、入力/出力インターフェース805及びバス804を介してRAM803にロードし、プログラムを実行することにより、上記の方法を実行する。
【0067】
コンピュータ(CPU801)により実行されるプログラムは、パッケージ媒体である移動可能な媒体811に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)などを含む)、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ(CPU801)により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。
【0068】
移動可能な媒体811がドライバ810にインストールされると、プログラムは、入力/出力インターフェース805を介して記憶部808にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部809で受信され、記憶部808にインストールされる。或いは、プログラムは、ROM802又は記憶部808に予めインストールされてもよい。
【0069】
コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて(例えば呼び出しの時に)処理を実行するプログラムであってもよい。
【0070】
本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、1つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。
【0071】
本発明の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本発明の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本発明の範囲は、添付の特許請求の範囲及びその均等物により制限される。
【0072】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
コンピュータが実行する、ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する方法であって、前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、前記方法は、
前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、
前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、
前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、
前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、
前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、
前記エンコーダが前記変換画像について特徴を抽出するステップと、
前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、
前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、
訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を含む、方法。
(付記2)
前記第1のソースドメイン特徴(v)と前記第2のソースドメイン特徴(d)とに同一の数のチャネルが含まれるように、チャネルに基づいて前記ソースドメイン特徴を分類し、
前記第1のターゲットドメイン特徴(v)と前記第2のターゲットドメイン特徴(d)とに同一の数のチャネルが含まれるように、チャネルに基づいて前記ターゲットドメイン特徴を分類する、付記1に記載の方法。
(付記3)
前記第1の分割損失関数(Lseg)及び前記第2の分割損失関数(Lseg’)は、交差エントロピー損失関数であり、
前記再構築損失関数(Lrec)は、絶対値損失関数である、付記1に記載の方法。
(付記4)
U-netネットワークを利用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するように、知識の蒸留により、訓練された前記ニューラルネットワークの知識をU-netネットワークに転移するステップ、をさらに含む、付記1に記載の方法。
(付記5)
訓練された前記ニューラルネットワークがターゲットドメイン画像及び前記ターゲットドメイン画像の1つ又は複数の変換画像に対して画像分割を実行し、複数の分割確率マップを生成するステップと、
前記複数の分割確率マップに基づいて前記ターゲットドメイン画像の疑似ラベルを生成するステップと、
前記U-netネットワークが前記ターゲットドメイン画像及びソースドメイン画像に対して画像分割をそれぞれ実行するステップと、
前記ターゲットドメイン画像の疑似ラベル及び前記ソースドメイン画像の既知ラベルを使用して前記U-netネットワークを訓練するステップと、
訓練されたU-netネットワークを使用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、さらに含む、付記4に記載の方法。
(付記6)
前記疑似ラベルを生成するステップは、
前記複数の分割確率マップに基づいて平均確率マップを計算するステップと、
閾値に基づいて前記平均確率マップに対して二値分割処理を実行して前記疑似ラベルを取得するステップと、を含む、付記5に記載の方法。
(付記7)
前記U-netネットワークを訓練する際に、
前記U-netネットワークが前記ターゲットドメイン画像に対して画像分割を実行することに関する分割損失関数、
前記U-netネットワークが前記ソースドメイン画像に対して画像分割を実行することに関する分割損失関数、
前記ターゲットドメイン画像について前記U-netネットワークにより予測された分割確率マップ(p)を前記ターゲットドメイン画像について訓練された前記ニューラルネットワークにより生成された分割確率マップ(p ζ)に近づけるためのKLダイバージェンス、及び
所定のクラスについて、前記U-netネットワークにより前記ターゲットドメイン画像について抽出された画素分割特徴と前記ソースドメイン画像について抽出された画素分割特徴とを互いに近づけるための条件特徴アラインメント損失関数を使用する、付記5に記載の方法。
(付記8)
ニューラルネットワークを利用して画像分割に適用されるドメイン適応を実行する装置であって、
前記ニューラルネットワークは、エンコーダ、第1のデコーダ及び第2のデコーダを含み、
前記装置は、
コンピュータプログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することで、
前記エンコーダがソースドメイン画像についてソースドメイン特徴を抽出し、ターゲットドメイン画像についてターゲットドメイン特徴を抽出するステップと、
前記ソースドメイン特徴を前記ソースドメイン画像における内容に関する第1のソースドメイン特徴(v)と前記ソースドメイン画像のスタイルに関する第2のソースドメイン特徴(d)とに分類し、前記ターゲットドメイン特徴を前記ターゲットドメイン画像における内容に関する第1のターゲットドメイン特徴(v)と前記ターゲットドメイン画像のスタイルに関する第2のターゲットドメイン特徴(d)とに分類するステップと、
前記第1のデコーダが前記第1のソースドメイン特徴(v)に基づいて前記ソースドメイン画像に対して画像分割を実行し、第1の分割損失関数(Lseg)を設定するステップと、
前記第2のデコーダが前記第1のターゲットドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて前記ターゲットドメイン画像を再構築し、再構築損失関数(Lrec)を設定するステップと、
前記第2のデコーダが前記第1のソースドメイン特徴(v)及び前記第2のターゲットドメイン特徴(d)に基づいて変換画像を生成するステップと、
前記エンコーダが前記変換画像について特徴を抽出するステップと、
前記第1のデコーダが抽出された特徴のうちの内容に関する部分に基づいて前記変換画像に対して画像分割を実行し、第2の分割損失関数(Lseg’)を設定するステップと、
前記第1の分割損失関数、前記第2の分割損失関数及び前記再構築損失関数に基づいて、前記エンコーダ、前記第1のデコーダ及び前記第2のデコーダを訓練するステップと、
訓練されたエンコーダ及び第1のデコーダを使用して処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、を実行する、装置。
(付記9)
前記プロセッサは、
訓練された前記ニューラルネットワークがターゲットドメイン画像及び前記ターゲットドメイン画像の1つ又は複数の変換画像に対して画像分割を実行し、複数の分割確率マップを生成するステップと、
前記複数の分割確率マップに基づいて前記ターゲットドメイン画像の疑似ラベルを生成するステップと、
U-netネットワークが前記ターゲットドメイン画像及びソースドメイン画像に対して画像分割をそれぞれ実行するステップと、
前記ターゲットドメイン画像の疑似ラベル及び前記ソースドメイン画像の既知ラベルを使用して前記U-netネットワークを訓練するステップと、
訓練されたU-netネットワークを使用して前記処理すべきターゲットドメイン画像に対して画像分割を実行するステップと、さらに実行する、付記8に記載の装置。
(付記10)
コンピュータプログラムが記憶された記憶媒体であって、前記コンピュータプログラムがコンピュータにより実行される際に、前記コンピュータに付記1乃至7の何れかに記載のドメイン適応を実行する方法を実行させる、記憶媒体。
(付記11)
前記ソースドメイン画像及び前記ターゲットドメイン画像に対して前処理を行い、前処理が行われたソースドメイン画像及びターゲットドメイン画像を前記エンコーダに入力するステップ、さらに含み、
前記前処理は、グレースケール画像への変換、正規化、ヒストグラム等化、ガンマ補正、回転、反転、色のディザリング、サイズの変更、及び前記ソースドメイン画像が高解像度画像であり、且つ前記ターゲットドメイン画像が低解像度画像である場合に前記ソースドメイン画像にガウス雑音をランダムに追加することのうちの少なくとも1つの処理を含む、付記1に記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8