特開2023-22487 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特開2023-22487学習装置、画像領域分割装置、学習モデルデータ生成方法、画像領域分割方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023022487

(43)【公開日】2023-02-15

(54)【発明の名称】学習装置、画像領域分割装置、学習モデルデータ生成方法、画像領域分割方法、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230208BHJP

G06T 7/11 20170101ALI20230208BHJP

G06N 3/04 20230101ALI20230208BHJP

G06N 3/08 20230101ALI20230208BHJP

G06N 20/00 20190101ALI20230208BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06N3/04

G06N3/08

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021127384

(22)【出願日】2021-08-03

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】孫泳青

(72)【発明者】

【氏名】黒住隆行

(72)【発明者】

【氏名】木全英明

(72)【発明者】

【氏名】王正

(72)【発明者】

【氏名】佐藤真一

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096GA40

5L096HA11

5L096JA11

5L096JA22

5L096KA04

(57)【要約】

【課題】単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行う。
【解決手段】共通及び独自の特徴を抽出するドメインごとの特徴抽出モデルと、特徴抽出モデルの各々が出力する共通及び独自の特徴から再現画像データを生成するドメインごとの画像再現モデルと、特徴抽出モデルの各々が出力する共通の特徴から領域分割した領域分割画像データを生成する領域分割モデルとを備え、対応関係にある異なるドメインの画像データの各々を、各々のドメインに対応する特徴抽出モデルに入力として与えた場合、画像再現モデルが生成する再現画像データの各々が対応する画像データと同一になり、かつ領域分割モデルが生成する領域分割画像データが、画像データに対応する真値領域分割画像データと同一になるように、特徴抽出モデルと、画像再現モデルと、領域分割モデルとを構築する。
【選択図】図１

【特許請求の範囲】

【請求項1】

異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデルを有する特徴抽出部と、
前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成するドメインごとの画像再現モデルを有する画像再現部と、
前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成する領域分割モデルを有する画像領域分割部と、
対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する学習処理部と、
を備える学習装置。

【請求項2】

前記学習処理部は、
前記画像データと前記画像データに対応する前記再現画像データとの間の損失と、対応関係にある異なるドメインの前記画像データの各々から得られる前記共通特徴データの間の損失と、同一のドメインの複数の前記画像データの各々から得られる前記独自特徴データの間の損失と、前記画像データに対応する前記領域分割画像データと当該画像データに対応する前記真値領域分割画像データとの間の損失とを最小化するように、前記学習モデルデータを生成する、
請求項１に記載の学習装置。

【請求項3】

前記異なるドメインの数は、２である、
請求項１または請求項２に記載の学習装置。

【請求項4】

任意のドメインの任意の画像データを取り込んで出力する入力部と、
請求項１に記載の学習装置が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出する特徴抽出部と、
前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する画像領域分割部と、
を備える画像領域分割装置。

【請求項5】

特徴抽出部の異なるドメインごとの特徴抽出モデルの各々が、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出し、
画像再現部の異なるドメインごとの画像再現モデルの各々が、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成し、
画像領域分割部の領域分割モデルが、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成し、
学習処理部が、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する、
学習モデルデータ生成方法。

【請求項6】

入力部が、任意のドメインの任意の画像データを取り込んで出力し、
特徴抽出部が、請求項５に記載の学習モデルデータ生成方法により生成された学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出し、
領域分割部が、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する、
画像領域分割方法。

【請求項7】

コンピュータを、
請求項１に記載の学習装置、又は、請求項４に記載の画像領域分割装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、画像領域分割装置、学習モデルデータ生成方法、画像領域分割方法、及びプログラムに関する。

【背景技術】

【0002】

コンピュータビジョンにおける重要なタスクの１つであるセマンティックセグメンテーションは、画像に含まれる個々の画素を対象として、セマンティックごとに画素を分類する技術である。例えば、画像において、建物、道路などの複数のオブジェクトが示されており、個々のオブジェクトを、セマンティックを示す情報にしたとする。この場合、セマンティックセグメンテーションとは、各画素が、どのオブジェクトに属するかを分類することにより、画像の領域を、画像に含まれるオブジェクトごとに分割する手法ということができる。

【0003】

セマンティックセグメンテーションを実現する技術に関する研究は、近年、盛んに行われており、例えば、ＶＧＧ（Visual Geometry Group）やＲｅｓＮｅｔ（Residual Network）などを利用して構成された完全畳み込みネットワーク（FCN: Fully Convolutional Network）などの数多くの技術が提案されている（例えば、非特許文献１、２参照）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Jonathan Long, Evan Shelhamer, Trevor Darrell, “Fully Convolutional Networks for Semantic Segmentation”, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3431-3440, 2015.

【非特許文献2】Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick, “Mask R-CNN”, Proceedings of the IEEE International conference on computer vision, pp.2961-2969, 2017.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記したような技術において採用されている手法には、以下のような問題がある。例えば、航空衛星画像などのマルチスペクトル画像では、チャンネルの環境や光によるノイズが多く含まれる一方で、対象のオブジェクトのサイズが小さいことが多く、既存のセマンティックセグメンテーションの手法をマルチスペクトル画像に直接適用すると、所望の分割精度が得られないといった問題がある。

【0006】

上記事情に鑑み、本発明は、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことができる技術の提供を目的としている。

【課題を解決するための手段】

【0007】

本発明の一態様は、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデルを有する特徴抽出部と、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成するドメインごとの画像再現モデルを有する画像再現部と、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成する領域分割モデルを有する画像領域分割部と、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する学習処理部と、を備える学習装置である。

【0008】

本発明の一態様は、任意のドメインの任意の画像データを取り込んで出力する入力部と、上記に記載の学習装置が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出する特徴抽出部と、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する画像領域分割部と、を備える画像領域分割装置である。

【0009】

本発明の一態様は、特徴抽出部の異なるドメインごとの特徴抽出モデルの各々が、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出し、画像再現部の異なるドメインごとの画像再現モデルの各々が、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成し、画像領域分割部の領域分割モデルが、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成し、学習処理部が、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する、学習モデルデータ生成方法である。

【0010】

本発明の一態様は、入力部が、任意のドメインの任意の画像データを取り込んで出力し、特徴抽出部が、上記に記載の学習モデルデータ生成方法により生成された学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出し、領域分割部が、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する、画像領域分割方法である。

【0011】

本発明の一態様は、コンピュータを、上記の学習装置、又は、上記の画像領域分割装置として機能させるためのプログラムである。

【発明の効果】

【0012】

本発明により、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことが可能になる。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施形態の学習装置の全体の構成を示すブロック図である。

【図2】本発明の一実施形態の学習装置に含まれる一部分の構成を示すブロック図である。

【図3】本発明の一実施形態の学習装置による処理の流れを示す図（その１）である。

【図4】本発明の一実施形態の学習装置による処理の流れを示す図（その２）である。

【図5】本発明の一実施形態の学習装置が算出する損失を説明する図（その１）である。

【図6】本発明の一実施形態の学習装置が算出する損失を説明する図（その２）である。

【図7】本発明の一実施形態の画像領域分割装置の構成を示すブロック図である。

【図8】本発明の一実施形態の画像領域分割装置による処理の流れを示す図である。

【図9】本発明の一実施形態の画像領域分割装置の他の構成例を示すブロック図である。

【発明を実施するための形態】

【0014】

例えば、航空衛星画像などのマルチスペクトル画像や、地図画像や、合成画像と航空映像画像とを組み合わせた画像などのマルチモダール画像といった異なるドメインの画像データは、ドメインごとに照明条件や色分布が異なっている。これに対して、同一の範囲を撮像した画像データであれば、ドメインが異なっていてもセマンティックな内容、例えば、オブジェクトの輪郭の形状や、オブジェクトのレイアウトは、一致しているという特徴がある。この特徴を踏まえて、異なるドメインの画像データから共通した特徴を抽出し、抽出した共通の特徴に基づいてセマンティックセグメンテーション、すなわち画像の領域分割を行えば、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも高い精度で領域分割を行うことができると考えられる。この考え方を踏まえた本発明の実施形態について、以下、図面を参照して説明する。

【0015】

（学習装置の構成）
図１は、本発明の一実施形態による学習装置１の構成の一例を示すブロック図である。学習装置１は、学習用画像データ記憶部１１、学習用画像データ取込部１２、学習モデルデータ記憶部１３、特徴抽出部１４、画像再現部１５、画像領域分割部１６、及び学習処理部１７を備える。

【0016】

学習用画像データ記憶部１１は、対応関係にある異なるドメインの画像データの各々と、対応関係にある異なるドメインの画像データの組み合わせごとに予め準備される１つの正解の画像データである真値領域分割画像データとを組み合わせた学習用画像データセットを予め複数セット記憶する。ここで、画像データのドメインとは、画像データの種類のことであり、種類の具体例として、上記のマルチスペクトル画像やマルチモダール画像といったといった種類が存在する。以下では、一例として、学習用画像データ記憶部１１に含まれる学習用画像データセットに含まれる組み合わせの各々には、チャンネルＧと、チャンネルＢという２つの異なるドメインの画像データが含まれているものとする。例えば、チャンネルＧが、マルチスペクトル画像というドメインに対応する場合、チャンネルＢは、マルチスペクトル画像というドメイン以外のドメイン、例えば、マルチモダール画像というドメインに対応することになる。

【0017】

上記の対応関係にある異なるドメインの画像データとは、同一の範囲を撮像した異なるドメインの画像データの組み合わせのことを意味する。ここで、「同一の範囲を撮像した」とは、同一の対象を同一の画角で撮像したという意味の他、撮像した際には、画角が異なることから、撮像した範囲が、他のドメインの画像データと異なっている場合に、当該画像データの一部を切り出すなどの画像処理を施して、他のドメインの画像データと同一の範囲を含むようにしたという意味も含むものとする。

【0018】

正解の画像データである真値領域分割画像データとは、以下のような画像データである。例えば、学習用画像データセットに含まれるチャンネルＧとチャンネルＢの画像データを画面に表示した際に映し出される画像は、例えば、建物、道路などの複数のオブジェクトから構成されている。画像を構成する複数のオブジェクトの各々を１つのカテゴリとした場合、画像データに含まれている全ての画素は、いずれか１つのカテゴリに属することになる。この場合に、画素の各々が属するカテゴリを特定するクラス番号を、各々の画素の画素値とした画像データが、真値領域分割画像データになる。なお、チャンネルＧとチャンネルＢの画像データに含まれるオブジェクトは、ほぼ同一の形状であって、ほぼ同一の配置である。そのため、真値領域分割画像データを作成する際には、例えば、チャンネルＧとチャンネルＢの画像データのうちオブジェクトの境界がより鮮明に写されているいずれか一方を参照して真値領域分割画像データを作成してもよいし、両方の画像データを参照して真値領域分割画像データを作成してもよい。

【0019】

学習用画像データ記憶部１１が記憶する学習用画像データセットの数は、複数セットであればどのような数であってもよく、学習処理部１７による学習処理を十分に行うのに必要なセット数であるものとする。学習用画像データ記憶部１１が記憶する学習用画像データセットに含まれるチャンネルＧとチャンネルＢの画像データの各々の縦と横の画素数は、同一である。チャンネルＧとチャンネルＢの画像データの各々の色方向のチャンネル数は、同一であり、例えば、両方がＲＧＢの画像データである場合、チャンネルＧとチャンネルＢの画像データの各々において、３チャンネルずつ存在することになる。

【0020】

学習用画像データ取込部１２は、学習用画像データ記憶部１１から学習用画像データセットを１つずつ読み出す。学習用画像データ取込部１２は、読み出した学習用画像データセットに含まれるチャンネルＧの画像データと、チャンネルＢの画像データとを特徴抽出部１４に出力する。学習用画像データ取込部１２は、読み出した学習用画像データセットに含まれるチャンネルＧの画像データと、チャンネルＢの画像データと、真値領域分割画像データとを学習処理部１７に出力する。

【0021】

学習モデルデータ記憶部１３は、特徴抽出部１４、画像再現部１５、及び画像領域分割部１６の各々に適用される学習モデルデータを記憶する。学習モデルデータは、具体的には、深層ニューラルネットワークなどの関数近似器に適用される係数、すなわち、重み、バイアスの値である。以下、学習モデルデータのうち、特徴抽出部１４に適用される学習モデルデータを、特徴抽出モデルデータともいう。学習モデルデータのうち、画像再現部１５に適用される学習モデルデータを、画像再現モデルデータともいう。学習モデルデータのうち、画像領域分割部１６に適用される学習モデルデータを、領域分割モデルデータともいう。言い換えると、学習モデルデータは、特徴抽出モデルデータと、画像再現モデルデータと、領域分割モデルデータとを含んだデータである。学習モデルデータ記憶部１３は、初期状態では、例えば、乱数によって初期化された学習モデルデータを予め記憶する。

【0022】

以下、さらに、図２を参照しつつ、特徴抽出部１４、画像再現部１５、画像領域分割部１６、及び学習処理部１７について説明する。特徴抽出部１４は、特徴抽出モデル１４－Ｇ，１４－Ｂを備える。図２に示すように、特徴抽出モデル１４－Ｇは、チャンネルＧエンコーダ２４－Ｇを備える。特徴抽出モデル１４－Ｂは、チャンネルＢエンコーダ２４－Ｂを備える。チャンネルＧエンコーダ２４－ＧとチャンネルＢエンコーダ２４－Ｇは、例えば、以下の参考文献１に示されるＵ－Ｎｅｔのエンコーダであり、深層ニューラルネットワークなどの関数近似器により構成されている。

【0023】

［参考文献１：Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351, pp.234--241, 2015］

【0024】

学習モデルデータ記憶部１３が記憶する学習モデルデータの中のチャンネルＧエンコーダ２４－Ｇに対応する特徴抽出モデルデータがチャンネルＧエンコーダ２４－Ｇに適用されることにより、特徴抽出モデル１４－Ｇが構築される。ここで、特徴抽出モデルデータが、チャンネルＧエンコーダ２４－Ｇに適用されるとは、例えば、チャンネルＧエンコーダ２４－Ｇが深層ニューラルネットワークによって構成されている場合、深層ニューラルネットワークに含まれる複数のニューロンの各々に対して特徴抽出モデルデータに含まれる係数、すなわち、重み、バイアスの値が適用されることである。学習モデルデータ記憶部１３が記憶する学習モデルデータの中のチャンネルＢエンコーダ２４－Ｂに対応する特徴抽出モデルデータがチャンネルＢエンコーダ２４－Ｂに適用されることにより、特徴抽出モデル１４－Ｂが構築される。

【0025】

特徴抽出モデル１４－Ｇは、学習用画像データ取込部１２が出力するチャンネルＧの画像データを取り込み、チャンネルＧと、チャンネルＢとの間で共通する特徴を示す共通特徴データと、チャンネルＧにおける独自の特徴を示す独自特徴データとを抽出する。特徴抽出モデル１４－Ｂは、学習用画像データ取込部１２が出力するチャンネルＢの画像データを取り込み、チャンネルＧと、チャンネルＢとの間で共通する特徴を示す共通特徴データと、チャンネルＢにおける独自の特徴を示す独自特徴データとを抽出する。ここで、共通特徴データとは、例えば、チャンネルＧ及びチャンネルＢの各々において共通する特徴である画像の内容、すなわちレイアウトやオブジェクトの輪郭を示すデータである。独自特徴データとは、例えば、チャンネルＧ及びチャンネルＢの各々において異なる特徴である色分布や照明条件を示すデータである。

【0026】

例えば、チャンネルＧエンコーダ２４－Ｇとして、参考文献１のＵ－Ｎｅｔのエンコーダが適用されており、チャンネルＧの画像データの縦と横の画素数が、それぞれ５７２であり、色方向のチャンネル数が１チャンネルであるとする。この場合、参考文献１のＦｉｇ．１に示されるように、エンコーダの最終段の出力は、縦と横の画素数がそれぞれ３０であって、１０２４チャンネルの大きさを有する特徴マップになる。チャンネルＧエンコーダ２４－Ｇでは、例えば、１０２４個の特徴マップのうち、前半の７６８チャンネルの特徴マップを、共通特徴データを表す特徴マップとし、後半の２５６チャンネルの特徴マップを、独自特徴データを表す特徴マップとして予め割り当てる。

【0027】

なお、共通特徴データと、独自特徴データの割り当て方は、上記のようなチャンネルの前半と後半に分けて割り当てる手法に限られず、１０２４個の特徴マップのうちの任意のチャンネルの特徴マップを、共通特徴データを表す特徴マップとし、残りを、独自特徴データを表す特徴マップとしてもよい。ただし、共通特徴データを表す特徴マップの数が、独自特徴データを表す特徴マップの数よりも多くなるように予め定めておく必要がある。チャンネルＧエンコーダ２４－Ｇと、チャンネルＢエンコーダ２４－Ｂにおける共通特徴データを表す特徴マップの数と、独自特徴データを表す特徴マップの数とは、同数になるように予め割り当てられる。

【0028】

ここで、特徴抽出部１４の入出力データと、特徴抽出部１４が行う演算を数式により定義する。チャンネルＧの画像データと、チャンネルＢの画像データとは、それぞれ、次式（１），（２）に示す記号により表される。以下、それぞれをチャンネルＧ画像データｘ_Ｇ、チャンネルＢ画像データｘ_Ｂという。

【0029】

【数1】

【0030】

【数2】

【0031】

特徴抽出モデル１４－Ｇによる演算は、次式（３）によって表される。

【0032】

【数3】

【0033】

式（３）の演算によって得られるチャンネルＧの共通特徴データと、独自特徴データとは、それぞれ次式（４），（５）に示す記号により表される。以下、それぞれ共通特徴データｃ_ｘ＿Ｇ、独自特徴データｓ_ｘ＿Ｇという。

【0034】

【数4】

【0035】

【数5】

【0036】

特徴抽出モデル１４－Ｂによる演算は、次式（６）によって表される。

【0037】

【数6】

【0038】

式（６）の演算によって得られるチャンネルＢの共通特徴データと、独自特徴データとは、それぞれ次式（７），（８）に示す記号により表される。以下、それぞれ共通特徴データｃ_ｘ＿Ｂ、独自特徴データｓ_ｘ＿Ｂという。

【0039】

【数7】

【0040】

【数8】

【0041】

画像再現部１５は、画像再現モデル１５－Ｇ，１５－Ｂを備える。図２に示すように、画像再現モデル１５－Ｇは、チャンネルＧ画像再現用デコーダ２５－Ｇを備える。画像再現モデル１５－Ｂは、チャンネルＢ画像再現用デコーダ２５－Ｂを備える。チャンネルＧ画像再現用デコーダ２５－Ｇは、チャンネルＧエンコーダ２４－Ｇが行うダウンサンプリングの畳み込み演算に対して対称的なアップサンプリングの畳み込み演算を行う深層ニューラルネットワークなどの関数近似器により構成されている。チャンネルＢ画像再現用デコーダ２５－Ｂは、チャンネルＢエンコーダ２４－Ｂが行うダウンサンプリングの畳み込み演算に対して対称的なアップサンプリングの畳み込み演算を行う深層ニューラルネットワークなどの関数近似器により構成されている。したがって、チャンネルＧ画像再現用デコーダ２５－Ｇが出力する画像データのサイズ、すなわち、縦と横の画素数と色方向のチャンネル数は、チャンネルＧエンコーダ２４－Ｇに与えられるチャンネルＧ画像データｘ_Ｇのサイズと同一になる。チャンネルＢ画像再現用デコーダ２５－Ｂが出力する画像データのサイズは、チャンネルＢエンコーダ２４－Ｂに与えられるチャンネルＢ画像データｘ_Ｂのサイズと同一になる。

【0042】

学習モデルデータ記憶部１３が記憶する学習モデルデータの中のチャンネルＧ画像再現用デコーダ２５－Ｇに対応する画像再現モデルデータがチャンネルＧ画像再現用デコーダ２５－Ｇに適用されることにより、画像再現モデル１５－Ｇが構築される。学習モデルデータ記憶部１３が記憶する学習モデルデータの中のチャンネルＢ画像再現用デコーダ２５－Ｂに対応する画像再現モデルデータがチャンネルＢ画像再現用デコーダ２５－Ｂに適用されることにより、画像再現モデル１５－Ｂが構築される。画像再現モデル１５－Ｇは、特徴抽出モデル１４－Ｇが出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇとを取り込み、チャンネルＧ再現画像データを生成する。画像再現モデル１５－Ｂは、特徴抽出モデル１４－Ｂが出力するチャンネルＢ共通特徴データｃ_ｘ＿Ｂと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂとを取り込み、チャンネルＢ再現画像データを生成する。上記したように、チャンネルＧ画像データｘ_Ｇと、チャンネルＢ画像データｘ_Ｂのサイズは、同一であるため、チャンネルＧ再現画像データとチャンネルＢ再現画像データのサイズも同一になる。

【0043】

ここで、画像再現部１５が行う演算を数式により定義する。画像再現モデル１５－Ｇによる演算と、画像再現モデル１５－Ｂによる演算とは、それぞれ次式（９），（１０）によって表される。以下、式（９），（１０）に示す演算式を用いて、それぞれチャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）、チャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）という。

【0044】

【数9】

【0045】

【数10】

【0046】

画像領域分割部１６は、入力データ取込部１６－１と、領域分割モデル１６－２とを備える。入力データ取込部１６－１は、特徴抽出モデル１４－Ｇが抽出したチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、特徴抽出モデル１４－Ｂが抽出したチャンネルＢ共通特徴データｃ_ｘ＿Ｂとを取り込む。入力データ取込部１６－１は、例えば、取り込んだチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとのいずれか一方を入力データとして領域分割モデル１６－２に与える。入力データ取込部１６－１は、例えば、取り込んだチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとを組み合わせて入力データを生成し、生成した入力データを領域分割モデル１６－２に与える。入力データ取込部１６－１が、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとを組み合わせて入力データを生成する手法としては、例えば、入力データ取込部１６－１が、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとに対して画素ごとのｍａｘｖａｌｕｅを算出する演算を行うことにより入力データを生成する手法などがある。

【0047】

領域分割モデル１６－２は、画像領域分割用デコーダ２６を備える。画像領域分割用デコーダ２６は、例えば、参考文献１に示されるＵ－Ｎｅｔのデコーダであり、深層ニューラルネットワークなどの関数近似器により構成されている。学習モデルデータ記憶部１３が記憶する学習モデルデータの中の領域分割モデルデータが画像領域分割用デコーダ２６に適用されることにより、領域分割モデル１６－２が構築される。

【0048】

領域分割モデル１６－２は、入力データ取込部１６－１から与えられる入力データから領域分割画像データを生成する。領域分割画像データを数式で示すと、次式（１１）として表される。

【0049】

【数11】

【0050】

式（１１）において、関数Ｇ_Ｓ（ｐ_ｈ）の引数であるｐ_ｈは、入力データ取込部１６－１が出力する入力データであり、ｈは、「Ｇ」、「Ｂ」、「Ｇ＋Ｂ」のいずれかである。「ｐ_Ｇ」は、チャンネルＧ共通特徴データｃ_ｘ＿Ｇを示すことになり、「ｐ_Ｂ」は、チャンネルＢ共通特徴データｃ_ｘ＿Ｂを示すことになる。上記したように、入力データが、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとが組み合わされて入力データ取込部１６－１によって生成される入力データである場合、「ｐ_Ｇ＋Ｂ」として記載する。「ｐ_Ｇ」，「ｐ_Ｂ」，「ｐ_Ｇ＋Ｂ」のいずれを領域分割モデル１６－２に対する入力データとするかは、チャンネルＧ画像データｘ_ＧやチャンネルＢ画像データｘ_Ｂの画質、領域分割モデル１６－２の出力である領域分割画像データｚ_ｈの使用目的や使用用途に応じて予め定められる。

【0051】

チャンネルＧエンコーダ２４－Ｇと、チャンネルＧ画像再現用デコーダ２５－Ｇとは、
チャンネルＧ共通特徴データｃ_ｘ＿Ｇの特徴マップと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇの特徴マップとを介してｅｎｄ－ｔｏ－ｅｎｄの深層ニューラルネットワークを構成する。チャンネルＢエンコーダ２４－Ｂと、チャンネルＢ画像再現用デコーダ２５－Ｂとは、チャンネルＢ共通特徴データｃ_ｘ＿Ｂの特徴マップと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂの特徴マップとを介してｅｎｄ－ｔｏ－ｅｎｄの深層ニューラルネットワークを構成する。チャンネルＧエンコーダ２４－ＧとチャンネルＢエンコーダ２４－Ｂの各々と、画像領域分割用デコーダ２６とは、チャンネルＧ共通特徴データｃ_ｘ＿Ｇの特徴マップと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂの特徴マップと、入力データ取込部１６－１とを介してｅｎｄ－ｔｏ－ｅｎｄの深層ニューラルネットワークを構成する。

【0052】

学習処理部１７は、学習用画像データ取込部１２が出力する学習用画像データセット、特徴抽出部１４が抽出するチャンネルＧ共通特徴データｃ_ｘ＿Ｇ、チャンネルＧ独自特徴データｓ_ｘ＿Ｇ、チャンネルＢ共通特徴データｃ_ｘ＿Ｂ、及びチャンネルＢ独自特徴データｓ_ｘ＿Ｂ、画像再現部１５が生成するチャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）、及びチャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）、並びに画像領域分割部１６が生成する領域分割画像データｚ_ｈに基づいて学習処理を行う。学習処理部１７は、学習処理により、チャンネルＧエンコーダ２４－Ｇ、チャンネルＢエンコーダ２４－Ｂ、チャンネルＧ画像再現用デコーダ２５－Ｇ、チャンネルＢ画像再現用デコーダ２５－Ｂ、及び画像領域分割用デコーダ２６の各々に適用される新たな学習モデルデータを算出する。学習処理部１７は、新たな学習モデルデータを算出すると、学習モデルデータ記憶部１３が記憶する学習モデルデータを、算出した新たな学習モデルデータに書き換える。

【0053】

学習処理部１７は、対応関係にある異なるドメインの画像データであるチャンネルＧ画像データｘ_Ｇ及びチャンネルＢ画像データｘ_Ｂの各々を、各々のドメインに対応する特徴抽出モデル１４－Ｇ，１４－Ｂに入力として与えた場合に、以下の２つの目的が達成されるように学習処理を行う。第１の目的は、画像再現モデル１５－Ｇが生成する再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）が、チャンネルＧ画像データｘ_Ｇと同一になり、かつ画像再現モデル１５－Ｂが生成する再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）が、チャンネルＢ画像データｘ_Ｂと同一になるようにすることである。第２の目的は、領域分割モデル１６－２が生成する領域分割画像データｚ_ｈが、真値領域分割画像データと同一になるようにすることである。

【0054】

この２つ目的を達成するために、学習処理部１７は、具体的には、以下の４つの損失を最小化する学習処理を行う。第１の損失は、チャンネルＧ画像データｘ_Ｇと、画像再現モデル１５－Ｇが生成する再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）との間の損失と、チャンネルＢ画像データｘ_Ｂと、画像再現モデル１５－Ｂが生成する再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）との間の損失とを合計した損失である。第２の損失は、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとの間の損失である。第３の損失は、同一のドメインの複数の画像データの各々から得られる独自特徴データの間の損失、すなわち、チャンネルＧにおける複数の画像データの各々から得られる複数の独自特徴データｓ_ｘ＿Ｇの間の損失と、チャンネルＢにおける複数の画像データの各々から得られる複数の独自特徴データｓ_ｘ＿Ｂの間の損失とを合計した損失である。第４の損失は、領域分割モデル１６－２が生成する領域分割画像データｚ_ｈと、真値領域分割画像データとの間の損失である。

【0055】

（学習装置による学習処理）
次に、図３から図６を参照しつつ、学習装置１による学習処理について説明する。学習処理の前提条件を以下に示す。学習用画像データ記憶部１１は、予めＮ個の学習用画像データセットを記憶しており、学習用画像データセットの各々には、「１」を初期値とし「Ｎ」までの連続する整数の番号のインデックス番号が予め付与されている。ここで、Ｎは、２以上の整数であるとする。学習装置１は、学習用画像データ取込部１２と、学習処理部１７とが参照可能な画像カウンタｕと、処理ステップカウンタｖとを記憶する領域を内部の記憶領域に予め設けている。学習処理部１７は、内部の記憶領域に、ミニバッチ閾値「Ｖ」と、画像カウンタｕの上限値である「Ｎ」とを予め記憶する。ここで、ミニバッチ閾値「Ｖ」は、画像カウンタｕの上限値「Ｎ」よりも小さい値になるように、すなわち、Ｖ＜Ｎになるように、予め定められる。

【0056】

学習モデルデータ記憶部１３は、乱数によって初期化された学習モデルデータを予め記憶する。画像領域分割部１６の入力データ取込部１６－１において、例えば、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとに対して画素ごとのｍａｘｖａｌｕｅを算出する演算を行って入力データを生成することが予め定められているとする。

【0057】

以下、図３に示す処理が開始される。学習モデルデータ記憶部１３が記憶する学習モデルデータが、特徴抽出部１４、画像再現部１５、及び画像領域分割部１６に適用される（ステップＳ１）。より詳細には、ステップＳ１の処理において、以下のような処理が行われる。チャンネルＧエンコーダ２４－Ｇは、学習モデルデータ記憶部１３が記憶する学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルＧエンコーダ２４－Ｇが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル１４－Ｇが構築される。チャンネルＢエンコーダ２４－Ｂは、学習モデルデータ記憶部１３が記憶する学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルＢエンコーダ２４－Ｇが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル１４－Ｂが構築される。

【0058】

チャンネルＧ画像再現用デコーダ２５－Ｇは、学習モデルデータ記憶部１３が記憶する学習モデルデータの中の画像再現モデルデータであって自らに対応する画像再現モデルデータを選択する。チャンネルＧ画像再現用デコーダ２５－Ｇが選択した画像再現モデルデータを自らに適用することにより画像再現モデル１５－Ｇが構築される。チャンネルＢ画像再現用デコーダ２５－Ｂは、学習モデルデータ記憶部１３が記憶する学習モデルデータの中の画像再現モデルデータであって自らに対応する画像再現モデルデータを選択する。チャンネルＢ画像再現用デコーダ２５－Ｂが選択した画像再現モデルデータを自らに適用することにより画像再現モデル１５－Ｂが構築される。

【0059】

画像領域分割用デコーダ２６は、学習モデルデータ記憶部１３が記憶する学習モデルデータの中の領域分割モデルデータを選択する。画像領域分割用デコーダ２６が選択した領域分割モデルデータを自らに適用することにより領域分割モデル１６－２が構築される。

【0060】

学習用画像データ取込部１２は、画像カウンタｕを「１」に初期化し、処理ステップカウンタｖを「１」に初期化する（ステップＳ２）。

【0061】

学習用画像データ取込部１２は、画像カウンタｕが示す値「ｉ」に対応するインデックス番号の学習用画像データセットを学習用画像データ記憶部１１から読み出す。なお、最初は、ｕの値が「１」に初期化されているため、学習用画像データ取込部１２は、インデックス番号「１」に対応する学習用画像データセットを学習用画像データ記憶部１１から読み出すことになる。学習用画像データ取込部１２は、読み出した学習用画像データセットに含まれるチャンネルＧ画像データｘ_Ｇを特徴抽出モデル１４－Ｇに出力し、チャンネルＢ画像データｘ_Ｂを特徴抽出モデル１４－Ｂに出力する。学習用画像データ取込部１２は、読み出した学習用画像データセットに含まれるチャンネルＧ画像データｘ_Ｇと、チャンネルＢ画像データｘ_Ｂと、真値領域分割画像データとを学習処理部１７に出力する（ステップＳ３）。

【0062】

特徴抽出モデル１４－Ｇは、学習用画像データ取込部１２が出力するチャンネルＧ画像データｘ_Ｇを取り込む。特徴抽出モデル１４－Ｇは、式（３）の演算を行い、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇとを抽出する。特徴抽出モデル１４－Ｇは、抽出したチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇとを画像再現モデル１５－Ｇと、学習処理部１７とに出力する。特徴抽出モデル１４－Ｇは、抽出したチャンネルＧ共通特徴データｃ_ｘ＿Ｇを画像領域分割部１６の入力データ取込部１６－１に出力する（ステップＳ４）。

【0063】

特徴抽出モデル１４－Ｂは、学習用画像データ取込部１２が出力するチャンネルＢ画像データｘ_Ｂを取り込む。特徴抽出モデル１４－Ｂは、式（６）の演算を行い、チャンネルＢ共通特徴データｃ_ｘ＿Ｂと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂとを抽出する。特徴抽出モデル１４－Ｂは、抽出したチャンネルＢ共通特徴データｃ_ｘ＿Ｂと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂとを画像再現モデル１５－Ｂと、学習処理部１７とに出力する。特徴抽出モデル１４－Ｂは、抽出したチャンネルＢ共通特徴データｃ_ｘ＿Ｂを画像領域分割部１６の入力データ取込部１６－１に出力する（ステップＳ５）。

【0064】

なお、ステップＳ４の処理、及びステップＳ５の処理は、並列に行われてもよいし、ステップＳ４の処理の後にステップＳ５の処理が行われてもよいし、処理の順番を入れ替えて行われてもよい。

【0065】

画像再現モデル１５－Ｇは、特徴抽出モデル１４－Ｇが出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇとを取り込む。画像再現モデル１５－Ｇは、式（９）の演算を行い、チャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）を生成する。画像再現モデル１５－Ｇは、生成したチャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）を学習処理部１７に出力する（ステップＳ６）。

【0066】

画像再現モデル１５－Ｂは、特徴抽出モデル１４－Ｂが出力するチャンネルＢ共通特徴データｃ_ｘ＿Ｂと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂとを取り込む。画像再現モデル１５－Ｂは、式（１０）の演算を行い、チャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）を生成する。画像再現モデル１５－Ｂは、生成したチャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）を学習処理部１７に出力する（ステップＳ７）。

【0067】

画像領域分割部１６の入力データ取込部１６－１は、特徴抽出モデル１４－Ｇが出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、特徴抽出モデル１４－Ｂが出力するチャンネルＢ共通特徴データｃ_ｘ＿Ｂとを取り込む。入力データ取込部１６－１は、取り込んだチャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとに対して画素ごとのｍａｘｖａｌｕｅを算出する演算を行うことにより入力データｐ_Ｇ＋Ｂを生成する。入力データ取込部１６－１は、生成した入力データｐ_Ｇ＋Ｂを領域分割モデル１６－２に出力する（ステップＳ８）。

【0068】

領域分割モデル１６－２は、入力データ取込部１６－１が出力する入力データｐ_Ｇ＋Ｂを取り込み、式（１１）の演算を行って、領域分割画像データｚ_Ｇ＋Ｂを生成する。領域分割モデル１６－２は、生成した領域分割画像データｚ_Ｇ＋Ｂを学習処理部１７に出力する（ステップＳ９）。

【0069】

なお、ステップＳ６の処理、ステップＳ７の処理、及びステップＳ８，Ｓ９の処理は、並列に行われてもよいし、ステップＳ６の処理、ステップＳ７の処理、ステップＳ８，Ｓ９の処理の順に行われてもよいし、順番を入れ替えて行われてもよい。

【0070】

処理の継続を意味する「Ｂ」の記号で示されるように、次に、図４に示すフローチャートの処理が行われる。

【0071】

学習処理部１７は、学習用画像データ取込部１２が出力する学習用画像データセット、特徴抽出部１４が出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇ、チャンネルＧ独自特徴データｓ_ｘ＿Ｇ、チャンネルＢ共通特徴データｃ_ｘ＿Ｂ、及びチャンネルＢ独自特徴データｓ_ｘ＿Ｂ、画像再現部１５が出力するチャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）、及びチャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）、並びに画像領域分割部１６が出力する領域分割画像データｚ_Ｇ＋Ｂ＝Ｇ_Ｓ（ｐ_Ｇ＋Ｂ）を取り込み、取り込んだデータを、その時点での画像カウンタｕの値を関連付けて内部の記憶領域に書き込んで記憶させる。学習処理部１７は、処理ステップカウンタｖの値が、ミニバッチ閾値「Ｖ」未満であるか否かを判定する（ステップＳ１０）。

【0072】

学習処理部１７は、処理ステップカウンタｖの値が、ミニバッチ閾値「Ｖ」未満であると判定した場合（ステップＳ１０、Ｙｅｓ）、画像カウンタｕに「１」を加算した値を新たな画像カウンタｕとし、処理ステップカウンタｖに「１」を加算した値を新たな処理ステップカウンタｖとする。学習処理部１７は、学習処理継続指示信号を学習用画像データ取込部１２に出力する（ステップＳ１１）。学習用画像データ取込部１２は、学習処理部１７から学習処理継続指示信号を受けると、処理の継続を意味する「Ａ」の記号で示されるように、図３のステップＳ３の処理以降の処理を再び行う。これにより、例えば、「Ｎ」が「１０００」であり、「Ｖ」が「２００」に定められている場合、ミニバッチサイズが「２００」のミニバッチ学習処理、すなわち、上記のステップＳ３からステップＳ１１の処理が５回繰り返されることになる。

【0073】

一方、学習処理部１７は、処理ステップカウンタｖの値が、ミニバッチ閾値「Ｖ」未満でないと判定した場合（ステップＳ１０、Ｎｏ）、直近のＶ個の画像カウンタｕを特定する。例えば、「Ｖ」が「２００」である場合、学習処理部１７は、初回は、ｕ＝１～２００を特定し、２回目は、ｕ＝２０１～４００を特定することになる。学習処理部１７は、内部の記憶領域を参照し、特定した直近のＶ個の画像カウンタｕの各々に関連付けられている学習用画像データセットに含まれるチャンネルＧ画像データｘ_Ｇと、チャンネルＢ画像データｘ_Ｂと、真値領域分割画像データとの組み合わせと、チャンネルＧ共通特徴データｃ_ｘ＿Ｇ、チャンネルＧ独自特徴データｓ_ｘ＿Ｇ、チャンネルＢ共通特徴データｃ_ｘ＿Ｂ、及びチャンネルＢ独自特徴データｓ_ｘ＿Ｂと、チャンネルＧ再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）、及びチャンネルＢ再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）と、画像領域分割部１６が出力する領域分割画像データｚ_Ｇ＋Ｂとに基づいて、以下の４つの損失を算出する（ステップＳ１２）。

【0074】

（チャンネル復元損失（Channel Reconstruction Loss）について）
学習処理部１７は、同一の画像カウンタｕに関連付けられているチャンネルＧ画像データｘ_Ｇと再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）との間の損失と、チャンネルＢ画像データｘ_Ｂと画像再現モデル１５－Ｂが生成する再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）との間の損失とを合計した損失を、次式（１２）に示す損失関数により算出する。

【0075】

【数12】

【0076】

式（１２）によって算出される損失Ｌ_ｒ（ｘ）は、元の画像データと、再現した画像データとの間のＬ１損失である。したがって、図５に示す例の場合、式（１２）の損失関数は、チャンネルＧ画像データ３１－Ｇと、チャンネルＧ再現画像データ４１－Ｇとの間の画像の再現の正確性の度合いを示すチャンネルＧ復元損失と、チャンネルＢ画像データ３１－Ｂと、チャンネルＧ再現画像データ４１－Ｂとの間の画像の再現の正確性の度合いを示すチャンネルＢ復元損失とを合計した損失を算出する損失関数ということになる。学習処理部１７が、特定したＶ個の画像カウンタｕの各々に対して算出した損失Ｌ_ｒ（ｘ）を最小化するように学習処理を行うことにより、チャンネルＧ画像データｘ_Ｇと、再現画像データＧ_Ｇ（ｃ_ｘ＿Ｇ，ｓ_ｘ＿Ｇ）とが一致し、チャンネルＢ画像データｘ_Ｂと、再現画像データＧ_Ｂ（ｃ_ｘ＿Ｂ，ｓ_ｘ＿Ｂ）とが一致するように特徴抽出モデルデータと、画像再現モデルデータとが更新されていくことになる。

【0077】

（画像の内容の一貫性を示す損失について）
学習処理部１７は、同一の画像カウンタｕに関連付けられているチャンネルＧ共通特徴データｃ_ｘ＿ＧとチャンネルＢ共通特徴データｃ_ｘ＿Ｂとの間の損失を次式（１３）に示す損失関数により算出する。

【0078】

【数13】

【0079】

式（１３）によって算出される損失Ｌ_ｃ（ｘ）は、チャンネルＧ画像データｘ_Ｇから得られた共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ画像データｘ_Ｇと対応関係にあるチャンネルＢ画像データｘ_Ｂから得られた共通特徴データｃ_ｘ＿Ｂとの間のＬ１損失である。したがって、図５に示す例の場合、式（１３）は、チャンネルＧ画像データ３１－Ｇと、チャンネルＢ画像データ３１－Ｂとにおける画像の内容の一貫性の度合いを示す損失を算出する損失関数ということになる。学習処理部１７が、特定したＶ個の画像カウンタｕの各々に対して算出した損失Ｌ_ｃ（ｘ）を最小化するように学習処理を行うことにより、チャンネルＧ画像データｘ_Ｇの共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ画像データｘ_Ｂの共通特徴データｃ_ｘ＿Ｂとが一致するように特徴抽出モデルデータが更新されていくことになる。

【0080】

（独自特徴の一貫性を示す損失）
学習処理部１７は、特定したＶ個の画像カウンタに関連付けられている全ての独自特徴データの中からチャンネルごとの独自特徴データを選択する。例えば、ミニバッチ閾値「Ｖ」が、「２００」である場合、学習処理部１７は、チャンネルＧの独自特徴データｓ_ｘ＿Ｇを２００個選択し、チャンネルＢの独自特徴データｓ_ｘ＿Ｂを２００個選択する。

【0081】

学習処理部１７は、選択したチャンネルＧの２００個の独自特徴データｓ_ｘ＿Ｇから２個の組み合わせのパターンを全て抽出して、_２００Ｃ_２＝１９９００通りのパターンを求める。学習処理部１７は、チャンネルＢについても、同様に、選択した２００個の独自特徴データｓ_ｘ＿Ｂから１９９００通りのパターンを求める。学習処理部１７は、求めた１９９００×２＝３９８００通りのパターンの各々に含まれる独自特徴データの一方をｓ_ｘ＿ｉとし、他方を、ｓ_ｙ＿ｉとする。ここで、ｉは、ｉ∈｛Ｇ，Ｂ｝である。学習処理部１７は、次式（１４）により、チャンネルＧにおける複数の独自特徴データｓ_ｘ＿Ｇの間の損失と、チャンネルＢにおける複数の独自特徴データｓ_ｘ＿Ｂの間の損失とを合計した損失を算出する。

【0082】

【数14】

【0083】

式（１４）によって算出される損失Ｌ_ｓ（ｘ，ｙ）は、同一のドメインの複数の画像データの各々から得られる独自特徴データの間のＬ１損失である。したがって、図６に示す例の場合、式（１４）は、チャンネルＧ画像データ３１－Ｇと、チャンネルＧ画像データ３２－Ｇの間の独自特徴の一貫性の度合いを示す損失と、チャンネルＢ画像データ３１－Ｂと、チャンネルＧ画像データ３２－Ｂの間の独自特徴の一貫性の度合いを示す損失とを合計した損失を算出する損失関数ということになる。学習処理部１７が、損失Ｌ_ｓ（ｘ，ｙ）を最小化するように学習処理を行うことにより、チャンネルＧにおいて得られる全ての独自特徴データｓ_ｘ＿Ｇが一致し、チャンネルＢにおいて得られる全ての独自特徴データｓ_ｘ＿Ｂが一致するように特徴抽出モデルデータが更新されていくことになる。

【0084】

（画像領域分割の精度を示す損失）
学習処理部１７は、同一の画像カウンタｕに関連付けられている領域分割画像データｚ_Ｇ＋Ｂと、真値領域分割画像データとの間の損失を次式（１５）により算出する。

【0085】

【数15】

【0086】

式（１５）において、ｈは、上記したように「Ｇ」、「Ｂ」、「Ｐ＋Ｇ」のいずれかであり、ここでは、入力データ取込部１６－１において、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＢ共通特徴データｃ_ｘ＿Ｂとに対してｍａｘｖａｌｕｅを算出する演算を行って入力データを生成することが予め定められているため、ｈ＝Ｐ＋Ｇである。Ｍ，Ｎは、領域分割画像データｚ_Ｇ＋Ｂの縦と横の画素数である。なお、領域分割画像データｚ_Ｇ＋Ｂと真値領域分割画像データのサイズは同一であるため、Ｍ，Ｎは、真値領域分割画像データの縦と横の画素数を示すことになる。Ｋは、真値領域分割画像データにおけるセマンティックカテゴリ数、すなわち、真値領域分割画像データを作成する際に定めた、真値領域分割画像データに含まれるカテゴリの数である。例えば、カテゴリの各々を示すクラス番号として、「１」を初期値として連続する整数値を定めた場合、クラス番号の最大値が、Ｋになる。式（１５）において、ｗ_ｋは、クラス番号「ｋ」の損失重みであり、真値領域分割画像データに基づいて、例えば、参考文献１の式（２）により予め算出される。

【0087】

式（１５）において、ｌｏｇ関数は、自然対数を算出する関数であり、ｌｏｇ関数の引数は、領域分割画像データｚ_Ｇ＋Ｂのソフトマックス値である。したがって、損失Ｌ_ｓｓ（ｘ）は、領域分割画像データｚ_Ｇ＋Ｂ、及び真値領域分割画像データの交差エントロピーを示すことになる。そのため、式（１５）は、領域分割画像データｚ_Ｇ＋Ｂと、真値領域分割画像データとの一致度合いを示す損失、すなわち画像領域分割の精度を示す損失を算出する損失関数ということになる。学習処理部１７が、特定したＶ個の画像カウンタｕの各々に対して算出した損失Ｌ_ｓｓ（ｘ）を最小化するように学習処理を行うことにより、領域分割画像データｚ_Ｇ＋Ｂと、真値領域分割画像データとが一致するように特徴抽出モデルデータと、領域分割モデルデータとが更新されていくことになる。

【0088】

学習処理部１７は、上記したように４つの損失を算出し、例えば、誤差逆伝播法などによって４つの損失を減少させる新たな学習モデルデータ、すなわち新たな特徴抽出モデルデータと、新たな画像再現モデルデータと、新たな領域分割モデルデータとを算出する。学習処理部１７は、新たな学習モデルデータを算出すると、学習モデルデータ記憶部１３が記憶する学習モデルデータを、算出した新たな学習モデルデータに書き換えて記憶させる（ステップＳ１３）。

【0089】

学習処理部１７によって、新たな学習モデルデータが、学習モデルデータ記憶部１３に書き込まれると、再びステップＳ１と同一の処理が、特徴抽出部１４のチャンネルＧエンコーダ２４－Ｇ、及びチャンネルＢエンコーダ２４－Ｂ、画像再現部１５のチャンネルＧ画像再現用デコーダ２５－Ｇ、及びチャンネルＢ画像再現用デコーダ２５－Ｂ、並びに画像領域分割部１６の画像領域分割用デコーダ２６によって行われる（ステップＳ１４）。

【0090】

学習処理部１７は、画像カウンタｕの値が、上限値「Ｎ」未満であるか否かを判定する（ステップＳ１５）。学習処理部１７は、画像カウンタｕの値が、上限値「Ｎ」未満であると判定した場合（ステップＳ１５、Ｙｅｓ）、画像カウンタｕに「１」を加算した値を新たな画像カウンタｕとし、処理ステップカウンタｖを「１」に初期化する。学習処理部１７は、学習処理継続指示信号を学習用画像データ取込部１２に出力する（ステップＳ１６）。学習用画像データ取込部１２は、学習処理部１７から学習処理継続指示信号を受けると、処理の継続を意味する「Ａ」の記号で示されるように、図３のステップＳ３の処理以降の処理を再び行う。

【0091】

一方、学習処理部１７は、画像カウンタｕの値が、上限値「Ｎ」未満でないと判定した場合（ステップＳ１５、Ｎｏ）、処理を終了する。

【0092】

これにより、学習装置１による学習処理が終了すると、学習モデルデータ記憶部１３には、学習済みの学習モデルデータが記憶されることになる。なお、１エポック分の学習処理が終了しても、学習モデルデータが十分に収束していない場合、ステップＳ１５の処理において、学習処理部１７が、「Ｎｏ」の判定をした場合に、処理を終了させず、再び、ステップＳ１からの処理が行われるように処理を継続させることになる。

【0093】

上記の実施形態の学習装置１において、特徴抽出部１４は、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデル１４－Ｇ，１４－Ｂを有する。画像再現部１５は、特徴抽出モデル１４－Ｇ，１４－Ｂの各々が出力する共通特徴データ及び独自特徴データから再現画像データを生成するドメインごとの画像再現モデル１５－Ｇ，１５－Ｂを有する。画像領域分割部１６は、特徴抽出モデル１４－Ｇ，１４－Ｂの各々が出力する共通特徴データから領域分割した領域分割画像データを生成する領域分割モデル１６－２を有する。学習処理部１７は、対応関係にある異なるドメインの画像データの各々を、各々のドメインに対応する特徴抽出モデル１４－Ｇ，１４－Ｂに入力として与えた場合に、画像再現モデル１５－Ｇ，１５－Ｂが生成する再現画像データの各々が、各々に対応する画像データと同一になり、かつ領域分割モデル１６－２が生成する領域分割画像データが、入力される画像データに対応する真値領域分割画像データと同一になるように、特徴抽出モデル１４－Ｇ，１４－Ｂと、画像再現モデル１５－Ｇ，１５－Ｂと、領域分割モデル１６－２とを構築する学習モデルデータを生成する。

【0094】

学習装置１が備える特徴抽出モデル１４－Ｇと、画像再現モデル１５－Ｇとは、チャンネルＧ画像データｘ_Ｇに関する自己符号化器ということができる。特徴抽出モデル１４－Ｂと、画像再現モデル１５－Ｂとは、チャンネルＢ画像データｘ_Ｂに関する自己符号化器ということができる。そのため、学習処理部１７が式（１２）により求める損失Ｌ_ｒ（ｘ）を最小化するように学習処理を行うことにより、特徴抽出モデル１４－Ｇが出力する特徴マップには、チャンネルＧ画像データｘ_Ｇに含まれる特徴が現れることになり、特徴抽出モデル１４－Ｂが出力する特徴マップには、チャンネルＢ画像データｘ_Ｂの特徴が現れることになる。

【0095】

上記の実施形態では、特徴抽出モデル１４－Ｇ，１４－Ｂが出力する特徴マップの一部を、共通特徴データを示す特徴マップに割り当て、残りを、独自特徴データを示す特徴マップとして予め割り当てている。そのため、学習処理部１７が式（１３）により求める損失Ｌ_ｃ（ｘ）を最小化する学習処理を行うことにより、特徴抽出モデル１４－Ｇ，１４－Ｂが出力する共通特徴を示す特徴マップの各々において、チャンネルＧとチャンネルＢとの間の共通した特徴が強調して現れることになる。学習処理部１７が式（１４）により求める損失Ｌ_ｓ（ｘ，ｙ）を最小化する学習処理を行うことにより、特徴抽出モデル１４－Ｇが出力する独自特徴を示す特徴マップに、チャンネルＧの独自の特徴が強調して現れ、特徴抽出モデル１４－Ｂが出力する独自特徴を示す特徴マップに、チャンネルＢの独自の特徴が強調して現れることになる。このように、特徴抽出モデル１４－Ｇ，１４－Ｂの各々において、独自の特徴の抽出精度を高めることにより、特徴抽出モデル１４－Ｇ，１４－Ｂにおける共通の特徴の抽出精度も更に高められることになる。

【0096】

すなわち、学習装置１は、上記した学習処理を行うことにより、異なるドメインの画像データの各々から、異なるドメイン間において共通する特徴を示す共通特徴データを高い精度で抽出する特徴抽出モデル１４－Ｇ，１４－Ｂを構築することを可能とする特徴抽出モデルデータを生成することができる。さらに、学習装置１は、式（１５）により求める損失Ｌ_ｓｓ（ｘ）を最小化することにより、特徴抽出モデル１４－Ｇ，１４－Ｂが抽出した共通特徴データから領域分割画像データを生成する領域分割モデル１６－２を構築することを可能とする領域分割モデルデータを生成することが可能になる。

【0097】

（画像領域分割装置の構成）
図７は、本発明の一実施形態による画像領域分割装置２の構成を示すブロック図である。なお、画像領域分割装置２において、学習装置１と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。画像領域分割装置２は、入力部６１、特徴抽出部１４、学習済み学習モデルデータ記憶部６２、及び画像領域分割部１６ａを備える。

【0098】

入力部６１は、外部から与えられる領域分割対象画像データｘ_ｉを取り込む。領域分割対象画像データｘ_ｉのドメインは、チャンネルＧか、チャンネルＢのいずれかである。入力部６１は、取り込んだ領域分割対象画像データｘ_ｉのドメインが、チャンネルＧであるか、チャンネルＢであるかを判定する。入力部６１は、判定結果にしたがって、取り込んだ領域分割対象画像データｘ_ｉを特徴抽出モデル１４－Ｇか、特徴抽出モデル１４－Ｂのいずれか一方に出力する。

【0099】

学習済み学習モデルデータ記憶部６２は、学習装置１が学習処理を終了した際に、学習モデルデータ記憶部１３が記憶する学習済みの学習モデルデータに含まれている特徴抽出モデルデータと、領域分割モデルデータとを予め記憶する。画像領域分割部１６ａは、画像領域分割用デコーダ２６を備える。画像領域分割部１６ａは、学習装置１の画像領域分割部１６とは異なり、入力データ取込部１６－１を備えていない。そのため、画像領域分割用デコーダ２６の入力は、チャンネルＧエンコーダ２４－ＧのチャンネルＧ共通特徴データｃ_ｘ＿Ｇの特徴マップと、チャンネルＢエンコーダ２４－ＢのチャンネルＢ共通特徴データｃ_ｘ＿Ｂの特徴マップとに直接接続することになる。

【0100】

（画像領域分割装置による画像領域分割処理）
図８は、画像領域分割装置２による画像領域分割処理の流れを示すフローチャートである。図８に示す処理が開始される前、例えば、画像領域分割装置２が起動したタイミングで、以下の処理が行われる。すなわち、チャンネルＧエンコーダ２４－Ｇは、学習済み学習モデルデータ記憶部６２が記憶する学習済み学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルＧエンコーダ２４－Ｇが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル１４－Ｇが構築される。チャンネルＢエンコーダ２４－Ｂは、学習済み学習モデルデータ記憶部６２が記憶する学習済み学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルＢエンコーダ２４－Ｂが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル１４－Ｂが構築される。

【0101】

画像領域分割用デコーダ２６は、学習済み学習モデルデータ記憶部６２が記憶する学習済み学習モデルデータの中の領域分割モデルデータを選択する。画像領域分割用デコーダ２６が選択した領域分割モデルデータを自らに適用することにより領域分割モデル１６－２が構築される。

【0102】

以下、図８に示す処理が開始される。入力部６１は、外部から与えられる領域分割対象画像データｘ_ｉを取り込む（ステップＳａ１）。入力部６１は、取り込んだ領域分割対象画像データｘ_ｉのドメインが、チャンネルＧであるか、チャンネルＢであるかを判定する（ステップＳａ２）。入力部６１は、取り込んだ領域分割対象画像データｘ_ｉのドメインが、チャンネルＧであると判定した場合（ステップＳａ２、チャンネルＧ）、取り込んだ領域分割対象画像データｘ_Ｇを特徴抽出モデル１４－Ｇに出力する。一方、入力部６１は、取り込んだ領域分割対象画像データｘ_ｉのドメインが、チャンネルＢであると判定した場合（ステップＳａ２、チャンネルＢ）、取り込んだ領域分割対象画像データｘ_Ｂを特徴抽出モデル１４－Ｂに出力する。

【0103】

特徴抽出モデル１４－Ｇは、入力部６１からチャンネルＧ領域分割対象画像データｘ_Ｇが与えられると、チャンネルＧ共通特徴データｃ_ｘ＿Ｇと、チャンネルＧ独自特徴データｓ_ｘ＿Ｇとを抽出する。ただし、チャンネルＧ独自特徴データｓ_ｘ＿Ｇの出力先は存在しないため、特徴抽出モデル１４－Ｇは、抽出したチャンネルＧ独自特徴データｓ_ｘ＿Ｇを出力せずに破棄する。特徴抽出モデル１４－Ｇは、抽出したチャンネルＧ共通特徴データｃ_ｘ＿Ｇを、画像領域分割部１６ａの領域分割モデル１６－２に出力する（ステップＳａ３－１）。

【0104】

特徴抽出モデル１４－Ｂは、入力部６１からチャンネルＢ領域分割対象画像データｘ_Ｂが与えられると、チャンネルＢ共通特徴データｃ_ｘ＿Ｂと、チャンネルＢ独自特徴データｓ_ｘ＿Ｂとを抽出する。ただし、チャンネルＢ独自特徴データｓ_ｘ＿Ｂの出力先は存在しないため、特徴抽出モデル１４－Ｂは、抽出したチャンネルＢ独自特徴データｓ_ｘ＿Ｂを出力せずに破棄する。特徴抽出モデル１４－Ｂは、抽出したチャンネルＢ共通特徴データｃ_ｘ＿Ｂを、画像領域分割部１６ａの領域分割モデル１６－２に出力する（ステップＳａ３－２）。

【0105】

領域分割モデル１６－２は、特徴抽出モデル１４－ＧからチャンネルＧ共通特徴データｃ_ｘ＿Ｇが与えられると、チャンネルＧ共通特徴データｃ_ｘ＿Ｇに基づいて領域分割画像データＧ_Ｓ（ｃ_ｘ＿Ｇ）を生成して出力する。これに対して、領域分割モデル１６－２は、特徴抽出モデル１４－ＢからチャンネルＢ共通特徴データｃ_ｘ＿Ｂが与えられると、チャンネルＢ共通特徴データｃ_ｘ＿Ｂに基づいて領域分割画像データＧ_Ｓ（ｃ_ｘ＿Ｂ）を生成して出力する（ステップＳａ４）。これにより、チャンネルＧか、または、チャンネルＢの任意の画像データに対する領域分割画像データＧ_Ｓ（ｃ_ｘ＿ｉ）が得られることになる。

【0106】

（画像領域分割装置の他の構成例）
上記した画像領域分割装置２が備える特徴抽出部１４が備える特徴抽出モデル１４－Ｇ，１４－Ｂの各々が出力する共通特徴データｃ_ｘ＿Ｇと、共通特徴データｃ_ｘ＿Ｂとは、同一になるように学習装置１によって学習処理が行われている。チャンネルＧ画像データｘ_Ｇと、チャンネルＢ画像データｘ_Ｂとは、縦と横の画素数は同一であり、色方向のチャンネル数も同一である。そのため、例えば、特徴抽出モデル１４－Ｇに対して、対応するドメインでないチャンネルＢ画像データｘ_Ｂを入力として与えたとしても、チャンネルＢ画像データｘ_Ｂの共通特徴データｃ_ｘ＿Ｂを抽出することが可能である。同様に、特徴抽出モデル１４－Ｂに対して、対応するドメインでないチャンネルＧ画像データｘ_Ｇを入力として与えたとしても、チャンネルＧ画像データｘ_Ｇの共通特徴データｃ_ｘ＿Ｇを抽出することが可能である。すなわち、画像領域分割装置２において、特徴抽出部１４が、２つの特徴抽出モデル１４－Ｇ，１４－Ｂのいずれか一方を備えたとしても同様の領域分割の結果が得られることになる。

【0107】

例えば、図９に示す画像領域分割装置２ａのように、特徴抽出部１４ａが、特徴抽出モデル１４－Ｇのみを備える構成であるときには、入力部６１ａは、図８のステップＳａ１の処理において取り込んだ領域分割対象画像データｘ_ｉに対して、図８のステップＳａ２の判定処理を行うことなく、取り込んだ領域分割対象画像データｘ_ｉを特徴抽出モデル１４－Ｇに出力することになる。その後、図８のステップＳａ３－１，Ｓａ４の処理が行われて領域分割画像データＧ_Ｓ（ｃ_ｘ＿ｉ）が得られることになる。なお、図９に示す画像領域分割装置２ａの場合、学習済み学習モデルデータ記憶部６２ａは、チャンネルＧエンコーダ２４－Ｇに適用する学習済みの特徴抽出モデルデータと、領域分割モデルデータとを記憶していればよいことになる。

【0108】

上記した実施形態では、学習装置１が行う学習処理の処理対象となる異なるドメインの数として、チャンネルＧとチャンネルＢとの２つのドメインの画像データを用いる例を示している。これに対して、学習装置１が行う学習処理の処理対象となる異なるドメインの数として、３つ以上のドメインの画像データを用いるようにすることも可能である。学習処理の処理対象のドメインの数が増やす方が、より領域分割の精度を高くすることができることになる。ただし、上記した学習装置１のように、２つのドメインの画像データを処理対象として学習処理を行うことで、十分な精度の領域分割を行うことができている場合には、必ずしも処理対象のドメインの数を増やす必要はない。

【0109】

例えば、学習装置１の学習用画像データ記憶部１１が記憶する学習用画像データセットとして用いることができるＲＧＢの３チャンネルのカラーの画像データが存在しているとする。この場合に、レッドのチャンネルの画像データを用いずに、グリーンの画像データをチャンネルＧの画像データとし、ブルーの画像データをチャンネルＢの画像データとして、学習装置１による学習処理を行い、学習済みの学習モデルデータを生成する。生成した学習モデルデータを用いて、上記した図９の画像領域分割装置２ａを構成することにより、グリーンのドメインの任意の画像データやブルーのドメインの任意の画像データに対する領域分割のみならず、レッドのドメインの任意の画像データに対する領域分割を、グリーンやブルーのドメインの場合と同等の精度で行うことができる。この場合、３チャンネルの画像データのうち、２チャンネルの画像データを学習用画像データセットとして適用すればよいことになるため、学習用画像データセットの容量を軽減することが可能になる。

【0110】

上記の実施形態の画像領域分割装置２において、入力部６１は、任意のドメインの任意の画像データを取り込んで出力する。特徴抽出部１４は、学習装置１が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルにより構築される特徴抽出モデル１４－Ｇ，１４－Ｂを用いて、入力部６１が出力する画像データの共通特徴データを抽出する。画像領域分割部１６ａは、学習装置１が生成した学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデル１６－２を用いて、特徴抽出モデル１４－Ｇ，１４－Ｂが出力する共通特徴データから画像データを領域分割した領域分割画像データを生成する。学習装置１が生成した学習済みの学習モデルデータにより構築される特徴抽出モデル１４－Ｇ，１４－Ｂは、異なるドメインごとの画像データにおいて共通する特徴である共通特徴データを、それぞれのドメインの画像データから高い精度で抽出することが可能になっている。そのため、領域分割モデル１６－２は、特徴抽出モデル１４－Ｇ，１４－Ｂが抽出した共通特徴データに基づいて画像の領域分割を行う。そのため、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことが可能になる。

【0111】

なお、上記の実施形態の学習装置１の学習処理部１７は、式（１２）～式（１３）に示すＬ１損失を算出する損失関数により、損失Ｌ_ｒ（ｘ），Ｌ_ｃ（ｘ），Ｌ_ｓ（ｘ，ｙ）を算出している。これに対して、Ｌ１損失以外の損失関数により、損失Ｌ_ｒ（ｘ），Ｌ_ｃ（ｘ），Ｌ_ｓ（ｘ，ｙ）を算出するようにしてもよい。

【0112】

上記の実施形態の学習装置１において、画像領域分割部１６の入力データ取込部１６－１において、チャンネルＧ共通特徴データｃ_ｘ＿Ｇ（＝ｐ_Ｇ）を入力データとすることが予め定められている場合、入力データ取込部１６－１は、図３のステップＳ８の処理において、特徴抽出モデル１４－Ｇが出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇを取り込み、取り込んだチャンネルＧ共通特徴データｃ_ｘ＿Ｇを領域分割モデル１６－２に出力することになる。この場合、入力データ取込部１６－１は、ステップＳ８の処理において、特徴抽出モデル１４－Ｂが出力するチャンネルＢ共通特徴データｃ_ｘ＿Ｂについては、取り込んだ後に破棄することになる。これに対して、入力データ取込部１６－１において、チャンネルＢ共通特徴データｃ_ｘ＿Ｂ（＝ｐ_Ｂ）を入力データとすることが予め定められている場合、入力データ取込部１６－１は、図３のステップＳ８の処理において、特徴抽出モデル１４－Ｂが出力するチャンネルＢ共通特徴データｃ_ｘ＿Ｂを取り込み、取り込んだチャンネルＢ共通特徴データｃ_ｘ＿Ｂを領域分割モデル１６－２に出力することになる。この場合、入力データ取込部１６－１は、ステップＳ８の処理において、特徴抽出モデル１４－Ｇが出力するチャンネルＧ共通特徴データｃ_ｘ＿Ｇについては、取り込んだ後に破棄することになる。

【0113】

上記の実施形態の学習装置１は、ミニバッチ学習による学習処理を行っているが、バッチ学習による学習処理を行うようにしてもよい。すなわち、処理ステップカウンタｖを用いず、画像カウンタｕのみを用いて、図４のステップＳ１０の処理をステップＳ１５の処理に置き換え、ステップＳ１３の処理の後に処理を終了させるか、または、１エポック分が終了しても、学習モデルデータが十分に収束していない場合には、ステップＳ１３の処理の後、再び、ステップＳ１からの処理が行われるようにしてもよい。

【0114】

上記の実施形態の学習装置１において、学習処理部１７は、学習処理の過程において得られる全てのチャンネルＧとチャンネルＢの各々の共通特徴データｃ_ｘ＿Ｇ，ｃ_ｘ＿Ｂと、独自特徴データｓ_ｘ＿Ｇ，ｓ_ｘ＿Ｂとを消去せずに、内部の記憶領域に記憶させておくようにしてもよい。このようにしておくことで、学習処理の過程において得られたチャンネルＧとチャンネルＢの各々の共通特徴データｃ_ｘ＿Ｇ，ｃ_ｘ＿Ｂと、独自特徴データｓ_ｘ＿Ｇ，ｓ_ｘ＿Ｂを参照することにより、中間処理を可視化することが可能になる。

【0115】

上記の実施形態の構成では、図４のステップＳ１０，Ｓ１５に示す処理において、不等号を用いた判定処理、すなわち未満であるか否かを判定する判定処理を行っている。しかしながら、本発明は、当該実施の形態に限られるものではなく、「未満であるか否か」という判定処理は一例に過ぎず、閾値の定め方に応じて、ぞれぞれ「以下であるか否か」、という判定処理に置き換えられてもよい。判定処理に用いたミニバッチ閾値や上限値についても、一例を示したものであり、それぞれにおいて異なる値が適用されてもよい。

【0116】

上記の実施形態の構成では、チャンネルＧエンコーダ２４－Ｇ、チャンネルＢエンコーダ２４－Ｂ、チャンネルＧ画像再現用デコーダ２５－Ｇ、チャンネルＢ画像再現用デコーダ２５－Ｂ、及び画像領域分割用デコーダ２６は、深層ニューラルネットワークなどの関数近似器により構成されているとしているが、他の機械学習の手法によって構成されていてもよい。

【0117】

上記の実施形態において示した学習装置１と、画像領域分割装置２とは、一体化されて構成されてもよい。一体化されて構成される際には、例えば、画像領域分割装置２の入力部６１は、学習用画像データ取込部１２に備えられる構成になる。学習装置１と画像領域分割装置２とが一体化された装置は、学習モードと推定モードとを有する。学習モードは、学習装置１による学習処理を行って学習モデルデータを生成するモードである。すなわち、学習モードでは、学習装置１と画像領域分割装置２とが一体化された装置は、図３，図４に示す処理を実行する。推定モードは、学習済みの学習モデルデータにより構築された特徴抽出モデル１４－Ｇ，１４－Ｂ、及び領域分割モデル１６－２を用いて、異なるドメインのいずれか１つのドメインの任意の画像データから領域分割画像データを生成するモードである。すなわち、推定モードでは、学習用画像データ取込部１２に備えられる入力部６１が動作し、学習装置１と画像領域分割装置２とが一体化された装置は、図８に示す処理を実行する。同様に、学習装置１と画像領域分割装置２ａとが一体化されて構成されていてもよい。

【0118】

上記した実施形態における学習装置１、及び画像領域分割装置２，２ａをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

【0119】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0120】

１…学習装置、１１…学習用画像データ記憶部、１２…学習用画像データ取込部、１３…学習モデルデータ記憶部、１４…特徴抽出部、１５…画像再現部、１６…画像領域分割部、１７…学習処理部

【図1】