(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023022487
(43)【公開日】2023-02-15
(54)【発明の名称】学習装置、画像領域分割装置、学習モデルデータ生成方法、画像領域分割方法、及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230208BHJP
G06T 7/11 20170101ALI20230208BHJP
G06N 3/04 20230101ALI20230208BHJP
G06N 3/08 20230101ALI20230208BHJP
G06N 20/00 20190101ALI20230208BHJP
【FI】
G06T7/00 350C
G06T7/11
G06N3/04
G06N3/08
G06N20/00
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021127384
(22)【出願日】2021-08-03
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】孫 泳青
(72)【発明者】
【氏名】黒住 隆行
(72)【発明者】
【氏名】木全 英明
(72)【発明者】
【氏名】王 正
(72)【発明者】
【氏名】佐藤 真一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096GA40
5L096HA11
5L096JA11
5L096JA22
5L096KA04
(57)【要約】
【課題】単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行う。
【解決手段】共通及び独自の特徴を抽出するドメインごとの特徴抽出モデルと、特徴抽出モデルの各々が出力する共通及び独自の特徴から再現画像データを生成するドメインごとの画像再現モデルと、特徴抽出モデルの各々が出力する共通の特徴から領域分割した領域分割画像データを生成する領域分割モデルとを備え、対応関係にある異なるドメインの画像データの各々を、各々のドメインに対応する特徴抽出モデルに入力として与えた場合、画像再現モデルが生成する再現画像データの各々が対応する画像データと同一になり、かつ領域分割モデルが生成する領域分割画像データが、画像データに対応する真値領域分割画像データと同一になるように、特徴抽出モデルと、画像再現モデルと、領域分割モデルとを構築する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデルを有する特徴抽出部と、
前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成するドメインごとの画像再現モデルを有する画像再現部と、
前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成する領域分割モデルを有する画像領域分割部と、
対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する学習処理部と、
を備える学習装置。
【請求項2】
前記学習処理部は、
前記画像データと前記画像データに対応する前記再現画像データとの間の損失と、対応関係にある異なるドメインの前記画像データの各々から得られる前記共通特徴データの間の損失と、同一のドメインの複数の前記画像データの各々から得られる前記独自特徴データの間の損失と、前記画像データに対応する前記領域分割画像データと当該画像データに対応する前記真値領域分割画像データとの間の損失とを最小化するように、前記学習モデルデータを生成する、
請求項1に記載の学習装置。
【請求項3】
前記異なるドメインの数は、2である、
請求項1または請求項2に記載の学習装置。
【請求項4】
任意のドメインの任意の画像データを取り込んで出力する入力部と、
請求項1に記載の学習装置が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出する特徴抽出部と、
前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する画像領域分割部と、
を備える画像領域分割装置。
【請求項5】
特徴抽出部の異なるドメインごとの特徴抽出モデルの各々が、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出し、
画像再現部の異なるドメインごとの画像再現モデルの各々が、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成し、
画像領域分割部の領域分割モデルが、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成し、
学習処理部が、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する、
学習モデルデータ生成方法。
【請求項6】
入力部が、任意のドメインの任意の画像データを取り込んで出力し、
特徴抽出部が、請求項5に記載の学習モデルデータ生成方法により生成された学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出し、
領域分割部が、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する、
画像領域分割方法。
【請求項7】
コンピュータを、
請求項1に記載の学習装置、又は、請求項4に記載の画像領域分割装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、画像領域分割装置、学習モデルデータ生成方法、画像領域分割方法、及びプログラムに関する。
【背景技術】
【0002】
コンピュータビジョンにおける重要なタスクの1つであるセマンティックセグメンテーションは、画像に含まれる個々の画素を対象として、セマンティックごとに画素を分類する技術である。例えば、画像において、建物、道路などの複数のオブジェクトが示されており、個々のオブジェクトを、セマンティックを示す情報にしたとする。この場合、セマンティックセグメンテーションとは、各画素が、どのオブジェクトに属するかを分類することにより、画像の領域を、画像に含まれるオブジェクトごとに分割する手法ということができる。
【0003】
セマンティックセグメンテーションを実現する技術に関する研究は、近年、盛んに行われており、例えば、VGG(Visual Geometry Group)やResNet(Residual Network)などを利用して構成された完全畳み込みネットワーク(FCN: Fully Convolutional Network)などの数多くの技術が提案されている(例えば、非特許文献1、2参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Jonathan Long, Evan Shelhamer, Trevor Darrell, “Fully Convolutional Networks for Semantic Segmentation”, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3431-3440, 2015.
【非特許文献2】Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick, “Mask R-CNN”, Proceedings of the IEEE International conference on computer vision, pp.2961-2969, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記したような技術において採用されている手法には、以下のような問題がある。例えば、航空衛星画像などのマルチスペクトル画像では、チャンネルの環境や光によるノイズが多く含まれる一方で、対象のオブジェクトのサイズが小さいことが多く、既存のセマンティックセグメンテーションの手法をマルチスペクトル画像に直接適用すると、所望の分割精度が得られないといった問題がある。
【0006】
上記事情に鑑み、本発明は、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことができる技術の提供を目的としている。
【課題を解決するための手段】
【0007】
本発明の一態様は、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデルを有する特徴抽出部と、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成するドメインごとの画像再現モデルを有する画像再現部と、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成する領域分割モデルを有する画像領域分割部と、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する学習処理部と、を備える学習装置である。
【0008】
本発明の一態様は、任意のドメインの任意の画像データを取り込んで出力する入力部と、上記に記載の学習装置が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出する特徴抽出部と、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する画像領域分割部と、を備える画像領域分割装置である。
【0009】
本発明の一態様は、特徴抽出部の異なるドメインごとの特徴抽出モデルの各々が、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出し、画像再現部の異なるドメインごとの画像再現モデルの各々が、前記特徴抽出モデルの各々が出力する前記共通特徴データ及び前記独自特徴データから再現画像データを生成し、画像領域分割部の領域分割モデルが、前記特徴抽出モデルの各々が出力する前記共通特徴データから領域分割した領域分割画像データを生成し、学習処理部が、対応関係にある異なるドメインの前記画像データの各々を、各々のドメインに対応する前記特徴抽出モデルに入力として与えた場合に、前記画像再現モデルが生成する前記再現画像データの各々が、各々に対応する前記画像データと同一になり、かつ前記領域分割モデルが生成する前記領域分割画像データが、入力される前記画像データに対応する真値領域分割画像データと同一になるように、前記特徴抽出モデルと、前記画像再現モデルと、前記領域分割モデルとを構築する学習モデルデータを生成する、学習モデルデータ生成方法である。
【0010】
本発明の一態様は、入力部が、任意のドメインの任意の画像データを取り込んで出力し、特徴抽出部が、上記に記載の学習モデルデータ生成方法により生成された学習済みの学習モデルデータに含まれる特徴抽出モデルデータにより構築される特徴抽出モデルを用いて、前記入力部が出力する前記画像データの共通特徴データを抽出し、領域分割部が、前記学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデルを用いて、前記特徴抽出モデルが出力する前記共通特徴データから前記画像データを領域分割した領域分割画像データを生成する、画像領域分割方法である。
【0011】
本発明の一態様は、コンピュータを、上記の学習装置、又は、上記の画像領域分割装置として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明により、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことが可能になる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態の学習装置の全体の構成を示すブロック図である。
【
図2】本発明の一実施形態の学習装置に含まれる一部分の構成を示すブロック図である。
【
図3】本発明の一実施形態の学習装置による処理の流れを示す図(その1)である。
【
図4】本発明の一実施形態の学習装置による処理の流れを示す図(その2)である。
【
図5】本発明の一実施形態の学習装置が算出する損失を説明する図(その1)である。
【
図6】本発明の一実施形態の学習装置が算出する損失を説明する図(その2)である。
【
図7】本発明の一実施形態の画像領域分割装置の構成を示すブロック図である。
【
図8】本発明の一実施形態の画像領域分割装置による処理の流れを示す図である。
【
図9】本発明の一実施形態の画像領域分割装置の他の構成例を示すブロック図である。
【発明を実施するための形態】
【0014】
例えば、航空衛星画像などのマルチスペクトル画像や、地図画像や、合成画像と航空映像画像とを組み合わせた画像などのマルチモダール画像といった異なるドメインの画像データは、ドメインごとに照明条件や色分布が異なっている。これに対して、同一の範囲を撮像した画像データであれば、ドメインが異なっていてもセマンティックな内容、例えば、オブジェクトの輪郭の形状や、オブジェクトのレイアウトは、一致しているという特徴がある。この特徴を踏まえて、異なるドメインの画像データから共通した特徴を抽出し、抽出した共通の特徴に基づいてセマンティックセグメンテーション、すなわち画像の領域分割を行えば、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも高い精度で領域分割を行うことができると考えられる。この考え方を踏まえた本発明の実施形態について、以下、図面を参照して説明する。
【0015】
(学習装置の構成)
図1は、本発明の一実施形態による学習装置1の構成の一例を示すブロック図である。学習装置1は、学習用画像データ記憶部11、学習用画像データ取込部12、学習モデルデータ記憶部13、特徴抽出部14、画像再現部15、画像領域分割部16、及び学習処理部17を備える。
【0016】
学習用画像データ記憶部11は、対応関係にある異なるドメインの画像データの各々と、対応関係にある異なるドメインの画像データの組み合わせごとに予め準備される1つの正解の画像データである真値領域分割画像データとを組み合わせた学習用画像データセットを予め複数セット記憶する。ここで、画像データのドメインとは、画像データの種類のことであり、種類の具体例として、上記のマルチスペクトル画像やマルチモダール画像といったといった種類が存在する。以下では、一例として、学習用画像データ記憶部11に含まれる学習用画像データセットに含まれる組み合わせの各々には、チャンネルGと、チャンネルBという2つの異なるドメインの画像データが含まれているものとする。例えば、チャンネルGが、マルチスペクトル画像というドメインに対応する場合、チャンネルBは、マルチスペクトル画像というドメイン以外のドメイン、例えば、マルチモダール画像というドメインに対応することになる。
【0017】
上記の対応関係にある異なるドメインの画像データとは、同一の範囲を撮像した異なるドメインの画像データの組み合わせのことを意味する。ここで、「同一の範囲を撮像した」とは、同一の対象を同一の画角で撮像したという意味の他、撮像した際には、画角が異なることから、撮像した範囲が、他のドメインの画像データと異なっている場合に、当該画像データの一部を切り出すなどの画像処理を施して、他のドメインの画像データと同一の範囲を含むようにしたという意味も含むものとする。
【0018】
正解の画像データである真値領域分割画像データとは、以下のような画像データである。例えば、学習用画像データセットに含まれるチャンネルGとチャンネルBの画像データを画面に表示した際に映し出される画像は、例えば、建物、道路などの複数のオブジェクトから構成されている。画像を構成する複数のオブジェクトの各々を1つのカテゴリとした場合、画像データに含まれている全ての画素は、いずれか1つのカテゴリに属することになる。この場合に、画素の各々が属するカテゴリを特定するクラス番号を、各々の画素の画素値とした画像データが、真値領域分割画像データになる。なお、チャンネルGとチャンネルBの画像データに含まれるオブジェクトは、ほぼ同一の形状であって、ほぼ同一の配置である。そのため、真値領域分割画像データを作成する際には、例えば、チャンネルGとチャンネルBの画像データのうちオブジェクトの境界がより鮮明に写されているいずれか一方を参照して真値領域分割画像データを作成してもよいし、両方の画像データを参照して真値領域分割画像データを作成してもよい。
【0019】
学習用画像データ記憶部11が記憶する学習用画像データセットの数は、複数セットであればどのような数であってもよく、学習処理部17による学習処理を十分に行うのに必要なセット数であるものとする。学習用画像データ記憶部11が記憶する学習用画像データセットに含まれるチャンネルGとチャンネルBの画像データの各々の縦と横の画素数は、同一である。チャンネルGとチャンネルBの画像データの各々の色方向のチャンネル数は、同一であり、例えば、両方がRGBの画像データである場合、チャンネルGとチャンネルBの画像データの各々において、3チャンネルずつ存在することになる。
【0020】
学習用画像データ取込部12は、学習用画像データ記憶部11から学習用画像データセットを1つずつ読み出す。学習用画像データ取込部12は、読み出した学習用画像データセットに含まれるチャンネルGの画像データと、チャンネルBの画像データとを特徴抽出部14に出力する。学習用画像データ取込部12は、読み出した学習用画像データセットに含まれるチャンネルGの画像データと、チャンネルBの画像データと、真値領域分割画像データとを学習処理部17に出力する。
【0021】
学習モデルデータ記憶部13は、特徴抽出部14、画像再現部15、及び画像領域分割部16の各々に適用される学習モデルデータを記憶する。学習モデルデータは、具体的には、深層ニューラルネットワークなどの関数近似器に適用される係数、すなわち、重み、バイアスの値である。以下、学習モデルデータのうち、特徴抽出部14に適用される学習モデルデータを、特徴抽出モデルデータともいう。学習モデルデータのうち、画像再現部15に適用される学習モデルデータを、画像再現モデルデータともいう。学習モデルデータのうち、画像領域分割部16に適用される学習モデルデータを、領域分割モデルデータともいう。言い換えると、学習モデルデータは、特徴抽出モデルデータと、画像再現モデルデータと、領域分割モデルデータとを含んだデータである。学習モデルデータ記憶部13は、初期状態では、例えば、乱数によって初期化された学習モデルデータを予め記憶する。
【0022】
以下、さらに、
図2を参照しつつ、特徴抽出部14、画像再現部15、画像領域分割部16、及び学習処理部17について説明する。特徴抽出部14は、特徴抽出モデル14-G,14-Bを備える。
図2に示すように、特徴抽出モデル14-Gは、チャンネルGエンコーダ24-Gを備える。特徴抽出モデル14-Bは、チャンネルBエンコーダ24-Bを備える。チャンネルGエンコーダ24-GとチャンネルBエンコーダ24-Gは、例えば、以下の参考文献1に示されるU-Netのエンコーダであり、深層ニューラルネットワークなどの関数近似器により構成されている。
【0023】
[参考文献1:Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351, pp.234--241, 2015]
【0024】
学習モデルデータ記憶部13が記憶する学習モデルデータの中のチャンネルGエンコーダ24-Gに対応する特徴抽出モデルデータがチャンネルGエンコーダ24-Gに適用されることにより、特徴抽出モデル14-Gが構築される。ここで、特徴抽出モデルデータが、チャンネルGエンコーダ24-Gに適用されるとは、例えば、チャンネルGエンコーダ24-Gが深層ニューラルネットワークによって構成されている場合、深層ニューラルネットワークに含まれる複数のニューロンの各々に対して特徴抽出モデルデータに含まれる係数、すなわち、重み、バイアスの値が適用されることである。学習モデルデータ記憶部13が記憶する学習モデルデータの中のチャンネルBエンコーダ24-Bに対応する特徴抽出モデルデータがチャンネルBエンコーダ24-Bに適用されることにより、特徴抽出モデル14-Bが構築される。
【0025】
特徴抽出モデル14-Gは、学習用画像データ取込部12が出力するチャンネルGの画像データを取り込み、チャンネルGと、チャンネルBとの間で共通する特徴を示す共通特徴データと、チャンネルGにおける独自の特徴を示す独自特徴データとを抽出する。特徴抽出モデル14-Bは、学習用画像データ取込部12が出力するチャンネルBの画像データを取り込み、チャンネルGと、チャンネルBとの間で共通する特徴を示す共通特徴データと、チャンネルBにおける独自の特徴を示す独自特徴データとを抽出する。ここで、共通特徴データとは、例えば、チャンネルG及びチャンネルBの各々において共通する特徴である画像の内容、すなわちレイアウトやオブジェクトの輪郭を示すデータである。独自特徴データとは、例えば、チャンネルG及びチャンネルBの各々において異なる特徴である色分布や照明条件を示すデータである。
【0026】
例えば、チャンネルGエンコーダ24-Gとして、参考文献1のU-Netのエンコーダが適用されており、チャンネルGの画像データの縦と横の画素数が、それぞれ572であり、色方向のチャンネル数が1チャンネルであるとする。この場合、参考文献1のFig.1に示されるように、エンコーダの最終段の出力は、縦と横の画素数がそれぞれ30であって、1024チャンネルの大きさを有する特徴マップになる。チャンネルGエンコーダ24-Gでは、例えば、1024個の特徴マップのうち、前半の768チャンネルの特徴マップを、共通特徴データを表す特徴マップとし、後半の256チャンネルの特徴マップを、独自特徴データを表す特徴マップとして予め割り当てる。
【0027】
なお、共通特徴データと、独自特徴データの割り当て方は、上記のようなチャンネルの前半と後半に分けて割り当てる手法に限られず、1024個の特徴マップのうちの任意のチャンネルの特徴マップを、共通特徴データを表す特徴マップとし、残りを、独自特徴データを表す特徴マップとしてもよい。ただし、共通特徴データを表す特徴マップの数が、独自特徴データを表す特徴マップの数よりも多くなるように予め定めておく必要がある。チャンネルGエンコーダ24-Gと、チャンネルBエンコーダ24-Bにおける共通特徴データを表す特徴マップの数と、独自特徴データを表す特徴マップの数とは、同数になるように予め割り当てられる。
【0028】
ここで、特徴抽出部14の入出力データと、特徴抽出部14が行う演算を数式により定義する。チャンネルGの画像データと、チャンネルBの画像データとは、それぞれ、次式(1),(2)に示す記号により表される。以下、それぞれをチャンネルG画像データxG、チャンネルB画像データxBという。
【0029】
【0030】
【0031】
特徴抽出モデル14-Gによる演算は、次式(3)によって表される。
【0032】
【0033】
式(3)の演算によって得られるチャンネルGの共通特徴データと、独自特徴データとは、それぞれ次式(4),(5)に示す記号により表される。以下、それぞれ共通特徴データcx_G、独自特徴データsx_Gという。
【0034】
【0035】
【0036】
特徴抽出モデル14-Bによる演算は、次式(6)によって表される。
【0037】
【0038】
式(6)の演算によって得られるチャンネルBの共通特徴データと、独自特徴データとは、それぞれ次式(7),(8)に示す記号により表される。以下、それぞれ共通特徴データcx_B、独自特徴データsx_Bという。
【0039】
【0040】
【0041】
画像再現部15は、画像再現モデル15-G,15-Bを備える。
図2に示すように、画像再現モデル15-Gは、チャンネルG画像再現用デコーダ25-Gを備える。画像再現モデル15-Bは、チャンネルB画像再現用デコーダ25-Bを備える。チャンネルG画像再現用デコーダ25-Gは、チャンネルGエンコーダ24-Gが行うダウンサンプリングの畳み込み演算に対して対称的なアップサンプリングの畳み込み演算を行う深層ニューラルネットワークなどの関数近似器により構成されている。チャンネルB画像再現用デコーダ25-Bは、チャンネルBエンコーダ24-Bが行うダウンサンプリングの畳み込み演算に対して対称的なアップサンプリングの畳み込み演算を行う深層ニューラルネットワークなどの関数近似器により構成されている。したがって、チャンネルG画像再現用デコーダ25-Gが出力する画像データのサイズ、すなわち、縦と横の画素数と色方向のチャンネル数は、チャンネルGエンコーダ24-Gに与えられるチャンネルG画像データx
Gのサイズと同一になる。チャンネルB画像再現用デコーダ25-Bが出力する画像データのサイズは、チャンネルBエンコーダ24-Bに与えられるチャンネルB画像データx
Bのサイズと同一になる。
【0042】
学習モデルデータ記憶部13が記憶する学習モデルデータの中のチャンネルG画像再現用デコーダ25-Gに対応する画像再現モデルデータがチャンネルG画像再現用デコーダ25-Gに適用されることにより、画像再現モデル15-Gが構築される。学習モデルデータ記憶部13が記憶する学習モデルデータの中のチャンネルB画像再現用デコーダ25-Bに対応する画像再現モデルデータがチャンネルB画像再現用デコーダ25-Bに適用されることにより、画像再現モデル15-Bが構築される。画像再現モデル15-Gは、特徴抽出モデル14-Gが出力するチャンネルG共通特徴データcx_Gと、チャンネルG独自特徴データsx_Gとを取り込み、チャンネルG再現画像データを生成する。画像再現モデル15-Bは、特徴抽出モデル14-Bが出力するチャンネルB共通特徴データcx_Bと、チャンネルB独自特徴データsx_Bとを取り込み、チャンネルB再現画像データを生成する。上記したように、チャンネルG画像データxGと、チャンネルB画像データxBのサイズは、同一であるため、チャンネルG再現画像データとチャンネルB再現画像データのサイズも同一になる。
【0043】
ここで、画像再現部15が行う演算を数式により定義する。画像再現モデル15-Gによる演算と、画像再現モデル15-Bによる演算とは、それぞれ次式(9),(10)によって表される。以下、式(9),(10)に示す演算式を用いて、それぞれチャンネルG再現画像データGG(cx_G,sx_G)、チャンネルB再現画像データGB(cx_B,sx_B)という。
【0044】
【0045】
【0046】
画像領域分割部16は、入力データ取込部16-1と、領域分割モデル16-2とを備える。入力データ取込部16-1は、特徴抽出モデル14-Gが抽出したチャンネルG共通特徴データcx_Gと、特徴抽出モデル14-Bが抽出したチャンネルB共通特徴データcx_Bとを取り込む。入力データ取込部16-1は、例えば、取り込んだチャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとのいずれか一方を入力データとして領域分割モデル16-2に与える。入力データ取込部16-1は、例えば、取り込んだチャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとを組み合わせて入力データを生成し、生成した入力データを領域分割モデル16-2に与える。入力データ取込部16-1が、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとを組み合わせて入力データを生成する手法としては、例えば、入力データ取込部16-1が、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとに対して画素ごとのmax valueを算出する演算を行うことにより入力データを生成する手法などがある。
【0047】
領域分割モデル16-2は、画像領域分割用デコーダ26を備える。画像領域分割用デコーダ26は、例えば、参考文献1に示されるU-Netのデコーダであり、深層ニューラルネットワークなどの関数近似器により構成されている。学習モデルデータ記憶部13が記憶する学習モデルデータの中の領域分割モデルデータが画像領域分割用デコーダ26に適用されることにより、領域分割モデル16-2が構築される。
【0048】
領域分割モデル16-2は、入力データ取込部16-1から与えられる入力データから領域分割画像データを生成する。領域分割画像データを数式で示すと、次式(11)として表される。
【0049】
【0050】
式(11)において、関数GS(ph)の引数であるphは、入力データ取込部16-1が出力する入力データであり、hは、「G」、「B」、「G+B」のいずれかである。「pG」は、チャンネルG共通特徴データcx_Gを示すことになり、「pB」は、チャンネルB共通特徴データcx_Bを示すことになる。上記したように、入力データが、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとが組み合わされて入力データ取込部16-1によって生成される入力データである場合、「pG+B」として記載する。「pG」,「pB」,「pG+B」のいずれを領域分割モデル16-2に対する入力データとするかは、チャンネルG画像データxGやチャンネルB画像データxBの画質、領域分割モデル16-2の出力である領域分割画像データzhの使用目的や使用用途に応じて予め定められる。
【0051】
チャンネルGエンコーダ24-Gと、チャンネルG画像再現用デコーダ25-Gとは、
チャンネルG共通特徴データcx_Gの特徴マップと、チャンネルG独自特徴データsx_Gの特徴マップとを介してend-to-endの深層ニューラルネットワークを構成する。チャンネルBエンコーダ24-Bと、チャンネルB画像再現用デコーダ25-Bとは、チャンネルB共通特徴データcx_Bの特徴マップと、チャンネルB独自特徴データsx_Bの特徴マップとを介してend-to-endの深層ニューラルネットワークを構成する。チャンネルGエンコーダ24-GとチャンネルBエンコーダ24-Bの各々と、画像領域分割用デコーダ26とは、チャンネルG共通特徴データcx_Gの特徴マップと、チャンネルB共通特徴データcx_Bの特徴マップと、入力データ取込部16-1とを介してend-to-endの深層ニューラルネットワークを構成する。
【0052】
学習処理部17は、学習用画像データ取込部12が出力する学習用画像データセット、特徴抽出部14が抽出するチャンネルG共通特徴データcx_G、チャンネルG独自特徴データsx_G、チャンネルB共通特徴データcx_B、及びチャンネルB独自特徴データsx_B、画像再現部15が生成するチャンネルG再現画像データGG(cx_G,sx_G)、及びチャンネルB再現画像データGB(cx_B,sx_B)、並びに画像領域分割部16が生成する領域分割画像データzhに基づいて学習処理を行う。学習処理部17は、学習処理により、チャンネルGエンコーダ24-G、チャンネルBエンコーダ24-B、チャンネルG画像再現用デコーダ25-G、チャンネルB画像再現用デコーダ25-B、及び画像領域分割用デコーダ26の各々に適用される新たな学習モデルデータを算出する。学習処理部17は、新たな学習モデルデータを算出すると、学習モデルデータ記憶部13が記憶する学習モデルデータを、算出した新たな学習モデルデータに書き換える。
【0053】
学習処理部17は、対応関係にある異なるドメインの画像データであるチャンネルG画像データxG及びチャンネルB画像データxBの各々を、各々のドメインに対応する特徴抽出モデル14-G,14-Bに入力として与えた場合に、以下の2つの目的が達成されるように学習処理を行う。第1の目的は、画像再現モデル15-Gが生成する再現画像データGG(cx_G,sx_G)が、チャンネルG画像データxGと同一になり、かつ画像再現モデル15-Bが生成する再現画像データGB(cx_B,sx_B)が、チャンネルB画像データxBと同一になるようにすることである。第2の目的は、領域分割モデル16-2が生成する領域分割画像データzhが、真値領域分割画像データと同一になるようにすることである。
【0054】
この2つ目的を達成するために、学習処理部17は、具体的には、以下の4つの損失を最小化する学習処理を行う。第1の損失は、チャンネルG画像データxGと、画像再現モデル15-Gが生成する再現画像データGG(cx_G,sx_G)との間の損失と、チャンネルB画像データxBと、画像再現モデル15-Bが生成する再現画像データGB(cx_B,sx_B)との間の損失とを合計した損失である。第2の損失は、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとの間の損失である。第3の損失は、同一のドメインの複数の画像データの各々から得られる独自特徴データの間の損失、すなわち、チャンネルGにおける複数の画像データの各々から得られる複数の独自特徴データsx_Gの間の損失と、チャンネルBにおける複数の画像データの各々から得られる複数の独自特徴データsx_Bの間の損失とを合計した損失である。第4の損失は、領域分割モデル16-2が生成する領域分割画像データzhと、真値領域分割画像データとの間の損失である。
【0055】
(学習装置による学習処理)
次に、
図3から
図6を参照しつつ、学習装置1による学習処理について説明する。学習処理の前提条件を以下に示す。学習用画像データ記憶部11は、予めN個の学習用画像データセットを記憶しており、学習用画像データセットの各々には、「1」を初期値とし「N」までの連続する整数の番号のインデックス番号が予め付与されている。ここで、Nは、2以上の整数であるとする。学習装置1は、学習用画像データ取込部12と、学習処理部17とが参照可能な画像カウンタuと、処理ステップカウンタvとを記憶する領域を内部の記憶領域に予め設けている。学習処理部17は、内部の記憶領域に、ミニバッチ閾値「V」と、画像カウンタuの上限値である「N」とを予め記憶する。ここで、ミニバッチ閾値「V」は、画像カウンタuの上限値「N」よりも小さい値になるように、すなわち、V<Nになるように、予め定められる。
【0056】
学習モデルデータ記憶部13は、乱数によって初期化された学習モデルデータを予め記憶する。画像領域分割部16の入力データ取込部16-1において、例えば、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとに対して画素ごとのmax valueを算出する演算を行って入力データを生成することが予め定められているとする。
【0057】
以下、
図3に示す処理が開始される。学習モデルデータ記憶部13が記憶する学習モデルデータが、特徴抽出部14、画像再現部15、及び画像領域分割部16に適用される(ステップS1)。より詳細には、ステップS1の処理において、以下のような処理が行われる。チャンネルGエンコーダ24-Gは、学習モデルデータ記憶部13が記憶する学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルGエンコーダ24-Gが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル14-Gが構築される。チャンネルBエンコーダ24-Bは、学習モデルデータ記憶部13が記憶する学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルBエンコーダ24-Gが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル14-Bが構築される。
【0058】
チャンネルG画像再現用デコーダ25-Gは、学習モデルデータ記憶部13が記憶する学習モデルデータの中の画像再現モデルデータであって自らに対応する画像再現モデルデータを選択する。チャンネルG画像再現用デコーダ25-Gが選択した画像再現モデルデータを自らに適用することにより画像再現モデル15-Gが構築される。チャンネルB画像再現用デコーダ25-Bは、学習モデルデータ記憶部13が記憶する学習モデルデータの中の画像再現モデルデータであって自らに対応する画像再現モデルデータを選択する。チャンネルB画像再現用デコーダ25-Bが選択した画像再現モデルデータを自らに適用することにより画像再現モデル15-Bが構築される。
【0059】
画像領域分割用デコーダ26は、学習モデルデータ記憶部13が記憶する学習モデルデータの中の領域分割モデルデータを選択する。画像領域分割用デコーダ26が選択した領域分割モデルデータを自らに適用することにより領域分割モデル16-2が構築される。
【0060】
学習用画像データ取込部12は、画像カウンタuを「1」に初期化し、処理ステップカウンタvを「1」に初期化する(ステップS2)。
【0061】
学習用画像データ取込部12は、画像カウンタuが示す値「i」に対応するインデックス番号の学習用画像データセットを学習用画像データ記憶部11から読み出す。なお、最初は、uの値が「1」に初期化されているため、学習用画像データ取込部12は、インデックス番号「1」に対応する学習用画像データセットを学習用画像データ記憶部11から読み出すことになる。学習用画像データ取込部12は、読み出した学習用画像データセットに含まれるチャンネルG画像データxGを特徴抽出モデル14-Gに出力し、チャンネルB画像データxBを特徴抽出モデル14-Bに出力する。学習用画像データ取込部12は、読み出した学習用画像データセットに含まれるチャンネルG画像データxGと、チャンネルB画像データxBと、真値領域分割画像データとを学習処理部17に出力する(ステップS3)。
【0062】
特徴抽出モデル14-Gは、学習用画像データ取込部12が出力するチャンネルG画像データxGを取り込む。特徴抽出モデル14-Gは、式(3)の演算を行い、チャンネルG共通特徴データcx_Gと、チャンネルG独自特徴データsx_Gとを抽出する。特徴抽出モデル14-Gは、抽出したチャンネルG共通特徴データcx_Gと、チャンネルG独自特徴データsx_Gとを画像再現モデル15-Gと、学習処理部17とに出力する。特徴抽出モデル14-Gは、抽出したチャンネルG共通特徴データcx_Gを画像領域分割部16の入力データ取込部16-1に出力する(ステップS4)。
【0063】
特徴抽出モデル14-Bは、学習用画像データ取込部12が出力するチャンネルB画像データxBを取り込む。特徴抽出モデル14-Bは、式(6)の演算を行い、チャンネルB共通特徴データcx_Bと、チャンネルB独自特徴データsx_Bとを抽出する。特徴抽出モデル14-Bは、抽出したチャンネルB共通特徴データcx_Bと、チャンネルB独自特徴データsx_Bとを画像再現モデル15-Bと、学習処理部17とに出力する。特徴抽出モデル14-Bは、抽出したチャンネルB共通特徴データcx_Bを画像領域分割部16の入力データ取込部16-1に出力する(ステップS5)。
【0064】
なお、ステップS4の処理、及びステップS5の処理は、並列に行われてもよいし、ステップS4の処理の後にステップS5の処理が行われてもよいし、処理の順番を入れ替えて行われてもよい。
【0065】
画像再現モデル15-Gは、特徴抽出モデル14-Gが出力するチャンネルG共通特徴データcx_Gと、チャンネルG独自特徴データsx_Gとを取り込む。画像再現モデル15-Gは、式(9)の演算を行い、チャンネルG再現画像データGG(cx_G,sx_G)を生成する。画像再現モデル15-Gは、生成したチャンネルG再現画像データGG(cx_G,sx_G)を学習処理部17に出力する(ステップS6)。
【0066】
画像再現モデル15-Bは、特徴抽出モデル14-Bが出力するチャンネルB共通特徴データcx_Bと、チャンネルB独自特徴データsx_Bとを取り込む。画像再現モデル15-Bは、式(10)の演算を行い、チャンネルB再現画像データGB(cx_B,sx_B)を生成する。画像再現モデル15-Bは、生成したチャンネルB再現画像データGB(cx_B,sx_B)を学習処理部17に出力する(ステップS7)。
【0067】
画像領域分割部16の入力データ取込部16-1は、特徴抽出モデル14-Gが出力するチャンネルG共通特徴データcx_Gと、特徴抽出モデル14-Bが出力するチャンネルB共通特徴データcx_Bとを取り込む。入力データ取込部16-1は、取り込んだチャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとに対して画素ごとのmax valueを算出する演算を行うことにより入力データpG+Bを生成する。入力データ取込部16-1は、生成した入力データpG+Bを領域分割モデル16-2に出力する(ステップS8)。
【0068】
領域分割モデル16-2は、入力データ取込部16-1が出力する入力データpG+Bを取り込み、式(11)の演算を行って、領域分割画像データzG+Bを生成する。領域分割モデル16-2は、生成した領域分割画像データzG+Bを学習処理部17に出力する(ステップS9)。
【0069】
なお、ステップS6の処理、ステップS7の処理、及びステップS8,S9の処理は、並列に行われてもよいし、ステップS6の処理、ステップS7の処理、ステップS8,S9の処理の順に行われてもよいし、順番を入れ替えて行われてもよい。
【0070】
処理の継続を意味する「B」の記号で示されるように、次に、
図4に示すフローチャートの処理が行われる。
【0071】
学習処理部17は、学習用画像データ取込部12が出力する学習用画像データセット、特徴抽出部14が出力するチャンネルG共通特徴データcx_G、チャンネルG独自特徴データsx_G、チャンネルB共通特徴データcx_B、及びチャンネルB独自特徴データsx_B、画像再現部15が出力するチャンネルG再現画像データGG(cx_G,sx_G)、及びチャンネルB再現画像データGB(cx_B,sx_B)、並びに画像領域分割部16が出力する領域分割画像データzG+B=GS(pG+B)を取り込み、取り込んだデータを、その時点での画像カウンタuの値を関連付けて内部の記憶領域に書き込んで記憶させる。学習処理部17は、処理ステップカウンタvの値が、ミニバッチ閾値「V」未満であるか否かを判定する(ステップS10)。
【0072】
学習処理部17は、処理ステップカウンタvの値が、ミニバッチ閾値「V」未満であると判定した場合(ステップS10、Yes)、画像カウンタuに「1」を加算した値を新たな画像カウンタuとし、処理ステップカウンタvに「1」を加算した値を新たな処理ステップカウンタvとする。学習処理部17は、学習処理継続指示信号を学習用画像データ取込部12に出力する(ステップS11)。学習用画像データ取込部12は、学習処理部17から学習処理継続指示信号を受けると、処理の継続を意味する「A」の記号で示されるように、
図3のステップS3の処理以降の処理を再び行う。これにより、例えば、「N」が「1000」であり、「V」が「200」に定められている場合、ミニバッチサイズが「200」のミニバッチ学習処理、すなわち、上記のステップS3からステップS11の処理が5回繰り返されることになる。
【0073】
一方、学習処理部17は、処理ステップカウンタvの値が、ミニバッチ閾値「V」未満でないと判定した場合(ステップS10、No)、直近のV個の画像カウンタuを特定する。例えば、「V」が「200」である場合、学習処理部17は、初回は、u=1~200を特定し、2回目は、u=201~400を特定することになる。学習処理部17は、内部の記憶領域を参照し、特定した直近のV個の画像カウンタuの各々に関連付けられている学習用画像データセットに含まれるチャンネルG画像データxGと、チャンネルB画像データxBと、真値領域分割画像データとの組み合わせと、チャンネルG共通特徴データcx_G、チャンネルG独自特徴データsx_G、チャンネルB共通特徴データcx_B、及びチャンネルB独自特徴データsx_Bと、チャンネルG再現画像データGG(cx_G,sx_G)、及びチャンネルB再現画像データGB(cx_B,sx_B)と、画像領域分割部16が出力する領域分割画像データzG+Bとに基づいて、以下の4つの損失を算出する(ステップS12)。
【0074】
(チャンネル復元損失(Channel Reconstruction Loss)について)
学習処理部17は、同一の画像カウンタuに関連付けられているチャンネルG画像データxGと再現画像データGG(cx_G,sx_G)との間の損失と、チャンネルB画像データxBと画像再現モデル15-Bが生成する再現画像データGB(cx_B,sx_B)との間の損失とを合計した損失を、次式(12)に示す損失関数により算出する。
【0075】
【0076】
式(12)によって算出される損失L
r(x)は、元の画像データと、再現した画像データとの間のL1損失である。したがって、
図5に示す例の場合、式(12)の損失関数は、チャンネルG画像データ31-Gと、チャンネルG再現画像データ41-Gとの間の画像の再現の正確性の度合いを示すチャンネルG復元損失と、チャンネルB画像データ31-Bと、チャンネルG再現画像データ41-Bとの間の画像の再現の正確性の度合いを示すチャンネルB復元損失とを合計した損失を算出する損失関数ということになる。学習処理部17が、特定したV個の画像カウンタuの各々に対して算出した損失L
r(x)を最小化するように学習処理を行うことにより、チャンネルG画像データx
Gと、再現画像データG
G(c
x_G,s
x_G)とが一致し、チャンネルB画像データx
Bと、再現画像データG
B(c
x_B,s
x_B)とが一致するように特徴抽出モデルデータと、画像再現モデルデータとが更新されていくことになる。
【0077】
(画像の内容の一貫性を示す損失について)
学習処理部17は、同一の画像カウンタuに関連付けられているチャンネルG共通特徴データcx_GとチャンネルB共通特徴データcx_Bとの間の損失を次式(13)に示す損失関数により算出する。
【0078】
【0079】
式(13)によって算出される損失L
c(x)は、チャンネルG画像データx
Gから得られた共通特徴データc
x_Gと、チャンネルG画像データx
Gと対応関係にあるチャンネルB画像データx
Bから得られた共通特徴データc
x_Bとの間のL1損失である。したがって、
図5に示す例の場合、式(13)は、チャンネルG画像データ31-Gと、チャンネルB画像データ31-Bとにおける画像の内容の一貫性の度合いを示す損失を算出する損失関数ということになる。学習処理部17が、特定したV個の画像カウンタuの各々に対して算出した損失L
c(x)を最小化するように学習処理を行うことにより、チャンネルG画像データx
Gの共通特徴データc
x_Gと、チャンネルB画像データx
Bの共通特徴データc
x_Bとが一致するように特徴抽出モデルデータが更新されていくことになる。
【0080】
(独自特徴の一貫性を示す損失)
学習処理部17は、特定したV個の画像カウンタに関連付けられている全ての独自特徴データの中からチャンネルごとの独自特徴データを選択する。例えば、ミニバッチ閾値「V」が、「200」である場合、学習処理部17は、チャンネルGの独自特徴データsx_Gを200個選択し、チャンネルBの独自特徴データsx_Bを200個選択する。
【0081】
学習処理部17は、選択したチャンネルGの200個の独自特徴データsx_Gから2個の組み合わせのパターンを全て抽出して、200C2=19900通りのパターンを求める。学習処理部17は、チャンネルBについても、同様に、選択した200個の独自特徴データsx_Bから19900通りのパターンを求める。学習処理部17は、求めた19900×2=39800通りのパターンの各々に含まれる独自特徴データの一方をsx_iとし、他方を、sy_iとする。ここで、iは、i∈{G,B}である。学習処理部17は、次式(14)により、チャンネルGにおける複数の独自特徴データsx_Gの間の損失と、チャンネルBにおける複数の独自特徴データsx_Bの間の損失とを合計した損失を算出する。
【0082】
【0083】
式(14)によって算出される損失L
s(x,y)は、同一のドメインの複数の画像データの各々から得られる独自特徴データの間のL1損失である。したがって、
図6に示す例の場合、式(14)は、チャンネルG画像データ31-Gと、チャンネルG画像データ32-Gの間の独自特徴の一貫性の度合いを示す損失と、チャンネルB画像データ31-Bと、チャンネルG画像データ32-Bの間の独自特徴の一貫性の度合いを示す損失とを合計した損失を算出する損失関数ということになる。学習処理部17が、損失L
s(x,y)を最小化するように学習処理を行うことにより、チャンネルGにおいて得られる全ての独自特徴データs
x_Gが一致し、チャンネルBにおいて得られる全ての独自特徴データs
x_Bが一致するように特徴抽出モデルデータが更新されていくことになる。
【0084】
(画像領域分割の精度を示す損失)
学習処理部17は、同一の画像カウンタuに関連付けられている領域分割画像データzG+Bと、真値領域分割画像データとの間の損失を次式(15)により算出する。
【0085】
【0086】
式(15)において、hは、上記したように「G」、「B」、「P+G」のいずれかであり、ここでは、入力データ取込部16-1において、チャンネルG共通特徴データcx_Gと、チャンネルB共通特徴データcx_Bとに対してmax valueを算出する演算を行って入力データを生成することが予め定められているため、h=P+Gである。M,Nは、領域分割画像データzG+Bの縦と横の画素数である。なお、領域分割画像データzG+Bと真値領域分割画像データのサイズは同一であるため、M,Nは、真値領域分割画像データの縦と横の画素数を示すことになる。Kは、真値領域分割画像データにおけるセマンティックカテゴリ数、すなわち、真値領域分割画像データを作成する際に定めた、真値領域分割画像データに含まれるカテゴリの数である。例えば、カテゴリの各々を示すクラス番号として、「1」を初期値として連続する整数値を定めた場合、クラス番号の最大値が、Kになる。式(15)において、wkは、クラス番号「k」の損失重みであり、真値領域分割画像データに基づいて、例えば、参考文献1の式(2)により予め算出される。
【0087】
式(15)において、log関数は、自然対数を算出する関数であり、log関数の引数は、領域分割画像データzG+Bのソフトマックス値である。したがって、損失Lss(x)は、領域分割画像データzG+B、及び真値領域分割画像データの交差エントロピーを示すことになる。そのため、式(15)は、領域分割画像データzG+Bと、真値領域分割画像データとの一致度合いを示す損失、すなわち画像領域分割の精度を示す損失を算出する損失関数ということになる。学習処理部17が、特定したV個の画像カウンタuの各々に対して算出した損失Lss(x)を最小化するように学習処理を行うことにより、領域分割画像データzG+Bと、真値領域分割画像データとが一致するように特徴抽出モデルデータと、領域分割モデルデータとが更新されていくことになる。
【0088】
学習処理部17は、上記したように4つの損失を算出し、例えば、誤差逆伝播法などによって4つの損失を減少させる新たな学習モデルデータ、すなわち新たな特徴抽出モデルデータと、新たな画像再現モデルデータと、新たな領域分割モデルデータとを算出する。学習処理部17は、新たな学習モデルデータを算出すると、学習モデルデータ記憶部13が記憶する学習モデルデータを、算出した新たな学習モデルデータに書き換えて記憶させる(ステップS13)。
【0089】
学習処理部17によって、新たな学習モデルデータが、学習モデルデータ記憶部13に書き込まれると、再びステップS1と同一の処理が、特徴抽出部14のチャンネルGエンコーダ24-G、及びチャンネルBエンコーダ24-B、画像再現部15のチャンネルG画像再現用デコーダ25-G、及びチャンネルB画像再現用デコーダ25-B、並びに画像領域分割部16の画像領域分割用デコーダ26によって行われる(ステップS14)。
【0090】
学習処理部17は、画像カウンタuの値が、上限値「N」未満であるか否かを判定する(ステップS15)。学習処理部17は、画像カウンタuの値が、上限値「N」未満であると判定した場合(ステップS15、Yes)、画像カウンタuに「1」を加算した値を新たな画像カウンタuとし、処理ステップカウンタvを「1」に初期化する。学習処理部17は、学習処理継続指示信号を学習用画像データ取込部12に出力する(ステップS16)。学習用画像データ取込部12は、学習処理部17から学習処理継続指示信号を受けると、処理の継続を意味する「A」の記号で示されるように、
図3のステップS3の処理以降の処理を再び行う。
【0091】
一方、学習処理部17は、画像カウンタuの値が、上限値「N」未満でないと判定した場合(ステップS15、No)、処理を終了する。
【0092】
これにより、学習装置1による学習処理が終了すると、学習モデルデータ記憶部13には、学習済みの学習モデルデータが記憶されることになる。なお、1エポック分の学習処理が終了しても、学習モデルデータが十分に収束していない場合、ステップS15の処理において、学習処理部17が、「No」の判定をした場合に、処理を終了させず、再び、ステップS1からの処理が行われるように処理を継続させることになる。
【0093】
上記の実施形態の学習装置1において、特徴抽出部14は、異なるドメインの画像データの各々から異なるドメイン間において共通する特徴を示す共通特徴データと、異なるドメインごとの独自の特徴を示す独自特徴データとを抽出するドメインごとの特徴抽出モデル14-G,14-Bを有する。画像再現部15は、特徴抽出モデル14-G,14-Bの各々が出力する共通特徴データ及び独自特徴データから再現画像データを生成するドメインごとの画像再現モデル15-G,15-Bを有する。画像領域分割部16は、特徴抽出モデル14-G,14-Bの各々が出力する共通特徴データから領域分割した領域分割画像データを生成する領域分割モデル16-2を有する。学習処理部17は、対応関係にある異なるドメインの画像データの各々を、各々のドメインに対応する特徴抽出モデル14-G,14-Bに入力として与えた場合に、画像再現モデル15-G,15-Bが生成する再現画像データの各々が、各々に対応する画像データと同一になり、かつ領域分割モデル16-2が生成する領域分割画像データが、入力される画像データに対応する真値領域分割画像データと同一になるように、特徴抽出モデル14-G,14-Bと、画像再現モデル15-G,15-Bと、領域分割モデル16-2とを構築する学習モデルデータを生成する。
【0094】
学習装置1が備える特徴抽出モデル14-Gと、画像再現モデル15-Gとは、チャンネルG画像データxGに関する自己符号化器ということができる。特徴抽出モデル14-Bと、画像再現モデル15-Bとは、チャンネルB画像データxBに関する自己符号化器ということができる。そのため、学習処理部17が式(12)により求める損失Lr(x)を最小化するように学習処理を行うことにより、特徴抽出モデル14-Gが出力する特徴マップには、チャンネルG画像データxGに含まれる特徴が現れることになり、特徴抽出モデル14-Bが出力する特徴マップには、チャンネルB画像データxBの特徴が現れることになる。
【0095】
上記の実施形態では、特徴抽出モデル14-G,14-Bが出力する特徴マップの一部を、共通特徴データを示す特徴マップに割り当て、残りを、独自特徴データを示す特徴マップとして予め割り当てている。そのため、学習処理部17が式(13)により求める損失Lc(x)を最小化する学習処理を行うことにより、特徴抽出モデル14-G,14-Bが出力する共通特徴を示す特徴マップの各々において、チャンネルGとチャンネルBとの間の共通した特徴が強調して現れることになる。学習処理部17が式(14)により求める損失Ls(x,y)を最小化する学習処理を行うことにより、特徴抽出モデル14-Gが出力する独自特徴を示す特徴マップに、チャンネルGの独自の特徴が強調して現れ、特徴抽出モデル14-Bが出力する独自特徴を示す特徴マップに、チャンネルBの独自の特徴が強調して現れることになる。このように、特徴抽出モデル14-G,14-Bの各々において、独自の特徴の抽出精度を高めることにより、特徴抽出モデル14-G,14-Bにおける共通の特徴の抽出精度も更に高められることになる。
【0096】
すなわち、学習装置1は、上記した学習処理を行うことにより、異なるドメインの画像データの各々から、異なるドメイン間において共通する特徴を示す共通特徴データを高い精度で抽出する特徴抽出モデル14-G,14-Bを構築することを可能とする特徴抽出モデルデータを生成することができる。さらに、学習装置1は、式(15)により求める損失Lss(x)を最小化することにより、特徴抽出モデル14-G,14-Bが抽出した共通特徴データから領域分割画像データを生成する領域分割モデル16-2を構築することを可能とする領域分割モデルデータを生成することが可能になる。
【0097】
(画像領域分割装置の構成)
図7は、本発明の一実施形態による画像領域分割装置2の構成を示すブロック図である。なお、画像領域分割装置2において、学習装置1と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。画像領域分割装置2は、入力部61、特徴抽出部14、学習済み学習モデルデータ記憶部62、及び画像領域分割部16aを備える。
【0098】
入力部61は、外部から与えられる領域分割対象画像データxiを取り込む。領域分割対象画像データxiのドメインは、チャンネルGか、チャンネルBのいずれかである。入力部61は、取り込んだ領域分割対象画像データxiのドメインが、チャンネルGであるか、チャンネルBであるかを判定する。入力部61は、判定結果にしたがって、取り込んだ領域分割対象画像データxiを特徴抽出モデル14-Gか、特徴抽出モデル14-Bのいずれか一方に出力する。
【0099】
学習済み学習モデルデータ記憶部62は、学習装置1が学習処理を終了した際に、学習モデルデータ記憶部13が記憶する学習済みの学習モデルデータに含まれている特徴抽出モデルデータと、領域分割モデルデータとを予め記憶する。画像領域分割部16aは、画像領域分割用デコーダ26を備える。画像領域分割部16aは、学習装置1の画像領域分割部16とは異なり、入力データ取込部16-1を備えていない。そのため、画像領域分割用デコーダ26の入力は、チャンネルGエンコーダ24-GのチャンネルG共通特徴データcx_Gの特徴マップと、チャンネルBエンコーダ24-BのチャンネルB共通特徴データcx_Bの特徴マップとに直接接続することになる。
【0100】
(画像領域分割装置による画像領域分割処理)
図8は、画像領域分割装置2による画像領域分割処理の流れを示すフローチャートである。
図8に示す処理が開始される前、例えば、画像領域分割装置2が起動したタイミングで、以下の処理が行われる。すなわち、チャンネルGエンコーダ24-Gは、学習済み学習モデルデータ記憶部62が記憶する学習済み学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルGエンコーダ24-Gが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル14-Gが構築される。チャンネルBエンコーダ24-Bは、学習済み学習モデルデータ記憶部62が記憶する学習済み学習モデルデータの中の特徴抽出モデルデータであって自らに対応する特徴抽出モデルデータを選択する。チャンネルBエンコーダ24-Bが選択した特徴抽出モデルデータを自らに適用することにより特徴抽出モデル14-Bが構築される。
【0101】
画像領域分割用デコーダ26は、学習済み学習モデルデータ記憶部62が記憶する学習済み学習モデルデータの中の領域分割モデルデータを選択する。画像領域分割用デコーダ26が選択した領域分割モデルデータを自らに適用することにより領域分割モデル16-2が構築される。
【0102】
以下、
図8に示す処理が開始される。入力部61は、外部から与えられる領域分割対象画像データx
iを取り込む(ステップSa1)。入力部61は、取り込んだ領域分割対象画像データx
iのドメインが、チャンネルGであるか、チャンネルBであるかを判定する(ステップSa2)。入力部61は、取り込んだ領域分割対象画像データx
iのドメインが、チャンネルGであると判定した場合(ステップSa2、チャンネルG)、取り込んだ領域分割対象画像データx
Gを特徴抽出モデル14-Gに出力する。一方、入力部61は、取り込んだ領域分割対象画像データx
iのドメインが、チャンネルBであると判定した場合(ステップSa2、チャンネルB)、取り込んだ領域分割対象画像データx
Bを特徴抽出モデル14-Bに出力する。
【0103】
特徴抽出モデル14-Gは、入力部61からチャンネルG領域分割対象画像データxGが与えられると、チャンネルG共通特徴データcx_Gと、チャンネルG独自特徴データsx_Gとを抽出する。ただし、チャンネルG独自特徴データsx_Gの出力先は存在しないため、特徴抽出モデル14-Gは、抽出したチャンネルG独自特徴データsx_Gを出力せずに破棄する。特徴抽出モデル14-Gは、抽出したチャンネルG共通特徴データcx_Gを、画像領域分割部16aの領域分割モデル16-2に出力する(ステップSa3-1)。
【0104】
特徴抽出モデル14-Bは、入力部61からチャンネルB領域分割対象画像データxBが与えられると、チャンネルB共通特徴データcx_Bと、チャンネルB独自特徴データsx_Bとを抽出する。ただし、チャンネルB独自特徴データsx_Bの出力先は存在しないため、特徴抽出モデル14-Bは、抽出したチャンネルB独自特徴データsx_Bを出力せずに破棄する。特徴抽出モデル14-Bは、抽出したチャンネルB共通特徴データcx_Bを、画像領域分割部16aの領域分割モデル16-2に出力する(ステップSa3-2)。
【0105】
領域分割モデル16-2は、特徴抽出モデル14-GからチャンネルG共通特徴データcx_Gが与えられると、チャンネルG共通特徴データcx_Gに基づいて領域分割画像データGS(cx_G)を生成して出力する。これに対して、領域分割モデル16-2は、特徴抽出モデル14-BからチャンネルB共通特徴データcx_Bが与えられると、チャンネルB共通特徴データcx_Bに基づいて領域分割画像データGS(cx_B)を生成して出力する(ステップSa4)。これにより、チャンネルGか、または、チャンネルBの任意の画像データに対する領域分割画像データGS(cx_i)が得られることになる。
【0106】
(画像領域分割装置の他の構成例)
上記した画像領域分割装置2が備える特徴抽出部14が備える特徴抽出モデル14-G,14-Bの各々が出力する共通特徴データcx_Gと、共通特徴データcx_Bとは、同一になるように学習装置1によって学習処理が行われている。チャンネルG画像データxGと、チャンネルB画像データxBとは、縦と横の画素数は同一であり、色方向のチャンネル数も同一である。そのため、例えば、特徴抽出モデル14-Gに対して、対応するドメインでないチャンネルB画像データxBを入力として与えたとしても、チャンネルB画像データxBの共通特徴データcx_Bを抽出することが可能である。同様に、特徴抽出モデル14-Bに対して、対応するドメインでないチャンネルG画像データxGを入力として与えたとしても、チャンネルG画像データxGの共通特徴データcx_Gを抽出することが可能である。すなわち、画像領域分割装置2において、特徴抽出部14が、2つの特徴抽出モデル14-G,14-Bのいずれか一方を備えたとしても同様の領域分割の結果が得られることになる。
【0107】
例えば、
図9に示す画像領域分割装置2aのように、特徴抽出部14aが、特徴抽出モデル14-Gのみを備える構成であるときには、入力部61aは、
図8のステップSa1の処理において取り込んだ領域分割対象画像データx
iに対して、
図8のステップSa2の判定処理を行うことなく、取り込んだ領域分割対象画像データx
iを特徴抽出モデル14-Gに出力することになる。その後、
図8のステップSa3-1,Sa4の処理が行われて領域分割画像データG
S(c
x_i)が得られることになる。なお、
図9に示す画像領域分割装置2aの場合、学習済み学習モデルデータ記憶部62aは、チャンネルGエンコーダ24-Gに適用する学習済みの特徴抽出モデルデータと、領域分割モデルデータとを記憶していればよいことになる。
【0108】
上記した実施形態では、学習装置1が行う学習処理の処理対象となる異なるドメインの数として、チャンネルGとチャンネルBとの2つのドメインの画像データを用いる例を示している。これに対して、学習装置1が行う学習処理の処理対象となる異なるドメインの数として、3つ以上のドメインの画像データを用いるようにすることも可能である。学習処理の処理対象のドメインの数が増やす方が、より領域分割の精度を高くすることができることになる。ただし、上記した学習装置1のように、2つのドメインの画像データを処理対象として学習処理を行うことで、十分な精度の領域分割を行うことができている場合には、必ずしも処理対象のドメインの数を増やす必要はない。
【0109】
例えば、学習装置1の学習用画像データ記憶部11が記憶する学習用画像データセットとして用いることができるRGBの3チャンネルのカラーの画像データが存在しているとする。この場合に、レッドのチャンネルの画像データを用いずに、グリーンの画像データをチャンネルGの画像データとし、ブルーの画像データをチャンネルBの画像データとして、学習装置1による学習処理を行い、学習済みの学習モデルデータを生成する。生成した学習モデルデータを用いて、上記した
図9の画像領域分割装置2aを構成することにより、グリーンのドメインの任意の画像データやブルーのドメインの任意の画像データに対する領域分割のみならず、レッドのドメインの任意の画像データに対する領域分割を、グリーンやブルーのドメインの場合と同等の精度で行うことができる。この場合、3チャンネルの画像データのうち、2チャンネルの画像データを学習用画像データセットとして適用すればよいことになるため、学習用画像データセットの容量を軽減することが可能になる。
【0110】
上記の実施形態の画像領域分割装置2において、入力部61は、任意のドメインの任意の画像データを取り込んで出力する。特徴抽出部14は、学習装置1が生成した学習済みの学習モデルデータに含まれる特徴抽出モデルにより構築される特徴抽出モデル14-G,14-Bを用いて、入力部61が出力する画像データの共通特徴データを抽出する。画像領域分割部16aは、学習装置1が生成した学習済みの学習モデルデータに含まれる領域分割モデルデータにより構築される領域分割モデル16-2を用いて、特徴抽出モデル14-G,14-Bが出力する共通特徴データから画像データを領域分割した領域分割画像データを生成する。学習装置1が生成した学習済みの学習モデルデータにより構築される特徴抽出モデル14-G,14-Bは、異なるドメインごとの画像データにおいて共通する特徴である共通特徴データを、それぞれのドメインの画像データから高い精度で抽出することが可能になっている。そのため、領域分割モデル16-2は、特徴抽出モデル14-G,14-Bが抽出した共通特徴データに基づいて画像の領域分割を行う。そのため、単一のドメインの画像データを学習用データとして学習処理を行って画像の領域分割を行うよりも、精度の高い画像の領域分割を行うことが可能になる。
【0111】
なお、上記の実施形態の学習装置1の学習処理部17は、式(12)~式(13)に示すL1損失を算出する損失関数により、損失Lr(x),Lc(x),Ls(x,y)を算出している。これに対して、L1損失以外の損失関数により、損失Lr(x),Lc(x),Ls(x,y)を算出するようにしてもよい。
【0112】
上記の実施形態の学習装置1において、画像領域分割部16の入力データ取込部16-1において、チャンネルG共通特徴データc
x_G(=p
G)を入力データとすることが予め定められている場合、入力データ取込部16-1は、
図3のステップS8の処理において、特徴抽出モデル14-Gが出力するチャンネルG共通特徴データc
x_Gを取り込み、取り込んだチャンネルG共通特徴データc
x_Gを領域分割モデル16-2に出力することになる。この場合、入力データ取込部16-1は、ステップS8の処理において、特徴抽出モデル14-Bが出力するチャンネルB共通特徴データc
x_Bについては、取り込んだ後に破棄することになる。これに対して、入力データ取込部16-1において、チャンネルB共通特徴データc
x_B(=p
B)を入力データとすることが予め定められている場合、入力データ取込部16-1は、
図3のステップS8の処理において、特徴抽出モデル14-Bが出力するチャンネルB共通特徴データc
x_Bを取り込み、取り込んだチャンネルB共通特徴データc
x_Bを領域分割モデル16-2に出力することになる。この場合、入力データ取込部16-1は、ステップS8の処理において、特徴抽出モデル14-Gが出力するチャンネルG共通特徴データc
x_Gについては、取り込んだ後に破棄することになる。
【0113】
上記の実施形態の学習装置1は、ミニバッチ学習による学習処理を行っているが、バッチ学習による学習処理を行うようにしてもよい。すなわち、処理ステップカウンタvを用いず、画像カウンタuのみを用いて、
図4のステップS10の処理をステップS15の処理に置き換え、ステップS13の処理の後に処理を終了させるか、または、1エポック分が終了しても、学習モデルデータが十分に収束していない場合には、ステップS13の処理の後、再び、ステップS1からの処理が行われるようにしてもよい。
【0114】
上記の実施形態の学習装置1において、学習処理部17は、学習処理の過程において得られる全てのチャンネルGとチャンネルBの各々の共通特徴データcx_G,cx_Bと、独自特徴データsx_G,sx_Bとを消去せずに、内部の記憶領域に記憶させておくようにしてもよい。このようにしておくことで、学習処理の過程において得られたチャンネルGとチャンネルBの各々の共通特徴データcx_G,cx_Bと、独自特徴データsx_G,sx_Bを参照することにより、中間処理を可視化することが可能になる。
【0115】
上記の実施形態の構成では、
図4のステップS10,S15に示す処理において、不等号を用いた判定処理、すなわち未満であるか否かを判定する判定処理を行っている。しかしながら、本発明は、当該実施の形態に限られるものではなく、「未満であるか否か」という判定処理は一例に過ぎず、閾値の定め方に応じて、ぞれぞれ「以下であるか否か」、という判定処理に置き換えられてもよい。判定処理に用いたミニバッチ閾値や上限値についても、一例を示したものであり、それぞれにおいて異なる値が適用されてもよい。
【0116】
上記の実施形態の構成では、チャンネルGエンコーダ24-G、チャンネルBエンコーダ24-B、チャンネルG画像再現用デコーダ25-G、チャンネルB画像再現用デコーダ25-B、及び画像領域分割用デコーダ26は、深層ニューラルネットワークなどの関数近似器により構成されているとしているが、他の機械学習の手法によって構成されていてもよい。
【0117】
上記の実施形態において示した学習装置1と、画像領域分割装置2とは、一体化されて構成されてもよい。一体化されて構成される際には、例えば、画像領域分割装置2の入力部61は、学習用画像データ取込部12に備えられる構成になる。学習装置1と画像領域分割装置2とが一体化された装置は、学習モードと推定モードとを有する。学習モードは、学習装置1による学習処理を行って学習モデルデータを生成するモードである。すなわち、学習モードでは、学習装置1と画像領域分割装置2とが一体化された装置は、
図3,
図4に示す処理を実行する。推定モードは、学習済みの学習モデルデータにより構築された特徴抽出モデル14-G,14-B、及び領域分割モデル16-2を用いて、異なるドメインのいずれか1つのドメインの任意の画像データから領域分割画像データを生成するモードである。すなわち、推定モードでは、学習用画像データ取込部12に備えられる入力部61が動作し、学習装置1と画像領域分割装置2とが一体化された装置は、
図8に示す処理を実行する。同様に、学習装置1と画像領域分割装置2aとが一体化されて構成されていてもよい。
【0118】
上記した実施形態における学習装置1、及び画像領域分割装置2,2aをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0119】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0120】
1…学習装置、11…学習用画像データ記憶部、12…学習用画像データ取込部、13…学習モデルデータ記憶部、14…特徴抽出部、15…画像再現部、16…画像領域分割部、17…学習処理部