特開2024-31118 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-31118画像処理装置及びその作動方法並びに内視鏡システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024031118

(43)【公開日】2024-03-07

(54)【発明の名称】画像処理装置及びその作動方法並びに内視鏡システム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240229BHJP

A61B 1/045 20060101ALI20240229BHJP

G06V 10/70 20220101ALI20240229BHJP

【ＦＩ】

G06T7/00 350B

A61B1/045 614

G06V10/70

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2022134466

(22)【出願日】2022-08-25

(71)【出願人】

【識別番号】306037311

【氏名又は名称】富士フイルム株式会社

(74)【代理人】

【識別番号】110001988

【氏名又は名称】弁理士法人小林国際特許事務所

(72)【発明者】

【氏名】大酒正明

【テーマコード（参考）】

4C161

5L096

【Ｆターム（参考）】

4C161CC06

4C161SS21

5L096BA06

5L096BA13

5L096DA01

5L096EA02

5L096EA03

5L096HA11

5L096JA11

5L096KA04

(57)【要約】

【課題】機械学習の学習に用いる画像以上の解像度を有する画像を生成する超解像を精度よく行うことができる画像処理装置及びその作動方法並びに内視鏡システムを提供する。
【解決手段】プロセッサは、ソース画像に劣化処理を行った学習用入力画像を入力とし、学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力する学習モデルを更新して学習済みモデルを生成する。学習モデルの第２中間層は、折り返し層及び第１中間層からの特徴マップに基づき、第１学習用出力画像を出力する第１出力層に入力する特徴マップを出力する。第３中間層は、折り返し層からの特徴マップに基づき、第２学習用出力画像を出力する第２出力層に入力する特徴マップを出力する。
【選択図】図４

【特許請求の範囲】

【請求項1】

プロセッサを備え、
前記プロセッサは、
ソース画像を取得し、
前記ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成し、
前記学習用入力画像を学習モデルに入力することにより、前記学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力し、
前記第１学習用出力画像及び前記ソース画像に基づき、第１損失を算出し、
前記第２学習用出力画像及び前記ソース画像に基づき、第２損失を算出し、
前記第１損失及び前記第２損失に基づき、前記学習モデルを更新することにより、学習済みモデルを生成し、
前記学習モデルは、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、
前記入力層は、前記学習用入力画像を入力されることにより、前記第１中間層に入力する特徴マップを出力し、
前記第１中間層は、前記入力層が出力する前記特徴マップを入力されることにより、前記折り返し層及び前記第２中間層に入力する前記特徴マップを出力し、
前記折り返し層は、前記第１中間層から入力される前記特徴マップに基づき、前記第２中間層及び前記第３中間層に入力する前記特徴マップを出力し、
前記第２中間層は、前記折り返し層から入力される前記特徴マップと、前記第１中間層から入力される前記特徴マップとに基づき、前記第１出力層に入力する前記特徴マップを出力し、
前記第１出力層は、前記第２中間層から入力される前記特徴マップに基づき、前記第１学習用出力画像を出力し、
前記第３中間層は、前記折り返し層から入力される前記特徴マップに基づき、前記第２出力層に入力する前記特徴マップを出力し、
前記第２出力層は、前記第３中間層から入力される前記特徴マップに基づき、前記第２学習用出力画像を出力する画像処理装置。

【請求項2】

前記学習用入力画像、前記第１学習用出力画像、前記第２学習用出力画像及び前記特徴マップの情報量は、前記画素数、チャンネル数及びデータ型に応じたビット数によって決定され、
前記折り返し層は、前記チャンネル数又は前記ビット数を変更する情報量削減処理により、前記折り返し層が出力する前記特徴マップの情報量を、前記学習用入力画像の前記情報量より小さくする請求項１に記載の画像処理装置。

【請求項3】

前記情報量削減処理は、前記チャンネル数を小さくする処理である請求項２に記載の画像処理装置。

【請求項4】

前記情報量削減処理は、前記ビット数を小さくする処理である請求項２に記載の画像処理装置。

【請求項5】

前記第１中間層は、前記入力層から入力される前記特徴マップの前記画素数を小さくする処理を行う請求項３又は４に記載の画像処理装置。

【請求項6】

前記第２中間層及び前記第３中間層は、前記折り返し層から入力される前記特徴マップの前記画素数を大きくする処理を行う請求項５に記載の画像処理装置。

【請求項7】

前記劣化処理は、前記ソース画像の前記画素数を小さくする処理を含む請求項１に記載の画像処理装置。

【請求項8】

前記劣化処理は、フィルタ処理及び／又はノイズ付加処理を含む請求項７に記載の画像処理装置。

【請求項9】

前記プロセッサは、
前記第２中間層に、前記学習用入力画像をさらに入力する請求項１に記載の画像処理装置。

【請求項10】

前記プロセッサは、
前記学習済みモデルに、第１の画素数を有する推論用入力画像を入力することにより、前記第１の画素数より大きい第２の画素数を有する超解像画像を出力し、
前記第１の画素数に対する前記第２の画素数の比率は、前記学習用入力画像が有する画素数に対する前記第１学習用出力画像及び前記第２学習用出力画像が有する画素数の比率と等しい請求項１に記載の画像処理装置。

【請求項11】

ソース画像を取得するステップと、
前記ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成するステップと、
前記学習用入力画像を学習モデルに入力することにより、前記学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力するステップと、
前記第１学習用出力画像及び前記ソース画像に基づき、第１損失を算出するステップと、
前記第２学習用出力画像及び前記ソース画像に基づき、第２損失を算出するステップと、
前記第１損失及び前記第２損失に基づき、前記学習モデルを更新することにより、学習済みモデルを生成するステップと、を有し、
前記学習モデルは、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、
前記入力層は、前記学習用入力画像を入力されることにより、前記第１中間層に入力する特徴マップを出力し、
前記第１中間層は、前記入力層が出力する前記特徴マップを入力されることにより、前記折り返し層及び前記第２中間層に入力する前記特徴マップを出力し、
前記折り返し層は、前記第１中間層から入力される前記特徴マップに基づき、前記第２中間層及び前記第３中間層に入力する前記特徴マップを出力し、
前記第２中間層は、前記折り返し層から入力される前記特徴マップと、前記第１中間層から入力される前記特徴マップとに基づき、前記第１出力層に入力する前記特徴マップを出力し、
前記第１出力層は、前記第２中間層から入力される前記特徴マップに基づき、前記第１学習用出力画像を出力し、
前記第３中間層は、前記折り返し層から入力される前記特徴マップに基づき、前記第２出力層に入力する前記特徴マップを出力し、
前記第２出力層は、前記第３中間層から入力される前記特徴マップに基づき、前記第２学習用出力画像を出力する画像処理装置の作動方法。

【請求項12】

プロセッサを備え、
前記プロセッサは、
ソース画像を取得し、
前記ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成し、
前記学習用入力画像を生成器に入力することにより、前記学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力し、
前記第１学習用出力画像及び前記第２学習用出力画像を識別器に入力することにより、
前記第１学習用出力画像に基づく第１識別結果と、前記第２学習用出力画像に基づく第２識別結果とを出力し、
前記第１識別結果に基づく第１識別器損失と、前記第２識別結果に基づく第２識別器損失とを算出し、
前記第１識別器損失及び前記第２識別器損失に基づき、前記識別器を更新し、
前記第１識別結果及び前記ソース画像に基づく第１生成器損失と、前記第２識別結果及び前記ソース画像に基づく第２生成器損失とを算出し、
前記第１生成器損失及び前記第２生成器損失に基づき、前記生成器を更新することにより、学習済みの生成器を生成し、
前記生成器は、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、
前記入力層は、前記学習用入力画像を入力されることにより、前記第１中間層に入力する特徴マップを出力し、
前記第１中間層は、前記入力層が出力する前記特徴マップを入力されることにより、前記折り返し層及び前記第２中間層に入力する前記特徴マップを出力し、
前記折り返し層は、前記第１中間層から入力される前記特徴マップに基づき、前記第２中間層及び前記第３中間層に入力する前記特徴マップを出力し、
前記第２中間層は、前記折り返し層から入力される前記特徴マップと、前記第１中間層から入力される前記特徴マップとに基づき、前記第１出力層に入力する前記特徴マップを出力し、
前記第１出力層は、前記第２中間層から入力される前記特徴マップに基づき、前記第１学習用出力画像を出力し、
前記第３中間層は、前記折り返し層から入力される前記特徴マップに基づき、前記第２出力層に入力する前記特徴マップを出力し、
前記第２出力層は、前記第３中間層から入力される前記特徴マップに基づき、前記第２学習用出力画像を出力する画像処理装置。

【請求項13】

プロセッサを備える画像処理装置であって、
前記プロセッサは、
第１の画素数を有する内視鏡画像を取得し、
前記内視鏡画像を学習済みモデルに入力することにより、前記第１の画素数より大きい第２の画素数を有する超解像画像を出力し、
前記学習済みモデルは、前記第１の画素数以下である第３の画素数を有するソース内視鏡画像を劣化処理することによって生成された第３の画素数より小さい第４の画素数を有する学習用入力画像を用いて、前記第４の画素数より大きい第５の画素数を有する第１学習用出力画像及び第２学習用出力画像を出力する学習モデルを、前記第１学習用出力画像及び前記ソース内視鏡画像に基づく第１損失と、前記第２学習用出力画像及び前記ソース内視鏡画像に基づく第２損失とに基づいて更新することによって生成される画像処理装置。

【請求項14】

前記プロセッサは、
前記超解像画像と、前記内視鏡画像が高解像度化処理されたことを示す情報とを表示する制御を行う請求項１３に記載の画像処理装置。

【請求項15】

前記第１の画素数に対する第２の画素数の比率と、前記第４の画素数に対する第５の画素数の比率とは等しい請求項１３又は１４に記載の画像処理装置。

【請求項16】

前記第３の画素数と、前記第１の画素数とは等しい請求項１５に記載の画像処理装置。

【請求項17】

請求項１３に記載の画像処理装置と、
被写体を撮影することにより、前記内視鏡画像を生成する内視鏡と、
ディスプレイと、を備え、
前記プロセッサは、
前記ディスプレイに、前記超解像画像を表示する制御を行う内視鏡システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像に対する超解像を行う画像処理装置及びその作動方法並びに内視鏡システムに関する。

【背景技術】

【0002】

未知の画像を高解像度化する超解像を精度よく行うために、深層学習が用いられることがある。例えば、特許文献１には、低解像度画像と分類スコアとを入力として高解像度画像を出力するニューラルネットワークが記載されている。特許文献１には、ニューラルネットワークに入力する学習用データに用いられる低解像度画像は、高解像度画像をダウンサンプリングして生成されてもよいと記載されている。また、画素数の少ないカメラで撮像した画像を低解像度画像、同一被写体を画素数の多いカメラで撮像した画像を高解像度画像としても良いと記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－２４６１２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

解像度が高い画像を生成する深層学習を学習させるためは、学習用のソース画像として、高解像度の画像を用意することが望ましい。しかしながら、ソース画像を撮影又は生成する装置のスペックによっては、高画質な学習用のソース画像を用意することができない場合がある。ソース画像よりも解像度が高い超解像画像を、深層学習を用いて得ることは、このようなソース画像が得られない場合には特に難しい。また、高解像度のソース画像を用意できない場合に、深層学習によって生成された超解像画像は、超解像処理を行う前の深層学習に入力される劣化画像の特徴を適切に反映できない場合がある。

【0005】

本発明は、機械学習の学習に用いる画像以上の解像度を有する画像を生成する超解像を精度よく行うことができる画像処理装置及びその作動方法並びに内視鏡システムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の画像処理装置は、プロセッサを備え、プロセッサは、ソース画像を取得し、ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成し、学習用入力画像を学習モデルに入力することにより、学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力し、第１学習用出力画像及びソース画像に基づき、第１損失を算出し、第２学習用出力画像及びソース画像に基づき、第２損失を算出し、第１損失及び第２損失に基づき、学習モデルを更新することにより、学習済みモデルを生成し、学習モデルは、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、入力層は、学習用入力画像を入力されることにより、第１中間層に入力する特徴マップを出力し、第１中間層は、入力層が出力する特徴マップを入力されることにより、折り返し層及び第２中間層に入力する特徴マップを出力し、折り返し層は、第１中間層から入力される特徴マップに基づき、第２中間層及び第３中間層に入力する特徴マップを出力し、第２中間層は、折り返し層から入力される特徴マップと、第１中間層から入力される特徴マップとに基づき、第１出力層に入力する特徴マップを出力し、第１出力層は、第２中間層から入力される特徴マップに基づき、第１学習用出力画像を出力し、第３中間層は、折り返し層から入力される特徴マップに基づき、第２出力層に入力する特徴マップを出力し、第２出力層は、第３中間層から入力される特徴マップに基づき、第２学習用出力画像を出力する。

【0007】

学習用入力画像、第１学習用出力画像、第２学習用出力画像及び特徴マップの情報量は、画素数、チャンネル数及びデータ型に応じたビット数によって決定され、折り返し層は、チャンネル数又はビット数を変更する情報量削減処理により、折り返し層が出力する特徴マップの情報量を、学習用入力画像の情報量より小さくすることが好ましい。

【0008】

情報量削減処理は、チャンネル数を小さくする処理であることが好ましい。情報量削減処理は、ビット数を小さくする処理であることが好ましい。

【0009】

第１中間層は、入力層から入力される特徴マップの画素数を小さくする処理を行うことが好ましい。

【0010】

第２中間層及び第３中間層は、折り返し層から入力される特徴マップの画素数を大きくする処理を行うことが好ましい。

【0011】

劣化処理は、ソース画像の画素数を小さくする処理を含むことが好ましい。劣化処理は、フィルタ処理及び／又はノイズ付加処理を含むことが好ましい。プロセッサは、第２中間層に、学習用入力画像をさらに入力することが好ましい。

【0012】

プロセッサは、学習済みモデルに、第１の画素数を有する推論用入力画像を入力することにより、第１の画素数より大きい第２の画素数を有する超解像画像を出力し、第１の画素数に対する第２の画素数の比率は、学習用入力画像が有する画素数に対する第１学習用出力画像及び第２学習用出力画像が有する画素数の比率と等しいことが好ましい。

【0013】

本発明の画像処理装置の作動方法は、ソース画像を取得するステップと、ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成するステップと、学習用入力画像を学習モデルに入力することにより、学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力するステップと、第１学習用出力画像及びソース画像に基づき、第１損失を算出するステップと、第２学習用出力画像及びソース画像に基づき、第２損失を算出するステップと、第１損失及び第２損失に基づき、学習モデルを更新することにより、学習済みモデルを生成するステップと、を有し、学習モデルは、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、入力層は、学習用入力画像を入力されることにより、第１中間層に入力する特徴マップを出力し、第１中間層は、入力層が出力する特徴マップを入力されることにより、折り返し層及び第２中間層に入力する特徴マップを出力し、折り返し層は、第１中間層から入力される特徴マップに基づき、第２中間層及び第３中間層に入力する特徴マップを出力し、第２中間層は、折り返し層から入力される特徴マップと、第１中間層から入力される特徴マップとに基づき、第１出力層に入力する特徴マップを出力し、第１出力層は、第２中間層から入力される特徴マップに基づき、第１学習用出力画像を出力し、第３中間層は、折り返し層から入力される特徴マップに基づき、第２出力層に入力する特徴マップを出力し、第２出力層は、第３中間層から入力される特徴マップに基づき、第２学習用出力画像を出力する。

【0014】

本発明の画像処理装置は、プロセッサを備え、プロセッサは、ソース画像を取得し、ソース画像に対して劣化処理を行うことにより、学習用入力画像を生成し、学習用入力画像を生成器に入力することにより、学習用入力画像より画素数が大きい第１学習用出力画像及び第２学習用出力画像を出力し、第１学習用出力画像及び第２学習用出力画像を識別器に入力することにより、第１学習用出力画像に基づく第１識別結果と、第２学習用出力画像に基づく第２識別結果とを出力し、第１識別結果に基づく第１識別器損失と、第２識別結果に基づく第２識別器損失とを算出し、第１識別器損失及び第２識別器損失に基づき、識別器を更新し、第１識別結果及びソース画像に基づく第１生成器損失と、第２識別結果及びソース画像に基づく第２生成器損失を算出し、第１生成器損失及び第２生成器損失に基づき、生成器を更新することにより、学習済みの生成器を生成し、生成器は、入力層、第１中間層、折り返し層、第２中間層、第１出力層、第３中間層及び第２出力層を有し、入力層は、学習用入力画像を入力されることにより、第１中間層に入力する特徴マップを出力し、第１中間層は、入力層が出力する特徴マップを入力されることにより、折り返し層及び第２中間層に入力する特徴マップを出力し、折り返し層は、第１中間層から入力される特徴マップに基づき、第２中間層及び第３中間層に入力する特徴マップを出力し、第２中間層は、折り返し層から入力される特徴マップと、第１中間層から入力される特徴マップとに基づき、第１出力層に入力する特徴マップを出力し、第１出力層は、第２中間層から入力される特徴マップに基づき、第１学習用出力画像を出力し、第３中間層は、折り返し層から入力される特徴マップに基づき、第２出力層に入力する特徴マップを出力し、第２出力層は、第３中間層から入力される特徴マップに基づき、第２学習用出力画像を出力する。

【0015】

本発明の画像処理装置は、プロセッサを備える画像処理装置であって、プロセッサは、
第１の画素数を有する内視鏡画像を取得し、内視鏡画像を学習済みモデルに入力することにより、第１の画素数より大きい第２の画素数を有する超解像画像を出力し、学習済みモデルは、第１の画素数以下である第３の画素数を有するソース内視鏡画像を劣化処理することによって生成された第３の画素数より小さい第４の画素数を有する学習用入力画像を用いて、第４の画素数より大きい第５の画素数を有する第１学習用出力画像及び第２学習用出力画像を出力する学習モデルを、第１学習用出力画像及びソース内視鏡画像に基づく第１損失と、第２学習用出力画像及びソース内視鏡画像に基づく第２損失とに基づいて更新することによって生成される。

【0016】

プロセッサは、超解像画像と、内視鏡画像が高解像度化処理されたことを示す情報とを表示する制御を行うことが好ましい。

【0017】

第１の画素数に対する第２の画素数の比率と、第４の画素数に対する第５の画素数の比率とは等しいことが好ましい。第３の画素数と、第１の画素数とは等しいことが好ましい。

【0018】

本発明の内視鏡システムは、上記の画像処理装置と、被写体を撮影することにより、内視鏡画像を生成する内視鏡と、ディスプレイと、を備え、プロセッサは、ディスプレイに、超解像画像を表示する制御を行う。

【発明の効果】

【0019】

本発明によれば、機械学習の学習に用いる画像以上の解像度を有する画像を生成する超解像を精度よく行うことができる。

【図面の簡単な説明】

【0020】

【図1】画像処理装置の機能を示すブロック図である。

【図2】学習部の機能を示すブロック図である。

【図3】推論部の機能を示すブロック図である。

【図4】学習モデルの機能を示すブロック図である。

【図5】第１中間層、第２中間層及び第３中間層の機能を示す説明図である。

【図6】情報量削減処理について示す説明図である。

【図7】GANを適用した場合の学習部の機能を示すブロック図である。

【図8】推論用入力画像が内視鏡画像である場合の推論部の機能を示す説明図である。

【図9】推論用入力画像が内視鏡画像である場合の学習部の機能を示す説明図である。

【図10】学習済みモデルの機能を示すブロック図である。

【図11】超解像画像と報知表示とを表示する場合の例を示す画像図である。

【図12】本実施形態の機能の流れを示すフローチャートである。

【発明を実施するための形態】

【0021】

図１に示すように、画像処理装置１０は、学習部１１及び推論部１２を有する。学習部１１は、データベース２０から画像処理装置１０に入力される学習用のソース画像を用い、機械学習が適用された学習モデル１００のパラメータを最適化することにより、学習済みモデル２００を生成する。

【0022】

学習モデル１００に適用される機械学習には、決定木、サポートベクトルマシン、ランダムフォレスト、回帰分析、深層学習、強化学習、深層強化学習、ニューラルネットワーク、畳み込みニューラルネットワーク、敵対的生成ネットワーク等が含まれる。学習モデル１００の具体的な構成については後述する。

【0023】

推論部１２は、学習部１１において生成された学習済みモデル２００に、データベース２０から送信される、ソース画像とは異なる未知の画像である推論用入力画像を入力することにより、未知の画像の特徴を有し、かつ、未知の画像より解像度が高い超解像画像を生成する。詳しくは後述するが、学習済みモデル２００に入力する推論用入力画像の画素数は、学習に用いるソース画像の画素数と等しいか、ソース画像の画素数より大きい。

【0024】

データベース２０には、学習モデル１００の学習に用いるソース画像及び学習済みモデルの推論によって超解像画像を生成する元の画像となる推論用入力画像が保存されている。データベース２０は、画像を保存するストレージ、ファイルサーバ、クラウドストレージ等である。データベース２０は、病院情報システム（いわゆるＨＩＳ（Hospital Information Systems））、ＰＡＣＳ（Picture Archiving and Communication Systems）等の、画像処理装置１０と直接的又は間接的に連携するシステムの一部であってもよい。

【0025】

データベース２０に保存されるソース画像又は推論用入力画像は、モダリティ３０から送信される。本実施形態の画像処理装置１０は、モダリティ３０が、医用画像を生成する、内視鏡、放射線画像撮影装置、超音波画像撮影装置等の医用画像生成装置である場合に好適である。医用画像は、内視鏡画像、放射線画像、超音波画像等である。また、本実施形態の画像処理装置１０は、モダリティ３０が内視鏡であって、ソース画像及び推論用入力画像が内視鏡画像である場合において特に好適である。ソース画像及び推論用入力画像を内視鏡画像とする例については、後に詳述する。

【0026】

画像処理装置１０、データベース２０、モダリティ３０は、有線又は無線で相互に通信可能に接続されている。無線による接続には、ネットワークによる接続があり、例えば、インターネット又はLAN（Local Area Network）である。

【0027】

図２に示すように、学習部１１は、劣化処理部４０、学習モデル１００、評価部５０及び更新部６０を有する。また、図３に示すように、推論部１２は、学習モデル１００を学習することによって生成した学習済みモデル２００及び表示制御部７０を有する。画像処理装置１０には、各種処理に関するプログラムがプログラム用メモリ（図示しない）に組み込まれている。プロセッサによって構成される制御部（図示しない）が、プログラム用メモリ内のプログラムを実行することによって、学習部１１の劣化処理部４０、学習モデル１００、評価部５０及び更新部６０並びに推論部１２の学習済みモデル２００及び表示制御部７０の機能が実現する。

【0028】

なお、学習部１１と、推論部１２とを分離してそれぞれ異なる装置に備え、相互に通信するように画像処理装置１０を構成してもよい。また、学習部１１及び推論部１２の各構成部を分離してそれぞれ異なる装置に備え、相互に通信するように画像処理装置１０を構成してもよい。この場合、それぞれの装置に、プロセッサによって構成される制御部が備えられる。

【0029】

図２に示すように、データベース２０は、ソース画像２１を学習部１１の劣化処理部４０に入力する。劣化処理部４０は、ソース画像２１に対する劣化処理を行い、ソース画像２１よりも画素数が小さい学習用入力画像４１を生成する。劣化処理は、ソース画像２１の画素数を小さくする、ソース画像２１に対する低解像度化処理である。画素数は、画像の幅と高さで表される、１枚の画像が有する画素の数であり、ピクセル数とも呼ばれる。なお、本明細書では、「画素数」の文言を、「解像度」を意味する文言として用いる。画像が有する画素数が大きいほど、画像の解像度は大きくなり、複雑な構造を詳細に表すことができる。一方、画像が有する画素数が小さいほど、解像度は小さくなり、輪郭がぼやけた荒い画像となる。

【0030】

劣化処理は、ソース画像２１に対するフィルタ処理及び／又はノイズ付加処理が含まれる。フィルタ処理は、ソース画像に対してガウシアンフィルタ、平均化フィルタ、メディアンフィルタ、バイラテラルフィルタ等のフィルタを適用し、ぼかし又は縮小によってソース画像２１を劣化させる処理である。ノイズ付加処理は、ソース画像２１が有する画素の画素値をランダムに最大値又は最小値にする処理、ソース画像２１が有する画素の輝度を乱数によって変更させる処理等により、ノイズを与えてソース画像２１を劣化させる処理である。

【0031】

劣化処理によって得られた学習用入力画像４１は、学習モデル１００に入力される。学習モデル１００は、学習用入力画像４１に対する特徴抽出及び高解像度化処理を行い、第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する。学習モデル１００は、学習用入力画像４１に対する高解像度化処理を行うため、第１学習用出力画像１０１及び第２学習用出力画像１０２は、学習用入力画像４１よりも画素数が大きい。学習モデル１００は１つの入力層、２つの中間層及び２つの出力層を有する。本実施形態における、学習モデル１００の２つの中間層及び２つの出力層の詳細については後述する。

【0032】

評価部５０は、第１学習用出力画像１０１及びソース画像２１を評価用のモデルである損失関数に適用し、第１損失５１を算出する。また、第２学習用出力画像１０２及びソース画像２１を損失関数に適用し、第２損失５２を算出する。第１損失５１及び第２損失５２の計算には、平均二乗誤差（Mean Squared Error: MSE）を用いることが好ましい。第１損失５１が小さいほど、第１学習用出力画像１０１とソース画像２１との差が小さい。第２損失５２が小さいほど、また、第２学習用出力画像１０２とソース画像２１との差が小さい。損失が「０」に近いほど、学習モデル１００の出力精度が高いことを意味する。以下、第１損失５１及び第２損失５２のいずれか又は両方を指す文言として、「損失」の文言を用いる。

【0033】

更新部６０は、損失が「０」に近づくように（最小化するように）、学習モデル１００のパラメータを設定し、パラメータを更新する。評価部５０が行う損失の算出及び更新部６０が行うパラメータの更新は、第１損失５１及び第２損失５２が予め設定された値となるまで繰り返し続けられる。損失の算出及びパラメータの更新の終了を指示するための値は、ある範囲内の値としてもよく、ある閾値以上又は未満としてもよい。学習モデル１００の学習、すなわち、学習済みモデル２００の生成とは、損失を最小化するためのパラメータの最適化処理のことを意味する。最適化されたパラメータは、推論部１２における、学習済みモデル２００のパラメータとして用いられる。なお、画像処理装置１０に、パラメータを保存するためのパラメータ保存用メモリ（図示しない）を設けてもよい。

【0034】

学習モデル１００の学習によって生成された学習済みモデル２００は、図３に示すように、データベース２０から送信される推論用入力画像２０１に対する特徴抽出及び高解像度化処理を行い、超解像画像２０２を出力する。なお、超解像とは、入力信号である低解像度の画像から、高解像度の画像を生成する高解像度化処理のことをいう。

【0035】

学習済みモデル２００によって出力された超解像画像２０２は、表示制御部７０に送信される。表示制御部７０は、超解像画像２０２をディスプレイ８０に表示するための表示用の信号処理を行い、超解像画像２０２をディスプレイ８０に表示する制御を行う。

【0036】

以下、図４を参照し、学習モデル１００の構成について説明する。学習モデル１００には、畳み込みニューラルネットワーク（Convolutional Neural Network；CNN）が適用されることが好ましい。

【0037】

図４に示すように、学習モデル１００は、入力層１１０、第１中間層１２０、折り返し層１３０、第２中間層１４０、第１出力層１５０、第３中間層１６０及び第２出力層１７０を有する。

【0038】

入力層１１０、第１中間層１２０及び折り返し層１３０で構成されるネットワークは、学習用入力画像４１に対する特徴抽出を行うネットワークであり、エンコーダ・デコーダ構造であるモデルのエンコーダに相当するネットワークである。

【0039】

入力層１１０は、劣化処理部４０から学習用入力画像４１を入力されることにより、第１中間層１２０に入力する特徴マップ１１１を出力する。学習用入力画像４１のデータ型は整数型であり、特徴マップ１１１のデータ型は浮動小数点であることが好ましい。学習用入力画像４１のデータ型の整数型から浮動小数点への変換は、劣化処理部４０で行われてもよく、劣化処理部４０から入力層１１０へ入力までの段階において行われてもよく、入力層１１０から後述する畳み込み層への入力までの段階において行われてもよい。

【0040】

第１中間層１２０は、入力層１１０が出力する特徴マップ１１１を入力されることにより、折り返し層１３０及び第２中間層１４０に入力する特徴マップ１２０ａを出力する。第１中間層１２０は、特徴マップ１１１に対する畳み込み及び／又はプーリングを行うことにより、学習用入力画像４１の特徴を抽出した特徴マップ１２０ａを出力する。

【0041】

畳み込みは、入力された画像データにフィルタを適用し、フィルタの有するパターンが、入力された画像データのいずれの位置にあるかを示す特徴マップを抽出する（出力する）処理である。フィルタは、畳み込みカーネル又は単にカーネルとも呼ばれる。畳み込みによって抽出される特徴マップの画素数は、画像データの周辺に画素値を補間するパディング及び画像データに対するフィルタの適用間隔（ストライド）の設定により、入力される特徴マップの画素数と同じにすることができ、また、小さくすることもできる。なお、本明細書において、「特徴マップ」の文言は、「特徴量」を意味する文言としても用いる。

【0042】

プーリングは、各特徴マップに属する局所領域が有する値を要約し、画像データである特徴マップの画素数を小さくする処理である。局所領域とは、特徴マップのうち１つの画素を中心とした複数の画素で構成される領域のことをいう。プーリングには、最大プーリング（max pooling）、平均プーリング（average pooling）等がある。最大プーリングは、局所領域に含まれる画素が有する画素値のうち、最大値を選択し、出力される特徴マップの画素の画素値とする処理である。平均プーリングは、局所領域に含まれる画素が有する画素値の平均値を選し、出力される特徴マップの画素の画素値とする処理である。畳み込み又はプーリングによって特徴マップの画素数を小さくする処理は、ダウンサンプリングとも呼ばれる。第１中間層１２０は、ダウンサンプリングにより、入力層１１０から入力される特徴マップの画素数を小さくすることが好ましい。

【0043】

折り返し層１３０は、第１中間層１２０から入力される特徴マップ１２０ａに基づき、第２中間層１４０及び第３中間層１６０に入力する特徴マップ１３１を出力する。折り返し層１３０は、第１中間層１２０と同様に、特徴マップ１２０ａに対する畳み込み及び／又はプーリングを行う。

【0044】

折り返し層１３０から出力される特徴マップ１３１の画素数は、特徴マップ１３１の画素数は、学習用入力画像４１と同じであってもよいが、学習及び推論における出力処理を速くするために、学習用入力画像４１よりも小さいことが好ましい。

【0045】

第２中間層１４０及び第１出力層１５０で構成されるネットワークは、折り返し層１３０から出力される、学習用入力画像４１の特徴を有する特徴マップ１３１に対する高解像度化処理を、第１中間層１２０から出力される特徴マップ１２０ａをさらに用いて行い、学習用入力画像４１よりも画素数が大きい第１学習用出力画像１０１を出力する。第２中間層１４０及び第１出力層１５０で構成されるネットワークは、エンコーダ・デコーダ構造のモデルの、デコーダに相当する。

【0046】

図４に示すように、本実施形態の学習モデル１００は、デコーダを２つ有する。第２中間層１４０及び第１出力層１５０で構成されるネットワークは、第１のデコーダである。また、後述する第３中間層１６０及び第２出力層１７０で構成されるネットワークは、第２のデコーダである。

【0047】

第２中間層１４０は、折り返し層１３０から入力される特徴マップ１３１と、第１中間層１２０から入力される特徴マップ１２０ａとに基づき、第１出力層１５０に入力する特徴マップ１４０ａを出力する。高解像度化処理には、特徴マップを構成する画素に係る画素値をいくつかの画素間隔で配置し、その間の画素の値を補間するアップサンプリング、また、画素値の補間をしないアップサンプリングと畳み込みを組み合わせたアップコンボリューション等がある。アップサンプリングはアンプーリングとも呼ばれ、アップコンボリューションは転置畳み込みやデコンボリューションとも呼ばれる。第２中間層１４０及び後述する第３中間層１６０は、アップサンプリング又はアップコンボリューションにより、折り畳み層１３０から入力される特徴マップ１３１の画素数を大きくする処理を行う。

【0048】

第２中間層１４０では、第１中間層１２０から出力される特徴マップ１２０ａがスキップ接続（skip connection）される。スキップ接続により、第２中間層１４０からは、特徴マップ１３１及び特徴マップ１２０ａに対する高解像度化処理が行われた特徴マップが、特徴マップ１４０ａとして出力される。

【0049】

すなわち、入力層１１０、第１中間層１２０及び折り返し層１３０で構成されるエンコーダと、第２中間層１４０及び第１出力層１５０で構成される第１のデコーダとに着目すると、U-netと呼ばれる、第１中間層１２０と、第２中間層１４０とが左右対称の形をとるネットワークとなる。U-netでは、エンコーダの層と対応するデコーダの層とを接続することにより、エンコーダの中間層から出力される特徴量をデコーダで共有できるため、デコーダから非常に高い精度の出力を行うことができることが一般的に知られている。

【0050】

本実施形態の学習モデル１００では、第２中間層１４０に、第１中間層１２０から出力される特徴マップ１２０ａが接続されることにより、学習用入力画像４１の特徴を有する特徴マップ１３１を、効率よく、かつ、高精度に高解像度化処理を行うことができる。折り返し層１３０は、エンコーダの最も後段階の層であり、U-netの「折り返し」の、U字の底部に相当する層である。

【0051】

第１出力層１５０は、第２中間層１４０から入力される特徴マップ１４０ａに基づき、第１学習用出力画像１０１を出力する。第１出力層１５０は、特徴マップ１４０ａに、ReLU（Rectified Linear Unit）関数等の活性化関数を適用することにより、第１学習用出力画像１０１を出力する。なお、活性化関数は、第１中間層１２０、第２中間層１４０及び第３中間層１６０で畳み込みが行われた特徴マップにも適用される。第１出力層１５０から出力された第１学習用出力画像１０１は、評価部５０に送信される。

【0052】

特徴マップ１４０ａのデータ型は浮動小数点であり、第１学習用出力画像１０１のデータ型は整数型であることが好ましい。第１学習用出力画像１０１のデータ型の浮動小数点から整数型への変換は、第１出力層１５０で行われてもよく、第１出力層１５０から評価部５０へ入力までの段階において行われてもよい。

【0053】

第３中間層１６０及び第２出力層１７０で構成される、第２のデコーダであるネットワークは、折り返し層１３０から出力される特徴マップ１３１に対する高解像度化処理を行うことにより、学習用入力画像４１よりも画素数が大きい第２学習用出力画像１０２を出力する。

【0054】

第２のデコーダのうち、第３中間層１６０は、特徴マップ１３１に基づき、第２出力層１７０に入力する特徴マップ１６０ａを出力する。第３中間層１６０では、第２中間層１４０とは異なり、第１中間層１２０から出力される特徴マップ１２０ａのスキップ接続は行われない。

【0055】

第２出力層１７０は、第３中間層１６０から入力される特徴マップ１６０ａに基づき、第２学習用出力画像１０２を出力する。第２出力層１７０は、特徴マップ１６０ａに活性化関数を適用することにより、第２学習用出力画像１０２を出力する。第２学習用出力画像１０２は、評価部５０に送信される。

【0056】

特徴マップ１６０ａのデータ型は浮動小数点であり、第２学習用出力画像１０２のデータ型は整数型であることが好ましい。第２学習用出力画像１０２のデータ型の浮動小数点から整数型への変換は、第２出力層１７０で行われてもよく、第２出力層１７０から評価部５０へ入力までの段階において行われてもよい。

【0057】

評価部５０は、第１出力層１５０から出力された第１学習用出力画像１０１と、データベース２０から送信されるソース画像２１とを、損失関数に適用して比較することにより、第１損失５１を算出する。また、評価部５０は、第２出力層１７０から出力された第２学習用出力画像１０２と、データベース２０から送信されるソース画像２１とを、損失関数に適用して比較することにより、第２損失５２を算出する。損失は、上述のとおり、更新部６０によるパラメータの最適化処理に用いる。

【0058】

上記のように、エンコーダからの特徴マップ１２０ａを接続する第１のデコーダだけでなく、エンコーダからの特徴マップ１２０ａを接続しない第２のデコーダを含むように学習モデル１００を構成して学習を行うことにより、エンコーダが学習用入力画像４１のより重要な特徴を抽出できるように、エンコーダのパラメータを更新することができる。このようにエンコーダのパラメータを更新すると、第１のデコーダ及び第２のデコーダのパラメータも、学習用入力画像４１の特徴をより強く反映して高解像度化処理を行った画像を出力するように更新される。

【0059】

図５を用いて、学習モデル１００の構成と機能についてより詳しく説明する。図５に示すように、第１中間層１２０は、畳み込みを行う複数の畳み込み層１２１、１２２、１２３、１２４を有する。第２中間層１４０は、高解像度化処理を行う複数のアップサンプリング層１４１、１４２、１４３、１４４を有する。また、第３中間層１６０も、複数のアップサンプリング層１６１、１６２、１６３、１６４を有する。図５では記載を省略しているが、第２中間層１４０及び第３中間層１６０は、各アップサンプリング層の後段階に畳み込み層を設けることが好ましい。また、第１中間層１２０は、各畳み込み層の後段階に、プーリングを行うプーリング層を設けてもよい。

【0060】

図５では、第１中間層１２０、第２中間層１４０及び第３中間層１６０が、それぞれ４つの畳み込み層又はアップサンプリング層を有するネットワークを記載しているが、第１中間層１２０、第２中間層１４０及び第３中間層１６０がそれぞれ有する畳み込み層又はアップサンプリング層の数はこれに限られない。なお、第３中間層１６０のアップサンプリング層の数は、第２中間層１４０のアップサンプリング層の数と同じであることが好ましい。

【0061】

以下、学習モデル１００において入出力される各画像データの情報量について説明する。画像データの情報量は、要素数又はメモリ量である。要素数は、画像データに含まれる各画像の画素数及び画像データのチャンネル数によって決定される。具体例には、要素数は、（画素数）×（チャンネル数）である。メモリ量は、画像データに含まれる各画像の画素数、画像データのチャンネル数及び各画像のデータ型に応じたビット数によって決定される。具体例には、メモリ量は、（画素数）×（チャンネル数）×（ビット数）である。

【0062】

整数型及び浮動小数点は、画像データを処理するためのデータ型である。整数型には、byte、short、int、long等があり、浮動小数点には、float、double等がある。また、整数型には、正の整数を表す符号なし整数型（unsigned integer）と、正の整数及び負の整数を表すことができる符号付き整数型（unsigned integer）とがある。データ型に応じたビット数は、プログラミング言語によって異なるが、例えば、データ型が「unsigned int8」であれば８ビットであり、「float32」であれば３２ビットである。

【0063】

図５では、それぞれの画像データの右肩に、要素数の具体例を付している。例えば、データベース２０から劣化処理部４０及び評価部５０に送信されるソース画像２１の要素数は、「１０２４×１０２４×３」である。これは、画素数（幅×高さ）が「１０２４×１０２４」、チャンネル数が「３」であることを示している。図５では、ソース画像２１がカラー画像である例を示しており、このため、チャンネル数は、Ｒチャンネル、Ｇチャンネル、Ｂチャンネルの３種類であることを示す「３」となっている。なお、ソース画像２１がモノクロ画像である場合、チャンネル数は「１」となる。

【0064】

劣化処理部４０で劣化処理を行うことで生成された学習用入力画像４１の要素数は、ソース画像２１に対して画素数が小さくなっており、「５１２×５１２×３」である。入力層１１０から第１中間層１２０の畳み込み層１２１に入力される特徴マップ１１１の要素数は、「５１２×５１２×３」である。ここで、特徴マップ１１１のデータ型がunsigned int8である場合、特徴マップ１１１のメモリ量は、6,291,456ビット（５１２×５１２×３×８）である。特徴マップ１１１のデータ型をunsigned int8からfloat32に変換すると、特徴マップ１１１のメモリ量は、25,165,824ビット（５１２×５１２×３×３２）となる。

【0065】

エンコーダに含まれる畳み込み層１２１、１２２、１２３、１２４及び折り返し層１３０では、特徴マップの畳み込みを段階的に行い、特徴マップ１２１ａ、１２２ａ、１２３ａ、１２４ａ、１３１を得る。図５に示す例では、後段階の畳み込み層であるほど、特徴抽出された、画素数が小さい特徴マップを出力する。

【0066】

具体的には、特徴マップ１２１ａの要素数は「５１２×５１２×６４」、メモリ量は536,870,912ビット（５１２×５１２×６４×３２）である。特徴マップ１２２ａの要素数は「２５６×２５６×１２８」、メモリ量は268,435,456ビット（２５６×２５６×１２８×３２）である。特徴マップ１２３ａの要素数は「１２８×１２８×２５６」、メモリ量は134,217,728ビット（１２８×１２８×２５６×３２）である。特徴マップ１２４ａの要素数は「６４×６４×５１２」、メモリ量は67,108,864ビット（６４×６４×５１２×３２）である。特徴マップ１３１の要素数は「３２×３２×１０２４」、メモリ量は33,554,432ビット（３２×３２×１０２４×３２）である。

【0067】

一般的に、畳み込みニューラルネットワークにおける特徴抽出では、情報量を維持するために、各畳み込み層から出力される特徴マップのチャンネル数が段階的に増える。なお、出力される特徴マップのチャンネル数は、各畳み込み層において用いられるフィルタの数と一致する。

【0068】

例えば、図５に示す例では、畳み込み層１２４では、特徴マップ１２３ａに対して５１２枚のフィルタを適用するため、出力される特徴マップ１２４ａのチャンネル数が「５１２」となる。エンコーダの最も後段階において特徴抽出を行う折り返し層１３０では、特徴マップ１２４ａに対して１０２４枚のフィルタを適用するため、出力される特徴マップ１３１のチャンネル数が「１０２４」となる。

【0069】

U-netであるエンコーダと第１のデコーダでは、スキップ接続により、第１中間層の畳み込み層１２１、１２２、１２３、１２４から出力される特徴マップ１２１ａ、１２２ａ、１２３ａ、１２４ａが、第２中間層１４０のアップサンプリング層１４１、１４２、１４３、１４４にそれぞれ入力される。

【0070】

第１のデコーダに含まれるアップサンプリング層１４１、１４２、１４３、１４４では、特徴マップの高解像度化処理を段階的に行い、特徴マップ１４１ａ、１４２ａ、１４３ａ、１４４ａを得る。図５に示す例では、後段階のアップサンプリング層であるほど、高解像度化処理された、画素数が大きい特徴マップを出力する。

【0071】

アップサンプリング層１４１は、折り返し層１３０からの特徴マップ１３１と、対応する畳み込み層１２４から出力される特徴マップ１２４ａとを入力されることにより、特徴マップ１４１ａを出力する。特徴マップ１４１ａの要素数は「１２８×１２８×２５６」、メモリ量は134,217,728ビット（１２８×１２８×２５６×３２）である。

【0072】

アップサンプリング層１４２は、特徴マップ１４１ａと、対応する畳み込み層１２３から出力される特徴マップ１２３ａとを入力されることにより、特徴マップ１４２ａを出力する。特徴マップ１４２ａの要素数は「２５６×２５６×１２８」、メモリ量は268,435,456ビット（２５６×２５６×１２８×３２）である。

【0073】

アップサンプリング層１４３は、特徴マップ１４２ａと、対応する畳み込み層１２２から出力される特徴マップ１２２ａとを入力されることにより、特徴マップ１４３ａを出力する。特徴マップ１４３ａの要素数は「５１２×５１２×６４」、メモリ量は536,870,912ビット（５１２×５１２×６４×３２）である。

【0074】

アップサンプリング層１４４は、特徴マップ１４３ａと、対応する畳み込み層１２１から出力される特徴マップ１２１ａとを入力されることにより、特徴マップ１４４ａを出力する。特徴マップ１４４ａの要素数は「１０２４×１０２４×３２」、メモリ量は1,073,741,824ビット（１０２４×１０２４×３２×３２）である。

【0075】

なお、第１出力層１５０の１つ前段階のアップサンプリング層であるアップサンプリング層１４４には、学習用入力画像４１をさらに入力してもよい。学習用入力画像４１を高解像度化処理に用いることで、第１のデコーダの出力をより高精度にすることができる。なお、学習用入力画像４１をアップサンプリング層１４４に入力する場合は、、学習用入力画像４１のデータ型を、特徴マップ１４３ａと同じデータ型に変換して入力する必要がある。

【0076】

第１出力層１５０は、特徴マップ１４４ａに活性化関数を適用し、第１学習用出力画像１０１を出力する。第１学習用出力画像１０１の要素数は、「１０２４×１０２４×３」である。ここで、第１学習用出力画像１０１のデータ型がfloat32である場合、第１学習用出力画像１０１のメモリ量は、100,663,296ビット（１０２４×１０２４×３×３２）である。第１学習用出力画像１０１のデータ型をfloat32からunsigned int8に変換すると、第１学習用出力画像１０１のメモリ量は、25,165,824ビット（１０２４×１０２４×３×８）となる。

【0077】

なお、図５では、エンコーダと第１のデコーダとの間で対応する層に特徴マップを接続する例を示したが、エンコーダからの接続は、対応する層に限られない。

【0078】

第２のデコーダは、エンコーダからのスキップ接続を有さず、折り返し層１３０からの特徴マップ１３１に対する高解像度化処理を、第２のデコーダに含まれるアップサンプリング層１６１、１６２、１６３、１６４で段階的に行い、特徴マップ１６１ａ、１６２ａ、１６３ａ、１６４ａを得る。図５に示す例では、後段階のアップサンプリング層であるほど、高解像度化処理された、画素数が大きい特徴マップを出力する。

【0079】

具体的には、特徴マップ１６１ａの要素数は「１２８×１２８×２５６」、メモリ量は134,217,728ビット（１２８×１２８×２５６×３２）である。特徴マップ１６２ａの要素数は「２５６×２５６×１２８」、メモリ量は268,435,456ビット（２５６×２５６×１２８×３２）である。特徴マップ１６３ａの要素数は「５１２×５１２×６４」、メモリ量は536,870,912ビット（５１２×５１２×６４×３２）である。特徴マップ１６４ａの要素数は「１０２４×１０２４×３２」、メモリ量は1,073,741,824ビット（１０２４×１０２４×３２×３２）である。

【0080】

第２出力層１７０は、特徴マップ１６４ａに活性化関数を適用し、第２学習用出力画像１０２を出力する。第２学習用出力画像１０２の要素数は、「１０２４×１０２４×３」である。ここで、第２学習用出力画像１０２のデータ型がfloat32である場合、第２学習用出力画像１０２のメモリ量は、100,663,296ビット（１０２４×１０２４×３×３２）である。第２学習用出力画像１０２のデータ型をfloat32からunsigned int8に変換すると、第２学習用出力画像１０２のメモリ量は、25,165,824ビット（１０２４×１０２４×３×８）となる。第２のデコーダから出力される第２学習用出力画像１０２の画素数は、第１のデコーダから出力される第１学習用出力画像１０１の画素数と同じであることが好ましい。

【0081】

評価部５０は、要素数が「１０２４×１０２４×３」であるソース画像２１、第１学習用出力画像１０１及び第２学習用出力画像１０２を用い、第１損失５１及び第２損失５２を算出する。

【0082】

上記のとおり、画素数が「５１２×５１２」である学習用入力画像４１を学習モデル１００に入力することにより、画素数が「１０２４×１０２４」である第１学習用出力画像１０１及び第２学習用出力画像１０２が出力される。すなわち、図５に示す例における学習モデル１００は、入力された画像を、４倍の画素数にして高解像度化した画像を出力する学習モデルである。したがって、図５に例示する学習モデル１００を学習させることによって生成した学習済みモデル２００は、入力された未知の画像（推論用入力画像）の、４倍の画素数を有する超解像画像を出力する。例えば、図５に例示する学習モデル１００を学習させて生成した学習済みモデル２００に、未知の画像として画素数が「１０２４×１０２４」の推論用入力画像を入力することにより、画素数が「２０４８×２０４８」の超解像画像を得ることができる。

【0083】

ソース画像２１、学習用入力画像４１、第１学習用出力画像１０１及び第２学習用出力画像１０２の画素数は、上記の例に限られない。例えば、学習モデル１００は、入力された画像を１６倍、６４倍、２５６倍等の画素数にして高解像度化した画像を出力するように設計されてもよい。

【0084】

すなわち、推論部１２においては、第１の画素数を有する推論用入力画像２０１を、学習済みモデル２００に入力することにより、第１の画素数より大きい第２の画素数を有する超解像画像２０２が出力される（図３参照）。この学習済みモデル２００は、第３の画素数を有するソース画像２１と、ソース画像２１を劣化処理することによって生成された、第３の画素数より小さい第４の画素数を有する学習用入力画像４１を用い、第４の画素数より大きい第５の画素数を有する第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する学習モデル１００のパラメータを更新することによって生成される。

【0085】

ここで、ソース画像２１が有する第３の画素数は、推論用入力画像２０１が有する第１の画素数以下である。推論用入力画像２０１が有する第１の画素数に対する、超解像画像２０２が有する第２の画素数の比率と、学習用入力画像４１が有する第４の画素数に対する、第１学習用出力画像１０１及び第２学習用出力画像１０２が有する第５の画素数の比率は等しい。比率は、例えば、４倍、１６倍、６４倍、２５６倍等、２^２ｎ倍（ｎは１以上の自然数）である。

【0086】

上記のように、U-netの構造に加えて、折り返し層１３０からさらに分岐する、エンコーダからの特徴量を受け取らずに高解像度化処理を行った画像を生成する第２のデコーダを学習モデル１００に設けることにより、高精度、かつ、効率よく学習を行うことができるU-netのメリットを享受しながら、劣化した画像の特に重要な特徴を反映させた出力画像を生成するように、学習モデル１００の学習を行うことができる。

【0087】

ＣＮＮを用いた画像処理では、ダウンサンプリングにより、入力される画像の解像度を段階的に落としながら特徴抽出を行うことが多い。このとき、後段階の畳み込み層から出力される特徴マップほど画素数が小さくなる。このため、後段階の特徴マップ全体としての情報量を維持するために、特徴マップのチャンネル数を増やすことが一般的である。

【0088】

U-netを用いた超解像においても、エンコーダでは、出力される特徴マップの解像度を段階的に落とす代わりに、チャンネル数を段階的に増やすことにより、冗長的に情報量を維持する。U-netを用いた超解像では、冗長的に維持された元の画像に近い段階の特徴マップをデコーダに接続することにより、精度の高い超解像が実現できる。U-netのみで構成される学習モデルには、ソース画像２１に相当する元の画像を精度よく復元した超解像を実現できるメリットがある。

【0089】

しかしながら、「元の画像の復元」では、ソース画像２１の画素数を超えて超解像を行うことは難しい。U-netのみで構成される学習モデルの場合、出力される第１学習用出力画像１０１は、学習用入力画像４１の典型的な特徴を高解像度化した画像となる。そこで、U-netのようにはエンコーダの中間特徴量を接続されない、第２のデコーダをさらに設けることにより、ソース画像２１の画素数以上の画素数を有する超解像画像を生成する超解像を実現するエンコーダ及びデコーダの学習を行うことができる。

【0090】

第２学習用出力画像１０２は、特徴抽出が行われる中途段階の画像データを高解像度化処理に用いることなく、学習用入力画像４１の特徴が最も強く抽出されている折り返し層１３０からの特徴マップ１３１のみを高解像度化処理に用いて出力された画像である。上記のように学習モデル１００を構成することで、学習の初期段階においては第２損失５２が大きくなるが、第２損失５２を小さくするように学習を進めると、エンコーダにおける特徴抽出の精度を、U-netのみで構成される学習モデルのエンコーダにおける特徴抽出の精度よりも向上させることができるため、学習モデル１００は、元の画像の特徴を強く反映して高解像度化された画像を出力できるようになる。結果として、推論時には、学習時に用いたソース画像２１の画素数以上の画素数を有する超解像画像２０２を出力できるようになる。

【0091】

上記のとおり、エンコーダからの特徴マップが接続される第１のデコーダと、エンコーダからの特徴マップが接続されない第２のデコーダとを有する学習モデル１００を学習させることにより、元の画像の特徴を強く反映して高解像度化された画像を得ることができるようになる。ここで、折り返し層１３０から出力される特徴マップ１３１における情報量を削減する情報量削減処理を行うことにより、エンコーダの特徴抽出の精度をさらに向上させることができる。

【0092】

情報量削減処理は、画素数、チャンネル数、データ型に応じたビット数によって決定される情報量（要素数又はメモリ量）のうち、チャンネル数又はビット数を変更する処理である。情報量削減処理によって、折り返し層１３０が出力する特徴マップ１３１の情報量を、学習用入力画像４１の情報量より小さくすることが好ましい。

【0093】

チャンネル数を変更する情報量削減処理では、折り返し層１３０が出力する特徴マップ１３１のチャンネル数を小さくする処理を行う。具体的には、折り返し層１３０が、畳み込み又はプーリングを行う前の段階又は後の段階において、入出力される特徴マップのチャンネル数を小さくする。

【0094】

例えば、図６に示すように、図５では「３２×３２×１０２４」であった特徴マップ１３１の要素数（1,048,576）を、「３２×３２×１２８」（要素数131,072）に削減する。図６に示す例において、特徴マップ１３１のデータ型がfloat32である場合は、メモリ量が33,554,432ビットから4,194,304ビットに削減される。図６において、学習用入力画像４１の要素数は、「５１２×５１２×３」（要素数786,432、メモリ量6,291,456ビット（５１２×５１２×３×８））であるため、情報量削減処理を行った特徴マップ１３１の要素数は、学習用入力画像４１よりも小さくなる。

【0095】

ビット数を変更する情報量削減処理では、折り返し層１３０が出力する特徴マップ１３１のデータ型に応じたビット数を小さくする処理を行う。具体的には、折り返し層１３０が、畳み込み又はプーリングを行う前の段階又は後の段階において、特徴マップのデータ型を変換する処理により、最終的には折り返し層１３０が出力する特徴マップ１３１のメモリ量を小さくする。

【0096】

例えば、図６において、折り返し層１３０が出力する特徴マップ１３１のデータ型をfloat16に変換すると、特徴マップ１３１のメモリ量は2,097,152ビット（３２×３２×１２８×１６）となる。また、特徴マップ１３１のデータ型をint8に変換すると、特徴マップ１３１のメモリ量は1,048,576ビット（３２×３２×１２８×８）となる。

【0097】

さらに、図５又は図６において、特徴マップ１３１のデータ型をビット数が２ビットであるデータ型に変換すると、特徴マップ１３１のメモリ量は2,097,152ビット（３２×３２×１０２４×８）又は1,048,576ビット（３２×３２×１２８×８）となる。学習用入力画像４１（及び特徴マップ１１１）のデータ型がunsigned int8である場合、学習用入力画像４１のメモリ量は、6,291,456ビット（５１２×５１２×３×８）である。したがって、チャンネル数の削減とデータ型の変換との組み合わせ、又はデータ型の変換による情報量削減処理を行った特徴マップ１３１のメモリ量は、学習用入力画像４１よりも小さくなる。

【0098】

上記のように、エンコーダにおいて学習用入力画像の特徴抽出を行った結果である特徴マップ１３１の情報量を削減することにより、第２のデコーダは、情報量がより少ない特徴マップから第２学習用出力画像１０２を生成することになる。このため、エンコーダの特徴抽出の精度をさらに向上させるように学習モデル１００を更新することができ、また、２つのデコーダから出力される第１学習用出力画像１０１及び第２学習用出力画像１０２を、学習用入力画像４１の特徴をより強力に反映して高解像度化された画像とするように学習モデル１００を更新することができる。

【0099】

上記の情報量削減処理を行う構成は、学習済みモデル２００に入力する未知の画像の画素数が、ソース画像２１の画素数を超える場合に特に好適である。例えば、未知の画像である推論用入力画像２０１の画素数が「１２８０×９６０」であって、ソース画像２１の画素数が「５１２×５１２」である場合である。この場合、例えば、学習用入力画像４１の６４倍の画素数を有する画像を出力するように学習モデル１００を設計し、劣化処理によって画素数を「２５６×２５６」とした学習用入力画像４１から、画素数が「２０４８×２０４８」である第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する。この場合、生成された学習済みモデル２００に、画素数が「１２８０×９６０」である推論用入力画像２０１を入力すると、画素数が「１０２４０×７６８０」である、８Ｋ以上の解像度を有する超解像画像２０２を生成することができる。

【0100】

上記の学習モデル１００のパラメータの最適化のために、敵対的生成ネットワーク（Generative Adversarial Network；ＧＡＮ）を適用してもよい。ＧＡＮでは、一般的に、生成器（Generator）と、識別器（Discriminator）との、２つの学習モデルを連結して構成し、生成器及び識別器のパラメータをそれぞれ更新することにより、ネットワーク全体の学習を行う。識別器には、既知であるオリジナルの学習用データ又は生成器が出力するデータが入力される。識別器は、入力されたデータが、オリジナルの学習用データ（真）であるか、生成器が出力するデータ（偽）であるかを識別した結果として識別結果を出力する。

【0101】

生成器の学習においては、生成器の出力するデータを識別器に「偽」と識別されないように、言い換えれば、生成器の出力するデータを識別器に「真」と識別されるように、パラメータの最適化を行う。また、識別器の学習においては、真偽判定の精度を向上するようにパラメータの最適化を行う。パラメータの更新は、識別器用の損失関数と、生成器用の損失関数とを適用することによってそれぞれ算出される損失を用いて行われる。識別器用の損失は、識別器が出力する識別結果を識別器用の損失関数に適用して算出される。生成器用の損失は、識別器用の損失を生成器用の損失関数に適用して算出される。

【0102】

本実施形態では、第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する学習モデル１００を生成器とし、図７に示すように、生成器である学習モデル１００とは異なる識別用学習モデル３００を識別器として学習部１１に設ける。識別用学習モデル３００は、学習モデル１００が出力する第１学習用出力画像１０１及び第２学習用出力画像１０２を入力されることにより、第１識別結果３０１と、第２識別結果３０２とを出力する。

【0103】

識別用学習モデル３００は、ソース画像２１を「真」、ソース画像２１ではない画像を「偽」として出力する学習モデルであり、生成器としての学習モデル１００から出力される第１学習用出力画像１０１及び第２学習用出力画像１０２に対する真偽の識別を行う。第１識別結果３０１は、識別用学習モデル３００が、第１学習用出力画像１０１に対する真偽の識別を行った結果である。また、第２識別結果３０２は、識別用学習モデル３００が、第２学習用出力画像１０２に対する真偽の識別を行った結果である。

【0104】

評価部５０には、第１識別結果３０１及び第２識別結果３０２が入力される。評価部５０は、識別用学習モデル３００の損失として、第１識別結果３０１を識別器用の損失関数に適用して第１識別器損失を算出し、また、第２識別結果３０２を識別器用の損失関数に適用して第２識別器損失を算出する。更新部６０は、第１識別器損失及び第２識別器損失に基づき、識別用学習モデル３００のパラメータを最適化することにより、識別用学習モデル３００の更新を行う。

【0105】

また、評価部５０は、生成器としての学習モデル１００の損失として、第１識別結果及びソース画像２１を生成器用の損失関数に適用し、第１損失５１（第１生成器損失）を算出する。すなわち、第１生成器損失は、第１学習用出力画像１０１に基づく第１識別結果と、ソース画像２１とを用いて算出される損失である。同様に、評価部５０は、学習モデル１００の損失として、第２識別結果及びソース画像２１を生成器用の損失関数に適用し、第２損失５２（第２生成器損失）を算出する。すなわち、第２生成器損失は、第２学習用出力画像１０２に基づく第１識別結果と、ソース画像２１とを用いて算出される損失である。

【0106】

更新部６０は、第１損失５１（第１生成器損失）及び第２損失５２（第２生成器損失）に基づき、生成器としての学習モデル１００のパラメータを最適化することにより、学習モデル１００の更新を行う。この場合、学習済みモデル２００（学習済みの生成器）は、学習済みの生成器としての学習モデル１００である。上記のように、ＧＡＮを採用し、学習モデル１００を生成器とするようにネットワークを構成することにより、高精度の超解像を実現することができる。特に、ソース画像２１が少ない場合においても、上記の構成は好適である。

【0107】

本実施形態における学習モデル１００を更新することで生成される学習済みモデル２００は、未知の画像である推論用入力画像２０１を内視鏡画像とする場合に好適である。内視鏡画像は、モダリティ３０を内視鏡とし、内視鏡が、被写体を撮影することによって生成される画像である。この場合、図８に示すように、推論部１２は、データベース２０に保存されている第１の画素数を有する内視鏡画像２０３を、学習済みモデル２００に入力することにより、第１の画素数より大きい第２の画素数を有する超解像画像２０４を出力する。

【0108】

第２の画素数を有する超解像画像２０４を出力する学習済みモデル２００は、図９に示すように、第３の画素数を有するソース内視鏡画像２２１を劣化処理することによって生成された、第３の画素数より小さい第４の画素数を有する学習用入力画像４１を用い、第４の画素数より大きい第５の画素数を有する第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する学習モデル１００を、評価部５０が算出する、第１学習用出力画像１０１及びソース内視鏡画像２２１を損失関数に適用して算出する第１損失５１と、第２学習用出力画像１０２及びソース内視鏡画像２２１を損失関数に適用して算出する第２損失５２と、を用いて更新部６０が更新することによって生成される。

【0109】

ソース画像２１及び推論用入力画像２０１が内視鏡画像以外の画像である場合と同じく、内視鏡画像２０３が有する第１の画素数に対する、超解像画像２０４が有する第２の画素数の比率と、学習用入力画像４１が有する第４の画素数に対する、第１学習用出力画像１０１及び第２学習用出力画像１０２が有する第５の画素数の比率は等しい。

【0110】

例えば、学習用入力画像４１の４倍の画素数を有する学習用出力画像を出力するように学習モデル１００を設計する場合、学習済みモデル２００は、画素数が「５１２×５１２」である内視鏡画像２０３を入力されることにより、画素数が「１０２４×１０２４」である超解像画像２０４を出力する。この場合、ソース内視鏡画像２２１の画素数を「５１２×５１２」とし、ソース内視鏡画像２２１に対する劣化処理を行うことにより、画素数を「２５６×２５６」とした学習用入力画像４１を学習モデル１００に入力する。学習モデル１００は、学習用入力画像４１の４倍の画素数を有する、画素数が「５１２×５１２」である第１学習用出力画像１０１及び第２学習用出力画像１０２を出力する。この場合、評価部５０は、画素数が「５１２×５１２」である第１学習用出力画像１０１及び第２学習用出力画像１０２と、画素数が「５１２×５１２」であるソース内視鏡画像２２１とを損失関数に適用することにより、第１損失５１及び第２損失５２を算出する。

【0111】

ソース画像２１及び推論用入力画像２０１が内視鏡画像以外の画像である場合と同じく、ソース内視鏡画像２２１が有する第３の画素数は、学習済みモデル２００に入力する未知の画像である内視鏡画像２０３が有する第１の画素数以下である。特に、上記の例のように、ソース内視鏡画像２２１の画素数である第３の画素数と、内視鏡画像２０３の画素数である第１の画素数とは、等しいことが好ましい。

【0112】

なお、学習用入力画像４１の１６倍の画素数を有する学習用出力画像を出力するように学習モデル１００を設計し、ソース画像２１の画素数が「５１２×５１２」である場合に、画素数が「１２８０×９６０」である内視鏡画像２０３を入力することにより、画素数が「５１２０×３８４０」である４Ｋ以上の解像度を有する超解像画像２０４を生成するようにしてもよい。

【0113】

また、学習済みモデル２００は、図１０に示すように、入力層１１０、第１中間層１２０、折り返し層１３０、第１中間層１２０からの特徴マップを受け取る第２中間層１４０、第１出力層１５０によって構成されることが好ましい。学習モデル１００の学習には、第２のデコーダである第３中間層１６０及び第２出力層１７０が、より高精度の学習用出力画像を得るために必要であるが、未知の画像からの超解像画像の出力には、１つのデコーダが具備されれば十分であるためである。また、学習済みモデル２００において、第３中間層１６０及び第２出力層１７０を省略することにより、プロセッサを構成するメモリを少なくすることができ、処理速度を向上させることができる。

【0114】

また、表示制御部７０は、学習済みモデル２００から受信する超解像画像２０２をディスプレイ８０に表示する場合において、超解像画像２０２と、内視鏡画像に対する高解像度化処理を行った画像であることを示す情報とを表示することが好ましい。例えば、図１１に示す超解像画像２０４の例のように、「×４ＳＲ」と表示される、内視鏡画像に対して４倍の超解像（Super Resolution）を行ったことを示す報知表示２１０をディスプレイ８０に表示する。

【0115】

機械学習である学習済みモデル２００によって生成された超解像画像２０４は、人工的に生成された画像であるため、医師による診断に用いることはできない。しかしながら、例えば、医師が内視鏡画像を示して患者に説明を行うシーン、複数人で内視鏡画像の観察を行うシーン等の、大きなディスプレイ８０に内視鏡画像を表示したい場合、病変、治療目標等の注目したい領域を拡大して見せたい又は観察したい場合等に有用である。このため、報知表示２１０を超解像画像２０４に表示することで、超解像画像２０４を観察する人が、ディスプレイ８０に表示される画像が人工的に生成された画像であることを認識しながら、超解像された精細な画像を観察することができる。

【0116】

内視鏡画像には、データベース２０における保存又は複数のデータベース２０間における通信のために推奨される規格があるため、得られる画像の画素数には実質的な限界がある。また、内視鏡のマシンスペックによって画素数の大きい画像を撮影することが難しい場合がある。このような状況において、本実施形態の画像処理装置１０並びに画像処理装置１０、内視鏡、ディスプレイ８０を有する内視鏡システムは、現実に得られる内視鏡画像の画素数の限界を超えた画素数を有する超解像画像を生成することができる。

【0117】

本実施形態の画像処理装置１０における作動方法の一連の流れについて、図１２のフローチャートを用いて説明する。まず、学習部１１が、データベース２０からソース画像を取得する（ステップＳＴ１０１）。次いで、劣化処理部４０が、ソース画像２１に対する劣化処理を行い、学習用入力画像４１を生成する（ステップＳＴ１０２）。学習部１１は、学習用入力画像４１を学習モデル１００に入力し、学習用入力画像４１より画素数が大きい第１学習用出力画像１０１及び第２学習用出力画像１０２（図１２では、まとめて「学習用出力画像」と記載する。）を出力する（ステップＳＴ１０３）。次いで、評価部５０は、第１学習用出力画像１０１及びソース画像２１に基づき、第１損失を算出し、さらに、第２学習用出力画像１０２及びソース画像２１に基づき、第２損失を算出する（損失を算出する。）（ステップＳＴ１０４）。最終的に、第１損失及び第２損失に基づき、学習モデル１００を更新することにより（ステップＳＴ１０５）、学習済みモデル２００を生成する（ステップＳＴ１０６）。

【0118】

上記実施形態において、劣化処理部４０、学習モデル１００、学習済みモデル２００、評価部５０、更新部６０及び表示制御部７０といった各種の処理を実行する処理部（processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウエア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit)、ＦＰＧＡ (Field Programmable Gate Array) などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device:ＰＬＤ）、各種の処理を実行するために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

【0119】

１つの処理部は、これら各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合せ（例えば、複数のＦＰＧＡや、ＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウエアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip:ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

【0120】

さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた形態の電気回路（circuitry）である。また、記憶部のハードウェア的な構造はＨＤＤ（hard disc drive）やＳＳＤ（solid state drive）等の記憶装置である。

【符号の説明】

【0121】

１０画像処理装置
１１学習部
１２推論部
２０データベース
２１ソース画像
３０モダリティ
４０劣化処理部
４１学習用入力画像
５０評価部
５１第１損失
５２第２損失
６０更新部
７０表示制御部
８０ディスプレイ
１００学習モデル
１０１第１学習用出力画像
１０２第２学習用出力画像
１１０入力層
１１１、１２０ａ、１２１ａ、１２２ａ、１２３ａ、１２４ａ、１３１、１４０ａ、１４１ａ、１４２ａ、１４３ａ、１４４ａ、１６０ａ、１６１ａ、１６２ａ、１６３ａ、１６４ａ特徴マップ
１２０第１中間層
１２１、１２２、１２３、１２４畳み込み層
１３０折り返し層
１４０第２中間層
１４１、１４２、１４３、１４４、１６１、１６２、１６３、１６４アップサンプリング層
１５０第１出力層
１６０第３中間層
１７０第２出力層
２００学習済みモデル
２０１推論用入力画像
２０２、２０４超解像画像
２０３内視鏡画像
２１０報知表示
２２１ソース内視鏡画像
３００識別用学習モデル
３０１第１識別結果
３０２第２識別結果

【図1】