(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031119
(43)【公開日】2024-03-07
(54)【発明の名称】画像処理装置、画像処理方法、画像処理プログラム、及び内視鏡システム
(51)【国際特許分類】
G06T 3/4053 20240101AFI20240229BHJP
A61B 1/045 20060101ALI20240229BHJP
G06T 1/40 20060101ALI20240229BHJP
【FI】
G06T3/40 730
A61B1/045 614
G06T1/40
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022134467
(22)【出願日】2022-08-25
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001988
【氏名又は名称】弁理士法人小林国際特許事務所
(72)【発明者】
【氏名】大酒 正明
【テーマコード(参考)】
4C161
5B057
【Fターム(参考)】
4C161AA00
4C161BB01
4C161CC06
4C161NN05
4C161SS21
4C161TT20
4C161WW20
5B057AA07
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CD05
5B057CE06
5B057CE18
5B057DA17
5B057DC40
(57)【要約】
【課題】解像度及び解像感等の画質が向上した超解像画像を生成する画像処理装置、画像処理方法、画像処理プログラム、及び内視鏡システムを提供する。
【解決手段】画像処理装置は、複数の原色信号を含むカラー画像を取得し、カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成し、輝度信号画像及び色差信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成し、予測輝度信号画像を用いてカラー画像の解像度を高めた超解像カラー画像を生成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
複数の原色信号を含むカラー画像を取得し、
前記カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成し、
前記輝度信号画像及び前記色差信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成し、
前記予測輝度信号画像を用いて前記カラー画像の解像度を高めた超解像カラー画像を生成する画像処理装置。
【請求項2】
前記プロセッサは、
前記色差信号画像に対して前記超解像処理と異なる拡大処理を行うことにより拡大色差信号画像を生成し、
前記予測輝度信号画像と前記拡大色差信号画像とに対して逆変換処理を行うことにより、前記超解像カラー画像を生成する請求項1に記載の画像処理装置。
【請求項3】
前記拡大処理は、単純拡大処理又はアップサンプリング処理である請求項2に記載の画像処理装置。
【請求項4】
前記超解像処理は、畳み込みニューラルネットワークを用いた処理である請求項1又は2に記載の画像処理装置。
【請求項5】
前記超解像処理は、アップサンプリング処理又は逆畳み込み処理を含む請求項1又は2に記載の画像処理装置。
【請求項6】
前記超解像処理は、U-Netを用いた処理である請求項5に記載の画像処理装置。
【請求項7】
前記プロセッサは、学習済みモデルを備え、
前記学習済みモデルにより前記超解像処理を行う請求項1に記載の画像処理装置。
【請求項8】
前記プロセッサは、学習用モデルを備え、
前記学習用モデルは、予め設定した複数のパラメータを含み、
複数の前記パラメータを更新することにより前記学習済みモデルを生成し、
前記複数のパラメータは、損失値を用いて更新され、
前記損失値は、複数の前記原色信号を含む学習用画像に対して色空間変換処理を行うことにより色変換画像を生成し、前記色変換画像に対して劣化処理を行うことにより学習用輝度信号画像を生成し、引き続き、前記学習用輝度信号画像に基いて前記超解像処理を行うことにより生成した学習用予測輝度信号画像と、前記学習用画像とを比較して得られる請求項7に記載の画像処理装置。
【請求項9】
前記学習済みモデルは、複数のパラメータを含み、
前記複数のパラメータは、損失値を用いて更新され、
前記損失値は、複数の前記原色信号を含む学習用画像に対して色空間変換処理を行うことにより色変換画像を生成し、前記色変換画像に対して劣化処理を行うことにより学習用輝度信号画像を生成し、引き続き、前記学習用輝度信号画像に基いて前記超解像処理を行うことにより生成した学習用予測輝度信号画像と、前記学習用画像とを比較して得られる請求項7に記載の画像処理装置。
【請求項10】
前記超解像処理を行うことによりそれぞれ2つの互いに異なる前記学習用予測輝度信号画像を生成する互いに異なる2つのネットワークを備え、
前記プロセッサは、
2つの前記ネットワークのそれぞれにより得られる前記学習用予測輝度信号画像を用いることにより2つの前記損失値を得て、
2つの前記損失値を用いて複数の前記パラメータを更新する請求項8または9に記載の画像処理装置。
【請求項11】
前記プロセッサは、
前記輝度信号画像と前記色差信号画像とを含む被処理画像に対して一回の前記超解像処理を行う請求項1又は2に記載の画像処理装置。
【請求項12】
内視鏡を用いて撮影された内視鏡画像を前記カラー画像として取得する請求項1又は2に記載の画像処理装置。
【請求項13】
複数の原色信号を含むカラー画像を取得するステップと、
前記カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成するステップと、
前記輝度信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成するステップと、
前記予測輝度信号画像を用いて前記カラー画像の解像度を高めた超解像カラー画像を生成するステップとを含む画像処理方法。
【請求項14】
コンピュータに、
複数の原色信号を含むカラー画像を取得する機能と、
前記カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成する機能と、
前記輝度信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成する機能と、
前記予測輝度信号画像を用いて前記カラー画像の解像度を高めた超解像カラー画像を生成する機能とを実行させる画像処理プログラム。
【請求項15】
被写体を撮影して内視鏡画像を生成する内視鏡と、
前記内視鏡画像を表示するディスプレイと、
プロセッサを有し、前記内視鏡画像の解像度を高めた超解像内視鏡画像を生成する画像処理装置とを備え、
前記プロセッサは、
前記内視鏡画像をカラー画像として取得し、
前記内視鏡画像の解像度を高めた前記超解像内視鏡画像を生成し、
前記ディスプレイに、前記超解像内視鏡画像を表示する制御を行う内視鏡システム。
【請求項16】
前記プロセッサは、前記ディスプレイに前記超解像内視鏡画像を表示し、かつ、表示しているのが前記超解像内視鏡画像であることを示すインジケータとを表示する請求項15に記載の内視鏡システム。
【請求項17】
前記画像処理装置は、請求項1に記載の画像処理装置である請求項15又は16に記載の内視鏡システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、画像処理プログラム、及び内視鏡システムに関する。
【背景技術】
【0002】
深層学習を用いた超解像の技術により、解像度が低い画像から推定して、より解像度が高い画像である超解像画像を生成することが可能となっている。超解像画像を生成する深層学習のネットワークとして、敵対的生成ネットワーク(GAN、generative adversarial networks)、U-Net等が用いられている。
【0003】
また、医療分野における医療画像に対して超解像を行うことも検討されている。医療画像の超解像画像により、CT画像を鮮明化して医師の診断を支援する情報を提供すること、病変、細胞等を分類して検査結果の解釈を支援する情報を提供すること等が開発されてきている。
【0004】
例えば、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークを用い、ディスクリミネータのネットワークに限定してセルフアテンション機構を実装して学習した学習済みモデルによる超解像画像生成手法が知られている(特許文献1)。また、U-Netを用い、学習用画像データと学習用画像データの分類を識別する識別子とを含む学習用データにより学習させた学習済みモデルを生成し、第一の画像データと識別子の確率である分類スコアとに基づいて超解像画像を生成する方法が知られている(特許文献2)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】国際公開第2020/175446号
【特許文献2】特開2020-024612号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
超解像の技術により生成した超解像画像においては、色の変化、色のずれ、エッジのずれ等が生じることがあった。これらにより、生成した超解像画像において解像感が低下する場合があった。
【0007】
本発明は、解像度及び解像感等の画質が向上した超解像画像を生成する画像処理装置、画像処理方法、画像処理プログラム、及び内視鏡システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の画像処理装置は、プロセッサを備え、プロセッサは、複数の原色信号を含むカラー画像を取得し、カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成し、輝度信号画像及び色差信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成し、予測輝度信号画像を用いてカラー画像の解像度を高めた超解像カラー画像を生成する。
【0009】
プロセッサは、色差信号画像に対して超解像処理と異なる拡大処理を行うことにより拡大色差信号画像を生成し、予測輝度信号画像と拡大色差信号画像とに対して逆変換処理を行うことにより、超解像カラー画像を生成することが好ましい。
【0010】
拡大処理は、単純拡大処理又はアップサンプリング処理であることが好ましい。
【0011】
超解像処理は、畳み込みニューラルネットワークを用いた処理であることが好ましい。
【0012】
超解像処理は、アップサンプリング処理又は逆畳み込み処理を含むことが好ましい。
【0013】
超解像処理は、U-Netを用いた処理であることが好ましい。
【0014】
プロセッサは、学習済みモデルを備え、学習済みモデルにより超解像処理を行うことが好ましい。
【0015】
プロセッサは、学習用モデルを備え、学習用モデルは、予め設定した複数のパラメータを含み、複数のパラメータを更新することにより学習済みモデルを生成し、複数のパラメータは、損失値を用いて更新され、損失値は、複数の原色信号を含む学習用画像に対して色空間変換処理を行うことにより色変換画像を生成し、色変換画像に対して劣化処理を行うことにより学習用輝度信号画像を生成し、引き続き、学習用輝度信号画像に基いて超解像処理を行うことにより生成した学習用予測輝度信号画像と、学習用画像とを比較して得られることが好ましい。
【0016】
学習済みモデルは、複数のパラメータを含み、複数のパラメータは、損失値を用いて更新され、損失値は、複数の原色信号を含む学習用画像に対して色空間変換処理を行うことにより色変換画像を生成し、色変換画像に対して劣化処理を行うことにより学習用輝度信号画像を生成し、引き続き、学習用輝度信号画像に基いて超解像処理を行うことにより生成した学習用予測輝度信号画像と、学習用画像とを比較して得られることが好ましい。
【0017】
超解像処理を行うことによりそれぞれ2つの互いに異なる学習用予測輝度信号画像を生成する互いに異なる2つのネットワークを備え、プロセッサは、2つのネットワークのそれぞれにより得られる学習用予測輝度信号画像を用いることにより2つの損失値を得て、2つの損失値を用いて複数のパラメータを更新することが好ましい。
【0018】
プロセッサは、輝度信号画像と色差信号画像とを含む被処理画像に対して一回の超解像処理を行うことが好ましい。
【0019】
内視鏡を用いて撮影された内視鏡画像をカラー画像として取得することが好ましい。
【0020】
本発明の画像処理方法は、複数の原色信号を含むカラー画像を取得するステップと、カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成するステップと、輝度信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成するステップと、予測輝度信号画像を用いてカラー画像の解像度を高めた超解像カラー画像を生成するステップと含む。
【0021】
本発明の画像処理プログラムは、コンピュータに、複数の原色信号を含むカラー画像を取得する機能と、カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成する機能と、輝度信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成する機能と、予測輝度信号画像を用いてカラー画像の解像度を高めた超解像カラー画像を生成する機能とを実行させる。
【0022】
本発明の内視鏡システムは、被写体を撮影して内視鏡画像を生成する内視鏡と、内視鏡画像を表示するディスプレイと、プロセッサを有し、内視鏡画像の解像度を高めた超解像内視鏡画像を生成する画像処理装置とを備え、プロセッサは、内視鏡画像をカラー画像として取得し、内視鏡画像の解像度を高めた超解像内視鏡画像を生成し、ディスプレイに、超解像内視鏡画像を表示する制御を行う。
【0023】
プロセッサは、ディスプレイに超解像内視鏡画像を表示し、かつ、表示しているのが超解像内視鏡画像であることを示すインジケータとを表示することが好ましい。
【0024】
画像処理装置は、上記に記載の画像処理装置であることが好ましい。
【発明の効果】
【0025】
本発明によれば、解像度が向上した超解像画像を生成することができる。
【図面の簡単な説明】
【0026】
【
図1】画像処理装置の機能を示すブロック図である。
【
図3】画像処理部の処理の流れを説明する説明図である。
【
図4】予測輝度信号生成モデルの処理の流れを説明する説明図である。
【
図5】学習部を有する画像処理装置の機能を示すブロック図である。
【
図7】学習モデルに対する学習を説明する説明図である。
【
図8】ビット数を示した予測輝度信号生成モデルの処理の流れを説明する説明図である。
【
図9】画像処理部の処理の流れを説明するフローチャートである。
【
図11】超解像内視鏡画像の生成について説明する説明図である。
【
図12】ディスプレイに表示する超解像内視鏡画像及びインジケータを説明する画像図である。
【発明を実施するための形態】
【0027】
以下、適宜図面を参照しながら実施形態を説明する。まず、以下の実施形態を得るに至った経緯を説明する。近年、多層構造を有するニューラルネットワークを用いる深層学習により、画像とその答えに関するデータがあれば高精度な自動画像認識が可能となった。セグメンテーション分野ではU-Netと呼ばれるダウンサンプル処理とアップサンプル処理、スキップコネクションを利用したCNN(Convolutional Neural Network)等により高精度なセグメンテーションが可能となった。また、GANと呼ばれる手法によって画像を生成することも可能となった。
【0028】
これらの方法を用いて解像度が低下すること等により劣化した劣化画像をもとに戻す超解像の手法も研究されている。もとに戻すとは、劣化画像において、解像度が低下する以前の解像度が高い状態の画像にすることを意味する。なお、本明細書では、解像度が高いとは、画像における画素数のみならず高周波成分の情報をも含むようにすることを意味する。したがって、解像度が向上するとは、画素数を増加させることのみならず、高周波成分の付与、色ズレ、ノイズの低減等により解像感が増すことを意味する。一方、解像度が低下するとは、画像における画素数が減少すること及び/又は高周波成分の情報が減少すること等により解像感が減少することを意味する。超解像とは、解像度を向上させることをいい、超解像を行う処理を超解像処理といい、超解像処理を行うことにより生成した画像を超解像画像という。また、画質とは解像度を含む画像の質であるとする。
【0029】
例えば、劣化画像をCNNに入力し、劣化前の画像とCNNの出力と比較することで、解像度が向上する高画質化を学習する。しかし、色情報を含んだ画像を用いることで情報量を多くすることはできるが、高解像度化において色ずれ等の問題が生じる場合があった。色ずれ等の問題は、生成した超解像画像において解像度又は解像感を低下させる原因となる場合があった。
【0030】
以下の実施形態では、解像度が向上した超解像画像を生成する画像処理装置、画像処理方法、画像処理プログラム、及び内視鏡システムについて説明する。
【0031】
本発明の画像処理装置の基本的な構成の一例について説明する。本発明の画像処理装置は、所定の機能を実現するためのアプリケーションプログラムがインストールされたパーソナルコンピュータ、又はワークステーション等のコンピュータである。コンピュータには、プロセッサであるCPU(Central Processing Unit)、メモリ、及びストレージ等が備えられ、ストレージ等に記憶されたプログラムにより、各種機能を実現する。また、コンピュータ等には、ネットワーク等により他のコンピュータ等と通信可能とする通信部、ディスプレイ等の表示部、タッチパネル、キーボード等の入力部等が含まれていても良い。
【0032】
図1に示すように、画像処理装置10は、機能構成部として、画像取得部11と画像処理部12と出力部13とを備える。画像取得部11は、複数の原色信号を含むカラー画像を取得する機能を有する。画像処理部12は、画像取得部11が取得したカラー画像に対して処理を行い、超解像カラー画像を生成する機能を有する。出力部13は、画像処理部12が生成した超解像カラー画像を、図示しない記憶部又はディスプレイ等に出力する機能を有する。画像処理装置10におけるこれらの各機能構成部は、コンピュータを機能させるプログラムとして実現される。
【0033】
画像取得部11が取得する複数の原色信号を含むカラー画像は、複数の原色信号を含むカラー画像であればいずれであってもよいが、主には赤色信号値RからなるR画像と緑色信号値GからなるG画像と青色信号値BからなるB画像との三色の原色信号を含むRGB画像である。なお、原色信号はこれらの三色に限らず、別の三色であったり、二色、四色等であってもよい。画像取得部11には、解像度を向上させたいRGB画像を取得させる。
【0034】
画像処理部12は、画像取得部11が取得したRGB画像を、解像度を高めた超解像カラー画像とする処理を行う。超解像カラー画像は、R画像、B画像、及びG画像からなるRGB画像である。
【0035】
図2に示すように、画像処理部12は、機能構成部として、色空間変換部21、予測輝度信号生成部22、拡大画像生成部23、及び色空間逆変換部24を備える。色空間変換部21は、画像取得部11が取得したRGB画像に対し色空間変換処理を行い、YUV画像に変換する機能を有する。YUV画像は、輝度信号値Yによる画像であるY画像、並びに色差信号値U又はVによる画像であるU画像及びV画像を含む。予測輝度信号生成部22は、YUV画像を用いて輝度信号画像の超解像画像である予測輝度信号画像を生成する機能を有する。拡大画像生成部23は、色差信号画像に対し拡大処理を行って、拡大した色差信号画像を生成する機能を有する。色空間逆変換部24は、予測輝度信号画像と拡大した色差信号画像とをRGB画像に変換する機能を有する。
【0036】
図3に示すように、画像処理部12の各機能構成部によるワークフローでは、画像取得部11が取得した入力rgb画像31は、超解像の処理が行われて超解像RGB画像35となって出力される。超解像RGB画像35は、超解像R画像35a、超解像G画像35b、及び超解像B画像35cからなる。画像処理部12は、画像取得部11が取得した入力rgb画像31を取得する。本実施形態では、入力rgb画像31は、r画像31a、g画像31b、及びb画像31cを含み、それぞれ画素数は512×512ピクセルである。
【0037】
なお、本明細書において、画像の画素数を示す数値は、単位をピクセルとする。また、R画像及びr画像はそれぞれ赤色信号値R及びrによる画像を、G画像及びg画像はそれぞれ緑色信号値G及びgによる画像を、B画像及びb画像はそれぞれ青色信号値B及びbによる画像を示す。また、R画像、G画像、B画像等の大文字で示す画像は、r画像、g画像、b画像等の小文字で示す画像よりも画素数が大きいものとする。
【0038】
色空間変換部21は、入力rgb画像31に対し色空間変換処理を行う。色空間変換処理は、RGB画像を輝度信号画像と色差信号画像とに変換する処理である。RGB画像は、輝度信号画像と色差信号画像とに変換できることが知られている。RGB画像は画像の構造を冗長に保存しているため、画像圧縮の分野では、色空間を輝度信号と色差信号とに変換する場合があり、JPEG(Joint Photographic Experts Group)がその代表である。JPEGでは符号化の過程で、RGB画像を輝度信号Yと色差信号Cb及びCrに変換し、あまり画質に影響しないとされる色差信号Cb及びCrのダウンサンプリングを(Y:Cb:Cr)として(4:2:2)等で行い、復号でアップサンプリングを行う。
【0039】
色空間変換部21は、色空間変換処理の方式として、JPEGに用いられている形式の他、各種を用いることができる。本実施形態では、カラーコンポジット映像信号において用いられる方式によりRGB画像からYUV画像へ変換する。この方式では、RGB画像からYUV画像への変換は、以下の式(1)から(3)により行うことができる。式(1)から(3)において、RはRGB画像における赤色信号値、GはRGB画像における緑色信号値、BはRGB画像における青色信号値、YはYUV画像における輝度信号値、UはYUV画像におけるUの色差信号値、VはYUV画像におけるVの色差信号値でを示す。また、輝度信号値Y、色差信号値U及びVは、入力rgb画像31の画素ごとに算出される。なお、RGB画像の場合と同様に、Y画像及びy画像はそれぞれ輝度信号値Y及びyによる画像を、U画像及びu画像はそれぞれ色差信号値U及びuによる画像を、画V像及びv画像はそれぞれ色差信号値V及びvによる画像を示し、Y画像、U画像、V画像等の大文字で示す画像は、y画像、u画像、v画像等の小文字で示す画像よりも画素数が大きいものとする。
【0040】
Y=(0.29900*R)+(0.58700*G)+(0.11400*B) (1)
U=(-0.14713*R)+(-0.28886*G)+(0.43600*B) (2)
V=(0.61500*R)+(-0.51499*G)+(-0.10001*B) (3)
【0041】
本実施形態では、入力rgb画像31はr画像31a、g画像31b、及びb画像31cを含むrgb画像であるから、入力rgb画像31に対して色空間変換処理を行うことにより得られる輝度信号画像と色差信号画像とは、y画像32aとu画像32bとv画像32cとを含む入力yuv画像32であり、それぞれ512×512ピクセルである。予測輝度信号生成部22は、入力yuv画像32を受け取り、これに対して処理を行う。
【0042】
予測輝度信号生成部22は、輝度信号画像及び色差信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成する。予測輝度信号画像は、輝度信号画像等に対して超解像処理を行うことにより得られる画像であるため、輝度信号画像よりも解像度が高い。本実施形態では、輝度信号画像及び色差信号画像は輝度信号画像であるy画像32aと色差信号画像であるu画像32bとv画像32cとを含む入力yuv画像32であり、予測輝度信号画像33は、y画像32aよりも解像度が高いY画像33aである。y画像32aとY画像33aとは、どちらも輝度信号の画像である。
【0043】
予測輝度信号生成部22は、予測輝度信号生成モデル41(
図4参照)により予測輝度信号画像33を生成する。予測輝度信号生成モデル41は、超解像を行うモデルであればいずれのモデルによるものであっても用いることができるが、生成する予測輝度信号画像33が良好であることから、CNNを利用して超解像を行うモデルであることが好ましく、より好ましくは、生成する予測輝度信号画像33が良好であることから、U-Netを利用して超解像を行うモデルであることが好ましい。
【0044】
なお、本明細書において、「モデル」とは入力を処理する一連のアルゴリズムをいい、モデルにおいてパラメータ等の調整等のための学習を行っていないもの、モデルの少なくとも一部において学習を行ったもの、モデルにおいて学習を行うことにより一旦学習済みモデルとした後に再度学習済みモデルに対して学習を行うことによりパラメータ等を更新したもの等を含む。「モデル」のうち、「学習済みモデル」とは学習用データ等によりモデルの少なくとも一部において学習を行ったものを特に示す。したがって、「学習済みモデル」には、学習済みモデルに対し再度学習を行うことにより生成したモデルも含む。予測輝度信号生成モデル41は、学習済みモデルである。予測輝度信号生成モデル41を学習により生成することについては、後述する。
【0045】
U-Netは、CNNを用いたFCN(fully convolution network)からなるモデルであり、セマンティックセグメンテーションに用いられるが、超解像の実現においても、U-Netのアーキテクチャーを利用することが知られている(”Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Symmetric Skip Connections”CVPR2016,(米),4/2016,p.210参照)。
【0046】
予測輝度信号生成モデル41(
図4参照)では、エンコーダと折返し層とデコーダとを備えるU-Netのアーキテクチャを採用する。エンコーダ及びデコーダは、それぞれ、1つの又は2つ以上の階層からなる中間層を備える。折返し層は、エンコーダにおける最下流の中間層と、デコーダにおける最上流の中間層と接続する。
【0047】
エンコーダの中間層では、入力した画像に対し、複数のカーネルを用いた畳込み処理を行うことにより特徴マップを生成するか、又は、プーリング処理により中間層に入力された特徴マップよりも画素数を削減するダウンサンプリングを行った上で、複数のカーネルを用いた畳込み処理を行うことにより特徴マップを生成する、との処理を行う。したがって、エンコーダにおける処理は、CNNを用いた処理であると言える。また、プーリング処理は、ダウンサンプリングの一種である。特徴マップは、畳み込み処理において各カーネルにより抽出された、入力した画像の特徴を示す特徴量であり、畳み込み結果の縦横のサイズ、チャンネル数等からなるテンソルである。特徴マップにおいて、縦のサイズ、横のサイズ、チャンネル数をまとめて要素数とする。チャンネルは画像又は畳み込み結果の各画素における色等の構成要素のデータを意味し、チャンネル数は画像又は畳み込み結果の各画素におけるデータの数を示す。なお、畳み込み結果においてサイズは画素数と同じである。畳み込み結果又はテンソルは画像データの一種である。
【0048】
折返し層は、エンコーダとデコーダとの機能を有し、折返し層に入力された特徴マップに含まれる畳み込み結果の縦横のサイズを削減するプーリング処理によるダウンサンプリングを行った上で、複数のカーネルを用いた畳込み処理を行い、その後、逆畳み込み処理により特徴マップに含まれる畳み込み結果の縦横のサイズを増大させるアップサンプリングを行う。なお、折返し層において、特徴量マップに対する情報量削減処理を行ってもよい。情報量削減処理では、情報量を削減するための処理であり、データ型の変換、特徴マップの要素数を削減する等を採用することができる。したがって、情報量は、特徴マップの要素数、ビット数等で表すことができる。特徴マップの要素数は、以下に説明するように、画像、畳み込み結果等の縦のサイズ、横のサイズ、チャンネル数をまとめたものとして表すことができる。ビット数は、要素数とデータ型から求めることができる。
【0049】
デコーダの中間層では、特徴マップに対し、アップサンプリングにより特徴マップに含まれる畳み込み結果の縦横のサイズを増大させる。アップサンプリングの手法としては、画像におけるアップサンプリング処理として用いられる方法を採用することができ、例えば、バイリニア法、バイキュービック法、平均画素法等、及び、逆畳込み処理が挙げられる。アップサンプリングの手法としては、良好な結果が得られることから、逆畳み込み処理を採用することが好ましい。なお、逆畳み込み処理は、処理する特徴マップに含まれる畳み込み結果に対する拡大処理と畳み込み処理とを組み合わせた処理とすることができる。デコーダにおける処理は、畳み込み処理及びプーリング処理の逆の処理を行うことからCNNを用いた処理であると言える。また、デコーダの中間層において特徴マップに対し行われるアップサンプリングは、後に説明する色差信号画像に対して行われる拡大処理において行われるアップサンプリングと、異なる内容の処理であることが好ましい。
【0050】
エンコーダの各中間層では、畳み込み処理等を行う他に、エンコーダの各中間層に対応する階層のデコーダの中間層に、エンコーダの各中間層において生成した特徴マップを渡す。U-Netでは、エンコーダの中間層から出力される特徴マップをデコーダが利用できるため、非常に精度が高い超解像を実現することができる。したがって、デコーダにおける各階層の中間層の数は、エンコーダの各階層の中間層から特徴マップを受け取ることができるように設定することが好ましく、エンコーダ及びデコーダにおいて、それぞれの中間層の数は同じ数にすることがより好ましい。また、デコーダの中間層がエンコーダの中間層から受け取る特徴マップと、デコーダの中間層が上流の階層の中間層から受けとる特徴マップにおいて、互いに画素数が大きく異ならないようにするために、エンコーダ及びデコーダにおいて対応する階層の各中間層においてダウンサンプリング又はアップサンプリングにより増大又は削減する画素数は、パディング等の有無にもよるが、ほぼ同じ程度とすることが好ましい。また、エンコーダの中間層から渡される特徴マップにおいて、エンコーダからの特徴マップの中央部分等の一部を選択した特徴マップとした上で、デコーダの中間層が受け取るようにしても良い。なお、エンコーダ及びデコーダにおける中間層の階層の数をいくつにするかは場合によって適宜決定する。
【0051】
エンコーダ、デコーダ、及び折返し層において行われる処理において調整可能な項目については、適宜設定することができる。調整可能な項目としては、例えば、畳込み処理の回数、カーネルのサイズ、チャンネル数、ダウンサンプリング又はアップサンプリングの方法、プーリング処理により削減するサイズ又は逆畳み込み処理により増大させるサイズ等が挙げられる。なお、学習には、モデルのパラメータを更新することに加え、これらの調整可能な項目の調整を行うことを含めても良い。
【0052】
本実施形態において、予測輝度信号生成モデル41は、U-Netを用いて学習された学習済みモデルであって、入力yuv画像32の入力により、y画像32aの超解像画像であるY画像33aを好ましく出力するよう学習され、パラメータ等の項目の各種調整がなされている。予測輝度信号生成モデル41(
図4参照)では、エンコーダ及びデコーダにより、入力yuv画像32よりも画素数を増大させた超解像画像を生成して出力する。
【0053】
図4に示すように、本実施形態の予測輝度信号生成モデル41は、エンコーダ42とデコーダ43とを備えるU-Netのアーキテクチャーからなるネットワークである。本実施形態では、エンコーダ42は、中間層45a、中間層45b、中間層45c、及び中間層45dからなる中間層45と折返し層44とを備える。デコーダ43は、中間層46a、中間層46b、中間層46c、及び中間層46dからなる中間層46とを備える。
図4において、中間層には斜線を付している。また、各層を示す図形に添えて下方又は上方に記載した数字は、各層が出力する畳み込み結果からなる特徴マップ又は画像の要素数を示したものであり、画像等の縦のサイズ、横のサイズ、チャンネル数をこの順で数字で示したものである。エンコーダ42又はデコーダ43の各中間層を区別しない場合、中間層45又は中間層46という。
【0054】
予測輝度信号生成モデル41は、その後の処理のための処理等を行う入力層48及び出力層49を有しても良い。入力層48及び出力層49ではデータ型の変換等を行う。入力yuv画像32は、最初に入力層48に入力され、その後エンコーダ42の最初の中間層45aに入力される。また、デコーダ43の最後の中間層46aから出力された特徴マップは、出力層49に入力され、出力層49においてY画像33a、U画像33b、及びV画像33cからなる超解像YUV画像47とするための処理を行う。
【0055】
入力層48に入力された入力yuv画像32は、データ型の変更が行われ、中間層46aに渡される。入力yuv画像32及び入力層48が出力するyuv画像は、画像の縦のサイズ、横のサイズ、チャンネル数が、それぞれ512、512、3である。
【0056】
エンコーダ42の最初の中間層45aでは、入力yuv画像32に対して複数のカーネルを用いた畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層45aが出力する特徴マップは、畳み込み結果の要素数が、それぞれ512、512、64である。中間層45aは、エンコーダ42の下流の階層の中間層45bと、対応するデコーダ43の中間層46aとに、生成した特徴マップを渡す。
【0057】
エンコーダ42の下流の階層の中間層45bでは、上流の階層の中間層45aから渡された特徴マップに対して、プーリング処理を行うことにより特徴マップの画素数を削減する。その後、複数のカーネルを用いた畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層45bが出力する特徴マップは、畳み込み結果の要素数が、それぞれ256、256、128である。中間層45bは、エンコーダ42の下流の階層の中間層45cと、対応するデコーダ43の中間層46bとに、生成した特徴マップを渡す。
【0058】
以下、エンコーダ42における各中間層45において、同様の処理を繰り返す。すなわち、中間層45bのすぐ下流の中間層45cでは、上流の階層の中間層45bから渡された特徴マップに対して、プーリング処理を行うことにより特徴マップの画素数を削減する。その後、複数のカーネルを用いた畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層45cは、エンコーダ42の下流の階層の中間層45dと、対応するデコーダ43の中間層46cとに、生成した特徴マップを渡す。
【0059】
エンコーダ42の中間層45におけるプーリング処理では、画素数を半減する処理を行っている。また、最初の中間層45aにおける畳み込み処理において64チャンネルの特徴マップを生成し、中間層45a以外の各中間層45における畳み込み処理においてチャンネル数をそれぞれ直前の中間層45におけるチャンネル数の2倍の特徴マップを生成する。このようにして、エンコーダ42の最下流の中間層45dでは、入力yuv画像32に基づき、畳み込み結果の要素数が64、64、512であり、画素数又は情報量が削減された特徴マップが生成される。エンコーダ42の最下流の中間層45dが生成した特徴マップは折返し層44に渡される。
【0060】
折返し層44では、ダウンサンプリング処理とアップサンプリング処理との両者をこの順で行う。したがって、
図4では、折返し層44は、ダウンサンプリング処理を行うエンコーダ42とアップサンプリング処理を行うデコーダ43との両者を含むものとして示している。
【0061】
折返し層44では、中間層45dから受け取った特徴マップに対して、プーリング処理を行うことにより特徴マップの画素数を削減する。その後、複数のカーネルを用いた畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。この際の特徴マップは、畳み込み結果の要素数が32、32、1024である。
【0062】
ここで、折返し層44では、特徴マップのチャンネル数を減少させる情報量削減処理を行ってもよい。本実施形態では、情報量削減処理により、畳み込み結果の要素数が32、32、1024であった特徴マップを、32、32、128の特徴マップとする。
【0063】
折返し層44において、次に、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。この結果、折返し層44が出力する特徴マップは、畳み込み結果の要素数が64、64、512である。折返し層44が生成した特徴マップは、デコーダ43の最上流の中間層46dに出力する。
【0064】
デコーダ43の最上流の中間層46dでは、折返し層44から渡された特徴マップと、エンコーダ42の対応する中間層45dから渡された特徴マップとを結合したものに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層46dが出力する特徴マップは、畳み込み結果の要素数が128、128、256である。中間層46dは、生成した特徴マップを、デコーダ43の次の下流の階層の中間層46cに渡す。
【0065】
次に、下流の中間層46cでは、受け取った特徴マップに対して、上流の中間層46dで行ったのと同様の処理を行う。すなわち、デコーダ43の中間層46cでは、上流の階層の中間層46dから渡された特徴マップと、エンコーダ42の対応する中間層45cから渡された特徴マップとを結合したものに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層46cが出力する特徴マップは、畳み込み結果の要素数が256、256、128である。中間層46cは、生成した特徴マップを、デコーダ43の次の下流の階層の中間層46bに渡す。中間層46が複数の階層からなる場合は、各階層の中間層46においてこれらの処理を繰り返して行う。
【0066】
以下、デコーダ43における各中間層46において、同様の処理を繰り返す。すなわち、中間層46cの次の下流の中間層46bでは、上流の階層の中間層46cから渡された特徴マップと、エンコーダ42の対応する中間層45bから渡された特徴マップとを結合したものに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層46bは、生成した特徴マップを、デコーダ43の次の下流の階層の中間層46aに渡す。
【0067】
なお、デコーダ43の最下流の中間層46aは、上流の階層の中間層46bから渡された特徴マップと、エンコーダ42の対応する中間層45aから渡された特徴マップと、さらに、入力yuv画像32とを結合したものに対して処理を行っても良い。中間層46aは、これら3つを結合したものに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層46aが出力する特徴マップは、畳み込み結果の要素数が1024、1024、32である。中間層46aが出力する特徴マップは、出力層49に入力される。
【0068】
出力層49は、デコーダ43の最下流の中間層46aが出力した特徴マップを受け取る。出力層49は、チャンネル数の調整、データ型の変換等を行い、画像の要素数が1024、1024、3である超解像YUV画像47を出力する。超解像YUV画像47は、Y画像33a、U画像33b、及びV画像33cを含み、3つのチャンネルは輝度信号画像及び2つの色差信号画像の3つに対応する。
【0069】
以上のように、予測輝度信号生成モデル41は、y画像32aの超解像画像であるY画像33aを好ましく出力するよう設計及び学習されたモデルであるため、入力yuv画像32の入力により、y画像32aの超解像画像であるY画像33aを好ましく出力することができる。Y画像33aは、予測輝度信号画像33である。
【0070】
拡大画像生成部23は、色差信号画像に対して拡大処理を行うことにより、拡大色差信号画像を生成する。拡大画像生成部23が行う拡大処理は、超解像処理とは異なる処理である。
図3に示すように、本実施形態では、拡大画像生成部23は、入力yuv画像32が含む画像u及び画像vに対し拡大処理を行い、入力yuv画像32が含む画像u及び画像vに比べて画素数が増大した画像U及び画像Vからなる拡大色差信号画像34を生成する。
【0071】
拡大画像生成部23が行う拡大処理は、予測輝度信号画像33を生成するために行う超解像処理とは異なる処理であればよく、単純拡大処理、アップサンプリング処理等を含む。単純拡大処理は、単に各画素の縦及び横のサイズを引き伸ばし、画素数を増大させる処理である。アップサンプリング処理は、増加する画素の画素値を計算により補完しながら画素数を増大させる処理である。アップサンプリング処理では、各種の手法を採用することができる。画像におけるアップサンプリング処理としては、例えば、バイリニア法、バイキュービック法、平均画素法等が挙げられる。
【0072】
拡大画像生成部23が行う拡大処理により生成する拡大色差信号画像34の画素数は、予測輝度信号画像33の画素数と同じものとする。したがって、本実施形態では、u画像32b及びv画像32cがそれぞれ512×512ピクセルであったため、これらの画像のそれぞれに対し縦及び横のサイズを2倍に拡大し、U画像34a及びV画像34bを予測輝度信号画像33であるy画像32aと同じ1024×1024ピクセルとする。
【0073】
色空間逆変換部24では、予測輝度信号画像33及び拡大色差信号画像34とに対し、色空間逆変換を行い、超解像RGB画像35を生成する。本実施形態では、RGB画像からYUV画像へ変換した際と同様、カラーコンポジット映像信号において用いられる方式による以下の式(4)から(6)による変換式を用いる。式(4)から(6)において、RはRGB画像における赤色信号値、GはRGB画像における緑色信号値、BはRGB画像における青色信号値、YはYUV画像における輝度信号値、UはYUV画像におけるUの色差信号値、VはYUV画像におけるVの色差信号値を示す。これらの式によれば、赤色信号値R、緑色信号値G、及び青色信号値Bと、輝度信号値Y、色差信号値U、及び色差信号値Vとが、相互に変換可能である。
【0074】
R=(1.00000*Y)+(0.00000*U)+(0.13983*V) (4)
G=(1.00000*Y)+(-0.39465*U)+(-0.58060*V) (5)
B=(1.00000*Y)+(2.03211*U)+(0.00000*V) (6)
【0075】
出力部13は、画像処理装置10が生成した超解像画像である超解像RGB画像35を、ディスプレイ等の表示部又はストレージ等に出力する。画像処理装置10は、この場合、ディスプレイ又はストレージ等と接続する。なお、超解像RGB画像35をディスプレイに表示するために出力する場合は、ディスプレイに、表示している画像が被写体を撮影して直接得られた画像ではなく、超解像処理により予測した画像データを含むものであることを示すインジケータ等をディスプレイに示した上で、超解像RGB画像35を表示することが好ましい。超解像RGB画像35は、被写体を撮影して得られた画像ではなく、予測輝度信号画像33等により予測した画像データを含むため、診断等の際に医師等に誤解を与えることを防ぐためである。
【0076】
以上のように、画像処理部12により、入力した画像に比べて解像度が向上した超解像画像を生成することができる。この超解像画像は、色ずれ、ノイズ等が抑えられた解像度に優れた超解像画像とすることができる。通常、CNNで超解像を行う場合はRGB画像を入力し、RGB画像を出力することになる。このとき、推論ではR画像、G画像及びB画像をそれぞれで推論しなければならず、色ずれの原因となってしまう場合があった。画像処理部12においては、RGB画像を輝度信号画像と色差信号画像とに変換し、輝度信号画像と色差信号画像とをCNNに入力し、Y画像33aである予測輝度信号画像33のみを出力することで超解像画像を生成し、色差信号画像は例えば単純な拡大処理で、超解像RGB画像35を生成する。上記のような構成により、超解像RGB画像35は、色ずれ、ノイズ等が抑えられた解像度に優れた超解像画像となる。
【0077】
また、画像処理部12において、予測輝度信号生成モデル41の折返し層44が情報削減処理を行ったモデルに基づき学習したモデルであることから、生成した予測輝度信号画像33は、学習に使用した入力rgb画像31が劣化する前の元の高解像度画像の輝度信号画像に比較して、高周波成分を多く付与された解像度が高い画像とすることができる。したがって、上記のような構成により、画像処理部12を有する画像処理装置10により、生成された超解像RGB画像35は、色ずれ、ノイズ等が抑えられた上に、高周波成分を多く付与されることにより、画素数は同じ場合であっても、劣化前の元の高解像度画像よりも高画質な画像とすることができる。
【0078】
次に、予測輝度信号生成モデル41(
図4参照)の生成について説明する。予測輝度信号生成モデル41は、予測輝度信号生成学習用モデル(以下、学習用モデルという)を学習することにより生成する学習済みモデルである。
図5に示すように、画像処理装置10は、予測輝度信号生成モデル41を生成するための学習を行う場合、機能構成部として学習部14を備える。画像処理部12は、学習部14が生成した予測輝度信号生成モデル41を用いる。
【0079】
学習前の学習用モデルは、予め設定した複数のパラメータを含む一連のアルゴリズムからなるネットワークを含む。これらのパラメータ等を調整する学習を行うことにより、学習済みモデルを生成する。なお、学習用モデルの学習には、学習用モデルが含むパラメータ等を調整することに加え、学習用モデルにおける他の調整可能な項目の調整を行うことを含めても良い。
【0080】
図6に示すように、学習部14は、機能構成部として、複数の原色信号を含む学習用画像であるソースイメージに対して劣化処理を行う機能を有する劣化処理部51と、学習用モデルにより処理された画像と学習用画像であるソースイメージとを比較することにより損失を計算する機能を有する比較部52と、比較部52により計算された損失を学習用モデルにフィードバックすることにより学習用モデルにおけるパラメータを更新する制御を行う機能を有するフィードバック制御部53とを備える。ソースイメージは通常RGB画像であるため、劣化処理部51が劣化処理を行う対象は、RGB画像に対して色空間変換処理を行うことにより色変換画像であるYUV画像に変換されたソースイメージである。劣化処理部51aは、YUV画像であるソースイメージに対して画素数を削減する等の劣化処理を行い、解像度が低下したyuv画像を生成する。
【0081】
学習用モデルは、学習によって生成した予測輝度信号生成モデル41に画像を入力した場合に、入力した画像の超解像画像を出力する処理を行うことができるものであればよい。超解像画像を生成する学習用モデルとしては、GAN、U-Net等が挙げられる。本実施形態では、基本的なU-Netを一部変更した学習モデルを用いる。基本的なU-Netとは、それぞれ1つのネットワークからなるエンコーダ及びデコーダを有し、エンコーダ及びデコーダの中間層が連結するネットワークである。
【0082】
図7に示すように、本実施形態にける学習用モデル61は、予測輝度信号生成モデル41と同じアーキテクチャであるエンコーダ42及びデコーダ43を含むU-Netにおいて、主に2点の構成を追加することにより一部変形したものである。
【0083】
1点目は、折返し層44に分岐して独立した分岐ネットワーク62を接続する点である。分岐ネットワーク62は、デコーダ43とは別にアップサンプリングを行い、副予測輝度信号64を生成する。なお、分岐ネットワーク62は、エンコーダ42等の他のネットワーク等と接続せず、独立している。したがって、デコーダ43での処理とは異なる処理となるため、分岐ネットワーク62独自の特徴マップを生成することができる。
【0084】
2点目は、教師データであるYUV画像のソースイメージ63bと、学習用モデルが生成した予測輝度信号画像33及び副予測輝度信号64とをそれぞれ比較することにより、2種類の損失を算出する機能を実行する比較部52a及び比較部52bと、損失を最小にするように学習用モデルのパラメータを変更する機能を実行するフィードバック制御部53とを備える点である。学習用モデル61が含む予測輝度信号生成モデル41と分岐ネットワーク62とがそれぞれ生成する予測輝度信号画像33及び副予測輝度信号64は、学習用輝度信号画像である。なお、比較部52aと比較部52bを区別しない場合に、比較部52という。
【0085】
学習用モデル61に対する学習には、教師データである高解像度のRGB画像のソースイメージ63aを用いる。予測輝度信号生成モデル41が生成する超解像画像である予測輝度信号画像33、又は、分岐ネットワーク62が生成する超解像画像である副予測輝度信号64と比較するために、ソースイメージ63aまたはソースイメージ63bには高解像度の画像の一部分を切り取ったイメージを用いることが好ましい。ソースイメージ63aは、複数の原色信号を含むカラー画像であり、本実施形態では、R画像、G画像、及びB画像を含むRGB画像である。なお、ソースイメージにおいてRGB画像であるソースイメージ63aとYUV画像であるソースイメージ63bとを区別しない場合、ソースイメージ63という。
【0086】
なお、
図7において、ソースイメージ63aはR画像、G画像、及びB画像を含むRGB画像である。また、ソースイメージ63bはY画像、U画像、及びV画像を含むYUV画像であり、入力yuv画像32は1つの輝度信号及び2つの色差信号を含む画像である。ソースイメージ63及び入力yuv画像はそれぞれ3つの長方形の図形により示す。1つの長方形は1つの画像信号からなる画像を示し、斜線を付した長方形は輝度信号からなる画像を示す。円形の図形は処理部を示し、角丸長方形の図形は学習用モデルの処理部である各層を示す。なお、図において、同じ符号は同じものを示す。
【0087】
RGB画像であるソースイメージ63aは、まず、色空間変換部21に入力され、色空間変換処理が行われることにより、YUV画像であるソースイメージ63bとなる。その後、劣化処理部51aによる劣化処理が行われる。劣化処理と色空間変換処理とでは、色空間変換処理を先に行い、その後、劣化処理を行う。これにより、ソースイメージ63bが含む解像度が高い輝度信号を学習用画像であるソースイメージとして使用することができる。本実施形態では、ソースイメージ63は、1024×1024ピクセルの画素数を有する。
【0088】
色空間変換部21により行われる色空間変換処理については、上記の予測輝度信号生成モデル41において説明したのと同様である。色空間変換処理により生成されたYUV画像ソースイメージ63bは、劣化処理部51に進められる。劣化処理部51は、YUV画像であるソースイメージ63bに対し劣化処理を行うことにより、劣化画像である入力yuv画像32を生成する。
【0089】
劣化処理とは、画像における画素数を減少させること及び/又は高周波成分の情報を減少させること等により解像感を減少させる等の処理を意味する。本実施形態においては、YUV画像であるソースイメージ63bは、画素数が減少した劣化画像である入力yuv画像32に変換される。yuv画像のうちのy画像32a(
図4参照)は、学習用輝度信号画像である。本実施形態においては、入力yuv画像32は、512×512ピクセルの画素数を有する。
【0090】
劣化処理としては、フィルターを適用するフィルター処理、ノイズを付与するノイズ付加処理等が行われても良い。劣化処理は、これらの処理の1種類または2種類以上を組み合わせて行っても良い。劣化処理により学習済みのモデルである予測輝度信号生成モデル41における超解像処理の性能が左右されることがあるため、目的とする超解像処理に応じて、劣化処理の内容を決定することが好ましい。
【0091】
入力yuv画像32は、デコーダ43の入力層48に入力され、その後、デコーダ43の中間層45a、45b、45c、及び45dによる処理を経て、折返し層44に入力されることは、上記の予測輝度信号生成モデル41において説明したのと同様である。
【0092】
学習用モデル61における折返し層44は、上記したように、分岐して独立した分岐ネットワーク62を接続する。折返し層44は、受け取った特徴マップに対する処理を行った後、デコーダ43の最上流の中間層46dに出力し、かつ、分岐ネットワーク62の入力層66に出力する。
【0093】
折返し層44の処理は、予測輝度信号生成モデル41(
図4参照)と同様であり、ダウンサンプリング処理とアップサンプリング処理との両者をこの順で行う。折返し層44では、中間層45dから受け取った特徴マップに対して、プーリング処理を行うことにより特徴マップの画素数を削減する。その後、複数のカーネルを用いた畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。この際の特徴マップは、要素数が32、32、1024である。
【0094】
ここで、折返し層44では、特徴マップのチャンネル数を減少させる情報量削減処理を行う。本実施形態では、情報量削減処理により、畳み込み結果の要素数が32、32、1024であった特徴マップを、32、32、128の特徴マップとする。
【0095】
その後、要素数が32、32、128の特徴マップは、分岐ネットワークの入力層66と、折返し層44における次の処理とに送られる。折返し層44における次の処理では、複数のカーネルを用いた逆畳み込み処理を行うことにより、複数のチャンネルの特徴マップが生成される。この結果、折返し層44が出力する特徴マップは、畳み込み結果の要素数が64、64、512となる。折返し層44が生成した特徴マップは、デコーダ43の最上流の中間層46dに出力する。デコーダ43の最上流の中間層46dに出力された特徴マップに対しては、予測輝度信号生成モデル41(
図4参照)におけるデコーダ43の各中間層を経る同様の処理が行われ、Y画像である予測輝度信号画像33が生成される。
【0096】
分岐ネットワーク62において、入力層66が折返し層44から受け取った要素数が、32、32、128の特徴マップは、入力層66から分岐ネットワーク62の中間層65に渡される。中間層65における処理では、デコーダ43(
図4参照)の中間層46における処理と同様、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。ただし、中間層46と異なり、分岐ネットワーク62の中間層65における処理では、エンコーダ42の中間層45を含め、その他からの情報の入力を行わず、分岐ネットワーク62単独での処理を行う。
【0097】
本実施形態では、中間層65は、中間層65a、中間層65b、中間層65c、及び中間層65dの、4段階を有する。分岐ネットワーク62の最上流の中間層65aでは、折返し層44から渡された特徴マップに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層65aが出力する特徴マップは、畳み込み結果の要素数が128、128、256である。中間層65aは、生成した特徴マップを、分岐ネットワーク62の次の下流の階層の中間層65bに渡す。
【0098】
次に、下流の中間層65bでは、受け取った特徴マップに対して、上流の中間層65aで行ったのと同様の処理を行う。すなわち、分岐ネットワーク62の中間層65bでは、上流の階層の中間層65aから渡された特徴マップに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層65bが出力する特徴マップは、畳み込み結果の要素数が256、256、128である。中間層65bは、生成した特徴マップを、分岐ネットワーク62の次の下流の階層の中間層65cに渡す。中間層65が複数の階層からなる場合は、各階層の中間層65においてこれらの処理を繰り返して行う。
【0099】
以下、分岐ネットワーク62における各中間層65において、同様の処理を繰り返す。すなわち、中間層65bの次の下流の中間層65cでは、上流の階層の中間層65bから渡された特徴マップに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。中間層65cは、生成した特徴マップを、分岐ネットワーク62の次の下流の階層の中間層65dに渡す。中間層65dでは、上流の階層の中間層65cから渡された特徴マップに対し、複数のカーネルを用いた逆畳み込み処理を行うことにより複数のチャンネルの特徴マップを生成する。
【0100】
分岐ネットワーク62の最下流の中間層である中間層65dが出力する特徴マップは、畳み込み結果の要素数が1024、1024、3である。これは、Y画像、U画像、及びV画像の3チャンネルからなる縦横1024×1024ピクセルのYUV画像とすることができる。このようにして、分岐ネットワーク62は、縦横1024×1024ピクセルのY画像である副予測輝度信号画像64を生成する。
【0101】
予測輝度信号画像33及び副予測輝度信号画像64は、それぞれ比較部52a及び比較部52bにおいて、教師データであるソースイメージ63bのY画像と比較することにより、損失値を算出する。損失値とは、損失関数により算出される値であり、予測輝度信号画像33及び副予測輝度信号画像64とソースイメージ63とを比較した場合に、予測輝度信号画像33及び副予測輝度信号画像64がどの程度ソースイメージ63を正しく復元できているかを評価した値である。
【0102】
損失関数としては、超解像、CNN等に用いられる損失関数を採用することができ、適合率、再現率、F値(Dice係数)、IoU(Jaccard係数)、2乗和誤差、交差エントロピー誤差等が挙げられる。いずれの損失関数を用いるかは、互いに異なる損失関数を用いて互いに異なる2つ以上の損失値を算出した上でそれぞれで学習した場合に、これらの2つ以上の損失値に関する評価指標を用いて評価することにより決定しても良い。
【0103】
なお、超解像画像である予測輝度信号画像33及び副予測輝度信号画像64は、劣化処理前のソースイメージ63bのY画像よりも解像度が高い場合があるため、予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像と、画素毎に同一である場合に最も値が小さくなる損失値を用いる以外に、予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像よりも解像度が高い場合に損失値が最小となるような損失値を算出してもよい。具体的には、GAN等の教師なし学習の技術を採用すること等により、予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像よりも解像度が高い場合に損失値が最小となるような損失値が算出できるようにしてもよい。
【0104】
フィードバック制御部53は、比較部52a及び比較部52bにより算出された2つの損失値を用いて、予測輝信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像よりも解像度が高くなるよう、学習用モデル61におけるパラメータ等を更新し、調整項目を調整する。フィードバック制御部53は、2つの損失値が最小となるようにパラメータ等を調整することができる。
【0105】
また、予測輝度信号生成モデル41では、予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像よりも解像度が高い場合が好ましいことから、フィードバック制御部53における制御により、損失値が最小とならないことを目標として、すなわち、超解像画像である予測輝度信号画像33及び副予測輝度信号画像64と、劣化処理前のソースイメージ63bのY画像とにおいて、超解像画像である予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像よりも解像度が高くなる場合の特定の損失値を設定し、これを目標としてパラメータ等を調整するようにしてもよい。
【0106】
学習においては、ソースイメージ63を用いたこれらの一連の流れを、複数のソースイメージ63を用いて繰り返し行う。出力される予測輝度信号画像33及び副予測輝度信号画像64が、劣化処理前のソースイメージ63bのY画像と解像度が同等か又は高くなるよう、パラメータ等が調整され、それ以上学習を行っても出力される予測輝度信号画像33及び副予測輝度信号画像64の結果が向上しないと評価された場合に学習を完了させる。評価には、上記した損失関数等を用いることができる。画像処理部12は、パラメータ等が調整されたこの時点の予測輝度信号生成モデル41を、学習済みモデルとして用いる。
【0107】
なお、予測輝度信号生成モデル41(
図4参照)では、入力では、y画像32a、u画像32b、及びv画像32cを含む入力yuv画像32を用い、超解像処理の結果、Y画像33a、U画像33b、及びV画像33cを含む超解像YUV画像33を得るが、損失を算出し、フィードバックを行うのに用いるのは輝度信号画像であるY画像33aのみとする。このように、予測輝度信号生成モデル41では、輝度信号画像と色差信号画像とを含む入力yub画像32に対して、一回の超解像処理を行うことが好ましい。すなわち、損失値の算出及びパラメータの更新に用いるのはY画像33a等の輝度信号画像のみであるのに、予測輝度信号生成モデル41には、y画像32a以外の色差信号画像をも入力し、これらの超解像画像を出力する処理を行う。これにより、より情報量が多い状態で輝度信号画像の超解像画像を生成することができるためである。
【0108】
また、上記にて説明したように、本実施形態では、超解像処理を行うことにより、それぞれ2つの互いに異なる学習用予測輝度信号画像を生成する互いに異なる2つのネットワークである予測輝度信号生成モデル41と分岐ネットワーク62とのネットワークとを備える。そして、これらの2つのネットワークのそれぞれにより得られる学習用予測輝度信号画像である予測輝度信号画像33及び副予測輝度信号画像64を用いることにより、比較部52が、2つの損失値を得る。そして、これらの2つの損失値を用いて、予測輝度信号生成モデル41のパラメータを更新する。
【0109】
また、上記では、予め設定した複数のパラメータ等を有する学習用モデル61に対し学習を行う場合について説明したが、学習が完了し、複数のパラメータを含む学習済みモデルに対し再度学習を行っても良い。この場合の学習は、上記にて説明した、学習用モデル61に学習を行う場合と同様である。
【0110】
また、上記では、折返し層44での情報削減処理において、要素数により情報削減を評価したが、画像又は特徴マップ全体のビット数により情報量の削減を評価してもよい。すなわち、情報量削減処理は、ビット数が削減される処理であればよい。そして、予測輝度信号生成モデル41(
図4参照)におけるビット数については、折返し層44での情報量は、予測輝度信号生成モデル41に入力する入力yuv画像32の情報量より、少なくなるように削減することが好ましい。
【0111】
図8では
図4における要素数に代えて、ビット数の数字を示している。本実施形態では、入力yuv画像32の情報量は、要素数が5125123であり、データ型が整数型8ビットであるため、6291456ビットであるのに対し、入力層48でデータ型を浮動小数点定数型に変換されており、折返し層44の前半での要素数は32、32、128であるため、4194304ビットとなる。折返し層44での情報削減処理では、要素数の削減以外にも、ビット数で表される情報量を削減することができる手段であれば、適宜用いることができる。
【0112】
画像処理装置10により超解像処理を行い、超解像画像を生成する処理の流れを説明する。
図9に示すように、画像処理部12において、学習用モデル61に対し超解像処理が好適に行えるように学習をすることにより生成した学習済みモデルである予測輝度信号生成モデル41を準備する(ステップST110)。予測輝度信号生成モデル41を用いて超解像処理の対象である入力rgb画像31を準備し、色空間変換部21により色変換処理を行う(ステップST120)。
【0113】
色変換処理により生成した入力yuv画像32は画像処理部12により処理される。予測輝度信号生成モデル41のエンコーダ42の入力層48に入力yuv画像32が入力されることにより、予測輝度信号生成モデル41が入力yuv画像32に対して処理を行い、入力yuv画像32に基づく予測輝度信号画像33を出力する(ステップST130)。
【0114】
また、拡大画像生成部23が、入力yuv画像32に基づき拡大色差信号画像34を出力する(ステップST140)。色空間逆変換部24は、予測輝度信号画像33と拡大色差信号画像34とを取得し、これらに対し逆変換処理を行う(ステップST150)。逆変換処理により、超解像RGB画像35が生成される(ステップST160)。
【0115】
CNNではしばしば、マックスプーリングや畳み込み処理を用いてダウンサンプリングし、解像度を落としながら特徴量の抽出を行う。このとき情報量が維持できるようにチャンネル数を増やすことが一般的であり、中間層から出力される特徴量は冗長的に情報を保持していることが多い。CNNを利用した超解像でも、エンコーダーでは解像度を落とす代わりにチャンネルを増やすことで情報量を維持している。ソースイメージである元画像に最も近く、正確に情報を保持している入力画像の情報量を維持することが、超解像の画像を生成するための近道である。しかし、その結果、エンコーダーでの特徴抽出は入力画像を元画像に修正するための特徴を抽出するにとどまり、元画像の画質を越えることは困難である。
【0116】
そこで学習用モデル61では、より画像の特徴をエンコーダ42で抽出できるように、エンコーダ42の最終層の折り返し層44で情報量の削減を行う。さらに、折返し層44から分岐する超解像を生成する独立した分岐ネットワーク62を接続する。分岐ネットワーク62は学習時のみに使用される。折返し層44での情報量の削減は、例えばチャンネル数を調整することで実現する。チャンネル数を調整することは、上記したように、要素数を調整することである。また、上記したように、入力画像である入力yuv画像32の解像度が512×512でyuvの3チャンネル、整数型8ビット画像で情報量は6291456ビットである。折返し層44では解像度が縦×横で32×32にダウンサンプリングされているので、チャンネル数を128にすることで情報量は4194394ビットになり2097062ビットが削減される。
【0117】
独立した分岐ネットワーク62は、削減された情報量をもとに元画像を生成する必要がある。そのため学習では、この独立した分岐ネットワーク62がより強調して重要な画像の特徴を抽出できるように働きかけることができる。また、削減された情報においては、U-Netのエンコーダ42から出力された特徴量である特徴マップがデコーダ43で共有されるため、情報量は保たれる。
【0118】
したがって、学習用モデル61及びこれを学習させて得られる予測輝度信号生成モデル41では、解像度及び解像感等の画質が向上した超解像画像を生成することができる。上記の構成により、この超解像画像は、劣化処理前のソースイメージ63よりも高画質な画像とすることが可能である。
【0119】
画像処理装置10は、内視鏡を用いて撮影された内視鏡画像を、カラー画像として取得してもよい。
図10に示すように、内視鏡システム70は、被写体を撮影して内視鏡画像を生成する内視鏡71と、内視鏡71及び光源装置73等の制御を行うプロセッサ装置72と、内視鏡71の先端部から被写体に照射するための照明光を発する光源装置73と、内視鏡画像等を表示するディスプレイ74と、プロセッサ装置72への情報等の入力に用いる、タッチパネル、キーボード、マウス等の入力デバイス75とを備える。また、プロセッサ装置72は、内視鏡により取得した内視鏡画像等の医療画像を保存して管理するPACS(医療画像管理システム、Picture Archiving and Communication System)76と、ネットワーク77を介して接続する。
【0120】
図11に示すように、内視鏡システム70において、画像処理装置10は、内視鏡71が取得した内視鏡画像81をプロセッサ装置72またはPACS76から受け取り、受け取った内視鏡画像81の解像度を高めた超解像内視鏡画像82を生成する装置である。超解像内視鏡画像82は、内視鏡画像81に対し、画像処理装置10により超解像処理を行った画像である。本実施形態では、内視鏡画像81の一部を切り取った部分内視鏡画像83に対し、超解像処理を行う。部分内視鏡画像83の設定は、内視鏡システム70の使用者が行っても良いし、画像処理装置10等が行ってもよい。生成した部分内視鏡画像83の超解像内視鏡画像82は、プロセッサ装置72を介して、ディスプレイ74に表示する、または、ネットワーク77を介してPACS76に保存してもよい。
【0121】
内視鏡システム70は、上記のように構成したことから、内視鏡画像81の超解像内視鏡画像82を生成し、ディスプレイ74に表示する、または、ネットワーク77を介してPACS76に保存することができる。
【0122】
なお、
図12に示すように、ディスプレイ74に超解像内視鏡画像82を表示する際は、ディスプレイ74に、超解像内視鏡画像82と、表示しているのが超解像内視鏡画像82であることを示すインジケータ84とを表示することが好ましい。インジケータ84は、使用者が、ディスプレイ74に表示しているのが超解像内視鏡画像82であることが理解できる態様により表示すればよく、
図11に示すように、超解像内視鏡画像82が、入力した内視鏡画像81と比較して何倍の倍率で拡大されたかを倍率の数値で示す「×4」と、超解像画像であることを示す「SR」との文字を表示するものであってもよい。
【0123】
内視鏡システム70において、上記した画像処理装置10を組み込んで、内視鏡画像の超拡大画像を生成し、ディスプレイ74に表示することにより、解像度が高い状態の超解像内視鏡画像82を、医師等による診断の参考等に用いることができる。内視鏡画像は、色として赤が多く含まれ、他の色はそれほど多くないという特徴を有する。この場合、画像処理装置10により、輝度信号画像と色差信号画像とに色変換を行い、輝度信号画像のみに、超解像処理を行った画像を用いて超解像内視鏡画像82を生成することにより、生成した超解像内視鏡画像82において、解像度が優れ、ノイズが低減された、好ましい超解像画像を生成することができる。したがって、画像処理装置10は、内視鏡画像の超解像処理に好適に使用することができる。
【0124】
なお、上記した各機能構成部は、コンピュータを機能させるプログラムとして実現される。したがって、本発明の画像処理プログラムは、コンピュータに、複数の原色信号を含むカラー画像を取得する機能と、カラー画像に対して色空間変換処理を行うことにより、輝度信号画像と色差信号画像とを生成する機能と、輝度信号画像に対して超解像処理を行うことにより予測輝度信号画像を生成する機能と、予測輝度信号画像を用いてカラー画像の解像度を高めた超解像カラー画像を生成する機能とを実行させる画像処理プログラムである。
【0125】
上記実施形態において、画像処理装置10又はプロセッサ装置72に含まれる画像取得部11、画像処理部12、出力部13、学習部14等といった各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウエア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA (Field Programmable Gate Array) などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、各種の処理を実行するために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0126】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合せ(例えば、複数のFPGAや、CPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウエアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0127】
さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた形態の電気回路(circuitry)である。
【符号の説明】
【0128】
10 画像処理装置
11 画像取得部
12 画像処理部
13 出力部
14 学習部
21 色空間変換部
22 予測輝度信号生成部
23 拡大画像生成部
24 色空間逆変換部
31 入力rgb画像
31a r画像
31b g画像
31c b画像
32 入力yuv画像
32a y画像
32b u画像
32c v画像
33 予測輝度信号画像
33a Y画像
33b U画像
33c V画像
34 拡大色差信号画像
34a U画像
34b V画像
35 超解像RGB画像
35a 超解像R画像
35b 超解像G画像
35c 超解像B画像
41 予測輝度信号生成モデル
42 エンコーダ
43 デコーダ
44 折返し層
45、45a、45b、45c、45d 中間層
46、46a、46b、46c、46d 中間層
47 超解像YUV画像
48 入力層
49 出力層
51 劣化処理部
52、52a、52b 比較部
53 フィードバック制御部
61 学習用モデル
62 分岐ネットワーク
63、63a、63b ソースイメージ
64 副予測輝度信号画像
70 内視鏡システム
71 内視鏡
72 プロセッサ装置
73 光源装置
74 ディスプレイ
75 入力デバイス
76 PACS
77 ネットワーク
81 内視鏡画像
82 超解像内視鏡画像
83 部分内視鏡画像
84 インジケータ