(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023079054
(43)【公開日】2023-06-07
(54)【発明の名称】画像変換装置、画像変換装置の制御方法、制御プログラム、記録媒体
(51)【国際特許分類】
G06T 1/00 20060101AFI20230531BHJP
G06T 7/00 20170101ALI20230531BHJP
G06T 5/50 20060101ALI20230531BHJP
G06T 1/40 20060101ALI20230531BHJP
【FI】
G06T1/00 500Z
G06T7/00 350C
G06T5/50
G06T1/40
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021192463
(22)【出願日】2021-11-26
(71)【出願人】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】和田 直哉
(72)【発明者】
【氏名】小林 賢也
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057AA07
5B057CA01
5B057CA08
5B057CA12
5B057CA13
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB13
5B057CB16
5B057CD11
5B057CE08
5B057CE17
5B057DA16
5B057DB02
5B057DB03
5B057DB06
5B057DB09
5B057DC09
5B057DC19
5B057DC25
5B057DC40
5L096AA02
5L096AA06
5L096AA09
5L096BA03
5L096DA01
5L096FA35
5L096FA37
5L096GA40
5L096HA11
5L096JA03
5L096KA04
5L096MA03
(57)【要約】
【課題】画像変換により生成される生成画像の色調を制御する。
【解決手段】画像変換装置は、第1対象物の対象部位が写っている、第1画像スタイルの入力画像を取得する取得部と、(1)入力画像から、第1画像スタイルとは異なる第2画像スタイルの目的画像を生成するニューラルネットワークと、(2)第1対象物とは異なる第2対象物の対象部位が写っている画像であって、第2画像スタイルの参照画像における対象部位の色調を示す色調情報を取得して、ニューラルネットワークに入力する色調情報制御部と、を備える生成部と、入力画像及び参照画像を生成部に入力する入力制御部と、生成部によって生成された目的画像の出力を制御する出力制御部と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1対象物の対象部位が写っている、第1画像スタイルの入力画像を取得する取得部と、
(1)前記入力画像から、前記第1画像スタイルとは異なる第2画像スタイルの目的画像を生成するニューラルネットワークと、(2)前記第1対象物とは異なる第2対象物の前記対象部位が写っている画像であって、前記第2画像スタイルの参照画像における前記対象部位の色調を示す色調情報を取得して、前記ニューラルネットワークに入力する色調情報制御部と、を備える生成部と、
前記入力画像及び前記参照画像を前記生成部に入力する入力制御部と、
前記生成部によって生成された目的画像の出力を制御する出力制御部と、を備える、
画像変換装置。
【請求項2】
前記ニューラルネットワークは、
前記第1画像スタイルの第1入力画像から前記第2画像スタイルの第1変換画像を生成する第1生成器と、
前記第2画像スタイルの第2入力画像から前記第1画像スタイルの第2変換画像を生成する第2生成器と、
前記対象部位の形状及び色調に基づいて、前記第1画像スタイルの画像を識別可能な第1識別器と、
前記対象部位の形状及び色調に基づいて、前記第2画像スタイルの画像を識別可能な第2識別器と、
を備え、
前記第1生成器は、前記第2変換画像から前記第1画像スタイルの第3変換画像をさらに生成可能であり、
前記第2生成器は、前記第1変換画像から前記第1画像スタイルの第4変換画像をさらに生成可能であり、
前記第1識別器は、
前記第1入力画像における前記対象部位の色調情報と、前記第2画像スタイルの参照画像における前記対象部位の色調情報との第1色調誤差と、
(1)前記第1入力画像と前記第4変換画像との間の、前記対象部位の形状に関する第1誤差、
(2)前記第2変換画像と前記第1画像スタイルの画像との間の、前記対象部位の形状に関する第2誤差、及び、
(3)前記第2変換画像を前記第2生成器に入力した場合に生成される第2評価用画像と、前記第2変換画像との間の、前記対象部位の形状に関する第6誤差、
のうち少なくとも何れか1つと、に基づいて前記第1画像スタイルの画像を識別し、
前記第2識別器は、
前記第2入力画像における前記対象部位の色調情報と、前記第1画像スタイルの参照画像における前記対象部位の色調情報との第2色調誤差と、
(1)前記第2入力画像と前記第3変換画像との間の、前記対象部位の形状に関する第4誤差、
(2)前記第1変換画像と前記第2画像スタイルの画像との間の、前記対象部位の形状に関する第5誤差、及び、
(3)前記第1変換画像を前記第1生成器に入力した場合に生成される第1評価用画像と、前記第1変換画像との間の、前記対象部位の形状に関する第3誤差、
のうち少なくとも何れか1つと、に基づいて前記第1画像スタイルの画像を識別する、
請求項1に記載の画像変換装置。
【請求項3】
前記ニューラルネットワークは、前記第1色調誤差、前記第1誤差、前記第2誤差、及び前記第3誤差を統合した第1統合誤差と、前記第2色調誤差、前記第4誤差、前記第5誤差、及び前記第6誤差を統合した第2統合誤差とを最小化するように学習される、
請求項2に記載の画像変換装置。
【請求項4】
前記入力画像は、前記第2対象物の前記対象部位の立体的な形状を模した3次元画像であり、
前記参照画像は、前記第1対象物を撮像した2次元画像である、
請求項1から3のいずれか1項に記載の画像変換装置。
【請求項5】
前記参照画像は、前記第1対象物の全体を撮像した全体画像から前記対象部位の領域を抽出した部分画像であり、
前記入力画像は、前記第2対象物の前記対象部位の画像であり、
前記生成部は、前記全体画像の前記対象部位に対応する領域に前記目的画像を合成した合成画像をさらに生成する、
請求項1から4のいずれか1項に記載の画像変換装置。
【請求項6】
前記第1対象物及び前記第2対象物は、前記対象部位の疾患に罹患している生物であり、
前記第2対象物の前記疾患は、前記第1対象物の前記疾患よりも進行している、
請求項1から5のいずれか1項に記載の画像変換装置。
【請求項7】
前記第1対象物及び前記第2対象物は、前記対象部位に対する介入を受けた生物であり、
前記第2対象物が医学的介入を受けてからの経過期間は、前記第1対象物が介入を受けてからの経過期間よりも長い、
請求項1から5のいずれか1項に記載の画像変換装置。
【請求項8】
前記第1対象物及び前記第2対象物は、生物であり、
前記対象部位は、全身、関節、皮膚、顔、目、鼻、口、耳、及び/又は、頭髪である、
請求項1から7のいずれか1項に記載の画像変換装置。
【請求項9】
画像変換装置の制御方法であって、
前記画像変換装置は、第1対象物の対象部位が写っている第1画像スタイルの入力画像から、前記第1画像スタイルとは異なる第2画像スタイルの目的画像を生成するニューラルネットワークを備えており、
前記入力画像を取得する取得ステップと、
前記ニューラルネットワークに、前記入力画像、及び前記第1対象物とは異なる第2対象物の前記対象部位が写っている参照画像における前記対象部位の色調を示す色調情報を入力する入力ステップと、
前記ニューラルネットワークに目的画像を生成させる生成ステップと、
前記ニューラルネットワークによって生成された前記目的画像を出力する出力ステップと、を含む、
画像変換装置の制御方法。
【請求項10】
請求項1から8の何れか1項に記載の画像変換装置としてコンピュータを機能させるための制御プログラムであって、上記取得部、前記生成部、前記色調情報制御部、前記入力制御部、及び前記出力制御部としてコンピュータを機能させるための制御プログラム。
【請求項11】
請求項10に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像スタイルが異なる画像間の画像変換における色調制御が可能な画像変換装置、及び画像変換方法等に関する。
【背景技術】
【0002】
近年、画像変換技術の1つであるサイクルGAN(Generative Adversarial Network)が注目されている。サイクルGANは、サイクル一貫性喪失(cycle-consistency loss)の評価を利用するため、対になる画像データ(いわゆる教師データ)を大量に取得する必要がない。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】J. Zhu et al., “Unpaired image-to-image translation using cycle-consistent adversarial networks.” arXiv:1703, 10593. 2017.
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像スタイルが異なる画像間の画像変換にサイクルGANを用いる場合、生成される生成画像の色調を制御することは容易ではなく改善の余地があった。
【課題を解決するための手段】
【0005】
本開示の一態様に係る画像変換装置は、第1対象物の対象部位が写っている、第1画像スタイルの入力画像を取得する取得部と、(1)前記入力画像から、前記第1画像スタイルとは異なる第2画像スタイルの目的画像を生成するニューラルネットワークと、(2)前記第1対象物とは異なる第2対象物の前記対象部位が写っている画像であって、前記第2画像スタイルの参照画像における前記対象部位の色調を示す色調情報を取得して、前記ニューラルネットワークに入力する色調情報制御部と、を備える生成部と、前記入力画像及び前記参照画像を前記生成部に入力する入力制御部と、前記生成部によって生成された目的画像の出力を制御する出力制御部と、を備える。
【0006】
本開示の一態様に係る制御方法は、画像変換装置の制御方法であって、前記画像変換装置は、第1対象物の対象部位が写っている第1画像スタイルの入力画像から、前記第1画像スタイルとは異なる第2画像スタイルの目的画像を生成するニューラルネットワークを備えており、前記入力画像を取得する取得ステップと、前記ニューラルネットワークに、前記入力画像、及び前記第1対象物とは異なる第2対象物の前記対象部位が写っている参照画像における前記対象部位の色調を示す色調情報を入力する入力ステップと、前記ニューラルネットワークに目的画像を生成させる生成ステップと、前記ニューラルネットワークによって生成された前記目的画像を出力する出力ステップと、を含む。
【0007】
本開示の各態様に係る画像変換装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記画像変換装置が備える各部(ソフトウェア要素)として動作させることにより前記画像変換装置をコンピュータにて実現させる画像変換装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本開示の範疇に入る。
【発明の効果】
【0008】
本開示の一態様によれば、画像スタイルが異なる画像間の画像変換において生成される生成画像の色調を制御することができる。
【図面の簡単な説明】
【0009】
【
図1】本開示の一態様に係る画像変換装置1の構成例を示すブロック図である。
【
図2】画像変換装置の構成の一例を示す機能ブロック図である。
【
図3】ニューラルネットワークのネットワーク構造の一例を示す図である。
【
図4】第1生成器のネットワーク構造の一例を示す図である。
【
図5】画像変換装置が行う処理の一例を示すフローチャートである。
【
図6】ニューラルネットワークの学習工程の一例を示すフローチャートである。
【
図7】ニューラルネットワークの学習工程において用いる第1誤差及び第2誤差を説明する図である。
【
図8】ニューラルネットワークの学習工程において用いる第3誤差を説明する図である。
【
図9】ニューラルネットワークの学習工程において用いる第4誤差及び第5誤差を説明する図である。
【
図10】画像変換装置により生成された目的画像の例を示す図である。
【発明を実施するための形態】
【0010】
〔実施形態1〕
以下、本開示の一実施形態について、詳細に説明する。
【0011】
(画像変換装置1の概要)
本開示の一態様に係る画像変換装置1は、第1画像スタイルの入力画像と、第1スタイルとは異なる第2画像スタイルの参照画像とが入力されたことに応じて、目的画像を生成する。このとき、画像変換装置1は、入力画像の画像スタイルを変換する画像変換処理によって目的画像を生成するとともに、目的画像の色調を参照画像の色調に基づいて制御することが可能である。
【0012】
ここで、入力画像は、第1対象物の対象部位が写っている画像であり、参照画像は、第1対象物とは異なる第2対象物の対象部位が写っている画像である。第1対象物及び第2対象物は、生物であってもよいし無生物であってもよい。例えば、入力画像及び参照画像は、機械及び器具のような物体を撮像した画像であってもよいし、風景を撮像した画像であってもよい。この場合、第1対象物及び第2対象物は、機械及び器具のような物体であってもよいし、山、海、街並みなどの風景を構成するものであってもよい。また、対象部位は、第1対象物及び第2対象物の任意の一部分、又は全体であってもよい。
【0013】
目的画像は、第1画像スタイルの入力画像の画像スタイルを第2画像スタイルに変更した画像である。目的画像における対象部位の形状は、入力画像に写っている対象部位の形状に基づいて制御されている。一方、目的画像における対象部位の色調は、参照画像に写っている対象部位の色調に基づいて制御されている。
【0014】
画像変換装置1は、例えば、日差しの強い日中の街並みの画像(第1画像スタイル)を、夜の街並みの画像(第2画像スタイル)に変更して目的画像を生成する場合、参照画像に写っている街並みの色調に基づいて、目的画像の色調を制御する。参照画像は、所望の色調の街並みが写っている画像を用いればよい。例えば、曇った日の街並みの画像を参照画像として用いた場合、画像変換装置1は、曇った日の街並みの色調を有する夜の街並みの画像を目的画像として生成する。
【0015】
入力画像は、第2対象物の対象部位の立体的な形状を模した3次元画像であり、参照画像は、第1対象物を撮像した2次元画像であってもよい。
【0016】
参照画像は、第1対象物の全体を撮像した全体画像から対象部位の領域を抽出した部分画像であり、入力画像は、第2対象物の対象部位の画像であってもよい。この場合、画像変換装置1は、全身画像の対象部位に対応する領域に目的画像を合成した合成画像を生成してもよい。
【0017】
第1対象物及び第2対象物は生物であってもよい。この場合、対象部位は、生物(例えば、人間)の身体の任意の部位であってもよい。すなわち、対象部位は、例えば、人間の全身、関節、皮膚、顔、目、鼻、口、耳、及び/又は、頭髪であってもよい。
【0018】
第1対象物及び第2対象物は、対象部位の疾患に罹患している生物であってもよく、この場合、第2対象物の疾患は第1対象物の疾患よりも進行していてもよい。第1対象物及び第2対象物が人間である場合、「疾患」は、対象部位の外観、及び/又は形状の変化を伴う進行性の疾患であってもよい。このような疾患の例として、変形性膝関節症、骨粗しょう症等が挙げられる。
【0019】
第1対象物及び第2対象物は、対象部位に対する介入を受けた生物であり、第2対象物が介入を受けてからの経過期間は、第1対象物が介入を受けてからの経過期間よりも長くてもよい。第1対象物及び第2対象物が人間である場合、「介入」は、手術、栄養指導、リハビリテーション等の医学的介入であってもよい。
【0020】
(画像変換装置1の構成)
まず、画像変換装置1の構成について、
図1及び
図2を用いて説明する。
図1は、本開示の一態様に係る画像変換装置1の構成例を示すブロック図である。
図2は、画像変換装置1の構成の一例を示す機能ブロック図である。
【0021】
画像変換装置1は、例えばコンピュータであり、
図1に示すように、プロセッサ部2、ハードディスク3、メモリ4を備えている。
【0022】
プロセッサ部2は、各種プログラムをハードディスク3から読み出して実行する。プロセッサ部2は、例えばCPUであってもよい。
【0023】
ハードディスク3には、プロセッサ部2が実行する各種プログラムが格納されている。また、ハードディスク3には、プロセッサ部2が各種プログラムを実行するために利用する各種画像データが格納されていてもよい。
【0024】
メモリ4は、プロセッサ部2が実行中の各種処理に用いられる各種データ及び各種プログラムを格納する。例えば、メモリ4は、ハードディスク3からロードされたニューラルネットワーク構造を実現するプログラムを格納するワーキングメモリとして機能する。
【0025】
表示装置5は、プロセッサ部2が実行する各種処理に供される各種画像(例えば、参照画像、及び/又は、入力画像)、及びプロセッサ部2が実行した各種処理によって生成された各種画像(例えば、後述する目的画像)を表示するための任意のディスプレイ装置であってもよい。画像変換装置1は、
図1に示すように、表示装置5と通信可能に接続されていてもよい。あるいは、画像変換装置1が表示部として機能するディスプレイを備えていてもよい。
【0026】
図2に示すように、画像変換装置1は、
図1に示すプロセッサ部2及びメモリ4に対応する制御部10、及び、
図1に示すハードディスク3に対応する記憶部20を備えている。
【0027】
制御部10は、取得部11、入力制御部12、生成部13、及び出力制御部14を備えている。
【0028】
<取得部11>
取得部11は、第1対象物の対象部位が写っている第1画像スタイルの入力画像を取得する。取得部11は、第1対象物とは異なる第2対象物の対象部位が写っている画像であって、第1スタイルとは異なる第2画像スタイルの参照画像をさらに取得してもよい。
図1に示すように、取得部11は、記憶部20の参照画像31及び入力画像32から参照画像及び入力画像を取得してもよい。あるいは、取得部11は、参照画像における対象部位の色調を示す色調情報を取得してもよい。
【0029】
図1では、画像変換装置1が予め1又は複数の参照画像を含む参照画像31、及び1又は複数の入力画像を含む入力画像32を記憶部20に格納している場合を例示している。しかし、画像変換装置1は、用いる参照画像及び入力画像を、その都度外部から取得してもよい。
【0030】
<入力制御部12>
入力制御部12は、入力画像、及び参照画像を後述する生成部13のニューラルネットワーク131に入力する。あるいは、入力制御部12は、参照画像の代わりに、参照画像における対象部位の色調を示す色調情報をニューラルネットワーク131に入力してもよい。
【0031】
<生成部13>
生成部13は、ニューラルネットワーク131と、色調情報制御部132とを備える。生成部は、入力画像に写っている対象部位の形状が維持されたまま第2画像スタイルに変換されており、かつ、対象部位の色調が、参照画像に写っている対象部位の色調に基づいて制御された目的画像を生成する。ここで、参照画像は、生成部13によって生成される目的画像と同じ画像スタイルの画像であってもよいが、これに限定されない。例えば、参照画像は、生成部13によって生成される目的画像とは異なる画像スタイルの画像であってもよい。
【0032】
[ニューラルネットワーク131]
ニューラルネットワーク131は、下記(i)~(iv)を備えていてもよい。
(i)第1画像スタイルの任意の入力画像(例えば、後述の第1入力画像等)から第2画像スタイルの第1変換画像を生成する第1生成器1311。
(ii)第2画像スタイルの任意の入力画像(例えば、後述の第2入力画像等)から第1画像スタイルの第2変換画像を生成する第2生成器1312。
(iii)対象部位の形状及び色調に基づいて、第1画像スタイルの画像を識別可能な第1識別器1313。
(iv)対象部位の形状及び色調に基づいて、第2画像スタイルの画像を識別可能な第2識別器1314。
【0033】
後述する学習工程が済んでいるニューラルネットワーク131の場合、第1変換画像は、第1画像スタイルの入力画像から生成される目的画像であり、第2変換画像は、第2画像スタイルの入力画像から生成される目的画像である。
【0034】
第1生成器1311は、第2変換画像から第1画像スタイルの第3変換画像をさらに生成可能であってもよく、第2生成器1312は、第1変換画像から第1画像スタイルの第4変換画像をさらに生成可能であってもよい。
【0035】
第1識別器1313は、第1色調誤差(第1色調損失)と、第1誤差(所謂、サイクル一貫性誤差)、第2誤差(所謂、敵対性損失)、及び第3誤差(所謂、同一性誤差)のうち少なくとも何れか1つと、に基づいて第1画像スタイルの画像を識別してもよい。第1識別器1313は、第1画像スタイルの任意の画像の真贋を判定可能であってもよい。
【0036】
ここで、第1色調誤差は、第1画像における対象部位の色調情報と、第2画像スタイルの参照画像における対象部位の色調情報との誤差である。
【0037】
第1誤差は、第1画像と第4変換画像との間の、対象部位の形状に関する誤差である(
図7参照)。第2誤差は、第2変換画像と第1画像スタイルの画像との間の、対象部位の形状に関する誤差である(
図7参照)。第6誤差は、第2変換画像を第2生成器に入力した場合に生成される第2評価用画像と、第2変換画像との間の、対象部位の形状に関する誤差である。
【0038】
一方、第2識別器1314は、第2色調誤差(第2色調損失)と、第4誤差(所謂、サイクル一貫性誤差)、第5誤差(所謂、敵対性損失)、及び第6誤差(所謂、同一性誤差)のうち少なくとも何れか1つと、に基づいて第2画像スタイルの画像を識別してもよい。第2識別器1314は、第2画像スタイルの任意の画像の真贋を判定可能であってもよい。
【0039】
ここで、第2色調誤差は、第2画像における対象部位の色調情報と、第2画像スタイルの参照画像における対象部位の色調情報との誤差である。
【0040】
第4誤差は、第2画像と第3変換画像との間の、対象部位の形状に関する誤差である(
図9参照)。第5誤差は、第1変換画像と第2画像スタイルの画像との間の、対象部位の形状に関する誤差である(
図9参照)。第3誤差は、第1変換画像を第1生成器に入力した場合に生成される第1評価用画像と、第1変換画像との間の、対象部位の形状に関する誤差である。
【0041】
ニューラルネットワーク131は、第1色調誤差、第1誤差、第2誤差、及び第3誤差を統合した第1統合誤差と、第2色調誤差、第4誤差、第5誤差、及び第6誤差を統合した第2統合誤差とを最小化するように学習されてもよい。ニューラルネットワーク131の学習については、後に具体例を挙げて説明する。
【0042】
ニューラルネットワーク131の概略構成について、
図3を用いて説明する。
図3は、ニューラルネットワーク131のネットワーク構造の一例を示す図である。
【0043】
図3に示すように、ニューラルネットワーク131は、上述したように、第1生成器1311及び第2生成器1312と、第1識別器1313及び第2識別器1314とから構成されていてもよい。
【0044】
第1生成器1311は、第1画像スタイルの第1入力画像から第2画像スタイルの生成画像である第1変換画像を生成する。また、第2生成器1312は、第2画像スタイルの第2入力画像から第1画像スタイルの生成画像である第2変換画像を生成する。
【0045】
第1入力画像の画像スタイルを第2画像スタイルに変換する処理において、入力制御部12は、第1生成器1311に第1入力画像を入力する。また、入力制御部12は、第2画像スタイルの画像である参照画像における前記対象部位の色調を示す色調情報を第1生成器1311に入力する。参照画像の色調情報は後述する色調情報制御部132によって取得される。
【0046】
第2入力画像の画像スタイルを第1画像スタイルに変換する処理において、入力制御部12は、第2生成器1312に第2入力画像を入力する。また、入力制御部12は、第1画像スタイルの画像である参照画像における前記対象部位の色調を示す色調情報を第2生成器1311に入力する。
【0047】
図3において、第2画像スタイルの参照画像の色調情報は第1生成器1311に入力され、第1画像スタイルの参照画像の色調情報は第2生成器1312に入力される例を示したが、これに限定されない。すなわち、任意の画像スタイルの参照画像の色調情報が第1生成器1311及び/又は第2生成器1312に入力され得る。これにより、ニューラルネットワーク131は、画像スタイル変換後の画像の色調を、任意の参照画像の色調に合わせて制御することが可能である。
【0048】
[色調情報制御部132]
色調情報制御部132は、参照画像における対象部位の色調を示す色調情報を取得する。ここで、色調情報は、参照画像の色分布ヒストグラムであってもよい。あるいは、色調情報は、各画像の輝度(又は明度)に関するヒストグラムであってもよい。
【0049】
取得部11が、参照画像における対象部位の色調を示す色調情報を取得する構成が採用される場合、色調情報制御部132は画像変換装置1において必須の構成ではない。
【0050】
第1生成器1311は、エンコーダ-デコーダ構造の中間層に参照画像の色調を示す色調情報の入力を受け付ける構造を採用したネットワークである。一方、第2生成器1312は、エンコーダ-デコーダ構造の中間層に入力画像の色調を示す色調情報の入力を受け付ける構造を採用したネットワークである。次に、第1生成器1311のネットワーク構造の詳細について、
図4を用いて説明する。
図4は、第1生成器1311のネットワーク構造の一例を示す図である。第2生成器1312のネットワーク構造は、第1生成器1311のネットワーク構造と同様であるため、以下では第2生成器1312に関する詳細な説明は省略する。
【0051】
図4では、入力画像がRGB画像(すなわち、カラー画像)であり、エンコーダ-デコーダ構造を通して生成画像を出力する場合を例に挙げている。また、
図4に示す例において、色調情報は色分布ヒストグラムである。
図4に示す第1生成器1311は、参照画像から得られた色調情報を連結し、中間層に入力する構造を採用している。
【0052】
第1生成器1311が出力する生成画像のRGBチャネルのそれぞれに対して、公知の密度推定法(例えば、カーネル密度推定)から得られた関係性を適用してもよい。
図4において、カーネル密度推定を利用する処理には「KDE」と記載されている。これにより、生成画像について、微分可能な生成画像の色分布ヒストグラムを求めることが可能となる。
【0053】
<出力制御部14>
図2に戻り、出力制御部14は、生成部によって生成された目的画像の出力を制御する。例えば、出力制御部14は、生成された目的画像を記憶部20の目的画像33に格納してもよい。あるいは、
図2に示すように、画像変換装置1が表示装置5と通信可能に接続されている場合、出力制御部14は、表示装置5に目的画像を表示させてもよい。
【0054】
(画像変換装置1が行う処理)
次に、画像変換装置1が行う処理について、
図5を用いて説明する。
図5は、画像変換装置1が行う処理の一例を示すフローチャートである。
【0055】
説明の簡略化のため、
図5では、画像変換装置1が第1画像スタイルの入力画像から、第2画像スタイルの目的画像を生成する場合のみを例示している。画像変換装置1は、逆に、第2画像スタイルの入力画像から、第1画像スタイルの目的画像を生成することも可能である。
【0056】
また、
図5では、色調情報制御部132を備える画像変換装置1の処理を例に挙げているが、前述のように、取得部11が、参照画像における対象部位の色調を示す色調情報を取得してもよく、色調情報制御部132は画像変換装置1において必須の構成ではない。
【0057】
ステップS1において、取得部11は、第1画像スタイルの入力画像を取得する(取得ステップ)。また、ステップS1において、取得部11は、第2画像スタイルの参照画像を取得する。
【0058】
次に、入力制御部12は、入力画像をニューラルネットワーク131に入力する(ステップS2:入力ステップ)。参照画像に対象部位に対応しない領域が含まれている場合、入力制御部12は、参照画像における対象部位に対応する領域を抽出してもよい(ステップS3)。
【0059】
次に、色調情報制御部132は、参照画像における対象部位の色調を示す色調情報を取得する。そして、入力制御部12は、参照画像の色調情報をニューラルネットワーク131に入力する(ステップS4:入力ステップ)。
【0060】
ステップS4の後に、生成部13は目的画像を生成する(ステップS5:生成ステップ)。この目的画像は、入力画像の画像スタイルを第2画像スタイルに変更した画像である。目的画像における対象部位の形状は、入力画像に写っている対象部位の形状に基づいて制御されており、目的画像における対象部位の色調は、参照画像に写っている対象部位の色調に基づいて制御されている。
【0061】
出力制御部14は、目的画像を表示装置5等に出力する(ステップS6:出力ステップ)。
【0062】
このように目的画像を生成すれば、目的画像における対象部位の色調を、参照画像における対象部位の色調に基づいて制御することができる。
【0063】
(目的画像の利用場面の例)
例えば、変形性膝関節症又は骨粗しょう症などの進行性疾患は、初期段階において自覚症状がない。しかし、これらの疾患に対しては、はっきりした自覚症状がない段階からの適切な介入が重要である。一方、変形性膝関節症又は骨粗しょう症に罹患している患者の中には、自身の身体に将来生じる変化(変形)への懸念を深刻に受け止めておらず、早期介入に対して非協力的な患者もいる。
【0064】
従来、変形性膝関節症又は骨粗しょう症などの進行性疾患が進行した状況を患者に説明する場合、症状が進行した別の患者の姿を撮影した写真、あるいは、X線画像及びMRI画像等の医用画像が例示されていた。しかし、このような医用画像は、患者の身体ではなく、他人の身体が写っている画像であるため、患者に、自身の身体に将来生じる変化への懸念を深刻に受け止めさせる効果は必ずしも高くなかった。
【0065】
本開示の一態様に係る画像変換装置1は、例えば、症状が進行した別の患者の対象部位が写っている入力画像から、その対象部位の形状を保持している目的画像を生成する。生成された目的画像における対象部位の色調は、患者を撮像した参照画像に写っている対象部位の色調に基づいて制御される。それゆえ、生成された目的画像は、患者自身の身体に将来生じる変化への懸念を仮想的に表現した画像である。それゆえ、この目的画像を患者に示すことによって、該患者に、自身の疾患の進行による将来の影響ついて正しく理解させる効果が期待できる。よって、画像変換装置1によって生成された目的画像を用いれば、患者に、早期介入への協力を効果的に促すことができる。
【0066】
(生成部13の学習)
続いて、生成部13の学習について、
図6を用いて説明する。
図6は、生成部13の学習工程の一例を示すフローチャートである。
【0067】
ニューラルネットワーク131は、入力された画像の特徴を抽出して、抽出した特徴を有する新しい画像を生成するニューラルネットワーク(生成モデル)である。ニューラルネットワーク131の学習には、敵対的生成ネットワーク(GAN:generative Adversarial Networks)などの公知の深層学習アルゴリズムを基本とする学習方法が適用され得る。
【0068】
ニューラルネットワーク131の学習処理は、画像変換装置1とは異なるコンピュータを用いて実行されてもよい。この場合、学習済のニューラルネットワーク131、及び所定の任意プログラムを任意のコンピュータにインストールすることにより、該コンピュータを画像変換装置1として機能させることが可能である。
【0069】
(ニューラルネットワーク131の学習工程)
次に、ニューラルネットワーク131の学習工程について、
図7~
図9を参照しながら、
図6を用いて説明する。
図6は、ニューラルネットワーク131の学習工程の一例を示すフローチャートである。
図7~9は、ニューラルネットワーク131の学習工程において用いる第1誤差~第5誤差を説明する図である。
【0070】
以下では、学習工程を画像変換装置1が実行する場合を例に挙げて説明するが、これに限定されない。例えば、ニューラルネットワーク131の学習工程は、画像変換装置1とは異なる外部のコンピュータにおいて実行可能である。この場合、任意のコンピュータに学習済のニューラルネットワーク131をインストールすることにより、該コンピュータを画像変換装置1として機能させることができる。
【0071】
入力制御部12は、第1画像スタイルの、1つの第1学習用画像をニューラルネットワーク131の第1生成器1311に入力する(ステップS101)。第1生成器1311は、入力された第1学習用画像における空間情報の集約(畳み込み)を行う(ステップS102)。
【0072】
一方、色調情報制御部132は、第2画像スタイルの参照画像における対象部位の色調に関する色調情報を取得する(ステップS103)。取得された色調情報は、ニューラルネットワーク131の中間層に入力される。
【0073】
第1生成器1311は、第1学習用画像から抽出した空間情報を再現し(ステップS104)、第2画像スタイルの第1変換画像を生成する(ステップS105)。
【0074】
色調情報制御部132は、第1変換画像における対象部位の色調に関する色調情報を推定する(ステップS106)。色調情報制御部132は、推定された色調情報と、S103において取得した色調情報との差分から、第1色調誤差を算出する(ステップS107)。
【0075】
次に、入力制御部12は、第1変換画像をニューラルネットワーク131の第2生成器1312に入力し、第2変換画像を生成する(ステップS108)。第2変換画像は、第1画像スタイルの画像である。
【0076】
第1識別器1313は、第1入力画像と第4入力画像との形状に関する第1誤差(サイクル一貫性損失)を算出する(ステップS109)。また、第2識別器1314は、第1変換画像と第1画像スタイルの画像との間の、対象部位の形状に関する第2誤差(敵対性損失)を算出する(ステップS111)。ここで、第1誤差及び第2誤差は、
図7において第1入力画像が第1学習用画像である場合に相当する。
【0077】
第2識別器1314は、
図8に示すように、第1変換画像を第1生成器1311に入力した場合に生成される第1評価用画像と、第1変換画像との間の、対象部位の形状に関する第3誤差(同一性損失)を算出する(ステップS110)。
【0078】
入力制御部12は、第2画像スタイルの、1つの第2学習用画像をニューラルネットワーク131の第2生成器1312に入力する。そして生成部13は、上記ステップS102~S111と同様の操作を行い、第2色調誤差、第4誤差、第5誤差、及び第6誤差を算出する(ステップS112)。この場合、第1識別器1313は、第2変換画像を第2生成器1312に入力した場合に生成される第2評価用画像と、第2変換画像との間の、対象部位の形状に関する誤差を第3誤差(同一性損失)として算出する。
【0079】
生成部13は、上記ステップS102~S111の処理により算出された、各誤差を統合した第1統合誤差と、S112の処理により算出された、各誤差を統合した第2統合誤差とを算出する(ステップS113)。
【0080】
全学習用画像の入力が終了していない場合(S114にてNO)、S101に戻り、ステップS101~S113の構成を繰り返す。一方、全学習用画像の入力が終了した場合(S114にてYES)、ステップS115に進み、生成部13は、各学習用画像の第1統合誤差及び第2統合誤差に基づいて第1生成器1311及び第2生成器1312を更新する。
【0081】
学習工程において、生成部13は、第1学習用画像を含む学習用画像データセットをニューラルネットワーク131に繰り返し学習させる。生成部13がニューラルネットワーク131に学習用画像データセットを学習させる回数は「エポック数」と表現され得る。学習工程において、生成部13は、1エポックが終了する毎に、第1生成器1311及び第2生成器1312を更新する。生成部13は、所定のエポック数の学習が終了していない場合、S101に戻り、ステップS101~S115の構成を繰り返す。一方、所定のエポック数の学習が終了した場合(S116にてYES)、生成部13は、ニューラルネットワーク131の学習工程を終了する。
【0082】
図6に示した例では、所定のエポック数の学習が完了することによって、学習工程が終了する。しかし、所定のエポック数の学習が完了する前に学習工程を終了させてもよい。例えば、第1統合誤差及び第2統合誤差の値が大きく変化しなくなった場合、ニューラルネットワーク131の過学習が生じている可能性があり、学習工程を停止することが望ましい。そこで、生成部13は、第1統合誤差及び第2統合誤差の値の変化の大きさに基づいて、学習工程を早期終了するか否かを判定する構成であってもよい。
【0083】
〔実施例〕
入力画像と参照画像の様々な組み合わせによる目的画像を
図10に示す。一番左の列は第1画像スタイルの3つの入力画像、一番上の行は第2画像スタイルの3つの参照画像を表す。
図10に示すように、画像変換装置1によって生成された目的画像はいずれも、入力画像に写っている膝関節(対象部位)の立体的な形状を再現しつつ、それぞれの参照画像における膝関節と同様の色分布を持つ画像として生成された。すなわち、画像変換装置1によって生成された目的画像の色調は、参照画像の色調に基づいて制御されていた。
【0084】
画像変換装置1は、ペア画像を必要としない。ペア画像とは、例えば同じ物体を2つの撮像モードで撮像した画像スタイルの異なる画像であって、互いに対応していることが既知である2枚の画像である。例えば、膝関節の画像の画像スタイルを変換する場合、従来は、患者の膝関節を光学カメラで撮像した画像と、同じ患者の膝のMRI画像とのペア画像を準備する必要があった。これに対し、画像変換装置1による画像スタイルの変換処理では、入力画像の画像スタイルを変換した変換画像を生成し、該生成した変換画像から元の画像スタイルに戻して入力画像と比較するため、互いに対応しているペア画像を必要としない。
【0085】
サイクルGANを用いた画像変換処理においても、画像変換装置1と同様、ペア画像を必要としない。しかし、サイクルGANを用いた画像変換処理では、参照画像の色調情報を用いることはないため、目的画像の色調は学習時に用いた学習用画像の色調分布から生成される。それゆえ、サイクルGANを用いた画像変換処理では、目的画像の色調を、特定の色調になるよう制御することができない。これに対し、画像変換装置1は、入力画像における対象部位の形状を維持しながら、参照画像における対象部位の色調を再現した目的画像を生成可能であることが確認された。
【0086】
〔ソフトウェアによる実現例〕
画像変換装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0087】
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0088】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1又は複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線又は無線の任意の伝送媒体を介して上記装置に供給されてもよい。
【0089】
また、上記各制御ブロックの機能の一部又は全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本開示の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0090】
以上、本開示に係る発明について、諸図面及び実施例に基づいて説明してきた。しかし、本開示に係る発明は上述した各実施形態に限定されるものではない。すなわち、本開示に係る発明は本開示で示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示に係る発明の技術的範囲に含まれる。つまり、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。また、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。
【符号の説明】
【0091】
1 画像変換装置
5 表示装置
11 取得部
12 入力制御部
13 生成部
14 出力制御部
20 記憶部
131 ニューラルネットワーク
132 色調情報制御部
1311 第1生成器
1312 第2生成器
1313 第1識別器
1314 第2識別器
S1 取得ステップ
S2、S4 入力ステップ
S5 生成ステップ
S6 出力ステップ