(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-01
(45)【発行日】2025-05-13
(54)【発明の名称】画像着色方法及び装置、着色画像生成モデルの生成装置、並びにプログラム
(51)【国際特許分類】
G06T 11/60 20060101AFI20250502BHJP
G06T 7/00 20170101ALI20250502BHJP
【FI】
G06T11/60 100E
G06T7/00 350B
(21)【出願番号】P 2021115211
(22)【出願日】2021-07-12
【審査請求日】2024-06-05
(73)【特許権者】
【識別番号】521173214
【氏名又は名称】Mantra株式会社
(73)【特許権者】
【識別番号】000125370
【氏名又は名称】学校法人東京理科大学
(74)【代理人】
【識別番号】110001863
【氏名又は名称】弁理士法人アテンダ国際特許事務所
(72)【発明者】
【氏名】清水 友悟
(72)【発明者】
【氏名】古田 諒佑
(72)【発明者】
【氏名】欧陽 徳龍
(72)【発明者】
【氏名】谷口 行信
(72)【発明者】
【氏名】日並 遼太
(72)【発明者】
【氏名】石渡 祥之佑
【審査官】鈴木 明
(56)【参考文献】
【文献】特開2020-144778(JP,A)
【文献】特開2019-133303(JP,A)
【文献】特開2018-197948(JP,A)
【文献】特開2020-107239(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/60
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが、
無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成ステップと、
生成された着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記べた塗り画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色画像生成ステップとを備えた
ことを特徴とする画像着色方法。
【請求項2】
前記モノクローム画像は、無彩色の線画部と、無彩色のパターン又は濃淡により陰影又は色彩或いはテクスチャを表現した陰影等表現部とを含み、
前記べた塗り画像の着色領域は前記陰影等表現部に対応する領域を含む
ことを特徴とする請求項1記載の画像着色方法。
【請求項3】
前記着色画像は、前記モノクローム画像における前記陰影等表現部に対応する領域が、前記べた塗り画像における当該陰影等表現部が含まれる着色領域に付された色彩とは異なる色彩で着色されている
ことを特徴とする請求項2記載の画像着色方法。
【請求項4】
前記着色画像生成モデルは敵対的生成ネットワークである
ことを特徴とする請求項1乃至3何れか1項記載の画像着色方法。
【請求項5】
前記着色画像生成モデルは、
前記着色画像に基づき前記モノクローム画像を生成する第1の生成ネットワークと、前記第1の生成ネットワークに入力された前記着色画像及び前記第1の生成ネットワークで生成された前記モノクローム画像に基づき真偽判定を行う第1の識別ネットワークとを備えた第1の敵対的生成ネットワークと、
前記べた塗り画像及び前記モノクローム画像に基づき前記着色画像を生成する第2の生成ネットワークと、前記第2の生成ネットワークに生成された前記着色画像並びに前記第2の生成ネットワークで入力された前記べた塗り画像及び前記モノクローム画像に基づき真偽判定を行う第2の識別ネットワークとを備えた第2の敵対的生成ネットワークとを備え、
前記モデル生成ステップは、前記第1の敵対的生成ネットワークの学習ステップと、前記第2の敵対的生成ネットワークの学習ステップとを備え、
前記第2の敵対的生成ネットワークの学習ステップにおいては、前記第2の生成ネットワークで生成された前記着色画像並びに前記第2の生成ネットワークに入力された前記べた塗り画像及び前記モノクローム画像に加えて、前記第2の生成ネットワークで生成された前記着色画像を入力として学習済みの前記第1の生成ネットワークにより生成された前記モノクローム画像を用いて学習処理を行い、
前記着色画像生成ステップにおいては、学習済みの前記第2の敵対的生成ネットワークの第2の生成ネットワークを用いて前記対象モノクローム画像及び前記対応べた塗り画像から前記対応着色画像を生成する
ことを特徴とする請求項4記載の画像着色方法。
【請求項6】
無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成部と、
前記モデル生成部により生成された着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記べた塗り画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色処理部とを備えた
ことを特徴とする画像着色装置。
【請求項7】
無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により生成され、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルと、
前記着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記べた塗り画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色処理部とを備えた
ことを特徴とする画像着色装置。
【請求項8】
無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成部を備えた
ことを特徴とする着色画像生成モデルの生成装置。
【請求項9】
コンピュータを請求項6又は7記載の画像着色装置として機能させることを特徴とするプログラム。
【請求項10】
コンピュータを請求項8記載の着色画像生成モデルの生成装置として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、漫画などの無彩色のモノクローム画像に着色する技術に関する。
【背景技術】
【0002】
漫画は、伝統的に無彩色のモノクローム画像として作成されることが多い。一方、近年では、モノクロームの漫画だけではなく着色された漫画の供給が要望されている。このため、モノクローム画像からなる既に完成された漫画に対して、後から着色処理を行う要求が増加している。そして、このような着色処理を人手で行うと多大なコストと時間がかかることから、モノクローム画像に対する着色処理を自動的に又は半自動で行うシステムが開発されている。このような着色処理としては、例えば非特許文献1に記載されたものが知られている。
【0003】
非特許文献1に記載のものは、Pix2Pixと呼ばれる画像生成アルゴリズムをベースにした機械学習による着色を行うものであり、特に入力情報として線画画像に加えて利用者による色のヒント情報を加えたものである。
【先行技術文献】
【非特許文献】
【0004】
【文献】Lvmin Zhang, Chengze Li, Tien-Tsin Wong, Yi Ji, and Chunping Liu,“Two-stage sketch colorization,”ACM Transactions on Graphics, vol. 37, no. 6, pp. 261:1-261:14, 2018.
【文献】Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros, “Image-to-image translation with conditional adversarial networks,” CVPR, pp. 5967-5976, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1に記載のものでは、漫画の着色には精度の点で十分ではないという問題があった。以下、この問題点について説明する。
【0006】
非特許文献1に記載のものでは、事前に大量の学習データを用いた学習が必要であるため、いきおい学習データとして複数の作者の作品が用いられることになる。しかし、漫画のスタイルは作者によって大きく異なるだけでなく、同じ作者であっても作品や制作時期によってスタイルが異なることがある。このため、特定の漫画に適した学習を行うことが困難であり、したがって着色精度の向上が困難であるという問題があった。
【0007】
また、漫画は線画だけで構成されているものではなく、無彩色のパターン又は濃淡により陰影又は色彩或いはテクスチャを表現した陰影等表現部が含まれることが一般的である。この陰影等表現部は、紙媒体では「スクリーントーン」と呼ばれるテンプレートを線画に貼り付けて形成される。しかし、非特許文献1に記載のものは、陰影等表現部が含まれる漫画では、学習段階や着色処理の段階において陰影等表現部の位置を指定することができない。このため、出力結果として、陰影等表現部を、当該陰影等表現部に適した陰影・色彩・テクスチャで表現することが困難であり、したがって着色精度の向上が困難であるという問題があった。
【0008】
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、無彩色のモノクローム画像に対して適切な着色が可能な画像着色方法及び装置、着色画像生成モデルの生成装置、並びにプログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本願発明に係る画像着色方法は、コンピュータが、無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成ステップと、生成された着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記ベタ画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色画像生成ステップとを備えたことを特徴とする。
【0010】
また、本願発明に係る画像着色装置は、無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成部と、前記モデル生成部により生成された着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記べた塗り画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色処理部とを備えたことを特徴とする。
【0011】
また、本願発明に係る画像着色装置は、無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により生成され、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルと、前記着色画像生成モデルと、着色対象の前記モノクローム画像である対象モノクローム画像と、前記べた塗り画像であり前記対象モノクローム画像に対応する対応べた塗り画像とに基づき、前記着色画像であり前記対象モノクローム画像に対応する対応着色画像を生成する着色処理部とを備えたことを特徴とする。
【0012】
また、本願発明に係る着色画像生成モデルの生成装置は、無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色されたべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いた機械学習により、前記モノクローム画像及び前記べた塗り画像から前記着色画像を生成する着色画像生成モデルを生成するモデル生成部を備えたことを特徴とする。
【発明の効果】
【0013】
本発明によれば、着色画像生成モデルは、無彩色のモノクローム画像と、前記モノクローム画像に対応する所定の着色領域に単一の色彩が着色され且つ前記モノクローム画像を含まないべた塗り画像と、前記モノクローム画像に対応した着色画像とを学習データとして用いて機械学習により生成される。すなわち、着色対象の位置及びその色彩の情報を含むべた塗り画像が機械学習に用いられるので、対象モノクローム画像に対して着色する位置及びその色彩の精度が向上する。すなわち、本発明によれば適切な着色が可能となる。さらに、少ない学習データ(モノクローム画像、べた塗り画像、着色画像の組み)を用意するだけで着色画像生成モデルを作成できるため、学習データ作成の手間が削減できるだけでなく、作品や作者のスタイルにあわせた着色が可能になる。
【0014】
なお、上述のように、本発明ではべた塗り画像が必要である。しかし、当該べた塗り画像は、高度な専門的技能や知識がなくても、人手により又は画像処理装置によりモノクローム画像から容易に導出することができる。したがって、本発明によれば、高度な専門的技能や知識がなくても、容易且つ適切な着色が可能となる。
【図面の簡単な説明】
【0015】
【
図1】第1の実施の形態に係る画像着色装置の機能ブロック図
【
図7】画像着色装置の動作を説明するフローチャート
【
図9】第2の実施の形態に係る画像着色装置の機能ブロック図
【発明を実施するための形態】
【0016】
(第1の実施の形態)
本発明の第1の実施の形態に係る画像着色装置について図面を参照して説明する。
図1は第1の実施の形態に係る画像着色装置の機能ブロック図、
図2はモノクローム画像の一例を示す図、
図3はべた塗り画像の一例を示す図、
図4は着色画像の一例を示す図である。なお、本願では、画像サンプルとして、Manga109-sデータセットに含まれている、著作者「えびふらい」の作品「ねこだま」を利用している。
【0017】
本実施の形態に係る画像着色装置100は、無彩色のモノクローム画像10と、前記モノクローム画像10に対応する所定の着色領域に単一の色彩が着色され且つ前記モノクローム画像10を含まないべた塗り画像20と、前記モノクローム画像10に対応した着色画像30とを学習データとして用いた機械学習により、前記モノクローム画像10及び前記べた塗り画像20から前記着色画像30を生成する着色画像生成モデルを生成する。
【0018】
また、画像着色装置100は、着色対象のモノクローム画像10である対象モノクローム画像10aと、べた塗り画像20であり前記対象モノクローム画像10に対応する対応べた塗り画像20aとに基づき、着色画像30であり前記対象モノクローム画像10に対応する対応着色画像30aを生成する装置である。各画像10,10a,20,20a,30,30aは、任意のファイル形式・解像度・深度のデジタルデータからなる。
【0019】
モノクローム画像10には対象モノクローム画像10aが含まれる。すなわち、対象モノクローム画像10aは、モノクローム画像10の1つであり、着色処理の対象として画像着色装置100に入力されるものである。
【0020】
モノクローム画像10は無彩色の画像を意味する。ここで、モノクローム画像10は、白黒二値のデジタルデータであってもよいし、グレースケールのデジタルデータであってもよい。本実施の形態では、モノクローム画像10は、漫画を所定の解像度でスキャンしたデジタルデータ、又は、漫画をスキャンしたモノクローム画像10と同等のスタイルとなるようにコンピュータにより作成されたデジタルデータからなる。
【0021】
図2に示すように、漫画に係るモノクローム画像10は、無彩色の線画部11と、無彩色のパターン又は濃淡により陰影又は色彩或いはテクスチャを表現した陰影等表現部12とを含む。
【0022】
線画部11は、紙媒体ではペンや筆などにより描画された領域であり、強いコントラストをもつモノクローム画像を主とする。すなわち、線画部11は、実質的に白黒二値画像を主とする。なお、線画部11は、中間階調のグレーにより描画されていてもよい。また、線画部11は、デジタルデータとしてのモノクローム画像10においては、白黒二値による線画がスムーズとなるように中間階調のグレーのピクセルが含まれていてもよい。
図2の例では、顔・手・体・服・アクセサリー等の各パーツの輪郭線や稜線を表現している箇所が線画部11である。
【0023】
陰影等表現部12は、紙媒体では「スクリーントーン」と呼ばれるテンプレートを貼り付けることにより形成することができる。スクリーントーンは、白黒二値の細かいドット・模様・ラインなどの連続的なパターンにより擬似的に中間階調を表現可能とするものである。陰影等表現部12は、中間階調のグレーを含んでいてもよい。なお、陰影等表現部12は、スクリーントーンと同等の効果が得られるように手書きにより形成することもできる。
図2の例では、顎下や脇下の肌の陰影、髪の毛の色彩及びテクスチャ、服の色彩及びテクスチャを表現している箇所が陰影等表現部12である。陰影等表現部12は、デジタルデータとしてのモノクローム画像10においては、白黒二値によるパターンがスムーズとなるように中間階調のグレーのピクセルが含まれていてもよい。なお、画像データの解像度によっては、陰影等表現部12は、デジタルデータとしてのモノクローム画像10においては実質的に中間階調のグレーのピクセルの集合となっていてもよい。
【0024】
べた塗り画像20には対応べた塗り画像20aが含まれる。すなわち、対応べた塗り画像20aは、べた塗り画像20の1つであり、着色処理において対象モノクローム画像10aと組になるものとして画像着色装置100に入力されるものである。
【0025】
べた塗り画像20は、モノクローム画像10に対応する画像である。べた塗り画像20は、対応するモノクローム画像10への着色についての色彩及び位置(領域)を指示する画像である。べた塗り画像20は、対応するモノクローム画像10に基づき、人手により又はコンピュータにより生成される。本実施の形態では、べた塗り画像20は人手により生成されたものを用いた。
【0026】
図3は、
図2に例示するモノクローム画像10に対応するべた塗り画像の一例である。べた塗り画像20は、
図3に示すように、所定の着色領域21に単一の任意の色彩が着色されている。べた塗り画像20には複数の着色領域21が含まれていてもよい。この場合、複数の着色領域21は隣接していてもよいし互いに離隔していてもよい。本実施の形態では、べた塗り画像20は、モノクローム画像10に対応するが、前記モノクローム画像10は含まない。着色領域21は、対応するモノクローム画像10における陰影等表現部12に対応する領域を含む。
図3の例では、顔から首にかけての着色領域21が、
図2において顎下に形成された陰影等表現部12に対応する領域を含む。
【0027】
着色画像30には対応着色画像30aが含まれる。すなわち、対応着色画像30aは、着色画像30の1つであり、対象モノクローム画像10a及び対応べた塗り画像20aを入力とする着色処理により画像着色装置100から出力されるものである。画像着色装置100の学習処理において入力画像の1つとして用いられる着色画像30は、対応するモノクローム画像10及びべた塗り画像20に基づき人手により生成されたものである。この学習処理において用いられる着色画像30は、当該学習処理における「正解(Ground Truth)」に相当する。
【0028】
図4は、
図2に例示するモノクローム画像10及び
図3に例示するべた塗り画像20に対応する着色画像の一例である。着色画像30は、
図4に示すように、モノクローム画像10における陰影等表現部12に対応する領域が、べた塗り画像20における当該陰影等表現部12が含まれる着色領域21に付された色彩とは異なる色彩で着色されていてもよい。すなわち、モノクローム画像10は無彩色であることから陰影又は色彩或いはテクスチャを表現するために無彩色のパターンや濃淡からなる陰影等表現部12を形成していたが、着色画像30では当該表現を色彩による表現に置換したものである。
【0029】
次に、画像着色装置100について詳述する。
図1に示すように、画像着色装置100は、学習処理部110と、着色画像生成処理部120と、着色画像生成モデル130とを備えている。
【0030】
画像着色装置100は、主演算装置・主記憶装置・補助記憶装置・入力装置・表示装置・ネットワーク装置等を備えた従来周知のコンピュータからなる。画像着色装置100の各部は、コンピュータにプログラムをインストールすることにより構成することができる。画像着色装置100の実装形態は不問である。例えば、画像着色装置100は複数の装置に分散して実装することができる。
【0031】
学習処理部110は、モノクローム画像10と、モノクローム画像10に対応するべた塗り画像20と、モノクローム画像10及びべた塗り画像20に対応した着色画像30とを学習データとして用いた機械学習により、モノクローム画像10及びべた塗り画像20から着色画像30を生成する着色画像生成モデル130を生成する。各画像10,20,30は、自身の所定の記憶装置に予め保存していてもよいし、所定の外部記憶媒体から取得してもよいし、ネットワークを介して他の装置から取得してもよい。
【0032】
着色画像生成処理部120は、生成された着色画像生成モデル130と、着色対象のモノクローム画像10である対象モノクローム画像10aと、べた塗り画像20であり前記対象モノクローム画像10aに対応する対応べた塗り画像20aとに基づき、着色画像30であり前記対象モノクローム画像10aに対応する対応着色画像30aを生成する。対象モノクローム画像10a及び対応べた塗り画像20aは、自身の所定の記憶装置に予め保存していてもよいし、所定の外部記憶媒体から取得してもよいし、ネットワークを介して他の装置から取得してもよい。着色画像生成処理部120は、生成した対応着色画像30aを自身の表示装置に出力したり、自身の所定の記憶装置に出力したり、所定の外部記憶媒体に出力したり、ネットワークを介して他の装置に出力することができる。
【0033】
着色画像生成モデル130は、敵対的生成ネットワークからなる。着色画像生成モデル130の実体は、画像着色装置100の所定の記憶装置に記憶されたプログラム及び当該プログラムにより用いられ学習処理により変化する各種パラメータからなる。以下、着色画像生成モデル130の構成及び学習処理部110の処理について
図5及び
図6を参照して詳述する。
図5は学習の第1ステージについて説明する図、
図6は学習の第2ステージについて説明する図である。
【0034】
着色画像生成モデル130は、2つの生成器(生成ネットワーク)を備える。第1の生成器は、
図5に示すように、着色画像30をモノクローム画像10に変換する。一方、第2の生成器は、
図6に示すように、モノクローム画像10及びべた塗り画像20の組から着色画像30を生成する。これらの2つの生成器は別々に学習される。ここでは、着色画像30をモノクローム画像10に変換する段階を第1ステージと呼ぶ。また、モノクローム画像10及びべた塗り画像20の組から着色画像30を生成する段階を第2ステージと呼ぶ。
【0035】
学習データは、着色画像30、モノクローム画像20、べた塗り画像20の組(x,y,z)からなる。まず、第1ステージでは、生成器G
Aが、いかに着色画像30からモノクローム画像10を生成するかを学習する。この処理は、着色画像30から色彩情報を取り除き、対応するモノクローム画像10の位置とパターンを予測(predict)する。
図4に示すように、着色画像30は、モノクローム画像10を予測するために十分な情報を含んでいる。この学習処理は、Pix2Pixにおける処理に準ずる。なお、Pix2Pixにおける処理については、非特許文献2を参照されたい。
【0036】
[第1ステージ]
本実施の形態では、UNetアーキテクチャを生成器GAに適用する。着色画像30をx、モノクローム画像10をyとすると、生成器GAの損失関数(discriminative loss)は次式(1)により表される。
【0037】
【0038】
ここで、生成器GAは、いかに判別器(識別ネットワーク)DAを騙すかを学習する。一方、判別器DAは、偽物と本物とを判別するよう学習する。前記式(1)の損失関数に加えて、本実施の形態では、下記式(2)に示すように、正解モノクローム画像yと生成された画像GA(x)との間のL1距離に基づく損失を用いる。
【0039】
【0040】
生成器GAの最終目標は下記式(3)のようになる。
【0041】
【0042】
[第2ステージ]
第1ステージによる学習の後に第2ステージに移る。第2ステージでは、べた塗り画像20とモノクローム画像10の組を入力とする。生成器GBは、べた塗り画像20とモノクローム画像10から着色画像30をいかに生成するかを学習する。生成モデルはUNetの拡張である。2つの入力から1つの出力を取得するために、モデルは2つのストリーム構造を有する。
【0043】
着色画像30をx、モノクローム画像10をy、べた塗り画像20をzとする。生成器GBの損失関数は次式(4)により表される。
【0044】
【0045】
ここで、生成器GBは、いかに判別器(識別ネットワーク)DBを騙すかを学習する。一方、判別器DAは、偽物と本物とを分類するよう学習する。また、本実施の形態では、下記式(5)に示すように、出力の品質(精度)を向上させるためにL1距離に基づく損失を用いる。
【0046】
【0047】
さらに、サイクル・コンシステンシー(cycle consistency)を維持するために、生成器GBによって生成された着色画像30を、学習済みの生成器GAに入力する。学習済み生成器GAからの偽モノクローム画像と正解モノクローム画像との間のL1距離を算出する(次式(6)の第2項)。生成器GBの最終目標は下記式(6)のようになる。
【0048】
【0049】
このように、本実施の形態に係る着色画像生成モデル130では、第2ステージにおいては、生成器GBで生成された着色画像30を入力として学習済みの生成器GAにより生成されたモノクローム画像も用いて学習処理を行っている。
【0050】
前記着色画像生成処理部120は、学習済みの生成器GBを用いて対象モノクローム画像10a及び対応べた塗り画像20aから対応着色画像30aを生成する。
【0051】
次に本実施の形態に係る画像着色装置100の動作について
図7のフローチャートを参照して説明する。
【0052】
まず、画像着色装置100は、モノクローム画像10、べた塗り画像20、着色画像30からなる学習データを用いて学習処理を行って着色画像生成モデル130を生成する(ステップS1)。次に、画像着色装置100は、処理対象となるモノクローム画像10aと、当該モノクローム画像10aに対応する対応べた塗り画像20aとをそれぞれ取得し(ステップS2,S3)、着色画像生成モデル130を用いて対応着色画像30aを生成する(ステップS4)。
【0053】
図8に本実施の形態に係る画像着色装置100による着色処理例を示す。本例では、上述した作品「ねこだま」からランダムに10ページを選び、5ページを学習処理に用い、その他の5ページを着色対象とした。なお、
図8の例では、比較対象画像として、本実施の形態の着色画像生成モデル130から第1ステージの処理と第2ステージにおける生成器G
Aについての処理を省略した着色画像生成モデルを用いたものを示している。
【0054】
図8に示すように、本実施の形態に係る画像着色装置100によれば、出力画像である対応着色画像30aは正解画像である着色画像30と極めて近似しており着色精度が高いことが確認できた。特に、本実施の形態に係る画像着色装置100では、少ない学習データでの学習処理でも高い着色精度を得られること、また陰影等表現部12の着色が適切であることが確認できた。
【0055】
このような画像着色装置100によれば、着色画像生成モデルは、無彩色のモノクローム画像10と、モノクローム画像10に対応する所定の着色領域に単一の色彩が着色され且つモノクローム画像10を含まないべた塗り画像20と、モノクローム画像10に対応した着色画像30とを学習データとして用いて機械学習により生成される。すなわち、着色対象の位置及びその色彩の情報を含むべた塗り画像20が機械学習に用いられるので、対象モノクローム画像10aに対する着色位置及びその色彩の精度が向上する。すなわち、本発明によれば適切な着色が可能となる。
【0056】
なお、上述のように、本発明ではべた塗り画像20が必要である。しかし、当該べた塗り画像20は、高度な専門的技能や知識がなくても、人手により又は画像処理装置によりモノクローム画像10から容易に導出することができる。したがって、本発明によれば、高度な専門的技能や知識がなくても、容易且つ適切な着色が可能となる。
【0057】
(第2の実施の形態)
本発明の第2の実施の形態に係る画像着色装置について図面を参照して説明する。
図9は第2の実施の形態に係る画像着色装置の機能ブロック図、
図10はカラーヒント作成画面の一例である。
【0058】
本実施の形態に係る画像着色装置が第1の実施の形態と異なる点は、べた塗り画像20の作成方法にある。すなわち、第1の実施の形態ではべた塗り画像20は対応するモノクローム画像10から人手により作成していたが、本実施の形態では画像着色装置100’においてモノクローム画像10から作成する。他の点については第1の実施の形態と同様なので、ここでは相違点のみを説明する。
【0059】
本実施の形態に係る画像着色装置100’は、
図9に示すように、べた塗り画像生成部140を備えている。べた塗り画像生成部140は、モノクローム画像10から当該モノクローム画像10に対応するべた塗り画像20を生成する。より詳しくは、べた塗り画像生成部140は、
図10に示すように、モノクローム画像10を所定の表示装置(図示省略)に出力し、利用者から1つ以上のカラーヒント141の入力を受け付ける。カラーヒント141は、色彩情報及び画像内の位置情報を示す。べた塗り画像生成部140は、入力されたカラーヒント141をモノクローム画像10に所定の表示形態で重畳表示する。
図10の例では、カラーヒント141は色彩を有する円形のマークとして表示している。べた塗り画像生成部140は、入力されたカラーヒント141の位置情報に基づき、モノクローム画像10において線画部11を境界とする閉領域を探索し、当該閉領域を着色領域としてカラーヒントの色彩で着色することによりべた塗り画像20を生成する。閉領域の探索アルゴリズムは従来周知の種々のものを用いることができる。なお、べた塗り画像生成部140は、生成したべた塗り画像20を所定の記憶装置や外部の記憶装置に保存したり、外部の装置に送信したりすることができる。
【0060】
このような画像着色装置100’によれば、べた塗り画像20を半自動で生成することができるので着色処理の効率が向上する。他の作用・効果については第1の実施の形態と同様である。
【0061】
以上、本発明の一実施の形態について詳述したが、本発明は上記実施の形態に限定されるものではなく、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよい。
【0062】
例えば、上記実施の形態では、スクリーン等による陰影等表現部12が形成されたモノクローム画像10を着色対象としたが、陰影等表現部12が形成されていないモノクローム画像10であっても本発明を適用できる。
【0063】
また、上記実施の形態では、ベタ画像20として、モノクローム画像10に対応するが、当該モノクローム画像10自体は含まれないものを用いたが、対応するモノクローム画像10の一部又は全部を含んでいてもよい。
【0064】
また、上記実施の形態では、着色画像生成モデル130として敵対的生成ネットワークを用いたが他のモデルを用いても本発明を適用できる。例えば、べた塗り画像とモノクローム画像とを入力として着色画像を出力する畳み込みニューラルネットワークであっても本発明を適用できる。
【0065】
また、上記実施の形態では、着色画像生成モデル130を生成する学習処理部110と、着色画像生成モデル130を用いて対応着色画像30aを生成する着色画像生成部120とを同一の装置に実装していたが、異なる装置に分散して実装してもよい。この場合、学習処理部110により生成された着色画像生成モデル130は、学習処理部110が実装された装置から着色画像生成部120が実装された装置に転送・実装すればよい。これにより、着色画像生成モデル130の生成処理と、着色画像生成モデル130による着色処理とを、それぞれ異なる者・場所・時間で独立して実施することができるので、利便性が向上したものとなる。
【符号の説明】
【0066】
10…モノクローム画像
10a…対象モノクローム画像
20…べた塗り画像
20a…対応べた塗り画像
30…着色画像
30a…対応着色画像
100,100’…画像着色装置
110…学習処理部
120…着色画像生成処理部
130…着色画像生成モデル
140…べた塗り画像生成部