(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-28
(54)【発明の名称】画像処理方法、画像処理装置、記憶媒体及び電子機器
(51)【国際特許分類】
G06T 1/00 20060101AFI20241121BHJP
G06T 7/00 20170101ALI20241121BHJP
G06T 5/60 20240101ALI20241121BHJP
【FI】
G06T1/00 500B
G06T7/00 350C
G06T5/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024523517
(86)(22)【出願日】2022-10-17
(85)【翻訳文提出日】2024-04-18
(86)【国際出願番号】 CN2022125573
(87)【国際公開番号】W WO2023066173
(87)【国際公開日】2023-04-27
(31)【優先権主張番号】202111210502.3
(32)【優先日】2021-10-18
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】524050235
【氏名又は名称】アークソフト コーポレーション リミテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】イェー、ピン
(72)【発明者】
【氏名】チャン、チーウェイ
(72)【発明者】
【氏名】パオ、ティエンロン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057AA20
5B057CA08
5B057CA12
5B057CB12
5B057CB16
5B057CC01
5B057CE08
5B057DB02
5B057DB09
5B057DC09
5B057DC22
5L096AA06
5L096BA18
5L096CA02
5L096DA01
5L096FA14
5L096HA11
(57)【要約】
本願は、画像処理方法、装置、記憶媒体及び電子機器を開示する。ここで、該画像処理方法は、陰影領域を含む被処理画像を取得することと、被処理画像をトレーニングされたニューラルネットワークに入力して、陰影除去画像を得ることと、を含み、ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、1段目のネットワークは、被処理画像を受信し陰影領域マスク画像を出力し、2段目のネットワークは、被処理画像及び陰影領域マスク画像を同時に受信し陰影除去画像を出力する。本願は、従来技術において陰影領域を除去しながら画像の背景層に副作用を引き起こしやすく、ハードウェアプラットフォームに対する要求が高いという技術的問題を解決することができる。
【特許請求の範囲】
【請求項1】
陰影領域を含む被処理画像を取得することと、
前記被処理画像を、トレーニングされたニューラルネットワークに入力して、陰影除去画像を得ることと、を含み、
前記ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、前記1段目のネットワークは、前記被処理画像を受信し陰影領域マスク画像を出力し、前記2段目のネットワークは、前記被処理画像及び前記陰影領域マスク画像を同時に受信し、前記陰影除去画像を出力する、画像処理方法。
【請求項2】
前記1段目のネットワークは、
第1のエンコーダを含み、前記被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、
前記第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、前記第1のセットの特徴データに基づいて陰影領域を推定して陰影領域マスク画像を出力する陰影領域推定モジュールと、を含むことを特徴とする請求項1に記載の画像処理方法。
【請求項3】
前記2段目のネットワークは、
第2のエンコーダを含み、前記1段目のネットワークの出力に接続され、被処理画像を受信するとともに、前記1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、
前記第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、前記第2のセットの特徴データに基づいて前記陰影除去画像を出力する結果画像出力モジュールと、を含むことを特徴とする請求項1に記載の画像処理方法。
【請求項4】
前記第1のデコーダ又は前記第2のデコーダの各層の出力を、クロスレイヤ接続によりチャネル軸に沿って前記第1のエンコーダ又は前記第2のエンコーダにおける対応する層の出力にスプライシングし、前記第1のデコーダ又は前記第2のデコーダと前記第1のエンコーダ又は前記第2のエンコーダとのクロスレイヤ接続に、異なるスケールの特徴を融合するマルチスケールピラミッドプーリングモジュールを追加させることを特徴とする請求項2又は3に記載の画像処理方法。
【請求項5】
陰影領域を含む被処理画像を取得した後、前記画像処理方法は、
画像ピラミッドアルゴリズムを用いて前記被処理画像をダウンサンプリングし、ダウンサンプリングする間、各段の画像層の勾配情報を保持してラプラシアンピラミッドを形成することと、
最小サイズの画像層をトレーニングされたニューラルネットワークに送り込んで、出力画像を得ることと、及び
ラプラシアンピラミッドを用いて前記出力画像に対して低解像度から高解像度への再構成を行い、前記陰影除去画像を得ることと、をさらに含むことを特徴とする請求項1に記載の画像処理方法。
【請求項6】
初期ニューラルネットワークを構築することと、
サンプルデータを用いて前記初期ニューラルネットワークをトレーニングし、前記トレーニングされたニューラルネットワークを得ることと、をさらに含み、
前記サンプルデータは、実写画像及び合成陰影画像を含み、前記合成陰影画像は、画像合成方法を用いて単純陰影画像及び陰影なし画像で合成されたものであることを特徴とする請求項1に記載の画像処理方法。
【請求項7】
画像合成方法を用いて単純陰影画像及び陰影なし画像で前記合成陰影画像を合成することは、
単純陰影画像を取得することと、
陰影なし画像を取得することと、及び
前記単純陰影画像及び前記陰影なし画像に基づいて、前記合成陰影画像を得ることと、を含むことを特徴とする請求項1に記載の画像処理方法。
【請求項8】
画像合成方法を用いて単純陰影画像及び陰影なし画像で前記合成陰影画像を合成することは、
前記単純陰影画像を変換し、変換された単純陰影画像と前記陰影なし画像とに基づいて、前記合成陰影画像を得ることをさらに含み、
前記変換された単純陰影画像における非陰影領域の画素値は、1つの固定数値であるaに一括して設定され、陰影領域の画素値は、0~aの間の数値になり、aは正の整数であることを特徴とする請求項7に記載の画像処理方法。
【請求項9】
前記初期ニューラルネットワークは、サンプルデータに対して種別判断を行うモジュールをさらに含み、
前記初期ニューラルネットワークに入力されたサンプルデータが実写画像であると判断した場合、ラベル付きデータは、実景で採集された陰影除去画像であり、前記初期ニューラルネットワークから出力された前記陰影除去画像と前記ラベル付きデータとしての前記陰影除去画像との間の差分に基づいて、前記2段目のネットワークの内部のパラメータを調整し、
前記初期ニューラルネットワークに入力されたサンプルデータが合成陰影画像であると判断した場合、前記ラベル付きデータは、実景で採集された前記陰影なし画像と前記単純陰影画像とを含み、前記陰影領域マスク画像と前記単純陰影画像との間の差分に基づいて、1段目のネットワークの内部のパラメータを調整し、前記初期ニューラルネットワークから出力された陰影除去画像と前記陰影なし画像との間の差分に基づいて、2段目のネットワークの内部のパラメータを調整することを特徴とする請求項7に記載の画像処理方法。
【請求項10】
サンプルデータを用いて前記初期ニューラルネットワークをトレーニングする時、損失関数は、画素損失、特徴損失、構造的類似性損失、敵対的損失、陰影エッジ損失、陰影輝度損失のうちの少なくとも1つを含むことを特徴とする請求項6に記載の画像処理方法。
【請求項11】
前記画素損失は、画素遮断損失を含み、
前記初期ニューラルネットワークからの出力画像及びラベル画像における対応する2つの画素の絶対差が所定の閾値より大きい場合、前記2つの画素の損失を算出し、
前記初期ニューラルネットワークからの出力画像及び前記ラベル画像における対応する2つの画素の絶対差が前記所定の閾値以下である場合、前記2つの画素間の差分を無視することを特徴とする請求項10に記載の画像処理方法。
【請求項12】
前記陰影輝度損失は、前記ニューラルネットワークから出力された前記陰影除去画像における前記陰影領域に対応する領域の輝度と、入力された前記被処理画像における前記陰影領域の輝度との差を0より大きくし、前記陰影除去画像における前記陰影領域に対応する領域の輝度を向上させることを特徴とする請求項10に記載の画像処理方法。
【請求項13】
前記損失関数が前記陰影エッジ損失を含む場合、前記画像処理方法は、
前記陰影領域マスク画像に対して膨張処理を行って膨張画像を得ることと、
前記陰影領域マスク画像に対してイロージョン処理を行ってイロージョン画像を得ることと、及び
前記膨張画像と前記イロージョン画像との差集合を陰影と非陰影との境界領域として取得し、TVLossを用いて平滑化することと、を含むことを特徴とする請求項10に記載の画像処理方法。
【請求項14】
陰影領域を含む被処理画像を取得する画像採集ユニットと、
被処理画像を受信し、トレーニングされたニューラルネットワークを用いて被処理画像を処理して、陰影除去画像を得る処理ユニットと、を含み、
前記ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、前記1段目のネットワークは、前記被処理画像を受信し、陰影領域マスク画像を出力し、前記2段目のネットワークは、前記被処理画像及び前記陰影領域マスク画像を同時に受信し、前記陰影除去画像を出力する、画像処理装置。
【請求項15】
前記1段目のネットワークは、
第1のエンコーダを含み、前記被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、
前記第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、前記第1のセットの特徴データに基づいて陰影領域を推定して、陰影領域マスク画像を出力する陰影領域推定モジュールと、
を含むことを特徴とする請求項14に記載の画像処理装置。
【請求項16】
前記2段目のネットワークは、
第2のエンコーダを含み、前記1段目のネットワークの出力に接続され、被処理画像を受信するとともに、前記1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、
前記第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、前記第2のセットの特徴データに基づいて陰影除去画像を出力する結果画像出力モジュールと、
を含むことを特徴とする請求項14に記載の画像処理装置。
【請求項17】
プログラムを記憶した記憶媒体であって、前記プログラムが実行されると、請求項1から13のいずれか一項に記載の画像処理方法を実行するように、前記記憶媒体が位置する機器を制御することを特徴とする記憶媒体。
【請求項18】
電子機器であって、
プロセッサと、
前記プロセッサの実行可能な指令を記憶するメモリとを含み、
前記プロセッサは、前記実行可能な指令を実行することにより、請求項1から13のいずれか一項に記載の画像処理方法を実行するように構成されることを特徴とする電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、画像処理技術に関し、具体的には、画像処理方法、装置、記憶媒体及び電子機器に関する。
【背景技術】
【0002】
人々が携帯電話で文書を撮影する場合、常に、光線に対する手や携帯電話の遮蔽及び光線に対する環境における他の物体の遮蔽によって文書に陰影が残っており、撮影された画像の視覚的体験に影響を与え、撮影された画像をコンピュータ視覚処理技術で処理することで、陰影を除去し、陰影の背後の文字や絵の内容を復元させ、画像の品質を効果的に向上させることができるため、文書の陰影除去は、重要な意義がある一つの技術であり、撮像された画像の品質を大きく向上させることができ、幅広い市場将来性を有する。
【0003】
陰影層を効果的に除去しながら背景層に顕著な副作用を引き起こさないとともに、速い実行速度と許容可能なハードウェアコンフィギュレーションの要求を持つことは、陰影除去方法を携帯電話に適用する基本的なニーズと主なチャレンジであり、現在の陰影除去方法は陰影を除去しきれないか、背景層の情報を損失するか、実行速度が遅く、いずれも一般ユーザの使用に不利である。
【0004】
従来の陰影除去方法は、グローバル測位モジュール、外観モデリングモジュール及びセマンティックモデリングモジュールを含むニューラルネットワークを使用した。グローバル測位モジュールは、陰影領域を検出して、陰影領域の位置特徴を取得し、外観モデリングモジュールは、ネットワークの出力とラベル付きデータ(Ground Truth、GT)とが非陰影領域で一致するように、非陰影領域の特徴を学習し、セマンティックモデリングモジュールは、陰影の背後のオリジナルコンテンツを復元させる。しかし、該方法において、陰影が除去された背景画像を直接出力することではなく、陰影画像と背景画像との比率を出力し、さらに陰影画像及びネットワークの出力で画素ごとに除算して背景画像を得ることを必要とし、これにより、より大きな算出量が導入されるとともに、除算において0で除算される問題により算出安定性に影響を与える可能性がある。
【0005】
したがって、陰影を効果的に除去しながら背景層に顕著な副作用を引き起こさないことができるとともに、速い実行速度と許容可能なハードウェアコンフィギュレーションの要求を持つ画像処理技術を提案する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例は、少なくとも従来技術において陰影領域を除去しながら画像の背景層に副作用を引き起こしやすく、ハードウェアプラットフォームに対する要求が高いという技術的問題を解決するための画像処理方法、装置、記憶媒体及び電子機器を提供する。
【課題を解決するための手段】
【0007】
本願の実施例の一態様によれば、陰影領域を含む被処理画像を取得することと、被処理画像を、トレーニングされたニューラルネットワークに入力して、陰影除去画像を得ることと、を含み、ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、1段目のネットワークは、被処理画像を受信し、陰影領域マスク画像を出力し、2段目のネットワークは、被処理画像及び陰影領域マスク画像を同時に受信し、陰影除去画像を出力する、画像処理方法を提供する。
【0008】
選択的に、1段目のネットワークは、第1のエンコーダを含み、被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、第1のセットの特徴データに基づいて陰影領域を推定して陰影領域マスク画像を出力する陰影領域推定モジュールと、を含む。
【0009】
選択的に、2段目のネットワークは、第2のエンコーダを含み、1段目のネットワークの出力に接続され、被処理画像を受信するとともに、1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、第2のセットの特徴データに基づいて陰影除去画像を出力する結果画像出力モジュールと、を含む。
【0010】
選択的に、第1のデコーダ又は第2のデコーダの各層の出力を、クロスレイヤ接続によりチャネル軸に沿って第1のエンコーダ又は第2のエンコーダにおける対応する層の出力にスプライシングし、第1のデコーダ又は第2のデコーダと第1のエンコーダ又は第2のエンコーダとのクロスレイヤ接続に、異なるスケールの特徴を融合するマルチスケールピラミッドプーリングモジュールを追加させる。
【0011】
選択的に、陰影領域を含む被処理画像を取得した後、画像処理方法は、画像ピラミッドアルゴリズムを用いて被処理画像をダウンサンプリングし、ダウンサンプリングする間、各段の画像層の勾配情報を保持してラプラシアンピラミッドを形成することと、最小サイズの画像層をトレーニングされたニューラルネットワークに送り込んで、出力画像を得ることと、及びラプラシアンピラミッドを用いて出力画像に対して低解像度から高解像度への再構成を行い、陰影除去画像を得ることと、をさらに含む。
【0012】
選択的に、上記画像処理方法は、初期ニューラルネットワークを構築することと、サンプルデータを用いて初期ニューラルネットワークをトレーニングし、トレーニングされたニューラルネットワークを得ることと、をさらに含み、サンプルデータは、実写画像及び合成陰影画像を含み、合成陰影画像は、画像合成方法を用いて単純陰影画像及び陰影なし画像で合成されたものである。
【0013】
選択的に、画像合成方法を用いて単純陰影画像及び陰影なし画像で上記合成陰影画像を合成することは、単純陰影画像を取得することと、陰影なし画像を取得することと、及び単純陰影画像及び陰影なし画像に基づいて、合成陰影画像を得ることと、を含む。
【0014】
選択的に、画像合成方法を用いて単純陰影画像及び陰影なし画像で上記合成陰影画像を合成することは、単純陰影画像を変換し、変換された単純陰影画像と陰影なし画像とに基づいて、合成陰影画像を得ることをさらに含み、前記変換された単純陰影画像における非陰影領域の画素値は、1つの固定数値であるaに一括して設定され、陰影領域の画素値は、0~aの間の数値になり、aは正の整数である。
【0015】
選択的に、初期ニューラルネットワークは、サンプルデータに対して種別判断を行うモジュールをさらに含み、初期ニューラルネットワークに入力されたサンプルデータが実写画像であると判断した場合、ラベル付きデータは、実景で採集された陰影除去画像であり、初期ニューラルネットワークから出力された陰影除去画像とラベル付きデータとしての陰影除去画像との間の差分に基づいて、2段目のネットワークの内部のパラメータを調整し、初期ニューラルネットワークに入力されたサンプルデータが合成陰影画像であると判断した場合、ラベル付きデータは、実景で採集された陰影なし画像と単純陰影画像とを含み、陰影領域マスク画像と単純陰影画像との間の差分に基づいて、1段目のネットワークの内部のパラメータを調整し、初期ニューラルネットワークから出力された陰影除去画像と陰影なし画像との間の差分に基づいて、2段目のネットワークの内部のパラメータを調整する。
【0016】
選択的に、サンプルデータを用いて初期ニューラルネットワークをトレーニングする時、損失関数は、画素損失、特徴損失、構造的類似性損失、敵対的損失、陰影エッジ損失、陰影輝度損失のうちの少なくとも1つを含む。
【0017】
選択的に、画素損失は、画素遮断損失を含み、初期ニューラルネットワークからの出力画像及びラベル画像における対応する2つの画素の絶対差が所定の閾値より大きい場合、2つの画素の損失を算出し、初期ニューラルネットワークからの出力画像及びラベル画像における対応する2つの画素の絶対差が所定の閾値以下である場合、2つの画素間の差分を無視する。
【0018】
選択的に、陰影輝度損失は、ニューラルネットワークから出力された陰影除去画像における陰影領域に対応する領域の輝度と、入力された被処理画像における陰影領域の輝度との差を0より大きくし、陰影除去画像における陰影領域に対応する領域の輝度を向上させる。
【0019】
選択的に、損失関数が陰影エッジ損失を含む場合、上記画像処理方法は、陰影領域マスク画像に対して膨張処理を行って、膨張画像を得ることと、陰影領域マスク画像に対してイロージョン処理を行って、イロージョン画像を得ることと、及び膨張画像とイロージョン画像との差集合を陰影と非陰影との境界領域として取得し、TVLossを用いて平滑化することと、を含む。
【0020】
本願の実施例の別の態様によれば、陰影領域を含む被処理画像を取得する画像採集ユニットと、被処理画像を受信し、トレーニングされたニューラルネットワークを用いて被処理画像を処理して、陰影除去画像を得る処理ユニットと、を含み、ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、1段目のネットワークは、被処理画像を受信し、陰影領域マスク画像を出力し、2段目のネットワークは、被処理画像及び陰影領域マスク画像を同時に受信し、陰影除去画像を出力する、画像処理装置をさらに提供する。
【0021】
選択的に、1段目のネットワークは、第1のエンコーダを含み、被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、第1のセットの特徴データに基づいて陰影領域を推定して、陰影領域マスク画像を出力する陰影領域推定モジュールと、を含む。
【0022】
選択的に、2段目のネットワークは、第2のエンコーダを含み、1段目のネットワークの出力に接続され、被処理画像を受信するとともに、1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、第2のセットの特徴データに基づいて陰影除去画像を出力する結果画像出力モジュールと、を含む。
【0023】
本願の実施例のさらに別の態様によれば、プログラムを記憶した記憶媒体であって、前記プログラムが実行されると、上記のいずれかに記載の画像処理方法を実行するように、前記記憶媒体が位置する機器を制御する記憶媒体をさらに提供する。
【0024】
本願の実施例のさらに別の態様によれば、プロセッサと、前記プロセッサの実行可能な指令を記憶するメモリとを含み、前記プロセッサは、前記実行可能な指令を実行することにより、上記のいずれかに記載の画像処理方法を実行するように構成される電子機器をさらに提供する。
【0025】
本願は、速度が速く、効果が良好で、携帯電話などの移動端末に適用可能な陰影除去方法を提案し、陰影という物理的現象の特性を捉えて、強いリアル感のあるトレーニング素材を合成するとともに、多様な損失関数や効果的なネットワーク構造及びモジュールを組み合わせてトレーニングすることで、効果が良好な陰影除去を実現し、携帯電話などの移動端末により撮影された画像の解像度が高いという特性に対して、本願はダウンサンプリング技術及びネットワークプルーニング技術を採用し、高解像度の画像において依然として速い処理速度を達成できる。
【図面の簡単な説明】
【0026】
ここで説明する図面は、本願のさらなる理解を提供するために用いられ、本願の一部を構成し、本願の例示的な実施例及びその説明は、本願を解釈するためのものであり、本願を不適切に限定するものではない。
【
図1】
図1は、本願の実施例による選択的な画像処理方法のフローチャートである。
【
図2】
図2は、本願の実施例による選択的なニューラルネットワークの構造図である。
【
図3】
図3は、本願の実施例による選択的なニューラルネットワークトレーニングのフローチャートである。
【
図4】
図4は、本願の実施例による選択的な画像合成方法のフローチャートである。
【
図5】
図5(a)及び
図5(b)は、本願の実施例の画像処理方法を用いて陰影除去を実現した効果の比較図である。
【
図6】
図6は、本願の実施例による選択的な画像処理装置の構造ブロック図である。
【発明を実施するための形態】
【0027】
以下、当業者が本願の技術案をよりよく理解するために、本願の実施例における図面を参照しながら、本願の実施例における技術案を明確かつ完全に記述し、記述される実施例は本願の一部の実施例に過ぎず、全ての実施例ではないことは明らかである。本願における実施例に基づいて、当業者が創造的な労働をせずに得られた他の全ての実施例は、本願の保護範囲に属するべきである。
【0028】
なお、本願の明細書、特許請求の範囲及び上記図面における「第1の」、「第2の」等の用語は、類似するオブジェクトを区別するためのものであり、必ずしも特定の順序又は優先順位を記述するためのものではない。このように使用される順序は、本明細書に記述された本願の実施例が本明細書に図示または記述されたもの以外の順序で実施できるように、適切な場合に相互交換できることは理解すべきである。また、「含む」や「有する」という用語及びそれらの任意の変形は、非排他的な「含む」をカバーするための意図であり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、必ずしも明示的に羅列されたステップ又はユニットに限定されるものではなく、明示的に羅列されていないもの又はそれらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよい。
【0029】
以下では、本願の実施例の選択的な画像処理方法のフローチャートを説明する。なお、図面のフローチャートに示されたステップは、1セットのコンピュータ実行可能な指令のようなコンピュータシステムで実行されてもよく、且つ、フローチャートに論理的順序が示されているが、場合によっては、示されるか又は記述されたステップはここと異なる順序で実行されてもよい。
【0030】
図1を参照すると、本願の実施例による選択的な画像処理方法のフローチャートである。
図1に示すように、該画像処理方法は以下のステップを含む。
【0031】
S100:陰影領域を含む被処理画像を取得する。
S102:被処理画像を、トレーニングされたニューラルネットワークに入力して、陰影除去画像を得る。ここで、ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、1段目のネットワークは、被処理画像を受信し、陰影領域マスク画像を出力し、2段目のネットワークは、被処理画像及び陰影領域マスク画像を同時に受信し、陰影除去画像を出力する。
【0032】
上記画像処理方法により、正確な陰影領域境界を得ることができ、得られた陰影除去画像は、陰影と非陰影との間で滑らかに移行することができる。
【0033】
1つの選択的な実施例において、
図2に示すように、ニューラルネットワークは、2段縦続接続された1段目のネットワーク20及び2段目のネットワーク22を含み、1段目のネットワークは、第1の特徴抽出モジュール200と陰影領域推定モジュール202とを含み、2段目のネットワークは、第2の特徴抽出モジュール204と結果画像出力モジュール206とを含む。ここで、第1の特徴抽出モジュール200は、第1のエンコーダを含み、被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得て、陰影領域推定モジュール202は、第1の特徴抽出モジュール200の出力に接続され、第1のデコーダを含み、第1のセットの特徴データに基づいて陰影領域を推定して陰影領域マスク画像を出力し、第2の特徴抽出モジュール204は、第2のエンコーダを含み、1段目のネットワークの出力に接続され、被処理画像を受信するとともに、1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得て、結果画像出力モジュール206は、第2の特徴抽出モジュール204の出力に接続され、第2のデコーダを含み、第2のセットの特徴データに基づいて陰影除去画像を出力する。2段縦続接続されたニューラルネットワークにより、陰影の除去効果を強化することができる。1つの選択的な実施例において、1段目のネットワークと2段目のネットワークは、入力されたチャネル数が異なる以外、同じ構造を有し、例えば、クラシック分割ネットワークUNetに基づいて構築されてもよい。
【0034】
2つのエンコーダの各層の出力を、クロスレイヤ接続によりチャネル軸に沿って、2つのデコーダにおける対応する層の出力にそれぞれスプライシングする。エンコーダとデコーダとのクロスレイヤ接続にマルチスケールピラミッドプーリングモジュールを追加させる。マルチスケールピラミッドプーリングモジュールは、複数の異なるカーネルサイズのプーリング層、畳み込み層及び補間アップサンプリング層を含み、まずプーリング層によって異なるスケールの特徴を抽出し、次に畳み込み層によって低レベル及び/又は高レベルの特徴を抽出し、さらに補間アップサンプリング層によってエンコーダ及びデコーダにおける対応する層の出力を同じサイズに調整し、最後にチャネル軸に沿って1つの特徴にスプライシングする。陰影の影響の度合い及び面積は、画像によって大きく異なるため、陰影領域の判定はローカル的なテクスチャ特徴を参照するだけでなく、グローバル的なセマンティック情報も考慮すべきである。マルチスケールピラミッドプーリングモジュールは、異なるスケールの特徴を融合することで、ネットワークの汎化性を強化させて、異なる面積及び度合いの陰影画像におけるネットワークの良好な効果を達成することができる。
【0035】
機器でのモデルの実行速度を向上させるために、モデルをプルーニングし、エンコーダにおける畳み込み層をグループ化畳み込みに置き換えて、各畳み込みカーネルが1つのチャネルのみを畳み込むようにしてもよく、これによりモデルの演算量を減少させ、処理速度を向上させる。
【0036】
共分散ドリフトをよりよく抑制し、データに対するネットワークのフィッティング能力を強化するために、エンコーダ及びデコーダの畳み込み層の後にインスタンス正則化層を追加して特徴を正則化することによって、陰影の除去効果を向上させる。
【0037】
被処理画像の画像解像度が高い又はデータ量が大きい場合、被処理画像をトレーニングされたニューラルネットワークに直接送り込むと、ビデオメモリ(Video Memory)オーバーフローが発生したり、処理時間が長すぎになりユーザの体験に影響を与える可能性があり、この問題を解決するために、一般的な補間スケーリングアルゴリズムを採用することができるが、画像情報が損失されやすく、生成された画像を元の画像に完璧に拡大することができない。
【0038】
陰影領域が通常に顕著な勾配情報を持たないという特徴を考慮して、1つの選択的な実施例において、画像ピラミッドアルゴリズムを用いて、まず被処理画像をダウンサンプリングし、ダウンサンプリングする間、各段の画像層の勾配情報を保持してラプラシアンピラミッドを形成し、次にピラミッドサイズが最も小さい画像層をトレーニングされたニューラルネットワークに送り込んで、出力画像を得て、最後にラプラシアンピラミッドを用いて出力画像を再構成してもよく、陰影領域の勾配情報が弱いため、再構成プロセスにおいて被処理画像の一部の勾配情報を復元させても、陰影除去効果には影響を与えない。ダウンサンプリングする間保持された各段の画像層の勾配情報を用いて画像再構成を行うことにより、画像解像度に影響を与えずに陰影を除去することができる。ダウンサンプリング及び画像再構成を導入することにより、一方では、画像処理速度が保障され、他方では、画像処理前後の品質に影響を与えないため、携帯電話等の演算力が低い装置で高解像度画像を処理することに有利である。
【0039】
図3に示すように、トレーニングされたニューラルネットワークを得るために、該画像処理方法は、以下のステップをさらに含む。
【0040】
S300:初期ニューラルネットワークを構築する。
S302:サンプルデータを用いて初期ニューラルネットワークをトレーニングし、トレーニングされたニューラルネットワークを得る。ここで、サンプルデータは、実写画像及び合成陰影画像を含み、合成陰影画像は、単純陰影画像及び陰影なし画像で合成されたものである。
【0041】
ユーザがよく撮影する画像において、陰影の種類が非常に豊富であるため、陰影のエッジから区別すれば、光源から背景までの距離が近い場合に撮影された鮮明でシャープな陰影エッジと、光源から背景までの距離が遠い場合に撮影されたぼやけた、移行がなだらかである陰影エッジとを含み、それ以外に、光源が異なる色を現れる場合(例えば、赤黄色寄りの暖色光、青みの寒色光や日光)、陰影も異なる色を現れる。したがって、これらの特徴を考慮すると、画像処理方法全体において、初期ニューラルネットワークをトレーニングするためのサンプルデータは最も重要な役割を果たし、サンプルデータの取得には、主に実景採集と画像合成という2つの方法がある。
【0042】
実景採集を採用する方法において、採集者は、シーンの種別(例えば、暖色光、寒色光、日光などの異なる照明シーン)に応じて、対応する光線環境及び撮影対象を選択し、携帯電話又はカメラなどの撮影装置を三脚で固定し、適切な照明方向及び焦点距離を調整し、手のひら、携帯電話又は他の一般的な物体を遮蔽物として使用して遮光し、撮影対象に陰影を形成して撮影して陰影画像が得られた後、遮蔽物を取り除けて再度撮影して陰影なし背景画像が得られ、このようにして、対をなすサンプルデータを取得する。
【0043】
しかしながら、実景採集は、通常、サンプルデータの高い品質を保障することが困難であり、一方では、遮蔽による光線の変化により、背景画像及び陰影画像は非陰影領域で輝度や色彩の差分が生じるとともに、陰影画像は背景画像に完全に一致することが困難であり、他方では、光線の変化又は焦点の変化により、陰影画像及び背景画像にノイズが生じ、これらのいずれもネットワークのトレーニングに大きな影響を与える。
【0044】
これに対して、画像合成方法を用いて現実的な合成陰影画像を生成してニューラルネットワークのトレーニングに用いてもよい。
【0045】
1つの選択的な実施例において、画像合成方法は以下のステップを含む。
S400:単純陰影画像を取得する。
【0046】
1つの選択的な実施例において、データ採集者は、予め設定された光線環境で、テーブルに1枚の白紙を平らに敷き、手のひら、携帯電話又は他の一般的な物体で遮光し、白紙上に単純陰影画像Sを残し、単純陰影画像Sの全部又は一部の領域が陰影領域である。
【0047】
単純陰影画像を取得する際に、白紙上の非陰影領域が単純な白色として表示されない可能性があるため、非陰影領域と陰影領域との境界が十分に明瞭ではなくなる。したがって、別の選択的な実施例において、さらに、単純陰影画像を変換してもよく、例えば、S’=min(a,S/mean(S)*a)、ここで、aは正の整数である。上記変換により、変換された単純陰影画像における非陰影領域の画素値を1つの固定値a(例えば255)に一括して設定することができ、陰影領域の画素値は0~aの間の数値になり、単純陰影画像における非陰影領域と陰影領域との間に比較的鮮明な境界を有することになる。
【0048】
S402:陰影なし画像を取得する。
1つの選択的な実施例において、データ採集者は、上記同じ光線環境で各種類の撮影対象の陰影なし画像Bを撮影する。
【0049】
S404:単純陰影画像及び陰影なし画像に基づいて、合成陰影画像を得る。
1つの選択的な実施例において、単純陰影画像S(或いは、変換された単純陰影画像S’)と陰影なし画像Bを画素ごとに乗算して、合成陰影画像を得る。
【0050】
このような画像合成方法は、光線に対する陰影の減衰作用を考慮して、エッジの移行がなだらかである陰影を良好に処理することができ、強いリアル感がある。
【0051】
サンプルデータは、実写画像と合成陰影画像とを含む混合データであり、初期ニューラルネットワークは、サンプルデータに対して種別判断を行うモジュールをさらに含むため、初期ニューラルネットワークに入力されたサンプルデータが実写画像であると判断した場合、ラベル付きデータ(Ground Truth、GT)は、実景で採集された陰影除去画像であり、実写画像の陰影領域マスク画像は調整が不可であるため、初期ニューラルネットワークから出力された陰影除去画像とラベル付きデータGTとしての陰影除去画像との間の差分に基づいて、2段目のネットワーク22の内部のパラメータを調整し、初期ニューラルネットワークに入力されたサンプルデータが合成陰影画像であると判断した場合、ラベル付きデータ(Ground Truth、GT)は、実景で採集された陰影なし画像と単純陰影画像とを含み、陰影領域マスク画像と単純陰影画像との間の差分に基づいて、1段目のネットワーク20の内部のパラメータを調整し、初期ニューラルネットワークから出力された陰影除去画像とラベル付きデータとしての陰影なし画像との間の差分に基づいて、2段目のネットワーク22の内部のパラメータを調整することができる。混合データをサンプルデータとして使用してトレーニングすることにより、移行がなだらかである陰影に対し、その正確なマスクを取得し、マスク分割の品質を保障し、陰影除去の効果を向上させることができる。
【0052】
1つの選択的な実施例において、サンプルデータの取得方法は、サンプルデータをより豊富にし、ネットワークのロバスト性を増加させるように、取得されたサンプルデータに対して、ランダムフリップ、回転、色温度調整、チャネルスワップ、ランダムノイズの追加などのような1つ以上の処理を行うことをさらに含んでもよい。
【0053】
1つの選択的な実施例において、初期ニューラルネットワークを監視トレーニングする時、損失関数は、画素損失、特徴損失、構造的類似性損失及び敵対的損失の少なくとも1つを含む。
【0054】
画素損失関数は、画像の画素面から2つの画像の類似性を測る関数であり、主に画像画素値損失及び勾配損失がある。本実施例において、主に初期ニューラルネットワークからの出力画像及びラベル画像の比較画素値の平均二乗誤差と、2つの画像の勾配のL1ノルム誤差との加重和を指す。画素損失は、初期ニューラルネットワークからの出力画像及びラベル画像の各画素の画素値ができるだけ接近するように、画素面からトレーニング過程を監視する。画像全体のノイズではなく、陰影領域における陰影層と背景層との相違性に注目するように初期ニューラルネットワークをガイドするために、1つの選択的な実施例において、画素遮断損失を導入して画素損失を遮断してもよく、即ち、2つの画素の絶対差が所定の閾値より大きい場合にのみ、2つの画素の損失を算出し、そうでない場合、2つの画素間の差分を無視する。画素遮断損失を追加した後、陰影領域に注目するようにネットワークをガイドして、画像のノイズを抑制することができ、陰影除去の効果が向上されるだけでなく、ネットワークの収束速度も大幅に速くなる。
【0055】
特徴損失とは、主に初期ニューラルネットワークへの入力画像及びラベル画像の対応する特徴のL1ノルム誤差の加重和である。1つの選択的な実施例において、ImageNetデータセットに事前にトレーニングされたVGG19ネットワークを特徴抽出器として用い、初期ニューラルネットワークからの出力画像及びラベル画像を該特徴抽出器にそれぞれ送り込み、VGG19の各層の特徴を取得してから、入力画像及びラベル画像の対応する特徴のL1ノルム誤差を算出して加重加算する。VGG19の各層の特徴は、画像のディテールやノイズに敏感ではなく、良好なセマンティック特性を有するため、入力画像及び出力画像にノイズやずれなどの欠陥が存在しても、特徴損失は依然として効果的な陰影領域の差分を正確に生成することができ、ノイズに対する画素損失の敏感さの不足を補完し、良好な安定性を有する。
【0056】
構造的類似性損失関数は、画像のグローバル特徴に基づいて2つの画像の類似性を測る関数である。本実施例において、主に初期ニューラルネットワークからの出力画像及びラベル画像のグローバル的な輝度及びコントラスト差分を指し、該損失関数を追加することにより、ネットワークの出力の色ずれを効果的に抑制し、画像全体の品質を向上させることができる。
【0057】
敵対的損失とは、主に識別器による出力結果及び出力画像の真の種別の損失値である。トレーニングの後期で初期ニューラルネットワークからの出力画像とラベル画像との差分が小さくなると、画素損失、特徴損失、構造的類似性損失の効果が徐々に小さくなり、ネットワークの収束が遅くなる。このとき、ネットワークのトレーニングを支援するために、1つの識別器ネットワークを同期でトレーニングする。まず、初期ニューラルネットワークからの出力画像及びラベル画像を識別器に送り込み、識別器によって出力画像がラベル画像であるか否かを判定し、識別器による出力結果及び出力画像の真の種別に基づいて損失を算出して識別器のパラメータを更新し、その後、出力画像に対する識別器の識別結果を出力画像のリアリティの度合いの損失として、該損失で識別器のパラメータを更新する。識別器が初期ニューラルネットワークからの出力画像とラベル画像を区別できない場合、トレーニングが終了したことを示す。敵対的損失は、ネットワーク処理による画像の副作用(例えば、陰影及び非陰影領域の色の不一致問題や陰影残留問題など)を効果的に除去し、ネットワークからの出力画像のリアリティの度合いを向上させることができる。
【0058】
閾値遮断損失。照明の影響により、実景で採集された対をなすデータは、非陰影領域でも微細な輝度の差分や色の変化が発生する可能性があるが、これらの差分はユーザにとっては許容範囲に属するものであり、処理する必要がない。したがって、トレーニング中、ネットワークがこれらのグローバル的な微小な差分に注目することを防止するために、該方法は、閾値遮断損失を導入し、即ち、ネットワークの出力とGTとの間の差分が所定の閾値より大きい場合にのみ、該差分を全体損失算出パラメータの勾配に集約的に計上し、そうでなければ、損失が0であると見なす。該損失関数は、ネットワークの出力とGTとの間に存在する微小な差分を許容し、ネットワーク学習の重心を差分の大きい領域に移動することにより、比較的明瞭な陰影に対するネットワークの除去能力を効果的に向上させる。
【0059】
陰影エッジ損失。まず、陰影領域マスク画像に対して膨張処理を行って、膨張画像を得て、次に、陰影領域マスク画像に対してイロージョン処理を行い、イロージョン画像を得て、その後、膨張画像とイロージョン画像との差集合を陰影と非陰影との境界領域として得て、TVLossを用いて平滑化することにより、陰影及び非陰影領域間で効果的に移行することができる。
【0060】
陰影輝度損失は、ニューラルネットワークから出力された陰影除去画像における陰影領域に対応する領域の輝度と、入力された被処理画像における陰影領域の輝度との差を0より大きくし、陰影除去画像における陰影領域に対応する領域の輝度を向上させる。
【0061】
1つの選択的な実施例において、初期ニューラルネットワークの背景層出力モジュールは、上記全ての損失の加重和を総損失として用いるとともに、Wassertein敵対的生成ネットワークを敵対的損失として用いる。
【0062】
該ネットワーク構造は、入力画像のグローバル特徴及びローカル特徴を抽出することにより、陰影の除去度合いを向上させるとともに、非陰影領域に副作用を引き起こさないように保護する。
【0063】
図5(a)及び
図5(b)は、本願の実施例の画像処理方法を用いて実現される処理効果の比較図であり、
図5(a)は、陰影を含む被処理画像であり、
図5(b)は、画像処理方法により処理された後の陰影除去画像であり、2つの画像の比較から分かるように、本願による画像処理方法は、陰影を効果的に除去しながら背景層に顕著な副作用を引き起こさないことができる。
【0064】
本願の実施例に採用されるニューラルネットワーク構造及び損失関数は、陰影除去、雨除去、霧除去などの応用シーンに適用されてもよく、主に携帯電話などの移動端末によって撮影された高解像度画像を処理するために用いられるが、PC側又は他の組み込み機器で多様な解像度の画像を処理するためにも同様に適用される。
【0065】
本願の実施例の別の態様によれば、プロセッサと、プロセッサの実行可能な指令を記憶するメモリと、を含み、プロセッサは、実行可能な指令を実行することにより、上記いずれかの画像処理方法を実行するように構成される電子機器をさらに提供する。
【0066】
本願の実施例の別の態様によれば、プログラムを記憶した記憶媒体であって、プログラムが実行されると、上記のいずれかの画像処理方法を実行するように、記憶媒体が位置する機器を制御する記憶媒体をさらに提供する。
【0067】
本願の実施例の別の態様によれば、画像処理装置をさらに提供する。
図6を参照すると、本願の実施例による選択的な画像処理装置の構造ブロック図である。
図6に示すように、画像処理装置60は、画像採集ユニット600と、処理ユニット602とを含む。
【0068】
以下では、画像処理装置60に含まれる各ユニットを具体的に記述する。
画像採集ユニット600は、陰影領域を含む被処理画像を取得する。
【0069】
処理ユニット602は、被処理画像を受信し、トレーニングされたニューラルネットワークを用いて被処理画像を処理して、陰影除去画像を得ており、ここで、ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、被処理画像及び1段目のネットワークからの出力画像は、2段目のネットワークに同時に入力される。
【0070】
1つの選択的な実施例において、ニューラルネットワークの構造は、
図2及び本明細書の関連記述に示されるようであり、ここでは説明を重複しない。
【0071】
本願の上記実施例の番号は、記述のためのものに過ぎず、実施例の優劣を示すものではない。
【0072】
本願の上記実施例において、各実施例に対する記述のいずれもそれぞれ異なる重点があり、ある実施例において詳細に説明されていない部分は、他の実施例の関連記述を参照することができる。
【0073】
本願によるいくつかの実施例において、掲示された技術的内容は、他の形態で実現可能であることは理解すべきである。ここで、以上に記述された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの区分は論理的機能の区分であってもよく、実際の実現の際に他の区分方式があってもよく、例えば、複数のユニット又はコンポーネントは組み合わせられるか、又は他のシステムに統合されてもよく、又は、一部の特徴は省略されるか実行されなくてもよい。また、掲示又は検討された相互間の結合又は直接結合又は通信接続は、いくつかのインタフェース、ユニット又はモジュールを介した間接結合又は通信接続であってもよく、電気的又は他の形態であってもよい。
【0074】
分離部材として説明された前記ユニットは、物理的に分離されたものであっても、そうではなくてもよく、ユニットとして掲示された部材は、物理的ユニットであっても、そうではなくてもよく、即ち、一箇所に位置してもよく、又は、複数のユニットに分布されてもよい。実際の需要に応じてそのうちの一部又は全部のユニットを選択して、本実施例の技術案の目的を実現してもよい。
【0075】
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、各ユニットが単独で物理的に存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。上記の統合されたユニットは、ハードウェアの形態で実現されてもよく、ソフトウェア機能ユニットの形態で実現されてもよい。
【0076】
前記の統合されたユニットがソフトウェア機能ユニットの形態で実現され、且つ独立した製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づき、本願の技術案の本質的又は従来の技術に寄与する部分、又は該技術案の全部又は一部は、ソフトウェア製品の形態で具現化されてもよく、該コンピュータソフトウェア製品は、1台のコンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク機器などであってもよい)に本願の各実施例に記載される方法の全部又は一部のステップを実行させるための若干の指令を含む1つの記憶媒体に記憶される。前述した記憶媒体は、USBディスク、リードオンリーメモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディスク又は光ディスクなどのプログラムコードを記憶できる様々な媒体を含む。
【0077】
以上は、本願の好ましい実施形態に過ぎず、指摘すべきこととして、当業者にとって、本願の原理から逸脱することなく、若干の改善及び修飾を行うこともでき、これらの改善及び修飾も本願の保護範囲と見なされるべきである。
【0078】
本願は、2021年10月18日に提出された中国特許出願第202111210502.3の優先権を主張し、この中国特許出願の内容を本願の一部としてここに援用する。
【手続補正書】
【提出日】2024-04-18
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
陰影領域を含む被処理画像を取得することと、
前記被処理画像を、トレーニングされたニューラルネットワークに入力して、陰影除去画像を得ることと、を含み、
前記ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、前記1段目のネットワークは、前記被処理画像を受信し陰影領域マスク画像を出力し、前記2段目のネットワークは、前記被処理画像及び前記陰影領域マスク画像を同時に受信し、前記陰影除去画像を出力する、画像処理方法。
【請求項2】
前記1段目のネットワークは、
第1のエンコーダを含み、前記被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、
前記第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、前記第1のセットの特徴データに基づいて陰影領域を推定して陰影領域マスク画像を出力する陰影領域推定モジュールと、を含むことを特徴とする請求項1に記載の画像処理方法。
【請求項3】
前記2段目のネットワークは、
第2のエンコーダを含み、前記1段目のネットワークの出力に接続され、被処理画像を受信するとともに、前記1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、
前記第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、前記第2のセットの特徴データに基づいて前記陰影除去画像を出力する結果画像出力モジュールと、を含むことを特徴とする請求項1に記載の画像処理方法。
【請求項4】
前記第1のデコーダ又は前記第2のデコーダの各層の出力を、クロスレイヤ接続によりチャネル軸に沿って前記第1のエンコーダ又は前記第2のエンコーダにおける対応する層の出力にスプライシングし、前記第1のデコーダ又は前記第2のデコーダと前記第1のエンコーダ又は前記第2のエンコーダとのクロスレイヤ接続に、異なるスケールの特徴を融合するマルチスケールピラミッドプーリングモジュールを追加させることを特徴とする請求項
2に記載の画像処理方法。
【請求項5】
陰影領域を含む被処理画像を取得した後、前記画像処理方法は、
画像ピラミッドアルゴリズムを用いて前記被処理画像をダウンサンプリングし、ダウンサンプリングする間、各段の画像層の勾配情報を保持してラプラシアンピラミッドを形成することと、
最小サイズの画像層をトレーニングされたニューラルネットワークに送り込んで、出力画像を得ることと、及び
ラプラシアンピラミッドを用いて前記出力画像に対して低解像度から高解像度への再構成を行い、前記陰影除去画像を得ることと、をさらに含むことを特徴とする請求項1に記載の画像処理方法。
【請求項6】
初期ニューラルネットワークを構築することと、
サンプルデータを用いて前記初期ニューラルネットワークをトレーニングし、前記トレーニングされたニューラルネットワークを得ることと、をさらに含み、
前記サンプルデータは、実写画像及び合成陰影画像を含み、前記合成陰影画像は、画像合成方法を用いて単純陰影画像及び陰影なし画像で合成されたものであることを特徴とする請求項1に記載の画像処理方法。
【請求項7】
画像合成方法を用いて単純陰影画像及び陰影なし画像で前記合成陰影画像を合成することは、
単純陰影画像を取得することと、
陰影なし画像を取得することと、及び
前記単純陰影画像及び前記陰影なし画像に基づいて、前記合成陰影画像を得ることと、を含むことを特徴とする請求項
6に記載の画像処理方法。
【請求項8】
画像合成方法を用いて単純陰影画像及び陰影なし画像で前記合成陰影画像を合成することは、
前記単純陰影画像を変換し、変換された単純陰影画像と前記陰影なし画像とに基づいて、前記合成陰影画像を得ることをさらに含み、
前記変換された単純陰影画像における非陰影領域の画素値は、1つの固定数値であるaに一括して設定され、陰影領域の画素値は、0~aの間の数値になり、aは正の整数であることを特徴とする請求項7に記載の画像処理方法。
【請求項9】
前記初期ニューラルネットワークは、サンプルデータに対して種別判断を行うモジュールをさらに含み、
前記初期ニューラルネットワークに入力されたサンプルデータが実写画像であると判断した場合、ラベル付きデータは、実景で採集された陰影除去画像であり、前記初期ニューラルネットワークから出力された前記陰影除去画像と前記ラベル付きデータとしての前記陰影除去画像との間の差分に基づいて、前記2段目のネットワークの内部のパラメータを調整し、
前記初期ニューラルネットワークに入力されたサンプルデータが合成陰影画像であると判断した場合、前記ラベル付きデータは、実景で採集された前記陰影なし画像と前記単純陰影画像とを含み、前記陰影領域マスク画像と前記単純陰影画像との間の差分に基づいて、1段目のネットワークの内部のパラメータを調整し、前記初期ニューラルネットワークから出力された陰影除去画像と前記陰影なし画像との間の差分に基づいて、2段目のネットワークの内部のパラメータを調整することを特徴とする請求項7に記載の画像処理方法。
【請求項10】
サンプルデータを用いて前記初期ニューラルネットワークをトレーニングする時、損失関数は、画素損失、特徴損失、構造的類似性損失、敵対的損失、陰影エッジ損失、陰影輝度損失のうちの少なくとも1つを含むことを特徴とする請求項6に記載の画像処理方法。
【請求項11】
前記画素損失は、画素遮断損失を含み、
前記初期ニューラルネットワークからの出力画像及びラベル画像における対応する2つの画素の絶対差が所定の閾値より大きい場合、前記2つの画素の損失を算出し、
前記初期ニューラルネットワークからの出力画像及び前記ラベル画像における対応する2つの画素の絶対差が前記所定の閾値以下である場合、前記2つの画素間の差分を無視することを特徴とする請求項10に記載の画像処理方法。
【請求項12】
前記陰影輝度損失は、前記ニューラルネットワークから出力された前記陰影除去画像における前記陰影領域に対応する領域の輝度と、入力された前記被処理画像における前記陰影領域の輝度との差を0より大きくし、前記陰影除去画像における前記陰影領域に対応する領域の輝度を向上させることを特徴とする請求項10に記載の画像処理方法。
【請求項13】
前記損失関数が前記陰影エッジ損失を含む場合、前記画像処理方法は、
前記陰影領域マスク画像に対して膨張処理を行って膨張画像を得ることと、
前記陰影領域マスク画像に対してイロージョン処理を行ってイロージョン画像を得ることと、及び
前記膨張画像と前記イロージョン画像との差集合を陰影と非陰影との境界領域として取得し、TVLossを用いて平滑化することと、を含むことを特徴とする請求項10に記載の画像処理方法。
【請求項14】
陰影領域を含む被処理画像を取得する画像採集ユニットと、
被処理画像を受信し、トレーニングされたニューラルネットワークを用いて被処理画像を処理して、陰影除去画像を得る処理ユニットと、を含み、
前記ニューラルネットワークは、2段縦続接続された1段目のネットワーク及び2段目のネットワークを含み、前記1段目のネットワークは、前記被処理画像を受信し、陰影領域マスク画像を出力し、前記2段目のネットワークは、前記被処理画像及び前記陰影領域マスク画像を同時に受信し、前記陰影除去画像を出力する、画像処理装置。
【請求項15】
前記1段目のネットワークは、
第1のエンコーダを含み、前記被処理画像の特徴を層ごとに抽出して第1のセットの特徴データを得る第1の特徴抽出モジュールと、
前記第1の特徴抽出モジュールの出力に接続され、第1のデコーダを含み、前記第1のセットの特徴データに基づいて陰影領域を推定して、陰影領域マスク画像を出力する陰影領域推定モジュールと、
を含むことを特徴とする請求項14に記載の画像処理装置。
【請求項16】
前記2段目のネットワークは、
第2のエンコーダを含み、前記1段目のネットワークの出力に接続され、被処理画像を受信するとともに、前記1段目のネットワークから出力された陰影領域マスク画像を受信して、第2のセットの特徴データを得る第2の特徴抽出モジュールと、
前記第2の特徴抽出モジュールの出力に接続され、第2のデコーダを含み、前記第2のセットの特徴データに基づいて陰影除去画像を出力する結果画像出力モジュールと、
を含むことを特徴とする請求項14に記載の画像処理装置。
【請求項17】
プログラムを記憶した記憶媒体であって、前記プログラムが実行されると、請求項1から
請求項13のいずれか一項に記載の画像処理方法を実行するように、前記記憶媒体が位置する機器を制御することを特徴とする記憶媒体。
【請求項18】
電子機器であって、
プロセッサと、
前記プロセッサの実行可能な指令を記憶するメモリとを含み、
前記プロセッサは、前記実行可能な指令を実行することにより、請求項1から
請求項13のいずれか一項に記載の画像処理方法を実行するように構成されることを特徴とする電子機器。
【国際調査報告】