IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッドの特許一覧

特許7100729画像強調モデルのトレーニング方法、装置及び記憶媒体
<>
  • 特許-画像強調モデルのトレーニング方法、装置及び記憶媒体 図1
  • 特許-画像強調モデルのトレーニング方法、装置及び記憶媒体 図2
  • 特許-画像強調モデルのトレーニング方法、装置及び記憶媒体 図3
  • 特許-画像強調モデルのトレーニング方法、装置及び記憶媒体 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-05
(45)【発行日】2022-07-13
(54)【発明の名称】画像強調モデルのトレーニング方法、装置及び記憶媒体
(51)【国際特許分類】
   G06T 5/00 20060101AFI20220706BHJP
   G06T 7/00 20170101ALI20220706BHJP
【FI】
G06T5/00
G06T7/00 350B
【請求項の数】 18
(21)【出願番号】P 2021018016
(22)【出願日】2021-02-08
(65)【公開番号】P2021197149
(43)【公開日】2021-12-27
【審査請求日】2021-02-08
(31)【優先権主張番号】202010534243.9
(32)【優先日】2020-06-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520274253
【氏名又は名称】ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
(74)【代理人】
【識別番号】100107489
【弁理士】
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】ジャン リャン
【審査官】西谷 憲人
(56)【参考文献】
【文献】特開2018-195069(JP,A)
【文献】国際公開第2019/003474(WO,A1)
【文献】国際公開第2019/134879(WO,A1)
【文献】中国特許出願公開第110782034(CN,A)
【文献】中国特許出願公開第110827219(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 5/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
画像強調モデルのトレーニング方法であって、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられているターゲット画像と、トレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすること
を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する画像強調モデルのトレーニング方法。
【請求項2】
性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる請求項1に記載の画像強調モデルのトレーニング方法。
【請求項3】
記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む請求項1に記載の画像強調モデルのトレーニング方法。
【請求項4】
記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む請求項1に記載の画像強調モデルのトレーニング方法。
【請求項5】
前記画像強調モデルのトレーニング方法は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、前記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む請求項1に記載の画像強調モデルのトレーニング方法。
【請求項6】
記エッジ画像に従ってエッジ確率マップを決定することは、
前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像である請求項5に記載の画像強調モデルのトレーニング方法。
【請求項7】
記損失関数は、複数のグレースケール損失成分の和を含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり
前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差である請求項1に記載の画像強調モデルのトレーニング方法。
【請求項8】
じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得するこ
のうちのいずれか1つを含み、
前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成するこ
のうちのいずれか1つを含む請求項1に記載の画像強調モデルのトレーニング方法。
【請求項9】
画像強調モデルのトレーニング装置であって、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成されている第1決定モジュールと、
各サンプル画像グループに関連付けられているターゲット画像と、トレーニング入力画像グループを決定するように構成されている第2決定モジュールと、
複数のトレーニングペアを構築するように構成されている構築モジュールであって、各トレーニングペアは、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成されている入力モジュールと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されている周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されているトレーニングモジュール
を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する画像強調モデルのトレーニング装置。
【請求項10】
性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる請求項9に記載の画像強調モデルのトレーニング装置。
【請求項11】
記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するようにさらに構成されており、
さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されてい請求項9に記載の画像強調モデルのトレーニング装置。
【請求項12】
記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するようにさらに構成されており、
さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成されてい請求項9に記載の画像強調モデルのトレーニング装置。
【請求項13】
前記画像強調モデルのトレーニング装置は
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成されているエッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成されているエッジ確率計算モジュール
さらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む請求項9に記載の画像強調モデルのトレーニング装置。
【請求項14】
記エッジ確率計算モジュールは、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること使用して、前記エッジ画像に従ってエッジ確率マップを決定するように構成されている、請求項13に記載の画像強調モデルのトレーニング装置。
【請求項15】
記損失関数は、複数のグレースケール損失成分の和を含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含みまたは
前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり
前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である請求項9に記載の画像強調モデルのトレーニング装置。
【請求項16】
じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
前記第2決定モジュールは
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得するこ
のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するようにさらに構成されており、
前記第2決定モジュールは
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成するこ
のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するようにさらに構成されている、請求項9に記載の画像強調モデルのトレーニング装置。
【請求項17】
画像強調モデルのトレーニング装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されているメモリ
を備え、
前記プロセッサは、前記メモリ内の前記命令を実行することにより、請求項18のいずれか一項に記載の画像強調モデルのトレーニング方法を実行するように構成されている、画像強調モデルのトレーニング装置。
【請求項18】
実行可能命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、プロセッサによって実行されると請求項18のいずれか一項に記載の画像強調モデルのトレーニング方法を実行することを前記プロセッサに行わせる、非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年06月12日に中国特許局に提出された、出願番号がCN202010534243.9である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本開示は、画像処理技術に関し、特に、画像強調モデルのトレーニング方法、装置及び記憶媒体に関する。
【背景技術】
【0003】
モバイル端末は、一般的にカメラ機能を備えている。モバイル端末のイメージセンサのサンプリングレートの不十分、および画像の収集、伝送、圧縮などの様々な側面からのノイズにより、モバイル端末でキャプチャされた画像には、ディテールの喪失、過度のカラーノイズの問題が発生する。暗い環境で撮影された画像やビデオにもこの問題があり、且つ、小口径カメラ付きスマートフォンで撮影された画像ではより深刻である。さらに、画像を収集するプロセスにおいて、サンプリングレートが低いと、エイリアシングが発生する。
【0004】
画像効果に対するユーザのニーズが高まり続けるにつれて、画像の解像度をさらに向上させ、画像の詳細を充実させ、画像のノイズを低減する方法は、常に解決する必要のある技術的課題である。
【0005】
従来の画像強調方法において、複数の画像の同じ位置にあるピクセルに対して加重平均を実行して処理後の画像を取得して、ノイズ除去効果を実現するか、または、サブピクセルの位置合わせと画像融合を実行して、高周波部分に位置する画像の詳細を維持する。適切なピクセルを効果的に選択して、加重融合およびサブピクセルの位置合わせを実行することは、画像強調の効果に影響を与える鍵である。
【0006】
深層学習技術の急速な発展に伴い、人々は深層画像強調モデルを使用して画像強調を完成させ始めた。まず、トレーニングデータとして多数の自然画像を使用して、深層画像強調モデルが、低品質の画像から高品質の画像へのマッピングを学習するようにするが、ほとんどの深層画像強調モデルには過度の平滑化の問題があり、効果的にノイズ除去と同時に画像の詳細を強調することが困難であり、ここで深層画像強調モデルの損失関数は、当該効果に対する影響は非常に大きい。画像の復元は機能レベルの低いビジョンタスクであることを考慮すると、現在、ピクセルレベルの損失関数が通常使用されている。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示は、関連する技術に存在する問題を克服するために、画像強調モデルのトレーニング方法、装置及び記憶媒体を提供する。
【課題を解決するための手段】
【0008】
本明細書の実施例の第1態様によれば、画像強調モデルのトレーニング方法を提供し、前記方法は、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得することと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングすることと、を含み、
前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する。
【0009】
一実施形態において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
【0010】
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用して使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
【0011】
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
【0012】
一実施形態において、前記方法は、各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、前記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
【0013】
一実施形態において、前記エッジ画像に従ってエッジ確率マップを決定することは、
前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、前記ガイド付きフィルタリングのガイドマップは、前記ターゲット画像または前記ターゲット画像のグレースケール成分画像である。
【0014】
一実施形態において、前記損失関数は、複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
【0015】
一実施形態において、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
前記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得することのうちのいずれか1つを含み、
前記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含む。
【0016】
本明細書の実施例の第2態様によれば、画像強調モデルのトレーニング装置を提供し、前記装置は、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される、構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含む。
【0017】
一実施形態において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
【0018】
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
【0019】
一実施形態において、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュールは、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成され、さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
【0020】
一実施形態において、前記装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
【0021】
一実施形態において、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること、を使用して、前記エッジ確率計算モジュールは、前記エッジ画像に従ってエッジ確率マップを決定するように構成される。
【0022】
一実施形態において、前記損失関数は、複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
【0023】
一実施形態において、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
【0024】
本明細書の実施例の第3態様によれば、画像強調モデルのトレーニング装置を提供し、前記装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
【0025】
本明細書の実施例の第4態様によれば、実行可能命令が記憶される非一時的なコンピュータ可読記憶媒体を提供し、前記実行可能命令が、プロセッサによって実行されるとき、上記の方法のステップを実現することを特徴とする。
【0026】
例えば、本願は以下の項目を提供する。
(項目1)
画像強調モデルのトレーニング方法であって、
撮影機器で撮影した複数のサンプル画像グループを決定することと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定することと、
複数のトレーニングペアを構築することであって、各トレーニングペアは、1つのトレーニング入力画像グループと、対応するターゲット画像を含むことと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得することと、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングすることと、を含み、
上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応することを特徴とする、上記画像強調モデルのトレーニング方法。
(項目2)
上記画像強調モデルのトレーニング方法は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング方法。
(項目3)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得することは、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目4)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得することは、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含み、
上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得することは、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することを含み、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目5)
上記画像強調モデルのトレーニング方法は、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得し、上記エッジ画像に従ってエッジ確率マップを決定することをさらに含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目6)
上記画像強調モデルのトレーニング方法は、
上記エッジ画像に従ってエッジ確率マップを決定することは、
上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することを含み、上記ガイド付きフィルタリングのガイドマップは、上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目7)
上記画像強調モデルのトレーニング方法は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和成分画像と、対応するターゲット画像の色飽和成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目8)
上記画像強調モデルのトレーニング方法は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シシーンは異なり、
上記各サンプル画像グループに関連付けられるターゲット画像を決定することは、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを含み、
上記各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成することのうちのいずれか1つを含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング方法。
(項目9)
画像強調モデルのトレーニング装置であって、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュールと、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュールと、
複数のトレーニングペアを構築するように構成される構築モジュールであって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュールと、
各トレーニング入力画像グループを上記画像強調モデルに入力して、上記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュールと、
上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、上記複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュールと、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで上記画像強調モデルをトレーニングするように構成されるトレーニングモジュールであって、上記損失関数には、上記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の上記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するように構成される、トレーニングモジュールと、を含むことを特徴とする、上記画像強調モデルのトレーニング装置。
(項目10)
上記画像強調モデルのトレーニング装置は、
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなることを特徴とする、
上記項目に記載の画像強調モデルのトレーニング装置。
(項目11)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記周波数分割モジュールは、さらに、上記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目12)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、2つのグレースケール損失成分を含み、上記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
上記周波数分割モジュールは、さらに、上記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、上記予測画像のグレースケール成分画像と上記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における上記予測画像のグレースケール周波数分割画像は、上記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、上記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記予測画像のグレースケール周波数分割画像を取得するように構成され、
さらに、上記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、上記ターゲット画像のグレースケール成分画像と上記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における上記ターゲット画像のグレースケール周波数分割画像は、上記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、上記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における上記ターゲット画像のグレースケール周波数分割画像を取得するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目13)
上記画像強調モデルのトレーニング装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
上記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールと、を含み、
上記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における上記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、上記エッジ確率マップとのドット積行列を含むことを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目14)
上記画像強調モデルのトレーニング装置は、
上記エッジ確率計算モジュールは、上記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、上記ガイド付きフィルタリングのガイドマップは上記ターゲット画像または上記ターゲット画像のグレースケール成分画像であること、を使用して、上記エッジ画像に従ってエッジ確率マップを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目15)
上記画像強調モデルのトレーニング装置は、
上記損失関数は、複数のグレースケール損失成分の和を含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、上記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
上記色度損失成分は、上記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、上記色飽和損失成分は、上記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差であることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目16)
上記画像強調モデルのトレーニング装置は、
同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュールは、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、上記参照画像に従って上記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
上記第2決定モジュールは、さらに、
上記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
上記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の画像強調モデルのトレーニング装置。
(項目17)
画像強調モデルのトレーニング装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
上記プロセッサは、上記メモリの実行可能命令を実行して、上記項目のいずれか一項に記載の方法のステップを実現するように構成されることを特徴とする、上記トレーニング装置。
(項目18)
実行可能命令が記憶される、非一時的なコンピュータ可読記憶媒体であって、上記実行可能命令が、プロセッサによって実行されるとき、上記項目のいずれか一項に記載の方法のステップを実現することを特徴とする、上記非一時的なコンピュータ可読記憶媒体。
(摘要)
本開示は、画像強調モデルのトレーニング方法、装置及び記憶媒体に関し、当該方法は、各トレーニング入力画像グループを画像強調モデルに入力して、画像強調モデルによって出力される予測画像を取得することと、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで画像強調モデルをトレーニングすることとを含み、損失関数は、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分を含み、各グレースケール損失成分は、各周波数間隔内の予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は、異なる周波数間隔に対応する。本開示において、損失関数に、対応するトレーニングペアの予測画像とターゲット画像の詳細なコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
【発明の効果】
【0027】
本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。トレーニングペアに関連付けられる損失関数を定義し、画像の詳細な特性は主にグレースケール成分部分に存在することを考慮して、損失関数に、画像強調モデルがトレーニングペアを使用するときの予測画像グレースケール成分画像の周波数分割情報と、ターゲット画像のグレースケール成分画像の周波数分割情報を追加し、異なるトレーニングペアについて異なる損失関数を使用するとき、損失関数に、このトレーニングペアの予測画像とターゲット画像のコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
【0028】
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0029】
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の原理を説明するために使用される。
図1】一例示的な実施例によって示された画像強調モデルのトレーニング方法のフローチャートである。
図2】一例示的な実施例によって示されたターゲット画像のグレースケール成分画像、グレースケール成分画像の低周波画像、グレースケール成分画像の高周波画像である。
図3】一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。
図4】一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。
【発明を実施するための形態】
【0030】
ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。
【0031】
本開示の実施例において、画像強調モデルのトレーニング方法を提供する。図1を参照すれば、図1は、一例示的な実施例によって示された画像強調モデルのトレーニング方法のフローチャートである。図1に示されたように、当該方法は、次にステップを含む。
【0032】
ステップS11において、撮影機器で撮影した複数のサンプル画像グループを決定する。
【0033】
ステップS12において、各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定する。
【0034】
ステップS13において、複数のトレーニングペアを構築し、各トレーニングペアに、1つのトレーニング入力画像グループと、対応するターゲット画像を含む。
【0035】
ステップS14において、各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得する。
【0036】
ステップS15において、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得する。
【0037】
ステップS16において、各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングし、前記損失関数には、前記複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応する。
【0038】
本実施例において、トレーニングペアに関連付けられる損失関数を定義し、画像の詳細な特性は主にグレースケール成分部分に存在することを考慮して、損失関数に、画像強調モデルがトレーニングペアを使用するときの予測画像グレースケール成分画像の周波数分割情報と、ターゲット画像のグレースケール成分画像の周波数分割情報を追加し、異なるトレーニングペアが異なる損失関数を使用するとき、損失関数に、このトレーニングペアの予測画像とターゲット画像のコンテンツ情報とセマンティック情報を具現させ、画像強調モデルのトレーニングプロセスでの不適切な問題による過度の平滑化の問題を効果的に緩和する。
【0039】
本開示の実施例において、画像強調モデルのトレーニング方法を提供し、当該方法は図1に示される方法を含み、さらに、ステップS12において、各サンプル画像グループに関連付けられるターゲット画像を決定することは、以下の方法のうちの1つを含む。
【0040】
方法1において、サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得する。
【0041】
方法2において、サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得する。
【0042】
方法3において、サンプル画像グループから第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得する。
【0043】
方法4において、サンプル画像グループから、鮮明度が最も高いサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得する。
【0044】
ここで、サンプル画像の鮮明度を計算する方法は、ラプラシアン演算子を介してすべての画像の勾配値を取得し、各画像の勾配値を計算し、勾配値に従って鮮明度を決定する方法を含み、勾配値は鮮明度に比例する。鮮明度が最も高いサンプル画像を選択して勾配値が最も高いサンプル画像として選択する。
【0045】
参照画像を決定した後、特徴点およびオプティカルフロー法を使用して、他の入力画像を参照画像と位置合わせし、位置合わせの後、融合処理を実行し、融合のプロセスにおいて同じ位置のピクセル間の差を計算し、当該差は、通常、ノイズによる差と部分的なコンテンツの変更によって引き起こされる。この差に従って融合するときの重みを決定し、部分的な内容の差は、融合した後にアーティファクトを引き起こしやすいが、ノイズの差は、ノイズ除去に役立ち、重みを調整することにより、ノイズ除去とアーティファクト解除のバランスが取れる。画像に対してノイズ推定を実行することにより、当該グループの画像のノイズレベルを知ることができ、ノイズが大きい場合は、他の画像と参照フレームとの差が主にノイズであることを意味し、他の画像の重みを適切に大きくして、融合後のノイズ除去効果を良好にすることができ、逆に、重みを低く抑えてアーティファクトを回避することができる。
【0046】
本実施例において、マルチフレーム低品質のサンプル画像を使用して、ノイズシミュレーションやブラーシミュレーションに関しない、高品質のターゲット画像を融合して、ターゲット画像に、より多いサンプル画像の詳細な特徴を持たせ、詳細な機能に対するマシンイ画像強調モデルの学習に役立つ。
【0047】
本開示の実施例において、画像強調モデルのトレーニング方法を提供し、前記方法は図1に示される方法を含み、且つ、ステップS11において撮影機器を介して撮影するとき、安定した支持機器(三脚など)に撮影機器固定して、連続撮影を実行する。同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なる。例えば、撮影シーンは、印刷物のコンテンツを近距離で撮影するシーン、オフィスシーン、自画像シーン、風景シーン、建築シーンなどを含む。
【0048】
一実施形態において、ステップS12において、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定することは、以下の方法のうちのいずれか1つを含む。
【0049】
方法1において、サンプル画像グループを、トレーニング入力画像グループとして使用する。
【0050】
方法2において、サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成する。
【0051】
当該方法2における選択方法は、撮影シーケンスの中位の複数の画像を選択する方法、各画像の鮮明度を計算し、且つ鮮明度ランキングでミドルフロント設定比率の複数の画像を選択する方法、各画像の鮮明度を計算し、鮮明度ランキングでミドルフロントに設定した比例の複数の画像を選択する方法のうちのいずれか1つを含む。一実現形態において、各サンプル画像グループのサンプル画像が第1固定数量である場合、選択したサンプル画像の一部のデータは第2固定数量であり、第1固定数量は第2固定数量より大きい。
【0052】
例えば、ステップS11には、500のシナリオが含まれ、各シナリオで20枚の画像を連続撮影して、サンプル画像グループを形成する。ステップS12において、前記方法1を使用するとき、サンプル画像グループをトレーニング入力画像グループとして使用し、それにより500個のトレーニングペアを構築し、各トレーニングペアは、1つのトレーニング入力画像グループと1つのターゲット画像を含み、各トレーニング入力画像グループは、20枚のサンプル画像を含む。ステップS12において、前記方法2を使用するとき、各サンプル画像グループから10枚のサンプル画像を選択してトレーニング入力画像グループを構築する。それにより、500個のトレーニングペアを構築し、各トレーニングペアは、1つのトレーニング入力画像グループと1つのターゲット画像を含み、各トレーニング入力画像グループは、10枚のサンプル画像を含む。
【0053】
本実施例において、各サンプル画像グループから、関連付けられるトレーニング入力画像グループを決定するステップを介して、サンプル画像のさまざまな互換性レベルを選択する権利を提供し、サンプル画像との互換性が高い場合、前記方法1を使用して、サンプル画像グループのサンプル画像のすべてをトレーニングに使用し、サンプル画像との互換性が低い場合、前記方法2を使用して、サンプル画像グループのサンプル画像に対してフィルタリングを実行した後、フィルタリングされたサンプル画像をトレーニングに使用する。
【0054】
本開示の実施例において、画像強調モデルの方法を提供し、前記方法は図1に示される方法を含み、さらに、ステップS15において、周波数分割処理を実行する前に、画像強調モデルによって出力された予測画像のグレースケール成分画像及びターゲット画像のグレースケール成分画像を計算する。
【0055】
カメラ機器で撮影した画像は、通常、赤、黄、青の3成分画像を含む、RGB色空間の画像であり、以下の関係により、グレースケール、彩度、色飽和の3成分を含む、YUV色空間画像に変換される。
【0056】
Y=0.299*R+0.587*G+0.114*B、
U=-0.1678*R-0.3313*G+0.5*B、
Y=0.5*R-0.4187*G-0.0813*B。
【0057】
上述の変換方式により、ターゲット画像Gのグレースケール成分画像Y_Gと、予測画像Rのグレースケール成分画像Y_Rを取得することができる。
【0058】
カメラ機器で撮影した画像がYUV色空間画像である場合、画像からグレースケール成分画像を抽出する。
【0059】
ステップS15において、ターゲット画像Gのグレースケール成分画像Y_Gに対して周波数分割処理を実行し、ターゲット画像Gが異なる周波数間隔におけるグレースケール周波数分割画像を取得する。予測画像Rのグレースケール成分画像Y_Rに対して周波数分割処理を実行して、予測画像Rのグレースケール成分画像Y_Rの異なる周波数間隔のグレースケール成分画像を取得する。
【0060】
本開示の実施例において、画像強調モデルの方法を提供し、当該方法は図1に示された方法を含み、当該方法において、周波数間隔の数は、2、3または3以上である。周波数分割処理を実行するとき、周波数範囲はガウスフィルタリングの半径によって決定される。例えば、元の画像はAであり、半径がRで、分散が0であるガウスフィルタリングを使用して、Aに対してガウスフィルタリングを実行して低周波画像Bを取得し、AからBを減算してCを取得し、Cは高周波画像である。半径Rは、BとCの間の間隔を決定する。Rが大きいほど、Cの成分が多くなる。同様に、引き続きBでガウスフィルタリングを実行してより周波数の低いDを取得し、BからDを減算してEを取得できる。EはDに比べて高い周波数であるが、Cに比べては中間の周波数である。または、周波数間隔の数が2つ以上である場合、異なるバンドパスフィルタを使用してフィルタリング処理を実行し、各周波数間隔に対応する周波数分割画像を取得する。
【0061】
一実施形態において、周波数間隔の数は2つであり、損失関数は2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
【0062】
ステップS15において、予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における予測画像のグレースケール成分画像を取得することは、予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、予測画像のグレースケール成分画像と第1グレースケール低周波画像の差を計算して第1グレースケール高周波画像として使用し、2つの周波数間隔における予測画像のグレースケール成分画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む。
【0063】
ステップS15において、ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔におけるターゲット画像のグレースケール周波数分割画像を取得することは、ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、ターゲット画像のグレースケール成分画像と第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用し、ターゲット画像が2つの周波数間隔におけるグレースケール成分画像は、第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
【0064】
例えば、ターゲット画像Gのグレースケール成分画像Y_Gに対して2つの周波数間隔の周波数分割処理を実行するとき、ターゲット画像Gのグレースケール低周波画像Y_G_baselayerを取得し、グレースケール成分画像Y_Gとグレースケール低周波画像Y_G_baselayerが差し引かれて、ターゲット画像Gのグレースケール高周波画像Y_G_detaillayerを取得する。図2に示されるような3つの画像では、左から順に、例示のターゲット画像のグレースケール成分画像、グレースケール低周波画像、グレースケール高周波画像である。
【0065】
一実施形態において、周波数間隔の数は2つであり、損失関数は2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
【0066】
ステップS15において、予測画像のグレースケール成分画像に対して周波数分割処理を実行し、複数の周波数間隔における予測画像のグレースケール成分画像を取得することは、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用し、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む。
【0067】
ステップS15において、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得することは、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用し、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含む。
【0068】
損失関数M_Lossは行列であり、損失関数は各グレースケール損失成分の和であり、式(1)に示すようである。
【0069】
【数1】
【0070】
ここで、K1は、高周波数間隔に対応する重み係数であって、Y_detaillayer_dfはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_detaillayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_detaillayerとの差である。
【0071】
K2は、低周波数範囲に対応する重み係数であって、Y_baselayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール低周波画像Y_R_baselayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerとの差である。
【0072】
K1は、K2よりも大きく、画像の詳細をより多く具現するために、高周波成分であるほど、重みも大きくされ、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。特性周波数は、例えば、周波数間隔の最高周波数、最低周波数、中心周波数など、周波数間隔の位置を示す周波数であり、または特性周波数は同時に最高周波数と最低周波数を含む。異なる周波数間隔間はオーバーラップ部分はない。
【0073】
一実施形態において、周波数間隔の数は3つで、損失関数は3つのグレースケール損失成分を含み、当該3つのグレースケール損失成分は、低周波損失成分、中周波損失成分および高周波損失成分を含む。
【0074】
損失関数M_Lossは、行列であり、損失関数は各グレースケール損失成分の和であり、式(2)に示すようである。
【0075】
【数2】
【0076】
ここで、X1は、高周波数間隔に対応する重み係数であって、Y_FHlayer_difは、ターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_FHlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_FHlayerとの差である。
【0077】
X2は、中周波数範囲に対応する重み係数であり、Y_FMlayer_difは、ターゲット画像Gのグレースケール成分画像Y_Gのグレースケール中周波画像Y_G_FMlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerとの差である。
【0078】
X3は、低周波数範囲に対応する重み係数であり、Y_FLlayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール低周波画像Y_G_FLlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerとの差である。
【0079】
特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなり、即ち、X1は、X2より大きいく、X2は、X3より大きい。
【0080】
一実施形態において、周波数間隔の数は4つであり、損失関数は4つのグレースケール損失成分を含み、当該4つのグレースケール損失成分は、周波数の高いものから低いものへの順に、第1損失成分、第2損失成分、第3損失成分および第4損失成分を含む。
【0081】
同様に、損失関数は、さらに、4つ以上のグレースケール損失成分を含み得る。
【0082】
本実施例において、特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくして、より多くの画像の詳細を具現し、画像の詳細に関するより多くの情報を損失関数に表示させる。
【0083】
本開示の実施例において、画像強調モデルの方法を提供し、前記方法は図1に示される方法を含み、前記方法は、さらに、各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像Y_G_edgeを取得し、エッジ画像Y_G_edgeに従ってエッジ確率マップY_G_Pを決定することを含む。損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、予測画像が、当該周波数間隔のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、エッジ確率マップとのドット積行列を含む。
【0084】
エッジ検出を実行する方法は様々あり、例えば、Canny演算子検出方法を使用し、当該検出方法は、下記のステップのうちの少なくとも1つを含む。
【0085】
1、ガウスフィルタリング処理のステップであって、ノイズを除去と平滑化処理のために使用される。
【0086】
2、非最大抑制(non-maximum suppression)技術を適用して、エッジの誤検出を排除し、各ピクセルの勾配強度の最大値を維持し、最大値以外の他の値を削除する。
【0087】
3、二重閾値法を適用して、可能な(潜在的な)境界を決定し、2つの閾値を設定する。上限閾値よりも大きいのは強いエッジであり、下限閾値よりも小さいのはエッジではなく、中央のエッジは未決定のエッジである。
【0088】
4、ヒステリシステクノロジを使用して境界を追跡し、未決定のエッジと強いエッジの間の接続をエッジと見なし、逆に、エッジと見なさない。
【0089】
一実施形態において、エッジ画像Y_G_edgeに従ってエッジ確率マップY_G_Pを決定することは、エッジ画像Y_G_edgeに対して、ガイド付きフィルタリングを実行して、エッジ確率マップY_G_Pを取得することを含み、前記ガイド付きフィルタリングのガイドマップはターゲット画像またはターゲット画像のグレースケール成分画像である。ガイド付きフィルタリングは、画像フィルタリングテクノロジであって、1つのガイドマップを介してエッジ画像Y_G_edgeに対してフィルタリング処理を実行して、最終的な予測画像が検出されたエッジを可能な限り保持すると同時に、誤ってエッジとしてチェックされたノイズを可能な限り除去し、最終的に1つの確率マップY_G_Pを取得し、当該確率マップの各ピクセルの確率値は、当該ピクセルがエッジポイントである確率を表す。
【0090】
一実施形態において、損失関数は、2つのグレースケール損失成分を含み、当該2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含む。
【0091】
損失関数M_Lossは行列であり、損失関数は各グレースケール損失成分の和であり、式(3)に示すようである。
【0092】
【数3】
【0093】
ここで、K1は、高周波数間隔に対応する重み係数であり、Y_G_Pは、ターゲット画像のグレースケール成分画像のエッジ画像Y_G_edgeに対してガイド付きフィルタリングを実行して取得したエッジ確率マップY_G_Pであり、Y_detaillayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_detaillayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_detaillayerとの差であり、*は行列ドット演算を表す。K2は、低周波数範囲の重み係数であり、Y_baselayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_baselayerとの差である。
【0094】
一実施形態において、周波数間隔の数が3である場合、低周波数間隔、中周波数間隔、および高周波数間隔の3つの間隔に分割され、損失関数は3つのグレースケール損失成分を含み、前記3つのグレースケール損失成分は、低周波損失成分、中周波損失成分と高周波損失成分を含む。
【0095】
損失関数は、行列M_Lossであり、損失関数は各グレースケール損失成分の和であり、式(4)に示すようである。
【0096】
【数4】
【0097】
ここで、X1は、高周波数間隔に対応する重み係数であり、Y_G_Pは、ターゲット画像のグレースケール成分画像のエッジ画像Y_G_edgeに対してガイド付きフィルタリングを実行して取得したエッジ確率マップY_G_Pであり、Y_FHlayer_difはターゲット画像Gのグレースケール成分画像Y_Gのグレースケール高周波画像Y_G_FHlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール高周波画像Y_R_FHlayerとの差であり、*は行列ドット演算を表す。
【0098】
X2は、中周波数範囲に対応する重み係数であり、Y_FMlayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール中周波画像Y_R_FMlayerとの差である。
【0099】
X3は、低周波数範囲に対応する重み係数であり、Y_FLlayer_difは予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerと、予測画像Rのグレースケール成分画像Y_Rのグレースケール低周波画像Y_R_FLlayerとの差である。
【0100】
本実施例において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分に確率画像の重みを増加することを介して、損失関数に画像のセマンティック情報を増加して、サンプルの不均衡の問題を解決する。
【0101】
本開示の実施例において、画像強調モデルの方法を提供し、当該方法は図1に示された方法を含み、当該方法において、損失関数は、各グレースケール損失成分の和を含む基で、さらに、色度損失成分および/または色飽和損失成分を含む。具体的には、下記のようである。
【0102】
損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含む。
【0103】
または、損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含む。
【0104】
または、損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含む。
【0105】
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
【0106】
一実施形態において、式(1)に基づいて、損失関数は、式(5)、(6)、(7)のうちの任意の1つの式に示すようである。
【0107】
【数5】
【0108】
【数6】
【0109】
【数7】
【0110】
式(3)に基づいて、損失関数は、式(8)、(9)、(10)のうちの任意の1つの式に示すようである。
【0111】
【数8】
【0112】
【数9】
【0113】
【数10】
【0114】
ここで、U_difは、ターゲット画像Gの色度成分画像U_Gと、予測画像Rの色度成分画像U_Rとの差であり、V_difは、ターゲット画像Gの色飽和成分画像V_Gと、予測画像Rの色度成分画像V_Rとの差である。
【0115】
周波数間隔の数が2より大きい場合、損失関数の設定方法は、上記の周波数間隔の数が2である場合と同様で、ここで再び説明しない。
【0116】
本開示の実施例において画像強調方法を提供し、当該方法は、上記のトレーニング方法を使用して画像強調モデルのトレーニングに成功した後、レーニングに成功した画像強調モデルを使用して、処理される画像に対して強調処理を実行することを含む。
【0117】
本開示の実施例において、画像強調モデルのトレーニング装置を提供する。図3を参照すれば、図3は、一例示的な実施例によって示された画像強調モデルのトレーニング装置の構造図である。図3に示されるように、当該装置は、
撮影機器で撮影した複数のサンプル画像グループを決定するように構成される、第1決定モジュール301と、
各サンプル画像グループに関連付けられるターゲット画像、及びトレーニング入力画像グループを決定するように構成される、第2決定モジュール302と、
複数のトレーニングペアを構築するように構成される構築モジュール303であって、各トレーニングペアに、1つのトレーニング入力画像グループと対応するターゲット画像を含む、構築モジュール303と、
各トレーニング入力画像グループを前記画像強調モデルに入力して、前記画像強調モデルによって出力された予測画像を取得するように構成される、入力モジュール304と、
前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得し、対応するターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、前記複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される、周波数分割モジュール305と、
各トレーニングペアにそれぞれ対応する損失関数を使用して、収束するまで前記画像強調モデルをトレーニングするように構成されるトレーニングモジュール306であって、前記損失関数には、複数の周波数間隔に1対1で対応する複数のグレースケール損失成分が含まれ、各グレースケール損失成分は、各周波数間隔内の前記予測画像のグレースケール周波数分割画像と、対応するターゲット画像のグレースケール周波数分割画像との差に基づいて決定され、異なるグレースケール損失成分は異なる周波数間隔に対応するトレーニングモジュール306と、を含む。
【0118】
一実施形態において、損失関数の損失特性周波数が高い周波数間隔であるほど、対応するグレースケール損失成分の重み係数が大きくなる。
【0119】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は図3に示されるトレーニング装置を含み、さらに、ここで、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第1グレースケール低周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール低周波画像との差を計算して第1グレースケール高周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含む、ことを使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成される。
【0120】
前記周波数分割モジュール305は、さらに、前記ターゲット画像のグレースケール成分画像に対してローパスフィルタリングを実行して、第2グレースケール低周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール低周波画像との差を計算して第2グレースケール高周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
【0121】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は図3に示されるトレーニング装置を含み、さらに、ここで、前記損失関数は、2つのグレースケール損失成分を含み、前記2つのグレースケール損失成分は、低周波損失成分と高周波損失成分を含み、
前記周波数分割モジュール305は、さらに、前記予測画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第1グレースケール高周波画像を取得し、前記予測画像のグレースケール成分画像と前記第1グレースケール高周波画像との差を計算して第1グレースケール低周波画像として使用することであって、2つの周波数間隔における前記予測画像のグレースケール周波数分割画像は、前記第1グレースケール低周波画像と第1グレースケール高周波画像を含むこと、を使用して、前記予測画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記予測画像のグレースケール周波数分割画像を取得するように構成される。
【0122】
前記周波数分割モジュール305は、さらに、前記ターゲット画像のグレースケール成分画像に対してハイパスフィルタリングを実行して、第2グレースケール高周波画像を取得し、前記ターゲット画像のグレースケール成分画像と前記第2グレースケール高周波画像との差を計算して第2グレースケール低周波画像として使用することであって、2つの周波数間隔における前記ターゲット画像のグレースケール周波数分割画像は、前記第2グレースケール低周波画像と第2グレースケール高周波画像を含むこと、を使用して、前記ターゲット画像のグレースケール成分画像に対して周波数分割処理を実行して、複数の周波数間隔における前記ターゲット画像のグレースケール周波数分割画像を取得するように構成される。
【0123】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、且つ、前記装置は、さらに、
各トレーニングペアにおけるターゲット画像のグレースケール成分画像に対してエッジ検出を実行してエッジ画像を取得するように構成される、エッジ検出モジュールと、
前記エッジ画像に従ってエッジ確率マップを決定するように構成される、エッジ確率計算モジュールとを含み、
前記損失関数において、特性周波数が最も高い周波数間隔に対応するグレースケール損失成分は、当該周波数間隔における前記予測画像のグレースケール成分画像と当該周波数間隔における対応するターゲット画像のグレースケール成分画像との差と、前記エッジ確率マップとのドット積行列を含む。
【0124】
一実施形態において、前記エッジ確率計算モジュールは、前記エッジ画像に対してガイド付きフィルタリングを実行して、エッジ確率マップを取得することであって、前記ガイド付きフィルタリングのガイドマップは前記ターゲット画像または前記ターゲット画像のグレースケール成分画像であること、を使用して、前記エッジ画像に従ってエッジ確率マップを決定するように構成される。
【0125】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、さらに、前記損失関数は複数のグレースケール損失成分の和を含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色飽和損失成分の和とを含み、
または、前記損失関数は、複数のグレースケール損失成分の和と、色度損失成分及び色飽和損失成分の和とを含み、
前記色度損失成分は、前記画像強調モデルによって出力された予測画像の色度成分画像と、対応するターゲット画像の色度成分画像との差であり、前記色飽和損失成分は、前記画像強調モデルによって出力された予測画像の色飽和損失成分画像と、対応するターゲット画像の色飽和損失成分画像との差である。
【0126】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、当該トレーニング装置は、図3に示されるトレーニング装置を含み、さらに、同じサンプル画像グループにおけるサンプル画像の撮影シーンは同じであり、異なるサンプル画像グループにおけるサンプル画像の撮影シーンは異なり、
第2決定モジュール302は、さらに、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセルの平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループの各サンプル画像に従って、同じ位置のピクセル加重平均値を計算して、ターゲット画像を取得すること、
サンプル画像グループから、鮮明度が最も高いサンプル画像、第1フレームのサンプル画像または、最後の1フレームのサンプル画像を参照画像として選択し、サンプル画像グループの各サンプル画像に従って特徴点を計算し、前記参照画像に従って前記サンプル画像グループの他のサンプル画像に対して特徴点の位置合わせ操作を実行し、位置合わせ操作の後のサンプル画像に対してマルチフレーム画像融合を実行して、ターゲット画像を取得すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるターゲット画像を決定するように構成され、
前記第2決定モジュールは、さらに、
前記サンプル画像グループを、トレーニング入力画像グループとして使用すること、
前記サンプル画像グループから、サンプル画像の一部を選択して、トレーニング入力画像グループを形成すること、のうちのいずれか1つを使用して、各サンプル画像グループに関連付けられるトレーニング入力画像グループを決定するように構成される。
【0127】
本開示の実施例において、画像強調装置を提供し、当該トレーニング装置は、上記のトレーニング装置および強調処理モジュールを含み、前記強調処理モジュールは、前記トレーニング装置でトレーニングに成功した画像強調モデルを使用して、処理される画像を対して強調処理を実行するように構成される。
【0128】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、前記トレーニング装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、
ここで、前記プロセッサは、前記メモリ内の実行可能な命令を実行して、上記方法のステップを実現するように構成される。
【0129】
本開示の実施例において、画像強調モデルのトレーニング装置を提供し、実行可能命令が記憶される、非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサによって実行される時に、前記方法のステップを実現することを特徴とする。
【0130】
図4は、一例示的な実施例によって示された画像強調モデルのトレーニング装置400のブロック図である。例えば、装置400は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であり得る。
【0131】
図4を参照すると、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)インターフェース412、センサコンポーネント414、及び通信コンポーネント416のうちの1つまたは複数のコンポーネットを含み得る。
【0132】
処理コンポーネント402は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置400の全般的な操作を制御する。処理コンポーネント402は、前記方法のステップのすべてまたは一部を完了するために、1つまたは複数のプロセッサ420を含んで命令を実行することができる。加えて、処理コンポーネント402は、処理コンポーネント402と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント400は、マルチメディアコンポーネント408と処理コンポーネント402との間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
【0133】
メモリ404は、機器400での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置400で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ404は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせで実装することができる。
【0134】
電力コンポーネント406は、装置400の様々なコンポーネントに電力を提供する。電力コンポーネント406は、電力管理システム、1つまたは複数の電源、及び装置400の電力の生成、管理および割り当てに関する他のコンポーネントを含むことができる。
【0135】
マルチメディアコンポーネント408は、前記バッテリの充電装置400とユーザとの間の、出力インターフェースを提供するスクリーンを含む。 いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント408は、1つのフロントカメラ及び/またはリアカメラを含む。機器400が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
【0136】
オーディオコンポーネント410は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を含み、装置400が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ404さらに記憶されてもよく、または通信コンポーネント416を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント410は、さらに、オーディオ信号を出力するためのスピーカを含む。
【0137】
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
【0138】
センサコンポーネント414は、装置400に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント414は、機器400のオン/オフ状態と、装置400のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント414は、さらに、装置400または装置400のコンポーネントの位置の変化、ユーザとの装置400の接触の有無、装置400の向きまたは加速/減速、及び装置400の温度の変化も検出することができる。センサコンポーネット414は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント414は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント414は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
【0139】
通信コンポーネント416は、装置500と他の装置の間の有線または無線通信を容易にするように構成される。装置400は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント416は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント416は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
【0140】
例示的な実施例において、装置400は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現されることができる。
【0141】
例示的な実施例において、さらに、命令を含むメモリ404などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記命令は、装置400のプロセッサ420によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクおよび光学データ記憶装置などであり得る。
【0142】
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本開示の他の実施形態を容易に想到し得るであろう。本願は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
【0143】
本開示は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。
図1
図2
図3
図4