(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-13
(54)【発明の名称】画像フォーマットを変換する方法、装置、電子機器、記憶媒体およびプログラム
(51)【国際特許分類】
G06T 5/00 20060101AFI20230606BHJP
G06V 10/42 20220101ALI20230606BHJP
G06V 10/44 20220101ALI20230606BHJP
G06V 10/82 20220101ALI20230606BHJP
G06T 1/40 20060101ALI20230606BHJP
【FI】
G06T5/00 730
G06V10/42
G06V10/44
G06V10/82
G06T1/40
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022555980
(86)(22)【出願日】2022-01-29
(85)【翻訳文提出日】2022-09-21
(86)【国際出願番号】 CN2022075034
(87)【国際公開番号】W WO2022213716
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】202110372421.7
(32)【優先日】2021-04-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】張 ▲チー▼
(72)【発明者】
【氏名】胡 偉東
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CB01
5B057CB08
5B057CB12
5B057CC02
5B057CC03
5B057CE11
5B057DA17
5B057DB02
5B057DB06
5B057DB09
5B057DC30
5L096AA02
5L096AA06
5L096HA11
5L096MA03
(57)【要約】
本開示は、画像フォーマットを変換する方法等を提供する。この方法の一実施形態は、変換対象のスタンダードダイナミックレンジ画像を取得するステップと、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップと、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップと、ローカル特徴とグローバル特徴とに基づいてスタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップとを含む。当該実施形態では、フォーマット変換を行う際に、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出することにより、取得したグローバル特徴の精度を向上させ、これに基づいて変換されたハイダイナミックレンジ画像の品質を向上させた。
【特許請求の範囲】
【請求項1】
画像フォーマットを変換する方法であって、
変換対象のスタンダードダイナミックレンジ画像を取得するステップと、
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップと、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップと、
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、
を含む方法。
【請求項2】
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を行うステップは、
前記スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するステップを含む請求項1に記載の方法。
【請求項3】
大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するステップを含み、
前記大サイズの平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す、
請求項2に記載の方法。
【請求項4】
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップは、
前記ローカル特徴と前記グローバル特徴とを融合して融合特徴を得るステップと、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、各前記チャネルの注意力に基づいて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得るステップと、
前記重み付けをした特徴に基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、
を含む請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップは、
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いて前記スタンダードダイナミックレンジ画像のローカル特徴を抽出するステップを含み、
前記畳み込み層には少なくとも1つの畳み込み処理が含まれ、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップは、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いて前記スタンダードダイナミックレンジ画像のグローバル特徴を抽出するステップを含み、
前記グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる、
請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するステップをさらに含む、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
画像フォーマットを変換する装置であって、
変換対象のスタンダードダイナミックレンジ画像を取得するように構成されるスタンダードダイナミックレンジ画像取得ユニットと、
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成されるローカル特徴取得ユニットと、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成されるグローバル特徴取得ユニットと、
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成されるハイダイナミックレンジ画像変換ユニットと、
を備える装置。
【請求項8】
前記グローバル特徴取得ユニットは、
前記スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するようにさらに構成される請求項7に記載の装置。
【請求項9】
大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するように構成される最適化処理ユニットをさらに備え、
前記大サイズの平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す、
請求項8に記載の装置。
【請求項10】
前記ハイダイナミックレンジ画像変換ユニットは、
前記ローカル特徴と前記グローバル特徴とを融合して融合特徴を得、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、前記注意力に基づいて各前記チャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得、
前記重み付けをした特徴に基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するようにさらに構成される
請求項7~9のいずれか1項に記載の装置。
【請求項11】
前記ローカル特徴取得ユニットは、
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いて前記スタンダードダイナミックレンジ画像のローカル特徴を抽出するようにさらに構成され、
前記畳み込み層には少なくとも1つの畳み込み処理が含まれ、
前記グローバル特徴取得ユニットは、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いて前記スタンダードダイナミックレンジ画像のグローバル特徴を抽出するようにさらに構成され、
前記グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる、
請求項7~10のいずれか1項に記載の装置。
【請求項12】
前記スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するように構成される映像生成ユニットをさらに備える、
請求項7~11のいずれか1項に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法を実行させる、電子機器。
【請求項14】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は前記コンピュータに請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本開示は、2021年4月7日に提出した、出願番号が202110372421.7で、発明の名称が「画像フォーマットを変換する方法、装置、機器、記憶媒体およびプログラム製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本開示に組み込む。
【0002】
本開示は、人工知能技術分野、特にコンピュータビジョンおよび深層学習の技術分野に関し、知能化センシング、超高解像度のシーンに適用可能であり、特に画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品に関する。
【背景技術】
【0003】
人々の生活の質の向上を追求する傾向が強まる中、多くの人が日常的に視聴するメディアコンテンツの品質に対する要求もますます高まってきている。ハードウェアデバイスの同期的な進歩により、高解像度ビデオ、4Kビデオが多くの人々の家庭に普及した。
【0004】
しかし、現在ほとんどのメディアコンテンツは、依然としてSDR(スタンダードダイナミックレンジ,Standard Dynamic Range)フォーマットしかサポートしていない。SDRフォーマットに比べて、HDR(ハイダイナミックレンジ,High-Dynamic Range)フォーマットは、データ格納ビット数が8bitから10bitに上がっているため、色空間もBT709からBT2020となり、パラメータの改善は、視覚認知の向上に対しは大きいものでありかつ衝撃的なものであった。
【0005】
従来、複数フレームの異なる露出時間に基づくSDR画像再構成HDR画像方式、カメラ応答曲線に基づくSDR画像再構成HDR画像方式および画像分解に基づくSDR画像再構成HDR画像方式といった、SDR形式の画像をHDRに変換する方式がいくつか提案されていた。
【発明の概要】
【0006】
本開示の実施形態は、画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラム製品を提供する。
【0007】
第1の態様によれば、本開示の実施形態は、画像フォーマットを変換する方法であって、変換対象のスタンダードダイナミックレンジ画像を取得するステップと、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップと、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップと、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、を含む方法を提供する。
【0008】
第2の態様によれば、本開示の実施形態は、画像フォーマットを変換する装置であって、変換対象のスタンダードダイナミックレンジ画像を取得するように構成されるスタンダードダイナミックレンジ画像取得ユニットと、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成されるローカル特徴取得ユニットと、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成されるグローバル特徴取得ユニットと、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成されるハイダイナミックレンジ画像変換ユニットと、を備える装置を提供する。
【0009】
第3の態様によれば、本開示の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、当該指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法を実現する電子機器を提供する。
【0010】
第4の態様によれば、本開示の実施形態は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、当該コンピュータ指令は第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
【0011】
第5の態様によれば、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0012】
本開示の実施形態に係る画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム製品は、まず、変換対象のスタンダードダイナミックレンジ画像を取得し、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得、次に、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得、最後に、ローカル特徴とグローバル特徴に基づいてスタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0013】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0014】
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって理解しやすくなる。
【図面の簡単な説明】
【0015】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
【
図1】本開示の適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本開示の実施形態に係る画像フォーマットを変換する方法のフローチャートである。
【
図3】本開示の実施形態に係るもう1つの画像フォーマットを変換する方法のフローチャートである。
【
図4】本開示の実施形態に係るスタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するためのモデルフロー概略図である。
【
図5】本開示の実施形態に係るGL-GConv Resblockの構造概略図である。
【
図6】本開示の実施形態に係るSEBlockの構造概略図である。
【
図7】本開示の実施形態に係る画像フォーマットを変換する装置の構造概略図である。
【
図8】本開示の実施形態に係る画像フォーマットを変換する方法を実行するために適する電子機器の構造概略図である。
【発明を実施するための形態】
【0016】
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。同様に、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。なお、本開示の実施形態および実施形態における特徴は、矛盾が生じない限り、相互に組み合わせることができる。
【0017】
本開示の技術方案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連の法律法規の規定に準拠し、必要な秘密保持措置を採り、且つ公序良俗に反しない。
【0018】
図1は、本開示に係る画像フォーマットを変換する方法、装置、電子機器およびコンピュータ可読記憶媒体の実施形態を適用可能な例示的なシステムアーキテクチャ100を示している。
【0019】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0020】
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103およびサーバ105に両者の間の情報通信を実現するための様々なアプリケーションをインストールすることができ、例えば映像オンデマンドアプリケーション、画像/映像フォーマット変換アプリケーション、インスタントメッセージングアプリケーションなどが挙げられる。
【0021】
端末装置101、102、103およびサーバ105は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、画像表示に適用可能なプロジェクトデバイス、ディスプレイを含む表示デバイスなどを含むがこれらに限定されない、表示画面を備えた様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、上記列挙された電子機器にインストールされることができ、複数のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、これらに限定されない。サーバ105は、ハードウェアである場合、複数のサーバで構成される分散サーバクラスターとして実装されてもよく、単一のサーバとして実装されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールや、単一のソフトウェアまたはソフトウェアモジュールとして実装することができる。これらに限定されない。
【0022】
サーバ105は、組み込まれた様々なアプリケーションを通じて様々なサービスを提供することができ、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に一括変換するサービスを提供する画像フォーマット変換アプリケーションを例にとると、サーバ105は、当該画像フォーマット変換アプリケーションを実行するとき、以下の効果を奏することができる。すなわち、まず、端末装置101、102、103からネットワーク104を介して変換対象のスタンダードダイナミックレンジ画像を取得し、その後、スタンダードダイナミックレンジ画像に対して畳み込み処理を行い、ローカル特徴を取得し、次に、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行し、グローバル特徴を取得し、最後に、ローカル特徴とグローバル特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するという効果を奏することができる。
【0023】
なお、変換対象のスタンダードダイナミックレンジ画像は、端末装置101、102、103からネットワーク104を介して取得できるほか、様々な方法でサーバ105に予めローカルに記憶されていてもよい。したがって、サーバ105がこれらのデータをローカルに格納したことを検出した場合(例えば、前に保存されていた処理対象の画像フォーマット変換タスクの処理を開始するとき)、これらのデータをローカルから直接取得することを選択することができ、この場合、例示的なシステムアーキテクチャ100は、端末装置101、102、103およびネットワーク104を含まなくてもよい。
【0024】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換することは、より多くの演算リソースおよびより強力な演算能力を必要とするので、本開示の後続する各実施形態によって提供される画像フォーマットを変換する方法は、通常より強力な演算能力およびより多くの演算リソースを有するサーバ105によって実行され、相応的に、画像フォーマットを変換する装置も、通常、サーバ105内に設置されている。同時に注意すべきこととして、端末装置101、102、103も要求を満たす演算能力と演算リソースを持っている場合には、端末装置101、102、103もそれにインストールされた画像フォーマット変換アプリケーションによって上記のサーバ105で行われる各演算を完了させ、さらにサーバ105と同様の結果を出力することができる。特に、異なる演算能力を有する端末装置が同時に複数存在する場合には、画像フォーマット変換アプリケーションが実装された端末装置が強い演算能力を有し、かつ、多くの演算リソースが残っていると判断した場合、端末装置に上記演算を実行させることにより、サーバ105の演算負荷を適切に軽減させることができ、それに応じて、画像フォーマットを変換する装置も端末装置101、102、103に設けることもできる。この場合、例示的なシステムアーキテクチャ100は、サーバ105およびネットワーク104を含まなくてもよい。
【0025】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0026】
本開示の実施形態に係る画像フォーマットを変換する方法のフローチャートである
図2を参照する。フロー200は以下のステップを含む。
【0027】
ステップ201では、変換対象のスタンダードダイナミックレンジ画像を取得する。
【0028】
本ステップは、画像フォーマットを変換する方法の実行主体(例えば、
図1に示すサーバ105)が、変換対象のスタンダードダイナミックレンジ画像、すなわち、変換対象形式のSDR画像を取得することを目的とする。具体的には、SDR画像は、SDR映像からフレーム抽出技術により得られたものであってもよいし、そのままSDRフォーマットに従って独立して生成されたものであってもよい。
【0029】
ステップ202では、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得る。
【0030】
ステップ201に基づいて、本ステップは、上記実行主体が、スタンダードダイナミックレンジ画像からそれぞれローカル特徴を抽出することを目的とし、ローカル特徴はスタンダードダイナミックレンジ画像に対して畳み込み処理を実行することによって得られたものである。
【0031】
ここで、畳み込みは、通常、3×3のような固定サイズの畳み込みカーネルを有し、1×1の畳み込みカーネルを例にとると、畳み込み処理は、毎回9個の画素点の画像特徴を畳み込み、1つの画素点に「濃縮」することに相当するので、この処理は通常ダウンサンプリングともいい、またその特性がローカルのみに対するものであるから、本開示では、本ステップで畳み込み処理を実行してローカル特徴を抽出する。具体的には、抽出されたローカル特徴の精度を可能な限り高めるために、当該畳み込み処理の回数は複数回であってもよく、毎回異なるサイズの畳み込みカーネルを用いてもよい。
【0032】
ステップ203では、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得る。
【0033】
ステップ201に基づいて、本ステップは、上記実行主体が、スタンダードダイナミックレンジ画像からそれぞれグローバル特徴を抽出することを目的とし、グローバル特徴はスタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行することによって得られたものである。
【0034】
グローバル平均プーリングは機械学習アルゴリズムに現れる概念であり、その英文がGolbal Average Poolingであり、その一般的な処理としては、特徴マップの全画素値を加算して平均値を求め、対応する特徴マップをその値で表現し、その値により特徴マップ全体の全画素点を統合したものであるので、グローバル特徴をできるだけ表現することができる。
【0035】
なお、ステップ202とステップ203がそれぞれ提供したローカル特徴とグローバル特徴の取得処理の間には因果関係、依存関係が存在しておらず、同時に独立して実行可能であり、
図2に示すフローチャートは単に単純なシリアル実行方式で記述されているにすぎず、必ずしもステップ202が完了した後にステップ203が実行されるようにする必要はない。
【0036】
また、変換環境が機械学習に基づいて構築された画像変換モデルである場合、上記ステップ202は、具体的には、予め設定された画像フォーマット変換モデルにおける畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、畳み込み層には少なくとも1つの畳み込み処理が含まれるとすることができる。ステップ203は、具体的には、予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、グローバル平均プーリング層に少なくとも1つのグローバル平均プーリング処理が含まれるとすることができる。
【0037】
ステップ204では、ローカル特徴とグローバル特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0038】
ステップ202およびステップ203に基づいて、本ステップは、上記実行主体が、抽出されたローカル特徴およびグローバル特徴に基づいて、スタンダードダイナミックレンジ画像からハイダイナミックレンジ画像に欠落している画像の詳細を全方位的に補完することにより、変換されたハイダイナミックレンジ画像の品質をさらに向上させることを目的とする。
【0039】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出する画像フォーマットを変換する方法を提供し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0040】
本開示の実施形態により提供されるもう1つの画像フォーマットを変換する方法のフローチャートである
図3を参照する。フロー300は以下のステップを含む。
【0041】
ステップ301では、変換対象のスタンダードダイナミックレンジ画像を取得する。
【0042】
ステップ302では、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得る。
【0043】
ステップ303では、スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行する。
【0044】
前の実施形態に基づいて、抽出されたグローバル特徴の有効性を可能な限り高めるために、本実施形態では、スタンダードダイナミックレンジ画像に対して、それぞれ少なくとも2つのサイズの異なるグローバル平均プーリング処理を実行し、2つのサイズを例にとると、第1のサイズで実行された後のグローバルプーリング処理は、最終的に、全体の特徴マップの画素の特徴を1つの[1、1]行列として表し、第2のサイズで実行された後のグローバルプーリング処理は、最終的に、正常の特徴マップの画素の特徴を1つの[3、3]行列として表し、すなわち、異なるサイズのグローバル平均プーリング処理によって、異なる程度のグローバル特徴を得るようにする。
【0045】
ステップ304では、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行する。
【0046】
ステップ303に基づいて、本ステップは、上記実行主体が、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行することを目的とし、大サイズの平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す。
【0047】
non-local処理は、local処理とは異なる処理である。stride=1の3×3畳み込みconv処理を行うと、いずれかの出力位置に対して3×3の大きさの隣接領域のみを見ることができ、つまり出力結果はこの3×3の隣接領域のみを考慮すればよい。このconvの受容野receptive fieldのサイズは3であり、これをlocal処理という。non-local処理は、任意の出力位置に対して、その出力結果は全ての位置(入力全体)を考慮に入れることが望まれる。
【0048】
ここで、strideは画像処理で一般的に用いられる概念であり、stride=1画素当たりの占有バイト数(すなわち画素ビット数/8)*Widthであり、strideが4の倍数でなければ、この際のstride=stride+(4-Stride mod 4)となる。
【0049】
すなわち、1×1よりも大きいサイズのグローバル平均プーリング処理の出力に対してnon-local処理を行うことにより、得られたグローバル特性をnon-local処理の特性に基づいてさらに最適化することができる。
【0050】
ステップ305では、ローカル特徴とグローバル特徴とを融合して融合特徴を得る。
【0051】
ステップ306では、チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、各チャネルの注意力に基づいて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得る。
【0052】
ステップ305に基づいて、本ステップは、上記実行主体が、チャネル自己注意メカニズムを導入してニューラルネットワークにおける異なるチャネルの注意力を決定することで、各チャネルの注意力に応じて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得ることを目的とする。すなわち、チャネル自己注意メカニズムを導入することにより、異なるチャネルから出力された融合特徴をよりうまく統合することができる。
【0053】
ステップ307では、重み付けをした特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0054】
フロー200に示す実施形態に基づいて、本実施形態は、ステップ303~ステップ304により好ましいグローバル特徴抽出方式を提供し、すなわち、ステップ303によりサイズの異なるグローバル平均プーリング処理を少なくとも2回実行するだけでなく、さらにサイズの大きいグローバル平均プーリング処理の出力にnon-local処理を追加して実行することで、グローバル特徴をさらに最適化する。さらにステップ305~ステップ307でチャネル自己注意メカニズムを導入することにより、異なるチャネルから出力された融合特徴をその影響力に応じてよりうまく重み付けをし、最終的に変換されるハイダイナミックレンジ画像の品質を向上させることができる。
【0055】
なお、ステップ303は、ステップ303と組み合わせて独立して存在してもよく、ステップ305~307は、必ずしもステップ303、ステップ304、またはステップ303とステップ304の組み合わせを実行した状況下で実行される必要はなく、独立してフロー200に示した実施形態と組み合わせて別の実施形態を形成してもよい。本実施形態は、複数の好ましい実施形態を同時に含む好ましい実施形態としているにすぎない。
【0056】
理解を深めるために、本開示はさらに具体的な応用シーンに合わせて、具体的な実施形態を提供する(
図4~
図6を参照する)。
【0057】
本実施形態では、具体的に画像フォーマット変換モデルによりBT.709色域、8bit YUVのSDR画像を、BT.2020色域、10bit YUVのHDR画像に変換する。
【0058】
この画像フォーマット変換モデルの構成図は
図4に示す。
【0059】
図4の最も左側は、変換対象のSDR画像であり、畳み込み処理を行うための畳み込みモジュールが複数存在し、各畳み込みモジュールで行われる畳み込み処理の対象は、いずれもその前の畳み込みモジュールが行った畳み込み処理の結果、すなわち、畳み込みモデルが重畳的かつ漸進的(progressive)であることがわかる。各層の畳み込みモジュールを介して畳み込み処理を実行した結果は、本開示によって自ら構築したGL-GConv Resblockブロック(GL-G畳み込み残差ブロックと略称することができ、GL-GはGlobal-Local Gatedの略語であり、当該残差ブロックを強調し、特に畳み込み残差ブロックによるグローバル特徴の抽出と処理を強調することを意図する)を介して処理され、当該GL-G畳み込み残差ブロックは、従来の残差ネットワークにおける標準畳み込み残差ブロックに基づいて改善して得られたものである。
【0060】
GL-G畳み込み残差ブロック処理された後、ローカル特徴とグローバル特徴を得ることができ、アップサンプリングモジュールにより最終的にHDRを生成するための画像を絶えずに集める。
【0061】
具体的には、GL-G畳み込み残差ブロックの内部構造は、
図5に示した構造概略図を見ることができるが、
図5に示す構造のコアは、入力データがそれぞれ最下層の畳み込み処理による分岐、それぞれサイズが1と3のグローバル平均プーリング(GAP)処理による分岐の三分岐構造であり、このうちサイズが3のグローバル平均プーリング処理の後にnon-local処理を追加してグローバル特性をさらに最適化し、その後のExpandは、濃縮されたグローバル特徴を入力データのサイズと同じサイズに拡張する。最終的には、畳み込み処理とReluの活性化関数を介して出力を得た。
【0062】
また、
図4の一番下方では、GL-G畳み込み処理、Relu活性化関数、GL-G畳み込み処理、SEBlockモジュールを順次に経た、GL-G畳み込み残差ブロックの出力の後続する処理方法を示している。当該SEBlockモジュールは、上述のチャネル自己注意メカニズムのモジュール化された表現であり、各階層に当該チャネル自己注意モジュールが存在するので、当該モジュールは、決定された現在のチャネルの注意力を上の階層にまとめて送り、異なるチャネル間のデータの融合をガイドする。
【0063】
SEBlockモジュールの具体的な構造は
図6に示す構造概略図を参照することができ、ここで、Global poolingはグローバルプーリング処理を指し、FC(Fully Connected layer)は全結合層であり、ReluとSigmoldはそれぞれ2つの異なる活性化関数であり、Reluは浅層のニューラルネットワークに適用され、Sigmoldは深層のニューラルネットワークに適用される。
【0064】
また、
図4に示す単分岐ネットワークに基づくモデルの設計は、全体的なモデル性能をより向上させることができ、テストによると、0.3秒以内に1080p画像のSDRからHDRへの変換を完了させることができ、単分岐ネットワークは、大きなpatchsize(1080Pの画像は直接入力可能)のトレーニングをサポートすることができ、グローバル特徴の捕獲しおよび学習により有利である。しかし、従来の多分岐ネットワークは複雑すぎるため、入力画像をスライスし、スライスごとに入力(例えば、1080pの画像を36個の160*160の画像に分割する)する必要があるため、所要時間が長くなってしまう。
【0065】
更に
図7を参照すると、上記の各図に示された方法の実施態様として、本開示は、画像フォーマットを変換する装置の一実施形態を提供し、当該装置の実施形態は
図2に示された方法の実施形態に対応し、当該装置は具体的に様々な電子機器に適用することができる。
【0066】
図7に示すように、本実施形態の画像フォーマットを変換する装置700は、スタンダードダイナミックレンジ画像取得ユニット701と、ローカル特徴取得ユニット702と、グローバル特徴取得ユニット703と、ハイダイナミックレンジ画像変換ユニット704とを備えてもよい。このうち、スタンダードダイナミックレンジ画像取得ユニット701は、変換対象のスタンダードダイナミックレンジ画像を取得するように構成される。ローカル特徴取得ユニット702は、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成される。グローバル特徴取得ユニット703は、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成される。ハイダイナミックレンジ画像変換ユニット704は、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成される。
【0067】
本実施形態において、画像フォーマットを変換する装置700におけるスタンダードダイナミックレンジ画像取得ユニット701と、ローカル特徴取得ユニット702と、グローバル特徴取得ユニット703と、ハイダイナミックレンジ画像変換ユニット704の具体的な処理およびそれらによって奏される技術的効果はそれぞれ
図2の対応する実施形態におけるステップ201~204の関連する説明を参照することができ、ここで説明を省略する。
【0068】
本実施形態のいくつかのオプション的な実施形態において、グローバル特徴取得ユニット703は、さらにスタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するように構成される。
【0069】
本実施形態のいくつかのオプション的な実施形態において、画像フォーマットを変換する装置700は、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するように構成される最適化処理ユニットをさらに備え、ここで、大サイズの平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す。
【0070】
本実施形態のいくつかのオプション的な実施形態において、ハイダイナミックレンジ画像変換ユニット704は、
ローカル特徴とグローバル特徴を融合して融合特徴を得、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、注意力に基づいて各チャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得、
重み付けをした特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するようにさらに構成されてもよい。
【0071】
本実施形態のいくつかのオプション的な実施形態において、ローカル特徴取得ユニット702は、さらに
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出するように構成されてもよく、畳み込み層には少なくとも1つの畳み込み処理が含まれ、
グローバル特徴取得ユニット703は、さらに、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出するように構成されてもよく、グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる。
【0072】
本実施形態のいくつかのオプション的な実施形態において、スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、画像フォーマットを変換する装置700は、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するように構成される映像生成ユニットをさらに備えてもよい。
【0073】
本実施形態は、上述した方法の実施形態に対応する装置の実施形態として存在する。
【0074】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出する画像フォーマットを変換する装置を提供し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0075】
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
【0076】
図8は、本開示の実施形態を実施するために使用できる例示的な電子機器800の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。また、電子機器は、画像を表示するプロジェクトデバイスおよび、ディスプレイを含む表示装置であってもよい。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
【0077】
図8に示すように、電子機器800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット801を備える。RAM803には、機器800の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット801、ROM802およびRAM803は、バス804を介して互いに接続されている。入/出力(I/O)インターフェース805もバス804に接続されている。
【0078】
電子機器800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット809とを含む複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0079】
計算ユニット801は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した画像フォーマットを変換する方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、画像フォーマットを変換する方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して電子機器800にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述の画像フォーマットを変換する方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット801は、他の任意の適切な形態によって(例えば、ファームウェアを介して)、画像フォーマットを変換する方法を実行するように構成されていてもよい。
【0080】
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
【0081】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0082】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0083】
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0084】
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0085】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS,Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決する。
【0086】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態による技術案は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像のグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0087】
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0088】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱することなく行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。
【手続補正書】
【提出日】2022-09-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像フォーマットを変換する方法であって、
変換対象のスタンダードダイナミックレンジ画像を取得するステップと、
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップと、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップと、
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、
を含む方法。
【請求項2】
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を行うステップは、
前記スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するステップを含む請求項1に記載の方法。
【請求項3】
大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するステップを含み、
前記大サイズの
グローバル平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す、
請求項2に記載の方法。
【請求項4】
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップは、
前記ローカル特徴と前記グローバル特徴とを融合して融合特徴を得るステップと、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、各前記チャネルの注意力に基づいて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得るステップと、
前記重み付けをした特徴に基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、
を含む請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップは、
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いて前記スタンダードダイナミックレンジ画像のローカル特徴を抽出するステップを含み、
前記畳み込み層には少なくとも1つの畳み込み処理が含まれ、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップは、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いて前記スタンダードダイナミックレンジ画像のグローバル特徴を抽出するステップを含み、
前記グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる、
請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するステップをさらに含む、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
画像フォーマットを変換する装置であって、
変換対象のスタンダードダイナミックレンジ画像を取得するように構成されるスタンダードダイナミックレンジ画像取得ユニットと、
前記スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成されるローカル特徴取得ユニットと、
前記スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成されるグローバル特徴取得ユニットと、
前記ローカル特徴と前記グローバル特徴とに基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成されるハイダイナミックレンジ画像変換ユニットと、
を備える装置。
【請求項8】
前記グローバル特徴取得ユニットは、
前記スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するようにさらに構成される請求項7に記載の装置。
【請求項9】
大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するように構成される最適化処理ユニットをさらに備え、
前記大サイズの
グローバル平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す、
請求項8に記載の装置。
【請求項10】
前記ハイダイナミックレンジ画像変換ユニットは、
前記ローカル特徴と前記グローバル特徴とを融合して融合特徴を得、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、前記注意力に基づいて各前記チャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得、
前記重み付けをした特徴に基づいて、前記スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するようにさらに構成される
請求項7~9のいずれか1項に記載の装置。
【請求項11】
前記ローカル特徴取得ユニットは、
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いて前記スタンダードダイナミックレンジ画像のローカル特徴を抽出するようにさらに構成され、
前記畳み込み層には少なくとも1つの畳み込み処理が含まれ、
前記グローバル特徴取得ユニットは、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いて前記スタンダードダイナミックレンジ画像のグローバル特徴を抽出するようにさらに構成され、
前記グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる、
請求項7~10のいずれか1項に記載の装置。
【請求項12】
前記スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するように構成される映像生成ユニットをさらに備える、
請求項7~11のいずれか1項に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法を実行させる、電子機器。
【請求項14】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令
はコンピュータに請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の画像フォーマットを変換する方法が実現されるコンピュータプログラ
ム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本開示は、2021年4月7日に提出した、出願番号が202110372421.7で、発明の名称が「画像フォーマットを変換する方法、装置、機器、記憶媒体およびプログラム製品」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本開示に組み込む。
【0002】
本開示は、人工知能技術分野、特にコンピュータビジョンおよび深層学習の技術分野に関し、知能化センシング、超高解像度のシーンに適用可能であり、特に画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0003】
人々の生活の質の向上を追求する傾向が強まる中、多くの人が日常的に視聴するメディアコンテンツの品質に対する要求もますます高まってきている。ハードウェアデバイスの同期的な進歩により、高解像度ビデオ、4Kビデオが多くの人々の家庭に普及した。
【0004】
しかし、現在ほとんどのメディアコンテンツは、依然としてSDR(スタンダードダイナミックレンジ,Standard Dynamic Range)フォーマットしかサポートしていない。SDRフォーマットに比べて、HDR(ハイダイナミックレンジ,High-Dynamic Range)フォーマットは、データ格納ビット数が8bitから10bitに上がっているため、色空間もBT709からBT2020となり、パラメータの改善は、視覚認知の向上に対しは大きいものでありかつ衝撃的なものであった。
【0005】
従来、複数フレームの異なる露出時間に基づくSDR画像再構成HDR画像方式、カメラ応答曲線に基づくSDR画像再構成HDR画像方式および画像分解に基づくSDR画像再構成HDR画像方式といった、SDR形式の画像をHDRに変換する方式がいくつか提案されていた。
【発明の概要】
【0006】
本開示の実施形態は、画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。
【0007】
第1の態様によれば、本開示の実施形態は、画像フォーマットを変換する方法であって、変換対象のスタンダードダイナミックレンジ画像を取得するステップと、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るステップと、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るステップと、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するステップと、を含む方法を提供する。
【0008】
第2の態様によれば、本開示の実施形態は、画像フォーマットを変換する装置であって、変換対象のスタンダードダイナミックレンジ画像を取得するように構成されるスタンダードダイナミックレンジ画像取得ユニットと、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成されるローカル特徴取得ユニットと、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成されるグローバル特徴取得ユニットと、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成されるハイダイナミックレンジ画像変換ユニットと、を備える装置を提供する。
【0009】
第3の態様によれば、本開示の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、当該指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法を実現する電子機器を提供する。
【0010】
第4の態様によれば、本開示の実施形態は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、当該コンピュータ指令は第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
【0011】
第5の態様によれば、本開示の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の画像フォーマットを変換する方法が実現されるコンピュータプログラムを提供する。
【0012】
本開示の実施形態に係る画像フォーマットを変換する方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムは、まず、変換対象のスタンダードダイナミックレンジ画像を取得し、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得、次に、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得、最後に、ローカル特徴とグローバル特徴に基づいてスタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0013】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0014】
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもないことを理解すべきである。本開示の他の特徴は、以下の説明によって理解しやすくなる。
【図面の簡単な説明】
【0015】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
【
図1】本開示の適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本開示の実施形態に係る画像フォーマットを変換する方法のフローチャートである。
【
図3】本開示の実施形態に係るもう1つの画像フォーマットを変換する方法のフローチャートである。
【
図4】本開示の実施形態に係るスタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するためのモデルフロー概略図である。
【
図5】本開示の実施形態に係るGL-GConv Resblockの構造概略図である。
【
図6】本開示の実施形態に係るSEBlockの構造概略図である。
【
図7】本開示の実施形態に係る画像フォーマットを変換する装置の構造概略図である。
【
図8】本開示の実施形態に係る画像フォーマットを変換する方法を実行するために適する電子機器の構造概略図である。
【発明を実施するための形態】
【0016】
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。同様に、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。なお、本開示の実施形態および実施形態における特徴は、矛盾が生じない限り、相互に組み合わせることができる。
【0017】
本開示の技術方案では、関連するユーザ個人情報の取得、記憶および応用などは、いずれも関連の法律法規の規定に準拠し、必要な秘密保持措置を採り、且つ公序良俗に反しない。
【0018】
図1は、本開示に係る画像フォーマットを変換する方法、装置、電子機器およびコンピュータ可読記憶媒体の実施形態を適用可能な例示的なシステムアーキテクチャ100を示している。
【0019】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0020】
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103およびサーバ105に両者の間の情報通信を実現するための様々なアプリケーションをインストールすることができ、例えば映像オンデマンドアプリケーション、画像/映像フォーマット変換アプリケーション、インスタントメッセージングアプリケーションなどが挙げられる。
【0021】
端末装置101、102、103およびサーバ105は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、画像表示に適用可能なプロジェクトデバイス、ディスプレイを含む表示デバイスなどを含むがこれらに限定されない、表示画面を備えた様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、上記列挙された電子機器にインストールされることができ、複数のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよく、これらに限定されない。サーバ105は、ハードウェアである場合、複数のサーバで構成される分散サーバクラスターとして実装されてもよく、単一のサーバとして実装されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールや、単一のソフトウェアまたはソフトウェアモジュールとして実装することができる。これらに限定されない。
【0022】
サーバ105は、組み込まれた様々なアプリケーションを通じて様々なサービスを提供することができ、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に一括変換するサービスを提供する画像フォーマット変換アプリケーションを例にとると、サーバ105は、当該画像フォーマット変換アプリケーションを実行するとき、以下の効果を奏することができる。すなわち、まず、端末装置101、102、103からネットワーク104を介して変換対象のスタンダードダイナミックレンジ画像を取得し、その後、スタンダードダイナミックレンジ画像に対して畳み込み処理を行い、ローカル特徴を取得し、次に、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行し、グローバル特徴を取得し、最後に、ローカル特徴とグローバル特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するという効果を奏することができる。
【0023】
なお、変換対象のスタンダードダイナミックレンジ画像は、端末装置101、102、103からネットワーク104を介して取得できるほか、様々な方法でサーバ105に予めローカルに記憶されていてもよい。したがって、サーバ105がこれらのデータをローカルに格納したことを検出した場合(例えば、前に保存されていた処理対象の画像フォーマット変換タスクの処理を開始するとき)、これらのデータをローカルから直接取得することを選択することができ、この場合、例示的なシステムアーキテクチャ100は、端末装置101、102、103およびネットワーク104を含まなくてもよい。
【0024】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換することは、より多くの演算リソースおよびより強力な演算能力を必要とするので、本開示の後続する各実施形態によって提供される画像フォーマットを変換する方法は、通常より強力な演算能力およびより多くの演算リソースを有するサーバ105によって実行され、相応的に、画像フォーマットを変換する装置も、通常、サーバ105内に設置されている。同時に注意すべきこととして、端末装置101、102、103も要求を満たす演算能力と演算リソースを持っている場合には、端末装置101、102、103もそれにインストールされた画像フォーマット変換アプリケーションによって上記のサーバ105で行われる各演算を完了させ、さらにサーバ105と同様の結果を出力することができる。特に、異なる演算能力を有する端末装置が同時に複数存在する場合には、画像フォーマット変換アプリケーションが実装された端末装置が強い演算能力を有し、かつ、多くの演算リソースが残っていると判断した場合、端末装置に上記演算を実行させることにより、サーバ105の演算負荷を適切に軽減させることができ、それに応じて、画像フォーマットを変換する装置も端末装置101、102、103に設けることもできる。この場合、例示的なシステムアーキテクチャ100は、サーバ105およびネットワーク104を含まなくてもよい。
【0025】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0026】
本開示の実施形態に係る画像フォーマットを変換する方法のフローチャートである
図2を参照する。フロー200は以下のステップを含む。
【0027】
ステップ201では、変換対象のスタンダードダイナミックレンジ画像を取得する。
【0028】
本ステップは、画像フォーマットを変換する方法の実行主体(例えば、
図1に示すサーバ105)が、変換対象のスタンダードダイナミックレンジ画像、すなわち、変換対象形式のSDR画像を取得することを目的とする。具体的には、SDR画像は、SDR映像からフレーム抽出技術により得られたものであってもよいし、そのままSDRフォーマットに従って独立して生成されたものであってもよい。
【0029】
ステップ202では、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得る。
【0030】
ステップ201に基づいて、本ステップは、上記実行主体が、スタンダードダイナミックレンジ画像からそれぞれローカル特徴を抽出することを目的とし、ローカル特徴はスタンダードダイナミックレンジ画像に対して畳み込み処理を実行することによって得られたものである。
【0031】
ここで、畳み込みは、通常、3×3のような固定サイズの畳み込みカーネルを有し、1×1の畳み込みカーネルを例にとると、畳み込み処理は、毎回9個の画素点の画像特徴を畳み込み、1つの画素点に「濃縮」することに相当するので、この処理は通常ダウンサンプリングともいい、またその特性がローカルのみに対するものであるから、本開示では、本ステップで畳み込み処理を実行してローカル特徴を抽出する。具体的には、抽出されたローカル特徴の精度を可能な限り高めるために、当該畳み込み処理の回数は複数回であってもよく、毎回異なるサイズの畳み込みカーネルを用いてもよい。
【0032】
ステップ203では、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得る。
【0033】
ステップ201に基づいて、本ステップは、上記実行主体が、スタンダードダイナミックレンジ画像からそれぞれグローバル特徴を抽出することを目的とし、グローバル特徴はスタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行することによって得られたものである。
【0034】
グローバル平均プーリングは機械学習アルゴリズムに現れる概念であり、その英文がGolbal Average Poolingであり、その一般的な処理としては、特徴マップの全画素値を加算して平均値を求め、対応する特徴マップをその値で表現し、その値により特徴マップ全体の全画素点を統合したものであるので、グローバル特徴をできるだけ表現することができる。
【0035】
なお、ステップ202とステップ203がそれぞれ提供したローカル特徴とグローバル特徴の取得処理の間には因果関係、依存関係が存在しておらず、同時に独立して実行可能であり、
図2に示すフローチャートは単に単純なシリアル実行方式で記述されているにすぎず、必ずしもステップ202が完了した後にステップ203が実行されるようにする必要はない。
【0036】
また、変換環境が機械学習に基づいて構築された画像変換モデルである場合、上記ステップ202は、具体的には、予め設定された画像フォーマット変換モデルにおける畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、畳み込み層には少なくとも1つの畳み込み処理が含まれるとすることができる。ステップ203は、具体的には、予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、グローバル平均プーリング層に少なくとも1つのグローバル平均プーリング処理が含まれるとすることができる。
【0037】
ステップ204では、ローカル特徴とグローバル特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0038】
ステップ202およびステップ203に基づいて、本ステップは、上記実行主体が、抽出されたローカル特徴およびグローバル特徴に基づいて、スタンダードダイナミックレンジ画像からハイダイナミックレンジ画像に欠落している画像の詳細を全方位的に補完することにより、変換されたハイダイナミックレンジ画像の品質をさらに向上させることを目的とする。
【0039】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出する画像フォーマットを変換する方法を提供し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0040】
本開示の実施形態により提供されるもう1つの画像フォーマットを変換する方法のフローチャートである
図3を参照する。フロー300は以下のステップを含む。
【0041】
ステップ301では、変換対象のスタンダードダイナミックレンジ画像を取得する。
【0042】
ステップ302では、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得る。
【0043】
ステップ303では、スタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行する。
【0044】
前の実施形態に基づいて、抽出されたグローバル特徴の有効性を可能な限り高めるために、本実施形態では、スタンダードダイナミックレンジ画像に対して、それぞれ少なくとも2つのサイズの異なるグローバル平均プーリング処理を実行し、2つのサイズを例にとると、第1のサイズで実行された後のグローバルプーリング処理は、最終的に、全体の特徴マップの画素の特徴を1つの[1、1]行列として表し、第2のサイズで実行された後のグローバルプーリング処理は、最終的に、正常の特徴マップの画素の特徴を1つの[3、3]行列として表し、すなわち、異なるサイズのグローバル平均プーリング処理によって、異なる程度のグローバル特徴を得るようにする。
【0045】
ステップ304では、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行する。
【0046】
ステップ303に基づいて、本ステップは、上記実行主体が、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行することを目的とし、大サイズのグローバル平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す。
【0047】
non-local処理は、local処理とは異なる処理である。stride=1の3×3畳み込みconv処理を行うと、いずれかの出力位置に対して3×3の大きさの隣接領域のみを見ることができ、つまり出力結果はこの3×3の隣接領域のみを考慮すればよい。このconvの受容野receptive fieldのサイズは3であり、これをlocal処理という。non-local処理は、任意の出力位置に対して、その出力結果は全ての位置(入力全体)を考慮に入れることが望まれる。
【0048】
ここで、strideは画像処理で一般的に用いられる概念であり、stride=1画素当たりの占有バイト数(すなわち画素ビット数/8)*Widthであり、strideが4の倍数でなければ、この際のstride=stride+(4-Stride mod 4)となる。
【0049】
すなわち、1×1よりも大きいサイズのグローバル平均プーリング処理の出力に対してnon-local処理を行うことにより、得られたグローバル特性をnon-local処理の特性に基づいてさらに最適化することができる。
【0050】
ステップ305では、ローカル特徴とグローバル特徴とを融合して融合特徴を得る。
【0051】
ステップ306では、チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、各チャネルの注意力に基づいて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得る。
【0052】
ステップ305に基づいて、本ステップは、上記実行主体が、チャネル自己注意メカニズムを導入してニューラルネットワークにおける異なるチャネルの注意力を決定することで、各チャネルの注意力に応じて、対応するチャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得ることを目的とする。すなわち、チャネル自己注意メカニズムを導入することにより、異なるチャネルから出力された融合特徴をよりうまく統合することができる。
【0053】
ステップ307では、重み付けをした特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する。
【0054】
フロー200に示す実施形態に基づいて、本実施形態は、ステップ303~ステップ304により好ましいグローバル特徴抽出方式を提供し、すなわち、ステップ303によりサイズの異なるグローバル平均プーリング処理を少なくとも2回実行するだけでなく、さらにサイズの大きいグローバル平均プーリング処理の出力にnon-local処理を追加して実行することで、グローバル特徴をさらに最適化する。さらにステップ305~ステップ307でチャネル自己注意メカニズムを導入することにより、異なるチャネルから出力された融合特徴をその影響力に応じてよりうまく重み付けをし、最終的に変換されるハイダイナミックレンジ画像の品質を向上させることができる。
【0055】
なお、ステップ303は、ステップ304と組み合わせて独立して存在してもよく、ステップ305~307は、必ずしもステップ303、ステップ304、またはステップ303とステップ304の組み合わせを実行した状況下で実行される必要はなく、独立してフロー200に示した実施形態と組み合わせて別の実施形態を形成してもよい。本実施形態は、複数の好ましい実施形態を同時に含む好ましい実施形態としているにすぎない。
【0056】
理解を深めるために、本開示はさらに具体的な応用シーンに合わせて、具体的な実施形態を提供する(
図4~
図6を参照する)。
【0057】
本実施形態では、具体的に画像フォーマット変換モデルによりBT.709色域、8bit YUVのSDR画像を、BT.2020色域、10bit YUVのHDR画像に変換する。
【0058】
この画像フォーマット変換モデルの構成図は
図4に示す。
【0059】
図4の最も左側は、変換対象のSDR画像であり、畳み込み処理を行うための畳み込みモジュールが複数存在し、各畳み込みモジュールで行われる畳み込み処理の対象は、いずれもその前の畳み込みモジュールが行った畳み込み処理の結果、すなわち、畳み込みモデルが重畳的かつ漸進的(progressive)であることがわかる。各層の畳み込みモジュールを介して畳み込み処理を実行した結果は、本開示によって自ら構築したGL-GConv Resblockブロック(GL-G畳み込み残差ブロックと略称することができ、GL-GはGlobal-Local Gatedの略語であり、当該残差ブロックを強調し、特に畳み込み残差ブロックによるグローバル特徴の抽出と処理を強調することを意図する)を介して処理され、当該GL-G畳み込み残差ブロックは、従来の残差ネットワークにおける標準畳み込み残差ブロックに基づいて改善して得られたものである。
【0060】
GL-G畳み込み残差ブロック処理された後、ローカル特徴とグローバル特徴を得ることができ、アップサンプリングモジュールにより最終的にHDRを生成するための画像を絶えずに集める。
【0061】
具体的には、GL-G畳み込み残差ブロックの内部構造は、
図5に示した構造概略図を見ることができるが、
図5に示す構造のコアは、入力データがそれぞれ最下層の畳み込み処理による分岐、それぞれサイズが1と3のグローバル平均プーリング(GAP)処理による分岐の三分岐構造であり、このうちサイズが3のグローバル平均プーリング処理の後にnon-local処理を追加してグローバル特性をさらに最適化し、その後のExpandは、濃縮されたグローバル特徴を入力データのサイズと同じサイズに拡張する。最終的には、畳み込み処理とReluの活性化関数を介して出力を得た。
【0062】
また、
図4の一番下方では、GL-G畳み込み処理、Relu活性化関数、GL-G畳み込み処理、SEBlockモジュールを順次に経た、GL-G畳み込み残差ブロックの出力の後続する処理方法を示している。当該SEBlockモジュールは、上述のチャネル自己注意メカニズムのモジュール化された表現であり、各階層に当該チャネル自己注意モジュールが存在するので、当該モジュールは、決定された現在のチャネルの注意力を上の階層にまとめて送り、異なるチャネル間のデータの融合をガイドする。
【0063】
SEBlockモジュールの具体的な構造は
図6に示す構造概略図を参照することができ、ここで、Global poolingはグローバルプーリング処理を指し、FC(Fully Connected layer)は全結合層であり、ReluとSigmoldはそれぞれ2つの異なる活性化関数であり、Reluは浅層のニューラルネットワークに適用され、Sigmoldは深層のニューラルネットワークに適用される。
【0064】
また、
図4に示す単分岐ネットワークに基づくモデルの設計は、全体的なモデル性能をより向上させることができ、テストによると、0.3秒以内に1080p画像のSDRからHDRへの変換を完了させることができ、単分岐ネットワークは、大きなpatchsize(1080Pの画像は直接入力可能)のトレーニングをサポートすることができ、グローバル特徴の捕獲しおよび学習により有利である。しかし、従来の多分岐ネットワークは複雑すぎるため、入力画像をスライスし、スライスごとに入力(例えば、1080pの画像を36個の160*160の画像に分割する)する必要があるため、所要時間が長くなってしまう。
【0065】
更に
図7を参照すると、上記の各図に示された方法の実施態様として、本開示は、画像フォーマットを変換する装置の一実施形態を提供し、当該装置の実施形態は
図2に示された方法の実施形態に対応し、当該装置は具体的に様々な電子機器に適用することができる。
【0066】
図7に示すように、本実施形態の画像フォーマットを変換する装置700は、スタンダードダイナミックレンジ画像取得ユニット701と、ローカル特徴取得ユニット702と、グローバル特徴取得ユニット703と、ハイダイナミックレンジ画像変換ユニット704とを備えてもよい。このうち、スタンダードダイナミックレンジ画像取得ユニット701は、変換対象のスタンダードダイナミックレンジ画像を取得するように構成される。ローカル特徴取得ユニット702は、スタンダードダイナミックレンジ画像に対して畳み込み処理を実行してローカル特徴を得るように構成される。グローバル特徴取得ユニット703は、スタンダードダイナミックレンジ画像に対してグローバル平均プーリング処理を実行してグローバル特徴を得るように構成される。ハイダイナミックレンジ画像変換ユニット704は、ローカル特徴とグローバル特徴とに基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するように構成される。
【0067】
本実施形態において、画像フォーマットを変換する装置700におけるスタンダードダイナミックレンジ画像取得ユニット701と、ローカル特徴取得ユニット702と、グローバル特徴取得ユニット703と、ハイダイナミックレンジ画像変換ユニット704の具体的な処理およびそれらによって奏される技術的効果はそれぞれ
図2の対応する実施形態におけるステップ201~204の関連する説明を参照することができ、ここで説明を省略する。
【0068】
本実施形態のいくつかのオプション的な実施形態において、グローバル特徴取得ユニット703は、さらにスタンダードダイナミックレンジ画像に対してサイズの異なる少なくとも2つのグローバル平均プーリング処理をそれぞれ実行するように構成される。
【0069】
本実施形態のいくつかのオプション的な実施形態において、画像フォーマットを変換する装置700は、大サイズのグローバル平均プーリング処理を実行した後の出力に対してnon-local処理を実行するように構成される最適化処理ユニットをさらに備え、ここで、大サイズのグローバル平均プーリング処理は、グローバル平均プーリング処理のサイズが1×1より大きいことを指す。
【0070】
本実施形態のいくつかのオプション的な実施形態において、ハイダイナミックレンジ画像変換ユニット704は、
ローカル特徴とグローバル特徴を融合して融合特徴を得、
チャネル自己注意メカニズムを用いて異なるチャネルの注意力を決定し、注意力に基づいて各チャネルから出力された融合特徴に重み付けを行い、重み付けをした特徴を得、
重み付けをした特徴に基づいて、スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換するようにさらに構成されてもよい。
【0071】
本実施形態のいくつかのオプション的な実施形態において、ローカル特徴取得ユニット702は、さらに
予め設定された画像フォーマット変換モデルにおける畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出するように構成されてもよく、畳み込み層には少なくとも1つの畳み込み処理が含まれ、
グローバル特徴取得ユニット703は、さらに、
予め設定された画像フォーマット変換モデルにおけるグローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出するように構成されてもよく、グローバル平均プーリング層には、少なくとも1つのグローバル平均プーリング処理が含まれる。
【0072】
本実施形態のいくつかのオプション的な実施形態において、スタンダードダイナミックレンジ画像がスタンダードダイナミックレンジ映像から抽出される場合、画像フォーマットを変換する装置700は、
連続するハイダイナミックレンジ画像に基づいてハイダイナミックレンジ映像を生成するように構成される映像生成ユニットをさらに備えてもよい。
【0073】
本実施形態は、上述した方法の実施形態に対応する装置の実施形態として存在する。
【0074】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出する画像フォーマットを変換する装置を提供し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像からグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0075】
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
【0076】
図8は、本開示の実施形態を実施するために使用できる例示的な電子機器800の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。また、電子機器は、画像を表示するプロジェクトデバイスおよび、ディスプレイを含む表示装置であってもよい。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
【0077】
図8に示すように、電子機器800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット801を備える。RAM803には、機器800の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット801、ROM802およびRAM803は、バス804を介して互いに接続されている。入/出力(I/O)インターフェース805もバス804に接続されている。
【0078】
電子機器800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット809とを含む複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、電子機器800がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0079】
計算ユニット801は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット801のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した画像フォーマットを変換する方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、画像フォーマットを変換する方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して電子機器800にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM803にロードされ、計算ユニット801によって実行されると、上述の画像フォーマットを変換する方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット801は、他の任意の適切な形態によって(例えば、ファームウェアを介して)、画像フォーマットを変換する方法を実行するように構成されていてもよい。
【0080】
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
【0081】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0082】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0083】
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0084】
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0085】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS,Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決する。
【0086】
スタンダードダイナミックレンジ画像をハイダイナミックレンジ画像に変換する従来技術とは異なり、本開示の実施形態による技術案は、畳み込み層を用いてスタンダードダイナミックレンジ画像のローカル特徴を抽出し、グローバル平均プーリング層を用いてスタンダードダイナミックレンジ画像のグローバル特徴を抽出し、独立したグローバル平均プーリング層を介してスタンダードダイナミックレンジ画像のグローバル特徴を直接抽出するので、より高精度なグローバル特徴を抽出することができ、さらに、より正確な補足に基づいてハイダイナミックレンジ画像に必要な画面詳細を得ることができ、変換されたハイダイナミックレンジ画像の品質を向上させることができる。
【0087】
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0088】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱することなく行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。
【国際調査報告】