IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー インタラクティブ エンタテインメント ドイチュラント ゲーエムベーハーの特許一覧 ▶ ソニー コンピュータ エンタテインメント ヨーロッパ リミテッドの特許一覧

特開2025-10060ニューラル符号化および復号化方法および装置
<>
  • 特開-ニューラル符号化および復号化方法および装置 図1
  • 特開-ニューラル符号化および復号化方法および装置 図2
  • 特開-ニューラル符号化および復号化方法および装置 図3
  • 特開-ニューラル符号化および復号化方法および装置 図4
  • 特開-ニューラル符号化および復号化方法および装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025010060
(43)【公開日】2025-01-20
(54)【発明の名称】ニューラル符号化および復号化方法および装置
(51)【国際特許分類】
   H04N 19/90 20140101AFI20250109BHJP
【FI】
H04N19/90
【審査請求】未請求
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024105929
(22)【出願日】2024-07-01
(31)【優先権主張番号】2309991.4
(32)【優先日】2023-06-30
(33)【優先権主張国・地域又は機関】GB
(71)【出願人】
【識別番号】524248980
【氏名又は名称】ソニー インタラクティブ エンタテインメント ドイチュラント ゲーエムベーハー
(71)【出願人】
【識別番号】506379415
【氏名又は名称】ソニー インタラクティブ エンタテインメント ヨーロッパ リミテッド
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】マルコス コンデ
(72)【発明者】
【氏名】アンドリュー ジェイムズ ビゴス
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA00
(57)【要約】      (修正有)
【課題】より効率的に画像を符号化するニューラル符号化方法および復号化方法並びに画像符号化装置、画像復号化装置及び非一過性の機械可読媒体を提供する。
【解決手段】画像符号化方法は、画像に関するピクセルデータを出力するように、ニューラルネットワークを訓練するステップと、訓練されたニューラルネットワークを画像の符号化表現として出力するステップと、を含む。画像復号化方法は、画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信するステップと、画像のピクセルデータを出力するように、訓練されたニューラルネットワークを促すステップと、を含む。
【選択図】図4
【特許請求の範囲】
【請求項1】
画像符号化方法であって、
画像に関するピクセルデータを出力するように、ニューラルネットワークを訓練するステップと、
訓練されたニューラルネットワークを前記画像の符号化表現として出力するステップと、
を含むことを特徴とする方法。
【請求項2】
前記ニューラルネットワークは、
前記画像の位置座標を受信するための入力と、
前記位置座標におけるピクセルのカラー値を提供する出力と、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークは、受信した位置座標に対応するプロンプト画像のピクセルのカラー値を受信するための入力をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記プロンプト画像は、
i.前記画像の直前の画像、または
ii.前記画像に最も類似した画像として一般的な画像のセットから選択された画像
であることを特徴とする請求項3に記載の方法。
【請求項5】
前記プロンプト画像のピクセルのカラー値として受信されるカラー値は、前記画像と前記プロンプト画像との間の画像間運動に対応する量だけ、受信された位置座標からオフセットされたピクセルのカラー値であることを特徴とする請求項3に記載の方法。
【請求項6】
前記ニューラルネットワークは、
前記画像の位置座標を受信する入力と、
受信した位置座標におけるピクセルのグループのカラー値を提供する出力と、
を含み、
前記グループは、前記画像の全体よりも小さいことを特徴とする請求項2から5のいずれかに記載の方法。
【請求項7】
前記ニューラルネットワークは、
前記画像の位置座標を受信する入力と、
立体画像のペアのそれぞれのピクセルのカラー値を提供する出力と、
を含むことを特徴とする請求項2から5のいずれかに記載の方法。
【請求項8】
前記ニューラルネットワークは、2つ以上のスタイルを定義する入力を含み、
前記ニューラルネットワークは、前記2つ以上のスタイルで前記画像のピクセルデータを出力するように訓練されており、
前記スタイルの少なくとも1つは、前記画像の出力ピクセルデータを修正することを特徴とする請求項1から7のいずれかに記載の方法。
【請求項9】
前記スタイルは、
i.前記画像が表示されるディスプレイのタイプに関連する色特性、
ii.時間帯に対応する色特性、
iii.視聴者の病状に対応する色特性、
iv.審美的な色特性、または
v.質感特性
に関して、出力ピクセルデータを修正することを特徴とする請求項8に記載の方法。
【請求項10】
前記ニューラルネットワークは、前記スタイルが出力ピクセルデータに適用されるべき程度または強さを示す1つ以上のスタイルに関する入力を含むことを特徴とする請求項8または9に記載の方法。
【請求項11】
前記画像に関するスタイル変更されたピクセルデータを出力するように、さらなるニューラルネットワークを訓練するステップと、
訓練されたさらなるニューラルネットワークを、前記画像の補足符号化表現として出力するステップと、
を含み、
前記さらなるニューラルネットワークへの入力は、前記ニューラルネットワークの出力ピクセルデータを含むことを特徴とする請求項1から7のいずれかに記載の方法。
【請求項12】
スタイル符号化方法であって、
訓練されたニューラルネットワークを与えるステップと、
前記訓練されたニューラルネットワークを、復号化画像で使用するために復号化装置に出力するステップと、
を含み、
前記訓練されたニューラルネットワークは、
カラー値を受信し、画像に関する2つ以上のスタイルを定義するための入力と、
前記カラー値を与えるための出力と、
を含み、
前記訓練されたニューラルネットワークは、2つ以上のスタイルで前記画像に関する色を出力するように訓練されており、
前記スタイルの少なくとも1つは、入力された前記カラー値に応じて、出力する色を修正することを特徴とする方法。
【請求項13】
前記訓練されたニューラルネットワークは、前記画像の位置座標を受信するための入力を含み、
前記出力は、前記位置座標におけるピクセルのカラー値を提供するように訓練されていることを特徴とする請求項12に記載の方法。
【請求項14】
画像復号化方法であって、
画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信するステップと、
前記画像のピクセルデータを出力するように、前記訓練されたニューラルネットワークを促すステップと、
を含むことを特徴とする方法。
【請求項15】
前記訓練されたニューラルネットワークは、
前記画像の位置座標を受信するための入力と、
前記位置座標におけるピクセルのカラー値を提供する出力と、
を含み、
前記訓練されたニューラルネットワークを促すステップは、
前記画像内のすべての位置座標を入力するステップと、
出力同士を照合するステップと、
を含むことを特徴とする請求項14に記載の方法。
【請求項16】
スタイル復号化方法であって、
カラー値および2つ以上のスタイルを定義する入力スタイル値が入力されたことに応答して、カラー値を出力するように訓練されたニューラルネットワークを受信するステップと、
画像のカラー値および少なくとも第1のスタイル値を前記訓練されたニューラルネットワークに入力するステップと、
前記訓練されたニューラルネットワークから出力されたカラー値を受信するステップと、
入力されたカラー値の代わりに前記出力されたカラー値を使って前記画像を表示するステップと、
を含み、
前記スタイルの少なくとも1つは、前記入力されたカラー値に応じて、出力する色を修正することを特徴とする方法。
【請求項17】
前記訓練されたニューラルネットワークは、前記画像の位置座標を受信するための入力を含み、
出力が、前記位置座標におけるピクセルのカラー値を提供するように訓練されていることを特徴とする請求項16に記載の方法。
【請求項18】
請求項1から17のいずれかに記載の方法をコンピュータシステムに実行させるように適合されたコンピュータ実行可能命令を含むことを特徴とするコンピュータプログラム。
【請求項19】
画像に関するピクセルデータを出力するように、ニューラルネットワークを訓練する訓練プロセッサと、
訓練されたニューラルネットワークを前記画像の符号化表現として出力する出力プロセッサと、
を備えたことを特徴とする画像符号化装置。
【請求項20】
画像に関するニューラルネットワークによって形成された画像表現を含み、
前記ニューラルネットワークは、前記画像に関するピクセルデータを出力するように訓練されていることを特徴とする非一過性の機械可読媒体。
【請求項21】
画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信する受信機と
前記画像のピクセルデータを出力するように、前記訓練されたニューラルネットワークを促す画像生成プロセッサと、
を備えたことを特徴とする画像復号化装置。
【請求項22】
前記画像生成プロセッサは、複数の並列処理ユニットを有するグラフィック処理ユニットであり、前記ニューラルネットワークの並列インスタンスに、前記画像に関するピクセルデータを並列に出力することを特徴とする請求項21に記載の画像復号化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラル符号化および復号化方法および装置に関する。
【背景技術】
【0002】
本明細書で提供される「背景」の説明は、本開示の文脈を一般的に提示する目的のためのものである。現在命名されている発明者の業績は、この背景技術の項目に記載されている限りにおいて、また、出願時に先行技術として適格でない可能性がある本明細書の側面と同様に、本発明に対して先行技術として明示的または黙示的に認められるものではない。
【0003】
従来のビデオ符号化装置および復号化装置は、ソース画像から冗長な画像要素を除去するために、例えば、(送信する値の数をインテリジェントに減少させるための)量子化、(視覚的影響が限定的である可能性のある)高周波数成分の除去、および空間的および/または一時的な冗長成分(例えば、画像内の値のブロックの繰り返し、または連続する画像間の対応する値(任意選択で、画像間の移動を考慮した後))の除去など、様々な方法のうちの1つ以上を使用する。このようなアプローチは、gif、JPEG、MPEG画像や動画など、さまざまなよく知られた符号化技術に見られる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、より効率的な画像およびビデオ符号化技術を提供することが継続的な課題となっている。本出願は、この課題を克服または緩和しようとするものである。
【課題を解決するための手段】
【0005】
第1の実施例では、請求項1に従って画像符号化方法が提供される。
【0006】
第1の実施例では、請求項12に従ってスタイル符号化の方法が提供される。
【0007】
別の実施例では、請求項14に従って画像復号化の方法が提供される。
【0008】
別の実施例では、請求項16に従ってスタイル復号化の方法が提供される。
【0009】
別の実施例では、請求項19に従って画像符号化装置が提供される。
【0010】
別の実施例では、請求項20に従って、1つ以上の画像の表現を含む非一過性の機械可読媒体が提供される。
【0011】
別の実施例では、請求項21に従って画像復号化装置が提供される。
【0012】
本発明の前述の一般的な説明と以下の詳細な説明の両方は、例示的なものであるが、本発明を制限するものではないことを理解されたい。
【図面の簡単な説明】
【0013】
添付の図面を参照しながら以下の詳細な説明を読むことで、本開示およびそれに付随する多くの利点が容易に理解できるであろう。
図1】実施の形態による符号化装置および/または復号化装置として構成可能なエンタテインメントデバイスの概略図である。
図2】実施の形態に従ったニューラルネットワークの概略図である。
図3】実施の形態に従ったニューラルネットワークの概略図である。
図4】実施の形態に係る画像符号化方法のフローチャートである。
図5】実施の形態に係る画像復号化方法のフローチャートである。
【発明を実施するための形態】
【0014】
図面において、同様の参照数字は複数の図全体を通して同一または対応する部分を示す。図1において、エンタテインメントシステム10の一例は、SonyPlayStation5(登録商標)(PS5(登録商標))のようなコンピュータまたはコンソールである。
【0015】
エンタテインメントシステム10は、中央プロセッサ20から構成される。これは、例えばPS5のように8つのコアからなるシングルコアまたはマルチコアプロセッサであってもよい。エンタテインメントシステムは、グラフィカルプロセッシングユニット(GPU)30も備えている。GPUは、CPUと物理的に分離していてもよいし、PS5のようにシステムオンチップ(SoC)としてCPUと統合されていてもよい。
【0016】
エンタテインメントデバイスは、RAM40も備えている。CPUとGPUのそれぞれに別々のRAMを備えることもできるし、PS5のように共有RAMを備えることもできる。また、各RAMは物理的に分離されていてもよいし、PS5のようにSoCの一部として統合されていてもよい。さらなるストレージは、外付けハードドライブまたは内蔵ハードドライブ、外付けソリッドステートドライブ、またはPS5のような内蔵ソリッドステートドライブとして、ディスク50によって提供される。
【0017】
エンタテインメントデバイスは、USB(登録商標)ポート、イーサネット(登録商標)ポート、Wi-Fi(登録商標)ポート、Bluetooth(登録商標)ポートなど、適宜、1つ以上のデータポート60を介してデータを送受信することができる。また、オプションとして、光学ドライブ70を介してデータを受信することもできる。
【0018】
エンターテイメント装置からのオーディオ/ビジュアル出力は、通常、1つ以上のA/Vポート90を介して、または有線または無線データポート60の1つ以上を介して提供される。
【0019】
エンターテインメントシステムによって出力された画像を表示するためのデバイスの一例は、ユーザ1によって装着されるPlayStationVR2(登録商標)「PSVR2(登録商標)」などのヘッドマウントディスプレイ「HMD」120である。
【0020】
コンポーネントが統合されていない場合、専用データリンクまたはバス100を介して適宜接続することができる。
【0021】
システムとのインタラクションは、通常、PS5の場合はDualSense(登録商標)コントローラ(130)のような1つ以上のハンドヘルドコントローラ(130、130A)、および/またはHMDの場合は1つ以上のVRコントローラ(130A-L、R)を使用して提供される。
【0022】
符号化装置
本明細書の実施の形態において、エンタテインメントシステム10は、本明細書に記載の方法および技術を実施するために動作可能な符号化システムの一例である。符号化システムは、本明細書に記載される方法および手法に従って画像および/または動画を符号化および/または復号化するために使用することができる。
【0023】
本明細書の一実施の形態では、符号化方法は、ニューラルネットワークのような機械学習システムを訓練することを含む。
【0024】
例示的なニューラルネットワークは、完全連結多層パーセプトロン、すなわち、1つ以上の隠れ層を有する完全連結多層ネットワークである。通常、このようなニューラルネットワークは、対応する入力に応答して目標出力を近似するためにバックプロパゲーションアルゴリズムを使用して学習されるフィードフォワードニューラルネットワークとして動作する。より一般的には、ニューラルネットワークは、完全接続ニューラルネットワーク、ディープニューラルネットワーク(DNN)、多層パーセプトロン(MLP)、フィードフォワード人工ニューラルネットワーク(ANN)、または畳み込みニューラルネットワーク(CNN、またはConvNet)として実装することができる。
【0025】
特に、本明細書の実施の形態では、各画像/フレームは、1つのニューラルネットワークとして符号化される。すなわち、それぞれのニューラルネットワークは、1つの画像に対応するピクセルデータを生成するように訓練される。そして、ニューラルネットワークは、その画像/フレームのソースコンテンツの暗黙のニューラル表現である。
【0026】
画像/フレームデータまたはそれらの符号化されたバージョンの代わりに保存、送信、またはストリーミングされるのは、それぞれのニューラルネットワークのシーケンスである。
【0027】
このアプローチは、ニューラルネットワークが、それを構成する重みの中で与えられた画像をどのように表現するのが最適かを学習できるため、非常に効率的である。画像の帯域幅は、画像の符号化に使用するニューラルネットワークのノード数によって制御でき、それによってニューラルネットワークが利用できる重みの数が決まる。
【0028】
従って、圧縮の程度は、それぞれの画像を表現するために使用されるニューラルネットワーク内のノード(通常は隠れノード)の数によって制御される。各ニューラルネットワークは、ネットワークの重みによって提供される利用可能な帯域幅に最適な画像の表現を学習する。
【0029】
次に図2に目を向けると、例示的なニューラルネットワーク200は、入力ノード層210と、出力ノード層240と、1つ以上の隠れ層220、230と、を含む。隠れ層は任意の適切な数のノードで構成してもよい。各層の間には、通常、完全接続された重みのセット215、225、235がある。しかしながら、ネットワークはこのように完全に接続される必要はない。従って、いくつかの重みは含まれなくてもよい。
【0030】
本明細書の実施の形態では、2つの入力ノード(x、y)は符号化される画像内のピクセル位置を示し、3つの出力ノード(R、G、B)はx、yピクセル位置のピクセルのカラー値を示す。RGBは例示的なカラースキームであり、YUVやHSVなど、任意の適切なカラー(またはグレースケール)表現を使用できる
【0031】
ニューラルネットワークは、異なるx、y位置における画像のRGB値を使用して、特定の画像(例えば、画像またはビデオの画像フレーム)に対して訓練される。訓練は、エラー基準が満たされるまで継続することができる。
【0032】
誤差基準は、以下の一部またはすべてから構成される。
i.すべての画像ピクセルの合計誤差が閾値以下である(画像の精度が事前に定義された品質/精度レベルを満たしていることを示す)。
-あるいは、ピクセルのサブセットの合計誤差が別の閾値以下である(単に、ピクセルの代表サンプルが事前定義された品質/精度レベルを満たしていることを示す)。
ii.全ピクセルまたは部分ピクセルの平均誤差が閾値以下である(平均は、予め定義された品質/精度レベルを満たすという目的においては、合計と同様の尺度である)。
iii.N個以上のピクセルの誤差が閾値以上である(ここで、Nは画像内で重大な誤差を持つピクセルの許容可能な最大数を示す)。
iv.総エラーまたは平均エラーは、M回の訓練反復後にしきい値量だけ変化していない(すなわち、ニューラルネットワークは、現在の訓練プロセスで利用可能な最良の結果を達成した可能性が高いか、またはそれ以降の訓練反復は、計算投資に対するリターンが十分に小さく、継続すべきでない)。
【0033】
一旦訓練されると、ニューラルネットワークはその重みの中に画像の内部表現を構成する。
【0034】
ニューラルネットワークのアーキテクチャ/レイアウトが既知であり、復号化装置が既知であると仮定すると、ニューラルネットワークの重み値だけを所定の順序で復号化装置に送信することができる。
【0035】
オプションとして、訓練中に、ウェイト値を伝送に適した値に制約することができる。例えば、典型的な重みは0から1の範囲内にある。しかし、システムは、256または65536の端数である重み値を使用するように(例えば、重みの計算された変化に最も近い端数を選択することによって)訓練中に強制されてもよい。他のビット単位の値の植え付けが考慮されてもよいし、1つ以上の定量化スキームを使用して、ネットワーク内(または各レイヤー間)で最も一般的なP個の値が選択されてもよい。
【0036】
上記のアプローチは、復号化装置に効率的に送信できるウェイト値を使用して、ネットワークが正しく/期待通りに動作するようにすることを意図している。
【0037】
このようなアプローチでは、訓練スキームの変更も考慮することができる。例えば、ネットワークをまず従来通りに訓練し、その後、ウェイト値を上記のような分数に制約するか、または量子化スキームに対応する値に制約することができ、その後、このアプローチによってネットワーク全体に課されるウェイト値の小さな変化を補償するために、ネットワークのサブセット(例えば1つの層内)のみにトップアップ訓練を与えることができる。あるいは、例えば、ほとんどの層は256の端数を使用して訓練され、1つの層(たとえば、出力ノードにつながる重みの最終セット)は65535の端数を使用して訓練される。
【0038】
いずれにせよ、ニューラルネットワークの重みは、符号化装置(または、符号化装置の保存された結果にアクセスできるサーバまたは他の送信機)から復号化装置へ、例えばデータのストリームとして、またはファイルとして送信されるか、または光ディスクなどのソフトウェア製品の一部としてエクスポートされる。
【0039】
復号化装置
復号化装置は、受信したニューラルネットワークに各x、yピクセル位置を問い合わせ、その位置の出力ピクセル情報を保存する。
【0040】
一般的なHD画像(1920x1080)の場合、これは200万回を超えるクエリに相当し、UHD画像(3840x2160)の場合、これは800万回を超えるクエリに相当することが理解されよう。
【0041】
従って、本開示の実施の形態では、復号化装置は、複数の並列シェーダを備えたグラフィック処理ユニットを含む。これらの処理ユニットは、それぞれが並列で結果を生成するためにニューラルネットワークのそれぞれのコピーにクエリするように動作可能である。従ってデコードプロセスが高速化される。
【0042】
このように、復号化装置は従来の方法で画像をデコードするのではなく、ニューラルネットワークの1つ以上のコピーに、それぞれのピクセル位置で画像情報を生成するよう促す。
【0043】
バリエーション
IおよびPネットワーク
上記のアプローチは、クエリされた各ピクセル位置の画像に対応するピクセル情報を出力する各画像について、それぞれの訓練されたニューラルネットワークを作成することによって、画像またはビデオなどの画像シーケンスを符号化する手段を提供する。
【0044】
これには、ニューラルネットワークが画像の実質的に完全な内部表現を構築する必要がある。そのため、このニューラルネットワークは「Iフレーム」ニューラルネットワーク、つまり、表現する画像を完全にカプセル化するニューラルネットワークと考えることができる。このニューラルネットワークは非常に効率的に実行することができるが、一連の画像ではこれをさらに改善する余地がある。
【0045】
次に図3を参照すると、これは図2と同様に、入力層310と、出力層340と、1つ以上の隠れ層320、330と、を含む変形ニューラルネットワーク300を示す。しかし、この場合、画像シーケンスの前の画像のx、y位置のRGB値に対応する3つの追加入力、Rt-1、Gt-1、Bt-1がある。より具体的には、この追加入力は、前のニューラルネットワークによって生成された画像内のx、y位置のRGB値に対応するものである。これは、後続のニューラルネットワークに出力を生成するよう促すときに、復号化装置がアクセスできるものだからである。
【0046】
この変形ニューラルネットワークは、次に、ピクセル位置と前の画像におけるその位置のピクセル値に基づいて、現在の画像のピクセル値Rt、Gt、Btを出力するように訓練される。
【0047】
これは、画像シーケンスの前の画像は通常、現在の画像に非常に似ているという仮定を利用する。その結果、この場合、ニューラルネットワークは、画像自体の完全な内部表現を保存することなく、新しい画像を生成するために、以前にデコード/出力された画像からの入力をどのように変更するかを学習するだけでよい。その結果、一般的にニューラルネットワークは、はるかに少ない重みで同様の品質の結果を得ることができ、ニューラルネットワークの全体的なサイズが小さくなる。その結果、ニューラルネットワークの伝送または保存に必要な帯域幅も小さくなる。
【0048】
このようなニューラルネットワークは、Pフレームニューラルネットワーク、つまり、出力を生成するために進行中の画像データに依存するニューラルネットワークと考えることができる。
【0049】
任意選択で、3つの追加入力は、符号化される現在の画像の入力x、y座標によって表されるピクセル位置に対して、前の画像の異なるピクセル位置のRGB値とすることができる。特に、入力RGB値は、フレーム間の動きを考慮し、x,y座標における現在のRGB値と良好に一致するように、対応する画像要素がその時点であった進行画像内の位置におけるRGB値を修正することができる。フレーム間の動きは、画像全体のパンニングに限定してもよいし、例えば動きベクトルで表されるような画像内のより複雑な動きでもよい。
【0050】
同じRGB値を復号化装置にも入力するためには、復号化装置は同じフレーム間モーションを独立に推定するか、またはフレーム間モーション情報が送信されるときにニューラルネットワークに関連付けられた別のデータとして提供される必要がある。あるいは、ニューラルネットワークは、訓練中にターゲットデータとして提供することによって、そのような情報も出力するように訓練することもできる。
【0051】
従って、訓練されたニューラルネットワークのシーケンスは、IフレームニューラルネットワークとPフレームニューラルネットワークの混合物から構成されてもよい。典型的には、シーン変化がある場合、または後続画像間の差が大きすぎてPフレームニューラルネットワークが許容可能なエラーレベルで出力を生成できない場合に、Iフレームを使用する。Pフレームは、任意で、フレーム間の動きを示す情報を伴うか、または復号化装置での計算を可能にすることもできる。
【0052】
また、Rt-1、Gt-1、Bt-1入力をニューラルネットワークに与えるが、選択された標準画像を使用することにより、Iフレームニューラルネットワークの効率を向上させることも可能である。例えば、標準化された先行画像は、それぞれ特定のタイプの画像の平均であるQ個の画像のうちの1つであってもよい。例えば、風景画像、街並み画像、トーキングヘッド画像などである。これらは、詳細には記述できないものの、風景画像は特定の色範囲を有する画像の明るい上半分と異なる特定の色範囲を有する暗い下半分、街並み画像は光と色の異なる分割、トーキングヘッド画像は一般的な人間の輪郭と一般的な背景などの典型的な特徴を含む。この場合、Qは、例えば、8、16、32等とすることができる。
【0053】
標準化された一般的な前駆画像は現在の画像の乏しい近似でしかないため、このニューラルネットワークは通常、通常のPフレームニューラルネットワークよりも多くの重みを必要とする。しかし、差分のみを計算するため、一般的な前駆画像からの入力を持たない純粋なIフレームネットワークよりも少ない重みしか必要とせず、より効率的に画像を符号化することができる。
【0054】
その結果、訓練中、Q個の画像セットの中で、符号化される画像に最も近い(例えば、ピクセル値の音の二乗誤差の点で)標準化された先行画像が選択され、訓練中にRt-1、Gt-1、Bt-1入力を提供するために使用される。選択された画像は、例えば、復号化装置に送信されるときに、訓練されたネットワークとともにメタデータとして示される。復号化装置は、学習済みネットワークからの出力を促す際に、正しい標準化された先行画像を選択することができる。
【0055】
また、Q標準画像は、符号化される特定のコンテンツから生成されてもよい。この場合、標準画像内の色と照明が、完全に汎用的な画像が使用される場合よりも初期マッチングがよくなる。これらのQ標準画像は、その後、Iフレーム・ニューラル・ネットワークまたは任意の他の従来技術を使用して符号化され、例えば、ストリームの開始時またはそれらが必要とされる前の任意のイベントで送信される。
【0056】
このようにして、少なくとも符号化されたストリームの大部分について、それぞれのニューラルネットワークの入力と出力、および潜在的にそれらのフットプリント(重みの数)を同じにすることができる。これは、GPU上にニューラルネットワークを一貫して配置して実行するという点で、復号化プロセスをより単純にすることができる。
【0057】
ブロックワイズ入力および/または出力
これは、内部的にすべてのピクセルに対して複数の重みが存在することを意味する。なぜなら、個々のピクセルに寄与する重みの多くが非常に冗長であるため、ニューラルネットワークが実際には元の画像よりもはるかに大きくなる可能性が高いためである。
【0058】
しかし、1つのピクセルに対してRGB(または他のカラースキーム)ピクセル値を出力することは、逆の極端を表す。特に出力層に接続するピクセルに対して、重みの効率的な使用ができる。その結果、これらのレートが、値の変化または値の選択における制限(重み値をより効率的に送信するために前述したものなど)に対して非常に敏感になる可能性がある。また、復号化装置が画像全体を生成するために、多数のクエリを実装することを余儀なくされる。
【0059】
従って、任意選択で、ニューラルネットワークは、画像のより大きなサブセットのピクセル値を提供するように構成されてもよい。例えば、ニューラルネットワークは、2×2、4×4、8×8、16×16、32×32、または64×64ピクセルブロック(例えば、マクロブロックまたは同等物)のピクセル値を出力することができる。そのため、出力層(240、340)は、図2または図3に示すよりも多くのノードを含む可能性がある。また、隠れ層(または出力層230、330の隣の隠れ層)は、より少ないノードを含み、この隠れ層と出力層との間の重み(235、335)の数は、単一ピクセル出力バージョンの場合とほぼ同様であると考えられる。
【0060】
同様に、任意選択で、単一または複数の出力ピクセルの選択とは無関係に、ニューラルネットワークは、例えばx、y位置の単一ピクセルのRGB値だけでなく、より多くの入力値を有するように構成されてもよい。例えば、ニューラルネットワークは、2×2、3×3、4×4、5×5、8×8、16×16、32×32、または64×64ピクセルブロックの入力ピクセル値を有することができる。この場合も、入力層(210、310)に隣接する隠れ層(220、320)は、介在する重みの全体数(215、315)が単一入力バージョンとほぼ同様であるように、より少ない符号で構成されてもよい。
【0061】
オプションとして、入力RGB値は、ターゲット画像の低解像度バージョンに対応することができる。従って、例えば、RGB値の2×2または4×4のセットは、先行画像のダウンサンプリングされた4×4、8×8または16×16ピクセル領域を表すことができる。
【0062】
先行画像の入力領域がそれぞれの画像の出力領域よりも大きい場合、入力領域は出力領域値を生成する際にニューラルネットワークにいくつかのコンテキストを提供し、特にいくつかのスタイル(本明細書の他の箇所で説明する)を支援する可能性がある。しかし、この一部は冗長である可能性があり、画質を向上させる可能性がある一方、ネットワークの全体的な効率を低下させる可能性がある。一方、入力領域が出力領域と同じサイズである場合(入力領域のダウンサンプリングバージョンを使用するか、入力領域のピクセルごとの値を使用するかは問わない)、ネットワークは、前述と同様の方法で動作するが、ブロック内の複数のピクセルについて動作する。
【0063】
また、ピクセルデータをブロック単位で支援するニューラルネットワークでは、x、y入力はピクセル位置ではなくブロック位置に対応する。
【0064】
ステレオスコピー
ニューラルネットワークは、ステレオ画像ペアの対応する座標に対して2組のRGB値を出力するように訓練することもできる。この場合(または、より一般的には、立体視画像であるか否かにかかわらず適用可能な場合)、ニューラルネットワークは、立体視シーンの内部表現を支援するために、奥行き情報(例えば、対応する奥行きマップから)または視差情報を受け取ることもある。この場合、立体画像の視差/オフセットにより、各画像の同じ位置が異なる要素を含む可能性が高いため、2組のRGB値は異なる可能性が高い。
【0065】
従って、ニューラルネットワークは、2組のRGB値と視差/オフセット値を出力するように学習される。RGB値の第1組は、画像ペアの一方(例えば、左)の入力座標に対応する。RGB値の第2組は、画像ペアの他方(例えば、右)の画像の立体視の視差に応じて、入力座標からオフセットされた位置に対応する。このようにして、ニューラルネットワークは、シーンの同じ要素を立体視によるオフセットとして出力することを学習できるので、RGB値は非常に類似している可能性が高い。
【0066】
これら2つのアプローチは、立体視画像要素の色や位置を予測するプロセスの内部的な表現オーバーヘッドが異なることを表している。異なるアプローチは、それぞれ異なるタイプのコンテンツに対し、または特定のコンテンツ内で、より効率的である可能性がある。
【0067】
複数のスタイル
異なるユーザが異なる方法でコンテンツを見たい場合がある。それは純粋に美的な理由かもしれないし、特定のユーザーにとって有益だからかもしれない。たとえば、色覚異常のユーザーに最適なフォーマットでコンテンツを提供することが有利な場合がある(例えば、さまざまな程度の赤緑色覚異常、または同様にさまざまな程度の青黄色覚異常)。
【0068】
審美的な変更には、コントラストおよび/またはカラーバランスの違い、あるいは画像のペイント、パステル、または線画バージョン、または他のテクスチャ変更、高彩度バージョン、暖色または冷色の色温度バージョンなどを作成するような他の効果が含まれる。
【0069】
従来、このような修正は、ソース画像がデコードされた後にクライアント装置によって適用された。しかし、本明細書の実施の形態では、任意選択で、復号化装置でスタイルを適用するのではなく、スタイルをニューラルネットワークに組み込むことができる。
【0070】
任意選択で、スタイルが視聴期間のかなりの部分にわたって持続すると想定される場合(たとえば、色覚異常のユーザに関連する場合、またはユーザがテレビの設定またはローカル環境の特性に応答して特定の色温度バージョンを選択する場合)、ニューラルネットワーク(本明細書で以前に説明されたいずれの形態であっても)は、そのスタイルでピクセル値を出力するように特別に訓練されてもよいし、ニューラルネットワークの関連シーケンスがストリーミングされてもよい。
【0071】
しかしながら、例えば、単一のストリームが複数の視聴者によって受信される可能性がある放送シナリオでは、視聴者のニーズが異なるために、個別に調整されたストリームを出力することが現実的でないことがある。
【0072】
この場合、任意選択で、ニューラルネットワーク(本明細書で以前に説明されたいずれの形態であってもよい。例えば、符号化された画像を完全にカプセル化する、標準化された画像を修正する、一度に単一のピクセルについて出力する、一度に複数のピクセルについて出力するかを問わず先行する画像を修正する等)も、1つ以上のスタイル入力を有することができる。
【0073】
スタイル入力は、ネットワークのそれぞれの追加入力ノードへのバイナリ入力または一連のフラグ(例えばワンホットベクトル)の形をとってもよい。バイナリまたはワンホットのフラグパターンは、スタイルの選択を示す。通常、1つのスタイルはニュートラル、つまり元の画像を表す。代替的または追加的に、スタイルをベクトル、スカラー、または実際にテキスト(例えばテキストをベクトルに変換し、オプションでテキストを抽象化したもの)で表すこともできる。
【0074】
次に、ニューラルネットワークは、サポートされるスタイルごとに1つずつ、画像の複数のバージョン(すなわち、少なくとも2つ)で訓練される。従って、この場合、ニューラルネットワークは、指示されたスタイルに応じて、同じピクセル位置に対して異なるRGB値を出力する可能性がある。この場合、同等の画質/精度では、ニューラルネットワークは、単一のスタイルまたはスタイルをまったく符号化しない(すなわち「ニュートラル」スタイル)ニューラルネットワークよりもわずかに大きくなる。このようなニューラルネットワークは、IまたはPフレームネットワークと、サポートされる各スタイルのためのさらなるPフレームネットワークのと組み合わせと同様に考えることができる。このとき、スタイル入力によって駆動される重みは、他の重みと相互作用して、入力座標およびオプションで入力RGB値に応答するネットワークの残りの部分によって生成される画像を修正する。
【0075】
ニューラルネットワークのこの複数のスタイルバージョンは、その後、本明細書の他の箇所で説明したものと同様の方法で、復号化装置に送信される。復号化装置によって同様の方法でピクセル値を出力するように促されることがあるが、この場合、ユーザによって(例えばUIを介して)選択された関連スタイルも、そのスタイルに適したRGB値が出力されるように、復号化装置によってネットワークに入力されてもよい。
【0076】
従って、このアプローチでは、クライアントデバイスでデコードされた画像にスタイルが適用されるのではなく、複数のスタイルが画像(または画像の変更)のニューラルネットワーク表現内で具現化され、ニューラルネットワークが復号化装置によって関連するスタイルタイプを出力するように促される。
【0077】
スタイルのパラメータ化
本明細書で前述したように、ニューラルネットワークが1つ以上のスタイルで訓練される場合、オプションとして、1つ以上のスタイルに、スタイルの1つ以上の側面を制御するための1つ以上のパラメータ入力が含まれることがある。
【0078】
例えば、画像の色温度を変更するスタイルは、時間帯パラメータを含んでいてもよい。これにより、色温度が夕方遅くに向かって涼しい方から暖かい方へ徐々に変化し、ユーザの睡眠を支援する、といったことができる。この場合、ニューラルネットワークは、異なる時間帯パラメータに関連付けられた異なる色温度で訓練されてもよい。
【0079】
代替的に、ニューラルネットワークは、別個のスタイルとして、画像の暖色バージョンおよび寒色バージョンで訓練されてもよい。この場合、パラメータは、2つのスタイル間の相対的な偏りを表す値であってもよい。この場合、例えば、一緒になって出力の潜在的な範囲またはスペクトルを表すスタイルの入力は、それぞれフラグではなく連続値であってもよい。この場合、それぞれの値は、出力へのインターネット寄与を示すものであってもよい。
【0080】
同様に、どのスタイルも、ニュートラルバージョンの画像に対するスタイル化の度合い/強さを示すパラメータ入力、または連続的なスタイル入力を含む可能性がある。この場合も、ニューラルネットワークは、異なるパラメータ入力値およびターゲット出力における異なる強度/スタイライゼーションの程度に応じて訓練される。
【0081】
また、各スタイルが適用される度合い/強度を示すスタイル入力を提供することにより、異なるスタイルを組み合わせることもできる。例えば、鉛筆スケッチスタイルを適用し、別にセピアカラーパレットスタイルを適用することで、それ自体がターゲット画像の訓練セットには含まれていない複合効果を作成することができる。
【0082】
スタイルの後処理
本明細書の技術によるニューラルネットワークの出力が、所与の入力座標に対するRGB値(または類似のピクセル値)であることを考慮すると、任意選択で、本明細書の実施の形態に係るストリームは、スタイルなし/ニュートラルスタイル出力を有するニューラルネットワークと、第1のニューラルネットワークの出力に1つ以上のスタイルを適用する別個の第2のニューラルネットワークと、を含んでもよい。
【0083】
この第2のニューラルネットワークは、本明細書で先に説明したスタイルベースのニューラルネットワークと同様の方法で訓練することができる。これは、Pフレームネットワークのように動作し、RGB値と、少なくとも第1のスタイル値と、典型的には座標値とを第1のニューラルネットワークから受信し、選択されたスタイルに対応するRGB値を出力する。
【0084】
この場合、第1のニューラルネットワークは、クライアントへのベースライン共通送信として扱うことができる。一方、第2のニューラルネットワークは、画像に対する修正(すなわち、異なるスタイル)を要求するクライアントに供給されるエンハンスメント層として扱うことができる。
【0085】
その他の後処理
スタイルが第1のニューラルネットワークの出力によって生成されるか、または第1のニューラルネットワークの出力に適用されるかにかかわらず、任意選択で、他のより一般的な後処理が結果画像に対して実行されてもよい。
【0086】
このような後処理には、エラーマスキング、アップスケーリング、ジッタ低減などが含まれる。
【0087】
まとめ
次に図4を参照すると、本明細書の要約的な実施の形態において、(例えば、静止画像または動画像のための)画像符号化方法は、以下のステップを備える。
【0088】
第1のステップS410において、本明細書の他の箇所で説明するように、各画像に関するピクセルデータを出力するように各ニューラルネットワークを訓練する。
【0089】
第2のステップS420において、本明細書の他の箇所で説明するように、訓練されたニューラルネットワークを画像の符号化表現として(単一の画像としてであれ、動画のような連続する画像のストリーム、ブロードキャスト、および/またはファイルとしてであれ)出力する。
【0090】
本発明は、以下で説明され、特許請求される具体的な構成や動作に限定されない。それらの変形例もまた本発明の範囲内にあることはいうまでもない。
【0091】
ニューラルネットワークは、画像の位置座標を受信するための入力と、位置座標におけるピクセルのカラー値を提供する出力と、を含んでもよい。
【0092】
この場合、ニューラルネットワークは、ニューラルネットワークは、受信した位置座標に対応するプロンプト画像のピクセルのカラー値を受信するための入力をさらに含んでもよい。
【0093】
この場合、プロンプト画像は、
i.画像の直前の画像、または
ii.画像に最も類似した画像として一般的な画像のセットから選択された画像
であってもよい。
【0094】
この場合、プロンプト画像のピクセルのカラー値として受信されるカラー値は、画像とプロンプト画像との間の画像間運動に対応する量だけ、受信された位置座標からオフセットされたピクセルのカラー値であってもよい。
【0095】
この場合、ニューラルネットワークは、画像の位置座標を受信する入力と、受信した位置座標におけるピクセルのグループのカラー値を提供する出力と、を含んでもよく、グループは、画像の全体よりも小さくてもよい。
【0096】
この場合、ニューラルネットワークは、画像の位置座標を受信する入力と、立体画像のペアのそれぞれのピクセルのカラー値を提供する出力と、を含んでもよい。
【0097】
ニューラルネットワークは、2つ以上のスタイルを定義する入力を含んでもよく、ニューラルネットワークは、2つ以上のスタイルで前記画像のピクセルデータを出力するように訓練されていてもよく、スタイルの少なくとも1つは、画像の出力ピクセルデータを修正してもよい。
【0098】
この場合、スタイルは、
i.前記画像が表示されるディスプレイのタイプに関連する色特性(例えば、テレビ対ヘッドマウントディスプレイのようなディスプレイまたはディスプレイのタイプ間のカラーバランスまたは輝度の違いを考慮するため)、
ii.時間帯に対応する色特性、(例えば、視聴者の睡眠を助けるために夕方以降に色温度を下げる)
iii.視聴者の病状に対応する色特性(例えば、色覚異常のユーザを支援するため、または高コントラスト画像から利益を得るユーザを支援するため)、
iv.審美的な色特性(例えば、セピアまたは高彩度の1950年代スタイルのフィルム効果)、または
v.質感特性(例えば、画像をペイントまたは描画されたように見せるため、または粒状のフィルム品質を有するようにするため、またはラスターバイブラウン管スタイルを有するようにするため)
に関して、出力ピクセルデータを修正してもよい。
【0099】
この場合、代替的または追加的に、ニューラルネットワークは、スタイルが出力ピクセルデータに適用されるべき程度または強さを示す1つ以上のスタイルに関する入力を含んでもよい(例えば、単独で、またはニューラルネットワークによってサポートされる1つまたは複数の他のスタイルと組み合わせて)。
【0100】
画像に対する単一のニューラルネットワークにスタイルを組み込むことに代えて、画像に関するスタイル変更されたピクセルデータを出力するように、さらなるニューラルネットワークを訓練するステップと、訓練されたさらなるニューラルネットワークを、画像の補足符号化表現として出力するステップと、を含んでもよく、さらなるニューラルネットワークへの入力は、ニューラルネットワークの出力ピクセルデータを含んでもよい。
【0101】
上記は、画像をニューラルネットワークで符号化するものであったり、選択的に画像を2つ以上の追加スタイル(そのうちの1つのスタイルは「オリジナル」であってもよい)で符号化するものであったり、あるいは選択的に2つ以上の追加スタイルを適用するために第2のニューラルネットワークを提供するものであったりした。一方、選択的に、画像符号化または復号化の方法とは無関係に、スタイルのみを符号化してもよい。
【0102】
すなわち本開示のある実施の形態は、スタイル符号化方法である。この方法は、訓練されたニューラルネットワークを与えるステップと、訓練されたニューラルネットワークを、復号化画像で使用するために復号化装置に出力するステップと、を含み、訓練されたニューラルネットワークは、カラー値を受信し、画像に関する2つ以上のスタイルを定義するための入力と、カラー値を与えるための出力と、を含み、訓練されたニューラルネットワークは、2つ以上のスタイルで画像に関する色を出力するように訓練されており、スタイルの少なくとも1つは、入力された前記カラー値に応じて、出力する色を修正する。
【0103】
この場合、訓練されたニューラルネットワークは、画像の位置座標を受信するための入力を含み、出力は、位置座標におけるピクセルのカラー値を提供するように訓練されていてもよい。
【0104】
このようにして、既存の画像(例えば、本明細書の他の箇所で説明するような別のネットワークからデコードされた画像、または任意の他の技術を使用してデコードされた画像)にスタイルを適用可能なスタイルネットワークを送信できる。
【0105】
復号化装置では、指示されたスタイルを画像に普遍的に適用するか、現在のピクセル位置に応答して適用することができる。従って、本明細書の一実施の形態は、スタイル復号化方法である。この方法は、カラー値および2つ以上のスタイルを定義する入力スタイル値が入力されたことに応答して、カラー値を出力するように訓練されたニューラルネットワークを受信するステップと、画像のカラー値および少なくとも第1のスタイル値を訓練されたニューラルネットワークに入力するステップと、訓練されたニューラルネットワークから出力されたカラー値を受信するステップと、入力されたカラー値の代わりに出力されたカラー値を使って画像を表示するステップと、を含み、スタイルの少なくとも1つは、入力されたカラー値に応じて、出力する色を修正する。
【0106】
訓練されたニューラルネットワークは、画像の位置座標を受信するための入力を含んでもよく、出力が、前記位置座標におけるピクセルのカラー値を提供するように訓練されていてもよい。
【0107】
次に図5を参照すると、本明細書の要約的な実施の形態は、以下のステップを含む画像復号化方法である。
【0108】
この方法は、画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信するステップS510と、画像のピクセルデータを出力するように、訓練されたニューラルネットワークを促すステップS520と、を含む。
【0109】
本発明は、以下で説明され、特許請求される具体的な構成や動作に限定されない。それらの変形例もまた本発明の範囲内にあることはいうまでもない。
【0110】
訓練されたニューラルネットワークは、画像の位置座標を受信するための入力と、位置座標におけるピクセルのカラー値を提供する出力と、を含んでもよく、訓練されたニューラルネットワークを促すステップは、画像内のすべての位置座標を入力するステップと、出力同士を照合するステップと、を含んでもよい。
【0111】
本明細書の他の箇所で説明する変更に対応する復号化装置の変更は、当業者には明らかであろう。こうした変更は、例えば以下を含む。ピクセル単位またはピクセルグループ単位で出力を生成する修正。進行中の生成画像または最もよく一致する汎用画像からであってもよいプロンプト画像からのカラー値を使用する修正。立体ペアのそれぞれの画像からピクセルを出力する修正。スタイル選択または選択、または1つ以上のスタイル選択に関連するパラメトリック値を入力する修正。画像のスタイル変更バージョンを生成するために、画像を符号化する第1のニューラルネットワークおよびスタイルバリエーションを符号化する第2のニューラルネットワークを受信することを含む変更。出力として個々のピクセルまたはピクセル群を生成するためのニューラルネットワークのそれぞれのインスタンスのプロンプトを並列に実施して画像の全体的な生成を高速化できるように、並列処理能力を有するGPUまたは同等のプロセッサ上でこれらの処理を並列に実施することを含む変更。
【0112】
上記の方法は、ソフトウェア命令によって、または専用ハードウェアの組み込みまたは置換によって、適切に適合された従来のハードウェア上で実施されてもよい。
【0113】
従って、従来の同等デバイスの既存の部分への必要な適合は、フロッピーディスク(登録商標)、光ディスク、ハードディスク、ソリッドステートディスク、PROM、RAM、フラッシュメモリ、またはこれらの任意の組み合わせもしくは他の記憶媒体などの非一過性の機械可読媒体上に記憶されたプロセッサ実装可能命令を含むコンピュータプログラム製品の形態で実装されてもよく、またはASIC(特定用途向け集積回路)もしくはFPGA(フィールドプログラマブルゲートアレイ)もしくは従来の同等デバイスの適合に使用するのに適した他の構成可能回路としてハードウェアで実現されてもよい。これとは別に、このようなコンピュータ・プログラムは、イーサネット、無線ネットワーク、インターネット、またはこれらの組み合わせもしくは他のネットワークなどのネットワーク上のデータ信号を介して伝送してもよい。
【0114】
従って、本明細書の概略的な実施の形態では、画像符号化装置例えばサーバ(図示せず)またはSonyPlayStation (登録商標)のような娯楽装置10は、以下のように構成することができる。
【0115】
第1に、本明細書の他の箇所で説明するように、それぞれの画像に対して、その画像のピクセルデータを出力するためのそれぞれのニューラルネットワークを訓練するように(例えば、適切なソフトウェア命令によって)構成された訓練プロセッサ(例えば、選択的にCPU20と連動するGPU30)。
【0116】
第2に、本明細書の他の箇所で説明するように、訓練されたニューラルネットワークを画像(例えば、単独画像またはビデオなどのシーケンスの一部としての画像フレーム)の符号化表現として出力するように(例えば、適切なソフトウェア命令によって)構成された出力プロセッサ(例えば、選択的にGPU30と連動するCPU20)である。
【0117】
本明細書に記載の方法および技術を(例えば、適切なソフトウェア命令を使用することによって)実施する具体的な実施例は、本出願の範囲内で想定される。
【0118】
結果として得られる出力は、本明細書の他の箇所で説明するように、それぞれの画像(例えば、単独画像またはビデオなどのシーケンスの一部としての画像フレーム)に対するピクセルデータを出力するように各々が訓練された1つまたは複数の画像に対するそれぞれのニューラルネットワークによって形成された1つまたは複数の画像の表現を含む、非一過性の機械可読媒体(HDDまたはSSD記録、または光ドライブ記録など)であり得る。
【0119】
この出力は、適切なように、媒体上で配布されてもよいし、または放送されてもよいし、ストリーミングされてもよい。
【0120】
一方、本明細書の別の要約的な実施の形態では、画像復号化装置、例えばサーバ(図示せず)またはSonyPlayStation5(登録商標)のような娯楽装置10は、以下のように構成される。
【0121】
第1に、本明細書の他の箇所で説明するように、1つの画像のピクセルデータを出力するように訓練されたそれぞれのニューラルネットワークを(データポート60、SSD50、光学ドライブ70、またはA/Vポート90を介して)受信するように(例えば適切なソフトウェア命令によって)構成された受信機(例えば任意にGPU30と連動するCPU20)。
【0122】
第2に、本明細書の他の箇所で説明するように、ニューラルネットワークにその画像のピクセルデータを出力するように促すように(例えば適切なソフトウェア命令によって)構成された画像生成プロセッサ(例えば任意にCPU20と連動するGPU30)。
【0123】
ここでも、本明細書に記載された方法および技術を(例えば、適切なソフトウェア命令の使用によって)実施する具体的な実施例は、本願の範囲内で想定され、これには以下が含まれるが、これらに限定されない。
【0124】
画像生成プロセッサは、複数の並列処理ユニットを有するグラフィック処理ユニットであり、ニューラルネットワークの並列インスタンスに、画像に関するピクセルデータを並列に出力する。
【0125】
前述の議論は、本発明の単なる例示的な実施の形態を開示し、説明するものである。当業者には理解されるように、本発明は、その精神または本質的な特徴から逸脱することなく、他の具体的な形態で具現化され得る。従って、本発明の開示は、他の特許請求の範囲と同様に、例示であって本発明の範囲を限定するものではないことを意図している。本明細書における教示の容易に識別可能な変形を含む本開示は、発明的主題が公共に捧げられることがないように、前述の請求項の用語の範囲を部分的に定義する。
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2024-07-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像符号化方法であって、
画像に関するピクセルデータを出力するように、ニューラルネットワークを訓練するステップと、
訓練されたニューラルネットワークを前記画像の符号化表現として出力するステップと、
を含むことを特徴とする方法。
【請求項2】
前記ニューラルネットワークは、
前記画像の位置座標を受信するための入力と、
前記位置座標におけるピクセルのカラー値を提供する出力と、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークは、受信した位置座標に対応するプロンプト画像のピクセルのカラー値を受信するための入力をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記プロンプト画像は、
i.前記画像の直前の画像、または
ii.前記画像に最も類似した画像として一般的な画像のセットから選択された画像
であることを特徴とする請求項3に記載の方法。
【請求項5】
前記プロンプト画像のピクセルのカラー値として受信されるカラー値は、前記画像と前記プロンプト画像との間の画像間運動に対応する量だけ、受信された位置座標からオフセットされたピクセルのカラー値であることを特徴とする請求項3に記載の方法。
【請求項6】
前記ニューラルネットワークは、
前記画像の位置座標を受信する入力と、
受信した位置座標におけるピクセルのグループのカラー値を提供する出力と、
を含み、
前記グループは、前記画像の全体よりも小さいことを特徴とする請求項2から5のいずれかに記載の方法。
【請求項7】
前記ニューラルネットワークは、
前記画像の位置座標を受信する入力と、
立体画像のペアのそれぞれのピクセルのカラー値を提供する出力と、
を含むことを特徴とする請求項2から5のいずれかに記載の方法。
【請求項8】
前記ニューラルネットワークは、2つ以上のスタイルを定義する入力を含み、
前記ニューラルネットワークは、前記2つ以上のスタイルで前記画像のピクセルデータを出力するように訓練されており、
前記スタイルの少なくとも1つは、前記画像の出力ピクセルデータを修正することを特徴とする請求項に記載の方法。
【請求項9】
前記スタイルは、
i.前記画像が表示されるディスプレイのタイプに関連する色特性、
ii.時間帯に対応する色特性、
iii.視聴者の病状に対応する色特性、
iv.審美的な色特性、または
v.質感特性
に関して、出力ピクセルデータを修正することを特徴とする請求項8に記載の方法。
【請求項10】
前記ニューラルネットワークは、前記スタイルが出力ピクセルデータに適用されるべき程度または強さを示す1つ以上のスタイルに関する入力を含むことを特徴とする請求項に記載の方法。
【請求項11】
前記画像に関するスタイル変更されたピクセルデータを出力するように、さらなるニューラルネットワークを訓練するステップと、
訓練されたさらなるニューラルネットワークを、前記画像の補足符号化表現として出力するステップと、
を含み、
前記さらなるニューラルネットワークへの入力は、前記ニューラルネットワークの出力ピクセルデータを含むことを特徴とする請求項に記載の方法。
【請求項12】
スタイル符号化方法であって、
訓練されたニューラルネットワークを与えるステップと、
前記訓練されたニューラルネットワークを、復号化画像で使用するために復号化装置に出力するステップと、
を含み、
前記訓練されたニューラルネットワークは、
カラー値を受信し、画像に関する2つ以上のスタイルを定義するための入力と、
前記カラー値を与えるための出力と、
を含み、
前記訓練されたニューラルネットワークは、2つ以上のスタイルで前記画像に関する色を出力するように訓練されており、
前記スタイルの少なくとも1つは、入力された前記カラー値に応じて、出力する色を修正することを特徴とする方法。
【請求項13】
前記訓練されたニューラルネットワークは、前記画像の位置座標を受信するための入力を含み、
前記出力は、前記位置座標におけるピクセルのカラー値を提供するように訓練されていることを特徴とする請求項12に記載の方法。
【請求項14】
画像復号化方法であって、
画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信するステップと、
前記画像のピクセルデータを出力するように、前記訓練されたニューラルネットワークを促すステップと、
を含むことを特徴とする方法。
【請求項15】
前記訓練されたニューラルネットワークは、
前記画像の位置座標を受信するための入力と、
前記位置座標におけるピクセルのカラー値を提供する出力と、
を含み、
前記訓練されたニューラルネットワークを促すステップは、
前記画像内のすべての位置座標を入力するステップと、
出力同士を照合するステップと、
を含むことを特徴とする請求項14に記載の方法。
【請求項16】
スタイル復号化方法であって、
カラー値および2つ以上のスタイルを定義する入力スタイル値が入力されたことに応答して、カラー値を出力するように訓練されたニューラルネットワークを受信するステップと、
画像のカラー値および少なくとも第1のスタイル値を前記訓練されたニューラルネットワークに入力するステップと、
前記訓練されたニューラルネットワークから出力されたカラー値を受信するステップと、
入力されたカラー値の代わりに前記出力されたカラー値を使って前記画像を表示するステップと、
を含み、
前記スタイルの少なくとも1つは、前記入力されたカラー値に応じて、出力する色を修正することを特徴とする方法。
【請求項17】
前記訓練されたニューラルネットワークは、前記画像の位置座標を受信するための入力を含み、
出力が、前記位置座標におけるピクセルのカラー値を提供するように訓練されていることを特徴とする請求項16に記載の方法。
【請求項18】
請求項に記載の方法をコンピュータシステムに実行させるように適合されたコンピュータ実行可能命令を含むことを特徴とするコンピュータプログラム。
【請求項19】
画像に関するピクセルデータを出力するように、ニューラルネットワークを訓練する訓練プロセッサと、
訓練されたニューラルネットワークを前記画像の符号化表現として出力する出力プロセッサと、
を備えたことを特徴とする画像符号化装置。
【請求項20】
画像に関するニューラルネットワークによって形成された画像表現を含み、
前記ニューラルネットワークは、前記画像に関するピクセルデータを出力するように訓練されていることを特徴とする非一過性の機械可読媒体。
【請求項21】
画像に関するピクセルデータを出力するように訓練されたニューラルネットワークを受信する受信機と
前記画像のピクセルデータを出力するように、前記訓練されたニューラルネットワークを促す画像生成プロセッサと、
を備えたことを特徴とする画像復号化装置。
【請求項22】
前記画像生成プロセッサは、複数の並列処理ユニットを有するグラフィック処理ユニットであり、前記ニューラルネットワークの並列インスタンスに、前記画像に関するピクセルデータを並列に出力することを特徴とする請求項21に記載の画像復号化装置。
【外国語明細書】