特許7691383 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7691383データ圧縮システム及びデータ圧縮方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-03

(45)【発行日】2025-06-11

(54)【発明の名称】データ圧縮システム及びデータ圧縮方法

(51)【国際特許分類】

H04N 19/12 20140101AFI20250604BHJP

H04N 19/103 20140101ALI20250604BHJP

H04N 19/146 20140101ALI20250604BHJP

H04N 19/172 20140101ALI20250604BHJP

【ＦＩ】

H04N19/12

H04N19/103

H04N19/146

H04N19/172

【請求項の数】 10

(21)【出願番号】P 2022023881

(22)【出願日】2022-02-18

(65)【公開番号】P2023120813

(43)【公開日】2023-08-30

【審査請求日】2024-03-25

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】成子貴洋

(72)【発明者】

【氏名】圷弘明

【審査官】田中純一

(56)【参考文献】

【文献】特開２００２－３６９２２０（ＪＰ，Ａ）

【文献】特開２００４－０１５２２６（ＪＰ，Ａ）

【文献】特開平０７－１８４０６２（ＪＰ，Ａ）

【文献】国際公開第２００６／０３８６０７（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１２

Ｈ０４Ｎ１９／００－１９／９８

(57)【特許請求の範囲】

【請求項1】

データ圧縮システムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上のプロセッサは、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納し、
前記第１の非可逆圧縮方法または前記第２の非可逆圧縮方法の一方はニューラルネットワークを用いた圧縮を実行し、前記第１の非可逆圧縮方法または前記第２の非可逆圧縮方法の他方はニューラルネットワーク用いない圧縮を実行する、データ圧縮システム。

【請求項2】

データ圧縮システムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上のプロセッサは、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納し、
前記１以上のプロセッサは、
前記元データを分割した部分を前記第１の非可逆圧縮方法と前記第２の非可逆圧縮方法で圧縮して測定した圧縮率を比較し、前記第１の非可逆圧縮方法よりも前記第２の非可逆圧縮方法の圧縮率が高い部分において、前記第１の非可逆圧縮方法によるビット消費量を削減するデータ圧縮システム。

【請求項3】

データ圧縮システムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上のプロセッサは、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納し、
前記第２の非可逆圧縮方法はニューラルネットワークを使用し、
前記ニューラルネットワークは、前記第１の非可逆圧縮方法に対するビット消費量の削減率を大きくするように学習させられている、データ圧縮システム。

【請求項4】

データ圧縮システムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上のプロセッサは、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納し、
前記差分情報を、ニューラルネットワークにより抽出する、データ圧縮システム。

【請求項5】

データ圧縮システムであって、
１以上のプロセッサと、
１以上の記憶装置と、を含み、
前記１以上のプロセッサは、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納し、
前記元データは動画データであり、
前記第２の非可逆圧縮方法は、ニューラルネットワークを用いて、フレーム内符号化及びフレーム間符号化の少なくとも一方を実行する、データ圧縮システム。

【請求項6】

データ圧縮システムによるデータ圧縮方法であって、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データをストレージに格納し、
前記第１の非可逆圧縮方法または前記第２の非可逆圧縮方法の一方はニューラルネットワークを用いた圧縮を実行し、前記第１の非可逆圧縮方法または前記第２の非可逆圧縮方法の他方はニューラルネットワーク用いない圧縮を実行する、データ圧縮方法。

【請求項7】

データ圧縮システムによるデータ圧縮方法であって、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データをストレージに格納し、
前記元データを分割した部分を前記第１の非可逆圧縮方法と前記第２の非可逆圧縮方法で圧縮して測定した圧縮率を比較し、前記第１の非可逆圧縮方法よりも前記第２の非可逆圧縮方法の圧縮率が高い部分において、前記第１の非可逆圧縮方法によるビット消費量を削減する、データ圧縮方法。

【請求項8】

データ圧縮システムによるデータ圧縮方法であって、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データをストレージに格納し、
前記第２の非可逆圧縮方法はニューラルネットワークを使用し、
前記ニューラルネットワークは、前記第１の非可逆圧縮方法に対するビット消費量の削減率を大きくするように学習させられている、データ圧縮方法。

【請求項9】

データ圧縮システムによるデータ圧縮方法であって、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データをストレージに格納し、
前記差分情報を、ニューラルネットワークにより抽出する、データ圧縮方法。

【請求項10】

データ圧縮システムによるデータ圧縮方法であって、
第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、
前記第１圧縮データを伸長して第１伸長データを生成し、
前記元データと前記第１伸長データとの差分情報を抽出し、
前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して、第２圧縮データを生成し、
前記第１圧縮データ及び前記第２圧縮データをストレージに格納し、
前記元データは動画データであり、
前記第２の非可逆圧縮方法は、ニューラルネットワークを用いて、フレーム内符号化及びフレーム間符号化の少なくとも一方を実行する、データ圧縮方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ量の削減に関するものである。

【背景技術】

【0002】

データ量を削減するストレージシステムが知られている（例えば特許文献１）。その種のストレージシステムは、一般に、圧縮によりデータ量を削減する。既存の圧縮方法の１つとして、ランレングス法のように、所定のブロック単位内で出現頻度の高い文字列を辞書化し、より小さなサイズの符号に置換する方法が知られている。

【0003】

ランレングス法のような可逆圧縮よりも、データ量を削減する技術として、非可逆圧縮技術が知られている。例えば、動画データに対しては、標準化された圧縮技術である、ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（ＨＥＶＣ）や、ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）が知られている（以下、標準コーデック）。

【0004】

また、動画のデータ量を、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）で構成された圧縮器と伸長器により削減する技術（ＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎ）として、例えば、非特許文献２がある。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００７－１９９８９１号公報

【非特許文献】

【0006】

【文献】Zhihao Hu, Guo Lu, Dong Xu, “FVC: A New Framework Towards Deep Video Compression in Feature Space”, CVPR 2021.

【発明の概要】

【発明が解決しようとする課題】

【0007】

データの蓄積や転送などに要するコストの削減の観点から、ＩｏＴ（Ｉｎｔｅｒｎｅｔ－ｏｆ－Ｔｈｉｎｇｓ）機器などが生成する大規模なデータの蓄積や転送などには、圧縮率の高い非可逆圧縮が求められると考えられる。

【0008】

しかし、データの部分ごとに、最適な非可逆圧縮技術が異なるため、単一の圧縮技術のみを用いた場合には、圧縮率が最適ではないという課題がある。例えば、動画圧縮のフレーム内符号化においては、各フレームの空間領域ごとに、標準コーデックとＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎの、いずれの圧縮率が良いかが異なる場合がある。

【0009】

この課題は、動画データにおける標準コーデックとＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎに限られるものではなく、多様なデータの２種類以上の圧縮技術において起きうるものである。

【課題を解決するための手段】

【0010】

本発明の一態様のデータ圧縮システムは、１以上のプロセッサと、１以上の記憶装置と、を含む。前記１以上のプロセッサは、第１の非可逆圧縮方法によって元データを圧縮して第１圧縮データを生成し、前記第１圧縮データを伸長して第１伸長データを生成し、前記元データと前記第１伸長データとの差分情報を抽出し、前記差分情報を前記第１の非可逆圧縮方法と異なる第２の非可逆圧縮方法で圧縮して第２圧縮データを生成し、前記第１圧縮データ及び前記第２圧縮データを前記１以上の記憶装置に格納する。

【発明の効果】

【0011】

本発明の一態様によれば、データの部分ごとにより適切な圧縮技術を使い分けられるようになるため、単一の圧縮技術のみを用いる場合に比べ、圧縮率が改善する。

【図面の簡単な説明】

【0012】

【図1】実施例１の概要

【図2】実施例１におけるシステム構成図

【図3】実施例１におけるメモリ構成

【図4】実施例１における圧縮済みデータ管理テーブル

【図5】実施例１におけるデータ圧縮プログラムのフロー図

【図6】実施例１におけるデータ伸長プログラムのフロー図

【図7】実施例１におけるフレーム内符号化処理のブロック図

【図8】実施例１におけるフレーム間符号化処理の第１例のブロック図

【図9】実施例１におけるフレーム間符号化処理の第２例のブロック図

【図10】実施例１における学習処理のブロック図

【図11】実施例１におけるＬｏｓｓ関数の例の概要

【発明を実施するための形態】

【0013】

次に、本明細書の実施例を図面に基づいて説明する。なお、本発明は、以下に説明する実施例に限定されるものではない。

【実施例1】

【0014】

（１－１）概要
まず、実施例１の概要について、図１を用いて説明する。図１はシステムの論理構成を示す。システムは、データ生成源１００、クライアント１０１、圧縮部１０２、伸長部１０３、蓄積・通信部１０４、ストレージ１０５を含む。

【0015】

データ生成源１００は、圧縮処理の対象となるデータを生成する主体であり、例えば、動画データを生成するイメージセンサである。本実施例では、データ生成源１００が動画データを生成するイメージセンサである場合を例に説明する。ただし、データ生成源１００とそれが生成するデータは、これに限定されるものではなく、例えば、静止画データを生成するイメージセンサ、１次元の時系列データを生成する振動センサなどであってもよい。

【0016】

また、データ生成源１００は、センサに限られるものではなく、動画データや静止画データを生成する、ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ等のソフトウェアなどであってもよい。また、データ生成源１００は、例えば、動画データの各フレームをＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎして得られるＳｅｇｍｅｎｔａｔｉｏｎＭａｐのように、センサやソフトウェア等が生成したデータを加工して得られるデータであってもよい。また、データ生成源１００は複数あってもよい。

【0017】

圧縮部１０２は、データ生成源１００が生成したデータを圧縮するモジュールである。圧縮部１０２は、圧縮対象となる動画データを受領すると、当該データのフレーム（以下、元フレーム）を第１の圧縮技術の圧縮器１２０（以下、圧縮器Ａ）に入力し、その出力として得られる圧縮データであるＭａｉｎｓｔｒｅａｍ１２１を得る。第１の圧縮技術は、非可逆圧縮技術である。このとき、第１の圧縮技術のみを用いて所望の画質となるように圧縮した場合よりも、少ないビット消費量となるようにＭａｉｎｓｔｒｅａｍを生成する。ビット消費量は圧縮後データのサイズを表し、その値が小さい程圧縮率が高いことを意味する。

【0018】

ビット消費量は、どのような方法で削減してもよい。例えば、フレーム全体で一律に量子化パラメタ（ＱｕａｎｔｉｚａｔｉｏｎＰａｒａｍｅｔｅｒ、以下ＱＰ）を増加させることでビット消費量を削減してもよいし、フレーム内の領域毎に第１の圧縮技術と第２の圧縮技術の圧縮率を比較し、第２の圧縮技術の圧縮率が良い領域において、ＱＰを増加させることで、ビット消費量を削減してもよい。第２の圧縮技術は非可逆圧縮技術である。

【0019】

圧縮パラメタ設定器１２８は、圧縮部１０２において圧縮器Ａ１２０、または、圧縮器Ｂ１２５、または、その両方のパラメタを決定するブロックである。圧縮パラメタ設定器１２８は、例えば、ユーザに指定させたＱＰに定数を加算したＱＰを圧縮器Ａ１２０のパラメタとして設定することで、圧縮器Ａ１２０によるビット消費量をフレーム全体で削減させることができる。

【0020】

もしくは、例えば、圧縮パラメタ設定器１２８は、元フレームをタイル状に分割した各パッチを、圧縮器Ａ１２０と圧縮器Ｂ１２５で実際に圧縮させて測定した圧縮率をもとに、圧縮器Ｂ１２５の圧縮率が良い領域では、圧縮器Ａ１２０のＱＰを増加させるように、圧縮器Ａ１２０のパラメタを設定してもよい。もしくは、例えば、圧縮パラメタ設定器１２８は、予め測定したビット消費量と画質の関係を基に、ユーザに指定させた画質となるようなパラメタを出力してもよい。

【0021】

また、圧縮パラメタ設定器１２８は、例えば、後述の圧縮器Ｂ１２５が、圧縮器Ａ１２０のパラメタ毎に学習された、ニューラルネットワークにより構成された圧縮器である場合、圧縮器Ａ１２０のパラメタに対応する圧縮器Ｂ１２５のニューラルネットワークの学習済みパラメタを設定してもよい。

【0022】

ただし、圧縮パラメタ設定器１２８はこれらに限られるものではない。また、圧縮器Ａ１２０及び圧縮器Ｂ１２５のパラメタが固定値である場合や、パラメタをユーザに指定させる場合には、圧縮パラメタ設定器１２８はなくてもよい。

【0023】

次に、圧縮部１０２は、Ｍａｉｎｓｔｒｅａｍ１２１を、第１の圧縮技術の伸長器１２２（以下、伸長器Ａ）に入力し、伸長フレーム（以下、第１伸長フレーム）を得る。次に、圧縮部１０２は、元フレームと第１伸長フレームを、第２圧縮ユニット１２３に入力し、その出力として得られる圧縮データであるＳｉｄｅｓｔｒｅａｍ１２６を得る。

【0024】

このとき、第１の圧縮技術に対して、第２の圧縮技術の圧縮率が良い領域の画質を改善するように、Ｓｉｄｅｓｔｒｅａｍのビット消費量を制御する。制御方法はどのような方法であってもよいが、例えば、後述のように、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）により制御することができる。または、上述のように、圧縮パラメタ設定器１２８により制御され得る。

【0025】

第２圧縮ユニット１２３は、画質改善情報抽出器１２４と、第２の圧縮技術の圧縮器１２５（以下、圧縮器Ｂ）を含む。画質改善情報抽出器１２４は、元フレームと第１伸長フレームを入力として、圧縮器Ｂ１２５が圧縮できる形式のデータを出力する。画質改善情報抽出器１２４は、例えば、元フレームから第１伸長フレームを要素毎に減算することで、両者の残差を表す新たなフレームを出力する。画質改善情報抽出器１２４の出力は、圧縮器Ｂ１２５によりＳｉｄｅｓｔｒｅａｍに圧縮される。

【0026】

ただし、画質改善情報抽出器１２４はこれに限定されるものではなく、例えば、元フレームを第１伸長フレームで要素毎に除算して得られるフレームを出力するブロックであってもよいし、その他、任意の計算可能な処理で構成されるブロックであってもよい。また、第２圧縮ユニット１２３は、独立な画質改善情報抽出器１２４と圧縮器Ｂ１２５から構成される必要はなく、両者の機能を包含する１つの機能ブロックであってもよい。例えば、後述するように、第２圧縮ユニット１２３は、元フレームと第１伸長フレームを入力として、Ｓｉｄｅｓｔｒｅａｍ１２６を出力する、１セットのＤＮＮであってもよい。

【0027】

また、第２圧縮ユニット１２３に含まれるブロックは、画質改善情報抽出器１２４と圧縮器Ｂ１２５に限られるものではなく、他の機能ブロックが含まれていてもよい。例えば、元フレームと第１伸長フレームから、圧縮器Ｂ１２５の設定情報を出力するブロックが含まれていてもよい。

【0028】

最後に、圧縮部１０２は、Ｍａｉｎｓｔｒｅａｍ１２１とＳｉｄｅｓｔｒｅａｍ１２６を、圧縮済みデータ管理テーブル１２７により対応付ける。圧縮部１０２は、これを最終的な圧縮データとして、蓄積・通信部１０４に送信する。

【0029】

蓄積・通信部１０４は、圧縮部１０２から受領したデータをストレージ１０５に格納したり、伸長部１０３に転送したり、伸長部１０３からの要求に応じて、ストレージ１０５に格納された圧縮データを、伸長部１０３に応答するモジュールである。伸長部１０３は、クライアント１０１からの要求に応じて、蓄積・通信部１０４から取得した圧縮データを伸長して応答するモジュールである。

【0030】

クライアント１０１は、伸長部１０３を処理するコンピュータとは異なるコンピュータであってもよいし、伸長部１０３と同一のコンピュータ上で動作する、動画表示ソフトウェアや動画解析ソフトウェア等のソフトウェアであってもよいし、その他、伸長されたデータを消費する任意のハードウェア及びソフトウェアであってもよい。クライアント１０１は、伸長部１０３に対して、フレーム毎にデータを要求してもよいし、動画毎にデータを要求してもよいし、データ生成源１００が生成したデータを随時送信するように要求してもよいし、その他任意の条件でデータを要求してもよい。

【0031】

伸長部１０３は、蓄積・通信部１０４から圧縮データを受領すると、当該データを構成する圧縮済みデータ管理テーブル１３６から、Ｍａｉｎｓｔｒｅａｍ１３０とＳｉｄｅｓｔｒｅａｍ１３２を取得する。次に、Ｍａｉｎｓｔｒｅａｍを伸長器Ａ１２２に入力して、第１伸長フレームを得る。次に、Ｓｉｄｅｓｔｒｅａｍ１３２と第１伸長フレームを第２伸長ユニット１３３に入力して、最終的な伸長フレーム（以下、最終伸長フレーム）を取得し、クライアント１０１に応答する。

【0032】

第２伸長ユニット１３３は、第２の圧縮技術の伸長器１３４（以下、伸長器Ｂ）と、フレーム生成器１３５を含む。フレーム生成器１３５は、圧縮器Ｂ１３４の出力と、第１伸長フレームを入力として、最終伸長フレームを得るブロックである。例えば、画質改善情報抽出器１２４が元フレームと第１伸長フレームの残差を出力する場合、それに対応するフレーム生成器１３５は、第１伸長フレームと伸長器Ｂ１３４の出力を加算する処理とすることができる。

【0033】

ただし、フレーム生成器１３５はこれに限定されるものではなく、任意の計算可能な処理で構成されるブロックであってもよい。また、フレーム生成器１３５は、画質改善情報抽出器１２４の逆変換処理に限定されるものではない。

【0034】

また、第２伸長ユニット１３３は、独立な伸長器Ｂ１３４とフレーム生成器１３５から構成される必要はなく、両者の機能を包含する１つの機能ブロックであってもよい。例えば、後述するように、第２伸長ユニット１３３は、第１伸長フレームとＳｉｄｅｓｔｒｅａｍ１３２を入力として、最終伸長フレームを出力する、１セットのＤＮＮであってもよい。また、第２伸長ユニット１３３に含まれるブロックは、伸長器Ｂ１３４とフレーム生成器１３５に限られるものではなく、他の機能ブロックが含まれていてもよい。

【0035】

以上で説明した圧縮部１０２と伸長部１０３の処理は、動画のフレーム毎に実施してもよいし、複数のフレームをまとめた単位毎に実施してもよい。複数のフレームをまとめた単位毎に処理する場合、第１の圧縮技術、または、第２の圧縮技術、または、その両方は、動画圧縮におけるフレーム間符号化のように、時間方向の冗長性を考慮した符号化を行ってもよい。

【0036】

（１－２）システム構成
実施例１のシステム構成について、図２を用いて説明する。圧縮部１０２、伸長部１０３、及び、蓄積・通信部１０４は、例えば、プロセッサやメモリ、ネットワークインタフェースなどのハードウェア資源と、ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ミドルウェア、データ圧縮プログラム、データ伸長プログラムなどのソフトウェア資源を備えたコンピュータである。スイッチ２０６は、圧縮部１０２、伸長部１０３、蓄積・通信部１０４を相互接続する。

【0037】

圧縮部１０２は、Ｆｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２２０、プロセッサ２２１、ＲＡＭ２２３、Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２２６、スイッチ２２２を含んで構成される。Ｆｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２２０は、圧縮部１０２と、データ生成源１００を接続するためのインタフェースである。プロセッサ２２１は、スイッチ２２２を介して、ＲＡＭ２２３に格納されたプログラム２２４、及び、管理情報（メタデータ）２２５を基に、圧縮部１０２全体を制御する。Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２２６は、圧縮部１０２と、蓄積・通信部１０４を接続する。

【0038】

伸長部１０３は、Ｆｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２３０、プロセッサ２３１、ＲＡＭ２３３、Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２３６、スイッチ２３２を含んで構成される。Ｆｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２３０は、伸長部１０３と、クライアント１０１を接続するためのインタフェースである。プロセッサ２３１は、スイッチ２３２を介して、ＲＡＭ２３３に格納されたプログラム２３４、及び、管理情報（メタデータ）２３５を基に、伸長部１０３全体を制御する。Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２３６は、伸長部１０３と、蓄積・通信部１０４を接続する。

【0039】

図２において、蓄積・通信部１０４の詳細構成は省略されているが、例えば、圧縮部１０２や伸長部１０３と同様の構成を有することができる。

【0040】

プロセッサ２２１及び２３１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような、汎用的な演算処理器のほかに、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）のような、アクセラレータであってもよく、また、ＨＥＶＣ等の標準コーデックのハードウェアエンコーダ・デコーダであってもよく、また、それらの組み合わせであってもよい。

【0041】

ストレージ１０５は、ＨａｒｄＤｉｓｋＤｒｉｖｅ（ＨＤＤ）やＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ（ＳＳＤ）により構成されたブロックデバイスであってもよいし、ファイルストレージであってもよいし、コンテンツストレージであってもよいし、ストレージシステム上に構築されたボリュームであってもよいし、その他、１以上の記憶装置を使用してデータを蓄積する任意の方法で実現されてもよい。

【0042】

圧縮部１０２と伸長部１０３と蓄積・通信部１０４は、以上で説明した構成要素を実装した、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアを相互に接続した構成であってもよいし、そのいくつかが、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）や、ＦＰＧＡとして、１つの半導体素子により実装される構成であってもよいし、これらをソフトウェア的に実装したＶＭ（ＶｉｒｔｕａｌＭａｃｈｉｎｅ）であってもよい。また、ここに示した以外の構成要素が追加されてもよい。

【0043】

また、データ生成源１００、クライアント１０１、圧縮部１０２、伸長部１０３、及び、蓄積・通信部１０４は、異なるハードウェア装置あってもよいし、同一のコンピュータで動作する異なるＶＭであってもよいし、同一のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）上で動作する異なるコンテナであってもよいし、同一のＯＳ上で動作する異なるアプリケーションであってもよいし、各々が複数のコンピュータから構成されていてもよいし、これらの組み合わせであってもよい。

【0044】

例えば、データ生成源１００はイメージセンサであり、圧縮部１０２はイメージセンサに接続された、ＣＰＵとＧＰＵにより構成されたエッジデバイスであり、クライアント１０１と伸長部１０３は同一のＰＣ上で動作するプログラムであり、蓄積・通信部１０４はＨｙｐｅｒＣｏｎｖｅｒｇｅｄＩｎｆｒａｓｔｒｕｃｔｕｒｅ上で動作するプログラムであってもよい。

【0045】

（１－３）ＲＡＭ構成
図３に、圧縮部１０２のＲＡＭ２２３と、伸長部１０３のＲＡＭ２３３が格納するデータの構成３００を示す。ＲＡＭは、プロセッサが実行するプログラム３１０と、当該プログラムで用いる管理情報３２０を格納する。

【0046】

プログラム３１０は、圧縮プログラム３１１、データ伸長プログラム３１２、データ学習プログラム３１３を含む。管理情報３２０は、圧縮済みデータ３２１を含む。なお、圧縮部１０２のプログラム２２４には、データ伸長プログラム３１２が含まれていなくてもよいし、伸長部１０３のプログラム２３４には、データ圧縮プログラム３１１が含まれていなくてもよい。

【0047】

また、ＤＮＮの学習を図２に示したシステムに含まれない第３のコンピュータで実行する場合、学習プログラム３１３は圧縮部１０２や伸長部１０３に含まれていなくてもよい。ただし、その場合、学習プログラム３１３は第３のコンピュータのＲＡＭ上に展開される。なお、ＲＡＭには、上述のプログラムと構成情報以外のデータが含まれていてもよい。

【0048】

データ圧縮プログラム３１１は、圧縮部１０２において、データを圧縮するプログラムである。データ伸長プログラム３１２は、伸長部１０３において、圧縮されたデータを伸長するプログラムである。学習プログラム３１３は、圧縮部１０２と伸長部１０３にＤＮＮが含まれる場合に、その学習を実行するプログラムである。

【0049】

圧縮済みデータ３２１は、圧縮済みのデータを格納するメモリ領域であり、ＭａｉｎｓｔｒｅａｍとＳｉｄｅｓｔｒｅａｍを含むデータ構造である。

【0050】

（１－４）テーブル構成
図４に、圧縮済みデータ３２１を構成するデータ構造である、圧縮済みデータ管理テーブル４００を示す。なお、圧縮済みデータ３２１の表現方法は、圧縮済みデータ管理テーブル４００の形式に限られるものではなく、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＹＡＭＬ（ＹＡＭＬＡｉｎ’ｔａＭａｒｋｕｐＬａｎｇｕａｇｅ）、ハッシュテーブル、木構造など、テーブル以外のデータ構造によって表現されてもよい。

【0051】

圧縮済みデータ管理テーブル４００のデータ名列４０１は、データ生成源１００を表す識別子を格納するフィールドである。識別子は、データ生成源１００に対してユーザに命名させた文字列であってもよいし、データ生成源１００に割り当てられたＭｅｄｉａＡｃｃｅｓｓＣｏｎｔｒｏｌ（ＭＡＣ）アドレスやＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ（ＩＰ）アドレスであってもよいし、その他、データ生成源１００を識別しうる任意の符号であってもよい。また、データ生成源１００が自明である場合、データ名列４０１は存在しなくてもよい。

【0052】

Ｍａｉｎｓｔｒｅａｍ列４０２は、圧縮器Ａ１２０により、データ生成源１００から受領したデータを圧縮して得られたＭａｉｎｓｔｒｅａｍ１２１を格納するフィールドである。Ｓｉｄｅｓｔｒｅａｍ列４０３は、第２圧縮ユニット１２３の出力であるＳｉｄｅｓｔｒｅａｍ１２６を格納するフィールドである。

【0053】

モデルＩＤ列４０４は、例えば、第２の圧縮技術がＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎであり、かつ、ターゲットとする画質毎に複数のモデルが用意されている場合に、Ｓｉｄｅｓｔｒｅａｍの生成に用いたモデルを識別する情報を格納するフィールドである。ただし、モデルＩＤ列４０４はオプションであり、圧縮済みデータ管理テーブル４００に含まれていなくてもよい。また、第１の圧縮技術の設定情報や、タイムスタンプなど、以上で述べた以外のフィールドが圧縮済みデータ管理テーブル４００に含まれていてもよい。

【0054】

（１－５）データ圧縮処理とデータ伸長処理
図５は、データ圧縮プログラム３１１のフロー図である。圧縮部１０２のプロセッサ２２１は、データ生成源１００が生成した動画データの受領を契機に、データ圧縮プログラム３１１を開始する（Ｓ５００）。

【0055】

Ｓ５０１は、圧縮部１０２がデータ生成源１００から受領した動画の１つ以上のフレームを、プロセッサ２２１がＦｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２２０から取得するステップである。

【0056】

Ｓ５０２は、プロセッサ２２１が、Ｓ５０１で取得したフレームを、圧縮器Ａ１２０により圧縮して、Ｍａｉｎｓｔｒｅａｍ１２１を生成するステップである。

【0057】

Ｓ５０３は、プロセッサ２２１が、Ｓ５０１で生成したＭａｉｎｓｔｒｅａｍ１２１を伸長器Ａ１２２に入力して、第１伸長フレームを生成するステップである。Ｓ５０４は、プロセッサ２２１が、Ｓ５０１で取得したフレームと、Ｓ５０２で生成した第１伸長フレームを、第２圧縮ユニット１２３の入力として、Ｓｉｄｅｓｔｒｅａｍ１２６を生成するステップである。

【0058】

Ｓ５０５は、Ｓ５０２で生成したＭａｉｎｓｔｒｅａｍ１２１と、Ｓ５０４で生成したＳｉｄｅｓｔｒｅａｍ１２６を、圧縮済みデータ３２１内の、圧縮済みデータ管理テーブル４００に格納するステップである。データ名列４０１やモデルＩＤ列４０４などの情報についても、必要であれば、このステップで設定する。

【0059】

Ｓ５０６は、Ｓ５０５で作成された圧縮済みデータ管理テーブル４００の情報を、Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２２６を通して、蓄積・通信部１０４に送信するステップである。その後、データ圧縮プログラム３１１は終了する（Ｓ５０７）。

【0060】

図６は、データ伸長プログラム３１２のフロー図である。伸長部１０３のプロセッサ２３１は、蓄積・通信部１０４から圧縮データの受領を契機に、データ伸長プログラム３１２を開始する（Ｓ６００）。

【0061】

Ｓ６０１は、伸長部１０３が蓄積・通信部１０４から受領した圧縮データを、プロセッサ２３１が、Ｂａｃｋ－ｅｎｄＩｎｔｅｒｆａｃｅ２３６から取得し、ＲＡＭ２３３の圧縮済みデータ３２１に、圧縮済みデータ管理テーブル４００の形式で格納するステップである。

【0062】

Ｓ６０２は、プロセッサ２３１が、圧縮済みデータ３２１内の圧縮済みデータ管理テーブル４００から、Ｍａｉｎｓｔｒｅａｍ１３０を取得するステップである。Ｓ６０３は、プロセッサ２３１が、Ｓ６０２で取得したＭａｉｎｓｔｒｅａｍ１３０を、伸長器Ａ１２２により、第１伸長フレームに伸長するステップである。

【0063】

Ｓ６０４は、プロセッサ２３１が、圧縮済みデータ管理テーブル４００から、Ｓｉｄｅｓｔｒｅａｍ１３２を取得するステップである。

【0064】

Ｓ６０５は、プロセッサ２３１が、Ｓ６０３で生成した第１伸長フレームと、Ｓ６０４で取得したＳｉｄｅｓｔｒｅａｍを、第２伸長ユニット１３３に入力し、最終伸長フレームを生成するステップである。

【0065】

Ｓ６０６は、Ｓ６０５で生成した最終伸長フレームを、Ｆｒｏｎｔ－ｅｎｄＩｎｔｅｒｆａｃｅ２３０を通して、クライアント１０１に送信するステップである。その後、データ伸長プログラム３１２は終了する（Ｓ６０７）。

【0066】

以上、データ圧縮プログラム３１１とデータ伸長プログラム３１２のフローについて述べた。以下では、第１の圧縮技術が標準コーデックであり、第２の圧縮技術がＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎである場合について、フローのより具体的な例を３通り説明する。ただし、データ圧縮プログラム３１１とデータ伸長プログラム３１２は、以下に記載の例に限定されるものではない。

【0067】

また、以下に記載の例を２つ以上組み合わせて用いてもよい。例えば、一定の間隔でキーフレームをフレーム内符号化しつつ、その間のフレームをフレーム間符号化により符号化してもよい。フレーム内符号化を行う頻度は、例えば予め決めたフレームの枚数毎であるが、その他、可変の頻度で行うなど、どのような頻度であってもよい。

【0068】

また、全てのフレームをフレーム内符号化で符号化してもよい。また、フレーム間符号化は、時間的に１つ前のフレームをベースとするものに限定されるものではなく、例えば、時間的に２つ以上前のフレームをベースとしてもよいし、もしくは、時間的に後方であるが、既に伸長済みのフレームであってもよいし、これらの組み合わせであってもよい。また、第１の圧縮技術と第２の圧縮技術の間で、フレーム内符号化とフレーム間符号化を同期させてもよいし、各々が独立の方法で各フレームを符号化してもよい。

【0069】

図７に、動画のフレーム内符号化の例を示す。圧縮処理７００は、フレーム内符号化の圧縮処理を表すブロック図である。データ生成源１００が生成した元フレーム７０１は、標準コーデックの圧縮器である圧縮器Ａ１２０に入力され、Ｍａｉｎｓｔｒｅａｍ１２１に圧縮される。このとき、Ｍａｉｎｓｔｒｅａｍ１２１のビット消費量を、標準コーデックのみを用いて所望の画質とするのに必要な量よりも少なくする。例えば、上述のように、標準コーデックのＱＰをフレーム全体で増やすことでビット消費量を削減してもよいし、標準コーデックの圧縮率がＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎの圧縮率よりも悪い領域において、選択的にビット消費量を削減してもよい。

【0070】

次に、Ｍａｉｎｓｔｒｅａｍ１２１を、標準コーデックの伸長器である伸長器Ａ１２２に入力し、第１伸長フレーム７０２を得る。その後、元フレーム７０１と第１伸長フレーム７０２を、ＤＮＮにより構成したエンコーダ７０３に入力する。

【0071】

エンコーダ７０３は、例えば、ＲＧＢフォーマットで表現された、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの、元フレームのテンソルと、同サイズの第１伸長フレーム７０２のテンソルを、チャネル軸方向に連接した６×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを入力として、３次元のテンソルを出力する、畳み込み層やＰｏｏｌｉｎｇ層で構成されたＤＮＮである。

【0072】

符号化器７０４は、エンコーダ７０３が出力したテンソルを、ビット列に符号化し、Ｓｉｄｅｓｔｒｅａｍ１２６を出力する。符号化器７０４は、エンコーダ７０３が出力したテンソルを表現する浮動小数点数のビット列を、単純にシリアライズするものであってもよいし、より圧縮率を改善するために、当該テンソルの各要素の値の発生確率を、ＤＮＮで構成されたＡｕｔｏＲｅｇｒｅｓｓｉｖｅＭｏｄｅｌやＨｙｐｅｒＰｒｉｏｒＮｅｔｗｏｒｋ等のエントロピー推定器を用いて推定し、その結果に基づいて、ＲａｎｇｅＣｏｄｅｒ等のエントロピー符号化をするものであってもよいし、その他任意の手段が用いられていてもよい。

【0073】

なお、エンコーダ７０３と符号化器７０４に含まれるＤＮＮは、ＤｅｅｐＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎの圧縮率が標準コーデックの圧縮率よりもよい領域において、特にビットを多く割り当てるように学習されてもよい。学習処理の例については、後述する。エンコーダ７０３及び符号化器７０４は、第２圧縮ユニット１２３を構成する。画質改善情報抽出器１２４の機能はエンコーダ７０３に含まれ、符号化器７０４は圧縮機能を有する。

【0074】

伸長処理７１０は、フレーム内符号化の伸長処理を表すブロック図である。Ｍａｉｎｓｔｒｅａｍ１３０は、標準コーデックの伸長器である伸長器Ａ１２２に入力され、第１伸長フレーム７１１に伸長される。Ｓｉｄｅｓｔｒｅａｍ１３２は、復号化器７１２に入力され、ビット列からテンソル等の形式に復号される。なお、復号化器７１２は、例えば、符号化器７０４の逆変換となっており、符号化器７０４でエントロピー符号化を行う場合には、復号化器７１２は、符号化器７０４が用いるのと同じエントロピーモデルを使用して、復号化を行う。

【0075】

復号されたテンソルと、第１伸長フレーム７１１は、デコーダ７１３に入力され、最終伸長フレーム７１４が生成される。デコーダ７１３は、例えば、ＲＧＢフォーマットで表現された、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの第１伸長フレーム７１１のテンソルと、復号化器７１２が出力したテンソルを入力として、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの最終伸長フレーム７１４を出力する、Ｔｒａｎｓｐｏｓｅ畳み込み層などで構成されたＤＮＮである。復号化器７１２及びデコーダ７１３は、第２伸長ユニット１３３を構成する。復号化器７１２は伸長機能を有する。フレーム生成器１３５の機能はデコーダ７１３に含まれる。

【0076】

図８は、動画のフレーム間符号化の、１つ目の例を示す。ブロックを接続する矢印線のうち、太線は伸長時に必要となる経路を表す。圧縮時には、細線と太線両方の経路が使用される。

【0077】

データ生成源１００が生成した元フレーム８０１は、標準コーデックの圧縮器である圧縮器Ａ１２０で圧縮され、Ｍａｉｎｓｔｒｅａｍ１２１に変換されたのち、標準コーデックの伸長器である伸長器Ａ１２２により、第１伸長フレーム８０２に変換される。この時、フレーム内符号化と同様に、Ｍａｉｎｓｔｒｅａｍ１２１のビット消費量を抑制する。

【0078】

次に、元フレーム８０１と第１伸長フレーム８０２は、画質改善情報抽出器８０３により、テンソル等の形式で表現されるＦｅａｔｕｒｅ８０４に変換される。画質改善情報抽出器８０３は、例えば、畳み込み層やＰｏｏｌｉｎｇ層などで構成されたＤＮＮである。画質改善情報抽出器８０３は、例えば、ＲＧＢフォーマットで表現された、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの元フレーム８０１のテンソルと、同サイズの第１伸長フレーム８０２のテンソルを、チャネル軸方向に連接した、サイズが６×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを入力として、３次元テンソルであるＦｅａｔｕｒｅ８０４を出力する。

【0079】

次に、元フレーム８０１よりも時間的に１つ前のフレームの第１伸長フレーム８０５と、最終伸長フレーム８０６を、画質改善情報抽出器８０７に入力して、１つ前のフレームにおけるＦｅａｔｕｒｅ８０８（以下、前方Ｆｅａｔｕｒｅ）を抽出する。

【0080】

なお、この時に用いる画質改善情報抽出器８０７は、画質改善情報抽出器８０３と同一であってもよいし、異なるものであってもよい。また、画質改善情報抽出器８０３と８０７は、ＤＮＮを使用していなくてもよく、例えば、入力された２つのフレームの差を求める処理などであってもよい。

【0081】

また、第１伸長フレーム８０５と最終伸長フレーム８０６は、元フレーム８０１の時間的に１フレーム前方のフレームに限定されるものではなく、２フレーム以上前のフレームであってもよいし、時間的に後方であるが既に伸長済みのフレームであってもよい。これらフレームから、画質改善情報抽出器８０７により前方Ｆｅａｔｕｒｅが抽出され得る。

【0082】

次に、Ｆｅａｔｕｒｅ８０４と前方Ｆｅａｔｕｒｅ８０８を動き抽出８０９に入力し、後段の動き補償８１２において必要となる情報を抽出する。動き抽出８０９は、例えば、ＯｐｔｉｃａｌＦｌｏｗを推定する学習済みのＤＮＮであってもよいし、図８に含まれる他のＤＮＮとともにＥｎｄ－ｔｏ－ｅｎｄに学習されるＤＮＮであってもよいし、標準コーデック等で用いられる動きベクトル予測器がであってもよいし、その他、任意の処理であってもよい。

【0083】

動き圧縮８１０は、動き抽出８０９の出力をビット列に圧縮する。動き圧縮８１０は、例えば、動き抽出８０９が出力したテンソルを、畳み込み層を含むＤＮＮにより変換し、その結果得られたテンソルを、ＤＮＮにより構成されたＡｕｔｏＲｅｇｒｅｓｓｉｖｅモデル等のエントロピー推定器を用いて、ＲａｎｇｅＣｏｄｅｒ等で符号化する。なお、動き圧縮８１０の方法はこれに限定されるものではない。

【0084】

動き圧縮８１０の出力は、動き伸長８１１により伸長されたのち、前方Ｆｅａｔｕｒｅ８０８とともに動き補償８１２に入力される。動き補償８１２は、前方Ｆｅａｔｕｒｅ８０８を、動き伸長８１１が出力した情報を基にして、補正する処理である。動き補償８１２は、例えば、３次元テンソルである前方Ｆｅａｔｕｒｅ８０８を、動き伸長８１１が出力した、幅と高さが前方Ｆｅａｔｕｒｅ８０８と同一で、チャネル数が２のオフセット情報により、ワープ処理するブロックであるが、これに限定されるものではない。

【0085】

次に、残差抽出器８１３は、Ｆｅａｔｕｒｅ８０４から、動き補償８１２の結果として得られたテンソルを、要素毎に減算して、残差情報を出力する。ただし、残差抽出器８１３は、これに限定されるものではなく、ＤＮＮなどであってもよい。残差情報は、残差圧縮８１４によりビット列に圧縮される。残差圧縮８１４は、動き圧縮８１０と同様の技術を用いていてもよいし、その他どのような圧縮技術が用いられていてもよい。

【0086】

Ｓｉｄｅｓｔｒｅａｍ１２６には、動き圧縮８１０が生成したビット列と、残差圧縮８１４が生成したビット列を含むデータ構造となる。残差圧縮８１４が生成したビット列は、残差伸長８１５により伸長されたのち、動き補償８１２の出力とともに、残差補償器８１６に入力される。残差補償器８１６は、例えば、残差伸長８１５の出力を動き補償８１２の出力を要素毎に加算したテンソル８１７（以下、伸長Ｆｅａｔｕｒｅ）を出力する処理であるが、これに限定されるものではない。

【0087】

最後に、第１伸長フレーム８０２と伸長Ｆｅａｔｕｒｅ８１７をフレーム生成器８１８に入力して、最終伸長フレーム８１９を得る。フレーム生成器８１８は、Ｔｒａｎｓｐｏｓｅｄ畳み込み層などで構成されたＤＮＮであるが、これに限定されるものではない。

【0088】

なお、以上では、伸長済みの第１伸長フレーム８０５と最終伸長フレーム８０６を用いて動き抽出８０９及び動き補償８１２を行う例を示したが、これに限定されるものではなく、例えば、伸長済みの伸長Ｆｅａｔｕｒｅ８１７をバッファリングしておき、それを前方Ｆｅａｔｕｒｅ８０８として用いてもよい。

【0089】

図９は、フレーム間符号化の、２つ目の例を示す。まず、圧縮処理について説明する。複数のフレームからなる元フレーム９０１を、標準コーデックの圧縮器である圧縮器Ａ１２０に入力し、Ｍａｉｎｓｔｒｅａｍ９０２を得たのち、その伸長器Ａ１２２により、複数のフレームからなる第１伸長フレーム９０３を得る。

【0090】

次に、元フレーム９０１と第１伸長フレーム９０３を、複数フレーム分同時にエンコーダ９０４に入力する。エンコーダ９０４は、例えば、ＲＧＢフォーマットで表現された、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの、Ｎフレーム分の、元フレーム９０１と第１伸長フレームをチャネル軸方向に連接した、６Ｎ×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを入力として、３次元テンソルを出力する、２次元畳み込み層などで構成されたＤＮＮである。

【0091】

また、エンコーダ９０４は、ＲＧＢフォーマットで表現された、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈの、Ｎフレーム分の元フレーム９０１と第１伸長フレームを、チャネル軸方向とフレーム軸方向に連接した、６×Ｎ×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを入力として、３次元畳み込み層などで構成したＤＮＮにより、テンソルに変換する処理であってもよいし、その他、任意の処理であってもよい。

【0092】

符号化器９０５は、エンコーダ９０４が生成したテンソル等のデータを、ビット列に変換して、Ｓｉｄｅｓｔｒｅａｍ９０６を生成する。符号化器９０５は、例えば、エンコーダ９０４が出力したテンソルを、ＤＮＮにより構成されたＡｕｔｏＲｅｇｒｅｓｓｉｖｅモデルのエントロピー推定器を用いて、ＲａｎｇｅＣｏｄｅｒ等で符号化する処理であるが、これに限定されるものではない。

【0093】

次に、伸長処理について説明する。伸長器Ａ１２２は、Ｍａｉｎｓｔｒｅａｍ９０２から第１伸長フレーム９０３を出力する。また、復号化器９０７は、Ｓｉｄｅｓｔｒｅａｍ９０６を、テンソル等のデータに復号する。最後に、第１伸長フレーム９０３と、復号化器９０７の出力を、デコーダ９０８に入力して、複数フレーム分の最終伸長フレーム９０９を得る。

【0094】

デコーダ９０８は、例えば、サイズが３Ｎ×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを出力することで、Ｎフレーム分の最終伸長フレーム９０９を出力する、２次元Ｔｒａｎｓｐｏｓｅｄ畳み込み層などで構成されたＤＮＮである。また、デコーダ９０８は、複数の３次元テンソルを入力として、サイズが３×Ｈｅｉｇｈｔ×Ｗｉｄｔｈのテンソルを複数個出力する、３次元畳み込み層で構成されたＤＮＮであってもよいし、その他、任意の処理であってもよい。

【0095】

（１－６）ＤＮＮ学習処理
図１０に、ＤＮＮの学習プログラム３１３の概要を示す。以下では、図７に示したフレーム内符号化を例に学習の概要を示すが、図８と図９に示したフレーム間符号化に対しても、同様の方法でＤＮＮを学習させることができる。なお、ＤＮＮの学習方法は、以下で説明するものに限定されるものではなく、如何なる学習データ、Ｏｐｔｉｍｉｚｅｒ、Ｌｏｓｓ関数などを用いたものであってもよい。

【0096】

学習データセット１０００は、ＤＮＮの学習に用いるデータである。元フレーム１００１は、圧縮前の動画のフレームからなるデータである。第１伸長フレーム１００２は、元フレーム１００１を標準コーデックのフレーム内符号化により圧縮伸長して得られるフレームである。

【0097】

ＤＮＮの学習フローを説明する。まず、学習データセット１０００から、学習に用いるバッチサイズ分の元フレーム１００１と、それに対応する第１伸長フレーム１００２を取得する。次に、元フレーム１００１と、第１伸長フレーム１００２を、エンコーダ７０３に入力し、テンソル等のＦｅａｔｕｒｅ１０１０を出力させる。

【0098】

エンコーダ７０３の出力において、Ｆｅａｔｕｒｅ１０１０の値を整数などに量子化する処理が含まれる場合、逆誤差伝播法が可能となるように、学習時には量子化の代わりに、テンソルにノイズを加算するなどの変更がなされてもよい。その他、一般に知られる、逆誤差伝播法を可能とする量子化の近似手法が用いられてもよい。次に、Ｆｅａｔｕｒｅ１０１０と第１伸長フレーム１００２をデコーダ７１３に入力し、最終伸長フレーム１０１１を取得する。

【0099】

次に、取得した最終伸長フレーム１０１１と元フレーム１００１との間の画質を、ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ（ＭＳＥ）１０１４等で定量化する。なお、画質の指標は、ＭＳＥに限定されるものではなく、Ｌ１ノルム、Ｍｕｌｔｉ－ｓｃａｌｅＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙなど、任意の指標でもよい。Ｆｅａｔｕｒｅ１０１０をエントロピー符号化するような符号化器７０４が用いられる場合、Ｆｅａｔｕｒｅ１０１０の各要素の値の発生確率を、ＤＮＮで構成されたＡｕｔｏＲｅｇｒｅｓｓｉｖｅＭｏｄｅｌなどの、エントロピー推定器１０１２により推定する。

【0100】

次に、エントロピー推定器１０１２の推定結果をもとに、Ｆｅａｔｕｒｅ１０１０の符号化後のビット消費量を、ｂｉｔ－ｐｅｒ－ｐｉｘｅｌ（ｂｐｐ）計算器１０１３により算出する。なお、ｂｐｐは、ピクセル当たりのビット消費量を表す指標である。ｂｐｐ計算器１０１３で算出したｂｐｐと、ＭＳＥ１０１４で計算したＭＳＥはＬｏｓｓ関数１０１５に入力され、学習のＬｏｓｓ値が計算される。

【0101】

その後、Ｌｏｓｓ関数の値を基に、逆誤差伝播法などを用いて、エンコーダ７０３、デコーダ７１３、エントロピー推定器１０１２などに含まれるＤＮＮの学習パラメタを更新する。なお、Ｌｏｓｓ関数１０１５の入力は、算出したｂｐｐとＭＳＥに限られるものではなく、ＤＮＮの学習パラメタを入力として、ＷｅｉｇｈｔＤｅｃａｙ等の正則化を学習に反映させてもよい。また、エントロピー推定器１０１２がＨｙｐｅｒＰｒｉｏｒＮｅｔｗｏｒｋである場合は、ＨｙｐｅｒＰｒｉｏｒのｂｐｐを同様に推定し、Ｌｏｓｓ関数１０１５の入力としてもよい。

【0102】

Ｌｏｓｓ関数１０１５は、例えば、ｂｐｐとＭＳＥを、ハイパーパラメタａにより、１次結合する関数（Ｌ＝ＭＳＥ＋ａ×ｂｐｐ）である。ハイパーパラメタａは、Ｓｉｄｅｓｔｒｅａｍ１２６のビット消費量を調整するパラメタである。

【0103】

また、Ｌｏｓｓ関数１０１５として、下記式（１）を用いてもよい。

【0104】

【数1】

【0105】

式（１）を用いることで、ハイパーパラメタａを調整することなく、標準コーデックに対する、本実施例のビット消費量の削減率を最大化するように、ＤＮＮを学習させることができる。式（１）は、最終伸長フレーム１０１１の画質において、標準コーデックのビット消費量に対するビット消費量の割合を、１００分率で表した式である。

【0106】

図１１を用いて、式（１）を説明する。曲線１１００は、学習バッチｘにおける、標準コーデックのレート歪み曲線を表す。関数ｒａｔｅ＿ｘ（ｍｓｅ）は、曲線１１００を表す関数であり、学習バッチｘの画質がｍｓｅとなるように標準コーデックで圧縮伸長したときの、Ｍａｉｎｓｔｒｅａｍ１２６のビット消費量を返す関数である。この関数は、複数のＱＰで学習バッチｘの元フレーム１００１を圧縮したときの、画質とビット消費量の実測値から、４次関数などで補間して求めることができるが、これに限られるものではない。

【0107】

また、補間処理で必要となるＱＰ毎の画質とビット消費量の実測値は、学習データセット１０００に含まれていてもよい。点１１０１は、元フレーム１００１を、標準コーデックにより、第１伸長フレーム１００２に圧縮伸長したときの点であり、そのｂｐｐをｂｐｐ＿ｍａｉｎとする。点１１０２は、元フレーム１００１を本実施例により圧縮伸長したときの点であり、その画質をｍｓｅ＿ｘｈａｔとする。

【0108】

Ｓｉｄｅｓｔｒｅａｍ１２６のビット消費量をｂｐｐ＿ｓｉｄｅとすると、本実施例のビット消費量は、ｂｐｐ＿ｍａｉｎ＋ｂｐｐ＿ｓｉｄｅとなり、式（１）の分子に相当する。標準コーデックにより、元フレーム１００１を圧縮伸長して、画質をｍｓｅ＿ｘｈａｔとするときのビット消費量は、ｒａｔｅ＿ｘ（ｍｓｅ＿ｘｈａｔ）と推定でき、式（１）の分母に相当する。

【0109】

つまり、式（１）をＬｏｓｓ関数１０１５として用いることで、画質を同等としたときに、標準コーデックに対して本実施例のビット消費量の割合が最小となるような、Ｓｉｄｅｓｔｒｅａｍ１２６のビット消費量となるように、ＤＮＮを学習させることができる。なお、Ｌｏｓｓ関数１０１５は、以上で説明した関数に限られるものではなく、他の関数であってもよい。

【0110】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【0111】

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

【0112】

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

【符号の説明】

【0113】

１００データ生成源
１０２圧縮部
１０３伸長部
１０４蓄積・通信部
１０５ストレージ
１２０、１２５圧縮器
１２２伸長器
１２３第２圧縮ユニット
１２４画質改善情報抽出器
１２８圧縮パラメタ設定器
２２１、２３１プロセッサ
２２３、２３３ＲＡＭ

【図1】