(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置
(51)【国際特許分類】
H04N 19/102 20140101AFI20241008BHJP
H04N 19/46 20140101ALI20241008BHJP
【FI】
H04N19/102
H04N19/46
(21)【出願番号】P 2023515521
(86)(22)【出願日】2022-04-21
(86)【国際出願番号】 JP2022018475
(87)【国際公開番号】W WO2022225025
(87)【国際公開日】2022-10-27
【審査請求日】2023-10-13
(32)【優先日】2021-04-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-04-23
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100115381
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100136353
【氏名又は名称】高尾 建吾
(72)【発明者】
【氏名】テオ ハン ブン
(72)【発明者】
【氏名】リム チョン スン
(72)【発明者】
【氏名】ワン チュ トン
(72)【発明者】
【氏名】安倍 清史
【審査官】田中 純一
(56)【参考文献】
【文献】国際公開第2020/261314(WO,A1)
【文献】国際公開第2020/061005(WO,A1)
【文献】特表2020-537445(JP,A)
【文献】国際公開第2018/199051(WO,A1)
【文献】特表2007-503784(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/12
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
画像復号装置が、
画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、
受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、
復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、
復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する、画像復号方法。
【請求項2】
前記画像復号装置は、前記複数の特徴マップの各々のインデックス情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する、請求項1に記載の画像復号方法。
【請求項3】
前記画像復号装置は、前記複数の特徴マップの各々のサイズ情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する、請求項1に記載の画像復号方法。
【請求項4】
前記画像復号装置は、前記第1の特徴マップを用いたインター予測によって前記第2の特徴マップを復号する、請求項1に記載の画像復号方法。
【請求項5】
前記画像復号装置は、イントラ予測によって前記第1の特徴マップ及び前記第2の特徴マップを復号する、請求項1に記載の画像復号方法。
【請求項6】
前記複数の特徴マップの各々は、前記画像に関する複数の特徴画像を含む、請求項1に記載の画像復号方法。
【請求項7】
前記画像復号装置は、
前記複数の特徴画像を復号し、
復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数の特徴マップの各々を構築する、請求項6に記載の画像復号方法。
【請求項8】
前記複数の特徴マップの各々は、複数のセグメントを含み、
前記複数のセグメントの各々は、前記複数の特徴画像を含み、
前記画像復号装置は、
復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数のセグメントの各々を構築し、
前記複数のセグメントを所定の順序で配列することによって、前記複数の特徴マップの各々を構築する、請求項7に記載の画像復号方法。
【請求項9】
前記画像復号装置は、
復号した前記複数の特徴画像の各々のサイズに基づいて、前記所定の走査順序の昇順又は降順を切り替える、請求項7に記載の画像復号方法。
【請求項10】
前記ビットストリームは、前記所定の走査順序の昇順又は降順を設定する順序情報を含み、
前記画像復号装置は、
前記順序情報に基づいて、前記所定の走査順序の昇順又は降順を切り替える、請求項7に記載の画像復号方法。
【請求項11】
前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記画像復号装置は、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する一定の復号ブロックサイズで、前記複数の特徴画像を復号する、請求項7に記載の画像復号方法。
【請求項12】
前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、
前記画像復号装置は、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する、請求項7に記載の画像復号方法。
【請求項13】
前記所定の走査順序は、ラスタ走査順序である、請求項7に記載の画像復号方法。
【請求項14】
前記所定の走査順序は、Z走査順序である、請求項7に記載の画像復号方法。
【請求項15】
前記ビットストリームは前記画像の符号化データを含み、
前記画像復号装置は、
受信した前記ビットストリームに基づいて、前記画像を復号し、
前記複数の特徴マップの復号と、前記画像の復号とを、共通の復号処理部を用いて実行する、請求項1に記載の画像復号方法。
【請求項16】
前記第1のタスク処理及び前記第2のタスク処理は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含む、請求項1~15のいずれか一つに記載の画像復号方法。
【請求項17】
画像符号化装置が、
画像に関する第1の特徴マップを符号化し、
前記画像に関する第2の特徴マップを符号化し、
前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、
生成した前記ビットストリームを画像復号装置に向けて送信する、画像符号化方法。
【請求項18】
画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、
受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、
復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、
復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する、画像復号装置。
【請求項19】
画像に関する第1の特徴マップを符号化し、
前記画像に関する第2の特徴マップを符号化し、
前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、
生成した前記ビットストリームを画像復号装置に向けて送信する、画像符号化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置に関する。
【背景技術】
【0002】
ニューラルネットワークは、データセットにおける基礎となる関係を、人間の脳の処理方法を模倣するプロセスを介して認識しようとする一連のアルゴリズムである。この意味で、ニューラルネットワークは、本質的に有機的又は人工的なニューロンのシステムを指す。ディープラーニングにおけるニューラルネットワークの異なるタイプ、例えば、コンボリューションニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、人工ニューラルネットワーク(ANN)は、我々が世界と相互作用する方法を変化させる。これらの異なるタイプのニューラルネットワークは、ディープラーニング革命、無人航空機、自律走行車、音声認識等のパワーアプリケーションの核心となる。積層された複数の層から成るCNNは、視覚画像の解析に最も一般的に適用されるディープニューラルネットワークのクラスである。
【0003】
特徴画像は、画像又はそれに含まれるオブジェクトの特徴を示した特有の表現である。例えば、ニューラルネットワークの畳み込み層において、所望のフィルタを画像全体に適用した出力として特徴画像が得られる。複数の畳み込み層において複数のフィルタを適用することによって複数の特徴画像が得られ、それら複数の特徴画像を配列することによって特徴マップを作成することができる。
【0004】
特徴マップは、通常、ニューラルネットワークタスク等のタスク処理を実行するタスク処理装置に関連付けられる。このセットアップは、通常、特定の機械分析タスクのための最良の推論結果を可能にする。
【0005】
エンコーダ側で作成した特徴マップをデコーダ側で利用する場合には、エンコーダは、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームをデコーダに向けて送信する。デコーダは、受信したビットストリームに基づいて特徴マップを復号する。デコーダは、復号した特徴マップを、ニューラルネットワークタスク等の所定のタスク処理を実行するタスク処理装置に入力する。
【0006】
背景技術では、デコーダ側において複数のタスク処理装置が複数の特徴マップを用いて複数のニューラルネットワークタスクを実行する場合には、複数のタスク処理装置の各々に対応してエンコーダとデコーダのセットを複数セット実装する必要があり、システム構成が複雑化する。
【0007】
なお、背景技術に係る画像符号化システムアーキテクチャは、例えば特許文献1,2に開示されている。
【先行技術文献】
【特許文献】
【0008】
【文献】米国特許第2010/0046635号明細書
【文献】米国特許第2021/0027470号明細書
【発明の概要】
【0009】
本開示は、システム構成を簡略化することを目的とする。
【0010】
本開示の一態様に係る画像復号方法は、画像復号装置が、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する。
【図面の簡単な説明】
【0011】
【
図1】本開示の第1実施形態に係る画像復号方法の処理手順を示すフローチャートである。
【
図2】本開示の第1実施形態に係る画像符号化方法の処理手順を示すフローチャートである。
【
図3】背景技術に係る画像処理システムの構成例を示す図である。
【
図4】本開示の第1実施形態に係る画像処理システムの構成例を示す図である。
【
図5】符号化装置及び復号装置の第1の構成例を示す図である。
【
図6】符号化装置及び復号装置の第2の構成例を示す図である。
【
図7】本開示の第1実施形態に係るビデオデコーダの構成を示すブロック図である。
【
図8】本開示の第1実施形態に係るビデオエンコーダの構成を示すブロック図である。
【
図9】特徴マップの作成処理の第1の例を示す図である。
【
図10】特徴マップの作成処理の第1の例を示す図である。
【
図13】特徴マップの作成処理の第2の例を示す図である。
【
図14】特徴マップの作成処理の第2の例を示す図である。
【
図15】ニューラルネットワークタスクの一例を示す図である。
【
図16】ニューラルネットワークタスクの一例を示す図である。
【
図17】インター予測及びイントラ予測の双方を利用する例を示す図である。
【
図18】本開示の第2実施形態に係る画像復号方法の処理手順を示すフローチャートである。
【
図19】本開示の第2実施形態に係る画像符号化方法の処理手順を示すフローチャートである。
【
図20】本開示の第2実施形態に係る画像処理システムの構成例を示す図である。
【
図21】本開示の第2実施形態に係る復号装置の構成を示すブロック図である。
【
図22】本開示の第2実施形態に係る符号化装置の構成を示すブロック図である。
【
図24】特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。
【
図25】特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。
【
図28】複数のセグメントへの分割の例を示す図である。
【
図29】複数のセグメントへの分割の例を示す図である。
【
図30】複数のセグメントへの分割の例を示す図である。
【
図31】1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。
【
図32】1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。
【発明を実施するための形態】
【0012】
(本開示の基礎となった知見)
図3は、背景技術に係る画像処理システム1100の構成例を示す図である。画像処理システム1100は、デコーダ側においてニューラルネットワークタスク等の所定のタスク処理を実行する複数のタスク処理部1103A~1103Nを備えている。例えば、タスク処理部1103Aは顔のランドマークの検出処理を実行し、タスク処理部1103Bは顔の向きの検出処理を実行する。また、画像処理システム1100は、複数のタスク処理部1103A~1103Nの各々に対応して、符号化装置1101A~1101Nと復号装置1102A~1102Nのセットを備えている。
【0013】
例えば、符号化装置1101Aは、入力された画像又は特徴に基づいて特徴マップAを作成し、作成した特徴マップAを符号化することによって、特徴マップAの符号化データを含むビットストリームを復号装置1102Aに向けて送信する。復号装置1102Aは、受信したビットストリームに基づいて特徴マップAを復号し、復号した特徴マップAをタスク処理部1103Aに入力する。タスク処理部1103Aは、入力された特徴マップAを用いて所定のタスク処理を実行することにより、その推定結果を出力する。
【0014】
図3に示した背景技術の課題は、複数のタスク処理部1103A~1103Nの各々に対応して符号化装置1101A~1101Nと復号装置1102A~1102Nのセットを複数セット実装する必要があり、システム構成が複雑化することである。
【0015】
かかる課題を解決するために、本発明者は、画像符号化装置が複数の特徴マップを同一のビットストリームに含めて画像復号装置に向けて送信し、画像復号装置は、復号した複数の特徴マップから所望の特徴マップを選択して複数のタスク処理装置の各々に入力するという新しい方法を導入した。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がなく、画像符号化装置と画像復号装置のセットは1セットで足りるため、システム構成を簡略化することができる。
【0016】
次に、本開示の各態様について説明する。
【0017】
本開示の一態様に係る画像復号方法は、画像復号装置が、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する。
【0018】
本態様によれば、画像復号装置は、復号した複数の特徴マップから第1の特徴マップを選択して第1のタスク処理装置に向けて出力し、復号した複数の特徴マップから第2の特徴マップを選択して第2のタスク処理装置に向けて出力する。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
【0019】
上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のインデックス情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する。
【0020】
本態様によれば、インデックス情報を用いることにより、特徴マップの選択を適切に実行することができる。
【0021】
上記態様において、前記画像復号装置は、前記複数の特徴マップの各々のサイズ情報に基づいて、前記第1の特徴マップ及び前記第2の特徴マップを選択する。
【0022】
本態様によれば、サイズ情報を用いることにより、特徴マップの選択を簡易に実行することができる。
【0023】
上記態様において、前記画像復号装置は、前記第1の特徴マップを用いたインター予測によって前記第2の特徴マップを復号する。
【0024】
本態様によれば、特徴マップの復号にインター予測を用いることにより、符号量を削減することができる。
【0025】
上記態様において、前記画像復号装置は、イントラ予測によって前記第1の特徴マップ及び前記第2の特徴マップを復号する。
【0026】
本態様によれば、特徴マップの復号にイントラ予測を用いることにより、複数の特徴マップをそれぞれ独立して復号することができる。
【0027】
上記態様において、前記複数の特徴マップの各々は、前記画像に関する複数の特徴画像を含む。
【0028】
本態様によれば、タスク処理装置は各特徴マップに含まれる複数の特徴画像を用いてタスク処理を実行できるため、タスク処理の精度を向上することができる。
【0029】
上記態様において、前記画像復号装置は、前記複数の特徴画像を復号し、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数の特徴マップの各々を構築する。
【0030】
本態様によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。
【0031】
上記態様において、前記複数の特徴マップの各々は、複数のセグメントを含み、前記複数のセグメントの各々は、前記複数の特徴画像を含み、前記画像復号装置は、復号した前記複数の特徴画像を所定の走査順序で配列することによって、前記複数のセグメントの各々を構築し、前記複数のセグメントを所定の順序で配列することによって、前記複数の特徴マップの各々を構築する。
【0032】
本態様によれば、セグメント単位でストリームを区切る処理、又はセグメント単位で復号処理を制御することが可能となり、柔軟なシステム構成を実現することができる。
【0033】
上記態様において、前記画像復号装置は、復号した前記複数の特徴画像の各々のサイズに基づいて、前記所定の走査順序の昇順又は降順を切り替える。
【0034】
本態様によれば、各特徴画像のサイズに基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。
【0035】
上記態様において、前記ビットストリームは、前記所定の走査順序の昇順又は降順を設定する順序情報を含み、前記画像復号装置は、前記順序情報に基づいて、前記所定の走査順序の昇順又は降順を切り替える。
【0036】
本態様によれば、順序情報に基づいて走査順序の昇順又は降順を切り替えることにより、特徴マップを適切に構築することが可能となる。
【0037】
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズのうち最小のサイズに対応する一定の復号ブロックサイズで、前記複数の特徴画像を復号する。
【0038】
本態様によれば、一定の復号ブロックサイズで複数の特徴画像を復号することにより、画像復号装置の装置構成を簡略化することができる。
【0039】
上記態様において、前記複数の特徴画像は、サイズが異なる複数種類の特徴画像を含み、前記画像復号装置は、前記複数種類の特徴画像の複数のサイズに対応する複数の復号ブロックサイズで、前記複数の特徴画像を復号する。
【0040】
本態様によれば、各特徴画像のサイズに対応する復号ブロックサイズで各特徴画像を復号することにより、復号ブロック毎に必要となるヘッダを削減でき、また、大面積での符号化が可能となるため圧縮効率を向上できる。
【0041】
上記態様において、前記所定の走査順序は、ラスタ走査順序である。
【0042】
本態様によれば、ラスタ走査順序を用いることにより、GPU等による高速な処理が可能となる。
【0043】
上記態様において、前記所定の走査順序は、Z走査順序である。
【0044】
本態様によれば、Z走査順序を用いることにより、一般的なビデオコーデックへの対応が可能となる。
【0045】
上記態様において、前記ビットストリームは前記画像の符号化データを含み、前記画像復号装置は、受信した前記ビットストリームに基づいて、前記画像を復号し、前記複数の特徴マップの復号と、前記画像の復号とを、共通の復号処理部を用いて実行する。
【0046】
本態様によれば、特徴マップの復号と画像の復号とを共通の復号処理部を用いて実行することにより、画像復号装置の装置構成を簡略化することができる。
【0047】
上記態様において、前記第1のタスク処理及び前記第2のタスク処理は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、及びハイブリッドビジョンの少なくとも1つを含む。
【0048】
本態様によれば、これらの各処理の精度を向上することが可能となる。
【0049】
本開示の一態様に係る画像符号化方法は、画像符号化装置が、画像に関する第1の特徴マップを符号化し、前記画像に関する第2の特徴マップを符号化し、前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。
【0050】
本態様によれば、画像符号化装置は、第1の特徴マップ及び第2の特徴マップの符号化データを含むビットストリームを画像復号装置に向けて送信する。これにより、画像復号装置側に実装される複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
【0051】
本開示の一態様に係る画像復号装置は、画像に関する複数の特徴マップの符号化データを含むビットストリームを、画像符号化装置から受信し、受信した前記ビットストリームに基づいて、前記複数の特徴マップを復号し、復号した前記複数の特徴マップから第1の特徴マップを選択し、前記第1の特徴マップを、前記第1の特徴マップに基づいて第1のタスク処理を実行する第1のタスク処理装置に向けて出力し、復号した前記複数の特徴マップから第2の特徴マップを選択し、前記第2の特徴マップを、前記第2の特徴マップに基づいて第2のタスク処理を実行する第2のタスク処理装置に向けて出力する。
【0052】
本態様によれば、画像復号装置は、復号した複数の特徴マップから第1の特徴マップを選択して第1のタスク処理装置に向けて出力し、復号した複数の特徴マップから第2の特徴マップを選択して第2のタスク処理装置に向けて出力する。これにより、複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
【0053】
本開示の一態様に係る画像符号化装置は、画像に関する第1の特徴マップを符号化し、前記画像に関する第2の特徴マップを符号化し、前記第1の特徴マップ及び前記第2の特徴マップの符号化データを含むビットストリームを生成し、生成した前記ビットストリームを画像復号装置に向けて送信する。
【0054】
本態様によれば、画像符号化装置は、第1の特徴マップ及び第2の特徴マップの符号化データを含むビットストリームを画像復号装置に向けて送信する。これにより、画像復号装置側に実装される複数のタスク処理装置の各々に対応して画像符号化装置と画像復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
【0055】
(本開示の実施形態)
以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。
【0056】
なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。
【0057】
(第1実施形態)
図4は、本開示の第1実施形態に係る画像処理システム1200の構成例を示す図である。画像処理システム1200は、画像符号化装置としての符号化装置1201と、画像復号装置としての復号装置1202と、タスク処理装置としての複数のタスク処理部1203A~1203Nとを備えている。
【0058】
符号化装置1201は、入力された画像又は特徴に基づいて複数の特徴マップA~Nを作成する。符号化装置1201は、作成した特徴マップA~Nを符号化することによって、特徴マップA~Nの符号化データを含むビットストリームを生成する。符号化装置1201は、生成したビットストリームを復号装置1202に向けて送信する。復号装置1202は、受信したビットストリームに基づいて特徴マップA~Nを復号する。復号装置1202は、復号した特徴マップA~Nから第1の特徴マップとして特徴マップAを選択し、選択した特徴マップAを第1のタスク処理装置としてタスク処理部1203Aに入力する。また、復号装置1202は、復号した特徴マップA~Nから第2の特徴マップとして特徴マップBを選択し、選択した特徴マップBを第2のタスク処理装置としてタスク処理部1203Bに入力する。タスク処理部1203Aは、入力された特徴マップAに基づいてニューラルネットワークタスク等の第1のタスク処理を実行し、その推定結果を出力する。タスク処理部1203Bは、入力された特徴マップBに基づいてニューラルネットワークタスク等の第2のタスク処理を実行し、その推定結果を出力する。
【0059】
図5は、符号化装置1201及び復号装置1202の第1の構成例を示す図である。符号化装置1201は、画像符号化部1305、特徴抽出部1302、特徴変換部1303、特徴符号化部1304、及び送信部1306を備えている。復号装置1202は、受信部1309、画像復号部1308、及び特徴復号部1307を備えている。
【0060】
画像符号化部1305及び特徴抽出部1302には、カメラ1301から画像のデータが入力される。画像符号化部1305は、入力画像を符号化し、その符号化データを送信部1306に入力する。なお、画像符号化部1305は、一般的なビデオコーデック又は静止画コーデックをそのまま使用したものであっても良い。特徴抽出部1302は、入力画像からその画像の特徴を示す複数の特徴画像を抽出し、抽出した複数の特徴画像を特徴変換部1303に入力する。特徴変換部1303は、複数の特徴画像を配列することによって特徴マップを生成する。特徴変換部1303は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを特徴符号化部1304に入力する。特徴符号化部1304は、入力された複数の特徴マップを符号化し、その符号化データを送信部1306に入力する。送信部1306は、入力画像の符号化データと複数の特徴マップの符号化データとを含むビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信する。
【0061】
受信部1309は、符号化装置1201から送信されたビットストリームを受信し、受信したビットストリームを画像復号部1308及び特徴復号部1307に入力する。画像復号部1308は、入力されたビットストリームに基づいて画像を復号する。特徴復号部1307は、入力されたビットストリームに基づいて複数の特徴マップを復号する。
【0062】
なお、
図5に示した例では、画像及び特徴マップの双方を符号化及び復号する構成としたが、人間の視覚のための画像表示が不要な場合は、特徴マップのみを符号化及び復号する構成としても良い。その場合、画像符号化部1305及び画像復号部1308を省略した構成としても良い。
【0063】
図6は、符号化装置1201及び復号装置1202の第2の構成例を示す図である。符号化装置1201に関し、
図5に示した構成から特徴符号化部1304が省略されている。また、復号装置1202に関し、
図5に示した構成から特徴復号部1307が省略されている。
【0064】
特徴変換部1303は、一の入力画像に対して複数の特徴マップを生成し、生成した複数の特徴マップを画像符号化部1305に入力する。画像符号化部1305は、入力画像及び複数の特徴マップを符号化し、入力画像及び複数の特徴マップの符号化データを送信部1306に入力する。送信部1306は、入力画像及び複数の特徴マップの符号化データを含むビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信する。
【0065】
受信部1309は、符号化装置1201から送信されたビットストリームを受信し、受信したビットストリームを画像復号部1308に入力する。画像復号部1308は、入力されたビットストリームに基づいて画像及び複数の特徴マップを復号する。つまり、
図6に示した構成では、復号装置1202は、画像の復号と複数の特徴マップの復号とを、共通の復号処理部としての画像復号部1308を用いて実行する。
【0066】
図8は、本開示の第1実施形態に係るビデオエンコーダの構成を示すブロック図である。また、
図2は、本開示の第1実施形態に係る画像符号化方法の処理手順2000を示すフローチャートである。
【0067】
図8に示すように、ビデオエンコーダは、符号化装置1201と、復号部2402と、選択部2403と、複数のタスク処理部2404A~2404Nとを備えている。選択部2403は復号部2402内に実装されていても良い。ビデオエンコーダは、入力された画像又は特徴に基づいて複数の特徴マップA~Nを作成し、作成した複数の特徴マップA~Nを符号化することによってビットストリームを生成し、生成したビットストリームを復号装置1202に向けて送信するよう構成される。さらに、ビデオエンコーダは、生成したビットストリームに基づいて複数の特徴マップA~Nを復号し、復号した複数の特徴マップA~Nをタスク処理部2404A~2404Nに入力し、タスク処理部2404A~2404Nがニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。
【0068】
図2のステップS2001において、符号化装置1201には、画像又は特徴が入力される。符号化装置1201は、入力された画像又は特徴に基づいて、複数の特徴マップA~Nを作成する。符号化装置1201は、作成した特徴マップA~Nをブロック単位で符号化することによって、特徴マップA~Nの符号化データを含むビットストリームを生成する。符号化装置1201は、生成したビットストリームを復号装置1202に向けて送信する。
【0069】
より具体的には、符号化装置1201は、入力画像に関する複数の特徴マップを符号化する。各特徴マップは、画像に関する特有の属性を示し、各特徴マップは、例えば算術符号化される。算術符号化は、例えばコンテキスト適応2進算術符号化(CABAC)である。
【0070】
図9及び
図10は、特徴マップの作成処理の第1の例を示す図である。特徴マップは、複数の畳み込み層、複数のプーリング層、及び全結合層を有する畳み込みニューラルネットワークを用いて作成される。特徴マップは、入力画像に関する複数の特徴画像F1~F108を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの階層ごとに異なっていても良い。例えば、上位の畳み込み層X及びプーリング層Xにおける特徴画像F1~F12の水平サイズX1及び垂直サイズX2は、下位の畳み込み層Y及びプーリング層Yにおける特徴画像F13~F36の水平サイズY1及び垂直サイズY2より大きい。また、水平サイズY1及び垂直サイズY2は、全結合層における特徴画像F37~F108の水平サイズZ1及び垂直サイズZ2より大きい。
【0071】
例えば、複数の特徴画像F1~F108は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
【0072】
図13及び
図14は、特徴マップの作成処理の第2の例を示す図であり、入力画像から特徴を抽出するフィルタ処理の例が示されている。抽出された特徴は、入力画像に関する測定可能で特徴的な属性を示す。
図13及び
図14に示すように、入力画像に対して所望のフィルタサイズのドットフィルタ、垂直ラインフィルタ、又は水平ラインフィルタを適用することによって、ドット成分が抽出された特徴画像、垂直ライン成分が抽出された特徴画像、又は水平ライン成分が抽出された特徴画像を生成することができる。生成した複数の特徴画像を配列することによって、フィルタ処理に基づいて特徴マップを生成することができる。
【0073】
図8を参照して、復号部2402には、複数の特徴マップA~Nの符号化データを含むビットストリームが入力される。復号部2402は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号部2402は、入力されたビットストリームから複数の特徴マップA~Nを復号し、復号した特徴マップA~Nを選択部2403に入力する。同じタイムインスタンスの複数の特徴マップA~Nは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップA~Nは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第1の特徴マップを用いたインター予測によって第2の特徴マップを復号することができる。選択部2403は、復号された複数の特徴マップA~Nの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部2404A~2404Nに入力する。
【0074】
図17は、インター予測及びイントラ予測の双方を利用する例を示す図である。入力画像I01に基づいて複数の特徴マップFM01a~FM01fが生成され、入力画像I02に基づいて複数の特徴マップFM02a~FM02fが生成され、入力画像I03に基づいて複数の特徴マップFM03a~FM03fが生成される。
図17のうち網掛けのハッチングを付した特徴マップ又は特徴画像はイントラ予測によって符号化され、網掛けのハッチングを付していない特徴マップ又は特徴画像はインター予測によって符号化される。インター予測は、同一時間(同じタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良いし、異なる時間(異なるタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良い。
【0075】
図11は、選択部2403の動作の第1の例を示す図である。選択部2403は、各特徴マップA~Nに付加されているインデックス情報IA~INに基づいて、特徴マップA~Nの選択を行う。インデックス情報IA~INは、ID、カテゴリ、式、又は複数の特徴マップA~Nの各々を区別する任意の固有の表現であって良い。選択部2403は、インデックス情報IA~INとタスク処理部2404A~2404Nとの対応関係を示すテーブル情報を保持しており、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているインデックス情報IA~INと、当該テーブル情報とに基づいて、各タスク処理部2404A~2404Nに入力すべき特徴マップA~Nを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。
【0076】
図12は、選択部2403の動作の第2の例を示す図である。選択部2403は、各特徴マップA~Nの解像度又は特徴画像数等のサイズ情報SA~SNに基づいて、特徴マップA~Nの選択を行う。解像度は、112×112、56×56、又は14×14等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部2404A~2404Nに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部2403が保持している。選択部2403は、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているサイズ情報SA~SNと、当該設定情報とに基づいて、各タスク処理部2404A~2404Nに入力すべき特徴マップA~Nを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。
【0077】
なお、選択部2403は、インデックス情報IA~IN及びサイズ情報SA~SNの組合せに基づいて特徴マップA~Nの選択を行っても良い。
【0078】
図2のステップS2002において、タスク処理部2404Aは、入力された特徴マップAに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第1のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
【0079】
図15は、ニューラルネットワークタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。オブジェクト検出では、入力画像に含まれるオブジェクトの属性(この例ではテレビ及び人物)が検出される。入力画像に含まれるオブジェクトの属性に加え、入力画像中のオブジェクトの位置や個数が検出されても良い。これにより、例えば、認識対象のオブジェクトの位置を絞り込んだり、認識対象以外のオブジェクトを排除したりしても良い。具体的な用途としては、例えば、カメラにおける顔の検出や、自動運転での歩行者等の検出が考えられる。オブジェクトセグメンテーションでは、オブジェクトに対応する領域の画素がセグメント化(つまり区分け)される。これにより、例えば、自動運転において障害物と道路を分離し、自動車の安全な走行の援助を行ったり、工場における製品の欠陥を検出したり、衛星画像中の地形の識別を行う等の用途が考えられる。
【0080】
図16は、ニューラルネットワークタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。オブジェクトトラッキングでは、入力画像に含まれるオブジェクトの移動が追跡される。用途としては、例えば、店舗等の施設の利用者数の計数やスポーツ選手の動きの分析といったものが考えられる。更に処理を高速化すれば、リアルタイムにオブジェクトの追跡が可能となり、オートフォーカス等のカメラ処理への応用も可能となる。アクション認識では、オブジェクトの動作の種別(この例では「自転車に乗っている」「歩行している」)が検出される。例えば、防犯カメラに利用することで、強盗や万引き等の犯罪行動の防止及び検出、工場での作業忘れ防止といった用途に適用できる。ポーズ推定では、キーポイント及びジョイントの検出によってオブジェクトの姿勢が検出される。例えば、工場における作業効率の改善等の産業分野や、異常行動の検知といったセキュリティ分野、ヘルスケア及びスポーツといった分野での活用が考えられる。
【0081】
タスク処理部2404Aは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
【0082】
図2のステップS2003において、タスク処理部2404Bは、入力された特徴マップBに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第2のタスク処理を実行する。第1のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部2404Bは、ニューラルネットワークタスクの実行結果を示す信号を出力する。
【0083】
なお、
図8に示した構成では、復号部2402と選択部2403と複数のタスク処理部2404A~2404Nとを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオデコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、復号部2402と選択部2403と複数のタスク処理部2404A~2404Nとを省略した構成としても良い。同様に、
図2に示した処理手順2000において、ニューラルネットワークタスクを実行する必要がない場合は、ステップS2002とステップS2003とを省略した構成としても良い。
【0084】
図7は、本開示の第1実施形態に係るビデオデコーダの構成を示すブロック図である。また、
図1は、本開示の第1実施形態に係る画像復号方法の処理手順1000を示すフローチャートである。
【0085】
図7に示すように、ビデオデコーダは、復号装置1202と、選択部1400と、複数のタスク処理部1203A~1203Nとを備えている。選択部1400は復号装置1202内に実装されていても良い。ビデオデコーダは、受信したビットストリームに基づいて複数の特徴マップA~Nを復号し、復号した複数の特徴マップA~Nをタスク処理部1203A~1203Nに入力し、タスク処理部1203A~1203Nがニューラルネットワークタスクを実行することにより推定結果を出力するよう構成される。
【0086】
復号装置1202には、複数の特徴マップA~Nの符号化データを含むビットストリームが入力される。復号装置1202は、入力されたビットストリームから必要に応じて画像を復号し、人間の視覚のための画像信号を表示装置へ向けて出力する。また、復号装置1202は、入力されたビットストリームから複数の特徴マップA~Nを復号し、復号した特徴マップA~Nを選択部1400に入力する。同じタイムインスタンスの複数の特徴マップA~Nは、独立に復号することができる。独立復号の一例は、イントラ予測を使用することである。また、同じタイムインスタンスの複数の特徴マップA~Nは、相関して復号することができる。相関復号の一例は、インター予測を使用することであり、第1の特徴マップを用いたインター予測によって第2の特徴マップを復号することができる。選択部1400は、復号された複数の特徴マップA~Nの中から所望の特徴マップを選択し、選択した特徴マップを各タスク処理部1203A~1203Nに入力する。
【0087】
図17は、インター予測及びイントラ予測の双方を利用する例を示す図である。入力画像I01に基づいて複数の特徴マップFM01a~FM01fが生成され、入力画像I02に基づいて複数の特徴マップFM02a~FM02fが生成され、入力画像I03に基づいて複数の特徴マップFM03a~FM03fが生成される。
図17のうち網掛けのハッチングを付した特徴マップ又は特徴画像はイントラ予測によって符号化され、網掛けのハッチングを付していない特徴マップ又は特徴画像はインター予測によって符号化される。インター予測は、同一時間(同じタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良いし、異なる時間(異なるタイムインスタンス)の入力画像に対応する他の特徴マップ又は特徴画像を利用しても良い。
【0088】
図11は、選択部1400の動作の第1の例を示す図である。選択部1400は、各特徴マップA~Nに付加されているインデックス情報IA~INに基づいて、特徴マップA~Nの選択を行う。インデックス情報IA~INは、ID、カテゴリ、式、又は複数の特徴マップA~Nの各々を区別する任意の固有の表現であって良い。選択部1400は、インデックス情報IA~INとタスク処理部1203A~1203Nとの対応関係を示すテーブル情報を保持しており、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているインデックス情報IA~INと、当該テーブル情報とに基づいて、各タスク処理部1203A~1203Nに入力すべき特徴マップA~Nを選択する。なお、当該テーブル情報もビットストリームのヘッダ等に記述されても良い。
【0089】
図12は、選択部1400の動作の第2の例を示す図である。選択部1400は、各特徴マップA~Nの解像度又は特徴画像数等のサイズ情報SA~SNに基づいて、特徴マップA~Nの選択を行う。解像度は、112×112、56×56、又は14×14等の特徴マップの画素数である。特徴画像数は、各特徴マップに含まれている複数の特徴画像の数である。各タスク処理部1203A~1203Nに入力可能な特徴マップのサイズは互いに異なり、その設定情報は選択部1400が保持している。選択部1400は、各特徴マップA~Nを構成するビットストリームのヘッダ等に付加されているサイズ情報SA~SNと、当該設定情報とに基づいて、各タスク処理部1203A~1203Nに入力すべき特徴マップA~Nを選択する。なお、当該設定情報もビットストリームのヘッダ等に記述されても良い。
【0090】
なお、選択部1400は、インデックス情報IA~IN及びサイズ情報SA~SNの組合せに基づいて特徴マップA~Nの選択を行っても良い。
【0091】
図1のステップS1002において、タスク処理部1203Aは、入力された特徴マップAに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第1のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。ニューラルネットワークタスクの一例は、
図15及び
図16と同様である。
【0092】
タスク処理部1203Aは、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
【0093】
図1のステップS1003において、タスク処理部1203Bは、入力された特徴マップBに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の第2のタスク処理を実行する。第1のタスク処理と同様、ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。タスク処理部1203Bは、ニューラルネットワークタスクの実行結果を示す信号を出力する。
【0094】
本実施形態によれば、符号化装置1201は、第1の特徴マップA及び第2の特徴マップBの符号化データを含むビットストリームを復号装置1202に向けて送信する。また、復号装置1202は、復号した複数の特徴マップA~Nから第1の特徴マップAを選択して第1のタスク処理部1203Aに向けて出力し、復号した複数の特徴マップA~Nから第2の特徴マップBを選択して第2のタスク処理部1203Bに向けて出力する。これにより、複数のタスク処理部1203A~1203Nの各々に対応して符号化装置と復号装置のセットを複数セット実装する必要がないため、システム構成を簡略化することができる。
【0095】
(第2実施形態)
一般的にビデオコーデックはメモリ容量に制約があるため、画像の符号化はZ走査順序で行われることが多い。しかし、大容量のメモリを備えるGPUを用いてシステムを構築する場合には、Z走査順序ではなくラスタ走査順序を用いて入力された画像又は特徴を連続してGPUのメモリにロードしたほうが、高速な処理が可能となる。そこで本実施形態では、複数の特徴画像を所定の走査順序で配列して特徴マップを構築する処理において、一般的なZ走査順序と高速なラスタ走査順序とを切り替え可能なシステムについて説明する。本実施形態は、少なくとも1つのタスク処理部を備える画像処理システムに適用可能である。
【0096】
図20は、本開示の第2実施形態に係る画像処理システム2100の構成例を示す図である。画像処理システム2100は、画像符号化装置としての符号化装置2101と、画像復号装置としての復号装置2102と、タスク処理装置としてのタスク処理部2103とを備えている。上記第1実施形態と同様に、タスク処理部2103は複数備えられても良い。
【0097】
符号化装置2101は、入力された画像又は特徴に基づいて特徴マップを作成する。符号化装置2101は、作成した特徴マップを符号化することによって、特徴マップの符号化データを含むビットストリームを生成する。符号化装置2101は、生成したビットストリームを復号装置2102に向けて送信する。復号装置2102は、受信したビットストリームに基づいて特徴マップを復号する。復号装置2102は、復号した特徴マップをタスク処理部2103に入力する。タスク処理部2103は、入力された特徴マップに基づいてニューラルネットワークタスク等の所定のタスク処理を実行し、その推定結果を出力する。
【0098】
図22は、本開示の第2実施形態に係る符号化装置2101の構成を示すブロック図である。また、
図19は、本開示の第2実施形態に係る画像符号化方法の処理手順4000を示すフローチャートである。
【0099】
図22に示すように、符号化装置2101は、走査順序設定部3201、走査部3202、及びエントロピ符号化部3203を備えている。また、符号化装置2101は、再構築部3204及びタスク処理部3205を備えていても良い。
【0100】
走査順序設定部3201には、特徴マップが入力される。
図10に示したように、特徴マップは、複数の特徴画像F1~F108が所定の走査順序で配列されることによって構築されている。
【0101】
図23は、特徴マップの他の例を示す図である。特徴マップは、入力画像に関する複数の特徴画像F1~F36を含む。各特徴画像の解像度及び特徴画像の数は、ニューラルネットワークの全階層に関して同一であっても良い。特徴画像F1~F36はいずれも、同一の水平サイズX1及び垂直サイズX2を有している。
【0102】
図19のステップS4001において、走査順序設定部3201は、符号化装置2101と復号装置2102との間で予め定められた規則に従って、特徴マップを複数の特徴画像に分割するための走査順序を設定する。なお、走査順序設定部3201は、特徴マップを複数の特徴画像に分割するための走査順序を任意に設定し、その走査順序を示す設定情報をビットストリームのヘッダに付加して復号装置2102に送信しても良い。この場合、復号装置2102は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。
【0103】
図26は、走査順序の第1の例を示す図である。走査順序設定部3201は、ラスタ走査順序を走査順序として設定する。
【0104】
図27は、走査順序の第2の例を示す図である。走査順序設定部3201は、Z走査順序を走査順序として設定する。
【0105】
走査部3202は、走査順序設定部3201によって設定された走査順序で、特徴マップを複数のセグメントに分割し、各セグメントを複数の特徴画像に分割する。
【0106】
図28~
図30は、複数のセグメントへの分割の例を示す図である。
図28に示した例では、特徴マップは3つのセグメントSG1~SG3に分割されている。
図29に示した例では、特徴マップは7つのセグメントSG1~SG7に分割されている。
図30に示した例では、特徴マップは6つのセグメントSG1~SG6に分割されている。特徴画像の走査はセグメント毎に行われ、同じセグメントに属する複数の特徴画像はビットストリーム内で常に連続して符号化される。なお、各セグメントは、例えばスライスと呼ばれる独立して符号化及び復号を可能とする単位としても良い。
【0107】
なお、
図22に示した例では、走査順序設定部3201と走査部3202とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。
【0108】
走査部3202は、分割した複数の特徴画像を順にエントロピ符号化部3203に入力する。エントロピ符号化部3203は、各特徴画像を符号化ブロックサイズで符号化及び算術符号化することにより、ビットストリームを生成する。算術符号化は、例えばコンテキスト適応2進算術符号化(CABAC)である。符号化装置2101は、エントロピ符号化部3203が生成したビットストリームを復号装置2102に向けて送信する。
【0109】
図24及び
図25は、特徴画像のサイズと符号化ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。
【0110】
図24に示すように、エントロピ符号化部3203は、複数種類の特徴画像の複数のサイズ(以下「特徴画像サイズ」と称す)のうち最小の特徴画像サイズに対応する一定の符号化ブロックサイズで、複数の特徴画像を符号化する。あるいは
図25に示すように、エントロピ符号化部3203は、当該複数の特徴画像サイズに対応する複数の符号化ブロックサイズで、複数の特徴画像を符号化しても良い。
【0111】
図31及び
図32は、1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ符号化部3203は、
図31に示すように、特徴画像単位のラスタ走査順序で符号化を行っても良いし、
図32に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で符号化を行っても良い。
【0112】
さらに、符号化装置2101は、分割された特徴マップを再構築し、再構築した特徴マップをタスク処理部3205に入力し、タスク処理部3205がニューラルネットワークタスクを実行することにより推定結果を出力するように構成されても良い。
【0113】
図19のステップS4002において、再構築部3204には、複数のセグメントに分割された複数の特徴画像が走査部3202から入力される。再構築部3204は、入力された複数の特徴画像を所定の走査順序で配列することによって、複数のセグメントの各々を再構築し、複数のセグメントを所定の順序で配列することによって、特徴マップを再構築する。なお、再構築部3204は、復号装置2102が生成する特徴マップと同じ特徴マップを再構築すべく、エントロピ符号化部3203の出力を入力として、復号装置2102が実行する処理と同様の処理を実行する構成としても良い。
【0114】
例えば、複数の特徴画像は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
【0115】
走査順序設定部3201は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、再構築部3204は、走査順序設定部3201によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、再構築部3204は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等に付加し、再構築部3204は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。再構築部3204は、複数の特徴画像を所定の走査順序で配列することによって再構築された特徴マップを、タスク処理部3205に入力する。
【0116】
図19のステップS4003において、タスク処理部3205は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
【0117】
タスク処理部3205は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
【0118】
なお、
図22に示した構成では、再構築部3204とタスク処理部3205とを備えることで、ニューラルネットワークタスクの実行によって推定結果を出力することを可能としているが、ビデオエンコーダにおいてニューラルネットワークタスクを実行する必要がない場合は、再構築部3204とタスク処理部3205とを省略した構成としても良い。同様に、
図19に示した処理手順4000において、ニューラルネットワークタスクを実行する必要がない場合は、ステップS4002とステップS4003とを省略した構成としても良い。
【0119】
図21は、本開示の第2実施形態に係る復号装置2102の構成を示すブロック図である。また、
図18は、本開示の第2実施形態に係る画像復号方法の処理手順3000を示すフローチャートである。
【0120】
図21に示すように、復号装置2102は、エントロピ復号部2201、走査順序設定部2202、及び走査部2203を備えている。
【0121】
図18のステップS3001において、エントロピ復号部2201は、符号化装置2101から受信したビットストリームから複数の特徴画像を復号ブロック単位で復号する。
【0122】
図24及び
図25は、特徴画像のサイズと復号ブロックサイズとの関係を示す図である。特徴マップは、サイズが異なる複数種類の特徴画像によって構築されている。
【0123】
図24に示すように、エントロピ復号部2201は、複数種類の特徴画像の複数の特徴画像サイズのうち最小の特徴画像サイズに対応する一定の復号ブロックサイズで、複数の特徴画像を復号する。あるいは
図25に示すように、エントロピ復号部2201は、当該複数の特徴画像サイズに対応する複数の復号ブロックサイズで、複数の特徴画像を復号しても良い。
【0124】
図31及び
図32は、1つの特徴画像が複数の符号化ブロックに分割されて符号化される場合の走査順序を示す図である。エントロピ復号部2201は、
図31に示すように、特徴画像単位のラスタ走査順序で復号を行っても良いし、
図32に示すように、複数の特徴画像を跨いで符号化ブロックの行単位のラスタ走査順序で復号を行っても良い。
【0125】
走査順序設定部2202には、エントロピ復号部2201から複数の復号ブロック又は複数の特徴画像が入力される。
【0126】
図18のステップS3002において、走査順序設定部2202は、符号化装置2101と復号装置2102との間で予め定められた規則に従って、複数の特徴画像から特徴マップを構築するための走査順序を設定する。なお、任意の走査順序を示す上記の設定情報がビットストリームのヘッダに付加されている場合には、復号装置2102は、復号した複数の特徴画像を当該設定情報で示される走査順序で配列することによって、特徴マップを構築することができる。
【0127】
図26は、走査順序の第1の例を示す図である。走査順序設定部2202は、ラスタ走査順序を走査順序として設定する。
【0128】
図27は、走査順序の第2の例を示す図である。走査順序設定部2202は、Z走査順序を走査順序として設定する。
【0129】
走査部2203には、複数のセグメントに分割された複数の特徴画像が入力される。走査部2203は、走査順序設定部2202によって設定された走査順序で複数の特徴画像を配列することによって、特徴マップを構築する。
【0130】
例えば、複数の特徴画像は、ニューラルネットワークの階層の順序に従って配列される。つまり、ニューラルネットワークの階層の昇順(サイズの大きい順)又は降順(サイズの小さい順)に配列される。
【0131】
走査順序設定部2202は、入力された複数の特徴画像の各々のサイズに基づいて、走査順序の昇順又は降順を設定し、走査部2203は、走査順序設定部2202によって設定された走査順序に応じて昇順又は降順を切り替える。例えば、走査部2203は、複数の特徴画像がサイズの大きい順に入力された場合には昇順に切り替え、複数の特徴画像がサイズの小さい順に入力された場合には降順に切り替える。あるいは、所定の走査順序の昇順又は降順を設定する順序情報をビットストリームのヘッダ等から復号し、走査部2203は、当該順序情報に基づいて、走査順序の昇順又は降順を切り替えても良い。走査部2203は、複数の特徴画像を所定の走査順序で配列することによって構築された特徴マップを、タスク処理部2103に入力する。
【0132】
なお、
図21に示した例では、走査順序設定部2202と走査部2203とが別の処理ブロックとして構成されているが、単一の処理ブロックとしてまとめて処理を行う構成としても良い。
【0133】
図18のステップS3003において、タスク処理部2103は、入力された特徴マップに基づいて、少なくとも推定を伴うニューラルネットワークタスク等の所定のタスク処理を実行する。ニューラルネットワークタスクの一例は、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、ポーズトラッキング、機械と人間のハイブリッドビジョン、又はそれらの任意の組み合わせである。
【0134】
タスク処理部2103は、ニューラルネットワークタスクの実行結果を示す信号を出力する。当該信号は、検出されたオブジェクトの数、検出されたオブジェクトの信頼レベル、検出されたオブジェクトの境界情報又は位置情報、及び、検出されたオブジェクトの分類カテゴリの少なくとも1つを含んでいても良い。
【0135】
本実施形態によれば、複数の特徴画像を所定の走査順序で配列することによって、特徴マップを適切に構築することが可能となる。
【産業上の利用可能性】
【0136】
本開示は、画像を送信するエンコーダと画像を受信するデコーダとを備える画像処理システムへの適用が特に有用である。