(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-26
(54)【発明の名称】スケーラブル特徴ストリーム
(51)【国際特許分類】
H04N 19/20 20140101AFI20240119BHJP
【FI】
H04N19/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023540787
(86)(22)【出願日】2021-01-19
(85)【翻訳文提出日】2023-07-31
(86)【国際出願番号】 CN2021072771
(87)【国際公開番号】W WO2022141683
(87)【国際公開日】2022-07-07
(32)【優先日】2021-01-04
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】516227559
【氏名又は名称】オッポ広東移動通信有限公司
【氏名又は名称原語表記】GUANGDONG OPPO MOBILE TELECOMMUNICATIONS CORP., LTD.
【住所又は居所原語表記】No. 18 Haibin Road,Wusha, Chang’an,Dongguan, Guangdong 523860 China
(74)【代理人】
【識別番号】100120031
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100152205
【氏名又は名称】吉田 昌司
(74)【代理人】
【識別番号】100137523
【氏名又は名称】出口 智也
(74)【代理人】
【識別番号】100120385
【氏名又は名称】鈴木 健之
(72)【発明者】
【氏名】マレク、ドマンスキー
(72)【発明者】
【氏名】トマシュ、グラジェク
(72)【発明者】
【氏名】スワボミル、マコービアク
(72)【発明者】
【氏名】スワボミル、ロゼク
(72)【発明者】
【氏名】オルギエルド、スタンキエビチ
(72)【発明者】
【氏名】ヤクブ、スタンコウスキー
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MB01
(57)【要約】
符号化装置における視覚的特徴処理方法であって、所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、所定の基準に基づいて、抽出特徴セット内の特徴を分類することと、分類された抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、多重化は、各特徴サブセットに割り当てられた優先度値に基づいている、ことと、を含む。
【特許請求の範囲】
【請求項1】
符号化装置における視覚的特徴処理方法であって、
所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、
所定の基準に基づいて、前記抽出特徴セット内の特徴を分類することと、
分類された前記抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、前記多重化は、各特徴サブセットに割り当てられた前記優先度値に基づいている、ことと、を含む、視覚的特徴処理方法。
【請求項2】
前記視覚的特徴処理方法は、
所定の圧縮コーデックを使用して、各特徴サブセットの多重化された特徴を圧縮することにより、圧縮された特徴ビットストリームを取得することと、
前記圧縮された特徴ビットストリームを復号化装置に出力することと、をさらに含む、
請求項1に記載の視覚的特徴処理方法。
【請求項3】
前記所定の基準は、
i)特徴のキーポイントの位置と、復号化装置におけるオブジェクト分類プロセスが画像内で開始される位置との距離、
ii)前記特徴のキーポイント応答の強度、
iii)復号化装置のオブジェクト分類プロセスにおいて所定数の特徴が使用される時間であって、前記時間は所定の特徴セットに基づいて予め設定されるものである、時間、のいずれか1つに基づいている、
請求項1又は2に記載の視覚的特徴処理方法。
【請求項4】
前記優先度値は、以下の規則、即ち、
i)復号化装置におけるオブジェクト分類プロセスの終了時間が所定時間内となるように、前記復号化装置のオブジェクト分類プロセスにおいて特徴を使用する順序、
ii)前記復号化装置における前記オブジェクト分類プロセスの解析が開始される、前記画像内の前記特徴の位置、
iii)前記復号化装置における前記オブジェクト分類プロセスの品質、
iv)i)~iii)のいずれか2つ又はすべての組み合わせ、のいずれか1つに基づいている、
請求項1~3のいずれか一項に記載の視覚的特徴処理方法。
【請求項5】
前記複数の特徴サブセットの特徴サブセットの数は、所定数であり、前記所定数は、前記複数の特徴サブセットに割り当てられる優先度値の所定数に対応する、
請求項1~4のいずれか一項に記載の視覚的特徴処理方法。
【請求項6】
前記分類された前記抽出特徴セットを、前記複数の特徴サブセットに反復的に分割することは、
第1のステップにおいて、前記第1特徴サブセットの特徴を反復的に決定することにより、前記第1特徴サブセットを指定することと、
複数の後続のステップでは、前記分類された特徴セット内の残りの特徴に基づいて、各更なる特徴サブセット内の特徴を反復的に決定することにより、前記各更なる特徴サブセットを指定することと、を含み、
後続のステップで指定された前記特徴サブセットに割り当てられた前記優先度値は、前のステップで指定された前記特徴サブセットに割り当てられた前記優先度値より低い、
請求項1~5のいずれか一項に記載の視覚的特徴処理方法。
【請求項7】
各特徴サブセット内の特徴を反復的に決定することは、n回の特徴選択プロセス及びn回の特徴分類プロセスを実行することを含む、
請求項1~6のいずれか一項に記載の視覚的特徴処理方法。
【請求項8】
前記視覚的特徴処理方法は、選択された特徴の対応するキーポイントセットを比較することにより、選択された特徴セットを比較することをさらに含む、
請求項7に記載の視覚的特徴処理方法。
【請求項9】
前記比較することは、選択された特徴の前記対応するキーポイントの距離メトリックを計算することを含む、
請求項8に記載の視覚的特徴処理方法。
【請求項10】
前記サブセット内の決定された特徴に基づく分類品質が所定の閾値を超える場合、各特徴サブセット内の特徴を反復的に決定するプロセスを終了する、
請求項6~9のいずれか一項に記載の視覚的特徴処理方法。
【請求項11】
前記視覚的特徴処理方法は、前記特徴の前記優先度値を表すコードを決定することをさらに含む、
請求項1~10のいずれか一項に記載の視覚的特徴処理方法。
【請求項12】
前記視覚的特徴処理方法は、決定されたコードを対応する特徴サブセットで補完し、圧縮のために、出力に使用される前記特徴サブセットの特徴を多重化することをさらに含む、
請求項1~11のいずれか一項に記載の視覚的特徴処理方法。
【請求項13】
前記符号化対象画像データは、イメージ、画像、イメージ/画像ストリーム、ビデオ、映画などを取得するために指示及び/又は処理可能なデータを含み、具体的には、ストリーム、ビデオ又は映画は、1つ又は複数の画像を含む、
請求項1~12のいずれか一項に記載の視覚的特徴処理方法。
【請求項14】
前記所定の特徴抽出方法は、線形又は非線形フィルタリングを適用する、ニューラルネットワークベースの特徴抽出方法を含む、
請求項1~13のいずれか一項に記載の視覚的特徴処理方法。
【請求項15】
前記所定の特徴抽出方法は、スケール不変特徴変換(SIFT)法、ビデオ解析用コンパクト記述子(CDVA)法、及びビジュアルサーチ用コンパクト記述子(CDVS)法のいずれか1つを含む、
請求項1~14のいずれか一項に記載の視覚的特徴処理方法。
【請求項16】
前記視覚的特徴処理方法は、符号化対象画像データを取得することをさらに含む、
請求項1~15のいずれか一項に記載の視覚的特徴処理方法。
【請求項17】
前記画像処理方法は、
所定の圧縮コーデックを使用して、前記画像データを圧縮することにより、画像ビットストリームを取得することと、
前記画像ビットストリームを前記復号化装置に出力することと、さらに含む、
請求項1~15のいずれか一項に記載の画像処理方法。
【請求項18】
視覚的特徴処理のためのエンコーダ装置であって、前記エンコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、前記コードは、動作中に前記処理リソースに、
所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、
所定の基準に基づいて、前記抽出特徴セット内の特徴を分類することと、
分類された前記抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、前記多重化は、各特徴サブセットに割り当てられた前記優先度値に基づいている、ことと、を指示する、エンコーダ装置。
【請求項19】
コードを含むコンピュータプログラムであって、前記コードは、動作中にエンコーダ装置の処理リソースに、
所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、
所定の基準に基づいて、前記抽出特徴セット内の特徴を分類することと、
分類された前記抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、前記多重化は、各特徴サブセットに割り当てられた前記優先度値に基づいている、ことと、を指示する、コンピュータプログラム。
【請求項20】
復号化装置における視覚的特徴処理方法であって、
符号化装置から特徴ビットストリームを受信することを含み、前記特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高く、
前記視覚的特徴処理方法は、
受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得することと、
各特徴サブセットに割り当てられた前記優先度値及び前記復号化装置の処理能力に基づいて、前記複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、をさらに含む、視覚的特徴処理方法。
【請求項21】
視覚的特徴処理のためのデコーダ装置であって、前記デコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、前記コードは、動作中に前記処理リソースに、
符号化装置から特徴ビットストリームを受信することであって、前記特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得することと、
各特徴サブセットに割り当てられた前記優先度値及び前記復号化装置の処理能力に基づいて、前記複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、を指示する、デコーダ装置。
【請求項22】
コードを含むコンピュータプログラムであって、前記コードは、動作中に復号化装置の処理リソースに、
符号化装置から特徴ビットストリームを受信することであって、前記特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得することと、
各特徴サブセットに割り当てられた前記優先度値及び前記復号化装置の処理能力に基づいて、前記複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、を指示する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視覚情報の圧縮及び伝送の技術分野に関する。より具体的には、本発明は、画像又はビデオから抽出された視覚的特徴をコーデックする装置及び方法に関する。
【背景技術】
【0002】
コーデック又は符号化は、静止画像だけでなく、画像ストリーム及びビデオなどの動画像に関する幅広い用途に使用される。このような適用例としては、有線及び無線ネットワークを介した静止画像の伝送、有線又は無線ネットワークを介したビデオ及び/又はビデオストリーミングの伝送、デジタルテレビ信号のブロードキャスト、有線及び無線ネットワークを介したビデオチャットやビデオ会議などのリアルタイムのビデオ会話、及びDVDディスクやBlue-rayディスクなどのポータブル記憶媒体に画像やビデオを保存することを含む。
【0003】
コーデックには通常、符号化及び復号化が含まれる。符号化は、画像又はビデオのコンテンツフォーマットを変更する圧縮プロセスである。符号化は、有線又は無線ネットワークを介して画像又はビデオを伝送するのに必要な帯域幅を減少させるため、重要である。一方、復号化は、符号化又は圧縮された画像又はビデオに対して復号化又は解凍を行うプロセスである。符号化及び復号化は異なるデバイスに適用できるため、コーデック(codec)と呼ばれる符号化及び復号化の規格が開発されている。コーデックは通常、画像及びビデオに対して符号化及び復号化を行うためのアルゴリズムである。
【0004】
有線又は無線ネットワークを介して伝送される画像及びビデオの符号化に加えて、近年、画像及びビデオの解析ニーズも急速に高まっている。画像及びビデオの解析は、画像及びビデオ内のコンテンツの解析に関連し、画像及びビデオ内のオブジェクトに対して検出、検索、又は分類を行う。
【0005】
画像やビデオの解析には通常、特徴抽出がアプリケーションされる。特徴抽出は、オリジナル画像又はビデオから特徴を検出及び/又は抽出することに関する。ビデオの場合、特徴抽出は通常、ビデオフレームから特徴を抽出することを含む。一般的に、1つのフレームは1枚の画像とも呼ばれる。抽出された特徴は通常、符号化又は圧縮され、ビットストリームの形で(圧縮された)特徴ストリームがデコーダ側に送信される。
【0006】
復号化側では、受信された圧縮特徴に対して復号化を行う。次に、復号化された特徴に基づくオブジェクト分類(識別とも呼ばれる)プロセス(オブジェクト分類プロセス)を実行する。復号化側のオブジェクト分類/識別プロセスは通常、復号化された特徴を評価及び分類する必要があり、復号化側で大量の計算リソースを必要とするため、時間がかかる。復号化側が必要な計算リソースを有しない場合、復号化側はオブジェクト分類/識別プロセスを完全に実行できない可能性もある。
【0007】
したがって、復号化側が、復号化された特徴を評価及び分類するための追加的な計算能力を必要とせず、時間効率の良い方法で分類プロセスを実行できるように、符号化側から復号化側に伝送される特徴ストリームの機能性を高める必要がある。
【発明の概要】
【0008】
上記の課題及び欠点は、独立請求項の主題によって解決され、更なる好ましい実施形態は、従属請求項によって定義される。具体的には、本発明の実施例は、復号側での分類プロセスの制御に関連する実質的な利点を提供し、これにより、復号化側が、復号化された特徴を評価及び分類するための追加的な計算能力を必要とせず、時間効率の良い方法で分類プロセスを実行できるようにする。
【0009】
本発明の一態様によれば、符号化装置における視覚的特徴処理方法を提供する。当該視覚的特徴処理方法は、所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、所定の基準に基づいて、抽出特徴セット内の特徴を分類することと、分類された抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、多重化は、各特徴サブセットに割り当てられた優先度値に基づいている、ことと、を含む。
【0010】
本発明の一態様によれば、視覚的特徴処理のためのエンコーダ装置を提供する。当該エンコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、コードは、動作中に処理リソースに、所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、所定の基準に基づいて、抽出特徴セット内の特徴を分類することと、分類された抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、圧縮のために、出力に使用される各サブセットの特徴を多重化することであって、多重化は、各特徴サブセットに割り当てられた優先度値に基づいている、ことと、を指示する。
【0011】
本発明の一態様によれば、コンピュータプログラムを提供する。当該コンピュータプログラムはコードを含み、当該コードは、動作中に符号化装置の処理リソースに、所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、所定の基準に基づいて、抽出特徴セット内の特徴を分類することと、分類された抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、多重化は、各特徴サブセットに割り当てられた優先度値に基づいている、ことと、を指示する。
【0012】
本発明の一態様によれば、復号化装置における視覚的特徴処理方法を提供する。当該視覚的特徴処理方法は、符号化装置から特徴ビットストリームを受信することを含み、当該特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高く、当該視覚的特徴処理方法は、受信された特徴ビットストリームを解凍することと、解凍された複数の特徴サブセットを取得することと、各特徴サブセットに割り当てられた優先度値及び復号化装置の処理能力に基づいて、複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、をさらに含む。
【0013】
本発明の一態様によれば、視覚的特徴処理のためのデコーダ装置を提供する。当該デコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、当該コードは、動作中に処理リソースに、符号化装置から特徴ビットストリームを受信することであって、当該特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、受信された特徴ビットストリームを解凍することと、解凍された複数の特徴サブセットを取得することと、各特徴サブセットに割り当てられた優先度値及び復号化装置の処理能力に基づいて、複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、を指示する。
【0014】
本発明の一態様によれば、コンピュータプログラムを提供する。当該コンピュータプログラムはコードを含み、当該コードは、動作中に復号化装置の処理リソースに、符号化装置から特徴ビットストリームを受信することを含み、当該特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、受信された特徴ビットストリームを解凍することと、解凍された複数の特徴サブセットを取得することと、各特徴サブセットに割り当てられた優先度値及び復号化装置の処理能力に基づいて、複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、を指示する。
【図面の簡単な説明】
【0015】
【
図1B】従来技術における一般的な使用例及び本発明の実施例を採用する環境を示す概略図である。
【
図2】本発明の実施例によるオブジェクト分類の一例を模式的に示す図である。
【
図3】本発明の実施例によるオブジェクト分類の一例を模式的に示す図である。
【
図4A】本発明の実施例によるオブジェクト分類の一例を模式的に示す図である。
【
図4B】本発明の実施例によるオブジェクト分類の一例を模式的に示す図である。
【
図5】本発明の実施例による符号化装置の機能構成要素の概略図である。
【
図6】本発明の実施例による符号化装置の機能構成要素の概略図である。
【
図7】本発明の実施例による方法のフローチャートである。
【
図8】本発明の実施例による方法のフローチャートである。
【発明を実施するための形態】
【0016】
以下では、図面を参照して本発明の実施例を説明するが、これらの実施例は、本発明の概念をよりよく理解するために提示されたものであり、本発明を限定するものと見なされるべきではない。
【0017】
図1Aは、従来の構成を示す概略図である。通常、オリジナル画像及び抽出された特徴の両方に対して、符号化又は圧縮を行い、ビットストリームの形でデコーダ側に伝送する。復号化側では、符号化されたオリジナル画像及び符号化された抽出特徴を復号化することにより、再構築された(復号化された)画像及び再構築された(復号化された)特徴を取得する。
【0018】
より具体的には、エンコーダ側1では、画像31、画像ストリーム又はビデオを形成するための、或いは画像31、画像ストリーム又はビデオ一部とするための画像データ41を処理する。画像データ41をエンコーダ11と、オリジナル特徴42を生成する特徴抽出器12とに入力する。また、特徴エンコーダ13によって特徴抽出器12を符号化することにより、符号化側1で2つのビットストリーム、即ち、画像ビットストリーム45及び特徴ビットストリーム46を生成する。通常、本開示の文脈において、「画像データ」という用語は、イメージ、画像、イメージ/画像ストリーム、ビデオ、映画などを取得するために、包含、指示及び/又は処理可能なすべてのデータを含み、具体的には、ストリーム、ビデオ又は映画は、1つ又は複数の画像を含む。このようなデータは、視覚データとも呼ばれることできる。
【0019】
これら2つのビットストリーム45、46は、例えば、任意のタイプの適切なデータ接続、通信インフラ、及び適用可能なプロトコルによってエンコーダ側1からデコーダ側2に伝送される。例えば、ビットストリーム45、46はサーバによって提供され、インターネット及び1つ又は複数の通信ネットワークを介してモバイル機器に伝送され、ここで、モバイル機器でビットストリームを符号化し、ユーザが当該モバイル機器の表示機器で画像を見ることができるように、対応する表示データを生成する。
【0020】
デコーダ側2では、これら2つのビットストリームを受信して復元する。画像ビットストリームデコーダ21は、画像ビットストリーム45を復号化して、1つ又は複数の再構築された画像を生成し、及び特徴ビットストリームデコーダ22は、特徴ビットストリーム46を復号化して、1つ又は複数の再構築された特徴を生成する。画像及び特徴は、デコーダ側2の端部で表示及び/又は使用及び/又は処理される対応する再構築された画像32を生成するための基礎を形成する。
【0021】
図1Bは、従来技術における一般的な使用例及び本発明の実施例を採用する環境を示す概略図である。復号化側1には、データセンター、サーバ、処理装置、データストレージなどの装置51が配置され、装置51は、画像データ記憶し、画像及び特徴ビットストリーム45、46を生成するように配置される。ビットストリーム45、46は、任意の適切なネットワーク及びデータ通信インフラ60を介して復号化側2に伝送される。復号化側2では、例えば、モバイル機器52は、ビットストリーム45、46を受信し、これらを復号化して表示データを生成し、(目標)モバイル機器52のディスプレイ53に1つ又は複数の画像を表示するか、又はモバイル機器52上でその他の処理を行う。
【0022】
上記のように、符号化側では、画像データ及び抽出された特徴を符号化して、ビットストリーム45、46を生成する。これらのビットストリーム45、46は、データ通信により復号化側に伝送される。復号化側では、これらのビットストリームを復号化して、画像データ48及び特徴49を再構築する。次に、復号化された(再構築された)特徴に基づくオブジェクト分類(識別とも呼ばれる)プロセス(オブジェクト分類プロセス)を実行する。上記のように、復号化側のオブジェクト分類/識別プロセスは通常、復号された特徴を評価及び分類する必要があり、復号化側で大量の計算リソースを必要とするため、時間がかかる。復号化側が必要な計算リソースを有しない場合、復号化側は分類/識別プロセスを完全に実行できない可能性もある。
【0023】
したがって、本発明は、復号化側で関連するオブジェクトの高速な分類を取得することにより、復号化側が、復号化された特徴を評価及び分類するための追加的な計算能力を必要とせず、時間効率の良い方法で分類プロセスを実行できるようにすることを目的としている。
【0024】
そのため、本発明は、符号化側から復号化側に伝送される特徴ストリームの機能性を高めることを提案する。
【0025】
より具体的には、本発明は、復号化側のオブジェクト分類プロセスを一定の規則に従って実行できるようにするために、符号化側から復号側に伝送される特徴ストリームをスケーラブル特徴ストリームに編成することを提案する。
【0026】
このため、符号化側で分類プロセスを追加的に実行し、価値のある特徴を選択し、特徴選択及び分類プロセスを追加的に実行して、特徴ストリームを編成する。価値のある特徴は、分類の明確性に対する特徴の価値という意味で理解することができる。
【0027】
符号化側の抽出されたすべての特徴(抽出特徴セットとも呼ばれる)を復号化側に送信する。特徴ビットストリームデコーダ22は、特徴ストリーム全体を復号化し、ストリームに含まれる付加情報、即ち、従来の特徴符号化とは異なる特徴ビットストリームへの追加又は付加情報(暗黙的又は明示的な情報であってもよい)に基づいて、分類プロセスで最初に考慮すべき機能を把握することにより、以下に詳述するプロセスの次の機能のいずれかを取得する。次に、特徴ビットストリームデコーダ22又は復号化装置の他の専用コンピューティングユニットは、オブジェクト分類プロセスを実行する。
【0028】
スケーラブル特徴ストリームは、特徴ビットストリーム46として理解することができ、分類プロセスの所望の制限及び/又は方向、及び/又はそのプロセスを実行する復号化装置のコンピューティングユニットが所与の瞬間に保有される能力及び/又は計算能力の特定の適用によって生成される能力によって、復号化装置における分類プロセスの異なるタイプの動作を可能にするように構築される。さらに、分類プロセスにおける復号化装置を支援するために、付加/追加情報(暗黙的又は明示的に)をスケーラブル特徴ストリームに追加することができる。付加/追加情報は、例えば、以下でさらに詳述するように、特徴ストリームにおける特徴の優先度に関連する情報であってもよく、当該優先度は、例えば、優先度値によって示される。
【0029】
本発明の実施例では、特徴ストリームの異なるタイプのスケーラビリティを適用することができる。以下では、スケーラビリティのいくつかのタイプについて詳細に説明する。記述されたスケーラビリティタイプは、本発明に限定されるものではない。
【0030】
異なるタイプのスケーラビリティは、時間的スケーラビリティ、空間的スケーラビリティ、品質的スケーラビリティ、及びハイブリッドスケーラビリティを含み得る。異なるタイプのスケーラビリティでは、分類プロセスの異なる側面に優先度が設定される。したがって、異なるタイプのスケーラビリティでは、例えば、優先度値が示す特徴の優先度は、分類プロセスの異なる側面に基づいている。
【0031】
時間的スケーラビリティでは、優先度は、復号化装置で実行される分類プロセスの持続時間に設定される。空間的スケーラビリティでは、優先度は、復号化装置で実行される分類プロセスの特定の領域に設定される。品質的スケーラビリティでは、優先度は、復号化側で実行される分類プロセスの品質レベルに設定される。ハイブリッドスケーラビリティでは、上記の品質、空間、時間の3つのスケーラビリティタイプのうち、異なる2つのスケーラビリティタイプ、又は3つのスケーラビリティタイプをすべて共に使用することができる。
【0032】
以下では、異なるスケーラビリティタイプの詳細について説明する。
【0033】
a)時間的スケーラビリティ
時間的スケーラビリティにより、異なる処理/コンピューティング能力を有する機器上のオブジェクトに対して分類及び識別を行うことができる。
【0034】
復号化装置、又はより具体的には、復号化装置のコンピューティングユニットが低い処理/コンピューティング能力を有する場合、このようなコンピューティングユニット上で動作するオブジェクト分類用のアプリケーション又はプログラムは、特徴ビットストリーム46において送信されたすべての特徴に基づいて、特定の単位時間(オブジェクト分類プロセスに割り当てられたタイムスロットとも呼ばれる)内でオブジェクトを完全に処理(又は分類)することができない。
【0035】
したがって、本発明は、標準的な特徴ストリームをスケーラブル特徴ストリーム(この場合、一時的にスケーラブル)に再編成し、優先度情報などの付加/追加情報を(暗黙的又は明示的に)追加することを提案し、これにより、復号化装置のコンピューティングユニットは、選択された特徴セットに対してのみオブジェクト分類プロセスを実行することができる。
【0036】
換言すれば、復号化装置は、選択されたスケーラビリティタイプ及びその能力に応じて、優先度情報(優先度値で表され得る)に基づいて、ストリームから特徴のグループ(例えば、1つ又は複数の特徴サブセット)を選択する。一方、高い計算能力を有するコンピューティングユニットの復号化装置は、送信された特徴ストリーム全体(又は特徴記述子)を処理することができる。
【0037】
図2は、ストリーム内のすべての特徴に基づいて分類する場合と、時間的スケーラブル特徴ストリームの限られた特徴セットに基づいて分類する場合の、オブジェクト分類プロセスの計算時間の違いを模式的に示す図である。
【0038】
オリジナル画像(入力画像又はソース画像)は、復号化装置で分類すべきオブジェクト(この場合は「馬」)を含む。抽出された特徴の数が所定数である場合、例えば、抽出された特徴の数が515個で、抽出されたすべての特徴が特徴ストリームに含まれ、オブジェクト分類に使用される場合、復号化装置のオブジェクト分類プロセスの処理時間は、復号化装置のオブジェクト分類プロセスに割り当てられた可能なタイムスロットより長いため、オブジェクト分類プロセス(
図2の左下部分)を実行することができない。
【0039】
一方、時間的スケーラブル特徴ストリームは、50個の特徴などの比較的低い数の特徴に制限される。復号化装置が、時間的スケーラブル特徴ストリームを分類プロセスに使用する場合、復号化装置の処理時間は、復号化装置に割り当てられた分類プロセスのタイムスロットより短い。この場合、大まかな分類が可能であり、実行される(
図2の左下部分)。
【0040】
b)空間的スケーラビリティ
このタイプのスケーラビリティでは、オブジェクト分類は、画像内のオブジェクトの空間的位置に依存する。
【0041】
分類/識別プロセスは、画面内の定義された位置から画像外に向かって開始される。復号化装置の利用可能な処理/コンピューティング能力に応じて、より多くの特徴を使用して分類/識別領域を拡張する。
【0042】
本発明は、分類/識別領域の異なるタイプのスキャン又は拡張を提案する。
【0043】
i)スパイラルスキャン(分類/識別領域のスパイラル拡張)は、シーン内に提示された主要オブジェクト(画像中心部でのフォーカスビュー)の識別を伴うアプリケーションのために、画像中心部から外部へのオブジェクト分類を含む。
【0044】
これを
図3に模式的に示す。図の上部にはオリジナル画像が表示され、中央には抽出された特徴及び異なる優先度領域(優先度領域1、優先度領域2、及び優先度領域3)の定義例が表示され、下部には優先度1及び優先度2に基づいて分類されたオブジェクトが表示され、優先度は、空間的スケーラビリティ(スパイラルスキャンオプション)を有するスケーラブル特徴ストリームが表示されている。この場合、2つのオブジェクトに対して分類することができる。
【0045】
ii)画像の下部から上部へのスキャンは、自然シーン識別へのアプリケーションのために、画像の下部から上部へのオブジェクト分類を含む。
【0046】
復号化装置が十分なコンピューティング能力を有する場合、上記i)で詳述したスパイラルスキャンのように画像中心部以外の画像内の重要度の低いオブジェクト、又は上記ii)で詳述したように画像の上部における重要度の低いオブジェクトに対して分類を行う。復号化装置が十分なコンピューティング能力を有しない場合、エンコーダの空間的スケーラビリティ優先度によって示される特徴セット(例えば、
図3に示す優先度1又は優先度1及び優先度2の優先度値に割り当てられた特徴サブセット)のみを使用することに限定される。
【0047】
したがって、本発明は、標準的な特徴ストリームをスケーラブル特徴ストリームに再編成することを提案する。優先度情報の付加/追加情報をスケーラブル特徴ストリームに(暗黙的又は明示的に)追加することができる。これにより、復号化装置は、選択された特徴セットに対してのみ分類プロセスを実行することができる(復号化装置は、優先度情報に基づいてストリームから特徴のグループを選択し、ここで、選択されたスケーラビリティタイプ及びその能力に応じて、1つ又は複数の特徴サブセットで優先度情報を表示できる)。高い計算能力を有するコンピューティングユニットの復号化装置は、送信された特徴ストリーム全体(又は特徴記述子)を処理することができる。
【0048】
c)品質的スケーラビリティ
品質的スケーラビリティにより、オブジェクトのクラス間分類とクラス内分類を区別できる。
【0049】
復号化装置上で実行されるアプリケーション又はプログラムは、例えば、動物、車、建物などの主要なクラスのみを分類するか(いわゆるクラス間分類)、より正確にシマウマ、馬、オカピ(okapi)などのオブジェクトを分類するか(いわゆるクラス内分類)を決定できる。
【0050】
これを
図4A及び
図4Bに模式的に示す。
図4A及び
図4Bでは、上部に完全な特徴ストリームを、下部にクラス内分類及びクラス間分類(分類結果はそれぞれクラス内分類とクラス間分類の分類スコアの高い順に並べられている)の品質的スケーラビリティモードを有するスケーラブル特徴ストリームから選択された特徴をそれぞれ示す。
【0051】
復号化装置が小さな計算能力を有するコンピューティングユニットを有する場合、
図4Bに示すように、(例えば50個の特徴に限定される)に基づいて品質的スケーラビリティモードを選択し、与えられた優先度で示される大まかな特徴に基づいて分類(したがってクラス間分類を実行)することができる。復号化装置がより高い計算能力を有するコンピューティングユニットを有する場合、
図4Aに示すように、オブジェクトクラス内のオブジェクト(及びクラス内分類)の識別を引き起こすより広い特徴セット(例えば、抽出された515個の特徴)に基づいて、より高い優先順位を選択してオブジェクトを分類することができる。
【0052】
したがって、本発明は、標準的な特徴ストリームをスケーラブル特徴ストリームに再編成することを提案する。優先度情報の付加/追加情報をスケーラブル特徴ストリームに(暗黙的又は明示的に)追加することができる。これにより、復号化装置は、選択された特徴セットに対してのみ分類プロセスを実行することができる(復号化装置は、選択されたスケーラビリティタイプ及びその能力に応じて、優先度情報(1つ又は複数の特徴サブセットで表され得る)に基づいてストリームから特徴のグループを選択する)。高い計算能力を有するコンピューティングユニットの復号化装置は、送信された特徴ストリーム全体(又は特徴記述子)を処理することができる。
【0053】
したがって、本発明は、特徴ストリーム使用の機能性を高めることができる。スケーラブル特徴ストリームを作成することにより、復号化側での分類プロセスの制御が可能になり、特徴を評価するために追加の能力を使用する必要はない。スケーラブル特徴ストリーム形成プロセスは、本発明の実施例による符号化装置によって実行される。
【0054】
本発明によれば、符号化装置が、符号化装置と復号化装置との間の通信リンクパラメータ(例えば、特徴ストリームのビットフレーム)を知っていれば、符号化装置によって特徴セットを任意に設定することもできる。この場合、符号化装置は、スケーラブル特徴ストリームに適切なフラグ(スケーラビリティのタイプ及び特徴の優先度)を設定する。
【0055】
図5は、本発明の実施例による視覚情報を処理する符号化装置100の機能構成要素を示す図である。これらの機能構成要素は、専用のハードウェアコンポーネントによって実現され得るか、データ処理機器又はコンピューティングユニットの1つ以上の処理ユニットなどの1つ又は複数の処理リソースをコンピュータでプログラム処理することによって実現され得る。データ処理機器又はコンピューティングユニットは、データセンター、サーバ、データストレージなどの任意の適切な機器であってもよい。より具体的には、コードを含むコンピュータプログラム又はアプリケーションがデータ処理機器又はコンピューティングユニットに記憶され得、コードを実行するときに、1つ又は複数の処理ユニット又はリソースに以下で説明する機能を実行するよう指示する。
【0056】
符号化装置100は、画像データ41を取得する装置(図示せず)を備える。取得された画像データ41任意の種類の画像31を形成する画像データであってもよく、その一部であってもよい。画像31は、イメージ/撮像装置(カメラなど)によって撮像された画像であってもよい。画像31は、例えばコンピュータグラフィックス処理装置などの装置を備えたイメージ/画像生成装置によって生成される画像であってもよい。また、画像は、モノクロ画像であってもよく、カラー画像であってもよい。また、画像は、静止画像であってもよく、ビデオなどの動画像であってもよい。ビデオは、1つ又は複数の画像を含み得る。
【0057】
符号化装置100は、第1符号化ユニット110をさらに備える。第1符号化ユニット110は、符号化された画像データ45を生成して出力する。第1符号化ユニット110は、画像データ41を符号化することにより、符号化された画像データ45を生成する。符号化は、画像データ41に対して圧縮を実行することも含み得る。以下では、符号化及び圧縮という2つの用語を交換して使用することができる。符号化又は圧縮された画像データ45は、ビットストリーム45として表され得、画像ビットストリーム45とも呼ばれ、通信インターフェース(図示せず)に出力され、通信インターフェースは、出力された画像ビットストリーム45を受信し、任意の適切なネットワーク及びデータ通信インフラ60を介して他の機器に伝送する。他の機器は、画像ビットストリーム45に対して復号化又は解凍を行い、再構築された画像データ48を取得し、それによって再構築された画像32を生成するための復号化装置2であってもよい。他の機器は、画像ビットストリーム45を復号化装置2に転送する中間機器であってもよい。
【0058】
第1エンコーダユニット110は、画像データ41に対して符号化を実行することにより、画像ビットストリーム45を生成し、当該第1エンコーダユニット110は、画像データ45の符号化に適した様々な符号化方法を適用することができる。より具体的には、第1エンコーダユニット110は、静止画像及び/又はビデオの符号化に適した様々な符号化方法を適用することができる。ここで、静止画像及び/又はビデオの符号化に適した様々な符号化方法を適用する第1エンコーダユニット110は、所定の符号化コーデックを適用する第1エンコーダユニットで構成することができる。このような符号化コーデックは、例えば、JPEG(joint photographic experts group)、JPEG、JPEG 2000、JPEG XRなど、PNG(portable network graphics)、AVC(advanced video coding)H.264、AVS(audio video standard)、HEVC(high efficiency video coding)H.265、VVC(versatile video coding)H.266、及びAOメディアビデオ1(AV1:AO media video 1)コーデックなどの画像又はビデオを符号化するための符号化コーデックのいずれか一つを含み得る。
【0059】
符号化装置100は、特徴抽出ユニット120をさらに備える。特徴抽出ユニット120は、画像データ41から複数の特徴42を抽出する。当該抽出された複数の特徴42は、抽出特徴セット42とも呼ばれ得る。抽出された特徴42は、画像データ41の小さなブロックであり得る。各特徴は通常、特徴キーポイント及び特徴記述子を含む。特徴キーポイントは、ブロックの2次元(2D:2 dimensional)位置を表すことができる。特徴記述子は、ブロックの視覚的記述を表すことができる。特徴記述子は通常、特徴ベクトルとも呼ばれるベクトルとして表される。
【0060】
いくつかのこのような特徴は、オブジェクトクラス(例えば、家、人、動物などのオブジェクトクラス)の定義を形成することができる。1つの特定オブジェクトクラスの1つ又は複数の定義に従って、画像データ41から抽出された所定数の抽出特徴42が画像データ41内にある場合、画像データ41は、特定オブジェクトクラスを含むものとして分類され得る。換言すれば、画像データ41において当該特定のオブジェクトを識別することができる。また、特徴は、特定のオブジェクトクラスに属するものとして分類できる。画像データ41は、1つより多くのオブジェクトクラスを含み得る。
【0061】
特徴抽出ユニット120は、所定の特徴抽出方法を適用することにより、抽出特徴セット42を取得することができる。一実施例では、所定の特徴抽出方法は、離散的特徴の抽出をもたらす可能性がある。例えば、特徴抽出方法は、スケール不変特徴変換(SIFT:scale-invariant feature transform)法、ビデオ解析用コンパクト記述子(CDVA:compact descriptors for video analysis)法又はビジュアルサーチ用コンパクト記述子(CDVS:compact descriptors for visual search)法のいずれかを含み得る。
【0062】
別の実施例では、所定の特徴抽出方法は、線形フィルタ又は非線形フィルタを適用することもできる。例えば、特徴抽出ユニット120は、線形又は非線形の操作によって取得された画像から特徴を抽出する一連のニューラルネットワーク層であってもよい。当該一連のニューラルネットワーク層は、与えられたデータに基づいて訓練されることができる。与えられたデータは、各画像にどのようなオブジェクトクラスが存在するかについて注釈を付けた画像セットであってもよい。当該一連のニューラルネットワーク層は、各特定のオブジェクトクラスに関して最も顕著な特徴を自動的に抽出することができる。
【0063】
符号化装置は、複数の特徴選択ユニット130をさらに備える。本明細書において、複数は、2つ以上であると理解されるべきである。簡潔にするために、
図2には1つの特徴選択ユニット130-iのみ示されている。各特徴選択ユニット130-iは、1つ又は複数の特徴を選択する。
【0064】
符号化装置100は、複数の分類器140をさらに備える。本明細書において、複数は、2つ以上であると理解されるべきである。簡潔にするために、
図2には1つの分類器140-iのみ示されている。分類器140の数は、特徴選択ユニット130の数と等しい。具体的には、各特徴選択ユニット130-iは、1つの分類器140-iに結合される。
【0065】
各分類器140-iは、1つのオブジェクトクラスに割り当てることができる。1つのオブジェクトクラスに割り当てられた各分類器140-iは、割り当てられたオブジェクトクラス内で受信された特徴を分類する各分類器140-iとして理解できる。また、1つの分類器に割り当てられたオブジェクトクラスは、異なる分類器に割り当てられたオブジェクトクラスと等しくても異なってもよい。各分類器140-iは、1つより多くのオブジェクトクラスに割り当てることもできる。
【0066】
符号化装置100は、マルチプレクサ150をさらに備える。マルチプレクサ150は、複数の特徴選択ユニット130が出力した選択された特徴を多重化し、符号化用の特徴を出力する。マルチプレクサ150は、各特徴選択ユニット130に対する1つの入力を含み得る。
【0067】
符号化装置100は、分類器制御ユニット160をさらに備える。分類器制御ユニット160は、複数の特徴選択ユニット130によって選択された特徴のソートを制御し、さらに、マルチプレクサ150による特徴の出力を制御する。一般的に、分類器制御ユニット160は、特徴ストリームの編成を制御するために使用される。
【0068】
符号化装置100は、第2符号化ユニット170をさらに備える。第2符号化ユニット170は、マルチプレクサ150が出力した特徴に対して符号化又は圧縮を実行することにより、符号化又は圧縮された特徴を生成する。符号化は、出力された特徴に対して圧縮を実行することも含み得る。符号化又は圧縮された特徴は、特徴ビットストリーム46として通信インターフェース(図示せず)に出力され、通信インターフェースは、出力された特徴ビットストリーム46を受信し、任意の適切なネットワーク及びデータ通信インフラを介して他の機器に伝送する。他の機器は、特徴ビットストリーム46に対して復号化又は解凍を行い、再構築された特徴49を取得する復号化装置であってもよい。他の機器は、特徴ビットストリームを復号化装置に転送する中間機器であってもよい。
【0069】
第2符号化ユニット170は、第1符号化ユニット110と同様に、画像の符号化に適した様々な符号化方法を適用して、画像データ41に対して符号化又は圧縮を実行することにより、画像ビットストリーム45を生成することができ、第2エンコーダユニット170は、特徴の符号化又は圧縮に適した様々な符号化方法を適用することができる。より具体的には、第2符号化ユニット170は、静止画像及び/又はビデオの符号化に適した様々な符号化方法を適用することができる。例えば、第2符号化ユニット170は、例えば、JPEG(joint photographic experts group)、JPEG 2000、JPEG XRなど、PNG(portable network graphics)、AVC(advanced video coding)H.264、AVS(audio video standard)、HEVC(high efficiency video coding)H.265、VVC(versatile video coding)H.266、及びAOメディアビデオ1(AV1)コーデックなどの符号化方法を適用するコーデックを含むことができる。第1符号化ユニット110及び第2符号化ユニット170は、同じコーデックを適用してもよいが、異なるコーデックを適用してもよい。
【0070】
図6は、本発明の実施例による符号化装置の詳細を示す図である。
【0071】
以下では、
図6を参照して本発明の実施例による符号化装置100が実行するアルゴリズムについて説明する。
【0072】
符号化装置100(画像を取得するための装置を使用)は、オリジナル画像31の画像データ41を取得する。画像データ41は、第1符号化ユニット110に供給又は入力される。上記のように、第1符号化ユニット110は、オリジナル画像の画像データ41に対して符号化又は圧縮を行うことにより、画像ビットストリーム45を生成する。
【0073】
取得された画像データ41も、特徴抽出ユニット120に供給又は入力される。特徴抽出ユニット120は、特徴抽出プロセスを実行することにより、抽出特徴セット42とも呼ばれる特徴セットを取得する。より具体的には、特徴抽出ユニット120は、上述したように、所定の特徴抽出方法を適用することにより、特徴セットを抽出する。特徴抽出ユニット120は、特徴抽出プロセスを実行することにより、キーポイントセットを決定する。簡潔にするために、キーポイントセットを特徴セットXと呼ぶ。抽出されたN個のキーポイントのすべて(Nは抽出されたキーポイントの数)に対して、少なくとも次のパラメータ、即ち、キーポイントの位置[x,y]、方向角度、応答強度、近隣領域の半径及び近隣領域の勾配を使用することができる。これらのパラメータは、共にキーポイントの記述子を形成し、通常ベクトルとして表され、特徴ベクトルとも呼ばれる。これらのパラメータは、上述したSIFT又はCDVS特徴抽出方法などの既知の特徴記述子(特徴抽出方法)のほとんどによって決定される。
【0074】
後述する複数の特徴選択ユニット130及び複数の分類器140によって抽出された特徴を処理することにより、抽出特徴セット42を、1つ又は複数の特徴サブセットA、B、……、Zに反復的に分割する。
【0075】
以下では、符号化装置100が、Z個の分類器140-1、140-2、……、140-z、及びZ個の特徴選択ユニット130-1、130-2、……、130-zを含むと仮定し、ここで、Zは可変数である。より具体的には、数値Zは、特徴の仮定可能優先度の数から得られる数である。優先度は、優先度値で示すことができる。
【0076】
特徴の優先度越が高いほど、復号化装置で当該特徴又は特徴グループ(サブセット)を使用する必要性が高い。上記のスケーラビリティタイプにおける優先度は、次のことを意味する場合がある。即ち、
a)時間的スケーラビリティにおいて、分類中で最初に特徴を使用すべきで、これにより、復号化装置に必要な処理時間を、復号化装置のオブジェクト分類処理に割り当てられたタイムスロットに適合させることができ、それにより、より高い優先度を有する分類結果を取得する。タイムスロットが大きい場合、重要度の低い(又は優先度がより低い)特徴をオブジェクト分類プロセスに追加でき、これにより、オブジェクト分類プロセスが容易になる。オブジェクト分類プロセスが重要でない特徴から始まる場合、復号化装置に割り当てられたタイムスロットに対して復号化装置が処理に使用する時間が適切でなくなり、復号化装置は分類結果を全く取得できない可能性がある。
【0077】
b)空間的スケーラビリティにおいて、優先度の高い特徴を使用することは、分類プロセスにおいて特徴を使用することを意味し、当該分類プロセスは、解析開始位置(上述した画像中心部又は下部から上部へ)で画像内に位置する特徴から開始される。重要度の低い特徴(優先度の低い特徴)を追加することは、分類領域を拡張することにより、特徴が開始される位置から離れた特徴を使用することを意味する。
【0078】
c)品質的スケーラビリティにおいて、高い優先度の特徴を使用して、最初にオブジェクトの大まかな分類(クラス間分類)することができる。重要度の低い特徴(低い優先度を有する特徴)を追加し、クラス内分類へ変換することにより、処理される分類の品質を向上させる。ここで、分類プロセスで使用される特徴の優先度は、分類プロセスの高い品質と等しくないことに留意されたい。
【0079】
したがって、上記の内容は、優先度及び/又はそれぞれの優先度値を決定するための1つ又は複数の規則として見なすことができる。通常、スケーラビリティのタイプは、優先度(及び/又は優先度を示す優先度値)を決定する要件又は規則としても見なされることができる。
【0080】
スケーラビリティのタイプに応じて、所定の基準に基づいて、抽出特徴セットX内のN個の特徴(N個のキーポイント)を分類する。以下では、異なるタイプのスケーラビリティの所定の基準の詳細についてさらに説明する。
【0081】
a)時間的スケーラビリティ:時間的スケーラビリティについては、特徴のキーポイント応答の強度に基づいて、次に、復号化装置のオブジェクト分類プロセスにおいて所定数の特徴が使用される時間に基づいて、N個の特徴を分類する。当該時間は、D次元空間における点の距離を比較するための典型的な分類プロセスとメトリック(metric)の決定を考慮して、予め決定された固定された特徴セット(又はテスト特徴セット)に対して最初に推定される。
【0082】
b)空間的スケーラビリティ:空間的スケーラビリティについては、N個の特徴は以下の順序で分類され、即ち、特徴のキーポイント位置と分類プロセスが開始された位置との距離、上記のように、当該位置は、画像中心部又は画像の下部であり得、次に、キーポイントの応答強度の順序でソートする。
【0083】
c)品質的スケーラビリティ:品質的スケーラビリティについては、キーポイントの応答強度に応じてN個の特徴を分類する。
【0084】
次に、反復プロセスを実行し、詳細は後述する。
【0085】
反復プロセスでは、
図6においてAとしてラベリングされた特徴選択ユニット130-1及びAとしてラベリングされた分類器140-1のみが使用されるように特徴セットXをサブセットA、B...Zに分割し、まず、分類された特徴セットX全体(上述したスケーラビリティのタイプに従って分類される)を2つのサブセットに分割する。Aとしてラベリングされた特徴選択ユニット130-1及びAとしてラベリングされた分類器140-1は、特徴Aの最終サブセット(特徴サブセットA)を最高優先度のものにラベリングする。換言すれば、例えば、優先度値が1である最高優先度値を特徴サブセットAに割り当てることができる。
【0086】
次に、特徴セットXから特徴サブセットAの特徴を除去することにより、
図6のB130-2とラベリングされた特徴選択ユニット及びB140-2としてラベリングされた分類器は、特徴サブセットBを指定(又は決定)を行うために使用される。B130-2としてラベリングされた特徴選択ユニット及びB140-2としてラベリングされた分類器は、(又は決定)特徴Bのサブセット(特徴サブセットB)が特徴サブセットAより優先度の低いサブセットであることを指定するために使用される。換言すれば、特徴サブセットAに割り当てられた、優先度値より低い優先度値(例えば、優先度値2)を特徴サブセットBに割り当てることができる。上述した詳細な規則又は要件に基づいて、優先度及び優先度を示す優先度値を決定する。
【0087】
したがって、特徴サブセットAが指定された後に指定される各特徴サブセットの特徴は、分類された特徴セットの残りの特徴に基づいている。
【0088】
次に、特徴セットXから特徴サブセットA及び特徴サブセットBの特徴を除去することにより、次の特徴選択ユニット130-i及び次の分類器140-iを適用して、低い優先度を有する次の特徴サブセット(特徴サブセットi)などを指定(又は決定)する。本明細書において、低い優先度は、例えば、特徴サブセットA及び特徴サブセットBに割り当てられた優先度値より低い優先度値を表すことができる。したがって、後続のステップで指定(又は決定)される各特徴サブセットは、前のステップで決定された特徴サブセットの優先度(優先度値)より低い優先度(優先度値)を有する。
【0089】
特徴ベクトルマッチングを求めるプロセスは、クエリーセット内の重要点から記述されたベクトルのすべての要素と、検索セット内の各重要点から記述されたベクトルのすべての要素との距離を最小化することを含む。重要点はキーポイントとも呼ばれ得る。
【0090】
【0091】
本発明の実施例では、下記の式1及び式2でそれぞれ表されるノルムL1及びL2は、主に距離メトリックに使用される。
【数1】
【0092】
当該距離メトリックは、本発明の実施例においても他の距離メトリック、例えば、下記の式3で表されるキャンベラ距離(Camberra distance)と、下記の式4で表されるチェビセフ距離(Chebyshev distance)を適用することができるため、限定的とは見なすべきではない。
【数2】
【0093】
キーポイント間の距離メトリックを計算した結果、キーポイントによって異なる値が取得される。重要点(キーポイント)は、比較されたセットにそれらの等価物を持っていない場合があり、この場合でも、測定基準によって決定された値は、他のキーポイントまでの計算距離を示す。
【0094】
検査された特徴のサブセットとデータベースからの参照オブジェクトの特徴の特徴セット(参照オブジェクトの特徴セットは、予め決定され、予め記憶されている)との間のキーポイントセットを比較することにより、オブジェクトの最近傍キーポイント間の距離メトリックの合計を決定し、検査されたオブジェクトとデータベースからのオブジェクトとの間の分類/識別結果のランキングリストを作成する。換言すれば、キーポイントについてランキングリストを作成する。上記データベースは、符号化装置内の記憶ユニットに記憶することができる。
【0095】
分類品質が仮定閾値を超えると、選択/分類ループの所与のポイントでセットの反復分割アルゴリズムを終了する。分類品質は、既に指定(又は決定)又は選択及び分類された特徴に基づく分類品質として理解されたい。反復分割アルゴリズムが終了すると、それに応じてサブセットが最終的に決定(指定又は決定)され、それに応じて次のサブセットが指定(又は決定)される。
【0096】
スケーラビリティのタイプに応じて上記の閾値を設定する。より具体的には、スケーラビリティのタイプごとに異なる要件が適用される。これらの動作は、分類器制御ユニット160で実行される。分類器制御ユニット160は、すべてのスケーラビリティタイプに対する特徴の重要性の評価をまとめて最適化する。
【0097】
分類器制御ユニット160は、仮定された優先度の数及びスケーラビリティのタイプに基づいて、特徴サブセットの優先度(及び/又は優先度値)の少なくとも1つの又は複数の最適コードを決定する。例えば、分類器制御ユニット160は、仮定された優先度の数及びスケーラビリティのタイプに基づいて、例えば、1つ又は複数のビットを使用して、(復号化装置が)特徴の各サブセットに割り当てられた優先度値を表すコードを決定することができる。これらのコード又はコードを決定するための1つ又は複数の規則は、符号化装置と復号化装置との間で共有されてもよく、符号化装置及び復号化装置に予め記憶又は予め設定されてもよい。
【0098】
これらのコードを特徴のビットストリームで補完し、マルチプレクサ150によって対応する特徴サブセットを多重化することにより、分類器制御ユニット160は、スケーラブル特徴ストリームを作成する。換言すれば、分類器制御ユニット160は、特徴ストリームを再編成することにより、スケーラブル特徴ストリームを作成する。したがって、多重化は、特徴に割り当てられた各サブセットの優先度値に基づいて行われる。
【0099】
多重化されたスケーラブル特徴ストリームを、特徴ビットストリーム46を生成する第2符号化ユニット170に供給する。特徴ビットストリーム46を、通信インターフェースに供給し、当該通信インターフェースは、任意の適切なネットワーク及びデータ通信インフラを介して特徴ビットストリーム46を復号化装置2に伝送する。
【0100】
決定機器2側では、上述したように生成された画像ビットストリーム45及び特徴ビットストリーム46の2つのビットストリームを受信する。復号化装置2は、画像ビットストリーム45を復号化して、1つ又は複数の再構築された画像を生成し、特徴ビットストリーム46を復号化(解凍)して、1つ又は複数の(解凍された)再構築された特徴を生成する。復号化装置は、解凍された特徴ビットストリーム46から、異なる特徴サブセットに割り当てられた優先度値を示す情報を抽出することもできる。
【0101】
以下では、
図7を参照して、符号化装置で実行される方法について説明する。
【0102】
オプションステップS100において、符号化対象画像データを取得する。
【0103】
ステップS200において、所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得する。
【0104】
ステップS300において、所定の基準に基づいて、抽出特徴セット内の特徴を分類する。
【0105】
ステップS400において、抽出された特徴の分類セットを複数の特徴サブセットに反復的に分割し、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い。
【0106】
ステップS500において、圧縮のために、出力に使用される各特徴サブセットの特徴を多重化し、多重化は、各特徴サブセットに割り当てられた優先度値に基づいている。
【0107】
更なるステップ(図示せず)において、多重化された特徴を圧縮してデコーダ機器側に出力する。
【0108】
以下では、
図7を参照して、復号化装置で実行される方法について説明する。
【0109】
ステップS1000において、符号化装置からの特徴ビットストリームを受信する。上記のように、複数の特徴サブセットを圧縮することにより、特徴ビットストリームを生成し、当該複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、第1特徴サブセットに割り当てられた優先度値は、少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い。
【0110】
ステップS2000において、受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得する。
【0111】
オプションステップでは、解凍された特徴ビットストリームから、異なる特徴サブセットに割り当てられた優先度値を示す情報を抽出することができる。
【0112】
ステップS3000において、各特徴サブセットに割り当てられた優先度値及び復号化装置の処理能力に基づいて、複数の特徴サブセットから少なくとも1つの特徴サブセットを選択する。
【0113】
要するに、本明細書では、符号化装置及び復号化装置における視覚的特徴処理方法、並びに符号化装置及び復号化装置が詳細に説明されている。
【0114】
前記符号化装置における視覚的特徴処理のための詳細な方法及び前記詳細な符号化装置を利用して、特徴ストリームをスケーラブルなストリームに編成することにより、一定の規則に従って復号化側での分類を行うことができ、ここで、当該規則は、優先度値及びスケーラビリティタイプに関する。
【0115】
したがって、上記のように、符号化装置では分類プロセスを追加的に行うことにより、(分類の明確性の観点から)価値のある特徴の選択を容易にし、特徴選択ユニット及び分類器によって選択された特徴を処理することにより、それらのストリームの編成を容易にする。
【0116】
この方法により、オリジナル特徴ストリームを、独立した又は従属的な特徴ビットストリームのストリームに編成することが可能となり、これにより、復号化装置は、特徴をより迅速に関連オブジェクトに分類し、及び/又は分類プロセスに必要なコンピューティング能力を低下させ、及び/又は符号化装置側及び復号化装置側での分類の不明確性を低減させ、及び/又は従属構造及び/又はスケーラブル特徴ストリームを復号化するための規則でオブジェクト属性をデータに明示することができる。
【0117】
以上、詳細な実施例について説明したが、これらの実施例は、独立請求項によって定義される本発明をより良く理解するためのものであり、限定的と見なされるべきである。
【手続補正書】
【提出日】2023-12-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
符号化装置における視覚的特徴処理方法であって、
所定の特徴抽出方法に基づいて、符号化対象画像データから特徴抽出を実行することにより、抽出特徴セットを取得することと、
所定の基準に基づいて、前記抽出特徴セット内の特徴を分類することと、
分類された前記抽出特徴セットを、複数の特徴サブセットに反復的に分割することであって、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
圧縮のために、出力に使用される各特徴サブセットの特徴を多重化することであって、前記多重化は、各特徴サブセットに割り当てられた前記優先度値に基づいている、ことと、を含む、視覚的特徴処理方法。
【請求項2】
前記視覚的特徴処理方法は、
所定の圧縮
エンコーダを使用して、各特徴サブセットの多重化された特徴を圧縮することにより、圧縮された特徴ビットストリームを取得することと、
前記圧縮された特徴ビットストリームを復号化装置に出力することと、をさらに含む、
請求項1に記載の視覚的特徴処理方法。
【請求項3】
前記所定の基準は、
i)特徴のキーポイントの位置と、復号化装置におけるオブジェクト分類プロセスが画像内で開始される位置との距離、
ii)前記特徴のキーポイント応答の強度、
iii)復号化装置のオブジェクト分類プロセスにおいて所定数の特徴が使用される時間であって、前記時間は所定の特徴セットに基づいて予め設定されるものである、時間、のいずれか1つに基づいている、
請求項1又は2に記載の視覚的特徴処理方法。
【請求項4】
前記優先度値は、以下の規則、即ち、
i)復号化装置におけるオブジェクト分類プロセスの終了時間が所定時間内となるように、前記復号化装置のオブジェクト分類プロセスにおいて特徴を使用する順序、
ii)前記復号化装置における前記オブジェクト分類プロセスの解析が開始される、前記画像内の前記特徴の位置、
iii)前記復号化装置における前記オブジェクト分類プロセスの品質、
iv)i)~iii)のいずれか2つ又はすべての組み合わせ、のいずれか1つに基づいている、
請求項1~3のいずれか一項に記載の視覚的特徴処理方法。
【請求項5】
前記複数の特徴サブセットの特徴サブセットの数は、所定数であり、前記所定数は、前記複数の特徴サブセットに割り当てられる優先度値の所定数に対応する、
請求項1~4のいずれか一項に記載の視覚的特徴処理方法。
【請求項6】
前記分類された前記抽出特徴セットを、前記複数の特徴サブセットに反復的に分割することは、
第1のステップにおいて、前記第1特徴サブセットの特徴を反復的に決定することにより、前記第1特徴サブセットを指定することと、
複数の後続のステップでは、前記分類された特徴セット内の残りの特徴に基づいて、各更なる特徴サブセット内の特徴を反復的に決定することにより、前記各更なる特徴サブセットを指定することと、を含み、
後続のステップで指定された前記特徴サブセットに割り当てられた前記優先度値は、前のステップで指定された前記特徴サブセットに割り当てられた前記優先度値より低い、
請求項1~5のいずれか一項に記載の視覚的特徴処理方法。
【請求項7】
各特徴サブセット内の特徴を反復的に決定することは、n回の特徴選択プロセス及びn回の特徴分類プロセスを実行することを含む、
請求項1~6のいずれか一項に記載の視覚的特徴処理方法。
【請求項8】
前記視覚的特徴処理方法は、選択された特徴の対応するキーポイントセットを比較することにより、選択された特徴セットを比較することをさらに含む、
請求項7に記載の視覚的特徴処理方法。
【請求項9】
前記比較することは、選択された特徴の前記対応するキーポイントの距離メトリックを計算することを含む、
請求項8に記載の視覚的特徴処理方法。
【請求項10】
前記サブセット内の決定された特徴に基づく分類品質が所定の閾値を超える場合、各特徴サブセット内の特徴を反復的に決定するプロセスを終了する、
請求項6~9のいずれか一項に記載の視覚的特徴処理方法。
【請求項11】
前記視覚的特徴処理方法は、前記特徴の前記優先度値を表すコードを決定することをさらに含む、
請求項1~10のいずれか一項に記載の視覚的特徴処理方法。
【請求項12】
前記視覚的特徴処理方法は、決定されたコードを対応する特徴サブセットで補完し、圧縮のために、出力に使用される前記特徴サブセットの特徴を多重化することをさらに含む、
請求項1~11のいずれか一項に記載の視覚的特徴処理方法。
【請求項13】
前記符号化対象画像データは、イメージ、画像、イメージ/画像ストリーム、ビデオ、映画などを取得するために指示及び/又は処理可能なデータを含み、具体的には、ストリーム、ビデオ又は映画は、1つ又は複数の画像を含む、
請求項1~12のいずれか一項に記載の視覚的特徴処理方法。
【請求項14】
前記所定の特徴抽出方法は、線形又は非線形フィルタリングを適用する、ニューラルネットワークベースの特徴抽出方法を含む、
請求項1~13のいずれか一項に記載の視覚的特徴処理方法。
【請求項15】
前記所定の特徴抽出方法は、スケール不変特徴変換(SIFT)法、ビデオ解析用コンパクト記述子(CDVA)法、及びビジュアルサーチ用コンパクト記述子(CDVS)法のいずれか1つを含む、
請求項1~14のいずれか一項に記載の視覚的特徴処理方法。
【請求項16】
前記視覚的特徴処理方法は、符号化対象画像データを取得することをさらに含む、
請求項1~15のいずれか一項に記載の視覚的特徴処理方法。
【請求項17】
前記
視覚的特徴処理方法は、
所定の圧縮
エンコーダを使用して、前記画像データを圧縮することにより、画像ビットストリームを取得することと、
前記画像ビットストリームを前記復号化装置に出力することと、さらに含む、
請求項1~15のいずれか一項に記載の
視覚的特徴処理方法。
【請求項18】
視覚的特徴処理のためのエンコーダ装置であって、前記エンコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、前記コードは、動作中に前記処理リソースに、
請求項1~17のいずれか一項に記載の視覚的特徴処理方法を実行するように指示する、エンコーダ装置。
【請求項19】
復号化装置における視覚的特徴処理方法であって、
符号化装置から特徴ビットストリームを受信することを含み、前記特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高く、
前記視覚的特徴処理方法は、
受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得することと、
各特徴サブセットに割り当てられた前記優先度値及び前記復号化装置の処理能力に基づいて、前記複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、をさらに含む、視覚的特徴処理方法。
【請求項20】
視覚的特徴処理のためのデコーダ装置であって、前記デコーダ装置は、処理リソースと、コードを取得するためのメモリリソースへのアクセス権とを含み、前記コードは、動作中に前記処理リソースに、
符号化装置から特徴ビットストリームを受信することであって、前記特徴ビットストリームは、複数の特徴サブセットを圧縮することによって生成され、前記複数の特徴サブセットは、第1特徴サブセット及び少なくとも1つの更なる特徴サブセットを含み、前記第1特徴サブセットに割り当てられた優先度値は、前記少なくとも1つの更なる特徴サブセットに割り当てられた優先度値より高い、ことと、
受信された特徴ビットストリームを解凍することにより、解凍された複数の特徴サブセットを取得することと、
各特徴サブセットに割り当てられた前記優先度値及び前記復号化装置の処理能力に基づいて、前記複数の特徴サブセットから少なくとも1つの特徴サブセットを選択することと、を指示する、デコーダ装置。
【国際調査報告】