特許第6857189号(P6857189)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴァーシテック・リミテッドの特許一覧

特許6857189画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック
<>
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000012
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000013
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000014
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000015
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000016
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000017
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000018
  • 特許6857189-画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック 図000019
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6857189
(24)【登録日】2021年3月23日
(45)【発行日】2021年4月14日
(54)【発明の名称】画像のロッシー圧縮およびロスレス圧縮のための形状適応モデルベースコーデック
(51)【国際特許分類】
   H04N 19/21 20140101AFI20210405BHJP
   H04N 19/503 20140101ALI20210405BHJP
   H04N 19/593 20140101ALI20210405BHJP
【FI】
   H04N19/21
   H04N19/503
   H04N19/593
【請求項の数】15
【全頁数】16
(21)【出願番号】特願2018-544483(P2018-544483)
(86)(22)【出願日】2017年2月22日
(65)【公表番号】特表2019-506814(P2019-506814A)
(43)【公表日】2019年3月7日
(86)【国際出願番号】CN2017074433
(87)【国際公開番号】WO2017143988
(87)【国際公開日】20170831
【審査請求日】2019年10月15日
(31)【優先権主張番号】62/300,502
(32)【優先日】2016年2月26日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】516259217
【氏名又は名称】ヴァーシテック・リミテッド
【氏名又は名称原語表記】VERSITECH LIMITED
(74)【代理人】
【識別番号】100080791
【弁理士】
【氏名又は名称】高島 一
(74)【代理人】
【識別番号】100125070
【弁理士】
【氏名又は名称】土井 京子
(74)【代理人】
【識別番号】100136629
【弁理士】
【氏名又は名称】鎌田 光宜
(74)【代理人】
【識別番号】100121212
【弁理士】
【氏名又は名称】田村 弥栄子
(74)【代理人】
【識別番号】100174296
【弁理士】
【氏名又は名称】當麻 博文
(74)【代理人】
【識別番号】100137729
【弁理士】
【氏名又は名称】赤井 厚子
(74)【代理人】
【識別番号】100151301
【弁理士】
【氏名又は名称】戸崎 富哉
(74)【代理人】
【識別番号】100170184
【弁理士】
【氏名又は名称】北脇 大
(72)【発明者】
【氏名】チャン、シン チョウ
(72)【発明者】
【氏名】リン、ヂョウチー
(72)【発明者】
【氏名】リュウ、アン リン
【審査官】 岩井 健二
(56)【参考文献】
【文献】 特開平10−208060(JP,A)
【文献】 特開平09−311941(JP,A)
【文献】 特開平08−272958(JP,A)
【文献】 米国特許第5764814(US,A)
【文献】 米国特許第4771469(US,A)
【文献】 国際公開第2013/068566(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 − 19/98
(57)【特許請求の範囲】
【請求項1】
画像または形状情報の圧縮のための方法であって、当該方法は:
2値形状画像を層および対象へと分離するステップを有しており;
前記対象から穴を差し引くステップを有しており;
前記対象の形状に基づいて、前記対象の決定論的成分および確率論的成分ならびに前記対象のブロックサイズを識別するステップを有しており;
第1のパラメトリックモデルに基づいて、各対象の前記決定論的成分をエンコードするステップを有しており;
各対象の前記確率論的成分をエンコードするステップを有しており;かつ、
前記のエンコードされた決定論的成分および前記のエンコードされた確率論的成分を組み合わせて、圧縮されエンコードされた出力を提供するステップを有しており、
前記の決定論的成分および確率論的成分を識別する前記ステップが:
固体形状の境界を取得するステップを有しており;
ポイントリストに前記境界上の頂点を記憶するステップを有しており;
前記ポイントリストの前記頂点からラインセグメントを生成するステップを有しており;
対象から前記ラインセグメントを抽出するステップを有しており;
前記ラインセグメントに第2のパラメトリックモデルをあてはめるステップを有しており;
前記の第2のパラメトリックモデルと前記対象の前記ラインセグメントとの間の近似誤差を計算するステップを有しており;かつ、
前記近似誤差を閾値と比較するステップを有しており、ここで、前記閾値より下の近似誤差を有するラインセグメントが決定論的成分として採用され、かつ、前記閾値より上の近似誤差を有するラインセグメントが確率論的成分として採用される、前記方法。
【請求項2】
前記対象が
【数1】
であり、式中、Sが、形態学的充填プロセスを経験した元々の形状に等しい前記の元々の形状の外側の境界によって定められたm番目の対象Object(m=1,2,...,M)の形状であり、かつ、Hm,n(n=1,2,...,N)が、先に言及した形態学的充填プロセスの下で充填される領域であり、かつ、それらのサイズによって降順に配置されているm番目の対象内の穴である、請求項1に記載の方法。
【請求項3】
前記境界を取得する前記ステップが、ゼロではない4連結の隣接物を有する前記対象のすべての画素を除去し、かつ、8連結の境界画素を残すことによって達成される、請求項に記載の方法。
【請求項4】
前記ラインセグメントを抽出する前記ステップが:
形状の境界上の各画素についてスライディングウィンドウを採用してその隣接する画素を含むことを有しており、前記画素およびその隣接物によって形成される前記ラインセグメントの滑らかさの程度が測定され得るようになっており;かつ、
各画素から取得される前記の滑らかさの程度を2つのグループへとクラスタリングすることを有しており、同一グループにおける隣接する画素が一緒に接続されてラインセグメントを形成し得るようになっている、
請求項に記載の方法。
【請求項5】
前記の滑らかさの程度を測定する前記ステップが、最小2乗あてはめ誤差を比較することによって達成される、請求項に記載の方法。
【請求項6】
前記の第2のパラメトリックモデルが、ポリゴン、区分的多項式およびBスプラインのうちの1つ以上である、請求項に記載の方法。
【請求項7】
前記の第1のパラメトリックモデルが、ポリゴン、区分的多項式およびBスプラインのうちの1つ以上である、請求項1に記載の方法。
【請求項8】
前記確率論的成分の前記エンコードが、ブロックベース法または連鎖符によって達成される、請求項1に記載の方法。
【請求項9】
前記確率論的成分の前記エンコードが、可変サイズを有する回転マイクロプロセシングユニットを用いるブロックベース法を用いて達成され、かつ、前記回転マイクロプロセシングユニットの配向が、エントロピー符号化またはコンテンツベース算術符号化アルゴリズムを用いて最適化される、請求項1に記載の方法。
【請求項10】
圧縮比をさらに増大させるための隣接する成分のパラメーターのイントラ/インター予測のステップをさらに有しており、そのことによって、成分が先行する頂点からの変位として符号化される、請求項1に記載の方法。
【請求項11】
ロスレスおよびロッシー圧縮モードが、前記決定論的成分および前記確率論的成分について独立に選択され得る、請求項1に記載の方法。
【請求項12】
前記の圧縮されエンコードされた出力が、データ構造を有しており、該データ構造は:
オーバーヘッドを含んでおり、該オーバーヘッドは、成分情報および平均不透明度を含んでおりかつ、該オーバーヘッドは、ヘッダーファイルマイクロプロセシングユニットの始点および終点を含んでおり;かつ、
決定論的成分が選択されれば、前記の第1のパラメトリックモデルのパラメーターを含んでいる、
請求項1に記載の方法。
【請求項13】
2値形状画像のロッシーおよびロスレス圧縮用の形状適応モデルベースコーデックであって、当該コーデックは方法を含んでおり、該方法は:
前記2値形状を層および対象へと分離することと;
前記対象から穴を差し引くことと;
前記対象の形状に基づいて、前記対象の決定論的成分および確率論的成分ならびに前記対象のブロックサイズを識別することと;
第1のパラメトリックモデルに基づいて、各対象の前記決定論的成分をシーケンシャルにエンコードすることと;
各対象の前記確率論的成分をシーケンシャルにエンコードすることと;
前記のエンコードされた決定論的成分および前記のエンコードされた確率論的成分を組み合わせて、圧縮されエンコードされた出力を提供することとを有しており、
前記決定論的成分および確率論的成分を識別するステップが:
固体形状の境界を取得することと;
前記境界上のすべての頂点をポイントリストに記憶することと;
前記ポイントリストにおける前記頂点からラインセグメントを生成することと;
対象から前記ラインセグメントを抽出することと;
前記ラインセグメントに第2のパラメトリックモデルをあてはめることと;
前記の第2のパラメトリックモデルと前記対象の前記ラインセグメントとの間の近似誤差を計算することと;
前記近似誤差を閾値と比較することとによって実行され、ここで、前記閾値より下の近似誤差を有するそれらラインセグメントが決定論的成分であり、かつ、前記閾値より上の近似誤差を有するそれらラインセグメントが確率論的成分である、
前記形状適応モデルベースコーデック。
【請求項14】
前記ラインセグメントの前記抽出が:
前記境界上の各画素についてスライディングウィンドウを採用してその隣接する画素を含むことを含んでおり、前記画素およびその隣接物によって形成される前記ラインセグメントの滑らかさの程度が測定され得るようになっており;
滑らかさの程度として、前記画素にあてはめ誤差を付与することを含んでおり;かつ、
各画素から取得される前記の滑らかさの程度を2つのグループへとクラスタリングすることを含んでおり、同一グループにおける隣接する画素が一緒に接続されてラインセグメントを形成し得るようになっている、
請求項13に記載の形状適応モデルベースコーデック。
【請求項15】
前記確率論的成分が、可変サイズを有する回転マイクロプロセシングユニットを用いるブロックベース法を用いて符号化され、かつ、前記回転マイクロプロセシングユニットの配向が、エントロピー符号化またはコンテンツベース算術符号化を用いて最適化される、請求項13に記載の形状適応モデルベースコーデック。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2016年2月26日付出願の米国仮出願シリアル番号第62/300,502号の利益を主張し、あらゆる数字、表または図面を含むその内容全体が参照により本明細書に組み込まれる。
【0002】
発明の分野
本発明は、TV放送もしくは映画といったシナリオ中のビデオシーケンス内の対象における2値形状、マット(matte)またはソフト(soft)セグメンテーション画像(segmentation image;分割画像)といった形状情報の圧縮に関する。それは、形状情報のロスレス(lossless;可逆)符号化(coding;コーディング)およびロッシー(lossy;非可逆)符号化の両方を提供し、したがって、ビットレートと形状表示の精度(解像度)との間のトレードオフを許す。圧縮における符号化効率をさらに改善するために、イントラおよびインター符号化もまた利用可能である。
【背景技術】
【0003】
発明の背景
形状における主な不連続性は、概して形状画像(shape images)の形態で表され、各形状画像は、主な不連続性によって定められる前景および背景の量を示す画像である。これはまた、マットセグメンテーションまたはソフトセグメンテーション画像とも呼ばれ、かつ、ブルースクリーン技術において特定の画素位置における前景の量を定めるのに頻繁に用いられる。それは、0から255までの範囲の値を有する8ビット画像であり得、それは、この画素のソフトメンバーシップ(soft membership)または不透明度を示し、0では貢献がなく(すなわち、透明)、かつ、255では完全に貢献する(すなわち、完全に見られる)。対象の幾何学的形状のみが必要とされれば、形状画像は0または1の値を帯びる画素を有する2値画像へと簡略化され得、これはまた、2値形状/2値アルファプレーンとも呼ばれる。後者は、利用可能なビットレートが制限される時、データ圧縮において興味深い。
【0004】
今日まで、マットセグメンテーションおよびソフトセグメンテーション画像を符号化するために特に個別対応された形状コーデック(codec;符復号器)はない。それらは概して、グレースケール画像として取り扱われ、かつ、画像圧縮アルゴリズムを用いて符号化される。かかるアプローチは、圧縮においてマットおよびソフトセグメンテーション画像の構造的余剰を利用することができない。2値形状については、2つの最先端の符号化のアプローチ、すなわち、輪郭ベース法(contour−based method;輪郭に基づく方法)とブロックベース法(block−based method;ブロックに基づく方法)とがある。輪郭ベース法では、形状の輪郭はまず時計回り(または反時計回り)にトレースされ、かつ、最小の処理単位としての複数の直線断片(line piece)に分割される。エンコードおよびデコードプロセスが、各単位にシーケンシャルに適用され、輪郭が形成されるようになっている。この後に、元々の形状情報を再構成するための充填プロセスが続く。しかしながら、輪郭ベース法の主な欠点は、それらが実質的な前処理を必要とすることである;しかしながら、それらの圧縮比は、それらのロスレスモードにおけるブロックベース法のものより低い。結果として、ブロックベース法はより人気がある。
【0005】
ブロックベースのアプローチでは、2値形状は、ビデオオブジェクトプレーン(VOP)の形状を含む同一サイズの長方形(別名、境界ボックス)によって境界が作られる。かかる長方形は後に、レギュラーマクロブロック(別名、マイクロプロセシングユニット)へと分割されるであろうし、各レギュラーマクロブロックでは、画素のアルファ値はエントロピー符号化法を用いてエンコード/デコードされる。しかしながら、ブロックベースのアプローチの主な制限は、同一サイズを有するブロックが採用され、かつ、それらが同一方向に整列していることである。結果的に、ブロックのうちのいくつかは、不可避的に輪郭に関する情報を含んでいないかも知れず、かつ、それらは未だ記憶領域を消費する(余剰ブロック)。これら余剰は概して、特に高解像度画像において、ブロックベース法の圧縮比を制限する。
【発明の概要】
【0006】
本発明は、いっそうのビットレートの柔軟性を必要とする映像形状(video shape)コーデックのための解決策を提供し、また、より良好な画質および形状の詳細を提供するように設計されている。3D映像処理(3D video processing;3Dビデオ処理)における視点合成用の深度マップの圧縮を含む、本発明のための多くの用途がある。本発明の技術を適用することによって、再構成されたエッジの不正確性が、それらのテクスチャーによってさらに調整され得る。特に、本発明の形状コーデックは、形状の境界上の不正確性(特に画像が複雑なテクスチャーを含む場合、視覚アーティファクトを引き起こす)を最小限にしながらビットレートを調整し得る。かかる場合では、形状の境界(形状がテクスチャーを備えていれば)は、アーティファクトの数を減少させるためにそれらのテクスチャーによって異なるレベルの精度で符号化され得る。
【0007】
映像圧縮のような多くの用途では、対象の形状は圧縮されなければならない。MPEG−4における従来の形状符号化は、符号化される所望の対象の形状の2値アルファプレーンを圧縮するための効率的なロスレス法であるコンテクストベース算術符号化(context−based arithmetic coding)(CAE)に基づく。しかしながら、上記で注目されたように、ブロックベースのアプローチの主な制限は、同一形状を有するブロックが採用され、かつ、それらが同一方向に整列していることである。結果的に、ブロックのうちのいくつかは、完全な0または255を不可避的に含むかも知れない。いくつかのブロックベース法がかかるデータを圧縮するのに用いられ得るが、相当量の余剰が送信されたデータに残ったままであろう。解像度1080pまたは4KのようなHD映像では、かかる余剰は大きくなり得、したがって多くの記憶領域を必要とする。ロッシー圧縮モードでは、それらはマクロブロックの解像度を低下させ、かつ、記憶される情報を減少させる。このことは、煩わしい階段効果(エイリアシング)をもたらす。他方、輪郭アプローチは、頂点とパラメトリック曲線とを用いて対象の形状に近付くのみである。結果として、滑らかでないエッジの予測不能または確率論的である変動を捉えることができない。
【0008】
これら従来の方法とは対照的に、本発明の提案される形状適応モデルベース(shape−adaptive model−based)(SAM)コーデックは、元々の形状のパラメトリックモデル表示を支持するだけでなく、差分パルス符号変調(DPCM)またはその他のブロックベース法のいずれかを用いて残余誤差を符号化することを許容する。結果として、本発明は、2値アルファプレーンを決定論的(deterministic)成分と確率論的(stochastic)成分に分割することによって高い圧縮の質を達成することが可能であり、かつ、ロスレス圧縮モードとロッシー圧縮モードとの間で選択する柔軟性を提供する。さらに、その決定論的成分はまた、滑らかな遷移を必要とする多くの画像(image)/映像(video)用途で有効である。
【0009】
従来の方法とは異なり、本発明の形状適応モデルベースコーデック(SAM)は、次の顕著な特徴のうちのいくつかまたはすべてを有し得る:
【0010】
1. 2値形状/2値アルファプレーンのみを支持する従来の形状コーデックとは異なり、本発明は、2値形状、マットセグメンテーションおよびソフトセグメンテーション画像を符号化することが可能である。2値形状画像の場合に半透明な対象を支持するために、提案される発明はまた、対象の平均不透明度を含む。境界における正確な不透明度は、入力および補助データのその他の必要情報から推定されるであろう。概して、不透明度のいっそうの簡略化は、2値形状画像の場合に含まれ得る。実数値のマットセグメンテーションおよびソフトセグメンテーション画像を符号化する際、マットの変化が非常に小さければ、それは平均値のみを用いて表されるであろうし、かつ、2値形状と同様のやり方で符号化されるであろう。そうでなければ、ブロックベースの画像符号化技術を用いて符号化され得る重複していないブロックは、提案されるSAMを用いて実数値のマットを符号化するのに用いられるであろう。マットセグメンテーションおよびソフトセグメンテーションデータを符号化する能力は、前景および背景における対象の重複を許容する。このことは、対象のオクルージョン(occlusion;遮蔽)を取り扱うユーザーにとって(例えば、インペインティングされた(in−painted;補間された・復元された)データを用いて)いっそうの柔軟性を提供し、このことは、3Dレンダリングにおける対象のより良好な再構成をもたらす。
【0011】
2. 形状は、柔軟なロッシー符号化およびロスレス符号化のために決定論的成分と確率論的成分とに分解される。ロスレスであり、かつ、近似理論アプローチに依拠する従来の2値アルファプレーン符号化よりはむしろ、提案されるコーデックは、形状を決定論的成分とランダム様の確率論的成分に分解する。前者はパラメトリックモデル様スプライン曲線およびポリゴンによってより良好に表され得る人造の対象のような対象の幾何学的性質に由来する;一方で、後者については、それは、羽(feathers)、毛(hairs)などといったランダム様成分を表すのに用いられる。
【0012】
3. 決定論的成分および確率論的成分の識別のための柔軟な手順が提案される。特に、対象の形状から決定論的成分および確率論的成分ならびにそれらのブロックサイズを識別する方法が提案される。さらに、それは、各成分についてロスレスおよびロッシー圧縮モードの間で選択する柔軟性を提供する。従来の方法とは異なり、本発明は、各成分について圧縮比と質との間のトレードオフを許容するが、このことは高解像度用途においては必須である。
【0013】
4. 予め設定された精度内で形状の輪郭をモデル化する決定論的成分は、形状の圧縮された表示を提供するだけでなく、類似の形状の効果的な登録を許容する。パラメトリックモデルの連続的性質はさらに、画像超解像、フレームレートアップコンバージョン、形状の変形などといった用途において滑らかな遷移を許容する。
【0014】
5. 確率論的成分は、ロスレス圧縮が必要とされれば、算術符号化またはその他の方法を用いて符号化され得る。代替的には、形状は、アップコンバージョン前により低い解像度の形状画像へとデシメート(decimate)され、かつ、符号化され得る。このプロセスはロッシーであるが、概してより高い圧縮比をもたらす。特に、ブロックベース法が確率論的成分を圧縮するために適用される時、回転マイクロプロセシングユニットが採用されることが提案される。このことは、確率論的成分の圧縮比の有意な増大をもたらし得る。
【0015】
6. 本発明は、関連する形状の予測および符号化を実行する能力を許す(例えば、隣接する視点または時刻における)。このことは、提案されるコーデックが類似の形状間の統計学的余剰を調査することによって圧縮比を改善させることを許容する。
【図面の簡単な説明】
【0016】
本発明の前述およびその他の目的ならびに利点は、以下の詳細な説明および添付の図面(同様の指示は、種々の図面において同様の要素を示す)に関して考慮される時、より明らかになるであろう:
【0017】
図1図1は、前景または背景のインペインティング(in−painting;補間・復元)の例であり、ここで、図1(a)は元々の前景を示しており;図1(b)は未知の領域におけるインペインティングされた前景を示しており;図1(c)は元々の背景を示しており;かつ、図1(d)は未知の領域におけるインペインティングされた背景を示している。
図2図2は、圧縮のために形状を1つずつSAM形状コーデックへと接続させる前に入力された形状を形状の層に分割する例である。
図3図3は、本発明のSAMコーデックの概観である。
図4図4は、2値形状の決定論的成分および確率論的成分の識別のプロセスを示す。
図5図5は、本発明とともに用いられるインター予測の例である。
図6図6は、本発明の分離した確率論的成分の例である。
図7図7は、本発明のデータ構造の例である。
図8図8は、本発明の概念的用途の証明のためのデータセット内のいくつかの画像を示している。
【発明を実施するための形態】
【0018】
発明の詳細な説明
画像は視覚認知の表示であり、写真またはスクリーンディスプレイのような2次元(2D)であってもよい。それはまた、立体画像のような3次元(3D)であってもよい。概して、3D画像はまた、複数の2D画像または変形/深度マップを有する2D画像として表され得る。したがって、本発明の形状処理は、簡略化のため2D画像について考慮され得る。しかしながら、概して、これら処理技術はまた、3Dまたは立体画像の処理にも拡張され得る。
【0019】
本発明の技術を理解するために、インペインティングを理解することが助けになる。図1は、この概念を示す図である。インペインティング(別名、画像補間または映像補間)は、画像データの失われた部分または壊れた部分(主に小さな領域または小さな欠陥)に取って代わるための洗練されたアルゴリズムの適用を意味する。図1(a)および図1(c)は、元々の前景および背景をそれぞれ示している。前景および背景の両方の上に欠損したいくつかの領域があることに注目されたい。このことは、画像を処理するのに用いられるマッティング(matting;マット化)またはセグメンテーションツールによって引き起こされるかも知れない。これら領域の考え得る前景および背景のテクスチャーを推定するために、画像インペインティングが、図1(b)および図1(d)に示されるように、対応するテクスチャーを作成するために採用される。したがって、図1(a)は元々の前景を示しており、一方で、図1(b)は特定の領域におけるインペインティングされた前景を示している。犬の顔の右側および犬の足の左側の追加の前景要素に注目されたい。図1(c)は、左側および右側にランダムな欠陥を有する元々の背景を示している。図1(d)は、それら欠陥を除去するためのインペインティングを示している。
【0020】
図2は、入力された形状の例である。図面から、2値形状が複数の対象を含んでいてもよい異なる層に分割され得ることが見られ得る。各態様は、形状および穴として表されてもよい。
【0021】
図3は、提案されるコーデックの概観を示している。そのエンコードプロセスは、概して次のように3つの主なステップに分割され得る:
【0022】
1. 入力された形状の、異なる層および対象への分離:
予め定められた指標を有するいくつかの対象を示す複数の層を場合によっては含んでいてもよい2値アルファプレーン(図3における2値形状入力)を考慮すると、入力された形状の情報はまず、複数の層へと分離され得る。各層(図3における層1,2...k...K)内には、いくつかの隔離された対象(0ではなく、かつ、位相幾何学的に非連結であり、4連結でも8連結でもない領域)があり得た。かかる場合では、対象はシーケンシャルに分離および処理され得る。穴(図3における穴1,...N)を含む各対象について、これら穴は、我々が図1の画像から見得るように表示から差し引かれ得る。
【0023】
より正確には、対象の表示は:
【0024】
【数1】
【0025】
として与えられ得、式中、Sは、形態学的充填プロセスを経験した元々の形状に等しい元々の形状の外側の境界によって定められたm番目の対象Object(m=1,2,...,M)の形状であり、Hm,n(n=1,2,...,N)は、先に言及した形態学的充填プロセスの下で充填される領域であり、かつ、それらのサイズによって降順に配置されているm番目の対象内の穴である。
【0026】
2. 決定論的成分および確率論的成分の識別:
形状および穴の取得後、図2に示されるように、対象の形状から決定論的成分および確率論的成分ならびにそれらのブロックサイズを識別する方法が提供される。これら成分がどのように識別されるかについての詳細は、以下で説明される。
【0027】
3. 決定論的成分および確率論的成分のエンコード:
決定論的成分および確率論的成分をさらに圧縮するのに、異なる方法が用いられ得る。前者は、パラメトリックモデル様スプライン曲線およびポリゴンによってより良好に表され得る人造の対象のような対象の幾何学的性質に由来する。一方、後者については、それは、羽、毛などといったランダム様成分を表すのに用いられる。特に、本発明は、確率論的成分を圧縮するためにブロックベース法が適用される時、回転マイクロプロセシングユニットを採用する。決定論的成分および確率論的成分がどのようにエンコードされ得るかについての詳細は、以下で説明される。
【0028】
決定論的成分および確率論的成分の識別
本発明による方法では、第1のステップは、固体形状の境界を取得するためのものであり得る。例えば、画素であってそれらの4連結の隣接物がゼロではない前記画素をすべて除去し、したがって8連結の境界画素を残すことによって、形状に対して形態学的フィルタリングが実行され得る。境界上の頂点のすべてがトラバース(traverse)され、かつ、ポイントリストに記憶され得る。ポイントリストのセットから、ラインセグメント(line segment;直線線分)が生成され得る。その後、決定論的成分および確率論的成分を取得するために、次の2つのステップが実行され得る:
【0029】
1. 対象からのラインセグメントの抽出:
ポリゴンあてはめ(polygon fitting)手順を用いて、ラインセグメントが取得され得る(例えば、反復的に、直線あてはめ誤差(line fitting error)が特定の許容差を越えるまで頂点を含む)。しかしながら、好ましくは、この手順はこの問題に直接適用されるべきである。なぜなら、確率論的成分が、指定の許容差を越えるかも知れない大きなあてはめ誤差を有するかも知れないからである。この制限を克服するため、次のように、形状の輪郭を分割するのに本発明による新しい方法が用いられ得る:
【0030】
a. 形状の輪郭上の各画素について、その隣接する画素を含むためにスライディングウィンドウ(sliding window;引窓)が採用され得、画素およびその隣接物によって形成されるラインセグメントの滑らかさの程度が、例えばそれらの最小2乗あてはめ誤差を比較することによって、測定され得るようになっている。その時、このあてはめ誤差は、滑らかさの程度として画素に付与され得る。
【0031】
b. 各画素から取得された滑らかさの程度は、その後、2つのグループにクラスタリング(cluster)され得る。同一グループにおける隣接する画素は、一緒に接続されてラインセグメントを形成し得る。
【0032】
2. 決定論的成分および確率論的成分の識別:
ラインセグメントの取得後、ラインセグメントをあてはめるのに、ポリゴン、区分的多項式、Bスプラインなどのようなパラメトリックモデルが用いられ得る。決定論的成分は概して滑らかであり、かつ、パラメトリックモデルによってより良好に表され得るので、結果として生じる近似誤差は概して、確率論的成分のものより非常に小さいであろう。近似誤差を特定の閾値と比較することによって、ラインセグメントは決定論的成分および確率論的成分に分離され得る。図4は、ELRおよびELRでそれぞれ示される誤差とセグメント(segment;線分)の長さの比率(error to segment length ratio)(ELR)のような近似誤差測定値を用いる決定論的成分および確率論的成分の識別の例を示している。図4に示されるように、不規則な形状の境界は、ラインセグメントを用いてプロットされる。境界の一部が、中間倍率および高倍率の両方で示されている。ラインセグメントと対称の境界との間の差が小さい場合、成分は決定論的である(決定論的成分ELRにおける矢印)。差が大きい場合、成分は確率論的である(確立論的成分ELRにおける矢印)。
【0033】
成分を識別するために重要なのは、適切な閾値を決定することである(図4中の大きく拡大された図において差を示している矢印)。この目的のために、これら閾値を決定するのにz検定のような統計学的検出検定が採用される。閾値は、特定の圧縮の質を確実にするために、Γ=min(ΓADAPTIVE,ΓUSER)として選択され得、式中、ΓADAPTIVEは統計学的検定から決定された適応閾値であり、かつ、ΓUSERはユーザー指定の最大許容誤差である。適応閾値ΓADAPTIVEおよびユーザー指定の閾値ΓUSERの最小値を選択すること、すなわちΓ=min(ΓADAPTIVE,ΓUSER)の利点は、それが適応閾値とユーザー指定の閾値との間で切り替わるための柔軟性を提供することである。対象の形状が概してランダム様である時、ΓADAPTIVEはユーザー指定の許容差ΓUSERよりいっそう大きいかも知れない。適応閾値を無効にし、かつ、ラインセグメントのほとんどを確率論的成分として分類することは概して有益であろう。このことは、すべての成分が指定の許容差を満たし得るであろうことを確実にする。なぜなら、指定の許容差を越える確率論的成分は、ロスレス圧縮を用いて符号化され得、一方で、決定論的成分は、パラメトリックモデルのパラメーターによって表され得、かつ、近似誤差は、指定の許容差のものより小さいであろうからである。そうでなければ、対象が概して滑らかであり、かつ、パラメトリックモデルによってよく表され得る時、ΓADAPTIVEは小さいであろうし、かつ、閾値を超えるELRを有するであろういくつかの時折発生するランダム様のラインセグメントを除いて、ラインセグメントのほとんどは決定論的なものとして識別されるであろう。
【0034】
より具体的には、スライディングウィンドウにおける最小2乗あてはめの実行後、m=1,2,...,M個の対象があり、各対象がJ個の頂点を含んでおり、かつ、各画素が平均2乗誤差MSEj,mを付与されると仮定されたい。MSEj,mを2つのグループに分割するために、クラスタリングが実行される。同一グループに属する隣接する画素が結合してラインセグメントを形成し、かつ、MMSEk,mで示されるこれら画素のMSEj,mの平均は、結果として生じるラインセグメントの滑らかさの測定値である。Kセグメントが各対象について取得され、以下の測定値が決定論的成分および確率論的成分を識別するために採用され、すなわち、誤差とセグメントの長さの比率(ELR)、
【0035】
【数2】
【0036】
式中、Jはk番目のラインセグメントの頂点の総数である。ラインセグメントがパラメトリックモデル(例えば、Bスプライン、ベジエ曲線など)によってよく表され得る時、MMSEk,mは小さいであろうし、かつ、セグメントに含まれる頂点の数は大きくなり得る。このことは、小さなELRをもたらすであろうし、したがって、それは決定論的成分として見なされ得る。そうでなければ、羽または毛といったランダム様のセグメントは大きな近似誤差を有するであろうし、その時は、確率論的成分として見なされるべきである。
【0037】
k番目のラインセグメントが決定論的であるか確率論的であるかを判定するのに、ズレの検定のような統計学的検出検定が用いられ得る。例えば、ELRは、ELRm,k(式中、k=1,2,...,Kであり、かつ、m=1,2,...,Mである)および対象の滑らかさにより更新され得、かつ、ELRk,mとして取得され得る適応閾値ΓADAPTIVE(m)として書かれ得る。
【0038】
【数3】
【0039】
【数4】
【0040】
式中、σはm番目の対象のELRk,mのスケールのロバスト推定であり、μは忘却因子であり、かつ、kξはガウス分布の上方の(1−P{X>ξ})の4分位に対応する閾値4分位パラメーターである。したがって、パラメーター
である可能性。0.05の有意水準については、kξ=1.96が選択され得る。median()はメジアン演算子(median operator)である。決定論的成分または確率論的成分の識別のための決定則として、次のロバストなz検定が採用され得る。
【0041】
【数5】
【0042】
(式中、閾値min(ΓADAPTIVE(m),ΓUSER)は適応閾値またはユーザー指定の閾値ΓUSERから切り替えるための柔軟性を提供する)であれば、k番目のラインセグメントは確率論的である。
【0043】
決定論的成分の符号化
決定論的成分の識別後、決定論的成分の形状は、パラメトリックモデル(例えば、ポリゴン、区分多項式、Bスプラインなど)を用いてさらに表され得る。より具体的には、k番目のラインセグメント上の画素の座標、
は、
【0044】
【数6】
【0045】
としてモデル化され得、式中、f(ak,m,j)は、頂点の数jとj番目の頂点の座標との間の関係を説明する関数である。概して、この概念は、3D座標のようなより高次元における頂点へと一般化され得る。aはk番目のラインセグメントについての関数のパラメーターを含むベクトルである。例えば、スプラインモデルが用いられれば、aはスプライン曲線および選択される順番のコントロールノットを取得するかも知れない。ej,kは近似誤差であり、かつ、それは、決定論的成分および確率論的成分を識別するのに用いられ得る。k番目の決定論的成分は、パラメーターaによって表され得る。
【0046】
圧縮比をさらに増大させるために、隣接する成分のパラメーターのイントラ/インター予測が実行され得る。例えば、パラメーターが頂点の位置のような整数であれば、それらはシーケンシャルに符号化され得、かつ、それらの位置はしたがって、それらの先行する頂点の位置+変位として表され得る。概して、変位の大きさが頂点の座標のもの(0から画像のサイズまでの範囲)より非常に小さければ、変位を符号化するのにより少数のビットしか必要とされないであろうし、かつ、このことは、実際にストレージを減少させるであろう。イントラ予測はインター予測に類似するが、変位が取得される態様において異なる。変位は、この場合、Pフレームにおける現在の頂点およびIフレームにおける直近の頂点の座標の間の差によって定められる。実際、インターモードとイントラモードとの間の選択は、変位の値によって決定されるであろう。インター頂点予測は、インター予測において、参照頂点がシーケンシャルな順番ではなく、反復最接近点(iterative closest point)(ICP)またはフリーフォーム変形(free−form deformation)(FFD)のいずれかを用いて参照フレームにおける直近の対応する頂点として計算されること以外は、イントラ予測のものと類似する。対応する参照頂点を考慮すると、予測される頂点は、イントラ頂点予測のものと同様に、参照頂点+変位として表され得る。
【0047】
隣接する成分の実数値のパラメーター(例えば、パラメトリックモデルの係数)のイントラ/インター予測については、現在の成分の実数値のパラメーターは、後に続く成分の係数を予測するための参照パラメーターとして見なされる。その後、元々の係数よりはむしろ、予測残差がエンコードされ、かつ、記憶される。予測残差の範囲が元々の係数のものより非常に小さければ、高い圧縮比が達成され得る。より正確には、まず、実数値のパラメーターを量り、かつ、定点整数へと数値化してもよい。その後、予測残差(すなわち、現在の成分のパラメーターと後に続く成分のものとの間の差)が、計算および記憶される。例えば、浮動小数点パラメーターのカテゴリーのイントラ予測のために、可変スケールおよび差分カテゴリー符号化アプローチが採用され得、このことは、パラメーターの順番の中の余剰を調査し、かつ、イントラ予測の圧縮比をさらに改善することが可能である。パラメトリックモデル係数のインター予測が、同様に達成され得る。
【0048】
パラメトリックな表示(別名、決定論的成分)は、形状のロッシー圧縮においていっそうの柔軟性を与える。形状は、階段効果またはブロッキングアーティファクトを伴うことなく、容易にダウンサンプリングおよびアップサンプリングされ得る。さらに、境界のパラメトリックな表示は連続的である。したがって、それは、曲線内の任意の数の補間された境界点を許容するだけでなく、それはまた、滑らかな形状の遷移のための形状の登録に効果的である。結果として、それは、無線ネットワークおよび携帯電話ネットワーク上の映像配信および生放送のような用途において採用され得るが、かかるネットワークは、有線ネットワークのものより非常に低い帯域幅を有しており、したがって、配信における遅延の少なさを達成するために、映像内容の高い圧縮比が必要とされる。さらに、超解像または変形のような画像および映像処理技術もまた、形状のパラメトリックな表示を用いて直接的に達成され得る。
【0049】
確率論的成分の符号化
本発明のSAMコーデックでは、確率論的成分は、例えばブロックベース法または連鎖符を用いて符号化され得る。決定論的成分のものと同様に、選択された符号化方法(例えば、コンテンツベース算術符号化(content−based arithmetic coding))に基づいて、ユーザーは、どのような符号化性能が所望されても達成するために、ブロックサイズを指定し得る。したがって、プログラムは、符号化が開始される前に、ブロックサイズBにあてはまるように各確率論的成分をさらに割るべきである。
【0050】
確率論的成分がブロックベース法で符号化されれば(図6)、可変サイズを有する回転マイクロプロセシングユニットが用いられ得る。ユニットの配向は、エントロピー符号化またはコンテンツベース算術符号化アルゴリズムのようなブロックベース法のための高い圧縮比を達成するために最適化され得る。このことは、従来のブロックベース法とは対照的であるが、従来のブロックベース法のマイクロプロセシングユニットは、水平または垂直のいずれかに整列しており、したがって、いくつかのマイクロプロセシングユニットが形状情報を含んでいないという事実に起因して、マイクロプロセシングユニットの間により多くの余剰がある。残差を符号化するために、連鎖符(chain code)またはDPCMのようなその他の方法もまた適用され得る。確率論的成分における符号化方法のこの交換可能な性質は、本発明のコーデックに異なる用途におけるビットレート制御のいっそうの柔軟性を与える。
【0051】
確率論的成分の符号化は、ユーザーがロスレスまたはロッシー圧縮モードの間で選択することを許容する。ロスレス圧縮が必要とされれば、それは、算術符号化またはその他の方法を用いて符号化され得る。代替的には、形状は、アップコンバージョン前により低い解像度の形状画像へとデシメートされ、かつ、符号化され得る。このプロセスはロッシーであるが、概してより高い圧縮比をもたらす。
【0052】
確率論的成分のインター/イントラ予測については、成分領域の始点および終点の位置を推定するために、決定論的成分についての頂点予測と同様の予測が実行され得る。成分自体は、連鎖符またはブロックベース法のいずれかで符号化されているが、そのインター予測方法を適用し得る。特に、一時的かつ空間的な余剰を圧縮するため、成分領域の位置は、イントラ/インター予測として先行して符号化された値によって予測され得る。本発明のコーデックは、連鎖符またはブロックベース法のような、確率論的成分および決定論的成分を圧縮するためのあらゆる従来の符号化方法を用い得る。例えば、確率論的成分の圧縮にCAEが適用されれば、インター予測のためのブロックマッチング法が採用され得る。
【0053】
モード選択
本発明のSAMコーデックでは、形状が2つの主な成分:確率論的成分および決定論的成分に分離され得る。概して、形状の境界における各成分について、ユーザーは、ロスレスおよびロッシー圧縮モードの間で自由に選択する。例えば、ロッシーモードで決定論的成分を符号化し、かつ、ロスレスモードで確率論的成分を符号化するために、選択がなされ得る。したがって、複雑な境界(別名、確率論的成分)を維持しながら、変動を有する長い曲線上に、滑らかにされた境界が取得されたであろう。他方、形状情報のロスが許容されなければ、ユーザーはコーデックのロスレスモードを選択し得る。この場合、コーデックは、簡略化のためにすべてのラインセグメントを確率論的成分とみなすであろう。
【0054】
データ構造
図7は、圧縮されたデータのデータ構造を示している。それは、オーバーヘッド成分および確率論的成分からなる。オーバーヘッドは、ヘッダーファイル、マイクロプロセシングユニット(すなわち、成分)の始点および終点ならびに平均不透明度のようなその他の情報を含んでいる。決定論定成分が選択されれば、成分の内容は、パラメトリックモデルのパラメーターを含むであろう。そうでなければ、それは、確率論的成分のための選択された符号化アルゴリズムから取得される符号化されたデータを含むであろう。
【0055】
実験結果
表1は、本発明のSAMコーデックと圧縮のための最先端のロスレスアルゴリズムであるCAE法との間のロスレス圧縮の実験結果を示している。公平な圧縮を行うために、SAMコーデックのロスレス圧縮モードのみがCAE法と比較された。なぜなら、それがロスレスアルゴリズムであるからである。本発明のコーデックが有し得る顕著な特徴は、ロスレスおよびロッシー圧縮モードの間で選択する柔軟性である。
【0056】
実験では、決定論的成分のモデル化のために直線的なモデルが用いられた。したがって、識別後はいかなる決定論的成分もないであろうが、境界セグメンテーションによって分離された確率論的成分はあるであろう。確率論的成分は、より小さなブロックへとさらに分離され、かつ、確率論的成分の符号化のためにCAEが用いられた。ブロックのサイズBSは、実験では10画素に設定された。実験的な比較は、MPEG4においてCAE法を用いた。本発明のロスレス圧縮が、概してCAE法より良好である性能を有することが表1から見られ得る。
【0057】
【表1】
【0058】
本発明が、その好ましい実施形態を参照して特に示され、かつ、説明されてきたが、本発明の精神および範囲から逸脱することなく、形態および詳細における種々の変更がなされてもよいことは、当業者によって理解されるであろう。追加的に、本明細書で説明された中心的な概念から逸脱することなく、特定の状況を請求される主題の教示に適合させるために、多くの修正がなされてもよい。したがって、請求される主題は開示された特定の例に限定されるべきではなく、かかる請求される主題はまた、添付の請求の範囲に属するすべての実装およびそれらの等価物を含んでいてもよいことが意図される。
【0059】
参考文献
以下の文献は、それらが本明細書に記載の教示に矛盾しない程度で、参照により組み込まれる。

Ostermann, J. “Core experiments on MPEG−4 video shape coding,” International Standards Organization, ISO/IEC/JTCI/SC29/WG11 N 1584 (1997).

Rabbani et al., “Digital Image Compression Techniques,” SPIE, Int. Soc. Opt. Eng., (1991).

Brandy et al., “Context−based arithmetic encode of 2D shape sequences,” Special Session on Shape Coding, ICIP 97 (1997).
図1
図2
図3
図4
図5
図6
図7
図8