(58)【調査した分野】(Int.Cl.,DB名)
前記境界を取得する前記ステップが、ゼロではない4連結の隣接物を有する前記対象のすべての画素を除去し、かつ、8連結の境界画素を残すことによって達成される、請求項1に記載の方法。
前記確率論的成分の前記エンコードが、可変サイズを有する回転マイクロプロセシングユニットを用いるブロックベース法を用いて達成され、かつ、前記回転マイクロプロセシングユニットの配向が、エントロピー符号化またはコンテンツベース算術符号化アルゴリズムを用いて最適化される、請求項1に記載の方法。
圧縮比をさらに増大させるための隣接する成分のパラメーターのイントラ/インター予測のステップをさらに有しており、そのことによって、成分が先行する頂点からの変位として符号化される、請求項1に記載の方法。
前記確率論的成分が、可変サイズを有する回転マイクロプロセシングユニットを用いるブロックベース法を用いて符号化され、かつ、前記回転マイクロプロセシングユニットの配向が、エントロピー符号化またはコンテンツベース算術符号化を用いて最適化される、請求項13に記載の形状適応モデルベースコーデック。
【発明の概要】
【0006】
本発明は、いっそうのビットレートの柔軟性を必要とする映像形状(video shape)コーデックのための解決策を提供し、また、より良好な画質および形状の詳細を提供するように設計されている。3D映像処理(3D video processing;3Dビデオ処理)における視点合成用の深度マップの圧縮を含む、本発明のための多くの用途がある。本発明の技術を適用することによって、再構成されたエッジの不正確性が、それらのテクスチャーによってさらに調整され得る。特に、本発明の形状コーデックは、形状の境界上の不正確性(特に画像が複雑なテクスチャーを含む場合、視覚アーティファクトを引き起こす)を最小限にしながらビットレートを調整し得る。かかる場合では、形状の境界(形状がテクスチャーを備えていれば)は、アーティファクトの数を減少させるためにそれらのテクスチャーによって異なるレベルの精度で符号化され得る。
【0007】
映像圧縮のような多くの用途では、対象の形状は圧縮されなければならない。MPEG−4における従来の形状符号化は、符号化される所望の対象の形状の2値アルファプレーンを圧縮するための効率的なロスレス法であるコンテクストベース算術符号化(context−based arithmetic coding)(CAE)に基づく。しかしながら、上記で注目されたように、ブロックベースのアプローチの主な制限は、同一形状を有するブロックが採用され、かつ、それらが同一方向に整列していることである。結果的に、ブロックのうちのいくつかは、完全な0または255を不可避的に含むかも知れない。いくつかのブロックベース法がかかるデータを圧縮するのに用いられ得るが、相当量の余剰が送信されたデータに残ったままであろう。解像度1080pまたは4KのようなHD映像では、かかる余剰は大きくなり得、したがって多くの記憶領域を必要とする。ロッシー圧縮モードでは、それらはマクロブロックの解像度を低下させ、かつ、記憶される情報を減少させる。このことは、煩わしい階段効果(エイリアシング)をもたらす。他方、輪郭アプローチは、頂点とパラメトリック曲線とを用いて対象の形状に近付くのみである。結果として、滑らかでないエッジの予測不能または確率論的である変動を捉えることができない。
【0008】
これら従来の方法とは対照的に、本発明の提案される形状適応モデルベース(shape−adaptive model−based)(SAM)コーデックは、元々の形状のパラメトリックモデル表示を支持するだけでなく、差分パルス符号変調(DPCM)またはその他のブロックベース法のいずれかを用いて残余誤差を符号化することを許容する。結果として、本発明は、2値アルファプレーンを決定論的(deterministic)成分と確率論的(stochastic)成分に分割することによって高い圧縮の質を達成することが可能であり、かつ、ロスレス圧縮モードとロッシー圧縮モードとの間で選択する柔軟性を提供する。さらに、その決定論的成分はまた、滑らかな遷移を必要とする多くの画像(image)/映像(video)用途で有効である。
【0009】
従来の方法とは異なり、本発明の形状適応モデルベースコーデック(SAM)は、次の顕著な特徴のうちのいくつかまたはすべてを有し得る:
【0010】
1. 2値形状/2値アルファプレーンのみを支持する従来の形状コーデックとは異なり、本発明は、2値形状、マットセグメンテーションおよびソフトセグメンテーション画像を符号化することが可能である。2値形状画像の場合に半透明な対象を支持するために、提案される発明はまた、対象の平均不透明度を含む。境界における正確な不透明度は、入力および補助データのその他の必要情報から推定されるであろう。概して、不透明度のいっそうの簡略化は、2値形状画像の場合に含まれ得る。実数値のマットセグメンテーションおよびソフトセグメンテーション画像を符号化する際、マットの変化が非常に小さければ、それは平均値のみを用いて表されるであろうし、かつ、2値形状と同様のやり方で符号化されるであろう。そうでなければ、ブロックベースの画像符号化技術を用いて符号化され得る重複していないブロックは、提案されるSAMを用いて実数値のマットを符号化するのに用いられるであろう。マットセグメンテーションおよびソフトセグメンテーションデータを符号化する能力は、前景および背景における対象の重複を許容する。このことは、対象のオクルージョン(occlusion;遮蔽)を取り扱うユーザーにとって(例えば、インペインティングされた(in−painted;補間された・復元された)データを用いて)いっそうの柔軟性を提供し、このことは、3Dレンダリングにおける対象のより良好な再構成をもたらす。
【0011】
2. 形状は、柔軟なロッシー符号化およびロスレス符号化のために決定論的成分と確率論的成分とに分解される。ロスレスであり、かつ、近似理論アプローチに依拠する従来の2値アルファプレーン符号化よりはむしろ、提案されるコーデックは、形状を決定論的成分とランダム様の確率論的成分に分解する。前者はパラメトリックモデル様スプライン曲線およびポリゴンによってより良好に表され得る人造の対象のような対象の幾何学的性質に由来する;一方で、後者については、それは、羽(feathers)、毛(hairs)などといったランダム様成分を表すのに用いられる。
【0012】
3. 決定論的成分および確率論的成分の識別のための柔軟な手順が提案される。特に、対象の形状から決定論的成分および確率論的成分ならびにそれらのブロックサイズを識別する方法が提案される。さらに、それは、各成分についてロスレスおよびロッシー圧縮モードの間で選択する柔軟性を提供する。従来の方法とは異なり、本発明は、各成分について圧縮比と質との間のトレードオフを許容するが、このことは高解像度用途においては必須である。
【0013】
4. 予め設定された精度内で形状の輪郭をモデル化する決定論的成分は、形状の圧縮された表示を提供するだけでなく、類似の形状の効果的な登録を許容する。パラメトリックモデルの連続的性質はさらに、画像超解像、フレームレートアップコンバージョン、形状の変形などといった用途において滑らかな遷移を許容する。
【0014】
5. 確率論的成分は、ロスレス圧縮が必要とされれば、算術符号化またはその他の方法を用いて符号化され得る。代替的には、形状は、アップコンバージョン前により低い解像度の形状画像へとデシメート(decimate)され、かつ、符号化され得る。このプロセスはロッシーであるが、概してより高い圧縮比をもたらす。特に、ブロックベース法が確率論的成分を圧縮するために適用される時、回転マイクロプロセシングユニットが採用されることが提案される。このことは、確率論的成分の圧縮比の有意な増大をもたらし得る。
【0015】
6. 本発明は、関連する形状の予測および符号化を実行する能力を許す(例えば、隣接する視点または時刻における)。このことは、提案されるコーデックが類似の形状間の統計学的余剰を調査することによって圧縮比を改善させることを許容する。
【発明を実施するための形態】
【0018】
発明の詳細な説明
画像は視覚認知の表示であり、写真またはスクリーンディスプレイのような2次元(2D)であってもよい。それはまた、立体画像のような3次元(3D)であってもよい。概して、3D画像はまた、複数の2D画像または変形/深度マップを有する2D画像として表され得る。したがって、本発明の形状処理は、簡略化のため2D画像について考慮され得る。しかしながら、概して、これら処理技術はまた、3Dまたは立体画像の処理にも拡張され得る。
【0019】
本発明の技術を理解するために、インペインティングを理解することが助けになる。
図1は、この概念を示す図である。インペインティング(別名、画像補間または映像補間)は、画像データの失われた部分または壊れた部分(主に小さな領域または小さな欠陥)に取って代わるための洗練されたアルゴリズムの適用を意味する。
図1(a)および
図1(c)は、元々の前景および背景をそれぞれ示している。前景および背景の両方の上に欠損したいくつかの領域があることに注目されたい。このことは、画像を処理するのに用いられるマッティング(matting;マット化)またはセグメンテーションツールによって引き起こされるかも知れない。これら領域の考え得る前景および背景のテクスチャーを推定するために、画像インペインティングが、
図1(b)および
図1(d)に示されるように、対応するテクスチャーを作成するために採用される。したがって、
図1(a)は元々の前景を示しており、一方で、
図1(b)は特定の領域におけるインペインティングされた前景を示している。犬の顔の右側および犬の足の左側の追加の前景要素に注目されたい。
図1(c)は、左側および右側にランダムな欠陥を有する元々の背景を示している。
図1(d)は、それら欠陥を除去するためのインペインティングを示している。
【0020】
図2は、入力された形状の例である。図面から、2値形状が複数の対象を含んでいてもよい異なる層に分割され得ることが見られ得る。各態様は、形状および穴として表されてもよい。
【0021】
図3は、提案されるコーデックの概観を示している。そのエンコードプロセスは、概して次のように3つの主なステップに分割され得る:
【0022】
1. 入力された形状の、異なる層および対象への分離:
予め定められた指標を有するいくつかの対象を示す複数の層を場合によっては含んでいてもよい2値アルファプレーン(
図3における2値形状入力)を考慮すると、入力された形状の情報はまず、複数の層へと分離され得る。各層(
図3における層1,2...k...K)内には、いくつかの隔離された対象(0ではなく、かつ、位相幾何学的に非連結であり、4連結でも8連結でもない領域)があり得た。かかる場合では、対象はシーケンシャルに分離および処理され得る。穴(
図3における穴1,...N)を含む各対象について、これら穴は、我々が
図1の画像から見得るように表示から差し引かれ得る。
【0025】
として与えられ得、式中、S
mは、形態学的充填プロセスを経験した元々の形状に等しい元々の形状の外側の境界によって定められたm番目の対象Object
m(m=1,2,...,M)の形状であり、H
m,n(n=1,2,...,N
m)は、先に言及した形態学的充填プロセスの下で充填される領域であり、かつ、それらのサイズによって降順に配置されているm番目の対象内の穴である。
【0026】
2. 決定論的成分および確率論的成分の識別:
形状および穴の取得後、
図2に示されるように、対象の形状から決定論的成分および確率論的成分ならびにそれらのブロックサイズを識別する方法が提供される。これら成分がどのように識別されるかについての詳細は、以下で説明される。
【0027】
3. 決定論的成分および確率論的成分のエンコード:
決定論的成分および確率論的成分をさらに圧縮するのに、異なる方法が用いられ得る。前者は、パラメトリックモデル様スプライン曲線およびポリゴンによってより良好に表され得る人造の対象のような対象の幾何学的性質に由来する。一方、後者については、それは、羽、毛などといったランダム様成分を表すのに用いられる。特に、本発明は、確率論的成分を圧縮するためにブロックベース法が適用される時、回転マイクロプロセシングユニットを採用する。決定論的成分および確率論的成分がどのようにエンコードされ得るかについての詳細は、以下で説明される。
【0028】
決定論的成分および確率論的成分の識別
本発明による方法では、第1のステップは、固体形状の境界を取得するためのものであり得る。例えば、画素であってそれらの4連結の隣接物がゼロではない前記画素をすべて除去し、したがって8連結の境界画素を残すことによって、形状に対して形態学的フィルタリングが実行され得る。境界上の頂点のすべてがトラバース(traverse)され、かつ、ポイントリストに記憶され得る。ポイントリストのセットから、ラインセグメント(line segment;直線線分)が生成され得る。その後、決定論的成分および確率論的成分を取得するために、次の2つのステップが実行され得る:
【0029】
1. 対象からのラインセグメントの抽出:
ポリゴンあてはめ(polygon fitting)手順を用いて、ラインセグメントが取得され得る(例えば、反復的に、直線あてはめ誤差(line fitting error)が特定の許容差を越えるまで頂点を含む)。しかしながら、好ましくは、この手順はこの問題に直接適用されるべきである。なぜなら、確率論的成分が、指定の許容差を越えるかも知れない大きなあてはめ誤差を有するかも知れないからである。この制限を克服するため、次のように、形状の輪郭を分割するのに本発明による新しい方法が用いられ得る:
【0030】
a. 形状の輪郭上の各画素について、その隣接する画素を含むためにスライディングウィンドウ(sliding window;引窓)が採用され得、画素およびその隣接物によって形成されるラインセグメントの滑らかさの程度が、例えばそれらの最小2乗あてはめ誤差を比較することによって、測定され得るようになっている。その時、このあてはめ誤差は、滑らかさの程度として画素に付与され得る。
【0031】
b. 各画素から取得された滑らかさの程度は、その後、2つのグループにクラスタリング(cluster)され得る。同一グループにおける隣接する画素は、一緒に接続されてラインセグメントを形成し得る。
【0032】
2. 決定論的成分および確率論的成分の識別:
ラインセグメントの取得後、ラインセグメントをあてはめるのに、ポリゴン、区分的多項式、Bスプラインなどのようなパラメトリックモデルが用いられ得る。決定論的成分は概して滑らかであり、かつ、パラメトリックモデルによってより良好に表され得るので、結果として生じる近似誤差は概して、確率論的成分のものより非常に小さいであろう。近似誤差を特定の閾値と比較することによって、ラインセグメントは決定論的成分および確率論的成分に分離され得る。
図4は、ELR
DおよびELR
Sでそれぞれ示される誤差とセグメント(segment;線分)の長さの比率(error to segment length ratio)(ELR)のような近似誤差測定値を用いる決定論的成分および確率論的成分の識別の例を示している。
図4に示されるように、不規則な形状の境界は、ラインセグメントを用いてプロットされる。境界の一部が、中間倍率および高倍率の両方で示されている。ラインセグメントと対称の境界との間の差が小さい場合、成分は決定論的である(決定論的成分ELR
Dにおける矢印)。差が大きい場合、成分は確率論的である(確立論的成分ELR
Sにおける矢印)。
【0033】
成分を識別するために重要なのは、適切な閾値を決定することである(
図4中の大きく拡大された図において差を示している矢印)。この目的のために、これら閾値を決定するのにz検定のような統計学的検出検定が採用される。閾値は、特定の圧縮の質を確実にするために、Γ=min(Γ
ADAPTIVE,Γ
USER)として選択され得、式中、Γ
ADAPTIVEは統計学的検定から決定された適応閾値であり、かつ、Γ
USERはユーザー指定の最大許容誤差である。適応閾値Γ
ADAPTIVEおよびユーザー指定の閾値Γ
USERの最小値を選択すること、すなわちΓ=min(Γ
ADAPTIVE,Γ
USER)の利点は、それが適応閾値とユーザー指定の閾値との間で切り替わるための柔軟性を提供することである。対象の形状が概してランダム様である時、Γ
ADAPTIVEはユーザー指定の許容差Γ
USERよりいっそう大きいかも知れない。適応閾値を無効にし、かつ、ラインセグメントのほとんどを確率論的成分として分類することは概して有益であろう。このことは、すべての成分が指定の許容差を満たし得るであろうことを確実にする。なぜなら、指定の許容差を越える確率論的成分は、ロスレス圧縮を用いて符号化され得、一方で、決定論的成分は、パラメトリックモデルのパラメーターによって表され得、かつ、近似誤差は、指定の許容差のものより小さいであろうからである。そうでなければ、対象が概して滑らかであり、かつ、パラメトリックモデルによってよく表され得る時、Γ
ADAPTIVEは小さいであろうし、かつ、閾値を超えるELRを有するであろういくつかの時折発生するランダム様のラインセグメントを除いて、ラインセグメントのほとんどは決定論的なものとして識別されるであろう。
【0034】
より具体的には、スライディングウィンドウにおける最小2乗あてはめの実行後、m=1,2,...,M個の対象があり、各対象がJ
m個の頂点を含んでおり、かつ、各画素が平均2乗誤差MSE
j,mを付与されると仮定されたい。MSE
j,mを2つのグループに分割するために、クラスタリングが実行される。同一グループに属する隣接する画素が結合してラインセグメントを形成し、かつ、MMSE
k,mで示されるこれら画素のMSE
j,mの平均は、結果として生じるラインセグメントの滑らかさの測定値である。K
mセグメントが各対象について取得され、以下の測定値が決定論的成分および確率論的成分を識別するために採用され、すなわち、誤差とセグメントの長さの比率(ELR)、
【0036】
式中、J
kはk番目のラインセグメントの頂点の総数である。ラインセグメントがパラメトリックモデル(例えば、Bスプライン、ベジエ曲線など)によってよく表され得る時、MMSE
k,mは小さいであろうし、かつ、セグメントに含まれる頂点の数は大きくなり得る。このことは、小さなELRをもたらすであろうし、したがって、それは決定論的成分として見なされ得る。そうでなければ、羽または毛といったランダム様のセグメントは大きな近似誤差を有するであろうし、その時は、確率論的成分として見なされるべきである。
【0037】
k番目のラインセグメントが決定論的であるか確率論的であるかを判定するのに、ズレの検定のような統計学的検出検定が用いられ得る。例えば、ELRは、ELR
m,k(式中、k=1,2,...,K
mであり、かつ、m=1,2,...,Mである)および対象の滑らかさにより更新され得、かつ、ELR
k,mとして取得され得る適応閾値Γ
ADAPTIVE(m)として書かれ得る。
【0040】
式中、σ
mはm番目の対象のELR
k,mのスケールのロバスト推定であり、μは忘却因子であり、かつ、k
ξはガウス分布の上方の(1−P{X>ξ})の4分位に対応する閾値4分位パラメーターである。したがって、パラメーター
である可能性。0.05の有意水準については、k
ξ=1.96が選択され得る。median(
・)はメジアン演算子(median operator)である。決定論的成分または確率論的成分の識別のための決定則として、次のロバストなz検定が採用され得る。
【0042】
(式中、閾値min(Γ
ADAPTIVE(m),Γ
USER)は適応閾値またはユーザー指定の閾値Γ
USERから切り替えるための柔軟性を提供する)であれば、k番目のラインセグメントは確率論的である。
【0043】
決定論的成分の符号化
決定論的成分の識別後、決定論的成分の形状は、パラメトリックモデル(例えば、ポリゴン、区分多項式、Bスプラインなど)を用いてさらに表され得る。より具体的には、k番目のラインセグメント上の画素の座標、
は、
【0045】
としてモデル化され得、式中、f
k(a
k,m,j)は、頂点の数jとj番目の頂点の座標との間の関係を説明する関数である。概して、この概念は、3D座標のようなより高次元における頂点へと一般化され得る。a
kはk番目のラインセグメントについての関数のパラメーターを含むベクトルである。例えば、スプラインモデルが用いられれば、a
kはスプライン曲線および選択される順番のコントロールノットを取得するかも知れない。e
j,kは近似誤差であり、かつ、それは、決定論的成分および確率論的成分を識別するのに用いられ得る。k番目の決定論的成分は、パラメーターa
kによって表され得る。
【0046】
圧縮比をさらに増大させるために、隣接する成分のパラメーターのイントラ/インター予測が実行され得る。例えば、パラメーターが頂点の位置のような整数であれば、それらはシーケンシャルに符号化され得、かつ、それらの位置はしたがって、それらの先行する頂点の位置+変位として表され得る。概して、変位の大きさが頂点の座標のもの(0から画像のサイズまでの範囲)より非常に小さければ、変位を符号化するのにより少数のビットしか必要とされないであろうし、かつ、このことは、実際にストレージを減少させるであろう。イントラ予測はインター予測に類似するが、変位が取得される態様において異なる。変位は、この場合、Pフレームにおける現在の頂点およびIフレームにおける直近の頂点の座標の間の差によって定められる。実際、インターモードとイントラモードとの間の選択は、変位の値によって決定されるであろう。インター頂点予測は、インター予測において、参照頂点がシーケンシャルな順番ではなく、反復最接近点(iterative closest point)(ICP)またはフリーフォーム変形(free−form deformation)(FFD)のいずれかを用いて参照フレームにおける直近の対応する頂点として計算されること以外は、イントラ予測のものと類似する。対応する参照頂点を考慮すると、予測される頂点は、イントラ頂点予測のものと同様に、参照頂点+変位として表され得る。
【0047】
隣接する成分の実数値のパラメーター(例えば、パラメトリックモデルの係数)のイントラ/インター予測については、現在の成分の実数値のパラメーターは、後に続く成分の係数を予測するための参照パラメーターとして見なされる。その後、元々の係数よりはむしろ、予測残差がエンコードされ、かつ、記憶される。予測残差の範囲が元々の係数のものより非常に小さければ、高い圧縮比が達成され得る。より正確には、まず、実数値のパラメーターを量り、かつ、定点整数へと数値化してもよい。その後、予測残差(すなわち、現在の成分のパラメーターと後に続く成分のものとの間の差)が、計算および記憶される。例えば、浮動小数点パラメーターのカテゴリーのイントラ予測のために、可変スケールおよび差分カテゴリー符号化アプローチが採用され得、このことは、パラメーターの順番の中の余剰を調査し、かつ、イントラ予測の圧縮比をさらに改善することが可能である。パラメトリックモデル係数のインター予測が、同様に達成され得る。
【0048】
パラメトリックな表示(別名、決定論的成分)は、形状のロッシー圧縮においていっそうの柔軟性を与える。形状は、階段効果またはブロッキングアーティファクトを伴うことなく、容易にダウンサンプリングおよびアップサンプリングされ得る。さらに、境界のパラメトリックな表示は連続的である。したがって、それは、曲線内の任意の数の補間された境界点を許容するだけでなく、それはまた、滑らかな形状の遷移のための形状の登録に効果的である。結果として、それは、無線ネットワークおよび携帯電話ネットワーク上の映像配信および生放送のような用途において採用され得るが、かかるネットワークは、有線ネットワークのものより非常に低い帯域幅を有しており、したがって、配信における遅延の少なさを達成するために、映像内容の高い圧縮比が必要とされる。さらに、超解像または変形のような画像および映像処理技術もまた、形状のパラメトリックな表示を用いて直接的に達成され得る。
【0049】
確率論的成分の符号化
本発明のSAMコーデックでは、確率論的成分は、例えばブロックベース法または連鎖符
号を用いて符号化され得る。決定論的成分のものと同様に、選択された符号化方法(例えば、コンテンツベース算術符号化(content−based arithmetic coding))に基づいて、ユーザーは、どのような符号化性能が所望されても達成するために、ブロックサイズを指定し得る。したがって、プログラムは、符号化が開始される前に、ブロックサイズB
Sにあてはまるように各確率論的成分をさらに割るべきである。
【0050】
確率論的成分がブロックベース法で符号化されれば(
図6)、可変サイズを有する回転マイクロプロセシングユニットが用いられ得る。ユニットの配向は、エントロピー符号化またはコンテンツベース算術符号化アルゴリズムのようなブロックベース法のための高い圧縮比を達成するために最適化され得る。このことは、従来のブロックベース法とは対照的であるが、従来のブロックベース法のマイクロプロセシングユニットは、水平または垂直のいずれかに整列しており、したがって、いくつかのマイクロプロセシングユニットが形状情報を含んでいないという事実に起因して、マイクロプロセシングユニットの間により多くの余剰がある。残差を符号化するために、連鎖符
号(chain code)またはDPCMのようなその他の方法もまた適用され得る。確率論的成分における符号化方法のこの交換可能な性質は、本発明のコーデックに異なる用途におけるビットレート制御のいっそうの柔軟性を与える。
【0051】
確率論的成分の符号化は、ユーザーがロスレスまたはロッシー圧縮モードの間で選択することを許容する。ロスレス圧縮が必要とされれば、それは、算術符号化またはその他の方法を用いて符号化され得る。代替的には、形状は、アップコンバージョン前により低い解像度の形状画像へとデシメートされ、かつ、符号化され得る。このプロセスはロッシーであるが、概してより高い圧縮比をもたらす。
【0052】
確率論的成分のインター/イントラ予測については、成分領域の始点および終点の位置を推定するために、決定論的成分についての頂点予測と同様の予測が実行され得る。成分自体は、連鎖符
号またはブロックベース法のいずれかで符号化されているが、そのインター予測方法を適用し得る。特に、一時的かつ空間的な余剰を圧縮するため、成分領域の位置は、イントラ/インター予測として先行して符号化された値によって予測され得る。本発明のコーデックは、連鎖符
号またはブロックベース法のような、確率論的成分および決定論的成分を圧縮するためのあらゆる従来の符号化方法を用い得る。例えば、確率論的成分の圧縮にCAEが適用されれば、インター予測のためのブロックマッチング法が採用され得る。
【0053】
モード選択
本発明のSAMコーデックでは、形状が2つの主な成分:確率論的成分および決定論的成分に分離され得る。概して、形状の境界における各成分について、ユーザーは、ロスレスおよびロッシー圧縮モードの間で自由に選択する。例えば、ロッシーモードで決定論的成分を符号化し、かつ、ロスレスモードで確率論的成分を符号化するために、選択がなされ得る。したがって、複雑な境界(別名、確率論的成分)を維持しながら、変動を有する長い曲線上に、滑らかにされた境界が取得されたであろう。他方、形状情報のロスが許容されなければ、ユーザーはコーデックのロスレスモードを選択し得る。この場合、コーデックは、簡略化のためにすべてのラインセグメントを確率論的成分とみなすであろう。
【0054】
データ構造
図7は、圧縮されたデータのデータ構造を示している。それは、オーバーヘッド成分および確率論的成分からなる。オーバーヘッドは
、ヘッダーファイル、
マイクロプロセシングユニット(すなわち、成分)の始点および終点ならびに平均不透明度のようなその他の情報を含んでいる。決定論定成分が選択されれば、成分の内容は、パラメトリックモデルのパラメーターを含むであろう。そうでなければ、それは、確率論的成分のための選択された符号化アルゴリズムから取得される符号化されたデータを含むであろう。
【0055】
実験結果
表1は、本発明のSAMコーデックと圧縮のための最先端のロスレスアルゴリズムであるCAE法との間のロスレス圧縮の実験結果を示している。公平な圧縮を行うために、SAMコーデックのロスレス圧縮モードのみがCAE法と比較された。なぜなら、それがロスレスアルゴリズムであるからである。本発明のコーデックが有し得る顕著な特徴は、ロスレスおよびロッシー圧縮モードの間で選択する柔軟性である。
【0056】
実験では、決定論的成分のモデル化のために直線的なモデルが用いられた。したがって、識別後はいかなる決定論的成分もないであろうが、境界セグメンテーションによって分離された確率論的成分はあるであろう。確率論的成分は、より小さなブロックへとさらに分離され、かつ、確率論的成分の符号化のためにCAEが用いられた。ブロックのサイズBSは、実験では10画素に設定された。実験的な比較は、MPEG4においてCAE法を用いた。本発明のロスレス圧縮が、概してCAE法より良好である性能を有することが表1から見られ得る。
【0058】
本発明が、その好ましい実施形態を参照して特に示され、かつ、説明されてきたが、本発明の精神および範囲から逸脱することなく、形態および詳細における種々の変更がなされてもよいことは、当業者によって理解されるであろう。追加的に、本明細書で説明された中心的な概念から逸脱することなく、特定の状況を請求される主題の教示に適合させるために、多くの修正がなされてもよい。したがって、請求される主題は開示された特定の例に限定されるべきではなく、かかる請求される主題はまた、添付の請求の範囲に属するすべての実装およびそれらの等価物を含んでいてもよいことが意図される。
【0059】
参考文献
以下の文献は、それらが本明細書に記載の教示に矛盾しない程度で、参照により組み込まれる。
Ostermann, J. “Core experiments on MPEG−4 video shape coding,” International Standards Organization, ISO/IEC/JTCI/SC29/WG11 N 1584 (1997).
Rabbani et al., “Digital Image Compression Techniques,” SPIE, Int. Soc. Opt. Eng., (1991).
Brandy et al., “Context−based arithmetic encode of 2D shape sequences,” Special Session on Shape Coding, ICIP 97 (1997).