【新規性喪失の例外の表示】特許法第30条第2項適用 2013年7月22日 情報処理学会CVIM研究会発行の第16回画像の認識・理解シンポジウムMIRU2013概要集「MIRU2013 Extended Abstract集」において発表
【新規性喪失の例外の表示】特許法第30条第2項適用 2013年7月29日〜8月1日 情報処理学会CVIM研究会主催の第16回画像の認識・理解シンポジウムMIRU2013において7月30日に発表
【新規性喪失の例外の表示】特許法第30条第2項適用 2013年9月2日 一般社団法人日本応用数理学会主催の日本応用数理学会2013年度年会の予稿web公開において発表
【新規性喪失の例外の表示】特許法第30条第1項適用 2013年9月9日〜9月11日 一般社団法人日本応用数理学会主催の日本応用数理学会2013年度年会において9月11日に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成24年度、独立行政法人科学技術振興機構の戦略的創造研究推進事業(CREST)、産業技術力強化法第19条の適用を受ける特許出願
【文献】
成田 裕介,画像の輝度情報を利用した奥行きマップの半自動生成,電子情報通信学会2011年総合大会講演論文集 情報・システム2,2011年 2月28日,p.47
(58)【調査した分野】(Int.Cl.,DB名)
前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成し、
前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する、
請求項2、3いずれか1項に記載の動画編集装置。
前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項1〜4いずれか1項に記載の動画編集装置。
前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項1〜5いずれか1項に記載の動画編集装置。
前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている、請求項11〜14いずれか1項に記載の動画編集方法。
前記継承行列生成ステップは、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する、請求項11〜15いずれか1項に記載の動画編集方法。
前記継承行列生成ステップは、継承行列の計算において密行列が含まれる場合に、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似ステップを備えており、
編集情報マップ生成ステップでは、前記近似ステップによって生成された近似継承行列を用いて編集情報マップを生成する、
請求項11〜18いずれか1項に記載の動画編集方法。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Levin, A., Lischinski, D. and Weiss, Y.: Colorization using optimization, ACM Trans. Graph., Vol. 23, No. 3, pp. 689-694 (2004).
【非特許文献2】Lischinski, D., Farbman, Z., Uyttendaele, M. and Szeliski, R.: Interactive local adjustment of tonal values, ACM Trans. Graph., Vol. 25, No. 3, pp. 646-653(2006).
【非特許文献3】An, X. and Pellacini, F.: AppProp: all-pairs appearancespace edit propagation, ACM Trans. Graph., Vol. 27, No. 3, pp. 40:1-40:9 (2008).
【非特許文献4】An, X. and Pellacini, F.: User-Controllable Color Transfer, Computer Graphics Forum, Vol. 29, No. 2, pp. 263-271 (2010).
【非特許文献5】Lang, M., Wang, O., Aydin, T., Smolic, A. and Gross, M.: Practical temporal consistency for image-based graphics applications, ACM Trans. Graph., Vol. 31, No. 4, pp. 34:1-34:8 (2012).
【非特許文献6】Williams, C. and Seeger, M.: Using the Nystrom Method to Speed Up Kernel Machines, Advances in Neural Information Processing Systems 13, pp. 682-688 (2001).
【非特許文献7】ZHANG K., TSANG I. W., KWOK J. T.: Improved nystrom low-rank approximation and error analysis. In Proc. of Int'l Conf. on Machine Learning (2008), pp. 1232-1239.
【非特許文献8】Gastal, E. S. L. and Oliveira, M. M.: Domain transform for edge-aware image and video processing, ACM Trans. Graph., Vol. 30, No. 4, pp. 69:1-69:12 (2011).
【非特許文献9】Yatziv, L. and Sapiro, G.: Fast image and video colorization using chrominance blending, IEEE Trans. On Image Processing, Vol. 15, No. 5, pp. 1120-1129 (2006).
【非特許文献10】Farbman, Z. and Lischinski, D.: Tonal stabilization of video, ACM Trans. Graph., Vol. 30, No. 4, pp. 89:1-89:10 (2011).
【非特許文献11】Reinhard, E., Adhikhmin, M., Gooch, B. and Shirley, P.: Color transfer between images, Computer Graphics and Applications, IEEE, Vol. 21, No. 5, pp. 34 -41 (2001).
【発明の開示】
【発明が解決しようとする課題】
【0009】
本発明は、このような位置の対応関係に基づかないフレーム間の編集パラメータの移送を用いたフレーム間の連続性を保持する動画編集方法及び装置を提供することを目的とするものである。
【課題を解決するための手段】
【0010】
本発明は、
動画を形成する複数枚の時系列画像を記憶する手段と、
時間軸方向に隣接する2枚の画像、すなわち第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成手段と、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成手段と、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成手段と、
を備えた動画編集装置、である。
【0011】
1つの態様では、前記複数枚の時系列画像から選択された少なくとも1枚の画像(後述する「アンカーフレーム」)を編集するための初期編集情報マップを生成する初期編集情報マップ生成手段を備えており、
前記第1の画像は前記選択された画像であり、前記第1の画像を編集するための編集情報マップは前記初期編集情報マップである。
1つの態様では、前記初期編集情報マップ生成手段は、ユーザ入力に基づいて前記初期編集情報マップを生成する。
ユーザ入力(例えば、ポインティングデバイスを用いた入力)によって静止画を編集する手段としては、様々な手法が当業者に知られており、ある画像を編集するための編集情報(編集情報マップ)が得られるものであれば、初期編集情報マップ生成手段の具体的な構成は限定されない。
【0012】
1つの態様では、前記初期編集情報マップから出発して、前記継承行列生成手段及び前記編集情報マップ生成手段を用いて、各時系列画像に対応する編集情報マップを時間軸方向に順次生成(移送)し、
前記編集画像生成手段によって、各時系列画像を、対応する編集情報マップを用いて編集することで複数枚の時系列編集画像からなる動画を生成する。
1つの態様では、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、早い時刻から遅い時刻(t→t+1)への処理として実行されるが、継承行列の計算及び当該継承行列を用いた編集情報マップの移送は、遅い時刻から早い時刻(t→t‐1)への処理として実行してもよい。
1つの態様では、1枚のアンカーフレームtから早い時刻から遅い時刻(t→t+1)、遅い時刻から早い時刻(t→t‐1)の両方向に処理を実行してもよい。
1つの態様では、時間軸方向に離隔した2枚のアンカーフレームが選択され、一方のアンカーフレームを基準に早い時刻から遅い時刻(t→t+1)へ処理が実行され、他方のアンカーフレームを基準に遅い時刻から早い時刻(t→t‐1)へ処理が実行される。
1つの態様では、編集情報マップ生成時に計算された継承行列(近似継承行列を含む)は、記憶部に記憶しておいても、あるいは、対応する編集情報マップを生成した後に破棄してもよい。
1つの態様では、時間軸方向に隣接する各画像対の間の継承行列は、編集情報マップを生成する前に予め取得され記憶部に記憶されている。
【0013】
1つの態様では、前記編集情報マップは、動画を形成する各画像のピクセル数と同数のピクセル数からなり、当該編集情報マップの全てあるいは一部のピクセルに編集パラメータが割り当てられている。
本発明に用いることができる編集処理の種類は、各ピクセルを編集するための関数が特定の有限個のパラメータからなっているものであればいかなる編集処理であってもよく、編集処理の種類は限定されない。
編集処理の種類としては、色調変換(色転写、グレースケールの着色を含む)、色変化の安定化、テクスチャの鮮明化等が例示される。
編集情報ないし編集パラメータは、編集処理の具体的な内容に応じて当業者において適宜設定される。
【0014】
前記継承行列生成手段は、編集情報マップの時間軸方向の連続性を保証する項と、同じフレーム内での編集パラメータの一貫性を保証する項と、を含む関数の最適化計算によって継承行列を生成する。
最適化計算に用いるエネルギー関数について説明する。
表1は、後述する実施形態で用いたエネルギー関数であり、左の列に示しているものが、正方向の継承、すなわちtフレームからt+1フレームへの継承行列を導き出すための式に係るものであり、右の列に示しているものは逆方向の継承、すなわちt+1フレームからtフレームへの継承を表す継承行列を導き出すための式を示している。
【表1】
上記高速版t→t+1において、
上記高速版t+1→tにおいて、
である。
e
tはフレームtにおける編集情報(編集パラメータ、定数)、
e
t+1はフレームt+1における編集情報(編集パラメータ、変数)、
c
tiはフレームtの位置iに存在するピクセルのL
*a
*b
*色情報、
x
tiはフレームtのピクセルの位置情報(座標)、
σ
ctは時間軸方向における色情報の差に関する重み定数、
σ
sは位置情報に関する重み定数、
σ
cは色情報に関する重み定数、
||・||
2はベクトルのL2ノルム、
である。
表2は、上記の高速版をより一般的な形で記載したものである。
【表2】
上記一般化版t→t+1において、
上記一般化版t+1→tにおいて、
である。
各記号の説明については、上述の記載を援用することができる。
σ
stは、時間軸方向を含めた位置の差に対する重み定数、である。
上記複数の式について、ある技術思想を表現する数式の形は当業者において適宜設定し得るものであり、当業者において等価な式は、本発明の技術的範囲に属するものである。
1つの態様では、編集情報マップの時間軸方向の連続性を保証する項は、「隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。」という仮定に基づき、同じフレーム内での編集パラメータの一貫性を保証する項は、「ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。」という仮定に基づくものである。
後述する実施形態(tフレームからt+1フレーム)では、前記関数は、
であり、
である。
各記号の説明については、上述の記載を援用することができる。
後述する他の実施形態では、継承行列は、以下の目的関数を用いたフレーム間でのエネルギー最小化問題として定義される。
この目的関数は、画素特徴が類似した画素同士には同じような編集パラメータが割り当てられるという仮定に基づく。前項は前フレームからの拘束、後項は現フレーム内での拘束を表す。
ζ
klijは、フレームkのピクセルiとフレームlのピクセルjの類似度 であり、詳しくは、
となる。
f
kiは、フレームkのピクセルiが持つ画素特徴。一般にはL*a*b*色表現が3次元、フレーム内位置(x, y)が2次元、時間成分tが1次元の計6次元ベクトルである。
e
kiは、フレームkのピクセルiに対する編集パラメータである。
nは、動画の各フレームに含まれるピクセル数である。
【0015】
継承行列の計算において、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似し、疎行列のみの場合には、そのまま計算することも可能である。そして、編集情報マップの生成手段は、前記の近似手段ないし直接計算によって生成された継承行列を用いて、編集情報マップを生成することができる。
後述する実施形態では、前記継承行列生成手段は、密行列が含まれる場合には、当該密行列をより小さなサイズの行列同士の積に分解して近似する近似手段を備えており、
編集情報マップ生成手段は、前記近似手段によって生成された近似継承行列を用いて編集情報マップを生成する。
1つの態様では、前記近似手段は、Nystrom法を用いた近似手段である。後述する実施形態では、k-means法に基づくNystrom法を採用している。
なお、行列計算を高速に行なう手段としては、幾つかの手法が当業者に知られており、例えば、行列が疎行列の場合には値を持つ要素のみを計算することで高速に計算してもよい。
【0016】
本発明は、方法の発明としても規定することができ、
時間軸方向に隣接する第1の画像及び第2の画像のピクセル位置情報及びピクセル値情報を用いた最適化計算によって、第1の画像のピクセル値の線形結合として、第2の画像の各ピクセル値を規定する継承行列を生成する継承行列生成ステップと、
前記第1の画像を編集するための第1の編集情報マップが記憶されており、前記継承行列を用いて、前記第1の編集情報マップから前記第2の画像に対応する第2の編集情報マップを生成する編集情報マップ生成ステップと、
前記第2の画像に対して、前記第2の編集情報マップを適用して当該第2画像の編集画像を生成する編集画像生成ステップと、
を備えた動画編集方法、である。
【0017】
本発明に係る動画像編集装置を構成する各手段のハードウェア構成は、1つあるいは複数のコンピュータから構成することができる。コンピュータは、典型的には、動画像を形成する複数の時系列画像、各種画像編集プログラム、編集情報マップ、編集処理画像等の各種データを格納する記憶部、各種計算を行う演算処理部、各映像(元動画像、編集動画像)を表示する表示部、コンピュータを操作するための入力部、計算結果等のデータを出力する出力部、を備えており、汎用コンピュータ(入力部、出力部、演算部、記憶部、表示部等を備える)を用いることができる。
本発明に係る動画像編集方法は、1つあるいは複数のコンピュータによって実行することができる。
本発明は、さらに、動画編集方法をコンピュータに実行させるためのコンピュータプログラム、あるいは、当該コンピュータプログラムが記録された記録媒体としても定義される。
【発明の効果】
【0018】
本発明はオプティカルフローには依拠せずに、連続するフレームのピクセル間の対応関係を表現し、編集操作の伝播を実行するものであり、位置の対応関係を用いた処理に起因する課題を解決でき、また、ユーザが一部のフレームに対して入力した編集パラメータの安定な移送を実現する。従来、物体による相互遮蔽やフレームアウトなどに起因する対応関係の欠落を避けられないオプティカルフローでは、平滑化処理などを必要とするが、結果として、編集情報が急速に平均化され、数十フレーム程度で消失してしまうという問題があった。継承行列表現を用いることによって、この問題を解決し、安定的に編集情報を伝播することが可能となる。
【0019】
本発明は、編集情報と独立して得られる継承行列により生成される編集情報マップを用いることで、多くの編集処理に対応できる。編集操作の表現は、あるピクセルを編集するための関数を規定するパラメータから成る多次元情報である。たとえば、色調補正において、色相、彩度、明度を編集することを考えた場合には、各ピクセルはそれぞれの変化量を表す三次元ベクトルを有することになる。すなわち、編集操作の表現は、汎用的な表現となっており、多くの応用に適用できる。例えば、部分的な色の変更、色変化の安定化、テクスチャの鮮明化など、様々な応用が考えられる。
【発明を実施するための形態】
【0021】
[1]概要
フレーム間連続性を保持する動画編集法の実施形態について説明する。本実施形態の概念図を
図1に示す。上段が元動画の時系列画像(入力画像)、中段が編集情報(編集情報マップ)、下段が編集時系列画像(出力画像)である。本実施形態では、時間軸方向に隣接するフレーム(静止画)間の位置の対応関係を用いず、フレーム間の対応関係を1つの正方行列により記述する。これは、あるフレームの各ピクセルが持つ性質は、前のフレームのピクセルが持つ性質の線形結合(凸結合)により表現できるという仮定に基づいている。この線形結合の係数により構成される正方行列によってフレーム間の対応関係を記述する。本明細書ではこの行列を「継承行列(inheritance matrix)」ないし編集量伝搬行列(Edit-Propagation Matrix)と呼ぶ。なお、各フレームに含まれる画素数が同じ場合は正方行列となるが、本発明に係る手法は正方行列を用いるものに限定されない。
【0022】
継承行列において、t+1フレームの画像の各ピクセルが、tフレームの画像のピクセルの重み付けで表される。重み付けの計算には、ピクセル間の類似性が用いられる。類似性は、空間的な距離の類似(近さ)、色としての類似(色が近い)で測る。継承行列によって、t+1フレームの画像の全てのピクセルが、前のフレームtの画像の類似したピクセルの重み付けで表現される。これに対して、オプティカルフローを用いた処理では、t+1フレームの画像でフレームインしたピクセル、tフレームの画像では隠されていたピクセルは、前のtフレームの画像のピクセルとtフレームの画像のピクセルの組み合わせとしては表現できない。
【0023】
本明細書において、ユーザが入力を行うフレーム(静止画)をアンカーフレームと呼び、最初にアンカーフレーム上の編集情報を作成する。この編集情報を以下では編集情報マップと呼ぶ。編集情報マップは、以下のような要件を備えている。
(i)動画像を形成する各画像(フレーム)のピクセル数と同数のピクセル数からなる。なお、要件(i)は、典型的な実施態様を示すものであり、編集情報マップのピクセル数と動画を形成する各画像のピクセル数は同数でなくてもよい。
(ii)各画像tに対応して編集情報マップtが存在する。
(iii)一部あるいは全てのピクセルに編集パラメータが割り当てられている。一部のピクセルに編集パラメータが割り当てられている場合には、編集を要しないピクセルには編集パラメータが割り当てられていない。全てのピクセルに編集パラメータが割り当てられている場合に、編集を要しないピクセルについては、編集情報マップに保存されている編集度合の大きさは0である。編集パラメータは、各ピクセルのピクセル値をどのように編集するかの関数を決定する。例えば、編集パラメータ=(元の色情報→編集後の色情報の変化量)として規定できる。また、ある画像のピクセルiがI
iであり、変更後のピクセルを、編集パラメータe
iを用いて、I'
i=f(I
i, e
i)のように決定する。たとえば、I
iがピクセルの色(c
1,c
2,c
3)であり、変更後の色が(c'
1,c'
2,c'
3)=(a
1*c
1,a
2*c
2,a
3*c
3)のように計算される場合に、(a
1,a
2,a
3)が編集パラメータとなる。
(iv)画像tの各ピクセルについて、編集情報マップtの対応するピクセルの編集パラメータによって編集処理を適用することで編集画像tが得られる。
【0024】
編集情報マップを逐次、時間軸方向の隣接フレームに移送していくことで、動画全体に編集情報の付与を行う。本実施形態では動画の特定のフレームに対して施した編集結果それ自体を移送するのではなく、あるフレームのピクセルごとに割り当てられる編集パラメータを編集情報マップの形で、次のフレームに移送する。継承行列により編集情報マップを移送することで、ユーザの意図に沿った編集を、より少ないユーザ入力で動画全体に実現する。本実施形態に係る手法は大きく2つの処理に分けられる。
【0025】
第1の処理は、ユーザが入力を行ったフレーム(アンカーフレーム)上での処理である。静止画上でユーザ入力から画像全体の編集情報マップを推定する手法はすでに幾つか提案されており、本実施形態ではAnとPellaciniによる外観編集法(非特許文献3)を用いる。なお、本発明に適用される編集情報マップの推定法は非特許文献3に係る手法に限定されるものではない。
【0026】
第2の処理は、アンカーフレームに対して作成された編集情報マップを隣接するフレームに移送する処理である。この処理は隣接する2枚の画像から計算される継承行列を用いて行われる。継承行列はエネルギー関数の最適化により求められる行列であり、移送するマップの種類や値に依存しないという特徴を持つ。
【0027】
本実施形態に係る手法をより詳細に説明すると、以下のようなソフトウェアモジュールないしステップから構成される。
1.編集情報の初期化
アンカーフレームに対するユーザからの入力(scribble)をもとに、動画像と同じ画素数からなる「編集情報マップe
0」を生成する。
【0028】
2.編集情報の適用
編集情報マップに応じて、当該フレームに編集処理を施す。
【0029】
3.最適化による継承行列の計算
現在のフレームtの画像のピクセルの位置情報及びピクセル値情報(色情報)と、次のフレームt+1の画像のピクセルの位置情報及びピクセル値情報(色情報)と、を用いた最適化計算によって時間軸方向に隣接する2つのフレームの画像のピクセル同士の対応関係である「継承行列M
t+1/t」を求める。継承行列は、次のフレームt+1の各ピクセル値を、現在のフレームtのピクセル値の線形結合によって表現する。
【0030】
4.編集情報の更新
現在のフレームtの画像に対応する編集情報マップe
tに、継承行列M
t+1/tを適用して、次のフレームt+1の編集情報マップe
t+1を作成する。
【0031】
[2]アンカーフレームにおける編集情報マップの作成
動画の各フレームがnピクセルから成るとすると、各ピクセルに対してi=1,….,nという番号を与えることができる。ここで、ユーザによりピクセルiに与えられる編集パラメータを^g
iとおく。またユーザ入力が行われているかを表すラベルを^w
iとおく。具体的には^w
iはピクセルiに入力が行われているとき1、行われていないとき0をとる。
【0032】
最終的にピクセルiに与えられる編集パラメータを^e
iを求めるためのエネルギー関数^Eを次のように定義することができる。
この式において^zijはピクセルiとjの間の類似度を表し、次のように定義される:
ここで、^x
iはピクセルiの位置情報、^c
iはピクセルiのL
*a
*b
*からなる色情報を表すベクトルである。また、定数σ
sおよびσ
cは編集情報マップの一貫性を保つべき位置および色近傍の範囲を制御するパラメータである。具体的には、定数σ
sは位置情報に関する重み付け、定数σ
cは色情報に関する重み付けである。式(1)は狭義凸関数をなすので、各^e
iでの偏微分が全て0になる点で最小値を取る。||・||
2はベクトルのL2ノルムである。上記エネルギー関数は、2つの項からなり、前項は、ユーザ入力の編集パラメータと最終の編集情報マップの編集パラメータとの整合性を保証しており、後項は、類似の色を備えた近隣のピクセルには同様の編集パラメータが割り当てられることを保証している。定数^λは、上記2つの項をバランスさせるものであり、当業者により適宜設定できる。
【0033】
よって、式(1)を最小化する^e
iはベクトル形式で次のように得られる。
ここで^Zは^z
ijを成分に持つ行列であり、^D、^Wはi番目の対角成分にそれぞれ
を持つ対角行列である。また、gはピクセルiに入力された編集パラメータg
iを成分に持つベクトルを表す。式(2)は大規模密行列^Zを含むため、一般の計算機によってこれを計算することは困難である。そこで^Zが低ランクかつ半正定値であるという特徴を用いた近似法であるNystrom 法を用いて近似を行う(非特許文献3参照)。
【0034】
[3]継承行列による編集情報マップの移送
アンカーフレームにおいて計算された編集情報マップは継承行列によって、隣接するフレームから順々に伝搬されていく。継承行列は、隣接する2枚のフレームのピクセルの位置情報及びピクセル値情報から計算される行列であり、2枚のフレームが持つピクセルの色を縦に並べたベクトルをI
t, I
t+1のように置くと、
のような関係を持つ。
【0035】
式(3)において、
が継承行列であり、右上の添え字は、フレームtからフレームt+1の継承を表す行列であることを示す。
【0036】
本発明では、各フレームに与えられるべき編集情報マップが式(3)のような関係を持っていることを仮定している。すなわち、フレームtにおける編集情報マップをe
tのように表すことにすれば、次のような関係式が成り立っていることを仮定している。
【0037】
ここで解くべき問題は、このような線形の関係式を導くような継承行列M
t+1/tをどのように導くかということである。今、あるエネルギー関数の最適解として、式(4)が与えられると考えると、そのエネルギー関数はある行列に関する二次形式をしていると考えられる。そのようなエネルギー関数を定義するために、次のような仮定を置く。
【0038】
(i)隣接する二枚のフレームにおいて同じ位置にあるピクセルが、類似した色を持つ場合には、その二つのピクセルがもつ編集パラメータも類似している。
(ii)ある一枚のフレームに注目すると、そのフレーム内で距離が近く、色が類似している場合には、その二つのピクセルが持つ編集パラメータも類似している。
【0039】
この仮定をもとに次のような二つの重みづけ関数を定義する。
式(5)および(6)において、c
tiはフレームtの位置iに存在するピクセルのL
*a
*b
*色情報を表し、x
tiはフレームtのピクセルの位置を表す。またこれらの式において用いられている三種類のパラメータσ
ct、σ
sおよびσ
cは各成分の違いをどの程度許容するかという値になっている。具体的には、定数σ
ctは時間軸方向における色情報の差に関する重み付け、定数σ
sは位置情報に関する重み付け、定数σ
cは色情報に関する重み付けであり、当業者により適宜設定される。
実験において用いられているパラメータは表3に示した。
【0040】
これらの重み付け関数を用いて、次のようなエネルギー関数を定義する。
エネルギー関数は2つの項からなる。前項は、編集情報マップの時間軸方向の連続性を保証するものであり、後項は、同じフレーム内での編集パラメータの一貫性を保証している。式(6)に規定するように、編集パラメータの一貫性は、ピクセルの空間位置及び色の類似性に従うものである。λは、上記2つの項をバランスさせる定数であり、当業者により適宜設定される。このエネルギー関数も式(1)同様に狭義凸関数をなすため、これを最小化するような解は一つに決まる。
【0041】
式(7) を各e
t+1i、i=1,….,nで偏微分することで得られるn本の方程式が0になるとすると、
という関係式が得られる。これを改めてベクトルと行列を用いて書き直すと次のようになる。
ただしD
t+1/tはn×nの対角行列で、そのi番目の対角要素が
となっている。
W
t+1/tも同様にn×nの対角行列で、その対角要素はw
t+1/tiである。この関係式は式(4)と同じ形をしており、目的の継承行列が求められている。この継承行列も計算のためには大規模密行列Z
t+1の積を計算する必要があり、式(2)同様にNystrom法を用いた近似が必要である。
【0042】
次に、改良された編集量伝搬行列の導出について説明する。あるフレームに与えられた編集量を伝搬する問題では一般にフレームtからt+1への編集量の伝搬を考える。ここでは簡単のため、フレーム1から2 への伝搬を説明する。前処理として、フレーム1について予め編集量を計算しておく。各フレームに含まれる画素数をn として、フレーム1に対する編集量をe
1=(e
11,…,e
1n)
Tのように表す。目的は、このe
1からe
2を求めることである。e
2 を求めるため、色と位置が近い二つの画素は似た編集量を持つと仮定して目的関数を導く。
画素特徴ベクトルf
ti (t=1,2,i=1,…,n) を画素のL*a*b*色情報と位置(x
ti, y
ti )から、
と表す。この際、f
tiの各成分は色成分がσ
cで、位置成分がσ
sで適当にスケーリングされている。画素間の類似度はf
tiから、
と定義する。先ほどの仮定に基づくと、e
2を求めるための目的関数は次のようになる。
この目的関数を最小化するe
2が編集量である。
目的関数を最小化するため、目的関数を各e
2iで偏微分すると、次式が得られる。
各iに対して求まる式を行列形式で書き直す。そのために、新たに二つのn次正方行列Z
kl、D
klを次のように定める。
但し、diag{・・・}は{・・・}を対角成分に持つ対角行列を表す。すると、上記式は、
と書き直せる。証明は省略するがD
22+1/2D
21−Z
22は正定値行列なので逆行列が求まり、
となる。M
21が編集量伝搬行列である。
編集量伝搬行列 は大規模行列の積によって書き表されるため、そのまま計算するのは現実的でない。そこで従来法(非特許文献3)と同様Nystrom 法を用いて行列を近似する。提案法と従来法 の相違点は以下の二点である。
1) 一般のNystrom 法を拡張し、非対称の類似度行列を近似する。
2) 行列自体の近似精度ではなく、行列とベクトルの積の近似精度に注目する。
一般のNystrom 法は対称半正定値行列を対象としているため、Z
21のような非対称の類似度行列を扱うことはできない。そこで、次のようなブロック行列を考える。
この行列は対称半正定値であり、Nystrom法により近似できる。
【0043】
[4]継承行列の近似
継承行列を含め、式(2)なども計算には大規模密行列Z
t+1/tあるいは^Zの計算を行う必要がある。ところが、これらの行列は画像のピクセル数nに対してn×nの大きさであり、一般的な計算機で計算を行うことは、行列を保持するための記憶部の容量と計算時間の両面から困難である。以下では、簡単のために、行列の添え字を省略する。
【0044】
Nystrom法の適用方法
Nystrom法は行列が低ランクである場合、少ない数の固有値と固有ベクトルだけを用いて効率的に行列を近似することができる。この固有値および固有ベクトルを近似的に求めるためにNystrom 法では元の行列の列ないし行をサンプリングする(非特許文献6)。
【0045】
本手法は2枚の隣接するフレームごとにNystrom法による近似が必要であるため、従来の列をサンプリングするNystrom法では精度が不十分であった。そのため、本実施形態ではZhangらが提案したk-means法に基づくNystrom法(非特許文献7)を用いる。
【0046】
まず、入力されたフレームをピクセルのL
*a
*b
*色情報と位置の情報に基づきk-means法でクラスタリングする。本来は、行列Zのランクを用いてk個のクラスタに分割するのが理想的であるが、実際にこのkを求めるには、ある程度の計算量が必要であること、無視しても差し支えない小さな固有値によりkが必要以上に大きくなってしまうことを防ぐためサンプル数mを設定する。入力データをm個のクラスタに分解したとすると、それぞれのクラスタについてクラスタ中心
が得られる。これを用いて、次の行列
を計算する。
【0047】
この行列UおよびAを用いると、Nystrom 法により
という近似が得られる。
継承行列の近似に必要な残りの計算は
であるが、これはWoodburyの公式あるいは逆行列の補題と呼ばれる定理を用いることで次のように計算が可能である。
この式は、小さな行列同士の積のみから成り立っており、実際に計算が可能である。以上の計算方法を用いることで、継承行列は以下のように近似される。
この近似した継承行列をアンカーフレームにおいて計算された編集情報マップに順々に適用していくことで、最終的な動画編集の結果を得る。
行列Zは、下記のように、より小さなサイズの行列U、Aの積で表現され、継承行列を再現するためには上述の式の行列U、行列A、行列Wを保存しておけばよい。
【0048】
さらに、Nystrom法による近似の他の態様について説明する。
通常のNystrom 法は半正定値対象行列Z とその低ランク近似Z
〜の間で、
ができる限り小さくなるように行列を近似をする。このとき‖・‖
*は行列のスペクトル・ノルムあるいはフロベニウス・ノルムを指す。スペクトル・ノルムとは行列の最大特異値に対応する値であり、フロベニウス・ノルムとは行列の各成分の二乗和の平方根をとったもので、それぞれ次のように表される。
応用においては半正定値行列Z がデータ列{xi}
Ni=1からガウス・カーネルを用いて計算される行列として、
のように計算されることが多い。ただし、Z = (zij)
1≦I,j≦Nのように書くとき、Zの(i,j)成分がzijであることを表すものとする。この式に示す行列を、データ列から計算される類似度行列とよぶ。
Zhangらのk-means法を用いたNystrom法はこのデータ列をあらかじめK個のクラスタに分割する。これを{c
k}
Kk=1とする。元の行列Zは次のように近似される。
提案するNystrom 法におけるサンプリングについて説明する。本発明に係る動画編集法では第1フレームと第2フレームがそれぞれもつN個の画素、すなわち合計2N個の画素特徴から計算される巨大な行列を近似する必要がある。一般にk-means法の計算量は入力データ数n、出力クラスタ数k、反復回数sに対してO(nks)となり、それほど高速でない。
また、ZhangらのNystrom法をそのまま適用すると編集パラメータの情報を全く反映することなくクラスタ中心が計算されるため、比較的小さな画像領域に編集パラメータが割り当てられている場合に適切な編集結果が得られないことがある。
そこで、より高速に、かつ編集パラメータを反映した行列近似を行うことを考える。
改良手法では、k-means 法により特徴ベクトルをクラスタリングする際、第1フレームと第2フレームでは画素特徴(色と位置と編集パラメータ)の分布が非常に近いと仮定し、第1フレームのみを以下の距離関数に従ってクラスタリングする。すなわち、画像情報(色情報、位置情報)に加えて編集パラメータもクラスタリングに利用する。
ただし画素特徴f
i 〜はこれまでの色と位置のみによる定義f
iから
という定義に拡張したものである。この画素特徴ベクトルを拡張画素特徴ベクトルと呼ぶ。
これにより得られたクラスタ中心を{c
k〜} とする。各c
k〜は拡張画素特徴ベクトルと同じ次元を持つ。このクラスタ中心から色と位置の成分だけを取り出した物をc
kとする。あとはこれをサンプル点として上述の近似式に従い、Zhang らのNystrom 法を実行する。
【0049】
[5]動画編集の結果
本実施形態に係る手法による動画編集の結果を
図2、3および4に示す。それぞれの結果から、継承行列を用いた動画編集法の特徴について説明を行う。なお、各図はグレースケール画像であるが、望ましいと考えた場合には、審査時に物件提出書でカラー画像を提出する用意がある。
【0050】
図2に注目すると、入力を行ったフレームに写りこんでいなかった物体についても同系統の色調を有するものを自動的に編集できていることがわかる。これはエネルギー関数である式(7)の第二項においてフレーム内での編集の一貫性を考慮しているためで、新たな物体が入り込んでくるたびにユーザ入力を追加しなくても良いというのは動画編集において利点となるといってもよい。
【0051】
図3には詳細強調の結果を示した。この詳細強調は定義域変換(domain transform)によるエッジ保存フィルタ(非特許文献8)を用いて各フレームをマルチスケール分解(multi scale decomposition)した後、どのスケールの詳細をどの程度、強調・抑制するかを決定するパラメータ(テクスチャの細かさの度合いを表すパラメータ)を継承行列により伝搬している。この結果からもわかる通り、本手法はどのような編集を行うかという目的に依存せず、その編集が独立したいくつかのパラメータにより行われている場合にはいかなる編集法にも適応が可能である。
【0052】
図4には複数のアンカーフレームにユーザ入力を行った場合の編集結果を示した。通常、複数のフレームにユーザ入力を行う目的は、フレームの進行に伴い蓄積したエラーが原因で起こる不適切な領域分割を防ぐためであることが多い。本手法でもそのような目的でユーザ入力を追加することは可能であるが、実験を行ったいくつかの動画について、編集パラメータの伝搬は適切かつ安定に行われており、その必要性は低いと考えられる。その一方で複数のアンカーフレームに異なる編集を施すことで、より自由度の高い編集を行うことが可能であり、
図4には元の動画において黄色であるモミジの葉を、時間経過とともに徐々に赤色に色づかせるという編集を行っている。このように、編集パラメータを安定的に伝搬できるようになったことで、従来は行うことの難しかった複数フレームに対するユーザ入力の可能性を示すことができた。t+1フレームからtフレームへの継承を表す継承行列を導き出すためのエネルギー関数は、表1の右列の式を用いた。
【0053】
[6]提案手法の応用
本実施形態に係る継承行列を用いた動画編集法は処理の過程を少し変更するだけで、様々な応用が可能である。本節では、その応用例として、グレースケール動画に対する着色処理、動画の色調安定化、および静止画から動画への色転写の手法を紹介する。
【0054】
[6−1]グレースケール動画の着色処理
グレースケールの静止画に色をつけるという処理は、従来から多くの研究が存在しており、大きく分けると、ユーザ入力をもとにした着色処理(非特許文献1、9)と参照画像を用いた処理に分けられる。ここでは、前者のユーザ入力をもとにした手法を継承行列を用いて動画に拡張する。
【0055】
着色処理に対し、式(7)をそのまま用いようとすると、第二項のフレーム内の一貫性を保つ項が強く働きすぎてしまい、全体的にぼやけた着色結果となってしまう。これは、グレースケールの画像ないし動画において、全てのピクセルが輝度値の一次元情報のみを持っており、なおかつ全体でその輝度値がそれほど大きくは変わらないということに原因があると考えられる。そこで、本手法を着色処理に用いる場合には、式(7)の第二項をピクセルの近傍のみとの一貫性を保つように変更する。
【0056】
具体的には以下のような式となる。
ただし、この式においてN
4(i)はピクセルiの四近傍を指す。この式を用いて得られた動画の着色結果を
図5に示す。この結果はアンカーフレームをグラフ探索による静止画像の着色処理(非特許文献9)において行い、その結果を継承行列で伝搬している。
ここで、着色処理について、表1、表2に示す4つの式に対応してまとめると、以下の通りとなる。
【0057】
[6−2]色調安定化処理
動画の色調安定化処理とは、安価なデジタルカメラや携帯電話で動画を撮影した際に起こる色度の揺れを除去する処理である。近年、FarbmanとLischinskiにより提案されたこの処理は、基準となるアンカーフレームから他のフレームの各画素がどの程度色度のずれを起こしているかというのを計算することで実現される(非特許文献10)。従来手法においては、各フレームごとに信頼度マップやアピアランスマップと呼ばれる複数のパラメータマップを計算する必要があったが、継承行列を用いることで、これらの処理を単純化することが可能である。
【0058】
あるフレームtにおいて、各ピクセルがアンカーフレームからどの程度の色度のずれを持つかという情報(編集パラメータ)をe
tiと表すことにする。フレームの進行に伴い、色度のずれは蓄積されていくと考えられるので、その増加分をフレーム間の色度の差により
のように表す。
【0059】
すると、フレームt +1における色度のずれは次のようにして与えられる。
ただしL
tはフレームtにおける各ピクセルの色度L
tiを成分に持つベクトルで
を表す。このようにして得られた動画の色調安定化の結果を
図6に示す。
【0060】
[6−3]画像から動画への色転写
色転写(color transfer)とは、目的とする静止画の色調を参照する静止画の色調に合わせるという手法である(非特許文献11)。色転写の基本的な考え方は、画像をヒストグラムやガウス混合モデルなどの確率モデルにし、その目的画像の確率モデルを参照画像の確率モデルに近づけることで、目的画像の色調を変化させるというものである。
【0061】
本手法による静止画から動画への色転写は、まずユーザ入力により領域間の対応付けを行い、その領域間でReinhardのガウス分布に基づいた色転写のパラメータを計算する。Reinhardの手法はL
*a
*b
*の各色成分が目的画像と参照画像の両方でガウス分布をしていると仮定する。今、目的画像のk番目の色成分の平均を
標準偏差を
参照画像のk 番目の色成分の平均を
標準偏差を
と表すことにする。
【0062】
目的画像の元の色を
とすると、色転写後の目的画像の色
は次のように表される。
式(10)は、
とおくことで
と表せる。そこで本研究ではL
*a
*b
*色空間で各成分についてa
kおよびb
kを計算し、計6次元の情報を継承行列により伝搬した。これにより得られた色転写の結果を
図7に示す。
【0063】
[7]付記
[7−1]継承行列の性質
継承行列M
t+1/tは添え字などを省略すると、対称半正定値行列
と二つの対角行列
および実数定数
を用いて
の形で表せる。この行列は次のような特性を持つ。
【0064】
(i)行列(D−Z)が正則であり、かつWが0かつ非負の対角成分を持つためM
t+1/tも正則であり、ゆえに逆行列(M
t+1/t)
−1が存在する。
(ii)継承行列M
t+1/tに逆行列が存在すれば式(4)から、それはフレームt+1からフレームtへの逆方向のパラメータの継承を表す。すなわち(M
t+1/t)−1=M
t+1/tである。
(iii)フレームtからフレームt + kまでの間の継承行列M
t+1/t,…, M
t+k-1/t+kの積はフレームtからフレームt + kへのパラメータの継承を表す。すなわち
である。
【0065】
(i)および(ii)の性質はオプティカルフローなどの位置の対応関係を考えた場合には存在しない性質である。位置の対応関係を行列として表現する場合を考えると、フレーム間でピクセルとピクセル同士の一対一の対応関係が与えられている場合にのみその行列は逆行列を持つ、すなわちフレームt+1のあるピクセルiがフレームtの二つ以上のピクセルと対応関係を持つ場合には、その行列表現が逆行列を持たない。これは位置の対応関係を取る場合においてしばしば起こりうることであり、その点で継承行列は性質が優れた行列であるといってよい。
【0066】
(iii)の性質は例えばあるフレームに対して行ったユーザ入力から100フレーム後の結果をいきなり求めたい場合などに役に立つ。実際には、M
t/t+kという行列は大規模な行列であり、あらかじめ計算しておくことはできない。そのため、フレームの順序にしたがって結果を求めていく。大容量記憶部を用意して、継承行列を記憶部に保存しておくことで、継承行列をより有用に扱うことができる。
【0067】
[7−2]編集伝搬の精度とパラメータ
時間軸方向の伝搬の精度は従来法と比べて著しい改善が行えている。なお、フレーム内での編集伝搬の精度については、あまりに細かなユーザ入力を適切に伝搬することは簡単ではない。細かなユーザ入力を区別するためには一貫性を保つべきピクセルの近傍範囲を制御するパラメータσ
sを小さな値にすることが採用され得るが、σ
sが0に近づくと類似度行列Zの低ランクであるという性質が失われてしまい、Nystrom法による近似の精度が低下するおそれがある。
【0068】
近似的なオプティカルフローにより領域ラベルの伝搬を行う従来法(非特許文献5)との比較を
図8に示した。従来法は細かなテクスチャに対応できず、またフレームの進行に伴うエラー蓄積も大きいが、本手法では各結果画像に示した通り一般的な動画で5秒程度にあたる150フレームを超えてもおおむね良好に編集の伝搬が行えている。なお、本手法の実装はMATLABおよびC++を用いて行っており、実験は3.6GHzのCPU上で行った。実験で用いたパラメータを表3に示す。mは、継承行列の近似におけるサンプル数、sは、継承行列計算内の近似にあたって利用されるk-means法の繰り返し計算の回数である。
【表3】