(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0023】
以下、添付図面を参照しながら各実施例について詳細に説明する。各実施例では、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを残しつつ、意味内容的に不要な処理単位(例えばフレーム単位又は画素単位)を削除することで映像を短縮する。
【0024】
[実施例1]
<構成>
図1は、実施例1における映像処理装置10の概略構成の一例を示すブロック図である。
図1に示すように、映像処理装置10は、制御部102、主記憶部104、補助記憶部106、ドライブ装置108、ネットワークI/F部110、入力部112、及び表示部114を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
【0025】
制御部102は、コンピュータの中で、各装置の制御やデータの演算、加工を行うプロセッサである。制御部102は、例えばCPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
【0026】
また、制御部102は、主記憶部104又は補助記憶部106に記憶された映像短縮処理のプログラムを実行する演算装置である。制御部102は、入力部112や記憶装置からデータを受け取り、演算、加工した上で、表示部114や記憶装置などに出力する。
【0027】
主記憶部104は、ROM(Read Only Memory)やRAM(Random Access Memory)などである。主記憶部104は、制御部102が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
【0028】
補助記憶部106は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
【0029】
ドライブ装置108は、記録媒体116、例えばフレキシブルディスクからプログラムを読み出し、記憶装置にインストールする。
【0030】
また、この記録媒体116に格納された所定のプログラムは、ドライブ装置108を介して映像処理装置10にインストールされる。インストールされた所定のプログラムは、映像処理装置10により実行可能となる。
【0031】
ネットワークI/F部110は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された周辺機器と映像処理装置10とのインターフェースである。
【0032】
入力部112は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部114の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力部112は、ユーザが制御部102に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
【0033】
表示部114は、LCD(Liquid Crystal Display)等により構成され、制御部102から入力される表示データに応じた表示が行われる。
【0034】
映像処理装置10は、例えばPC(Personal Computer)、サーバ、タブレット端末、スマートフォンなどであり、少なくとも制御部102や主記憶部104や補助記憶部106を有する情報処理装置であればよい。
【0035】
<機能>
次に、実施例1における映像処理装置10の機能について説明する。
図2は、実施例1における映像処理装置10の機能の一例を示すブロック図である。
図2に示す映像処理装置10は、画像解析手段202と、音声解析手段204と、重要度算出手段206と、短縮手段208とを有する。
【0036】
映像処理装置10の各手段は、例えば、制御部102及びワークメモリとしての主記憶部104などにより実現されうる。制御部102が、映像短縮プログラムを実行することで、映像処理装置10が、上記各手段として機能する。
【0037】
画像解析手段202は、入力された映像に対し、少なくとも動き特徴を含む画像特徴を解析する。また、画像解析手段202は、画像特徴として、顔検出を行い、検出された顔の大きさを用いてもよい。画像解析手段202は、動き特徴解析手段222と、見え(appearance)特徴解析手段224を有する。
【0038】
映像上の動きが激しいシーン程、一般に重要であることが多い。そこで、動き特徴解析手段222は、各フレームで画素毎に隣接フレームとの差分を算出する。隣接フレームとは、例えば前、又は後、又は前後のフレームである。動き特徴解析手段222は、画像内での全画素の差分の平均値を求め、この平均値をフレームの動き特徴とする。動きの多い映像区間は重要であることが多いことから、この差分特徴を用いることで映像的に重要なシーンを理解することができる。
【0039】
動き特徴解析手段222は、例えば隣接フレームを1つ前のフレームとすると、式(1)により動き特徴を求めることができる。
【0040】
【数1】
また、人物が映っているシーンも重要であることが多い。そこで、見え特徴解析手段224は、例えば、顔検出を行い、顔の大きさを見え特徴とする。顔検出としては、例えばViolaとJonesが提案した顔検出アルゴリズムを用いることにより、画像中の人物顔を高速に自動検出することができる。
【0041】
このアルゴリズムは広く普及しており、オープンソースの画像処理・認識ライブラリOpenCVにも公開されている(http://opencv.jp/)。
【0042】
また、顔検出アルゴリズムは、検出した顔の位置、半径を出力することができる。そこで、見え特徴解析手段224は、検出した顔領域の中の最大半径に応じて見え特徴を定める。
【0043】
図3は、顔検出結果の一例を示す図である。
図3に示すように、画像内から2つの顔が検出されているが、大きい方の顔の半径125[pixel]を見え特徴とする。また、この例では、顔の最大半径を見え特徴とするが、検出された顔の数や、エッジ量の多さを見え特徴としてもよい。見え特徴解析手段224は、見え特徴F
tを、例えば顔の最大半径とする。
【0044】
このとき、画像解析手段202は、時刻tでの画像特徴V
tを次の式(2)により算出する。
【0045】
【数2】
M
t':正規化後のM
t(M
t'=M
t/255)
F
t':正規化後のF
t(F
t'=F
t/(W/2))
α
M、β
F:重み係数
正規化は、それぞれのパラメータを0〜1.0の値にするために行われる。Wは、画像の水平幅を示す。α
M、β
Fの重み係数は、適切な値が予め設定されていればよい。画像解析手段202は、算出したV
tを重要度算出手段206に出力する。
【0046】
図2に戻り、音声解析手段204は、重要な映像区間を抽出するため、映像から少なくとも発話の尤度を含む音声特徴を解析する。例えば、発話があるシーンは、重要なシーンであることが多い。また、大きな音が含まれる映像区間は重要なシーンであることが多い。そこで、音声解析手段204は、音声レベルを検出するようにしてもよい。音声解析手段204は、例えば発話検出手段242と、音声レベル検出手段244とを有する。
【0047】
発話検出手段242は、既存の発話検出技術を利用し、発話の尤度P
tを求める。発話検出技術の一例としては、累積音素尤度を用いて発話を検出する技術がある(今井亨,佐藤庄衛,小林彰夫,尾上和穂,本間真一,"累積音素尤度によるオンライン発話検出と男女音声認識,"信学総大,D-14-8,p.132, 2006.3.)。
【0048】
音声レベル検出手段244は、映像のうち、所定フレームに対応する音声レベルL
tを検出する。音声レベルの検出については、公知の技術を適用すればよい。
【0049】
音声解析手段204は、時刻tでの音声特徴Atを次の式(3)により算出する。
【0050】
【数3】
L
t':正規化後のL
t(L
t/音声レベルの最大値)
α
L、β
P:重み係数
正規化は、L
tを0〜1.0の値にするために行われる。Ptは、0〜1.0の値をとる。α
L、β
Pの重み係数は、適切な値が予め設定されていればよい。音声解析手段204は、算出したA
tを重要度算出手段206に出力する。
【0051】
重要度算出手段206は、画像解析手段202から取得した画像特徴V
tと、音声解析手段204から取得した音声特徴A
tとを用いて、映像の処理単位の重要度を算出する。処理単位は、以降ではフレームとして説明するが、非特許文献1のように、画素単位としてもよい。
【0052】
重要度算出手段206は、重要度I
tを次の式(4)により算出する。
【0053】
【数4】
ここで、α
V、β
Aの重み係数は、適切な値が予め設定されていればよい。重要度I
tは、0〜1.0に正規化されており、この重要度I
tの大きい順にフレームを並べることで、各フレームの重要性が分かる。重要度算出手段206は、算出した各フレームの重要度Itを短縮手段208に出力する。
【0054】
短縮手段208は、フレーム毎に与えられた重要度に基づいて、映像の時間長を短縮し、短縮映像を生成する。重要度が低いフレームほど、内容に関する情報に乏しく、冗長なシーンであると考えられる。
【0055】
そこで、短縮手段208は、重要度で順位付けした各フレームを、重要度の値が小さなフレームから削除する。このように1フレームずつ削除することで、任意の映像長の短縮映像を生成することができる。
【0056】
図4は、映像短縮処理を説明する図である。
図4に示すように、短縮手段208は、各フレームを重要度の高い順に並べ、重要度の低いフレームから削除することで、任意の時間長の短縮映像を生成する。
【0057】
短縮手段208は、設定手段282を有する。設定手段282は、映像の時間長を設定する。設定手段282は、表示画面上にスライドバーを表示し、このスライドバーの位置により映像の時間長を設定することができる。
【0058】
短縮手段208は、設定手段282により設定された時間長になるように、重要度の低いフレームから削除し、映像を短縮する。
【0059】
また、短縮手段208は、短縮後の映像の連続性を考慮して、映像の時間長を短縮してもよい。
図5は、映像の連続性を考慮した重要度の変更の一例を示す図である。
図5に示すように、時刻t
4のフレームの重要度が低く、時刻t
4の前後の数フレームの重要度が高い場合、短縮映像の連続性を考慮して、短縮手段208は、時刻t
4のフレームの重要度を高くする。
【0060】
また、時刻t
n+2のフレームの重要度が高く、時刻t
n+2の前後の数フレームの重要度が低い場合、短縮映像の連続性を考慮して、短縮手段208は、時刻t
n+2のフレームの重要度を低くする。
【0061】
なお、重要度の高低の判定について、短縮手段208は、削除されるフレーム中で一番高い重要度を閾値とし、この閾値より大きければ重要度が高い、この閾値以下であれば重要度が低いと判定する。
【0062】
よって、短縮手段208は、削除されるフレームの前後で所定数のフレームが削除されない場合、この削除されるフレームを削除しないようにしてもよい。また、短縮手段208は、削除されないフレームの前後で所定数のフレームが削除される場合、この削除されないフレームを削除するようにしてもよい。
【0063】
<動作>
次に、実施例1における映像処理装置10の動作について説明する。
図6は、実施例1における映像短縮処理の一例を示すフローチャートである。ステップS101で、映像処理装置10は、処理対象の映像を取得する。処理対象の映像は、ネットワークから配信されたり、記録媒体116から取得されたりする。
【0064】
ステップS102で、画像解析手段202は、入力された映像から、少なくとも動き特徴を解析する。また、画像解析手段202は、入力された映像から、見え特徴を解析し、動き特徴と見え特徴に基づく画像特徴を解析してもよい。
【0065】
ステップS103で、音声解析手段204は、入力された映像から、少なくとも発話の尤度を解析する。また、音声解析手段204は、入力された映像から、音声レベルを解析し、発話の尤度と音声レベルに基づく音声特徴を解析してもよい。
【0066】
なお、ステップS102とステップS103は、順不同であり、並列に処理されてもよい。
【0067】
ステップS104で、重要度算出手段206は、画像特徴と音声特徴とに基づく処理単位(例えばフレーム)の重要度を算出する。重要度算出手段206は、それぞれの特徴に重み係数を乗算することで重要度を算出する。
【0068】
ステップS105で、短縮手段208は、重要度に基づいて、映像の時間長を短縮する。また、短縮手段208は、設定された時間長に短縮してもよいし、連続性を考慮して短縮映像を生成してもよい。
【0069】
以上、実施例1によれば、映像、音声双方の観点から重要なシーンを残しつつ、短縮映像を生成することができる。また、映像内の画像と音声双方の特徴を考慮した重要度に基づいて短縮映像を作成することで、画と音が同期した短縮映像を作成することができる。なお、実施例1によれば、映像の連続性を考慮して短縮映像を生成することもできる。
【0070】
[実施例2]
次に、実施例2における映像処理装置について説明する。実施例2では、各重み係数を調整し、より適切に重要なシーンを残しつつ、映像を短縮できる。
【0071】
<構成>
実施例2における映像処理装置の構成は、
図1に示す構成と同様であるため、同じ符号を用いて説明する。
【0072】
<機能>
図7は、実施例2における映像処理装置20の機能の一例を示すブロック図である。
図7に示す映像処理装置20の機能のうち、
図2に示す機能と同様のものは同じ符号を付す。以降では、実施例1の機能と異なる機能について主に説明する。
【0073】
重要度算出手段302は、重み係数調整手段322を有する。重み係数調整手段322は、各重み係数を調整する。
【0074】
(重要度の重み係数)
重要度算出手段302は、例えば、処理対象の処理単位の時間経過に基づく重み係数W
tを重要度I
tに乗算する。重要度算出手段302は、重み係数W
tを次の式(5)に算出する。
【0075】
【数5】
tを番組開始からのフレーム数、Tを当該番組のフレーム総数とする。
【0076】
一般的に、放送番組は、開始直後と終了直前に重要なシーンが含まれていることが多い。そのため、開始直後や終了間際のフレームの重要度の比重を高めることが有効である。
【0077】
重み係数調整手段322は、この重み係数W
tを重要度I
tに乗じることで時間経過を考慮したフレーム重要度を算出できる。比重が0.0となることを防ぐため、ここでは最小値を0.2とした。
【0078】
また、重み係数調整手段322は、例えば、映像の開始直後の第1所定時間及び終了直前の第2所定時間の重み係数W
tを、第1所定時間及び該第2所定時間以外の時間の重み係数W
tよりも大きくしてもよい。第1所定時間、第2所定時間は予め設定された値である。
【0079】
(画像、音声の重み係数)
また、重み係数調整手段322は、画像特徴の重み係数α
V、音声特徴の重み係数β
Aを調整してもよい。重み係数調整手段322は、映像のカットが検出されたフレームから次のカットが検出されるまで、音声特徴に乗算する重み係数β
Aを小さくし、画像特徴に乗算する重み係数α
Vを大きくしてもよい。
【0080】
ここで、カットとカットに挟まれた映像区間をショットと呼ぶ。映像処理装置20は、ショットを抽出する際、公知の技術(例えば特開2008−83894号公報参照)を用いればよい。一般的に、各ショットの始めではコメントで状況説明がなされることが多い。そのため、カット切替点直後は音声を重視し、以降、画像の重要度を上げていくことが望ましい。
【0081】
そこで、重み係数調整手段322は、カット切替からの経過時間を計測し、時間と共に音声の重要度β
Aを下げ、逆に画像の重要度α
Vを高める。例えば、fを直前のカット点からのフレーム数、FLを当該ショットのフレーム総数とする。
【0082】
重み係数調整手段322は、画像と音声の重み係数をそれぞれ次の式により算出する。
【0085】
【数8】
上記の式に従って重み係数α
V(f)、β
A(f)を算出することで、カット切替点から徐々に画像の重みを上げてゆき、徐々に音声の重みを下げることができる。画像、音声の重みが極度に高くならないように、上記式(6)(7)では、0.2以上、0.8以下となる制限を加えたが、この限りではない。
【0086】
重み係数調整手段322は、重要度に乗算する重み係数W
tと、画像特徴、音声特徴に乗算する重み係数α
V、β
Aとを両方求めるようにしてもよいし、いずれか一方を求めるようにしてもよい。
【0087】
重要度算出手段302は、重み係数調整手段322により調整された重み係数を用いて重要度を算出する。算出された重要度を用いる映像短縮については、実施例1と同様である。
【0088】
<動作>
次に、実施例2における映像処理装置20の動作について説明する。
図8は、実施例2における映像短縮処理の一例を示すフローチャートである。
図8に示すステップS201〜S203の処理は、
図6に示すステップS101〜S103の処理と同様である。
【0089】
ステップS204で、重み係数調整手段322は、重要度に乗算する重み係数Wt、及び/又は画像特徴、音声特徴に乗算する重み係数α
V、β
Aを算出する。
【0090】
ステップS205で、重み係数算出手段302は、算出された重み係数を用いて重要度を算出する。
【0091】
ステップS206で、短縮手段208は、重み係数算出手段302により算出された重要度を用いて、映像の時間長を短縮する。短縮手段208の短縮方法は、実施例1と同様である。
【0092】
以上、実施例2によれば、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを抽出し、映像を短縮させる。また、実施例2によれば、各重み係数を調整し、より適切に重要なシーンを残しつつ、映像を短縮できる。
【0093】
[実施例3]
次に、実施例3における映像処理装置について説明する。実施例3では、画像、音声解析により所定のシーンを分類し、分類された所定のシーンに含まれるフレームの重要度を調整することができる。これにより、より適切に重要なシーンを残しつつ、映像を短縮できる。
【0094】
<構成>
実施例3における映像処理装置の構成は、
図1に示す構成と同様であるため、同じ符号を用いて説明する。
【0095】
<機能>
図9は、実施例3における映像処理装置30の機能の一例を示すブロック図である。
図9に示す映像処理装置30の機能のうち、
図2に示す機能と同様のものは同じ符号を付す。以降では、実施例1の機能と異なる機能について主に説明する。
【0096】
シーン分類手段402は、画像特徴及び音声特徴に基づきシーン分類を行う。シーン分類手段402は、画像と音声の双方を考慮し、シーン分類したうえで各シーンに対応する重要度を付与するよう制御する。
【0097】
シーン分類手段402は、例えばサポートベクターマシンなどの機械学習の枠組みを利用することで実現することができる。特徴量には画像のフレーム差分量、エッジ量、顔検出の結果、音声のレベル、周波数、発話の信頼度などが利用できる。シーン分類手段402は、例えば、下記のようなシーンを分類する。
【0098】
(発話シーン)
図10は、発話シーンの一例を示す図である。人物が話しているシーンは、比較的重要であることが多い。そこで、シーン分類手段402は、発話シーンのフレームの重要度を高めるようにする。発話シーンでは、画像から顔検出を行い、音声からの発話検出などがシーン分類に有効に作用すると考えられる。
【0099】
(解説シーン)
図11は、解説シーンの一例を示す図である。文字やグラフを提示して解説するシーンは、他のシーンに比べて重要である場合が多い。そこで、シーン分類手段402は、解説シーンの重要度を高めるようにする。解説シーンには、パターンを手に持った解説やグラフを全面に表示したうえでの解説など様々あるが、画像には文字や図形が現れ、かつ音声には人の発話が現れることが多い。解説シーンでは、画像のエッジ特徴と音声の発話検出が有効に作用すると考えられる。
【0100】
(背景シーン)
図12は、背景シーンの一例を示す図である。映像上は激しい動きがあるシーンでも、実際は木立の揺れや川の流れなどの背景映像のことがある。そこで、シーン分類手段402により背景シーンに分類されたフレームは、その重要度を下げる。背景シーンでは、音声は無音に近い低いレベルとなることが多い。画像のフレーム差分量と音声レベルが、背景シーンの検出に有効に作用すると考えられる。
【0101】
シーン分類手段402は、例えば上記のように、発話シーン、解説シーン、背景シーンに現在のシーンが分類された場合、そのシーン名を重要度算出手段404に通知する。
【0102】
重要度算出手段404は、シーン分類手段により分類されたシーンが所定のシーンである場合、所定のシーンに含まれるフレームの重要度を調整する。重要度算出手段404は、処理対象のフレームが発話シーン、解説シーンに含まれる場合、算出した重要度に例えば1.1を乗算し、重要度を高める。また、重要度算出手段404は、処理対象のフレームが背景シーンに含まれる場合、算出した重要度に例えば0.9を乗算し、重要度を低くする。
【0103】
重要度算出手段404は、シーン分類を用いて重要度を必要に応じて調整する。調整された重要度を用いる映像短縮については、実施例1と同様である。
【0104】
<動作>
次に、実施例3における映像処理装置30の動作について説明する。
図13は、実施例3における映像短縮処理の一例を示すフローチャートである。
図13に示すステップS301〜S304の処理は、
図6に示すステップS101〜S104の処理と同様である。
【0105】
ステップS305で、シーン分類手段402は、サポートベクターマシンなどを用い、処理対象のフレームを含むショットがどんなシーンかを分類する。
【0106】
ステップS306で、重要度算出手段404は、分類されたシーンが所定のシーンであるかを判定する。所定のシーンであれば(ステップS306−YES)ステップS307に進み、所定のシーンでなければ(ステップS306−NO)ステップS308に進む。
【0107】
ステップS307で、重要度算出手段404は、所定のシーンの内容に応じて重要度を調整する。例えば、所定のシーンが発話シーン及び解説シーンの場合、重要度算出手段404は、重要度を高める。また、所定のシーンが背景シーンの場合、重要度算出手段404は、重要度を低くする。
【0108】
ステップS308で、短縮手段208は、重要度算出手段404により調整された重要度を用いて、映像の時間長を短縮する。短縮手段208の短縮方法は、実施例1と同様である。
【0109】
以上、実施例3によれば、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを抽出し、映像を短縮させることができる。また、実施例3によれば、画像、音声解析により所定のシーンを分類し、分類された所定のシーンに含まれるフレームの重要度を調整することができる。これにより、より適切に重要なシーンを残しつつ、映像を短縮できる。
【0110】
なお、上記各実施例によれば、映像、音声両方を考慮した重要シーン抽出に基づく映像時間長を短縮することができる。各実施例では、映像上の動きが激しいシーン程、一般に重要であることが多い。そこで、隣接フレームの画素値を参照し、変化分が大きいフレームに高い重要度を付与する。
【0111】
また、人物が写っているシーンは重要なことが多いことから、顔領域が検出されたフレームの重要度を高める。また、音声信号を参照し、音声レベルが高いフレームや人物の発言に近い周波数にある部分を重要シーンとして抽出する。これら画像、及び音声の特徴を総合的に考慮し、フレーム(もしくは画素)毎に重要度を算出する。この重要度が低いものから削除することで、内容に関係する部分は可能な限り残したまま、効果的に映像時間長を短縮することができる。よって、視聴者には、時間長を短縮していることが気付かれにくい、短縮映像を提供することができる。
【0112】
なお、上記の映像処理装置で実行されるプログラムは、実施例で説明した各部を含むモジュール構成となっている。実際のハードウェアとしては、制御部102が補助記憶部106からプログラムを読み出して実行することにより上記各部のうち1又は複数の各部が主記憶部104上にロードされ、1又は複数の各部が主記憶部104上に生成されるようになっている。
【0113】
また、上述した実施例で説明した映像短縮処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した映像短縮処理を実現することができる。
【0114】
また、このプログラムを記録媒体116に記録し、このプログラムが記録された記録媒体116をコンピュータなどに読み取らせて、前述した映像短縮処理を実現させることも可能である。
【0115】
なお、記録媒体116は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
【0116】
以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記実施例以外にも種々の変形及び変更が可能である。