(58)【調査した分野】(Int.Cl.,DB名)
前記近似判定部は、前後に連続する前記静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、前記比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定することを特徴とする請求項1に記載の動画処理装置。
前記近似判定部は、前後に連続する前記静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定することを特徴とする請求項1又は請求項2に記載の動画処理装置。
前記文字認識部は、前記二値画像フレームの被写体像の各特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする請求項1又は請求項2の何れか1項に記載の動画処理装置。
前記文字認識部は、前記二値画像フレームに対して四分木空間分割を行うことで前記被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出することを特徴とする請求項5に記載の動画処理装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記したメタデータ配信装置のような動画処理装置や動画処理システムでは、放送局が予め動画情報のメタデータを用意しなければ動画情報を提供することができない。そのため、このようなメタデータが用意されていない動画データについては動画情報を提供することができない。
【0006】
また、動画データには、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データがあるが、これらの動画データで表示される文字は動画情報として提供されない場合がある。なお、動画データから文字が表示されている静止画フレームを切り出して、この静止画フレームに対して文字認識を行うことで文字情報を取り出すことが考えられるが、動画データから切り出した静止画フレームは画質が粗いため、従来の文字認識処理では文字情報を取り出すことが困難であった。
【0007】
更に、視聴者は、興味のある動画データを探すためにインターネットの検索エンジンによるキーワード検索をするが、上記のように動画情報として提供されていない文字については検索結果として得られないため、所望の動画データを検索できないことがある。また、視聴者がキーワード検索で動画データを探すことができた場合でも、動画の中でそのキーワードに関連するシーンを探すことが困難である場合が多い。
【0008】
そこで、本発明は上記事情を考慮し、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の第1の動画処理装置は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部と、前記複数の静止画フレームに対して、前後に連続する前記静止画フレームの近似判定を順次行い、前記近似判定において近似と判定された場合には、先行の前記静止画フレームを処理対象フレームとすると共に、後続の前記静止画フレームを処理対象フレームから除外する近似判定部と、前記処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部と、前記エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部と、前記二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部と、前記文字情報と共に、少なくとも、当該文字情報が取得された前記動画データに関する動画情報と当該文字情報が取得された前記静止画フレームの静止画情報とを記録したメタデータを前記文字情報毎に生成するメタデータ生成部と、を備えることを特徴とする。
【0010】
本発明の第1の動画処理装置によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン(静止画データ)で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。
【0011】
上記課題を解決するために、本発明の第2の動画処理装置は、上述した本発明の第1の動画処理装置において、前記二値化部は、前記エッジ強調フレームの色温度範囲を算出すると共に、前記色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、前記エッジ強調フレームに対して前記複数の閾値をそれぞれ用いた二値化処理を施して複数の前記二値画像フレームを生成し、前記文字認識部は、前記複数の二値画像フレームのそれぞれに対して文字認識処理を行って前記複数の二値画像フレーム毎に前記文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた前記二値画像フレームのみから前記文字情報を取得し、前記メタデータ生成部は、前記複数の二値画像フレームの内、最適な文字認識結果が得られた前記二値画像フレームのみから取得された前記文字情報に基づいて前記メタデータを生成することを特徴とする。
【0012】
本発明の第2の動画処理装置によれば、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。
【0013】
上記課題を解決するために、本発明の第3の動画処理装置は、上述した本発明の第1又は第2の動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、前記比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定することを特徴とする。
【0014】
本発明の第3の動画処理装置によれば、近似判定部は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。
【0015】
上記課題を解決するために、本発明の第4の動画処理装置は、上述した本発明の第1ないし第3の何れかの動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定することを特徴とする。
【0016】
本発明の第4の動画処理装置によれば、近似判定部は、前後に連続する静止画フレームについてより正確に近似を判定することができる。
【0017】
上記課題を解決するために、本発明の第5の動画処理装置は、上述した本発明の第4の動画処理装置において、前記近似判定部は、前記静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、前記文字認識部は、前記近似判定部で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。
【0018】
本発明の第5の動画処理装置によれば、近似判定部における近似判定の正確性を維持すると共に、文字認識部における処理負担を軽減することができる。
【0019】
上記課題を解決するために、本発明の第6の動画処理装置は、上述した本発明の第1ないし第3の何れかの動画処理装置において、前記文字認識部は、前記二値画像フレームの被写体像の各特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。所定のトレーニングデータとは、各種フォント毎の特異点、および方向ベクトルに加え、それぞれフォントの劣化状態での特異点、および方向ベクトルを含んでいる。
【0020】
本発明の第6の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。
【0021】
上記課題を解決するために、本発明の第7の動画処理装置は、上述した本発明の第6の動画処理装置において、前記文字認識部は、前記二値画像フレームに対して四分木空間分割を行うことで前記被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出することを特徴とする。
【0022】
本発明の第7の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。
【0023】
上記課題を解決するために、本発明の動画処理システムは、上述した本発明の第1ないし第7の何れかの動画処理装置と、前記動画処理装置の前記メタデータ生成部によって生成された前記文字情報毎の前記メタデータを格納する文字情報データベースと、を備えることを特徴とする。
【0024】
本発明の動画処理システムによれば、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報データベースからそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。
【発明の効果】
【0025】
本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。
【発明を実施するための形態】
【0027】
先ず、
図1を参照しながら、本発明の実施形態に係る動画処理システム1の全体の構成について説明する。
図1に示されるように、動画処理システム1では、動画データに基づいて文字情報を検出する動画処理装置2が、インターネットやLAN等の所定のネットワーク3を介して、動画データを格納する動画データベース(DB)4及び文字情報のメタデータ(タグ)を格納する文字情報データベース(DB)5と通信可能に接続されている。動画DB4及び文字情報DB5は、ネットワーク3を介して検索エンジン6と通信可能に接続されていて、それぞれ格納した動画データ及び文字情報のメタデータの検索エンジン6による検索が可能になっている。また、動画処理システム1では、動画データを再生可能な視聴者端末7も、ネットワーク3を介して、動画DB4、文字情報DB5及び検索エンジン6と通信可能に接続されている。
【0028】
先ず、動画処理装置2について説明する。動画処理装置2は、例えば、ネットワーク3上で動画DB4や文字情報DB5から独立して設けられていてもよく、又は、動画DB4や文字情報DB5を管理するコンピュータとして設けられていてもよい。本実施形態では、ネットワーク3上に1つの動画処理装置2が備えられる例を説明するが、複数の動画処理装置2がネットワーク3上に備えられてよい。また、動画処理装置2は、動画のカテゴリー(業種)別に備えられていてもよい。
【0029】
動画処理装置2は、動画データに対して文字認識処理を実行するもので、文字認識処理を行うことができる動画データは、セミナーや解説等のように文字が記載される掲示物が頻出する動画や、字幕を伴う映画等の動画に限定されず、文字が表示される動画であればよく、例えば、株価データや会社名が頻出する金融に係る動画や、商品名や会社名が表示される広告に係る動画等、多岐に亘る。
【0030】
動画処理装置2は、例えば、制御部10と、記憶部11と、通信部12と、フレーム切り出し部13と、近似判定部14と、シャープ化部15と、二値化部16と、文字認識部17と、メタデータ生成部18と、を備える。なお、フレーム切り出し部13、近似判定部14、シャープ化部15、二値化部16、文字認識部17及びメタデータ生成部18は、記憶部11に記憶され、制御部10によって制御されることで動作するプログラムで構成されていてもよい。
【0031】
制御部10は、CPU(Central Processing Unit)等を有して、動画処理装置2の全体の動作を統括して制御するように構成される。記憶部11は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリや、ハードディスク等の記録媒体を有して、制御部10で制御される情報やデータ、プログラム等を記憶するように構成される。
【0032】
通信部12は、動画処理装置2がインターネットやLAN等のネットワーク3に接続するためのインタフェースであり、即ち、動画処理装置2を動画DB4や文字情報DB5とネットワーク3を介して接続する。
【0033】
通信部12は、例えば、ネットワーク3を介して動画DB4と通信することにより、動画処理装置2で文字情報検出の対象となる動画データを動画DB4から受信する。例えば、通信部12は、動画処理装置2の操作者によって、動画取得動作や文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画DB4が選択されると、動画DB4から動画データを取得する。また、通信部12は、動画処理装置2が備える動画取得クローラ(図示せず)の動作に応じて、動画DB4に記録された動画データを順次取得してもよい。なお、動画取得クローラ(図示せず)は、ネットワーク3内の全ての動画データを取得してもよいが、操作者によって選択されたカテゴリー(業種)やキーワードに基づいて動画データを検索して取得してもよい。
【0034】
なお、通信部12は、動画データの取得先として、動画DB4に限定せず、放送局からネットワーク3を介して又は放送受信機(図示せず)によって放送波を受信して動画データを取得してもよく、あるいは、動画処理装置2に直接接続されるスマートフォンやパーソナルコンピュータ等の外部端末から動画データを取得してもよい。
【0035】
また、通信部12は、例えば、ネットワーク3を介して文字情報DB5と通信することにより、動画処理装置2で生成した文字情報のメタデータを文字情報DB5へと送信する。なお、動画処理装置2は、通信部12によるメタデータの送信先の文字情報DB5を選択できるように構成されてよい。
【0036】
フレーム切り出し部13は、通信部12が動画DB4から受信した動画データから複数の静止画フレームを取得する。本実施形態では特に、フレーム切り出し部13は、動画データに対して所定のフレーム間隔毎に、例えば1秒の時間間隔毎に、静止画フレームを切り出すフレーム切り出しを行ってフレーム間隔毎の複数の静止画フレームを取得する。なお、フレーム切り出し部13は、後述する特異点の抽出量を増やすために、高画質化して画像ピクセル数を増大させた静止画フレームを取得するとよい。
【0037】
近似判定部14は、フレーム切り出し部13で得られた複数の静止画フレームに対して近似判定を行って、近似する静止画フレームを文字認識処理の処理対象フレームから除外する。本実施形態では特に、近似判定部14は、複数の静止画フレームの内、前後に連続する2つの静止画フレームの近似判定を順次行い、この近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する。なお、先の近似判定において後続の静止画フレームを処理対象フレームから除外した場合には、今回の近似判定において後続の静止画フレームと比較されるフレームは、先の近似判定で処理対象フレームとした静止画フレームとなる。
【0038】
例えば、近似判定部14は、近似判定として、前後に連続する静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、前後に連続する静止画フレームを近似と判定する。更に、近似判定部14は、連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定する。あるいは、近似判定部14は、上記のヒストグラムを用いた比較と、上記の四分木空間分割を用いた比較との何れかによって近似を判定してもよい。
【0039】
なお、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データのように、文字の表示される位置が予め決められている場合には、近似判定部14は、例えば、予め用意したテンプレートを用いて文字の表示部分だけのデータを取得し、文字の表示部分にターゲットを絞って近似処理を行ってもよい。この場合、動画処理装置2では、文字の表示部分毎のテンプレートを管理して、テンプレートの新規作成、変更、削除などの機能を有する。
【0040】
シャープ化部15は、近似判定部14で得られた処理対象フレームにシャープ化処理を施すことにより、被写体像のエッジを強調したエッジ強調フレームを生成する。
【0041】
シャープ化部15によるシャープ化処理では、例えば、処理対象フレームのガウス分布(標準偏差)を算出することでアンシャープマスクを生成し、処理対象フレームにアンシャープマスクを加えることでシャープフレームを生成する。更に、このシャープフレームにおいて、画素間で輝度が変位する区間を検出すると共にその区間の輝度の変位量を算出し、また、変位量を加速度に換算し、そして、シャープフレームにおいて加速度が大きいほどエッジをより強調するエッジ抽出処理を行ってエッジ強調フレームを生成する。
【0042】
二値化部16は、シャープ化部15で生成されたエッジ強調フレームに二値化処理を施して二値画像フレームを生成する。二値化部16は、例えば、二値化処理の前にエッジ強調フレームに対してゼロ交差法等を用いてエッジ検出を行い、このエッジ検出によって特異点が検出されたフレームに対して二値化処理を施してもよい。
【0043】
本実施形態では特に、二値化部16は、エッジ強調フレーム(又は元の静止画フレーム)の色温度範囲(画像の各ドットが存在する周波数帯域)を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得する。そして、二値化部16は、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成する。なお、二値化部16は、エッジ強調フレームの色温度範囲の最大値及び最小値に基づく閾値で二値化処理をしても、黒部分又は白部分が多すぎる二値画像フレームが生成されるため、これらの閾値での二値化処理は行わない。また、二値化処理部16は、生成した複数の二値画像フレームの濃度(黒部分及び白部分)の分布を参照して、黒部分又は白部分が多すぎる二値画像フレームを除外してもよい。
【0044】
文字認識部17は、二値化部16で生成された二値画像フレームに対して文字認識処理を行って文字情報を取得する。この文字認識処理において、文字認識部17は、二値画像フレームから文字を1つずつ認識し、例えば、二値画像フレームの被写体像を示す特異点を抽出すると共に、抽出された特異点の集まりを1つの文字の文字候補とする。例えば、文字認識部17は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出する。なお、上記の近似判定部14が、四分木空間分割を行って特異点を算出する場合、文字認識部17は、四分木空間分割を行うことなく、近似判定部14で算出した特異点を用いてもよい。
【0045】
なお、二値画像フレーム(元の静止画フレーム)で文字が斜めに表示されていた場合でも、文字認識部17は、基準線を導入すると共にベクトル空間を設定することによって、文字候補の特異点のベクトル方向を正確に修正することができる。例えば、文字認識部17は、3D空間認識で利用される仕組みと同様にして、隣接する文字候補の配列方向のベクトルから基準線を取得し、この基準線が水平又は垂直となるように文字候補の特異点のベクトル方向を修正する。
【0046】
また、文字認識部17は、文字認識のためのトレーニングデータとして、既定の様々なフォントの様々な文字、およびそれらの劣化状態について特異点の分布と方向ベクトルを予め登録しておく。そして、文字認識部17は、文字候補の特異点をトレーニングデータと比較することでトレーニングデータの何れかの文字に該当するか否かを判定して、二値画像フレーム上の各文字を認識する。
【0047】
更に、文字認識部17は、上記のようにして認識できた文字に対して辞書データ処理を行い、この辞書データ処理では、隣接する2つ以上の文字列を、予め登録してある単語辞書と比較、照合する。そして、文字認識部17は、文字列が単語辞書の何れかの単語に該当するか否かを判定し、その判定結果に基づいて文字情報を取得する。なお、文字認識部17は、文字列が単語辞書の何れかの単語にも該当しない場合でも、例えば誤読パターンに該当する場合には、その誤読パターンに対する正しい文字列に自動的に訂正して文字情報としてよい。上記のように、文字認識部17で認識された文字情報は、二値画像フレームにおける特異点の集まりからなるデータと共に、追加トレーニングデータとして保存するとよい。
【0048】
なお、文字認識部17は、トレーニングデータや単語辞書の単語に優先度を付加しておき、上記の文字認識処理において、優先度の高いトレーニングデータや単語から順に文字候補や文字列との比較に用いるとよい。例えば、文字認識部17は、認識される頻度の高いトレーニングデータや単語に対して優先度を高く設定する。
【0049】
また、文字認識部17は、上記のように文字認識処理を行う文字認識エンジンを動画のカテゴリー(業種)別に備え、更に、動画のカテゴリー別にトレーニングデータや単語辞書を予め登録しておくとよい。文字認識部17は、動画データに記録された動画情報に含まれるカテゴリーを判別し、又は、操作者の入力したカテゴリーを判別する。そして、文字認識部17は、判別されたカテゴリーに対応する文字認識エンジンを使用すると共に、このカテゴリーに対応するトレーニングデータや単語辞書を優先的に使用して文字認識処理を行うとよい。
【0050】
本実施形態では特に、文字認識部17は、二値化部16で生成された複数の二値画像フレームのそれぞれに対して文字認識処理を行う。そして、文字認識部17は、複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較する。このとき、文字認識部17は、文字認識結果として、例えば、認識できた文字数と、認識できた文字の中で意味を持つ文字として辞書から導き出された文字数とを判定し、これらの文字数が多いものを最適な文字認識結果として判定する。なお、単に認識できた文字よりも、意味を持つ文字の優先度を高く設定してよい。そして、文字認識部17は、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得する。
【0051】
メタデータ生成部18は、文字認識部17で得られた文字情報毎にメタデータを生成する。メタデータ生成部18は、例えば、文字情報と共に、当該文字情報が取得された動画データに関する動画情報と、当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを生成する。
【0052】
メタデータの動画情報としては、動画データの動画ID、フレーム数、フレームサイズ及びフォーマット形式等が記録されてよく、その他に、動画データのタイトル、作者情報、作成日時、動画のカテゴリー、サムネイル(URL)等が記録されてもよい。メタデータの静止画情報としては、例えば、文字情報が取得された静止画フレームの動画データにおけるリレーションIDや時間情報(タイムスタンプ)、及びこの静止画フレームのフレーム番号(ユニークID)等が記録されてよい。また、メタデータ生成部18は、文字認識処理の処理日時や処理状況データをメタデータに記録するとよい。本実施形態では特に、メタデータ生成部18は、二値化部16で生成された複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいてメタデータを生成する。
【0053】
動画DB4は、動画データを格納すると共に、視聴者端末7からのアクセスに応じて動画をダウンロード方式やストリーミング方式で配信するデータベースである。また、動画DB4は、動画処理装置2からの取得動作に応じて、動画データそのものを動画処理装置2へと提供することができる。動画DB4に格納された動画データは、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されていてよく、動画情報を検索キーワードとすることで検索エンジン6によって検索可能となる。また、動画DB4は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末7からの要求に応じて動画データを配信するように構成されてもよい。
【0054】
本実施形態では、ネットワーク3上に1つの動画DB4が備えられる例を説明するが、複数の動画DB4がネットワーク3上に備えられてよい。また、動画DB4は、動画のカテゴリー(業種)別に備えられていてもよい。動画DB4は、1つの動画処理装置2で利用されるものに限定されず、複数の動画処理装置2で利用可能に設けられてよい。
【0055】
文字情報DB5は、動画処理装置2で生成された文字情報のメタデータを格納すると共に、視聴者端末7からのアクセスに応じて文字情報のメタデータを提供するデータベースである。文字情報DB5に格納されたメタデータは、その文字情報を検索キーワードとすることで検索エンジン6によって検索可能となる。また、文字情報DB5は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末7からの要求に応じて文字情報のメタデータを提供するように構成されてもよい。
【0056】
更に、文字情報DB5は、格納頻度や検索頻度が高い文字情報のメタデータが優先的に検索されるようにメタデータを格納するとよい。また、文字情報DB5は、視聴者端末7が検索エンジン6を介して所定の文字情報を検索するときに、当該文字情報について、メタデータを1つずつ検索エンジン6へと提供してもよいが、複数のメタデータからなるリストを検索エンジン6へと提供してもよい。
【0057】
本実施形態では、ネットワーク3上に1つの文字情報DB5が備えられる例を説明するが、複数の文字情報DB5がネットワーク3上に備えられてよい。また、文字情報DB5は、動画のカテゴリー(業種)別に備えられていてもよい。文字情報DB5は、1つの動画処理装置2で利用されるものに限定されず、複数の動画処理装置2で利用可能に設けられてよい。
【0058】
視聴者端末7は、ネットワーク3に接続可能であって動画データを再生可能な端末であればよく、例えば、スマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。
【0059】
次に、このような構成を備えた動画処理システム1において、動画処理装置2による動画データに基づく文字情報検出動作について、
図2を参照して説明する。
【0060】
先ず、動画処理システム1では、動画データの動画提供者が動画データを動画DB4にアップロードしておく。
【0061】
一方、動画処理装置2では、例えば、操作者によって文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画DB4が選択されると、通信部12が動画DB4から動画データを取得する(ステップS1)。
【0062】
続いて、フレーム切り出し部13が、通信部12で取得された動画データから所定のフレーム間隔毎の複数の静止画フレームを取得する(ステップS2)。
【0063】
そして、動画処理装置2は、複数の静止画フレームに対して、順次、文字情報検出を実行する(ステップS3)。
【0064】
各静止画フレームの文字情報検出では、先ず、前回の文字情報検出がされた処理対象フレームの有無を判定する(ステップS4)。ここで、前回の処理対象フレームがある場合には(ステップS4:Yes)、近似処理(ステップS5)に移行する。一方、前回の処理対象フレームがない場合には(ステップS4:No)、今回の静止画フレームを処理対象フレームとしてシャープ化処理(ステップS6)に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出(ステップS3)の際に前回の処理対象フレームとなる。
【0065】
近似処理(ステップS5)では、近似判定部14が、今回の静止画フレームが前回の処理対象フレームに近似するか否かを判定する。ここで、今回の静止画フレームが前回の処理対象フレームに近似する場合には(ステップS5:Yes)、今回の静止画フレームを処理対象フレームから除外して、シャープ化処理(ステップS6)に移行することなく、次の静止画フレームの文字情報検出(ステップS3)に移行する。
【0066】
一方、今回の静止画フレームが前回の処理対象フレームに近似しない場合には(ステップS5:No)、今回の静止画フレームを処理対象フレームとしてシャープ化処理(ステップS6)に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出(ステップS3)の際に前回の処理対象フレームとなる。
【0067】
シャープ化処理(ステップS6)では、シャープ化部15が、処理対象フレームにシャープ化処理を施すことによりエッジ強調フレームを生成する。
【0068】
また、二値化処理(ステップS7)に移行し、二値化部16が、エッジ強調フレームの色温度範囲に基づいて複数の閾値を取得すると共に、複数の閾値をそれぞれ用いてエッジ強調フレームを二値化処理して複数の二値画像フレームを生成する。
【0069】
更に、文字認識処理(ステップS8)に移行し、文字認識部17が、複数の二値画像フレームのそれぞれに文字認識処理を行う。そして、文字認識部17は、複数の二値画像フレームの各文字認識結果を比較し、最適な文字認識結果が得られた二値画像フレームから文字情報を取得する(ステップS9)。
【0070】
続いて、メタデータ作成(ステップS10)に移行し、メタデータ生成部18が、文字情報のメタデータを作成する。
【0071】
このようにして動画処理装置2で作成されたメタデータは、通信部12によってネットワーク3を介して文字情報DB5にアップロードされる(ステップS11)。文字情報DB5は、アップロードされたメタデータを、ユーザーが利用しやすいようにソートしておく。
【0072】
本実施形態では、上述のように、動画処理装置2は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部13と、複数の静止画フレームに対して、前後に連続する静止画フレームの近似判定を順次行い、近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する近似判定部14と、処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部15と、エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部16と、二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部17と、文字情報と共に、少なくとも、当該文字情報が取得された動画データに関する動画情報と当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを文字情報毎に生成するメタデータ生成部18と、を備えて構成されている。
【0073】
このような構成により、本実施形態によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン(静止画データ)で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。
【0074】
また、本実施形態によれば、動画処理装置2において、二値化部16は、エッジ強調フレームの色温度範囲を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成し、文字認識部17は、複数の二値画像フレームのそれぞれに対して文字認識処理を行って複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得し、メタデータ生成部18は、複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいて前記メタデータを生成するように構成される。
【0075】
このような構成により、動画処理装置2は、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。
【0076】
更に、本実施形態によれば、動画処理装置2において、近似判定部14は、前後に連続する静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定するように構成される。
【0077】
このような構成により、近似判定部14は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。
【0078】
また、本実施形態によれば、動画処理装置2において、近似判定部14は、前後に連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定するように構成される。
【0079】
このような構成により、近似判定部14は、前後に連続する静止画フレームについてより正確に近似を判定することができる。
【0080】
更に、本実施形態によれば、動画処理装置2において、近似判定部14は、静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、文字認識部17は、近似判定部14で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成される。
【0081】
このような構成により、近似判定部14における近似判定の正確性を維持すると共に、文字認識部17における処理負担を軽減することができる。
【0082】
また、本実施形態によれば、動画処理装置2において、文字認識部17は、二値画像フレームの被写体像の特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成されている。
【0083】
このような構成により、文字認識部17は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。
【0084】
また、本実施形態によれば、動画処理装置2において、文字認識部17は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出するように構成されている。
【0085】
このような構成により、文字認識部17は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。
【0086】
また、本実施形態によれば、動画処理システム1は、上記したような動画処理装置2と、動画処理装置2のメタデータ生成部18によって生成された文字情報毎のメタデータを格納する文字情報DB(データベース)5と、を備えて構成されている。
【0087】
このような構成により、動画処理システム1において、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報DB5からそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。
【0088】
本実施形態では、文字認識部17は、文字認識のためのトレーニングデータとして、各フォントの各文字について特異点の分布と方向ベクトルを予め登録しておく構成を説明したが、この構成に限定されない。例えば、他の実施形態では、トレーニングデータを登録するトレーニングデータ用データベースを別途設けて、動画処理装置2が文字認識処理時にこのトレーニングデータ用データベースにアクセスしてトレーニングデータを取得するように構成されてもよい。
【0089】
また、文字認識部17やトレーニングデータ用データベースは、各フォントの各文字についてのトレーニングデータに加えて、デコレーションされた文字についてのトレーニングデータを登録するように構成されてもよい。デコレーションされた文字は、例えば、プレゼンテーション等で利用される文字であって、既定のフォントに比べて文字の輪郭が違う色で表示された文字や、斜体や太文字で形成された文字、白抜きされた文字、シャドーのある文字等がある。
【0090】
また、他の実施形態として、動画処理装置2は、静止画フレームにおける特定の人物(特に、著名人)の顔画像を認識すると共に、その人物情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置2は、特定の人物の顔画像の特徴点の分布及び方向ベクトル(この場合では、3D方向ベクトル)を、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の人物の人物情報も登録しておく。そして、動画処理装置2は、静止画フレーム(二値画像フレーム)における特徴点の分布及びベクトル方向から顔認識処理を行い、抽出された顔画像が、トレーニングデータに該当するか否かを判定する。抽出された顔画像がトレーニングデータに該当する場合には、そのトレーニングデータに付随する人物情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、人物情報データベース(図示せず)に登録する。
【0091】
同様にして、動画処理装置2は、静止画フレームにおけるランドマーク(特に、著名な建造物)の画像を認識すると共に、そのランドマーク情報をメタデータとして生成するように構成することもできる。
【0092】
更に、他の実施形態として、動画処理装置2は、静止画フレームにおける特定の風景(特に、色彩から想定できる海等の風景)の画像を認識すると共に、その風景情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置2は、特定の風景の色の分布を示すヒストグラムを、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の風景の風景情報も登録しておく。そして、動画処理装置2は、静止画フレーム(処理対象フレーム)における色の分布のヒストグラムを算出し、そのヒストグラムが、トレーニングデータに該当するか否かを判定する。算出されたヒストグラムがトレーニングデータに該当する場合には、そのトレーニングデータに付随する風景情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、風景情報データベース(図示せず)に登録する。
【0093】
本実施形態では、動画処理装置2が文字認識処理の機能を有する構成を説明したが、この構成に限定されない。例えば、他の実施形態では、動画処理システム1において、動画処理装置2又は他のサーバが、動画処理装置2と同様の文字認識処理の機能を有するプログラムやアプリケーションを提供するように構成されてもよい。