特許6091552 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｊストリームの特許一覧 ▶ 株式会社ケイ・ピー・アイの特許一覧

特許6091552動画処理装置及び動画処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6091552

(24)【登録日】2017年2月17日

(45)【発行日】2017年3月8日

(54)【発明の名称】動画処理装置及び動画処理システム

(51)【国際特許分類】

H04N 21/84 20110101AFI20170227BHJP

G06T 7/20 20170101ALI20170227BHJP

H04N 5/91 20060101ALI20170227BHJP

G06T 7/40 20170101ALI20170227BHJP

G06K 9/20 20060101ALI20170227BHJP

G06K 9/00 20060101ALI20170227BHJP

G06F 17/30 20060101ALI20170227BHJP

【ＦＩ】

H04N21/84

G06T7/20 C

H04N5/91 Z

G06T7/40 100A

G06K9/20 360C

G06K9/00 S

G06F17/30 220B

G06F17/30 170D

【請求項の数】7

【全頁数】16

(21)【出願番号】特願2015-126896(P2015-126896)

(22)【出願日】2015年6月24日

(65)【公開番号】特開2017-11581(P2017-11581A)

(43)【公開日】2017年1月12日

【審査請求日】2015年6月24日

(73)【特許権者】

【識別番号】500016198

【氏名又は名称】株式会社Ｊストリーム

(74)【代理人】

【識別番号】100111202

【弁理士】

【氏名又は名称】北村周彦

(74)【代理人】

【識別番号】100187562

【弁理士】

【氏名又は名称】沼田義成

(73)【特許権者】

【識別番号】302012464

【氏名又は名称】株式会社ケイ・ピー・アイ

(74)【代理人】

【識別番号】100111202

【弁理士】

【氏名又は名称】北村周彦

(72)【発明者】

【氏名】石松俊雄

(72)【発明者】

【氏名】田中恒利

(72)【発明者】

【氏名】湯浅茂充

(72)【発明者】

【氏名】小金明雄

【審査官】堀洋介

(56)【参考文献】

【文献】特開２００９−１９４６６５（ＪＰ，Ａ）

【文献】特開２００４−２１３０９５（ＪＰ，Ａ）

【文献】特開平０９−０９３５８８（ＪＰ，Ａ）

【文献】特開２０１３−７３４３９（ＪＰ，Ａ）

【文献】特開２０１４−１１５７８１（ＪＰ，Ａ）

【文献】特開２００３−３２４７５６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ２１／８４

Ｇ０６Ｆ１７／３０

Ｇ０６Ｋ９／００

Ｇ０６Ｋ９／２０

Ｇ０６Ｔ７／２０

Ｇ０６Ｔ７／４０

Ｈ０４Ｎ５／９１

Ｇ０６Ｋ９／６２

Ｇ０６Ｋ９／６８

Ｈ０４Ｎ９／７３

(57)【特許請求の範囲】

【請求項1】

動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部と、
前記複数の静止画フレームに対して、前後に連続する前記静止画フレームの近似判定を順次行い、前記近似判定において近似と判定された場合には、先行の前記静止画フレームを処理対象フレームとすると共に、後続の前記静止画フレームを処理対象フレームから除外する近似判定部と、
前記処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部と、
前記エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部と、
前記二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部と、
前記文字情報と共に、少なくとも、当該文字情報が取得された前記動画データに関する動画情報と当該文字情報が取得された前記静止画フレームの静止画情報とを記録したメタデータを前記文字情報毎に生成するメタデータ生成部と、
を備え、
前記二値化部は、前記エッジ強調フレームの色温度範囲を算出すると共に、前記色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、前記エッジ強調フレームに対して前記複数の閾値をそれぞれ用いた二値化処理を施して複数の前記二値画像フレームを生成し、
前記文字認識部は、前記複数の二値画像フレームのそれぞれに対して文字認識処理を行って前記複数の二値画像フレーム毎に前記文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた前記二値画像フレームのみから前記文字情報を取得し、
前記メタデータ生成部は、前記複数の二値画像フレームの内、最適な文字認識結果が得られた前記二値画像フレームのみから取得された前記文字情報に基づいて前記メタデータを生成することを特徴とする動画処理装置。

【請求項2】

前記近似判定部は、前後に連続する前記静止画フレームについてＲＧＢ値及び輝度のヒストグラムの変化値を比較し、前記比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定することを特徴とする請求項１に記載の動画処理装置。

【請求項3】

前記近似判定部は、前後に連続する前記静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定することを特徴とする請求項１又は請求項２に記載の動画処理装置。

【請求項4】

前記近似判定部は、前記静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、
前記文字認識部は、前記近似判定部で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする請求項３に記載の動画処理装置。

【請求項5】

前記文字認識部は、前記二値画像フレームの被写体像の各特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする請求項１又は請求項２の何れか１項に記載の動画処理装置。

【請求項6】

前記文字認識部は、前記二値画像フレームに対して四分木空間分割を行うことで前記被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出することを特徴とする請求項５に記載の動画処理装置。

【請求項7】

請求項１〜請求項６の何れか１項に記載の動画処理装置と、
前記動画処理装置の前記メタデータ生成部によって生成された前記文字情報毎の前記メタデータを格納する文字情報データベースと、
を備える動画処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画データの映像に表示される文字等の情報を処理する動画処理装置、及びこの動画処理装置を備えた動画処理システムに関する。

【背景技術】

【0002】

従来から、インターネット等のネットワークでは、動画サーバや動画データベース等の所定のコンピュータが動画データを格納すると共に、視聴者端末に対して動画データを公開する動画配信が行われている。このような動画配信を促進するために、様々な動画処理装置や動画処理システムが提案されている。例えば、動画処理装置や動画処理システムでは、動画データに加えて、動画データの番組情報や出演者情報、字幕情報、ＣＭ情報等に関する動画情報を配信し、視聴者端末に動画情報を利用可能にしたものがある。

【0003】

例えば、特許文献１に記載のメタデータ配信装置では、抽出変換テーブルと局固有データを利用してキー局のコンテンツのメタデータから自局でネット放送するネット番組のコンテンツのメタデータを抽出変換し、抽出変換されたメタデータを配信するので、キー局のコンテンツのメタデータを自局のコンテンツのメタデータとして、受信機に配信し、これにより、キー局以外のネット局で、ネット放送するネット番組において、キー局のコンテンツのメタデータを利用し、サーバ型放送を行う。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００６−３２５１３４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記したメタデータ配信装置のような動画処理装置や動画処理システムでは、放送局が予め動画情報のメタデータを用意しなければ動画情報を提供することができない。そのため、このようなメタデータが用意されていない動画データについては動画情報を提供することができない。

【0006】

また、動画データには、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データがあるが、これらの動画データで表示される文字は動画情報として提供されない場合がある。なお、動画データから文字が表示されている静止画フレームを切り出して、この静止画フレームに対して文字認識を行うことで文字情報を取り出すことが考えられるが、動画データから切り出した静止画フレームは画質が粗いため、従来の文字認識処理では文字情報を取り出すことが困難であった。

【0007】

更に、視聴者は、興味のある動画データを探すためにインターネットの検索エンジンによるキーワード検索をするが、上記のように動画情報として提供されていない文字については検索結果として得られないため、所望の動画データを検索できないことがある。また、視聴者がキーワード検索で動画データを探すことができた場合でも、動画の中でそのキーワードに関連するシーンを探すことが困難である場合が多い。

【0008】

そこで、本発明は上記事情を考慮し、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることを目的とする。

【課題を解決するための手段】

【0009】

上記課題を解決するために、本発明の第１の動画処理装置は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部と、前記複数の静止画フレームに対して、前後に連続する前記静止画フレームの近似判定を順次行い、前記近似判定において近似と判定された場合には、先行の前記静止画フレームを処理対象フレームとすると共に、後続の前記静止画フレームを処理対象フレームから除外する近似判定部と、前記処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部と、前記エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部と、前記二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部と、前記文字情報と共に、少なくとも、当該文字情報が取得された前記動画データに関する動画情報と当該文字情報が取得された前記静止画フレームの静止画情報とを記録したメタデータを前記文字情報毎に生成するメタデータ生成部と、を備えることを特徴とする。

【0010】

本発明の第１の動画処理装置によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン（静止画データ）で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。

【0011】

上記課題を解決するために、本発明の第２の動画処理装置は、上述した本発明の第１の動画処理装置において、前記二値化部は、前記エッジ強調フレームの色温度範囲を算出すると共に、前記色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、前記エッジ強調フレームに対して前記複数の閾値をそれぞれ用いた二値化処理を施して複数の前記二値画像フレームを生成し、前記文字認識部は、前記複数の二値画像フレームのそれぞれに対して文字認識処理を行って前記複数の二値画像フレーム毎に前記文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた前記二値画像フレームのみから前記文字情報を取得し、前記メタデータ生成部は、前記複数の二値画像フレームの内、最適な文字認識結果が得られた前記二値画像フレームのみから取得された前記文字情報に基づいて前記メタデータを生成することを特徴とする。

【0012】

本発明の第２の動画処理装置によれば、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。

【0013】

上記課題を解決するために、本発明の第３の動画処理装置は、上述した本発明の第１又は第２の動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームについてＲＧＢ値及び輝度のヒストグラムの変化値を比較し、前記比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定することを特徴とする。

【0014】

本発明の第３の動画処理装置によれば、近似判定部は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。

【0015】

上記課題を解決するために、本発明の第４の動画処理装置は、上述した本発明の第１ないし第３の何れかの動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定することを特徴とする。

【0016】

本発明の第４の動画処理装置によれば、近似判定部は、前後に連続する静止画フレームについてより正確に近似を判定することができる。

【0017】

上記課題を解決するために、本発明の第５の動画処理装置は、上述した本発明の第４の動画処理装置において、前記近似判定部は、前記静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、前記文字認識部は、前記近似判定部で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。

【0018】

本発明の第５の動画処理装置によれば、近似判定部における近似判定の正確性を維持すると共に、文字認識部における処理負担を軽減することができる。

【0019】

上記課題を解決するために、本発明の第６の動画処理装置は、上述した本発明の第１ないし第３の何れかの動画処理装置において、前記文字認識部は、前記二値画像フレームの被写体像の各特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。所定のトレーニングデータとは、各種フォント毎の特異点、および方向ベクトルに加え、それぞれフォントの劣化状態での特異点、および方向ベクトルを含んでいる。

【0020】

本発明の第６の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。

【0021】

上記課題を解決するために、本発明の第７の動画処理装置は、上述した本発明の第６の動画処理装置において、前記文字認識部は、前記二値画像フレームに対して四分木空間分割を行うことで前記被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出することを特徴とする。

【0022】

本発明の第７の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。

【0023】

上記課題を解決するために、本発明の動画処理システムは、上述した本発明の第１ないし第７の何れかの動画処理装置と、前記動画処理装置の前記メタデータ生成部によって生成された前記文字情報毎の前記メタデータを格納する文字情報データベースと、を備えることを特徴とする。

【0024】

本発明の動画処理システムによれば、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報データベースからそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。

【発明の効果】

【0025】

本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。

【図面の簡単な説明】

【0026】

【図1】本発明の一実施形態に係る動画処理システムの概略を示すブロック図である。

【図2】本発明の一実施形態に係る動画処理装置における動画データに基づく文字情報検出動作を示すフローチャートである。

【発明を実施するための形態】

【0027】

先ず、図１を参照しながら、本発明の実施形態に係る動画処理システム１の全体の構成について説明する。図１に示されるように、動画処理システム１では、動画データに基づいて文字情報を検出する動画処理装置２が、インターネットやＬＡＮ等の所定のネットワーク３を介して、動画データを格納する動画データベース（ＤＢ）４及び文字情報のメタデータ（タグ）を格納する文字情報データベース（ＤＢ）５と通信可能に接続されている。動画ＤＢ４及び文字情報ＤＢ５は、ネットワーク３を介して検索エンジン６と通信可能に接続されていて、それぞれ格納した動画データ及び文字情報のメタデータの検索エンジン６による検索が可能になっている。また、動画処理システム１では、動画データを再生可能な視聴者端末７も、ネットワーク３を介して、動画ＤＢ４、文字情報ＤＢ５及び検索エンジン６と通信可能に接続されている。

【0028】

先ず、動画処理装置２について説明する。動画処理装置２は、例えば、ネットワーク３上で動画ＤＢ４や文字情報ＤＢ５から独立して設けられていてもよく、又は、動画ＤＢ４や文字情報ＤＢ５を管理するコンピュータとして設けられていてもよい。本実施形態では、ネットワーク３上に１つの動画処理装置２が備えられる例を説明するが、複数の動画処理装置２がネットワーク３上に備えられてよい。また、動画処理装置２は、動画のカテゴリー（業種）別に備えられていてもよい。

【0029】

動画処理装置２は、動画データに対して文字認識処理を実行するもので、文字認識処理を行うことができる動画データは、セミナーや解説等のように文字が記載される掲示物が頻出する動画や、字幕を伴う映画等の動画に限定されず、文字が表示される動画であればよく、例えば、株価データや会社名が頻出する金融に係る動画や、商品名や会社名が表示される広告に係る動画等、多岐に亘る。

【0030】

動画処理装置２は、例えば、制御部１０と、記憶部１１と、通信部１２と、フレーム切り出し部１３と、近似判定部１４と、シャープ化部１５と、二値化部１６と、文字認識部１７と、メタデータ生成部１８と、を備える。なお、フレーム切り出し部１３、近似判定部１４、シャープ化部１５、二値化部１６、文字認識部１７及びメタデータ生成部１８は、記憶部１１に記憶され、制御部１０によって制御されることで動作するプログラムで構成されていてもよい。

【0031】

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を有して、動画処理装置２の全体の動作を統括して制御するように構成される。記憶部１１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリや、ハードディスク等の記録媒体を有して、制御部１０で制御される情報やデータ、プログラム等を記憶するように構成される。

【0032】

通信部１２は、動画処理装置２がインターネットやＬＡＮ等のネットワーク３に接続するためのインタフェースであり、即ち、動画処理装置２を動画ＤＢ４や文字情報ＤＢ５とネットワーク３を介して接続する。

【0033】

通信部１２は、例えば、ネットワーク３を介して動画ＤＢ４と通信することにより、動画処理装置２で文字情報検出の対象となる動画データを動画ＤＢ４から受信する。例えば、通信部１２は、動画処理装置２の操作者によって、動画取得動作や文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画ＤＢ４が選択されると、動画ＤＢ４から動画データを取得する。また、通信部１２は、動画処理装置２が備える動画取得クローラ（図示せず）の動作に応じて、動画ＤＢ４に記録された動画データを順次取得してもよい。なお、動画取得クローラ（図示せず）は、ネットワーク３内の全ての動画データを取得してもよいが、操作者によって選択されたカテゴリー（業種）やキーワードに基づいて動画データを検索して取得してもよい。

【0034】

なお、通信部１２は、動画データの取得先として、動画ＤＢ４に限定せず、放送局からネットワーク３を介して又は放送受信機（図示せず）によって放送波を受信して動画データを取得してもよく、あるいは、動画処理装置２に直接接続されるスマートフォンやパーソナルコンピュータ等の外部端末から動画データを取得してもよい。

【0035】

また、通信部１２は、例えば、ネットワーク３を介して文字情報ＤＢ５と通信することにより、動画処理装置２で生成した文字情報のメタデータを文字情報ＤＢ５へと送信する。なお、動画処理装置２は、通信部１２によるメタデータの送信先の文字情報ＤＢ５を選択できるように構成されてよい。

【0036】

フレーム切り出し部１３は、通信部１２が動画ＤＢ４から受信した動画データから複数の静止画フレームを取得する。本実施形態では特に、フレーム切り出し部１３は、動画データに対して所定のフレーム間隔毎に、例えば１秒の時間間隔毎に、静止画フレームを切り出すフレーム切り出しを行ってフレーム間隔毎の複数の静止画フレームを取得する。なお、フレーム切り出し部１３は、後述する特異点の抽出量を増やすために、高画質化して画像ピクセル数を増大させた静止画フレームを取得するとよい。

【0037】

近似判定部１４は、フレーム切り出し部１３で得られた複数の静止画フレームに対して近似判定を行って、近似する静止画フレームを文字認識処理の処理対象フレームから除外する。本実施形態では特に、近似判定部１４は、複数の静止画フレームの内、前後に連続する２つの静止画フレームの近似判定を順次行い、この近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する。なお、先の近似判定において後続の静止画フレームを処理対象フレームから除外した場合には、今回の近似判定において後続の静止画フレームと比較されるフレームは、先の近似判定で処理対象フレームとした静止画フレームとなる。

【0038】

例えば、近似判定部１４は、近似判定として、前後に連続する静止画フレームについてＲＧＢ値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、前後に連続する静止画フレームを近似と判定する。更に、近似判定部１４は、連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定する。あるいは、近似判定部１４は、上記のヒストグラムを用いた比較と、上記の四分木空間分割を用いた比較との何れかによって近似を判定してもよい。

【0039】

なお、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データのように、文字の表示される位置が予め決められている場合には、近似判定部１４は、例えば、予め用意したテンプレートを用いて文字の表示部分だけのデータを取得し、文字の表示部分にターゲットを絞って近似処理を行ってもよい。この場合、動画処理装置２では、文字の表示部分毎のテンプレートを管理して、テンプレートの新規作成、変更、削除などの機能を有する。

【0040】

シャープ化部１５は、近似判定部１４で得られた処理対象フレームにシャープ化処理を施すことにより、被写体像のエッジを強調したエッジ強調フレームを生成する。

【0041】

シャープ化部１５によるシャープ化処理では、例えば、処理対象フレームのガウス分布（標準偏差）を算出することでアンシャープマスクを生成し、処理対象フレームにアンシャープマスクを加えることでシャープフレームを生成する。更に、このシャープフレームにおいて、画素間で輝度が変位する区間を検出すると共にその区間の輝度の変位量を算出し、また、変位量を加速度に換算し、そして、シャープフレームにおいて加速度が大きいほどエッジをより強調するエッジ抽出処理を行ってエッジ強調フレームを生成する。

【0042】

二値化部１６は、シャープ化部１５で生成されたエッジ強調フレームに二値化処理を施して二値画像フレームを生成する。二値化部１６は、例えば、二値化処理の前にエッジ強調フレームに対してゼロ交差法等を用いてエッジ検出を行い、このエッジ検出によって特異点が検出されたフレームに対して二値化処理を施してもよい。

【0043】

本実施形態では特に、二値化部１６は、エッジ強調フレーム（又は元の静止画フレーム）の色温度範囲（画像の各ドットが存在する周波数帯域）を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得する。そして、二値化部１６は、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成する。なお、二値化部１６は、エッジ強調フレームの色温度範囲の最大値及び最小値に基づく閾値で二値化処理をしても、黒部分又は白部分が多すぎる二値画像フレームが生成されるため、これらの閾値での二値化処理は行わない。また、二値化処理部１６は、生成した複数の二値画像フレームの濃度（黒部分及び白部分）の分布を参照して、黒部分又は白部分が多すぎる二値画像フレームを除外してもよい。

【0044】

文字認識部１７は、二値化部１６で生成された二値画像フレームに対して文字認識処理を行って文字情報を取得する。この文字認識処理において、文字認識部１７は、二値画像フレームから文字を１つずつ認識し、例えば、二値画像フレームの被写体像を示す特異点を抽出すると共に、抽出された特異点の集まりを１つの文字の文字候補とする。例えば、文字認識部１７は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出する。なお、上記の近似判定部１４が、四分木空間分割を行って特異点を算出する場合、文字認識部１７は、四分木空間分割を行うことなく、近似判定部１４で算出した特異点を用いてもよい。

【0045】

なお、二値画像フレーム（元の静止画フレーム）で文字が斜めに表示されていた場合でも、文字認識部１７は、基準線を導入すると共にベクトル空間を設定することによって、文字候補の特異点のベクトル方向を正確に修正することができる。例えば、文字認識部１７は、３Ｄ空間認識で利用される仕組みと同様にして、隣接する文字候補の配列方向のベクトルから基準線を取得し、この基準線が水平又は垂直となるように文字候補の特異点のベクトル方向を修正する。

【0046】

また、文字認識部１７は、文字認識のためのトレーニングデータとして、既定の様々なフォントの様々な文字、およびそれらの劣化状態について特異点の分布と方向ベクトルを予め登録しておく。そして、文字認識部１７は、文字候補の特異点をトレーニングデータと比較することでトレーニングデータの何れかの文字に該当するか否かを判定して、二値画像フレーム上の各文字を認識する。

【0047】

更に、文字認識部１７は、上記のようにして認識できた文字に対して辞書データ処理を行い、この辞書データ処理では、隣接する２つ以上の文字列を、予め登録してある単語辞書と比較、照合する。そして、文字認識部１７は、文字列が単語辞書の何れかの単語に該当するか否かを判定し、その判定結果に基づいて文字情報を取得する。なお、文字認識部１７は、文字列が単語辞書の何れかの単語にも該当しない場合でも、例えば誤読パターンに該当する場合には、その誤読パターンに対する正しい文字列に自動的に訂正して文字情報としてよい。上記のように、文字認識部１７で認識された文字情報は、二値画像フレームにおける特異点の集まりからなるデータと共に、追加トレーニングデータとして保存するとよい。

【0048】

なお、文字認識部１７は、トレーニングデータや単語辞書の単語に優先度を付加しておき、上記の文字認識処理において、優先度の高いトレーニングデータや単語から順に文字候補や文字列との比較に用いるとよい。例えば、文字認識部１７は、認識される頻度の高いトレーニングデータや単語に対して優先度を高く設定する。

【0049】

また、文字認識部１７は、上記のように文字認識処理を行う文字認識エンジンを動画のカテゴリー（業種）別に備え、更に、動画のカテゴリー別にトレーニングデータや単語辞書を予め登録しておくとよい。文字認識部１７は、動画データに記録された動画情報に含まれるカテゴリーを判別し、又は、操作者の入力したカテゴリーを判別する。そして、文字認識部１７は、判別されたカテゴリーに対応する文字認識エンジンを使用すると共に、このカテゴリーに対応するトレーニングデータや単語辞書を優先的に使用して文字認識処理を行うとよい。

【0050】

本実施形態では特に、文字認識部１７は、二値化部１６で生成された複数の二値画像フレームのそれぞれに対して文字認識処理を行う。そして、文字認識部１７は、複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較する。このとき、文字認識部１７は、文字認識結果として、例えば、認識できた文字数と、認識できた文字の中で意味を持つ文字として辞書から導き出された文字数とを判定し、これらの文字数が多いものを最適な文字認識結果として判定する。なお、単に認識できた文字よりも、意味を持つ文字の優先度を高く設定してよい。そして、文字認識部１７は、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得する。

【0051】

メタデータ生成部１８は、文字認識部１７で得られた文字情報毎にメタデータを生成する。メタデータ生成部１８は、例えば、文字情報と共に、当該文字情報が取得された動画データに関する動画情報と、当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを生成する。

【0052】

メタデータの動画情報としては、動画データの動画ＩＤ、フレーム数、フレームサイズ及びフォーマット形式等が記録されてよく、その他に、動画データのタイトル、作者情報、作成日時、動画のカテゴリー、サムネイル（ＵＲＬ）等が記録されてもよい。メタデータの静止画情報としては、例えば、文字情報が取得された静止画フレームの動画データにおけるリレーションＩＤや時間情報（タイムスタンプ）、及びこの静止画フレームのフレーム番号（ユニークＩＤ）等が記録されてよい。また、メタデータ生成部１８は、文字認識処理の処理日時や処理状況データをメタデータに記録するとよい。本実施形態では特に、メタデータ生成部１８は、二値化部１６で生成された複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいてメタデータを生成する。

【0053】

動画ＤＢ４は、動画データを格納すると共に、視聴者端末７からのアクセスに応じて動画をダウンロード方式やストリーミング方式で配信するデータベースである。また、動画ＤＢ４は、動画処理装置２からの取得動作に応じて、動画データそのものを動画処理装置２へと提供することができる。動画ＤＢ４に格納された動画データは、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されていてよく、動画情報を検索キーワードとすることで検索エンジン６によって検索可能となる。また、動画ＤＢ４は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末７からの要求に応じて動画データを配信するように構成されてもよい。

【0054】

本実施形態では、ネットワーク３上に１つの動画ＤＢ４が備えられる例を説明するが、複数の動画ＤＢ４がネットワーク３上に備えられてよい。また、動画ＤＢ４は、動画のカテゴリー（業種）別に備えられていてもよい。動画ＤＢ４は、１つの動画処理装置２で利用されるものに限定されず、複数の動画処理装置２で利用可能に設けられてよい。

【0055】

文字情報ＤＢ５は、動画処理装置２で生成された文字情報のメタデータを格納すると共に、視聴者端末７からのアクセスに応じて文字情報のメタデータを提供するデータベースである。文字情報ＤＢ５に格納されたメタデータは、その文字情報を検索キーワードとすることで検索エンジン６によって検索可能となる。また、文字情報ＤＢ５は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末７からの要求に応じて文字情報のメタデータを提供するように構成されてもよい。

【0056】

更に、文字情報ＤＢ５は、格納頻度や検索頻度が高い文字情報のメタデータが優先的に検索されるようにメタデータを格納するとよい。また、文字情報ＤＢ５は、視聴者端末７が検索エンジン６を介して所定の文字情報を検索するときに、当該文字情報について、メタデータを１つずつ検索エンジン６へと提供してもよいが、複数のメタデータからなるリストを検索エンジン６へと提供してもよい。

【0057】

本実施形態では、ネットワーク３上に１つの文字情報ＤＢ５が備えられる例を説明するが、複数の文字情報ＤＢ５がネットワーク３上に備えられてよい。また、文字情報ＤＢ５は、動画のカテゴリー（業種）別に備えられていてもよい。文字情報ＤＢ５は、１つの動画処理装置２で利用されるものに限定されず、複数の動画処理装置２で利用可能に設けられてよい。

【0058】

視聴者端末７は、ネットワーク３に接続可能であって動画データを再生可能な端末であればよく、例えば、スマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。

【0059】

次に、このような構成を備えた動画処理システム１において、動画処理装置２による動画データに基づく文字情報検出動作について、図２を参照して説明する。

【0060】

先ず、動画処理システム１では、動画データの動画提供者が動画データを動画ＤＢ４にアップロードしておく。

【0061】

一方、動画処理装置２では、例えば、操作者によって文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画ＤＢ４が選択されると、通信部１２が動画ＤＢ４から動画データを取得する（ステップＳ１）。

【0062】

続いて、フレーム切り出し部１３が、通信部１２で取得された動画データから所定のフレーム間隔毎の複数の静止画フレームを取得する（ステップＳ２）。

【0063】

そして、動画処理装置２は、複数の静止画フレームに対して、順次、文字情報検出を実行する（ステップＳ３）。

【0064】

各静止画フレームの文字情報検出では、先ず、前回の文字情報検出がされた処理対象フレームの有無を判定する（ステップＳ４）。ここで、前回の処理対象フレームがある場合には（ステップＳ４：Ｙｅｓ）、近似処理（ステップＳ５）に移行する。一方、前回の処理対象フレームがない場合には（ステップＳ４：Ｎｏ）、今回の静止画フレームを処理対象フレームとしてシャープ化処理（ステップＳ６）に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出（ステップＳ３）の際に前回の処理対象フレームとなる。

【0065】

近似処理（ステップＳ５）では、近似判定部１４が、今回の静止画フレームが前回の処理対象フレームに近似するか否かを判定する。ここで、今回の静止画フレームが前回の処理対象フレームに近似する場合には（ステップＳ５：Ｙｅｓ）、今回の静止画フレームを処理対象フレームから除外して、シャープ化処理（ステップＳ６）に移行することなく、次の静止画フレームの文字情報検出（ステップＳ３）に移行する。

【0066】

一方、今回の静止画フレームが前回の処理対象フレームに近似しない場合には（ステップＳ５：Ｎｏ）、今回の静止画フレームを処理対象フレームとしてシャープ化処理（ステップＳ６）に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出（ステップＳ３）の際に前回の処理対象フレームとなる。

【0067】

シャープ化処理（ステップＳ６）では、シャープ化部１５が、処理対象フレームにシャープ化処理を施すことによりエッジ強調フレームを生成する。

【0068】

また、二値化処理（ステップＳ７）に移行し、二値化部１６が、エッジ強調フレームの色温度範囲に基づいて複数の閾値を取得すると共に、複数の閾値をそれぞれ用いてエッジ強調フレームを二値化処理して複数の二値画像フレームを生成する。

【0069】

更に、文字認識処理（ステップＳ８）に移行し、文字認識部１７が、複数の二値画像フレームのそれぞれに文字認識処理を行う。そして、文字認識部１７は、複数の二値画像フレームの各文字認識結果を比較し、最適な文字認識結果が得られた二値画像フレームから文字情報を取得する（ステップＳ９）。

【0070】

続いて、メタデータ作成（ステップＳ１０）に移行し、メタデータ生成部１８が、文字情報のメタデータを作成する。

【0071】

このようにして動画処理装置２で作成されたメタデータは、通信部１２によってネットワーク３を介して文字情報ＤＢ５にアップロードされる（ステップＳ１１）。文字情報ＤＢ５は、アップロードされたメタデータを、ユーザーが利用しやすいようにソートしておく。

【0072】

本実施形態では、上述のように、動画処理装置２は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部１３と、複数の静止画フレームに対して、前後に連続する静止画フレームの近似判定を順次行い、近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する近似判定部１４と、処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部１５と、エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部１６と、二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部１７と、文字情報と共に、少なくとも、当該文字情報が取得された動画データに関する動画情報と当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを文字情報毎に生成するメタデータ生成部１８と、を備えて構成されている。

【0073】

このような構成により、本実施形態によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン（静止画データ）で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。

【0074】

また、本実施形態によれば、動画処理装置２において、二値化部１６は、エッジ強調フレームの色温度範囲を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成し、文字認識部１７は、複数の二値画像フレームのそれぞれに対して文字認識処理を行って複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得し、メタデータ生成部１８は、複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいて前記メタデータを生成するように構成される。

【0075】

このような構成により、動画処理装置２は、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。

【0076】

更に、本実施形態によれば、動画処理装置２において、近似判定部１４は、前後に連続する静止画フレームについてＲＧＢ値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定するように構成される。

【0077】

このような構成により、近似判定部１４は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。

【0078】

また、本実施形態によれば、動画処理装置２において、近似判定部１４は、前後に連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定するように構成される。

【0079】

このような構成により、近似判定部１４は、前後に連続する静止画フレームについてより正確に近似を判定することができる。

【0080】

更に、本実施形態によれば、動画処理装置２において、近似判定部１４は、静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、文字認識部１７は、近似判定部１４で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成される。

【0081】

このような構成により、近似判定部１４における近似判定の正確性を維持すると共に、文字認識部１７における処理負担を軽減することができる。

【0082】

また、本実施形態によれば、動画処理装置２において、文字認識部１７は、二値画像フレームの被写体像の特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成されている。

【0083】

このような構成により、文字認識部１７は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。

【0084】

また、本実施形態によれば、動画処理装置２において、文字認識部１７は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出するように構成されている。

【0085】

このような構成により、文字認識部１７は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。

【0086】

また、本実施形態によれば、動画処理システム１は、上記したような動画処理装置２と、動画処理装置２のメタデータ生成部１８によって生成された文字情報毎のメタデータを格納する文字情報ＤＢ（データベース）５と、を備えて構成されている。

【0087】

このような構成により、動画処理システム１において、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報ＤＢ５からそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。

【0088】

本実施形態では、文字認識部１７は、文字認識のためのトレーニングデータとして、各フォントの各文字について特異点の分布と方向ベクトルを予め登録しておく構成を説明したが、この構成に限定されない。例えば、他の実施形態では、トレーニングデータを登録するトレーニングデータ用データベースを別途設けて、動画処理装置２が文字認識処理時にこのトレーニングデータ用データベースにアクセスしてトレーニングデータを取得するように構成されてもよい。

【0089】

また、文字認識部１７やトレーニングデータ用データベースは、各フォントの各文字についてのトレーニングデータに加えて、デコレーションされた文字についてのトレーニングデータを登録するように構成されてもよい。デコレーションされた文字は、例えば、プレゼンテーション等で利用される文字であって、既定のフォントに比べて文字の輪郭が違う色で表示された文字や、斜体や太文字で形成された文字、白抜きされた文字、シャドーのある文字等がある。

【0090】

また、他の実施形態として、動画処理装置２は、静止画フレームにおける特定の人物（特に、著名人）の顔画像を認識すると共に、その人物情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置２は、特定の人物の顔画像の特徴点の分布及び方向ベクトル（この場合では、３Ｄ方向ベクトル）を、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の人物の人物情報も登録しておく。そして、動画処理装置２は、静止画フレーム（二値画像フレーム）における特徴点の分布及びベクトル方向から顔認識処理を行い、抽出された顔画像が、トレーニングデータに該当するか否かを判定する。抽出された顔画像がトレーニングデータに該当する場合には、そのトレーニングデータに付随する人物情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、人物情報データベース（図示せず）に登録する。

【0091】

同様にして、動画処理装置２は、静止画フレームにおけるランドマーク（特に、著名な建造物）の画像を認識すると共に、そのランドマーク情報をメタデータとして生成するように構成することもできる。

【0092】

更に、他の実施形態として、動画処理装置２は、静止画フレームにおける特定の風景（特に、色彩から想定できる海等の風景）の画像を認識すると共に、その風景情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置２は、特定の風景の色の分布を示すヒストグラムを、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の風景の風景情報も登録しておく。そして、動画処理装置２は、静止画フレーム（処理対象フレーム）における色の分布のヒストグラムを算出し、そのヒストグラムが、トレーニングデータに該当するか否かを判定する。算出されたヒストグラムがトレーニングデータに該当する場合には、そのトレーニングデータに付随する風景情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、風景情報データベース（図示せず）に登録する。

【0093】

本実施形態では、動画処理装置２が文字認識処理の機能を有する構成を説明したが、この構成に限定されない。例えば、他の実施形態では、動画処理システム１において、動画処理装置２又は他のサーバが、動画処理装置２と同様の文字認識処理の機能を有するプログラムやアプリケーションを提供するように構成されてもよい。

【符号の説明】

【0094】

１動画処理システム
２動画処理装置
３ネットワーク
４動画データベース（ＤＢ）
５文字情報データベース（ＤＢ）
６検索エンジン
７視聴者端末
１０制御部
１１記憶部
１２通信部
１３フレーム切り出し部
１４近似判定部
１５シャープ化部
１６二値化部
１７文字認識部
１８メタデータ生成部

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6091552号(P6091552)IP Force 特許公報掲載プロジェクト 2022.1.31 β版