(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-09
(45)【発行日】2023-03-17
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
H04N 5/92 20060101AFI20230310BHJP
H04N 21/24 20110101ALI20230310BHJP
G10L 15/00 20130101ALI20230310BHJP
H04N 21/83 20110101ALI20230310BHJP
H04N 5/76 20060101ALI20230310BHJP
【FI】
H04N5/92 010
H04N21/24
G10L15/00 200Z
H04N21/83
H04N5/76
(21)【出願番号】P 2019139740
(22)【出願日】2019-07-30
【審査請求日】2022-03-22
(73)【特許権者】
【識別番号】000001122
【氏名又は名称】株式会社日立国際電気
(74)【代理人】
【識別番号】100097113
【氏名又は名称】堀 城之
(74)【代理人】
【識別番号】100162363
【氏名又は名称】前島 幸彦
(72)【発明者】
【氏名】田中 宏幸
【審査官】松元 伸次
(56)【参考文献】
【文献】特開2007-294020(JP,A)
【文献】特開2009-272816(JP,A)
【文献】特開2014-120032(JP,A)
【文献】韓国登録特許第10-0828166(KR,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F16/00-16/958
G06T1/00-1/40
3/00-7/90
G06V10/00-20/90
30/418
40/16
40/20
G10L15/00-17/26
H04N5/76-5/775
5/80-5/956
7/10
7/14-7/173
7/20-7/56
21/00-21/858
(57)【特許請求の範囲】
【請求項1】
映像データの内容に対応するキーワードとなる情報である内容特定情報を自動的に認識する情報処理装置であって、
前記映像データ中の画像あるいは文字表示、当該映像データに付随する音声データにおける音声、及び当該映像データに付随するメタ情報より、前記内容特定情報の候補を認識する解析部と、
前記解析部による、前記画像、前記文字表示、前記音声、前記メタ情報の各々から前記候補をそれぞれ選定し、複数の前記候補を基にして前記内容特定情報を探索する一次解析を行わせ、
当該一次解析によって得られた前記候補から前記内容特定情報が設定できなかった場合において、前記一次解析の結果に基づいて、前記解析部に対して解析の条件を特定した二次解析情報を設定し、
前記解析部に対して、前記二次解析情報に基づき前記画像、前記文字表示、前記音声、前記メタ情報のうちの少なくともいずれかにおいて前記候補を再度選定する二次解析を行わせ、
前記一次解析による解析結果及び前記二次解析による解析結果とに基づき、前記内容特定情報を探索する情報認識部と、
を具備することを特徴とする情報処理装置。
【請求項2】
前記情報認識部は、前記内容特定情報を探索する際に、前記一次解析及び前記二次解析における前記メタ情報の解析結果の優先度を高く設定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記情報認識部は、前記一次解析における前記画像、前記文字表示、及び前記音声の各々から選定された前記候補の一致、不一致を判定することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記情報認識部は、前記二次解析後に前記内容特定情報を定めることができなかった場合に、数値化された確度が付与された複数の前記候補を表示させることを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記情報認識部は、前記二次解析後に前記内容特定情報を定めることができなかった場合に、警告を発することを特徴とする請求項3又は4に記載の情報処理装置。
【請求項6】
前記情報認識部は、前記画像、前記文字表示、前記音声の各々の解析結果の優先度を予め設定し、前記一次解析による解析結果及び前記二次解析による解析結果と、当該優先度に基づき前記内容特定情報を定めることを特徴とする請求項1から請求項5までのいずれか1項に記載の情報処理装置。
【請求項7】
前記映像データ及び前記音声データは時系列に応じて複数のブロックに分割され、前記内容特定情報の認識は前記ブロック毎に可能とされ、
前記情報認識部は、前記映像データの種類に応じて、
一つの前記ブロックにおける前記一次解析の結果から得られた前記二次解析情報に基づく前記二次解析を当該一つの前記ブロックにおいてのみ行わせる動作と、
一つの前記ブロックにおける前記一次解析の結果から得られた前記二次解析情報に基づく前記二次解析を当該一つの前記ブロックと共に、他の前記ブロックに対しても行わせる動作と、
を切り替えて行わせることを特徴とする請求項1から請求項6までのいずれか1項に記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の映像データや音声データを取り扱う情報処理装置に関する。
【背景技術】
【0002】
各種の映像データ等を記憶し、ネットワークを介してユーザーに所望の映像/音声データ(以下、映像データ等)を配信するビデオサーバ―においては、映像データ等と共に、映像データ等の内容に関する情報であるメタデータを組み合わせて記憶する。このメタデータを利用することによって、映像データ等の管理や配信等の操作をより円滑に行うことができる。
【0003】
また、ビデオサーバー側が、映像データ等の内容を自動的に認識することもできる。例えば、特許文献1には、レンダリング処理(例えば配信時において部分的に非表示とすべき部分に対する暈し処理等)を、処理対象となる部分を自動的に識別することによって行う技術が記載されている。この技術においては、処理対象となる部分として、例えば、映像中における時刻表示、自動車の登録ナンバー、企業名、人物の顔等がある。処理対象認識部は、時刻表示、自動車の登録ナンバー、企業名等については、これらを画像中の文字を周知の文字認識手法によって認識することができる。このように認識された部分に対してのみ局所的に編集処理が施された後に、編集後の映像データ等が配信される。
【先行技術文献】
【特許文献】
【0004】
【発明の開示】
【発明が解決しようとする課題】
【0005】
例えば、上記のようにメタデータを用いた映像データの管理等を行うことができるものの、メタデータが常に適正であるとは限らない。例えば、メタデータにおいては、データとして記憶される文字情報の文字数の制限等によって、その内容が適正ではない場合もある。また、メタデータがユーザー(管理者)による入力によって作成される場合には、誤りも発生する。
【0006】
特許文献1に記載の技術においては、ビデオサーバ―側が自動的に認識を行うために、認識されるデータに対する制限は緩く、かつ、上記のような単純な文字認識、顔認識等を用いる場合、近年のパターン認識技術の進歩により、文字情報や人物を適正に認識できる可能性は高まった。しかしながら、例えば映像の劣化等がある場合には、最新のパターン認識技術を用いた場合でも、文字情報や人物を適正に認識できない場合があった。あるいは、これらの情報をより適正に認識するためには、他の補助的な情報として、例えば、対象となる映像データ、音声データのカテゴリー等の情報が必要となり、その入力が必要となったため、ユーザーによる操作が必要となり、処理に要する時間が長くなった。このため、映像データ等の内容を高精度で自動的に認識できる技術が望まれた。
【0007】
本発明は、このような状況に鑑みなされたもので、上記課題を解決することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、映像データの内容に対応するキーワードとなる情報である内容特定情報を自動的に認識する情報処理装置であって、前記映像データ中の画像あるいは文字表示、当該映像データに付随する音声データにおける音声、及び当該映像データに付随するメタ情報より、前記内容特定情報の候補を認識する解析部と、前記解析部による、前記画像、前記文字表示、前記音声、前記メタ情報の各々から前記候補をそれぞれ選定し、複数の前記候補を基にして前記内容特定情報を探索する一次解析を行わせ、当該一次解析によって得られた前記候補から前記内容特定情報が設定できなかった場合において、前記一次解析の結果に基づいて、前記解析部に対して解析の条件を特定した二次解析情報を設定し、前記解析部に対して、前記二次解析情報に基づき前記画像、前記文字表示、前記音声、前記メタ情報のうちの少なくともいずれかにおいて前記候補を再度選定する二次解析を行わせ、前記一次解析による解析結果及び前記二次解析による解析結果とに基づき、前記内容特定情報を探索する情報認識部と、を具備する。
この際、前記情報認識部は、前記内容特定情報を探索する際に、前記一次解析及び前記二次解析における前記メタ情報の解析結果の優先度を高く設定してもよい。
この際、前記情報認識部は、前記一次解析における前記画像、前記文字表示、及び前記音声の各々から選定された前記候補の一致、不一致を判定してもよい。
この際、前記情報認識部は、前記二次解析後に前記内容特定情報を定めることができなかった場合に、数値化された確度が付与された複数の前記候補を表示させてもよい。
この際、前記情報認識部は、前記二次解析後に前記内容特定情報を定めることができなかった場合に、警告を発してもよい。
この際、前記情報認識部は、前記画像、前記文字表示、前記音声の各々の解析結果の優先度を予め設定し、前記一次解析による解析結果及び前記二次解析による解析結果と、当該優先度に基づき前記内容特定情報を定めてもよい。
この際、前記映像データ及び前記音声データは時系列に応じて複数のブロックに分割され、前記内容特定情報の認識は前記ブロック毎に可能とされ、前記情報認識部は、前記映像データの種類に応じて、一つの前記ブロックにおける前記一次解析の結果から得られた前記二次解析情報に基づく前記二次解析を当該一つの前記ブロックにおいてのみ行わせる動作と、一つの前記ブロックにおける前記一次解析の結果から得られた前記二次解析情報に基づく前記二次解析を当該一つの前記ブロックと共に、他の前記ブロックに対しても行わせる動作と、を切り替えて行わせてもよい。
【発明の効果】
【0009】
本発明によると、映像データ等の内容を高精度で自動的に認識することができる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態に係る情報処理装置の構成を示す図である。
【
図2】実施の形態に係る情報処理装置における一次解析と二次解析の状況を映像データにおいて時系列で示した例(第6~第10のケース)である。
【
図3】実施の形態に係る情報処理装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0011】
次に、本発明を実施するための形態を図面を参照して具体的に説明する。ここで本発明の実施の形態に係る情報処理装置は、映像データや音声データを記憶、配信するビデオサーバーである。このビデオサーバーにおいては、記憶された映像データ、音声データの内容を表す特徴的な情報である内容特定情報が自動的に認識される。このように認識された内容特定情報に対して、例えば特許文献1に記載の技術のように編集処理(レンダリング処理等)を施した後に配信してもよい。
【0012】
図1は、このビデオサーバ―1の構成を示す図である。ここでは、上記のような認識に関わる構成要素のみが記載され、例えば映像データ等をネットワークを介して配信するための構成要素については記載が省略されている。ここで、取り扱われる映像データや音声データは、収録部11によってネットワークを介して入力し、大容量のデータを記憶可能なハードディスク等で構成された記憶部12に記憶される。ここで、映像データや音声データには、その内容を複数の項目毎に付帯情報として特定したメタデータ(メタ情報)が対応して記憶されている。
【0013】
CPU等を具備する制御部10は、キーボードやタッチパネルで構成された操作部13の操作によって、このビデオサーバー1全体の動作を制御する。この際、必要な情報はディスプレイである表示部14で表示される。
【0014】
ここで、このビデオサーバー1においては、記憶部12で記憶された映像データ等の内容を認識するための情報認識部20が設けられる。情報認識部20においては、映像(画像)内における物体(人物の顔を含む)の認識を行うことによって映像内の物体を特定する物体解析部21、映像内の字幕を文字認識することによって字幕内の文字列を認識する字幕解析部22、映像データに付随した音声データ中の音声を認識することによって映像に登場する人物の発言内容におけるキーワードとなる語句を認識する発言内容解析部23、対応するメタデータにおける情報、特に物体解析部21、字幕解析部22、発言内容解析部23で認識される対象と対応する情報を認識するメタ情報解析部24の、4つの解析部が設けられる。これらの解析部で認識された事項は、前記の内容特定情報の候補となる。このような複数の候補に基づいて、内容特定情報が探索される。
【0015】
ただし、情報認識部20においては、このような情報の解析は2段階に分けて行われる。このため、総合解析部25は、初めの解析(一次解析)を一次解析処理部26を用いて行わせ、その後に2回目の解析(二次解析)を二次解析処理部27を用いて行わせる。ここで、一次解析は、物体解析部21、字幕解析部22、発言内容解析部23で、メタ情報解析部24を用いて、上記の解析をそれぞれにおいて独立して行い、それぞれにおいて個別の結果(候補)を得る。ここで、この個別の結果は、それぞれにおいて一つである必要はなく、複数であってもよい。例えば、字幕解析部22、発言内容解析部23において認識された文字列(語句)として、誤記を含んだもの、同義語や発音が近い複数のものを結果としてもよい。
【0016】
総合解析部25は、このような一次解析の結果によって得られた候補より、内容特定情報を探索し、特定することができる。例えば、全ての解析部により同一あるいは共通する内容となる候補が認識された場合には、この候補を内容特定情報として設定することができる。また、各解析部から複数の候補が得られ、全ての解析部において共通する候補があった場合には、これを内容特定情報とすることができる。
【0017】
一方、このように内容特定情報を特定することができなかった場合や、候補が得られなかった解析部があったために内容特定情報を特定することができなかった場合には、総合解析部25は、このような一次解析の結果に基づき、再度の解析(二次解析)を行わせる際に用いられる情報である二次解析情報を設定し、これを二次解析情報記憶部28に記憶させる。二次解析処理部27は、この二次解析情報を用いて、新たに物体解析部21、字幕解析部22、発言内容解析部23、メタ情報解析部24のうちの少なくともいずれかを用いて、再度の解析を行う。一次解析の結果が各解析部によって得られた複数の独立のものであったのに対し、二次解析の結果は、内容特定情報として最も適した一つの結果、あるいは、このような単一の結果が選択できなかった旨となる。単一の結果が選択できなかった場合には、一次解析と二次解析の結果から得られた複数の候補を、数値化された確度をそれぞれに付与した上で表示させることもできる。このため、二次解析の結果は、一次解析のみを行う場合よりも精度の高い結果、あるいは十分な確度は得られなくとも可能性がある候補が適正に表示されるため、より好ましい。
【0018】
上記の解析部による二次解析に際しては、一次解析における他の解析部の解析結果が反映される。ただし、総合解析部25は、一次解析においても、他の解析部の解析結果を利用させることによって、より適正かつ効率的な解析が可能である。
【0019】
例えば、複数の人物の発言が混在している場合には、音声は発言者の区別なしに一括して音声データとして記憶されるが、このうち誰による発言かは声紋等によって識別が可能である。このため、一次解析において例えば字幕解析部22によってある特定人物の名称が認識された場合や、物体解析部21によって特定の人物が認識された場合、この人物の発言のみを発言内容解析部23で抽出して解析することができる。こうした操作によって、例えば実際はこの人物が「スカイツリー」と発言した場合において、録音の中断やノイズにより一次解析では「イツ」のみが認識された場合においては、二次解析によって発言内容解析部23によっても「スカイツリー」が認識されたと判定することができる。
【0020】
このためには、発言内容解析部23は、まず上記の解析を行う前に、音声データ中において発言が認識された人物(登場人物)を認識した上で上記の解析を行うことが好ましい。この際、各人物の声紋等のデータは、予め記憶部12にデータベースとして記憶させることができ、これに基づいて上記の解析を行わせることができる。また、上記のように特定の人物の発言を抽出する際には、映像データも参照し、例えばこの特定の人物の口が動いた時点からの音声を解析の対象とすることができる。
【0021】
また、上記のように声紋を用いた発言者の識別を行う際に、声紋が類似しているために明確な識別ができない場合がある。こうした場合においては、音声データにおいて認識された声紋と予め登録された声紋との間の相違を数値化し、最も近いと推定された声紋によって認識された語句の優先度を高めることができる。
【0022】
また、例えばこの映像データが映画の映像である場合には、音声が吹替である場合もあり、この場合には登場人物と発言者とは一致しない。こうした場合においては、例えば、この映像データが映画の映像である旨は、メタ情報解析部24がメタファイルを解析することによって認識することができる。この場合、例えば字幕が表示されている際に発言している人物(口が動いている人物)が発言者であると物体解析部21によって認識することができ、この際の音声は、この発言者によるものと推定することができる。この際、音声により、あるいはメタデータにより、元の言語や吹替の言語を認識することができ、これに基づいて上記の解析を行うことができる。また、上記のようにデータベースに記憶されていなかった声紋の音声が認識された場合には、これを新たに記憶させることもできる。
【0023】
また、映像データ(音声データ)のカテゴリーによって、上記のような発言内容解析部23による解析対象の設定をすることができる。例えば映像データが音楽に関するものであることは、映画の場合と同様に、メタ情報解析部24がメタファイルを解析することによって認識することができる。この場合、音声としては、ボーカルの音声と、ナレーションとが混在するが、ボーカルはメロディ(音調の上下)があるのに対して、ナレーションは音調の変動が小さいため、これらの識別が可能である。このため、発言内容解析部23はボーカルとナレーションの各々で上記の解析を行うことができ、最も多く共通に認識された語句を上記のように優先度の高い語句(候補)とすることができる。あるいは、例えばナレーションのみを解析の対象とすることもできる。
【0024】
また、映像データが音楽に関するものである場合には、映像初期のテロップやエンディングクレジットにおいて、キーワードとなる曲名、演者名等が表示される場合が多い。こうした場合には、字幕解析部22による解析の対象を映像初期のテロップやエンディングクレジットに特定することができる。あるいは、映像初期のテロップやエンディングクレジットで認識された語句を候補とする優先度を高めることができる。また、映像データ(音声データ)が音楽に関するものである場合には、特に曲のメロディを予めデータベースとして記憶部12に記憶させ、これに基づき、曲名等を認識することができる。
【0025】
前記のように物体解析部21、字幕解析部22、発言内容解析部23で、メタ情報解析部24による解析が行われるが、各解析部を同等に取り扱う必要はない。例えば、メタデータには、前記の内容特定情報に対応する内容が存在している蓋然性が特に高い。このため、メタ情報解析部24による結果の優先度を特に高くしてもよい。この場合、一次解析、二次解析において得られた各候補に数値化された確度を付与し、メタ情報解析部24によって得られた候補の確度に対して他の候補よりも大きな重み付けをすることができる。あるいは、例えば、メタ情報解析部24で得られた候補と、物体解析部21、字幕解析部22、発言内容解析部23のうちの一つで得られた候補とが一致した場合に、この候補を内容特定情報として選定させることができる。
【0026】
また、例えば一次解析の結果得られた全ての候補に共通性が全く見られなかった場合においてのみ、このようにメタ情報解析部24の結果の優先度を高める設定を行わせてもよい。この場合、例えば、二次解析を行わせずに一次解析においてメタ情報解析部24によって得られた候補を内容特定情報に設定する、あるいはメタ情報解析部24によって得られた複数の候補に確度を付与して表示させることができる。また、メタ情報解析部24の結果のみに基づいて二次解析情報を作成した上で二次解析を行わせることもできる。このように、メタ情報解析部24による結果の優先度を実質的に高めるための手法は様々である。
【0027】
以下に、情報認識部20におけるこの動作の具体例について説明する。ここでは、対象となる映像データ(付随する音声データを含む)が、「東京スカイツリー」に関するものであるものとする。
【0028】
総合解析部25は、まず、映像データの内容を認識する全ての場合において、一次解析処理部26を用いて一次解析を行わせる。一次解析は、上記の各解析部に対して特に前提条件を設定せず、例えばここで認識すべき事項が建造物であることを特定せずに、解析を行わせる。この結果に応じた二次解析の内容、及びその後の判定結果について、複数の場合について以下に説明する。
【0029】
まず、第1~第5のケースは、上記のように内容特定情報を定まるための動作を一つの映像データ(及び付随する音声データ)につき1回行う場合である。この場合には、映像データが長時間にわたるものである場合に、物体解析部21、字幕解析部22、発言内容解析部23による解析の対象は、この時間内の全ての映像又は音声となる。
【0030】
第1のケースとして、上記の全ての解析部によって「東京スカイツリー」に関連した事項が認識される場合がある。この場合、例えば、一次解析処理部26は、物体解析部21によって、この映像データにおいて最も長時間出現した画像が、「タワー状の高層建築物」であることを、周知のパターン認識手法によって認識することができる。また、字幕解析部22において認識された文字列中で最も特徴的だったキーワード、及び発言内容解析部23において最も特徴的だった語句、メタ情報解析部24によってメタデータ中のキーワードとして、それぞれ「スカイツリー」を認識することができる。この場合、解析設定部25は、字幕解析部22、発言内容解析部23、メタ情報解析部24によって共通の「スカイツリー」という語句を認識する。
【0031】
また、総合解析部25は、例えば記憶部12に記憶された、あるいはネットワークを介して入手した「スカイツリー」に関する情報等から、物体解析部21によって認識された「タワー状の高層建築物」という内容が、「(東京)スカイツリー」に合致する内容であることも認識することができる。この場合、全ての解析部において共通の内容が認識されたため、総合解析部25は、上記の映像データを特定する内容として、「(東京)スカイツリー」という情報を対応付けることができる。この場合には、二次解析を行う必要はないため、総合解析部25は、二次解析情報を作成しない。
【0032】
上記の例では、メタ情報解析部24によっても「スカイツリー」が認識されたものとしたが、メタ情報解析部24において、「スカイツリー」ではなくその所在地である「墨田区」やその機能である「電波塔」等、「スカイツリー」に直結する内容が認識された場合には、上記の物体解析部21における「タワー状の高層建築物」と同様に、全ての解析部において総合的に「スカイツリー」という共通の内容が認識されたとすることができる。
【0033】
第2のケースでは、発言内容解析部23で、雑音によって、「スカイ釣り」という語句が認識され、他の解析部による認識結果は第1のケースと同様であったものとする。これは、音声認識によって、「スカイツリー」という語句よりも「スカイ釣り」という語句の方が適正に認識されたことを意味する。この場合、前記の場合とは異なり、全ての解析部で認識された内容に共通性が認められない。このため、第2のケースにおいては、第1のケースとは異なり、一次解析によっては映像データを特定する内容は決定されない。
【0034】
しかしながら、字幕解析部22とメタ情報解析部24によっては共通の「スカイツリー」が認識され、かつ、これと物体解析部21によって認識された「タワー状の高層建築物」という内容が合致することは前記の場合と変わらない。このため、総合解析部25は、「スカイツリー」を最も可能性の高い情報として認識することができる。
【0035】
この場合、総合解析部25は、二次解析情報として、再度の解析を行う解析部として、他の解析部との間の合致が認められなかった発言内容解析部23を特定し、かつ再度の解析においては、優先的にサーチする内容として「スカイツリー」を特定し、これを二次解析情報記憶部28に記憶させる。二次解析処理部27は、この二次解析情報を読出して認識し、前提条件のなかった一次解析とは異なり、発言内容に「スカイツリー」が含まれると認識される度合いを数値化して出力させる二次解析を行わせる。一次解析においてはこの数値は、「スカイ釣り」の方が「スカイツリー」よりも高かったが、二次解析においては、このように優先的に設定された語句がサーチされる。
【0036】
ここで、総合解析部25は、例えばこの数値がある閾値を超えた場合には、発言内容解析部23においては、二次解析によって「スカイツリー」が認識されたと判定することができる。この場合には、他の解析部においては一次解析の結果によって、発言内容解析部23においては二次解析の結果によって、第1のケースと同様に「スカイツリー」という共通の情報(内容)を認識したと判定することができる。
【0037】
一方、総合解析部25は、上記の数値がある閾値以下であった場合には、発言内容解析部23においては、二次解析によっても「スカイツリー」が認識されなかったと判定することができる。この場合、全ての解析部で共通の内容を認識することができなかったため、「スカイツリー」は、確度は高い内容ではあるが、上記の映像データを表す情報としては充分ではないと認識することができる。
【0038】
第3のケースとして、字幕解析部22、発言内容解析部23、メタ情報解析部24によって、第1のケースと同様にそれぞれ「スカイツリー」が認識されたが、物体解析部21は、「スカイツリー」とは無関係の人物の顔が認識されたものとする。この場合、第2のケースと同様に、全ての解析部で認識された内容には共通性が認められない。しかしながら、字幕解析部22、発言内容解析部23、メタ情報解析部24の結果には共通性が認められるため、第2のケースと同様に、総合解析部25は、「スカイツリー」を最も可能性の高い情報として認識することができる。
【0039】
この場合、総合解析部25は、二次解析情報として、再度の解析を行う解析部として、他の解析部との間の合致が認められなかった物体解析部21を特定し、かつ再度の解析においては、優先的にサーチする対象として「スカイツリー」が該当する「建造物」を特定し、これを二次解析情報記憶部28に記憶させる。二次解析処理部27は、この二次解析情報を読出して認識し、前提条件のなかった一次解析とは異なり、物体認識部21は、「建造物」のみをサーチする二次解析を行わせる。
【0040】
その結果、「建造物」として、「タワー状の高層建築物」を認識した場合には、物体解析部21以外の解析部における一次解析の結果と、物体解析部21においては二次解析の結果によって、第1のケースと同様に「スカイツリー」という共通の情報(内容)を認識したと判定することができる。
【0041】
一方、総合解析部25は、物体解析部21においては、二次解析によっても「タワー状の高層建築物」等、「スカイツリー」に対応する建造物が認識されなかった場合、全ての解析部で共通の内容を認識することができなかったため、「スカイツリー」は、確度は高い内容ではあるが、上記の映像データを表す情報としては充分ではないと認識することができる。
【0042】
第4のケースとして、字幕解析部22、メタ情報解析部24によって、それぞれ「スカイツリー」が認識されたが、物体解析部21は、「スカイツリー」とは無関係の人物の顔が認識され、かつ発言内容解析部23においては「スカイツリー」とは全く関連性のない語句が認識されたものとする。この場合、第2、第3のケースと同様に、全ての解析部で認識された内容には共通性が認められないが、字幕解析部22、メタ情報解析部24の結果には共通性が認められるため、第2、第3のケースと同様に、総合解析部25は、「スカイツリー」を最も可能性の高い情報として認識することができる。
【0043】
この場合、総合解析部25は、二次解析情報として、再度の解析を行う解析部として、「スカイツリー」との合致が認められなかった物体解析部21において優先的にサーチする対象として第3のケースと同様に「建造物」を特定すると共に、発言内容解析部23においては「スカイツリー」あるいはこれに類似又は関連したキーワードの有無のみを主眼としたサーチを行うことを特定した二次解析情報を作成し、これを二次解析情報記憶部28に記憶させる。二次解析処理部27は、この二次解析情報を読出して認識し、この二次解析情報に基づき、前提条件のなかった一次解析とは異なり、第3のケースと同様に物体認識部21に「建造物」のみをサーチさせると共に、発言内容解析部23においては「スカイツリー」に関連したサーチを行わせる。
【0044】
その結果、総合解析部25は、物体解析部21により「タワー状の高層建築物」が、発言内容解析部23により「スカイツリー」あるいはこれに関連した語句が認識された場合には、字幕解析部22、メタ情報解析部24における一次解析の結果と、これらの二次解析の結果によって、第1のケースと同様に「スカイツリー」という共通の情報(内容)を認識したと判定することができる。
【0045】
一方、総合解析部25は、二次解析によっても物体解析部21により「タワー状の高層建築物」が、又は発言内容解析部23により「スカイツリー」あるいはこれに関連した語句が認識されなかった場合には、「スカイツリー」は、確度は高い内容ではあるが、上記の映像データを表す情報としては充分ではないと認識することができる。
【0046】
第1~第4のケースにおいては、物体解析部21、字幕解析部22、発言内容解析部23で、メタ情報解析部24による解析結果が対等に取り扱われ、全ての結果が合致していないものの、その中で共通の結果が得られた2つ以上のものが存在した場合に、この結果が最も可能性の高いものであるとして二次解析が行われた。
【0047】
この場合、一次解析において、例えば全ての解析部において全く異なった解析結果が得られた場合には、最も可能性の高い内容を認識することができない。このため、総合解析部25は、対象となった映像データの内容が特定できなかったと認識することができる。
【0048】
ここで、この4つの解析部を対等に取り扱わずに、解析部に優先順位を設定してもよい。第5のケースは、こうした場合に対応する。例えば、メタデータは、映像データの内容を反映したものとして作成されているため、上記の解析部による解析結果の中では、メタ情報解析部24による解析結果の確度が最も高いと推定することもできる。この場合、メタ情報解析部24による解析結果の優先度を他よりも高くすることができる。
【0049】
第5のケースにおいては、前記のように解析部に優先順位が設定され、特にメタ情報解析部24の優先度が高く設定される。ここでは、メタ情報解析部24によって「スカイツリー」が認識されたが、物体解析部21、字幕解析部22、発言内容解析部23によっては、いずれも「スカイツリー」と無関係の内容が認識されたものとする。この場合、「スカイツリー」が認識されたのはメタ情報解析部24のみであったとしても、総合解析部25は、第2~第4のケースと同様に、「スカイツリー」を最も可能性の高い情報として認識することができる。
【0050】
この場合、総合解析部25は、再度の解析を行う解析部として物体解析部21、字幕解析部22、発言内容解析部23を指定し、前記のケースと同様に、これらにおいて「スカイツリー」を前提としたサーチを行わせる旨の二次解析情報を作成する。その結果、総合解析部25は、物体解析部21、字幕解析部22、発言内容解析部23の全てでも「スカイツリー」あるいはこれに対応した内容が認識された場合には、第1のケースと同様に「スカイツリー」という共通の情報(内容)を認識したと判定することができる。一方、総合解析部25は、二次解析における物体解析部21、字幕解析部22、発言内容解析部23のいずれかで「スカイツリー」あるいはこれに関連した語句が認識されなかった場合には、「スカイツリー」は、確度(優先度)は高い内容ではあるが、上記の映像データを表す情報としては充分ではないと認識することができる。
【0051】
この優先順位については、適宜設定が可能である。例えば、メタ情報解析部24の解析結果を優先するが、他の2つの解析部でメタ情報解析部24の解析結果とは異なる共通の解析結果が得られた場合には、この共通の解析結果を優先してもよい。また、総合解析部25が、映像データのファイルサイズに応じて、どの解析部の解析結果を優先するかを設定してもよい。また、特定の解析部の組み合わせで共通の解析結果が得られた場合に、この解析結果を優先する設定としてもよい。
【0052】
このように、第2~第5のケースでは、一次解析の結果に基づいて設定された二次解析情報に基づいて二次解析が行われ、一次解析の結果と二次解析の結果に基づいて映像データを特定する内容が決定される。あるいは、このような特定の内容が決定できない旨が通知される。このような特定の内容が決定できない旨が通知されない場合には、各解析部による解析結果のうち、そのうちの一つを最も可能性の高いものと設定することもできる。
【0053】
第1~第5のケースでは、各解析部による解析は映像データの全体にわたり行われるものとした。しかしながら、特に映像データが長時間にわたるものである場合には、映像データを時系列で複数のブロックに分けてブロックごとに上記のように内容を解析することができる。この場合、メタ情報解析部24による解析の対象となるメタデータは、このブロックに対応して作成されていればブロック毎に解析が行われ、ブロックとは無関係に映像データ全体に対するものとして作成されていれば、全てのブロックに対して共通のメタデータが解析の対象となる。物体解析部21、字幕解析部22、発言内容解析部23の解析の対象は、ブロック毎の映像データあるいはこれに付随した音声データとなる。
【0054】
図2は、第6~第10のケースを説明する図である。ここで、経過時間は図中右側に向けて進行するものとし、映像データ及びこれに付随する音声データは、時系列でA~Gの7つのブロックに分割して設定されるものとする。
【0055】
ここで、第1~第5のケースと同様の解析を、
図2における各ブロックで行うことができる。ここでは、初めに一次解析が全てのブロックにおいて行われたものとし、第6~第8のケースでは、このうち、ブロックDのみで前記のような二次解析が必要となり、他のブロックでは第1のケースと同様に二次解析は不要となった(一次解析のみで映像データの内容が決定された)ものとする。
【0056】
第6のケースにおいては、ブロックDで前記のような二次解析が行われ、その解析結果を用いた前記のような結果が認識される。この手順は、第1~第5のケースにおける解析の対象が映像データ、これに付随する音声データが
図2のブロックDにおけるものになった場合と等価である。すなわち、ブロックDにおける一次解析が行われ、これによって内容特定情報が定まらなかった場合には、一次解析の結果から二次解析情報が作成され、これを用いてブロックDを対象とした二次解析が行われ、一次解析の結果と二次解析の結果を用いて第2~第5のケースと同様の結果が得られる。この結果は他のブロックにおける結果と無関係である。
【0057】
第7のケースにおいても、ブロックDで一次解析が行われた結果、二次解析が必要となったものとする。ここでは、前記のように二次解析情報が作成された場合において、その直前の2つのブロックであるブロックC、Bに対しても、この二次解析情報を用いた二次解析が行われる。すなわち、ブロックDと共に、二次解析が不要とされたブロックC、Bに対しても、新たに二次解析が行われ、この結果を用いて、ブロックC、Bに対しても新たな結果が得られ、この結果が前回の結果と異なる場合には、結果が新たなものに書き換えられる。映像データが時系列的に連続的な場合においては、ブロックDにおける内容とその直前のブロックC、Bにおける内容とは関連がある蓋然性が高いため、こうした処理は有効である。
【0058】
図2において、第8のケースにおいては、このようにブロックDで得られた二次解析情報を用いた再度の解析が行われる対象はブロックDの直後のブロックE、Fとされる。
【0059】
第9のケースでは、同様の対象がブロックDの前後のブロックC、Eとされる。これらの場合においても、同様に、ブロックDと関連性が高いブロックでも再度の解析が行われるため、こうした処理は同様に有効である。
【0060】
図2において、第10のケースでは、ブロックA以外の全てのブロックが再度の解析の対象となっている。他のブロックと比べて先頭のブロックAの内容に特殊性がある場合(例えばイントロダクションとなっている場合等)には、こうした設定は有効である。
【0061】
第7~第10のケースにおいて、再度の解析を行う(あるいは行わない)ブロックの範囲は、映像データの種類等に応じて適宜設定が可能である。このため、例えば、総合解析部25は、映像データのファイル名、属性、ファイルサイズ(時間等)、あるいはメタデータにおける特定の項目の内容等に応じて、このように再度の解析を行うブロックの範囲を設定してもよい。なお、
図2において、全てのブロックを再度の解析の対象とする場合は、映像ファイル全体としての解析を行う第1~第5のケースと等価である。
【0062】
また、このように、映像データが時系列でブロック毎に分割される場合には、効率的に上記の解析を行うために、各種の手法を適用することができる。例えば、この映像データのブロック区分(ブロックの境界の設定)を、内容に応じて行うことができる。例えば、この区分は、例えば映像のシーンチェンジのタイミング、音声(ナレーション)やテロップの表示の登場のタイミング等に応じて設定することもできる。あるいは、メタデータの内容によってもこのタイミングを設定することができる。
【0063】
この場合、処理の効率化のために、上記のようなブロック毎に行う解析を、上記のタイミングに応じて選定されたブロックにおいてのみ行わせることができる。この場合には、上記の境界の直前、直後のブロックのみで上記の解析を行い、内容特定情報を定めることができる。
【0064】
あるいは、時間的に長いデータの解析を行う際には、例えば上記のようなタイミングを認識し、その直後のブロックでのみ一次解析を行わせ、この結果に基づいた二次解析情報を作成し、この二次解析情報に基づいた二次解析は、全てのブロック(あるいは一次解析が行われたブロックを含む複数のブロック)行わせることができる。これによって、時間的に長いデータの解析を効率的に行い、内容特定情報を定めることができる。
【0065】
図3は、このビデオサーバ―1の動作を示すフローチャートである。ビデオサーバ―1における動作は図における制御部10によって制御されるが、ここでは、前記のような内容特定情報の設定に関する動作のみについて記載されており、この動作の大部分は実際には情報認識部20(特に総合解析部25)の制御により行われる。
【0066】
まず、制御部10は、このような内容特定情報を設定するタスクを受信する(S1)と、これによって対象とする映像データ、及びこれに付随する音声データ、メタデータを認識し、記憶部12からこれらを読み出す(S2)。あるいは、制御部10は、収録部11によってこれらのデータを入手する。
【0067】
次に、情報認識部20は、一次解析処理部26に、各解析部を用いて一次解析を行わせる(S3)。この場合には、各解析部に独立に解析を行わせる、あるいは前記のようにある解析部の解析の際に他の解析部による結果を利用してこの解析を行わせることができる。その解析部の各々から得られた結果に基づき、上記のように内容特定情報の決定を試み、内容特定情報が特定できた場合(S4:Yes)には、制御部10は、この結果を出力する(S5)。この結果は、例えば表示部14に出力させることができるが、記憶部12に記憶させてもよく、この際にメタデータをこれに応じて書き換えてもよい。これによって、内容特定情報を定める動作は終了する。その後、この内容特定情報に対応する映像データの内容に関して編集処理等が必要である場合には、この編集処理を行わせてもよい。
【0068】
一方、このように内容特定情報が特定できなかった場合(S4:No)には、総合解析部25は、一次解析の結果に基づき二次解析情報を作成し、これを二次解析情報記憶部28に記憶させる(S6)。その後、総合解析部25は、二次解析処理部27にこの二次解析情報に基づいて各解析部に二次解析を行わせる(S7)。その後、総合解析部25は、一次解析による結果(候補)と二次解析による結果(候補)の両方に基づいて、前記のように内容特定情報の決定を試み(S8)、内容特定情報が決定できた場合(S9:Yes)には、一次解析(S3)後に内容特定事項が定まった場合と同様の処理(S5)が行われ、この動作は終了する。
【0069】
二次解析を行った(S7)後においても内容特定情報が定まらなかった場合(S9:No)には、内容特定情報となる可能性のある複数の候補を定めるか否かの問い合わせが表示部14を介して行われる(S10)。このように複数の候補を定める必要がない旨の回答が得られた場合(S10:No)には、このように内容特定情報を定めることができなかった旨の警告が表示部14で行われ(S11)、この動作は終了する。一方、複数の候補を定める旨の回答が得られた場合(S10:Yes)には、前記のように、各候補に確度が数値化されて付与され(S12)、表示され(S13)、処理は終了する。
【0070】
上記のように一次解析と二次解析の結果から総合的に内容特定情報を定める際には、処理の効率化のために、総合解析部25は、以下のような動作を行わせることができる。
(1)前記の通り、時間的に長い映像データにおいては、映像の変化やテロップの有無を物体解析部21や字幕解析部22が認識することができ、このタイミングに応じて
図2におけるブロックの区分を行うことができる。すなわち、
図2におけるブロックの区分も行うことができる。
(2)
図2における第6~第10のケースにおける第2解析の対象となるブロックの設定も、総合解析部25が行うことができる。この場合、総合解析部25は、映像データの種類等に応じてこの設定を行うことができ、映像データの種類は、例えばメタ情報解析部24がメタデータを解析することによって認識することができる。
(3)また、総合解析部25は、各解析部の結果に対する優先度の設定も行うことができる。この設定も映像データの種類等に応じて行わせることができる。例えば、映像データが字幕入りの映画(洋画)である場合には、字幕解析部22に対する優先度を高めることができ、このための映像データの種類の認識も、例えばメタ情報解析部24によって行うことができる。この場合には、例えば各解析部によって認識された候補に対して確度が数値化された場合に、この確度に対して重み付け係数を乗じた値を新たな確度として設定し、優先度の高い解析部に対してはこの重み付け係数の値を大きく設定すればよい。また、逆に、この場合に優先度を低くする解析部においては、この重み付け係数を低く設定すればよい。例えば、前記のように映像データが字幕入りの映画(洋画)である場合には、前記の通り字幕解析部22に対する重み付け係数を大きくすると同時に、発言内容解析部23に対する重み付け係数を小さくすることができる。この際、例えば発言内容解析部23に対する重み付け係数を零としてもよく、この場合には、発言内容解析部23による解析を行う必要がない。
(4)また、総合解析部25は、一次解析の結果からもこのような優先度を設定することができる。例えば、一次解析によって一つの解析部により複数の候補が認識され、結果的に全ての解析部によって多くの候補が認識されたが、一次解析によっては内容特定情報を定めることができなかった場合において、内容特定情報は特定できなかったが候補となった事項の共通性(例えばカテゴリーが共通である等)が認識された場合には、これに応じて優先度を定めることができる。この場合、例えば、解析部のうちで一次解析においてこの共通性を有する候補が最も多く認識されたものに対する優先度を高め、この共通性を有する候補が認識されなかったものの優先度を低くすることができる。これによって、二次解析後における内容特定情報の決定が容易となる。こうした場合には、優先度(重み付け係数)も前記の二次解析情報に含ませることができる。
【0071】
また、特に音声データから上記の内容特定情報(候補)を認識する際には、以下のような動作により、効率化が可能である。
(5)前記の通り、発言内容解析部23においては、声紋等のデータベースを基にして発言者を区分し、発言内容をより適切に認識することができる、あるいは、不完全に認識された語句であっても、これを適正に認識することができる。この発言者の認識も、例えばメタ情報解析部24がメタデータ(例えば映画における出演者)を解析することによって認識することができる。
(6)また、前記のように、例えば映像データにおいて発言者が口を開いた時点を起点とした音声認識をすることによっても、発言内容をより適切に認識することができる、発言者が口を開いた時点は、物体解析部21によって認識することができる。この際、テロップ表示がある場合には、字幕解析部22によってこのテロップ内の語句として認識された候補と、発言内容解析部23によって認識された候補とは共通し、かつこの候補が内容特定情報となる可能性が高い。
(7)上記のような発言者の特定のためには、記憶部12に予め記憶されたデータベースが有効である。このため、発言内容が確認されたこのデータベースには登録されていない発言者、あるいはデータベースと一致していると認められない程度の正確度L・h1で発言者H1が認識された場合には、総合解析部25は、この発言者の声紋データV・h(音声データ)等を、発言者H1である正確度L・H1とともに、新たに登録することができる。この場合、映像データが映画であり、国籍情報がメタデータ等により認識される場合には、国籍情報も対応させて同時に記憶させることが好ましい。これによって、以降における他の映像データに対しても、解析を効率化するためにこのデータベースを活用することができる。なお、この動作は、ここで発言内容解析部23によって認識された候補が内容特定情報として適正であったか否かに関わらず行わせることができる。
(8)上記声紋データV・hを登録したのとは別の機会に声紋データV・hを検出した場合、かつ映像に発言者H2の顔や人名テロップを伴っていた場合で、正確度L・h2を解析結果として得た場合、正確性L・h1と合わせて評価し、十分な正確度を示した場合に発言者H1あるいはH2を声紋データV・hと関連付けることができると判断し、登録する。
【0072】
以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【符号の説明】
【0073】
1 データサーバ―(情報処理装置)
10 制御部
11 収録部
12 記憶部
13 操作部
14 表示部
20 情報認識部
21 物体解析部(解析部)
22 字幕解析部(解析部)
23 発言内容解析部(解析部)
24 メタ情報解析部(解析部)
25 総合解析部
26 一次解析処理部
27 二次解析処理部
28 二次解析情報記憶部