【文献】
桑野秀豪(外2名),映像・音声認識,言語処理の適用による経済化 メタデータ生成技術,NTT技術ジャーナル,日本,社団法人電気通信協会,2004年 5月 1日,第16巻, 第5号,p.22-25
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、以上のような従来の不具合を解決するためのものであって、その課題は、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することにある。
【課題を解決するための手段】
【0006】
前記課題を解決するために、請求項1に記載の発明にあっては、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像に表示された文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備え、
前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、
前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段と、
前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、 前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報を互いに照合する複合情報照合手段とを有することを特徴とする。
【0007】
ここで、文字情報とは、映像に表示され、映像に関連する単語、文章の情報であって、例えば、映像に表示されたテロップの文字列を含む概念である。
従って、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納される。
また、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
【0008】
請求項2に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
ここで、辞書ファイルには、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
【0009】
請求項3に記載に発明にあっては、前記文字情報抽出手段は、画像解析済みの映像と、
前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合して画像解析する画像解析手段を有することを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
【0010】
請求項4に記載の発明にあっては、前記文字情報抽出手段は、前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記画像解析蓄積ファイルを修正する画像解析学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
【0011】
請求項5に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像に対して画像解析を行い、前記映像から文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段によって抽出された前記文字情報をインターネットにより検索し取得された情報と照合するインターネット照合手段とを有することを特徴とする。
ここで、インターネットにより検索し取得された情報とは、大手新聞社、地方新聞社、ニュース配信会社、テレビ会社等のサイト、ニュース専門サイト、ニュースまとめサイト、その他一般のウェブサイトから取得される情報や、オンライン辞書等から取得される用語解説に関する情報を含む概念である。
従って、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
【0012】
請求項6に記載の発明にあっては、前記文字情報取得手段は、前記文字情報抽出手段によって抽出された文字情報に基づいて、前記辞書ファイルを修正する辞書更新手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正される。
【0013】
請求項7に記載の発明にあっては、前記辞書ファイルは、辞書データと、前記辞書データの頻度パラメータとを有し、前記辞書照合手段は、前記頻度パラメータの大きい辞書データを照合対象として優先的に選択することを特徴とする。
ここで、頻度パラメータとは、辞書データに含まれる単語、熟語等が映像にどのような頻度で表示されているかを表すパラメータである。具体的には、前記辞書照合手段が、前記文字情報抽出手段によって映像から抽出された文字情報を辞書ファイルと照合する毎に前記頻度パラメータを更新する。
従って、前記辞書照合手段によって、前記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合される。
【0014】
請求項8に記載の発明にあっては、前記文字情報文章化手段は、前記メタデータ格納ファイルを参照し、前記文字情報取得手段によって取得された前記文字情報に関連するメタ
データを前記文字情報の文章化に利用することを特徴とする。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができる。
【0015】
請求項9に記載の発明にあっては、前記文字情報文章化手段は、前記録画ファイルに録画された映像の電子番組表データを取得し、前記文字情報の文章化に利用することを特徴とする。
ここで、電子番組表データとは、テレビ放送局が放送する放送番組映像やインターネットによって配信される動画映像の放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれたデータである。
従って、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、前記文字情報の文章化に利用することができる。
【0016】
請求項10に記載の発明にあっては、前記文字情報取得手段は、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とを照合し、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情を文字情報として抽出する映像認識情報抽出手段を有することを特徴とする。
従って、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
【0017】
請求項11に記載に発明にあっては、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されていることを特徴とする。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
従って、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
【0018】
請求項12に記載の発明にあっては、前記文字情報取得手段は、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を修正する映像認識学習手段をさらに有することを特徴とする。
ここで、修正は追加、削除を含む概念である。
従って、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
【0019】
請求項13に記載の発明にあっては、前記文字情報取得手段は、前記録画ファイルに録画された映像と共に録音された音声に対して音声解析を行い、前記音声から文字情報を抽出する音声情報抽出手段と、前記音声情報抽出手段によって抽出された前記文字情報を辞書ファイルと照合する辞書照合手段とを有することを特徴とする。
従って、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共
に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
【0020】
請求項14に記載に発明にあっては、前記音声情報抽出手段は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合して音声解析する音声解析手段を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
従って、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
【0021】
請求項15に記載の発明にあっては、前記文字情報取得手段は、前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、前記音声解析蓄積ファイルを修正する音声解析学習手段をさらに有することを特徴とする。
【0022】
ここで、修正は追加、削除を含む概念である。
従って、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
【0023】
請求項16に記載の発明にあっては、前記映像は、テレビ放送局が放送する放送番組映像であることを特徴とする。
【0024】
請求項17に記載の発明にあっては、前記映像は、インターネットによって配信される動画映像であることを特徴とする。
【発明の効果】
【0025】
請求項1〜17に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報取得手段によって、前記録
画ファイルに録画された前記映像に表示された文字情報が取得され、前記文字情報文章化手段によって、取得された前記文字情報が文章化され、前記メタデータ格納手段によって、文章化された前記文字情報が前記映像のメタデータとして前記メタデータ格納ファイルに格納されるので、前記映像に表示され、前記映像に関連する単語、文章の情報である前記文字情報から前記映像のメタデータを精度良く自動作成することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
【0026】
また、請求項1に記載のメタデータ生成システムにあっては、前記録画手段によって、前記録画ファイルに映像が録画された場合には、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出され、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合される。
従って、画像解析、音声解析、及び、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から効率よく前記文字情報を抽出できる。
また、前記複合情報照合手段によって、前記文字情報抽出手段、前記映像認識情報抽出手段、及び、前記音声情報抽出手段によって、夫々、抽出された文字情報が互いに照合されるので、例えば、前記文字情報抽出手段によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、前記音声情報抽出手段によって抽出された文字情報に基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。
【0027】
請求項2に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。
【0028】
請求項3に記載のメタデータ生成システムにあっては、前記画像解析手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイルと照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
【0029】
請求項4に記載のメタデータ生成システムにあっては、前記画像解析学習手段によって、前記画像解析蓄積ファイルが前記画像解析手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記画像解析蓄積ファイルに追加したり、前記画像解析蓄積ファイルに含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記画像解析蓄積ファイルを更新して常に最新の状態で使用することができる。
【0030】
また、請求項5に記載のメタデータ生成システムにあっては、前記文字情報抽出手段によって、前記録画ファイルに録画された前記映像が画像解析されることにより前記映像から文字情報が抽出され、前記インターネット照合手段によって、抽出された前記文字情報がインターネットにより検索され取得された情報と照合される。
従って、画像解析によって効率よく前記映像から前記文字情報を抽出できると共に、前記文字情報がインターネットにより検索され取得された情報と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された前記情報に基づいて修正し、前記文字情報の精度を高めることができる。
【0031】
請求項6に記載のメタデータ生成システムにあっては、前記辞書更新手段によって、前記辞書ファイルが前記文字情報抽出手段によって抽出された前記文字情報に基づいて修正されるので、前記文字情報から得られる新たな単語、文章等の情報を前記辞書ファイルに追加したり、前記辞書ファイルに含まれる誤った情報を前記文字情報に基づいて削除したりすることができ、その結果、前記辞書ファイルを更新して常に最新の状態で使用することができる。
請求項7に記載のメタデータ生成システムにあっては、前記辞書照合手段によって、前
記頻度パラメータの大きい前記辞書データが照合対象として優先的に選択され、選択された前記辞書データと、前記文字情報抽出手段によって抽出された前記文字情報とが照合されるので、例えば、前記辞書ファイルに互いに類似した複数の文字や単語が存在する場合に、前記頻度パラメータの大きい前記辞書データが優先的に選択され、照合対象となる。
その結果、前記頻度パラメータの大きい前記辞書データに基づいて修正することができ、前記文字情報の精度をより効率的に高めることができる。
【0032】
請求項8に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記メタデータ格納ファイルを参照して、前記文字情報に関連する作成済のメタデータを前記文字情報の文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
【0033】
請求項9に記載のメタデータ生成システムにあっては、前記文字情報文章化手段は、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する際に、前記映像の電子番組表データを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた前記電子番組表データを前記文字情報の文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
【0034】
請求項10に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情と、人物情報、ロゴ情報、物情報又は表情情報とが照合され、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出されるので、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情から前記映像のメタデータを作成することができる。
【0035】
請求項11に記載のメタデータ生成システムにあっては、前記映像認識情報抽出手段によって、前記録画ファイルに録画された前記映像が、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、前記映像に含まれる人物、ロゴ、前記人物の持ち物又は前記人物の表情が文字情報として抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
【0036】
請求項12に記載のメタデータ生成システムにあっては、前記映像認識学習手段によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、前記映像認識情報抽出手段によって画像解析された映像と、前記映像から抽出された文字情報とに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
【0037】
請求項13に記載のメタデータ生成システムにあっては、前記音声情報抽出手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が音声解析されることにより前記音声から文字情報が抽出され、前記辞書照合手段によって、抽出された前記文字情報が前記辞書ファイルと照合される。
従って、音声解析によって効率よく前記映像と共に録音された前記音声から前記文字情報
を抽出できると共に、前記文字情報が前記辞書ファイルと照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を前記辞書ファイルに基づいて修正し、前記文字情報の精度を高めることができる。
【0038】
請求項14に記載に発明にあっては、前記音声解析手段によって、前記録画ファイルに録画された前記映像と共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイルと照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、前記映像のメタデータを精度良く短時間で作成することができる。
【0039】
請求項15に記載の発明にあっては、前記音声解析学習手段によって、前記音声解析蓄積ファイルが前記音声解析手段によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて修正される。
【0040】
従って、今回行った音声解析結果を前記音声解析蓄積ファイルに追加したり、前記音声解析蓄積ファイルに含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、前記音声解析蓄積ファイルを更新して常に最新の状態で使用することができる。
【発明を実施するための形態】
【0042】
以下、添付図面に示す実施の形態に基づき、本発明を詳細に説明する。
(1)本実施の形態に係るメタデータ生成システム10の構成
図1及び
図3に示すように、本発明の一実施の形態に係るメタデータ生成システム10は、テレビ放送局30が放送する放送番組映像Vを録画する録画ファイル11を有する録画手段12と、録画ファイル11に録画された映像Vから文字情報Cを取得する文字情報取得手段13と、文字情報取得手段13によって取得された文字情報Cを集約して文章化する文字情報文章化手段14と、文字情報文章化手段14によって文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納するメタデータ格納手段16とを備えている。
【0043】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する文字情報抽出手段17と、文字情報抽出手段17によって抽出された文字情報Cを辞書ファイル18と照合する辞書照合手段19とを有している。
本実施の形態にかかる文字情報抽出手段17は、録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出する画像解析手段31と、抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する単語解析手段32とを有している。
ここで、形態素解析とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。具体的には、「○×オープン決勝進出」という文字列から「○×」(大会名)、「○×オープン」、「決勝」、「進出」、「決勝進出」といった単語を抽出することができる。
【0044】
図1に示すように、本実施の形態に係る画像解析手段31は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合して画像解析するように構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
【0045】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報抽出手段17は、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正する画像解析学習手段36をさらに有している。
【0046】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cをインターネット20により検索し取得された情報と照合するインターネット照合手段21を有している。
【0047】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正する辞書更新手段33をさらに有している。
【0048】
また、
図1及び
図3に示すように、本実施の形態に係る辞書ファイル18は、各国の言語に関する文字、熟語を有する辞書データが照合可能に含まれている辞書データDと、辞書データDの頻度パラメータ34とを有し、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択するように構成されている。
【0049】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報文章化手段14は、メ
タデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用するように構成されている。
【0050】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用するように構成されている。本実施の形態に係る電子番組表データEには、テレビ放送局30が放送する放送番組映像Vの放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれている。
【0051】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する映像認識情報抽出手段22を有している。
【0052】
本実施の形態に係る人物情報、ロゴ情報、物情報又は表情情報は、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とにより構成されている。
ここで、画像解析済みの映像とは、これまでに画像解析された映像を意味し、前記画像解析済みの映像から抽出された文字情報とは、画像解析された結果、正しく前記映像から抽出された文字情報を意味する。
【0053】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正する映像認識学習手段37をさらに有することを特徴とする。
【0054】
また、
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13は、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する音声情報抽出手段23を有している。
【0055】
図1に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合して音声解析する音声解析手段39を有することを特徴とする。
ここで、音声解析済みの音声とは、これまでに音声解析された音声を意味し、前記音声解析済みの音声から抽出された文字情報とは、音声解析された結果、正しく前記音声から抽出された文字情報を意味する。
【0056】
また、
図1及び
図3に示すように、本実施の形態に係る音声情報抽出手段23は、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正する音声解析学習手段40をさらに有することを特徴とする。
【0057】
図1及び
図3に示すように、本実施の形態に係る文字情報取得手段13にあっては、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cを互いに照合する複合情報照合手段24を備えている。
【0058】
図1及び
図3に示すように、本実施の形態に係る録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画しうるように所定の容量のハードディスク型の記憶装置を有する大型の録画装置である。
本実施の形態において、録画手段12内に装備されたハードディスク内の録画ファイル11は、テレビ放送局30により放送された映像Vからなる番組コンテンツ25と、番組コンテンツ25が放送されたチャンネル名26と、番組コンテンツ25のタイムコード27に関する情報を有している。
この場合、番組コンテンツ25は、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
【0059】
また、
図1及び
図3に示すように、本実施の形態において、メタデータ格納手段16のメタデータ格納ファイル15には、番組コンテンツ要約テキストデータ28と、番組コンテンツ25が放送されたチャンネル名29と、番組コンテンツ25のタイムコード27とが記録されており、いずれも本実施の形態におけるメタデータMを構成するデータである。
番組コンテンツ要約テキストデータ28とは、テレビ放送局30により放送されたテレビ番組の内容を文字化して要約したものである。番組コンテンツ要約テキストデータ28は、番組コンテンツ25と同様に、放送番組単位、当該放送番組を構成するコーナー単位、又は当該放送番組を構成する記事単位からなる。
また、番組コンテンツ要約テキストデータ28には、ニュアンスパラメータを含めることができる。ここで、「ニュアンスパラメータ」とは、前記検索キーワードに対応する語句が出現する前記サイト情報のニュアンス(印象)を人工知能等のような自動システムや人間の判断により、数値化したものである。
例えば、番組コンテンツが良い内容(good)であれば高く(プラス評価)、悪い内容(bad)であれば低く(マイナス評価)、事実を述べただけの中立的な内容(neutral)であれば0(ゼロ評価)とすることができる。
【0060】
(2)本実施の形態に係るメタデータ生成システム10の処理の流れ
図2に示すように、本実施の形態に係るメタデータ生成システム10は以下の工程に従って処理を行う。まず、録画手段12が、テレビ放送局30が放送する放送番組映像Vを録画ファイル11に録画する(S1)。
この際、録画手段12は、全ての放送局、例えば、我が国における全ての地上局及び衛星放送の放送局から放送された全ての放送番組の映像を、所定期間、例えば1ヶ月に亘って録画することもできる。
【0061】
次いで、
図2に示すように、文字情報取得手段13が、録画ファイル11に録画された映像Vに表示された文字情報Cを取得する。
この際、文字情報抽出手段17が、録画ファイル11に録画された映像Vに対して画像解析を行い、映像Vから文字情報Cを抽出する(S2a)。
特に、
図1及び
図3に示すように、本実施の形態にかかる文字情報抽出手段17にあっては、画像解析手段31が録画ファイル11に録画された映像Vに対して画像解析を行うことによって文字列を抽出し、単語解析手段32が抽出した前記文字列に対して形態素解析を行うことによって前記文字列に含まれる単語を抽出する。
具体的には、
図3(a)に示すように、画像解析手段31が番組コンテンツ25の映像Vに対して画像解析を行うことによって、「××ニュース」、「速報○△選手○×オープン決勝進出」という文字列を抽出することができる。
続いて、単語解析手段32が抽出したこれらの文字列に対して形態素解析を行うことによって、「××」(番組名、チャンネル名)、「ニュース」、「××ニュース」、「速報」、「○△」(選手名)、「選手」、「○△選手」、「○×」(地域名、大会名)、「オープン」、「○×オープン」、「決勝」、「進出」といった単語を抽出することができる。
なお、
図1及び
図3に示すように、本実施の形態に係る文字情報抽出手段17にあっては、画像解析手段31が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する画像解析蓄積ファイル35
とを照合することにより、画像解析する。
【0062】
また、
図2に示すように、映像認識情報抽出手段22が、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とを照合し、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する(S2b)。
具体的には、
図3(a)に示すように、映像認識情報抽出手段22が番組コンテンツ25の映像Vに含まれる人物P、ロゴL、人物Pの持ち物B、人物Pの表情Fに対して、人物情報、ロゴ情報、物情報、表情情報を照合することによって、人物Pが「○△選手」、ロゴLが「○×オープン」、人物Pの持ち物Bが「テニス(ラケット)」、人物Pの表情Fが「精一杯な表情」であることが照合され、夫々を文字情報Cとして抽出することができる。
なお、
図1及び
図3に示すように、本実施の形態にあっては、映像認識情報抽出手段22が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する人物情報、ロゴ情報、物情報又は表情情報とを照合することにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fを文字情報Cとして抽出する。
【0063】
また、
図2に示すように、音声情報抽出手段23が、録画ファイル11に録画された映像Vと共に録音された音声に対して音声解析を行い、前記音声から文字情報Cを抽出する(S2c)。
なお、
図1及び
図3に示すように、本実施の形態に係る音声情報抽出手段23にあっては、音声解析手段39が、録画ファイル11に録画された映像Vと、画像解析済みの映像及び前記画像解析済みの映像から抽出された文字情報を有する音声解析蓄積ファイル38とを照合することにより、音声解析する。
【0064】
続いて、
図2に示すように、複合情報照合手段24が、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報を互いに照合する(S3)。
具体的には、
図1及び
図3に示すように、文字情報抽出手段17によって抽出された「○△選手」及び「○×オープン」が、映像認識情報抽出手段22によって抽出された「○△選手」(人物Pより抽出)及び「○×オープン」(ロゴLより抽出)と照合され、文字情報Cが正しく抽出されたことを確認し、文字情報Cの精度を高めることができる。
なお、処理速度を優先する場合には、複合情報照合手段24による照合工程S3を省略してもよい。
【0065】
ここで、
図1及び
図3に示すように、画像解析学習手段36が、画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、画像解析蓄積ファイル35を修正することができる。
【0066】
また、ここで、
図1及び
図3に示すように、映像認識学習手段37が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて、人物情報、ロゴ情報、物情報又は表情情報を修正することができる。
【0067】
また、さらに、
図1に示すように、音声解析学習手段40が、音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報とに基づいて、音声解析蓄積ファイル38を修正することができる。
【0068】
続いて、
図2に示すように、辞書照合手段19が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cを辞書ファイル18と照合する(S4a)。照合した結果、文字情報Cが辞書ファイル18と一致しなかった場合は、文字情報Cを辞書ファイル18に基づいて修正する。一方、文字情報Cが辞書ファイル18と一致した場合には、そのまま照合処理を終了する。
ここで、
図1に示すように、辞書照合手段19は、頻度パラメータ34の大きい辞書データDを照合対象として優先的に選択することができる。例えば、文字情報抽出手段17によって文字情報Cが「速報」ではなく誤って「連報」と抽出された場合において、辞書ファイル18と照合し、仮に「連報」という単語が登録されていたとしても、「速報」という単語の使用頻度が高く、当該単語の頻度パラメータが大きいことから、文字情報Cは「速報」であると判断して、文字情報Cを修正することができる。
【0069】
また、
図1及び
図3に示すように、辞書更新手段22が、文字情報抽出手段17によって抽出された文字情報Cに基づいて、辞書ファイル18を修正することができる。
例えば、文字情報抽出手段17によって「独壇場(どくだんじょう)」が抽出された場合に、辞書ファイル18に存在する「独擅場(どくせんじょう)」という正しい表現の他に、「独壇場(どくだんじょう)」という元々は誤りだが慣用的に使用されるようになった表現を辞書ファイル18に追加することができる。
【0070】
また、
図2に示すように、インターネット照合手段21が、文字情報抽出手段17、映像認識情報抽出手段22、又は、音声情報抽出手段23によって抽出された文字情報Cをインターネット20により検索し取得された情報Iと照合することもできる(S4b)。
照合した結果、文字情報Cが情報Iと一致しなかった場合は、文字情報Cを情報Iに基づいて修正する。一方、文字情報Cが情報Iと一致した場合には、そのまま照合処理を終了する。
処理速度を優先する場合には、辞書照合手段19による照合工程S4a、インターネット照合手段21による照合工程S4bのいずれか一方のみを実行すればよく、一方、文字情報Cの精度(正確さ)を優先する場合には、両方の工程を順序問わず実行することもできる。
【0071】
次いで、
図2に示すように、文字情報文章化手段14が、取得された文字情報Cを集約して文章化する(S5)。
具体的には、
図3に示すように、取得された文字情報Cである「××ニュース」、「速報」、「○△選手」、「○×オープン」、「決勝」、「進出」、「テニス(ラケット)」を集約して、「[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」という文字情報へと文章化することができる。
この際、文字情報文章化手段14は、メタデータ格納ファイル15を参照し、文字情報取得手段13によって取得された文字情報Cに関連するメタデータMを文字情報Cの文章化に利用することができる。
例えば、前日に放送された映像に係るメタデータが「(02/28 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が準決勝に進出した」というものであった場合に、「○×オープンに出場している」、「日本のトップテニスプレーヤー○△選手」、「準決勝に進出した」という文章を利用して、文字情報Cの文章化を迅速に処理し、精度を高めることができる。
【0072】
また、
図1及び
図3に示すように、文字情報文章化手段14は、録画ファイル11に録画された映像Vの電子番組表データEを取得し、文字情報Cの文章化に利用することもできる。例えば、電子番組表データEに「3月1日12時 ××ニュース」という情報が含まれていれば、メタデータMに「(03/01 12:00)[××ニュース]」という情報を追加し、文字情報Cの文章化を迅速に処理し、精度を高めることができる。
【0073】
次いで、
図2に示すように、メタデータ格納手段16が、文字情報文章化手段14によ
って文章化された文字情報を録画ファイル11に録画された映像VのメタデータMとしてメタデータ格納ファイル15に格納する(S6)。
具体的には、
図3(b)に示すように、メタデータ格納手段16が、番組コンテンツ25の映像VのメタデータMとして「(03/01 12:00)[××ニュース]○×オープンに出場している日本のトップテニスプレーヤー○△選手が決勝に進出した」というメタデータをメタデータ格納ファイル15に格納することができる。
以上より、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを作成することができる。
【0074】
(3)本実施の形態に係るメタデータ生成システム10の効果
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像が録画された場合には、文字情報取得手段13によって、録画ファイル11に録画された映像Vに表示された文字情報Cが取得され、文字情報文章化手段14によって、取得された文字情報Cが文章化され、メタデータ格納手段16によって、文章化された文字情報が映像VのメタデータMとしてメタデータ格納ファイル15に格納されるので、映像Vに表示され、映像Vに関連する単語、文章の情報である文字情報Cから映像VのメタデータMを精度良く自動作成することができる。
その結果、テレビ放送番組に関するメタデータを短時間で作成し、人的コストを削減することができるシステムを提供することができる。
【0075】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
【0076】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析手段31によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する画像解析蓄積ファイル35と照合されることにより、画像解析される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
【0077】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、画像解析学習手段36によって、画像解析蓄積ファイル35が画像解析手段31によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を画像解析蓄積ファイル35に追加したり、画像解析蓄積ファイル35に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、画像解析蓄積ファイル35を更新して常に最新の状態で使用することができる。
【0078】
また、
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、インターネット照合手段21によって、抽出された文字情報Cがインターネットにより検索され取得された情報Iと照合
される。
従って、画像解析によって効率よく映像Vから文字情報Cを抽出できると共に、文字情報Cがインターネットにより検索され取得された情報Iと照合されることにより、例えば、画像解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語をインターネットにより検索され取得された情報Iに基づいて修正し、文字情報Cの精度を高めることができる。
【0079】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書更新手段33によって、辞書ファイル18が文字情報抽出手段17によって抽出された文字情報Cに基づいて修正されるので、文字情報Cから得られる新たな単語、文章等の情報を辞書ファイル18に追加したり、辞書ファイル18に含まれる誤った情報を文字情報Cに基づいて削除したりすることができ、その結果、辞書ファイル18を更新して常に最新の状態で使用することができる。
【0080】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、辞書照合手段19によって、頻度パラメータ34の大きい辞書データDが照合対象として優先的に選択され、選択された辞書データDと、文字情報抽出手段17によって抽出された文字情報Cとが照合されるので、例えば、辞書ファイル18に互いに類似した複数の文字や単語が存在する場合に、頻度パラメータ34の大きい辞書データDが優先的に選択され、照合対象となる。
その結果、頻度パラメータ34の大きい辞書データに基づいて修正することができ、文字情報Cの精度をより効率的に高めることができる。
【0081】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、メタデータ格納ファイル15を参照して、文字情報Cに関連する作成済のメタデータMを文字情報Cの文章化に利用することができ、その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
【0082】
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、文字情報文章化手段14は、文字情報取得手段13によって取得された文字情報Cを集約して文章化する際に、映像Vの電子番組表データEを取得して、放送日時、配信日時、ジャンル、タイトル、出演者等の情報が含まれた電子番組表データEを文字情報Cの文章化に利用することができる。その結果、テレビ放送番組又はインターネット配信動画に関するメタデータを精度良く、より効率的に自動生成することができる。
【0083】
また、
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出されるので、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから映像VのメタデータMを作成することができる。
【0084】
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識情報抽出手段22によって、録画ファイル11に録画された映像Vが、画像解析済みの映像と、前記画像解析済みの映像から抽出された文字情報とを有する前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報と照合されることにより、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出される。
従って、過去から蓄積された画像解析結果を用いて効果的に画像解析を行うことができ
、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
【0085】
また、本実施の形態に係るメタデータ生成システム10にあっては、映像認識学習手段37によって、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報が、映像認識情報抽出手段22によって画像解析された映像Vと、映像Vから抽出された文字情報Cとに基づいて修正される。
従って、今回行った画像解析結果を前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に追加したり、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報に含まれる誤った情報を今回行った画像解析結果に基づいて削除したりすることができ、その結果、前記人物情報、前記ロゴ情報、前記物情報又は前記表情情報を更新して常に最新の状態で使用することができる。
【0086】
また、
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、辞書照合手段19によって、抽出された文字情報Cが辞書ファイル18と照合される。
従って、音声解析によって効率よく映像Vと共に録音された音声から文字情報Cを抽出できると共に、文字情報Cが辞書ファイル18と照合されることから、例えば、音声解析によって誤認識したり、完全に認識することが出来なかったりした文字や単語を辞書ファイル18に基づいて修正し、文字情報Cの精度を高めることができる。
【0087】
本実施の形態に係るメタデータ生成システム10にあっては、音声解析手段39によって、録画ファイル11に録画された映像Vと共に録音された前記音声が、音声解析済みの音声と、前記音声解析済みの音声から抽出された文字情報とを有する音声解析蓄積ファイル38と照合されることにより、音声解析される。
従って、過去から蓄積された音声解析結果を用いて効果的に音声解析を行うことができ、その結果、映像VのメタデータMを精度良く短時間で作成することができる。
【0088】
また、本実施の形態に係るメタデータ生成システム10にあっては、音声解析学習手段40によって、音声解析蓄積ファイル38が音声解析手段39によって音声解析された音声と、前記音声から抽出された文字情報Cとに基づいて修正される。
従って、今回行った音声解析結果を音声解析蓄積ファイル38に追加したり、音声解析蓄積ファイル38に含まれる誤った情報を今回行った音声解析結果に基づいて削除したりすることができ、その結果、音声解析蓄積ファイル38を更新して常に最新の状態で使用することができる。
【0089】
また、
図1及び
図3に示すように、本実施の形態に係るメタデータ生成システム10にあっては、録画手段12によって、録画ファイル11に映像Vが録画された場合には、文字情報抽出手段17によって、録画ファイル11に録画された映像Vが画像解析されることにより映像Vから文字情報Cが抽出され、映像認識情報抽出手段22によって、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fと、人物情報、ロゴ情報、物情報又は表情情報とが照合され、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fが文字情報Cとして抽出され、音声情報抽出手段23によって、録画ファイル11に録画された映像Vと共に録音された音声が音声解析されることにより前記音声から文字情報Cが抽出され、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合される。
従って、画像解析、音声解析、及び、映像Vに含まれる人物P、ロゴL、人物Pの持ち物B又は人物Pの表情Fから効率よく文字情報Cを抽出できる。
また、複合情報照合手段24によって、文字情報抽出手段17、映像認識情報抽出手段
22、及び、音声情報抽出手段23によって、夫々、抽出された文字情報Cが互いに照合されるので、例えば、文字情報抽出手段17によって誤認識したり、完全に認識することが出来なかったりした文字や単語を、音声情報抽出手段23によって抽出された文字情報Cに基づいて修正することができる。
その結果、テレビ放送番組又はインターネット配信動画に関するメタデータをより精度良く効率的に自動生成することが出来るシステムを提供することができる。
【0090】
本実施の形態にあっては、映像Vは、テレビ放送局30が放送する放送番組映像である場合を例に説明したが、前記構成に限定されず、映像Vは、インターネットによって配信される動画映像であってもよい。