IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社フジテレビジョンの特許一覧

特開2023-13809情報抽出装置および情報抽出プログラム
<>
  • 特開-情報抽出装置および情報抽出プログラム 図1
  • 特開-情報抽出装置および情報抽出プログラム 図2
  • 特開-情報抽出装置および情報抽出プログラム 図3A
  • 特開-情報抽出装置および情報抽出プログラム 図3B
  • 特開-情報抽出装置および情報抽出プログラム 図3C
  • 特開-情報抽出装置および情報抽出プログラム 図4
  • 特開-情報抽出装置および情報抽出プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023013809
(43)【公開日】2023-01-26
(54)【発明の名称】情報抽出装置および情報抽出プログラム
(51)【国際特許分類】
   G06F 16/783 20190101AFI20230119BHJP
   H04N 21/4402 20110101ALI20230119BHJP
   G06T 1/00 20060101ALI20230119BHJP
【FI】
G06F16/783
H04N21/4402
G06T1/00 200D
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2021118237
(22)【出願日】2021-07-16
(71)【出願人】
【識別番号】508330685
【氏名又は名称】株式会社フジテレビジョン
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】白坂 典義
【テーマコード(参考)】
5B050
5B175
5C164
【Fターム(参考)】
5B050BA10
5B050BA20
5B050GA08
5B175DA04
5B175FB01
5B175FB02
5C164FA04
5C164GA06
5C164MB12S
5C164PA32
5C164PA39
5C164UB02P
5C164UB41S
5C164YA21
(57)【要約】
【課題】報道、や教養に係る番組等についてスーパーを正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することが可能な情報抽出装置および情報抽出プログラムを提供する。
【解決手段】番組を構成する動画から映像データを取得する映像データ取得手段101と、映像データを所定時間間隔の静止画に変換する変換手段102と、静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得手段103とを備え、テキスト情報取得手段は、静止画に含まれる文字情報のうち、映像データを表示する画面の所定位置に表示される文字列をテレビ番組の内容を要約した文字列情報として抽出する要約文字列抽出手段104と、文字列を取得した時刻情報を文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成手段105とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
番組を構成する動画から映像データを取得する映像データ取得手段と、
前記映像データを所定時間間隔の静止画に変換する変換手段と、
前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得手段と、
を備え、
前記テキスト情報取得手段は、
前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記テレビ番組の内容を要約した文字列情報として抽出する要約文字列抽出手段と、
前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成手段と、
を備えることを特徴とする情報抽出装置。
【請求項2】
前記画面の所定位置は、前記画面の右上領域を含むことを特徴とする請求項1に記載の情報抽出装置。
【請求項3】
前記一次リスト情報に対して所定の処理を行うリスト情報処理手段をさらに備え、
該リスト情報処理手段は、
前記文字列が予め設定した文字数の下限値を超えるか否かを判定し、前記下限値を超えていないと判定した場合に、次の文字列に対して同様の処理を行うことを特徴とする請求項1または請求項2に記載の情報抽出装置。
【請求項4】
前記リスト情報処理手段は、
前記下限値を超えたと判定された場合に、当該文字列を比較対象1として保持し、
次に前記下限値を超えたと判定された場合に、当該文字列を比較対象2として保持し、
前記比較対象1と、前記比較対象2とを所定のアルゴリズムに基づいて比較し、
前記比較対象2の文字列が前記一次リスト情報における最後の文字列に該当するか否かを判定し、
最後の文字列に該当すると判定された場合は、所定の閾値を満たすか否かの判定を行い、
前記所定の閾値を満たすと判定された場合には、当該最後の文字列を二次リスト情報として記録することを特徴とする請求項3に記載の情報抽出装置。
【請求項5】
前記所定のアルゴリズムは、レーベンシュタイン距離に基づいて文字列同士を比較するアルゴリズムであることを特徴とする請求項4に記載の情報抽出装置。
【請求項6】
前記リスト情報処理手段は、
前記比較対象2が前記一次リスト情報における最後の文字列ではなく、且つ予め設定した閾値を満たしていると判定された場合には、これらの文字列を前記二次リスト情報として記録することを特徴とする請求項4または請求項5に記載の情報抽出装置。
【請求項7】
前記リスト情報処理手段は、
前記閾値を満たさないと判定された連続回数が予め設定される指定回数に達していない場合に、この状態が1回目であるか2回目以降であるかを判定し、
1回目であると判定された場合は、この際の比較対象2の文字列を一時保存リストに次の比較対象1の候補として記録し、
2回目以降であると判定された場合には、以降の文字列を前記比較対象2として処理を行うことを特徴とする請求項6に記載の情報抽出装置。
【請求項8】
前記リスト情報処理手段は、
前記閾値を満たさないと判定された連続回数が予め設定される指定回数に達している場合は、この時点で比較している文字列について前記二次リスト情報に記録されている回数が指定回数に達しているかの判定を行い、
前記指定回数に達していると判定された場合には、前記文字列を番組項目リスト情報に記録することを特徴とする請求項7に記載の情報抽出装置。
【請求項9】
前記リスト情報処理手段は、
前記文字列を番組項目リスト情報に記録する際に、前記二次リスト情報に記録した文字列のうち、完全一致する箇所が最も多かった文字列を、番組項目名として採用することを特徴とする請求項8に記載の情報抽出装置。
【請求項10】
番組を構成する動画から映像データを取得する映像データ取得ステップと、
前記映像データを所定時間間隔の静止画に変換する変換ステップと、
前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得ステップと、
前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記テレビ番組の内容を要約した文字列情報として抽出する要約文字列情報抽出ステップと、
前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成ステップと、
前記一次リスト情報に対して所定の処理を行うリスト情報処理ステップと、
を有し、
情報抽出装置で実行されることを特徴とする情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビ放送や通信によって配信される番組等の動画コンテンツ(以下番組と呼称する)の映像から情報を抽出する情報抽出装置および情報抽出プログラムに関するものである。
【背景技術】
【0002】
放送事業者によって制作された番組は、放送事業者自体にとって番組アーカイブとして重要な資産である。
【0003】
記録された番組アーカイブのデータは、後日における情報検索や二次利用のために、番組ごとに詳細なメタデータ(付帯情報)を付与し、番組映像と共に保管されている。
【0004】
ところで、従来において、上述のようなメタデータの抽出や入力作業は専門部署において行われている。
【0005】
そして、それらの情報の入力は、担当者による手入力であることが多く多大の労力と時間を要していた。特に、報道や教養に係る番組は日毎の放送時間が長く、その内容の把握にも時間を要していた。
【0006】
そこで、報道や教養に係る番組から情報を自動で抽出する情報抽出装置等の開発が進められている。
【0007】
情報抽出装置等に関する技術としては、例えば特許文献1が挙げられる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2001-111910号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
ところが、従来技術に係る情報抽出装置等では、報道や教養に係る番組に重畳して表示される多種多様で複雑な文字情報(以下、スーパーと呼称する)を正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することはできないという問題があった。
【0010】
本発明は上記の事情に鑑み、スーパーを正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することが可能な情報抽出装置および情報抽出プログラムを提供することを目的としている。
【課題を解決するための手段】
【0011】
実施の態様に係る情報抽出装置は、番組を構成する動画から映像データを取得する映像データ取得手段と、前記映像データを所定時間間隔の静止画に変換する変換手段と、前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得手段と、を備え、前記テキスト情報取得手段は、前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記テレビ番組の内容を要約した文字列情報として抽出する要約文字列抽出手段と、前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成手段と、を備えることを要旨とする。
【0012】
また、前記画面の所定位置は、前記画面の右上領域を含むようにできる。
【0013】
また、前記一次リスト情報に対して所定の処理を行うリスト情報処理手段をさらに備え、当該リスト情報処理手段は、前記文字列が予め設定した文字数の下限値を超えるか否かを判定し、前記下限値を超えていないと判定した場合に、次の文字列に対して同様の処理を行うようにできる。
【0014】
また、前記リスト情報処理手段は、前記下限値を超えたと判定された場合に、当該文字列を比較対象1として保持し、次に前記下限値を超えたと判定された場合に、当該文字列を比較対象2として保持し、前記比較対象1と、前記比較対象2とを所定のアルゴリズムに基づいて比較し、前記比較対象2の文字列が前記一次リスト情報における最後の文字列に該当するか否かを判定し、最後の文字列に該当すると判定された場合は、所定の閾値を満たすか否かの判定を行い、前記所定の閾値を満たすと判定された場合には、当該最後の文字列を二次リスト情報として記録するようにしてもよい。
【0015】
また、前記所定のアルゴリズムは、レーベンシュタイン距離に基づいて文字列同士を比較するアルゴリズムであるようにできる。
【0016】
また、前記リスト情報処理手段は、前記比較対象2が前記一次リスト情報における最後の文字列ではなく、且つ予め設定した閾値を満たしていると判定された場合には、これらの文字列を前記二次リスト情報として記録するようにしてもよい。
【0017】
また、前記リスト情報処理手段は、前記閾値を満たさないと判定された連続回数が予め設定される指定回数に達していない場合に、この状態が1回目であるか2回目以降であるかを判定し、1回目であると判定された場合は、この際の比較対象2の文字列を前記一次リスト情報に次の比較対象1の候補として記録し、2回目以降であると判定された場合には、以降の文字列を前記比較対象2として処理を行うようにできる。
【0018】
また、前記リスト情報処理手段は、前記閾値を満たさないと判定された連続回数が予め設定される指定回数に達している場合は、この時点で比較している文字列について前記二次リスト情報に記録されている回数が指定回数に達しているかの判定を行い、前記指定回数に達していると判定された場合には、前記文字列を番組項目リスト情報に記録するようにできる。
【0019】
また、前記リスト情報処理手段は、前記文字列を番組項目リスト情報に記録する際に、前記二次リスト情報に記録した文字列のうち、完全一致する箇所が最も多かった文字列を、番組項目名として採用するようにできる。
【0020】
他の実施の態様に係る情報抽出プログラムは、番組を構成する動画から映像データを取得する映像データ取得ステップと、前記映像データを所定時間間隔の静止画に変換する変換ステップと、前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報ステップと、前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記テレビ番組の内容を要約した文字列情報として抽出する要約文字列情報抽出ステップと、前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成ステップと、前記一次リスト情報に対して所定の処理を行うリスト情報処理ステップと、を有し、情報抽出装置で実行されることを要旨とする。
【発明の効果】
【0021】
本発明によれば、報道や教養に係る番組等についてスーパーを正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することが可能な情報抽出装置および情報抽出プログラムを提供することができる。
【図面の簡単な説明】
【0022】
図1】実施形態に係る情報抽出装置の機能構成を示す機能ブロック図である。
図2】実施形態に係る情報抽出装置で実行される情報抽出処理の処理手順を示すフローチャートである。
図3A】実施形態に係る情報抽出装置で実行されるリスト情報処理の処理手順を示すフローチャートである。
図3B】実施形態に係る情報抽出装置で実行されるリスト情報処理の処理手順の続きを示すフローチャートである。
図3C】実施形態に係る情報抽出装置で実行されるリスト情報処理の処理手順の続きを示すフローチャートである。
図4】実施形態に係る情報抽出装置による表示例を示す説明図である。
図5】実施形態に係る情報抽出装置による項目抽出結果の例を示す説明図である。
【発明を実施するための形態】
【0023】
以下、本発明の一例としての実施の形態を図面に基づいて詳細に説明する。ここで、添付図面において同一の部材には同一の符号を付しており、また、重複した説明は省略されている。なお、ここでの説明は本発明が実施される最良の形態であることから、本発明は当該形態に限定されるものではない。
【0024】
[情報抽出装置の構成例]
図1を参照して、実施の形態に係る情報抽出装置M1について説明する。
【0025】
図1は、本実施形態に係る情報抽出装置M1の機能構成を示す機能ブロック図である。
【0026】
なお、情報抽出装置M1は、例えば汎用のコンピュータやサーバ等で構成される。
【0027】
ここで、情報抽出装置M1は、ファイル化された番組映像を一定時間間隔の静止画に変換し、これをOCR技術を利用して、画像から文字を検出してテキスト化する処理を実現する装置である。
【0028】
なお、画像内に表示される文字のうち、画面右上部分等に表示されているスーパー(右上サイドスーパーとも呼ぶ)が、その時点の放送内容を要約した文字列であることが多いことに着目し、この領域に表示された文字列とその時の時刻情報を番組単位で時系列に一つにしたリスト情報(後述の一次リスト情報)にまとめている。
【0029】
図1に示すように、情報抽出装置M1は、放送事業者B1で制作される番組を構成する動画から映像データD1を取得する映像データ取得手段101を備える。
【0030】
また、情報抽出装置M1は、映像データD1を所定時間間隔(例えば、4秒等)の静止画D2に変換するソフトウェアまたはハードウェアで構成される変換手段102を備える。
【0031】
また、情報抽出装置M1は、静止画D2に含まれる文字情報T1を認識してテキスト情報T2を取得するソフトウェアまたはハードウェアで構成されるテキスト情報取得手段103を備える。
【0032】
さらに、テキスト情報取得手段103は、静止画D2に含まれる文字情報T1のうち、映像データD1を表示する画面(例えば、図4に示すモニタ画面501)の所定位置(例えば、モニタ画面501の右上領域501aを含む(図4参照))に表示される文字列T1をテレビ番組の内容を要約した文字列情報T3として抽出するソフトウェアまたはハードウェアで構成される要約文字列抽出手段104を備える。
【0033】
また、テキスト情報取得手段103は、文字列T1を取得した時刻情報を文字列情報T3に関連付けした一次リスト情報L1を生成する一次リスト情報生成手段105を備える。
【0034】
また、テキスト情報取得手段103は、一次リスト情報L1に対して所定の処理を行うリスト情報処理手段106を備える。
【0035】
このリスト情報処理手段106は、文字列T1が予め設定した文字数の下限値U1(例えば、10文字等)を超えるか否かを判定する。
【0036】
そして、下限値U1を超えていないと判定した場合には、次の文字列に対して同様の処理を行う。
【0037】
また、リスト情報処理手段106は、下限値U1を超えたと判定された場合に、当該文字列を比較対象1として保持し、次に下限値U1を超えたと判定された場合に、当該文字列を比較対象2として保持する。
【0038】
次いで、比較対象1と、比較対象2とを所定のアルゴリズムに基づいて比較し、比較対象2の文字列が一次リスト情報L1における最後の文字列に該当するか否かを判定する。
【0039】
そして、最後の文字列に該当すると判定された場合は、所定の閾値(0.5など0から1までの任意の値)を満たすか否かの判定を行い、所定の閾値を満たすと判定された場合には、当該最後の文字列を二次リスト情報L2として記録する。
【0040】
なお、上述の所定のアルゴリズムは、レーベンシュタイン距離に基づいて文字列同士を比較するアルゴリズムとすることができる。
【0041】
ここで、情報抽出装置M1にも適用されるOCR技術は、日本語のような複雑な言語を解析させた場合に、一定の割合で誤認識が発生してしまう。そのため、一次リスト情報から同一の文字列を一つの番組内項目として取り出すと、誤認識した文字列が別の項目となってしまう虞があり、本来は同じ項目であるにも関わらず、別の項目として分けられる場合が生じる。また、文字列の一部が実際に変更されたが、内容はほぼ同じであった場合にも、同様の事象が発生する。
【0042】
このような事象を避けるために、文字列を比較する際には、ある程度の曖昧さが必要となる。
【0043】
このような曖昧さを勘案した文字列の比較を行うために、本実施の形態に係る情報抽出装置M1では、レーベンシュタイン距離という概念を応用した。
【0044】
このようなレーベンシュタイン距離という概念を適用して、一定の違いを許容しながらリストの文字列を比較することで、誤認識や数文字程度の文字列の変化の影響を軽減して、より意図に沿った項目一覧を作成することが可能となる。
【0045】
なお、レーベンシュタイン距離という概念を用いたOCR技術は、既に種々開発されており、情報抽出装置M1における文字列の文字認識については、これらの既存のOCR技術を適宜選択して適用することができる。
【0046】
また、リスト情報処理手段106は、比較対象2が一次リスト情報L1における最後の文字列ではなく、且つ予め設定した閾値を満たしていると判定された場合には、これらの文字列を二次リスト情報L2として記録するようにしてもよい。
【0047】
また、リスト情報処理手段106は、閾値を満たさないと判定された連続回数が予め設定される指定回数に達していない場合に、この状態が1回目であるか2回目以降であるかを判定し、1回目であると判定された場合は、この際の比較対象2の文字列を一次リスト情報L1に次の比較対象1の候補として記録し、2回目以降であると判定された場合には、以降の文字列を比較対象2として処理を行うようにできる。
【0048】
また、リスト情報処理手段106は、閾値を満たさないと判定された連続回数が予め設定される指定回数に達している場合は、この時点で比較している文字列について二次リスト情報L2に記録されている回数が指定回数に達しているかの判定を行い、指定回数に達していると判定された場合には、文字列を番組項目リスト情報L3に記録するようにできる。
【0049】
また、リスト情報処理手段106は、文字列を番組項目リスト情報L3に記録する際に、二次リスト情報L2に記録した文字列のうち、完全一致する箇所が最も多かった文字列を、番組項目名として採用するようにできる。
【0050】
なお、情報抽出装置M1は、文字列の抽出結果や番組項目名等のデータを格納するハードディスクドライブ等で構成される記録手段107を備える。
【0051】
また、文字列の抽出結果や番組項目名等を表示する液晶モニタ等で構成される表示手段500を備える。
【0052】
なお、具体的な表示例等については後述する。
【0053】
[情報抽出処理について]
図2のフローチャートを参照して、本実施形態に係る情報抽出装置M1で実行される情報抽出処理の処理手順について説明する。
【0054】
この処理が開始されると、まずステップS101で、放送事業者B1で制作されて放送される番組を構成する動画から映像データD1を取得してステップS102に移行する。
【0055】
ステップS102では、映像データD1を所定時間間隔の静止画D2に変換してステップS103に移行する。
【0056】
ステップS103では、例えば、画面右上の指定領域500a内の文字列T1を画像認識によりテキスト化してステップS104に移行する。
【0057】
ステップS104では、番組内容を要約した文字列情報を抽出してステップS105に移行する。
【0058】
ステップS105では、時刻情報と文字列の組み合わせから一次リスト情報L1を生成してステップS106に移行する。
【0059】
ステップS106では、後述するリスト情報処理のサブルーチンを実行してステップS107では、所定文字列を番組項目リスト情報L3に記録して処理を終了する。
【0060】
これにより、動画ファイルの操作、番組項目リスト情報L3の活用によって、番組情報の管理を効率的に行うことができる。
【0061】
[リスト情報処理について]
図3A図3Cのフローチャートを参照して、リスト情報処理のサブルーチンの処理手順について説明する。
【0062】
ステップS201では、生成された一次リスト情報L1を取得してステップS202に移行する。
【0063】
ステップS202では、文字列T1を時系列に並べ、最初に検出された文字列から順次処理を行う。
【0064】
ステップS203では、文字列T1の文字数は設定した下限値U1を満たすか否かが判定される。
【0065】
判定結果が「No」の場合にはステップS204に移行して、下限値U1を満たす文字列を検出するまで処理を繰り返すためにステップS201に戻る。
【0066】
また、判定結果が「Yes」の場合にはステップS205に移行する。
【0067】
ステップS205では、この文字列T1をレーベンシュタイン距離を用いたアルゴリズムで比較する最初の比較対象1としてステップS206に移行する。
【0068】
ステップS206では、比較対象1以降で、文字数の下限値U1を満たす文字列を比較対象2としてステップS207に移行する。
【0069】
ステップS207では、上述のレーベンシュタイン距離を用いたアルゴリズムにより、比較対象1、2を比較してステップS208に移行する。
【0070】
ステップS208では、一次リスト情報L1の最後の処理か否かが判定される。
【0071】
そして、判定結果が「Yes」の場合にはステップS209に移行して、文字列の比較結果が閾値を満たすか否かが判定される。
【0072】
判定結果が「No」の場合にはステップS218に移行する。また、判定結果が「Yes」の場合には、ステップS210で二次リスト情報L2に記録してからステップS218に移行する。
【0073】
一方、ステップS208で「No」と判定された場合には、ステップS211に移行する。
【0074】
ステップS211では、文字列の比較結果が閾値を満たすか否かが判定され、「Yes」の場合にはステップS212に移行する。
【0075】
ステップS212では、二次リスト情報L2に記録し、以降の文字列を比較対象2としてステップS207に戻る。
【0076】
一方、ステップS211で「No」と判定された場合にはステップS213に移行する。
【0077】
ステップS13では、連続して閾値を満たさなかった回数が指定回数に達したか否かが判定される。
【0078】
判定結果が「Yes」の場合にはステップS218に移行し、「No」の場合にはステップS214に移行する。
【0079】
ステップS214では、閾値をみたさなかった場合の1回目か否かが判定される。判定結果が「No」の場合にはステップS215に移行して、2回目以降であるとして、以降の文字列を比較対象2としてステップS207に戻る。
【0080】
また、「Yes」の場合には、ステップS216に移行して、今回の比較対象2の文字列を一時保存リストに記録してステップS217に移行する。
【0081】
ステップS217では、以降の文字列を比較対象2としてステップS207に戻る。
【0082】
一方、ステップS218では、現在比較している文字列の二次リスト情報に記録されている回数が指定回数に達したか否かが判定される。
【0083】
そして、判定結果が「No」の場合にはステップS219に移行して、これらの文字列は番組項目としては採用せずに破棄してステップS221に移行する。
【0084】
また、判定結果が「Yes」の場合には、ステップS220に移行して、番組項目一覧リストに所定の処理(該当する番組項目の開始、終了時刻等の情報整理)を加えた後に記録してステップS221に移行する。
【0085】
ステップS221では、一時保存リストに記録された文字列を比較対象1としてステップS222に移行する。
【0086】
ステップS222では、一次リスト情報L1の最後の処理であるか否かが判定され、「No」の場合にはステップS207に移行し、「Yes」の場合には処理を終了する。
【0087】
このような処理により、例えば報道や教養に係る番組等についてスーパー(文字列)を正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することが可能となる。
【0088】
特に、二次リスト情報L2に記録した文字列のうち、完全一致する箇所が最も多かった文字列を、番組項目名として採用することができる。
【0089】
[表示例について]
図4の説明図を参照して、情報抽出装置M1の表示手段(液晶表示装置等)500の表示例について説明する。
【0090】
図4において、表示手段500の画面上の左側付近には、動画表示領域501、静止画表示領域502、再生情報表示領域503、番組情報表示領域504が設定されている。
【0091】
また、画面の中央付近には、登録人物表示領域505、人物情報表示領域506が設定されている。
【0092】
また、画面の右側付近には検出文字情報表示領域507が設定されている。
【0093】
そして、動画表示領域501では、表示された文字列(スーパー)を自動抽出したい番組の動画(映像データ取得手段101で取得された映像データD1に相当)を表示させる。
【0094】
図4に示す例では、番組名「ニュースN」の動画の一場面を表示した場合を示す。なお、ここでは、動画表示領域501の右上の表示領域(右上サイドスーパーとも呼ぶ)501aに表示される文字列を抽出対象としている。
【0095】
図4に示す例では、右上サイドスーパー501aに「速報 きょう東京394人感染」と表示された状態を示す。また、動画表示領域501には人物Hが一人表示された状態となっている。
【0096】
静止画表示領域502には、変換手段102で映像データD1から変換された静止画データD2が表示される。なお、説明の便宜上、図4に示す例では、動画表示領域501と静止画表示領域502に表示される画像は同じ状態のものとしている。
【0097】
そして、静止画表示領域502において、人物Hの顔認識処理が行われ、例えばアナウンサーH2と特定される。なお、顔認識処理には既存の種々の技術を適用できる。
【0098】
特定されたアナウンサーH2は、登録人物表示領域505に表示される登録済人物のデータと照合され、例えばアナウンサーH2の顔写真が強調表示される。
【0099】
また、同時に人物情報表示領域506に、アナウンサーH2に関する人物の情報が表示される。
【0100】
また、右上サイドスーパー501aとして表示される「速報 きょう東京394人感染」なる文字列T1が項目抽出の対象となる。
【0101】
そして、右上サイドスーパー501aに時系列的に表示される以降の文字列に対して、図1に示した情報抽出装置M1の各手段および図2図3A図3Cのフローチャートに示す情報抽出処理およびリスト情報処理によって上述の処理が施される。
【0102】
これにより、検出文字情報表示領域507の例えば上から3番目の項目名3として「東京394人」なる文字列が抽出される。
【0103】
なお、再生情報表示領域503には、番組名「ニュースN」の動画の再生時間等の情報が表示される。
【0104】
また、検出文字情報表示領域507には、番組名「ニュースN」の動画に対する同様の処理により、例えば、項目名1として「Y被告辞職願を提出」、項目名2として「五輪に危機感」などが抽出された例が示されている。
【0105】
このように、本実施の形態に係る情報抽出装置M1によれば、例えば報道や生活情報に係る番組等についてスーパー(文字列)を自動的に正確且つ効率的に把握して、番組内の項目や要旨を的確に抽出することができる。
【0106】
[項目抽出結果の例について]
図5を参照して、本実施の形態に係る情報抽出装置M1による項目候補抽出結果の例について簡単に説明する。
【0107】
図5に示す例では、静止画像と項目候補抽出結果の対応を示している。
【0108】
即ち、例えば静止画像001.jpgからは「速報きょう東京394人感染」の項目候補が、静止画像002.jpgからは「東京394人と発表」の項目候補が、静止画像003.jpgからは「東京394人の新規感染」の項目候補がそれぞれ抽出された場合が例示されている。
【0109】
このような抽出結果に対して、上述のような処理を施すことにより、完全一致部分として頻度が高い「東京394人」を項目名として抽出することができる。
【0110】
このように、本実施の形態に係る情報抽出装置M1によれば、文字列の誤検出を低減すると共に、より最適な項目名を選択することが可能になる。
【0111】
以上本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本明細書で開示された実施の形態はすべての点で例示であって開示された技術に限定されるものではないと考えるべきである。すなわち、本発明の技術的な範囲は、前記の実施の形態における説明に基づいて制限的に解釈されるものでなく、あくまでも特許請求の範囲の記載に従って解釈すべきであり、特許請求の範囲の記載技術と均等な技術および特許請求の範囲内でのすべての変更が含まれる。
【0112】
例えば、番組項目リストには文字列のほかに、二次リスト情報L2の最初と最後の時刻情報を併せて記録するようにできる。これにより、その項目の開始時間と終了時間を記録することができる。
【符号の説明】
【0113】
M1 情報抽出装置
101 映像データ取得手段
102 変換手段
103 テキスト情報取得手段
104 要約文字列抽出手段
105 一次リスト情報生成手段
106 リスト情報処理手段
500 表示手段
図1
図2
図3A
図3B
図3C
図4
図5
【手続補正書】
【提出日】2022-11-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
番組を構成する動画から映像データを取得する映像データ取得手段と、
前記映像データを所定時間間隔の静止画に変換する変換手段と、
前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得手段と、
を備え、
前記テキスト情報取得手段は、
前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記番組の内容を要約した文字列情報として抽出する要約文字列抽出手段と、
前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成手段と、
前記一次リスト情報に対して所定の処理を行うリスト情報処理手段と、
を備え
前記一次リスト情報は、前記文字列と該文字列を取得した時の時刻情報を番組単位で時系列に一つにしたリスト情報であり、
前記リスト情報処理手段は、
前記文字列を時系列に並べ、最初に検出された文字列に対して、文字数が所定の下限値を満たすか否かを判定し、前記下限値を満たさない場合、該下限値を満たす文字列を検出するまで、処理対象の前記文字列を現在の文字列から次の文字列に変更して、文字数が前記下限値を満たすか否かの判定を繰り返し行うことを特徴とする情報抽出装置。
【請求項2】
前記画面の所定位置は、前記画面の右上領域を含むことを特徴とする請求項1に記載の情報抽出装置。
【請求項3】
番組を構成する動画から映像データを取得する映像データ取得ステップと、
前記映像データを所定時間間隔の静止画に変換する変換ステップと、
前記静止画に含まれる文字情報を認識してテキスト情報を取得するテキスト情報取得ステップと、
前記静止画に含まれる文字情報のうち、前記映像データを表示する画面の所定位置に表示される文字列を前記番組の内容を要約した文字列情報として抽出する要約文字列情報抽出ステップと、
前記文字列を取得した時刻情報を前記文字列情報に関連付けした一次リスト情報を生成する一次リスト情報生成ステップと、
前記一次リスト情報に対して所定の処理を行うリスト情報処理ステップと、
を有し、
前記一次リスト情報は、前記文字列と該文字列を取得した時の時刻情報を番組単位で時系列に一つにしたリスト情報であり、
前記リスト情報処理ステップは、
前記文字列を時系列に並べ、最初に検出された文字列に対して、文字数が所定の下限値を満たすか否かを判定し、前記下限値を満たさない場合、該下限値を満たす文字列を検出するまで、処理対象の前記文字列を現在の文字列から次の文字列に変更して、文字数が前記下限値を満たすか否かの判定を繰り返し行う処理が、情報抽出装置で実行されることを特徴とする情報抽出プログラム。