(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-07
(45)【発行日】2022-09-15
(54)【発明の名称】録画再生システム
(51)【国際特許分類】
G06F 16/48 20190101AFI20220908BHJP
H04N 21/433 20110101ALI20220908BHJP
H04N 21/8549 20110101ALI20220908BHJP
H04N 5/92 20060101ALI20220908BHJP
H04N 5/93 20060101ALI20220908BHJP
H04N 5/765 20060101ALI20220908BHJP
【FI】
G06F16/48
H04N21/433
H04N21/8549
H04N5/92 010
H04N5/93
H04N5/765
(21)【出願番号】P 2018080934
(22)【出願日】2018-04-19
【審査請求日】2021-03-03
(73)【特許権者】
【識別番号】305020745
【氏名又は名称】JCC株式会社
(74)【代理人】
【識別番号】100089026
【氏名又は名称】木村 高明
(72)【発明者】
【氏名】石井 孝利
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2018-033048(JP,A)
【文献】特開2000-244838(JP,A)
【文献】特開2014-103544(JP,A)
【文献】特開2006-025120(JP,A)
【文献】特開2006-053876(JP,A)
【文献】特開2013-097723(JP,A)
【文献】特開2013-198085(JP,A)
【文献】米国特許出願公開第2011/0029499(US,A1)
【文献】韓国公開特許第10-2017-0004154(KR,A)
【文献】木村 晋太,自動認識機器のトレンド情報,月刊バーコード,日本,日本工業出版株式会社,2003年09月02日,第16巻,第11号,p.41-44
【文献】廣嶋 伸章、外2名,統計的手法に基づくWebページからのヘッドライン生成,情報処理学会研究報告,日本,社団法人情報処理学会,2002年05月24日,第2002巻,第44号,p.45-50
【文献】奥村学ほか,テキスト自動要約に関する研究動向(巻頭言に代えて),自然言語処理,言語処理学会,1999年07月10日,第6巻,第6号,pp.1-26
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
H04N 21/433
H04N 21/8549
H04N 5/92
H04N 5/93
H04N 5/765
(57)【特許請求の範囲】
【請求項1】
映像データからなるコンテンツを録画する録画手段と、
録画されたコンテンツの送出元、送出日時、タイトル、出演者、送出予定テキスト、音声及びコンテンツ内容の要約を含むメタデータを作成するメタデータ作成手段と、
前記メタデータを格納するメタデータ格納手段とを備え、
前記メタデータ作成手段は、前記コンテンツの内容を要約した要約テキストを出力する要約作成手段を備え、
前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、
指示情報が入力された場合には、前記指示情報を解釈してコンテンツ特定情報を認識する特定情報認識手段と、
前記コンテンツ特定情報に基づいて前記メタデータを検索して前記コンテンツの少なくとも一部を特定するコンテンツ特定手段と、
特定されたコンテンツの映像データを送出する映像データ送出手段と、
を備え、
前記特定情報認識手段は、
蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備え、
前記コンテンツ特定手段は、
蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備え、
前記要約作成手段は、
前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、
前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、
前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、
前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、
のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、
前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、
を備え、
前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、
前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする録画再生システム。
【請求項2】
前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から前記発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、
前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、
前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、
前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、
から選択した少なくとも2つのテキスト化部を備え、
前記発話テキスト化部、前記テロップテキスト化部、前記背景画像テキスト化部、及び前記ロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする請求項1に記載の録画再生システム。
【請求項3】
前記コンテンツは、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することを特徴とする請求項1に記載の録画再生システム。
【請求項4】
前記録画手段、前記メタデータ作成手段、前記メタデータ格納手段、特定情報認識手段、前記コンテンツ特定手段、及び前記映像データ送出手段は、一つの箇所に配置されていることを特徴する請求項1に記載の録画再生システム。
【請求項5】
少なくとも前記メタデータ作成手段は、前記録画手段と異なる箇所に配置され、インターネットで接続されていることを特徴とする請求項1に記載の録画再生システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、録画したコンテンツから所望のコンテンツを選択して再生する録画再生システムに関する。
【背景技術】
【0002】
従来、大量に撮りためたコンテンツから所望のコンテンツを選択して再生する技術が知られている。
【0003】
即ち、このような技術では、コンテンツに含まれる字幕テキスト、放送番組のコーナーごとの放送開始時刻、放送終了時刻、出演者、及び、コーナーの要約等のメタデータを収集し、入力されたキーワードに基づいてメタデータを検索して所望のコンテンツを選択して再生する。このメタデータは、放送番組の終了後に配信する有料サービス(番組メタデータサービスとも称される)のサービス提供者が提供するデータや、ユーザがキーボード等を操作することによって入力する(例えば、特許文献1参照)。
【0004】
また、本件特許出願人は、映像を録画する録画ファイルを有する録画手段と、前記録画ファイルに録画された映像から文字情報を取得する文字情報取得手段と、前記文字情報取得手段によって取得された前記文字情報を集約して文章化する文字情報文章化手段と、前記文字情報文章化手段によって文章化された前記文字情報を前記録画ファイルに録画された映像のメタデータとしてメタデータ格納ファイルに格納するメタデータ格納手段とを備えるメタデータ生成システムを提案している(特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2010-262413号公報
【文献】特開2018-33048号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
これらの技術は、映像に表示されたテキストや音声からの文字情報を照合してメタデータとして生成するものであるが、メタデータの生成の精度及びコンテンツ選択の適正をより向上させ、希望するコンテンツを的確に再生したという要望がある。
【0007】
本発明は上述した課題に鑑みてなされたものであり、録画したコンテンツから希望する内容のコンテンツを的確に再生できる録画再生システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
前記課題を解決する請求項1に記載の発明は、映像データからなるコンテンツを録画する録画手段と、録画されたコンテンツの送出元、送出日時、タイトル、出演者、送出予定テキスト、音声及びコンテンツ内容の要約を含むメタデータを作成するメタデータ作成手段と、前記メタデータを格納するメタデータ格納手段とを備え、前記メタデータ作成手段は、前記コンテンツの内容を要約した要約テキストを出力する要約作成手段を備え、前記要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、指示情報が入力された場合には、前記指示情報を解釈してコンテンツ特定情報を認識する特定情報認識手段と、前記コンテンツ特定情報に基づいて前記メタデータを検索して前記コンテンツの少なくとも一部を特定するコンテンツ特定手段と、特定されたコンテンツの映像データを送出する映像データ送出手段と、を備え、前記特定情報認識手段は、蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備え、前記コンテンツ特定手段は、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備え、前記要約作成手段は、前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、を備え、前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備えることを特徴とする録画再生システムである。
【0009】
本発明によれば、要約作成手段は、コンテンツの内容を要約して要約テキストを出力する。ここで要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適な要約作成状態とされている。よって、最適な要約テキストを作成することができる。
【0010】
同じく請求項1に記載の発明は、特定情報認識手段は、蓄積された過去の特定情報認識処理の入力データと出力データとを教材として最適な特定情報認識処理設定を学習する特定情報認識設定学習手段を備える。
【0011】
本発明によれば、特定情報認識手段は、特定情報認識手段設定学習手段により、蓄積された過去の特定情報認識処理における入力データと出力データとを教材として最適な特定情報認識設定を学習する。このため、最も適した特定情報を認識することができる。よって、入力された指示情報から最適な特定情報が認識される。
【0012】
請求項1に記載の録画再生システムにおいて、前記コンテンツ特定手段は、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習するコンテンツ特定設定学習手段を備える。
【0013】
本発明によれば、コンテンツ特定手段は、コンテンツ特定設定学習手段により、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習する。このため、最も適したコンテンツを特定することができる。よって、入力された指示情報から最適なコンテンツが選択される。
【0014】
請求項1に記載の録画再生システムにおいて、前記要約作成手段は、前記コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合して統合テキストを出力するテキスト統合手段と、前記統合テキストを要約した要約テキストを出力する要約テキスト作成手段と、を備え、前記テキスト統合手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習するテキスト統合設定手段を備え、前記要約テキスト作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備える。
【0015】
本発明によれば、録画再生システムにおいて、テキスト統合手段は、前記要約作成手段、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合する。
【0016】
そして、テキスト統合手段は、テキスト統合設定手段を備えるから、テキスト統合設定手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習する。
【0017】
よって、テキスト統合手段は、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを最適な状態で生成し、各テキストの統合を行うことができる。
【0018】
また、請求項2に記載の発明は、請求項1に記載の録画再生システムにおいて、前記コンテンツについての前記ビデオ信号の音声信号から発話情報を抽出する手段、前記発話情報から前記発話内容を認識する手段、及び、前記発話内容をテキスト化して発話テキストを出力する手段を備えた発話テキスト化部と、前記ビデオ信号の映像信号から、テロップを表示するテロップ情報を抽出する手段、前記テロップ情報からテロップ内容を認識する手段、及び、前記テロップ内容をテキスト化してテロップテキストを出力する手段、を備えたテロップテキスト化部と、前記ビデオ信号の映像信号から、背景画像情報を抽出する手段、前記背景画像情報から背景画像内容を認識する手段、及び前記背景画像内容をテキスト化して背景テキストを出力する手段、を備えた背景画像テキスト化部と、前記ビデオ信号の映像信号から、ロゴマーク画像情報を抽出する手段、前記ロゴマーク画像情報からロゴマーク内容を認識する手段、及び前記ロゴマーク内容をテキスト化してロゴマークテキストを出力する手段を備えるロゴマークテキスト化部と、から選択した少なくとも2つのテキスト化部を備え、前記発話テキスト化部、テロップテキスト化部、背景画像テキスト化部、及びロゴマークテキスト化部のうち少なくとも一つは、蓄積された過去のテキスト化処理における入力データと出力データから最適なテキスト作成設定を学習するテキスト化学習手段を備えることを特徴とする。
【0019】
本発明によれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。
【0020】
よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。
【0021】
また、本発明によれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。
【0022】
よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。
【0023】
また、請求項3に記載の発明は、請求項1に記載の録画再生システムにおいて、前記コンテンツは、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することを特徴とする。
よって、録画再生システムは多様なコンテンツを対象として録画再生をすることができる。
【0024】
更に、請求項4に記載の発明は、請求項1に記載の録画再生システムにおいて、前記録画手段、前記メタデータ作成手段、前記メタデータ格納手段、特定情報認識手段、前記コンテンツ特定手段、及び前記映像データ送出手段は、一つの箇所に配置されていることを特徴する。
【0025】
本発明によれば、すべての手段は一箇所に配置されているから、例えば自宅で独立して録画再生システムを構築でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生される。
【0026】
また、請求項5に記載の発明は、請求項1に記載の録画再生システムにおいて、少なくとも前記メタデータ作成手段は、前記録画手段と異なる箇所に配置され、インターネットで接続されていることを特徴とする。
【0027】
本発明によれば、最も処理能力を必要とするメタデータ生成手段を外部のサーバ装置におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。
【発明の効果】
【0028】
本発明に係る録画再生システムによれば、録画したコンテンツから希望する内容のコンテンツを的確に再生できる。
【0029】
即ち、請求項1に記載の録画再生システムによれば、要約作成手段は、コンテンツの内容を要約して要約テキストを出力する。ここで要約作成手段は、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約設定学習手段を備え、最適な要約作製設定を学習している。このため、当該コンテンツの場面やシチュエーションに最適な要約作成状態とされている。よって、最適な要約テキストを作成することができる。
【0030】
よって、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを統合した、コンテンツの場面やシチュエーションに最適な要約テキストを作成することができる。
【0031】
また、請求項1に記載の録画再生システムによれば、特定情報認識手段は、特定情報認識手段設定学習手段により、蓄積された過去の特定情報認識処理における入力データと出力データとを教材として最適な特定情報認識設定を学習する。このため、最も適した特定情報を認識することができる。よって、入力された指示情報から最適な特定情報が認識される。
【0032】
また、請求項1に記載の録画再生システムによれば、コンテンツ特定手段は、コンテンツ特定設定学習手段により、蓄積された過去のコンテンツ特定結果の入力データと出力データとを教材として最適なコンテンツ特定設定を学習する。このため、最も適したコンテンツを特定することができる。よって、入力された指示情報から最適なコンテンツが選択される。
【0033】
また、請求項1に記載の録画再生システムによれば、録画再生システムにおいて、テキスト統合手段は、前記要約作成手段、コンテンツについてのビデオ信号から抽出した前記コンテンツにおける人の発話内容を記述した発話テキスト、前記ビデオ信号から抽出した前記コンテンツにおけるテロップの表示内容を記載したテロップテキスト、前記ビデオ信号に現れる場面、状況、物品、及び事象のうち少なくとも一つの説明を記述した背景画像テキスト、前記ビデオ信号に現れるロゴマーク、商標、記号、符号を含むマークについて記述するロゴマークテキスト、のうち少なくとも2つのテキストを統合する。
【0034】
ここでテキスト統合手段は、テキスト統合設定手段を備える。テキスト統合設定手段は、蓄積された過去のテキスト統合処理の入力データと出力データとを教材として最適なテキスト統合設定を学習する。
【0035】
よって、テキスト統合手段は、発話テキスト、テロップテキスト、背景画像テキスト、ロゴマークテキストを最適な状態で生成し、各テキストの統合を行うことができる。
【0036】
また、請求項2に記載の録画再生システムによれば、発話内容テキスト化部では、ビデオ信号の音声信号から発話情報が抽出され発話内容が認識され発話テキストが生成される。また、テロップテキスト化部ではビデオ信号の映像信号からテロップ情報が抽出され、テロップの表示内容が認識され、テロップテキスト生成される。また、背景画像テキスト化部ではビデオ信号の映像信号から背景画像情報が抽出され、背景画像の内容が認識され、背景テキストが生成される。また、ロゴマークテキスト化部ではビデオ信号の映像信号からロゴマークテキスト情報が認識されロゴマークテキストが生成される。
【0037】
よって、発話情報、テロップ情報、背景画像情報、及びロゴマーク情報からそれぞれテキストが生成され、コンテンツのビデオ信号から多様な情報をもとにテキストが生成され、コンテンツの場面やシチュエーションに最適な要約を作成できる。
【0038】
また、本発明によれば、各テキスト化部は、テキスト化学習手段により蓄積された過去のテキスト化処理の入力データと出力データに基づいて学習を行う。
【0039】
よって、過去に実行された多数の要約作成から最適なテキスト化作成の設定を学習し、でき、設定に同様のコンテンツの場面やシチュエーションに最適な要約を作成できる。
【0040】
また、請求項3に記載の録画再生システムによれば、テレビ放送局が放送する放送番組、又は、インターネットによって配信される動画映像から取得することができる。よって、録画再生システムは多様なコンテンツを対象として録画再生をすることができる。
【0041】
また、請求項4に記載の録画再生システムによれば、すべての手段は一箇所に配置されているから、例えば自宅で独立して録画再生システムを構築でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生される。
【0042】
更に、請求項5に記載の録画再生システムによれば、最も処理能力を必要とするメタデータ生成手段を外部のサーバ装置におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。
【図面の簡単な説明】
【0043】
【
図1】本発明の実施形態に係る録画再生システムの全体構成を示すブロック図である。
【
図2】同録画再生システムの動作を示すフローチャートである。
【
図3】同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。
【
図4】同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。
【
図5】同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。
【
図6】同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。
【
図7】同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。
【
図8】同要約作成システムのテキスト統合部を示すブロック図である。
【
図9】同要約作成システムの要約作成部を示すブロック図である。
【
図10】同要約作成システムの処理手順を示すフローチャートである。
【
図11】同要約作成システムの処理例を示す図である。
【発明を実施するための形態】
【0044】
[第1実施形態]
本発明を実施するための形態に係る録画再生システムについて説明する。まず第1実施形態に係る録画再生システムの全体構成について説明する。
図1は本発明の実施形態に係る要約作成システムの全体構成を示すブロック図である。
【0045】
<録画再生システム900の全体構成>
本実施形態に係る録画再生システム900は、
図1に示すように、映像データ取得部910、メタデータ作成手段であるメタデータ作成部920、メタデータ格納手段であるメタデータ格納部930、録画手段である録画部940、映像データ送出手段である映像データ送出部950を備える。また、録画再生システム900は、使用者入力手段960、特定情報認識手段である特定情報認識部970、メタデータ検索部980、コンテンツ特定手段であるコンテンツ特定部990を備える。
【0046】
映像データ取得部910は、テレビ放送局30又はインターネット40から送出されるコンテンツの映像データを取得する。映像データ取得部910は、例えば複数のテレビ局からの映像データを取得するマルチチューナーや、インターネットを介して送出されるネット動画を取得するウェブブラウザにより実現される。
【0047】
メタデータ作成部920は、メタデータを作成する。このメタデータは、放送番組のコーナーごとの放送開始時刻データ、放送終了時刻データ、放送番組の終了後に有料サービスから取得されるテキストデータ、ユーザがキーボード等を操作することによって入力するテキストデータ、メタデータ作成部920に内蔵された要約作製システム10で生成される各種のテキストデータ、これらを要約した要約テキストデータ、メタデータ作成部920が外部から取得したデータを含む。
【0048】
要約作製システム10は、コンテンツにおける人の発話内容、コンテンツにおけるテロップの表示内容、場面、状況、物品、及び事象のうち少なくとも一つの説明、ロゴマーク、商標、記号、符号を含むマークについての説明のうち少なくとも2つを統合して要約した要約テキストを出力する。
【0049】
メタデータ格納部930はメタデータ作成部920が生成したメタデータを格納する。このメタデータはコンテンツに関連付けられている。
【0050】
録画部940は、同時に取得される複数のコンテンツを録画でき、例えばマルチチャンネルビデオレコーダで構成される。複数コンテンツの画像データはハードディスクドライブに格納される。各コンテンツには上述したメタデータがタグとして格納されている。
【0051】
映像データ送出部950は、指定されたコンテンツの映像データを映像音声再生部50に送出して、映像と音声を出力する。映像音声再生部50は例えば液晶表示装置及びスピーカ又はテレビジョン装置で構成される。
【0052】
使用者入力手段960は、使用者が再生を希望するコンテンツを指定するため、放送日時、放送局、キーワード、その他のデータを入力する機器で構成される。使用者入力手段960は、例えば、マイク、キーボード、マウス、ジョイスティックにより実現される。マイクからは音声が入力され、キーボードからはテキストが入力される。マウスやジョイスティックは、映像音声再生部50に表示される画像から所定の位置を選択することで情報が入力される。
【0053】
特定情報認識部970は、使用者入力手段960からの指示情報を解釈してコンテンツを特定するための情報であるコンテンツ特定情報を認識して出力する。特定情報認識部970により、放送日時、放送局、キーワード、その他のデータからコンテンツを特定する情報を認識する。羅列された単語等の情報からコンテンツを特定するために最も適切な情報を生成する。
【0054】
指定情報は音声の場合、話し言葉で入力されることが多い。特定情報認識部970はこの話し言葉を解釈してコンテンツを特定する最適な特定情報を出力する。例えば「先月の○○テニス大会での××選手を見たい」と入力されたとする。特定情報認識部970はこの発話を含む音声情報から発話情報を抽出し、更に言語解釈をする。これにより特定情報として「●月」「○○テニス大会」、「××選手」等を抽出する。なお、テキスト入力された場合はこの処理を行わないことができる。
【0055】
この抽出の精度を向上させるため本実施形態に係る録画再生システム900にあっては特定情報認識部970に、特定情報認識設定学習手段として学習部971を設けている。
【0056】
学習部971は、蓄積された過去の特定情報認識のための入力データと、認識結果である出力データとを教材として最適な特定情報認識のための設定を学習する。学習は、データ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。
【0057】
メタデータ検索部980は、特定情報認識部970の特定した情報に基づいて、メタデータ格納部930を参照してメタデータを検索する。検索されたメタデータはコンテンツ特定部990に送出される。
【0058】
コンテンツ特定部990はメタデータ検索部980が検索したメタデータで特定される多数のコンテンツから所定のコンテンツを特定する。
【0059】
コンテンツ特定部990は、多数のコンテンツを特定することがある。例えば「●月」「○○テニス大会」、「××選手」をメタデータに持つコンテンツは、生中継、ニュース、その他の番組と多岐にわたる。
【0060】
コンテンツ特定部990は選定された多数のコンテンツから指定者(使用者)の関心が高いコンテンツを選定するものである。この選定基準は選定者により異なる。このためコンテンツ特定部990は選定者の傾向を学習するためコンテンツ特定設定学習手段として学習部991を備える。
【0061】
学習部991は、蓄積された過去のコンテンツ特定のための入力データと、認識結果である出力データとを教材として最適な特定情報認識のための設定を学習する。学習は、データ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。
【0062】
上記の場合例えば、指定者が恒に特定のニュース番組を選定していると判定した場合は、△△局の××時のニュースで「○○テニス大会における××選手の試合結果」を紹介するコーナーを選定する。選択したコンテンツが複数の場合、再生するコンテンツの候補を表示して音声やキーボード、マウス等で指定する構成にすることができる。
【0063】
そして、コンテンツ特定部990で選択されたコンテンツが録画部940から映像データ送出部950を経て映像音声再生部50に出力され、映像音声再生部50から所望の映像及び音声が出力される。
【0064】
次に録画再生システム900の処理の流れについて説明する。
図2は同録画再生システムの動作を示すフローチャートである。
【0065】
本実施形態に係る録画再生システム900では、まず各部、即ち、要約作製システム10、特定情報認識部970、コンテンツ特定部990において学習が行われる(ステップS1)。この学習は録画再生システム900の運用中にも行うことができる。
【0066】
録画再生システム900では、各部の学習と並行して、映像データ取得部910から取得した映像データが録画部940によって録画されていく(ステップS2)。そして、直ちにメタデータ作成部920がこの映像データから要約作製システム10による要約テキストやその他のテキストを取得してこれらをメタデータとしてメタデータ格納部930に格納する(ステップS3)。コンテンツの録画とメタデータの格納は、停止指示があるまで続行される。
【0067】
この状態で、使用者が録画された多数のコンテンツから所望のコンテンツ又はコンテンツの部分を再生できる状態となる。例えば、使用者が音声で入力する(ステップS4)と、使用者入力手段960から入力された音声は、特定情報認識部970で認識され(ステップS5)、コンテンツを特定する特定情報指定が出力される。すると、メタデータ検索部980は、メタデータ格納部930を参照して、1又は複数のコンテンツ及びコンテンツの部分、例えばニュースやワイドショーのコーナーを候補として選択する。
【0068】
コンテンツ特定部990はこのコンテンツの候補から最適なコンテンツを特定し(ステップS7)、録画部940から映像データ送出部950に送出させ、映像音声再生部50で再生する(ステップS8)。終了の指示がなければ(ステップS9のNo)必要に応じてステップS4からステップS8を繰り返す。再生終了の指示があった場合(ステップS9のYes)、再生を終了する。
【0069】
以上のように、録画再生システム900によれば、録画したコンテンツから使用者が希望する内容のコンテンツを迅速かつ的確に再生できる。
【0070】
なお、録画再生システム900の映像データ取得部910、メタデータ作成部920、メタデータ格納部930、録画部940、使用者入力手段960、特定情報認識部970、メタデータ検索部980及びコンテンツ特定部990を一台の装置として一箇所(例えば使用者の自宅)に配置することができる。即ち、録画再生システム900を、例えばマルチチャンネルのデジタルレコーダとして構成することができる。これにより、録画再生システム900を自宅で独立して使用でき、使用者の音声やテキストによる指示で録画されたコンテンツから最も適切なコンテンツのビデオ信号が再生することができる。
【0071】
また、録画再生システム900のうち、映像データ取得部910、使用者入力手段960、録画部940、映像データ送出部950を一台の装置として一箇所(使用者の自宅)に配置し、その他の部分、即ちメタデータ作成部920、メタデータ格納部930、特定情報認識部970、メタデータ検索部980、コンテンツ特定部990を他の箇所例えばサービス提供会社に配置しインターネットで接続することができる。最も処理能力を必要とするメタデータ生成手段を外部(クラウド)におき、これに自宅からインターネットで接続して処理を行うことができ、録画再生システムを手軽に構築できる。
【0072】
<要約作製システム10>
以下、実施形態に係る録画再生システム900におけるメタデータ作成部920に配置される要約作製システム10について説明する。
【0073】
<要約作製システム10の全体構成>
図3は同録画再生システムにおけるメタデータ作成部の要約作成システムを示すブロック図である。
図3に示すように、要約作製システム10は、ビデオ信号分離部20、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、テキスト統合手段であるテキスト統合部500、及び要約作成手段である要約作成部600を備える。本実施形態では要約作製システム10はビデオ信号をテレビ放送局30からの放送番組やインターネット40で配信される動画映像から取得する。なお、ビデオ信号は、インターネットにおける動画から取得することができる。なお、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400、及びテキスト統合部500から選択した少なくとも2つの部分を備えるものとできる。
【0074】
音声信号と映像信号を含むビデオ信号Vは、ビデオ信号分離部20で音声信号Aと映像信号Bとに分離される。音声信号Aは発話テキスト化部100に入力され、映像信号Bはテロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400に入力される。
【0075】
<発話テキスト化部100>
発話テキスト化部100は音声信号Aを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130を備える。
【0076】
発話情報抽出部110は、ビデオ信号Vの音声信号Aから発話情報を抽出する。即ち、音声信号A中の雑音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。
【0077】
発話内容認識部120は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。
【0078】
発話内容テキスト化部130は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。
【0079】
<テロップテキスト化部200>
テロップテキスト化部200は映像信号Bを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230を備える。
【0080】
テロップ情報抽出部210は、ビデオ信号Vの映像信号Bからテロップ情報を抽出する。即ち、映像信号B中の背景を取り除き、テロップ画像だけの情報を抽出する。
【0081】
発話内容認識部120は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
【0082】
テロップ内容テキスト化部230はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。
【0083】
<背景画像テキスト化部300>
背景画像テキスト化部300は映像信号Bを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を挙げることができる。背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330を備える。
【0084】
背景画像情報抽出部310は、ビデオ信号Vの映像信号Bから背景画像情報を抽出する。即ち、映像信号B中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。
【0085】
背景画像内容認識部320は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗り物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
【0086】
背景画像内容テキスト化部330は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。
【0087】
<ロゴマークテキスト化部400>
ロゴマークテキスト化部400は映像信号Bを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430を備える。
【0088】
ロゴマーク画像情報抽出部410は、ビデオ信号Vの映像信号Bからロゴマーク画像情報を抽出する。即ち、映像信号B中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。
【0089】
ロゴマーク内容認識部420は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
【0090】
ロゴマーク内容テキスト化部430はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。
【0091】
<テキスト統合部500>
テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景テキスト、ロゴマークテキスト化部400からの背景テキストを統合する。即ち、各テキストにおける矛盾や誤りを訂正して、統合テキストを生成する。このテキストの統合に使用するパラメータ、条件等は後述するように蓄積された過去のテキスト統合の入力、出力データから機械学習により生成できる。
【0092】
<要約作成部600>
要約作成部600は、テキスト統合部500からの統合テキストを要約する。即ち、要約テキストの内容を要約して指定された文字数とする。この要約に使用するパラメータ、条件等は後述するように蓄積された過去のようよう役処理の入力データ、出力データから機械学習により生成できる。
【0093】
次に、各部の機械学習処理について説明する。
<発話テキスト化部100の機械学習処理>
図4は同要約作成システムの発話テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、発話テキスト化部100は、発話情報抽出部110、発話内容認識部120、発話内容テキスト化部130の他、テキスト化学習手段である機械学習部140、内容認識テキスト作成設定部150、比較評価部160を備える。また発話テキスト化部100には、既存データ格納部700が接続されている。
【0094】
発話テキスト化部100は既存データ格納部700が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部120及び発話内容テキスト化部130を最適化する。既存データ格納部700には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部720を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
【0095】
また、発話テキスト化部100には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部170、180を備える。
【0096】
内容認識テキスト作成設定部150は、発話情報抽出部110の発話情報の抽出処理の設定と、発話内容認識部120の発話内容認識処理の設定と、発話内容テキスト化部130のテキスト化処理の設定とが格納されている。発話情報抽出部110、発話内容認識部120及び発話内容テキスト化部130は内容認識テキスト作成設定部150の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。
【0097】
比較評価部160は、比較部161と評価部162とを備える。比較部161は、既存ビデオデータ格納部710からの既存ビデオデータを受けて発話内容テキスト化部130が作成した発話テキストと、既存発話テキスト格納部720からの既存発話テキストとを比較する。評価部162は比較部161の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0098】
機械学習部140は、評価部162からの評価を受け、内容認識テキスト作成設定部150の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部162の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
【0099】
このような機械学習を行うことにより、発話内容認識部120及び発話内容テキスト化部130の能力が向上する。所定の機械学習を終了した後、発話テキスト化部100は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。
【0100】
発話テキスト化部100の処理について説明する。
図4(b)に示すように、まず内容認識テキスト作成設定部150に音声認識及びテキスト化の特徴量を設定する(ステップSA1)。この設定は機械学習部140の学習結果により行う。
【0101】
次いで、発話情報抽出部110が、設定された特徴に基づいて音声を大量の音声信号の中から抽出する(ステップSA2)。
【0102】
更に、発話内容認識部120が、設定された特徴に基づいて抽出した音声を解析する(ステップSA3)。
【0103】
そして、発話内容テキスト化部130が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する(ステップSA4)。
【0104】
<テロップテキスト化部200の機械学習>
図5は同要約作成システムのテロップテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、テロップテキスト化部200は、テロップ情報抽出部210、テロップ内容認識部220、テロップ内容テキスト化部230の他、機械学習部240、内容認識テキスト作成設定部250、比較評価部260を備える。またテロップテキスト化部200には、既存データ格納部700が接続されている。
【0105】
テロップテキスト化部200は既存データ格納部700が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部220及びテロップ内容テキスト化部230を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部730を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。
【0106】
また、テロップテキスト化部200には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部270、280を備える。
【0107】
内容認識テキスト作成設定部250は、テロップ情報抽出部210のテロップ情報抽出の設定と、テロップ内容認識部220のテキスト内容認識処理の設定と、テロップ内容テキスト化部230のテキスト化処理の設定とが格納されている。テロップ情報抽出部210、テロップ内容認識部220及びテロップ内容テキスト化部230は内容認識テキスト作成設定部250の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。
【0108】
比較評価部260は、比較部261と評価部262とを備える。比較部261は、既存ビデオデータ格納部710からの既存ビデオデータを受けてテロップ内容テキスト化部230が作成したテロップテキストと、既存テロップテキスト格納部730からの既存テロップテキストとを比較する。評価部262は比較部261の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0109】
機械学習部240は、評価部262からの評価を受け、内容認識テキスト作成設定部250の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部262の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
【0110】
このような機械学習を行うことにより、テロップ内容認識部220及びテロップ内容テキスト化部230の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部200は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。
【0111】
テロップテキスト化部200の処理について説明する。
図5(b)に示すように、まず内容認識テキスト作成設定部250にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する(ステップSB1)。この設定は機械学習部240の学習結果により行う(ステップSB2)。
【0112】
次いで、テロップ情報抽出部210が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する(ステップSB2)。
【0113】
更に、テロップ内容認識部220が、設定された特徴に基づいて抽出したテロップを解析する(ステップSB3)。
【0114】
そして、テロップ内容テキスト化部230が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する(ステップSB4)。
【0115】
<背景画像テキスト化部300の機械学習>
図6は同要約作成システムの背景画像テキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。同図(a)に示すように、背景画像テキスト化部300は、背景画像情報抽出部310、背景画像内容認識部320、背景画像内容テキスト化部330の他、テキスト統合設定手段である機械学習部340、内容認識テキスト作成設定部350、比較評価部360を備える。また背景画像テキスト化部300には、既存データ格納部700が接続されている。
【0116】
背景画像テキスト化部300は既存データ格納部700が格納する既存のビデオデータと既存の背景画像テキストに基づいて機械学習を行い、背景画像内容認識部320及び背景画像内容テキスト化部330を最適化する。既存データ格納部700には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成した背景画像テキストを格納した既存背景画像テキスト格納部740を備える。これらのビデオデータ及び背景画像テキストは機械学習の教材となる。
【0117】
また、背景画像テキスト化部300には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部370、380を備える。
【0118】
内容認識テキスト作成設定部350は、背景画像情報抽出部310の背景画像抽出処理の設定と、背景画像内容認識部320の背景画像内容認識処理の設定と、背景画像内容テキスト化部330のテキスト化処理の設定とが格納されている。背景画像情報抽出部310、背景画像内容認識部320及び背景画像内容テキスト化部330は内容認識テキスト作成設定部350の設定した条件、パラメータに従って背景画像の抽出、背景画像の内容認識及びテキスト化を行う。
【0119】
比較評価部360は、比較部361と評価部362とを備える。比較部361は、既存ビデオデータ格納部710からの既存ビデオデータを受けて背景画像内容テキスト化部330が作成した背景画像テキストと、既存背景画像テキスト格納部740からの既存背景画像テキストとを比較する。評価部362は比較部361の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0120】
機械学習部340は、評価部362からの評価を受け、内容認識テキスト作成設定部350の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部362の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
【0121】
このような機械学習を行うことにより、背景画像内容認識部320及び背景画像内容テキスト化部330の能力が向上する。所定の機械学習を終了した後、背景画像テキスト化部300は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。
【0122】
背景画像テキスト化部300の処理について説明する。
図6(b)に示すように、まず内容認識テキスト作成設定部350に背景画像情報抽出、背景画像認識、及びテキスト化の特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。
【0123】
次いで、背景画像情報抽出部310が、設定された特徴に基づいて背景画像を大量の映像信号の中から抽出する(ステップSC2)。
【0124】
更に、背景画像内容認識部320が、設定された特徴に基づいて抽出した背景画像を解析する(ステップSC3)。
【0125】
そして、背景画像内容テキスト化部330が、設定された特徴に基づいて背景画像の内容をテキスト化して背景画像テキストとして出力する(ステップSC4)。
【0126】
<ロゴマークテキスト化部400の機械学習>
図7は同要約作成システムのロゴマークテキスト化部を示すものであり、(a)はブロック図、(b)は処理の流れを示す図である。ロゴマークテキスト化部400は、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420、ロゴマーク内容テキスト化部430の他、機械学習部440、内容認識テキスト作成設定部450、比較評価部460を備える。またロゴマークテキスト化部400には、既存データ格納部700が接続されている。
【0127】
ロゴマークテキスト化部400は既存データ格納部700が格納する既存のビデオデータと既存のロゴマークテキストに基づいて機械学習を行い、ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430を最適化する。既存データ格納部700には、過去に人がロゴマークテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部710と、このビデオデータの発話内容から作成したロゴマークテキストを格納した既存ロゴマークテキスト格納部750を備える。これらのビデオデータ及びロゴマークテキストは機械学習の教材となる。
【0128】
また、ロゴマークテキスト化部400には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部470、480を備える。
【0129】
内容認識テキスト作成設定部450は、ロゴマーク内容認識部420のロゴマーク画像内容認識処理の設定と、ロゴマーク内容テキスト化部430のテキスト化処理の設定が格納されている。ロゴマーク画像情報抽出部410、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430は内容認識テキスト作成設定部450の設定した条件、パラメータに従ってロゴマークの抽出、内容認識及びテキスト化を行う。
【0130】
比較評価部460は、比較部461と評価部462とを備える。比較部461は、既存ビデオデータ格納部710からの既存ビデオデータを受けてロゴマーク内容テキスト化部430が作成したテキストと、既存ロゴマークテキスト格納部750からの既存背景画像テキストとを比較する。評価部462は比較部461の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0131】
機械学習部440は、評価部462からの評価を受け、内容認識テキスト作成設定部450の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部462の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。
【0132】
このような機械学習を行うことにより、ロゴマーク内容認識部420及びロゴマーク内容テキスト化部430の能力が向上する。所定の機械学習を終了した後、ロゴマークテキスト化部400は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。
【0133】
ロゴマークテキスト化部400の処理について説明する。
図7(b)に示すように、まず内容認識テキスト作成設定部450にロゴマークの特徴量を設定する(ステップSC1)。この設定は機械学習部340の学習結果により行う。
【0134】
次いで、ロゴマーク画像情報抽出部410が、設定された特徴に基づいてロゴマークを大量の映像信号の中から抽出する(ステップSD2)。
【0135】
更に、ロゴマーク内容認識部420が、設定された特徴に基づいて抽出した背景画像を解析し、自動的に確認して登録する(ステップSD3)。
【0136】
更に、ロゴマーク内容認識部420が、登録されたロゴマークや特定のロゴマークに合致したものをロゴマークとして認識する(ステップSD4)。
【0137】
そして、ロゴマーク内容テキスト化部430が設定された特徴に基づいてロゴマークの内容をテキスト化してロゴマークテキストとして出力する(ステップSD5)。
【0138】
<テキスト統合部500の機械学習>
図8は同要約作成システムのテキスト統合部を示すブロック図である。テキスト統合部500は、統合テキスト作成部510、統合テキスト作成設定部520、機械学習部530、比較評価部540を備える。テキスト統合部500には、既存データ格納部700が接続されている。
【0139】
テキスト統合部500は既存データ格納部700が格納する既存の各種、即ち、発話テキスト、テロップテキスト、背景テキスト及びロゴマークテキストと既存の統合テキストに基づいて機械学習を行い、統合テキスト作成部510の動作を最適化する。既存データ格納部700には、過去に統合テキストを作成したときに使用した各種テキストデータを格納した既存各種テキスト格納部760と、この各種テキストから作成した統合テキストを格納した既存統合テキスト格納部770とを備える。これらの各種テキスト及び統合テキストは機械学習の教材となる。
【0140】
また、テキスト統合部500には、機械学習を行うときと、新規の各種テキストから新たな統合テキストを作成するときにデータ出力の切り換えを行う切換部570、580を備える。
【0141】
統合テキスト作成設定部520は、統合テキスト作成部510のテキスト統合処理の設定が格納されている。統合テキスト作成部510は統合テキスト作成設定部520の設定した条件、パラメータに従ってテキスト統合処理を行う。
【0142】
比較評価部540は、比較部541と評価部542とを備える。比較部541は、既存各種テキスト格納部760からの既存各種テキストを受けて統合テキスト作成部510が作成した統合テキストと、既存統合テキスト格納部770からの既存統合テキストとを比較する。評価部542は比較部541の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0143】
機械学習部530は、評価部542からの評価を受け、統合テキスト作成設定部520の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部542の評価値をできるだけ高いものとする。この処理は複数の各種テキストデータについて繰り返し行うことができる。
【0144】
このような機械学習を行うことにより、統合テキスト作成部510の能力が向上する。所定の機械学習を終了した後、テキスト統合部500は新規ビデオデータを処理して、最適な統合テキストを出力できる状態となる。
【0145】
<要約作成部600の機械学習>
図9は同要約作成システムの要約作成部を示すブロック図である。要約作成部600は、要約テキスト作成部610、要約作成設定部620、要約設定学習手段である機械学習部630、比較評価部640を備える。要約作成部600には、既存データ格納部700が接続されている。
【0146】
要約作成部600は既存データ格納部700が格納する統合テキストと要約テキストに基づいて機械学習を行い、要約テキスト作成部610の動作を最適化する。既存データ格納部700には、過去に要約テキストを作成したときに使用した統合テキストデータを格納した既存統合テキスト格納部770と、この統合テキストから作成した要約テキストを格納した過去の要約作成結果である既存要約テキスト格納部780とを備える。これらの統合テキスト及び要約テキストは機械学習の教材となる。
【0147】
また、要約作成部600には、機械学習を行うときと、新規の統合テキストから新たな要約テキストを作成するときにデータ出力の切り換えを行う切換部670、680を備える。
【0148】
要約作成設定部620には、要約テキスト作成部610の要約処理の設定が格納されている。要約テキスト作成部610は要約作成設定部620の設定した条件、パラメータに従ってテキスト要約処理を行う。
【0149】
比較評価部640は、比較部641と評価部642とを備える。比較部641は、既存統合テキスト格納部770からの既存統合テキストを受けて要約テキスト作成部610が作成した要約テキストと、既存要約テキスト格納部780からの要約テキストとを比較する。評価部642は比較部641の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。
【0150】
機械学習部630は、評価部642からの評価を受け、要約作成設定部620の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部642の評価値をできるだけ高いものとする。この処理は複数の統合テキストデータについて繰り返し行うことができる。
【0151】
このような機械学習を行うことにより、要約テキスト作成部610の能力が向上する。所定の機械学習を終了した後、要約作成部600は新規ビデオデータを処理して、最適な要約テキストを出力できる状態となる。
【0152】
次に要約作製システム10の処理について説明する。
図10は同要約作成システムの動作を示すフローチャートである。まず、既存データ格納部700の既存ビデオデータ格納部710、既存発話テキスト格納部720、既存テロップテキスト格納部730、既存背景画像テキスト格納部740、既存ロゴマークテキスト格納部750、既存各種テキスト格納部760、既存統合テキスト格納部770、既存要約テキスト格納部780に既存のビデオ信号、各種テキストデータを読み込む(ステップST1)。
【0153】
次いで発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400において、機械学習処理を行う(ステップST2a、ST2b、ST2c、ST2d)。この学習処理は逐次的に行うこともできる。
【0154】
次に、テキスト統合部500の既存データ格納部550、要約作成部600の既存データ格納部650に既存の入力データ、出力データを読み込む(ステップST3)。次いで、テキスト統合部500、要約作成部600において機械学習処理を行う(ステップST3a、3b)。この学習処理は逐次的に行うこともできる。なお、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、及びロゴマークテキスト化部400の機械学習処理と、及びテキスト統合部500及び要約作成部600の機械学習処理とは処理の順序を問わず、逆の順序で行うことができる。
【0155】
学習処理が終了すると(ステップST4のyes)、処理対象となるビデオ信号をビデオ信号分離部20に入力する(ステップST5)。これにより、発話テキスト化部100、テロップテキスト化部200、背景画像テキスト化部300、ロゴマークテキスト化部400は、テキスト化処理を実行する(ステップST6a、ST6b、ST6c、ST6d)
【0156】
そして、各テキストをテキスト統合部500で統合処理し(ステップST7)、更に統合されたテキストを要約作成部600で要約処理し(ステップST8)、要約テキストを出力し、要約作製システム10の処理は終了する。
【0157】
次の要約作成処理からは、機械学習処理(ステップST1~ST4)は行わなくて直ちに要約作成の対象ビデオ信号を入力(ステップST5)するだけで最適な要約作成を行うことができる。また、機械学習処理は必要に応じて行うことができる。
【0158】
以下、要約作製システム10の処理の一例について説明する。
図11は同要約作成システムの処理例を示す図である。ビデオデータには、映像810を含む映像データとナレーション850を含む音声データが格納されている。この例は、テニストーナメントの結果を知らせるニュース番組の一部を例とする。
【0159】
まず、発話テキスト化部100において、発話情報抽出部110が音声データからナレーション850を抽出し、発話内容認識部120が内容を認識する。そして、この認識された内容が発話内容テキスト化部130によりテキスト化される。
【0160】
この例では、発話内容テキスト化部130は、発話テキストとして「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」を出力する。
【0161】
また、テロップテキスト化部200において、テロップ情報抽出部210が映像データからテロップ画像を抽出する。本例では、テロップ表示部811に表示されたテロップ、映像810上部に表示されたニュース名812、提供会社名813を抽出する。更に、テロップ内容認識部220がテロップの内容を認識し、テロップ内容認識部220がテロップの内容を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。
【0162】
この例では、テロップ内容テキスト化部230は、テロップ表示部811の「速報 ○○選手 ××オープン決勝進出!」、ニュース名812として「△△ニュース」、提供会社名813として「提供◆◆株式会社」がテロップテキストとして出力する。
【0163】
更に、背景画像テキスト化部300において、背景画像情報抽出部310が背景画像820から人物、物品、状況等を抽出する。本例では、テニスプレーヤー830、顔831、キャップ832、テニスウエア833、テニスパンツ834、ラケット835、ボール836、テニスコート837等の画像を抽出する。この抽出された画像に基づいて、背景画像内容認識部320が各背景画像の内容を認識する。例えば、テニスプレーヤー830の画像及び顔831から性別、人種、年齢、表情を認識する。また、キャップ832、テニスウエア833、テニスパンツ834のスタイル、色等を認識する。更に、ラケット835、ボール836についてもそれらの色、型番等を認識する。そして、この認識した内容を背景画像内容テキスト化部330がテキスト化する。
【0164】
この例では、テニスプレーヤー830について「男性」、「○○系」、「20代」等、顔831から「汗」、「苦しい」、キャップ832について「白色」、テニスウエア833について「白」、「半袖」、テニスパンツ834について「白色」、「半ズボン」、ラケット835について「メーカー」、「型番」、ボール836について「黄色」、テニスコート837について「クレイ」等が背景画像テキストとして出力される。
【0165】
そして、ロゴマークテキスト化部400において、ロゴマーク画像情報抽出部410が映像810からロゴマークを抽出する。本例では、映像810の上部にニュース名812と共に付されたロゴマーク841、テニスウエア833に付されたロゴマーク842、テニスパンツ834に付されたロゴマーク843を抽出する。このとき、ロゴマーク842及びロゴマーク843は衣服に記載されているから、テニスプレーヤー830の運動により変形する。本例では、この変形も考慮して、抽出をおこなう。そして、この抽出されたロゴマークに基づいて、背景画像内容認識部320が各ロゴマークの内容を認識する。そして、この認識したロゴマークの内容をロゴマーク内容テキスト化部430がテキスト化する。
【0166】
この例では、背景画像内容テキスト化部330は、ロゴマーク841について「△△N」の記載があり「△△テレビ株式会社」、ロゴマーク842について「AAA」の記載であり「株式会社BBB」の「AAAブランド」、ロゴマーク843について「BB」の記載であり「CC株式会社」の「BBブランド」をロゴマークテキストとして出力する。
【0167】
テキスト統合部500は、発話テキスト化部100からの発話テキスト、テロップテキスト化部200からのテロップテキスト、背景画像テキスト化部300からの背景画像テキスト、ロゴマークテキスト化部400からのロゴマークテキストを統合する。
【0168】
この例では、「▲▲で開催されている、××オープン選手権で○月○日、日本の○○選手は準決勝に勝利し決勝に進出しました。決勝は来る○日□時から行われます。△△テレビでは◆時からこのゲームを生中継します。」、「速報 ○○選手 」、オープン決勝進出!」、「△△ニュース」、「提供◆◆株式会社」、「男性」、「○○系」、「20代」、「汗」、「苦しい」、「キャップ白色」、「テニスウエア白」、「テニスウエア半袖」、「テニスパンツ白色」、「半ズボン」、「ラケットメーカー」、「型番」、「ボール黄色」、「テニスコートクレイ」、「△△N」、「△△テレビ株式会社」、「ロゴマークAAA」の記載であり「株式会社BBB」、「AAAブランド」、「ロゴマークBB」、「CC株式会社」、「BBブランド」等のテキストを網羅的に統合して出力する。
この統合用テキストは膨大なデータとなるが、機械検索に適している。
【0169】
要約作成部600はテキスト統合部500からの統合テキストを受け、所定の文字数、例えば200字以内に要約し出力する。この例では、要約作成部600は、「日本の○○選手は○月○日、××オープン選手権の準決勝に勝利し、決勝に進出した。××オープン選手権は、▲▲で開催されており、クレイコートで行われる。○○選手は、白のキャップ、AAAブランドの白色のテニスウエアとBBブランドの白色のテニスパンツを着用し、勝利を得た。決勝戦は、○月○日、◆時から△△テレビで生中継される。」と出力する。要約は内容を把握しやすいため、人が一見して理解できる。
【0170】
以上の録画再生システムは、処理装置としてのCPU(Central Processing Unit)、記憶装置としてRAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一箇所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、大量のデータを対象とするためGPU(Graphics Processing Unit)を使用して処理することが望ましい。
【0171】
即ち、統合テキストは、単に、音声、文字,背景映像等の文字化してものであり、膨大な文章についてのデータである。このため、GPUをテキスト処理に特化することにより高速に処理できる。
【0172】
更に、テキスト統合部500には、発話テキスト、テロップテキスト、背景画像テキスト及びロゴマークテキストの他、テレビ番組を対象とする場合、電子番組表データから取得したテキストを入力することができる。更に、インターネットで配信される動画映像の場合には第三者の評価や評判をテキストとして取得して入力できる。これにより、統合テキストの質と量を向上させることができる。
【0173】
[他の実施形態]
本発明に係る録画再生システムあってはデータ処理をAI(人工知能:Artificial Intelligence)により高速かつ適切に処理する。AI処理は、上述した機械学習(ML:Machine Learning)により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング(深層学習:DL:Deep Learning)により行うと効果的である。
【0174】
ディープラーニングでは、既存の多数のビデオデータ、各ビデオデータに対応する各種テキストデータ、統合テキスト、要約テキストをビッグデータとして学習を行う。この各機械学習部は、入力層、複数の中間層、出力層を備え、多数のニューロンを備えたニューラルネットワークにより処理を行い。即ち、本発明に係る要約作成システムに入力された新規ビデオデータ、このビデオデータによる各種テキスト、統合テキスト、要約を入力とした出力が、既存の各種テキスト、統合テキスト、要約に近づくように中間層のニューロンにおける重み、パラメータを最小二乗法等の手法で適正化する。
【産業上の利用可能性】
【0175】
本発明は、テレビやインターネット動画の録画再生システム及び録画再生装置に広く適用可能であり、産業上の利用可能性がある。
【符号の説明】
【0176】
10:要約作製システム
20:ビデオ信号分離部
30:テレビ放送局
40:インターネット
50:映像音声再生部
100:発話テキスト化部
110:発話情報抽出部
120:発話内容認識部
130:発話内容テキスト化部
140:機械学習部
150:内容認識テキスト作成設定部
160:比較評価部
161:比較部
162:評価部
170:切換部
180:切換部
200:テロップテキスト化部
210:テロップ情報抽出部
220:テロップ内容認識部
230:テロップ内容テキスト化部
240:機械学習部
250:内容認識テキスト作成設定部
260:比較評価部
261:比較部
262:評価部
270:切換部
280:切換部
300:背景画像テキスト化部
310:背景画像情報抽出部
320:背景画像内容認識部
330:背景画像内容テキスト化部
340:機械学習部
350:内容認識テキスト作成設定部
360:比較評価部
361:比較部
362:評価部
370:切換部
380:切換部
400:ロゴマークテキスト化部
410:ロゴマーク画像情報抽出部
420:ロゴマーク内容認識部
430:ロゴマーク内容テキスト化部
440:機械学習部
450:内容認識テキスト作成設定部
460:比較評価部
461:比較部
462:評価部
470:切換部
480:切換部
500:テキスト統合部
510:統合テキスト作成部
520:統合テキスト作成設定部
530:機械学習部
540:比較評価部
541:比較部
542:評価部
550:既存データ格納部
570:切換部
580:切換部
600:要約作成部
610:要約テキスト作成部
620:要約作成設定部
630:機械学習部
640:比較評価部
641:比較部
642:評価部
650:既存データ格納部
670:切換部
680:切換部
700:既存データ格納部
710:既存ビデオデータ格納部
720:既存発話テキスト格納部
730:既存テロップテキスト格納部
740:既存背景画像テキスト格納部
750:既存ロゴマークテキスト格納部
760:既存各種テキスト格納部
770:既存統合テキスト格納部
780:既存要約テキスト格納部
810:映像
811:テロップ表示部
812:ニュース名
813:提供会社名
820:背景画像
830:テニスプレーヤー
831:顔
832:キャップ
833:テニスウエア
834:テニスパンツ
835:ラケット
836:ボール
837:テニスコート
841:ロゴマーク
842:ロゴマーク
843:ロゴマーク
850:ナレーション
900:録画再生システム
910:映像データ取得部
920:メタデータ作成部
930:メタデータ格納部
940:録画部
950:映像データ送出部
960:使用者入力手段
970:特定情報認識部
971:学習部(特定情報認識設定学習手段)
980:メタデータ検索部
990:コンテンツ特定部
991:学習部(コンテンツ特定設定学習手段)