(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】テキストデータを用いた映像編集出力制御装置、テキストデータを用いた映像編集出力方法、及びプログラム
(51)【国際特許分類】
G11B 27/02 20060101AFI20240123BHJP
G10L 15/00 20130101ALI20240123BHJP
G11B 20/10 20060101ALI20240123BHJP
H04N 21/854 20110101ALI20240123BHJP
G10L 13/00 20060101ALN20240123BHJP
【FI】
G11B27/02 A
G10L15/00 200G
G11B27/02 J
G11B20/10 301Z
H04N21/854
G10L13/00 100R
(21)【出願番号】P 2019204328
(22)【出願日】2019-11-12
【審査請求日】2022-09-27
(73)【特許権者】
【識別番号】509137087
【氏名又は名称】株式会社TBSテレビ
(73)【特許権者】
【識別番号】519183933
【氏名又は名称】株式会社TBSグロウディア
(74)【代理人】
【識別番号】100205523
【氏名又は名称】木村 浩也
(72)【発明者】
【氏名】安田 英史
(72)【発明者】
【氏名】永田 六郎
(72)【発明者】
【氏名】高橋 吾郎
【審査官】中野 和彦
(56)【参考文献】
【文献】特開2007-295218(JP,A)
【文献】特開2014-222290(JP,A)
【文献】特開2018-180519(JP,A)
【文献】特開2019-110480(JP,A)
【文献】特開2007-328849(JP,A)
【文献】特開2001-312668(JP,A)
【文献】特開平11-306669(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G11B 27/02
G10L 15/00
G11B 20/10
H04N 21/854
G10L 13/00
(57)【特許請求の範囲】
【請求項1】
テキストデータを用いた映像編集出力装置であって、
映像データを受信する映像データ入力手段と、
音声データを受信する音声データ入力手段と、
テキストデータを受信する外部テキストデータ入力手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段と、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。
【請求項2】
テキストデータを用いた映像編集出力装置であって、
映像データを受信する映像データ入力手段と、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。
【請求項3】
請求項1の映像編集出力装置であって、
前記テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項1に記載の映像編集出力装置。
【請求項4】
請求項2の映像編集出力装置であって、
前記音声認識テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項2に記載の映像編集出力装置。
【請求項5】
請求項1の映像編集出力装置であって、
前記テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の
静止画像を表示出力をする、
請求項1に記載の映像編集出力装置。
【請求項6】
請求項2の映像編集出力装置であって、
前記音声認識テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の
静止画像を表示出力をする、
請求項2に記載の映像編集出力装置。
【請求項7】
請求項1の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている
前記テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項1に記載の映像編集出力装置。
【請求項8】
請求項2の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている
前記音声認識テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項2に記載の映像編集出力装置。
【請求項9】
請求項1、又は請求項2の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記映像データ内の
静止画像を表示出力する、
請求項1又は2に記載の映像編集出力装置。
【請求項10】
テキストデータを用いた映像編集出力方法であって、
映像データを受信する映像データ入力ステップと、
音声データを受信する音声データ入力ステップと、
テキストデータを受信する外部テキストデータ入力ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与ステップと、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与ステップと、
前記外部テキストデータ入力ステップで入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。
【請求項11】
テキストデータを用いた映像編集出力するコンピュータを、
映像データを受信する映像データ入力手段、
音声データを受信する音声データ入力手段、
テキストデータを受信する外部テキストデータ入力手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。
【請求項12】
テキストデータを用いた映像編集出力方法であって、
映像データを受信する映像データ入力ステップと、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与ステップと、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。
【請求項13】
テキストデータを用いた映像編集出力するコンピュータを、
映像データを受信する映像データ入力手段、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストデータを用いた編集制御技術に関する。
【背景技術】
【0002】
映像編集機としての映像編集出力制御装置は、テレビ放送が始まって以来、様々な製品が開発され販売されている。
【0003】
近年、音声認識技術がAIの台頭ともに成熟し、音声認識技術による音声データや映像データからの音声認識テキスト化の精度が高まってきている。音声認識技術はスマートフォンなどでは標準的に搭載され、キーパットテキスト入力と同様の入力手段として音声認識入力手段が確立されている。
【0004】
また音声認識技術と同時に、テキストから音声を生成する音声合成装置のシステムも多く開発され、映像や音声とテキストとの関連性が密になりつつある。そこで音声認識技術や、音声合成技術を用いて得たテキスト情報をメタデータにして、音声情報に付加した編集システムが構築されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2019-061428公報
【文献】再表2017/072915公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし音声認識技術、音声合成技術が飛躍的に向上しているにも関わらず、それらの出力結果や生成元となるテキストデータを積極的に利用した編集装置は提供されていなかった。
【0007】
特許文献1の発明では映像からメタデータとして生成したテキスト情報を抽出する映像編集を行うシステムだが、時刻とは連携されておらず、メタデータやプレイリストはあくまで編集を行うための情報に過ぎない。
【0008】
特許文献2の発明は音声認識システムを使ってテキスト化し、メタデータを生成しているが、翻訳をメインに第2言語の同期を取ることを目的とし、そのメタデータを元に映像を管理しているのみで、編集ポイントを指定することはできない。
【0009】
そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、音声認識システムによって出力された音声認識テキストデータ、もしくは音声合成に用いるテキストデータを元に、そのテキストデータを用いて映像を編集することを目的とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、請求項1記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声データを受信する音声データ入力手段と、テキストデータを受信する外部テキストデータ入力手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第2時刻付与手段と、前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第3時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、を備えることを特徴としている。
【0011】
本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声合成等を行う際に利用した外部テキストデータを、編集システムが事前に取り込む際に基準時刻を付与することによって、外部テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。
【0012】
請求項2記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第1時刻付与手段と、前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第2時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、を備えることをを特徴としている。
【0013】
本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声認識処理によって得られた音声認識テキストデータに基準時刻を付与することによって、音声認識テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態1に係る情報処理システム100の概略構成(システム構成)の一例を示す図である。
【
図2】本発明の実施形態1に係る映像編集制御サーバの一例を示す概略構成図(ブロック図)である。
【
図3】本発明の実施形態1に係る音声合成装置を用いて編集作業を行う過程を示すフローチャートである。
【
図4】本発明の実施形態2に係る情報処理システム200の概略構成(システム構成)の一例を示す図である。
【
図5】本発明の実施形態2に係る音声認識装置を用いて編集作業を行う過程を示すフローチャートである。
【
図6】本発明の実施形態1、および実施形態2に係る情報処理装置に表示される画面実施の一例を示す図である。
【
図7】本発明の実施形態1、および実施形態2に係る情報処理装置に表示される画面実施の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
【0016】
<実施形態1>
図1は、本発明の実施形態1に係る情報処理システム100の一実施形態を示す概略構成図(システム構成図)である。
図1に示すように、本発明の実施の形態に係る情報処理システム100は、例示的に映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、及び情報処理装置4、音声合成装置5、を備え、所定のネットワークに接続されて構成されている。
【0017】
映像出力装置1は、映像編集出力制御サーバ2と接続し、編集を行う映像を出力する装置である。市販のVTR、DVD、HD-CAM、XD-CAM、及び汎用の映像編集サーバ等である。
【0018】
映像編集出力制御サーバ2は、映像データ、音声データ、音声合成装置5から受信した外部テキストデータを元に映像編集を行う装置である。映像データ、音声データの一部削除やスーパーインポーズ、他の映像データや音声データを追加しながら、映像を編集出力制御をする装置である、映像編集出力制御サーバ2のさらに具体的な構成及び動作については、後述する。
【0019】
映像受信装置3は、映像編集出力制御サーバ2と接続し、編集された映像を受信する装置である。市販のVTR、DVD、HD-CAM、XD-CAM、及び汎用の映像編集サーバ等である。映像出力装置1を代わりに使用しても良い。
【0020】
情報処理装置4は、映像編集出力制御サーバ2と接続し、汎用ブラウザや専用アプリケーションを利用して、編集操作を行うことができる装置である。情報処理装置4は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。
【0021】
音声合成装置5は、テキストデータから音声データを生成する装置である。音声合成装置はあらかじめ用意したテキストデータを装置の基準時刻で音声データに変換する装置である。装置内で音声データ化するスピードを設定する機能を有し、音声データ化した際に基準時刻からの差分を計測し、その数値をテキストデータ内に埋め込む機能を有しても良い。
【0022】
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声合成装置5と映像編集出力制御サーバ2との間、及び映像編集出力制御サーバ2と情報処理装置4との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
【0023】
なお、情報処理システム100は、本実施形態1では、音声合成装置5、映像編集出力制御サーバ2、映像出力装置1、映像受信装置3、及び情報処理装置4を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声合成装置5に関しては、映像編集出力制御サーバ2に音声合成装置機能が搭載されていれば、設置しなくてもよい。また、映像出力装置1と映像受信装置3は共用でも良いし、情報処理装置4に関しては、複数台設置して、同時に映像編集出力制御サーバ2と通信を行ってもよい。さらに、映像編集出力制御サーバ2の機能と情報処理装置4の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
【0024】
図2は、本発明の実施形態1に係る映像編集出力制御サーバ2の一例を示す概略構成図(ブロック図)である。
図2に示すように、映像編集出力制御サーバ2は、例示的に、各種データ及び各種情報を送受信する送受信部21と、各種データの入出力を制御するための各種処理を実行する情報処理部22と、各種情報及び各種データを記録する記憶部23と、を備えて構成される。なお、情報処理部22は、例えば、不図示であるが、記憶部23に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
【0025】
送受信部21は機能的に、映像データ受信部211と、音声データ受信部212と、外部テキストデータ受信部213と、編集済映像データ送信部214と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
【0026】
映像データ受信部211は、映像出力装置1から映像データを受信する。映像データとはトランスポートストリーム(TS)といったストリーム形式でも良いし、AVI、QuickTime、WFM、FLVといったファイル形式でも良い。また、圧縮されていない映像であるSDI(シリアルデジタルインターフェース)形式でも良い。
【0027】
音声データ受信部212は、音声合成装置5から音声データを受信する。音声データは様々な形式のストリーミング形式でも良いし、mp3,wma、AAC、Vorbisといったファイル形式でも良い。また、伝送形式のAES/EBU形式でも良い。
【0028】
外部テキストデータ受信部213は、音声合成装置5からテキストデータを受信する。テキストデータは音声合成装置5が音声データを生成するために必要なテキストであり、音声データ受信部212で受信した音声データと基準時刻が合うように同期が取られている。テキストデータは他のシステムから映像編集出力制御サーバ2が一旦受信をして、音声合成装置5に渡すようにしても良い。
【0029】
編集済映像データ送信部214は、編集を終えた映像データを外部システムに送信する。送信する編集を終えた映像データとはトランスポートストリーム(TS)といったストリーム形式でも良いし、AVI、QuickTime、WFM、FLVといったファイル形式でも良い。また、圧縮されていない映像であるSDI(シリアルデジタルインターフェース)形式でも良い。
【0030】
情報処理部22は機能的に、時刻基準データ生成部221と、第1時刻付与部222と、第2時刻付与部223と、第3時刻付与部224と、データ出力部225と、を含んで構成されている。
【0031】
時刻基準データ生成部221は、外部から受信した時刻情報、もしくは内部で生成した時刻情報を元に基準時刻を生成する。この基準時刻を元に映像編集出力制御サーバ2のデータは全て管理される。
【0032】
第1時刻付与部222は、時刻基準データ生成部221で生成した基準時刻を映像データ受信部211で受信した映像データの映像基準データに付与する。映像基準データとはMpeg Videoの場合、フレームデータとなるIピクチャに該当する。基準時刻はIピクチャに直接付与しても良いし、Iピクチャを基準に相対的な時刻を付与しても良い。
【0033】
第2時刻付与部223は、時刻基準データ生成部221で生成した基準時刻を音声データ受信部212で受信した音声データの音声区間検出データ毎に付与する。音声区間検出データとは音声VAD(Voice Activity Detection:音声区間検出)技術によって分割された音声データを指す。VAD技術とは音声と雑音が含まれる信号から音声が存在する区間とそれ以外の区間を判別する技術であり、分割する手段は、無音区間を検出して分割しても良いし、一定の時間毎に区切っても良い。
【0034】
第3時刻付与部224は、時刻基準データ生成部221で生成した基準時刻を外部テキストデータ受信部213で受信したテキストデータに付与する。テキストデータには文字毎に基準時刻を付与しても良いし、形態素解析した単語毎に付与しても良い。
【0035】
記憶部23は、映像データ受信部211で受信した映像データと、音声データ受信部212で受信した音声データと、外部テキストデータ受信部213で受信したテキストデータと、を記録し、保存されている。
【0036】
<実施例1>
図3を参照して、音声合成装置に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例1として説明する。
図3は、本発明の実施形態1に係る音声合成装置5を用いて編集作業を行う過程を示すフローチャートである。
【0037】
(ステップS1)
映像出力装置1から編集対象となる映像データが映像編集出力制御サーバ2内の映像データ受信部211に入力される。
【0038】
(ステップS2)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第1時刻付与部222にて映像データへ付与され、記憶部23へ映像データVDとして記憶される。
【0039】
(ステップS3)
音声を生成する基となる外部テキストデータが、音声合成装置5に入力される。
【0040】
(ステップS4)
音声合成装置5は入力された外部テキストデータを基に音声データを生成する。
【0041】
(ステップS5)
音声合成装置は生成した音声データを映像編集出力制御サーバ2へ転送する。転送された音声データは映像編集出力制御サーバ2は内部の音声データ受信部212に入力される。
【0042】
(ステップS6)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第2時刻付与部223にて音声データへ付与され、記憶部23へ音声データADとして記憶される。音声区間検出データに区切り保管しても良い。
【0043】
(ステップS7)
また音声合成装置5は入力された外部テキストデータを映像編集出力制御サーバ2へ転送する。転送された外部テキストデータは映像編集出力制御サーバ2は内部の外部テキストデータ受信部213に入力される。
【0044】
(ステップS8)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第3時刻付与部224にて外部テキストデータへ付与され、記憶部23へ外部テキストデータOTDとして記憶される。
【0045】
(ステップS9)
次に情報処理装置4で編集処理を行う。編集の詳細については後述するが、情報処理装置4の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。
【0046】
(ステップS10)
編集された映像データは、データ出力部225で出力可能な形式に変換され、編集済映像データ送信部から外部システムに映像データを送信する。
【0047】
<実施形態2>
図4は、本発明の実施形態2に係る情報処理システム200の一実施形態を示す概略構成図(システム構成図)である。
図4に示すように、本発明の実施の形態に係る情報処理システム200は、例示的に映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、及び情報処理装置4、音声認識装置6、を備え、所定のネットワークに接続されて構成されている。
【0048】
映像出力装置1、映像編集出力制御サーバ2、映像受信装置3、情報処理装置4は実施形態1と同様の機能、動作を行う。
【0049】
音声認識装置6は、音声データから言語を認識し、音声認識テキストを生成する装置である。音声認識装置6はあらかじめ用意した映像出力装置1か出力される映像データの音声データ部分のみを取り入れても良いし、別の音声出力装置を用意しても良い。映像編集出力制御サーバ2から基準信号基準時刻を受信、もしくは外部の基準時刻を受信し、その基準時刻の数値を入力される音声データや、出力されるテキストデータに埋め込む機能を有し、情報処理システム200で同一の基準時刻にて動作させる仕組みを持つ。
【0050】
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声認識装置6と映像編集出力制御サーバ2との間、及び映像編集出力制御サーバ2と情報処理装置4との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
【0051】
なお、情報処理システム200は、本実施形態2では、音声認識装置6、映像編集出力制御サーバ2、映像出力装置1、映像受信装置3、及び情報処理装置4を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声認識装置6に関しては、映像編集出力制御サーバ2に音声認識機能が搭載されていれば、設置しなくてもよい。また、映像出力装置1と映像受信装置3は共用でも良いし、情報処理装置4に関しては、複数台設置して、同時に映像編集出力制御サーバ2と通信を行ってもよい。さらに、映像編集出力制御サーバ2の機能と情報処理装置4の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
【0052】
<実施例2>
図5を参照して、音声認識装置6に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例1として説明する。
図5は、本発明の実施形態2に係る音声認識装置6を用いて編集作業を行う過程を示すフローチャートである。
【0053】
(ステップS21)
映像出力装置1から編集対象となる映像データが映像編集出力制御サーバ2内の映像データ受信部211に入力される。
【0054】
(ステップS22)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第1時刻付与部222にて映像データへ付与され、記憶部23へ映像データVDとして記憶される。
【0055】
(ステップS23)
ステップS21で入力した編集対象となる映像データの音声データ部分を、映像出力装置1から音声認識装置6に入力する。また映像出力装置1から直接入力せず、別の装置を経由して入力しても良い。この音声データはこの際、音声データには映像データの基準時刻データを重畳する。この映像データの基準時刻データを元に映像編集出力制御サーバ2内の時刻データと同期させる。
【0056】
(ステップS24)
音声認識装置6は入力された音声データを基に音声認識テキストデータを生成する。この音声認識テキストデータには、前述の映像データの基準時刻データを元に生成された時刻データを埋め込む。
【0057】
(ステップS25)
音声認識装置6は生成した音声認識テキストデータを映像編集出力制御サーバ2へ転送する。転送された音声認識テキストデータは映像編集出力制御サーバ2は内部の外部テキストデータ受信部213に入力される。
【0058】
(ステップS26)
映像編集出力制御サーバ2内の時刻基準データ生成部221で生成された基準時刻を第3時刻付与部224にて外部テキストデータへ付与され、記憶部23へ外部テキストデータOTDとして記憶される。
【0059】
(ステップS27)
次に情報処理装置4で編集処理を行う。編集の詳細については後述するが、情報処理装置4の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。
【0060】
(ステップS28)
編集された映像データは、データ出力部225で出力可能な形式に変換され、編集済映像データ送信部214から外部システムに映像データを送信する。
【0061】
<画面実施例1>
図1、もしくは
図4に示す情報処理装置4の表示部(不図示)に表示される、画面の一例を説明する。
図6は、本発明の実施形態1、および実施形態2に係る情報処理装置に表示される画面実施例1を示す図である。画面は基準時刻データ表示エリア41、映像データ表示エリア42、スーパーインポーズ表示エリア43、外部テキストデータ表示エリア44からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。
【0062】
外部テキストデータ表示エリア44のテキストの選択表示411(
図6ではテキスト「お」が選択されている)はマウスカーソルを上に置く「マウスオーバー」操作や、キーボードで「Shift+カーソルキー」を押下する操作などで選択する。
【0063】
情報処理装置4は選択された外部テキストの選択表示411「お」に付与されている基準時刻を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込んだ基準時刻は基準時刻データ表示エリア41に時間軸中の該当箇所に対象基準時刻表示412としてハイライト表示を行う。この基準時刻をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。
【0064】
続いて、情報処理装置4は選択された外部テキストの選択表示411「お」に付与されている基準時刻を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込み後、情報処理装置4は取り込んだ基準時刻に紐づけられている映像データVD内の静止画像を読み出す。取り込んだ静止画像は時間軸中の該当箇所に対象画像表示413としてハイライト表示を行う。このハイライト表示された静止画像をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。
【0065】
<画面実施例2>
続いて、
図1、もしくは
図4に示す情報処理装置4の表示部(不図示)に表示される、画面の一例を説明する。
図7は、本発明の実施形態1、および実施形態2に係る情報処理装置4に表示される画面実施例2を示す図である。画面は画面実施例1同様に基準時刻データ表示エリア41、映像データ表示エリア42、スーパーインポーズ表示エリア43、外部テキストデータ表示エリア44からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。
【0066】
スーパーインポーズ表示エリア43のスーパーインポーズ表示421(
図7ではスーパー素材「熱々の中華まんとおでんの発売を開始」が選択されている)はマウスクリックをしながらマウスカーソルを上下に動かす「マウスドラック」操作(破線矢印の通り)をする。マウスドラッグ位置に対応した基準時刻表示エリア41時間軸中の基準時刻表示422がハイライト表示される。
【0067】
情報処理装置4はハイライト表示された基準時刻表示422の数値を映像編集出力制御サーバ2内の外部テキストデータOTDから読み出し、基準時刻を取り込む。取り込んだ基準時刻は外部テキストデータ表示エリア44で対応したテキストのハイライト表示423を行う。スーパーインポーズ表示421をマウスドラッグで破線のように動かすことにより、ハイライト表示された基準時刻表示422も、テキストのハイライト表示423も破線のように動作する。この操作によって、音声のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。
【0068】
続いて、情報処理装置4はハイライト表示された基準時刻表示422の数値に紐づけられた映像編集出力制御サーバ2内の映像データVDの静止画から読み出し、静止画像を取り込む。取り込んだ基準時刻は映像データ表示エリア42で対応した静止画像表示424を行う。スーパーインポーズ表示421をマウスドラッグで破線のように動かすことにより、ハイライト表示された静止画像表示424も破線のように動作する。この操作によって、画像のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。
【符号の説明】
【0069】
1 映像出力装置
2 映像編集出力制御サーバ
3 映像受信装置
4 情報処理装置
5 音声合成装置
6 音声認識装置
21 映像編集出力制御サーバ送受信部
22 映像編集出力制御サーバ情報処理部
23 映像編集出力制御サーバ記憶部
41 情報処理装置表示部の基準時刻データ表示エリア
42 情報処理装置表示部の映像データ表示エリア
43 情報処理装置表示部のスーパーインポーズ表示エリア
44 情報処理装置表示部の外部テキストデータ表示エリア
100 情報処理システム
200 情報処理システム
211 映像データ受信部
212 音声データ受信部
213 外部テキストデータ受信部
214 編集済映像データ送信部
221 時刻基準データ生成部
222 第1時刻付与部
223 第2時刻付与部
224 第3時刻付与部
411 テキスト選択表示
412 対象基準時刻表示
413 対象画像表示
421 スーパーインポーズ表示
422 基準時刻表示
423 テキストハイライト表示
424 静止画像表示
VD 映像データ
AD 音声データ
OTD 外部テキストデータ