特許7424801 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＴＢＳテレビの特許一覧 ▶ 株式会社ＴＢＳグロウディアの特許一覧

特許7424801テキストデータを用いた映像編集出力制御装置、テキストデータを用いた映像編集出力方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-22

(45)【発行日】2024-01-30

(54)【発明の名称】テキストデータを用いた映像編集出力制御装置、テキストデータを用いた映像編集出力方法、及びプログラム

(51)【国際特許分類】

G11B 27/02 20060101AFI20240123BHJP

G10L 15/00 20130101ALI20240123BHJP

G11B 20/10 20060101ALI20240123BHJP

H04N 21/854 20110101ALI20240123BHJP

G10L 13/00 20060101ALN20240123BHJP

【ＦＩ】

G11B27/02 A

G10L15/00 200G

G11B27/02 J

G11B20/10 301Z

H04N21/854

G10L13/00 100R

【請求項の数】 13

(21)【出願番号】P 2019204328

(22)【出願日】2019-11-12

(65)【公開番号】P2021077432

(43)【公開日】2021-05-20

【審査請求日】2022-09-27

(73)【特許権者】

【識別番号】509137087

【氏名又は名称】株式会社ＴＢＳテレビ

(73)【特許権者】

【識別番号】519183933

【氏名又は名称】株式会社ＴＢＳグロウディア

(74)【代理人】

【識別番号】100205523

【弁理士】

【氏名又は名称】木村浩也

(72)【発明者】

【氏名】安田英史

(72)【発明者】

【氏名】永田六郎

(72)【発明者】

【氏名】高橋吾郎

【審査官】中野和彦

(56)【参考文献】

【文献】特開２００７－２９５２１８（ＪＰ，Ａ）

【文献】特開２０１４－２２２２９０（ＪＰ，Ａ）

【文献】特開２０１８－１８０５１９（ＪＰ，Ａ）

【文献】特開２０１９－１１０４８０（ＪＰ，Ａ）

【文献】特開２００７－３２８８４９（ＪＰ，Ａ）

【文献】特開２００１－３１２６６８（ＪＰ，Ａ）

【文献】特開平１１－３０６６６９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１１Ｂ２７／０２

Ｇ１０Ｌ１５／００

Ｇ１１Ｂ２０／１０

Ｈ０４Ｎ２１／８５４

Ｇ１０Ｌ１３／００

(57)【特許請求の範囲】

【請求項1】

テキストデータを用いた映像編集出力装置であって、
映像データを受信する映像データ入力手段と、
音声データを受信する音声データ入力手段と、
テキストデータを受信する外部テキストデータ入力手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段と、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第２時刻付与手段と、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第３時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。

【請求項2】

テキストデータを用いた映像編集出力装置であって、
映像データを受信する映像データ入力手段と、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段と、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第２時刻付与手段と、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、
を備えることを特徴とした映像編集出力装置。

【請求項3】

請求項１の映像編集出力装置であって、
前記テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項１に記載の映像編集出力装置。

【請求項4】

請求項２の映像編集出力装置であって、
前記音声認識テキストデータが表示されている箇所に、マウスカーソル、もしくは選択領域を特定の文字に重ね合わせた際に、前記データ出力手段によって読み出された前記時刻基準データを表示出力をする、
請求項２に記載の映像編集出力装置。

【請求項5】

請求項１の映像編集出力装置であって、
前記テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の静止画像を表示出力をする、
請求項１に記載の映像編集出力装置。

【請求項6】

請求項２の映像編集出力装置であって、
前記音声認識テキストデータが表示されている箇所にマウスカーソルを移動した際、もしくはテキストデータ内の特定の文字選択した際に、前記データ出力手段によって読み出された前記時刻基準データと関連づけられている、前記映像データ内の静止画像を表示出力をする、
請求項２に記載の映像編集出力装置。

【請求項7】

請求項１の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項１に記載の映像編集出力装置。

【請求項8】

請求項２の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記音声認識テキストデータの文字の表示を他の文字とは異なる表示出力をする、
請求項２に記載の映像編集出力装置。

【請求項9】

請求項１、又は請求項２の映像編集出力装置であって、
映像に映像、画像、もしくは文字をスーパーインポーズする際に、前記時刻基準データを編集画面スケール上に表示し、前記編集画面スケール上でスーパーインポーズする映像表示部分、画像表示部分、もしくは文字表示部分を選択し、マウス操作でドラッグ、もしくはキーボード操作でカーソル移動した時に、編集画面スケール上の前記時刻基準データと関連づけられている前記映像データ内の静止画像を表示出力する、
請求項１又は２に記載の映像編集出力装置。

【請求項10】

テキストデータを用いた映像編集出力方法であって、
映像データを受信する映像データ入力ステップと、
音声データを受信する音声データ入力ステップと、
テキストデータを受信する外部テキストデータ入力ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与ステップと、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第２時刻付与ステップと、
前記外部テキストデータ入力ステップで入力された際に、前記テキストデータに前記時刻基準データを付与する第３時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。

【請求項11】

テキストデータを用いた映像編集出力するコンピュータを、
映像データを受信する映像データ入力手段、
音声データを受信する音声データ入力手段、
テキストデータを受信する外部テキストデータ入力手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段、
前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第２時刻付与手段、
前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第３時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。

【請求項12】

テキストデータを用いた映像編集出力方法であって、
映像データを受信する映像データ入力ステップと、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識ステップと、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生ステップと、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与ステップと、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第２時刻付与ステップと、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力ステップと、
を備えることを特徴とした映像編集出力方法。

【請求項13】

テキストデータを用いた映像編集出力するコンピュータを、
映像データを受信する映像データ入力手段、
音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段、
外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段、
前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段、
前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第２時刻付与手段、
前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段、
として機能させることを特徴とした映像編集出力プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキストデータを用いた編集制御技術に関する。

【背景技術】

【0002】

映像編集機としての映像編集出力制御装置は、テレビ放送が始まって以来、様々な製品が開発され販売されている。

【0003】

近年、音声認識技術がＡＩの台頭ともに成熟し、音声認識技術による音声データや映像データからの音声認識テキスト化の精度が高まってきている。音声認識技術はスマートフォンなどでは標準的に搭載され、キーパットテキスト入力と同様の入力手段として音声認識入力手段が確立されている。

【0004】

また音声認識技術と同時に、テキストから音声を生成する音声合成装置のシステムも多く開発され、映像や音声とテキストとの関連性が密になりつつある。そこで音声認識技術や、音声合成技術を用いて得たテキスト情報をメタデータにして、音声情報に付加した編集システムが構築されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１９－０６１４２８公報

【文献】再表２０１７／０７２９１５公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし音声認識技術、音声合成技術が飛躍的に向上しているにも関わらず、それらの出力結果や生成元となるテキストデータを積極的に利用した編集装置は提供されていなかった。

【0007】

特許文献１の発明では映像からメタデータとして生成したテキスト情報を抽出する映像編集を行うシステムだが、時刻とは連携されておらず、メタデータやプレイリストはあくまで編集を行うための情報に過ぎない。

【0008】

特許文献２の発明は音声認識システムを使ってテキスト化し、メタデータを生成しているが、翻訳をメインに第２言語の同期を取ることを目的とし、そのメタデータを元に映像を管理しているのみで、編集ポイントを指定することはできない。

【0009】

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、音声認識システムによって出力された音声認識テキストデータ、もしくは音声合成に用いるテキストデータを元に、そのテキストデータを用いて映像を編集することを目的とする。

【課題を解決するための手段】

【0010】

上記の課題を解決するために、請求項１記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声データを受信する音声データ入力手段と、テキストデータを受信する外部テキストデータ入力手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段と、前記音声データ受信時に、前記音声データを構成する音声区間検出データ毎に、前記時刻基準データを付与する第２時刻付与手段と、前記外部テキストデータ入力手段で入力された際に、前記テキストデータに前記時刻基準データを付与する第３時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、前記音声データを構成する音声区間検出データ、及び前記テキストデータの一部を出力することができるデータ出力手段と、を備えることを特徴としている。

【0011】

本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声合成等を行う際に利用した外部テキストデータを、編集システムが事前に取り込む際に基準時刻を付与することによって、外部テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。

【0012】

請求項２記載の発明は、テキストデータを用いた映像編集出力装置であって、映像データを受信する映像データ入力手段と、音声認識処理を行い、音声から音声認識テキストデータを生成する音声認識手段と、外部クロック、もしくは内部クロックを元に時刻基準データを生成する基準時刻発生手段と、前記映像データ受信時に、前記映像データを構成する静止画データ毎に、前記時刻基準データを付与する第１時刻付与手段と、前記音声認識処理で生成された音声認識テキストデータ内に、前記時刻基準データを付与する第２時刻付与手段と、前記時刻基準データを元に、前記映像データを構成する静止画データ、及び前記音声認識テキストデータの一部を出力することができるデータ出力手段と、を備えることをを特徴としている。

【0013】

本発明によれば、映像や音声を装置に取り込む際に基準時刻を付与し、同時に音声認識処理によって得られた音声認識テキストデータに基準時刻を付与することによって、音声認識テキストデータを編集の基準軸として扱うことが可能となり、視覚的にわかりやすい編集システムを構築することができる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施形態１に係る情報処理システム１００の概略構成（システム構成）の一例を示す図である。

【図2】本発明の実施形態１に係る映像編集制御サーバの一例を示す概略構成図（ブロック図）である。

【図3】本発明の実施形態１に係る音声合成装置を用いて編集作業を行う過程を示すフローチャートである。

【図4】本発明の実施形態２に係る情報処理システム２００の概略構成（システム構成）の一例を示す図である。

【図5】本発明の実施形態２に係る音声認識装置を用いて編集作業を行う過程を示すフローチャートである。

【図6】本発明の実施形態１、および実施形態２に係る情報処理装置に表示される画面実施の一例を示す図である。

【図7】本発明の実施形態１、および実施形態２に係る情報処理装置に表示される画面実施の一例を示す図である。

【発明を実施するための形態】

【0015】

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。

【0016】

＜実施形態１＞
図１は、本発明の実施形態１に係る情報処理システム１００の一実施形態を示す概略構成図（システム構成図）である。図１に示すように、本発明の実施の形態に係る情報処理システム１００は、例示的に映像出力装置１、映像編集出力制御サーバ２、映像受信装置３、及び情報処理装置４、音声合成装置５、を備え、所定のネットワークに接続されて構成されている。

【0017】

映像出力装置１は、映像編集出力制御サーバ２と接続し、編集を行う映像を出力する装置である。市販のＶＴＲ、ＤＶＤ、ＨＤ-ＣＡＭ、ＸＤ-ＣＡＭ、及び汎用の映像編集サーバ等である。

【0018】

映像編集出力制御サーバ２は、映像データ、音声データ、音声合成装置５から受信した外部テキストデータを元に映像編集を行う装置である。映像データ、音声データの一部削除やスーパーインポーズ、他の映像データや音声データを追加しながら、映像を編集出力制御をする装置である、映像編集出力制御サーバ２のさらに具体的な構成及び動作については、後述する。

【0019】

映像受信装置３は、映像編集出力制御サーバ２と接続し、編集された映像を受信する装置である。市販のＶＴＲ、ＤＶＤ、ＨＤ-ＣＡＭ、ＸＤ-ＣＡＭ、及び汎用の映像編集サーバ等である。映像出力装置１を代わりに使用しても良い。

【0020】

情報処理装置４は、映像編集出力制御サーバ２と接続し、汎用ブラウザや専用アプリケーションを利用して、編集操作を行うことができる装置である。情報処理装置４は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ／ノートブック型コンピュータ、及び据え置き型コンピュータ等である。

【0021】

音声合成装置５は、テキストデータから音声データを生成する装置である。音声合成装置はあらかじめ用意したテキストデータを装置の基準時刻で音声データに変換する装置である。装置内で音声データ化するスピードを設定する機能を有し、音声データ化した際に基準時刻からの差分を計測し、その数値をテキストデータ内に埋め込む機能を有しても良い。

【0022】

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声合成装置５と映像編集出力制御サーバ２との間、及び映像編集出力制御サーバ２と情報処理装置４との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。

【0023】

なお、情報処理システム１００は、本実施形態１では、音声合成装置５、映像編集出力制御サーバ２、映像出力装置１、映像受信装置３、及び情報処理装置４を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声合成装置５に関しては、映像編集出力制御サーバ２に音声合成装置機能が搭載されていれば、設置しなくてもよい。また、映像出力装置１と映像受信装置３は共用でも良いし、情報処理装置４に関しては、複数台設置して、同時に映像編集出力制御サーバ２と通信を行ってもよい。さらに、映像編集出力制御サーバ２の機能と情報処理装置４の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。

【0024】

図２は、本発明の実施形態１に係る映像編集出力制御サーバ２の一例を示す概略構成図（ブロック図）である。図２に示すように、映像編集出力制御サーバ２は、例示的に、各種データ及び各種情報を送受信する送受信部２１と、各種データの入出力を制御するための各種処理を実行する情報処理部２２と、各種情報及び各種データを記録する記憶部２３と、を備えて構成される。なお、情報処理部２２は、例えば、不図示であるが、記憶部２３に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

【0025】

送受信部２１は機能的に、映像データ受信部２１１と、音声データ受信部２１２と、外部テキストデータ受信部２１３と、編集済映像データ送信部２１４と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）をも含む。

【0026】

映像データ受信部２１１は、映像出力装置１から映像データを受信する。映像データとはトランスポートストリーム（ＴＳ）といったストリーム形式でも良いし、ＡＶＩ、ＱｕｉｃｋＴｉｍｅ、ＷＦＭ、ＦＬＶといったファイル形式でも良い。また、圧縮されていない映像であるＳＤＩ（シリアルデジタルインターフェース）形式でも良い。

【0027】

音声データ受信部２１２は、音声合成装置５から音声データを受信する。音声データは様々な形式のストリーミング形式でも良いし、ｍｐ３，ｗｍａ、ＡＡＣ、Ｖｏｒｂｉｓといったファイル形式でも良い。また、伝送形式のＡＥＳ／ＥＢＵ形式でも良い。

【0028】

外部テキストデータ受信部２１３は、音声合成装置５からテキストデータを受信する。テキストデータは音声合成装置５が音声データを生成するために必要なテキストであり、音声データ受信部２１２で受信した音声データと基準時刻が合うように同期が取られている。テキストデータは他のシステムから映像編集出力制御サーバ２が一旦受信をして、音声合成装置５に渡すようにしても良い。

【0029】

編集済映像データ送信部２１４は、編集を終えた映像データを外部システムに送信する。送信する編集を終えた映像データとはトランスポートストリーム（ＴＳ）といったストリーム形式でも良いし、ＡＶＩ、ＱｕｉｃｋＴｉｍｅ、ＷＦＭ、ＦＬＶといったファイル形式でも良い。また、圧縮されていない映像であるＳＤＩ（シリアルデジタルインターフェース）形式でも良い。

【0030】

情報処理部２２は機能的に、時刻基準データ生成部２２１と、第１時刻付与部２２２と、第２時刻付与部２２３と、第３時刻付与部２２４と、データ出力部２２５と、を含んで構成されている。

【0031】

時刻基準データ生成部２２１は、外部から受信した時刻情報、もしくは内部で生成した時刻情報を元に基準時刻を生成する。この基準時刻を元に映像編集出力制御サーバ２のデータは全て管理される。

【0032】

第１時刻付与部２２２は、時刻基準データ生成部２２１で生成した基準時刻を映像データ受信部２１１で受信した映像データの映像基準データに付与する。映像基準データとはＭｐｅｇＶｉｄｅｏの場合、フレームデータとなるＩピクチャに該当する。基準時刻はＩピクチャに直接付与しても良いし、Ｉピクチャを基準に相対的な時刻を付与しても良い。

【0033】

第２時刻付与部２２３は、時刻基準データ生成部２２１で生成した基準時刻を音声データ受信部２１２で受信した音声データの音声区間検出データ毎に付与する。音声区間検出データとは音声ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：音声区間検出）技術によって分割された音声データを指す。ＶＡＤ技術とは音声と雑音が含まれる信号から音声が存在する区間とそれ以外の区間を判別する技術であり、分割する手段は、無音区間を検出して分割しても良いし、一定の時間毎に区切っても良い。

【0034】

第３時刻付与部２２４は、時刻基準データ生成部２２１で生成した基準時刻を外部テキストデータ受信部２１３で受信したテキストデータに付与する。テキストデータには文字毎に基準時刻を付与しても良いし、形態素解析した単語毎に付与しても良い。

【0035】

記憶部２３は、映像データ受信部２１１で受信した映像データと、音声データ受信部２１２で受信した音声データと、外部テキストデータ受信部２１３で受信したテキストデータと、を記録し、保存されている。

【0036】

＜実施例１＞
図３を参照して、音声合成装置に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例１として説明する。図３は、本発明の実施形態１に係る音声合成装置５を用いて編集作業を行う過程を示すフローチャートである。

【0037】

（ステップＳ１）
映像出力装置１から編集対象となる映像データが映像編集出力制御サーバ２内の映像データ受信部２１１に入力される。

【0038】

（ステップＳ２）
映像編集出力制御サーバ２内の時刻基準データ生成部２２１で生成された基準時刻を第１時刻付与部２２２にて映像データへ付与され、記憶部２３へ映像データＶＤとして記憶される。

【0039】

（ステップＳ３）
音声を生成する基となる外部テキストデータが、音声合成装置５に入力される。

【0040】

（ステップＳ４）
音声合成装置５は入力された外部テキストデータを基に音声データを生成する。

【0041】

（ステップＳ５）
音声合成装置は生成した音声データを映像編集出力制御サーバ２へ転送する。転送された音声データは映像編集出力制御サーバ２は内部の音声データ受信部２１２に入力される。

【0042】

（ステップＳ６）
映像編集出力制御サーバ２内の時刻基準データ生成部２２１で生成された基準時刻を第２時刻付与部２２３にて音声データへ付与され、記憶部２３へ音声データＡＤとして記憶される。音声区間検出データに区切り保管しても良い。

【0043】

（ステップＳ７）
また音声合成装置５は入力された外部テキストデータを映像編集出力制御サーバ２へ転送する。転送された外部テキストデータは映像編集出力制御サーバ２は内部の外部テキストデータ受信部２１３に入力される。

【0044】

（ステップＳ８）
映像編集出力制御サーバ２内の時刻基準データ生成部２２１で生成された基準時刻を第３時刻付与部２２４にて外部テキストデータへ付与され、記憶部２３へ外部テキストデータＯＴＤとして記憶される。

【0045】

（ステップＳ９）
次に情報処理装置４で編集処理を行う。編集の詳細については後述するが、情報処理装置４の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。

【0046】

（ステップＳ１０）
編集された映像データは、データ出力部２２５で出力可能な形式に変換され、編集済映像データ送信部から外部システムに映像データを送信する。

【0047】

＜実施形態２＞
図４は、本発明の実施形態２に係る情報処理システム２００の一実施形態を示す概略構成図（システム構成図）である。図４に示すように、本発明の実施の形態に係る情報処理システム２００は、例示的に映像出力装置１、映像編集出力制御サーバ２、映像受信装置３、及び情報処理装置４、音声認識装置６、を備え、所定のネットワークに接続されて構成されている。

【0048】

映像出力装置１、映像編集出力制御サーバ２、映像受信装置３、情報処理装置４は実施形態１と同様の機能、動作を行う。

【0049】

音声認識装置６は、音声データから言語を認識し、音声認識テキストを生成する装置である。音声認識装置６はあらかじめ用意した映像出力装置１か出力される映像データの音声データ部分のみを取り入れても良いし、別の音声出力装置を用意しても良い。映像編集出力制御サーバ２から基準信号基準時刻を受信、もしくは外部の基準時刻を受信し、その基準時刻の数値を入力される音声データや、出力されるテキストデータに埋め込む機能を有し、情報処理システム２００で同一の基準時刻にて動作させる仕組みを持つ。

【0050】

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、音声認識装置６と映像編集出力制御サーバ２との間、及び映像編集出力制御サーバ２と情報処理装置４との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。

【0051】

なお、情報処理システム２００は、本実施形態２では、音声認識装置６、映像編集出力制御サーバ２、映像出力装置１、映像受信装置３、及び情報処理装置４を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、音声認識装置６に関しては、映像編集出力制御サーバ２に音声認識機能が搭載されていれば、設置しなくてもよい。また、映像出力装置１と映像受信装置３は共用でも良いし、情報処理装置４に関しては、複数台設置して、同時に映像編集出力制御サーバ２と通信を行ってもよい。さらに、映像編集出力制御サーバ２の機能と情報処理装置４の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。

【0052】

＜実施例２＞
図５を参照して、音声認識装置６に外部テキストデータを入力して編集を行う映像編集出力制御装置を実施例１として説明する。図５は、本発明の実施形態２に係る音声認識装置６を用いて編集作業を行う過程を示すフローチャートである。

【0053】

（ステップＳ２１）
映像出力装置１から編集対象となる映像データが映像編集出力制御サーバ２内の映像データ受信部２１１に入力される。

【0054】

（ステップＳ２２）
映像編集出力制御サーバ２内の時刻基準データ生成部２２１で生成された基準時刻を第１時刻付与部２２２にて映像データへ付与され、記憶部２３へ映像データＶＤとして記憶される。

【0055】

（ステップＳ２３）
ステップＳ２１で入力した編集対象となる映像データの音声データ部分を、映像出力装置１から音声認識装置６に入力する。また映像出力装置１から直接入力せず、別の装置を経由して入力しても良い。この音声データはこの際、音声データには映像データの基準時刻データを重畳する。この映像データの基準時刻データを元に映像編集出力制御サーバ２内の時刻データと同期させる。

【0056】

（ステップＳ２４）
音声認識装置６は入力された音声データを基に音声認識テキストデータを生成する。この音声認識テキストデータには、前述の映像データの基準時刻データを元に生成された時刻データを埋め込む。

【0057】

（ステップＳ２５）
音声認識装置６は生成した音声認識テキストデータを映像編集出力制御サーバ２へ転送する。転送された音声認識テキストデータは映像編集出力制御サーバ２は内部の外部テキストデータ受信部２１３に入力される。

【0058】

（ステップＳ２６）
映像編集出力制御サーバ２内の時刻基準データ生成部２２１で生成された基準時刻を第３時刻付与部２２４にて外部テキストデータへ付与され、記憶部２３へ外部テキストデータＯＴＤとして記憶される。

【0059】

（ステップＳ２７）
次に情報処理装置４で編集処理を行う。編集の詳細については後述するが、情報処理装置４の編集画面で基準時刻を特定する操作を行い、その操作から当該基準時刻の静止画を読み出したり、音声データを構成する音声区間検出データを読み出して編集を効率的に行う。

【0060】

（ステップＳ２８）
編集された映像データは、データ出力部２２５で出力可能な形式に変換され、編集済映像データ送信部２１４から外部システムに映像データを送信する。

【0061】

＜画面実施例１＞
図１、もしくは図４に示す情報処理装置４の表示部（不図示）に表示される、画面の一例を説明する。図６は、本発明の実施形態１、および実施形態２に係る情報処理装置に表示される画面実施例１を示す図である。画面は基準時刻データ表示エリア４１、映像データ表示エリア４２、スーパーインポーズ表示エリア４３、外部テキストデータ表示エリア４４からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。

【0062】

外部テキストデータ表示エリア４４のテキストの選択表示４１１（図６ではテキスト「お」が選択されている）はマウスカーソルを上に置く「マウスオーバー」操作や、キーボードで「Ｓｈｉｆｔ＋カーソルキー」を押下する操作などで選択する。

【0063】

情報処理装置４は選択された外部テキストの選択表示４１１「お」に付与されている基準時刻を映像編集出力制御サーバ２内の外部テキストデータＯＴＤから読み出し、基準時刻を取り込む。取り込んだ基準時刻は基準時刻データ表示エリア４１に時間軸中の該当箇所に対象基準時刻表示４１２としてハイライト表示を行う。この基準時刻をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。

【0064】

続いて、情報処理装置４は選択された外部テキストの選択表示４１１「お」に付与されている基準時刻を映像編集出力制御サーバ２内の外部テキストデータＯＴＤから読み出し、基準時刻を取り込む。取り込み後、情報処理装置４は取り込んだ基準時刻に紐づけられている映像データＶＤ内の静止画像を読み出す。取り込んだ静止画像は時間軸中の該当箇所に対象画像表示４１３としてハイライト表示を行う。このハイライト表示された静止画像をターゲットとして編集を行うことによって、効率的な編集を行うことが可能となる。

【0065】

＜画面実施例２＞
続いて、図１、もしくは図４に示す情報処理装置４の表示部（不図示）に表示される、画面の一例を説明する。図７は、本発明の実施形態１、および実施形態２に係る情報処理装置４に表示される画面実施例２を示す図である。画面は画面実施例１同様に基準時刻データ表示エリア４１、映像データ表示エリア４２、スーパーインポーズ表示エリア４３、外部テキストデータ表示エリア４４からなる。全てのエリアを用意する必要はなく、各々必要な機能に応じてエリアを増やしたり、減らしたりしても良い。

【0066】

スーパーインポーズ表示エリア４３のスーパーインポーズ表示４２１（図７ではスーパー素材「熱々の中華まんとおでんの発売を開始」が選択されている）はマウスクリックをしながらマウスカーソルを上下に動かす「マウスドラック」操作（破線矢印の通り）をする。マウスドラッグ位置に対応した基準時刻表示エリア４１時間軸中の基準時刻表示４２２がハイライト表示される。

【0067】

情報処理装置４はハイライト表示された基準時刻表示４２２の数値を映像編集出力制御サーバ２内の外部テキストデータＯＴＤから読み出し、基準時刻を取り込む。取り込んだ基準時刻は外部テキストデータ表示エリア４４で対応したテキストのハイライト表示４２３を行う。スーパーインポーズ表示４２１をマウスドラッグで破線のように動かすことにより、ハイライト表示された基準時刻表示４２２も、テキストのハイライト表示４２３も破線のように動作する。この操作によって、音声のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。

【0068】

続いて、情報処理装置４はハイライト表示された基準時刻表示４２２の数値に紐づけられた映像編集出力制御サーバ２内の映像データＶＤの静止画から読み出し、静止画像を取り込む。取り込んだ基準時刻は映像データ表示エリア４２で対応した静止画像表示４２４を行う。スーパーインポーズ表示４２１をマウスドラッグで破線のように動かすことにより、ハイライト表示された静止画像表示４２４も破線のように動作する。この操作によって、画像のスタート時間を確認できることができ、効率的な編集を行うことが可能となる。

【符号の説明】

【0069】

１映像出力装置
２映像編集出力制御サーバ
３映像受信装置
４情報処理装置
５音声合成装置
６音声認識装置
２１映像編集出力制御サーバ送受信部
２２映像編集出力制御サーバ情報処理部
２３映像編集出力制御サーバ記憶部
４１情報処理装置表示部の基準時刻データ表示エリア
４２情報処理装置表示部の映像データ表示エリア
４３情報処理装置表示部のスーパーインポーズ表示エリア
４４情報処理装置表示部の外部テキストデータ表示エリア
１００情報処理システム
２００情報処理システム
２１１映像データ受信部
２１２音声データ受信部
２１３外部テキストデータ受信部
２１４編集済映像データ送信部
２２１時刻基準データ生成部
２２２第１時刻付与部
２２３第２時刻付与部
２２４第３時刻付与部
４１１テキスト選択表示
４１２対象基準時刻表示
４１３対象画像表示
４２１スーパーインポーズ表示
４２２基準時刻表示
４２３テキストハイライト表示
４２４静止画像表示
ＶＤ映像データ
ＡＤ音声データ
ＯＴＤ外部テキストデータ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版