特表2023-548733 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オキュラス　ブイアール，エルエルシーの特許一覧

特表2023-548733オーディオおよびビデオ編集用のテキスト駆動エディタ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12A
12B
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-21

(54)【発明の名称】オーディオおよびビデオ編集用のテキスト駆動エディタ

(51)【国際特許分類】

H04N 21/854 20110101AFI20231114BHJP

H04N 21/472 20110101ALI20231114BHJP

H04N 5/765 20060101ALI20231114BHJP

【ＦＩ】

H04N21/854

H04N21/472

H04N5/765

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023516123

(86)(22)【出願日】2021-10-27

(85)【翻訳文提出日】2023-05-09

(86)【国際出願番号】 US2021056876

(87)【国際公開番号】W WO2022093976

(87)【国際公開日】2022-05-05

(31)【優先権主張番号】63/106,648

(32)【優先日】2020-10-28

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/106,649

(32)【優先日】2020-10-28

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/378,742

(32)【優先日】2021-07-18

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡＳＣＲＩＰＴ

(71)【出願人】

【識別番号】515046968

【氏名又は名称】メタプラットフォームズテクノロジーズ，リミテッドライアビリティカンパニー

【氏名又は名称原語表記】ＭＥＴＡＰＬＡＴＦＯＲＭＳＴＥＣＨＮＯＬＯＧＩＥＳ，ＬＬＣ

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(72)【発明者】

【氏名】アリバイ、シャミール

(72)【発明者】

【氏名】ホジソン、ロデリックニール

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA29

5C164MA02S

5C164MA06S

5C164MA07S

5C164MC01P

5C164UB41S

5C164UD41P

5C164YA11

(57)【要約】

開示される技術は、発話された単語またはサウンドバイトからビデオプログラムをアセンブリおよび編集するためのシステムおよびコンピュータ実装方法である。開示される技術は、ソースオーディオ／ビデオクリップおよび複数のフォーマットのいずれかをインポートする。発話されたオーディオは検索可能なテキストへと文字起こしされる。テキスト文字起こしは、タイムコードマーカによってビデオトラックに同期される。発話された各単語はタイムコードマーカに対応し、タイムコードマーカは１つまたは複数のビデオフレームに対応する。ワードプロセッシング動作およびテキスト編集機能を使用して、ユーザは、対応する文字起こしテキストセグメントを選択することによってビデオセグメントを選択する。テキストを選択し、そのテキストを配置することによって、対応するビデオプログラムがアセンブリされる。選択されたビデオセグメントは、ユーザによって選ばれた任意の順序によりタイムラインディスプレイ上にアセンブリされる。ビデオセグメントのシーケンスは、エクスポート用の完成したビデオプログラムを生成するように、所望に応じて並べ替えおよび編集されてよい。

【特許請求の範囲】

【請求項1】

コンピュータ実装方法であって、
デジタルビデオに関連付けられているビデオ再生ウィンドウと、前記デジタルビデオのオーディオトラックの文字起こしを表示する文字起こしテキストウィンドウと、を備えるビデオアセンブリインタフェースを生成する、ビデオアセンブリインタフェース生成工程と、
前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程と、
選択された前記１つまたは複数の単語に対応する第１のビデオクリップを生成する第１ビデオクリップ生成工程と、
前記ビデオアセンブリインタフェース内に、前記第１のビデオクリップを含むビデオタイムラインを生成する工程と、を備えるコンピュータ実装方法。

【請求項2】

前記ビデオアセンブリインタフェース生成工程は、アップロードされた複数のデジタルビデオからの前記デジタルビデオの選択が検出されることに応答したものである、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記指示受信工程は、前記文字起こしから前記１つまたは複数の単語のユーザ強調表示の１つの指示を受信する工程、または前記ビデオ再生ウィンドウに関連付けられている１つまたは複数の再生インジケータのユーザ選択の指示を受信する工程を含む、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記第１ビデオクリップ生成工程は、前記ビデオアセンブリインタフェース内において、選択された前記１つまたは複数の単語を前記文字起こしテキストウィンドウから前記ビデオタイムラインまでドラッグアンドドロップするユーザ対話を検出することに応答したものである、請求項３に記載のコンピュータ実装方法。

【請求項5】

前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしからの追加の単語の選択の指示を受信する工程と、
選択された前記追加の単語に対応する第２のビデオクリップを生成する工程と、
前記第２のビデオクリップを前記ビデオタイムラインに追加する工程と、をさらに備える、請求項２～４のいずれか一項に記載のコンピュータ実装方法。

【請求項6】

前記ビデオアセンブリインタフェース内の前記ビデオタイムラインとの検出されたユーザ対話に応答して、前記ビデオタイムライン内において前記第１のビデオクリップおよび前記第２のビデオクリップを並べ替える工程をさらに備える、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記アップロードされた複数のデジタルビデオからの追加のデジタルビデオの選択が検出されることに応答して、
前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウから前記デジタルビデオを除去する工程と、
前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウから前記デジタルビデオの前記オーディオトラックの前記文字起こしを除去する工程と、
前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウに前記追加のビデオを追加する工程と、
前記追加のビデオのオーディオトラックの文字起こしを前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウに追加する工程と、
前記第１のビデオクリップおよび前記第２のビデオクリップを前記ビデオアセンブリインタフェースの前記ビデオタイムライン内に維持する工程と、をさらに備える、請求項６に記載のコンピュータ実装方法。

【請求項8】

システムであって、
１つ以上の物理プロセッサと、
コンピュータ実行可能命令を備える物理メモリと、を備え、前記命令は、前記物理プロセッサによる実行時、前記物理プロセッサに請求項１～７のいずれか一項に記載の方法を行わせる、システム。

【請求項9】

コンピュータによる実行時、前記コンピュータに請求項１～７のいずれか一項に記載の方法を行わせる命令を備える、コンピュータ可読ストレージ媒体。

【請求項10】

非一時的である、請求項９に記載のコンピュータ可読ストレージ媒体。

【請求項11】

命令を備えるコンピュータプログラム製品であって、前記命令は、前記プログラムがコンピュータによって実行された時、前記コンピュータに請求項１～７のいずれか一項に記載の方法を行わせる、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

開示される技術は、一般に、ビデオプログラムをビデオ編集しアセンブリするためのコンピュータ実装方法、システム、およびコンピュータプログラムに関する。より詳細には、本開示は、ビデオクリップのオーディオトラックにおける文字起こしされたスピーチから導出されたキーワードまたはサウンドバイトに基づいてビデオプログラムを編集しアセンブリするための方法、システム、およびコンピュータプログラムに関する。

【背景技術】

【0002】

この節において説明される主題は、単にこの節におけるその言及の結果として、従来技術であると想定されるものではない。同様に、この節において言及される問題、または背景として提供される主題に関連する問題は、従来技術において以前に認識されていたと想定されるものではない。この節における主題は、異なるアプローチを表すに過ぎず、それら自身も特許請求の範囲の技術の実装に対応し得る。

【0003】

ビデオ編集は、ビデオ映像、ビデオクリップ、特殊効果、および録音のセグメントを編集してファイナライズされたビデオプログラムにする処理である。過去において、非線形ビデオ編集（ＮＬＥ）は、専用ソフトウェアを有する複雑かつ高価な専用機械上にて実行されてきたが、時間の経過とともに、ビデオ編集ソフトウェアは、パーソナルコンピュータ、さらにはコンピュータタブレットおよびスマートフォン上における使用のために広く利用可能になるように進化してきた。ビデオ編集ソフトウェアの必要性は、ビデオを組み込んだより多くのソーシャルメディアビデオプラットフォームが広く利用可能になるにつれて、この１０年間にわたって増大してきた。ソーシャルメディアビデオプラットフォームの指数関数的な成長は、ビデオコンテンツを生成し、そのビデオコンテンツを編集し、ビデオコンテンツをソーシャルメディアビデオプラットフォームおよび他の場所にアップロードするコンテンツクリエータの対応する成長をもたらした。

【0004】

専門的なビデオ編集では、コンピュータプログラムは高価かつ複雑であり、ユーザが一般的に複雑なユーザインタフェースを使用する訓練を受ける必要がある。熟練者になるためには、非線形ビデオ編集のユーザは、非線形ビデオ編集システム用の処理およびユーザインタフェースを習得するための専門レベルの知識および訓練を獲得する必要がある。既知の非線形ビデオ編集システムは、その複雑さのため、一般ユーザを萎縮させ得る。

【0005】

さらに、そうしたコンピュータプログラムは、計算効率が悪い。例えば、そうしたコンピュータプログラムは、編集中にビデオのコピーを生成する際に、処理リソースおよびメモリリソースを浪費する。説明すると、より大きなデジタルビデオから取られたビデオクリップを生成するためのユーザコマンドに応答して、既存のコンピュータプログラムは、多くの場合、１）スタンドアロンビデオクリップを生成するようにデジタルビデオからフレームをコピーするか、または２）デジタルビデオ全体を複製し、次いでビデオクリップに含まれないビデオフレームを削除するかのいずれかである。このように、既存のコンピュータプログラムは、多数の処理サイクルを浪費すると同時に、ビデオ編集タスクに関連してメモリ使用量を急速に増大させる。

【発明の概要】

【0006】

本開示の第１の態様によれば、デジタルビデオに関連付けられているビデオ再生ウィンドウと、前記デジタルビデオのオーディオトラックの文字起こしを表示する文字起こしテキストウィンドウと、を備えるビデオアセンブリインタフェースを生成する、ビデオアセンブリインタフェース生成工程と、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程と、選択された前記１つまたは複数の単語に対応する第１のビデオクリップを生成する第１ビデオクリップ生成工程と、前記ビデオアセンブリインタフェース内に、前記第１のビデオクリップを含むビデオタイムラインを生成する工程と、を備える、コンピュータ実装方法が提供される。

【0007】

前記ビデオアセンブリインタフェース生成工程は、アップロードされた複数のデジタルビデオからの前記デジタルビデオの選択が検出されることに応答したものであってよい。
前記指示受信工程は、前記文字起こしから前記１つまたは複数の単語のユーザ強調表示の１つの指示を受信する工程、または前記ビデオ再生ウィンドウに関連付けられている１つまたは複数の再生インジケータのユーザ選択の指示を受信する工程を含んでよい。

【0008】

前記第１ビデオクリップ生成工程は、前記ビデオアセンブリインタフェース内において、選択された前記１つまたは複数の単語を前記文字起こしテキストウィンドウから前記ビデオタイムラインまでドラッグアンドドロップするユーザ対話を検出することに応答したものであってよい。

【0009】

前記コンピュータ実装方法は、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしからの追加の単語の選択の指示を受信する工程と、選択された前記追加の単語に対応する第２のビデオクリップを生成する工程と、前記第２のビデオクリップを前記ビデオタイムラインに追加する工程と、をさらに備えてよい。

【0010】

前記コンピュータ実装方法は、前記ビデオアセンブリインタフェース内の前記ビデオタイムラインとの検出されたユーザ対話に応答して、前記ビデオライムライン内において前記第１のビデオクリップおよび前記第２のビデオクリップを並べ替える工程をさらに備えてよい。

【0011】

前記コンピュータ実装方法は、前記アップロードされた複数のデジタルビデオから追加のデジタルビデオの選択が検出されることに応答して、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウから前記デジタルビデオを除去する工程と、前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウから前記デジタルビデオの前記オーディオトラックの前記文字起こしを除去する工程と、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウに前記追加のビデオを追加する工程と、前記追加のビデオのオーディオトラックの文字起こしを前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウに追加する工程と、前記第１のビデオクリップおよび前記第２のビデオクリップを前記ビデオアセンブリインタフェースの前記ビデオタイムライン内に維持する工程と、をさらに備えてよい。

【0012】

本開示の第２の態様によれば、システムであって、１つ以上の物理プロセッサと、コンピュータ実行可能命令を備える物理メモリと、を備え、前記命令は、前記物理プロセッサによる実行時、前記物理プロセッサに、デジタルビデオに関連付けられているビデオ再生ウィンドウと、前記デジタルビデオのオーディオトラックの文字起こしを表示する文字起こしテキストウィンドウと、を備えるビデオアセンブリインタフェースを生成する、ビデオアセンブリインタフェース生成工程と、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程と、選択された前記１つまたは複数の単語に対応する第１のビデオクリップを生成する第１ビデオクリップ生成工程と、前記ビデオアセンブリインタフェース内に、前記第１のビデオクリップを含むビデオタイムラインを生成する工程と、を備える、システムが提供される。

【0013】

前記ビデオアセンブリインタフェース生成工程は、アップロードされた複数のデジタルビデオからの前記デジタルビデオの選択が検出されることに応答してよい。
前記物理メモリは、コンピュータ実行可能命令をさらに備えてよく、前記命令は、前記物理メモリによる実行時、前記物理プロセッサに、前記文字起こしから前記１つまたは複数の単語のユーザ強調表示の１つの指示を受信する、または前記ビデオ再生ウィンドウに関連付けられている１つまたは複数の再生インジケータのユーザ選択の指示を受信することによって、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程を含む動作を行わせる。

【0014】

前記第１ビデオクリップ生成工程は、前記ビデオアセンブリインタフェース内においてされた前記１つまたは複数の単語を前記文字起こしテキストウィンドウから前記ビデオタイムラインまでドラッグアンドドロップするユーザ対話を検出することに応答してよい。

【0015】

前記物理メモリは、コンピュータ実行可能命令であって、前記命令は、前記物理プロセッサによる実行時、前記物理プロセッサに、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしからの追加の単語の選択の指示を受信する工程と、選択された前記追加の単語に対応する第２のビデオクリップを生成する工程と、前記第２のビデオクリップを前記ビデオタイムラインに追加する工程と、を備える動作を行う命令をさらに備えてよい。

【0016】

前記物理メモリは、コンピュータ実行可能命令であって、前記命令は、前記物理プロセッサによる実行時、前記物理プロセッサに、前記ビデオアセンブリインタフェース内の前記ビデオタイムラインとの検出されたユーザ対話に応答して、前記ビデオライムライン内において前記第１のビデオクリップおよび前記第２のビデオクリップを並べ替える工程を備える動作を行わせる、命令をさらに備えてよい。

【0017】

前記物理メモリは、コンピュータ実行可能命令であって、前記命令は、前記物理プロセッサによる実行時、前記物理プロセッサに、前記アップロードされた複数のデジタルビデオから追加のデジタルビデオの選択が検出されることに応答して、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウから前記デジタルビデオを除去する工程と、前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウから前記デジタルビデオの前記オーディオトラックの前記文字起こしを除去する工程と、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウに前記追加のビデオを追加する工程と、前記追加のビデオのオーディオトラックの文字起こしを前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウに追加する工程と、前記第１のビデオクリップおよび前記第２のビデオクリップを前記ビデオアセンブリインタフェースの前記ビデオタイムライン内に維持する工程と、を備える動作を行わせる、命令をさらに備えてよい。

【0018】

本開示の第３の態様によれば、コンピュータ可読媒体であって、１つまたは複数のコンピュータ実行可能命令を備え、前記命令は、コンピューティングデバイスの１つまたは複数のプロセッサによる実行時、前記コンピューティングデバイスに、デジタルビデオに関連付けられているビデオ再生ウィンドウと、前記デジタルビデオのオーディオトラックの文字起こしを表示する文字起こしテキストウィンドウと、を備えるビデオアセンブリインタフェースを生成する、ビデオアセンブリインタフェース生成工程と、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程と、選択された前記１つまたは複数の単語に対応する第１のビデオクリップを生成する第１ビデオクリップ生成工程と、前記ビデオアセンブリインタフェース内に、前記第１のビデオクリップを含むビデオタイムラインを生成する工程と、を備える動作を行わせる、システムが提供される。媒体は、非一時的であってよい。

【0019】

前記コンピュータ可読媒体は、コンピュータ実行可能命令をさらに備えてよく、前記命令は、前記コンピューティングデバイスの前記１つ以上のプロセッサによる実行時、前記コンピューティングデバイスに、前記文字起こしから前記１つまたは複数の単語のユーザ強調表示の１つの指示を受信する、または前記ビデオ再生ウィンドウに関連付けられている１つまたは複数の再生インジケータのユーザ選択の指示を受信することによって、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしから１つまたは複数の単語の選択の指示を受信する指示受信工程を含む動作を行わせる。

【0020】

【0021】

前記コンピュータ可読媒体は、コンピュータ実行可能命令であって、前記命令は、前記コンピューティングデバイスの１つ以上のプロセッサによる実行時、前記コンピューティングデバイスに、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしからの追加の単語の選択の指示を受信する工程と、選択された前記追加の単語に対応する第２のビデオクリップを生成する工程と、前記第２のビデオクリップを前記ビデオタイムラインに追加する工程と、を備える動作を行う命令をさらに備えてよい。

【0022】

前記コンピュータ可読媒体は、コンピュータ実行可能命令であって、前記命令は、前記コンピューティングデバイスの１つ以上のプロセッサによる実行時、前記コンピューティングデバイスに、前記ビデオアセンブリインタフェース内の前記ビデオタイムラインとの検出されたユーザ対話に応答して、前記ビデオライムライン内において前記第１のビデオクリップおよび前記第２のビデオクリップを並べ替える工程を備える動作を行わせる、命令をさらに備えてよい。

【0023】

前記コンピュータ可読媒体は、コンピュータ実行可能命令であって、前記命令は、前記コンピューティングデバイスの１つ以上のプロセッサによる実行時、前記コンピューティングデバイスに、前記アップロードされた複数のデジタルビデオから追加のデジタルビデオの選択が検出されることに応答して、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウから前記デジタルビデオを除去する工程と、前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウから前記デジタルビデオの前記オーディオトラックの前記文字起こしを除去する工程と、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウに前記追加のビデオを追加する工程と、前記追加のビデオのオーディオトラックの文字起こしを前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウに追加する工程と、前記第１のビデオクリップおよび前記第２のビデオクリップを前記ビデオアセンブリインタフェースの前記ビデオタイムライン内に維持する工程と、を備える動作を行わせる、命令をさらに備えてよい。

【0024】

組込み
以下の材料は、本明細書に完全に記載されているかのように参照により組み込まれる。
２０１８年５月２日に出願された「機械学習ベースのスピーチからテキストへの文字起こしクラウド中継（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－ＢａｓｅｄＳｐｅｅｃｈ－Ｔｏ－ＴｅｘｔＴｒａｎｓｃｒｉｐｔｉｏｎＣｌｏｕｄＩｎｔｅｒｍｅｄｉａｒｙ）」と題する米国仮特許出願第６２／６６６，０１７号。

【0025】

２０１８年５月２日に出願された「深層学習ベースのスピーチからテキストへの文字起こしクラウド中継（ＤｅｅｐＬｅａｒｎｉｎｇＢａｓｅｄＳｐｅｅｃｈ－Ｔｏ－ＴｅｘｔＴｒａｎｓｃｒｉｐｔｉｏｎＣｌｏｕｄＩｎｔｅｒｍｅｄｉａｒｙ）」と題する米国仮特許出願第６２／６６６，０２５号（代理人整理番号ＳＩＭＮ１０００－２）。

【0026】

２０１８年５月２日に出願された「スピーチからテキストへの文字起こし用のエキスパート深層ニューラルネットワーク（ＥｘｐｅｒｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＳｐｅｅｃｈ－Ｔｏ－ＴｅｘｔＴｒａｎｓｃｒｉｐｔｉｏｎ）」と題する米国仮特許出願第６２／６６６，０５０号（代理人整理番号ＳＩＭＮ１０００－３）。

【0027】

Ａ．ｖａｎｄｅｎＯｏｒｄ，Ｓ．Ｄｉｅｌｅｍａｎ，Ｈ．Ｚｅｎ，Ｋ．Ｓｉｍｏｎｙａｎ，０．Ｖｉｎｉｃａｌｓ，ＡＧｒａｖｅｓ，Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，ＡＳｅｎｉｏｒ，およびＫ．Ａ．Ｋａｖｕｋｃｕｏｇｌｕ、「ウェーブネット：生のオーディオのジェネレーティブモデル（Ｗａｖｅｎｅｔ：ＡＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｆｏｒＲａｗＡｕｄｉｏ）」、ａｒＸｉｖ：１６０９．０３４９９、２０１６年。

【0028】

Ｓ．ｂ．Ａｒｉｋ、Ｍ．Ｃｈｒｚａｎｏｗｓｋｉ、ＡＣｏａｔｅｓ、Ｇ．Ｄｉａｍｏｓ、ＡＧｉｂｉａｎｓｋｙ、Ｙ．Ｋａｎｇ、Ｘ．Ｌｉ、Ｊ．Ｍｉｌｌｅｒ、ＡＮｇ、Ｊ．Ｒａｉｍａｎ、Ｓ．ＳｅｎｇｕｐｔａおよびＭ．Ｓｈｏｅｙｂｉ、「ディープボイス：リアルタイムニューラルのテキストからスピーチ（ＤｅｅｐＶｏｉｃｅ：Ｒｅａｌ－ＴｉｍｅＮｅｕｒａｌＴｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ）」ａｒＸｉｖ：ｌ７０２．０７８２５、２０１７年。

【0029】

Ｊ．Ｗｕ，”従来のニューラルネットワークへの導入（ＩｎｔｒｏｄｕｃｔｉｏｎＴｏＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）”，南京大学，２０１７年。

【0030】

Ｉ．Ｊ．グッドフェロー、Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ、Ｍ．ミルザ、ＡＣｏｕｒｖｉｌｌｅ、およびＹ．Ｂｅｎｇｉｏ，「従来のネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）」深層学習，ＭＩＴＰｒｅｓｓ，２０１６年。

【0031】

Ｆ．Ｃｈａｕｂａｒｄ、Ｒ．Ｍｕｎｄｒａ、およびＲ．Ｓｏｃｈｅｒ、「ＣＳ２２４Ｄ：ＮＬＰ用の深層学習、講義ノート：パートＩ」、２０１５年。
Ｆ．Ｃｈａｕｂａｒｄ、Ｒ．Ｍｕｎｄｒａ、およびＲ．Ｓｏｃｈｅｒ、「ＣＳ２２４Ｄ：ＮＬＰ用の深層学習、講義ノート：パートＩＩ」、２０１５年。

【0032】

Ｆ．Ｃｈａｕｂａｒｄ、Ｒ．Ｍｕｎｄｒａ、およびＲ．Ｓｏｃｈｅｒ、「ＣＳ２２４Ｄ：ＮＬＰのための深層学習、講義ノート：パートＩＩＩ」、２０１５年。
Ｆ．Ｃｈａｕｂａｒｄ、Ｒ．Ｍｕｎｄｒａ、およびＲ．Ｓｏｃｈｅｒ、「ＣＳ２２４Ｄ：ＮＬＰ用の深層学習、講義ノート：パートＩＶ」、２０１５年。

【0033】

Ｆ．Ｃｈａｕｂａｒｄ、Ｒ．Ｍｕｎｄｒａ、およびＲ．Ｓｏｃｈｅｒ、「ＣＳ２２４Ｄ：ＮＬＰ用の深層学習、講義ノート：パートＶ」、２０１５年。
Ｙ．Ｆａｎ、Ｍ．Ｐｏｔｏｋ、およびＣ．Ｓｈｒｏｂａ、「オーディオ用の深層学習（ＤｅｅｐＬｅａｒｎｉｎｇＦｏｒＡｕｄｉｏ）」、２０１７年。

【0034】

図面において、同様の参照符号は、一般に、異なる図を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、これに代えて、一般に、開示される技術の原理を説明することに重点が置かれている。以下の記載では、開示される技術の様々な実装が、以下の図面を参照して記載される。

【0035】

特許または出願ファイルは、カラーで作成された１つ以上の図面を含む。カラー図面を含む本特許または特許出願公開の複製物は、請求および必要な手数料の支払いに応じて特許庁によって提供される。カラー図面はまた、補足コンテンツタブを介してＰＡＩＲにおいて利用可能であってもよい。

【図面の簡単な説明】

【0036】

【図1】文字起こしテキストまたはサウンドバイトを使用してビデオプログラムを編集およびアセンブリするためのシステムを示すアーキテクチャレベルの概略図。

【図2】文字起こしテキストまたはサウンドバイトを使用してビデオプログラムをアセンブリするためのシステム用の開示される技術の一般化されたワークフロー。

【図3】開示される技術のワークフローをより詳細に示す図。

【図4】文字起こしテキストまたはサウンドバイトからビデオプログラムをアセンブリする工程を示すフローチャート。

【図5】開示される技術のユーザインタフェースを示し、特に、ビデオウィンドウおよびテキストウィンドウを示す図。

【図6】オーディオトラックのテキスト文字起こし用に作成された文字起こしマップを示す図。

【図7】オーディオトラックから文字起こしされた個々の単語のタイムコード同期を示す図。

【図8】ビデオプログラムがアセンブリされるビデオクリップのリストを含む、開示される技術アプリケーションのプロジェクト作成画面を示す図。

【図9】新しいプロジェクトの作成に使用されるソースビデオおよび対応するソーステキストを示す図。

【図10】選択されたビデオサウンドバイトに対応するテキストの強調表示を示す図。

【図11】タイムラインウィンドウ上にドラッグアンドドロップされた後のサウンドバイトの選択を示す図。

【図12A】図１１に示される画面について、選択における開始単語および終了単語についての開始タイムコード、終了タイムコード、および単語値テキストを示す対応する文字起こしマップを示す。

【図12B】図１１に示される画面について、選択における開始単語および終了単語についての開始タイムコード、終了タイムコード、および単語値テキストを示す対応する文字起こしマップを示す。

【図13】図１１に示される例のためのメディアフラグメントユニフォームリソース識別子（ＵＲＩ）を示す図。

【図14】テキストセグメントにおける最初のテキスト要素（「ｗｈｅｎ」）の開始タイムコードと、テキストセグメントにおける最後の要素の終了タイムコードとを使用して、ビデオのメディアフラグメントユニフォームリソース識別子（ＵＲＩ）にアクセスする方法を示す図。

【図15】開示される技術に係るビデオプログラムアセンブリ方法を示す図。

【図16】コールバック関数を使用して連鎖された第１、第２、および第３のビデオセグメントを含むビデオプロジェクトの作成におけるビデオセグメントのシーケンス化を示す図。

【図17】コールバック関数を使用して連鎖された第１、第２、および第３のビデオセグメントを有するプロジェクトの作成の別の例を示す図。

【図18】第１、第２、および第３のビデオセグメントを第２の順序により再生するためのシーケンス識別子を有するビデオセグメントの再生シーケンスの並べ替えまたは変更を示す図。

【図19】現在のビデオセグメントの再生が完了したときに、第１、第２、および第３のビデオセグメントの中で並べ替えされたビデオセグメントを再生するためにコールバックを使用することをさらに示す図。

【図20】ユーザがアセンブリされたビデオの再生を開始することが可能であるように完成されたタイムラインを有するユーザ機能を示す図。

【図21】エクスポートの準備ができている、アセンブリされたビデオプログラムにおける第１、第２、および第３のビデオセグメントの最終的に選ばれた配置を示す図。

【図22】開示される技術を実装するように使用することが可能であるコンピュータシステムを概略形式により示す図。

【発明を実施するための形態】

【0037】

システムの概要
本技術は、ユーザが、文字起こしテキストからビデオプログラムを編集しアセンブリすることを可能にする。１つの態様では、本技術は、サイバーセキュリティ機能を含むブラウザベースまたはウェブベースアプリケーションとして実装される。リモートユーザは、ビデオファイルまたはビデオクリップをアプリケーションサーバにアップロードする。アプリケーションサーバは、ビデオファイルまたはビデオクリップをストレージデバイスにインポートする。本開示の目的のために、ビデオファイルまたはビデオクリップは、一般に、フレームレート、画像解像度、およびタイムコードを含む様々な種類のメタデータとともに、同期されたオーディオトラックおよびビデオトラックを含むファイルを含む。オーディオトラックおよびビデオトラックはタイムコードによって同期される。オーディオの各フレームは、同じタイムコードまたはタイムスタンプを有するビデオの各フレームと同期される。

【0038】

ビデオトラックは、各画像が既知のフレームレートにて動作するフレームである一連の画像を含む。ビデオクリップはまた、ビデオの各フレームに表されるサウンドについてのオーディオを搬送するオーディオトラックを含む。通常、オーディオトラックは、ビデオトラックに示される１人または複数の人の声のスピーチを含む。オーディオトラックにおける音は、ビデオトラックにおける画像に同期される。ビデオファイルは、通常、オーディオコーディングフォーマットにおけるオーディオデータとともにビデオコーディングフォーマットのビデオデータを含むコンテナからなる。コンテナはまた、同期情報および様々なメタデータを含むことが可能である。

【0039】

１つの例では、開示される技術は、ブラウザベースのトランザクションシステムである。ユーザは、ホスト編集およびビデオアセンブリ機能を使用するための料金を、オーディオビデオ編集セッションの期間または他のメトリックに基づく費用にて支払う。または、ホスト編集機能は、サブスクリプションベースにて提供されてよい。

【0040】

本技術は、新しいビデオプログラムをアセンブリする能力を有する。これらの特徴は、ビデオプログラム編集、注釈付け、共同作業、次いでＭｉｃｒｏｓｏｆｔＷｏｒｄへのエクスポート、サブタイトル、ＡｄｏｂｅＰｒｅｍｉｅｒ、ＦｉｎａｌＣｕｔＰｒｏ、ＡｖｉｄＭｅｄｉａＣｏｍｐｏｓｅｒ、および他の非線形編集アプリケーション（ＮＬＥ）、ならびに効果、キャプション付け、タイトル付け等を提供するための関連アプリケーションを含む。

【0041】

ユーザは、第１のパネルにおける選択されたリソースの文字起こし（トランスクリプト）からテキストを選択し、それを第２のパネル上にドラッグアンドドロップすることによって、ユーザインタフェースの第１および第２のパネルと対話し、それによって、アプリケーションに新しいクリップを作成させる。クリップの順序は、ユーザがクリップをドラッグアンドドロップすることによって配置することが可能である。

【0042】

ビデオプログラムの編集およびアセンブリ（組立）は、段階により進行する。第１の段階、アップロードおよび文字起こしでは、ビデオファイルが、ユーザのデバイスまたはクラウドベースのストレージアカウントからウェブサイトにアップロードされ、非線形編集システムのビデオストレージビンと同様に、アプリケーションのビデオストレージに記憶される。オーディオトラックは、抽出され、スピーチからテキストへの文字起こしが行われ、オーディオトラックにおける発話された音声を、編集可能かつ検索可能なフォーマットされたテキストの形態における文字起こしされたスピーチへと変換される。長いオーディオトラックが短時間で効率的に文字起こしされることが可能である。文字起こしテキストは、ユーザのビデオデバイス上のテキストウィンドウに表示される。複数の話者が含まれる場合、ソフトウェアは、話者識別見出しを様々な話者に自動的に割り当てることができる。

【0043】

ユーザは、テキストを編集し、コメントおよび注釈を文字起こしに追加する能力を有する。ビデオは、タイムコードを使用してテキスト表現に正確に同期される。すべてのテキストワードは関連するタイムコードを有し、すべてのビデオフレームはテキストワードに同期されたタイムコードを有する。

【0044】

次の段階では、文字起こしテキストが、テキスト表示に対応するビデオを表示するビデオウィンドウの傍に、ユーザインタフェースにおけるテキストウィンドウに表示される。カーソルがテキスト表示における特定の地点に移動され、特定の単語を強調表示する場合、対応するビデオフレームが表示される。いくつかの単語または文がテキスト表示において強調表示される場合、対応するビデオはビデオウィンドウにおいて再生されてよい。テキストは、従来のワードプロセッサにおけるように検索されてよく、テキスト選択が強調表示されてよい。強調表示されたテキスト選択またはテキストセグメントは、ディスプレイのビデオタイムライン部分に移動されてよい。ビデオタイムラインは、対応するビデオセグメントの第１のプレビューフレームのサムネイルアイコンとともに、選択されたテキストを示す。

【0045】

１つの態様では、開示される技術は、発話された情報コンテンツを使用するテキストベースのビデオエディタである。システムは、ビデオクリップにおけるオーディオトラックの非同期文字起こしを提供する。ビデオ編集処理は、オーディオトラックからテキストを文字起こしし編集する最初の工程の後に開始する。タイムコードは、すべての発話された単語に関連付けられる。スピーチのセグメントは、インアンドアウトタイムコードによって識別される。文字起こしテキストは、ビデオプログラムのアセンブリにおいて使用されるサウンドバイトを見つけるように単語検索されることが可能である。ビデオアセンブリエディタは、テキストベースの編集およびアセンブリに基づく。開示される技術は、一般に、迅速かつ容易なプログラムアセンブリのために短いビデオセグメントを使用する。セグメントは、同じメディアまたはビデオファイルまたは組合せから生じる得る。プレビュービデオをアセンブリし、後処理のために、Ａｖｉｄｍｅｄｉａｃｏｍｐｏｓｅｒ、ＡｄｏｂｅＰｒｅｍｉｅｒ、またはＦｉｎａｌＣｕｔＰｒｏなどの仕上げ非線形エディタにエクスポートして、ファインカットビデオプログラムを生成することが可能である。

【0046】

このように、開示されるシステムおよび方法は、既存のビデオ編集コンピュータプログラムによって提示される技術的問題の多くを解決する。例えば、開示されるシステムおよび方法は、既存のビデオ編集コンピュータプログラムに共通する処理メモリ浪費を回避することによって、コンピューティングシステムの効率を増加させる。例示すると、以下でより詳細に説明されるように、開示されるシステムおよび方法は、デジタルビデオおよび対応する文字起こしにわたって同期されたタイムコードに基づいてビデオクリップが生成されるブラウザベースのソリューションを提示する。したがって、文字起こしの１つまたは複数のワードのユーザ選択に応答して、システムおよび方法は、それらの単語に対応するタイムコードを識別し、識別されたタイムコードを利用して、デジタルビデオの一部をビデオクリップとして再生する。したがって、開示されるシステムおよび方法は、デジタルビデオの任意の部分のコピーも生成することなく、デジタルビデオのクリップを生成することによって、浪費されていたコンピューティングリソースを節約する。
オーディオトラックのテキストへの文字起こし
開示されるスピーチからテキストへの文字起こしは、オーディオチャネルの音およびスピーチ特性に基づいてオーディオチャネルを正確に文字起こしするために、複数の利用可能な認識エンジンからスピーチ認識エンジンを選択する機械学習または深層機械学習アルゴリズムに基づいてよい。この種類の方法およびシステムは、米国特許出願第１６／３７３，５０３号明細書に開示されており、この出願は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。開示される技術および組み込まれた出願は、複数の利用可能なスピーチ認識エンジンから１つまたは複数のスピーチ文字起こしエンジンを選択して、音特性およびスピーチ特性に基づいてオーディオチャネルからスピーチの最も正確な文字起こしを提供する、機械学習ベースのスピーチからテキストへの文字起こし方法およびシステムに関する。ビデオクリップにおけるビデオトラックから高品質かつ高精度のテキストの出力を提供する限り、任意の他のスピーチからテキストへの文字起こしプログラムが使用されてよい。

【0047】

本明細書において使用される際、「ビデオ」または「デジタルビデオ」という用語は、音を伴う視覚表示を含むデジタルメディアアイテムを指す。例えば、デジタルビデオは、ビデオトラックおよびオーディオトラックを含むことが可能である。１つまたは複数の例では、ビデオトラックは、各ビデオフレームが所定のフレームレートおよび解像度に従ってキャプチャされたデジタル画像を含む、ビデオフレームのシーケンスを含むことが可能である。これに加えて、１つまたは複数の例では、オーディオトラックは、デジタルメディアにおいて表される音を含むことが可能である。１つ以上の例では、デジタルビデオのビデオトラックおよびオーディオトラックは、対応するタイムコードに従って同期される。

【0048】

１つまたは複数の例において、上述したように、本システムは、デジタルビデオのオーディオトラックの文字起こしを生成することが可能である。本明細書において使用される際、「文字起こし」は、デジタルビデオのオーディオトラックにおけるの音の記述されたまたは印刷された表現を指す。例えば、オーディオトラックが発話された単語を含む場合、本システムは、オーディオトラック内において発話された単語のデジタル記述表現を含む文字起こしを生成することが可能である。

【0049】

ビデオ編集ワークフロー
ビデオ編集ワークフローの最も受け入れられている方法は、ラフカットの作成とそれに続くファインカットの作成である。最終プログラムに至るオーディオ／ビデオプロジェクトの作成において、一種のグローバルビューにおいて主要な特徴が一緒にフィットすることを示すビデオのバージョンを最初に作成することは、受け入れられている処理である。これをラフカットと呼ぶ。ラフカット形式では、共同作業者がビデオにコメントし、改善の提案を提供してよい。多くの場合数分でアセンブリすることができ、変更を容易に行うことが可能である形態であるラフカットにより作業することは遥かに容易である。すべての主要なコンポーネントが実行可能な形態にてレイアウトされると、ビデオ編集ワークフローは、処理における次の段階に進む。これは、トランジションの実行、視覚効果の追加、音声編集、キャプションの包含－ビデオプロジェクトをその最終形態に近づけることを含む微調整と考えることが可能である。開示される技術は、テキストベースのビデオプログラムアセンブリを提供することによって、このワークフローをサポートする。ラフカットビデオの作成は、典型的には、共同作業であり、印刷された文字起こしを切り取り、ホワイトボード上において切り取られた文字起こしをチームに並べ替えさせることを伴っていた。本技術は、本明細書に記載されるビデオ編集ワークフローを使用して、この処理を合理化する。

【0050】

複数の話者を有するビデオプログラムのアセンブリ
本技術の１つの応用は、複数人が特定の主題についてインタビューされ、個人がカメラ上に自分のビューを提示するビデオプログラムのアセンブリである。多くの場合、インタビュアの質問に答えて、インタビュイは、複数のトピックに関する見解を提示する。ビデオプログラムエディタの問題は、説明された主題がトピックによって編成されている一貫性のあるビデオプログラムをまとめることである。これは、異なるトピックに移動する前に、同じトピックに関するコメントを示すためにビデオプログラムを編集することを必要とする。

【0051】

従来のビデオエディタでは、これは、ビデオカッティングおよびビデオアセンブリにおいて非常に複雑な動作であり、ユーザが小さなビデオセグメントをデジタル的にクリップし、それらをあちこちに移動させなければならない。ユーザは、ビデオセグメントをどこでクリップするかについて個々に決定し、最終的なプログラムを構成するセグメントを編成する。これは、従来のビデオ編集システムでは、後で洗練することが可能であるラフカットを生成するためあっても、扱いにくい処理であり得る。基本的に、複数の主題についてコメントしている３人以上の話者がいる場合、ビデオは、一貫性のあるプログラムを作成するために複数回クリップされ、シーケンス化される必要がある。

【0052】

本技術により、所望の結果が容易に達成される。様々な話者の音声がテキスト形式へと文字起こしされる文字起こし段階の後、話者の名前は、関連するテキストおよびコンテンツの検索および位置特定を支援するようにラベル付けされて自動的に適用されてよい。本明細書において使用される際、「話者」は、デジタルビデオのオーディオトラック上に表される音を生成するエンティティを指す。例えば、話者は、単語を発話する人間であることが可能である。追加の例では、話者は、単語を発話するデジタル的に生成された音声であることが可能である。１つまたは複数の例では、話者は、本システムおよび方法がオーディオトラック内の話者を識別するように利用する様々な声の特性（例えば、音量、トーン、拍子、ピッチ、テンポ）に対応する。

【0053】

次に、文字起こしテキストに対してワードプロセッシング法を使用して、提起された特定の質問に関連する関連コンテンツを見つけてよい。エディタは、複数の話者の各々に関連するコンテンツを選択してよい。そのコンテンツは、ビデオコンテンツビンに記憶される。開示される技術では、ビデオアセンブリエディタを使用して、選んだ順序により各話者の発話された単語を示す視覚的タイムラインを容易に作成してよい。個々のサウンドバイトは、ビデオプログラムのラフカットをアセンブリするためにタイムライン上に簡単に配置されてよい。プログラムはプレビューされることが可能であり、ラフカットビデオプログラムを視聴した後にコメントおよび提案を提供し得る許可された共同作業者によってもプレビューされることが可能である。

【0054】

話者の音声の自動タグ付け
本技術の１つの態様では、システムは話者の名前のタグ付けを提供する。プログラムは、話者の名前に関連付けられた特徴を検出して、文字起こしテキストに、話者の音声の属性によって話者を識別するラベルを提供する。これらの話者ラベルを使用して、テキスト文字起こしは、特定の話者に関連付けられた文字起こしテキストについて検索されてよい。この特徴の１つの利点は、特定の話者に関連付けられたすべてのビデオセグメントが、対応するビデオタイムコードによって一緒にグループ化されて、単一の話者に関連付けられたビデオセグメントを含む粗いビデオプログラムをアセンブリすることを可能にする。例えば、インタビューでは、特定の話者によってなされたすべてのコメントを、インタビュアに関連付けられたセグメントを含まずに、１つの一連の連結されたビデオセグメントにまとめることが有利であり得る。これは、特定のインタビュイに関連付けられたビデオセグメントのみのラフカットをアセンブリする非常に高速な手法である。

【0055】

上述したように、文字起こし内の単語またはテキストが特定の話者に対応すると判定したことに応答して、本明細書に記載されるシステムおよび方法は、話者を識別する話者タグを文字起こしに割り当てることが可能である。本明細書において使用される際、「話者タグ」は、文字起こしにおける１つまたは複数の単語をデジタルビデオのオーディオトラックからの話者に関連付ける文字起こし内の任意の指示を指す。１つまたは複数の例では、話者タグは、自動的に生成された識別子（例えば、「話者１」、「話者２」等）、手動で入力された名前（例えば、文字起こしに関連してユーザによって提供される）、アイコン、色、または任意の他の適切な識別子を含むことが可能である。

【0056】

システムアーキテクチャ
以下では、ブラウザベースのビデオ編集およびビデオアセンブリの方法およびシステム１００のアーキテクチャ形式の実装において記載するが、これは、記載の明瞭性を向上させるために意図的に単純化されている。図１は、様々な主要要素の相互接続を示す。これらの要素の使用は、これらの要素の構造および使用の説明に関連してさらに詳細に記載される。

【0057】

図１は、ブラウザベースのアプリケーションのためのホストコンピュータ１１０を備えるシステム１００を含む。ユーザエンドポイントは、デスクトップおよびラップトップコンピュータ１３０、スマートフォン１２８、ならびにコンピュータタブレット１２６などのデバイスを含んでよい。これらは、ネットワーク１２２へのアクセスを提供して、クラウドベースストア１２４上に記憶されたデータと対話し、ネットワークアクセスを提供してコンピュータ１１０をホストする。ユーザのビデオファイルは、ユーザのリモートデバイス１２６，１２８，１３０にローカルに記憶されてもよく、またはクラウドベースサービス１２４を通じてアクセス可能なクラウドストレージ１２５に記憶されてよく、またはユーザにローカルに記憶されてよい。ビデオファイルは、クラウドストレージ１２５から取り出され、ホストコンピュータ１００およびビデオ編集アプリケーション１１４にアップロードされてよい。ビデオアプリケーションは、アプリケーションサーバ１１４に常駐する。アプリケーションサーバ１１４は、ビデオ編集リソース１１６に対するアクセスを有し、ユーザのアップロードされたファイルを記憶するオーディオ／ビデオストレージビン１２２に対するアクセスも有する。

【0058】

これに加えて、リモートコンピュータ、タブレット、およびスマートフォンは、認可された共同作業者として、ネットワーク１２２を通じてアプリケーション１１４にアクセスしてよい。ビデオ編集およびビデオアセンブリ方法の一部として、ユーザ１３４、１３６、１３８は、レビュアとして指定され、後述するように、ファイナライズされたビデオプログラムにコメントまたは編集提案を提供する権限を与えられてよい。認可された共同作業者は、ビデオプログラムがファイナライズされている間にユーザが解説を受信するように、ビデオおよびコメントを仮想リアルタイムにレビューしてよい。

【0059】

クラウドベースサービス１２４およびクラウドベースストレージ１２５は、エンドユーザにビデオファイルを記憶する便利な方法を提供する。ビデオファイルは、終了したビデオプログラムのアセンブリに使用される生のビデオクリップを提供するように、コンピュータ１１０、特にオーディオ／ビデオストレージビン１２２にアップロードされてよい。

【0060】

次に、システム１００の要素の相互接続について記載する。ネットワーク１２２は、コンピュータ１３０、スマートフォン１２８、およびコンピュータタブレット１２６を互いに結合する。

【0061】

通信経路は、パブリックネットワークおよび／またはプライベートネットワーク上のポイントツーポイントであることが可能である。通信は、プライベートネットワーク、ＶＰＮ、ＭＰＬＳ回路、またはインターネットを含む様々なネットワークを通じて行われることが可能であり、適切なアプリケーションプログラミングインタフェース（ＡＰＩ）、ならびにリプレゼンテーショナルステイトトランスファー（ＲＥＳＴ）、ジャヴァスクリプトオブジェクトノーテーション（ＪＳＯＮ）、エクステンシブルマークアップランゲージ（ＸＭＬ）、シンプルオブジェクトアクセスプロトコル（ＳＯＡＰ）、ジャヴァメッセージサービス（ＪＭＳ）、および／またはジャヴァプラットフォームモジュールシステムなどのデータ交換フォーマットを使用することが可能である。

【0062】

通信は暗号化されてよい。通信は、一般に、ＥＤＧＥ、３Ｇ、４ＧＬＴＥ、Ｗｉ－Ｆｉ、およびＷｉＭＡＸなどのプロトコルにより、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（ワイドエリアネットワーク）、電話ネットワーク（公衆交換電話網（ＰＳＴＮ））、セッション開始プロトコル（ＳＩＰ）、ワイヤレスネットワーク、ポイントツーポイントネットワーク、スターネットワーク、トークンリングネットワーク、ハブネットワーク、モバイルインターネットを含むインターネットなどのネットワークを通じて行われる。

【0063】

図１のシステムコンポーネントは、様々な種類のコンピューティングデバイス上において実行されるソフトウェアによって実装される。例えば、ワークステーション、サーバ、コンピュータクラスタ、ブレードサーバ、またはサーバファームである。これに加えて、ユーザ名／パスワード、オープンオーソリゼーション（ＯＡｕｔｈ）、ケルベロス、セキュアＩＤ、デジタル証明書などの様々な認可および認証技法が、通信をセキュアにするように使用されることが可能である。

【0064】

クラウドベースのサービス１２４は、クラウドまたはインターネット上に実装される機能をユーザに提供する。クラウドベースサービス１２４は、ニュースウェブサイト、ブログ、ビデオストリーミングウェブサイト、ソーシャルメディアウェブサイト、ホストサービス、クラウドアプリケーション、クラウドストア、クラウド共同作業およびメッセージングプラットフォーム、および／またはクラウド顧客関係管理（ＣＲＭ）プラットフォームなどのインターネットホストサービスを含むことが可能である。クラウドベースのサービス１２４は、ブラウザ（ＵＲＬにより）またはネイティブアプリケーション（同期クライアント）を使用してアクセスされることが可能である。

【0065】

クラウドベースのサービス１２４のカテゴリは、サービスとしてのソフトウェア（ＳａａＳ）提供、サービスとしてのプラットフォーム（ＰａａＳ）提供、およびサービスとしてのインフラストラクチャ（ＩａａＳ）提供を含む。

【0066】

今日の一般的なウェブサービスの例には、ＹｏｕＴｕｂｅ（商標）、Ｆａｃｅｂｏｏｋ（商標）、Ｔｗｉｔｔｅｒ（商標）、Ｇｏｏｇｌｅ（商標）、ＬｉｎｋｅｄＩｎ（商標）、Ｗｉｋｉｐｅｄｉａ（商標）、Ｙａｈｏｏ（商標）、Ｂａｉｄｕ（商標）、Ａｍａｚｏｎ（商標）、ＭＳＮ（商標）、Ｐｉｎｔｅｒｅｓｔ（商標）、Ｔａｏｂａｏ（商標）、Ｉｎｓｔａｇｒａｍ（商標）、Ｔｕｍｂｌｒ（商標）、ｅＢａｙ（商標）、Ｈｏｔｍａｉｌ（商標）、Ｒｅｄｄｉｔ（商標）、ＩＭＤｂ（商標）、Ｎｅｔｆｌｉｘ（商標）、ＰａｙＰａＩ（商標）、Ｉｍｇｕｒ（商標）、Ｓｎａｐｃｈａｔ（商標）、Ｙａｍａｍｅｒ（商標）、Ｓｋｙｐｅ（商標）、Ｓｌａｃｋ（商標）、ＨｉｐＣｈａｔ（商標）、Ｃｏｎｆｌｕｅｎｃｅ（商標）、ＴｅａｍＤｒｉｖｅ（商標）、Ｔａｓｋｗｏｒｌｄ（商標）、Ｃｈａｔｔｅｒ（商標）、Ｚｏｈｏ（商標）、ＰｒｏｓｐｅｒＷｏｒｋｓ（商標）、ＧｏｏｇｌｅのＧｍａｉｌ（商標）、Ｓａｌｅｓｆｏｒｃｅ．ｃｏｍ（商標）、Ｂｏｘ（商標）、Ｄｒｏｐｂｏｘ（商標）、ＧｏｏｇｌｅＡｐｐｓ（商標）、ＡｍａｚｏｎＡＷＳ（商標）、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ３６５（商標）、Ｗｏｒｋｄａｙ（商標）、ＯｒａｃｌｅｏｎＤｅｍａｎｄ（商標）、Ｔａｌｅｏ（商標）、Ｊｉｖｅ（商標）、およびＣｏｎｃｕｒ（商標）が含まれる。

【0067】

開示されるものなどのブラウザベースシステム１００では、ネットワークセキュリティ機能は、暗号化を含むネットワークセキュリティを提供するように提供されてよい。セキュリティ機能は、暗号化またはセキュリティを提供する他の手段によって提供されてよい。企業組織では、ユーザは、クラウドベースサービスの何百ものプロバイダにアクセスして、データを、生成する、記憶する、共同作業する、および組織の内部または外部の他のユーザと共有してよい。ネットワークインタフェースは、ユーザのデータを保護し、ビデオ編集システムへのマルウェアの侵入を防止するためのセキュリティプロトコルを含む。

【0068】

図２は、文字起こしされたビデオサウンドバイトを使用してビデオプログラムをアセンブリするためのシステムのための開示される技術の一般化されたワークフローを示す。図３は、ワークフローをより詳細に示す。

【0069】

図２では、ユーザのオーディオ／ビデオファイル１５０が、ユーザのリモートデバイス１２６、１２８、１３０から、またはクラウドベースサービス１２４に関連付けられたクラウドベースビデオストア１２５からアップロードされる。アップロードされたファイルは、オーディオ／ビデオストレージビン１２２に記憶される。文字起こしエンジン１５２は、ビデオクリップに関連付けられたオーディオトラックを文字起こしして、タイムコードによりオーディオトラックおよびビデオトラックに同期されたオーディオトラックの正確なテキストの文字起こしを提供する。例えば、文字起こしエンジン１５２は、デジタルビデオのオーディオトラック内の増分にてタイムコードを識別する（例えば、デジタルビデオのフレームレートに従って）ことによってタイムコードを文字起こしに割り当て、それらのタイムコードを同じ増分にて文字起こしに割り当てる。例えば、デジタルビデオのフレームレートが毎秒３０フレームである場合、文字起こしエンジン１５２は、デジタルビデオのオーディオトラックの毎秒３０個のタイムコードを識別することが可能である。次いで、文字起こしエンジン１５２は、同じタイムコードを、対応する時間増分（例えば、毎秒３０増分）にわたって発生する音を表す文字起こし内のテキストに割り当てることが可能である。

【0070】

文字起こしエンジン１５２は、ビデオインタビューなどのオーディオコンテンツの正確な文字起こしを、従量制またはサブスクリプションベースにて提供するために、別個のサービスとして、編集およびアセンブリモジュールとは独立して動作してよい。
［００１００］新しい編集およびアセンブリプロジェクトが開始されると、ユーザの文字起こしテキストファイルがアプリケーションのビデオアセンブリエディタ１５４へと転送され、そのビデオアセンブリエディタ１５４において、終了したビデオプログラムがアセンブリされる。ビデオアセンブリエディタ１５４は、グラフィカルユーザインタフェースであり、ユーザのアップロードされたビデオファイル１５０からビデオプログラムを作成するための１組のユーザツールである。開示される技術は、文字起こしテキストを使用して、ビデオセグメントを選択し、アセンブリされたビデオプログラムへとシーケンス化する。オーディオトラックのテキスト文字起こしを使用して、ユーザは、テキストのセグメント（例えば、１つの単語、複数の単語）を選択し、選ばれたシーケンスにて視覚的タイムラインへとドラッグアンドドロップする。ビデオフレームおよびオーディオフレームは、選択されたテキストに関連付けられ、テキストとともにタイムラインに移動される。アセンブリエディタ１５４は、ユーザが、ビデオプログラムのアセンブリに対して異なるカットおよびシーケンスを用いて実験することを可能にする。結果として生じるビデオプログラムは、様々なビデオセグメントが適切なシーケンスにてアセンブリされるラフカットビデオプログラムであってよい。この場合、ユーザは、ラフカットビデオプログラムを、Ａｖｉｄメディアコンポーザ、ＡｄｏｂｅＰｒｅｍｉｅｒ、ＦｉｎａｌＣｕｔＰｒｏなどの二次ビデオ編集システムにエクスポート（１５８）して、ラフカットに仕上げタッチを提供し、ファインカットバージョンに到達してよい。別の例では、アップロードは、アプリケーションのビデオアセンブリエディタから直接行われてよく、文字起こしエンジンは、アプリケーションのビデオアセンブリエディタの構成要素として動作してよい。
［００１０１］開示される技術のいくつかの使用では、ビデオアセンブリエディタ１５４は、非線形エディタにおける後処理を必要とせずに、完成したビデオプログラムを生成する。
［００１０２］アプリケーションは、認可された共同作業者がアプリケーションへとサインインし、アセンブリされたビデオを再生し、ビデオがアセンブリされている間にユーザにコメントを提供するための共同作業インタフェース１５６を提供する。これは、ビデオがユーザによってまだアセンブリされている間にコメントが受信されるように、仮想リアルタイムで行われてよい。
［００１０３］本明細書において使用される際、「ビデオクリップ」という用語は、デジタルビデオからのビデオトラックのセグメントおよびオーディオトラックの対応するセグメントを指す。ビデオクリップは、典型的には、複数の連続画像フレームと、タイムコードによってビデオクリップに関連付けられたオーディオトラックと、解像度およびフレームレートなどの他のメタデータとを含む。オーディオトラックは、典型的には、発話された単語および文を含む話者または話者の声のトラックを含む。
［００１０４］第１のフェーズの一部として、オーディオトラックは、複数のテキストセグメントを含むテキストへと文字起こしされ、テキストセグメントは、複数のビデオセグメントにマッピングされる。セグメントごとのオーディオフレームおよび画像フレームは常に同期される。
［００１０５］図３では、ビデオプログラムをアセンブリする処理が、単一のビデオクリップ１５０、ビデオファイル、またはデジタルビデオを参照してより詳細に示されている。ソースビデオクリップ１５０は、システムによる処理のためにユーザによって選択される。ソースクリップ１５０は、ビデオトラック３１０および対応するオーディオトラック３１５を含む。ビデオファイルはまた、フレームレート、ビデオフォーマット、ビデオ解像度、およびタイムコードの形態におけるメタデータを含む。ソースビデオクリップ１５０は、様々なフレームレートおよび解像度を有する様々なビデオフォーマットであってよい。例えば、入力ビデオ１５０は、以下を含むいくつかの標準フレームレートのうちの１つであってよい。２４、２５、３０、５０、６０、２３９８、２９９７、２９９７ＤＦ、５９９４、および５９９４ＤＦ、ならびに他の既知のフレームレート。図３では、同期されたビデオ／オーディオタイムコードは、ビデオアセンブリの処理全体を通じて維持される。ビデオクリップ１５０は、任意の一般的なフォーマットによりエンコードされてよい。一例は、損失のあるビデオ圧縮エンコーディングのよく知られている形態であるＭＰＥＧ－４ビデオクリップである。開示される技術は、すべてのよく知られているビデオフォーマットに対応する。
［００１０６］アップロードされた各ビデオクリップ１５０は、ユーザのビデオビン１２２に記憶される。ユーザは、１つまたは複数のアップロードされたビデオクリップ１５０を選択して、ビデオアセンブリエディタ１５４へとドラッグアンドドロップして、新しいビデオプログラムを作成してよい。
［００１０７］図３に示されるように、文字起こしエンジン１５２は、オーディオトラックを処理して、高品質のオーディオからテキストへの文字起こし３２５を提供する。タイムコード３３０は、テキスト文字起こしにおける個々の単語がオーディオサウンドバイトならびに対応するビデオフレームに対応するように、全体を通して維持される。この方法を使用して、タイムコード３３０がオーディオトラック３１５におけるの発話された各単語に関連付けられる。テキストワードは、従来のワードプロセッシングプログラムにおけるように、編集され、選択され、コピーされ、移動されてよい。選択されたテキストは、タイムコード３３０によって対応するオーディオおよびビデオと常に関連付けられる。

【0071】

同期されたタイムコード
［００１０８］タイムコードは、２４時間クロック読み出しに基づくビデオ同期規格である。ビデオの各フレームには、固有のタイムコード値が割り当てられている。タイムコード３３０は、タイミング同期システムによって規則的な間隔にて生成される数値コードのシーケンスである。タイムコードは、ビデオフレームおよびオーディオフレームに関連する要素の時間的調整を必要とするビデオ制作アプリケーションにおいて使用される。
［００１０９］基本的なタイムコード規格は、国に応じて、毎秒３０フレームまたは毎秒２５フレームのビデオフレームレートを想定している。米国および他の国において主として使用されるＮＴＳＣビデオ規格は、３０フレーム／秒（ｆｐｓ）のフレームレートを有し、欧州において主として使用されるＰＡＬおよびＳＥＣＡＭは、２５フレーム／秒（ｆｐｓ）のフレームレートを有する。ＮＴＳＣでは、３０フレームが１秒に等しい。カラーまたはＤＴＶ／ＨＤＴＶにおけるビデオは、実際には、２９．９７ｆｐｓの米国におけるフレームレートを有する。２９．９７ｆｐｓと３０ｆｐｓとのタイムコード間の同期は、ドロップフレームタイムコードとして知られる公式に従ってタイムコードフレームを周期的にドロップするなどの方法によって維持される。一般に、開示される技術では、ドロップフレームタイムコードは使用されず、または必要とされない。本技術では、以下を含む追加のフレームレートを使用してよい。２３．９７６、５９．９７、６０、および他の広く使用されているフレームレート。
［００１１０］タイムコーディングはタイムスタンプとも呼ばれる。ビデオ制作において使用されるタイムコードの１つの周知の種類は、ＳＭＰＴＥタイムコードである。ＳＭＰＴＥタイムコードは、デジタルシステムにおけるオーディオまたはビデオなどのタイムベースメディア上の正確な位置を識別するために使用される。ＳＭＰＴＥは、標準化機構米国映画テレビ技術者協会（ＳｏｃｉｅｔｙｏｆＭｏｔｉｏｎＰｉｃｔｕｒｅａｎｄＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ）を指す。
ＳＭＰＴＥ規格は、実際には、フィルム、ビデオ、およびオーディオ制作において使用されるタイムコードエンコーディングフォーマットのファミリーを記述しており、以下を含む。リニアタイムコード（ＬＴＣ）、垂直間隔タイムコード（ＶＩＴＣ）、ＡＥＳ－ＥＢＵ埋め込みタイムコード、バーンインタイムコード、ＣＴＬ制御トラックタイムコード（制御トラック）、およびＭＩＤＩタイムコード。
［００１１１］タイムコードは、ＨＨ．ＭＭ．ＳＳ．ＦＦ（時間、分、秒、フレーム）の形式により表示される。例えば、ビデオクリップがタイムコード１４：３４：０１：２２で始まる場合、これは１４時間、３４分、１秒、２２フレームへと変換される。このようにして、ビデオトラック３１０の各フレームおよび対応するオーディオトラック３１５の各フレームは、正確なデジタルアドレスを含む。
［００１１２］開示される技術では、ビデオアセンブリエディタ１５４は、オーディオ／ビデオクリップのオーディオトラック部分から抽出された文字起こしテキストにおける発話された各単語に関連付けられたタイムコードを追跡する。各個々の話者のオーディオに各話者のスピーチのテキスト文字起こしが提供されるように、高品質文字起こしがオーディオトラック上にて行われる。
［００１１３］話者の発話された各単語の文字起こしは、発話された各単語に対応するビデオがオーディオビデオトラックのテキス文字起こし３２５において識別可能であるように、ビデオトラックにおけるオーディオトラック３１５タイムコードおよびビデオトラック３１０タイムコードに相関される。文字起こしされたオーディオテキストは、ユーザインタフェースにおけるのテキストウィンドウに提示され、ＭｉｃｒｏｓｏｆｔＷｏｒｄなどの従来のワードプロセッシングプログラムにおけるように検索されてよい。
［００１１４］さらに詳細に記載されるように、ビデオプログラムは、テキストウィンドウにおける文字起こしされたオーディオスピーチからテキスト形式における単語およびフレーズを選択することによって構築されてよい。これらの選択されたサウンドバイトは、ビデオプログラムウィンドウに配置されてよい。サウンドバイトに対応するビデオセグメントが自動的に選択され、タイムライン上に配置される。
［００１１５］ビデオプログラムは、本質的には、オーディオトラック３１５から文字起こしされたテキストを動き回るようにすることによって、ビデオアセンブリエディタ１５４においてアセンブリされる。
［００１１６］ビデオアセンブリエディタ１５４において、ユーザは、従来のワードプロセッシング編集機能を使用して、テキスト表示ウィンドウ（例えば、文字起こしテキストウィンドウ）におけるサウンドバイトまたはテキストセグメント３４５を選択する。ユーザは、選ばれたサウンドバイトテキスト３４５を視覚的タイムライン３５０上に移動させる。タイムライン３５５上に表されるクリップは、少なくともドラッグアンドドロップ方法によって並べ替えられ、トリミングされて、最もよく知られているフォーマットであるＨ．２６４ＭＰＥＧ－４を含むなど多数のビデオメディアフォーマットのいずれかによりエクスポートされることが可能であるビデオラフカットをアセンブリしてよい。ファインカットまたはフォーマルカットは、ＡｄｏｂｅＰｒｅｍｉｅｒｅＰｒｏ、ＦｉｎａｌＣｕｔＰｒｏＸ、ＳＲＴＳｕｂｔｉｔｌｅｓ、ＡｖｉｄＭｅｄｉａＣｏｍｐｏｓｅｒ、ＤＡｖｉｎｃｉＲｅｓｏｌｖｅ、ＡｖｉｄＰｒｏＴｏｏｌｓ、およびＡｄｏｂｅＡｕｄｉｉｏｎなどの専用非線形編集システム上にて実行されることが可能である。
［００１１７］文字起こしテキストおよびビデオは、関連付けられたタイムコード３３０によって同期して常にロックされる。ユーザがテキストポインタを文字起こしテキスト３２５における異なる位置に移動させた場合、ビデオウィンドウにおけるの対応するビデオは新しい位置にジャンプする。
［００１１８］続けて次に図４を参照すると、フローチャートは、ユーザが提供したビデオクリップ１５０からビデオプログラムをアセンブリする工程を示す。工程４００では、ビデオクリップ１５０（例えば、デジタルビデオ）またはクリップが、ビデオプログラム３６０を作成しアセンブリするためのソース素材としてシステムへと受信される。工程４１０では、クリップ１５０についてのオーディオトラック３１５は、文字起こしエンジン１５２を使用して文字起こしされ、オーディオトラック３１５の高品質の検索可能なテキスト文字起こし３２５を生成する。工程４２０では、ユーザは、ユーザインタフェース表示パネルに表示された検索可能なテキストからサウンドバイト３４５を選択する。工程４３０では、ユーザは、選択されたサウンドバイトを視覚的タイムライン３５０上にドラッグアンドドロップする。工程４４０では、ユーザは、選択されたサウンドバイトテキスト３４５を所望の提示順序により配置して、アセンブリされたビデオプログラム３６０を形成する。工程４５０では、ユーザはビデオプログラム３６０をプレビューし、認可された共同作業者からのコメントを許可する。工程４６０では、アセンブリされたビデオプログラム３６０は、追加のファインカット処理のために非線形編集システム３６５にエクスポートされる。
［００１１９］図５は、ビデオプロジェクトの作成中に見られるグラフィカルユーザインタフェース５００の表示画面を示す。図５では、ビデオクリップ１５０（図３）の文字起こしが既に実行されており、テキスト表示パネル５０６に提示されている。文字起こしテキストに対応するビデオフレームを表示するビデオウィンドウ５０２が示されている。ユーザインタフェースのこの部分では、ビデオウィンドウ５０２（例えば、ビデオ再生ウィンドウ）は、ビデオクリップ１５０の再生を制御するための再生制御部５０４を含む。ビデオウィンドウ５０２の右側のテキストパネル５０６には、ビデオに対応するテキストが表示される。ユーザインタフェース画面は、ビデオクリップ１５０が再生され、対応するオーディオトラック３１５が表示され、文字起こしテキスト３２５が表示されてよいことを示す。ビデオフレーム、オーディオフレーム、およびテキスト文字起こしにおける要素はすべてタイムコードによって同期される。
［００１２０］文字起こしテキスト５０６は、タイムコードによって構造化される。発話されたテキストは、テキストセグメント５０８または段落へと分割され、各テキストセグメントには、各テキストセグメント５０８に関連付けられたタイムコードを示す視覚的タイムスタンプ５１０が提供される。タイムスタンプ（００：２２）５１０は、後述するように、図６および図７に示される文字起こしマップから導出される。タイムスタンプ５１０は、文字起こしにおける特定のテキストセグメント５０８を見つけるための便利な手法を提供する。例えば、長いビデオクリップにおいて、タイムスタンプ５１０は、対応するビデオ５０２および対応するオーディオとともに、特定のコンテンツを見つけるために長い文字起こし中を検索するための便利な手法を提供する。
［００１２１］ディスプレイ５００の上部には、オーディオトラック３１５に対応するオーディオ波形５１２も示されている。オーディオ波形５１２における任意の選択された点は、テキストセグメント５０８に対応し、対応するビデオセグメント５０２にも対応する。ユーザは、オーディオ波形５１２中をスクロールして、そのビデオクリップ１５０のオーディオトラック３１５の特定のセグメントを選択して再生してよい。

【0072】

文字起こしマップ
［００１２２］次に図６を参照すると、オーディオトラック３１５がテキストへと文字起こしされるときに、文字起こしマップ６００が作成される。本明細書で使用される際、「文字起こしマップ」という用語は、２つ以上の種類のデータを関連付ける文書またはデータ構造を指す。より詳細には、文字起こしマップは、タイムコードをデジタルビデオのオーディオトラックの文字起こしからの単語に関連付けるデータ構造（例えば、テーブル、インデックス、カンマ区切りリスト、ハッシュテーブル、リンクリスト）を含むことが可能である。文字起こしマップ６００は、ビデオクリップ１５０に対応する文字起こしテキスト用の多数の識別子を提供する。文字起こしマップは、ファイル識別情報を含む。文字起こしマップ６００は、ビデオクリップ１５０、文字起こし言語、フレームレート、その文字起こしテキストセグメント５０８についての開始タイムコード６１０および終了タイムコード６３０に関連するステータス情報を示す。文字起こしマップ６００はまた、テキストセグメント５０８における第１の単語を識別する。複数の識別された話者が存在する場合、文字起こしマップは、それらの話者を識別する。

【0073】

図７では、文字起こしマップ７００は、開始タイムコード７１０、終了タイムコード７２０、およびそのタイムコードセグメントに関連付けられたテキスト要素であるそのタイムコード範囲の値の内訳を示す。図７は、システムが、開始タイムコード７１０および終了タイムコード７２０によって、各テキスト要素（個々の単語）をタイムコードにどのように関連付けるかを示す。この例では、テキスト要素「ｔｈｅｒｅ’ｓ」が、開始タイムコード７１０および終了タイムコード７２０に対応する。言い換えれば、開示されるシステムおよび方法は、文字起こしマップにおける単語「ｔｈｅｒｅ’ｓ」に対応するすべてのタイムコードを識別し、「ｔｈｅｒｅ’ｓ」に関連付けられた第１のタイムコードを開始タイムコード７１０として割り当て、「ｔｈｅｒｅ’ｓ」に関連付けられた最後のタイムコードを終了タイムコード７２０として割り当てる。特定の単語が文字起こしに２回以上出現する場合、開示されるシステムおよび方法は、タイムコードの２つ以上のグループを同じ単語に関連付けることが可能である。その例では、開示されるシステムは、文字起こしマップにおける単語に関連付けられたタイムコードの各グループにおける開始タイムコードおよび終了タイムコードを識別することによって、単語の開始タイムコードおよび終了タイムコードを決定することが可能である。タイムコードは、ビデオフレームではなく各テキスト要素に関連付けられるため、タイムコードは、従来のタイムコード構造から修正された構造に従い、最終的な数は、従来の毎秒３０フレームではなく、時間の９９９分割を有する。

【0074】

この図では、タイムコードは、開始タイムコードおよび終了タイムコードによって連続して５つの発話された単語を追跡する。発話された単語「Ｉ」は、第１のテキスト要素に関連付けられる。発話された単語「ｔｈｉｎｋ」は、第２のテキスト要素に関連付けられる。発話された単語「ｔｈｅｒｅ’ｓ」は、第３のテキスト要素に関連付けられる。発話された単語「ａ」は、第４のテキスト要素に関連付けられる。発話された単語「ｇｅｎｅｒａｌ」は、第５のテキスト要素に関連付けられる。ともに、発話されたフレーズは、「Ｉｔｈｉｎｋｔｈｅｒｅｉｓａｇｅｎｅｒａｌ」であり、各テキスト要素は、非常に特定の開始タイムコードおよび終了タイムコードである。編集アプリケーションは、これらの個々のテキスト要素および各テキスト要素の値のすべてを追跡する。図７に示されるように、タイムコードは、テキスト要素がオーディオトラック３１５のセグメントとして発話されるのに必要な時間に等しい量だけ増分する。図７は、アプリケーションソフトウェアが文字起こしにおける個々の単語をどのようにロギングするかを示す。テキスト表示における特定の単語の選択によって、ビデオが文字起こしにおけるその点に移動し、テキスト表示におけるその特定の単語に関連付けられた関連ビデオフレームがキューに入れられる。同様に、その特定のテキスト要素に対応するオーディオ波形５１２が、ユーザインタフェースの上部のディスプレイに示される。

【0075】

ビデオアセンブリエディタ
図８は、開示される技術において使用されるビデオアセンブリインタフェース８００を示す。最も左のパネルでは、インポート機能８１０は、クラウドストレージアプリケーションを含み得る様々なソースからビデオをインポートする能力をユーザに提供する。ビデオクリップのアップロードが完了すると、新しいプロジェクトのために、ユーザは、「マイビデオ」と題されたインポートされたビデオクリップのリストを表示することができる。これらは、ユーザの新しいビデオプロジェクトをアセンブリするために利用可能なすべてのインポートされたビデオクリップである。また、ユーザインタフェースの最も左のパネル上に、ビデオウィンドウ５０２が、オーディオトラック３１５から文字起こしテキストを示すテキストウィンドウ５０６とともに表示される。ビデオフレームおよび文字起こしテキスト単語は、タイムコードにより同期される。

【0076】

ユーザインタフェースにおける最も右のパネルは、新しいビデオプログラムのアセンブリにおいて使用されるグラフィカル要素を示す（８００）。ビデオウィンドウ８２０は、ディスプレイの最上部エリアにある。ビデオウィンドウ８２０は、再生８３０制御部および一時停止８３２制御部を含む。このビデオウィンドウの下には、後述するように、ビデオタイムライン８４２のためのオープンエリア８４０がある。ビデオアセンブリタイムラインエリア８４０は、選択されたサウンドバイトおよびビデオプレビューサムネイルが、編集およびアセンブリ処理中にドラッグアンドドロップされ、シーケンス化されるスペースである。

【0077】

図９は、開示される技術において使用されるビデオアセンブリインタフェース８００を示す。この図では、最も左のパネルは、「マイビデオ」と題されたインポートされたビデオクリップのリストを示していない。図８～図１１、図１３～図１５、図２０～図２１は、特定の構成におけるビデオアセンブリインタフェース８００の特徴を示すが、他の構成も可能である。例えば、ビデオアセンブリインタフェース８００は、追加の特徴（例えば、タイムラインアーカイブ）、またはより少ない特徴を含む。

【0078】

図１０は、ビデオプログラム３６０のアセンブリに使用されるサウンドバイト（例えば、文字起こしのテキストにおける１つまたは複数の単語）を選択するための選択画面のスクリーンショットを示す。文字起こしのテキストセグメント１００６は、選ばれたテキストを強調表示し（例えば、文字起こしの表示におけるの１つまたは複数の単語を選択することによって）、配置アイコン１００２または１００４を選ぶことによって選択される。これらのアイコンは、選択されたテキストセグメント５０８を、対応するビデオセグメント５０２についての再生位置でもある、ビデオタイムラインにおける特定の再生位置に移動させる。ビデオセグメントは、ビデオアセンブリ画面上に任意の順序によりアセンブリされまた提示されてよい。ビデオセグメントは、アイコン１００２または１００４の選択によって並べ替えられてよい。

【0079】

ユーザが、テキストセグメントおよび対応するビデオセグメントを２つの前のビデオセグメントの間に配置することを選んだ場合、第１のアイコン１００２が選択される。ユーザがテキストセグメントおよび対応するビデオセグメントをビデオセグメントのシーケンスの最後に配置することを選んだ場合、第２のアイコン１００４が選択される。選択された文字起こしテキストセグメント１００６は、テキスト画面上に強調表示されて示される。

【0080】

次に図１１を参照すると、ビデオアセンブリインタフェース８００のスクリーンショットがより詳細に示されている。文字起こしテキスト５０８に対応するビデオセグメント５０２が示されている。文字起こし５０８の選択されたテキストセグメント１００６は、画面上に強調表示されて示される。最も左のパネルから選択された要素は、ドラッグアンドドロップ動作によってアセンブリパネル８４０またはタイムラインエリアに移動される。テキストおよびビデオセグメント要素の順序付けおよび並べ替えは、ドラッグアンドドロップ動作によって同様に構成される。選択されたテキスト１００６をドラッグアンドドロップすることによって、一番右のパネルにおける提示順序が再びシーケンス化される。最も右のパネルでは、プレビューフレーム１１０４が、選択されたテキスト１１０２の傍に表示される。プレビューフレーム１１０４は、選択されたテキスト１００６に対応する、ビデオセグメント５０２からの１つのフレームのサムネイルである。

【0081】

プレビューフレーム１１０４は、選択されたテキスト１１０２の傍に表示される。プレビューフレーム１１０４は、ビデオ編集におけるサムネイルまたはヘッドフレームと同様であり、ビデオプログラムのアセンブリにおいてビデオセグメント５０２をシーケンス化するためのガイドとしてビデオクリップの視覚的表現を提供する。プログラム作成中にドラッグアンドドロップすることによってクリップを並べ替えることは、エディタにとって便利な手法である。画面の最も右のパネルには、その選択の最後のテキスト要素またはビデオフレームに関連付けられたタイムコード１１０８またはタイムスタンプの傍に、プロジェクト名１１１０が示されている。この時点以降、ユーザは、プレビューフレームを「クリック」してビデオを再生してよい。

【0082】

ユーザは、ドラッグアンドドロップ動作を含み得るユーザ動作によってプログラムと対話する。テキストセグメント１００６および関連付けられたビデオセグメント５０２の選択は、ドラッグアンドドロップ動作を含み得るユーザアクションによって行われる。ビデオセグメント５０２の順序は、クリップのドラッグおよびドロップを含み得る並べ替えコマンドによって構成され並べ替えられてよい。クリップの並べ替えは、好ましくはドラッグアンドドロップ動作によって行われるが、他のユーザ並べ替えコマンドも考えられる。

【0083】

図１２Ａおよび図１２Ｂは、図１１に示される選択されたテキストセグメント点灯選択１００６選択のタイムコード追跡を示す。選択された各単語またはテキスト要素は、その関連する開始タイムコードおよび終了タイムコードにより追跡される。例えば、テキスト要素「Ｗｈｅｎ」１２１２は開始タイムコード１２０２により示され、テキスト要素「．」１２３２は終了タイムコード１２２２により示される。選択されたテキストセグメント１００６におけるすべてのテキスト要素または単語は、自身の関連する開始タイムコードおよび終了タイムコードとともに記憶される。

【0084】

図１３および図１４に示されるように、ユーザがテキストセグメント１００６を選択すると、システムは、ビデオのメディアフラグメントユニフォームリソース識別子（ＵＲＩ）１３００にアクセスする。本明細書で使用される際、メディアフラグメントユニフォームリソース識別子は、特定のメディアアイテムを参照するプログラミングコードを指す。１つまたは複数の例では、メディアフラグメントＵＲＩは、ウェブブラウザに特定のインターネットロケーションからメディアアイテムをリクエストさせるスクリプトコードである。メディアフラグメントＵＲＩは、デジタルビデオ（例えば、「．ｍｐ４」デジタルビデオ）、オーディオファイル（例えば、「．ｍｐ３」、「．ｗａｖ」オーディオファイル）、または任意の他の種類のデジタルメディアアイテムを含むメディアアイテムを参照することが可能である。図１３および図１４に示されるように、メディアフラグメントＵＲＩは、メディアアイテムの特定の部分またはセグメントをさらに参照することが可能である。例えば、メディアフラグメントＵＲＩ１３００は、選択された文字起こしテキストに対応するビデオセグメント用に生成され、選択されたビデオセグメントに関連付けられたメタデータを含む。ビデオセグメント１１０４のメディアフラグメントＵＲＩ１３００は、最後の要素の開始タイムコードおよび終了タイムコードを識別する。ユニバーサルリソース識別子ＵＲＩ１３００の構造を図１３および図１４に示す。特に、図１４では、開始タイムコード１４０２および終了タイムコード１４２２は、メディアフラグメントＵＲＩ１３００内に示される。

【0085】

図１５は、選択されたテキストセグメントに対応する複数のビデオセグメントの選択およびシーケンス化を示す。図１５において、ユーザは、第２のテキストセグメント１５０２を選択し、テキストセグメントをビデオアセンブリエディタタイムライン８４０へと移動させる。第１の選択されたビデオセグメント１１０４は、エディタの最上部の位置にプレビューフレームとしてユーザインタフェースに表示される。第２の選択されたビデオセグメント１５０４は、第１のセグメント１１０４の下に配置される。第１のセグメント１１０４は、第２のセグメントの前に再生するように構成される。開始タイムコードおよび終了タイムコードによって定められる第３のビデオセグメントが選択される場合、第３のセグメントは、第１および第２のセグメントの下に表示される。シーケンスは、第１、第２、および第３の選択が受信された順序にて第１、第２、および第３のビデオセグメントを再生するように生成される。

【0086】

図１６は、コールバック関数を示す。１つまたは複数の例では、コールバック関数は、ＪａｖａＳｃｒｉｐｔコールバックであることが可能である。コールバック関数は、ハイパーテキストマークアップ言語（ＨＴＭＬ）を使用して、「一時停止」イベント１６０２を指定する。１つ以上の例では、本システムおよび方法は、タスクまたは動作を続けて実行するために「一時停止」イベントを組み込み、各タスクまたは動作は、前のタスクまたは動作が完了して一時停止状態へと入ると開始する。コールバックは、連続するビデオセグメントおよびそれらの再生の順序を示すビデオ識別子１６０４を受信する。シーケンスはさらに、図１７に示されるように、並べ替えコマンド１６０６によって規定される第２の再生順序で、第１、第２、および第３のビデオセグメントを再生するように構成される。連続するビデオ識別子は、並べ替えコマンド１６０６に応答して更新される。並べ替えコマンド１６０６は、シーケンスにおけるの第１、第２、および第３のビデオセグメントをグラフィックインタフェースにわたってグラフィカルに並べ替えするユーザインタフェース動作である。

【0087】

図１８は、コールバック１６０６が、ハイパーテキストマークアップ言語（ＨＴＭＬ）「一時停止」イベントを使用し、更新された連続するビデオ識別子１８０２、１８０４に基づく再生コマンドに応答してビデオセグメントのシーケンスを再生することを示す。この第２の再生コマンドは、更新された連続するビデオ識別子に基づいており、第１、第２、および第３のビデオセグメントを第２の順序により再生させる。

【0088】

図１９は、シーケンスが、現在のビデオセグメントの再生が完了するとすぐに、第１、第２、および第３のビデオセグメントの中の連続するビデオセグメントを再生するようにさらに構成されていることを示す。シーケンスはさらに、現在のビデオセグメント１９０４の再生が完了するとすぐに、コールバック関数を使用して連続するビデオセグメントを再生するように構成されている。並べ替えコマンドに応答して、連続するビデオ識別子が更新され、それによって、第１、第２、および第３のビデオセグメントの再生が第２の順序により連鎖される。

【0089】

図２０および図２１は、文字起こしテキストに対応するビデオクリップを選択し、シーケンス化し、再生するためのオペレーショナルビデオアセンブリエディタのユーザインタフェース画面を示す。ビデオプレーヤは、ビデオウィンドウ５０２においてビデオを再生するように構成される。オーディオトラック５０８の文字起こしは、グラフィカルに表示され、文字起こしマップに従ってビデオクリップのフレームと同期される。ユーザは、選択されたテキストをディスプレイにおいて強調表示することによって、同期された文字起こし５０８におけるの複数のテキストセグメント１６２２のうちの１つを選択する。システムは、選択されたテキストセグメント１６２２に同期されたビデオセグメント５０２を再生するように構成されている。ユーザはテキストセグメントを選択し、選択されたテキスト１６２２がビデオエディタタイムライン８４２上に移動される。

【0090】

タイムライン８４２は、テキストセグメントがタイムライン上にドロップされる順序により連続するビデオセグメントを再生するように構成されている。テキストセグメントに対応するビデオが表示され、テキストセグメントの開始タイムコードおよび終了タイムコードとともに実際のテキストを示す。プレビューフレーム１１０４は、ビデオセグメントについての開始タイムコードおよび終了タイムコードの表示とともに、選択されたテキストセグメントとともに表示される。

【0091】

ビデオプレーヤ８２０上の再生機能は、再生／再開ボタン８３０を含む。ビデオアセンブリエディタは、テキストセグメントが選択された順序によりビデオセグメントを再生する。プレーヤは、再生／再開ボタン８３０と、一時停止ボタン８３２とを含む。タイムライン１６５０は、選択に応答して、ビデオセグメントのそれぞれのプレビューを順序通りにグラフィカルにレンダリングするように構成される。ビデオアセンブリエディタのタイムライン１６５０は、テキストセグメントにおけるのテキストを、それぞれのプレビューに隣接する自身のそれぞれのタイムスタンプとともに、それぞれのプレビューに隣接してグラフィカルにレンダリングするように構成される。第２のテキストおよびビデオセグメント１５０４は、第１の選択されたセグメント１１０４の下に配置される。第３のテキストおよびビデオセグメント２００４は、第２の選択されたテキストおよびビデオセグメント１５０４の下に配置される。タイムライン内の再生位置をユーザが見ることができるように、ビデオの下にプログレスバーが表示されてよい。また、共同作業者の現在の再生位置を表示してもよい。ユーザはまた、サムネイル１１０４、１５０４、および２００４をクリックすることによって、セグメント間を前後にスキップしてもよく、または１つに直接ジャンプしてもよい。

【0092】

１つまたは複数の例では、開示されるシステムおよび方法は、対応するビデオクリップから第１のビデオフレームを選択することによって、サムネイル１１０４、１５０４、および２００４における画像を選択する。追加の例では、開示されるシステムおよび方法は、画像認識技法を利用して、特定のオブジェクト（例えば、人間の顔）を示す対応するビデオクリップから第１のビデオフレームを選択することによって、サムネイル１１０４、１５０４、および２００４における画像を選択することが可能である。

【0093】

開示される技術の動作
新しいプロジェクトを作成する際、ユーザは、クラウドストレージアプリケーションにアクセスすることによって、多くの場合ＭＰ４ビデオの形態において、オーディオおよびデジタルビデオファイルをドラッグアンドドロップする。ダウンロードされたデジタルビデオは、オーディオトラック、ビデオトラック、およびビデオトラックにおけるオーディオトラックの同期タイムコードを含む。第１の工程は、元のオーディオを選ばれた言語の文字起こしに文字起こしすることである。この形式では、オーディオトラックにおける発話された単語に対応する文字起こしテキストファイルが作成される。開示されるシステムおよび方法は、マッピングされたタイムコードを利用して、文字起こしにおけるの各単語を、オーディオトラックにおける対応する発話された単語およびデジタルビデオにおける対応するビデオフレームに関連付ける。テキスト文字起こしは、オーディオトラックにおいて元の言語であるが、再生中にオーディオトラックをミュートすることと同様に、必要に応じて、第２の工程としてテキストを他の言語へと変換するための準備がある。

【0094】

次の段階であるビデオアセンブリモードでは、テキストを編集することによってビデオがカットされる。テキストへと文字起こしされた話者の音声からのサウンドバイトのテキスト表現を選択してシーケンス化することによって、対応するビデオもグラフィカルタイムライン上にてシーケンス化される。選択されたサウンドバイトに対応するビデオクリップをシーケンス化することによってラフカットビデオが作成されると、タイムギャップおよびブルーパー（不体裁）の除去などの他のビデオ編集動作が実行され、よく知られているＭＰ４などの様々なエクスポートフォーマットを使用してビデオをエクスポートすることが可能である。続いて、ラフカットビデオは、非線形ビデオ編集アプリケーションにおいてさらに処理されることが可能である。

【0095】

話者ビデオリソースでは、単一の文字起こしにおいて複数の話者を識別することが可能である。各デジタルビデオは、１つまたは複数の話者を描写することが可能である。例えば、複数の話者を特徴とするデジタルビデオは、ビデオ会議の録画であってよい。したがって、開示されるシステムおよび方法は、デジタルビデオ内の話者の各々を識別し、示す、そうしたデジタルビデオの文字起こしを生成することが可能である。
［００１４６］ビデオ会議センターは、ビデオ録画中に元のオーディオチャネルソースをマーキングすることによって文字起こしの生成を容易にし、文字起こし処理が話者を区別するのを助け、同時に話している複数の話者を認識することが可能である。これは、別々の話者の別々のチャネル発信源を活用して、複数話者のビデオ会議中に実用的である。さらに、話者の識別は、話者のログインおよびチャネル発信源の属性に基づいて、話者のチャネル用のビデオ録画ファイルにおけるキャプションとして注釈を付すことが可能である。
［００１４７］より詳細には、本明細書に記載されるシステムおよび方法は、デジタルビデオからオーディオトラックを抽出し、オーディオトラックにおいて特徴付けられる１人または複数の話者の声の特性を同時に分析しながら、オーディオトラックを文字起こしすることが可能である。この声の特性の分析に基づいて、開示されるシステムおよび方法は、文字起こし内の単語またはテキストのブロックに関連付けられた話者を識別する話者タグを文字起こしに追加することが可能である。
［００１４８］１つまたは複数の例では、システムおよび方法は、対話型制御として話者タグを生成する。例えば、特定の話者タグの選択が検出されることに応答して、システムおよび方法は、特定の話者タグに関連付けられた文字起こし内のすべてのテキストを自動的に強調表示または選択することが可能である。次いで、ビデオタイムライン上へのハイライトされたテキストのドラッグアンドドロップが検出されることに応答して、開示されるシステムおよび方法は、ハイライトされたテキストの各ブロックまたはセグメントに対応するビデオクリップまたはセグメントを生成することが可能である。このようにして、開示されるシステムおよび方法は、デジタルビデオが追加の話者も描写するときであっても、デジタルビデオに描写される単一の話者に関連付けられたビデオクリップの容易な作成を可能にする。

【0096】

ブルーパーの除去
ブルーパーは、話者が、プログラムのコンテキストに対して不適切であるか、困惑させるか、または不相応である何かを述べた場合に、録画されたインタビューまたは情報ビデオインタビューにおいて生じ得る。通常、これらの「ブルーパー」をビデオプログラムから除去することが望ましい。選択されたコンテンツは、検索するキーワードのリストを提供することによって、ブルーパーとして識別されてよい。これに加えて、開示されるシステムおよび方法は、特定のキーワードの単一のインスタンスの選択が検出されることに応答して、文字起こしにおける特定のキーワードをブルーパー単語として識別してよい。ユーザは、このキーワード検索に基づいて文字起こし内の単語を操作することによって、録音の一部、オーディオおよびビデオの両方を削除してよい。このソリューションは、ユーザが不相応なコンテンツを削除することを選べるように、ブルーパーキーワードおよびブルーパーキーワードの直前のコンテンツに対してユーザに警告するように文字起こしシステムを訓練することによって拡張することが可能である。例えば、本明細書に開示されるシステムおよび方法は、望ましくない言葉遣いが経時的に変化し得るので、ユーザトレンドに基づいて任意のキーワードを自動的に検出するように機械学習モデルを訓練することが可能である。

【0097】

不流暢性の除去
また、開示される技術は、不流暢性の自動除去を提供する。発話の流れにおける中断または途絶は、「不流暢性」とラベル付けされる。これらは、「ｕｈｍ」またはどもりによって引き起こされる休止などの、発話の躊躇および不規則性を包含する。非流暢性は、発話された単語間の過度の休止を検出することによって、または既知の非流暢性発声のキーワードリストを使用することによって識別されてよい。識別されると、ソフトウェアは、文字起こしから不流暢性を自動的に削除してよい。さらに、非流暢性は、機械学習法によって検出されてよい。

【0098】

より詳細には、開示されるシステムおよび方法は、多くの手法によりキーワード（例えば、ブルーパー、非流暢性、または他の種類の単語）を除去することが可能である。例えば、開示されるシステムおよび方法は、文字起こしマップにおけるキーワードに関連付けられた開始タイムコードおよび終了タイムコードの対のリストを識別することによって、キーワードを除去する。次に、システムおよび方法は、リストを利用して、ビデオアセンブリインタフェースに関連付けられたＨＴＭＬコードにおける一連の「一時停止」ステートメントを更新する。例示すると、デジタルビデオの文字起こしにおけるキーワードの２つのインスタンスを識別することに応答して、システムおよび方法は、１）デジタルビデオの開始に対応する開始タイムコードおよびキーワードの第１のインスタンスの開始タイムコードに対応する終了タイムコード、２）キーワードの第１のインスタンスの終了タイムコードに対応する開始タイムコードおよびキーワードの第２のインスタンスの開始タイムコードに対応する終了タイムコード、ならびに３）キーワードの第２のインスタンスの終了タイムコードに対応する開始タイムコードおよびデジタルビデオの終了に対応する終了タイムコードを含むように、３つの「一時停止」ステートメントを更新または生成することが可能である。このようにして、再生時に、「一時停止」ステートメントは、デジタルビデオからキーワードを効果的に除去する。

【0099】

共同作業モード
ビデオプログラムの作成は、共同作業であり、またそうであり続けている。本開示の技術は、プロジェクトの発起人が、他者に共同作業するように招待することによって、プロジェクトを他の共同作業者と共有することを提供する。

【0100】

１つの態様では、ユーザは、他者にラフカットビデオプログラムを共同作業し再生するように招待してよい。共同作業者は、アプリケーションのユーザインタフェースにセキュリティクレデンシャルを入力してよく、これによって、共同作業者が認可したステータスが、ビデオアセンブリエディタにおいて開発中のビデオプログラムに関するほぼリアルタイムの解説を提供することが可能になる。例えば、ユーザは、特定のビデオプロジェクトに関連付けられた一意のセキュリティ証明書が生成され、共同作業者に提供されることを要求することが可能である。このようにして、開示されるシステムおよび方法は、共同作業者に対し許可されるアクセスのレベルを制御することが可能である。

【0101】

共同作業者は、ラフカットを閲覧して承認し、または代替案もしくは改善案を提案し、および実際に異なるバージョンを作成してよい。例えば、共同作業者は、異なるバージョンを再生して、ビデオセグメントの代替シーケンスを閲覧し、コメントまたは提案された編集をユーザに提供してよい。

【0102】

より詳細には、開示されるシステムおよび方法は、１つまたは複数の手法によりビデオクリップを含むビデオ時間の追加バージョンを作成することが可能である。１つの例では、開示されるシステムおよび方法は、共同作業者（例えば、元のビデオタイムラインの作成者以外のユーザ）によって開始された元のビデオタイムラインに関連する編集を検出することが可能である。例えば、システムおよび方法は、元のビデオタイムラインに追加されたコメントまたは注釈、元のビデオタイムライン内のビデオクリップの並べ替え、および／または元の時間内のビデオクリップ間のトランジションまたはフェードの追加または変更を含む編集を検出することが可能である。１つ以上の例では、検出された編集を元のビデオタイムラインへと永続的に組み込むのではなく、開示されるシステムおよび方法は、元のビデオタイムラインをそのまま残しておき、検出された編集を組み込む第２のビデオタイムラインを生成することが可能である。例えば、開示されるシステムおよび方法は、元のビデオタイムラインのビデオクリップに関連して検出された編集を反映する第２の組の「一時停止」イベントを生成することが可能である。開示されるシステムおよび方法は、次いで、元のビデオタイムラインおよび第２のビデオタイムラインへのアクセスを提供するビデオアセンブリインタフェースに関連して、アーカイブ表示を生成することが可能である。１つ以上の例では、開示されるシステムおよび方法は、このアーカイブ表示をリアルタイムに提供することができる。それによって、ビデオタイムラインの作成者は、元のビデオタイムラインをアセンブリし続けながら、どの編集を組み込むかをピックし選ぶことが可能である。

【0103】

ビデオプログラムの作成は、共同作業であり、またそうであり続けている。本開示の技術は、プロジェクトの発起人が、他者に共同作業するように招待することによって、プロジェクトを他の共同作業者と共有することを提供する。共同作業者は、視覚的アイコン（絵文字）を用いてタイムライン上にて承認または不承認を示してよい。
ユーザインタフェース
１つの態様では、開示される技術は、ビデオ編集用の、および専用ウェブサイトにおいて実装されるビデオプログラムをアセンブリするための方法およびシステムである。開示される技術は、競合製品よりも優れた強化されたユーザエクスペリエンス（ＵＸ）を提供する。ワークフローは、ビデオプログラムをアセンブリするための理解しやすいガイドされた方法である。開示される技術は、専用ビデオ編集システムにおける後処理または最終処理のためにエクスポートされることが可能である最終プログラムをもたらす、ビデオプログラム作成処理を単純化することによって、向上したユーザエクスペリエンスを提供する。

【0104】

様々な競合製品は、ユーザフレンドリではないという欠点を有する。ワークフローおよびユーザエクスペリエンス（ＵＸ）が複雑、非論理的、または非直観的であるとき、ユーザは、ウェブサイトを使用する気が全くなくなり得ることが知られている。ユーザに心地よいユーザエクスペリエンス（ＵＸ）を提供することは、ウェブサイトアプリケーションのさらなる使用を促進する。ユーザインタフェースは、複数のモニタ上において同時に２つのインタビューの文字起こしを閲覧することをサポートし、主題間の切断をより高速にしてよい。

【0105】

別の態様では、タイムラインは、トピックおよびネストされたシーケンスによって構成されてよい。
コンピュータシステム
図２２は、開示される技術を実装するために使用されることが可能であるコンピュータシステム２２００である。コンピュータシステム２２００は、バスサブシステム２２５５を介して複数の周辺デバイスと通信する１つ以上の中央処理装置（ＣＰＵ）２２７２を含む。これらの周辺デバイスは、例えば、メモリデバイスおよびファイルストレージサブシステム２２３６を含むストレージサブシステム２２１０、ユーザインタフェース入力デバイス２２３８、ユーザインタフェース出力デバイス２２７６、ならびにネットワークインターフェースサブシステム２２７４を含むことが可能である。入力デバイスおよび出力デバイスは、コンピュータシステム２２００とのユーザ対話を可能にする。ネットワークインタフェースサブシステム２２７４は、他のコンピュータシステムにおける対応するインタフェースデバイスへのインタフェースを含む、外部ネットワークへのインタフェースを提供する。

【0106】

１つの実装では、ビデオアセンブリエディタ２２４０は、ストレージサブシステム２２１０およびユーザインタフェース入力デバイス２２３８に通信可能にリンクされる。
ユーザインタフェース入力デバイス２２３８は、キーボード、マウス、トラックボール、タッチパッド、またはグラフィックタブレットなどのポインティングデバイス、スキャナ、ディスプレイへと組み込まれたタッチスクリーン、音声認識システムおよびマイクロフォンなどのオーディオ入力デバイス、ならびに他の種類の入力デバイスを含むことが可能である。一般に、「入力デバイス」という用語の使用は、コンピュータシステム２２００へと情報を入力するためのすべての可能な種類のデバイスおよび方法を含むことが意図される。

【0107】

ユーザインタフェース出力デバイス２２７６は、ディスプレイサブシステム、プリンタ、ファックス機、またはオーディオ出力デバイスなどの非視覚的ディスプレイを含むことが可能である。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのフラットパネルデバイス、投影デバイス、または可視画像を作成するための何らかの他の機構を含むことが可能である。ディスプレイサブシステムは、オーディオ出力デバイスなどの非視覚ディスプレイを提供することも可能である。一般に、「出力デバイス」という用語の使用は、コンピュータシステム２２００からユーザまたは別の機械もしくはコンピュータシステムへと情報を出力するためのすべての可能な種類のデバイスおよび方法を含むことが意図される。

【0108】

ストレージサブシステム２２１０は、本明細書に記載されるモジュールおよび方法のいくつかまたはすべての機能を提供するプログラミングおよびデータ構造を記憶する。これらのソフトウェアモジュールは、一般に、プロセッサ２２７８によって実行される。

【0109】

プロセッサ２２７８は、グラフィックスプロセッシングユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、および／または粗粒度再構成可能アーキテクチャ（ＣＧＲＡ）であることが可能である。プロセッサ２２７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）、およびＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホストされることが可能である。プロセッサ２２７８の例は、ＧｏｏｇｌｅのＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ２２ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＮＶＩＤＩＡＤＧＸ－１（商標）のようなラックマウントソリューション、ＭｉｃｒｏｓｏｆｔのＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎプロセッサ（商標）を有するＱｕａｌｃｏｍｍの０ｔｈＰｌａｔｆｏｒｍ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、ＡＲＭのＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＴｅｓｔａＶｌＯｏｓ（商標）を有するＬａｍｂｄａＧＰＵＳｅｒｖｅｒなどを含む。

【0110】

ストレージサブシステム２２１０において使用されるメモリサブシステム２２２２は、プログラム実行中に命令およびデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）２２３２と、固定命令が記憶されている読取専用メモリ（ＲＯＭ）２２３４とを含むいくつかのメモリを含むことが可能である。ファイルストレージサブシステム２２３６は、プログラムおよびデータファイル用の永続的ストレージを提供することが可能であり、ハードディスクドライブ、関連するリムーバブルメディアを伴うフロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、光ドライブ、またはリムーバブルメディアカートリッジを含むことが可能である。いくつかの実装の機能を実装するモジュールは、ファイルストレージサブシステム２２３６によってストレージサブシステム２２１０に、またはプロセッサによってアクセス可能な他のマシンに記憶されることが可能である。

【0111】

バスサブシステム２２５５は、コンピュータシステム２２００の様々なコンポーネントおよびサブシステムを意図されるように互いに通信させるための機構を提供する。バスサブシステム２２５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実装は、複数のバスを使用することが可能である。

【0112】

コンピュータシステム２２００自身は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、広く分散された１組の疎にネットワーク化されたコンピュータ、または任意の他のデータ処理システムもしくはユーザデバイスを含む、様々な種類のものであることが可能である。コンピュータおよびネットワークの絶えず変化する性質に起因して、図２２に示されるコンピュータシステム２２００の記載は、本開示の好ましい実装を示す目的のための特定の例としてのみ意図される。図２２に示されるコンピュータシステムよりも多いまたは少ないコンポーネントを有するコンピュータシステム２２００の多くの他の構成が可能である。

【0113】

本明細書において説明されるプロセッサまたはモジュールの各々は、特定の処理を実行するためのアルゴリズム（例えば、有形および／または非一時的コンピュータ可読記憶媒体上に記憶された命令）またはサブアルゴリズムを含んでよい。モジュールは、モジュールの集合として概念的に示されているが、専用ハードウェアボード、ＤＳＰ、プロセッサ等の任意の組合せを利用して実装されてよい。これに代えて、モジュールは、単一のプロセッサまたは複数のプロセッサを有する既製のＰＣを利用して実装されてよく、機能動作はプロセッサ間において分散される。さらなる選択肢として、以下に記載されるモジュールは、特定のモジュール機能が専用ハードウェアを利用して実行され、残りのモジュール機能が既製のＰＣなどを利用して実行されるハイブリッド構成を利用して実装されてよい。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてよい。

【0114】

本明細書において説明される方法の様々な処理および工程は、コンピュータを使用して実行されることが可能である。コンピュータは、検出デバイスの一部でありコンピュータによって処理されるデータを取得するように使用される検出デバイスとネットワーク化されたプロセッサ、または検出デバイスとは別個のプロセッサを含むことが可能である。いくつかの実装では、情報（例えば、画像データ）は、直接またはコンピュータネットワークを介して、本明細書に開示されるシステムのコンポーネント間において伝送されてよい。ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）は、システムを備えるコンピュータおよびコンピューティングデバイスが接続される、インターネットへのアクセスを含む企業コンピューティングネットワークであってよい。１つの実装では、ＬＡＮは、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）業界標準に準拠する。いくつかの例では、情報（例えば、画像データ）は、入力（例えば、ディスクドライブ、コンパクトディスクプレーヤ、ＵＳＢポート等）を介して本明細書に開示されるシステムへと入力される。いくつかの例では、情報は、例えば、ディスクまたはフラッシュドライブなどのストレージデバイスから情報をロードすることによって受信される。

【0115】

本明細書において説明されるアルゴリズムまたは他の処理を実行するように使用されるプロセッサは、マイクロプロセッサを備えてよい。マイクロプロセッサは、Ｉｎｔｅｌ社製のＰｅｎｔｉｕｍ（商標）プロセッサなどの任意の従来の汎用シングルチップまたはマルチチップマイクロプロセッサであってよい。特に有用なコンピュータは、ＩｎｔｅｌＩｖｙｂｒｉｄｇｅデュアル１２コアプロセッサ、１２８ＧＢのＲＡＭを有するＬＳＩｒａｉｄコントローラ、および２ＴＢソリッドステートディスクドライブを利用することが可能である。これに加えて、プロセッサは、デジタル信号プロセッサまたはグラフィックプロセッサなどの任意の従来の専用プロセッサを備えてよい。プロセッサは、典型的には、従来のアドレス線、従来のデータ線、および１つまたは複数の従来の制御線を有する。

【0116】

本明細書に開示される技術は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せを生成するための標準的なプログラミング技法またはエンジニアリング技法を使用して、方法、装置、システム、または製品として実装されてよい。本明細書で使用される「製造品」という用語は、ハードウェア、または光ストレージデバイス、および揮発性もしくは不揮発性メモリデバイスなどのコンピュータ可読媒体に実装されたコードまたは論理を指す。そうしたハードウェアは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、プログラマブルロジックアレイ（ＰＬＡ）、マイクロプロセッサ、または他の同様の処理デバイスを含んでよいが、これらに限定されない。特定の実装では、本明細書において説明される情報またはアルゴリズムは、非一時的記憶媒体に存在する。

【0117】

この節に記載される方法の他の実装は、上記の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことが可能である。この節に記載される方法のさらに別の実装は、メモリと、上記の方法のいずれかを実行するためにメモリに記憶された命令を実行するように動作可能な１つまたは複数のプロセッサとを含むシステムを含むことが可能である。

【0118】

開示される技術の１つまたは複数の実装、またはその要素は、示される方法工程を実行するためのコンピュータ使用可能プログラムコードを有する非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態により実装されることが可能である。さらに、開示される技術の１つまたは複数の実装、またはその要素は、メモリと、メモリに結合され、例示的な方法工程を実行するように動作する１つ以上のプロセッサとを備える装置の形態により実装されることが可能である。さらに、別の態様では、開示される技術の１つまたは複数の実装、またはその要素は、本明細書に記載される方法工程のうちの１つまたは複数を実行するための手段の形態により実装することが可能である。その手段は、（ｉ）ハードウェアモジュール、（ｉｉ）１つまたは複数のハードウェアプロセッサ上において実行されるソフトウェアモジュール、または（ｉｉｉ）ハードウェアモジュールとソフトウェアモジュールの組合せを含むことが可能であり、（ｉ）～（ｉｉｉ）のいずれも、本明細書において説明される特定の技法およびソフトウェアを実装する。

【0119】

本開示は、上に詳述された好ましい実施形態および実施例を参照することによって開示されるが、これらの実施例は、限定的な意味ではなく例示的な意味に意図されることが理解される。修正および組合せは当業者に容易に想到され、その修正および組合せは以下の特許請求の範囲内であることが企図される。

【0120】

特定の実装
サウンドバイトベースの編集を使用してビデオプログラムをアセンブルするためのいくつかの特定の実装形態および特徴が、以下の説明に記載される。開示される技術は、使用するために特別な訓練またはチュートリアルを必要としない直感的なユーザインタフェースを使用して、ラフカットビデオを生成するための時間節約手法である。開示される１つの実装では、発話された単語およびサウンドバイトに基づくビデオプログラムのアセンブリおよび編集のためにシステムおよびコンピュータ実装方法が提供される。開示される技術は、ネットワークを通じてソースＡ／Ｖファイルをインポートし、インポートされたビデオファイルに関連付けられた発話された単語からビデオプログラムをアセンブリして編集する手法をユーザに提供する。過去の非線形ビデオ編集は、専用ソフトウェアを有する複雑で高価な専用機械を実行していた。開示される技術は、クラウドベースのアプリケーションまたはネットワークを使用して、遠隔位置から大半のインターネットユーザが入手できるビデオ編集およびビデオプログラムのアセンブリをもたらす。

【0121】

ビデオファイルは、一般に、オーディオトラックおよびビデオトラックからなる。このオーディオトラックおよびビデオトラックは、ビデオの各フレームがオーディオのフレームへとロックされるようにタイムコードによって同期される。実際には、ビデオトラックにおけるオーディオトラックは同期されている。オーディオの１フレームは、タイムコードによってビデオの１フレームに関連付けられる。ビデオクリップはまた、同期タイムコードとともに、フレームレート、画像解像度を含む様々な種類の他のメタデータを含む。ソースオーディオ／ビデオクリップは、ＭＰＥＧ４などのよく知られているフォーマットなどの様々なフォーマットにおいてインポートされてよい。開示される技術は、ソースオーディオ／ビデオクリップおよびよく知られているビデオフォーマットのいずれかをインポートする。

【0122】

１つの態様では、発話された音声を有する発話されたオーディオを含むビデオトラックが、スピーチからテキストへのエンジンによって検索可能なテキストへと文字起こしされる。テキスト文字起こしは編集可能なテキスト文書として現れる。文字起こし処理では、タイムコードがオーディオトラックから文字起こしされた各単語に関連付けられる。単語はビデオにマッピングされ、発話されたすべての単語は、開始タイムコードおよび停止タイムコードを有する関連するタイムコードを有する。文字起こしテキストの各単語は、対応する開始タイムコードおよび終了タイムコードを有する。発話された各単語はタイムコードマーカに対応し、タイムコードマーカは１つまたは複数のビデオフレームに対応する。

【0123】

１つの実装では、文字起こしテキストは、従来のワードプロセッシング動作およびテキスト編集機能を使用して編集されてよい。テキストは、キーワードの使用によって検索されてよい。対応するテキストを検索することによって、正確なフラグメントまたはサウンドバイトが文字起こしテキストにおいて識別され、文字起こしテキストセグメントとして選択されることが可能である。テキストを選択し、タイムラインディスプレイ上にテキストセグメントを配置することによって、ビデオプログラムをタイムラインディスプレイ上においてアセンブリすることが可能である。選択されたビデオセグメントにおけるビデオフレームは、選択されたテキストセグメントに正確に対応する。複数のテキストセグメントが、ユーザによって選択され、ドラッグアンドドロップ動作によってタイムラインに移動し、プレイリストとしてシーケンス化されてよい。このようにして、再生することが可能であるビデオプログラムがアセンブリされ、一方、ユーザは、最終的なシーケンスに満足するまで実験し、最終的なシーケンスは、完全なプログラムとしてエクスポートされることが可能であり、またはラフカットビデオプログラムとしてエクスポートされることが可能であり、最終的なシーケンスは、ファインカット仕上げのために専用の非線形編集システムまたはアプリケーションにエクスポートされることが可能である。開示される技術は、ユーザによって任意の選ばれた順序にてタイムラインディスプレイ上にビデオプログラムをアセンブリするために使用されることが可能である。ビデオセグメントのシーケンスは、所望に応じて順序付け、並べ替え、および編集されてよい。シーケンスは、ユーザがビデオプログラムの構成に完全に満足し、ユーザがエクスポートする準備ができるまで、ビデオセグメント自身の内で変更されることが可能である。

【0124】

ビデオプログラムのアセンブリにおいて、開示される技術は、ユーザが、ビデオプロジェクトがアセンブリされているときに認可された共同作業者にビデオプロジェクトを見させることを可能にする。認可された共同作業者は、ビデオにログオンしてビデオを再生し、プロジェクトにコメントを提供し、改善のための代替案を提案し、または単に絵文字の形態により肯定的なインジケータを提供することが可能である。

【0125】

開示される技術のこの節および他の節に記載される方法は、以下の特徴および／または開示される追加の方法に関連して記載される特徴のうちの１つまたは複数を含むことが可能である。簡潔にするために、本出願において開示される特徴の組合せは、個々に列挙されず、特徴の各基本セットにより繰り返されない。読者は、この方法により識別された特徴を、実装として識別された基本特徴のセットとどのように容易に組み合わせることが可能であるかを理解する。

【0126】

別の態様において、本開示は、関連コンテンツを検索するための非常に高速な手法を提供する。代替は、ビデオおよびオーディオトラック全体を見ることであり、これは、リアルタイム速度よりも速い速度にて見たときであっても、時間がかかり得る。検索可能な文字起こしテキストを使用することによって、関連するテキストを見つけることが促進される。関連するコンテンツを見つけるために、文字起こしテキストに関連付けられたビデオ全体を見たり、オーディオ全体を聞いたりする必要はもはやない。ユーザが文字起こしにおけるテキストを強調表示すると、そのテキストに対応するオーディオおよびビデオは、視聴のために直ちにキューに入れられる。この特徴はまた、ユーザが特定のビデオプログラムをアセンブリするのに不可欠である特定のサウンドバイトを迅速に識別することが可能であるため、ビデオプログラムのアセンブリを促進する。

【0127】

開示される技術の１つの態様では、ソースＡ／Ｖファイルからオーディオ／ビデオプログラムをアセンブリするためにビデオ実装方法が提供される。その方法は、１つ以上のソースオーディオ／ビデオファイルをインポートする工程を備え、オーディオ／ビデオファイルは、オーディオトラックおよびビデオトラックを含む。オーディオトラックはオーディオフレームを含み、ビデオトラックはタイムコードによって同期されたビデオフレームを含む。オーディオトラックはさらに、対応するビデオフレームと同期している１人または複数の話者の音声からの発話されたスピーチを含む。その方法は、スピーチからテキストへのエンジンを使用して、発話されたスピーチのテキスト文字起こしを作成する工程を備える。テキスト文字起こしの作成中、オーディオトラックにおける各単語は、対応するビデオフレームにマッピングされる。モニタ画面上において、オーディオの文字起こしは、対応するビデオフレームの指示とともに、テキストウィンドウにテキストとして表示される。本技術は、テキスト要素を文字起こしマップにおける対応するビデオフレームにマッピングし、各単語は、開始タイムコードおよび終了タイムコードを有する。ユーザは、ユーザインタフェースを通じて対話してテキストセグメントを選択し、選択されたテキストセグメントを対応するビデオセグメントとともにモニタ画面上の視覚的タイムラインへと移動させる。テキストセグメントおよび対応するビデオセグメントは、視覚的タイムライン上に一緒に表示される。

【0128】

開示される技術は、複数の話者について発話されたコンテンツを追跡し、コンテンツは、各話者のスピーチ特性に基づいて、各話者について自動的にラベル付けされる。１つの態様では、発話されたコンテンツは話者の名前によりラベル付けされる。別の態様では、話者ごとの識別ラベルは、ユーザによって手動で付与される。ユーザは、話者識別ラベルを選択されたテキストに割り当ててよく、それは、ソフトウェアによって同じ話者であると決定されたすべての他のパラグラフに伝搬する。

【0129】

１つの態様では、コンピュータ実装方法は、選ばれた表示シーケンスにより配置された選択されたビデオクリップを表示するためのビデオタイムラインを提供する。ビデオプログラムをアセンブリするための方法のいくつかの実装では、複数のテキストセグメントおよび対応するビデオセグメントが視覚的タイムラインに移動され、タイムライン上にてユーザが選択した再生順序により表示される。１つの例では、３つ以上のテキストおよびビデオセグメントが、アセンブリされたビデオプログラムを含んでよい。開示される方法の別の例では、再生コマンドに応答して、選択されたセグメントは、タイムライン上に示されるようなシーケンスに示される選択の順序により再生されてよい。これに代えて、ユーザ選択に応答して、再生のシーケンスは、再生用に第２の選択された順序に並べ替えられてよい。同様に、ユーザ選択に応答して、第３の選択された順序による再生用のタイムライン上の選択されたビデオセグメントの再生。並べ替えコマンドは、ユーザがテキストおよびビデオ選択を異なる選ばれた順序へとドラッグアンドドロップすることを可能にする。ユーザは、順方向または逆方向にスキップし、選ばれたサムネイルをクリックして、再生１１０４、１５０４、または２００４におけるその点にジャンプしてよい。

【0130】

１つの態様では、ユーザは、遠隔の共同作業者を、ビデオプログラムを再生し、リアルタイムにコメントするか、またはユーザにフィードバックを提供するように、認可してよい。共同作業者は、パスワードおよび他のネットワークセキュリティ手段を使用することによって認可される必要がある。開示される技術の別の実装では、話者が不要なコンテンツのために適切な言語を使用する状況において、いくつかのビデオコンテンツを除去することが望ましい場合がある。文字起こしテキスト上においてキーワード検索を行うことによって、不要なコンテンツが見つかり、アセンブリされたものから削除されてよい。キーワードのリストは、不要なコンテンツのすべてのインスタンスを識別するように、文字起こしテキスト全体に適用することも可能である。不要なテキストコンテンツを削除することによって、対応するビデオセグメントも削除される。

【0131】

別の開示される実装では、テキスト選択に対応するビデオフレームが取り出され、取り出されたテキスト選択およびビデオ選択は、ビデオプログラムのさらなる編集およびアセンブリのためにタイムラインディスプレイに移動される。完全にアセンブリされたビデオプログラムは、ラフカットビデオの形態をとってよく、これは、ファインカット処理のために二次ビデオ編集システムにエクスポートされる。

【0132】

開示される技術は、オーディオ／ビデオプログラムをアセンブリするためのシステムとして実装されてよい。システムは、ユーザからアップロードされたビデオファイルを記憶するためのＡ／Ｖストレージビンを備える。ビデオファイルは、オーディオトラックおよびビデオトラックを含む。オーディオトラックはオーディオフレームを含み、ビデオトラックはタイムコードによって同期されたビデオフレームを含む。オーディオトラックは、対応するビデオフレームと同期して、１人または複数の話者から発話されたスピーチをさらに含む。スピーチからテキストへのエンジンは、オーディオトラックにおける発話されたスピーチのテキスト文字起こしを作成するために提供され、文字起こしされた各単語は、対応するビデオフレームにマッピングされる。モニタ画面は、テキスト文字起こしを表示する。ユーザが選択したテキストセグメントおよび対応するビデオセグメントが示されている。ユーザが選択したテキストセグメントおよび対応するビデオセグメントをタイムライン上のユーザが選択した再生順序へとシーケンス化するためにモニタ画面上に表示される視覚的タイムライン。

【0133】

いくつかの開示される実装は、ユーザが選択したテキストセグメントおよび対応するビデオセグメントの再生順序を精緻化することを提供し、ユーザのドラッグアンドドロップ動作によって実行される。システムは、再生、提案、およびコメントを含む、ビデオプログラムとの認可された共同作業者の対話を受け入れることを可能にする。共同作業者による変更は、リアルタイムにタイムラインに反映されてよい。

【0134】

１つの実装では、ネットワークを通じてビデオプログラムを作成しアセンブリするためのシステムが提供される。ホストコンピュータは、ネットワークインタフェースと動作可能に接続されている。ネットワークインタフェースは、ネットワークと動作可能に接続されている。アプリケーションサーバは、ネットワークインタフェースと動作可能に通信する。アプリケーションサーバは、ビデオプログラムをアセンブリするためのウェブサイトアプリケーションをホストするように構成され、サーバは、リモートユーザにホストコンピュータへのウェブページアクセスを提供するためのユーザインタフェースを有する。ユーザインタフェースは、Ａ／Ｖストレージビンおよびビデオ編集リソースと動作可能に通信する。ユーザインタフェースは、ビデオ番組をアセンブリするためのウェブページ画面を含む。ユーザインタフェースは、ユーザのＡ／Ｖファイルをアプリケーションへとアップロードするように構成されたウェブページ画面を含む。ユーザインタフェースは、選択されたＡ／Ｖファイルのオーディオトラックから文字起こしテキスト用のテキストウィンドウを表示するように構成されたウェブページ画面をさらに含み、表示されたテキスト単語はタイムコードにより同期されたビデオコンテンツに対応する。ウェブページ画面は、タイムラインを提供するように構成され、ユーザは、テキストセグメントと文字起こしテキストセグメントに対応するビデオセグメントとを選択してよい。ウェブページ画面は、選択されたテキストセグメントのシーケンスを、対応するビデオセグメントとともに垂直タイムライン構成にて示すように構成される。テキストセグメントおよび対応するビデオセグメントのシーケンスは、選ばれた再生シーケンスにおいてタイムラインディスプレイ上にリストされる。シーケンスは、ユーザのドラッグアンドドロップ動作によって並べ替えられてよい。

【0135】

開示されるシステムのさらなる態様では、オーディオトラックから文字起こしテキストを表示するためのテキストウィンドウと、文字起こしテキストに対応する画像フレームを表示するためのビデオウィンドウと、文字起こしテキストセグメントをユーザが選んだ再生シーケンスにおけるタイムライン上にドロップおよびドラッグするためのタイムラインとが提供される。タイムラインは、選択されたテストセグメント、ビデオプレビューフレーム、およびビデオ再生ウィンドウを表示し、ここで、再び選択されたテキストセグメントは、ドラッグアンドドロップ動作によって、ユーザが選択したシーケンスへと移動され、その結果、アセンブリされたビデオプログラムが選択されたシーケンスにて再生されてよい。

【0136】

実施例
実施例１：タイムコードに基づいて文字起こしされたテキストをビデオセグメントにマッピングするためのコンピュータ実装方法は、オーディオトラックの文字起こしの単語を、オーディオトラックおよびビデオトラックを含むデジタルビデオのビデオフレームに関連付ける文字起こしマップを生成する工程と、オーディオトラックの文字起こしからの１つまたは複数の単語の選択の指示を受信する工程と、文字起こしマップ内において、オーディオトラックの文字起こしからの選択された１つまたは複数の単語に関連付けられたタイムコードを決定する工程と、タイムコードに基づいてビデオクリップを生成する工程と、を備えてよい。

【0137】

実施例２：前記デジタルビデオから前記オーディオトラックを抽出する工程と、前記デジタルビデオのメタデータに基づいて前記オーディオトラックのインクリメントのタイムコードを決定する工程と、前記オーディオトラックの文字起こしを生成する工程と、前記オーディオトラックの前記インクリメントの前記タイムコードを前記オーディオトラックの前記文字起こしの対応するインクリメントに割り当てる工程と、によってオーディオトラックの文字起こしを生成する工程を含む、実施例１のコンピュータ実装方法。

【0138】

実施例３：前記文字起こしマップを生成する工程は、前記オーディオトラックの前記文字起こしにおける全すべてについて開始タイムコードおよび終了タイムコードを決定する工程と、対応する開始タイムコードおよび終了タイムコードと相関した前記オーディオトラックの前記文字起こしの前記単語を含む前記文字起こしマップを生成する工程と、を含む、実施例１および２のいずれかのコンピュータ実装方法。

【0139】

実施例４：オーディオトラックの文字起こしからの１つまたは複数の単語の選択の指示を受信する工程は、オーディオトラックの文字起こしを含むディスプレイ内において１つまたは複数の単語のユーザ強調表示の指示を受信する工程を含む、実施例１～３のいずれかのコンピュータ実装方法。

【0140】

実施例５：オーディオトラックの文字起こしからの選択された１つまたは複数の単語に関連付けられているタイムコードを決定する工程は、文字起こしマップ内において、オーディオトラックの文字起こしからの選択された１つまたは複数の単語からの最初の単語に関連付けられている開始タイムコードを決定する工程と、文字起こしマップ内において、オーディオトラックの文字起こしからの選択された１つまたは複数の単語からの最後の単語に関連付けられている終了タイムコードを決定する工程とを含む、実施例１～４のいずれかのコンピュータ実装方法。

【0141】

実施例６：オーディオトラックの文字起こしからの選択された１つまたは複数の単語に関連付けられているタイムコードを決定する工程は、文字起こしマップ内において、オーディオトラックの文字起こしからの選択された１つまたは複数の単語からの最初の単語に関連付けられている開始タイムコードを決定する工程と、文字起こしマップ内において、オーディオトラックの文字起こしからの選択された１つまたは複数の単語からの最後の単語に関連付けられている終了タイムコードを決定する工程とを含む、実施例１～４のいずれかのコンピュータ実装方法。

【0142】

実施例７：第１のタイムコードにて開始し、第２のタイムコードにて終了するデジタルビデオからのビデオフレームを含むビデオクリップを生成する工程は、デジタルビデオ、第１のタイムコード、および第２のタイムコードを参照するメディアフラグメントユニバーサルリソース識別子を含むＨＴＭＬコードを生成する工程を含む、実施例１～６のいずれかのコンピュータ実装方法。

【0143】

実施例８：ビデオアセンブリインタフェースを生成および利用するためのコンピュータ実装方法は、デジタルビデオに関連付けられているビデオ再生ウィンドウと、デジタルビデオのオーディオトラックの文字起こしを表示する文字起こしテキストウィンドウとを備えるビデオアセンブリインタフェースを生成するビデオアセンブリインタフェース生成工程と、文字起こしテキストウィンドウにおけるオーディオトラックの文字起こしからの１つまたは複数の単語の選択の指示を受信する指示受信工程と、選択された１つまたは複数の単語に対応する第１のビデオクリップを生成する第１ビデオクリップ生成工程と、ビデオアセンブリインタフェース内において、第１のビデオクリップを含むビデオタイムラインを生成する工程と、を備えてよい。

【0144】

実施例９：前記ビデオアセンブリインタフェース生成工程は、アップロードされた複数のデジタルビデオからの前記デジタルビデオの選択が検出されることに応答する、実施例８のコンピュータ実装方法。

【0145】

実施例１０：前記指示受信工程は、前記文字起こしから前記１つまたは複数の単語のユーザ強調表示の１つの指示を受信する工程、または前記ビデオ再生ウィンドウに関連付けられている１つまたは複数の再生インジケータのユーザ選択の指示を受信する工程を含む、実施例８および９のいずれかのコンピュータ実装方法。

【0146】

実施例１１：前記第１ビデオクリップ生成工程は、前記ビデオアセンブリインタフェース内において、選択された前記１つまたは複数の単語を前記文字起こしテキストウィンドウから前記ビデオタイムラインまでドラッグアンドドロップするユーザ対話を検出することに応答する、実施例８～１０のいずれかのコンピュータ実装方法。

【0147】

実施例１２：前記コンピュータ実装方法は、前記文字起こしテキストウィンドウにおける前記オーディオトラックの前記文字起こしからの追加の単語の選択の指示を受信する工程と、選択された前記追加の単語に対応する第２のビデオクリップを生成する工程と、前記第２のビデオクリップを前記ビデオタイムラインに追加する工程と、をさらに備える、実施例８～１１のいずれかのコンピュータ実装方法。

【0148】

実施例１３：前記ビデオアセンブリインタフェース内の前記ビデオタイムラインとのユーザ対話が検出されることに応答して、前記ビデオライムライン内において前記第１のビデオクリップおよび前記第２のビデオクリップを並べ替える工程をさらに備える、実施例８～１２のいずれかのコンピュータ実装方法。

【0149】

実施例１４：前記アップロードされた複数のデジタルビデオから追加のデジタルビデオの選択が検出されることに応答して、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウから前記デジタルビデオを除去する工程と、前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウから前記デジタルビデオの前記オーディオトラックの前記文字起こしを除去する工程と、前記ビデオアセンブリインタフェース内の前記ビデオ再生ウィンドウに前記追加のビデオを追加する工程と、前記追加のビデオのオーディオトラックの文字起こしを前記ビデオアセンブリインタフェース内の前記文字起こしテキストウィンドウに追加する工程と、前記第１のビデオクリップおよび前記第２のビデオクリップを前記ビデオアセンブリインタフェースの前記ビデオタイムライン内に維持する工程と、をさらに備える、実施例８～１３のいずれかのコンピュータ実装方法。

【0150】

実施例１５：デジタルビデオ文字起こしにおいて複数の話者を識別しタグ付けするためのコンピュータ実装方法は、デジタルビデオのオーディオトラックの文字起こしを生成する工程であって、前記文字起こしは、オーディオトラックにおける発話された単語に対応するテキストと、オーディオトラック内の１人または複数の話者を識別する話者タグとを含む、文字起こし生成工程と、デジタルビデオおよび文字起こしを含むディスプレイ内から、オーディオトラック内の１人または複数の話者のうちの話者を識別する文字起こしにおける話者タグの選択の指示を受信する指示受信工程と、話者に関連付けられた文字起こしにおけるテキストに対応する複数のビデオセグメントをデジタルビデオから選択するビデオセグメント選択工程と、複数のビデオセグメントを連結することによって話者のビデオクリップを生成する工程と、を含んでよい。

【0151】

実施例１６：前記文字起こし生成工程は、デジタルビデオからオーディオトラックを抽出する工程と、オーディオトラック内の１人または複数の話者の声の特性を分析しながらオーディオトラックをテキストに文字起こしする工程と、オーディオトラック内の１人または複数の話者の声の特性の分析に基づいてテキスト内に話者タグを生成する工程と、を含む、実施例１５のコンピュータ実装方法。

【0152】

実施例１７：第１のディスプレイ部分にデジタルビデオに関連付けられたビデオ再生制御部と、第２のディスプレイ部分にオーディオトラックにおける発話された単語に対応するテキストおよびオーディオトラック内における１人または複数の話者を識別する話者タグを含むテキスト編集制御部と、を含むウェブページを生成することによって、デジタルビデオおよび文字起こしを含む表示を生成する工程をさらに備える、実施例１５および１６のいずれかのコンピュータ実装方法。

【0153】

実施例１８：前記指示受信工程は、第２の表示部分におけるテキスト編集制御部内の話者タグを強調表示するユーザ対話の指示を受信する工程と、および、第２の表示部分におけるテキスト編集制御部に関連付けられているテキスト入力ボックスを介して話者タグに対応する話者名を入力するユーザ対話の指示を受信する工程、の１つ以上を含む、実施例１５～１７のいずれかのコンピュータ実装方法。

【0154】

実施例１９：前記文字起こし生成工程に応答して、デジタルビデオのメタデータに基づいてオーディオトラックのインクリメントに対するタイムコードを決定する工程と、オーディオトラックのインクリメントに対するタイムコードをオーディオトラックの文字起こしの対応するインクリメントに割り当てる工程と、オーディオトラックの文字起こしにおけるすべての単語に対する開始タイムコードおよび終了タイムコードを決定する工程と、対応する開始タイムコードおよび終了タイムコードと相関付けられたオーディオトラックの文字起こしの単語を含む文字起こしマップを生成する工程と、によって、文字起こしマップを生成する工程をさらに備える、例１５～１８のいずれかに記載のコンピュータ実装方法。

【0155】

実施例２０：話者に対応する文字起こしにおけるテキストに対応するデジタルビデオから複数のビデオセグメントを選択する工程は、文字起こしマップに基づいて、話者に対応する文字起こしにおける単語の開始タイムコードおよび終了タイムコードを決定するタイムコード決定工程と、話者に対応する文字起こしにおける単語の開始タイムコードおよび終了タイムコードに対応するタイムコードを有するデジタルビデオのビデオフレームを識別する工程と、識別されたビデオフレームを含む複数のビデオセグメントを生成する工程と、を含む、実施例１５～１９のいずれかのコンピュータ実装方法。

【0156】

実施例２１：前記タイムコード決定工程は、話者を識別する文字起こしにおけるすべての話者タグについて、話者タグと異なる話者に対応する次の話者タグとの間の文字起こしにおけるテキストブロックを識別する工程と、テキストブロックにおける最初の単語およびテキストブロックにおけるの最後の単語を決定する工程と、文字起こしマップ内において、最初の単語および最後の単語を識別する工程と、文字起こしマップ内において、第１の単語に関連付けられている開始タイムコードおよび最後の単語に関連付けられている終了タイムコードを識別する工程と、を含む、例１５～２０のいずれかのコンピュータ実装方法。

【0157】

実施例２２：ビデオアセンブリプロジェクトに関連してリアルタイム共同作業インタフェースを生成するためのコンピュータ実装方法は、第１のユーザの１つまたは複数のデジタルビデオの文字起こしとの対話に基づいてビデオクリップの第１のビデオタイムラインを生成する第１ビデオタイムライン生成工程と、第２のユーザから、第１のビデオタイムラインに関連付けられている１つまたは複数の編集を検出する検出工程と、第１のビデオタイムラインに関連付けられている１つまたは複数の編集を検出したことに応答して、１つまたは複数の編集を含む第２のビデオタイムラインを生成する第２ビデオタイムライン生成工程と、第１のユーザに第２のビデオタイムラインへのアクセスを提供するアクセス提供工程と、を含んでよい。

【0158】

実施例２３：前記第１ビデオタイムライン生成工程は、第１のユーザの１つまたは複数のデジタルビデオの文字起こしのセグメントとの対話の指示を受信する工程と、文字起こしのセグメントに関連付けられているタイムコードに対応するタイムコードを有するフレームを含むビデオクリップを生成する工程と、生成されたビデオクリップをシーケンスにて第１のビデオタイムラインに追加する工程と、を含む、実施例２２のコンピュータ実装方法。

【0159】

実施例２４：前記検出工程は、第２のユーザからの第１のビデオタイムラインにおけるビデオクリップのうちの１つ以上に向けられた第２のユーザからのコメントを検出する工程、第２のユーザが第１のビデオタイムラインにおけるビデオクリップを並べ替えたことを検出する工程、および第２のユーザが第１のビデオタイムラインにおけるビデオクリップ間の１つ以上のトランジションを変更したことを検出する工程、のうちの１つ以上を含む、実施例２２および２３のいずれかのコンピュータ実装方法。

【0160】

実施例２５：前記検出工程の前に、第１のユーザに編集アクセスを提供する、第１のビデオタイムラインに関連付けられているセキュリティクレデンシャルを生成する工程をさらに備える、実施例２２～”４のいずれかのコンピュータ実装方法。

【0161】

実施例２６：前記第２ビデオタイムライン生成工程は、ビデオクリップおよび１つまたは複数の編集を反映するメディアフラグメントユニバーサルリソース識別子を含むＨＴＭＬコードを生成する工程を含む、実施例２２～２５のいずれかのコンピュータ実装方法。

【0162】

実施例２７：前記検出工程はリアルタイムに行われる、実施例２２～２６のいずれかのコンピュータ実装方法。
実施例２８：前記アクセス提供工程は、第１のユーザに関連付けられているクライアントコンピューティングデバイス上に表示されたビデオアセンブリインタフェースを更新して、第１のビデオタイムラインおよび第２のビデオタイムラインを参照するアーカイブ制御部を含めることを含む、実施例２２～２７のいずれかに記載のコンピュータ実装方法。

【0163】

実施例２９：デジタルビデオの文字起こしからキーワードを除去するためのコンピュータ実装方法は、デジタルビデオのビデオフレームをデジタルビデオのオーディオトラックの文字起こしの単語に関連付ける文字起こしマップを生成する文字起こしマップ生成工程と、デジタルビデオのオーディオトラックの文字起こし内のキーワードの指示を検出する工程と、デジタルビデオのオーディオトラックの文字起こし内のキーワードの１つまたは複数のインスタンスを識別する識別工程と、デジタルビデオのオーディオトラックの文字起こし内のキーワードの１つまたは複数のインスタンスに対応する１つまたは複数のビデオフレームをデジタルビデオから除去し、文字起こしマップを利用するビデオフレーム除去工程と、を備えてよい。

【0164】

実施例３０：デジタルビデオのメタデータに基づいてオーディオトラックのインクリメントに対するタイムコードを決定する工程と、オーディオトラックの文字起こしを生成する工程と、オーディオトラックのインクリメントに対するタイムコードをオーディオトラックの文字起こしの対応するインクリメントに割り当てる工程と、によって、デジタルビデオのオーディオトラックの文字起こしを生成する工程をさらに備える、実施例２９のコンピュータ実装方法。

【0165】

実施例３１：前記文字起こしマップ生成工程は、前記オーディオトラックの前記文字起こしにおけるすべての単語に対する開始タイムコードおよび終了タイムコードを決定する工程と、対応する開始タイムコードおよび終了タイムコードと相関した前記オーディオトラックの前記文字起こしの前記単語を含む前記文字起こしマップを生成する工程と、を含む、実施例２９および３０のいずれかのコンピュータ実装方法。

【0166】

実施例３２：前記識別工程は、文字起こしマップ内のキーワードを識別する工程と、文字起こしマップ内のキーワードと相関した開始タイムコードおよび終了タイムコードの１つまたは複数の対を識別する工程と、開始タイムコードおよび終了タイムコードの前記１つまたは複数の対のリストを生成する工程と、を含む、実施例２９～３１のいずれかのコンピュータ実装方法。

【0167】

実施例３３：前記ビデオフレーム除去工程は、リストにおける開始タイムコードおよび終了タイムコードの１つまたは複数の対ごとに、開始タイムコードに対応する前記デジタルビデオにおける第１のビデオフレームを識別する工程と、終了タイムコードに対応する前記デジタルビデオにおけるの第２のビデオフレームを識別する工程と、第１のビデオフレームと第２のビデオフレームとの間のビデオフレームをデジタルビデオから除去する工程と、を含む、実施例２９～３２のいずれかのコンピュータ実装方法。

【0168】

実施例３４：前記検出工程は、オーディオトラックの文字起こしを含むディスプレイ内の単語のユーザ選択を検出する工程、オーディオトラックの文字起こしを含むディスプレイに関連付けられているテキストボックスにおけるキーワードのユーザ入力を検出する工程、または機械学習モデルを利用してユーザ傾向に基づいてキーワードを自動的に検出する工程、のうちの１つ以上を含む、実施例２９～３３のいずれかのコンピュータ実装方法。

【0169】

実施例３５：デジタルビデオのオーディオトラックの文字起こし内の追加キーワードの指示を検出する工程と、デジタルビデオのオーディオトラックの文字起こし内の追加キーワードの１つまたは複数のインスタンスを決定する工程と、デジタルビデオから、文字起こしマップを利用して、デジタルビデオのオーディオトラックの文字起こし内の追加キーワードの１つまたは複数のインスタンスに対応する１つまたは複数のビデオフレームを除去する工程と、をさらに備える含む、実施例２９～３４のいずれかのコンピュータ実装方法。

【0170】

開示される技術の本節および他の節に記載される方法は、以下の特徴および／または開示される追加の方法に関連して記載される特徴のうちの１つまたは複数を含むことが可能である。簡潔にするために、本出願において開示される特徴の組合せは、個々に列挙されず、特徴の各基本セットにより繰り返されない。読者は、この方法により識別された特徴を、実装として識別された基本特徴のセットとどのように容易に組み合わせることが可能であるかを理解する。

【図1】