(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024174994
(43)【公開日】2024-12-17
(54)【発明の名称】ビデオ生成および編成モデル取得方法、装置、デバイスおよび記憶媒体
(51)【国際特許分類】
G06F 16/78 20190101AFI20241210BHJP
H04N 21/854 20110101ALI20241210BHJP
【FI】
G06F16/78
H04N21/854
【審査請求】有
【請求項の数】35
【出願形態】OL
【公開請求】
(21)【出願番号】P 2024157477
(22)【出願日】2024-09-11
(31)【優先権主張番号】202311387153.1
(32)【優先日】2023-10-24
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】517323290
【氏名又は名称】バイドゥドットコム タイムズ テクノロジー (ベイジン) カンパニー リミテッド
【氏名又は名称原語表記】Baidu.com Times Technology (Beijing) Co., Ltd.
【住所又は居所原語表記】2/F A2 Zhongguancun Software Park 17th building, No.8, Dongbeiwang West Road, Haidian District, Beijing 100080, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チェン、ミアオ
(72)【発明者】
【氏名】ニエ、ウェイグオ
(72)【発明者】
【氏名】ジャン、ユドン
(72)【発明者】
【氏名】ガオ、チアン
(72)【発明者】
【氏名】シュ、シャンジュン
(57)【要約】 (修正有)
【課題】ビデオ生成方法および編成モデル取得方法、装置、デバイス並びに記憶媒体を提供する。
【解決手段】ビデオ生成方法は、処理待ちテキスト情報を取得し、それを句ごとに分割して各目標句を得ること、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出すること、各目標句に対して、前記目標句の処理待ちテキスト情報における出現位置に応じて、前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出すること及び各目標句に対応する目標素材から目標ビデオを生成することを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ビデオ生成方法であって、
処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得、
各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出し、
各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成する
ことを含む方法。
【請求項2】
前記処理待ちテキスト情報を取得することは、
ユーザが選出した文章を処理待ち文章とし、前記処理待ち文章に対してテキスト情報抽出を行い、抽出されたテキスト情報を前記処理待ちテキスト情報とすることを含む
請求項1に記載の方法。
【請求項3】
前記処理待ち文章に対してテキスト情報抽出を行うことの前に、予め訓練された文章分類モデルを用いて前記処理待ち文章を分類し、分類結果に基づいて前記処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、前記処理待ち文章に対してテキスト情報抽出を行うこと、
前記処理待ち文章に対してテキスト情報抽出を行うことの後に、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリングされたテキスト情報を前記処理待ちテキスト情報とすること、
のいずれか又は全てをさらに含む
請求項2に記載の方法。
【請求項4】
前記各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出することは、
いずれかの目標句について、前記目標句のテキストコードをそれぞれ取得し、前記素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度の最も大きいQ個(Qは1より大きい正の整数である)のビデオショットを前記目標句に対応する候補素材とする、処理をそれぞれ行う、
ことを含む請求項1に記載の方法。
【請求項5】
前記目標句のテキストコードを取得することは、予め訓練されたクロスモーダル対比学習モデルを用いて、前記目標句のテキストコードを決定することを含み、
前記クロスモーダル対比学習モデルを用いて、前記素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定することをさらに含む請求項4に記載の方法。
【請求項6】
前記処理待ちテキスト情報における前記目標句の出現位置に応じて、前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出することは、
各目標句を前記処理待ちテキスト情報における出現位置の先着順でソートし、各目標句を前から後への順に順次トラバース(Traversal)し、
毎回トラバースされた目標句に対して、処理待ち目標句とし、前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出し、前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出する、処理をそれぞれ行う、
ことを含む請求項4に記載の方法。
【請求項7】
前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出することは、
対応するビデオコードと、前記処理待ち目標句のテキストコードとの類似度の大きい順に、前記処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて、前記処理待ち目標句に対応する目標素材を決定する、
ことを含む請求項6に記載の方法。
【請求項8】
前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出することは、
前記処理待ち目標句に対応する各候補素材に対して、直近に得られた、前記処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、前記処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、前記候補素材に対応する、前記第1シーケンスの末尾に前記候補素材のビデオコードを追加することにより得られる第3シーケンス及び前記第2シーケンスの末尾に前記処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、前記第3シーケンス及び前記第4シーケンスに基づいて前記候補素材の総合スコアを決定し、
各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定し、前記処理待ち目標句に対応する目標素材のビデオコードを前記第1シーケンスの末尾に追加して更新された第1シーケンスを得、前記処理待ち目標句のテキストコードを前記第2シーケンスの末尾に追加して更新された第2シーケンスを得る、
ことを含む請求項6に記載の方法。
【請求項9】
前記第3シーケンスおよび前記第4シーケンスに基づいて前記候補素材の総合スコアを決定することは、
前記候補素材のビデオコードと前記処理待ち目標句のテキストコードとの類似度を取得し、前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコア及び前記第3シーケンスのシーケンス一致性スコアを取得し、
前記類似度、前記シーケンス相関性スコア、及び前記シーケンス一致性スコアと合わせて前記候補素材の総合スコアを決定する、
ことを含む請求項8に記載の方法。
【請求項10】
前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコアおよび前記第3シーケンスのシーケンス一致性スコアを取得することは、
前記第3シーケンスおよび前記第4シーケンスに基づいて、予め訓練された編成モデルを用いて、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを決定する、
ことを含む請求項9に記載の方法。
【請求項11】
前記ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定することは、ソート後の上位L個の候補素材を前記処理待ち目標句に対応する目標素材とすることを含み、
前記Lは正の整数であり、前記Lの値は固定値であるか、又は、選出された目標素材の総時間が前記処理待ち目標句のテキスト-音声TTS音声時間に一致するという原則に基づいて決定された値である、
請求項7に記載の方法。
【請求項12】
各目標句に対応する目標素材に基づいて前記目標ビデオを生成することは、前記目標素材に基づいて、クイックピクチャエキスパート技術によってレンダリングすることにより前記目標ビデオを得ることを含む、
請求項1に記載の方法。
【請求項13】
編成モデルの取得方法であって、
いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得し、
前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットである、
ことを含む方法。
【請求項14】
前記相関性カテゴリタスクに対応するトレーニングサンプル及び前記一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得することは、
前記トレーニングバッチに対応するP個(Pは1より大きい正の整数である)のテキストビデオペアを取得し、各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含み、前記少なくとも2つの句は同一のテキスト情報から取得し且つ前記テキスト情報における出現位置の先着順でソートされ、前記テキスト集合における各句はそれぞれ前記ビデオ集合における少なくとも1つのビデオショットに対応し、且つ前記ビデオ集合における各ビデオショットは再生時間の先着順でソートされ、
取得されたテキストビデオペアに基づいて、前記相関性カテゴリタスクに対応するトレーニングサンプルと、前記一致性カテゴリタスクに対応するトレーニングサンプルとを構築する、
ことを含む請求項13に記載の方法。
【請求項15】
前記相関性カテゴリタスクに対応するトレーニングサンプルを構築することは、
取得された各テキストビデオペアをポジティブサンプルとし、
取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、前記テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを前記テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、前記テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、前記テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を前記テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と前記テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、S
前記ポジティブサンプルと前記ネガティブサンプルとを前記相関性カテゴリタスクに対応するトレーニングサンプルとする、
ことを含む請求項14に記載の方法。
【請求項16】
前記一致性カテゴリタスクに対応するトレーニングサンプルを構築することは、
取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないまま維持することと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、
前記所定方法で処理された各テキストビデオペアを前記一致性カテゴリタスクに対応するトレーニングサンプルとする、
ことを含む請求項14に記載の方法。
【請求項17】
ビデオ生成装置であって、
処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得るテキスト処理モジュールと、
各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出する素材検索モジュールと、
各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成するビデオ生成モジュールと、
を備える装置。
【請求項18】
前記テキスト処理モジュールは、ユーザが選出した文章を処理待ち文章とし、前記処理待ち文章に対してテキスト情報抽出を行い、抽出されたテキスト情報を前記処理待ちテキスト情報とする請求項17に記載の装置。
【請求項19】
前記テキスト処理モジュールは、更に、
前記処理待ち文章に対してテキスト情報抽出を行う前に、予め訓練された文章分類モデルを用いて前記処理待ち文章を分類し、分類結果に基づいて前記処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、前記処理待ち文章に対してテキスト情報抽出を行い、及び/又は
前記処理待ち文章に対してテキスト情報抽出を行った後、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリングされたテキスト情報を前記処理待ちテキスト情報とする、
請求項18に記載の装置。
【請求項20】
前記素材検索モジュールは、
いずれかの目標句について、前記目標句のテキストコードをそれぞれ取得し、前記素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度の最も大きいQ個(Qは1より大きい正の整数である)のビデオショットを前記目標句に対応する候補素材とする処理をそれぞれ行う、請求項17に記載の装置。
【請求項21】
前記素材検索モジュールは、予め訓練されたクロスモーダル対比学習モデルを用いて、前記目標句のテキストコードを決定し、
前記素材検索モジュールは、さらに、前記クロスモーダル対比学習モデルを用いて、前記素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定する請求項20に記載の装置。
【請求項22】
前記ビデオ生成モジュールは、
各目標句を前記処理待ちテキスト情報における出現位置の先着順でソートし、各目標句を前から後への順に順次トラバースし、毎回トラバースされた目標句に対して、処理待ち目標句とし、前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出し、前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出する処理をそれぞれ行う、
請求項20に記載の装置。
【請求項23】
前記ビデオ生成モジュールは、
前記処理待ち目標句がソート後の首位の目標句であることに応じて、対応するビデオコードと、前記処理待ち目標句のテキストコードとの類似度の大きい順に、前記処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて、前記処理待ち目標句に対応する目標素材を決定する、
請求項22に記載の装置。
【請求項24】
前記ビデオ生成モジュールは、
前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句に対応する各候補素材に対して、直近に得られた、前記処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、前記処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、前記候補素材に対応する、前記第1シーケンスの末尾に前記候補素材のビデオコードを追加することにより得られる第3シーケンス及び前記第2シーケンスの末尾に前記処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、前記第3シーケンス及び前記第4シーケンスに基づいて前記候補素材の総合スコアを決定し、
各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定し、前記処理待ち目標句に対応する目標素材のビデオコードを前記第1シーケンスの末尾に追加して更新された第1シーケンスを得、前記処理待ち目標句のテキストコードを前記第2シーケンスの末尾に追加して更新された第2シーケンスを得る、
請求項22に記載の装置。
【請求項25】
前記ビデオ生成モジュールは、
前記候補素材のビデオコードと前記処理待ち目標句のテキストコードとの類似度を取得し、前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコア及び前記第3シーケンスのシーケンス一致性スコアを取得し、前記類似度、前記シーケンス相関性スコア、及び前記シーケンス一致性スコアと合わせて前記候補素材の総合スコアを決定する、
請求項24に記載の装置。
【請求項26】
前記ビデオ生成モジュールは、
前記第3シーケンスおよび前記第4シーケンスに基づいて、予め訓練された編成モデルを用いて、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを決定する、
請求項25に記載の装置。
【請求項27】
前記ビデオ生成モジュールは、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定する場合に、ソート後の上位L個の候補素材を前記処理待ち目標句に対応する目標素材とし、
前記Lは正の整数であり、前記Lの値は固定値であるか、又は、選出された目標素材の総時間が前記処理待ち目標句のテキスト-音声TTS音声時間に一致するという原則に基づいて決定された値である、請求項23に記載の装置。
【請求項28】
前記ビデオ生成モジュールは、前記目標素材に基づいて、クイックピクチャエキスパート技術によってレンダリングすることにより前記目標ビデオを得る、請求項17~26のいずれか一項に記載の装置。
【請求項29】
編成モデルの取得装置であって、
いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得するサンプル構築モジュールと、
前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットであるモデル訓練モジュールと、
を備える装置。
【請求項30】
前記サンプル構築モジュールは、
前記トレーニングバッチに対応するP個(Pは1より大きい正の整数である)のテキストビデオペアを取得し、各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含み、前記少なくとも2つの句は同一のテキスト情報から取得し且つ前記テキスト情報における出現位置の先着順でソートされ、前記テキスト集合における各句はそれぞれ前記ビデオ集合における少なくとも1つのビデオショットに対応し、且つ前記ビデオ集合における各ビデオショットは再生時間の先着順でソートされ、
取得されたテキストビデオペアに基づいて、前記相関性カテゴリタスクに対応するトレーニングサンプルと、前記一致性カテゴリタスクに対応するトレーニングサンプルとを構築する、
請求項29に記載の装置。
【請求項31】
前記サンプル構築モジュールは、
取得された各テキストビデオペアをポジティブサンプルとし、
取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、前記テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを前記テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、前記テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、前記テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を前記テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と前記テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、
前記ポジティブサンプルと前記ネガティブサンプルとを前記相関性カテゴリタスクに対応するトレーニングサンプルとする、
請求項30に記載の装置。
【請求項32】
前記サンプル構築モジュールは、
取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないままと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、
前記所定方法で処理された各テキストビデオペアを前記一致性カテゴリタスクに対応するトレーニングサンプルとする、
請求項30又は31に記載の装置。
【請求項33】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~16のいずれか1項に記載の方法を実行させる電子デバイス。
【請求項34】
コンピュータに請求項1~16のいずれか1項に記載の方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体。
【請求項35】
プロセッサにより実行されると、請求項1~16のいずれか1項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特にディープラーニング、ビッグモデル、自然言語処理、コンピュータビジョン等の分野におけるビデオ生成及び編成モデル取得方法、装置、デバイス及び記憶媒体に関する 。
【背景技術】
【0002】
情報媒体の一種であるビデオは、リッチメディア形式や没入型体験を提供できるなどの特徴からますます人気を集めている。それに応じて、どのようにビデオを生成するかという問題が絡んでくる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、ビデオ生成および編成モデル取得方法、装置、デバイスおよび記憶媒体を提供する。
【課題を解決するための手段】
【0004】
ビデオ生成方法であって、処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出し、各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成することを含む方法を提供する。
【0005】
編成モデル取得方法であって、いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得し、前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットであることを含む方法を提供する。
【0006】
ビデオ生成装置であって、処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得るテキスト処理モジュールと、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出する素材検索モジュールと、各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成するビデオ生成モジュールと、を備える装置を提供する。
【0007】
編成モデル取得装置であって、いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得するサンプル構築モジュールと、前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットであるモデル訓練モジュールと、を備える装置を提供する。
【0008】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。
【0009】
コンピュータに上記の方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体を提供する。
【0010】
プロセッサにより実行されると、上記の方法を実現するコンピュータプログラム/命令を含むコンピュータプログラム製品を提供する。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要なまたは肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
【
図1】本開示に係るビデオ生成方法の実施形態のフローチャートである。
【
図2】本開示に係るビデオ生成方法の全体的な実現プロセスの概略図である。
【
図3】本開示に係る編成モデル取得方法の実施形態のフローチャートである。
【
図4】本開示に係る編成モデルの構造の概略図である。
【
図5】本開示に係るビデオ生成装置の実施形態500の構成の概略図である。
【
図6】本開示に係る編成モデル取得装置の実施形態600の構成の概略図である。
【
図7】本開示の実施形態を実施するために使用され得る電子デバイス700の概略ブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
さらに、本明細書における用語「および/または」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、Aおよび/またはBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における句字「/」は、一般的に前後の関連オブジェクトが「または」の関係にあることを意味する。
【0015】
図1は本開示に係るビデオ生成方法の実施形態のフローチャートである。
図1に示すように、以下の具体的な実施形態が含まれる。
【0016】
ステップ101では、処理待ちテキスト情報を取得し、処理待ちテキスト情報を句ごとに分割して各目標句を得る。
【0017】
ステップ102では、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出する。
【0018】
ステップ103において、各目標句に対して、処理待ちテキスト情報における当該目標句の出現位置に応じて、当該目標句に対応するスクリーニング方式を決定し、当該スクリーニング方式に従って、当該目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理を行い、各目標句に対応する目標素材に基づいて目標ビデオを生成する。
【0019】
伝統的なビデオ生成方式は主に以下を含む。1)人工編集創作方式、すなわち人工的に原稿に基づいてビデオクリップをインデックスし、インデックス結果に基づいて人工合成レンダリングなどを行うが、この方式は大量の人工操作に関連するため、比較的に大きな人件費と時間のコストを費やす必要があり、しかも効率が低い。2)シナリオに基づく実写撮影方式ですが、この方式がコストが高く、効率が低く、複製しにくいである。
【0020】
一方、上記の方法の実施形態に記載された技術案を採用すると、処理待ちテキスト情報に基づいて、テキスト分割、候補素材選出、目標素材選出、ビデオ生成などの一連の操作により、所望の目標ビデオを自動的に生成することができ、人件費と時間のコストを節約し、処理効率を向上させることができる。しかも任意の処理待ちテキスト情報に適用可能であり、広範な適用性などを有する。
【0021】
好ましくは、ユーザが選出した文章を処理待ち文章とし、処理待ち文章にテキスト情報抽出を行い、抽出されたテキスト情報を処理待ちテキスト情報としてもよい。
【0022】
例えば、ユーザが選出した文章とは、ユーザがあるセルフメディアプラットフォーム上で発表または転載した文章であって、テキストやピクチャなどの各種情報を含むことが可能な文章を指すことができる。これにより、前記文章に対してテキスト情報抽出を行い、所望の処理待ちテキスト情報を得ることができる。つまり、ユーザが選出した文章に基づいて、所望な処理待ちテキスト情報を簡単かつ迅速に取得することができる。
【0023】
また、好ましくは、処理待ち文章に対してテキスト情報抽出を行う前に、予め訓練された文章分類モデルを用いて処理待ち文章を分類し、分類結果に基づいて処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、処理待ち文章に対してテキスト情報抽出を行い、及び/又は、処理待ち文章に対してテキスト情報抽出を行った後に、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリング後のテキスト情報を処理待ちテキスト情報として良い。文章分類モデルは、構築されたトレーニングサンプルを用いて事前に訓練して得ることができる。
【0024】
すなわち、処理待ち文章については、まずその属する文章種別を特定することができる。属する文章種別が所定の文章種別であれば、そのまま処理を終了し、そうでない場合は、後続の処理、すなわち処理待ち文章のテキスト情報抽出などを行うことができる。前記所定の文章種別が具体的にどの文章種別であるかは限定されず、通常は、単なる写真解説タイプのような対応するビデオの生成に適さない文章種別を指す。この処理により、後に生成されるビデオの品質を向上させることができる。
【0025】
更に、処理待ち文章から抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリング後のテキスト情報を処理待ちテキスト情報として良い。無効情報とは、通常、後に生成されるビデオコンテンツに役立たない情報を指すため、これらの情報を事前にフィルタリングすることで、後の処理の作業量を減らすことができ、リソース消費を節約したり、処理効率をさらに向上させたりすることができる。例えば、処理待ち文章がユーザーにより転載された文章である場合、「文章の出所...」のような情報をフィルタリングすることができる。無効情報は具体的にどのような情報/どれらの情報が含まれるかは、実際の必要に応じて決定して良い。
【0026】
処理待ちテキスト情報については、句ごとに分割して良い。更に、区別しやすくするために、分割された各句をそれぞれ目標句と読んで良い。例えば、一句の終了を表す句読点に従って処理待ちテキスト情報を分割して良い。それに応じて各目標句は完全な句となる。
【0027】
その後、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出して良い。
【0028】
素材ライブラリは、事前に構築されており、複数のビデオショットを含むことができる。つまり、それぞれ1つの完全なショットに対応する複数のショートビデオを含むことができる。例えば、収集された異なるロングビデオに対して、それぞれショット境界検出(SBD、Shot Boundary Detection)アルゴリズムを用いて分割することで、同じまたは異なる時間長の複数のビデオショットを取得し、分割されたビデオショットに対して低品質フィルタリングなどを行ってから、フィルタリング後のビデオショットを素材ライブラリに追加することができる。
【0029】
好ましくは、目標句毎に、当該目標句のテキストコードを取得し、素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度が最も大きいQ個のビデオショットを当該目標句に対応する候補素材とする処理を行ってよい。Qは1より大きい正の整数である。
【0030】
Qの具体的な値は実際の必要に応じて設定することができ、例えば20であってよい。
【0031】
素材ライブラリに1000(数字は例にとどまる)個のビデオショットが含まれているとすると、各ビデオショットのビデオコードを予めそれぞれ取得して記憶し、目標句aのような任意の目標句に対して、目標句aのテキストコードを取得し、目標句aのテキストコードと1000個のビデオショットのビデオコードとの類似度をそれぞれ取得し、さらに取得された1000個の類似度の中から値の大きい順に20個の類似度を選出し、その20個の類似度に対応するビデオショットを目標句aに対応する候補素材として良い。
【0032】
以上の処理により、各目標句に対応する候補素材を個別に検索することができるため、後続の処理に良好な基礎となる。
【0033】
好ましくは、いずれかの目標句に対して、予め訓練されたクロスモーダル対比学習(CLIP、Contrastive Language-Image Pre-Training)モデルを用いて、当該目標句のテキストコードをそれぞれ決定して良い。つまり、当該目標句をCLIPモデルの入力として出力されるテキストコードを得ることができる。また、CLIPモデルを用いて素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定することができる。CLIPモデルは成熟した既存モデルであるため、得られるコード化結果の正確性などが確保されている。
【0034】
各目標句に対応する候補素材をそれぞれ取得した後、さらに候補素材の中から目標ビデオを生成するための目標素材を選出してもよい。
【0035】
好ましくは、各目標句を処理待ちテキスト情報における出現位置の先着順でソートし、その後に各目標句を前から後への順に順次トラバースし、毎回トラバースされた目標句に対して、処理待ち目標句とし、処理待ち目標句がソート後の首位の目標句であることに応じて、処理待ち目標句に対応する候補素材の中から、直接に処理待ち目標句に対応する目標素材を選出し、処理待ち目標句がソート後の首位の目標句ではないことに応じて、処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、処理待ち目標句に対応する候補素材の中から、処理待ち目標句に対応する目標素材を選出する処理をそれぞれ行って良い。
【0036】
つまり、処理待ち目標句がソート後の首位の目標句であるか否かに応じて、それぞれ異なる処理方式を採用して対応する目標素材を決定することができる。これにより、その処理をより的確にすることができるため、決定された目標素材の正確性などを向上させることができる。
【0037】
好ましくは、処理待ち目標句がソート後の首位の目標句であれば、対応するビデオコードと処理待ち目標句のテキストコードとの類似度が大きい順に、処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定して良い。
【0038】
好ましくは、処理待ち目標句がソート後の首位の目標句ではない場合に、処理待ち目標句に対応する各候補素材に対して、直近に得られた、処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、当該候補素材に対応する、第1シーケンスの末尾に当該候補素材のビデオコードを追加することにより得られる第3シーケンス及び第2シーケンスの末尾に処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、第3シーケンス及び第4シーケンスに基づいて当該候補素材の総合スコアを決定し、各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定し、処理待ち目標句に対応する目標素材のビデオコードを第1シーケンスの末尾に追加して更新された第1シーケンスを得、処理待ち目標句のテキストコードを第2シーケンスの末尾に追加して更新された第2シーケンスを得て良い。
【0039】
例えば、ソート順でそれぞれ目標句1~目標句10としてナンバリングされる10個の目標句が含まれるとすると、まず目標句1に対応する目標素材を決定して良い。例えば、対応するビデオコードと目標句1のテキストコードとの類似度が大きい順で目標句1に対応する20個の候補素材をソートし、ソート結果に基づいて目標句1に対応する目標素材を決定してから、目標句2~目標句10に対応する目標素材を順次に決定して良い。目標句5を例にすると、それに対応する20個の候補素材の中のそれぞれについて、以下のような処理を行って良い。候補素材1を例にすると、候補素材1のビデオコードを目標句1、目標句2、目標句3及び目標句4にそれぞれ対応する目標素材のビデオコードを含む第1シーケンスの末尾に追加して候補素材1に対応する第3シーケンスを取得し、目標句5のテキストコードを目標句1、目標句2、目標句3及び目標句4のテキストコードを含む第2シーケンスの末尾に追加して候補素材1に対応する第4シーケンスを取得し、更に第3シーケンス及び第4シーケンスなどに基づいて候補素材1の総合スコアを決定して良い。同様に、候補素材2~候補素材20の総合スコアをそれぞれ取得し、更に総合スコアが高い順で目標句5に対応する20個の候補素材をソートし、ソート結果に基づいて目標句5に対応する目標素材を決定して良い。その後に、更に第1シーケンスと第2シーケンスを更新し、即ち目標句5に対応する目標素材のビデオコードを第1シーケンスの末尾に追加し、目標句5のテキストコードを第2シーケンスの末尾に追加して良い。
【0040】
このように、ソート後の首位の目標句の前に他の目標句が存在しないため、対応する候補素材から直接に目標素材を選出することで処理効率が向上する一方、ソートされた後に首位にならない各目標句については、その前の各目標句とその前の各目標句にそれぞれ対応する目標素材とを合わせて対応する候補素材から目標素材を選出することで、決定された目標素材の正確性等が向上することができる。
【0041】
好ましくは、ソートされた後に首位にならない任意の目標句(処理待ち目標句)に対応する任意の候補素材に対して、当該候補素材のビデオコードと処理待ち目標句のテキストコードとの類似度を取得し、当該候補素材に対応する第3シーケンスと第4シーケンスとのシーケンス相関性スコアおよび第3シーケンスのシーケンス一致性スコアを取得し、さらに、前記類似度、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを合わせて当該候補素材の総合スコアを決定することができる。
【0042】
例えば、前記類似度、前記シーケンス相関性スコア、および前記シーケンス一致性スコアをそれぞれ対応する重みに乗算し、得られた3つの積を加算し、その加算値を当該候補素材の総合スコアとすることができる。各重みの具体的な値は実際の必要に応じて決定して良い。
【0043】
好ましくは、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアは、第3シーケンスおよび第4シーケンスに基づいて、予め訓練された編成モデルを用いて決定されてもよい。例えば、第3シーケンスおよび第4シーケンスを編成モデルの入力として、出力された前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを得ることができる。
【0044】
つまり、予め訓練された編成モデルにより、所望なスコア情報を効率的かつ正確に取得することができる。
【0045】
前述したように、処理待ち目標句に対して、それに対応する各候補素材をソートした後、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定することができる。好ましくは、ソート後の上位L個の候補素材を処理待ち目標句に対応する目標素材として良い。Lは正の整数である。Lの値は固定値であるか、又は、選出された目標素材の総時間が処理待ち目標句のテキスト-音声(TTS、Text-to-Speech)音声時間に一致するという原則に基づいて決定された値である。
【0046】
つまり、Lの値は固定値であってもよく、具体的な値は実際の必要に応じて決定することができ、例えば1であってもよい。或いは、Lの値は動的に決定された値であってもよく、非常に柔軟で便利である。
【0047】
後者の方式では、既存の方式により処理待ち目標句のTTS音声時間、即ち後続に生成される目標ビデオにTTS音声を配置する時の処理待ち目標句の音声時間を決定し、次に選出された目標素材の総時間が処理待ち目標句のTTS音声時間に等しいという原則に従ってLの値を決定して良い。例えば、ソート後の1番目の候補素材のみを目標素材として選出し、総時間は処理待ち目標句のTTS音声時間に等しい場合に、Lの値は1である。ソート後の1番目と2番目の候補素材を目標素材として選出し、総時間は処理待ち目標句のTTS音声時間に等しい場合に、Lの値は2である。その他は同様である。特別の場合、例えば,Lの値は2であれば、総時間は処理待ち目標句のTTS音声時間よりも小さくなる一方、Lの値は3であれば、総時間は処理待ち目標句のTTS音声時間よりも大きくなる場合に、ソート後の3番目の候補素材に対してある程度の編集(その時間を短縮するように)を行うことにより、Lの値が3の場合に総時間が処理待ち目標句のTTS音声時間に等しくなるようにしても良い。
【0048】
各目標句に対応する目標素材をそれぞれ取得した後、前記目標素材から目標ビデオを生成することができる。好ましくは、前記目標素材に基づいて、クイックピクチャエキスパート(FFMPEG、Fast-Forward-Moving-PictureExpert Group)技術によってレンダリングすることにより目標ビデオを得るができる。
【0049】
つまり、各目標素材の再生時間の先着順に各目標素材に対してビデオ合成を行うことができる。さらに、各目標句に基づいて合成されたビデオに字幕を追加したり、TTS音声を配置したり、弾幕を追加したり、オープニングとエンディングを追加したりする操作を行うことで、ビデオの提示効果を向上させることができる。
【0050】
上記の説明と合わせて、
図2は本開示に係るビデオ生成方法の全体的な実現過程の模式図であり、具体的な実現は前述の関連説明を参照することができ、ここでは詳しく説明しない。ここで、予め訓練された編成モデルを用いて候補素材の中から目標素材を選出することができる。以下、編成モデルの取得方式についてさらに説明する。
【0051】
図3は本開示に係る編成モデル取得方法の実施形態のフローチャートである。
図3に示すように、以下の具体的な実施形態が含まれる。
【0052】
ステップ301では、いずれかのトレーニングバッチ(batch)において、編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得する。
【0053】
ステップ302では、前記トレーニングサンプルを用いて編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットである。
【0054】
上述した方法実施形態の技術案を採用することで、処理待ちテキスト情報に基づいて、テキスト分割、候補素材選出、編成モデルによる目標素材選出、ビデオ生成などの一連の操作により、所望の目標ビデオを自動的に生成することができるので、人件費と時間のコストを節約し、処理効率等を向上させることができる。
【0055】
好ましくは、前記batchに対応するP個のテキストビデオペアを取得することができる。Pは1より大きい正の整数であり、具体的な値は実際の必要に応じて設定可能である。各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含んで良い。前記少なくとも2つの句は同一のテキスト情報から取得し且つテキスト情報における出現位置の先着順でソートされ、テキスト集合における各句はそれぞれビデオ集合における少なくとも1つのビデオショットに対応し、且つビデオ集合における各ビデオショットは再生時間の先着順でソートされる。更に、取得されたテキストビデオペアに基づいて、相関性カテゴリタスクに対応するトレーニングサンプルと、一致性カテゴリタスクに対応するトレーニングサンプルとを構築することができる。
【0056】
例えば、何らかの方法により、ある文章とそれに対応するビデオ、即ち当該文章にマッチングされるビデオを取得することができる。さらに、当該文章に対してテキスト情報抽出や句ごとの分割などを行ってn個の句を得、このn個の句を用いてテキスト集合を構成することができる。また、当該文章に対応するビデオをSBDアルゴリズムを用いて分割してm個のビデオショットを得、このm個のビデオショットを用いてビデオ集合を構成することができる。さらに、前記テキスト集合と前記ビデオ集合を用いてテキストビデオペアを構成することができる。nとmはいずれも1より大きい正の整数である。
【0057】
実際の応用では、複数のbatchによって編成モデルを訓練することができる。ここで、各batchにおいて、取得されたP個のテキストビデオペアに基づいて、相関性カテゴリタスクに対応するトレーニングサンプルおよび一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ構築することができる。 すなわち、編成モデルの訓練過程では、主に2つの大きなタスクで制約しており、1つは相関性カテゴリタスクであり、もう1つは一致性カテゴリタスクである。相関性とはテキストとビデオが相関するかどうかを指し、一致性とは一連の連続したビデオショットのスタイルが一致するかどうかを指す。
【0058】
好ましくは、相関性カテゴリタスクに対応するトレーニングサンプルを構築する方法は、取得された各テキストビデオペアをポジティブサンプルとし、取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、当該テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを当該テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、当該テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、当該テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を当該テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と当該テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、前記ポジティブサンプルと前記ネガティブサンプルとを相関性カテゴリタスクに対応するトレーニングサンプルとすることを含んで良い。
【0059】
k1とk2の具体的な値はいずれも実際の必要に応じて決定することができる。また、生成されるネガティブサンプルの具体的な数も実際の必要に応じて決定することができる。
【0060】
例えば、何れかのテキストビデオペアaに対して、前記batchにおける他のテキストビデオペアからk1個のビデオショットをランダムに選出して良い。このk1個のビデオショットは、同一のテキストビデオペアから取得しても良く、複数の異なるテキストビデオペアから取得しても良い。更に、このk1個のビデオショットをテキストビデオペアaにおけるビデオ集合にランダムに挿入して補正後のビデオ集合を得、更にテキストビデオペアaにおけるテキスト集合及び補正後のビデオ集合を用いて一つのネガティブサンプルを構成することができる。或いは、ビデオ集合を補正せずにテキスト集合を補正しても良い。つまり、前記batchにおける他のテキストビデオペアからk2個の句をランダムに選出して良い。このk2個の句は、同一のテキストビデオペアから取得しても良く、複数の異なるテキストビデオペアから取得しても良い。更に、このk2個の句をテキストビデオペアaにおけるテキスト集合にランダムに挿入して補正後のテキスト集合を得、更に補正後のテキスト集合及びテキストビデオペアaにおけるビデオ集合を用いて一つのネガティブサンプルを構成することができる。
【0061】
好ましくは、一致性カテゴリタスクに対応するトレーニングサンプルを構築する方法は、取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないままと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、前記所定方法で処理された各テキストビデオペアを一致性カテゴリタスクに対応するトレーニングサンプルとすることを含んで良い。k3の具体的な値は実際の必要に応じて決定して良い。
【0062】
テキストビデオペアbを例にすると、その中のビデオ集合については、方法1、方法2、または方法3をランダムに選出して処理することができる。ここで、方法1では、前記ビデオ集合を変更しないままで良い。方法2では、前記batchにおける他のテキストビデオペアからk3個のビデオショットをランダムに選出して良い。このk3個のビデオショットは、同一のテキストビデオペアから取得しても良く、複数の異なるテキストビデオペアから取得しても良い。更にこのk3個のビデオショットで前記ビデオ集合におけるk3個のビデオショットをランダムに置き換えて良い。方法3では、前記ビデオ集合における一部のビデオショットの並べ順序をランダムに調整し、即ち前記ビデオ集合に対してランダムな位置更新を行って良い。
【0063】
以上の説明からわかるように、以上の処理により、取得されたテキストビデオペアに基づいて、異なるタスクのそれぞれに対応するトレーニングサンプルを容易かつ迅速に構築し、さらに前記トレーニングサンプルを利用して編成モデルを訓練することができるため、モデルの訓練効果等を向上させることができる。
【0064】
図4は、実現可能な一態様として、本開示に係る編成モデルの概略構造図である。
図4に示すように、テキストコードはトレーニングサンプルの中の句のテキストコードを表し、ビデオコードはトレーニングサンプルの中のビデオショットのビデオコードを表す。テキストコードとビデオコードはいずれもCLIPモデルで得ることができる。テキストコードとビデオコードによって情報符号化、タイプ符号化、位置符号化、トランスフォーマ(Transformer)、多層パーセプトロン(MLP、Multilayer Perceptron)などの処理を順次行うことができる。図面では句の数n、ビデオショットの数mとする。また、相関性コテゴリタスクは0又は1のような二項分類の結果を出力し、それぞれテキストとビデオ(句とビデオショット)は相関するか否かを示し、それに応じて第1ロス(loss1)を算出すると共に、句又はビデオショットの挿入位置を出力し、それに応じて第2ロス(loss2)を算出することができる。一致性カテゴリタスクは0、1又は2のような方法予測結果を出力し、それぞれ前記方法1、方法2、方法3のいずれを用いてビデオ集合を処理するかを示し、それに応じて第3ロス(loss3)を算出することができる。更に、loss1、loss2とloss3を組み合わせてモデルを更新することができる。モデルが収束するまで前記過程を繰り返して行い、訓練されたモデルを実際に応用し、例えば所望の目標ビデオの生成、各目標句に対応する候補素材から前記目標ビデオを生成するための目標素材を選出することなどに適用することができる。
【0065】
なお、前述の方法の実施形態について、説明の簡素化のため、実施例を一連の動作の組み合わせとして表現したが、当業者であればわかるように、本出願による幾らかのステップは他の順序に従って又は同時に実行することができるため、本出願は記述された動作の順序に制限されない。次に、当業者は、明細書に記述された実施例はいずれも好ましい実施例に該当し、関連する動作及びモジュールは必ずしも本出願によって必要とされないことを理解すべきである。また、ある実施形態において詳細に説明されていない部分については、他の実施形態における関連説明を参照することができる。
【0066】
以上は、方法の実施形態について説明したが、以下では、装置の実施形態を用いて、本開示に記載された技術案についてさらに説明する。
【0067】
図5は、本開示に係るビデオ生成装置の実施形態500の構成の概略図である。
図5に示すように、テキスト処理モジュール501と、素材検索モジュール502と、ビデオ生成モジュール503とを備える。
【0068】
テキスト処理モジュール501は、処理待ちテキスト情報を取得し、処理待ちテキスト情報を句ごとに分割して各目標句を得る。
【0069】
素材検索モジュール502は、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出する。
【0070】
ビデオ生成モジュール503は、各目標句について、処理待ちテキスト情報における当該目標句の出現位置に応じて当該目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、当該目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて目標ビデオを生成する。
【0071】
前記装置の実施形態に記載された技術案を採用すると、処理待ちテキスト情報に基づいて、テキスト分割、候補素材選出、目標素材選出、ビデオ生成などの一連の操作により、所望の目標ビデオを自動的に生成することができ、人件費と時間のコストを節約し、処理効率を向上させることができる。しかも任意の処理待ちテキスト情報に適用可能であり、広範な適用性などを有する。
【0072】
好ましくは、テキスト処理モジュール501は、ユーザが選出した文章を処理待ち文章とし、処理待ち文章に対してテキスト情報抽出を行い、抽出されたテキスト情報を処理待ちテキスト情報としてもよい。
【0073】
また、好ましくは、テキスト処理モジュール501は、処理待ち文章に対してテキスト情報抽出を行う前に、予め訓練された文章分類モデルを用いて処理待ち文章を分類し、分類結果に基づいて処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、処理待ち文章に対してテキスト情報抽出を行い、及び/又は、処理待ち文章に対してテキスト情報抽出を行った後に、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリング後のテキスト情報を処理待ちテキスト情報として良い。文章分類モデルは、構築されたトレーニングサンプルを用いて事前に訓練して得ることができる。
【0074】
テキスト処理モジュール501は、処理待ちテキスト情報について、それを句ごとに分割し、分割された各句をそれぞれ目標句としてもよい。例えば、処理待ちテキスト情報は、一句の終了を表す句読点に従って分割され、それに応じて各目標句は完全な句となる。
【0075】
その後、素材検索モジュール502は、各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出してもよい。素材ライブラリは、事前に構築されており、複数のビデオショット、即ちそれぞれ1つの完全なショットに対応する複数のショートビデオを含むことができる。
【0076】
好ましくは、素材検索モジュール502は、目標句毎に、当該目標句のテキストコードを取得し、素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度が最も大きいQ個のビデオショットを当該目標句に対応する候補素材とする処理をそれぞれ行って良い。Qは1より大きい正の整数である。
【0077】
好ましくは、素材検索モジュール502は、いずれかの目標句について、予め訓練されたCLIPモデルを用いて当該目標句のテキストコードをそれぞれ決定し、また、CLIPモデルを用いて素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定してもよい。
【0078】
ビデオ生成モジュール503は、各目標句に対応する候補素材がそれぞれ取得された後、さらに、候補素材の中から目標ビデオを生成するための目標素材を選出してもよい。
【0079】
好ましくは、ビデオ生成モジュール503は、各目標句を処理待ちテキスト情報における出現位置の先着順でソートし、その後に各目標句を前から後への順に順次トラバースし、毎回トラバースされた目標句に対して、処理待ち目標句とし、処理待ち目標句がソート後の首位の目標句であることに応じて、処理待ち目標句に対応する候補素材の中から、直接に処理待ち目標句に対応する目標素材を選出し、処理待ち目標句がソート後の首位の目標句ではないことに応じて、処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、処理待ち目標句に対応する候補素材の中から、処理待ち目標句に対応する目標素材を選出する処理をそれぞれ行って良い。
【0080】
好ましくは、処理待ち目標句がソート後の首位の目標句であれば、ビデオ生成モジュール503は、対応するビデオコードと処理待ち目標句のテキストコードとの類似度が大きい順に、処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定して良い。
【0081】
好ましくは、処理待ち目標句がソート後の首位の目標句ではない場合に、ビデオ生成モジュール503は、処理待ち目標句に対応する各候補素材に対して、直近に得られた、処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、当該候補素材に対応する、第1シーケンスの末尾に当該候補素材のビデオコードを追加することにより得られる第3シーケンス及び第2シーケンスの末尾に処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、第3シーケンス及び第4シーケンスに基づいて当該候補素材の総合スコアを決定し、各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定し、処理待ち目標句に対応する目標素材のビデオコードを第1シーケンスの末尾に追加して更新された第1シーケンスを得、処理待ち目標句のテキストコードを第2シーケンスの末尾に追加して更新された第2シーケンスを得て良い。
【0082】
好ましくは、ソートされた後に首位にならない任意の目標句(処理待ち目標句)に対応する任意の候補素材に対して、ビデオ生成モジュール503は、当該候補素材のビデオコードと処理待ち目標句のテキストコードとの類似度を取得し、当該候補素材に対応する第3シーケンスと第4シーケンスとのシーケンス相関性スコアおよび第3シーケンスのシーケンス一致性スコアを取得し、さらに、前記類似度、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを合わせて当該候補素材の総合スコアを決定することができる。
【0083】
例えば、前記類似度、前記シーケンス相関性スコア、および前記シーケンス一致性スコアをそれぞれ対応する重みに乗算し、得られた3つの積を加算し、その加算値を当該候補素材の総合スコアとすることができる。
【0084】
好ましくは、ビデオ生成モジュール503は、第3シーケンスおよび第4シーケンスに基づいて、予め訓練された編成モデルを用いて、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを決定してもよい。
【0085】
前述したように、処理待ち目標句に対して、それに対応する各候補素材をソートした後、ソート結果に基づいて処理待ち目標句に対応する目標素材を決定することができる。好ましくは、ビデオ生成モジュール503は、ソート後の上位L個の候補素材を処理待ち目標句に対応する目標素材として良い。Lは正の整数である。Lの値は固定値であるか、又は、選出された目標素材の総時間が処理待ち目標句のTTS音声時間に一致するという原則に基づいて決定された値である。
【0086】
各目標句に対応する目標素材はそれぞれ取得された後、ビデオ生成モジュール503は、目標素材に基づいて目標ビデオを生成してよい。好ましくは、ビデオ生成モジュール503は、目標素材に応じて、FFMPEG技術によってレンダリングすることにより目標ビデオを得るができる。
【0087】
図6は本開示に係る編成モデル取得装置の実施形態600の構成の概略図である。
図6に示すように、サンプル構築モジュール601とモデル訓練モジュール602とを備える。
【0088】
サンプル構築モジュール601は、いずれかのトレーニングbatchにおいて、編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得する。
【0089】
モデル訓練モジュール602は、前記トレーニングサンプルを用いて編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットである。
【0090】
上述した装置の実施形態の技術案を採用することで、処理待ちテキスト情報に基づいて、テキスト分割、候補素材選出、編成モデルによる目標素材選出、ビデオ生成などの一連の操作により、所望の目標ビデオを自動的に生成することができるので、人件費と時間のコストを節約し、処理効率等を向上させることができる。
【0091】
好ましくは、サンプル構築モジュール601は、前記batchに対応するP個のテキストビデオペアを取得することができる。Pは1より大きい正の整数であり、具体的な値は実際の必要に応じて設定可能である。各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含んで良い。前記少なくとも2つの句は同一のテキスト情報から取得し且つテキスト情報における出現位置の先着順でソートされ、テキスト集合における各句はそれぞれビデオ集合における少なくとも1つのビデオショットに対応し、且つビデオ集合における各ビデオショットは再生時間の先着順でソートされる。更に、取得されたテキストビデオペアに基づいて、相関性カテゴリタスクに対応するトレーニングサンプルと、一致性カテゴリタスクに対応するトレーニングサンプルとを構築することができる、
【0092】
好ましくは、サンプル構築モジュール601が相関性カテゴリタスクに対応するトレーニングサンプルを構築する方法は、取得された各テキストビデオペアをポジティブサンプルとし、取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、当該テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを当該テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、当該テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、当該テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を当該テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と当該テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、前記ポジティブサンプルと前記ネガティブサンプルとを相関性カテゴリタスクに対応するトレーニングサンプルとすることを含んで良い、
【0093】
また、好ましくは、サンプル構築モジュール601が一致性カテゴリタスクに対応するトレーニングサンプルを構築する方法は、取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないままと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、前記所定方法で処理された各テキストビデオペアを一致性カテゴリタスクに対応するトレーニングサンプルとすることを含んで良い。
【0094】
図5及び
図6に示す装置の実施形態の具体的なワークフローは、上述した方法の実施形態における関連説明を参照することができるので、ここでは詳しく説明しない。
【0095】
要するに、本開示に記載の技術案を採用することで、所望の目標ビデオを自動的に生成することができ、人件費や時間コストを節約し、処理効率を向上させるとともに、生成された目標ビデオのビデオ効果等を確保し、ビデオエコの発展を効果的に促進することができる。
【0096】
本出願に記載された技術案は、人工知能の分野に適用することができ、特にディープラーニング、大規模モデル、自然言語処理およびコンピュータビジョンのような分野に関する。人工知能は、コンピュータが人間の思考過程と知能行為(例えば学習、推理、思考、計画など)をシミュレートすることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術の両方がある。人工知能のハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/ディープラーニング、ビッグデータ処理技術、知識マップ技術等のいくつかの方向を含む。
【0097】
本開示に記載された実施形態におけるテキスト情報とビデオショット等は、特定のユーザを対象としたものではなく、特定のユーザの個人情報を反映したものではない。本開示の技術案において、関わるユーザの個人情報の取得、記憶、応用、加工、伝送、提供及び配信等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0098】
本開示の実施形態によれば、本開示は更に電子デバイス、可読記憶媒体、およびコンピュータプログラム製品を提供する。
【0099】
図7は、本開示の実施形態を実施するために使用され得る電子デバイス700の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続および関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載および/または要求された本開示の実現を制限することではない。
【0100】
図7に示すように、デバイス700は、読み取り専用メモリ(ROM)702に記憶されたコンピュータプログラム、または記憶手段708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、様々な適切な動作および処理を実行することができる演算手段701を含む。RAM703には、デバイス700の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段701、ROM702およびRAM703は、バス704を介して接続されている。入出力(I/O)インターフェース705もバス704に接続されている。
【0101】
例えばキーボード、マウス等の入力手段706と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段707と、例えば磁気ディスク、光ディスク等の記憶手段708と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段709を含むデバイス700の複数の構成要素は、I/Oインターフェース705に接続される。通信手段709は、デバイス700が例えばインターネットのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0102】
演算手段701は、処理能力および演算能力を有する様々な汎用および/または専用の処理コンポーネントであってよい。演算手段701のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段701は、上述した様々な方法および処理、例えば本開示に記載の方法を実行する。例えば、幾つかの実施形態では、本開示に記載の方法は、例えば記憶手段708のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部または全部は、ROM702および/または通信手段709を介してデバイス700にロードおよび/またはインストールすることができる。コンピュータプログラムがRAM703にロードされ、演算手段701により実行されると、本開示に記載の方法の1つまたは複数のステップを実行することができる。代替的に、他の実施形態では、演算手段701は、本開示に記載の方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0103】
本明細書で前述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムで実施されることを含んで良い。当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる。当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置にデータおよび命令を転送することができる。
【0104】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供することにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび/またはブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシンまたはサーバ上で実行されても良い。
【0105】
本開示の句脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置またはデバイスにより使用され、或いは命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、または半導体的なシステム、装置またはデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つまたは複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0106】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、または触覚入力を含む)で受信して良い。
【0107】
本明細書に記載されたシステムおよび技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0108】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであっても良く、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0109】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0110】
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。
(他の可能な項目)
(項目1)
ビデオ生成方法であって、
処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得、
各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出し、
各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成する
ことを含む方法。
(項目2)
前記処理待ちテキスト情報を取得することは、
ユーザが選出した文章を処理待ち文章とし、前記処理待ち文章に対してテキスト情報抽出を行い、抽出されたテキスト情報を前記処理待ちテキスト情報とすることを含む
項目1に記載の方法。
(項目3)
前記処理待ち文章に対してテキスト情報抽出を行うことの前に、予め訓練された文章分類モデルを用いて前記処理待ち文章を分類し、分類結果に基づいて前記処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、前記処理待ち文章に対してテキスト情報抽出を行うこと、
前記処理待ち文章に対してテキスト情報抽出を行うことの後に、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリングされたテキスト情報を前記処理待ちテキスト情報とすること、
のいずれか又は全てをさらに含む
項目2に記載の方法。
(項目4)
前記各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から各目標句にマッチングされるビデオショットをそれぞれ選出することは、
いずれかの目標句について、前記目標句のテキストコードをそれぞれ取得し、前記素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度の最も大きいQ個(Qは1より大きい正の整数である)のビデオショットを前記目標句に対応する候補素材とする、処理をそれぞれ行う、
ことを含む項目1に記載の方法。
(項目5)
前記目標句のテキストコードを取得することは、予め訓練されたクロスモーダル対比学習モデルを用いて、前記目標句のテキストコードを決定することを含み、
前記クロスモーダル対比学習モデルを用いて、前記素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定することをさらに含む項目4に記載の方法。
(項目6)
前記処理待ちテキスト情報における前記目標句の出現位置に応じて、前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出することは、
各目標句を前記処理待ちテキスト情報における出現位置の先着順でソートし、各目標句を前から後への順に順次トラバース(Traversal)し、
毎回トラバースされた目標句に対して、処理待ち目標句とし、前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出し、前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出する、処理をそれぞれ行う、
ことを含む項目4に記載の方法。
(項目7)
前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出することは、
対応するビデオコードと、前記処理待ち目標句のテキストコードとの類似度の大きい順に、前記処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて、前記処理待ち目標句に対応する目標素材を決定する、
ことを含む項目6に記載の方法。
(項目8)
前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出することは、
前記処理待ち目標句に対応する各候補素材に対して、直近に得られた、前記処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、前記処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、前記候補素材に対応する、前記第1シーケンスの末尾に前記候補素材のビデオコードを追加することにより得られる第3シーケンス及び前記第2シーケンスの末尾に前記処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、前記第3シーケンス及び前記第4シーケンスに基づいて前記候補素材の総合スコアを決定し、
各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定し、前記処理待ち目標句に対応する目標素材のビデオコードを前記第1シーケンスの末尾に追加して更新された第1シーケンスを得、前記処理待ち目標句のテキストコードを前記第2シーケンスの末尾に追加して更新された第2シーケンスを得る、
ことを含む項目6に記載の方法。
(項目9)
前記第3シーケンスおよび前記第4シーケンスに基づいて前記候補素材の総合スコアを決定することは、
前記候補素材のビデオコードと前記処理待ち目標句のテキストコードとの類似度を取得し、前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコア及び前記第3シーケンスのシーケンス一致性スコアを取得し、
前記類似度、前記シーケンス相関性スコア、及び前記シーケンス一致性スコアと合わせて前記候補素材の総合スコアを決定する、
ことを含む項目8に記載の方法。
(項目10)
前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコアおよび前記第3シーケンスのシーケンス一致性スコアを取得することは、
前記第3シーケンスおよび前記第4シーケンスに基づいて、予め訓練された編成モデルを用いて、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを決定する、
ことを含む項目9に記載の方法。
(項目11)
前記ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定することは、ソート後の上位L個の候補素材を前記処理待ち目標句に対応する目標素材とすることを含み、
前記Lは正の整数であり、前記Lの値は固定値であるか、又は、選出された目標素材の総時間が前記処理待ち目標句のテキスト-音声TTS音声時間に一致するという原則に基づいて決定された値である、
項目7又は8に記載の方法。
(項目12)
各目標句に対応する目標素材に基づいて前記目標ビデオを生成することは、前記目標素材に基づいて、クイックピクチャエキスパート技術によってレンダリングすることにより前記目標ビデオを得ることを含む、
項目1~10のいずれか一項に記載の方法。
(項目13)
編成モデルの取得方法であって、
いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得し、
前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットである、
ことを含む方法。
(項目14)
前記相関性カテゴリタスクに対応するトレーニングサンプル及び前記一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得することは、
前記トレーニングバッチに対応するP個(Pは1より大きい正の整数である)のテキストビデオペアを取得し、各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含み、前記少なくとも2つの句は同一のテキスト情報から取得し且つ前記テキスト情報における出現位置の先着順でソートされ、前記テキスト集合における各句はそれぞれ前記ビデオ集合における少なくとも1つのビデオショットに対応し、且つ前記ビデオ集合における各ビデオショットは再生時間の先着順でソートされ、
取得されたテキストビデオペアに基づいて、前記相関性カテゴリタスクに対応するトレーニングサンプルと、前記一致性カテゴリタスクに対応するトレーニングサンプルとを構築する、
ことを含む項目13に記載の方法。
(項目15)
前記相関性カテゴリタスクに対応するトレーニングサンプルを構築することは、
取得された各テキストビデオペアをポジティブサンプルとし、
取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、前記テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを前記テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、前記テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、前記テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を前記テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と前記テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、
前記ポジティブサンプルと前記ネガティブサンプルとを前記相関性カテゴリタスクに対応するトレーニングサンプルとする、
ことを含む項目14に記載の方法。
(項目16)
前記一致性カテゴリタスクに対応するトレーニングサンプルを構築することは、
取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないまま維持することと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、
前記所定方法で処理された各テキストビデオペアを前記一致性カテゴリタスクに対応するトレーニングサンプルとする、
ことを含む項目14又は15に記載の方法。
(項目17)
ビデオ生成装置であって、
処理待ちテキスト情報を取得し、前記処理待ちテキスト情報を句ごとに分割して各目標句を得るテキスト処理モジュールと、
各目標句に対応する候補素材として、素材ライブラリ内の各ビデオショットの中から、各目標句にマッチングされるビデオショットをそれぞれ選出する素材検索モジュールと、
各目標句について、前記処理待ちテキスト情報における前記目標句の出現位置に応じて前記目標句に対応するスクリーニング方式を決定し、前記スクリーニング方式に従って、前記目標句に対応する候補素材の中から所望の目標ビデオを生成するための目標素材を選出する処理をそれぞれ行い、各目標句に対応する目標素材に基づいて前記目標ビデオを生成するビデオ生成モジュールと、
を備える装置。
(項目18)
前記テキスト処理モジュールは、ユーザが選出した文章を処理待ち文章とし、前記処理待ち文章に対してテキスト情報抽出を行い、抽出されたテキスト情報を前記処理待ちテキスト情報とする項目17に記載の装置。
(項目19)
前記テキスト処理モジュールは、更に、
前記処理待ち文章に対してテキスト情報抽出を行う前に、予め訓練された文章分類モデルを用いて前記処理待ち文章を分類し、分類結果に基づいて前記処理待ち文章が所定の文章種別に属しないと判定されたことに応じて、前記処理待ち文章に対してテキスト情報抽出を行い、及び/又は
前記処理待ち文章に対してテキスト情報抽出を行った後、抽出されたテキスト情報に対して無効情報フィルタリングを行い、フィルタリングされたテキスト情報を前記処理待ちテキスト情報とする、
項目18に記載の装置。
(項目20)
前記素材検索モジュールは、
いずれかの目標句について、前記目標句のテキストコードをそれぞれ取得し、前記素材ライブラリ内の各ビデオショットのビデオコードと前記テキストコードとの類似度をそれぞれ取得し、類似度の最も大きいQ個(Qは1より大きい正の整数である)のビデオショットを前記目標句に対応する候補素材とする処理をそれぞれ行う、項目17に記載の装置。
(項目21)
前記素材検索モジュールは、予め訓練されたクロスモーダル対比学習モデルを用いて、前記目標句のテキストコードを決定し、
前記素材検索モジュールは、さらに、前記クロスモーダル対比学習モデルを用いて、前記素材ライブラリ内の各ビデオショットのビデオコードをそれぞれ決定する項目20に記載の装置。
(項目22)
前記ビデオ生成モジュールは、
各目標句を前記処理待ちテキスト情報における出現位置の先着順でソートし、各目標句を前から後への順に順次トラバースし、毎回トラバースされた目標句に対して、処理待ち目標句とし、前記処理待ち目標句がソート後の首位の目標句であることに応じて、前記処理待ち目標句に対応する候補素材の中から、直接に前記処理待ち目標句に対応する目標素材を選出し、前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句の前に位置する各目標句及びそれに対応する目標素材と合わせて、前記処理待ち目標句に対応する候補素材の中から、前記処理待ち目標句に対応する目標素材を選出する処理をそれぞれ行う、
項目20に記載の装置。
(項目23)
前記ビデオ生成モジュールは、
前記処理待ち目標句がソート後の首位の目標句であることに応じて、対応するビデオコードと、前記処理待ち目標句のテキストコードとの類似度の大きい順に、前記処理待ち目標句に対応する各候補素材をソートし、ソート結果に基づいて、前記処理待ち目標句に対応する目標素材を決定する、
項目22に記載の装置。
(項目24)
前記ビデオ生成モジュールは、
前記処理待ち目標句がソート後の首位の目標句ではないことに応じて、前記処理待ち目標句に対応する各候補素材に対して、直近に得られた、前記処理待ち目標句の前に位置する各目標句に対応する目標素材のビデオコードを含む第1シーケンスと、前記処理待ち目標句の前に位置する各目標句のテキストコードを含む第2シーケンスに基づいて、前記候補素材に対応する、前記第1シーケンスの末尾に前記候補素材のビデオコードを追加することにより得られる第3シーケンス及び前記第2シーケンスの末尾に前記処理待ち目標句のテキストコードを追加することにより得られる第4シーケンスをそれぞれ生成し、前記第3シーケンス及び前記第4シーケンスに基づいて前記候補素材の総合スコアを決定し、
各候補素材を総合スコアの高い順にソートし、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定し、前記処理待ち目標句に対応する目標素材のビデオコードを前記第1シーケンスの末尾に追加して更新された第1シーケンスを得、前記処理待ち目標句のテキストコードを前記第2シーケンスの末尾に追加して更新された第2シーケンスを得る、
項目22に記載の装置。
(項目25)
前記ビデオ生成モジュールは、
前記候補素材のビデオコードと前記処理待ち目標句のテキストコードとの類似度を取得し、前記第3シーケンスと前記第4シーケンスとのシーケンス相関性スコア及び前記第3シーケンスのシーケンス一致性スコアを取得し、前記類似度、前記シーケンス相関性スコア、及び前記シーケンス一致性スコアと合わせて前記候補素材の総合スコアを決定する、
項目24に記載の装置。
(項目26)
前記ビデオ生成モジュールは、
前記第3シーケンスおよび前記第4シーケンスに基づいて、予め訓練された編成モデルを用いて、前記シーケンス相関性スコアおよび前記シーケンス一致性スコアを決定する、
項目25に記載の装置。
(項目27)
前記ビデオ生成モジュールは、ソート結果に基づいて前記処理待ち目標句に対応する目標素材を決定する場合に、ソート後の上位L個の候補素材を前記処理待ち目標句に対応する目標素材とし、
前記Lは正の整数であり、前記Lの値は固定値であるか、又は、選出された目標素材の総時間が前記処理待ち目標句のテキスト-音声TTS音声時間に一致するという原則に基づいて決定された値である、項目23又は24に記載の装置。
(項目28)
前記ビデオ生成モジュールは、前記目標素材に基づいて、クイックピクチャエキスパート技術によってレンダリングすることにより前記目標ビデオを得る、項目17~26のいずれか一項に記載の装置。
(項目29)
編成モデルの取得装置であって、
いずれかのトレーニングバッチにおいて、前記編成モデルに対応するタスクである相関性カテゴリタスクに対応するトレーニングサンプル、及び前記編成モデルに対応するタスクである一致性カテゴリタスクに対応するトレーニングサンプルをそれぞれ取得するサンプル構築モジュールと、
前記トレーニングサンプルを用いて前記編成モデルを訓練し、訓練された編成モデルは、所望の目標ビデオを生成する際に、各目標句に対応する候補素材の中から前記目標ビデオを生成するための目標素材を選出するように構成され、前記目標句は処理待ちテキスト情報を句ごとに分割して得られたものであり、何れかの目標句に対応する候補素材は、それぞれ素材ライブラリ内の各ビデオショットの中から選出された前記目標句にマッチングされるビデオショットであるモデル訓練モジュールと、
を備える装置。
(項目30)
前記サンプル構築モジュールは、
前記トレーニングバッチに対応するP個(Pは1より大きい正の整数である)のテキストビデオペアを取得し、各テキストビデオペアはそれぞれ少なくとも2つの句からなるテキスト集合と少なくとも2つのビデオショットからなるビデオ集合とを含み、前記少なくとも2つの句は同一のテキスト情報から取得し且つ前記テキスト情報における出現位置の先着順でソートされ、前記テキスト集合における各句はそれぞれ前記ビデオ集合における少なくとも1つのビデオショットに対応し、且つ前記ビデオ集合における各ビデオショットは再生時間の先着順でソートされ、
取得されたテキストビデオペアに基づいて、前記相関性カテゴリタスクに対応するトレーニングサンプルと、前記一致性カテゴリタスクに対応するトレーニングサンプルとを構築する、
項目29に記載の装置。
(項目31)
前記サンプル構築モジュールは、
取得された各テキストビデオペアをポジティブサンプルとし、
取得されたいずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk1(k1は正の整数であり、前記テキストビデオペア内のビデオ集合におけるビデオショットの数より小さい)個のビデオショットをランダムに選出し、選出されたk1個のビデオショットを前記テキストビデオペア内のビデオ集合に挿入して補正後のビデオ集合を取得し、前記テキストビデオペア内のテキスト集合および補正後のビデオ集合を用いてネガティブサンプルを構成し、或いは、いずれかのテキストビデオペアに対して、他のテキストビデオペアからそれぞれk2(k2は正の整数であり、前記テキストビデオペア内のテキスト集合における句の数より小さい)個の句をランダムに選出し、選出されたk2個の句を前記テキストビデオペア内のテキスト集合に挿入して補正後のテキスト集合を取得し、補正後のテキスト集合と前記テキストビデオペア内のビデオ集合を用いてネガティブサンプルを構成し、
前記ポジティブサンプルと前記ネガティブサンプルとを前記相関性カテゴリタスクに対応するトレーニングサンプルとする、
項目30に記載の装置。
(項目32)
前記サンプル構築モジュールは、
取得された各テキストビデオペアについて、その中のビデオ集合に対して、前記ビデオ集合を変更しないままと、他のテキストビデオペアからk3(k3は正の整数であり、前記ビデオ集合におけるビデオショットの数よりも小さい)個のビデオショットをランダムに選出し、選出されたk3個のビデオショットを前記ビデオ集合におけるk3個のビデオショットに置き換えることと、前記ビデオ集合における一部のビデオショットの並べ順番をランダムに調整することとの3つの所定方法のいずれかをランダムに選出して処理し、
前記所定方法で処理された各テキストビデオペアを前記一致性カテゴリタスクに対応するトレーニングサンプルとする、
項目30又は31に記載の装置。
(項目33)
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに項目1~16のいずれか1項に記載の方法を実行させる電子デバイス。
(項目34)
コンピュータに項目1~16のいずれか1項に記載の方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体。
(項目35)
プロセッサにより実行されると、項目1~16のいずれか1項に記載の方法を実現するコンピュータプログラム。