特許第6967059号(P6967059)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ ユーエスエイ エルエルシーの特許一覧 ▶ バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッドの特許一覧

特許6967059映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6967059
(24)【登録日】2021年10月26日
(45)【発行日】2021年11月17日
(54)【発明の名称】映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
   H04N 5/262 20060101AFI20211108BHJP
   G10L 13/00 20060101ALI20211108BHJP
   G10L 13/08 20130101ALI20211108BHJP
【FI】
   H04N5/262
   G10L13/00 100S
   G10L13/08 122
【請求項の数】65
【外国語出願】
【全頁数】56
(21)【出願番号】特願2019-219178(P2019-219178)
(22)【出願日】2019年12月3日
(65)【公開番号】特開2020-174342(P2020-174342A)
(43)【公開日】2020年10月22日
【審査請求日】2020年1月8日
(31)【優先権主張番号】201910277167.5
(32)【優先日】2019年4月8日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】516357421
【氏名又は名称】バイドゥ ユーエスエイ エルエルシー
【氏名又は名称原語表記】Baidu USA LLC
(73)【特許権者】
【識別番号】518091956
【氏名又は名称】バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド
(74)【代理人】
【識別番号】100179969
【弁理士】
【氏名又は名称】駒井 慎二
(74)【代理人】
【識別番号】100173532
【弁理士】
【氏名又は名称】井上 彰文
(72)【発明者】
【氏名】ティエン ハオ
(72)【発明者】
【氏名】ルー ダーミン
(72)【発明者】
【氏名】チェン シー
(72)【発明者】
【氏名】ワン ジェフ チェン ユー
【審査官】 西谷 憲人
(56)【参考文献】
【文献】 特開平09−237486(JP,A)
【文献】 特開2005−167452(JP,A)
【文献】 特開2002−185928(JP,A)
【文献】 特開2008−039845(JP,A)
【文献】 特開2014−112280(JP,A)
【文献】 国際公開第02/037841(WO,A1)
【文献】 中国特許出願公開第108334628(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/262
G10L 13/00
G10L 13/08
(57)【特許請求の範囲】
【請求項1】
各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するステップと、
音声合成技術を利用して、前記ナレーションにおける各段落に対応する音声を生成するステップと、
前記目標ニュースクラスタに含まれる映像と画像に基づき、前記ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するステップと、
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するステップと、を含む映像を生成するための方法。
【請求項2】
前記方法は、
目標ニュースクラスタのナレーションを確定する前に、目標ニュースクラスタを確定するステップをさらに含む請求項1に記載の方法。
【請求項3】
前記目標ニュースクラスタを確定するステップは、
最近の第1所定持続時間内に生成されたニュースからなる少なくとも1つのニュースクラスタを取得することと、
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定することと、を含む請求項2に記載の方法。
【請求項4】
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定することは、
前記少なくとも1つのニュースクラスタのそれぞれを前記目標ニュースクラスタとして確定することを含む請求項3に記載の方法。
【請求項5】
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定することは、
前記少なくとも1つのニュースクラスタのそれぞれを、該ニュースクラスタにおける最近の第2所定持続時間内に生成されたニュースの数の降順に従ってソートすることと、
前記少なくとも1つのニュースクラスタのうち、所定ソート範囲内でソートされた各ニュースクラスタを前記目標ニュースクラスタとして確定することと、を含む請求項3に記載の方法。
【請求項6】
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定することは、
前記少なくとも1つのニュースクラスタのうち、高品質ニュースクラスタのそれぞれを前記目標ニュースクラスタとして確定することを含み、ここで、高品質ニュースクラスタにおいて、ニュースに含まれる画像の数を所定の最小画像数より大きくし、且つ、ニュースに含まれる映像の数を所定の最小映像数より大きくする請求項3に記載の方法。
【請求項7】
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定することは、
前記少なくとも1つのニュースクラスタのそれぞれに対して、該ニュースクラスタにおける各ニュースに基づいて、該ニュースクラスタに対応するニュースイベントトピックス、及び、確定されたニュースイベントトピックスの現在の出現頻度を確定することと、
前記少なくとも1つのニュースクラスタのそれぞれに対応するニュースイベントトピックスの現在の出現頻度から該ニュースイベントトピックスの過去の出現頻度を引いた頻度差を確定することと、
前記少なくとも1つのニュースクラスタのうち、対応するニュースイベントトピックスの頻度差が所定の頻度差閾値よりも大きいニュースクラスタを、前記目標ニュースクラスタとして確定することと、を含む請求項3に記載の方法。
【請求項8】
前記目標ニュースクラスタのナレーションを確定するステップは、
前記目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定することと、
前記目標ニュースクラスタにおけるナレーションの生成に適する点数が最も高いニュースを目標ニュースとして確定することと、
前記目標ニュースに基づいて、前記目標ニュースクラスタのナレーションを生成することと、を含む請求項1に記載の方法。
【請求項9】
前記目標ニュースに基づいて、前記目標ニュースクラスタのナレーションを生成することは、
前記目標ニュースに含まれるテキストを目標テキストとして確定することと、
前記目標テキストに含まれるナレーションに不適切なテキストを削除することであって、ここで、ナレーションに不適切なテキストとは、予め確定されたナレーションに不適切なテキストのセットにおけるテキストであることと、
前記目標テキストに含まれる書き言葉を同じ意味の話し言葉に置き換えることと、
前記目標テキストから要約を抽出することにより得られた要約テキストを前記目標ニュースクラスタのナレーションとして確定することと、を含む請求項8に記載の方法。
【請求項10】
前記目標テキストから要約を抽出することにより得られた要約テキストを前記目標ニュースクラスタのナレーションとして確定することは、
所定の最大話速と所定の最大音声持続時間に従ってナレーションの最大文字数を確定することと、
前記目標テキストから要約を抽出し、且つ抽出された要約テキストの文字数を前記ナレーションの最大文字数より少なくすることと、
抽出された要約テキストを前記目標ニュースクラスタのナレーションとして確定することと、を含む請求項9に記載の方法。
【請求項11】
前記目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定することは、
該ニュースの少なくとも1種の特徴における特徴値を抽出することと、
抽出された少なくとも1種の特徴値に基づき、該ニュースのナレーションの生成に適する点数を確定することと、を含む請求項8に記載の方法。
【請求項12】
前記目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定することは、
該ニュースに含まれるテキストを予めトレーニングされた点数計算モデルに入力して、該ニュースのナレーションの生成に適する点数を取得することを含み、ここで、前記点数計算モデルは、テキストと、テキストの、ナレーションの生成に適する点数との対応関係を特徴付けることに用いられる請求項8に記載の方法。
【請求項13】
前記目標ニュースクラスタに含まれる映像と画像に基づき、前記ナレーションに対応する候補素材リソースセットを確定するステップは、
前記目標ニュースクラスタに含まれる映像と画像を、前記ナレーションに対応する候補素材リソースセットとして確定することを含む請求項1に記載の方法。
【請求項14】
前記目標ニュースクラスタに含まれる映像と画像に基づき、前記ナレーションに対応する候補素材リソースセットを確定するステップは、
前記目標ニュースクラスタに含まれる各映像に対して意味的分割を行うことにより得られた少なくとも1つの映像セグメントを目標映像セットとして確定することと、
前記目標ニュースクラスタに含まれる各画像を目標画像セットとして確定することと、
前記目標映像セットと前記目標画像セットに基づき、前記ナレーションに対応する候補素材リソースのセットを確定することと、を含み、ここで、候補素材リソースは映像又は画像である請求項1に記載の方法。
【請求項15】
前記目標映像セットと前記目標画像セットに基づき、前記ナレーションに対応する候補素材リソースセットを確定することは、
前記目標映像セットと前記目標画像セットを合併して前記ナレーションに対応する候補素材リソースセットを取得することを含む請求項14に記載の方法。
【請求項16】
前記目標映像セットと前記目標画像セットに基づき、前記ナレーションに対応する候補素材リソースセットを確定することは、
前記目標映像セットにおける各目標映像に対して、該目標映像を予めトレーニングされたビビット映像検出モデルに入力して、該目標映像に対応するビビット映像検出結果を取得し、ここで、前記ビビット映像検出モデルは、映像と、ビビット映像であるか否かを示すためのビビット映像検出結果との対応関係を特徴付けることに用いられることと、
前記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示すことに用いられた目標映像を削除することと、
前記目標映像セットと前記目標画像セットを合併して前記ナレーションに対応する候補素材リソースセットを取得することと、を含む請求項14に記載の方法。
【請求項17】
前記方法は、前記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示すことに用いられた目標映像を削除した後、前記目標映像セットにおける映像再生持続時間が所定の最小候補映像持続時間よりも短い映像を削除するステップをさらに含む請求項16に記載の方法。
【請求項18】
前記ナレーションに対応する映像における画像の再生持続時間は、所定の画像再生持続時間であり、及び、
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
前記ナレーションにおける各段落に対し、該段落と前記候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定することと、
前記ナレーションにおける各段落と各前記候補素材リソースとのマッチング度、各前記候補素材リソースの再生持続時間及び前記ナレーションにおける各段落のテキストの長さに基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することと、を含む請求項1に記載の方法。
【請求項19】
前記ナレーションにおける各段落に対して、該段落と前記候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定することは、
前記ナレーションにおける各段落に対して、該段落に対応する意味ベクトルを確定することと、
前記候補素材リソースセットにおける各候補素材リソースに対して、該候補素材リソースに対応する意味ベクトルを確定することと、
前記ナレーションにおける各段落に対応する意味ベクトルと前記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定することと、を含む請求項18に記載の方法。
【請求項20】
前記ナレーションにおける各段落に対応する意味ベクトルと前記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定することは、
該候補素材リソースが画像であると判定されたことに応答して、該画像に対して意味的分割を行い、該画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて該候補素材リソースに対応する意味ベクトルを確定することと、
該候補素材リソースが映像であると判定されたことに応答して、該映像に対してダウンサンプリングを行い、少なくとも1つのサンプル画像を得ることと、
前記少なくとも1つのサンプル画像のそれぞれに対して、該サンプル画像に対して意味的分割を行い、該サンプル画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果のそれぞれに対応する意味ベクトルに基づいて該サンプル画像に対応する意味ベクトルを確定することと、
各前記サンプル画像に対応する意味ベクトルに基づき、該候補素材リソースに対応する意味ベクトルを確定することと、を含む請求項19に記載の方法。
【請求項21】
前記ナレーションにおける各段落と各前記候補素材リソースとのマッチング度、各前記候補素材リソースの再生持続時間及び前記ナレーションにおける各段落のテキストの長さに基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することは、
前記ナレーションにおける各段落に対して、第1プリセット最適化アルゴリズムを利用し、該段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大であることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む請求項18に記載の方法。
【請求項22】
前記ナレーションにおける各段落と各前記候補素材リソースとのマッチング度、各前記候補素材リソースの再生持続時間及び前記ナレーションにおける各段落のテキストの長さに基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することは、
第2プリセット最適化アルゴリズムを利用し、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと対応する段落とのマッチング度の合計が最大であることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む請求項18に記載の方法。
【請求項23】
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる請求項21又は22に記載の方法。
【請求項24】
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するステップは、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第1音声を得ることと、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第1映像を取得し、ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であることと、
得られた第1音声と第1映像を、それぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定することと、を含む請求項1に記載の方法。
【請求項25】
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するステップは、
前記ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、前記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間の間の対応関係を特徴付けることに用いられることと、
前記ナレーションにおける最後の段落以外の各段落に対して、前記ナレーションにおける該段落の前から後への順序に基づき、段落映像クリップステップを実行することであって、該段落映像クリップステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を映像クリップ持続時間として確定し、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、該段落に対応する映像を取得し、該段落に対応する映像末尾から前記映像クリップ持続時間分の映像を切り抜くことを行うことと、
前記ナレーションにおける最後の段落に対応する候補素材リソースシーケンスの中の各候補素材リソースを順次接続して、最後の段落に対応する映像を得ることと、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第2映像を得ることと、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第2音声を得ることと、
得られた第2音声と第2映像を、それぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定することと、を含む請求項1に記載の方法。
【請求項26】
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するステップは、
前記ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、前記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間の間の対応関係を特徴付けることに用いられることと、
前記ナレーションにおける最後の段落以外の各段落に対して、前記ナレーションにおける該段落の前から後への順序に基づき、段落音声延長ステップを実行することであって、該段落音声延長ステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を音声延長時間長として確定し、該段落に対応する音声末尾に、確定された音声延長時間長の無音再生持続時間を追加することを行うことと、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第3音声を得ることと、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第3映像を取得し、ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であることと、
得られた第3音声と第3映像をそれぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定することと、を含む請求項1に記載の方法。
【請求項27】
前記方法は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成する前に、前記ナレーションにおける各段落に対して、単色素材リソース検出ステップを実行するステップをさらに含み、
ここで、前記単色素材リソース検出ステップは、
該段落に対応する候補素材リソースシーケンスにおける各素材リソースに対して、該素材リソースが単色画像フレームの存在する映像であると判定されたことに応答して、該素材リソースにおける単色画像フレームを削除することと、
該素材リソースが単色画像であると判定されたことに応答して、該段落に対応する候補素材リソースシーケンスから該素材リソースを削除することを行う請求項1に記載の方法。
【請求項28】
前記方法は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成する前に、
前記ナレーションにおける各段落に対して整列検出ステップを実行するステップをさらに含み、
ここで、該整列検出ステップは、
該段落に対応する音声の再生持続時間が該段落に対応する候補素材リソースシーケンスの再生持続時間より長いと判定されたことに応答して、該段落に対応する候補素材リソースシーケンスにおける画像タイプの候補素材リソースの再生持続時間を延長するか、或いは、前記候補素材リソースセットから候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスの中に追加し、それにより、該段落に対応する音声の再生持続時間を、該段落に対応する候補素材リソースシーケンスの再生持続時間に等しくすることを行う請求項27に記載の方法。
【請求項29】
前記方法は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成した後、前記ナレーションに対応する映像を端末装置に送信するステップをさらに含む請求項1に記載の方法。
【請求項30】
前記方法は、
目標ニュースクラスタのナレーションの確定から、前記ナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を取得するステップと、
前記ナレーションに対応する映像の映像評価点数を確定するステップと、
前記少なくとも1つのパラメータの現在値に対して特徴抽出を行い、特徴表現を得るステップと、
前記特徴表現と確定された映像評価点数を予めトレーニングした評価ネットワークに入力して、予測映像評価点数を得るステップと、
前記特徴表現と前記予測映像評価点数を予めトレーニングした行動ネットワークに入力して、現在の行動情報を得るステップと、
前記現在の行動情報により、前記少なくとも1つのパラメータの現在値を調整するステップとをさらに含む請求項1に記載の方法。
【請求項31】
前記方法は、
前記少なくとも1つのパラメータの現在値により、目標ニュースクラスタのナレーションの確定から、前記ナレーションに対応する映像の生成までのプロセスを再び実行するステップをさらに含む請求項30に記載の方法。
【請求項32】
映像を生成するための装置であって、
各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するように構成されるナレーション確定ユニットと、
音声合成技術を利用して、前記ナレーションにおける各段落に対応する音声を生成するように構成される音声生成ユニットと、
前記目標ニュースクラスタに含まれる映像と画像に基づき、前記ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するように構成される素材リソースセット確定ユニットと、
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される素材リソースシーケンス確定ユニットと、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するように構成される映像生成ユニットと、を備える装置。
【請求項33】
前記装置は、
目標ニュースクラスタのナレーションを確定する前に、目標ニュースクラスタを確定するように構成される目標ニュースクラスタ確定ユニットをさらに備える請求項32に記載の装置。
【請求項34】
前記目標ニュースクラスタ確定ユニットは、
最近の第1所定期間内に生成されたニュースからなる少なくとも1つのニュースクラスタを取得するように構成されるニュースクラスタ取得モジュールと、
前記少なくとも1つのニュースクラスタに基づいて前記目標ニュースクラスタを確定するように構成される目標ニュースクラスタ確定モジュールと、を備える請求項33に記載の装置。
【請求項35】
前記目標ニュースクラスタ確定モジュールはさらに、
前記少なくとも1つのニュースクラスタのそれぞれを前記目標ニュースクラスタとして確定するように構成される請求項34に記載の装置。
【請求項36】
前記目標ニュースクラスタ確定モジュールはさらに、
前記少なくとも1つのニュースクラスタのそれぞれを、該ニュースクラスタにおける最近の第2所定期間内に生成されたニュースの数の降順によってソートし、
前記少なくとも1つのニュースクラスタのうち、所定ソート範囲内でソートされた各ニュースクラスタを前記目標ニュースクラスタとして確定するように構成される請求項34に記載の装置。
【請求項37】
前記目標ニュースクラスタ確定モジュールはさらに、
前記少なくとも1つのニュースクラスタのうち、高品質ニュースクラスタのそれぞれを前記目標ニュースクラスタとして確定し、ここで、高品質ニュースクラスタにおいて、ニュースに含まれる画像の数を所定の最小画像数より大きくし、且つ、ニュースに含まれる映像の数を所定の最小映像数より大きくするように構成される請求項34に記載の装置。
【請求項38】
前記目標ニュースクラスタ確定モジュールはさらに、
前記少なくとも1つのニュースクラスタのそれぞれに対して、該ニュースクラスタにおける各ニュースに基づいて、該ニュースクラスタに対応するニュースイベントトピックス、及び、確定されたニュースイベントトピックスの現在の出現頻度を確定し、
前記少なくとも1つのニュースクラスタのそれぞれに対応するニュースイベントトピックスの現在の出現頻度から該ニュースイベントトピックスの過去の出現頻度を引いた頻度差を確定し、
前記少なくとも1つのニュースクラスタのうち、対応するニュースイベントトピックスの頻度差が所定の頻度差閾値より大きいニュースクラスタを、前記目標ニュースクラスタとして確定するように構成される請求項34に記載の装置。
【請求項39】
前記ナレーション確定ユニットは、
前記目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定するように構成される点数確定モジュールと、
前記目標ニュースクラスタにおけるナレーションの生成に適する点数が最も高いニュースを目標ニュースとして確定するように構成される目標ニュース確定モジュールと、
前記目標ニュースに基づいて、前記目標ニュースクラスタのナレーションを生成するように構成されるナレーション生成モジュールと、を備える請求項32に記載の装置。
【請求項40】
前記ナレーション生成モジュールはさらに、
前記目標ニュースに含まれるテキストを目標テキストとして確定し、
前記目標テキストに含まれるナレーションに不適切なテキストを削除し、ここで、ナレーションに不適切なテキストとは、予め確定したナレーションに不適切なテキストのセットにおけるテキストであり、
前記目標テキストに含まれる書き言葉を同じ意味の話し言葉に置き換え、
前記目標テキストから要約を抽出することにより得られた要約テキストを前記目標ニュースクラスタのナレーションとして確定するように構成される請求項39に記載の装置。
【請求項41】
前記目標テキストから要約を抽出することにより得られた要約テキストを前記目標ニュースクラスタのナレーションとして確定することは、
所定の最大話速と所定の最大音声時間によってナレーションの最大文字数を確定することと、
前記目標テキストから要約を抽出し、且つ抽出された要約テキストの文字数を前記ナレーションの最大文字数より少なくすることと、
抽出された要約テキストを前記目標ニュースクラスタのナレーションとして確定することと、を含む請求項40に記載の装置。
【請求項42】
前記点数確定モジュールはさらに、
該ニュースの少なくとも1種の特徴における特徴値を抽出し、
抽出された少なくとも1種の特徴値に基づき、該ニュースのナレーションの生成に適する点数を確定するように構成される請求項39に記載の装置。
【請求項43】
前記点数確定モジュールはさらに、
該ニュースに含まれるテキストを予めトレーニングされた点数計算モデルに入力して、該ニュースのナレーションの生成に適する点数を取得するように構成され、ここで、前記点数計算モデルは、テキストと、ナレーションの生成に適するテキストの点数との対応関係を特徴付けることに用いられる請求項39に記載の装置。
【請求項44】
前記素材リソースセット確定ユニットはさらに、
前記目標ニュースクラスタに含まれる映像と画像を、前記ナレーションに対応する候補素材リソースセットとして確定するように構成される請求項32に記載の装置。
【請求項45】
前記素材リソースセット確定ユニットは、
前記目標ニュースクラスタに含まれる各映像に対して意味的分割を行うことにより得られた少なくとも1つの映像セグメントを目標映像セットとして確定するように構成される目標映像セット確定モジュールと、
前記目標ニュースクラスタに含まれる各画像を目標画像セットとして確定するように構成される目標画像セット確定モジュールと、
前記目標映像セットと前記目標画像セットに基づき、前記ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するように構成される素材リソースセット確定モジュールと、を備える請求項32に記載の装置。
【請求項46】
前記素材リソースセット確定モジュールはさらに、
前記目標映像セットと前記目標画像セットを合併して前記ナレーションに対応する候補素材リソースセットを取得するように構成される請求項45に記載の装置。
【請求項47】
前記素材リソースセット確定モジュールはさらに、
前記目標映像セットにおける各目標映像に対して、該目標映像を予めトレーニングされたビビット映像検出モデルに入力して、該目標映像に対応するビビット映像検出結果を取得し、ここで、前記ビビット映像検出モデルは、映像と、ビビット映像であるか否かを示すためのビビット映像検出結果との対応関係を特徴付けることに用いられ、
前記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示すことに用いられた目標映像を削除し、
前記目標映像セットと前記目標画像セットを合併して前記ナレーションに対応する候補素材リソースセットを取得するように構成される請求項45に記載の装置。
【請求項48】
前記素材リソースセット確定モジュールはさらに、
前記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示すことに用いられた目標映像を削除した後、前記目標映像セットにおける映像の再生持続時間が所定の最小候補映像再生持続時間よりも短い映像を削除するように構成される請求項47に記載の装置。
【請求項49】
前記ナレーションに対応する映像における画像の再生持続時間は、所定の画像再生持続時間であり、及び、
前記素材リソースシーケンス確定ユニットは、
前記ナレーションにおける各段落に対し、該段落と前記候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定するように構成されるマッチング度確定モジュールと、
前記ナレーションにおける各段落と各前記候補素材リソースとのマッチング度、各前記候補素材リソースの再生持続時間及び前記ナレーションにおける各段落のテキストの長さに基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される素材リソースシーケンス確定モジュールと、を備える請求項32に記載の装置。
【請求項50】
前記マッチング度確定モジュールはさらに、
前記ナレーションにおける各段落に対して、該段落に対応する意味ベクトルを確定し、
前記候補素材リソースセットにおける各候補素材リソースに対して、該候補素材リソースに対応する意味ベクトルを確定し、
前記ナレーションにおける各段落に対応する意味ベクトルと前記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定するように構成される請求項49に記載の装置。
【請求項51】
前記ナレーションにおける各段落に対応する意味ベクトルと前記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定することは、
該候補素材リソースが画像であると判定されたことに応答して、該画像に対して意味的分割を行い、該画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて該候補素材リソースに対応する意味ベクトルを確定することと、
該候補素材リソースが映像であると判定されたことに応答して、該映像に対してダウンサンプリングを行い、少なくとも1つのサンプル画像を得ることと、
前記少なくとも1つのサンプル画像のそれぞれに対して、該サンプル画像に対して意味的分割を行い、該サンプル画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果のそれぞれに対応する意味ベクトルに基づいて該サンプル画像に対応する意味ベクトルを確定することと、
各前記サンプル画像に対応する意味ベクトルに基づき、該候補素材リソースに対応する意味ベクトルを確定することと、を含む請求項50に記載の装置。
【請求項52】
前記素材リソースシーケンス確定モジュールはさらに、
前記ナレーションにおける各段落に対して、第1プリセット最適化アルゴリズムを利用し、該段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大であることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成される請求項49に記載の装置。
【請求項53】
前記素材リソースシーケンス確定モジュールはさらに、
第2プリセット最適化アルゴリズムを利用し、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと対応する段落とのマッチング度の合計が最大であることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される請求項49に記載の装置。
【請求項54】
前記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる請求項52又は53に記載の装置。
【請求項55】
前記映像生成ユニットはさらに、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第1音声を取得し、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第1映像を取得し、ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であり、
得られた第1音声と第1映像を、それぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定するように構成される請求項32に記載の装置。
【請求項56】
前記映像生成ユニットはさらに、
前記ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、前記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間の間の対応関係を特徴付けることに用いられ、
前記ナレーションにおける最後の段落以外の各段落に対して、前記ナレーションにおける該段落の前から後への順序に基づき、段落映像クリップステップを実行し、ここで、該段落映像クリップステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を映像クリップ持続時間として確定し、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、該段落に対応する映像を取得し、該段落に対応する映像末尾から前記映像クリップ持続時間分の映像を切り抜くことを行い、
前記ナレーションにおける最後の段落に対応する候補素材リソースシーケンスの中の各候補素材リソースを順次接続して、最後の段落に対応する映像を取得し、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第2映像を取得し、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第2音声を取得し、
得られた第2音声と第2映像を、それぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定するように構成される請求項32に記載の装置。
【請求項57】
前記映像生成ユニットはさらに、
前記ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、前記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間の間の対応関係を特徴付けることに用いられ、
前記ナレーションにおける最後の段落以外の各段落に対して、前記ナレーションにおける該段落の前から後への順序に基づき、段落音声延長ステップを実行し、ここで、該段落音声延長ステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を音声延長時間長として確定し、該段落に対応する音声末尾に、確定された音声延長時間長の無音再生持続時間を追加することを行い、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第3音声を取得し、
前記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第3映像を取得し、ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であり、
得られた第3音声と第3映像を、それぞれ前記ナレーションに対応する映像における音声部分と映像部分として確定するように構成される請求項32に記載の装置。
【請求項58】
前記装置は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成する前に、前記ナレーションにおける各段落に対して、単色素材リソース検出ステップを実行するように構成される単色素材リソース検出ユニットであって、前記単色素材リソース検出ステップは、該段落に対応する候補素材リソースシーケンスにおける各素材リソースに対して該素材リソースが単色画像フレームの存在する映像であると判定されたことに応答して、該素材リソースにおける単色画像フレームを削除することと、該素材リソースが単色画像であると判定されたことに応答して、該段落に対応する候補素材リソースシーケンスから該素材リソースを削除することとを含む単色素材リソース検出ユニットをさらに含む請求項32に記載の装置。
【請求項59】
前記装置は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成する前に、前記ナレーションにおける各段落に対して整列検出ステップを実行するように構成される整列検出ユニットであって、前記整列検出ステップは、該段落に対応する音声の再生持続時間が該段落に対応する候補素材リソースシーケンスの再生持続時間より長いと判定されたことに応答して、該段落に対応する候補素材リソースシーケンスにおける画像タイプの候補素材リソースの再生持続時間を延長するか、或いは、前記候補素材リソースセットから候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスの中に追加し、それにより、該段落に対応する音声の再生持続時間を、該段落に対応する候補素材リソースシーケンスの再生持続時間に等しくすることを含む整列検出ユニットをさらに含む請求項58に記載の装置。
【請求項60】
前記装置は、
前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成した後、前記ナレーションに対応する映像を端末装置に送信するように構成される映像送信ユニットをさらに含む請求項32に記載の装置。
【請求項61】
前記装置は、
目標ニュースクラスタのナレーションの確定から、前記ナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を取得するように構成されるパラメータ現在値取得ユニットと、
前記ナレーションに対応する映像の映像評価点数を確定するように構成される映像評価点数確定ユニットと、
前記少なくとも1つのパラメータの現在値に対して特徴抽出を行い、特徴表現を得るように構成される特徴抽出ユニットと、
前記特徴表現と確定された映像評価点数を予めトレーニングした評価ネットワークに入力して、予測映像評価点数を得るように構成される第1入力ユニットと、
前記特徴表現と前記予測映像評価点数を予めトレーニングした行動ネットワークに入力して、現在の行動情報を得るように構成される第2入力ユニットと、
前記現在の行動情報により、前記少なくとも1つのパラメータの現在値を調整するように構成されるパラメータ調整ユニットと、をさらに含む請求項32に記載の装置。
【請求項62】
前記装置は、
前記少なくとも1つのパラメータの現在値により、目標ニュースクラスタのナレーションの確定から、前記ナレーションに対応する映像の生成までのプロセスを再び実行するように構成される映像再生成ユニットをさらに含む請求項61に記載の装置。
【請求項63】
1つ又は複数のプロセッサと、
1つ又は複数のプログラムが記憶される記憶装置と、を備えるサーバであって、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに請求項1〜31のいずれか1項に記載の方法を実現させるサーバ。
【請求項64】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムが1つ又は複数のプロセッサにより実行されると、請求項1〜31のいずれか1項に記載の方法を実現するコンピュータ可読記憶媒体。
【請求項65】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜31のいずれか1項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施例はコンピュータの技術分野に関し、具体的には、映像を生成するための方法装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
ネットワーク技術の発展に伴い、世界中の様々な種類のニュースを様々なメディアを通じてユーザに公開できる。同じニュースイベントに対しても、さまざまなメディア(例えば、ニュースウェブサイトやニュースアプリケーションなど)が異なるニュースに編集してしまうことがあり、異なるメディアによるニュースの眼目には多少の違いがあるが、同一ニュースイベントを報道した各ニュースには多少重なる情報がある。
【0003】
ユーザにとって、必要な情報を抽出するために複数のニュース記事を読む必要があり、その結果、ユーザがニュースを取得する効率が低下する恐れがある。ユーザのニュース取得効率を向上させるために、同一ニュースイベントを対象とする複数のニュースを集約して、複数のニュースの中の冗長情報を除去して、ニュースイベントのみに関するナレーションを抽出することができる。
【発明の概要】
【0004】
本出願の実施例は、映像を生成するための方法及び装置を開示する。
【0005】
第1態様において、本出願の実施例は映像を生成するための方法を提供し、各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するステップと、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成するステップと、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するステップと、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成するステップとを含む。
【0006】
第2態様において、本出願の実施例は映像を生成するための装置を提供し、該装置は、各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するように構成されるナレーション確定ユニットと、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成するように構成される音声生成ユニットと、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するように構成される素材リソースセット確定ユニットと、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される素材リソースシーケンス確定ユニットと、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成するように構成される映像生成ユニットを備える。
【0007】
第3態様において、本出願の実施例は、1つ又は複数のプロセッサと、1つ又は複数のプログラムが記憶される記憶装置を備えるサーバであって、上記1つ又は複数のプログラムが上記1つ又は複数のプロセッサにより実行される際、上記1つ又は複数のプロセッサに第1態様におけるいずれかの実現方式に記載の方法を実現させるサーバを提供する。
【0008】
第4態様において、本出願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムが1つ又は複数のプロセッサにより実行される際に第1態様におけるいずれかの実現方式に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
【0009】
第5態様において、本出願の実施例は、インターフェースと、1つ又は複数のプログラムが記憶されるメモリと、動作上に上記インターフェースと上記メモリに接続される1つ又は複数のプロセッサであって、各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するステップと、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成するステップと、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するステップと、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成するステップに用いられる1つ又は複数のプロセッサとを備えるほかのサーバを提供する。
【0010】
第6態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を提供し、ここで、上記コンピュータプログラムが1つ又は複数のプロセッサにより実行される際、上記1つ又は複数のプロセッサは、各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定するステップと、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成するステップと、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するステップと、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成するステップを実行する。
【0011】
ユーザがニュースを取得する効率を高めるように、従来技術において常にニュースクラスタのナレーションを生成し、ユーザが文字形式のナレーションを読むことによりニュースの要約を取得する必要があり、ナレーションに対応する映像が生成されていない。本出願の実施例により提供される映像を生成するための方法と装置は、まず、各々が同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定し、その後、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成し、また、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する候補素材リソースのセットを確定し、ここで、候補素材リソースは映像又は画像であり、次に、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定し、最後、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成することで、目標ニュースクラスタに対してナレーションとナレーションに対応する映像を生成することを実現した。
【図面の簡単な説明】
【0012】
以下の図面を合わせた非制限性実施例に対する詳しい説明を閲覧することを通して、本出願のほかの特徴、目的及びメリットがさらに明確になる。
図1】本出願の1つの実施例を適用できる例示的なシステムアーキテクチャ図である。
図2A】本出願による映像を生成するための方法の一実施例のフローチャートである。
図2B】本出願によるステップ201の一実施例の分解フローチャートである。
図2C】本出願によるステップ2012の一実施例の分解フローチャートである。
図2D】本出願によるステップ203の一実施例の分解フローチャートである。
図2E】本出願によるステップ2033の一実施例の分解フローチャートである。
図2F】本出願によるステップ204の一実施例の分解フローチャートである。
図2G】本出願によるステップ2041の一実施例の分解フローチャートである。
図2H】本出願によるステップ20412の一実施例の分解フローチャートである。
図2I】本出願によるステップ205の一実施例の分解フローチャートである。
図2J】本出願によるステップ205のもう1つの実施例の分解フローチャートである。
図3】本出願による映像を生成するための方法の1つの適用シーンの概略図である。
図4A】本出願による映像を生成するための方法のもう1つの実施例のフローチャートである。
図4B】本出願によるステップ401の一実施例の分解フローチャートである。
図5】本出願による学習ネットワークトレーニングステップを強調した一実施例の分解フローチャートである。
図6】本出願による映像を生成するための装置の一実施例の構造概略図である。
図7】本出願の実施例を実現するためのサーバに適するコンピュータシステムの構造概略図である。
【発明を実施するための形態】
【0013】
次に図面及び実施例を参照しながら本出願をさらに詳しく説明する。ここに説明する具体的な実施例は関連発明を解釈するためのものであり、本出願を限定するものではないことを理解すべきである。なお、説明の便宜上、図面中に関連発明に関する部分のみを示す。
【0014】
なお、矛盾しない場合、本出願における実施例及び実施例における特徴は互いに組み合わせることができる。次に図面を合わせて実施例を結合して本出願を詳しく説明する。
【0015】
図1は、本出願の映像を生成するための方法、又は映像を生成するための装置の実施例を適用できる例示的なシステムアーキテクチャ100を示す。
【0016】
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105を含んでもよい。ネットワーク104は端末装置101、102、103とサーバ105の間に通信リンクの媒体を提供することに用いられる。ネットワーク104は様々な接続タイプ、例えば、有線、無線通信リンク又は光ファイバケーブルなどを含んでもよい。
【0017】
ユーザは、メッセージなどを受信又は送信するように、端末装置101、102、103を用いて、ネットワーク104を介してサーバ105とのインタラクションを行うことができる。端末装置101、102、103に、ウェブブラウザーアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールできる。
【0018】
端末装置101、102、103はハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレット、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III,動画専門家集団による音響形式第3層型)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV,動画専門家集団による音響形式第4層型)プレーヤー、ラップトップコンピュータ、デスクトップコンピュータなどのディスプレイ付きの様々な電子機器であってもよい。端末装置101、102、103がソフトウェアである場合、上記電子機器にインストールすることができる。それらは複数のソフトウェア又はソフトウェアモジュールとして実現されてもよく、さらに、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここで特に限定しない。
【0019】
サーバ105は端末装置101、102、103に表示されるニュースウェブサイトをサポートするバックグラウンドウェブサイトサーバなどの様々なサービスを提供するサーバであってもよい。バックグラウンドウェブサイトサーバは、受信したニュースウェブサイトのページリクエストなどのデータに対して分析などの処理を行い、且つ処理結果(例えば、ニュースウェブサイトのページデータ)を端末装置にフィードバックできる。
【0020】
なお、本出願の実施例により提供される映像を生成するための方法は通常サーバ105により実行され、対応して、映像を生成するための装置は通常サーバ105の中に設置される。
【0021】
なお、サーバ105はハードウェアであってもよく、ソフトウェアであってもよい。サーバ105はハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現されてもよく、さらに、単一のサーバとして実現されてもよい。サーバ105はソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、ニュースウェブサイトのページサービスを提供することに用いられる)として実現されてもよく、さらに、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよく、ここで特に限定しない。
【0022】
図1における端末装置、ネットワーク及びサーバの数は例示的なものであることを理解すべきである。実現の需要に応じて、任意の数の端末装置、ネットワーク及びサーバを備えてもよい。
【0023】
引き続き、本出願による映像を生成するための方法の一実施例のフロー200を示す図2Aを参照されたい。この映像を生成するための方法は、以下のステップを含む。
【0024】
ステップ201において、目標ニュースクラスタのナレーションを確定する。
【0025】
本実施例において、映像を生成するための方法の実行主体(例えば、図1に示されるサーバ)はまず、上記実行主体としてのネットワークに接続される電子機器から目標ニュースクラスタをローカル又はリモートで取得することができる。ここで、目標ニュースクラスタは同一ニュースイベントを対象とする少なくとも1つのニュースにより構成される。
【0026】
ここで、ニュースイベントとは、最近の第3所定持続時間内(例えば、3ヶ月以内)に発生したイベントを指す。
【0027】
ここで、ニュースは、様々な形式のニュースイベントを対象とする電子データであってもよく、且つニュースにはいずれも対応する生成時間を対応して注釈することができる。ニュースは、テキスト、画像、音声及び映像の少なくとも1項を含むことができる。例えば、ニュースはウェブページであってもよく、また、テキスト、画像、音声及び映像の少なくとも1項を含む様々なドキュメントであってもよい。ニュースはテキスト、画像又は映像のみであってもよい。
【0028】
実際に、取得されたニュースには対応するニュースイベントがマークアップされることができる。それにより、上記実行主体はまず、最近の第1所定持続時間内(例えば、1日以内)に生成したニュースを取得し、その後に取得した少なくとも1つのニュースを、対応するニュースイベントによって異なるニュースクラスタとして構成することができる。
【0029】
取得したニュースには対応するニュースイベントがマークアップされていない場合、上記実行主体はまず、最近の第1所定持続時間内(例えば、1日以内)に生成したニュースを取得し、その後に取得したニュースに対して様々なに実現方式を用いてクラスタリングを行い、クラスタリングにより取得した同一カテゴリのニュースを1つのニュースクラスタとして構成し、異なるクラスタリングにより取得したニュースは異なるニュースクラスタに属し、さらに、少なくとも1つのニュースクラスタを取得することができることが理解される。例えば、実際に、ニュースは通常、ニュースヘッドラインを備え、上記実行主体は取得した各ニュースのニュースヘッドラインに対してクラスタリングを行い、ニュースヘッドラインのクラスタを該ニュースヘッドラインに対応するニュースのクラスタとすることができる。
【0030】
その後、上記実行主体(例えば、図1に示すサーバ)は、様々な実現方式を用いて目標ニュースクラスタのナレーションを確定することができる。ここで、上記ナレーションは少なくとも1つの段落を含むことができる。
【0031】
本実施例の一部の選択可能な実現方式において、ステップ201は図2Bに示すステップ2011からステップ2012を含んでもよい。本出願によるステップ201の一実施例の分解フローチャートを示す図2Bを参照されたい。
【0032】
ステップ2011、目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定する。
【0033】
ここで、上記実行主体は様々な実現方式を用いて、目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定することができる。
【0034】
一部の実現方式において、ステップ2011は下記の通りに行うことができる。
【0035】
まず、該ニュースの少なくとも1種の特徴における特徴値を抽出する。
【0036】
例えば、少なくとも1種の特徴は、ニュースに含まれる文字数、ニュースに含まれる異なる単語の単語数、ニュースに含まれる画像の数、ニュースに含まれる映像の数、ニュースが閲覧される回数、ニュースが転送される回数、目標ニュースクラスタにおける各ニュースに含まれる文字の文字数の合計、目標ニュースクラスタにおける各ニュースに含まれる異なる単語の単語数の合計、目標ニュースクラスタにおける各ニュースに含まれる画像の数の合計、目標ニュースクラスタにおける各ニュースに含まれる映像の数の合計、目標ニュースクラスタにおける各ニュースが閲覧された回数の合計、目標ニュースクラスタにおける各ニュースが転送された回数の合計を含むことができるが、それらに限定されない。
【0037】
次に、抽出された少なくとも1種の特徴値に基づき、該ニュースのナレーションの生成に適する点数を確定する。
【0038】
ここで、様々な実現方式を用いて、上記抽出された少なくとも1種の特徴値に基づき、該ニュースのナレーションの生成に適する点数を確定することができる。
【0039】
例えば、上記抽出された少なくとも1種の特徴値を、各種の特徴の予め設定された重みによって加重合計を行い、且つ加重合計の結果を該ニュースのナレーションの生成に適する点数として確定することができる。
【0040】
さらに、例えば、以下の比率を先に確定することができる。
【0041】
(1)ニュースに含まれる文字数と目標ニュースクラスタにおける各ニュースに含まれる文字数の合計との比率;
【0042】
(2)ニュースに含まれる異なる単語の単語数と目標ニュースクラスタにおける各ニュースに含まれる異なる単語の単語数の合計との比率;
【0043】
(3)ニュースに含まれる画像の数と目標ニュースクラスタにおける各ニュースに含まれる画像の数の合計との比率;
【0044】
(4)ニュースに含まれる映像の数と目標ニュースクラスタにおける各ニュースに含まれる映像の数の合計との比率;
【0045】
(5)ニュースの閲覧回数と目標ニュースクラスタにおける各ニュースの閲覧回数の合計との比率;
【0046】
(6)ニュースの転送回数と目標ニュースクラスタにおける各ニュースの転送回数の合計との比率。
【0047】
その後、上記確定された各比率を、該比率の予め確定された重みによって加重合計を行い、且つ加重合計の結果を該ニュースのナレーションの生成に適する点数として確定することができる。
【0048】
一部の実現方式において、ステップ2011は下記の通りに行ってもよい。
【0049】
該ニュースに含まれるテキストを、予めトレーニングした点数計算モデルに入力し、該ニュースのナレーションの生成に適する点数を得る。
【0050】
ここで、点数計算モデルは、テキストと、ナレーションの生成に適するテキストの点数との対応関係を特徴付けることに用いられる。
【0051】
例として、点数計算モデルは、技術者がテキストに対して特徴抽出を行うことにより得られた大量の特徴ベクトルと該テキストのナレーションの生成に適する点数注釈結果の統計に基づいて予め作成した、複数の特徴ベクトルとナレーションの生成に適する点数との対応関係を記憶する対応関係表であってもよく、また、技術者が大量データの統計に基づいて予め設定して上記電子機器の中に記憶した、テキストに対して特徴抽出を行うことにより得られた特徴ベクトルにおける1つ又は複数の数値を計算して取得した該テキストのナレーションの生成に適する点数を特徴付けるための計算式であってもよい。
【0052】
一部の実現方式において、上記電子機器は予め以下の点数計算モデルのトレーニングステップによってトレーニングして点数計算モデルを取得できる。
【0053】
まず、第1トレーニングサンプルセットを取得できる。
【0054】
ここで、第1トレーニングサンプルは、過去のニュースに含まれるテキストと過去のニュースに対応するナレーションの生成に適する注釈点数を含んでもよい。例えば、過去のニュースに対してナレーションの生成に適する注釈点数を手動で注釈することができる。
【0055】
次に、初期点数計算モデルのモデル構造を確定し、及び初期点数計算モデルのモデルパラメータを初期化することができる。
【0056】
ここで、点数計算モデルのトレーニングステップの実行主体は映像を生成するための方法の実行主体と同じても、異なっていてもよい。同じである場合、点数計算モデルのトレーニングステップの実行主体はトレーニングにより点数計算モデルを取得した後に、トレーニング済み点数計算モデルのモデル構造情報とモデルパラメータのパラメータ値をローカルに記憶することができる。異なる場合、点数計算モデルのトレーニングステップの実行主体はトレーニングにより点数計算モデルを取得した後に、トレーニング済み点数計算モデルのモデル構造情報とモデルパラメータのパラメータ値を、映像を生成するための方法の実行主体に送信することができる。
【0057】
ここで、点数計算モデルは様々なタイプの計算モデルを含むことができるため、異なるタイプの計算モデルに対して、確定する必要があるモデル構造情報も異なる。
【0058】
選択可能に、初期点数計算モデルは畳み込みニューラルネットワークを含むことができる。畳み込みニューラルネットワークは多層ニューラルネットワークであるため、各層は複数の二次元平面により構成され、各平面が複数の独立したニューロンにより構成され、ここで、畳み込みニューラルネットワークタイプの初期特徴抽出モデルがどの層(例えば、畳み込み層、プーリング層、活性化関数層など)を含むか、層間の接続順序関係、及び各層がどのようなパラメータ(例えば、重みweight、バイアスbias、畳み込みのストライド)を含むかなどを確定する必要がある。ここで、畳み込み層は特徴抽出に利用され得る。各畳み込み層に対して、いくつかの畳み込みカーネルがあるか、各畳み込みカーネルのサイズ、各畳み込みカーネルにおける各ニューロンの重み、各畳み込みカーネルに対応するバイアスアイテム、隣接する2回の畳み込み間のストライド、充填する必要があるか、充填する必要がある画素点、及び充填用の数値(通常0である)などを確定することができる。プーリング層は、データとパラメータの量を圧縮して、過剰適合を減少するために、入力された情報に対してダウンサンプリング(Down Sample)を行うことができる。各プーリング層に対して該プーリング層のプーリング方法(例えば、区域平均値又は区域最大値を取る)を確定することができる。活性化関数層は入力された情報に対して非線形計算を行うことに用いられる。各活性化関数層に対して具体的な活性化関数を確定することができる。例えば、活性化関数はReLU及びReLUの様々な変換活性化関数、Sigmoid関数、Tanh(双曲線正接)関数、Maxout関数などであってもよい。
【0059】
その後、初期点数計算モデルのモデルパラメータを初期化することができる。実際に、初期点数計算モデルの各モデルパラメータを異なる小さな乱数で初期化を行うことができる。「小さな乱数」は、重みが大きすぎることにより、モデルが飽和状態になることを原因で、トレーニングの失敗をもたらすことを回避できるように確保し、「異なる乱数」によりモデルの正常な学習を確保できる。
【0060】
次に、第1トレーニングサンプルセットにおける第1トレーニングサンプルの中の過去のニュースに含まれるテキストと過去のニュースに対応するナレーションの生成に適する点数をそれぞれ初期点数計算モデルの入力と所望出力とし、機械学習方法を利用して初期点数計算モデルをトレーニングする。
【0061】
具体的に、まず、第1トレーニングサンプルセットにおける第1トレーニングサンプルの中の過去のニュースに含まれるテキストを初期点数計算モデルに入力して、過去のニュースに含まれるテキストに対応する点数を取得できる。その後、得られた点数と該第1トレーニングサンプルにおける注釈点数との差を計算することができる。最後に、計算により取得した差に基づいて、初期点数計算モデルのモデルパラメータを調整し、且つ所定の第1トレーニング終了要件を満たす状況において、トレーニングを終了する。例えば、ここで、所定の第1トレーニング終了要件は、トレーニング時間が第4所定持続時間を超えること、トレーニング回数が第1所定回数を超えること、計算により取得した差が第1所定差閾値より小さいことのうち少なくとも1項を含むことができる。
【0062】
ここで、様々な実現方式を用いて、得られた点数と該第1トレーニングサンプルにおける注釈点数との差に基づいて、初期点数計算モデルのモデルパラメータを調整することができる。例えば、確率的勾配降下(SGD,Stochastic Gradient Descent)、ニュートン法(Newton’s Method)、準ニュートン法(Quasi−Newton Methods)、共役勾配法(Conjugate Gradient)、ヒューリスティックな最適化手法及びほかの既知又は未来に開発しようとする様々な最適化アルゴリズムを用いることができる。
【0063】
最後に、トレーニングにより取得した初期点数計算モデルを予めトレーニングした点数計算モデルとして確定することができる。
【0064】
ステップ2012:目標ニュースに基づいて、目標ニュースクラスタのナレーションを生成する。
【0065】
ステップ2011において、目標ニュースクラスタにおける各ニュースのナレーションの生成に適する点数が既に確定され、ここで、上記実行主体はまず目標ニュースクラスタの中のナレーションの生成に適する点数が最も高いニュースを目標ニュースとして確定することができる。その後、様々な実現方式を用いて、目標ニュースに基づいて、目標ニュースクラスタのナレーションを生成することができる。
【0066】
一部の実現方式において、ステップ2012は下記のとおりに実行され得る。目標ニュースに含まれるテキストに対して要約抽出を行い、且つ要約抽出により得られた要約テキストを目標ニュースクラスタのナレーションとして確定する。
【0067】
一部の実現方式において、ステップ2012は図2Cに示されるステップ20121からステップ20124を含んでもよい。本出願によるステップ2012の一実施例の分解フローチャートを示す図2Cを参照されたい。
【0068】
ステップ20121:目標ニュースに含まれるテキストを目標テキストとして確定する。
【0069】
ここで、上記実行主体はまず目標ニュースクラスタにおけるナレーションの生成に適する点数が最も高いニュースを目標ニュースとして確定することができる。その後、目標ニュースに含まれるテキストを目標テキストとして確定することができる。
【0070】
ステップ20122:目標テキストに含まれるナレーションに不適切なテキストを削除する。
【0071】
ここで、上記実行主体は目標テキストに含まれるナレーションに不適切なテキストを削除することができる。ここで、ナレーションに不適切なテキストは予め確定したナレーションに不適切なテキストのセットにおけるテキストであってもよい。実際に、ナレーションに不適切なテキストのセットは技術者が大量過去のニュースにおける抽出されたナレーションに不適切なテキスト(例えば、「当社記者から」、「上図に示すように」、「下図に示すように」、「現場からの報道」、「現場記者からの重大なニュース」、「現場発の報道」、「記者の現場の観衆へのインタビューにより」)の統計に基づいて予め作成したテキストのセットであってもよい。
【0072】
ステップ20122により、目標テキストにおける無効情報を減少し、さらに、最後に生成するナレーションの有効情報内容の比率を増やすことができる。
【0073】
ステップ20123:目標テキストに含まれる書き言葉を同じ意味の話し言葉に置き換える。
【0074】
ここで、上記実行主体は、様々な実現方式を用いて目標テキストに含まれる書き言葉を同じ意味の話し言葉に置き換えることができる。ここで、上記書き言葉と話し言葉はそれぞれ予め確定した書き言葉と話し言葉の対応関係表における書き言葉と対応する話し言葉であってもよい。実際に、上記書き言葉と話し言葉の対応関係表は技術者が大量コーパスから抽出した書き言葉と対応する同じ意味の話し言葉に対する統計に基づいて予め作成した対応関係表であってもよい。
【0075】
ステップ20123により、目標テキストにおける書き言葉が話し言葉に置き換えられることで、目標テキストがさらにナレーションに適するようになる。
【0076】
ステップ20124:目標テキストから要約を抽出することにより得られた要約テキストを目標ニュースクラスタのナレーションとして確定する。
【0077】
一部の実現方式において、上記実行主体は、目標テキストから要約を抽出することにより得られた要約テキストを目標ニュースクラスタのナレーションとして直接確定することができる。
【0078】
一部の実現方式において、ステップ20124は下記の通りに行っていてもよい。
【0079】
まず、所定最大話速と所定最大音声持続時間に応じてナレーションの最大文字数を確定する。
【0080】
ここで、所定最大話速は、ナレーションの対応する音声を生成しようとする場合、生成した音声単位時間(例えば、1秒)内に含まれる最大文字数を表す。
【0081】
ここで、所定最大音声持続時間は、ナレーションの対応する音声を生成しようとする場合、生成した音声の最大再生持続時間を表す。例えば、ナレーションの対応する短い映像を生成しようとする場合、所定最大音声持続時間は90秒間であってもよい。
【0082】
ここで、所定最大話速と所定最大映像持続時間は技術者によって事前確定されたものであってもよく、当然ながら、所定最大話速と所定最大映像持続時間を修正するように、所定最大話速と所定最大映像持続時間を修正するインターフェースを提供してもよい。
【0083】
所定最大話速と所定最大音声持続時間を取得すると、所定最大話速と所定最大音声持続時間との積をナレーションの最大文字数として確定することができる。
【0084】
次に、目標テキストに対して要約抽出を行う。
【0085】
ここで、様々な実現方式を用いて目標テキストから要約を抽出し、且つ抽出された要約テキストの文字数が確定されたナレーションの最大文字数より少ない。
【0086】
最後に、抽出された要約テキストを目標ニュースクラスタのナレーションとして確定する。
【0087】
ここで、抽出された文字数がナレーションの最大文字数より少ない要約テキストを目標ニュースクラスタのナレーションとして確定することができる。
【0088】
上記実現方式に基づいて確定したナレーションの文字数は、所定最大話速と所定最大音声持続時間の要件を満たすことができる。
【0089】
なお、テキストに対して要約抽出を行うことは、現在で幅広く研究と応用している従来技術であり、ここで贅言しない。
【0090】
図2Cに示される選択可能な実現方式のステップ2012を用いれば、目標ニュースに含まれるテキストからナレーションに不適切なテキストの比率を減少し、さらに、ナレーションに適するテキストの比率を増やし、及び書き言葉を話し言葉に置き換えることで、目標ニュースに含まれるテキストがさらに人間の話し習慣に沿うナレーションに適するようになる。
【0091】
ステップ202:音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成する。
【0092】
ここで、上記実行主体は音声合成技術を利用して、目標ニュースクラスタのナレーションにおける各段落に対応する音声を生成することができる。
【0093】
なお、音声合成技術は、現在で幅広く研究と応用している従来技術であり、ここで贅言しない。
【0094】
ステップ203:目標ニュースクラスタに含まれる映像と画像に基づいて、ナレーションに対応する候補素材リソースセットを確定する。
【0095】
本実施例において、上記実行主体は、様々な実現方式を用いて、目標ニュースクラスタに含まれる映像と画像に基づいて、ナレーションに対応する候補素材リソースセットを確定することができる。
【0096】
本実施例の一部の選択可能な実現方式において、ステップ203は下記の通りに行っていてもよい。目標ニュースクラスタに含まれる映像と画像を、ナレーションに対応する候補素材リソースセットとして確定する。
【0097】
本実施例の一部の選択可能な実現方式において、ステップ203は図2Dに示されるステップ2031からステップ2033を含んでもよい。本出願によるステップ203の一実施例の分解フローチャートを示す図2Dを参照されたい。
【0098】
ステップ2031:目標ニュースクラスタに含まれる各映像に対して意味的分割を行うことにより得られた少なくとも1つの映像セグメントを目標映像セットとして確定する。
【0099】
ステップ2032:目標ニュースクラスタに含まれる各画像を目標画像セットとして確定する。
【0100】
ステップ2033:目標映像セットと目標画像セットに基づいて、ナレーションに対応する候補素材リソースセットを確定する。
【0101】
ここで、候補素材リソースは映像又は画像であってもよい。
【0102】
一部の実現方式において、ステップ2033は図2Eに示されるステップ20331からステップ20333を含んでもよい。本出願によるステップ2033の一実施例の分解フローチャートを示す図2Eを参照されたい。
【0103】
ステップ20331:目標映像セットにおける各目標映像に対して、該目標映像を、予めトレーニングしたビビット映像検出モデルに入力して、該目標映像に対応するビビット映像検出結果を取得する。
【0104】
なお、上記ビビット映像検出モデルは、映像と、ビビット映像であるか否かを示すビビット映像検出結果との対応関係を特徴付けることに用いられる。ここで、ビビット映像検出モデルは、下記のビビット映像検出モデルトレーニングステップに基づいて予めトレーニングして取得することができる。
【0105】
まず、第2トレーニングサンプルセットを取得できる。
【0106】
ここで、ビビット映像検出モデルトレーニングステップの実行主体は映像を生成するための方法の実行主体と同じものにしてもよく、異なるものにしてもよい。実行主体が同じの場合、ビビット映像検出モデルトレーニングステップの実行主体はトレーニングによりビビット映像検出モデルを取得した後に、トレーニング済みビビット映像検出モデルのモデル構造情報とモデルパラメータのパラメータ値をローカルに記憶することができる。実行主体が異なる場合、ビビット映像検出モデルトレーニングステップの実行主体はトレーニングによりビビット映像検出モデルを取得した後に、トレーニング済みビビット映像検出モデルのモデル構造情報とモデルパラメータのパラメータ値を映像生成方法の実行主体に送信することができる。
【0107】
ここで、第2トレーニングサンプルは、過去のニュース映像と、過去の映像がビビット映像であるか否かを示すための注釈結果とを含んでもよい。実際に、過去のニュース映像がビビット映像であるか否かを示すための注釈結果を手動で行うことができる。
【0108】
ここで、ビビット映像は、ユーザが関心を持ち且つ見たい映像であり、非ビビット映像はユーザが関心を持たず且つ見たくない映像である。
【0109】
例えば、司会者がテレビスタジオに座って、「今日は2019年2月1日、金曜日です」という映像セグメントは非ビビット映像として注釈することができ、ある国家の指導者が飛行機から降りてほかの国の指導者に会う映像セグメントはビビット映像として注釈することができる。
【0110】
次に、初期ビビット映像検出モデルのモデル構造を確定し、及びビビット映像検出モデルのモデルパラメータを初期化することができる。
【0111】
ここで、ビビット映像検出モデルは様々なタイプのモデルを含むことができるため、異なるタイプのモデルに対して、確定する必要があるモデル構造情報も異なる。
【0112】
選択可能に、初期ビビット映像検出モデルはニューラルネットワークを含むことができ、ここで、初期ビビット映像検出モデルの層(例えば、畳み込み層、プーリング層、活性化関数層など)、層間の接続順序関係、及び各層のパラメータ(例えば、重みweight、バイアスbias、畳み込みのストライド)を確定する必要がある。
【0113】
その後、初期ビビット映像検出モデルのモデルパラメータを初期化することができる。実際に、初期ビビット映像検出モデルの各モデルパラメータを異なる小さな乱数で初期化を行うことができる。「小さな乱数」は、重みが大きすぎることにより、モデルが飽和状態になり、トレーニングの失敗をもたらすことを回避できるように確保し、「異なる」はモデルが正常に学習できることを確保する。
【0114】
次に、第2トレーニングサンプルセットにおける第2トレーニングサンプルの中の過去のニュース映像と過去のニュース映像に対応する注釈結果をそれぞれ初期ビビット映像検出モデルの入力と所望出力とし、機械学習方法を利用して初期ビビット映像検出モデルをトレーニングすることができる。
【0115】
具体的に、まず、第2トレーニングサンプルセットにおける第2トレーニングサンプルの中の過去のニュース映像を初期ビビット映像検出モデルに入力し、過去のニュース映像がビビット映像であるか否かという実際のビビット映像検出結果を得ることができる。その後、得られた実際のビビット映像検出結果と該第2トレーニングサンプルにおける注釈結果との差を計算することができる。最後に、計算により取得した差に基づいて、初期ビビット映像検出モデルのモデルパラメータを調整し、且つ所定の第2トレーニング終了要件を満たす状況において、トレーニングを終了することができる。例えば、ここで、所定の第2トレーニング終了要件は、トレーニング時間が第5所定持続時間を超えること、トレーニング回数が第2所定回数を超えること、計算により取得した差が第2所定差閾値より小さいことのうち、少なくとも1項を含むことができる。
【0116】
ここで、様々な実現方式を用いて、計算により得られた実際のビビット映像検出結果と該トレーニングサンプルにおける注釈点数との差に基づいて、初期ビビット映像検出モデルのモデルパラメータを調整することができる。例えば、確率的勾配降下、ニュートン法、準ニュートン法、共役勾配法、ヒューリスティックな最適化手法及びほかの既知又は未来に開発しようとする様々な最適化アルゴリズムを用いることができる。
【0117】
最後に、トレーニングにより取得した初期ビビット映像検出モデルを予めトレーニングしたビビット映像検出モデルとして確定することができる。
【0118】
ステップ20332:目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示すことに用いられる目標映像を削除する。
【0119】
即ち、ここで、目標映像セットにおける非ビビット映像が削除され、目標映像セットにおけるビビット映像が残される。
【0120】
ステップ20333:目標映像セットと目標画像セットを合併して、ナレーションに対応する候補素材リソースセットを取得する。
【0121】
図2Eに示される実現方式に基づいて取得した候補素材リソースセットにおける映像において、非ビビット映像が削除され、ビビット映像が残される。候補素材リソースセットにおける素材リソースの数が減ったため、後続のナレーションにおける各段落に対応する候補素材シーケンスの確定に必要なコンピュータのリソース(例えば、CPUリソース、記憶リソースとI/Oリソース)の消耗を減少することができる。
【0122】
一部の実現方式において、上記実行主体はさらにステップ20333を実行する前に以下のステップ20334を実行することができる。
【0123】
ステップ20334:目標映像セットにおける映像の再生持続時間が所定最小候補映像持続時間よりも短い映像を削除する。
【0124】
ここで、目標映像セットにおける再生持続時間が所定最小候補映像持続時間よりも短い映像に対して、該映像に示される内容が少なすぎるため、該映像が存在する価値がない可能性があり、候補素材リソースセットにおける素材リソースの数を減らすために、該映像を目標映像セットから削除する必要があり、それにより、後続のナレーションにおける各段落に対応する候補素材シーケンスの確定に必要なコンピュータのリソース(例えば、CPUリソース、記憶リソース及びI/Oリソース)の消耗を減少することができる。
【0125】
本実施例の一部の選択可能な実現方式において、ステップ203はさらに下記のように行うことができる。
【0126】
まず、目標ニュースクラスタに含まれる各映像に対して意味的分割を行うことにより得られた少なくとも1つの映像セグメントを目標映像セットとして確定する。
【0127】
次に、目標ニュースクラスタに含まれる各画像を目標画像セットとして確定する。
【0128】
その後、目標映像セットにおける映像の再生持続時間が所定最小候補映像持続時間よりも短い映像を削除する。
【0129】
最後に、目標映像セットと目標画像セットを合併して、ナレーションに対応する候補素材リソースセットを取得する。
【0130】
ステップ204:ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0131】
本実施例において、上記実行主体は様々な実現方式を用いて、ナレーションにおける各段落に対し、ステップ203により確定した候補素材リソースセットから候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスを生成することができる。
【0132】
本実施例の一部の選択可能な実現方式において、ステップ204は図2Fに示されるステップ2041からステップ2042を含んでもよい。本出願によるステップ204の一実施例の分解フローチャートを示す図2Fを参照されたい。
【0133】
ステップ2041:ナレーションにおける各段落に対し、該段落と候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定する。
【0134】
ここで、上記実行主体は様々な実現方式を用いることができ、ナレーションにおける各段落に対し、該段落と候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定する。
【0135】
具体的に、候補素材リソースは映像又は画像であり得るため、ここで、テキストと映像とのマッチング度を計算する様々な方法を用いてナレーションにおける各段落と候補素材リソースセットにおける映像とのマッチング度を計算し、及び、テキストと画像とのマッチング度を計算する様々な方法を用いてナレーションにおける各段落と候補素材リソースセットにおける画像とのマッチング度を計算することができ、ここで具体的に限定しない。
【0136】
本実施例の一部の選択可能な実現方式において、ステップ2041は図2Gに示されるステップ20411からステップ20413を含んでもよい。本出願によるステップ2041の一実施例の分解フローチャートを示す図2Gを参照されたい。
【0137】
ステップ20411:ナレーションにおける各段落に対して、該段落に対応する意味ベクトルを確定する。
【0138】
ここで、様々な実現方式を用いて、段落に対応する意味ベクトルを確定することができ、即ち、計算の便宜上、段落をベクトル形式で表示することができる。
【0139】
例えば、バッグオブワードモデルを用いて段落に対応する意味ベクトルを生成することができる。具体的に言えば、Vをバッグオブワードモデルの中の辞書に含まれる単語の数にすれば、段落Pにとって、Pに含まれる辞書における1番目の単語からV番目の単語までの数をそれぞれxからxにすると、段落Pに対応するベクトルは{x,x,…,x}である。
【0140】
また、例えば、段落に対して単語分割処理を行い、段落に対応する分割単語シーケンスを取得し、得られた分割単語シーケンスにおける各単語に対して、予め確定した単語ベクトル表において該分割単語に対応する単語ベクトルを検索し、その後、得られた分割単語シーケンスにおける各単語に対応する単語ベクトルによって該段落に対応する意味ベクトルを確定することができる。例えば、得られた分割単語シーケンスにおける各単語に対応する単語ベクトルの平均値ベクトルを、該段落に対応する意味ベクトルとして確定することができる。さらに、例えば、得られた分割単語シーケンスにおける各分割単語に対応する単語ベクトルの各次元値の中間値に対応するベクトルを、該段落に対応する意味ベクトルとして確定することができる。ここで、単語ベクトル表は単語と単語ベクトルとの対応関係を示す。単語ベクトル表は予めトレーニングして取得できる。例えば、統計に基づく方法又は言語モデルに基づく方法を用いて単語ベクトル表をトレーニングして取得することができる。
【0141】
例えば、統計に基づく方法は共起行列法であってもよく、それは事前にサイズを指定したウィンドウ内の単語の共起回数を統計することで、単語周辺の単語の共起回数を現在の単語の単語ベクトルとする。具体的に言えば、大量コーパステキストから共起行列を作成することにより、該コーパステキストに出現した単語における各単語に対応する単語ベクトルを定義して、単語ベクトル表を得ることができる。
【0142】
また、統計に基づく方法は特異値分解法であってもよい。共起行列法に高次元性とスパース性の問題が存在するため、特異値分解法は共起行列法により得られた行列に対して、特異値分解を行い、行列直交行列を取得し、直交行列に対して正規化を行って行列を取得して、該コーパステキストに出現した単語における各単語に対応する単語ベクトルを定義し、続いて単語ベクトル表を得る。
【0143】
言語モデルに基づいて単語ベクトル表を生成することは、ニューラルネットワーク言語モデル(NNLM,Neural Network Language Model)のトレーニングにおいて、単語ベクトル表が言語モデルの付随品として作成されるものである。NNLMの背後にある基本的な考え方は、コンテキストに現れる単語を予測することであり、このようなコンテキストに対する予測は実質的に共起統計特徴に対する学習である。例として、NNLMを用いて単語ベクトルを生成する方法はSkip−gram、CBOW、LBL、NNLM、C&W、GloVeなどの方法を含むことができるが、それらに限定されない。
【0144】
ステップ20412:候補素材リソースセットにおける各候補素材リソースに対して、該候補素材リソースに対応する意味ベクトルを確定する。
【0145】
ここで、様々な実現方式を用いて候補素材リソースに対応する意味ベクトルを確定することができる。
【0146】
一部の実現方式において、ステップ20412は図2Hに示されるステップ204121からステップ204123を含んでもよい。本出願によるステップ20412の一実施例の分解フローチャートを示す図2Hを参照されたい。
【0147】
ステップ204121:該候補素材リソースが画像であるか、または映像であるかを判定する。
【0148】
該候補素材リソースが画像であると判定されると、ステップ204122へ進む。
【0149】
該候補素材リソースが映像であると判定されると、ステップ204122’ へ進む。
【0150】
ステップ204122:該画像候補素材リソースに対して意味的分割を行い、該画像候補素材リソースに対応する少なくとも1つの意味注釈結果を得る。
【0151】
ここで、ステップ204121において、該候補素材リソースが画像であると判定された状況において、様々な実現方式を用いて該画像候補素材リソースに対して意味的分割を行い、該画像候補素材リソースに対応する少なくとも1つの意味注釈結果を取得し、ここで、各意味注釈結果は1つの単語又はフレーズであり得る。例えば、該画像候補素材リソースが、草原でカモシカを追いかけるライオンの画像である場合、該画像に対して意味的分割を行うことにより取得した少なくとも1つの意味注釈結果は{「ライオン」,「草原」,「カモシカ」}であってもよい。
【0152】
なお、画像に対して意味的分割を如何に行うことは、現在で幅広く研究と応用している従来技術であり、ここで贅言しない。
【0153】
ステップ204123:得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて該候補素材リソースに対応する意味ベクトルを確定する。
【0154】
ステップ204122において少なくとも1つの意味注釈結果をすでに取得したが、ここで、先にステップ204122で得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルを確定することができる。その後、少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて該候補素材リソースに対応する意味ベクトルを確定することができ、例えば、平均値ベクトル又は中間値ベクトルの方法を用いることができる。
【0155】
ここで、各意味注釈結果に対応する単語ベクトルを確定する方法はステップ20411における関連記述を参照することができる。
【0156】
ステップ204123を経て、ステップ20412が終了する。
【0157】
ステップ204122’:該映像候補素材リソースに対してダウンサンプリングを行い、少なくとも1つのサンプル画像を得る。
【0158】
ここで、ステップ204121において該候補素材リソースが映像であると判定された状況において、様々な実現方式を用いて該映像候補素材リソースに対してダウンサンプリングを行い、少なくとも1つのサンプル画像を得ることができる。例えば、該候補素材リソースにおいて第1所定数(例えば、10)のフレームの画像おきに第2所定数(例えば、1)のフレームの画像をサンプリングし、少なくとも1つのサンプル画像を得ることができる。
【0159】
ステップ204123’:少なくとも1つのサンプル画像における各サンプル画像に対して、該サンプル画像に対して意味的分割を行い、該サンプル画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて該サンプル画像に対応する意味ベクトルを確定する。
【0160】
ここで、ステップ204123’において各サンプル画像に対して意味的分割を行い、及び、各サンプル画像に対して、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルに基づいて、該サンプル画像に対応する意味ベクトルを確定する具体的な操作は、ステップ204123に記述した対応する具体的な操作と実質的に同じであり、ここで贅言しない。
【0161】
ステップ204124’:各サンプル画像に対応する意味ベクトルに基づき、該候補素材リソースに対応する意味ベクトルを確定する。
【0162】
ステップ204123’において各サンプル画像に対応する意味ベクトルをすでに取得したので、ここで、ステップ204123’により得られた各サンプル画像に対応する意味ベクトルに基づいて、該候補素材リソースに対応する意味ベクトルを確定することができる。例えば、各サンプル画像に対応する意味ベクトルの平均値ベクトルを、該候補素材リソースに対応する意味ベクトルとして確定することができる。さらに、例えば、各サンプル画像に対応する意味ベクトルの各次元の取り得る値の中間値に対応するベクトルを、該候補素材リソースに対応する意味ベクトルとして確定することができる。
【0163】
ステップ204124’を経て、ステップ20412が終了する。
【0164】
ステップ20413:ナレーションにおける各段落に対応する意味ベクトルと候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定する。
【0165】
ここで、ベクトル同士間の類似度を計算する様々な方法を用いてナレーションにおける各段落に対応する意味ベクトルと候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を計算することができる。例えば、ベクトル同士間のユークリッド距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、標準化ユークリッド距離、マハラノビス距離、コサイン類似度、ハミング距離、ジャカード距離、ジャカード類似度係数、相関係数、相関距離および情報エントロピーなどを計算することにより、ベクトル同士間の類似度を確定することができる。
【0166】
ステップ2042:ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生持続時間及びナレーションにおける各段落のテキストの長さに基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0167】
ここで、上記実行主体は様々な実現方式を用いて、ステップ2041に確定されたナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生持続時間及びナレーションにおける各段落のテキストの長さに基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することができる。ここで、画像の再生持続時間は所定画像再生持続時間である。
【0168】
なお、ここで、映像タイプの候補素材リソースの再生持続時間は映像タイプの候補素材リソースの固有属性であり、不変である。画像タイプの候補素材リソースに対して、ここで、各画像タイプの候補素材リソースの再生持続時間を、一定の所定画像再生持続時間(例えば、3秒間)に設定することができる。それにより、すべての候補素材リソースはいずれも一定の再生持続時間属性を備えることができる。
【0169】
一部の実現方式において、ステップ2042は下記の通りに行っていてもよい。
【0170】
ナレーションにおける各段落に対して、第1プリセット最適化アルゴリズムを利用し、該段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、該段落に対応する候補素材リソースシーケンスと該段落のマッチング度が最も高いことを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定する。
【0171】
即ち、それぞれナレーションにおける各段落に対し、ステップ203に確定された候補素材リソースセットから順次配列された候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスを構成し、且つ、選択された該段落に対応する候補素材リソースシーケンスの再生持続時間は該段落に対応する再生持続時間に等しい。
【0172】
ここで、候補素材リソースシーケンスの再生持続時間は候補素材リソースシーケンスにおける各候補素材リソースの再生持続時間の合計である。段落に対応する再生持続時間は段落における文字数及び所定話速により確定される。例えば、所定話速は1秒間あたりN文字数である場合、段落における文字数はM個文字であれば、段落に対応する再生持続時間はL秒であり、ここで、LはMをNで割った比率である。
【0173】
ここで、第1プリセット最適化アルゴリズムは、制約要件と最適化目標を備える問題を解決できる様々な最適化アルゴリズムであってもよい。例えば、第1プリセット最適化アルゴリズムは動的計画アルゴリズムと経路最短最適化アルゴリズムを含むことができるが、それらに限定されない。
【0174】
一部の実現方式において、ステップ2042は下記の通りに行っていてもよい。
【0175】
第2プリセット最適化アルゴリズムを利用し、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと対応する段落のマッチング度の合計が最も大きいことを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0176】
上記の選択可能な実現方式に比べて、ここでの最適化目標は上記の選択可能な実現方式の最適化目標と異なる。上記の選択可能な実現方式において各段落に対してそれぞれ最適化を行い、各段落と該段落に対応する候補素材リソースシーケンスのマッチング度が最も高いことを最適化目標とする。ここで、選択可能な実現方式は、ナレーションにおける各段落全体に対して最適化を行い、ナレーションにおける各段落に対応する候補素材リソースシーケンスと対応する段落とのマッチング度の合計が最も高いことを最適化目標とする。
【0177】
ここで、第2プリセット最適化アルゴリズムは、制約要件と最適化目標を備える問題を解決できる様々な最適化アルゴリズムであってもよい。例えば、第2プリセット最適化アルゴリズムは動的計画アルゴリズムと経路最短最適化アルゴリズムを含むことができるが、それらに限定されない。
【0178】
一部の実現方式において、ステップ2042により確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスの中の候補素材リソースが互いに異なっていてもよい。それにより、後続のナレーションに対応する映像を生成するプロセス中に重複する画像又は映像が現れなく、生成された映像の読みやすさと鮮明さを高めることができる。ステップ2042で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスの中の候補素材リソースが互いに異なる場合、上記2種類の選択可能な実現方式における制約要件に、確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスの中の候補素材リソースが互いに異なるという制約要件を追加する必要があることを理解できる。
【0179】
ステップ205:ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成する。
【0180】
本実施例において、上記実行主体は、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成することができる。
【0181】
一部の実現方式において、ステップ205は下記の通りに行っていてもよい。
【0182】
まず、ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第1音声を取得することができる。
【0183】
次に、ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第1映像を取得することができる。
【0184】
ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
【0185】
最後に、得られた第1音声と第1映像を、それぞれナレーションに対応する映像における音声部分と映像部分として確定する。
【0186】
一部の実現方式において、ステップ205は図2Iに示されるステップ2051からステップ2056を含んでもよい。本出願によるステップ205の一実施例の分解フローチャートを示す図2Iを参照されたい。
【0187】
ステップ2051:ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得する。
【0188】
ここで、映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間との間の対応関係を表すことに用いられる。
【0189】
実際に、手動で編集されたニュース映像は通常司会者が発言する前に、映像が既に短時間再生された状態である。ナレーションを対象として生成した映像を人間の視聴習慣に合わせ、手動で編集されたニュース映像とさらに類似するように、予め大量の第3トレーニングサンプルに基づいて、映像アドバンス再生持続時間確定モデルをトレーニングすることができ、ここで、第3トレーニングサンプルはニュース映像サンプルに含まれるテキストと該ニュース映像サンプルにおけるナレーションの音声より早い映像の注釈時間を含むことができる。映像アドバンス再生持続時間確定モデルをトレーニングするステップは、上記点数計算モデルのトレーニングステップ又はビビット映像検出モデルのトレーニングステップとほぼ同じにすることができ、ここで贅言しない。
【0190】
ステップ2052:ナレーションにおける最後の段落以外の各段落に対して、ナレーションにおける該段落の前から後への順序に基づいて、映像段落編集ステップを実行する。
【0191】
ここで、映像段落編集ステップは以下の操作を含むことができる。
【0192】
第1、該段落の次の段落に対応する映像アドバンス再生持続時間を映像クリップ持続時間として決定する。
【0193】
第2、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、該段落に対応する映像を得る。
【0194】
第3、該段落に対応する映像末尾から映像クリップ持続時間分の映像を切り抜く。
【0195】
即ち、該解決手段は、ナレーションにおける第1段落以外の各段落に対応する映像をアドバンス再生し、且つ該段落の直前の段落の映像末尾を上書きすることであり、映像アドバンス再生と映像上書きの時間はステップ2051で確定した該段落に対応する映像アドバンス再生持続時間である。
【0196】
ステップ2053:ナレーションにおける最後の段落に対応する候補素材リソースシーケンスの中の各候補素材リソースを順次接続して、最後の段落に対応する映像を取得する。
【0197】
ステップ2054:ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第2映像を取得する。
【0198】
ステップ2055:ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第2音声を取得する。
【0199】
ステップ2056:得られた第2音声と第2映像を、それぞれナレーションに対応する映像における音声部分と映像部分として確定する。
【0200】
本実施例の一部の選択可能な実現方式において、ステップ205は図2Jに示されるステップ2051’からステップ2055’を含んでもよい。本出願によるステップ205のもう1つの実施例の分解フローチャートを示す図2Jを参照されたい。
【0201】
ステップ2051’:ナレーションにおける各段落に対して、予めトレーニングした映像アドバンス再生持続時間確定モデルに該段落を入力し、該段落に対応する映像アドバンス再生持続時間を取得する。
【0202】
ここで、ステップ2051’の具体的な操作はステップ2051の操作とほぼ同じであり、ここで贅言しない。
【0203】
ステップ2052’:ナレーションにおける最後の段落以外の各段落に対して、ナレーションにおける該段落の前から後への順序に基づいて、音声段落延長ステップを実行する。
【0204】
ここで、音声段落延長ステップは以下の操作を含むことができる。
【0205】
第1、該段落の次の段落に対応する映像アドバンス再生持続時間を音声延長時間として決定する。
【0206】
第2、該段落に対応する音声末尾に決定された音声延長時間分の無音再生持続時間を追加する。
【0207】
即ち、該解決手段は、ナレーションにおける第1段落以外の各段落に対応する映像をアドバンス再生し、且つ該段落の直前の段落の音声末尾に無音再生持続時間を追加することであり、映像アドバンス再生と音声延長時間はステップ2051’で確定された該段落に対応する映像アドバンス再生持続時間である。
【0208】
ステップ2053’:ナレーションにおける各段落の前から後への順序により、各段落に対応する音声を接続して、第3音声を取得する。
【0209】
ステップ2054’:ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第3映像を取得する。
【0210】
ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
【0211】
ステップ2055’:得られた第3音声と第3映像を、それぞれナレーションに対応する映像における音声部分と映像部分として決定する。
【0212】
引き続き、本実施例による映像を生成するための方法の適用シーンの概略図である図3を参照されたい。図3の適用シーンにおいて、ニュースウェブサイトをサポートするサーバ301は、まず目標ニュースクラスタ302のナレーション303を決定し、その後、サーバ301は音声合成技術を利用して、ナレーション303における各段落に対応する音声304を生成し、次に、サーバ301は目標ニュースクラスタ302に含まれる映像と画像に基づいて、ナレーションに対応する候補素材リソースセット305を確定し、その後、サーバ301はナレーション303における各段落に対応する候補素材リソースシーケンス306を確定し、最後に、サーバ301はナレーション303における各段落に対応する音声304と候補素材リソースシーケンス306に基づいて、ナレーションに対応する映像307を生成することができる。
【0213】
本出願の上記実施例により提供される方法は、まず、それぞれのニュースが同一ニュースイベントを対象とする目標ニュースクラスタのナレーションを確定し、その後、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成し、次に、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する候補素材リソースセットを確定し、ここで、候補素材リソースは映像又は画像であり、次に、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定し、最後に、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成する。これによって、目標ニュースクラスタのためのナレーション付きの映像の生成が実現される。
【0214】
さらに、映像を生成するための方法のもう1つの実施例のフロー400を示す図4Aを参照されたい。該映像を生成するための方法のフロー400は、以下のステップを含む。
【0215】
ステップ401:目標ニュースクラスタを決定する。
【0216】
本実施例において、映像を生成するための方法の実行主体(例えば、図1に示されるサーバ)は、様々な実現方式を用いて目標ニュースクラスタを確定することができ、ここで、目標ニュースクラスタは同一ニュースイベントを対象とする少なくとも1つのニュースからなる。
【0217】
本実施例の一部の選択可能な実現方式において、ステップ401は図4Bに示されるステップ4011からステップ4012を含んでもよい。本出願によるステップ401の一実施例の分解フローチャートを示す図4Bを参照されたい。
【0218】
ステップ4011:最近の第1所定持続時間内に生成されたニュースからなる少なくとも1つのニュースクラスタを取得する。
【0219】
ここで、上記実行主体(例えば、図1に示されるサーバ)は、上記実行主体にネットワークを介して接続される電子機器から最近の第1所定持続時間内に生成されたニュースからなる少なくとも1つのニュースクラスタをローカル又はリモートで取得することができ、ここで、各ニュースクラスタにおける各ニュースが同一ニュースイベントを対象とし、異なるニュースクラスタが異なるニュースイベントを対象とする。
【0220】
実際に、取得されたニュースに対して対応するニュースイベントを注釈することができる。それにより、上記実行主体はまず、最近の第1所定持続時間内(例えば、1日以内)に生成されたニュースを取得し、その後に取得した少なくとも1つのニュースを対象に、対応するニュースイベント別に異なるニュースクラスタを構成することができる。
【0221】
取得したニュースには対応するニュースイベントが注釈されていない場合、上記実行主体はまず、最近の第1所定持続時間内(例えば、1日以内)に生成されたニュースを取得し、その後に取得したニュースに対して様々なに実現方式を用いてクラスタリングを行い、同じカテゴリに分類されたニュースは1つのニュースクラスタとして構成され、異なるカテゴリに分類されたニュースは異なるニュースクラスタに属し、そうすると、少なくとも1つのニュースクラスタを取得することができることが理解され得る。例えば、実際に、ニュースは通常ニュースヘッドラインを備え、上記実行主体は取得した各ニュースのニュースヘッドラインに対してクラスタリングを行い、ニュースヘッドラインのクラスタを該ニュースヘッドラインに対応するニュースのクラスタとすることができる。
【0222】
ステップ4012:少なくとも1つのニュースクラスタに基づいて目標ニュースクラスタを確定する。
【0223】
ここで、上記実行主体(例えば、図1に示されるサーバ)は様々な実現方式を用いて少なくとも1つのニュースクラスタに基づいて目標ニュースクラスタを確定することができる。
【0224】
ここで、目標ニュースクラスタは1つのニュースクラスタであってもよく、少なくとも2つのニュースクラスタであってもよい。
【0225】
目標ニュースクラスタが1つのニュースクラスタである場合、上記実行主体は確定された1つのニュースクラスタを目標ニュースクラスタとして、後続のステップ402からステップ408を実行することができる。
【0226】
確定された目標ニュースクラスタが少なくとも2つのニュースクラスタである場合、上記実行主体は確定された少なくとも2つのニュースクラスタにおける各ニュースクラスタをそれぞれ目標ニュースクラスタとして、ステップ402からステップ408を実行することができる。即ち、確定された目標ニュースクラスタがN個のニュースクラスタであり、Nが2以上の正の整数である場合、上記実行主体は確定されたN個のニュースクラスタにおける各ニュースクラスタに対して、いずれも該ニュースクラスタを目標ニュースクラスタとしてステップ402からステップ408を実行することができる。
【0227】
一部の実現方式において、ステップ4012は下記の通りに行っていてもよい。
【0228】
まず、ステップ4011で確定された少なくとも1つのニュースクラスタにおける各ニュースクラスタを、該ニュースクラスタにおける最近の第2所定持続時間内に生成されたニュースの数の降順によってソートすることができる。
【0229】
ここで、第2所定持続時間は第1所定持続時間と同じであっても、異なっていてもよい。
【0230】
次に、少なくとも1つのニュースクラスタにおける所定ソート範囲内でソートされた各ニュースクラスタを目標ニュースクラスタとして確定する。
【0231】
ここで、所定ソート範囲は様々な形式のものであってもよい。例えば、所定ソート範囲は比率又は百分率の形式であり得る。例として、所定ソート範囲はトップ10%からトップ20%の間にあり得る。また、例えば、ソート範囲は、ソート順番の範囲であり得る。例として、所定ソート範囲はソート順番の上位10名から20名の間であり得る。
【0232】
実際に、所定ソート範囲によって確定された目標ニュースクラスタは、少なくとも1つのニュースクラスタにおける最近の第2所定持続時間内に生成されたニュースの数が最大及び最小のニュースクラスタを除去することができ、即ち、目標ニュースクラスタは最も人気があるニュースイベントや最も人気のないニュースイベントを対象としなく、中間程度の人気のニュースイベントを対象とするものである。最もホットなニュースイベントに対して、多くの人がこのニュースイベントを既に知るため、ユーザが最もホットなニュースイベントのナレーションとナレーションに対応する映像を視聴する確率が低く、そのため、最もホットなニュースイベントに対応するニュースクラスタのナレーションとナレーションに対応する映像を生成しないことは、リソース(例えば、CPUリソース、記憶リソース及びI/Oリソース)の消費を減少することができる。逆に、もっとも人気のないニュースイベントに対して、人々がこのニュースイベントに興味を持たないことを意味するため、このニュースイベントを知る人がほとんどいなく、このようなニュースイベントに対してナレーションとナレーションに対応する映像を生成しても、ユーザが興味を持たないため、このようなニュースイベントのために生成されたナレーションとナレーションに対応する映像を視聴する確率も低く、そのため、最も人気のないニュースイベントに対応するニュースクラスタのためのナレーションとナレーションに対応する映像を生成しないことも、リソース(例えば、CPUリソース、記憶リソース及びI/Oリソース)の消費を減少することができる。ここで、最も人気のあるニュースイベント又は最も人気のないニュースイベントは少なくとも1つのニュースイベントであり得ることを理解できる。
【0233】
一部の実現方式において、ステップ4012はさらに下記の通りに行っていてもよい。
【0234】
少なくとも1つのニュースクラスタにおける各高品質ニュースクラスタを目標ニュースクラスタとして確定する。
【0235】
ここで、高品質ニュースクラスタにおけるニュースに含まれる画像の数が、所定最小画像数より大きく、ニュースに含まれる映像の数が、所定最小映像数より大きい。例えば、所定最小画像数と所定最小映像数が5であり得る。
【0236】
ここで、所定最小画像数と所定最小映像数は技術者が大量の過去のニュースに対する統計分析に基づいて予め設定した数であってもよい。所定最小画像数と所定最小映像数はニーズに応じて改めて設定されてもよい。
【0237】
実際に、ニュースクラスタにおけるニュースに含まれる画像数が多く、且つ含まれる映像の数も多い場合、該ニュースクラスタが鮮明で面白く、ユーザの興味を起こしやすいことがわかり、そのようなニュースクラスタのために生成されたナレーションとナレーションに対応する映像も、ユーザの興味を起こす可能性が大きく、続いて、ユーザが高品質ニュースクラスタのために生成されたナレーションとナレーションに対応する映像を視聴する確率も高まる。そのため、高品質ニュースクラスタとしてのニュースクラスタのみにナレーションとナレーションに対応する映像を生成することは、リソース(例えば、CPUリソース、記憶リソース及びI/Oリソース)の消費を減少することができる。
【0238】
一部の実現方式において、ステップ4012は下記の通りに行っていてもよい。
【0239】
まず、少なくとも1つのニュースクラスタにおける各ニュースクラスタに対して、該ニュースクラスタにおける各ニュースに基づいて、該ニュースクラスタに対応するニュースイベントのトピックス、及び、確定されたニュースイベントのトピックスの現在の出現頻度を確定する。
【0240】
ここで、様々な実現方式を用いてニュースクラスタに対応するニュースイベントのトピックス、及び、確定されたニュースイベントのトピックスの現在の出現頻度を確定することができる。ここで、ニュースクラスタに対応するニュースイベントのトピックスは、ニュースクラスタにおける各ニュースが表現する意味を示す。実際に、ニュースイベントのトピックスは少なくとも1つの単語又はフレーズを含むことができ、確定されたニュースイベントのトピックスの現在の出現頻度は、確定されたニュースイベントのトピックスの、該ニュースクラスタの各ニュースにおける出現頻度を指す。
【0241】
例えば、LDA(ドキュメントトピックス生成モデル、Latent Dirichlet Allocation)を用いて、ステップ4011で確定された該ニュースクラスタにおける各ニュースに基づいて、該ニュースクラスタにおける各ニュースに対応するニュースイベントのトピックスを確定し、且つ確定されたニュースイベントのトピックスの確率分布値を、確定されたニュースイベントのトピックスの現在の出現頻度として確定する。
【0242】
次に、少なくとも1つのニュースクラスタにおける各ニュースクラスタに対応するニュースイベントのトピックスの現在の出現頻度から、該ニュースイベントのトピックスの過去の出現頻度を引いた頻度差を確定する。
【0243】
ここで、該ニュースイベントの過去の出現頻度は、過去のニュースにおける該ニュースクラスタに対応するニュースイベントのトピックスと同じである過去のニュースに基づいて確定できる。
【0244】
最後に、少なくとも1つのニュースクラスタにおける対応するニュースイベントのトピックスの頻度差が所定頻度差閾値より大きいニュースクラスタを目標ニュースクラスタとして確定する。
【0245】
ここで、ニュースクラスタに対応するニュースイベントのトピックスの頻度差が所定頻度差閾値より大きい場合、該ニュースクラスタに対応するニュースイベントが本来目立たなかったが、突然に注目されることがわかり、この場合、該ニュースクラスタが重要視されるべきであり、このようなニュースクラスタに対して生成されたナレーションとナレーションに対応する映像は、もっと多くのユーザにより視聴される可能性がある。
【0246】
なお、上記実行主体はさらに上記第1種、第2種及び第3種の選択可能な実現方式の少なくとも2種類の実現方式を組み合わせて目標ニュースクラスタを確定することができる。
【0247】
ステップ402:目標ニュースクラスタのナレーションを確定する。
【0248】
ステップ403:音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成する。
【0249】
ステップ404:目標ニュースクラスタに含まれる映像と画像に基づいて、ナレーションに対応する候補素材リソースセットを確定する。
【0250】
ステップ405:ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0251】
本実施例において、ステップ402、ステップ403、ステップ404及びステップ405の具体的な操作は図2Aに示される実施例の中のステップ201、ステップ202、ステップ203及びステップ204の操作とほぼ同じであり、ここで贅言しない。
【0252】
ステップ406:ナレーションにおける各段落に対して、単色素材リソース検出ステップを実行する。
【0253】
本実施例において、上記実行主体はナレーションにおける各段落に対して、単色素材リソース検出ステップを実行する。前記単色素材リソース検出ステップは、該段落に対応する候補素材リソースシーケンスにおける各素材リソースに対して、該素材リソースが映像であると判定されたことと該映像素材リソースに単色画像フレームが存在することとに応答して、該素材リソースにおける単色画像フレームを削除するステップと、該素材リソースが画像であると判定されたことと該画像素材リソースが単色画像であることとに応答して、該段落に対応する候補素材リソースシーケンスから該素材リソースを削除するステップとを含む。
【0254】
ここで、単色画像又は単色画像フレームに1種の画素値が存在し、単色画像又は単色画像フレームの各画素点において、画素値は、該画素値の画素点の数と単色画像又は単色画像フレームに含まれる画素点の数との比が所定比率を超え、例えば、所定比率が0.8であり得る。例えば、黒い画像におけるすべての画素点の画素値はいずれも黒い色を示す。
【0255】
実際に、単色画像又は単色画像フレームに含まれる情報が限られるか、或いは情報が含まれないため、単色画像又は単色画像フレームを残すと、後続に生成されるナレーションに対応する映像は実質的に有効情報が含まれず、そのため、単色画像又は単色画像フレームを削除する必要がある。
【0256】
ステップ407:ナレーションにおける各段落に対して、アライメント検出ステップを実行する。
【0257】
本実施例において、ステップ406でナレーションにおける段落に対応する候補素材リソースシーケンスの中の単色画像又は単色画像フレームが削除された可能性があるため、ナレーションにおける段落に対応する音声の持続時間が、該段落に対応する候補素材シーケンスの再生持続時間より長いことをもたらす可能性があり、そのため、上記実行主体は以下のアライメント検出ステップを実行することができる。ここで、アライメント検出ステップは、以下の操作を含むことができる。該段落に対応する音声の再生持続時間が該段落に対応する候補素材リソースシーケンスの再生持続時間よりも長いという判定に応答して、該段落に対応する候補素材リソースシーケンスにおける画像タイプの候補素材リソースの再生持続時間を延長するか、或いは、候補素材リソースセットから候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスの中に追加し、それにより、該段落に対応する音声の再生持続時間が、該段落に対応する候補素材リソースシーケンスの再生持続時間に等しくなる。
【0258】
ステップ407を経て、ナレーションにおける各段落に対して、該段落に対応する音声の再生持続時間が、いずれも該段落に対応する候補素材リソースシーケンスの再生持続時間に等しい。
【0259】
ステップ408:ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成する。
【0260】
本実施例において、ステップ408の具体的な操作は図2Aに示される実施例の中のステップ205の操作とほぼ同じであり、ここで贅言しない。
【0261】
ステップ409:ナレーションに対応する映像を端末装置に送信する。
【0262】
本実施例において、上記実行主体はステップ408で生成されたナレーションに対応する映像を端末装置に送信することができる。ここで、端末装置は上記実行主体とネットワークを介して接続される電子機器であってもよい。それにより、上記端末装置は、上記実行主体により送信された映像に応答して、受信された映像を表示し、さらに端末装置に目標ニュースクラスタのナレーションに対応する映像を表示することを実現することができる。ユーザは端末装置で表示される目標ニュースクラスタのナレーションに対応する映像を視聴することにより、目標ニュースクラスタの対象となるニュースイベントを素早く把握でき、ユーザが文字を閲覧することにより目標ニュースクラスタの対象となるニュースイベントを把握する必要がなくなり、ユーザがニュースイベント情報を取得する効率を高めることができる。
【0263】
本実施例の一部の選択可能な実現方式において、上記実行主体はさらにステップ409を実行した後に、以下のステップ410からステップ415を実行することができる。
【0264】
ステップ410:目標ニュースクラスタのナレーションの確定から、ナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を取得する。
【0265】
即ち、ここで、上記実行主体はステップ401からステップ408までの実行中に係る少なくとも1つのパラメータの現在値を取得する必要がある。例えば、少なくとも1つのパラメータは、第1所定持続時間、第2所定持続時間、第3所定持続時間、所定最大話速、所定最大音声持続時間、所定最大映像持続時間、所定最小候補映像持続時間、第1プリセット最適化アルゴリズム、第2プリセット最適化アルゴリズム、所定画像再生持続時間、所定ソート範囲、所定最小画像数、所定最小映像数、所定頻度差閾値及び所定比率のうち、少なくとも1項を含むことができる。
【0266】
ステップ411:ナレーションに対応する映像の映像評価点数を確定する。
【0267】
ここで、上記実行主体は様々な実現方式を用いてナレーションに対応する映像の映像評価点数を確定することができる。ここで、ナレーションに対応する映像の映像評価点数は、ユーザがナレーションに対応する映像をいろんな方面から評価する総合的な点数を反映し、例えば、映像評価点数は、ユーザが該映像を視聴したいか、生成された映像とナレーションのマッチング度、生成された映像と手動で編集された映像とのマッチング度、生成された映像とニュースクラスタの対象となるニュースイベントとのマッチング度のうち、少なくとも1項を反映することができる。
【0268】
一部の実現方式において、上記実行主体又は上記実行主体とネットワークを介して接続されるほかの電子機器(例えば、図1に示される端末装置)で、少なくとも1つのパラメータの現在値によって生成された、目標ニュースクラスタのナレーションに対応する映像を対象として評価するユーザインターフェースをユーザに提供することができる。その後、上記実行主体は、ユーザが少なくとも1つのパラメータの現在値によって生成された目標ニュースクラスタのナレーションに対応する映像を対象として上記ユーザインターフェースで入力した評価点数をローカル又はリモートで上記電子機器から受信することができる。それにより、上記実行主体は、少なくとも1人のユーザが少なくとも1つのパラメータの現在値によって生成されたナレーションに対応する映像を視聴する映像評価点数を取得し、また、取得された各映像評価点数の平均値を、クラスタにおける少なくとも1つのパラメータの現在値によって生成されたナレーションに対応する映像の映像評価点数として確定することができる。
【0269】
一部の実現方式において、ステップ411は下記の通りに行っていてもよい。
【0270】
まず、少なくとも1人のユーザがナレーションに対応する映像を視聴する視聴行動情報を取得する。ここで、視聴行動情報は、ユーザがナレーションに対応する映像を視聴するプロセス中の様々な行動を特徴付ける。
【0271】
一部の実現方式において、視聴行動情報は、映像識別子、ユーザ識別子、ユーザ画像情報、映像が開いたか否かを示す識別子、映像視聴総時間、映像を閉じる時の映像再生持続時間のうちの少なくとも1項を含むことができる。ここで、映像識別子は少なくとも1つのパラメータの現在値によって生成されたナレーションに対応する映像を一意に示すことに用いられる。ユーザ識別子は少なくとも1つのパラメータの現在値によって生成されたナレーションに対応する映像を視聴するユーザを一意に示すことに用いられる。ユーザ画像情報はユーザの様々な関連情報を説明することに用いられる。例えば、ユーザ画像情報は、ユーザの性別、年齢、興味、出身地、仕事場所、居住地、職業、消費習慣、生活習慣などを含むことができるが、それらに限定されない。映像が開いたか否かを示す識別子は、ユーザ識別子により示されるユーザが映像識別子により示される映像を開いたか否かを示すことに用いられる。映像視聴総時間は、ユーザ識別子により示されるユーザが映像識別子により示される映像を視聴した総時間を示すことに用いられる。映像を閉じる時の映像再生持続時間は、ユーザ識別子により示されるユーザが映像識別子により示される映像を閉じた時の該映像の現在再生持続時間を示すことに用いられる。
【0272】
その後、取得された各視聴行動情報に対して、該視聴行動情報に対応する映像評価点数を確定する。
【0273】
ここで、様々な実現方式を用いて、取得された各視聴行動情報に対して、該視聴行動情報に対応する映像評価点数を確定することができる。
【0274】
一部の実現方式において、視聴行動情報に含まれる映像評価に関連する項目のそれぞれに対して、対応する重みを事前設定し、その後、視聴行動情報における映像評価に関連する各項目の取り得る値と対応する重みの加重合計結果を計算し、加重合計結果を、該視聴行動情報に対応する映像評価点数として確定することができる。例えば、映像が開いたか否かを示す識別子が0である場合、ユーザが映像を開いていないことを示し、映像が開いたか否かを示す識別子が1である場合、ユーザが映像を開いたことを示す。映像が開いたか否かを示す識別子と映像評価点数とが正の相関関係になるように、映像が開いたか否かを示す識別子に対応する重みを設定するすることができる。さらに、例えば、映像視聴総時間と映像評価点数とが正の相関関係になるように、映像視聴総時間に対応する重みを設定することができ、さらに、映像を閉じる時の映像再生持続時間と映像評価点数とが正の相関関係になるように、映像を閉じる時の映像再生持続時間に対応する重みを設定することができる。さらに、例えば、視聴行動情報には、転送したか否かを示す識別子、いいねをしたか否かを示す識別子など、ユーザが該映像を気に入り、続いて気に入りに対応する操作を行ったことが含まれ得る場合、映像が開いたか否かを示す識別子と同様に、転送したか否かを示す識別子が0である場合、ユーザが映像を転送していないことを示し、転送したか否かを示す識別子が1である場合、ユーザが映像を転送したことを示す。転送したか否かを示す識別子と映像評価点数とが正の相関関係になるように、転送したか否かを示す識別子に対応する重みを設定することができる。いいねをしたか否かを示す識別子にも同様な操作を行うことができ、ここで贅言しない。
【0275】
一部の実現方式において、映像視聴総時間と映像識別子により示される映像の総時間との比を、該視聴行動情報に対応する映像評価点数として決定することができる。
【0276】
最後に、確定された各映像評価点数の平均値を、少なくとも1つのパラメータの現在の取り得る値によって生成されたナレーションに対応する映像の映像評価点数として決定することができる。
【0277】
ステップ412:少なくとも1つのパラメータの現在値に対して特徴抽出を行い、特徴表現を得る。
【0278】
ここで、上記実行主体は、様々な実現方式を用いて、少なくとも1つのパラメータの現在の取り得る値に対して特徴抽出を行い、特徴表現を得ることができる。ここで、特徴表現は様々な形式であってもよく、例えば、特徴表現はベクトル形式、即ち、特徴ベクトルであってもよい。実際に、特徴表現は少なくとも1つのパラメータの現在の取り得る値に対して次元数がより低くて計算できる特徴を示している。
【0279】
目標ニュースクラスタのナレーションの確定から、目標クラスタのナレーションに対応する映像の生成までのプロセスに係るパラメータが異なるため、少なくとも1つのパラメータの現在の取り得る値に対して特徴抽出を行う方法も異なる場合があることが理解される。例えば、主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)及び線形判別分析(Linear Discriminant Analysis,LDA)などの方法を用いて特徴抽出を行うことができる。
【0280】
ステップ413:特徴表現と確定された映像評価点数を予めトレーニングした評価ネットワークに入力して、予測映像評価点数を得る。
【0281】
ここで、評価ネットワークは人工ニューラルネットワーク(Artificial Neural Network,ANN)であってもよい。なお、上記評価ネットワークは、特徴表現及び映像評価点数と、予測映像評価点数との間の対応関係を表すことに用いられる。
【0282】
ステップ414:特徴表現と予測映像評価点数を予めトレーニングした行動ネットワークに入力して、現在の行動情報を得る。
【0283】
ここで、上記行動ネットワークは人工ニューラルネットワークであってもよい。なお、上記行動ネットワークは、特徴表現及び映像評価点数の両者と、行動情報との間の対応関係を表すことに用いられ、ここで、行動情報は、目標ニュースクラスタのナレーションの確定から目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在の取り得る値を如何に調整することを示す。
【0284】
一部の実現方式において、上記行動ネットワークと評価ネットワークは集中学習ネットワークトレーニングステップによって予めトレーニングすることにより取得できる。本出願に係る予めトレーニングした行動ネットワークと評価ネットワークの集中学習ネットワークトレーニングステップの一実施例のフロー500を示す図5を参照されたい。該集中学習ネットワークトレーニングステップは、以下のステップ501からステップ505を含むことができる。
【0285】
ステップ501:初期行動ネットワークのネットワーク構造を確定し、且つ初期行動ネットワークのネットワークパラメータを初期化する。
【0286】
ここで、集中学習ネットワークトレーニングステップの実行主体は、映像を生成するための方法の実行主体と同じであってもよく、異なっていてもよい。実行主体が同じである場合、集中学習ネットワークトレーニングステップの実行主体は、トレーニングにより行動ネットワークと評価ネットワークを取得した後にトレーニング済みの行動ネットワークと評価ネットワークのネットワーク構造情報とネットワークパラメータのパラメータ値をローカルに記憶することができる。実行主体が異なる場合、集中学習ネットワークトレーニングステップの実行主体はトレーニングにより行動ネットワークと評価ネットワークを取得した後にトレーニング済みの行動ネットワークと評価ネットワークのネットワーク構造情報とネットワークパラメータのパラメータ値を、映像を生成するための方法の実行主体に送信することができる。
【0287】
ここで、集中学習ネットワークトレーニングステップの実行主体は、まず初期行動ネットワークのネットワーク構造を確定することができる。ここで、初期行動ネットワークは人工ニューラルネットワークであってもよい。ここで、初期行動ネットワークにはどの層が含まれるか、層間の接続順序関係、及び各層にはどのようなニューロンが含まれるか、各ニューロンに対応する重みとバイアス、各層の活性化関数などを確定できる。初期行動ネットワークは様々なタイプのニューラルネットワークを含むことができ、異なるタイプのニューラルネットワークに対して、確定すべきネットワーク構造も異なることが理解され得る。
【0288】
その後、集中学習ネットワークトレーニングステップの実行主体は、初期行動ネットワークのネットワークパラメータを初期化することができる。実際に、初期行動ネットワークの各ネットワークパラメータ(例えば、重みパラメータとバイアスパラメータ)を異なる小さな乱数で初期化することができる。「小さな乱数」を用いれば、重みが大きすぎることを原因でネットワークが飽和状態になり、トレーニングの失敗をもたらすことを回避できるように確保し、「異なる」とはネットワークが正常に学習できるようにするためのものである。
【0289】
ステップ502:初期評価ネットワークのネットワーク構造を確定し、且つ初期評価ネットワークのネットワークパラメータを初期化する。
【0290】
ここで、集中学習ネットワークトレーニングステップの実行主体は、まず初期評価ネットワークのネットワーク構造を確定することができる。その後、集中学習ネットワークトレーニングステップの実行主体は、初期評価ネットワークのネットワークパラメータを初期化することができる。
【0291】
ここで、初期評価ネットワークは人工ニューラルネットワークであってもよく、人工ニューラルネットワークのネットワーク構造を如何に確定するか、及び、人工ニューラルネットワークのネットワークパラメータを如何に初期化するかは、ステップ501における関連説明を参照することができるため、ここで贅言しない。
【0292】
ステップ503:少なくとも1つのパラメータの現在値を初期化する。
【0293】
ここで、集中学習ネットワークトレーニングステップの実行主体は、目標ニュースクラスタのナレーションの確定から、目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を初期化することができる。
【0294】
ステップ504:所定の第3トレーニング終了要件を満たすまでパラメータ調整ステップを実行する。
【0295】
ここで、集中学習ネットワークトレーニングステップの実行主体は、所定の第3トレーニング終了要件を満たすまでパラメータ調整ステップを実行することができ、パラメータ調整ステップは、サブステップ5041からサブステップ5046を含むことができる。
【0296】
サブステップ5041:少なくとも1つのパラメータの現在値に対して特徴抽出を行い、サンプル特徴表現を得る。
【0297】
サブステップ5042:少なくとも1つのパラメータの現在値に対応する注釈映像評価点数を取得する。
【0298】
ここで、集中学習ネットワークトレーニングステップの実行主体は、集中学習ネットワークトレーニングステップの実行主体とネットワークを介して接続されるほかの電子機器から、少なくとも1つのパラメータの現在値に対応する注釈映像評価点数をローカル或いはリモートで取得できる。ここで、少なくとも1つのパラメータの現在値に対応する注釈映像評価点数は、少なくとも1つのパラメータの現在値によって生成された目標ニュースクラスタのナレーションに対応する映像を視聴した後、視聴された映像を手動で注釈する映像評価点数であってもよい。
【0299】
サブステップ5043:サンプル特徴表現と注釈映像評価点数を初期評価ネットワークに入力して、サンプル予測映像評価点数を得る。
【0300】
ここで、サブステップ5041で得られたサンプル特徴表現とサブステップ5042で得られた注釈映像評価点数を初期評価ネットワークに入力して、サンプル予測映像評価点数を得ることができる。
【0301】
サブステップ5044:サンプル特徴表現とサンプル予測映像評価点数を初期行動ネットワークに入力して、予測行動情報を得る。
【0302】
ここで、サブステップ5041で得られたサンプル特徴表現とサブステップ5043で得られたサンプル予測映像評価点数を初期行動ネットワークに入力して、予測行動情報を得ることができる。
【0303】
サブステップ5045:予測行動情報に基づいて少なくとも1つのパラメータの現在値を調整する。
【0304】
ここで、行動情報は、目標ニュースクラスタのナレーションの確定から目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を如何に調整することを示すため、ここで、サブステップ5044で得られた予測行動情報に応じて、少なくとも1つのパラメータの現在値を調整することができる。
【0305】
サブステップ5046:サンプル予測映像評価点数と取得された注釈映像評価点数との差に基づいて評価ネットワークのネットワークパラメータを調整し、及び、得られた注釈映像評価点数を最大化することを最適化目標として、行動ネットワークのネットワークパラメータを調整する。
【0306】
ここで、様々な実現方式を用いて、サンプル予測映像評価点数と取得された注釈映像評価点数との差に基づいて評価ネットワークのネットワークパラメータを調整し、得られた注釈映像評価点数を最大化することを最適化目標として、行動ネットワークのネットワークパラメータを調整することができる。
【0307】
例えば、確率的勾配降下、ニュートン法、準ニュートン法、共役勾配法、ヒューリスティックな最適化手法及びほかの既知又は未来に開発しようとする様々な最適化アルゴリズムを用いることができる。
【0308】
例えば、ここで、所定の第3トレーニング終了要件は、トレーニング時間が第6所定持続時間を超えること、トレーニング回数が第3所定回数を超えること、サンプル予測映像評価点数と取得された注釈映像評価点数との差が第3所定差閾値よりも小さいことのうちの少なくとも1項を含むことができる。
【0309】
ステップ505:初期行動ネットワークと初期評価ネットワークを、それぞれ予めトレーニングした行動ネットワークと評価ネットワークとして決定する。
【0310】
上記ステップ501からステップ505により、行動ネットワークと評価ネットワークをトレーニングして取得することができる。
【0311】
ステップ414を経て、現在の行動情報を取得する。
【0312】
ステップ415:現在の行動情報により、少なくとも1つのパラメータの現在値を調整する。
【0313】
行動情報は、目標ニュースクラスタのナレーションの確定から目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を如何に調整することを示すため、ステップ414で得られた現在の行動情報にも、目標ニュースクラスタのナレーションの確定から目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在値を如何に調整する情報が含まれ、したがって、ここで、上記実行主体は様々な実現方式を用いて、現在の行動情報に基づいて、少なくとも1つのパラメータの現在値を調整することができる。例えば、現在の行動情報は、あるパラメータの現在値への増減分、乗算係数、或いは、どの値に直接設定するかを示すことができる。
【0314】
ステップ415を実行した後、上記実行主体は引き続きステップ401を実行することができ、調整後の少なくとも1つのパラメータのパラメータ値に基づいて、目標ニュースクラスタのナレーションの確定から、目標ニュースクラスタのナレーションに対応する映像の生成までのプロセスを再実行する。ステップ415において少なくとも1つのパラメータのパラメータ値を既に調整したため、調整後のパラメータは調整前のパラメータに比べてさらに最適化されており、行動ネットワークと評価ネットワークの最適化目標がガイドされ得るため、調整後のパラメータに基づいて生成された目標ニュースクラスタのナレーションに対応する映像の映像評価点数は、調整前のパラメータに基づいて生成された目標ニュースクラスタのナレーションに対応する映像の映像評価点数よりも高い。
【0315】
図4Aから分かるように、図2Aに対応する実施例に比べて、本実施例における映像を生成するための方法のフロー400では、目標ニュースクラスタの確定、単色素材リソースの検出、アライメント検出、及びナレーションに対応する映像を端末装置に送信するステップが追加された。そのため、本実施例により記述される技術案は、受信された目標ニュースクラスタに対応する映像を端末装置に表示することができる。ユーザは端末装置で表示された目標ニュースクラスタのナレーションに対応する映像を視聴することにより、目標ニュースクラスタの対象となるニュースイベントを素早く把握でき、ユーザが文字を閲覧することにより目標ニュースクラスタの対象となるニュースイベントを把握する必要がなくなり、端末装置を介してニュースイベントを取得する効率が高まれ、端末装置の情報表示機能が拡張された。
【0316】
さらに図6に示すように、上記各図に示される方法の実現として、本出願は映像を生成するための装置の一実施例を提供し、該装置の実施例は図2に示される方法の実施例に対応しており、該装置は具体的に様々な電子機器に適用できる。
【0317】
図6に示すように、本実施例の映像を生成するための装置600は、ナレーション確定ユニット601、音声生成ユニット602、素材リソースセット確定ユニット603、素材リソースシーケンス確定ユニット604及び映像生成ユニット605を備える。ここで、ナレーション確定ユニット601は、それぞれのニュースが同一ニュースイベントを対象とする目標ニュースクラスタのナレーションを確定するように構成される。音声生成ユニット602は、音声合成技術を利用して、前記ナレーションにおける各段落に対応する音声を生成するように構成される。素材リソースセット確定ユニット603は、前記目標ニュースクラスタに含まれる映像と画像に基づき、前記ナレーションに対応する候補素材リソースセットを確定するように構成され、ここで、候補素材リソースは映像又は画像である。素材リソースシーケンス確定ユニット604は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される。映像生成ユニット605は、前記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、前記ナレーションに対応する映像を生成するように構成される。
【0318】
本実施例において、映像を生成するための装置600のナレーション確定ユニット601、音声生成ユニット602、素材リソースセット確定ユニット603、素材リソースシーケンス確定ユニット604及び映像生成ユニット605の具体的な処理及びそれらによる技術的効果は、それぞれ図2Aに対応する実施例におけるステップ201、ステップ202、ステップ203、ステップ204及びステップ205の関連説明を参照することができるため、ここで贅言しない。
【0319】
本実施例の一部の選択可能な実現方式において、上記装置600は、目標ニュースクラスタのナレーションを確定する前に、目標ニュースクラスタを確定するように構成される目標ニュースクラスタ確定ユニット(図示せず)をさらに備えることができる。
【0320】
本実施例の一部の選択可能な実現方式において、上記目標ニュースクラスタ確定ユニット(図示せず)は、最近の第1所定持続時間内に生成されたニュースからなる少なくとも1つのニュースクラスタを取得するように構成されるニュースクラスタ取得モジュール(図示せず)と、上記少なくとも1つのニュースクラスタに基づいて上記目標ニュースクラスタを確定するように構成される目標ニュースクラスタ確定モジュール(図示せず)を備えることができる。
【0321】
本実施例の一部の選択可能な実現方式において、上記目標ニュースクラスタ確定モジュール(図示せず)はさらに、上記少なくとも1つのニュースクラスタにおける各ニュースクラスタを上記目標ニュースクラスタとして確定するように構成され得る。
【0322】
本実施例の一部の選択可能な実現方式において、上記目標ニュースクラスタ確定モジュール(図示せず)はさらに、上記少なくとも1つのニュースクラスタにおける各ニュースクラスタを、該ニュースクラスタ内の最近の第2所定持続時間内に生成されたニュースの数の降順に従ってソートし、上記少なくとも1つのニュースクラスタにおける所定ソート範囲内にソートされた各ニュースクラスタを上記目標ニュースクラスタとして確定するように構成され得る。
【0323】
本実施例の一部の選択可能な実現方式において、上記目標ニュースクラスタ確定モジュール(図示せず)はさらに、上記少なくとも1つのニュースクラスタにおける各高品質ニュースクラスタを上記目標ニュースクラスタとして確定するように構成され得る。ここで、高品質ニュースクラスタにおけるニュースに含まれる画像の数が、所定最小画像数より大きく、及び、含まれた映像の数が、所定最小映像数より大きい。
【0324】
本実施例の一部の選択可能な実現方式において、上記目標ニュースクラスタ確定モジュール(図示せず)はさらに、上記少なくとも1つのニュースクラスタのそれぞれに対して、該ニュースクラスタにおける各ニュースに基づいて該ニュースクラスタに対応するニュースイベントのトピックス及び確定されたニュースイベントのトピックスの現在の出現頻度に基づいて、上記少なくとも1つのニュースクラスタのそれぞれに対応するニュースイベントのトピックスの現在の出現頻度から該ニュースイベントのトピックスの過去の出現頻度を引いた頻度差を確定し、上記少なくとも1つのニュースクラスタにおける対応するニュースイベントのトピックスの頻度差が所定頻度差閾値より大きいニュースクラスタを上記目標ニュースクラスタとして確定するように構成され得る。
【0325】
本実施例の一部の選択可能な実現方式において、上記ナレーション確定ユニット601は、上記目標ニュースクラスタにおける各ニュースに対して、該ニュースのナレーションの生成に適する点数を確定するように構成される点数確定モジュール(図示せず)と、上記目標ニュースクラスタにおけるナレーションの生成に適する点数が最も高いニュースを目標ニュースとして確定するように構成される目標ニュース確定モジュール(図示せず)と、上記目標ニュースに基づいて、上記目標ニュースクラスタのナレーションを生成するように構成されるナレーション生成モジュール(図示せず)とを備えることができる。
【0326】
本実施例の一部の選択可能な実現方式において、上記ナレーション生成モジュール(図示せず)はさらに、上記目標ニュースに含まれるテキストを目標テキストとして確定し、上記目標テキストに含まれるナレーションに不適切なテキストを削除し、ここで、ナレーションに不適切なテキストは予め確定されたナレーションに不適切なテキストのセットにおけるテキストであり、上記目標テキストに含まれる書き言葉を同じ意味の話し言葉に置き換え、上記目標テキストに対して要約抽出を行って取得した要約テキストを上記目標ニュースクラスタのナレーションとして確定するように構成され得る。
【0327】
本実施例の一部の選択可能な実現方式において、上記した上記目標テキストに対して要約抽出を行って取得した要約テキストを上記目標ニュースクラスタのナレーションとして確定することは、所定最大話速と所定最大音声持続時間に応じてナレーションの最大文字数を確定することと、上記目標テキストに対して要約抽出を行い、且つ抽出された要約テキストの文字数を上記ナレーションの最大文字数よりも少なくすることと、抽出された要約テキストを上記目標ニュースクラスタのナレーションとして確定することとを含むことができる。
【0328】
本実施例の一部の選択可能な実現方式において、上記点数確定モジュール(図示せず)はさらに、該ニュースの少なくとも1種の特徴における特徴値を抽出し、抽出された少なくとも1種の特徴値に基づいて、該ニュースのナレーションの生成に適する点数を確定するように構成され得る。
【0329】
本実施例の一部の選択可能な実現方式において、上記点数確定モジュール(図示せず)はさらに、該ニュースに含まれるテキストを、テキストとナレーションの生成に適するテキストの点数との対応関係を表すための予めトレーニングされた点数計算モデルに入力して、該ニュースのナレーションの生成に適する点数を取得するように構成され得る。
【0330】
本実施例の一部の選択可能な実現方式において、上記素材リソースセット確定ユニット603はさらに、上記目標ニュースクラスタに含まれる映像と画像を、上記ナレーションに対応する候補素材リソースセットとして確定するように構成され得る。
【0331】
本実施例の一部の選択可能な実現方式において、上記素材リソースセット確定ユニット603は、上記目標ニュースクラスタに含まれる各映像に対して意味的分割を行って取得した少なくとも1つの映像セグメントを目標映像セットとして確定するように構成される目標映像セット確定モジュール(図示せず)と、上記目標ニュースクラスタに含まれる各画像を目標画像セットとして確定するように構成される目標画像セット確定モジュール(図示せず)と、上記目標映像セットと上記目標画像セットに基づいて、上記ナレーションに対応する映像又は画像である候補素材リソースからなる候補素材リソースセットを確定するように構成される素材リソースセット確定モジュール(図示せず)とを含むことができる。
【0332】
本実施例の一部の選択可能な実現方式において、上記素材リソースセット確定モジュール(図示せず)はさらに、上記目標映像セットと上記目標画像セットを合併して、上記ナレーションに対応する候補素材リソースセットを取得するように構成され得る。
【0333】
本実施例の一部の選択可能な実現方式において、上記素材リソースセット確定モジュール(図示せず)はさらに、上記目標映像セットにおける各目標映像に対して、該目標映像を、映像とビビット映像であるか否かを示すためのビビット映像検出結果との対応関係を表すための予めトレーニングされたビビット映像検出モデルに入力して、該目標映像に対応するビビット映像検出結果を取得し、上記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示す目標映像を削除し、上記目標映像セットと上記目標画像セットを合併して、上記ナレーションに対応する候補素材リソースセットを得るように構成され得る。
【0334】
本実施例の一部の選択可能な実現方式において、上記素材リソースセット確定モジュール(図示せず)はさらに、上記目標映像セットにおける対応するビビット映像検出結果が非ビビット映像を示す目標映像を削除した後、上記目標映像セットにおける映像再生持続時間が所定最小候補映像持続時間よりも短い映像を削除するように構成され得る。
【0335】
本実施例の一部の選択可能な実現方式において、上記ナレーションに対応する映像における画像の再生持続時間は所定画像再生持続時間であってもよく、及び、上記素材リソースシーケンス確定ユニット604は、上記ナレーションにおける各段落に対して、該段落と上記候補素材リソースセットにおける各候補素材リソースとのマッチング度を確定するように構成されるマッチング度確定モジュール(図示せず)と、上記ナレーションにおける各段落と各上記候補素材リソースとのマッチング度、各上記候補素材リソースの再生持続時間及び上記ナレーションにおける各段落のテキストの長さに基づいて、上記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成される素材リソースシーケンス確定モジュール(図示せず)とを備えることができる。
【0336】
本実施例の一部の選択可能な実現方式において、上記マッチング度確定モジュール(図示せず)はさらに、上記ナレーションにおける各段落に対して、該段落に対応する意味ベクトルを確定し、上記候補素材リソースセットにおける各候補素材リソースに対して、該候補素材リソースに対応する意味ベクトルを確定し、上記ナレーションにおける各段落に対応する意味ベクトルと上記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとの類似度を、対応する段落と対応する候補素材リソースとのマッチング度として確定するように構成され得る。
【0337】
本実施例の一部の選択可能な実現方式において、上記した上記ナレーションにおける各段落に対応する意味ベクトルと上記候補素材リソースセットにおける各候補素材リソースに対応する意味ベクトルとのマッチング度を、対応する段落と対応する候補素材リソースとのマッチング度として確定することは、該候補素材リソースが画像であると判定されたことに応答して、該画像候補素材リソースに対して意味的分割を行い、該画像候補素材リソースに対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルによって、該候補素材リソースに対応する意味ベクトルを確定し、該候補素材リソースが映像であると判定されたことに応答して、該映像候補素材リソースに対してダウンサンプリングを行い、少なくとも1つのサンプル画像を取得し、上記少なくとも1つのサンプル画像のそれぞれに対して、該サンプル画像に対して意味的分割を行い、該サンプル画像に対応する少なくとも1つの意味注釈結果を取得し、及び、得られた少なくとも1つの意味注釈結果における各意味注釈結果に対応する意味ベクトルによって、該サンプル画像に対応する意味ベクトルを確定し、各上記サンプル画像に対応する意味ベクトルによって、該候補素材リソースに対応する意味ベクトルを確定することを含むことができる。
【0338】
本実施例の一部の選択可能な実現方式において、上記素材リソースシーケンス確定モジュール(図示せず)はさらに、上記ナレーションにおける各段落に対して、第1プリセット最適化アルゴリズムを利用し、該段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大であることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成され得る。
【0339】
本実施例の一部の選択可能な実現方式において、上記素材リソースシーケンス確定モジュール(図示せず)はさらに、第2プリセット最適化アルゴリズムを利用し、上記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生持続時間が該段落に対応する再生持続時間に等しいことを制約要件とし、上記ナレーションにおける各段落に対応する候補素材リソースシーケンスと対応する段落とのマッチング度の合計が最大であることを最適化目標とし、上記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成され得る。
【0340】
本実施例の一部の選択可能な実現方式において、上記ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。
【0341】
本実施例の一部の選択可能な実現方式において、上記映像生成ユニット605はさらに、上記ナレーションにおける各段落の前から後への順序によって、各段落に対応する音声を接続して、第1音声を取得し、上記ナレーションにおける各段落の前から後への順序により、各段落に対応する映像を接続して、第1映像を取得し、ここで、段落に対応する映像は該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であり、得られた第1音声と第1映像をそれぞれ上記ナレーションに対応する映像における音声部分と映像部分として確定するように構成され得る。
【0342】
本実施例の一部の選択可能な実現方式において、上記映像生成ユニット605はさらに、上記ナレーションにおける各段落に対して、該段落を、予めトレーニングした映像アドバンス再生持続時間確定モデルに入力して、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、上記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間との対応関係を示し、上記ナレーションにおける最後の段落以外の各段落に対して、該段落の上記ナレーションにおける前から後への順序に従って、段落映像編集ステップを実行するように構成され得る。前記段落映像編集ステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を映像クリップ持続時間として確定し、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、該段落に対応する映像を取得し、該段落に対応する映像末尾から上記映像クリップ持続時間分の映像を切り抜き、上記ナレーションにおける最後の段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、最後の段落に対応する映像を取得し、上記ナレーションにおける各段落の前から後への順序に従って、各段落に対応する映像を接続して第2映像を取得し、及び、上記ナレーションにおける各段落の前から後への順序に従って、各段落に対応する音声を接続して、第2音声を取得し、得られた第2音声と第2映像をそれぞれ上記ナレーションに対応する映像における音声部分と映像部分として確定することを含む。
【0343】
本実施例の一部の選択可能な実現方式において、上記映像生成ユニット605はさらに、上記ナレーションにおける各段落に対して、該段落を、予めトレーニングした映像アドバンス再生持続時間確定モデルに入力して、該段落に対応する映像アドバンス再生持続時間を取得し、ここで、上記映像アドバンス再生持続時間確定モデルは、テキストとテキストに対応する映像アドバンス再生持続時間との対応関係を示し、上記ナレーションにおける最後の段落以外の各段落に対して、該段落の上記ナレーションにおける前から後への順序に従って、段落音声延長ステップを実行するように構成され得る。前記段落音声延長ステップは、該段落の次の段落に対応する映像アドバンス再生持続時間を音声延長持続時間として確定し、該段落に対応する音声末尾に、確定された音声延長持続時間分の無音再生持続時間を追加し、上記ナレーションにおける各段落の前から後への順序に従って、各段落に対応する音声を接続して、第3音声を取得し、上記ナレーションにおける各段落の前から後への順序に従って、各段落に対応する映像を接続して、第3映像を取得し、ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像であり、得られた第3音声と第3映像をそれぞれ上記ナレーションに対応する映像における音声部分と映像部分として確定することを含む。
【0344】
本実施例の一部の選択可能な実現方式において、上記装置600はさらに、上記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づいて、上記ナレーションに対応する映像を生成する前に、上記ナレーションにおける各段落に対して、該段落に対応する候補素材リソースシーケンスにおける各素材リソースに対して、単色素材リソース検出ステップを実行するように構成される単色素材リソース検出ユニット(図示せず)を含んでもよい。前記単色素材リソース検出ステップは、該素材リソースが映像であると判定されたことと、該映像素材リソースに単色画像フレームが存在することとに応答して、該素材リソースにおける単色画像フレームを削除するステップと、該素材リソースが画像であると判定されたことと、該画像素材リソースが単色画像であることとに応答して、該段落に対応する候補素材リソースシーケンスから該素材リソースを削除するステップとを含む。
【0345】
本実施例の一部の選択可能な実現方式において、上記装置600はさらに、上記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づいて、上記ナレーションに対応する映像を生成する前に、上記ナレーションにおける各段落に対して、アライメント検出ステップを実行するように構成されるアライメント検出ユニット(図示せず)を含んでもよい。前記アライメント検出ステップは、該段落に対応する音声の再生持続時間が該段落に対応する候補素材リソースシーケンスの再生持続時間より長いと判定されたことに応答して、該段落に対応する候補素材リソースシーケンスにおける画像タイプの候補素材リソースの再生持続時間を延長するか、或いは、該段落に対応する音声の再生持続時間を、該段落に対応する候補素材リソースシーケンスの再生持続時間に等しくするように、上記候補素材リソースセットから候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスの中に追加することを含む。
【0346】
本実施例の一部の選択可能な実現方式において、上記装置600は、上記ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、上記ナレーションに対応する映像を生成した後、上記ナレーションに対応する映像を端末装置に送信するように構成される映像送信ユニット(図示せず)をさらに含んでもよい。
【0347】
本実施例の一部の選択可能な実現方式において、上記装置600は、目標ニュースクラスタのナレーションの確定から、上記ナレーションに対応する映像の生成までのプロセスにおける少なくとも1つのパラメータの現在の取り得る値を取得するように構成されるパラメータ現在値取得ユニット(図示せず)と、上記ナレーションに対応する映像の映像評価点数を確定するように構成される映像評価点数確定ユニット(図示せず)と、上記少なくとも1つのパラメータの現在値に対して特徴抽出を行い、特徴表現を得るように構成される特徴抽出ユニット(図示せず)と、上記特徴表現と確定された映像評価点数を予めトレーニングした評価ネットワークに入力して、予測映像評価点数を得るように構成される第1入力ユニット(図示せず)と、上記特徴表現と上記予測映像評価点数を予めトレーニングした行動ネットワークに入力して、現在の行動情報を得るように構成される第2入力ユニット(図示せず)と、上記現在の行動情報に応じて、上記少なくとも1つのパラメータの現在値を調整するように構成されるパラメータ調整ユニット(図示せず)とをさらに含んでもよい。
【0348】
本実施例の一部の選択可能な実現方式において、上記装置600は、上記少なくとも1つのパラメータの現在値により、目標ニュースクラスタのナレーションの確定から、上記ナレーションに対応する映像の生成までのプロセスを再実行するように構成される映像再生成ユニット(図示せず)をさらに含んでもよい。
【0349】
なお、本出願の実施例により提供される映像を生成するための装置における各ユニットの実現詳細と技術的効果は本出願のほかの実施例における説明を参照することができるため、ここで贅言しない。
【0350】
次に、本出願の実施例を実現するためのサーバに適するコンピュータシステム700の構造概略図を示す図7を参照されたい。図7に示されるサーバはあくまでも一例に過ぎなく、本出願の実施例の機能と使用範囲を制限するものではない。
【0351】
図7に示すように、コンピュータシステム700は、読み取り専用メモリ(ROM,Read Only Memory)に格納されたプログラム又は記憶部分708からランダムアクセスメモリ(RAM,Random Access Memory)703にローディングされたプログラムによって様々な適切な行動と処理を実行することができる1つまたは複数の中央処理装置(CPU,Central Processing Unit)701を含み得る。RAM703において、システム700の操作に必要な様々なプログラムとデータがさらに格納される。CPU701、ROM702及びRAM703はバス704を介して互いに接続される。入力/出力(I/O,Input/Output)インターフェース705もバス704に接続される。
【0352】
キーボード、マウスなどが含まれる入力部706、陰極線管(CRT,Cathode Ray Tube)、液晶ディスプレイ(LCD,Liquid Crystal Display)など及びスピーカなどが含まれる出力部707と、ハードウェアなどが含まれる記憶部708、及びLAN(ローカルエリアネットワーク,Local Area Network)カード、モデムなどのネットワークインターフェースカードなどが含まれる通信部709という構成要素がI/Oインターフェース705に接続される。通信部709はインターネットなどのネットワークを介して通信処理を行う。ドライバ710も所望によりI/Oインターフェース705に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア711が所望によりドライバ710に取り付けられ、それにより、それらの媒体から読み取られたコンピュータプログラムが必要に応じて記憶部708にインストールされる。
【0353】
特に、本開示の実施例により、フローチャートを合わせて説明したプロセスは、コンピュータソフトウェアプログラムとして実装されることができる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは、コンピュータ可読媒体に格納されたコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは通信部709を介してネットワークからダウンロードされてインストールされ、及び/又は、リムーバブルメディア711からインストールされてもよい。該コンピュータプログラムが中央処理装置(CPU)701により実行される時、本出願の方法に限定される上記機能を実行する。なお、本出願の上記コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者のいずれかの組み合わせであってもよい。コンピュータ可読記憶媒体は電気、磁気、光学、電磁気、赤外線、或いは、半導体のシステム、装置又はデバイス、或いは、以上のいずれかの組み合わせであってもよいが、それらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例は、1本又は複数本のワイヤを備える電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュディスク)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、又は上記いずれかの適切な組み合わせを含んでもよいが、それらに限定されない。本出願において、コンピュータ可読記憶媒体はプログラムを含むか又は格納するいずれかの有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用されるか又はそれと合わせて使用される。本出願では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、または組み合わせて使用されるプログラムを送信、伝播、または伝送できる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、ワイヤレス、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。
【0354】
本出願の動作を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。前記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピュータ上で実行されることも、部分的にユーザーのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバー上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続されることができる。または、外部のコンピュータに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
【0355】
添付図面のうちのフローチャートおよびブロック図は、本出願の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための1つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
【0356】
本出願の実施例に記載されたユニットはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。記載されたユニットはプロセッサに設置されてもよく、例えば、ナレーション確定ユニット、音声生成ユニット、素材リソースセット確定ユニット、素材リソースシーケンス確定ユニット及び映像生成ユニットを備えるプロセッサとして記載することができる。ここで、これらのユニットの名称は、特定の状況下では当該ユニット自体に対する制限を構成するものではなく、例えば、ナレーション確定ユニットは、目標ニュースクラスタのナレーションを確定するユニットとして記載されてもよい。
【0357】
ほかの1つの態様として、本出願はさらにコンピュータ可読媒体を提供し、該コンピュータ可読媒体は上記実施例に記載の装置に含まれてもよく、該装置に組み込まれずに別個に存在してもよい。上記コンピュータ可読媒体は1つ又は複数のプログラムを格納し、上記1つ又は複数のプログラムが該装置により実行される時、該装置は、それぞれ同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定し、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成し、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する候補素材リソースセットを確定し、ここで、候補素材リソースは映像又は画像であり、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定し、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成する。
【0358】
もう1つの態様として、本出願の実施例は、インターフェースと、1つ又は複数のプログラムが記憶されるメモリと、それぞれが同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定することと、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成することと、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定することと、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することと、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成することに用いられる操作上に上記インターフェースと上記メモリに接続される1つ又は複数のプロセッサと、を備えるほかのサーバをさらに提供する。
【0359】
さらに1つの態様として、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を提供し、ここで、上記コンピュータプログラムが1つ又は複数のプロセッサにより実行される際、上記1つ又は複数のプロセッサは、それぞれが同一ニュースイベントを対象とするニュースからなる目標ニュースクラスタのナレーションを確定し、音声合成技術を利用して、ナレーションにおける各段落に対応する音声を生成し、目標ニュースクラスタに含まれる映像と画像に基づき、ナレーションに対応する、映像又は画像である候補素材リソースからなる候補素材リソースセットを確定し、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定し、ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づき、ナレーションに対応する映像を生成する。
【0360】
上記の説明は、あくまでも本出願の好ましい実施例および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

図1
図2A
図2B
図2C
図2D
図2E
図2F
図2G
図2H
図2I
図2J
図3
図4A
図4B
図5
図6
図7