(58)【調査した分野】(Int.Cl.,DB名)
前記方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む、請求項1に記載の方法。
前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
前記ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む、請求項3に記載の方法。
前記ナレーションにおける各段落と前記各候補素材リソースとのマッチング度、前記各候補素材リソースの再生時間長、および前記ナレーションにおける各段落のテキスト長に基づいて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、
第2の事前設定された最適化アルゴリズムを用いて、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスと、その段落とのマッチング度の和が最大となることを最適化目標とし、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む、請求項3に記載の方法。
前記装置は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む、請求項9に記載の装置。
前記装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む、請求項10に記載の装置。
【発明の概要】
【0004】
本出願の実施形態は、段落と映像を整列させるための方法および装置を提案する。
【0005】
第1の態様では、本開示の実施例は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための方法を提供する。
【0006】
いくつかの実施例において、該方法は、前記ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、前記ナレーションに対応する映像を生成するステップをさらに含む。
【0007】
いくつかの実施例において、該方法は、端末装置が受信した映像を提示できるように、ナレーションに対応する映像を端末装置に送信するステップをさらに含む。
【0008】
いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定することを含む。
【0009】
いくつかの実施例において、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップは、第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと
その段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することを含む。
【0010】
いくつかの実施例において、ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。
【0011】
いくつかの実施例において、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
【0012】
いくつかの実施例において、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
【0013】
第2の態様では、本開示の実施例は、段落と映像を整列させるための装置であって、該装置は、ナレーションとナレーションに対応する候補素材リソースのセットを取得するように構成された第1取得ユニットと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第2取得ユニットと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニットと、を含み、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、段落と映像を整列させるための装置を提供する。
【0014】
いくつかの実施例において、該装置は、ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成するように構成された映像生成ユニットをさらに含む。
【0015】
いくつかの実施例において、該装置は、端末装置が受信した映像を提示できるように、前記ナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニットをさらに含む。
【0016】
いくつかの実施例において、確定ユニットはさらに、ナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。
【0017】
いくつかの実施例において、確定ユニットはさらに、第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと関連段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。
【0018】
いくつかの実施例において、ナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる。
【0019】
いくつかの実施例において、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
【0020】
いくつかの実施例において、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムである。
【0021】
第3の態様では、本開示の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含むサーバーであって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1の態様のいずれか一つの実施形態に記載の方法を実施させるサーバーを提供する。
【0022】
第4の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、第1の態様のいずれか一つの実施形態に記載の方法を実施するコンピュータ可読記憶媒体を提供する。
【0023】
第5の態様では、本開示の実施例は、他のサーバーであって、インターフェースと、1つまたは複数のプログラムが記憶されているメモリと、前記インターフェースおよび前記メモリに動作可能に接続されている1つまたは複数のプロセッサとを備え、前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップの実行に用いられ、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である、サーバーを提供する。
【0024】
第6の態様では、本開示の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムが1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得するステップと、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するステップと、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するステップを行い、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長であるコンピュータ可読記憶媒体を提供する。
【0025】
ユーザーのニュース取得効率を向上させるためには、従来技術ではニュースクラスタのためのナレーションが生成されることが多く、ユーザーは文字形式のナレーションを読んでニュース要約を取得する必要があり、ナレーションに対応する映像が生成されない。本出願の実施形態で提供される段落と映像を整列させるための方法および装置は、ナレーションと、ナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法および装置は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。
【発明を実施するための形態】
【0027】
本出願は、添付の図面および実施形態を参照して、以下でさらに詳細に説明される。本明細書に記載される特定の実施形態は、発明を限定するものではなく、該発明の単なる例示であることを理解されたい。また、説明の便宜上、関連する発明に関連する部分のみが図面に示されていることにも留意されたい。
【0028】
なお、衝突しない前提では、本出願の実施形態および実施形態における特徴は相互に組み合わせることができる。以下は、添付図面を参照しつつ実施形態を踏まえて、本出願を詳しく説明する。
【0029】
図1は、本出願に係る段落と映像を整列させるための方法または段落と映像を整列させるための装置の実施形態を適用できる例示的なシステムアーキテクチャ100を示している。
【0030】
図1に示されるように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバー105と、を含み得る。ネットワーク104は、端末装置101、102、103とサーバー105との間に通信リンクの媒体を提供する。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
【0031】
ユーザーは、端末装置101、102、103を使用して、メッセージ等を受信または送信するために、ネットワーク104を介してサーバー105と対話することができる。端末装置101、102、103には、ウェブブラウザアプリケーション、ショッピング系アプリケーション、検索系アプリケーション、インスタント通信ツール、メールクライアント、ソーシャルプラットフォームソフトウェアなど、様々な通信クライアントアプリケーションがインストールされ得る。
【0032】
端末装置101、102、103は、ハードウェアであってもソフトウェアであってもよいことに留意されたい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、MP3プレーヤー(Moving Picture Experts Group Audio Layer III)、MP4プレーヤー(Moving Picture Experts Group Audio Layer IV)、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を有する様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされることができる。また、複数のソフトウェアもしくはソフトウェアモジュールとして実施されることも、または単一のソフトウェアもしくはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。
【0033】
サーバー105は、端末装置101、102、103に表示されるニュース系サイトをサポートするバックグラウンドサイトサーバーなど、様々なサービスを提供するサーバーであり得る。バックグラウンドサイトサーバーは、受信したニュース系ページ要求などのデータについて分析などの処理を行い、処理結果(例えば、ニュース系ウェブページデータ)を端末にフィードバックすることができる。
【0034】
なお、本明細書の実施形態で提供される段落と映像を整列させるための方法は、一般にサーバー105によって実行されるため、段落と映像を整列させるための装置は、一般にサーバー105内に設けられる。
【0035】
なお、サーバー105はハードウェアであってもソフトウェアであってもよい。サーバー105がハードウェアである場合、複数のサーバーからなる分散サーバークラスタとして実施されることも、単一のサーバーとして実施されることも可能である。サーバー105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、ニュースウェブページサービスを提供するため)として実施されることも、単一のソフトウェアまたはソフトウェアモジュールとして実施されることも可能である。ここで特に限定されない。
【0036】
図1の端末装置、ネットワークおよびサーバーの数は単なる例示的なものであることを理解されたい。実施の必要に応じて、任意の数の端末装置、ネットワーク、サーバーを配置することができる。
【0037】
引き続き
図2を参照すると、本出願に係る段落と映像を整列させるための方法の一実施形態のプロセス200が示されている。この段落と映像を整列させるための方法には、次のステップ(ステップ201〜203)が含まれる。
【0038】
ステップ201:ナレーションとナレーションに対応する候補素材リソースのセットを取得する。
【0039】
本実施形態では、段落と映像を整列させるための方法の実行主体(例えば、
図1に示されるサーバー105)は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションとナレーションに対応する候補素材リソースのセットをローカルまたは遠隔的に取得することができる。
【0040】
ここで、ナレーションは少なくとも1つの段落を含み得る。ナレーションは1つのイベントまたは1つのテーマに関するものであり得る。
【0041】
例えば、ナレーションは1つのニュースイベントに関するものであり得る。ここで、ニュースイベントとは、最近の第1の事前設定された期間内(例えば、3ヶ月以内)に発生したイベントのことである。例えば、1つのニュースイベントを記述するナレーションは、そのニュースイベントに対するニュースにおけるテキスト部分を要約して抽出したテキストであり得る。ここで、ニュースは、様々な形のニュースイベントに対する電子データであり得る。ニュースは、テキスト、画像、音声、映像の内の少なくとも1つを含み得る。例えば、ニュースはウェブページであっても様々なドキュメントであってもよい。ドキュメントは、テキスト、画像、音声、映像の内の少なくとも1つを含み得る。また、ニュースは、単なるテキスト、画像または映像であってもよい。
【0042】
ここで、ナレーションに対応する候補素材リソースのセットには、ナレーションに対するニュースイベントやトピックに関する映像や画像が格納されている。ナレーションに対応する候補素材リソースのセットは、様々な実施方式を用いて得られる。
【0043】
例えば、ナレーションがニュースイベントEに対するものである場合、ナレーションに対応する候補素材リソースのセットは、ニュースイベントEに対するニュースクラスタCに含まれている各映像と画像から構成されていてもよい。ここで、ニュースクラスタCには、少なくとも1つのニュースが含まれており、各ニュースはいずれもニュースイベントEに対するものである。
【0044】
また、例えば、ナレーションがニュースイベントEに対するものである場合、ナレーションに対応する候補素材リソースのセットは、次のような操作を経て得られる。
【0045】
まず、ニュースイベントEに対するニュースクラスタCに含まれている各ニュースにおける各映像を意味分割し、少なくとも1つの映像セグメントを取得して、取得された各映像セグメントをターゲット映像セットとして確定する。
【0046】
次に、ターゲット映像セットとターゲット画像セットを統合してナレーションに対応する候補素材リソースのセットを取得する。該ターゲット画像セットは、ニュースイベントに対するニュースクラスタCに含まれている各画像からなる。
【0047】
ステップ202:ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。
【0048】
本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、上記の実行主体が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度をローカルに取得することができる。
【0049】
本実施形態では、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度は、ネットワークを介して上記の実行主体に接続された他の電子機器が様々な実施方法を用いて算出したものであり得る。このようにして、上記の実行主体は、ネットワークを介して上記の実行主体に接続された他の電子機器から、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を遠隔的に取得することができる。
【0050】
具体的には、候補素材リソースは映像または画像であり得るため、ここでは、テキストと映像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける映像とのマッチング度を計算することができる。また、テキストと画像とのマッチング度を計算するための様々な方法を用いて、ナレーションにおける各段落と候補素材リソースのセットにおける画像とのマッチング度を計算することができる。本出願では、これに対して具体的に限定しない。
【0051】
ステップ203:ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0052】
本実施形態では、上記の実行主体は、様々な実施方法を採用して、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定することができる。ここで、画像の再生時間長は、事前設定された画像の再生時間長である。
【0053】
なお、ここで、映像タイプの候補素材リソースの再生時間長は、映像タイプの候補素材リソースの固有属性であって、一定なものである。一方、画像タイプの候補素材リソースの場合、ここでは、各画像タイプの候補素材リソースの再生時間長を、一定の事前設定された画像再生時間長(例えば、3秒)に設定することができる。このようにして、すべての候補素材リソースは、固定された再生時間長属性を持つことができる。
【0054】
本実施形態のいくつかのオプションの実施方法では、ステップ203は、次のように行うことができる。
【0055】
ナレーションにおける各段落については、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定する。
【0056】
すなわち、ナレーションにおける各段落については、ステップ202で取得された候補素材リソースのセットから順番に並べられた候補素材リソースを選択して、該段落に対応する候補素材リソースシーケンスをそれぞれ構成する。ここで、選択された該段落に対応する候補素材リソースシーケンスの再生時間長は、該段落に対応する再生時間長に等しい。
【0057】
ここで、候補素材リソースシーケンスの再生時間長は、候補素材リソースシーケンスにおける各候補素材リソースの再生時間長の和である。一方、段落に対応する再生時間長は、段落における文字数と事前設定された話速によって決まる。例えば、事前設定された話速を1秒あたりN文字、段落における文字数をM文字とすると、段落に対応する再生時間長はL秒となる。ここで、LはMをNで割った比である。
【0058】
ここで、第1の事前設定された最適化アルゴリズムは、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。
【0059】
本実施形態のいくつかのオプションの実施方法では、ステップ203は、次のように行うことができる。
【0060】
第2の事前設定された最適化アルゴリズムを用いて、ナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスと
その段落とのマッチング度の和が最大となることを最適化目標とし、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0061】
上記のオプションの実施方法と比較して、ここでの最適化目標は、上記のオプションの実施方法の最適化目標とは異なる。上記のオプションの実施方法では、各段落をそれぞれ最適化し、各段落と該段落に対応する候補素材リソースシーケンスとのマッチング度が最大となることを最適化目標とする。一方、ここでのオプションの実施方法では、ナレーションにおける各段落全体を最適化し、ナレーションにおける各段落に対応する候補素材リソースシーケンスと
その段落とのマッチング度の和が最大となることを最適化目標としている。
【0062】
ここで、第2の事前設定された最適化アルゴリズムも、制約条件と最適化目標を解決できる様々な最適化アルゴリズムであり得る。例えば、第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムと最短経路最適化アルゴリズムを含むことができるが、それらに限定されない。
【0063】
本実施形態のいくつかのオプションの実施方法では、ステップ203で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースは、互いに異なっていてもよい。その結果、その後に生成されたナレーションに対応する映像には重複する画像や映像がなく、生成された映像の読みやすさやビビッドさが向上する。ステップ203で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なる場合、上記の2つのオプションの実施方法における制約条件には、確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なるという制約条件を加える必要があることを理解されたい。
【0064】
引き続き
図3を参照すると、
図3は、本出願に係る段落と映像を整列させるための方法の適用シナリオを示す概略図である。
図3の適用シナリオにおいて、ニュース系サイトをサポートするサーバー301は、まず、ナレーション302とナレーション302に対応する候補素材リソースのセット303を取得することができる。次に、サーバー301は、ナレーション302の各段落と候補素材リソースのセット303における各候補素材リソースとのマッチング度304を取得することができる。最後に、サーバー301は、ナレーション302における各段落と候補素材リソースのセット303における各候補素材リソースとのマッチング度304、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーション302における各段落に対応する候補素材リソースシーケンス305を確定することができる。
【0065】
本出願の上記の実施形態によって提供される方法は、ナレーションとナレーションに対応する、映像または画像からなる候補素材リソースのセットを取得することにより、ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、画像の再生時間長が事前設定された画像再生時間長である。この方法は、その後にナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいてナレーションに対応する映像を生成するのにデータソースを提供し、またその後に生成されたナレーションに対応する映像とナレーションとのマッチング度を向上させることができる。
【0066】
さらに
図4Aを参照すると、本出願に係る段落と映像を整列させるための方法の別の実施形態のプロセス400が示されている。この段落と映像を整列させるための方法の別の実施形態のプロセス400は、次のステップ(ステップ401〜405)を含む。
【0067】
ステップ401:ナレーションとナレーションに対応する候補素材リソースのセットを取得する。
【0068】
ステップ402:ナレーションにおける各段落と候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得する。
【0069】
ステップ403:ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。
【0070】
本実施形態では、ステップ401、ステップ402、およびステップ403の具体的な動作は、
図2に示される実施形態におけるステップ201、ステップ202、およびステップ203の動作とほぼ同じであるため、ここでは省略する。
【0071】
ステップ404:ナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。
【0072】
本実施形態では、上記の実行主体は、ステップ403で確定されたナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成することができる。
【0073】
本実施形態のいくつかのオプションの実施方法では、ステップ404は、
図4Bに示されるステップ4041とステップ4042を含み得る。
図4Bを参照すると、本出願に係るステップ404の一実施形態の分解フローチャートが示されている。
【0074】
ステップ4041:ナレーションにおける各段落について、音声合成技術を用いて、該段落に対応する音声を生成する。
【0075】
なお、音声合成技術は現在幅広く研究され応用されている先行技術であるため、ここではその説明を省略する。
【0076】
ステップ4042:ナレーションにおける各段落に対応する音声と候補素材リソースシーケンスに基づいて、ナレーションに対応する映像を生成する。
【0077】
いくつかの実施方法では、ステップ4042は次のように行うことができる。
【0078】
まず、ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続し、第1の音声を取得することができる。
【0079】
次に、ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第1の映像を取得することができる。
【0080】
ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
【0081】
最後に、取得した第1の音声と第1の映像を、それぞれ、ナレーションに対応する映像における音声部分と映像部分として確定する。
【0082】
いくつかの実施方法では、ステップ4042は、
図4Cに示されるステップ40421〜ステップ40426を含むこともできる。
図4Cを参照すると、本出願に係るステップ4042の一実施形態の分解フローチャートが示されている。
【0083】
ステップ40421:ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力して、該段落に対応する映像アドバンスプレイ時間長を取得する。
【0084】
ここで映像アドバンスプレイ時間決定モデルは、テキストとテキストに対応する映像アドバンスプレイ時間長との対応関係を表す。
【0085】
実際には、手動で編集されたニュース映像では、司会者が発話する前に映像の再生がすでに始まっているのがほとんどである。ナレーションに対して生成された映像が手動で編集されたニュース映像のように人間の視聴習慣に合うようにするために、あらかじめ大量のトレーニングサンプルに基づいて、機械学習アルゴリズムを用いて映像アドバンスプレイ時間決定モデルをトレーニングしておくことができる。ここで、トレーニングサンプルは、サンプルニュース映像に含まれているテキストと、該サンプルニュース映像における映像のナレーション音声よりも早いアノテーション時間を含むことができる。
【0086】
ステップ40422:ナレーションにおける最後の段落以外の各段落について、ナレーションにおける該段落の前から後への順に従って、段落映像クリップステップを実行する。
【0087】
ここで、段落映像クリップステップは、次の動作を含み得る。
【0088】
第1に、該段落の次の段落に対応する映像アドバンスプレイ時間を映像カット時間長として確定する。
【0089】
第2に、該段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続し、該段落に対応する映像を取得する。
【0090】
第3に、該段落に対応する映像の末尾から映像カット時間長の映像をカットする。
【0091】
すなわち、この技術的解決手段は、ナレーションにおける第1段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の映像の末尾をカバーすることである。一方、映像のアドバンスプレイと映像カバーの時間長は、ステップ40421で確定された該段落に対応する映像アドバンスプレイ時間長である。
【0092】
ステップ40423:ナレーションにおける最後の段落に対応する候補素材リソースシーケンスにおける各候補素材リソースを順次接続して、最後の段落に対応する映像を取得する。
【0093】
ステップ40424:ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続して、第2の映像を取得する。
【0094】
ステップ40425:ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第2の音声を取得する。
【0095】
ステップ40426:取得した第2の音声と第2の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。
【0096】
いくつかの実施方法では、ステップ4042は、
図4Dに示されるステップ40421’〜ステップ40425’を含むこともできる。
図4Dを参照すると、本出願に係るステップ4042の別の実施形態の分解フローチャートが示されている。
【0097】
ステップ40421’:ナレーションにおける各段落について、該段落を事前にトレーニングされた映像アドバンスプレイ時間決定モデルに入力し、該段落に対応する映像アドバンスプレイ時間長を取得する。
【0098】
ここで、ステップ40421’の具体的な動作は、ステップ40421の動作とほぼ同じであるため、ここでは省略する。
【0099】
ステップ40422’:ナレーションにおける最後の段落を除く各段落について、ナレーションにおける該段落の前から後への順に従って、段落音声延長ステップを実行する。
【0100】
ここで、段落音声延長ステップは、次の動作を含み得る。
【0101】
第1に、該段落の次の段落に対応する映像アドバンスプレイ時間長を音声延長時間長として確定する。
【0102】
第2に、該段落に対応する音声の末尾に、確定された音声延長時間長の無音再生時間長を追加する。
【0103】
すなわち、この技術的解決手段は、ナレーションにおける第1段落を除く各段落について、該段落に対応する映像をアドバンスプレイし、該段落の前の段落の音声の末尾に無音再生時間長を追加することである。一方、映像アドバンスプレイ時間長と音声延長時間長は、ステップ40421’で確定された該段落に対応する映像アドバンスプレイ時間長である。
【0104】
ステップ40423’:ナレーションにおける各段落の前から後への順に従って、各段落に対応する音声を接続して、第3の音声を取得する。
【0105】
ステップ40424’:ナレーションにおける各段落の前から後への順に従って、各段落に対応する映像を接続し、第3の映像を取得する。
【0106】
ここで、段落に対応する映像は、該段落に対応する候補素材リソースシーケンスにおける候補素材リソースを順次接続して取得した映像である。
【0107】
ステップ40425’:取得した第3の音声と第3の映像を、それぞれ、ナレーションに対応する映像の音声部分と映像部分として確定する。
【0108】
ステップ405:ナレーションに対応する映像を端末装置に送信する。
【0109】
本実施形態では、上記の実行主体は、ステップ404で生成されたナレーションに対応する映像を端末装置に送信することができる。ここで、端末装置は、ネットワークを介して上記の実行主体に接続された電子機器であり得る。このようにして、上記端末装置は、上記の実行主体が送信した映像を受信したことに対応して、受信した映像を提示し、ナレーションに対応する映像を端末装置に提示することができる。ナレーションがニュースイベントEに対するものであれば、ニュースイベントEに対するニュースクラスタCのナレーションに対応する映像を端末装置に提示することが可能となる。ユーザーは端末装置上でニュースイベントEに対するニュースクラスタCのナレーションに対応する映像を視聴することで、ニュースイベントEを素早く知ることができる。ユーザーは文字を読まなくてもニュースクラスタCが焦点を合わせたニュースイベントEを知ることができるため、ユーザーのニュースイベント情報取得の効率が向上する。
【0110】
図4Aから分かるように、本実施形態における段落と映像を整列させるための方法のプロセス400は、
図2に対応する実施形態と比較して、ナレーションに対応する映像を生成するステップと、ナレーションに対応する映像を端末装置に送信するステップとを追加した。したがって、本実施形態で説明した技術的解決手段は、ナレーションに対応する映像を端末装置に提示することができる。ユーザーは提示されたナレーションに対応する映像を端末装置上で視聴でき、端末装置の情報提示機能が拡張される。
【0111】
さらに、
図5を参照すると、上記の各図に示される方法の実施として、本出願は段落と映像を整列させるための装置の一実施形態を示している。該装置の実施形態は
図2に示された方法の実施形態に対応しており、該装置は具体的には、様々な電子機器に適用することができる。
【0112】
図5に示されるように、本実施形態の、段落と映像を整列させるための装置500は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得するように構成された第1取得ユニット501と、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得するように構成された第2取得ユニット502と、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成された確定ユニット503と、を含み、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
【0113】
本実施形態では、段落と映像を整列させるための装置500の第1取得ユニット501、第2取得ユニット502、および確定ユニット503の具体的な処理ならびにそれに伴う技術的効果は、それぞれ
図2に対応する実施形態におけるステップ201、ステップ202およびステップ203の関連説明を参照することができる。ここでは、これ以上説明しない。
【0114】
本実施形態のいくつかのオプションの実施方法では、上記の装置500は、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスに基づいて、上記のナレーションに対応する映像を生成するように構成された映像生成ユニット504をさらに含む。
【0115】
本実施形態のいくつかのオプションの実施方法では、上記の装置500は、端末装置が受信した映像を提示できるように、上記のナレーションに対応する映像を前記端末装置に送信するように構成された映像送信ユニット505をさらに含む。
【0116】
本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット503はさらに、上記のナレーションにおける各段落について、第1の事前設定された最適化アルゴリズムを用いて、該段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、該段落に対応する候補素材リソースシーケンスと該段落とのマッチング度が最大となることを最適化目標とし、該段落に対応する候補素材リソースシーケンスを確定するように構成されている。
【0117】
本実施形態のいくつかのオプションの実施方法では、上記の確定ユニット503はさらに、第2の事前設定された最適化アルゴリズムを用いて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスの再生時間長が、該段落に対応する再生時間長に等しいことを制約条件とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスと
その段落とのマッチング度の和が最大となることを最適化目標とし、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定するように構成されている。
【0118】
本実施形態のいくつかのオプションの実施方法では、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスにおける候補素材リソースが互いに異なることができる。
【0119】
本実施形態のいくつかのオプションの実施方法では、上記の第1の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。
【0120】
本実施形態のいくつかのオプションの実施方法では、上記の第2の事前設定された最適化アルゴリズムは、動的計画アルゴリズムまたは最短経路最適化アルゴリズムであり得る。
【0121】
本明細書の実施形態によって提供される、段落と映像を整列するための装置における各ユニットの実施の詳細および技術的効果は、本出願における他の実施形態の説明を参照することができるため、ここではこれ以上説明しない。
【0122】
次に、
図6を参照すると、本出願の実施形態を実施するためのサーバーに適するコンピュータシステム600の構造概略図が示されている。
図6に示されるサーバーは、あくまでも一例にすぎず、本出願の実施形態の機能および使用範囲に如何なる制限も課すべきではない。
【0123】
図6に示されるように、コンピュータシステム600は、読み取り専用メモリ(ROM,Read Only Memory)602に記憶されたプログラムまたは記憶装置608からランダムアクセスメモリ(RAM,Random Access Memory)603にロードされたプログラムにより、様々な適切な動作および処理を実行できる1つまたは複数の中央処理装置(CPU,Central Processing Unit)601を含み得る。RAM603には、システム600の動作に必要な各種プログラムやデータも記憶されている。CPU601、ROM602、およびRAM603は、バス604を介して相互に接続されている。入出力(I/O,Input/Output)インターフェース605もバス604に接続されている。
【0124】
I/Oインターフェース605に接続される装置は、キーボード、マウスなどの入力部606と、陰極線管(CRT、Cathode Ray Tube)、液晶ディスプレイ(LCD,Liquid Crystal Display)など及びスピーカーなどの出力部607と、ハードディスクなどの記憶部608と、ローカルエリアネットワーク(LAN、Local Area Network)カード、モデムなどのネットワークインターフェースカードを含む通信部609と、を含む。通信部609は、インターネットなどのネットワークを介して通信処理を行う。ドライバー610も、必要に応じてI/Oインターフェース605に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア611は、必要に応じてドライバー610にインストールされることで、リムーバブルメディア611から必要に応じて読み出されるコンピュータプログラムが記憶部608にインストールされる。
【0125】
特に、本開示の実施形態によると、フローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品が含まれる。該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールすることができ、および/またはリムーバブルメディア611からインストールすることができる。該コンピュータプログラムが中央処理装置(CPU)601によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。本開示の実施形態で説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、またはこれらの2つの任意の組み合わせであり得ることに留意されたい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本または複数のワイヤを有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み合わせて使用されることができる。本開示の実施形態では、コンピュータ可読信号媒体はベースバンドに含まれるか、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピュータ可読信号媒体には、コンピュータで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態をとることができる。コンピュータ可読信号媒体はさらに、命令実行システム、装置もしくはデバイスによって使用されるか、または組み合わせて使用されるプログラムを送信、伝播、または伝送できる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得る。コンピュータ可読媒体に記憶されているプログラムコードは、ワイヤレス、ワイヤ、光ファイバケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。
【0126】
本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピュータ上で実行されることも、部分的にユーザーのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバー上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピュータに接続されることができる。または、外部のコンピュータに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
【0127】
添付図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック機能を実施するための1つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、並びにブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
【0128】
本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「第1取得ユニットと、第2取得ユニットと、確定ユニットと、を含むプロセッサ」と説明されることができる。ここで、これらのユニットの名称は、ユニット自体に対する制限を構成しない場合がある。例えば、第1取得ユニットは、「ナレーションとナレーションに対応する候補素材リソースのセットを取得するユニット」と説明されることができる。
【0129】
別の態様では、本出願はまた、上記の実施形態で説明した装置に含まれ得る、または別個に存在し、装置に組み込まれないコンピュータ可読媒体を提供する。 上記のコンピュータ可読媒体には1つまたは複数のプログラムが格納されており、上記の1つまたは複数のプログラムが上記の装置によって実行されると、上記の装置は、ナレーションと上記のナレーションに対応する候補素材リソースのセットを取得し、上記のナレーションにおける各段落と、上記の候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、上記のナレーションにおける各段落と上記の各候補素材リソースとのマッチング度、上記の各候補素材リソースの再生時間長、および上記のナレーションにおける各段落のテキスト長に基づいて、上記のナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、上記の候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
【0130】
さらに別の態様では、本出願の実施形態は、インターフェースと、1つまたは複数のプログラムが格納されるメモリと、前記インターフェースおよび前記メモリに動作可能に接続された1つまたは複数のプロセッサと、を含む別のサーバーをさらに提供する。前記プロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
【0131】
さらに別の態様では、本出願の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供する。上記のコンピュータプログラムが1つまたは複数のプロセッサによって実行されると、上記の1つまたは複数のプロセッサは、ナレーションとナレーションに対応する候補素材リソースのセットを取得し、ナレーションにおける各段落と、候補素材リソースのセットにおける各候補素材リソースとのマッチング度を取得し、ナレーションにおける各段落と各候補素材リソースとのマッチング度、各候補素材リソースの再生時間長、およびナレーションにおける各段落のテキスト長に基づいて、ナレーションにおける各段落に対応する候補素材リソースシーケンスを確定する。ここで、候補素材リソースが映像または画像であり、画像の再生時間長が事前設定された画像再生時間長である。
【0132】
上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。