(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
端末技術の迅速な発展に伴い、各機能の応用もますます多様化され、ユーザは端末にさまざまなアプリケーションをインストールし、ビジネス、レジャー、生活等のたくさんの行動に補助しようとしている。
【0003】
現在、モバイル端末を利用してオンライン動画を視聴するユーザが多いが、オンライン動画の視聴には大量のデータ量が消費される。1分間のモバイル動画を視聴するには、SD(標準画質)の場合、約4Mのデータ量が消費され、HD(高精細度画質)の場合、約20Mのデータ量が消費されるため、毎月のデータ量が百メガバイト(MB)しかないユーザにとっては、オンライン動画の視聴に大きな制限がある。
【0004】
また、ネットワーク速度、動画リソース、携帯電話の性能等によっては、ユーザがモバイル動画を視聴する過程において、フリーズ現象がよく生じる。フリーズされたときには、略半分のユーザは画面から退出するか、又はアプリケーションを停止してしまう。そのため、ユーザの動画視聴のニーズを満たせることができない。
【0005】
ネットワーク環境が動画リソースの伝送速度に大きく影響することによって、ユーザは静かでモバイルネットワーク環境が良好な場所でのみオンライン動画を視聴することができる。ネットワーク環境が悪い場所では、例えば地下鉄などでは一般に視聴できない。さらに、細切れ時間に視聴することも適切でない。
【0006】
以上から分かるように、現在、オンライン動画を視聴するには、(1)データ量を大量消費すること、(2)フリーズ現象がひどいこと、(3)視聴できる場所や時間に制限があることなどの問題がある。
【0007】
上記の問題(1)については、現在はスムーズなトランスコーディングの形式を提供することによって解決されている。上記の問題(2)については、フレーム数を減少したり、ユーザの報告を受けた後に動画リソースを受動的に置き換えさせられたり、又はユーザに動画のノードを変更させたり、フリーズされた部分をスキップさせたりするように推奨することによって解決され、前記フレーム数は最低に24フレーム/秒まで減少されることができる。上記の問題(3)については、現在解決策はない。
【0008】
しかしながら、前記スムーズなトランスコーディングとフレーム数を減少する手段は、データ量の消費およびフリーズ現象をある程度改善できるが、その問題は依然に厳しく、ユーザが報告することまたはユーザにノードを変更させるように推奨することは受動的な手段として、フリーズ現象を事後しか解決できない。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態に対して詳細に説明する。前記実施形態の実例を図面に示すが、相同又は類似の部品或いは相同又は類似の機能を有する部品に対しては同一又は類似の符号で表す。以下、図面を参照しながら説明する実施形態は例示的なものであり、本発明を解釈するためのものであり、本発明を制限するためのものではない。逆に、本発明の実施形態は添付の特許請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変化・変更及び同等物を含む。
【0020】
本発明の説明における、「第一」や「第二」という用語は、単に説明のためのものであり、相対的な重要性若しくは数量若しくは位置に対する明示的/暗示的なものではない。また、特に規定や限定がない場合、「繋がり」、「接続」などの用語を広義に理解すべきである。例えば、固定的な接続でもよいし、着脱可能な接続でもよいし、一体でもよい。また、机械的な接続でもよいし、電気的な接続でもよい。また、直接的な繋がりでもよいし、別のものを介する間接的な繋がりでもよいし、2つの部品の内部の連通を表してもよい。本分野の当業者としては、具体的な状況に基づいて本発明における上記用語の意味を理解できる。また、本発明の説明において、特に説明がない場合、「複数」は2つまたは2つ以上を指す。
【0021】
フローチャートまたは他の方式で説明されたいかなる過程または方法は、1つ又は複数の論理機能又は過程のステップを実現するための実行可能な命令のコードのモジュール、断片又は部分であり、並びに本発明の好ましい実施形態は他の形態も含み、例示された又は議論された順序(関与された機能とほぼ同じ方式又は逆の順序を含む)によらず実行できることは当業者としては理解できる。
【0022】
以下、添付の図面を参照しながら本発明の実施形態に係る動画画面の処理方法及び装置を説明する。
【0023】
本発明は、現在のオンライン動画を視聴するときに存在しているモバイルデータ量を大量に消費すること、動画のフリーズがひどいこと、視聴可能な場所や時間に制限があること等の問題を解決するために、動画画面の処理方法を提供する。
【0024】
図1は、本発明の一実施形態による動画画面の処理方法を示すフローチャートである。
図1に示したように、該動画画面の処理方法は、以下のステップを含む。
【0025】
ステップS101では、現在の動画の情報を取得する。
【0026】
まずは、動画ライブラリから現在の動画の、動画ソースパス、字幕ファイルパス等を含む情報を取得する。
【0027】
ステップS102では、現在の動画の情報に基づいて現在の動画の完全な字幕付きの動画フレーム画面を含むキー画面をキャプチャする。
【0028】
現在の動画のキー画面をキャプチャするステップにおいて、まずは現在の動画の情報に基づいてキー字幕時点の系列を取得し、キー字幕時点の系列を取得した後、キー字幕時点の系列に対してフレームを補間したり、キー字幕時点の系列におけるキー字幕の時点に対してオフセット補正をしたりし、最後に、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。なお、フレーム補間処理およびオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正をしてもよいし、オフセット補正をした後にフレームを補間してもよい。また、前記オフセット補正およびフレーム補間は選択的なステップであり、フレームを補間した場合、前記キー画面は間隔時間によってフレームを補間した画面を更に含む。
【0029】
ステップS103では、キー画面を並び替えて画面ライブラリを生成する。
【0030】
本実施形態において、再生順番に従ってキャプチャされた現在の動画にキー画面を並び替えて現在の動画の連環画モードの画面ライブラリを生成する。連環画モードとは、キーストーリ閲覧のニーズを満たせるように、動画のキーストーリ画面をキャプチャして、再生時間順に並び替えて生成した一連の画面集である。
【0031】
ステップS104では、再生リクエストを受信し、再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。
【0032】
本実施形態において、動画の内容は連環画モードと通常の動画モードを有する。ユーザは、動画の閲覧または連環画モードの画面ライブラリによるストーリの閲覧を選択することができる。2つのモードは相互に切り替えられることができる。動画がフリーズした場合、自動的に連環画モードに切り替えられる。具体的には、動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合(例えば、プリロード量が5秒の連続再生を維持できない場合)、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替えられる。また、ユーザは手動で動画モードに切り替えてプリロードを引き続き待つこともできる。例えば、
図2に示したように、動画ファイルを複数のユニットに分けて、ユニットを単位として動画ファイルをプリロードして再生させる。具体的には、以下のステップS201〜ステップS204を含む。
【0033】
ステップS201では、1つのユニットをプリロードした後、現在のユニットの動画を再生させる。
【0034】
ステップS202では、ユニットの0.75を再生させたときに、次のユニットのプリロードが完了されたかどうかを判断し、プリロードが完了された場合はステップS203を実行し、プリロードが完了されなかった場合はステップS204を実行する。
【0035】
ステップS203では、引き続き次のユニットの動画を再生させ、操作を終了する。
【0036】
ステップS204では、ユーザがストーリをタイムリーに理解することができるように、連環画モードに切り替えるとともに次のユニットの連環画をプリロードし、その後、動画のプリロードが完了された後に動画モードに切り替えられるように、ステップS202に戻して対応するユニットの動画を再生させる。
【0037】
本実施形態において、連環画モードで再生させる場合、自動的に再生させても手動で再生させてもよい。自動的に再生させる場合、自動再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させるとともに、予め設定した時間間隔、例えば3秒ごとに1つのフレームの速度で順番に自動的に画面ライブラリを再生させる。こうすれば、ユーザが順調に字幕を読むことが確保でき、再生速度を、ユーザの動画を閲覧する通常の再生速度と一致にして、ユーザに動画を通常に閲覧する感じを与える。また、再生速度はユーザ自身の要求によって予め設定することもできる。手動で又は自動的に再生させる場合、コールリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。例えば、プリロード量が5秒の連続再生を維持することができない場合、画面ライブラリから対応するキー画面を読み取って再生させる。一定の時間再生させた後、プリロード量が5秒の連続再生を維持することができるようになったら、画面ライブラリからキー画面を読み取るのを停止して通常の動画再生に戻る。
【0038】
前記連環画モードの利用によって、データ量を節約することができる。例えば、30分間のSD動画が100M以上のデータ量を消費するのに対して、連環画モードでは9M程度しか消費せず、90%のデータ量を節約することができる。そのため、ユーザは極めて少ないデータ量でドラマを閲覧することができ、アクセスの頻度とユーザの満足度を向上させることができる。
【0039】
連環画モードの各フレーム画面において、ユーザのインタラクションを支持する機能を更に提供する。ユーザはキーストーリに対してインタラクションをし、豊かな内容を生成する。その上、動画とピクチャの広告がピクチャの形式で画面ライブラリに挿入されて、ユーザにより多くの情報を提供することができる。ユーザが細切れ時間を利用して、小説を読んだり、写真を閲覧したりするように、環境やネットワークの厳格な制限を受けることなく、いつでもどこでもドラマを閲覧することができる。
【0040】
本発明の実施形態による動画画面の処理方法は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合にユーザが動画を迅速にプレビューすることができることによって、ユーザにとって、素早くかつ便利的にストーリを理解するようにして、モバイル動画のフリーズのときにユーザが画面から退出することを減少させ、ユーザのエクスペリエンスを向上させることができる。
【0041】
現在の動画のキー画面をキャプチャし、ユーザが動画をプレビューして、より快適的、便利的且つ完全的にストーリを理解することができるように、本実施形態は現在の動画のキー画面をキャプチャする方法を提供する。
図3に示したように、該方法は以下のステップS301〜ステップS302を含む。
【0042】
ステップS301では、現在の動画の情報に基づいてキー字幕時点の系列を取得する。
【0043】
本実施形態において、ネットワーク、音声認識又は画像認識等の技術を利用して現在の動画における各くだりの音声字幕の開始時点と完了時点とを取得し、各くだりの音声字幕の完了時点で1つのフレーム画面をキャプチャすることにより、画面をキャプチャするだけで完全な字幕を閲覧させることができる。
【0044】
具体的には、字幕ファイルに基づいてキー字幕時点の系列を取得する。動画の字幕は、一般に図形タイプの字幕ファイルと文字列形式の字幕ファイルとに分ける。図形タイプの字幕ファイルについて、その索引ファイルを分析することによって動画における会話のある「字幕時間範囲」の系列を取得し、「.srt、.ass」のような文字列形式の字幕ファイルについて、現有のプログラムが自動的に分析することによってその中における「字幕時間範囲」の系列を取得する。最後に、これらの系列における各「字幕時間範囲」メンバーの中間値又はその他の値に基づいて「キー字幕時点」の系列を生成する。もちろん、前記中間値又はその他の値は、完全な字幕付きの動画フレームを取得することができるように設定されている。
【0045】
字幕ファイルに基づいてキー字幕時点の系列を取得するほか、音声分析、即ち音声認識に基づいて人の声の部分を識別する方法を利用して音声字幕の開始時点と完了時点とを取得し、更にキー字幕時点を取得することもできる。また、画像認識を利用してもよい。即ち予め設定した時間を間隔として、動画を連続的なフレームに変換し、画像認識の方法を利用して特定エリアにおいて完全な字幕を含むフレームを識別し、重複したものを排除した後に最終的な画像フレーム系列を直接取得し、これらの画像フレーム系列に対応する時間をキー字幕時点の系列とする。
【0046】
前記予め設定した時間が1/24秒以上であることが望ましい。こうすれば、動画のサンプリング・レートが24フレーム/秒となるためである。
【0047】
ステップS302では、キー字幕時点の系列に対してフレームを補間する。
【0048】
該ステップは選択的なステップであり、2つのフレーム画像間の時間が長すぎると、例えば予め設定した時間より5秒超えた場合、5秒ごとに1つの「補間されるフレーム」をキャプチャする必要がある。これは、この時間内に音声はないが、アクションショットがある可能性があり、アクションショットもユーザのストーリの理解に影響するためである。そのため、ストーリの連続性を確保するために、1分間の動画を約15回キャプチャし、各画像のサイズを20kとして、対応する現在の動画のすべての画像ファイルの合計が300kとなるようにする。
【0049】
具体的には、フレームを補間する過程は以下の通りである。隣接する2つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断する。予め設定した値より大きいと、隣接する2つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。例えば、隣接する2つの「キー字幕時点」同士の差が4秒を超える場合には、その間に中間値時点のスクリーンショットを1つ内挿する。
図4に示したように、3.484と20.196との時間間隔が4秒の4倍よりも大きいため、その間に4つのフレームを内挿する。そのうち、「−tween」マークが付いたフレームは内挿されたフレームである。20.196と28.887との時間間隔が4秒の2倍よりも大きいため、その間に2つのフレームを内挿する。このように、少なくとも平均4秒内に一枚画像があることを確保することによって、ストーリの連続性を確保する。
【0050】
前記フレームの補間過程をアルゴリズムで実現した結果の例示は以下のとおりである。省略記号は後続の省略された幾つかのキー時点の系列の対象を表す。
【0051】
[
{
ROW:“00:00:23,450 −−> 00:00
:29,387 “,
ROW_START:23.45,
ROW_END:29.387,
KEY:26.4185,
KEY_OFFSET_THIS:17.4185,
KEY_OFFSET_PREV:0,
KEY_ORDERS: [
3.484,
6.967,
10.451,
13.935,
17.419
]
},
{
ROW:“00:00:31,417 −−> 00:00
:38,087 “,
ROW_START:31.417,
ROW_END:38.087,
KEY:34.752,
KEY_OFFSET_THIS:25.752,
KEY_OFFSET_PREV:17.4185,
KEY_ORDERS: [
20.196,
22.974,
25.752
]
},
{……},
{……},
【0052】
ステップS303では、キー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行う。
【0053】
該ステップも選択的なステップであり、通常、字幕ファイルに誤差があるため、字幕ファイルに基づいて取得した「キー字幕時点」に対してオフセットを検証し自動的に修正する必要がある。その修正の手順は最初の10個の「字幕時間範囲」の開始時間を検証することによりオフセット量のパラメータを確定し、該オフセット量のパラメータを利用して「キー字幕時点」の系列に対してオフセット補正を行う。前記オフセット量のパラメータは、画像認識又は音声認識によって取得された開始時点と字幕ファイルにおける字幕の開始時間とを比較して自動的に取得することもできるし、その他の方法を利用して取得することもできる。
【0054】
また、前記ステップS302とステップS303には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正を行ってもよいし、オフセット補正を行った後にフレームを補間してもよい。
【0055】
ステップS304では、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。
【0056】
本実施形態において、オープンソース (open source)のフリークロスプラットフォームのビデオとオーディオストリーミングであるFFmpeg(オーディオとビデオの処理プログラムの一種)を利用して、キー字幕時点の系列に基づき現在の動画のキー画面をキャプチャすることができる。
【0057】
本実施形態において、キャプチャされた現在の動画のキー画面に対して、動画の再生順序に従って並び替えて、現在の動画の連環画モードの画面ライブラリを生成する。そのうち、連環画モードは、動画のキーストーリの画面をキャプチャし、再生時間順に並び替えて生成した一連の画面集であり、キーストーリ閲覧のニーズを満たせる。連環画モードは、モバイル環境において、ローディング用データ量が少なくかつ速度が速いという優れる利点を有する。1分間の動画において、HDでは約20Mのデータ量を消費し、SDでは約4Mのデータ量を消費するが、連環画モードの画面ライブラリでは僅か300Kしか消費しない。ユーザのネットワーク速度が10k/sであるとすれば、HD動画のローディングには34分がかかり、SD動画のローディングには7分がかかるが、連環画モードの画面ライブラリのローディングには僅か30秒しかかからない。
【0058】
本発明の実施形態は、キー字幕時点の系列に対してフレームを補間し、更にキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うことにより、キャプチャされたキー画面がより連続的、正確的かつ全面的となることによって、ユーザは速やかに動画をプレビューして、より快適的、便利的且つ完全的にストーリを理解することができ、ユーザのエクスペリエンスを向上させることができる。
【0059】
図5は、本発明の一実施形態による動画画面の処理装置を示すブロック図である。
図5に示したように、動画画面の処理装置は、取得モジュール100と、キャプチャモジュール200と、生成モジュール300と、再生モジュール400と、を含む。
【0060】
取得モジュール100は、現在の動画の情報を取得する。
【0061】
本実施形態において、取得モジュール100は、動画ライブラリから現在の動画のソースパス、字幕ファイルパス等の情報を取得する。
【0062】
キャプチャモジュール200は、取得モジュール100によって取得された現在の動画の情報に基づいて現在の動画の完全な字幕付きのフレーム画像を含むキー画面をキャプチャする。
【0063】
本実施形態において、キャプチャモジュール200は、取得モジュール100によって取得された現在の動画の情報に基づいてキー字幕時点の系列を取得する。キャプチャモジュール200は、キー字幕時点の系列を取得した後、キー字幕時点の系列に対してフレームを補間したり、キー字幕時点の系列におけるキー字幕の時点に対してオフセット補正をしたりして、最後に、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。また、フレーム補間処理とオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正をしてもよいし、オフセット補正をした後にフレームを補間してもよい。
【0064】
生成モジュール300は、キャプチャモジュール200によってキャプチャされたキー画面を並び替えて画面ライブラリを生成する。
【0065】
本実施形態において、生成モジュール300は、再生順番に従ってキャプチャされた現在の動画にキー画面を並び替えて現在の動画の連環画モードの画面ライブラリを生成する。そのうち、連環画モードは、キーストーリ閲覧のニーズを満たせるように、動画のキーストーリ画面をキャプチャして、再生時間順に並び替えて生成した一連の画面集である。
【0066】
再生モジュール400は、再生リクエストを受信し、再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。
【0067】
本実施形態において、動画の内容は連環画モードと通常の動画モードを有する。ユーザは動画を閲覧してもよいし、連環画モードの画面ライブラリによってストーリを一覧してもよい。2つのモードは相互に切り替えることができる。動画がフリーズした場合、自動的に連環画モードに切り替えられる。具体的には、動画の再生過程において、動画またはキー画面を自動的にプリロードし、プリロード量があらかじめ設定した閾値より少ない場合(例えば、プリロード量が5秒の連続再生を維持できない場合)、ユーザのストーリ閲覧を優先にするように、自動的に連環画モードに切り替える。また、ユーザは手動で動画モードに切り替えてプリロードを引き続き待たせることもできる。
【0068】
本実施形態において、連環画モードで再生させる場合、自動的に再生させても手動で再生させてもよい。自動的に再生させる場合、再生モジュール400は、自動再生のリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させるとともに、3秒ごとに1つのフレームの速度で順番に自動的に画面ライブラリを再生させる。こうすれば、ユーザが順調に字幕を読むことが確保でき、同時に通常のドラマの再生時間と一致する。また、再生速度は、ユーザ自身の要求によって予め設定することもできる。手動で又は自動的に再生させる場合、再生モジュール400は、コールリクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させる。例えば、プリロード量が5秒の連続再生を維持することができない場合、画面ライブラリから対応するキー画面を読み取って再生させる。一定の時間再生させた後、プリロード量が5秒の連続再生を維持することができるようになったら、画面ライブラリからキー画面を読み取るのを停止して通常の動画再生に戻る。
【0069】
前記連環画モードの利用によって、データ量を節約することができる。例えば、30分間の動画において、SDでは100M以上のデータ量を消費するのに対して、連環画モードでは9M程度しか消費せず、90%のデータ量を節約することができる。そのため、ユーザは極めて少ないデータ量でドラマを閲覧することができ、アクセスの頻度とユーザの満足度を向上することができる。
【0070】
連環画モードの各フレーム画面において、ユーザのインタラクションを支持する機能を更に提供する。ユーザはキーストーリに対してインタラクションをし、豊かな内容を生成する。その上、動画とピクチャの広告がピクチャの形式で画面ライブラリに挿入されて、ユーザにより多くの情報を提供することができる。ユーザが細切れ時間を利用して、小説を読んだり、写真を閲覧したりするように、環境やネットワークの厳格な制限を受けることなく、いつでもどこでもドラマを閲覧することができる。
【0071】
本発明の実施形態による動画画面の処理装置は、現在の動画の情報を取得し、現在の動画の情報に基づいて現在の動画のキー画面をキャプチャし、キー画面を並び替えて画面ライブラリを生成し、並びに再生リクエストに応じて画面ライブラリから対応するキー画面を読み取って再生させることにより、データ量を節約すると同時に、ネットワークのフリーズの場合にユーザが動画を迅速にプレビューすることができることによって、ユーザにとって素早く便利にストーリを理解するようにして、モバイル動画のフリーズのときにユーザが画面から退出することを低減させ、ユーザのエクスペリエンスを向上させることができる。
【0072】
図6は、本発明の具体的な実施形態による動画画面の処理装置を示すブロック図であり、
図7は、本発明の具体的な実施形態による動画画面の処理装置を示す別のブロック図である。
図6および
図7に示したように、動画画面の処理装置は、取得モジュール100と、キャプチャモジュール200と、生成モジュール300と、再生モジュール400と、を含む。そのうち、キャプチャモジュール200は、時点系列取得ユニット210と、キャプチャユニット220と、フレーム補間ユニット230と、補正ユニット240と、を含む。
【0073】
時点系列取得ユニット210は、現在の動画の情報に基づいてキー字幕時点の系列を取得する。
【0074】
本実施形態において、時点系列取得ユニット210は、ネットワーク、音声認識又は画像認識等の技術を利用して現在の動画における各くだりの音声字幕の開始時点と完了時点とを取得し、各くだりの音声字幕の完了時点に1つのフレームの画面をキャプチャすることにより、画面をキャプチャするだけで完全な字幕を閲覧することができる。
【0075】
具体的には、時点系列取得ユニット210は、字幕ファイルに基づいてキー字幕時点の系列を取得する。動画の字幕は、一般に図形タイプの字幕ファイルと文字列形式の字幕ファイルとに分ける。時点系列取得ユニット210は、図形タイプの字幕ファイルについて、その索引ファイルを分析することによって動画における会話のある「字幕時間範囲」の系列を取得し「.srt、.ass」のような文字列形式の字幕ファイルについて、現有のプログラムが自動的に分析することによってその中における「字幕時間範囲」のを取得する。最後に、これらの系列における各「字幕時間範囲」メンバーの中間値又はその他の値に基づいて「キー字幕時点」の系列を生成する。もちろん、前記中間値又はその他の値は、完全な字幕付きの動画フレームを取得することができるように設定されている。
【0076】
字幕ファイルに基づいてキー字幕時点の系列を取得するほか、時点系列取得ユニット210は、音声分析、即ち音声認識に基づいて人の声の部分を識別する方法を利用して音声字幕の開始時点と完了時点とを取得し、更にキー字幕時点を取得することもできる。また、時点系列取得ユニット210は、画像認識を利用してもよい。即ち0.5Sを間隔として、動画を連続的なフレームに変換し、画像認識の方法を利用して特定エリアにおいて完全な字幕を含むフレームを識別し、重複したものを排除した後に最終的な画像フレーム系列を直接取得し、これらの画像フレーム系列に対応する時間をキー字幕時点の系列とする。
【0077】
キャプチャユニット220は、キー字幕時点の系列に対応させて現在の動画のキー画面をキャプチャする。
【0078】
フレーム補間ユニット230は、時点系列取得ユニット210によって取得された又は補正ユニット240によって補正されたキー字幕時点の系列における隣接する2つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断する。予め設定した値より大きいと、隣接する2つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。
【0079】
2つのフレーム画像間の時間が長すぎると、例えば予め設定した時間より5秒超えた場合、5秒ごとに1つの「補間されるフレーム」をキャプチャする必要がある。これは、この時間内に音声はないが、アクションショットがある可能性があり、アクションショットもユーザのストーリの理解に影響するためである。そのため、ストーリの連続性を確保するために、1分間の動画を約15回キャプチャし、各画像のサイズを20kとして、対応する現在の動画のすべての画像ファイルの合計が300kとなるようにする。
【0080】
具体的には、フレーム補間ユニット230は、隣接する2つのキー字幕の時点同士の時間間隔が予め設定した値より大きいかどうかを判断し、予め設定した値より大きいと、隣接する2つのキー字幕の時点の間で新規のキー字幕時点を取得し、その新規のキー字幕時点をキー字幕時点の系列に内挿する。例えば、隣接する2つの「キー字幕時点」同士の差が5秒を超える場合には、その間に中間値時点のスクリーンショットを1つ内挿し、6秒を超える場合には、スクリーンショットを2つ内挿する。このように、少なくとも平均4秒内に一枚画像があることを確保することによって、ストーリの連続性を確保する。
【0081】
補正ユニット240は、時点系列取得ユニット210又はフレーム補間ユニット230によって取得されたキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行う。
【0082】
通常、字幕ファイルに誤差があるため、字幕ファイルに基づいて取得した「キー字幕時点」に対してオフセットを検証し自動的に修正する必要がある。補正ユニット240は、最初の10個の「字幕時間範囲」の開始時間を検証することによりオフセット量のパラメータを確定し、該オフセット量のパラメータを利用して「キー字幕時点」の系列に対してオフセット補正を行う。前記オフセット量のパラメータは、画像認識又は音声認識によって取得された開始時点と字幕ファイルにおける字幕の開始時間とを比較して自動的に取得することもできるし、その他の方法を利用して取得することもできる。
【0083】
また、フレーム補間ユニット230によるフレーム補間処理と補正ユニット240によるオフセット補正には厳格な実行順序はない。すなわち、フレームを補間した後にオフセット補正を行ってもよいし、オフセット補正を行った後にフレームを補間してもよい。
【0084】
本発明の実施形態に係る動画画面の処理装置は、キー字幕時点の系列に対してフレームを補間し、更にキー字幕時点の系列におけるキー字幕時点に対してオフセット補正を行うことにより、キャプチャされたキー画面がより連続的且つ正確的となることによって、ユーザは速やかに動画をプレビューして、より快適的且つ便利的にストーリを理解することができ、ユーザのエクスペリエンスを向上させることができる。
【0085】
前記実施形態を実現するために、本発明は、プログラムを記憶するための記憶媒体を更に提供する。このプログラムは、本発明のいずれか一項の実施形態に係る動画画面の処理方法を実行するためのものである。
【0086】
また、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに格納され且つ適切な命令実行システムにより実行されるソフトウェアまたはファームウェアで実現することができる。例えば、ハードウェアで実現する場合、他の実施形態と同様に、本分野の公知技術である、データ信号に対して論理機能を実現するための論理ゲート回路を有するディスクリート論理回路、適切な組み合わせの論理ゲート回路を有する専用集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などのいずれか1つ又はそれらの組み合わせで実現することができる。
【0087】
本明細書の説明において、用語の「一実施形態」、「一部の実施形態」、「例示」、「具体的な例示」、又は「一部の例示」等の用語は、当該実施形態又は例示と合わせて説明された具体的な特徴、構成、材料又は特性が本発明の少なくとも1つの実施形態又は例示に含まれることを意味する。本明細書において、上記の用語の概略表現は必ずしも同じ実施形態又は例示を指さず、且つ、任意の1つ又は幾つの実施形態や例示において、説明された具体的な特徴、構成、材料又は特性を適当な方法で組み合わせることもできる。
【0088】
本発明の実施形態を示して説明したが、当業者にとって理解できるのは、本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることができる。本発明の技術範囲は、特許請求の範囲及びその均等構成を基準にする。