(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024095787
(43)【公開日】2024-07-10
(54)【発明の名称】動画処理方法と装置、電子機器及び記憶媒体
(51)【国際特許分類】
H04N 21/234 20110101AFI20240703BHJP
G10L 25/57 20130101ALI20240703BHJP
G06T 7/00 20170101ALI20240703BHJP
G06T 7/215 20170101ALI20240703BHJP
G06V 20/40 20220101ALI20240703BHJP
G06V 20/70 20220101ALI20240703BHJP
G06F 3/04845 20220101ALI20240703BHJP
【FI】
H04N21/234
G10L25/57
G06T7/00 P
G06T7/215
G06V20/40
G06V20/70
G06F3/04845
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024063553
(22)【出願日】2024-04-10
(31)【優先権主張番号】202310377697.3
(32)【優先日】2023-04-10
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
2.Linux
3.WINDOWS PHONE
4.ANDROID
5.ブルートゥース
6.JAVA
(71)【出願人】
【識別番号】524138142
【氏名又は名称】ベイジン ドゥヨウ インフォメーション テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】スイ ゾングゥイ
(72)【発明者】
【氏名】ダイ シン
(72)【発明者】
【氏名】ユェン レイ
(72)【発明者】
【氏名】ツァイ ウェングゥイ
【テーマコード(参考)】
5C164
5E555
5L096
【Fターム(参考)】
5C164MA02S
5C164MB44S
5C164PA43
5C164SB01P
5C164SB04S
5C164SB41S
5C164YA10
5C164YA11
5E555AA23
5E555AA26
5E555AA33
5E555AA42
5E555AA46
5E555BA02
5E555BA04
5E555BB02
5E555BB04
5E555BC18
5E555CA13
5E555CA21
5E555CA47
5E555CB07
5E555CB64
5E555CC01
5E555EA07
5E555FA00
5L096DA02
5L096HA05
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】動画コンテンツの効率的かつ正確な分割を実現する動画処理方法及び装置並びに電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【解決手段】動画処理方法は、処理すべき動画の再生行動データを取得し、再生行動データに基づいて、動画のコンテンツ分割点が位置するターゲット動画セグメントを確定し、ターゲット動画セグメントの音声特徴を抽出し、音声特徴に基づいて、ターゲット動画セグメントからコンテンツ分割点を確定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
動画処理方法であって、
処理すべき動画の再生行動データを取得することと、
前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定し、ここでは、前記コンテンツ分割点の前に位置する動画コンテンツのタイプと前記コンテンツ分割点の後に位置する動画コンテンツのタイプとが異なることと、
前記ターゲット動画セグメントの音声特徴を抽出することと、
前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定することとを含む、動画処理方法。
【請求項2】
前記再生行動データは、ユーザが前記動画をインタラクティブ操作する際の前記動画が位置する再生時点を含み、ここでは、前記の、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定することは、
前記動画をターゲット時間長の複数の動画セグメントに分割することと、
前記複数の動画セグメントのうちのいずれか1つの動画セグメントに対して、前記動画セグメントのインタラクティブ回数を確定し、ここでは、前記インタラクティブ回数は再生時点が前記動画セグメントに位置するインタラクティブ操作の数であることと、
前記複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、前記複数の動画セグメントから前記ターゲット動画セグメントを確定することとを含む、請求項1に記載の方法。
【請求項3】
前記インタラクティブ操作は、再生選択操作を含み、前記再生行動データは、前記再生時点からの連続再生時間長をさらに含み、前記コンテンツ分割点は、オープニング終了点を含み、ここでは、前記の、前記動画セグメントのインタラクティブ回数を確定することは、
連続再生時間長が第1閾値より大きいインタラクティブ操作を有効インタラクティブ操作として確定することと、
再生時点が前記動画セグメントに位置する有効インタラクティブ操作の数を前記インタラクティブ回数として確定することとを含む、請求項2に記載の方法。
【請求項4】
前記の、前記複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、前記複数の動画セグメントから前記ターゲット動画セグメントを確定することは、
第1時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定することを含み、ここでは、前記第1時間範囲は、前記動画の開始点から第1時点までの時間範囲である、請求項3に記載の方法。
【請求項5】
前記インタラクティブ操作は、再生終了操作を含み、前記コンテンツ分割点は、エンディング開始点を含み、ここでは、前記の、前記複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、前記複数の動画セグメントから前記ターゲット動画セグメントを確定することは、
第2時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定することを含み、ここでは、前記第2時間範囲は、前記動画の第2時点から終了点までの時間範囲である、請求項2に記載の方法。
【請求項6】
前記再生行動データは、前記動画の再生回数を含み、ここでは、前記の、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定することは、
前記再生回数が第2閾値よりも大きいことに応答して、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定することを含む、請求項1に記載の方法。
【請求項7】
前記の、前記ターゲット動画セグメントの音声特徴を抽出することは、
前記ターゲット動画セグメントの音声データにフーリエ変換を行って、前記音声データに対応する周波数スペクトルを得ることと、
前記周波数スペクトルに対して特徴抽出を行って、前記音声特徴を得ることとを含む、請求項1に記載の方法。
【請求項8】
前記の、前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定することは、
予め設定された音声特徴とコンテンツ分割点とのマッピング関係に基づいて、前記コンテンツ分割点を確定することを含む、請求項1に記載の方法。
【請求項9】
前記マッピング関係は、サンプル動画のコンテンツ分割点ラベルと、前記コンテンツ分割点ラベルが位置するサンプルターゲット動画セグメントの音声特徴とに基づいて確定されるものである、請求項8に記載の方法。
【請求項10】
動画処理装置であって、
処理すべき動画の再生行動データを取得するように構成される取得モジュールと、
前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定するように構成される第1確定モジュールであって、ここでは、前記コンテンツ分割点の前に位置する動画コンテンツのタイプと前記コンテンツ分割点の後に位置する動画コンテンツのタイプとが異なるものと、
前記ターゲット動画セグメントの音声特徴を抽出するように構成される抽出モジュールと、
前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定するように構成される第2確定モジュールとを含む、動画処理装置。
【請求項11】
前記再生行動データは、ユーザが前記動画をインタラクティブ操作する際の前記動画が位置する再生時点を含み、ここでは、前記第1確定モジュールは、
前記動画をターゲット時間長の複数の動画セグメントに分割するように構成される分割ユニットと、
前記複数の動画セグメントのうちのいずれか1つの動画セグメントに対して、前記動画セグメントのインタラクティブ回数を確定するように構成される第1確定ユニットであって、ここでは、前記インタラクティブ回数は再生時点が前記動画セグメントに位置するインタラクティブ操作の数であるものと、
前記複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、前記複数の動画セグメントから前記ターゲット動画セグメントを確定するように構成される第2確定ユニットとを含む、請求項10に記載の装置。
【請求項12】
前記インタラクティブ操作は、再生選択操作を含み、前記再生行動データは、前記再生時点からの連続再生時間長をさらに含み、前記コンテンツ分割点は、オープニング終了点を含み、ここでは、前記第1確定ユニットは、さらに、
連続再生時間長が第1閾値より大きいインタラクティブ操作を有効インタラクティブ操作として確定し、
再生時点が前記動画セグメントに位置する有効インタラクティブ操作の数を前記インタラクティブ回数として確定するように構成される、請求項11に記載の装置。
【請求項13】
前記第2確定ユニットは、さらに、
第1時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定するように構成され、ここでは、前記第1時間範囲は、前記動画の開始点から第1時点までの時間範囲である、請求項12に記載の装置。
【請求項14】
前記インタラクティブ操作は、再生終了操作を含み、前記コンテンツ分割点は、エンディング開始点を含み、ここでは、前記第2確定ユニットはさらに、
第2時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定するように構成され、ここでは、前記第2時間範囲は、前記動画の第2時点から終了点までの時間範囲である、請求項11に記載の装置。
【請求項15】
前記再生行動データは、前記動画の再生回数を含み、ここでは、前記第1確定モジュールは、さらに、
前記再生回数が第2閾値よりも大きいことに応答して、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定するように構成される、請求項10に記載の装置。
【請求項16】
前記抽出モジュールは、
前記ターゲット動画セグメントの音声データにフーリエ変換を行って、前記音声データに対応する周波数スペクトルを得るように構成される変換ユニットと、
前記周波数スペクトルに対して特徴抽出を行って、前記音声特徴を得るように構成される抽出ユニットとを含む、請求項10に記載の装置。
【請求項17】
前記第2確定モジュールはさらに、
予め設定された音声特徴とコンテンツ分割点とのマッピング関係に基づいて、前記コンテンツ分割点を確定するように構成される、請求項10に記載の装置。
【請求項18】
前記マッピング関係は、サンプル動画のコンテンツ分割点ラベルと、前記コンテンツ分割点ラベルが位置するサンプルターゲット動画セグメントの音声特徴とに基づいて確定されるものである、請求項17に記載の装置。
【請求項19】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサは請求項1~9のいずれか一項に記載の方法を実行させる、電子機器。
【請求項20】
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~9のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
【請求項21】
コンピュータプログラム命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~9のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
本開示は、人工知能技術分野に関し、具体的には、深層学習、コンピュータビジョンの技術分野に関する。
【技術分野】
【0002】
本開示はコンピュータ技術分野に関し、特にマルチメディア技術分野に関し、具体的には動画処理方法と装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0003】
同一動画には、異なるタイプのコンテンツ、例えば、オープニング、本編(動画の本体)、広告、エンディングなどが含まれ得る。ユーザの異なるタイプのコンテンツに対する関心度は異なる。動画内の異なるタイプのコンテンツを位置特定することにより、ユーザが関心のあるコンテンツを閲覧しやすくすることができる。
【0004】
該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0005】
本開示は、動画処理方法と装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、動画処理方法を提供し、処理すべき動画の再生行動データを取得することと、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定し、ここでは、前記コンテンツ分割点の前に位置する動画コンテンツのタイプと前記コンテンツ分割点の後に位置する動画コンテンツのタイプとが異なることと、前記ターゲット動画セグメントの音声特徴を抽出することと、前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定することとを含む。
【0006】
本開示の一態様によれば、動画処理装置を提供し、処理すべき動画の再生行動データを取得するように構成される取得モジュールと、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定するように構成される第1確定モジュールであって、ここでは、前記コンテンツ分割点の前に位置する動画コンテンツのタイプと前記コンテンツ分割点の後に位置する動画コンテンツのタイプとが異なるものと、前記ターゲット動画セグメントの音声特徴を抽出するように構成される抽出モジュールと、前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定するように構成される第2確定モジュールとを含む。
【0007】
本開示の一態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上記の方法を実行させる。
【0008】
本開示の一態様によれば、コンピュータに以上に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0009】
本開示の一態様によれば、プロセッサによって実行されると、以上に記載の方法を実現するコンピュータプログラム命令を含むコンピュータプログラム製品を提供する。
【0010】
本開示の1つ又は複数の実施例によれば、動画コンテンツの効率的かつ正確な分割を実現することができる。
理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
【0012】
【
図1】本開示の実施例による、本明細書で説明される各方法を実施することができる例示的なシステムを示す概略図である。
【
図2】本開示の実施例による動画処理方法を示すフローチャートである。
【
図3】本開示の実施例による動画処理システムを示す概略図である。
【
図4】本開示の実施例による動画処理システムを示すインタラクティブタイミング図である。
【
図5】本開示の実施例による動画処理過程を示すフローチャートである。
【
図6】本開示の実施例による動画処理装置の構成を示すブロック図である。以及
【
図7】本開示の実施例を実現するために使用できる例示的な電子機器の構造を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0014】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1要素と第2要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0015】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。
【0016】
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
ユーザは、動画を再生している過程において、オープニング、エンディング、広告など、自分が関心のないコンテンツをスキップして、本編だけを見る。従来技術では、動画の制作者や動画再生プラットフォームのオペレータが動画コンテンツの分割点(例えば、オープニング、エンディング、広告などの位置)を手動でマークするのが一般的であり、効率が低く、人件費が高い。
【0017】
上記課題に鑑み、本開示の実施例は、動画処理方法を提供する。該方法は動画コンテンツの効率的で、正確な分割を実現することができる。
以下、図面を参照して本開示の実施例について詳細に説明する。
【0018】
図1は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。
図1を参照すると、該システム100は、1つ以上のクライアントデバイス101、102、103、104、105と106、サーバ120、及び1つ以上のクライアントデバイスをサーバ120に結合する1つ以上の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、1つ以上のアプリケーションを実行するように構成されることが可能である。
【0019】
本開示の実施例では、クライアントデバイス101、102、103、104、105、106及びサーバ120は、本開示の実施例の動画処理方法を実行することができる1つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0020】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0021】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つ以上のユニットを含んでもよい。これらのアセンブリは、1つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、1つ以上のクライアントアプリケーションを順次利用してサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、
図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0022】
クライアントデバイス101、102、103、104、105及び/又は106は、クライアントデバイスのユーザがクライアントデバイスとインタラクションするインターフェースを提供することができる。クライアントデバイスは、該インターフェースを介してユーザに情報を出力することもできる。
図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0023】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、車載機器、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIXオペレーティングシステム、Linux又は類Linuxオペレーティングシステムなどの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯型ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他のデバイスを含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0024】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、1つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース、Wi-Fi)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0025】
サーバ120は、1つ以上の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する1つ以上の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶デバイスを維持するために仮想化された論理記憶デバイスの1つ以上のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する1つ以上のサービス又はソフトウェアアプリケーションを実行することができる。
【0026】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む1つ以上のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVAサーバ、データベースサーバなど、様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか1つを実行することもできる。
【0027】
いくつかの実施形態では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための1つ以上のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の1つ以上のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する1つ以上のアプリケーションを含んでもよい。
【0028】
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0029】
システム100は、1つ以上のデータベース130を含むこともできる。いくつかの実施形態では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ以上は、音声ファイルや動画ファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施形態では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの1つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0030】
いくつかの実施形態では、データベース130のうちの1つ以上は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0031】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で構成し操作することができる。
いくつかの実施例によれば、クライアントデバイス101~106は、動画を再生するためのクライアントアプリケーション(例えば、ネットディスククライアント、動画クライアントなど)を含むことができる。それに応じて、サーバ120は、該クライアントアプリケーションに対応するサーバである。サーバ120は、本開示の実施例に係るデータ処理方法を実行することにより、動画のコンテンツ分割点、例えば、オープニング終了点、エンディング開始点、広告終了点などを確定することができる。確定された動画のコンテンツ分割点は、該動画と関連付けられてデータベース130に記憶され得る。クライアントデバイス101~106が該動画の再生要求を開始すると、サーバ120は、該動画の動画データをそのコンテンツ分割点とともにユーザに返信することができ、それにより、クライアントデバイス101~106が該動画を再生する。クライアントデバイス101~106が動画を再生する過程において、該動画のコンテンツ分割点に基づいて、自動的に又は手動で(即ち、ユーザの選択に基づいて)、オープニング、エンディングなどのコンテンツをスキップし、ユーザの動画再生体験を向上させることができる。
【0032】
いくつかの実施例において、クライアントデバイス101~106は、本開示の実施例によるデータ処理方法を実行することによって、動画のコンテンツ分割点を確定することもできる。該実施例は、一般に、クライアントデバイス101~106のより高いハードウェア構成及び計算能力を必要とする。
【0033】
図2は、本開示の実施例による、動画処理方法200のフローチャートを示す。上記したように、方法200の実行主体は、通常、サーバ(例えば、上記のサーバ120)である。いくつかの実施例では、方法200の実行主体は、クライアントデバイス(例えば、上記のクライアントデバイス101~106)であってもよい。
図2に示すように、方法200は、ステップS210~S240を含む。
【0034】
ステップS210において、処理すべき動画の再生行動データを取得する。
ステップS220において、再生行動データに基づいて、動画のコンテンツ分割点が位置するターゲット動画セグメントを確定する。コンテンツ分割点より前に位置する動画コンテンツのタイプは、コンテンツ分割点より後に位置する動画コンテンツのタイプとは異なる。
【0035】
ステップS230において、ターゲット動画セグメントの音声特徴を抽出する。
ステップS240において、音声特徴に基づいて、ターゲット動画セグメントからコンテンツ分割点を確定する。
【0036】
本開示の実施例によれば、ある動画に対するユーザの再生行動データに基づいて、該動画のコンテンツ分割点のおおよその位置、すなわち、ターゲット動画セグメントを確定する。その後、ターゲット動画セグメントの音声特徴に基づいて、コンテンツ分割点の正確な位置を確定する。これにより、動画コンテンツの効率的かつ正確な分割を実現することができる。
【0037】
以下、方法200の各ステップを詳細に説明する。
ステップS210において、処理すべき動画の再生行動データを取得する。
処理すべき動画は、限定されないが、オープニング、本編(すなわち、動画の本体)、エンディングなどを含む、異なるタイプの動画コンテンツを含むことができる。本開示の実施例では、異なるタイプの動画コンテンツの時間的境界点がコンテンツ分割点として記録される。コンテンツ分割点より前に位置する動画コンテンツのタイプは、コンテンツ分割点より後に位置する動画コンテンツのタイプとは異なる。コンテンツ分割点は、例えば、オープニングと本編とを分離するためのオープニング終了点(すなわち、本編開始点)と、本編とエンディングとを分離するためのエンディング開始点(すなわち、本編終了点)とを含む。本編に広告が挿入される場合、コンテンツ分割点は、広告を本編から分離するための広告終了点(すなわち、本編開始点)などをさらに含むことができる。
【0038】
動画コンテンツの分割正確度を向上させるためには、ステップS210において、複数のユーザからの再生行動データを取得する必要がある。
再生行動データとは、ユーザが動画の再生中に生成する行動データである。
【0039】
いくつかの実施例によれば、再生行動データは、例えば、動画の再生回数を含む。
いくつかの実施例によれば、再生行動データは、ユーザが動画に対して行うインタラクティブ操作のタイプ、ユーザが動画にインタラクティブ操作を行う際に動画が位置する再生時点などを含む。
【0040】
動画に対するユーザのインタラクティブ操作は、例えば、再生選択操作であってもよい。再生選択操作は、どの時点から動画の再生を開始するかを選択するために用いられ、つまり、再生選択操作に対応する再生時点は、ユーザが選択した再生開始時点である。例えば、再生選択操作は、プログレスバーにおけるポインティングコントロールをドラッグする操作、すなわちドラッグ操作であってもよい。ドラッグ操作に対応する再生時点は、ユーザがドラッグ操作を終了したときのポインティングコントロールがある位置に対応する動画時点である。また、例えば、再生選択操作は、ユーザがその選択した時点をテキストボックスに入力する操作、すなわち、時点入力操作であってもよい。ユーザが入力した時点は、該時点入力操作に対応する再生時点である。
【0041】
動画に対するユーザのインタラクティブ操作は、例えば、再生終了操作であってもよい。再生終了操作に対応する再生時点は、すなわち、ユーザが動画再生を終了したときに動画が位置する時点、すなわち再生終了時点である。具体的には、再生終了操作は、例えば、動画再生インターフェースを閉じるか、又はそこから出る操作であってもよい。
【0042】
ユーザの再生行動データは、動画コンテンツに対するユーザの関心度、ひいては動画コンテンツの変化を体現することができる。これにより、複数のユーザの再生行動データに基づいて、コンテンツ分割点の位置を迅速に識別することができる。
【0043】
ステップS220において、再生行動データに基づいて、動画のコンテンツ分割点が位置するターゲット動画セグメントを確定する。
いくつかの実施例によれば、上記したように、再生行動データは、ユーザが動画にインタラクティブ操作を行う際に動画が位置する再生時点を含む。したがって、ステップS220は、以下のステップS222~S226を含むことができる。
【0044】
ステップS222において、動画を、ターゲット時間長の複数の動画セグメントに分割する。
ステップS224において、複数の動画セグメントのうちのいずれか1つの動画セグメントに対して、該動画セグメントのインタラクティブ回数を確定し、ここでは、インタラクティブ回数は、再生時点が該動画セグメントに位置するインタラクティブ操作の数である。
【0045】
ステップS226において、複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、複数の動画セグメントからターゲット動画セグメントを確定する。
【0046】
上記した実施例によれば、動画に対するユーザのインタラクティブ操作は、動画コンテンツに対するユーザの関心度、ひいては動画コンテンツの変化を体現することができる。例えば、ユーザは、通常、動画コンテンツのオープニング、エンディング、広告などに関心がない。オープニングや広告を再生する時、ユーザは、これらの動画コンテンツをスキップして本編に入るように再生選択操作を行う可能性が高い。エンディングを再生する時、ユーザが再生終了操作を行う可能性が高い。これにより、ユーザのインタラクティブ操作に基づいて、コンテンツ分割点のおおよその位置を迅速に確定することができる。
【0047】
ステップS222において、処理すべき動画を、同じ時間長の複数の動画セグメントに分割する。各動画セグメントの時間長はターゲット時間長である。ターゲット時間長は、例えば、10秒間、30秒間、1分間など、任意の値であってよい。いくつかの実施例によれば、ターゲット時間長は、動画の総時間長と正の相関を有することができる。すなわち、動画の合計時間長が大きいほど、ターゲット時間長を大きく設定する。これにより、動画処理効率を向上させることができる。
【0048】
ステップS224において、ユーザの再生行動データに基づいて各動画セグメントのインタラクティブ回数を確定することができる。動画セグメントのインタラクティブ回数は、再生時点が当該動画セグメントに位置するインタラクティブ操作の数である。
【0049】
いくつかの実施例によれば、異なるタイプのインタラクティブ操作を選択して、異なるタイプのコンテンツ分割点を識別することができ、それによって、コンテンツ分割の正確性を向上させることができる。従って、異なるタイプのコンテンツ分割点に対して、ステップS224及びS226の具体的な実施詳細は異なる。
【0050】
いくつかの実施例によれば、再生選択操作を選択してオープニング終了点を識別することができる。従って、再生行動データは、ユーザによる再生選択操作で選択した再生時点、及び、該再生時点からのユーザによる連続再生時間長を含む。それに応じて、ステップS224は、ステップS2242及びS2244をさらに含むことができる。
【0051】
ステップS2242では、連続再生時間長が第1閾値より大きいインタラクティブ操作を有効インタラクティブ操作として確定する。第1閾値は、例えば、3秒間、5秒間などであってもよい。
【0052】
ステップS2244では、再生時点が前記動画セグメントに位置する有効インタラクティブ操作の数を前記インタラクティブ回数として確定する。
ユーザは通常、オープニングに関心がない。ユーザがある再生時点を選択した後の連続再生時間長が長い場合、ユーザは今回の操作でオープニングをスキップし、すなわち、オープニング終了点に達したことを示す。ユーザがある再生時点を選択した後の連続再生時間長が短く、すぐに次の再生選択操作を行った場合、ユーザの今回の操作はオープニングをスキップしておらず、すなわち、オープニング終了点に達していないと示す。上記した実施例によれば、連続再生時間長の短い無効(オープニングをスキップしない)インタラクティブ操作を濾過することができ、それにより、オープニング識別の正確性を向上させることができる。
【0053】
いくつかの実施例によれば、識別すべきコンテンツ分割点がオープニング終了点である場合、ステップS226は、第1時間範囲内におけるインタラクティブ回数が最も大きい動画セグメントを、オープニング終了点が位置するターゲット動画セグメントとして確定することを含むことができる。ここで、第1時間範囲は、動画の開始点から第1時点までの時間範囲である。第1時点は、例えば、動画の4分目、5分目などの時点であってもよい。
【0054】
上記した実施例によれば、動画の開始点から、オープニング終了点が位置するターゲット動画セグメントを確定することができ、これにより、オープニング識別の正確性を向上させることができる。
【0055】
いくつかの実施例によれば、再生終了操作を選択してエンディング開始点を識別することができる。それに応じて、再生行動データは、再生終了操作に対応する再生終了時点を含む。ステップS224は、再生終了時点が動画セグメントに位置する再生終了操作の数を、該動画セグメントのインタラクティブ回数として確定することを含むことができる。
【0056】
いくつかの実施例によれば、識別すべきコンテンツ分割点がエンディング開始点である場合、ステップS226は、第2時間範囲におけるインタラクティブ回数が最も多い動画セグメントを、エンディング開始点が位置するターゲット動画セグメントとして確定することを含むことができる。ここでは、第2時間範囲は、動画の第2時点から終了点までの時間範囲である。第2時点は、例えば、動画の最後から4分目、最後から5分目などの時点であってもよい。
【0057】
通常、ユーザはエンディングに関心がない。動画がエンディングまで再生されると、ユーザは、通常、現在の動画再生を終了し、次の動画を再生し続けるか、又は動画を再生しないことを選択する。上記した実施例によれば、動画のエンディングから、エンディング開始点が位置するターゲット動画セグメントを確定し、それによって、エンディング識別の正確性を向上させることができる。
【0058】
いくつかの実施例において、識別すべきコンテンツ分割点が広告終了点である場合、ステップS224は、上記ステップS2242及びS2244を含むことができ、そして、ステップS226は、第3時間範囲内におけるインタラクティブ回数が最も大きい動画セグメントを、オープニング終了点が位置するターゲット動画セグメントとして確定することを含む。第1時間範囲は、上記第1時点から第2時点までの時間範囲である。
【0059】
ユーザは通常、本編に挿入された広告に関心がない。広告の再生が開始されると、ユーザは、通常、プログレスバーをドラッグして、広告コンテンツをスキップする。ユーザがある再生時点を選択した(プログレスバー上のある位置までドラッグした)後の連続再生時間長が長い場合、ユーザは今回の操作で広告をスキップし、すなわち、広告終了点に達したことを示す。ユーザが、ある再生時点を選択した後の連続再生時間長が短く、すぐに次のドラッグ操作を行った場合、ユーザは、今回の操作で広告をスキップしておらず、すなわち、広告終了点に達していないことを示す。上記した実施例によれば、連続再生時間長の短い、無効(広告をスキップしない)インタラクティブ操作を濾過し、動画の中間セグメントから広告終了点が位置するターゲット動画セグメントを確定し、それにより、本編に挿入される広告識別の正確性を向上させることができる。
【0060】
いくつかの実施例によれば、再生行動データは、前記動画の再生回数を含む。したがって、ステップS220は、動画の再生回数が第2閾値より大きいことに応答して実行するものであってもよい。すなわち、再生回数が第2閾値より大きいことに応じて、再生行動データに基づいて、動画のコンテンツ分割点が位置するターゲット動画セグメントを確定する。第2閾値は、例えば、100、500などであってもよい。
【0061】
動画の再生回数がある程度累積した場合、得られる再生行動データは多く、より統計的な意味を持つ。上記した実施例によれば、動画の再生回数がある程度累積した場合、動画コンテンツ分割をトリガし、動画コンテンツ分割の正確性を向上させることができる。
【0062】
いくつかの実施例によれば、動画分割のためのターゲット時間長及び動画再生回数の第2閾値はサンプル動画のコンテンツ分割点ラベルに基づいて確定することができる。例えば、指定されるターゲット時間長と第2閾値に基づいて、上記したステップS222~S226により、各サンプル動画のコンテンツ分割点が位置するターゲット動画セグメントを確定することができる。確定されるターゲット動画セグメント(すなわち、予測値)を、コンテンツ分割点が位置する真のターゲット動画セグメント(すなわち、真の値)と比較することによって、サンプル動画の現在のターゲット時間長及び第2閾値におけるターゲット動画セグメントの識別正確率を確定することができる。識別正確率が最も高いターゲット時間長と第2閾値とを、最適なターゲット時間長と第2閾値として確定する。
【0063】
ステップS230において、ターゲット動画セグメントの音声特徴を抽出する。いくつかの実施例によれば、ステップS230は、ステップS232及びS234を含むことができる。
【0064】
ステップS232において、ターゲット動画セグメントの音声データにフーリエ変換を行って、該音声データに対応する周波数スペクトルを得る。
ステップS234において、周波数スペクトルに対して特徴抽出を行って、音声特徴を得る。
【0065】
上記した実施例によれば、ターゲット動画セグメントの周波数領域の音声特徴を抽出することにより、音声データの基本的な特徴を維持するとともにデータ圧縮を実現し、これにより、動画コンテンツの分割の効率と正確性を向上させることができる。
【0066】
いくつかの実施例によれば、音声特徴は、例えば、メル周波数ケプストラム係数(MFCC)であってもよい。ステップS234は、ステップS222で得られた周波数スペクトルを等面積メルフィルタ(Mel-filter bank with same bank area)によりメルスペクトルに変換することと、メルスペクトルにおいてケプストラム分析を行って、メル周波数ケプストラム係数を得ることとを含むことができる。具体的には、ケプストラム分析は、対数演算、離散コサイン変換(DCT)などの操作を含む。離散コサイン変換後の2番目から13番目の係数をメル周波数ケプストラム係数とする。
【0067】
ステップS240において、音声特徴に基づいて、ターゲット動画セグメントからコンテンツ分割点を確定する。
いくつかの実施例によれば、予め設定された音声特徴とコンテンツ分割点とのマッピング関係に基づいて、動画のコンテンツ分割点を確定する。本実施例によれば、コンテンツ分割点の正確な位置を迅速に確定することができる。コンテンツ分割点は、例えば、秒レベルまで正確化することができる。
【0068】
音声特徴とコンテンツ分割点とのマッピング関係は、引数xが音声特徴であること、変数yが、ターゲット動画セグメントにおけるコンテンツ分割点のオフセット時間である式y=f(x)である。
【0069】
いくつかの実施例によれば、音声特徴とコンテンツ分割点とのマッピング関係は、サンプル動画のコンテンツ分割点ラベルと、前記コンテンツ分割点ラベルが位置するサンプルターゲット動画セグメントの音声特徴とに基づいて確定されるものであってもよい。例えば、上記したステップS232~S234により、各サンプル動画のサンプルターゲット動画セグメントの音声特徴を抽出する。サンプルターゲット動画セグメントの音声特徴x0と、サンプルターゲット動画セグメントにおけるコンテンツ分割点ラベルのオフセット時間y0からなるデータ対(x0、y0)をサンプルデータとし、フィッティングして音声特徴xとコンテンツ分割点yとのマッピング式y=f(x)を得る。
【0070】
図3は、本開示の実施例による、動画処理システム300の概略図を示す。
図3に示すように、動画処理システム300は、行動データ収集モジュール310と、メッセージキュー320と、行動データ分析モジュール330と、分散式キャッシュ340と、音声分析モジュール350と、データベース360とを含む。
【0071】
行動データ収集モジュール310は、ユーザの再生行動データを収集するために使用される。再生行動データは、動画再生SDK(Software Development Kit、ソフトウェア開発パケット)によって再生ログに記録し、再生ログを非同期メッセージキュー320に書き込むことができる。再生行動データには、例えば、ユーザがプログレスバーをドラッグする行動の開始位置やターゲット位置、ユーザが動画再生を終了する位置などを含む。
【0072】
行動データ分析モジュール330は、メッセージキュー320内の再生行動データを消費し、再生行動データを分散式キャッシュ340に一時的にキャッシュする。キャッシュされたデータ量が閾値(上記「第2閾値」に対応する)に達すると、再生行動データを分析し、コンテンツ分割点が位置するターゲット動画セグメントを確定する。
【0073】
音声分析モジュール350は、ターゲット動画セグメントの音声特徴を抽出する。音声特徴に基づいて、コンテンツ分割点の正確な位置を確定し、確定されたコンテンツ分割点をデータベース360に書き込む。動画のコンテンツ分割点は、コンテンツ分割点に基づいてオープニング、エンディングなどの動画コンテンツをスキップするために使用されるように、後続の該動画を再生するユーザに提供することができる。
【0074】
図4は、本開示の実施例による動画処理システムのインタラクティブタイミング図を示す。
図4に示される実施例では、動画処理システムは、行動データ収集モジュール410と、メッセージキュー420と、行動データ分析モジュール430と、分散式キャッシュ440と、音声分析モジュール450と、データベース460とを含む。
【0075】
ステップS471において、行動データ収集モジュール410は、ユーザ(ユーザA)が動画を再生している過程において、ユーザAの再生行動データを収集する。
【0076】
ステップS472において、行動データ収集モジュール410は、再生行動データをメッセージキュー420に書き込む。
ステップS473において、行動データ収集モジュール410は、メッセージキュー420から返された再生行動データの書き込み成功メッセージを受信する。
【0077】
ステップS474において、行動データ分析モジュール430は、メッセージキュー420内の再生行動データを消費し、ステップS475において、再生行動データを分散式キャッシュ440に一時的に格納する。
【0078】
ステップS476において、分散式キャッシュ440にキャッシュされたデータ量が閾値(上記「第2閾値」に対応する)に達し、行動データ分析モジュール430が再生行動データを分析して、コンテンツ分割点が位置するターゲット動画セグメントを確定する。
【0079】
ステップS477において、音声分析モジュール450は、行動データ分析モジュール430が得たターゲット動画セグメントを取得し、ターゲット動画セグメントの音声特徴を抽出し、音声特徴に基づいてコンテンツ分割点の正確な位置を確定する。
【0080】
ステップS478において、音声分析モジュール450は、確定されたコンテンツ分割点をデータベース460に書き込む。
ステップS479において、他のユーザ(上記ユーザAとは異なるユーザB)が動画を視聴する場合、動画再生プラットフォームは、データベース460から該動画のコンテンツ分割点を取得し、かつそれをユーザが使用するクライアントデバイスに提供して、ユーザが該動画を再生する過程において、ユーザのために自動的にオープニング、エンディングをスキップする。
【0081】
図5は、本開示の実施例による、動画処理過程のフローチャートを示す。
図5に示される実施例では、動画処理システムは、行動データ収集モジュール510と、メッセージキュー520と、行動データ分析モジュール530と、分散式キャッシュ540と、音声分析モジュール550と、データベース560とを含む。
【0082】
ステップS591において、クライアント570が動画を再生する過程において、行動データ収集モジュール510は、ゲートウェイ580を介してクライアント570の再生行動データを収集し、それをメッセージキュー520に書き込む。
【0083】
ステップS592において、行動データ分析モジュール530は、メッセージキュー520内の再生行動データを消費し、再生行動データを分散式キャッシュ540に一時的に格納する。
【0084】
ステップS593において、行動データ分析モジュール530は、分散式キャッシュ540にキャッシュされたデータ量が閾値(上記「第2閾値」に相当する)に達したか否かを判定する。そうであれば、ステップS594を実行し、そうでなければ、ステップS592に戻り、メッセージキュー520における再生行動データを消費し続ける。
【0085】
ステップS594において、行動データ分析モジュール530は、再生行動データを分析して、コンテンツ分割点が位置するターゲット動画セグメントを識別する。
【0086】
ステップS595において、音声分析モジュール550は、行動データ分析モジュール530によって得られたターゲット動画セグメントを取得する。ターゲット動画セグメントの音声特徴を抽出し、音声特徴に基づいてコンテンツ分割点の正確な位置を識別し、コンテンツ分割点の正確な位置をデータベース560に書き込む。
【0087】
本開示の実施例によれば、動画処理装置をさらに提供する。
図6は、本開示の実施例による動画処理装置600の構成のブロック図を示す。
図6に示すように、装置600は、取得モジュール610と、第1確定モジュール620と、抽出モジュール630と、第2確定モジュール640とを含む。
【0088】
取得モジュール610は、処理すべき動画の再生行動データを取得するように構成される。
第1確定モジュール620は、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定するように構成され、ここでは、前記コンテンツ分割点の前に位置する動画コンテンツの種類と前記コンテンツ分割点の後に位置する動画コンテンツの種類とが異なる。
【0089】
抽出モジュール630は、前記ターゲット動画セグメントの音声特徴を抽出するように構成される。
第2確定モジュール640は、前記音声特徴に基づいて、前記ターゲット動画セグメントから前記コンテンツ分割点を確定するように構成される。
【0090】
本開示の実施例によれば、ある動画に対するユーザの再生行動データに基づいて、該動画のコンテンツ分割点のおおよその位置、すなわち、ターゲット動画セグメントを確定する。その後、ターゲット動画セグメントの音声特徴に基づいて、コンテンツ分割点の正確な位置を確定する。これにより、動画コンテンツの効率的かつ正確な分割を実現することができる。
【0091】
いくつかの実施例によれば、前記再生行動データは、ユーザが前記動画をインタラクティブ操作する際の前記動画が位置する再生時点を含み、ここでは、前記第1確定モジュールは、前記動画をターゲット時間長の複数の動画セグメントに分割するように構成される分割ユニットと、前記複数の動画セグメントのうちのいずれか1つの動画セグメントに対して、前記動画セグメントのインタラクティブ回数を確定するように構成される第1確定ユニットであって、ここでは、前記インタラクティブ回数は再生時点が前記動画セグメントに位置するインタラクティブ操作の数であるものと、前記複数の動画セグメントのそれぞれのインタラクティブ回数に基づいて、前記複数の動画セグメントから前記ターゲット動画セグメントを確定するように構成される第2確定ユニットとを含む。
【0092】
いくつかの実施例によれば、前記インタラクティブ操作は、再生選択操作を含み、前記再生行動データは、前記再生時点からの連続再生時間長をさらに含み、前記コンテンツ分割点は、オープニング終了点を含み、ここでは、前記第1確定ユニットは、さらに、連続再生時間長が第1閾値より大きいインタラクティブ操作を有効インタラクティブ操作として確定し、再生時点が前記動画セグメントに位置する有効インタラクティブ操作の数を前記インタラクティブ回数として確定するように構成される。
【0093】
いくつかの実施例によれば、前記第2確定ユニットは、さらに、第1時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定するように構成され、ここでは、前記第1時間範囲は、前記動画の開始点から第1時点までの時間範囲である。
【0094】
いくつかの実施例によれば、前記インタラクティブ操作は、再生終了操作を含み、前記コンテンツ分割点は、エンディング開始点を含み、前記第2確定ユニットは、さらに、第2時間範囲におけるインタラクティブ回数が最も大きい動画セグメントを前記ターゲット動画セグメントとして確定するように構成され、前記第2時間範囲は、前記動画の第2時点から終了点までの時間範囲である。
【0095】
いくつかの実施例によれば、前記再生行動データは、前記動画の再生回数を含み、前記第1確定モジュールは、さらに、前記再生回数が第2閾値よりも大きいことに応答して、前記再生行動データに基づいて、前記動画のコンテンツ分割点が位置するターゲット動画セグメントを確定するように構成される。
【0096】
いくつかの実施例によれば、前記抽出モジュールは、前記ターゲット動画セグメントの音声データにフーリエ変換を行って、前記音声データに対応する周波数スペクトルを得るように構成される変換ユニットと、前記周波数スペクトルに対して特徴抽出を行って、前記音声特徴を得るように構成される抽出ユニットとを含む。
【0097】
いくつかの実施例によれば、前記第2確定モジュールは、さらに、予め設定された音声特徴とコンテンツ分割点とのマッピング関係に基づいて、前記コンテンツ分割点を確定するように構成される。
【0098】
いくつかの実施例によれば、前記マッピング関係は、サンプル動画のコンテンツ分割点ラベルと、前記コンテンツ分割点ラベルが位置するサンプルターゲット動画セグメントの音声特徴とに基づいて確定されるものである。
【0099】
図6に示す装置600の各モジュール及びユニットは、
図2を参照して説明した方法200の各ステップに対応することができることを理解されたい。したがって、方法200に関して上記した操作、特徴、及び利点は、装置600と及びそれに含まれるモジュール及びユニットに等しく適用可能である。簡潔のために、いくつかの操作、特徴及び利点はここでは説明を省略する。
【0100】
特定の機能は上記で特定のモジュールを参照して論じられているが、本明細書で論じた各モジュールの機能は複数のモジュールに分割されてもよく、及び/又は複数のモジュールの少なくともいくつかの機能は単一のモジュールに組み合わせてもよいことに留意されたい。
【0101】
本明細書では、ソフトウェアハードウェア要素又はプログラムモジュールの一般的なコンテキストで様々な技術を説明することができることも理解されたい。上記の
図6で説明された各ユニットに関しては、ハードウェアにおいて、又はソフトウェア及び/又はファームウェアと組み合わされたハードウェアにおいて実装することができる。例えば、これらのユニットは、1つ又は複数のプロセッサにおいて実行され、コンピュータ可読記憶媒体に記憶されるように構成されるコンピュータプログラムコード/命令として実装することができる。選択的に、これらのユニットはハードウェアロジック/回路として実装することができる。例えば、いくつかの実施例では、モジュール610~640のうちの1つ又は複数は、システムオンチップ(System on Chip、SoC)で一緒に実装されてもよい。SoCは、集積回路チップ(例えば、プロセッサ(例えば、中央処理ユニット(Central Processing Unit、CPU)、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)などを含む)、メモリ、1つ又は複数の通信インターフェース、及び/又は他の回路中の1つ又は複数のコンポーネント)を含んでもよく、オプションで受信したプログラムコードの実行、及び/又は埋め込みファームウェアを含むことで機能を実行することができる。
【0102】
本開示の実施例によれば、電子機器をさらに提供し、前記電子機器は、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサに通信可能に接続されるメモリとを含み、該メモリには、上記少なくとも1つのプロセッサによって実行可能な命令が記憶され、該命令は、上記少なくとも1つのプロセッサが本開示の実施例による動画処理方法を実行できるように、上記少なくとも1つのプロセッサによって実行される。
【0103】
本開示の実施例によれば、コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体をさらに提供し、該コンピュータ命令は、コンピュータに、本開示の実施例による動画処理方法を実行させるために用いられる。
【0104】
本開示の実施例によれば、コンピュータプログラム命令を含むコンピュータプログラム製品をさらに提供し、該コンピュータプログラム命令は、プロセッサによって実行されると、本開示の実施例による動画処理方法を実現する。
【0105】
次に、
図7を参照して、本開示のサーバ又はクライアントとして機能する電子機器700の構成ブロック図について説明し、それは、本開示の各態様に応用可能なハードウェア装置の一例である。電子機器は、様々な形態のデジタル電子コンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0106】
図7に示すように、電子機器700は、読取り専用メモリ(ROM)702に記憶されたコンピュータプログラム、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット701を含む。また、RAM703には、電子機器700の動作に必要な各種プログラムやデータが記憶されていてもよい。計算ユニット701、ROM702、RAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
【0107】
電子機器700における、入力ユニット706、出力ユニット707、記憶ユニット708、通信ユニット709を含む複数のコンポーネントは、I/Oインタフェース705に接続される。入力ユニット706は、電子機器700に情報を入力可能な任意のタイプのデバイスであってもよく、入力ユニット706は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成してもよく、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク、及び/又はリモコンを含むがこれらに限定されない。出力ユニット707は、情報を提示することが可能な任意のタイプの機器であってもよく、ディスプレイ、スピーカ、動画/音声出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット708は、磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット709は、電子機器700が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース装置、802.11装置、Wi-Fi装置、WiMAX装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0108】
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントとすることができる。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記した様々な方法及び処理、例えば方法200を実行する。例えば、いくつかの実施例では、方法200は、記憶ユニット708などの機械可読媒体に有形に具現化されるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例において、コンピュータプログラムの一部の又は全てはROM702及び/又は通信ユニット709を経由して電子機器700にロード及び/又はインストールされてよい。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行されると、上記した方法200の1つ以上のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他の任意の適切な手段(例えば、ファームウェア)を用いて方法200を実行するように構成されることができる。
【0109】
本明細書で上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ以上のコンピュータプログラムに実施され、該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令を該記憶システム、該少なくとも1つの入力装置、該少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0110】
本開示の方法を実施するプログラムコードは1つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0111】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ以上のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
【0112】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザは該キーボードと該ポインティング装置を介してコンピュータに入力してよい。その他のタイプの装置は更に、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0113】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0114】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0115】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0116】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本開示の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
【外国語明細書】