特許第6986527号(P6986527)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

<>
  • 特許6986527-ビデオを処理する方法及び装置 図000002
  • 特許6986527-ビデオを処理する方法及び装置 図000003
  • 特許6986527-ビデオを処理する方法及び装置 図000004
  • 特許6986527-ビデオを処理する方法及び装置 図000005
  • 特許6986527-ビデオを処理する方法及び装置 図000006
  • 特許6986527-ビデオを処理する方法及び装置 図000007
  • 特許6986527-ビデオを処理する方法及び装置 図000008
  • 特許6986527-ビデオを処理する方法及び装置 図000009
  • 特許6986527-ビデオを処理する方法及び装置 図000010
  • 特許6986527-ビデオを処理する方法及び装置 図000011
  • 特許6986527-ビデオを処理する方法及び装置 図000012
  • 特許6986527-ビデオを処理する方法及び装置 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6986527
(24)【登録日】2021年12月1日
(45)【発行日】2021年12月22日
(54)【発明の名称】ビデオを処理する方法及び装置
(51)【国際特許分類】
   G06F 16/783 20190101AFI20211213BHJP
   H04N 21/84 20110101ALI20211213BHJP
   G06F 16/71 20190101ALI20211213BHJP
【FI】
   G06F16/783
   H04N21/84
   G06F16/71
【請求項の数】8
【外国語出願】
【全頁数】29
(21)【出願番号】特願2019-52669(P2019-52669)
(22)【出願日】2019年3月20日
(65)【公開番号】特開2019-212290(P2019-212290A)
(43)【公開日】2019年12月12日
【審査請求日】2019年6月5日
(31)【優先権主張番号】201810585416.2
(32)【優先日】2018年6月8日
(33)【優先権主張国】CN
【前置審査】
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】110001508
【氏名又は名称】特許業務法人 津国
(72)【発明者】
【氏名】イエハン・チェン
(72)【発明者】
【氏名】ユ・ルオ
【審査官】 早川 学
(56)【参考文献】
【文献】 再公表特許第2007/043679(JP,A1)
【文献】 特開2009−260762(JP,A)
【文献】 特開2011−130064(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
H04N 21/84
(57)【特許請求の範囲】
【請求項1】
ビデオを処理する、コンピュータにより実施される方法であって、
ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するステップであって、前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含む、ステップと、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップであって、前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定することと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することと、を含む、ステップと、
予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、
前記キーワードを予め設定されたタグ情報集合とマッチングし、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するステップと、
を含み、
前記タグ情報集合は、少なくとも一つのサブ集合を含み、前記ターゲットビデオセグメントのキーワードが、前記サブ集合の一つに含まれたタグ情報にマッチングしたことに応答して、当該サブ集合における少なくとも1つのタグ情報をターゲットビデオセグメントのタグ情報として決定する、
方法。
【請求項2】
前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するステップと、
を含む、請求項に記載の方法。
【請求項3】
推奨情報を生成する方法であって、
ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングするステップであって、前記タグ情報は、請求項1又は2に記載の方法で得られた、対応するビデオセグメントが存在するものであるステップと、
マッチングの成功が決定したことに応答し、前記ビデオセグメントの推奨に用いられる推奨情報を生成するステップと、
を含む方法。
【請求項4】
ビデオを処理する装置であって、
ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットであって、前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含む、ユニットと、
前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットであって、前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定するように配置される第3の決定モジュールと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュールとを含む、ユニットと、
予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、
前記キーワードを予め設定されたタグ情報集合とマッチングして、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するように配置される記憶ユニットと、
を含み、
前記タグ情報集合は、少なくとも一つのサブ集合を含み、記憶ユニットは、前記ターゲットビデオセグメントのキーワードが、前記サブ集合の一つに含まれたタグ情報にマッチングしたことに応答して、当該サブ集合における少なくとも1つのタグ情報をターゲットビデオセグメントのタグ情報として決定するように配置される、
装置。
【請求項5】
前記決定ユニットは、
前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュールと、
前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するように配置される第1の選択モジュールと、
を含む、請求項に記載の装置。
【請求項6】
推奨情報を生成する装置であって、
ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングを行うように配置される取得ユニットであって、前記タグ情報は、請求項1又は2に記載の方法で得られた、対応するビデオセグメントが存在するものである取得ユニットと、
マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットと、
を含む装置。
【請求項7】
一つ以上のプロセッサと、一つ以上のプログラムが記憶されている記憶装置と、を含むサーバーであって、
前記一つ以上のプログラムが前記一つ以上のプロセッサによって実行される場合に、請求項1〜のいずれか1項に記載の方法が前記一つ以上のプロセッサにより実施される、サーバー。
【請求項8】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行される場合に、請求項1〜のいずれか1項に記載の方法が実施される、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、コンピュータ技術の分野に関し、具体的には、ビデオを処理する方法及び装置に関する。
【背景技術】
【0002】
従来技術では、内容に基づくビデオ分類を実施するために、ビデオにタグを付ける処理(例えば、タグは、ビデオの内容の概要、ビデオの内容のキーワード、ある時間範囲におけるビデオの検索数のランキング等であっても良い)を行うことにより、ビデオ内容の分類をさらに細分化する必要がある。例として、ビデオ推奨技術を用いて、ビデオのタグにユーザーが注目度の情報を取り込むことによって、ユーザーにより正確にビデオを推奨する目的を達成することができる。
【発明の概要】
【課題を解決するための手段】
【0003】
本発明の実施形態は、ビデオを処理するための方法及び装置、及び推奨情報を生成するための方法及び装置を提供する。
【0004】
第1の態様において、本発明の実施形態は、ビデオを処理するための方法であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するステップと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップと、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することとを含む方法を提供する。
【0005】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するステップと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
【0006】
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することを含む。
【0007】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
【0008】
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することを含む。
【0009】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの文字概要情報とを含み、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と文字概要情報との類似度を決定するステップと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
【0010】
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することとを含む。
【0011】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するステップと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
【0012】
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることを含む。
【0013】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音声情報であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、音声情報に対して音声識別を行い、対応する音声セグメントの属するカテゴリを表す少なくとも一つの音声カテゴリ情報と、音声カテゴリ情報と対応する、音声情報に含まれる音声セグメントとを取得するステップと、少なくとも一つの音声カテゴリ情報からターゲット音声カテゴリ情報を選択し、ターゲット音声カテゴリ情報に対応する音声セグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
【0014】
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、音声カテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音声セグメントに対して識別を行い、ターゲットビデオセグメントの対応する音声セグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得することを含む。
【0015】
第2の態様において、本発明の実施形態は、推奨情報を生成する方法であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングを行うステップであって、前記タグ情報は、前記第1の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントが存在するものであるステップと、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成することとを含む方法を提供する。
【0016】
第3の態様において、本発明の実施形態は、ビデオを処理する装置であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットと、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニットとを含む装置を提供する。
【0017】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対して画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第1の識別モジュールと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第1の決定モジュールとを含む。
【0018】
幾つかの実施形態においては、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。
【0019】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第1の抽出モジュールと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の決定モジュールとを含む。
【0020】
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように更に配置される。
【0021】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が文字概要情報との類似度を決定するように配置される第3の決定モジュールと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュールとを含む。
【0022】
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュールと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように配置される第1の選択モジュールとを含む。
【0023】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第5の決定モジュールと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第6の決定モジュールとを含む。
【0024】
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
【0025】
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音声情報であり、抽出ユニットは、音声情報に対して音声識別を行い、対応する音声セグメントの属するカテゴリを表す少なくとも一つの音声カテゴリ情報と、音声カテゴリ情報に対応する、音声情報に含まれる音声セグメントとを取得するように配置される第2の識別モジュールと、少なくとも一つの音声カテゴリ情報からターゲット音声カテゴリ情報を選択し、ターゲット音声カテゴリ情報に対応する音声セグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の選択モジュールとを含む。
【0026】
幾つかの実施形態においては、決定ユニットは、予め設定された、音声カテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音声セグメントに対して識別を行い、ターゲットビデオセグメントの対応する音声セグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
【0027】
第4の態様において、本発明の実施形態は、推奨情報を生成する装置であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記第1の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニットと、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットとを含む装置を提供する。
【0028】
第5の態様において、本発明の実施形態は、一つ以上のプロセッサと、一つ以上のプログラムを記憶している記憶装置とを含むサーバーであって、一つ以上のプログラムが一つ以上のプロセッサより実行される場合に、一つ以上のプロセッサに第1の態様または第2の態様の中のいずれか一実施形態で述べられている方法がサーバーにより実施される。
【0029】
第6の態様おいて、本発明の実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。当該コンピュータプログラムがプロセッサより実行される場合に、第1の態様または第2の態様の中のいずれか一実施形態で述べられている方法が実施される。
【0030】
本発明の実施形態によるビデオ処理用の方法と装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。
【0031】
以下の図面を参照しながら説明する非限定的な実施形態の詳細を読むと、本発明の他の特徴、目的及び利点がより明らかになる。
【図面の簡単な説明】
【0032】
図1】本発明の実施形態が適用される例示的なシステム構成図である。
図2】本発明に係るビデオ処理用の方法の一実施形態のフローチャート図である。
図3】本発明に係るビデオ処理用の方法の一つの適用シナリオの模式図である。
図4】本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。
図5】本発明によるビデオ処理用の方法の他の一実施形態のフローチャート図である。
図6】本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。
図7】本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。
図8】本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。
図9】本発明に係る、推奨情報生成用の方法の一実施形態のフローチャート図である。
図10】本発明に係る、ビデオ処理用の装置の一実施形態の構造模式図である。
図11】本発明に係る、推奨情報生成用の装置の一実施形態の構造模式図である。
図12】本発明の実施形態のサーバーを実現するのに適するコンピュータシステムの構造模式図である。
【発明を実施するための形態】
【0033】
以下、図面と実施形態を参照しながら、本発明を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するためのものに過ぎず、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
【0034】
なお、矛盾が生じない限り、本発明における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本発明を詳しく説明する。
【0035】
図1は、本発明の実施形態のビデオを処理する方法または装置を適用可能となる例示的なシステム構造100を示す。
【0036】
図1に示すように、システム構成100は、端末設備101、102、103、ネットワーク104とサーバー105を含んでも良い。ネットワーク104は、端末設備101、102、103とサーバー105との間の通信リンクの媒体を提供するのに用いられる。ネットワーク104は、例えば、有線、無線通信リンク又は光ファイバケーブルなどのような、各種の接続カテゴリを含むことができる。
【0037】
ユーザーは、端末設備101、102、103を使用してネットワーク104を介してサーバー105と対話し、メッセージなどを送受信することができる。端末設備101、102、103には、例えば、ビデオ再生アプリケーション、ウェブブラウザアプリケーション等の各種通信クライアントアプリケーションがインストールされていても良い。
【0038】
端末設備101、102、103はハードウェアであっても良いし、ソフトウェアであっても良い。端末設備101、102、103がハードウェアである場合は、ディスプレイスクリーンを有し、ビデオ再生をサポートする各種の電子設備であっても良く、スマートフォン、タブレット、ラップトップポータブルコンピュータ及びデスクトップコンピュータ等を含むが、これらに限定されない。端末設備101、102、103がソフトウェアである場合は、前記に列挙した電子設備にインストールされても良い。それは複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし(例えば分散式サービスを提供するために用いられるソフトウェアまたはソフトウェアモジュール)、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的な限定をしない。
【0039】
サーバー105は、各種サービスを提供するサーバーであっても良く、例えば、端末設備101、102、103上で再生されるビデオをサポートするためのバックサイドビデオリソースサーバーであっても良い。バックサイドビデオリソースサーバーは、取得したビデオ(例えば、端末設備または他のサーバーから取得したビデオ)に対して処理を行うことができ、さらに処理結果(例えば、ビデオセグメントとビデオセグメントのタグ情報)記憶するか、またはビデオセグメントを端末設備に送ることができる。
【0040】
なお、本発明の実施形態によるビデオ処理用の方法、または推奨情報の生成用の方法は、一般的にはサーバー105によって実行され、相応的には、ビデオ処理用の装置、または推奨情報の生成用の装置は、一般的にはサーバー105に設置される。
【0041】
なお、サーバーはハードウェアであっても良く、ソフトウェアであっても良い。サーバーがハードウェアである場合は、複数のサーバーから構成される分散式サーバークラスタとして実現されても良いし、単一のサーバーとして実現されても良い。サーバーがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし(例えば分散式サービスを提供するために用いられる複数のソフトウェアまたはソフトウェアモジュール)、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的に限定しない。
【0042】
図1の中の端末設備、ネットワークとサーバーの数はただ単に例示的なものであると理解されたい。実現の必要に従って、任意の数の端末設備、ネットワークとサーバーを有しても良い。
【0043】
図2は、本発明によるビデオ処理用の方法の一実施形態のフローチャート200を示す。当該ビデオ処理用の方法は、ステップ201、ステップ202、ステップ203及びステップ204を含む。
ステップ201においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0044】
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合(例えば、あるビデオウェブサイトが提供するビデオ)の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0045】
ステップ202においては、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出する。
【0046】
本発明の実施形態において、ステップ201で得られたターゲットビデオ要素情報に基づき、前記実行主体は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記実行主体は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記実行主体は、各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム(例えば、武器画像を含む画像フレーム)に対応するビデオセグメントをターゲットビデオセグメントとして決定する。
【0047】
ステップ203においては、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。
【0048】
本発明の実施形態において、前記実行主体は、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。例示として、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行し、当該プログラムは、ステップ202で得られた各々の画像フレームの識別結果を利用し、ターゲットビデオセグメントに含まれる画像フレームの識別結果をターゲットビデオセグメントのキーワードとして決定し、または、当該プログラムは、ターゲットビデオセグメントに含まれる画像フレームに対して再度識別を行い、さらにより多くの情報(例えば、各々の画像フレームの中に含まれる物品の数、人物の動作などの情報)を識別し、ターゲットビデオセグメントのキーワードとしても良い。
【0049】
ステップ204においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0050】
本発明の実施形態において、ステップ203で得られたキーワードに基づき、前記実行主体は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
【0051】
実際には、上記タグ情報集合は予め設定された知識ベースであっても良く、当該知識ベースには複数の知識情報が記憶されており、各々の知識情報は、一連のキー情報と対応する。例えば、「戦争」とタグ付けされる知識情報に対して、当該知識情報は、例えば、「人数が二人以上」、「武器使用」、「流血」等のキー情報を含んでも良く、ターゲットビデオセグメントのキーワードが上記キー情報の中の少なくとも一つと一致する場合、ターゲットビデオセグメントのタグ情報を「戦争」に設置しても良い。また、例えば、ある知識情報は、歌の曲名としてタグ付けされると、当該知識情報は、歌の歌手、歌の作者、歌のスタイル(例えば、「婉曲」、「豪放」等)などのキー情報を含んでも良い。ターゲットビデオのキーワードが当該歌の曲名である場合、当該歌の曲名に対応する少なくとも一つのキー情報をターゲットビデオセグメントのタグ情報とさせても良い。
【0052】
図3を再び参照する。図3は、本発明によるビデオ処理用の方法の一つの応用シナリオの模式図である。図3のシナリオにおいて、サーバー301は、まず、ローカルからターゲットビデオ302(例えば、ある映画)とターゲットビデオ302のターゲットビデオ要素情報303を取得する。ここで、ターゲットビデオ要素情報303は、ターゲットビデオに含まれる画像フレームである。そして、サーバー301は、各々の画像フレームに対して識別を行い、武器画像を含み、かつ少なくとも2つの人物画像を含む画像フレームと対応するビデオセグメントをターゲットビデオセグメント304として決定する。続いて、サーバー301は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。ここで、上記キーワードの決定方法は、ターゲットビデオセグメントに含まれる画像フレームの識別結果(すなわち、「武器」、「多人数」)をターゲットビデオセグメントのキーワード305として決定することである。最後に、サーバー301は、キーワード305を予め設定されたタグ情報集合とマッチングし、当該タグ情報集合の中に、「戦争」とタグ付けられているタグ情報サブ集合は、上記キーワードを含むので、ターゲットビデオセグメント304のタグ情報を「戦争」(すなわち、図の中の307)と決定する。最後に、サーバー301は、ターゲットビデオセグメント304とタグ情報307をサーバー301の記憶装置に関連付けて記憶する。
【0053】
本発明の上記実施形態による方法は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワードの決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。
【0054】
図4は、ビデオ処理用の方法のもう一実施形態のフローチャート400を示す。当該ビデオ処理用の方法に用いられるフローチャート400は、ステップ401、ステップ402、ステップ403、ステップ404及びステップ405を含む。
【0055】
ステップ401においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0056】
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0057】
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。
【0058】
ステップ402においては、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得する。
【0059】
本発明の実施形態において、ターゲットビデオに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得することができる。ここで、画像識別結果は、画像フレームに含まれる物体や、シナリオ等の画像関連情報(例えば、物体の数量、シナリオのカテゴリ等の情報)であっても良い。なお、上記画像識別結果は、既存の画像識別方法(例えば、ニューラルネットワークに基づく方法、フラクタル特徴に基づく方法等)に基づいて得られるものであり、画像識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
【0060】
ステップ403においては、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0061】
本発明の実施形態において、ステップ402で得られた画像識別結果に基づき、前記実行主体は、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここで、画像識別結果の間に関連があるか否かを判定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。
【0062】
例示として、画像識別結果は、画像フレームに含まれる物体のカテゴリと画像フレームに含まれる人物の数であっても良く、技術者が予め設定された条件は、画像フレームが武器画像と少なくとも2つの人物画像を含むことであると仮定する。すると、前記実行主体は、武器画像と少なくとも2つの人物画像を含むことを表す画像識別結果を関連の画像識別結果として決定する。そして、前記実行主体は、関連の画像識別結果と対応しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。
【0063】
もう一つの例示として、画像識別結果は、画像フレームに含まれるターゲット物体の位置情報であっても良い。ターゲット物体がサッカーボールであり、前記実行主体は、画像フレームからサッカーボールを識別することができ、かつサッカーボールがグランドの中の位置を識別する(例えば、画像フレームの中のグランドのラインの画像に基づいてサッカーボールの位置を決定する)ことができ、技術者が予め設定された条件は、画像フレームと対応する画像識別結果が、画像フレームがサッカーボール画像を含み、かつサッカーボールがゴールゲートの中に位置することを表すことであると仮定する。すると、前記実行主体は、当該条件を満足する画像識別結果をターゲット画像識別結果として決定することができ、さらにターゲット画像識別結果と対応する画像フレームのターゲットビデオにおける時間範囲を決定し、続いて、当該時間範囲の前と後ろの予め設定された時間範囲内の画像フレームの画像識別結果を決定し、ターゲット画像識別結果と決定した画像識別結果を関連の画像識別結果として決定する。最後に、関連の画像識別結果と対応する画像フレームの存在するビデオセグメントをターゲットビデオセグメントとして決定する。
【0064】
ターゲットビデオに含まれる画像フレームを識別することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出するプロセスをより早くより正確にすることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。
【0065】
ステップ404においては、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定する。
【0066】
本発明の実施形態において、前記実行主体は、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することができる。例示として、画像識別結果とキーワードとの対応関係は、予め設定されたマッピングテーブルまたは予め設定されたデータ構造(例えば、リンクリスト)によって表すことができる。画像識別結果は、画像フレームに含まれる物品画像の名称であっても良く、画像識別結果と対応するキーワードは、物品画像の名称が所属するカテゴリを表すカテゴリキーワードであっても良い。例えば、ターゲットビデオセグメントの中で、一部の画像フレームは、銃画像を含み、一部の画像フレームは、大砲画像を含み、すると、前記マッピングテーブルに基づき、銃画像を含む画像フレームと大砲画像を含む画像フレームのキーワードは「武器」を含むと決定することができる。さらに、ターゲットビデオセグメントの各々の画像フレームは、すべて少なくとも2つの人物画像を含むなら、各々の画像フレームのキーワードは「多人数」を含むと決定することができる。最終的に決定したターゲットビデオセグメントのキーワードは、「武器」と「多人数」を含むことができる。
【0067】
ステップ405においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0068】
本発明の実施形態において、ステップ405は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
【0069】
図4から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート400は、ターゲットビデオに含まれる画像フレームに対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させた。
【0070】
図5は、ビデオ処理用の方法のもう一実施形態のフローチャート500を示す。当該ビデオ処理用の方法のフローチャート500は、ステップ501、ステップ502、ステップ503、ステップ504及びステップ505を含む。
【0071】
ステップ501においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0072】
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0073】
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は、字幕情報(字幕情報は、予め設定された字幕ファイルから取得した情報であっても良く、画像フレームに対して文字識別を行って得られる文字情報であっても良い)であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られる文字情報等であっても良い。
【0074】
ステップ502においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。
【0075】
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出することができる。例示として、文字情報は、ビデオフレームに含まれる字幕であると仮定すると、ターゲット語彙は、字幕から抽出した少なくとも一つの語彙が属する、予め設定されたカテゴリの語彙であっても良い。例えば、予め設定された種別は感情類であっても良く、ターゲット語彙は、「嫌い」、「好き」、「嬉しい」等の感情を表す語彙であっても良い。
【0076】
なお、上記ターゲット語彙は、既存の文字識別方法(例えば、ニューラルネットワークに基づく文字抽出モデル、語彙のカテゴリと語彙のマッピングテーブルに基づく方法等)に基づいて得られるものであり、文字識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
【0077】
ステップ503においては、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0078】
本発明の実施形態において、ステップ502で得られたターゲット語彙に基づき、前記実行主体は、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、ターゲット語彙の間に関連があるか否かを決定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。
【0079】
例示として、技術者により予め設定された条件は、画像フレームに対応するターゲット語彙が戦争類の語彙に属するということであると仮定する。すると、前記実行主体は、当該条件を満足する語彙に対応する各々の画像フレームを、関連の画像フレームとして決定する。または、当該条件を満足する語彙に対応する各々の画像フレームと、ターゲットビデオにおける時間が前記各々の画像フレームの間に位置する画像フレームを、関連の画像フレームとして決定する。そして、関連の画像フレームが存在するビデオセグメントをターゲットビデオセグメントとして決定する。
【0080】
文字情報に含まれるターゲット語彙を抽出することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出する柔軟性を更に向上させることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。
【0081】
ステップ504においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとする。
【0082】
本発明の実施形態において、前記実行主体は、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択することができる。例示として、ターゲットビデオセグメントの中の各々の画像フレームに対応するターゲット語彙は戦争類に属する語彙であると仮定すると、前記実行主体は、各々のターゲット語彙から、各種の方法(例えば、ランダム選択の方法、同一のターゲット語彙の現れる回数の順序に従って選択する方法等)で予め設定された数のターゲット語彙をターゲットビデオセグメントのキーワードとして抽出しても良い。例えば、抽出したキーワードは、「攻撃」、「突撃」、「大砲を打て」等を含んでも良い。
【0083】
ステップ505においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0084】
本発明の実施形態において、ステップ505は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
【0085】
図5から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート500は、ターゲットビデオに含まれる画像フレームと対応する文字情報に対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と柔軟性を向上させることに寄与する。
【0086】
図6は、ビデオ処理用の方法のもう一実施形態のフローチャート600を示す。当該ビデオ処理用の方法は、ステップ601、ステップ602、ステップ603、ステップ604、ステップ605及びステップ606を含む。
【0087】
ステップ601においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0088】
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0089】
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は字幕情報(字幕情報は、予め設定された字幕ファイルから取得された情報であっても良く、画像フレームに対して文字識別を行って得られた文字情報であっても良い)であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られた文字情報等であっても良い。
【0090】
ステップ602においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定する。
【0091】
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定することができる。ここでは、文字情報の類似度を計算する方法は、ジャッカカード(Jaccard)類似度係数の計算に基づく方法、コサイン類似度に基づく方法等の中の少なくとも一つを含むが、これらに限定されない。前記類似度の計算方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
【0092】
ステップ603においては、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0093】
本発明の実施形態において、ステップ602で得られた類似度に基づき、前記実行主体は、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含んでも良い。または、前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含み、さらに前記各々の画像フレームの前と後ろの予め設定された数の画像フレームを含んでも良い。例示として、ターゲットビデオにおいて、30秒、35秒、50秒の画像フレームに対応する類似度は類似度の閾値より大きいとすると、時間範囲が30秒〜50秒の間であるビデオセグメントはターゲットビデオセグメントとなる。または、予め設定された数は500であるとすると、ターゲット画像フレームは、時間範囲が30秒〜50秒の間である画像フレームと、時間範囲が30秒〜50秒の間である画像フレームの前と後ろの500枚の画像フレームとを含む。
【0094】
ステップ604においては、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。
【0095】
本発明の実施形態において、画像フレームに対応する文字情報が含むターゲット語彙を抽出する方法は、前記ステップ502と同じであり、ここでは繰り返して説明しない。
【0096】
ステップ605においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択する。
【0097】
本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択する方法は、前記ステップ504と同じであり、ここでは繰り返して説明しない。
【0098】
ステップ606においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0099】
本発明の実施形態において、ステップ606は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
【0100】
図6から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート600は、文字情報と文字概要情報との類似度の計算のステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させるのに寄与する。
【0101】
図7は、ビデオ処理用の方法の他の一実施形態のフローチャート700を示す。当該ビデオ処理用の方法のフローチャート700は、ステップ701、ステップ702、ステップ703、ステップ704及びステップ705を含む。
【0102】
ステップ701においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0103】
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0104】
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。具体的には、弾幕情報は、画像フレームに対して弾幕文字の識別を行って得られる文字情報であっても良い。例えば、前記実行主体は、既存のOCR(Optical Character Recognition、光学文字認識)技術を利用して画像フレームの中の弾幕を識別し、弾幕情報を得ることができる。
【0105】
ステップ702においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定する。
【0106】
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する弾幕情報の数を決定することができる。
【0107】
ステップ703においては、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0108】
本発明の実施形態において、前記実行主体は、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、前記数の閾値は、例えば、技術者が経験に基づいて設定した数であるように、各種方法で設定した数であっても良く、または前記実行主体によって計算されたターゲットビデオの弾幕情報の総数を、ターゲットビデオに含まれる画像フレームの数で除算した結果であっても良い。実際には、対応する弾幕情報の数が前記数の閾値より大きい画像フレームは、大多数のユーザーが比較的に関心を持つ画像フレームであると見なすことができる。よって、ターゲットビデオセグメントは、注目度が比較的に高いビデオセグメントであると見なすことができる。
【0109】
ステップ704においては、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得する。
【0110】
本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることができる。具体的には、前記実行主体は、各種の方法で弾幕カテゴリ情報を得ることができる。例示として、前記実行主体は、予め設定された弾幕分類モデルを利用して弾幕カテゴリ情報を得ることができる。当該弾幕分類モデルは、技術者が大量の文字情報と文字情報のカテゴリ情報に対する統計に基づいて予め設定された、多数の文字情報とカテゴリ情報の対応関係を記憶しているマッピングテーブルであっても良く、既存の人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)に基づいて監督付き学習によって得られた、文字に対して分類を行うモデルであっても良い。
【0111】
ステップ705においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0112】
本発明の実施形態において、前記実行主体は、まず、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得することができる。そして、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。例示として、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
【0113】
他の一つの例示として、タグ情報集合は、第1のサブ集合と第2のサブ集合とを含んでも良い。ここで、第1のサブ集合は、プラス評価のタグ情報を含み、第2のサブ集合は、マイナス評価のタグ情報を含む。前記実行主体は、弾幕分類情報が第1のサブ集合または第2のサブ集合に属するか否かを判定することができる。弾幕情報が第1のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第1の情報(例えば、「プラス評価」)として設定され、弾幕情報が第2のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第2の情報(例えば、「マイナス評価」)として設定される。
【0114】
図7から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート700は、弾幕情報の数の識別に基づいてターゲットビデオセグメントを抽出し、弾幕カテゴリ情報に基づいてターゲットビデオセグメントのタグ情報を決定するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。
【0115】
更に図8を参照する。図8は、ビデオ処理用の方法のもう一実施形態のフローチャート800を示す。当該ビデオ処理用の方法のフローチャート800は、ステップ801、ステップ802、ステップ803、ステップ804及びステップ805を含む。
【0116】
ステップ801においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
【0117】
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0118】
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオの音声情報である。
【0119】
ステップ802においては、音声情報に対して音声識別を行い、少なくとも一つの音声カテゴリ情報と、音声カテゴリ情報と対応する、音声情報に含まれる音声セグメントとを取得する。
【0120】
本発明の実施形態において、前記実行主体は、音声情報に対して音声識別を行い、少なくとも一つの音声カテゴリ情報と、音声カテゴリ情報と対応する、音声情報に含まれる音声セグメントとを取得することができる。ここでは、音声カテゴリ情報は、対応する音声セグメントの属するカテゴリを表す。前記実行主体は、既存の音声識別技術を利用し、音声情報から少なくとも一つの音声セグメントを抽出することができる。例えば、前記実行主体は、音声情報から、カテゴリが音楽である音声セグメントを抽出し、当該音声セグメントのカテゴリ情報は「音楽」であっても良く、またはカテゴリが音声である音声セグメントを抽出し、当該音声セグメントのカテゴリ情報は「音声」であっても良い。
【0121】
ステップ803においては、少なくとも一つの音声カテゴリ情報からターゲット音声カテゴリ情報を選択し、目標音声カテゴリ情報に対応する音声セグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0122】
本発明の実施形態において、前記実行主体は、まず、各種の方法で少なくとも一つの音声カテゴリ情報からターゲット音声カテゴリ情報を選択する(例えば、ランダム的に選択する、または音声セグメントの抽出順序に従って選択する)ことができる。続いて、ターゲット音声カテゴリ情報に対応する音声セグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。
【0123】
例示として、ターゲット音声カテゴリ情報が“音楽”であり、かつカテゴリ情報が“音楽”である音声セグメントは、音声セグメントAと音声セグメントBとを含むと仮定すると、音声セグメントAと音声セグメントBは、それぞれターゲットビデオセグメントとして決定することができる。
【0124】
ステップ804においては、予め設定された、音声カテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音声セグメントに対して識別を行い、ターゲットビデオセグメントの対応する音声セグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得する。
【0125】
本発明の実施形態において、前記実行主体は、予め設定された、音声カテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音声セグメントに対して識別を行い、ターゲットビデオセグメントの対応する音声セグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとすることができる。ここで、上記音声カテゴリ情報と音声識別方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、音声カテゴリ情報と対応することができ、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行することができる。上記キーワードは、音楽の名称であっても良く、音声に対する識別で得られる文字から抽出したターゲット語彙等であっても良い。上記音声識別の方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
【0126】
例示として、ターゲットビデオセグメントに対応する音声セグメントは音楽であると仮定すると、当該音声セグメントが属するカテゴリを表すキーワードは、当該音楽の名称であっても良い。もう一つの例示として、ターゲットビデオセグメントに対応する音声セグメント音声であると仮定すると、前記実行主体は、まず、当該音声セグメントに対して音声識別を行って文字情報を取得し、そして文字情報からターゲット語彙を、当該音声セグメントが属するカテゴリを表すキーワードとして抽出するようにしても良い。ここで、文字情報からターゲット語彙を抽出する方法は、前記ステップ502で説明の方法と同じであっても良く、ここでは繰り返して説明しない。
【0127】
ステップ805においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0128】
本発明の実施形態において、ステップ805は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
【0129】
図8から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート800は、音声セグメントに対して識別を行ってターゲットビデオセグメントを取得し、ターゲットビデオセグメントと対応する音声セグメントに対して識別を行って、ターゲットビデオセグメントのキーワードを取得するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。
【0130】
図9は、本発明による推奨情報の生成用の方法の一実施形態のフローチャート900を示す。当該情報出力用の方法は、ステップ901とステップ902を含む。
【0131】
ステップ901においては、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングする。
【0132】
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットユーザーが注目する内容を表す注目情報を取得することができる。ここで、ターゲットユーザーは、予め設定されたあるユーザーリストまたはあるユーザー集合の中のユーザー(例えば、あるウェブサイトの登録ユーザー)であっても良く、または一部の条件(例えば、一部のビデオを閲覧したことがある)を満足するユーザーであっても良い。本発明の実施形態において、タグ情報は、前記図2図8のいずれか一実施形態で述べられている方法で得られたものであり、タグ情報は、対応するビデオセグメントを有する。前記注目情報は、ターゲットユーザーと関連する情報であっても良く、例えば、ターゲットユーザーの注目情報は、ターゲットユーザーのユーザー画像情報に含まれているものであっても良く、または、ターゲットユーザーの注目情報は、ターゲットユーザーの閲覧履歴に含まれるものであっても良い。
【0133】
そして、実行主体は、注目情報を予め設定されたタグ情報とマッチングする。具体的には、前記予め設定されたタグ情報は、ターゲットユーザーの注目情報と完全一致または部分一致である場合、注目情報とタグ情報とのマッチングの成功を決定することができる。例えば、予め設定されたタグ情報は「戦争」、「虐殺」を含み、ターゲットユーザーの注目情報は「戦争」、「武器」を含むとすると、注目情報とタグ情報とのマッチングの成功が決定する。
【0134】
ステップ902においては、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。
【0135】
本発明の実施形態において、前記実行主体は、マッチング成功が決定したことに応答し、上記タグ情報が対応するビデオセグメントの推奨情報を生成することができる。例示として、推奨情報は、タグ情報と、タグ情報に対応するビデオセグメントのリンクとを含んでも良く、前記ビデオセグメントのビデオのリンク等を更に含んでも良い。
【0136】
選択可能的に、前記実行主体は、生成された推奨情報を前記ターゲットユーザーが使っている端末設備に送っても良い。
【0137】
本発明の前記実施形態による方法は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングすることによって、ビデオセグメントを推奨する推奨情報を生成する。前記図2図8のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性を向上させた。
【0138】
更に図10を参照する。図10は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を示し、当該装置の実施形態は、図2に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。
【0139】
図10に示すように、本発明のビデオ処理用の装置1000は、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニット1001と、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニット1002と、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニット1003と、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニット1004とを含む。
【0140】
本発明の実施形態において、前記取得ユニット1001は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合(例えば、あるビデオウェブサイトが提供するビデオ)の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音声、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
【0141】
本発明の実施形態において、前記取得ユニット1001で得られたターゲットビデオ要素情報に基づき、前記抽出ユニット1002は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記抽出ユニット1002は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記抽出ユニット1002は各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム(例えば、武器画像を含む画像フレーム)に対応するビデオセグメントをターゲットビデオセグメントとして決定する。
【0142】
本発明の実施形態において、決定ユニット1003は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法の対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。
【0143】
本発明の実施形態において、記憶ユニット1004は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
【0144】
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。抽出ユニットは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第1の識別モジュール(図示せず)と、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第1の決定モジュール(図示せず)とを含む。
【0145】
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。
【0146】
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第1の抽出モジュール(図示せず)と、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の決定モジュール(図示せず)とを含む。
【0147】
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように更に配置される。
【0148】
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定するように配置される第3の決定モジュール(図示せず)と、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュール(図示せず)とを含む。
【0149】
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュール(図示せず)と、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように配置される第1の選択モジュール(図示せず)とを含む。
【0150】
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第5の決定モジュール(図示せず)と、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第6の決定モジュール(図示せず)とを含む。
【0151】
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得するように更に配置される。
【0152】
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオの音声情報である。抽出ユニットは、音声情報に対して音声識別を行い、少なくとも一つの、対応する音声セグメントの属するカテゴリを表す音声カテゴリ情報と、音声カテゴリ情報と対応する、音声情報に含まれる音声セグメントとを取得するように配置される第2の識別モジュール(図示せず)と、少なくとも一つの音声カテゴリ情報からターゲット音声カテゴリ情報を選択し、ターゲット音声カテゴリ情報に対応する音声セグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の選択モジュール(図示せず)とを含む。
【0153】
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、音声カテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音声セグメントに対して識別を行い、ターゲットビデオセグメントの対応する音声セグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
【0154】
本発明の前記実施形態による装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントに対してタグ情報を付ける正確性が向上することができ、ビデオセグメントに対してタグ情報を付ける手段が多様になる。
【0155】
更に図11を参照する。図11は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を提供し、当該装置の実施形態は、図9に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。
【0156】
図11に示すように、本発明のビデオ処理用の装置1100は、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記図2図8のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニット1101と、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニット1102とを含む。
【0157】
本発明の前記実施形態による装置は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングを行うことによって、ビデオセグメントを推奨する推奨情報を生成する。前記図2図8のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性が向上することができる。
【0158】
続いて、図12を参照する。図12は、本発明の実施形態のサーバーを実現するのに適したコンピュータシステム1200の構造模式図を示す。図12に示すサーバーは、ただ単に一つの例示に過ぎず、本発明の実施形態の機能と使用範囲に如何なる制限も与えるべきではない。
【0159】
図12に示すように、コンピュータシステム1200は、中央処理装置(CPU)1201を備え、リードオンリーメモリ(ROM)1202に記憶されているプログラムまたは記憶部1208からランダムアクセスメモリ(RAM)1203にロードされたプログラムに従って各種の適切な動作と処理を実行する。RAM1203に、システム1200の操作に必要な各種のプログラムとデータが更に記憶されている。CPU1201、ROM1202とRAM1203は、バス1204を通じて互いに接続する。入力/出力(I/O)インターフェース1205もバス1204に接続されている。
【0160】
キーボード、マウス、マイクロホン等を含む入力部分1206、例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等及びスピーカー等を含む出力部分1207、ハードディスク等を含む記憶部1208、及び例えばLANカード、モデム等を含むネットワークインターフェースカードの通信部1209は、I/Oインターフェース1205に接続される。通信部1209は、例えば、インターネット等のネットワークを通じて通信処理を実行する。ドライバー1210も必要に応じてI/Oインターフェース1205に接続される。例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のようなリムーバブル記憶媒体1211は、必要に応じてドライバー1210にインストールされることにより、そこから読み出されるコンピュータプログラムは、必要に応じて記憶部1208にインストールされる。
【0161】
特に、本発明の実施形態により、前記の文章でフローチャート図を参照しながら記述したプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本発明の実施形態は、コンピュータプログラム製品を含み、それは、コンピュータ可読記憶媒体に記載されているコンピュータプログラムを含む。当該コンピュータプログラムは、フローチャート図の示す方法を実行するのに用いられるプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部1209を通じてネットワークからダウンロードされてインストールされても良く、及び/またはリムーバブル記憶媒体1211からインストールされても良い。当該プログラムは、中央処理装置(CPU)1201に実行されるとき、本発明の方法の中で限定される前記の機能を実行する。なお、本発明で説明するコンピュータ可読記憶媒体は、コンピュータ可読信号記憶媒体またはコンピュータ可読記憶媒体または両者の任意の組合せであっても良い。コンピュータ可読記憶媒体は、例えば半導体のシステム、装置またはデバイス、またはこれらの任意の組合せであっても良いが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルROM(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスクリードオンリーメモリ(CD−ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本発明において、コンピュータの可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを含むまたは記憶する如何なる有形記憶媒体であっても良い。コンピュータ可読信号記憶媒体は、さらにコンピュータの可読記憶媒体以外の任意のコンピュータ可読記憶媒体であっても良く、当該コンピュータ可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを送信し、伝播し、または転送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは、あらゆる適切な媒体を使って転送することができ、無線、電線、光ファイバー、RF等またはその任意の適切な組み合わせを含むが、これらに限定されない。
【0162】
一つ以上のプログラミング言語またはその組み合わせを使って、本発明の操作の実行に用いられるコンピュータプログラムコードを作成しても良い。前記プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++等のようなオブジェクト指向のプログラミング言語を含み、さらに例えば「C」言語または類似のプログラミング言語のような手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーコンピュータ上で実行されても良く、部分的にユーザーコンピュータ上で実行されても良く、一つの独立したソフトウェアパッケージとして実行されても良く、一部分がユーザーコンピュータ上で実行され一部分がリモートコンピュータ上で実行されても良く、或いは完全にリモートコンピュータまたはサーバー上で実行されても良い。リモートコンピュータに関わる場面において、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のカテゴリのネットワークを通じてユーザーコンピュータに接続されても良いし、または外部コンピュータ(例えばインターネットサービスプロバイダーを利用してインターネットを通じて接続する)に接続されても良い。
【0163】
付属図面の中のフローチャート図とブロック図は、本発明による各種実施形態のシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能と操作を示す。この点において、フローチャート図またはブロック図の中の各ブロックは、一つのモジュール、プログラムセグメント、或いはコードの一部分を代表することができ、当該モジュール、プログラムセグメント、或いはコードの一部分は、一つ以上の、規定のロジック機能の実施例に用いられる実行可能な命令を含む。幾つかの代替の実施例において、ブロックの中で提示した機能は、付属図面の中で提示した順序と異なる順序で発生する可能性があると注意されたい。例えば、二つの接続するように表示されているブロックは、実際において基本的に並列に実行されても良く、場合によっては反対の順序で実行されても良く、何れも関わる機能によって定まる。フローチャート図及び/またはブロック図の中の各ブロック、及びフローチャート図及び/またはブロック図の中のブロックの組合せは、規定の機能または操作を実行する専用なハードウェアに基づくシステムで実現しても良く、専用なハードウェアとコンピュータ命令の組み合わせで実現しても良い。
【0164】
本発明の実施形態に関わって記述されているユニットは、ソフトウェアの方法によって実現しても良く、ハードウェアの方法によって実現しても良い。記述されているユニットは、プロセッサの中に設置されても良く、例えば、取得ユニット、抽出ユニット、決定ユニットと記憶ユニットを含むプロセッサというように記述しても良い。なお、これらユニットの名称は、場合によっては、当該ユニット自身への限定を構成せず、例えば、取得ユニットは、「ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するユニット」と記述されても良い。
【0165】
一方、本発明は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体は、前記実施形態の中で記述されたサーバーに含まれても良く、当該サーバーに取り付けられずに単独的に存在しても良い。前記コンピュータ可読記憶媒体は一つ以上のプログラムを記載しており、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得し、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出し、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得し、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
【0166】
また、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットユーザーが注目する内容を表す注目情報を更に取得し、当該注目情報を、予め設定された、前記図2図8のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行い、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。
【0167】
前記記述は、本発明の望ましい実施形態及び使用する技術原理に対する説明に過ぎない。当業者は、本発明の関わる発明の範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されることがなく、本発明の精神から逸脱しない限り、前記技術特徴または同等の特徴の任意の組み合わせからなる技術案もカバーすべきであると理解すべきである。例えば、前記特徴と本発明で公開した(但し、これらに限定されない)類似の機能を有する技術特徴とを相互入れ替えして形成した技術案である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12