IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7427627ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
<>
  • 特許-ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図1
  • 特許-ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図2
  • 特許-ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図3
  • 特許-ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図4
  • 特許-ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-26
(45)【発行日】2024-02-05
(54)【発明の名称】ビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G06F 16/735 20190101AFI20240129BHJP
   H04N 21/439 20110101ALI20240129BHJP
   H04N 21/845 20110101ALI20240129BHJP
   G10L 25/54 20130101ALI20240129BHJP
【FI】
G06F16/735
H04N21/439
H04N21/845
G10L25/54
【請求項の数】 11
【外国語出願】
(21)【出願番号】P 2021051717
(22)【出願日】2021-03-25
(65)【公開番号】P2022022080
(43)【公開日】2022-02-03
【審査請求日】2021-12-02
(31)【優先権主張番号】202011064001.4
(32)【優先日】2020-09-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】張沁怡
(72)【発明者】
【氏名】馬彩虹
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2003-173199(JP,A)
【文献】中国特許出願公開第110990534(CN,A)
【文献】韓国公開特許第10-2009-0019582(KR,A)
【文献】特開2004-191780(JP,A)
【文献】米国特許出願公開第2016/0247328(US,A1)
【文献】特開2004-309920(JP,A)
【文献】中国特許出願公開第108989882(CN,A)
【文献】韓国特許第10-2020-0092502(KR,B1)
【文献】韓国登録特許第10-0803747(KR,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-958
H04N 21/439
H04N 21/845
G10L 25/54
(57)【特許請求の範囲】
【請求項1】
ビデオを取得し、前記ビデオのオーディオストリームを抽出するステップと、
前記オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップと、
ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントを前記ビデオから抽出するステップであって、前記ターゲットオーディオセグメントはオーディオデータに前記プリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントであるステップと、を含み、
前記オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定する前記ステップは、事前にトレーニングされたオーディオ特徴認識モデルを使用して、各々のプリセット期間のオーディオデータを認識して、前記オーディオストリームにおける各々のプリセット期間のオーディオデータに前記プリセット特徴が含まれていることの信頼度を決定するステップを含み、
前記オーディオ特徴認識モデルは、オーディオデータ及びプリセット特徴を入力とし、当該オーディオデータに前記プリセット特徴が含まれていることの確率を当該オーディオデータに前記プリセット特徴が含まれていることの信頼度として、出力するように構成され、
同じプリセット特徴について、前記プリセット信頼度閾値は複数あり、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントを前記ビデオから抽出する前記ステップは、
前記複数のプリセット信頼度閾値における各々のプリセット信頼度閾値について、オーディオデータに前記プリセット特徴が含まれていることの信頼度が当該プリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを決定する一次選別を実行するステップと、
前記複数のプリセット信頼度閾値に基づいて決定した複数のオーディオセグメントの中から、オーディオデータに前記プリセット特徴が含まれていることの信頼度が局部極大値を有するターゲットオーディオセグメントを決定する二次選別を実行するステップと、
前記ターゲットオーディオセグメントが前記ビデオにおける位置に対応する前記ターゲットビデオセグメントを抽出するステップと、を含む、
ビデオセグメント抽出方法。
【請求項2】
前記オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定する前記ステップは、
プリセット時間長のウィンドウを使用して、プリセット時間のストライドで前記オーディオストリームをスライドし、各前記プリセット時間長のオーディオストリームセグメントを抽出するステップと、
各前記オーディオストリームセグメントに前記プリセット特徴が含まれていることの信頼度を決定するステップと、
プリセット期間ごとのオーディオデータについて、当該プリセット期間のオーディオデータの属する各前記オーディオストリームセグメントに前記プリセット特徴が含まれていることの信頼度に基づいて、当該プリセット期間のオーディオデータに前記プリセット特徴が含まれていることの信頼度を決定するステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記オーディオ特徴認識モデルは、ニューラルネットワーク分類モデルである請求項1に記載の方法。
【請求項4】
前記プリセット特徴は、前記オーディオストリームにおけるオーディオデータのスペクトル変化がプリセットスペクトル変化閾値を超えたことを特徴とするものを含む、請求項1-のいずれか一項に記載の方法。
【請求項5】
ビデオを取得し、前記ビデオのオーディオストリームを抽出するように構成される取得ユニットと、
前記オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するように構成される決定ユニットと、
ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントを前記ビデオから抽出するように構成される抽出ユニットであって、前記ターゲットオーディオセグメントはオーディオデータに前記プリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントである抽出ユニットと、を含み、
前記決定ユニットは、事前にトレーニングされたオーディオ特徴認識モデルを使用して、各々のプリセット期間のオーディオデータを認識して、前記オーディオストリームにおける各々のプリセット期間のオーディオデータに前記プリセット特徴が含まれていることの信頼度を決定するように構成され、
前記オーディオ特徴認識モデルは、オーディオデータ及びプリセット特徴を入力とし、当該オーディオデータに前記プリセット特徴が含まれていることの確率を当該オーディオデータに前記プリセット特徴が含まれていることの信頼度として、出力するように構成され、
同じプリセット特徴について、前記プリセット信頼度閾値は複数あり、前記抽出ユニットは、
前記複数のプリセット信頼度閾値の各プリセット信頼度閾値について、オーディオデータに前記プリセット特徴が含まれていることの信頼度が当該プリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを決定する一次選別を実行するように構成される第三決定モジュールと、
前記複数のプリセット信頼度閾値に基づいて決定した複数のオーディオセグメントの中から、オーディオデータに前記プリセット特徴が含まれていることの信頼度が局部極大値を有するターゲットオーディオセグメントを決定する二次選別を実行するように構成される第四決定モジュールと、
前記ターゲットオーディオセグメントが前記ビデオにおける位置に対応する前記ターゲットビデオセグメントを抽出するように構成される抽出モジュールと、を含む、
ビデオセグメント抽出装置。
【請求項6】
前記決定ユニットは、
プリセット時間長のウィンドウを使用して、プリセット時間のストライドで前記オーディオストリームをスライドし、各前記プリセット時間長のオーディオストリームセグメントを抽出するように構成されるインターセプトモジュールと、
各前記オーディオストリームセグメントに前記プリセット特徴が含まれていることの信頼度を決定するように構成される第一決定モジュールと、
プリセット期間ごとのオーディオデータについて、当該プリセット期間のオーディオデータの属する各前記オーディオストリームセグメントに前記プリセット特徴が含まれていることの信頼度に基づいて、当該プリセット期間のオーディオデータに前記プリセット特徴が含まれていることの信頼度を決定するように構成される第二決定モジュールと、を含む、
請求項に記載の装置。
【請求項7】
前記オーディオ特徴認識モデルは、ニューラルネットワーク分類モデルである請求項に記載の装置。
【請求項8】
前記プリセット特徴は、前記オーディオストリームにおけるオーディオデータのスペクトル変化がプリセットスペクトル変化閾値を超えたことを特徴とするものを含む、請求項のいずれか一項に記載の装置。
【請求項9】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサが請求項1-のいずれか一項に記載の方法を実行できるように前記少なくとも1つのプロセッサによって実行される、前記少なくとも1つのプロセッサによって実行可能な指令が記憶されている、
電子デバイス。
【請求項10】
コンピュータ指令を記憶する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令が請求項1-のいずれか一項に記載の方法を前記コンピュータに実行させるために使用される非一時的コンピュータ可読記憶媒体。
【請求項11】
コンピュータ指令を含むコンピュータプログラムであって、前記コンピュータ指令がプロセッサにより実行されると、請求項1-のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、コンピュータ技術の分野、具体的にはビデオ処理、オーディオ処理、クラウドコンピューティングなどの人工知能技術分野、特にビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0002】
ネットワーク技術の発展に伴い、ネットワークにおいて、ますます多くのビデオリソースが記憶されるようになるが、ビデオにおける特定のビデオセグメントを抽出することは、ユーザが特定の情報を取得するための助けになる。ビデオにおける特定のビデオセグメントを抽出する従来の方法は、ビデオにおけるオーディオストリームのオーディオ特徴に基づいてビデオにおける特定のビデオセグメントを抽出することを含む。
【0003】
しかし、ビデオにおけるオーディオストリームのオーディオ特徴に基づいてビデオにおける特定のビデオセグメントを抽出する方法は、抽出結果が精確なものではないという問題がある。
【発明の概要】
【0004】
本願はビデオセグメント抽出方法、ビデオセグメント抽出装置、電子デバイスおよびコンピュータ可読記憶媒体を提供する。
【0005】
第一様態によれば、ビデオセグメント抽出方法が提供される。この方法は、ビデオを取得し、ビデオのオーディオストリームを抽出するステップと、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップと、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するステップであって、前記ターゲットオーディオセグメントは、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントであるステップと、を含む。
【0006】
第二様態によれば、ビデオセグメント抽出装置が提供される。この装置は、ビデオを取得し、ビデオのオーディオストリームを抽出するように構成される取得ユニットと、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するように構成される決定ユニットと、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するように構成される抽出ユニットであって、前記ターゲットオーディオセグメントはオーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントである抽出ユニットと、を含む。
【0007】
第三態様では、本開示の実施例は、電子デバイスを提供する。この電子デバイスは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するメモリと、を含み、1つまたは複数のプロセッサが第一態様で提供されるビデオセグメント抽出方法を実施できるように、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行される。
【0008】
第四態様では、本開示の実施例は、プログラムが第一態様で提供されるビデオセグメント抽出方法を実施するためにプロセッサによって実行される、コンピュータプログラムを記憶するコンピュータ可読記憶媒体を提供する。
【0009】
第五態様では、本開示の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第一態様で提供されるビデオセグメント抽出方法を実施するコンピュータプログラムを提供する。
【0010】
本開示によって提供されるビデオセグメント抽出方法およびビデオセグメント抽出装置は、ビデオを取得し、ビデオのオーディオストリームを抽出するステップと、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップと、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するステップとによって、ビデオセグメントの抽出の精確性を向上させることができる。
【0011】
このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を標識することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されるべきである。本開示の他の特徴は、以下の説明から理解が容易になる。
【図面の簡単な説明】
【0012】
添付の図面は、本実施例をよりよく理解するために使用されるものであり、本願を限定するものではない。ここで、
図1】本願の実施例が適用され得る例示的なシステムアーキテクチャ図である。
図2】本願に係るビデオセグメント抽出方法の一実施例のフローチャートである。
図3】本願に係るビデオセグメント抽出方法の別の実施例のフローチャートである。
図4】本願に係るビデオセグメント抽出装置の一実施例の構造概略図である。
図5】本願の実施例に係るビデオセグメント抽出方法を実施するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0013】
以下に図面と併せて、理解を助けるために本願の実施例の様々な詳細を含む例示的な実施例を説明し、これらは単なる例示と理解すべきである。従って、当業者は、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対する様々な変更および修正を行うことができることは、と理解すべきである。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略する。
【0014】
図1は、本願のビデオセグメント抽出方法またはビデオセグメント抽出装置の実施例が適用され得る例示的なシステムアーキテクチャ100を示す。
【0015】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するために使用される媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
【0016】
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105とやりとりして、メッセージなどを送受信することができる。端末装置101、102、103には、ビデオアプリケーション、再生アプリケーション、オーディオアプリケーション、検索アプリケーション、ショッピングアプリケーション、金融アプリケーションなどの様々なクライアントアプリケーションがインストールされ得る。
【0017】
端末装置101、102、103は、スマートフォン、タブレットコンピュータ、電子書籍リーダー、MP3プレーヤー(Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エキスパート・グループ・オーディオ・レイヤー3)、MP4プレーヤー(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エキスパート・グループ・オーディオ・レイヤー4)、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、ディスプレイを備えてサーバメッセージの受信をサポートする様々な電子デバイスであり得る。
【0018】
端末装置101、102、103は、ハードウェアであってもよく、またはソフトウェアであてもよい。端末装置101、102、103がハードウェアである場合、それらは様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合、それらは上記に挙げた電子デバイスにインストールされ得る。それらは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェアモジュール)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定しない。
【0019】
サーバ105は、端末装置101、102、103を介して、ビデオを取得し、ビデオのオーディオストリームを抽出し、当該オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定し、その後、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントに対応する連続したビデオセグメントのビデオセグメントをビデオから抽出することができる。
【0020】
なお、本開示の実施例によって提供されるビデオセグメント抽出方法が一般にサーバ105によって実行されるため、ビデオセグメント抽出装置は、一般にサーバ105に配置される。
【0021】
図1における端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されるべきである。実際の必要に応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
【0022】
さらに図2を参照すると、図2は、本開示に係るビデオセグメント抽出方法の一実施例のプロセス200を示す。ビデオセグメント抽出方法は、以下のステップを含む。
【0023】
ステップ201:ビデオを取得し、ビデオのオーディオストリームを抽出する。
【0024】
本実施例では、ビデオセグメント抽出方法の実行主体(例えば、図1に示すサーバ)は、インターネット、ローカルメモリ、または他のビデオ取得手段を介して、ビデオを有線または無線で取得し、オーディオビデオ変換、オーディオ分析などのオーディオ抽出方法を用いて当該ビデオのオーディオストリームを抽出することができる。
【0025】
ステップ202:オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定する。
【0026】
本実施例では、抽出されたオーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定する方法は、事前にトレーニングされたオーディオ特徴認識モデルを使用して、オーディオストリームにおける各々のプリセット期間のオーディオデータを認識し、各プリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を出力する方法であってもよい。また、オーディオストリームにおける各プリセット期間のオーディオデータのオーディオスペクトルに対して特徴のトラバーサル(feature traversal)と比較などを実行することにより、オーディオデータにプリセット特徴が含まれていることの信頼度を決定する方法であってもよい。
【0027】
本実施例では、各々のプリセット期間は、ユーザによって事前に設定され、オーディオストリームからプリセット特徴を採集するための時間ノードまたは期間である。例えば、オーディオストリームにおける秒あたりのオーディオデータのプリセット特徴を採集してもよく、オーディオストリームの再生時間に基づいて、オーディオストリームにおける中間の10分間のオーディオデータに対してプリセット特徴を採集してもよく、オーディオストリームを複数のオーディオストリームセグメントに事前に分割して、各々のオーディオストリームセグメントのオーディオデータに対してプリセット特徴を採集してもよい。
【0028】
本実施例では、プリセット特徴は、ビデオセグメントを抽出するニーズに基づいて決定され、該プリセット特徴は、ビデオセグメントを抽出するニーズおよびビデオの関連コンテンツに対応する。例えば、ビデオがスポーツイベント関連のコンテンツであり、ビデオセグメントを抽出するニーズがビデオセグメントにおけるエキサイティングゴールの瞬間、観客の歓声セグメント、または解説者の興奮した解説などの沸点セグメントの抽出である場合、プリセット特徴は、オーディオデータのオーディオ周波数が瞬時的な変化を生じる特徴(特定のオーディオデータにおけるオーディオ周波数の最大値と最小値との差がプリセット閾値を超える)であり得る。また、ビデオがコンサートに関するコンテンツであり、ビデオセグメントを抽出するニーズがビデオセグメントにおけるコンサートのクライマックスの抽出である場合、プリセット特徴は、オーディオデータのオーディオ周波数がプリセットオーディオ周波数を超える特徴であり得る。また、ビデオがニュース報道、会議記録などのイベントの記録ビデオであり、ビデオセグメントの抽出のニーズがビデオセグメントにおいて指定された人物のスピーチセグメントの抽出の場合、プリセット特徴は、指定された人物の音声周波数特徴であり得る。なお、プリセット特徴は、ビデオセグメントに関するコンテンツおよびビデオセグメントを抽出するニーズに対応するオーディオ特徴であることを理解すべきである。
【0029】
ステップ203:ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出し、ターゲットオーディオセグメントはオーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントである。
【0030】
本実施例では、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを、ターゲットオーディオセグメントとして設定し、ターゲットオーディオセグメントがビデオにおける位置に対応するビデオセグメントをビデオから抽出する。
【0031】
具体的には、プリセット期間のオーディオデータがオーディオストリームを一定の時間間隔に従って分割した各オーディオデータセグメントである場合、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオデータからなるオーディオセグメントを、ターゲットオーディオセグメントとして設定することができる。
【0032】
具体的には、プリセット期間のオーディオデータがオーディオストリームにおける秒あたり(または任意の時間間隔)の時間ノードでのオーディオデータである場合、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値を以上の、連続した時間ノードによって構成される時間範囲におけるオーディオセグメントを、ターゲットオーディオセグメントとして設定することができる。
【0033】
具体的には、プリセット期間のオーディオデータがオーディオストリームにおいて指定された時間位置および指定された時間長のオーディオデータである場合、当該指定された時間位置および指定された時間長のオーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上のとき、指定された時間位置および指定された時間長のオーディオデータを、ターゲットオーディオセグメントとして設定することができる。
【0034】
本実施例によって提供されるビデオセグメント抽出方法は、ビデオを取得し、ビデオのオーディオストリームを抽出するステップと、オーディオストリームにおける各プリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップと、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するステップとによって、ビデオセグメントの抽出の精確性を向上させることができる。
【0035】
オプション的に、プリセット信頼度閾値は複数のプリセット信頼度閾値であり、ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するステップは、複数のプリセット信頼度閾値における各々のプリセット信頼度閾値について、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを決定するステップと、複数のプリセット信頼度閾値に基づいて決定した複数のオーディオセグメントの中から、ターゲットオーディオセグメントを決定するステップと、ターゲットオーディオセグメントがビデオにおける位置に対応するターゲットビデオセグメントを抽出するステップと、を含む。
【0036】
本実施例では、まず、複数の異なるプリセット信頼度閾値を事前に設定し、複数のプリセット信頼度閾値における各々のプリセット信頼度閾値について、一次選別を実行し、オーディオデータにプリセット特徴が含まれていることの信頼度が当該プリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを決定することができる。
【0037】
複数の異なるプリセット信頼度閾値に基づいて、複数のオーディオセグメントを決定することができ、さらに好適な信頼度閾値を再設定し、この好適な信頼度閾値に基づいて、一次選別段階で決定された複数のオーディオセグメントに対して再選別を実行して、ターゲットオーディオセグメントを選別することができる。好適な信頼度閾値は、複数の異なるプリセット信頼度閾値の各々のプリセット信頼度閾値を超えてもよい。または、複数の異なるプリセット信頼度閾値に基づいて複数のオーディオセグメントを決定した後、複数のオーディオセグメントの再生時間、オーディオセグメントに対応するオーディオデータのスペクトル範囲などのオーディオセグメントの特徴属性に基づいて、ターゲットオーディオセグメントを決定することができる。
【0038】
その後、ターゲットオーディオセグメントがビデオにおける位置に対応するターゲットビデオセグメントを抽出する。
【0039】
本実施例では、複数のプリセット信頼度閾値に基づいてオーディオセグメントを選別することは、オーディオデータにプリセット特徴が含まれていることの異なる信頼度のオーディオセグメントを取得できるため、局所極大値を選別するのに役立ち、選別条件を満たす複数のオーディオセグメントを選別し、選別条件を満たす複数のオーディオセグメントに対して二次選別または多段階選別を実行するのに役立つ。また、好適な信頼度閾値に基づいて、複数のプリセット信頼度閾値に基づいて決定した複数のオーディオセグメントを再選別することは、ターゲットオーディオセグメントの決定の精確性を向上させることができる。
【0040】
さらに図3を参照すると、図3は、ビデオセグメント抽出方法の別の実施例のフロー300を示す。このビデオセグメントを抽出するための方法のフロー300は、以下のステップを含む。
【0041】
ステップ301:ビデオを取得し、ビデオのオーディオストリームを抽出する。
【0042】
ステップ302:プリセット時間長のウィンドウを使用して、プリセット時間のストライドでオーディオストリームをスライドし、各々のプリセット時間長のオーディオストリームセグメントを抽出する。
【0043】
本実施例では、プリセット時間長のウィンドウを使用して、プリセット時間のストライドでオーディオストリームをスライドし、各プリセット時間長のオーディオストリームセグメントをインターセプトすることができる。なお、プリセット時間のストライドがプリセット時間長よりも短い場合、インターセプトされた各々のオーディオストリームセグメントの間には重複するオーディオデータが存在することを理解されたい。
【0044】
ステップ303:各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度を決定する。
【0045】
本実施例では、事前にトレーニングされたオーディオ特徴認識モデルを使用して、インターセプトされた各々のオーディオストリームセグメントを認識し、各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度を出力する。
【0046】
ステップ304:プリセット期間ごとのオーディオデータについて、当該プリセット期間のオーディオデータの属する各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度に基づいて、当該プリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定する。
【0047】
本実施例では、プリセット期間ごとのオーディオデータは、プリセット時間長のウィンドウを用いてインターセプトされた1つまたは複数のオーディオストリームセグメントに属するようにしてもよい。このプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度は、その属する各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度に基づいて決定され得る。例えば、このプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度は、その属する各々のオーディオストリームセグメントのオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度の平均値、最大値、または中間値などであり得る。なお、プリセット期間のすべてのオーディオデータがインターセプトウィンドウによって同時にインターセプトされない場合、このプリセット期間のオーディオデータは、インターセプトされたこのプリセット期間のオーディオデータの一部に対応する任意のオーディオストリームセグメントに帰してもよい。なお、プリセット期間のオーディオデータの属する各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度に基づいて、各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定することは、プリセット特徴を含むオーディオデータのオーディオセグメントの開始点と終了点をより正確に分割できることを理解されるべきである。
【0048】
ステップ305:ターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出し、前記ターゲットオーディオセグメントはオーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントである。
【0049】
本実施例におけるステップ301およびステップ305の説明は、ステップ201、ステップ202、およびステップ203の説明と一致するため、ここでは繰り返さない。
【0050】
本実施例によって提供されたビデオセグメントを抽出するための方法は、プリセット時間ウィンドウを使用して、ビデオのオーディオストリームを、重複するオーディオデータを含む各々のオーディオストリームセグメントに分割し、オーディオストリームセグメントにプリセット特徴が含まれていることの信頼度を決定し、プリセット期間のオーディオデータの属する各々のオーディオストリームセグメントのオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度に基づいて、このプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定し、プリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度に基づいて、ターゲットオーディオセグメントを抽出し、ターゲットオーディオセグメントに基づいてターゲットビデオセグメントを抽出することにより、ターゲットビデオセグメントの抽出の精確性を向上させることができる。
【0051】
図2および図3を参照して説明した上記実施例のいくつかのオプション的な実施形態では、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップは、ニューラルネットワーク分類モデルを使用して、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するステップを含む。
【0052】
本実施例では、オーディオデータに含まれたプリセット特徴を認識するために使用される事前にトレーニングされたニューラルネットワーク分類モデルを使用して、オーディオストリームにおける各々のプリセット期間のオーディオデータにこのプリセット特徴が含まれていることの信頼度を決定することができる。なお、オーディオデータに含まれたプリセット特徴を認識するために使用される事前にトレーニングされたこのニューラルネットワーク分類モデルのトレーニングサンプルは、トレーニングオーディオデータ、およびトレーニングオーディオデータにプリセット特徴が含まれていることの信頼度/確率(またはトレーニングオーディオデータのオーディオ特徴とプリセット特徴との類似度など)を含むことを理解されるべきである。本実施例では、ニューラルネットワーク分類モデルを使用して、オーディオデータにオーディオ特徴が含まれていることの信頼度を決定することにより、信頼度の決定精確性を向上させることができる。
【0053】
図2および図3を参照して説明した上記実施例のいくつかのオプション的な実施形態では、プリセット特徴は、オーディオストリームにおけるオーディオデータのスペクトル変化がプリセットスペクトル変化閾値を超えることを特徴付ける特徴を含む。
【0054】
本実施例では、プリセット特徴は、オーディオにおけるオーディオデータのスペクトル変化がプリセットスペクトル変化閾値を超えることを特徴付ける特徴を含む。即ち、プリセット特徴は、オーディオにおけるオーディオデータが瞬時的に変化する(オーディオ周波数が一定時間内に小から大へ、または大から小に変化し、その変化がプリセットスペクトル変化閾値を超えた)ことを特徴付ける特徴を含む。オーディオデータが瞬時的に変化することを特徴付ける特徴は、音声特徴メル周波数セプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)特徴抽出などの方法によって抽出され得る。
【0055】
さらに図4を参照すると、上記各図に示された方法の実施形態として、本開示は、ビデオセグメント抽出装置の実施例を提供する。この装置の実施例は図2に示す方法の実施例に対応する。この装置は具体的に様々な電子デバイスに適用できる。
【0056】
図4に示すように、本実施例におけるビデオセグメント抽出装置400は、取得ユニット401と、決定ユニット402と、抽出ユニット403とを含む。取得ユニット401は、ビデオを取得し、ビデオのオーディオストリームを抽出するように構成される。決定ユニット402は、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するように構成される。抽出ユニット403は、オーディオデータにプリセット特徴が含まれていることの信頼度がプリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントであるターゲットオーディオセグメントの位置に対応するターゲットビデオセグメントをビデオから抽出するように構成される。
【0057】
いくつかの実施例では、決定ユニットは、プリセット時間長のウィンドウを使用して、プリセット時間のストライドでオーディオストリームをスライドし、各プリセット時間長のオーディオストリームセグメントを抽出するように構成されるインターセプトモジュールと、各オーディオストリームセグメントにプリセット特徴が含まれていることの信頼度を決定するように構成される第一決定モジュールと、プリセット期間ごとのオーディオデータについて、当該プリセット期間のオーディオデータの属する各々のオーディオストリームセグメントにプリセット特徴が含まれていることの信頼度に基づいて、当該プリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するように構成される第二決定モジュールと、を含む。
【0058】
いくつかの実施例では、プリセット信頼度閾値は複数のプリセット信頼度閾値であり、抽出ユニットは、複数のプリセット信頼度閾値における各々のプリセット信頼度閾値について、オーディオデータにプリセット特徴が含まれていることの信頼度が当該プリセット信頼度閾値以上の、連続したプリセット期間におけるオーディオセグメントを決定するように構成される第三決定モジュールと、複数のプリセット信頼度閾値に基づいて決定した複数のオーディオセグメントの中から、ターゲットオーディオセグメントを決定するように構成される第四決定モジュールと、ターゲットオーディオセグメントがビデオにおける位置に対応するターゲットビデオセグメントを抽出するように構成される抽出モジュールと、を含む。
【0059】
いくつかの実施例では、決定ユニットは、ニューラルネットワーク分類モデルを使用して、オーディオストリームにおける各々のプリセット期間のオーディオデータにプリセット特徴が含まれていることの信頼度を決定するように構成されるニューラルネットワークモジュールを含む。
【0060】
いくつかの実施例では、プリセット特徴は、オーディオストリームにおけるオーディオデータのスペクトル変化がプリセットスペクトル変化閾値を超えることを特徴付ける特徴を含む。
【0061】
上記装置400の各ユニットは、図2を参照して説明した方法の各ステップに対応する。従って、ビデオセグメント抽出方法について上述の動作、特徴および達成可能な技術的効果は、装置400およびそれに含まれるユニットにも適用可能であるため、ここでは繰り返さない。
【0062】
本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。
【0063】
図5に示すように、図5は、本願の実施例に係るビデオセグメント抽出方法を実施するための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
【0064】
図5に示すように、この電子デバイスは、1つまたは複数のプロセッサ501と、メモリ502と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、GUIのグラフィック情報が外部入力/出力装置(例えば、インターフェースに結合された表示装置)に表示されるようにメモリ内またはメモリ上に記憶される指令を含む、電子デバイスで実行された指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)いくつかの必要な動作を提供する複数の電子デバイスに接続され得る。図5には、プロセッサ501が例として挙げられる。
【0065】
メモリ502は、本願によって提供される非一時的コンピュータ可読記憶媒体である。このメモリには、この少なくとも1つのプロセッサが本願によって提供されるビデオセグメント抽出方法を実行できるように、少なくとも1つのプロセッサによって実行され得る指令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供されるビデオセグメント抽出方法をコンピュータに実行させるために使用されるコンピュータ指令が記憶されている。
【0066】
非一時的コンピュータ可読記憶媒体として、メモリ502は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例におけるビデオセグメント抽出方法に対応するプログラム指令/モジュール(例えば、図4に示す取得ユニット401、決定ユニット402、および抽出ユニット403)などのモジュールとを記憶するために使用され得る。プロセッサ501は、メモリ502に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例におけるビデオセグメント抽出方法を実施する。
【0067】
メモリ502は、オペレーティングシステムおよび少なくとも1つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、ビデオセグメント抽出用の電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ502は、高速ランダムアクセスメモリを含み得、また、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ502は、任意選択で、プロセッサ501に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、ビデオセグメント抽出用の電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
【0068】
ビデオセグメント抽出方法を実施するための電子デバイスは、入力装置503、出力装置504、およびバス505をさらに含み得る。プロセッサ501、メモリ502、入力装置503、および出力装置504は、バス505または他の手段を介して接続され得るが、図5にはバス505による接続が例として挙げられる。
【0069】
入力装置503は、入力された数字または文字情報を受信し、ビデオセグメント抽出用の電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。
【0070】
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
【0071】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械指令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械指令を受信する機械可読媒体を含む、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0072】
ユーザとのやりとりを提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとのやりとりを提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
【0073】
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態とやりとりをすることを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
【0074】
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介してやり取りをする。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
【0075】
ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されるべきである。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次、または異なる順序で実行され得るが、本明細書に限定されない。
【0076】
上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかである。本願の精神と原則の範囲内で行われた修正、均等な置換、改良などは、本願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5