(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-13
(45)【発行日】2024-09-25
(54)【発明の名称】動画の編集方法、装置、電子機器、媒体
(51)【国際特許分類】
H04N 21/854 20110101AFI20240917BHJP
H04N 21/234 20110101ALI20240917BHJP
G06F 16/28 20190101ALI20240917BHJP
【FI】
H04N21/854
H04N21/234
G06F16/28
(21)【出願番号】P 2022581589
(86)(22)【出願日】2022-07-08
(86)【国際出願番号】 CN2022104740
(87)【国際公開番号】W WO2023109103
(87)【国際公開日】2023-06-22
【審査請求日】2022-12-28
(31)【優先権主張番号】202111536505.6
(32)【優先日】2021-12-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】チェン,ミャオ
(72)【発明者】
【氏名】リャオ,シジュ
(72)【発明者】
【氏名】ユン,ティン
(72)【発明者】
【氏名】リー,ユアンハン
(72)【発明者】
【氏名】ニン,ユーペン
【審査官】醍醐 一貴
(56)【参考文献】
【文献】米国特許出願公開第2012/0281969(US,A1)
【文献】中国特許出願公開第113762056(CN,A)
【文献】米国特許出願公開第2017/0309296(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
H04N 5/76-5/775
H04N 5/80-5/907
H04N 5/91-5/956
H04N 21/00-21/858
(57)【特許請求の範囲】
【請求項1】
動画の編集方法であって、
第1の動画を取得することと、
前記第1の動画を分割して複数のセグメントを取得することと、
前記複数のセグメントにそれぞれ対応する複数のラベルを確定し、前記複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、前記第1のラベルは歌唱のセグメントを指示し、前記第2のラベルは発話のセグメントを指示し、前記第3のラベルは背景音楽のセグメントを指示し、前記第4のラベルは、前記第1のラベル、前記第2のラベルと前記第3のラベルにいずれも対応しないセグメントを指示することと、
前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な2つ又は複数の、前記第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定することと、
前記歌唱セグメントセットに基づいて第2の動画を生成することとを含み、
前記歌唱セグメントセットに基づいて前記第2の動画を生成することは、
前記歌唱セグメントセットが少なくとも1つの隣接する、前記第3のラベルを備えるセグメントを有すると確定したことに応答して、前記少なくとも1つの隣接する、前記第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することと、
前記歌唱セグメントセットと前記拡張セグメントセットに基づいて前記第2の動画を生成することとを含む、動画の編集方法。
【請求項2】
前記少なくとも1つの隣接する、前記第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することは、
前記複数のセグメントにおける、前記歌唱セグメントセットの開始セグメントの前のセグメントが前記第3のラベルを有すると確定したことに応答して、
第1セグメントを確定し、前記第1セグメントは前記複数のセグメントにおいて、前記開始セグメントの前にあり、前記第1セグメントは前記第3のラベルを有し、前記第1セグメントの前のセグメントは前記第4のラベルを有し、前記第1セグメントと前記開始セグメントの間にはラベルが前記第3のラベルでないセグメントが存在せず、
前記第1セグメントから前記開始セグメントまでの2つ又は複数のセグメントを含む前記拡張セグメントセットを確定することと、
前記複数のセグメントにおける、前記歌唱セグメントセットの終了セグメントの次のセグメントが前記第3のラベルを有すると確定したことに応答して、
第2セグメントを確定し、前記第2セグメントは前記複数のセグメントにおいて終了セグメントの後にあり、前記第2セグメントは前記第3のラベルを有し、前記第2セグメントの次のセグメントは前記第4のラベルを有し、前記第2セグメントと前記終了セグメントの間にはラベルが前記第3のラベルでないセグメントが存在せず、
前記終了セグメントから前記第2セグメントまでの2つ又は複数のセグメントを含む前記拡張セグメントセットを確定することと、の少なくとも1つを含む、請求項1に記載の方法。
【請求項3】
前記歌唱セグメントセットに基づいて前記第2の動画を生成することは、
前記歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも1つのセグメントが信頼度要求を満たさないと確定したことに応答して、前記歌唱セグメントセットの境界調整量を確定することと、
前記歌唱セグメントセットと前記境界調整量に基づいて前記第2の動画を確定することとを含む、請求項1又は2に記載の方法。
【請求項4】
前記複数のセグメントにおける各セグメントは第1の長さを有し、前記歌唱セグメントセットの境界調整量を確定することは、前記開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、
前記被調整セグメントに関連する2つの調整セグメントを取得し、前記2つの調整セグメントの各調整セグメントは前記第1の長さを有し、前記2つの調整セグメントが第1調整タイミングに隣接し、前記第1調整タイミングは前記被調整セグメント期間に収まることと、
前記2つの調整セグメントにそれぞれラベルを確定し、各ラベルは前記第1のラベル、第2のラベル、第3のラベルと第4のラベルのうちの1つから選択されることと、
前記2つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、前記歌唱セグメントセットの境界調整量を確定することで前記歌唱セグメントセットの対応境界を前記第1調整タイミングに調整することとを含む、請求項3に記載の方法。
【請求項5】
前記境界条件は、
前記被調整セグメント関連が前記開始セグメントであると確定したことに応答して、前記2つの調整セグメントにおける前の調整セグメントは前記第2のラベル又は前記第4のラベルを有し、次の調整セグメントは前記第1のラベル又は前記第3のラベルを有することと、
前記被調整セグメント関連が前記終了セグメントであると確定したことに応答して、前記2つの調整セグメントにおける前の調整セグメントは前記第1のラベル又は前記第3のラベルを有し、次の調整セグメントは前記第2のラベル又は前記第4のラベルを有することと、の少なくとも1つを含む、請求項4に記載の方法。
【請求項6】
前記複数のセグメントにそれぞれ対応する複数のラベルを確定することは、前記複数のセグメントにおける各セグメントに対し、前記第1のラベル、第2のラベル、第3のラベルと第4のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定することを含み、
ここで、セグメントの信頼度要求は、セグメントの第1のラベルの信頼度と第2のラベルの信頼度との差は第1の閾値より大きいこと、又は、セグメントの第1のラベルの信頼度と第4のラベルの信頼度との差は第2の閾値より大きいことの少なくとも1つを含む、請求項4に記載の方法。
【請求項7】
前記複数のセグメントにそれぞれ対応する複数のラベルを確定することは、前記複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定することを含む、請求項1又は2に記載の方法。
【請求項8】
前記画面特徴は顔特徴と唇領域の時系列特徴を含む、請求項7に記載の方法。
【請求項9】
動画編集装置であって、
第1の動画を取得するための第1の動画取得ユニットと、
前記第1の動画を分割して複数のセグメントを取得するためのセグメント取得ユニットと、
前記複数のセグメントにそれぞれ対応する複数のラベルを確定するためのラベル確定ユニットであって、前記複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、前記第1のラベルは歌唱のセグメントを指示し、前記第2のラベルは発話のセグメントを指示し、前記第3のラベルは背景音楽のセグメントを指示し、前記第4のラベルは、前記第1のラベル、前記第2のラベルと前記第3のラベルにいずれも対応しないセグメントを指示するものと、
前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な2つ又は複数の、前記第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定するためのセグメントセット確定ユニットと、
前記歌唱セグメントセットに基づいて第2の動画を生成するための第2の動画生成ユニットとを含み、
前記第2の動画生成ユニットは、
前記歌唱セグメントセットが少なくとも1つの隣接する、前記第3のラベルを備えるセグメントを有すると確定したことに応答して、前記少なくとも1つの隣接する、前記第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットと、
前記歌唱セグメントセットと前記拡張セグメントセットに基づいて前記第2の動画を生成するためのユニットとを含む、動画編集装置。
【請求項10】
前記少なくとも1つの隣接する、前記第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットは、
前記複数のセグメントにおける、前記歌唱セグメントセットの開始セグメントの前のセグメントが前記第3のラベルを有することに応答して、
第1セグメントを確定し、前記第1セグメントは前記複数のセグメントにおいて、前記開始セグメントの前にあり、前記第1セグメントは前記第3のラベルを有し、前記第1セグメントの前のセグメントは前記第4のラベルを有し、前記第1セグメントと前記開始セグメントの間にはラベルが前記第3のラベルでないセグメントが存在せず、
前記第1セグメントから前記開始セグメントまでの2つ又は複数のセグメントを含む前記拡張セグメントセットを確定する操作を実行するユニットと、
前記複数のセグメントにおける、前記歌唱セグメントセットの終了セグメントの次のセグメントが前記第3のラベルを有することに応答して、
第2セグメントを確定し、前記第2セグメントは前記複数のセグメントにおいて終了セグメントの後にあり、前記第2セグメントは前記第3のラベルを有し、前記第2セグメントの次のセグメントは前記第4のラベルを有し、前記第2セグメントと前記終了セグメントの間にはラベルが前記第3のラベルでないセグメントが存在せず、
前記終了セグメントから前記第2セグメントまでの2つ又は複数のセグメントを含む前記拡張セグメントセットを確定する操作を実行するユニットと、の少なくとも1つを含む、請求項9に記載の装置。
【請求項11】
前記第2の動画生成ユニットは、
前記歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも1つのセグメントが信頼度要求を満たさないと確定したことに応答して、前記歌唱セグメントセットの境界調整量を確定するためのユニットと、
前記歌唱セグメントセットと前記境界調整量に基づいて前記第2の動画を確定するためのユニットとを含む、請求項9又は10に記載の装置。
【請求項12】
前記複数のセグメントにおける各セグメントは第1の長さを有し、前記歌唱セグメントセットの境界調整量を確定するためのユニットは、前記開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、
前記被調整セグメントに関連する2つの調整セグメントを取得し、前記2つの調整セグメントの各調整セグメントは前記第1の長さを有し、前記2つの調整セグメントが第1調整タイミングに隣接し、前記第1調整タイミングは前記被調整セグメント期間に収まることと、
前記2つの調整セグメントにそれぞれラベルを確定し、各ラベルは前記第1のラベル、第2のラベル、第3のラベルと第4のラベルのうちの1つから選択されることと、
前記2つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、前記歌唱セグメントセットの境界調整量を確定することで前記歌唱セグメントセットの対応境界を前記第1調整タイミングに調整することと、の操作を実行するユニットを含む、請求項11に記載の装置。
【請求項13】
前記ラベル確定ユニットは、前記複数のセグメントにおける各セグメントに対し、前記第1のラベル、第2のラベル、第3のラベルと第4のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定する操作を実行するユニットを含み、
ここで、セグメントの信頼度要求は、セグメントの第1のラベルの信頼度と第2のラベルの信頼度との差は第1の閾値より大きいこと、又は、セグメントの第1のラベルの信頼度と第4のラベルの信頼度との差は第2の閾値より大きいことの少なくとも1つを含む、請求項12に記載の装置。
【請求項14】
前記ラベル確定ユニットは、前記複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定するユニットを含む、請求項9又は10に記載の装置。
【請求項15】
前記画面特徴は顔特徴と唇領域の時系列特徴を含む、請求項14に記載の装置。
【請求項16】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサは請求項1
又は2に記載の方法を実行させる、電子機器。
【請求項17】
コンピュータに請求項1
又は2に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
【請求項18】
プロセッサによって実行されると、請求項1
又は2に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年12月15日に出願された中国特許出願2021115365056の優先権を請求し、その出願の全体が参照によって本明細書に組み込まれる。
本開示は、データ処理技術分野に関し、特に動画処理及び人工知能に関し、具体的には、動画の編集方法、装置、電子機器、コンピュータ可読記憶媒体とコンピュータプログラム製品に関する。
【背景技術】
【0002】
情報媒体の1つとして、動画形式の情報は益々多く注目されている。特に、短い動画の形式は視聴者により注目されて人気がある。これに基づき、如何にして動画を編集することで素晴らしい有効な短い動画を抽出できることは有意義になる。
【0003】
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、いかなる従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0004】
本開示は、動画の編集方法、装置、電子機器、コンピュータ可読記憶媒体とコンピュータプログラム製品を提供する。
本開示の一態様によれば、前記第1の動画を取得することと、前記第1の動画を分割して複数のセグメントを取得することと、前記複数のセグメントにそれぞれ対応する複数のラベルを確定し、前記複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、前記第1のラベルは歌唱のセグメントを指示し、前記第2のラベルは発話のセグメントを指示し、前記第3のラベルは背景音楽のセグメントを指示し、前記第4のラベルは、前記第1のラベル、前記第2のラベルと前記第3のラベルにいずれも対応しないセグメントを指示することと、前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な2つ又は複数の、前記第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定することと、前記歌唱セグメントセットに基づいて前記第2の動画を生成することとを含む、動画の編集方法を提供する。
【0005】
本開示の別の態様によれば、前記第1の動画を取得するための第1の動画取得ユニットと、前記第1の動画を分割して複数のセグメントを取得するためのセグメント取得ユニットと、前記複数のセグメントにそれぞれ対応する複数のラベルを確定するためのラベル確定ユニットであって、前記複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、前記第1のラベルは歌唱のセグメントを指示し、前記第2のラベルは発話のセグメントを指示し、前記第3のラベルは背景音楽のセグメントを指示し、前記第4のラベルは、前記第1のラベル、前記第2のラベルと前記第3のラベルにいずれも対応しないセグメントを指示するものと、前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な2つ又は複数の、前記第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定するためのセグメントセット確定ユニットと、前記歌唱セグメントセットに基づいて前記第2の動画を生成するための第2の動画生成ユニットと、を含む、動画編集装置を提供する。
【0006】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも一つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに本開示の一つ又は複数の実施例による動画の編集方法を実行させる電子機器を提供する。
【0007】
本開示の別の態様によれば、前記コンピュータに本開示の一つ又は複数の実施例による動画の編集方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
【0008】
本開示の別の態様によれば、プロセッサによって実行されると、本開示の一つ又は複数の実施例による動画の編集方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0009】
本開示の一つ又は複数の実施例によれば、動画を正確に編集することで歌唱に関する動画を取得することができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0010】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。
【
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。
【
図2】本開示の実施例による動画の編集方法を示すフローチャートである。
【
図3】本開示の実施例による動画の編集方法を示すデータストリームの概略図である。
【
図4】本開示の実施例による動画編集装置を示す構成ブロック図である。
【
図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
【発明を実施するための形態】
【0011】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0012】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0013】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。
【0014】
以下、図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例による、本明細書に記載の様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。
図1を参照すると、このシステム100は、一つ又は複数のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ又は複数のクライアントデバイスをサーバ120に結合する一つ又は複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ又は複数のアプリケーションを実行するように構成されることが可能である。
【0015】
本開示の実施例では、サーバ120は、本開示による動画の編集方法の1つ又は複数のサービス又はソフトウェアアプリケーションを実行することができるように動作できる。
いくつかの実施例では、サーバ120は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0016】
図1に示す配置では、サーバ120は、サーバ120により実行される機能を実現する一つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、一つ又は複数のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ又は複数のクライアントアプリケーションを用いてサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、
図1は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0017】
ユーザは、クライアントデバイス101、102、103、104、105及び/又は106を用いて動画を閲覧、動画を編集、動画編集の結果をフィードバックするなどのことができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。
図1では6つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。
【0018】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)又は類Linux(登録商標)オペレーティングシステム(例えば、GOOGLE Chrome OS)などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。
【0019】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース(登録商標)、WIFI)、及び/又はこれらとその他のネットワークの任意の組み合わせであってもよい。
【0020】
サーバ120は、一つ又は複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIX(登録商標)サーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの一つ又は複数のフレキシブルプール)を含んでもよい。様々な実施例において、サーバ120は、以下に説明する機能を提供する一つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
【0021】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ又は複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、を含む様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
【0022】
いくつかの実施形態では、サーバ120は、クライアントデバイス101、102、103、104、105及び106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための一つ又は複数のアプリケーションを含むことができる。サーバ120は、クライアントデバイス101、102、103、104、105及び106の一つ又は複数のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ又は複数のアプリケーションを含むこともできる。
【0023】
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0024】
システム100は、一つ又は複数のデータベース130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの1つ又は複数は、オーディオファイルや動画ファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0025】
いくつかの実施例では、データベース130のうちの一つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0026】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で配置し操作することができる。
以下、
図2を参照して本開示の例示的な実施例による動画の編集方法200を説明する。
【0027】
ステップS201では、第1の動画を取得する。
ステップS202では、第1の動画を分割して複数のセグメントを取得する。
ステップS203では、複数のセグメントにそれぞれ対応する複数のラベルを確定し、複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、第1のラベルは歌唱のセグメントを指示し、第2のラベルは発話のセグメントを指示し、第3のラベルは背景音楽のセグメントを指示し、第4のラベルは、第1のラベル、第2のラベルと第3のラベルにいずれも対応しないセグメントを指示する。
【0028】
ステップS204では、複数のラベルに基づいて、複数のセグメントにおける連続的な2つ又は複数の、第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定する。
【0029】
ステップS205では、歌唱セグメントセットに基づいて第2の動画を生成する。
本開示の実施例の方法によれば、動画を正確に編集することで歌唱に関する動画を取得することができる。具体的には、上記方法200によれば、歌唱と他の人声(発話など)及び歌唱と背景音楽部分を識別することにより、歌唱の境界を正確に取得することでより正確且つより柔軟な動画編集効果が得られる。
【0030】
現在、様々な生放送、例えば、歌唱やダンス類のキャスタは大きな市場上の将来性を有するため、このようなリソースを利用して完全な歌唱セグメントを生成し、リソース配信や人気の集めなだに極めて助けがある。本開示の実施例によれば、オーディオ、動画、音声などのモーダル情報に基づいて動画クリップを実現することができ、ショートムービー又は生放送ストリーミングの処理などの技術分野に応用されてよい。本開示の実施例によれば、歌の固定持続時間に依存せず、発話したか否かを識別することができ、よって明確な歌唱境界を有するショートムービー検出アルゴリズムを取得する。特に、歌唱タイプと発話タイプを識別することにより、歌唱でもなく発話でもないセグメント中の「背景音楽」と他のタイプを識別し、本当の歌唱のセグメントをより正確に選別することができ、よって歌唱のショートムービーを正確に取得する。
【0031】
いくつかの実施例によれば、歌唱セグメントセットに基づいて第2の動画を生成することは、歌唱セグメントセットが少なくとも1つの隣接する、第3のラベルを備えるセグメントを有すると確定したことに応答して、少なくとも1つの隣接する、第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することと、歌唱セグメントセットと拡張セグメントセットに基づいて第2の動画を生成することと、を含んでもよい。
【0032】
そのような実施例では、歌唱のセグメントと背景音楽のセグメントに対するより柔軟な融合を行うことができる。1つの具体的且つ非限定的な例示的な場面として、1つ長い動画におけるある歌唱動画の前に及び/又は後には一つの人声がない音楽を有してもよく、このような場合に音楽は多くの場合、この歌唱のイントロ又はアウトロであり、そのように考慮すれば、歌唱セグメントの前後に隣接する、「第3のラベル」、すなわち背景音楽ラベルを有するセグメントを含めることができる。
【0033】
いくつかの実施例によれば、少なくとも1つの隣接する、第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することは、複数のセグメントにおける、歌唱セグメントセットの開始セグメントの前のセグメントが第3のラベルを有すると確定したことに応答して、第1セグメントを確定し、第1セグメントは複数のセグメントにおいて、開始セグメントの前にあり、第1セグメントは第3のラベルを有し、第1セグメントの前のセグメントは第4のラベルを有し、第1セグメントと開始セグメントの間にはラベルが第3のラベルでないセグメントが存在せず、第1セグメントから開始セグメントまでの2つ又は複数のセグメントを含む拡張セグメントセットを確定することと、複数のセグメントにおける、歌唱セグメントセットの終了セグメントの次のセグメントが第3のラベルを有すると確定したことに応答して、第2セグメントを確定し、第2セグメントは複数のセグメントにおいて終了セグメントの後にあり、第2セグメントは第3のラベルを有し、第2セグメントの次のセグメントは第4のラベルを有し、第2セグメントと終了セグメントの間にはラベルが第3のラベルでないセグメントが存在せず、終了セグメントから第2セグメントまでの2つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の少なくとも1つを含んでもよい。
【0034】
そのような実施例では、背景音楽に基づいて第2の動画の境界をより正確に拡張することができる。すなわち、ラベルのみに対する変換は、第4のラベルから、第3のラベルまで、更に第1のラベルまでのように隣接セグメント群(又は、歌唱セグメント後の境界を拡張し、第1のラベルから、第3のラベルまで、更に第4のラベルまで、理解すべきことは、ここの順序は本開示の内容を限定しないことである)拡張する。1つの非限定的な実例として、歌唱動画の前及び/又は後ろに一つの人声がない音楽を有する場合、更に前へ/後への部分は「発話」であり、例えば、まず発話してから音楽を再生し、更に歌唱し、中間の音楽は歌唱に無関係である恐れがあり、すなわち、まず背景音楽において発話した後に、歌唱を始める状況であるかもしれない。そのため、このような場合、背景音楽セグメントがイントロ又はアウトロでないと判断することができ、境界を拡張しない。
【0035】
いくつかの実施例によれば、歌唱セグメントセットに基づいて第2の動画を生成することは、歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも1つのセグメントが信頼度要求を満たさないと確定したことに応答して、歌唱セグメントセットの境界調整量を確定することと、歌唱セグメントセットと境界調整量に基づいて第2の動画を確定することと、を含んでもよい。
【0036】
そのような実施例では、ラベル信頼性は満たさない時、境界に対する細粒度調整を行うことができる。具体的には、境界におけるセグメントが信頼度要求を満たさないと仮定し(本当の歌唱であるか否かを正確に確定できない)、このような場面の出現は、従来のセグメント粒度は、長さが大きすぎ、且つ、混合場面をカバーするためであるかもしれない。例えば、セグメント長さが3秒間であり、実に前の二秒間に発話していることと次の一秒間に歌唱していることをカバーすると仮定する。このような場合、境界調整量を確定するために2回目の境界確認を行う必要があり(例えば、一秒間の歌唱のみをカバーするように調整される)、よって、より正確な境界を取得する。
【0037】
いくつかの実施例によれば、複数のセグメントにおける各セグメントは第1の長さを有してもよく、歌唱セグメントセットの境界調整量を確定することは、開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、被調整セグメントに関連する2つの調整セグメントを取得し、2つの調整セグメントの各調整セグメントは第1の長さを有し、2つの調整セグメントが第1調整タイミングに隣接し、第1調整タイミングは被調整セグメント期間に収まることと、2つの調整セグメントにそれぞれラベルを確定し、各ラベルは第1のラベル、第2のラベル、第3のラベルと第4のラベルのうちの1つから選択されることと、2つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、歌唱セグメントセットの境界調整量を確定することで歌唱セグメントセットの対応境界を第1調整タイミングに調整することと、を含んでもよい。
【0038】
1つの非限定的な実例として、第1の長さが3sであり、すなわち、各セグメント長さが3sであると仮定する。元々の境界を時刻0と記し、境界セグメント(開始境界セグメントであると仮定する)の時間長さは[0,3]と表記し、例えば、長さが3s、ステップサイズが1sであるタイムウインドウを利用して境界セグメント近傍で分割を行い、又は他の方式で分割してもよく、2つの関連する調整セグメントを生成することができ、[-2,1]と[-1,2]それぞれと表記する。その後、2つの調整セグメントに対してラベル分類をそれぞれ行う。例えば、第2の調整セグメント[-1,2]が歌唱又は背景音楽であり、第1の調整セグメント[-2,1]は発話又は他の場面であると確定する場合、更新された境界がt=-1と考えられてもよく、よって、より細い境界粒度を実現する。理解すべきことは、以上はいずれも実例であり、当業者であれば想到できる他のセグメント長さ、ステップサイズ、分割方式、粒度などは、いずれも本開示の実施例の方法を実現するために使用することができることである。
【0039】
いくつかの実施例によれば、境界条件は、被調整セグメント関連が開始セグメントであると確定したことに応答して、2つの調整セグメントにおける前の調整セグメントは第2のラベル又は第4のラベルを有し、次の調整セグメントは第1のラベル又は第3のラベルを有することと、被調整セグメント関連が終了セグメントであると確定したことに応答して、2つの調整セグメントにおける前の調整セグメントは第1のラベル又は第3のラベルを有し、次の調整セグメントは第2のラベル又は第4のラベルを有することと、の少なくとも1つを含んでもよい。換言すると、境界条件は、信頼度が不十分である時、境界オーディオに対する細粒度分割を行い、更新された境界を取得することを含んでもよい。例えば、現在粒度のセグメントにおいて、前の一秒間に発話し、後の二秒間に歌唱するなどの可能性がある。
【0040】
更に、ラベルが第3のラベルであるすなわち、「背景音楽」の調整セグメントを、更新された境界に含めることができ、すなわち、背景音楽に対する適切な拡張を行うことができる。1つの具体的且つ非限定的な例として、境界セグメント(依然として長さを3秒に設定する)中の二秒間は背景音楽を含み、残った一秒間は「他の場面」である時に、この二秒間の背景音楽をその中に含めて歌唱セグメントのイントロ又はアウトロへの拡大としてもよいが、他のタイプ例えば、第2のラベルと第4のラベルのセグメントに対して、拡大しない。
【0041】
いくつかの実施例によれば、複数のセグメントにそれぞれ対応する複数のラベルを確定することは、複数のセグメントにおける各セグメントに対し、第1のラベル、第2のラベル、第3のラベルと第4のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定することを含んでもよい。そのような実施例では、セグメントの信頼度要求は、セグメントの第1のラベルの信頼度と第2のラベルの信頼度との差が第1の閾値より大きいこと、又は、セグメントの第1のラベルの信頼度と第4のラベルの信頼度との差が第2の閾値より大きいことの少なくとも1つを含んでもよい。信頼度要求は、2種類のラベルの信頼度の差異が小さいことを含んでもよく、この場合、混合場面、例えば、前の二秒間に発話していることと次の一秒間に歌唱していることなどをカバーすると考えられる。理解すべきことは、以上は実例に過ぎず、本開示は、これに限定されないことである。
【0042】
いくつかの実施例によれば、複数のセグメントにそれぞれ対応する複数のラベルを確定することは、複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定することを含んでもよい。
【0043】
これにより、オーディオと画面という両方の特徴に基づいて、歌唱/発話/背景音楽などであるか否かを確定することができる。オーディオ特徴抽出はメルスペクトラムに基づくオーディオイベント特徴抽出であってもよく、例えば、局所(local)特徴のbottom-up方法に基づいてオーディオの特徴抽出を行ってもよい。更に、キャスタが歌を再生しているが、本人が歌唱していない場面を識別するために、オーディオ情報の他には更に、動画における画像情報を利用して更なる特徴抽出と分類を行うことができる。
【0044】
いくつかの実施例によれば、画面特徴は顔特徴と唇領域の時系列特徴を含んでもよい。顔によってキャスタは画面にいるか否かを確定することができ、キャスタが画面から離れたが、オーディオを再生する状況を回避するために用いられ、唇動作特徴はキャスタ本人が歌唱しているか、歌を再生しているかなどの状況を識別することができる。これにより、より正確なラベルを取得し、更により正確な境界を取得することができる。
【0045】
以下、
図3に合わせて本開示の一実施例による、ラベル確定と特徴抽出の例示的な実施形態におけるデータストリームの概略図を説明する。
第1の動画310を複数の同じ長さ(例えば、3s)であるセグメントに分割する。情報量の豊富さと必要な正確性粒度を考慮することで長さを選択することができる。例えば、長い動画セグメントはより多くの情報量を含み、短い動画セグメントは、開始点から選択する時、時間粒度がより正確であるため、ニーズに応じて、例えば、0.5s、1s、3s、5s、10sなどが確定されてよく、本開示は、これに限定されない。動画フレームデータすなわち、画面データ312とオーディオデータ314をそれぞれ取得する。
【0046】
画面データ312に対し、例えば、1秒毎に1フレーム又は他の頻度に応じて抽出を行って画像を取得することができる。その後、画像を顔特徴抽出部320、例えば、CNN又は他のニューラルネットワークに入力する。顔特徴抽出部320は顔特徴を出力することができ、抽出された顔特徴は、キャスタが画面にいるか否かを判断するために用いられてよく、キャスタが画面から離れているが、オーディオが再生されている状況を回避するために用いられる。顔特徴抽出部320は、マルチタスク畳み込みニューラルネットワーク(Multi-task convolutional neural network、MTCNN)であってもよいし、それを含んでもよいが、本開示は、これに限定されない。
【0047】
顔特徴抽出部320は更に、顔のキーポイントにおける唇部の特徴の領域位置を出力してもよい。唇部の特徴を唇部時系列特徴抽出部330に出力する。唇部時系列特徴抽出部330は顔の唇部領域の特徴に対する時系列の重合を行い、唇動作の特徴を抽出する。該特徴によって動画におけるキャスタが歌唱しているか否かを識別することができ、よって、キャスタ本人が歌唱しているか、歌を再生しているかなどの状況を識別するために用いられる。唇部時系列特徴抽出部330は、時間セグメントネットワーク(Temporal Segment Networks、TSN)であってもよいし、それを含んでもよいが、本開示は、これに限定されない。
【0048】
オーディオデータ312に対し、メルスペクトラム特徴を抽出して画像情報への変換を行った後、オーディオ特徴抽出340を利用し、例えば、ニューラルネットワーク(例えば、CNN)でオーディオ特徴抽出を行う。
【0049】
抽出された顔、唇部とオーディオ特徴を特徴融合部350に入力し、音声の特徴、顔特徴、唇動作特徴に対する重合を行うために用いられ、例えば、特徴に対する結合(concat)を行う。その後、分類ユニット360、例えば、長短期記憶ネットワーク(LSTM)、特に、特徴融合長短期記憶ネットワーク(FFLSTM)により各セグメントに対してラベル、すなわち分類結果370を確定した後、時系列に歌唱活動の開始時点、終了時点など、すなわち、本明細書に記載の歌唱セグメントセットをクラスタリングすることができる。
【0050】
後処理380は本明細書に記載の境界拡張、境界確認などのステップを含んでもよく、第2の動画の生成、レンダリングなどの当業者であれば公知の動画処理と動画編集ステップを含んでもよく、理解すべきことは、本開示は、これに限定されないことである。これにより、第2の動画390を取得することができる。
【0051】
理解すべきことは、図中は、分類部360、例えば分類ネットワークを示すが、本開示は、これに限定されないことである。例えば、顔特徴抽出部分320は顔特徴抽出と分類ネットワークを含んでもよく、顔特徴のキーポイント特徴を、唇部時系列特徴抽出と分類ネットワーク340に出力するために用いられ、顔分類結果を特徴融合部分340に出力する。同様に、唇部時系列特徴抽出とオーディオ特徴抽出部分はそれぞれ分類結果を含んでもよく、このような場合において、特徴融合部分340は3種類の分類結果を融合するだけで分類結果370を生成する。理解すべきことは、分類してから重合する場合や、特徴を重合してから分類する場合は、いずれも本開示に記載の実施例に使用されてもよく、本開示の実施例の方法は、当業者であれば理解できる、オーディオと画面特徴に基づいて分類する他の方法に適用されてもよく、ニューラルネットワークを使用せず分類を行う方法などのを含むことである。
【0052】
現在、
図4を参照して本開示の実施例による動画編集装置400を説明する。動画編集装置400は、第1の動画取得ユニット401、セグメント取得ユニット402、ラベル確定ユニット403、セグメントセット確定ユニット404と第2の動画生成ユニット405を含んでもよい。
【0053】
第1の動画取得ユニット401は第1の動画を取得するために用いられてよい。セグメント取得ユニット402は第1の動画を分割して複数のセグメントを取得するために用いられてよい。ラベル確定ユニット403は、複数のセグメントにそれぞれ対応する複数のラベルを確定するために用いられてよく、複数のラベルにおける各ラベルは、第1のラベル、第2のラベル、第3のラベル又は第4のラベルのうちの1つから選択され、第1のラベルは歌唱のセグメントを指示し、第2のラベルは発話のセグメントを指示し、第3のラベルは背景音楽のセグメントを指示し、第4のラベルは、第1のラベル、第2のラベルと第3のラベルにいずれも対応しないセグメントを指示する。セグメントセット確定ユニット404は、複数のラベルに基づいて、複数のセグメントにおける連続的な2つ又は複数の、第1のラベルを備えるセグメントを含む歌唱セグメントセットを確定するために用いられてよい。第2の動画生成ユニット405は歌唱セグメントセットに基づいて第2の動画を生成するために用いられてよい。
【0054】
本開示の実施例による装置は、動画を正確に編集することで歌唱に関する動画を取得することができる。
いくつかの実施例によれば、第2の動画生成装置405は、歌唱セグメントセットが少なくとも1つの隣接する、第3のラベルを備えるセグメントを有すると確定したことに応答して、少なくとも1つの隣接する、第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットと、歌唱セグメントセットと拡張セグメントセットに基づいて第2の動画を生成するためのユニットと、を含んでもよい。
【0055】
いくつかの実施例によれば、少なくとも1つの隣接する、第3のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットは、複数のセグメントにおける、歌唱セグメントセットの開始セグメントの前のセグメントが第3のラベルを有することに応答して、第1セグメントを確定し、第1セグメントは複数のセグメントにおいて、開始セグメントの前にあり、第1セグメントは第3のラベルを有し、第1セグメントの前のセグメントは第4のラベルを有し、第1セグメントと開始セグメントの間にはラベルが第3のラベルでないセグメントが存在せず、第1セグメントから開始セグメントまでの2つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の操作を実行するユニットと、複数のセグメントにおける、歌唱セグメントセットの終了セグメントの次のセグメントが第3のラベルを有することに応答して、第2セグメントを確定し、第2セグメントは複数のセグメントにおいて終了セグメントの後にあり、第2セグメントは第3のラベルを有し、第2セグメントの次のセグメントは第4のラベルを有し、第2セグメントと終了セグメントの間にはラベルが第3のラベルでないセグメントが存在せず、終了セグメントから第2セグメントまでの2つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の操作を実行するユニットと、の少なくとも1つを含んでもよい。
【0056】
いくつかの実施例によれば、第2の動画生成装置405は、歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも1つのセグメントが信頼度要求を満たさないと確定したことに応答して、歌唱セグメントセットの境界調整量を確定するためのユニットと、歌唱セグメントセットと境界調整量に基づいて第2の動画を確定するためのユニットと、を含んでもよい。
【0057】
いくつかの実施例によれば、複数のセグメントにおける各セグメントは第1の長さを有し、歌唱セグメントセットの境界調整量を確定するためのユニットは、開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、被調整セグメントに関連する2つの調整セグメントを取得し、2つの調整セグメントの各調整セグメントは第1の長さを有し、2つの調整セグメントが第1調整タイミングに隣接し、第1調整タイミングは被調整セグメント期間に収まることと、2つの調整セグメントにそれぞれラベルを確定し、各ラベルは第1のラベル、第2のラベル、第3のラベルと第4のラベルのうちの1つから選択されることと、2つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、歌唱セグメントセットの境界調整量を確定することで歌唱セグメントセットの対応境界を第1調整タイミングに調整することと、の操作を実行するユニットを含んでもよい。
【0058】
いくつかの実施例によれば、ラベル確定ユニット403は、複数のセグメントにおける各セグメントに対し、第1のラベル、第2のラベル、第3のラベルと第4のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定する操作を実行するユニットを含んでもよい。セグメントの信頼度要求は、セグメントの第1のラベルの信頼度と第2のラベルの信頼度との差は第1の閾値より大きいこと、又は、セグメントの第1のラベルの信頼度と第4のラベルの信頼度との差は第2の閾値より大きいことの少なくとも1つを含んでもよい。
【0059】
いくつかの実施例によれば、ラベル確定ユニット403は複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定するためのユニットを含んでもよい。
【0060】
いくつかの実施例によれば、画面特徴は顔特徴と唇領域の時系列特徴を含んでもよい。
本開示の技術案において、関連するユーザ個人情報の収集、取得、記憶、使用、加工、伝送、提供と開示活用などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0061】
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図5に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器500の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0062】
図5に示すように、電子機器500は、計算ユニット501を含み、それはリードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM503において、更に電子機器500を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット501、ROM502およびRAM503はバス504によって互いに接続される。入力/出力(I/O)インターフェース505も、バス504に接続される。
【0063】
電子機器500における複数の部品はI/Oインターフェース505に接続され、入力ユニット506、出力ユニット507、記憶ユニット508及び通信ユニット509を含む。入力ユニット506は、電子機器500に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット506は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット507は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット508は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット509は、電子機器500が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥース(登録商標)TM装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0064】
計算ユニット501は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット501は上記内容で説明した各方法と処理、例えば方法200及びその変形例などを実行する。例えば、いくつかの実施例において、方法200及びその変形例などはコンピュータソフトウェアプログラムとして実現してよく、機械読み取り可能な媒体、例えば、記憶ユニット508に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全てはROM502及び/又は通信ユニット509を経由して電子機器500にロード及び/又はインストールされてよい。コンピュータプログラムがRAM503にロードされて計算ユニット501によって実行される時に、以上で説明される方法200及びその変形例などの一つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット501は他のいかなる適切な方式で(例えば、ファームウェアにより)方法200及びその変形例などを実行するように構成されてよい。
【0065】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0066】
本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0067】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
【0068】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0069】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0070】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0071】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載の各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0072】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。