特許7556063 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ　オンライン　ネットワーク　テクノロジー（ペキン）　カンパニー　リミテッドの特許一覧

特許7556063動画の編集方法、装置、電子機器、媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-13

(45)【発行日】2024-09-25

(54)【発明の名称】動画の編集方法、装置、電子機器、媒体

(51)【国際特許分類】

H04N 21/854 20110101AFI20240917BHJP

H04N 21/234 20110101ALI20240917BHJP

G06F 16/28 20190101ALI20240917BHJP

【ＦＩ】

H04N21/854

H04N21/234

G06F16/28

【請求項の数】 18

(21)【出願番号】P 2022581589

(86)(22)【出願日】2022-07-08

(65)【公表番号】

(43)【公表日】2024-01-30

(86)【国際出願番号】 CN2022104740

(87)【国際公開番号】W WO2023109103

(87)【国際公開日】2023-06-22

【審査請求日】2022-12-28

(31)【優先権主張番号】202111536505.6

(32)【優先日】2021-12-15

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】512015127

【氏名又は名称】バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(74)【代理人】

【識別番号】100138759

【弁理士】

【氏名又は名称】大房直樹

(72)【発明者】

【氏名】チェン，ミャオ

(72)【発明者】

【氏名】リャオ，シジュ

(72)【発明者】

【氏名】ユン，ティン

(72)【発明者】

【氏名】リー，ユアンハン

(72)【発明者】

【氏名】ニン，ユーペン

【審査官】醍醐一貴

(56)【参考文献】

【文献】米国特許出願公開第２０１２／０２８１９６９（ＵＳ，Ａ１）

【文献】中国特許出願公開第１１３７６２０５６（ＣＮ，Ａ）

【文献】米国特許出願公開第２０１７／０３０９２９６（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１９／００－９９／００

Ｈ０４Ｎ５／７６－５／７７５

Ｈ０４Ｎ５／８０－５／９０７

Ｈ０４Ｎ５／９１－５／９５６

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

動画の編集方法であって、
第１の動画を取得することと、
前記第１の動画を分割して複数のセグメントを取得することと、
前記複数のセグメントにそれぞれ対応する複数のラベルを確定し、前記複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、前記第１のラベルは歌唱のセグメントを指示し、前記第２のラベルは発話のセグメントを指示し、前記第３のラベルは背景音楽のセグメントを指示し、前記第４のラベルは、前記第１のラベル、前記第２のラベルと前記第３のラベルにいずれも対応しないセグメントを指示することと、
前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な２つ又は複数の、前記第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定することと、
前記歌唱セグメントセットに基づいて第２の動画を生成することとを含み、
前記歌唱セグメントセットに基づいて前記第２の動画を生成することは、
前記歌唱セグメントセットが少なくとも１つの隣接する、前記第３のラベルを備えるセグメントを有すると確定したことに応答して、前記少なくとも１つの隣接する、前記第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することと、
前記歌唱セグメントセットと前記拡張セグメントセットに基づいて前記第２の動画を生成することとを含む、動画の編集方法。

【請求項2】

前記少なくとも１つの隣接する、前記第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することは、
前記複数のセグメントにおける、前記歌唱セグメントセットの開始セグメントの前のセグメントが前記第３のラベルを有すると確定したことに応答して、
第１セグメントを確定し、前記第１セグメントは前記複数のセグメントにおいて、前記開始セグメントの前にあり、前記第１セグメントは前記第３のラベルを有し、前記第１セグメントの前のセグメントは前記第４のラベルを有し、前記第１セグメントと前記開始セグメントの間にはラベルが前記第３のラベルでないセグメントが存在せず、
前記第１セグメントから前記開始セグメントまでの２つ又は複数のセグメントを含む前記拡張セグメントセットを確定することと、
前記複数のセグメントにおける、前記歌唱セグメントセットの終了セグメントの次のセグメントが前記第３のラベルを有すると確定したことに応答して、
第２セグメントを確定し、前記第２セグメントは前記複数のセグメントにおいて終了セグメントの後にあり、前記第２セグメントは前記第３のラベルを有し、前記第２セグメントの次のセグメントは前記第４のラベルを有し、前記第２セグメントと前記終了セグメントの間にはラベルが前記第３のラベルでないセグメントが存在せず、
前記終了セグメントから前記第２セグメントまでの２つ又は複数のセグメントを含む前記拡張セグメントセットを確定することと、の少なくとも１つを含む、請求項１に記載の方法。

【請求項3】

前記歌唱セグメントセットに基づいて前記第２の動画を生成することは、
前記歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも１つのセグメントが信頼度要求を満たさないと確定したことに応答して、前記歌唱セグメントセットの境界調整量を確定することと、
前記歌唱セグメントセットと前記境界調整量に基づいて前記第２の動画を確定することとを含む、請求項１又は２に記載の方法。

【請求項4】

前記複数のセグメントにおける各セグメントは第１の長さを有し、前記歌唱セグメントセットの境界調整量を確定することは、前記開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、
前記被調整セグメントに関連する２つの調整セグメントを取得し、前記２つの調整セグメントの各調整セグメントは前記第１の長さを有し、前記２つの調整セグメントが第１調整タイミングに隣接し、前記第１調整タイミングは前記被調整セグメント期間に収まることと、
前記２つの調整セグメントにそれぞれラベルを確定し、各ラベルは前記第１のラベル、第２のラベル、第３のラベルと第４のラベルのうちの１つから選択されることと、
前記２つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、前記歌唱セグメントセットの境界調整量を確定することで前記歌唱セグメントセットの対応境界を前記第１調整タイミングに調整することとを含む、請求項３に記載の方法。

【請求項5】

前記境界条件は、
前記被調整セグメント関連が前記開始セグメントであると確定したことに応答して、前記２つの調整セグメントにおける前の調整セグメントは前記第２のラベル又は前記第４のラベルを有し、次の調整セグメントは前記第１のラベル又は前記第３のラベルを有することと、
前記被調整セグメント関連が前記終了セグメントであると確定したことに応答して、前記２つの調整セグメントにおける前の調整セグメントは前記第１のラベル又は前記第３のラベルを有し、次の調整セグメントは前記第２のラベル又は前記第４のラベルを有することと、の少なくとも１つを含む、請求項４に記載の方法。

【請求項6】

前記複数のセグメントにそれぞれ対応する複数のラベルを確定することは、前記複数のセグメントにおける各セグメントに対し、前記第１のラベル、第２のラベル、第３のラベルと第４のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定することを含み、
ここで、セグメントの信頼度要求は、セグメントの第１のラベルの信頼度と第２のラベルの信頼度との差は第１の閾値より大きいこと、又は、セグメントの第１のラベルの信頼度と第４のラベルの信頼度との差は第２の閾値より大きいことの少なくとも１つを含む、請求項４に記載の方法。

【請求項7】

前記複数のセグメントにそれぞれ対応する複数のラベルを確定することは、前記複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定することを含む、請求項１又は２に記載の方法。

【請求項8】

前記画面特徴は顔特徴と唇領域の時系列特徴を含む、請求項７に記載の方法。

【請求項9】

動画編集装置であって、
第１の動画を取得するための第１の動画取得ユニットと、
前記第１の動画を分割して複数のセグメントを取得するためのセグメント取得ユニットと、
前記複数のセグメントにそれぞれ対応する複数のラベルを確定するためのラベル確定ユニットであって、前記複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、前記第１のラベルは歌唱のセグメントを指示し、前記第２のラベルは発話のセグメントを指示し、前記第３のラベルは背景音楽のセグメントを指示し、前記第４のラベルは、前記第１のラベル、前記第２のラベルと前記第３のラベルにいずれも対応しないセグメントを指示するものと、
前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な２つ又は複数の、前記第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定するためのセグメントセット確定ユニットと、
前記歌唱セグメントセットに基づいて第２の動画を生成するための第２の動画生成ユニットとを含み、
前記第２の動画生成ユニットは、
前記歌唱セグメントセットが少なくとも１つの隣接する、前記第３のラベルを備えるセグメントを有すると確定したことに応答して、前記少なくとも１つの隣接する、前記第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットと、
前記歌唱セグメントセットと前記拡張セグメントセットに基づいて前記第２の動画を生成するためのユニットとを含む、動画編集装置。

【請求項10】

前記少なくとも１つの隣接する、前記第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットは、
前記複数のセグメントにおける、前記歌唱セグメントセットの開始セグメントの前のセグメントが前記第３のラベルを有することに応答して、
第１セグメントを確定し、前記第１セグメントは前記複数のセグメントにおいて、前記開始セグメントの前にあり、前記第１セグメントは前記第３のラベルを有し、前記第１セグメントの前のセグメントは前記第４のラベルを有し、前記第１セグメントと前記開始セグメントの間にはラベルが前記第３のラベルでないセグメントが存在せず、
前記第１セグメントから前記開始セグメントまでの２つ又は複数のセグメントを含む前記拡張セグメントセットを確定する操作を実行するユニットと、
前記複数のセグメントにおける、前記歌唱セグメントセットの終了セグメントの次のセグメントが前記第３のラベルを有することに応答して、
第２セグメントを確定し、前記第２セグメントは前記複数のセグメントにおいて終了セグメントの後にあり、前記第２セグメントは前記第３のラベルを有し、前記第２セグメントの次のセグメントは前記第４のラベルを有し、前記第２セグメントと前記終了セグメントの間にはラベルが前記第３のラベルでないセグメントが存在せず、
前記終了セグメントから前記第２セグメントまでの２つ又は複数のセグメントを含む前記拡張セグメントセットを確定する操作を実行するユニットと、の少なくとも１つを含む、請求項９に記載の装置。

【請求項11】

前記第２の動画生成ユニットは、
前記歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも１つのセグメントが信頼度要求を満たさないと確定したことに応答して、前記歌唱セグメントセットの境界調整量を確定するためのユニットと、
前記歌唱セグメントセットと前記境界調整量に基づいて前記第２の動画を確定するためのユニットとを含む、請求項９又は１０に記載の装置。

【請求項12】

前記複数のセグメントにおける各セグメントは第１の長さを有し、前記歌唱セグメントセットの境界調整量を確定するためのユニットは、前記開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、
前記被調整セグメントに関連する２つの調整セグメントを取得し、前記２つの調整セグメントの各調整セグメントは前記第１の長さを有し、前記２つの調整セグメントが第１調整タイミングに隣接し、前記第１調整タイミングは前記被調整セグメント期間に収まることと、
前記２つの調整セグメントにそれぞれラベルを確定し、各ラベルは前記第１のラベル、第２のラベル、第３のラベルと第４のラベルのうちの１つから選択されることと、
前記２つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、前記歌唱セグメントセットの境界調整量を確定することで前記歌唱セグメントセットの対応境界を前記第１調整タイミングに調整することと、の操作を実行するユニットを含む、請求項１１に記載の装置。

【請求項13】

前記ラベル確定ユニットは、前記複数のセグメントにおける各セグメントに対し、前記第１のラベル、第２のラベル、第３のラベルと第４のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定する操作を実行するユニットを含み、
ここで、セグメントの信頼度要求は、セグメントの第１のラベルの信頼度と第２のラベルの信頼度との差は第１の閾値より大きいこと、又は、セグメントの第１のラベルの信頼度と第４のラベルの信頼度との差は第２の閾値より大きいことの少なくとも１つを含む、請求項１２に記載の装置。

【請求項14】

前記ラベル確定ユニットは、前記複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定するユニットを含む、請求項９又は１０に記載の装置。

【請求項15】

前記画面特徴は顔特徴と唇領域の時系列特徴を含む、請求項１４に記載の装置。

【請求項16】

電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサは請求項１又は２に記載の方法を実行させる、電子機器。

【請求項17】

コンピュータに請求項１又は２に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。

【請求項18】

プロセッサによって実行されると、請求項１又は２に記載の方法を実現するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２１年１２月１５日に出願された中国特許出願２０２１１１５３６５０５６の優先権を請求し、その出願の全体が参照によって本明細書に組み込まれる。
本開示は、データ処理技術分野に関し、特に動画処理及び人工知能に関し、具体的には、動画の編集方法、装置、電子機器、コンピュータ可読記憶媒体とコンピュータプログラム製品に関する。

【背景技術】

【0002】

情報媒体の１つとして、動画形式の情報は益々多く注目されている。特に、短い動画の形式は視聴者により注目されて人気がある。これに基づき、如何にして動画を編集することで素晴らしい有効な短い動画を抽出できることは有意義になる。

【0003】

この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、いかなる従来の技術で承認されたものであると考えるべきではない。

【発明の概要】

【0004】

本開示は、動画の編集方法、装置、電子機器、コンピュータ可読記憶媒体とコンピュータプログラム製品を提供する。
本開示の一態様によれば、前記第１の動画を取得することと、前記第１の動画を分割して複数のセグメントを取得することと、前記複数のセグメントにそれぞれ対応する複数のラベルを確定し、前記複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、前記第１のラベルは歌唱のセグメントを指示し、前記第２のラベルは発話のセグメントを指示し、前記第３のラベルは背景音楽のセグメントを指示し、前記第４のラベルは、前記第１のラベル、前記第２のラベルと前記第３のラベルにいずれも対応しないセグメントを指示することと、前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な２つ又は複数の、前記第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定することと、前記歌唱セグメントセットに基づいて前記第２の動画を生成することとを含む、動画の編集方法を提供する。

【0005】

本開示の別の態様によれば、前記第１の動画を取得するための第１の動画取得ユニットと、前記第１の動画を分割して複数のセグメントを取得するためのセグメント取得ユニットと、前記複数のセグメントにそれぞれ対応する複数のラベルを確定するためのラベル確定ユニットであって、前記複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、前記第１のラベルは歌唱のセグメントを指示し、前記第２のラベルは発話のセグメントを指示し、前記第３のラベルは背景音楽のセグメントを指示し、前記第４のラベルは、前記第１のラベル、前記第２のラベルと前記第３のラベルにいずれも対応しないセグメントを指示するものと、前記複数のラベルに基づいて、前記複数のセグメントにおける連続的な２つ又は複数の、前記第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定するためのセグメントセット確定ユニットと、前記歌唱セグメントセットに基づいて前記第２の動画を生成するための第２の動画生成ユニットと、を含む、動画編集装置を提供する。

【0006】

本開示の別の態様によれば、少なくとも１つのプロセッサと、前記少なくとも一つのプロセッサに通信接続されたメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに本開示の一つ又は複数の実施例による動画の編集方法を実行させる電子機器を提供する。

【0007】

本開示の別の態様によれば、前記コンピュータに本開示の一つ又は複数の実施例による動画の編集方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

【0008】

本開示の別の態様によれば、プロセッサによって実行されると、本開示の一つ又は複数の実施例による動画の編集方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

【0009】

本開示の一つ又は複数の実施例によれば、動画を正確に編集することで歌唱に関する動画を取得することができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

【図面の簡単な説明】

【0010】

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示的目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。

【図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムの概略図を示す。

【図2】本開示の実施例による動画の編集方法を示すフローチャートである。

【図3】本開示の実施例による動画の編集方法を示すデータストリームの概略図である。

【図4】本開示の実施例による動画編集装置を示す構成ブロック図である。

【図5】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。

【発明を実施するための形態】

【0011】

以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

【0012】

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第一要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

【0013】

本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされた項目のいずれか及び可能な全ての組み合わせをカバーする。

【0014】

以下、図面を参照して本開示の実施例について詳細に説明する。
図１は、本開示の実施例による、本明細書に記載の様々な方法及び装置を、その中で実施することができる例示的なシステム１００の概略図を示す。図１を参照すると、このシステム１００は、一つ又は複数のクライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６、サーバ１２０、及び一つ又は複数のクライアントデバイスをサーバ１２０に結合する一つ又は複数の通信ネットワーク１１０を含む。クライアントデバイス１０１、１０２、１０３、１０４、１０５と１０６は、一つ又は複数のアプリケーションを実行するように構成されることが可能である。

【0015】

本開示の実施例では、サーバ１２０は、本開示による動画の編集方法の１つ又は複数のサービス又はソフトウェアアプリケーションを実行することができるように動作できる。
いくつかの実施例では、サーバ１２０は、非仮想環境及び仮想環境を含んでもよい他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、ｗｅｂベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス（ＳａａＳ）モデルでクライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６のユーザに提供される。

【0016】

図１に示す配置では、サーバ１２０は、サーバ１２０により実行される機能を実現する一つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、一つ又は複数のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ又は複数のクライアントアプリケーションを用いてサーバ１２０とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム１００とは異なってもよいことを理解されたい。したがって、図１は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。

【0017】

ユーザは、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６を用いて動画を閲覧、動画を編集、動画編集の結果をフィードバックするなどのことができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインターフェースを提供することができる。クライアントデバイスは、このインターフェースを介してユーザに情報を出力することもできる。図１では６つのクライアントデバイスしか図示されていないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスもサポートできる。

【0018】

クライアントデバイス１０１、１０２、１０３、１０４、１０５及び／又は１０６は、携帯型ハンドヘルドデバイス、汎用コンピュータ（例えば、パーソナルコンピュータやノートパソコン）、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓ、ＡＰＰＬＥｉＯＳ、類ＵＮＩＸ（登録商標）オペレーティングシステム、Ｌｉｎｕｘ（登録商標）又は類Ｌｉｎｕｘ（登録商標）オペレーティングシステム（例えば、ＧＯＯＧＬＥＣｈｒｏｍｅＯＳ）などの様々なタイプ及びバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、ＭＩＣＲＯＳＯＦＴＷｉｎｄｏｗｓＭｏｂｉｌｅＯＳ、ｉＯＳ、ＷｉｎｄｏｗｓＰｈｏｎｅ、Ａｎｄｒｏｉｄなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント（ＰＤＡ）などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ（例えば、スマートグラス）と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットＩｎｔｅｒｎｅｔ関連アプリケーション、通信アプリケーション（例えば、電子メールアプリケーション）、ショートメッセージサービス（ＳＭＳ）アプリケーション、様々なアプリケーションを実行でき、且つ様々な通信プロトコルを使用できる。

【0019】

ネットワーク１１０は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか一つ（ＴＣＰ／ＩＰ、ＳＮＡ、ＩＰＸなどを含むがこれらに限定されない）を使用することができる。例として、一つ又は複数のネットワーク１１０は、ローカルエリアネットワーク（ＬＡＮ）、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク（ＷＡＮ）、インターネット、仮想ネットワーク、仮想プライベートネットワーク（ＶＰＮ）、イントラネット、エクストラネット、公衆交換電話網（ＰＳＴＮ）、赤外線ネットワーク、無線ネットワーク（例えば、ブルートゥース（登録商標）、ＷＩＦＩ）、及び／又はこれらとその他のネットワークの任意の組み合わせであってもよい。

【0020】

サーバ１２０は、一つ又は複数の汎用コンピュータ、専用サーバコンピュータ（例えば、ＰＣ（パーソナルコンピュータ）サーバ、ＵＮＩＸ（登録商標）サーバ、ミッドレンジサーバ）、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他の適切な配置及び／又は組み合わせを含んでもよい。サーバ１２０は、仮想オペレーティングシステムを実行する一つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ（例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの一つ又は複数のフレキシブルプール）を含んでもよい。様々な実施例において、サーバ１２０は、以下に説明する機能を提供する一つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。

【0021】

サーバ１２０における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ又は複数のオペレーティングシステムを実行することができる。サーバ１２０は、ＨＴＴＰサーバ、ＦＴＰサーバ、ＣＧＩサーバ、ＪＡＶＡ（登録商標）サーバ、データベースサーバなど、を含む様々な追加のサーバアプリケーション及び／又は中間層アプリケーションのいずれか一つを実行することもできる。

【0022】

いくつかの実施形態では、サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び１０６のユーザから受信したデータフィード及び／又はイベントの更新を分析及び統合するための一つ又は複数のアプリケーションを含むことができる。サーバ１２０は、クライアントデバイス１０１、１０２、１０３、１０４、１０５及び１０６の一つ又は複数のディスプレイデバイスを介してデータフィード及び／又はリアルタイムイベントを表示する一つ又は複数のアプリケーションを含むこともできる。

【0023】

いくつかの実施形態では、サーバ１２０は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ１２０は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。

【0024】

システム１００は、一つ又は複数のデータベース１３０を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース１３０のうちの１つ又は複数は、オーディオファイルや動画ファイルのような情報を記憶するために使用できる。データベース１３０は、さまざまな位置に配置することができる。例えば、サーバ１２０が使用するデータベースは、サーバ１２０のローカルにあってもよいし、サーバ１２０から離れて、ネットワーク又は専用の接続を介してサーバ１２０と通信してもよい。データベース１３０は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ１２０が使用するデータベースは、リレーショナルデータベースであってもよい。これらのデータベースのうちの一つ又は複数は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。

【0025】

いくつかの実施例では、データベース１３０のうちの一つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。

【0026】

図１のシステム１００は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で配置し操作することができる。
以下、図２を参照して本開示の例示的な実施例による動画の編集方法２００を説明する。

【0027】

ステップＳ２０１では、第１の動画を取得する。
ステップＳ２０２では、第１の動画を分割して複数のセグメントを取得する。
ステップＳ２０３では、複数のセグメントにそれぞれ対応する複数のラベルを確定し、複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、第１のラベルは歌唱のセグメントを指示し、第２のラベルは発話のセグメントを指示し、第３のラベルは背景音楽のセグメントを指示し、第４のラベルは、第１のラベル、第２のラベルと第３のラベルにいずれも対応しないセグメントを指示する。

【0028】

ステップＳ２０４では、複数のラベルに基づいて、複数のセグメントにおける連続的な２つ又は複数の、第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定する。

【0029】

ステップＳ２０５では、歌唱セグメントセットに基づいて第２の動画を生成する。
本開示の実施例の方法によれば、動画を正確に編集することで歌唱に関する動画を取得することができる。具体的には、上記方法２００によれば、歌唱と他の人声（発話など）及び歌唱と背景音楽部分を識別することにより、歌唱の境界を正確に取得することでより正確且つより柔軟な動画編集効果が得られる。

【0030】

現在、様々な生放送、例えば、歌唱やダンス類のキャスタは大きな市場上の将来性を有するため、このようなリソースを利用して完全な歌唱セグメントを生成し、リソース配信や人気の集めなだに極めて助けがある。本開示の実施例によれば、オーディオ、動画、音声などのモーダル情報に基づいて動画クリップを実現することができ、ショートムービー又は生放送ストリーミングの処理などの技術分野に応用されてよい。本開示の実施例によれば、歌の固定持続時間に依存せず、発話したか否かを識別することができ、よって明確な歌唱境界を有するショートムービー検出アルゴリズムを取得する。特に、歌唱タイプと発話タイプを識別することにより、歌唱でもなく発話でもないセグメント中の「背景音楽」と他のタイプを識別し、本当の歌唱のセグメントをより正確に選別することができ、よって歌唱のショートムービーを正確に取得する。

【0031】

いくつかの実施例によれば、歌唱セグメントセットに基づいて第２の動画を生成することは、歌唱セグメントセットが少なくとも１つの隣接する、第３のラベルを備えるセグメントを有すると確定したことに応答して、少なくとも１つの隣接する、第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することと、歌唱セグメントセットと拡張セグメントセットに基づいて第２の動画を生成することと、を含んでもよい。

【0032】

そのような実施例では、歌唱のセグメントと背景音楽のセグメントに対するより柔軟な融合を行うことができる。１つの具体的且つ非限定的な例示的な場面として、１つ長い動画におけるある歌唱動画の前に及び／又は後には一つの人声がない音楽を有してもよく、このような場合に音楽は多くの場合、この歌唱のイントロ又はアウトロであり、そのように考慮すれば、歌唱セグメントの前後に隣接する、「第３のラベル」、すなわち背景音楽ラベルを有するセグメントを含めることができる。

【0033】

いくつかの実施例によれば、少なくとも１つの隣接する、第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定することは、複数のセグメントにおける、歌唱セグメントセットの開始セグメントの前のセグメントが第３のラベルを有すると確定したことに応答して、第１セグメントを確定し、第１セグメントは複数のセグメントにおいて、開始セグメントの前にあり、第１セグメントは第３のラベルを有し、第１セグメントの前のセグメントは第４のラベルを有し、第１セグメントと開始セグメントの間にはラベルが第３のラベルでないセグメントが存在せず、第１セグメントから開始セグメントまでの２つ又は複数のセグメントを含む拡張セグメントセットを確定することと、複数のセグメントにおける、歌唱セグメントセットの終了セグメントの次のセグメントが第３のラベルを有すると確定したことに応答して、第２セグメントを確定し、第２セグメントは複数のセグメントにおいて終了セグメントの後にあり、第２セグメントは第３のラベルを有し、第２セグメントの次のセグメントは第４のラベルを有し、第２セグメントと終了セグメントの間にはラベルが第３のラベルでないセグメントが存在せず、終了セグメントから第２セグメントまでの２つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の少なくとも１つを含んでもよい。

【0034】

そのような実施例では、背景音楽に基づいて第２の動画の境界をより正確に拡張することができる。すなわち、ラベルのみに対する変換は、第４のラベルから、第３のラベルまで、更に第１のラベルまでのように隣接セグメント群（又は、歌唱セグメント後の境界を拡張し、第１のラベルから、第３のラベルまで、更に第４のラベルまで、理解すべきことは、ここの順序は本開示の内容を限定しないことである）拡張する。１つの非限定的な実例として、歌唱動画の前及び／又は後ろに一つの人声がない音楽を有する場合、更に前へ／後への部分は「発話」であり、例えば、まず発話してから音楽を再生し、更に歌唱し、中間の音楽は歌唱に無関係である恐れがあり、すなわち、まず背景音楽において発話した後に、歌唱を始める状況であるかもしれない。そのため、このような場合、背景音楽セグメントがイントロ又はアウトロでないと判断することができ、境界を拡張しない。

【0035】

いくつかの実施例によれば、歌唱セグメントセットに基づいて第２の動画を生成することは、歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも１つのセグメントが信頼度要求を満たさないと確定したことに応答して、歌唱セグメントセットの境界調整量を確定することと、歌唱セグメントセットと境界調整量に基づいて第２の動画を確定することと、を含んでもよい。

【0036】

そのような実施例では、ラベル信頼性は満たさない時、境界に対する細粒度調整を行うことができる。具体的には、境界におけるセグメントが信頼度要求を満たさないと仮定し（本当の歌唱であるか否かを正確に確定できない）、このような場面の出現は、従来のセグメント粒度は、長さが大きすぎ、且つ、混合場面をカバーするためであるかもしれない。例えば、セグメント長さが３秒間であり、実に前の二秒間に発話していることと次の一秒間に歌唱していることをカバーすると仮定する。このような場合、境界調整量を確定するために２回目の境界確認を行う必要があり（例えば、一秒間の歌唱のみをカバーするように調整される）、よって、より正確な境界を取得する。

【0037】

いくつかの実施例によれば、複数のセグメントにおける各セグメントは第１の長さを有してもよく、歌唱セグメントセットの境界調整量を確定することは、開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、被調整セグメントに関連する２つの調整セグメントを取得し、２つの調整セグメントの各調整セグメントは第１の長さを有し、２つの調整セグメントが第１調整タイミングに隣接し、第１調整タイミングは被調整セグメント期間に収まることと、２つの調整セグメントにそれぞれラベルを確定し、各ラベルは第１のラベル、第２のラベル、第３のラベルと第４のラベルのうちの１つから選択されることと、２つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、歌唱セグメントセットの境界調整量を確定することで歌唱セグメントセットの対応境界を第１調整タイミングに調整することと、を含んでもよい。

【0038】

１つの非限定的な実例として、第１の長さが３ｓであり、すなわち、各セグメント長さが３ｓであると仮定する。元々の境界を時刻０と記し、境界セグメント（開始境界セグメントであると仮定する）の時間長さは［０，３］と表記し、例えば、長さが３ｓ、ステップサイズが１ｓであるタイムウインドウを利用して境界セグメント近傍で分割を行い、又は他の方式で分割してもよく、２つの関連する調整セグメントを生成することができ、［－２，１］と［－１，２］それぞれと表記する。その後、２つの調整セグメントに対してラベル分類をそれぞれ行う。例えば、第２の調整セグメント［－１，２］が歌唱又は背景音楽であり、第１の調整セグメント［－２，１］は発話又は他の場面であると確定する場合、更新された境界がｔ＝－１と考えられてもよく、よって、より細い境界粒度を実現する。理解すべきことは、以上はいずれも実例であり、当業者であれば想到できる他のセグメント長さ、ステップサイズ、分割方式、粒度などは、いずれも本開示の実施例の方法を実現するために使用することができることである。

【0039】

いくつかの実施例によれば、境界条件は、被調整セグメント関連が開始セグメントであると確定したことに応答して、２つの調整セグメントにおける前の調整セグメントは第２のラベル又は第４のラベルを有し、次の調整セグメントは第１のラベル又は第３のラベルを有することと、被調整セグメント関連が終了セグメントであると確定したことに応答して、２つの調整セグメントにおける前の調整セグメントは第１のラベル又は第３のラベルを有し、次の調整セグメントは第２のラベル又は第４のラベルを有することと、の少なくとも１つを含んでもよい。換言すると、境界条件は、信頼度が不十分である時、境界オーディオに対する細粒度分割を行い、更新された境界を取得することを含んでもよい。例えば、現在粒度のセグメントにおいて、前の一秒間に発話し、後の二秒間に歌唱するなどの可能性がある。

【0040】

更に、ラベルが第３のラベルであるすなわち、「背景音楽」の調整セグメントを、更新された境界に含めることができ、すなわち、背景音楽に対する適切な拡張を行うことができる。１つの具体的且つ非限定的な例として、境界セグメント（依然として長さを３秒に設定する）中の二秒間は背景音楽を含み、残った一秒間は「他の場面」である時に、この二秒間の背景音楽をその中に含めて歌唱セグメントのイントロ又はアウトロへの拡大としてもよいが、他のタイプ例えば、第２のラベルと第４のラベルのセグメントに対して、拡大しない。

【0041】

いくつかの実施例によれば、複数のセグメントにそれぞれ対応する複数のラベルを確定することは、複数のセグメントにおける各セグメントに対し、第１のラベル、第２のラベル、第３のラベルと第４のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定することを含んでもよい。そのような実施例では、セグメントの信頼度要求は、セグメントの第１のラベルの信頼度と第２のラベルの信頼度との差が第１の閾値より大きいこと、又は、セグメントの第１のラベルの信頼度と第４のラベルの信頼度との差が第２の閾値より大きいことの少なくとも１つを含んでもよい。信頼度要求は、２種類のラベルの信頼度の差異が小さいことを含んでもよく、この場合、混合場面、例えば、前の二秒間に発話していることと次の一秒間に歌唱していることなどをカバーすると考えられる。理解すべきことは、以上は実例に過ぎず、本開示は、これに限定されないことである。

【0042】

いくつかの実施例によれば、複数のセグメントにそれぞれ対応する複数のラベルを確定することは、複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定することを含んでもよい。

【0043】

これにより、オーディオと画面という両方の特徴に基づいて、歌唱／発話／背景音楽などであるか否かを確定することができる。オーディオ特徴抽出はメルスペクトラムに基づくオーディオイベント特徴抽出であってもよく、例えば、局所（ｌｏｃａｌ）特徴のｂｏｔｔｏｍ－ｕｐ方法に基づいてオーディオの特徴抽出を行ってもよい。更に、キャスタが歌を再生しているが、本人が歌唱していない場面を識別するために、オーディオ情報の他には更に、動画における画像情報を利用して更なる特徴抽出と分類を行うことができる。

【0044】

いくつかの実施例によれば、画面特徴は顔特徴と唇領域の時系列特徴を含んでもよい。顔によってキャスタは画面にいるか否かを確定することができ、キャスタが画面から離れたが、オーディオを再生する状況を回避するために用いられ、唇動作特徴はキャスタ本人が歌唱しているか、歌を再生しているかなどの状況を識別することができる。これにより、より正確なラベルを取得し、更により正確な境界を取得することができる。

【0045】

以下、図３に合わせて本開示の一実施例による、ラベル確定と特徴抽出の例示的な実施形態におけるデータストリームの概略図を説明する。
第１の動画３１０を複数の同じ長さ（例えば、３ｓ）であるセグメントに分割する。情報量の豊富さと必要な正確性粒度を考慮することで長さを選択することができる。例えば、長い動画セグメントはより多くの情報量を含み、短い動画セグメントは、開始点から選択する時、時間粒度がより正確であるため、ニーズに応じて、例えば、０．５ｓ、１ｓ、３ｓ、５ｓ、１０ｓなどが確定されてよく、本開示は、これに限定されない。動画フレームデータすなわち、画面データ３１２とオーディオデータ３１４をそれぞれ取得する。

【0046】

画面データ３１２に対し、例えば、１秒毎に１フレーム又は他の頻度に応じて抽出を行って画像を取得することができる。その後、画像を顔特徴抽出部３２０、例えば、ＣＮＮ又は他のニューラルネットワークに入力する。顔特徴抽出部３２０は顔特徴を出力することができ、抽出された顔特徴は、キャスタが画面にいるか否かを判断するために用いられてよく、キャスタが画面から離れているが、オーディオが再生されている状況を回避するために用いられる。顔特徴抽出部３２０は、マルチタスク畳み込みニューラルネットワーク（Ｍｕｌｔｉ－ｔａｓｋｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＭＴＣＮＮ）であってもよいし、それを含んでもよいが、本開示は、これに限定されない。

【0047】

顔特徴抽出部３２０は更に、顔のキーポイントにおける唇部の特徴の領域位置を出力してもよい。唇部の特徴を唇部時系列特徴抽出部３３０に出力する。唇部時系列特徴抽出部３３０は顔の唇部領域の特徴に対する時系列の重合を行い、唇動作の特徴を抽出する。該特徴によって動画におけるキャスタが歌唱しているか否かを識別することができ、よって、キャスタ本人が歌唱しているか、歌を再生しているかなどの状況を識別するために用いられる。唇部時系列特徴抽出部３３０は、時間セグメントネットワーク（ＴｅｍｐｏｒａｌＳｅｇｍｅｎｔＮｅｔｗｏｒｋｓ、ＴＳＮ）であってもよいし、それを含んでもよいが、本開示は、これに限定されない。

【0048】

オーディオデータ３１２に対し、メルスペクトラム特徴を抽出して画像情報への変換を行った後、オーディオ特徴抽出３４０を利用し、例えば、ニューラルネットワーク（例えば、ＣＮＮ）でオーディオ特徴抽出を行う。

【0049】

抽出された顔、唇部とオーディオ特徴を特徴融合部３５０に入力し、音声の特徴、顔特徴、唇動作特徴に対する重合を行うために用いられ、例えば、特徴に対する結合（ｃｏｎｃａｔ）を行う。その後、分類ユニット３６０、例えば、長短期記憶ネットワーク（ＬＳＴＭ）、特に、特徴融合長短期記憶ネットワーク（ＦＦＬＳＴＭ）により各セグメントに対してラベル、すなわち分類結果３７０を確定した後、時系列に歌唱活動の開始時点、終了時点など、すなわち、本明細書に記載の歌唱セグメントセットをクラスタリングすることができる。

【0050】

後処理３８０は本明細書に記載の境界拡張、境界確認などのステップを含んでもよく、第２の動画の生成、レンダリングなどの当業者であれば公知の動画処理と動画編集ステップを含んでもよく、理解すべきことは、本開示は、これに限定されないことである。これにより、第２の動画３９０を取得することができる。

【0051】

理解すべきことは、図中は、分類部３６０、例えば分類ネットワークを示すが、本開示は、これに限定されないことである。例えば、顔特徴抽出部分３２０は顔特徴抽出と分類ネットワークを含んでもよく、顔特徴のキーポイント特徴を、唇部時系列特徴抽出と分類ネットワーク３４０に出力するために用いられ、顔分類結果を特徴融合部分３４０に出力する。同様に、唇部時系列特徴抽出とオーディオ特徴抽出部分はそれぞれ分類結果を含んでもよく、このような場合において、特徴融合部分３４０は３種類の分類結果を融合するだけで分類結果３７０を生成する。理解すべきことは、分類してから重合する場合や、特徴を重合してから分類する場合は、いずれも本開示に記載の実施例に使用されてもよく、本開示の実施例の方法は、当業者であれば理解できる、オーディオと画面特徴に基づいて分類する他の方法に適用されてもよく、ニューラルネットワークを使用せず分類を行う方法などのを含むことである。

【0052】

現在、図４を参照して本開示の実施例による動画編集装置４００を説明する。動画編集装置４００は、第１の動画取得ユニット４０１、セグメント取得ユニット４０２、ラベル確定ユニット４０３、セグメントセット確定ユニット４０４と第２の動画生成ユニット４０５を含んでもよい。

【0053】

第１の動画取得ユニット４０１は第１の動画を取得するために用いられてよい。セグメント取得ユニット４０２は第１の動画を分割して複数のセグメントを取得するために用いられてよい。ラベル確定ユニット４０３は、複数のセグメントにそれぞれ対応する複数のラベルを確定するために用いられてよく、複数のラベルにおける各ラベルは、第１のラベル、第２のラベル、第３のラベル又は第４のラベルのうちの１つから選択され、第１のラベルは歌唱のセグメントを指示し、第２のラベルは発話のセグメントを指示し、第３のラベルは背景音楽のセグメントを指示し、第４のラベルは、第１のラベル、第２のラベルと第３のラベルにいずれも対応しないセグメントを指示する。セグメントセット確定ユニット４０４は、複数のラベルに基づいて、複数のセグメントにおける連続的な２つ又は複数の、第１のラベルを備えるセグメントを含む歌唱セグメントセットを確定するために用いられてよい。第２の動画生成ユニット４０５は歌唱セグメントセットに基づいて第２の動画を生成するために用いられてよい。

【0054】

本開示の実施例による装置は、動画を正確に編集することで歌唱に関する動画を取得することができる。
いくつかの実施例によれば、第２の動画生成装置４０５は、歌唱セグメントセットが少なくとも１つの隣接する、第３のラベルを備えるセグメントを有すると確定したことに応答して、少なくとも１つの隣接する、第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットと、歌唱セグメントセットと拡張セグメントセットに基づいて第２の動画を生成するためのユニットと、を含んでもよい。

【0055】

いくつかの実施例によれば、少なくとも１つの隣接する、第３のラベルを備えるセグメントに基づいて拡張セグメントセットを確定するためのユニットは、複数のセグメントにおける、歌唱セグメントセットの開始セグメントの前のセグメントが第３のラベルを有することに応答して、第１セグメントを確定し、第１セグメントは複数のセグメントにおいて、開始セグメントの前にあり、第１セグメントは第３のラベルを有し、第１セグメントの前のセグメントは第４のラベルを有し、第１セグメントと開始セグメントの間にはラベルが第３のラベルでないセグメントが存在せず、第１セグメントから開始セグメントまでの２つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の操作を実行するユニットと、複数のセグメントにおける、歌唱セグメントセットの終了セグメントの次のセグメントが第３のラベルを有することに応答して、第２セグメントを確定し、第２セグメントは複数のセグメントにおいて終了セグメントの後にあり、第２セグメントは第３のラベルを有し、第２セグメントの次のセグメントは第４のラベルを有し、第２セグメントと終了セグメントの間にはラベルが第３のラベルでないセグメントが存在せず、終了セグメントから第２セグメントまでの２つ又は複数のセグメントを含む拡張セグメントセットを確定することと、の操作を実行するユニットと、の少なくとも１つを含んでもよい。

【0056】

いくつかの実施例によれば、第２の動画生成装置４０５は、歌唱セグメントセットの開始セグメントと終了セグメントのうちの少なくとも１つのセグメントが信頼度要求を満たさないと確定したことに応答して、歌唱セグメントセットの境界調整量を確定するためのユニットと、歌唱セグメントセットと境界調整量に基づいて第２の動画を確定するためのユニットと、を含んでもよい。

【0057】

いくつかの実施例によれば、複数のセグメントにおける各セグメントは第１の長さを有し、歌唱セグメントセットの境界調整量を確定するためのユニットは、開始セグメントと終了セグメントにおける信頼度要求を満たさないそれぞれの被調整セグメントに対し、被調整セグメントに関連する２つの調整セグメントを取得し、２つの調整セグメントの各調整セグメントは第１の長さを有し、２つの調整セグメントが第１調整タイミングに隣接し、第１調整タイミングは被調整セグメント期間に収まることと、２つの調整セグメントにそれぞれラベルを確定し、各ラベルは第１のラベル、第２のラベル、第３のラベルと第４のラベルのうちの１つから選択されることと、２つの調整セグメントにそれぞれ対応するラベルは境界条件を満たすことに応答して、歌唱セグメントセットの境界調整量を確定することで歌唱セグメントセットの対応境界を第１調整タイミングに調整することと、の操作を実行するユニットを含んでもよい。

【0058】

いくつかの実施例によれば、ラベル確定ユニット４０３は、複数のセグメントにおける各セグメントに対し、第１のラベル、第２のラベル、第３のラベルと第４のラベルにおける各ラベルに対して信頼度を確定し、信頼度が最も高いラベルを該セグメントのラベルに確定する操作を実行するユニットを含んでもよい。セグメントの信頼度要求は、セグメントの第１のラベルの信頼度と第２のラベルの信頼度との差は第１の閾値より大きいこと、又は、セグメントの第１のラベルの信頼度と第４のラベルの信頼度との差は第２の閾値より大きいことの少なくとも１つを含んでもよい。

【0059】

いくつかの実施例によれば、ラベル確定ユニット４０３は複数のセグメントにおける各セグメントに対し、該セグメントのオーディオ特徴と画面特徴に基づいてラベルを確定するためのユニットを含んでもよい。

【0060】

いくつかの実施例によれば、画面特徴は顔特徴と唇領域の時系列特徴を含んでもよい。
本開示の技術案において、関連するユーザ個人情報の収集、取得、記憶、使用、加工、伝送、提供と開示活用などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。

【0061】

本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図５に示すように、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器５００の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限しない。

【0062】

図５に示すように、電子機器５００は、計算ユニット５０１を含み、それはリードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。ＲＡＭ５０３において、更に電子機器５００を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット５０１、ＲＯＭ５０２およびＲＡＭ５０３はバス５０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース５０５も、バス５０４に接続される。

【0063】

電子機器５００における複数の部品はＩ／Ｏインターフェース５０５に接続され、入力ユニット５０６、出力ユニット５０７、記憶ユニット５０８及び通信ユニット５０９を含む。入力ユニット５０６は、電子機器５００に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット５０６は、入力された数字又は文字情報と、電子機器のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含んでもよいが、これらに限定されない。出力ユニット５０７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、映像／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット５０８は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット５０９は、電子機器５００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び／又はチップセット、例えば、ブルートゥース（登録商標）ＴＭ装置、８０２．１１装置、ＷｉＦｉ装置、ＷｉＭａｘ装置、セルラー通信装置及び／又は類似物を含んでもよいが、これらに限定されない。

【0064】

計算ユニット５０１は処理及びコンピューティング能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット５０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット５０１は上記内容で説明した各方法と処理、例えば方法２００及びその変形例などを実行する。例えば、いくつかの実施例において、方法２００及びその変形例などはコンピュータソフトウェアプログラムとして実現してよく、機械読み取り可能な媒体、例えば、記憶ユニット５０８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全てはＲＯＭ５０２及び／又は通信ユニット５０９を経由して電子機器５００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ５０３にロードされて計算ユニット５０１によって実行される時に、以上で説明される方法２００及びその変形例などの一つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット５０１は他のいかなる適切な方式で（例えば、ファームウェアにより）方法２００及びその変形例などを実行するように構成されてよい。

【0065】

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムに実施され、この一つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

【0066】

本開示の方法を実施するプログラムコードは一つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

【0067】

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

【0068】

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクションを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

【0069】

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

【0070】

コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。

【0071】

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載の各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

【0072】

本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施例又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版