特表2024-509873 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京搜狗科技▲發▼展有限公司の特許一覧

特表2024-509873ビデオ処理方法、装置、媒体、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-05

(54)【発明の名称】ビデオ処理方法、装置、媒体、及びコンピュータプログラム

(51)【国際特許分類】

H04N 21/854 20110101AFI20240227BHJP

G10L 13/00 20060101ALI20240227BHJP

G06T 19/00 20110101ALI20240227BHJP

【ＦＩ】

H04N21/854

G10L13/00 100Z

G06T19/00 A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023554305

(86)(22)【出願日】2022-08-30

(85)【翻訳文提出日】2023-09-05

(86)【国際出願番号】 CN2022115722

(87)【国際公開番号】W WO2023045716

(87)【国際公開日】2023-03-30

(31)【優先権主張番号】202111124169.4

(32)【優先日】2021-09-24

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】523338484

【氏名又は名称】北京搜狗科技▲發▼展有限公司

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】孟凡博

(72)【発明者】

【氏名】▲劉▼ 金▲鎖▼

(72)【発明者】

【氏名】朱 ▲偉▼基

(72)【発明者】

【氏名】▲張▼ 永哲

(72)【発明者】

【氏名】▲豐▼ 添

【テーマコード（参考）】

5B050

5C164

【Ｆターム（参考）】

5B050BA09

5B050CA07

5B050DA04

5B050FA02

5B050FA10

5C164MA03S

5C164MC01P

5C164MC05S

5C164UC01S

(57)【要約】

ビデオ処理方法、装置、媒体、及びプログラム製品であって、そのうち、方法は、具体的に、第１ビデオセグメントを取得するステップであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得るステップと、を含む。本願の実施例は、ビデオの処理効率を向上させることができる。

【特許請求の範囲】

【請求項1】

ビデオ処理方法であって、電子機器において実行され、前記方法は、
第１ビデオセグメントを取得するステップであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得るステップと、を含む、ビデオ処理方法。

【請求項2】

前記方法は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成するステップであって、前記ポーズ情報は、所定時間の音声ポーズを示す、ステップと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第１ビデオセグメントを切り取るステップと、をさらに含む、請求項１に記載の方法。

【請求項3】

前記ビデオサブセグメントの画像において、仮想オブジェクトは、話さない状態にあることを特徴とする、請求項１に記載の方法。

【請求項4】

前記ビデオサブセグメントは、ポーズ処理を経た後に得られたサブセグメントであり、
前記ビデオサブセグメントに対するポーズ処理は、
前記第１ビデオセグメントにおける前記境界位置に対応する結合位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声がポーズになった音声信号サブセグメントを得るステップと、
前記第１ビデオセグメントの前記結合位置での画像サブシーケンス、及びターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、仮想オブジェクトが話さない状態にある前記画像サブシーケンスを得るステップであって、前記ターゲット状態特徴は、仮想オブジェクトが話さない状態にある特徴を示す、ステップと、を含むことを特徴とする、請求項１～３のいずれか１項に記載の方法。

【請求項5】

前記処理すべき変数テキストに対応する第２ビデオセグメントを生成する前記ステップは、
前記第１テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定するステップであって、前記画像パラメータは、前記第１テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、ステップと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出するステップと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、を含む、請求項１～３のいずれか１項に記載の方法。

【請求項6】

前記処理すべき変数テキストに対応する第２ビデオセグメントを生成する前記ステップは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させるステップと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、を含む、請求項１～３のいずれか１項に記載の方法。

【請求項7】

前記第１ビデオセグメントは、第１音声セグメントを含み、前記第２ビデオセグメントは、第２音声セグメントを含み、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合する前記ステップは、
第１音声セグメント、及び第２音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うステップと、
平滑化処理後の第１音声セグメントと平滑化処理後の第２音声セグメントとを結合するステップと、を含む、請求項１～３のいずれか１項に記載の方法。

【請求項8】

前記ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含み、
処理すべき変数テキストに対応する第２ビデオセグメントを生成する前記ステップは、
処理すべき変数テキストに対応するターゲット動画像シーケンスを生成するステップと、
予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定するステップと、
前記ターゲット動画像シーケンスと前記ターゲット背景画像シーケンスとを融合させることで、前記処理すべき変数テキストに対応する第２ビデオセグメントを得るステップと、を含む、請求項１～３のいずれか１項に記載の方法。

【請求項9】

前記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、前記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする、請求項８に記載の方法。

【請求項10】

予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定する前記ステップは、
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数とマッチングする状況下で、前記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定するステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも大きい状況下で、前記予め設定した背景画像シーケンスの中から中間位置にある第１背景画像を廃棄するステップであって、少なくとも２フレームの第１背景画像を廃棄する状況下で、少なくとも２フレームの第１背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布している、ステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも小さい状況下で、前記予め設定した背景画像シーケンスに第２背景画像を追加するステップを含む、請求項８に記載の方法。

【請求項11】

ビデオ処理装置であって、
第１ビデオセグメントを取得することに用いられる提供モジュールであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュールと、
前記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる生成モジュールと、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得ることに用いられる結合モジュールと、を含む、ビデオ処理装置。

【請求項12】

前記装置は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成することに用いられる予め設定したビデオ生成モジュールであって、前記ポーズ情報は、所定時間の音声ポーズを示す、予め設定したビデオ生成モジュールと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第１ビデオセグメントを切り取ることに用いられる切り取りモジュールと、をさらに含む、請求項９に記載の装置。

【請求項13】

前記生成モジュールは、
前記第１テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定することに用いられるパラメータ決定モジュールであって、前記画像パラメータは、前記第１テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出することに用いられるパラメータ抽出モジュールと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる第１セグメント生成モジュールと、を含む、請求項９又は１０に記載の装置。

【請求項14】

前記生成モジュールは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることに用いられる第１平滑化処理モジュールと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる第２セグメント生成モジュールと、を含む、請求項９又は１０に記載の装置。

【請求項15】

前記第１ビデオセグメントは、第１音声セグメントを含み、前記第２ビデオセグメントは、第２音声セグメントを含み、
前記結合モジュールは、
第１音声セグメント、及び第２音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うことに用いられる第２平滑化処理モジュールと、
平滑化処理後の第１音声セグメントと平滑化処理後の第２音声セグメントとを結合することに用いられる平滑後結合モジュールと、を含む、請求項９又は１０に記載の装置。

【請求項16】

ビデオ処理に用いられる装置であって、メモリと、１つ、又は１つ以上のプログラムと、を含み、１つ、又は１つ以上のプログラムは、メモリに記憶され、前記プログラムは、１つ、又は１つ以上のプロセッサによって実行されるときに、請求項１～１０のいずれか１項に記載の方法のステップを実現する、ビデオ処理に用いられる装置。

【請求項17】

機械可読媒体であって、それにおいてコマンドが記憶されており、１つ、又は複数のプロセッサによって実行されるときに、装置に請求項１～１０の１つ、又は複数に記載のビデオ処理方法を実行させる、機械可読媒体。

【請求項18】

コンピュータプログラム製品であって、該プログラム製品は、コンピュータコマンドを含み、該コンピュータコマンドは、コンピュータ可読記憶媒体に記憶され、プロセッサは、該コンピュータコマンドを実行するときに、プロセッサは、請求項１～１０のいずれか１項に記載の方法を実行する、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、通信技術分野に関し、特にビデオ処理方法、装置、媒体、及びプログラム製品に関する。

【0002】

本願は、２０２１年９月２４日に中国特許局に提出された、出願番号が第２０２１１１１２４１６９．４号であり、出願の名称が「ビデオ処理方法、装置、及び媒体」である中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。

【背景技術】

【0003】

通信技術の発展に伴い、仮想オブジェクトは、アナウンスシーン、教育シーン、医療シーン、及びカスタマーサービスシーン等の応用シーンに広く応用することができる。これらの応用シーンにおいて、仮想オブジェクトは、通常、テキストを表現する必要があり、それに対応して、仮想オブジェクトに対応するビデオを生成し、かつ再生することができる。該ビデオは、仮想オブジェクトがテキストを表現する過程を表すことができる。ビデオの生成過程は、通常、音声生成プロセス、及び画像シーケンス生成プロセスを含む。そのうち、音声生成プロセスは、通常、音声合成技術を用いる。画像シーケンス生成プロセスは、通常、画像処理技術を用いる。

【0004】

発明者は、本願の実施例を実施する過程で、関連技術が完全なテキストに対して、対応する完全なビデオを生成すると、通常は多くの時間コストがかかることになり、ビデオの処理効率が比較的低くなることを引き起こすことを見出した。

【発明の概要】

【発明が解決しようとする課題】

【0005】

ビデオの処理効率をどのように向上させるかは、当業者が解決する必要がある技術的課題である。上記課題に鑑みて、本願の実施例は、上記課題を解消し、又は上記課題を少なくとも部分的に解決するビデオ処理方法、装置、媒体、及びプログラム製品を提案する。

【課題を解決するための手段】

【0006】

上記課題を解決するために、本願は、ビデオ処理方法を開示し、電子機器において実行され、前記方法は、
第１ビデオセグメントを取得するステップであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得るステップと、を含む。

【0007】

他の態様では、本願は、ビデオ処理装置を開示し、
第１ビデオセグメントを取得することに用いられる提供モジュールであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュールと、
前記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる生成モジュールと、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得ることに用いられる結合モジュールと、を含む。

【0008】

さらなる態様では、本願は、ビデオ処理に用いられる装置を開示し、メモリと、１つ、又は１つ以上のプログラムと、を含み、そのうち、１つ、又は１つ以上のプログラムは、メモリに記憶され、前記プログラムは、１つ、又は１つ以上のプロセッサによって実行されるときに、前記方法のステップを実現する。

【0009】

別の態様では、本願の実施例は、１つ、又は複数の機械可読媒体を開示し、それにおいてコマンドが記憶されており、１つ、又は複数のプロセッサによって実行されるときに、装置に前記１つ、又は複数の方法を実行させる。

【0010】

別の態様では、本願の実施例は、コンピュータプログラム製品を開示し、該プログラム製品は、コンピュータコマンドを含み、該コンピュータコマンドは、コンピュータ可読記憶媒体に記憶され、プロセッサは、該コンピュータコマンドを実行するときに、プロセッサは、本願の実施例のビデオ処理方法を実行する。

【図面の簡単な説明】

【0011】

【図1A】本願の実施例に係る応用シーンの模式図を示す。

【図1B】本願の実施例のビデオ処理方法のフローチャートである。

【図2】本願の実施例のビデオ処理方法のフローチャートである。

【図3】本願の実施例のビデオ処理装置の構造ブロック図である。

【図4】本願の実施例のビデオ処理に用いられる装置の構造ブロック図である。

【図5】本願のいくつかの実施例におけるサーバ端末の構造ブロック図である。

【発明を実施するための形態】

【0012】

本願の上記目的、特徴、及び利点をより明確で理解しやすくするために、以下、図面、及び具体的な実施形態を組み合わせて本願をさらに詳細に説明する。

【0013】

本願の実施例において、仮想オブジェクトは、オブジェクトモデリング、及びモーションキャプチャ等の技術により得られた、鮮明で自然であり、実際のオブジェクトに近い仮想オブジェクトであり、音声識別、及び自然言語理解等の人工知能技術により、仮想オブジェクトに認知、又は理解、又は表現等の能力を持たせることができる。仮想オブジェクトは、具体的に仮想人物、又は仮想動物、又は２次元の漫画オブジェクト、又は３次元の漫画オブジェクト等を含む。

【0014】

例えば、アナウンスシーンにおいて、仮想オブジェクトは、例えばメディア関係者の代わりにニュースのアナウンス、又はゲームの解説等を行うことができる。また例えば、医療シーンにおいて、仮想オブジェクトは、例えば医療従事者の代わりに医学的指導等を行うことができる。

【0015】

具体的な実現において、仮想オブジェクトは、テキストを表現することができる。本願の実施例は、テキスト、及び仮想オブジェクトに対応するビデオを生成することができる。該ビデオは、具体的にテキストに対応する音声シーケンス、及び音声シーケンスに対応する画像フレームシーケンスを含んでもよい。

【0016】

いくつかの応用シーンにおいて、生成すべきビデオのテキストは、具体的にテンプレートテキスト、及び変数テキストを含む。そのうち、テンプレートテキストは、相対的に固定されており、変数テキストは、通常、ユーザー入力等の予め設定した要素に基づいて変化し得る。

【0017】

例えば、変数テキストは、ユーザー入力に基づいて決定されてもよい。医療シーンを例とすると、ユーザー入力に含まれる疾患名に基づいて、対応する変数テキストを決定することができる。選択可能に、変数テキストに対応するフィールドは、具体的に疾患名フィールド、食品種類フィールド、及び食材数フィールド等を含み、ユーザー入力に含まれる疾患名に基づいて、これらのフィールドを決定することができる。

【0018】

理解できるように、当業者は、実際の応用ニーズに応じて、テキストにおける変数テキストを決定することができるため、本願の実施例は、変数テキストの具体的な決定方式を制限しない。

【0019】

ビデオ品質が要件を満たすようにするために、関連技術は、変数テキストが変化する状況において、通常は、変化後の完全なテキストに対して、対応する完全なビデオを生成する。しかしながら、変化後の完全なテキストに対して、対応する完全なビデオを生成することは、通常は、より多くの時間コストがかかるようになり、ビデオの処理効率の低下を引き起こす。

【0020】

ビデオの処理効率をどのように向上させるかという技術的課題に対して、本願の実施例は、ビデオ処理の解決策を提供し、該解決策は、具体的に、第１ビデオセグメントを取得するステップであって、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ上記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、上記ビデオサブセグメントの位置は、上記テンプレートテキストと上記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応し、第１テキストは、テンプレートテキスト、及び処理すべき変数テキストを含む、ステップと、処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、該第１ビデオセグメントと該第２ビデオセグメントとを結合することで、第１テキストに対応するビデオを得るステップと、を含む。

【0021】

本願の実施例は、テンプレートテキストに対応する第１ビデオセグメントと、処理すべき変数テキストに対応する第２ビデオセグメントとを結合する。そのうち、第１ビデオセグメントは、予め保存されたビデオセグメントであってもよく、ビデオ処理過程で処理すべき変数テキストに対応する第２ビデオセグメントを生成することができる。処理すべき変数テキストの長さが完全なテキストの長さよりも小さいため、本願の実施例は、生成されるビデオの長さ、及び対応する時間コストを縮めることができ、従って、ビデオの処理効率を向上させることができる。

【0022】

さらに、本願の実施例の第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む。ここで、音声がポーズになった、とは、音声が停止していることを指し、例えば仮想オブジェクトが話さないことである。ビデオサブセグメントの位置は、テンプレートテキストと第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する。上記第１ビデオセグメントにおける音声がポーズになったビデオサブセグメントは、結合位置でのホッピング、又は振れの問題を解消することに寄与し、従って、結合位置での連続性を向上させることができる。

【0023】

本願の実施例が提供するビデオ処理方法は、クライアント端末、及びサーバ端末に対応する応用シーンに応用することができる。例えば、図１Ａは、本願の実施例に係る応用シーンの模式図を示す。クライアント端末、及びサーバ端末は、有線、又は無線ネットワークにあり、該有線、又は無線ネットワークにより、クライアント端末は、サーバ端末とデータのインタラクションを行う。

【0024】

クライアント端末、及びサーバ端末は、電子機器と総称されてもよい。クライアント端末は、例えば、スマートフォン、タブレットコンピュータ、電子ブックリーダー、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤー、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ラップトップポータブルコンピュータ、車載コンピュータ、デスクトップパソコン、セットトップボックス、スマートテレビ、及びウェアラブル機器等を含むが、これらに限定されない。サーバ端末は、例えばハードウェアが独立したサーバ、仮想サーバ、又はサーバクラスター等の機器である。

【0025】

クライアント端末とは、サーバ端末と対応し、ユーザーにローカルサービスを提供するプログラムを指す。本願の実施例におけるクライアント端末は、ユーザー入力を受信し、かつ該ユーザー入力に対応するビデオを提供することができる。該ビデオは、クライアント端末、又はサーバ端末によって生成されてもよく、本願の実施例は、ビデオの具体的な生成主体を制限しない。

【0026】

本願の１つの実施例において、クライアント端末は、ユーザー入力を受信し、かつサーバ端末にユーザー入力をアップロードすることで、サーバ端末にユーザー入力に対応するビデオを生成させることができる。サーバ端末は、ユーザー入力に基づいて処理すべき変数テキストを決定し、処理すべき変数テキストに対応する第２ビデオセグメントを生成し、かつ予め保存された第１ビデオセグメントと該第２ビデオセグメントとを結合することで、該テンプレートテキスト、及び該処理すべき変数テキストに対応するビデオを得ることができる。

【0027】

方法の実施例１

【0028】

図１Ｂに参照されるように、本願のビデオ処理方法のフローチャートを示しており、具体的には下記ステップを含んでもよい。ビデオ処理方法は、例えば電子機器によって実行されてもよい。

【0029】

ステップ１０１：第１ビデオセグメントを取得し、第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、ビデオサブセグメントの位置は、テンプレートテキストと第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する。

【0030】

ステップ１０２：処理すべき変数テキストに対応する第２ビデオセグメントを生成する。

【0031】

ステップ１０３：該第１ビデオセグメントと該第２ビデオセグメントとを結合することで、第１テキストに対応するビデオを得る。

【0032】

１つの実施例において、ステップ１０１では、テンプレートテキストに対応する第１ビデオセグメントを予め生成し、かつ保存することができる。第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む。ここで、音声がポーズになった、とは、音声が停止している、又は音声を一時的に出力しないことを指す。音声がポーズになったビデオサブセグメントは、音声がないビデオサブセグメントであると見なされてもよい。ビデオサブセグメントの位置は、テンプレートテキストと第１テキストにおける処理すべき変数テキストとの間の境界位置に対応し、該ビデオサブセグメントは、結合位置での連続性を向上させることができる。

【0033】

本願の実施例のテキストの構造は、具体的にテンプレートテキスト、及び変数テキストを含む。境界位置は、隣接するテンプレートテキストと変数テキストとを区分けすることに用いることができる。

【0034】

「＜糖尿病＞、及び＜果物＞の問題に関して、私はまだ研究しています。この＜糖尿病＞の食事アドバイスもあなたに役立つかもしれないと思いますが、それに約＜１８００＞種類の食材の推奨、及び禁忌が含まれるため、クリックしてご確認ください」というテキストＡを例とすると、テキストＡに複数の境界位置が存在する。例えば、テンプレートテキスト「に関しては」と変数テキスト「＜糖尿病＞」との間に対応して境界位置があり、変数テキスト「＜糖尿病＞」とテンプレートテキスト「及び」との間に対応して境界位置があり、テンプレートテキスト「及び」と変数テキスト「＜果物＞」との間に対応して境界位置があり、変数テキスト「＜果物＞」とテンプレートテキスト「の」との間に対応して境界位置がある、等である。

【0035】

１つの実施形態において、第１ビデオセグメントの決定過程は、テンプレートテキスト、予め設定した変数テキスト、及び対応する境界位置でのポーズ情報に基づいて、予め設定したビデオを生成するステップと、上記予め設定したビデオの中から上記テンプレートテキストに対応する第１ビデオセグメントを切り取るステップと、を含んでもよい。

【0036】

そのうち、予め設定した変数テキストは、任意の変数テキストであってもよく、又は予め設定した変数テキストは、変数テキストの任意の実例であってもよい。

【0037】

本願の実施例は、テンプレートテキスト、及び予め設定した変数テキストに対応する予め設定した完全なテキストに基づいて、予め設定したビデオを生成することができ、そのうち、予め設定したビデオの生成過程で境界位置でのポーズ情報を考慮してもよい。ポーズ情報は、例えば所定時間の音声ポーズを示す。

【0038】

実際の応用において、予め設定したビデオは、音声部分に対応する予め設定した音声、及び画像部分に対応する予め設定した画像シーケンスを含んでもよい。

【0039】

具体的な実現において、ＴＴＳ（音声合成、ＴｅｘｔＴｏＳｐｅｅｃｈ）技術を利用し、予め設定した完全なテキストを予め設定した音声に変換することができる。予め設定した音声は、波形の形式として表すことができる。

【0040】

本願の実施例の予め設定した完全なテキストを予め設定した音声に変換することは、具体的には、言語分析プロセス、及び音響的システムプロセスを含む。そのうち、言語分析プロセスは、予め設定した完全なテキスト、及びその対応するポーズ情報に基づいて、対応する言語的情報を生成することに用いられ、音響的システムプロセスは、主に音声分析プロセスから提供された言語的情報に基づいて、対応する予め設定した音声を生成し、発音の機能を実現する。

【0041】

１つの実施形態において、言語分析プロセスの処理は、具体的にテキスト構造と言語の種類の判断、テキスト標準化、テキストから音素への変換、及び韻律予測を含んでもよい。言語的情報は、音声分析プロセスの結果であってもよい。

【0042】

そのうち、テキスト構造と言語の種類の判断は、予め設定した完全なテキストの言語の種類、例えば中国語、英語、チベット語、及びウイグル語等の言語の種類を判断し、かつ対応する言語の種類の文法規則に基づいて、予め設定した完全なテキストを語句に分割し、かつ分割した語句を後の処理モジュールに伝送することに用いられる。

【0043】

テキスト標準化は、設定された規則に基づいて、分割された語句を標準化することに用いられる。

【0044】

テキストから音素への変換は、語句に対応する音素特徴を決定することに用いられる。

【0045】

人間が言語を表現するときに、通常、語気、及び感情を持っているため、音声合成の目的は、一般的には実際の人の声を模倣することであり、従って、韻律予測は、語句のどこにポーズを必要とするか、どのくらいポーズになるか、どの文字や語を重く読む必要があるか、及びどの単語を軽く読む必要があるか等を決定することに用いることができ、さらに音の高低変化、及び抑揚を実現する。

【0046】

本願の実施例は、まず、韻律予測技術を利用し、韻律予測結果を決定し、次に、ポーズ情報に基づいて、韻律予測結果を更新することができる。

【0047】

テキストＡを例とすると、ポーズ情報は、テンプレートテキスト「に関しては」と変数テキスト「＜糖尿病＞」との間に加えられた、予め設定した時間のポーズ情報であってもよく、韻律予測結果を更新することは、具体的に、テンプレートテキスト「に関しては」の音素特徴「ｇｕａｎ」、「ｙｕ」と変数テキスト「＜糖尿病＞」の音素特徴「ｔａｎｇ」、「ｎｉａｏ」、「ｂｉｎｇ」との間に予め設定した時間のポーズ情報を加えることを含んでもよく、更新後の韻律予測結果は、「ｇｕａｎ」、「ｙｕ」、「Ｎミリ秒ポーズ」、「ｔａｎｇ」、「ｎｉａｏ」、「ｂｉｎｇ」等であってもよい。そのうち、Ｎは、０よりも大きい自然数であってもよく、Ｎの値は、当業者が実際の応用ニーズに応じて決定することができる。

【0048】

音響的システムプロセスは、音声合成パラメータに応じて、ニーズを満たす予め設定した音声を得ることができる。

【0049】

選択可能に、音声合成パラメータは、音色パラメータを含んでもよい。音色パラメータとは、異なる音の周波数が波形の面で現れる独特の特性を指してもよく、通常、異なる発音体は、異なる音色に対応しており、従って、音色パラメータに応じて、ターゲット発音体の音色とマッチングする音声シーケンスを得ることができる。ターゲット発音体は、ユーザーによって指定されてもよく、例えば、ターゲット発音体は、指定された医療従事者等であってもよい。実際の応用において、ターゲット発音体の予め設定した長さのオーディオに従って、ターゲット発音体の音色パラメータを得ることができる。

【0050】

画像部分に対応する予め設定した画像シーケンスは、仮想オブジェクト画像を基に得ることができ、言い換えれば、本願の実施例は、仮想オブジェクト画像に状態特徴を付与することで、予め設定した画像シーケンスを得ることができる。仮想オブジェクト画像は、ユーザーによって指定されてもよく、例えば、仮想オブジェクト画像は、有名人（例えば司会者）の画像であってもよい。

【0051】

上記状態特徴は、
表情特徴、
唇の特徴、及び
肢体特徴のうちの少なくとも一種を含んでもよい。

【0052】

表情は、感情、及び気持ちを表現し、顔に現れる情緒や感情を指してもよい。

【0053】

表情特徴は、通常、顔全体に対するものである。唇の特徴は、特に唇に対するものであってもよく、かつテキストのテキストコンテンツ、音声、及び発声方式等にいずれも関係があり、従って、予め設定した画像シーケンスに対応する表現の自然度を向上させることができる。

【0054】

肢体特徴は、頭、目、首、手、肘、腕、体、股、及び足等の人体部位の協調的な活動により人物の思想を伝え、イメージ的に感情や気持ちを伝えることができる。肢体特徴は、振り向くこと、肩をすくめること、及びジェスチャー等を含んでもよく、画像シーケンスに対応する表現の豊かさを向上させることができる。例えば、話すときに少なくとも１つの腕が自然に垂れ下がり、話さないときに少なくとも１つの腕が自然に腹部に置かれる等である。

【0055】

本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した完全なテキスト、及びポーズ情報に基づいて、画像パラメータを決定することができ、該画像パラメータは、仮想オブジェクトの状態特徴を表すことができ、かつ画像パラメータに基づいて画像部分に対応する予め設定した画像シーケンスを生成する。

【0056】

そのうち、画像パラメータは、ポーズ画像パラメータを含んでもよく、該ポーズ画像パラメータは、ポーズ情報に対応するポーズ状態特徴を表すことができる。言い換えれば、ポーズ画像パラメータは、仮想オブジェクトが話すことを停止するときに、仮想オブジェクトに現れる形体、及び表情等の面の状態特徴を示す。それに対応して、予め設定した画像シーケンスには、ポーズ状態特徴に対応する画像シーケンスを含んでもよい。例えば、ポーズ状態特徴は、中性的な表情、唇の閉鎖状態、及び腕下垂状態等を含んでもよい。

【0057】

予め設定した音声、及び予め設定した画像シーケンスを生成した後に、予め設定した音声と、予め設定した画像シーケンスとを融合させ、対応する予め設定したビデオを得ることができる。

【0058】

予め設定したビデオを得た後に、上記予め設定したビデオの中から上記テンプレートテキストに対応する第１ビデオセグメントを切り取ることができる。具体的には、予め設定した変数テキストの予め設定したビデオ内の開始位置、及び終了位置に基づいて、第１ビデオセグメントの切り取りを行うことができる。

【0059】

テキストＡを例とすると、予め設定した変数テキスト「＜糖尿病＞」のテキストにおけるスタート位置が予め設定したビデオ内の開始位置Ｔ１に対応し、予め設定した変数テキスト「＜糖尿病＞」の終了位置が予め設定したビデオ内の終了位置Ｔ２に対応すると仮定すれば、予め設定したビデオの中からＴ１の前のビデオセグメントを、テンプレートテキスト「に関しては」に対応する第１ビデオセグメントとして切り取ることができる。説明する必要がある点として、予め設定したビデオを生成する過程で境界位置でのポーズ情報を利用し、そのため、Ｔ１の前の第１ビデオセグメントにポーズ情報を有し（すなわち、第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む）、従って、後続の結合過程において結合位置での連続性を向上させることができる。

【0060】

テキストＡを例とすると、予め設定した変数テキスト「＜果物＞」のテキストにおける開始位置が予め設定したビデオ内の開始位置Ｔ３に対応し、予め設定した変数テキスト「＜果物＞」のテキストにおける開始位置が予め設定したビデオ内の終了位置Ｔ４に対応すると仮定すれば、予め設定したビデオの中からＴ２とＴ３との間のビデオセグメントを、テンプレートテキスト「及び」に対応する第１ビデオセグメントとしてト切り取ることができる。

【0061】

予め設定した完全なテキストにおけるテンプレートテキストが予め設定した変数テキストによって複数に区分けされるため、実際の応用において、予め設定したビデオの中から複数のテンプレートテキストに対応する第１ビデオセグメントをそれぞれ抽出することができる。

【0062】

理解できるように、予め設定したビデオを生成する上記過程で境界位置でのポーズ情報を利用することで、第１ビデオセグメントを取得するという取得方式は、単に選択可能な実施例であり、実際には、当業者は、さらに実際の応用ニーズに応じて、他の取得方式を用いてもよい。

【0063】

１つの実施例において、第１ビデオセグメントにおけるビデオサブセグメントは、音声がポーズになっただけでなく、ビデオサブセグメントの画像における仮想オブジェクトが話さない状態にある。

【0064】

１つの実施例において、上記ビデオサブセグメントは、ポーズ処理を経た後に得られたサブセグメントである。

【0065】

ビデオサブセグメントに対するポーズ処理は、
上記第１ビデオセグメントにおける上記境界位置に対応する結合位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声がポーズになった音声信号サブセグメントを得るステップと、
第１ビデオセグメントの結合位置での画像サブシーケンス、及びターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、仮想オブジェクトが話さない状態にある上記画像サブシーケンスを得るステップであって、そのうち、ターゲット状態特徴は、仮想オブジェクトが話さない状態にある特徴を示す、ステップと、を含む。このように、音声がポーズになった音声信号サブセグメントと、仮想オブジェクトが話さない状態にある画像サブシーケンスとは、上記ビデオサブセグメントを構成することができる。

【0066】

１つの実施例において、第１ビデオセグメントの一種の取得方式は、テンプレートテキスト、及び予め設定した変数テキストに基づいて、第１ビデオを生成するステップと、上記第１ビデオの中から上記テンプレートテキストに対応する第１ビデオセグメントを切り取るステップと、境界位置で上記第１ビデオセグメントに対してポーズ処理を行うステップと、を含んでもよい。

【0067】

音声部分のポーズ処理を例とすると、ビデオセグメントの境界位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声部分のポーズ処理を実現することができる。画像部分のポーズ処理を例とすると、ビデオセグメントの境界位置での画像サブシーケンス、及びポーズ情報に対応するターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、画像部分のポーズ処理を実現することができる。

【0068】

第１ビデオセグメントを取得した後に、第１ビデオセグメントを保存することで、変数テキストが変化する状況下で、第１ビデオセグメントと変化後の変数テキスト（以下、処理すべき変数テキストと略称される）に対応する第２ビデオセグメントとを結合することができる。

【0069】

ステップ１０２では、処理すべき変数テキストは、ユーザー入力に基づいて得ることができる。理解できるように、本願の実施例は、処理すべき変数テキストの具体的な決定方式を制限しない。

【0070】

本願の実施例は、処理すべき変数テキストに対応する第２ビデオセグメントを生成する技術的解決手段を以下のとおり提供することができる。

【0071】

技術的解決手段１

【0072】

技術的解決手段１において、処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップは、具体的に、第１テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定するステップであって、そのうち、画像パラメータは、上記第１テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、ステップと、上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出するステップと、ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、を含む。

【0073】

技術的解決手段１は、まず、処理すべき変数テキストが位置する語句を単位として、対応する音声パラメータ、及び画像パラメータを決定し、次に、音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。

【0074】

語句は、文法的に独立した１つの単位であり、それは、１つの単語、又は構文的につながる１組の単語で構成され、主張、疑問、命令、願望、又は感嘆を表現する。

【0075】

処理すべき変数テキストが単語に対応する状況下で、語句において、通常、テンプレートテキストが含まれ、処理すべき変数テキストも含まれる。語句に対応する音声パラメータ、及び画像パラメータが一定の連続性を有するため、その中から抽出された処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータと、語句におけるテンプレートテキストに対応する音声パラメータ、及び画像パラメータとは、一定の連続性を有し、これを基に、処理すべき変数テキストに対応する第２ビデオセグメントと、語句におけるテンプレートテキストに対応する第１ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。

【0076】

実際の応用において、音声パラメータは、音声合成に対応するパラメータを表すことができる。音声パラメータは、言語特徴、及び／又は音響的特徴を含んでもよい。

【0077】

言語特徴は、音素特徴を含んでもよい。音素は、音声の自然属性に基づいて分けられる最小の音声単位であり、音節における発声動作に従って分析すると、１つの動作は、１つの音素を構成する。音素は、母音、及び子音を含んでもよい。

【0078】

音響的特徴は、発音の角度から音声の特徴を表すことができる。

【0079】

音響的特徴は、
韻律的特徴（超分節的特徴／超言語的特徴）であって、具体的に時間関連特徴、基本周波数関連特徴、及びエネルギー関連特徴等を含む、韻律的特徴と、
音質特徴と、
スペクトルに基づく関連性分析特徴であって、それは、声道形状の変化と発音運動との間の関連性の体現であり、現状では、スペクトルに基づく関連特徴は、主に線形予測ケプストラム係数（ＬＰＣＣ、ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ）、及びメル周波数ケプストラム係数（ＭＦＣＣ、ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）等を含む、スペクトルに基づく関連性分析特徴と、を含んでもよいが、これらに限定されない。

【0080】

理解できるように、上記音声パラメータは、単に例であり、本願の実施例は、具体的な音声パラメータを制限しない。

【0081】

具体的な実現において、ターゲット音声パラメータに基づいて、処理すべき変数テキストに対して音声合成を行うことで、処理すべき変数テキストをターゲット音声に変換することができる。

【0082】

画像パラメータは、画像シーケンスの生成に対応するパラメータであってもよい。画像パラメータは、仮想オブジェクトに対応する状態特徴を決定することに用いることができ、又は画像パラメータは、仮想オブジェクトに対応する状態特徴を含んでもよい。例えば、画像パラメータは、唇の特徴を含んでもよい。

【0083】

具体的な実現において、仮想オブジェクト画像にターゲット画像パラメータに対応する状態特徴を付与することで、ターゲット画像シーケンスを得ることができる。ターゲット音声と、ターゲット画像シーケンスとを融合させ、第２ビデオセグメントを得ることができる。

【0084】

技術的解決手段２

【0085】

技術的解決手段２において、処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップは、具体的に、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、上記ターゲット画像パラメータと、上記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させるステップと、平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、を含む。

【0086】

技術的解決手段２は、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。予め設定した変数テキストの境界位置での予め設定した画像パラメータと、テンプレートテキストの境界位置での画像パラメータとが一定の連続性を有するため、上記平滑化処理は、平滑化処理後のターゲット画像パラメータと、テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることができ、これを基に、処理すべき変数テキストに対応する第２ビデオセグメントと、語句におけるテンプレートテキストに対応する第１ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。

【0087】

具体的な実現において、ハニングウインドウ等のウインドウ関数を利用して、予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことができる。理解できるように、本願の実施例は、具体的な平滑化処理の過程を制限しない。

【0088】

上記の説明によれば、本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した完全なテキスト、及びポーズ情報に基づいて、画像パラメータを決定することができ、本願の実施例は、画像パラメータの中から予め設定した変数テキストの境界位置での予め設定した画像パラメータを抽出し、かつ該予め設定した画像パラメータを保存することができる。

【0089】

テキストＡを例とすると、予め設定した変数テキスト「＜糖尿病＞」のスタート位置が予め設定したビデオ内の開始位置Ｔ１に対応し、予め設定した変数テキスト「＜糖尿病＞」のスタート位置が予め設定したビデオ内の終了位置Ｔ２に対応すると仮定すれば、Ｔ１からＴ２の間の画像パラメータを、予め設定した変数テキスト「＜糖尿病＞」の境界位置での予め設定した画像パラメータとして抽出することができる。

【0090】

技術的解決手段３

【0091】

技術的解決手段３において、ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含み、その場合、処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップは、具体的に、処理すべき変数テキストに対応するターゲット動画像シーケンスを生成するステップと、予め設定した背景画像シーケンスに基づいて、処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定するステップと、上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第２ビデオセグメントを得るステップと、を含む。

【0092】

実際の応用において、ビデオに対応する画像シーケンスを２つの部分に分解することができる。第１部分は、動画像シーケンスであり、仮想オブジェクトが表現するときに運動する部分を表すことに用いることができ、通常、唇、目、及び腕の部位等の予め設定した部位に対応する。第２部分は、背景画像シーケンスであり、仮想オブジェクトが表現するときに相対的に静止する部分を表すことに用いることができ、通常、予め設定した部位を除く部分に対応する。

【0093】

具体的な実現において、背景画像シーケンスは、プリセットして得るものであってもよい。例えば、予め設定した時間の予め設定した背景画像シーケンスをプリセットし、かつ画像シーケンスにおいて予め設定した背景画像シーケンスに対して循環配置（循環出現と呼ばれてもよい）を行うことができる。処理すべき変数テキストに対応するターゲット画像パラメータに基づいて、動画像シーケンスを生成することができる。

【0094】

実際の応用において、動画像シーケンスと背景画像シーケンスとを融合させることで、画像シーケンスを得ることができる。例えば、動画像シーケンスを背景画像シーケンスの上に貼り付けることで、画像シーケンスを得ることができる。

【0095】

技術的解決手段３は、変数テキストに対応する予め設定した背景画像シーケンスに基づいて、処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの間のマッチング度を向上させることができ、さらに処理すべき変数テキストに対応するターゲット背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとの間のマッチング度、及び連続性を向上させることができる。

【0096】

上記の説明によれば、本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を記録することができる。例えば、予め設定した背景画像シーケンスの情報は、予め設定した背景画像シーケンスの予め設定したビデオにおける開始フレーム識別子、及び終了フレーム識別子等を含んでもよい。例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号１００、及び終了フレーム番号１２５等を含んでもよい。

【0097】

１つの実施形態において、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの開始位置、又は終了位置でのマッチング度を向上させるために、上記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、上記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする。

【0098】

始まりの位置とは、開始位置を指してもよく、終わりの位置とは、終了位置を指してもよい。具体的には、ターゲット背景画像シーケンスの始まりの位置にある背景画像は、予め設定した背景画像シーケンスの始まりの位置にある背景画像とマッチングする。又はターゲット背景画像シーケンスの終わりの位置にある背景画像は、予め設定した背景画像シーケンスの終わりの位置にある背景画像とマッチングする。

【0099】

予め設定した背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとは、境界位置でマッチングし、及び連続しているため、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとが境界位置でマッチングする状況下で、ターゲット背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとの結合位置でのマッチング度、及び連続性を向上させることもできる。

【0100】

ターゲット背景画像シーケンスと、予め設定した背景画像シーケンスとが境界位置でマッチングすることを実現するために、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定することに用いられる上記決定方式は、具体的に以下の決定方式を含んでもよい。
決定方式１：予め設定した背景画像シーケンスに対応する画像の数Ｎ１がターゲット動画像シーケンスに対応する画像の数Ｎ２とマッチングする状況下で、上記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定し、又は
決定方式２：予め設定した背景画像シーケンスに対応する画像の数Ｎ１がターゲット動画像シーケンスに対応する画像の数Ｎ２よりも大きい状況下で、上記予め設定した背景画像シーケンスの中から中間位置にある第１背景画像を廃棄し、少なくとも２フレームの第１背景画像を廃棄する状況下で、少なくとも２フレームの第１背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布し、又は
決定方式３：予め設定した背景画像シーケンスに対応する画像の数Ｎ１がターゲット動画像シーケンスに対応する画像の数Ｎ２よりも小さい状況下で、予め設定した背景画像シーケンスを基に第２背景画像を追加する。

【0101】

決定方式１については、Ｎ１とＮ２とが等しい状況下で、予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。

【0102】

実際の応用において、処理すべき変数テキストに対応する音声時間情報に基づいて、ターゲット動画像シーケンスに対応する画像の数Ｎ２を決定することができる。該音声時間情報は、処理すべき変数テキストに対応する音声パラメータに基づいて決定されてもよく、又は該音声時間情報は、処理すべき変数テキストに対応する音声セグメントの時間に基づいて決定されてもよい。

【0103】

決定方式２については、Ｎ１がＮ２よりも大きい状況下で、予め設定した背景画像シーケンスの中から中間位置にある第１背景画像を廃棄し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。

【0104】

中間位置は、始まりの位置、又は終わりの位置と異なってもよい。かつ廃棄された少なくとも２フレームの第１背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布し、このように、連続的な背景画像を廃棄することによる背景画像の連続性が悪いという問題をある程度回避することができる。

【0105】

実際の応用において、第１背景画像の数は、Ｎ１とＮ２との差値とマッチングすることができる。例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号１００、及び終了フレーム番号１２５等を含んでもよく、Ｎ１の値は、２６であり、ターゲット動画像シーケンスに対応する画像の数Ｎ２が２４であると仮定すれば、予め設定した背景画像シーケンスの中から、中間位置にあり、かつ位置が不連続である２フレームの第１背景画像を廃棄することができる。

【0106】

決定方式３については、Ｎ１がＮ２よりも小さい状況下で、予め設定した背景画像シーケンスを基に第２背景画像を追加し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。

【0107】

本願の選択可能な実施例において、第２背景画像は、予め設定した背景画像シーケンスからのものであってもよく、言い換えれば、予め設定した背景画像シーケンスの中から追加すべき第２背景画像を決定することができる。

【0108】

１つの実施形態において、まず、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第１部分として決定し、次に、逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第２部分として決定し、続いて順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第３部分として決定することができ、そのうち、第３部分の終了フレームは、予め設定した背景画像シーケンスの終了フレームとマッチングする。

【0109】

例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号１００、及び終了フレーム番号１２５等を含んでもよく、Ｎ１の値は、２６であり、ターゲット動画像シーケンスに対応する画像の数Ｎ２が３０であると仮定すれば、ターゲット背景画像シーケンスの第１部分に対応するフレーム番号は、１００→１２５であってもよく、ターゲット背景画像シーケンスの第２部分に対応するフレーム番号は、１２５→１２４であってもよく、ターゲット背景画像シーケンスの第３部分に対応するフレーム番号は、１２４→１２５であってもよい。

【0110】

本願の他の選択可能な実施例において、第２背景画像は、予め設定した背景画像シーケンス以外の背景画像シーケンスからのものであってもよく、例えば、予め設定した背景画像シーケンスの後の背景画像シーケンスの中から第２背景画像を決定することができる。

【0111】

１つの実施形態において、まず、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第１部分として決定し、次に、順方向の順序に応じて、予め設定した背景画像シーケンスの後続の背景画像シーケンスをターゲット背景画像シーケンスの第２部分として決定し、続いて逆方向の順序に応じて、予め設定した背景画像シーケンスの後続の背景画像シーケンス、及び予め設定した背景画像シーケンスの終了フレームをターゲット背景画像シーケンスの第３部分として決定することができ、そのうち、第３部分の終了フレームは、予め設定した背景画像シーケンスの終了フレームとマッチングする。

【0112】

例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号１００、及び終了フレーム番号１２５等を含んでもよく、Ｎ１の値は、２６であり、ターゲット動画像シーケンスに対応する画像の数Ｎ２が３０であると仮定すれば、ターゲット背景画像シーケンスの第１部分に対応するフレーム番号は、１００→１２５であってもよく、ターゲット背景画像シーケンスの第２部分に対応するフレーム番号は、１２６→１２７であってもよく、ターゲット背景画像シーケンスの第３部分に対応するフレーム番号は、１２７→１２５であってもよい。

【0113】

理解できるように、予め設定した背景画像シーケンスを基に第２背景画像を追加する上記実現形態は、単に例であり、実際に、当業者は、実際の応用ニーズに応じて、他の実現形態を用いることができ、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現できる任意の実現形態は、いずれも本願の実施例の実現形態の保護範囲内に含まれる。

【0114】

例えば、他の実現形態において、さらに逆方向のターゲット背景画像シーケンスを決定してもよい。相応な決定過程は、まず、逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第１部分として決定するステップと、次に、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第２部分として決定するステップと、続いて逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第３部分として決定するステップと、を含んでもよく、そのうち、第３部分の開始フレームは、予め設定した背景画像シーケンスの開始フレームとマッチングする。

【0115】

例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号１００、及び終了フレーム番号１２５等を含んでもよく、Ｎ１の値は、２６であり、ターゲット動画像シーケンスに対応する画像の数Ｎ２が３０であると仮定すれば、ターゲット背景画像シーケンスの第１部分に対応するフレーム番号は、１２５→１００であってもよく、ターゲット背景画像シーケンスの第２部分に対応するフレーム番号は、１００→１０１であってもよく、ターゲット背景画像シーケンスの第３部分に対応するフレーム番号は、１０１→１００であってもよい。このような状況下で得られたターゲット背景画像シーケンスのフレーム番号は、１００→１０１→１０１→１００→１００→１２５であってもよい。

【0116】

以上、技術的解決手段１から技術的解決手段３により、処理すべき変数テキストに対応する第２ビデオセグメントを生成する過程を詳細に説明した。理解できるように、当業者は、実際の応用ニーズに応じて、技術的解決手段１から技術的解決手段３のうちのいずれか１つ、又はそれらの組み合わせを用いることができるが、本願の実施例は、処理すべき変数テキストに対応する第２ビデオセグメントを生成する具体的な過程を制限しない。

【0117】

ステップ１０３では、該第１ビデオセグメントと該第２ビデオセグメントとを結合することで、第１テキストに対応するビデオを得ることができる。

【0118】

本願の選択可能な実施例において、第１ビデオセグメントは、具体的に第１音声セグメントを含んでもよく、第２ビデオセグメントは、具体的に第２音声セグメントを含んでもよい。

【0119】

その場合、上記第１ビデオセグメントと上記第２ビデオセグメントとを結合する上記ステップは、具体的に、第１音声セグメント、及び第２音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うステップと、平滑化処理後の第１音声セグメントと平滑化処理後の第２音声セグメントとを結合するステップと、を含んでもよい。

【0120】

本願の実施例は、まず、第１音声セグメント、及び第２音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行い、次に、平滑化処理後の第１音声セグメントと平滑化処理後の第２音声セグメントとを結合する。上記平滑化処理は、平滑化処理後の第１音声セグメントと第２音声セグメントとの間の連続性を向上させることができ、従って、第１ビデオセグメントと第２ビデオセグメントとの結合位置での連続性を向上させることができる。

【0121】

実際の応用において、結合して得られたビデオを出力することができ、例えばユーザーに出力する。医療シーンを例とすると、ユーザー入力に含まれる疾患名に基づいて、対応する処理すべき変数テキストを決定し、図１Ｂに示される方法の実施例を利用し、ビデオを得て、かつユーザーに該ビデオを提供することができる。

【0122】

以上より、本願の実施例のビデオ処理方法は、テンプレートテキストに対応する第１ビデオセグメントと、処理すべき変数テキストに対応する第２ビデオセグメントとを結合する。そのうち、第１ビデオセグメントは、予め保存されたビデオセグメントであってもよく、ビデオ処理過程で処理すべき変数テキストに対応する第２ビデオセグメントを生成することができる。処理すべき変数テキストの長さが完全なテキストの長さよりも小さいため、本願の実施例は、生成されるビデオの長さ、及び対応する時間コストを縮めることができ、従って、ビデオの処理効率を向上させることができる。

【0123】

さらに、本願の実施例の第１ビデオセグメントは、テンプレートテキストと変数テキストとの間の境界位置に、ポーズ処理を経たビデオサブセグメントが設定される。上記ポーズ処理は、結合位置でのホッピング、又は振れの問題をある程度解消することができ、従って、結合位置での連続性を向上させることができる。

【0124】

方法の実施例２

【0125】

図２に参照されるように、本願の実施例のビデオ処理方法のフローチャートを示しており、具体的には下記ステップを含んでもよい。

【0126】

ステップ２０１：テンプレートテキスト、予め設定した変数テキスト、及び境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成し、ポーズ情報は、所定時間の音声ポーズを示す。

【0127】

ステップ２０２：上記予め設定したビデオの中から上記テンプレートテキストに対応する第１ビデオセグメントを切り取り、かつ第１ビデオセグメントを保存する。

【0128】

ステップ２０３：予め設定したビデオの情報に基づいて、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を保存する。

【0129】

ステップ２０１からステップ２０３は、生成された予め設定したビデオに基づいて、第１ビデオセグメント、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を予め保存することに用いることができる。

【0130】

ステップ２０４からステップ２１１は、予め保存された情報に基づいて、処理すべき変数テキストに対応する第２ビデオセグメントを生成し、かつ予め保存された第１ビデオセグメントと第２ビデオセグメントとを結合することに用いることができる。

【0131】

ステップ２０４：処理すべき変数テキストが位置する語句に対して、対応する音声パラメータ、及び画像パラメータを決定する。

【0132】

ステップ２０５：上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。

【0133】

ステップ２０６：予め設定した画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。

【0134】

ステップ２０７：ターゲット音声パラメータ、及び平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット動画像シーケンスを生成する。

【0135】

ステップ２０８：予め設定した背景画像シーケンスに基づいて、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定する。

【0136】

ステップ２０９：上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第２ビデオセグメントを得る。

【0137】

ステップ２１０：第１ビデオセグメントにおける第１音声セグメント、及び第２ビデオセグメントにおける第２音声セグメントの、それぞれ上記境界位置での音声サブセグメントに対して平滑化処理を行う。

【0138】

ステップ２１１：平滑化処理後の第１音声セグメント、及び平滑化処理後の第２音声セグメントに基づいて、第１ビデオセグメントと第２ビデオセグメントとを結合する。

【0139】

本願の応用例において、予め設定した完全なテキストが上記テキストＡであり、予め設定した変数テキストがテキストＡにおける「＜糖尿病＞」、「＜果物＞」、及び「＜１８００＞」等であると仮定すれば、テキストＡ、及び対応するポーズ情報に基づいて、予め設定したビデオを生成し、かつ予め設定したビデオにおける第１ビデオセグメント、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を保存することができる。

【0140】

実際の応用において、ユーザー入力等の要素は、変数テキストの変化をもたらす可能性がある。例えば、テキストＡが「＜冠状動脈性心臓病＞、及び＜野菜＞の問題に関しては、私はまだ研究しています。この＜冠状動脈性心臓病の食事アドバイスもあなたに役立つかもしれないと思いますが、それに約＜９００＞種類の食材の推奨、及び禁忌が含まれるため、クリックしてご確認ください」というテキストＢになった状況下で、処理すべき変数テキストは、テキストＢにおける「＜冠状動脈性心臓病＞」、「＜野菜＞」、及び「＜９００＞」等を含んでもよい。

【0141】

本願の実施例は、処理すべき変数テキストに対応する第２ビデオセグメントを生成することができる。例えば、まず、処理すべき変数テキストが位置する語句の音響的パラメータ、及び唇の特徴を決定し、次に、その中から処理すべき変数テキストに対応するターゲット音響的パラメータ、及びターゲット唇の特徴を抽出し、かつ処理すべき変数テキストに対応する音声セグメント、及びターゲット画像シーケンスをそれぞれ生成することができる。ターゲット画像シーケンスは、ターゲット動画像シーケンス、及びターゲット背景画像シーケンスを含んでもよい。

【0142】

ターゲット動画像シーケンスを生成する過程で、ステップ２０６を利用してターゲット唇の特徴に対して平滑化処理を行うことで、唇の特徴の結合位置での連続性を向上させることができる。

【0143】

ステップ２０８を利用し、ターゲット背景画像シーケンスを生成し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することで、背景画像シーケンスの結合位置での連続性を向上させることができる。

【0144】

第１ビデオセグメントと第２ビデオセグメントとを結合する前に、まず、第１ビデオセグメントにおける第１音声セグメント、及び第２ビデオセグメントにおける第２音声セグメントの、それぞれ上記境界位置での音声サブセグメントに対して平滑化処理を行い、次に、平滑化処理後の第１音声セグメント、及び平滑化処理後の第２音声セグメントに基づいて、第１ビデオセグメントと第２ビデオセグメントとを結合することができる。

【0145】

以上より、本願の実施例のビデオ処理方法は、第１ビデオセグメントの結合位置で予め設定した時間のポーズを加え、結合位置でのホッピング、又は振れの問題を解消することに寄与し、従って、結合位置での連続性を向上させることができる。

【0146】

かつ、本願の実施例は、処理すべき変数テキストが位置する語句を単位として、対応する音声パラメータ、及び画像パラメータを決定し、次に、音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。語句に対応する音声パラメータ、及び画像パラメータが一定の連続性を有するため、その中から抽出された処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータと、語句におけるテンプレートテキストに対応する音声パラメータ、及び画像パラメータとは、一定の連続性を有し、これを基に、処理すべき変数テキストに対応する第２ビデオセグメントと、語句におけるテンプレートテキストに対応する第１ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性をより向上させることができる。

【0147】

また、本願の実施例は、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。予め設定した変数テキストの境界位置での予め設定した画像パラメータと、テンプレートテキストの境界位置での画像パラメータとが一定の連続性を有するため、上記平滑化処理は、平滑化処理後のターゲット画像パラメータと、テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることができ、これを基に、処理すべき変数テキストに対応する第２ビデオセグメントと、語句におけるテンプレートテキストに対応する第１ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。

【0148】

なお、本願の実施例は、予め設定した背景画像シーケンスに基づいて、ターゲット背景画像シーケンスを生成し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することで、背景画像シーケンスの結合位置での連続性を向上させることができる。

【0149】

さらに、本願の実施例は、第１ビデオセグメントと第２ビデオセグメントとを結合する前に、第１ビデオセグメントにおける第１音声セグメント、及び第２ビデオセグメントにおける第２音声セグメントの、上記境界位置での音声サブセグメントに対して平滑化処理を行う。上記平滑化処理は、平滑化処理後の第１音声セグメントと第２音声セグメントとの間の連続性を向上させることができ、従って、第１ビデオセグメントと第２ビデオセグメントとの結合位置での連続性を向上させることができる。

【0150】

説明する必要がある点として、方法の実施例については、簡単に記述するために、一連の運動動作の組み合わせとして記載されているが、当業者であれば、本願の実施例によれば、あるステップは、他の順序を用いてもよく、又は同時に行ってもよいので、本願の実施例は、記述された運動動作の順序に制限されないことを知っているはずである。次に、当業者であれば、明細書に記述される実施例は、いずれも好適な実施例に属し、関連する運動動作は、必ずしも本願の実施例に必要なものではないことも知っているはずである。

【0151】

装置の実施例

【0152】

図３に参照されるように、本願のビデオ処理装置の実施例の構造ブロック図を示し、具体的に、
第１ビデオセグメントを取得することに用いられる提供モジュール３０１であって、上記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ上記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、上記ビデオサブセグメントの位置は、上記テンプレートテキストと上記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュール３０１と、
処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる生成モジュール３０２と、
上記第１ビデオセグメントと上記第２ビデオセグメントとを結合することで、上記第１テキストに対応するビデオを得ることに用いられる結合モジュール３０３と、を含んでもよい。

【0153】

選択可能に、上記装置は、
テンプレートテキスト、予め設定した変数テキスト、及び上記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成することに用いられる予め設定したビデオ生成モジュールであって、上記ポーズ情報は、所定時間の音声ポーズを示す、予め設定したビデオ生成モジュールと、
上記予め設定したビデオの中から上記テンプレートテキストに対応する第１ビデオセグメントを切り取ることに用いられる切り取りモジュールと、をさらに含んでもよい。

【0154】

選択可能に、生成モジュール３０２は、
上記第１テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定することに用いられるパラメータ決定モジュールであって、そのうち、上記画像パラメータは、上記第１テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、上記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、パラメータ決定モジュールと、
上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出することに用いられるパラメータ抽出モジュールと、
上記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる第１セグメント生成モジュールと、を含んでもよい。

【0155】

選択可能に、生成モジュール３０２は、
上記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、上記ターゲット画像パラメータと、上記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることに用いられる第１平滑化処理モジュールと、
平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第２ビデオセグメントを生成することに用いられる第２セグメント生成モジュールと、を含んでもよい。

【0156】

選択可能に、上記第１ビデオセグメントは、第１音声セグメントを含んでもよく、上記第２ビデオセグメントは、第２音声セグメントを含んでもよく、
結合モジュール３０３は、
第１音声セグメント、及び第２音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うことに用いられる第２平滑化処理モジュールと、
平滑化処理後の第１音声セグメントと平滑化処理後の第２音声セグメントとを結合することに用いられる平滑後結合モジュールと、を含んでもよい。

【0157】

選択可能に、上記ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含んでもよく、
生成モジュール３０２は、
処理すべき変数テキストに対応するターゲット動画像シーケンスを生成することに用いられる動画像シーケンス生成モジュールと、
予め設定した背景画像シーケンスに基づいて、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定することに用いられる背景画像シーケンス生成モジュールと、
上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第２ビデオセグメントを得ることに用いられる融合モジュールと、を含んでもよい。

【0158】

選択可能に、上記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、上記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする。

【0159】

選択可能に、上記背景画像シーケンス生成モジュールは、
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数とマッチングする状況下で、上記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定することに用いられる第１背景画像シーケンス生成モジュール、又は
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数よりも大きい状況下で、上記予め設定した背景画像シーケンスの中から中間位置にある第１背景画像を廃棄することに用いられる第２背景画像シーケンス生成モジュールであって、少なくとも２フレームの第１背景画像を廃棄する状況下で、少なくとも２フレームの第１背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布している、第２背景画像シーケンス生成モジュール、又は
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数よりも小さい状況下で、上記予め設定した背景画像シーケンスに第２背景画像を追加することに用いられる第３背景画像シーケンス生成モジュールを含んでもよい。

【0160】

装置の実施例については、方法の実施例と基本的に類似するため、記述は、比較的に簡単にしており、関連部分は方法の実施例の部分の説明を参照すればよい。

【0161】

本明細書における各実施例は、いずれも進歩的な方式で記述され、個々の実施例の説明焦点は、いずれも他の実施例と異なる点であり、各実施例の間の同様か類似する部分は、互いに参照すればよい。

【0162】

上記実施例における装置に関しては、各モジュールが操作を実行する具体的な方式は、該方法に関する実施例において詳細に記述されているため、ここで詳細な論述や説明を省略する。

【0163】

図４は、１つの例示的な実施例に基づいて示されるビデオ処理に用いられる装置９００の構造ブロック図である。例えば、装置９００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコントロールパネル、タブレット機器、医療機器、フィットネス機器、及びパーソナルデジタルアシスタント等であってもよい。

【0164】

図４に参照されるように、装置９００は、処理ユニット９０２、メモリ９０４、電源ユニット９０６、マルチメディアユニット９０８、オーディオユニット９１０、入力／出力（Ｉ／Ｏ）のインタフェース９１２、センサーユニット９１４、及び通信ユニット９１６の１つ、又は複数のユニットを含んでもよい。

【0165】

処理ユニット９０２は、通常、装置９００の全体操作、例えば表示、着信発呼、データ通信、カメラ操作、及び記録操作につながる操作を制御する。処理素子９０２は、コマンドを実行することで、上記方法の全部、又は一部のステップを完了する１つ、又は複数のプロセッサ９２０を含んでもよい。なお、処理ユニット９０２は、処理ユニット９０２と他のユニットとの間のインタラクションを容易にする１つ、又は複数のモジュールを含んでもよい。例えば、処理ユニット９０２は、マルチメディアユニット９０８と処理ユニット９０２との間のインタラクションを容易にするマルチメディアモジュールを含んでもよい。

【0166】

メモリ９０４は、各種タイプのデータを記憶することで機器９００での操作をサポートするように構成される。これらのデータの例は、装置９００において操作することに用いられるいかなるアプリケーションプログラム、又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、及びビデオ等を含む。メモリ９０４は、いずれのタイプの揮発性や不揮発性記憶機器、又はそれらの組み合わせによっても実現することができ、例えば、静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクが挙げられる。

【0167】

電源ユニット９０６は、装置９００の各種のユニットに電力を提供する。電源ユニット９０６は、電源管理システム、１つ、又は複数の電源、及び装置９００に電力を生成、管理や分配することにつながる他のユニットを含んでもよい。

【0168】

マルチメディアユニット９０８は、上記装置９００とユーザーとの間に１つの出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）、及びタッチパネル（ＴＰ）を含んでもよい。もしスクリーンがタッチパネルを含むなら、スクリーンは、タッチスクリーンとして実現されてもよく、それによってユーザーからの入力信号を受信する。タッチパネルは、タッチ、スライド、及びタッチパネル上のジェスチャーを検知する１つ、又は複数のタッチセンサーを含む。上記タッチセンサーは、タッチ、又はスライド運動動作の境界を検知するだけでなく、上記タッチ、又はスライド操作に関連する継続時間、及び圧力を検出することができる。いくつかの実施例において、マルチメディアユニット９０８は、１つのフロントカメラ、及び／又はリアカメラを含む。機器９００が操作モード、例えば撮影モード、又はビデオモードになるときに、フロントカメラ、及び／又はリアカメラは、周辺のマルチメディアデータを受信することができる。個々のフロントカメラ、及びリアカメラは、１つの固定された光学レンズシステムであってもよく、又は焦点距離、及び光学ズーム能力を有してもよい。

【0169】

オーディオユニット９１０は、オーディオ信号を出力、及び／又は入力するように構成される。例えば、オーディオユニット９１０は、１つのマイクロホン（ＭＩＣ）を含み、装置９００が操作モード、例えば発呼モード、記録モード、及び音声識別モードにあるときに、マイクロホンは、周辺のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ９０４に記憶されてもよく、又は通信ユニット９１６を経由して送信されてもよい。いくつかの実施例において、オーディオユニット９１０は、オーディオ信号を出力することに用いられる１つのスピーカをさらに含む。

【0170】

Ｉ／Ｏインタフェース９１２は、処理ユニット９０２と外部インタフェースモジュールとの間にインタフェースを提供し、上記外部インタフェースモジュールは、キーボード、クリックホイール、及びボタン等であってもよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン、及びロックボタンを含んでもよいが、これらに限定されない。

【0171】

センサーユニット９１４は、装置９００に様々な状態評価を提供することに用いられる１つ、又は複数のセンサーを含む。例えば、センサーユニット９１４は、機器９００のオン／オフ状態、及びユニットの相対的な位置決めを検出することができ、例えば上記ユニットは、装置９００のディスプレイ、及びキーパッドであり、センサーユニット９１４は、装置９００、又は装置９００の１つのユニットの位置変化、ユーザーと装置９００との接触の有無、装置９００の方位、又は加速／減速、及び装置９００の温度変化をさらに検出することができる。センサーユニット９１４は、なんら物理的接触がないときに近くの物体の存在を検出するために構成される近接センサーを含んでもよい。センサーユニット９１４は、画像形成アプリケーションにおいて用いられる光センサー、例えばＣＭＯＳ、又はＣＣＤ画像センサーをさらに含んでもよい。いくつかの実施例において、該センサーユニット９１４は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー、又は温度センサーをさらに含んでもよい。

【0172】

通信ユニット９１６は、装置９００と他の機器との間の有線、又は無線方式の通信を容易にするように構成される。装置９００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ、３Ｇ、又はそれらの組み合わせにアクセスすることができる。１つの例示的な実施例において、通信部材９１６は、放送チャネルを経由して周辺放送管理システムからの放送信号、又は放送関連情報を受信する。１つの例示的な実施例において、上記通信部材９１６は、短距離通信を促進するための近距離通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術、及び他の技術に基づいて実現することができる。

【0173】

例示的な実施例において、装置９００は、１つ、又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサー、又は他の電子素子によって実現することができ、上記方法を実行することに用いられる。

【0174】

例示的な実施例において、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えばコマンドを含むメモリ９０４をさらに提供し、上記コマンドは、装置９００のプロセッサ９２０によって実行されることで上記方法を完了することができる。例えば、上記非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、及び光データ記憶機器等であってもよい。

【0175】

図５は、本願のいくつかの実施例におけるサーバ端末の構造ブロック図である。該サーバ端末１９００は、構成、又は性能が異なることによってより大きい相違点を生み出すことができ、１つ、又は１つ以上の中央プロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）１９２２（例えば、１つ、又は１つ以上のプロセッサ）、メモリ１９３２、及びアプリケーションプログラム１９４２、又はデータ１９４４を記憶する１つ、又は１つ以上の記憶媒体１９３０（例えば１つ、又は１つ以上の大容量の記憶機器）を含んでもよい。そのうち、メモリ１９３２、及び記憶媒体１９３０は、一時的に記憶してもよく、永続的に記憶してもよい。記憶媒体１９３０に記憶されるプログラムは、１つ、又は１つ以上のモジュール（図示せず）を含んでもよく、個々のモジュールは、サーバ端末に対する一連のコマンド操作を含んでもよい。さらに、中央プロセッサ１９２２は、記憶媒体１９３０と通信し、サーバ端末１９００において記憶媒体１９３０における一連のコマンド操作を実行するように設定されてもよい。

【0176】

サーバ端末１９００は、１つ、又は１つ以上の電源１９２６、１つ、又は１つ以上の有線、又は無線ネットワークインタフェース１９５０、１つ、又は１つ以上の入出力インタフェース１９５８、１つ、又は１つ以上のキーボード１９５６、及び／又は１つ、又は１つ以上のオペレーティングシステム１９４１、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ等を含んでもよい。

【0177】

非一時的なコンピュータ可読記憶媒体であって、上記記憶媒体におけるコマンドが装置（機器、又はサーバ端末）のプロセッサによって実行されるときに、装置に本願の実施例に基づくビデオ処理方法を実行させることができる。

【0178】

当業者は、明細書を考慮し、及びここで開示されている発明を実践した後に、本願の他の実施形態を容易に想到する。本願は、本願のいかなる変形、用途、又は適応的変化をカバーすることを目的としており、これらの変形、用途、又は適応的変化は、本願の一般的な原理に準拠し、かつ本開示に開示されていない本技術分野における公知常識、又は慣用手段を含む。明細書、及び実施例は、単なる例示的なものと見なされ、本願の実際の範囲、及び精神は、以下の特許請求の範囲によって定められる。

【0179】

理解すべきであるように、本願は、上記で既に記述され、かつ図面に示される正確な構造に限定されず、かつその範囲を逸脱することなく各種の修正や変更を行うことができる。本願の範囲は、添付の特許請求の範囲のみによって制限される。

【0180】

以上は、本願の好ましい実施例に過ぎず、本願を制限するためのものではなく、本願の精神、及び原則内に行われたいかなる修正、均等物への置換、及び改良等は、いずれも本願の保護範囲内に含まれるべきである。

【0181】

以上は、本願の実施例が提供するビデオ処理方法、ビデオ処理装置、及びビデオ処理に用いられる装置を詳細に説明した。本明細書において具体的な例を応用して本願の原理、及び実施形態を論述し、以上の実施例の説明は、単に本願の方法、及びその中心思想の理解を助けることに用いられる。また、当業者にとっては、本願の思想に従って、具体的な実施形態、及び応用範囲において、いずれも変更することができることから、以上より本明細書の内容は、本願を制限するものではないと理解すべきである。

【符号の説明】

【0182】

３０１提供モジュール
３０２生成モジュール
３０３結合モジュール
９００装置
９００機器
９０４メモリ
９０６電源ユニット
９０８マルチメディアユニット
９１０オーディオユニット
９１２Ｉ／Ｏインタフェース
９１２インタフェース
９１４センサーユニット
９１６通信部材
９１６通信ユニット
９２０プロセッサ
１９００サーバ端末
１９２２中央プロセッサ
１９２６電源
１９３０記憶媒体
１９３２メモリ
１９４１オペレーティングシステム
１９４２アプリケーションプログラム
１９４４データ
１９５０無線ネットワークインタフェース
１９５６キーボード
１９５８入出力インタフェース

【図1A】

【図1B】

【図2】

【図3】

【図4】

【図5】

【手続補正書】

【提出日】2023-09-05

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ビデオ処理方法であって、電子機器によって実行され、前記方法は、
第１ビデオセグメントを取得するステップであって、前記第１ビデオセグメントは、生成すべきビデオの第１テキストにおけるテンプレートテキストに対応し、かつ前記第１ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第１テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第２ビデオセグメントを生成するステップと、
前記第１ビデオセグメントと前記第２ビデオセグメントとを結合することで、前記第１テキストに対応するビデオを得るステップと、を含む、ビデオ処理方法。

【請求項2】

【請求項3】

前記ビデオサブセグメントの画像において、仮想オブジェクトは、話さない状態にあることを特徴とする、請求項１に記載の方法。

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】