(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-05
(54)【発明の名称】ビデオ処理方法、装置、媒体、及びコンピュータプログラム
(51)【国際特許分類】
H04N 21/854 20110101AFI20240227BHJP
G10L 13/00 20060101ALI20240227BHJP
G06T 19/00 20110101ALI20240227BHJP
【FI】
H04N21/854
G10L13/00 100Z
G06T19/00 A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023554305
(86)(22)【出願日】2022-08-30
(85)【翻訳文提出日】2023-09-05
(86)【国際出願番号】 CN2022115722
(87)【国際公開番号】W WO2023045716
(87)【国際公開日】2023-03-30
(31)【優先権主張番号】202111124169.4
(32)【優先日】2021-09-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】523338484
【氏名又は名称】北京搜狗科技▲發▼展有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】孟 凡博
(72)【発明者】
【氏名】▲劉▼ 金▲鎖▼
(72)【発明者】
【氏名】朱 ▲偉▼基
(72)【発明者】
【氏名】▲張▼ 永哲
(72)【発明者】
【氏名】▲豐▼ 添
【テーマコード(参考)】
5B050
5C164
【Fターム(参考)】
5B050BA09
5B050CA07
5B050DA04
5B050FA02
5B050FA10
5C164MA03S
5C164MC01P
5C164MC05S
5C164UC01S
(57)【要約】
ビデオ処理方法、装置、媒体、及びプログラム製品であって、そのうち、方法は、具体的に、第1ビデオセグメントを取得するステップであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得るステップと、を含む。本願の実施例は、ビデオの処理効率を向上させることができる。
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、電子機器において実行され、前記方法は、
第1ビデオセグメントを取得するステップであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得るステップと、を含む、ビデオ処理方法。
【請求項2】
前記方法は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成するステップであって、前記ポーズ情報は、所定時間の音声ポーズを示す、ステップと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第1ビデオセグメントを切り取るステップと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記ビデオサブセグメントの画像において、仮想オブジェクトは、話さない状態にあることを特徴とする、請求項1に記載の方法。
【請求項4】
前記ビデオサブセグメントは、ポーズ処理を経た後に得られたサブセグメントであり、
前記ビデオサブセグメントに対するポーズ処理は、
前記第1ビデオセグメントにおける前記境界位置に対応する結合位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声がポーズになった音声信号サブセグメントを得るステップと、
前記第1ビデオセグメントの前記結合位置での画像サブシーケンス、及びターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、仮想オブジェクトが話さない状態にある前記画像サブシーケンスを得るステップであって、前記ターゲット状態特徴は、仮想オブジェクトが話さない状態にある特徴を示す、ステップと、を含むことを特徴とする、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
前記第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定するステップであって、前記画像パラメータは、前記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、ステップと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出するステップと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項6】
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させるステップと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項7】
前記第1ビデオセグメントは、第1音声セグメントを含み、前記第2ビデオセグメントは、第2音声セグメントを含み、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合する前記ステップは、
第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うステップと、
平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項8】
前記ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含み、
処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
処理すべき変数テキストに対応するターゲット動画像シーケンスを生成するステップと、
予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定するステップと、
前記ターゲット動画像シーケンスと前記ターゲット背景画像シーケンスとを融合させることで、前記処理すべき変数テキストに対応する第2ビデオセグメントを得るステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項9】
前記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、前記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする、請求項8に記載の方法。
【請求項10】
予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定する前記ステップは、
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数とマッチングする状況下で、前記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定するステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも大きい状況下で、前記予め設定した背景画像シーケンスの中から中間位置にある第1背景画像を廃棄するステップであって、少なくとも2フレームの第1背景画像を廃棄する状況下で、少なくとも2フレームの第1背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布している、ステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも小さい状況下で、前記予め設定した背景画像シーケンスに第2背景画像を追加するステップを含む、請求項8に記載の方法。
【請求項11】
ビデオ処理装置であって、
第1ビデオセグメントを取得することに用いられる提供モジュールであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュールと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる生成モジュールと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得ることに用いられる結合モジュールと、を含む、ビデオ処理装置。
【請求項12】
前記装置は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成することに用いられる予め設定したビデオ生成モジュールであって、前記ポーズ情報は、所定時間の音声ポーズを示す、予め設定したビデオ生成モジュールと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第1ビデオセグメントを切り取ることに用いられる切り取りモジュールと、をさらに含む、請求項9に記載の装置。
【請求項13】
前記生成モジュールは、
前記第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定することに用いられるパラメータ決定モジュールであって、前記画像パラメータは、前記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出することに用いられるパラメータ抽出モジュールと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第1セグメント生成モジュールと、を含む、請求項9又は10に記載の装置。
【請求項14】
前記生成モジュールは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることに用いられる第1平滑化処理モジュールと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第2セグメント生成モジュールと、を含む、請求項9又は10に記載の装置。
【請求項15】
前記第1ビデオセグメントは、第1音声セグメントを含み、前記第2ビデオセグメントは、第2音声セグメントを含み、
前記結合モジュールは、
第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うことに用いられる第2平滑化処理モジュールと、
平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合することに用いられる平滑後結合モジュールと、を含む、請求項9又は10に記載の装置。
【請求項16】
ビデオ処理に用いられる装置であって、メモリと、1つ、又は1つ以上のプログラムと、を含み、1つ、又は1つ以上のプログラムは、メモリに記憶され、前記プログラムは、1つ、又は1つ以上のプロセッサによって実行されるときに、請求項1~10のいずれか1項に記載の方法のステップを実現する、ビデオ処理に用いられる装置。
【請求項17】
機械可読媒体であって、それにおいてコマンドが記憶されており、1つ、又は複数のプロセッサによって実行されるときに、装置に請求項1~10の1つ、又は複数に記載のビデオ処理方法を実行させる、機械可読媒体。
【請求項18】
コンピュータプログラム製品であって、該プログラム製品は、コンピュータコマンドを含み、該コンピュータコマンドは、コンピュータ可読記憶媒体に記憶され、プロセッサは、該コンピュータコマンドを実行するときに、プロセッサは、請求項1~10のいずれか1項に記載の方法を実行する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、通信技術分野に関し、特にビデオ処理方法、装置、媒体、及びプログラム製品に関する。
【0002】
本願は、2021年9月24日に中国特許局に提出された、出願番号が第202111124169.4号であり、出願の名称が「ビデオ処理方法、装置、及び媒体」である中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。
【背景技術】
【0003】
通信技術の発展に伴い、仮想オブジェクトは、アナウンスシーン、教育シーン、医療シーン、及びカスタマーサービスシーン等の応用シーンに広く応用することができる。これらの応用シーンにおいて、仮想オブジェクトは、通常、テキストを表現する必要があり、それに対応して、仮想オブジェクトに対応するビデオを生成し、かつ再生することができる。該ビデオは、仮想オブジェクトがテキストを表現する過程を表すことができる。ビデオの生成過程は、通常、音声生成プロセス、及び画像シーケンス生成プロセスを含む。そのうち、音声生成プロセスは、通常、音声合成技術を用いる。画像シーケンス生成プロセスは、通常、画像処理技術を用いる。
【0004】
発明者は、本願の実施例を実施する過程で、関連技術が完全なテキストに対して、対応する完全なビデオを生成すると、通常は多くの時間コストがかかることになり、ビデオの処理効率が比較的低くなることを引き起こすことを見出した。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ビデオの処理効率をどのように向上させるかは、当業者が解決する必要がある技術的課題である。上記課題に鑑みて、本願の実施例は、上記課題を解消し、又は上記課題を少なくとも部分的に解決するビデオ処理方法、装置、媒体、及びプログラム製品を提案する。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本願は、ビデオ処理方法を開示し、電子機器において実行され、前記方法は、
第1ビデオセグメントを取得するステップであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得るステップと、を含む。
【0007】
他の態様では、本願は、ビデオ処理装置を開示し、
第1ビデオセグメントを取得することに用いられる提供モジュールであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュールと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる生成モジュールと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得ることに用いられる結合モジュールと、を含む。
【0008】
さらなる態様では、本願は、ビデオ処理に用いられる装置を開示し、メモリと、1つ、又は1つ以上のプログラムと、を含み、そのうち、1つ、又は1つ以上のプログラムは、メモリに記憶され、前記プログラムは、1つ、又は1つ以上のプロセッサによって実行されるときに、前記方法のステップを実現する。
【0009】
別の態様では、本願の実施例は、1つ、又は複数の機械可読媒体を開示し、それにおいてコマンドが記憶されており、1つ、又は複数のプロセッサによって実行されるときに、装置に前記1つ、又は複数の方法を実行させる。
【0010】
別の態様では、本願の実施例は、コンピュータプログラム製品を開示し、該プログラム製品は、コンピュータコマンドを含み、該コンピュータコマンドは、コンピュータ可読記憶媒体に記憶され、プロセッサは、該コンピュータコマンドを実行するときに、プロセッサは、本願の実施例のビデオ処理方法を実行する。
【図面の簡単な説明】
【0011】
【
図1A】本願の実施例に係る応用シーンの模式図を示す。
【
図1B】本願の実施例のビデオ処理方法のフローチャートである。
【
図2】本願の実施例のビデオ処理方法のフローチャートである。
【
図3】本願の実施例のビデオ処理装置の構造ブロック図である。
【
図4】本願の実施例のビデオ処理に用いられる装置の構造ブロック図である。
【
図5】本願のいくつかの実施例におけるサーバ端末の構造ブロック図である。
【発明を実施するための形態】
【0012】
本願の上記目的、特徴、及び利点をより明確で理解しやすくするために、以下、図面、及び具体的な実施形態を組み合わせて本願をさらに詳細に説明する。
【0013】
本願の実施例において、仮想オブジェクトは、オブジェクトモデリング、及びモーションキャプチャ等の技術により得られた、鮮明で自然であり、実際のオブジェクトに近い仮想オブジェクトであり、音声識別、及び自然言語理解等の人工知能技術により、仮想オブジェクトに認知、又は理解、又は表現等の能力を持たせることができる。仮想オブジェクトは、具体的に仮想人物、又は仮想動物、又は2次元の漫画オブジェクト、又は3次元の漫画オブジェクト等を含む。
【0014】
例えば、アナウンスシーンにおいて、仮想オブジェクトは、例えばメディア関係者の代わりにニュースのアナウンス、又はゲームの解説等を行うことができる。また例えば、医療シーンにおいて、仮想オブジェクトは、例えば医療従事者の代わりに医学的指導等を行うことができる。
【0015】
具体的な実現において、仮想オブジェクトは、テキストを表現することができる。本願の実施例は、テキスト、及び仮想オブジェクトに対応するビデオを生成することができる。該ビデオは、具体的にテキストに対応する音声シーケンス、及び音声シーケンスに対応する画像フレームシーケンスを含んでもよい。
【0016】
いくつかの応用シーンにおいて、生成すべきビデオのテキストは、具体的にテンプレートテキスト、及び変数テキストを含む。そのうち、テンプレートテキストは、相対的に固定されており、変数テキストは、通常、ユーザー入力等の予め設定した要素に基づいて変化し得る。
【0017】
例えば、変数テキストは、ユーザー入力に基づいて決定されてもよい。医療シーンを例とすると、ユーザー入力に含まれる疾患名に基づいて、対応する変数テキストを決定することができる。選択可能に、変数テキストに対応するフィールドは、具体的に疾患名フィールド、食品種類フィールド、及び食材数フィールド等を含み、ユーザー入力に含まれる疾患名に基づいて、これらのフィールドを決定することができる。
【0018】
理解できるように、当業者は、実際の応用ニーズに応じて、テキストにおける変数テキストを決定することができるため、本願の実施例は、変数テキストの具体的な決定方式を制限しない。
【0019】
ビデオ品質が要件を満たすようにするために、関連技術は、変数テキストが変化する状況において、通常は、変化後の完全なテキストに対して、対応する完全なビデオを生成する。しかしながら、変化後の完全なテキストに対して、対応する完全なビデオを生成することは、通常は、より多くの時間コストがかかるようになり、ビデオの処理効率の低下を引き起こす。
【0020】
ビデオの処理効率をどのように向上させるかという技術的課題に対して、本願の実施例は、ビデオ処理の解決策を提供し、該解決策は、具体的に、第1ビデオセグメントを取得するステップであって、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ上記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、上記ビデオサブセグメントの位置は、上記テンプレートテキストと上記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応し、第1テキストは、テンプレートテキスト、及び処理すべき変数テキストを含む、ステップと、処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、該第1ビデオセグメントと該第2ビデオセグメントとを結合することで、第1テキストに対応するビデオを得るステップと、を含む。
【0021】
本願の実施例は、テンプレートテキストに対応する第1ビデオセグメントと、処理すべき変数テキストに対応する第2ビデオセグメントとを結合する。そのうち、第1ビデオセグメントは、予め保存されたビデオセグメントであってもよく、ビデオ処理過程で処理すべき変数テキストに対応する第2ビデオセグメントを生成することができる。処理すべき変数テキストの長さが完全なテキストの長さよりも小さいため、本願の実施例は、生成されるビデオの長さ、及び対応する時間コストを縮めることができ、従って、ビデオの処理効率を向上させることができる。
【0022】
さらに、本願の実施例の第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む。ここで、音声がポーズになった、とは、音声が停止していることを指し、例えば仮想オブジェクトが話さないことである。ビデオサブセグメントの位置は、テンプレートテキストと第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する。上記第1ビデオセグメントにおける音声がポーズになったビデオサブセグメントは、結合位置でのホッピング、又は振れの問題を解消することに寄与し、従って、結合位置での連続性を向上させることができる。
【0023】
本願の実施例が提供するビデオ処理方法は、クライアント端末、及びサーバ端末に対応する応用シーンに応用することができる。例えば、
図1Aは、本願の実施例に係る応用シーンの模式図を示す。クライアント端末、及びサーバ端末は、有線、又は無線ネットワークにあり、該有線、又は無線ネットワークにより、クライアント端末は、サーバ端末とデータのインタラクションを行う。
【0024】
クライアント端末、及びサーバ端末は、電子機器と総称されてもよい。クライアント端末は、例えば、スマートフォン、タブレットコンピュータ、電子ブックリーダー、MP3(Moving Picture Experts Group Audio Layer III)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤー、ラップトップポータブルコンピュータ、車載コンピュータ、デスクトップパソコン、セットトップボックス、スマートテレビ、及びウェアラブル機器等を含むが、これらに限定されない。サーバ端末は、例えばハードウェアが独立したサーバ、仮想サーバ、又はサーバクラスター等の機器である。
【0025】
クライアント端末とは、サーバ端末と対応し、ユーザーにローカルサービスを提供するプログラムを指す。本願の実施例におけるクライアント端末は、ユーザー入力を受信し、かつ該ユーザー入力に対応するビデオを提供することができる。該ビデオは、クライアント端末、又はサーバ端末によって生成されてもよく、本願の実施例は、ビデオの具体的な生成主体を制限しない。
【0026】
本願の1つの実施例において、クライアント端末は、ユーザー入力を受信し、かつサーバ端末にユーザー入力をアップロードすることで、サーバ端末にユーザー入力に対応するビデオを生成させることができる。サーバ端末は、ユーザー入力に基づいて処理すべき変数テキストを決定し、処理すべき変数テキストに対応する第2ビデオセグメントを生成し、かつ予め保存された第1ビデオセグメントと該第2ビデオセグメントとを結合することで、該テンプレートテキスト、及び該処理すべき変数テキストに対応するビデオを得ることができる。
【0027】
方法の実施例1
【0028】
図1Bに参照されるように、本願のビデオ処理方法のフローチャートを示しており、具体的には下記ステップを含んでもよい。ビデオ処理方法は、例えば電子機器によって実行されてもよい。
【0029】
ステップ101:第1ビデオセグメントを取得し、第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、ビデオサブセグメントの位置は、テンプレートテキストと第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する。
【0030】
ステップ102:処理すべき変数テキストに対応する第2ビデオセグメントを生成する。
【0031】
ステップ103:該第1ビデオセグメントと該第2ビデオセグメントとを結合することで、第1テキストに対応するビデオを得る。
【0032】
1つの実施例において、ステップ101では、テンプレートテキストに対応する第1ビデオセグメントを予め生成し、かつ保存することができる。第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む。ここで、音声がポーズになった、とは、音声が停止している、又は音声を一時的に出力しないことを指す。音声がポーズになったビデオサブセグメントは、音声がないビデオサブセグメントであると見なされてもよい。ビデオサブセグメントの位置は、テンプレートテキストと第1テキストにおける処理すべき変数テキストとの間の境界位置に対応し、該ビデオサブセグメントは、結合位置での連続性を向上させることができる。
【0033】
本願の実施例のテキストの構造は、具体的にテンプレートテキスト、及び変数テキストを含む。境界位置は、隣接するテンプレートテキストと変数テキストとを区分けすることに用いることができる。
【0034】
「<糖尿病>、及び<果物>の問題に関して、私はまだ研究しています。この<糖尿病>の食事アドバイスもあなたに役立つかもしれないと思いますが、それに約<1800>種類の食材の推奨、及び禁忌が含まれるため、クリックしてご確認ください」というテキストAを例とすると、テキストAに複数の境界位置が存在する。例えば、テンプレートテキスト「に関しては」と変数テキスト「<糖尿病>」との間に対応して境界位置があり、変数テキスト「<糖尿病>」とテンプレートテキスト「及び」との間に対応して境界位置があり、テンプレートテキスト「及び」と変数テキスト「<果物>」との間に対応して境界位置があり、変数テキスト「<果物>」とテンプレートテキスト「の」との間に対応して境界位置がある、等である。
【0035】
1つの実施形態において、第1ビデオセグメントの決定過程は、テンプレートテキスト、予め設定した変数テキスト、及び対応する境界位置でのポーズ情報に基づいて、予め設定したビデオを生成するステップと、上記予め設定したビデオの中から上記テンプレートテキストに対応する第1ビデオセグメントを切り取るステップと、を含んでもよい。
【0036】
そのうち、予め設定した変数テキストは、任意の変数テキストであってもよく、又は予め設定した変数テキストは、変数テキストの任意の実例であってもよい。
【0037】
本願の実施例は、テンプレートテキスト、及び予め設定した変数テキストに対応する予め設定した完全なテキストに基づいて、予め設定したビデオを生成することができ、そのうち、予め設定したビデオの生成過程で境界位置でのポーズ情報を考慮してもよい。ポーズ情報は、例えば所定時間の音声ポーズを示す。
【0038】
実際の応用において、予め設定したビデオは、音声部分に対応する予め設定した音声、及び画像部分に対応する予め設定した画像シーケンスを含んでもよい。
【0039】
具体的な実現において、TTS(音声合成、Text To Speech)技術を利用し、予め設定した完全なテキストを予め設定した音声に変換することができる。予め設定した音声は、波形の形式として表すことができる。
【0040】
本願の実施例の予め設定した完全なテキストを予め設定した音声に変換することは、具体的には、言語分析プロセス、及び音響的システムプロセスを含む。そのうち、言語分析プロセスは、予め設定した完全なテキスト、及びその対応するポーズ情報に基づいて、対応する言語的情報を生成することに用いられ、音響的システムプロセスは、主に音声分析プロセスから提供された言語的情報に基づいて、対応する予め設定した音声を生成し、発音の機能を実現する。
【0041】
1つの実施形態において、言語分析プロセスの処理は、具体的にテキスト構造と言語の種類の判断、テキスト標準化、テキストから音素への変換、及び韻律予測を含んでもよい。言語的情報は、音声分析プロセスの結果であってもよい。
【0042】
そのうち、テキスト構造と言語の種類の判断は、予め設定した完全なテキストの言語の種類、例えば中国語、英語、チベット語、及びウイグル語等の言語の種類を判断し、かつ対応する言語の種類の文法規則に基づいて、予め設定した完全なテキストを語句に分割し、かつ分割した語句を後の処理モジュールに伝送することに用いられる。
【0043】
テキスト標準化は、設定された規則に基づいて、分割された語句を標準化することに用いられる。
【0044】
テキストから音素への変換は、語句に対応する音素特徴を決定することに用いられる。
【0045】
人間が言語を表現するときに、通常、語気、及び感情を持っているため、音声合成の目的は、一般的には実際の人の声を模倣することであり、従って、韻律予測は、語句のどこにポーズを必要とするか、どのくらいポーズになるか、どの文字や語を重く読む必要があるか、及びどの単語を軽く読む必要があるか等を決定することに用いることができ、さらに音の高低変化、及び抑揚を実現する。
【0046】
本願の実施例は、まず、韻律予測技術を利用し、韻律予測結果を決定し、次に、ポーズ情報に基づいて、韻律予測結果を更新することができる。
【0047】
テキストAを例とすると、ポーズ情報は、テンプレートテキスト「に関しては」と変数テキスト「<糖尿病>」との間に加えられた、予め設定した時間のポーズ情報であってもよく、韻律予測結果を更新することは、具体的に、テンプレートテキスト「に関しては」の音素特徴「guan」、「yu」と変数テキスト「<糖尿病>」の音素特徴「tang」、「niao」、「bing」との間に予め設定した時間のポーズ情報を加えることを含んでもよく、更新後の韻律予測結果は、「guan」、「yu」、「Nミリ秒ポーズ」、「tang」、「niao」、「bing」等であってもよい。そのうち、Nは、0よりも大きい自然数であってもよく、Nの値は、当業者が実際の応用ニーズに応じて決定することができる。
【0048】
音響的システムプロセスは、音声合成パラメータに応じて、ニーズを満たす予め設定した音声を得ることができる。
【0049】
選択可能に、音声合成パラメータは、音色パラメータを含んでもよい。音色パラメータとは、異なる音の周波数が波形の面で現れる独特の特性を指してもよく、通常、異なる発音体は、異なる音色に対応しており、従って、音色パラメータに応じて、ターゲット発音体の音色とマッチングする音声シーケンスを得ることができる。ターゲット発音体は、ユーザーによって指定されてもよく、例えば、ターゲット発音体は、指定された医療従事者等であってもよい。実際の応用において、ターゲット発音体の予め設定した長さのオーディオに従って、ターゲット発音体の音色パラメータを得ることができる。
【0050】
画像部分に対応する予め設定した画像シーケンスは、仮想オブジェクト画像を基に得ることができ、言い換えれば、本願の実施例は、仮想オブジェクト画像に状態特徴を付与することで、予め設定した画像シーケンスを得ることができる。仮想オブジェクト画像は、ユーザーによって指定されてもよく、例えば、仮想オブジェクト画像は、有名人(例えば司会者)の画像であってもよい。
【0051】
上記状態特徴は、
表情特徴、
唇の特徴、及び
肢体特徴のうちの少なくとも一種を含んでもよい。
【0052】
表情は、感情、及び気持ちを表現し、顔に現れる情緒や感情を指してもよい。
【0053】
表情特徴は、通常、顔全体に対するものである。唇の特徴は、特に唇に対するものであってもよく、かつテキストのテキストコンテンツ、音声、及び発声方式等にいずれも関係があり、従って、予め設定した画像シーケンスに対応する表現の自然度を向上させることができる。
【0054】
肢体特徴は、頭、目、首、手、肘、腕、体、股、及び足等の人体部位の協調的な活動により人物の思想を伝え、イメージ的に感情や気持ちを伝えることができる。肢体特徴は、振り向くこと、肩をすくめること、及びジェスチャー等を含んでもよく、画像シーケンスに対応する表現の豊かさを向上させることができる。例えば、話すときに少なくとも1つの腕が自然に垂れ下がり、話さないときに少なくとも1つの腕が自然に腹部に置かれる等である。
【0055】
本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した完全なテキスト、及びポーズ情報に基づいて、画像パラメータを決定することができ、該画像パラメータは、仮想オブジェクトの状態特徴を表すことができ、かつ画像パラメータに基づいて画像部分に対応する予め設定した画像シーケンスを生成する。
【0056】
そのうち、画像パラメータは、ポーズ画像パラメータを含んでもよく、該ポーズ画像パラメータは、ポーズ情報に対応するポーズ状態特徴を表すことができる。言い換えれば、ポーズ画像パラメータは、仮想オブジェクトが話すことを停止するときに、仮想オブジェクトに現れる形体、及び表情等の面の状態特徴を示す。それに対応して、予め設定した画像シーケンスには、ポーズ状態特徴に対応する画像シーケンスを含んでもよい。例えば、ポーズ状態特徴は、中性的な表情、唇の閉鎖状態、及び腕下垂状態等を含んでもよい。
【0057】
予め設定した音声、及び予め設定した画像シーケンスを生成した後に、予め設定した音声と、予め設定した画像シーケンスとを融合させ、対応する予め設定したビデオを得ることができる。
【0058】
予め設定したビデオを得た後に、上記予め設定したビデオの中から上記テンプレートテキストに対応する第1ビデオセグメントを切り取ることができる。具体的には、予め設定した変数テキストの予め設定したビデオ内の開始位置、及び終了位置に基づいて、第1ビデオセグメントの切り取りを行うことができる。
【0059】
テキストAを例とすると、予め設定した変数テキスト「<糖尿病>」のテキストにおけるスタート位置が予め設定したビデオ内の開始位置T1に対応し、予め設定した変数テキスト「<糖尿病>」の終了位置が予め設定したビデオ内の終了位置T2に対応すると仮定すれば、予め設定したビデオの中からT1の前のビデオセグメントを、テンプレートテキスト「に関しては」に対応する第1ビデオセグメントとして切り取ることができる。説明する必要がある点として、予め設定したビデオを生成する過程で境界位置でのポーズ情報を利用し、そのため、T1の前の第1ビデオセグメントにポーズ情報を有し(すなわち、第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含む)、従って、後続の結合過程において結合位置での連続性を向上させることができる。
【0060】
テキストAを例とすると、予め設定した変数テキスト「<果物>」のテキストにおける開始位置が予め設定したビデオ内の開始位置T3に対応し、予め設定した変数テキスト「<果物>」のテキストにおける開始位置が予め設定したビデオ内の終了位置T4に対応すると仮定すれば、予め設定したビデオの中からT2とT3との間のビデオセグメントを、テンプレートテキスト「及び」に対応する第1ビデオセグメントとしてト切り取ることができる。
【0061】
予め設定した完全なテキストにおけるテンプレートテキストが予め設定した変数テキストによって複数に区分けされるため、実際の応用において、予め設定したビデオの中から複数のテンプレートテキストに対応する第1ビデオセグメントをそれぞれ抽出することができる。
【0062】
理解できるように、予め設定したビデオを生成する上記過程で境界位置でのポーズ情報を利用することで、第1ビデオセグメントを取得するという取得方式は、単に選択可能な実施例であり、実際には、当業者は、さらに実際の応用ニーズに応じて、他の取得方式を用いてもよい。
【0063】
1つの実施例において、第1ビデオセグメントにおけるビデオサブセグメントは、音声がポーズになっただけでなく、ビデオサブセグメントの画像における仮想オブジェクトが話さない状態にある。
【0064】
1つの実施例において、上記ビデオサブセグメントは、ポーズ処理を経た後に得られたサブセグメントである。
【0065】
ビデオサブセグメントに対するポーズ処理は、
上記第1ビデオセグメントにおける上記境界位置に対応する結合位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声がポーズになった音声信号サブセグメントを得るステップと、
第1ビデオセグメントの結合位置での画像サブシーケンス、及びターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、仮想オブジェクトが話さない状態にある上記画像サブシーケンスを得るステップであって、そのうち、ターゲット状態特徴は、仮想オブジェクトが話さない状態にある特徴を示す、ステップと、を含む。このように、音声がポーズになった音声信号サブセグメントと、仮想オブジェクトが話さない状態にある画像サブシーケンスとは、上記ビデオサブセグメントを構成することができる。
【0066】
1つの実施例において、第1ビデオセグメントの一種の取得方式は、テンプレートテキスト、及び予め設定した変数テキストに基づいて、第1ビデオを生成するステップと、上記第1ビデオの中から上記テンプレートテキストに対応する第1ビデオセグメントを切り取るステップと、境界位置で上記第1ビデオセグメントに対してポーズ処理を行うステップと、を含んでもよい。
【0067】
音声部分のポーズ処理を例とすると、ビデオセグメントの境界位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声部分のポーズ処理を実現することができる。画像部分のポーズ処理を例とすると、ビデオセグメントの境界位置での画像サブシーケンス、及びポーズ情報に対応するターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、画像部分のポーズ処理を実現することができる。
【0068】
第1ビデオセグメントを取得した後に、第1ビデオセグメントを保存することで、変数テキストが変化する状況下で、第1ビデオセグメントと変化後の変数テキスト(以下、処理すべき変数テキストと略称される)に対応する第2ビデオセグメントとを結合することができる。
【0069】
ステップ102では、処理すべき変数テキストは、ユーザー入力に基づいて得ることができる。理解できるように、本願の実施例は、処理すべき変数テキストの具体的な決定方式を制限しない。
【0070】
本願の実施例は、処理すべき変数テキストに対応する第2ビデオセグメントを生成する技術的解決手段を以下のとおり提供することができる。
【0071】
技術的解決手段1
【0072】
技術的解決手段1において、処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップは、具体的に、第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定するステップであって、そのうち、画像パラメータは、上記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、ステップと、上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出するステップと、ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む。
【0073】
技術的解決手段1は、まず、処理すべき変数テキストが位置する語句を単位として、対応する音声パラメータ、及び画像パラメータを決定し、次に、音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。
【0074】
語句は、文法的に独立した1つの単位であり、それは、1つの単語、又は構文的につながる1組の単語で構成され、主張、疑問、命令、願望、又は感嘆を表現する。
【0075】
処理すべき変数テキストが単語に対応する状況下で、語句において、通常、テンプレートテキストが含まれ、処理すべき変数テキストも含まれる。語句に対応する音声パラメータ、及び画像パラメータが一定の連続性を有するため、その中から抽出された処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータと、語句におけるテンプレートテキストに対応する音声パラメータ、及び画像パラメータとは、一定の連続性を有し、これを基に、処理すべき変数テキストに対応する第2ビデオセグメントと、語句におけるテンプレートテキストに対応する第1ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。
【0076】
実際の応用において、音声パラメータは、音声合成に対応するパラメータを表すことができる。音声パラメータは、言語特徴、及び/又は音響的特徴を含んでもよい。
【0077】
言語特徴は、音素特徴を含んでもよい。音素は、音声の自然属性に基づいて分けられる最小の音声単位であり、音節における発声動作に従って分析すると、1つの動作は、1つの音素を構成する。音素は、母音、及び子音を含んでもよい。
【0078】
音響的特徴は、発音の角度から音声の特徴を表すことができる。
【0079】
音響的特徴は、
韻律的特徴(超分節的特徴/超言語的特徴)であって、具体的に時間関連特徴、基本周波数関連特徴、及びエネルギー関連特徴等を含む、韻律的特徴と、
音質特徴と、
スペクトルに基づく関連性分析特徴であって、それは、声道形状の変化と発音運動との間の関連性の体現であり、現状では、スペクトルに基づく関連特徴は、主に線形予測ケプストラム係数(LPCC、LinearPredictionCoefficients)、及びメル周波数ケプストラム係数(MFCC、Mel Frequency Cepstrum Coefficient)等を含む、スペクトルに基づく関連性分析特徴と、を含んでもよいが、これらに限定されない。
【0080】
理解できるように、上記音声パラメータは、単に例であり、本願の実施例は、具体的な音声パラメータを制限しない。
【0081】
具体的な実現において、ターゲット音声パラメータに基づいて、処理すべき変数テキストに対して音声合成を行うことで、処理すべき変数テキストをターゲット音声に変換することができる。
【0082】
画像パラメータは、画像シーケンスの生成に対応するパラメータであってもよい。画像パラメータは、仮想オブジェクトに対応する状態特徴を決定することに用いることができ、又は画像パラメータは、仮想オブジェクトに対応する状態特徴を含んでもよい。例えば、画像パラメータは、唇の特徴を含んでもよい。
【0083】
具体的な実現において、仮想オブジェクト画像にターゲット画像パラメータに対応する状態特徴を付与することで、ターゲット画像シーケンスを得ることができる。ターゲット音声と、ターゲット画像シーケンスとを融合させ、第2ビデオセグメントを得ることができる。
【0084】
技術的解決手段2
【0085】
技術的解決手段2において、処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップは、具体的に、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、上記ターゲット画像パラメータと、上記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させるステップと、平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む。
【0086】
技術的解決手段2は、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。予め設定した変数テキストの境界位置での予め設定した画像パラメータと、テンプレートテキストの境界位置での画像パラメータとが一定の連続性を有するため、上記平滑化処理は、平滑化処理後のターゲット画像パラメータと、テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることができ、これを基に、処理すべき変数テキストに対応する第2ビデオセグメントと、語句におけるテンプレートテキストに対応する第1ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。
【0087】
具体的な実現において、ハニングウインドウ等のウインドウ関数を利用して、予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことができる。理解できるように、本願の実施例は、具体的な平滑化処理の過程を制限しない。
【0088】
上記の説明によれば、本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した完全なテキスト、及びポーズ情報に基づいて、画像パラメータを決定することができ、本願の実施例は、画像パラメータの中から予め設定した変数テキストの境界位置での予め設定した画像パラメータを抽出し、かつ該予め設定した画像パラメータを保存することができる。
【0089】
テキストAを例とすると、予め設定した変数テキスト「<糖尿病>」のスタート位置が予め設定したビデオ内の開始位置T1に対応し、予め設定した変数テキスト「<糖尿病>」のスタート位置が予め設定したビデオ内の終了位置T2に対応すると仮定すれば、T1からT2の間の画像パラメータを、予め設定した変数テキスト「<糖尿病>」の境界位置での予め設定した画像パラメータとして抽出することができる。
【0090】
技術的解決手段3
【0091】
技術的解決手段3において、ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含み、その場合、処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップは、具体的に、処理すべき変数テキストに対応するターゲット動画像シーケンスを生成するステップと、予め設定した背景画像シーケンスに基づいて、処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定するステップと、上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第2ビデオセグメントを得るステップと、を含む。
【0092】
実際の応用において、ビデオに対応する画像シーケンスを2つの部分に分解することができる。第1部分は、動画像シーケンスであり、仮想オブジェクトが表現するときに運動する部分を表すことに用いることができ、通常、唇、目、及び腕の部位等の予め設定した部位に対応する。第2部分は、背景画像シーケンスであり、仮想オブジェクトが表現するときに相対的に静止する部分を表すことに用いることができ、通常、予め設定した部位を除く部分に対応する。
【0093】
具体的な実現において、背景画像シーケンスは、プリセットして得るものであってもよい。例えば、予め設定した時間の予め設定した背景画像シーケンスをプリセットし、かつ画像シーケンスにおいて予め設定した背景画像シーケンスに対して循環配置(循環出現と呼ばれてもよい)を行うことができる。処理すべき変数テキストに対応するターゲット画像パラメータに基づいて、動画像シーケンスを生成することができる。
【0094】
実際の応用において、動画像シーケンスと背景画像シーケンスとを融合させることで、画像シーケンスを得ることができる。例えば、動画像シーケンスを背景画像シーケンスの上に貼り付けることで、画像シーケンスを得ることができる。
【0095】
技術的解決手段3は、変数テキストに対応する予め設定した背景画像シーケンスに基づいて、処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの間のマッチング度を向上させることができ、さらに処理すべき変数テキストに対応するターゲット背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとの間のマッチング度、及び連続性を向上させることができる。
【0096】
上記の説明によれば、本願の実施例は、予め設定したビデオの画像部分を生成する過程で、予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を記録することができる。例えば、予め設定した背景画像シーケンスの情報は、予め設定した背景画像シーケンスの予め設定したビデオにおける開始フレーム識別子、及び終了フレーム識別子等を含んでもよい。例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号100、及び終了フレーム番号125等を含んでもよい。
【0097】
1つの実施形態において、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの開始位置、又は終了位置でのマッチング度を向上させるために、上記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、上記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする。
【0098】
始まりの位置とは、開始位置を指してもよく、終わりの位置とは、終了位置を指してもよい。具体的には、ターゲット背景画像シーケンスの始まりの位置にある背景画像は、予め設定した背景画像シーケンスの始まりの位置にある背景画像とマッチングする。又はターゲット背景画像シーケンスの終わりの位置にある背景画像は、予め設定した背景画像シーケンスの終わりの位置にある背景画像とマッチングする。
【0099】
予め設定した背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとは、境界位置でマッチングし、及び連続しているため、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとが境界位置でマッチングする状況下で、ターゲット背景画像シーケンスと、テンプレートテキストに対応する背景画像シーケンスとの結合位置でのマッチング度、及び連続性を向上させることもできる。
【0100】
ターゲット背景画像シーケンスと、予め設定した背景画像シーケンスとが境界位置でマッチングすることを実現するために、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定することに用いられる上記決定方式は、具体的に以下の決定方式を含んでもよい。
決定方式1:予め設定した背景画像シーケンスに対応する画像の数N1がターゲット動画像シーケンスに対応する画像の数N2とマッチングする状況下で、上記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定し、又は
決定方式2:予め設定した背景画像シーケンスに対応する画像の数N1がターゲット動画像シーケンスに対応する画像の数N2よりも大きい状況下で、上記予め設定した背景画像シーケンスの中から中間位置にある第1背景画像を廃棄し、少なくとも2フレームの第1背景画像を廃棄する状況下で、少なくとも2フレームの第1背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布し、又は
決定方式3:予め設定した背景画像シーケンスに対応する画像の数N1がターゲット動画像シーケンスに対応する画像の数N2よりも小さい状況下で、予め設定した背景画像シーケンスを基に第2背景画像を追加する。
【0101】
決定方式1については、N1とN2とが等しい状況下で、予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。
【0102】
実際の応用において、処理すべき変数テキストに対応する音声時間情報に基づいて、ターゲット動画像シーケンスに対応する画像の数N2を決定することができる。該音声時間情報は、処理すべき変数テキストに対応する音声パラメータに基づいて決定されてもよく、又は該音声時間情報は、処理すべき変数テキストに対応する音声セグメントの時間に基づいて決定されてもよい。
【0103】
決定方式2については、N1がN2よりも大きい状況下で、予め設定した背景画像シーケンスの中から中間位置にある第1背景画像を廃棄し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。
【0104】
中間位置は、始まりの位置、又は終わりの位置と異なってもよい。かつ廃棄された少なくとも2フレームの第1背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布し、このように、連続的な背景画像を廃棄することによる背景画像の連続性が悪いという問題をある程度回避することができる。
【0105】
実際の応用において、第1背景画像の数は、N1とN2との差値とマッチングすることができる。例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号100、及び終了フレーム番号125等を含んでもよく、N1の値は、26であり、ターゲット動画像シーケンスに対応する画像の数N2が24であると仮定すれば、予め設定した背景画像シーケンスの中から、中間位置にあり、かつ位置が不連続である2フレームの第1背景画像を廃棄することができる。
【0106】
決定方式3については、N1がN2よりも小さい状況下で、予め設定した背景画像シーケンスを基に第2背景画像を追加し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することができる。
【0107】
本願の選択可能な実施例において、第2背景画像は、予め設定した背景画像シーケンスからのものであってもよく、言い換えれば、予め設定した背景画像シーケンスの中から追加すべき第2背景画像を決定することができる。
【0108】
1つの実施形態において、まず、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第1部分として決定し、次に、逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第2部分として決定し、続いて順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第3部分として決定することができ、そのうち、第3部分の終了フレームは、予め設定した背景画像シーケンスの終了フレームとマッチングする。
【0109】
例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号100、及び終了フレーム番号125等を含んでもよく、N1の値は、26であり、ターゲット動画像シーケンスに対応する画像の数N2が30であると仮定すれば、ターゲット背景画像シーケンスの第1部分に対応するフレーム番号は、100→125であってもよく、ターゲット背景画像シーケンスの第2部分に対応するフレーム番号は、125→124であってもよく、ターゲット背景画像シーケンスの第3部分に対応するフレーム番号は、124→125であってもよい。
【0110】
本願の他の選択可能な実施例において、第2背景画像は、予め設定した背景画像シーケンス以外の背景画像シーケンスからのものであってもよく、例えば、予め設定した背景画像シーケンスの後の背景画像シーケンスの中から第2背景画像を決定することができる。
【0111】
1つの実施形態において、まず、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第1部分として決定し、次に、順方向の順序に応じて、予め設定した背景画像シーケンスの後続の背景画像シーケンスをターゲット背景画像シーケンスの第2部分として決定し、続いて逆方向の順序に応じて、予め設定した背景画像シーケンスの後続の背景画像シーケンス、及び予め設定した背景画像シーケンスの終了フレームをターゲット背景画像シーケンスの第3部分として決定することができ、そのうち、第3部分の終了フレームは、予め設定した背景画像シーケンスの終了フレームとマッチングする。
【0112】
例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号100、及び終了フレーム番号125等を含んでもよく、N1の値は、26であり、ターゲット動画像シーケンスに対応する画像の数N2が30であると仮定すれば、ターゲット背景画像シーケンスの第1部分に対応するフレーム番号は、100→125であってもよく、ターゲット背景画像シーケンスの第2部分に対応するフレーム番号は、126→127であってもよく、ターゲット背景画像シーケンスの第3部分に対応するフレーム番号は、127→125であってもよい。
【0113】
理解できるように、予め設定した背景画像シーケンスを基に第2背景画像を追加する上記実現形態は、単に例であり、実際に、当業者は、実際の応用ニーズに応じて、他の実現形態を用いることができ、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現できる任意の実現形態は、いずれも本願の実施例の実現形態の保護範囲内に含まれる。
【0114】
例えば、他の実現形態において、さらに逆方向のターゲット背景画像シーケンスを決定してもよい。相応な決定過程は、まず、逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第1部分として決定するステップと、次に、順方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第2部分として決定するステップと、続いて逆方向の順序に応じて、予め設定した背景画像シーケンスをターゲット背景画像シーケンスの第3部分として決定するステップと、を含んでもよく、そのうち、第3部分の開始フレームは、予め設定した背景画像シーケンスの開始フレームとマッチングする。
【0115】
例えば、予め設定した背景画像シーケンスの情報は、開始フレーム番号100、及び終了フレーム番号125等を含んでもよく、N1の値は、26であり、ターゲット動画像シーケンスに対応する画像の数N2が30であると仮定すれば、ターゲット背景画像シーケンスの第1部分に対応するフレーム番号は、125→100であってもよく、ターゲット背景画像シーケンスの第2部分に対応するフレーム番号は、100→101であってもよく、ターゲット背景画像シーケンスの第3部分に対応するフレーム番号は、101→100であってもよい。このような状況下で得られたターゲット背景画像シーケンスのフレーム番号は、100→101→101→100→100→125であってもよい。
【0116】
以上、技術的解決手段1から技術的解決手段3により、処理すべき変数テキストに対応する第2ビデオセグメントを生成する過程を詳細に説明した。理解できるように、当業者は、実際の応用ニーズに応じて、技術的解決手段1から技術的解決手段3のうちのいずれか1つ、又はそれらの組み合わせを用いることができるが、本願の実施例は、処理すべき変数テキストに対応する第2ビデオセグメントを生成する具体的な過程を制限しない。
【0117】
ステップ103では、該第1ビデオセグメントと該第2ビデオセグメントとを結合することで、第1テキストに対応するビデオを得ることができる。
【0118】
本願の選択可能な実施例において、第1ビデオセグメントは、具体的に第1音声セグメントを含んでもよく、第2ビデオセグメントは、具体的に第2音声セグメントを含んでもよい。
【0119】
その場合、上記第1ビデオセグメントと上記第2ビデオセグメントとを結合する上記ステップは、具体的に、第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うステップと、平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合するステップと、を含んでもよい。
【0120】
本願の実施例は、まず、第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行い、次に、平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合する。上記平滑化処理は、平滑化処理後の第1音声セグメントと第2音声セグメントとの間の連続性を向上させることができ、従って、第1ビデオセグメントと第2ビデオセグメントとの結合位置での連続性を向上させることができる。
【0121】
実際の応用において、結合して得られたビデオを出力することができ、例えばユーザーに出力する。医療シーンを例とすると、ユーザー入力に含まれる疾患名に基づいて、対応する処理すべき変数テキストを決定し、
図1Bに示される方法の実施例を利用し、ビデオを得て、かつユーザーに該ビデオを提供することができる。
【0122】
以上より、本願の実施例のビデオ処理方法は、テンプレートテキストに対応する第1ビデオセグメントと、処理すべき変数テキストに対応する第2ビデオセグメントとを結合する。そのうち、第1ビデオセグメントは、予め保存されたビデオセグメントであってもよく、ビデオ処理過程で処理すべき変数テキストに対応する第2ビデオセグメントを生成することができる。処理すべき変数テキストの長さが完全なテキストの長さよりも小さいため、本願の実施例は、生成されるビデオの長さ、及び対応する時間コストを縮めることができ、従って、ビデオの処理効率を向上させることができる。
【0123】
さらに、本願の実施例の第1ビデオセグメントは、テンプレートテキストと変数テキストとの間の境界位置に、ポーズ処理を経たビデオサブセグメントが設定される。上記ポーズ処理は、結合位置でのホッピング、又は振れの問題をある程度解消することができ、従って、結合位置での連続性を向上させることができる。
【0124】
方法の実施例2
【0125】
図2に参照されるように、本願の実施例のビデオ処理方法のフローチャートを示しており、具体的には下記ステップを含んでもよい。
【0126】
ステップ201:テンプレートテキスト、予め設定した変数テキスト、及び境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成し、ポーズ情報は、所定時間の音声ポーズを示す。
【0127】
ステップ202:上記予め設定したビデオの中から上記テンプレートテキストに対応する第1ビデオセグメントを切り取り、かつ第1ビデオセグメントを保存する。
【0128】
ステップ203:予め設定したビデオの情報に基づいて、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を保存する。
【0129】
ステップ201からステップ203は、生成された予め設定したビデオに基づいて、第1ビデオセグメント、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を予め保存することに用いることができる。
【0130】
ステップ204からステップ211は、予め保存された情報に基づいて、処理すべき変数テキストに対応する第2ビデオセグメントを生成し、かつ予め保存された第1ビデオセグメントと第2ビデオセグメントとを結合することに用いることができる。
【0131】
ステップ204:処理すべき変数テキストが位置する語句に対して、対応する音声パラメータ、及び画像パラメータを決定する。
【0132】
ステップ205:上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。
【0133】
ステップ206:予め設定した画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。
【0134】
ステップ207:ターゲット音声パラメータ、及び平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット動画像シーケンスを生成する。
【0135】
ステップ208:予め設定した背景画像シーケンスに基づいて、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定する。
【0136】
ステップ209:上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第2ビデオセグメントを得る。
【0137】
ステップ210:第1ビデオセグメントにおける第1音声セグメント、及び第2ビデオセグメントにおける第2音声セグメントの、それぞれ上記境界位置での音声サブセグメントに対して平滑化処理を行う。
【0138】
ステップ211:平滑化処理後の第1音声セグメント、及び平滑化処理後の第2音声セグメントに基づいて、第1ビデオセグメントと第2ビデオセグメントとを結合する。
【0139】
本願の応用例において、予め設定した完全なテキストが上記テキストAであり、予め設定した変数テキストがテキストAにおける「<糖尿病>」、「<果物>」、及び「<1800>」等であると仮定すれば、テキストA、及び対応するポーズ情報に基づいて、予め設定したビデオを生成し、かつ予め設定したビデオにおける第1ビデオセグメント、予め設定した変数テキストの境界位置での予め設定した画像パラメータ、及び予め設定した変数テキストに対応する予め設定した背景画像シーケンスの情報を保存することができる。
【0140】
実際の応用において、ユーザー入力等の要素は、変数テキストの変化をもたらす可能性がある。例えば、テキストAが「<冠状動脈性心臓病>、及び<野菜>の問題に関しては、私はまだ研究しています。この<冠状動脈性心臓病の食事アドバイスもあなたに役立つかもしれないと思いますが、それに約<900>種類の食材の推奨、及び禁忌が含まれるため、クリックしてご確認ください」というテキストBになった状況下で、処理すべき変数テキストは、テキストBにおける「<冠状動脈性心臓病>」、「<野菜>」、及び「<900>」等を含んでもよい。
【0141】
本願の実施例は、処理すべき変数テキストに対応する第2ビデオセグメントを生成することができる。例えば、まず、処理すべき変数テキストが位置する語句の音響的パラメータ、及び唇の特徴を決定し、次に、その中から処理すべき変数テキストに対応するターゲット音響的パラメータ、及びターゲット唇の特徴を抽出し、かつ処理すべき変数テキストに対応する音声セグメント、及びターゲット画像シーケンスをそれぞれ生成することができる。ターゲット画像シーケンスは、ターゲット動画像シーケンス、及びターゲット背景画像シーケンスを含んでもよい。
【0142】
ターゲット動画像シーケンスを生成する過程で、ステップ206を利用してターゲット唇の特徴に対して平滑化処理を行うことで、唇の特徴の結合位置での連続性を向上させることができる。
【0143】
ステップ208を利用し、ターゲット背景画像シーケンスを生成し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することで、背景画像シーケンスの結合位置での連続性を向上させることができる。
【0144】
第1ビデオセグメントと第2ビデオセグメントとを結合する前に、まず、第1ビデオセグメントにおける第1音声セグメント、及び第2ビデオセグメントにおける第2音声セグメントの、それぞれ上記境界位置での音声サブセグメントに対して平滑化処理を行い、次に、平滑化処理後の第1音声セグメント、及び平滑化処理後の第2音声セグメントに基づいて、第1ビデオセグメントと第2ビデオセグメントとを結合することができる。
【0145】
以上より、本願の実施例のビデオ処理方法は、第1ビデオセグメントの結合位置で予め設定した時間のポーズを加え、結合位置でのホッピング、又は振れの問題を解消することに寄与し、従って、結合位置での連続性を向上させることができる。
【0146】
かつ、本願の実施例は、処理すべき変数テキストが位置する語句を単位として、対応する音声パラメータ、及び画像パラメータを決定し、次に、音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出する。語句に対応する音声パラメータ、及び画像パラメータが一定の連続性を有するため、その中から抽出された処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータと、語句におけるテンプレートテキストに対応する音声パラメータ、及び画像パラメータとは、一定の連続性を有し、これを基に、処理すべき変数テキストに対応する第2ビデオセグメントと、語句におけるテンプレートテキストに対応する第1ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性をより向上させることができる。
【0147】
また、本願の実施例は、予め設定した変数テキストの境界位置での予め設定した画像パラメータに基づいて、処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行う。予め設定した変数テキストの境界位置での予め設定した画像パラメータと、テンプレートテキストの境界位置での画像パラメータとが一定の連続性を有するため、上記平滑化処理は、平滑化処理後のターゲット画像パラメータと、テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることができ、これを基に、処理すべき変数テキストに対応する第2ビデオセグメントと、語句におけるテンプレートテキストに対応する第1ビデオセグメントとの間の連続性を向上させることができ、さらに結合位置での連続性を向上させることができる。
【0148】
なお、本願の実施例は、予め設定した背景画像シーケンスに基づいて、ターゲット背景画像シーケンスを生成し、ターゲット背景画像シーケンスと予め設定した背景画像シーケンスとの境界位置でのマッチングを実現することで、背景画像シーケンスの結合位置での連続性を向上させることができる。
【0149】
さらに、本願の実施例は、第1ビデオセグメントと第2ビデオセグメントとを結合する前に、第1ビデオセグメントにおける第1音声セグメント、及び第2ビデオセグメントにおける第2音声セグメントの、上記境界位置での音声サブセグメントに対して平滑化処理を行う。上記平滑化処理は、平滑化処理後の第1音声セグメントと第2音声セグメントとの間の連続性を向上させることができ、従って、第1ビデオセグメントと第2ビデオセグメントとの結合位置での連続性を向上させることができる。
【0150】
説明する必要がある点として、方法の実施例については、簡単に記述するために、一連の運動動作の組み合わせとして記載されているが、当業者であれば、本願の実施例によれば、あるステップは、他の順序を用いてもよく、又は同時に行ってもよいので、本願の実施例は、記述された運動動作の順序に制限されないことを知っているはずである。次に、当業者であれば、明細書に記述される実施例は、いずれも好適な実施例に属し、関連する運動動作は、必ずしも本願の実施例に必要なものではないことも知っているはずである。
【0151】
装置の実施例
【0152】
図3に参照されるように、本願のビデオ処理装置の実施例の構造ブロック図を示し、具体的に、
第1ビデオセグメントを取得することに用いられる提供モジュール301であって、上記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ上記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、上記ビデオサブセグメントの位置は、上記テンプレートテキストと上記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュール301と、
処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる生成モジュール302と、
上記第1ビデオセグメントと上記第2ビデオセグメントとを結合することで、上記第1テキストに対応するビデオを得ることに用いられる結合モジュール303と、を含んでもよい。
【0153】
選択可能に、上記装置は、
テンプレートテキスト、予め設定した変数テキスト、及び上記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成することに用いられる予め設定したビデオ生成モジュールであって、上記ポーズ情報は、所定時間の音声ポーズを示す、予め設定したビデオ生成モジュールと、
上記予め設定したビデオの中から上記テンプレートテキストに対応する第1ビデオセグメントを切り取ることに用いられる切り取りモジュールと、をさらに含んでもよい。
【0154】
選択可能に、生成モジュール302は、
上記第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定することに用いられるパラメータ決定モジュールであって、そのうち、上記画像パラメータは、上記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、上記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、パラメータ決定モジュールと、
上記音声パラメータ、及び画像パラメータの中から、上記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出することに用いられるパラメータ抽出モジュールと、
上記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第1セグメント生成モジュールと、を含んでもよい。
【0155】
選択可能に、生成モジュール302は、
上記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、上記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、上記ターゲット画像パラメータと、上記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることに用いられる第1平滑化処理モジュールと、
平滑化処理後のターゲット画像パラメータに基づいて、上記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第2セグメント生成モジュールと、を含んでもよい。
【0156】
選択可能に、上記第1ビデオセグメントは、第1音声セグメントを含んでもよく、上記第2ビデオセグメントは、第2音声セグメントを含んでもよく、
結合モジュール303は、
第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うことに用いられる第2平滑化処理モジュールと、
平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合することに用いられる平滑後結合モジュールと、を含んでもよい。
【0157】
選択可能に、上記ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含んでもよく、
生成モジュール302は、
処理すべき変数テキストに対応するターゲット動画像シーケンスを生成することに用いられる動画像シーケンス生成モジュールと、
予め設定した背景画像シーケンスに基づいて、上記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定することに用いられる背景画像シーケンス生成モジュールと、
上記ターゲット動画像シーケンスと上記ターゲット背景画像シーケンスとを融合させることで、上記処理すべき変数テキストに対応する第2ビデオセグメントを得ることに用いられる融合モジュールと、を含んでもよい。
【0158】
選択可能に、上記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、上記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする。
【0159】
選択可能に、上記背景画像シーケンス生成モジュールは、
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数とマッチングする状況下で、上記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定することに用いられる第1背景画像シーケンス生成モジュール、又は
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数よりも大きい状況下で、上記予め設定した背景画像シーケンスの中から中間位置にある第1背景画像を廃棄することに用いられる第2背景画像シーケンス生成モジュールであって、少なくとも2フレームの第1背景画像を廃棄する状況下で、少なくとも2フレームの第1背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布している、第2背景画像シーケンス生成モジュール、又は
上記予め設定した背景画像シーケンスに対応する画像の数が上記ターゲット動画像シーケンスに対応する画像の数よりも小さい状況下で、上記予め設定した背景画像シーケンスに第2背景画像を追加することに用いられる第3背景画像シーケンス生成モジュールを含んでもよい。
【0160】
装置の実施例については、方法の実施例と基本的に類似するため、記述は、比較的に簡単にしており、関連部分は方法の実施例の部分の説明を参照すればよい。
【0161】
本明細書における各実施例は、いずれも進歩的な方式で記述され、個々の実施例の説明焦点は、いずれも他の実施例と異なる点であり、各実施例の間の同様か類似する部分は、互いに参照すればよい。
【0162】
上記実施例における装置に関しては、各モジュールが操作を実行する具体的な方式は、該方法に関する実施例において詳細に記述されているため、ここで詳細な論述や説明を省略する。
【0163】
図4は、1つの例示的な実施例に基づいて示されるビデオ処理に用いられる装置900の構造ブロック図である。例えば、装置900は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機、ゲームコントロールパネル、タブレット機器、医療機器、フィットネス機器、及びパーソナルデジタルアシスタント等であってもよい。
【0164】
図4に参照されるように、装置900は、処理ユニット902、メモリ904、電源ユニット906、マルチメディアユニット908、オーディオユニット910、入力/出力(I/O)のインタフェース912、センサーユニット914、及び通信ユニット916の1つ、又は複数のユニットを含んでもよい。
【0165】
処理ユニット902は、通常、装置900の全体操作、例えば表示、着信発呼、データ通信、カメラ操作、及び記録操作につながる操作を制御する。処理素子902は、コマンドを実行することで、上記方法の全部、又は一部のステップを完了する1つ、又は複数のプロセッサ920を含んでもよい。なお、処理ユニット902は、処理ユニット902と他のユニットとの間のインタラクションを容易にする1つ、又は複数のモジュールを含んでもよい。例えば、処理ユニット902は、マルチメディアユニット908と処理ユニット902との間のインタラクションを容易にするマルチメディアモジュールを含んでもよい。
【0166】
メモリ904は、各種タイプのデータを記憶することで機器900での操作をサポートするように構成される。これらのデータの例は、装置900において操作することに用いられるいかなるアプリケーションプログラム、又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、及びビデオ等を含む。メモリ904は、いずれのタイプの揮発性や不揮発性記憶機器、又はそれらの組み合わせによっても実現することができ、例えば、静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクが挙げられる。
【0167】
電源ユニット906は、装置900の各種のユニットに電力を提供する。電源ユニット906は、電源管理システム、1つ、又は複数の電源、及び装置900に電力を生成、管理や分配することにつながる他のユニットを含んでもよい。
【0168】
マルチメディアユニット908は、上記装置900とユーザーとの間に1つの出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)、及びタッチパネル(TP)を含んでもよい。もしスクリーンがタッチパネルを含むなら、スクリーンは、タッチスクリーンとして実現されてもよく、それによってユーザーからの入力信号を受信する。タッチパネルは、タッチ、スライド、及びタッチパネル上のジェスチャーを検知する1つ、又は複数のタッチセンサーを含む。上記タッチセンサーは、タッチ、又はスライド運動動作の境界を検知するだけでなく、上記タッチ、又はスライド操作に関連する継続時間、及び圧力を検出することができる。いくつかの実施例において、マルチメディアユニット908は、1つのフロントカメラ、及び/又はリアカメラを含む。機器900が操作モード、例えば撮影モード、又はビデオモードになるときに、フロントカメラ、及び/又はリアカメラは、周辺のマルチメディアデータを受信することができる。個々のフロントカメラ、及びリアカメラは、1つの固定された光学レンズシステムであってもよく、又は焦点距離、及び光学ズーム能力を有してもよい。
【0169】
オーディオユニット910は、オーディオ信号を出力、及び/又は入力するように構成される。例えば、オーディオユニット910は、1つのマイクロホン(MIC)を含み、装置900が操作モード、例えば発呼モード、記録モード、及び音声識別モードにあるときに、マイクロホンは、周辺のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ904に記憶されてもよく、又は通信ユニット916を経由して送信されてもよい。いくつかの実施例において、オーディオユニット910は、オーディオ信号を出力することに用いられる1つのスピーカをさらに含む。
【0170】
I/Oインタフェース912は、処理ユニット902と外部インタフェースモジュールとの間にインタフェースを提供し、上記外部インタフェースモジュールは、キーボード、クリックホイール、及びボタン等であってもよい。これらのボタンは、ホームページボタン、音量ボタン、スタートボタン、及びロックボタンを含んでもよいが、これらに限定されない。
【0171】
センサーユニット914は、装置900に様々な状態評価を提供することに用いられる1つ、又は複数のセンサーを含む。例えば、センサーユニット914は、機器900のオン/オフ状態、及びユニットの相対的な位置決めを検出することができ、例えば上記ユニットは、装置900のディスプレイ、及びキーパッドであり、センサーユニット914は、装置900、又は装置900の1つのユニットの位置変化、ユーザーと装置900との接触の有無、装置900の方位、又は加速/減速、及び装置900の温度変化をさらに検出することができる。センサーユニット914は、なんら物理的接触がないときに近くの物体の存在を検出するために構成される近接センサーを含んでもよい。センサーユニット914は、画像形成アプリケーションにおいて用いられる光センサー、例えばCMOS、又はCCD画像センサーをさらに含んでもよい。いくつかの実施例において、該センサーユニット914は、加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー、又は温度センサーをさらに含んでもよい。
【0172】
通信ユニット916は、装置900と他の機器との間の有線、又は無線方式の通信を容易にするように構成される。装置900は、通信規格に基づく無線ネットワーク、例えばWiFi、2G、3G、又はそれらの組み合わせにアクセスすることができる。1つの例示的な実施例において、通信部材916は、放送チャネルを経由して周辺放送管理システムからの放送信号、又は放送関連情報を受信する。1つの例示的な実施例において、上記通信部材916は、短距離通信を促進するための近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術、及び他の技術に基づいて実現することができる。
【0173】
例示的な実施例において、装置900は、1つ、又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサー、又は他の電子素子によって実現することができ、上記方法を実行することに用いられる。
【0174】
例示的な実施例において、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えばコマンドを含むメモリ904をさらに提供し、上記コマンドは、装置900のプロセッサ920によって実行されることで上記方法を完了することができる。例えば、上記非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、及び光データ記憶機器等であってもよい。
【0175】
図5は、本願のいくつかの実施例におけるサーバ端末の構造ブロック図である。該サーバ端末1900は、構成、又は性能が異なることによってより大きい相違点を生み出すことができ、1つ、又は1つ以上の中央プロセッサ(central processing units、CPU)1922(例えば、1つ、又は1つ以上のプロセッサ)、メモリ1932、及びアプリケーションプログラム1942、又はデータ1944を記憶する1つ、又は1つ以上の記憶媒体1930(例えば1つ、又は1つ以上の大容量の記憶機器)を含んでもよい。そのうち、メモリ1932、及び記憶媒体1930は、一時的に記憶してもよく、永続的に記憶してもよい。記憶媒体1930に記憶されるプログラムは、1つ、又は1つ以上のモジュール(図示せず)を含んでもよく、個々のモジュールは、サーバ端末に対する一連のコマンド操作を含んでもよい。さらに、中央プロセッサ1922は、記憶媒体1930と通信し、サーバ端末1900において記憶媒体1930における一連のコマンド操作を実行するように設定されてもよい。
【0176】
サーバ端末1900は、1つ、又は1つ以上の電源1926、1つ、又は1つ以上の有線、又は無線ネットワークインタフェース1950、1つ、又は1つ以上の入出力インタフェース1958、1つ、又は1つ以上のキーボード1956、及び/又は1つ、又は1つ以上のオペレーティングシステム1941、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等を含んでもよい。
【0177】
非一時的なコンピュータ可読記憶媒体であって、上記記憶媒体におけるコマンドが装置(機器、又はサーバ端末)のプロセッサによって実行されるときに、装置に本願の実施例に基づくビデオ処理方法を実行させることができる。
【0178】
当業者は、明細書を考慮し、及びここで開示されている発明を実践した後に、本願の他の実施形態を容易に想到する。本願は、本願のいかなる変形、用途、又は適応的変化をカバーすることを目的としており、これらの変形、用途、又は適応的変化は、本願の一般的な原理に準拠し、かつ本開示に開示されていない本技術分野における公知常識、又は慣用手段を含む。明細書、及び実施例は、単なる例示的なものと見なされ、本願の実際の範囲、及び精神は、以下の特許請求の範囲によって定められる。
【0179】
理解すべきであるように、本願は、上記で既に記述され、かつ図面に示される正確な構造に限定されず、かつその範囲を逸脱することなく各種の修正や変更を行うことができる。本願の範囲は、添付の特許請求の範囲のみによって制限される。
【0180】
以上は、本願の好ましい実施例に過ぎず、本願を制限するためのものではなく、本願の精神、及び原則内に行われたいかなる修正、均等物への置換、及び改良等は、いずれも本願の保護範囲内に含まれるべきである。
【0181】
以上は、本願の実施例が提供するビデオ処理方法、ビデオ処理装置、及びビデオ処理に用いられる装置を詳細に説明した。本明細書において具体的な例を応用して本願の原理、及び実施形態を論述し、以上の実施例の説明は、単に本願の方法、及びその中心思想の理解を助けることに用いられる。また、当業者にとっては、本願の思想に従って、具体的な実施形態、及び応用範囲において、いずれも変更することができることから、以上より本明細書の内容は、本願を制限するものではないと理解すべきである。
【符号の説明】
【0182】
301 提供モジュール
302 生成モジュール
303 結合モジュール
900 装置
900 機器
904 メモリ
906 電源ユニット
908 マルチメディアユニット
910 オーディオユニット
912 I/Oインタフェース
912 インタフェース
914 センサーユニット
916 通信部材
916 通信ユニット
920 プロセッサ
1900 サーバ端末
1922 中央プロセッサ
1926 電源
1930 記憶媒体
1932 メモリ
1941 オペレーティングシステム
1942 アプリケーションプログラム
1944 データ
1950 無線ネットワークインタフェース
1956 キーボード
1958 入出力インタフェース
【手続補正書】
【提出日】2023-09-05
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、電子機器に
よって実行され、前記方法は、
第1ビデオセグメントを取得するステップであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、ステップと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得るステップと、を含む、ビデオ処理方法。
【請求項2】
前記方法は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成するステップであって、前記ポーズ情報は、所定時間の音声ポーズを示す、ステップと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第1ビデオセグメントを切り取るステップと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記ビデオサブセグメントの画像において、仮想オブジェクトは、話さない状態にあることを特徴とする、請求項1に記載の方法。
【請求項4】
前記ビデオサブセグメントは、ポーズ処理を経た後に得られたサブセグメントであり、
前記ビデオサブセグメントに対するポーズ処理は、
前記第1ビデオセグメントにおける前記境界位置に対応する結合位置での音声信号サブセグメント、及びミュート信号に対して重み付け処理を行うことで、音声がポーズになった音声信号サブセグメントを得るステップと、
前記第1ビデオセグメントの前記結合位置での画像サブシーケンス、及びターゲット状態特徴の画像シーケンスに対して重み付け処理を行うことで、仮想オブジェクトが話さない状態にある前記画像サブシーケンスを得るステップであって、前記ターゲット状態特徴は、仮想オブジェクトが話さない状態にある特徴を示す、ステップと、を含むことを特徴とする、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
前記第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定するステップであって、前記画像パラメータは、前記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、ステップと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出するステップと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項6】
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させるステップと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項7】
前記第1ビデオセグメントは、第1音声セグメントを含み、前記第2ビデオセグメントは、第2音声セグメントを含み、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合する前記ステップは、
第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うステップと、
平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合するステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項8】
前記ビデオに対応する画像シーケンスは、背景画像シーケンスと、動画像シーケンスと、を含み、
処理すべき変数テキストに対応する第2ビデオセグメントを生成する前記ステップは、
処理すべき変数テキストに対応するターゲット動画像シーケンスを生成するステップと、
予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定するステップと、
前記ターゲット動画像シーケンスと前記ターゲット背景画像シーケンスとを融合させることで、前記処理すべき変数テキストに対応する第2ビデオセグメントを得るステップと、を含む、請求項1~3のいずれか1項に記載の方法。
【請求項9】
前記ターゲット背景画像シーケンスの始まりと終わりの位置にある背景画像は、前記予め設定した背景画像シーケンスの始まりと終わりの位置にある背景画像とマッチングする、請求項8に記載の方法。
【請求項10】
予め設定した背景画像シーケンスに基づいて、前記処理すべき変数テキストに対応するターゲット背景画像シーケンスを決定する前記ステップは、
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数とマッチングする状況下で、前記予め設定した背景画像シーケンスをターゲット背景画像シーケンスとして決定するステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも大きい状況下で、前記予め設定した背景画像シーケンスの中から中間位置にある第1背景画像を廃棄するステップであって、少なくとも2フレームの第1背景画像を廃棄する状況下で、少なくとも2フレームの第1背景画像は、予め設定した背景画像シーケンスにおいて不連続に分布している、ステップ、又は
前記予め設定した背景画像シーケンスに対応する画像の数が前記ターゲット動画像シーケンスに対応する画像の数よりも小さい状況下で、前記予め設定した背景画像シーケンスに第2背景画像を追加するステップを含む、請求項8に記載の方法。
【請求項11】
ビデオ処理装置であって、
第1ビデオセグメントを取得することに用いられる提供モジュールであって、前記第1ビデオセグメントは、生成すべきビデオの第1テキストにおけるテンプレートテキストに対応し、かつ前記第1ビデオセグメントは、音声がポーズになったビデオサブセグメントを含み、前記ビデオサブセグメントの位置は、前記テンプレートテキストと前記第1テキストにおける処理すべき変数テキストとの間の境界位置に対応する、提供モジュールと、
前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる生成モジュールと、
前記第1ビデオセグメントと前記第2ビデオセグメントとを結合することで、前記第1テキストに対応するビデオを得ることに用いられる結合モジュールと、を含む、ビデオ処理装置。
【請求項12】
前記装置は、
テンプレートテキスト、予め設定した変数テキスト、及び前記境界位置での対応するポーズ情報に基づいて、予め設定したビデオを生成することに用いられる予め設定したビデオ生成モジュールであって、前記ポーズ情報は、所定時間の音声ポーズを示す、予め設定したビデオ生成モジュールと、
前記予め設定したビデオの中から前記テンプレートテキストに対応する第1ビデオセグメントを切り取ることに用いられる切り取りモジュールと、をさらに含む、請求項
11に記載の装置。
【請求項13】
前記生成モジュールは、
前記第1テキストにおける処理すべき変数テキストがある語句に対して、対応する音声パラメータ、及び画像パラメータを決定することに用いられるパラメータ決定モジュールであって、前記画像パラメータは、前記第1テキストに対応するビデオに出現しようとする仮想オブジェクトの状態特徴を表し、前記音声パラメータは、音声合成に対応するパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記音声パラメータ、及び画像パラメータの中から、前記処理すべき変数テキストに対応するターゲット音声パラメータ、及びターゲット画像パラメータを抽出することに用いられるパラメータ抽出モジュールと、
前記ターゲット音声パラメータ、及びターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第1セグメント生成モジュールと、を含む、請求項
11又は
12に記載の装置。
【請求項14】
前記生成モジュールは、
前記処理すべき変数テキストの境界位置での予め設定した画像パラメータに基づいて、前記処理すべき変数テキストに対応するターゲット画像パラメータに対して平滑化処理を行うことで、前記ターゲット画像パラメータと、前記テンプレートテキストの画像パラメータとの境界位置での連続性を向上させることに用いられる第1平滑化処理モジュールと、
平滑化処理後のターゲット画像パラメータに基づいて、前記処理すべき変数テキストに対応する第2ビデオセグメントを生成することに用いられる第2セグメント生成モジュールと、を含む、請求項
11又は
12に記載の装置。
【請求項15】
前記第1ビデオセグメントは、第1音声セグメントを含み、前記第2ビデオセグメントは、第2音声セグメントを含み、
前記結合モジュールは、
第1音声セグメント、及び第2音声セグメントのそれぞれの結合位置での音声サブセグメントに対して平滑化処理を行うことに用いられる第2平滑化処理モジュールと、
平滑化処理後の第1音声セグメントと平滑化処理後の第2音声セグメントとを結合することに用いられる平滑後結合モジュールと、を含む、請求項
11又は
12に記載の装置。
【請求項16】
ビデオ処理に用いられる装置であって、メモリと
、1つ以上のプログラムと、を含み、
前記1つ以上のプログラムは、メモリに記憶され
、1つ以上のプロセッサによって実行されるときに、請求項1~10のいずれか1項に記載の方
法を実現する、ビデオ処理に用いられる装置。
【請求項17】
コンピュータプログラ
ムであって
、プロセッサ
に、請求項1~10のいずれか1項に記載の方法を実行
させるように構成された、コンピュータプログラ
ム。
【国際調査報告】