(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-06
(54)【発明の名称】マルチメディアデータの処理方法、装置、機器及び媒体
(51)【国際特許分類】
H04N 21/854 20110101AFI20241029BHJP
【FI】
H04N21/854
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024503680
(86)(22)【出願日】2023-09-27
(85)【翻訳文提出日】2024-01-19
(86)【国際出願番号】 CN2023122068
(87)【国際公開番号】W WO2024082948
(87)【国際公開日】2024-04-25
(31)【優先権主張番号】202211295639.8
(32)【優先日】2022-10-21
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521431088
【氏名又は名称】北京字跳▲網▼絡技▲術▼有限公司
【氏名又は名称原語表記】Beijing Zitiao Network Technology Co., Ltd.
【住所又は居所原語表記】0207, 2/F, Building 4, Zijin Digital Park, Haidian District, Beijing,P. R. China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】リ,シンウェイ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164MA01S
5C164MC01P
5C164PA44
5C164PA46
5C164UB01S
5C164UB08S
5C164UB41S
5C164UB92S
5C164YA11
(57)【要約】
マルチメディアデータの処理方法、装置、機器及び媒体であって、該方法は、ユーザが入力したテキスト情報を受信するステップと、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、マルチメディアデータは複数のマルチメディアセグメントを含み、マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
マルチメディアデータの処理方法であって、
ユーザが入力したテキスト情報を受信するステップと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理方法。
【請求項2】
ユーザが入力したテキスト情報を受信する前記ステップは、
ユーザがテキスト領域で入力したテキスト情報を受信するステップ、及び/又は、
ユーザがリンク領域で入力したリンク情報を受信し、前記リンク情報を識別して対応するページのテキスト情報を取得し、前記ユーザが編集するために前記テキスト領域に表示するステップを含む請求項1に記載の方法。
【請求項3】
音色選択エントリコントロールを表示するステップと、
ユーザによる前記音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示するステップであって、前記候補音色メニューは候補音色、及び前記候補音色に対応する試聴コントロールを含むステップと、
前記ユーザによる前記候補音色メニューに対する選択操作に基づいて第1目標音色を確定するステップと、
前記第1目標音色に基づいて前記テキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得するステップと、をさらに含む請求項1又は2に記載の方法。
【請求項4】
前記ユーザが前記第1編集トラックで第1目標トラックセグメントを選択することに応答して、前記第1目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示するステップと、
前記ユーザが前記テキスト編集領域で前記現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、前記第1目標トラックセグメントで前記目標テキストセグメントを更新して識別するステップと、をさらに含む請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記第1目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第3編集トラックで前記第1目標トラックセグメントに対応する第3目標トラックセグメントを確定するステップと、
前記目標テキストセグメントに対応する目標音声セグメントを取得し、前記第3目標トラックセグメントで前記目標音声セグメントを更新して識別するステップと、をさらに含む請求項4に記載の方法。
【請求項6】
前記第1編集トラックにおける前記目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第2編集トラックを変更しないように維持し、予め設定された第1候補領域に前記第1更新時間長さに対応する第1更新トラックセグメントを表示するステップであって、前記第1更新トラックセグメントで前記目標テキストセグメントを識別するステップと、
前記第3編集トラックにおける前記目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第2編集トラックを変更しないように維持し、予め設定された第2候補領域に前記第3更新時間長さに対応する第3更新トラックセグメントを表示するステップであって、前記第3更新トラックセグメントで前記目標音声セグメントを識別するステップと、をさらに含む請求項5に記載の方法。
【請求項7】
前記第1編集トラックにおける前記目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第1更新時間長さに基づいて前記第1目標トラックセグメントの長さを調整するステップと、
前記第3編集トラックにおける前記目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第3更新時間長さに基づいて前記第3目標トラックセグメントの長さを調整するステップと、
前記第2編集トラックにおける前記第1目標トラックセグメント及び前記第3目標トラックセグメントに対応する第2目標トラックセグメントの長さを対応して調整し、調整後の前記第1目標トラックセグメント、調整後の第2目標トラックセグメント及び調整後の第3目標トラックセグメントの時間軸を整列させるステップと、をさらに含む請求項5に記載の方法。
【請求項8】
前記第1目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第2編集トラックで前記第1目標トラックセグメントに対応する第2目標トラックセグメントを確定するステップと、
前記目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、前記第2目標トラックセグメントで前記目標ビデオ画像セグメントを更新して識別するステップと、をさらに含む請求項4に記載の方法。
【請求項9】
前記ユーザが前記第3編集トラックで第3目標トラックセグメントを選択することに応答するステップであって、前記第3目標トラックセグメントは前記第1目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別するステップと、
予め設定されたオーディオ編集領域には、前記第3目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示するステップと、
前記ユーザが前記オーディオ編集領域で前記候補音色に基づいて前記現在の音色を修正して生成した第2目標音色に基づいて、前記第3目標トラックセグメントで目標音声セグメントを更新して識別するステップであって、前記目標音声セグメントは前記第2目標音色を使用して前記第1目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであるステップと、をさらに含む請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記マルチメディア編集インタフェースは、
背景オーディオデータを識別することに用いられる第4編集トラックをさらに含み、
前記第4編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域に前記第4編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示し、
前記ユーザが前記背景音編集領域で前記候補背景音に基づいて前記現在の背景音を修正して生成した目標背景音に基づいて、前記第4編集トラックで前記目標背景音を更新して識別する請求項1~9のいずれか1項に記載の方法。
【請求項11】
マルチメディアデータの処理装置であって、
ユーザが入力したテキスト情報を受信するための受信モジュールと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、
前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理装置。
【請求項12】
電子機器であって、
プロセッサと、
実行可能な命令を記憶するように配置されるメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記実行可能な命令を実行することで上記請求項1~10のいずれか1項に記載のマルチメディアデータの処理方法を実現するように配置される電子機器。
【請求項13】
コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶されており、前記コンピュータプログラムは上記請求項1~10のいずれか1項に記載のマルチメディアデータの処理方法を実行することに用いられるコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、2022年10月21日に提出された中国特許出願第202211295639.8号の優先権を主張するものであり、上記中国特許出願に開示されている全内容は援用によって本願の一部として組み込まれている。
【0002】
[技術分野]
本開示はマルチメディアデータの処理方法、装置、機器及び媒体に関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、知識情報の共有方法はますます多様化しており、文字類及びオーディオ類の情報担体のほか、現在、ビデオ類の情報担体も随所に見られる。
【0004】
関連技術では、ユーザが共有しようとする文字コンテンツに基づいて、文字コンテンツを含む関連画像ビデオを生成する。しかしながら、ユーザのアイデアは随時変化し、現在の創作方式のスタイルは柔軟的ではなく、ユーザが柔軟的に処理する細粒度のニーズを満たすことができず、マルチメディアデータの品質は高くない。
【発明の概要】
【課題を解決するための手段】
【0005】
上記技術的課題を解決する又は少なくとも上記技術的課題の一部を解決するために、本開示はマルチメディアデータの処理方法、装置、機器及び媒体を提供する。
【0006】
本開示の実施例はマルチメディアデータの処理方法を提供し、前記方法は、ユーザが入力したテキスト情報を受信するステップと、前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。
【0007】
本開示の実施例はさらにマルチメディアデータの処理装置を提供し、前記装置は、ユーザが入力したテキスト情報を受信するための受信モジュールと、前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。
【0008】
本開示の実施例はさらに電子機器を提供し、前記電子機器は、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記命令を実行することで本開示の実施例が提供するマルチメディアデータの処理方法を実現することに用いられる。
【0009】
本開示の実施例はさらにコンピュータ可読記憶媒体を提供し、前記記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムは本開示の実施例が提供するマルチメディアデータの処理方法を実行することに用いられる。
【0010】
本開示の実施例はさらにコンピュータプログラム製品を提供し、前記コンピュータプログラム製品の命令がプロセッサにより実行されるときに、本開示の実施例が提供するマルチメディアデータの処理方法を実現する。
【発明の効果】
【0011】
本開示の実施例が提供する技術的解決手段は以下の利点を有する。
【0012】
本開示の実施例が提供するマルチメディアデータの処理手段は、ユーザが入力したテキスト情報を受信し、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、編集トラックにおいてタイムラインが整列する第1編集トラックに対応する第1トラックセグメント、第2編集トラックに対応する第2トラックセグメント、及び第3編集トラックに対応する第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別し、本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【0013】
図面と組み合わせて、以下の具体的な実施形態を参照すると、本開示の各実施例の上記及び他の特徴、利点及び態様はより明らかになる。図面にわたって、同一又は類似の符号は同一又は類似の要素を示す。理解すべきであるように、図面は例示的なものであり、部材及び要素は必ずしも実寸通りには描かれていない。
【図面の簡単な説明】
【0014】
【
図1】
図1は本開示の実施例が提供するマルチメディアデータの処理方法のフローチャートである。
【
図2】
図2は本開示の実施例が提供するテキスト入力インタフェースの模式図である。
【
図3】
図3は本開示の実施例が提供するマルチメディアデータのマルチメディアセグメントの構成模式図である。
【
図4】
図4は本開示の実施例が提供するマルチメディアデータの処理シーンの模式図である。
【
図5】
図5は本開示の実施例が提供するマルチメディア編集インタフェースの模式図である。
【
図6】
図6は本開示の実施例が提供する別のマルチメディアデータの処理方法のフローチャートである。
【
図7】
図7は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。
【
図8】
図8は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。
【
図9】
図9は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。
【
図10】
図10は本開示の実施例が提供する別のマルチメディアデータの処理方法のフローチャートである。
【
図11】
図11は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。
【
図12】
図12は本開示の実施例が提供するマルチメディアデータの処理装置の構造模式図である。
【
図13】
図13は本開示の実施例が提供する電子機器の構造模式図である。
【発明を実施するための形態】
【0015】
以下、図面を参照して本開示の実施例をより詳細に説明する。図面には本開示のいくつかの実施例が示されているが、理解すべきであるように、本開示は様々な形態で実現することができ、ここで説明される実施例に限定されると解釈されるべきではなく、逆に、これらの実施例の提供は本開示をより詳細且つ完全に理解するためである。理解すべきであるように、本開示の図面及び実施例は例示的なものに過ぎず、本開示の保護範囲を制限するためのものではない。
【0016】
理解すべきであるように、本開示の方法の実施形態に記載の各ステップは異なる順序で実行することができ、及び/又は並列に実行することができる。また、方法の実施形態は、追加のステップを含んでもよく、及び/又は示されたステップの実行を省略してもよい。本開示の範囲はこの面で制限されない。
【0017】
本明細書で使用される用語「含む」及びその変形は、「…を含むが、それに限定されない」という開放的な包含である。用語「に基づく」は「少なくとも一部に基づく」である。用語「一実施例」は「少なくとも1つの実施例」を示し、用語「別の実施例」は「少なくとも1つの別の実施例」を示し、用語「いくつかの実施例」は「少なくともいくつかの実施例」を示す。他の用語の関連定義は下記の説明において与えられる。
【0018】
なお、本開示に言及された「第1」、「第2」等の概念は異なる装置、モジュール又はユニットを区別するためのものに過ぎず、これらの装置、モジュール又はユニットが実行する機能の順序又は相互依存関係を限定するためのものではない。
【0019】
なお、本開示に言及された「1つ」、「複数」の修飾は例示的なものに過ぎず、制限的なものではなく、当業者は理解すべきであるように、文脈で特に明示的に指摘されない限り、「1つ又は複数」と理解すべきである。
【0020】
本開示の実施形態の複数の装置間で交換するメッセージ又は情報の名称は説明の目的に用いられるものに過ぎず、これらのメッセージ又は情報の範囲を制限するためのものではない。
【0021】
上記問題を解決するために、本開示の実施例はマルチメディアデータの処理方法を提供し、該方法では、マルチメディアデータをテキスト編集トラック、ビデオ画像編集トラック及び音声編集トラック等の複数の編集トラックに分割し、編集トラックの編集操作によって対応する情報を編集し、それにより、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【0022】
以下、具体的な実施例を参照してマルチメディアデータの処理方法を説明する。
【0023】
図1は本開示の実施例が提供するマルチメディアデータの処理方法のフローチャートであり、該方法はマルチメディアデータの処理装置により実行でき、該装置はソフトウェア及び/又はハードウェアで実現でき、一般的にコンピュータ等の電子機器に集積されてもよい。
図1に示すように、該方法は以下のステップ101~ステップ102を含む。
【0024】
ステップ101、ユーザが入力したテキスト情報を受信する。
【0025】
本開示の一実施例では、
図2に示すように、文字を編集するテキスト入力インタフェースを提供することができ、該入力インタフェースはテキスト領域及びリンク領域を含み、本実施例では、ビデオの作成ニーズに応じて、テキスト情報をカスタマイズして編集することができ、即ち、ユーザがテキスト編集インタフェースのテキスト領域に入力したテキスト情報を受信し、又は許可されたリンクを貼り付け、リンクからテキスト情報等を抽出し、即ち、ユーザがリンク領域に入力したリンク情報を受信し、リンク情報を識別して対応するテキストのテキスト情報を取得し、ユーザが編集するためにテキスト領域に表示し、即ち、テキスト領域に表示されたテキスト情報は複数回編集することができる。
【0026】
ビデオ作成時、通常、時間長さの制限があり、それに対応して、いくつかの可能な実施例では、テキスト情報の文字数にも一定の制限があり、例えば、2000文字を超えない等であり、従って、テキスト領域内のテキストの文字数が制限を超えるか否かをチェックすることができ、制限を超える場合、文字数が制限を超えたポップアップウィンドウをディスプレイすることで、ユーザに対して注意喚起等を行うことができる。
【0027】
本開示の一実施例では、引き続き
図2を参照し、テキスト入力インタフェースは、テキスト領域、リンク領域に加えて、ビデオ生成ボタン及び音色選択エントリコントロールを含んでもよく、ユーザによる音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示することができ、候補音色メニューは、1つ又は複数の候補音色(複数の候補音色はおじさん、男の子、女の子、ロリ等の複数の音色タイプを含んでもよい)、及び候補音色に対応する試聴コントロールを含み、ユーザが試聴コントロールをトリガーするときに、ユーザが入力したテキスト情報の一部又は全部を対応する候補音色で再生する。
【0028】
本実施例では、ユーザはテキスト情報を入力するときに多様化する候補音色から音色を選択することができ、それにより、ユーザによる候補音色メニューに対する選択操作に基づいて第1目標音色を確定し、さらに、第1目標音色に基づいてテキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得し、このとき、各音声セグメントの音色は第1目標音色であり、第1目標音色に対するパーソナル化選択を満たす上で、第1目標音色に対する選択効率を向上させる。
【0029】
テキスト情報を複数の音声セグメントに分割する場合、テキスト情報に対して第1目標音色の朗読習慣に従って区切り処理を行って、各区切りに含まれるテキストセグメントを確定することができ、又は、テキスト情報のセマンティクス情報に基づいてテキスト情報を複数の音声セグメントに分割し、テキストセグメントを変換粒度としてテキスト情報を複数のテキストセグメントに対応する複数の音声セグメントに変換することができる。
【0030】
ステップ102、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、
マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、第1編集トラックは複数の第1トラックセグメントを含み、複数の第1トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第2編集トラックは複数の第2トラックセグメントを含み、複数の第2トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第3編集トラックは複数の第3トラックセグメントを含み、複数の第3トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。
【0031】
本開示の一実施例では、テキスト情報を編集処理するエントリを提供し、該エントリによってテキスト情報に対する処理命令を取得し、例えば、テキスト情報を編集処理するエントリはテキスト編集インタフェースに表示される「ビデオ生成」コントロールであってもよく、ユーザがテキスト編集インタフェースの「ビデオ生成」コントロールをトリガーしたと検出する場合、テキスト情報に対する処理命令を取得し、もちろん、他の可能な実施例では、テキスト情報を編集処理するエントリはジェスチャー動作入力エントリ、音声情報入力エントリ等であってもよい。
【0032】
本開示の一実施例では、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含む。
【0033】
つまり、
図3に示すように、本実施例では、生成されたマルチメディアデータはセグメントを粒度とする複数のマルチメディアセグメントからなり、各マルチメディアセグメントは少なくとも3つの情報タイプを含み、それぞれテキストセグメント、音声セグメント(音声セグメントの初期音色は上記実施例においてテキスト編集インタフェースで選択された第1目標音色等であってもよい)、ビデオ画像セグメント等(ビデオ画像セグメントは連続するピクチャーからなるビデオストリームを含んでもよく、連続するピクチャーは予め設定されたビデオライブラリ内でマッチングしたビデオストリームにおけるピクチャーに対応することができ、予め設定された画像素材ライブラリ内でマッチングした1枚又は複数枚のピクチャーに対応することもできる)である。
【0034】
例えば、
図4に示すように、ユーザが入力したテキスト情報は「今日の社会では婦人服のタイプが様々であり、例えば一般的な漢服、ファッションウェア、スポーツウエア等である」である場合、テキスト情報を処理すると、4つのマルチメディアセグメントA、B、C、Dを生成し、マルチメディアセグメントAはテキストセグメントA1「今日の社会では婦人服のタイプが様々である」、テキストセグメントA1に対応する音声セグメントA3、テキストセグメントA1とマッチングするビデオ画像セグメントA2を含み、マルチメディアセグメントBはテキストセグメントB1「例えば一般的な漢服」、テキストセグメントB1に対応する音声セグメントB3、テキストセグメントB1とマッチングするビデオ画像セグメントB2を含み、マルチメディアセグメントCはテキストセグメントC1「ファッションウェア」、テキストセグメントC1に対応する音声セグメントC3、テキストセグメントC1とマッチングするビデオ画像セグメントC2を含み、マルチメディアセグメントDはテキストセグメントD1「スポーツウエア等」、テキストセグメントD1に対応する音声セグメントD3、テキストセグメントD1とマッチングするビデオ画像セグメントD2を含む。
【0035】
上記したように、本実施例では、マルチメディアデータは少なくとも3つの情報タイプを含み、マルチメディアデータに対する多様化する編集ニーズを満たすために、本開示の一実施例では、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、第1編集トラックは複数の第1トラックセグメントを含み、複数の第1トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第2編集トラックは複数の第2トラックセグメントを含み、複数の第2トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第3編集トラックは複数の第3トラックセグメントを含み、複数の第3トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、各マルチメディアデータに対応する複数タイプの情報セグメントを視覚的に表現しやすくするために、編集トラックにおいてタイムラインが整列するようにセグメント、第2トラックセグメント及び第3トラックセグメントを表示し、第1トラックの第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。
【0036】
本開示の実施例では、マルチメディアデータを複数のマルチメディアセグメントに分割した後、各マルチメディアセグメントに対して複数の情報タイプに対応する編集トラックに分割し、それにより、ユーザは単一のマルチメディアセグメントを編集することができるだけでなく、単一のマルチメディアセグメントにおけるある編集トラックに対応するある情報セグメントを編集することができ、ユーザの多様化する編集ニーズを満たし、生成されたマルチメディアデータの品質を確保することができる。
【0037】
なお、異なる応用シーンでは、マルチメディア編集インタフェースの表示方式は異なり、可能な実現形態として、
図5に示すように、マルチメディア編集インタフェースはビデオ再生領域、編集領域及び編集トラック表示領域を含んでもよく、編集トラック表示領域ではタイムラインが整列するように第1編集トラックに対応する第1トラックセグメント、第2編集トラックに対応する第2トラックセグメント、及び第3編集トラックに対応する第3トラックセグメントを表示する。
【0038】
編集領域は現在選択されている情報セグメントに対応する編集機能コントロール(具体的な編集機能コントロールは実験シーンのニーズに応じて設定することができる)を表示することに用いられ、ビデオ再生領域はマルチメディアデータの現在の再生時点における画像及び文字情報等を表示することに用いられ(編集トラック表示領域には時間軸と垂直な方向に現在の再生時点に対応する参照ラインを表示することができ、該参照ラインはマルチメディアデータの現在の再生位置を指示することに用いられ、参照ラインはドラッグすることもでき、ビデオ再生領域は参照ラインに対応するリアルタイムの位置におけるマルチメディアセグメントの画像及び文字情報等を同期して表示し、それにより、ユーザが該参照ラインの前後移動等に基づいてマルチメディアデータに対するフレーム毎の閲覧を実現することを容易にする)、ビデオ再生領域はさらにビデオ再生コントロールを再生することができ、ビデオ再生コントロールがトリガーされる場合、現在のマルチメディアデータを表示し、それにより、ユーザは現在のマルチメディアデータの再生効果を視覚的に知ることができる。
【0039】
引き続き
図4に示されるシーンを例にし、
図5において、編集トラック表示領域には、タイムラインが整列するように4つのマルチメディアセグメントA、B、C、D、及び4つのマルチメディアセグメントA、B、C、Dに対応するA1A2A3B1B2B3C1C2C3D1D2D3を表示する。テキストセグメントA1が選択された場合、編集領域にテキストセグメントA1に対応する編集インタフェースを表示し、該編集インタフェースに編集可能なA1、及びフォントや文字サイズ等の編集コントロール等が含まれる。このとき、ビデオ再生領域には現在のマルチメディアデータの参照ラインに対応する位置におけるマルチメディアデータ等を表示する。
【0040】
なお、本実施例のマルチメディア編集インタフェースには上記3つの編集トラックに加えて、他の編集トラックがさらに含まれてもよく、他の編集トラックの数は表示されず、各他の編集トラックはマルチメディアデータに対応する他の次元の情報セグメントを表示することに用いることができ、例えば、他の編集トラックにはマルチメディアデータの背景音を編集するための編集トラックが含まれる場合、即ち、マルチメディア編集インタフェースには背景オーディオデータを識別するための第4編集トラックが含まれてもよく、それにより、第4編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域(例えば、上記実施例で述べた編集領域)に第4編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示し、代替可能な候補背景音は背景音編集領域にラベル等の任意のスタイルで表示することができ、ユーザが背景音編集領域で候補背景音に基づいて現在の背景音を修正して生成した目標背景音に基づいて、第4編集トラックで目標背景音を更新して識別する。
【0041】
以上のように、本開示の実施例のマルチメディアデータの処理方法は、マルチメディアデータを複数のマルチメディアセグメントに分割し、各マルチメディアセグメントはそれに含まれる情報タイプに基づいて、各情報タイプに対応する編集トラックを有し、編集トラックにおいてマルチメディアセグメントに含まれるある情報タイプにおける情報セグメントを編集して修正することができ、それにより、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【0042】
以下、具体的な実施例を参照して、マルチメディアデータに対応するマルチメディア情報セグメントの異なる情報タイプの情報セグメントを如何に編集するかを説明する。
【0043】
本開示の一実施例では、マルチメディア情報セグメントに対応するテキストセグメントを単独で編集して修正することができる。
【0044】
本実施例では、
図6に示すように、マルチメディア情報セグメントに対応するテキストセグメントを単独で編集して修正するステップは、以下のステップ601~ステップ602を含む。
【0045】
ステップ601、ユーザが第1編集トラックで第1目標トラックセグメントを選択することに応答して、第1目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示する。
【0046】
本開示の一実施例では、ユーザが第1編集トラックで第1目標トラックセグメントを選択することに応答し、該第1目標トラックセグメントは1つあってもよく、複数あってもよく、さらに、第1目標編集トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示し、テキスト編集領域は上記実施例に述べた編集領域に位置してもよい。テキスト編集領域には、編集可能な第1目標トラックセグメントで現在識別されているテキストセグメントに加えて、テキストセグメントに対する他の機能編集コントロールが含まれてもよく、例えば、フォント編集コントロール、文字サイズ編集コントロール等を含む。
【0047】
ステップ602、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第1目標トラックセグメントで目標テキストセグメントを更新して識別する。
【0048】
本実施例では、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第1目標トラックセグメントで目標テキストセグメントを更新して識別する。
【0049】
例えば、
図7に示すように、ユーザが選択した第1目標トラックセグメントで現在識別されているテキストセグメントが「今日の社会では婦人服のタイプが様々である」であり、ユーザがテキスト編集領域で現在表示されているテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に修正する場合、第1目標トラックでテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新することができ、それにより、単一のテキストセグメントに対する修正を実現し、マルチメディアデータの単一のテキストセグメントに対する修正のニーズを満たす。
【0050】
本開示の一実施例では、マルチメディアデータの品質をさらに向上させ、画像とテキストのマッチングを確保するために、さらに、テキストセグメントに対する修正に基づいて、ビデオ画像セグメントにおける画像を同期して更新することができる。本実施例では、第1目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第2編集トラックで第1目標トラックセグメントに対応する第2目標トラックセグメントを確定し、目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、第2目標トラックセグメントで目標ビデオ画像セグメントを更新して識別する。
【0051】
目標テキストと予め設定されたピクチャー素材ライブラリにおけるピクチャーに対してセマンティクスマッチングを行って、対応する目標ビデオ画像を確定し、さらに、目標ビデオ画像に基づいて目標ビデオセグメントを生成するようにしてもよく、予め設定されたビデオセグメント素材ライブラリから目標テキストセグメントとマッチングするビデオセグメントを目標ビデオ画像セグメントとして直接確定する等してもよく、ここで制限しない。
【0052】
本開示の一実施例では、テキストと音声の同期を確保するために、さらに、テキストセグメントに対する修正に基づいて音声セグメントを同期して修正することができる。
【0053】
即ち、本実施例では、第1目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第3編集トラックで第1目標トラックセグメントに対応する第3目標トラックセグメントを確定し、該第3トラックセグメントには第1目標トラックセグメントにおけるテキストセグメントに対応する音声セグメントが含まれ、目標テキストセグメントに対応する目標音声セグメントを取得し、例えば、目標テキストセグメントを朗読することで目標音声セグメントを取得し、第3目標トラックセグメントで目標音声セグメントを更新して識別し、それにより、音声とテキストとの同期修正を実現する。
【0054】
引き続き
図7を参照し、ユーザが選択した第1目標トラックセグメントで現在識別されているテキストセグメントが「今日の社会では婦人服のタイプが様々である」であり、ユーザがテキスト編集領域で現在表示されているテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に修正する場合、第1目標トラックでテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新することができ、且つ第3編集トラックで第1目標トラックセグメントに対応する第3目標トラックセグメントを確定し、第3目標トラックセグメントにおける音声セグメントを「今日の社会では婦人服のタイプが様々である」から「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新する。
【0055】
上記したように、テキストセグメントの編集修正過程で、修正後のテキストセグメントの時間軸における対応する時間長さは、修正前のテキストセグメントの時間軸における対応する時間長さと異なり、従って、異なる応用シーンで、この時間長さの変化に基づいて編集トラック表示領域における編集トラックに対して異なる表示処理を行うことができる。
【0056】
本開示の一実施例では、シーンに応じてマルチメディアセグメントに対応するビデオ画像セグメントを時間長さが変更不可能なメイン情報セグメントとして定義する必要がある場合、ビデオ画像セグメントの時間長さが変更不可能であることを確保するために、第1編集トラックにおける目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知るときに、第2編集トラックを変更しないように維持し、即ち、対応するビデオ画像セグメントの時間長さを変更しないように確保し、予め設定された第1候補領域に第1更新時間長さに対応する第1更新トラックセグメントを表示する。
【0057】
第1更新トラックセグメントで目標テキストセグメントを識別する。第1候補領域は修正前のテキストセグメントの上方領域等の他の領域に位置してもよく、それにより、第1編集トラックにおける目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを知る場合であっても、目標テキストセグメントを「トラックアップ」等の形態で表示することができ、第2編集トラックに対応するビデオ画像セグメントの時間長さを対応して修正しないだけでなく、視覚的に他のマルチメディアセグメントのテキスト情報セグメントに対応する時間長さに影響を与えない。
【0058】
第3編集トラックにおける目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知るときに、第2編集トラックを変更しないように維持し、予め設定された第2候補領域に第3更新時間長さに対応する第3更新トラックセグメントを表示し、第3更新トラックセグメントで目標音声セグメントを識別する。第2候補領域は修正前の音声セグメントの下方領域等の他の領域に位置してもよく、それにより、第3編集トラックにおける目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを知る場合であっても、目標音声セグメントを「トラックダウン」等の形態で表示することができ、第2編集トラックに対応するビデオ画像セグメントの時間長さを対応して修正しないだけでなく、視覚的に他のマルチメディア情報セグメントの音声セグメントに対応する時間長さに影響を与えない。
【0059】
例えば、
図8に示すように、
図7に示されるシーンを例にし、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前のテキストセグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を修正前のテキストセグメントの上方に表示し、対応するビデオ画像セグメントの時間長さを変更しないように維持することができる。
【0060】
本実施例では、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前の音声セグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を修正前の音声セグメントの下方に表示し、且つ対応するビデオ画像セグメントの時間長さを変更しないように維持することができ、対応するシーンでビデオ画像セグメントの時間長さが変更不可能であるというニーズを満たす。
【0061】
本開示の一実施例では、シーンに応じてマルチメディアセグメントに対応するビデオ画像セグメントをタイムラインで他の情報セグメントと同期する必要がある場合、ビデオ画像セグメントのタイムラインでの同期を確保するために、第1編集トラックにおける目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知るときに、第1更新時間長さに基づいて第1目標トラックセグメントの長さを調整し、即ち、元の表示位置で第1目標トラックセグメントの長さをスケーリングし、同様に、第3編集トラックにおける目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知るときに、第3更新時間長さに基づいて第3目標トラックセグメントの長さを調整する。
【0062】
さらに、第2編集トラックにおける第1目標トラックセグメント及び第3目標トラックセグメントに対応する第2目標トラックセグメントの長さを対応して調整し、調整後の第1目標トラックセグメント、調整後の第2目標トラックセグメント及び調整後の第3目標トラックセグメントの時間軸を整列させ、それにより、マルチメディアセグメントに含まれるすべての情報セグメントのタイムラインでの整列を実現する。
【0063】
例えば、
図9に示すように、
図7に示されるシーンを例にし、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前のテキストセグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正前のテキストセグメントの第1目標トラックセグメントの長さを長くして表示することができ、調整後の第1目標トラックセグメントで修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を表示する。
【0064】
本実施例では、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前の音声セグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正前の音声セグメントの第2目標トラックセグメントの長さを長くして表示することができ、調整後の第2目標トラックセグメントで修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を表示する。
【0065】
ビデオ画像セグメントと他の情報セグメントとの同期を実現するために、本実施例では、第2編集トラックにおける第1目標トラックセグメント及び第3目標トラックセグメントに対応する第2目標トラックセグメントの長さを対応して調整し、調整後の第1目標トラックセグメント、調整後の第2目標トラックセグメント及び調整後の第3目標トラックセグメントの時間軸を整列させる。
【0066】
本開示の一実施例では、マルチメディア情報セグメントに対応する音声セグメントを単独で編集して修正することができる。
【0067】
本実施例では、
図10に示すように、マルチメディア情報セグメントに対応する音声セグメントを単独で編集して修正するステップは、以下のステップ1001~ステップ1003を含む。
【0068】
ステップ1001、ユーザが第3編集トラックで第3目標トラックセグメントを選択することに応答し、第3目標トラックセグメントは第1目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別する。
【0069】
本開示の一実施例では、ユーザが第3編集トラックで第3目標トラックセグメントを選択することに応答し、第3目標トラックセグメントは1つあってもよく、複数あってもよく、第3目標トラックセグメントは第1目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別し、即ち、本実施例では、音声セグメントを単独で編集することができる。
【0070】
ステップ1002、予め設定されたオーディオ編集領域には、第3目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示する。
【0071】
本実施例の予め設定されたオーディオ編集領域は上記実施例で述べた編集領域に位置してもよく、予め設定されたオーディオ編集領域には、第3目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示し、
図11に示すように、候補代替音色はラベル形態等の任意のスタイルで表示することができ、例えば、候補代替音色のラベル「おじさん」、「女の子」、「老人」等を表示することができ、ユーザは対応するラベルをトリガーすることによって候補音色の選択を実現することができる。
【0072】
ステップ1003、ユーザがオーディオ編集領域で候補音色に基づいて現在の音色を修正して生成した第2目標音色に基づいて、第3目標トラックセグメントで目標音声セグメントを更新して識別し、目標音声セグメントは第2目標音色を使用して第1目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントである。
【0073】
本実施例では、ユーザは候補音色をトリガーすることで現在の音色を修正することができ、現在の音色をトリガーされた候補音色、即ち第2目標音色に修正し、それにより、第3トラックセグメントにおける音声セグメントの音色を修正し、ユーザがある音声セグメントの音色を修正するというニーズを満たし、例えば、ユーザは第3トラックセグメントに対応する複数の音声セグメントを異なる音色に修正することができ、それにより、面白い音声再生効果を実現する。
【0074】
以上のように、本開示の実施例のマルチメディアデータの処理方法は、マルチメディアセグメントに対応するテキストセグメント、音声セグメント等を柔軟的で単独で編集して修正することができ、さらにマルチメディアデータの多様化する編集ニーズを満たし、マルチメディアデータの品質を向上させる。
【0075】
上記実施例を実現するために、本開示はさらにマルチメディアデータの処理装置を提供する。
【0076】
図12は本開示の実施例が提供するマルチメディアデータの処理装置の構造模式図であり、該装置はソフトウェア及び/又はハードウェアにより実現することができ、一般的に電子機器に集積してマルチメディアデータの処理を行うことができる。
図12に示すように、該装置は、受信モジュール1210、生成モジュール1220及びディスプレイモジュール1230を含み、
受信モジュール1210は、ユーザが入力したテキスト情報を受信することに用いられ、
生成モジュール1220は、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成することに用いられ、
ディスプレイモジュール1230は、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイすることに用いられ、
マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、第1編集トラックは複数の第1トラックセグメントを含み、複数の第1トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第2編集トラックは複数の第2トラックセグメントを含み、複数の第2トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第3編集トラックは複数の第3トラックセグメントを含み、複数の第3トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。
【0077】
選択的に、受信モジュールは具体的に、
ユーザがテキスト領域で入力したテキスト情報を受信すること、及び/又は、
ユーザがリンク領域で入力したリンク情報を受信し、リンク情報を識別して対応するページのテキスト情報を取得し、ユーザが編集するためにテキスト領域に表示することに用いられる。
【0078】
選択的に、第1表示モジュールと、第2表示モジュールと、音色確定モジュールと、音声セグメント取得モジュールと、をさらに含み、
第1表示モジュールは、音色選択エントリコントロールを表示することに用いられ、
第2表示モジュールは、ユーザによる音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示することに用いられ、候補音色メニューは候補音色、及び候補音色に対応する試聴コントロールを含み、
音色確定モジュールは、ユーザによる候補音色メニューに対する選択操作に基づいて第1目標音色を確定することに用いられ、
音声セグメント取得モジュールは、第1目標音色に基づいてテキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得することに用いられる。
【0079】
選択的に、第3表示モジュールと、テキストセグメント編集モジュールと、をさらに含み、
第3表示モジュールは、ユーザが第1編集トラックで第1目標トラックセグメントを選択することに応答して、第1目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示することに用いられ、
テキストセグメント編集モジュールは、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第1目標トラックセグメントで目標テキストセグメントを更新して識別することに用いられる。
【0080】
選択的に、トラックセグメント確定モジュールと、音声セグメント取得モジュールと、をさらに含み、
トラックセグメント確定モジュールは、第1目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第3編集トラックで第1目標トラックセグメントに対応する第3目標トラックセグメントを確定することに用いられ、
音声セグメント取得モジュールは、目標テキストセグメントに対応する目標音声セグメントを取得し、第3目標トラックセグメントで目標音声セグメントを更新して識別することに用いられる。
【0081】
選択的に、
第1編集トラックにおける目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、第2編集トラックを変更しないように維持し、予め設定された第1候補領域に第1更新時間長さに対応する第1更新トラックセグメントを表示することであって、第1更新トラックセグメントで目標テキストセグメントを識別することと、
第3編集トラックにおける目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、第2編集トラックを変更しないように維持し、予め設定された第2候補領域で第3更新時間長さに対応する第3更新トラックセグメントを表示することであって、第3更新トラックセグメントで目標音声セグメントを識別することと、に用いられる第1時間長さ表示処理モジュールをさらに含む。
【0082】
選択的に、
第1編集トラックにおける目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、第1更新時間長さに基づいて第1目標トラックセグメントの長さを調整することと、
第3編集トラックにおける目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、第3更新時間長さに基づいて第3目標トラックセグメントの長さを調整することと、
第2編集トラックにおける第1目標トラックセグメント及び第3目標トラックセグメントに対応する第2目標トラックセグメントの長さを対応して調整し、調整後の第1目標トラックセグメント、調整後の第2目標トラックセグメント及び調整後の第3目標トラックセグメントの時間軸を整列させることと、に用いられる第2時間長さ表示処理モジュールをさらに含む。
【0083】
選択的に、
第1目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第2編集トラックで第1目標トラックセグメントに対応する第2目標トラックセグメントを確定することと、
目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、第2目標トラックセグメントで目標ビデオ画像セグメントを更新して識別することと、に用いられるビデオ画像更新モジュールをさらに含む。
【0084】
選択的に、
ユーザが第3編集トラックで第3目標トラックセグメントを選択することに応答することであって、第3目標トラックセグメントは第1目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別することと、
予め設定されたオーディオ編集領域には、第3目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示することと、
ユーザがオーディオ編集領域で候補音色に基づいて現在の音色を修正して生成した第2目標音色に基づいて、第3目標トラックセグメントで目標音声セグメントを更新して識別することであって、目標音声セグメントは第2目標音色を使用して第1目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであることと、に用いられる音色更新モジュールをさらに含む。
【0085】
選択的に、マルチメディア編集インタフェースは、
背景オーディオデータを識別することに用いられる第4編集トラックと、
第4編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域に第4編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示することに用いられる背景音表示モジュールと、
ユーザが背景音編集領域で候補背景音に基づいて現在の背景音を修正して生成した目標背景音に基づいて、第4編集トラックで目標背景音を更新して識別することに用いられる背景音更新処理モジュールと、をさらに含む。
【0086】
本開示の実施例が提供するマルチメディアデータの処理装置は本開示の任意の実施例が提供するマルチメディアデータの処理方法を実行することができ、方法を実行するための対応する機能モジュール及び有益な効果を有し、ここで繰り返して説明しない。
【0087】
上記実施例を実現するために、本開示はさらにコンピュータプログラム製品を提供し、コンピュータプログラム/命令を含み、該コンピュータプログラム/命令がプロセッサにより実行されるときに上記実施例のマルチメディアデータの処理方法を実現する。
【0088】
図13は本開示の実施例が提供する電子機器の構造模式図である。
【0089】
以下、具体的に
図13を参照し、それは本開示の実施例を実現するのに適する電子機器1300の構造模式図を示す。本開示の実施例の電子機器1300は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(携帯情報端末)、PAD(タブレットPC)、PMP(ポータブルマルチメディアプレーヤー)、車載端末(例えば車載ナビゲーション端末)等の移動端末、及びデジタルTV、デスク型コンピュータ等の固定端末を含んでもよいが、それらに限定されない。
図13に示される電子機器は単に1つの例であり、本開示の実施例の機能及び使用範囲に何らの制限を与えるべきではない。
【0090】
図13に示すように、電子機器1300はプロセッサ(例えば、中央プロセッサ、グラフィックプロセッサ等)1301を含んでもよく、それは、読み出し専用メモリ(ROM)1302に記憶されたプログラム又はメモリ1308からランダムアクセスメモリ(RAM)1303にロードされたプログラムに基づいて、各種の適当な動作及び処理を実行することができる。RAM1303には、電子機器1300の操作に必要な各種のプログラム及びデータがさらに記憶されている。プロセッサ1301、ROM1302及びRAM1303はバス1304を介して互いに接続される。入力/出力(I/O)インタフェース1305もバス1304に接続される。
【0091】
通常、例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープ等を含む入力装置1306、例えば液晶ディスプレイ(LCD)、スピーカ、発振器等を含む出力装置1307、例えばテープ、ハードディスク等を含むメモリ1308、及び通信装置1309は、I/Oインタフェース1305に接続され得る。通信装置1309は、電子機器1300が他の機器と無線又は有線通信を行ってデータを交換することを許可することができる。
図13に様々な装置を有する電子機器1300が示されているが、理解すべきであるように、示されたすべての装置を実施し又は備えることを要求しない。代替的に、より多い又はより少ない装置を実施し又は備えるようにしてもよい。
【0092】
特に、本開示の実施例に基づいて、フローチャートを参照して説明した上記の過程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは非一時的なコンピュータ可読媒体に搭載されたコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信装置1309によってネットワークからダウンロード及びインストールされ、又はメモリ1308からインストールされ、又はROM1302からインストールされるようにしてもよい。該コンピュータプログラムがプロセッサ1301により実行されるときに、本開示の実施例のマルチメディアデータの処理方法に限定された上記機能を実行する。
【0093】
なお、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組み合わせであってもよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含む、又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスにより使用されてもよく、又はそれらと組み合わせて使用されてもよい。本開示では、コンピュータ可読信号媒体は、ベースバンドに、又は搬送波の一部として伝播されるデータ信号を含んでもよく、これはコンピュータ可読プログラムコードを有する。このような伝播データ信号は、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、それらに限定されない複数の形態を取ることができる。コンピュータ可読信号媒体はさらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読信号媒体は、命令実行システム、装置又はデバイスにより使用され又はそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、ワイヤー、ケーブル、RF(無線周波数)等、又は上記の任意の適切な組み合わせを含むが、それらに限定されない任意の適切な媒体により伝送されてもよい。
【0094】
いくつかの実施形態では、クライアント、サーバはHTTP(HyperText Transfer Protocol、ハイパーテキスト転送プロトコル)のような現在知られている、又は将来開発される任意のネットワークプロトコルを利用して通信することができ、且つ任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)と互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、ネットワークのネットワーク(例えば、インターネット)及びエンドツーエンドネットワーク(例えば、ad hocエンドツーエンドネットワーク)、及び現在知られている又は将来開発される任意のネットワークを含む。
【0095】
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、単独で存在し、該電子機器に組み立てられないものであってもよい。
【0096】
上記コンピュータ可読媒体に1つ又は複数のプログラムが搭載され、上記1つ又は複数のプログラムが該電子機器により実行されるときに、該電子機器は、
ユーザが入力したテキスト情報を受信し、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、編集トラックにおいてタイムラインが整列する第1編集トラックに対応する第1トラックセグメント、第2編集トラックに対応する第2トラックセグメント、及び第3編集トラックに対応する第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別し、本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【0097】
電子機器は、1つ又は複数のプログラミング言語又はそれらの組み合わせによって、本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、オブジェクト指向のプログラミング言語、例えばJava、Smalltalk、C++を含むが、それらに限定されず、通常の手続き型プログラミング言語、例えば「C」言語又は類似のプログラミング言語をさらに含む。プログラムコードは、完全にユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで実行されてもよく、独立した1つのソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータで実行されて部分的にリモートコンピュータで実行されてもよく、又は完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに関わる状況では、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のネットワークを介してユーザコンピュータに接続でき、又は、外部コンピュータに接続できる(例えばインターネットサービスプロバイダを利用してインターネットを介して接続する)。
【0098】
図面のフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能な体系構造、機能及び操作を示している。この点では、フローチャート又はブロック図の各ボックスは1つのモジュール、プログラムセグメント、又はコードの一部を示すことができ、該モジュール、プログラムセグメント、又はコードの一部は、規定のロジック機能を実現するための1つ又は複数の実行可能な命令を含む。なお、代替としてのいくつかの実現形態において、ボックス内に表記された機能は、図面の表記と異なる順序で発生してもよい。例えば、2つの連続するボックスは実際に基本的に並列して実行することができるが、場合によって、反対の順序で実行されてもよく、これは関わる機能によって定められる。なお、ブロック図及び/又はフローチャートの各ボックス、及びブロック図及び/又はフローチャートのボックスの組み合わせは、規定の機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。
【0099】
本開示の実施例に関わるユニットはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ユニットの名称はある状況で該ユニット自体に対する限定を構成しない。
【0100】
本明細書で上記した機能は、少なくとも部分的に1つ又は複数のハードウェアロジック部材によって実行することができる。例えば、非限定的に、使用できる例示的なハードウェアロジック部材は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブルロジック機器(CPLD)等を含む。
【0101】
本開示の文脈では、機械可読媒体は有形の媒体であってもよく、それは、命令実行システム、装置又は機器により使用され又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又は機器、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数の線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
【0102】
以上の説明は本開示の好適な実施例及び使用される技術原理の説明に過ぎない。当業者が理解すべきであるように、本開示に関わる開示範囲は、上記技術的特徴の特定の組み合わせによる技術的解決手段に限定されず、同時に、上記開示の発想を逸脱することなく、上記技術的特徴又はその同等の特徴を任意に組み合わせて形成する他の技術的手段を含むべきである。例えば、上記特徴と、本開示に開示されている(これに限定されない)類似の機能を有する技術的特徴と、を互いに置き換えて形成される技術的解決手段が挙げられる。
【0103】
また、特定の順序で各操作を説明したが、これらの操作が示された特定の順序又はシーケンシャルな順序で実行されることを要求すると理解されるべきではない。場合によっては、マルチタスク及び並列処理は有利である可能性がある。同様に、上記の説明にいくつかの具体的な実現の細部が含まれるが、これらは本開示の範囲の制限として解釈されるべきではない。単独の実施例の文脈に説明されるある特徴は、単一の実施例において組み合わせて実現されてもよい。逆に、単一の実施例の文脈に説明される様々な特徴は、単独で、又は任意の適切なサブコンビネーションの方式で複数の実施例において実現されてもよい。
【0104】
構造特徴及び/又は方法ロジック動作に特定の言語で本主題を説明したが、理解すべきであるように、添付の特許請求の範囲に限定された主題は必ずしも以上に説明された特定の特徴又は動作に限定されるものではない。逆に、以上に説明された特定の特徴及び動作は特許請求の範囲を実現するための例示的な形態に過ぎない。
【手続補正書】
【提出日】2024-01-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチメディアデータの処理方法であって、
ユーザが入力したテキスト情報を受信するステップと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記
第1編集トラック
、前記第2編集トラック、及び前記第3編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理方法。
【請求項2】
ユーザが入力したテキスト情報を受信する前記ステップは、
ユーザがテキスト領域で入力したテキスト情報を受信するステップ、及び/又は、
ユーザがリンク領域で入力したリンク情報を受信し、前記リンク情報を識別して対応するページのテキスト情報を取得し、前記ユーザが編集するために前記テキスト領域に表示するステップを含む請求項1に記載の方法。
【請求項3】
音色選択エントリコントロールを表示するステップと、
ユーザによる前記音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示するステップであって、前記候補音色メニューは候補音色、及び前記候補音色に対応する試聴コントロールを含むステップと、
前記ユーザによる前記候補音色メニューに対する選択操作に基づいて第1目標音色を確定するステップと、
前記第1目標音色に基づいて前記テキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得するステップと、をさらに含む請求項
1に記載の方法。
【請求項4】
前記ユーザが前記第1編集トラックで第1目標トラックセグメントを選択することに応答して、前記第1目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示するステップと、
前記ユーザが前記テキスト編集領域
に表示されている前記現在
識別されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、前記第1目標トラックセグメントで前記目標テキストセグメントを更新して識別するステップと、をさらに含む請求項
1に記載の方法。
【請求項5】
前記第1目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第3編集トラックで前記第1目標トラックセグメントに対応する第3目標トラックセグメントを確定するステップと、
前記目標テキストセグメントに対応する目標音声セグメントを取得し、前記第3目標トラックセグメントで前記目標音声セグメントを更新して識別するステップと、をさらに含む請求項4に記載の方法。
【請求項6】
前記第1編集トラックにおける前記目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第2編集トラックを変更しないように維持し、予め設定された第1候補領域に前記第1更新時間長さに対応する第1更新トラックセグメントを表示するステップであって、前記第1更新トラックセグメントで前記目標テキストセグメントを識別するステップと、
前記第3編集トラックにおける前記目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第2編集トラックを変更しないように維持し、予め設定された第2候補領域に前記第3更新時間長さに対応する第3更新トラックセグメントを表示するステップであって、前記第3更新トラックセグメントで前記目標音声セグメントを識別するステップと、をさらに含む請求項5に記載の方法。
【請求項7】
前記第1編集トラックにおける前記目標テキストセグメントに対応する第1更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第1更新時間長さに基づいて前記第1目標トラックセグメントの長さを調整するステップと、
前記第3編集トラックにおける前記目標音声セグメントに対応する第3更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第3更新時間長さに基づいて前記第3目標トラックセグメントの長さを調整するステップと、
前記第2編集トラックにおける前記第1目標トラックセグメント及び前記第3目標トラックセグメントに対応する第2目標トラックセグメントの長さを対応して調整し、調整後の前記第1目標トラックセグメント、調整後の第2目標トラックセグメント及び調整後の第3目標トラックセグメントの時間軸を整列させるステップと、をさらに含む請求項5に記載の方法。
【請求項8】
前記第1目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第2編集トラックで前記第1目標トラックセグメントに対応する第2目標トラックセグメントを確定するステップと、
前記目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、前記第2目標トラックセグメントで前記目標ビデオ画像セグメントを更新して識別するステップと、をさらに含む請求項4に記載の方法。
【請求項9】
前記ユーザが前記第3編集トラックで第3目標トラックセグメントを選択することに応答するステップであって、前記第3目標トラックセグメント
は第1目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別するステップと、
予め設定されたオーディオ編集領域には、前記第3目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示するステップと、
前記ユーザが前記オーディオ編集領域で前記候補音色に基づいて前記現在の音色を修正して生成した第2目標音色に基づいて、前記第3目標トラックセグメントで目標音声セグメントを更新して識別するステップであって、前記目標音声セグメントは前記第2目標音色を使用して前記第1目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであるステップと、をさらに含む請求項
1に記載の方法。
【請求項10】
前記マルチメディア編集インタフェースは、
背景オーディオデータを識別することに用いられる第4編集トラックをさらに含み、
前記第4編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域に前記第4編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示し、
前記ユーザが前記背景音編集領域で前記候補背景音に基づいて前記現在の背景音を修正して生成した目標背景音に基づいて、前記第4編集トラックで前記目標背景音を更新して識別する請求項
1に記載の方法。
【請求項11】
マルチメディアデータの処理装置であって、
ユーザが入力したテキスト情報を受信するための受信モジュールと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、
前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第1編集トラック、第2編集トラック、及び第3編集トラックを含み、前記第1編集トラックは複数の第1トラックセグメントを含み、前記複数の第1トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第2編集トラックは複数の第2トラックセグメントを含み、前記複数の第2トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第3編集トラックは複数の第3トラックセグメントを含み、前記複数の第3トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記
第1編集トラック
、前記第2編集トラック、及び前記第3編集トラックにおいてタイムラインが整列する第1トラックセグメント、第2トラックセグメント及び第3トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理装置。
【請求項12】
電子機器であって、
プロセッサと、
実行可能な命令を記憶するように配置されるメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記実行可能な命令を実行することで上記請求項1~10のいずれか1項に記載のマルチメディアデータの処理方法を実現するように配置される電子機器。
【請求項13】
コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶されており、前記コンピュータプログラムは上記請求項1~10のいずれか1項に記載のマルチメディアデータの処理方法を実行することに用いられるコンピュータ可読記憶媒体。
【国際調査報告】