(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-28
(54)【発明の名称】マルチメディアデータ生成方法、装置、電子機器、媒体及びプログラム製品
(51)【国際特許分類】
G06F 16/438 20190101AFI20240621BHJP
G10L 13/00 20060101ALI20240621BHJP
G10L 21/003 20130101ALI20240621BHJP
G10L 21/043 20130101ALI20240621BHJP
【FI】
G06F16/438
G10L13/00 100S
G10L21/003
G10L21/043
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023577718
(86)(22)【出願日】2022-10-27
(85)【翻訳文提出日】2023-12-15
(86)【国際出願番号】 CN2022127840
(87)【国際公開番号】W WO2023072172
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】202111266196.5
(32)【優先日】2021-10-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521431088
【氏名又は名称】北京字跳▲網▼絡技▲術▼有限公司
【氏名又は名称原語表記】Beijing Zitiao Network Technology Co., Ltd.
【住所又は居所原語表記】0207, 2/F, Building 4, Zijin Digital Park, Haidian District, Beijing,P. R. China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ツァオ,ジャジン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175JC07
(57)【要約】
本出願は、マルチメディアデータ処理技術分野に用いられるマルチメディアデータ生成方法、装置、電子機器、媒体、及びプログラム製品を開示する。本方法は、ユーザが入力したテキスト情報を受信することを含む。テキスト情報に対する録音トリガー操作に応答した場合、テキスト情報を表示し、テキスト情報による第一朗読音声を収集する。テキスト情報と第一朗読音声に基づいて、第一マルチメディアデータを生成し提示する。ここで、第一マルチメディアデータは、第一朗読音声及びテキスト情報にマッチングするビデオ画像を含む。第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、複数の第一マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応する。本出願は、マルチメディアデータ生成の品質を向上させることができる。
【特許請求の範囲】
【請求項1】
マルチメディアデータ生成方法であって、
ユーザが入力したテキスト情報を受信することと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集することと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示することと、を含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、
前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、
前記第一ターゲットマルチメディアフラグメントは、前記複数の第一マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応する第一マルチメディアフラグメントであり、
前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、方法。
【請求項2】
前記方法は、さらに、
マルチメディア合成操作に応答した場合、前記テキスト情報を音声データに変換することと、
前記テキスト情報と前記音声データに基づいて、第二マルチメディアデータを生成し提示することと、を含み、
前記第二マルチメディアデータは、前記音声データ及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、
前記複数の第二マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、
前記第二ターゲットマルチメディアフラグメントは、前記複数の第二マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応する第二マルチメディアフラグメントであり、
前記第二ターゲットビデオフラグメントは、前記第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第二ターゲット音声フラグメントは、前記第二ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項3】
前記方法は、さらに、
前記第二マルチメディアデータを生成した後に、録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第二朗読音声を収集することと、
前記テキスト情報と前記第二朗読音声に基づいて、第三マルチメディアデータを生成し表示して、前記第二マルチメディアデータを上書きすることと、を含み、
前記第三マルチメディアデータは、前記第二朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、
前記複数の第三マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含み、
前記第三ターゲットマルチメディアフラグメントは、前記複数の第三マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応する第三マルチメディアフラグメントであり、
前記第三ターゲットビデオフラグメントは、前記第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第三ターゲット音声フラグメントは、前記第三ターゲットテキストセグメントの朗読音声を含む、ことを特徴とする、
請求項2に記載の方法。
【請求項4】
前記方法は、さらに、
前記第一ターゲット音声フラグメントに対する再録音操作に応答した場合、前記第一ターゲット音声フラグメントを削除することと、
前記第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、前記第一ターゲットテキストセグメントの朗読フラグメントを収集することと、
前記朗読フラグメントを前記第一ターゲット音声フラグメントに対応する領域に表示することと、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項5】
前記方法は、さらに、
前記第一朗読音声を収集する時、前記第一ターゲット音声フラグメントと前記第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、前記第一朗読音声と前記第一ターゲットテキストセグメントとをマークすること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項6】
前記方法は、さらに、
音声フラグメントのスワイプ操作に応答し、且つ、前記第一朗読音声を指示する第一カーソルを前記第一ターゲット音声フラグメントにスワイプした場合、前記テキスト情報を指示する第二カーソルを前記第一ターゲットテキストセグメントに移動すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項7】
前記方法は、さらに、
前記第一朗読音声を収集する時、前記ユーザが現在朗読しているテキストセグメントを強調表示すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項8】
前記方法は、さらに、
第一マルチメディアデータを生成し表示した後に、前記テキスト情報に対する編集操作に応答して、前記テキスト情報を修正し、修正されたターゲットテキスト情報を得ることと、
前記ターゲットテキスト情報に対する録音トリガー操作に応答して、前記ターゲットテキスト情報を表示し、前記ターゲットテキスト情報によるターゲット朗読音声を収集することと、
前記ターゲット朗読音声に基づいて、前記第一朗読音声を更新し、第三朗読音声を得ることと、
前記ターゲットテキスト情報と前記第三朗読音声に基づいて、第四マルチメディアデータを生成し、提示することと、を含み、
前記第四マルチメディアデータは、前記第三朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、
前記複数の第四マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含み、
前記第四ターゲットマルチメディアフラグメントは、前記複数の第四マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応する第四マルチメディアフラグメントであり、
前記第四ターゲットビデオフラグメントは、前記第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第四ターゲット音声フラグメントは、前記第四ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項9】
前記方法は、さらに、
前記第一朗読音声を収集した後に、前記第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得ること、を含み、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示することは、
前記テキスト情報と前記第四朗読音声に基づいて、第一マルチメディアデータを生成し提示すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項10】
マルチメディアデータ生成装置であって、
ユーザが入力したテキスト情報を受信するためのテキスト情報受信モジュールと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集するための第一朗読音声収集モジュールと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示するための第一マルチメディアデータ生成モジュールと、を含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、
前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、
前記第一ターゲットマルチメディアフラグメントは、前記複数の第一マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、
前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、装置。
【請求項11】
プロセッサを含む、電子機器であって、
前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行するために用いられ、
前記コンピュータプログラムが前記プロセッサにより実行されると、請求項1乃至9のいずれか一項に記載の方法を実施する、
ことを特徴とする、電子機器。
【請求項12】
コンピュータプログラムが記憶されている、コンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1乃至9のいずれか一項に記載の方法をコンピュータに実施させる、
ことを特徴とする、コンピュータ可読記憶媒体。
【請求項13】
コンピュータ上で運行すると、前記コンピュータに請求項1乃至9のいずれか一項に記載の方法を実施させる、
ことを特徴とする、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、データ処理技術分野に属し、具体的には、マルチメディアデータ生成方法、装置、電子機器、媒体、及びプログラム製品に関する。
【0002】
関連出願の相互参照
本出願は、2021年10月28日に中国国家知識産権局に提出された、出願番号が202111266196.5であり、発明名称が「マルチメディアデータ生成方法、装置、電子機器、媒体及びプログラム製品」である中国特許出願について優先権を主張しており、その内容のすべては、引用により本出願に取り込まれている。
【背景技術】
【0003】
インターネットの発展に伴い、ますます多くのユーザは、ビデオを製作することにより、他のユーザとコンテンツを共有する。関連技術では、ユーザが編集した文字に基づいて、ビデオデータを生成することができ、例えば、マシンで文字を音声に直接変換し、音声に基づいて、ビデオデータを生成することができる。しかしながら、この関連技術によって生成されたビデオの品質が、比較的低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記技術問題を解決し又は上記技術問題を少なくとも部分的に解決するために、本出願は、マルチメディアデータ生成方法、装置、電子機器、媒体、及びプログラム製品を提供する。
【課題を解決するための手段】
【0005】
本出願の第一態様によれば、マルチメディアデータ生成方法が提供される。この方法は、
ユーザが入力したテキスト情報を受信することと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集することと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示(display、present)することとを含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、前記第一ターゲットマルチメディアフラグメントは、前記複数の第一マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応する第一マルチメディアフラグメントであり、前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む。
【0006】
選択的に、前記方法は、
マルチメディア合成操作に応答した場合、前記テキスト情報を音声データに変換することと、
前記テキスト情報と前記音声データに基づいて、第二マルチメディアデータを生成し提示することとを、さらに含み、
ここで、前記第二マルチメディアデータは、前記音声データ及び前記テキスト情報にマッチングするビデオ画像を含み、前記第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、前記複数の第二マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、前記第二ターゲットマルチメディアフラグメントは、前記複数の第二マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応する第二マルチメディアフラグメントであり、前記第二ターゲットビデオフラグメントは、前記第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第二ターゲット音声フラグメントは、前記第二ターゲットテキストセグメントの朗読音声を含む。
【0007】
選択的に、前記方法は、
前記第二マルチメディアデータを生成した後に、録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第二朗読音声を収集することと、
前記テキスト情報と前記第二朗読音声に基づいて、第三マルチメディアデータを生成し表示して、前記第二マルチメディアデータを上書きすることとを、さらに含み、
前記第三マルチメディアデータは、前記第二朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、前記複数の第三マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含み、前記第三ターゲットマルチメディアフラグメントは、前記複数の第三マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応する第三マルチメディアフラグメントであり、前記第三ターゲットビデオフラグメントは、前記第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第三ターゲット音声フラグメントは、前記第三ターゲットテキストセグメントの朗読音声を含む。
【0008】
選択的に、前記方法は、
前記第一ターゲット音声フラグメントに対する再録音操作に応答した場合、前記第一ターゲット音声フラグメントを削除することと、
前記第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、前記第一ターゲットテキストセグメントの朗読フラグメントを収集することと、
前記朗読フラグメントを前記第一ターゲット音声フラグメントに対応する領域に表示することと、をさらに含む。
【0009】
選択的に、前記方法は、
前記第一朗読音声を収集する時、第一ターゲット音声フラグメントと前記第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、前記第一朗読音声と前記第一ターゲットテキストセグメントとをマークすること、をさらに含む。
【0010】
選択的に、前記方法は、
音声フラグメントのスワイプ操作に応答し、且つ前記第一朗読音声を指示する第一カーソルを前記第一ターゲット音声フラグメントにスワイプした場合、前記テキスト情報を指示する第二カーソルを前記第一ターゲットテキストセグメントに移動すること、をさらに含む。
【0011】
選択的に、前記方法は、
前記第一朗読音声を収集する時、前記ユーザが現在朗読しているテキストセグメントを強調表示すること、をさらに含む。
【0012】
選択的に、前記方法は、
第一マルチメディアデータを生成し表示した後に、前記テキスト情報に対する編集操作に応答して、前記テキスト情報を修正し、修正されたターゲットテキスト情報を得ることと、
前記ターゲットテキスト情報に対する録音トリガー操作に応答し、前記ターゲットテキスト情報を表示し、前記ターゲットテキスト情報によるターゲット朗読音声を収集することと、
前記ターゲット朗読音声に基づいて前記第一朗読音声を更新し、第三朗読音声を得ることと、
前記ターゲットテキスト情報と前記第三朗読音声に基づいて、第四マルチメディアデータを生成し提示することと、をさらに含み、
前記第四マルチメディアデータは、前記第三朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、前記複数の第四マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含み、前記第四ターゲットマルチメディアフラグメントは、前記複数の第四マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応する第四マルチメディアフラグメントであり、前記第四ターゲットビデオフラグメントは、前記第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第四ターゲット音声フラグメントは、前記第四ターゲットテキストセグメントの朗読音声を含む。
【0013】
選択的に、前記方法は、
前記第一朗読音声を収集した後に、前記第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得ること、をさらに含み、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示することは、
前記テキスト情報と前記第四朗読音声に基づいて、第一マルチメディアデータを生成し提示すること、を含む。
【0014】
本出願の第二態様によれば、マルチメディアデータ生成装置が提供される。この装置は、
ユーザが入力したテキスト情報を受信するためのテキスト情報受信モジュールと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集するための第一朗読音声収集モジュールと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示するための第一マルチメディアデータ生成モジュールと、を含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、ここで、第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、前記第一ターゲットマルチメディアフラグメントは、前記複数のマルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む。
【0015】
選択的に、前記装置は、
マルチメディア合成操作に応答した場合、前記テキスト情報を音声データに変換するための音声データ変換モジュールと、
前記テキスト情報と前記音声データに基づいて、第二マルチメディアデータを生成し提示するための第二マルチメディアデータ生成モジュールと、をさらに含み、
前記第二マルチメディアデータは、前記音声データ及び前記テキスト情報にマッチングするビデオ画像を含み、前記第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、前記複数の第二マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、前記第二ターゲットマルチメディアフラグメントは、前記複数のマルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、前記第二ターゲットビデオフラグメントは、前記第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第二ターゲット音声フラグメントは、前記第二ターゲットテキストセグメントの朗読音声を含む。
【0016】
選択的に、前記装置は、
前記第二マルチメディアデータを生成した後に、録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第二朗読音声を収集するための第二朗読音声収集モジュールと、
前記テキスト情報と前記第二朗読音声に基づいて、第三マルチメディアデータを生成し表示して、前記第二マルチメディアデータを上書きするための第三マルチメディアデータ生成モジュールと、をさらに含み、
前記第三マルチメディアデータは、前記第二朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、前記複数の第三マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含み、前記第三ターゲットマルチメディアフラグメントは、前記複数のマルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、前記第三ターゲットビデオフラグメントは、前記第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第三ターゲット音声フラグメントは、前記第三ターゲットテキストセグメントの朗読音声を含む。
【0017】
選択的に、前記装置は、
前記第一ターゲット音声フラグメントに対する再録音操作に応答した場合、前記第一ターゲット音声フラグメントを削除することと、前記第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、前記第一ターゲットテキストセグメントの朗読フラグメントを収集し、前記朗読フラグメントを前記第一ターゲット音声フラグメントに対応する領域に表示することとに用いられるための音声フラグメント再録音モジュール、をさらに含む。
【0018】
選択的に、前記装置は、
前記第一朗読音声を収集する時、第一ターゲット音声フラグメントと前記第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、前記第一朗読音声と前記第一ターゲットテキストセグメントとをマークするためのエラーマークモジュール、をさらに含む。
【0019】
選択的に、前記装置は、
音声フラグメントのスワイプ操作に応答し、且つ前記第一朗読音声を指示する第一カーソルを前記第一ターゲット音声フラグメントにスワイプした場合、前記テキスト情報を指示する第二カーソルを前記第一ターゲットテキストセグメントに移動するための音声フラグメントスワイプモジュール、をさらに含む。
【0020】
選択的に、前記装置は、
前記第一朗読音声を収集する時、前記ユーザが現在朗読しているテキストセグメントを強調表示するためのテキストセグメント強調表示モジュール、をさらに含む。
【0021】
選択的に、前記装置は、
第一マルチメディアデータを生成し表示した後に、前記テキスト情報に対する編集操作に応答し、前記テキスト情報を修正し、修正されたターゲットテキスト情報を得るためのテキスト情報修正モジュールと、
前記ターゲットテキスト情報に対する録音トリガー操作に応答し、前記ターゲットテキスト情報を表示し、前記ターゲットテキスト情報によるターゲット朗読音声を収集するためのターゲット朗読音声収集モジュールと、
前記ターゲット朗読音声に基づいて前記第一朗読音声を更新し、第三朗読音声を得るための第三朗読音声生成モジュールと、
前記ターゲットテキスト情報と前記第三朗読音声に基づいて、第四マルチメディアデータを生成し提示するための第四マルチメディアデータ生成モジュールと、をさらに含み、
前記第四マルチメディアデータは、前記第三朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、前記第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、前記複数の第四マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含み、前記第四ターゲットマルチメディアフラグメントは、前記複数のマルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、前記第四ターゲットビデオフラグメントは、前記第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、前記第四ターゲット音声フラグメントは、前記第四ターゲットテキストセグメントの朗読音声を含む。
【0022】
選択的に、前記装置は、
前記第一朗読音声を収集した後に、前記第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得るための音声処理モジュールと、
具体的に前記テキスト情報と前記第四朗読音声に基づいて、第一マルチメディアデータを生成し提示するための前記第一マルチメディアデータ生成モジュールと、をさらに含む。
【0023】
本出願の第三態様によれば、電子機器が提供される。この電子機器は、プロセッサを含み、前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行するために用いられ、前記コンピュータプログラムがプロセッサにより実行されると、第一態様に記載の方法を実現する。
【0024】
本出願の第四態様によれば、コンピュータ可読記憶媒体が提供される。その上には、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると、第一態様に記載の方法を実施する。
【0025】
本出願の第五態様によれば、コンピュータプログラム製品が提供される。前記コンピュータプログラム製品がコンピュータ上で実行されると、前記コンピュータに第一態様に記載の方法を実施させる。
【発明の効果】
【0026】
本出願の実施例による技術案は、従来の技術に比べて、以下のような利点を有する。
【0027】
ユーザがテキスト情報を入力した後に、ユーザに録音のエントリを提供することができ、ユーザは、このエントリを介して、録音トリガー操作を実行することができる。録音トリガー操作に応答した場合、ユーザが朗読するためにテキスト情報を表示し、ユーザがテキスト情報を朗読する過程において、第一朗読音声を収集することができる。テキスト情報及び第一朗読音声に基づいて、第一マルチメディアデータを生成し、第一マルチメディアデータを提示することができる。第一マルチメディアデータは、第一朗読音声及びテキスト情報にマッチングするビデオ画像を含み、第一マルチメディアデータは、テキスト情報における複数のテキストセグメントにそれぞれ対応する第一マルチメディアフラグメントを含む。本出願は、人工方式で第一朗読音声を収録することができ、マシンによってテキスト情報を音声に変換することに比べて、人工的に収録された第一朗読音声は、より感情的である。そのため、生成された第一マルチメディアデータの品質も向上し、ユーザの視聴体験を向上させることができる。そして、第一マルチメディアデータは、複数の第一マルチメディアフラグメントの形式で表示され、ユーザは、第一マルチメディアフラグメントにおけるテキストセグメントとビデオ画像との対応関係を直感的に知ることができ、それによって、単一のマルチメディアフラグメントを修正し、ビデオ製作の効率及びユーザの体験を向上させることができる。
【図面の簡単な説明】
【0028】
図面は、本発明の更なる理解を提供するために用いられ、明細書の一部を構成し、本発明の実施例と共に本発明を解釈するために用いられ、本発明の制限を構成するものではない。図面は、いかのとおりである。
【
図1】本出願の実施例に使用可能なマルチメディアデータ生成方法に係る例示的な応用環境のシステムアーキテクチャの概略図を示している。
【
図2】本出願の実施例におけるマルチメディアデータ生成方法に係る一つのフローチャートである。
【
図3】本出願の実施例におけるテキスト入力インタフェースに係る一つの概略図である。
【
図4】本出願の実施例における録音インタフェースに係る一つの概略図である。
【
図5】本出願の実施例における表示マルチメディアデータに係る一つのインタフェースの概略図である。
【
図6】本出願の実施例におけるマルチメディアデータ生成方法に係るまた別のフローチャートである。
【
図7】本出願の実施例におけるマルチメディアデータ生成方法に係るまた別のフローチャートである。
【
図8】本出願の実施例における録音インタフェースに係るまた別の概略図である。
【
図9】本出願の実施例における録音インタフェースに係るまた別の概略図である。
【
図10】本出願の実施例における録音インタフェースのまた別の概略図である。
【
図11】本出願の実施例におけるマルチメディアデータ生成方法に係るまた別のフローチャートである。
【
図12】本出願の実施例におけるマルチメディアデータ生成装置に係る一つの構造概略図である。
【
図13】本出願の実施例における電子機器の一つに係る構造概略図である。
【発明を実施するための形態】
【0029】
本出願の上記目的、特徴と利点をより明瞭に理解できるように、以下では、本出願の方案をさらに記述する。説明すべきこととして、衝突しない限り、本出願の実施例及び実施例における特徴は、互いに組み合わせることが可能である。
【0030】
以下の記述においては、本出願を十分に理解するために、多くの具体的な詳細を記述しているが、本出願は、ここで記述されるものと異なる他の方式で実施されてもよく、明細書における実施例は、本出願の一部の実施例にすぎず、すべての実施例ではないことが明らかである。
【0031】
図1は、本出願の実施例に使用可能なマルチメディアデータ生成方法に係る例示的な応用環境のシステムアーキテクチャの概略図を示している。
【0032】
図1に示すように、システムアーキテクチャ100は、端末機器101、端末機器102、及び端末機器103のうちの一つ又は複数と、ネットワーク104と、サーバ105とを含んでもよい。ネットワーク104は、端末機器101、端末機器102、及び端末機器103と、サーバ105との間に通信リンクを提供する媒体として用いられる。ネットワーク104は、様々な接続タイプ、例えば、有線、無線通信リンク、又は光ファイバケーブルなどを含んでもよい。端末機器101、端末機器102、端末機器103は、様々な電子機器であってもよく、デスクトップパソコン、携帯型コンピュータ、スマート携帯電話とタブレットパソコンなどを含むが、それらに限らない。理解すべきこととして、
図1における端末機器、ネットワークとサーバの数は、ただ概略的なものである。実現の必要に応じて、任意の数の端末機器、ネットワークとサーバを有してもよい。例えば、サーバ105は、複数のサーバからなるサーバクラスタなどであってもよい。
【0033】
本出願の実施例によって提供されるマルチメディアデータ生成方法は、一般的に、端末機器101、端末機器102、端末機器103にインストールされたアプリケーションによって実行される。それに応じて、マルチメディアデータ生成装置は、端末機器101、端末機器102、端末機器103に設置されてもよい。例を挙げると、ユーザは、端末機器101、端末機器102、端末機器103にインストールされたアプリケーションにテキスト情報を入力し、録音操作を実行することができる。アプリケーションは、ユーザが朗読するためにテキスト情報を表示することができる。ユーザがテキスト情報を朗読する時、アプリケーションは、第一朗読音声を収集することができる。アプリケーションは、テキスト情報と第一音声データをサーバ105にアップロードし、サーバ105は、このテキスト情報に基づいて、ローカルに記憶された画像ライブラリからテキスト情報にマッチングするビデオ画像を取得し、ビデオ画像と第一朗読音声とを合成し、第一マルチメディアデータを得て、第一マルチメディアデータをアプリケーションに返して、アプリケーションに提示することができる。ユーザが自発的に録音することにより、生成された第一マルチメディアデータをより感情的にすることができ、それによって、第一マルチメディアデータの品質を向上させ、ユーザの視聴体験を向上させる。
【0034】
図2を参照すると、
図2は、本出願の実施例におけるマルチメディアデータ生成方法の一つのフローチャートであり、端末機器にインストールされたアプリケーションに用いられ、以下のステップを含んでもよい。
【0035】
ステップS210では、ユーザが入力したテキスト情報を受信する。
【0036】
本出願の実施例では、ユーザに、文字を編集するテキスト入力インタフェースを提供してもよい。ユーザは、ビデオ製作の需要に応じて、テキスト情報の編集をカスタマイズし、又は、許可されたリンクを貼り付け、リンクからテキスト情報などを抽出してもよい。ビデオを製作する時に、一般的には、時間長の制限があるため、それに応じて、テキスト情報の文字数にも一定の制限がある。例えば、2000文字を超えないなどである。そのため、ユーザがテキスト情報を入力する過程において、文字数がオーバーランしているかどうかを検査してもよく、オーバーランの時に、文字数オーバーランポップアップウィンドウを提示して、ユーザに注意を促してもよい。
【0037】
図3を参照すると、
図3は、本出願の実施例におけるテキスト入力インタフェースの一つの概略図であり、それには、テキスト入力インタフェースと、ワンタッチビデオ生成ボタンと、自発的録音ボタンとが含まれる。ユーザは、テキスト入力インタフェースでテキスト情報を編集することができる。ワンタッチビデオ生成ボタンと自発的録音ボタンは、マルチメディアデータを生成する異なる方式であり、以下で、詳細に紹介する。
【0038】
ステップS220では、テキスト情報に対する録音トリガー操作に応答した場合、テキスト情報を表示し、テキスト情報による第一朗読音声を収集する。
【0039】
本出願の実施例では、ユーザに自発的に録音できるエントリを提供しており、このエントリを介して、ユーザは、自分で吹き替えたビデオを製作することができる。例えば、
図3に示す「自発的録音」ボタンは、自発的に録音するエントリである。ユーザは、この「自発的録音」ボタンをクリックして、録音トリガー操作を実行することができる。
【0040】
選択的に、ユーザが録音トリガー操作を実行した後に、アプリケーションには、テキスト情報が直接表示されてもよい。ユーザは、表示されたテキスト情報に基づいて朗読し、アプリケーションは、テキスト情報による第一朗読音声を収集してもよい。又は、ユーザが録音トリガー操作を実行した後に、先に録音インタフェースに入り、ユーザが、この録音インタフェースにおいてトリガー操作をさらに実行した後に、テキスト情報による第一朗読音声を収集してもよい。
【0041】
図4を参照すると、
図4は、本出願の実施例における録音インタフェースの一つの概略図である。録音インタフェースの上半分は、テキスト表示領域であり、録音インタフェースの下半分は、録音ボタンを含む。テキスト表示領域には、テキスト情報が表示されており、このように、ユーザは、このテキスト情報に基づいて、容易に録音することができる。ユーザが初めて録音インタフェースに入る時に、ユーザに録音を案内するために案内バブルを提示してもよい。例えば、案内バブルには、「下方のボタンをクリックして録音を開始すると、字幕はあなたの朗読に伴って自動的にスクロールします」と表示されてもよく、案内バブルは、5秒(s)後に自動的に消えてもよい。
【0042】
ユーザが録音ボタンに対してトリガー操作(例えばクリック操作など)を実行した後に、録音機能がオンとなり、録音ボタンが録音状態となり、録音ボタンを再クリックすると、録音を停止することができ、録音ボタンを再クリックすると、録音を継続することができる。ユーザは、録音状態で、このテキスト情報を朗読することができ、ユーザは、録音中に需要に応じて、収録を一時停止することができる。ユーザは、朗読が完了した後に、完了ボタンをクリックすることによって、第一朗読音声を得ることができる。
【0043】
ステップS230では、テキスト情報と第一朗読音声に基づいて、第一マルチメディアデータを生成し提示する。
【0044】
第一朗読音声を収録して得た後に、アプリケーションは、第一朗読音声とテキスト情報をこのアプリケーションに対応するサーバに送信することができる。サーバは、ローカルに記憶された画像ライブラリから、テキスト情報にマッチングするビデオ画像を選択することができる。ビデオ画像と第一朗読音声とを合成することで、第一マルチメディアデータを得て、アプリケーションに第一マルチメディアデータを提示することができる。ビデオの生成に失敗した場合、ポップアップウィンドウで「ビデオの生成に失敗しましたが、再試行してください」と提示されてもよく、ユーザは、再試行ボタンをクリックして、マルチメディアデータを再生成することができる。
【0045】
説明すべきこととして、テキスト情報を複数の異なるテキストセグメントに分けてもよい。各テキストセグメントに対して、いずれもこのテキストセグメントにマッチングする画像を選択してもよい。そのため、ビデオ画像の数は、複数であってもよい。ビデオ画像の数が多いほど、生成された第一マルチメディアデータコンテンツが豊富で効果的である。又は、ユーザは、ローカルからビデオ画像を選択してもよく、アプリケーションは、ビデオ画像と第一朗読音声とを一緒にサーバにアップロードする。サーバは、ビデオ画像と第一朗読音声に基づいて、第一マルチメディアデータを直接合成する。合成中に、ビデオ画像と第一朗読音声とを対応させて、第一マルチメディアデータの品質を向上させることができる。
【0046】
ここで、第一マルチメディアデータは、第一朗読音声とテキスト情報にマッチングするビデオ画像とを含む。即ち、第一マルチメディアデータは、音声と画像とを含むデータであり、第一マルチメディアデータは、ビデオデータであってもよい。前述のように、テキスト情報は、複数のテキストセグメントを含んでもよい。そのため、第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、複数の第一マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応する。
【0047】
それに応じて、第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含む。第一ターゲットマルチメディアフラグメントは、複数の第一マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応する第一マルチメディアフラグメントである。第一ターゲットビデオフラグメントは、第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、第一ターゲット音声フラグメントは、第一ターゲットテキストセグメントの朗読音声を含む。ここで、第一ターゲットテキストセグメントは、テキスト情報のうちのいずれか一つのテキストセグメントであってもよい。第一ターゲットビデオフラグメントと、第一ターゲット音声フラグメントは、いずれも第一ターゲットテキストセグメントに対応する。
【0048】
図5を参照すると、
図5は、本出願の実施例における表示マルチメディアデータの一つのインタフェースの概略図である。第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、各第一マルチメディアフラグメントは、異なるテキストセグメント、ビデオ画像と朗読音声に対応する。これから分かるように、インタフェースの中央には、二つのマルチメディアフラグメントが提示されており、インタフェースの最上方には、この二つのマルチメディアフラグメントのうちの前の一つのマルチメディアフラグメントが拡大提示される。この二つのマルチメディアフラグメントは、異なるビデオ画像に対応し、無論、異なるテキストセグメントと朗読音声にも対応する。このように、ユーザは、テキストセグメント、ビデオ画像と朗読音声の対応関係を直感的に見て、需要に応じて、それらのうちの一つ又は複数のマルチメディアフラグメントを修正することができ、それによって、マルチメディアデータ生成の効率を向上させる。
【0049】
本出願の実施例のマルチメディアデータ生成方法は、ユーザがテキスト情報を入力した後に、ユーザに録音のエントリを提供することができる。ユーザは、このエントリを介して、録音トリガー操作を実行することができる。録音トリガー操作に応答した場合、ユーザが朗読するためにテキスト情報を表示し、ユーザがテキスト情報を朗読する過程において、第一朗読音声を収集することができる。テキスト情報と第一朗読音声に基づいて、第一マルチメディアデータを生成し、第一マルチメディアデータを提示することができる。第一マルチメディアデータは、第一朗読音声及びテキスト情報にマッチングするビデオ画像を含み、第一マルチメディアデータは、テキスト情報における複数のテキストセグメントにそれぞれ対応する第一マルチメディアフラグメントを含む。本出願は、人工方式で第一朗読音声を収録することができ、マシンによってテキスト情報を音声に変換することに比べて、人工的に収録された第一朗読音声は、より感情的である。そのため、生成された第一マルチメディアデータの品質もより高くなり、ユーザの視聴体験を向上させることができる。そして、第一マルチメディアデータは、複数の第一マルチメディアフラグメントの形式で表示され、ユーザは、第一マルチメディアフラグメントにおけるテキストセグメントとビデオ画像との対応関係を直感的に知ることができ、それによって、単一のマルチメディアフラグメントを修正し、ビデオ製作の効率及びユーザの体験を向上させることができる。
【0050】
図6を参照すると、
図6は、本出願の実施例におけるマルチメディアデータ生成方法のまた別のフローチャートであり、以下のステップを含んでもよい。
【0051】
ステップS610では、ユーザが入力したテキスト情報を受信する。
【0052】
本ステップは、
図2の実施例のステップS210と同じであり、具体的には、
図2の実施例における記述を参照すればよく、ここでは、これ以上説明しない。
【0053】
ステップS620では、マルチメディア合成操作に応答した場合、テキスト情報を音声データに変換し、テキスト情報と音声データに基づいて、第二マルチメディアデータを生成し提示する。
【0054】
本出願は、ユーザによる自発的な録音をサポートすることに加えて、自動吹き替えもサポートしており、即ち、自動吹き替えのエントリも提供している。例えば、
図3に示すワンタッチビデオ生成ボタンは、自動吹き替えのエントリである。ユーザは、ワンタッチビデオ生成ボタンをクリックしてマルチメディア合成操作を実行することにより、ワンタッチでマルチメディアデータを生成することができる。例えば、アプリケーションは、テキスト情報をサーバに送信することができ、サーバは、テキスト対音声変換技術を利用して、テキスト情報を音声データに変換する。同様に、テキスト情報にマッチングするビデオ画像を取得し、ビデオ画像と音声データとを合成すると、第二マルチメディアデータが得られる。第二マルチメディアデータをアプリケーションに送信し、アプリケーションに提示する。これから分かるように、この方法は、操作が簡単であり、マルチメディアデータを生成する効率が比較的高い。
【0055】
第二マルチメディアデータは、第一マルチメディアデータに類似しており、音声データ及びテキスト情報にマッチングするビデオ画像を含んでもよい。第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、複数の第二マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応する。第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、第二ターゲットマルチメディアフラグメントは、複数の第二マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応する第二マルチメディアフラグメントであり、第二ターゲットビデオフラグメントは、第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、第二ターゲット音声フラグメントは、第二ターゲットテキストセグメントの朗読音声を含む。
【0056】
ステップS630では、録音トリガー操作に応答した場合、テキスト情報を表示し、テキスト情報による第二朗読音声を収集する。
【0057】
説明すべきこととして、ユーザは、第二マルチメディアデータに比較的満足している場合、第二マルチメディアデータをローカル端末機器に保存し、又は、ソーシャルプラットフォームなどに共有してもよい。ユーザは、第二マルチメディアデータに満足していない場合、マルチメディアデータの品質を向上させるために、自発的に録音してもよい。
【0058】
第二マルチメディアデータを表示するインタフェースには、自発的録音ボタンが含まれてもよい。この自発的録音ボタンは、
図2の実施例における自発的録音ボタン機能と同じであり、ユーザは、自発的録音ボタンをクリックすることにより、録音トリガー操作を実行する。
【0059】
図5に示すように、ユーザは、再生ボタンをクリックして、第二マルチメディアデータを再生してもよい。自発的録音ボタンをクリックして自発的に録音してもよく、自発的録音ボタンをクリックして録音トリガー操作を実行した後で、先に、確認ポップアップウィンドウ「自発的録音を使用すると、既存の合成音声が上書きされますが、録音を続行しますか。」とポップアップ表示されてもよい。ユーザが継続をクリックすると、第二朗読音声が収集される。同一のユーザが同一のテキスト情報を朗読するたびにボリューム、音調、音色が異なることがあるため、本ステップによって収集された第二朗読音声と前述の第一朗読音声とは、異なる可能性がある。
【0060】
ステップS640では、テキスト情報と第二朗読音声に基づいて、第三マルチメディアデータを生成し、表示して、第二マルチメディアデータを上書きする。
【0061】
ここで、第三マルチメディアデータは、第二朗読音声及びテキスト情報にマッチングするビデオ画像を含む。第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、複数の第三マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応する。第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含む。第三ターゲットマルチメディアフラグメントは、複数の第三マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応する第三マルチメディアフラグメントであり、第三ターゲットビデオフラグメントは、第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、第三ターゲット音声フラグメントは、第三ターゲットテキストセグメントの朗読音声を含む。
【0062】
説明すべきこととして、上記第二マルチメディアデータと第三マルチメディアデータを生成する方法は、
図2の実施例における第一マルチメディアデータを生成する方法と同じであり、具体的には、
図2の実施例における記述を参照すればよく、ここでは、これ以上説明しない。第三マルチメディアデータが第二マルチメディアデータに基づいて自発的に録音して生成されたため、ワンタッチで生成された第二マルチメディアデータは、第三マルチメディアデータによって上書きされる。
【0063】
本出願は、自発的に録音して第一マルチメディアデータを直接生成することに加えて、ワンタッチで第二マルチメディアデータを生成した後に、自発的に録音してもよい。第二マルチメディアデータを自発的に録音された第三マルチメディアデータに更新し、第三マルチメディアデータをより感情的にし、マルチメディアデータの品質を向上させる。
【0064】
図7を参照すると、
図7は、本出願の実施例におけるマルチメディアデータ生成方法の、または、別のフローチャートであり、以下のステップを含んでもよい。
【0065】
ステップS702では、ユーザが入力したテキスト情報を受信する。
【0066】
本ステップは、
図2の実施例のステップS210と同じであり、具体的には、
図2の実施例における記述を参照すればよく、ここでは、これ以上説明しない。
【0067】
ステップS704では、自発的録音操作に応答し、録音ボタン、テキスト表示領域と音声トラック領域を含む、録音インタフェースを表示する。
【0068】
本出願の実施例では、テキスト情報を複数のテキストセグメントに分割し、各テキストセグメントを単独で一行とし、一行を超えた時に改行して表示してもよく、それによって、テキスト情報をテキスト表示領域にセグメント化して表示する。分割中に、ポップアップウィンドウで分割進捗を提示してもよく、例えば、「テキスト処理中xx%です」と提示されてもよい。このように、ユーザは、録音中に、テキスト情報をより便利で直感的に見て、エラーを回避することができる。録音インタフェースには、音声トラック領域がさらに含まれてもよく、音声トラック領域は、ユーザがすでに収録した朗読音声を表示するために用いられる。
【0069】
ステップS706では、録音ボタンに対するトリガー操作に応答して、テキスト情報による第一朗読音声を収集し、音声トラック領域に第一朗読音声を表示する。
【0070】
前述のように、テキスト表示領域におけるテキスト情報を各テキストセグメントに従ってセグメント化して表示してもよい。ユーザは、各テキストセグメントの順序で順に朗読してもよく、一つのテキストセグメントを朗読するたびに、オーディオ領域に該当する朗読音声を表示してもよい。選択的に、第一朗読音声を収集する時、ユーザが現在朗読しているテキストセグメントを強調表示してもよい。例えば、ユーザが現在朗読しているテキストセグメントをハイライト表示してもよく、現在テキストセグメントの朗読が完了したことを検出すると、現在朗読しているテキストセグメントを上にスクロールするようにするが、強調表示しなくなってもよい。全体の録音中に、ユーザの閲読を容易にするために、現在朗読しているテキストセグメントをテキスト表示領域の上の位置に維持してもよい。例えば、テキスト表示領域を上から下に4つの領域に分けると、現在朗読しているテキストセグメントを一番目の領域又は二番目の領域に維持してもよい。
【0071】
図8を参照すると、
図8は、本出願の実施例における録音インタフェースのまた別の概略図であり、これから分かるように、テキスト情報を複数の異なるテキストセグメントに従ってセグメント化して表示し、ユーザが朗読する時に、より便利で直感的である。現在、朗読しているテキストセグメントに対して、強調表示してもよい。朗読が完了した後に、上にスクロールすることによって、次の未読のテキストセグメントを強調表示してもよい。テキスト表示領域と録音ボタンとの間には、音声トラック領域が含まれ、音声トラック領域には、複数の異なる朗読音声が表示される。
【0072】
音声トラック領域は、再生ボタンを含んでもよく、朗読音声が存在し、且つ、未再生状態にある時に提示される。そして、カーソルによって指示された朗読音声の末尾に近い位置で提示されてもよい。再生ボタンをクリックすることにより、カーソルによって指示された朗読音声の再生を開始する。再生時には、テキスト表示領域におけるテキスト情報は、再生進捗に伴ってスクロールしてもよい。
【0073】
収録中に、フラッシュバックが発生した場合、すでに収録したオーディオを保存することができ、再び録音インタフェースに入ると、ポップアップウィンドウで「未完了の録音がありますが、収録を続行しますか。はい/いいえ」と提示されてもよい。ユーザが収録を継続することを選択した場合、フラッシュバック前の朗読音声をロードし、録音フローを継続する。ユーザがキャンセルを選択した場合、フラッシュバック前の朗読音声を破棄する。収録中に音声が識別されなかった場合、「音声が識別されませんでしたが、マイクを検査するか又は音量を上げてください」などとトーストで提示されてもよい。
【0074】
ステップS708では、第一朗読音声を収集する時、第一ターゲット音声フラグメントと第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、第一朗読音声と第一ターゲットテキストセグメントとをマークする。
【0075】
ユーザの朗読中に、ユーザの朗読の正確性を検出してもよい。収集された第一ターゲット音声フラグメントと対応する、第一ターゲットテキストセグメントとのマッチング率が、マッチング率閾値よりも低い(例えば85%、90%など)ことを検出した場合、第一ターゲット音声フラグメントと第一ターゲットテキストセグメントとをマークする。例えば、この第一ターゲットテキストセグメントに下線を追加し、ユーザがこの第一ターゲットテキストセグメントをクリックすると、バブルを提示して「このセクションの文字は、録音に対応していません」と注意を促してもよい。同時に、第一ターゲット音声フラグメントは、暗い赤色などで提示されてもよい。ここで、第一ターゲットテキストセグメントは、テキスト情報のうちのいずれか一つのテキストセグメントであり、第一ターゲット音声フラグメントは、第一ターゲットテキストセグメントの朗読音声である。
【0076】
図9を参照すると、
図9は、本出願の実施例における録音インタフェースのまた別の概略図であり、これから分かるように、ユーザの朗読エラーのテキストセグメントに対して、マークには下線があり、このテキストセグメントに対応する朗読音声は、表示したバックグラウンド色が白であり、他の正しい朗読音声は、表示したバックグラウンド色が黒である。このように、ユーザは、朗読エラーのテキストセグメントを直感的に知り、再録音を行うことができる。
【0077】
ステップS710では、第一ターゲット音声フラグメントに対する再録音操作に応答した場合、第一ターゲット音声フラグメントを削除し、第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、第一ターゲットテキストセグメントの朗読フラグメントを収集し、朗読フラグメントを第一ターゲット音声フラグメントに対応する領域に表示する。
【0078】
いずれか一つの朗読音声に対して、ユーザの朗読エラーが発生し、又は、ユーザがこの朗読音声に満足していない場合には、いずれも再録音してもよい。カーソルがトラック領域の中央を指すと、収録ボタンが「このフラグメントを再録音します」と提示されてもよい。
図10を参照すると、
図10は、本出願の実施例における録音インタフェースのまた別の概略図である。カーソルは、トラック領域の中央に位置し、一つの朗読音声の末尾を指す。ユーザが収録ボタンをクリックすると、この朗読音声を削除することができ、この朗読音声が位置する領域に隙間を残し、収録を開始する。テキストセグメントの朗読が完了したことを検出すると、生成された朗読フラグメントを隙間に充填し、自動的に録音を終了する。
【0079】
ステップS712では、音声フラグメントのスワイプ操作に応答し、且つ、第一朗読音声を指示する第一カーソルを第一ターゲット音声フラグメントにスワイプした場合、テキスト情報を指示する第二カーソルを第一ターゲットテキストセグメントに移動する。
【0080】
本出願の実施例では、音声トラック領域における朗読音声を左右横方向にドラッグすると、テキスト表示領域におけるテキスト情報も同時にスクロールされる。例えば、音声トラック領域におけるカーソルが第一ターゲット音声フラグメントに位置決めされる場合、テキスト表示領域におけるカーソルが、第一ターゲット音声フラグメントに対応する第一ターゲットテキストフラグメントに位置決めされる。
【0081】
ステップS714では、第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得る。
【0082】
本出願の実施例では、朗読音声を生成した後に、録音インタフェースには、変音ボタンと変速ボタンが表示されてもよい。録音停止状態にある場合、変音ボタンによって朗読音声に変音処理を行うことができ、オヤジ、男子、女子、ロリなどの様々な変音タイプを含む。変速ボタンによってオーディオの速度を調節することができ、0.5X、1X、1.5X、および2Xなどの様々な変速タイプを含み、ユーザは、実際の需要に応じて選択することができる。変音処理と変速処理は、朗読音声の全部に用いられてもよく、または、朗読音声の一部に用いられてもよい。
【0083】
ステップS716では、テキスト情報と第四朗読音声に基づいて、第一マルチメディアデータを生成し、提示する。
【0084】
本ステップにおいて、第一マルチメディアデータを生成する方法は、
図2の実施例における第一マルチメディアデータを生成する方法と同じであり、具体的には、
図2の実施例における記述を参照すればよく、ここでは、これ以上説明しない。説明すべきこととして、第四朗読音声が第一朗読音声と異なるため、本ステップで生成された第一マルチメディアデータは、
図2の実施例の第一マルチメディアデータと異なる。
【0085】
本出願の実施例のマルチメディアデータ生成方法では、テキスト表示領域におけるテキスト情報をセグメント化して提示することができ、ユーザは、テキストセグメントの順序で録音し、各テキストセグメントの朗読音声を音声トラック領域に表示することができる。ユーザは、音声トラック領域に収集された朗読音声を再生することができ、朗読音声に満足していない場合には、再録音することもできる。朗読音声の収集中に、ユーザの朗読の正確性を検出することもできる。朗読エラーが多い場合に、ユーザの朗読エラーのテキストをセグメント化し、対応する朗読音声をマークして、ユーザに提示する。ユーザは、実際の需要に応じて、収集された朗読音声に対して変音処理及び/又は変速処理などを行うことができる。これで分かるように、本出願は、ユーザに便利で直感的な操作インタフェースを提供し、ビデオの生成の効率を向上させ、ユーザの体験を向上させることができる。
【0086】
図11を参照すると、
図11は、本出願の実施例におけるマルチメディアデータ生成方法のまた別のフローチャートであり、
図2の実施例に基づいて、ステップS230の後に、以下のステップをさらに含んでもよい。
【0087】
ステップS1110では、テキスト情報に対する編集操作に応答し、テキスト情報を修正し、修正されたターゲットテキスト情報を得る。
【0088】
第一マルチメディアデータを生成した後に、ユーザは、テキスト情報を修正することによって、新たなマルチメディアデータを生成することができる。第一マルチメディアデータを表示するインタフェースには、テキスト情報を修正するエントリが提供されてもよい。第一マルチメディアデータを表示するインタフェースは、
図6を参照することができ、このインタフェースには、文字編集ボタンが含まれてもよい。ユーザが文字編集ボタンをクリックすると、テキスト入力インタフェースが表示される。ユーザは、テキスト入力インタフェースにおいて表示されたテキスト情報を修正して、ターゲットテキスト情報、即ち、ユーザによって修正されたテキスト情報を得ることができる。
【0089】
ステップS1120では、ターゲットテキスト情報に対する録音トリガー操作に応答し、ターゲットテキスト情報を表示し、ターゲットテキスト情報によるターゲット朗読音声を収集する。
【0090】
ユーザがテキスト情報を修正した後に、ポップアップウィンドウで、ユーザに「文字内容がすでに修正されましたが、再度吹き替える必要がありますか。」と提示されてもよい。ユーザが「はい」をクリックすると、録音インタフェースに入り、テキスト表示領域で、ユーザによって修正されたテキストセグメントに自動的に位置決めされ、音声トラック領域で対応する朗読音声に位置決めされる。ユーザは、テキスト表示領域におけるユーザのために位置決めされた位置に基づいて、ユーザによって修正されたテキストセグメントを朗読し、対応する朗読音声、即ち、ターゲット朗読音声を収集することができる。つまり、ユーザは、修正されたテキストセグメントのみを収録すればよく、それによって、収録の繰り返しを回避し、マルチメディアデータ更新の効率を向上させる。
【0091】
ステップS1130では、ターゲット朗読音声に基づいて、第一朗読音声を更新し、第三朗読音声を得る。
【0092】
ユーザが、ユーザによって修正された各テキストセグメントを朗読した後に、修正前の朗読音声を自動的に削除し、再度収集された朗読音声を修正前の朗読音声が位置する位置に置き換え、最終的に、第一朗読音声を第三朗読音声に更新することができる。
【0093】
ステップS1140では、ターゲットテキスト情報と第三朗読音声に基づいて、第四マルチメディアデータを生成し、提示する。
【0094】
ここで、第四マルチメディアデータは、第三朗読音声及びテキスト情報にマッチングするビデオ画像を含む。第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、複数の第四マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応する。第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含む。第四ターゲットマルチメディアフラグメントは、複数の第四マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応する第四マルチメディアフラグメントであり、第四ターゲットビデオフラグメントは、第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、第四ターゲット音声フラグメントは、第四ターゲットテキストセグメントの朗読音声を含む。
【0095】
本出願の実施例のマルチメディアデータ生成方法は、マルチメディアデータを生成した後に、ユーザは、再録音できることに加えて、テキスト情報を再編集することもできる。テキスト情報を修正した後に、ユーザは、ユーザによって修正されたテキストセグメントを再録音すればよく、再収録された朗読音声に基づいて、第一マルチメディアデータを更新し、最終的に、新たなマルチメディアデータを生成する。この方式により、マルチメディアデータ更新の効率を向上させることができる。
【0096】
上記方法の実施例に対応して、本出願の実施例は、マルチメディアデータ生成装置を、さらに提供する。
図12を参照すると、マルチメディアデータ生成装置1200は、
ユーザが入力したテキスト情報を受信するためのテキスト情報受信モジュール1210と、
テキスト情報に対する録音トリガー操作に応答した場合、テキスト情報を表示し、テキスト情報による第一朗読音声を収集するための第一朗読音声収集モジュール1220と、
テキスト情報と第一朗読音声に基づいて、第一マルチメディアデータを生成し、提示するための第一マルチメディアデータ生成モジュール1230と、を含み、
ここで、第一マルチメディアデータは、第一朗読音声及びテキスト情報にマッチングするビデオ画像を含み、第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、複数の第一マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、ここで、第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、第一ターゲットマルチメディアフラグメントは、複数の第一マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応する第一マルチメディアフラグメントであり、第一ターゲットビデオフラグメントは、第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、第一ターゲット音声フラグメントは、第一ターゲットテキストセグメントの朗読音声を含む。
【0097】
選択的に、マルチメディアデータ生成装置1200は、
マルチメディア合成操作に応答した場合、テキスト情報を音声データに変換するための音声データ変換モジュールと、
テキスト情報と音声データに基づいて、第二マルチメディアデータを生成し、提示するための第二マルチメディアデータ生成モジュールと、をさらに含み、
ここで、第二マルチメディアデータは、音声データ及びテキスト情報にマッチングするビデオ画像を含み、第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、複数の第二マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、第二ターゲットマルチメディアフラグメントは、複数の第二マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応する第二マルチメディアフラグメントであり、第二ターゲットビデオフラグメントは、第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、第二ターゲット音声フラグメントは、第二ターゲットテキストセグメントの朗読音声を含む。
【0098】
選択的に、マルチメディアデータ生成装置1200は、
第二マルチメディアデータを生成した後に、録音トリガー操作に応答した場合、テキスト情報を表示し、テキスト情報による第二朗読音声を収集するための第二朗読音声収集モジュールと、
テキスト情報と第二朗読音声に基づいて、第三マルチメディアデータを生成し表示して、第二マルチメディアデータを上書きするための第三マルチメディアデータ生成モジュールと、をさらに含み、
ここで、第三マルチメディアデータは、第二朗読音声及びテキスト情報にマッチングするビデオ画像を含み、第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、複数の第三マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含み、第三ターゲットマルチメディアフラグメントは、複数の第三マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応する第三マルチメディアフラグメントであり、第三ターゲットビデオフラグメントは、第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、第三ターゲット音声フラグメントは、第三ターゲットテキストセグメントの朗読音声を含む。
【0099】
選択的に、マルチメディアデータ生成装置1200は、
第一ターゲット音声フラグメントに対する再録音操作に応答した場合、第一ターゲット音声フラグメントを削除し、第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、第一ターゲットテキストセグメントの朗読フラグメントを収集し、朗読フラグメントを第一ターゲット音声フラグメントに対応する領域に表示するための音声フラグメント再録音モジュール、をさらに含む。
【0100】
選択的に、マルチメディアデータ生成装置1200は、
第一朗読音声を収集する時、第一ターゲット音声フラグメントと第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、第一朗読音声と第一ターゲットテキストセグメントとをマークするためのエラーマークモジュール、をさらに含む。
【0101】
選択的に、マルチメディアデータ生成装置1200は、
音声フラグメントのスワイプ操作に応答し、且つ、第一朗読音声を指示する第一カーソルを第一ターゲット音声フラグメントにスワイプした場合、テキスト情報を指示する第二カーソルを第一ターゲットテキストセグメントに移動するための音声フラグメントスワイプモジュール、をさらに含む。
【0102】
選択的に、マルチメディアデータ生成装置1200は、
第一朗読音声を収集する時、ユーザが現在朗読しているテキストセグメントを強調表示するためのテキストセグメント強調表示モジュールを、さらに含む。
【0103】
選択的に、マルチメディアデータ生成装置1200は、
第一マルチメディアデータを生成し表示した後に、テキスト情報に対する編集操作に応答して、テキスト情報を修正し、修正されたターゲットテキスト情報を得るためのテキスト情報修正モジュールと、
ターゲットテキスト情報に対する録音トリガー操作に応答して、ターゲットテキスト情報を表示し、ターゲットテキスト情報によるターゲット朗読音声を収集するためのターゲット朗読音声収集モジュールと、
ターゲット朗読音声に基づいて第一朗読音声を更新し、第三朗読音声を得るための第三朗読音声生成モジュールと、
ターゲットテキスト情報と第三朗読音声に基づいて、第四マルチメディアデータを生成し、提示するための第四マルチメディアデータ生成モジュールと、をさらに含み、
ここで、第四マルチメディアデータは、第三朗読音声及びテキスト情報にマッチングするビデオ画像を含み、第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、複数の第四マルチメディアフラグメントは、テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含み、第四ターゲットマルチメディアフラグメントは、複数の第四マルチメディアフラグメントのうちの、複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応する第四マルチメディアフラグメントであり、第四ターゲットビデオフラグメントは、第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、第四ターゲット音声フラグメントは、第四ターゲットテキストセグメントの朗読音声を含む。
【0104】
選択的に、マルチメディアデータ生成装置1200は、
第一朗読音声を収集した後に、第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得るための音声処理モジュールと、
具体的に、テキスト情報と第四朗読音声に基づいて、第一マルチメディアデータを生成し、提示するための第一マルチメディアデータ生成モジュールと、をさらに含む。
【0105】
上記装置における各モジュール又はユニットの具体的な詳細は、すでに対応する方法で詳細に記述されているため、ここでは、これ以上説明しない。
【0106】
注意すべきこととして、上記の詳細な記述において動作を実行するための機器の若干のモジュール又はユニットが言及されているが、このような分類は、強制的なものではない。実際に、本出願の実施の形態によれば、上述した二つ又はより多くのモジュール又はユニットの特徴と機能は、一つのモジュール又はユニットに具体化されてもよい。逆に、上述した一つのモジュール又はユニットの特徴と機能は、さらに、複数のモジュール又はユニットに分けて、具体化されてもよい。
【0107】
本出願の例示的な実施例では、電子機器を、さらに提供し、この電子機器は、プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリとを含む。ここで、プロセッサは、本例示的な実施の形態における上記マルチメディアデータ生成方法を実行するように構成される。
【0108】
図13は、本出願の実施例における電子機器の一つの構造概略図である。説明すべきこととして、
図13に示す電子機器1300は、一例にすぎず、本出願の実施例の機能と使用範囲に任意の制限を設けるべきではない。
【0109】
図13に示すように、電子機器1300は、中央処理ユニット(CPU)1301を含み、それは、リードオンリーメモリ(ROM)1302に記憶されたプログラム又は記憶部分1308からランダムアクセスメモリ(RAM)1303にロードされたプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM 1303には、システム操作に必要な様々なプログラムとデータが、さらに記憶されている。中央処理ユニット1301、ROM 1302、及びRAM 1303は、バス1304を介して、互いに繋がっている。入力/出力(I/O)インタフェース1305も、また、バス1304に接続されている。
【0110】
以下の部材は、I/Oインタフェース1305に接続され、キーボード、マウスなどを含む入力部分1306と、例えば、ブラウン管(CRT)、液晶ディスプレイ(LCD)など、及び、スピーカなどを含む、出力部分1307と、ハードディスクなどを含む、記憶部分1308と、例えば、ローカルエリアネットワーク(LAN)カード、モデムなどのネットワークインターフェースカードを含む、通信部分1309とを含む。通信部分1309は、例えば、インターネットのネットワークを介して、通信処理を実行する。ドライブ1310は、必要に応じて、I/Oインタフェース1305に接続されてもよい。リムーバブルメディア1311、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ、などは、必要に応じて、ドライブ1310上に取り付けられて、その上から読み出されたコンピュータプログラムが、必要に応じて、記憶部分1308にインストールされることを容易にする。
【0111】
特に、本出願の実施例によれば、上記の参照フローチャートに記述されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本出願の実施例は、コンピュータプログラム製品を含み、それは、コンピュータ可読媒体上に記憶されたコンピュータプログラムを含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信部分1309を介して、ネットワークからダウンロードされてインストールされ、かつ/あるいは、リムーバブルメディア1311からインストールされてもよい。このコンピュータプログラムが中央処理ユニット1301によって実行されると、本出願の装置に限定された様々な機能を実行する。
【0112】
本出願の実施例では、コンピュータ可読記憶媒体をさらに提供し、その上にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると、上記マルチメディアデータ生成方法を実現する。
【0113】
説明すべきこととして、本出願に示すコンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は、以上の任意の組み合わせであってもよいが、それらに限らない。コンピュータ可読記憶媒体のより具体的な例は、一つ又は複数の導線を有する電気的な接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ、リードオンリーメモリ、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクト磁気ディスクリードオンリーメモリ(CD-ROM)、光メモリデバイス、磁気メモリデバイス、又は、上記の任意の適切な組み合わせを含んでもよいが、それらに限らない。本出願では、コンピュータ可読記憶媒体は、プログラムを包含又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置、又はデバイスによって使用され、又は、それらと組み合わせて使用してもよい。コンピュータ可読記憶媒体上に含まれるプログラムコードは、任意の適切な媒体で伝送されてもよく、無線、電線、光ケーブル、無線周波数など、又は、上記の任意の適切な組み合わせを含むが、それらに限らない。
【0114】
本出願の実施例では、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品がコンピュータ上で運行する時、コンピュータに、上記マルチメディアデータ生成方法を実行させる。
【0115】
説明すべきこととして、本明細書では、「第一」と「第二」などの関係用語は、一つのエンティティ又は操作を別のエンティティ又は操作から区別するためにのみ用いられ、これらのエンティティ又は操作の間に、任意のこのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。そして、用語である「含む」、「包含」、又はその他の任意の変形は、非排他的な「含む」を意図的に上書きするものであり、それによって、一連の要素を含むプロセス、方法、物品、又は機器は、それらの要素を含むだけではなく、明確にリストアップされていない他の要素も含み、又は、このようなプロセス、方法、物品、又は機器に固有の要素を、さらに含む。それ以上の制限がない場合に、「一つの…を含む」という文言によって限定される要素は、前記要素を含むプロセス、方法、物品、又は機器に、別の同じ要素がさらに存在することを排除するものではない。
【0116】
上述は、当業者が本出願を理解又は実現できるような本出願の具体的な実施の形態にすぎない。これらの実施例に対する様々な修正は、当業者にとって明白であり、本明細書で定義された一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現することができる。そのため、本出願は、本明細書に記載されたこれらの実施例に限定されるものではなく、本明細書に開示された原理及び新規特徴と一致する、最も広い範囲に適合する必要がある。
【手続補正書】
【提出日】2023-12-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチメディアデータ生成方法であって、
ユーザが入力したテキスト情報を受信することと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集することと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示することと、を含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、
前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、
前記第一ターゲットマルチメディアフラグメントは、前記複数の第一マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応する第一マルチメディアフラグメントであり、
前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、方法。
【請求項2】
前記方法は、さらに、
マルチメディア合成操作に応答した場合、前記テキスト情報を音声データに変換することと、
前記テキスト情報と前記音声データに基づいて、第二マルチメディアデータを生成し提示することと、を含み、
前記第二マルチメディアデータは、前記音声データ及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第二マルチメディアデータは、複数の第二マルチメディアフラグメントを含み、
前記複数の第二マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第二ターゲットマルチメディアフラグメントは、第二ターゲットビデオフラグメントと第二ターゲット音声フラグメントとを含み、
前記第二ターゲットマルチメディアフラグメントは、前記複数の第二マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第二ターゲットテキストセグメントに対応する第二マルチメディアフラグメントであり、
前記第二ターゲットビデオフラグメントは、前記第二ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第二ターゲット音声フラグメントは、前記第二ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項3】
前記方法は、さらに、
前記第二マルチメディアデータを生成した後に、録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第二朗読音声を収集することと、
前記テキスト情報と前記第二朗読音声に基づいて、第三マルチメディアデータを生成し表示して、前記第二マルチメディアデータを上書きすることと、を含み、
前記第三マルチメディアデータは、前記第二朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第三マルチメディアデータは、複数の第三マルチメディアフラグメントを含み、
前記複数の第三マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第三ターゲットマルチメディアフラグメントは、第三ターゲットビデオフラグメントと第三ターゲット音声フラグメントとを含み、
前記第三ターゲットマルチメディアフラグメントは、前記複数の第三マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第三ターゲットテキストセグメントに対応する第三マルチメディアフラグメントであり、
前記第三ターゲットビデオフラグメントは、前記第三ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第三ターゲット音声フラグメントは、前記第三ターゲットテキストセグメントの朗読音声を含む、ことを特徴とする、
請求項2に記載の方法。
【請求項4】
前記方法は、さらに、
前記第一ターゲット音声フラグメントに対する再録音操作に応答した場合、前記第一ターゲット音声フラグメントを削除することと、
前記第一ターゲット音声フラグメントに対応する第一ターゲットテキストセグメントを表示し、前記第一ターゲットテキストセグメントの朗読フラグメントを収集することと、
前記朗読フラグメントを前記第一ターゲット音声フラグメントに対応する領域に表示することと、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項5】
前記方法は、さらに、
前記第一朗読音声を収集する時、前記第一ターゲット音声フラグメントと前記第一ターゲットテキストセグメントとのマッチング率がマッチング率閾値よりも低いことを検出した場合、前記第一朗読音声と前記第一ターゲットテキストセグメントとをマークすること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項6】
前記方法は、さらに、
音声フラグメントのスワイプ操作に応答し、且つ、前記第一朗読音声を指示する第一カーソルを前記第一ターゲット音声フラグメントにスワイプした場合、前記テキスト情報を指示する第二カーソルを前記第一ターゲットテキストセグメントに移動すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項7】
前記方法は、さらに、
前記第一朗読音声を収集する時、前記ユーザが現在朗読しているテキストセグメントを強調表示すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項8】
前記方法は、さらに、
第一マルチメディアデータを生成し表示した後に、前記テキスト情報に対する編集操作に応答して、前記テキスト情報を修正し、修正されたターゲットテキスト情報を得ることと、
前記ターゲットテキスト情報に対する録音トリガー操作に応答して、前記ターゲットテキスト情報を表示し、前記ターゲットテキスト情報によるターゲット朗読音声を収集することと、
前記ターゲット朗読音声に基づいて、前記第一朗読音声を更新し、第三朗読音声を得ることと、
前記ターゲットテキスト情報と前記第三朗読音声に基づいて、第四マルチメディアデータを生成し、提示することと、を含み、
前記第四マルチメディアデータは、前記第三朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第四マルチメディアデータは、複数の第四マルチメディアフラグメントを含み、
前記複数の第四マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第四ターゲットマルチメディアフラグメントは、第四ターゲットビデオフラグメントと第四ターゲット音声フラグメントとを含み、
前記第四ターゲットマルチメディアフラグメントは、前記複数の第四マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第四ターゲットテキストセグメントに対応する第四マルチメディアフラグメントであり、
前記第四ターゲットビデオフラグメントは、前記第四ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第四ターゲット音声フラグメントは、前記第四ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項9】
前記方法は、さらに、
前記第一朗読音声を収集した後に、前記第一朗読音声に対して変音処理及び/又は変速処理を行い、第四朗読音声を得ること、を含み、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示することは、
前記テキスト情報と前記第四朗読音声に基づいて、第一マルチメディアデータを生成し提示すること、を含む、
ことを特徴とする、請求項1に記載の方法。
【請求項10】
マルチメディアデータ生成装置であって、
ユーザが入力したテキスト情報を受信するためのテキスト情報受信モジュールと、
前記テキスト情報に対する録音トリガー操作に応答した場合、前記テキスト情報を表示し、前記テキスト情報による第一朗読音声を収集するための第一朗読音声収集モジュールと、
前記テキスト情報と前記第一朗読音声に基づいて、第一マルチメディアデータを生成し提示するための第一マルチメディアデータ生成モジュールと、を含み、
前記第一マルチメディアデータは、前記第一朗読音声及び前記テキスト情報にマッチングするビデオ画像を含み、
前記第一マルチメディアデータは、複数の第一マルチメディアフラグメントを含み、
前記複数の第一マルチメディアフラグメントは、前記テキスト情報に含まれる複数のテキストセグメントにそれぞれ対応し、
第一ターゲットマルチメディアフラグメントは、第一ターゲットビデオフラグメントと第一ターゲット音声フラグメントとを含み、
前記第一ターゲットマルチメディアフラグメントは、前記複数の第一マルチメディアフラグメントのうちの、前記複数のテキストセグメントのうちの第一ターゲットテキストセグメントに対応するマルチメディアフラグメントであり、
前記第一ターゲットビデオフラグメントは、前記第一ターゲットテキストセグメントにマッチングするビデオ画像を含み、
前記第一ターゲット音声フラグメントは、前記第一ターゲットテキストセグメントの朗読音声を含む、
ことを特徴とする、装置。
【請求項11】
プロセッサを含む、電子機器であって、
前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行するために用いられ、
前記コンピュータプログラムが前記プロセッサにより実行されると、請求項1乃至9のいずれか一項に記載の方法を実施する、
ことを特徴とする、電子機器。
【請求項12】
コンピュータプログラムが記憶されている、コンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1乃至9のいずれか一項に記載の方法をコンピュータに実施させる、
ことを特徴とする、コンピュータ可読記憶媒体。
【請求項13】
コンピュータ命令を含むコンピュータプログラムであって、
プロセッサにより実行されると、前記コンピュータに請求項1乃至9のいずれか一項に記載の方法を実施させる、
ことを特徴とする、コンピュータプログラ
ム。
【国際調査報告】