特表2024-540793 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京字跳▲網▼絡技▲術▼有限公司の特許一覧

特表2024-540793マルチメディアデータの処理方法、装置、機器及び媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-06

(54)【発明の名称】マルチメディアデータの処理方法、装置、機器及び媒体

(51)【国際特許分類】

H04N 21/854 20110101AFI20241029BHJP

【ＦＩ】

H04N21/854

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024503680

(86)(22)【出願日】2023-09-27

(85)【翻訳文提出日】2024-01-19

(86)【国際出願番号】 CN2023122068

(87)【国際公開番号】W WO2024082948

(87)【国際公開日】2024-04-25

(31)【優先権主張番号】202211295639.8

(32)【優先日】2022-10-21

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

(71)【出願人】

【識別番号】521431088

【氏名又は名称】北京字跳▲網▼絡技▲術▼有限公司

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＺｉｔｉａｏＮｅｔｗｏｒｋＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】０２０７，２／Ｆ，Ｂｕｉｌｄｉｎｇ４，ＺｉｊｉｎＤｉｇｉｔａｌＰａｒｋ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ，Ｐ．Ｒ．Ｃｈｉｎａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】リ，シンウェイ

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164MA01S

5C164MC01P

5C164PA44

5C164PA46

5C164UB01S

5C164UB08S

5C164UB41S

5C164UB92S

5C164YA11

(57)【要約】

マルチメディアデータの処理方法、装置、機器及び媒体であって、該方法は、ユーザが入力したテキスト情報を受信するステップと、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、マルチメディアデータは複数のマルチメディアセグメントを含み、マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

マルチメディアデータの処理方法であって、
ユーザが入力したテキスト情報を受信するステップと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理方法。

【請求項2】

ユーザが入力したテキスト情報を受信する前記ステップは、
ユーザがテキスト領域で入力したテキスト情報を受信するステップ、及び／又は、
ユーザがリンク領域で入力したリンク情報を受信し、前記リンク情報を識別して対応するページのテキスト情報を取得し、前記ユーザが編集するために前記テキスト領域に表示するステップを含む請求項１に記載の方法。

【請求項3】

音色選択エントリコントロールを表示するステップと、
ユーザによる前記音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示するステップであって、前記候補音色メニューは候補音色、及び前記候補音色に対応する試聴コントロールを含むステップと、
前記ユーザによる前記候補音色メニューに対する選択操作に基づいて第１目標音色を確定するステップと、
前記第１目標音色に基づいて前記テキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得するステップと、をさらに含む請求項１又は２に記載の方法。

【請求項4】

前記ユーザが前記第１編集トラックで第１目標トラックセグメントを選択することに応答して、前記第１目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示するステップと、
前記ユーザが前記テキスト編集領域で前記現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、前記第１目標トラックセグメントで前記目標テキストセグメントを更新して識別するステップと、をさらに含む請求項１～３のいずれか１項に記載の方法。

【請求項5】

前記第１目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第３編集トラックで前記第１目標トラックセグメントに対応する第３目標トラックセグメントを確定するステップと、
前記目標テキストセグメントに対応する目標音声セグメントを取得し、前記第３目標トラックセグメントで前記目標音声セグメントを更新して識別するステップと、をさらに含む請求項４に記載の方法。

【請求項6】

前記第１編集トラックにおける前記目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第２編集トラックを変更しないように維持し、予め設定された第１候補領域に前記第１更新時間長さに対応する第１更新トラックセグメントを表示するステップであって、前記第１更新トラックセグメントで前記目標テキストセグメントを識別するステップと、
前記第３編集トラックにおける前記目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第２編集トラックを変更しないように維持し、予め設定された第２候補領域に前記第３更新時間長さに対応する第３更新トラックセグメントを表示するステップであって、前記第３更新トラックセグメントで前記目標音声セグメントを識別するステップと、をさらに含む請求項５に記載の方法。

【請求項7】

前記第１編集トラックにおける前記目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第１更新時間長さに基づいて前記第１目標トラックセグメントの長さを調整するステップと、
前記第３編集トラックにおける前記目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、前記第３更新時間長さに基づいて前記第３目標トラックセグメントの長さを調整するステップと、
前記第２編集トラックにおける前記第１目標トラックセグメント及び前記第３目標トラックセグメントに対応する第２目標トラックセグメントの長さを対応して調整し、調整後の前記第１目標トラックセグメント、調整後の第２目標トラックセグメント及び調整後の第３目標トラックセグメントの時間軸を整列させるステップと、をさらに含む請求項５に記載の方法。

【請求項8】

前記第１目標トラックセグメントにおける前記目標テキストセグメントに対するテキスト更新操作に応答して、前記第２編集トラックで前記第１目標トラックセグメントに対応する第２目標トラックセグメントを確定するステップと、
前記目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、前記第２目標トラックセグメントで前記目標ビデオ画像セグメントを更新して識別するステップと、をさらに含む請求項４に記載の方法。

【請求項9】

前記ユーザが前記第３編集トラックで第３目標トラックセグメントを選択することに応答するステップであって、前記第３目標トラックセグメントは前記第１目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別するステップと、
予め設定されたオーディオ編集領域には、前記第３目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示するステップと、
前記ユーザが前記オーディオ編集領域で前記候補音色に基づいて前記現在の音色を修正して生成した第２目標音色に基づいて、前記第３目標トラックセグメントで目標音声セグメントを更新して識別するステップであって、前記目標音声セグメントは前記第２目標音色を使用して前記第１目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであるステップと、をさらに含む請求項１～８のいずれか１項に記載の方法。

【請求項10】

前記マルチメディア編集インタフェースは、
背景オーディオデータを識別することに用いられる第４編集トラックをさらに含み、
前記第４編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域に前記第４編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示し、
前記ユーザが前記背景音編集領域で前記候補背景音に基づいて前記現在の背景音を修正して生成した目標背景音に基づいて、前記第４編集トラックで前記目標背景音を更新して識別する請求項１～９のいずれか１項に記載の方法。

【請求項11】

マルチメディアデータの処理装置であって、
ユーザが入力したテキスト情報を受信するための受信モジュールと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、
前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理装置。

【請求項12】

電子機器であって、
プロセッサと、
実行可能な命令を記憶するように配置されるメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記実行可能な命令を実行することで上記請求項１～１０のいずれか１項に記載のマルチメディアデータの処理方法を実現するように配置される電子機器。

【請求項13】

コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶されており、前記コンピュータプログラムは上記請求項１～１０のいずれか１項に記載のマルチメディアデータの処理方法を実行することに用いられるコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本願は、２０２２年１０月２１日に提出された中国特許出願第２０２２１１２９５６３９．８号の優先権を主張するものであり、上記中国特許出願に開示されている全内容は援用によって本願の一部として組み込まれている。

【0002】

［技術分野］
本開示はマルチメディアデータの処理方法、装置、機器及び媒体に関する。

【背景技術】

【0003】

コンピュータ技術の発展に伴い、知識情報の共有方法はますます多様化しており、文字類及びオーディオ類の情報担体のほか、現在、ビデオ類の情報担体も随所に見られる。

【0004】

関連技術では、ユーザが共有しようとする文字コンテンツに基づいて、文字コンテンツを含む関連画像ビデオを生成する。しかしながら、ユーザのアイデアは随時変化し、現在の創作方式のスタイルは柔軟的ではなく、ユーザが柔軟的に処理する細粒度のニーズを満たすことができず、マルチメディアデータの品質は高くない。

【発明の概要】

【課題を解決するための手段】

【0005】

上記技術的課題を解決する又は少なくとも上記技術的課題の一部を解決するために、本開示はマルチメディアデータの処理方法、装置、機器及び媒体を提供する。

【0006】

本開示の実施例はマルチメディアデータの処理方法を提供し、前記方法は、ユーザが入力したテキスト情報を受信するステップと、前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。

【0007】

本開示の実施例はさらにマルチメディアデータの処理装置を提供し、前記装置は、ユーザが入力したテキスト情報を受信するための受信モジュールと、前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。

【0008】

本開示の実施例はさらに電子機器を提供し、前記電子機器は、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記命令を実行することで本開示の実施例が提供するマルチメディアデータの処理方法を実現することに用いられる。

【0009】

本開示の実施例はさらにコンピュータ可読記憶媒体を提供し、前記記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムは本開示の実施例が提供するマルチメディアデータの処理方法を実行することに用いられる。

【0010】

本開示の実施例はさらにコンピュータプログラム製品を提供し、前記コンピュータプログラム製品の命令がプロセッサにより実行されるときに、本開示の実施例が提供するマルチメディアデータの処理方法を実現する。

【発明の効果】

【0011】

本開示の実施例が提供する技術的解決手段は以下の利点を有する。

【0012】

本開示の実施例が提供するマルチメディアデータの処理手段は、ユーザが入力したテキスト情報を受信し、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、編集トラックにおいてタイムラインが整列する第１編集トラックに対応する第１トラックセグメント、第２編集トラックに対応する第２トラックセグメント、及び第３編集トラックに対応する第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別し、本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。

【0013】

図面と組み合わせて、以下の具体的な実施形態を参照すると、本開示の各実施例の上記及び他の特徴、利点及び態様はより明らかになる。図面にわたって、同一又は類似の符号は同一又は類似の要素を示す。理解すべきであるように、図面は例示的なものであり、部材及び要素は必ずしも実寸通りには描かれていない。

【図面の簡単な説明】

【0014】

【図1】図１は本開示の実施例が提供するマルチメディアデータの処理方法のフローチャートである。

【図2】図２は本開示の実施例が提供するテキスト入力インタフェースの模式図である。

【図3】図３は本開示の実施例が提供するマルチメディアデータのマルチメディアセグメントの構成模式図である。

【図4】図４は本開示の実施例が提供するマルチメディアデータの処理シーンの模式図である。

【図5】図５は本開示の実施例が提供するマルチメディア編集インタフェースの模式図である。

【図6】図６は本開示の実施例が提供する別のマルチメディアデータの処理方法のフローチャートである。

【図7】図７は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。

【図8】図８は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。

【図9】図９は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。

【図10】図１０は本開示の実施例が提供する別のマルチメディアデータの処理方法のフローチャートである。

【図11】図１１は本開示の実施例が提供する別のマルチメディアデータの処理シーンの模式図である。

【図12】図１２は本開示の実施例が提供するマルチメディアデータの処理装置の構造模式図である。

【図13】図１３は本開示の実施例が提供する電子機器の構造模式図である。

【発明を実施するための形態】

【0015】

以下、図面を参照して本開示の実施例をより詳細に説明する。図面には本開示のいくつかの実施例が示されているが、理解すべきであるように、本開示は様々な形態で実現することができ、ここで説明される実施例に限定されると解釈されるべきではなく、逆に、これらの実施例の提供は本開示をより詳細且つ完全に理解するためである。理解すべきであるように、本開示の図面及び実施例は例示的なものに過ぎず、本開示の保護範囲を制限するためのものではない。

【0016】

理解すべきであるように、本開示の方法の実施形態に記載の各ステップは異なる順序で実行することができ、及び／又は並列に実行することができる。また、方法の実施形態は、追加のステップを含んでもよく、及び／又は示されたステップの実行を省略してもよい。本開示の範囲はこの面で制限されない。

【0017】

本明細書で使用される用語「含む」及びその変形は、「…を含むが、それに限定されない」という開放的な包含である。用語「に基づく」は「少なくとも一部に基づく」である。用語「一実施例」は「少なくとも１つの実施例」を示し、用語「別の実施例」は「少なくとも１つの別の実施例」を示し、用語「いくつかの実施例」は「少なくともいくつかの実施例」を示す。他の用語の関連定義は下記の説明において与えられる。

【0018】

なお、本開示に言及された「第１」、「第２」等の概念は異なる装置、モジュール又はユニットを区別するためのものに過ぎず、これらの装置、モジュール又はユニットが実行する機能の順序又は相互依存関係を限定するためのものではない。

【0019】

なお、本開示に言及された「１つ」、「複数」の修飾は例示的なものに過ぎず、制限的なものではなく、当業者は理解すべきであるように、文脈で特に明示的に指摘されない限り、「１つ又は複数」と理解すべきである。

【0020】

本開示の実施形態の複数の装置間で交換するメッセージ又は情報の名称は説明の目的に用いられるものに過ぎず、これらのメッセージ又は情報の範囲を制限するためのものではない。

【0021】

上記問題を解決するために、本開示の実施例はマルチメディアデータの処理方法を提供し、該方法では、マルチメディアデータをテキスト編集トラック、ビデオ画像編集トラック及び音声編集トラック等の複数の編集トラックに分割し、編集トラックの編集操作によって対応する情報を編集し、それにより、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。

【0022】

以下、具体的な実施例を参照してマルチメディアデータの処理方法を説明する。

【0023】

図１は本開示の実施例が提供するマルチメディアデータの処理方法のフローチャートであり、該方法はマルチメディアデータの処理装置により実行でき、該装置はソフトウェア及び／又はハードウェアで実現でき、一般的にコンピュータ等の電子機器に集積されてもよい。図１に示すように、該方法は以下のステップ１０１～ステップ１０２を含む。

【0024】

ステップ１０１、ユーザが入力したテキスト情報を受信する。

【0025】

本開示の一実施例では、図２に示すように、文字を編集するテキスト入力インタフェースを提供することができ、該入力インタフェースはテキスト領域及びリンク領域を含み、本実施例では、ビデオの作成ニーズに応じて、テキスト情報をカスタマイズして編集することができ、即ち、ユーザがテキスト編集インタフェースのテキスト領域に入力したテキスト情報を受信し、又は許可されたリンクを貼り付け、リンクからテキスト情報等を抽出し、即ち、ユーザがリンク領域に入力したリンク情報を受信し、リンク情報を識別して対応するテキストのテキスト情報を取得し、ユーザが編集するためにテキスト領域に表示し、即ち、テキスト領域に表示されたテキスト情報は複数回編集することができる。

【0026】

ビデオ作成時、通常、時間長さの制限があり、それに対応して、いくつかの可能な実施例では、テキスト情報の文字数にも一定の制限があり、例えば、２０００文字を超えない等であり、従って、テキスト領域内のテキストの文字数が制限を超えるか否かをチェックすることができ、制限を超える場合、文字数が制限を超えたポップアップウィンドウをディスプレイすることで、ユーザに対して注意喚起等を行うことができる。

【0027】

本開示の一実施例では、引き続き図２を参照し、テキスト入力インタフェースは、テキスト領域、リンク領域に加えて、ビデオ生成ボタン及び音色選択エントリコントロールを含んでもよく、ユーザによる音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示することができ、候補音色メニューは、１つ又は複数の候補音色（複数の候補音色はおじさん、男の子、女の子、ロリ等の複数の音色タイプを含んでもよい）、及び候補音色に対応する試聴コントロールを含み、ユーザが試聴コントロールをトリガーするときに、ユーザが入力したテキスト情報の一部又は全部を対応する候補音色で再生する。

【0028】

本実施例では、ユーザはテキスト情報を入力するときに多様化する候補音色から音色を選択することができ、それにより、ユーザによる候補音色メニューに対する選択操作に基づいて第１目標音色を確定し、さらに、第１目標音色に基づいてテキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得し、このとき、各音声セグメントの音色は第１目標音色であり、第１目標音色に対するパーソナル化選択を満たす上で、第１目標音色に対する選択効率を向上させる。

【0029】

テキスト情報を複数の音声セグメントに分割する場合、テキスト情報に対して第１目標音色の朗読習慣に従って区切り処理を行って、各区切りに含まれるテキストセグメントを確定することができ、又は、テキスト情報のセマンティクス情報に基づいてテキスト情報を複数の音声セグメントに分割し、テキストセグメントを変換粒度としてテキスト情報を複数のテキストセグメントに対応する複数の音声セグメントに変換することができる。

【0030】

ステップ１０２、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、
マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、第１編集トラックは複数の第１トラックセグメントを含み、複数の第１トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第２編集トラックは複数の第２トラックセグメントを含み、複数の第２トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第３編集トラックは複数の第３トラックセグメントを含み、複数の第３トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。

【0031】

本開示の一実施例では、テキスト情報を編集処理するエントリを提供し、該エントリによってテキスト情報に対する処理命令を取得し、例えば、テキスト情報を編集処理するエントリはテキスト編集インタフェースに表示される「ビデオ生成」コントロールであってもよく、ユーザがテキスト編集インタフェースの「ビデオ生成」コントロールをトリガーしたと検出する場合、テキスト情報に対する処理命令を取得し、もちろん、他の可能な実施例では、テキスト情報を編集処理するエントリはジェスチャー動作入力エントリ、音声情報入力エントリ等であってもよい。

【0032】

本開示の一実施例では、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含む。

【0033】

つまり、図３に示すように、本実施例では、生成されたマルチメディアデータはセグメントを粒度とする複数のマルチメディアセグメントからなり、各マルチメディアセグメントは少なくとも３つの情報タイプを含み、それぞれテキストセグメント、音声セグメント（音声セグメントの初期音色は上記実施例においてテキスト編集インタフェースで選択された第１目標音色等であってもよい）、ビデオ画像セグメント等（ビデオ画像セグメントは連続するピクチャーからなるビデオストリームを含んでもよく、連続するピクチャーは予め設定されたビデオライブラリ内でマッチングしたビデオストリームにおけるピクチャーに対応することができ、予め設定された画像素材ライブラリ内でマッチングした１枚又は複数枚のピクチャーに対応することもできる）である。

【0034】

例えば、図４に示すように、ユーザが入力したテキスト情報は「今日の社会では婦人服のタイプが様々であり、例えば一般的な漢服、ファッションウェア、スポーツウエア等である」である場合、テキスト情報を処理すると、４つのマルチメディアセグメントＡ、Ｂ、Ｃ、Ｄを生成し、マルチメディアセグメントＡはテキストセグメントＡ１「今日の社会では婦人服のタイプが様々である」、テキストセグメントＡ１に対応する音声セグメントＡ３、テキストセグメントＡ１とマッチングするビデオ画像セグメントＡ２を含み、マルチメディアセグメントＢはテキストセグメントＢ１「例えば一般的な漢服」、テキストセグメントＢ１に対応する音声セグメントＢ３、テキストセグメントＢ１とマッチングするビデオ画像セグメントＢ２を含み、マルチメディアセグメントＣはテキストセグメントＣ１「ファッションウェア」、テキストセグメントＣ１に対応する音声セグメントＣ３、テキストセグメントＣ１とマッチングするビデオ画像セグメントＣ２を含み、マルチメディアセグメントＤはテキストセグメントＤ１「スポーツウエア等」、テキストセグメントＤ１に対応する音声セグメントＤ３、テキストセグメントＤ１とマッチングするビデオ画像セグメントＤ２を含む。

【0035】

上記したように、本実施例では、マルチメディアデータは少なくとも３つの情報タイプを含み、マルチメディアデータに対する多様化する編集ニーズを満たすために、本開示の一実施例では、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、第１編集トラックは複数の第１トラックセグメントを含み、複数の第１トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第２編集トラックは複数の第２トラックセグメントを含み、複数の第２トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第３編集トラックは複数の第３トラックセグメントを含み、複数の第３トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、各マルチメディアデータに対応する複数タイプの情報セグメントを視覚的に表現しやすくするために、編集トラックにおいてタイムラインが整列するようにセグメント、第２トラックセグメント及び第３トラックセグメントを表示し、第１トラックの第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。

【0036】

本開示の実施例では、マルチメディアデータを複数のマルチメディアセグメントに分割した後、各マルチメディアセグメントに対して複数の情報タイプに対応する編集トラックに分割し、それにより、ユーザは単一のマルチメディアセグメントを編集することができるだけでなく、単一のマルチメディアセグメントにおけるある編集トラックに対応するある情報セグメントを編集することができ、ユーザの多様化する編集ニーズを満たし、生成されたマルチメディアデータの品質を確保することができる。

【0037】

なお、異なる応用シーンでは、マルチメディア編集インタフェースの表示方式は異なり、可能な実現形態として、図５に示すように、マルチメディア編集インタフェースはビデオ再生領域、編集領域及び編集トラック表示領域を含んでもよく、編集トラック表示領域ではタイムラインが整列するように第１編集トラックに対応する第１トラックセグメント、第２編集トラックに対応する第２トラックセグメント、及び第３編集トラックに対応する第３トラックセグメントを表示する。

【0038】

編集領域は現在選択されている情報セグメントに対応する編集機能コントロール（具体的な編集機能コントロールは実験シーンのニーズに応じて設定することができる）を表示することに用いられ、ビデオ再生領域はマルチメディアデータの現在の再生時点における画像及び文字情報等を表示することに用いられ（編集トラック表示領域には時間軸と垂直な方向に現在の再生時点に対応する参照ラインを表示することができ、該参照ラインはマルチメディアデータの現在の再生位置を指示することに用いられ、参照ラインはドラッグすることもでき、ビデオ再生領域は参照ラインに対応するリアルタイムの位置におけるマルチメディアセグメントの画像及び文字情報等を同期して表示し、それにより、ユーザが該参照ラインの前後移動等に基づいてマルチメディアデータに対するフレーム毎の閲覧を実現することを容易にする）、ビデオ再生領域はさらにビデオ再生コントロールを再生することができ、ビデオ再生コントロールがトリガーされる場合、現在のマルチメディアデータを表示し、それにより、ユーザは現在のマルチメディアデータの再生効果を視覚的に知ることができる。

【0039】

引き続き図４に示されるシーンを例にし、図５において、編集トラック表示領域には、タイムラインが整列するように４つのマルチメディアセグメントＡ、Ｂ、Ｃ、Ｄ、及び４つのマルチメディアセグメントＡ、Ｂ、Ｃ、Ｄに対応するＡ１Ａ２Ａ３Ｂ１Ｂ２Ｂ３Ｃ１Ｃ２Ｃ３Ｄ１Ｄ２Ｄ３を表示する。テキストセグメントＡ１が選択された場合、編集領域にテキストセグメントＡ１に対応する編集インタフェースを表示し、該編集インタフェースに編集可能なＡ１、及びフォントや文字サイズ等の編集コントロール等が含まれる。このとき、ビデオ再生領域には現在のマルチメディアデータの参照ラインに対応する位置におけるマルチメディアデータ等を表示する。

【0040】

なお、本実施例のマルチメディア編集インタフェースには上記３つの編集トラックに加えて、他の編集トラックがさらに含まれてもよく、他の編集トラックの数は表示されず、各他の編集トラックはマルチメディアデータに対応する他の次元の情報セグメントを表示することに用いることができ、例えば、他の編集トラックにはマルチメディアデータの背景音を編集するための編集トラックが含まれる場合、即ち、マルチメディア編集インタフェースには背景オーディオデータを識別するための第４編集トラックが含まれてもよく、それにより、第４編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域（例えば、上記実施例で述べた編集領域）に第４編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示し、代替可能な候補背景音は背景音編集領域にラベル等の任意のスタイルで表示することができ、ユーザが背景音編集領域で候補背景音に基づいて現在の背景音を修正して生成した目標背景音に基づいて、第４編集トラックで目標背景音を更新して識別する。

【0041】

以上のように、本開示の実施例のマルチメディアデータの処理方法は、マルチメディアデータを複数のマルチメディアセグメントに分割し、各マルチメディアセグメントはそれに含まれる情報タイプに基づいて、各情報タイプに対応する編集トラックを有し、編集トラックにおいてマルチメディアセグメントに含まれるある情報タイプにおける情報セグメントを編集して修正することができ、それにより、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。

【0042】

以下、具体的な実施例を参照して、マルチメディアデータに対応するマルチメディア情報セグメントの異なる情報タイプの情報セグメントを如何に編集するかを説明する。

【0043】

本開示の一実施例では、マルチメディア情報セグメントに対応するテキストセグメントを単独で編集して修正することができる。

【0044】

本実施例では、図６に示すように、マルチメディア情報セグメントに対応するテキストセグメントを単独で編集して修正するステップは、以下のステップ６０１～ステップ６０２を含む。

【0045】

ステップ６０１、ユーザが第１編集トラックで第１目標トラックセグメントを選択することに応答して、第１目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示する。

【0046】

本開示の一実施例では、ユーザが第１編集トラックで第１目標トラックセグメントを選択することに応答し、該第１目標トラックセグメントは１つあってもよく、複数あってもよく、さらに、第１目標編集トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示し、テキスト編集領域は上記実施例に述べた編集領域に位置してもよい。テキスト編集領域には、編集可能な第１目標トラックセグメントで現在識別されているテキストセグメントに加えて、テキストセグメントに対する他の機能編集コントロールが含まれてもよく、例えば、フォント編集コントロール、文字サイズ編集コントロール等を含む。

【0047】

ステップ６０２、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第１目標トラックセグメントで目標テキストセグメントを更新して識別する。

【0048】

本実施例では、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第１目標トラックセグメントで目標テキストセグメントを更新して識別する。

【0049】

例えば、図７に示すように、ユーザが選択した第１目標トラックセグメントで現在識別されているテキストセグメントが「今日の社会では婦人服のタイプが様々である」であり、ユーザがテキスト編集領域で現在表示されているテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に修正する場合、第１目標トラックでテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新することができ、それにより、単一のテキストセグメントに対する修正を実現し、マルチメディアデータの単一のテキストセグメントに対する修正のニーズを満たす。

【0050】

本開示の一実施例では、マルチメディアデータの品質をさらに向上させ、画像とテキストのマッチングを確保するために、さらに、テキストセグメントに対する修正に基づいて、ビデオ画像セグメントにおける画像を同期して更新することができる。本実施例では、第１目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第２編集トラックで第１目標トラックセグメントに対応する第２目標トラックセグメントを確定し、目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、第２目標トラックセグメントで目標ビデオ画像セグメントを更新して識別する。

【0051】

目標テキストと予め設定されたピクチャー素材ライブラリにおけるピクチャーに対してセマンティクスマッチングを行って、対応する目標ビデオ画像を確定し、さらに、目標ビデオ画像に基づいて目標ビデオセグメントを生成するようにしてもよく、予め設定されたビデオセグメント素材ライブラリから目標テキストセグメントとマッチングするビデオセグメントを目標ビデオ画像セグメントとして直接確定する等してもよく、ここで制限しない。

【0052】

本開示の一実施例では、テキストと音声の同期を確保するために、さらに、テキストセグメントに対する修正に基づいて音声セグメントを同期して修正することができる。

【0053】

即ち、本実施例では、第１目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第３編集トラックで第１目標トラックセグメントに対応する第３目標トラックセグメントを確定し、該第３トラックセグメントには第１目標トラックセグメントにおけるテキストセグメントに対応する音声セグメントが含まれ、目標テキストセグメントに対応する目標音声セグメントを取得し、例えば、目標テキストセグメントを朗読することで目標音声セグメントを取得し、第３目標トラックセグメントで目標音声セグメントを更新して識別し、それにより、音声とテキストとの同期修正を実現する。

【0054】

引き続き図７を参照し、ユーザが選択した第１目標トラックセグメントで現在識別されているテキストセグメントが「今日の社会では婦人服のタイプが様々である」であり、ユーザがテキスト編集領域で現在表示されているテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に修正する場合、第１目標トラックでテキストセグメントを「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新することができ、且つ第３編集トラックで第１目標トラックセグメントに対応する第３目標トラックセグメントを確定し、第３目標トラックセグメントにおける音声セグメントを「今日の社会では婦人服のタイプが様々である」から「今日の社会では婦人服のタイプが様々であり、種類が多い」に更新する。

【0055】

上記したように、テキストセグメントの編集修正過程で、修正後のテキストセグメントの時間軸における対応する時間長さは、修正前のテキストセグメントの時間軸における対応する時間長さと異なり、従って、異なる応用シーンで、この時間長さの変化に基づいて編集トラック表示領域における編集トラックに対して異なる表示処理を行うことができる。

【0056】

本開示の一実施例では、シーンに応じてマルチメディアセグメントに対応するビデオ画像セグメントを時間長さが変更不可能なメイン情報セグメントとして定義する必要がある場合、ビデオ画像セグメントの時間長さが変更不可能であることを確保するために、第１編集トラックにおける目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知るときに、第２編集トラックを変更しないように維持し、即ち、対応するビデオ画像セグメントの時間長さを変更しないように確保し、予め設定された第１候補領域に第１更新時間長さに対応する第１更新トラックセグメントを表示する。

【0057】

第１更新トラックセグメントで目標テキストセグメントを識別する。第１候補領域は修正前のテキストセグメントの上方領域等の他の領域に位置してもよく、それにより、第１編集トラックにおける目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを知る場合であっても、目標テキストセグメントを「トラックアップ」等の形態で表示することができ、第２編集トラックに対応するビデオ画像セグメントの時間長さを対応して修正しないだけでなく、視覚的に他のマルチメディアセグメントのテキスト情報セグメントに対応する時間長さに影響を与えない。

【0058】

第３編集トラックにおける目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知るときに、第２編集トラックを変更しないように維持し、予め設定された第２候補領域に第３更新時間長さに対応する第３更新トラックセグメントを表示し、第３更新トラックセグメントで目標音声セグメントを識別する。第２候補領域は修正前の音声セグメントの下方領域等の他の領域に位置してもよく、それにより、第３編集トラックにおける目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを知る場合であっても、目標音声セグメントを「トラックダウン」等の形態で表示することができ、第２編集トラックに対応するビデオ画像セグメントの時間長さを対応して修正しないだけでなく、視覚的に他のマルチメディア情報セグメントの音声セグメントに対応する時間長さに影響を与えない。

【0059】

例えば、図８に示すように、図７に示されるシーンを例にし、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前のテキストセグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を修正前のテキストセグメントの上方に表示し、対応するビデオ画像セグメントの時間長さを変更しないように維持することができる。

【0060】

本実施例では、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前の音声セグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を修正前の音声セグメントの下方に表示し、且つ対応するビデオ画像セグメントの時間長さを変更しないように維持することができ、対応するシーンでビデオ画像セグメントの時間長さが変更不可能であるというニーズを満たす。

【0061】

本開示の一実施例では、シーンに応じてマルチメディアセグメントに対応するビデオ画像セグメントをタイムラインで他の情報セグメントと同期する必要がある場合、ビデオ画像セグメントのタイムラインでの同期を確保するために、第１編集トラックにおける目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知るときに、第１更新時間長さに基づいて第１目標トラックセグメントの長さを調整し、即ち、元の表示位置で第１目標トラックセグメントの長さをスケーリングし、同様に、第３編集トラックにおける目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知るときに、第３更新時間長さに基づいて第３目標トラックセグメントの長さを調整する。

【0062】

さらに、第２編集トラックにおける第１目標トラックセグメント及び第３目標トラックセグメントに対応する第２目標トラックセグメントの長さを対応して調整し、調整後の第１目標トラックセグメント、調整後の第２目標トラックセグメント及び調整後の第３目標トラックセグメントの時間軸を整列させ、それにより、マルチメディアセグメントに含まれるすべての情報セグメントのタイムラインでの整列を実現する。

【0063】

例えば、図９に示すように、図７に示されるシーンを例にし、修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前のテキストセグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正前のテキストセグメントの第１目標トラックセグメントの長さを長くして表示することができ、調整後の第１目標トラックセグメントで修正後のテキストセグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を表示する。

【0064】

本実施例では、修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」は修正前の音声セグメント「今日の社会では婦人服のタイプが様々である」に比べて、明らかなように、対応する時間長さが長くなるため、修正前の音声セグメントの第２目標トラックセグメントの長さを長くして表示することができ、調整後の第２目標トラックセグメントで修正後の音声セグメント「今日の社会では婦人服のタイプが様々であり、種類が多い」を表示する。

【0065】

ビデオ画像セグメントと他の情報セグメントとの同期を実現するために、本実施例では、第２編集トラックにおける第１目標トラックセグメント及び第３目標トラックセグメントに対応する第２目標トラックセグメントの長さを対応して調整し、調整後の第１目標トラックセグメント、調整後の第２目標トラックセグメント及び調整後の第３目標トラックセグメントの時間軸を整列させる。

【0066】

本開示の一実施例では、マルチメディア情報セグメントに対応する音声セグメントを単独で編集して修正することができる。

【0067】

本実施例では、図１０に示すように、マルチメディア情報セグメントに対応する音声セグメントを単独で編集して修正するステップは、以下のステップ１００１～ステップ１００３を含む。

【0068】

ステップ１００１、ユーザが第３編集トラックで第３目標トラックセグメントを選択することに応答し、第３目標トラックセグメントは第１目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別する。

【0069】

本開示の一実施例では、ユーザが第３編集トラックで第３目標トラックセグメントを選択することに応答し、第３目標トラックセグメントは１つあってもよく、複数あってもよく、第３目標トラックセグメントは第１目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別し、即ち、本実施例では、音声セグメントを単独で編集することができる。

【0070】

ステップ１００２、予め設定されたオーディオ編集領域には、第３目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示する。

【0071】

本実施例の予め設定されたオーディオ編集領域は上記実施例で述べた編集領域に位置してもよく、予め設定されたオーディオ編集領域には、第３目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示し、図１１に示すように、候補代替音色はラベル形態等の任意のスタイルで表示することができ、例えば、候補代替音色のラベル「おじさん」、「女の子」、「老人」等を表示することができ、ユーザは対応するラベルをトリガーすることによって候補音色の選択を実現することができる。

【0072】

ステップ１００３、ユーザがオーディオ編集領域で候補音色に基づいて現在の音色を修正して生成した第２目標音色に基づいて、第３目標トラックセグメントで目標音声セグメントを更新して識別し、目標音声セグメントは第２目標音色を使用して第１目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントである。

【0073】

本実施例では、ユーザは候補音色をトリガーすることで現在の音色を修正することができ、現在の音色をトリガーされた候補音色、即ち第２目標音色に修正し、それにより、第３トラックセグメントにおける音声セグメントの音色を修正し、ユーザがある音声セグメントの音色を修正するというニーズを満たし、例えば、ユーザは第３トラックセグメントに対応する複数の音声セグメントを異なる音色に修正することができ、それにより、面白い音声再生効果を実現する。

【0074】

以上のように、本開示の実施例のマルチメディアデータの処理方法は、マルチメディアセグメントに対応するテキストセグメント、音声セグメント等を柔軟的で単独で編集して修正することができ、さらにマルチメディアデータの多様化する編集ニーズを満たし、マルチメディアデータの品質を向上させる。

【0075】

上記実施例を実現するために、本開示はさらにマルチメディアデータの処理装置を提供する。

【0076】

図１２は本開示の実施例が提供するマルチメディアデータの処理装置の構造模式図であり、該装置はソフトウェア及び／又はハードウェアにより実現することができ、一般的に電子機器に集積してマルチメディアデータの処理を行うことができる。図１２に示すように、該装置は、受信モジュール１２１０、生成モジュール１２２０及びディスプレイモジュール１２３０を含み、
受信モジュール１２１０は、ユーザが入力したテキスト情報を受信することに用いられ、
生成モジュール１２２０は、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成することに用いられ、
ディスプレイモジュール１２３０は、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイすることに用いられ、
マルチメディアデータは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、第１編集トラックは複数の第１トラックセグメントを含み、複数の第１トラックセグメントはそれぞれ複数のテキストセグメントを識別することに用いられ、第２編集トラックは複数の第２トラックセグメントを含み、複数の第２トラックセグメントはそれぞれ複数のビデオ画像セグメントを識別することに用いられ、第３編集トラックは複数の第３トラックセグメントを含み、複数の第３トラックセグメントはそれぞれ複数の音声セグメントを識別することに用いられ、編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別する。

【0077】

選択的に、受信モジュールは具体的に、
ユーザがテキスト領域で入力したテキスト情報を受信すること、及び／又は、
ユーザがリンク領域で入力したリンク情報を受信し、リンク情報を識別して対応するページのテキスト情報を取得し、ユーザが編集するためにテキスト領域に表示することに用いられる。

【0078】

選択的に、第１表示モジュールと、第２表示モジュールと、音色確定モジュールと、音声セグメント取得モジュールと、をさらに含み、
第１表示モジュールは、音色選択エントリコントロールを表示することに用いられ、
第２表示モジュールは、ユーザによる音色選択エントリコントロールに対するトリガー操作に応答して、候補音色メニューを表示することに用いられ、候補音色メニューは候補音色、及び候補音色に対応する試聴コントロールを含み、
音色確定モジュールは、ユーザによる候補音色メニューに対する選択操作に基づいて第１目標音色を確定することに用いられ、
音声セグメント取得モジュールは、第１目標音色に基づいてテキスト情報を分割した複数のテキストセグメントを朗読して生成した複数の音声セグメントを取得することに用いられる。

【0079】

選択的に、第３表示モジュールと、テキストセグメント編集モジュールと、をさらに含み、
第３表示モジュールは、ユーザが第１編集トラックで第１目標トラックセグメントを選択することに応答して、第１目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示することに用いられ、
テキストセグメント編集モジュールは、ユーザがテキスト編集領域で現在表示されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、第１目標トラックセグメントで目標テキストセグメントを更新して識別することに用いられる。

【0080】

選択的に、トラックセグメント確定モジュールと、音声セグメント取得モジュールと、をさらに含み、
トラックセグメント確定モジュールは、第１目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第３編集トラックで第１目標トラックセグメントに対応する第３目標トラックセグメントを確定することに用いられ、
音声セグメント取得モジュールは、目標テキストセグメントに対応する目標音声セグメントを取得し、第３目標トラックセグメントで目標音声セグメントを更新して識別することに用いられる。

【0081】

選択的に、
第１編集トラックにおける目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、第２編集トラックを変更しないように維持し、予め設定された第１候補領域に第１更新時間長さに対応する第１更新トラックセグメントを表示することであって、第１更新トラックセグメントで目標テキストセグメントを識別することと、
第３編集トラックにおける目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、第２編集トラックを変更しないように維持し、予め設定された第２候補領域で第３更新時間長さに対応する第３更新トラックセグメントを表示することであって、第３更新トラックセグメントで目標音声セグメントを識別することと、に用いられる第１時間長さ表示処理モジュールをさらに含む。

【0082】

選択的に、
第１編集トラックにおける目標テキストセグメントに対応する第１更新時間長さと修正前のテキストセグメントに対応する時間長さとが一致しないことを検出により知る場合、第１更新時間長さに基づいて第１目標トラックセグメントの長さを調整することと、
第３編集トラックにおける目標音声セグメントに対応する第３更新時間長さと修正前の音声セグメントに対応する時間長さとが一致しないことを検出により知る場合、第３更新時間長さに基づいて第３目標トラックセグメントの長さを調整することと、
第２編集トラックにおける第１目標トラックセグメント及び第３目標トラックセグメントに対応する第２目標トラックセグメントの長さを対応して調整し、調整後の第１目標トラックセグメント、調整後の第２目標トラックセグメント及び調整後の第３目標トラックセグメントの時間軸を整列させることと、に用いられる第２時間長さ表示処理モジュールをさらに含む。

【0083】

選択的に、
第１目標トラックセグメントにおける目標テキストセグメントに対するテキスト更新操作に応答して、第２編集トラックで第１目標トラックセグメントに対応する第２目標トラックセグメントを確定することと、
目標テキストセグメントとマッチングする目標ビデオ画像セグメントを取得し、第２目標トラックセグメントで目標ビデオ画像セグメントを更新して識別することと、に用いられるビデオ画像更新モジュールをさらに含む。

【0084】

選択的に、
ユーザが第３編集トラックで第３目標トラックセグメントを選択することに応答することであって、第３目標トラックセグメントは第１目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別することと、
予め設定されたオーディオ編集領域には、第３目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示することと、
ユーザがオーディオ編集領域で候補音色に基づいて現在の音色を修正して生成した第２目標音色に基づいて、第３目標トラックセグメントで目標音声セグメントを更新して識別することであって、目標音声セグメントは第２目標音色を使用して第１目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであることと、に用いられる音色更新モジュールをさらに含む。

【0085】

選択的に、マルチメディア編集インタフェースは、
背景オーディオデータを識別することに用いられる第４編集トラックと、
第４編集トラックに対するトリガー操作に応答して、予め設定された背景音編集領域に第４編集トラックが使用している現在の背景音を表示し、及び代替可能な候補背景音を表示することに用いられる背景音表示モジュールと、
ユーザが背景音編集領域で候補背景音に基づいて現在の背景音を修正して生成した目標背景音に基づいて、第４編集トラックで目標背景音を更新して識別することに用いられる背景音更新処理モジュールと、をさらに含む。

【0086】

本開示の実施例が提供するマルチメディアデータの処理装置は本開示の任意の実施例が提供するマルチメディアデータの処理方法を実行することができ、方法を実行するための対応する機能モジュール及び有益な効果を有し、ここで繰り返して説明しない。

【0087】

上記実施例を実現するために、本開示はさらにコンピュータプログラム製品を提供し、コンピュータプログラム／命令を含み、該コンピュータプログラム／命令がプロセッサにより実行されるときに上記実施例のマルチメディアデータの処理方法を実現する。

【0088】

図１３は本開示の実施例が提供する電子機器の構造模式図である。

【0089】

以下、具体的に図１３を参照し、それは本開示の実施例を実現するのに適する電子機器１３００の構造模式図を示す。本開示の実施例の電子機器１３００は、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレットＰＣ）、ＰＭＰ（ポータブルマルチメディアプレーヤー）、車載端末（例えば車載ナビゲーション端末）等の移動端末、及びデジタルＴＶ、デスク型コンピュータ等の固定端末を含んでもよいが、それらに限定されない。図１３に示される電子機器は単に１つの例であり、本開示の実施例の機能及び使用範囲に何らの制限を与えるべきではない。

【0090】

図１３に示すように、電子機器１３００はプロセッサ（例えば、中央プロセッサ、グラフィックプロセッサ等）１３０１を含んでもよく、それは、読み出し専用メモリ（ＲＯＭ）１３０２に記憶されたプログラム又はメモリ１３０８からランダムアクセスメモリ（ＲＡＭ）１３０３にロードされたプログラムに基づいて、各種の適当な動作及び処理を実行することができる。ＲＡＭ１３０３には、電子機器１３００の操作に必要な各種のプログラム及びデータがさらに記憶されている。プロセッサ１３０１、ＲＯＭ１３０２及びＲＡＭ１３０３はバス１３０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インタフェース１３０５もバス１３０４に接続される。

【0091】

通常、例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープ等を含む入力装置１３０６、例えば液晶ディスプレイ（ＬＣＤ）、スピーカ、発振器等を含む出力装置１３０７、例えばテープ、ハードディスク等を含むメモリ１３０８、及び通信装置１３０９は、Ｉ／Ｏインタフェース１３０５に接続され得る。通信装置１３０９は、電子機器１３００が他の機器と無線又は有線通信を行ってデータを交換することを許可することができる。図１３に様々な装置を有する電子機器１３００が示されているが、理解すべきであるように、示されたすべての装置を実施し又は備えることを要求しない。代替的に、より多い又はより少ない装置を実施し又は備えるようにしてもよい。

【0092】

特に、本開示の実施例に基づいて、フローチャートを参照して説明した上記の過程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは非一時的なコンピュータ可読媒体に搭載されたコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信装置１３０９によってネットワークからダウンロード及びインストールされ、又はメモリ１３０８からインストールされ、又はＲＯＭ１３０２からインストールされるようにしてもよい。該コンピュータプログラムがプロセッサ１３０１により実行されるときに、本開示の実施例のマルチメディアデータの処理方法に限定された上記機能を実行する。

【0093】

なお、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組み合わせであってもよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含む、又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスにより使用されてもよく、又はそれらと組み合わせて使用されてもよい。本開示では、コンピュータ可読信号媒体は、ベースバンドに、又は搬送波の一部として伝播されるデータ信号を含んでもよく、これはコンピュータ可読プログラムコードを有する。このような伝播データ信号は、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、それらに限定されない複数の形態を取ることができる。コンピュータ可読信号媒体はさらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読信号媒体は、命令実行システム、装置又はデバイスにより使用され又はそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、ワイヤー、ケーブル、ＲＦ（無線周波数）等、又は上記の任意の適切な組み合わせを含むが、それらに限定されない任意の適切な媒体により伝送されてもよい。

【0094】

いくつかの実施形態では、クライアント、サーバはＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ハイパーテキスト転送プロトコル）のような現在知られている、又は将来開発される任意のネットワークプロトコルを利用して通信することができ、且つ任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）と互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、ネットワークのネットワーク（例えば、インターネット）及びエンドツーエンドネットワーク（例えば、ａｄｈｏｃエンドツーエンドネットワーク）、及び現在知られている又は将来開発される任意のネットワークを含む。

【0095】

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、単独で存在し、該電子機器に組み立てられないものであってもよい。

【0096】

上記コンピュータ可読媒体に１つ又は複数のプログラムが搭載され、上記１つ又は複数のプログラムが該電子機器により実行されるときに、該電子機器は、
ユーザが入力したテキスト情報を受信し、テキスト情報に対する処理命令に応答して、テキスト情報に基づいてマルチメディアデータを生成し、マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイし、マルチメディア編集インタフェースは複数のマルチメディアセグメントを含み、複数のマルチメディアセグメントはテキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、複数のマルチメディアセグメントは複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、編集トラックにおいてタイムラインが整列する第１編集トラックに対応する第１トラックセグメント、第２編集トラックに対応する第２トラックセグメント、及び第３編集トラックに対応する第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別し、本開示の実施例では、マルチメディアデータに対応する編集トラックを豊かにし、マルチメディアデータの多様化する編集ニーズを満たすことができ、マルチメディアデータの品質を向上させる。

【0097】

電子機器は、１つ又は複数のプログラミング言語又はそれらの組み合わせによって、本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、オブジェクト指向のプログラミング言語、例えばＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋を含むが、それらに限定されず、通常の手続き型プログラミング言語、例えば「Ｃ」言語又は類似のプログラミング言語をさらに含む。プログラムコードは、完全にユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで実行されてもよく、独立した１つのソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータで実行されて部分的にリモートコンピュータで実行されてもよく、又は完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに関わる状況では、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のネットワークを介してユーザコンピュータに接続でき、又は、外部コンピュータに接続できる（例えばインターネットサービスプロバイダを利用してインターネットを介して接続する）。

【0098】

図面のフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能な体系構造、機能及び操作を示している。この点では、フローチャート又はブロック図の各ボックスは１つのモジュール、プログラムセグメント、又はコードの一部を示すことができ、該モジュール、プログラムセグメント、又はコードの一部は、規定のロジック機能を実現するための１つ又は複数の実行可能な命令を含む。なお、代替としてのいくつかの実現形態において、ボックス内に表記された機能は、図面の表記と異なる順序で発生してもよい。例えば、２つの連続するボックスは実際に基本的に並列して実行することができるが、場合によって、反対の順序で実行されてもよく、これは関わる機能によって定められる。なお、ブロック図及び／又はフローチャートの各ボックス、及びブロック図及び／又はフローチャートのボックスの組み合わせは、規定の機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。

【0099】

本開示の実施例に関わるユニットはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ユニットの名称はある状況で該ユニット自体に対する限定を構成しない。

【0100】

本明細書で上記した機能は、少なくとも部分的に１つ又は複数のハードウェアロジック部材によって実行することができる。例えば、非限定的に、使用できる例示的なハードウェアロジック部材は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブルロジック機器（ＣＰＬＤ）等を含む。

【0101】

本開示の文脈では、機械可読媒体は有形の媒体であってもよく、それは、命令実行システム、装置又は機器により使用され又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又は機器、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数の線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。

【0102】

以上の説明は本開示の好適な実施例及び使用される技術原理の説明に過ぎない。当業者が理解すべきであるように、本開示に関わる開示範囲は、上記技術的特徴の特定の組み合わせによる技術的解決手段に限定されず、同時に、上記開示の発想を逸脱することなく、上記技術的特徴又はその同等の特徴を任意に組み合わせて形成する他の技術的手段を含むべきである。例えば、上記特徴と、本開示に開示されている（これに限定されない）類似の機能を有する技術的特徴と、を互いに置き換えて形成される技術的解決手段が挙げられる。

【0103】

また、特定の順序で各操作を説明したが、これらの操作が示された特定の順序又はシーケンシャルな順序で実行されることを要求すると理解されるべきではない。場合によっては、マルチタスク及び並列処理は有利である可能性がある。同様に、上記の説明にいくつかの具体的な実現の細部が含まれるが、これらは本開示の範囲の制限として解釈されるべきではない。単独の実施例の文脈に説明されるある特徴は、単一の実施例において組み合わせて実現されてもよい。逆に、単一の実施例の文脈に説明される様々な特徴は、単独で、又は任意の適切なサブコンビネーションの方式で複数の実施例において実現されてもよい。

【0104】

構造特徴及び／又は方法ロジック動作に特定の言語で本主題を説明したが、理解すべきであるように、添付の特許請求の範囲に限定された主題は必ずしも以上に説明された特定の特徴又は動作に限定されるものではない。逆に、以上に説明された特定の特徴及び動作は特許請求の範囲を実現するための例示的な形態に過ぎない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【手続補正書】

【提出日】2024-01-19

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

マルチメディアデータの処理方法であって、
ユーザが入力したテキスト情報を受信するステップと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成し、前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするステップと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記第１編集トラック、前記第２編集トラック、及び前記第３編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理方法。

【請求項2】

【請求項3】

【請求項4】

前記ユーザが前記第１編集トラックで第１目標トラックセグメントを選択することに応答して、前記第１目標トラックセグメントで現在識別されているテキストセグメントをテキスト編集領域に表示するステップと、
前記ユーザが前記テキスト編集領域に表示されている前記現在識別されているテキストセグメントを修正して生成した目標テキストセグメントに基づいて、前記第１目標トラックセグメントで前記目標テキストセグメントを更新して識別するステップと、をさらに含む請求項１に記載の方法。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

前記ユーザが前記第３編集トラックで第３目標トラックセグメントを選択することに応答するステップであって、前記第３目標トラックセグメントは第１目標トラックセグメントに表示されるテキストセグメントに対応する音声セグメントを対応して識別するステップと、
予め設定されたオーディオ編集領域には、前記第３目標トラックセグメントで音声セグメントに使用されている現在の音色を表示し、及び代替可能な候補音色を表示するステップと、
前記ユーザが前記オーディオ編集領域で前記候補音色に基づいて前記現在の音色を修正して生成した第２目標音色に基づいて、前記第３目標トラックセグメントで目標音声セグメントを更新して識別するステップであって、前記目標音声セグメントは前記第２目標音色を使用して前記第１目標トラックセグメントで識別されたテキストセグメントを朗読して生成した音声セグメントであるステップと、をさらに含む請求項１に記載の方法。

【請求項10】

【請求項11】

マルチメディアデータの処理装置であって、
ユーザが入力したテキスト情報を受信するための受信モジュールと、
前記テキスト情報に対する処理命令に応答して、前記テキスト情報に基づいてマルチメディアデータを生成するための生成モジュールと、
前記マルチメディアデータを編集操作するためのマルチメディア編集インタフェースをディスプレイするためのディスプレイモジュールと、を含み、
前記マルチメディアデータは複数のマルチメディアセグメントを含み、前記複数のマルチメディアセグメントは前記テキスト情報から分割された複数のテキストセグメントにそれぞれ対応し、前記複数のマルチメディアセグメントは前記複数のテキストセグメントにそれぞれ対応する朗読により生成された複数の音声セグメント、及び前記複数のテキストセグメントとそれぞれマッチングする複数のビデオ画像セグメントを含み、
前記マルチメディア編集インタフェースは第１編集トラック、第２編集トラック、及び第３編集トラックを含み、前記第１編集トラックは複数の第１トラックセグメントを含み、前記複数の第１トラックセグメントはそれぞれ前記複数のテキストセグメントを識別することに用いられ、前記第２編集トラックは複数の第２トラックセグメントを含み、前記複数の第２トラックセグメントはそれぞれ前記複数のビデオ画像セグメントを識別することに用いられ、前記第３編集トラックは複数の第３トラックセグメントを含み、前記複数の第３トラックセグメントはそれぞれ前記複数の音声セグメントを識別することに用いられ、前記第１編集トラック、前記第２編集トラック、及び前記第３編集トラックにおいてタイムラインが整列する第１トラックセグメント、第２トラックセグメント及び第３トラックセグメントは、対応するテキストセグメント、ビデオ画像セグメント及び音声セグメントをそれぞれ識別するマルチメディアデータの処理装置。

【請求項12】

【請求項13】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版