特表2024-527483 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ レモンインコーポレイテッドの特許一覧

特表2024-527483マルチメディア処理方法、装置、電子機器および記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-25

(54)【発明の名称】マルチメディア処理方法、装置、電子機器および記憶媒体

(51)【国際特許分類】

H04N 21/854 20110101AFI20240718BHJP

H04N 21/233 20110101ALI20240718BHJP

G10L 15/10 20060101ALI20240718BHJP

G10L 15/00 20130101ALI20240718BHJP

【ＦＩ】

H04N21/854

H04N21/233

G10L15/10 500T

G10L15/00 200G

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023576228

(86)(22)【出願日】2022-07-14

(85)【翻訳文提出日】2023-12-11

(86)【国際出願番号】 SG2022050494

(87)【国際公開番号】W WO2023287360

(87)【国際公開日】2023-01-19

(31)【優先権主張番号】202110802038.0

(32)【優先日】2021-07-15

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＡＮＤＲＯＩＤ

２．ＪＡＶＡ

(71)【出願人】

【識別番号】521388058

【氏名又は名称】レモンインコーポレイテッド

【氏名又は名称原語表記】ＬｅｍｏｎＩｎｃ．

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ジォン，シン

(72)【発明者】

【氏名】ジュ，ツォンホォイ

(72)【発明者】

【氏名】シャ，ルォイ

(72)【発明者】

【氏名】シャン，チュシァン

(72)【発明者】

【氏名】ズォン，デェジエン

(72)【発明者】

【氏名】ジアン，ヨンセン

(72)【発明者】

【氏名】トゥ，ミン

(72)【発明者】

【氏名】ドン，レェライ

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA29

5C164GA05

5C164MA07S

5C164MC01P

5C164PA44

5C164SB04P

(57)【要約】

本開示の実施例は、マルチメディア処理方法、装置、電子機器および記憶媒体を提供し、第１マルチメディアリソースを取得すること、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定すること、第１再生位置に基づいて、第１マルチメディアリソースをトリミングして、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まないこと、を含む。本開示の実施例は、マルチメディアリソース中の無效内容の自動クリッピングを実現し、クリッピング効率およびクリッピング効果を向上させる。

【特許請求の範囲】

【請求項1】

第１マルチメディアリソースを取得することと、
前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することであって、前記第１マルチメディアリソースのオーディオデータは、前記初期テキスト内容の音声数据を含む、前記初期テキスト内容を決定することと、
前記初期テキスト内容中の無效テキスト内容を決定することであって、前記無效テキスト内容は、意味的情報表現効果のないテキスト内容である、前記無効テキスト内容を決定することと、
前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することと、
前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることであって、前記第２マルチメディアリソースのオーディオデータは、ターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まず、前記ターゲットテキスト内容は、前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である、前記第２マルチメディアリソースを得ることと、を含む、ことを特徴とする、
マルチメディア処理方法。

【請求項2】

前記初期テキスト内容中の無效テキスト内容を決定することは、
前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することと、
前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することと、を含む、ことを特徴とする、
請求項１に記載の方法。

【請求項3】

前記初期テキスト内容は、複数のフラグメント内容を含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することは、
前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも１つのフラグメント内容の信頼性係数を決定することであって、前記信頼性係数は、前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付けるために使用される、前記信頼性係数を決定することと、
前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも１つのフラグメント内容から少なくとも１つの無效フラグメント内容を決定することと、
前記少なくとも１つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することと、を含む、ことを特徴とする、
請求項２に記載の方法。

【請求項4】

前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することは、
前記第１マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定することと、
各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することと、を含む、ことを特徴とする、
請求項３に記載の方法。

【請求項5】

前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、
前記第１再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得することであって、前記他のテキスト内容は、少なくとも１つのターゲットフラグメント内容を含む、前記他のテキスト内容を取得することと、
少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および／または、少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成することと、
前記第１再生位置に応じて前記遷移音声データをスプライシングし、前記第２マルチメディアリソースを生成することと、を含む、ことを特徴とする、
請求項３に記載の方法。

【請求項6】

前記初期テキスト内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、当該方法は、
予め設定された無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定することをさらに含み、
前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することは、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することを含み、
前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後に、当該方法は、
前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加すること、をさらに含む、ことを特徴とする、
請求項２に記載の方法。

【請求項7】

前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得る前に、
前記初期テキスト内容中の無效テキスト内容を表示することと、
前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生することと、をさらに含む、ことを特徴とする、
請求項１に記載の方法。

【請求項8】

前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することは、
音声端点検出ＶＡＤアルゴリズムにより、前記第１マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識することと、
前記第１マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することと、を含む、ことを特徴とする、
請求項１に記載の方法。

【請求項9】

当該方法は、
前記非音声データの開始点および終了点に基づいて、前記第１マルチメディアリソースにおける前記非音声データの第２再生位置を決定することをさらに含み、
前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、
前記第１再生位置と前記第２再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、前記第２マルチメディアリソースを得ることを含み、前記第２マルチメディアリソースは、前記非音声データを含まない、ことを特徴とする、
請求項８に記載の方法。

【請求項10】

前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することは、
自動音声認識ＡＳＲ技術により、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得することであって、前記タイムスタンプは、前記第１マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付ける、前記タイムスタンプを取得することと、
前記複数の音声単語に基づいて、前記初期テキスト内容を生成することと、を含み、
前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することは、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することを含む、ことを特徴とする、
請求項１に記載の方法。

【請求項11】

前記初期テキスト内容中の無效テキスト内容を決定することは、
前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得することと、
予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第１時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第２時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定することと、を含む、ことを特徴とする、
請求項１０に記載の方法。

【請求項12】

前記第１マルチメディアリソースは、ビデオデータをさらに含み、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、
前記第１再生位置に基づいて、前記第１マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第２マルチメディアリソースを得ること、を含む、ことを特徴とする、
請求項１に記載の方法。

【請求項13】

第１マルチメディアリソースを取得し、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定するために使用される、音声認識モジュールであって、前記第１マルチメディアリソースのオーディオデータは、前記初期テキスト内容の音声データを含む、音声認識モジュールと、
前記初期テキスト内容中の無效テキスト内容を決定するために使用される、第１確認モジュールであって、前記無效テキスト内容は、意味的情報表現効果のないテキスト内容である、第１確認モジュールと、
前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定するために使用される、第２確認モジュールと、
前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得るために使用される、生成モジュールであって、前記第２マルチメディアリソースのオーディオデータは、ターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まず、前記ターゲットテキスト内容は、前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である、生成モジュールと、を備える、ことを特徴とする、
マルチメディア処理装置。

【請求項14】

少なくとも１つのプロセッサと、メモリとを備える、
電子機器であって、
前記メモリは、コンピュータ実行指令を記憶し、
前記少なくとも１つのプロセッサは、前記メモリに記憶された前記コンピュータ実行指令を実行し、前記少なくとも１つのプロセッサに請求項１～１２のいずれか１項に記載のマルチメディア処理方法を実行させる、ことを特徴とする、
電子機器。

【請求項15】

コンピュータ実行指令を記憶し、プロセッサが前記コンピュータ実行指令を実行すると、請求項１～１２のいずれか１項に記載のマルチメディア処理方法を実行する、ことを特徴とする、コンピュータ可読記憶媒体。

【請求項16】

コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると請求項１～１２のいずれか１項に記載の方法が実行される、ことを特徴とする、コンピュータプログラム製品。

【請求項17】

プロセッサによって実行されると、請求項１～１２のいずれか１項に記載の方法が実行される、ことを特徴とする、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の参照）
本開示は、２０２１年７月１５日に出願された「マルチメディア処理方法、装置、電子機器および記憶媒体」という名称の中国特許出願第２０２１１０８０２０３８．０号の優先権を主張し、そのすべての内容は参照により本明細書に組み込まれる。

【0002】

（技術分野）。
本開示の実施例は、コンピュータの技術分野に関し、特に、マルチメディア処理方法、装置、電子機器および記憶媒体に関する。

【背景技術】

【0003】

現在、マルチメディア作成ソフトウェア及びマルチメディア作成プラットフォームの急速な発展により、一般人によるマルチメディアリソース作成の技術的難易度及び敷居は大幅に下がり、マルチメディアを利用したコンテンツ作成及び共有は普遍的な段階に入った。マルチメディアリソースの作成過程において、マルチメディアリソースの表現力を向上させるために、マルチメディアリソースを録音した後、作者がマルチメディアリソースの後処理トリミングを行い、例えば、口の誤り、ポーズ、その他の音声表現が流暢でない、不正確な音声、ビデオフラグメントを削除し、マルチメディアリソースの全体的な再生円滑性を向上させる必要があることが多い。

【0004】

しかしながら、先行技術において、マルチメディアリソースの全体的な再生円滑性を向上させるために、マルチメディアリソースをトリミングするプロセスは、専門的な編集ツールによって手動で処理することしかできず、専門的に要求され、操作が難しく、その結果、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題がある。

【発明の概要】

【0005】

本開示の実施例は、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題を克服するために、マルチメディア処理方法、装置、電子機器および記憶媒体を提供する。

【0006】

第１態様において、本開示の実施例はマルチメディア処理方法を提供し、この方法は、
第１マルチメディアリソースを取得すること、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定すること、第１再生位置に基づいて、第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容であることを含む。

【0007】

第２態様において、本開示の実施例はマルチメディア処理装置を提供し、この装置は、
第１マルチメディアリソースを取得し、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定するために使用され、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む音声認識モジュールと、
初期テキスト内容中の無效テキスト内容を決定するために使用され、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である第１確認モジュールと、
第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定するために使用される第２確認モジュールと、
第１再生位置に基づいて、第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得るために使用され、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である生成モジュールと、を備える。

【0008】

第３態様において、本開示の実施例は電子機器を提供し、少なくとも１つのプロセッサとメモリを備え、
メモリはコンピュータ実行指令を記憶し、
少なくとも１つのプロセッサはメモリに記憶されたコンピュータ実行指令を実行し、少なくとも１つのプロセッサに上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法を実行させる。

【0009】

第４態様において、本開示の実施例はコンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体はコンピュータ実行指令を記憶し、プロセッサがコンピュータ実行指令を実行すると、上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0010】

第５態様において、本開示の実施例はコンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行されると上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0011】

第６態様において、本開示の実施例はコンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行されると上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0012】

本実施例が提供するマルチメディア処理方法、装置、電子機器および記憶媒体は、第１マルチメディアリソースを取得すること、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定すること、第１再生位置に基づいて、第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容であることを含む。第１マルチメディアリソースの音声認識とテキスト処理に基づいて、第１マルチメディアリソース中の無效テキスト内容の自動位置決めおよびトリミングを実現し、マルチメディアリソース中の無效内容に対するクリッピング効率およびクリッピング効果を向上させ、クリッピング後のマルチメディアリソースの再生円滑性を向上させることができる。

【図面の簡単な説明】

【0013】

本開示の実施例または先行技術における技術的解決策をより明確に説明するために、以下実施例または先行技術説明において使用される必要のある図面を簡単に説明するが、明らかに、以下で説明される図面は本開示のいくつかの実施例に過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。

【0014】

【図1】本開示の実施例が提供するマルチメディア処理方法の適用シナリオを示す図である。

【図2】本開示の実施例が提供するマルチメディア処理方法の別の適用シナリオを示す図である。

【図3】本開示の実施例が提供するマルチメディア処理方法の概略フローチャート１である。

【図4】本開示の実施例が提供する第１マルチメディアリソースを通じて第２マルチメディアリソースを得る過程の概略図である。

【図5】本開示の実施例が提供するマルチメディア処理方法の概略フローチャート２である。

【図6】図５に示す実施例におけるステップＳ２０３の実施態様を示すフローチャートである。

【図7】図５に示す実施例におけるステップＳ２０４の実施態様を示すフローチャートである。

【図8】本開示の実施例が提供する対話インターフェースを示す概略図である。

【図9】本開示の実施例が提供する別の第１マルチメディアリソースを通じて第２マルチメディアリソースを得る過程を示す概略図である。

【図10】本開示の実施例が提供するマルチメディア処理装置の構造ブロック図である。

【図11】本開示の実施例が提供する電子機器の概略構造図である。

【図12】本開示の実施例が提供する電子機器のハードウェアの概略構造図である。

【発明を実施するための形態】

【0015】

本開示の実施例の目的、技術的解決策および利点をより明確にするために、以下、本開示の実施例の図面と併せて、本開示の実施例中の技術的解決策を明確かつ完全に説明するが、明らかに、説明される実施例は本開示の一部の実施例に過ぎず、全ての実施例ではない。本開示中の実施例に基づいて、当業者は創造的な労働をすることなく得られた他の実施例はすべて本開示の保護範囲に含まれる。

【0016】

以下、本開示の実施例の適用シナリオを解釈する。

【0017】

図１は、本開示の実施例が提供するマルチメディア処理方法の適用シナリオを示す図であり、本実施例が提供するマルチメディア処理方法はマルチメディアビデオリソースを録画した後のポストクリッピング処理の適用シナリオに適用され得、ここで、マルチメディアビデオリソースは例えばオーディオを含むビデオであり、具体的に、本実施例が提供する方法は端末装置に適用され得、図１に示すように、ユーザは端末装置１１によりマルチメディア初期ビデオを録画した後、前記端末装置１１は本実施例が提供するマルチメディア処理方法を実行することにより、マルチメディア初期ビデオを処理し、該マルチメディア初期ビデオ中出現の口の誤り、ポーズ、口パクなどの無意味な内容に対応するビデオフラグメントおよびオーディオフラグメントを自動的に除去し、マルチメディアクリッピングビデオを生成し、マルチメディアクリッピングビデオ中の無意味な内容が除去されたので、マルチメディア初期ビデオに対して、マルチメディアクリッピングビデオの内容の連続性および円滑性がより高く、マルチメディアビデオリソースの内容の品質がより高くなる。その後、端末装置１１は該マルチメディアクリッピングビデオをビデオプラットフォームサーバー１２に送信し、ビデオプラットフォームサーバー１２は該マルチメディアクリッピングビデオをマルチメディアビデオリソースとしてビデオプラットフォームに投稿し、他の端末装置１３は、ビデオプラットフォームサーバー１２と通信することにより該マルチメディアビデオリソースを視聴することができる。

【0018】

図２は、本開示の実施例が提供するマルチメディア処理方法の別の適用シナリオを示す図であり、可能な実施態様では、本実施例が提供する方法もビデオプラットフォームサーバーに適用され得、すなわち、ユーザは端末装置によりマルチメディア初期ビデオを録画した後、該マルチメディア初期ビデオをビデオプラットフォームサーバーに送信し、ビデオプラットフォームサーバーは本実施例が提供するマルチメディア処理方法を実行することにより、マルチメディア初期ビデオを処理し、図１に示すマルチメディアクリッピングビデオを生成し、該マルチメディアクリッピングビデオをマルチメディアビデオリソースとしてビデオプラットフォームに投稿し、他の端末装置はビデオプラットフォームサーバーと通信することにより、該マルチメディアビデオリソースを視聴することができる。

【0019】

先行技術において、マルチメディアリソースの全体的な再生円滑性を向上させるために、マルチメディアリソースをトリミングするプロセスは、専門的な編集ツールによって手動で処理することしかできず、専門的に要求され、操作が難しく、その結果、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題がある。これは、ユーザ自身が録画したマルチメディアリソースは、ユーザごとの発音特徴や言語表現スタイルの違い、およびマルチメディアリソースの内容の違いにより、マルチメディアリソース中の無意味な内容の正確な認識と位置決めを実現することは困難であるため、通常、マルチメディアリソースの画面と音声を手動で組み合わせて総合的に判断した後、手動でトリミングしかできず、効率が悪いだけでなく、クリッピング後のマルチメディアリソースの再生円滑性にも影響を与える。

【0020】

本開示の実施例は、上記問題を解決するためのマルチメディア処理方法を提供する。

【0021】

図３は、本開示の実施例が提供するマルチメディア処理方法の概略フローチャート１である。本実施例の方法はサーバーまたは端末装置に適用され得、本実施例では、端末装置を本実施例の方法の実行主体として例示的に説明し、前記マルチメディア処理方法は以下のステップを含む。

【0022】

Ｓ１０１：第１マルチメディアリソースを取得する。

【0023】

例示的に、マルチメディアは通常、様々なメディアの組み合わせを指し、一般的に、テキスト、音声および画像などの様々なメディア形式を含む。コンピュータシステムでは、マルチメディアとは２つ以上のメディアを組み合わせてなる、マンマシン相互作用の情報交換および普及のためのメディアを指す。本実施例では、第１マルチメディアリソースは、オーディオを含む音声付きビデオであり、より具体的に、第１マルチメディアリソースは、ビデオデータとオーディオデータを保護するためのマルチメディアリソースまたはファイルであってもよい。

【0024】

さらに、第１マルチメディアリソースは、ユーザが端末装置、例えばスマートフォンの録画機能を通じて録画された音声付きビデオであってもよく、本実施例では、前記音声付きビデオは、人間の声を含むビデオ、例えば解説ビデオ、教育ビデオ、製品紹介ビデオなどである。もちろん、前記第１マルチメディアリソースは、端末装置が他の電子機器から送信されたデータを受信して取得されてもよいことを理解されたく、ここではこれ以上の例を示さない。

【0025】

Ｓ１０２：第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む。

【0026】

例示的に、第１マルチメディアリソースはオーディオデータを少なくとも含み、第１マルチメディアリソースを取得した後、予め設定されたアルゴリズムにしたがって、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソース中のオーディオデータによって表現された内容に対応するテキスト、すなわち初期テキスト内容を決定する。ここで、例示的に、オーディオデータは音声データのみを含んでもよく、または、音声データと非音声データを同時に含んでもよく、音声データはビデオ中録画の人間の声に対応するオーディオデータであり、対応的に、非音声データはビデオに録画された人間以外の音に対応するオーディオデータである。より具体的に、例えば第１マルチメディアリソースは製品紹介ビデオであり、ここで、ビデオ中の製品紹介者の声に対応するオーディオデータは音声データである。第１マルチメディアリソースのオーディオデータに対して音声認識を行うことにより、得られたテキストは初期テキスト内容であり、すなわちビデオ中の製品紹介者の声から変換されたテキストである。

【0027】

Ｓ１０３：初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である。

【0028】

さらに、例示的に、初期テキスト内容を取得した後、初期テキスト内容中の単語、フレーズ、文句、段落に基づいて、初期テキスト内容を認識することにより、その中の無效テキスト内容とターゲットテキスト内容を決定することができる。ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であり、より具体的に、例えば異常なポーズ、重複、冗長なイントネーション語、その他、情報表現効果のないが言語表現の円滑性に影響を与える単語、フレーズ、文句などである。

【0029】

例示的に、初期テキスト内容中の無效テキスト内容を決定する様々な実施態様があり、例えば、プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效テキスト内容を決定し、具体的に、無效テキスト内容ライブラリは無效テキスト内容に対応する単語、フレーズ、文句などの予め設定された要素を含み、無效テキスト内容ライブラリ中の単語、フレーズ、文句に基づいて、初期テキスト内容に上記無效テキスト内容ライブラリ中の単語、フレーズ、文句が含まれるかどうかを検出し、初期テキスト内容中の無效テキスト内容を決定する。

【0030】

別の可能な実施態様では、初期テキスト内容を意味論的に分析し、初期テキスト内容に対応する意味情報を取得し、意味情報に基づいて、初期テキスト内容中の無效テキスト内容を決定する。ここで、具体的に、初期テキスト内容を意味論的に分析することにより、初期テキスト内容中の各単語、フレーズ要素の意味を決定することができ、ここで、無效テキスト内容は意味の１つの分類である。したがって、初期テキスト内容を意味論的に分析することにより、初期テキスト内容中の無效テキスト内容を決定することができる。

【0031】

ここで、初期テキスト内容の意味論的分析は、プリトレーニングされた言語処理モデルによって実現され、意味論的分析のための言語処理モデルの使用およびトレーニングは当業者に公知の先行技術であるので、本明細書では辿らない。

【0032】

Ｓ１０４：第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。

【0033】

例示的に、初期テキスト内容中の各単語またはフレーズは、オーディオフラグメント、およびオーディオデータに対応し、オーディオデータは再生タイムスタンプを含み、初期テキスト内容中の無效テキスト内容を決定した後、無效テキスト内容中に含まれた単語、フレーズに基づいて、各単語、フレーズに対応するオーディオデータを決定し、オーディオデータの再生タイムスタンプを取得し、さらに、オーディオデータの再生タイムスタンプに基づいて、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。例示的に、可能な実施態様では、無效テキスト内容は第１マルチメディアリソースにおいて連続的なオーディオデータに対応し、この場合、第１再生位置は、開始点および終了点を有する１組の再生タイムスタンプのみを含んでもよい。別の可能な実施態様では、無效テキスト内容は第１マルチメディアリソースにおいて複数の不連続的なオーディオデータに対応し、この場合、第１再生位置は、開始点および終了点を有する複数組の再生タイムスタンプを含んでもよい。

【0034】

Ｓ１０５：第１再生位置に基づいて、第１マルチメディアリソースをトリミングして、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である。

【0035】

例示的に、第１再生位置を決定した後、無效テキスト内容に対応する音声データを認識および位置決めたことに相当し、マルチメディアビデオ再生の全体的な円滑性を向上させるために、第１再生位置に基づいて、無效テキスト内容に対応する音声データを第１マルチメディアリソースのオーディオデータ全体から削除し、ターゲットテキスト内容に対応する音声データを保留し、ポーズ、重複、冗長なイントネーション語などの情報表現効果のない単語、フレーズによりマルチメディアビデオ内容の表現に与えられる影響を低減する。具体的に、第１再生位置により第１マルチメディアリソースにおける無效テキスト内容に対応する音声データの再生位置を説明することに基づいて、無效テキスト内容に対応する音声データの開始点および終了点を決定し、さらに、開始点および終了点間のデータを削除し、開始点前および終了点後のターゲットテキスト内容の音声データをスプライシングして、クリッピング後のオーディオデータを生成する。

【0036】

さらに、本実施例では、第１マルチメディアリソースはビデオデータをさらに含むので、同様に、第１再生位置に基づいて、第１マルチメディアリソース中のビデオデータを対応して処理し、無效テキスト内容に対応するビデオデータをクリッピングし、再生時間軸におけるクリッピング後のオーディオデータに対応するクリッピング後のビデオデータを生成し、第２マルチメディアリソースを得る。

【0037】

図４は、本開示の実施例が提供する第１マルチメディアリソースを通じて第２マルチメディアリソースを得る過程の概略図であり、図４に示すように、第１マルチメディアリソースはオーディオデータおよびビデオデータを含み、オーディオデータは音声データを含み、音声データは第１音声データと第２音声データを含み、ここで、第１音声データは無效テキスト内容に対応する音声データであり、第２音声データはターゲットテキスト内容に対応する音声データである。第１再生位置に基づいて、音声データ中の第１音声データと第２音声データの位置を決定した後、第１音声データをトリミングし、第２音声データを保留し、再度スプライシングし、ターゲットオーディオデータを生成し、これに対応して、第１再生位置に基づいて、対応するビデオデータをトリミングおよびスプライシングして、ターゲットビデオデータを生成する。さらに、ターゲットオーディオデータとターゲットビデオデータに基づいて、第２マルチメディアリソースを生成する。

【0038】

本実施例では、第１マルチメディアリソースを取得し、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含み、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であり、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定し、第１再生位置に基づいて、第１マルチメディアリソースをトリミングして、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である。第１マルチメディアリソースの音声認識およびテキスト処理により、第１マルチメディアリソース中の無效テキスト内容の自動位置決めおよびトリミングを実現し、マルチメディアリソース中の無效内容に対するクリッピング効率およびクリッピング効果を向上させ、クリッピング後のマルチメディアリソースの再生円滑性を向上させることができる。

【0039】

図５は、本開示の実施例が提供するマルチメディア処理方法の概略フローチャート２である。本実施例は、図３に示す実施例に基づいて、ステップＳ１０２～Ｓ１０５をさらに微細化し、前記マルチメディア処理方法は以下のステップを含む。

【0040】

Ｓ２０１：第１マルチメディアリソースを取得する。

【0041】

Ｓ２０２：音声端点検出アルゴリズムにより、第１マルチメディアリソースのオーディオデータ中の音声データおよび非音声データを認識する。

【0042】

例示的に、音声端点検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）アルゴリズムは、音声活動検出とも呼ばれ、音声信号ストリームから無音期間（すなわち人間以外の音声信号）を認識する目的で使用され、本実施例では、音声端点検出アルゴリズムにより、第１マルチメディアリソースのオーディオデータを処理することにより、その中の人間の声に対応する音声データと人間以外の音に対応する非音声データを認識し、後の音声データに基づく処理プロセスを実現することができる。ここで、音声端点検出アルゴリズムの具体的な実現方法は、当業者に公知の先行技術であるので、ここでは繰り返さない。

【0043】

Ｓ２０３：第１マルチメディアリソースのオーディオデータ中の音声データを音声認識し、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、初期テキスト内容は複数のフラグメント内容を含む。

【0044】

例示的に、図６に示すように、Ｓ２０３は、Ｓ２０３１、Ｓ２０３２の２つの具体的な実現ステップを含み、

【0045】

Ｓ２０３１：自動音声認識技術により、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各音声単語に対応するタイムスタンプを取得し、タイムスタンプは、第１マルチメディアリソースにおける音声単語に対応するオーディオデータの再生位置を特徴付ける。

【0046】

Ｓ２０３２：複数の音声単語に基づいて、初期テキスト内容を生成する。

【0047】

例示的に、自動音声認識技術（ＡＳＲ、ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は、人間の音声をテキストに変換する技術であり、音響学、音声学、言語学、コンピュータサイエンスなどの複数の技術分野に基づいて実施される技術であり、オーディオ信号の前処理、特徴抽出、後処理、特徴認識などの多くのリンクを通じて音声からテキストへの変換を実現し、ここで、各処理に関与するさまざまな方法があり、当業者に公知の先行技術であり、具体的なニーズに応じて各処理リンクに関与する具体的なアルゴリズムを設定し、ここでは例を示さない。

【0048】

さらに、自動音声認識技術により、第１マルチメディアリソースのオーディオデータを音声認識した後、単語レベルの認識結果、すなわち音声単語を出力し、ここで、各音声単語はオーディオデータに対応し、すなわちオーディオフラグメントに対応する。第１マルチメディアリソースのオーディオデータ中の各オーディオフラグメントに対応する再生タイミングに従って、各オーディオフラグメントに対応する音声単語を配列し、生成された複数の音声単語を含むテキストは初期テキスト内容である。さらに、例示的に、自動音声認識技術により音声単語を認識する過程中、各音声単語に対応するタイムスタンプも認識され、第１マルチメディアリソースにおける音声単語に対応するオーディオデータ（すなわち上記音声フラグメント）の再生位置を特徴付け、前記過程は、予め設定された自動音声認識アルゴリズムにより実現され、ここでは繰り返さない。

【0049】

ここで、例示的に、１または複数の音声単語は、特定の意味を特徴付けるためのフラグメント内容を構成する。例えば、２つの音声単語から構成されたフレーズ、または４つの音声単語から構成された熟語などである。初期テキスト内容中の無效テキスト内容について、音声単語の形式、例えば「うん」であってもよく、２つの音声単語の形式、例えば「あの」であってもよく、上記例示は中国語の音声によく現れる意味的情報表現効果のない内容のみであり、他の言語でも同様であるので、ここでは例を挙げない。

【0050】

Ｓ２０４：初期テキスト内容の複数フラグメント内容から、少なくとも１つの無效フラグメント内容を決定する。

【0051】

例示的に、図７に示すように、Ｓ２０４は、Ｓ２０４１、Ｓ２０４２、Ｓ２０４３、Ｓ２０４４、Ｓ２０４５の５つの具体的な実現ステップを含み、

【0052】

Ｓ２０４１：プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效フラグメント内容を決定する。

【0053】

Ｓ２０４２：無效テキスト内容ライブラリに無效フラグメント内容が存在しない場合、初期テキスト内容を意味論的に分析し、初期テキスト内容の各フラグメント内容に対応する意味情報を取得する。

【0054】

例示的に、無效テキスト内容ライブラリに、複数の意味的情報表現効果のない音声単語および／または音声単語の組み合わせが予め設定され、無效テキスト内容ライブラリに予め設定された意味的情報表現効果のない音声単語および／または音声単語の組み合わせに基づいて、初期テキスト内容の一致性を検出し、初期テキスト内容中の同じ意味的情報表現効果のない音声単語および／または音声単語の組み合わせ、すなわち無效フラグメント内容を決定する。この時点で、ステップＳ２０４を達成することができる。ここで、無效テキスト内容ライブラリによって無效フラグメント内容を決定し、意味論的分析のステップが省略されるため、より効率的であり、より少ない演算リソースを消費し、無效テキスト内容の位置決めとクリッピング効率を向上させることができる。

【0055】

無效テキスト内容ライブラリに無效フラグメント内容が存在しない場合、すなわち無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および／または音声単語の組み合わせに基づいて、初期テキスト内容の一致性を検出した後、初期テキスト内容から、無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および／または音声単語の組み合わせが検出されなく、または、初期テキスト内容から検出された無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および／または音声単語の組み合わせ数がプリセット値未満である場合、初期テキスト内容を意味論的に分析し、意味論的分析を通じて、初期テキスト内容の各フラグメント内容に対応する意味情報を決定し、さらに後続ステップでは、意味情報に基づいて無效フラグメント内容を決定する。

【0056】

Ｓ２０４３：初期テキスト内容の各フラグメント内容に対応する意味情報に基づいて、初期テキスト内容中の少なくとも１つのフラグメント内容の信頼性係数を決定し、信頼性係数は、フラグメント内容が無效テキスト内容であることの信頼性を特徴付けるために使用される。

【0057】

Ｓ２０４４：フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、少なくとも１つのフラグメント内容から少なくとも１つの無效フラグメント内容を決定する。

【0058】

例示的に、予め設定された意味論的分析アルゴリズムまたはモデルに基づいて初期テキスト内容の各フラグメント内容を意味論的に分析した後、出力音声情報は、該フラグメント内容に対応する意味分類の信頼度を含み、前記信頼度は意味論的分析モデルによるフラグメント内容の意味分類結果の信頼性評価を特徴付け、すなわち、信頼度は信頼性係数である。信頼性係数が高いほど、該フラグメント内容に対応する意味分類の信頼性が高くなる。「無效内容」も１つの意味分類に対応し、「無效内容」を決定する意味分類過程中、フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、信頼性閾値よりも大きい信頼性係数に対応するフラグメント内容を、該「無效内容」の意味分類、すなわち無效フラグメント内容として決定する。

【0059】

本実施例のステップでは、各フラグメント内容の信頼性係数に基づいて無效フラグメント内容を決定することにより、無效フラグメント内容の認識精度を向上させ、誤判定を低減させることができる。

【0060】

Ｓ２０４５：意味情報に基づいて決定された無效フラグメント内容を無效テキスト内容ライブラリに追加する。

【0061】

例示的に、音声情報に基づいて無效フラグメント内容を決定した後、無效テキストライブラリには上記無效フラグメント内容に対応する単語または単語の組み合わせが含まないため、該無效フラグメント内容を無效テキスト内容ライブラリに追加し、無效テキスト内容ライブラリの内容を拡張し、後続の無效テキスト内容ライブラリを使用して無效テキスト内容を判定するときの精度と有効性が向上する。これにより、無效テキスト内容の位置決めおよびクリッピング効率を向上させることができる。

【0062】

Ｓ２０５：少なくとも１つの無效フラグメント内容に基づいて、初期テキスト内容中の無效テキスト内容を決定する。

【0063】

例示的に、無效テキスト内容は１つまたは複数の無效フラグメント内容を含んでもよく、初期テキスト内容中の各無效フラグメント内容を決定した後、対応する無效テキスト内容を決定することができる。

【0064】

可能な実施態様では、無效フラグメント内容は少なくとも１つの音声単語を含み、初期テキスト内容中の無效テキスト内容を決定することは、音声単語に対応するタイムスタンプに基づいて、各音声単語の再生時間を取得し、予め設定された標準時間、および音声単語の再生時間に基づいて、再生時間が標準時間の第１時間閾値よりも大きい音声単語、または、再生時間が標準時間の第２時間閾値よりも小さい音声単語を、初期テキスト内容中の無效テキスト内容として決定する。

【0065】

例示的に、無效フラグメント内容中の音声単語は、音声データを変換することによって生成され、音声データは人間の声に対応するが、実際の適用過程中、同一音声単語について、人間の声の発音時間にばらつきがある可能性があり、すなわち、人間の声は発音時間の次元において差がある。発音時間が異なると、異なる意味を表現し、ひいては、音声単語が意味情報を表現できるかどうかにつながる。例えば、ユーザが２秒の「うん」音声を発し、この言語環境下で該音声単語「うん」はモーダル助詞であり、具体的な意味がなく、無效フラグメント内容に属するが、「朝食は食べましたか？」、「うん、食べました」というユーザ対話の言語環境下で、時間０．２秒の音声「うん」は具体的な意味を特徴付けるため、無效フラグメント内容ではない。

【0066】

さらに、以上の例に基づいて、各音声単語は０．２秒などの予め設定された標準時間を有する。音声単語に対応するタイムスタンプに基づいて決定された音声単語の再生時間が該標準時間よりもはるかに大きいまたは小さい場合、該音声単語はモーダル助詞である可能性が高いことを意味するので、具体的な意味がなく、無效テキスト内容であると決定することができる。

【0067】

本実施例では、音声単語の標準時間と音声単語の再生時間を比較して、無效フラグメント内容中の音声単語が語気ポーズなどによって生成された無效単語であるかどうかを検出し、異なる言語環境下で異なる意味を有する音声単語の誤判定を減少し、無效テキスト内容の認識精度を向上させることができる。

【0068】

Ｓ２０６：第１マルチメディアリソースのオーディオデータにおける、無效テキスト内容中の各無效フラグメント内容の音声データの開始点および終了点を決定する。

【0069】

Ｓ２０７：無效テキスト内容中の各無效フラグメント内容に対応する開始点および終了点に基づいて、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。

【0070】

例示的に、無效フラグメント内容は少なくとも１つの音声単語を含み、無效テキスト内容中の各音声単語に対応するタイムスタンプに基づいて、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。

【0071】

Ｓ２０８：初期テキスト内容中の無效テキスト内容を表示する。

【0072】

Ｓ２０９：無效テキスト内容の操作指令に応答して、無效テキスト内容に対応するオーディオフラグメントを再生する。

【0073】

例示的に、本実施例が提供する方法が適用される端末装置は、タッチ可能な表示画面を有し、端末装置内で第１マルチメディアリソースを編集するためのアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ、ＡＰＰ）が実行され、前記端末装置はタッチ可能な表示画面に該ＡＰＰの対話インターフェースを表示する。図８は、本開示の実施例が提供する対話インターフェースの概略図であり、図８を参照すると、端末装置の対話インターフェースに、初期テキスト内容が表示され（図８では、その一部が例示的に「以下、うんうん、今月１６日にあの新発売された機械キーボードを紹介します」と強調表示（図８では黒字のフォントで示される）、初期テキスト内容に無效テキスト内容（すなわち「うんうん」和「あの」が表示される。ユーザが端末装置のタッチ可能な表示画面を通じて、無效テキスト内容に対応する表示画面領域をタッチすると、端末装置は無效テキスト内容に対応するオーディオおよび／またはビデオフラグメントを再生し、ユーザが該無效テキスト内容に対応するオーディオフラグメントが本当に情報表現効果のないポーズ、重複などの無意味な内容であるかどうかを判定することができる。

【0074】

Ｓ２１０：非音声データの開始点および終了点に基づいて、第１マルチメディアリソースにおける非音声データの第２再生位置を決定する。

【0075】

Ｓ２１１：第１再生位置と第２再生位置に基づいて、初期テキスト内容における無效フラグメント内容以外の他のテキスト内容を取得し、ここで、他のテキスト内容は少なくとも１つのターゲットフラグメント内容を含む。

【0076】

非音声データは、第１マルチメディアリソースにおける非音声部分に対応するオーディオデータであり、例えば製品紹介のビデオにおける紹介開始前の空白部分や、紹介終了後の空白部分である。非音声データはステップＳ２０２で音声端点検出アルゴリズムにより得られ、ここでは繰り返さない。同様に、非音声データを決定した後、それに対応して、第１マルチメディアリソースにおける非音声データの再生位置、すなわち第２再生位置を取得してもよい。

【0077】

さらに、第２再生位置に基づいて、非音声データの位置決めを実現し、第１再生位置と第２再生位置に基づいて、第１マルチメディアリソースをクリッピングし、第１マルチメディアリソース中の無效フラグメント内容に対応する音声データ、および非音声データを除去し、他のテキスト内容に対応するオーディオデータ、すなわちターゲットフラグメント内容に対応するオーディオデータを保留する。

【0078】

Ｓ２１２：少なくとも１つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加するか、および／または、少なくとも１つのターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、ターゲットフラグメント内容に対応する遷移音声データを生成する。

【0079】

Ｓ２１３：第１再生位置と第２再生位置に基づいて遷移音声データをスプライシングし、第２マルチメディアリソースを生成する。

【0080】

さらに、保留した他のテキスト内容は少なくとも１つのターゲットフラグメント内容を含み、クリッピング後のオーディオの再生円滑性を向上させるために、ターゲットフラグメント内容に対応する音声データにフェードインフェードアウト効果を追加する。具体的に、例えば、少なくとも１つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、少なくとも１つのターゲットフラグメント内容に対応する音声データにフェードアウト効果を追加する。ここで、フェードイン効果およびフェードアウト効果とは、音声データの開始点および終了点に、タイムウィンドウを付加し、１つのターゲットフラグメント内容に対応する音声データは、ボリュームが小さい状態から徐々に大きくなり（フェードイン）、または大きい状態から徐々に小さくなる（フェードアウト）ように再生され、オーディオデータがクリッピングされた後の唐突感を低減することを指す。１つのオーディオフラグメントにフェードインフェードアウトを追加する具体的な方法は本分野の先行技術であるので、ここでは繰り返さない。

【0081】

さらに、ターゲットフラグメント内容に対応する音声データをフェードインフェードアウト処理した後、対応する遷移音声データを生成した後、第１再生位置と第２再生位置に基づいて、各遷移音声データをスプライシングしてターゲットオーディオデータを生成し、同様に、第１再生位置と第２再生位置に基づいて、ターゲットオーディオデータに対応するターゲットビデオデータを取得し、第２マルチメディアリソースを生成する。前記第２マルチメディアリソースは、ターゲットフラグメント内容からなるターゲットテキスト内容に対応するマルチメディアビデオのみを含み、無效テキスト内容に対応するマルチメディアビデオ、および、非音声データに対応するマルチメディアビデオを含まない。第２マルチメディアリソースから口の誤り、ポーズ、口パクなどの情報表現効果のない内容が除去されたので、第２マルチメディアリソースの内容の再生円滑性を向上させることができる。

【0082】

図９は本開示の実施例が提供する別の第１マルチメディアリソースを通じて第２マルチメディアリソースを得る過程の概略図であり、図９に示すように、第１マルチメディアリソースのオーディオデータに対して音声端点検出を行った後、その中の音声データおよび非音声データ決定した後、音声データに対して音声認識、意味論的分析などの処理ステップを実施した後、複数の無效フラグメント内容を決定し、ここで、無效フラグメント内容は第１音声データに対応し、無效フラグメント内容以外のターゲットフラグメント内容は第２音声データに対応し、無效フラグメント内容に対応する第１音声データに対応する第１再生位置および非音声データに対応する第２再生位置に基づいて、オーディオデータをクリッピングし、第１音声データおよび非音声データを除去し、ターゲットテキスト内容に対応するターゲットオーディオデータを生成する。同様に、第１再生位置と第２再生位置に基づいてビデオデータをクリッピング処理してターゲットビデオデータを生成する。さらに、ターゲットオーディオデータとターゲットビデオデータを合成して第２マルチメディアリソースを生成する。

【0083】

本実施例では、ステップＳ２０１の実施態様は、本開示の図３に示す実施例中のステップＳ１０１の実施態様と同様であるので、ここでは繰り返さない。

【0084】

上記実施例のマルチメディア処理方法に対応して、図１０は、本開示の実施例が提供するマルチメディア処理装置の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみが図示されている。図１０を参照すると、マルチメディア処理装置３は、
第１マルチメディアリソースを取得し、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第１マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む音声認識モジュール３１と、
初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である第１確認モジュール３２と、
第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定するための第２確認モジュール３３と、
第１再生位置に基づいて、第１マルチメディアリソースをトリミングして、第２マルチメディアリソースを得、ここで、第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まない、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である生成モジュール３４と、を備える。

【0085】

本開示の一実施例では、第１確認モジュール３２は、具体的に、初期テキスト内容を意味論的に分析し、初期テキスト内容に対応する意味情報を取得し、意味情報に基づいて、初期テキスト内容中の無效テキスト内容を決定するために使用される。

【0086】

本開示の一実施例では、初期テキスト内容は複数のフラグメント内容を含み、第１確認モジュール３２は意味情報に基づいて初期テキスト内容中の無效テキスト内容を決定する場合、具体的に、初期テキスト内容に対応する意味情報に基づいて、初期テキスト内容中の少なくとも１つのフラグメント内容の信頼性係数を決定し、信頼性係数はフラグメント内容が無效テキスト内容である信頼性を特徴付けるために使用され、フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、少なくとも１つのフラグメント内容から少なくとも１つの無效フラグメント内容を決定し、少なくとも１つの無效フラグメント内容に基づいて、初期テキスト内容中の無效テキスト内容を決定する。

【0087】

本開示の一実施例では、第２確認モジュール３３は、具体的に、第１マルチメディアリソースのオーディオデータにおける、各無效フラグメント内容の音声データの開始点および終了点を決定し、各無效フラグメント内容に対応する開始点および終了点に基づいて、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。

【0088】

本開示の一実施例では、生成モジュール３４は、具体的に、第１再生位置に基づいて、初期テキスト内容における無效フラグメント内容以外の他のテキスト内容を取得し、ここで、他のテキスト内容は少なくとも１つのターゲットフラグメント内容を含み、少なくとも１つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加するか、および／または、少なくとも１つのターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加し、ターゲットフラグメント内容に対応する遷移音声データを生成し、第１再生位置に基づいて遷移音声データをスプライシングし、第２マルチメディアリソースを生成する。

【0089】

本開示の一実施例では、初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得する前に、第１確認モジュール３２は、さらに、プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效テキスト内容を決定するために使用され、第１確認モジュール３２は初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得するとき、具体的に、無效テキスト内容ライブラリに無效テキスト内容が存在しない場合、初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得し、第１確認モジュール３２は意味情報に基づいて初期テキスト内容中の無效テキスト内容を決定した後、さらに、意味情報に基づいて決定された無效テキスト内容を無效テキスト内容ライブラリに追加するために使用される。

【0090】

本開示の一実施例では、第１再生位置に基づいて、第１マルチメディアリソースをトリミングして第２マルチメディアリソースを得る前に、生成モジュール３４は、さらに、初期テキスト内容中の無效テキスト内容を表示し、無效テキスト内容の操作指令に応答して無效テキスト内容に対応するオーディオフラグメントを再生するために使用される。

【0091】

本開示の一実施例では、音声認識モジュール３１は、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定する場合、具体的に、音声端点検出ＶＡＤアルゴリズムにより、第１マルチメディアリソースのオーディオデータ中の音声データと非音声データを認識し、第１マルチメディアリソースのオーディオデータ中の音声データを音声認識し、第１マルチメディアリソースに対応する初期テキスト内容を決定する。

【0092】

本開示の一実施例では、第２確認モジュール３３は、さらに、非音声データの開始点および終了点に基づいて、第１マルチメディアリソースにおける非音声データの第２再生位置を決定するために使用され、生成モジュール３４は、具体的に、第１再生位置と第２再生位置に基づいて、第１マルチメディアリソースをトリミングして、第２マルチメディアリソースを得るために使用され、ここで、第２マルチメディアリソースは非音声データを含まない。

【0093】

本開示の一実施例では、音声認識モジュール３１は、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、第１マルチメディアリソースに対応する初期テキスト内容を決定する場合、具体的に、自動音声認識ＡＳＲ技術により、第１マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各音声単語に対応するタイムスタンプを取得し、タイムスタンプは、第１マルチメディアリソースにおける音声単語に対応するオーディオデータの再生位置を特徴付け、複数の音声単語に基づいて、初期テキスト内容を生成し、第２確認モジュール３３は、具体的に、無效テキスト内容中の各音声単語に対応するタイムスタンプに基づいて、第１マルチメディアリソースにおける無效テキスト内容の音声データの第１再生位置を決定する。

【0094】

本開示の一実施例では、第１確認モジュール３２は、具体的に、音声単語に対応するタイムスタンプに基づいて、各音声単語の再生時間を取得し、予め設定された標準時間、および音声単語の再生時間に基づいて、再生時間が標準時間の第１時間閾値よりも大きい音声単語、または、再生時間が標準時間の第２時間閾値よりも小さい音声単語を、初期テキスト内容中の無效テキスト内容として決定する。

【0095】

本開示の一実施例では、第１マルチメディアリソースはビデオデータをさらに含み、生成モジュール３４は、具体的に、第１再生位置に基づいて、第１マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして第２マルチメディアリソースを得るために使用される。

【0096】

本実施例が提供するマルチメディア処理装置３は、上記方法実施例の技術的解決策を実行することに適用され、同じ実現原理と技術的効果を有するので、本実施例では繰り返さない。

【0097】

図１１は、本開示の実施例が提供する電子機器の構造概略図であり、図１１に示すように、前記電子機器４は少なくとも１つのプロセッサ４１とメモリ４２を備え、
メモリ４２はコンピュータ実行指令を記憶し、
少なくとも１つのプロセッサ４１がメモリ４２に記憶されたコンピュータ実行指令を実行することにより、少なくとも１つのプロセッサ４１に図２～図７に示す実施例中のマルチメディア処理方法を実行させる。

【0098】

ここで、プロセッサ４１とメモリ４２はバス４３を介して接続される。

【0099】

関連説明の理解については、図２～図７に対応する実施例中のステップに対応する関連説明および効果を参照すればよく、ここでは繰り返さない。

【0100】

図１２を参照すると、本開示の実施例の実施に適した電子機器９００の構造概略図を示し、前記電子機器９００は端末装置またはサーバーであってもよい。ここで、端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、タブレットコンピュータ（ＰｏｒｔａｂｌｅＡｎｄｒｏｉｄＤｅｖｉｃｅ、ＰＡＤ）、ポータブルマルチメディアプレーヤ（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ、ＰＭＰ）、車載端末（例えば車載ナビゲーション端末）などのモバイル端末、およびデジタルテレビ（Ｔｅｌｅｖｉｓｉｏｎ、ＴＶ）、デスクトップパソコンなどの固定端末を含むが、これらに限定されない。図１２に示す電子機器は単なる例示であり、本開示の実施例の機能および使用範囲を何ら限定するものではない。

【0101】

図１２に示すように、電子機器９００は、読み取り専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）９０２に記憶されたプログラムまたは記憶装置９０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）９０３にロードされたプログラムを実行することにより様々な適切な動作および処理を実行する処理装置（例えば中央処理装置、グラフィックプロセッサなど）９０１を備える。ＲＡＭ９０３には、電子機器９００の操作に必要な様々なプログラムおよびデータがさらに記憶される。処理装置９０１、ＲＯＭ９０２およびＲＡＭ９０３はバス９０４を介して互いに接続される。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インターフェース９０５もバス９０４に接続される。

【0102】

通常、Ｉ／Ｏインターフェース９０５には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置９０６、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、スピーカ、バイブレータなどの出力装置９０７、磁気テープ、ハードディスクなどの記憶装置９０８、および通信装置９０９が接続される。通信装置９０９により、電子機器９００が無線または有線で他の装置と通信してデータを交換する。図１２には様々な装置を備えた電子機器９００が図示されているが、図示されたデバイスの装置を実装または具備する必要がないことを理解されたい。代替的に、より多くのまたはより少ない装置を実装または具備してもよい。

【0103】

特に、本開示の実施例によれば、フローチャートを参照して上記したプロセスは、コンピュータソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施例は、コンピュータプログラム製品を含み、コンピュータ可読媒体に担持されたコンピュータプログラムを含み、前記コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、前記コンピュータプログラムは、通信装置９０９を通じてネットワークからダウンロードされ、インストールされるか、または記憶装置９０８からインストールされるか、またはＲＯＭ９０２からインストールされてもよい。このコンピュータプログラムが処理装置９０１によって実行されると、本開示の実施例の方法に定義された上記機能が実現される。

【0104】

なお、本開示に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体または上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は例えば電気、磁気、光、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つまたは複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ、ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ、ＣＤ-ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせであってもよいが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形媒体であってもよく、このプログラムが命令実行システム、装置またはデバイスによって使用される、または組み合わせて使用されてもよい。本開示では、コンピュータ可読信号媒体は、ベースバンドで、またはキャリアの一部として伝搬されるデータ信号を含んでもよく、コンピュータ可読プログラムコードが担持される。このような伝搬データ信号は、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、命令実行システム、装置またはデバイスによって使用される、または組み合わせて使用されるプログラムを送信、伝搬または転送するコンピュータ可読記憶媒体以外の任意のコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体に含まれるプログラムコードは、ワイヤ、光ファイバケーブル、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）など、または上記の任意の適切な組み合わせなどの任意の適切な媒体によって転送されてもよいが、これらに限定されない。

【0105】

上記コンピュータ可読記憶媒体は、上記電子機器に含まれてもよく、または前記電子機器に組み込まれずに別体であってもよい。

【0106】

上記コンピュータ可読媒体に１つまたは複数のプログラムが保持され、上記１つまたは複数のプログラムが該電子機器によって実行されると、該電子機器に上記実施例に示す方法を実行させることができる。

【0107】

１つまたは複数のプログラミング言語またはその組み合わせで、本開示の動作を実行するためのコンピュータプログラムコードを記述することができ、上記プログラミング言語は、オブジェクト指向プログラミング言語（Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ++など）、および従来の手続き型プログラミング言語（「Ｃ」言語または類似のプログラミング言語）を含むが、これらに限定されない。プログラムコードは、完全にユーザのコンピュータ上で実行してもよく、部分的にユーザのコンピュータ上で実行してもよく、スタンドアロンソフトウェアパッケージとして実行してもよく、部分的にユーザのコンピュータ上で実行し、部分的にリモートコンピュータ上で実行してもよく、または完全にリモートコンピュータまたはサーバー上で実行してもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）またはワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）などのあらゆる種類のネットワークを介してユーザのコンピュータに接続されてもよいし、または、外部コンピュータに接続されてもよい（例えばインターネットサービスプロバイダを使用してインターネットを介して接続される）。

【0108】

添付図面のフローチャートおよびブロック図は、本開示の様々な実施例に従ったシステム、方法およびコンピュータプログラム製品の可能なアーキテクチャ、機能および動作を示す。この点で、フローチャートまたはブロック図の各ボックスは、１つのモジュール、プログラムセグメント、またはコードの一部を表す場合があり、このモジュール、プログラムセグメント、またはコードの一部は指定された論理機能を実装するための１つまたは複数の実行可能命令を含む。また、代替としてのいくつかの実装では、ボックス内に示された機能は、添付図面に示された順序と異なる順序で発生する可能性もあることに留意されたい。例えば、連続して表現された２つのボックスは実際には実質的に並行して実行されることがあり、関連する機能によって、逆の順序で実行されることもある。また、ブロック図および／またはフローチャート中の各ボックス、およびブロック図および／またはフローチャート中のボックスの組み合わせは、指定された機能または操作を実行する専用のハードウェアベースのシステムで実装されてもよいし、または専用ハードウェアとコンピュータ命令の組み合わせで実装されてもよいことに留意されたい。

【0109】

本開示の実施例において説明されるユニットはソフトウェアによって実装されてもよく、ハードウェアによって実装されてもよい。ここで、ユニットの名称は、所与の状況におけるユニット自身の限定を構成するものではなく、例えば、第１取得ユニットは、「少なくとも２つのインターネットプロトコルアドレスを取得するユニット」とも記述されてもよい。

【0110】

本明細書において上記した機能は少なくとも部分的に、１つまたは複数のハードウェア論理構成要素によって実行されてもよい。例えば、非限定的に、使用され得る例示的なハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、特定用途向け標準製品（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔ、ＡＳＳＰ）、システムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳＯＣ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、ＣＰＬＤ）などを含む。

【0111】

本開示の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって使用される、または命令実行システム、装置またはデバイスと組み合わせて使用されるプログラムを含むまたは記憶する有形の媒体であってもよい。コンピュータ可読記憶媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置またはデバイス、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つまたは複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ-ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

【0112】

第１態様において、本開示の１つまたは複数の実施例によれば、マルチメディア処理方法を提供し、第１マルチメディアリソースを取得すること、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、前記第１マルチメディアリソースのオーディオデータは前記初期テキスト内容の音声データを含むこと、前記初期テキスト内容中の無效テキスト内容を決定し、ここで、前記無效テキスト内容は意味的情報表現効果のないテキスト内容であること、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定すること、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得、ここで、前記第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まなく、前記ターゲットテキスト内容は前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容であることを含む。

【0113】

本開示の１つまたは複数の実施例によれば、前記初期テキスト内容中の無效テキスト内容を決定することは、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得すること、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することを含む。

【0114】

本開示の１つまたは複数の実施例によれば、前記初期テキスト内容は複数のフラグメント内容を含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することは、前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも１つのフラグメント内容の信頼性係数を決定し、前記信頼性係数は前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付け、前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも１つのフラグメント内容から少なくとも１つの無效フラグメント内容を決定すること、前記少なくとも１つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することを含む。

【0115】

本開示の１つまたは複数の実施例によれば、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することは、前記第１マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定すること、各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することを含む。

【0116】

本開示の１つまたは複数の実施例によれば、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、前記第１再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得し、ここで、前記他のテキスト内容は少なくとも１つのターゲットフラグメント内容を含むこと、少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および／または、少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成すること、前記第１再生位置に応じて前記遷移音声データをスプライシングし、前記第２マルチメディアリソースを生成することを含む。

【0117】

本開示の１つまたは複数の実施例によれば、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、前記方法は、プリセット無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定すること、前記初期テキストの内容を意味論的に分析することをさらに含み、前記初期テキスト内容に対応する意味情報を取得することは、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することを含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後、前記方法は、前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加することをさらに含む。

【0118】

本開示の１つまたは複数の実施例によれば、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得る前に、前記初期テキスト内容中の無效テキスト内容を表示すること、前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生することをさらに含む。

【0119】

本開示の１つまたは複数の実施例によれば、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することは、音声端点検出アルゴリズムにより、前記第１マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識すること、前記第１マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することをさらに含む。

【0120】

本開示の１つまたは複数の実施例によれば、前記方法は、前記非音声データの開始点および終了点に基づいて、前記第１マルチメディアリソースにおける前記非音声データの第２再生位置を決定することをさらに含み、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、前記第１再生位置と前記第２再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、前記第２マルチメディアリソースを得ることを含み、ここで、前記第２マルチメディアリソースは前記非音声データを含まない。

【0121】

本開示の１つまたは複数の実施例によれば、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定することは、自動音声認識技術により、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得し、前記タイムスタンプは、前記第１マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付けるために使用されること、前記複数の音声単語に基づいて、前記初期テキスト内容を生成することを含み、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することは、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定することを含む。

【0122】

本開示の１つまたは複数の実施例によれば、前記初期テキスト内容中の無效テキスト内容を決定することは、前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得すること、予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第１時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第２時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定することを含む。

【0123】

本開示の１つまたは複数の実施例によれば、前記第１マルチメディアリソースはビデオデータをさらに含み、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得ることは、前記第１再生位置に基づいて、前記第１マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第２マルチメディアリソースを得ることを含む。

【0124】

第２態様において、本開示の１つまたは複数の実施例によれば、マルチメディア処理装置を提供し、
第１マルチメディアリソースを取得し、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定するために使用され、ここで、前記第１マルチメディアリソースのオーディオデータは前記初期テキスト内容の音声データを含む音声認識モジュールと、
前記初期テキスト内容中の無效テキスト内容を決定するために使用され、ここで、前記無效テキスト内容は意味的情報表現効果のないテキスト内容である第１確認モジュールと、
前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定するために使用される第２確認モジュールと、
前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得るために使用され、ここで、前記第２マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まなく、前記ターゲットテキスト内容は前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である生成モジュールと、を備える。

【0125】

本開示の１つまたは複数の実施例によれば、第１確認モジュールは、具体的に、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得し、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定するために使用される。

【0126】

本開示の１つまたは複数の実施例によれば、前記初期テキスト内容は複数のフラグメント内容を含み、第１確認モジュールは、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定する時に、具体的に、前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも１つのフラグメント内容の信頼性係数を決定し、前記信頼性係数は前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付けるために使用され、前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも１つのフラグメント内容から少なくとも１つの無效フラグメント内容を決定し、前記少なくとも１つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定する。

【0127】

本開示の１つまたは複数の実施例によれば、前記第２確認モジュールは、具体的に、前記第１マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定し、各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定するために使用される。

【0128】

本開示の１つまたは複数の実施例によれば、前記生成モジュールは、具体的に、前記第１再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得し、ここで、前記他のテキスト内容は少なくとも１つのターゲットフラグメント内容を含み、少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および／または、少なくとも１つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成し、前記第１再生位置に応じて前記遷移音声データをスプライシングし、前記第２マルチメディアリソースを生成するために使用される。

【0129】

本開示の１つまたは複数の実施例によれば、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、第１確認モジュールはさらに、プリセット無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定することをさらに含み、第１確認モジュールは前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する時に、具体的に、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得し、第１確認モジュールは、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後、さらに、前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加するために使用される。

【0130】

本開示の１つまたは複数の実施例によれば、前記第１再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、第２マルチメディアリソースを得る前に、前記生成モジュールは、さらに、前記初期テキスト内容中の無效テキスト内容を表示し、前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生するために使用される。

【0131】

本開示の１つまたは複数の実施例によれば、前記音声認識モジュールは、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定する時に、具体的に、音声端点検出アルゴリズムにより、前記第１マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識し、前記第１マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定する。

【0132】

本開示の１つまたは複数の実施例によれば、前記第２確認モジュールは、さらに、前記非音声データの開始点および終了点に基づいて、前記第１マルチメディアリソースにおける前記非音声データの第２再生位置を決定するために使用され、前記生成モジュールは、具体的に、前記第１再生位置と前記第２再生位置に基づいて、前記第１マルチメディアリソースをトリミングし、前記第２マルチメディアリソースを得、ここで、前記第２マルチメディアリソースは前記非音声データを含まない。

【0133】

本開示の１つまたは複数の実施例によれば、音声認識モジュールは、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第１マルチメディアリソースに対応する初期テキスト内容を決定する時に、具体的に、自動音声認識技術により、前記第１マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得し、前記タイムスタンプは、前記第１マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付け、前記複数の音声単語に基づいて、前記初期テキスト内容を生成し、前記第２確認モジュールは、具体的に、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第１マルチメディアリソースにおける前記無效テキスト内容の音声データの第１再生位置を決定する。

【0134】

本開示の１つまたは複数の実施例によれば、前記第１確認モジュールは、具体的に、前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得し、予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第１時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第２時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定する。

【0135】

本開示の１つまたは複数の実施例によれば、前記第１マルチメディアリソースはビデオデータをさらに含み、前記生成モジュールは、具体的に、前記第１再生位置に基づいて、前記第１マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第２マルチメディアリソースを得る。

【0136】

第３態様において、本開示の１つまたは複数の実施例によれば、電子機器を提供し、少なくとも１つのプロセッサとメモリを備え、前記メモリはコンピュータ実行指令を記憶し、前記少なくとも１つのプロセッサは前記メモリに記憶された前記コンピュータ実行指令を実行し、前記少なくとも１つのプロセッサに上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法を実行させる。

【0137】

第４態様において、本開示の１つまたは複数の実施例によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体はコンピュータ実行指令を記憶し、プロセッサが前記コンピュータ実行指令を実行すると、上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0138】

第５態様において、本開示の実施例はコンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0139】

第６態様において、本開示の実施例はコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されると上記第１態様および第１態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。

【0140】

以上の説明は、本開示の好ましい実施例、および採用される技術的原理の説明例示である。当業者にとって、本開示に関わる開示範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決策に限定されるものではなく、上記開示範囲から逸脱することなく、上記技術的特徴またはその等価特徴の任意の組み合わせによって形成される他の技術的解決策もカバーすべきであることを理解されたい。例えば、上記した特徴を、本開示に開示される同様機能を有する技術的特徴と置換するによって形成される技術的解決策（これらに限定されない）もカバーする。

【0141】

さらに、各動作は特定の順序を用いて描かれているが、これは、動作が示された特定の順序または順次実行されることを要求するものとして解釈されるべきではない。特定の環境において、マルチタスクおよび並行処理は有利であり得る。同様に、いくつかの具体的な実装の詳細が上記の議論に含まれているが、これらは、本開示の範囲を限定するものとして解釈されるべきではない。単一実施例の文脈で説明した特定の特徴は、単一の実施例において組み合わせて実装することもできる。逆に、単一の実施例の文脈で説明した様々な特徴も、個別に、または任意の適切なサブコンビネーションで、複数の実施例で実施することができる。

【0142】

本主題は、構造的特徴および／または方法論理作用に特有の言語を用いて説明されてきたが、添付の特許請求の範囲に定義される主題は、必ずしも上述の特定の特徴または作用に限定されないことを理解されたい。むしろ、上述した特定の特徴および動作は、特許請求の範囲を実施する例示的な形態に過ぎない。

【図1】