IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レモン インコーポレイテッドの特許一覧

特表2024-527483マルチメディア処理方法、装置、電子機器および記憶媒体
<>
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図1
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図2
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図3
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図4
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図5
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図6
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図7
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図8
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図9
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図10
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図11
  • 特表-マルチメディア処理方法、装置、電子機器および記憶媒体 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-25
(54)【発明の名称】マルチメディア処理方法、装置、電子機器および記憶媒体
(51)【国際特許分類】
   H04N 21/854 20110101AFI20240718BHJP
   H04N 21/233 20110101ALI20240718BHJP
   G10L 15/10 20060101ALI20240718BHJP
   G10L 15/00 20130101ALI20240718BHJP
【FI】
H04N21/854
H04N21/233
G10L15/10 500T
G10L15/00 200G
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023576228
(86)(22)【出願日】2022-07-14
(85)【翻訳文提出日】2023-12-11
(86)【国際出願番号】 SG2022050494
(87)【国際公開番号】W WO2023287360
(87)【国際公開日】2023-01-19
(31)【優先権主張番号】202110802038.0
(32)【優先日】2021-07-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
2.JAVA
(71)【出願人】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジォン,シン
(72)【発明者】
【氏名】ジュ,ツォンホォイ
(72)【発明者】
【氏名】シャ,ルォイ
(72)【発明者】
【氏名】シャン,チュシァン
(72)【発明者】
【氏名】ズォン,デェジエン
(72)【発明者】
【氏名】ジアン,ヨンセン
(72)【発明者】
【氏名】トゥ,ミン
(72)【発明者】
【氏名】ドン,レェライ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA29
5C164GA05
5C164MA07S
5C164MC01P
5C164PA44
5C164SB04P
(57)【要約】
本開示の実施例は、マルチメディア処理方法、装置、電子機器および記憶媒体を提供し、第1マルチメディアリソースを取得すること、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定すること、第1再生位置に基づいて、第1マルチメディアリソースをトリミングして、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まないこと、を含む。本開示の実施例は、マルチメディアリソース中の無效内容の自動クリッピングを実現し、クリッピング効率およびクリッピング効果を向上させる。


【特許請求の範囲】
【請求項1】
第1マルチメディアリソースを取得することと、
前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することであって、前記第1マルチメディアリソースのオーディオデータは、前記初期テキスト内容の音声数据を含む、前記初期テキスト内容を決定することと、
前記初期テキスト内容中の無效テキスト内容を決定することであって、前記無效テキスト内容は、意味的情報表現効果のないテキスト内容である、前記無効テキスト内容を決定することと、
前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することと、
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることであって、前記第2マルチメディアリソースのオーディオデータは、ターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まず、前記ターゲットテキスト内容は、前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である、前記第2マルチメディアリソースを得ることと、を含む、ことを特徴とする、
マルチメディア処理方法。
【請求項2】
前記初期テキスト内容中の無效テキスト内容を決定することは、
前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することと、
前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することと、を含む、ことを特徴とする、
請求項1に記載の方法。
【請求項3】
前記初期テキスト内容は、複数のフラグメント内容を含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することは、
前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも1つのフラグメント内容の信頼性係数を決定することであって、前記信頼性係数は、前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付けるために使用される、前記信頼性係数を決定することと、
前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも1つのフラグメント内容から少なくとも1つの無效フラグメント内容を決定することと、
前記少なくとも1つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することと、を含む、ことを特徴とする、
請求項2に記載の方法。
【請求項4】
前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することは、
前記第1マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定することと、
各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することと、を含む、ことを特徴とする、
請求項3に記載の方法。
【請求項5】
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、
前記第1再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得することであって、前記他のテキスト内容は、少なくとも1つのターゲットフラグメント内容を含む、前記他のテキスト内容を取得することと、
少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および/または、少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成することと、
前記第1再生位置に応じて前記遷移音声データをスプライシングし、前記第2マルチメディアリソースを生成することと、を含む、ことを特徴とする、
請求項3に記載の方法。
【請求項6】
前記初期テキスト内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、当該方法は、
予め設定された無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定することをさらに含み、
前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することは、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することを含み、
前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後に、当該方法は、
前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加すること、をさらに含む、ことを特徴とする、
請求項2に記載の方法。
【請求項7】
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得る前に、
前記初期テキスト内容中の無效テキスト内容を表示することと、
前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生することと、をさらに含む、ことを特徴とする、
請求項1に記載の方法。
【請求項8】
前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することは、
音声端点検出VADアルゴリズムにより、前記第1マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識することと、
前記第1マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することと、を含む、ことを特徴とする、
請求項1に記載の方法。
【請求項9】
当該方法は、
前記非音声データの開始点および終了点に基づいて、前記第1マルチメディアリソースにおける前記非音声データの第2再生位置を決定することをさらに含み、
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、
前記第1再生位置と前記第2再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、前記第2マルチメディアリソースを得ることを含み、前記第2マルチメディアリソースは、前記非音声データを含まない、ことを特徴とする、
請求項8に記載の方法。
【請求項10】
前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することは、
自動音声認識ASR技術により、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得することであって、前記タイムスタンプは、前記第1マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付ける、前記タイムスタンプを取得することと、
前記複数の音声単語に基づいて、前記初期テキスト内容を生成することと、を含み、
前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することは、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することを含む、ことを特徴とする、
請求項1に記載の方法。
【請求項11】
前記初期テキスト内容中の無效テキスト内容を決定することは、
前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得することと、
予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第1時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第2時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定することと、を含む、ことを特徴とする、
請求項10に記載の方法。
【請求項12】
前記第1マルチメディアリソースは、ビデオデータをさらに含み、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、
前記第1再生位置に基づいて、前記第1マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第2マルチメディアリソースを得ること、を含む、ことを特徴とする、
請求項1に記載の方法。
【請求項13】
第1マルチメディアリソースを取得し、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定するために使用される、音声認識モジュールであって、前記第1マルチメディアリソースのオーディオデータは、前記初期テキスト内容の音声データを含む、音声認識モジュールと、
前記初期テキスト内容中の無效テキスト内容を決定するために使用される、第1確認モジュールであって、前記無效テキスト内容は、意味的情報表現効果のないテキスト内容である、第1確認モジュールと、
前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定するために使用される、第2確認モジュールと、
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得るために使用される、生成モジュールであって、前記第2マルチメディアリソースのオーディオデータは、ターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まず、前記ターゲットテキスト内容は、前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である、生成モジュールと、を備える、ことを特徴とする、
マルチメディア処理装置。
【請求項14】
少なくとも1つのプロセッサと、メモリとを備える、
電子機器であって、
前記メモリは、コンピュータ実行指令を記憶し、
前記少なくとも1つのプロセッサは、前記メモリに記憶された前記コンピュータ実行指令を実行し、前記少なくとも1つのプロセッサに請求項1~12のいずれか1項に記載のマルチメディア処理方法を実行させる、ことを特徴とする、
電子機器。
【請求項15】
コンピュータ実行指令を記憶し、プロセッサが前記コンピュータ実行指令を実行すると、請求項1~12のいずれか1項に記載のマルチメディア処理方法を実行する、ことを特徴とする、コンピュータ可読記憶媒体。
【請求項16】
コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると請求項1~12のいずれか1項に記載の方法が実行される、ことを特徴とする、コンピュータプログラム製品。
【請求項17】
プロセッサによって実行されると、請求項1~12のいずれか1項に記載の方法が実行される、ことを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
本開示は、2021年7月15日に出願された「マルチメディア処理方法、装置、電子機器および記憶媒体」という名称の中国特許出願第202110802038.0号の優先権を主張し、そのすべての内容は参照により本明細書に組み込まれる。
【0002】
(技術分野)。
本開示の実施例は、コンピュータの技術分野に関し、特に、マルチメディア処理方法、装置、電子機器および記憶媒体に関する。
【背景技術】
【0003】
現在、マルチメディア作成ソフトウェア及びマルチメディア作成プラットフォームの急速な発展により、一般人によるマルチメディアリソース作成の技術的難易度及び敷居は大幅に下がり、マルチメディアを利用したコンテンツ作成及び共有は普遍的な段階に入った。マルチメディアリソースの作成過程において、マルチメディアリソースの表現力を向上させるために、マルチメディアリソースを録音した後、作者がマルチメディアリソースの後処理トリミングを行い、例えば、口の誤り、ポーズ、その他の音声表現が流暢でない、不正確な音声、ビデオフラグメントを削除し、マルチメディアリソースの全体的な再生円滑性を向上させる必要があることが多い。
【0004】
しかしながら、先行技術において、マルチメディアリソースの全体的な再生円滑性を向上させるために、マルチメディアリソースをトリミングするプロセスは、専門的な編集ツールによって手動で処理することしかできず、専門的に要求され、操作が難しく、その結果、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題がある。
【発明の概要】
【0005】
本開示の実施例は、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題を克服するために、マルチメディア処理方法、装置、電子機器および記憶媒体を提供する。
【0006】
第1態様において、本開示の実施例はマルチメディア処理方法を提供し、この方法は、
第1マルチメディアリソースを取得すること、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定すること、第1再生位置に基づいて、第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容であることを含む。
【0007】
第2態様において、本開示の実施例はマルチメディア処理装置を提供し、この装置は、
第1マルチメディアリソースを取得し、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定するために使用され、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む音声認識モジュールと、
初期テキスト内容中の無效テキスト内容を決定するために使用され、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である第1確認モジュールと、
第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定するために使用される第2確認モジュールと、
第1再生位置に基づいて、第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得るために使用され、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である生成モジュールと、を備える。
【0008】
第3態様において、本開示の実施例は電子機器を提供し、少なくとも1つのプロセッサとメモリを備え、
メモリはコンピュータ実行指令を記憶し、
少なくとも1つのプロセッサはメモリに記憶されたコンピュータ実行指令を実行し、少なくとも1つのプロセッサに上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法を実行させる。
【0009】
第4態様において、本開示の実施例はコンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体はコンピュータ実行指令を記憶し、プロセッサがコンピュータ実行指令を実行すると、上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0010】
第5態様において、本開示の実施例はコンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行されると上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0011】
第6態様において、本開示の実施例はコンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行されると上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0012】
本実施例が提供するマルチメディア処理方法、装置、電子機器および記憶媒体は、第1マルチメディアリソースを取得すること、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含むこと、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であること、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定すること、第1再生位置に基づいて、第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容であることを含む。第1マルチメディアリソースの音声認識とテキスト処理に基づいて、第1マルチメディアリソース中の無效テキスト内容の自動位置決めおよびトリミングを実現し、マルチメディアリソース中の無效内容に対するクリッピング効率およびクリッピング効果を向上させ、クリッピング後のマルチメディアリソースの再生円滑性を向上させることができる。
【図面の簡単な説明】
【0013】
本開示の実施例または先行技術における技術的解決策をより明確に説明するために、以下実施例または先行技術説明において使用される必要のある図面を簡単に説明するが、明らかに、以下で説明される図面は本開示のいくつかの実施例に過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
【0014】
図1】本開示の実施例が提供するマルチメディア処理方法の適用シナリオを示す図である。
図2】本開示の実施例が提供するマルチメディア処理方法の別の適用シナリオを示す図である。
図3】本開示の実施例が提供するマルチメディア処理方法の概略フローチャート1である。
図4】本開示の実施例が提供する第1マルチメディアリソースを通じて第2マルチメディアリソースを得る過程の概略図である。
図5】本開示の実施例が提供するマルチメディア処理方法の概略フローチャート2である。
図6図5に示す実施例におけるステップS203の実施態様を示すフローチャートである。
図7図5に示す実施例におけるステップS204の実施態様を示すフローチャートである。
図8】本開示の実施例が提供する対話インターフェースを示す概略図である。
図9】本開示の実施例が提供する別の第1マルチメディアリソースを通じて第2マルチメディアリソースを得る過程を示す概略図である。
図10】本開示の実施例が提供するマルチメディア処理装置の構造ブロック図である。
図11】本開示の実施例が提供する電子機器の概略構造図である。
図12】本開示の実施例が提供する電子機器のハードウェアの概略構造図である。
【発明を実施するための形態】
【0015】
本開示の実施例の目的、技術的解決策および利点をより明確にするために、以下、本開示の実施例の図面と併せて、本開示の実施例中の技術的解決策を明確かつ完全に説明するが、明らかに、説明される実施例は本開示の一部の実施例に過ぎず、全ての実施例ではない。本開示中の実施例に基づいて、当業者は創造的な労働をすることなく得られた他の実施例はすべて本開示の保護範囲に含まれる。
【0016】
以下、本開示の実施例の適用シナリオを解釈する。
【0017】
図1は、本開示の実施例が提供するマルチメディア処理方法の適用シナリオを示す図であり、本実施例が提供するマルチメディア処理方法はマルチメディアビデオリソースを録画した後のポストクリッピング処理の適用シナリオに適用され得、ここで、マルチメディアビデオリソースは例えばオーディオを含むビデオであり、具体的に、本実施例が提供する方法は端末装置に適用され得、図1に示すように、ユーザは端末装置11によりマルチメディア初期ビデオを録画した後、前記端末装置11は本実施例が提供するマルチメディア処理方法を実行することにより、マルチメディア初期ビデオを処理し、該マルチメディア初期ビデオ中出現の口の誤り、ポーズ、口パクなどの無意味な内容に対応するビデオフラグメントおよびオーディオフラグメントを自動的に除去し、マルチメディアクリッピングビデオを生成し、マルチメディアクリッピングビデオ中の無意味な内容が除去されたので、マルチメディア初期ビデオに対して、マルチメディアクリッピングビデオの内容の連続性および円滑性がより高く、マルチメディアビデオリソースの内容の品質がより高くなる。その後、端末装置11は該マルチメディアクリッピングビデオをビデオプラットフォームサーバー12に送信し、ビデオプラットフォームサーバー12は該マルチメディアクリッピングビデオをマルチメディアビデオリソースとしてビデオプラットフォームに投稿し、他の端末装置13は、ビデオプラットフォームサーバー12と通信することにより該マルチメディアビデオリソースを視聴することができる。
【0018】
図2は、本開示の実施例が提供するマルチメディア処理方法の別の適用シナリオを示す図であり、可能な実施態様では、本実施例が提供する方法もビデオプラットフォームサーバーに適用され得、すなわち、ユーザは端末装置によりマルチメディア初期ビデオを録画した後、該マルチメディア初期ビデオをビデオプラットフォームサーバーに送信し、ビデオプラットフォームサーバーは本実施例が提供するマルチメディア処理方法を実行することにより、マルチメディア初期ビデオを処理し、図1に示すマルチメディアクリッピングビデオを生成し、該マルチメディアクリッピングビデオをマルチメディアビデオリソースとしてビデオプラットフォームに投稿し、他の端末装置はビデオプラットフォームサーバーと通信することにより、該マルチメディアビデオリソースを視聴することができる。
【0019】
先行技術において、マルチメディアリソースの全体的な再生円滑性を向上させるために、マルチメディアリソースをトリミングするプロセスは、専門的な編集ツールによって手動で処理することしかできず、専門的に要求され、操作が難しく、その結果、マルチメディアリソースのクリッピングプロセス効率が低く、効果が悪く、クリッピング後のマルチメディアリソースの再生円滑性が低いという問題がある。これは、ユーザ自身が録画したマルチメディアリソースは、ユーザごとの発音特徴や言語表現スタイルの違い、およびマルチメディアリソースの内容の違いにより、マルチメディアリソース中の無意味な内容の正確な認識と位置決めを実現することは困難であるため、通常、マルチメディアリソースの画面と音声を手動で組み合わせて総合的に判断した後、手動でトリミングしかできず、効率が悪いだけでなく、クリッピング後のマルチメディアリソースの再生円滑性にも影響を与える。
【0020】
本開示の実施例は、上記問題を解決するためのマルチメディア処理方法を提供する。
【0021】
図3は、本開示の実施例が提供するマルチメディア処理方法の概略フローチャート1である。本実施例の方法はサーバーまたは端末装置に適用され得、本実施例では、端末装置を本実施例の方法の実行主体として例示的に説明し、前記マルチメディア処理方法は以下のステップを含む。
【0022】
S101:第1マルチメディアリソースを取得する。
【0023】
例示的に、マルチメディアは通常、様々なメディアの組み合わせを指し、一般的に、テキスト、音声および画像などの様々なメディア形式を含む。コンピュータシステムでは、マルチメディアとは2つ以上のメディアを組み合わせてなる、マンマシン相互作用の情報交換および普及のためのメディアを指す。本実施例では、第1マルチメディアリソースは、オーディオを含む音声付きビデオであり、より具体的に、第1マルチメディアリソースは、ビデオデータとオーディオデータを保護するためのマルチメディアリソースまたはファイルであってもよい。
【0024】
さらに、第1マルチメディアリソースは、ユーザが端末装置、例えばスマートフォンの録画機能を通じて録画された音声付きビデオであってもよく、本実施例では、前記音声付きビデオは、人間の声を含むビデオ、例えば解説ビデオ、教育ビデオ、製品紹介ビデオなどである。もちろん、前記第1マルチメディアリソースは、端末装置が他の電子機器から送信されたデータを受信して取得されてもよいことを理解されたく、ここではこれ以上の例を示さない。
【0025】
S102:第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む。
【0026】
例示的に、第1マルチメディアリソースはオーディオデータを少なくとも含み、第1マルチメディアリソースを取得した後、予め設定されたアルゴリズムにしたがって、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソース中のオーディオデータによって表現された内容に対応するテキスト、すなわち初期テキスト内容を決定する。ここで、例示的に、オーディオデータは音声データのみを含んでもよく、または、音声データと非音声データを同時に含んでもよく、音声データはビデオ中録画の人間の声に対応するオーディオデータであり、対応的に、非音声データはビデオに録画された人間以外の音に対応するオーディオデータである。より具体的に、例えば第1マルチメディアリソースは製品紹介ビデオであり、ここで、ビデオ中の製品紹介者の声に対応するオーディオデータは音声データである。第1マルチメディアリソースのオーディオデータに対して音声認識を行うことにより、得られたテキストは初期テキスト内容であり、すなわちビデオ中の製品紹介者の声から変換されたテキストである。
【0027】
S103:初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である。
【0028】
さらに、例示的に、初期テキスト内容を取得した後、初期テキスト内容中の単語、フレーズ、文句、段落に基づいて、初期テキスト内容を認識することにより、その中の無效テキスト内容とターゲットテキスト内容を決定することができる。ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であり、より具体的に、例えば異常なポーズ、重複、冗長なイントネーション語、その他、情報表現効果のないが言語表現の円滑性に影響を与える単語、フレーズ、文句などである。
【0029】
例示的に、初期テキスト内容中の無效テキスト内容を決定する様々な実施態様があり、例えば、プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效テキスト内容を決定し、具体的に、無效テキスト内容ライブラリは無效テキスト内容に対応する単語、フレーズ、文句などの予め設定された要素を含み、無效テキスト内容ライブラリ中の単語、フレーズ、文句に基づいて、初期テキスト内容に上記無效テキスト内容ライブラリ中の単語、フレーズ、文句が含まれるかどうかを検出し、初期テキスト内容中の無效テキスト内容を決定する。
【0030】
別の可能な実施態様では、初期テキスト内容を意味論的に分析し、初期テキスト内容に対応する意味情報を取得し、意味情報に基づいて、初期テキスト内容中の無效テキスト内容を決定する。ここで、具体的に、初期テキスト内容を意味論的に分析することにより、初期テキスト内容中の各単語、フレーズ要素の意味を決定することができ、ここで、無效テキスト内容は意味の1つの分類である。したがって、初期テキスト内容を意味論的に分析することにより、初期テキスト内容中の無效テキスト内容を決定することができる。
【0031】
ここで、初期テキスト内容の意味論的分析は、プリトレーニングされた言語処理モデルによって実現され、意味論的分析のための言語処理モデルの使用およびトレーニングは当業者に公知の先行技術であるので、本明細書では辿らない。
【0032】
S104:第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。
【0033】
例示的に、初期テキスト内容中の各単語またはフレーズは、オーディオフラグメント、およびオーディオデータに対応し、オーディオデータは再生タイムスタンプを含み、初期テキスト内容中の無效テキスト内容を決定した後、無效テキスト内容中に含まれた単語、フレーズに基づいて、各単語、フレーズに対応するオーディオデータを決定し、オーディオデータの再生タイムスタンプを取得し、さらに、オーディオデータの再生タイムスタンプに基づいて、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。例示的に、可能な実施態様では、無效テキスト内容は第1マルチメディアリソースにおいて連続的なオーディオデータに対応し、この場合、第1再生位置は、開始点および終了点を有する1組の再生タイムスタンプのみを含んでもよい。別の可能な実施態様では、無效テキスト内容は第1マルチメディアリソースにおいて複数の不連続的なオーディオデータに対応し、この場合、第1再生位置は、開始点および終了点を有する複数組の再生タイムスタンプを含んでもよい。
【0034】
S105:第1再生位置に基づいて、第1マルチメディアリソースをトリミングして、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である。
【0035】
例示的に、第1再生位置を決定した後、無效テキスト内容に対応する音声データを認識および位置決めたことに相当し、マルチメディアビデオ再生の全体的な円滑性を向上させるために、第1再生位置に基づいて、無效テキスト内容に対応する音声データを第1マルチメディアリソースのオーディオデータ全体から削除し、ターゲットテキスト内容に対応する音声データを保留し、ポーズ、重複、冗長なイントネーション語などの情報表現効果のない単語、フレーズによりマルチメディアビデオ内容の表現に与えられる影響を低減する。具体的に、第1再生位置により第1マルチメディアリソースにおける無效テキスト内容に対応する音声データの再生位置を説明することに基づいて、無效テキスト内容に対応する音声データの開始点および終了点を決定し、さらに、開始点および終了点間のデータを削除し、開始点前および終了点後のターゲットテキスト内容の音声データをスプライシングして、クリッピング後のオーディオデータを生成する。
【0036】
さらに、本実施例では、第1マルチメディアリソースはビデオデータをさらに含むので、同様に、第1再生位置に基づいて、第1マルチメディアリソース中のビデオデータを対応して処理し、無效テキスト内容に対応するビデオデータをクリッピングし、再生時間軸におけるクリッピング後のオーディオデータに対応するクリッピング後のビデオデータを生成し、第2マルチメディアリソースを得る。
【0037】
図4は、本開示の実施例が提供する第1マルチメディアリソースを通じて第2マルチメディアリソースを得る過程の概略図であり、図4に示すように、第1マルチメディアリソースはオーディオデータおよびビデオデータを含み、オーディオデータは音声データを含み、音声データは第1音声データと第2音声データを含み、ここで、第1音声データは無效テキスト内容に対応する音声データであり、第2音声データはターゲットテキスト内容に対応する音声データである。第1再生位置に基づいて、音声データ中の第1音声データと第2音声データの位置を決定した後、第1音声データをトリミングし、第2音声データを保留し、再度スプライシングし、ターゲットオーディオデータを生成し、これに対応して、第1再生位置に基づいて、対応するビデオデータをトリミングおよびスプライシングして、ターゲットビデオデータを生成する。さらに、ターゲットオーディオデータとターゲットビデオデータに基づいて、第2マルチメディアリソースを生成する。
【0038】
本実施例では、第1マルチメディアリソースを取得し、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含み、初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容であり、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定し、第1再生位置に基づいて、第1マルチメディアリソースをトリミングして、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まなく、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である。第1マルチメディアリソースの音声認識およびテキスト処理により、第1マルチメディアリソース中の無效テキスト内容の自動位置決めおよびトリミングを実現し、マルチメディアリソース中の無效内容に対するクリッピング効率およびクリッピング効果を向上させ、クリッピング後のマルチメディアリソースの再生円滑性を向上させることができる。
【0039】
図5は、本開示の実施例が提供するマルチメディア処理方法の概略フローチャート2である。本実施例は、図3に示す実施例に基づいて、ステップS102~S105をさらに微細化し、前記マルチメディア処理方法は以下のステップを含む。
【0040】
S201:第1マルチメディアリソースを取得する。
【0041】
S202:音声端点検出アルゴリズムにより、第1マルチメディアリソースのオーディオデータ中の音声データおよび非音声データを認識する。
【0042】
例示的に、音声端点検出(Voice Activity Detection、VAD)アルゴリズムは、音声活動検出とも呼ばれ、音声信号ストリームから無音期間(すなわち人間以外の音声信号)を認識する目的で使用され、本実施例では、音声端点検出アルゴリズムにより、第1マルチメディアリソースのオーディオデータを処理することにより、その中の人間の声に対応する音声データと人間以外の音に対応する非音声データを認識し、後の音声データに基づく処理プロセスを実現することができる。ここで、音声端点検出アルゴリズムの具体的な実現方法は、当業者に公知の先行技術であるので、ここでは繰り返さない。
【0043】
S203:第1マルチメディアリソースのオーディオデータ中の音声データを音声認識し、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、初期テキスト内容は複数のフラグメント内容を含む。
【0044】
例示的に、図6に示すように、S203は、S2031、S2032の2つの具体的な実現ステップを含み、
【0045】
S2031:自動音声認識技術により、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各音声単語に対応するタイムスタンプを取得し、タイムスタンプは、第1マルチメディアリソースにおける音声単語に対応するオーディオデータの再生位置を特徴付ける。
【0046】
S2032:複数の音声単語に基づいて、初期テキスト内容を生成する。
【0047】
例示的に、自動音声認識技術(ASR、Automatic Speech Recognition)は、人間の音声をテキストに変換する技術であり、音響学、音声学、言語学、コンピュータサイエンスなどの複数の技術分野に基づいて実施される技術であり、オーディオ信号の前処理、特徴抽出、後処理、特徴認識などの多くのリンクを通じて音声からテキストへの変換を実現し、ここで、各処理に関与するさまざまな方法があり、当業者に公知の先行技術であり、具体的なニーズに応じて各処理リンクに関与する具体的なアルゴリズムを設定し、ここでは例を示さない。
【0048】
さらに、自動音声認識技術により、第1マルチメディアリソースのオーディオデータを音声認識した後、単語レベルの認識結果、すなわち音声単語を出力し、ここで、各音声単語はオーディオデータに対応し、すなわちオーディオフラグメントに対応する。第1マルチメディアリソースのオーディオデータ中の各オーディオフラグメントに対応する再生タイミングに従って、各オーディオフラグメントに対応する音声単語を配列し、生成された複数の音声単語を含むテキストは初期テキスト内容である。さらに、例示的に、自動音声認識技術により音声単語を認識する過程中、各音声単語に対応するタイムスタンプも認識され、第1マルチメディアリソースにおける音声単語に対応するオーディオデータ(すなわち上記音声フラグメント)の再生位置を特徴付け、前記過程は、予め設定された自動音声認識アルゴリズムにより実現され、ここでは繰り返さない。
【0049】
ここで、例示的に、1または複数の音声単語は、特定の意味を特徴付けるためのフラグメント内容を構成する。例えば、2つの音声単語から構成されたフレーズ、または4つの音声単語から構成された熟語などである。初期テキスト内容中の無效テキスト内容について、音声単語の形式、例えば「うん」であってもよく、2つの音声単語の形式、例えば「あの」であってもよく、上記例示は中国語の音声によく現れる意味的情報表現効果のない内容のみであり、他の言語でも同様であるので、ここでは例を挙げない。
【0050】
S204:初期テキスト内容の複数フラグメント内容から、少なくとも1つの無效フラグメント内容を決定する。
【0051】
例示的に、図7に示すように、S204は、S2041、S2042、S2043、S2044、S2045の5つの具体的な実現ステップを含み、
【0052】
S2041:プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效フラグメント内容を決定する。
【0053】
S2042:無效テキスト内容ライブラリに無效フラグメント内容が存在しない場合、初期テキスト内容を意味論的に分析し、初期テキスト内容の各フラグメント内容に対応する意味情報を取得する。
【0054】
例示的に、無效テキスト内容ライブラリに、複数の意味的情報表現効果のない音声単語および/または音声単語の組み合わせが予め設定され、無效テキスト内容ライブラリに予め設定された意味的情報表現効果のない音声単語および/または音声単語の組み合わせに基づいて、初期テキスト内容の一致性を検出し、初期テキスト内容中の同じ意味的情報表現効果のない音声単語および/または音声単語の組み合わせ、すなわち無效フラグメント内容を決定する。この時点で、ステップS204を達成することができる。ここで、無效テキスト内容ライブラリによって無效フラグメント内容を決定し、意味論的分析のステップが省略されるため、より効率的であり、より少ない演算リソースを消費し、無效テキスト内容の位置決めとクリッピング効率を向上させることができる。
【0055】
無效テキスト内容ライブラリに無效フラグメント内容が存在しない場合、すなわち無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および/または音声単語の組み合わせに基づいて、初期テキスト内容の一致性を検出した後、初期テキスト内容から、無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および/または音声単語の組み合わせが検出されなく、または、初期テキスト内容から検出された無效テキスト内容ライブラリの予め設定された複数の意味的情報表現効果のない音声単語および/または音声単語の組み合わせ数がプリセット値未満である場合、初期テキスト内容を意味論的に分析し、意味論的分析を通じて、初期テキスト内容の各フラグメント内容に対応する意味情報を決定し、さらに後続ステップでは、意味情報に基づいて無效フラグメント内容を決定する。
【0056】
S2043:初期テキスト内容の各フラグメント内容に対応する意味情報に基づいて、初期テキスト内容中の少なくとも1つのフラグメント内容の信頼性係数を決定し、信頼性係数は、フラグメント内容が無效テキスト内容であることの信頼性を特徴付けるために使用される。
【0057】
S2044:フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、少なくとも1つのフラグメント内容から少なくとも1つの無效フラグメント内容を決定する。
【0058】
例示的に、予め設定された意味論的分析アルゴリズムまたはモデルに基づいて初期テキスト内容の各フラグメント内容を意味論的に分析した後、出力音声情報は、該フラグメント内容に対応する意味分類の信頼度を含み、前記信頼度は意味論的分析モデルによるフラグメント内容の意味分類結果の信頼性評価を特徴付け、すなわち、信頼度は信頼性係数である。信頼性係数が高いほど、該フラグメント内容に対応する意味分類の信頼性が高くなる。「無效内容」も1つの意味分類に対応し、「無效内容」を決定する意味分類過程中、フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、信頼性閾値よりも大きい信頼性係数に対応するフラグメント内容を、該「無效内容」の意味分類、すなわち無效フラグメント内容として決定する。
【0059】
本実施例のステップでは、各フラグメント内容の信頼性係数に基づいて無效フラグメント内容を決定することにより、無效フラグメント内容の認識精度を向上させ、誤判定を低減させることができる。
【0060】
S2045:意味情報に基づいて決定された無效フラグメント内容を無效テキスト内容ライブラリに追加する。
【0061】
例示的に、音声情報に基づいて無效フラグメント内容を決定した後、無效テキストライブラリには上記無效フラグメント内容に対応する単語または単語の組み合わせが含まないため、該無效フラグメント内容を無效テキスト内容ライブラリに追加し、無效テキスト内容ライブラリの内容を拡張し、後続の無效テキスト内容ライブラリを使用して無效テキスト内容を判定するときの精度と有効性が向上する。これにより、無效テキスト内容の位置決めおよびクリッピング効率を向上させることができる。
【0062】
S205:少なくとも1つの無效フラグメント内容に基づいて、初期テキスト内容中の無效テキスト内容を決定する。
【0063】
例示的に、無效テキスト内容は1つまたは複数の無效フラグメント内容を含んでもよく、初期テキスト内容中の各無效フラグメント内容を決定した後、対応する無效テキスト内容を決定することができる。
【0064】
可能な実施態様では、無效フラグメント内容は少なくとも1つの音声単語を含み、初期テキスト内容中の無效テキスト内容を決定することは、音声単語に対応するタイムスタンプに基づいて、各音声単語の再生時間を取得し、予め設定された標準時間、および音声単語の再生時間に基づいて、再生時間が標準時間の第1時間閾値よりも大きい音声単語、または、再生時間が標準時間の第2時間閾値よりも小さい音声単語を、初期テキスト内容中の無效テキスト内容として決定する。
【0065】
例示的に、無效フラグメント内容中の音声単語は、音声データを変換することによって生成され、音声データは人間の声に対応するが、実際の適用過程中、同一音声単語について、人間の声の発音時間にばらつきがある可能性があり、すなわち、人間の声は発音時間の次元において差がある。発音時間が異なると、異なる意味を表現し、ひいては、音声単語が意味情報を表現できるかどうかにつながる。例えば、ユーザが2秒の「うん」音声を発し、この言語環境下で該音声単語「うん」はモーダル助詞であり、具体的な意味がなく、無效フラグメント内容に属するが、「朝食は食べましたか?」、「うん、食べました」というユーザ対話の言語環境下で、時間0.2秒の音声「うん」は具体的な意味を特徴付けるため、無效フラグメント内容ではない。
【0066】
さらに、以上の例に基づいて、各音声単語は0.2秒などの予め設定された標準時間を有する。音声単語に対応するタイムスタンプに基づいて決定された音声単語の再生時間が該標準時間よりもはるかに大きいまたは小さい場合、該音声単語はモーダル助詞である可能性が高いことを意味するので、具体的な意味がなく、無效テキスト内容であると決定することができる。
【0067】
本実施例では、音声単語の標準時間と音声単語の再生時間を比較して、無效フラグメント内容中の音声単語が語気ポーズなどによって生成された無效単語であるかどうかを検出し、異なる言語環境下で異なる意味を有する音声単語の誤判定を減少し、無效テキスト内容の認識精度を向上させることができる。
【0068】
S206:第1マルチメディアリソースのオーディオデータにおける、無效テキスト内容中の各無效フラグメント内容の音声データの開始点および終了点を決定する。
【0069】
S207:無效テキスト内容中の各無效フラグメント内容に対応する開始点および終了点に基づいて、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。
【0070】
例示的に、無效フラグメント内容は少なくとも1つの音声単語を含み、無效テキスト内容中の各音声単語に対応するタイムスタンプに基づいて、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。
【0071】
S208:初期テキスト内容中の無效テキスト内容を表示する。
【0072】
S209:無效テキスト内容の操作指令に応答して、無效テキスト内容に対応するオーディオフラグメントを再生する。
【0073】
例示的に、本実施例が提供する方法が適用される端末装置は、タッチ可能な表示画面を有し、端末装置内で第1マルチメディアリソースを編集するためのアプリケーション(Application、APP)が実行され、前記端末装置はタッチ可能な表示画面に該APPの対話インターフェースを表示する。図8は、本開示の実施例が提供する対話インターフェースの概略図であり、図8を参照すると、端末装置の対話インターフェースに、初期テキスト内容が表示され(図8では、その一部が例示的に「以下、うんうん、今月16日にあの新発売された機械キーボードを紹介します」と強調表示(図8では黒字のフォントで示される)、初期テキスト内容に無效テキスト内容(すなわち「うんうん」和「あの」が表示される。ユーザが端末装置のタッチ可能な表示画面を通じて、無效テキスト内容に対応する表示画面領域をタッチすると、端末装置は無效テキスト内容に対応するオーディオおよび/またはビデオフラグメントを再生し、ユーザが該無效テキスト内容に対応するオーディオフラグメントが本当に情報表現効果のないポーズ、重複などの無意味な内容であるかどうかを判定することができる。
【0074】
S210:非音声データの開始点および終了点に基づいて、第1マルチメディアリソースにおける非音声データの第2再生位置を決定する。
【0075】
S211:第1再生位置と第2再生位置に基づいて、初期テキスト内容における無效フラグメント内容以外の他のテキスト内容を取得し、ここで、他のテキスト内容は少なくとも1つのターゲットフラグメント内容を含む。
【0076】
非音声データは、第1マルチメディアリソースにおける非音声部分に対応するオーディオデータであり、例えば製品紹介のビデオにおける紹介開始前の空白部分や、紹介終了後の空白部分である。非音声データはステップS202で音声端点検出アルゴリズムにより得られ、ここでは繰り返さない。同様に、非音声データを決定した後、それに対応して、第1マルチメディアリソースにおける非音声データの再生位置、すなわち第2再生位置を取得してもよい。
【0077】
さらに、第2再生位置に基づいて、非音声データの位置決めを実現し、第1再生位置と第2再生位置に基づいて、第1マルチメディアリソースをクリッピングし、第1マルチメディアリソース中の無效フラグメント内容に対応する音声データ、および非音声データを除去し、他のテキスト内容に対応するオーディオデータ、すなわちターゲットフラグメント内容に対応するオーディオデータを保留する。
【0078】
S212:少なくとも1つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加するか、および/または、少なくとも1つのターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、ターゲットフラグメント内容に対応する遷移音声データを生成する。
【0079】
S213:第1再生位置と第2再生位置に基づいて遷移音声データをスプライシングし、第2マルチメディアリソースを生成する。
【0080】
さらに、保留した他のテキスト内容は少なくとも1つのターゲットフラグメント内容を含み、クリッピング後のオーディオの再生円滑性を向上させるために、ターゲットフラグメント内容に対応する音声データにフェードインフェードアウト効果を追加する。具体的に、例えば、少なくとも1つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、少なくとも1つのターゲットフラグメント内容に対応する音声データにフェードアウト効果を追加する。ここで、フェードイン効果およびフェードアウト効果とは、音声データの開始点および終了点に、タイムウィンドウを付加し、1つのターゲットフラグメント内容に対応する音声データは、ボリュームが小さい状態から徐々に大きくなり(フェードイン)、または大きい状態から徐々に小さくなる(フェードアウト)ように再生され、オーディオデータがクリッピングされた後の唐突感を低減することを指す。1つのオーディオフラグメントにフェードインフェードアウトを追加する具体的な方法は本分野の先行技術であるので、ここでは繰り返さない。
【0081】
さらに、ターゲットフラグメント内容に対応する音声データをフェードインフェードアウト処理した後、対応する遷移音声データを生成した後、第1再生位置と第2再生位置に基づいて、各遷移音声データをスプライシングしてターゲットオーディオデータを生成し、同様に、第1再生位置と第2再生位置に基づいて、ターゲットオーディオデータに対応するターゲットビデオデータを取得し、第2マルチメディアリソースを生成する。前記第2マルチメディアリソースは、ターゲットフラグメント内容からなるターゲットテキスト内容に対応するマルチメディアビデオのみを含み、無效テキスト内容に対応するマルチメディアビデオ、および、非音声データに対応するマルチメディアビデオを含まない。第2マルチメディアリソースから口の誤り、ポーズ、口パクなどの情報表現効果のない内容が除去されたので、第2マルチメディアリソースの内容の再生円滑性を向上させることができる。
【0082】
図9は本開示の実施例が提供する別の第1マルチメディアリソースを通じて第2マルチメディアリソースを得る過程の概略図であり、図9に示すように、第1マルチメディアリソースのオーディオデータに対して音声端点検出を行った後、その中の音声データおよび非音声データ決定した後、音声データに対して音声認識、意味論的分析などの処理ステップを実施した後、複数の無效フラグメント内容を決定し、ここで、無效フラグメント内容は第1音声データに対応し、無效フラグメント内容以外のターゲットフラグメント内容は第2音声データに対応し、無效フラグメント内容に対応する第1音声データに対応する第1再生位置および非音声データに対応する第2再生位置に基づいて、オーディオデータをクリッピングし、第1音声データおよび非音声データを除去し、ターゲットテキスト内容に対応するターゲットオーディオデータを生成する。同様に、第1再生位置と第2再生位置に基づいてビデオデータをクリッピング処理してターゲットビデオデータを生成する。さらに、ターゲットオーディオデータとターゲットビデオデータを合成して第2マルチメディアリソースを生成する。
【0083】
本実施例では、ステップS201の実施態様は、本開示の図3に示す実施例中のステップS101の実施態様と同様であるので、ここでは繰り返さない。
【0084】
上記実施例のマルチメディア処理方法に対応して、図10は、本開示の実施例が提供するマルチメディア処理装置の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみが図示されている。図10を参照すると、マルチメディア処理装置3は、
第1マルチメディアリソースを取得し、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、第1マルチメディアリソースのオーディオデータは初期テキスト内容の音声データを含む音声認識モジュール31と、
初期テキスト内容中の無效テキスト内容を決定し、ここで、無效テキスト内容は意味的情報表現効果のないテキスト内容である第1確認モジュール32と、
第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定するための第2確認モジュール33と、
第1再生位置に基づいて、第1マルチメディアリソースをトリミングして、第2マルチメディアリソースを得、ここで、第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、無效テキスト内容の音声データを含まない、ターゲットテキスト内容は初期テキスト内容における無效テキスト内容以外の他のテキスト内容である生成モジュール34と、を備える。
【0085】
本開示の一実施例では、第1確認モジュール32は、具体的に、初期テキスト内容を意味論的に分析し、初期テキスト内容に対応する意味情報を取得し、意味情報に基づいて、初期テキスト内容中の無效テキスト内容を決定するために使用される。
【0086】
本開示の一実施例では、初期テキスト内容は複数のフラグメント内容を含み、第1確認モジュール32は意味情報に基づいて初期テキスト内容中の無效テキスト内容を決定する場合、具体的に、初期テキスト内容に対応する意味情報に基づいて、初期テキスト内容中の少なくとも1つのフラグメント内容の信頼性係数を決定し、信頼性係数はフラグメント内容が無效テキスト内容である信頼性を特徴付けるために使用され、フラグメント内容の信頼性係数および予め設定された信頼性閾値に基づいて、少なくとも1つのフラグメント内容から少なくとも1つの無效フラグメント内容を決定し、少なくとも1つの無效フラグメント内容に基づいて、初期テキスト内容中の無效テキスト内容を決定する。
【0087】
本開示の一実施例では、第2確認モジュール33は、具体的に、第1マルチメディアリソースのオーディオデータにおける、各無效フラグメント内容の音声データの開始点および終了点を決定し、各無效フラグメント内容に対応する開始点および終了点に基づいて、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。
【0088】
本開示の一実施例では、生成モジュール34は、具体的に、第1再生位置に基づいて、初期テキスト内容における無效フラグメント内容以外の他のテキスト内容を取得し、ここで、他のテキスト内容は少なくとも1つのターゲットフラグメント内容を含み、少なくとも1つのターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加するか、および/または、少なくとも1つのターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加し、ターゲットフラグメント内容に対応する遷移音声データを生成し、第1再生位置に基づいて遷移音声データをスプライシングし、第2マルチメディアリソースを生成する。
【0089】
本開示の一実施例では、初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得する前に、第1確認モジュール32は、さらに、プリセット無效テキスト内容ライブラリに基づいて、初期テキスト内容中の無效テキスト内容を決定するために使用され、第1確認モジュール32は初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得するとき、具体的に、無效テキスト内容ライブラリに無效テキスト内容が存在しない場合、初期テキスト内容を意味論的に分析して初期テキスト内容に対応する意味情報を取得し、第1確認モジュール32は意味情報に基づいて初期テキスト内容中の無效テキスト内容を決定した後、さらに、意味情報に基づいて決定された無效テキスト内容を無效テキスト内容ライブラリに追加するために使用される。
【0090】
本開示の一実施例では、第1再生位置に基づいて、第1マルチメディアリソースをトリミングして第2マルチメディアリソースを得る前に、生成モジュール34は、さらに、初期テキスト内容中の無效テキスト内容を表示し、無效テキスト内容の操作指令に応答して無效テキスト内容に対応するオーディオフラグメントを再生するために使用される。
【0091】
本開示の一実施例では、音声認識モジュール31は、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定する場合、具体的に、音声端点検出VADアルゴリズムにより、第1マルチメディアリソースのオーディオデータ中の音声データと非音声データを認識し、第1マルチメディアリソースのオーディオデータ中の音声データを音声認識し、第1マルチメディアリソースに対応する初期テキスト内容を決定する。
【0092】
本開示の一実施例では、第2確認モジュール33は、さらに、非音声データの開始点および終了点に基づいて、第1マルチメディアリソースにおける非音声データの第2再生位置を決定するために使用され、生成モジュール34は、具体的に、第1再生位置と第2再生位置に基づいて、第1マルチメディアリソースをトリミングして、第2マルチメディアリソースを得るために使用され、ここで、第2マルチメディアリソースは非音声データを含まない。
【0093】
本開示の一実施例では、音声認識モジュール31は、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、第1マルチメディアリソースに対応する初期テキスト内容を決定する場合、具体的に、自動音声認識ASR技術により、第1マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各音声単語に対応するタイムスタンプを取得し、タイムスタンプは、第1マルチメディアリソースにおける音声単語に対応するオーディオデータの再生位置を特徴付け、複数の音声単語に基づいて、初期テキスト内容を生成し、第2確認モジュール33は、具体的に、無效テキスト内容中の各音声単語に対応するタイムスタンプに基づいて、第1マルチメディアリソースにおける無效テキスト内容の音声データの第1再生位置を決定する。
【0094】
本開示の一実施例では、第1確認モジュール32は、具体的に、音声単語に対応するタイムスタンプに基づいて、各音声単語の再生時間を取得し、予め設定された標準時間、および音声単語の再生時間に基づいて、再生時間が標準時間の第1時間閾値よりも大きい音声単語、または、再生時間が標準時間の第2時間閾値よりも小さい音声単語を、初期テキスト内容中の無效テキスト内容として決定する。
【0095】
本開示の一実施例では、第1マルチメディアリソースはビデオデータをさらに含み、生成モジュール34は、具体的に、第1再生位置に基づいて、第1マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして第2マルチメディアリソースを得るために使用される。
【0096】
本実施例が提供するマルチメディア処理装置3は、上記方法実施例の技術的解決策を実行することに適用され、同じ実現原理と技術的効果を有するので、本実施例では繰り返さない。
【0097】
図11は、本開示の実施例が提供する電子機器の構造概略図であり、図11に示すように、前記電子機器4は少なくとも1つのプロセッサ41とメモリ42を備え、
メモリ42はコンピュータ実行指令を記憶し、
少なくとも1つのプロセッサ41がメモリ42に記憶されたコンピュータ実行指令を実行することにより、少なくとも1つのプロセッサ41に図2図7に示す実施例中のマルチメディア処理方法を実行させる。
【0098】
ここで、プロセッサ41とメモリ42はバス43を介して接続される。
【0099】
関連説明の理解については、図2図7に対応する実施例中のステップに対応する関連説明および効果を参照すればよく、ここでは繰り返さない。
【0100】
図12を参照すると、本開示の実施例の実施に適した電子機器900の構造概略図を示し、前記電子機器900は端末装置またはサーバーであってもよい。ここで、端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、タブレットコンピュータ(Portable Android Device、PAD)、ポータブルマルチメディアプレーヤ(Portable Media Player、PMP)、車載端末(例えば車載ナビゲーション端末)などのモバイル端末、およびデジタルテレビ(Television、TV)、デスクトップパソコンなどの固定端末を含むが、これらに限定されない。図12に示す電子機器は単なる例示であり、本開示の実施例の機能および使用範囲を何ら限定するものではない。
【0101】
図12に示すように、電子機器900は、読み取り専用メモリ(Read Only Memory、ROM)902に記憶されたプログラムまたは記憶装置908からランダムアクセスメモリ(Random Access Memory、RAM)903にロードされたプログラムを実行することにより様々な適切な動作および処理を実行する処理装置(例えば中央処理装置、グラフィックプロセッサなど)901を備える。RAM903には、電子機器900の操作に必要な様々なプログラムおよびデータがさらに記憶される。処理装置901、ROM902およびRAM903はバス904を介して互いに接続される。入力/出力(Input/Output、I/O)インターフェース905もバス904に接続される。
【0102】
通常、I/Oインターフェース905には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置906、液晶ディスプレイ(Liquid Crystal Display、LCD)、スピーカ、バイブレータなどの出力装置907、磁気テープ、ハードディスクなどの記憶装置908、および通信装置909が接続される。通信装置909により、電子機器900が無線または有線で他の装置と通信してデータを交換する。図12には様々な装置を備えた電子機器900が図示されているが、図示されたデバイスの装置を実装または具備する必要がないことを理解されたい。代替的に、より多くのまたはより少ない装置を実装または具備してもよい。
【0103】
特に、本開示の実施例によれば、フローチャートを参照して上記したプロセスは、コンピュータソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施例は、コンピュータプログラム製品を含み、コンピュータ可読媒体に担持されたコンピュータプログラムを含み、前記コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、前記コンピュータプログラムは、通信装置909を通じてネットワークからダウンロードされ、インストールされるか、または記憶装置908からインストールされるか、またはROM 902からインストールされてもよい。このコンピュータプログラムが処理装置901によって実行されると、本開示の実施例の方法に定義された上記機能が実現される。
【0104】
なお、本開示に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体または上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は例えば電気、磁気、光、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つまたは複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable ROM、EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(Compact Disc ROM、CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせであってもよいが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形媒体であってもよく、このプログラムが命令実行システム、装置またはデバイスによって使用される、または組み合わせて使用されてもよい。本開示では、コンピュータ可読信号媒体は、ベースバンドで、またはキャリアの一部として伝搬されるデータ信号を含んでもよく、コンピュータ可読プログラムコードが担持される。このような伝搬データ信号は、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、命令実行システム、装置またはデバイスによって使用される、または組み合わせて使用されるプログラムを送信、伝搬または転送するコンピュータ可読記憶媒体以外の任意のコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体に含まれるプログラムコードは、ワイヤ、光ファイバケーブル、無線周波数(Radio Frequency、RF)など、または上記の任意の適切な組み合わせなどの任意の適切な媒体によって転送されてもよいが、これらに限定されない。
【0105】
上記コンピュータ可読記憶媒体は、上記電子機器に含まれてもよく、または前記電子機器に組み込まれずに別体であってもよい。
【0106】
上記コンピュータ可読媒体に1つまたは複数のプログラムが保持され、上記1つまたは複数のプログラムが該電子機器によって実行されると、該電子機器に上記実施例に示す方法を実行させることができる。
【0107】
1つまたは複数のプログラミング言語またはその組み合わせで、本開示の動作を実行するためのコンピュータプログラムコードを記述することができ、上記プログラミング言語は、オブジェクト指向プログラミング言語(Java、Smalltalk、C++など)、および従来の手続き型プログラミング言語(「C」言語または類似のプログラミング言語)を含むが、これらに限定されない。プログラムコードは、完全にユーザのコンピュータ上で実行してもよく、部分的にユーザのコンピュータ上で実行してもよく、スタンドアロンソフトウェアパッケージとして実行してもよく、部分的にユーザのコンピュータ上で実行し、部分的にリモートコンピュータ上で実行してもよく、または完全にリモートコンピュータまたはサーバー上で実行してもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(Local Area Network、LAN)またはワイドエリアネットワーク(Wide Area Network、WAN)などのあらゆる種類のネットワークを介してユーザのコンピュータに接続されてもよいし、または、外部コンピュータに接続されてもよい(例えばインターネットサービスプロバイダを使用してインターネットを介して接続される)。
【0108】
添付図面のフローチャートおよびブロック図は、本開示の様々な実施例に従ったシステム、方法およびコンピュータプログラム製品の可能なアーキテクチャ、機能および動作を示す。この点で、フローチャートまたはブロック図の各ボックスは、1つのモジュール、プログラムセグメント、またはコードの一部を表す場合があり、このモジュール、プログラムセグメント、またはコードの一部は指定された論理機能を実装するための1つまたは複数の実行可能命令を含む。また、代替としてのいくつかの実装では、ボックス内に示された機能は、添付図面に示された順序と異なる順序で発生する可能性もあることに留意されたい。例えば、連続して表現された2つのボックスは実際には実質的に並行して実行されることがあり、関連する機能によって、逆の順序で実行されることもある。また、ブロック図および/またはフローチャート中の各ボックス、およびブロック図および/またはフローチャート中のボックスの組み合わせは、指定された機能または操作を実行する専用のハードウェアベースのシステムで実装されてもよいし、または専用ハードウェアとコンピュータ命令の組み合わせで実装されてもよいことに留意されたい。
【0109】
本開示の実施例において説明されるユニットはソフトウェアによって実装されてもよく、ハードウェアによって実装されてもよい。ここで、ユニットの名称は、所与の状況におけるユニット自身の限定を構成するものではなく、例えば、第1取得ユニットは、「少なくとも2つのインターネットプロトコルアドレスを取得するユニット」とも記述されてもよい。
【0110】
本明細書において上記した機能は少なくとも部分的に、1つまたは複数のハードウェア論理構成要素によって実行されてもよい。例えば、非限定的に、使用され得る例示的なハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、特定用途向け標準製品(Application Specific Standard Product、ASSP)、システムオンチップ(System on Chip、SOC)、複合プログラマブル論理デバイス(Complex Programmable Logic Device、CPLD)などを含む。
【0111】
本開示の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって使用される、または命令実行システム、装置またはデバイスと組み合わせて使用されるプログラムを含むまたは記憶する有形の媒体であってもよい。コンピュータ可読記憶媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置またはデバイス、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つまたは複数のワイヤに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
【0112】
第1態様において、本開示の1つまたは複数の実施例によれば、マルチメディア処理方法を提供し、第1マルチメディアリソースを取得すること、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定し、ここで、前記第1マルチメディアリソースのオーディオデータは前記初期テキスト内容の音声データを含むこと、前記初期テキスト内容中の無效テキスト内容を決定し、ここで、前記無效テキスト内容は意味的情報表現効果のないテキスト内容であること、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定すること、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得、ここで、前記第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まなく、前記ターゲットテキスト内容は前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容であることを含む。
【0113】
本開示の1つまたは複数の実施例によれば、前記初期テキスト内容中の無效テキスト内容を決定することは、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得すること、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することを含む。
【0114】
本開示の1つまたは複数の実施例によれば、前記初期テキスト内容は複数のフラグメント内容を含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することは、前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも1つのフラグメント内容の信頼性係数を決定し、前記信頼性係数は前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付け、前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも1つのフラグメント内容から少なくとも1つの無效フラグメント内容を決定すること、前記少なくとも1つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定することを含む。
【0115】
本開示の1つまたは複数の実施例によれば、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することは、前記第1マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定すること、各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することを含む。
【0116】
本開示の1つまたは複数の実施例によれば、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、前記第1再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得し、ここで、前記他のテキスト内容は少なくとも1つのターゲットフラグメント内容を含むこと、少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および/または、少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成すること、前記第1再生位置に応じて前記遷移音声データをスプライシングし、前記第2マルチメディアリソースを生成することを含む。
【0117】
本開示の1つまたは複数の実施例によれば、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、前記方法は、プリセット無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定すること、前記初期テキストの内容を意味論的に分析することをさらに含み、前記初期テキスト内容に対応する意味情報を取得することは、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得することを含み、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後、前記方法は、前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加することをさらに含む。
【0118】
本開示の1つまたは複数の実施例によれば、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得る前に、前記初期テキスト内容中の無效テキスト内容を表示すること、前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生することをさらに含む。
【0119】
本開示の1つまたは複数の実施例によれば、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することは、音声端点検出アルゴリズムにより、前記第1マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識すること、前記第1マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することをさらに含む。
【0120】
本開示の1つまたは複数の実施例によれば、前記方法は、前記非音声データの開始点および終了点に基づいて、前記第1マルチメディアリソースにおける前記非音声データの第2再生位置を決定することをさらに含み、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、前記第1再生位置と前記第2再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、前記第2マルチメディアリソースを得ることを含み、ここで、前記第2マルチメディアリソースは前記非音声データを含まない。
【0121】
本開示の1つまたは複数の実施例によれば、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定することは、自動音声認識技術により、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得し、前記タイムスタンプは、前記第1マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付けるために使用されること、前記複数の音声単語に基づいて、前記初期テキスト内容を生成することを含み、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することは、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定することを含む。
【0122】
本開示の1つまたは複数の実施例によれば、前記初期テキスト内容中の無效テキスト内容を決定することは、前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得すること、予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第1時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第2時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定することを含む。
【0123】
本開示の1つまたは複数の実施例によれば、前記第1マルチメディアリソースはビデオデータをさらに含み、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得ることは、前記第1再生位置に基づいて、前記第1マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第2マルチメディアリソースを得ることを含む。
【0124】
第2態様において、本開示の1つまたは複数の実施例によれば、マルチメディア処理装置を提供し、
第1マルチメディアリソースを取得し、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定するために使用され、ここで、前記第1マルチメディアリソースのオーディオデータは前記初期テキスト内容の音声データを含む音声認識モジュールと、
前記初期テキスト内容中の無效テキスト内容を決定するために使用され、ここで、前記無效テキスト内容は意味的情報表現効果のないテキスト内容である第1確認モジュールと、
前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定するために使用される第2確認モジュールと、
前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得るために使用され、ここで、前記第2マルチメディアリソースのオーディオデータはターゲットテキスト内容の音声データを含み、前記無效テキスト内容の音声データを含まなく、前記ターゲットテキスト内容は前記初期テキスト内容における前記無效テキスト内容以外の他のテキスト内容である生成モジュールと、を備える。
【0125】
本開示の1つまたは複数の実施例によれば、第1確認モジュールは、具体的に、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得し、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定するために使用される。
【0126】
本開示の1つまたは複数の実施例によれば、前記初期テキスト内容は複数のフラグメント内容を含み、第1確認モジュールは、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定する時に、具体的に、前記初期テキスト内容に対応する意味情報に基づいて、前記初期テキスト内容中の少なくとも1つのフラグメント内容の信頼性係数を決定し、前記信頼性係数は前記フラグメント内容が前記無效テキスト内容である信頼性を特徴付けるために使用され、前記フラグメント内容の信頼性係数およびプリセット信頼性閾値に基づいて、前記少なくとも1つのフラグメント内容から少なくとも1つの無效フラグメント内容を決定し、前記少なくとも1つの無效フラグメント内容に基づいて、前記初期テキスト内容中の無效テキスト内容を決定する。
【0127】
本開示の1つまたは複数の実施例によれば、前記第2確認モジュールは、具体的に、前記第1マルチメディアリソースのオーディオデータにおける各前記無效フラグメント内容の音声データの開始点および終了点を決定し、各前記無效フラグメント内容に対応する前記開始点と前記終了点に基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定するために使用される。
【0128】
本開示の1つまたは複数の実施例によれば、前記生成モジュールは、具体的に、前記第1再生位置に基づいて、前記初期テキスト内容における前記無效フラグメント内容以外の他のテキスト内容を取得し、ここで、前記他のテキスト内容は少なくとも1つのターゲットフラグメント内容を含み、少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの開始点にフェードイン効果を追加し、および/または、少なくとも1つの前記ターゲットフラグメント内容に対応する音声データの終了点にフェードアウト効果を追加して、前記ターゲットフラグメント内容に対応する遷移音声データを生成し、前記第1再生位置に応じて前記遷移音声データをスプライシングし、前記第2マルチメディアリソースを生成するために使用される。
【0129】
本開示の1つまたは複数の実施例によれば、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する前に、第1確認モジュールはさらに、プリセット無效テキスト内容ライブラリに基づいて、前記初期テキスト内容中の無效テキスト内容を決定することをさらに含み、第1確認モジュールは前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得する時に、具体的に、前記無效テキスト内容ライブラリに前記無效テキスト内容が存在しない場合、前記初期テキストの内容を意味論的に分析し、前記初期テキスト内容に対応する意味情報を取得し、第1確認モジュールは、前記意味情報に基づいて、前記初期テキスト内容中の無效テキスト内容を決定した後、さらに、前記意味情報に基づいて決定された前記無效テキスト内容を、前記無效テキスト内容ライブラリに追加するために使用される。
【0130】
本開示の1つまたは複数の実施例によれば、前記第1再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、第2マルチメディアリソースを得る前に、前記生成モジュールは、さらに、前記初期テキスト内容中の無效テキスト内容を表示し、前記無效テキスト内容の操作指令に応答して、前記無效テキスト内容に対応するオーディオフラグメントを再生するために使用される。
【0131】
本開示の1つまたは複数の実施例によれば、前記音声認識モジュールは、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定する時に、具体的に、音声端点検出アルゴリズムにより、前記第1マルチメディアリソースのオーディオデータにおける音声データと非音声データを認識し、前記第1マルチメディアリソースのオーディオデータ中の音声データに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定する。
【0132】
本開示の1つまたは複数の実施例によれば、前記第2確認モジュールは、さらに、前記非音声データの開始点および終了点に基づいて、前記第1マルチメディアリソースにおける前記非音声データの第2再生位置を決定するために使用され、前記生成モジュールは、具体的に、前記第1再生位置と前記第2再生位置に基づいて、前記第1マルチメディアリソースをトリミングし、前記第2マルチメディアリソースを得、ここで、前記第2マルチメディアリソースは前記非音声データを含まない。
【0133】
本開示の1つまたは複数の実施例によれば、音声認識モジュールは、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、前記第1マルチメディアリソースに対応する初期テキスト内容を決定する時に、具体的に、自動音声認識技術により、前記第1マルチメディアリソースのオーディオデータに対して音声認識を行い、複数の音声単語、および各前記音声単語に対応するタイムスタンプを取得し、前記タイムスタンプは、前記第1マルチメディアリソースにおける前記音声単語に対応するオーディオデータの再生位置を特徴付け、前記複数の音声単語に基づいて、前記初期テキスト内容を生成し、前記第2確認モジュールは、具体的に、前記無效テキスト内容における各音声単語に対応するタイムスタンプに基づいて、前記第1マルチメディアリソースにおける前記無效テキスト内容の音声データの第1再生位置を決定する。
【0134】
本開示の1つまたは複数の実施例によれば、前記第1確認モジュールは、具体的に、前記音声単語に対応するタイムスタンプに基づいて、各前記音声単語の再生時間を取得し、予め設定された標準時間、および前記音声単語の再生時間に基づいて、前記再生時間が前記標準時間の第1時間閾値よりも大きい音声単語、または、前記再生時間が前記標準時間の第2時間閾値よりも小さい音声単語を、前記初期テキスト内容中の無效テキスト内容として決定する。
【0135】
本開示の1つまたは複数の実施例によれば、前記第1マルチメディアリソースはビデオデータをさらに含み、前記生成モジュールは、具体的に、前記第1再生位置に基づいて、前記第1マルチメディアリソースのオーディオデータおよびビデオデータをトリミングして、前記第2マルチメディアリソースを得る。
【0136】
第3態様において、本開示の1つまたは複数の実施例によれば、電子機器を提供し、少なくとも1つのプロセッサとメモリを備え、前記メモリはコンピュータ実行指令を記憶し、前記少なくとも1つのプロセッサは前記メモリに記憶された前記コンピュータ実行指令を実行し、前記少なくとも1つのプロセッサに上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法を実行させる。
【0137】
第4態様において、本開示の1つまたは複数の実施例によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体はコンピュータ実行指令を記憶し、プロセッサが前記コンピュータ実行指令を実行すると、上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0138】
第5態様において、本開示の実施例はコンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0139】
第6態様において、本開示の実施例はコンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されると上記第1態様および第1態様の様々な可能な設計に記載のマルチメディア処理方法が実行される。
【0140】
以上の説明は、本開示の好ましい実施例、および採用される技術的原理の説明例示である。当業者にとって、本開示に関わる開示範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決策に限定されるものではなく、上記開示範囲から逸脱することなく、上記技術的特徴またはその等価特徴の任意の組み合わせによって形成される他の技術的解決策もカバーすべきであることを理解されたい。例えば、上記した特徴を、本開示に開示される同様機能を有する技術的特徴と置換するによって形成される技術的解決策(これらに限定されない)もカバーする。
【0141】
さらに、各動作は特定の順序を用いて描かれているが、これは、動作が示された特定の順序または順次実行されることを要求するものとして解釈されるべきではない。特定の環境において、マルチタスクおよび並行処理は有利であり得る。同様に、いくつかの具体的な実装の詳細が上記の議論に含まれているが、これらは、本開示の範囲を限定するものとして解釈されるべきではない。単一実施例の文脈で説明した特定の特徴は、単一の実施例において組み合わせて実装することもできる。逆に、単一の実施例の文脈で説明した様々な特徴も、個別に、または任意の適切なサブコンビネーションで、複数の実施例で実施することができる。
【0142】
本主題は、構造的特徴および/または方法論理作用に特有の言語を用いて説明されてきたが、添付の特許請求の範囲に定義される主題は、必ずしも上述の特定の特徴または作用に限定されないことを理解されたい。むしろ、上述した特定の特徴および動作は、特許請求の範囲を実施する例示的な形態に過ぎない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【国際調査報告】