(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-28
(54)【発明の名称】音声ビデオ処理方法、装置、機器及び記憶媒体
(51)【国際特許分類】
G06F 16/71 20190101AFI20240621BHJP
H04N 21/233 20110101ALI20240621BHJP
G10L 21/0364 20130101ALI20240621BHJP
【FI】
G06F16/71
H04N21/233
G10L21/0364
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023578889
(86)(22)【出願日】2022-09-02
(85)【翻訳文提出日】2023-12-21
(86)【国際出願番号】 CN2022116650
(87)【国際公開番号】W WO2023045730
(87)【国際公開日】2023-03-30
(31)【優先権主張番号】202111109213.4
(32)【優先日】2021-09-22
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521431088
【氏名又は名称】北京字跳▲網▼絡技▲術▼有限公司
【氏名又は名称原語表記】Beijing Zitiao Network Technology Co., Ltd.
【住所又は居所原語表記】0207, 2/F, Building 4, Zijin Digital Park, Haidian District, Beijing,P. R. China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジョン,ウェイミン
(72)【発明者】
【氏名】リ,チョン
(72)【発明者】
【氏名】フゥ,シュエルン
(72)【発明者】
【氏名】ホアン,イシウ
(72)【発明者】
【氏名】シア,ロイ
(72)【発明者】
【氏名】ジョン,シン
(72)【発明者】
【氏名】バオ,リン
(72)【発明者】
【氏名】ワン,ウェイス
(72)【発明者】
【氏名】ディン,チェン
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA04
5B175FB02
5B175KA07
5C164MA07S
5C164MC06S
5C164PA41
5C164SB04P
(57)【要約】
音声ビデオ処理方法、装置、機器及び記憶媒体を提供し、ここで、方法は、編集待ちの音声ビデオに対応するテキストデータを提示することであって、テキストデータは、編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係があることと、時間軸軌道に応じて編集待ちの音声ビデオを提示することと、テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定することと、予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することとを含む。
【特許請求の範囲】
【請求項1】
音声ビデオ処理方法であって、
編集待ちの音声ビデオに対応するテキストデータを提示することであって、前記テキストデータは、前記編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係があることと、
時間軸軌道に応じて前記編集待ちの音声ビデオを提示することと、
前記テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、前記ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定することと、
前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することと
を含む、方法。
【請求項2】
前記方法は、
予め設定されるキーワード又は予め設定されるサイレントクリップに対する第一の編集入り口を提示することと、
前記第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、前記テキストデータにおける前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを表示することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記第一の編集入り口は、ワンクリック削除コントロールが設定されている第一の編集カードに対応し、前述した、前記第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、前記テキストデータにおける前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを表示した後に、
前記ワンクリック削除コントロールに対するトリガー操作に応答して、前記テキストデータから前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを削除することをさらに含む、請求項2に記載の方法。
【請求項4】
前記方法は、
第二の編集カードにおいて音声補強コントロールを提示することと、
前記音声補強コントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける人の声に対して補強処理を行うことと
をさらに含む、請求項1に記載の方法。
【請求項5】
前記方法は、
前記編集待ちの音声ビデオの音楽ジャンル及び/又は前記編集待ちの音声ビデオに対応するテキストデータにおける内容に基づき、前記編集待ちの音声ビデオに対応する背景音楽を決定することと、
前記背景音楽を前記編集待ちの音声ビデオクリップに追加することと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記方法は、
第三の編集カードにおいてラウドネスバランスコントロールを提示することと、
前記ラウドネスバランスコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける音量のラウドネスに対して正規化処理を行うことと
をさらに含む、請求項1に記載の方法。
【請求項7】
前記方法は、
第四の編集カードにおいてインテリジェントティーザーコントロールを提示することと、
前記インテリジェントティーザーコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける前の予め設定される時間帯内の音声ビデオクリップにおける音楽の音量と人の声の音量を調節して、音量調節後の音声ビデオクリップを得ることであって、前記音量調節後の音声ビデオクリップにおける音楽の音量は、人の声の音量に反比例することと
をさらに含む、請求項1に記載の方法。
【請求項8】
前記予め設定される操作は、選択操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
予め設定される第一の表示態様に従い、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを表示することを含む、
請求項1に記載の方法。
【請求項9】
前記予め設定される操作は、削除操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
前記削除操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除することを含む、請求項1に記載の方法。
【請求項10】
前記予め設定される操作は、修正操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
前記修正操作に対応する修正後のテキストデータを取得することと、
前記修正後のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づいて音声ビデオクリップを生成して修正待ちの音声ビデオクリップとすることと、
前記修正待ちの音声ビデオクリップを利用して、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップに対して置き換え処理を行うことと
を含む、請求項1に記載の方法。
【請求項11】
前記方法は、
前記テキストデータにおける第一のテキストデータに対する追加操作を受信した場合、前記第一のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づき、第一の音声ビデオクリップを生成することと、
前記第一のテキストデータの前記テキストデータにおける位置情報に基づき、前記第一のテキストデータに対応する第一の音声ビデオタイムスタンプを決定することと、
前記第一の音声ビデオタイムスタンプに基づき、前記第一の音声ビデオクリップを前記編集待ちの音声ビデオに追加することと
をさらに含む、請求項1に記載の方法。
【請求項12】
音声ビデオ処理装置であって、
編集待ちの音声ビデオに対応するテキストデータを提示するための第一の提示モジュールであって、前記テキストデータは、前記編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係がある第一の提示モジュールと、
時間軸軌道に応じて前記編集待ちの音声ビデオを提示するための第二の提示モジュールと、
前記テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、前記ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定するための決定モジュールと、
前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理するための編集モジュールと
を含む、音声ビデオ処理装置。
【請求項13】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体には命令が記憶されており、前記命令が端末機器で運行される時、前記端末機器に請求項1から11のいずれか1項に記載の方法を実現させる、コンピュータ読み取り可能な記憶媒体。
【請求項14】
機器であって、メモリと、プロセッサと、前記メモリに記憶され、且つ前記プロセッサ上で運行できるコンピュータプログラムとを含み、前記プロセッサが前記コンピュータプログラムを実行する場合、請求項1から11のいずれか1項に記載の方法を実現する、機器。
【請求項15】
コンピュータプログラムであって、コンピュータプログラム/命令を含み、前記コンピュータプログラム/命令がプロセッサにより実行される時、請求項1から11のいずれか1項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本開示は、2021年9月22日に提出され、出願名称が「音声ビデオ処理方法、装置、機器及び記憶媒体」であり、中国特許出願番号が「202111109213.4」の優先権を主張しており、この中国特許出願のすべての内容は、援用により本開示に組み込まれる。
【0002】
本開示は、データ処理分野に関し、特に音声ビデオ処理方法、装置、機器及び記憶媒体に関する。
【背景技術】
【0003】
インターネット情報の日々の豊富化に伴い、音声ビデオを見ることは、人々の日常生活における娯楽活動となっている。ユーザの視聴体験を向上させるために、各種音声ビデオを投稿する前に、音声ビデオをクリッピングすることは、重要な一環である。
【0004】
現在、音声ビデオのクリッピング中、無効な用語クリッピングなどのいくつかの細かい変更について、一般的には、ユーザは音声ビデオを繰り返して聞くとともに、時間開始点と終了点を微調節して、音声ビデオをクリッピングし、操作が煩雑であり、音声ビデオのクリッピングの正確性を向上させる必要がある。
【発明の概要】
【0005】
上記技術問題を解決し、又は少なくとも部分的に上記技術問題を解決するために、本開示の実施例は、音声ビデオのクリッピングの精確性を向上させ、ユーザ操作を簡略化することができる音声ビデオ処理方法を提供する。
【0006】
第一の局面によれば、本開示は、音声ビデオ処理方法を提供し、前記方法は、
編集待ちの音声ビデオに対応するテキストデータを提示することであって、前記テキストデータは、前記編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係があることと、
時間軸軌道に応じて前記編集待ちの音声ビデオを提示することと、
前記テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、前記ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定することと、
前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することと
を含む。
【0007】
一つの選択可能な実施の形態では、前記方法は、
予め設定されるキーワード又は予め設定されるサイレントクリップに対する第一の編集入り口を提示することと、
前記第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、前記テキストデータにおける前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを表示することと
をさらに含む。
【0008】
一つの選択可能な実施の形態では、前記第一の編集入り口は、ワンクリック削除コントロールが設定されている第一の編集カードに対応し、前述した、前記第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、前記テキストデータにおける前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを表示した後に、
前記ワンクリック削除コントロールに対するトリガー操作に応答して、前記テキストデータから前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを削除することをさらに含む。
【0009】
一つの選択可能な実施の形態では、前記方法は、
第二の編集カードに音声補強コントロールを提示することと、
前記音声補強コントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける人の声に対して補強処理を行うこととをさらに含む。
【0010】
一つの選択可能な実施の形態では、前記方法は、
前記編集待ちの音声ビデオの音楽ジャンル及び/又は前記編集待ちの音声ビデオに対応するテキストデータにおける内容に基づき、前記編集待ちの音声ビデオに対応する背景音楽を決定することと、
前記背景音楽を前記編集待ちの音声ビデオクリップに追加することと
をさらに含む。
【0011】
一つの選択可能な実施の形態では、前記方法は、
第三の編集カードにラウドネスバランスコントロールを提示することと、
前記ラウドネスバランスコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける音量のラウドネスに対して正規化処理を行うことと
をさらに含む。
【0012】
一つの選択可能な実施の形態では、前記方法は、
第四の編集カードにおいてインテリジェントティーザーコントロールを提示することと、
前記インテリジェントティーザーコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける前の予め設定される時間帯内の音声ビデオクリップにおける音楽の音量と人の声の音量を調節して、音量調節後の音声ビデオクリップを得ることであって、前記音量調節後の音声ビデオクリップにおける音楽の音量は、人の声の音量に反比例することと
をさらに含む。
【0013】
一つの選択可能な実施の形態では、前記予め設定される操作は、選択操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
予め設定される第一の表示態様に従い、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを表示することを含む。
【0014】
一つの選択可能な実施の形態では、前記予め設定される操作は、削除操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
前記削除操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除することを含む。
【0015】
一つの選択可能な実施の形態では、前記予め設定される操作は、修正操作を含み、前述した、前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、
前記修正操作に対応する修正後のテキストデータを取得することと、
前記修正後のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づいて音声ビデオクリップを生成して、修正待ちの音声ビデオクリップとすることと、
前記修正待ちの音声ビデオクリップを利用して、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップに対して置き換え処理を行うことと
を含む。
【0016】
一つの選択可能な実施の形態では、前記方法は、
前記テキストデータにおける第一のテキストデータに対する追加操作を受信した場合、前記第一のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づき、第一の音声ビデオクリップを生成することと、
前記第一のテキストデータの前記テキストデータにおける位置情報に基づき、前記第一のテキストデータに対応する第一の音声ビデオタイムスタンプを決定することと、
前記第一の音声ビデオタイムスタンプに基づき、前記第一の音声ビデオクリップを前記編集待ちの音声ビデオに追加することと
をさらに含む。
【0017】
第二の局面によれば、本開示は、音声ビデオ処理装置をさらに提供し、前記装置は、
編集待ちの音声ビデオに対応するテキストデータを提示するための第一の提示モジュールであって、前記テキストデータは、前記編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係がある第一の提示モジュールと、
時間軸軌道に応じて前記編集待ちの音声ビデオを提示するための第二の提示モジュールと、
前記テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、前記ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定するための決定モジュールと、
前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理するための編集モジュールと
を含む。
【0018】
第三の局面によれば、本開示は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には命令が記憶されており、前記命令が端末機器で運行される時、前記端末機器に上記の方法を実現させる。
【0019】
第四の局面によれば、本開示は、機器を提供し、この機器は、メモリと、プロセッサと、前記メモリに記憶され、且つ前記プロセッサ上で運行できるコンピュータプログラムとを含み、前記プロセッサが前記コンピュータプログラムを実行する場合、上記の方法を実現する。
【0020】
第五の局面によれば、本開示は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、コンピュータプログラム/命令を含み、前記コンピュータプログラム/命令がプロセッサにより実行される時、上記の方法を実現する。
【0021】
本開示の実施例による技術案は、関連技術と比べて以下のような利点がある。
【0022】
本開示の実施例は、音声ビデオ処理方法を提供し、編集待ちの音声ビデオに対応するテキストデータを提示することによって、テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定し、及び予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理する。これから分かるように、本開示の実施例による音声ビデオ処理方法は、音声ビデオのクリッピングの精確性を向上させ、ユーザ操作を簡略化し、ユーザの操作しきい値を低減することができる。
【図面の簡単な説明】
【0023】
ここの図面は、明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施例を示し、明細書と共に本開示の原理を解釈するために用いられる。
【0024】
本開示の実施例又は関連技術における技術案をより明瞭に説明するために、以下は、実施例又は従来技術の記述において使用される必要のある図面を簡単に紹介し、自明なことに、当業者にとって、創造的な労力を払わない前提で、これらの図面に基づいて他の図面を得ることもできる。
【
図1】本開示の実施例による音声ビデオ処理方法のフローチャートである。
【
図2】本開示の実施例による音声ビデオ処理インタフェースの概略図である。
【
図3】本開示の実施例による別の音声ビデオ処理インタフェースの概略図である。
【
図4】本開示の実施例による別の音声ビデオ処理方法のフローチャートである。
【
図5】本開示の実施例による別の音声ビデオ処理インタフェースの概略図である。
【
図6】本開示の実施例による別の音声ビデオ処理インタフェースの概略図である。
【
図7】本開示の実施例による音声ビデオ処理装置の構造概略図である。
【
図8】本開示の実施例による音声ビデオ処理機器の構造概略図である。
【発明を実施するための形態】
【0025】
本開示の上記目的、特徴と利点をより明瞭に理解するために、以下、本開示の方案をさらに記述する。説明すべきものは、衝突しない限り、本開示の実施例及び実施例における特徴は、互いに組み合わせられる可能である。
【0026】
以下の記述において、本開示を十分に理解することを容易にするように、多くの具体的な詳細が述べられているが、本開示は、ここで記述される方式と異なる他の方式を採用して実施してもよく、明らかに、明細書における実施例は、本開示の一部の実施例に過ぎず、すべての実施例ではない。
【0027】
本開示の実施例は、音声ビデオ処理方法を提供し、
図1を参照すると、本開示の実施例による音声ビデオ処理方法のフローチャートであり、この方法は、以下のステップを含む。
【0028】
S101:編集待ちの音声ビデオに対応するテキストデータを提示する。
【0029】
ここで、テキストデータは、編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係があり、音声ビデオタイムスタンプは、各フレームの音声ビデオの再生時間を指示するために用いられる。
【0030】
本開示の実施例では、編集待ちの音声ビデオは、録画した音声ビデオや、スクリプトに基づいて得られた音声ビデオなどを含むが、これらに限らない。テキストデータは、編集待ちの音声ビデオに対して音声認識を行って得られたものであってもよく、スクリプトであってもよく、ここで、テキストデータがスクリプトである場合、テキストデータと編集待ちの音声ビデオとをマッチングして前記テキストデータと編集待ちの音声ビデオの音声ビデオタイムスタンプのマッピング関係を得てもよく、音声認識方法は、ASR(Automatic Speech Recognition、自動音声認識)技術を含むが、これらに限らない。
【0031】
本実施例では、インタフェースにテキストデータを提示してもよく、一例として、インタフェース例は、
図2に示すように、
図2において、領域Pは、提示されたテキストデータを示した。編集待ちの音声ビデオが異なるユーザの音声を含む場合、異なるユーザのテキストデータ、例えば、
図2において提示されるユーザaとユーザbのテキストデータを決定することができる。
【0032】
S102:時間軸軌道に応じて編集待ちの音声ビデオを提示する。
【0033】
本実施例では、インタフェースに時間軸軌道に応じて編集待ちの音声ビデオを提示することができ、一例として、
図2における領域Qは、提示される編集待ちの音声ビデオを示した。
【0034】
説明すべきものは、ステップ102の実行順序に対して具体的に限定しない。
【0035】
S103:テキストデータにおけるターゲットテキストデータに対してトリガーした予め設定される操作に応答して、ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定する。
【0036】
本実施例では、予め設定される操作は、選択操作と、削除操作と、修正操作とを含むが、これらに限らない。テキストデータと編集待ちの音声ビデオの音声ビデオタイムスタンプとはマッピング関係があるため、テキストデータにおけるターゲットテキストデータに対して、マッピング関係に基づいてターゲットテキストデータに対応するターゲット音声ビデオタイムスタンプを決定することができる。
【0037】
S104:予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理する。
【0038】
本開示の実施例では、音声ビデオタイムスタンプに基づいて編集待ちの音声ビデオにおける対応する音声ビデオクリップを決定することができ、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することによって、テキストに基づく音声ビデオのクリッピングを実現し、テキストに対するクリッピングを通じて、対応する音声ビデオクリップを連動してクリッピングすることによって、音声ビデオに対する精確性の比較的に高いクリッピングを実現することができる。
【0039】
一つの選択可能な実施の形態では、予め設定される操作が選択操作を含む場合、予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、予め設定される第一の表示態様に従い、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを表示することを含む。
【0040】
一例として、第一の表示態様は、例えばハイライト表示であり、
図3は、別のインタフェースの概略図を示しており、
図3を参照すると、選択操作に基づき、ターゲットテキストデータをハイライト表示し、及び時間軸軌道に基づいてターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップをハイライト表示することができ、ハイライト表示の部分は、
図3に示すように点線部分である。
【0041】
一つの選択可能な実施の形態では、予め設定される操作が削除操作を含む場合、予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、削除操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除することを含む。
【0042】
ここで、削除操作に基づき、ターゲットテキストデータを削除し、及びターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除することができる。例えば、
図3に示すように、ターゲットテキストデータが選択された後に、削除コントロールを提示することができ、削除コントロールに対するトリガー操作に応答して、ターゲットテキストデータ及びターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除する。
【0043】
一つの選択可能な実施の形態では、予め設定される操作が修正操作を含む場合、予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理することは、修正操作に対応する修正後のテキストデータを取得することと、修正後のテキストデータと編集待ちの音声ビデオにおける音色情報に基づいて音声ビデオクリップを生成して、修正待ちの音声ビデオクリップとすることと、修正待ちの音声ビデオクリップを利用して、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップに対して置き換え処理を行うこととを含む。
【0044】
ここで、修正操作に基づき、ターゲットテキストデータを修正することができ、例えば
図3に示すように、ターゲットテキストデータが選択された後に、修正コントロールを提示することができ、修正コントロールに対するトリガー操作に応答して、受信された修正内容に基づいて修正後のテキストデータを生成する。及び修正後のテキストデータと音色情報に基づいて修正待ちの音声ビデオクリップを生成し、修正待ちの音声ビデオクリップに基づいてターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを置き換えて、編集待ちの音声ビデオに対する修正を実現する。
【0045】
本開示の実施例による音声ビデオ処理方法では、編集待ちの音声ビデオに対応するテキストデータを提示することによって、テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定し、及び、予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理する。これから分かるように、本開示の実施例による音声ビデオ処理方法は、テキストに基づいて音声ビデオをクリッピングすることができ、テキストと音声ビデオタイムスタンプとはマッピング関係があるため、テキストに対するクリッピングを通じて、対応する音声ビデオクリップを連動してクリッピングすることによって、音声ビデオに対する精確性の比較的に高いクリッピングを実現することができるとともに、音声ビデオタイムスタンプとマッピング関係を有するテキストデータを提示することによって、音声ビデオ内容を直観的に提示することができ、関連技術においてユーザが音声ビデオ内容をクリッピングする方案に比べて、ユーザ操作を簡略化しており、ユーザの操作しきい値を低減した。
【0046】
上記実施例に基づき、音声ビデオ処理シーンにおいて、聴感体験を向上させるために、無効な語調語のクリッピング、背景音楽、ティーザー(teaser)製作などの様々な機能に対する需要がある。本開示の実施例の方法によれば、上記機能を簡単に実現し、ユーザの使用しきい値を低減することができ、以下のように説明する。
【0047】
一つの選択可能な実施の形態では、会話には、一般的には「ええと」「ええ」「あのう」などの無効な語調語及びサイレントクリップが現れるため、会話の一貫性を保証するために、編集待ちの音声ビデオを編集して、前記無効な語調語及びサイレントクリップを削除する需要が存在する。
【0048】
そのため、
図4に示すように、本開示の実施例の音声ビデオ処理方法は、以下のステップをさらに含む。
【0049】
ステップ401、予め設定されるキーワード又は予め設定されるサイレントクリップに対する第一の編集入り口を提示する。
【0050】
本実施例では、提示される編集待ちの音声ビデオに対応するテキストデータを検出し、テキストデータにおける予め設定されるキーワード又は予め設定されるサイレントクリップを決定し、テキストデータに予め設定されるキーワード又は予め設定されるサイレントクリップが存在する場合、第一の編集入り口を提示することができる。一例として、
図3における領域Aに示すコントロールは、「修正提案01:無効な語調語を取り除く」情報が提示される第一の編集入り口である。
【0051】
ここで、予め設定されるキーワードは、無効な語調語などの用語を含んでもよく、テキストデータにおける予め設定されるキーワードを決定する実現方式は、様々あり、例えば、マッチングの方式によってテキストデータにおける予め設定されるキーワードを決定することができ、また例えば、自然言語処理技術に基づき、テキストデータにおける予め設定されるキーワードを決定することができる。
【0052】
ここで、予め設定されるサイレントクリップは、二つの隣接する文字に対応する音声ビデオタイムスタンプ間の間隔に基づいて決定され、例えば、この間隔が予め設定される閾値よりも大きい場合、二つの隣接する文字間に予め設定されるサイレントクリップが存在すると決定する。サイレントクリップは、インタフェースにスペースの形式で提示されてもよく、選択的に、間隔の値に基づき、サイレントクリップの提示長さを決定してもよい。
【0053】
ステップ402、第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、テキストデータにおける予め設定されるキーワード又は予め設定されるサイレントクリップを表示する。
【0054】
ここで、第一の編集入り口に対するトリガー操作は、クリック操作と、音声命令と、タッチ軌跡とを含むが、これらに限らない。第二の表示態様は、ハイライト表示であってもよく、他の形式の表示態様であってもよく、ここで、具体的に限定されない。
【0055】
図5は、インタフェースの概略図を示しており、
図5における予め設定されるキーワードである「ええ」「ええと」「あのう」は、インタフェースにおいてハイライト表示され、点線部分の通りである。
【0056】
ステップ403、ワンクリック削除コントロールに対するトリガー操作に応答して、テキストデータから予め設定されるキーワード又は予め設定されるサイレントクリップを削除する。
【0057】
本開示の実施例では、第一の編集入り口は、ワンクリック削除コントロールが設定されている第一の編集カードに対応する。第一の編集入り口に対するトリガー操作に応答して、第一の編集カードを提示し、第一の編集カードの提示方式は、プルダウンメニュー、フローティングウィンドウなどを含むが、これらに限らない。
【0058】
例をあげると、
図5を参照すると、第一の編集カードは、
図5における領域Bに示すように、予め設定されるキーワードごとに出現回数を統計し、第一の編集カードにおいて予め設定されるキーワード及び対応する出現回数を提示することができる。
【0059】
選択的に、予め設定されるキーワードにおけるターゲットキーワードに対するトリガー操作に応答して、ターゲットキーワードを予め設定されるキーワードから取り除き、第一の編集カードに提示される予め設定されるキーワードの出現回数を同期して修正することで、ユーザは、クリックなどの操作によって、無効な語調語に属しないキーワードを取り除いて、それがワンクリックで削除されることを回避することができる。
【0060】
本実施例では、予め設定されるキーワード又は予め設定されるサイレントクリップの削除操作を編集カードの形式で呈することができ、ワンクリック操作を提供し、編集時間長を節約し、ユーザ操作を簡略化し、ユーザの使用しきい値を低減する。
【0061】
一つの選択可能な実施の形態では、音声ビデオ処理方法は、第二の編集カードに音声補強コントロールを提示し、音声補強コントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける人の声を補強処理することをさらに含む。
【0062】
本実施例では、編集待ちの音声ビデオに対する第二の編集入り口を提示し、第二の編集入り口は、音声補強コントロールが設定される第二の編集カードに対応する。例えば、編集待ちの音声ビデオに基づいて雑音検出を行い、雑音を検出した場合、第二の編集入り口を提示することができ、一例として、
図2における領域Cに示すコントロールは、「強化提案:音声補強」の情報が提示されている第二の編集入り口である。さらに、第二の編集入り口に対するトリガー操作に応答して、第二の編集カードを提示する。
【0063】
図6を参照すると、第二の編集カードは、
図6における領域Dに示すように、第二の編集カードには、音声補強コントロール「補強音声」が提示されており、この音声補強コントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける人の声を補強処理し、トリガー操作は、クリック操作と、音声命令と、タッチ軌跡とを含むが、これらに限らない。
【0064】
本実施例では、音声補強操作を編集カードの形式で呈することができ、ワンクリック操作を提供し、ユーザの人の声を補強して聴感体験を満たし、ユーザ操作を簡略化し、ユーザの使用しきい値を低減することができる。
【0065】
一つの選択可能な実施の形態では、音声ビデオ処理方法は、編集待ちの音声ビデオの音楽ジャンル及び/又は編集待ちの音声ビデオに対応するテキストデータにおける内容に基づき、編集待ちの音声ビデオに対応する背景音楽を決定し、背景音楽を編集待ちの音声ビデオクリップに追加することをさらに含む。
【0066】
本実施例では、複数のタグを予め設定することができ、各タグは、一つ又は複数の背景音楽との間にマッピング関係が存在し、編集待ちの音声ビデオの音楽ジャンル及び/又は編集待ちの音声ビデオに対応するテキストデータにおける内容に基づき、音楽ジャンル及び/又はテキストデータにおける内容に対応するタグを決定し、タグと背景音楽との間のマッピング関係に基づき、編集待ちの音声ビデオに対応する背景音楽を決定する。
【0067】
一例として、編集待ちの音声ビデオに対応するテキストデータにおける内容に対し、自然言語処理技術に基づいて内容のテーマを「運動」と決定し、さらに「運動」タグに対応する背景音楽を、編集待ちの音声ビデオに対応する背景音楽として決定し、この背景音楽を編集待ちの音声ビデオクリップに追加する。
【0068】
別の例として、編集待ちの音声ビデオの音楽ジャンルに基づき、対応するタグを決定し、このタグに対応する背景音楽を編集待ちの音声ビデオに対応する背景音楽とし、この背景音楽を編集待ちの音声ビデオクリップに追加する。
【0069】
本実施例では、テキストデータの内容、ジャンルに基づいて背景音楽をインテリジェントに推薦して、背景音楽を追加するシーン需要を満たし、聴感の多様性を豊かにし、聴感体験を向上させ、ユーザ操作を簡略化し、ユーザの使用しきい値を低減することができる。
【0070】
一つの選択可能な実施の形態では、音声ビデオ処理方法は、第三の編集カードにおいてラウドネスバランスコントロールを提示することと、ラウドネスバランスコントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける音量のラウドネスに対して正規化処理を行うこととをさらに含む。
【0071】
本実施例では、編集待ちの音声ビデオに対する第三の編集入り口を提示し、第三の編集入り口は、ラウドネスバランスコントロールが設定されている第三の編集カードに対応する。例えば、編集待ちの音声ビデオに基づいて音量のラウドネス検出を行い、編集待ちの音声ビデオが予め設定されるラウドネスバランス条件を満たさないことを検出した場合、第三の編集入り口を提示することができる。さらに、第三の編集入り口に対するトリガー操作に応答して、第三の編集カードを提示し、ラウドネスバランスコントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける音量のラウドネスに対して正規化処理を行い、例えば、編集待ちの音声ビデオにおける音量のラウドネスが予め設定される範囲内にあるようにする。
【0072】
本実施例では、ラウドネスバランス操作を編集カードの形式で呈することができ、ワンクリック操作を提供し、聴感体験を向上させ、ユーザ操作を簡略化し、ユーザの使用しきい値を低減することができる。
【0073】
一つの選択可能な実施の形態では、音声ビデオ処理方法は、第四の編集カードにおいてインテリジェントティーザーコントロールを提示することと、インテリジェントティーザーコントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける前の予め設定される時間帯内の音声ビデオクリップにおける音楽の音量と人の声の音量を調節し、音量調節後の音声ビデオクリップを得ることとをさらに含む。
【0074】
本実施例では、編集待ちの音声ビデオに対する第四の編集入り口を提示し、第四の編集入り口は、インテリジェントティーザーコントロールが設定されている第四の編集カードに対応する。第四の編集入り口に対するトリガー操作に応答して、第四の編集カードを提示し、インテリジェントティーザーコントロールに対するトリガー操作に応答して、編集待ちの音声ビデオにおける前の予め設定される時間帯内の音声ビデオクリップにおける音楽の音量と人の声の音量を調節し、例えば、人の声の音量を第一の音量値だけ大きくし、音楽の音量を第二の音量値だけ小さくし、又は人の声を検出した音声ビデオクリップにおいて、音楽の音量を第三の音量値だけ小さくして、音量調節後の音声ビデオクリップを得る。
【0075】
ここで、音量調節後の音声ビデオクリップにおける音楽の音量は、人の声の音量に反比例する。
【0076】
選択的に、第四の編集カードにおいて提示されるインテリジェントティーザーコントロールに基づき、オープニング生成をさらに実現してもよく、例えば、インテリジェントティーザーコントロールに対するトリガー操作に応答して、現在選択された第二のテキストデータと第二のテキストデータに対応する第二の音声ビデオクリップを決定し、第二のテキストデータと第二の音声ビデオクリップを予め設定されるオープニング領域にコピーして貼り付け、ティーザーの効果を実現する。
【0077】
本実施例では、インテリジェントティーザー機能を編集カードの形式で呈し、ワンクリック操作を提供し、ティーザーの効果を実現し、ユーザ操作を簡略化し、ユーザの使用しきい値を低減することができる。
【0078】
一つの選択可能な実施の形態では、音声ビデオ処理方法は、テキストデータにおいて第一のテキストデータに対する追加操作を受信した場合、第一のテキストデータと編集待ちの音声ビデオにおける音色情報に基づき、第一の音声ビデオクリップを生成することと、第一のテキストデータのテキストデータにおける位置情報に基づき、第一のテキストデータに対応する第一の音声ビデオタイムスタンプを決定することと、第一の音声ビデオタイムスタンプに基づき、第一の音声ビデオクリップを編集待ちの音声ビデオに追加することとをさらに含む。
【0079】
本実施例では、第一のテキストデータは、入力操作に応答して得られたものであってもよく、既存のテキストデータに基づいてコピーして得られたものであってもよい。編集待ちの音声ビデオに基づいて各ユーザの音色情報を取得することができ、第一のテキストデータを追加する場合、第一のテキストデータのテキストデータにおける位置情報に基づいて対応する第一の音声ビデオタイムスタンプを決定し、第一の音声ビデオタイムスタンプの位置に第一の音声ビデオクリップを追加する。
【0080】
説明すべきものは、前記編集入り口は、検出結果に基づいて自動的に提示されてもよく、トリガー操作に応答してインタフェースに提示されてもよい。
【0081】
本実施例では、音色クローンと音声アナウンス技術を採用し、追加されたテキストに基づき音色をクローンし、音声ビデオクリップをインテリジェントに生成し、テキスト入力に基づいて音声ビデオクリップを追加することを実現し、再録画による時間コストと編集コストを低減し、ユーザ操作を簡略化する。
【0082】
上記方法の実施例に基づき、本開示は、音声ビデオ処理装置をさらに提供し、
図7を参照すると、本開示の実施例による音声ビデオ処理装置の構造概略図であり、前記装置は、
編集待ちの音声ビデオに対応するテキストデータを提示するための第一の提示モジュール701であって、前記テキストデータは、前記編集待ちの音声ビデオの音声ビデオタイムスタンプとマッピング関係がある第一の提示モジュール701と、
時間軸軌道に応じて前記編集待ちの音声ビデオを提示するための第二の提示モジュール702と、
前記テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、前記ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定するための決定モジュール703と、
前記予め設定される操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理するための編集モジュール704と、
を含む。
【0083】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
予め設定されるキーワード又は予め設定されるサイレントクリップに対する第一の編集入り口を提示し、前記第一の編集入り口に対するトリガー操作に応答して、予め設定される第二の表示態様に従い、前記テキストデータにおける前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを表示するための第一の処理モジュールをさらに含む。
【0084】
一つの選択可能な実施の形態では、第一の編集入り口は、ワンクリック削除コントロールが設定されている第一の編集カードに対応し、第一の編集モジュールは、前記ワンクリック削除コントロールに対するトリガー操作に応答して、前記テキストデータから前記予め設定されるキーワード又は前記予め設定されるサイレントクリップを削除するためにさらに用いられる。
【0085】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
第二の編集カードにおいて音声補強コントロールを提示し、前記音声補強コントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける人の声に対して補強処理を行うための第二の処理モジュールをさらに含む。
【0086】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
前記編集待ちの音声ビデオの音楽ジャンル及び/又は前記編集待ちの音声ビデオに対応するテキストデータにおける内容に基づき、前記編集待ちの音声ビデオに対応する背景音楽を決定し、前記背景音楽を前記編集待ちの音声ビデオクリップに追加するための第一の追加モジュールをさらに含む。
【0087】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
第三の編集カードにおいてラウドネスバランスコントロールを提示し、前記ラウドネスバランスコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける音量のラウドネスに対して正規化処理を行うための第三の処理モジュールをさらに含む。
【0088】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
第四の編集カードにおいてインテリジェントティーザーコントロールを提示し、前記インテリジェントティーザーコントロールに対するトリガー操作に応答して、前記編集待ちの音声ビデオにおける前の予め設定される時間帯内の音声ビデオクリップにおける音楽の音量と人の声の音量を調節して、音量調節後の音声ビデオクリップを得るための第四の処理モジュールであって、前記音量調節後の音声ビデオクリップにおける音楽の音量は、人の声の音量に反比例する第四の処理モジュールをさらに含む。
【0089】
一つの選択可能な実施の形態では、予め設定される操作は、選択操作を含み、編集モジュール704は、具体的には、予め設定される第一の表示態様に従い、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを表示するために用いられる。
【0090】
一つの選択可能な実施の形態では、予め設定される操作は、削除操作を含み、編集モジュール704は、具体的には、前記削除操作に基づき、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを削除するために用いられる。
【0091】
一つの選択可能な実施の形態では、予め設定される操作は、修正操作を含み、編集モジュール704は、具体的には、前記修正操作に対応する修正後のテキストデータを取得し、前記修正後のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づいて音声ビデオクリップを生成して修正待ちの音声ビデオクリップとし、前記修正待ちの音声ビデオクリップを利用して、前記編集待ちの音声ビデオにおける前記ターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップに対して置き換え処理を行うために用いられる。
【0092】
一つの選択可能な実施の形態では、音声ビデオ処理装置は、
前記テキストデータにおける第一のテキストデータに対する追加操作を受信した場合、前記第一のテキストデータと前記編集待ちの音声ビデオにおける音色情報に基づき、第一の音声ビデオクリップを生成し、前記第一のテキストデータの前記テキストデータにおける位置情報に基づき、前記第一のテキストデータに対応する第一の音声ビデオタイムスタンプを決定し、前記第一の音声ビデオタイムスタンプに基づき、前記第一の音声ビデオクリップを前記編集待ちの音声ビデオに追加するための第二の追加モジュールをさらに含む。
【0093】
前記実施例における音声ビデオ処理方法に対する解釈説明は、同様に本実施例の音声ビデオ処理装置に適用され、ここでこれ以上説明しない。
【0094】
本開示の実施例による音声ビデオ処理装置では、編集待ちの音声ビデオに対応するテキストデータを提示することによって、テキストデータにおけるターゲットテキストデータに対してトリガーする予め設定される操作に応答して、ターゲットテキストデータに対応する音声ビデオタイムスタンプをターゲット音声ビデオタイムスタンプとして決定し、及び予め設定される操作に基づき、編集待ちの音声ビデオにおけるターゲット音声ビデオタイムスタンプに対応する音声ビデオクリップを処理する。これから分かるように、本開示の実施例による音声ビデオ処理方法は、テキストに基づいて音声ビデオをクリッピングすることができ、テキストと音声ビデオタイムスタンプとはマッピング関係があるため、テキストに対するクリッピングを通じて、対応する音声ビデオクリップを連動してクリッピングすることによって、音声ビデオに対する精確性の比較的に高いクリッピングを実現することができるとともに、音声ビデオタイムスタンプとマッピング関係を有するテキストデータを提示することによって、音声ビデオ内容を直観的に提示することができ、関連技術におけるユーザが音声ビデオ内容をクリッピングする方案と比べて、ユーザ操作を簡略化しており、ユーザの操作しきい値を低減した。
【0095】
上記方法と装置のほか、本開示の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ読み取り可能な記憶媒体には命令が記憶されており、前記命令が端末機器で運行される時、前記端末機器に本開示の実施例に記載の音声ビデオ処理方法を実現させる。
【0096】
本開示の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は、コンピュータプログラム/命令を含み、前記コンピュータプログラム/命令がプロセッサにより実行される時、本開示の実施例に記載の音声ビデオ処理方法を実現する。
【0097】
また、本開示の実施例は、音声ビデオ処理機器をさらに提供し、
図8を参照すると、
プロセッサ801と、メモリ802と、入力装置803と、出力装置804とを含んでもよい。音声ビデオ処理機器におけるプロセッサ801の数は、一つ又は複数であってもよく、
図8において一つのプロセッサを例にする。本開示のいくつかの実施例において、プロセッサ801、メモリ802、入力装置803と出力装置804は、バス又は他の方式で接続されてもよく、ここで、
図8において、バスによって接続されることを例にする。
【0098】
メモリ802は、ソフトウェアプログラム及びモジュールを記憶するために用いられてもよく、プロセッサ801は、メモリ802に記憶されるソフトウェアプログラム及びモジュールを運行することによって、音声ビデオ処理機器の様々な機能応用及びデータ処理を実行する。メモリ802は、主にプログラム記憶領域と、データ記憶領域とを含んでもよい。ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションなどを記憶してもよい。なお、メモリ802は、高速ランダムアクセスメモリを含んでもよく、非揮発性メモリ、例えば少なくとも一つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の揮発性ソリッドステートメモリデバイスを含んでもよい。入力装置803は、入力された数字又は文字情報の受信、及び音声ビデオ処理機器のユーザ設置及び機能制御に関する信号入力の発生に用いられてもよい。
【0099】
具体的には、本実施例では、プロセッサ801は、以下のような命令に従い、一つ又は一つ以上のアプリケーションのプロセスに対応する実行可能なファイルをメモリ802にロードし、プロセッサ801がメモリ802に記憶されるアプリケーションを運行することによって、上記音声ビデオ処理機器の様々な機能を実現する。
【0100】
説明すべきものは、本明細書では、「第一の」と「第二の」などのような関連用語は、ただ一つのエンティティ又は操作を別のエンティティ又は操作と区別するために用いられるだけであり、必ずしもこれらのエンティティ又は操作間に任意のこのような実際の関係又は順序が存在することを要求又は示唆するものではない。そして、用語である「含む」、「包含」又はその他の任意の変形は、非排他的な「含む」を意図的にカバーするものであり、これによって一連の要素を含む過程、方法、物品又は機器は、これらの要素を含むだけではなく、明確にリストアップされていない他の要素も含み、又は、このような過程、方法、物品又は機器に固有の要素をさらに含む。それ以上の制限がない場合に、文句「一つを含む……」によって限定される要素は、前記要素を含む過程、方法、物品又は機器に別の同じ要素がさらに存在することを除外するものではない。
【0101】
上記は、当業者が本開示を理解又は実現できるように、本開示の具体的な実施の形態に過ぎない。これらの実施例に対する様々な修正は、当業者にとって明らかなものである。本明細書に定義された一般的な原理は、本開示の精神又は範囲を逸脱することなく、他の実施例において実現されてもよい。そのため、本開示は、本明細書に記載のこれらの実施例に限定されるものではなく、本明細書に開示された原理と新規な特徴と一致する最も広い範囲に一致しなければならない。
【国際調査報告】