特許7616407 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッドの特許一覧

特許7616407データ処理方法、装置、機器、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-08

(45)【発行日】2025-01-17

(54)【発明の名称】データ処理方法、装置、機器、及びコンピュータプログラム

(51)【国際特許分類】

H04N 21/854 20110101AFI20250109BHJP

G06F 3/0485 20220101ALI20250109BHJP

【ＦＩ】

H04N21/854

G06F3/0485

【請求項の数】 17

(21)【出願番号】P 2023547594

(86)(22)【出願日】2022-01-28

(65)【公表番号】

(43)【公表日】2024-03-05

(86)【国際出願番号】 CN2022074513

(87)【国際公開番号】W WO2022166801

(87)【国際公開日】2022-08-11

【審査請求日】2023-08-21

(31)【優先権主張番号】202110179007.4

(32)【優先日】2021-02-08

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】514187420

【氏名又は名称】テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ユー，グアンウェン

(72)【発明者】

【氏名】ファン，フアフェン

(72)【発明者】

【氏名】ヤン，タオ

【審査官】醍醐一貴

(56)【参考文献】

【文献】中国特許出願公開第１１１３７２１１９（ＣＮ，Ａ）

【文献】特開２００４－０７１０１３（ＪＰ，Ａ）

【文献】特開２０１７－２００１７９（ＪＰ，Ａ）

【文献】特開２０１８－００５１２２（ＪＰ，Ａ）

【文献】特開２０１４－０６４０６６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８－３／０４８９５

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

コンピュータ機器が実行する、データを処理する方法であって、
ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするステップと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を含み、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するステップは、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスを停止させ、前記ビデオ録画サービスによって録画されたビデオデータをオリジナルビデオデータとして決定するステップと、
前記ビデオアプリケーションの編集ページに、前記オリジナルビデオデータ、及び前記オリジナルビデオデータに対応する編集最適化コントロールを表示するステップと、
前記編集最適化コントロールに対するトリガー操作に応答して、前記オリジナルビデオデータに対するＭ（Ｍは正の整数である）個の編集最適化方式を表示するステップと、
前記Ｍ個の編集最適化方式に対する選択操作に応答して、前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップと、を含む
方法。

【請求項2】

前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、
前記ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、前記ビデオアプリケーションにテキスト入力領域を含む録画ページを表示するステップと、
前記テキスト入力領域に対する情報編集操作に応答して、前記テキスト入力領域に、前記情報編集操作により決定されたプロンプトテキストデータを表示するステップと、
前記プロンプトテキストデータに対応するプロンプト文字数が数量閾値よりも大きい場合、前記テキスト入力領域に、前記プロンプト文字数及び前記プロンプトテキストデータに対応するビデオ推定長さを表示するステップと、をさらに含む
請求項１に記載の方法。

【請求項3】

前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、
前記ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、前記ビデオアプリケーションにテキストアップロードコントロール及びテキスト入力領域を含む録画ページを表示するステップと、
前記テキストアップロードコントロールに対するトリガー操作に応答して、前記録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、前記テキスト入力領域に前記プロンプトテキストデータを表示するステップと、
前記プロンプトテキストデータに対応するプロンプト文字数、及び前記プロンプトテキストデータに対応するビデオ推定長さを表示するステップと、をさらに含む
請求項１に記載の方法。

【請求項4】

前記サービス起動操作は音声起動操作を含み、
前記ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するステップは、
前記ビデオアプリケーションにおける音声起動操作に応答して、前記ビデオアプリケーションの録画ページに、前記ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションを表示するステップと、
前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行するステップと、を含む
請求項１に記載の方法。

【請求項5】

前記録画カウントダウンアニメーションはアニメーションキャンセルコントロールを含み、
前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行する前に、
前記アニメーションキャンセルコントロールに対するトリガー操作に応答して、前記録画カウントダウンアニメーションの表示をキャンセルし、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行するステップをさらに含む
請求項４に記載の方法。

【請求項6】

前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするステップは、
前記ビデオ録画サービスにおけるユーザー初期音声を収集し、前記ユーザー初期音声に対して音声区間検出を行って前記ユーザー初期音声における有効音声データを取得し、前記有効音声データを前記ユーザー音声として決定するステップと、
前記ユーザー音声をユーザー音声テキストに変換し、前記ユーザー音声テキストと前記ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、前記プロンプトテキストデータにおいて前記ユーザー音声テキストにマッチングするターゲットテキストを決定するステップと、
前記ビデオ録画サービスの録画ページにおいて、前記ターゲットテキストをマーキングするステップと、を含む
請求項１に記載の方法。

【請求項7】

前記ユーザー音声テキストと、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、前記プロンプトテキストデータにおいて前記ユーザー音声テキストにマッチングするターゲットテキストを決定するステップは、
前記ユーザー音声テキストの第１の音節情報を取得し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータの第２の音節情報を取得するステップと、
前記第２の音節情報において前記第１の音節情報と同じターゲット音節情報を取得し、前記プロンプトテキストデータにおいて前記ターゲット音節情報に対応するターゲットテキストを決定するステップと、を含む
請求項６に記載の方法。

【請求項8】

前記ビデオ録画サービスの録画ページに前記ターゲットテキストをマーキングするステップは、
前記ビデオ録画サービスの録画ページに、前記ターゲットテキストに対応するテキストプロンプト領域を決定するステップと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置に基づいて、前記テキストプロンプト領域に前記ターゲットテキストをマーキングするステップと、を含む
請求項６に記載の方法。

【請求項9】

前記録画ページは録画キャンセルコントロールを含み、
前記録画キャンセルコントロールに対するトリガー操作に応答して、前記ビデオ録画サービスをキャンセルし、前記ビデオ録画サービスによって録画されたビデオデータを削除するステップと、
前記ビデオ録画サービスに対する録画プロンプト情報を生成し、前記録画ページに再録画コントロールを含む前記録画プロンプト情報を表示するステップと、
前記再録画コントロールに対するトリガー操作に応答して、前記録画ページに表示されるターゲットテキストを前記プロンプトテキストデータに切り替えて表示するステップと、をさらに含む
請求項４～８のいずれか１項に記載の方法。

【請求項10】

前記録画ページは録画完了コントロールを含み、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得する前に、
前記録画完了コントロールに対するトリガー操作に応答して、前記ビデオ録画サービスを停止させ、前記ビデオ録画サービスによって録画されたビデオデータを前記ターゲットビデオデータとして決定するステップをさらに含む
請求項４～８のいずれか１項に記載の方法。

【請求項11】

前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップは、
前記選択操作により決定された編集最適化方式が第１の編集方式であると、前記オリジナルビデオデータに含まれるターゲット音声データを取得し、前記ターゲット音声データをターゲットテキスト結果に変換するステップと、
前記ターゲットテキスト結果と前記プロンプトテキストデータとに対してテキスト比較を行うことで、前記ターゲットテキスト結果のうちの前記プロンプトテキストデータと異なるテキストをエラーテキストとして決定するステップと、
前記オリジナルビデオデータにおいて前記エラーテキストに対応する音声データを削除することで、前記ターゲットビデオデータを取得するステップと、を含む
請求項１に記載の方法。

【請求項12】

前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップは、
前記選択操作により決定された編集最適化方式が第２の編集方式であると、前記オリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換し、前記ターゲットテキスト結果のうちの前記プロンプトテキストデータと異なるテキストをエラーテキストとして決定するステップと、
前記ターゲットテキスト結果をＮ（Ｎは正の整数である）個のテキスト文字に分割することで、前記ターゲット音声データにおける前記Ｎ個のテキスト文字のそれぞれのタイムスタンプを取得するステップと、
前記タイムスタンプに基づいて前記ターゲット音声データにおける音声ポーズセグメントを決定し、前記オリジナルビデオデータにおいて前記音声ポーズセグメント及び前記エラーテキストに対応する音声データを削除することで、前記ターゲットビデオデータを取得するステップと、を含む
請求項１に記載の方法。

【請求項13】

前記ビデオ録画サービスの実行中に、
前記ユーザー初期音声に対応する音声の長さ、及び前記ユーザー初期音声に含まれる音声文字数を取得し、前記音声文字数と前記音声の長さとの比をユーザーの話速として決定するステップと、
前記ユーザーの話速が話速閾値よりも大きい場合、前記録画ページに話速プロンプト情報を表示するステップであって、前記話速プロンプト情報は、ユーザーの話速を低減するように、前記ビデオ録画サービスに関連付けられたターゲットユーザーに促すためのものであるステップと、をさらに含む
請求項６に記載の方法。

【請求項14】

前記エラーテキストはＫ（Ｋは正の整数である）個のエラーサブテキストを含み、
前記Ｋ個のエラーサブテキスト及び前記オリジナルビデオデータに対応するビデオの長さに基づいて、前記ビデオ録画サービスにおけるエラー頻度を決定するステップと、
前記エラー頻度がエラー閾値よりも大きい場合、前記Ｋ個のエラーサブテキストのそれぞれに対応するスピーチエラータイプを認識するステップと、
前記ビデオアプリケーションにおいて、前記スピーチエラータイプに関連付けられたチュートリアルビデオを前記ビデオ録画サービスに関連付けられたターゲットユーザーにプッシュするステップと、をさらに含む
請求項１１～１２のいずれか１項に記載の方法。

【請求項15】

コンピュータ機器に配置された、データを処理する装置であって、
ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するための起動モジュールと、
前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするための表示モジュールと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するための取得モジュールと、を含み、
前記取得モジュールは、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスを停止させ、前記ビデオ録画サービスによって録画されたビデオデータをオリジナルビデオデータとして決定し、
前記ビデオアプリケーションの編集ページに、前記オリジナルビデオデータ、及び前記オリジナルビデオデータに対応する編集最適化コントロールを表示し、
前記編集最適化コントロールに対するトリガー操作に応答して、前記オリジナルビデオデータに対するＭ（Ｍは正の整数である）個の編集最適化方式を表示し、
前記Ｍ個の編集最適化方式に対する選択操作に応答して、前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得する
装置。

【請求項16】

メモリ及びプロセッサーを含み、
前記メモリは前記プロセッサーに接続され、コンピュータプログラムを記憶するように構成され、前記プロセッサーは、請求項１～８のいずれか１項に記載の方法を前記コンピュータ機器に実行させるように、前記コンピュータプログラムを呼び出すように構成される
コンピュータ機器。

【請求項17】

コンピュータに、請求項１～８のいずれか１項に記載の方法を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２１年０２月０８日にて中国特許庁に提出され、出願番号が２０２１１０１７９００７.４であり、発明の名称が「データ処理方法、装置、機器、及び媒体」である中国特許出願の優先権を主張して、その全ての内容は、本出願に援用により組み込まれている。

【0002】

本出願は、インターネット技術の分野に関し、特に、データ処理技術に関する。

【背景技術】

【0003】

ショートビデオの発展に連れて、ますます多くのユーザー（撮影および編集の経験がない人を含む）はマルチメディアクリエーターの仲間入りをし、カメラの前に自分のパフォーマンスを披露し始めている。経験の浅いマルチメディアクリエーターにとって、カメラに向かうと、言葉を忘れることなどが多く、コンテンツのスクリプトを覚えても、どもりや不自然な表現などの問題が発生してしまう。

【0004】

そのため、ショートビデオを撮影する際に、ユーザーはスクリプトコンテンツを印刷してカメラの横に置いて提示する。

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところが、スクリプトコンテンツが多い場合、ユーザーは発表対象となる内容を迅速に位置決めできなかったり、又は誤って位置決めしたりする可能性があり、スクリプトコンテンツを印刷することでセリフを提示する効果は明らかではなく、そして、ユーザーがカメラの横にあるスクリプトコンテンツを見ると、カメラにユーザーのアクションが取り込まれ、最終的なビデオ撮影の品質にさらに影響を与える。

【0006】

本出願の実施例はビデオ録画サービスにおけるテレプロンプター機能の有効性を高め、さらに、ビデオ録画の品質を向上させることができるデータ処理方法、装置、機器、及び媒体を提供する。

【課題を解決するための手段】

【0007】

本出願の実施例の１つの態様は、コンピュータ機器が実行するデータ処理方法を提供し、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするステップと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を含む
方法。

【0008】

本出願の実施例の１つの態様は、コンピュータ機器が実行するデータ処理方法を提供し、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするステップと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するステップと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするステップと、を含む
方法。

【0009】

本出願の実施例の１つの態様は、コンピュータ機器に配置されたデータ処理装置を提供し、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するための起動モジュールと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするための表示モジュールと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するための取得モジュールと、を含む
装置。

【0010】

本出願の実施例の１つの態様は、コンピュータ機器に配置されたデータ処理装置を提供し、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするためのプロンプトテキストアップロードモジュールと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するためのユーザー音声収集モジュールと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするためのユーザー音声テキスト表示モジュールと、を含む
装置。

【0011】

本出願の実施例の１つの態様は、メモリ及びプロセッサーを含み、メモリはプロセッサーに接続され、コンピュータプログラムを記憶するように構成され、プロセッサーは、本出願の実施例における上記いずれか１つの態様で提供される方法をコンピュータ機器に実行させるように、コンピュータプログラムを呼び出すように構成されるコンピュータ機器を提供する。

【0012】

本出願の実施例の１つの態様は、本出願の実施例における上記いずれか１つの態様で提供される方法をプロセッサーを有するコンピュータ機器に実行させるように、プロセッサーによってロードされて実行されるコンピュータプログラムを記憶しているコンピュータ可読記憶媒体を提供する。

【0013】

本出願の１つの態様によれば、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記いずれか１つの態様で提供される方法を当該コンピュータ機器に実行させる。

【発明の効果】

【0014】

本出願の実施例は、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動し、ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声に関連付けられたターゲットテキストを決定し、ターゲットテキストをマーキングすることができ、このように、話しているユーザーは、マーキング子に基づいてスピーチのコンテンツを迅速且つ正確に位置決めし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高めることができる。プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得する。このように、ビデオアプリケーションにおいてビデオ録画サービスを起動した後、プロンプトテキストデータにおいて、ユーザー音声にマッチングするターゲットテキストを位置決めしてマーキングすることができ、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話しているコンテンツにマッチングし、これによって、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減し、さらに、ビデオ録画の品質を向上させることができる。

【図面の簡単な説明】

【0015】

【図1】本出願の実施例で提供されるネットワークアーキテクチャの構造概略図である。

【図2】本出願の実施例で提供されるデータ処理シナリオの概略図である。

【図3】本出願の実施例で提供されるデータ処理方法のフロー概略図である。

【図4】本出願の実施例で提供される、プロンプトテキストデータを入力するインターフェースの概略図である。

【図5】本出願の実施例で提供される、ビデオアプリケーションにおいてビデオ録画サービスを起動するインターフェースの概略図である。

【図6】本出願の実施例で提供される、プロンプトテキストデータを表示するインターフェースの概略図である。

【図7】本出願の実施例で提供される、話速プロンプト情報を表示するインターフェースの概略図である。

【図8】本出願の実施例で提供される、ビデオ録画サービスを停止させるインターフェースの概略図である。

【図9】本出願の実施例で提供される、ビデオ録画に対して編集最適化を行うインターフェースの概略図である。

【図10】本出願の実施例で提供される、スピーチエラータイプに基づいてチュートリアルビデオを推奨するインターフェースの概略図である。

【図11】本出願の実施例で提供されるビデオ録画サービスの実現フローチャートである。

【図12】本出願の実施例で提供されるデータ処理方法のフロー概略図である。

【図13】本出願の実施例で提供されるテレプロンプターの適用シナリオの概略図である。

【図14】本出願の実施例で提供されるデータ処理装置の構造概略図である。

【図15】本出願の実施例で提供されるデータ処理装置の構造概略図である。

【図16】本出願の実施例で提供されるコンピュータ機器の構造概略図である。

【図17】本出願の実施例で提供されるコンピュータ機器の構造概略図。

【発明を実施するための形態】

【0016】

以下、本出願の実施例の図面を参照しながら本出願の実施例の技術案を明らか且つ完全に記述する。

【0017】

図１を参照して、図１は本出願の実施例で提供されるネットワークアーキテクチャの構造概略図である。図１に示すように、当該ネットワークアーキテクチャは、サーバー１０ｄとユーザー端末クラスタとを含むことができ、当該ユーザー端末クラスタは１つ又は複数のユーザー端末を含み得るが、ここで、ユーザー端末の数を限定していない。図１に示すように、当該ユーザー端末クラスタは、具体的に、ユーザー端末１０ａ、ユーザー端末１０ｂ及びユーザー端末１０ｃなどを含んでもよい。サーバー１０ｄは独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、ＣＤＮ、ビッグデータ及び人工智能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。ユーザー端末１０ａ、ユーザー端末１０ｂ及びユーザー端末１０ｃなどは何れもスマートフォン、タブレットコンピューター、ノートパソコン、電子手帳、モバイルインターネットデバイス（ｍｏｂｉｌｅ
ｉｎｔｅｒｎｅｔｄｅｖｉｃｅ、ＭＩＤ）、ウェアラブルデバイス（例えば、スマートウォッチ、スマートバンドなど）及びスマートテレビなどのビデオ／画像再生機能を有するスマート端末を含んでもよい。図１に示すように、ユーザー端末１０ａ、ユーザー端末１０ｂ及びユーザー端末１０ｃなどは、各ユーザー端末がネットワーク接続を介してサーバー１０ｄとの間でデータのやり取りを行うように、サーバー１０ｄとそれぞれネットワーク接続を行うことができる。

【0018】

図１に示すユーザー端末１０ａを例として、ユーザー端末１０ａには、ビデオ編集アプリケーション、ショートビデオアプリケーションなどのビデオ録画機能を有するビデオアプリケーションがインストールされてもよい。ユーザーはユーザー端末１０ａにインストールされたビデオアプリケーションを開くことができ、当該ビデオアプリケーションはユーザーに対してビデオ録画機能を提供してもよく、当該ビデオ録画機能は通常の撮影方式及びテレプロンプター撮影方式を含み、通常の撮影方式は、ユーザー端末１０ａのカメラ（又は、ユーザー端末１０ａと通信接続を有する外部撮影装置）を使用してユーザーを撮影する際に、スクリプトコンテンツをユーザーに提示できない場合があるため、当該ユーザーがビデオ録画において表現しようとするスクリプトコンテンツを予め整理し（例えば、スクリプトコンテンツを記録する）必要があることであり、テレプロンプター撮影方式は、ユーザー端末１０ａの蔵カメラ又は外付けの撮影装置を使用してユーザーを撮影する際に、ユーザー端末１０ａのスクリーンにおいてスクリプトコンテンツを当該ユーザーに表示して、ユーザー音声の進行に応じてスクリプトコンテンツを切り替えて表示することができることであり（例えば、スクロール表示など）、ここで、スクリプトコンテンツは、ビデオ録画サービスにおけるプロンプトテキストデータとも呼ばれてもよい（プロンプトテキストは、「提示テキスト」とも呼ぶ）。ユーザーはビデオアプリケーションにおけるテレプロンプター撮影方式に対応するエントリ（即ち、テレプロンプター撮影エントリ）に対してトリガー操作を実行した後、ユーザー端末１０ａは、テレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションに録画ページを表示し、ビデオを録画する前、ユーザーは録画ページにプロンプトテキストデータを入力するか、又は、既存のプロンプトテキストデータを録画ページにアップロードすることができる。

【0019】

ユーザーがビデオ録画を起動すると、ユーザー端末１０ａは当該ユーザーによるビデオ録画起動操作に応答して、当該ビデオアプリケーションにおいてビデオ録画機能を起動し、ビデオ録画中に、ユーザー音声の進行に従ってユーザー端末１０ａの端末スクリーンに表示することができる。言い換えると、ビデオ録画中に、ユーザー音声の進行に従ってプロンプトテキストデータを表示することができ、ユーザー音声速度が速くなると、ビデオアプリケーションにおけるプロンプトテキストデータの切り替え表示速度（スクロール速度であってもよい）が速くなり、ユーザー音声速度が遅くなると、ビデオアプリケーションにおけるプロンプトテキストデータの切り替え表示速度が遅くなり、つまり、ビデオアプリケーションに表示されるプロンプトテキストデータのテキストは、ユーザー音声に合わせて、これにより、ビデオ録画中のテキストプロンプト機能の有効性を確保して、ユーザーがビデオ録画をスムーズに完了するのを支援し、さらに、ビデオ録画の品質を向上させることができる。

【0020】

図２を併せて参照し、図２は本出願の実施例で提供されるデータ処理シナリオの概略図であり、ビデオ録画シナリオを例として、本出願の実施例で提供されるデータ処理方法の実現プロセスについて記述する。図２に示すユーザー端末２０ａは、上記の図１に示すユーザー端末クラスタにおけるいずれか１つのユーザー端末であってもよく、ユーザー端末２０ａにはビデオ録画機能を有するビデオアプリケーションがインストールされている。ユーザーＡ（当該ユーザーＡは、ユーザー端末２０ａの使用者であってもよい）は、ユーザー端末２０ａにおけるビデオアプリケーションを開いてビデオアプリケーションのホームページに入って、ビデオアプリケーションにおける撮影エントリに対してトリガー操作を実行することができ、ユーザー端末２０ａは撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションに撮影ページ２０ｍを表示させ、当該撮影ページ２０ｍは撮影領域２０ｂ、フィルタコントロール２０ｃ、撮影コントロール２０ｄ及び美化コントロール２０ｅなどを含むことができる。撮影領域２０ｂはユーザー端末２０ａによって収集されたビデオ画面を表示するものであり、当該ビデオ画面はユーザーＡに対するビデオ画面であり、ユーザー端末２０ａのカメラ、又はユーザー端末２０ａと通信接続を有する撮影機器によって収集されてもよく、撮影コントロール２０ｄはビデオ録画の開始及び終了を制御するものであり、撮影ページ２０ｍに入った後、撮影コントロール２０ｄに対してトリガー操作を実行し、撮影の起動を示してもよく、撮影されたビデオ画面を撮影領域２０ｂに表示し、撮影中に、撮影コントロール２０ｄに対してトリガー操作を再び実行すると、撮影の停止を示してもよく、撮影領域２０ｂに表示されるビデオ画面は、撮影停止時の画面にフリーズし、フィルタコントロール２０ｃはユーザー端末２０ａによって収集されたビデオ画面に対して画像処理を行うことで、特定の特殊効果を達成することができ、例えば、スムージングフィルタは収集されたビデオ画面における人物画像に対して肌修正、タッチアップ・スムージングなどの処理を行ってもよく、美化コントロール２０ｅはユーザー端末２０ａによって収集されたビデオ画面における人物画像に対して美化処理を行うものであり、例えば、人物画像の顔型を自動的に修復すること、人物画像の目を大きくすること、人物画像の鼻を高くすることなどである。

【0021】

撮影ページ２０ｍには、テレプロンプター撮影エントリ２０ｆをさらに含んでもよく、ユーザーＡがビデオ録画の経験を欠く場合に、ビデオ録画中に言葉を忘れる状況を防止する（言葉を忘れると、ビデオを再録画する可能性がある）ために、ユーザーＡはビデオアプリケーションにおけるテレプロンプター撮影機能を選択し、即ち、撮影ページ２０ｍにおけるテレプロンプター撮影エントリ２０ｆに対してトリガー操作を実行することができ、ユーザー端末２０ａは、ユーザーＡによるテレプロンプター撮影エントリ２０ｆのトリガー操作に応答して、ビデオアプリケーションにおける撮影ページ２０ｍを、当該テレプロンプター撮影エントリ２０ｆに対応する録画ページに切り替えて表示し、当該録画ページには、まず、テキスト入力領域が表示され、ユーザーＡはテキスト入力領域にビデオ録画に必要なスクリプトコンテンツを入力でき、当該スクリプトコンテンツはビデオ録画中にユーザーＡに提示するために用いられ得、簡単に言えば、ビデオ録画中に、ユーザーＡはビデオアプリケーションに表示されるスクリプトコンテンツに従って録画することができ、この場合、スクリプトコンテンツはプロンプトテキストデータ２０ｇとも呼ばれてもよい。テキスト入力領域おいて、ユーザーＡが入力したスクリプトコンテンツの統計情報２０ｈをさらに表示してもよく、当該統計情報２０ｈは、入力されたスクリプトコンテンツの字数（即ち、プロンプト文字数、例えば、スクリプトコンテンツの字数は１３４である）、及び入力されたスクリプトコンテンツに対応するビデオ推定長さ（例えば、３５秒）を含んでもよく、ユーザーＡはビデオ推定長さに基づいてスクリプトコンテンツを増加又は減少させることができる。例えば、ユーザーＡは1 分間のビデオを録画したくて、テキスト入力領域に入力したスクリプトコンテンツに対応するビデオ推定長さが４分であると、ユーザーＡはテキスト入力領域に表示されるスクリプトコンテンツを減少させることで、減少させたスクリプトコンテンツに対応するビデオ推定長さが約１分（例えば、ビデオ推定長さの範囲は５５秒～６５秒であってもよい）になるようにし、ユーザーＡがテキスト入力領域に入力したスクリプトコンテンツに対応するビデオ推定長さは３５秒であると、ユーザーＡは、テキスト入力領域に表示されるスクリプトコンテンツを増加させることで、増加させたスクリプトコンテンツに対応するビデオ推定長さが約１分になるようにし、さらに、最終的に決定されたスクリプトコンテンツを、プロンプトテキストデータ２０ｇに決定することができる。

【0022】

プロンプトテキストデータ２０ｇを決定した後、ユーザーＡは、録画ページにおける「次へ」コントロールに対してトリガー操作を実行でき、ユーザー端末２０ａは「次へ」コントロールに対するトリガー操作に応答して、ユーザー端末２０ａのカメラ（又は通信接続を有する撮影機器）を起動し、ビデオ録画準備状態（即ち、ビデオ録画開始の前）に入って、図２に示すように、録画ページにおいて、ユーザー端末２０ａによって収集された、ユーザーＡについてのビデオ画面２０ｉが表示され、且つ「携帯電話を適切な位置に置いて、テレプロンプター撮影を起動させるように、「開始」と言ってください」というプロンプト情報を表示し、即ち、ユーザーＡはビデオ画面２０ｉに基づいて自分の位置及びユーザー端末２０ａの位置を調整し、位置を調整した後、音声でビデオ録画を起動することができ、例えば、ユーザーは「開始」と言うことで、ビデオ録画を起動させてもよい。

【0023】

ユーザーＡが「開始」と言った後、ユーザー端末２０ａはユーザーＡの音声に応答して操作を起動し、ビデオアプリケーションにおいてビデオ録画を起動し、録画ページにプロンプトテキストデータ２０ｇを表示することができる。録画ページに表示されるテキストは、プロンプトテキストデータ２０ｇにおけるテキストの一部のみ、例えば、プロンプトテキストデータ２０ｇにおける一言であってもよいため、ビデオ録画を起動した後、まず、プロンプトテキストデータ２０ｇにおける1番目のフレーズを表示し得る。ユーザーＡはビデオ録画中に話し始めると、ユーザー端末２０ａは当該ユーザーＡに対応するユーザー音声を収集することができ、当該ユーザー端末２０ａにインストールされるビデオアプリケーションのクライアントは、ユーザー音声をビデオアプリケーションのバックグランドサーバー２０ｊに伝送して、音声マッチングコマンドをバックグランドサーバー２０ｊに送信することができる。バックグランドサーバー２０ｊは、ユーザー音声及び音声マッチングコマンドを受信した後、ユーザー音声をユーザー音声テキストに変換することができ、ユーザー音声テキストが中国語である場合（この場合、プロンプトテキストデータ２０ｇは同じように中国語であるとデフォルトしてもよい）、バックグランドサーバー２０ｊはユーザー音声テキストを第１の中国語ピンイン（ユーザー音声テキストが中国語である場合、第１の音節情報は第１の中国語ピンインと呼ばれてもよい）に変換することもでき、無論、ユーザーＡがテキスト入力領域にプロンプトテキストデータ２０ｇを入力した後、ビデオアプリケーションのクライアントは同様に、プロンプトテキストデータ２０ｇをバックグランドサーバー２０ｊに伝送できるため、バックグランドサーバー２０ｊはプロンプトテキストデータ２０ｇを第２の中国語ピンイン（ユーザー音声テキストが中国語である場合、第２の音節情報は第２の中国語ピンインと呼ばれてもよい）に変換することができる。バックグランドサーバー２０ｊは第１の中国語ピンインと第２の中国語ピンインとをマッチングし、第２の中国語ピンインにおいて第１の中国語ピンインと同じピンインを検索し、即ち、第２の中国語ピンインにおける第１の中国語ピンインのテキスト位置を検索し、プロンプトテキストデータ２０ｇにおける当該テキスト位置に対応するテキストをターゲットテキスト（即ち、プロンプトテキストデータ２０ｇにおけるユーザー音声にマッチングするテキスト）として決定することができ、バックグランドサーバー２０ｊはターゲットテキストをビデオアプリケーションのクライアントに伝送でき、端末装置２０ａはビデオアプリケーションにおいてターゲットテキストをマーキングすることができる（例えば、ターゲットテキストの表示サイズを大きくしたり、ターゲットテキストの表示色を変換したり、ターゲットテキストを円又は矩形のボックスなどで取り囲みたりする）。ここで、ユーザーＡがテキストプロンプトデータの順序に従って話すと、録画ページにおいてプロンプトテキストデータをスクロール表示し、ユーザーＡがテキストプロンプトデータの順序に従って離さないと、録画ページにおいてプロンプトテキストデータをジャンプ表示することができることを理解されたい。

【0024】

ターゲットテキストが単語又はフレーズである場合、ビデオアプリケーションにおいてターゲットアプリケーションが存在するフレーズをマーキングすることができる。図２に示すように、ユーザー音声が「週末」である場合、バックグランドサーバー２０ｊはプロンプトテキストデータ２０ｇにおけるユーザー音声に対応するターゲットテキストを週末にマッチングでき、この場合、録画ページにおいて、ターゲットテキスト「週末」が存在する「週末、長沙でｘｘとｘｘが共同で開催する消費者クラスに参加する」というフレーズをマーキングすることができる（図２の領域２０ｋに示すように、テキスト表示サイズを大きくして、テキストを太字にする）。

【0025】

プロンプトテキストデータ２０ｇは直接に録画ページに表示されてもよいし、録画ページに表示されるに表示される独立したサブページに表示されてもよいが、本出願では、録画ページにおけるプロンプトテキストデータ２０ｇの表示形態を限定していないことを理解されたい。プロンプトテキストデータ２０ｇにおいてユーザー音声をマッチングする目的は次のとおりであり、プロンプトテキストデータ２０ｇにおけるユーザー音声のテキスト位置を決定し、ユーザー音声をユーザー音声テキストに変換する場合、変換後のユーザー音声テキストとユーザー音声との間の正確性ではなく、文字発音とユーザー音声との間の一致性のみを配慮すればよいため、中国語オーディオによってマッチングでき、これにより、ユーザー音声とプロンプトテキストデータとの間のマッチング効率を向上させることができる。

【0026】

ユーザー端末２０ａは、ユーザーＡが話しているユーザー音声をリアルタイムで収集し、バックグランドサーバー２０ｎを介して、プロンプトテキストデータ２０ｇにおけるユーザー音声に対応するターゲットテキストをリアルタイムで決定し、さらに、ユーザー音声の進行に従ってプロンプトテキストデータをスクロール表示することができる。例えば、ユーザーＡがプロンプトテキストデータ２０ｇにおける1番目のフレーズを話している場合、録画ページにおいてプロンプトテキストデータ２０ｇにおける1番目のフレーズをマーキングし、ユーザーＡは、プロンプトテキストデータ２０ｇにおける２番目のフレーズを話している場合、録画ページにおいてプロンプトテキストデータ２０ｇにおける1番目のフレーズから、２番目のフレーズに切り替えて表示し、２番目のフレーズをマーキングすることができ、録画ページにおいて各回マーキングされるターゲットテキストは何れも、ユーザーＡが話しているコンテンツである。ユーザーＡがプロンプトテキストデータ２０ｇにおける最後の字を話すと、ユーザー端末２０ａはビデオ録画を終了して、今回録画したビデオを、録画を完成したビデオとして決定する。ユーザーＡは、今回録画したビデオに満足すると、当該ビデオを保存し、今回録画したビデオに満足しないと、再撮影してもよい。無論、ユーザーＡは、録画を完成したビデオに対して編集最適化を行うことで、最終的なビデオ録画、即ち、ターゲットビデオデータを取得することができる。

【0027】

本出願の実施例に示すビデオ録画中に、ユーザー音声の進行に従ってプロンプトテキストデータを表示することで、ユーザーに対する正確なテレプロンプター効果を実現し、さらに、ビデオ録画の品質を向上させることができる。

【0028】

図３を参照し、図３は本出願の実施例で提供されるデータ処理方法のフロー概略図である。ここで、当該データ処理方法はコンピュータ機器によって実行され得、当該コンピュータ機器はユーザー端末、独立したサーバー、複数のサーバーから構成されたクラスタ、ユーザー端末及びサーバーから構成されたシステム、コンピュータプログラムアプリケーション（プログラムコードを含む）であってもよく、ここで具体的に限定していないことが理解され得る。図３に示すように、当該データ処理方法は以下のＳ１０１～Ｓ１０３を含むことができる。

【0029】

Ｓ１０１において、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動する。

【0030】

ユーザーは、カメラの前で自分の観点を伝えたり、自分の生活を見せたりしたい場合、所望のビデオを録画するためにビデオアプリケーションにおいてビデオを録画し、最終的に録画されたビデオについて、情報投稿プラットフォームにおけるユーザーがこのビデオを閲覧できるように、情報投稿プラットフォームにアップロードして共有することができる。本出願の実施例において、ビデオを録画する必要があるユーザーはターゲットユーザーと呼ばれ、ターゲットユーザーがビデオ録画に使用する機器はコンピュータ機器と呼ばれる。ターゲットユーザーがコンピュータ機器にインストールされるビデオアプリケーションにおいて、ビデオ録画サービスに対するサービス起動操作を実行すると、コンピュータ機器は当該ビデオアプリケーションにおけるサービス起動操作に応答して、当該ビデオアプリケーションにおいてビデオ録画サービスを起動し、即ち、ビデオアプリケーションにおいてビデオ録画を開始させる。なお、サービス起動操作はシングルクリック、ダブルクリック、長押し、画面上のタッチなどの接触型トリガー操作、音声、リモコン、ジェスチャーなどの非接触型トリガー操作を含むが、これらに限定されていない。

【0031】

コンピュータ機器がビデオ録画サービスを起動する前、ターゲットユーザーはビデオ録画サービスに必要なプロンプトテキストデータをビデオアプリケーションにアップロードすることもでき、当該プロンプトテキストデータはビデオ録画サービスにおいてターゲットユーザーに提示するために用いられ、これによって、ビデオ録画中にターゲットユーザーが言葉を忘れるという状況を大幅に低減することができる。ターゲットユーザーはコンピュータ機器にインストールされるビデオアプリケーションを開いた後、ビデオアプリケーションにおける撮影ページ（例えば、上記の図２に対応する実施例における撮影ページ２０ｍ）に入って、ビデオアプリケーションの撮影ページにはテレプロンプター撮影エントリが含まれてもよい。ターゲットユーザーが撮影ページにおけるテレプロンプター撮影エントリに対してトリガー操作を実行すると、コンピュータ機器はビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにおいてテキストコンテンツを編集するためのテキスト入力領域を含む録画ページを表示することができ、コンピュータ機器はテキスト入力領域に対する情報編集操作に応答して、情報編集操作により決定されたプロンプトテキストデータをテキスト入力領域に表示することができ、プロンプトテキストデータに対応するプロンプト文字数が数量閾値（ここで、数量閾値は実際の必要に応じて予め設定されてもよく、例えば、数量閾値は１００に設定されてもよい）よりも大きいと、プロンプト文字数、及びプロンプトテキスト数に対応するビデオ推定長さをテキスト入力領域に表示する。言い換えると、ターゲットユーザーは撮影ページにおけるテレプロンプター撮影エントリに対してトリガー操作を実行した後、ビデオアプリケーションにおいて、撮影ページを録画ページに切り替えて表示し、ターゲットユーザーは録画ページのテキスト入力領域において、ビデオ録画サービスに必要なスクリプトコンテンツ（即ち、上記のプロンプトテキストデータ）を編集でき、テキスト入力領域においてテキストを編集する場合、テキスト入力領域に入力されたプロンプト文字数をリアルタイムで統計し、プロンプト文字数が予め設定された数量閾値よりも大きい場合、プロンプト文字数、及び現在入力されているプロンプトテキストデータに対応するビデオ推定長さをテキスト入力領域に表示することができる。テレプロンプター撮影エントリは、撮影ページに加えて、ビデオアプリケーションのいずれか１つのページに表示されてもよいが、本出願の実施例では、テレプロンプター撮影エントリの表示位置を限定していない。

【0032】

ビデオ推定長さは、以降のビデオ録画サービスで録画されるビデオ完成品の長さ参照情報としてもよく、テキスト入力領域に表示されるビデオ推定長さと、ターゲットユーザーが所望する録画ビデオの長さとが大きく異なる場合、ターゲットユーザーはテキスト入力領域におけるテキストを増加し又は減少することができる。例えば、テキスト入力領域に表示されるビデオ推定長さは３５秒であるが、ターゲットユーザーが所望する録画ビデオの長さは２分であると、ターゲットユーザーは、テキスト入力領域に表示されるビデオ推定長さが所定の長さ範囲になる（例えば、ビデオ推定長さは１分５０秒～２分１０秒にある）まで、テキスト入力領域においてテキスト編集を継続することができる。

【0033】

コンピュータ機器は、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答した後、表示される録画ページにテキストアップロードコントロールがさらに表示されてもよく、ターゲットユーザーは録画ページにおけるテキストアップロードコントロールに対してトリガー操作を実行して、編集済みのプロンプトテキストデータを録画ページにアップロードすることができ、即ち、コンピュータ機器はテキストアップロードコントロールに対するトリガー操作に応答して、録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、録画ページのテキスト入力領域にプロンプトテキストデータを表示し、さらに、プロンプトテキストデータに対応するプロンプト文字数、及びプロンプトテキストデータに対応するビデオ推定長さを表示してもよい。なお、テキストアップロードコントロールは、テキスト貼り付けコントロール及び前回テキスト選択コントロールを含んでもよいが、これらに限定されない。ターゲットユーザーがテキスト貼り付けるコントロールに対してトリガー操作を実行すると、テキストコンテンツを仮編集する必要がなく、ターゲットユーザーが予め編集されたプロンプトテキストデータをテキスト入力領域に直接に貼り付けることができることを示し、ターゲットユーザーが前回テキスト選択コントロールに対してトリガー操作を実行すると、ターゲットユーザーが今回のビデオ録画サービスにおいて前回のビデオ録画サービスにおけるプロンプトテキストデータを使用できることを示し、つまり、ターゲットユーザーは前回のビデオ録画サービスにおいて録画されたビデオ完成品に満足しない可能性があるため、今回のビデオ録画サービスにおいて改めて録画し、これによって、同じプロンプトテキストデータの重複入力を回避することができ、さらに、プロンプトテキストデータの入力効率を向上させることができる。

【0034】

図４を併せて参照し、図４は本出願の実施例で提供される、プロンプトテキストデータを入力するインターフェース概略図である。図４に示すように、ターゲットユーザーはユーザー端末３０ａにインストールされるビデオアプリケーションにおける撮影エントリに対してトリガー操作を実行した後、ユーザー端末３０ａは撮影エントリに対するトリガー操作に応答して（この場合、ユーザー端末３０ａは上記のコンピュータ機器であってもよい）、ビデオアプリケーションに撮影ページ３０ｇを表示することができ、当該撮影ページ３０ｇは、撮影領域３０ｂ、フィルタコントロール３０ｃ、撮影コントロール３０ｄ、美化コントロール３０ｅ、及びテレプロンプター撮影エントリ３０ｆなどを含んでもよい。なお、撮影領域３０ｂ、フィルタコントロール３０ｃ、撮影コントロール３０ｄ及び美化コントロール３０ｅのビデオアプリケーションにおける機能記述は、上記の図２に対応する実施例における撮影領域２０ｂ、フィルタコントロール２０ｃ、撮影コントロール２０ｄ及び美化コントロール２０ｅについての機能記述を参照すればよく、ここで贅言していない。

【0035】

ターゲットユーザーが撮影ページ３０ｇにおけるテレプロンプター撮影エントリ３０ｆに対してトリガー操作を実行すると、ユーザー端末３０ａは、撮影ページ３０ｇにおけるテレプロンプター撮影エントリ３０ｆに対するトリガー操作に応答して、ビデオアプリケーションにおいて撮影ページ３０ｇを録画ページ３０ｈに切り替えて表示することができ、当該録画ページ３０ｈは、テキストコンテンツを直接に編集するためのテキスト入力領域３０ｉを含んでもよい。ターゲットユーザーは、テキスト入力領域３０ｉをクリックして、録画ページ３０ｈにキーボード３０ｐをポップアップさせ、キーボード３０ｐによって今回のビデオ録画サービスに必要なプロンプトテキストデータを編集でき、ユーザー端末３０ａはターゲットユーザーの情報編集操作に応答して、情報編集操作により決定されたテキストコンテンツをプロンプトテキストデータとしてテキスト入力領域３０ｉに表示することができる。その同時に、ユーザー端末３０ａはテキスト入力領域３０ｉに入力されたプロンプトテキストデータのプロンプト文字数をリアルタイムで統計し、テキスト入力領域３０ｉに入力されたプロンプトテキストデータのプロンプト文字数が予め設定された数量閾値（例えば、数量閾値は１００に設定される）よりも大きいと、プロンプト文字数、及び入力されたプロンプトテキストデータに対応する推定完成品長さ（即ち、ビデオ推定長さ）をテキスト入力領域３０ｉの領域３０ｍに表示することができる。図４に示すように、ターゲットユーザーが、「週末、長沙でｘｘとｘｘが共催する消費者クラスに参加する。当時、他の人は公式アカウントを介してオンラインで行った」というテキストコンテンツをテキスト入力領域３０ｉに入力すると、ユーザー端末３０ａによって統計されて得られたプロンプト文字数は３２であり、推定完成品長さが１５秒であり、即ち、「現在の字数が３２であり、推定完成品長さが１５秒である」を領域３０ｍに表示し、ターゲットユーザーは領域３０ｍに表示される推定完成品長さに基づいてテキストコンテンツを編集することができ、ターゲットユーザーはテキスト入力領域３０ｉにおいてテキストコンテンツの編集を完成した後、テキスト入力領域３０ｉにおけるテキストコンテンツをプロンプトテキストデータとして決定し、ひいては、録画ページ３０ｈにおける「次へ」コントロール３０ｎに対してトリガー操作を実行して、ユーザー端末30 nに対してビデオ録画サービスの次の操作をトリガーすることができる。

【0036】

図４に示すように、テキスト入力領域３０ｉは、テキスト貼り付けコントロール３０ｊ、及び前回テキストコントロール３０ｋをさらに含んでもよく、ターゲットユーザーがテキスト貼り付けるコントロール３０ｊに対してトリガー操作を実行すると、ターゲットユーザーが他のアプリケーションにおいてプロンプトテキストデータを編集し、他のアプリケーションからプロンプトテキストデータをコピーしたことを示し、ユーザー端末３０ａはテキスト貼り付けコントロール３０ｊに対するトリガー操作に応答して、ターゲットユーザーによってコピーされたプロンプトテキストデータをテキスト入力領域３０ｉに貼り付ける。ターゲットユーザーが今回のビデオ録画サービスで録画したビデオが、前回のビデオ録画サービスで録画したビデオを再録画したものである場合、ターゲットユーザーは前回テキストコントロール３０ｋに対してトリガー操作を実行でき、ユーザー端末３０ａは前回テキストコントロール３０ｋに対するトリガー操作に応答して、前回のビデオ録画サービスにおけるプロンプトテキストデータを取得して、前回のビデオ録画サービスにおけるプロンプトテキストデータをテキスト入力領域３０ｉに表示し、前回のビデオ録画サービスで使用されたプロンプトテキストデータを直接に今回のビデオ録画サービスのプロンプトテキストデータとする。ターゲットユーザーは、前回のビデオ録画サービスでの経験に基づいて、テキスト入力領域３０ｉにおいて前回のビデオ録画サービスで使用されたプロンプトテキストデータを調整することができ、例えば、ターゲットユーザーは、前回のビデオ録画サービスにおいてプロンプトテキストデータにおけるフレーズ１に論理的誤りが存在することを発見すると、今回のビデオ録画サービスにおいて、テキスト入力領域３０ｉに前回のビデオ録画サービスのプロンプトテキストデータを修正することができる。

【0037】

ここで、テキスト貼り付けコントロール３０ｊ及び前回テキストコントロール３０ｋによってテキスト入力領域３０ｉに入力されたプロンプトテキストデータは、同様に、プロンプトテキストデータの文字数及び推定完成品長さをテキスト入力領域３０ｉの領域３０ｍに表示する。本出願の実施例において、ターゲットユーザーはテキスト貼り付けコントロール３０ｊ及び前回テキストコントロール３０ｋを使用して、ビデオ録画サービスにおけるプロンプトテキストデータをテキスト入力領域３０ｉに入力することで、ビデオ録画サービスにおけるプロンプトテキストデータの入力効率を向上させることができる。

【0038】

サービス起動操作が音声起動操作であると、ターゲットユーザーはプロンプトテキストデータの編集操作を完了した後、ビデオアプリケーションにおけるビデオ録画サービスに対して音声起動操作を実行することができ、コンピュータ機器は上記の音声起動操作に応答して、当該ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションをビデオアプリケーションの録画ページに表示することができ、録画カウントダウンアニメーションが終了すると、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行し、即ち、ビデオ録画を正式に開始させる。録画ページに録画カウントダウンアニメーションを再生すると、コンピュータ機器に対応する撮影機器をオンにすることができ、ターゲットユーザーは、最適な撮影角度を見つけるために、録画ページに表示されるビデオ画面に基づいて自分及びコンピュータ機器の位置を調整することができる。録画ページには、録画カウントダウンアニメーションに対応するアニメーションキャンセルコントロールがさらに表示されてもよく、ターゲットユーザーは、ビデオ録画の準備を完成した後、アニメーションに対してコントロールトリガー操作の実行を取り消すことで、録画カウントダウンアニメーションをキャンセルすることができ、即ち、コンピュータ機器は、ターゲットユーザーによるアニメーションキャンセルコントロールに対するトリガー操作に応答して、録画ページにおいて録画カウントダウンアニメーションの表示をキャンセルし、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行することができる。言い換えると、ターゲットユーザーがビデオ録画サービスを音声で起動した後、ビデオアプリケーションにおいて、直接に正式な録画モードに入らず、録画ページに録画カウントダウンアニメーションを再生して、短い録画準備時間（即ち、録画カウントダウンアニメーションの長さ、例えば、５秒である）をターゲットユーザーに提供し、録画カウントダウンアニメーションの再生が完成した後、正式な録画モードに入る。又は、ターゲットユーザーは、録画の準備ができていれば、カウントダウンアニメーションの表示をキャンセルし、正式な録画モードに直接に入ってもよい。

【0039】

図５を併せて参照し、図５は本出願の実施例で提供される、ビデオアプリケーションにおいてビデオ録画サービスを起動するインターフェース概略図である。ターゲットユーザーは、プロンプトテキストデータの編集操作を完成した後、次の操作を実行して（例えば、上記の図４に対応する実施例における「次へ」コントロール３０ｎに対してトリガー操作を実行する）、録画ページにおいてテキスト入力領域の表示を終了することができる。図５に示すように、ターゲットユーザーは、プロンプトテキストデータの編集を完成して、次の操作を実行した後、録画ページ４０ｂにおいてテキスト入力領域を終了し、ターゲットユーザーのビデオ画面を録画ページ４０ｂの領域４０ｃに表示するとともに、（「携帯電話を適切な位置に置いて、テレプロンプター撮影を起動させるように、「開始」と言ってください」）プロンプト情報４０ｄを録画ページ４０ｂに表示することができ、即ち、ビデオ録画サービスを起動する前、ユーザー端末４０ａ（この場合、ユーザー端末４０ａをコンピュータ機器と呼ぶことがある）は、それに関連付けられる撮影機器（例えば、ユーザー端末４０ａのカメラ）を起動し、ターゲットユーザーの画像データを収集し、収集された画像データを、ターゲットユーザーに対応するビデオ画面にレンダリングし、ターゲットユーザーのビデオ画面を録画ページ４０ｂの領域４０ｃに表示することができる。ターゲットユーザーは、最適な撮影角度を見つけるために、領域４０ｃに表示されるビデオ画面に基づいて自分及びカメラの位置を調整することができる。

【0040】

ターゲットユーザーは、自分及びカメラの位置を調整した後、即ち、ビデオ録画の準備作業を完成した後、ビデオアプリケーションにおけるビデオ録画サービスを起動するように、「開始」と言うことができる。ターゲットユーザーが「開始」と言って、ビデオアプリケーションにおけるビデオ録画サービスに対して音声起動操作を実行した後、ユーザー端末４０ａはビデオ録画サービスに対する音声起動操作に応答して、録画カウントダウンアニメーションを録画ページ４０ｂの領域４０ｅに表示することができ、当該録画カウントダウンアニメーションの長さは５秒である。無論、録画ページ４０ｂの領域４０ｅには、プロンプトテキストデータの最初の数文（例えば、プロンプトテキストデータの最初の2文）がさらに表示されてもよい。

【0041】

録画ページ４０ｂにおける録画カウントダウンアニメーションの再生が終了すると、ユーザー端末４０ａはビデオアプリケーションにおけるビデオ録画サービスを起動して実行することができる。ターゲットユーザーは、録画カウントダウンアニメーションの再生が完了する前にビデオ録画サービスを起動したいと、録画ページ４０ｂにおけるアニメーションキャンセルコントロール
４０ｆに対してトリガー操作を実行して、再生録画ページ４０ｂにおける録画カウントダウンアニメーションをキャンセルし、直接にビデオ録画サービスを起動して実行することができる。正式なビデオ録画が開始された後、ターゲットユーザーは話し始めて、ユーザー端末４０ａはターゲットユーザーのユーザー音声を収集し、プロンプトテキストデータからユーザー音声にマッチングするターゲットテキストを検索し、録画ページ４０ｂの領域４０ｇにおいてターゲットテキストをマーキングしてもよく（例えば、ターゲットテキストに対して太字、拡大処理を行う）、なお、ターゲットテキストの具体的な決定プロセスについて、以下のＳ１０２において記載する。

【0042】

Ｓ１０２において、ビデオ録画サービスにおけるユーザーの音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングする。

【0043】

正式なビデオ録画が開始された後、コンピュータ機器はオーディオ収集機能を起動して、ターゲットユーザーのビデオ録画サービスにおけるユーザーの音声を収集し、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを検索し、録画ページにおいてプロンプトテキストデータに含まれるターゲットテキストをマーキングすることができる。コンピュータ機器はターゲットユーザーのビデオ録画サービスにおけるユーザー音声をリアルタイムで収集し、ユーザー音声に対してテキスト変換を行うことで、プロンプトテキストデータにおいてユーザー音声に対応するテキスト位置を決定し、テキスト位置に基づいてユーザー音声に対応するターゲットテキストを決定し、録画ページにおいてターゲットテキストをマーキングすることができる。マーキング子は、テキストの表示色、テキストのフォントサイズ、テキストの背景を含むが、これらに限定されず、ターゲットテキストは、ユーザー音声テキストを含むテキストデータであってもよく、例えば、ユーザー音声テキストは新年であり、この場合、ターゲットテキストは「新年」を含む完全なフレーズであってもよく、例えば、来年の丑年、ご多幸をお祈り申し上げることである。

【0044】

コンピュータ機器は、直接収集した音声をユーザー初期音声と呼ぶ。即ち、コンピュータ機器はビデオ録画サービスにおけるユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出（Ｖｏｉｃｅ
ＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）を行うことで、ユーザー初期音声における有効音声データを取得し、有効音声データをユーザー音声として決定することができる。そして、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストと、ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、プロンプトテキストデータにおいてユーザー音声テキストにマッチングするターゲットテキストを決定し、ビデオ録画サービスの録画ページにおいてターゲットテキストをマーキングすることができる。言い換えると、コンピュータ機器によって収集されたユーザー初期音声はターゲットユーザーが存在する環境の雑音、及びターゲットユーザーの会話中の停止部分を含み得るため、ユーザー初期音声に対して音声区間検出を行うことで、ユーザー初期音声における無音及び雑音を干渉情報として削除し、ユーザー初期音声における有効音声データを保留することができ、この場合、有効音声データはターゲットユーザーのユーザー音声と呼ばれてもよい。コンピュータ機器は、高速音声－文字変換モデルによって、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストとプロンプトテキストデータとを比較し、プロンプトテキストデータにおけるユーザー音声テキストのテキスト位置を検索し、さらに、テキスト位置に基づいてテキストデータにおいてユーザー音声に対応するターゲットテキストを決定し、ビデオ録画サービスの録画ページにおいてターゲットテキストをマーキングすることができる。

【0045】

高速音声－文字変換モデルは、ユーザー音声を文字に変換する過程で、コンテキストに対して誤り訂正を行い、セマンティックが正確であるかどうかを配慮する必要がなく、変換後の文字発音がユーザー音声とマッチングするかどうかを判断することだけが必要であることを指す。プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定する場合、コンピュータ機器はユーザー音声テキストの発音及びプロンプトテキストデータの発音に基づいて、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。つまり、コンピュータ機器はユーザー音声テキストに対応する第１の音節情報、及びビデオ録画サービスに関連付けられたプロンプトテキストデータに対応する第２の音節情報を取得し、第２の音節情報から第１の音節情報と同じターゲット音節情報を取得し、プロンプトテキストデータにおいてターゲット音節情報に対応するターゲットテキストを決定することができる。

【0046】

音節情報は中国語のピンイン情報や、英語の音声記号情報などであってもよい。プロンプトテキストデータが中国語である場合、コンピュータ機器はユーザー音声テキストを第１のピンイン情報に変換し、プロンプトテキストデータを第２のピンイン情報に変換し、第２のピンイン情報から第１のピンイン情報に対応するテキスト位置を見つけ、テキスト位置に基づいてプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。プロンプトテキストデータが英語などの他の言語である場合、コンピュータ機器は、ユーザー音声テキストを第１の音声記号情報に変換し、プロンプトテキストデータを第２の音声記号情報に変換し、さらに、第１の音声記号情報及び第２の音声記号情報に基づいて、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。中国語の場合、同じ発音は異なる文字に対応するため、ピンインマッチングの方式でターゲットテキストの決定効率を向上させることができ、異なる発音が異なる文字に対応する言語（例えば、英語）について、コンピュータ機器はユーザー音声テキストに含まれる字母とプロンプトテキスト数に含まれる字母とを直接にマッチングし、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。

【0047】

ここで、ビデオ録画サービスでは、録画ページにおけるターゲットテキストを表示するための領域は、コンピュータ機器の端末スクリーンのサイズに基づいて設定されることができ、例えば、上記の図５に示す録画ページ４０ｂにおける領域４０ｇは、表示幅がコンピュータ機器（例えばユーザー端末４０ａ）のスクリーン幅と同様であり、表示高さがコンピュータ機器のスクリーンの高さよりも低い。コンピュータ機器の端末スクリーンのサイズが大きい（例えば、デスクトップパソコンのディスプレイ）場合、ターゲットテキストを表示するための領域のサイズ幅がコンピュータ機器の端末スクリーンのサイズ幅と同様であれば、ビデオ録画サービスにおいて、ターゲットユーザーがターゲットテキストを見る動作（例えば、ターゲットユーザーがターゲットテキストを見る際に、端末スクリーンの左側から右側への移動）は録画されるため、最終的なビデオ録画において、ターゲットユーザーの動作及び表情が何れも不自然になり、さらに、ビデオ録画の品質が低く過ぎる。従って、ビデオ録画においてターゲットユーザーの動作及び表情が自然であることを確保するために、コンピュータ機器に対応する撮影機器の位置に基づいて、ビデオ録画サービスの録画ページにおいてターゲットテキストに対応するテキストプロンプト領域を決定し、プロンプトテキストデータにおけるターゲットテキストのテキスト位置に基づいて、テキストプロンプト領域においてターゲットテキストをマーキングすることができる。言い換えると、ビデオ録画サービスにおいて、ターゲットユーザーはカメラに向いて、テキストプロンプト領域とコンピュータ機器の撮影機器とが同一の方位に位置する場合、ビデオ録画サービスで録画されたビデオにおいて、ターゲットユーザーの動作は自然である。

【0048】

図６を併せて参照し、図６は本出願の実施例で提供される、プロンプトテキストデータを表示するインターフェース概略図である。図６に示すように、ユーザー端末５０ａ（即ち、上記のコンピュータ機器）はプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストである「週末、長沙でｘｘとｘｘが共催する消費者クラスに参加する」を決定した後、端末装置５０ａのカメラ５０ｄの位置に基づいて、ビデオ録画サービスの録画ページ５０ｂにおいてターゲットテキストを表示するためのテキストプロンプト領域５０ｅを決定することができ、当該テキストプロンプト領域５０ｅはカメラ５０ｄと同一の方位に位置する。正式なビデオ録画が開始された後、録画ページ５０ｂの領域５０ｃにターゲットユーザーのビデオ画面を表示して、録画ページ５０ｂの領域５０ｆにビデオ録画長さを表示してもよい（例えば、ビデオ録画長さは００:１３秒である）。

【0049】

ビデオ録画サービスにおいて、コンピュータ機器はターゲットユーザーのユーザー初期音声をリアルタイムで収集し、ユーザー初期音声に対応する音声の長さ、及びユーザー初期音声に含まれる音声文字数を取得して、音声文字数と音声の長さとの比をユーザーの話速として決定することができ、ユーザーの話速が話速閾値（当該話速閾値は、実際のニーズに応じて人為的に設定されてもよく、例えば、話速閾値は５００字／１分である）よりも大きいと、話速プロンプト情報を録画ページに表示し、当該話速プロンプト情報は、ユーザーの話速を低減するように、ビデオ録画サービスに関連付けられたターゲットユーザーに提示するために用いられる。言い換えると、コンピュータ機器はターゲットユーザーのユーザーの話速をリアルタイムで取得でき、ユーザーの話速が話速閾値よりも大きいと、ターゲットユーザーのビデオ録画サービスにおける話速が速すぎることを示し、発話速度を適切に下げるように、ターゲットユーザーに促してもよい。

【0050】

図７を併せて参照し、図７は本出願の実施例で提供される、話速プロンプト情報を表示するインターフェース概略図である。図７に示すように、ユーザー端末６０ａ（即ち、上記のコンピュータ機器）は、ターゲットユーザーのユーザー初期音声を収集した後、ユーザー初期音声に含まれる音声文字数及び音声の長さに基づいて、ターゲットユーザーのユーザーの話速を決定することができ、ターゲットユーザーのビデオ録画サービスにおけるユーザーの話速が速すぎる（即ち、話速閾値よりも大きい）と、話速プロンプト情報６０ｃ（例えば、話速プロンプト情報は、「現在の話速が速すぎて、ビデオ録画の品質を確保するために、話速を遅くしてください」）をビデオ録画サービスの録画ページ６０ｂに表示してもよい。無論、実際の応用において、話速を遅くするように、音声放送によりターゲットユーザーに促してもよいが、本出願の実施例では、話速プロンプト情報の展示形態を限定していない。

【0051】

ビデオ録画中に、ビデオ録画サービスの録画ページには、録画キャンセルコントロール、及び録画完了コントロールがさらに含まれてもよい。ターゲットユーザーが録画ページにおける録画キャンセルコントロールに対してトリガー操作を実行した後、コンピュータ機器は、録画キャンセルコントロール的に対するトリガー操作に応答して、ビデオ録画サービスをキャンセルし、ビデオ録画サービスで録画されたビデオデータを削除し、ビデオ録画サービスに対する録画プロンプト情報を生成することができ、録画プロンプト情報を録画ページに表示し、なお、録画プロンプト情報は再録画コントロールを含んでもよい。ターゲットユーザーが再録画コントロールに対してトリガー操作を実行した後、コンピュータ機器は、再録画コントロールに対するトリガー操作に応答して、録画ページに表示されるターゲットテキストをプロンプトテキストデータに切り替えて表示し、即ち、プロンプトテキストデータを録画ページのテキスト入力領域に表示し、ビデオ録画サービスを再開始させることができる。無論、録画プロンプト情報はホームページ戻りコントロールをさらに含んでもよく、ターゲットユーザーがホームページ戻りコントロールに対してトリガー操作を実行し、コンピュータ機器は、ホームページ戻りコントロールに対するトリガー操作に応答して、ビデオアプリケーションにおいて、録画ページをアプリケーションホームページに切り替えて表示し、即ち、実行しているビデオ録画サービスをキャンセルした後、しばらくビデオ録画サービスを開始しない。

【0052】

ターゲットユーザーが録画ページにおける録画完了コントロールに対してトリガー操作を実行した後、コンピュータ機器は録画完了コントロールに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、ビデオ録画サービスで録画されたビデオデータを、録画が完了したターゲットビデオデータとして決定することができる。即ち、プロンプトテキストデータの発表がまだ完了していない場合、ビデオ録画サービスを停止させ、ビデオ録画サービスを停止させる前に録画されたビデオを、ターゲットビデオデータと呼ばれる。

【0053】

図８を併せて参照し、図８は本出願の実施例で提供される、ビデオ録画サービスを停止させるインターフェース概略図である。図８に示すように、ユーザー端末７０ａ（即ち、上記のコンピュータ機器）はビデオ録画サービスにおけるターゲットユーザーのユーザー音声に基づいて、ビデオ録画サービスのプロンプトテキストデータにおいてユーザー音声のターゲットテキストを決定し、録画ページ７０ｂにおいてターゲットテキストをマーキングすることができ、即ち、ユーザー端末７０ａはユーザー音声の進行に従ってプロンプトテキストデータをスクロール表示することができる。ビデオ録画中に、録画ページ７０ｂには録画キャンセルコントロール７０ｃ、及び録画完了コントロール７０ｄがさらに表示されてもよい。ターゲットユーザーが録画完了コントロール７０ｄに対してトリガー操作を実行すると、ユーザー端末７０ａは録画完了コントロール７０ｄに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、今回のビデオ録画サービスで録画されたビデオデータを保存し、即ち、今回のビデオ録画サービスを完了させることができる。ターゲットユーザーが録画キャンセルコントロール７０ｃに対してトリガー操作を実行すると、ユーザー端末７０ａは、録画キャンセルコントロール７０ｃに対するトリガー操作に応答して、ビデオ録画サービスをキャンセルして、今回のビデオ録画サービスで録画されたビデオデータを削除することができ、ユーザー端末７０ａはビデオ録画サービスにおけるターゲットユーザーに対して録画プロンプト情報７０ｅを生成し（例えば、録画プロンプト情報は「撮影済みのセグメントがクリアされ、セグメントを再撮影するか？」であってもよい）、録画プロンプト情報７０ｅをビデオ録画サービスの録画ページ７０ｂに表示する。当該録画プロンプト情報７０ｅは、「ホームページ戻り」コントロール及び「再撮影」コントロールを含んでもよく、ターゲットユーザーが「ホームページ戻り」コントロールに対してトリガー操作を実行すると、ユーザー端末７０ａはビデオ録画サービスを終了して、録画ページ７０ｂからビデオアプリケーションのアプリケーションホームページに戻ることができる。即ち、ターゲットユーザーは再撮影を中止する。ターゲットユーザーが「再撮影」コントロールに対してトリガー操作を実行すると、ユーザー端末７０ａはビデオ録画サービスを終了して、録画ページ７０ｂからテキスト入力領域に戻り、プロンプトテキストデータをテキスト入力領域に表示することができ、即ち、ターゲットユーザーは、ビデオを再録画することを選択する。

【0054】

Ｓ１０３において、プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置であると、ビデオ録画サービスに対応するターゲットビデオデータを取得する。

【0055】

ビデオ録画サービスにおいて、プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置であると、ターゲットユーザーがビデオ録画サービスの撮影作業を完成したことを示し、ターゲットユーザーの操作を必要とせず、コンピュータ機器はビデオ録画サービスを自動的に終了し、ビデオ録画サービスで録画されたビデオデータを保存し、ビデオ録画サービスで録画されたビデオデータをターゲットビデオデータとして決定する。

【0056】

コンピュータ機器は、ビデオ録画サービスを停止させる際に保存されたビデオデータを、オリジナルビデオデータとして決定して、ビデオアプリケーションの編集ページに入って、オリジナルビデオデータ、及びオリジナルビデオデータに対応する編集最適化コントロールをビデオアプリケーションの編集ページに表示することができる。ターゲットユーザーが編集ページに表示される編集最適化コントロールに対してトリガー操作を実行でき、この場合、コンピュータ機器は、編集最適化コントロールに対するトリガー操作に応答して、オリジナルビデオデータに対するＭ個の編集最適化方式を表示することができ、Ｍは正の整数であり、即ち、Ｍは、１、２、……を取ってもよく、本出願の実施例において、Ｍ個の編集最適化方式は、言違いを除去する編集最適化方式（第１の編集方式と呼ばれてもよい）、言違い及びフレーズ間のポーズを除去する編集最適化方式（第２の編集方式と呼ばれてもよい）を含んでもよいが、これらに限定されず、ターゲットユーザーがＭ個の編集最適化方式からある編集最適化方式を選択した場合、コンピュータ機器は、Ｍ個の編集最適化方式に対する選択操作に応答して、選択操作により決定された編集最適化方式に基づいて、オリジナルビデオデータに対して編集最適化処理を行うことで、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。編集ページにおけるオリジナルビデオデータ及びターゲットビデオデータの表示領域及び表示サイズは、実際の必要に応じて調整されてもよいことを理解されたい。例えば、オリジナルビデオデータ（又は、ターゲットビデオデータ）の表示領域は編集ページの上部、下部、中間領域などに位置してもよく、オリジナルビデオデータ（又は、ターゲットビデオデータ）の表示サイズは１６：９の表示比などであってもよい。

【0057】

選択操作により決定された編集最適化方式は第１の編集方式であり、即ち、ターゲットユーザーは言違いを除去する編集最適化方式を選択すると、コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データを取得し、ターゲット音声データをターゲットテキスト結果に変換し、さらに、ターゲットテキスト結果とプロンプトテキストデータとに対してテキスト比較を行うことで、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定し、オリジナルビデオデータからエラーテキストに対応する音声データを削除し、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。オリジナルビデオデータに対して編集最適化処理を行う過程で、コンピュータ機器は正確な音声－文字変換モデルを使用して、オリジナルビデオデータに含まれるターゲット音声データに対して文字変換処理を行うことができ、上記の正確な音声文字変換モデルはターゲット音声データにおけるセマンティック情報を学習でき、変換後のテキスト発音とユーザー音声との間の一致性だけではなく、ユーザー音声の間のセマンティック情報も考慮する必要があり、コンテキストセマンティック情報によって変換後のテキストに対して誤り訂正を行う。コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データに対して音声区間検出を行うことで、オリジナルビデオデータにおける雑音及び無音を除去して、オリジナルビデオデータにおける有効音声データを取得し、正確な音声－文字変換モデルによって、有効音声データに対して文字変換を行うことで、ターゲット音声データに対応するターゲットテキスト結果を取得し、ターゲットテキスト結果に含まれる文字と、プロンプトテキストデータに含まれる文字とを１つずつ比較して、さらに、ターゲットテキスト結果とプロンプトテキストデータとの間の異なるテキストをエラーテキストとして決定することができ、ここで、エラーテキストは、ビデオ録画サービスの録画におけるターゲットユーザーの言違いによって生成される可能性がある。コンピュータ機器は、エラーテキストに対応する音声データをオリジナルビデオデータから削除して、最終的なターゲットビデオデータを取得する。

【0058】

選択操作により決定された編集最適化方式は第２の編集方式であり、即ち、ターゲットユーザーは言違い及びフレーズ間のポーズを除去する編集最適化方式を選択すると、コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換して、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定し、さらに、ターゲットテキスト結果をＮ個のテキスト文字に分割して、ターゲット音声データにおけるＮ個のテキスト文字のタイムスタンプをそれぞれ取得することができ、Ｎは正の整数であり、例えば、Ｎは１、２、…を取ってもよく、コンピュータ機器はタイムスタンプに基づいてターゲット音声データにおける音声ポーズセグメントを決定し、オリジナルビデオデータから音声ポーズセグメント及びエラーテキストに対応する音声データを削除し、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。コンピュータ機器がエラーテキストを決定するプロセスについて、上記の第１の編集方式を選択する際の記載を参照でき、ここで贅言していない。

【0059】

コンピュータ機器が音声ポーズセグメントを取得するプロセスは以下のことを含むことがでる。コンピュータ機器は、ターゲット音声データに対応するターゲットテキスト結果に対して単語分割処理を行って、Ｎ個のテキスト文字、及びターゲット音声データにおける各テキスト文字のタイムスタンプ、即ち、オリジナルビデオデータにおけるタイムスタンプをそれぞれ取得し、Ｎ個のテキスト文字のうちの、隣接している２つのテキスト文字ごとにそれぞれ対応するタイムスタンプに基づいて、隣接している２つのテキスト文字ごとの間の時間間隔を取得し、隣接している２つのテキスト文字の間の時間間隔が時間長さ閾値よりも大きいと（例えば、時間長さ閾値は１.５秒に設定されてもよい）、隣接している２つのテキスト文字の間の音声セグメントを音声ポーズセグメントとして決定することができ、音声ポーズセグメントの数は１つであってもよいし、複数であってもよいし、さらに、ゼロであってもよい（即ち、音声ポーズセグメントが存在しない）。例えば、ターゲットテキスト結果における配列順序に従って、Ｎ個のテキスト文字は、テキスト文字１、テキスト文字２、テキスト文字３、テキスト文字４、テキスト文字５、及びテキスト文字６として表すことができ、オリジナルビデオデータにおけるテキスト文字１のタイムスタンプはｔ１であり、オリジナルビデオデータにおけるテキスト文字２のタイムスタンプはｔ２であり、オリジナルビデオデータにおけるテキスト文字３のタイムスタンプはｔ３であり、オリジナルビデオデータにおけるテキスト文字４のタイムスタンプはｔ４であり、オリジナルビデオデータにおけるテキスト文字５のタイムスタンプはｔ５であり、オリジナルビデオデータにおけるテキスト文字６のタイムスタンプはｔ６であり、コンピュータ機器がテキスト文字２とテキスト文字３との間の時間間隔が時間長さ閾値よりも大きいと計算した場合、テキスト文字２とテキスト文字３との間の音声セグメントを音声ポーズセグメント１として決定し、テキスト文字５とテキスト文字６との間の時間間隔が時間長さ閾値よりも大きいと計算した場合、テキスト文字５とテキスト文字６との間の音声セグメントを音声ポーズセグメント２として決定する。オリジナルビデオデータからエラーテキストに対応する音声、及び音声ポーズセグメント１、音声ポーズセグメント２にそれぞれ対応するビデオセグメントを削除して、最終的なターゲットビデオデータを取得できる。

【0060】

図９を併せて参照し、図９は本出願の実施例で提供される、ビデオ録画に対して編集最適化を行うインターフェース概略図である。図９に示すように、ビデオ録画サービスが完了した後、ビデオアプリケーションの編集ページ８０ｂに入って、編集ページ８０ｂにおいてビデオ録画サービスで録画されたビデオデータ８０ｃ（例えば、上記のオリジナルビデオデータ）をプレビュー再生することができ、ビデオデータ８０ｃは１６：９の比に従って、編集ページ８０ｂに表示されてもよく、ビデオデータ８０ｃに対応する時間軸８０ｄを当該編集ページ８０ｂに表示し、当該時間軸８０ｄはビデオデータ８０ｃにおけるビデオノードを含んでもよく、ターゲットユーザーは時間軸８０ｄにおけるビデオノードによってビデオデータ８０ｃにおける再生点を迅速に位置決めすることができる。編集ページ８０ｂには編集最適化コントロール８０ｅ（編集最適化オプションボタンとも呼ばれ得る）がさらに表示されてもよく、ターゲットユーザーが編集最適化コントロール８０ｅに対してトリガー操作を実行すると、ユーザー端末８０ａ（即ち、コンピュータ機器）は編集最適化コントロール８０ｅに対するトリガー操作に応答して、編集ページ８０ｂに選択ページ８０ｆをポップアップする（本出願の実施例において、選択ページは、編集ページにおけるある領域、編集ページに独立して表示されるサブページ、編集ページにおけるフローティングページ、又は編集ページをカバーするページであってもよいが、ここで選択ページの展示形態を限定していない）。

【0061】

選択ページ８０ｆにおいて、ビデオデータ８０ｃに対する異なる編集最適化方式、及び異なる編集最適化方式にそれぞれ対応するビデオの長さを表示することができ、図９に示すように、ターゲットユーザーが選択ページ８０ｆに「言違い部分を除去する」（即ち、上記の第１の編集方式）を選択すれば、編集最適化後のビデオデータ８０ｃのビデオの長さは５７秒（ビデオデータ８０ｃのビデオの長さは６０秒である）であり、ターゲットユーザーが選択ページ８０ｆに「言違い及びフレーズ間のポーズを除去する」（即ち、上記の第２の編集方式）を選択すれば、編集最適化後のビデオデータ８０ｃのビデオの長さは５０秒であり、ターゲットユーザーが選択ページ８０ｆにおいて何も処理を行わないと、ビデオデータ８０ｃをそのまま保持して処理しない。ターゲットユーザーが「言違い部分を除去する」という最適化編集方式を選択した場合、ユーザー端末８０ａはビデオデータ８０ｃにおけるターゲット音声データに対してテキスト変換処理を行うことで、ターゲット音声データに対応するターゲットテキスト結果を取得し、ターゲットテキスト結果とプロンプトテキストデータに対して文字マッチングを行って、エラーテキストを決定し、ビデオデータ８０ｃにおいてエラーテキストに対応する音声データを削除して、ターゲットビデオデータを取得することができ、ここで、ターゲットビデオデータは、言違い部分が削除されたビデオデータである。ターゲットユーザーが「言違い及びフレーズ間のポーズを除去する」という最適化編集方式を選択した場合、ユーザー端末８０ａはビデオデータ８０ｃからエラーテキストに対応する音声データ、及びビデオデータ８０ｃにおける音声ポーズセグメントを削除することで、ひいては、ターゲットビデオデータを取得し、ここで、ターゲットビデオデータは、言違い部分及びフレーズ間のポーズ部分が削除されたビデオデータである。ターゲットビデオデータを取得した後、ターゲットユーザーは、情報公開プラットフォームにおけるユーザー端末が当該ターゲットビデオデータを閲覧できるように、ターゲットビデオデータを保存したり、ターゲットビデオデータを情報公開プラットフォームにアップロードしたりすることができる。

【0062】

上記のエラーテキストは、Ｋ個のエラーサブテキストを含み得、Ｋは正の整数であり、例えば、Ｋは、１、２、…の値をとることができ、コンピュータ機器は、Ｋ個のエラーサブテキスト及びオリジナルビデオデータに対応するビデオの長さに基づいて、ビデオ録画サービスにおけるエラー頻度を決定することができ、エラー頻度がエラー閾値（例えば、エラー閾値は、1 分あたり2回のエラーに設定されてもよい）よりも大きいと、Ｋ個のエラーサブテキストにそれぞれ対応するスピーチエラータイプを認識し、さらに、ビデオアプリケーションにおいてスピーチエラータイプに関連付けられたチュートリアルビデオを、ビデオ録画サービスに関連するターゲットユーザーにプッシュすることができる。言い換えると、コンピュータ機器は、エラーテキストに対応するスピーチエラータイプに基づいて、ビデオアプリケーションにおいて相応するチュートリアルビデオをターゲットユーザーに推奨することができ、スピーチエラータイプは、共通語が標準ではないこと、発音エラー、発音がはっきりしないことを含むが、これらに限定されていない。例えば、オリジナルビデオデータのビデオの時間長さは１分であり、ターゲットユーザーがオリジナルビデオデータに3つのエラーが生じた場合、コンピュータ機器は3つのエラーに対応するエラーサブテキストのスピーチエラータイプを決定でき、スピーチエラータイプが共通語が標準ではないタイプであれば、コンピュータ機器はビデオアプリケーションにおいて、共通語チュートリアルビデオをターゲットユーザーにプッシュし、スピーチエラータイプが発音エラータイプであれば、コンピュータ機器はビデオアプリケーションにおいて中国語チュートリアルビデオをターゲットユーザーにプッシュし、スピーチエラータイプが発音がはっきりしないタイプであれば、コンピュータ機器はビデオアプリケーションにおいて吹替チュートリアルビデオをターゲットユーザーにプッシュすることができる。

【0063】

図１０を併せて参照し、図１０は本出願の実施例で提供される、スピーチエラータイプに基づいてチュートリアルビデオを推奨するインターフェース概略図である。図１０に示すように、ターゲットユーザーが「言違い部分を除去する」という編集最適化方式を選択することを仮定すると、ビデオ録画サービスに録画されたオリジナルビデオデータに対して編集最適化を行うことで、編集最適化後のターゲットビデオデータ９０ｃ（即ち、言違い部分を除去した録画ビデオ）を取得し、ユーザー端末９０ａ（即ち、上記のコンピュータ機器）は、編集ページ９０ｂにターゲットビデオデータ９０ｃを表示させ、編集ページ９０ｂに時間軸９０ｄをさらに表示させることができ、当該時間軸９０ｄはターゲットビデオデータ９０ｃに関連付けられたビデオノードを含むことができ、時間軸９０ｄにおけるビデオノードをトリガーすることで、ターゲットビデオデータ９０ｃにおける特定の時点を位置決めして再生することができ、ターゲットユーザーは、編集ページ９０ｂにターゲットビデオデータ９０ｃに対してプレビュー再生を行うことができる。ユーザー端末９０ａは、編集最適化プロセスにおけるエラーテキストに対応するスピーチエラータイプに基づいて、ビデオアプリケーションにおいて、スピーチエラータイプにマッチングするチュートリアルビデオをターゲットユーザーにプッシュすることができ、図１０に示すように、エラーテキストに対応するスピーチエラータイプは、共通語が標準ではないタイプであり、つまり、言違いの原因は共通語が標準ではないことであれば、ユーザー端末９０ａはビデオアプリケーションから、共通語ビデオ教学用のチュートリアルビデオ（即ち、共通語チュートリアルビデオ）を取得し、プッシュされた共通語チュートリアルビデオを編集ページ９０ｂの領域９０ｅに表示させることができる。

【0064】

図１１を参照し、図１１は本出願の実施例で提供されるビデオ録画サービスの実現フローチャートである。図１１に示すように、ビデオアプリケーションのクライアント及びバックグランドサーバーを例として、ビデオ録画サービスの実現過程について記述し、ここで、クライアント及びバックグランドサーバーはコンピュータ機器と呼ばれてもよく、ビデオ録画サービスの実現フローは以下のＳ１１～Ｓ２５によって実現される。

【0065】

Ｓ１１において、プロンプトテキストデータを入力する。即ち、ターゲットユーザーはビデオアプリケーションのクライアントを開き、クライアントの撮影ページに入って、撮影ページのテレプロンプター撮影エントリから録画ページに入ることができ、ここで、録画ページはテキスト入力領域を含み得、ターゲットユーザーはテキスト入力領域にプロンプトテキストデータを入力することができる。プロンプトテキストデータの編集が完成した後、ターゲットユーザーはＳ１２を実行して、音声で「開始」を起動することができ、即ち、「開始」をウェイクワードとしてもよく、ターゲットユーザーが「開始」と言ったら、クライアントはユーザーの音声起動操作に応答して、Ｓ１３を実行し、ビデオ録画サービスを開始させ、即ち、録画モードに入り始めることができる。

【0066】

Ｓ１４において、録画モードに入った後、ターゲットユーザーはスクリーンでの文字を読むことができ（当該スクリーンは、当該クライアントがインストールされた端末機器のスクリーンであり、この場合、端末機器のスクリーンでの文字はプロンプトテキストデータにおける一部のテキストコンテンツであってもよく、例えば、録画モードに入る場合、表示される文字はプロンプトテキストデータにおける最初の二言であってもよい）、クライアントはターゲットユーザーのユーザー初期音声を収集し、ユーザー初期音声をビデオアプリケーションのバックグランドサーバーに伝送して、テキスト変換コマンドをバックグランドサーバーに送信することができる。バックグランドサーバーは、クライアントによって送信されたユーザー初期音声及びコマンドを受信した後、Ｓ１５を実行し、音声区間検出技術（ＶＡＤ技術）によってユーザー初期音声を検出して、ユーザー初期音声における雑音及び無音を削除し、ターゲットユーザーに対応するユーザー音声（即ち、有効音声データ）を取得することができる。ここで、Ｓ１５は、クライアントがロカールの音声区間検出モジュールを介して実行されてもよいし、バックグランドサーバーがＶＡＤ技術を使用して実行されてもよい。

【0067】

Ｓ１６において、バックグランドサーバーは、高速文字変換モデルを使用してユーザー音声に対してテキスト変換を行うことで、ユーザー音声を文字（即ち、ユーザー音声テキスト）に変換することができる。次に、Ｓ１７を実行し、ユーザー音声テキストをピンイン（文字）に変換する（本出願の実施例において、テキストプロンプトデータはデフォルトで中国語である）。さらに、Ｓ１８を実行し、バックグランドサーバーはターゲットユーザーによって入力されたプロンプトテキストデータを取得し、プロンプトテキストデータをピンインに変換し、ユーザー音声テキストのピンインとプロンプトテキストデータのピンインとをマッチングすることができる。次に、Ｓ１９を実行し、プロンプトテキストデータにおいてユーザー音声にマッチングする文字位置を見つけて、ユーザー音声の、プロンプトテキストデータにおける文字位置をクライアントに伝送する。

【0068】

Ｓ２０において、クライアントは、バックグランドサーバーによって伝送された文字位置を受信した後、文字位置に基づいて、ユーザー音声に対応するターゲットテキストを決定し、クライアントの録画ページにおいてターゲットテキストをマーキングすることができ、即ち、文字位置に基づいてプロンプトテキストデータをスクロール表示することができ、ターゲットユーザーがプロンプトテキストデータにおける最後の字を読むと、クライアントはＳ２１を実行して、ビデオ録画サービスを終了することができる。無論、ターゲットユーザーは録画ページにおける録画完了コントロール又は録画キャンセルコントロールをトリガーして、ビデオ録画サービスを終了させてもよい。

【0069】

ビデオ録画サービスを終了すると、クライアントはビデオ録画サービスに対応する録画ビデオ（即ち、上記のオリジナルビデオデータ）をバックグランドサーバーに伝送して、バックグランドサーバーにテキスト変換コマンドを送信することができ、バックグランドサーバーは、テキスト変換コマンドを受信した後、Ｓ２２を実行して、正確な文字変換モデルを使用して録画ビデオに含まれる音声データに対してテキスト変換を行うことで、録画ビデオに含まれる音声データを文字（即ち、ターゲットテキスト結果）に変換して、ビデオ録画における文字の出現タイム、言い換えると、ビデオ録画における文字のタイムスタンプを取得することができ、この場合、バックグランドサーバーはＳ２３及びＳ２４を並行して実行してもよい。

【0070】

Ｓ２３において、バックグランドサーバーはターゲットテキスト結果とプロンプトテキストデータとを比較して、ビデオ録画における言違い部分（即ち、上記のエラーテキストに対応する音声データ）を見つけることができる。Ｓ２４において、バックグランドサーバーは、録画ビデオにおける文字の出現タイム（即ち、タイムスタンプ）によって、録画ビデオに含まれるユーザー音声におけるポーズ部分を見つけることができる。バックグランドサーバーは録画ビデオにおける言違い部分及びポーズ部分を何れもクライアントに伝送することができる。クライアントは、バックグランドサーバーによって伝送された言違い部分及びポーズ部分を受信した後、Ｓ２５を実行し、言違い部分及びポーズ部分に基づいて、クライアントにおいて異なる編集最適化方式をターゲットユーザーに提供することができ、ターゲットユーザーはクライアントにて提供された複数の編集最適化方式から適切な編集最適化方式を選択でき、クライアントはターゲットユーザーが選択した編集最適化方式に基づいて、録画ビデオに対して編集最適化を行うことで、最終的なターゲットビデオデータを取得することができる。

【0071】

本出願の実施例において、ユーザーは、ビデオアプリケーションにプロンプトテキストデータを入力した後、音声でビデオ録画サービスを起動し、ビデオ録画サービスの録画中で、テレプロンプター機能をユーザーに提供することができ、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを位置決めし、ビデオアプリケーションにおいてターゲットテキストをマーキングし、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話しているコンテンツにマッチングし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減させ、さらに、録画ビデオの品質を向上させることができる。ユーザー音声によりビデオ録画サービスを起動は停止することで、ビデオ録画サービスにおけるユーザー操作を削減し、ビデオ録画の効果を高めることができ、ビデオ録画サービスが終了した後、ビデオ録画サービスにおけるビデオ録画に対して編集最適化を自動的に行うことができ、ビデオ録画の品質をさらに向上させることができる。

【0072】

図１２を参照し、図１２は本出願の実施例で提供されるデータ処理方法のフロー概略図である。当該データ処理方法はコンピュータ機器によって実行され得、当該コンピュータ機器はユーザー端末、スタンドアロンサーバー、複数のサーバーから構成されたクラスタ、若しくはユーザー端末及びサーバーから構成されたシステム、コンピュータプログラムアプリケーション（プログラムコードを含む）であってもよく、ここで具体的に限定していないことを理解されたい。図１２に示すように、当該データ処理方法は以下のＳ２０１～Ｓ２０３を含むことができる。

【0073】

Ｓ２０１において、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードする。

【0074】

ターゲットユーザーはテレプロンプターアプリケーションにプロンプトテキストデータを入力し、又は、編集されたプロンプトテキストデータをテレプロンプターアプリケーションにアップロードすることができる。コンピュータ機器はターゲットユーザーのテキスト入力操作、又はテキストアップロード操作に応答して、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードすることができる。つまり、テレプロンプターアプリケーションによって提供されるテレプロンプター機能を使用する場合、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードする必要がある。なお、本出願の実施例におけるコンピュータ機器はテレプロンプターアプリケーションがインストールされた機器を指し、テレプロンプターと呼ばれてもよい。

【0075】

Ｓ２０２において、ターゲットユーザーに対応するユーザーの音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成する。

【0076】

コンピュータ機器はターゲットユーザーのユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出を行い、ユーザー初期音声に含まれる雑音及び無音を削除することで、ターゲットユーザーに対応するユーザー音声（即ち、ユーザー初期音声における有効音声データ）を取得することができ、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成する。

【0077】

Ｓ２０３において、プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングする。

【0078】

コンピュータ機器はユーザー音声テキストを第１の音節情報に変換して、プロンプトテキストデータを第２の音節情報に変換し、第１の音節情報と第２の音節情報とを比較し、プロンプトテキストデータにおいてユーザー音声テキストのテキスト位置を決定し、テキスト位置に基づいてプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングすることができる。Ｓ２０２及びＳ２０３のより詳しい記載について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0079】

ターゲットユーザーの数は１つ又は複数であってもよく、異なるターゲットユーザーは異なるプロンプトテキストデータに対応し、ターゲットユーザーの数が１である場合、テレプロンプターアプリケーションにおけるターゲットテキストの決定及び展示過程について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ターゲットユーザーの数が複数である場合、コンピュータ機器は、ユーザー音声を収集した後に、ユーザー音声に対して声紋認識を行って、声紋認識結果に基づいて収集したユーザー音声に対応するユーザー身分を決定し、ユーザー身分に対応するプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングすることができる。声紋認識は、ユーザー音声データにおける声紋特徴（例えば、スペクトル、逆スペクトル、フォルマント、基音、反射係数など）を抽出して、声紋特徴を認識することで、ユーザー音声に対応するユーザー身分を決定することを指し、従って、声紋認識はスピーカー認識とも呼ばれる。

【0080】

以下、ターゲットユーザーの数が２であり、即ち、ターゲットユーザーが第１のユーザー及び第２のユーザーを含むことを例として説明し、この場合、プロンプトテキストデータは第１のユーザーに対応する第１のプロンプトテキスト、及び第２のユーザーに対応する第２のプロンプトテキストを含み、コンピュータ機器はユーザー音声におけるユーザー声紋特徴を取得し、ユーザー声紋特徴に基づいてユーザー音声に対応するユーザー身分を決定し、ユーザー身分が第１のユーザーであると、第１のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングし、ユーザー身分が第２のユーザーであると、第２のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングすることができる。言い換えれば、ターゲットユーザーの数が複数である場合、まず、ユーザー音声に対応するユーザー身分を決定する必要があり、そして、当該ユーザー身分に対応するプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングすることができ、テレプロンプターアプリケーションにおけるテレプロンプター機能の有効性を向上させることができる。

【0081】

図１３を併せて参照し、図１３は本出願の実施例で提供されるテレプロンプターの適用シナリオ概略図である。パーティーのテレプロンプターシナリオを例として、データ処理プロセスについて説明し、図１３に示すように、パーティーの司会者のセリフ９０ａ（即ち、プロンプトテキストデータ）を予め編集して、セリフ９０ａをテレプロンプター（上記のテレプロンプターアプリケーションが存在する機器であり、セリフ提示機能を司会者に提供するとして理解される場合がある）にアップロードすることができ、セリフ９０ａには、司会者Ａさんのセリフ及び司会者Ｂさんのセリフを含むことができ、テレプロンプターはセリフ９０ａを受信した後、セリフ９０ａをロカールに保存することができる。パーティー中、テレプロンプターは、全ての司会者の音声データをリアルタイムで収集でき、テレプロンプターは、司会者のユーザー音声を収集すると、ユーザー音声に対して声紋認識を行い、声紋認識結果に基づいてユーザー音声に対応するユーザー身分を決定することができる。収集されたユーザー音声のユーザー身分がＡさんである場合、テレプロンプターは、司会者Ａさんのセリフから、収集されたユーザー音声にマッチングするターゲットテキスト（例えば、「冬の暖かい祝福と満ち足りた喜びを持つ」）を検索して、テレプロンプターにおいて「冬の暖かい祝福と満ち足りた喜びを持つ」ことをマーキングすることができる。

【0082】

収集されたユーザー音声のユーザー身分がＢさんである場合、テレプロンプターは、司会者Ｂさんのセリフから、収集されたユーザー音声にマッチングするターゲットテキスト（例えば、「過去1年間、私たちは汗をかく」）ことを検索して、テレプロンプターにおいて「過去1年間、私たちは汗をかく」ことをマーキングすることができる。

【0083】

本出願の実施例において、テレプロンプターは、ターゲットユーザーが読んでいるフレーズをマーキングし、ターゲットユーザーが読んでいる際にターゲットユーザー音声を自動的に認識し、テレプロンプターにおいてプロンプトテキストデータをスクロール表示することができ、テレプロンプターにおけるテキストプロンプト機能の有効性を向上させることができる。

【0084】

図１４を参照し、図１４は本出願の実施例で提供されるデータ処理装置の構造概略図である。当該データ処理装置は上記の図３に対応する実施例におけるステップを実行し、図１４に示すように、当該データ処理装置１は、起動モジュール１０１と、表示モジュール１０２と、取得モジュール１０３とを含むことができる。

【0085】

起動モジュール１０１は、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するように構成される。

【0086】

表示モジュール１０２は、ビデオ録画サービスにおけるユーザーの音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするように構成される。

【0087】

プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置であると、ビデオ録画サービスに対応するターゲットビデオデータを取得するように構成される。

【0088】

起動モジュール１０１、表示モジュール１０２、及び取得モジュール１０３の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０１～Ｓ１０３を参照すればよく、ここで贅言していない。

【0089】

いくつかの実行可能な実施形態において、当該データ処理装置１は、第１の録画ページ表示モジュール１０４、編集モジュール１０５と、第１の推定時間長さ表示モジュール１０６と、第２の録画ページ表示モジュール１０７と、テキストアップロードモジュール１０８と、第２の推定時間長さ表示モジュール１０９と、をさらに含むことができる。

【0090】

第１の録画ページ表示モジュール１０４は、前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにテキスト入力領域を含む録画ページを表示するように構成される。

【0091】

編集モジュール１０５は、テキスト入力領域に対する情報編集操作に応答して、情報編集操作により決定されたプロンプトテキストデータをテキスト入力領域に表示するように構成される。

【0092】

第１の推定時間長さ表示モジュール１０６は、プロンプトテキストデータに対応するプロンプト文字数が数量閾値よりも大きい場合、プロンプト文字数及びプロンプトテキストデータに対応するビデオ推定長さを、テキスト入力領域に表示するように構成される。

【0093】

第２の録画ページ表示モジュール１０７は、前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにテキストアップロードコントロール及びテキスト入力領域を含む録画ページを表示するように構成される。テキストアップロードモジュール１０８は、テキストアップロードコントロールに対するトリガー操作に応答して、録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、テキスト入力領域にプロンプトテキストデータを表示するように構成される。

【0094】

第２の推定時間長さ表示モジュール１０９は、プロンプトテキストデータに対応するプロンプト文字数、及びプロンプトテキストデータに対応するビデオ推定長さを表示する。

【0095】

第１の録画ページ表示モジュール１０４、編集モジュール１０５、第１の推定時間長さ表示モジュール１０６、第２の録画ページ表示モジュール１０７、テキストアップロードモジュール１０８及び第２の推定時間長さ表示モジュール１０９の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０１を参照すればよく、ここで贅言していない。第１の録画ページ表示モジュール１０４、編集モジュール１０５及び第１の推定時間長さ表示モジュール１０６は相応する操作を実行すると、第２の録画ページ表示モジュール１０７、テキストアップロードモジュール１０８及び第２の推定時間長さ表示モジュール１０９は何れも操作の実行を一時停止し、第２の録画ページ表示モジュール１０７、テキストアップロードモジュール１０８及び第２の推定時間長さ表示モジュール１０９は相応する操作を実行すると、第１の録画ページ表示モジュール１０４、編集モジュール１０５及び第１の推定時間長さ表示モジュール１０６は何れも操作の実行を一時停止する。第１の録画ページ表示モジュール１０４と第２の録画ページ表示モジュール１０７とを同一の録画ページ表示モジュールに合併してもよく、第１の推定時間長さ表示モジュール１０６と第２の推定時間長さ表示モジュール１０９とを同一の推定時間長さ表示モジュールに合併してもよい。

【0096】

いくつかの実行可能な実施形態において、サービス起動操作は音声起動操作を含む。

【0097】

起動モジュール１０１は、カウントダウンアニメーション表示ユニット１０１１と、録画サービス起動ユニット１０１２と、を含むことができる。

【0098】

カウントダウンアニメーション表示ユニット１０１１は、ビデオアプリケーションにおける音声起動操作に応答して、ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションをビデオアプリケーションの録画ページに表示するように構成される。

【0099】

録画サービス起動ユニット１０１２は、録画カウントダウンアニメーションが終了すると、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行するように構成される。

【0100】

カウントダウンアニメーション表示ユニット１０１１及び録画サービス起動ユニット１０１２の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０１を参照すればよく、ここで贅言していない。

【0101】

いくつかの実行可能な実施形態において、録画カウントダウンアニメーションはアニメーションキャンセルコントロールを含む。

【0102】

当該データ処理装置１は、前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行する前に、アニメーションキャンセルコントロールに対するトリガー操作に応答して、録画カウントダウンアニメーションの表示をキャンセルし、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行するためのカウントダウンアニメーションキャンセルモジュール１１０をさらに含む。

【0103】

カウントダウンアニメーションキャンセルモジュール１１０の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０１を参照すればよく、ここで贅言していない。

【0104】

いくつかの実行可能な実施形態において、表示モジュール１０２は、音声区間検出ユニット１０２１と、ターゲットテキスト決定ユニット１０２２と、ターゲットテキスト表示ユニット１０２３とを含むことができる。

【0105】

音声区間検出ユニット１０２１は、ビデオ録画サービスにおけるユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出を行ってユーザー初期音声における有効音声データを取得し、有効音声データをユーザー音声として決定するように構成される。

【0106】

ターゲットテキスト決定ユニット１０２２は、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストと、ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、プロンプトテキストデータにおいて、ユーザー音声テキストにマッチングするターゲットテキストを決定するように構成される。

【0107】

ターゲットテキスト表示ユニット１０２３は、ビデオ録画サービスの録画ページにおいて、ターゲットテキストをマーキングするように構成される。

【0108】

音声区間検出ユニット１０２１、ターゲットテキスト決定ユニット１０２２及びターゲットテキスト表示ユニット１０２３の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0109】

いくつかの実行可能な実施形態において、ターゲットテキスト決定ユニット１０２２は、音節情報取得サブユニット１０２２１と、音節マッチングサブユニット１０２２２とを含むことができる。

【0110】

音節情報取得サブユニット１０２２１は、ユーザー音声テキストの第１の音節情報を取得し、ビデオ録画サービスに関連付けられたプロンプトテキストデータの第２の音節情報を取得するように構成される。

【0111】

音節マッチングサブユニット１０２２２は、第２の音節情報において第１の音節情報と同じターゲット音節情報を取得し、プロンプトテキストデータにおいてターゲット音節情報に対応するターゲットテキストを決定するように構成される。

【0112】

音節情報取得サブユニット１０２２１及び音節マッチングサブユニット１０２２２の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0113】

いくつかの実行可能な実施形態において、ターゲットテキスト表示ユニット１０２３は、
提示領域決定サブユニット１０２３１と、マーキングサブユニット１０２３２とを含むことができる。

【0114】

提示領域決定サブユニット１０２３１は、ビデオ録画サービスの録画ページにおいてターゲットテキストに対応するテキストプロンプト領域を決定するように構成される。

【0115】

マーキングサブユニット１０２３２は、プロンプトテキストデータにおけるターゲットテキストのテキスト位置に基づいて、テキストプロンプト領域においてターゲットテキストをマーキングするように構成される。

【0116】

提示領域決定サブユニット１０２３１、マーキングサブユニット１０２３２の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0117】

いくつかの実行可能な実施形態において、録画ページは録画キャンセルコントロールを含む。

【0118】

当該データ処理装置１は、録画キャンセルモジュール１１１と、録画プロンプト情報表示モジュール１１２と、再録画モジュール１１３とをさらに含むことができる。

【0119】

録画キャンセルモジュール１１１は、録画キャンセルコントロールに対するトリガー操作に応答して、ビデオ録画サービスをキャンセルし、ビデオ録画サービスによって録画されたビデオデータを削除するように構成される。

【0120】

録画プロンプト情報表示モジュール１１２は、ビデオ録画サービスに対する録画プロンプト情報を生成し、録画ページに再録画コントロールを含む録画プロンプト情報を表示するように構成される。

【0121】

再録画モジュール１１３は、再録画コントロールに対するトリガー操作に応答して、録画ページに表示されるターゲットテキストをプロンプトテキストデータに切り替えて表示するように構成される。

【0122】

録画キャンセルモジュール１１１、録画プロンプト情報表示モジュール１１２及び再録画モジュール１１３の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0123】

いくつかの実行可能な実施形態において、録画ページは録画完了コントロールを含む。

【0124】

当該データ処理装置１は、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得する前、録画完了コントロールに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、ビデオ録画サービスによって録画されたビデオデータをターゲットビデオデータとして決定する録画完了モジュール１１４を含むことができる。

【0125】

録画完了モジュール１１４の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0126】

いくつかの実行可能な実施形態において、取得モジュール１０３は、オリジナルビデオ取得ユニット１０３１と、最適化コントロール表示ユニット１０３２と、最適化方式表示ユニット１０３３と、最適化処理ユニット１０３４と、を含むことができる。

【0127】

オリジナルビデオ取得ユニット１０３１は、プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスを停止させ、ビデオ録画サービスによって録画されたビデオデータをオリジナルビデオデータとして決定するように構成される。

【0128】

最適化コントロール表示ユニット１０３２は、ビデオアプリケーションの編集ページに、オリジナルビデオデータ、及びオリジナルビデオデータに対応する編集最適化コントロールを表示するように構成される。

【0129】

最適化方式表示ユニット１０３３は、編集最適化コントロールに対するトリガー操作に応答して、オリジナルビデオデータに対するＭ（Ｍは正の整数である）個の編集最適化方式を表示するように構成される。

【0130】

最適化処理ユニット１０３４は、Ｍ個の編集最適化方式に対する選択操作に応答して、選択操作により決定された編集最適化方式に基づいて、オリジナルビデオデータに対して編集最適化処理を行うことで、ターゲットビデオデータを取得するように構成される。

【0131】

オリジナルビデオ取得ユニット１０３１、最適化コントロール表示ユニット１０３２、最適化方式表示ユニット１０３３及び最適化処理ユニット１０３４の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０３を参照すればよく、ここで贅言していない。

【0132】

いくつかの実行可能な実施形態において、最適化処理ユニット１０３４は、第１の音声変換サブユニット１０３４１と、テキスト比較サブユニット１０３４２と、音声削除サブユニット１０３４３と、第２の音声変換サブユニット１０３４４と、タイムスタンプ取得サブユニット１０３４５と、音声ポーズセグメント決定サブユニット１０３４６と、を含むことができる。

【0133】

第１の音声変換サブユニット１０３４１は、選択操作により決定された編集最適化方式が第１の編集方式であると、オリジナルビデオデータに含まれるターゲット音声データを取得し、ターゲット音声データをターゲットテキスト結果に変換するように構成される。

【0134】

テキスト比較サブユニット１０３４２は、ターゲットテキスト結果とプロンプトテキストデータとに対してテキスト比較を行うことで、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定するように構成される。

【0135】

音声削除サブユニット１０３４３は、オリジナルビデオデータにおいてエラーテキストに対応する音声データを削除することで、ターゲットビデオデータを取得するように構成される。

【0136】

第２の音声変換サブユニット１０３４４は、選択操作により決定された編集最適化方式は第２の編集方式であると、オリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換し、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定するように構成される。

【0137】

タイムスタンプ取得サブユニット１０３４５は、ターゲットテキスト結果をＮ（Ｎは正の整数である）個のテキスト文字に分割することで、ターゲット音声データにおけるＮ個のテキスト文字のそれぞれのタイムスタンプを取得するように構成される。

【0138】

音声ポーズセグメント決定サブユニット１０３４６は、タイムスタンプに基づいてターゲット音声データにおける音声ポーズセグメントを決定し、オリジナルビデオデータにおいて音声ポーズセグメント及びエラーテキストに対応する音声データを削除することで、ターゲットビデオデータを取得するように構成される。

【0139】

第１の音声変換サブユニット１０３４１、テキスト比較サブユニット１０３４２、音声削除サブユニット１０３４３、第２の音声変換サブユニット１０３４４、タイムスタンプ取得サブユニット１０３４５及び音声ポーズセグメント決定サブユニット１０３４６の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０３を参照すればよく、ここで贅言していない。第１の音声変換サブユニット１０３４１、テキスト比較サブユニット１０３４２及び音声削除サブユニット１０３４３は相応する操作を実行すると、第２の音声変換サブユニット１０３４４、タイムスタンプ取得サブユニット１０３４５及び音声ポーズセグメント決定サブユニット１０３４６は何れも操作の実行を一時停止し、第２の音声変換サブユニット１０３４４、タイムスタンプ取得サブユニット１０３４５及び音声ポーズセグメント決定サブユニット１０３４６は相応する操作を実行すると、第１の音声変換サブユニット１０３４１、テキスト比較サブユニット１０３４２及び音声削除サブユニット１０３４３は何れも操作の実行を一時停止する。

【0140】

いくつかの実行可能な実施形態において、当該データ処理装置１は、ユーザー話速決定モジュール１１５と、話速プロンプト情報表示モジュール１１６とをさらに含むことができる。

【0141】

ユーザー話速決定モジュール１１５は、ユーザー初期音声に対応する音声の長さ、及びユーザー初期音声に含まれる音声文字数を取得し、音声文字数と音声の長さとの比をユーザーの話速として決定するように構成される。

【0142】

話速プロンプト情報表示モジュール１１６は、ユーザーの話速が話速閾値よりも大きい場合、録画ページに話速プロンプト情報を表示するように構成され、話速プロンプト情報は、ユーザーの話速を低減するように、ビデオ録画サービスに関連付けられたターゲットユーザーに促すためのものである。

【0143】

ユーザー話速決定モジュール１１５、及び話速プロンプト情報表示モジュール１１６の具体的な機能の実現形態について、上記の図３に対応する実施例におけるＳ１０２を参照すればよく、ここで贅言していない。

【0144】

いくつかの実行可能な実施形態において、エラーテキストはＫ個のエラーサブテキストを含み、Ｋは正の整数である。

【0145】

当該データ処理装置１は、エラー頻度決定モジュール１１７と、エラータイプ認識モジュール１１８と、チュートリアルビデオプッシュモジュール１１９とをさらに含むことができる。

【0146】

エラー頻度決定モジュール１１７は、Ｋ個のエラーサブテキスト及びオリジナルビデオデータに対応するビデオの長さに基づいて、ビデオ録画サービスにおけるエラー頻度を決定するように構成される。

【0147】

エラータイプ認識モジュール１１８は、エラー頻度がエラー閾値よりも大きい場合、Ｋ個のエラーサブテキストのそれぞれに対応するスピーチエラータイプを認識するように構成される。

【0148】

チュートリアルビデオプッシュモジュール１１９は、ビデオアプリケーションにおいて、スピーチエラータイプに関連付けられたチュートリアルビデオをビデオ録画サービスに関連付けられたターゲットユーザーにプッシュするように構成される。

【0149】

エラー頻度決定モジュール１１７、エラータイプ認識モジュール１１８及びチュートリアルビデオプッシュモジュール１１９の具体的な機能の実現形態について、上記図３に対応する実施例におけるＳ１０３を参照すればよく、ここで贅言していない。

【0150】

本出願の実施例において、ユーザーは、ビデオアプリケーションにプロンプトテキストデータを入力した後、音声によってビデオ録画サービスを起動することができ、ビデオ録画サービスの録画中に、ユーザーにテレプロンプター機能を提供し、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを位置決めし、ビデオアプリケーションにおいてターゲットテキストをマーキングすることができ、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話している内容にマッチングし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減し、さらに、録画ビデオの品質を向上させることができ、ユーザー音声によってビデオ録画サービスを起動又は停止することにより、ビデオ録画サービスにおけるユーザー操作を減少し、ビデオ録画の効果を高めることができる、ビデオ録画サービスが終了した後、ビデオ録画サービスにおけるビデオ録画に対して編集最適化を自動的に行うことで、録画ビデオの品質をさらに向上させることができる。

【0151】

図１５を参照し、図１５は本出願の実施例で提供されるデータ処理装置の構造概略図である。当該データ処理装置は上記の図１２に対応する実施例におけるステップを実行することができ、図１５に示すように、当該データ処理装置２は、プロンプトテキストアップロードモジュール２１と、ユーザー音声収集モジュール２２と、ユーザー音声テキスト表示モジュール２３とを含むことができる。

【0152】

プロンプトテキストアップロードモジュール２１は、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするように構成される。

【0153】

ユーザー音声収集モジュール２２は、ターゲットユーザーに対応するユーザーの音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するように構成される。

【0154】

ユーザー音声テキスト表示モジュール２３は、プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。

【0155】

プロンプトテキストアップロードモジュール２１、ユーザー音声収集モジュール２２及びユーザー音声テキスト表示モジュール２３の具体的な実現形態について、上記の図１２に対応する実施例におけるＳ２０１～Ｓ２０３を参照すればよく、ここで贅言していない。

【0156】

ターゲットユーザーは第１のユーザー及び第２のユーザーを含み、プロンプトテキストデータは第１のユーザーに対応する第１のプロンプトテキスト、及び第２のユーザーに対応する第２のプロンプトテキストを含む。

【0157】

ユーザー音声テキスト表示モジュール２３は、ユーザー身分決定ユニット２３１と、第１の決定ユニット２３２と、第２の決定ユニット２３３と、を含む。

【0158】

ユーザー身分決定ユニット２３１は、ユーザー音声におけるユーザー声紋特徴を取得し、ユーザー声紋特徴に基づいてユーザー音声に対応するユーザー身分を決定するように構成される。

【0159】

第１の決定ユニット２３２は、ユーザー身分が第１のユーザーであると、第１のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。

【0160】

第２の決定ユニット２３３は、ユーザー身分が第２のユーザーであると、第２のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。

【0161】

ユーザー身分決定ユニット２３１、第１の決定ユニット２３２及び第２の決定ユニット２３３の具体的な実現形態について、上記の図１２に対応する実施例におけるＳ２０３を参照すればよく、ここで贅言していない。

【0162】

【0163】

図１６を参照して、図１６は本出願の実施例で提供されるコンピュータ機器の構造概略図である。図１６に示すように、当該コンピュータ機器１０００は、プロセッサー１００１、ネットワークインターフェース１００４及びメモリ１００５を含むことができ、また、上記のコンピュータ機器１０００はユーザーインターフェース１００３、及び少なくとも１つの通信バス１００２をさらに含むことができる。通信バス１００２はこれらのコンポーネントの間の接続通信を実現するように構成される。ユーザーインターフェース１００３はディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）を含むことができ、好ましくは、ユーザーインターフェース１００３は標準的な有線インターフェース、無線インターフェースをさらに含むことができる。ネットワークインターフェース１００４は標準的な有線インターフェース、無線インターフェース（例えばＷＩ－ＦＩインターフェース）を含むことができる。メモリ１００５は高速ＲＡＭメモリであってもよいし、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅ
ｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリであってもよい。メモリ１００５は、さらに、上記プロセッサー１００１から離れた少なくとも１つの記憶装置であってもよい。図１６に示すように、コンピュータ可読記憶媒体としてのメモリ１００５には、オペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及び機器制御アプリケーションプログラムが含まれてもよい。

【0164】

図１６に示すコンピュータ機器１０００において、ネットワークインターフェース１００４はネットワーク通信機能を提供でき、ユーザーインターフェース１００３は主にユーザーに入力を提供するインターフェースであり、プロセッサー１００１は、メモリ１００５に記憶された機器制御アプリケーションプログラムを呼び出すことで、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするステップと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を実現させる。

【0165】

本出願の実施例に記載のコンピュータ機器１０００は上記の図３に対応する実施例におけるデータ処理方法の記載を実行してもよいし、上記図１４に対応する実施例におけるデータ処理装置１の記載を実行してもよく、ここで、贅言していないことを理解されたい。また、同一方法を使用する有益な効果の記載についても、贅言していない。

【0166】

図１７を参照し、図１７は本出願の実施例で提供されるコンピュータ機器の構造概略図である。図１７に示すように、当該コンピュータ機器２０００はプロセッサー２００１、ネットワークインターフェース２００４及びメモリ２００５を含むこと、また、上記のコンピュータ機器２０００はユーザーインターフェース２００３、及び少なくとも１つの通信バス２００２をさらに含むことができる。通信バス２００２はこれらのコンポーネントの間の接続通信を実現するように構成される。ユーザーインターフェース２００３はディスプレイ（Ｄｉｓｐｌａｙ）、キーボード（Ｋｅｙｂｏａｒｄ）を含むことができ、好ましくは、ユーザーインターフェース２００３は標準的な有線インターフェース、無線インターフェースを含んでもよい。ネットワークインターフェース２００４は標準的な有線インターフェース、無線インターフェース（例えばＷＩ－ＦＩインターフェース）を含んでもよい。メモリ２００５は高速ＲＡＭメモリであってもよいし、不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅ
ｍｅｍｏｒｙ）、例えば少なくとも１つの磁気ディスクメモリであってもよい。メモリ２００５は、さらに、上記プロセッサー２００１から離れた少なくとも１つの記憶装置であってもよい。図１７に示すように、コンピュータ可読記憶媒体としてのメモリ２００５にはオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及び機器制御アプリケーションプログラムが含まれてもよい。

【0167】

図１７に示すコンピュータ機器２０００において、ネットワークインターフェース２００４はネットワーク通信機能を提供でき、ユーザーインターフェース２００３は主にユーザーに入力を提供するインターフェースであり、プロセッサー２００１はメモリ２００５に記憶された機器制御アプリケーションプログラムを呼び出すことで、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするステップと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するステップと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするステップと、を実現させる。

【0168】

ここで、本出願の実施例に記載のコンピュータ機器２０００は上記図６に対応する実施例におけるデータ処理方法の記載を実行してもよいし、上記図１４に対応する実施例におけるデータ処理装置２の記載を実行してもよく、ここで、贅言していないことを理解されたい。また、同一方法を使用する有益な効果記載についても、贅言していない。

【0169】

また、ここで、本出願の実施例はコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体には、以上に言及されたデータ処理装置１が実行するコンピュータプログラムが記憶され、コンピュータプログラムはプログラムコマンドを含み、プロセッサーはプログラムコマンドを実行すると、上記図３、図１１及び図１２のいずれか１つに対応する実施例におけるデータ処理方法の記載を実現するため、ここで贅言していない。また、同一方法を使用する有益な効果記載についても、贅言していない。本出願に係るコンピュータ可読記憶媒体の実施例において開示されていない技術詳細について、本出願の方法実施例の記載を参照すればよい。例示として、プログラムコマンドは１つのコンピューティング機器に配置されて実行され、又は１つの場所に位置する複数のコンピューティング機器に実行され、或いは通信ネットワークを介して互いに接続されている複数のコンピューティング機器に実行され、複数の場所に分布され、通信ネットワークを介して互いに接続されている複数のコンピューティング機器によってブロックチェーンシステムを構成する。

【0170】

また、ここで、本出願の実施例はコンピュータプログラム製品又はコンピュータプログラムをさらに提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記図３、図１１及び図１２のいずれか１つに対応する実施例におけるデータ処理方法の記載を当該コンピュータ機器に、実行させるため、ここで将贅言していない。また、同一方法を使用する有益な効果の記載についても、贅言していない。本出願に係るコンピュータプログラム製品又はコンピュータプログラムの実施例において開示されていない技術詳細部について、本出願の方法実施例の記載を参照すればよい。

【0171】

当業者であれば理解できるように、上記の実施例方法における全て又は一部のフローの実現は、コンピュータプログラムによって関連するハードウェアに命令することで完成され、コンピュータプログラムはコンピュータ可読取記憶媒体に記憶され、当該プログラムを実行する場合、上記の各方法の実施例のフローを含む。記憶媒体は、磁気ディスク、光ディスク、ＲＯＭ（Ｒｅａｄ－Ｏｎｌｙ
Ｍｅｍｏｒｙ）又はＲＡＭリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などであってもよい。

【0172】

以上で開示されたものは本出願の好適な実施例に過ぎないため、本出願の請求項の範囲を限定できず、従って、本出願の特許請求の範囲に従って行われる同等の変形は、本出願の範囲内に含まれるものとする。

【図1】