IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特表2024-509710データ処理方法、装置、機器、及びコンピュータプログラム
<>
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図1
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図2
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図3
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図4
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図5
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図6
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図7
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図8
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図9
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図10
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図11
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図12
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図13
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図14
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図15
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図16
  • 特表-データ処理方法、装置、機器、及びコンピュータプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-05
(54)【発明の名称】データ処理方法、装置、機器、及びコンピュータプログラム
(51)【国際特許分類】
   H04N 21/482 20110101AFI20240227BHJP
   G06F 3/16 20060101ALI20240227BHJP
   G06F 3/0485 20220101ALI20240227BHJP
【FI】
H04N21/482
G06F3/16 620
G06F3/0485
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023547594
(86)(22)【出願日】2022-01-28
(85)【翻訳文提出日】2023-08-21
(86)【国際出願番号】 CN2022074513
(87)【国際公開番号】W WO2022166801
(87)【国際公開日】2022-08-11
(31)【優先権主張番号】202110179007.4
(32)【優先日】2021-02-08
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ユー,グアンウェン
(72)【発明者】
【氏名】ファン,フアフェン
(72)【発明者】
【氏名】ヤン,タオ
【テーマコード(参考)】
5C164
5E555
【Fターム(参考)】
5C164PA43
5C164PA44
5C164SD11S
5C164UB08S
5C164UD51P
5E555AA46
5E555BA02
5E555BA87
5E555BA88
5E555BB02
5E555BB05
5E555BB06
5E555BC18
5E555CA42
5E555CA47
5E555CB64
5E555DB41
5E555DB57
5E555DC02
5E555DC09
5E555DC10
5E555EA23
5E555FA00
(57)【要約】
本出願の実施例はデータ処理方法、装置、機器及び媒体を提供する。当該方法は、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするステップと、プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を含む。本出願の実施例によれば、ビデオ録画サービスにおけるテレプロンプター機能の有効性を高めて、さらにビデオ録画の品質を向上させることができる。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する、データを処理する方法であって、
ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするステップと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を含む
方法。
【請求項2】
前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、
前記ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、前記ビデオアプリケーションにテキスト入力領域を含む録画ページを表示するステップと、
前記テキスト入力領域に対する情報編集操作に応答して、前記テキスト入力領域に、前記情報編集操作により決定されたプロンプトテキストデータを表示するステップと、
前記プロンプトテキストデータに対応するプロンプト文字数が数量閾値よりも大きい場合、前記テキスト入力領域に、前記プロンプト文字数及び前記プロンプトテキストデータに対応するビデオ推定長さを表示するステップと、をさらに含む
請求項1に記載の方法。
【請求項3】
前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、
前記ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、前記ビデオアプリケーションにテキストアップロードコントロール及びテキスト入力領域を含む録画ページを表示するステップと、
前記テキストアップロードコントロールに対するトリガー操作に応答して、前記録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、前記テキスト入力領域に前記プロンプトテキストデータを表示するステップと、
前記プロンプトテキストデータに対応するプロンプト文字数、及び前記プロンプトテキストデータに対応するビデオ推定長さを表示するステップと、をさらに含む
請求項1に記載の方法。
【請求項4】
前記サービス起動操作は音声起動操作を含み、
前記ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するステップは、
前記ビデオアプリケーションにおける音声起動操作に応答して、前記ビデオアプリケーションの録画ページに、前記ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションを表示するステップと、
前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行するステップと、を含む
請求項1に記載の方法。
【請求項5】
前記録画カウントダウンアニメーションはアニメーションキャンセルコントロールを含み、
前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行する前に、
前記アニメーションキャンセルコントロールに対するトリガー操作に応答して、前記録画カウントダウンアニメーションの表示をキャンセルし、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行するステップをさらに含む
請求項4に記載の方法。
【請求項6】
前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするステップは、
前記ビデオ録画サービスにおけるユーザー初期音声を収集し、前記ユーザー初期音声に対して音声区間検出を行って前記ユーザー初期音声における有効音声データを取得し、前記有効音声データを前記ユーザー音声として決定するステップと、
前記ユーザー音声をユーザー音声テキストに変換し、前記ユーザー音声テキストと前記ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、前記プロンプトテキストデータにおいて前記ユーザー音声テキストにマッチングするターゲットテキストを決定するステップと、
前記ビデオ録画サービスの録画ページにおいて、前記ターゲットテキストをマーキングするステップと、を含む
請求項1に記載の方法。
【請求項7】
前記ユーザー音声テキストと、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、前記プロンプトテキストデータにおいて前記ユーザー音声テキストにマッチングするターゲットテキストを決定するステップは、
前記ユーザー音声テキストの第1の音節情報を取得し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータの第2の音節情報を取得するステップと、
前記第2の音節情報において前記第1の音節情報と同じターゲット音節情報を取得し、前記プロンプトテキストデータにおいて前記ターゲット音節情報に対応するターゲットテキストを決定するステップと、を含む
請求項6に記載の方法。
【請求項8】
前記ビデオ録画サービスの録画ページに前記ターゲットテキストをマーキングするステップは、
前記ビデオ録画サービスの録画ページに、前記ターゲットテキストに対応するテキストプロンプト領域を決定するステップと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置に基づいて、前記テキストプロンプト領域に前記ターゲットテキストをマーキングするステップと、を含む
請求項6に記載の方法。
【請求項9】
前記録画ページは録画キャンセルコントロールを含み、
前記録画キャンセルコントロールに対するトリガー操作に応答して、前記ビデオ録画サービスをキャンセルし、前記ビデオ録画サービスによって録画されたビデオデータを削除するステップと、
前記ビデオ録画サービスに対する録画プロンプト情報を生成し、前記録画ページに再録画コントロールを含む前記録画プロンプト情報を表示するステップと、
前記再録画コントロールに対するトリガー操作に応答して、前記録画ページに表示されるターゲットテキストを前記プロンプトテキストデータに切り替えて表示するステップと、をさらに含む
請求項4~8のいずれか1項に記載の方法。
【請求項10】
前記録画ページは録画完了コントロールを含み、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得する前に、
前記録画完了コントロールに対するトリガー操作に応答して、前記ビデオ録画サービスを停止させ、前記ビデオ録画サービスによって録画されたビデオデータを前記ターゲットビデオデータとして決定するステップをさらに含む
請求項4~8のいずれか1項に記載の方法。
【請求項11】
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するステップは、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスを停止させ、前記ビデオ録画サービスによって録画されたビデオデータをオリジナルビデオデータとして決定するステップと、
前記ビデオアプリケーションの編集ページに、前記オリジナルビデオデータ、及び前記オリジナルビデオデータに対応する編集最適化コントロールを表示するステップと、
前記編集最適化コントロールに対するトリガー操作に応答して、前記オリジナルビデオデータに対するM(Mは正の整数である)個の編集最適化方式を表示するステップと、
前記M個の編集最適化方式に対する選択操作に応答して、前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップと、を含む
請求項1に記載の方法。
【請求項12】
前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップは、
前記選択操作により決定された編集最適化方式が第1の編集方式であると、前記オリジナルビデオデータに含まれるターゲット音声データを取得し、前記ターゲット音声データをターゲットテキスト結果に変換するステップと、
前記ターゲットテキスト結果と前記プロンプトテキストデータとに対してテキスト比較を行うことで、前記ターゲットテキスト結果のうちの前記プロンプトテキストデータと異なるテキストをエラーテキストとして決定するステップと、
前記オリジナルビデオデータにおいて前記エラーテキストに対応する音声データを削除することで、前記ターゲットビデオデータを取得するステップと、を含む
請求項11に記載の方法。
【請求項13】
前記選択操作により決定された編集最適化方式に基づいて、前記オリジナルビデオデータに対して編集最適化処理を行うことで、前記ターゲットビデオデータを取得するステップは、
前記選択操作により決定された編集最適化方式が第2の編集方式であると、前記オリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換し、前記ターゲットテキスト結果のうちの前記プロンプトテキストデータと異なるテキストをエラーテキストとして決定するステップと、
前記ターゲットテキスト結果をN(Nは正の整数である)個のテキスト文字に分割することで、前記ターゲット音声データにおける前記N個のテキスト文字のそれぞれのタイムスタンプを取得するステップと、
前記タイムスタンプに基づいて前記ターゲット音声データにおける音声ポーズセグメントを決定し、前記オリジナルビデオデータにおいて前記音声ポーズセグメント及び前記エラーテキストに対応する音声データを削除することで、前記ターゲットビデオデータを取得するステップと、を含む
請求項11に記載の方法。
【請求項14】
前記ビデオ録画サービスの実行中に、
前記ユーザー初期音声に対応する音声の長さ、及び前記ユーザー初期音声に含まれる音声文字数を取得し、前記音声文字数と前記音声の長さとの比をユーザーの話速として決定するステップと、
前記ユーザーの話速が話速閾値よりも大きい場合、前記録画ページに話速プロンプト情報を表示するステップであって、前記話速プロンプト情報は、ユーザーの話速を低減するように、前記ビデオ録画サービスに関連付けられたターゲットユーザーに促すためのものであるステップと、をさらに含む
請求項6に記載の方法。
【請求項15】
前記エラーテキストはK(Kは正の整数である)個のエラーサブテキストを含み、
前記K個のエラーサブテキスト及び前記オリジナルビデオデータに対応するビデオの長さに基づいて、前記ビデオ録画サービスにおけるエラー頻度を決定するステップと、
前記エラー頻度がエラー閾値よりも大きい場合、前記K個のエラーサブテキストのそれぞれに対応するスピーチエラータイプを認識するステップと、
前記ビデオアプリケーションにおいて、前記スピーチエラータイプに関連付けられたチュートリアルビデオを前記ビデオ録画サービスに関連付けられたターゲットユーザーにプッシュするステップと、をさらに含む
請求項12~13のいずれか1項に記載の方法。
【請求項16】
コンピュータ機器が実行する、データを処理する方法であって、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするステップと、
ターゲットユーザーに対応するユーザー音声を収集し、前記ユーザー音声に対してテキスト変換を行うことで、前記ユーザー音声に対応するユーザー音声テキストを生成するステップと、
前記プロンプトテキストデータにおいて、前記ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、前記テレプロンプターアプリケーションにおいて前記ターゲットテキストをマーキングするステップと、を含む
方法。
【請求項17】
前記ターゲットユーザーは第1のユーザー及び第2のユーザーを含み、前記プロンプトテキストデータは前記第1のユーザーに対応する第1のプロンプトテキスト、及び前記第2のユーザーに対応する第2のプロンプトテキストを含み、
前記前記プロンプトテキストデータにおいて、前記ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、前記テレプロンプターアプリケーションにおいて前記ターゲットテキストをマーキングするステップは、
前記ユーザー音声におけるユーザー声紋特徴を取得し、前記ユーザー声紋特徴に基づいて前記ユーザー音声に対応するユーザー身分を決定するステップと、
前記ユーザー身分が前記第1のユーザーであると、前記第1のプロンプトテキストにおいて、前記ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、前記テレプロンプターアプリケーションにおいて前記ターゲットテキストをマーキングするステップと、
前記ユーザー身分が前記第2のユーザーであると、前記第2のプロンプトテキストにおいて、前記ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、前記テレプロンプターアプリケーションにおいて前記ターゲットテキストをマーキングするステップと、を含む
請求項16に記載の方法。
【請求項18】
コンピュータ機器に配置された、データを処理する装置であって、
ビデオアプリケーションにおけるサービス起動操作に応答して、前記ビデオアプリケーションにおけるビデオ録画サービスを起動するための起動モジュールと、
前記ビデオ録画サービスにおけるユーザー音声を収集し、前記ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいて前記ユーザー音声にマッチングするターゲットテキストを決定し、前記ターゲットテキストをマーキングするための表示モジュールと、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得するための取得モジュールと、を含む
装置。
【請求項19】
コンピュータ機器に配置された、データを処理する装置であって、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするためのプロンプトテキストアップロードモジュールと、
ターゲットユーザーに対応するユーザー音声を収集し、前記ユーザー音声に対してテキスト変換を行うことで、前記ユーザー音声に対応するユーザー音声テキストを生成するためのユーザー音声収集モジュールと、
前記プロンプトテキストデータにおいて、前記ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、前記テレプロンプターアプリケーションにおいて前記ターゲットテキストをマーキングするためのユーザー音声テキスト表示モジュールと、を含む
装置。
【請求項20】
メモリ及びプロセッサーを含み、
前記メモリは前記プロセッサーに接続され、コンピュータプログラムを記憶するように構成され、前記プロセッサーは、請求項1~8のいずれか1項に記載の方法、又は請求項16~17のいずれか1項に記載の方法を前記コンピュータ機器に実行させるように、前記コンピュータプログラムを呼び出すように構成される
コンピュータ機器。
【請求項21】
コンピュータに、請求項1~8のいずれか1項に記載の方法、又は請求項16~17のいずれか1項に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年02月08日にて中国特許庁に提出され、出願番号が202110179007.4であり、発明の名称が「データ処理方法、装置、機器、及び媒体」である中国特許出願の優先権を主張して、その全ての内容は、本出願に援用により組み込まれている。
【0002】
本出願は、インターネット技術の分野に関し、特に、データ処理技術に関する。
【背景技術】
【0003】
ショートビデオの発展に連れて、ますます多くのユーザー(撮影および編集の経験がない人を含む)はマルチメディアクリエーターの仲間入りをし、カメラの前に自分のパフォーマンスを披露し始めている。経験の浅いマルチメディアクリエーターにとって、カメラに向かうと、言葉を忘れることなどが多く、コンテンツのスクリプトを覚えても、どもりや不自然な表現などの問題が発生してしまう。
【0004】
そのため、ショートビデオを撮影する際に、ユーザーはスクリプトコンテンツを印刷してカメラの横に置いて提示する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、スクリプトコンテンツが多い場合、ユーザーは発表対象となる内容を迅速に位置決めできなかったり、又は誤って位置決めしたりする可能性があり、スクリプトコンテンツを印刷することでセリフを提示する効果は明らかではなく、そして、ユーザーがカメラの横にあるスクリプトコンテンツを見ると、カメラにユーザーのアクションが取り込まれ、最終的なビデオ撮影の品質にさらに影響を与える。
【0006】
本出願の実施例はビデオ録画サービスにおけるテレプロンプター機能の有効性を高め、さらに、ビデオ録画の品質を向上させることができるデータ処理方法、装置、機器、及び媒体を提供する。
【課題を解決するための手段】
【0007】
本出願の実施例の1つの態様は、コンピュータ機器が実行するデータ処理方法を提供し、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするステップと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を含む
方法。
【0008】
本出願の実施例の1つの態様は、コンピュータ機器が実行するデータ処理方法を提供し、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするステップと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するステップと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするステップと、を含む
方法。
【0009】
本出願の実施例の1つの態様は、コンピュータ機器に配置されたデータ処理装置を提供し、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するための起動モジュールと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするための表示モジュールと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するための取得モジュールと、を含む
装置。
【0010】
本出願の実施例の1つの態様は、コンピュータ機器に配置されたデータ処理装置を提供し、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするためのプロンプトテキストアップロードモジュールと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するためのユーザー音声収集モジュールと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするためのユーザー音声テキスト表示モジュールと、を含む
装置。
【0011】
本出願の実施例の1つの態様は、メモリ及びプロセッサーを含み、メモリはプロセッサーに接続され、コンピュータプログラムを記憶するように構成され、プロセッサーは、本出願の実施例における上記いずれか1つの態様で提供される方法をコンピュータ機器に実行させるように、コンピュータプログラムを呼び出すように構成されるコンピュータ機器を提供する。
【0012】
本出願の実施例の1つの態様は、本出願の実施例における上記いずれか1つの態様で提供される方法をプロセッサーを有するコンピュータ機器に実行させるように、プロセッサーによってロードされて実行されるコンピュータプログラムを記憶しているコンピュータ可読記憶媒体を提供する。
【0013】
本出願の1つの態様によれば、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記いずれか1つの態様で提供される方法を当該コンピュータ機器に実行させる。
【発明の効果】
【0014】
本出願の実施例は、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動し、ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声に関連付けられたターゲットテキストを決定し、ターゲットテキストをマーキングすることができ、このように、話しているユーザーは、マーキング子に基づいてスピーチのコンテンツを迅速且つ正確に位置決めし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高めることができる。プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得する。このように、ビデオアプリケーションにおいてビデオ録画サービスを起動した後、プロンプトテキストデータにおいて、ユーザー音声にマッチングするターゲットテキストを位置決めしてマーキングすることができ、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話しているコンテンツにマッチングし、これによって、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減し、さらに、ビデオ録画の品質を向上させることができる。
【図面の簡単な説明】
【0015】
図1】本出願の実施例で提供されるネットワークアーキテクチャの構造概略図である。
図2】本出願の実施例で提供されるデータ処理シナリオの概略図である。
図3】本出願の実施例で提供されるデータ処理方法のフロー概略図である。
図4】本出願の実施例で提供される、プロンプトテキストデータを入力するインターフェースの概略図である。
図5】本出願の実施例で提供される、ビデオアプリケーションにおいてビデオ録画サービスを起動するインターフェースの概略図である。
図6】本出願の実施例で提供される、プロンプトテキストデータを表示するインターフェースの概略図である。
図7】本出願の実施例で提供される、話速プロンプト情報を表示するインターフェースの概略図である。
図8】本出願の実施例で提供される、ビデオ録画サービスを停止させるインターフェースの概略図である。
図9】本出願の実施例で提供される、ビデオ録画に対して編集最適化を行うインターフェースの概略図である。
図10】本出願の実施例で提供される、スピーチエラータイプに基づいてチュートリアルビデオを推奨するインターフェースの概略図である。
図11】本出願の実施例で提供されるビデオ録画サービスの実現フローチャートである。
図12】本出願の実施例で提供されるデータ処理方法のフロー概略図である。
図13】本出願の実施例で提供されるテレプロンプターの適用シナリオの概略図である。
図14】本出願の実施例で提供されるデータ処理装置の構造概略図である。
図15】本出願の実施例で提供されるデータ処理装置の構造概略図である。
図16】本出願の実施例で提供されるコンピュータ機器の構造概略図である。
図17】本出願の実施例で提供されるコンピュータ機器の構造概略図。
【発明を実施するための形態】
【0016】
以下、本出願の実施例の図面を参照しながら本出願の実施例の技術案を明らか且つ完全に記述する。
【0017】
図1を参照して、図1は本出願の実施例で提供されるネットワークアーキテクチャの構造概略図である。図1に示すように、当該ネットワークアーキテクチャは、サーバー10dとユーザー端末クラスタとを含むことができ、当該ユーザー端末クラスタは1つ又は複数のユーザー端末を含み得るが、ここで、ユーザー端末の数を限定していない。図1に示すように、当該ユーザー端末クラスタは、具体的に、ユーザー端末10a、ユーザー端末10b及びユーザー端末10cなどを含んでもよい。サーバー10dは独立した物理サーバーであってもよいし、複数の物理サーバーからなるサーバークラスタ又は分散型システムであってもよいし、さらに、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、CDN、ビッグデータ及び人工智能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。ユーザー端末10a、ユーザー端末10b及びユーザー端末10cなどは何れもスマートフォン、タブレットコンピューター、ノートパソコン、電子手帳、モバイルインターネットデバイス(mobile
internet device、MID)、ウェアラブルデバイス(例えば、スマートウォッチ、スマートバンドなど)及びスマートテレビなどのビデオ/画像再生機能を有するスマート端末を含んでもよい。図1に示すように、ユーザー端末10a、ユーザー端末10b及びユーザー端末10cなどは、各ユーザー端末がネットワーク接続を介してサーバー10dとの間でデータのやり取りを行うように、サーバー10dとそれぞれネットワーク接続を行うことができる。
【0018】
図1に示すユーザー端末10aを例として、ユーザー端末10aには、ビデオ編集アプリケーション、ショートビデオアプリケーションなどのビデオ録画機能を有するビデオアプリケーションがインストールされてもよい。ユーザーはユーザー端末10aにインストールされたビデオアプリケーションを開くことができ、当該ビデオアプリケーションはユーザーに対してビデオ録画機能を提供してもよく、当該ビデオ録画機能は通常の撮影方式及びテレプロンプター撮影方式を含み、通常の撮影方式は、ユーザー端末10aのカメラ(又は、ユーザー端末10aと通信接続を有する外部撮影装置)を使用してユーザーを撮影する際に、スクリプトコンテンツをユーザーに提示できない場合があるため、当該ユーザーがビデオ録画において表現しようとするスクリプトコンテンツを予め整理し(例えば、スクリプトコンテンツを記録する)必要があることであり、テレプロンプター撮影方式は、ユーザー端末10aの蔵カメラ又は外付けの撮影装置を使用してユーザーを撮影する際に、ユーザー端末10aのスクリーンにおいてスクリプトコンテンツを当該ユーザーに表示して、ユーザー音声の進行に応じてスクリプトコンテンツを切り替えて表示することができることであり(例えば、スクロール表示など)、ここで、スクリプトコンテンツは、ビデオ録画サービスにおけるプロンプトテキストデータとも呼ばれてもよい(プロンプトテキストは、「提示テキスト」とも呼ぶ)。ユーザーはビデオアプリケーションにおけるテレプロンプター撮影方式に対応するエントリ(即ち、テレプロンプター撮影エントリ)に対してトリガー操作を実行した後、ユーザー端末10aは、テレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションに録画ページを表示し、ビデオを録画する前、ユーザーは録画ページにプロンプトテキストデータを入力するか、又は、既存のプロンプトテキストデータを録画ページにアップロードすることができる。
【0019】
ユーザーがビデオ録画を起動すると、ユーザー端末10aは当該ユーザーによるビデオ録画起動操作に応答して、当該ビデオアプリケーションにおいてビデオ録画機能を起動し、ビデオ録画中に、ユーザー音声の進行に従ってユーザー端末10aの端末スクリーンに表示することができる。言い換えると、ビデオ録画中に、ユーザー音声の進行に従ってプロンプトテキストデータを表示することができ、ユーザー音声速度が速くなると、ビデオアプリケーションにおけるプロンプトテキストデータの切り替え表示速度(スクロール速度であってもよい)が速くなり、ユーザー音声速度が遅くなると、ビデオアプリケーションにおけるプロンプトテキストデータの切り替え表示速度が遅くなり、つまり、ビデオアプリケーションに表示されるプロンプトテキストデータのテキストは、ユーザー音声に合わせて、これにより、ビデオ録画中のテキストプロンプト機能の有効性を確保して、ユーザーがビデオ録画をスムーズに完了するのを支援し、さらに、ビデオ録画の品質を向上させることができる。
【0020】
図2を併せて参照し、図2は本出願の実施例で提供されるデータ処理シナリオの概略図であり、ビデオ録画シナリオを例として、本出願の実施例で提供されるデータ処理方法の実現プロセスについて記述する。図2に示すユーザー端末20aは、上記の図1に示すユーザー端末クラスタにおけるいずれか1つのユーザー端末であってもよく、ユーザー端末20aにはビデオ録画機能を有するビデオアプリケーションがインストールされている。ユーザーA(当該ユーザーAは、ユーザー端末20aの使用者であってもよい)は、ユーザー端末20aにおけるビデオアプリケーションを開いてビデオアプリケーションのホームページに入って、ビデオアプリケーションにおける撮影エントリに対してトリガー操作を実行することができ、ユーザー端末20aは撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションに撮影ページ20mを表示させ、当該撮影ページ20mは撮影領域20b、フィルタコントロール20c、撮影コントロール20d及び美化コントロール20eなどを含むことができる。撮影領域20bはユーザー端末20aによって収集されたビデオ画面を表示するものであり、当該ビデオ画面はユーザーAに対するビデオ画面であり、ユーザー端末20aのカメラ、又はユーザー端末20aと通信接続を有する撮影機器によって収集されてもよく、撮影コントロール20dはビデオ録画の開始及び終了を制御するものであり、撮影ページ20mに入った後、撮影コントロール20dに対してトリガー操作を実行し、撮影の起動を示してもよく、撮影されたビデオ画面を撮影領域20bに表示し、撮影中に、撮影コントロール20dに対してトリガー操作を再び実行すると、撮影の停止を示してもよく、撮影領域20bに表示されるビデオ画面は、撮影停止時の画面にフリーズし、フィルタコントロール20cはユーザー端末20aによって収集されたビデオ画面に対して画像処理を行うことで、特定の特殊効果を達成することができ、例えば、スムージングフィルタは収集されたビデオ画面における人物画像に対して肌修正、タッチアップ・スムージングなどの処理を行ってもよく、美化コントロール20eはユーザー端末20aによって収集されたビデオ画面における人物画像に対して美化処理を行うものであり、例えば、人物画像の顔型を自動的に修復すること、人物画像の目を大きくすること、人物画像の鼻を高くすることなどである。
【0021】
撮影ページ20mには、テレプロンプター撮影エントリ20fをさらに含んでもよく、ユーザーAがビデオ録画の経験を欠く場合に、ビデオ録画中に言葉を忘れる状況を防止する(言葉を忘れると、ビデオを再録画する可能性がある)ために、ユーザーAはビデオアプリケーションにおけるテレプロンプター撮影機能を選択し、即ち、撮影ページ20mにおけるテレプロンプター撮影エントリ20fに対してトリガー操作を実行することができ、ユーザー端末20aは、ユーザーAによるテレプロンプター撮影エントリ20fのトリガー操作に応答して、ビデオアプリケーションにおける撮影ページ20mを、当該テレプロンプター撮影エントリ20fに対応する録画ページに切り替えて表示し、当該録画ページには、まず、テキスト入力領域が表示され、ユーザーAはテキスト入力領域にビデオ録画に必要なスクリプトコンテンツを入力でき、当該スクリプトコンテンツはビデオ録画中にユーザーAに提示するために用いられ得、簡単に言えば、ビデオ録画中に、ユーザーAはビデオアプリケーションに表示されるスクリプトコンテンツに従って録画することができ、この場合、スクリプトコンテンツはプロンプトテキストデータ20gとも呼ばれてもよい。テキスト入力領域おいて、ユーザーAが入力したスクリプトコンテンツの統計情報20hをさらに表示してもよく、当該統計情報20hは、入力されたスクリプトコンテンツの字数(即ち、プロンプト文字数、例えば、スクリプトコンテンツの字数は134である)、及び入力されたスクリプトコンテンツに対応するビデオ推定長さ(例えば、35秒)を含んでもよく、ユーザーAはビデオ推定長さに基づいてスクリプトコンテンツを増加又は減少させることができる。例えば、ユーザーAは1 分間のビデオを録画したくて、テキスト入力領域に入力したスクリプトコンテンツに対応するビデオ推定長さが4分であると、ユーザーAはテキスト入力領域に表示されるスクリプトコンテンツを減少させることで、減少させたスクリプトコンテンツに対応するビデオ推定長さが約1分(例えば、ビデオ推定長さの範囲は55秒~65秒であってもよい)になるようにし、ユーザーAがテキスト入力領域に入力したスクリプトコンテンツに対応するビデオ推定長さは35秒であると、ユーザーAは、テキスト入力領域に表示されるスクリプトコンテンツを増加させることで、増加させたスクリプトコンテンツに対応するビデオ推定長さが約1分になるようにし、さらに、最終的に決定されたスクリプトコンテンツを、プロンプトテキストデータ20gに決定することができる。
【0022】
プロンプトテキストデータ20gを決定した後、ユーザーAは、録画ページにおける「次へ」コントロールに対してトリガー操作を実行でき、ユーザー端末20aは「次へ」コントロールに対するトリガー操作に応答して、ユーザー端末20aのカメラ(又は通信接続を有する撮影機器)を起動し、ビデオ録画準備状態(即ち、ビデオ録画開始の前)に入って、図2に示すように、録画ページにおいて、ユーザー端末20aによって収集された、ユーザーAについてのビデオ画面20iが表示され、且つ「携帯電話を適切な位置に置いて、テレプロンプター撮影を起動させるように、「開始」と言ってください」というプロンプト情報を表示し、即ち、ユーザーAはビデオ画面20iに基づいて自分の位置及びユーザー端末20aの位置を調整し、位置を調整した後、音声でビデオ録画を起動することができ、例えば、ユーザーは「開始」と言うことで、ビデオ録画を起動させてもよい。
【0023】
ユーザーAが「開始」と言った後、ユーザー端末20aはユーザーAの音声に応答して操作を起動し、ビデオアプリケーションにおいてビデオ録画を起動し、録画ページにプロンプトテキストデータ20gを表示することができる。録画ページに表示されるテキストは、プロンプトテキストデータ20gにおけるテキストの一部のみ、例えば、プロンプトテキストデータ20gにおける一言であってもよいため、ビデオ録画を起動した後、まず、プロンプトテキストデータ20gにおける1番目のフレーズを表示し得る。ユーザーAはビデオ録画中に話し始めると、ユーザー端末20aは当該ユーザーAに対応するユーザー音声を収集することができ、当該ユーザー端末20aにインストールされるビデオアプリケーションのクライアントは、ユーザー音声をビデオアプリケーションのバックグランドサーバー20jに伝送して、音声マッチングコマンドをバックグランドサーバー20jに送信することができる。バックグランドサーバー20jは、ユーザー音声及び音声マッチングコマンドを受信した後、ユーザー音声をユーザー音声テキストに変換することができ、ユーザー音声テキストが中国語である場合(この場合、プロンプトテキストデータ20gは同じように中国語であるとデフォルトしてもよい)、バックグランドサーバー20jはユーザー音声テキストを第1の中国語ピンイン(ユーザー音声テキストが中国語である場合、第1の音節情報は第1の中国語ピンインと呼ばれてもよい)に変換することもでき、無論、ユーザーAがテキスト入力領域にプロンプトテキストデータ20gを入力した後、ビデオアプリケーションのクライアントは同様に、プロンプトテキストデータ20gをバックグランドサーバー20jに伝送できるため、バックグランドサーバー20jはプロンプトテキストデータ20gを第2の中国語ピンイン(ユーザー音声テキストが中国語である場合、第2の音節情報は第2の中国語ピンインと呼ばれてもよい)に変換することができる。バックグランドサーバー20jは第1の中国語ピンインと第2の中国語ピンインとをマッチングし、第2の中国語ピンインにおいて第1の中国語ピンインと同じピンインを検索し、即ち、第2の中国語ピンインにおける第1の中国語ピンインのテキスト位置を検索し、プロンプトテキストデータ20gにおける当該テキスト位置に対応するテキストをターゲットテキスト(即ち、プロンプトテキストデータ20gにおけるユーザー音声にマッチングするテキスト)として決定することができ、バックグランドサーバー20jはターゲットテキストをビデオアプリケーションのクライアントに伝送でき、端末装置20aはビデオアプリケーションにおいてターゲットテキストをマーキングすることができる(例えば、ターゲットテキストの表示サイズを大きくしたり、ターゲットテキストの表示色を変換したり、ターゲットテキストを円又は矩形のボックスなどで取り囲みたりする)。ここで、ユーザーAがテキストプロンプトデータの順序に従って話すと、録画ページにおいてプロンプトテキストデータをスクロール表示し、ユーザーAがテキストプロンプトデータの順序に従って離さないと、録画ページにおいてプロンプトテキストデータをジャンプ表示することができることを理解されたい。
【0024】
ターゲットテキストが単語又はフレーズである場合、ビデオアプリケーションにおいてターゲットアプリケーションが存在するフレーズをマーキングすることができる。図2に示すように、ユーザー音声が「週末」である場合、バックグランドサーバー20jはプロンプトテキストデータ20gにおけるユーザー音声に対応するターゲットテキストを週末にマッチングでき、この場合、録画ページにおいて、ターゲットテキスト「週末」が存在する「週末、長沙でxxとxxが共同で開催する消費者クラスに参加する」というフレーズをマーキングすることができる(図2の領域20kに示すように、テキスト表示サイズを大きくして、テキストを太字にする)。
【0025】
プロンプトテキストデータ20gは直接に録画ページに表示されてもよいし、録画ページに表示されるに表示される独立したサブページに表示されてもよいが、本出願では、録画ページにおけるプロンプトテキストデータ20gの表示形態を限定していないことを理解されたい。プロンプトテキストデータ20gにおいてユーザー音声をマッチングする目的は次のとおりであり、プロンプトテキストデータ20gにおけるユーザー音声のテキスト位置を決定し、ユーザー音声をユーザー音声テキストに変換する場合、変換後のユーザー音声テキストとユーザー音声との間の正確性ではなく、文字発音とユーザー音声との間の一致性のみを配慮すればよいため、中国語オーディオによってマッチングでき、これにより、ユーザー音声とプロンプトテキストデータとの間のマッチング効率を向上させることができる。
【0026】
ユーザー端末20aは、ユーザーAが話しているユーザー音声をリアルタイムで収集し、バックグランドサーバー20nを介して、プロンプトテキストデータ20gにおけるユーザー音声に対応するターゲットテキストをリアルタイムで決定し、さらに、ユーザー音声の進行に従ってプロンプトテキストデータをスクロール表示することができる。例えば、ユーザーAがプロンプトテキストデータ20gにおける1番目のフレーズを話している場合、録画ページにおいてプロンプトテキストデータ20gにおける1番目のフレーズをマーキングし、ユーザーAは、プロンプトテキストデータ20gにおける2番目のフレーズを話している場合、録画ページにおいてプロンプトテキストデータ20gにおける1番目のフレーズから、2番目のフレーズに切り替えて表示し、2番目のフレーズをマーキングすることができ、録画ページにおいて各回マーキングされるターゲットテキストは何れも、ユーザーAが話しているコンテンツである。ユーザーAがプロンプトテキストデータ20gにおける最後の字を話すと、ユーザー端末20aはビデオ録画を終了して、今回録画したビデオを、録画を完成したビデオとして決定する。ユーザーAは、今回録画したビデオに満足すると、当該ビデオを保存し、今回録画したビデオに満足しないと、再撮影してもよい。無論、ユーザーAは、録画を完成したビデオに対して編集最適化を行うことで、最終的なビデオ録画、即ち、ターゲットビデオデータを取得することができる。
【0027】
本出願の実施例に示すビデオ録画中に、ユーザー音声の進行に従ってプロンプトテキストデータを表示することで、ユーザーに対する正確なテレプロンプター効果を実現し、さらに、ビデオ録画の品質を向上させることができる。
【0028】
図3を参照し、図3は本出願の実施例で提供されるデータ処理方法のフロー概略図である。ここで、当該データ処理方法はコンピュータ機器によって実行され得、当該コンピュータ機器はユーザー端末、独立したサーバー、複数のサーバーから構成されたクラスタ、ユーザー端末及びサーバーから構成されたシステム、コンピュータプログラムアプリケーション(プログラムコードを含む)であってもよく、ここで具体的に限定していないことが理解され得る。図3に示すように、当該データ処理方法は以下のS101~S103を含むことができる。
【0029】
S101において、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動する。
【0030】
ユーザーは、カメラの前で自分の観点を伝えたり、自分の生活を見せたりしたい場合、所望のビデオを録画するためにビデオアプリケーションにおいてビデオを録画し、最終的に録画されたビデオについて、情報投稿プラットフォームにおけるユーザーがこのビデオを閲覧できるように、情報投稿プラットフォームにアップロードして共有することができる。本出願の実施例において、ビデオを録画する必要があるユーザーはターゲットユーザーと呼ばれ、ターゲットユーザーがビデオ録画に使用する機器はコンピュータ機器と呼ばれる。ターゲットユーザーがコンピュータ機器にインストールされるビデオアプリケーションにおいて、ビデオ録画サービスに対するサービス起動操作を実行すると、コンピュータ機器は当該ビデオアプリケーションにおけるサービス起動操作に応答して、当該ビデオアプリケーションにおいてビデオ録画サービスを起動し、即ち、ビデオアプリケーションにおいてビデオ録画を開始させる。なお、サービス起動操作はシングルクリック、ダブルクリック、長押し、画面上のタッチなどの接触型トリガー操作、音声、リモコン、ジェスチャーなどの非接触型トリガー操作を含むが、これらに限定されていない。
【0031】
コンピュータ機器がビデオ録画サービスを起動する前、ターゲットユーザーはビデオ録画サービスに必要なプロンプトテキストデータをビデオアプリケーションにアップロードすることもでき、当該プロンプトテキストデータはビデオ録画サービスにおいてターゲットユーザーに提示するために用いられ、これによって、ビデオ録画中にターゲットユーザーが言葉を忘れるという状況を大幅に低減することができる。ターゲットユーザーはコンピュータ機器にインストールされるビデオアプリケーションを開いた後、ビデオアプリケーションにおける撮影ページ(例えば、上記の図2に対応する実施例における撮影ページ20m)に入って、ビデオアプリケーションの撮影ページにはテレプロンプター撮影エントリが含まれてもよい。ターゲットユーザーが撮影ページにおけるテレプロンプター撮影エントリに対してトリガー操作を実行すると、コンピュータ機器はビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにおいてテキストコンテンツを編集するためのテキスト入力領域を含む録画ページを表示することができ、コンピュータ機器はテキスト入力領域に対する情報編集操作に応答して、情報編集操作により決定されたプロンプトテキストデータをテキスト入力領域に表示することができ、プロンプトテキストデータに対応するプロンプト文字数が数量閾値(ここで、数量閾値は実際の必要に応じて予め設定されてもよく、例えば、数量閾値は100に設定されてもよい)よりも大きいと、プロンプト文字数、及びプロンプトテキスト数に対応するビデオ推定長さをテキスト入力領域に表示する。言い換えると、ターゲットユーザーは撮影ページにおけるテレプロンプター撮影エントリに対してトリガー操作を実行した後、ビデオアプリケーションにおいて、撮影ページを録画ページに切り替えて表示し、ターゲットユーザーは録画ページのテキスト入力領域において、ビデオ録画サービスに必要なスクリプトコンテンツ(即ち、上記のプロンプトテキストデータ)を編集でき、テキスト入力領域においてテキストを編集する場合、テキスト入力領域に入力されたプロンプト文字数をリアルタイムで統計し、プロンプト文字数が予め設定された数量閾値よりも大きい場合、プロンプト文字数、及び現在入力されているプロンプトテキストデータに対応するビデオ推定長さをテキスト入力領域に表示することができる。テレプロンプター撮影エントリは、撮影ページに加えて、ビデオアプリケーションのいずれか1つのページに表示されてもよいが、本出願の実施例では、テレプロンプター撮影エントリの表示位置を限定していない。
【0032】
ビデオ推定長さは、以降のビデオ録画サービスで録画されるビデオ完成品の長さ参照情報としてもよく、テキスト入力領域に表示されるビデオ推定長さと、ターゲットユーザーが所望する録画ビデオの長さとが大きく異なる場合、ターゲットユーザーはテキスト入力領域におけるテキストを増加し又は減少することができる。例えば、テキスト入力領域に表示されるビデオ推定長さは35秒であるが、ターゲットユーザーが所望する録画ビデオの長さは2分であると、ターゲットユーザーは、テキスト入力領域に表示されるビデオ推定長さが所定の長さ範囲になる(例えば、ビデオ推定長さは1分50秒~2分10秒にある)まで、テキスト入力領域においてテキスト編集を継続することができる。
【0033】
コンピュータ機器は、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答した後、表示される録画ページにテキストアップロードコントロールがさらに表示されてもよく、ターゲットユーザーは録画ページにおけるテキストアップロードコントロールに対してトリガー操作を実行して、編集済みのプロンプトテキストデータを録画ページにアップロードすることができ、即ち、コンピュータ機器はテキストアップロードコントロールに対するトリガー操作に応答して、録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、録画ページのテキスト入力領域にプロンプトテキストデータを表示し、さらに、プロンプトテキストデータに対応するプロンプト文字数、及びプロンプトテキストデータに対応するビデオ推定長さを表示してもよい。なお、テキストアップロードコントロールは、テキスト貼り付けコントロール及び前回テキスト選択コントロールを含んでもよいが、これらに限定されない。ターゲットユーザーがテキスト貼り付けるコントロールに対してトリガー操作を実行すると、テキストコンテンツを仮編集する必要がなく、ターゲットユーザーが予め編集されたプロンプトテキストデータをテキスト入力領域に直接に貼り付けることができることを示し、ターゲットユーザーが前回テキスト選択コントロールに対してトリガー操作を実行すると、ターゲットユーザーが今回のビデオ録画サービスにおいて前回のビデオ録画サービスにおけるプロンプトテキストデータを使用できることを示し、つまり、ターゲットユーザーは前回のビデオ録画サービスにおいて録画されたビデオ完成品に満足しない可能性があるため、今回のビデオ録画サービスにおいて改めて録画し、これによって、同じプロンプトテキストデータの重複入力を回避することができ、さらに、プロンプトテキストデータの入力効率を向上させることができる。
【0034】
図4を併せて参照し、図4は本出願の実施例で提供される、プロンプトテキストデータを入力するインターフェース概略図である。図4に示すように、ターゲットユーザーはユーザー端末30aにインストールされるビデオアプリケーションにおける撮影エントリに対してトリガー操作を実行した後、ユーザー端末30aは撮影エントリに対するトリガー操作に応答して(この場合、ユーザー端末30aは上記のコンピュータ機器であってもよい)、ビデオアプリケーションに撮影ページ30gを表示することができ、当該撮影ページ30gは、撮影領域30b、フィルタコントロール30c、撮影コントロール30d、美化コントロール30e、及びテレプロンプター撮影エントリ30fなどを含んでもよい。なお、撮影領域30b、フィルタコントロール30c、撮影コントロール30d及び美化コントロール30eのビデオアプリケーションにおける機能記述は、上記の図2に対応する実施例における撮影領域20b、フィルタコントロール20c、撮影コントロール20d及び美化コントロール20eについての機能記述を参照すればよく、ここで贅言していない。
【0035】
ターゲットユーザーが撮影ページ30gにおけるテレプロンプター撮影エントリ30fに対してトリガー操作を実行すると、ユーザー端末30aは、撮影ページ30gにおけるテレプロンプター撮影エントリ30fに対するトリガー操作に応答して、ビデオアプリケーションにおいて撮影ページ30gを録画ページ30hに切り替えて表示することができ、当該録画ページ30hは、テキストコンテンツを直接に編集するためのテキスト入力領域30iを含んでもよい。ターゲットユーザーは、テキスト入力領域30iをクリックして、録画ページ30hにキーボード30pをポップアップさせ、キーボード30pによって今回のビデオ録画サービスに必要なプロンプトテキストデータを編集でき、ユーザー端末30aはターゲットユーザーの情報編集操作に応答して、情報編集操作により決定されたテキストコンテンツをプロンプトテキストデータとしてテキスト入力領域30iに表示することができる。その同時に、ユーザー端末30aはテキスト入力領域30iに入力されたプロンプトテキストデータのプロンプト文字数をリアルタイムで統計し、テキスト入力領域30iに入力されたプロンプトテキストデータのプロンプト文字数が予め設定された数量閾値(例えば、数量閾値は100に設定される)よりも大きいと、プロンプト文字数、及び入力されたプロンプトテキストデータに対応する推定完成品長さ(即ち、ビデオ推定長さ)をテキスト入力領域30iの領域30mに表示することができる。図4に示すように、ターゲットユーザーが、「週末、長沙でxxとxxが共催する消費者クラスに参加する。当時、他の人は公式アカウントを介してオンラインで行った」というテキストコンテンツをテキスト入力領域30iに入力すると、ユーザー端末30aによって統計されて得られたプロンプト文字数は32であり、推定完成品長さが15秒であり、即ち、「現在の字数が32であり、推定完成品長さが15秒である」を領域30mに表示し、ターゲットユーザーは領域30mに表示される推定完成品長さに基づいてテキストコンテンツを編集することができ、ターゲットユーザーはテキスト入力領域30iにおいてテキストコンテンツの編集を完成した後、テキスト入力領域30iにおけるテキストコンテンツをプロンプトテキストデータとして決定し、ひいては、録画ページ30hにおける「次へ」コントロール30nに対してトリガー操作を実行して、ユーザー端末30 nに対してビデオ録画サービスの次の操作をトリガーすることができる。
【0036】
図4に示すように、テキスト入力領域30iは、テキスト貼り付けコントロール30j、及び前回テキストコントロール30kをさらに含んでもよく、ターゲットユーザーがテキスト貼り付けるコントロール30jに対してトリガー操作を実行すると、ターゲットユーザーが他のアプリケーションにおいてプロンプトテキストデータを編集し、他のアプリケーションからプロンプトテキストデータをコピーしたことを示し、ユーザー端末30aはテキスト貼り付けコントロール30jに対するトリガー操作に応答して、ターゲットユーザーによってコピーされたプロンプトテキストデータをテキスト入力領域30iに貼り付ける。ターゲットユーザーが今回のビデオ録画サービスで録画したビデオが、前回のビデオ録画サービスで録画したビデオを再録画したものである場合、ターゲットユーザーは前回テキストコントロール30kに対してトリガー操作を実行でき、ユーザー端末30aは前回テキストコントロール30kに対するトリガー操作に応答して、前回のビデオ録画サービスにおけるプロンプトテキストデータを取得して、前回のビデオ録画サービスにおけるプロンプトテキストデータをテキスト入力領域30iに表示し、前回のビデオ録画サービスで使用されたプロンプトテキストデータを直接に今回のビデオ録画サービスのプロンプトテキストデータとする。ターゲットユーザーは、前回のビデオ録画サービスでの経験に基づいて、テキスト入力領域30iにおいて前回のビデオ録画サービスで使用されたプロンプトテキストデータを調整することができ、例えば、ターゲットユーザーは、前回のビデオ録画サービスにおいてプロンプトテキストデータにおけるフレーズ1に論理的誤りが存在することを発見すると、今回のビデオ録画サービスにおいて、テキスト入力領域30iに前回のビデオ録画サービスのプロンプトテキストデータを修正することができる。
【0037】
ここで、テキスト貼り付けコントロール30j及び前回テキストコントロール30kによってテキスト入力領域30iに入力されたプロンプトテキストデータは、同様に、プロンプトテキストデータの文字数及び推定完成品長さをテキスト入力領域30iの領域30mに表示する。本出願の実施例において、ターゲットユーザーはテキスト貼り付けコントロール30j及び前回テキストコントロール30kを使用して、ビデオ録画サービスにおけるプロンプトテキストデータをテキスト入力領域30iに入力することで、ビデオ録画サービスにおけるプロンプトテキストデータの入力効率を向上させることができる。
【0038】
サービス起動操作が音声起動操作であると、ターゲットユーザーはプロンプトテキストデータの編集操作を完了した後、ビデオアプリケーションにおけるビデオ録画サービスに対して音声起動操作を実行することができ、コンピュータ機器は上記の音声起動操作に応答して、当該ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションをビデオアプリケーションの録画ページに表示することができ、録画カウントダウンアニメーションが終了すると、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行し、即ち、ビデオ録画を正式に開始させる。録画ページに録画カウントダウンアニメーションを再生すると、コンピュータ機器に対応する撮影機器をオンにすることができ、ターゲットユーザーは、最適な撮影角度を見つけるために、録画ページに表示されるビデオ画面に基づいて自分及びコンピュータ機器の位置を調整することができる。録画ページには、録画カウントダウンアニメーションに対応するアニメーションキャンセルコントロールがさらに表示されてもよく、ターゲットユーザーは、ビデオ録画の準備を完成した後、アニメーションに対してコントロールトリガー操作の実行を取り消すことで、録画カウントダウンアニメーションをキャンセルすることができ、即ち、コンピュータ機器は、ターゲットユーザーによるアニメーションキャンセルコントロールに対するトリガー操作に応答して、録画ページにおいて録画カウントダウンアニメーションの表示をキャンセルし、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行することができる。言い換えると、ターゲットユーザーがビデオ録画サービスを音声で起動した後、ビデオアプリケーションにおいて、直接に正式な録画モードに入らず、録画ページに録画カウントダウンアニメーションを再生して、短い録画準備時間(即ち、録画カウントダウンアニメーションの長さ、例えば、5秒である)をターゲットユーザーに提供し、録画カウントダウンアニメーションの再生が完成した後、正式な録画モードに入る。又は、ターゲットユーザーは、録画の準備ができていれば、カウントダウンアニメーションの表示をキャンセルし、正式な録画モードに直接に入ってもよい。
【0039】
図5を併せて参照し、図5は本出願の実施例で提供される、ビデオアプリケーションにおいてビデオ録画サービスを起動するインターフェース概略図である。ターゲットユーザーは、プロンプトテキストデータの編集操作を完成した後、次の操作を実行して(例えば、上記の図4に対応する実施例における「次へ」コントロール30nに対してトリガー操作を実行する)、録画ページにおいてテキスト入力領域の表示を終了することができる。図5に示すように、ターゲットユーザーは、プロンプトテキストデータの編集を完成して、次の操作を実行した後、録画ページ40bにおいてテキスト入力領域を終了し、ターゲットユーザーのビデオ画面を録画ページ40bの領域40cに表示するとともに、(「携帯電話を適切な位置に置いて、テレプロンプター撮影を起動させるように、「開始」と言ってください」)プロンプト情報40dを録画ページ40bに表示することができ、即ち、ビデオ録画サービスを起動する前、ユーザー端末40a(この場合、ユーザー端末40aをコンピュータ機器と呼ぶことがある)は、それに関連付けられる撮影機器(例えば、ユーザー端末40aのカメラ)を起動し、ターゲットユーザーの画像データを収集し、収集された画像データを、ターゲットユーザーに対応するビデオ画面にレンダリングし、ターゲットユーザーのビデオ画面を録画ページ40bの領域40cに表示することができる。ターゲットユーザーは、最適な撮影角度を見つけるために、領域40cに表示されるビデオ画面に基づいて自分及びカメラの位置を調整することができる。
【0040】
ターゲットユーザーは、自分及びカメラの位置を調整した後、即ち、ビデオ録画の準備作業を完成した後、ビデオアプリケーションにおけるビデオ録画サービスを起動するように、「開始」と言うことができる。ターゲットユーザーが「開始」と言って、ビデオアプリケーションにおけるビデオ録画サービスに対して音声起動操作を実行した後、ユーザー端末40aはビデオ録画サービスに対する音声起動操作に応答して、録画カウントダウンアニメーションを録画ページ40bの領域40eに表示することができ、当該録画カウントダウンアニメーションの長さは5秒である。無論、録画ページ40bの領域40eには、プロンプトテキストデータの最初の数文(例えば、プロンプトテキストデータの最初の2文)がさらに表示されてもよい。
【0041】
録画ページ40bにおける録画カウントダウンアニメーションの再生が終了すると、ユーザー端末40aはビデオアプリケーションにおけるビデオ録画サービスを起動して実行することができる。ターゲットユーザーは、録画カウントダウンアニメーションの再生が完了する前にビデオ録画サービスを起動したいと、録画ページ40bにおけるアニメーションキャンセルコントロール
40fに対してトリガー操作を実行して、再生録画ページ40bにおける録画カウントダウンアニメーションをキャンセルし、直接にビデオ録画サービスを起動して実行することができる。正式なビデオ録画が開始された後、ターゲットユーザーは話し始めて、ユーザー端末40aはターゲットユーザーのユーザー音声を収集し、プロンプトテキストデータからユーザー音声にマッチングするターゲットテキストを検索し、録画ページ40bの領域40gにおいてターゲットテキストをマーキングしてもよく(例えば、ターゲットテキストに対して太字、拡大処理を行う)、なお、ターゲットテキストの具体的な決定プロセスについて、以下のS102において記載する。
【0042】
S102において、ビデオ録画サービスにおけるユーザーの音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングする。
【0043】
正式なビデオ録画が開始された後、コンピュータ機器はオーディオ収集機能を起動して、ターゲットユーザーのビデオ録画サービスにおけるユーザーの音声を収集し、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを検索し、録画ページにおいてプロンプトテキストデータに含まれるターゲットテキストをマーキングすることができる。コンピュータ機器はターゲットユーザーのビデオ録画サービスにおけるユーザー音声をリアルタイムで収集し、ユーザー音声に対してテキスト変換を行うことで、プロンプトテキストデータにおいてユーザー音声に対応するテキスト位置を決定し、テキスト位置に基づいてユーザー音声に対応するターゲットテキストを決定し、録画ページにおいてターゲットテキストをマーキングすることができる。マーキング子は、テキストの表示色、テキストのフォントサイズ、テキストの背景を含むが、これらに限定されず、ターゲットテキストは、ユーザー音声テキストを含むテキストデータであってもよく、例えば、ユーザー音声テキストは新年であり、この場合、ターゲットテキストは「新年」を含む完全なフレーズであってもよく、例えば、来年の丑年、ご多幸をお祈り申し上げることである。
【0044】
コンピュータ機器は、直接収集した音声をユーザー初期音声と呼ぶ。即ち、コンピュータ機器はビデオ録画サービスにおけるユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出(Voice
Activity Detection、VAD)を行うことで、ユーザー初期音声における有効音声データを取得し、有効音声データをユーザー音声として決定することができる。そして、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストと、ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、プロンプトテキストデータにおいてユーザー音声テキストにマッチングするターゲットテキストを決定し、ビデオ録画サービスの録画ページにおいてターゲットテキストをマーキングすることができる。言い換えると、コンピュータ機器によって収集されたユーザー初期音声はターゲットユーザーが存在する環境の雑音、及びターゲットユーザーの会話中の停止部分を含み得るため、ユーザー初期音声に対して音声区間検出を行うことで、ユーザー初期音声における無音及び雑音を干渉情報として削除し、ユーザー初期音声における有効音声データを保留することができ、この場合、有効音声データはターゲットユーザーのユーザー音声と呼ばれてもよい。コンピュータ機器は、高速音声-文字変換モデルによって、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストとプロンプトテキストデータとを比較し、プロンプトテキストデータにおけるユーザー音声テキストのテキスト位置を検索し、さらに、テキスト位置に基づいてテキストデータにおいてユーザー音声に対応するターゲットテキストを決定し、ビデオ録画サービスの録画ページにおいてターゲットテキストをマーキングすることができる。
【0045】
高速音声-文字変換モデルは、ユーザー音声を文字に変換する過程で、コンテキストに対して誤り訂正を行い、セマンティックが正確であるかどうかを配慮する必要がなく、変換後の文字発音がユーザー音声とマッチングするかどうかを判断することだけが必要であることを指す。プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定する場合、コンピュータ機器はユーザー音声テキストの発音及びプロンプトテキストデータの発音に基づいて、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。つまり、コンピュータ機器はユーザー音声テキストに対応する第1の音節情報、及びビデオ録画サービスに関連付けられたプロンプトテキストデータに対応する第2の音節情報を取得し、第2の音節情報から第1の音節情報と同じターゲット音節情報を取得し、プロンプトテキストデータにおいてターゲット音節情報に対応するターゲットテキストを決定することができる。
【0046】
音節情報は中国語のピンイン情報や、英語の音声記号情報などであってもよい。プロンプトテキストデータが中国語である場合、コンピュータ機器はユーザー音声テキストを第1のピンイン情報に変換し、プロンプトテキストデータを第2のピンイン情報に変換し、第2のピンイン情報から第1のピンイン情報に対応するテキスト位置を見つけ、テキスト位置に基づいてプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。プロンプトテキストデータが英語などの他の言語である場合、コンピュータ機器は、ユーザー音声テキストを第1の音声記号情報に変換し、プロンプトテキストデータを第2の音声記号情報に変換し、さらに、第1の音声記号情報及び第2の音声記号情報に基づいて、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。中国語の場合、同じ発音は異なる文字に対応するため、ピンインマッチングの方式でターゲットテキストの決定効率を向上させることができ、異なる発音が異なる文字に対応する言語(例えば、英語)について、コンピュータ機器はユーザー音声テキストに含まれる字母とプロンプトテキスト数に含まれる字母とを直接にマッチングし、プロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定することができる。
【0047】
ここで、ビデオ録画サービスでは、録画ページにおけるターゲットテキストを表示するための領域は、コンピュータ機器の端末スクリーンのサイズに基づいて設定されることができ、例えば、上記の図5に示す録画ページ40bにおける領域40gは、表示幅がコンピュータ機器(例えばユーザー端末40a)のスクリーン幅と同様であり、表示高さがコンピュータ機器のスクリーンの高さよりも低い。コンピュータ機器の端末スクリーンのサイズが大きい(例えば、デスクトップパソコンのディスプレイ)場合、ターゲットテキストを表示するための領域のサイズ幅がコンピュータ機器の端末スクリーンのサイズ幅と同様であれば、ビデオ録画サービスにおいて、ターゲットユーザーがターゲットテキストを見る動作(例えば、ターゲットユーザーがターゲットテキストを見る際に、端末スクリーンの左側から右側への移動)は録画されるため、最終的なビデオ録画において、ターゲットユーザーの動作及び表情が何れも不自然になり、さらに、ビデオ録画の品質が低く過ぎる。従って、ビデオ録画においてターゲットユーザーの動作及び表情が自然であることを確保するために、コンピュータ機器に対応する撮影機器の位置に基づいて、ビデオ録画サービスの録画ページにおいてターゲットテキストに対応するテキストプロンプト領域を決定し、プロンプトテキストデータにおけるターゲットテキストのテキスト位置に基づいて、テキストプロンプト領域においてターゲットテキストをマーキングすることができる。言い換えると、ビデオ録画サービスにおいて、ターゲットユーザーはカメラに向いて、テキストプロンプト領域とコンピュータ機器の撮影機器とが同一の方位に位置する場合、ビデオ録画サービスで録画されたビデオにおいて、ターゲットユーザーの動作は自然である。
【0048】
図6を併せて参照し、図6は本出願の実施例で提供される、プロンプトテキストデータを表示するインターフェース概略図である。図6に示すように、ユーザー端末50a(即ち、上記のコンピュータ機器)はプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストである「週末、長沙でxxとxxが共催する消費者クラスに参加する」を決定した後、端末装置50aのカメラ50dの位置に基づいて、ビデオ録画サービスの録画ページ50bにおいてターゲットテキストを表示するためのテキストプロンプト領域50eを決定することができ、当該テキストプロンプト領域50eはカメラ50dと同一の方位に位置する。正式なビデオ録画が開始された後、録画ページ50bの領域50cにターゲットユーザーのビデオ画面を表示して、録画ページ50bの領域50fにビデオ録画長さを表示してもよい(例えば、ビデオ録画長さは00:13秒である)。
【0049】
ビデオ録画サービスにおいて、コンピュータ機器はターゲットユーザーのユーザー初期音声をリアルタイムで収集し、ユーザー初期音声に対応する音声の長さ、及びユーザー初期音声に含まれる音声文字数を取得して、音声文字数と音声の長さとの比をユーザーの話速として決定することができ、ユーザーの話速が話速閾値(当該話速閾値は、実際のニーズに応じて人為的に設定されてもよく、例えば、話速閾値は500字/1分である)よりも大きいと、話速プロンプト情報を録画ページに表示し、当該話速プロンプト情報は、ユーザーの話速を低減するように、ビデオ録画サービスに関連付けられたターゲットユーザーに提示するために用いられる。言い換えると、コンピュータ機器はターゲットユーザーのユーザーの話速をリアルタイムで取得でき、ユーザーの話速が話速閾値よりも大きいと、ターゲットユーザーのビデオ録画サービスにおける話速が速すぎることを示し、発話速度を適切に下げるように、ターゲットユーザーに促してもよい。
【0050】
図7を併せて参照し、図7は本出願の実施例で提供される、話速プロンプト情報を表示するインターフェース概略図である。図7に示すように、ユーザー端末60a(即ち、上記のコンピュータ機器)は、ターゲットユーザーのユーザー初期音声を収集した後、ユーザー初期音声に含まれる音声文字数及び音声の長さに基づいて、ターゲットユーザーのユーザーの話速を決定することができ、ターゲットユーザーのビデオ録画サービスにおけるユーザーの話速が速すぎる(即ち、話速閾値よりも大きい)と、話速プロンプト情報60c(例えば、話速プロンプト情報は、「現在の話速が速すぎて、ビデオ録画の品質を確保するために、話速を遅くしてください」)をビデオ録画サービスの録画ページ60bに表示してもよい。無論、実際の応用において、話速を遅くするように、音声放送によりターゲットユーザーに促してもよいが、本出願の実施例では、話速プロンプト情報の展示形態を限定していない。
【0051】
ビデオ録画中に、ビデオ録画サービスの録画ページには、録画キャンセルコントロール、及び録画完了コントロールがさらに含まれてもよい。ターゲットユーザーが録画ページにおける録画キャンセルコントロールに対してトリガー操作を実行した後、コンピュータ機器は、録画キャンセルコントロール的に対するトリガー操作に応答して、ビデオ録画サービスをキャンセルし、ビデオ録画サービスで録画されたビデオデータを削除し、ビデオ録画サービスに対する録画プロンプト情報を生成することができ、録画プロンプト情報を録画ページに表示し、なお、録画プロンプト情報は再録画コントロールを含んでもよい。ターゲットユーザーが再録画コントロールに対してトリガー操作を実行した後、コンピュータ機器は、再録画コントロールに対するトリガー操作に応答して、録画ページに表示されるターゲットテキストをプロンプトテキストデータに切り替えて表示し、即ち、プロンプトテキストデータを録画ページのテキスト入力領域に表示し、ビデオ録画サービスを再開始させることができる。無論、録画プロンプト情報はホームページ戻りコントロールをさらに含んでもよく、ターゲットユーザーがホームページ戻りコントロールに対してトリガー操作を実行し、コンピュータ機器は、ホームページ戻りコントロールに対するトリガー操作に応答して、ビデオアプリケーションにおいて、録画ページをアプリケーションホームページに切り替えて表示し、即ち、実行しているビデオ録画サービスをキャンセルした後、しばらくビデオ録画サービスを開始しない。
【0052】
ターゲットユーザーが録画ページにおける録画完了コントロールに対してトリガー操作を実行した後、コンピュータ機器は録画完了コントロールに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、ビデオ録画サービスで録画されたビデオデータを、録画が完了したターゲットビデオデータとして決定することができる。即ち、プロンプトテキストデータの発表がまだ完了していない場合、ビデオ録画サービスを停止させ、ビデオ録画サービスを停止させる前に録画されたビデオを、ターゲットビデオデータと呼ばれる。
【0053】
図8を併せて参照し、図8は本出願の実施例で提供される、ビデオ録画サービスを停止させるインターフェース概略図である。図8に示すように、ユーザー端末70a(即ち、上記のコンピュータ機器)はビデオ録画サービスにおけるターゲットユーザーのユーザー音声に基づいて、ビデオ録画サービスのプロンプトテキストデータにおいてユーザー音声のターゲットテキストを決定し、録画ページ70bにおいてターゲットテキストをマーキングすることができ、即ち、ユーザー端末70aはユーザー音声の進行に従ってプロンプトテキストデータをスクロール表示することができる。ビデオ録画中に、録画ページ70bには録画キャンセルコントロール70c、及び録画完了コントロール70dがさらに表示されてもよい。ターゲットユーザーが録画完了コントロール70dに対してトリガー操作を実行すると、ユーザー端末70aは録画完了コントロール70dに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、今回のビデオ録画サービスで録画されたビデオデータを保存し、即ち、今回のビデオ録画サービスを完了させることができる。ターゲットユーザーが録画キャンセルコントロール70cに対してトリガー操作を実行すると、ユーザー端末70aは、録画キャンセルコントロール70cに対するトリガー操作に応答して、ビデオ録画サービスをキャンセルして、今回のビデオ録画サービスで録画されたビデオデータを削除することができ、ユーザー端末70aはビデオ録画サービスにおけるターゲットユーザーに対して録画プロンプト情報70eを生成し(例えば、録画プロンプト情報は「撮影済みのセグメントがクリアされ、セグメントを再撮影するか?」であってもよい)、録画プロンプト情報70eをビデオ録画サービスの録画ページ70bに表示する。当該録画プロンプト情報70eは、「ホームページ戻り」コントロール及び「再撮影」コントロールを含んでもよく、ターゲットユーザーが「ホームページ戻り」コントロールに対してトリガー操作を実行すると、ユーザー端末70aはビデオ録画サービスを終了して、録画ページ70bからビデオアプリケーションのアプリケーションホームページに戻ることができる。即ち、ターゲットユーザーは再撮影を中止する。ターゲットユーザーが「再撮影」コントロールに対してトリガー操作を実行すると、ユーザー端末70aはビデオ録画サービスを終了して、録画ページ70bからテキスト入力領域に戻り、プロンプトテキストデータをテキスト入力領域に表示することができ、即ち、ターゲットユーザーは、ビデオを再録画することを選択する。
【0054】
S103において、プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置であると、ビデオ録画サービスに対応するターゲットビデオデータを取得する。
【0055】
ビデオ録画サービスにおいて、プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置であると、ターゲットユーザーがビデオ録画サービスの撮影作業を完成したことを示し、ターゲットユーザーの操作を必要とせず、コンピュータ機器はビデオ録画サービスを自動的に終了し、ビデオ録画サービスで録画されたビデオデータを保存し、ビデオ録画サービスで録画されたビデオデータをターゲットビデオデータとして決定する。
【0056】
コンピュータ機器は、ビデオ録画サービスを停止させる際に保存されたビデオデータを、オリジナルビデオデータとして決定して、ビデオアプリケーションの編集ページに入って、オリジナルビデオデータ、及びオリジナルビデオデータに対応する編集最適化コントロールをビデオアプリケーションの編集ページに表示することができる。ターゲットユーザーが編集ページに表示される編集最適化コントロールに対してトリガー操作を実行でき、この場合、コンピュータ機器は、編集最適化コントロールに対するトリガー操作に応答して、オリジナルビデオデータに対するM個の編集最適化方式を表示することができ、Mは正の整数であり、即ち、Mは、1、2、……を取ってもよく、本出願の実施例において、M個の編集最適化方式は、言違いを除去する編集最適化方式(第1の編集方式と呼ばれてもよい)、言違い及びフレーズ間のポーズを除去する編集最適化方式(第2の編集方式と呼ばれてもよい)を含んでもよいが、これらに限定されず、ターゲットユーザーがM個の編集最適化方式からある編集最適化方式を選択した場合、コンピュータ機器は、M個の編集最適化方式に対する選択操作に応答して、選択操作により決定された編集最適化方式に基づいて、オリジナルビデオデータに対して編集最適化処理を行うことで、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。編集ページにおけるオリジナルビデオデータ及びターゲットビデオデータの表示領域及び表示サイズは、実際の必要に応じて調整されてもよいことを理解されたい。例えば、オリジナルビデオデータ(又は、ターゲットビデオデータ)の表示領域は編集ページの上部、下部、中間領域などに位置してもよく、オリジナルビデオデータ(又は、ターゲットビデオデータ)の表示サイズは16:9の表示比などであってもよい。
【0057】
選択操作により決定された編集最適化方式は第1の編集方式であり、即ち、ターゲットユーザーは言違いを除去する編集最適化方式を選択すると、コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データを取得し、ターゲット音声データをターゲットテキスト結果に変換し、さらに、ターゲットテキスト結果とプロンプトテキストデータとに対してテキスト比較を行うことで、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定し、オリジナルビデオデータからエラーテキストに対応する音声データを削除し、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。オリジナルビデオデータに対して編集最適化処理を行う過程で、コンピュータ機器は正確な音声-文字変換モデルを使用して、オリジナルビデオデータに含まれるターゲット音声データに対して文字変換処理を行うことができ、上記の正確な音声文字変換モデルはターゲット音声データにおけるセマンティック情報を学習でき、変換後のテキスト発音とユーザー音声との間の一致性だけではなく、ユーザー音声の間のセマンティック情報も考慮する必要があり、コンテキストセマンティック情報によって変換後のテキストに対して誤り訂正を行う。コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データに対して音声区間検出を行うことで、オリジナルビデオデータにおける雑音及び無音を除去して、オリジナルビデオデータにおける有効音声データを取得し、正確な音声-文字変換モデルによって、有効音声データに対して文字変換を行うことで、ターゲット音声データに対応するターゲットテキスト結果を取得し、ターゲットテキスト結果に含まれる文字と、プロンプトテキストデータに含まれる文字とを1つずつ比較して、さらに、ターゲットテキスト結果とプロンプトテキストデータとの間の異なるテキストをエラーテキストとして決定することができ、ここで、エラーテキストは、ビデオ録画サービスの録画におけるターゲットユーザーの言違いによって生成される可能性がある。コンピュータ機器は、エラーテキストに対応する音声データをオリジナルビデオデータから削除して、最終的なターゲットビデオデータを取得する。
【0058】
選択操作により決定された編集最適化方式は第2の編集方式であり、即ち、ターゲットユーザーは言違い及びフレーズ間のポーズを除去する編集最適化方式を選択すると、コンピュータ機器はオリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換して、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定し、さらに、ターゲットテキスト結果をN個のテキスト文字に分割して、ターゲット音声データにおけるN個のテキスト文字のタイムスタンプをそれぞれ取得することができ、Nは正の整数であり、例えば、Nは1、2、…を取ってもよく、コンピュータ機器はタイムスタンプに基づいてターゲット音声データにおける音声ポーズセグメントを決定し、オリジナルビデオデータから音声ポーズセグメント及びエラーテキストに対応する音声データを削除し、ビデオ録画サービスに対応するターゲットビデオデータを取得することができる。コンピュータ機器がエラーテキストを決定するプロセスについて、上記の第1の編集方式を選択する際の記載を参照でき、ここで贅言していない。
【0059】
コンピュータ機器が音声ポーズセグメントを取得するプロセスは以下のことを含むことがでる。コンピュータ機器は、ターゲット音声データに対応するターゲットテキスト結果に対して単語分割処理を行って、N個のテキスト文字、及びターゲット音声データにおける各テキスト文字のタイムスタンプ、即ち、オリジナルビデオデータにおけるタイムスタンプをそれぞれ取得し、N個のテキスト文字のうちの、隣接している2つのテキスト文字ごとにそれぞれ対応するタイムスタンプに基づいて、隣接している2つのテキスト文字ごとの間の時間間隔を取得し、隣接している2つのテキスト文字の間の時間間隔が時間長さ閾値よりも大きいと(例えば、時間長さ閾値は1.5秒に設定されてもよい)、隣接している2つのテキスト文字の間の音声セグメントを音声ポーズセグメントとして決定することができ、音声ポーズセグメントの数は1つであってもよいし、複数であってもよいし、さらに、ゼロであってもよい(即ち、音声ポーズセグメントが存在しない)。例えば、ターゲットテキスト結果における配列順序に従って、N個のテキスト文字は、テキスト文字1、テキスト文字2、テキスト文字3、テキスト文字4、テキスト文字5、及びテキスト文字6として表すことができ、オリジナルビデオデータにおけるテキスト文字1のタイムスタンプはt1であり、オリジナルビデオデータにおけるテキスト文字2のタイムスタンプはt2であり、オリジナルビデオデータにおけるテキスト文字3のタイムスタンプはt3であり、オリジナルビデオデータにおけるテキスト文字4のタイムスタンプはt4であり、オリジナルビデオデータにおけるテキスト文字5のタイムスタンプはt5であり、オリジナルビデオデータにおけるテキスト文字6のタイムスタンプはt6であり、コンピュータ機器がテキスト文字2とテキスト文字3との間の時間間隔が時間長さ閾値よりも大きいと計算した場合、テキスト文字2とテキスト文字3との間の音声セグメントを音声ポーズセグメント1として決定し、テキスト文字5とテキスト文字6との間の時間間隔が時間長さ閾値よりも大きいと計算した場合、テキスト文字5とテキスト文字6との間の音声セグメントを音声ポーズセグメント2として決定する。オリジナルビデオデータからエラーテキストに対応する音声、及び音声ポーズセグメント1、音声ポーズセグメント2にそれぞれ対応するビデオセグメントを削除して、最終的なターゲットビデオデータを取得できる。
【0060】
図9を併せて参照し、図9は本出願の実施例で提供される、ビデオ録画に対して編集最適化を行うインターフェース概略図である。図9に示すように、ビデオ録画サービスが完了した後、ビデオアプリケーションの編集ページ80bに入って、編集ページ80bにおいてビデオ録画サービスで録画されたビデオデータ80c(例えば、上記のオリジナルビデオデータ)をプレビュー再生することができ、ビデオデータ80cは16:9の比に従って、編集ページ80bに表示されてもよく、ビデオデータ80cに対応する時間軸80dを当該編集ページ80bに表示し、当該時間軸80dはビデオデータ80cにおけるビデオノードを含んでもよく、ターゲットユーザーは時間軸80dにおけるビデオノードによってビデオデータ80cにおける再生点を迅速に位置決めすることができる。編集ページ80bには編集最適化コントロール80e(編集最適化オプションボタンとも呼ばれ得る)がさらに表示されてもよく、ターゲットユーザーが編集最適化コントロール80eに対してトリガー操作を実行すると、ユーザー端末80a(即ち、コンピュータ機器)は編集最適化コントロール80eに対するトリガー操作に応答して、編集ページ80bに選択ページ80fをポップアップする(本出願の実施例において、選択ページは、編集ページにおけるある領域、編集ページに独立して表示されるサブページ、編集ページにおけるフローティングページ、又は編集ページをカバーするページであってもよいが、ここで選択ページの展示形態を限定していない)。
【0061】
選択ページ80fにおいて、ビデオデータ80cに対する異なる編集最適化方式、及び異なる編集最適化方式にそれぞれ対応するビデオの長さを表示することができ、図9に示すように、ターゲットユーザーが選択ページ80fに「言違い部分を除去する」(即ち、上記の第1の編集方式)を選択すれば、編集最適化後のビデオデータ80cのビデオの長さは57秒(ビデオデータ80cのビデオの長さは60秒である)であり、ターゲットユーザーが選択ページ80fに「言違い及びフレーズ間のポーズを除去する」(即ち、上記の第2の編集方式)を選択すれば、編集最適化後のビデオデータ80cのビデオの長さは50秒であり、ターゲットユーザーが選択ページ80fにおいて何も処理を行わないと、ビデオデータ80cをそのまま保持して処理しない。ターゲットユーザーが「言違い部分を除去する」という最適化編集方式を選択した場合、ユーザー端末80aはビデオデータ80cにおけるターゲット音声データに対してテキスト変換処理を行うことで、ターゲット音声データに対応するターゲットテキスト結果を取得し、ターゲットテキスト結果とプロンプトテキストデータに対して文字マッチングを行って、エラーテキストを決定し、ビデオデータ80cにおいてエラーテキストに対応する音声データを削除して、ターゲットビデオデータを取得することができ、ここで、ターゲットビデオデータは、言違い部分が削除されたビデオデータである。ターゲットユーザーが「言違い及びフレーズ間のポーズを除去する」という最適化編集方式を選択した場合、ユーザー端末80aはビデオデータ80cからエラーテキストに対応する音声データ、及びビデオデータ80cにおける音声ポーズセグメントを削除することで、ひいては、ターゲットビデオデータを取得し、ここで、ターゲットビデオデータは、言違い部分及びフレーズ間のポーズ部分が削除されたビデオデータである。ターゲットビデオデータを取得した後、ターゲットユーザーは、情報公開プラットフォームにおけるユーザー端末が当該ターゲットビデオデータを閲覧できるように、ターゲットビデオデータを保存したり、ターゲットビデオデータを情報公開プラットフォームにアップロードしたりすることができる。
【0062】
上記のエラーテキストは、K個のエラーサブテキストを含み得、Kは正の整数であり、例えば、Kは、1、2、…の値をとることができ、コンピュータ機器は、K個のエラーサブテキスト及びオリジナルビデオデータに対応するビデオの長さに基づいて、ビデオ録画サービスにおけるエラー頻度を決定することができ、エラー頻度がエラー閾値(例えば、エラー閾値は、1 分あたり2回のエラーに設定されてもよい)よりも大きいと、K個のエラーサブテキストにそれぞれ対応するスピーチエラータイプを認識し、さらに、ビデオアプリケーションにおいてスピーチエラータイプに関連付けられたチュートリアルビデオを、ビデオ録画サービスに関連するターゲットユーザーにプッシュすることができる。言い換えると、コンピュータ機器は、エラーテキストに対応するスピーチエラータイプに基づいて、ビデオアプリケーションにおいて相応するチュートリアルビデオをターゲットユーザーに推奨することができ、スピーチエラータイプは、共通語が標準ではないこと、発音エラー、発音がはっきりしないことを含むが、これらに限定されていない。例えば、オリジナルビデオデータのビデオの時間長さは1分であり、ターゲットユーザーがオリジナルビデオデータに3つのエラーが生じた場合、コンピュータ機器は3つのエラーに対応するエラーサブテキストのスピーチエラータイプを決定でき、スピーチエラータイプが共通語が標準ではないタイプであれば、コンピュータ機器はビデオアプリケーションにおいて、共通語チュートリアルビデオをターゲットユーザーにプッシュし、スピーチエラータイプが発音エラータイプであれば、コンピュータ機器はビデオアプリケーションにおいて中国語チュートリアルビデオをターゲットユーザーにプッシュし、スピーチエラータイプが発音がはっきりしないタイプであれば、コンピュータ機器はビデオアプリケーションにおいて吹替チュートリアルビデオをターゲットユーザーにプッシュすることができる。
【0063】
図10を併せて参照し、図10は本出願の実施例で提供される、スピーチエラータイプに基づいてチュートリアルビデオを推奨するインターフェース概略図である。図10に示すように、ターゲットユーザーが「言違い部分を除去する」という編集最適化方式を選択することを仮定すると、ビデオ録画サービスに録画されたオリジナルビデオデータに対して編集最適化を行うことで、編集最適化後のターゲットビデオデータ90c(即ち、言違い部分を除去した録画ビデオ)を取得し、ユーザー端末90a(即ち、上記のコンピュータ機器)は、編集ページ90bにターゲットビデオデータ90cを表示させ、編集ページ90bに時間軸90dをさらに表示させることができ、当該時間軸90dはターゲットビデオデータ90cに関連付けられたビデオノードを含むことができ、時間軸90dにおけるビデオノードをトリガーすることで、ターゲットビデオデータ90cにおける特定の時点を位置決めして再生することができ、ターゲットユーザーは、編集ページ90bにターゲットビデオデータ90cに対してプレビュー再生を行うことができる。ユーザー端末90aは、編集最適化プロセスにおけるエラーテキストに対応するスピーチエラータイプに基づいて、ビデオアプリケーションにおいて、スピーチエラータイプにマッチングするチュートリアルビデオをターゲットユーザーにプッシュすることができ、図10に示すように、エラーテキストに対応するスピーチエラータイプは、共通語が標準ではないタイプであり、つまり、言違いの原因は共通語が標準ではないことであれば、ユーザー端末90aはビデオアプリケーションから、共通語ビデオ教学用のチュートリアルビデオ(即ち、共通語チュートリアルビデオ)を取得し、プッシュされた共通語チュートリアルビデオを編集ページ90bの領域90eに表示させることができる。
【0064】
図11を参照し、図11は本出願の実施例で提供されるビデオ録画サービスの実現フローチャートである。図11に示すように、ビデオアプリケーションのクライアント及びバックグランドサーバーを例として、ビデオ録画サービスの実現過程について記述し、ここで、クライアント及びバックグランドサーバーはコンピュータ機器と呼ばれてもよく、ビデオ録画サービスの実現フローは以下のS11~S25によって実現される。
【0065】
S11において、プロンプトテキストデータを入力する。即ち、ターゲットユーザーはビデオアプリケーションのクライアントを開き、クライアントの撮影ページに入って、撮影ページのテレプロンプター撮影エントリから録画ページに入ることができ、ここで、録画ページはテキスト入力領域を含み得、ターゲットユーザーはテキスト入力領域にプロンプトテキストデータを入力することができる。プロンプトテキストデータの編集が完成した後、ターゲットユーザーはS12を実行して、音声で「開始」を起動することができ、即ち、「開始」をウェイクワードとしてもよく、ターゲットユーザーが「開始」と言ったら、クライアントはユーザーの音声起動操作に応答して、S13を実行し、ビデオ録画サービスを開始させ、即ち、録画モードに入り始めることができる。
【0066】
S14において、録画モードに入った後、ターゲットユーザーはスクリーンでの文字を読むことができ(当該スクリーンは、当該クライアントがインストールされた端末機器のスクリーンであり、この場合、端末機器のスクリーンでの文字はプロンプトテキストデータにおける一部のテキストコンテンツであってもよく、例えば、録画モードに入る場合、表示される文字はプロンプトテキストデータにおける最初の二言であってもよい)、クライアントはターゲットユーザーのユーザー初期音声を収集し、ユーザー初期音声をビデオアプリケーションのバックグランドサーバーに伝送して、テキスト変換コマンドをバックグランドサーバーに送信することができる。バックグランドサーバーは、クライアントによって送信されたユーザー初期音声及びコマンドを受信した後、S15を実行し、音声区間検出技術(VAD技術)によってユーザー初期音声を検出して、ユーザー初期音声における雑音及び無音を削除し、ターゲットユーザーに対応するユーザー音声(即ち、有効音声データ)を取得することができる。ここで、S15は、クライアントがロカールの音声区間検出モジュールを介して実行されてもよいし、バックグランドサーバーがVAD技術を使用して実行されてもよい。
【0067】
S16において、バックグランドサーバーは、高速文字変換モデルを使用してユーザー音声に対してテキスト変換を行うことで、ユーザー音声を文字(即ち、ユーザー音声テキスト)に変換することができる。次に、S17を実行し、ユーザー音声テキストをピンイン(文字)に変換する(本出願の実施例において、テキストプロンプトデータはデフォルトで中国語である)。さらに、S18を実行し、バックグランドサーバーはターゲットユーザーによって入力されたプロンプトテキストデータを取得し、プロンプトテキストデータをピンインに変換し、ユーザー音声テキストのピンインとプロンプトテキストデータのピンインとをマッチングすることができる。次に、S19を実行し、プロンプトテキストデータにおいてユーザー音声にマッチングする文字位置を見つけて、ユーザー音声の、プロンプトテキストデータにおける文字位置をクライアントに伝送する。
【0068】
S20において、クライアントは、バックグランドサーバーによって伝送された文字位置を受信した後、文字位置に基づいて、ユーザー音声に対応するターゲットテキストを決定し、クライアントの録画ページにおいてターゲットテキストをマーキングすることができ、即ち、文字位置に基づいてプロンプトテキストデータをスクロール表示することができ、ターゲットユーザーがプロンプトテキストデータにおける最後の字を読むと、クライアントはS21を実行して、ビデオ録画サービスを終了することができる。無論、ターゲットユーザーは録画ページにおける録画完了コントロール又は録画キャンセルコントロールをトリガーして、ビデオ録画サービスを終了させてもよい。
【0069】
ビデオ録画サービスを終了すると、クライアントはビデオ録画サービスに対応する録画ビデオ(即ち、上記のオリジナルビデオデータ)をバックグランドサーバーに伝送して、バックグランドサーバーにテキスト変換コマンドを送信することができ、バックグランドサーバーは、テキスト変換コマンドを受信した後、S22を実行して、正確な文字変換モデルを使用して録画ビデオに含まれる音声データに対してテキスト変換を行うことで、録画ビデオに含まれる音声データを文字(即ち、ターゲットテキスト結果)に変換して、ビデオ録画における文字の出現タイム、言い換えると、ビデオ録画における文字のタイムスタンプを取得することができ、この場合、バックグランドサーバーはS23及びS24を並行して実行してもよい。
【0070】
S23において、バックグランドサーバーはターゲットテキスト結果とプロンプトテキストデータとを比較して、ビデオ録画における言違い部分(即ち、上記のエラーテキストに対応する音声データ)を見つけることができる。S24において、バックグランドサーバーは、録画ビデオにおける文字の出現タイム(即ち、タイムスタンプ)によって、録画ビデオに含まれるユーザー音声におけるポーズ部分を見つけることができる。バックグランドサーバーは録画ビデオにおける言違い部分及びポーズ部分を何れもクライアントに伝送することができる。クライアントは、バックグランドサーバーによって伝送された言違い部分及びポーズ部分を受信した後、S25を実行し、言違い部分及びポーズ部分に基づいて、クライアントにおいて異なる編集最適化方式をターゲットユーザーに提供することができ、ターゲットユーザーはクライアントにて提供された複数の編集最適化方式から適切な編集最適化方式を選択でき、クライアントはターゲットユーザーが選択した編集最適化方式に基づいて、録画ビデオに対して編集最適化を行うことで、最終的なターゲットビデオデータを取得することができる。
【0071】
本出願の実施例において、ユーザーは、ビデオアプリケーションにプロンプトテキストデータを入力した後、音声でビデオ録画サービスを起動し、ビデオ録画サービスの録画中で、テレプロンプター機能をユーザーに提供することができ、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを位置決めし、ビデオアプリケーションにおいてターゲットテキストをマーキングし、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話しているコンテンツにマッチングし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減させ、さらに、録画ビデオの品質を向上させることができる。ユーザー音声によりビデオ録画サービスを起動は停止することで、ビデオ録画サービスにおけるユーザー操作を削減し、ビデオ録画の効果を高めることができ、ビデオ録画サービスが終了した後、ビデオ録画サービスにおけるビデオ録画に対して編集最適化を自動的に行うことができ、ビデオ録画の品質をさらに向上させることができる。
【0072】
図12を参照し、図12は本出願の実施例で提供されるデータ処理方法のフロー概略図である。当該データ処理方法はコンピュータ機器によって実行され得、当該コンピュータ機器はユーザー端末、スタンドアロンサーバー、複数のサーバーから構成されたクラスタ、若しくはユーザー端末及びサーバーから構成されたシステム、コンピュータプログラムアプリケーション(プログラムコードを含む)であってもよく、ここで具体的に限定していないことを理解されたい。図12に示すように、当該データ処理方法は以下のS201~S203を含むことができる。
【0073】
S201において、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードする。
【0074】
ターゲットユーザーはテレプロンプターアプリケーションにプロンプトテキストデータを入力し、又は、編集されたプロンプトテキストデータをテレプロンプターアプリケーションにアップロードすることができる。コンピュータ機器はターゲットユーザーのテキスト入力操作、又はテキストアップロード操作に応答して、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードすることができる。つまり、テレプロンプターアプリケーションによって提供されるテレプロンプター機能を使用する場合、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードする必要がある。なお、本出願の実施例におけるコンピュータ機器はテレプロンプターアプリケーションがインストールされた機器を指し、テレプロンプターと呼ばれてもよい。
【0075】
S202において、ターゲットユーザーに対応するユーザーの音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成する。
【0076】
コンピュータ機器はターゲットユーザーのユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出を行い、ユーザー初期音声に含まれる雑音及び無音を削除することで、ターゲットユーザーに対応するユーザー音声(即ち、ユーザー初期音声における有効音声データ)を取得することができ、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成する。
【0077】
S203において、プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングする。
【0078】
コンピュータ機器はユーザー音声テキストを第1の音節情報に変換して、プロンプトテキストデータを第2の音節情報に変換し、第1の音節情報と第2の音節情報とを比較し、プロンプトテキストデータにおいてユーザー音声テキストのテキスト位置を決定し、テキスト位置に基づいてプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングすることができる。S202及びS203のより詳しい記載について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0079】
ターゲットユーザーの数は1つ又は複数であってもよく、異なるターゲットユーザーは異なるプロンプトテキストデータに対応し、ターゲットユーザーの数が1である場合、テレプロンプターアプリケーションにおけるターゲットテキストの決定及び展示過程について、上記の図3に対応する実施例におけるS102を参照すればよく、ターゲットユーザーの数が複数である場合、コンピュータ機器は、ユーザー音声を収集した後に、ユーザー音声に対して声紋認識を行って、声紋認識結果に基づいて収集したユーザー音声に対応するユーザー身分を決定し、ユーザー身分に対応するプロンプトテキストデータにおいてユーザー音声に対応するターゲットテキストを決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングすることができる。声紋認識は、ユーザー音声データにおける声紋特徴(例えば、スペクトル、逆スペクトル、フォルマント、基音、反射係数など)を抽出して、声紋特徴を認識することで、ユーザー音声に対応するユーザー身分を決定することを指し、従って、声紋認識はスピーカー認識とも呼ばれる。
【0080】
以下、ターゲットユーザーの数が2であり、即ち、ターゲットユーザーが第1のユーザー及び第2のユーザーを含むことを例として説明し、この場合、プロンプトテキストデータは第1のユーザーに対応する第1のプロンプトテキスト、及び第2のユーザーに対応する第2のプロンプトテキストを含み、コンピュータ機器はユーザー音声におけるユーザー声紋特徴を取得し、ユーザー声紋特徴に基づいてユーザー音声に対応するユーザー身分を決定し、ユーザー身分が第1のユーザーであると、第1のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングし、ユーザー身分が第2のユーザーであると、第2のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいて、ターゲットテキストをマーキングすることができる。言い換えれば、ターゲットユーザーの数が複数である場合、まず、ユーザー音声に対応するユーザー身分を決定する必要があり、そして、当該ユーザー身分に対応するプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングすることができ、テレプロンプターアプリケーションにおけるテレプロンプター機能の有効性を向上させることができる。
【0081】
図13を併せて参照し、図13は本出願の実施例で提供されるテレプロンプターの適用シナリオ概略図である。パーティーのテレプロンプターシナリオを例として、データ処理プロセスについて説明し、図13に示すように、パーティーの司会者のセリフ90a(即ち、プロンプトテキストデータ)を予め編集して、セリフ90aをテレプロンプター(上記のテレプロンプターアプリケーションが存在する機器であり、セリフ提示機能を司会者に提供するとして理解される場合がある)にアップロードすることができ、セリフ90aには、司会者Aさんのセリフ及び司会者Bさんのセリフを含むことができ、テレプロンプターはセリフ90aを受信した後、セリフ90aをロカールに保存することができる。パーティー中、テレプロンプターは、全ての司会者の音声データをリアルタイムで収集でき、テレプロンプターは、司会者のユーザー音声を収集すると、ユーザー音声に対して声紋認識を行い、声紋認識結果に基づいてユーザー音声に対応するユーザー身分を決定することができる。収集されたユーザー音声のユーザー身分がAさんである場合、テレプロンプターは、司会者Aさんのセリフから、収集されたユーザー音声にマッチングするターゲットテキスト(例えば、「冬の暖かい祝福と満ち足りた喜びを持つ」)を検索して、テレプロンプターにおいて「冬の暖かい祝福と満ち足りた喜びを持つ」ことをマーキングすることができる。
【0082】
収集されたユーザー音声のユーザー身分がBさんである場合、テレプロンプターは、司会者Bさんのセリフから、収集されたユーザー音声にマッチングするターゲットテキスト(例えば、「過去1年間、私たちは汗をかく」)ことを検索して、テレプロンプターにおいて「過去1年間、私たちは汗をかく」ことをマーキングすることができる。
【0083】
本出願の実施例において、テレプロンプターは、ターゲットユーザーが読んでいるフレーズをマーキングし、ターゲットユーザーが読んでいる際にターゲットユーザー音声を自動的に認識し、テレプロンプターにおいてプロンプトテキストデータをスクロール表示することができ、テレプロンプターにおけるテキストプロンプト機能の有効性を向上させることができる。
【0084】
図14を参照し、図14は本出願の実施例で提供されるデータ処理装置の構造概略図である。当該データ処理装置は上記の図3に対応する実施例におけるステップを実行し、図14に示すように、当該データ処理装置1は、起動モジュール101と、表示モジュール102と、取得モジュール103とを含むことができる。
【0085】
起動モジュール101は、ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するように構成される。
【0086】
表示モジュール102は、ビデオ録画サービスにおけるユーザーの音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするように構成される。
【0087】
プロンプトテキストデータにおけるターゲットテキストのテキスト位置がプロンプトテキストデータの末尾位置であると、ビデオ録画サービスに対応するターゲットビデオデータを取得するように構成される。
【0088】
起動モジュール101、表示モジュール102、及び取得モジュール103の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS101~S103を参照すればよく、ここで贅言していない。
【0089】
いくつかの実行可能な実施形態において、当該データ処理装置1は、第1の録画ページ表示モジュール104、編集モジュール105と、第1の推定時間長さ表示モジュール106と、第2の録画ページ表示モジュール107と、テキストアップロードモジュール108と、第2の推定時間長さ表示モジュール109と、をさらに含むことができる。
【0090】
第1の録画ページ表示モジュール104は、前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにテキスト入力領域を含む録画ページを表示するように構成される。
【0091】
編集モジュール105は、テキスト入力領域に対する情報編集操作に応答して、情報編集操作により決定されたプロンプトテキストデータをテキスト入力領域に表示するように構成される。
【0092】
第1の推定時間長さ表示モジュール106は、プロンプトテキストデータに対応するプロンプト文字数が数量閾値よりも大きい場合、プロンプト文字数及びプロンプトテキストデータに対応するビデオ推定長さを、テキスト入力領域に表示するように構成される。
【0093】
第2の録画ページ表示モジュール107は、前記ビデオアプリケーションにおけるビデオ録画サービスを起動する前に、ビデオアプリケーションにおけるテレプロンプター撮影エントリに対するトリガー操作に応答して、ビデオアプリケーションにテキストアップロードコントロール及びテキスト入力領域を含む録画ページを表示するように構成される。テキストアップロードモジュール108は、テキストアップロードコントロールに対するトリガー操作に応答して、録画ページにアップロードされたテキストコンテンツをプロンプトテキストデータとして決定し、テキスト入力領域にプロンプトテキストデータを表示するように構成される。
【0094】
第2の推定時間長さ表示モジュール109は、プロンプトテキストデータに対応するプロンプト文字数、及びプロンプトテキストデータに対応するビデオ推定長さを表示する。
【0095】
第1の録画ページ表示モジュール104、編集モジュール105、第1の推定時間長さ表示モジュール106、第2の録画ページ表示モジュール107、テキストアップロードモジュール108及び第2の推定時間長さ表示モジュール109の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS101を参照すればよく、ここで贅言していない。第1の録画ページ表示モジュール104、編集モジュール105及び第1の推定時間長さ表示モジュール106は相応する操作を実行すると、第2の録画ページ表示モジュール107、テキストアップロードモジュール108及び第2の推定時間長さ表示モジュール109は何れも操作の実行を一時停止し、第2の録画ページ表示モジュール107、テキストアップロードモジュール108及び第2の推定時間長さ表示モジュール109は相応する操作を実行すると、第1の録画ページ表示モジュール104、編集モジュール105及び第1の推定時間長さ表示モジュール106は何れも操作の実行を一時停止する。第1の録画ページ表示モジュール104と第2の録画ページ表示モジュール107とを同一の録画ページ表示モジュールに合併してもよく、第1の推定時間長さ表示モジュール106と第2の推定時間長さ表示モジュール109とを同一の推定時間長さ表示モジュールに合併してもよい。
【0096】
いくつかの実行可能な実施形態において、サービス起動操作は音声起動操作を含む。
【0097】
起動モジュール101は、カウントダウンアニメーション表示ユニット1011と、録画サービス起動ユニット1012と、を含むことができる。
【0098】
カウントダウンアニメーション表示ユニット1011は、ビデオアプリケーションにおける音声起動操作に応答して、ビデオ録画サービスに関連付けられた録画カウントダウンアニメーションをビデオアプリケーションの録画ページに表示するように構成される。
【0099】
録画サービス起動ユニット1012は、録画カウントダウンアニメーションが終了すると、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行するように構成される。
【0100】
カウントダウンアニメーション表示ユニット1011及び録画サービス起動ユニット1012の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS101を参照すればよく、ここで贅言していない。
【0101】
いくつかの実行可能な実施形態において、録画カウントダウンアニメーションはアニメーションキャンセルコントロールを含む。
【0102】
当該データ処理装置1は、前記録画カウントダウンアニメーションが終了すると、前記ビデオアプリケーションにおける前記ビデオ録画サービスを起動して実行する前に、アニメーションキャンセルコントロールに対するトリガー操作に応答して、録画カウントダウンアニメーションの表示をキャンセルし、ビデオアプリケーションにおけるビデオ録画サービスを起動して実行するためのカウントダウンアニメーションキャンセルモジュール110をさらに含む。
【0103】
カウントダウンアニメーションキャンセルモジュール110の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS101を参照すればよく、ここで贅言していない。
【0104】
いくつかの実行可能な実施形態において、表示モジュール102は、音声区間検出ユニット1021と、ターゲットテキスト決定ユニット1022と、ターゲットテキスト表示ユニット1023とを含むことができる。
【0105】
音声区間検出ユニット1021は、ビデオ録画サービスにおけるユーザー初期音声を収集し、ユーザー初期音声に対して音声区間検出を行ってユーザー初期音声における有効音声データを取得し、有効音声データをユーザー音声として決定するように構成される。
【0106】
ターゲットテキスト決定ユニット1022は、ユーザー音声をユーザー音声テキストに変換し、ユーザー音声テキストと、ビデオ録画サービスに関連付けられたプロンプトテキストデータとに対してテキストマッチングを行うことで、プロンプトテキストデータにおいて、ユーザー音声テキストにマッチングするターゲットテキストを決定するように構成される。
【0107】
ターゲットテキスト表示ユニット1023は、ビデオ録画サービスの録画ページにおいて、ターゲットテキストをマーキングするように構成される。
【0108】
音声区間検出ユニット1021、ターゲットテキスト決定ユニット1022及びターゲットテキスト表示ユニット1023の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0109】
いくつかの実行可能な実施形態において、ターゲットテキスト決定ユニット1022は、音節情報取得サブユニット10221と、音節マッチングサブユニット10222とを含むことができる。
【0110】
音節情報取得サブユニット10221は、ユーザー音声テキストの第1の音節情報を取得し、ビデオ録画サービスに関連付けられたプロンプトテキストデータの第2の音節情報を取得するように構成される。
【0111】
音節マッチングサブユニット10222は、第2の音節情報において第1の音節情報と同じターゲット音節情報を取得し、プロンプトテキストデータにおいてターゲット音節情報に対応するターゲットテキストを決定するように構成される。
【0112】
音節情報取得サブユニット10221及び音節マッチングサブユニット10222の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0113】
いくつかの実行可能な実施形態において、ターゲットテキスト表示ユニット1023は、
提示領域決定サブユニット10231と、マーキングサブユニット10232とを含むことができる。
【0114】
提示領域決定サブユニット10231は、ビデオ録画サービスの録画ページにおいてターゲットテキストに対応するテキストプロンプト領域を決定するように構成される。
【0115】
マーキングサブユニット10232は、プロンプトテキストデータにおけるターゲットテキストのテキスト位置に基づいて、テキストプロンプト領域においてターゲットテキストをマーキングするように構成される。
【0116】
提示領域決定サブユニット10231、マーキングサブユニット10232の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0117】
いくつかの実行可能な実施形態において、録画ページは録画キャンセルコントロールを含む。
【0118】
当該データ処理装置1は、録画キャンセルモジュール111と、録画プロンプト情報表示モジュール112と、再録画モジュール113とをさらに含むことができる。
【0119】
録画キャンセルモジュール111は、録画キャンセルコントロールに対するトリガー操作に応答して、ビデオ録画サービスをキャンセルし、ビデオ録画サービスによって録画されたビデオデータを削除するように構成される。
【0120】
録画プロンプト情報表示モジュール112は、ビデオ録画サービスに対する録画プロンプト情報を生成し、録画ページに再録画コントロールを含む録画プロンプト情報を表示するように構成される。
【0121】
再録画モジュール113は、再録画コントロールに対するトリガー操作に応答して、録画ページに表示されるターゲットテキストをプロンプトテキストデータに切り替えて表示するように構成される。
【0122】
録画キャンセルモジュール111、録画プロンプト情報表示モジュール112及び再録画モジュール113の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0123】
いくつかの実行可能な実施形態において、録画ページは録画完了コントロールを含む。
【0124】
当該データ処理装置1は、
前記プロンプトテキストデータにおける前記ターゲットテキストのテキスト位置が前記プロンプトテキストデータの末尾位置である場合、前記ビデオ録画サービスに対応するターゲットビデオデータを取得する前、録画完了コントロールに対するトリガー操作に応答して、ビデオ録画サービスを停止させ、ビデオ録画サービスによって録画されたビデオデータをターゲットビデオデータとして決定する録画完了モジュール114を含むことができる。
【0125】
録画完了モジュール114の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0126】
いくつかの実行可能な実施形態において、取得モジュール103は、オリジナルビデオ取得ユニット1031と、最適化コントロール表示ユニット1032と、最適化方式表示ユニット1033と、最適化処理ユニット1034と、を含むことができる。
【0127】
オリジナルビデオ取得ユニット1031は、プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスを停止させ、ビデオ録画サービスによって録画されたビデオデータをオリジナルビデオデータとして決定するように構成される。
【0128】
最適化コントロール表示ユニット1032は、ビデオアプリケーションの編集ページに、オリジナルビデオデータ、及びオリジナルビデオデータに対応する編集最適化コントロールを表示するように構成される。
【0129】
最適化方式表示ユニット1033は、編集最適化コントロールに対するトリガー操作に応答して、オリジナルビデオデータに対するM(Mは正の整数である)個の編集最適化方式を表示するように構成される。
【0130】
最適化処理ユニット1034は、M個の編集最適化方式に対する選択操作に応答して、選択操作により決定された編集最適化方式に基づいて、オリジナルビデオデータに対して編集最適化処理を行うことで、ターゲットビデオデータを取得するように構成される。
【0131】
オリジナルビデオ取得ユニット1031、最適化コントロール表示ユニット1032、最適化方式表示ユニット1033及び最適化処理ユニット1034の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS103を参照すればよく、ここで贅言していない。
【0132】
いくつかの実行可能な実施形態において、最適化処理ユニット1034は、第1の音声変換サブユニット10341と、テキスト比較サブユニット10342と、音声削除サブユニット10343と、第2の音声変換サブユニット10344と、タイムスタンプ取得サブユニット10345と、音声ポーズセグメント決定サブユニット10346と、を含むことができる。
【0133】
第1の音声変換サブユニット10341は、選択操作により決定された編集最適化方式が第1の編集方式であると、オリジナルビデオデータに含まれるターゲット音声データを取得し、ターゲット音声データをターゲットテキスト結果に変換するように構成される。
【0134】
テキスト比較サブユニット10342は、ターゲットテキスト結果とプロンプトテキストデータとに対してテキスト比較を行うことで、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定するように構成される。
【0135】
音声削除サブユニット10343は、オリジナルビデオデータにおいてエラーテキストに対応する音声データを削除することで、ターゲットビデオデータを取得するように構成される。
【0136】
第2の音声変換サブユニット10344は、選択操作により決定された編集最適化方式は第2の編集方式であると、オリジナルビデオデータに含まれるターゲット音声データをターゲットテキスト結果に変換し、ターゲットテキスト結果におけるプロンプトテキストデータと異なるテキストをエラーテキストとして決定するように構成される。
【0137】
タイムスタンプ取得サブユニット10345は、ターゲットテキスト結果をN(Nは正の整数である)個のテキスト文字に分割することで、ターゲット音声データにおけるN個のテキスト文字のそれぞれのタイムスタンプを取得するように構成される。
【0138】
音声ポーズセグメント決定サブユニット10346は、タイムスタンプに基づいてターゲット音声データにおける音声ポーズセグメントを決定し、オリジナルビデオデータにおいて音声ポーズセグメント及びエラーテキストに対応する音声データを削除することで、ターゲットビデオデータを取得するように構成される。
【0139】
第1の音声変換サブユニット10341、テキスト比較サブユニット10342、音声削除サブユニット10343、第2の音声変換サブユニット10344、タイムスタンプ取得サブユニット10345及び音声ポーズセグメント決定サブユニット10346の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS103を参照すればよく、ここで贅言していない。第1の音声変換サブユニット10341、テキスト比較サブユニット10342及び音声削除サブユニット10343は相応する操作を実行すると、第2の音声変換サブユニット10344、タイムスタンプ取得サブユニット10345及び音声ポーズセグメント決定サブユニット10346は何れも操作の実行を一時停止し、第2の音声変換サブユニット10344、タイムスタンプ取得サブユニット10345及び音声ポーズセグメント決定サブユニット10346は相応する操作を実行すると、第1の音声変換サブユニット10341、テキスト比較サブユニット10342及び音声削除サブユニット10343は何れも操作の実行を一時停止する。
【0140】
いくつかの実行可能な実施形態において、当該データ処理装置1は、ユーザー話速決定モジュール115と、話速プロンプト情報表示モジュール116とをさらに含むことができる。
【0141】
ユーザー話速決定モジュール115は、ユーザー初期音声に対応する音声の長さ、及びユーザー初期音声に含まれる音声文字数を取得し、音声文字数と音声の長さとの比をユーザーの話速として決定するように構成される。
【0142】
話速プロンプト情報表示モジュール116は、ユーザーの話速が話速閾値よりも大きい場合、録画ページに話速プロンプト情報を表示するように構成され、話速プロンプト情報は、ユーザーの話速を低減するように、ビデオ録画サービスに関連付けられたターゲットユーザーに促すためのものである。
【0143】
ユーザー話速決定モジュール115、及び話速プロンプト情報表示モジュール116の具体的な機能の実現形態について、上記の図3に対応する実施例におけるS102を参照すればよく、ここで贅言していない。
【0144】
いくつかの実行可能な実施形態において、エラーテキストはK個のエラーサブテキストを含み、Kは正の整数である。
【0145】
当該データ処理装置1は、エラー頻度決定モジュール117と、エラータイプ認識モジュール118と、チュートリアルビデオプッシュモジュール119とをさらに含むことができる。
【0146】
エラー頻度決定モジュール117は、K個のエラーサブテキスト及びオリジナルビデオデータに対応するビデオの長さに基づいて、ビデオ録画サービスにおけるエラー頻度を決定するように構成される。
【0147】
エラータイプ認識モジュール118は、エラー頻度がエラー閾値よりも大きい場合、K個のエラーサブテキストのそれぞれに対応するスピーチエラータイプを認識するように構成される。
【0148】
チュートリアルビデオプッシュモジュール119は、ビデオアプリケーションにおいて、スピーチエラータイプに関連付けられたチュートリアルビデオをビデオ録画サービスに関連付けられたターゲットユーザーにプッシュするように構成される。
【0149】
エラー頻度決定モジュール117、エラータイプ認識モジュール118及びチュートリアルビデオプッシュモジュール119の具体的な機能の実現形態について、上記図3に対応する実施例におけるS103を参照すればよく、ここで贅言していない。
【0150】
本出願の実施例において、ユーザーは、ビデオアプリケーションにプロンプトテキストデータを入力した後、音声によってビデオ録画サービスを起動することができ、ビデオ録画サービスの録画中に、ユーザーにテレプロンプター機能を提供し、プロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを位置決めし、ビデオアプリケーションにおいてターゲットテキストをマーキングすることができ、即ち、ビデオアプリケーションに表示されているターゲットテキストは、ユーザーが話している内容にマッチングし、ビデオ録画サービスにおけるテキストプロンプト機能の有効性を高め、ユーザーが言葉を忘れることによる録画失敗というリスクを低減し、さらに、録画ビデオの品質を向上させることができ、ユーザー音声によってビデオ録画サービスを起動又は停止することにより、ビデオ録画サービスにおけるユーザー操作を減少し、ビデオ録画の効果を高めることができる、ビデオ録画サービスが終了した後、ビデオ録画サービスにおけるビデオ録画に対して編集最適化を自動的に行うことで、録画ビデオの品質をさらに向上させることができる。
【0151】
図15を参照し、図15は本出願の実施例で提供されるデータ処理装置の構造概略図である。当該データ処理装置は上記の図12に対応する実施例におけるステップを実行することができ、図15に示すように、当該データ処理装置2は、プロンプトテキストアップロードモジュール21と、ユーザー音声収集モジュール22と、ユーザー音声テキスト表示モジュール23とを含むことができる。
【0152】
プロンプトテキストアップロードモジュール21は、プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするように構成される。
【0153】
ユーザー音声収集モジュール22は、ターゲットユーザーに対応するユーザーの音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するように構成される。
【0154】
ユーザー音声テキスト表示モジュール23は、プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。
【0155】
プロンプトテキストアップロードモジュール21、ユーザー音声収集モジュール22及びユーザー音声テキスト表示モジュール23の具体的な実現形態について、上記の図12に対応する実施例におけるS201~S203を参照すればよく、ここで贅言していない。
【0156】
ターゲットユーザーは第1のユーザー及び第2のユーザーを含み、プロンプトテキストデータは第1のユーザーに対応する第1のプロンプトテキスト、及び第2のユーザーに対応する第2のプロンプトテキストを含む。
【0157】
ユーザー音声テキスト表示モジュール23は、ユーザー身分決定ユニット231と、第1の決定ユニット232と、第2の決定ユニット233と、を含む。
【0158】
ユーザー身分決定ユニット231は、ユーザー音声におけるユーザー声紋特徴を取得し、ユーザー声紋特徴に基づいてユーザー音声に対応するユーザー身分を決定するように構成される。
【0159】
第1の決定ユニット232は、ユーザー身分が第1のユーザーであると、第1のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。
【0160】
第2の決定ユニット233は、ユーザー身分が第2のユーザーであると、第2のプロンプトテキストにおいてユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするように構成される。
【0161】
ユーザー身分決定ユニット231、第1の決定ユニット232及び第2の決定ユニット233の具体的な実現形態について、上記の図12に対応する実施例におけるS203を参照すればよく、ここで贅言していない。
【0162】
本出願の実施例において、テレプロンプターは、ターゲットユーザーが読んでいるフレーズをマーキングし、ターゲットユーザーが読んでいる際にターゲットユーザー音声を自動的に認識し、テレプロンプターにおいてプロンプトテキストデータをスクロール表示することができ、テレプロンプターにおけるテキストプロンプト機能の有効性を向上させることができる。
【0163】
図16を参照して、図16は本出願の実施例で提供されるコンピュータ機器の構造概略図である。図16に示すように、当該コンピュータ機器1000は、プロセッサー1001、ネットワークインターフェース1004及びメモリ1005を含むことができ、また、上記のコンピュータ機器1000はユーザーインターフェース1003、及び少なくとも1つの通信バス1002をさらに含むことができる。通信バス1002はこれらのコンポーネントの間の接続通信を実現するように構成される。ユーザーインターフェース1003はディスプレイ(Display)、キーボード(Keyboard)を含むことができ、好ましくは、ユーザーインターフェース1003は標準的な有線インターフェース、無線インターフェースをさらに含むことができる。ネットワークインターフェース1004は標準的な有線インターフェース、無線インターフェース(例えばWI-FIインターフェース)を含むことができる。メモリ1005は高速RAMメモリであってもよいし、不揮発性メモリ(non-volatile
memory)、例えば少なくとも1つの磁気ディスクメモリであってもよい。メモリ1005は、さらに、上記プロセッサー1001から離れた少なくとも1つの記憶装置であってもよい。図16に示すように、コンピュータ可読記憶媒体としてのメモリ1005には、オペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及び機器制御アプリケーションプログラムが含まれてもよい。
【0164】
図16に示すコンピュータ機器1000において、ネットワークインターフェース1004はネットワーク通信機能を提供でき、ユーザーインターフェース1003は主にユーザーに入力を提供するインターフェースであり、プロセッサー1001は、メモリ1005に記憶された機器制御アプリケーションプログラムを呼び出すことで、
ビデオアプリケーションにおけるサービス起動操作に応答して、ビデオアプリケーションにおけるビデオ録画サービスを起動するステップと、
ビデオ録画サービスにおけるユーザー音声を収集し、ビデオ録画サービスに関連付けられたプロンプトテキストデータにおいてユーザー音声にマッチングするターゲットテキストを決定し、ターゲットテキストをマーキングするステップと、
プロンプトテキストデータにおけるターゲットテキストのテキスト位置はプロンプトテキストデータの末尾位置である場合、ビデオ録画サービスに対応するターゲットビデオデータを取得するステップと、を実現させる。
【0165】
本出願の実施例に記載のコンピュータ機器1000は上記の図3に対応する実施例におけるデータ処理方法の記載を実行してもよいし、上記図14に対応する実施例におけるデータ処理装置1の記載を実行してもよく、ここで、贅言していないことを理解されたい。また、同一方法を使用する有益な効果の記載についても、贅言していない。
【0166】
図17を参照し、図17は本出願の実施例で提供されるコンピュータ機器の構造概略図である。図17に示すように、当該コンピュータ機器2000はプロセッサー2001、ネットワークインターフェース2004及びメモリ2005を含むこと、また、上記のコンピュータ機器2000はユーザーインターフェース2003、及び少なくとも1つの通信バス2002をさらに含むことができる。通信バス2002はこれらのコンポーネントの間の接続通信を実現するように構成される。ユーザーインターフェース2003はディスプレイ(Display)、キーボード(Keyboard)を含むことができ、好ましくは、ユーザーインターフェース2003は標準的な有線インターフェース、無線インターフェースを含んでもよい。ネットワークインターフェース2004は標準的な有線インターフェース、無線インターフェース(例えばWI-FIインターフェース)を含んでもよい。メモリ2005は高速RAMメモリであってもよいし、不揮発性メモリ(non-volatile
memory)、例えば少なくとも1つの磁気ディスクメモリであってもよい。メモリ2005は、さらに、上記プロセッサー2001から離れた少なくとも1つの記憶装置であってもよい。図17に示すように、コンピュータ可読記憶媒体としてのメモリ2005にはオペレーティングシステム、ネットワーク通信モジュール、ユーザーインターフェースモジュール及び機器制御アプリケーションプログラムが含まれてもよい。
【0167】
図17に示すコンピュータ機器2000において、ネットワークインターフェース2004はネットワーク通信機能を提供でき、ユーザーインターフェース2003は主にユーザーに入力を提供するインターフェースであり、プロセッサー2001はメモリ2005に記憶された機器制御アプリケーションプログラムを呼び出すことで、
プロンプトテキストデータをテレプロンプターアプリケーションにアップロードするステップと、
ターゲットユーザーに対応するユーザー音声を収集し、ユーザー音声に対してテキスト変換を行うことで、ユーザー音声に対応するユーザー音声テキストを生成するステップと、
プロンプトテキストデータにおいて、ユーザー音声テキストと同じテキストをターゲットテキストとして決定し、テレプロンプターアプリケーションにおいてターゲットテキストをマーキングするステップと、を実現させる。
【0168】
ここで、本出願の実施例に記載のコンピュータ機器2000は上記図6に対応する実施例におけるデータ処理方法の記載を実行してもよいし、上記図14に対応する実施例におけるデータ処理装置2の記載を実行してもよく、ここで、贅言していないことを理解されたい。また、同一方法を使用する有益な効果記載についても、贅言していない。
【0169】
また、ここで、本出願の実施例はコンピュータ可読記憶媒体をさらに提供し、コンピュータ可読記憶媒体には、以上に言及されたデータ処理装置1が実行するコンピュータプログラムが記憶され、コンピュータプログラムはプログラムコマンドを含み、プロセッサーはプログラムコマンドを実行すると、上記図3図11及び図12のいずれか1つに対応する実施例におけるデータ処理方法の記載を実現するため、ここで贅言していない。また、同一方法を使用する有益な効果記載についても、贅言していない。本出願に係るコンピュータ可読記憶媒体の実施例において開示されていない技術詳細について、本出願の方法実施例の記載を参照すればよい。例示として、プログラムコマンドは1つのコンピューティング機器に配置されて実行され、又は1つの場所に位置する複数のコンピューティング機器に実行され、或いは通信ネットワークを介して互いに接続されている複数のコンピューティング機器に実行され、複数の場所に分布され、通信ネットワークを介して互いに接続されている複数のコンピューティング機器によってブロックチェーンシステムを構成する。
【0170】
また、ここで、本出願の実施例はコンピュータプログラム製品又はコンピュータプログラムをさらに提供し、当該コンピュータプログラム製品又はコンピュータプログラムはコンピュータコマンドを含み、当該コンピュータコマンドはコンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサーはコンピュータ可読記憶媒体から当該コンピュータコマンドを読み取り、プロセッサーは、当該コンピュータコマンドを実行することで、上記図3図11及び図12のいずれか1つに対応する実施例におけるデータ処理方法の記載を当該コンピュータ機器に、実行させるため、ここで将贅言していない。また、同一方法を使用する有益な効果の記載についても、贅言していない。本出願に係るコンピュータプログラム製品又はコンピュータプログラムの実施例において開示されていない技術詳細部について、本出願の方法実施例の記載を参照すればよい。
【0171】
当業者であれば理解できるように、上記の実施例方法における全て又は一部のフローの実現は、コンピュータプログラムによって関連するハードウェアに命令することで完成され、コンピュータプログラムはコンピュータ可読取記憶媒体に記憶され、当該プログラムを実行する場合、上記の各方法の実施例のフローを含む。記憶媒体は、磁気ディスク、光ディスク、ROM(Read-Only
Memory)又はRAMリ(Random Access Memory)などであってもよい。
【0172】
以上で開示されたものは本出願の好適な実施例に過ぎないため、本出願の請求項の範囲を限定できず、従って、本出願の特許請求の範囲に従って行われる同等の変形は、本出願の範囲内に含まれるものとする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【国際調査報告】