IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ジンドン テクノロジー ホールディング カンパニー リミテッドの特許一覧

特表2024-517902音声認識トレーニングセットの生成のための方法および装置
<>
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図1
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図2
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図3
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図4
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図5
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図6
  • 特表-音声認識トレーニングセットの生成のための方法および装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-23
(54)【発明の名称】音声認識トレーニングセットの生成のための方法および装置
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240416BHJP
【FI】
G10L15/06 300Y
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023568632
(86)(22)【出願日】2022-04-15
(85)【翻訳文提出日】2023-11-10
(86)【国際出願番号】 CN2022087029
(87)【国際公開番号】W WO2022237448
(87)【国際公開日】2022-11-17
(31)【優先権主張番号】202110514350.X
(32)【優先日】2021-05-08
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
(71)【出願人】
【識別番号】521450687
【氏名又は名称】ジンドン テクノロジー ホールディング カンパニー リミテッド
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】フー リ
(57)【要約】
本開示は、音声認識トレーニングセットの生成のための方法および装置を提供する。方法の一具体的な実施形態は、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するステップと、処理対象オーディオを認識してオーディオテキストを取得するステップと、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップと、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとし、音声認識トレーニングセットを取得するステップと、を含む。
【選択図】図 2
【特許請求の範囲】
【請求項1】
音声認識トレーニングセットの生成のための方法であって、
処理対象オーディオと、前記処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するステップと、
前記処理対象オーディオを認識してオーディオテキストを取得するステップと、
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップと、
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を含む音声認識トレーニングセットの生成のための方法。
【請求項2】
前記処理対象オーディオを認識してオーディオテキストを取得するステップは、
ミュート検出アルゴリズムにより、前記処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを取得するステップと、
前記複数のオーディオセグメントを認識して、前記オーディオテキストに含まれる複数のオーディオセグメントテキストを得るステップと、
を含む請求項1に記載の方法。
【請求項3】
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップは、
前記処理対象ビデオから、前記複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定するステップと、
前記複数のビデオフレームシーケンスにおけるビデオフレーム毎のテキスト情報を認識して、前記ビデオテキストに含まれるビデオフレームテキストを得るステップと、を含む請求項2に記載の方法。
【請求項4】
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するステップは、
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することと、前記複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に応じて、ターゲットビデオフレームシーケンステキストを決定することと、を実行するステップと、
前記複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を含む請求項3に記載の方法。
【請求項5】
当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することは、
当該ビデオフレームシーケンスにおいて、テキスト情報が含まれるビデオフレーム毎に、
当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ前記複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングし、複数のスプライシング済みテキストを取得することと、
前記複数のスプライシング済みテキストと前記ターゲットオーディオセグメントテキストとの間の編集距離に基づいて、前記複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択して、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとすることと、を行う請求項4に記載の方法。
【請求項6】
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、前記音声認識トレーニングセットにおける当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除するステップをさらに含む請求項4に記載の方法。
【請求項7】
音声認識トレーニングセットの生成のための装置であって、
処理対象オーディオと、前記処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するように構成される取得ユニットと、
前記処理対象オーディオを認識してオーディオテキストを得るように構成される第1の認識ユニットと、
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを得るように構成される第2の認識ユニットと、
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するように構成される獲得ユニットとを含む音声認識トレーニングセットの生成のための装置。
【請求項8】
前記第1の認識ユニットは、さらに
ミュート検出アルゴリズムにより、前記処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを取得し、前記複数のオーディオセグメントを認識して前記オーディオテキストに含まれる複数のオーディオセグメントテキストを得るように構成される請求項7に記載の装置。
【請求項9】
前記第2の認識ユニットは、さらに
前記処理対象ビデオから、前記複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定し、前記複数のビデオフレームシーケンスにおけるビデオフレーム毎のテキスト情報を認識して、前記ビデオテキストに含まれるビデオフレームテキストを得るように構成される請求項8に記載の装置。
【請求項10】
前記獲得ユニットは、さらに
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することと、前記複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に応じて、ターゲットビデオフレームシーケンステキストを決定することと、を実行するステップと、
前記複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を行うように構成される請求項9に記載の装置。
【請求項11】
前記獲得ユニットは、さらに
当該ビデオフレームシーケンスにおいて、テキスト情報が含まれるビデオフレーム毎に、
当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ前記複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングし、複数のスプライシング済みテキストを取得することと、
前記複数のスプライシング済みテキストと前記ターゲットオーディオセグメントテキストとの間の編集距離に基づいて、前記複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択し、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとすることと、を行うように構成される請求項10に記載の装置。
【請求項12】
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、前記音声認識トレーニングセットにおける当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除するように構成される削除ユニットをさらに含む請求項10に記載の装置。
【請求項13】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラムが格納されるコンピュータ可読媒体。
【請求項14】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~6のいずれか1項に記載の方法を実現する、電子機器。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本開示は、2021年5月8日に提出された、出願番号が202110514350.Xで、発明の名称が「音声認識トレーニングセットの生成のための方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本開示に組み込む。
【0002】
本開示の実施形態は、コンピュータ技術分野に関し、具体的に音声認識トレーニングセットの生成のための方法および装置に関する。
【背景技術】
【0003】
近年、深層学習技術の急速な発展に伴い、深層ニューラルネットワークに基づく自動音声認識(Automatic Speech Recognition,ASR)モデルを用いた音声認識は、既に現在の音声認識技術分野の主流となっている。音声認識モデルの汎化性能を向上させるためには、音声データを広く大量に収集し、手動でラベル付けして構築したトレーニングセットによって音声認識モデルを最適化する必要がある。
【発明の概要】
【0004】
本開示の実施形態は、音声認識トレーニングセットの生成のための方法および装置を提供する。
【0005】
1つまたは複数の実施形態において、本開示は、音声認識トレーニングセットの生成のための方法であって、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するステップと、処理対象オーディオを認識してオーディオテキストを取得するステップと、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップと、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得するステップと、を含む音声認識トレーニングセットの生成のための方法を提供する。
【0006】
1つまたは複数の実施形態において、本開示は、音声認識トレーニングセットの生成のための装置であって、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するように構成される取得ユニットと、処理対象オーディオを認識してオーディオテキストを取得するように構成される第1の認識ユニットと、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するように構成される第2の認識ユニットと、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得するように構成される獲得ユニットとを含む音声認識トレーニングセットの生成のための装置を提供する。
【0007】
1つまたは複数の実施形態において、本開示は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体を提供する。
【0008】
1つまたは複数の実施形態において、本開示は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに第1の態様のいずれかの実施形態に記載の方法を実現させる電子機器を提供する。
【0009】
1つまたは複数の実施形態において、本開示は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【図面の簡単な説明】
【0010】
本開示の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。
図1】本開示の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
図2】本開示に係る音声認識トレーニングセットの生成のための方法の一実施形態を示すフローチャートである。
図3】本実施形態に係るテキストスプライシングプロセスの概略図である。
図4】本実施形態に係る音声認識トレーニングセットの生成のための方法の応用シーンを示す概略図である。
図5】本開示に係る音声認識トレーニングセットの生成のための方法のもう1つの実施形態を示すフローチャートである。
図6】本開示に係る音声認識トレーニングセットの生成のための装置の一実施形態を示す構造図である。
図7】本開示の実施形態の実現に適するコンピュータシステムの構造概略図である。
【発明を実施するための形態】
【0011】
以下、図面および実施形態を参照しながら本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
【0012】
なお、本開示の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本開示を詳細に説明する。
【0013】
図1は、本開示に係る音声認識トレーニングセットの生成のための方法および装置を適用できる例示的なアーキテクチャ100を示している。
【0014】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。端末装置101、102、103は通信可能に接続されてトポロジーネットワークを構成し、ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0015】
端末装置101、102および103は、データやりとりおよびデータ処理のためにネットワーク接続をサポートするハードウェアデバイスまたはソフトウェアであってもよい。端末装置101、102および103がハードウェアである場合、ネットワーク接続、情報取得、インタラクション、表示、処理などの機能をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102および103がソフトウェアである場合、上記例示された電子機器にインストールされてもよい。それは、例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、または単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0016】
サーバ105は、様々なサービスを提供するサーバ(例えば、端末装置101、102、103を介してユーザが送信した対応する処理対象ビデオと処理対象オーディオを取得し、情報処理を行い、音声認識トレーニングセットを自動的に構築するバックエンド処理サーバ)であってもよい。さらに、サーバは、音声認識トレーニングセットに基づいて初期音声認識モデルをトレーニングするか、または事前トレーニングされた音声認識モデルを最適化することもできる。例示として、サーバ105は、クラウドサーバであってもよい。
【0017】
なお、サーバは、ハードウェアであってもよく、ソフトウェアであってもよい。サーバは、ハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとして実装されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0018】
なお、本開示の実施形態によって提供される音声認識トレーニングセットの生成のための方法は、サーバによって実行されてもよいし、端末装置によって実行されてもよいし、サーバと端末装置との協働により実行されてもよい。相応的に、音声認識トレーニングセットの生成のための装置に含まれる各部分(例えば各ユニット)は、すべてサーバに設けられてもよく、すべて端末装置に設けられてもよく、さらにそれぞれサーバおよび端末装置に設けられてもよい。
【0019】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、端末装置、ネットワークおよびサーバの数を任意に増減してもよい。音声認識トレーニングセットの生成のための方法が動作する電子機器が他の電子機器とデータ伝送を行う必要がない場合、当該システムアーキテクチャは音声認識トレーニングセットの生成のための方法が動作する電子機器(例えばサーバまたは端末装置)のみを含んでもよい。次に図2を参照し、図2は音声認識トレーニングセットの生成のための方法の一実施形態のフロー200を示し、次のステップを含む。
【0020】
ステップ201では、処理対象オーディオと処理対象ビデオとを取得する。
【0021】
本実施形態では、音声認識トレーニングセットの生成のための方法の実行主体(例えば、図1に示すサーバ)は、有線ネットワーク接続形態または無線ネットワーク接続形態により遠隔から、またはローカルから処理対象オーディオと処理対象ビデオを取得してもよい。処理対象ビデオには、処理対象オーディオに対応するテキスト情報が含まれる。
【0022】
例示として、対応する処理対象オーディオおよび処理対象ビデオを含むデータは、映画、テレビドラマ、ショートビデオなどの様々なオーディオおよびビデオデータであり得る。処理対象ビデオのテキスト情報は字幕情報であり、処理対象オーディオは字幕情報に対応する音声情報である。
【0023】
この実施形態では、処理対象オーディオによって表される音声データは、外国語オーディオ、中国語オーディオ、方言オーディオを含むがこれらに限定されない様々なタイプの音声であり得る。処理対象オーディオおよび処理対象ビデオは、より長い時間のデータであってもよいし、より短い時間のデータであってもよい。
【0024】
ステップ202では、処理対象オーディオを認識してオーディオテキストを得る。
【0025】
本実施形態では、上記実行主体は、処理対象オーディオを認識してオーディオテキストを得ることができる。
【0026】
例示として、上記実行主体は、自動音声認識モデルによって処理対象オーディオを処理してオーディオテキストを得ることができる。自動音声認識モデルは、処理対象オーディオとテキストとの間の対応関係を表すために使用される。
【0027】
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、次の方式により上記ステップ202を実行することができる。
【0028】
第1のステップでは、ミュート検出アルゴリズムにより、処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを得る。
【0029】
本実施形態では、上記実行主体は、処理対象オーディオのミュートされた部分を分割点として、ミュートされた部分を削除した処理対象オーディオを分割して複数のオーディオセグメントを得ることができる。
【0030】
上記実行主体は、得られたオーディオセグメントが長い場合には、時間閾値を設定し、時間閾値よりも長いオーディオセグメントを、時間閾値によって表される持続時間単位でさらに切り出し、各オーディオセグメントの開始時間と終了時間を記録するようにしてもよい。
【0031】
例示として、バックグラウンドミュージックなどの要因で、ミュート検出アルゴリズムによりオーディオを完全に分割できず、得られたオーディオセグメントが長いことを防止するために、時間閾値Tを設定し、持続時間が時間閾値Tよりも長いオーディオセグメントを複数の持続時間Tのセグメントに強制的に分割する。ここで、時間閾値は、実際の状況に応じて具体的に設定され得、例えば、T=10sである。
【0032】
第2のステップでは、複数のオーディオセグメントを認識してオーディオテキストに含まれる複数のオーディオセグメントテキストを得る。
【0033】
本実施形態では、上記実行主体は、複数のオーディオセグメントのそれぞれを自動音声認識モデルに入力して、複数のオーディオセグメントテキストを得ることができる。ここで、複数のオーディオセグメントは、複数のオーディオセグメントテキストと一対一に対応し、複数のオーディオセグメントテキストは、オーディオテキストを構成する。
【0034】
ステップ203では、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを得る。
【0035】
本実施形態では、上記実行主体は、処理対象ビデオ中のテキスト情報を認識してビデオテキストを得ることができる。
【0036】
例示として、処理対象ビデオを構成する各ビデオフレームに対して、上記実行主体は、OCR(Optical Character Recognition,光学式文字読取)技術を用いて、当該ビデオフレームに含まれるテキスト情報を認識し、各ビデオフレームに対応するテキスト情報を処理対象ビデオにおけるビデオフレームの再生順に従ってスプライシング(接続)して、ビデオテキストを得ることができる。なお、OCR技術は、現在比較的成熟した技術であるので、ここでは詳述しない。
【0037】
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、次の方式により、上記ステップ203を実行することができる。
【0038】
第1のステップでは、処理対象ビデオから複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定する。
【0039】
本実施形態では、上記実行主体は、複数のオーディオセグメントのそれぞれに対して、処理対象ビデオから当該オーディオセグメントに対応する複数のビデオフレームを抽出してビデオフレームシーケンスを得る。
【0040】
【0041】
第2のステップでは、複数のビデオフレームシーケンスの各ビデオフレームにおけるテキスト情報を認識して、ビデオテキストに含まれるビデオフレームテキストを得る。
【0042】
本実施形態では、上記実行主体は、OCR技術により、複数のビデオフレームシーケンスの各ビデオフレームにおけるテキスト情報を認識して、ビデオテキストに含まれるビデオフレームテキストを得ることができる。
【0043】
理解されるように、各ビデオフレームに対して、上記実行主体は、テキスト情報を認識できない場合があり、すなわち、当該ビデオフレームには、テキスト情報が含まれていない場合があり、また、複数のテキスト情報を認識して複数のビデオフレームテキストを得る場合もある。例えば、複数のビデオフレームテキストには、ビデオフレーム内の字幕情報と、ビデオフレーム画面内のテキスト情報(例えば、店舗看板における店舗名情報、道路標識における道路名情報、広告用語情報等)とが含まれる。
【0044】
他の場合には、隣接するフレームに含まれるテキスト情報の中に同じテキスト情報が存在する。例えば、隣接するビデオフレームに含まれる字幕情報は同じである。
【0045】
この実施形態では、ビデオフレームにはテキスト情報が含まれない場合、またはビデオフレームには隣接するビデオフレームと同じテキスト情報が含まれる場合を表すための予め設定された識別子をビデオフレームに追加してもよい。ここで、予め設定された識別子は、予め設定された任意の識別子(例えば「Blank」)であってもよい。
【0046】
ステップ204では、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを得る。
【0047】
本実施形態では、上記実行主体は、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを得ることができる。
【0048】
例示として、オーディオテキストとビデオテキストとが一致する場合には、上記実行主体は、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして音声認識トレーニングセットを得る。
【0049】
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、次のように上記ステップ204を実行することができる。
【0050】
まず、複数のビデオフレームシーケンスのそれぞれに対して、以下の動作を行う。
【0051】
第1のステップでは、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスにおけるビデオフレーム毎に含まれるテキスト情報をスプライシングして、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを得る。
【0052】
例示として、当該ビデオフレームシーケンスは、3つのビデオフレームを含み、3つのビデオフレームに対応するビデオフレームテキストの数は、順に3、4、3である場合、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストは、合計で36(3×4×3)個である。
【0053】
いくつかのオプション的な実施形態では、各ビデオフレームに対応するビデオフレームテキストセットには、当該ビデオフレームから認識されたビデオフレームテキストに加えて、当該ビデオフレームが隣接するビデオフレームと同じテキスト情報を含むことを表す予め設定された識別子が含まれる。予め設定された識別子はまた、ビデオフレームにテキスト情報が含まれない状況を表してもよい。
【0054】
上記の例示を引き続き参照すると、各ビデオフレームに対応するビデオフレームテキストの組み合わせに予め設定された識別子が付加された後、3つのビデオフレームに対応するビデオフレームテキストの数は、順に4、5、4である場合、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストは、合計で80(4×5×4)個である。
【0055】
図3に示すように、予め設定された識別子は「Blank」である。ビデオフレーム301、302、303に対応する認識結果は、順に304、305、306である。ビデオフレーム毎のビデオフレームテキストのそれぞれは、他のビデオフレームのビデオフレームテキストと組み合わせて、複数のビデオフレームシーケンステキストを得ることができる。例えば、ビデオフレーム301、302、303の認識結果を「今日の天気はどうですか」と組み合わせることができる。
【0056】
第2のステップでは、複数のビデオフレームシーケンステキストのそれぞれとターゲットオーディオセグメントテキストとの間の編集距離に基づいて、ターゲットビデオフレームシーケンステキストを決定する。
【0057】
ここで、ターゲットオーディオセグメントテキストは、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストである。編集距離とは、2つの文字列の間で、一方から他方への変換に必要な最小の編集動作回数である。
【0058】
例示として、上記実行主体は、複数のビデオフレームシーケンステキストのうち、ターゲットオーディオセグメントテキストとの編集距離が最も小さいビデオフレームシーケンステキストを、ターゲットビデオフレームシーケンステキストとして決定してもよい。
【0059】
そして、複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、音声認識トレーニングセットを得る。
【0060】
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、次のように上記第1のステップを実行してもよい。
【0061】
当該ビデオフレームシーケンスにおいて、テキスト情報が含まれるビデオフレーム毎に、以下の動作を実行する。
【0062】
まず、当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングして、複数のスプライシング済みテキストを得る。
【0063】
次に、複数のスプライシング済みテキストとターゲットオーディオセグメントテキストとの間の編集距離に基づいて、複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択して、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとする。
【0064】
例示として、上記実行主体は、編集距離を小さいものから大きいものへとソートし、小さいものから上位の予め設定された数のスプライシング済みテキストを、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとして選択してもよい。ここで、予め設定された数は実際の状況に応じて具体的に設定してもよい(例えば10であってもよい)。
【0065】
得られたスプライシング済みテキストの数が少ない場合(例えば、スプライシング済みテキストの数が予め設定された数よりも少ない場合)には、上記実行主体は、予め設定された距離閾値を設定し、編集距離が予め設定された距離閾値よりも小さいスプライシング済みテキストを削除するようにしてもよい。
【0066】
上記実行主体は、スプライシング済みテキストの数が比較的多い場合には、予め設定された数のテキストを選択することと、編集距離が予め設定された距離閾値よりも小さいテキストを削除することとを合わせて、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストを決定することもできることが理解される。
【0067】
さらに別の例示として、上記実行主体は、以下の式により、残された複数のスプライシング済みテキストとオーディオテキストとのマッチング度を決定することができる。
【0068】
【0069】
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、音声認識トレーニングセットにおける、当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除して、低品質のトレーニングサンプルをフィルタリングして除去することもできる。
【0070】
次に、本実施形態に係る音声認識トレーニングセットの生成のための方法の応用シーンの概略図400である図4を参照する。図4の応用シーンでは、まず、サーバ401は、処理対象オーディオ402および処理対象ビデオ403を取得する。ここで、処理対象ビデオ403には、処理対象オーディオ402に対応するテキスト情報が含まれている。そして、サーバ401は、処理対象オーディオ402を認識してオーディオテキスト404を取得し、処理対象ビデオ403のテキスト情報を認識してビデオテキスト405を得る。最後に、サーバ401は、オーディオテキスト404とビデオテキスト405との一致性に基づいて、処理対象オーディオ402を音声サンプルとし、ビデオテキスト405をラベルとして、音声認識トレーニングセット406を得る。
【0071】
本開示の上記実施形態によって提供された方法は、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得し、処理対象オーディオを認識してオーディオテキストを取得し、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得し、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして音声認識トレーニングセットを得、それによって音声認識トレーニングセットの自動的な取得方法を提供し、音声認識トレーニングセットを構築する柔軟性および効率が向上した。
【0072】
本実施形態のいくつかのオプション的な実施形態では、上記実行主体は、音声認識トレーニングセットに基づいて、トレーニングされていない初期音声認識モデルをトレーニングするか、または予めトレーニングされた音声認識モデルを最適化することもできる。
【0073】
具体的には、上記実行主体は、機械学習アルゴリズムを採用し、トレーニングサンプルにおける処理対象オーディオを入力とし、入力された処理対象オーディオを所望の出力とし、トレーニングされていない初期音声認識モデルをトレーニングするか、または予めトレーニングされた音声認識モデルを最適化して、最終的な音声認識モデルを得る。
【0074】
次に、本開示に係る音声認識トレーニングセットの生成のための方法の一実施形態の概略的フロー500を示す図5を参照する。
【0075】
ステップ501では、処理対象オーディオと処理対象ビデオとを取得する。
【0076】
ここで、処理対象ビデオに処理対象オーディオに対応するテキスト情報が含まれる。
【0077】
ステップ502では、ミュート検出アルゴリズムにより、処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを得る。
【0078】
ステップ503では、複数のオーディオセグメントを認識してオーディオテキストに含まれる複数のオーディオセグメントテキストを得る。
【0079】
ステップ504では、処理対象ビデオから複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定する。
【0080】
ステップ505では、複数のビデオフレームシーケンスにおける各ビデオフレームのテキスト情報を認識して、ビデオテキストに含まれるビデオフレームテキストを得る。
【0081】
ステップ506では、複数のビデオフレームシーケンスのそれぞれに対して、次の処理をする。
【0082】
ステップ5061では、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスにおけるビデオフレーム毎に含まれるテキスト情報をスプライシングして、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを得る。
【0083】
ステップ5062では、複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に基づいて、ターゲットビデオフレームシーケンステキストを決定する。
【0084】
ステップ507では、複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、音声認識トレーニングセットを得る。
【0085】
本実施形態から見れば、図2に対応する実施形態と比較して、本実施形態における音声認識トレーニングセットの生成のための方法のフロー400が、処理対象オーディオと処理対象ビデオとの分割処理と、ビデオフレームテキストのスプライシング処理とを具体的に説明しており、音声認識トレーニングセットにおけるトレーニングサンプルの精度を向上できることが分かる。
【0086】
引き続き図6を参照すると、上記の各図に示された方法の実施態様として、本開示は、音声認識トレーニングセットの生成のための装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0087】
図6に示すように、音声認識トレーニングセットの生成のための装置は、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するように構成される取得ユニット601と、処理対象オーディオを認識してオーディオテキストを取得するように構成される第1の認識ユニット602と、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するように構成される第2の認識ユニット603と、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得するように構成される獲得ユニット604とを含む。
【0088】
本実施形態のいくつかのオプション的な実施形態では、第1の認識ユニット602は、さらに、ミュート検出アルゴリズムにより、処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを取得し、複数のオーディオセグメントを認識してオーディオテキストに含まれる複数のオーディオセグメントテキストを得るように構成される。
【0089】
本実施形態のいくつかのオプション的な実施形態では、第2の認識ユニット603は、さらに、処理対象ビデオから、複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定し、複数のビデオフレームシーケンスにおける各ビデオフレームのテキスト情報を認識して、ビデオテキストに含まれるビデオフレームテキストを得るように構成される。
【0090】
本実施形態のいくつかのオプション的な実施形態では、獲得ユニット604は、さらに、
複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することと、複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に応じて、ターゲットビデオフレームシーケンステキストを決定することと、を実行するステップと、
複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、音声認識トレーニングセットを取得するステップと、
を行うように構成される。
【0091】
本実施形態のいくつかのオプション的な実施形態では、獲得ユニット604は、
当該ビデオフレームシーケンスにおけるテキスト情報が含まれるビデオフレーム毎に、
当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングし、複数のスプライシング済みテキストを取得することと、
複数のスプライシング済みテキストとターゲットオーディオセグメントテキストとの間の編集距離に基づいて、複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択し、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとすることと、を行うようにさらに構成される。
【0092】
本実施形態のいくつかのオプション的な実施形態では、上記装置は、複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、音声認識トレーニングセットにおける当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除するように構成される削除ユニット(図示せず)をさらに含む。
【0093】
本実施形態において、音声認識トレーニングセットの生成のための装置において、取得ユニットは処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得し、第1の認識ユニットは、処理対象オーディオを認識してオーディオテキストを取得し、第2の認識ユニットは、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得し、獲得ユニットは、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得する。それによって音声認識トレーニングセットの自動的な取得装置が提供され、音声認識トレーニングセットを構築する柔軟性および効率が向上した。
【0094】
以下、本開示の実施形態を実現するための機器(例えば、図1に示す機器101、102、103、105)に適するコンピュータシステム700の構造概略図を示す図7を参照する。図7に示す機器は、あくまでも一例に過ぎず、本開示の実施形態の機能および使用範囲には如何なる制限をも与えない。
【0095】
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に格納されているプログラムまたは記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムによって様々な適当な動作および処理を実行することができるプロセッサ(例えばCPU,中央処理装置)701を備える。RAM703には、システム700の動作に必要な各種のプログラムおよびデータがさらに格納されている。プロセッサ701、ROM702およびRAM703は、バス704を介して互いに接続されている。入/出力(I/O)インターフェース705もバス704に接続されている。
【0096】
キーボード、マウスなどを含む入力部706、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部707、ハードディスクなどを含む記憶部708、並びにLANカード、モデムなどのネットワークインターフェースカードを含む通信部709は、I/Oインターフェース705に接続されている。通信部709は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ710は、必要に応じてI/Oインターフェース705に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア711は、そこから読み出されるコンピュータプログラムが必要に応じて記憶部708にインストールされるように、必要に応じてドライブ710に設置されている。
【0097】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。かかる実施形態において、当該コンピュータプログラムは通信部709を介して、ネットワークからダウンロードされてインストールされることが可能であり、および/または、リムーバブルメディア711からインストールされることも可能である。当該コンピュータプログラムがプロセッサ701によって実行されると、本開示の方法で限定された上記の機能を実行する。
【0098】
なお、本開示のコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれら両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体のシステム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、指令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドにおける、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、無線、有線、光ケーブル、RFなど、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0099】
本開示の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、またはそれらの組み合わせで作成されることができ、プログラミング言語は、Java、Smalltalk、C++などのような対象指向プログラミング言語と、「C」言語または同様のプログラミング言語などのような従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよいし、または(例えば、インターネットサービスプロバイダによるインターネット接続サービスを介して)外部コンピュータに接続されてもよい。
【0100】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係る装置、方法およびコンピュータプログラム製品によって実現できるシステムアーキテクチャ、機能および動作を図示している。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【0101】
本開示の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば、「取得ユニットと、第1の認識ユニットと、第2の認識ユニットと、獲得ユニットとを含むプロセッサ」のように記載されてもよい。ここで、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、獲得ユニットは、「オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得するユニット」として記載されてもよい。
【0102】
一方、本開示は、コンピュータ可読媒体を更に提供し、当該コンピュータ可読媒体は、上記実施形態に記載された機器に含まれるものであってもよく、当該機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は、1つまたは複数のプログラムを担持し、上記1つまたは複数のプログラムが当該機器によって実行される時、処理対象オーディオと、処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するステップと、処理対象オーディオを認識してオーディオテキストを取得するステップと、処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップと、オーディオテキストとビデオテキストとの一致性に基づいて、処理対象オーディオを音声サンプルとし、ビデオテキストをラベルとして、音声認識トレーニングセットを取得するステップと、を当該コンピュータ機器に実行させる。
【0103】
以上の記載は、本開示の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本開示に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本開示の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本開示に開示された(これに限定されるものではない)類似の機能を持っている技術的特徴とを互いに置き換えてなる技術案が挙げられる。
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2023-11-10
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
1つまたは複数の実施形態において、本開示は、プロセッサによって実行されると、上記1つまたは複数の実施形態のいずれかの実施形態に記載の方法を実現するコンピュータプログラムが格納されているコンピュータ可読媒体を提供する。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0008
【補正方法】変更
【補正の内容】
【0008】
1つまたは複数の実施形態において、本開示は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに上記1つまたは複数の実施形態のいずれかの実施形態に記載の方法を実現させる電子機器を提供する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
1つまたは複数の実施形態において、本開示は、プロセッサによって実行されると、上記1つまたは複数の実施形態のいずれかの実施形態に記載の方法を実現するコンピュータプログラムを提供する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0097
【補正方法】変更
【補正の内容】
【0097】
特に、本開示の実施形態によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを備え、当該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。かかる実施形態において、当該コンピュータプログラムは通信部709を介して、ネットワークからダウンロードされてインストールされることが可能であり、および/または、リムーバブルメディア711からインストールされることも可能である。当該コンピュータプログラムがプロセッサ701によって実行されると、本開示の方法で限定された上記の機能を実行する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0100
【補正方法】変更
【補正の内容】
【0100】
図面のうちのフローチャートおよびブロック図は、本開示の様々な実施形態に係る装置、方法およびコンピュータプログラムによって実現できるシステムアーキテクチャ、機能および動作を図示している。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能な指令が含まれている。なお、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアベースのシステムで実装されてもよく、または専用のハードウェアとコンピュータ指令との組み合わせで実装されてもよい。
【手続補正6】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声認識トレーニングセットの生成のための方法であって、
処理対象オーディオと、前記処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するステップと、
前記処理対象オーディオを認識してオーディオテキストを取得するステップと、
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップと、
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を含む音声認識トレーニングセットの生成のための方法。
【請求項2】
前記処理対象オーディオを認識してオーディオテキストを取得するステップは、
ミュート検出アルゴリズムにより、前記処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを取得するステップと、
前記複数のオーディオセグメントを認識して、前記オーディオテキストに含まれる複数のオーディオセグメントテキストを得るステップと、
を含む請求項1に記載の方法。
【請求項3】
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを取得するステップは、
前記処理対象ビデオから、前記複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定するステップと、
前記複数のビデオフレームシーケンスにおけるビデオフレーム毎のテキスト情報を認識して、前記ビデオテキストに含まれるビデオフレームテキストを得るステップと、を含む請求項2に記載の方法。
【請求項4】
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するステップは、
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することと、前記複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に応じて、ターゲットビデオフレームシーケンステキストを決定することと、を実行するステップと、
前記複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を含む請求項3に記載の方法。
【請求項5】
当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することは、
当該ビデオフレームシーケンスにおいて、テキスト情報が含まれるビデオフレーム毎に、
当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ前記複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングし、複数のスプライシング済みテキストを取得することと、
前記複数のスプライシング済みテキストと前記ターゲットオーディオセグメントテキストとの間の編集距離に基づいて、前記複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択して、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとすることと、を行う請求項4に記載の方法。
【請求項6】
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、前記音声認識トレーニングセットにおける当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除するステップをさらに含む請求項4に記載の方法。
【請求項7】
音声認識トレーニングセットの生成のための装置であって、
処理対象オーディオと、前記処理対象オーディオに対応するテキスト情報を含む処理対象ビデオとを取得するように構成される取得ユニットと、
前記処理対象オーディオを認識してオーディオテキストを得るように構成される第1の認識ユニットと、
前記処理対象ビデオにおけるテキスト情報を認識してビデオテキストを得るように構成される第2の認識ユニットと、
前記オーディオテキストと前記ビデオテキストとの一致性に基づいて、前記処理対象オーディオを音声サンプルとし、前記ビデオテキストをラベルとして、前記音声認識トレーニングセットを取得するように構成される獲得ユニットとを含む音声認識トレーニングセットの生成のための装置。
【請求項8】
前記第1の認識ユニットは、さらに
ミュート検出アルゴリズムにより、前記処理対象オーディオにおけるミュートされた部分を削除して、ミュートされていない複数のオーディオセグメントを取得し、前記複数のオーディオセグメントを認識して前記オーディオテキストに含まれる複数のオーディオセグメントテキストを得るように構成される請求項7に記載の装置。
【請求項9】
前記第2の認識ユニットは、さらに
前記処理対象ビデオから、前記複数のオーディオセグメントに一対一に対応する複数のビデオフレームシーケンスを決定し、前記複数のビデオフレームシーケンスにおけるビデオフレーム毎のテキスト情報を認識して、前記ビデオテキストに含まれるビデオフレームテキストを得るように構成される請求項8に記載の装置。
【請求項10】
前記獲得ユニットは、さらに
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスのビデオフレームにおいて、認識された少なくとも1つのビデオフレームテキストのうちの1つのビデオフレームテキストを単位で、当該ビデオフレームシーケンスのビデオフレーム毎に含まれるテキスト情報をスプライシングし、当該ビデオフレームシーケンスに対応する複数のビデオフレームシーケンステキストを取得することと、前記複数のビデオフレームシーケンステキストのそれぞれと、当該ビデオフレームシーケンスに対応するオーディオセグメントのオーディオセグメントテキストであるターゲットオーディオセグメントテキストとの間の編集距離に応じて、ターゲットビデオフレームシーケンステキストを決定することと、を実行するステップと、
前記複数のオーディオセグメントのそれぞれを音声サンプルとし、当該オーディオセグメントに対応するターゲットビデオフレームシーケンステキストをラベルとして、前記音声認識トレーニングセットを取得するステップと、
を行うように構成される請求項9に記載の装置。
【請求項11】
前記獲得ユニットは、さらに
当該ビデオフレームシーケンスにおいて、テキスト情報が含まれるビデオフレーム毎に、
当該ビデオフレームに対応する複数のスプライシング対象テキストを決定し、且つ前記複数のスプライシング対象テキストと当該ビデオフレームにおける少なくとも1つのビデオフレームテキストとをスプライシングし、複数のスプライシング済みテキストを取得することと、
前記複数のスプライシング済みテキストと前記ターゲットオーディオセグメントテキストとの間の編集距離に基づいて、前記複数のスプライシング済みテキストから予め設定された数のスプライシング済みテキストを選択し、当該ビデオフレームの次のビデオフレームに対応する複数のスプライシング対象テキストとすることと、を行うように構成される請求項10に記載の装置。
【請求項12】
前記複数のビデオフレームシーケンスのそれぞれに対して、当該ビデオフレームシーケンスに対応するターゲットビデオフレームシーケンステキストとターゲットオーディオセグメントテキストとの間の編集距離が、予め設定された距離閾値よりも大きいと判定したことに応じて、前記音声認識トレーニングセットにおける当該ビデオフレームシーケンスに対応するトレーニングサンプルを削除するように構成される削除ユニットをさらに含む請求項10に記載の装置。
【請求項13】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラムが格納されるコンピュータ可読媒体。
【請求項14】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を備える電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~6のいずれか1項に記載の方法を実現する、電子機器。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法を実現するコンピュータプログラム
【国際調査報告】