IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京優幕科技有限責任公司の特許一覧

特表2024-522238音声認識モデルに適用される訓練データの生成方法及び機器
<>
  • 特表-音声認識モデルに適用される訓練データの生成方法及び機器 図1
  • 特表-音声認識モデルに適用される訓練データの生成方法及び機器 図2
  • 特表-音声認識モデルに適用される訓練データの生成方法及び機器 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-11
(54)【発明の名称】音声認識モデルに適用される訓練データの生成方法及び機器
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240604BHJP
【FI】
G10L15/06 300Y
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023578196
(86)(22)【出願日】2022-07-22
(85)【翻訳文提出日】2023-12-18
(86)【国際出願番号】 CN2022107228
(87)【国際公開番号】W WO2023087767
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】202111368649.5
(32)【優先日】2021-11-18
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】516097402
【氏名又は名称】北京優幕科技有限責任公司
【氏名又は名称原語表記】Beijing Youmu Technology Co., Ltd.
【住所又は居所原語表記】F8, 05-609, No. 18 Zhongguancun Street, Haidian District, Beijing, P.R.China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】蒋 成林
(57)【要約】
音声認識モデルに適用される訓練データの生成方法及び機器であって、音声認識モデルに適用される訓練データの生成方法は、音声データを取得するステップと、複数の音声認識モデルを使用して音声データをそれぞれ認識して、複数のテキストデータを出力するステップと、複数のテキストデータに基づいてターゲットテキストデータを取得するステップと、音声評価モデル(13)の、ターゲットテキストデータ及び音声データに対する評価結果を取得するステップと、評価結果を判定し、評価結果が予想通りであれば、ターゲットテキストと音声データとを訓練データとして組み合わせるステップと、を含む。
【特許請求の範囲】
【請求項1】
音声認識モデルに適用される訓練データの生成方法であって、
音声データを取得するステップと、
複数の音声認識モデルを使用して前記音声データをそれぞれ認識して、複数のテキストデータを出力するステップと、
前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップと、
音声評価モデルの、前記ターゲットテキストデータ及び前記音声データに対する評価結果を取得するステップと、
前記評価結果を判定し、前記評価結果が予想通りであれば、前記ターゲットテキストデータと前記音声データとを訓練データとして組み合わせるステップと、
を含むことを特徴とする方法。
【請求項2】
前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップは、
前記複数のテキストデータに基づいて、テキストのグラフデータを取得し、各前記テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記テキストのグラフデータ及び前記音声データを評価し、前記グラフデータにおいて最適な評価結果に対応するパスに基づいてターゲットテキストを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数のテキストデータに基づいて、テキストのグラフデータを取得した場合、
並列部分の発音が同様であるかどうかを判定するステップと、
発音が同様であれば、所定用語集に基づいて前記並列部分を選別することで、適用シナリオと無関係な語彙を排除するステップと、をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
音声認識モデルに適用される訓練データの生成方法であって、
オリジナル音声データを取得するステップと、
前記オリジナル音声データの周波数を変換して少なくとも1つの変換音声データを取得するステップと、
複数の音声認識モデルを使用して前記オリジナル音声データをそれぞれ認識して、複数のオリジナルテキストデータを出力するステップと、
前記複数のオリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第1のターゲットテキストデータ及び前記オリジナル音声データに対する第1の評価結果を取得するステップと、
複数の前記音声認識モデルを使用して前記変換音声データをそれぞれ認識して、複数の変換テキストデータを出力するステップと、
前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第2のターゲットテキストデータ及び前記変換音声データに対する第2の評価結果を取得するステップと、
前記第1の評価結果と前記第2の評価結果とを比較し、前記第2の評価結果が前記第1の評価結果より優れると、前記オリジナル音声データと前記第2のターゲットテキストデータとを訓練データとして組み合わせるステップと、を含むことを特徴とする方法。
【請求項5】
前記オリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するステップは具体的に、
前記複数のオリジナルテキストデータに基づいてオリジナルテキストのグラフデータを取得し、各前記オリジナルテキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記オリジナルテキストのグラフデータ及び前記オリジナル音声データを評価し、前記オリジナルテキストのグラフデータにおいて最適な評価結果に対応するパスに基づいて第1のターゲットテキストを取得するステップと、を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するステップは具体的に、
前記複数の変換テキストデータに基づいて変換テキストのグラフデータを取得し、各前記変換テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記変換テキストのグラフデータ及び前記変換音声データを評価し、前記変換テキストのグラフデータにおいて最適な評価結果を具備するパスに基づいて第2のターゲットテキストを取得するステップと、を含むことを特徴とする請求項4に記載の方法。
【請求項7】
前記変換音声データは複数であり、前記第2のターゲットテキストデータ及び前記第2の評価結果がそれぞれ対応され、前記第1の評価結果と前記第2の評価結果とを比較するステップでは、複数の前記第2の評価結果のうちの最適な1つを選択して前記第1の評価結果と比較することを特徴とする請求項4~6の何れか1項に記載の方法。
【請求項8】
前記オリジナル音声データの周波数を変換するステップは具体的に、音声信号の基本周波数を向増し及び/又は低減するステップを含むことを特徴とする請求項4~6の何れか1項に記載の方法。
【請求項9】
前記オリジナル音声データより、前記変換音声データは少なくとも1つの半音だけ低減されることを特徴とする請求項8に記載の方法。
【請求項10】
音声認識モデルに適用される訓練データの生成機器であって、少なくとも1つのプロセッサー、及び前記少なくとも1つのプロセッサーと通信するように接続されるメモリを含み、前記メモリには前記1つのプロセッサーが実行可能な指令が記憶され、前記指令は前記少なくとも1つのプロセッサーによって実行されることで、前記少なくとも1つのプロセッサーに、請求項1~9の何れか1項に記載の訓練データの生成方法を実行させることを特徴とする機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声分析及び合成の分野に関して、具体的に、音声認識モデルに適用される訓練データの生成方法及び機器に関している。
【背景技術】
【0002】
音声認識技術は以前のGMM―HMMから、HMMトポロジ構造+ニューラルネットワークによるHybridのモデリングになり、さらに、現在のtransformer/conformerによるCTC/RNNT/LASエンドツーエンドのモデリング方式に至って、モデリング能力がますます強化しているが、これに連れて、訓練データ量に対するニーズも指数関数的に成長している。エンドツーエンドのデータに対するニーズは以前のdata sparseからdate hungryに変える。現在、音声認識のメーカーがマーキングするデータ量はほとんど10万時間のレベルに達した。ここで、データは<audio、transcription>、即ち、音声及びテキストラベルを指すため、データマーキングのための人的及び経済的コストは何れも高い。
【発明の概要】
【発明が解決しようとする課題】
【0003】
現在、いくつかの音声認識のメーカーの汎用の音声認識効果は既に優れたレベルに至って、単語誤り率(WER)が3%よりも低くなり、手動転写のレベルを超えて、商用レベルに達する。ところが、いろんな原因のため、多くの企業は音声認識のサービスプロバイダーのインターフェースを直接的に呼び出すことを望ましくなく、自分専用の音声認識モデルが欲しく、可能な配慮はデータセキュリティ、コスト、実際のサービス中の非理想的な効果などを含む。この場合、企業が商用可能な音声認識システムを構築するために、その通常の方式は、音声サンプルを収集してデータをマーキングし、そして、モデルを訓練し、このような処理方式のコストパフォーマンスが非常に低い。
【課題を解決するための手段】
【0004】
これに鑑みると、本出願は音声認識モデルに適用される訓練データの生成方法を提供し、
音声データを取得するステップと、
複数の音声認識モデルを使用して前記音声データをそれぞれ認識して、複数のテキストデータを出力するステップと、
前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップと、
音声評価モデルの、前記ターゲットテキストデータ及び前記音声データに対する評価結果を取得するステップと、
前記評価結果を判定し、前記評価結果が予想通りであれば、前記ターゲットテキストデータと前記音声データとを訓練データとして組み合わせるステップと、を含む。
【0005】
任意選択で、前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップは、
前記複数のテキストデータに基づいて、テキストのグラフデータを取得し、各前記テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記テキストのグラフデータ及び前記音声データを評価し、前記グラフデータにおいて最適な評価結果に対応するパスに基づいてターゲットテキストを取得するステップと、を含む。
【0006】
任意選択で、前記複数のテキストデータに基づいて、テキストのグラフデータを取得した場合、
並列部分の発音が同様であるかどうかを判定するステップと、
発音が同様であれば、所定用語集に基づいて前記並列部分を選別することで、適用シナリオと無関係な語彙を排除するステップと、をさらに含む。
【0007】
本発明は音声認識モデルに適用される別の訓練データの生成方法を提供し、
オリジナル音声データを取得するステップと、
前記オリジナル音声データの周波数を変換して少なくとも1つの変換音声データを取得するステップと、
複数の音声認識モデルを使用して前記オリジナル音声データをそれぞれ認識して、複数のオリジナルテキストデータを出力するステップと、
前記複数のオリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第1のターゲットテキストデータ及び前記オリジナル音声データに対する第1の評価結果を取得するステップと、
複数の前記音声認識モデルを使用して前記変換音声データをそれぞれ認識して、複数の変換テキストデータを出力するステップと、
前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第2のターゲットテキストデータ及び前記変換音声データに対する第2の評価結果を取得するステップと、
前記第1の評価結果と前記第2の評価結果とを比較し、前記第2の評価結果が前記第1の評価結果より優れると、前記オリジナル音声データと前記第2のターゲットテキストデータとを訓練データとして組み合わせるステップと、を含む。
【0008】
任意選択で、前記オリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するステップは具体的に、
前記複数のオリジナルテキストデータに基づいてオリジナルテキストのグラフデータを取得し、各前記オリジナルテキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記オリジナルテキストのグラフデータ及び前記オリジナル音声データを評価し、前記オリジナルテキストのグラフデータにおいて最適な評価結果に対応するパスに基づいて第1のターゲットテキストを取得するステップと、を含む。
【0009】
任意選択で、前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するステップは具体的に、
前記複数の変換テキストデータに基づいて変換テキストのグラフデータを取得し、各前記変換テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記変換テキストのグラフデータ及び前記変換音声データを評価し、前記変換テキストのグラフデータにおいて最適な評価結果を具備するパスに基づいて第2のターゲットテキストを取得するステップと、を含む。
【0010】
任意選択で、前記変換音声データは複数であり、前記第2のターゲットテキストデータ及び前記第2の評価結果がそれぞれ対応され、前記第1の評価結果と前記第2の評価結果とを比較するステップでは、複数の前記第2の評価結果のうちの最適な1つを選択して前記第1の評価結果と比較する。
【0011】
任意選択で、前記オリジナル音声データの周波数を変換するステップは具体的に、音声信号の基本周波数を向増し及び/又は低減するステップを含む。
【0012】
任意選択で、前記オリジナル音声データより、前記変換音声データは少なくとも1つの半音だけ低減される。
【0013】
相応的に、本発明は音声認識モデルに適用される訓練データの生成機器を提供し、少なくとも1つのプロセッサー、及び前記少なくとも1つのプロセッサーと通信するように接続されるメモリを含み、前記メモリには前記1つのプロセッサーが実行可能な指令が記憶され、前記指令は前記少なくとも1つのプロセッサーによって実行されることで、前記少なくとも1つのプロセッサーに上記の訓練データ生成方法を実行させる。
【発明の効果】
【0014】
本発明が提供する訓練データの生成方法及び機器によれば、他のサービスプロバイダーが提供する音声認識モデルを使用して非マーキング音声を認識し、初期の認識テキストを取得してから、音声評価モデルを使用してテキスト及び音声を評価して、発音とテキストとのマッチング度を取得し、最後、評価結果に基づいてサンプル品質を判定し、品質が高い音声サンプル及びそのテキストラベルを訓練データとし、これによって、音声に対する自動マーキングを実現して、高品質な訓練データを取得し、モデルの訓練効率を向上するとともに、よい訓練効果を取得する。
【0015】
本発明が提供する訓練データの生成方法及び機器によれば、音声データを処理して周波数を変換した音声データを取得してから、他のサービスプロバイダーが提供する音声認識モデルを使用してオリジナル音声及び変換音声をそれぞれ認識して、対応する認識テキストを取得し、さらに音声評価モデルを使用してテキスト及び音声を評価して、オリジナル発音と対応するテキストとのマッチング度、及び変換音声と対応するテキストとのマッチング度を取得し、最後、両者を比較し、変換音声の評価結果がより優れると、周波数を変換した音声が対応するテキストによりマッチングし、オリジナル音声及び変換音声に対応するテキストを訓練データとし、音声に対する自動マーキングを実現して、高品質な訓練データを取得し、モデルの訓練効率を向上するとともに、よい訓練効果を取得する。
【図面の簡単な説明】
【0016】
本発明の具体的な実施形態又は従来技術中の技術案をより明らかに説明するために、以下、具体的な実施形態又は従来技術の記載の必要な図面を簡単に紹介し、明らかに、以下に記載の図面は本発明のいくつかの実施形態であり、当業者にとって、進歩性に値する労働をしないことを前提として、これらの図面に基づいて他の図面を取得できる。
図1】本発明の実施例の1つの訓練データの生成方法の概略図である。
図2】本発明の実施例のテキストのグラフデータの概略図である。
図3】本発明実施例の1つの訓練データの生成方法のデータフローの概略図である。
【発明を実施するための形態】
【0017】
以下、図面を結合して本発明の技術案を明らか且つ完全に記載し、記載される実施例は全ての実施例ではなく、本発明の一部の実施例である。本発明における実施例に基づいて、当業者が進歩性に値する労働をしないことを前提として、取得した他の全ての実施例は何れも本発明の保護範囲に属する。
【0018】
また、以下に記載の本発明の異なる実施形態が係る技術特徴について、相互の間は衝突しなければ、互いに結合してもよい。
【0019】
本発明の第1の適用シナリオは、訓練データとして特定分野の音声サンプルを取得し、本出願に記載の前記特定分野は化学工学、医学などの高度専門分野を指し、汎用分野は一般的な日常生活分野を指す。特定分野に関する音声内容と、汎用音声データの内容との差が大きいため、汎用音声データによって訓練された音声認識モデルは、特定分野の音声認識タスクに適用し難く、特定分野の音声サンプルが少ない。
【0020】
このような適用シナリオに対して、利用可能な訓練データを取得するために、本実施例は音声認識モデルに適用される訓練データの生成方法を提供し、当該方法はコンピュータ、サーバーなどの電子機器によって実行され、当該方法は以下の操作を含む。
【0021】
S1A:音声データを取得する。本実施例の音声データは任意の特定分野の音声、又は汎用分野の音声、例えば一言又は一節の録音であり、その対応するテキストは未知である。本解決策において言語を限定していなく、中国語、英語などの任意の言語を使用してもよい。
【0022】
S2A:複数の音声認識モデルを使用して音声データをそれぞれ認識して、複数のテキストデータを出力する。音声認識モデルは訓練された、深層学習アルゴリズムによるニューラルネットワークモデル、例えば、他のサービスプロバイダーが提供するモデルなどであり、当該モデルは一定のテキスト認識能力を具備するが、特定の分野に適していない可能性がある。
【0023】
図1に示すように、2つの音声認識モデルを例として、第1の音声認識モデル11及び第2の音声認識モデル12はそれぞれ音声データaudioに対して音声からテキストへ認識し、第1の音声認識モデル11から出力される認識結果はtranscription―1であり、第2の音声認識モデル12から出力される認識結果はtranscription―2である。
【0024】
また、当該ステップにおいて、好ましくは、ホットワード認識機能を具備する音声認識モデルを使用する。具体的に、このようなモデルはユーザーが提供するいくつかの語彙を予め取得し、音声データを認識する時、これらの語彙を参照とすることで、認識結果がより正確になる。
例えば、実際のテキストには「アミノ酸」という語彙が含まれると、一般的なモデルは
能性があり、両者の発音は同様であり、モデルが当該語彙を予め取得した場合、正確な認識結果を出力する。
【0025】
S3A:複数のテキストデータに基づいてターゲットテキストデータを取得する。各音声認識モデルの性能、採用する訓練アルゴリズム、訓練サンプルなどのいろんな要素が異なる可能性があるため、これらの認識結果には不一致なところがたくさんあるかもしれないが、完全に一致する可能性もある。従って、当該ステップでは、いろんな状況が存在し、例えば、複数の認識結果(テキストデータ)が完全に一致する状況であれば、当該認識結果はターゲットテキストデータである。
【0026】
複数の認識結果には不一致が存在する状況について、ターゲットテキストデータを取得するための多種の好適な実施形態がある。
【0027】
このような状況に直面すると、好適な処理方式は、適用シナリオに基づいて、当該適用シナリオに出現可能な全ての語彙が記憶される用語集を予め確立し、複数のモデルの出力結果が不一致であれば、これらの不一致な単語に対して当該用語集から検索し、用語集に存在する単語、又は出現頻度が高い単語を保留する。
【0028】
【0029】
別の好適な処理方式として、複数の認識結果から音声データに最もマッチングするテキストを検索する音声評価モデルを導入する。具体的に、複数のテキストデータに基づいてテキストのグラフデータ(Graph)を取得し、各テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置される。
関係にあることを示し、グラフにおいてこれらは並列ノード、又は分岐ノードと呼ばれるため、図2のグラフデータは4本のパス(path)を有し、各本のパスは何れも語彙シーケンスから構成される。
【0030】
グラフデータを音声評価モデルの認識オブジェクトとし、本実施例は、音声の発音状況とテキストとのマッチング度を分析できるモデルを使用し、当該モデルは百点満点のスコアを出力し、スコアが高いほど、発音状況がテキストにマッチングし、又は発音品質がよい。音声評価モデルの実現形態は多種であり、例えば、中国特許文献CN110797049Aが開示する音声評価方法及び関連装置を参照すればよく、ここで、本解決策は、当該評価解決策に限定されず、他の評価モデルを使用して他の形態の評価結果を出力してもよく、グラフデータ(Graph)及び相応的な音声データを評価できるアルゴリズムであれば、何れも可能であり、評価結果の形態について、例えば分類結果であってもよく、発音とパスとのマッチング状況を、「優秀」、「普通」、「不良」など比較に適用できるものに分ければよい。
【0031】
本実施例の音声評価モデルは上記のグラフデータを検索し、当該モデルはグラフデータ(Graph)における全てのパス(path)を、音声データにそれぞれマッチングし、即ち、当該音声データの、各パスに対するマッチング度又は品質をそれぞれ評価することで、そのうちの最適なパスをターゲットテキストとして決定する。
【0032】
また、上記の2つの方式を結合して使用してもよい。例えば、より多くの音声認識モデルを使用してより多くの認識結果を取得する場合、上記の第3の方式を直接的に使用して最適パスを検索すれば、1番目の問題として、グラフデータのパスが多すぎるため、モデルの計算量が大きくなり、検索効率が低下し、2番目の問題として、音声評価モデルがセマンティック分析の能力を具備していない可能性があるため、発音が完全に同様である単語、発音音調だけが異なる単語に対して、所在するパスの評価結果は完全に同様である可能性がある。好適な実施例において、まず第1の方式を使用してグラフデータ(Graph)における分岐ノードに対して初期選別を行って、適用シナリオと無関係な語彙を排除することで、分岐ノードを減少して、さらにパス(path)の数を減少し、上記の問題を回避する。
【0033】
S4A:音声評価モデルの、ターゲットテキストデータ及び音声データに対する評価結果を取得する。図1を再び参照し、音声評価モデル13はターゲットテキストデータtranscription及びaudioを評価して評価結果scoreを取得し、ステップS3Aでは音声評価モデルを使用して最適パスを検索した場合、当該ステップでは、音声評価モデルは最適パスのテキストを参照として、スコア又は他の形態の評価結果を計算する。無論、ステップS3Aでは音声評価モデルを使用してターゲットテキストを取得していなく、上記の他の方式でターゲットテキストを生成した場合、当該ステップでは、初めて音声評価モデルを使用して評価する。
【0034】
S5A:評価結果を判定し、評価結果が予想通りであれば、ターゲットテキストと音声データとを訓練データとして組み合わせる。スコアを例として、例えば、スコア閾値を予め設定し、ターゲットテキストデータ及び音声データに対する評価結果が当該閾値より高いと、当該音声と当該ターゲットテキストとのマッチング度が十分に高く、当該組のデータは音声認識モデルの訓練に適し、高品質なサンプルであり、反対に、マッチング度が悪く、モデルの訓練に適していない。
【0035】
本発明の実施例が提供する訓練データの生成方法によれば、他のサービスプロバイダーが提供する音声認識モデルを使用して非マーキング音声を認識し、初期の認識テキストを取得してから、音声評価モデルを使用してテキスト及び音声を評価して、発音とテキストとのマッチング度を取得し、最後、評価結果に基づいてサンプル品質を判定し、品質が高い音声サンプル及びそのテキストラベルを訓練データとし、これによって、音声に対する自動マーキングを実現して、高品質な訓練データを取得し、モデルの訓練効率を向上するとともに、よい訓練効果を取得する。
【0036】
第2の適用シナリオにおいて、訓練データとして特定グループの音声を取得する。低年齢児童に関するサービスシナリオを例として、児童の発音器官は大人と大きく異なるため、児童の音と大人の音とは大きく異なっている。現実の場合、児童の音声サンプルは普通の大人の音声サンプルよりも少なく、直接的に大人の音声を使用して音声認識モデルを訓練して、訓練した後、児童音声の認識に用いると、取得される認識結果の効果が悪く、児童音声認識は常に音声認識中の難問である。
【0037】
今のところ、通常の方法はデータを強化し、例えば、デジタル信号の手段で大人の音声中のスペクトルの全体的な上向きの移動を実現して、音がより鋭く聞こえて、児童の音声方式に類似する。このような方式によれば、音声認識訓練ツールに一定の利益をもたらすが、その効率が非常に低く、最終的な効果も十分に理想的でもなく、根本的な原因として、方法自体は標的性がなく、取得したデータが十分に実際ではない。
【0038】
このような適用シナリオに対して、本出願の別の実施例は音声認識モデルに適用される訓練データの生成方法を提供し、当該方法はコンピュータ、サーバーなどの電子機器によって実行され、当該方法は以下の操作を含み、
S1B:オリジナル音声データを取得し、例示として、オリジナル音声は児童の音声である。
【0039】
S2B:オリジナル音声の周波数を変換して少なくとも1つの変換音声データを取得する。具体的な変換方式は音声信号の周波数の変更を含むが、これに限定されていない。児童の音声に対して、本実施例が採用方式として、音声信号の基本的な周波数を低減することで、オリジナル音声データの音より、変換音声データは少なくとも1つの半音だけ低減される。
【0040】
他の類似する適用シナリオ、例えば、オリジナルデータは喉が非常に低い男性の声、又は喉が非常に鋭い女性の声に対して、ここで、相応的な方式を使用して周波数を処理し又は変換する。
【0041】
図3を結合して、オリジナル音声データをaudio―0と記し、よりよい訓練データを取得するために、当該ステップでは、オリジナル音声データに対して複数回の変換処理を行って、順に1つの半音だけ低減させ、より多くの変換音声データを取得する。例えば、1つの半音だけ低減された変換音声データをaudio―1と記し、2つの半音だけ低減された変換音声データをaudio―2と記し……n個の半音だけ低減された変換音声データをaudio―nと記す。
【0042】
実際の実施例から検証して分かるように、当該ステップでは、順に3~5個の半音だけ低減された変換音声データを取得すれば、よい認識結果を取得するとともに、高い計算効率を具備する。
【0043】
S3B:複数の音声認識モデルを使用してオリジナル音声データをそれぞれ認識して、複数のオリジナルテキストデータを出力する。具体的に、上記の実施例のS2Aを参照し、当該ステップはaudio―0を認識して、複数のオリジナルテキストデータを取得する。
【0044】
S4B:複数のオリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するとともに、音声評価モデルの、第1のターゲットテキストデータ及びオリジナル音声データに対する第1の評価結果を取得する。具体的に、上記の実施例のステップS3Aを参照すればよく、記載を容易にするために、ここで、第1のターゲットテキストデータをtranscription―0と記す。本実施例において、好ましくは、上記の実施例が提供する第3の実施形態を採用し、即ち、音声評価モデルはaudio―0及びオリジナルテキストデータのグラフデータに基づいてtranscription0を検索する。
【0045】
さらに、音声評価モデルはaudio―0及びtranscription―0を評価して第1の評価結果score―0を取得する。
【0046】
S5B:複数の音声認識モデルを使用して変換音声データをそれぞれ認識して、複数の変換テキストデータを出力する。同じように、上記の実施例のS2Aを参照すればよい。複数の変換音声データ、例えば、上記のaudio―1……audio―nが存在すると、複数の音声認識モデルはaudio―1を認識して、対応する複数の変換テキストデータを取得し、複数の音声認識モデルはaudio―2を認識して、対応する複数の変換テキストデータを取得し……複数の音声認識モデルはaudio―nを認識して、対応する複数の変換テキストデータを取得する。
【0047】
S6B:複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するとともに、音声評価モデルの、第2のターゲットテキストデータ及び変換音声データに対する第2の評価結果を取得する。同じように、上記の実施例のS3Aを参照すればよい。
【0048】
ここで、複数の変換音声データ及び対応する複数の変換テキストデータが存在すると、audio―1に対応する第2のターゲットテキストデータtranscription―1、audio―2に対応する第2のターゲットテキストデータtranscription―2……audio―nに対応する第2のターゲットテキストデータtranscription―nを取得する。
【0049】
さらに、音声評価モデルはaudio―1及びtranscription―1を評価して第2の評価結果score―1を取得し、音声評価モデルはaudio―2及びtranscription―2を評価して第2の評価結果score―2を取得し……音声評価モデルはaudio―n及びtranscription―nを評価して第2の評価結果score―nを取得する。
【0050】
また、上記のステップS3B、S4BとステップS5B、S6Bとは並行に実行されてもよく、本解決策は各ステップの実行順序を限定していない。
【0051】
S7B:第1の評価結果と第2の評価結果とを比較し、第2の評価結果が第1の評価結果より優れると、オリジナル音声データと第2のターゲットテキストとを訓練データとして組み合わせる。ステップS2Bでは複数の変換音声データを取得した場合、当該ステップにおいて、まず複数の第2の評価結果のうちの最適なものを決定し、例えば、上記の例示におけるscore―0……score―nのうち、スコアが最も高いものはscore―xであれば、当該ステップにおいてscore―xとscore―0とを比較し、score―xがscore―0より優れると、オリジナル音声audio―0と、score―xに対応するターゲットテキストtranscription―xとを訓練データとして組み合わせ、当該オリジナル音声と当該ターゲットテキストとのマッチング度が十分に高く、当該組のデータは音声認識モデルの訓練に適し、高品質なサンプルであり、反対に、マッチング度が悪く、モデルの訓練に適していない。
【0052】
好適な実施例において、ステップS7Bにおける比較操作は以下のように配置され、即ち、第2の評価結果が第1の評価結果より優れる場合、第2の評価結果の、第1の評価結果に対する優勢が予期に達したかどうかをさらに判定し、優勢が十分に大きい(予想通り)場合に限り、オリジナル音声データと第2のターゲットテキストとを訓練データとして組み合わせる。上記のスコア形態の評価結果を例として、例えば、score―xがscore―0より大きければ、超過値が所定閾値より大きいかどうかをさらに判定し、所定閾値より大きい場合に限り、audio―0とtranscription―xとを訓練データとして組み合わせる。他の形態の評価結果、例えば分類結果などに対して、類似の判定を行っても良い。このように、取得される訓練データの標的性がより強く、モデルを訓練する際の効果がより明らかになる。
【0053】
本発明の実施例が提供する訓練データの生成方法によれば、音声データを処理して周波数を変換した音声データを取得し、そして、他のサービスプロバイダーが提供する音声認識モデルを使用してオリジナル音声及び変換音声をそれぞれ認識して、対応する認識テキストを取得し、さらに音声評価モデルを使用してテキスト及び音声を評価して、オリジナル発音とテキストとのマッチング度、及び変換音声とテキストとのマッチング度を取得し、最後、両者を比較し、変換音声の評価結果がより優れると、オリジナル音声が変換音声に対応するテキストによりマッチングし、そのため、オリジナル音声及び変換音声に対応するテキストを訓練データとし、これによって、音声に対する自動マーキングを実現して、高品質な訓練データを取得し、モデルの訓練効率を向上するとともに、よりよい訓練効果を取得する。
【0054】
当業者であれば分かるように、本発明の実施例は方法、システム、又はコンピュータプログラム製品として提供されてもよい。従って、本発明は完全なハードウェアの実施例、完全なソフトウェアの実施例、又はソフトウェアとハードウェア態様を結合した実施例の形態を採用してもよい。そして、本発明は、コンピュータ利用可能なプログラムコードが含まれる1つ又は複数コンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD―ROM、光メモリなどを含むが、これらに限定されていない)で実施されるコンピュータプログラム製品の形態を採用してもよい。
【0055】
本発明は、本発明の実施例による方法、機器(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して記載する。ここで、コンピュータプログラム指令によって、フローチャート及び/又はブロック図における各フロー及び/又はブロック、及びフローチャート及び/又はブロック図におけるフロー及び/又はブロックの結合を実現してもよい。これらのコンピュータプログラム指令を汎用コンピュータ、専用コンピュータ、埋込型プロセッサー又は他のプログラマブルデータ処理機器のプロセッサーに提供して、マシンを生成することで、コンピュータ又は他のプログラマブルデータ処理機器のプロセッサーによって実行される指令は、フローチャートの1つ又は複数のフロー、及び/又はブロック図の1つ又は複数のブロックにおいて指定した機能を実現する装置を生成する。
【0056】
これらのコンピュータプログラム指令はさらに、特定の方式で動作させるようにコンピュータ又は他のプログラマブルデータ処理機器をガイドできるコンピュータ可読メモリに記憶されることで、当該コンピュータ可読メモリに記憶される指令は、指令装置を含む製品を生成し、当該指令装置はフローチャートの1つ又は複数のフロー、及び/又はブロック図の1つ又は複数のブロックにおいて指定した機能を実現する。
【0057】
これらのコンピュータプログラム指令はさらに、コンピュータ又は他のプログラマブルデータ処理機器に搭載されることで、コンピュータ又は他のプログラマブル機器に一連の操作ステップを実行させて、コンピュータが実現する処理を生成し、さらに、コンピュータ又は他のプログラマブル機器で実行される指令は、フローチャートの1つ又は複数のフロー、及び/又はブロック図の1つ又は複数のブロックにおいて指定した機能を実現するステップを提供する。
【0058】
明らかに、上記の実施例は実施形態を限定していなく、単にその例示を明らかに説明するためのものである。当業者にとって、上記の説明に基づいて他の異なる形態の変更又は改良を行ってもよい。ここで全ての実施形態を網羅できず、且つその必要がない。そこから得られる明らかな変更又は改良は依然的に本発明創造の保護範囲に該当する。
図1
図2
図3
【手続補正書】
【提出日】2023-12-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声認識モデルに適用される訓練データの生成方法であって、
音声データを取得するステップと、
複数の音声認識モデルを使用して前記音声データをそれぞれ認識して、複数のテキストデータを出力するステップと、
前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップと、
音声評価モデルの、前記ターゲットテキストデータ及び前記音声データに対する評価結果を取得するステップと、
前記評価結果を判定し、前記評価結果が予想通りであれば、前記ターゲットテキストデータと前記音声データとを訓練データとして組み合わせるステップと、
を含むことを特徴とする方法。
【請求項2】
前記複数のテキストデータに基づいて、ターゲットテキストデータを取得するステップは、
前記複数のテキストデータに基づいて、テキストのグラフデータを取得し、各前記テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記テキストのグラフデータ及び前記音声データを評価し、前記グラフデータにおいて最適な評価結果に対応するパスに基づいてターゲットテキストを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数のテキストデータに基づいて、テキストのグラフデータを取得した場合、
並列部分の発音が同様であるかどうかを判定するステップと、
発音が同様であれば、所定用語集に基づいて前記並列部分を選別することで、適用シナリオと無関係な語彙を排除するステップと、をさらに含むことを特徴とする請求項2に記載の方法。
【請求項4】
音声認識モデルに適用される訓練データの生成方法であって、
オリジナル音声データを取得するステップと、
前記オリジナル音声データの周波数を変換して少なくとも1つの変換音声データを取得するステップと、
複数の音声認識モデルを使用して前記オリジナル音声データをそれぞれ認識して、複数のオリジナルテキストデータを出力するステップと、
前記複数のオリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第1のターゲットテキストデータ及び前記オリジナル音声データに対する第1の評価結果を取得するステップと、
複数の前記音声認識モデルを使用して前記変換音声データをそれぞれ認識して、複数の変換テキストデータを出力するステップと、
前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するとともに、音声評価モデルの、前記第2のターゲットテキストデータ及び前記変換音声データに対する第2の評価結果を取得するステップと、
前記第1の評価結果と前記第2の評価結果とを比較し、前記第2の評価結果が前記第1の評価結果より優れると、前記オリジナル音声データと前記第2のターゲットテキストデータとを訓練データとして組み合わせるステップと、を含むことを特徴とする方法。
【請求項5】
前記オリジナルテキストデータに基づいて第1のターゲットテキストデータを取得するステップは具体的に、
前記複数のオリジナルテキストデータに基づいてオリジナルテキストのグラフデータを取得し、各前記オリジナルテキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記オリジナルテキストのグラフデータ及び前記オリジナル音声データを評価し、前記オリジナルテキストのグラフデータにおいて最適な評価結果に対応するパスに基づいて第1のターゲットテキストを取得するステップと、を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記複数の変換テキストデータに基づいて第2のターゲットテキストデータを取得するステップは具体的に、
前記複数の変換テキストデータに基づいて変換テキストのグラフデータを取得し、各前記変換テキストデータにおける同様な部分は保持され、異なる部分は並列関係にあるように配置されるステップと、
音声評価モデルを使用して前記変換テキストのグラフデータ及び前記変換音声データを評価し、前記変換テキストのグラフデータにおいて最適な評価結果を具備するパスに基づいて第2のターゲットテキストを取得するステップと、を含むことを特徴とする請求項4に記載の方法。
【請求項7】
前記変換音声データは複数であり、前記第2のターゲットテキストデータ及び前記第2の評価結果がそれぞれ対応され、前記第1の評価結果と前記第2の評価結果とを比較するステップでは、複数の前記第2の評価結果のうちの最適な1つを選択して前記第1の評価結果と比較することを特徴とする請求項に記載の方法。
【請求項8】
前記オリジナル音声データの周波数を変換するステップは具体的に、音声信号の基本周波数を向増し及び/又は低減するステップを含むことを特徴とする請求項に記載の方法。
【請求項9】
前記オリジナル音声データより、前記変換音声データは少なくとも1つの半音だけ低減されることを特徴とする請求項8に記載の方法。
【請求項10】
音声認識モデルに適用される訓練データの生成機器であって、少なくとも1つのプロセッサー、及び前記少なくとも1つのプロセッサーと通信するように接続されるメモリを含み、前記メモリには前記1つのプロセッサーが実行可能な指令が記憶され、前記指令は前記少なくとも1つのプロセッサーによって実行されることで、前記少なくとも1つのプロセッサーに、請求項1~9の何れか1項に記載の訓練データの生成方法を実行させることを特徴とする機器。
【国際調査報告】