(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022092568
(43)【公開日】2022-06-22
(54)【発明の名称】ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
(51)【国際特許分類】
G10L 15/06 20130101AFI20220615BHJP
【FI】
G10L15/06 300C
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021153076
(22)【出願日】2021-09-21
(31)【優先権主張番号】109143725
(32)【優先日】2020-12-10
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】502250743
【氏名又は名称】國立成功大學
【氏名又は名称原語表記】NATIONAL CHENG KUNG UNIVERSITY
(74)【代理人】
【識別番号】110000408
【氏名又は名称】特許業務法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】ル ウェン-シャン
(72)【発明者】
【氏名】シェン シャオ-チャン
(72)【発明者】
【氏名】リン チン-ジュイ
(57)【要約】 (修正有)
【課題】ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を提供する。
【解決手段】方法は、互いに対応するソース言語オーディオファイル及びソース言語発音表記を含むソース言語の発音参照テーブルを作成することと、拡張言語の拡張言語テキストファイルを取得することと、拡張言語テキストファイルに拡張言語発音表記を表記して、拡張言語のテキスト参照テーブルを作成することと、発音参照テーブルとテキスト参照テーブルとによって、拡張言語の音響モデルをトレーニングすることと、拡張言語の拡張言語テキストファイルによって、拡張言語の言語モデルをトレーニングすることと、を含む。拡張言語の音声認識モデルは、拡張言語における音響モデル及び言語モデルを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の発音参照テーブルを作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル及びソース言語発音表記を含む、ことと、
前記拡張言語の拡張言語テキストファイルを取得することと、
表記命令に従って、前記拡張言語テキストファイルに拡張言語発音表記を表記して、前記拡張言語のテキスト参照テーブルを作成することと、
前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、
前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、
を含み、
前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む、方法。
【請求項2】
請求項1に記載のソース言語の音声による拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語の音響モデルをトレーニングすることは、
前記ソース言語における前記ソース言語オーディオファイルに含まれる音素と前記ソース言語発音表記に含まれる記号との関係を取得することと、
前記拡張言語の前記拡張言語発音表記が前記ソース言語の前記ソース言語発音表記と同一であるか否かに応じて、前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することと、
を含む、方法。
【請求項3】
請求項2に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の記号列が、前記ソース言語の前記ソース言語オーディオファイルの記録に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルの前記記録の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における単語の記号列に等しいと決定することと、
前記記録の前記音素列と前記単語の前記記号列との間の等価関係を出力することと、
含む、方法。
【請求項4】
請求項2に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における単語の一部の記号列が、前記ソース言語の前記ソース言語オーディオファイルの音節に対応する前記ソース言語発音表記における記号列と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音節の音素列の各フレームが、前記拡張言語の前記拡張言語発音表記における前記単語の一部の前記記号列に等しいと決定することと、
前記音節の前記音素列と前記単語の一部の前記記号列との間の等価関係を出力することと、
を含む、方法。
【請求項5】
請求項2に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における母音又は子音が、前記ソース言語の前記ソース言語オーディオファイルにおける音素に対応する前記ソース言語発音表記における記号と同一である場合、前記ソース言語の前記ソース言語オーディオファイルにおける前記音素が、前記拡張言語の前記拡張言語発音表記における前記母音又は前記子音に等しいと決定することと、
前記音素と前記母音又は前記子音との間の等価関係を出力することと、
を含む、方法。
【請求項6】
請求項2に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語発音表記における記号列が前記ソース言語オーディオファイルの音素列に対応する確率を決定することは、
前記拡張言語の前記拡張言語発音表記における特殊記号が、前記ソース言語の前記ソース言語発音表記における任意の記号と異なる場合、前記拡張言語の前記拡張言語発音表記における前記特殊記号が、前記ソース言語の前記ソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊記号と前記少なくとも1つの類似音素との間の関係を含むことと、
を含む、方法。
【請求項7】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記拡張言語の言語モデルをトレーニングすることは、
前記拡張言語の前記拡張言語テキストファイルに対してテキストセグメンテーションを実行することと、
前記拡張言語テキストファイルにおける単語間の文脈的関係を決定することと、
を含む、方法。
【請求項8】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することであって、前記音声記録は、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
前記特殊音素が、前記ソース言語オーディオファイル内の少なくとも1つの類似音素に近似していると決定することと、
ファジー音素セットを出力することであって、前記ファジー音素セットは、前記特殊音素と前記少なくとも1つの類似音素との間の関係を含むことと、
前記ファジー音素セットに従って、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。
【請求項9】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を追加オーディオファイルとして受信することであって、前記追加オーディオファイルは、前記ソース言語の前記ソース言語オーディオファイルに含まれていない特殊音素を含むことと、
表記命令に従って、前記追加オーディオファイルを発音記号で表記することと、
前記特殊音素と前記特殊音素に対応する発音記号に基づいて、前記拡張言語の追加発音参照テーブルを作成することと、
前記拡張言語における前記追加発音参照テーブルと前記テキスト参照テーブルに基づいて、前記拡張言語の追加音響モデルを作成することと、
前記追加音響モデルに基づいて、前記拡張言語の音声認識モデルを更新することと、
を含む、方法。
【請求項10】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、さらに、
前記拡張言語の音声記録を前記音声認識モデルに入力することと、
前記音声記録の中における同一の音節列の出現回数をカウントすることであって、前記同一の音節列は、前記拡張言語の前記拡張言語テキストファイルのどの部分にも対応していないことと、
前記音声記録における前記同一の音節列の出現回数が閾値を超えた場合、前記同一の音節列に対応する前記拡張言語のテキスト列を記録し、前記テキスト列に応じて追加言語モデルを作成することと、
前記追加言語モデルに基づいて、前記拡張言語の前記音声認識モデルを更新することと、
を含む、方法。
【請求項11】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記ソース言語オーディオファイルは、複数の人の発音を含む、方法。
【請求項12】
請求項1に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記ソース言語の前記発音参照テーブルを作成することは、前記ソース言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなくソース言語を表現することを含み、
前記拡張言語テキストファイルを表記して、前記拡張言語の前記テキスト参照テーブルを作成することは、前記拡張言語発音表記における少なくとも1つの母音と少なくとも1つの子音とを用いて、声調記号を用いることなく前記拡張言語を表現することを含む、方法。
【請求項13】
請求項12に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも1つの母音及び前記少なくとも1つの子音は、ローマ字に基づいている、方法。
【請求項14】
請求項12に記載のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法であって、
前記少なくとも1つの母音及び前記少なくとも1つの子音は、国際音声記号に基づいている、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識モデル(speech recognition model)をトレーニングする方法に関し、より詳細には、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法に関するものである。
【背景技術】
【0002】
技術の発展に伴い、電子製品に音声ユーザインターフェースが追加され、ユーザが手で操作する以外の作業を行えるようになった。
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を提供し、これにより、新しい音声認識モデルを開発しながら拡張言語のコーパスを収集するステップを排除又は大幅に簡素化することができる。
【課題を解決するための手段】
【0005】
本開示の一側面によれば、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法は、前記ソース言語の発音参照テーブル(phonetic reference table)を作成することであって、前記発音参照テーブルは、互いに対応するソース言語オーディオファイル(source language audio file)及びソース言語発音表記(source language phonetic transcription)を含むことと、前記拡張言語の拡張言語テキストファイル(extended language text file)を取得することと、表記命令(mark instruction)に従って、前記拡張言語テキストファイルに拡張言語発音表記(extended language phonetic transcription)を表記して、前記拡張言語のテキスト参照テーブルを作成することと、前記ソース言語の前記発音参照テーブルと前記拡張言語の前記テキスト参照テーブルとによって、前記拡張言語の音響モデルをトレーニングすることと、前記拡張言語の前記拡張言語テキストファイルによって、前記拡張言語の言語モデルをトレーニングすることと、を含み、前記拡張言語の前記音声認識モデルは、前記拡張言語における前記音響モデル及び前記言語モデルを含む。
【0006】
上述の記述に鑑み、拡張言語の音声認識モデルは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによってトレーニングされる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習(transfer learning)により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
【図面の簡単な説明】
【0007】
本開示は、以下に示す詳細な説明及び添付の図面から、より完全に理解されるであろう。これらの図面は、例示のみを目的としており、したがって、本開示を制限することを意図していない。
【
図1】本開示の一実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子機器のブロック図である。
【
図2】
図1のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである。
【
図3】
図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図4A】
図3のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図4B】
図3のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図5】
図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図6】本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図7】本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【
図8】本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである。
【発明を実施するための形態】
【0008】
以下の詳細な説明では、説明のために、開示された実施形態の完全な理解を提供するために、多数の具体的な詳細が記載されている。しかし、これらの具体的な詳細がなくても、1つ又は複数の実施形態を実施することができることは明らかであろう。他の例では、図面を簡略化するために、よく知られた構造や装置が模式的に示されている。
【0009】
本実施形態は、拡張言語の音声認識モデルをソース言語の音声によってトレーニングする方法を提供し、その音声認識モデルを電子機器に適用することができる。まず、電子機器について説明する。本開示の一実施形態によるソース言語での音声によって拡張言語の音声認識モデルをトレーニングする方法を適用する電子デバイス10のブロック図である、
図1を参照されたい。
【0010】
電子デバイス10(例えば、コンピュータ)は、音声認識モデルをトレーニングするように構成されており、そのため、電子デバイス10は、音声認識システムとなることができ、又は、出力されて別の電子製品に適用することができる音声認識システムを作成することができるようになっている。具体的には、電子デバイス10は、演算ユニット(computing unit)100、入力ユニット200、記憶ユニット300、及び出力ユニット400を含んでもよい。演算ユニット100は、CPU(Central Processing Unit)であってもよい。入力ユニット200は、マイク、キーボード、マウス、タッチパネル、又は伝送インターフェースであってもよく、演算ユニット100と電気的に接続されている。記憶ユニット300は、ハードディスクドライブであってもよく、演算ユニット100に電気的に接続されている。出力ユニット400は、スピーカやディスプレイであってもよく、演算ユニット100に電気的に接続されている。
【0011】
以下では、電子デバイス10に適用される音声認識モデルのトレーニング方法について説明する。
図1のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法のフローチャートである、
図2を参照されたい。
【0012】
本開示では、広く使用されている言語からの複数の人の完全に確立された発音記録ファイルを含み得るソース言語オーディオファイルがある。さらに、ローマ字に基づいて広く使用されている言語からの母音及び子音の発音記号を含み得るソース言語発音表記もある。広く使われている言語は、標準中国語(Standard Mandarin)、近代英語、韓国標準語などであってもよく、以下ではソース言語と呼ぶ。
【0013】
本実施形態では、ステップS101において、入力ユニット200は、演算ユニット100が記憶ユニット300にソース言語の発音参照テーブルを作成することができるように、ソース言語オーディオファイル及びソース言語発音表記を受信する。ソース言語の発音参照テーブルは、ソース言語オーディオファイル及びソース言語発音表記を含む。ソース言語発音表記は、ソース言語オーディオファイルを表現するために使用されるローマ字の配列を含んでもよい。例えば、標準中国語の「今日は天気がいい」という意味の記録では、“jin-tian-hao-tian-chi”の母音記号及び子音記号が、音声を表すために使用され、声調記号(tone letter)は使用されない。ローマ字の配列は、ソース言語の編成された音声認識システムから直接取得されてもよいし、演算ユニット100が作成されてもよく、本開示はこれに限定されるものではない。
【0014】
【0015】
【0016】
ステップS104において、演算ユニット100は、ソース言語の発音参照テーブルと拡張言語のテキスト参照テーブルとによって、拡張言語の音響モデルをトレーニングする。音響モデルとは、録音された音声が1つ以上の特定の音素列に属する確率と、その1つ以上の特定の音素列が言語における1つ以上の特定の記号列に対応する確率を含むものとみなすことができる。
【0017】
具体的には、
図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、
図3を参照されたい。本実施形態及びいくつかの実施形態では、ステップS1041において、演算ユニット100は、ソース言語オーディオファイルからケプストラム特徴(cepstrum feature)を抽出する。ステップS1042において、演算ユニット100は、ソース言語オーディオファイルの3フレームごとに演算処理を行い、その混合ガウスモデル(Gaussian mixture model)を得る。各フレームは、20ミリ秒である。ステップS1043において、演算ユニット100は、混合ガウスモデルに従って、ソース言語オーディオファイルの各フレームに対して音素アライメントを行い、ソース言語オーディオファイルの各フレームの各音素を抽出する。ステップS1044において、演算ユニット100は、ソース言語オーディオファイルの音素ソーティング(phoneme sorting)を、隠れマルコフモデル(Hidden Markov model)によって学習する。ステップS1045において、演算ユニット100は、ソース言語オーディオファイルの音素と、ソース言語におけるソース言語発音表記の記号との対応関係を取得する。なお、ステップS1041~ステップS1045は、拡張言語の音響モデルをトレーニングする際の例示であり、本開示を限定するものではない。他のいくつかの実施形態では、拡張言語の音響モデルをトレーニングするための別のモデルや態様があってもよい。
【0018】
一般的に、ソース言語のオーディオファイルの音素とソース言語発音表記の記号との間の対応関係は、一対一の対応関係であることが望ましい。しかし、言語は異なる方法でローマ字化されることがある。例えば、標準中国語の「凹面(concave)」の意味を持つ単語は、“ao”や“au”とローマ字表記されることがある。このような場合には、上述の対応関係は一対多の対応関係に変更されてもよい。代わりに、上述のステップにおいて、ソース言語オーディオファイル及び拡張言語テキストファイルを表現するために使用される母音記号及び子音記号は、表記の変換による差異を少なくするために、ローマ字ではなく国際音声記号(IPA:International Phonetic Alphabet)に基づいていてもよい。
【0019】
さらに、いくつかの言語では、発音の際に、ある単語の最後の子音(音節の末尾子音:syllable coda)が次の単語の最初の母音につながることがある。例えば、近代英語の“hold on”は“hol-don”と発音され、韓国標準語の“da-eum-e”(意味:次回)は“da-eu-me”又は“da-eum-me”と発音されることがある。これについて、演算ユニット100は、ソース言語オーディオファイルの音素ソーティング(phoneme sorting)を学習することで、近代英語の記録音声が“hold-on”及び“hol-don”の記号に対応する確率や、韓国標準語の別の記録音声が“da-eum-e”、“da-eu-me”及び“da-eum-me”の記号に対応する確率を決定することができる。
【0020】
ステップS1046において、演算ユニット100は、拡張言語の拡張言語発音表記がソース言語のソース言語発音表記と同一であるか否かに応じて、拡張言語発音表記における記号列がソース言語オーディオファイルの音素列に対応する確率を決定する。
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
場合によっては、拡張言語には、ソース言語には含まれない発音があるので、演算ユニット100は、拡張言語の拡張言語発音表記におけるこの発音に対応する母音又は子音が、ソース言語のソース言語オーディオファイルの中の音素に対応するソース言語発音表記の中の記号の全てと異なると決定する。この母音又はこの子音を、以下、特殊記号(special symbol)と呼ぶ。例えば、台湾客家語の"f"の発音は、韓国標準語には含まれていないので、"f"の記号を特殊記号とする。ステップS1047dでは、演算ユニット100は、特殊記号が、ソース言語のソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定する。例えば、演算ユニット100は、台湾客家語の「f」の発音が、韓国標準語の「p」の発音に近似していると決定することができる。そして、演算ユニット100は、特殊音素(special phoneme)と少なくとも1つの類似音素(similar phoneme)との間のファジー関係(fuzzy relationship)を含むファジー音素セット(fuzzy phoneme set)を記憶ユニット300に出力して、ファジー関係を記憶ユニット300に記憶させる。
【0027】
演算ユニット100は、記憶ユニット300に格納されているソース言語の音素と拡張言語の記号との間の等価な、近似的な、又はファジーな関係を通じて、拡張言語の音響モデルをトレーニングすることができるので、演算ユニット100は、拡張言語からの各記録の音声がソース言語からの1つ又は複数の特定の音素列に属し、したがって、拡張言語からの1つ又は複数の対応する特定の記号列に属する確率を決定することができる。
【0028】
続いて、
図2を参照されたい。本実施形態では、ステップS105において、演算ユニット100は、拡張言語の拡張言語テキストファイルによって、拡張言語の言語モデルをトレーニングする。言語モデルとは、ある言語において、単語が意味のある慣用句を形成する確率を含むものとみなすことができる。
【0029】
具体的には、
図2のソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、
図5を参照されたい。本実施形態及び一部の実施形態では、ステップS1051において、入力ユニット200は、演算ユニット100が拡張言語の拡張言語テキストファイルに対してテキストセグメンテーション(text segmentation)を実行することができるように、意味解釈命令(semantic interpretation instruction)を受信する。意味解釈命令は、コーパスシステム(図示せず)によって生成されてもよい。ステップS1052において、演算ユニット100は、拡張言語の文法及び構文(syntax)を取得するように、拡張言語テキストファイル内の単語間の文脈的関係を決定し、単語間の文脈的関係は、単語の1つが単語の他の1つの前又は後に存在する確率(すなわち、単語の文法的な配置)を含んでもよい。
【0030】
続いて、
図2を参照されたい。本実施形態では、演算ユニット100は、音響モデルのトレーニングのステップS104において、拡張言語からの各レコードの音声が、ソース言語からの1つ以上の特定の音素列に属し、それに対応して拡張言語からの1つ以上の特定の記号列に属する確率を既に決定しており、また、演算ユニット100は、言語モデルのトレーニングのステップS105において、拡張言語の文法及び構文を既に取得している。このように、ステップS106において、演算ユニット100は、拡張言語の音響モデルと拡張言語の言語モデルとを用いて、拡張言語の音声認識モデルを作成することができる。より詳細には、演算ユニット100は、拡張言語の音響モデルと拡張言語の言語モデルとを組み合わせて、拡張言語の音声認識モデルを作成してもよい。つまり、拡張言語の音声認識モデルは、拡張言語における音響モデル及び言語モデルを含む。したがって、入力ユニット200が拡張言語の音声記録を受信すると、演算ユニット100は、音響モデルを通じて、音声記録が1つ以上の記号列に属することを決定し、さらに、1つ以上の記号列が単語列に属することを音声認識結果として決定することができるので、演算ユニット100は、音声認識結果を出力ユニット400に送信して、音声認識結果を表示することができる。
【0031】
上述のステップでは、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化してトレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
【0032】
さらに、演算ユニット100が、複数の言語(ソース言語と拡張言語、又は拡張言語と別の拡張言語)の音声認識モデルをトレーニングするために、単一の言語(ソース言語)の音響モデルのみを使用する機能を実現できるように、ソース言語又は別の拡張言語の言語モデルを記憶ユニット300に含めることもできる。
【0033】
本開示の別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、
図6を参照されたい。ステップS111aにおいて、入力ユニット200は、拡張言語の音声記録を音声認識モデルに入力するが、音声記録は、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれていない特殊音素を含んでもよい。そして、ステップS112aにおいて、演算ユニット100は、拡張言語の特殊音素が、ソース言語のソース言語オーディオファイルにおける少なくとも1つの類似音素に近似していると決定する。例えば、演算ユニット100は、台湾客家語の「f」が韓国標準語の「p」に近似していると決定する。ステップS113aにおいて、演算ユニット100は、ファジー音素セットを記憶ユニット300に出力して、ファジー音素セットを記憶ユニット300に格納し、ファジー音素セットは、特殊音素(例えば、「f」)と、少なくとも1つの類似音素(例えば、「p」)との間のファジー関係を含んでいる。ステップS114aでは、演算ユニット100は、ファジー音素セットにしたがって、拡張言語の追加音響モデル(extra acoustic model)を作成する。そして、演算ユニット100は、追加音響モデルに従って拡張言語の音声認識モデルを更新することにより、拡張言語の特殊な発音がソース言語に含まれておらず、その対応する特殊な記号がステップS102で取得した拡張言語テキストファイルに含まれていないことに起因する音声誤認識の可能性を低減することができる。
【0034】
本開示のさらに別の実施形態による、ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、
図7を参照されたい。ステップS111bにおいて、入力ユニット200は、演算ユニット100が音声記録を追加オーディオファイル(extra audio file)として記憶ユニット300に記録及び格納することができるように、拡張言語の音声記録を受信する。追加オーディオファイルは、例えば、拡張言語の音声コーパスからのものであってもよく、ソース言語のソース言語オーディオファイルに含まれない特殊音素を含むことができる。例えば、入力ユニット200は、韓国標準語の“f”の発音がないことに対応する追加の音声ファイルとして、台湾客家語の“f”の発音を含む音声記録を受信する。次に、ステップS112bにおいて、入力ユニット200は、演算ユニット100が追加オーディオファイルを発音記号(phonetic symbol)で表記することができるような、別の表記命令を受信する。別の表記命令は、音素認識システム(図示せず)によって生成されてもよい。ステップS113bにおいて、演算ユニット100は、追加オーディオファイル内の特殊音素と、その特殊音素に対応する発音記号とに従って、拡張言語の追加発音参照テーブル(extra phonetic reference table)を作成する。ステップS114bでは、演算ユニット100は、追加発音参照テーブルと拡張言語のテキスト参照テーブルとに従って、拡張言語の追加音響モデルを作成する。そして、演算ユニット100は、拡張言語の音声認識モデルを、追加音響モデルに従って更新することにより、音声認識モデルが、記録された特殊音素を使用して、音声のご認識を考慮して音声の誤認識の可能性を低減することができるようになる。
【0035】
さらに、本開示のさらに別の実施形態による、ソース言語の音声による拡張言語の音声認識モデルをトレーニングする方法の部分詳細フローチャートである、
図8を参照されたい。ステップS111cにおいて、入力ユニット200は、拡張言語の音声記録を音声認識モデルに入力する。次に、ステップS112cにおいて、演算ユニット100は、音声記録における同一の音節列の出現回数をカウントする。同一の音節列は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない。例えば、技術の発展により新しい語彙が生まれることがあり、その新しい語彙は、拡張言語の拡張言語テキストファイルのどの部分にも対応していない音節列とみなすことができる。ステップS113cにおいて、演算ユニット100が、音声記録中の同一の音節列(例えば、新しい語彙)の出現回数が閾値を超えたと決定した場合、ステップS114cが実行される。ステップS114cでは、演算ユニット100は、同一音節列に対応する拡張言語の1つ以上のテキスト列を、各音節又は音素によって形成し、1つ以上のテキスト列に含まれる単語間の文脈的関係に応じて、拡張言語の追加言語モデルを作成する。そして、演算ユニット100は、拡張言語の音声認識モデルを追加言語モデルにしたがって更新することにより、拡張言語における新しい語彙を含む音声を受信したときの音声認識モデルの認識効率を向上させることができる。
【0036】
上述の記載に鑑みると、拡張言語の音声を収集することなく、ソース言語の音声コーパスによって拡張言語の音声認識モデルをトレーニングすることができる。したがって、ソース言語の音響モデルを拡張言語、特に話者数の少ない言語に対して、転移学習により低コストで使用することができ、トレーニングプロセスを簡略化し、トレーニングコストを低減することができるので、拡張言語の音声認識モデルを迅速かつ容易にトレーニングすることができる。
【0037】
実施形態は、当業者が企図されている特定の使用に適した様々な変更を伴う本開示及び様々な実施形態を最もよく利用することができるように、本開示の原理及びその実用的な応用を最もよく説明するために選択され、説明されている。本開示の範囲は、以下の請求項及びその均等物によって定義されることが意図されている。