特表2024-541957 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ジェネシスクラウドサービシーズインコーポレイテッドの特許一覧

特表2024-541957音声認識システムにおけるユニグラムの教師なし発見のための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-13

(54)【発明の名称】音声認識システムにおけるユニグラムの教師なし発見のための方法及びシステム

(51)【国際特許分類】

G10L 15/06 20130101AFI20241106BHJP

G10L 15/197 20130101ALI20241106BHJP

G10L 15/08 20060101ALI20241106BHJP

【ＦＩ】

G10L15/06 300J

G10L15/197

G10L15/08 200J

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024525194

(86)(22)【出願日】2022-11-08

(85)【翻訳文提出日】2024-05-21

(86)【国際出願番号】 US2022049251

(87)【国際公開番号】W WO2023081504

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】17/520,816

(32)【優先日】2021-11-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．Ｂｌｕ－ｒａｙ

(71)【出願人】

【識別番号】523074490

【氏名又は名称】ジェネシスクラウドサービシーズインコーポレイテッド

(74)【代理人】

【識別番号】110002848

【氏名又は名称】弁理士法人ＮＩＰ＆ＳＢＰＪ国際特許事務所

(72)【発明者】

【氏名】ハイキン、レフ

(72)【発明者】

【氏名】マッツア、アーノン

(72)【発明者】

【氏名】オーバッハ、エヤル

(72)【発明者】

【氏名】ファイザコフ、アブラハム

(57)【要約】

音声データ要素内のユニグラムを自動的に発見するためのシステム及び方法は、各ｎグラムが１つ以上のユニグラムを含む、複数のｎグラムを含む、言語モデルを受信することと、１つ以上の音声データ要素に音響機械学習（ＭＬ）モデルを適用して、文字分布関数を取得することと、文字分布関数にグリーディデコーダを適用して、ユニグラムの初期コーパスを予測することと、言語モデルに含まれていない候補ユニグラムのコーパスを取得するために、初期コーパスの１つ以上のユニグラムをフィルタリング除去することと、１つ以上の第１の音声データ要素を分析して、候補ユニグラムを含む少なくとも１つのｎグラムを抽出することと、抽出された少なくとも１つのｎグラムを含むように、言語モデルを更新することと、を含み得る。

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサによる音声データ要素内のユニグラムを自動的に発見する方法であって、
各々が１つ以上のユニグラムを含む、複数のｎグラムを含む、言語モデルを受信することと、
１つ以上の第１の音声データ要素に音響機械学習（ＭＬ）モデルを適用して、文字分布関数を取得することと、
前記文字分布関数にグリーディデコーダを適用して、ユニグラムの初期コーパスを予測することと、
前記言語モデルに含まれていない候補ユニグラムのコーパスを取得するために、前記初期コーパスの１つ以上のユニグラムをフィルタリング除去することと、
前記１つ以上の第１の音声データ要素を分析して、候補ユニグラムを含む少なくとも１つのｎグラムを抽出することと、
抽出された前記少なくとも１つのｎグラムを含むように、前記言語モデルを更新することと、を含む、方法。

【請求項2】

更新された前記言語モデルに基づいて、第２の音声データ要素の少なくとも１つのトランスクリプションを生成するために、前記第２の音声データ要素にビームデコーダを適用することを更に含む、請求項１に記載の方法。

【請求項3】

前記文字分布関数が、前記１つ以上の第１の音声データ要素における１つ以上の言語文字の出現の尤度を表す、請求項１に記載の方法。

【請求項4】

抽出された前記少なくとも１つのｎグラムを教師データとして使用して、少なくとも１つの前記第２の音声データ要素に基づいて、前記音響ＭＬモデルを再トレーニングすることを更に含む、請求項１に記載の方法。

【請求項5】

１つ以上のユニグラムをフィルタリング除去することが、
１つ以上の候補ユニグラムについて、関連ユニグラムが、前記言語モデルに既に含まれているユニグラムのスペルミスバージョンである尤度を表す、スペルミス確率を計算することと、
既定の閾値を超えるスペルミス確率に対応する候補ユニグラムをフィルタリング除去することと、を更に含む、請求項１に記載の方法。

【請求項6】

スペルミス確率を計算することが、
前記候補ユニグラムと、前記言語モデルに既に含まれている少なくとも１つの第２のユニグラムとの間のレーベンシュタイン距離値を計算することと、
前記１つ以上の第１の音声データ要素における前記候補ユニグラムと前記少なくとも１つの第２のユニグラムとの間の出現率を表す頻度スコアを計算することと、
前記レーベンシュタイン距離値及び前記頻度スコアに基づいて、前記スペルミス確率を計算することと、を含む、請求項５に記載の方法。

【請求項7】

前記グリーディデコーダが、前記初期コーパスの各ユニグラムについて、それぞれの信頼レベルを発するように適合されており、スペルミス確率を計算することが、
前記１つ以上の第１の音声データ要素における前記候補ユニグラムの１つ以上の出現についての前記信頼レベルの平均を表す信頼スコアを計算することと、
前記信頼スコアに更に基づいて、前記スペルミス確率を計算することと、を更に含む、請求項６に記載の方法。

【請求項8】

前記言語モデルが、１つ以上の言語構文規則の定義を更に含み、前記レーベンシュタイン距離値を計算することが、
前記候補ユニグラムと前記第２のユニグラムとの間の単一文字編集の数を計算することと、
前記１つ以上の言語構文規則及び前記単一文字編集の数に基づいて、前記レーベンシュタイン距離値を計算することと、を含む、請求項７に記載の方法。

【請求項9】

１つ以上の候補ユニグラムについて、前記候補ユニグラムが、前記言語モデルに既に含まれている２つのユニグラムの連結である尤度を表す欠落スペース確率を計算することと、
既定の閾値を超える欠落スペース確率に対応する候補ユニグラムをフィルタリング除去することと、を更に含む、請求項５に記載の方法。

【請求項10】

少なくとも１つの第１の候補ユニグラムについて、前記候補ユニグラムのコーパスに基づいて、第１のユニグラム埋め込みベクトルを計算することと、
少なくとも１つの第２の候補ユニグラムについて、前記候補ユニグラムのコーパスに基づいて、第２のユニグラム埋め込みベクトルを計算することと、
前記第１のユニグラム埋め込みベクトル及び前記第２のユニグラム埋め込みベクトルに基づいて、類似性スコアを計算することと、
前記類似性スコアに更に基づいて、前記スペルミス確率を計算することと、を更に含む、請求項７に記載の方法。

【請求項11】

複数の文書を含む文書コーパスを受信することを更に含み、各文書が、特定の主題領域に関連付けられており、各文書が、複数の文書ユニグラムを含む、請求項１０に記載の方法。

【請求項12】

１つ以上の候補ユニグラムについて、前記複数の文書ユニグラムに基づいて、領域内スコアを計算することを更に含み、前記領域内スコアは、前記候補ユニグラムが少なくとも１つの特定の領域に関連する尤度を表す、請求項１１に記載の方法。

【請求項13】

１つ以上の候補ユニグラムについて、
（ａ）既定の閾値を超える領域内スコアを有し、（ｂ）前記１つ以上の第１の音声データ要素に現れる、文書ユニグラムのサブセットを含む、コンテキストリストをコンパイルすることと、
各文書について、前記文書及び前記コンテキストリストに現れるユニグラムを含む交差グループを取得することと、
各文書について、前記交差グループ内の文書ユニグラムの前記領域内スコアに基づいて、前記文書に対する前記候補ユニグラムの関連性を表す正確性スコアを計算することと、
既定の閾値を下回る最大正確性スコアに対応する候補ユニグラムをフィルタリング除去することと、を更に含む、請求項１２に記載の方法。

【請求項14】

前記グリーディデコーダが、前記初期コーパスの各ユニグラムについて、それぞれの信頼レベルを発するように適合されており、前記１つ以上の第１の音声データ要素の音声データ要素を分析することが、
１つ以上の候補ユニグラムについて、前記音声データ要素内で、前記候補ユニグラムを含む隣接ユニグラムのｎグラムを位置特定することを含み、
（ａ）前記ｎグラムの前記ユニグラムが既定の値を超える信頼レベルに対応し、（ｂ）前記ｎグラムが既定の閾値数を超えるユニグラムを含む場合、前記言語モデルが、前記抽出された少なくとも１つのｎグラムを含むように更新され、
そうでない場合、前記候補ユニグラムが、前記候補ユニグラムのコーパスからフィルタリング除去される、請求項１に記載の方法。

【請求項15】

音声データ要素内のユニグラムを自動的に発見するためのシステムであって、命令コードのモジュールが記憶されている、非一時的メモリデバイスと、前記メモリデバイスに関連付けられており、前記命令コードのモジュールを実行するように構成された少なくとも１つのプロセッサと、を備え、前記命令コードのモジュールの実行時に、前記少なくとも１つのプロセッサは、
各々が１つ以上のユニグラムを含む、複数のｎグラムを含む、言語モデルを受信し、
１つ以上の第１の音声データ要素に音響ＭＬモデルを適用して、文字分布関数を取得し、
前記文字分布関数にグリーディデコーダを適用して、ユニグラムの初期コーパスを予測し、
前記言語モデルに含まれていない候補ユニグラムのコーパスを取得するために、前記初期コーパスの１つ以上のユニグラムをフィルタリング除去し、
前記１つ以上の第１の音声データ要素を分析して、候補ユニグラムを含む少なくとも１つのｎグラムを抽出し、
抽出された前記少なくとも１つのｎグラムを含むように、前記言語モデルを更新するように構成されている、システム。

【請求項16】

少なくとも１つの第２の音声データ要素を受信し、更新された前記言語モデルに基づいて、前記少なくとも１つの第２の音声データ要素のトランスクリプションを生成するように構成されたビームデコーダを更に備える、請求項１５に記載のシステム。

【請求項17】

前記少なくとも１つのプロセッサが、
１つ以上の候補ユニグラムについて、関連ユニグラムが、前記言語モデルに既に含まれているユニグラムのスペルミスバージョンである尤度を表す、スペルミス確率を計算すること、及び
既定の閾値を超えるスペルミス確率に対応する候補ユニグラムをフィルタリング除去することによって、１つ以上のユニグラムをフィルタリング除去するように構成されている、請求項１５に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して音声認識の分野に関する。より具体的には、本発明は、音声認識システムにおけるユニグラムの教師なし発見に関する。

【0002】

優先権の主張
本出願は、２０２１年１１月８日に米国特許商標庁に出願された「ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＵＮＳＵＰＥＲＶＩＳＥＤＤＩＳＣＯＶＥＲＹＯＦＵＮＩＧＲＡＭＳＩＮＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＳＹＳＴＥＭＳ」と題された米国特許出願第１７／５２０，８１６号の利益を主張する。

【背景技術】

【0003】

音声分析及び音声認識の分野では、大語彙連続音声認識（Large Vocabulary Continuous Speech Recognition、ＬＶＣＳＲ）システムが、発話されたテキストから認識し、次いで、潜在的に５０，０００～１００，０００個の単語及び句の語彙辞書又は言語モデルを適用して、その発話されたテキストのトランスクリプトを生成するために使用される。

【0004】

したがって、ＬＶＣＳＲのような現在利用可能な音声認識システムは、意図的に、語彙外の単語を認識することができない。例えば、製薬会社のコールセンターのＬＶＣＳＲシステムは、薬剤名及び病状を記述する用語がＬＶＣＳＲ言語モデルに存在しない場合、これらの用語を認識することができない。

【0005】

この点は、通常はグローバルな領域非依存言語モデルから除外され得る領域固有の用語が、それらの特定の分野又は領域においても高い重要性を有し得るという事実によって更に悪化する。薬学の例に関して、薬剤名、及び「インスリン」、「抗ヒスタミン」、「髄膜炎」、「腹痛」、「抗生物質」などの領域内単語は、医学及び薬学の特定の分野において非常に関連し得るが、それにもかかわらず、音声分析システムの言語モデルに含まれ得ず、したがって、音声から認識され得ない。

【0006】

ＬＶＣＳＲのような現在利用可能な音声分析システムは、教師あり学習メカニズムを維持し得、教師あり学習メカニズムは、領域固有言語モデルを更新し、検証するために絶えず連続してフレーズをｎグラムベースの言語モデルに手動で追加することによって、「オンサイト」という語彙を拡張することを可能にする。このアプローチは、広範な人間の介入を必要とすることが理解され得る。

【発明の概要】

【0007】

したがって、音声認識システムにおけるユニグラムの自動、連続、及び教師なし発見のための方法及びシステムが必要とされる。

【0008】

本発明の実施形態は、少なくとも１つのプロセッサによる音声データ要素内のユニグラムを自動的に発見する方法を含み得る。

【0009】

方法の実施形態は、各ｎグラムが１つ以上のユニグラムを含み得る、複数のｎグラムを含み得る、言語モデルを受信することと、１つ以上の第１の音声データ要素に音響機械学習（machine-learning、ＭＬ）モデルを適用して、文字分布関数を取得することと、文字分布関数にグリーディデコーダを適用して、ユニグラムの初期コーパスを予測することと、言語モデルに含まれていない候補ユニグラムのコーパスを取得するために、初期コーパスの１つ以上のユニグラムをフィルタリング除去することと、１つ以上の第１の音声データ要素を分析して、候補ユニグラムを含む少なくとも１つのｎグラムを抽出することと、抽出された少なくとも１つのｎグラムを含むように、言語モデルを更新することと、を含む。

【0010】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、（例えば、推論の段階中に）更新された言語モデルに基づいて、第２の音声データ要素の少なくとも１つのトランスクリプションを生成するために、第２の音声データ要素にビームデコーダを適用し得る。

【0011】

いくつかの実施形態によれば、文字分布関数は、１つ以上の第１の音声データ要素における１つ以上の言語文字の出現の尤度を表し得る。

【0012】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、抽出された少なくとも１つのｎグラムを教師データとして使用して、少なくとも１つの第２の音声データ要素に基づいて、音響ＭＬモデルを再トレーニングし得る。

【0013】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、（ａ）１つ以上の候補ユニグラムについて、関連ユニグラムが、言語モデルに既に含まれているユニグラムのスペルミスバージョンである尤度を表す、スペルミス確率を計算すること、及び（ｂ）既定の閾値を超えるスペルミス確率に対応する候補ユニグラムをフィルタリング除去することによって、１つ以上のユニグラムをフィルタリング除去し得る。

【0014】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、候補ユニグラムと、言語モデルに既に含まれている少なくとも１つの第２のユニグラムとの間のレーベンシュタイン距離値を計算すること、１つ以上の第１の音声データ要素における候補ユニグラムと少なくとも１つの第２のユニグラムとの間の出現率を表す頻度スコアを計算すること、及びレーベンシュタイン距離値及び頻度スコアに基づいて、スペルミス確率を計算することによって、スペルミス確率を計算し得る。

【0015】

いくつかの実施形態によれば、グリーディデコーダは、初期コーパスの各ユニグラムについて、それぞれの信頼レベルを発するように適合され得る。そのような実施形態では、少なくとも１つのプロセッサは、１つ以上の第１の音声データ要素における候補ユニグラムの１つ以上の出現についての信頼レベルの平均を表す信頼スコアを計算すること、及び信頼スコアに更に基づいて、スペルミス確率を計算することによって、更に、スペルミス確率を計算するように構成され得る。

【0016】

いくつかの実施形態によれば、言語モデルは、１つ以上の言語構文規則の定義を更に含み得る。そのような実施形態では、少なくとも１つのプロセッサは、候補ユニグラムと第２のユニグラムとの間の単一文字編集の数を計算すること、並びに１つ以上の言語構文規則及び単一文字編集の数に基づいて、レーベンシュタイン距離値を計算することによって、レーベンシュタイン距離を計算するように構成され得る。

【0017】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、１つ以上の候補ユニグラムについて、欠落スペース確率を計算し得る。欠落スペース確率は、候補ユニグラムが、言語モデルに既に含まれている２つのユニグラムの連結であり得る尤度を表し得る。追加的に、少なくとも１つのプロセッサは、既定の閾値を超える欠落スペース確率に対応する候補ユニグラムをフィルタリング除去し得る。

【0018】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、少なくとも１つの第１の候補ユニグラムについて、候補ユニグラムのコーパスに基づいて、第１のユニグラム埋め込みベクトルを計算し、少なくとも１つの第２の候補ユニグラムについて、候補ユニグラムのコーパスに基づいて、第２のユニグラム埋め込みベクトルを計算し、第１のユニグラム埋め込みベクトル及び第２のユニグラム埋め込みベクトルに基づいて、類似性スコアを計算し、類似性スコアに更に基づいて、スペルミス確率を計算し得る。

【0019】

いくつかの実施形態によれば、少なくとも１つのプロセッサは、複数の文書を含む文書コーパスを受信し得、各文書は、特定の主題領域に関連付けられており、各文書は、複数の文書ユニグラムを含む。

【0020】

少なくとも１つのプロセッサは、１つ以上の候補ユニグラムについて、複数の文書ユニグラムに基づいて、領域内スコアを計算し得、当該領域内スコアは、候補ユニグラムが少なくとも１つの特定の領域に関連し得る尤度を表す。

【0021】

追加的に、１つ以上の候補ユニグラムについて、少なくとも１つのプロセッサは、文書ユニグラムのサブセットを含み得るコンテキストリストをコンパイルし得る。文書ユニグラムのサブセットは、（ａ）既定の閾値を超える領域内スコアを有し、（ｂ）１つ以上の第１の音声データ要素に現れ得る。各文書について、少なくとも１つのプロセッサは、文書及びコンテキストリストに現れるユニグラムを含み得る交差グループを取得し得る。各文書について、少なくとも１つのプロセッサは、交差グループ内の文書ユニグラムの領域内スコアに基づいて、文書に対する候補ユニグラムの関連性を表す正確性スコアを計算し得る。少なくとも１つのプロセッサは、その後、既定の閾値を下回る最大正確性スコアに対応する候補ユニグラムをフィルタリング除去又は省略し得る。

【0022】

いくつかの実施形態によれば、グリーディデコーダは、初期コーパスの各ユニグラムについて、それぞれの信頼レベルを発するように適合され得る。そのような実施形態では、少なくとも１つのプロセッサは、１つ以上の第１の音声データ要素の音声データ要素を、１つ以上の候補ユニグラムについて、音声データ要素内で、候補ユニグラムを含み得る隣接ユニグラムのｎグラムを位置特定することによって分析され得、（ａ）当該ｎグラムのユニグラムが既定の値を超える信頼レベルに対応し、（ｂ）当該ｎグラムが既定の閾値数を超えるユニグラムを含む場合、言語モデルが、抽出された少なくとも１つのｎグラムを含むように更新され得る。そうでない場合、そうでない場合、候補ユニグラムは、候補ユニグラムのコーパスからフィルタリング除去され得る。

【0023】

本発明の実施形態は、音声データ要素内のユニグラムを自動的に発見するためのシステムを含み得る。システムの実施形態は、命令コードのモジュールが記憶され得る、非一時的メモリデバイスと、メモリデバイスに関連付けられており、命令コードのモジュールを実行するように構成された少なくとも１つのプロセッサとを含み得る。

【0024】

命令コードのモジュールの実行時に、少なくとも１つのプロセッサは、各々が１つ以上のユニグラムを含み得る、複数のｎグラムを含み得る、言語モデルを受信し、１つ以上の第１の音声データ要素に音響ＭＬモデルを適用して、文字分布関数を取得し、文字分布関数にグリーディデコーダを適用して、ユニグラムの初期コーパスを予測し、言語モデルに含まれていない候補ユニグラムのコーパスを取得するために、初期コーパスの１つ以上のユニグラムをフィルタリング除去し、１つ以上の第１の音声データ要素を分析して、候補ユニグラムを含み得る、少なくとも１つのｎグラムを抽出することと、抽出された少なくとも１つのｎグラムを含むように、言語モデルを更新するように構成され得る。

【0025】

追加的に、システムの実施形態は、少なくとも１つの第２の音声データ要素を受信し、更新された言語モデルに基づいて、少なくとも１つの第２の音声データ要素のトランスクリプションを生成するように構成されたビームデコーダを含み得る。

【図面の簡単な説明】

【0026】

本発明とみなされる主題は、本明細書の結論部分において特に指摘され、明確に特許請求される。しかしながら、本発明は、組織及び動作方法の両方に関して、その目的、特徴、及び利点とともに、添付の図面とともに読まれるとき、以下の詳細な説明を参照することによって最もよく理解され得る。

【図1】ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステムに含まれ得る、コンピューティングデバイスを描示する。

【図2】ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステムの概要を描示する。

【図3】ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステムにおけるデータの流れを描示する。

【図4】ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステムの別の図を描示する。

【図5】ブロック図であり、本発明のいくつかの実施形態による、テキスト内の音声認識のためのシステムに含まれ得る、ユニグラム抽出モジュールを描示する。

【図6】ヒートマップであり、本発明のいくつかの実施形態による、音声認識のためのシステムにおける英語アルファベットの文字の置換及び削除の確率を描示する。

【図7】ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステムに含まれ得る、ユニグラム抽出モジュールの別の例を描示する。

【図8】流れ図であり、本発明のいくつかの実施形態による、音声認識のためのシステムによって、音声データ要素内のユニグラムを自動的に発見する方法を描示する。

【0027】

例解を単純かつ明確にするために、図に例解される要素は、必ずしも縮尺通りに描画されていないことを理解されるであろう。例えば、いくつかの要素の寸法は、明確にするために他の要素に対して誇張されている場合がある。更に、適切であると考えられる場合、参照数字は、対応する又は類似の要素を示すために図面間で繰り返され得る。

【発明を実施するための形態】

【0028】

当業者は、本発明が、その趣旨又は本質的な特徴から逸脱することなく、他の特定の形態で実施され得ることを理解するであろう。したがって、前述の実施形態は、本明細書に説明される本発明を限定するのではなく、あらゆる点で例解的であるとみなされるべきである。したがって、本発明の範囲は、前述の説明によってではなく、添付の特許請求の範囲によって示され、したがって、特許請求の範囲の均等物の意味及び範囲内に入る全ての変更は、その中に包含されることが意図される。

【0029】

以下の詳細な説明では、本発明の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本発明がこれらの特定の詳細なしに実施され得ることは、当業者によって理解されるであろう。他の例では、本発明を不明瞭にしないために、周知の方法、手順、及び構成要素は、詳細には説明されていない。一実施形態に関して説明されるいくつかの特徴又は要素は、他の実施形態に関して説明される特徴又は要素と組み合わされ得る。明確にするために、同じ又は類似の特徴又は要素の説明は繰り返されない場合がある。

【0030】

本発明の実施形態はこの点に限定されないが、例えば、「処理」、「コンピューティング」、「計算」、「決定」、「確立」、「分析」、「チェック」などの用語を利用する議論は、コンピュータのレジスタ及び／又はメモリ内の物理（例えば、電子）量として表されるデータを、コンピュータのレジスタ及び／又はメモリ内の物理量として同様に表される他のデータ、あるいは動作（単数又は複数）及び／又はプロセス（単数又は複数）を実行するための命令を記憶し得る他の情報非一時的記憶媒体に操作及び／又は変換する、コンピュータ、コンピューティングプラットフォーム、コンピューティングシステム、又は他の電子コンピューティングデバイスの動作及び／又はプロセスを指し得る。

【0031】

本発明の実施形態は、この点で限定されないが、本明細書で使用される「複数（plurality）」及び「複数（a plurality）」という用語は、例えば、「複数」又は「２つ以上」を含み得る。「複数（plurality）」又は「複数（a plurality）」という用語は、本明細書を通して、２つ以上の構成要素、デバイス、要素、ユニット、パラメータなどを説明するために使用され得る。「セット」という用語は、本明細書で使用される場合、１つ以上のアイテムを含み得る。

【0032】

明示的に述べられない限り、本明細書で説明される方法実施形態は、特定の順序又はシーケンスに制約されない。追加的に、説明される方法実施形態又はその要素のうちのいくつかは、同時に、同じ時点で、又は並行して発生又は実行することができる。

【0033】

以下の表１は、本明細書で使用される用語の用語集を含む。

【0034】

【表1】

【0035】

ここで図１を参照すると、この図は、いくつかの実施形態による、音声認識のためのシステムに含まれ得るコンピューティングデバイスを描示するブロック図である。

【0036】

コンピューティングデバイス１は、例えば、中央処理ユニット（central processing unit、ＣＰＵ）プロセッサ、チップ又は任意の好適なコンピューティングデバイス若しくは計算デバイスであり得るプロセッサ又はコントローラ２と、オペレーティングシステム３と、メモリ４と、実行可能コード５と、記憶システム６と、入力デバイス７と、出力デバイス８とを含み得る。プロセッサ２（又は、場合によっては複数のユニット又はデバイスにわたる１つ以上のコントローラ又はプロセッサ）は、本明細書に説明される方法を実行するように、及び／又は様々なモジュール、ユニットなどとして実行若しくは動作するように構成され得る。２つ以上のコンピューティングデバイス１が、本発明の実施形態によるシステムに含まれ得、１つ以上のコンピューティングデバイス１が、本発明の実施形態によるシステムの構成要素として機能し得る。

【0037】

オペレーティングシステム３は、コンピューティングデバイス１の動作の調整、スケジューリング、調停、監督、制御、又は管理すること、例えば、ソフトウェアプログラム若しくはタスクの実行をスケジューリングすること、又はソフトウェアプログラム若しくは他のモジュール若しくはユニットが通信することを可能にすることを伴うタスクを実行するように設計及び／又は構成された任意のコードセグメント（例えば、本明細書で説明される実行可能コード５と同様のもの）であり得るか、又はそれを含み得る。オペレーティングシステム３は、商用オペレーティングシステムであり得る。オペレーティングシステム３は、任意の構成要素であり得、例えば、いくつかの実施形態では、システムは、オペレーティングシステム３を必要としない、又は含まないコンピューティングデバイスを含み得ることに留意されたい。

【0038】

メモリ４は、例えば、ランダムアクセスメモリ（Random-Access Memory、ＲＡＭ）、読み出し専用メモリ（read only memory、ＲＯＭ）、ダイナミックＲＡＭ（Dynamic RAM、ＤＲＡＭ）、シンクロナスＤＲＡＭ（Synchronous DRAM、ＳＤ－ＲＡＭ）、ダブルデータレート（double data rate、ＤＤＲ）メモリチップ、フラッシュメモリ、揮発性メモリ、不揮発性メモリ、キャッシュメモリ、バッファ、短期記憶ユニット、長期記憶ユニット、又は他の好適なメモリユニット若しくは記憶ユニットであり得るか、又はそれらを含み得る。メモリ４は、複数の可能な異なるメモリユニットであり得るか、又はそれらを含み得る。メモリ４は、コンピュータ若しくはプロセッサ非一時的可読媒体、又はコンピュータ非一時的記憶媒体、例えば、ＲＡＭであり得る。一実施形態では、メモリ４、ハードディスクドライブ、別の記憶デバイスなどの非一時的記憶媒体は、プロセッサによって実行されたときにプロセッサに本明細書で説明する方法を実行させ得る命令又はコードを記憶し得る。

【0039】

実行可能コード５は、任意の実行可能コード、例えば、アプリケーション、プログラム、プロセス、タスク又はスクリプトであり得る。実行可能コード５は、おそらくオペレーティングシステム３の制御下でプロセッサ又はコントローラ２によって実行され得る。例えば、実行可能コード５は、本明細書で更に説明されるように音声認識を実行し得るアプリケーションであり得る。明確にするために、実行可能コード５の単一のアイテムが図１に示されているが、本発明のいくつかの実施形態によるシステムは、メモリ４にロードされ、プロセッサ２に本明細書に説明される方法を実行させ得る実行可能コード５と同様の複数の実行可能コードセグメントを含み得る。

【0040】

記憶システム６は、例えば、当技術分野において既知であるようなフラッシュメモリ、当技術分野において既知であるようなマイクロコントローラ若しくはチップの内部にあるか、又はそれらに埋め込まれたメモリ、ハードディスクドライブ、ＣＤ－Ｒｅｃｏｒｄａｂｌｅ（ＣＤ－Ｒ）ドライブ、ブルーレイディスク（Blu-ray disk、ＢＤ）、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ）デバイス、又は他の好適なリムーバブル及び／若しくは固定記憶ユニットであり得るか、又はそれらを含み得る。１つ以上の音声データ要素に関連するデータは、記憶システム６に記憶され得、記憶システム６からメモリ４にロードされ得、プロセッサ又はコントローラ２によって処理され得る。いくつかの実施形態では、図１に示される構成要素のいくつかは省略され得る。例えば、メモリ４は、記憶システム６の記憶容量を有する不揮発性メモリであり得る。したがって、別個の構成要素として示されているが、記憶システム６は、メモリ４に埋め込まれるか、又は含まれ得る。

【0041】

入力デバイス７は、任意の好適な入力デバイス、構成要素、若しくはシステム、例えば、取り外し可能なキーボード若しくはキーパッド、マウスなどであり得るか、又はそれらを含み得る。出力デバイス８は、１つ以上の（場合によっては取り外し可能な）ディスプレイ若しくはモニタ、スピーカ、及び／又は任意の他の好適な出力デバイスを含み得る。任意の適用可能な入力／出力（input/output、Ｉ／Ｏ）デバイスが、ブロック７及び８によって示されるように、コンピューティングデバイス１に接続され得る。例えば、有線又は無線ネットワークインターフェースカード（network interface card、ＮＩＣ）、ユニバーサルシリアルバス（ＵＳＢ）デバイス、又は外部ハードドライブが、入力デバイス７及び／又は出力デバイス８に含まれ得る。ブロック７及び８によって示されるように、任意の好適な数の入力デバイス７及び出力デバイス８がコンピューティングデバイス１に動作可能に接続され得ることが認識されるであろう。

【0042】

本発明のいくつかの実施形態によるシステムは、複数の中央処理ユニット（ＣＰＵ）又は任意の他の好適な多目的若しくは特定のプロセッサ若しくはコントローラ（例えば、要素２に類似）、複数の入力ユニット、複数の出力ユニット、複数のメモリユニット、及び複数の記憶ユニットなどであるが、それらに限定されない、構成要素を含み得る。

【0043】

近年、一般に「エンドツーエンド認識（End-to-end recognition）」と称される音声認識に対する新しい手法が、新しい単語を検出するための別の選択肢を開いた。認識を実行するために単語レベルのグラフに依存し、全ての単語が音素のシーケンスから構築される従来の音声認識方法とは異なり、エンドツーエンド認識は完全に文字レベルに切り替わっている。これは、単語又は音素のシーケンス（又はグラフ、「格子」）である出力ではなく、エンドツーエンド音声認識が文字分布関数を出力することを意味する。

【0044】

次に、本発明のいくつかの実施形態による、音声認識のためのシステム１００の概要を描示するブロック図である、図２を参照する。本明細書で詳述されるように、システム１００は、１つ以上の音声データ要素内のユニグラム（例えば、単語）を自動的に発見して、所与の言語モデル１６０Ａを向上させ、次いで、向上された言語モデル１６０Ａをビームデコーダとともに利用して、１つ以上の新しい音声データ要素サンプルに対して音声認識を実行するように構成され得る。

【0045】

図２に描示されるように、システム１００は、本明細書で詳述されるように、３つの別個の機能（破線によってマークされる）、すなわち、音響分析、グリーディデコーディング、及びビームデコーディングの間の相乗効果を活用しながら、エンドツーエンド音声認識を実装し得る。

【0046】

本発明のいくつかの実施形態によれば、システム１００は、ソフトウェアモジュール、ハードウェアモジュール、又はそれらの任意の組み合わせとして実装され得る。例えば、システム１００は、図１の要素１などのコンピューティングデバイスであり得るか、又はそれを含み得、本明細書で更に説明されるように、実行可能コードの１つ以上のモジュール（例えば、図１の要素５）を実行して音声認識を行うように適合され得る。

【0047】

図２に示されるように、矢印は、システム１００への及び／若しくはシステム１００からの、並びに／又はシステム１００のモジュール若しくは要素間の１つ以上のデータ要素の流れを表し得る。いくつかの矢印は、明確にするために図２では省略されている。

【0048】

図２に示されるように、システム１００は、言語モデル１６０Ａの初期バージョンを（例えば、図１の入力デバイス７から）受信し得る。いくつかの実施形態によれば、言語モデル１６０Ａは、複数のｎグラムを含み得、各ｎグラムは、１つ以上のユニグラムを含み得る。例えば、自然言語処理（ＮＬＰ）の技術分野において既知であるように、ｎグラムベース言語モデル１６０Ａは、複数のｎグラムを含み得、各々は、ユニグラム（例えば、単語）のセット又は組み合わせを表す。各ｎグラムはｎグラムに関連付けられ得る確率は、文書のコーパスにおけるユニグラムのそれぞれの組み合わせの出現の確率又は頻度を表す。例えば、ｎグラム「Ｉｌｏｖｅｙｏｕ」のｎグラム確率は、ｎグラム「Ｉｌｏｖｅｐａｎｃａｋｅｓ」のｎグラム確率よりも高い場合があり、これは、ユニグラム「ｙｏｕ」がｎグラム「Ｉｌｏｖｅ」に続く音声データ要素２０に現れる尤度が高いことを表す。

【0049】

いくつかの実施形態によれば、システム１００は、（例えば、図１の入力デバイス７を介して）１つ以上の音響又は音声データ要素２０を受信し得る。１つ以上の音響又は音声データ要素２０は、例えば、自然言語（例えば、英語、フランス語など）の人間の音声を含み得るか、又はそれを表し得る音響ファイル又はデータストリームであり得る。本明細書で詳述されるように、システム１００は、１つ以上の音声データ要素２０内のユニグラムの教師なし発見を実行し、その後、受信された１つ以上の音響又は音声データ要素２０の音声トランスクリプションを表すトランスクリプションデータ要素１００Ａを生成するように構成され得る。

【0050】

いくつかの実施形態によれば、システム１００は、音声２０から１つ以上の音響特徴１１２Ａを抽出するように適合された、特徴抽出モジュール１１２を含み得る。

【0051】

例えば、特徴抽出モジュール１１２は、音声２０から、メル周波数ケプストラム係数（Mel-frequency cepstral coefficient、ＭＦＣＣ）などの１つ以上の音響特徴１１２Ａを抽出するように構成され得る。当技術分野において既知であるように、ＭＦＣＣ係数は、音響信号のストリームなどの音響データ要素のケプストラムから導出され得る。ケプストラムは、音響信号の周波数スペクトルの対数の逆フーリエ変換（inverse Fourier transform、ＩＦＴ）として計算され得る。

【0052】

図２に示されるように、特徴抽出モジュール１１２は、音響特徴１１２Ａ（例えば、ＭＦＣＣ）を機械学習（ＭＬ）ベースの音響モデル１１０に供給し得る。システム１００は、１つ以上の音声データ要素２０及び／又は対応する音響特徴１１２Ａに音響モデル１１０を適用して、文字分布関数１１０Ａを生成又は予測（当技術分野において一般に称される）し得る。文字分布関数１１０Ａは、入力音響特徴１１２Ａに基づいて、所与のアルファベットにわたる言語文字（例えば、［ａ～ｚ］）の確率分布を表し得る。言い換えれば、文字分布関数１１０Ａは、１つ以上の音声データ要素２０における１つ以上の言語文字の出現の尤度を表し得る。

【0053】

当技術分野において既知であるように、音響モデル１１０は、入力音声２０のデータ要素の特定の時間枠（例えば、２５ミリ秒（ｍｓ））に関して、文字分布関数１１０Ａを予測し得る。言い換えれば、入力音声２０の各時間枠について、ＭＬベースの音響モデル１１０は、言語文字（及び／又は音声２０内の非音声又は「空白」部分）の文字分布関数１１０Ａを生成し得、これは、その時間枠中に特定の文字又は文字が発声又は発音された確率を表す。

【0054】

いくつかの実施形態によれば、音響モデル１１０は、畳み込みニューラルネットワーク（convolutional neural-network、ＣＮＮ）モデル、深層畳み込みニューラルネットワーク（deep convolutional neural network、ＤＮＮ）モデル、再帰型ニューラルネットワーク（recurrent neural network、ＲＮＮ）モデル、アテンションベースのニューラルネットワークモデル、又は当技術分野において既知であるような文字分布関数１１０Ａを予測するための任意の他の適切なＭＬモデルなど、ＭＬベースのモデルを含み得る。

【0055】

いくつかの実施形態によれば、システム１００は、基礎となる音声データ要素２０の特定の時間枠に関連する、音響モデル１１０から文字分布関数１１０Ａを受信するように適合された、グリーディデコーダモジュール１２０を含み得る。

【0056】

当技術分野において既知であるように、グリーディデコーダ１２０は、所与の時間枠内の文字の反復及び／又は非音声若しくは「空白」部分の出現を最初に除去するように構成され得る。その後、グリーディデコーダ１２０は、文字分布関数１１０Ａに基づいて、１つ以上のユニグラム１２０Ａ又は単語を生成するために、所与の時間枠内及び／又は複数の連続する時間枠の中で、残りの文字の最も尤度の高い組み合わせ又はシーケンスを決定し得る。例えば、グリーディデコーダ１２０は、文字分布関数１１０Ａによって反映されるように、最大出現確率に対応する文字のシーケンスを選択することによって、１つ以上のユニグラム１２０Ａを生成し得る。

【0057】

追加的に、グリーディデコーダ１２０は、ユニグラムメタデータ１２０Ａ’を、生成された各ユニグラム１２０Ａに関連付けるか、又は帰属させ得る。例えば、ユニグラムメタデータ１２０Ａ’は、各生成されたユニグラム又は単語１２０Ａに対応する時間枠を含み得、関連するユニグラム１２０Ａを含む文字のシーケンスの開始時間及び終了時間を定義する。

【0058】

別の例では、グリーディデコーダ１２０は、１つ以上の（例えば、各）生成されたユニグラムについて、基礎となる音声データ要素２０内のユニグラム１２０Ａの出現についての信頼レベル又は信頼スコア（例えば、［０，１］の範囲内の数値）を表すユニグラムメタデータ１２０Ａ’要素を計算し得る。信頼スコアは、例えば、ユニグラムに含まれる文字の確率の関数として（例えば、文字分布関数１１０Ａに反映されるように）計算され得、例えば、関連するユニグラムの長さ（例えば、文字数）によって正規化され得る。次いで、グリーディデコーダ１２０は、関連するユニグラム１２０Ａのためのメタデータ１２０Ａ’として、信頼スコアを割り当てるか又はそれに帰属させ得る。

【0059】

いくつかの実施形態によれば、システム１００は、ユニグラム１２０Ａ（及び対応するメタデータ１２０Ａ’）の初期コーパスを生成又は予測するために、文字分布関数１１０Ａの１つ以上のインスタンスに対して、グリーディデコーダ１２０を連続的に適用し得る。「連続的に」という用語は、この文脈では、グリーディデコーダ１２０が、単一の音声データ要素２０内のそれぞれの複数の時間枠から生じる、文字分布関数１１０Ａの複数のインスタンスに適用され得ることを示すために使用され得る。追加的に、又は代替的に、グリーディデコーダ１２０は、複数の音声データ要素２０から生じる文字分布関数１１０Ａの複数のインスタンスに適用され得る。

【0060】

グリーディデコーダ１２０などのグリーディデコーダは、任意の文字シーケンスを認識することが可能であり得るが、スペルミスされた単語（例えば、「ｔｈｅｒｍｏｍｅｔｅｒ」の代わりに「ｔｅｒｍｏｍｅｔｅｒ」）を出力する傾向があり得ることが、当業者によって理解され得る。言い換えれば、ユニグラム１２０Ａの初期コーパスは、スペルミスされた単語を含み得る。逆に、ビームデコーダ１７０などのビームデコーダは、スペルミスされた単語を含むトランスクリプションを生成又は発しない可能性があるが、有限ではあるが、大きい語彙又は言語モデル１６０Ａによって制限される可能性がある。

【0061】

次に、本発明のいくつかの実施形態による、音声認識のためのシステム１００内のデータの流れを描示するブロック図である、図３を参照する。図３のシステム１００は、図２に描示されるものと同じシステム１００であり得、モジュール及び要素のいくつかは、明確にするために省略されていることが理解され得る。

【0062】

いくつかの実施形態によれば、グリーディデコーダ１２０は、ユニグラム１２０Ａの初期コーパスにフィルタを適用して、言語モデル１６０Ａに既に含まれているユニグラム（例えば、単語）をフィルタリング除去又は除外するように構成されたフィルタモジュール１２１と協働し得る。このフィルタリングは、本明細書でユニグラム１２１Ａとして示される候補ユニグラムのコーパス、及び対応するメタデータ１２１Ａ’を生成し得る。

【0063】

本明細書で詳述されるように（例えば、図４に関連して）、システム１００は、候補ユニグラム１２１Ａにフィルタのセットを適用して、本明細書でフィルタリングされたユニグラム１３０Ａ、１４０Ａとして示される１つ以上のフィルタリングされたユニグラムと、フィルタリングされたユニグラム１３０Ａ、１４０Ａを記述する対応するメタデータ（１３０Ａ’、１４０Ａ’）を生成し得る。（例えば、図４に関連して）本明細書で詳述されるように、システム１００は、音響音声データ要素２０及び／又はフィルタリングされたユニグラム１３０Ａ／１４０Ａを分析して、１つ以上のフィルタリングされたユニグラム１３０Ａ／１４０Ａを含み得る少なくとも１つのｎグラム１５０Ａを生成又は抽出し得る。次いで、システム１００は、少なくとも１つのｎグラム１５０Ａを含むように、言語モデル１６０Ａを更新するか、又は向上させ得る。

【0064】

図３に示されるように、システム１００は、ビームデコーダ１７０を含み得るか、又はビームデコーダ１７０と協働し得る。システム１００は、ビームデコーダ１７０が向上された言語モデル１６０Ａを利用して、向上された言語モデル１６０Ａに基づいて、音響音声データ要素２０の誤りのないトランスクリプション１００Ａを生成することを可能にし得る。言い換えれば、システム１００は、更新された言語モデル１６０Ａに基づいて、新しい音声データ要素の少なくとも１つのトランスクリプション１００Ａを生成するために、少なくとも１つの新しい音声データ要素２０にビームデコーダ１７０を適用し得る。

【0065】

追加的に、本明細書で詳述されるように、システム１００は、抽出されたｎグラム１５０Ａを、音響モデル１１０を微調整又は再トレーニングするために、音響モデル１１０のためのフィードバックとして、（例えば、音声データ要素２０内のｎグラムの開始時間及び終了時間によってマークされた）音声データ要素２０の対応する音響セグメントとともに利用し得る。したがって、システム１００は、ｎグラム１５０Ａの自動抽出に基づいて、文字分布関数１１０Ａのより正確な予測を自動的に生成し得る。

【0066】

本発明の実施形態は、音声認識及びトランスクリプションのタスクを実行する実用的なアプリケーションを含み得、音声認識のための現在利用可能な方法及びシステムに対するいくつかの改善を含み得る。

【0067】

例えば、グリーディデコーダ及びビームデコーダの利点を相乗的に組み合わせることによって、実施形態は、言語モデル１６０Ａに存在しない新しいユニグラム又は単語を自動的に（例えば、手動監視を必要とせずに）識別し、これらの新しいユニグラム又は単語を含むように言語モデル又は語彙１６０Ａを向上させ、新しく識別されたユニグラムを含む音声データ要素の誤りのないトランスクリプションを生成し得る。

【0068】

追加的に、本発明の実施形態は、自動ユニグラム識別のこの利点を利用して、音響モデル１１０などの基礎となる音響モデルを連続的に（例えば、時間を通して繰り返し）再トレーニング又は精緻化し得る。そのような音響モデルは、任意の音声認識パラダイムの基礎であり得ることが理解され得る。したがって、音響モデルの精緻化又は微調整は、例えば、話者のロケール又はアクセントにとらわれない可能性があるテキストトランスクリプション１００Ａを生成することになり得る。

【0069】

図４は、ブロック図であり、本発明のいくつかの実施形態による、テキスト内の自動トピック検出のためのシステム１００を描示する。図４のシステム１００は、図２及び／又は図３に描示されるものと同じシステム１００であり得ることが理解され得る。

【0070】

図４に示されるように、システム１００は、ユニグラム抽出モジュール１３０及び１４０として示される２つの相補的ユニグラム抽出モジュールを含み得る。ユニグラム抽出モジュール１３０／１４０は、言語モデル又は語彙１６０Ａに既に含まれているユニグラムを欠いている候補ユニグラム１２１Ａのコーパスをグリーディデコーダ１２０から受信し得る。少なくとも１つの（例えば、各々）ユニグラム抽出モジュール１３０／１４０は、受信された候補ユニグラム１２１Ａを、スペルミスされた単語、又は音声データ要素２０の適切なコンテキストにおいて正しい可能性が高い新しい単語のいずれかとして分類するように構成され得る。

【0071】

いくつかの実施形態によれば、第１のユニグラム抽出モジュール（例えば、１４０）は、Ｗｉｋｉｐｅｄｉａ要約などの外部テキストコーパスを利用して、スペルミスの可能性が高い単語をフィルタリング除去し得、第２のユニグラム抽出モジュール（例えば、１３０）は、そのような外部テキストコーパスを必要とせずに、スペルミスフィルタのセットを利用し得る。システム１００は、例えば外部テキストコーパスの利用可能性に応じて、これらの機能のいずれか１つを別々に使用し得ることが理解され得る。追加的に、又は代替的に、システム１００は、ユニグラム抽出モジュール１３０及び１４０の機能を相乗的に組み合わせて、ｎグラムベースの言語モデル１６０Ａを向上させるために、正しく綴られている可能性が高い新しいユニグラム（例えば、単語）を生成し得る。

【0072】

ここでまた図５も参照すると、この図は、ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステム１００に含まれ得る、ユニグラム抽出モジュール１３０の一例を描示する。図５の例に示されるように、ユニグラム抽出モジュール１３０は、本明細書において初期候補生成器１３１、レーベンシュタイン距離ベースフィルタ１３３、欠落スペースフィルタ１３５、及び候補対フィルタ１３７として示される、いくつかの（例えば、４つの）異なるフィルタのうちの１つ以上（例えば、セット又はカスケード）を含み得る。フィルタリングの順序（例えば、フィルタセットの順序）は、本発明の実施形態の間で変化し得ることが理解され得る。他のフィルタタイプ及び組み合わせも可能である。本明細書で詳述されるように、１つ以上のフィルタ（例えば、１３１、１３３、１３５、及び／又は１３７）は、候補ユニグラム１２１Ａのグループ又はリストをフィルタリングして、フィルタリングされたユニグラム１３０Ａのリスト又はグループ、及び対応するメタデータ１３０Ａ’を生成し得る。

【0073】

いくつかの実施形態によれば、初期候補生成器１３１は、（ａ）言語モデル若しくは語彙１６０Ａに既に含まれている、又は（ｂ）既定の信頼閾値（例えば、０．９５）を下回る信頼スコアメタデータ１２１Ａ’を有する候補ユニグラム１２１Ａをフィルタリング除去するように構成され得る。

【0074】

追加的に、又は代替的に、初期候補生成器１３１は、既定の最小カウント（例えば、５）を下回るユニグラム１２１Ａをフィルタリング除去するように構成され得る。この段階で、システム１００は通常、数百又は数千の一意の候補ユニグラムを含み得ることが理解され得る。これらの一意の候補ユニグラムのうちのいくつかは、正しく綴られたユニグラム（例えば、単語）であり得るが、他のものは、誤って綴られ得る。

【0075】

本明細書で詳述されるように、ユニグラム抽出モジュール１３０（及び／又は１４０）は、１つ以上の（例えば、各）候補ユニグラム１２１Ａについて、関連する候補ユニグラム１２１Ａが言語モデル１６０Ａに既に含まれているユニグラムのスペルミスバージョンである可能性を表す、スペルミス確率を計算するように構成され得る。ユニグラム抽出モジュール１３０（及び／又は１４０）は、既定の閾値を超えるスペルミス確率に対応する候補ユニグラム１２１Ａをフィルタリング除去し得る。言い換えれば、ユニグラム抽出モジュール１３０（及び／又は１４０）は、正しく綴られた単語に関連してスペルミスされた又は誤って綴られた単語のより多くを除去し得るように、候補ユニグラム１２１Ａを連続的に（例えば、時間にわたって繰り返し）フィルタリング除去し得る。

【0076】

表２
以下の表２は、本発明のいくつかの実施形態による、グリーディデコーダによって生成され得、音声認識のためにシステム１００によって対処又は修正され得る、様々なタイプのスペルミスされたユニグラム又は単語１２１Ａの例を詳述する。表２に提供される例は、グリーディデコーダ１２０によって生成された、スペルミスされ、頻繁に発生し、高信頼度のユニグラムの実験的に遭遇した例を表す。

【0077】

【表2】

【0078】

当技術分野において既知であるように、レーベンシュタイン距離は、２つのシーケンス間の差を測定するために使用され得るメトリックである。例えば、２つの単語間のレーベンシュタイン距離は、一方の単語を他方の単語に変更するのに必要な単一文字編集（例えば、挿入、削除、又は置換）の最小数である。

【0079】

いくつかの実施形態によれば、レーベンシュタインベースのフィルタ１３３は、正しく綴られた単語の少なくとも１つの文字における変更（例えば、置換、挿入、及び／又は削除）を明示する、スペルミスされた候補ユニグラム１２１Ａを処理する（例えば、除去する）ように構成され得る。

【0080】

表２に提示される例に関して、例１～７は、（例えば、「Ｆｏｒｗａｒｄ」に関して）文字の置換、挿入、及び／又は削除に起因して発生したスペルエラーを有する、スペルミスされたユニグラム１２１Ａ（例えば、「Ｆｏｒａｒｄ」）を表す。言い換えれば、レーベンシュタインベースフィルタ１３３は、語彙内単語に（例えば、レーベンシュタイン距離に関して）十分に近い少なくとも１つの候補ユニグラム１２１Ａをフィルタリング除去するように構成され得る。

【0081】

当技術分野において既知であるようなレーベンシュタイン距離フィルタリングは、ユニグラム間のレーベンシュタイン距離メトリックのみに基づいてユニグラム１２１Ａをフィルタリング除去し得、正当な（例えば、正しく綴られた）単語を不必要に除外する可能性があるという意味で、アグレッシブすぎることが判明する可能性があることが理解され得る。例えば、複数の正しく綴られた語彙内の変形が単語に対して存在する場合、現在利用可能なレーベンシュタインベースのフィルタは、正当な候補ユニグラム１２１Ａを単語の１つの変形に一致させ、したがって、候補ユニグラム１２１Ａを誤って不適格とみなし、フィルタリング除去する可能性がある。

【0082】

いくつかの実施形態によれば、レーベンシュタインベースのフィルタ１３３は、そのような誤差を回避するために１つ以上の追加のテストを実装し得、したがって、当技術分野において既知であるレーベンシュタイン距離フィルタに対する改善を提供し得る。

【0083】

例えば、レーベンシュタインベースフィルタ１３３は、候補ユニグラム１２１Ａと、言語モデル１６０Ａに既に含まれている少なくとも１つの語彙内ユニグラムとの間のレーベンシュタイン距離値１３３Ａを計算し得る。次いで、レーベンシュタインベースのフィルタ１３３は、１つ以上の音声データ要素２０における候補ユニグラム１２１Ａと少なくとも１つの語彙内ユニグラムとの間の出現率を表す頻度スコア１３３Ｂを計算し得る。レーベンシュタインベースフィルタ１３３は、その後、レーベンシュタイン距離値１３３Ａ及び頻度スコア値１３３Ｂに基づいて、スペルミス確率１３３Ｅを計算し得る。

【0084】

例えば、レーベンシュタインベースフィルタ１３３は候補ユニグラム１２１Ａと、言語モデル１６０Ａに既に含まれているユニグラムとの間のレーベンシュタイン距離値を計算し得る。レーベンシュタインベースフィルタ１３３は、（例えば、既定の閾値を下回るレーベンシュタイン距離値を有する）距離メトリック値に従って、１つ以上のそのような対を類似対として識別し得る。レーベンシュタインベースのフィルタ１３３は、語彙内ユニグラム１６０Ａの類似対ユニグラムと比較して、より高い頻度スコア値１３３Ｂを有する（例えば、音声データ要素２０においてより多く現れる）候補ユニグラム１２１Ａを保存し得る。

【0085】

例えば、「ｐｒｅｓｓｕｒｉｚｉｎｇ」などの語彙外（out-of-vocabulary、ＯＯＶ）候補ユニグラム１２１Ａが入力音声データ要素２０のコーパスに１５回現れ、「ｐｒｅｓｓｕｒｉｎｇ」などの語彙内の（例えば、言語モデル１６０Ａに含まれる）ユニグラムが入力音声データ要素２０のコーパスに２回現れる場合、レーベンシュタインベースフィルタ１３３は、「ｐｒｅｓｓｕｒｉｚｉｎｇ」候補ユニグラム１２１Ａを保存し得る。別の例では、「ｉｎｓｅｃｔ」などのＯＯＶ候補ユニグラム１２１Ａが入力音声データ要素２０のコーパスに１７回現れ、「ｉｎｊｅｃｔ」などの語彙内ユニグラムが３５８０回現れる場合、レーベンシュタインベースのフィルタ１３３は、候補ユニグラム１２１Ａのリストから「ｉｎｓｅｃｔ」をフィルタリング除去し得る。

【0086】

本明細書で詳述されるように（例えば、図２に関連して）、グリーディデコーダ１２０は、ユニグラムの初期コーパス１２０Ａの各予測ユニグラムについて、予測されたユニグラムの信頼レベルを表すそれぞれのユニグラムメタデータ１２０Ａ’要素を発するか、又は計算するように構成され得る。いくつかの実施形態によれば、レーベンシュタインベースフィルタ１３３は、更に信頼レベルに基づいて（例えばレーベンシュタイン距離値１３３Ａ及び頻度スコア値１３３Ｂに加えて）、スペルミス確率１３３Ｅを計算し得る。

【0087】

例えば、レーベンシュタインベースフィルタ１３３は、音声データ要素コーパス２０内の候補ユニグラム１２１Ａの１つ以上の出現に対する信頼レベル１２０Ａ’の平均を表す平均信頼スコア１３３Ｄを計算し得る。レーベンシュタインベースフィルタ１３３は、頻度スコア値１３３Ｂ平均信頼スコア１３３Ｄの重み付けされた和を計算し得る。レーベンシュタインベースのフィルタ１３３は次いで、それらの語彙内ユニグラム１６０Ａ類似対ユニグラムと比較して、頻度スコア値１３３Ｂ平均信頼スコア１３３Ｄのより高い重み付けされた和を有する候補ユニグラム１２１Ａを保存し得る。

【0088】

追加的に、又は代替的に、レーベンシュタインベースフィルタ１３３は、専用の言語固有ルールの既定のセットに基づいて、候補ユニグラム１２１Ａを保存し得る。

【0089】

例えば、言語モデル１６０Ａは、１つ以上の言語固有の構文規則の定義を含み得る。例えば英語の場合、１つ以上の言語固有の構文規則は、時間に関する動詞活用（例えば、過去形を意味するために動詞の末尾に「ｅｄ」を追加すること）、複数対単数の活用（例えば、複数の名詞を意味するために「ｓ」を追加すること）などを定義し得る。

【0090】

そのような実施形態では、レーベンシュタインベースフィルタ１３３は、候補ユニグラム１２１Ａと語彙内ユニグラムとの間の単一文字編集又は変更の数を計算し、１つ以上の言語構文規則及び単一文字編集の数に基づいて、レーベンシュタイン距離値１３３Ａを計算し得る。

【0091】

上記の活用例に関して、レーベンシュタインベースのフィルタ１３３は、時間活用（例えば、過去形「ｅｖａｌｕａｔｅｄ」対現在形「ｅｖａｌｕａｔｅｓ」）及び／又は複数対単数活用（例えば、「ｐｒｅｓｃｒｉｐｔｉｏｎ」対「ｐｒｅｓｃｒｉｐｔｉｏｎｓ」）などに基づいて、候補ユニグラム１２１Ａを保存し得る。候補ユニグラム１２１Ａを保存するための他のそのような規則も実装され得る。

【0092】

当技術分野において既知である現在利用可能なレーベンシュタイン距離フィルタは、文字変化のタイプを区別しない場合があることが理解され得る。

【0093】

例えば、「ｎ」で置換された「ｍ」は、２つの文字の音声類似性に起因して、頻繁な誤りである可能性がある。対照的に、「ｄ」の「ｏ」での置換はそれほど頻繁に起こらない可能性がある。したがって、「ｍ」を「ｎ」で置換することは、「ｄ」を「ｏ」で置換することよりも、スペルミスを表す可能性が高い。別の例では、音声認識の現在利用可能なシステムにおける母音「ｉ」の誤った挿入は、子音「ｔ」の挿入よりも頻繁に発生する可能性があり、したがって、スペルミスを表す可能性が高い。

【0094】

いくつかの実施形態によれば、レーベンシュタインベースのフィルタ１３３は、そのような変更（例えば、置換、削除、及び／又は挿入）の頻度を考慮に入れ得、したがって、当技術分野において既知であるレーベンシュタイン距離フィルタに対する改善を提供し得る。例えば、ユニグラム抽出モジュール１３０は、（例えば、図６に関連して）本明細書で詳述されるように、グリーディデコーダトランスクリプション対人間トランスクリプションの文字レベルアライメントに基づいて変化確率１３３Ｃを計算することによって、文字の変化（例えば、置換、削除、及び／又は挿入）を定量化し得る。

【0095】

ここで図６を参照すると、図６は、本発明のいくつかの実施形態による、音声認識のためのシステムにおける英語アルファベットの文字の変化１３３Ｃ（例えば、置換及び／又は削除）の確率を描示する、ヒートマップの例である。

【0096】

図６のヒートマップの例は、数時間にわたる音響音声データ要素、及び対応するトランスクリプションに基づいて取得されている。各文字に対する変化確率１３３Ｃは、変化発生の頻度又は数と、音声データ要素２０のコーパスにおける文字の出現の総数との間の比として計算された。

【0097】

例えば、図６のヒートマップに示されるように、文字「ｚ」及び「ｓ」は、「ｑ」及び「ｃ」と同様に、高い置換確率を有する。別の例では、アポストロフィ（’）文字は、非常に大きい削除確率を有する。

【0098】

いくつかの実施形態によれば、レーベンシュタインベースフィルタ１３３は、候補ユニグラム１２１Ａと、言語モデル１６０Ａに既に含まれている少なくとも１つの語彙内ユニグラムとの間のレーベンシュタイン距離値１３３Ａを計算し得る。レーベンシュタイン距離値１３３Ａに寄与する各文字について、レーベンシュタインベースフィルタ１３３が基礎となる変化１３３Ｃの確率を計算し得る。レーベンシュタインベースフィルタ１３３は、レーベンシュタイン距離値１３３Ａに基づいて、更に、頻度スコア値１３３Ｂ及び／又は変化確率１３３Ｃに基づいて、スペルミス確率１３３Ｅを計算し得る。例えば、スペルミス確率１３３Ｅは、変化確率１３３Ｃによって重み付けされたレーベンシュタイン距離値１３３Ａの重み付けされた和として計算され得る。レーベンシュタインベースフィルタ１３３は、次いで、スペルミス確率１３３Ｅに基づいて、１つ以上の候補ユニグラム１２１Ａをフィルタリング除去し得る。

【0099】

表２の例（例えば、エントリ８及び９）に示されるように、グリーディデコーダは、２つの連続するユニグラム（例えば、単語）間のスペース又は「空白」の省略に起因して、スペルミスされた候補ユニグラム１２１Ａを生成し得る。例えば、グリーディデコーダ１２０は、「Ｔｈａｎｋｙｏｕ」などのスペルミスされた候補ユニグラム１２１Ａを生成するために、「Ｔｈａｎｋ」という単語と「ｙｏｕ」という単語との間の空白を省略し得る。

【0100】

いくつかの実施形態によれば、ユニグラム抽出モジュール１３０は、そのようなスペルミスされた候補ユニグラム１２１Ａを省略又はフィルタリング除去するように構成された欠落スペースフィルタモジュール１３５を含み得る。

【0101】

言い換えれば欠落スペースフィルタモジュール１３５１つ以上の候補ユニグラム１２１Ａについて、候補ユニグラム１２１Ａが言語モデル１６０Ａに既に含まれている２つのユニグラムの連結である尤度を表す、欠落スペース確率を計算し得る。欠落スペースフィルタモジュール１３５はその後、既定の閾値を超える欠落スペース確率１３５Ａに対応する候補ユニグラム１２１Ａをフィルタリング除去し得る。

【0102】

例えば、欠落スペースフィルタモジュール１３５は、（ａ）音声データ要素２０のコーパスにおける候補ユニグラム１２１Ａ（例えば、「Ｔｈａｎｋｙｏｕ」）の出現頻度、及び（ｂ）連結後の候補ユニグラム１２１Ａ（例えば、「Ｔｈａｎｋｙｏｕ」）と同じユニグラムを生成する連結バイグラム（例えば、「Ｔｈａｎｋ」及び「ｙｏｕ」などの連続ユニグラムからなる）の出現頻度を計算し得る。欠落スペースフィルタモジュール１３５は、これらの計算された出現頻度に基づいて、欠落スペース確率１３５Ａを計算し得、既定の閾値を超える欠落スペース確率に対応する候補ユニグラム１２１Ａをフィルタリング除去し得る。

【0103】

追加的に、又は代替的に、欠落スペースフィルタ１３５は候補ユニグラム１２１Ａのリストから、非連結ユニグラムの対応する組み合わせ（例えば、「Ｔｈａｎｋ」及び「ｙｏｕ」）よりも頻度が低い全ての「連結」候補ユニグラム１２１Ａ（例えば、「Ｔｈａｎｋｙｏｕ」）をフィルタリング除去し得る。この例では、そのようなフィルタリングの背後にある論理は、「Ｔｈａｎｋｙｏｕ」が音声データ要素２０のコーパスにおいて「Ｔｈａｎｋｙｏｕ」よりも頻繁に現れるという事実に依存しており、したがって、「Ｔｈａｎｋｙｏｕ」はおそらくスペルミスであり、除去されるべきである。

【0104】

いくつかの実施形態によれば、ユニグラム抽出モジュール１３０は、言語モデル１６０Ａの既知の語彙内に対ユニグラムを有しないが、候補ユニグラム１２１Ａのリスト内により頻繁な対候補ユニグラム１２１Ａを有する候補ユニグラム１２１Ａを省略又はフィルタリング除去するように構成された候補対フィルタモジュール１３７を含み得る。

【0105】

いくつかの実施形態によれば、候補対フィルタモジュール１３７は、候補ユニグラム１２１Ａの１つ以上の（例えば、それぞれの）対間の距離メトリック値（例えば、本明細書で詳述されるようなレーベンシュタイン距離値）を計算し得る。候補対フィルタモジュール１３７は、距離メトリック値に従って、例えば、既定の閾値を下回るレーベンシュタイン距離値を有する、１つ以上のそのような対を類似対として識別し得る。各類似対の各メンバ（例えば、候補ユニグラム１２１Ａ）について、候補対フィルタモジュール１３７は、音声データ要素２０のコーパスにおける出現頻度を計算し、その後、頻度の低いメンバを除去又はフィルタリング除去し得る。

【0106】

例えば、言語モデル１６０Ａは、最初に、ユニグラム（例えば、単語）「ｄｉａｂｅｔｅｓ」を欠いている場合がある。時間の経過とともに、候補ユニグラム１２１Ａのリストは、正しいユニグラム候補１２１Ａ「ｄｉａｂｅｔｅｓ」、及びスペルミスされたユニグラム候補１２１Ａ「ｄｉａｂｅｔｅ」を含むように進化し得る。この例では、候補対フィルタモジュール１３７は、候補ユニグラム１２１Ａのリストからスペルミスされた候補ユニグラム１２１Ａ「ｄｉａｂｅｔｅ」をフィルタリング除去又は省略し、本明細書で詳述されるように、更なる分析のために正しい候補ユニグラム１２１Ａ「ｄｉａｂｅｔｅｓ」を維持するように構成され得る。

【0107】

ここでまた図７を参照すると、この図は、ブロック図であり、本発明のいくつかの実施形態による、音声認識のためのシステム１００に含まれ得る、ユニグラム抽出モジュール１４０の別の例を描示する。

【0108】

図７の矢印は、ユニグラム抽出モジュール１４０のモジュール間のデータの流れ、及び／又はユニグラム抽出モジュール１４０への若しくはユニグラム抽出モジュール１４０からのデータの流れを表し得る。いくつかの矢印は、明確にするために省略されている。

【0109】

図７に示されるように、ユニグラム抽出モジュール１４０は、グリーディデコーダ１２０から候補ユニグラム１２１Ａの１つ以上（例えば、リスト）を受信し得、候補ユニグラム１２１Ａのリストにフィルタリングプロセスを適用して、１つ以上のフィルタリングされたユニグラム１４０Ａ及び対応するメタデータを取得し得る。

【0110】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、複数のテキスト文書４０を含み得る外部文書コーパスを（例えば、図１の入力デバイス７から）受信し得る。「外部」という用語は、この文脈では、文書４０が音声データ要素２０と同じ主題領域に属していない場合があり、システム１００によるトランスクリプションの結果でない場合があることを示すために使用され得る。

【0111】

各文書４０は、複数の文書ユニグラム（例えば、単語）４０Ａを含み得る。例えば、文書コーパスは、Ｗｉｋｉｐｅｄｉａ要約などの紙の要約である複数のオンライン文書４０を含み得、文書ユニグラム４０Ａは、Ｗｉｋｉｐｅｄｉａ要約に含まれる単語であり得る。本明細書で詳述されるように、ユニグラム抽出モジュール１４０は、テキスト文書４０のコーパスを利用して、グリーディデコーダ１２０によって生成されたどの候補ユニグラム１２１Ａが誤っている可能性が高いかを決定し、それらをフィルタリング除去し得る。

【0112】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、当技術分野において既知であるように、ｗｏｒｄ２ｖｅｃ埋め込みモデル１４２などの埋め込みモデル１４２を含み得る。

【0113】

埋め込みモデル１４２は、埋め込みベクトル１４２Ａを計算するか、又は発するために、グリーディデコーダ１２０によって生成されたユニグラムのコーパス（例えば、ユニグラム１２０Ａ、１２１Ａ）に基づいてトレーニングされ得る。言い換えれば、候補ユニグラム１２１Ａの各サンプルについて、埋め込みモデル１４２は、対応する候補ユニグラム１２１Ａの意味論的意味のベクトル表現であり得るか、又はそれを含み得る、埋め込みベクトル１４２Ａを生成し得る。

【0114】

本明細書で詳述されるように、ユニグラム抽出モジュール１４０は、グリーディデコーダ１２０及び文書４０のコーパスから来るノイズを低減するために、レーベンシュタイン距離、領域内スコア、及びユニグラム頻度とともに埋め込みベクトル類似性スコアを利用し得る。

【0115】

文書４０（例えば、Ｗｉｋｉｐｅｄｉａ要約）は、グリーディデコーダ１２０によって生成され得るユニグラム４０Ａ（例えば、単語）を含み得るが、それにもかかわらず、音声データ要素２０のトランスクリプションのコンテキストにおいて不正確であり得るので、そのようなツールの組み合わせが必要とされ得る。

【0116】

例えば、音声データ要素２０は、「ｇｏｉｎｇ」という単語を含む場合があり、この単語は、グリーディデコーダ１２０によって「ｇｏｎｇ」として誤って表記される場合があり、この「ｇｏｎｇ」自体は、外部文書４０のコーパス内に現れる場合がある、正しく綴られた単語である。この例によって、（ａ）十分に小さいレーベンシュタイン距離と、（ｂ）十分に大きい埋め込みベクトル類似性値又は領域内スコアとの組み合わせが、スペルミスされたユニグラムの可能性が高いことを示し得ることが明らかであり得る。

【0117】

言い換えれば、本明細書で詳述されるように、本発明の実施形態は、レーベンシュタイン距離値１３３Ａ、埋め込み類似性スコア１４２Ｂ、領域内スコア、及び出現頻度に基づいて、又はそれらの関数（例えば、重み付けされた和）として、スペルミス確率を計算し得る。

【0118】

ユニグラム抽出モジュール１４０によって実行されるユニグラムの抽出は、ユニグラム抽出モジュール１３０によって実行されるユニグラムの抽出と相補的であり得、ユニグラムの抽出と相乗的に動作し得ることが当業者によって理解され得る。

【0119】

例えば、ユニグラム抽出モジュール１３０は、十分に大きい外部文書４０のコーパスに依存しない場合がある。一方、ユニグラム抽出モジュール１４０は、候補ユニグラムの初期信頼レベル１２０Ａ’を（ユニグラム抽出モジュール１３０のために使用されるものに関して）低減することを可能にし得、したがって、より多くの候補が考慮されることを可能にし、発見された単語の最終セットを広げる。

【0120】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、文書ユニグラム４０Ａ及び／又は候補ユニグラム１２１Ａのシンタックスを処理又は整列するように構成された前処理モジュール１４１を含み得る。

【0121】

例えば、前処理モジュール１４１は、句読点又は特殊文字なしで、小文字化されるように外部文書４０（例えば、Ｗｉｋｉｐｅｄｉａ要約）を準備し得る。

【0122】

別の例では、前処理モジュール１４１は、候補ユニグラム１２１Ａ（例えば、「トラブルシュート」）のグリーディデコーダ結果コーパス内のコロケーションを見つけ、全ての見つけられたコロケーションされたユニグラムが下線（例えば、トラブルシュート）と「接着」されたコーパスのクローン１２１Ａ’を準備し得る。これは、音声データ要素２０のコーパスにおける共起対単一生起の頻度を分析し、次いで、既定の閾値に基づいて、コロケーションが見つかるかどうかを決定することによって行われ得る。

【0123】

いくつかの実施形態によれば、埋め込みモデル（例えば、ｗｏｒｄ２ｖｅｃモデル）１４２が、コーパスクローンユニグラム１２１Ａ’に基づいて、トレーニングされ、埋め込みベクトル１４２Ａを生成し得る。

【0124】

いくつかの実施形態によれば、システム１００は、本明細書において領域内ユニグラム及びバックグラウンドユニグラムと称され得る２つのタイプのユニグラムを区別し得る。「領域内」という用語は、この文脈において、システム１００が動作するように構成されている特定の主題領域内にあるユニグラムを示すために使用され得る。「バックグラウンド」という用語は、この文脈では、システム１００が動作するように構成されている特定の主題領域を超え得るユニグラムを示すために使用され得る。

【0125】

例えば、システム１００は、例えば製薬会社のコールセンターにおいて音声認識を実行するために配備され得る。そのような用途では、音声データ要素２０は、薬学及び医学の主題領域に関する議論を含み得る。この点に関して、領域内ユニグラムは、「ｉｎｓｕｌｉｎ」、「ｈｅａｒｔｒａｔｅ」、「ｌｅｕｋｏｃｙｔｅｓ」、「ｅｍｐｈｙｓｅｍａ」など、薬学及び医学の主題領域から取られた単語を含み得る。

【0126】

同じ例に関して、「ｈｅｌｌｏ」、「ｔｈａｎｋｓ」、「ｎｏ」、「ｎｏｔ」、「ｗｈａｔ」、「ｔｏｄａｙ」などの一般的なユニグラムは、いずれの主題領域に対して一意又は固有でなく、したがって、バックグラウンド領域又は領域外の単語などと称され得る。複数の主題領域にわたるそのような単語の出現の豊富さは、それらが音声データ要素２０の処理に無関係なデータを追加し得るという意味で、これらの単語を「ノイジー」にするものであることが理解され得る。追加的に、「ｍｏｒｔｇａｇｅ」及び「ｃｒｅｄｉｔ」など、銀行及び保険の主題領域から取られた単語は、薬学及び医学の主題領域に関する領域内ユニグラムではないので、バックグラウンド領域ユニグラムとみなされ得る。

【0127】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、バックグラウンドコーパス生成モジュール１４３（又は、略してバックグラウンドモジュール１４３）を含み得る。バックグラウンドモジュール１４３は、複数のバックグラウンドテキストコーパス２０Ｃ’を受信するように構成され得る。例えば、バックグラウンドテキストコーパス２０Ｃ’は、１つ以上の（例えば、複数の）バックグラウンド音声データ要素２０Ｃのトランスクリプションを介して取得される、複数のテキストデータ要素を含み得る。「バックグラウンド」という用語は、この文脈では、音声データ要素２０Ｃ及び／又は後続のテキストコーパス２０Ｃ’が音声データ要素２０の主題領域に関係しない可能性があることを示すために使用され得る。

【0128】

いくつかの実施形態によれば、バックグラウンドモジュール１４３は、受信されたテキストコーパス２０Ｃ’からの低頻度ユニグラムをフィルタリング除去し、バックグラウンドユニグラム１４３Ａのコーパスを生成し得る。そのようなフィルタリングの動機付けは、受信されたテキストコーパス２０Ｃ’におけるスペルミスされたユニグラムのフィルタリング（例えば、省略）であり得る。

【0129】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、グリーディデコーディングされたコーパス１２０Ａ内の各候補ユニグラム１２１Ａについて領域内スコア１４４Ａを計算するように適合された、領域内スコア計算器を含み得る。

【0130】

例えば、ユニグラム抽出モジュール１４０はまた、ユニグラム１２０Ａのグリーディデコーダコーパスにおける候補ユニグラム１２１Ａの第２の出現頻度を計算し得る。ユニグラム抽出モジュール１４０は、第２の出現頻度を文書又は音声データ要素２０の総数で正規化（例えば、除算）し得る。この出現頻度を、本明細書では、フォアグラウンド正規化文書頻度１４４Ｂと称され得る。ユニグラム抽出モジュール１４０は、バックグラウンドユニグラム１４３Ａのコーパスにおける候補ユニグラム１２１Ａの第１の出現頻度を計算し得る。ユニグラム抽出モジュール１４０は、受信されたテキストコーパス２０Ｃ’内の文書の総数で第１の出現頻度を正規化（例えば、除算）し得る。この出現頻度を、本明細書では、バックグラウンド正規化文書頻度１４４Ｃと称され得る。ユニグラム抽出モジュール１４０は、その後、フォアグラウンド正規化文書頻度１４４Ｂをバックグラウンド正規化文書頻度１４４Ｃで除算して、各候補ユニグラム１２１Ａの領域内スコア１４４Ａを取得し得る。

【0131】

本明細書で詳述されるように、グリーディデコーダ１２０は、各デコーディングされたユニグラム１２０Ａについて、信頼レベルメタデータ１２０Ａ’などのメタデータ要素１２０Ａ’を発し得る。いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、ユニグラム１２０Ａのグリーディデコーディングされたコーパスの各候補ユニグラム１２１Ａについて、信頼スコア１４９Ａを受信するように適合された、信頼スコアモジュール１４９を含み得る。信頼スコア１４９Ａは、例えば、各ユニグラムの平均信頼度を表し得る。これは、例えば、グリーディデコーディングされた出力におけるユニグラム１２０Ａの全ての発生を平均化し、それらの信頼レベルメタデータ１２０Ａ’の平均を計算することによって計算され得る。

【0132】

自然言語処理の分野において既知であるように、単語埋め込みベクトルは、ベクトルスペース内でより近い単語が意味において類似すると予想されるような、単語の意味論的意味のベクトル表現であり得る。単語埋め込みベクトルは、単語又はユニグラムの既定のコーパスに基づいて、埋め込みモデル（例えば、ＭＬベースのモデル）によって取得又は生成され得る。

【0133】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、候補ユニグラム１２１Ａ（又は１２１Ａ’）から複数の対組み合わせ１２２を生成し得、各対１２２は２つの候補ユニグラム１２１Ａを含み、各対は、候補ユニグラム対１２２のメンバ間の関係を定義する１つ以上の対メトリック値１２２Ａに関連付けられる。

【0134】

本明細書で詳述されるように、埋め込みモデル例えばｗｏｒｄ２ｖｅｃモデル）１４２は、少なくとも１つの第１の候補ユニグラム１２１Ａ（又は１２１Ａ’）について、候補ユニグラム１２１Ａ（又は１２１Ａ’）のコーパスに基づいて、第１の単語埋め込みベクトル１４２Ａを生成し、少なくとも１つの第２の候補ユニグラム１２１Ａ（又は１２１Ａ’）について、候補ユニグラム１２１Ａ（又は１２１Ａ’）のコーパスに基づいて、第２の単語埋め込みベクトル１４２Ａを生成し得る。

【0135】

いくつかの実施形態によれば、埋め込みモデル１４２は、候補ユニグラム１２１Ａ（又は１２１Ａ’）の１つ以上の（例えば、各）対１２２について、第１のユニグラム埋め込みベクトル１４２Ａ及び第２のユニグラム埋め込みベクトル１４２Ａに基づく類似性スコア１４２Ｂである対メトリック値１２２Ａを計算し得る。例えば、類似性スコア１４２Ｂは、候補ユニグラム１２１Ａの対の２つのメンバ間のコサイン類似度として計算され得る。いくつかの実施形態では、埋め込みモデル１４２は、埋め込みベクトル１４２Ａのみを生成し、かつ／又は信頼スコア１４９Ａに基づいて（例えば、既定の閾値を上回る信頼スコア１４９Ａを有する候補ユニグラム１２１Ａについて）、類似性スコア１４２Ｂを計算し得る。

【0136】

追加的に、又は代替的に、ユニグラム抽出モジュール１４０は、候補ユニグラム１２１Ａ（又は１２１Ａ’）の１つ以上の（例えば、各）対１２２について、本明細書で詳述されるように（例えば、図５に関連して）、レーベンシュタイン距離値である対メトリック値１２２Ａを計算し得る。

【0137】

追加的に、又は代替的に、ユニグラム抽出モジュール１４０は、候補ユニグラム１２１Ａ（又は１２１Ａ’）の１つ以上の（例えば、各）対１２２について、対１２２内の各メンバユニグラム１２１Ａのユニグラム出現頻度である対メトリック値１２２Ａを計算し得る。

【0138】

追加的に、又は代替的に、ユニグラム抽出モジュール１４０は、候補ユニグラム１２１Ａの１つ以上の（例えば、各）対１２２について、対１２２内の各ユニグラムメンバ１２１Ａについての領域内スコア１４４Ｃである、対メトリック値１２２Ａを計算し得る。本明細書で詳述されるように、ユニグラム抽出モジュール１４０は、複数の文書ユニグラム４０Ａに基づいて、領域内スコア１４４Ｃを計算し得、その結果、領域内スコア１４４Ｃは、候補ユニグラムが少なくとも１つの特定の領域に関連する尤度を表し得る。

【0139】

追加的に、又は代替的に、ユニグラム抽出モジュール１４０は、候補ユニグラム１２１Ａの１つ以上の（例えば、各）対１２２について、対１２２内の各ユニグラムメンバ１２１Ａについての信頼スコア（例えば、平均信頼レベル）である対メトリック値１２２Ａを計算し得る。

【0140】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、候補ユニグラム１４５Ａの初期リストを生成するために、対メトリック値１２２Ａ及び／又はそれぞれのユニグラムメタデータ１２０Ａ’に基づいて、候補ユニグラム１２１Ａ（又は１２１Ａ’）をフィルタリング除去するように適合された候補リスト生成器モジュール１４５を含み得る。言い換えれば、候補ユニグラム１４５Ａの初期リストは、本明細書で詳述されるように、フィルタリング除去された候補ユニグラム１２１Ａを除いて、グリーディデコーダ１２０によって取得された候補ユニグラム１２１Ａを含み得る。

【0141】

例えば、リスト生成器モジュール１４５は、既定の信頼閾値を下回る信頼スコア１４９Ａを有する、ユニグラム候補１２１Ａをフィルタリング除去し得る。追加的に、又は代替的に、リスト生成器モジュール１４５は、音声データ要素２０において既定の閾値を下回る出現カウント又は出現頻度を有する、ユニグラム候補１２１Ａをフィルタリング除去し得る。追加的に、又は代替的に、リスト生成器モジュール１４５は、文書ユニグラム４０Ａのコーパスに現れない、ユニグラム候補１２１Ａをフィルタリング除去し得る。追加的に、又は代替的に、リスト生成器モジュール１４５は、語彙内にある（例えば、言語モデル１６０Ａの語彙に含まれる）ユニグラム候補１２１Ａをフィルタリング除去し得る。

【0142】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、本明細書で詳述されるように、候補ユニグラムリスト１４５Ａのユニグラム候補１２１Ａをフィルタリング除去するように構成された、１つ以上のスペルミスフィルタ１４６を含み得る。

【0143】

第１のスペルミスフィルタ１４６は、候補ユニグラムリスト１４５Ａの候補ユニグラム１２１Ａを、共通単語（例えば、既定の閾値を下回る領域内スコア１４４Ｃを有する無領域単語）のスペルミスである可能性が高いものとしてフィルタリング除去するように構成され得るという意味で、共通単語スペルミスフィルタ１４６であり得る。

【0144】

本明細書で詳述されるように、「ｉｓ」、「ｍｅ」、「Ｉ」、「ｈａｖｅ」、「ｗｈｙ」などの共通（例えば、領域固有ではない）単語は、全てのコールセンター領域において同じ頻度を有し得る（ファッション、電気通信、製薬など）。詳細な実施形態では、領域内コーパスにおける関連語の出現頻度をバックグラウンドコーパスにおける出現頻度で除算することによって、領域内スコア１４４Ｃを正規化し得る。したがって、共通単語の領域内スコア１４４Ｃは、１．０に近い値を有し得る。

【0145】

いくつかの実施形態によれば、共通単語スペルミスフィルタ１４６は、少なくとも１つの第２の対になったユニグラム（例えば、対１２２）を有する第１のユニグラム候補１２１Ａを除去又はフィルタリング除去し得、第２の候補ユニグラム１２１Ａは、（ａ）既定の範囲値内にある（例えば、共通単語であると疑われる）領域内スコア１４４Ｃを有するか、又は既定の閾値を上回る信頼スコア（例えば、平均信頼レベル）を有し、（ｂ）第１の候補ユニグラム１２１Ａに対して既定の閾値を下回るレーベンシュタイン距離値を有する。

【0146】

別の例では、共通単語スペルミスフィルタ１４６は、少なくとも１つの第２の対になったユニグラム（例えば、対１２２）を有する第１のユニグラム候補１２１Ａを除去又はフィルタリング除去し得、第２の候補ユニグラム１２１Ａは、音声データ要素２０において第１のユニグラム候補１２１Ａよりも高い出現頻度を有する。

【0147】

追加的に、共通単語スペルミスフィルタ１４６は、言語固有の規則に基づいて、１つ以上のユニグラム候補１２１Ａ候補ユニグラムリスト１４５Ａを保存し得る。例えば、共通単語スペルミスフィルタ１４６は、複数の活用（例えば、ｃｏｎｃｅｒｔ対ｃｏｎｃｅｒｔｓ）を含むユニグラム候補１２１Ａ候補ユニグラムを保存し得る。

【0148】

第２のスペルミスフィルタ１４６は、候補ユニグラムリスト１４５Ａの候補ユニグラム１２１Ａを、領域内単語（例えば、既定の閾値を上回る領域内スコア１４４Ｃを有するユニグラム）のスペルミスである可能性が高いものとしてフィルタリング除去するように構成され得るという意味で、領域内単語スペルミスフィルタ１４６であり得る。

【0149】

例えば、領域内単語スペルミスフィルタ１４６は、少なくとも１つの第２の対になったユニグラム（例えば、対１２２）を有する第１のユニグラム候補１２１Ａを除去又はフィルタリング除去し得、（ａ）対の候補ユニグラム１２１Ａのメンバ間のレーベンシュタイン距離値が既定の閾値を下回り、（ｂ）第２の候補ユニグラム１２１Ａは、既定の閾値を上回る信頼スコア（例えば、平均信頼レベル）を有し、（ｃ）第２の候補ユニグラム１２１Ａは、音声データ要素２０において、第１のユニグラム候補１２１Ａよりも高い出現頻度（例えば、既定の係数だけ）を有する。

【0150】

いくつかの実施形態によれば、スペルミスフィルタ１４６は、１つ以上の対メトリック値１２２Ａに基づいて、１つ以上の候補ユニグラム１２１Ａのスペルミス確率１４６Ａを計算し得る。例えば、スペルミスフィルタ１４６は、レーベンシュタイン距離値１３３Ａ、埋め込み類似性スコア１４２Ｂ、領域内スコア１４４Ｃ、及び／又は出現頻度１４４Ｂの関数（例えば、重み付けされた和）としてスペルミス確率１４６Ａを計算し得る。その後、スペルミスフィルタ１４６は、スペルミス確率１４６Ａが既定の閾値を超える、候補ユニグラム１２１Ａをフィルタリング除去し得る。

【0151】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、残りの候補ユニグラム１２１Ａの各第１の候補ユニグラム１２１Ａについて（例えば、候補リスト生成器１４５及びスペルミスフィルタ１４６のフィルタリング後に）コンテキストベクトル１４７Ａを生成するように構成されたコンテキストベクトル生成器モジュール１４７を含み得る。

【0152】

例えば、特定の残りの各候補ユニグラム１２１Ａ（例えば、リスト生成器１４５及びスペルミスフィルタ１４６の前のステップの後に残っている）について、コンテキストベクトル生成器モジュール１４７は、候補ユニグラム１２１Ａ及び語彙内単語（例えば、言語モデル１６０Ａに既に存在するユニグラム）を含む音声データ要素２０から生じる、グリーディデコーダトランスクリプションユニグラム１２１Ａの和集合から取られたユニグラムの第１の中間リストを準備し得る。次いで、コンテキストベクトル生成器モジュール１４７は、第１の中間リストから、既定の閾値を下回る領域内スコア１４４Ｃを有する全てのユニグラムを除去して、第２の中間リストを生成し得る。コンテキストベクトル生成器モジュール１４７は、特定の候補ユニグラム１２１Ａと同じ音声データ要素２０に現れる全てのユニグラムの第３の中間リストを準備し得る。コンテキストベクトル生成器モジュール１４７は、その後、第２の中間リストを第３の中間リストと交差させ、複製をドロップし得る。この交差の結果は、本明細書では、特定の候補ユニグラム１２１Ａに関するコンテキストベクトル１４７Ａと称され得る。

【0153】

コンテキストベクトル１４７Ａは、特定の候補ユニグラム１２１Ａの同じコンテキストに関連する複数のユニグラムを含むリストであり得ることが理解され得る。

【0154】

例えば、システム１００の実験的アプリケーションは、候補ユニグラム１２１Ａ「ｒｏｄｅｏ」が、「ｃｈｉｃａｇｏ」、「ｃｌｕｂ」、「ｃｏｎｃｅｒｔ」、「ｃｏｗｂｏｙ」、「ｇａｍｅ」、「ｖｅｎｕｅ」、「ｆｅａｔｕｒｉｎｇ」、「ｇａｒｄｅｎ」などのユニグラムを含み得る、コンテキストベクトル１４７Ａを有し得ることを示している。コンテキストベクトル１４７Ａの各ユニグラムは、上述した既定の閾値を上回る領域内スコアを有する。

【0155】

スポーツ主題領域からの別の実験例では、候補ユニグラム１２１Ａ「ｄｏｄｇｅｒｓ」は、「ａｎｇｅｌｓ」、「ｂａｓｅｂａｌｌ」、「ｂｏｓｔｏｎ」、「ｃｈｉｃａｇｏ」、「ｃｕｂｓ」、「ｇａｍｅ」、「ｆａｍｅ」、「ｒｅｄｓ」、「ｓｅａｓｏｎ」、「ｓｔａｄｉｕｍ」、「ｙａｎｋｅｅｓ」などを含むコンテキストベクトル１４７Ａをもたらした。

【0156】

医薬品主題領域からの別の実験例では、候補ユニグラム１２１Ａ「ｉｎｊｅｃｔｉｏｎ」は、「ａｂｓｏｒｂｅｄ」、「ａｄｍｉｎｉｓｔｅｒ」、「ｂｌｏｏｄ」、「ｄｏｓｅ」、「ｄｒｕｇ」、「ｎｅｅｄｌｅ」、「ｐｕｎｃｔｕｒｅ」、「ｍｅｄｉｃｉｎｅ」、「ｓｕｂｓｔａｎｃｅ」、「ｓｙｒｉｎｇｅｓ」、「ｌｏｃａｌｉｚｅｄ」などを含むコンテキストベクトル１４７Ａをもたらした。

【0157】

いくつかの実施形態によれば、ユニグラム抽出モジュール１４０は、正確性スコア計算モジュール１４８を含み得る。正確性スコア計算モジュール１４８は、候補ユニグラムのそれぞれのコンテキストベクトル１４７Ａに基づいて、残りの候補ユニグラム１２１Ａの各候補ユニグラム１２１Ａについて（例えば、候補リスト生成器１４５及びスペルミスフィルタ１４６のフィルタリング後に）、正確性スコア１４８Ａを計算するように適合され得る。

【0158】

例えば、各特定の候補ユニグラム１２１Ａに対して、正確性スコア計算モジュール１４８は、特定の候補ユニグラム１２１Ａを含む文書コーパス４０内の全ての文書（例えば、Ｗｉｋｉｐｅｄｉａ要約）にわたって反復し得る。

【0159】

各反復において、正確性スコア計算モジュール１４８は、関連文書４０からの一意のユニグラム４０Ａのセットを、候補ユニグラム１２１Ａのコンテキストベクトル１４７Ａと交差させ得る。本明細書で説明するように、コンテキストベクトル又はコンテキストリスト１４７Ａは、（ａ）既定の閾値を超える領域内スコア１４４Ｃを有し、（ｂ）１つ以上の音声データ要素２０Ａ（例えば、そこから特定の候補ユニグラム１２１Ａが取得された）に現れる文書ユニグラム４０Ａのサブセットを含み得る。

【0160】

言い換えれば、各文書４０について、正確性スコア計算モジュール１４８は、文書内及びコンテキストリスト又はコンテキストベクトル１４７Ａ内に現れるユニグラムを含み得る交差グループを取得し得る。正確性スコア計算モジュール１４８は、その後、各文書について、交差グループ内の文書ユニグラムの領域内スコア１４４Ｃに基づいて、文書に対する候補ユニグラムの関連性を表す正確性スコアを計算し得る。

【0161】

例えば、正確性スコア計算モジュール１４８は、交差したユニグラムの領域内スコア１４４Ｃを合計することによって、正確性スコア１４８Ａを計算し得る。追加的に、正確性スコア計算モジュール１４８は、例えば、正確性スコア１４８Ａに、交差内のユニグラムの数の平方根（例えば、４０Ａ）を乗算することによって、計算された正確性スコア１４８Ａを正規化し得る。反復を通して、正確性スコア計算モジュール１４８は、最高又は最大正確性スコア１４８Ａ値（例えば、全ての文書４０の中で最大）、及び対応する文書４０の識別を維持し得る。

【0162】

いくつかの実施形態によれば、正確性スコア計算モジュール１４８は、残りの候補ユニグラム１２１Ａのうちの１つ以上（例えば、各々）について最大正確性スコア１４８Ａ及び対応する文書４０を見つけることに進み得る。次いで、正確性スコア計算モジュール１４８は、既定の閾値を下回る最大正確性スコアに対応する候補ユニグラム１２１Ａをフィルタリング除去（例えば、除外）し得る。

【0163】

例えば、正確性スコア計算モジュール１４８は、候補ユニグラム１２１Ａを、それらの正確性スコア１４８Ａに基づいて降順にソートし、特定の閾値を下回るテールを除去し得る。それぞれが最良コンテキスト一致文書４０に現れる候補ユニグラムのこのソートされたリストは、単語の正しさに関する指示を提供し得ることが理解され得る。

【0164】

例えば、バイオ薬学の主題領域における候補ユニグラム１２１Ａ評価の実験結果は、候補ユニグラム１２１Ａの以下のリストを、それらの対応する正確性スコア１４８Ａとともに生成した：「ｐｒｅｓｃｒｉｂｅｄ」－１９６２８、「ｉｎｇｒｅｄｉｅｎｔ」－１５５４０、「ｄｏｓｅ」１５０４２、「ｐｒｏｓｔａｔｅ」－１０５４１、「ｓｙｒｉｎｇｅ」－８６８１、「ａｎｔｉｂｉｏｔｉｃｓ」－８２８４、「ａｎｘｉｅｔｙ」－８４７７、「ｋｉｄｎｅｙｓ」－８０４６など。

【0165】

別の例では、チケット（例えば、スポーツイベント、劇場、オペラなどのチケット）を転売する主題領域における候補ユニグラム１２１Ａ評価の実験結果は、候補ユニグラム１２１Ａの以下のリストを、対応する正確性スコア１４８Ａとともにもたらした：「ｐｅｒｆｏｒｍａｎｃｅｓ」－５４３９、「ｙａｎｋｅｅｓ」－４４７１、「ｃｕｂｓ」－３８０３、「ａｎｇｅｌｓ」－３８０３、「ｓｔａｄｉｕｍ」－３８０３、「ｒｅｄｓ」－３４８１、「ｒｏｄｅｏ」－３２６９、「ｄｏｄｇｅｒｓ」－２５７４、「ｂｒａｖｅｓ」－２５１１、「ｃｏｎｃｅｒｔｓ」－２４１２、「ｐｌａｙｏｆｆ」－２１８２、「ｎａｔｉｏｎａｌｓ」－１８６９など。

【0166】

ユニグラム抽出モジュール１４０は、上位スコアの候補ユニグラム１２１Ａ（例えば、最も高い正確性スコア１４８Ａを有する）を選択又は識別し得る。これらのユニグラムは、本明細書では識別されたユニグラム１４０Ａと称される。識別されたユニグラム１４０Ａ（識別されたユニグラム１３０Ａと同様）は、次いで、本明細書で詳述されるように、言語モデル１６０Ａを向上させるために更に分析され得る。

【0167】

ここで再び、図４を参照する。いくつかの実施形態によれば、かつ、例えば、図３及び／又は図４に関連して本明細書で詳述されるように、システム１００は、ｎグラム拡張モジュール１５０を含み得る。Ｎグラム拡張モジュール１５０は、音声データ要素２０から少なくとも１つのｎグラム１５０Ａを抽出するために、識別されたユニグラム１３０Ａ及び／又は１４０Ａを考慮して、音声データ要素２０を分析するように構成され得る。少なくとも１つのｎグラム１５０Ａは、１つ以上の識別されたユニグラム１３０Ａ／１４０Ａを含み得る。

【0168】

本明細書で詳述されるように、グリーディデコーダ１２０は、１つ以上の（例えば、各）生成されたユニグラムについて、信頼レベル又は信頼スコアを表すユニグラムメタデータ１２０Ａ’要素を計算し得る。

【0169】

いくつかの実施形態によれば、ｎグラム拡張モジュール１５０は、グリーディデコーダトランスクリプションにおけるユニグラム１２０Ａの発生を分析し得る。１つ以上の識別された候補ユニグラム１３０Ａ／１４０Ａ、ｎ－グラム拡張モジュール１５０は、音声データ要素２０において、候補ユニグラム１３０Ａ／１４０Ａを含む、隣接ユニグラムのｎ－グラムを位置特定し得る。

【0170】

いくつかの実施形態によれば、１つ以上の候補ユニグラムについて１３０Ａ／１４０Ａ、ｎグラム拡張モジュール１５０は、音声データ要素２０において、候補ユニグラム１３０Ａ／１４０Ａを含む、隣接ユニグラムのｎグラムを位置特定し得る。言い換えれば、ｎグラム拡張モジュール１５０は、（グリーディデコーディングされたユニグラム１２０Ａのシーケンスである）音声データ要素２０のグリーディエンコーダ１２０のトランスクリプションを検索して、デコーディングされたユニグラム１２０Ａのシーケンス内の識別されたユニグラム１３０Ａ及び／又は１４０Ａを見つけ得る。

【0171】

Ｎグラム拡張モジュール１５０は、識別されたユニグラム１３０Ａ及び／又は１４０Ａを、本明細書で詳述されるように、拡張検索アルゴリズムにおける「アンカー」ユニグラムとして使用し得る。「アンカー」という用語は、この文脈では、拡張検索プロセスの開始をマークし得る、識別されたユニグラム（例えば、１３０Ａ及び／又は１４０Ａ）を示すために使用され得る。

【0172】

Ｎグラム拡張モジュール１５０は、音声データ要素２０内に識別されたユニグラム１３０Ａ及び／又は１４０Ａを含む、ユニグラム１２０Ａ（例えば、単語）のシーケンスを見つけるように構成され得る。これらのユニグラムのシーケンス１２０Ａは、本明細書では抽出されたｎグラム１５０Ａと称される。その後、Ｎグラム拡張モジュール１５０は、抽出された少なくとも１つのｎグラム１５０Ａを含むように、言語モデル１６０Ａを更新し得る。

【0173】

いくつかの実施形態によれば、その名前によって示されるようにＮグラム拡張モジュール１５０は、アンカーユニグラム１３０／１４０から開始して、グリーディエンコーダ１２０によって取得されたユニグラム１２０Ａのシーケンスにおいて、拡張検索のプロセスを実行し得る。「拡張」という用語は、停止条件が満たされるまで、アンカーユニグラム１３０／１４０から少なくとも１つの方向にユニグラム１２０Ａのシーケンスを拡張することによってｎグラムが構成され得ることを示すために、本明細書で使用され得る。

【0174】

例えば、グリーディデコーダ１２０から取得されたユニグラムのシーケンス１２０Ａ内のアンカー識別されたユニグラム１３０Ａ／１４０Ａから開始して、拡張検索は、両方向に次のユニグラム（例えば、単語）に（例えば、ユニグラムのシーケンス１２０Ａ内の前のユニグラムに、及びユニグラムのシーケンス１２０Ａ内の後続の単語に）進むことが可能である。

【0175】

（ａ）次のユニグラム１２０Ａが、既定の閾値を上回る信頼値メタデータ１２０Ａ’を有し、（ｂ）次のユニグラム１２０Ａも、識別されたユニグラム１３０Ａ／１４０Ａのグループに含まれ、かつ／又は言語モデル１６０Ａに含まれる場合、次のユニグラム１２０Ａは、拡張ｎグラム１５０Ａに追加又はマージされる。次のユニグラム１２０Ａが上記の条件（ａ）及び（ｂ）を満たさない場合、停止条件は関連する方向で満たされ、拡張検索プロセスは、その方向で停止される。停止条件が両方向で満たされる場合、拡張検索プロセスは、関連するアンカー識別されたユニグラム１３０Ａ／１４０Ａについて終了され、ｎグラム１５０Ａの拡張が停止される。次いで、Ｎグラム拡張モジュール１５０は、グリーディデコーディングされたトランスクリプションユニグラム１２０Ａのシーケンス内の次のアンカー識別されたユニグラム１３０Ａ／１４０Ａに進み得る。

【0176】

上記で詳述される拡張検索プロセスは、ｎグラム１５０Ａ内の全てのユニグラム又は単語が、既定の閾値よりも大きい信頼レベル１２０Ａ’を有し得、したがって、正しく綴られる可能性が高いことを保証し得ることが理解され得る。これは、ｎグラム１５０Ａが正しい確率を増加させる追加のフィルタとして機能する。

【0177】

したがって、いくつかの実施形態によれば、（ａ）拡張ｎグラム１５０Ａのユニグラム１２０Ａが既定の閾値を超える信頼レベル１２０Ａ’に対応し、（ｂ）拡張ｎグラム１５０Ａが少なくとも既定の閾値数のユニグラムを含む場合、言語モデルビルダ１６０は、抽出された少なくとも１つのｎグラム１５０Ａを含むように、言語モデル１６０Ａを更新し得る。そうでない場合、候補ユニグラム１３０Ａ／１４０Ａは、候補ユニグラムのコーパスからフィルタリングされ得、言語モデル１６０Ａに導入されない場合がある。

【0178】

いくつかの実施形態によれば、Ｎグラム拡張モジュール１５０は、ｎグラム１５０Ａの長さを単語の最大値又は長さに制限し得る。例えば、Ｎグラム拡張モジュール１５０は、ｎグラム１５０Ａの長さをアンカーユニグラムに関連して各方向において６単語に制限し得、１３単語の最大ｎグラム長（アンカーユニグラムを含む）をもたらす。

【0179】

追加的に、又は代替的に、ｎグラム拡張モジュール１５０は、ｎグラム１５０Ａの長さを最小値、例えば３単語の長さに制限し得る。そのような制限は、ｎグラム１５０Ａがｎグラム内のメンバユニグラム間のコンテキスト関係を維持し得ることを保証し得る。

【0180】

いくつかの実施形態によれば、Ｎグラム拡張モジュール１５０は、逐語的に同一のｎグラムの量を制限し得る。これは、全ｎグラムを、抽出された語彙外ユニグラムを含む言語モデルに寄与する。

【0181】

いくつかの実施形態によれば、Ｎグラム拡張モジュール１５０は、グリーディデコーディングされたユニグラム１２０Ａのシーケンスから「そのまま」ｎグラム１５０Ａを抽出する方法に加えて、スペルミスされている可能性が高いユニグラムアンカー出現１３０Ａ／１４０Ａを訂正することによって、より多くのｎグラムを復元し得る。

【0182】

例えば、Ｎグラム拡張モジュール１５０は、ユニグラム１５１Ａのリストを準備するために、図７のスペルミスフィルタ（単数又は複数）１４６と協働し、表２のような類似性テーブルを利用し得る。ユニグラム１５１Ａのリストは、誤ってスペルミスされたユニグラムを含み、ユニグラムアンカー１３０Ａ／１４０Ａをもたらし得る。

【0183】

ユニグラム１５１Ａは、例えば、それらの相互埋め込み類似性スコア１４２Ｂ（例えば、ｗｏｒｄ２ｖｅｃ類似性スコア）が既定の閾値（例えば、０．７）を上回り、それらの相互レーベンシュタイン距離値１３３Ａが既定の閾値（例えば、２）を下回るという意味で、少なくとも１つのアンカーユニグラム１３０Ａ／１４０Ａに類似するユニグラムを含み得る。１つ以上の（例えば、各）アンカーユニグラム出現１３０Ａ／１４０Ａについて、ｎグラム拡張モジュール１５０は、元の正しく綴られたユニグラム１５１Ａへのマッピング１５１Ｂを維持し得る。ｎグラム１５０Ａが抽出されると、ｎグラム拡張モジュール１５０は、マッピング１５１Ｂを使用して、アンカーユニグラム出現１３０Ａ／１４０Ａを正確に綴られたユニグラムバージョン１５１Ａで置換し得る。スペルミスの可能性のあるアンカーユニグラム１３０Ａ／１４０Ａが複数の正しく綴られたユニグラムバージョン１５１Ａに対応する場合、ｎグラム拡張モジュール１５０は、最も高い相互埋め込み類似性スコア１４２Ｂに対応するものを選択し得る。例えば、「ａｎｋｅｅｓ」は、埋め込み類似性スコア１４２Ｂ（例えば、ｗｏｒｄ２ｖｅｃ類似性スコア）が０．８５３であり、レーベンシュタイン距離値が１であるため、「ｙａｎｋｅｅｓ」のスペルミスの可能性が高い。

【0184】

適切に訂正されない場合、誤ったｎグラム１５０Ａ抽出をもたらし得る、アンカーユニグラム１３０／１４０分割の場合があり得ることに留意されたい。例えば、「トラブルシュート」などのユニグラムは、「トラブル」及び「シュート」に分割され得る。「トラブル」は、それ自体で正当な（例えば、正しく綴られた）ユニグラムアンカーとして機能し得、他のコンテキストで見られ得る（例えば、必ずしも「シュート」が後に続くわけではない）が、それは依然として誤ったアンカーである可能性がある。

【0185】

いくつかの実施形態によれば、分割ユニグラムのそのようなケースを訂正するために、ｎグラム拡張モジュール１５０は、抽出されたｎグラム１５１Ａを後処理し得る。この後処理において、ｎグラム拡張モジュール１５０は、ｎグラム１５０Ａ内の１つ以上の（例えば、各）バイグラム１５１Ｃ（例えば、連続するユニグラム）を融合し、各融合されたバイグラム１５１Ｃを別々に分析し得る。例えば、バイグラムは、連続するユニグラム「ｒｅｃ」及び「ｔａｎｇｌｅ」を含み得る。後続の融合バイグラム１５１Ｃは「ｒｅｃｔａｎｇｌｅ」であり得る。融合バイグラム１５１Ｃが既存の（例えば、言語モデル１６０Ａに既に含まれている）正当な（例えば、正しく綴られた）ユニグラムを形成する場合、事前融合ユニグラムの対の代わりに融合バイグラム１５１Ｃを含むように、ｎ－グラム１５０Ａを変更し得る。

【0186】

バイグラム（例えば、２つの連続するユニグラム）の融合がスペルミスされたユニグラムアンカーを形成し得る場合があり得ることに留意されたい。そのような条件では、ｎグラム拡張モジュール１５０は、図７のスペルミスフィルタ（単数又は複数）１４６と協働し、バイグラム融合プロセスにステップを追加して、融合されたバイグラム１５１Ｃがスペルミスされたアンカー１３０Ａ／１４０Ａを形成するかどうかをチェックし得る。いくつかの実施形態によれば、これは、（例えば、図７の前処理モジュール１４１に関連して）本明細書で詳述されるコロケーション下線を追加することが利用され得る場合である。コロケーション下線が識別され、類似性テーブル（例えば、テーブル２）に挿入され得る。次いで、スペルミスフィルタ（単数又は複数）１４６は、下線記号を除去し得、置換１５１Ａのためのオプションのユニグラムとして結果を挿入し得る。

【0187】

例えば、候補ユニグラム１２１Ａ「ｒｅｃｋ」及び「ｔａｎｇｌｅ」は、前処理モジュール１４１によってコロケーションとして識別され得、統合された候補ユニグラム「ｒｅｃｋ＿ｔａｎｇｌｅ」１２１Ａを取得するために融合され得る。スペルミスフィルタ（単数又は複数）１４６は、以下のプロセスに従って、候補ユニグラム「ｒｅｃｋ＿ｔａｎｇｌｅ」１２１Ａを、後にユニグラムアンカー１３０Ａ／１４０Ａとして発見され得る類似のユニグラム「ｒｅｃｔａｎｇｌｅ」を有する類似性テーブル（例えば、テーブル２）に挿入し得る。（ａ）スペルミスフィルタ１４６は、「ｒｅｃｋｔａｎｇｌｅ」を生成するために「ｒｅｃｋ＿ｔａｎｇｌｅ」内の下線を除去し得、（ａ）スペルミスフィルタ（単数又は複数）１４６は、１５１Ｂ「ｒｅｃｋｔａｎｇｌｅ」を、正しく綴られたユニグラム１５１Ａ「ｒｅｃｔａｎｇｌｅ」に関連付けられたものとしてマッピングし得、（ｃ）ｎグラム拡張モジュール１５０は、「ｒｅｃｋｔａｎｇｌｅ」を含むｎグラムを後処理し得、２つの構成要素を融合して、融合バイグラム１５１Ｃ「ｒｅｃｋｔａｎｇｌｅ」を形成し得、（ｄ）「ｒｅｃｋｔａｎｇｌｅ」は、正しく綴られたユニグラム形式１５０Ａ「ｒｅｃｋｔａｎｇｌｅ」にマッピングされる（１５１Ｂ）ので、ｎグラム拡張モジュール１５０は、「ｒｅｃｋｔａｎｇｌｅ」を「ｒｅｃｔａｎｇｌｅ」で置換し得、正しく綴られたｎグラム１５１Ａをもたらす。

【0188】

いくつかの実施形態によれば、ｎグラム拡張モジュール１５０は、新たに抽出されたｎグラム１５０Ａを、音響トランスクリプション２０Ｂの既存のインハウステキストコーパスに追加し得る。例えば、インハウス音響トランスクリプション２０Ｂは、特定の主題領域（例えば、銀行業務、健康、スポーツなど）に関する議論専用のコールセンターのトランスクリプションを含み得、ここで、新たに識別された正しく綴られた単語を含む新たに抽出されたｎグラム１５０Ａで更新され得る。

【0189】

追加的に、ｎグラム拡張モジュール１５０は、新たに抽出されたｎグラム１５０Ａを、既定の優先度を表し得る何らかの重み付けされた値２０Ｂ’とともに、音響トランスクリプション２０Ｂに追加し得る。例えば、重み２０Ｂ’は、日付の優先度を意味し得る（例えば、最新の議論が以前の議論よりも関連性が高いと重み付けされている）。別の例では、重み２０Ｂ’は、主題の優先度を示し得る（例えば、緊急事態の問題は、非緊急事態の問題よりも関連性が高いと重み付けされる）。他の重み付けされた値２０Ｂ’も実装され得る。

【0190】

いくつかの実施形態によれば、ｎグラム拡張モジュール１５０は、ｎグラム言語モデルビルダモデル１６０（又は、略して「ビルダ１６０」）と協働し得る。ビルダ１６０は、ｎグラム拡張モジュール１５０から新たに抽出されたｎグラム１５０Ａを受信し得、追加された新たに抽出されたｎグラム１５０Ａを含むように、言語モデル１６０Ａを再構築又は再コンパイルし得る。次いで、システム１００は、入力音声データ要素２０Ａのトランスクリプション１００Ａを生成するために、（例えば、図２に関連して）本明細書で詳述されるように、新しい言語モデル１６０Ａとともにビームデコーダ１７０を使用することに進み得る。

【0191】

いくつかの実施形態によれば、システム１００は、抽出されたｎグラム１５０Ａを教師データとして利用して、音声データ要素２０に基づいて音響モデル１１０のトレーニングを自動的に再トレーニング又は微調整し得る。言い換えれば、システム１００は、新たに発見された単語の発話を含むトレーニングデータセットを使用してニューラルネットワーク１１０を自動的に微調整して、音声データ要素２０内のこれらの単語の将来の認識を容易にし得る。

【0192】

いくつかの実施形態によれば、グリーディデコーダ１２０は、デコーディングされたユニグラム１２０Ａごとに、音声データ要素２０内のユニグラム１２０Ａの発話の時間スタンプであるメタデータ要素を生成し得る。Ｎグラム拡張モジュール１５０は、時間スタンプメタデータ１２０Ａ’に基づいて、１つ以上の抽出されたｎグラム１５０Ａについて、少なくとも１つの対応するスニペット時間スタンプ１５０Ｂを生成し得る。例えば、スニペット時間スタンプ１５０Ｂは、音声データ要素２０内のｎグラム１５０Ａの先頭の時間スタンプ（例えば、ｎグラム１５０Ａ内の第１のユニグラム１２０Ａの時間スタンプ１２０Ａ’）を含み得る。別の例では、スニペット時間スタンプ１５０Ｂは、音声データ要素２０内のｎグラム１５０Ａの末尾の時間スタンプ（例えば、ｎグラム１５０Ａ内の最後のユニグラム１２０Ａの末尾の時間スタンプ１２０Ａ’）を含み得る。

【0193】

Ｎグラム拡張モジュール１５０は、人工ニューラルネットワーク（ＡＮＮ）精緻化モジュール１８０と協働し得る。ＡＮＮ精緻化モジュール１８０は、１つ以上の抽出されたｎグラム１５０Ａ及び対応するスニペット時間スタンプ１５０Ｂ（例えば、開始時間及び終了時間）を受信し得、抽出されたｎグラム１５０Ａをフィルタリングして、既定の期間（例えば、２．５秒の長さ）より長いｎグラム１５０Ａのグループを生成し得る。

【0194】

ＡＮＮ精緻化モジュール１８０は、抽出されたｎグラム１５０Ａ（ここでは、音響音声データ要素２０のスニペットのトランスクリプションである）を、音響トランスクリプション２０Ｂのインハウスコーパスに含み得る。次いで、ＡＮＮ精緻化モジュール１８０は、音響音声データ要素２０のスニペット（時間スタンプ１５０Ｂによって定義される）に基づいて、追加された抽出ｎグラム１５０Ａを教師データとして使用して、音響モデル１１０を再トレーニングし得る。

【0195】

追加的に、ＡＮＮ精緻化モジュール１８０は、この新しい教師データに基づいて音響モデル１１０の再トレーニングを高めるために、追加された抽出ｎグラム１５０Ａに重みを帰属させ得る。ＡＮＮ精緻化モジュール１８０は、いくつかのエポック（例えば、１０）について、この混合データセットを用いて音響モデル１１０のトレーニングを微調整し得る。そのようなトレーニングは、抽出されたｎグラム１５０Ａ内の単語の想起をかなり上昇させ得ることが実験的に示されている。

【0196】

加えて、全体的な単語誤り率利得は、ターゲットグループセットに対する最良の改善で停止した場合にも相当であることが実験的に示されている。それは、最後のモデルを取るときに依然として重要である（しかしそれほど重要ではない）。テスト中に、発話（例えば、ユニグラムアンカーのうちの少なくとも１つを含む発話）のサブセットの単語誤り率は、以前はかなり高かった全体の単語誤り率とほぼ同じ値に低下される。これは、語彙外の単語は、最初はニューラルネットワークが正しく認識されるのが「より困難」であるが、ニューラルネットワークに導入されると、既知の語彙の残りの部分と同様に「よく知られる」ようになることを示唆している。

【0197】

ここで図８を参照すると、この図は、流れ図であり、本発明のいくつかの実施形態による、音声認識のためのシステムの少なくとも１つのプロセッサによって、音声データ要素内のユニグラムを自動的に発見する方法を描示する。

【0198】

ステップＳ１００５に示されるように、少なくとも１つのプロセッサ（例えば、図１の要素２）は、複数のｎグラムを含み得る、言語モデル１６０Ａを受信し得る。そのような各ｎグラムは、１つ以上のユニグラムを含み得る。

【0199】

ステップＳ１０１０に示されるように、少なくとも１つのプロセッサ２は、音響機械学習モデル（例えば、図２の音響モデル１１０）を１つ以上の第１の音声データ要素（例えば、図４の音声要素２０）に適用して、文字分布関数（例えば、図２の特性分布要素１１０Ａ）を取得し得る。

【0200】

ステップＳ１０１５及びＳ１０２０に示されるように、少なくとも１つのプロセッサ２は、ユニグラムの初期コーパス（例えば、図３の要素１２０Ａ）を予測するために、文字分布関数１１０Ａに対してグリーディデコーダ（例えば、図４のグリーディデコーダ１２０）を適用し得る。少なくとも１つのプロセッサ２は、初期コーパス１２０Ａの１つ以上のユニグラムをフィルタリング除去して、言語モデル１６０Ａに含まれていない、候補ユニグラム（例えば、図３の要素１２１Ａ、１３０Ａ、１４０Ａ）のコーパスを取得し得る。

【0201】

ステップＳ１０２５に示されるように、また、（例えば、図３～図７に関連して）本明細書で詳述されるように、少なくとも１つのプロセッサ２は、１つ以上の第１の音声データ要素２０を分析して、候補ユニグラム（例えば、１２１Ａ、１３０Ａ、１４０Ａ）を含む少なくとも１つのｎグラム（例えば、図４の要素１５０Ａ）を抽出し得る。

【0202】

ステップＳ１０３０及び１０３５に示されるように、少なくとも１つのプロセッサ２は、抽出された少なくとも１つのｎグラム１５０Ａを含むように、言語モデル１６０Ａを更新し得る。少なくとも１つのプロセッサ２は、その後（例えば、推論段階において）、少なくとも１つの第２の音声データ要素２０にビームデコーダ（例えば、図２のビームデコーダ１７０）を適用して、更新された言語モデル１６０Ａに基づいて、第２の音声データ要素２０の少なくとも１つの対応するトランスクリプションを生成し得る。

【0203】

明示的に述べられない限り、本明細書で説明される方法実施形態は、特定の順序又はシーケンスに制約されない。更に、本明細書に説明される全ての式は、例としてのみ意図され、他の又は異なる式が使用され得る。追加的に、説明される方法実施形態又はその要素のうちのいくつかは、同じ時点で発生し得るか、又は実行され得る。

【0204】

本発明の特定の特徴が本明細書に例解及び説明されてきたが、多くの修正、置換、変更、及び均等物が当業者に想起され得る。したがって、添付の特許請求の範囲は、本発明の真の精神の範囲内に入る全てのそのような修正及び変更を包含することが意図されていることを理解されたい。

【0205】

様々な実施形態が提示されてきた。これらの実施形態の各々は、当然ながら、提示される他の実施形態からの特徴を含み得、具体的に説明されていない実施形態は、本明細書に説明される種々の特徴を含み得る。

【図1】