特開2025-8853 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特開2025-8853音声認識システム、音声認識方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025008853

(43)【公開日】2025-01-20

(54)【発明の名称】音声認識システム、音声認識方法およびプログラム

(51)【国際特許分類】

G10L 15/16 20060101AFI20250109BHJP

G10L 15/10 20060101ALI20250109BHJP

G10L 15/18 20130101ALI20250109BHJP

【ＦＩ】

G10L15/16

G10L15/10 300G

G10L15/18 300G

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023111421

(22)【出願日】2023-07-06

(71)【出願人】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】李勝

(57)【要約】（修正有）

【課題】大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供する。
【解決手段】音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第１の学習済み推論モデル（ＳＳＬモデル２０）と、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力する第２の学習済み推論モデル（大規模言語モデル３０）と、第１の学習済み推論モデルの第１推論出力２２と、第２の学習済み推論モデルの出力であって、第１推論出力に対応する第２推論出力３２とを単語単位で乗算する乗算器２６と、を含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第２の学習済み推論モデルに入力される。
【選択図】図３

【特許請求の範囲】

【請求項1】

音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第１の学習済み推論モデルと、
１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力する第２の学習済み推論モデルと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算する乗算器とを備え、
前記乗算器の出力である新たな確率分布に基づき選択した単語が、前記第２の学習済み推論モデルに入力される、音声認識システム。

【請求項2】

前記乗算器の出力は、音声認識システムの認識出力として利用される、請求項１に記載の音声認識システム。

【請求項3】

前記第２の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みである、請求項１または２に記載の音声認識システム。

【請求項4】

前記第２の学習済み推論モデルは、前記対象言語の方言データを用いてファインチューニングされている、請求項３に記載の音声認識システム。

【請求項5】

コンピュータが実行する音声認識方法であって、
第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第２の学習済み推論モデルに入力するステップとを備える、音声認識方法。

【請求項6】

音声認識を行うためのプログラムであって、コンピュータに、
第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、
第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、
前記第１の学習済み推論モデルの第１推論出力と、前記第２の学習済み推論モデルの出力であって、前記第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、
前記乗算の結果得られる新たな確率分布に基づき選択した単語を前記第２の学習済み推論モデルに入力するステップとを実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識システム、音声認識方法およびプログラムに関する。

【背景技術】

【0002】

ＡＳＲ（Automatic Speech Recognition）のアプリケーションの一例として、大規模に学習された大規模言語モデルを含む音声認識を行うシステムが公知である。大規模言語モデルとして、代表的には、エンコーダベースのモデルと、デコーダベースのモデルとが存在する。

【0003】

エンコーダベースのモデルとして、例えば、ＢＥＲＴ（非特許文献１など参照）やＴｒａｎｓｆｏｒｍｅｒの双方向エンコーダ（非特許文献２など参照）などが知られている。デコーダベースのモデルとして、例えば、ＧＰＴ－２（非特許文献３など参照）や、一方向性Ｔｒａｎｓｆｏｒｍｅｒデコーダ）などが知られている。

【0004】

大規模言語モデルは、主として、エラー訂正、モデル圧縮、再スコアリング、マルチモーダルアプリケーションなどに用いることもできる。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805, 2018.

【非特許文献2】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, Attention is all you need, Proc. NeurlPS 30 (2017).

【非特許文献3】A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., "Language models are unsupervised multitask learners," OpenAI blog, vol. 1, no. 8, p. 9, 2019.

【発明の概要】

【発明が解決しようとする課題】

【0006】

上述したような大規模言語モデルは、ベクトルのシーケンスの入力に対して対応するベクトルのシーケンスを出力するように設計されている。このようなシーケンス・トゥ・シーケンスの設計を前提として、センテンス単位（文単位）で処理する、大規模言語モデルを含む音声認識システムが提案されている。

【0007】

本発明は、大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供することを目的とする。

【課題を解決するための手段】

【0008】

ある実施の形態に従う音声認識システムは、音声信号に含まれる単語に対応するトークンをトークン単位で出力することのできる第１の学習済み推論モデルと、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力する第２の学習済み推論モデルと、第１の学習済み推論モデルの第１推論出力と、第２の学習済み推論モデルの出力であって、第１推論出力に対応する第２推論出力とを単語単位で乗算する乗算器とを含む。乗算器の出力である新たな確率分布に基づき選択した単語が、第２の学習済み推論モデルに入力される。

【0009】

乗算器の出力は、音声認識システムの認識出力として利用されてもよい。
第２の学習済み推論モデルは、音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みであってもよい。

【0010】

第２の学習済み推論モデルは、対象言語の方言データを用いてファインチューニングされていてもよい。

【0011】

別の実施の形態に従うコンピュータが実行する音声認識方法は、第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、第１の学習済み推論モデルの第１推論出力と、第２の学習済み推論モデルの出力であって、第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、乗算の結果得られる新たな確率分布に基づき選択した単語を第２の学習済み推論モデルに入力するステップとを含む。

【0012】

さらに別の実施の形態に従えば、音声認識を行うためのプログラムが提供される。プログラムは、コンピュータに、第１の学習済み推論モデルを用いて、音声信号に含まれる単語に対応するトークンをトークン単位で出力するステップと、第２の学習済み推論モデルを用いて、１または複数のトークンの入力に基づく推論によって、対応する１または複数のトークンを出力するステップと、第１の学習済み推論モデルの第１推論出力と、第２の学習済み推論モデルの出力であって、第１推論出力に対応する第２推論出力とを単語単位で乗算するステップと、乗算の結果得られる新たな確率分布に基づき選択した単語を第２の学習済み推論モデルに入力するステップとを実行させる。

【発明の効果】

【0013】

本発明によれば、大規模言語モデルを利用して、より推論精度の高い音声認識システムを提供できる。

【図面の簡単な説明】

【0014】

【図1】関連技術に従う音声認識システムのモデル構成の一例を示す模式図である。

【図2】図１に示す乗算器による乗算処理の一例を説明するための図である。

【図3】本実施の形態に従う音声認識システムのモデル構成の一例を示す模式図である。

【図4】本実施の形態に従う音声認識システムにおける処理例を説明するための図である。

【図5】本実施の形態に従う音声認識システムのモデル構成の別の一例を示す模式図である。

【図6】本実施の形態に従う音声認識システムにおける処理例を説明するための図である。

【図7】本実施の形態に従う音声認識システムを実現するハードウェア構成例を示す模式図である。

【図8】本実施の形態に従う音声認識システムにおける処理手順例を示すフローチャートである。

【図9】本実施の形態に従う音声認識システムにおける処理手順例を示すフローチャートである。

【発明を実施するための形態】

【0015】

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

【0016】

［Ａ．モデル構成］
本実施の形態に従う音声認識システムのモデル構成について説明する。

【0017】

図１は、関連技術に従う音声認識システム３のモデル構成の一例を示す模式図である。
まず、図１を参照して、本実施の形態を理解するための基本的な考え方を説明する。音声認識システム３は、入力シーケンス４に含まれる各単語に対応するトークン６を最終的に算出するＳＳＬ（Self-Supervised Learning：自己教師あり学習）モデル２０と、トークン６を入力として、単語シーケンスを最終的に出力する大規模言語モデル３０とを含む。

【0018】

ＳＳＬモデル２０は、自動音声認識（ＡＳＲ）タスクのためのモデルである。ＳＳＬモデル２０は、第１の学習済み推論モデルに相当し、音声信号に含まれる単語に対応するトークンをトークン単位で出力する。ＳＳＬモデル２０は、音声信号の入力から特徴量を抽出する多層のＣＮＮ（Convolutional Neural Network）を含む。

【0019】

ＳＳＬモデル２０は、例えば、エンコーダベースのモデルであってもよく、Ｗｏｒｄ２Ｖｅｃ（Ｗ２Ｖ）などを用いることができる。

【0020】

音声認識システム３には、システム全体で共通に参照される語彙辞書（図示せず）が存在する。語彙辞書には、音声認識の処理の単位である単語（トークン化される単位）が登録されている。登録されている各単語には、各単語を特定するための識別情報（以下、「単語ＩＤ」とも称す。）が割り当てられている。出力されるセンテンスは、認識された単語自体の列であってもよいが、処理の都合上、語彙辞書において各単語に割り当てられている単語ＩＤの列とすることが好ましい。図１に示す音声認識システム３においては、ＳＳＬモデル２０から大規模言語モデル３０へは、語彙辞書において定義された単語ＩＤが出力される。なお、単語ＩＤに基づいて語彙辞書を参照することにより、対応する単語自体をいつでも取り出すことができる。

【0021】

ＳＳＬモデル２０は、ラベル無し音声を用いたＳＳＬに基づく事前学習により生成できる。また、ラベルありデータを用いて、ＣＴＣ（Connectionist Temporal Classification）アルゴリズムに従って、ＳＳＬモデル２０はファインチューニングされている。そのため、ＳＳＬモデル２０の推論出力２２（１または複数のトークン６）は、ＰｒｏｂＣＴＣと表記されている。

【0022】

ＳＳＬモデル２０の推論出力２２は、音声認識結果を示し、語彙辞書に含まれる単語についての確率分布である。ａｒｇｍａｘ層２４は、推論出力２２に含まれる最大の確率をもつ単語（単語ＩＤ）を最終的な音声認識結果（トークン６）として出力する。順次出力される１または複数のトークン６がセンテンス８（１文に相当する）となる。

【0023】

大規模言語モデル３０は、エンコーダベースのモデル（例えば、ＢＥＲＴなど）であってもよいし、デコーダベースのモデル（例えば、ＧＰＴ－２やその後継モデルなど）であってもよい。大規模言語モデル３０は、ＳＳＬモデル２０による音声認識の対象言語のコーパスを用いて、少なくとも入力シーケンスに対する次の単語を予測するタスクを事前学習済みである。

【0024】

さらに、大規模言語モデル３０は、ＳＳＬモデル２０による音声認識の対象言語の方言データを用いてファインチューニングされていてもよい。例えば、後述するように、中国語（簡体字）のコーパスを用いて事前学習した上で、中国語（簡体字）－中国語（繁体字）データセットを用いてファインチューニングされていてもよい。

【0025】

大規模言語モデル３０は、ＳＳＬモデル２０から出力されるセンテンス８の入力に対して、センテンス８に含まれる各単語の次に存在する単語についての確率を出力する。大規模言語モデル３０は、第２の学習済み推論モデルに相当し、センテンス８（１または複数のトークン６）の入力に基づく推論によって、対応する１または複数のトークンを出力する。大規模言語モデル３０の推論出力３２は、ＳＳＬモデル２０の推論出力２２と同様、語彙辞書に含まれる単語についての確率分布である。そのため、大規模言語モデル３０の推論出力３２は、ＰｒｏｂＰＬＭと表記されている。

【0026】

乗算器３４は、ＳＳＬモデル２０の推論出力２２（単語についての確率分布）と大規模言語モデル３０の推論出力３２（単語についての確率分布）とを乗算して、乗算結果１０を出力する。乗算結果１０は、ＳＳＬモデル２０の推論出力２２および大規模言語モデル３０の推論出力３２と同様、語彙辞書に含まれる単語についての確率分布である。乗算器３４は、ＳＳＬモデル２０の推論出力２２と、大規模言語モデル３０の出力のうち、推論出力２２に対応する推論出力３２とを単語単位で乗算する。

【0027】

図２は、図１に示す乗算器３４による乗算処理の一例を説明するための図である。図２を参照して、乗算器３４による乗算処理の一例について、さらに詳しく説明する。

【0028】

図２において、推論出力２２は、入力シーケンス４のある位置におけるＳＳＬモデル２０が出力する単語についての確率分布を示す。推論出力２２において、語彙辞書に含まれるすべての単語について、確率が算出されている。図２において、推論出力３２は、入力シーケンス４の同じ位置における大規模言語モデル３０が出力する単語についての確率分布を示す。

【0029】

単語単位で推論出力２２と推論出力３２とを乗算して得られる乗算結果１０は、語彙辞書に含まれるすべての単語について、新たな確率分布を示す。確率は、０～１の間の値をとるため、推論出力２２および推論出力３２において、相対的に大きな値の確率をもつ単語は、相対的に小さな値の確率をもつ単語より大きな値を乗算結果１０において示す。その結果、ＳＳＬモデル２０の推論出力２２は、大規模言語モデル３０の推論出力３２により補正されることになる。

【0030】

図１および図２に示すように、ＳＳＬモデル２０の推論出力２２を大規模言語モデル３０の推論出力３２により補正することで、推論精度を高めることができる。

【0031】

図１および図２には、大規模言語モデル３０としてＧＰＴ－２を用いる例を示すが、大規模言語モデル３０としてＢＥＲＴを用いた場合も同様に、推論精度を高めることができる。

【0032】

図３は、本実施の形態に従う音声認識システム１のモデル構成の一例を示す模式図である。図３を参照して、音声認識システム１は、図１に示す音声認識システム３に比較して、乗算器３４に代えて乗算器２６を含む。図３には、大規模言語モデル３０として、ＧＰＴ－２またはその後継モデルを用いた構成例を示す。

【0033】

乗算器２６は、ＳＳＬモデル２０の推論出力２２（単語についての確率分布）と大規模言語モデル３０の推論出力３２（単語についての確率分布）とを乗算して、乗算結果を出力する。乗算結果は、ＳＳＬモデル２０の推論出力２２および大規模言語モデル３０の推論出力３２と同様、語彙辞書に含まれる単語についての確率分布である。乗算器２６は、ＳＳＬモデル２０の推論出力２２と、大規模言語モデル３０の出力のうち、推論出力２２に対応する推論出力３２とを単語単位で乗算する。

【0034】

図３に示す音声認識システム１においては、現時点のステップｔ＋１におけるＳＳＬモデル２０の推論出力と、１つ前のステップ（ステップｔ）における大規模言語モデル３０の推論出力とを組み合わせた結果を、大規模言語モデル３０に入力することで、現時点のステップｔ＋１の推論出力を得る。

【0035】

このように、乗算器２６の出力である新たな確率分布に基づき選択した単語が、大規模言語モデル３０に入力される。

【0036】

このように、先に得られたそれぞれのモデルの推論出力を順次フィードバックすることで、大規模言語モデル３０に入力するトークンの精度を向上でき、その結果、大規模言語モデル３０の推論精度を高めることができる。

【0037】

図４は、本実施の形態に従う音声認識システム１における処理例を説明するための図である。図４を参照して、音声認識システム１における処理例について、さらに詳しく説明する。

【0038】

図４においては、処理のステップごとに、ＳＳＬモデル２０の出力の状態（ＰｒｏｂＣＴＣ＆Ｃｏｍｂｉｎｅ＆ａｒｇｍａｘ）と、大規模言語モデル３０の出力の状態および大規模言語モデル３０への入力をマスクするための信号（以下、「マスク信号」とも称す。）の状態（ＰｒｏｂＰＬＭ－ＧＰＴ）が示されている。

【0039】

図４に示す例では、１つのセンテンスは４つの単語を含む。以下の説明において、確率分布Ｐについて、ＳＳＬモデル２０の推論出力を下付き文字「Ｓ」を用いて表記し、大規模言語モデル３０の推論出力を下付き文字「Ｌ」を用いて表記する。また、確率分布Ｐについて、どのステップの状態の確率分布であるかを上付き文字を用いて表記する。例えば、「Ｐ_Ｓ ^１」は、ステップ（ｒ＝１）におけるＳＳＬモデル２０の推論出力２２であることを示す。

【0040】

図４を参照して、まずステップ（ｒ＝１）においては、大規模言語モデル３０の推論出力３２が得られていないため、予め定められたダミー値（Ｐ_Ｌ ^１＝１）が用いられる。その結果、乗算器２６は、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^１をそのまま出力する。ＳＳＬモデル２０の確率分布Ｐ_Ｓ ^１がそのままａｒｇｍａｘ層２４に与えられる。ａｒｇｍａｘ層２４において、確率分布Ｐ_Ｓ ^１に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語シーケンスの最初の単語ｈ^１として出力される。出力された単語ｈ^１は、音声認識結果として利用されるとともに、大規模言語モデル３０の入力としても利用される。すなわち、乗算器２６の出力は、音声認識システム１の認識出力として利用される。

【0041】

大規模言語モデル３０には、文頭を示すトークン「ＣＬＳ」が単語ｈ¹の前にｈ^０として付加された、ｈ^０（ＣＬＳ）ｈ^１が入力される。このとき、このときマスク信号として、［１１００］が用いられる。マスク信号［１１００］に従って、大規模言語モデル３０は、ｈ^０（ＣＬＳ）ｈ^１を用いて２番目の単語を推論する。すなわち、大規模言語モデル３０は、センテンスの２番目の単語についての確率分布Ｐ_Ｌ ^２を出力する。

【0042】

次のステップ（ｒ＝２）においては、ＳＳＬモデル２０は、２番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^２を出力する。乗算器２６は、ＳＳＬモデル２０の確率分布Ｐ_Ｓ ^２と、先のステップにおいて算出された大規模言語モデル３０の確率分布Ｐ_Ｌ ^２（２番目の単語の推論出力）とを乗算する。ａｒｇｍａｘ層２４において、乗算結果（新たな確率分布）に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語ｈ^２として出力される。出力された単語ｈ^２は、音声認識結果として利用されるとともに、大規模言語モデル３０の入力としても利用される。

【0043】

大規模言語モデル３０には、文頭を示すトークン「ＣＬＳ」が単語ｈ¹の前にｈ^０として付加された、ｈ^０（ＣＬＳ）ｈ^１ｈ^２が入力される。このとき、このときマスク信号として、［１１１０］が用いられる。マスク信号［１１００］に従って、大規模言語モデル３０は、ｈ^０（ＣＬＳ）ｈ^１ｈ^２を用いて３番目の単語を推論する。すなわち、大規模言語モデル３０は、センテンスの３番目の単語についての確率分布Ｐ_Ｌ ^３を出力する。

【0044】

次のステップ（ｒ＝３）においては、ＳＳＬモデル２０は、３番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^３を出力する。乗算器２６は、ＳＳＬモデル２０の確率分布Ｐ_Ｓ ^３と、先のステップにおいて算出された大規模言語モデル３０の確率分布Ｐ_Ｌ ^３（３番目の単語の推論出力）とを乗算する。ａｒｇｍａｘ層２４において、乗算結果（新たな確率分布）に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語ｈ^３として出力される。出力された単語ｈ^３は、音声認識結果として利用されるとともに、大規模言語モデル３０の入力としても利用される。

【0045】

大規模言語モデル３０には、文頭を示すトークン「ＣＬＳ」が単語ｈ¹の前にｈ^０として付加された、ｈ^０（ＣＬＳ）ｈ^１ｈ^２ｈ^３が入力される。このとき、このときマスク信号として、［１１１０］が用いられる。マスク信号［１１１０］に従って、大規模言語モデル３０は、ｈ^０（ＣＬＳ）ｈ^１ｈ^２ｈ^３を用いて４番目の単語を推論する。すなわち、大規模言語モデル３０は、センテンスの４番目の単語についての確率分布Ｐ_Ｌ ^４を出力する。

【0046】

次のステップ（ｒ＝４）においては、ＳＳＬモデル２０は、４番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^４を出力する。乗算器２６は、ＳＳＬモデル２０の確率分布Ｐ_Ｓ ^４と、先のステップにおいて算出された大規模言語モデル３０の確率分布Ｐ_Ｌ ^４（４番目の単語の推論出力）とを乗算する。ａｒｇｍａｘ層２４において、乗算結果（新たな確率分布）に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語ｈ^４として出力される。出力された単語ｈ^４は、音声認識結果として利用される。

【0047】

次に、大規模言語モデルとしてＢＥＲＴを用いる例について説明する。
図５は、本実施の形態に従う音声認識システム２のモデル構成の別の一例を示す模式図である。図５を参照して、音声認識システム２は、図３に示す音声認識システム１と同様に、乗算器２８を含む。図５には、大規模言語モデル３６として、ＢＥＲＴを用いた構成例を示す。

【0048】

図３に示す音声認識システム１と同様に、音声認識システム２においては、ＳＳＬモデル２０の推論出力２２は、大規模言語モデル３６の推論出力３８により補正されて、大規模言語モデル３６に入力されることで、単語単位で処理が実行される。

【0049】

すなわち、乗算器２８は、ＳＳＬモデル２０の推論出力２２（単語についての確率分布）と大規模言語モデル３６の推論出力３８（単語についての確率分布）とを乗算して、乗算結果を出力する。乗算結果は、ＳＳＬモデル２０の推論出力２２および大規模言語モデル３６の推論出力３８と同様、語彙辞書に含まれる単語についての確率分布である。乗算器２６は、ＳＳＬモデル２０の推論出力２２と、大規模言語モデル３６の出力のうち、推論出力２２に対応する推論出力３８とを単語単位で乗算する。乗算器２６の出力である新たな確率分布に基づき選択した単語が、大規模言語モデル３６に入力される。

【0050】

このように、先に得られたそれぞれのモデルの推論出力を順次フィードバックすることで、大規模言語モデル３６に入力するトークンの精度を向上でき、その結果、大規模言語モデル３６の推論精度を高めることができる。

【0051】

図６は、本実施の形態に従う音声認識システム２における処理例を説明するための図である。図６を参照して、音声認識システム２における処理例について、さらに詳しく説明する。

【0052】

図６においては、図４と同様に、処理のステップごとに、ＳＳＬモデル２０の出力の状態（ＰｒｏｂＣＴＣ＆Ｃｏｍｂｉｎｅ＆ａｒｇｍａｘ）と、大規模言語モデル３６の出力の状態および大規模言語モデル３６への入力をマスクするための信号（マスク信号）の状態（ＰｒｏｂＰＬＭ－ＧＰＴ）が示されている。

【0053】

図６に示す例では、１つのセンテンスは４つの単語を含む。確率分布Ｐについては、図４と同様である。

【0054】

図６を参照して、まずステップ（ｒ＝１）においては、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^１が得られる。確率分布Ｐ_Ｓ ^１は、１番目の単語の音声認識結果である。この段階では、大規模言語モデル３６の推論出力３８が得られていないため、予め定められたダミー値（Ｐ_Ｌ ^１＝１）を用いて、確率分布Ｐ_Ｓ ^１と確率分布Ｐ_Ｌ ^１とが乗算される。この乗算によって、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^１が補正される（ただし、この段階では、実質的な補正は行われず、確率分布Ｐ_Ｓ ^１がそのまま出力される）。ａｒｇｍａｘ層２４において、乗算結果（確率分布Ｐ_Ｓ ^１）に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語シーケンスの最初の単語ｈ^１として出力される。出力された単語ｈ^１は、音声認識結果として利用される。すなわち、乗算器２８の出力は、音声認識システム２の認識出力として利用される。

【0055】

次のステップ（ｒ＝２）においては、ＳＳＬモデル２０は、２番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^２を出力する。先のステップ（ｒ＝１）において、推論された単語ｈ^１が得られているので、大規模言語モデル３６には、文頭を示すトークン「ＣＬＳ」を単語ｈ^０として単語ｈ^１の前に付加された結果、および、マスク信号［１０１１］が入力される。この入力に対して、大規模言語モデル３６の推論出力である確率分布Ｐ_Ｌ ^２が得られると、乗算器２８は、確率分布Ｐ_Ｓ ^２と確率分布Ｐ_Ｌ ^２とを乗算する。この乗算によって、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^２が補正される。ａｒｇｍａｘ層２４は、補正後の確率分布Ｐ_Ｓ ^２に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語シーケンスの２番目の単語ｈ^２として出力する。出力された単語ｈ^２は、音声認識結果として利用される。

【0056】

次のステップ（ｒ＝３）においては、ＳＳＬモデル２０は、３番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^３を出力する。先のステップにおいて、推論された単語ｈ^１および単語ｈ^２が得られているので、大規模言語モデル３６には、文頭を示すトークン「ＣＬＳ」としての単語ｈ^０と単語ｈ^１、単語ｈ^２を連結した結果、および、マスク信号［１１０１］が入力される。この入力に対して、大規模言語モデル３６の推論出力である確率分布Ｐ_Ｌ ^３が得られると、乗算器２８は、確率分布Ｐ_Ｓ ^３と確率分布Ｐ_Ｌ ^３とを乗算する。この乗算によって、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^３が補正される。ａｒｇｍａｘ層２４は、補正後の確率分布Ｐ_Ｓ ^３に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語シーケンスの３番目の単語ｈ^３として出力する。出力された単語ｈ^３は、音声認識結果として利用される。

【0057】

次のステップ（ｒ＝４）においては、ＳＳＬモデル２０は、４番目の単語の音声認識結果である確率分布Ｐ_Ｓ ^４を出力する。先のステップにおいて、推論された単語ｈ^１、単語ｈ^２および単語ｈ^３が得られているので、大規模言語モデル３６には、文頭を示すトークン「ＣＬＳ」としての単語ｈ^０と単語ｈ^１、単語ｈ^２、単語ｈ^３を連結した結果、および、マスク信号［１１１０］が入力される。この入力に対して、大規模言語モデル３６の推論出力である確率分布Ｐ_Ｌ ^４が得られると、乗算器２８は、確率分布Ｐ_Ｓ ^４と確率分布Ｐ_Ｌ ^４とを乗算する。この乗算によって、ＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^４が補正される。ａｒｇｍａｘ層２４は、補正後の確率分布Ｐ_Ｓ ^４に含まれる最大の確率をもつ単語（単語ＩＤ）が選択され、単語シーケンスの４番目の単語ｈ^４として出力する。出力された単語ｈ^４は、音声認識結果として利用される。

【0058】

次に、上述した処理について、数式を用いて、一般化して説明する。１つのセンテンスがＲ個の単語を含む場合を想定する。単語単位で処理する場合には、初期状態を含めて、（Ｒ＋１）回の処理が必要となる。

【0059】

大規模言語モデル３０としてＧＰＴ－２を用いた場合には、ｒ番目の単語の音声認識結果をｈ^ｒ（ただし、１≦ｒ≦ｔ）とすると、ｒ番目の単語のＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^ｒとｒ番目の単語の大規模言語モデル３０の推論出力Ｐ_Ｌ ^ｒとを用いて、（１）式のように示すことができる。

【0060】

大規模言語モデル３０には、現時点のステップまでに出力された単語シーケンスが入力される。大規模言語モデル３０に入力される単語シーケンスＨ_Ｌ ^ｒは、（２）式のように示すことができる。次のステップにおける大規模言語モデル３０の推論出力である確率分布Ｐ_Ｌ ^ｔ＋１は、（３）式のように示すことができる。なお、Θ_Ｌは、大規模言語モデル３０を示す。

【0061】

【数1】

【0062】

大規模言語モデル３６としてＢＥＲＴを用いた場合には、ｒ番目の単語の音声認識結果をｈ^ｒは、ｒ番目の単語のＳＳＬモデル２０の推論出力２２である確率分布Ｐ_Ｓ ^ｒとｒ番目の単語の大規模言語モデル３６の推論出力Ｐ_Ｌ ^ｒとを用いて、（４）式のように示すことができる。また、大規模言語モデル３６に入力される単語シーケンスＨ_Ｌ ^ｒは、（５）式のように示すことができる。

【0063】

【数2】

【0064】

以下のＴａｂｌｅ１には、大規模言語モデル３０としてＧＰＴ－２を用いた場合（ｅｘａｍｐｌｅＧＰＴ）、および、大規模言語モデル３６としてＢＥＲＴを用いた場合（ｅｘａｍｐｌｅＢＥＲＴ）の各々において、順次出力される結果および対応するマスク信号の例を示す。なお、Ｔａｂｌｅ１には、主として台湾で使用される中国語の発話を音声認識する例を示す。そのため、大規模言語モデルは、繁体字中国語の単語からなる推論出力を出力する。

【0065】

【表1】

【0066】

Ｔａｂｌｅ１において、ｓｔｅｐ０～ｓｔｅｐ５の各々に対応する行には、大規模言語モデルに入力されるシーケンスに含まれる１または複数の単語を示す。

【0067】

大規模言語モデル３０としてＧＰＴ－２を用いた場合には、各ステップにおいて処理される単語および当該単語に先行して得られた処理結果を含むトークン列が大規模言語モデル３０に入力される。

【0068】

一方、大規模言語モデル３６としてＢＥＲＴを用いた場合には、ＳＳＬモデル２０から出力されるトークン列のうち、推論対象となるトークンをマスクしたものが大規模言語モデル３６に入力される。

【0069】

［Ｂ．評価例］
次に、本実施の形態に従う音声認識システムによる認識精度についての評価例について説明する。以下の評価例においては、台湾アクセントの発話音声に対する自動音声認識（ＡＳＲ）タスクを想定する。台湾アクセントの発話音声は、中国語の標準語（Mandarin）に類似しているが、語彙において大きな相違が存在し得る（http://old-site.clsp.jhu.edu/ws04/groups/ws04casrなどを参照）。

【0070】

Common Voice（https://commonvoice.mozilla.org/zh-TW）のうち中国語（簡体字）－中国語（繁体字）データセット（Zh-Tw dataset）を用いて、ファインチューニングされるとともに評価されたモデルを用いた。ファインチューニングのデータセットとして、３．３時間分（３，５０７発話）を用いるとともに、テストには、２．９時間分（２，８９５発話）の大規模言語モデルを用いた。語彙サイズは、２１，１２８語である。発話入力として、１６ｋＨｚでサンプリングされたものを用いた。なお、データ制限により、使用されたデータセットのサイズが小さいので、テキストベースの大規模言語モデルに着目した。

【0071】

事前学習済みＳＳＬモデルとして、"wav2vec2-large-xlsr-533"（https://huggingface.co/facebook/wav2vec2-large-xlsr-53）を用いた。なお、ＳＳＬモデルは、中国語（簡体字）－中国語（繁体字）データセット（Zh-Tw dataset）を用いて、ファインチューニングされている。

【0072】

事前学習済み大規模言語モデルとして、ＧＰＴ－２の一例として、"gpt2-base-chinese"を用いるとともに、ＢＥＲＴの一例として、"bert-base-chinese"（https://github.com/ckiplab/ckip-transformers）を用いた。両モデルとも、中国語（簡体字）－中国語（繁体字）データセット（Zh-Tw dataset）のテキストを用いて、ファインチューニングされている。

【0073】

各モデルのパラメータは、以下のＴａｂｌｅ２にようになっている。

【0074】

【表2】

【0075】

モデルの評価指標としては、認識精度の一例として、字誤り率であるＣＥＲ（Character Error Rate）を用いるとともに、処理速度の指標であるＲＴＦ（Real-Time Factor）を用いた。以下のＴａｂｌｅ３に評価例を示す。Ｔａｂｌｅ３における矢印は、モデル同士のつながり（データの流れ）を示す。

【0076】

【表3】

【0077】

「ｂａｓｅｌｉｎｅ」（関連技術）および「ｐｒｏｐｏｓｅｄ」（本実施の形態）は、いずれも大規模言語モデルによる効果を示す。Ｔａｂｌｅ３に示すように、ＧＰＴ－２およびＢＥＲＴのいずれを用いた場合であっても、関連技術における指標を超える性能が発揮されていることが分かる。また、ＧＰＴ－２については、ファインチューニングすることで、より性能を高められることが分かる。

【0078】

処理速度についても、ＧＰＴ－２を用いた場合には、処理速度が低下することが示されているが、許容範囲内であると評価できる。また、ＢＥＲＴを用いた場合には、処理速度に実質的な影響はない。なお、並列処理を採用することで、処理速度を向上できる可能性がある。

【0079】

次に、本実施の形態に従う音声認識システムによる推論出力の一例を示す。以下のＴａｂｌｅ４には、２つの推論出力の例を示す。

【0080】

【表4】

【0081】

Ｔａｂｌｅ４のｅｘａｍｐｌｅ１に示す推論出力においては、ＳＳＬモデル２０（Ｗ２Ｖ）が出力するセンテンス内の３単語（２番目、６番目および７番目）に誤りが存在する。

【0082】

「ｂａｓｅｌｉｎｅ」（関連技術）によれば、大規模言語モデル３０において、２単語（２番目および６番目）が修正されるものの、１単語（７番目）には誤りが残っている。これに対して、「ｐｒｏｐｏｓｅｄ」（本実施の形態）によれば、センテンス内のすべての単語を正しく認識できている。

【0083】

同様に、Ｔａｂｌｅ４のｅｘａｍｐｌｅ２に示す推論出力においては、ＳＳＬモデル２０（Ｗ２Ｖ）が出力するセンテンス内の３単語（４番目、１０番目および１１番目）に誤りが存在する。

【0084】

「ｂａｓｅｌｉｎｅ」（関連技術）によれば、大規模言語モデル３０において、２単語（４番目および１１番目）が修正されるものの、１単語（１２番目）には誤りが残っている。これに対して、「ｐｒｏｐｏｓｅｄ」（本実施の形態）によれば、センテンス内のすべての単語を正しく認識できている。

【0085】

［Ｃ．ハードウェア構成例］
次に、本実施の形態に従う音声認識システムを実現するためのハードウェア構成例について説明する。

【0086】

図７は、本実施の形態に従う音声認識システムを実現するハードウェア構成例を示す模式図である。音声認識システムは、例えば、コンピュータの一例である情報処理装置１００を用いて実現される。

【0087】

図７を参照して、情報処理装置１００は、主要なハードウェアコンポーネントとして、ＣＰＵ（Central Processing Unit）１０２と、ＧＰＵ（Graphics Processing Unit）１０４と、主メモリ１０６と、ディスプレイ１０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）１１０と、入力デバイス１１２と、光学ドライブ１１４と、二次記憶装置１２０とを含む。

【0088】

ＣＰＵ１０２および／またはＧＰＵ１０４は、音声認識システムの実現に必要な処理を実行するプロセッサである。ＣＰＵ１０２およびＧＰＵ１０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

【0089】

主メモリ１０６は、プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）などの揮発性メモリデバイスなどで構成される。

【0090】

ディスプレイ１０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどで構成される。

【0091】

ネットワークインターフェイス１１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータをやり取りする。ネットワークインターフェイス１１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

【0092】

入力デバイス１１２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。入力デバイス１１２は、マイクなどの音声信号を収集するデバイスを含む。

【0093】

光学ドライブ１１４は、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの光学ディスク１１６に格納されている情報を読出して、他のコンポーネントへ出力する。光学ディスク１１６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１１４が光学ディスク１１６からプログラムを読み出して、二次記憶装置１２０などにインストールすることで、コンピュータが音声認識システムとして機能するようになる。したがって、本発明の主題は、二次記憶装置１２０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１１６などの記録媒体であってもよい。

【0094】

図７には、非一過的な記録媒体の一例として、光学ディスク１１６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（Magneto-Optical Disk）などの光磁気記録媒体を用いてもよい。

【0095】

二次記憶装置１２０は、コンピュータを情報処理装置１００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（Solid State Drive）などの不揮発性記憶装置で構成される。

【0096】

より具体的には、二次記憶装置１２０は、ＳＳＬモデルプログラム１２２と、大規模言語モデルプログラム１２４と、制御プログラム１２６と、ＯＳ（Operating System）１２８とを格納している。

【0097】

ＳＳＬモデルプログラム１２２は、ＳＳＬモデル２０を生成するためのコンピュータ読取可能命令を含む。大規模言語モデルプログラム１２４は、大規模言語モデル３０，３６を生成するためのコンピュータ読取可能命令を含む。制御プログラム１２６は、コントロールシグナルを生成し、大規模言語モデル３０，３６に入力するシーケンスを制御するための処理に対応するコンピュータ読取可能命令を含む。

【0098】

プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳ１２８が標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳ１２８の実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれる。

【0099】

また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

【0100】

図７には、単一のコンピュータを用いて情報処理装置１００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、音声認識システムを実現するようにしてもよい。

【0101】

プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などを用いて実現してもよい。

【0102】

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置１００を実現できるであろう。

【0103】

［Ｄ．処理手順例］
次に、本実施の形態に従う音声認識システム１の処理手順例について説明する。

【0104】

図８は、本実施の形態に従う音声認識システム１における処理手順例を示すフローチャートである。図８に示す各ステップは、情報処理装置１００のＣＰＵ１０２および／またはＧＰＵ１０４が、ＳＳＬモデルプログラム１２２と、大規模言語モデルプログラム１２４と、制御プログラム１２６とを実行することで実現されてもよい。

【0105】

図８を参照して、情報処理装置１００は、入力シーケンス４をＳＳＬモデル２０に入力する（ステップＳ１００）。ＳＳＬモデル２０からの推論出力２２（単語についての確率分布Ｐ_Ｓ）が得られると（ステップＳ１０２においてＹＥＳ）、情報処理装置１００は、前回の処理における大規模言語モデル３０からの推論出力３２（単語についての確率分布Ｐ_Ｌ）が存在するか否かを判断する（ステップＳ１０４）。

【0106】

前回の処理における大規模言語モデル３０からの推論出力３２が存在しなければ（ステップＳ１０４においてＮＯ）、情報処理装置１００は、確率分布Ｐ_Ｌに予め定められたダミー値（＝１）を設定する（ステップＳ１０６）。

【0107】

前回の処理における大規模言語モデル３０からの推論出力３２が存在すれば（ステップＳ１０４においてＹＥＳ）、または、ステップＳ１０６の実行後、情報処理装置１００は、今回の処理で得られた確率分布Ｐ_Ｓと前回の処理で得られた確率分布Ｐ_Ｌとを乗算して、新たな確率分布Ｐ_Ｓを得る（ステップＳ１０８）。情報処理装置１００は、新たな確率分布Ｐ_Ｓに含まれる最大の確率をもつ単語ｈを音声認識結果として出力する（ステップＳ１１０）。

【0108】

情報処理装置１００は、これまで出力された単語ｈの列（トークン列）を大規模言語モデル３０に入力する（ステップＳ１１２）。このとき、入力される単語ｈの列の先頭に、文頭を示すトークン（ＣＬＳ）が付加される。情報処理装置１００は、大規模言語モデル３０からの推論出力３２（単語についての確率分布Ｐ_Ｌ）を一時的に格納する（ステップＳ１１４）。

【0109】

情報処理装置１００は、ＳＳＬモデル２０からの推論出力２２（単語についての確率分布Ｐ_Ｓ）が継続しているか否かを判断する（ステップＳ１１６）。ＳＳＬモデル２０からの推論出力２２が継続していれば（ステップＳ１１６においてＹＥＳ）、ステップＳ１０４以下の処理が繰り返される。

【0110】

ＳＳＬモデル２０からの推論出力２２が継続していなければ（ステップＳ１１６においてＮＯ）、情報処理装置１００は、これまで出力された単語ｈの列（トークン列）を音声認識結果として出力する（ステップＳ１１８）。そして、処理は終了する。

【0111】

図９は、本実施の形態に従う音声認識システム２における処理手順例を示すフローチャートである。図９に示す各ステップは、情報処理装置１００のＣＰＵ１０２および／またはＧＰＵ１０４が、ＳＳＬモデルプログラム１２２と、大規模言語モデルプログラム１２４と、制御プログラム１２６とを実行することで実現されてもよい。

【0112】

図９を参照して、情報処理装置１００は、入力シーケンス４をＳＳＬモデル２０に入力する（ステップＳ２００）。ＳＳＬモデル２０からの推論出力２２（単語についての確率分布Ｐ_Ｓ）が得られると（ステップＳ２０２においてＹＥＳ）、情報処理装置１００は、これまで出力された単語ｈが存在するか否かを判断する（ステップＳ２０４）。

【0113】

これまで出力された単語ｈが存在しなければ（ステップＳ２０４においてＮＯ）、情報処理装置１００は、今回の処理で得られた確率分布Ｐ_Ｌとして、予め定められたダミー値（＝１）を設定する（ステップＳ２０６）。そして、ステップＳ２１２の処理が実行される。

【0114】

これまで出力された単語ｈが存在すれば（ステップＳ２０４においてＹＥＳ）、情報処理装置１００は、これまで出力された単語ｈの列および対応するマスクを大規模言語モデル３０に入力する（ステップＳ２０８）。このとき、入力される単語ｈの列の先頭に文頭を示すトークン（ＣＬＳ）が付加される。情報処理装置１００は、今回の処理で得られた確率分布Ｐ_Ｌとして、大規模言語モデル３０からの推論出力３２を得る（ステップＳ２１０）。

【0115】

情報処理装置１００は、今回の処理で得られた確率分布Ｐ_Ｓと今回の処理で得られた確率分布Ｐ_Ｌとを乗算して、新たな確率分布Ｐ_Ｓを得る（ステップＳ２１２）。情報処理装置１００は、新たな確率分布Ｐ_Ｓに含まれる最大の確率をもつ単語ｈを音声認識結果として出力する（ステップＳ２１４）。

【0116】

情報処理装置１００は、ＳＳＬモデル２０からの推論出力２２（単語についての確率分布Ｐ_Ｓ）が継続しているか否かを判断する（ステップＳ２１６）。ＳＳＬモデル２０からの推論出力２２が継続していれば（ステップＳ２１６においてＹＥＳ）、ステップＳ２０２以下の処理が繰り返される。

【0117】

ＳＳＬモデル２０からの推論出力２２が継続していなければ（ステップＳ２１６においてＮＯ）、情報処理装置１００は、これまで出力された単語ｈの列（トークン列）を音声認識結果として出力する（ステップＳ２１８）。そして、処理は終了する。

【0118】

［Ｅ．変形例］
上述の説明においては、センテンスに含まれるトークンの数に応じて処理が繰り返される例を示したが、処理の回数およびマスクアウトするトークンなどを適宜変更してもよい。

【0119】

例えば、大規模言語モデルから出力される推論出力に特定の１または複数の単語が出現すると、当該特定の単語が出現した時点で、当該センテンスについての処理を打ち切ってもよい。

【0120】

特定の単語としては、例えば、推論出力に誤りが生じることが極めて少ない１または複数の単語であってもよいし、何らかの意味をもつ１または複数の単語であってもよい。Ｔａｂｌｅ５には、処理を２回で打ち切っている例を示す。

【0121】

【表5】

【0122】

あるいは、大規模言語モデルから出力される推論出力に特定の１または複数の単語が出現すると、当該特定の単語が出現した時点で、処理対象のトークンをスキップまたはジャンプしてもよい。処理対象のトークンを本来の順序より早めることで、推論処理に要する時間を短縮できる。Ｔａｂｌｅ６には、先頭のトークンを処理した後、最後のトークンを処理することで、１つのセンテンスに対して、トータルで２回の処理のみを行っている例を示す。

【0123】

【表6】

【0124】

なお、上述したような処理の打ち切り、スキップおよびジャンプなどを決定するための制御部を追加してもよい。

【0125】

このように、推論出力が予め定められた条件を満たすと、前回の処理における処理対象のトークンから離れたトークンを処理対象のトークンに変更してもよい。

【0126】

［Ｆ．利点］
本実施の形態によれば、ＳＳＬモデル２０による音声認識結果を大規模言語モデルの推論出力を用いて補正することで、プログレシブな誤り訂正が可能になる。このようなプログレシブな誤り訂正を採用することで、現実のアプリケーションにおいて生じ得る、言語モデルの学習に用いられた標準的な音声だけではなく、アクセントの違いや方言といった非標準的な音声により認識性能に特有の課題を解決できる。

【0127】

本実施の形態によれば、大規模言語モデルにおいて単語単位で処理を行わせることができるので、単語単位での誤り訂正が可能となり、音声認識精度（推論精度）を向上できる。

【0128】

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0129】

１，２，３音声認識システム、４入力シーケンス、６トークン、８センテンス、１０乗算結果、２０ＳＳＬモデル、２２，３２，３８推論出力、２４ａｒｇｍａｘ層、２６，２８，３４乗算器、３０，３６大規模言語モデル、４０コントロールシグナル生成部、１００情報処理装置、１０２ＣＰＵ、１０４ＧＰＵ、１０６主メモリ、１０８ディスプレイ、１１０ネットワークインターフェイス、１１２入力デバイス、１１４光学ドライブ、１１６光学ディスク、１２０二次記憶装置、１２２モデルプログラム、１２４大規模言語モデルプログラム、１２６制御プログラム、１２８ＯＳ。

【図1】