特許7385900 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許7385900推論器、推論プログラムおよび学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-15

(45)【発行日】2023-11-24

(54)【発明の名称】推論器、推論プログラムおよび学習方法

(51)【国際特許分類】

G10L 15/10 20060101AFI20231116BHJP

G10L 15/16 20060101ALI20231116BHJP

【ＦＩ】

G10L15/10 500Z

G10L15/16

【請求項の数】 6

(21)【出願番号】P 2019163555

(22)【出願日】2019-09-09

(65)【公開番号】P2021043272

(43)【公開日】2021-03-18

【審査請求日】2022-08-10

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】李勝

(72)【発明者】

【氏名】ルーシュガン

(72)【発明者】

【氏名】丁塵辰

(72)【発明者】

【氏名】河原達也

(72)【発明者】

【氏名】河井恒

【審査官】中村天真

(56)【参考文献】

【文献】特表平０９－５００２２３（ＪＰ，Ａ）

【文献】特開２０１０－０７２４４６（ＪＰ，Ａ）

【文献】特開２０１４－２２９１２４（ＪＰ，Ａ）

【文献】米国特許第０５７５８０２３（ＵＳ，Ａ）

【文献】米国特許出願公開第２０１６／０１１０６４２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０１８９１１１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ１０Ｌ２５／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器であって、
前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、
予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを備え、
前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の構造を特定する情報を含む、推論器。

【請求項2】

複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器であって、
前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、
予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを備え、
前記学習済モデルから出力される表現は、対応するテキストがいずれの言語であるかを特定するための情報を含む、推論器。

【請求項3】

前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の発音を特定する情報を含む、請求項２に記載の推論器。

【請求項4】

前記文字の発音を特定する情報は、音韻構造を表現するユニバーサル特徴に基づいて、対応する文字の発音を特定する情報を含む、請求項３に記載の推論器。

【請求項5】

請求項１～４のいずれか１項に記載の推論器をコンピュータで実現するための推論プログラム。

【請求項6】

複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器を学習する学習方法であって、
音声信号と対応するテキストとを用意するステップと、
前記テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成するステップと、
前記音声信号の音声特徴を示す入力シーケンスを前記推論器に入力して得られる推論結果と、対応する表現との誤差に基づいて、前記推論器を規定するパラメータを最適化するステップとを備え、
前記文字レベルとは異なるレベルの表現は、対応するテキストに含まれる各文字の構造を特定する情報、または、対応するテキストがいずれの言語であるかを特定するための情報を含む、学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、音声認識タスクを実現するための推論器、推論プログラムおよび学習方法に関する。

【背景技術】

【0002】

音声認識分野においては、音響モデル、言語モデル、および辞書（lexicon）を一体化したニューラルネットワークである、エンド・トゥ・エンド（end-to-end）モデルが検討および提案されている（非特許文献１および２など参照）。音声認識タスクに向けられたエンド・トゥ・エンドモデルとして、Ｔｒａｎｓｆｏｒｍｅｒベースの自動音声認識（ＡＳＲ：Automatic Speech Recognition）システムが注目されている（非特許文献３など参照）。Ｔｒａｎｓｆｏｒｍｅｒベースのエンド・トゥ・エンドモデルを用いることで、ＡＳＲシステムの構築および学習を容易化できる。

【0003】

非特許文献４および５は、中国語に関して、Ｔｒａｎｓｆｏｒｍｅｒベースのエンド・トゥ・エンド音声認識システムにおける音響モデルの研究成果を開示する。

【0004】

また、非特許文献６および７は、単一のモデルを用いた多言語エンド・トゥ・エンド音声認識システムを効率的に学習する方法を開示する。より具体的には、各発話の先頭に、当該発話がいずれの言語であるかを示す特定のワード＜ＬａｎｇｕａｇｅＭａｒｋ＞（例えば、＜Ｅｎｇｌｉｓｈ＞，＜Ｍａｎｄａｒｉｎ＞，＜Ｊａｐａｎｅｓｅ＞，＜Ｇｅｒｍａｎ＞など）を追加したデータセットを用いて学習を行う。＜ＬａｎｇｕａｇｅＭａｒｋ＞がラベルとして取り扱われる。

【先行技術文献】

【非特許文献】

【0005】

【文献】A. Graves and N. Jaitly, "Towards End-to-End speech recognition with recurrent neural networks," in Proc. ICML, 2014.

【文献】A. W. Chan, N. Jaitly, Q. Le, and O. Vinyals, "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," in Proc. IEEE-ICASSP, 2016.

【文献】A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," in CoRR abs/1706.03762, 2017.

【文献】S. Zhou, L. Dong, S. Xu, and B. Xu, "A comparison of modeling units in sequence-to-sequence speech recognition with the transformer on Mandarin Chinese," in CoRR abs/1805.06239, 2018.

【文献】S. Zhou, L. Dong, S. Xu, and B. Xu, "Syllable-based sequence-to-sequence speech recognition with the transformer in mandarin Chinese," in Proc. INTERSPEECH, 2018.

【文献】S. Zhou, S. Xu, and B. Xu, "Multilingual end-to-end speech recognition with a single transformer on low-resource languages," in CoRR abs/1806.05059, 2018.

【文献】B. Li and et al., "Multi-dialect speech recognition with a dingle sequence-to- sequence model," in CoRR abs/1806.05059, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0006】

上述の非特許文献６および７に開示される方法は、文字（character）レベルで学習を行うものであり、複数の言語を同時に学習した場合（すなわち、単一のモデルを用いて多言語の音声認識システムを構築使用とした場合）には、トークンの数が膨大となり、パラメータサイズが巨大化するという課題がある。

【0007】

本技術は、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現するための技術を提供することを目的とする。

【課題を解決するための手段】

【0008】

ある実施の形態によれば、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器が提供される。推論器は、前記音声信号の音声特徴を示す入力シーケンスを受けて、対応するテキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を出力する学習済モデルと、予め定められた文字と当該文字の特徴との対応関係を参照して、前記学習済モデルから出力される表現から対応するテキストを再構成する再構成部とを含む。

【0009】

前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の構造を特定する情報を含んでいてもよい。

【0010】

前記文字の構造を特定する情報は、対応する文字を構成する１または複数の文字部品を特定する情報を含んでいてもよい。

【0011】

前記文字の構造を特定する情報は、前記１または複数の文字部品の配置を特定する情報を含んでいてもよい。

【0012】

前記対応関係は、言語ごとに、１または複数の文字部品と対応する文字との対応関係を規定してもよい。

【0013】

前記学習済モデルから出力される表現は、対応するテキストに含まれる各文字の発音を特定する情報を含んでいてもよい。

【0014】

前記文字の発音を特定する情報は、音韻構造を表現するユニバーサル特徴に基づいて、対応する文字の発音を特定する情報を含んでいてもよい。

【0015】

前記文字の発音を特定する情報は、対応するテキストに含まれる単語をさらに分解した文字ごとに発音を規定する情報を含んでいてもよい。

【0016】

前記対応関係は、言語ごとに、発音を特定する情報と対応する文字との対応関係を規定してもよい。

【0017】

別の実施の形態によれば、上記の推論器をコンピュータで実現するための推論プログラムが提供される。

【0018】

さらに別の実施の形態によれば、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器を学習する学習方法が提供される。学習方法は、音声信号と対応するテキストとを用意するステップと、前記テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成するステップと、前記音声信号の音声特徴を示す入力シーケンスを前記推論器に入力して得られる推論結果と、対応する表現との誤差に基づいて、前記推論器を規定するパラメータを最適化するステップとを含む。

【0019】

さらに別の実施の形態によれば、コンピュータに上記の学習方法を実行させるための学習プログラムが提供される。

【発明の効果】

【0020】

本技術によれば、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現できる。

【図面の簡単な説明】

【0021】

【図1】本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒの一例を示す模式図である。

【図2】本実施の形態に従う音声認識システムを実現するハードウェア構成の一例を示す模式図である。

【図3】第１の実施例に従う音声認識システムの概要を示す模式図である。

【図4】第１の実施例に従う音声認識システムにおける文字部品への分解の方法を説明するための図である。

【図5】第１の実施例に従う音声認識システムの文字合成部において利用される文字部品対応テーブルの一例を示す図である。

【図6】第１の実施例に従う音声認識システムの学習処理を説明するための模式図である。

【図7】第１の実施例に従う音声認識システムの学習処理の手順を示すフローチャートである。

【図8】第１の実施例に従う音声認識システムの推論処理の手順を示すフローチャートである。

【図9】第２の実施例に従う音声認識システムの概要を示す模式図である。

【図10】第２の実施例に従う音声認識システムにおける学習処理および推論処理の内容を説明するための模式図である。

【図11】第２の実施例に従う音声認識システムにおけるユニバーサル音声表現に係る処理を説明するための図である。

【図12】第２の実施例に従う音声認識システムの文字変換部において利用される音声特徴対応テーブルの一例を示す図である。

【図13】第２の実施例に従う音声認識システムの学習処理の手順を示すフローチャートである。

【図14】第２の実施例に従う音声認識システムの推論処理の手順を示すフローチャートである。

【発明を実施するための形態】

【0022】

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

【0023】

［Ａ．概要］
音声認識タスクに用いられる従来のモデル（典型的には、ＤＮＮ－ＨＭＭモデル）は、１フレームの発話に対して１つのトークンのみがラベルとして使用できる。これに対して、Ｔｒａｎｓｆｏｒｍｅｒなどのエンド・トゥ・エンドモデルでは、１フレームの発話に対して一連のトークンを関連付けることができ、これによってより強力な表現能力を発揮する。

【0024】

本実施の形態に従う音声認識システムは、エンド・トゥ・エンドモデルを用いて多言語対応の音声認識タスクを実行する。本実施の形態に従う音声認識システムは、既存の音声認識システムのような文字（character）レベルではなく、異なるレベルの表現（representation）を用いる。

【0025】

より具体的には、言語間の類似性に着目した表現を利用することで、パラメータサイズを低減する。このような言語間の類似性の一例として、以下では、個々の文字が意味を表す表意文字（典型的には、漢字）の構造に着目する例（第１の実施例）、および、個々の文字が音素または音節を表す表音文字（あるいは、音標文字）の構造に着目する例（第２の実施例）について例示する。なお、本発明の技術的範囲は、表意文字および表音文字に限られず、言語間の任意の類似性を利用した音声認識システムを包含するものである。

【0026】

第１の実施例（表意文字）は、類似した表意文字（典型的には、漢字）を利用する複数の言語に対して単一のモデルを用いる場合を想定しており、漢字を「へん」と「つくり」といった１または複数の文字部品の組み合わせと捉えて、学習済モデルを構築する。

【0027】

第２の実施例（表音文字）は、類似した表音文字を利用する複数の言語に対して単一のモデルを用いる場合を想定しており、文字（character）を１または複数の音調特徴（articulatory feature）の組み合わせと捉えて、学習済モデルを構築する。

【0028】

このような学習済モデルを採用することで、モデルの規模（パラメータサイズ）を抑制しつつ、多言語対応のリアルタイムな音声認識システムを実現できる。さらに、認識性能の向上も期待できる。

【0029】

以下、本実施の形態に従う音声認識システムの詳細について説明する。
［Ｂ．Ｔｒａｎｓｆｏｒｍｅｒ］
本実施の形態に従う音声認識システムには、どのようなエンド・トゥ・エンドモデルを用いてもよい。現時点では、例えば、Ｔｒａｎｓｆｏｒｍｅｒ、ＬＳＴＭ（Long short-term memory）を用いたモデル、ＢＥＲＴと称されるモデルなどが挙げられる。以下の説明においては、典型例として、Ｔｒａｎｓｆｏｒｍｅｒベースのエンド・トゥ・エンドモデルを採用する。但し、技術の進歩に伴って新たなエンド・トゥ・エンドモデルが開発された場合には、そのような新たなモデルにも適用可能であることは自明である。

【0030】

以下、一般的なＴｒａｎｓｆｏｒｍｅｒについて説明する。
図１は、本発明の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１０の一例を示す模式図である。図１を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１０は、学習済モデルであり、ニュートラルネットワークの一形態に相当する。

【0031】

Ｔｒａｎｓｆｏｒｍｅｒ１０は、スタックされたＮ層分のエンコーダブロック２０とＭ層分のデコーダブロック４０とを含む。スタックされたＮ層分のエンコーダブロック２０をまとめてエンコーダ２００とも称す。スタックされたＭ層分のデコーダブロック４０をまとめてデコーダ４００とも称す。

【0032】

エンコーダ２００は、入力シーケンス２から中間シーケンスを出力する。デコーダ４００は、エンコーダ２００から出力される中間シーケンスおよび先に出力された出力シーケンスに基づいて出力シーケンス７０を出力する。

【0033】

エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち先頭層）には、入力埋め込み（Input Embedding）層４、位置埋め込み層（Positional Embedding）層６および加算器８により生成される入力トークン列が入力される。エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち最終層）は、算出結果として、中間センテンス表現を出力する。

【0034】

入力埋め込み層４は、センテンスなどの入力シーケンス２を、所定単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。位置埋め込み層６は、各トークンが入力シーケンス２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional embedding）を出力する。加算器８は、入力埋め込み層４からのシーケンスに、位置埋め込み層６からの位置埋め込みを付加する。

【0035】

エンコーダブロック２０の各々は、ＭＨＡ（Multi-head Attention）層２２と、フィードフォワード（Feed Forward）層２６と、加算・正則化（Add & Norm）層２４，２８とを含む。

【0036】

ＭＨＡ層２２は、入力トークン列（ベクトル）についてＡｔｔｅｎｔｉｏｎを算出する。加算・正則化層２４は、入力トークン列（ベクトル）にＭＨＡ層２２から出力されるベクトルを加算した上で、任意の手法で正則化（normalize）する。フィードフォワード層２６は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。加算・正則化層２８は、加算・正則化層２４から出力されるベクトルに、フィードフォワード層２６から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0037】

デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち先頭層）には、出力埋め込み（Output Embedding）層１４、位置埋め込み層（Positional Embedding）層１６および加算器１８により生成される出力トークン列が入力される。デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち最終層）は、算出結果として、出力シーケンスを出力する。

【0038】

出力埋め込み層１４は、既出力シーケンス（前回の出力シーケンスに対して時刻を一致させるためにシフトされたもの）（Outputs(Shifted right)）１２を、所定単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。位置埋め込み層１６は、各トークンが既出力シーケンス１２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional embedding）を出力する。加算器１８は、出力埋め込み層１４からのトークン列に、位置埋め込み層１６からの位置埋め込みを付加する。

【0039】

デコーダブロック４０の各々は、ＭＭＨＡ（Masked Multi-head Attention）層４２と、ＭＨＡ（Multi-head Attention）層４６と、フィードフォワード（Feed Forward）層５０と、加算・正則化（Add & Norm）層４４，４８，５２とを含む。すなわち、デコーダブロック４０は、エンコーダブロック２０と類似した構成となっているが、ＭＭＨＡ層４２および加算・正則化層４４を含んでいる点が異なっている。

【0040】

ＭＭＨＡ層４２は、先に算出されたベクトルのうち存在し得ないベクトルに対してマスク処理を実行する。加算・正則化層４４は、出力トークン列（ベクトル）にＭＭＨＡ層４２から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0041】

ＭＨＡ層４６は、エンコーダブロック２０の加算・正則化層２８から出力される中間センテンス表現、および、加算・正則化層４４から出力されるベクトルについて、Ａｔｔｅｎｔｉｏｎを算出する。ＭＨＡ層４６の基本的な処理は、ＭＨＡ層２２と同様である。加算・正則化層４８は、加算・正則化層４４から出力されるベクトルに、ＭＨＡ層４６から出力されるベクトルを加算した上で、任意の手法で正則化する。フィードフォワード層５０は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。加算・正則化層５２は、ＭＨＡ層４６から出力されるベクトルに、フィードフォワード層５０から出力されるベクトルを加算した上で、任意の手法で正則化する。

【0042】

Ｔｒａｎｓｆｏｒｍｅｒ１０は、出力層として、ソフトマックス（Softmax）層６０を含む。ソフトマックス層６０は、デコーダ４００から出力されるベクトルをソフトマックス関数に入力して得られる結果を出力シーケンス７０として出力する。

【0043】

［Ｃ．ハードウェア構成］
次に、本実施の形態に従う音声認識システムを実現するハードウェア構成の一例について説明する。

【0044】

図２は、本実施の形態に従う音声認識システムを実現するハードウェア構成の一例を示す模式図である。音声認識システムは、典型的には、コンピュータの一例である情報処理装置５００を用いて実現される。

【0045】

図２を参照して、音声認識システムを実現する情報処理装置５００は、主要なハードウェアコンポーネントとして、ＣＰＵ（central processing unit）５０２と、ＧＰＵ（graphics processing unit）５０４と、主メモリ５０６と、ディスプレイ５０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）５１０と、二次記憶装置５１２と、入力デバイス５２２と、光学ドライブ５２４とを含む。これらのコンポーネントは、内部バス５２８を介して互いに接続される。

【0046】

ＣＰＵ５０２および／またはＧＰＵ５０４は、本実施の形態に従う音声認識システムの実現に必要な処理を実行するプロセッサである。ＣＰＵ５０２およびＧＰＵ５０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

【0047】

主メモリ５０６は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（dynamic random access memory）やＳＲＡＭ（static random access memory）などの揮発性メモリデバイスなどで構成される。

【0048】

ディスプレイ５０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid crystal display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

【0049】

ネットワークインターフェイス５１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス５１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local area network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

【0050】

入力デバイス５２２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス５２２は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。

【0051】

光学ドライブ５２４は、ＣＤ－ＲＯＭ（compact disc read only memory）、ＤＶＤ（digital versatile disc）などの光学ディスク５２６に格納されている情報を読出して、内部バス５２８を介して他のコンポーネントへ出力する。光学ディスク５２６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ５２４が光学ディスク５２６からプログラムを読み出して、二次記憶装置５１２などにインストールすることで、コンピュータが情報処理装置５００として機能するようになる。したがって、本発明の主題は、二次記憶装置５１２などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク５２６などの記録媒体でもあり得る。

【0052】

図２には、非一過的な記録媒体の一例として、光学ディスク５２６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical disk）などの光磁気記録媒体を用いてもよい。

【0053】

二次記憶装置５１２は、コンピュータを情報処理装置５００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid state drive）などの不揮発性記憶装置で構成される。

【0054】

より具体的には、二次記憶装置５１２は、図示しないＯＳ（operating system）の他、学習処理を実現するための学習プログラム５１４と、音声認識システムに用いられるモデルの構造を定義するモデル定義データ５１６と、音声認識システムに用いられる学習済モデルを規定する複数のパラメータからなるパラメータセット５１８と、推論プログラム５２０と、トレーニングデータセット５３０とを格納している。

【0055】

学習プログラム５１４は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）により実行されることで、パラメータセット５１８を決定するための学習処理を実現する。すなわち、学習プログラム５１４は、コンピュータに推論器（音声認識システム）を学習するための学習処理を実行させる。

【0056】

モデル定義データ５１６は、音声認識システムを構成するモデルに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。

【0057】

パラメータセット５１８は、音声認識システムを構成する各コンポーネントについてのパラメータを含む。パラメータセット５１８に含まれる各パラメータは、学習プログラム５１４の実行により最適化される。

【0058】

推論プログラム５２０は、パラメータセット５１８により規定されるモデルを用いた推論処理を実行する。すなわち、推論プログラム５２０は、後述するような推論器をコンピュータで実現する。トレーニングデータセット５３０は、図４に示すようなデータの組み合わせからなる。

【0059】

プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

【0060】

また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

【0061】

図２には、単一のコンピュータを用いて情報処理装置５００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、音声認識システムを構成する学習済モデルおよび学習済モデルを用いた推論器を実現するようにしてもよい。

【0062】

プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application specific integrated circuit）やＦＰＧＡ（field-programmable gate array）などを用いて実現してもよい。

【0063】

当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置５００を実現できるであろう。

【0064】

説明の便宜上、同一の情報処理装置５００を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。

【0065】

［Ｄ．第１の実施例（表意文字）］
第１の実施例として、漢字などの表意文字を用いる複数の言語に対して単一のモデルを用いた音声認識システムについて説明する。

【0066】

（ｄ１：概要）
図３は、第１の実施例に従う音声認識システム１００Ａの概要を示す模式図である。図３を参照して、音声認識システム１００Ａは、音声特徴を示す入力シーケンス２の入力を受けて、対応するテキストを出力シーケンス７０として出力する。すなわち、音声認識システム１００Ａは、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器に相当する。

【0067】

出力シーケンス７０の先頭には、いずれの言語であるかを示す言語ラベル７２（＜ＴＷ＞，＜ＨＫ＞，＜ＭＡ＞など）が付加されている。このような言語ラベル７２が付加されることによって、いずれの言語であるかを一意に特定できる。

【0068】

音声認識システム１００Ａは、Ｔｒａｎｓｆｏｒｍｅｒ１０と、文字合成部８０とを含む。

【0069】

Ｔｒａｎｓｆｏｒｍｅｒ１０は、音声信号の音声特徴を示す入力シーケンス２を受けて、対応するテキストに含まれる文字の特徴を示す、文字（character）レベルとは異なるレベルの表現を出力する学習済モデルに相当する。より具体的には、Ｔｒａｎｓｆｏｒｍｅｒ１０は、漢字を構成する１または複数の文字部品を示す、文字レベルではなく、異なるレベルの表現（以下、「文字部品表現８２」あるいは「Decomposed Character representation」とも称す。）を用いる。文字部品表現８２は、対応するテキストに含まれる各文字の構造を特定する情報を含む（詳細については後述する）。

【0070】

本明細書において、「文字部品」は、出力すべきテキストを構成する少なくとも一部分を構成する要素を意味し、言語体系などに応じて任意に決定できる単位で規定される。

【0071】

文字合成部８０は、予め定められた文字と当該文字の特徴との対応関係を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１０（学習済モデル）から出力される表現から対応するテキストを再構成する再構成部に相当する。より具体的には、文字合成部８０は、Ｔｒａｎｓｆｏｒｍｅｒ１０から出力される文字部品表現８２の入力を受けて、出力すべき文字（漢字）に合成して、出力シーケンス７０として出力する。

【0072】

第１の実施例においては、漢字を構成する１または複数の文字部品に分解した状態を示す表現を用いてモデルの学習を行う。

【0073】

（ｄ２：文字部品表現８２）
図３に示す文字部品表現８２は、典型的には、以下のようなデータ構造のシーケンスとして出力される。

【0074】

（１）＜言語ラベル＞［部品特定情報］，［部品特定情報］，・・・，＜区切文字＞，［部品特定情報］，［部品特定情報］，・・・
（２）＜言語ラベル＞［構造特定情報］，［部品特定情報］，［部品特定情報］，・・・，＜区切文字＞，［部品特定情報］，［部品特定情報］，・・・
文字部品表現８２に含まれる＜言語ラベル＞は、いずれの言語であるかを特定するための情報を含む。＜言語ラベル＞としては、例えば、＜ＴＷ＞（台湾），＜ＨＫ＞（香港），＜ＭＡ＞（中国標準語）などが用いられる。

【0075】

文字部品表現８２に含まれる［部品特定情報］は、対応する文字を構成する文字部品を特定するための情報を含む。文字部品表現８２に含まれる＜区切文字＞は、出力される文字の区切りを意味し、＜区切文字＞から次の＜区切文字＞までに存在する［部品特定情報］に基づいて、出力すべき文字が再構成される。＜区切文字＞としては、単にブランク（無出力）を用いてもよい。このように、文字部品表現８２は、対応する文字を構成する１または複数の文字部品を特定する情報を含む。

【0076】

文字部品表現８２に含まれる［構造特定情報］は、対応する文字を構成する文字部品の組み合わせに係る構造を特定するための情報を含む。例えば、ある文字が横並びで配置された２つの文字部品で構成されている場合において、［構造特定情報］は、横並びで配置されていることを示す情報を含むことになる。このように、文字部品表現８２は、１または複数の文字部品の配置を特定する情報を含んでいてもよい。

【0077】

なお、上述した文字部品表現８２のデータ構造は一例であり、文字を再構成できるものであれば、どのようなデータ構造を採用してもよい。さらに、文字部品表現８２には、より多くの情報を含めるようにしてもよい。

【0078】

（ｄ３：文字部品への分解）
次に、文字を文字部品に分解する方法の一例について説明する。

【0079】

図４は、第１の実施例に従う音声認識システム１００Ａにおける文字部品への分解の方法を説明するための図である。図４を参照して、複数の文字の構造８０２が規定されており、各文字についていずれの構造８０２に該当するのかが決定された上で、決定された構造８０２に応じて、各文字が１または複数の文字部品８０４に分解される。

【0080】

したがって、各文字からは、決定された構造８０２の情報と、当該決定された構造８０２の情報に基づいて分解された１または複数の文字部品８０４との情報が生成される（単純分解８０６）。

【0081】

さらに、文字によっては、複数の構造８０２を有していると決定され、それぞれの構造８０２に従って文字部品８０４の情報が生成されてもよい（混合構造８０８）。

【0082】

文字の構造８０２については、漢字の構造に基づいて任意のパターンを決定すればよいが、典型例としては、１２種類の構造８０２を予め用意すればよい。

【0083】

（ｄ４：文字合成部８０）
次に、第１の実施例に従う音声認識システム１００Ａの文字合成部８０（図３参照）における処理例について説明する。

【0084】

上述したように、文字部品表現８２は、出力すべき文字を構成する１または複数の文字部品を特定するための部品特定情報からなる。文字合成部８０は、文字部品表現８２に含まれる文字ごとに規定される１または複数の部品特定情報に基づいて、出力すべき文字を再構成する。文字部品表現８２は文字部品対応テーブル８４を有しており、文字部品対応テーブル８４に基づいて、文字が再構成される。

【0085】

文字部品対応テーブル８４は、言語ごとに、１または複数の文字部品と対応する文字との対応関係を規定する。

【0086】

図５は、第１の実施例に従う音声認識システム１００Ａの文字合成部８０において利用される文字部品対応テーブル８４の一例を示す図である。図５を参照して、文字部品対応テーブル８４は、１または複数の文字部品の組み合わせを規定する組み合わせ定義８４２と、対応する文字８４４との組を複数含む。

【0087】

文字合成部８０は、Ｔｒａｎｓｆｏｒｍｅｒ１０から出力される文字部品表現８２に含まれる区切文字の位置で区切って、１または複数の部品特定情報を抽出する。そして、文字合成部８０は、抽出した１または複数の部品特定情報をキーにして文字部品対応テーブル８４を参照することで、対応する文字を決定する。文字部品対応テーブル８４を参照した文字の決定処理を繰り返すことで、入力シーケンス２に対応するテキストを出力シーケンス７０として出力する。

【0088】

文字部品対応テーブル８４は、言語ごとに用意されてもよい。この場合には、文字合成部８０は、Ｔｒａｎｓｆｏｒｍｅｒ１０から出力される文字部品表現８２のシーケンスの先頭に含まれる言語ラベルの値に基づいて、対応する言語の文字部品対応テーブル８４を選択する。

【0089】

さらに、文字部品対応テーブル８４は、各データに関連付けて構造特定情報（対応する文字を構成する文字部品の組み合わせに係る構造を特定するための情報）を含んでいてもよい。構造特定情報を付加することで、同じ文字部品で構成されるものの、配置が異なる文字同士を区別することができる。

【0090】

上述のような文字部品対応テーブル８４を参照することで、Ｔｒａｎｓｆｏｒｍｅｒ１０から出力される文字部品表現８２から出力シーケンス７０を生成できる。

【0091】

（ｄ５：学習処理）
次に、第１の実施例に従う音声認識システム１００Ａの学習処理についての一例について説明する。

【0092】

図６は、第１の実施例に従う音声認識システム１００Ａの学習処理を説明するための模式図である。図６を参照して、トレーニングデータセットとして、音声特徴を示す入力シーケンス２と対応するテキスト６４との組が用意される。テキスト６４には、いずれの言語であるかを示す言語ラベルを含んでいてもよい。

【0093】

学習処理においては、前処理として、テキスト６４に含まれる各文字を１または複数の文字部品に分解した文字部品表現８２が生成される。文字部品表現８２の生成に際して、文字部品対応テーブル８４が必要に応じて参照されるとともに、文字部品対応テーブル８４の内容が適宜更新されてもよい。

【0094】

そして、入力シーケンス２と対応する文字部品表現８２との組をトレーニングデータとして用いて、モデル（Ｔｒａｎｓｆｏｒｍｅｒ１０）を学習する。モデルの学習方法自体については、公知の技術を適宜採用することができる。

【0095】

図７は、第１の実施例に従う音声認識システム１００Ａの学習処理の手順を示すフローチャートである。図７に示す主要なステップは、典型的には、情報処理装置５００のプロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が学習プログラム５１４を実行することで実現される。

【0096】

図７を参照して、情報処理装置５００は、音声特徴を示す入力シーケンス２と対応するテキストとの組からなるトレーニングデータセットの入力を受け付ける（ステップＳ１００）。情報処理装置５００は、受け付けたトレーニングデータセットのテキストに含まれる各文字を、所定規則に従って１または複数の文字部品の組み合わせに分解することで、文字部品表現８２を生成する（ステップＳ１０２）。このように、情報処理装置５００は、テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成する。そして、情報処理装置５００は、音声特徴を示す入力シーケンス２と対応する文字部品表現８２との組み合わせからなるトレーニングデータセットを生成する（ステップＳ１０４）。

【0097】

続いて、情報処理装置５００は、Ｔｒａｎｓｆｏｒｍｅｒ１０のパラメータを初期化する（ステップＳ１０６）。そして、パラメータの最適化が実行される。すなわち、トレーニングデータセットを用いてＴｒａｎｓｆｏｒｍｅｒ１０に含まれるパラメータが最適化される。

【0098】

より具体的には、情報処理装置５００は、トレーニングデータセットに含まれる入力シーケンス２をＴｒａｎｓｆｏｒｍｅｒ１０に入力して出力シーケンス（文字部品表現８２の推論結果）を演算する（ステップＳ１０８）。そして、情報処理装置５００は、出力シーケンス（推論結果）と、トレーニングデータセットの対応する文字部品表現８２（正解データ）とを比較して誤差情報を演算し（ステップＳ１１０）、当該演算した誤差情報に基づいてＴｒａｎｓｆｏｒｍｅｒ１０のパラメータを最適化する（ステップＳ１１２）。

【0099】

情報処理装置５００は、予め定められた学習処理の終了条件が満たされているか否かを判断する（ステップＳ１１４）。予め定められた学習処理の終了条件が満たされていなければ（ステップＳ１１４においてＮＯ）、情報処理装置５００は、トレーニングデータセットに含まれるトレーニングデータを選択して、ステップＳ１０８以下の処理を再度実行する。

【0100】

これに対して、予め定められた学習処理の終了条件が満たされていれば（ステップＳ１１４においてＹＥＳ）、情報処理装置５００は、当該時点のパラメータ値で規定されるＴｒａｎｓｆｏｒｍｅｒ１０を学習済モデルとして決定する（ステップＳ１１６）。このときのパラメータ値が、学習済モデルを規定するパラメータセット５１８として出力される。そして、処理は終了する。

【0101】

（ｄ６：推論処理）
図８は、第１の実施例に従う音声認識システム１００Ａの推論処理の手順を示すフローチャートである。図８に示す主要なステップは、典型的には、情報処理装置５００のプロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が推論プログラム５２０を実行することで実現される。

【0102】

図８を参照して、情報処理装置５００は、入力される音声信号から音声特徴を演算することで入力シーケンスを生成する（ステップＳ１５０）。情報処理装置５００は、生成した入力シーケンスをＴｒａｎｓｆｏｒｍｅｒ１０に入力して、推論結果の出力シーケンスとして、文字部品表現８２を演算する（ステップＳ１５２）。続いて、情報処理装置５００は、文字部品対応テーブル８４を参照して、文字部品表現８２からテキストを再構成する（ステップＳ１５４）。この再構成したテキストが出力シーケンスとして出力される。

【0103】

そして、情報処理装置５００は、音声信号の入力が継続しているか否かを判断する（ステップＳ１５６）。音声信号の入力が継続していれば（ステップＳ１５６においてＹＥＳ）、ステップＳ１５０以下の処理が繰り返される。

【0104】

一方、音声信号の入力が継続していなければ（ステップＳ１５６においてＮＯ）、推論処理は一旦終了する。

【0105】

（ｄ７：性能評価結果）
次に、第１の実施例に従う音声認識システム１００Ａの性能評価を行った結果の一例を示す。

【0106】

第１の実験例では、漢字を用いる言語として、台湾＜ＴＷ＞、香港＜ＨＫ＞、中国標準語＜ＭＡ＞の３言語のトレーニングデータセットを用いた評価を行った。評価対象の音声認識システムとしては、文字（character）レベルで処理する音声認識システム（関連技術）（表中「（ｃ）」で示される）と、第１の実施例に従う音声認識システム１００Ａ（文字部品表現を用いる）（表中「（ｒ）」で示される）とを比較した。

【0107】

また、各言語単体で学習を行った場合と、単一のモデルを３つの言語で学習した場合とを比較した。評価としては、各言語のデータセットの一部をテストデータとして用いた。

【0108】

認識性能の評価指標として、文字誤り率（ＣＥＲ％：Character Error Rate）を用いている。

【0109】

【表1】

【0110】

表１に示すように、文字レベルの音声認識システムを単一の言語で学習した場合、当該学習した言語については高い性能を示している（ＭＡ（ｃ），ＨＫ（ｃ），ＴＷ（ｃ））。これに対して、第１の実施例に従う音声認識システム１００Ａにおいては、単一の言語で学習した場合の性能はやや劣っている（ＭＡ（ｒ），ＨＫ（ｒ），ＴＷ（ｒ））。

【0111】

しかしながら、単一のモデルを３つの言語で学習した場合には、第１の実施例に従う音声認識システム１００Ａ（ＭＡ＋ＨＫ＋ＴＷ（ｒ））は、関連技術に従う音声認識システム（ＭＡ＋ＨＫ＋ＴＷ（ｃ））に比較して、高い認識性能を示していることが分かる。

【0112】

次に、第２の実験例では、関連技術に従う音声認識システムにおいて、文字（character）単位および単語（word）単位で学習を行った場合と比較した。このとき、他の音声認識システムと比較可能となるように、第１の実施例に従う音声認識システム１００Ａを、台湾＜ＴＷ＞、香港＜ＨＫ＞、中国標準語＜ＭＡ＞の３言語のトレーニングデータセットに加えて、日本語のトレーニングデータセットを用いて学習した。日本語のトレーニングデータセットとしては、日本語話し言葉コーパス（Corpus of Spontaneous Japanese：ＣＳＪ）を用いた。なお、表２において、「Ｅ０１」，「Ｅ０２」，「Ｅ０３」は、ＣＳＪ－Ｅｖａｌ０１，ＣＳＪ－Ｅｖａｌ０２，ＣＳＪ－Ｅｖａｌ０３をそれぞれ意味する。

【0113】

このとき、日本語については、漢字に加えて、かなに相当する文字部品を含む文字部品表現を用いた。

【0114】

また、表２中において、ＷＰＭ（Wordpiece Model）についても比較例として示す。

【0115】

【表2】

【0116】

表２に示すように、第１の実施例に従う音声認識システム１００Ａの認識性能は、最新のモデルの認識性能と同等あるいはそれ以上となっている。

【0117】

次に、第３の実験例では、関連技術に従う音声認識システムのパラメータサイズについて評価を行った。第１の実施例に従う音声認識システム１００Ａ（表中「（ｒ）」で示される）および関連技術に従う音声認識システム（表中「（ｃ）」で示される）を、中国標準語＜ＭＡ＞および日本語＜ＪＰ＞のトレーニングデータセットを用いて学習した。

【0118】

第１の実施例に従う音声認識システム１００Ａと関連技術に従う音声認識システムとの間でほぼ同一の認識性能を発揮するまで学習した状態を比較すると、以下の表３のようになる。

【0119】

【表3】

【0120】

表３に示すように、文字誤り率（ＣＥＲ％）がほぼ同じ状態のモデル同士を比較すると、第１の実施例に従う音声認識システム１００Ａのパラメータサイズは、関連技術に従う音声認識システムの１／２以下であり、パラメータサイズが大幅に抑制されていることが分かる。

【0121】

［Ｅ．第２の実施例（表音文字）］
第２の実施例として、類似した発音体系を有する複数の言語に対して単一のモデルを用いた音声認識システムについて説明する。

【0122】

（ｅ１：概要）
図９は、第２の実施例に従う音声認識システム１００Ｂの概要を示す模式図である。図９を参照して、音声認識システム１００Ｂは、音声特徴を示す入力シーケンス２の入力を受けて、対応するテキストを出力シーケンス７０として出力する。すなわち、音声認識システム１００Ｂは、複数の言語のうち任意の言語で発話された音声信号の入力を受けて、対応するテキストを出力する推論器に相当する。

【0123】

出力シーケンス７０の先頭には、いずれの言語であるかを示す言語ラベル７２（＜ＭＹ＞，＜ＫＨ＞，＜ＳＩ＞，＜ＮＥ＞など）が付加されている。このような言語ラベル７２が付加されることによって、いずれの言語であるかを一意に特定できる。

【0124】

音声認識システム１００Ｂは、Ｔｒａｎｓｆｏｒｍｅｒ１０と、文字変換部９０とを含む。

【0125】

Ｔｒａｎｓｆｏｒｍｅｒ１０は、音声信号の音声特徴を示す入力シーケンス２を受けて、対応するテキストに含まれる文字の特徴を示す、文字（character）レベルとは異なるレベルの表現を出力する学習済モデルに相当する。より具体的には、Ｔｒａｎｓｆｏｒｍｅｒ１０は、文字レベルではなく、異なるレベルの表現（以下、「ユニバーサル音声表現９２」あるいは「Universal Articulatory representation」とも称す。）を用いる。ユニバーサル音声表現９２は、対応するテキストに含まれる各文字の発音を特定する情報を含む（詳細については後述する）。

【0126】

文字変換部９０は、予め定められた文字と当該文字の特徴との対応関係を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１０（学習済モデル）から出力される表現から対応するテキストを再構成する再構成部に相当する。より具体的には、文字変換部９０は、Ｔｒａｎｓｆｏｒｍｅｒ１０から出力されるユニバーサル音声表現９２の入力を受けて、出力すべき文字に変換して、出力シーケンス７０として出力する。

【0127】

第２の実施例においては、文字が示す音声を示す表現を用いてモデルの学習を行う。
（ｅ２：ユニバーサル音声表現９２）
ユニバーサル音声表現９２は、テキストの発音を規定する表現である。テキストの発音は、国際音声記号（ＩＰＡ：International Pronunciation Alphabet）を用いて規定されることが一般的である。ここで、異なる言語間では単音セット（phone-sets）が異なるが、ＩＰＡを用いた場合にはこのような異なる単音セットを適切に規定することが難しい。

【0128】

そこで、第２の実施例に従う音声認識システム１００Ｂにおいては、さまざまな言語の音韻構造を表現するユニバーサル特徴に基づく、ユニバーサル音声表現９２を用いる。ユニバーサル特徴としては、（１）円／非円唇、（２）舌（低、中央、高）、（３）舌（前、中、後）、（４）有無声音（声帯震動）、（５）子音（気流）、（６）唇、舌頂、舌背、咽喉音の６種類が想定される。さらに、ユニバーサル特徴として、声調などのその他の要因を加えてもよい。

【0129】

より具体的には、以下の表４のユニバーサル音声テーブルに示すように、３つのカテゴリごとに複数の属性（Attributes）が規定されている。３つのカテゴリは、子音の位置（consonants(position)）、子音の態様（consonants(manner)）、母音（vowel）を含む。

【0130】

【表4】

【0131】

ユニバーサル音声表現９２は、文字ごとに１または複数の属性の組み合わせが割り当てられることによって生成される。

【0132】

ユニバーサル音声表現９２は、典型的には、以下のようなデータ構造のシーケンスとして出力される。

【0133】

＜言語ラベル＞［属性］，［属性］，・・・，＜区切文字＞，［属性］，［属性］，・・・
ユニバーサル音声表現９２に含まれる＜言語ラベル＞は、いずれの言語であるかを特定するための情報を含む。

【0134】

ユニバーサル音声表現９２に含まれる［属性］（Attributes）は、表４のユニバーサル音声テーブルに従って定義されるユニバーサル特徴を特定するための情報を含む。このように、ユニバーサル音声表現９２は、音韻構造を表現するユニバーサル特徴に基づいて、対応する文字の発音を特定する情報を含む。

【0135】

ユニバーサル音声表現９２に含まれる＜区切文字＞は、出力される文字の区切りを意味し、＜区切文字＞から次の＜区切文字＞までに存在する［属性］に基づいて、出力すべき文字が再構成される。＜区切文字＞としては、単にブランク（無出力）を用いてもよい。

【0136】

なお、上述したユニバーサル音声表現９２のデータ構造は一例であり、文字を再構成できるものであれば、どのようなデータ構造を採用してもよい。

【0137】

上述したように、第２の実施例に従う音声認識システム１００Ｂにおいては、文字（character）レベルではなく、各文字の発音を規定するユニバーサル特徴のレベルで学習処理および推論処理を実行する。

【0138】

（ｅ３：処理の詳細）
次に、第２の実施例に従う音声認識システム１００Ｂにおける処理の詳細について説明する。

【0139】

図１０は、第２の実施例に従う音声認識システム１００Ｂにおける学習処理および推論処理の内容を説明するための模式図である。図１０を参照して、学習処理においては、多言語音声データ５３１および多言語テキストデータ５３２を含むトレーニングデータセット５３０が用いられる。多言語テキストデータ５３２には、いずれの言語であるかを示す言語ラベルを含んでいてもよい。

【0140】

多言語音声データ５３１から抽出される音声特徴（入力シーケンス）としてＴｒａｎｓｆｏｒｍｅｒ１０へ入力される。

【0141】

また、多言語テキストデータ５３２に対してユニバーサル特徴変換９１が適用されて、多言語テキストデータ５３２に含まれる文字ごとの発音を示す、１または複数の属性の組み合わせが出力される。多言語テキストデータ５３２に含まれる言語ラベルも抽出される。

【0142】

言語ラベルと１または複数の属性の組み合わせとを含むユニバーサル音声表現９２が、対応するラベル（正解データ）として、Ｔｒａｎｓｆｏｒｍｅｒ１０へ入力される。

【0143】

すなわち、多言語音声データ５３１と多言語テキストデータ５３２との組から生成される、音声特徴とユニバーサル音声表現９２との組に基づいて、Ｔｒａｎｓｆｏｒｍｅｒ１０のパラメータが最適化される。

【0144】

一方、推論処理においては、認識対象の多言語音声データ５３３から抽出される音声特徴（入力シーケンス）としてＴｒａｎｓｆｏｒｍｅｒ１０へ入力される。Ｔｒａｎｓｆｏｒｍｅｒ１０は、推論結果として、ユニバーサル音声表現９２を出力する。文字変換部９０は、ユニバーサル音声表現９２をテキストデータ５３４に変換し、推論結果として出力する。

【0145】

図１１は、第２の実施例に従う音声認識システム１００Ｂにおけるユニバーサル音声表現に係る処理を説明するための図である。図１１においては、図１０に示す学習処理および推論処理に対応付けて処理が示されている。

【0146】

図１１を参照して、学習処理においては、多言語テキストデータ５３２に含まれるテキストが単語（Word）９６の単位に分割された後、文字（character）９７の単位にさらに分割される。最終的に、文字９７ごとに１または複数の属性の組み合わせ９８が割り当てられる。このとき、音声特徴対応テーブル９４が参照される。このように、ユニバーサル音声表現９２は、対応するテキストに含まれる単語９６をさらに分解した文字９７ごとに発音を規定する情報を含むことになる。

【0147】

音声特徴対応テーブル９４は、言語ごとに、発音を特定する情報と対応する文字との対応関係を規定する。より具体的には、音声特徴対応テーブル９４は、各文字と１または複数の属性との対応関係を規定する。

【0148】

図１２は、第２の実施例に従う音声認識システム１００Ｂの文字変換部９０において利用される音声特徴対応テーブル９４の一例を示す図である。図１２を参照して、音声特徴対応テーブル９４は、文字（character）と、文字に対応するユニバーサル特徴の１または複数の属性の組み合わせとを規定する。音声特徴対応テーブル９４は、言語ごとに用意されてもよい。

【0149】

再度図１１を参照して、推論処理においては、音声特徴対応テーブル９４を参照して、音声特徴を示す入力シーケンスに対応する推論結果に含まれる属性の組み合わせ９８に対応する文字９７に順次変換される。そして、変換によって得られた文字９７から単語９６が再構成されて、推論結果として出力される。

【0150】

以上のような処理手順によって、音声認識システムを構築および運用できる。
（ｅ４：学習処理）
次に、第２の実施例に従う音声認識システム１００Ｂの学習処理についての一例について説明する。

【0151】

図１３は、第２の実施例に従う音声認識システム１００Ｂの学習処理の手順を示すフローチャートである。図１３に示す主要なステップは、典型的には、情報処理装置５００のプロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が学習プログラム５１４を実行することで実現される。

【0152】

図１３を参照して、情報処理装置５００は、音声特徴を示す入力シーケンス２と対応するテキストとの組からなるトレーニングデータセットの入力を受け付ける（ステップＳ２００）。情報処理装置５００は、受け付けたトレーニングデータセットのテキストを単語ごとに分割し（ステップＳ２０２）、分割した各単語を文字ごとに分割する（ステップＳ２０４）。さらに、情報処理装置５００は、文字ごとにユニバーサル特徴の１または複数の属性の組み合わせを決定する（ステップＳ２０６）。決定された１または複数の属性の組み合わせからラベルとしてのユニバーサル音声表現９２が生成される。このとき、対象のテキスト言語に対応する音声特徴対応テーブル９４が参照されてもよい。このように、情報処理装置５００は、テキストに含まれる文字の特徴を示す、文字レベルとは異なるレベルの表現を生成する。

【0153】

情報処理装置５００は、音声特徴を示す入力シーケンス２と対応する１または複数の属性との組み合わせからなるトレーニングデータセットを生成する（ステップＳ２０８）。

【0154】

続いて、情報処理装置５００は、Ｔｒａｎｓｆｏｒｍｅｒ１０のパラメータを初期化する（ステップＳ２１０）。そして、パラメータの最適化が実行される。すなわち、トレーニングデータセットを用いてＴｒａｎｓｆｏｒｍｅｒ１０に含まれるパラメータが最適化される。

【0155】

より具体的には、情報処理装置５００は、トレーニングデータセットに含まれる入力シーケンス２をＴｒａｎｓｆｏｒｍｅｒ１０に入力して出力シーケンス（ユニバーサル音声表現９２）を演算する（ステップＳ２１２）。そして、情報処理装置５００は、出力シーケンス（推論結果）と、トレーニングデータセットの対応するユニバーサル音声表現９２（正解データ）とを比較して誤差情報を演算し（ステップＳ２１４）、当該演算した誤差情報に基づいてＴｒａｎｓｆｏｒｍｅｒ１０のパラメータを最適化する（ステップＳ２１６）。

【0156】

情報処理装置５００は、予め定められた学習処理の終了条件が満たされているか否かを判断する（ステップＳ２１８）。予め定められた学習処理の終了条件が満たされていなければ（ステップＳ２１８においてＮＯ）、情報処理装置５００は、トレーニングデータセットに含まれるトレーニングデータを選択して、ステップＳ２１２以下の処理を再度実行する。

【0157】

これに対して、予め定められた学習処理の終了条件が満たされていれば（ステップＳ２１８においてＹＥＳ）、情報処理装置５００は、当該時点のパラメータ値で規定されるＴｒａｎｓｆｏｒｍｅｒ１０を学習済モデルとして決定する（ステップＳ２２０）。このときのパラメータ値が、学習済モデルを規定するパラメータセット５１８として出力される。そして、処理は終了する。

【0158】

（ｅ５：推論処理）
図１４は、第２の実施例に従う音声認識システム１００Ｂの推論処理の手順を示すフローチャートである。図１４に示す主要なステップは、典型的には、情報処理装置５００のプロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が推論プログラム５２０を実行することで実現される。

【0159】

図１４を参照して、情報処理装置５００は、入力される音声信号から音声特徴を演算することで入力シーケンスを生成する（ステップＳ２５０）。情報処理装置５００は、生成した入力シーケンスをＴｒａｎｓｆｏｒｍｅｒ１０に入力して、推論結果の出力シーケンスとして、ユニバーサル音声表現９２を演算する（ステップＳ２５２）。続いて、情報処理装置５００は、音声特徴対応テーブル９４を参照して、ユニバーサル音声表現９２を文字に変換し（ステップＳ２５４）、変換した複数の文字から単語を再構成する（ステップＳ２５６）。最終的に、再構成した複数の単語からなるテキストを生成する（ステップＳ２５８）。この生成したテキストが出力シーケンスとして出力される。

【0160】

そして、情報処理装置５００は、音声信号の入力が継続しているか否かを判断する（ステップＳ２６０）。音声信号の入力が継続していれば（ステップＳ２６０においてＹＥＳ）、ステップＳ２５０以下の処理が繰り返される。

【0161】

一方、音声信号の入力が継続していなければ（ステップＳ２６０においてＮＯ）、推論処理は一旦終了する。

【0162】

（ｅ６：性能評価結果）
次に、第２の実施例に従う音声認識システム１００Ｂの性能評価を行った結果の一例を示す。

【0163】

第２の実験例では、漢字を用いる言語として、アジア圏で用いられる、マレーシア語＜ＭＹ＞、クメール語＜ＫＨ＞、シンハラ語＜ＳＩ＞、ネパール語＜ＮＥ＞の４言語のトレーニングデータセットを用いた評価を行った。評価対象の音声認識システムとしては、単語（word）レベルで処理する音声認識システム（関連技術）（表中「（ｗ）」で示される）、文字（character）レベルで処理する音声認識システム（関連技術）（表中「（ｃ）」で示される）、国際音声記号（ＩＰＡ）に従う発音記号レベルで処理する音声認識システム（関連技術）（表中「（ｐ）」で示される）、ならびに、第２の実施例に従う音声認識システム１００Ｂ（ユニバーサル音声表現を用いる）（表中「（ａ）」で示される）を採用した。

【0164】

表５には、各言語単体および４言語で学習を行った場合のパラメータサイズの変化を示す。

【0165】

【表5】

【0166】

表５に示すように、いずれの評価例においても、第２の実施例に従う音声認識システム１００Ｂのパラメータサイズが最小となっていることが分かる。

【0167】

また、表６には、各言語単体および４言語で学習を行った場合の認識性能の変化を示す。認識性能の評価指標として、文字誤り率（ＣＥＲ％：Character Error Rate）を用いている。

【0168】

【表6】

【0169】

表６に示すように、第２の実施例に従う音声認識システム１００Ｂの認識性能は、国際音声記号（ＩＰＡ）に従う発音記号レベルで処理する音声認識システム（関連技術）の認識性能と同等あるいはそれ以上となっている。表５に示すように、パラメータサイズを大幅に低減できることを考慮すると、ユニバーサル音声表現を用いることで、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現できることが分かる。

【0170】

［Ｆ．応用例および変形例］
本実施の形態に従う音声認識システムを用いた応用例として、自動音声翻訳システムなどを実現してもよい。この場合には、本実施の形態に従う音声認識システムから出力されるテキストに対応する音声を出力する音声合成部をさらに追加することで実現できる。

【0171】

また、上述した第１の実施例および第２の実施例を単一のモデルを用いて実現することもできる。この場合には、文字部品表現およびユニバーサル音声表現の両方を出力できるように、Ｔｒａｎｓｆｏｒｍｅｒ１０の出力層の次元数を設定すればよい。加えて、さらに、第１の実施例および／または第２の実施例に加えて、文字レベルあるいは単語レベルで学習を行う言語を追加することも可能である。

【0172】

［Ｇ．まとめ］
本実施の形態に従う学習処理によれば、文字レベルとは異なるレベルの表現を用いた学習済モデルを利用することで、パラメータサイズの増大を抑制しつつ、認識性能を高めることができる推定器を実現できる。これによって、より少ないパラメータサイズのモデルを用いて、多言語エンド・トゥ・エンド音声認識システムを実現するための技術を提供できる。

【0173】

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0174】

２入力シーケンス、４入力埋め込み層、６，１６位置埋め込み層、８，１８加算器、１０Ｔｒａｎｓｆｏｒｍｅｒ、１４出力埋め込み層、２０エンコーダブロック、２２，４６ＭＨＡ層、２４，２８，４４，４８，５２加算・正則化層、２６，５０フィードフォワード層、４０デコーダブロック、４２ＭＭＨＡ層、６０ソフトマックス層、６４テキスト、７０出力シーケンス、７２言語ラベル、８０文字合成部、８２文字部品表現、８４文字部品対応テーブル、９０文字変換部、９１ユニバーサル特徴変換、９２ユニバーサル音声表現、９４音声特徴対応テーブル、９６単語、９７，８４４文字、９８属性の組み合わせ、１００Ａ，１００Ｂ音声認識システム、２００エンコーダ、４００デコーダ、５００情報処理装置、５０２ＣＰＵ、５０４ＧＰＵ、５０６主メモリ、５０８ディスプレイ、５１０ネットワークインターフェイス、５１２二次記憶装置、５１４学習プログラム、５１６モデル定義データ、５１８パラメータセット、５２０推論プログラム、５２２入力デバイス、５２４光学ドライブ、５２６光学ディスク、５２８内部バス、５３０トレーニングデータセット、５３１，５３３多言語音声データ、５３２多言語テキストデータ、５３４テキストデータ、８０２構造、８０４文字部品、８０６単純分解、８０８混合構造、８４２組み合わせ定義。

【図1】