特許7365121 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 三星電子株式会社の特許一覧

特許7365121音声認識モデルを個人化する方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-11

(45)【発行日】2023-10-19

(54)【発明の名称】音声認識モデルを個人化する方法及び装置

(51)【国際特許分類】

G10L 15/07 20130101AFI20231012BHJP

G10L 15/06 20130101ALI20231012BHJP

G10L 15/16 20060101ALI20231012BHJP

【ＦＩ】

G10L15/07

G10L15/06 400Z

G10L15/16

【請求項の数】 21

(21)【出願番号】P 2019010114

(22)【出願日】2019-01-24

(65)【公開番号】P2019197203

(43)【公開日】2019-11-14

【審査請求日】2021-09-08

(31)【優先権主張番号】10-2018-0054448

(32)【優先日】2018-05-11

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】１２９，Ｓａｍｓｕｎｇ－ｒｏ，Ｙｅｏｎｇｔｏｎｇ－ｇｕ，Ｓｕｗｏｎ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏ，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】權奇秀

(72)【発明者】

【氏名】宋仁哲

(72)【発明者】

【氏名】崔榮相

【審査官】佐久聖子

(56)【参考文献】

【文献】米国特許出願公開第２０１７／０１６１２５６（ＵＳ，Ａ１）

【文献】特開２００５－２２７３６９（ＪＰ，Ａ）

【文献】特開２０１５－１０２８０６（ＪＰ，Ａ）

【文献】特開２０１７－０５８６７４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１９／００－９９／００

(57)【特許請求の範囲】

【請求項1】

プロセッサで具現される音声認識モデルを個人化する方法であって、
ユーザに対応する言語グループを識別するステップと、
音声認識モデルの複数のレイヤのうちの１つ以上のレイヤに、前記識別された言語グループに対応するグループスケール行列を適用することで個人化された音声認識モデルを生成するステップと、を含み、
前記グループスケール行列を適用するステップは、前記言語グループのそれぞれの階層順に応じて順次前記言語グループのそれぞれに対応するグループスケール行列を前記１つ以上のレイヤに適用するステップを含む、音声認識モデルを個人化する方法。

【請求項2】

プロセッサで具現される音声認識モデルを個人化する方法であって、
ユーザに対応する言語グループを識別するステップと、
音声認識モデルの複数のレイヤのうちの１つ以上のレイヤに、前記識別された言語グループに対応するグループスケール行列を適用することで個人化された音声認識モデルを生成するステップと、を含み、
前記グループスケール行列を適用するステップは、
前記言語グループのうちの第１部分に対応する、前記グループスケール行列のうちの第１部分を、前記１つ以上のレイヤに適用するステップと、
前記言語グループのうちの第２部分に対応する、前記グループスケール行列のうちの第２部分を、前記音声認識モデルの他のレイヤに適用するステップと、
を含む、音声認識モデルを個人化する方法。

【請求項3】

プロセッサで具現される音声認識モデルを個人化する方法であって、
ユーザに対応する言語グループを識別するステップと、
音声認識モデルの複数のレイヤのうちの１つ以上のレイヤに、前記識別された言語グループに対応するグループスケール行列を適用することで個人化された音声認識モデルを生成するステップと、を含み、
前記個人化された音声認識モデルを生成するステップは、前記グループスケール行列と共にユーザスケール行列を前記１つ以上のレイヤに適用することで前記個人化された音声認識モデルを生成するステップを含む、音声認識モデルを個人化する方法。

【請求項4】

前記ユーザから音声信号が取得される場合に応答して、前記個人化された音声認識モデルでユーザスケール行列を前記取得された音声信号に基づいてトレーニングするステップと、
前記ユーザスケール行列のトレーニングの間に少なくとも１つのパラメータを固定するステップと、
をさらに含む、請求項３に記載の音声認識モデルを個人化する方法。

【請求項5】

前記個人化された音声認識モデルのうち、前記グループスケール行列が変更されたことに応答して前記ユーザスケール行列をアップデートするステップをさらに含む、請求項３に記載の音声認識モデルを個人化する方法。

【請求項6】

前記グループスケール行列の値と同一になるよう前記ユーザスケール行列の初期値を設定するステップをさらに含む、請求項３に記載の音声認識モデルを個人化する方法。

【請求項7】

前記言語グループを識別するステップは、前記ユーザに関するユーザ入力、位置情報、及び言語特性推定情報のうち少なくとも１つに応答して、前記ユーザの前記言語グループを識別するステップを含む、請求項１ないし６のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項8】

前記個人化された音声認識モデルを生成するステップは、
前記１つ以上のレイヤでノードの出力に前記グループスケール行列を適用することで、前記１つ以上のレイヤに含まれたノードの出力を補正するステップと、
前記補正された出力を次のレイヤにフォワーディングするステップと、
を含む、請求項１ないし７のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項9】

前記言語グループを識別するステップは、現在ユーザが以前ユーザと異なる場合に、前記現在ユーザに対応する言語グループを識別するステップを含む、請求項１ないし８のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項10】

前記現在ユーザに対応する言語グループを識別するステップは、前記以前ユーザが属する言語グループにグループスケール行列のうち一部のグループスケール行列をロードするステップを含み、
前記個人化された音声認識モデルを生成するステップは、前記ロードされた一部のグループスケール行列を前記音声認識モデルに適用することで個人化された音声認識モデルを生成するステップを含む、請求項９に記載の音声認識モデルを個人化する方法。

【請求項11】

前記個人化された音声認識モデルに基づいて、前記ユーザの音声入力を認識するステップをさらに含む、請求項１ないし１０のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項12】

前記個人化された音声認識モデルが生成された後、前記ユーザに対応する追加言語グループをさらに識別するステップと、
前記追加言語グループに対応する追加グループスケール行列を前記１つ以上のレイヤに適用することで、前記個人化された音声認識モデルをアップデートするステップと、
をさらに含む、請求項１ないし１１のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項13】

周期的に言語グループのうちターゲット言語グループに対応する複数のユーザからトレーニングデータを収集するステップと、
前記トレーニングデータに基づいて、前記ターゲット言語グループに対応するグループスケール行列をトレーニングするステップと、
をさらに含む、請求項１ないし１２のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項14】

前記グループスケール行列をトレーニングするステップは、前記ターゲット言語グループに対応するグループスケール行列よりも上位階層のグループスケール行列についてもトレーニングするステップを含む、請求項１３に記載の音声認識モデルを個人化する方法。

【請求項15】

前記個人化された音声認識モデルを生成するステップは、前記グループスケール行列が適用された前記１つ以上のレイヤの出力のそれぞれを予め決定された範囲に制限するステップを含む、請求項１ないし１４のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項16】

前記１つ以上のレイヤは、前記音声認識モデルのレイヤのうち前記ユーザの言語に対して指定されたレイヤを含む、請求項１ないし１５のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項17】

前記個人化された音声認識モデルを生成するステップは、以前ユーザと現在ユーザが同一である場合に応答して、前記以前ユーザに対して前記グループスケール行列が適用されたレイヤに前記グループスケール行列を適用するステップを含む、請求項１ないし１６のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項18】

前記言語グループは、人種に基づくグループ、地域に基づくグループ、年齢に基づくグループ、方言に基づくグループ、及び性別に基づくグループのうちの１つ又は２つ以上の組合せを含む、請求項１ないし１７のうち何れか一項に記載の音声認識モデルを個人化する方法。

【請求項19】

請求項１乃至請求項１８のいずれか一項に記載の方法をコンピュータに実行させるための命令語を含むコンピュータプログラム。

【請求項20】

電子装置であって、
音声信号を検出するセンサと、
個人化された音声認識モデル及び命令を格納するメモリと、
前記命令を実行するプロセッサと、
を含み、前記命令は、
請求項１乃至請求項１８のいずれか一項に記載の音声認識モデルを個人化する方法を前記プロセッサに実行させる、電子装置。

【請求項21】

前記センサは、ユーザの位置情報を検出し、
前記メモリは、前記位置情報を格納し、
前記プロセッサは、前記格納された位置情報に基づいてユーザに対応する言語グループを識別し、前記個人化された音声認識モデルを生成する、請求項２０に記載の電子装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下、音声認識モデルを個人化する技術が提供される。

【背景技術】

【0002】

音声認識は、音声入力に含まれた言語情報を音声入力に対応するテキスト情報に変換する過程で行われる。音声認識モデルは音声認識を補助する。音声認識モデルは、装置で音声入力を認識し、音声認識結果を出力するために使用される。音声認識モデルは、音声入力を分析して音声入力に含まれた言語情報がどのようなテキスト情報を示すかを推定するために使用され得る。音声入力は、音声シーケンスの形態を有する。

【発明の概要】

【発明が解決しようとする課題】

【0003】

本発明の目的は、音声認識モデルを個人化する方法及び装置を提供することにある。

【課題を解決するための手段】

【0004】

一実施形態に係るプロセッサで具現される音声認識モデルを個人化する方法は、ユーザに対応する言語グループを識別するステップと、音声認識モデルの複数のレイヤのうちの１つ以上のレイヤに、前記識別された言語グループに対応するグループスケール行列を適用することで個人化された音声認識モデルを生成するステップとを含む。

【0005】

前記言語グループを識別するステップは、前記ユーザに関するユーザ入力、位置情報、及び言語特性推定情報のうち少なくとも１つに応答して、前記ユーザの前記言語グループを識別するステップを含み得る。

【0006】

前記言語グループを識別するステップは、前記ユーザに対応する言語グループを識別するステップを含み、前記個人化された音声認識モデルを生成するステップは、前記音声認識モデルの前記１つ以上のレイヤに前記言語グループのそれぞれに対応するグループスケール行列を適用するステップを含み得る。

【0007】

前記グループスケール行列を適用するステップは、前記言語グループのそれぞれの階層順に応じて順次前記言語グループのそれぞれに対応するグループスケール行列を前記１つ以上のレイヤに適用するステップを含み得る。

【0008】

前記グループスケール行列を適用するステップは、前記言語グループのうちの第１部分に対応する、前記グループスケール行列のうちの第１部分を、前記１つ以上のレイヤに適用するステップと、前記言語グループのうちの第２部分に対応する、前記グループスケール行列のうちの第２部分を、前記音声認識モデルの他のレイヤに適用するステップとを含み得る。

【0009】

前記個人化された音声認識モデルを生成するステップは、前記グループスケール行列と共にユーザスケール行列を前記１つ以上のレイヤに適用することで前記個人化された音声認識モデルを生成するステップを含み得る。

【0010】

音声認識モデルを個人化する方法は、前記ユーザから音声信号が取得される場合に応答して、前記個人化された音声認識モデルでユーザスケール行列を前記取得された音声信号に基づいてトレーニングするステップと、前記ユーザスケール行列のトレーニングの間に少なくとも１つのパラメータを固定するステップとをさらに含み得る。

【0011】

音声認識モデルを個人化する方法は、前記個人化された音声認識モデルのうち、前記グループスケール行列が変更されたことに応答して前記ユーザスケール行列をアップデートするステップをさらに含み得る。

【0012】

音声認識モデルを個人化する方法は、前記グループスケール行列の値と同一になるよう前記ユーザスケール行列の初期値を設定するステップをさらに含み得る。

【0013】

前記個人化された音声認識モデルを生成するステップは、前記１つ以上のレイヤでノードの出力に前記グループスケール行列を適用することで、前記１つ以上のレイヤに含まれたノードの出力を補正するステップと、前記補正された出力を次のレイヤにフォワーディングするステップとを含み得る。

【0014】

前記言語グループを識別するステップは、現在ユーザが以前ユーザと異なる場合に応答して、前記現在ユーザに対応する言語グループを識別するステップを含み得る。

【0015】

前記現在ユーザに対応する言語グループを識別するステップは、以前ユーザが属する言語グループにグループスケール行列のうち一部のグループスケール行列をロードするステップを含み、前記個人化された音声認識モデルを生成するステップは、前記ロードされた一部のグループスケール行列を前記音声認識モデルに適用することで個人化された音声認識モデルを生成するステップを含み得る。

【0016】

音声認識モデルを個人化する方法は、前記個人化された音声認識モデルに基づいて、前記ユーザの音声入力を認識するステップをさらに含み得る。

【0017】

音声認識モデルを個人化する方法は、前記個人化された音声認識モデルが生成された後、前記ユーザに対応する追加言語グループをさらに識別するステップと、前記追加言語グループに対応する追加グループスケール行列を前記１つ以上のレイヤに適用することで、前記個人化された音声認識モデルをアップデートするステップとをさらに含み得る。

【0018】

音声認識モデルを個人化する方法は、時間周期の間言語グループのうちターゲット言語グループに対応する複数のユーザからトレーニングデータを収集するステップと、前記トレーニングデータに基づいて、前記ターゲット言語グループに対応するグループスケール行列をトレーニングするステップとをさらに含み得る。

【0019】

前記グループスケール行列をトレーニングするステップは、前記ターゲット言語グループに対応するグループスケール行列よりも上位階層のグループスケール行列についてもトレーニングするステップを含み得る。

【0020】

前記個人化された音声認識モデルを生成するステップは、前記グループスケール行列が適用された前記１つ以上のレイヤの出力のそれぞれを範囲に制限するステップを含み得る。

【0021】

前記１つ以上のレイヤは、前記音声認識モデルのレイヤのうち前記ユーザの言語に対して指定されたレイヤを含み得る。

【0022】

前記個人化された音声認識モデルを生成するステップは、以前ユーザと現在ユーザが同一である場合に応答して、前記以前ユーザに対して前記グループスケール行列が適用されたレイヤに前記グループスケール行列を適用するステップを含み得る。

【0023】

前記言語グループは、人種に基づくグループ、地域に基づくグループ、年齢に基づくグループ、方言に基づくグループ、及び性別に基づくグループのうちの１つ又は２以上の組合せを含み得る。

【0024】

一実施形態に係る音声認識モデルを個人化する装置は、ユーザに対応する言語グループを識別し、音声認識モデルの１つ以上のレイヤに、前記識別された言語グループに対応するグループスケール行列を適用することで個人化された音声認識モデルを生成するプロセッサを含む。

【0025】

一実施形態に係る電子装置において、音声信号を検出するセンサと、個人化された音声認識モデル及び命令を格納するメモリと、前記命令を実行するプロセッサとを含み、前記命令は、ユーザに対応する言語グループを識別し、音声認識モデルのうちの１つ以上のレイヤに前記識別された言語グループに対応するグループスケール行列を適用することで前記個人化された音声認識モデルを生成し、前記個人化された音声認識モデルに基づいて前記音声信号を認識し、前記認識された音声信号に基づいて文字列を生成する。

【0026】

前記センサは、ユーザの位置情報を検出し、前記メモリは、前記位置情報を格納し、前記プロセッサは、前記格納された位置情報に基づいて前記個人化された音声認識モデルを周期的にアップデートし得る。

【発明の効果】

【0027】

本発明によると、音声認識モデルを個人化する技術を提供することができる。

【図面の簡単な説明】

【0028】

【図1】一実施形態に係る個人化された音声認識システムの例示を説明する図である。

【図2】一実施形態に係る音声認識モデルを説明する図である。

【図3】一実施形態に係る音声認識モデルを個人化する方法を説明するフローチャートである。

【図4】一実施形態に係る階層的に構成された言語グループを説明する図である。

【図5】一実施形態に係るスケール行列が音声認識モデルに適用される例示を説明する図である。

【図6】一実施形態に係るスケール行列が音声認識モデルに適用される例示を説明する図である。

【図7】一実施形態に係るスケール行列が音声認識モデルに適用される例示を説明する図である。

【図8】一実施形態に係るスケール行列のトレーニングを説明する図である。

【図9】一実施形態に係る音声認識モデルを個人化する装置の構成に関するブロック図である。

【図10】一実施形態に係る音声認識モデルを個人化する装置の構成に関するブロック図である。

【発明を実施するための形態】

【0029】

以下、添付する図面を参照しながら実施形態を詳細に説明する。しかし、特許出願の範囲がこのような実施形態によって制限も限定もされることはない。各図面に提示された同じ参照符号は同じ部材を示す。

【0030】

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

【0031】

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

【0032】

異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

【0033】

また、添付図面を参照して説明することにおいて、図面符号に関係なく同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

【0034】

図１は、一実施形態に係る個人化された音声認識システムの例示を説明する図である。

【0035】

音声認識機構（ａｐｐａｒａｔｕｓ）は、音声認識装置及び音声認識サーバ１３０を含む。

【0036】

音声認識装置は、周辺の音を収集し、収集された周辺の音からデジタル信号である音声信号を取得する装置を示す。例えば、音声認識装置は、人が話す音（ｓｏｕｎｄ）を周辺の音として収集する。音声認識装置は、周辺の音から該当装置を所有するユーザの音声（ｖｏｉｃｅ）を区別する。

【0037】

音声認識装置は、個別ユーザによって所有する電子装置であってもよく、例えば、スマートフォン、スマートパッド、スマートバンドなどのウェアラブルデバイス、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、ラップトップなどを含む。異なる例として、音声認識装置は、複数のユーザ（例えば、第３ユーザ１１３及び第４ユーザ１１４）によって共有される電子装置であってもよく、例えば、音声認識スピーカ１０３、音声認識ＴＶ１０４などを含み得る。

【0038】

音声認識機構は、ユーザの音声を認識する。本明細書で音声認識は、音声信号に含まれたユーザの音声を区別し、ユーザの音声を言葉（ｌａｎｇｕａｇｅ）に変換する動作を示す。例えば、音声認識は、ユーザの音声を文字に変換する動作を示す。

【0039】

音声認識サーバ１３０は音声信号を認識し、音声信号に対応するテキストデータを生成する。音声認識サーバ１３０は、音声認識装置からユーザの音声信号を受信し、受信された音声信号に基づいて音声信号に対応するテキストデータを生成する。音声認識サーバ１３０は、音声信号から変換されたテキストデータを音声認識装置に伝達する。音声認識サーバ１３０によって生成されたテキストデータは、音声認識装置のユーザに提供される様々なサービスに活用され得る。

【0040】

例えば、図１を参照すると、第１端末１０１は、第１ユーザ１１１によって個人化（又はカスタマイズ）された電子装置を示し、第２端末１０２は、第２ユーザ１１２によって個人化された電子装置を示す。一例として、第１端末１０１は、「第１ユーザ１１１から第２ユーザ１１２に対応する第２端末１０２に電話をかけよ」との命令を示す音声信号を収集する。音声認識サーバ１３０は、第１ユーザ１１１の命令を指示する音声信号を第１端末１０１から受信する。音声認識サーバ１３０は、音声信号から第１ユーザ１１１の命令に対応するテキストデータを取得する。音声認識サーバ１３０は、取得されたテキストデータを第１端末１０１に伝達する。第１端末１０１は、第１ユーザ１１１の音声から認識されたテキストデータの受信に応答し、通話アプリケーションを実行して第２ユーザ１１２に電話をかけるよう通話アプリケーションを制御する。

【0041】

異なる例として、音声認識装置は、音声認識サーバ１３０によって認識されたテキストデータを用いて該当装置のユーザのスケジュールを生成したり、テキストデータを用いてウェブサービスのデータを検索したり、テキストデータを用いて文字メッセージを送信したり、テキストデータを用いて該当装置に格納されたデータを検索するサービスを提供する。例えば、音声認識サーバ１３０によって生成されたテキストデータは、ユーザの対応装置上に表示される。

【0042】

以下は、音声認識機構で個別ユーザのグループ化された共通の発話特徴に対して個人化レイヤをトレーニングさせたり、個人化されたトレーニングを用いて音声信号を認識したりする動作について説明する。

【0043】

ただし、音声認識装置及び音声認識サーバ１３０の動作を上述したように限定する必要はない。音声認識装置が音声信号を収集し、自体に該当の音声信号を認識してもよい。

【0044】

図２は、一実施形態に係る音声認識モデルを説明する図である。

【0045】

図１を参照して説明された音声認識システムは、音声認識モデル２２０を用いる。音声認識モデル２２０は、音声信号からテキストデータを出力するよう設計されたモデルを示す。音声認識モデル２２０は、音響モデル及び言語モデルを含む。本明細書では、音声認識サーバが音声認識モデル２２０を格納し、音声認識サーバが音声信号から音声認識モデル２２０に基づいてテキストデータを生成する実施形態を説明する。例えば、音声認識装置が音声信号又は音声信号から変換された特徴データを音声認識サーバに伝達し、音声認識サーバは、伝達された情報を用いて音声認識を行ってもよい。ただし、これに限定されることなく、音声認識装置が自体に音声認識モデル２２０を格納し、格納された音声認識モデル２２０を用いてユーザの音声を認識してもよい。

【0046】

音響モデルは、音声信号から抽出された特徴から音声信号を音素単位で認識するモデルを示す。例えば、音声認識システムは、音響モデルによって取得された音声信号を音素単位で認識した結果に基づいて、音声信号が示す単語を推定し得る。

【0047】

言語モデルは、単語間の連結関係に基づいた確率情報を取得するよう設計されたモデルを示す。言語モデルは、言語モデルに入力された単語に連結される次の単語に対する確率情報を提供する。例えば、言語モデルに「ｔｈｉｓ」の単語が入力される場合、言語モデルは「ｔｈｉｓ」の次に「ｉｓ」又は「ｗａｓ」が連結される確率情報を提供する。一実施形態によれば、音声認識システムは、言語モデルによって提供された確率情報に基づいて、最も確率の高い単語間の連結関係を選択し、選択結果を音声認識結果として出力する。

【0048】

以下では、音声認識モデル２２０のうち音響モデルに関する動作を主に説明する。一実施形態に係る音響モデルは、ニューラルネットワーク、例えば、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ｎ個レイヤニューラルネットワーク、又はＢＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）などのように様々な構造で具現される。ＤＮＮ又はｎ個レイヤニューラルネットワークは、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＤＢＮ（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、ＦＣＮ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、双方向ニューラルネットワーク（ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、又は、制限されたボルツマン・マシン（ｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｍａｃｈｉｎｅ）に対応したり、それぞれ完全接続、畳み込み、循環、及び／又は双方向接続として異なったり重なるニューラルネットワークの部分を含んでもよい。音響モデルが具現され得る機械学習構造について上述のように限定することなく、ＧＭＭ、ＤＮＮ、及びＢＬＳＴＭのうちの１つ以上の構造が結合される形態に具現されてもよい。ニューラルネットワークは、複数の人工ニューロン（以下、ノード）を用いて生物学的なシステムの算出能力を模倣するソフトウェアやハードウェアで具現された認識モデルを示す。ニューラルネットワークは、人工ニューロンを介して人の認知作用や学習過程を行う。

【0049】

一実施形態に係るニューラルネットワークは、複数のレイヤを含む。例えば、ニューラルネットワークは、入力レイヤ、１つ以上の隠れレイヤ２２１、及び出力レイヤを含む。入力レイヤは、入力データを受信して隠れレイヤ２２１に伝達し、出力レイヤは、隠れレイヤ２２１のノードから受信された信号に基づいて出力データを生成する。例えば、ニューラルネットワークは、入力、特徴マップ、出力を含む複数のレイヤを有する構造を有する。ニューラルネットワークで畳み込み演算は、カーネル（ｋｅｒｎｅｌ）と称するフィルタで入力ソース文章に対して実行され、その結果、特徴マップが出力される。畳み込み演算は、入力特徴マップとして出力特徴マップに対してカーネルを用いて再び実行され、新しい特徴マップが出力される。畳み込み演算がこのように繰り返し実行される場合、入力ソース文字の特徴に対する認識結果は、最終的にニューラルネットワークを介して出力され得る。

【0050】

１つ以上の隠れレイヤ２２１が入力レイヤ及び出力レイヤの間に連結され、音声認識システムは、隠れレイヤ２２１を介して入力データを予測しやすい値に変換し得る。入力レイヤ及び１つ以上の隠れレイヤ２２１に含まれたノードは、連結加重値を有する連結線を介して接続され、隠れレイヤ２２１及び出力レイヤに含まれたノードも連結加重値を有する連結線を介して接続される。ニューラルネットワークのうち、複数の隠れレイヤ２２１を含むニューラルネットワークをディープニューラルネットワークという。ディープニューラルネットワークを学習させることをディープラーニングという。ニューラルネットワークのノードのうち、隠れレイヤ２２１に含まれたノードを称して隠れノード２２９という。

【0051】

入力レイヤ、１つ以上の隠れレイヤ２２１、及び出力レイヤは、複数のノードを含む。隠れレイヤ２２１は、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）における畳み込みフィルタ又は完全接続レイヤ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）、又は、特別な機能や特徴に基づいた々様な種類のフィルタ又はレイヤであってもよい。

【0052】

音響モデルは、例えば、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）で具現される。ＲＮＮは、以前フレームの隠れレイヤ２２１の出力値が現在フレームの隠れレイヤ２２１に再び入力されるネットワークを示す。ＲＮＮは、以前の出力が新しい出力の算出結果に影響を与えることがある。

【0053】

一実施形態に係る音声認識システムは、音声シーケンス２０１を複数のフレームに分割し、分割されたフレームに対応する発音を予測する。音声認識システムは音響モデルを用いて音声認識を行い、音響モデルは、入力レイヤ、隠れレイヤ２２１、及び出力レイヤを含む。出力レイヤは、入力レイヤに入力されたフレーム２１０に対して予測された発音結果２３０を出力する。例えば、音声認識装置又は音声認識サーバは、各隠れレイヤ２２１に以前の隠れレイヤに含まれた以前隠れノード２２９の出力を連結加重値を有する連結線を介して入力し、以前隠れノード２２９の出力に連結加重値が適用された値及び活性化関数に基づいて隠れレイヤ２２１に含まれた隠れノード２２９の出力を生成する。一例によれば、次の隠れノードに出力を発射（ｆｉｒｅ）するため、活性化関数の結果は、現在隠れノードの閾値を超過しなければならない。この場合、ノードは、入力ベクトルを介して特定閾値の活性化強度に達する前には次のノードに信号を発射せず、不活性化状態を保持する。

【0054】

出力レイヤは、ソフトマックスレイヤであってもよい。一実施形態によれば、出力レイヤは全体発音数と同一数のノードを含む。出力レイヤの各ノードは、入力されたフレーム２１０が特定発音である確率を示す。

【0055】

従来におけるニューラルネットワークの機構と比較して、本明細書に記載されたニューラルネットワークの機構は、ユーザが変わるたびに現在ユーザに対応する言語グループを識別することで、音声認識モデルを個人化するニューラルネットワークにおける畳み込み演算を迅速かつ効率よく処理できる。一実施形態に係るニューラルネットワークの機構は、ユーザに関する言語特性推定情報に基づいて、ユーザの言語グループを識別してニューラルネットワークで畳み込み演算を迅速かつ効率よく処理できる。したがって、音声認識で使用したハードウェアリソースを最適に使用することができる。

【0056】

以下は、音声認識モデルを個人化する装置の動作について説明する。本明細書において、音声認識モデルを個人化する装置は、音声認識サーバ又は音声認識装置であってもよい。

【0057】

図３は、一実施形態に係る音声認識モデルを個人化する方法を説明するフローチャートである。

【0058】

まず、ステップＳ３１０において、音声認識モデルを個人化する装置は、ユーザに対応する言語グループを識別する。言語グループは、任意の言語に対して言語特性に応じて分類されるグループを示す。同じ言語に対しても、言語グループは民族に係る言語グループ、地域に係る言語グループ、及び性別に係る言語グループなどに分類されてもよい。例えば、韓国語に対して、民族に係る言語グループとして韓国人（Ｋｏｒｅａｎ）グループ及び外国人グループに分類されてもよい。地域に係る言語グループとして、ソウルグループ、全羅道グループ、及び慶尚道グループなどに分類されてもよく、地域に係るグループは地域の「なまり」により特徴付けられてもよい。性別に係る言語グループは、男性グループ及び女性グループなどに分類されてもよい。環境に係る言語グループは、室内グループ及び室外グループなどに分類されてもよい。年齢に係る言語グループは、ユーザの年齢層（例えば、１０代、２０代など）グループに分類されてもよい。ただし、上述した言語グループは単なる例示であって、設計に応じて変更されてもよい。また、各言語グループは、階層的に分類され、言語グループの階層は図４を参照して詳細に説明する。

【0059】

そして、ステップＳ３２０において、音声認識モデルを個人化する装置は、音響モデルの複数のレイヤのうち少なくとも一部のレイヤに、識別された言語グループに対応するグループスケール行列を適用することで個人化された音響モデルを生成する。

【0060】

音響モデルは、トレーニングデータに基づいてトレーニングされたモデルを示す。例えば、トレーニングデータは、様々な人の音声及びそれに対応するラベルの対を含む。音響モデルは、個人化される前のモデルを示す。音響モデルは、全ての人に示される一般的な発音特徴がトレーニングされたグローバルモデルであってもよく、ユーザの独立音響モデルを示す。

【0061】

個人化された音響モデルは、スケール行列が適用されたモデルを示す。スケール行列の適用は、下記の図５を参照して詳細に説明する。スケール行列は、言語グループの特性を示すグループスケール行列及びユーザの特性を示すユーザスケール行列を含む。例えば、音声認識モデルを個人化する装置は、ユーザが属する言語グループに対応するグループスケール行列を音声認識モデルに適用することにより、音声認識モデルを個人化し得る。また、音声認識モデルを個人化する装置は、該当ユーザに最適化したユーザスケール行列を音声認識モデルにさらに適用することで音声認識モデルをより個人化できる。

【0062】

一実施形態によれば、音声認識モデルを個人化する装置は、現在ユーザが以前ユーザと異なる場合に応答して、現在ユーザに対応する言語グループを識別する。例えば、人工知能スピーカの場合、様々なユーザによる音声が入力され、音声認識モデルを個人化する装置は、ユーザが変更されるごとに現在ユーザに対応する言語グループを識別し得る。

【0063】

また、音声認識モデルを個人化する装置は、以前ユーザが属する言語グループに複数のグループスケール行列のうち一部のグループスケール行列をロードする。音声認識モデルを個人化する装置は、ロードされた一部のグループスケール行列を音声認識モデルに適用することで個人化された音声認識モデルを生成し得る。例えば、音声認識モデルを個人化する装置は、以前ユーザ及び現在ユーザ間に共通している言語特性に対応するグループスケールベクトルのみをロードして用いてもよい。

【0064】

さらに、音声認識モデルを個人化する装置は、以前ユーザと現在ユーザが同一である場合に応答して、以前ユーザに対してグループスケール行列が適用されたレイヤにグループスケール行列を適用する。

【0065】

一実施形態に係る音声認識モデルを個人化する装置は、個人化された音声認識モデルに基づいてユーザの音声入力を認識することができる。

【0066】

図４は、一実施形態に係る階層的に構成された言語グループを説明する図である。

【0067】

任意の言語は、複数のユーザが有する共通の言語特性に応じて様々な言語グループに分類される。上述したように、言語グループは、民族、地域、性別、及び環境などのような様々な基準によって分類されてもよい。また、各言語グループは階層を示してもよく、音声認識モデルを個人化する装置は、言語グループを階層順に応じて適用してもよい。

【0068】

図４に示された例示は、階層的に構成された言語グループの例示として、最上位階層である第１階層は韓国人グループを含む。韓国人グループに対応するグループスケール行列はγ^Gkoに示されている。韓国人グループの下位階層である第２階層は地域に係る分類として、釜山グループ及びソウルグループなどを含んでもよい。釜山グループに対応するグループスケール行列は、γ^Gbuに、ソウルグループに対応するグループスケール行列はγ^Gseに示されている。釜山グループの下位階層である第３階層は、性別に係る分類として、女性グループ及び男性グループなどを含む。女性グループに対応するグループスケール行列はγ^Gfeに、男性グループに対応するグループスケール行列はγ^Gmaに示されている。

【0069】

最下位階層である第４階層は、個別ユーザによって区別される分類を示し、女性グループは、例えば、図４において、韓国人として釜山で住んでいる女性Ｎ名（ここで、Ｎは１以上の整数）のそれぞれに対応するユーザスケール行列（例えば、γ^Sfe1～γ^GfeN）を含む。男性グループは、例えば、韓国人として釜山で住んでいる男性Ｍ名（ここで、Ｍは１以上の整数）のそれぞれに対応するユーザスケール行列（例えば、γ^Sma1～γ^SmaM）を含む。

【0070】

一実施形態に係る音声認識モデルを個人化する装置は、ユーザに対応する言語グループを識別する。例えば、任意の女性ユーザが韓国人として釜山に住んでいるケースを仮定する。音声認識モデルを個人化する装置は、図４において、該当ユーザに対応する言語グループとして、韓国人グループ、釜山グループ、及び女性グループを識別する。音声認識モデルを個人化する装置は、識別された言語グループ及び該当ユーザに対応するスケール行列４１０（例えば、γ^Gko，γ^Gbu ，γ^Gfe 及びγ^Sfe1）を決定する。

【0071】

音声認識モデルを個人化する装置は、ユーザに関するユーザ入力、位置情報、及び言語特性推定情報のうち少なくとも１つに応答して、ユーザの言語グループを識別し得る。

【0072】

ユーザ入力は、ユーザから取得される入力を示す。音声認識モデルを個人化する装置は、ユーザから該当ユーザに関する言語特性に関する情報の直接的な入力を取得する。図４に示す例示として、音声認識モデルを個人化する装置は、ユーザから、ユーザが韓国人であることを指示する入力、ユーザが釜山で住んでいることを指示する入力、及びユーザが女性であることを指示する入力を取得する。

【0073】

位置情報は、音声認識モデルを個人化する装置によって収集された、ユーザの位置を指示する情報を示す。図４に示す例示として、位置情報は、ユーザの位置が釜山であることを指示する情報を示す。

【0074】

言語特性推定情報は、音声認識モデルを個人化する装置によって推定されたユーザの言語特性情報を示す。例えば、音声認識モデルを個人化する装置は、取得された音声信号からユーザの言語特性を推定し、推定された言語特性に対応する言語グループを識別する。例えば、音声認識モデルを個人化する装置は、取得された音声信号からユーザのなまりによって示されるアクセント及びトーンなどを推定し得る。

【0075】

他の例として、音声認識モデルを個人化する装置は、英語を使用するイギリス人として、リバプールで住んでいる３０代以下の男性に対する言語グループを識別する。音声認識モデルを個人化する装置は、英語に対する音響モデルにおいて、イギリス人グループ、リバプールグループ、３０歳以下のグループ、及び男性グループを識別し、該当言語グループのそれぞれに対応するグループスケール行列を決定する。更なる例として、音声認識モデルを個人化する装置は、英語に対する音響モデルにおいて、韓国人グループ及び男性グループなどを識別してもよい。

【0076】

音声認識モデルを個人化する装置は、以下で説明するように、決定されたスケール行列（例えば、グループスケール行列及びユーザスケール行列）を音声認識モデルに適用してもよい。

【0077】

図５～図７は、一実施形態に係るスケール行列が音声認識モデルに適用される例示を説明する図である。

【0078】

図５は、音声認識モデル５２０として、３つのＲＮＮがスタック（ｓｔａｃｋ）された構造を示す。例えば、音声認識モデルを個人化する装置は、左側のＲＮＮにｔ時点のフレームデータ５１１Ｓ_１（ｔ）を入力し、中間のＲＮＮにｔ＋１時点のフレームデータ５１２Ｓ_１（ｔ＋１）を入力し、右側のＲＮＮにｔ＋２時点のフレームデータ５１３Ｓ_１（ｔ＋２）を入力する。

【0079】

音声認識モデルを個人化する装置は、グループスケール行列５８０を音声認識モデル５２０のレイヤ５２１に適用することで、個人化された音声認識モデル５２０を生成する。例えば、音声認識モデルを個人化する装置は、少なくとも一部のレイヤ５２１に含まれたノードの出力にグループスケール行列５８０を適用することで、少なくとも一部のレイヤ５２１に含まれたノードの出力を補正できる。また、音声認識モデルを個人化する装置は、グループスケール行列５８０と共にユーザスケール行列５９０を少なくとも一部のレイヤ５２１に適用することで、個人化された音声認識モデル５２０を生成し得る。音声認識モデルを個人化する装置は、ユーザスケール行列５９０及びグループスケール行列５８０を隠れレイヤ５２１の隠れノードの出力に適用することで、該当ノードの出力を補正できる。

【0080】

まず、補正される前の隠れノードの出力は下記の数式（１）のように示す。

【0081】

【数1】

hⁱ _jはｉ番目のレイヤでｊ番目の隠れノードの出力を示す。ψ_jはｊ番目の隠れノードの活性化関数を示す。ｘは隠れノードの入力として、例えば、以前レイヤのノードからフォワーディングされた出力に対応する。例えば、音声認識では、１秒の音声が１０ｍｓ単位に分割されてもよく、音声認識モデルを個人化する装置は、１秒の音声を１００個のフレームに分割されてもよい。各フレームは、ベクトルに表現され、図５では、３つの時点のフレームデータ５１１，５１２，５１３がベクトルに表現される。ｉ＝１である場合、１番目のレイヤの隠れノードは、フレームデータ５１１，５１２，５１３を入力ｘとして受信してもよい。wⁱ _j ^Tは隠れノードの入力に乗算される加重値ベクトルを示す。bⁱ _jはバイアスを示す。ｉ及びｊは１以上の整数を示す。レイヤは入力から出力の順に配置され、例えば、入力レイヤと最も近く連結された隠れレイヤは１番目のレイヤである。

【0082】

スケール行列が適用された隠れノードの補正された出力は、下記の数式（２）のように示す。

【0083】

【数2】

h^i,GL1 _jはｉ番目のレイヤでｊ番目の隠れノードにスケール行列が適用された出力を示す。hⁱ _jは上述したように、ｉ番目のレイヤでｊ番目の隠れノードの出力を示す。γ^GL1 _jはＬ１言語グループのグループスケール行列５８０を示す。◎は要素演算を示し、例えば、行列の積を示す。ｆは、スケール行列をレイヤのノード出力に適用する関数を示し、例えば、補正された後の出力値の範囲を制限する関数であってもよい。例えば、ｆは、シグモイド関数及びｔａｎｈ関数などであってもよい。Ａはh^i,GL1 _jの出力範囲を限定する定数を示す。

【0084】

したがって、音声認識モデルを個人化する装置は、グループスケール行列５８０が適用された少なくとも一部のレイヤ５２１の出力のそれぞれを、予め決定された範囲（例えば、０～２）に制限する。

【0085】

音声認識モデルを個人化する装置は、補正された出力を次のレイヤ５２２でフォワードする。音声認識モデルを個人化する装置は、ノードの出力をレイヤ単位で順にフォワーディングし、最後のレイヤで最終出力を生成し得る。

【0086】

一実施形態に係る音声認識モデルを個人化する装置は、スケール行列をレイヤの出力に適用することで、ユーザに個人化された音声認識結果を生成できる。

【0087】

図６は、複数の言語グループに対応するグループスケール行列が適用された例示を示す。

【0088】

音声認識モデルを個人化する装置は、ユーザに対応する複数の言語グループを識別する。音声認識モデルを個人化する装置は、音声認識モデル６２０の少なくとも一部のレイヤ６２１に複数の言語グループのそれぞれに対応するグループスケール行列を適用する。例えば、音声認識モデルを個人化する装置は、複数の言語グループのそれぞれの階層順に応じて、順に複数の言語グループのそれぞれに対応するグループスケール行列を少なくとも一部のレイヤ６２１に適用する。

【0089】

音声認識モデルを個人化する装置は、数式（１）及び数式（２）による演算を各スケール行列ごとに適用する。例えば、音声認識モデルを個人化する装置は、複数の言語グループに対応するスケール行列を下記の数式（３）のように適用する。

【0090】

【数3】

上述した数式（３）において、h^i,K _jはｉ番目のレイヤでｊ番目の隠れノードにＫ個のスケール行列が適用された出力を示す。h^i,K-1 _jは、ｉ番目のレイヤでｊ番目の隠れノードにＫ－１個のスケール行列が適用された出力を示す。Ｋは、２以上の整数を示す。γ^K _jは、Ｋ番目のスケール行列を示す。ｆ_Ｋは、Ｋ－１個のスケール行列が適用された出力にＫ番目のスケール行列を適用する関数を示す。A_Kは、隠れノードの補正された出力の出力範囲を限定する定数を示す。ただし、複数のスケール行列の適用を上述した数式（３）に限定されることなく、様々な関数が適用されてもよい。

【0091】

図６に示された例示で、音声認識モデルを個人化する装置は、図４を参照して上述したように、３つの言語グループ（例えば、韓国人グループ、釜山グループ、及び女性グループ）を識別してもよい。音声認識モデルを個人化する装置は、３つのグループスケール行列６８１，６８２，６８３及びユーザスケール行列６９０をレイヤ６２１に適用する。図６に示された例示で数式（３）のＫは４であってもよい。

【0092】

音声認識モデルを個人化する装置は、少なくとも一部のレイヤ６２１に含まれたノードの出力にグループスケール行列を適用することで、少なくとも一部のレイヤ６２１に含まれたノードの出力を補正し得る。音声認識モデルを個人化する装置は、補正された出力を次のレイヤ６２２にフォワードする。

【0093】

図７は、複数の言語グループに対応するグループスケール行列が適用された異なる例示を示す。

【0094】

音声認識モデルを個人化する装置は、識別された言語グループに対応するグループスケール行列７８１，７８２，７８３をレイヤ７２１，７２２，７２３のそれぞれに適用する。音声認識モデルを個人化する装置は、ユーザスケール行列７９１，７９２，７９３についてもレイヤ７２１，７２２，７２３のそれぞれに適用する。各グループスケール行列７８１，７８２，７８３は同じ言語グループに対応し、各ユーザスケール行列７９１，７９２，７９３は同じユーザに対応する。

【0095】

他の例として、音声認識モデルを個人化する装置は、複数の言語グループのうち少なくとも一部に対応するグループスケール行列を少なくとも一部のレイヤに適用してもよい。音声認識モデルを個人化する装置は、複数の言語グループのうち他の一部に対応する異なるグループスケール行列を他のレイヤに適用してもよい。例えば、音声認識モデルを個人化する装置は、第１レイヤに第１グループスケール行列及び第１ユーザスケール行列に適用し、第２レイヤに第２グループスケール行列及び第２ユーザスケール行列に適用してもよい。

【0096】

更なる例として、音声認識モデルを個人化する装置は、音声認識モデルの複数のレイヤのうち、ユーザの言語に対して指定されたレイヤにグループスケール行列を適用してもよい。例えば、韓国語に対する音声認識モデルの場合、音声認識モデルを個人化する装置は、上位レイヤ（例えば、出力レイヤに隣接するレイヤ）にスケール行列（例えば、グループスケール行列及びユーザスケール行列）を適用してもよい。英語に対する音声認識モデルの場合、音声認識モデルを個人化する装置は、下位レイヤ（例えば、入力レイヤに隣接するレイヤ）にスケール行列を適用してもよい。

【0097】

ただし、スケール行列の適用を上述したものに限定されることなく、設計に応じて様々な構造にスケール行列が音声認識モデル７２０に適用され得る。

【0098】

図８は、一実施形態に係るスケール行列のトレーニングを説明する図である。

【0099】

音声認識モデルを個人化する装置が音声認識サーバである場合、音声認識サーバは、個別ユーザ端末によって要求されるグループスケール行列及びユーザスケール行列をロードしたり、該当ユーザ端末に配布したりする。音声認識モデルを個人化する装置は、複数の階層に分類される複数のグループスケール行列を必要に応じて選択的にロードしたり配布したりする。音声認識モデルを個人化する装置は、ユーザからの音声認識要求を取得する前に、グループスケール行列を予めトレーニングしておく。音声認識モデルを個人化する装置は、個別ユーザに対して個人化された音声認識モデル８２０を生成した後からユーザスケール行列をトレーニングさせてもよい。

【0100】

一実施形態によれば、音声認識モデルを個人化する装置は、任意のユーザに対して初期モデルを生成する場合、識別された言語グループに対応するグループスケール行列をロードし、ロードされたグループスケール行列と共にユーザスケール行列を該当の初期モデルに適用する。初期モデルに適用されたグループスケール行列は、既存のトレーニングデータ８９０に基づいて該当言語グループに基づいて予めトレーニングされた行列であってもよい。初期モデルに適用されたユーザスケール行列は、トレーニングされる前の初期化された値を有する。ユーザスケール行列の初期値は、例えば、予めトレーニングされたグループスケール行列と同じ値を有するよう設定されてもよい。

【0101】

音声認識モデルを個人化する装置は、ユーザから音声信号が取得される場合に応答して、個人化された音声認識モデル８２０でユーザスケール行列を取得された音声信号に基づいてトレーニングさせ得る。例えば、音声認識モデルを個人化する装置は、ユーザスケール行列のトレーニングの間に残りのパラメータ（例えば、加重値ベクトル及びバイアスなど）を固定し得る。

【0102】

さらに、音声認識モデルを個人化する装置は、個人化された音声認識モデル８２０のうち、グループスケール行列が変更されたことに応答して、ユーザスケール行列をアップデートし得る。音声認識モデルを個人化する装置は、個人化された音声認識モデル８２０が生成された後、ユーザに対応する追加言語グループをさらに識別し得る。音声認識モデルを個人化する装置は、追加言語グループに対応するグループスケール行列を少なくとも一部のレイヤに追加的に適用することで、個人化された音声認識モデル８２０をアップデートする。グループスケール行列は、ユーザスケール行列よりも上位階層に属するため、グループスケール行列が変更される場合、ユーザスケールが再びトレーニングされる必要がある。

【0103】

また、音声認識モデルを個人化する装置は、予め決定された周期の間に複数の言語グループのうち、ターゲット言語グループに対応する複数のユーザからトレーニングデータ８９０を収集する。ターゲット言語グループは、トレーニングの対象となる言語グループを示す。音声認識モデルを個人化する装置は、トレーニングデータ８９０に基づいて、ターゲット言語グループに対応するグループスケール行列をトレーニングする。音声認識モデルを個人化する装置は、ターゲット言語グループに対応するグループスケール行列よりも上位階層のグループスケール行列についてもトレーニングさせてもよい。下位階層の言語グループは、上位階層の言語グループに対応する言語特性を含んでいるため、下位階層の言語グループをトレーニングするとき、上位階層の言語グループに対応するグループスケール行列についてもトレーニングされなければならない。

【0104】

音声認識モデルを個人化する装置は、ユーザから新しく取得された音声信号に基づいて、新しいトレーニングデータ８９０を生成する。新しいトレーニングデータ８９０は、トレーニング入力８９１、基準テキスト８９２、及びグループラベル８９３を含む。トレーニング入力８９１は、音声信号又は音声信号から抽出された特徴データを示す。基準テキスト８９２は、該当トレーニング入力８９１が指示する真の（ｔｒｕｅ）テキストデータを示す。グループラベル８９３は、該当トレーニング入力８９１が示す言語特性によるグループを指示するデータを示す。

【0105】

一実施形態に係る音声認識モデルを個人化する装置は、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を介して音声認識モデル８２０（ニューラルネットワーク）のスケール行列をトレーニングさせ得る。教師あり学習は、トレーニングデータ８９０のトレーニング入力８９１に対応するトレーニング出力（図８では基準テキスト８９２）を共に音声認識モデル８２０に入力し、トレーニングデータ８９０のトレーニング出力に対応する出力データが出力されるようにスケール行列をアップデートする方式である。

【0106】

一実施形態によれば、音声認識モデルを個人化する装置は、ニューラルネットワークに逆伝播される損失及びニューラルネットワークに含まれたノードの出力値８０９に基づいた勾配下降法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）によりスケール行列を決定する。例えば、音声認識モデルを個人化する装置は、損失逆伝播学習により、グループスケール行列及びユーザスケール行列のうち少なくとも１つをアップデートする。損失逆伝播学習は、与えられたトレーニングデータ８９０に対してフォワード算出を介して損失を推定（例えば、誤差算出８８０）した後、出力レイヤから始まって隠れレイヤ及び入力レイヤに向かう逆方向に推定された損失を伝播しながら、損失を減らす方向にスケール行列をアップデートする方法である。

【0107】

音声認識モデルを個人化する装置は、現在設定されたスケール行列がどれ程最適に近いかを測定するための目的関数を定義し、目的関数の結果に基づいてスケール行列を続けて変更し、トレーニングを繰り返し行う。例えば、目的関数は、ニューラルネットワークがトレーニングデータ８９０のトレーニング入力８９１に基づいて、真の出力した出力値８０９と出力されることを所望する期待値（例えば、基準テキスト８９２）の間の損失を算出するための損失関数である。音声認識モデルを個人化する装置は、損失関数の値を減らす方向にスケール行列をアップデートする。

【0108】

音声認識モデルを個人化する装置は、個人化及び最新音声特性を反映するためにグループスケール行列をトレーニングさせ得る。特定ユーザの音声信号が個人化の目的として該当ユーザの音声認識モデル８２０に入力されれば、音声認識モデルを個人化する装置は、該当ユーザのユーザスケール行列をアップデートする。

【0109】

音声認識モデルを個人化する装置は、周期的に複数のユーザから音声信号を収集し、ユーザスケール行列よりも上位階層のグループスケール行列をアップデートする。音声認識モデルを個人化する装置は、複数のユーザから収集された音声信号のうち、共通している言語特性を示す音声信号を抽出する。音声認識モデルを個人化する装置は、共通している言語特性を示す音声信号を用いて、共通している言語特性を指示する言語グループに対応するグループスケール行列をトレーニングする。

【0110】

音声認識モデルを個人化する装置は、上述したトレーニングによって最新音声信号データ分布による言語特性をグループスケール行列に反映する。最新言語特性が反映されたグループスケール行列は、真の言語トレンドに対してより少ないミスマッチを示す。したがって、音声認識モデルを個人化する装置は、個別ユーザに対するトレーニングなくとも、該当ユーザの言語グループに基づいたグループスケール行列の適用を通して該当ユーザに対して個人化された音声認識モデル８２０を生成する。さらに、音声認識モデルを個人化する装置は、ユーザスケール行列の適用及びトレーニングによって該当ユーザに対してより個人化された音声認識モデル８２０を生成し得る。

【0111】

一実施形態に係る音声認識モデルを個人化する装置は、個別ユーザが生成された音声認識モデル８２０を用いるたびに、該当ユーザの音声特徴により最適化されるよう、個人化された音声認識モデル８２０をアップデートできる。

【0112】

また、音声認識モデルを個人化する装置は、個人化された音声認識モデル８２０のうち、グループスケール行列が変更されたことに応答して、ユーザスケール行列をアップデートできる。

【0113】

図９は、一実施形態に係る音声認識モデルを個人化する装置の構成に関するブロック図である。

【0114】

音声認識モデルを個人化する装置９００は、入出力インタフェース９１０、プロセッサ９２０、及びメモリ９３０を含む。

【0115】

入出力インタフェース９１０は、ユーザの音声又は正解テキストなどが入力されたり、ユーザに認識結果又はガイドテキストを提示する構成を意味する。例えば、入出力インタフェース９１０は、ユーザの音声が入力されるマイクロフォンを含む。入出力インタフェース９１０は、ユーザから正解テキストが入力されるキーボード、タッチスクリーン、又はタッチパッドなどを含む。入出力インタフェース９１０は、認識結果又はガイドテキストを提示するディスプレイを含む。例えば、ディスプレイは、ユーザインタフェースをレンダリングしたり、ユーザ入力を受信できる１つ以上のハードウェア構成を含む物理的な構造であり得る。例えば、ディスプレイは装置９００で埋め込められてもよい。例えば、ディスプレイは、装置９００から取り外し可能な外部周辺装置であってもよい。ディスプレイは、単一スクリーン又はマルチスクリーンディスプレイであってもよい。

【0116】

プロセッサ９２０は、ユーザに対応する言語グループを識別し、音声認識モデルの複数のレイヤのうち少なくとも一部のレイヤに、識別された言語グループに対応するグループスケール行列を適用することで、個人化された音声認識モデルを生成し得る。ただし、プロセッサ９２０の動作がこれに限定されることなく、プロセッサ９２０は、図１～図８を参照して説明した動作を行ってもよい。プロセッサ９２０の詳細は下記で提供される。

【0117】

メモリ９３０は、プロセッサ９２０によって実行される命令及び音声認識モデルを格納する。音声認識モデルは、統計的な音声認識モデル又はニューラルネットワーク基盤の音声認識モデルであり得る。音声認識モデルがニューラルネットワークである場合、メモリ９３０は、ニューラルネットワークの各レイヤの加重値などのようなパラメータを格納する。また、メモリ９３０は、グループスケール行列及びユーザスケール行列などを格納する。メモリ９３０は、カーネル構成、特徴マップ、加重値構成、及び／又は音声構成がプロセッサ９２０にロードされるデータベースを格納する。例えば、メモリ９３０は、プロセッサ９２０のメモリ又はプロセッサ９２０に直接接続されたバッファ／メモリ（例えば、プロセッサ９２０及びメモリ９３０にデータを迅速に送信するためのもの）であってもよい。また、メモリ９３０は、ユーザスケール行列及び１つ以上のグループスケール行列を格納する。

【0118】

一実施形態に係る音声認識モデルを個人化する装置９００は、個別ユーザの言語グループに対応するグループスケール行列を使用することで、最初から該当ユーザに個人化された音声認識を提供できる。

【0119】

また、音声認識モデルを個人化する装置９００は、一日単位又は一週間単位などでグループスケール行列をアップデートすることで、迅速に最新の音声信号特性を音声認識モデルに反映できる。さらに、音声認識モデルを個人化する装置９００は、数個の行列（例えば、ベクトル）のみをトレーニングさせればよいため、トレーニングに費やされる時間及び算出量が少ない。

【0120】

図１０は、ニューラルネットワークを具現する電子システム又は装置１０００の例示を示す。図１０を参照すれば、電子装置１０００は、センサ１０１０、プロセッサ１０２０、ローカルメモリ（図示せず）、メモリ１０３０、ディスプレイ１０５０、及びユーザインタフェース１０６０を含む。センサ１０１０、プロセッサ１０２０、メモリ１０３０、ディスプレイ１０５０、ユーザインタフェース１０６０は、バス１０４０を経由して互いに通信する。電子装置１０００は、図１に示されたスマートフォン１０１、スマートパッド１０２、音声認識スピーカ１０３、音声認識ＴＶ１０４、音声認識サーバ１３０、又は、図９に示す装置９００のうちの１つ以上に対応する。電子装置１０００は、上述したプロセス又は方法のうちの１つ以上又は全てを具現する。プロセッサ１０２０は図９に示すプロセッサ９２０に対応し、メモリ１０３０は図９に示すメモリ９３０に対応するが、これに限定されることはない。音声認識モデルがニューラルネットワークである場合、メモリ１０３０は、カーネル構成、特徴マップ、加重値構成、音声構成、及び／又はイメージ構成がプロセッサ１０２０のローカルバッファ／メモリからロードされたり、ローカルバッファ／メモリにロードされるデータベースを格納する。例えば、ローカルバッファ／メモリは、プロセッサ１０２０のメモリ又はローカルバッファ／メモリ及びプロセッサ１０２０にデータを迅速に送信できるプロセッサ１０２０に直接接続されたバッファ／メモリであってもよい。ローカルバッファ／メモリは、ニューラルネットワークの特定レイヤ又はニューラルネットワークの全てのレイヤの畳み込み出力結果を臨時的に格納するために割り当てられてもよい。最終の出力結果は、メモリ１０３０に格納されたり、次のレイヤの入力のために使用される。例えば、次のレイヤの入力として使用するための目的を除き、各レイヤの畳み込み結果は捨てられ、最終レイヤは単にメモリ１０３０に格納されたり、他のプロセス（例えば、アンラックのための協力動作及び電子装置１０００としてモバイルフォンのディスプレイ動作など）のために用いられるニューラルネットワークの結果を出力する。プロセッサ１０２０は、ニューラルネットワークプロセッシング機構又は解釈機構のうちの１つ又はその組合せで構成される１つ以上のプロセッサを示す。

【0121】

センサ１０１０は、例えば、マイクロフォン及び／又はイメージセンサ又はオーディオデータ及びビデオデータを検出するカメラを含み、電子装置１０００の周辺で話す人によって生成される声を収集する。センサ１０１０の出力は、プロセッサ１０２０又はメモリ１０３０に送信され、センサ１０１０の出力は、直接的にニューラルネットワークの入力レイヤに送信される。

【0122】

プロセッサ１０２０は、図１～図９を参照して上述した１つ以上又は全てのプロセスを行うように構成される。例えば、音声信号に対応するテキストデータを生成するために、プロセッサ１０２０は、図１～図９を参照して上述したニューラルネットワークの処理動作に基づいて入力データを認識、拒否、又は検証し得る。図１～図９を参照して説明されたニューラルネットワーク処理動作は、ユーザに関する言語特性推定情報に基づいてユーザの言語グループを識別し、ニューラルネットワークの畳み込み演算を効率よく処理できる。異なる例として、プロセッサ１０２０は、加速処理に考慮される損失逆伝播学習を介してユーザスケール行列及びグループスケール行列のうち少なくとも１つをアップデートすることで、音声認識モデルを個人化してニューラルネットワークで畳み込み動作を効率よく処理できる。認識動作の結果は、ディスプレイ１０５０を介して出力される。また、ニューラルネットワーク処理動作のユーザ調整又は選択的な動作は、ユーザインタフェース１０６０によって提供される。ユーザインタフェース１０６０は、タッチスクリーン又は他の入出力装置／システムを含む。プロセッサ１０２０は、ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｏｒｕｎｉｔ）、再構成可能なプロセッサ又は他のタイプの多重又は単一プロセッサの構成であってもよい。

【0123】

図１～図１０を参照して上述したニューラルネットワーク処理機構及び動作のうちの１つ以上の動作に対して、メモリ１０３０は、プロセッサ１０２０により実行されるとき、プロセッサ１０２０が追加動作、機能、及び電子装置１０００の制御（例えば、電子システムのユーザインタフェースなど）を行うようにする命令をさらに格納してもよい。電子装置１０００は、外部装置、例えば、ＰＣ、又は、ネットワークに電子システムの入出力装置を経由して接続されてもよく、外部装置とデータを交換し得る。電子装置１０００は様々な装置であってもよく、例えば、モバイル装置（例えば、モバイル電話、スマートフォン）、ウェアラブルスマート装置（例えば、指輪、時計、メガネ、メガネタイプの装置、腕輪、アンクレット、ベルト、ネックレス、イヤリング、ヘアバンド、ヘルメット、服に埋め込まれた装置、ＥＧＤ（ｅｙｅｇｌａｓｓｄｉｓｐｌａｙ）など）、コンピューティング装置（例えば、サーバ、ラップトップ、ノート型パソコン、サブノート型パソコン、ネットブック、ＵＭＰＣ（ｕｌｔｒａｍｏｂｉｌｅＰＣ）、タブレットＰＣ、ファブレット、モバイルインターネット装置（ＭＩＤ、ｍｏｂｉｌｅｉｎｔｅｒｎｅｔｄｅｖｉｃｅ）、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、ＥＤＡ（ｅｎｔｅｒｐｒｉｓｅｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、携帯ラップトップＰＣ）、電子製品（例えば、ロボット、デジタルカメラ、デジタルビデオカメラ、携帯用ゲームコンソール、ＭＰ３プレーヤー、ＰＭＰ（ｐｏｒｔａｂｌｅ／ｐｅｒｓｏｎａｌｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、ハンドヘルド電子本（ｈａｎｄｈｅｌｄｅ－ｂｏｏｋ）、ＧＰＳナビゲーション、個人ナビゲーション装置、ＰＮＤ（ｐｏｒｔａｂｌｅｎａｖｉｇａｔｉｏｎｄｅｖｉｃｅ）、ハンドヘルドゲームコンソール、電子本、ＴＶ、ＨＤＴＶ、スマートＴＶ、スマート機器、スマートホーム装置）、又は、ゲート制御のためのセキュリティー装置、様々な事物インターネット（ＩｏＴ、ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）装置、又は、無線ネットワーク通信が可能な装置であり得る。

【0124】

以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

【0125】

ソフトウェアは、コンピュータプログラム、コード、命令、又はこののうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

【0126】

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

【0127】

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

【0128】

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

【符号の説明】

【0129】

９００：音声認識モデルを個人化する装置
９１０：入出力インタフェース
９２０：プロセッサ
９３０：メモリ

【図1】