特開2020-27224(P2020-27224A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特開2020-27224言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
<>
  • 特開2020027224-言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム 図000004
  • 特開2020027224-言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム 図000005
  • 特開2020027224-言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム 図000006
  • 特開2020027224-言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム 図000007
  • 特開2020027224-言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-27224(P2020-27224A)
(43)【公開日】2020年2月20日
(54)【発明の名称】言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
(51)【国際特許分類】
   G10L 15/16 20060101AFI20200124BHJP
   G10L 15/07 20130101ALI20200124BHJP
【FI】
   G10L15/16
   G10L15/07
【審査請求】未請求
【請求項の数】8
【出願形態】OL
【全頁数】12
(21)【出願番号】特願2018-153495(P2018-153495)
(22)【出願日】2018年8月17日
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】増村 亮
(72)【発明者】
【氏名】田中 智大
(57)【要約】
【課題】話者を考慮した言語モデルスコアを算出すること。
【解決手段】リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、前記単語wの直前に観測された単語wi−1を単語ベクトルΦ(wi−1)に変換する単語ベクトル表現手段と、前記単語wi−1に対応する話者ラベルri−1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri−1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ(wi−1)と、前記話者ベクトルΨ(ri−1)と、前記単語wi−1の予測確率を算出する際に得られた単語履歴ベクトルsi−1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルsi−1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、を有することを特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、
前記単語wの直前に観測された単語wi−1を単語ベクトルΦ(wi−1)に変換する単語ベクトル表現手段と、
前記単語wi−1に対応する話者ラベルri−1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri−1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、
前記単語ベクトルΦ(wi−1)と、前記話者ベクトルΨ(ri−1)と、前記単語wi−1の予測確率を算出する際に得られた単語履歴ベクトルsi−1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、
前記単語履歴ベクトルsi−1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、
を有することを特徴とする言語モデルスコア算出装置。
【請求項2】
前記単語履歴ベクトル表現手段は、
前記単語ベクトルΦ(wi−1)と前記話者ベクトルΨ(ri−1)とを結合した結合ベクトルを構成した上で、前記結合ベクトルと前記単語履歴ベクトルsi−1とから前記単語履歴ベクトルsを算出する、ことを特徴とする請求項1に記載の言語モデルスコア算出装置。
【請求項3】
前記話者ラベルri−1は、前記単語wi−1を発話した話者を表す情報であり、
前記話者ラベルrは、前記単語wをこれから発話する話者を表す情報である、ことを特徴とする請求項1又は2に記載の言語モデルスコア算出装置。
【請求項4】
リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置であって、
単語系列w,・・・,wと、前記単語w,・・・,wに含まれる各単語の話者を表す話者ラベル系列r,・・・,rとを入力として、前記言語モデルにより、前記単語系列w,・・・,wに含まれる単語w毎に、該単語wの予測確率分布を算出する算出手段と、
前記単語系列w,・・・,wと、前記単語w毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手段と、
を有することを特徴とする学習装置。
【請求項5】
前記パラメータ更新手段は、
前記単語系列w,・・・,wに含まれる各単語を正解単語として、各予測確率分布における正解単語の予測確率が最大となるように前記モデルパラメータθを更新する、ことを特徴とする請求項4に記載の学習装置。
【請求項6】
リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置が、
前記単語wの直前に観測された単語wi−1を単語ベクトルΦ(wi−1)に変換する単語ベクトル表現手順と、
前記単語wi−1に対応する話者ラベルri−1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri−1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手順と、
前記単語ベクトルΦ(wi−1)と、前記話者ベクトルΨ(ri−1)と、前記単語wi−1の予測確率を算出する際に得られた単語履歴ベクトルsi−1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手順と、
前記単語履歴ベクトルsi−1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手順と、
を実行することを特徴とする言語モデルスコア算出方法。
【請求項7】
リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習する学習装置が、
単語系列w,・・・,wと、前記単語w,・・・,wに含まれる各単語の話者を表す話者ラベル系列r,・・・,rとを入力として、前記言語モデルにより、前記単語系列w,・・・,wに含まれる単語w毎に、該単語wの予測確率分布を算出する算出手順と、
前記単語系列w,・・・,wと、前記単語w毎の予測確率分布とを用いて、前記言語モデルのモデルパラメータθを更新するパラメータ更新手順と、
を実行することを特徴とする学習方法。
【請求項8】
コンピュータを、請求項1乃至3の何れか一項における言語モデルスコア算出装置における各手段、又は、請求項4又は5における学習装置における各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラムに関する。
【背景技術】
【0002】
音声認識や機械翻訳等では、言語的な予測のために言語モデルが必要である。言語モデルは、言語らしさを表す言語モデルスコア(例えば、単語の予測確率等)を算出可能なものであり、その性能が音声認識や機械翻訳等の性能を左右するものである。これまで様々な種類の言語モデルが提案されているが、近年、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)に基づく言語モデルが注目されている(例えば、非特許文献1及び2を参照)。リカレントニューラルネットワークに基づく言語モデルは非常に高い言語予測性能を持ち、音声認識や機械翻訳等で積極的に利用されている。
【0003】
リカレントニューラルネットワークに基づく言語モデルは、テキストデータから学習することができる。このとき、対象とするタスクに適合したテキストデータからリカレントニューラルネットワークに基づく言語モデルを学習することで、高い言語予測性能を実現するこができる。なお、リカレントニューラルネットワークに基づく言語モデルの学習とは、モデルパラメータ(すなわち、リカレントニューラルネットワークのパラメータ)を学習によって更新することである。
【0004】
リカレントニューラルネットワークに基づく言語モデルでは、単語系列w,・・・,wi−1が観測された条件下で現在の単語wを予測する場合、直前の単語wi−1と中間層の直前の出力si−1とを入力として、現在の単語wの予測確率P(w|wi−1,si−1,θ)の確率分布を出力する。ここで、θはリカレントニューラルネットワークに基づく言語モデルのモデルパラメータである。この予測確率Pが言語モデルスコアである。
【0005】
中間層の出力si−1にはi−2番目までの全ての単語の単語系列w,・・・,wi−2が埋め込まれているため、リカレントニューラルネットワークに基づく言語モデルでは、長距離の単語履歴情報を陽に利用して現在の単語wの予測確率P(w|wi−1,si−1,θ)、つまり言語モデルスコアを算出することができる。以降では、中間層の出力sを「単語履歴ベクトル」とも表す。なお、リカレントニューラルネットワークに基づく言語モデルに利用可能なリカレントニューラルネットワークは様々に存在し、例えば、LSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)等の種々のリカレントニューラルネットワークが利用可能である。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Mikolov Tomas, Karafiat Martin, Burget Lukas, Cernocky Jan, Khudanpur Sanjeev, "Recurrent neural network based language model", INTERSPEECH 2010, pp. 1045-1048, 2010.
【非特許文献2】Martin Sundermeyer, Ralf Schluter, and Hermann Ney, "LSTM Neural Networks for Language Modeling", INTERSPEECH 2012.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来のリカレントニューラルネットワークに基づく言語モデルは、話者を考慮しないモデルであるため、例えば単一話者の音声認識等に利用することを想定したモデルであった。したがって、従来のリカレントニューラルネットワークに基づく言語モデルでは、例えば、複数人間での会話等において、これまで誰が何を話してきて、これから誰が話すのか、といった情報を陽に活用して、現在の単語の予測確率(すなわち、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコア)を算出することができなかった。
【0008】
本発明の実施の形態は、上記の点に鑑みてなされたもので、話者を考慮した言語モデルスコアを算出することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明の実施の形態は、リカレントニューラルネットワークに基づく言語モデルの言語モデルスコアとして、単語wの予測確率を算出する言語モデルスコア算出装置であって、前記単語wの直前に観測された単語wi−1を単語ベクトルΦ(wi−1)に変換する単語ベクトル表現手段と、前記単語wi−1に対応する話者ラベルri−1と前記単語wに対応する話者ラベルrとをそれぞれ話者ベクトルΨ(ri−1)と話者ベクトルΨ(r)とに変換する話者ベクトル表現手段と、前記単語ベクトルΦ(wi−1)と、前記話者ベクトルΨ(ri−1)と、前記単語wi−1の予測確率を算出する際に得られた単語履歴ベクトルsi−1とを用いて、単語履歴ベクトルsを算出する単語履歴ベクトル表現手段と、前記単語履歴ベクトルsi−1と、前記話者ベクトルΨ(r)とを用いて、前記単語wの予測確率を算出する予測確率算出手段と、を有することを特徴とする。
【発明の効果】
【0010】
話者を考慮した言語モデルスコアを算出することができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施の形態における言語モデルスコア算出装置の機能構成の一例を示す図である。
図2】本発明の実施の形態におけるモデルパラメータ算出装置の機能構成の一例を示す図である。
図3】本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。
図4】本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。
図5】本発明の実施の形態における言語モデルスコア算出装置及びモデルパラメータ学習装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態では、リカレントニューラルネットワークに基づく言語モデルにおいて、話者を考慮した言語モデルスコアを算出する言語モデルスコア算出装置10について説明する。また、本発明の実施の形態では、話者を考慮した言語モデルスコアを算出可能な、リカレントニューラルネットワークに基づく言語モデルのモデルパラメータθを学習するモデルパラメータ学習装置20について説明する。
【0013】
ここで、一般に、発話する内容は話者の性別や役割等の違いによって異なると考えられる。例えば、コールセンターにおけるオペレータとカスタマーとの対話において次に発話する単語の予測確率を算出する場合、オペレータとカスタマーとの各々がこれまでどのような単語系列を発話したかを陽に観測でき、これから予測したい対象がオペレータであるか又はカスタマーであるかが分かっていれば、次に発話する単語の予測がより精緻に行えることが期待できる。
【0014】
すなわち、オペレータが次に発話する単語を予測する場合は、例えば、これまでオペレータが話していた発話スタイルの単語を発話すると共に、直前のカスタマーの単語に応対するような単語を発話することが考えられる。このため、話者を考慮した言語モデルスコアを算出することで、より精緻な単語予測を行うことができる。
【0015】
そこで、本発明の実施の形態における言語モデルスコア算出装置10は、リカレントニューラルネットワークに基づく言語モデルに対して話者情報を陽に導入することで、話者を考慮した言語モデルスコアを算出する。ここで、話者情報とは、単語を発話した話者又はこれから単語を発話する話者を表す話者ラベルのことである。以降では、単語wを発話した話者又はこれから発話する話者の話者ラベルをrと表す。例えば、i番目の単語wの予測確率を算出する場合に、これまで観測された単語系列w,・・・,wi−1をそれぞれ発話した話者の話者ラベル系列はr,・・・,ri−1と表され、これから発話される単語wの話者ラベルはrと表される。
【0016】
<言語モデルスコア算出装置10の機能構成>
まず、本発明の実施の形態における言語モデルスコア算出装置10の機能構成について、図1を参照しながら説明する。図1は、本発明の実施の形態における言語モデルスコア算出装置10の機能構成の一例を示す図である。
【0017】
図1に示すように、本発明の実施の形態における言語モデルスコア算出装置10は、リカレントニューラルネットワークに基づく言語モデル100を有する。この言語モデル100は、1以上のリカレントニューラルネットワークにより実現される。なお、リカレントニューラルネットワークとしては、例えば、LSTMやGRU等の種々のリカレントニューラルネットワークを利用することができる。
【0018】
言語モデル100は、単語wi−1と、単語wi−1に対応する話者ラベルri−1と、単語wに対応する話者ラベルrと、単語履歴ベクトルsi−1と、モデルパラメータθとを入力として、単語wの予測確率P(w|r,wi−1,ri−1,si−1,θ)の確率分布(すなわち、単語wの予測確率分布)を出力する。このとき、言語モデルスコア算出装置10の言語モデル100は、モデルパラメータ学習装置20により学習されたモデルパラメータθを用いる。なお、この予測確率P(w|r,wi−1,ri−1,si−1,θ)が言語モデル100の言語モデルスコアである。ただし、これに限られず、この予測確率P(w|r,wi−1,ri−1,si−1,θ)に基づく値(例えば、予測確率P(w|r,wi−1,ri−1,si−1,θ)の自然対数をとった値等)を言語モデルスコアとしても良い。
【0019】
ここで、話者ラベルrの値は、音声入力のチャネル等から決定することができる。例えば、チャネルAとチャネルBとの2つのチャネルがある場合に、チャネルAから入力された音を構成する単語wの話者ラベルrの値を「1」、チャネルBから入力された音を構成する単語wの話者ラベルrの値を「2」と決定することができる。これ以外にも、例えば、言語モデル100に単語wを入力する前の前処理として、任意の話者ラベル判定器によって話者ラベルrを獲得しても良い。
【0020】
言語モデル100は、機能部として、単語ベクトル表現部101と、話者ベクトル表現部102と、単語履歴ベクトル表現部103と、予測確率算出部104とを有する。
【0021】
単語ベクトル表現部101は、単語wの予測確率分布を算出する場合に、単語wi−1と、モデルパラメータθとを入力として、単語ベクトルΦ(wi−1)を出力する。すなわち、単語ベクトル表現部101は、モデルパラメータθに従って、単語wi−1を単語ベクトルΦ(wi−1)に変換する。
【0022】
単語ベクトルΦ(wi−1)としては、例えば、単語wi−1に対応する次元の要素のみを1、それ以外の要素を0とする1−hotベクトルを採用することができる。1−hotベクトルについては、例えば、上記の非特許文献1を参照されたい。なお、これ以外にも、例えば、1−hotベクトルに対して線形変換を行う方法等を採用することもできる。1−hotベクトルに対して線形変換を行う例については、例えば、上記の非特許文献2を参照されたい。
【0023】
話者ベクトル表現部102は、単語wの予測確率分布を算出する場合に、話者ラベルri−1と、モデルパラメータθとを入力として、話者ベクトルΨ(ri−1)を出力する。また、話者ベクトル表現部102は、話者ラベルrと、モデルパラメータθとを入力として、話者ベクトルΨ(r)を出力する。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルri−1及びrをそれぞれ話者ベクトルΨ(ri−1)及びΨ(r)に変換する。
【0024】
話者ベクトルΨ(ri−1)としては、例えば、話者ラベルri−1に対応する次元の要素のみを1、それ以外の要素を0とする1−hotベクトルを採用することができる。話者ベクトルΨ(r)についても同様である。1−hotベクトルについては、例えば、上記の非特許文献1を参照されたい。なお、これ以外にも、例えば、1−hotベクトルに対して線形変換を行う方法等を採用することもできる。1−hotベクトルに対して線形変換を行う例については、例えば、上記の非特許文献2を参照されたい。
【0025】
単語履歴ベクトル表現部103は、単語wの予測確率分布を算出する場合に、単語ベクトルΦ(wi−1)と、話者ベクトルΨ(ri−1)と、過去の単語履歴ベクトルsi−1と、モデルパラメータθとを入力として、単語履歴ベクトルsを出力する。すなわち、単語履歴ベクトル表現部103は、モデルパラメータθに従って、単語ベクトルΦ(wi−1)と、話者ベクトルΨ(ri−1)と、過去の単語履歴ベクトルsi−1とを単語履歴ベクトルsに変換する。このとき、単語履歴ベクトル表現部103は、単語ベクトルΦ(wi−1)と話者ベクトルΨ(ri−1)とを結合したベクトル(以降、「結合ベクトル」とも表す。)を構成した上で、この結合ベクトルに対してリカレントニューラルネットワークに基づく変換処理を実施することで、単語履歴ベクトルsを出力する。リカレントニューラルネットワークに基づく変換処理については、例えば、上記の非特許文献1や非特許文献2を参照されたい。
【0026】
なお、結合ベクトルは、例えば、単語ベクトルΦ(wi−1)の次元数が200、話者ベクトルΨ(ri−1)の次元数が64である場合、264次元のベクトルとして表される。また、過去の単語履歴ベクトルsi−1は、単語履歴ベクトル表現部103の再帰的な処理により計算されたものである。単語wの予測確率分布を算出する場合に用いる過去の単語履歴ベクトルsとしては、全ての要素が0であるベクトルとすれば良い。
【0027】
予測確率算出部104は、過去の単語履歴ベクトルsi−1と、話者ベクトルΨ(r)と、モデルパラメータθとを入力として、単語wの予測確率分布を出力する。すなわち、予測確率算出部104は、モデルパラメータθに従って、過去の単語履歴ベクトルsi−1と、話者ベクトルΨ(r)とから、単語wの予測確率P(w|r,wi−1,ri−1,si−1,θ)の確率分布を出力する。予測確率算出部104は、例えば、ソフトマックス関数を用いた変換により、単語wの予測確率分布を得ることができる。ソフトマックス関数を用いた変換については、例えば、上記の非特許文献1や非特許文献2を参照されたい。
【0028】
なお、上記で出力された単語wの予測確率分布は、例えば、音声認識等で利用することができる。具体的には、例えば、音声認識システムから出力される音声認識仮説のうちの上位M(≧1)個に対して、単語wの予測確率に基づきスコアリングを行い、音声認識仮説をリスコアリングする。例えば、音声認識システムが出力するスコアと、この予測確率の自然対数をとったスコアとを足し合わせたスコアで、リスコアリングを行う。
【0029】
<モデルパラメータ学習装置20の機能構成>
次に、本発明の実施の形態におけるモデルパラメータ学習装置20の機能構成について、図2を参照しながら説明する。図2は、本発明の実施の形態におけるモデルパラメータ学習装置20の機能構成の一例を示す図である。
【0030】
図2に示すように、本発明の実施の形態におけるモデルパラメータ学習装置20は、言語モデル100と、モデルパラメータ学習部200とを有する。ここで、言語モデル100は、上述した通りであるため、その詳細な説明は省略する。ただし、モデルパラメータ学習装置20の言語モデル100は、学習済みでないモデルパラメータθを用いて、単語wの予測確率分布を出力する。
【0031】
言語モデル100は、学習済みでないモデルパラメータθを用いて、単語系列w,・・・,wと、話者ラベル系列r,・・・,rとを入力として、単語wの予測確率分布を出力する。すなわち、言語モデル100は、i=1からNまで順に、単語wi−1と、話者ラベルrと、話者ラベルri−1とを入力として、単語wの予測確率分布を出力する。これにより、単語wから単語wまでの予測確率分布が得られる。なお、単語系列w,・・・,w及び話者ラベル系列r,・・・,rは、例えば、複数人間での会話データが作成された単語系列及び話者ラベル系列である。
【0032】
モデルパラメータ学習部200は、単語系列w,・・・,wと、言語モデル100から出力された各単語wの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。これにより、モデルパラメータθが学習される。
【0033】
このとき、モデルパラメータ学習部200は、以下の式(1)に示す尤度関数L(θ)が最大となるようにモデルパラメータθを更新する。
【0034】
【数1】
ここで、P(w|r,wi−1,ri−1,si−1,θ)は、入力された単語系列w,・・・,wのうちの単語wの予測確率である。例えば、単語wが「word1」、「word2」、「word3」を取り得る場合であって、入力された単語系列中のi番目の単語wが「word2」である場合、P(w|r,wi−1,ri−1,si−1,θ)は、単語「word2」の予測確率、つまりP(word2|r,wi−1,ri−1,si−1,θ)である。したがって、上記の式(1)に示す尤度関数L(θ)が最大化させるモデルパラメータθとは、正解単語w(つまり、入力された単語系列中のi番目の単語w)の予測確率P(w|r,wi−1,ri−1,si−1,θ)が最大となるモデルパラメータを意味する。
【0035】
このため、モデルパラメータ学習部200は、argmaxL(θ)を推定した上で、この推定値を、更新後のモデルパラメータθとすれば良い。尤度関数L(θ)が最大となるモデルパラメータθを推定する方法としては、様々な手法を利用することができる。このような手法としては、例えば、誤差逆伝播法等が挙げられる。
【0036】
なお、本発明の実施の形態では、言語モデルスコア算出装置10とモデルパラメータ学習装置20とが異なる装置であるもとしたが、これに限られず、例えば、言語モデルスコア算出装置10とモデルパラメータ学習装置20とが同一の装置であっても良い。
【0037】
<予測確率分布の算出処理>
次に、本発明の実施の形態における言語モデルスコア算出装置10が予測確率分布を算出する処理について、図3を参照しながら説明する。図3は、本発明の実施の形態における予測確率分布の算出処理の一例を示すフローチャートである。なお、図3のステップS101〜ステップS105の処理は、単語のインデックスを表すi毎に、i=1から順に繰り返し実行される。以降では、或る単語wの予測確率分布を算出する場合について説明する。また、モデルパラメータθは予め学習済みであるものとする。
【0038】
ステップS101:単語ベクトル表現部101は、1つ前の単語wi−1と、モデルパラメータθとを入力として、単語ベクトルΦ(wi−1)を得る。すなわち、単語ベクトル表現部101は、モデルパラメータθに従って、単語wi−1を単語ベクトルΦ(wi−1)に変換する。
【0039】
ステップS102:話者ベクトル表現部102は、話者ラベルri−1と、モデルパラメータθとを入力として、話者ベクトルΨ(ri−1)を得る。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルri−1を話者ベクトルΨ(ri−1)に変換する。
【0040】
ステップS103:話者ベクトル表現部102は、話者ラベルrと、モデルパラメータθとを入力として、話者ベクトルΨ(r)を得る。すなわち、話者ベクトル表現部102は、モデルパラメータθに従って、話者ラベルrを話者ベクトルΨ(r)に変換する。
【0041】
なお、上記のステップS101〜ステップS103の処理は順不同である。また、上記のステップS101の処理と、上記のステップS102又はステップS103のいずれかの処理とが並列で実行されても良い。また、上記のステップS103の処理は、後述するステップS104の処理の後に実行されても良い。
【0042】
ステップS104:単語履歴ベクトル表現部103は、単語ベクトルΦ(wi−1)と、話者ベクトルΨ(ri−1)と、過去の単語履歴ベクトルsi−1と、モデルパラメータθとを入力として、単語履歴ベクトルsを得る。すなわち、単語履歴ベクトル表現部103は、単語ベクトルΦ(wi−1)と話者ベクトルΨ(ri−1)とを結合した結合ベクトルを構成した上で、モデルパラメータθに従って、結合ベクトルと、過去の単語履歴ベクトルsi−1とを単語履歴ベクトルsに変換する。
【0043】
ステップS105:予測確率算出部104は、過去の単語履歴ベクトルsi−1と、話者ベクトルΨ(r)と、モデルパラメータθとを入力として、単語wの予測確率分布を得る。すなわち、予測確率算出部104は、モデルパラメータθに従って、過去の単語履歴ベクトルsi−1と、話者ベクトルΨ(r)とから、単語wの予測確率P(w|r,wi−1,ri−1,si−1,θ)の確率分布を得る。
【0044】
これにより、言語モデル100の言語モデルスコアとして、例えば、各単語wそれぞれの予測確率P(w|r,wi−1,ri−1,si−1,θ)が得られる。これらの予測確率Pは話者を考慮した言語モデルスコアであるため、この言語モデルスコアによってより精緻な単語予測を行うことができるようになる。
【0045】
<モデルパラメータの学習処理>
次に、本発明の実施の形態におけるモデルパラメータ学習装置20によりモデルパラメータを学習する処理について、図4を参照しながら説明する。図4は、本発明の実施の形態におけるモデルパラメータの学習処理の一例を示すフローチャートである。以降では、モデルパラメータθは、例えば、適切な初期値に初期化されているものとする。
【0046】
ステップS201:言語モデル100は、学習済みでないモデルパラメータθを用いて、単語系列w,・・・,wと、話者ラベル系列r,・・・,rとを入力として、単語wの予測確率分布を出力する。すなわち、言語モデル100は、i=1からNまで順に、単語wi−1と、話者ラベルrと、話者ラベルri−1とを入力として、上記のステップS101〜ステップS105の処理により単語wの予測確率分布を出力する。これにより、単語wから単語wまでの予測確率分布が得られる。
【0047】
ステップS202:次に、モデルパラメータ学習部200は、単語系列w,・・・,wと、言語モデル100から出力された各単語wの予測確率分布とを入力として、モデルパラメータθを更新した上で、更新後のモデルパラメータθを出力する。このとき、モデルパラメータ学習部200は、上記の式(1)に示す尤度関数L(θ)が最大となるようにモデルパラメータθを更新する。これにより、モデルパラメータθが学習される。
【0048】
なお、上記のステップS201〜ステップS202の処理は、例えば、単語系列w,・・・,wと話者ラベル系列r,・・・,rとの組が複数与えられた場合に、この組毎に繰り返し実行されても良い。
【0049】
<言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成>
次に、本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成について、図5を参照しながら説明する。図5は、本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20のハードウェア構成の一例を示す図である。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は略同様のハードウェア構成を有しているため、以降では、主に、言語モデルスコア算出装置10のハードウェア構成について説明する。
【0050】
図5に示すように、本発明の実施の形態における言語モデルスコア算出装置10は、入力装置301と、表示装置302と、外部I/F303と、RAM(Random Access Memory)304と、ROM(Read Only Memory)305と、プロセッサ306と、通信I/F307と、補助記憶装置308とを有する。これら各ハードウェアは、それぞれがバス309を介して通信可能に接続されている。
【0051】
入力装置301は、例えばキーボードやマウス、タッチパネル等であり、ユーザが各種操作を入力するのに用いられる。表示装置302は、例えばディスプレイ等であり、言語モデルスコア算出装置10の処理結果を表示する。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、入力装置301及び表示装置302のうちの少なくとも一方を有していなくても良い。
【0052】
外部I/F303は、外部装置とのインタフェースである。外部装置には、記録媒体303a等がある。言語モデルスコア算出装置10は、外部I/F303を介して、記録媒体303a等の読み取りや書き込みを行うことができる。記録媒体303aには、言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラム、モデルパラメータθ等が記録されていても良い。
【0053】
記録媒体303aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
【0054】
RAM304は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM305は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM305には、例えば、OS(Operating System)に関する設定情報や通信ネットワークに関する設定情報等が格納されている。
【0055】
プロセッサ306は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、ROM305や補助記憶装置308等からプログラムやデータをRAM304上に読み出して処理を実行する演算装置である。言語モデル100やモデルパラメータ学習部200は、例えば、補助記憶装置308に格納されている1以上のプログラムがプロセッサ306に実行させる処理により実現される。なお、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、プロセッサ306としてCPUとGPUとの両方を有していても良いし、CPU又はGPUのいずれか一方のみを有していても良い。
【0056】
通信I/F307は、言語モデルスコア算出装置10を通信ネットワークに接続するためのインタフェースである。言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラムは、通信I/F307を介して、所定のサーバ等から取得(ダウンロード)されても良い。
【0057】
補助記憶装置308は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置308に格納されているプログラムやデータには、例えば、OS、アプリケーションプログラム、言語モデル100やモデルパラメータ学習部200を実現する1以上のプログラム、モデルパラメータθ等が挙げられる。
【0058】
本発明の実施の形態における言語モデルスコア算出装置10及びモデルパラメータ学習装置20は、図5に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図5では、言語モデルスコア算出装置10が1台のコンピュータで実現される場合のハードウェア構成例を示したが、これに限られず、言語モデルスコア算出装置10及びモデルパラメータ学習装置20は複数台のコンピュータで実現されていても良い。
【0059】
<まとめ>
以上のように、本発明の実施の形態における言語モデルスコア算出装置10は、1つ前の単語wi−1に対応する話者ラベルri−1と、現在の単語wに対応する話者ラベルrとを用いることで、リカレントニューラルネットワークに基づく言語モデル100の言語モデルスコアとして、話者を考慮した単語wの予測確率を算出することができるようになる。これにより、本発明の実施の形態における言語モデルスコア算出装置10によって算出された言語モデルスコアを用いることで、より精緻な単語予測を行うことができるようになる。
【0060】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【符号の説明】
【0061】
10 言語モデルスコア算出装置
20 モデルパラメータ学習装置
100 言語モデル
101 単語ベクトル表現部
102 話者ベクトル表現部
103 単語履歴ベクトル表現部
104 予測確率算出部
200 モデルパラメータ学習部
図1
図2
図3
図4
図5