特許7244828 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　筑波大学の特許一覧 ▶ 本田技研工業株式会社の特許一覧

特許7244828言語処理装置、言語処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-03-14

(45)【発行日】2023-03-23

(54)【発明の名称】言語処理装置、言語処理方法、およびプログラム

(51)【国際特許分類】

G06F 40/279 20200101AFI20230315BHJP

G10L 15/19 20130101ALI20230315BHJP

【ＦＩ】

G06F40/279

G10L15/19

【請求項の数】 7

(21)【出願番号】P 2019027167

(22)【出願日】2019-02-19

(65)【公開番号】P2020135342

(43)【公開日】2020-08-31

【審査請求日】2021-12-16

(73)【特許権者】

【識別番号】504171134

【氏名又は名称】国立大学法人筑波大学

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】若林啓

(72)【発明者】

【氏名】竹内誉羽

【審査官】木村大吾

(56)【参考文献】

【文献】特開２０００－２００２７３（ＪＰ，Ａ）

【文献】特開２０１２－０９３８０８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／０３５６９６９（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

Ｇ１０Ｌ１５／１９

(57)【特許請求の範囲】

【請求項1】

発話を複数のトークンに分解し、分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成し、生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行い、前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行う意図理解部、
を備え、
前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである、言語処理装置。

【請求項2】

前記意図理解部は、前記コストの計算にディリクレ過程（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓ）を用いる、請求項１に記載の言語処理装置。

【請求項3】

前記意図理解部は、最適パスの計算に動的計画法を用いる、請求項１または請求項２に記載の言語処理装置。

【請求項4】

前記ラティス構造は、
非スロット部分の前記トークンを表すｂｅｇノードと、主題スロット部分の前記トークンを表すｓｂｊノードと、フレーズの終点を表すｔｅｒｍノードと、
同じ種類のノード間の継続経路である継続エッジと、前記ｔｅｒｍノードから前記ｓｂｊノードへ遷移する経路であるｔｅｒｍ－ｓｂｊエッジと、前記ｔｅｒｍノードから前記ｂｅｇノードへ遷移する経路であるｔｅｒｍ－ｂｅｇエッジと、前記ｓｂｊノードから前記ｔｅｒｍノードへ遷移する経路であるｓｂｊ－ｔｅｒｍエッジと、前記ｂｅｇノードから前記ｔｅｒｍノードへ遷移する経路であるｂｅｇ－ｔｅｒｍエッジと、
前記ｂｅｇノードと、前記ｓｂｊノードと、前記ｔｅｒｍノードと、前記継続エッジと、前記ｔｅｒｍ－ｓｂｊエッジと、前記ｔｅｒｍ－ｂｅｇエッジと、前記ｓｂｊノードから前記ｓｂｊ－ｔｅｒｍエッジと、前記ｂｅｇ－ｔｅｒｍエッジと、前記ｔｅｒｍノードから前記ｓｂｊノードに遷移する確率と、前記ｔｅｒｍノードから前記ｂｅｇノードに遷移する確率と、前記ｓｂｊノードから前記ｔｅｒｍノードに遷移する確率と、前記ｂｅｇノードから前記ｔｅｒｍノードに遷移する確率と、で表される、請求項１から請求項３のいずれか１項に記載の言語処理装置。

【請求項5】

前記動的計画法は、各ノードで、フレーズを継続するか、フレーズを終了して別のラベルを持つ新しいフレーズを開始するかのいずれかを選択する遷移の系列の列挙である、請求項３に記載の言語処理装置。

【請求項6】

意図理解部が、発話を複数のトークンに分解するステップと、
前記意図理解部が、分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成するステップと、
前記意図理解部が、生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行うステップと、
前記意図理解部が、前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行うステップと、
を含み、
前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである、言語処理方法。

【請求項7】

言語処理装置のコンピュータに、
発話を複数のトークンに分解するステップと、
分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成するステップと、
生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行うステップと、
前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行うステップと、
を実行させ、
前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、言語処理装置、言語処理方法、およびプログラムに関する。

【背景技術】

【0002】

近年、音声認識技術の発達により、高度な音声対話システムの実現に期待が集まっている。例えば、特定のタスクを遂行するためのタスク指向型の対話システムでは、あらかじめ用意した機能を実行するためのパラメータを音声発話から抽出することで、ユーザの意図を反映して当該機能を実行する。また、発話されたフレーズから意図を表すフレーズを抽出することで、抽出した意図に対応する行動を実行する。

【0003】

ここで、音声言語理解とは、一般的にスロット充填作業と、定義される自然言語発話から発言者の意図を認識することを指す。例えば、“ＲｅｍｉｎｄｍｅｔｏｃａｌｌＪｏｈｎａｔ９ａｍｔｏｍｏｒｒｏｗ”という発話では、特定の情報｛“ｔｉｍｅ”：“９ａｍｔｏｍｏｒｒｏｗ”｝と｛“ｓｕｂｊｅｃｔ”：“ｔｏｃａｌｌＪｏｈｎ”｝を抽出する必要がある。

【0004】

この抽出するべきパラメータ変数のことをスロットと呼ぶ。図１３は、スロットを説明するための図である。例えば、リマインダ作成のドメインにおいては、通知日時や通知内容がスロットに対応する。図１３において、符号ｇ９０１は、処理対象の英語のフレーズ例である。また、符号ｇ９０２は、符号ｇ９０１のフレーズから抽出すべきスロット例である。符号ｇ９０２において、「ｓｕｂｊｅｃｔ」はｓｕｂｊｅｃｔ（主題）スロットであり、「ｔｉｍｅ」はｔｉｍｅ（時間）スロットである。

【0005】

このようなスロットの推定手法として、ディリクレ過程（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓ）を用いたスロット分布に基づく発話生成モデルを利用した手法が提案されている。例えば発明者らによる非特許文献１では、任意の自然言語フレーズの生成を伴うノンパラメトリックなベイジアンモデルとして無限のスロット値を直接モデル化する階層的なディリクレ過程スロットモデル（ＨＤＰＳＭ；ＨｉｅｒａｒｃｈｉｃａｌＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓＳｌｏｔＭｏｄｅｌ）を用いてスロットの推定を行っている。また、非特許文献１では、前処理としてＣＲＦ（Ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ；条件付き確率場）などの識別処理を行った後、ＤＰＳＭによってリランキングすることでスロットの推定を行っている。なお、このような手法は、前処理のＣＲＦの解析結果に依存していた。

【先行技術文献】

【非特許文献】

【0006】

【文献】Wakabayashi Kei, Takeuchi Johane, Funakoshi Kotaro, and Nakano Mikio. Nonparametric Bayesian Models for Spoken Language Understanding. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp. 2144-2152, 2016.

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、従来の手法で音声やテキスト文を解析して必要とする情報を抽出する際に、高い抽出精度を実現しようとすると高価で大電力を消費するハードウェアが必要となる。このため、従来の言語理解の手法では、大規模な計算機システムを用いないと高い抽出精度を実現するのが困難であった。

【0008】

本発明は、上記の問題点に鑑みてなされたものであって、音声やテキスト文から必要とする情報を高い精度で、且つ低コストで抽出することができる言語処理装置、言語処理方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0009】

（１）上記目的を達成するため、本発明の一態様に係る言語処理装置は、発話を複数のトークンに分解し、分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成し、生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行い、前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行う意図理解部、を備え、前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである。

【0010】

（２）また、本発明の一態様に係る言語処理装置において、前記意図理解部は、前記コストの計算にディリクレ過程（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓ）を用いるようにしてもよい。

【0011】

（３）また、本発明の一態様に係る言語処理装置において、前記意図理解部は、最適パスの計算に動的計画法を用いるようにしてもよい。

【0012】

（４）また、本発明の一態様に係る言語処理装置において、前記ラティス構造は、非スロット部分の前記トークンを表すｂｅｇノードと、主題スロット部分の前記トークンを表すｓｂｊノードと、フレーズの終点を表すｔｅｒｍノードと、同じ種類のノード間の継続経路である継続エッジと、前記ｔｅｒｍノードから前記ｓｂｊノードへ遷移する経路であるｔｅｒｍ－ｓｂｊエッジと、前記ｔｅｒｍノードから前記ｂｅｇノードへ遷移する経路であるｔｅｒｍ－ｂｅｇエッジと、前記ｓｂｊノードから前記ｔｅｒｍノードへ遷移する経路であるｓｂｊ－ｔｅｒｍエッジと、前記ｂｅｇノードから前記ｔｅｒｍノードへ遷移する経路であるｂｅｇ－ｔｅｒｍエッジと、前記ｂｅｇノードと、前記ｓｂｊノードと、前記ｔｅｒｍノードと、前記継続エッジと、前記ｔｅｒｍ－ｓｂｊエッジと、前記ｔｅｒｍ－ｂｅｇエッジと、前記ｓｂｊノードから前記ｓｂｊ－ｔｅｒｍエッジと、前記ｂｅｇ－ｔｅｒｍエッジと、前記ｔｅｒｍノードから前記ｓｂｊノードに遷移する確率と、前記ｔｅｒｍノードから前記ｂｅｇノードに遷移する確率と、前記ｓｂｊノードから前記ｔｅｒｍノードに遷移する確率と、前記ｂｅｇノードから前記ｔｅｒｍノードに遷移する確率と、で表されるようにしてもよい。

【0013】

（５）また、本発明の一態様に係る言語処理装置において、前記ラティス構造において、前記ｓｂｊノードから前記ｓｂｊノードに推移する確率が０であり、前記ｂｅｇノードから前記ｂｅｇノードに推移する確率が０であるようにしてもよい。

【0014】

（５）また、本発明の一態様に係る言語処理装置において、動的計画法は、各ノードで、フレーズを継続するか、フレーズを終了して別のラベルを持つ新しいフレーズを開始するかのいずれかを選択する遷移の系列の列挙であるようにしてもよい。

【0015】

（６）上記目的を達成するため、本発明の一態様に係る言語処理方法は、意図理解部が、発話を複数のトークンに分解するステップと、前記意図理解部が、分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成するステップと、前記意図理解部が、生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行うステップと、前記意図理解部が、前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行うステップと、を含み、前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである。

【0016】

（７）上記目的を達成するため、本発明の一態様に係るプログラムは、言語処理装置のコンピュータに、発話を複数のトークンに分解するステップと、分解した複数の前記トークンに対して前記トークンの組み合わせとトークン間の遷移をラティス構造として生成するステップと、生成した前記ラティス構造に対して前記トークンから他の前記トークンへ遷移する確率であるコストの計算を行うステップと、前記ラティス構造と前記コストに基づいて最適パスの計算を行うことで、前記発話から抽出すべきパラメータであるスロットの推定を行うステップと、を実行させ、前記ラティス構造は、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定して構築されたものである、プログラム。

【発明の効果】

【0017】

（１）、（６）および（７）によれば、コストを計算したラティス構造に対して動的計画を用いてスロットの推定を行うようにしたので、学習に係る時間を低減でき且つスロットの推定にかかる時間を低減することができる。また、（１）、（６）および（７）によれば、高い精度でスロットの推定を行うことができる。この結果、（１）、（６）および
（７）によれば、音声やテキスト分から必要とする情報を高い精度抽出でき且つ低コストで抽出することができる。
また、（１）、（６）および（７）によれば、テキストが英語等であっても日本語等であっても、音声やテキスト分から必要とする情報を高い精度抽出でき且つ低コストで抽出することができる。また、（１）、（６）および（７）によれば、テキストが日本語等の場合であっても、ラティス構造の生成前に形態素解析の処理が不要になる。

【0018】

（２）、（３）によれば、学習に係る時間を低減でき且つスロットの推定にかかる時間を低減することができる。
（４）によれば、ラティス構造の生成前の前処理が不要であり、音声やテキスト分から必要とする情報を低コストで抽出することができる。

【0019】

本発明の一態様によれば、確率モデルにおける遷移状態の計算を簡素化することができる。（５）によれば、ディリクレ過程スロットモデルの生成前の前処理が不要になる。

【図面の簡単な説明】

【0020】

【図1】本実施形態に係る対話システムの構成例を示すブロック図である。

【図2】本実施形態に係るラティス構造の例を示す図である。

【図3】本実施形態に係るスロットの推定結果を示す図である。

【図4】本実施形態に係るフレーズが日本語の場合のラティス構造の例と確率モデル例を示す図である。

【図5】本実施形態に係る処理手順例のフローチャートである。

【図6】本実施形態の有用性を確認するために行った計測結果例を示す図である。

【図7】日本語コーパスを用いた場合の各手法のスロットの推定精度を示す図である。

【図8】英語コーパスを用いた場合の各手法のスロットの推定精度を示す図である。

【図9】日本語コーパスと英語コーパスにおける学習の実行時間の比較結果を示す図である。

【図10】日本語コーパスと英語コーパスにおけるスロット推定精度の比較を示す図である。

【図11】日本語コーパスと英語コーパスにおける学習の消費メモリ量の比較結果を示す図である。

【図12】日本語コーパスと英語コーパスにおけるスロット推定時の消費メモリ量の比較を示す図である。

【図13】スロットを説明するための図である。

【発明を実施するための形態】

【0021】

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本実施形態に係る対話システム１の構成例を示すブロック図である。図１に示すように、対話システム１は、言語理解装置３と、ＤＢ（データベース）４と、行動生成部５と、出力部６を備えている。

【0022】

言語理解装置３は、ユーザが発話した音声信号を音声認識したテキスト情報、またはユーザが入力したテキスト情報を取得する。言語理解装置３は、テキスト情報を解析してスロット情報を抽出し、抽出したスロット情報を行動生成部５に出力する。なお、スロット情報には、スロットの種類を示す情報と、スロットのラベルを持つフレーズのテキスト情報が含まれている。ここで、スロットの種類とは、例えば、主題スロット、時間スロット、非スロット部分等である。また、スロットの種類には、タスクの種類が含まれている。例えば時間スロットが含まれていれば、タスクは時間に関するものである。また、スロットは、発話から抽出すべきパラメータである。

【0023】

ＤＢ４は、例えばタスク毎にシナリオを記憶する。また、ＤＢ４は、発話（テキスト情報）に含まれる意図毎の応答のテキスト情報を記憶する。

【0024】

行動生成部５は、言語理解装置３が出力するスロット情報を取得する。行動生成部５は、スロット情報に含まれるタスクの種類に基づきＤＢ４が格納する情報を参照して、テキスト情報に対する応答のテキスト情報を、例えばＤＢ４が記憶するシナリオに基づいて周知の手法で選択する。行動生成部５は、選択したテキスト情報を音声信号または画像情報に変換し、変換した音声信号または画像情報を出力部６に出力する。

【0025】

出力部６は、例えばスピーカまたは画像表示装置である。出力部６は、行動生成部５が出力する音声信号を再生する。または、出力部６は、行動生成部５が出力する画像情報を表示する。

【0026】

次に、言語理解装置３が備える各機能部について説明する。
図１に示すように、言語理解装置３は、取得部３１と、意図理解部３３と、出力部３４を備えている。

【0027】

取得部３１は、ユーザが発話した音声信号を音声認識したテキスト情報、またはユーザが入力したテキスト情報を取得する。取得部３１は、取得したテキスト情報を意図理解部３３に出力する。

【0028】

意図理解部３３は、ラティス（ｌａｔｔｉｃｅ）構造を生成するアルゴリズムを記憶する。意図理解部３３は、ラティス構造に対して、発話に含まれる単語（トークン）から他の単語へ遷移する確率であるコストの計算するアルゴリズムを記憶する。なお、意図理解部３３は、例えばディリクレ過程スロット（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓ）を用いてコストの計算を行う。意図理解部３３は、ラティス構造に対して、最適パスを計算するアルゴリズムを記憶する。なお、意図理解部３３は、例えば動的計画法によって最適パスの計算を行う。
意図理解部３３は、取得部３１が出力するテキスト情報を取得する。意図理解部３３は、取得したテキスト情報を単語（トークン）に分解する。意図理解部３３は、分解した単語に対して、記憶するアルゴリズムによってラティス構造を生成する。なお、ラティス構造については後述する。意図理解部３３は、ラティス構造に対して、記憶するアルゴリズムによって単語から他の単語へ遷移する確率であるコストを計算する。意図理解部３３は、ラティス構造に対して、記憶するアルゴリズムを用いて動的計画法によって可能な全てのスロット推定結果の空間を効率的に探索することで、スロットを推定する。意図理解部３３は、推定したスロットの情報であるスロット情報を出力部３４に出力する。なお、本実施形態における動的計画法は、各時刻で、フレーズを継続するか、フレーズを終了して別のラベルを持つ新しいフレーズを開始するかのいずれかを選択するような遷移の系列の列挙に基づいている。

【0029】

出力部３４は、意図理解部３３が出力するスロット情報を行動生成部５に出力する。

【0030】

（ラティス構造）
次に、ラティス構造の例を説明する。
図２は、本実施形態に係るラティス構造の例を示す図である。なお、図２に示す例では、発話が英語の例を示している。発話が英語の場合、本実施形態の分割単位は、単語である。なお、意図理解部３３は、テキスト情報から周知の手法によって単語の抽出を行う。
図２において、符号ｇ１は、ラティス構造を示している。また、符号ｇ２は、単語毎に分けた発話を示している。符号ｇ１に示すように、ラティス構造は、発話に含まれる複数の単語（トークン）と、単語（トークン）間の遷移の組み合わせである。

【0031】

また、符号ｇ１１は、「ｔｅｒｍ」ノードを示す。「ｔｅｒｍ」ノードは、単語（トークン）の始点または終点を表す。符号ｇ１２は、「ｂｅｇ」ノードを示す。「ｂｅｇ」ノードは、ｂｅｇラベル（非スロット部分にあたるフレーズ）を表し、例えば「１ｂｅｇ」ノードはｂｅｇラベルの１単語目を表している。符号ｇ１３は、「ｓｂｊ」ノードを示す。「ｓｂｊ」ノードは、ｓｂｊラベル（ｓｕｂｊｅｃｔ（主題）スロット部分にあたるフレーズ）を表し、例えば「２ｓｂｊ」はｓｂｊラベルの２単語目を表している。

【0032】

また、ｔｅｒｍノードからｓｂｊノードへ遷移する経路であるエッジをｔｅｒｍ－ｓｂｊエッジという。ｔｅｒｍノードからｂｅｇノードへ遷移する経路であるエッジをｔｅｒｍ－ｂｅｇエッジという。ｓｂｊノードからｔｅｒｍノードへ遷移する経路であるエッジをｓｂｊ－ｔｅｒｍエッジという。ｂｅｇノードからｔｅｒｍノードへ遷移する経路であるエッジをｂｅｇ－ｔｅｒｍエッジという。ｓｂｊノードからｓｂｊノードへ遷移する経路であるエッジをｓｂｊ－ｓｂｊという。ｂｅｇノードからｂｅｇノードへ遷移する経路であるエッジをｂｅｇ－ｂｅｇエッジという。

【0033】

また、符号ｇ２１は、ラベルの出現確率コストを示す。ラベルの出現確率のコストは、ｔｅｒｍ－ｓｂｊエッジまたはｔｅｒｍ－ｂｅｇエッジに対するコストである。
符号ｇ２２は、フレーズの生成確率コストを示す。フレーズの生成確率のコストは、ｓｂｊ－ｔｅｒｍエッジまたはｂｅｇ－ｔｅｒｍエッジに対するコストである。
符号ｇ２３は、継続を表し、継続のコストは無し（ゼロ）である。継続経路は、ｓｂｊ－ｓｂｊエッジ、またはｂｅｇ－ｂｅｇエッジである。

【0034】

図２において、発話Ｗは「ｒｅｍｉｎｄｍｅｔｏｃａｌｌｊｏｈｎ」である。そして、発話Ｗは、始点の「ｔｅｒｍ」ノード（符号ｇ１１）から開始される。１単語目「ｒｅｍｉｎｄ」は、「ｂｅｇ」ノードまたは「ｓｂｊ」ノードである。
意図理解部３３は、「ｔｅｒｍ」ノード（符号ｇ１１）からラベルの出現確率コスト（符号ｇ２４）を経て「１ｂｅｇ」ノード（符号ｇ１２）に至る経路と、「ｔｅｒｍ」ノード（符号ｇ１１）からラベルの出現確率コスト（符号ｇ２１）を経て「１ｓｂｊ」ノード（符号ｇ１３）に至る経路を生成する。

【0035】

意図理解部３３は、「１ｂｅｇ」ノード（符号ｇ１２）からフレーズの生成確率コスト（符号ｇ２５）を経て終点の「ｔｅｒｍ」ノード（符号ｇ１４）に至る経路を生成する。
意図理解部３３は、「１ｓｂｊ」ノード（符号ｇ１３）からフレーズの生成確率コスト（符号ｇ２２）を経て終点の「ｔｅｒｍ」ノード（符号ｇ１４）に至る経路を生成する。

【0036】

２単語目「ｍｅ」は、「ｂｅｇ」ノード（「１ｂｅｇ」ノード（符号ｇ１５）または「２ｂｅｇ」ノード（符号ｇ１６））、または「ｓｂｊ」（「１ｓｂｊ」ノード（符号ｇ１７）または「２ｓｂｊ」ノード（符号ｇ１８））ノードである。
意図理解部３３は、「ｔｅｒｍ」ノード（符号ｇ１４）からラベルの出現確率コスト（符号ｇ２６）を経て「１ｂｅｇ」ノード（符号ｇ１５）に至る経路を生成する。
意図理解部３３は、「ｔｅｒｍ」ノード（符号ｇ１４）からラベルの出現確率コスト（符号ｇ２７）を経て「１ｓｂｊ」ノード（符号ｇ１７）に至る経路を生成する。
意図理解部３３は、「１ｂｅｇ」ノード（符号ｇ１２）から継続（符号ｇ２８）を経て「２ｂｅｇ」ノード（符号ｇ１６）に至る経路を生成する。
意図理解部３３は、「１ｓｂｊ」ノードから継続（符号ｇ２３）を経て「２ｓｂｊ」ノード（符号ｇ１８）に至る経路を生成する。

【0037】

意図理解部３３は、以下同様に、全ての単語に対するノードと経路を生成する。スロットの推定の結果は、このラティス上の経路として表現される。
なお、意図理解部３３は、ラベルの出現確率コストと、フレーズの生成確率コストを、教師付の訓練データを用いた学習によってあらかじめ求めて記憶しておく。なお、上述したように意図理解部３３は、例えばディリクレ過程スロットを用いて経路のコストの計算を行う。
また、本実施形態では、図２のラティス構造において、各経路を通過するのにかかるコストを、ＤＰＳＭにおける確率（出現確率、生成確率）と対応づける。
なお、本実施形態では、ディリクレ過程スロットを用いて経路のコストが計算されたラティス構造を、ラティス構造のディリクレ過程スロットモデル（ＤＰＳＭ；ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓＳｌｏｔＭｏｄｅｌ）ともいう。

【0038】

図３は、本実施形態に係るスロットの推定結果を示す図である。意図理解部３３は、動的計画法によって最短経路を探索することでスロットを推定する。
図３の符号ｇ３１は、選択された経路を示している。
この結果、「ｒｅｍｉｎｄｍｅ」が「ｂｅｇ」ラベルを持つフレーズと解釈される。さらに、「ｔｏｃａｌｌｊｏｈｎ」が「ｓｂｊ」ラベルを持つフレーズであると解釈される。
このように、本実施形態では、従来のようなＣＲＦ等の前処理を必要とせず、コストを計算したラティス構造に対して、動的計画法を用いて最適パスを計算することでスロットの推定を行うことができる。

【0039】

なお、図２と図３は、英語の例を説明したが、分割する単位が単語である言語であれば、フランス語、ドイツ語、スペイン語等であってもよい。

【0040】

なお、図２、図３に示した例では、発話が英語の例を説明した。
ここで、発話が日本語の場合の例を説明する。例えば、フレーズが天気を質問するフレーズ「あしたのひろしまのてんきをおしえて」（明日の広島の天気を教えて）であるとする。図４は、本実施形態に係るフレーズが日本語の場合のラティス構造の例を示す図である。図４において、符号ｇ１０１は、ラティス構造の例を示している。また、符号ｇ１０２は、文字（トークン）毎に分けた発話を示している。なお、意図理解部３３は、テキスト情報から周知の手法によって文字（音素）の抽出を行う。

【0041】

日本語における分割単位は、文字（トークン）である。このため、このフレーズの場合、動的計画法のラティス構造における文字は、「あ」、「し」、「た」、・・・、「て」である。このため、ラティス構造は、図４のように、左を始点として右に「ｔｅｒｍ」、「あ」、「ｔｅｒｍ」、「し」、「ｔｅｒｍ」、「た」、「ｔｅｒｍ」、・・・、「て」、「ｔｅｒｍ」となる。意図理解部３３は、これらの文字（トークン）と「ｔｅｒｍ」に対して全ての経路を生成し、ディリクレ過程スロットを用いて経路のコストの計算を行い、動的計画法によって最短経路を探索することでスロットを推定する。

【0042】

なお、図４は、日本語の例を説明したが、分割する単位が文字である言語であれば、他の言語であってもよい。さらに、日本語のテキスト情報に対して形態素解析を行った後、図２や図３と同様にテキスト情報を単語に分解してモデルを生成するようにしてもよい。

【0043】

次に、処理手順例を説明する。
図５は、本実施形態に係る処理手順例のフローチャートである。

【0044】

（ステップＳ１）意図理解部３３は、発話であるテキスト情報を周知の手法によって複数の単語（または文字）に分解する。

【0045】

（ステップＳ２）意図理解部３３は、分解した複数のトークン（単語または文字）に対してラティス構造を生成する。

【0046】

（ステップＳ３）意図理解部３３は、生成したラティス構造に対して、例えばディリクレ過程スロットを用いて経路のコストの計算を行う。

【0047】

（ステップＳ４）意図理解部３３は、コストを計算したラティス構造に対して、例えば動的計画を用いて発話からスロットの推定を行う。

【0048】

ここで、ＣＲＦ、深層学習、あるいはそれらを組み合わせた識別モデルでは、人手でルールを作成する代わりに学習によってスロット抽出を行えるようになる。しかしながら、識別されたスロットがどうして選ばれたのか、人にはわかりにくい。また、ＣＲＦと深層学習を組み合わせた識別モデルは、スロット推定の性能も非常に高いが、同時に大きな計算資源を必要としている。

【0049】

本実施形態によれば、確率モデルを使った例えば動的計画法を用いることで、スロットの組の候補をあらかじめ用意する必要がなくなるので前処理の必要がなくなり、前述した課題が解決される。
さらに、本実施形態によれば、後述するように、性能がＣＲＦと深層学習を組み合わせた識別モデル並みでありながら、少計算資源で動作するアルゴリズムを提供できるという効果も有する。

【0050】

上述したように、本実施形態は、トークンに対してラティス構造を生成し、ラティス構造に対して例えばディリクレ過程を用いてコスト（確率）を計算し、コストを計算したラティス構造に対して例えば動的計画法を用いてスロットの推定を行う。本実施形態では、このように自然言語のスロットの推定に「ラティス構造のコストの計算する」ことと、「スロット抽出のための最適パスの計算を動的計算法で行う」ことを組み合わせることで、自然言語をこれらの演算に適した形式に変換する（図２～図４）ことで、高い抽出精度と低コストな抽出手段を同時に実現することができる。
さらに、本実施形態によれば、発話が日本語等の場合に、文字単位で処理する。このため、従来はスロット抽出に必要であった形態素解析の前処理を省くことができる。

【0051】

（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓＳｌｏｔＭｏｄｅｌの説明）
次に、ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓＳｌｏｔＭｏｄｅｌ（ＤＰＳＭ）について説明する（非特許文献１参照）。
以下の説明において、Ｓ＝｛ｓ_１，・・・、ｓ_Ｍｓ｝をあらかじめ与えられたスロットとし、Ｍｓをスロット数とする。また、無限集合の文字列Ｖに対して、各スロットｓ_ｉ（ｉは、１以上の整数）をランダム変数として定義する。この無限集合Ｖは、次式（１）のように表される。
また、以下の説明において、発話が「ｉ’ｍｌｏｏｋｉｎｇｆｏｒａｒｅｓｔａｕｒａｎｔｉｎｔｈｅｆｅｎｄｉｔｔｏｎａｒｅａ」の例を説明する。

【0052】

【数1】

【0053】

式（１）において、Ｃは空白文字および発生の転写に潜在的に現れる他の文字を含む集合である。また、Ｌは０以上の整数である。ｂは、要素（文字列）である。
従って、スロットＳのセットは、Ｖ^Ｍｓに及ぶランダム変数であるとも考えることができる。

【0054】

まず、ＤＰ（ＤｉｒｉｃｈｌｅｔＰｒｏｃｅｓｓ；ディリクレ過程）を適用して、個々のスロットｐ_ｉ（ｓ_ｉ）の分布と結合分布ｐ（Ｓ）の両方をモデル化する。
ＤＰはターゲット分布Ｇに対する確率的分布である。ＤＰはα^０およびＧ^０によってパラメータ化されＤＰ（α^０，Ｇ^０）で表される。α^０＞０は濃度パラメータであり、Ｇ^０はドメインΧに対するベース分布である。ここで、ドメインΧは、スロット値Ｖ^Ｍｓのタプルの集合を表す。

【0055】

ここで、ＧがＤＰ（α^０，Ｇ^０）（すなわちＧ～ＤＰ（α^０，Ｇ^０））から引き出される場合、次式（２）のディリクレ分布特性は、｛Ａ_１，．．．，Ａ_Ｌ｝で表されるΧの任意のパーティションに対して成立する。

【0056】

【数2】

【0057】

式（２）において、Ｄｉｒは、引数に指定した要素が存在するときに要素を返し、要素が存在しないときに空欄を返す関数である。また、α（Ａ）＝α^０Ｇ^０（Ａ）であり、α（Ａ）は既知のＤＰの基本尺度である。

【0058】

ファーガソン（Ｆｅｒｇｕｓｏｎ、１９７３）は、Ｇ～ＤＰ（α^０，Ｇ^０）から抽出された繰り返し独立同分布のサンプルｘ_１：Ｎ＝｛ｘ_１，．．．，ｘ_Ｎ｝の事後分布の重要な特性を証明した。
ここで、Ｇ^０から独立して取り出される無数の無限集合の原子元（ａｔｏｍｓ）φ＝｛φ_１，φ_２，．．．｝を考える。また、ｃ_ｉ∈Ｎを、次式（３）の条件付き確率でシーケンシャルドローによって生成されるサンプルｘ_ｉの原子元の割り当てとする。

【0059】

【数3】

【0060】

式（３）において、ｎ_ｋはｋ番目の原子元がｃ_１：Ｎに現れる回数であり、Ｋはｃ_１：Ｎの異なる原子元の数である。割当てｃ_１：Ｎが与えられると、ｘ_Ｎ＋１∈Ｘの予測分布は次式（４）のように表される。

【0061】

【数4】

【0062】

基準分布は、異なる原子元（φ１＝”ｆｅｎｄｉｔｔｏｎ”、φ２＝”ｎｅｗｃｈｅｓｔｅｒｔｏｎ”、φ３＝”ｆｅｎｄｉｔｔｏｎ”など）に対して同じ値を生成する可能性がある。ｃ_ｉは、各フレーズ（ｉ番目のデータ点ｘｉ）へ、どの原子元を割り当てたかを示す変数である。ｘ_ｉ＝”ｆｅｎｄｉｔｔｏｎ”のとき、ｃ_ｉは１または３になる。上述したの事後分布は原子元ｎ_ｋの周波数に依存し、それ自体の周波数θには依存しない。また、原子元と代入ｃは、実行時に決定される潜在変数である。

【0063】

次に、個別スロットモデルについて説明する。
まず、個々のスロットの分布をｐ_ｉ（ｓ_ｉ）～ＤＰ（α^０ _ｉ、Ｇ^０ _ｉ）として定式化する。ここでＧ^０ _ｉはフレーズＶの集合に対する基準分布である。
なお、ｓ、ｐ、α^０、Ｇ^０それぞれの添え字ｉは、スロットのタイプを表す。スロットのタイプは、例文において「ｔｙｐｅ」、「ａｒｅａ」、「ｆｏｏｄ」などである。
ここで、Ｇ^０ _ｉを、次式（５）のように２段階生成からなる生成モデルとして定義する。１段階目がカテゴリ分布を用いたフレーズ長０≦Ｌ_ｉＬ_ｍａｘの生成であり、２段階目がｎグラムモデルを用いた文字列ｓ^１：Ｌｉの生成である。

【0064】

【数5】

【0065】

式（５）において、λ_ｉおよびη_ｉは、それぞれスロットのｓ_ｉのカテゴリ分布およびｎグラムモデルのパラメータである。また、式（５）において、Ｃａｔｅｇｏｒｉｃａｌ（）は、カテゴリ分布を表す。
また、ＺｈａｉとＢｏｙｄｇｒａｂｅｒ（２０１３）によって報告されたように、この長さの明示的なモデリングは、短いフレーズへの偏りを回避し、より良い分布につながる。
ここで、Ｇ^０ _ｉを次式（６）のように、これらのモデルの共同分布として定義する。

【0066】

【数6】

【0067】

Ｇ^０ _ｉは、潜在的に、スロット値ｖ_ｓｉが発声によって提供されない場合を表すために、Ｌ_ｉ＝０の空フレーズを生成する。したがって、分布ｐ_ｉ（ｓ_ｉ）は当然、Ｎｏｎｅの確率を表すことができる。
基準分布は、例えばｐ（ｔｙｐｅ）の場合、ｐ（ｒｅｓｔａｕｒａｎｔ｜ｕ）＝０．９６、ｐ（ｐｕｂ｜ｕ）＝０．０３、ｐ（Ｎｏｎｅ｜ｕ）＝０．０１、・・・である。

【0068】

完全なベイジアン方式で各スロットのｎグラム特性を扱うために、パラメータλ_ｉとη_ｉの事前分布を考慮する。ｐ（λ）はパラメータａをもつＬ^ｍａｘ次元の対称ディリクレ分布として与えられる。
与えられた文脈ｐ（ｓ^ι _ｉ｜ｓ^{ι－ｎ＋１：ι－１} _ｉ、η_ｉ）は、Ｃを越えた単なるカテゴリ分布であるため、各ｎグラム文脈についてパラメータｂを持つ｜Ｃ｜次元対称ディリクレ分布を定義する。スロットｉに対してＮ個のフレーズｓ_ｉを観測することを考える。
ｎ^Ｌ _ｉιを長さιのフレーズの数とし、ｎ^γ _ｉｈを文脈ｓ^{ι－ｎ＋１：ι－１}＝γの後に文字ｓ_ι＝ｈが現れる回数とする。フレーズの予測確率は、次式（７）のように表される。

【0069】

【数7】

【0070】

次に、スロット値の集合の生成モデルについて説明する。
共同分布ｐ（Ｓ）の素朴な定義は、独立性仮定を行うためのすべてのスロット確率の積Π^ＭＳ _ｉ＝１ｐ_ｉ（ｓ_ｉ）である。しかしながら、スロット値は一般に相互に相関している（Ｃｈｅｎ等、２０１５）。
より正確な分布を得るために、スロット値の頻繁な組み合わせを認識する別のＤＰを使用してｐ（Ｓ）～ＤＰ（α^１、Ｇ^２）を作成する。ここでＧ^２はＶ^ＭＳに対する基準分布である。ここで、次式（８）のようにＧ^２に素朴な独立性の仮定を適用する。

【0071】

【数8】

【0072】

式（８）において、Ｓの全世代プロセスは、それらの間で原子元を共有する二重ＤＰを含む。この意味で、この生成モデルは階層的ディリクレ過程とみなすことができる。一貫した表記の場合、Ｇ^１ _ｉ（ｓ_ｉ）＝ｐ_ｉ（ｓ_ｉ）およびＧ^３（Ｓ）＝ｐ（Ｓ）とする。
以上をまとめると、階層的ディリクレプロセススロットモデル（ＨＤＰＳＭ）を次式（９）の生成プロセスを有する生成モデルとして定義する。

【0073】

【数9】

【0074】

以上のように、本実施形態では、ディリクレ過程スロットモデルのアルゴリズムを用いて、ディリクレ過程スロットモデルを構築する。さらに、本実施形態では、教師データを用いて学習したモデルに基づいて、与えられた発話に対してスロット部分と非スロット部分の組み合わせが最適になるような確率モデルを推定する。このようにして、構築されたモデルが、図２～図４のモデルである。

【0075】

（ＨＤＰＳＭの推論）
本実施形態では、このように構築した確率モデルに対して、動的計画法により可能な全てのスロット推定結果の空間を効率的に探索することで、スロットを推定する。換言すると、本実施形態の手法は、ＤＰＳＭのパラメータを、教師情報を用いて１パス学習を行い、動的計画法によってスロットの推定を行う。

【0076】

（実験結果）
提案手法の有効性を検証するため実験を行った。その実験結果の例を説明する。
図６は、本実施形態の有用性を確認するために行った計測結果例を示す図である。なお、図６に示す実験は、英語のデータセットと日本語のデータセットを用いて行った。

【0077】

英語のデータセットの全てを用いて学習を行った後、全てのデータに動的計画法を適用し最適分割を計算、すなわちスロットを推定した。英語のデータセットには、レストラン検索の発話データ（ＤＳＴＣコーパス）を用いた。スロットの平均数は６つ、発話（フレーズ）は１４４１、シーケンスの長さ（１つの発話の長さ）の平均値は８．７９９（単語数）であった。１発話あたりの解析時間は約１．４ｍｓ（１０回の試行の平均値）であった。

【0078】

また、日本語のデータセットの全てを用いて学習を行った後、全てのデータに動的計画法を適用し最適分割を計算、すなわちスロットを推定した。日本語のデータセットには、天気の問い合わせ発話データ（Ｗｅａｔｈｅｒコーパス）を用いた。スロットの平均数は３つ、発話（フレーズ）は１４４２、シーケンスの長さ（１つの発話の長さ）の平均値は１１．２２５（文字数）であった。１発話あたりの解析時間は約１．５ｍｓ（１０回の試行の平均値）であった。

【0079】

次に、上述した日本語コーパスと英語コーパスそれぞれを用いて、かつ学習に用いるデータの数を変化させて推定精度と実行時間の変化を比較した。比較対象として、系列ラベリング手法である条件付確率場（ＣＲＦ）によるスロット推定手法と、Ｂｉｄｉｒｅｃｔｉｏｎａｌ（双方向）ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）にＣＲＦを組み合わせて勾配降下法でパラメータの学習を行う深層学習手法（ＢｉＬＳＴＭ－ＣＲＦ）、およびＣＲＦの５－ｂｅｓｔをＤＰＳＭによってリランキングする手法（ＤＰＳＭＲｅｒａｎｋｉｎｇＣＲＦ５－ｂｅｓｔ）を用いた。

【0080】

ＤＰＳＭはＪａｖａ（登録商標）で実装し、深層学習手法はＰｙｔｈｏｎのＣｈａｉｎｅｒ（ｖｅｒｓｉｏｎ３．３）で実装した。実験に用いたサーバはＯＳがＵｂｕｎｔｕ１６．０４であり、ＣＰＵがＸｅｏｎ（登録商標）Ｅ５－２６６０２．００ＧＨｚ（１４コア）２基であり、メモリ６４ＧＢである。なお、ＤＰＳＭは並列計算を行わないため、１コアのみを用いて実行した。また、深層学習手法では、バックプロパゲーションの計算を５６スレッドで並列して実行した。

【0081】

図７は、日本語コーパスを用いた場合の各手法のスロットの推定精度を示す図である。図８は、英語コーパスを用いた場合の各手法のスロットの推定精度を示す図である。
図７と図８において、横軸は学習データ数（個）であり、縦軸はテストデータの完全一致正答率を表している。なお、縦軸において、１．０は、完全一致正答率が１００％である。また、発話内に含まれるスロットの完全一致のみを正解とした。また、図７は、１０分割交差検証を行い、それぞれの学習・テスト分割において、学習データ数を当該の数個に減らして得られた精度の平均を示している。

【0082】

また、図７と図８において、符号ｇ２０１は、条件付確率場（ＣＲＦ）によるスロット推定手法の評価結果を示している。符号ｇ２０２は、ＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法の評価結果を示している。符号ｇ２０３は、ＣＲＦの５－ｂｅｓｔをＤＰＳＭによってリランキングする手法によるスロット推定手法の評価結果を示している。符号ｇ２０４は、本実施形態によるＤＰＳＭと動的計画法を用いたスロット推定手法の評価結果を示している。

【0083】

図７と図８に示すように、本実施形態の手法は、日本語コーパスと英語コーパスともに深層学習手法（ＢｉＬＳＴＭ－ＣＲＦ、符号ｇ２０２）とほぼ同等の精度を達成できていることが確認できる。特に学習データ数が少ない時には、本実施形態の手法が深層学習手法の精度を上回っており、学習コーパス構築の初期段階から安定した推定を行えることが示唆される。

【0084】

次に、学習時と推論（テスト）時の実行時間の比較を説明する。
図９は、日本語コーパスと英語コーパスにおける学習の実行時間の比較結果を示す図である。符号ｇ３００のグラフは、日本語コーパスにおける学習の実行時間の比較結果である。符号ｇ３１０のグラフは、英語コーパスにおける学習の実行時間の比較結果である。符号ｇ３００とｇ３１０のグラフにおいて、横軸は学習データ数であり、縦軸は実行時間（秒）である。また、符号ｇ３０１とｇ３１１は、比較例のＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法の評価結果を示している。また、符号ｇ３０２とｇ３１２は、本実施形態によるＤＰＳＭと動的計画法を用いたスロット推定手法の評価結果を示している。
図９に示すように、学習データの件数が増加すると比較例のＢｉＬＳＴＭ－ＣＲＦによる手法の実行時間は、非常に大きくなっている。なお、本実施形態の手法では、学習データ数が１２９６個でも学習に要した時間は数秒であった。このように、本実施形態の手法は、非常に高速に実行できることが分かる。なお、実験では深層学習にＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；グラフィックス・プロセッシング・ユニット）は用いていない。

【0085】

図１０は、日本語コーパスと英語コーパスにおけるスロット推定精度の比較を示す図である。符号ｇ３５０のグラフは、日本語コーパスにおける学習の実行時間の比較結果である。符号ｇ３６０のグラフは、英語コーパスにおける学習の実行時間の比較結果である。符号ｇ３５０とｇ３６０のグラフにおいて、横軸はデータ数であり、縦軸は実行時間（秒）である。また、符号ｇ３５１とｇ３６１は、比較例のＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法の評価結果を示している。また、符号ｇ３５２とｇ３６２は、本実施形態によるＤＰＳＭと動的計画法を用いたスロット推定手法の評価結果を示している。
図１０に示すように、データの量は推低の実行時間に大きな影響を与えないことがわかる。しかしながら、推定に要する実行時間を見ると本実施形態の手法の方が比較例のＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法より高速に動作している。

【0086】

次に、学習時と推論（テスト）時の消費メモリ量の比較を説明する。
図１１は、日本語コーパスと英語コーパスにおける学習の消費メモリ量の比較結果を示す図である。符号ｇ４００のグラフは、日本語コーパスにおける学習の消費メモリ量の比較結果である。符号ｇ４１０のグラフは、英語コーパスにおける学習の消費メモリ量の比較結果である。符号ｇ４００とｇ４１０のグラフにおいて、横軸は学習データ数であり、縦軸は実行時間（秒）である。また、符号ｇ４０１とｇ４１１は、比較例のＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法の評価結果を示している。また、符号ｇ４０２とｇ４１２は、本実施形態によるＤＰＳＭと動的計画法を用いたスロット推定手法の評価結果を示している。
図１１に示すように、本実施形態の手法は、比較例のＢｉＬＳＴＭ－ＣＲＦと比較して圧倒的に少ないメモリ消費量で学習を行うことができる．

【0087】

図１２は、日本語コーパスと英語コーパスにおけるスロット推定時の消費メモリ量の比較を示す図である。符号ｇ４５０のグラフは、日本語コーパスにおけるスロット推定時の消費メモリ量の比較結果である。符号ｇ４６０のグラフは、英語コーパスにおけるスロット推定時の消費メモリ量の比較結果である。符号ｇ４５０とｇ４６０のグラフにおいて、横軸はデータ数であり、縦軸は実行時間（秒）である。また、符号ｇ４５１とｇ４６１は、比較例のＢｉＬＳＴＭ－ＣＲＦによるスロット推定手法の評価結果を示している。また、符号ｇ４５２とｇ４６２は、本実施形態によるＤＰＳＭと動的計画法を用いたスロット推定手法の評価結果を示している。
図１２に示すように、学習時と同様に本実施形態の手法の消費メモリ量は、推論時にも非常に小さい。
図１１と図１２に示したように、学習時と推定時のいずれでも本実施形態の手法の消費メモリ量は数ＭＢ程度であり、１００ＭＢ以上を必要とする比較例の深層学習手法と比較して圧倒的に少ないメモリ量で動作する。これは、車載端末や携帯端末での利用を考えた時には、非常に有用な特性であるといえる。

【0088】

以上のように、本実施形態におけるＤＰＳＭの動的計画法による推論手法は、任意の文字列をスロット値として抽出可能でありながら、スロット値の確率分布を直接捉えることで、高い精度でスロット推定を行える。また、実験結果より、本実施形態の手法は、深層学習手法と比較しても同等以上の精度でありながら、高速かつ省メモリであり、クラウド上のサーバ等との通信を必要としないオフラインな、学習およびスロット推定にも対応できる。

【0089】

ここで、学習データを持続的に増やしていくような枠組みを考えると、深層学習のアプローチではモデルの更新が追いつかなくなる懸念がある。本実施形態の手法のパラメータ学習は、１パスで行うことから、学習データの追加に対しては追加分の計算コストしかかからない。このため、本実施形態の手法は、ユーザの教示情報を即時的に推定結果に反映させるような運用も可能である。

【0090】

なお、本発明における言語理解装置３の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより言語理解装置３が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものを含んでもよい。

【0091】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0092】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0093】

１…対話システム、２１…音声部、２２…テキスト部、３…言語理解装置、４…ＤＢ、５…行動生成部、６…出力部、３１…取得部、３２…音声認識部、３３…意図理解部、３４…出力部、ｔｅｒｍ，ｂｅｇ，ｓｄｊ…ノード

【図1】