特許第6444530号(P6444530)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧
<>
  • 特許6444530-音声言語理解システム 図000010
  • 特許6444530-音声言語理解システム 図000011
  • 特許6444530-音声言語理解システム 図000012
  • 特許6444530-音声言語理解システム 図000013
  • 特許6444530-音声言語理解システム 図000014
  • 特許6444530-音声言語理解システム 図000015
  • 特許6444530-音声言語理解システム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6444530
(24)【登録日】2018年12月7日
(45)【発行日】2018年12月26日
(54)【発明の名称】音声言語理解システム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20181217BHJP
   G10L 15/16 20060101ALI20181217BHJP
【FI】
   G10L15/10 500T
   G10L15/16
【請求項の数】6
【全頁数】12
(21)【出願番号】特願2017-549836(P2017-549836)
(86)(22)【出願日】2016年7月29日
(65)【公表番号】特表2018-513405(P2018-513405A)
(43)【公表日】2018年5月24日
(86)【国際出願番号】JP2016073019
(87)【国際公開番号】WO2017030006
(87)【国際公開日】20170223
【審査請求日】2017年9月22日
(31)【優先権主張番号】14/827,669
(32)【優先日】2015年8月17日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100111648
【弁理士】
【氏名又は名称】梶並 順
(74)【代理人】
【識別番号】100122437
【弁理士】
【氏名又は名称】大宅 一宏
(74)【代理人】
【識別番号】100147566
【弁理士】
【氏名又は名称】上田 俊一
(74)【代理人】
【識別番号】100161171
【弁理士】
【氏名又は名称】吉田 潤一郎
(74)【代理人】
【識別番号】100194939
【弁理士】
【氏名又は名称】別所 公博
(72)【発明者】
【氏名】渡部 晋治
(72)【発明者】
【氏名】ルアン、イ
(72)【発明者】
【氏名】ハーシャム、ブレット
【審査官】 安田 勇太
(56)【参考文献】
【文献】 国際公開第2015/075975(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 −15/34
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
ユーザーの1つ以上の音声発話に対応する単語のシーケンスを受け取るステップと、
前記単語のシーケンスを音声言語理解モジュールに通して、意図のシーケンスを生成するステップと、
前記単語のシーケンスをマルチスケールリカレントニューラルネットワーク(MSRNN)の第1のサブネットワークに通すステップと、
前記意図のシーケンスを前記マルチスケールリカレントニューラルネットワーク(MSRNN)の第2のサブネットワークに通すステップと、
前記第1のサブネットワーク及び前記第2のサブネットワークの出力を結合して、前記ユーザーの目標を予測するステップと、
を含み、
前記ステップはプロセッサにおいて実行される、
音声言語理解(SLU)システム。
【請求項2】
前記単語のシーケンスは、自動音声認識(ASR)システムの出力である、
請求項1に記載のシステム。
【請求項3】
前記単語のシーケンスは、前記ユーザーの前記1つ以上の音声発話に対応する単語のセットにわたる確率分布である、
請求項2に記載のシステム。
【請求項4】
前記目標は、音声対話システムによって実行されるべき動作を出力する対話マネージャに入力される、
請求項1に記載のシステム。
【請求項5】
前記意図のシーケンスにおける各意図は、前記ユーザーの前記1つ以上の音声発話に対応する意図のセットにわたる確率分布である、
請求項1に記載のシステム。
【請求項6】
前記マルチスケールリカレントニューラルネットワーク(MSRNN)のネットワークパラメーターは、前記第1のサブネットワーク及び前記第2のサブネットワークについて別個にプレトレーニングされた初期化パラメーターを用いてともにトレーニングされる、
請求項1に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には音声処理に関し、より詳細には、音声対話システムを用いた対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法に関する。
【背景技術】
【0002】
図1に示すように、ユーザー101と従来の音声対話システム140との間の対話中、自動音声認識器(ASR)110がユーザーの音声102を処理して、入力111を音声言語理解(SLU)モジュール120に提供する。このSLUへの入力は、当該技術分野においてよく知られているように、多様な形態とすることができる。通常、入力は単語のシーケンスである。単語は、関連する確率を有することができる。SLUは、入力から意味情報を抽出する。意味情報は、音声において表現されるユーザーの意図121を表す。意図は、単語のシーケンスが漸次処理されるにつれて変化する可能性がある。しかしながら、シーケンスにおける全ての単語が処理されると、意図を要約する目標が特定される。この目標に基づいて、対話マネージャ(DM)130が、音声対話システムによって実行されるべき次の動作131を決定する。
【0003】
音声対話における2つの重要なタスクは、ユーザー意図の理解及びユーザー目標の推定である。SLUモジュールは、ユーザーの音声の意図された意味(intended meaning)(以下、「意図」と呼ばれる)を抽出する。DMは、意図の結果、すなわち、目標に基づいて次の動作を決定する。
【0004】
対話は、通常、ユーザーからの音声のシーケンスと、システムによる対応する発話及び動作とを含む。意図及び目標の推定は、単語理解よりも長い時間スケールにわたって行われる。目標の推定は、より多くの情報が取得されるにつれて対話中に変化する可能性があり、意図は明確にされる。目標推定性能は、ユーザーが正しい動作をより迅速に達成することを容易にし得るので、重要である。
【0005】
目標121は対話マネージャ130への入力であり、この目標121は、SLUモジュールによってユーザー音声から抽出されたユーザーの意図された意味を表す。その後、音声対話システムは、意図理解の結果に基づいて、いずれの動作を次に取るかを決定する。この目的は、対話を完了することであり、対話は、目標指向の音声対話システムにおいて複数のユーザー及びシステムの発話/動作を含む可能性がある。
【0006】
意図理解が意味論的発話分類問題として概念化される一方で、目標推定は対話全体の分類問題として概念化される。従来の意図理解及び目標推定は、バッグオブワード(BoW:bag of word:語の袋)特徴、又は目標推定におけるバッグオブインテンション(bag of intention)特徴を、ブースティング、サポートベクトルマシン、及び/又はロジスティック回帰等の分類法への入力として用いることができる。
【0007】
しかしながら、BoW特徴をSLUタスクに適用することの問題点のうちの1つは、特徴ベクトルが非常に疎になる傾向があるということである。各発話は、通常、比較的少数の単語のみを有し、これは、通常文書解析中に入手可能であるはるかに多数の単語とは異なる。したがって、BoW特徴ベクトルは、時としてユーザー意図を正確に推定するのに十分な意味情報を欠く。
【0008】
最も成功を収めているニューラルネットワーク手法のうちの1つは、ディープビリーフネットワーク(DBN:deep belief networks:深層信念ネットワーク)であり、これは、制約付きボルツマンマシン(RBM:restricted Boltzmann machines)のスタック等の、簡単な教師なしネットワークの構成として見ることができる。RBMのパラメーターを初期値として用いて、誤差逆伝播手順によるニューラルネットワークパラメーターが推定される。DBNの関連において、初期パラメーターを求める第1のステップはプレトレーニング(pretraining:事前学習)と呼ばれ、識別的なネットワークトレーニングの第2のステップはファインチューニング(fine tuning)と呼ばれる。
【0009】
従来のニューラルネットワーク予測システム及びニューラルネットワークトレーニングシステムが、図6及び図7にそれぞれ示されている。予測について図6に示されているように、単語シーケンス610がネットワーク620に入力され、そしてネットワークパラメーター630に従って処理されてユーザー意図及び目標621が生成される。
【0010】
図7は、プレトレーニングされたネットワークパラメーター625及びトレーニングシーケンス710を用いる、ネットワーク620のネットワークパラメーター630の対応するトレーニングを示している。
【0011】
ASR及び画像処理における深層ニューラルネットワーク(DNN)及びDBNトレーニングの成功に起因して、深層凸ネットワーク(Deep Convex Network)、リカレントニューラルネットワーク(RNN)、及び長期短期記憶(LSTM:Long Short-Term Memory)RNNを含む、他のニューラルネットワークアーキテクチャがSLUに適用されている。
【0012】
しかしながら、これらの技法をSLUに適用することにおいて、1つの大きな困難は、タスクのために十分なトレーニングデータが多くの場合に存在せず、また、トレーニングデータをアノテートすることは多大な時間を要する可能性があることである。低リソース条件においてトレーニングされたニューラルネットワークの性能は、通常、オーバートレーニングに起因して劣ったものとなる。
【0013】
単語埋め込み
多くの自然言語処理(NLP)システムは、BoW又は「ワンホット(one-hot)単語」ベクトルを入力として用いており、これによって、極めて大きな次元の特徴ベクトルがもたらされる。一代替形態は、単語埋め込み(word embedding)であり、この単語埋め込みは、大きな疎の単語特徴ベクトルを、低次元の、密なベクトル表現に射影する。
【0014】
単語ベクトルの学習には幾つかのモデル群が存在し、これには、潜在意味解析(LSA)、低ランクマルチビュー学習(LR−MVL:Low Rank Multi-View Learning)、対数双線形回帰モデル(log-bilinear regression model)(GloVe)等の行列分解方法、連続バッグオブワード(CBOW)、スキップグラム等の局所コンテキストウィンドウ上でモデル化する、ニューラルネットワーク言語モデル(NNLM)ベースの方法等が挙げられる。大半の単語ベクトル法は、単語表現の固有の品質を評価するための主要な方法として、単語ベクトルの対間の距離又は角度に依拠する。
【0015】
Mikolov他は、単語類推に基づく評価スキームを用いており、これは、意味の次元を生成するモデルを支援する。非特許文献1を参照されたい。「GloVe: Global Vectors for Word Representation」は、単語類推タスクにおいてCBOW及びスキップグラムに匹敵する結果を示している。
【0016】
上記の方法のうち、GloVe、CBOW、及びスキップグラムが単語類推タスクにおける現在の最新技術である。GloVeはグローバル単語共起カウント(global word-word co-occurrence counts)上でトレーニングし、大域的な統計を効率的に利用する。CBOWはコンテキストに基づいて現在の単語を予測し、スキップグラムは現在の単語を所与として周囲の語を予測する。スキップグラム及びCBOWを実装するMikolovのツールキット「word2vec」は、大規模スケールのコーパス上で非常に効率的にトレーニングすることができる。
【0017】
潜在トピックモデル
潜在トピックモデルは、文書の集合から意味情報を発見することができる。情報索出において広く用いられるトピック埋め込み(topic embedding)は、文書をトピックの混合物として扱い、ベクトルを用いてトピック分布を表す。SLUに用いられてきた従来の潜在トピックモデルとしては、確率的潜在意味解析(PLSA)、潜在的ディリクレ配分(LDA)、相関トピックモデル(CTM:Correlated Topic Model)、及びパチンコ配分モデル(PAM:Pachinko Allocation Model)が挙げられ、これら全てがベイズ推定を用いて潜在トピックの分布を求める。大半の潜在変数モデルは生成モデルであり、教師なしトレーニングにおいて用いることができる。
【0018】
LDAは、大規模スケールのコーパス上で良好な性能を有することができ、このLDAを効率的にトレーニングすることができる。しかしながら、LDA埋め込みは、反復推論手順、例えば、変分期待値最小化(EM)、又はサンプリング法を用いて得られるため、LDA埋め込みをニューラルネットワークフレームワーク内でファインチューニングするのは困難である。
【先行技術文献】
【非特許文献】
【0019】
【非特許文献1】Mikolov他「Efficient estimation of word representations in vector space」arXiv preprint arXiv:1301.3781, 2013
【発明の概要】
【0020】
ユーザー音声からの意図理解及び目標推定等の音声言語理解(SLU)タスクは、音声対話システムにおいて必須の構成要素である。ニューラルネットワークは種々のSLUタスクに用いることができる。しかしながら、SLUの1つの主要な困難は、収集されたデータのアノテーションに多大な時間を要する可能性があることである。多くの場合、この結果、タスクのために利用可能なデータは不十分なものとなる。低リソース条件においてトレーニングされたニューラルネットワークの性能は、オーバートレーニングに起因して、通常劣ったものになる。
【0021】
この性能を改善するために、本発明の実施形態は、単語埋め込み及び潜在トピックモデルに基づく大規模スケールのコーパスを用いた教師なしトレーニング方法を用いてSLUネットワークをプレトレーニングする。
【0022】
対話全体にわたる長期特徴を取得するために、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク(MSRNN)を用いてユーザー意図及び目標を予測する。MSRNN予測システムは、第1のサブネットワーク及び第2のサブネットワークを用いて、音声対話の異なる時間スケール、例えば、単語のシーケンス及び意図のシーケンスによって表される異なる時間スケールを用いてモデル化する。単語のサブネットワークに用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。
【0023】
MSRNN予測システム内の結合モジュールは、サブネットワーク出力ベクトルを結合し、ユーザーの目標を予測カテゴリーごとのスコアを用いて予測する。このMSRNN予測システムのマルチスケールネットワークパラメーターは、トレーニング中に各サブネットワークのプレトレーニングされたサブネットワークパラメーターを用いることによって効率的に推定される。MSRNNベースの予測システムは、従来のSLUシステムと比較して約18%誤差を低減することができる。
【0024】
プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、MSRNNを効率的に構築することができる。MSRNNにおけるパラメーターを従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをMSRNNの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。
【図面の簡単な説明】
【0025】
図1】コンピューターによる従来の音声対話システムの流れ図である。
図2】本発明の実施形態によって用いられる浅層フィードフォワードニューラルネットワークの概略図である
図3】本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)の概略図である。
図4】本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)ベースの予測システムの流れ図である。
図5】本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)ベースのトレーニングシステムの流れ図である。
図6】従来のリカレントニューラルネットワークの予測システムの流れ図である。
図7】従来のリカレントニューラルネットワークのトレーニングシステムの流れ図である。
【発明を実施するための形態】
【0026】
本発明の実施形態は、対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法を提供する。
【0027】
線形入力ネットワークのファインチューニング
音声言語理解タスクに用いることができる本方法は、意図推定モデル及び目標推定モデルを表す識別手法を用いる。加えて、特徴量設計を介して様々な情報を組み込むことができる。多変量ロジスティック回帰を用いて、分類ターゲットg及び特徴ベクトルXの事後確率P(g|X)を、以下のように求める。
【数1】
ここで、[Y]は、ベクトルYの第gの未加工要素を意味する。ソフトマックス関数は、
【数2】
であり、ここで、zは範囲[0,1]のベクトルであり、m及びkはインデックスである。
【0028】
重み行列Wはトレーニング中に推定され、以下でより詳細に記載される。意図予測の場合、Xはバッグオブワード(BoW)特徴ベクトルであり、gは意図カテゴリーである。目標推定タスクの場合、Xは対話履歴における各予測された意図についての信頼度スコアを含むバッグオブインテンション特徴ベクトルであり、gは目標カテゴリーである。
【0029】
図2に示すように、ベースラインモデルを、1つの入力層200と目標204を予測する1つのソフトマックス出力層203とを有する浅層ニューラルネットワークとして特徴付けることができる。
【0030】
システムにword2vec埋め込みをインポートするために、単語埋め込みX201をベースライン特徴X202に連結する。すなわち、
【数3】
である。
【0031】
単語シーケンスXが、ターン又はセンテンスにおける各単語について正規化word2vec特徴を合計することによって得られる。
【数4】
ここで、Tは、センテンス又はターンにおける単語数である。X(i)は、大規模のコーパスを用いてプレトレーニングされた入力シーケンスにおける第iの単語のword2vec特徴量である。
【0032】
ファインチューニングのために2つの構造を用いる。1つはフィードフォワード構造であり、このフィードフォワード構造を用いてword2vec埋め込みから取得されたアフィン変換をファインチューニングする。これは、浅層ベースラインネットワークに線形層を加えることに等しい。
【0033】
代替的に、GloVe、LR−MVL、及びLSAもまた、種々の方法を用いてグローバル単語共起カウントをモデル化する有用な単語埋め込みである。LSAは、固有分解行列の分解(eigen-decomposition matrix factorisation)技法を用いて、単語共起行列をより低次元に射影する。LR−MVLは、データの低ランク近似の過去のビューと未来のビューとの間で正準相関分析(CCA)を実行することによって、実数値のコンテキスト固有の単語埋め込みを学習する。LR−MVLは、バイグラム共起行列又はトライグラム共起行列上で機能する。LR−MVKは、LSAよりも長い単語シーケンス情報を用いて、コンテキスト固有の埋め込みを推定する。GloVeは、単語共起カウントへの単語埋め込みの二乗誤差を最小化する。
【0034】
他の構造は、異なる時間スケールにマルチスケールリカレントニューラルネットワーク(MSRNN)を用いる。目標推定のためにMSRNNを適用する。MSRNNはASR結果と予測された意図との双方を入力として用いる。word2vec埋め込みからのアフィン変換をMSRNNのトレーニング中にファインチューニングすることができる。
【0035】
フィードフォワードアーキテクチャ
図2に示すように、フィードフォワードアーキテクチャは、BoW層200と出力層203との間に線形隠れ層201及び202を加えることによってベースライン構造を変更する。
【0036】
入力特徴を所与とした意図の事後確率は、ソフトマックスを用いて以下のように求められ、
【数5】
である。
【0037】
BOWは、語彙サイズVの次元を有する、音声から取得されるBoWベクトルである。φは、n×Vの次元を有するword2vecから最初に学習される単語埋め込み行列であり、ここでnは単語埋め込みの次元である。式6はアフィン変換である。Wは隠れ層と出力層との間の重み行列である。ファインチューニングはφをWとともに更新することによって達成される。Xは、意図カテゴリー数の次元を有するベクトルであり、Nベストの意図信頼度スコアを合計することによって取得される。同じXがベースライン方法において用いられる。
【0038】
フィードフォワードアーキテクチャは、タスクドメインへの調整に柔軟性をもたらし、実際に、純粋な特徴連結よりも良好な結果をもたらす。
【0039】
マルチスケールリカレントニューラルネットワーク(MSRNN)
図3に示すように、意図理解及び目標推定は、2つの入力シーケンス、すなわち、単語シーケンス310及び意図シーケンス340を有する。これらの2つのシーケンスは、異なる時間スケール上で処理される。単語に用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。
【0040】
ベースラインアーキテクチャは、入力された単語をバッグオブワードとして扱い、これは入力のコンテキスト情報を無視する。双方の入力されたシーケンス、すなわち単語(310)及び意図(340)は、コンテキスト情報を含み、直観的には、この情報を取得するシステムは、この情報を取得しないシステムよりも良好に機能することができる。
【0041】
したがって、MSRNNを用いて、図3に示されている、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
【0042】
この図面における上半分301は、より短い第1の時間スケールRNN320を表しており、このより短い第1の時間スケールRNN320は、各発話における各単語の特徴ベクトル310を全体シーケンスとして受け取る。RNN320は、図3に示すように、シーケンスにおける各新たな単語を受け取るにつれて、各入力ステップにおけるRNN320の新たな状態として、状態を変更することができる。この図面の下半分302は、より長い第2の時間スケールRNN330を表しており、このより長い第2の時間スケールRNN330は、各発話について単一の意図特徴ベクトル340を受け取る。RNN330は、図3に示すように、対話シーケンス内の各新たな発話が処理されるにつれて、各入力ステップにおけるRNN330の新たな状態として、状態を変更することができる。
【0043】
RNN320は、RNN330よりもはるかに頻繁に、例えば、発話中の各単語について更新する。目標は、対話ターンが処理された後のRNN320及び330の状態を用いて、この対話ターンのそれぞれの終了時に予測される。単語RNN320の最後の層321及び意図RNN330の最後の層331を用いて、目標204を予測する。換言すれば、層321及び331はそれぞれ、各ターンの終了時におけるRNN320及び330の状態を反映する。
【0044】
上記のアーキテクチャは以下のように定式化される。
【数6】
ここで、X={X(1),X(2),...,X(T)} 310、及びI={I(1),I(2),...,I(M)} 340であり、T及びMはそれぞれ、単語シーケンス及び意図シーケンスの長さである。X(t)及びI(m)はそれぞれ、ワンホット単語ベクトル及びワンホット意図ベクトルである。h(T)及びh(M)は、T及びMにおける隠れアクティベーションベクトルであり、これは以下において説明される。
【0045】
単語シーケンス及び意図シーケンスのリカレントモジュールは、以下のように求めることができる。
【数7】
【0046】
隠れ層において、以下のように定義されるシグモイド関数を用いる。
【数8】
ここで、φ及びφは、入力ノードと隠れノードとの間の単語及び意図の重み行列である。φは、単語埋め込み行列によって初期化され、時間を通した誤差逆伝播を用いてφがファインチューニングされる。W及びWは、コンテキストノードと隠れノードとの間の重み行列である。φI、及びWは、ランダムに初期化される。
【0047】
図4に示すように、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク(MSRNN)を用いて対話全体にわたる長期特徴を取得し、予測システムにおいてユーザー意図及び目標を予測する。
【0048】
予測システムに対する入力は、対応する第1のサブネットワーク320及び第2のサブネットワーク330に対する単語シーケンス310及び意図シーケンス340である。これらのサブネットワークは、音声対話の異なる時間スケール、例えば、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
【0049】
結合モジュール440は、サブネットワークの出力ベクトルを結合してユーザー目標204を予測する。
【0050】
図5に示すように、このMSRNN予測システムのマルチスケールネットワークパラメーター430は、トレーニング単語シーケンス510及び意図シーケンス520を用いてトレーニング中に各サブネットワーク420についてプレトレーニングされたサブネットワークパラメーター521を用いることによって推定される。
【0051】
プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、MSRNNを効率的に構築することができる。MSRNN内のパラメーターは、従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをMSRNNの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。
【0052】
発明の効果
本発明の実施形態は、低リソースのSLUタスクのための効率的な学習のアーキテクチャを提供する。単語埋め込みは教師なしであり、特定のSLUタスクのためにファインチューニングされる。対話全体にわたる長期特徴を取得するために、MSRNNを実施し、このMSRNNは、2つのサブネットワークを用いて単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
図1
図2
図3
図4
図5
図6
図7