特許7054607 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7054607生成装置、生成方法および生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-04-06

(45)【発行日】2022-04-14

(54)【発明の名称】生成装置、生成方法および生成プログラム

(51)【国際特許分類】

G10L 13/06 20130101AFI20220407BHJP

G10L 13/00 20060101ALI20220407BHJP

G10L 25/30 20130101ALI20220407BHJP

【ＦＩ】

G10L13/06 140

G10L13/00 100M

G10L25/30

【請求項の数】 3

(21)【出願番号】P 2017052981

(22)【出願日】2017-03-17

(65)【公開番号】P2018155939

(43)【公開日】2018-10-04

【審査請求日】2019-03-25

【審判番号】

【審判請求日】2020-12-23

(73)【特許権者】

【識別番号】319013263

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】佐野峻平

(72)【発明者】

【氏名】鍜治伸裕

(72)【発明者】

【氏名】颯々野学

【合議体】

【審判長】清水正一

【審判官】樫本剛

【審判官】川崎優

(56)【参考文献】

【文献】特開平３－２１２８９（ＪＰ，Ａ）

【文献】磯健一、「音声認識におけるＤｅｅｐＬｅａｒｎｉｎｇの活用」、日本神経回路学会誌、２０１７年３月５日、Ｖｏｌ．２４、Ｎｏ．１、ｐ２７～３８

【文献】中川聖一、「［招待講演］再訪：ニューラルネットワークによる音声処理」、電子情報通信学会技術研究報告、２０１３年７月、ＳＰ２０１３－５９、ｐ．３７～４４

【文献】増田嵩志、張豪逸、磯健一、「ＬＳＴＭを用いたキーワードスポッティング」、日本音響学会２０１７年春季研究発表会講演論文集、２０１７年３月１５日、２－Ｐ－１５、ｐ．１７７～１７８

(58)【調査した分野】(Int.Cl.，ＤＢ名)

G10L 13/00 - 15/34

(57)【特許請求の範囲】

【請求項1】

利用者が発話した音声を受付ける受付部と、
前記受付部により受付けられた音声を所定の時間間隔で分割する分割部と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付部が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成部と、
を有し、
前記生成部は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成部は、前記受付部により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成装置。

【請求項2】

生成装置が実行する生成方法であって、
利用者が発話した音声を受付ける受付工程と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付工程が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成工程と、
を含み、
前記生成工程は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成工程は、前記受付工程により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成方法。

【請求項3】

利用者が発話した音声を受付ける受付手順と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付手順が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成手順と
をコンピュータに実行させるための生成プログラムであって、
前記生成手順は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成手順は、前記受付手順により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、生成装置、生成方法および生成プログラムに関する。

【背景技術】

【0002】

従来、利用者の発話に対して応答を出力する技術が知られている。このような技術の一例として、対話データを学習することにより、対話モデルを生成し、生成した対話モデルを用いて、利用者の発話に対する応答を生成する技術が知られている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－１０５４３６号公報

【非特許文献】

【0004】

【文献】“Sequence to Sequence Learning with Neural Networks”, Ilya Sutskever, Oriol Vinyals, Quoc V. Le

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上述した従来技術では、応答の精度向上が難しい場合がある。

【0006】

例えば、従来技術においては、利用者の発話をテキストに変換する音声認識処理と、テキストから発話の意図を推定する意図推定処理と、推定した意図から応答を生成する応答生成処理とが段階的に実行されることで、発話に対する応答が生成される。しかしながら、このような従来技術では、いずれかの処理で誤りが生じた場合、後段の処理で誤りが積み重なってしまい、見当違いの応答を出力する恐れがある。

【0007】

本願は、上記に鑑みてなされたものであって、応答の精度向上を容易にすることを目的とする。

【課題を解決するための手段】

【0008】

本願に係る生成装置は、利用者の発話を受付ける受付部と、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに前記利用者の発話を入力し、前記発話に対する応答を生成する生成部とを有することを特徴とする。

【発明の効果】

【0009】

実施形態の一態様によれば、応答の精度向上を容易にできる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。

【図2】図２は、実施形態に係る情報提供装置の構成例を示す図である。

【図3】図３は、実施形態に係る情報提供装置の効果の一例を示す図である。

【図4】図４は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。

【図5】図５は、ハードウェア構成の一例を示す図である。

【0011】

以下に、本願に係る生成装置、生成方法および生成プログラムを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法および生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

【0012】

〔１－１．情報提供装置の概要〕
まず、図１を用いて、生成処理の一例となる情報提供装置が実行する生成処理の一例について説明する。図１は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置１０が実行する処理として、利用者Ｕの発話に対する応答を生成して出力する処理の一例について説明する。すなわち、情報提供装置１０は、利用者Ｕとの対話を実現する対話システムである。

【0013】

情報提供装置１０は、インターネット等の所定のネットワークＮ（例えば、図２を参照。）を介して、利用者端末１００と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置１０は、ネットワークＮを介して、任意の数の利用者端末１００と通信可能であってよい。

【0014】

利用者端末１００は、対話システムで対話を行う利用者Ｕが使用する情報処理装置であり、ＰＣ（Personal Computer）、サーバ装置、スマートデバイスといった情報処理装置により実現される。例えば、利用者端末１００は、利用者Ｕが発話した音声を取得すると、情報提供装置１０に音声データを発話として情報提供装置１０へと送信する。なお、利用者端末１００は、利用者Ｕが入力した文字列を発話として情報提供装置１０へと送信してもよい。

【0015】

〔１－２．生成処理について〕
ここで、従来技術においては、利用者Ｕの発話から段階的に実行される複数の処理を実行することで、利用者Ｕの発話に対する応答を生成した。例えば、従来技術においては、利用者Ｕが発話した音声データを解析してテキスト化する音声認識処理、音声認識処理の結果であるテキストを用いて、利用者Ｕの発話の意図を解析する意図解析処理、および意図解析処理の結果を用いて応答を生成する応答生成処理を実行し、発話に対する応答を生成する。

【0016】

すなわち、従来技術は、音声認識処理、意図解析処理、および応答生成処理といった段階的に実行させる複数の処理を含む応答処理を実行することで、利用者Ｕの発話から応答となるテキストや音声データを生成し、生成した応答を利用者端末１００に送信する。この結果、利用者端末１００は、応答として生成された各種テキストの読み上げ技術や、音声データの再生を行うことで、利用者Ｕとの対話を実現した。

【0017】

しかしながら、このような従来技術では、応答の精度向上が難しい場合がある。例えば、従来技術では、いずれかの処理で誤りが生じた場合、後段の処理で誤りが積み重なってしまい、見当違いの応答を出力する恐れがある。

【0018】

そこで、情報提供装置１０は、以下の生成処理を実行する。まず、情報提供装置１０は、利用者Ｕの発話を受付ける。このような場合、情報提供装置１０は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Ｕの発話を入力し、発話に対する応答を生成する。

【0019】

すなわち、情報提供装置１０は、段階的に複数の処理を行うことで実現される機能について、単一のモデルを用いて入力から出力を生成する。例えば、情報提供装置１０は、発話となる音声データが入力された際に、応答となる音声データを出力するように学習が行われたニューラルネットワーク等のモデル（以下、「応答モデル」と記載する。）を用いて、発話から応答を直接生成する。この結果、情報提供装置１０は、段階的に複数の処理を行うことで実現される機能について、誤りの蓄積を防ぐことができるので、応答の精度向上を容易にすることができる。

【0020】

また、段階的に複数の処理を行うことで実現される機能について、出力の精度を向上させるには、機能全体としての修正を行うか、処理ごとに修正を行うか等といった修正戦略が重要となる。例えば、利用者Ｕの発話に対して応答を出力する応答処理において、音声認識処理を実行する音声認識モデル、意図解析処理を実行する意図解析モデル、および応答生成処理を実行する応答生成モデルがそれぞれ個別に存在する場合、どのモデルを修正するか若しくは全てのモデルを同時に修正するかに応じて、応答の精度が変化すると考えられる。

【0021】

例えば、音声認識処理を実行する音声認識モデルが誤りを生じた際に、全てのモデルを同時に再学習した場合には、誤りが生じていなかった意図解析モデルおよび応答生成モデルの処理精度が低下する恐れがある。また、各モデル間の連携を起因とする誤りが生じた場合には、個別に学習を行ったモデルの処理精度を低下させることなく、連携精度を向上させるといった学習が必要となるため、全モデルの学習処理に手間がかかる。

【0022】

一方、情報提供装置１０は、ある機能（すなわち、対話処理）を実現するためにパラメータ群が同時に学習された単一の応答モデルを用いて、発話から応答を直接生成する。このようなモデルを用いた場合、応答に誤りが生じた場合は、かかる誤りが生じないように（例えば、誤りが含まれる応答を不正解データとして）応答モデルの再学習を行えばよい。この結果、情報提供装置１０は、学習処理の内容を簡易化することができるので、容易に応答の精度を向上させることができる。

【0023】

〔１－３．モデルについて〕
ここで、情報提供装置１０は、発話から応答を直接するモデルであれば、任意のモデルを応答モデルとして採用可能である。例えば、情報提供装置１０は、ＲＮＮ（Recurrent Neural Network）やＣＮＮ（Convolutional Neural Network）を応答モデルとし、発話の音声データから応答の音声データを直接生成するように応答モデルの学習を行ってもよい。また、情報提供装置１０は、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成してもよい。より具体的には、情報提供装置１０は、受付けられた発話の音声データを全て入力した後で応答となる音声データを出力する応答モデルを用いて、応答を生成してもよい。例えば、このような応答モデルは、ＲＮＮの拡張であるＬＳＴＭ（Long short-term memory）を含むＲＮＮ（ＲＮＮ－ＬＳＴＭ）により実現される。

【0024】

例えば、情報提供装置１０は、利用者Ｕから受付けた発話の音声データ（以下、「発話音声」と記載する）を所定の時間間隔で分割する。そして、情報提供装置１０は、分割した発話音声のそれぞれについて、周波数、周波数の変動、声の大きさ（振幅）等といった特徴を示す多次元量（以下、「特徴量」と記載する。）を生成し、生成した特徴量を、発話音声に含まれる順に応答モデルに入力する。そして、情報提供装置１０は、分割した全ての発話音声を入力した際に、応答モデルが出力した音声を応答の音声データ（以下、「発話音声」と記載する。）として、利用者端末１００に送信してもよい。

【0025】

〔１－４．決定処理の一例〕
ここで、図１を用いて、情報提供装置１０が実行する処理の一例について説明する。まず、情報提供装置１０は、利用者端末１００から発話＃１として、発話音声を受付ける（ステップＳ１）。このような場合、情報提供装置１０は、発話音声を所定の時間間隔で分割する（ステップＳ２）。例えば、情報提供装置１０は、発話音声ＴＳ１を所定の時間間隔で分割した発話音声ＴＳ１１～ＴＳ２０を生成する。

【0026】

そして、情報提供装置１０は、分割した発話音声のデータを順次応答モデルに入力し、応答モデルに応答となる音声を出力させる（ステップＳ３）。例えば、情報提供装置１０は、発話音声ＴＳ１１の特徴量を応答モデルＲＭに入力する。なお、図１に示す例では、発話音声の特徴量を受付ける入力層、入力層からの出力に基づいて各種の処理を実行するＬＳＴＭ、およびＬＳＴＭからの出力に基づいて、応答音声を出力する出力層とを有する応答モデルＲＭについて記載した。

【0027】

続いて、情報提供装置１０は、発話音声ＴＭ１２の特徴量を応答モデルＲＭに入力する。その後、情報提供装置１０は、他の発話音声に対も順番に応答モデルＲＭに入力し、最終的に発話音声ＴＭ２０の特徴量を応答モデルＲＭに入力する。このような場合、応答モデルＲＭの学習が適切に行われている場合は、発話音声ＴＳ１に対する応答音声を応答モデルＲＭが出力する。そこで、情報提供装置１０は、応答モデルＲＭが出力した応答音声を、発話＃１に対する応答＃１として、利用者端末１００に出力する（ステップＳ４）。

【0028】

〔１－５．応答モデルの学習について〕
ここで、情報提供装置１０は、応答モデルＲＭにおける各種のパラメータ（例えば、応答モデルが有する各ノード間の接続係数）を同時に学習するのであれば、任意の学習処理を実行してよい。例えば、情報提供装置１０は、発話音声と、その発話音声が入力された際に応答モデルＲＭに出力させる応答音声との組を正解ペアとして取得する。このような場合、情報提供装置１０は、正解ペアの発話音声が入力された際に、正解ペアの応答音声を出力するように、バックプロパゲーション等の処理を実行することで、応答モデルＲＭが有するパラメータの修正を行う。すなわち、情報提供装置１０は、ある１つの学習データを用いた修正の対象となりうるパラメータ群であって、処理を実行する際に１つのモデルとして利用されるパラメータ群により構成されたモデルであれば、任意の応答モデルを使用して良い。

【0029】

〔２．情報提供装置の構成〕
以下、上記した情報提供装置１０が有する機能構成の一例について説明する。図２は、実施形態に係る情報提供装置の構成例を示す図である。図２に示すように、情報提供装置１０は、通信部２０、記憶部３０、および制御部４０を有する。

【0030】

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、利用者端末１００との間で情報の送受信を行う。

【0031】

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、応答モデルデータベース３１を記憶する。

【0032】

応答モデルデータベース３１には、応答モデルとして使用されるＬＳＴＭを含むＲＮＮが登録される。例えば、応答モデルデータベース３１には、ニューラルネットワークにおけるノード、ノード間の接続関係を示す情報、および接続されたノード間の接続係数が対応付けて登録される。

【0033】

制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。図２に示すように、制御部４０は、受付部４１、分割部４２、生成部４３、出力部４４、および学習部４５を有する。

【0034】

受付部４１は、利用者Ｕの発話を受付ける。例えば、受付部４１は、利用者Ｕが発話した音声、すなわち、発話音声を受付ける。このような場合、受付部４１は、発話音声を分割部４２に出力する。

【0035】

分割部４２は、発話音声を所定の時間間隔で分割する。例えば、分割部４２は、発話音声のデータを受付けると、発話音声を所定の時間間隔（例えば、０．１秒）で分割する。そして、分割部４２は、分割した発話音声を生成部４３に出力する。

【0036】

生成部４３は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Ｕの発話を入力し、発話に対する応答を生成する。例えば、生成部４３は、発話音声から応答音声を出力するように学習された応答モデルを用いて、発話に対する応答を生成する。

【0037】

例えば、生成部４３は、応答モデルデータベース３１から、応答モデルを読み出す。そして、生成部４３は、分割された発話音声の特徴量を示す特徴量情報を順番に応答モデルに入力し、応答モデルが出力した特徴量から応答音声を生成する。すなわち、生成部４３は、応答モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成する。

【0038】

ここで、応答モデルが出力する情報からどのように応答音声を生成するかについては、応答モデルの学習態様に応じて任意の設定が可能である。例えば、生成部４３は、ある発話音声の特徴量を入力した際に、応答音声の特徴量（すなわち、応答音声として出力される音の波長、波長変化、音量等）を示す情報を出力するように応答モデルが学習がなされている場合は、発話音声の特徴量を入力し、応答モデルが出力した応答音声の特徴量から応答音声の音声データを生成すればよい。また、生成部４３は、例えば、ある発話音声の波形を入力した際に、応答音声の波形を示す情報を出力するように応答モデルが学習されている場合は、応答モデルに発話音声の波形を入力し、応答モデルが出力した波形の音声データを生成すればよい。

【0039】

また、生成部４３は、分割した発話音声が全て入力された後で、応答音声を出力するように応答モデルの学習が行われている場合は、分割した発話音声が全て入力された後で、応答モデルが出力した応答音声を取得すればよい。また、生成部４３は、分割した発話音声が入力される度に、分割された応答音声を順に出力するように応答モデルの学習が行われている場合は、分割した発話音声が入力される度に応答モデルが出力した応答音声を結合することで、利用者Ｕに提供する応答音声を生成すればよい。すなわち、生成部４３は、ある１つのモデルを構成するパラメータ群を用いて、発話音声から応答音声を生成するのであれば、任意の学習が行われたモデルを用いて、発話に対する応答を生成すればよい。

【0040】

出力部４４は、生成部４３によって生成された応答を出力する。例えば、出力部４４は、生成部４３が応答モデルを用いて生成した応答音声のデータを、利用者端末１００へと送信する。

【0041】

学習部４５は、発話から応答を直接出力するようにパラメータ群を同時に学習する。すなわち、学習部４５は、発話から応答を直接出力するように、応答モデルに含まれるパラメータ群の学習を行う。

【0042】

例えば、学習部４５は、外部サーバ２００等から、学習データとして、ある発話と、その発話に対して適切であったと推定される応答との音声データのペアを正解ペアとして取得する。このような場合、学習部４５は、応答モデルデータベース３１から応答モデルを読出し、正解ペアに含まれる発話の音声データを入力した際に、正解ペアに含まれる応答の音声データを出力するように、応答モデルの学習を行う。なお、応答モデルの学習については、任意の学習手法が適用可能である。また、学習部４５は、正解ペアに含まれる発話の音声データを分割し、分割した音声データを順に入力した際に、応答の音声データを出力するように、応答モデルの学習を行ってもよく、分割した音声データを入力する度に、応答の分割された音声データを出力するように、学習を行ってもよい。

【0043】

〔３．情報提供装置が実行する生成処理について〕
上述した処理により、情報提供装置１０は、段階的に処理が行われることによる誤りの蓄積を防ぐことができる。例えば、図３は、実施形態に係る情報提供装置の効果の一例を示す図である。例えば、図３の左側に示すように、従来の応答生成処理においては、利用者Ｕの発話＃１から音声認識処理、意図解析処理、および応答生成処理を段階的に実行することで、発話＃１に対する応答＃１を生成した。しかしながら、このような処理では、音声認識処理において認識誤りが生じた場合、意図解析処理において意図解析誤りが生じた場合、若しくは、応答生成処理において発話が不十分なことによる発話誤りが生じた場合には、後段の処理等で誤りが修正されることなく応答が生成されるため、誤りが蓄積してしまう。

【0044】

一方、情報提供装置１０は、図３の右側に示すように、発話＃１から応答モデルを用いて直接応答＃１を生成する。この結果、処理の途中で誤りが生じたとしても、誤りが蓄積せず、発話＃１から応答＃１を生成する処理全体において、確度がより高いと推定される処理結果が応答＃１として出力される。また、情報提供装置１０は、発話から適切な応答を出力するように応答モデルを学習すればよい。このため、情報提供装置１０は、応答の精度を容易に向上させることができる。

【0045】

〔４．情報提供装置が実行する処理の流れの一例〕
続いて、図４を用いて、情報提供装置１０が実行する処理の流れの一例を説明する。図４は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。

【0046】

例えば、情報提供装置１０は、利用者Ｕの発話の音声を受付ける（ステップＳ１０１）。このような場合、情報提供装置１０は、音声を分割し（ステップＳ１０２）、分割した各音声の特徴量ベクトルを算出する（ステップＳ１０３）。すなわち、情報提供装置１０は、周波数や周波数の変動、音の大きさ等といった各要素それぞれの特徴量をまとめた多次元量を生成する。そして、情報提供装置１０は、発話順に、分割した音声の特徴量ベクトルを応答モデルに入力し（ステップＳ１０４）、応答モデルの出力から音声を生成する（ステップＳ１０５）。そして、情報提供装置１０は、生成した音声を応答音声として出力し（ステップＳ１０６）、処理を終了する。

【0047】

〔５．変形例〕
上記では、情報提供装置１０による決定処理や強化学習の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置１０が実行する提供処理や決定処理のバリエーションについて説明する。

【0048】

〔５－１．適用対象について〕
上述した例では、情報提供装置１０は、発話から応答を生成する際に段階的に行われていた複数の処理を、１つのモデルで実行することで、誤りの蓄積を防ぐとともに、学習を容易にした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置１０は、画像解析や各種認証処理等、段階的に複数の処理が行われるような処理であれば、任意の処理について、単一のモデルを用いた処理を実行して良い。

【0049】

〔５－２．装置構成〕
情報提供装置１０は、利用者端末１００とのやり取りを行うフロントエンドサーバと、生成処理を実行するバックエンドサーバとが連携して動作することにより、実現されてもよい。このような場合、フロントエンドサーバには、図２に示す受付部４１が配置され、バックエンドサーバには、分割部４２、生成部４３、出力部４４、および学習部４５が配置される。

【0050】

〔５－３．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0051】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0052】

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0053】

〔５－４．プログラム〕
また、上述した実施形態に係る情報提供装置１０は、例えば図５に示すような構成のコンピュータ１０００によって実現される。図５は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

【0054】

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現される。

【0055】

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

【0056】

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

【0057】

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

【0058】

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

【0059】

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

【0060】

〔６．効果〕
上述したように、情報提供装置１０は、利用者Ｕの発話を受付ける。そして、情報提供装置１０は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Ｕの発話を入力し、発話に対する応答を生成する。このため、情報提供装置１０は、誤りの蓄積を防ぐことができ、モデルの学習を容易にすることもできるので、応答の精度を容易に向上させることができる。

【0061】

また、情報提供装置１０は、利用者Ｕが発話した音声を受付け、発話の音声から応答の音声を出力するように学習されたモデルを用いて、発話に対する応答を生成する。このため、情報提供装置１０は、発話音声から応答音声を直接出力する応答モデルを用いて、応答を生成するので、応答の精度を容易に向上させることができる。

【0062】

また、情報提供装置１０は、受付けられた音声を所定の時間間隔で分割する。そして、情報提供装置１０は、分割した音声の特徴量を示す特徴量情報を順番にモデルに入力し、モデルが出力した特徴量から応答の音声を生成する。このため、情報提供装置１０は、単一のモデルを用いて、発話音声から応答音声の生成を実現できる。

【0063】

また、情報提供装置１０は、モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成する。例えば、情報提供装置１０は、受付けられた音声を全て入力した後でモデルが出力する音声を応答の音声とする。このため、情報提供装置１０は、発話音声から適切な応答音声の生成を実現できる。

【0064】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0065】

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、推定部は、推定手段や推定回路に読み替えることができる。

【符号の説明】

【0066】

１０情報提供装置
２０通信部
３０記憶部
３１応答モデルデータベース
４０制御部
４１受付部
４２分割部
４３生成部
４４出力部
４５学習部
１００利用者端末
２００外部サーバ

【図1】