IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7054607生成装置、生成方法および生成プログラム
<>
  • 特許-生成装置、生成方法および生成プログラム 図1
  • 特許-生成装置、生成方法および生成プログラム 図2
  • 特許-生成装置、生成方法および生成プログラム 図3
  • 特許-生成装置、生成方法および生成プログラム 図4
  • 特許-生成装置、生成方法および生成プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-06
(45)【発行日】2022-04-14
(54)【発明の名称】生成装置、生成方法および生成プログラム
(51)【国際特許分類】
   G10L 13/06 20130101AFI20220407BHJP
   G10L 13/00 20060101ALI20220407BHJP
   G10L 25/30 20130101ALI20220407BHJP
【FI】
G10L13/06 140
G10L13/00 100M
G10L25/30
【請求項の数】 3
(21)【出願番号】P 2017052981
(22)【出願日】2017-03-17
(65)【公開番号】P2018155939
(43)【公開日】2018-10-04
【審査請求日】2019-03-25
【審判番号】
【審判請求日】2020-12-23
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】佐野 峻平
(72)【発明者】
【氏名】鍜治 伸裕
(72)【発明者】
【氏名】颯々野 学
【合議体】
【審判長】清水 正一
【審判官】樫本 剛
【審判官】川崎 優
(56)【参考文献】
【文献】特開平3-21289(JP,A)
【文献】磯健一、「音声認識におけるDeep Learningの活用」、日本神経回路学会誌、2017年3月5日、Vol.24、No.1、p27~38
【文献】中川聖一、「[招待講演]再訪:ニューラルネットワークによる音声処理」、電子情報通信学会技術研究報告、2013年7月、SP2013-59、p.37~44
【文献】増田嵩志、張豪逸、磯健一、「LSTMを用いたキーワードスポッティング」、日本音響学会2017年春季研究発表会講演論文集、2017年3月15日、2-P-15、p.177~178
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 - 15/34
(57)【特許請求の範囲】
【請求項1】
利用者が発話した音声を受付ける受付部と、
前記受付部により受付けられた音声を所定の時間間隔で分割する分割部と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付部が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成部と
を有し、
前記生成部は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成部は、前記受付部により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成装置。
【請求項2】
生成装置が実行する生成方法であって、
利用者が発話した音声を受付ける受付工程と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付工程が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成工程と
を含み、
前記生成工程は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成工程は、前記受付工程により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成方法。
【請求項3】
利用者が発話した音声を受付ける受付手順と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付手順が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成手順と
をコンピュータに実行させるための生成プログラムであって、
前記生成手順は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成手順は、前記受付手順により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成プログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成装置、生成方法および生成プログラムに関する。
【背景技術】
【0002】
従来、利用者の発話に対して応答を出力する技術が知られている。このような技術の一例として、対話データを学習することにより、対話モデルを生成し、生成した対話モデルを用いて、利用者の発話に対する応答を生成する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-105436号公報
【非特許文献】
【0004】
【文献】“Sequence to Sequence Learning with Neural Networks”, Ilya Sutskever, Oriol Vinyals, Quoc V. Le
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来技術では、応答の精度向上が難しい場合がある。
【0006】
例えば、従来技術においては、利用者の発話をテキストに変換する音声認識処理と、テキストから発話の意図を推定する意図推定処理と、推定した意図から応答を生成する応答生成処理とが段階的に実行されることで、発話に対する応答が生成される。しかしながら、このような従来技術では、いずれかの処理で誤りが生じた場合、後段の処理で誤りが積み重なってしまい、見当違いの応答を出力する恐れがある。
【0007】
本願は、上記に鑑みてなされたものであって、応答の精度向上を容易にすることを目的とする。
【課題を解決するための手段】
【0008】
本願に係る生成装置は、利用者の発話を受付ける受付部と、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに前記利用者の発話を入力し、前記発話に対する応答を生成する生成部とを有することを特徴とする。
【発明の効果】
【0009】
実施形態の一態様によれば、応答の精度向上を容易にできる。
【図面の簡単な説明】
【0010】
図1図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。
図2図2は、実施形態に係る情報提供装置の構成例を示す図である。
図3図3は、実施形態に係る情報提供装置の効果の一例を示す図である。
図4図4は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。
図5図5は、ハードウェア構成の一例を示す図である。
【0011】
以下に、本願に係る生成装置、生成方法および生成プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法および生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
【0012】
〔1-1.情報提供装置の概要〕
まず、図1を用いて、生成処理の一例となる情報提供装置が実行する生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置10が実行する処理として、利用者Uの発話に対する応答を生成して出力する処理の一例について説明する。すなわち、情報提供装置10は、利用者Uとの対話を実現する対話システムである。
【0013】
情報提供装置10は、インターネット等の所定のネットワークN(例えば、図2を参照。)を介して、利用者端末100と通信可能な情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。なお、情報提供装置10は、ネットワークNを介して、任意の数の利用者端末100と通信可能であってよい。
【0014】
利用者端末100は、対話システムで対話を行う利用者Uが使用する情報処理装置であり、PC(Personal Computer)、サーバ装置、スマートデバイスといった情報処理装置により実現される。例えば、利用者端末100は、利用者Uが発話した音声を取得すると、情報提供装置10に音声データを発話として情報提供装置10へと送信する。なお、利用者端末100は、利用者Uが入力した文字列を発話として情報提供装置10へと送信してもよい。
【0015】
〔1-2.生成処理について〕
ここで、従来技術においては、利用者Uの発話から段階的に実行される複数の処理を実行することで、利用者Uの発話に対する応答を生成した。例えば、従来技術においては、利用者Uが発話した音声データを解析してテキスト化する音声認識処理、音声認識処理の結果であるテキストを用いて、利用者Uの発話の意図を解析する意図解析処理、および意図解析処理の結果を用いて応答を生成する応答生成処理を実行し、発話に対する応答を生成する。
【0016】
すなわち、従来技術は、音声認識処理、意図解析処理、および応答生成処理といった段階的に実行させる複数の処理を含む応答処理を実行することで、利用者Uの発話から応答となるテキストや音声データを生成し、生成した応答を利用者端末100に送信する。この結果、利用者端末100は、応答として生成された各種テキストの読み上げ技術や、音声データの再生を行うことで、利用者Uとの対話を実現した。
【0017】
しかしながら、このような従来技術では、応答の精度向上が難しい場合がある。例えば、従来技術では、いずれかの処理で誤りが生じた場合、後段の処理で誤りが積み重なってしまい、見当違いの応答を出力する恐れがある。
【0018】
そこで、情報提供装置10は、以下の生成処理を実行する。まず、情報提供装置10は、利用者Uの発話を受付ける。このような場合、情報提供装置10は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Uの発話を入力し、発話に対する応答を生成する。
【0019】
すなわち、情報提供装置10は、段階的に複数の処理を行うことで実現される機能について、単一のモデルを用いて入力から出力を生成する。例えば、情報提供装置10は、発話となる音声データが入力された際に、応答となる音声データを出力するように学習が行われたニューラルネットワーク等のモデル(以下、「応答モデル」と記載する。)を用いて、発話から応答を直接生成する。この結果、情報提供装置10は、段階的に複数の処理を行うことで実現される機能について、誤りの蓄積を防ぐことができるので、応答の精度向上を容易にすることができる。
【0020】
また、段階的に複数の処理を行うことで実現される機能について、出力の精度を向上させるには、機能全体としての修正を行うか、処理ごとに修正を行うか等といった修正戦略が重要となる。例えば、利用者Uの発話に対して応答を出力する応答処理において、音声認識処理を実行する音声認識モデル、意図解析処理を実行する意図解析モデル、および応答生成処理を実行する応答生成モデルがそれぞれ個別に存在する場合、どのモデルを修正するか若しくは全てのモデルを同時に修正するかに応じて、応答の精度が変化すると考えられる。
【0021】
例えば、音声認識処理を実行する音声認識モデルが誤りを生じた際に、全てのモデルを同時に再学習した場合には、誤りが生じていなかった意図解析モデルおよび応答生成モデルの処理精度が低下する恐れがある。また、各モデル間の連携を起因とする誤りが生じた場合には、個別に学習を行ったモデルの処理精度を低下させることなく、連携精度を向上させるといった学習が必要となるため、全モデルの学習処理に手間がかかる。
【0022】
一方、情報提供装置10は、ある機能(すなわち、対話処理)を実現するためにパラメータ群が同時に学習された単一の応答モデルを用いて、発話から応答を直接生成する。このようなモデルを用いた場合、応答に誤りが生じた場合は、かかる誤りが生じないように(例えば、誤りが含まれる応答を不正解データとして)応答モデルの再学習を行えばよい。この結果、情報提供装置10は、学習処理の内容を簡易化することができるので、容易に応答の精度を向上させることができる。
【0023】
〔1-3.モデルについて〕
ここで、情報提供装置10は、発話から応答を直接するモデルであれば、任意のモデルを応答モデルとして採用可能である。例えば、情報提供装置10は、RNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)を応答モデルとし、発話の音声データから応答の音声データを直接生成するように応答モデルの学習を行ってもよい。また、情報提供装置10は、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成してもよい。より具体的には、情報提供装置10は、受付けられた発話の音声データを全て入力した後で応答となる音声データを出力する応答モデルを用いて、応答を生成してもよい。例えば、このような応答モデルは、RNNの拡張であるLSTM(Long short-term memory)を含むRNN(RNN-LSTM)により実現される。
【0024】
例えば、情報提供装置10は、利用者Uから受付けた発話の音声データ(以下、「発話音声」と記載する)を所定の時間間隔で分割する。そして、情報提供装置10は、分割した発話音声のそれぞれについて、周波数、周波数の変動、声の大きさ(振幅)等といった特徴を示す多次元量(以下、「特徴量」と記載する。)を生成し、生成した特徴量を、発話音声に含まれる順に応答モデルに入力する。そして、情報提供装置10は、分割した全ての発話音声を入力した際に、応答モデルが出力した音声を応答の音声データ(以下、「発話音声」と記載する。)として、利用者端末100に送信してもよい。
【0025】
〔1-4.決定処理の一例〕
ここで、図1を用いて、情報提供装置10が実行する処理の一例について説明する。まず、情報提供装置10は、利用者端末100から発話#1として、発話音声を受付ける(ステップS1)。このような場合、情報提供装置10は、発話音声を所定の時間間隔で分割する(ステップS2)。例えば、情報提供装置10は、発話音声TS1を所定の時間間隔で分割した発話音声TS11~TS20を生成する。
【0026】
そして、情報提供装置10は、分割した発話音声のデータを順次応答モデルに入力し、応答モデルに応答となる音声を出力させる(ステップS3)。例えば、情報提供装置10は、発話音声TS11の特徴量を応答モデルRMに入力する。なお、図1に示す例では、発話音声の特徴量を受付ける入力層、入力層からの出力に基づいて各種の処理を実行するLSTM、およびLSTMからの出力に基づいて、応答音声を出力する出力層とを有する応答モデルRMについて記載した。
【0027】
続いて、情報提供装置10は、発話音声TM12の特徴量を応答モデルRMに入力する。その後、情報提供装置10は、他の発話音声に対も順番に応答モデルRMに入力し、最終的に発話音声TM20の特徴量を応答モデルRMに入力する。このような場合、応答モデルRMの学習が適切に行われている場合は、発話音声TS1に対する応答音声を応答モデルRMが出力する。そこで、情報提供装置10は、応答モデルRMが出力した応答音声を、発話#1に対する応答#1として、利用者端末100に出力する(ステップS4)。
【0028】
〔1-5.応答モデルの学習について〕
ここで、情報提供装置10は、応答モデルRMにおける各種のパラメータ(例えば、応答モデルが有する各ノード間の接続係数)を同時に学習するのであれば、任意の学習処理を実行してよい。例えば、情報提供装置10は、発話音声と、その発話音声が入力された際に応答モデルRMに出力させる応答音声との組を正解ペアとして取得する。このような場合、情報提供装置10は、正解ペアの発話音声が入力された際に、正解ペアの応答音声を出力するように、バックプロパゲーション等の処理を実行することで、応答モデルRMが有するパラメータの修正を行う。すなわち、情報提供装置10は、ある1つの学習データを用いた修正の対象となりうるパラメータ群であって、処理を実行する際に1つのモデルとして利用されるパラメータ群により構成されたモデルであれば、任意の応答モデルを使用して良い。
【0029】
〔2.情報提供装置の構成〕
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
【0030】
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、利用者端末100との間で情報の送受信を行う。
【0031】
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、応答モデルデータベース31を記憶する。
【0032】
応答モデルデータベース31には、応答モデルとして使用されるLSTMを含むRNNが登録される。例えば、応答モデルデータベース31には、ニューラルネットワークにおけるノード、ノード間の接続関係を示す情報、および接続されたノード間の接続係数が対応付けて登録される。
【0033】
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。図2に示すように、制御部40は、受付部41、分割部42、生成部43、出力部44、および学習部45を有する。
【0034】
受付部41は、利用者Uの発話を受付ける。例えば、受付部41は、利用者Uが発話した音声、すなわち、発話音声を受付ける。このような場合、受付部41は、発話音声を分割部42に出力する。
【0035】
分割部42は、発話音声を所定の時間間隔で分割する。例えば、分割部42は、発話音声のデータを受付けると、発話音声を所定の時間間隔(例えば、0.1秒)で分割する。そして、分割部42は、分割した発話音声を生成部43に出力する。
【0036】
生成部43は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Uの発話を入力し、発話に対する応答を生成する。例えば、生成部43は、発話音声から応答音声を出力するように学習された応答モデルを用いて、発話に対する応答を生成する。
【0037】
例えば、生成部43は、応答モデルデータベース31から、応答モデルを読み出す。そして、生成部43は、分割された発話音声の特徴量を示す特徴量情報を順番に応答モデルに入力し、応答モデルが出力した特徴量から応答音声を生成する。すなわち、生成部43は、応答モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成する。
【0038】
ここで、応答モデルが出力する情報からどのように応答音声を生成するかについては、応答モデルの学習態様に応じて任意の設定が可能である。例えば、生成部43は、ある発話音声の特徴量を入力した際に、応答音声の特徴量(すなわち、応答音声として出力される音の波長、波長変化、音量等)を示す情報を出力するように応答モデルが学習がなされている場合は、発話音声の特徴量を入力し、応答モデルが出力した応答音声の特徴量から応答音声の音声データを生成すればよい。また、生成部43は、例えば、ある発話音声の波形を入力した際に、応答音声の波形を示す情報を出力するように応答モデルが学習されている場合は、応答モデルに発話音声の波形を入力し、応答モデルが出力した波形の音声データを生成すればよい。
【0039】
また、生成部43は、分割した発話音声が全て入力された後で、応答音声を出力するように応答モデルの学習が行われている場合は、分割した発話音声が全て入力された後で、応答モデルが出力した応答音声を取得すればよい。また、生成部43は、分割した発話音声が入力される度に、分割された応答音声を順に出力するように応答モデルの学習が行われている場合は、分割した発話音声が入力される度に応答モデルが出力した応答音声を結合することで、利用者Uに提供する応答音声を生成すればよい。すなわち、生成部43は、ある1つのモデルを構成するパラメータ群を用いて、発話音声から応答音声を生成するのであれば、任意の学習が行われたモデルを用いて、発話に対する応答を生成すればよい。
【0040】
出力部44は、生成部43によって生成された応答を出力する。例えば、出力部44は、生成部43が応答モデルを用いて生成した応答音声のデータを、利用者端末100へと送信する。
【0041】
学習部45は、発話から応答を直接出力するようにパラメータ群を同時に学習する。すなわち、学習部45は、発話から応答を直接出力するように、応答モデルに含まれるパラメータ群の学習を行う。
【0042】
例えば、学習部45は、外部サーバ200等から、学習データとして、ある発話と、その発話に対して適切であったと推定される応答との音声データのペアを正解ペアとして取得する。このような場合、学習部45は、応答モデルデータベース31から応答モデルを読出し、正解ペアに含まれる発話の音声データを入力した際に、正解ペアに含まれる応答の音声データを出力するように、応答モデルの学習を行う。なお、応答モデルの学習については、任意の学習手法が適用可能である。また、学習部45は、正解ペアに含まれる発話の音声データを分割し、分割した音声データを順に入力した際に、応答の音声データを出力するように、応答モデルの学習を行ってもよく、分割した音声データを入力する度に、応答の分割された音声データを出力するように、学習を行ってもよい。
【0043】
〔3.情報提供装置が実行する生成処理について〕
上述した処理により、情報提供装置10は、段階的に処理が行われることによる誤りの蓄積を防ぐことができる。例えば、図3は、実施形態に係る情報提供装置の効果の一例を示す図である。例えば、図3の左側に示すように、従来の応答生成処理においては、利用者Uの発話#1から音声認識処理、意図解析処理、および応答生成処理を段階的に実行することで、発話#1に対する応答#1を生成した。しかしながら、このような処理では、音声認識処理において認識誤りが生じた場合、意図解析処理において意図解析誤りが生じた場合、若しくは、応答生成処理において発話が不十分なことによる発話誤りが生じた場合には、後段の処理等で誤りが修正されることなく応答が生成されるため、誤りが蓄積してしまう。
【0044】
一方、情報提供装置10は、図3の右側に示すように、発話#1から応答モデルを用いて直接応答#1を生成する。この結果、処理の途中で誤りが生じたとしても、誤りが蓄積せず、発話#1から応答#1を生成する処理全体において、確度がより高いと推定される処理結果が応答#1として出力される。また、情報提供装置10は、発話から適切な応答を出力するように応答モデルを学習すればよい。このため、情報提供装置10は、応答の精度を容易に向上させることができる。
【0045】
〔4.情報提供装置が実行する処理の流れの一例〕
続いて、図4を用いて、情報提供装置10が実行する処理の流れの一例を説明する。図4は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。
【0046】
例えば、情報提供装置10は、利用者Uの発話の音声を受付ける(ステップS101)。このような場合、情報提供装置10は、音声を分割し(ステップS102)、分割した各音声の特徴量ベクトルを算出する(ステップS103)。すなわち、情報提供装置10は、周波数や周波数の変動、音の大きさ等といった各要素それぞれの特徴量をまとめた多次元量を生成する。そして、情報提供装置10は、発話順に、分割した音声の特徴量ベクトルを応答モデルに入力し(ステップS104)、応答モデルの出力から音声を生成する(ステップS105)。そして、情報提供装置10は、生成した音声を応答音声として出力し(ステップS106)、処理を終了する。
【0047】
〔5.変形例〕
上記では、情報提供装置10による決定処理や強化学習の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する提供処理や決定処理のバリエーションについて説明する。
【0048】
〔5-1.適用対象について〕
上述した例では、情報提供装置10は、発話から応答を生成する際に段階的に行われていた複数の処理を、1つのモデルで実行することで、誤りの蓄積を防ぐとともに、学習を容易にした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、画像解析や各種認証処理等、段階的に複数の処理が行われるような処理であれば、任意の処理について、単一のモデルを用いた処理を実行して良い。
【0049】
〔5-2.装置構成〕
情報提供装置10は、利用者端末100とのやり取りを行うフロントエンドサーバと、生成処理を実行するバックエンドサーバとが連携して動作することにより、実現されてもよい。このような場合、フロントエンドサーバには、図2に示す受付部41が配置され、バックエンドサーバには、分割部42、生成部43、出力部44、および学習部45が配置される。
【0050】
〔5-3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0051】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0052】
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0053】
〔5-4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図5に示すような構成のコンピュータ1000によって実現される。図5は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0054】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
【0055】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0056】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0057】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0058】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0059】
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
【0060】
〔6.効果〕
上述したように、情報提供装置10は、利用者Uの発話を受付ける。そして、情報提供装置10は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Uの発話を入力し、発話に対する応答を生成する。このため、情報提供装置10は、誤りの蓄積を防ぐことができ、モデルの学習を容易にすることもできるので、応答の精度を容易に向上させることができる。
【0061】
また、情報提供装置10は、利用者Uが発話した音声を受付け、発話の音声から応答の音声を出力するように学習されたモデルを用いて、発話に対する応答を生成する。このため、情報提供装置10は、発話音声から応答音声を直接出力する応答モデルを用いて、応答を生成するので、応答の精度を容易に向上させることができる。
【0062】
また、情報提供装置10は、受付けられた音声を所定の時間間隔で分割する。そして、情報提供装置10は、分割した音声の特徴量を示す特徴量情報を順番にモデルに入力し、モデルが出力した特徴量から応答の音声を生成する。このため、情報提供装置10は、単一のモデルを用いて、発話音声から応答音声の生成を実現できる。
【0063】
また、情報提供装置10は、モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成する。例えば、情報提供装置10は、受付けられた音声を全て入力した後でモデルが出力する音声を応答の音声とする。このため、情報提供装置10は、発話音声から適切な応答音声の生成を実現できる。
【0064】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0065】
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、推定部は、推定手段や推定回路に読み替えることができる。
【符号の説明】
【0066】
10 情報提供装置
20 通信部
30 記憶部
31 応答モデルデータベース
40 制御部
41 受付部
42 分割部
43 生成部
44 出力部
45 学習部
100 利用者端末
200 外部サーバ
図1
図2
図3
図4
図5