IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2022-21349情報処理装置、情報処理方法、およびプログラム
<>
  • 特開-情報処理装置、情報処理方法、およびプログラム 図1
  • 特開-情報処理装置、情報処理方法、およびプログラム 図2
  • 特開-情報処理装置、情報処理方法、およびプログラム 図3
  • 特開-情報処理装置、情報処理方法、およびプログラム 図4
  • 特開-情報処理装置、情報処理方法、およびプログラム 図5
  • 特開-情報処理装置、情報処理方法、およびプログラム 図6
  • 特開-情報処理装置、情報処理方法、およびプログラム 図7
  • 特開-情報処理装置、情報処理方法、およびプログラム 図8
  • 特開-情報処理装置、情報処理方法、およびプログラム 図9
  • 特開-情報処理装置、情報処理方法、およびプログラム 図10
  • 特開-情報処理装置、情報処理方法、およびプログラム 図11
  • 特開-情報処理装置、情報処理方法、およびプログラム 図12
  • 特開-情報処理装置、情報処理方法、およびプログラム 図13
  • 特開-情報処理装置、情報処理方法、およびプログラム 図14
  • 特開-情報処理装置、情報処理方法、およびプログラム 図15
  • 特開-情報処理装置、情報処理方法、およびプログラム 図16
  • 特開-情報処理装置、情報処理方法、およびプログラム 図17
  • 特開-情報処理装置、情報処理方法、およびプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022021349
(43)【公開日】2022-02-03
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G10L 13/08 20130101AFI20220127BHJP
   G10L 15/00 20130101ALI20220127BHJP
   G10L 13/02 20130101ALI20220127BHJP
   G10L 13/00 20060101ALI20220127BHJP
   G10L 15/22 20060101ALI20220127BHJP
【FI】
G10L13/08 124
G10L15/00 200T
G10L13/02 110Z
G10L13/00 100M
G10L15/22 300Z
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2018222407
(22)【出願日】2018-11-28
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(72)【発明者】
【氏名】八重田 寿理
(72)【発明者】
【氏名】横山 早紀
(72)【発明者】
【氏名】宮崎 千明
(57)【要約】
【課題】ユーザの発話に対して、正しい発音で応答することができるようにする。
【解決手段】本技術の一側面の情報処理装置は、ユーザの発話の内容を表す発話テキストに基づいて、ユーザの発話に対する応答の内容を表す応答テキストを生成し、応答テキストに含まれる文字列の読み方を表す発音情報を付与した応答テキストを出力する。本技術は、音声アシスタント機能を有する装置に適用することができる。
【選択図】図5
【特許請求の範囲】
【請求項1】
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える
情報処理装置。
【請求項2】
前記対話管理部は、前記応答テキストに含まれる文字列のうちの少なくとも一部の文字列の読み方を表す前記発音情報を付与する
請求項1に記載の情報処理装置。
【請求項3】
前記対話管理部は、前記応答テキストの韻律を表す前記発音情報を付与する
請求項1に記載の情報処理装置。
【請求項4】
前記ユーザの発話を検出して得られた音声データを対象として音声認識を行い、前記発話テキストを生成する音声認識部をさらに備える
請求項1に記載の情報処理装置。
【請求項5】
前記発音情報により表される読み方の音声を出力するように、前記応答テキストに基づいて音声合成を行う音声合成部をさらに備える
請求項1に記載の情報処理装置。
【請求項6】
前記対話管理部は、前記発話テキストに含まれる文字列と同じ所定の文字列が前記応答テキストに含まれる場合、前記応答テキストに含まれる前記所定の文字列の読み方として、前記ユーザの読み方と同じ読み方を表す前記発音情報を付与する
請求項1に記載の情報処理装置。
【請求項7】
前記対話管理部は、それぞれの文字列の読み方を定義したデータベースを参照し、前記応答テキストに含まれる所定の文字列の読み方として、前記データベースにおいて定義されている読み方を表す前記発音情報を付与する
請求項1に記載の情報処理装置。
【請求項8】
前記発話テキストを解析し、前記ユーザの発話の意図を推定する解析部をさらに備え、
前記対話管理部は、前記所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、前記ユーザの発話の意図に応じた読み方を表す前記発音情報を付与する
請求項7に記載の情報処理装置。
【請求項9】
前記対話管理部は、前記応答テキストに含まれる所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、起動中のアプリケーションに応じた読み方を表す前記発音情報を付与する
請求項7に記載の情報処理装置。
【請求項10】
前記発音情報の付与に関する履歴を記憶する履歴記憶部をさらに備え、
前記対話管理部は、前記履歴を参照し、前記応答テキストに含まれる所定の文字列の読み方として、過去に付与された読み方と同じ読み方を表す前記発音情報を付与する
請求項1に記載の情報処理装置。
【請求項11】
前記対話管理部は、前記発話テキストを入力することに応じてニューラルネットワークから出力された、前記発音情報を付与した前記応答テキストを出力する
請求項1に記載の情報処理装置。
【請求項12】
情報処理装置が、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
情報処理方法。
【請求項13】
コンピュータに、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
処理を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザの発話に対して、正しい発音で応答することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
音声認識技術や人工知能技術の進歩により、音声アシスタント機能を搭載したデバイスが普及してきている。例えば、「天気を教えて」のユーザの発話に対して、「本日の天気は晴れです」の音声によってデバイスが応答するような、自然発話を用いた音声対話が実現されている。
【0003】
このような音声対話は、主に、ユーザの音声をテキスト化する音声認識、音声認識の結果を解析し、ユーザの意図を推定する言語解析、ユーザの意図に応じた応答テキストを生成する応答生成、および、応答テキストを音声に変換する音声合成の一連の処理により実現される。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016-201643号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声対話を実現するための最後の処理となる音声合成は、応答生成によって生成された応答テキストを、読み方と韻律を表す、記号的な言語表現に変換するようにして行われる。韻律には、音の高低、リズム、抑揚などが含まれる。
【0006】
ここで、応答テキストに含まれる文字列の読み方は、例えば言語辞書を用いて選択される。言語辞書には、それぞれの文字列の読み方が登録されている。
【0007】
同じ表記の1つの文字列に対して複数の読み方が言語辞書に登録されている場合、ユーザが想定しない、間違った読み方が文字列に付与されてしまうことがある。この場合、応答の内容がユーザに正しく伝わらない可能性がある。
【0008】
本技術はこのような状況に鑑みてなされたものであり、ユーザの発話に対して、正しい発音で応答することができるようにするものである。
【課題を解決するための手段】
【0009】
本技術の一側面の情報処理装置は、ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える。
【0010】
本技術の一側面においては、ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストが生成され、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストが出力される。
【図面の簡単な説明】
【0011】
図1】本技術の一実施形態に係る情報処理システムの構成例を示す図である。
図2】発話の例を示す図である。
図3】音声対話を実現するための一連の処理の例を示す図である。
図4】発話の例を示す図である。
図5】発話の例を示す図である。
図6】情報処理サーバの処理の概念を示す図である。
図7】情報処理端末のハードウェア構成例を示すブロック図である。
図8】情報処理サーバのハードウェア構成例を示すブロック図である。
図9】情報処理サーバの機能構成例を示すブロック図である。
図10図9の対話管理部の構成例を示すブロック図である。
図11】発音情報事前定義データベースの記述の例を示す図である。
図12】発話の例を示す図である。
図13】発話の例を示す図である。
図14】発話の例を示す図である。
図15】情報処理サーバの応答処理について説明するフローチャートである。
図16図15のステップS4において行われる発音情報付与処理について説明するフローチャートである。
図17】情報処理サーバの発音情報付与履歴記憶処理について説明するフローチャートである。
図18】情報処理サーバの他の処理の概念を示す図である。
【発明を実施するための形態】
【0012】
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.情報処理システムにおける音声対話の例
2.情報処理システムの構成
3.発音情報の付与の具体例
4.情報処理システムの動作
5.変形例
【0013】
<<情報処理システムにおける音声対話の例>>
図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
【0014】
図1の情報処理システムは、情報処理端末1と情報処理サーバ2が、インターネットなどのネットワーク11を介して接続されることによって構成される。情報処理端末1と情報処理サーバ2が協働して処理を行うことにより、いわゆる音声アシスタント機能が実現される。ユーザは、調べ物、予定の登録、メッセージの送信などの各種の機能を音声によって実行させることができる。
【0015】
情報処理端末1は、マイクロフォン(マイク)、カメラ、スピーカなどの入出力デバイスを有する。これらの入出力デバイスが円筒状の筐体の所定の位置に設けられる。情報処理端末1は、ユーザの発話をマイクにより検出し、音声データを情報処理サーバ2に送信する。
【0016】
情報処理サーバ2は、情報処理端末1から送信されてきた音声データを解析することによってユーザの意図を推定し、ユーザの意図に応じた機能を実現するための処理を行う。情報処理サーバ2は、処理の結果を情報処理端末1に送信し、ユーザに対する応答として出力させる。例えば調べ物をするための発話をユーザが行った場合、調べ物の結果をユーザに通知するための合成音声が情報処理端末1のスピーカから出力される。
【0017】
このように、図1の情報処理システムにおいては、基本的に、UI(User Interface)の機能を情報処理端末1が担い、ユーザの意図に応じた機能を実現するための処理の実行を情報処理サーバ2が担うことによって、音声アシスタント機能が実現される。
【0018】
また、図1の情報処理システムにおいては、ユーザの発話に対する応答として情報処理端末1から出力される合成音声が、ユーザの意図に応じた正しい発音で出力される。
【0019】
図2は、発話の例を示す図である。
【0020】
吹き出し#1に示すように、「今日の三田の天気は?」の発話をユーザが行った場合について説明する。このような発話は、「三田」の天気を調べることをユーザが情報処理システムに対して依頼する発話となる。
【0021】
以下、適宜、ユーザが情報処理システムに対して物事を依頼する発話を依頼発話という。
【0022】
ここで、依頼発話に含まれる「三田」の文字列(単語)については、「サンダ」とユーザが発音しているものとする。「三田」は地名である。
【0023】
なお、図2においては、ユーザから見て情報処理端末1の先にある情報処理サーバ2等の構成の図示が省略されている。図5等の他の図においても同様である。
【0024】
図3は、音声対話を実現するための一連の処理の例を示す図である。
【0025】
「今日の三田(サンダ)の天気は?」の依頼発話がユーザにより行われた場合、矢印A1の先に示すように、依頼発話の音声データを対象として音声認識が行われる。音声認識が行われることにより、依頼発話の音声データをテキスト化した「今日の三田の天気は?」のテキストデータである発話テキストが生成される。
【0026】
情報処理サーバ2よる音声認識においては、後述するように、発話テキストとともに、「今日の三田の天気は?」の発音情報も生成される。発音情報には、ユーザが依頼発話を行ったときの各文字列の読み方を表す情報と、韻律を表す情報とが含まれる。
【0027】
矢印A2の先に示すように、音声認識の結果に含まれる「今日の三田の天気は?」の発話テキストを対象として言語解析が行われる。言語解析が行われることにより、依頼発話を行ったユーザの意図が推定される。また、発話テキストに含まれる文字列が抽出される。図3の例においては、「天気の問い合わせ」というユーザの意図が推定されるとともに、「三田」の文字列が抽出されている。
【0028】
矢印A3の先に示すように、言語解析によって得られたユーザの意図と文字列に応じて応答生成が行われる。応答生成により、ユーザの依頼発話に応じた応答の内容を表すテキストデータである応答テキストが生成される。
【0029】
例えば、地名を表す「三田」の文字列に基づいて天気の検索が行われ、「三田」の天気が検索結果として取得される。応答テキストは、検索結果として得られた「三田」の天気を表す例えば「晴れ」の文字列を含むようにして生成される。図3の例においては、「今日の三田の天気は晴れです」の応答テキストが生成されている。
【0030】
矢印A4の先に示すように、応答生成によって得られた「今日の三田の天気は晴れです」の応答テキストに基づいて音声合成が行われる。
【0031】
依頼発話がユーザにより行われた場合、例えば情報処理サーバ2においては以上のような一連の処理が行われる。情報処理サーバ2による音声合成の結果に基づいて、応答の内容をユーザに提示するための合成音声である応答音声が情報処理端末1のスピーカから出力される。
【0032】
ここで、「三田」の表記を有する地名の読み方として、「サンダ」の他に、例えば「ミタ」がある。「三田」を「サンダ」と発音する土地と「ミタ」と発音する土地は、異なる土地である。
【0033】
したがって、単に、応答テキストだけに基づいて音声合成が行われるとした場合、図4の吹き出し#11に示すように「今日の三田(サンダ)の天気は晴れです」の応答音声が出力される場合もあるし、吹き出し#12に示すように「今日の三田(ミタ)の天気は晴れです」の応答音声が出力される場合もある。すなわち、応答テキストに含まれる「三田」の文字列が、「サンダ」と発音されることもあるし、「ミタ」と発音されることもある。
【0034】
この例においては、ユーザは「三田(サンダ)」の天気を知りたいのであるから、「三田」の文字列を「ミタ」と発音する、吹き出し#12に示す応答音声はユーザの意図に沿わないものとなる。
【0035】
情報処理サーバ2においては、「三田」の文字列を「サンダ」と発音する音声合成が行われるように、「サンダ」と発音することを表す発音情報が、応答テキストに含まれる「三田」の文字列に対して付与される。
【0036】
「三田」の文字列に対して発音情報が付与された応答テキストに基づいて音声合成が行われることにより、図5の吹き出し#21に示すように、「三田」の文字列を「サンダ」と発音する応答音声である、「今日の三田(サンダ)の天気は晴れです」が出力される。
【0037】
「サンダ」と発音することを表す発音情報は、例えば、応答テキストに含まれる文字列である「三田」が発話テキストにも含まれており、発話テキストに含まれる「三田」の文字列を、ユーザが「サンダ」と発音していたことに基づいて付与される。
【0038】
発音情報が付与された文字列を含む応答テキストに基づいて音声合成を行うことにより、情報処理サーバ2は、ユーザの意図に応じた発音の応答音声を出力させることが可能となる。
【0039】
また、情報処理サーバ2は、応答の内容を正しくユーザに伝えることができる。ユーザの意図に反した発音を含む形でフィードバックが行われるとした場合、応答の内容が正しくユーザに伝わらないことがあるが、そのようなことを防ぐことが可能となる。
【0040】
図6は、情報処理サーバ2の処理の概念を示す図である。
【0041】
図6に示すように、情報処理サーバ2が有する対話管理部は、ユーザによる依頼発話を入力として、発音情報を付与した応答テキストを出力する。発音情報を付与した応答テキストに基づいて、後段の処理部において音声合成が行われる。
【0042】
このように、情報処理サーバ2は、ユーザによる依頼発話を入力として、応答テキストと発音情報を出力する情報処理装置として機能する。情報処理サーバ2の動作の詳細については後述する。
【0043】
<<情報処理システムの構成>>
<情報処理端末の構成例>
図7は、情報処理端末1のハードウェア構成例を示すブロック図である。
【0044】
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
【0045】
バス54には、マイク55、カメラ56、センサ57、スピーカ58、ディスプレイ59、記憶部60、および通信部61が接続される。
【0046】
マイク55は、ユーザの音声や環境音などの各種の音を検出する。
【0047】
カメラ56は、ユーザを含む、情報処理端末1の周囲を撮影する。
【0048】
センサ57は、周囲の明るさを検出する照度センサ、周囲にある物体までの距離を測定する測距センサ、GPS(Global Positioning System)を用いた測位センサなどの各種のセンサにより構成される。
【0049】
スピーカ58は、例えば情報処理サーバ2による制御に従って合成音声を出力することにより、ユーザの依頼発話に対する応答を行う。
【0050】
ディスプレイ59は、LCD、有機ELディスプレイなどのディスプレイにより構成される。ディスプレイ59には、例えば情報処理サーバ2による制御に従って各種の情報が提示される。
【0051】
記憶部60は、不揮発性のメモリなどにより構成される。記憶部60は、CPU51が実行するプログラムなどの各種のデータを記憶する。
【0052】
通信部61は、無線や有線による通信を介して、情報処理サーバ2などの外部の装置との間で各種の情報の送受信を行う。通信部61は、マイク55により検出された音声データ、カメラ56により撮影された画像データ、および、センサ57により検出されたセンサデータを情報処理サーバ2に送信する。
【0053】
また、通信部61は、情報処理サーバ2から送信されてきた音声データを受信してスピーカ58に出力し、合成音声を出力させる。
【0054】
<情報処理サーバの構成例>
図8は、情報処理サーバ2のハードウェア構成例を示すブロック図である。
【0055】
CPU101、ROM102、RAM103は、バス104により相互に接続される。
【0056】
バス104には、さらに、入出力インタフェース105が接続される。入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続される。
【0057】
また、入出力インタフェース105には、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、リムーバブルメディア111を駆動するドライブ110が接続される。
【0058】
情報処理サーバ2は、このような構成を有するコンピュータにより構成される。1台のコンピュータではなく、複数台のコンピュータにより情報処理サーバ2が構成されるようにしてもよい。
【0059】
図9は、情報処理サーバ2の機能構成例を示すブロック図である。
【0060】
図9に示す構成のうちの少なくとも一部は、図8のCPU101により所定のプログラムが実行されることによって実現される。
【0061】
図9に示すように、情報処理サーバ2においては音声処理部151が実現される。音声処理部151は、音声取得部161、音声認識部162、言語解析部163、対話管理部164、および音声合成部165から構成される。情報処理端末1から送信され、通信部109において受信された依頼発話の音声データは音声取得部161に入力される。
【0062】
音声取得部161は、依頼発話の音声データを取得する。音声取得部161により取得された音声データは音声認識部162に供給される。
【0063】
音声認識部162は、音声取得部161から供給された依頼発話の音声データを対象として音声認識を行い、発話テキストと発音情報を出力する。上述したように、発音情報には、ユーザが依頼発話を行ったときの各文字列の読み方を表す情報と、韻律を表す情報とが含まれる。音声認識部162から出力された発話テキストと発音情報は、言語解析部163と対話管理部164に供給される。
【0064】
言語解析部163は、発話テキストを対象として言語解析を行い、ユーザの意図を推定する。また、言語解析部163は、発話テキストに含まれる文字列を抽出する。言語解析を行うことによって推定されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は対話管理部164に供給される。
【0065】
対話管理部164は、言語解析部163による言語解析の結果に基づいて応答テキストを生成する。
【0066】
また、対話管理部164は、応答テキストに発音情報を付与する。発音情報の付与は、適宜、音声認識部162による音声認識の結果、データベースに予め登録されている情報、発音情報の付与の履歴を参照して行われる。対話管理部164により発音情報が付与された応答テキストは、音声合成部165に供給される。
【0067】
なお、応答テキストを構成する全ての文字列に対して発音情報が付与されるのではなく、一部の文字列に対して発音情報が付与されるようにしてもよい。すなわち、対話管理部164による発音情報の付与は、応答テキストを構成する少なくとも一部の文字列を対象として行われる。文字列の読み方を表す情報だけでなく、韻律を表す情報が発音情報に含まれるようにしてもよい。
【0068】
音声合成部165は、応答テキストに基づいて音声合成を行い、発音情報により表される発音を有する応答音声を生成する。音声合成により、応答テキストに含まれる文字列の読み方として、発音情報により表される読み方が設定される。
【0069】
また、応答テキストの韻律として、発音情報により表される韻律が設定される。応答テキスト全体の韻律が発音情報に基づいて設定されるようにしてもよいし、一部の文字列の韻律が発音情報に基づいて設定されるようにしてもよい。
【0070】
音声合成部165により音声合成が行われることによって得られた応答音声のデータは、通信部109から情報処理端末1に対して送信される。
【0071】
音声処理部151には、依頼発話によって入力された予定を管理する機能、依頼発話に応じて検索を行う機能などの、音声アシスタント機能のそれぞれの機能を実現するための構成も適宜設けられる。
【0072】
図10は、図9の対話管理部164の構成例を示すブロック図である。
【0073】
図10に示すように、対話管理部164は、対話処理部181、応答データベース182、対話履歴記憶部183、発音情報付与処理部184、発音情報事前定義データベース185、および発音情報付与履歴記憶部186から構成される。
【0074】
音声認識の結果として音声認識部162から出力された発話テキストと発音情報は、対話処理部181と発音情報付与処理部184に入力される。また、言語解析の結果として言語解析部163から出力されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は、対話処理部181に入力される。
【0075】
応答データベース182と発音情報事前定義データベース185が、対話管理部164の外部に設けられるようにしてもよい。また、応答データベース182と発音情報事前定義データベース185が、ネットワーク11を介して接続される他の装置に設けられるようにしてもよい。
【0076】
対話処理部181は、応答データベース182を参照し、発話テキストに対して適切な応答となる応答テキストを生成する。対話処理部181により生成された応答テキストは発音情報付与処理部184に供給される。
【0077】
また、対話処理部181は、発話テキストと応答テキストを対応付けて対話履歴記憶部183に出力し、対話履歴として記憶させる。対話処理部181による応答テキストの生成は、適宜、対話履歴記憶部183に記憶されている対話履歴を参照して行われる。
【0078】
応答データベース182は、各種の発話テキストに対応する応答テキストのデータベースである。例えば、「ただいま」とユーザが発話した場合に、「おかえりなさい」という応答音声を出力するような一般的なやりとりを行うための情報が応答データベース182に含まれる。また、「おはよう」とユーザが発話した場合に、ユーザの一日の予定を通知したり、その日の天気を通知したりする応答テキストを出力するための情報が応答データベース182に含まれる。
【0079】
対話履歴記憶部183は、対話処理部181から供給された情報に基づいて対話履歴を記憶する。依頼発話を行ったときにユーザが起動させていたアプリケーションの情報が対話履歴に含まれるようにしてもよい。
【0080】
発音情報付与処理部184は、対話処理部181から供給された応答テキストを解析し、応答テキストに含まれる文字列の読み方と、韻律を表す発音情報を応答テキストに付与する。応答テキストに含まれる文字列の読み方を表す情報だけが発音情報に含まれるようにしてもよい。
【0081】
例えば、発音情報付与処理部184は、音声認識部162による音声認識の結果に基づいて、応答テキストに含まれる所定の文字列の読み方として、ユーザの読み方と同じ読み方を表す発音情報を付与する。
【0082】
また、発音情報付与処理部184は、発音情報事前定義データベース185に記憶されている情報を参照し、所定の文字列の読み方として、発音情報事前定義データベース185において事前に定義された読み方と同じ読み方を表す発音情報を付与する。
【0083】
発音情報付与処理部184は、発音情報付与履歴記憶部186に記憶されている履歴を参照し、所定の文字列の読み方として、過去に付与した読み方と同じ読み方を表す発音情報を付与する。
【0084】
発音情報付与処理部184は、応答テキストに含まれる文字列と発音情報を対応付けて発音情報付与履歴記憶部186に出力し、発音情報付与履歴として記憶させる。
【0085】
発音情報事前定義データベース185は、それぞれの文字列の読み方を定義したデータベースである。例えば、同じ表記の1つの文字列に対して複数の読み方が定義される。
【0086】
発音情報付与履歴記憶部186は、応答テキストに付与した発音情報の履歴である発音情報付与履歴を記憶する。
【0087】
<<発音情報の付与の具体例>>
ここで、発音情報の付与の具体例について説明する。
【0088】
<音声認識結果を用いた付与方法>
「今日の三田(サンダ)の天気は?」の依頼発話が行われた場合に、応答テキストに含まれる「三田」の文字列の読み方として「サンダ」の読み方を表す発音情報を付与する上述した方法が、音声認識の結果を用いた付与方法に相当する。
【0089】
すなわち、対話処理部181は、音声認識の結果である「今日の三田の天気は?」の発話テキストと、言語解析の結果が入力されることに応じて、「今日の三田の天気は晴れです」の応答テキストを生成する。
【0090】
発音情報付与処理部184は、「今日の三田の天気は晴れです」の応答テキストを解析し、発話テキストと比較することによって、応答テキストに含まれる「三田」の文字列と同じ文字列が発話テキストに含まれていることを特定する。
【0091】
発音情報付与処理部184は、応答テキストに含まれる「三田」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「三田」の読み方と同じ読み方である「サンダ」を付与する。
【0092】
これにより、情報処理サーバ2は、依頼発話時におけるユーザの「三田」の読み方である「サンダ」と同じ読み方で応答音声を出力させることが可能となる。
【0093】
・依頼発話が英語で行われた場合の例
以上のような発音情報の付与は、ユーザの発話が日本語で行われた場合だけでなく、英語などの他の言語で行われた場合にも適用可能である。
【0094】
例えば、消費電力量が25WのLED電球をショッピングリストに登録するために、英語で、「Add 25W LED to my shopping list」の依頼発話が行われた場合について説明する。ショッピングリストは、購入予定の物を管理する機能である。
【0095】
ここで、依頼発話に含まれる「25W」の文字列については、「twenty-five watt」とユーザが発音しているものとする。
【0096】
この場合、依頼発話を対象とした音声認識、言語解析の結果に基づいて、ショッピングリストへの登録が完了したことをユーザに通知する、例えば「25W LED has been added to my shopping list」の応答テキストが対話処理部181により生成される。
【0097】
発音情報付与処理部184は、応答テキストに含まれる「25W」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「25W」の読み方と同じ読み方である「twenty-five watt」を付与する。
【0098】
これにより、情報処理サーバ2は、例えば、応答テキストに含まれる「25W」を、ユーザが意図していない「two five double-u」などと発音するような音声合成が行われるのを防ぐことができる。情報処理サーバ2は、依頼発話時におけるユーザの「25W」の読み方である「twenty-five watt」と同じ読み方で応答音声を出力させることが可能となる。
【0099】
・他の例
例えば、中国語の「教授」の文字列は、「jiao1 shou4」と「juao4 shou4」の読み方を有する。「教える」、「大学教師としての教授」といったように、読み方によっては、「教授」の意味が異なる。
【0100】
このような複数の読み方を有する文字列が中国語の応答テキストに含まれる場合、同じ文字列が発話テキストに含まれるときには、その応答テキストに含まれる文字列の読み方として、依頼発話時のユーザの読み方と同じ読み方が設定される。
【0101】
固有名詞について、略語としての読み方と一般名詞としての読み方が異なる場合がある。例えば、「BOT」は、略語としての「ボット」の読み方と、一般名詞としての「ビーオーティー」の読み方を有する。また、「東大」は、略語としての「トウダイ」の読み方と、一般名詞(人名)としての「アズマヒロシ」の読み方を有する。
【0102】
略語としての読み方と一般名詞としての読み方のような複数の読み方を有する文字列が応答テキストに含まれる場合も同様に、依頼発話時のユーザの読み方と同じ読み方が設定される。
【0103】
表記が同一の人名の読み方が出身地や母語によって異なることがある。例えば、人名を表す「Michael」は、英語では「マイケル」と読み、フランス語では「ミッシェル」と読む。また、ドイツ語では「ミハエル」と読む。
【0104】
この場合も、応答テキストに含まれる「Michael」の文字列に対しては、依頼発話時の「Michael」のユーザの読み方と同じ読み方が設定される。
【0105】
<発音情報事前定義データベースを参照した付与方法>
図11は、発音情報事前定義データベース185の記述の例を示す図である。
【0106】
図11に示す情報は、「十分」の文字列の読み方を定義した情報である。図11の例においては、「十分」の文字列の読み方として、「ジュップン」と「ジュウブン」の2つの読み方が定義されている。「ジュップン」の読み方に対しては時刻のカテゴリが設定され、「ジュウブン」の読み方に対しては「量」のカテゴリが設定されている。
【0107】
このように、発音情報事前定義データベース185には、同じ表記の1つの文字列に対して複数の読み方を定義した情報が記述される。それぞれの読み方には、用法に応じたカテゴリが設定される。
【0108】
図12は、発話の例を示す図である。
【0109】
吹き出し#31に示すように、「次の打ち合わせはいつ?」の発話をユーザが行った場合について説明する。このような発話は、「次の打ち合わせ」の予定を調べることをユーザが依頼する依頼発話となる。図12の依頼発話を行う前、ユーザが、打ち合わせの予定を登録しているものとする。
【0110】
この場合、対話処理部181は、音声認識の結果である「次の打ち合わせはいつ?」の発話テキストと、言語解析の結果が入力されることに応じて、「三時十分です」の応答テキストを生成する。
【0111】
例えば、言語解析部163による言語解析により、「打ち合わせの時刻の問い合わせ」というユーザの意図が推定される。対話処理部181は、応答データベース182を参照するなどして、打ち合わせの時刻が「三時十分」であることを特定し、「三時十分です」の応答テキストを生成することになる。
【0112】
発音情報付与処理部184は、「三時十分です」の応答テキストを解析し、「十分」の文字列の読み方として、「ジュップン」と「ジュウブン」の2つの読み方が発音情報事前定義データベース185において定義されていることを特定する。
【0113】
発音情報付与処理部184は、応答テキストに含まれる「十分」の文字列の読み方として、ユーザの意図に応じた、時刻のカテゴリの読み方と同じ読み方である「ジュップン」の読み方を付与する。
【0114】
これにより、情報処理サーバ2は、図12の吹き出し#32に示すように、時刻に関する読み方である「ジュップン」を用いて、応答音声を出力させることが可能となる。
【0115】
このように、応答テキストに含まれる文字列に対する発音情報の付与が、発音情報事前定義データベース185の内容を参照して行われるようにすることが可能である。
【0116】
この例においては、優先させる読み方が、用法に応じたカテゴリに基づいて選択されるものとしたが、他の情報に基づいて選択されるようにしてもよい。
【0117】
例えば、依頼発話時にユーザが起動させているアプリケーションに基づいて読み方が選択されるようにしてもよい。この場合、UIの機能を担う情報処理端末1は、上述したようなスマートスピーカではなく、各種のアプリケーションを実行するスマートフォンやタブレット端末により実現される。
【0118】
例えば、電話帳アプリケーションをユーザが起動させている場合において、「ゆみこの電話番号は?」の依頼発話が行われたものとする。
【0119】
この場合、依頼発話を対象とした音声認識、言語解析の結果に基づいて、例えば、人名である「ゆみこ」と紐付けられた電話番号を表す文字列を含む「08012345678です」の応答テキストが対話処理部181により生成される。
【0120】
発音情報付与処理部184は、応答テキストに含まれる「080」、「1234」、「5678」のそれぞれの文字列の読み方として、発音情報事前定義データベース185の記述に基づいて、「ゼロハチゼロ」、「イチニサンシ」、「ゴロクシチハチ」を付与する。
【0121】
例えば発音情報事前定義データベース185においては、電話帳アプリケーションの起動中の依頼発話に対する応答には、「080」の文字列の読み方として「ゼロハチゼロ」を用いることが定義されている。また、「1234」の文字列の読み方として「イチニサンシ」を用いることが定義され、「5678」の文字列の読み方として「ゴロクシチハチ」を用いることが定義されている。
【0122】
すなわち、発音情報事前定義データベース185においては、電話帳アプリケーションの起動中の依頼発話に対する応答に、数字を1つずつ読む読み方を優先させることが定義されている。
【0123】
これにより、情報処理サーバ2は、例えば、応答テキストに含まれる「1234」を、ユーザが意図していない「センニヒャクサンジュウヨン」などと発音するような音声合成が行われるのを防ぐことが可能となる。
【0124】
複数のユーザが1台の情報処理端末1を利用する場合、発音情報事前定義データベース185がユーザ毎に設けられるようにしてもよい。
【0125】
この場合、発話音声に基づいて、または、情報処理端末1に設けられたカメラ56により撮影された画像に基づいて話者が識別され、話者として識別されたユーザ用の発音情報事前定義データベース185を用いて読み方が付与される。
【0126】
ユーザ毎に用意された発音情報事前定義データベース185の内容を、ユーザ自身が編集することができるようにしてもよい。
【0127】
また、話者の人物属性が発音情報事前定義データベース185に反映されるようにしてもよい。人物属性には、出身地、居住地、年齢、性別、趣味、嗜好などが含まれる。
【0128】
この場合、発音情報事前定義データベース185においては、同じ表記の複数の読み方に対してそれぞれ人物属性が紐付けられる。発音情報の付与が、依頼発話を行った話者の属性に応じた読み方を優先するように行われる。
【0129】
これにより、情報処理サーバ2は、話者の属性に応じた読み方の合成音声によって応答させることが可能となる。
【0130】
<発音情報付与履歴を参照した付与方法>
図13は、発話の例を示す図である。
【0131】
吹き出し#41に示すように、「三田(サンダ)でサッカーの予定を登録して」の発話をユーザが行った場合について説明する。このような発話は、「三田でサッカーをする」といった予定を登録することをユーザが依頼する依頼発話となる。
【0132】
この場合、言語解析部163による言語解析により、「サッカーの予定を登録する」というユーザの意図が推定される。また、推定されたユーザの意図に基づいて、図示せぬ処理部により、「三田でサッカーをする」の予定が登録される。
【0133】
対話処理部181は、音声認識の結果である「三田でサッカーの予定を登録して」の発話テキストと、言語解析の結果が入力されることに応じて、「三田でサッカーの予定を登録しました」の応答テキストを生成する。
【0134】
発音情報付与処理部184は、応答テキストに含まれる「三田」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「三田」の読み方と同じ読み方である「サンダ」を付与する。この発音情報の付与の方法は、上述したような、音声認識結果を用いた付与方法となる。
【0135】
これにより、情報処理サーバ2は、図13の吹き出し#42に示すように、「三田」の文字列の読み方として「サンダ」を用いた、「三田(サンダ)でサッカーの予定を登録しました」の応答音声を出力させることが可能となる。
【0136】
このような読み方を付与した場合、発音情報付与処理部184は、「三田」の文字列の読み方として「サンダ」を付与したことを表す情報を発音情報付与履歴記憶部186に記憶させる。発音情報付与履歴記憶部186には、読み方が付与された文字列の履歴が記憶される。
【0137】
図14は、図13に示す発話のやりとりが行われた週の翌週の発話の例を示す図である。
【0138】
図14に示す発話のやりとりは、「三田」の文字列の読み方として「サンダ」を付与したことを表す情報が発音情報付与履歴記憶部186に記憶されている状態でのやりとりとなる。
【0139】
吹き出し#43に示すように、「先週末何があったっけ?」の発話をユーザが行った場合について説明する。このような発話は、「先週末の予定」を調べることをユーザが依頼する依頼発話となる。
【0140】
この場合、対話処理部181は、音声認識の結果である「先週末何があったっけ?」の発話テキストと、言語解析の結果が入力されることに応じて、「三田でサッカーをしました」の応答テキストを生成する。
【0141】
例えば、言語解析部163による言語解析により、「先週末のスケジュールの問い合わせ」というユーザの意図が推定される。対話処理部181は、応答データベース182と対話履歴記憶部183を参照するなどして、先週末に「三田でサッカーをした」ことを特定し、「三田でサッカーをしました」の応答テキストを生成することになる。
【0142】
発音情報付与処理部184は、発音情報付与履歴記憶部186に記憶されている履歴を参照し、応答テキストに含まれる「三田」の文字列の読み方として、過去に付与した読み方と同じ読み方である「サンダ」を付与する。
【0143】
これにより、情報処理サーバ2は、図14の吹き出し#44に示すように、「三田」の文字列の読み方として「サンダ」を用いた、「三田(サンダ)でサッカーをしました」の応答音声を出力させることが可能となる。
【0144】
このように、応答テキストに含まれる文字列に対する発音情報の付与が、発音情報付与履歴記憶部186に記憶されている履歴を参照して行われるようにすることが可能である。
【0145】
複数のユーザが情報処理端末1を利用する場合、発音情報の付与の履歴がユーザ毎に管理されるようにしてもよい。
【0146】
この場合、発話音声に基づいて、または、情報処理端末1に設けられたカメラ56により撮影された画像に基づいて話者が識別され、話者として識別されたユーザ毎に、発音情報の付与の履歴が管理される。また、話者として識別されたユーザ毎の履歴を参照して、応答テキストに含まれる文字列に対する発音情報の付与が行われる。
【0147】
これにより、例えば、「三田(サンダ)でサッカーをする」というユーザAの予定と、「三田(ミタ)で打ち合わせ」というユーザBの予定をそれぞれ正しく伝えることが可能となる。
【0148】
すなわち、発音情報付与処理部184は、ユーザAの依頼発話に基づいて生成された応答テキストに含まれる「三田」の文字列に対して「サンダ」の読み方を付与することができる。また、発音情報付与処理部184は、ユーザBの依頼発話に基づいて生成された応答テキストに含まれる「三田」の文字列に対しては、「ミタ」の読み方を付与することができる。
【0149】
<<情報処理システムの動作>>
ここで、以上のような構成を有する情報処理サーバ2の動作について説明する。
【0150】
はじめに、図15のフローチャートを参照して、情報処理サーバ2の応答処理について説明する。
【0151】
ステップS1において、音声取得部161は、情報処理端末1から送信されてきた、依頼発話の音声データを取得する。
【0152】
ステップS2において、音声認識部162は、依頼発話の音声データを対象として音声認識を行う。音声認識により得られた発話テキストと発音情報は、言語解析部163と対話管理部164に出力される。
【0153】
ステップS3において、言語解析部163は、発話テキストを対象として言語解析を行う。言語解析により推定されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は、対話管理部164に供給される。
【0154】
ステップS4において、対話管理部164は発音情報付与処理を行う。発音情報付与処理により、応答テキストが生成され、応答テキストに含まれる文字列に対して発音情報が付与される。発音情報付与処理の詳細については、図16のフローチャートを参照して後述する。
【0155】
ステップS5において、音声合成部165は、応答テキストに基づいて音声合成を行い、発音情報により表される発音を有する応答音声を生成する。
【0156】
ステップS6において、音声合成部165は、音声合成が行われることによって得られた応答音声のデータを情報処理端末1に対して送信し、応答音声を出力させる。
【0157】
以上の処理が、依頼発話の音声データが情報処理端末1から送信されてくる毎に行われる。
【0158】
次に、図16のフローチャートを参照して、図15のステップS4において行われる発音情報付与処理について説明する。
【0159】
ステップS21において、対話処理部181は、応答データベース182を参照するなどして応答テキストを生成する。
【0160】
ステップS22において、発音情報付与処理部184は、対話処理部181から供給された応答テキストを解析する。
【0161】
ステップS23,S24,S25の処理が、応答テキストの解析結果に基づいて例えば並行に行われる。
【0162】
ステップS23において、発音情報付与処理部184は、応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース185に記憶されているか否かを判定する。
【0163】
応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース185に記憶されているとステップS23において判定された場合、処理はステップS24に進む。
【0164】
ステップS24において、発音情報付与処理部184は、応答テキストに含まれる文字列に対して、発音情報事前定義データベース185において定義された読み方を表す発音情報を付与する。
【0165】
応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース185に記憶されていないとステップS23において判定された場合、ステップS24の処理はスキップされる。
【0166】
一方、ステップS25において、発音情報付与処理部184は、応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部186に記憶されているか否かを判定する。
【0167】
応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部186に記憶されているとステップS25において判定された場合、処理はステップS26に進む。
【0168】
ステップS26において、発音情報付与処理部184は、応答テキストに含まれる文字列に対して、発音情報付与履歴記憶部186に記憶されている読み方と同じ読み方を表す発音情報を付与する。
【0169】
応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部186に記憶されていないとステップS25において判定された場合、ステップS26の処理はスキップされる。
【0170】
一方、ステップS27において、発音情報付与処理部184は、応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるか否かを判定する。
【0171】
応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるとステップS27において判定された場合、処理はステップS28に進む。
【0172】
ステップS28において、発音情報付与処理部184は、応答テキストに含まれる文字列に対して、依頼発話時のユーザの読み方と同じ読み方を表す発音情報を付与する。
【0173】
応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれていないとステップS27において判定された場合、ステップS28の処理はスキップされる。
【0174】
ステップS29において、発音情報付与処理部184は、応答テキストに含まれる文字列に対して付与した発音情報を統合する。すなわち、発音情報事前定義データベース185において定義された読み方を表す発音情報(第1の発音情報)、過去に付与した読み方を表す発音情報(第2の発音情報)、ユーザの読み方と同じ読み方を表す発音情報(第3の発音情報)が適宜統合される。
【0175】
例えば、応答テキストに含まれる1つの文字列に対して第1乃至第3の発音情報が付与された場合、優先度に応じて選択された1つの発音情報に統合される。
【0176】
また、第1の発音情報と第2の発音情報が同じ読み方を表す情報であり、第3の発音情報が、それとは異なる読み方を表す情報である場合、いわば多数決的に、第1の発音情報と第2の発音情報により表される読み方を表す情報に統合される。
【0177】
このように、3つの方法を用いて付与された発音情報の統合の仕方は任意である。
【0178】
ステップS30において、発音情報付与処理部184は、発音情報を付与した応答テキストを出力する。その後、図15のステップS4に戻り、それ以降の処理が行われる。
【0179】
次に、図17のフローチャートを参照して、発音情報付与履歴記憶処理について説明する。
【0180】
図17の処理は、例えば、発音情報が付与される毎に、応答テキストの解析結果に基づいて発音情報付与処理部184により行われる。
【0181】
ステップS31において、発音情報付与処理部184は、応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるか否かを判定する。
【0182】
応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるとステップS31において判定した場合、ステップS32において、発音情報付与処理部184は、応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部186に記憶されているか否かを判定する。
【0183】
応答テキストに含まれる文字列と同じ文字列が記憶されていないとステップS32において判定した場合、ステップS33において、発音情報付与処理部184は、応答テキストに含まれる文字列と、それに付与した発音情報を発音情報付与履歴記憶部186に記憶させる。
【0184】
文字列と発音情報が履歴として発音情報付与履歴記憶部186に記憶された後、処理は終了となる。応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれていないとステップS31において判定された場合、または、同じ文字列が発音情報付与履歴記憶部186に記憶されていないと判定された場合も同様に、処理は終了となる。
【0185】
以上の処理が繰り返されることにより、それぞれの文字列の読み方がユーザの読み方に基づいて履歴として蓄積され、管理される。情報処理サーバ2は、発音情報を付与した文字列の履歴を管理しておくことにより、ユーザの依頼発話に対して、正しい発音で応答することが可能となる。
【0186】
<<変形例>>
音声認識、言語解析、応答生成、音声合成の全ての処理が情報処理サーバ2により行われるものとしたが、4つの処理のうちの少なくともいずれかの処理が、情報処理端末1により行われるようにしてもよい。音声認識、言語解析、応答生成、音声合成の全ての処理が情報処理端末1において行われるようにすることも可能である。
【0187】
また、以上の技術は、スマートスピーカだけでなく、音声対話を用いた各種のデバイスに適用可能である。例えば、情報処理端末1として、スマートフォン、タブレット端末、パーソナルコンピュータ、カーナビゲーション装置、テレビジョン受像機などの各種の装置を用いることが可能である。
【0188】
ユーザによる依頼発話を入力として発音情報を付与した応答テキストを出力する対話管理部164の処理が、ニューラルネットワークを用いて実現されるようにしてもよい。
【0189】
図18は、情報処理サーバ2の他の処理の概念を示す図である。
【0190】
図18の対話管理部164が有するニューラルネットワークは、ユーザによる依頼発話を入力として、発音情報を付与した応答テキストを出力するニューラルネットワークである。様々な依頼発話を学習用データとして用いて学習が行われることによって得られたニューラルネットワークが対話管理部164に用意される。
【0191】
<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0192】
インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図8に示されるリムーバブルメディア111に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
【0193】
コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0194】
なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
【0195】
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0196】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0197】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0198】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0199】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0200】
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
【0201】
(1)
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える
情報処理装置。
(2)
前記対話管理部は、前記応答テキストに含まれる文字列のうちの少なくとも一部の文字列の読み方を表す前記発音情報を付与する
前記(1)に記載の情報処理装置。
(3)
前記対話管理部は、前記応答テキストの韻律を表す前記発音情報を付与する
前記(1)または(2)に記載の情報処理装置。
(4)
前記ユーザの発話を検出して得られた音声データを対象として音声認識を行い、前記発話テキストを生成する音声認識部をさらに備える
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記発音情報により表される読み方の音声を出力するように、前記応答テキストに基づいて音声合成を行う音声合成部をさらに備える
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記対話管理部は、前記発話テキストに含まれる文字列と同じ所定の文字列が前記応答テキストに含まれる場合、前記応答テキストに含まれる前記所定の文字列の読み方として、前記ユーザの読み方と同じ読み方を表す前記発音情報を付与する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記対話管理部は、それぞれの文字列の読み方を定義したデータベースを参照し、前記応答テキストに含まれる所定の文字列の読み方として、前記データベースにおいて定義されている読み方を表す前記発音情報を付与する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(8)
前記発話テキストを解析し、前記ユーザの発話の意図を推定する解析部をさらに備え、
前記対話管理部は、前記所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、前記ユーザの発話の意図に応じた読み方を表す前記発音情報を付与する
前記(7)に記載の情報処理装置。
(9)
前記対話管理部は、前記応答テキストに含まれる所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、起動中のアプリケーションに応じた読み方を表す前記発音情報を付与する
前記(7)に記載の情報処理装置。
(10)
前記発音情報の付与に関する履歴を記憶する履歴記憶部をさらに備え、
前記対話管理部は、前記履歴を参照し、前記応答テキストに含まれる所定の文字列の読み方として、過去に付与された読み方と同じ読み方を表す前記発音情報を付与する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(11)
前記対話管理部は、前記発話テキストを入力することに応じてニューラルネットワークから出力された、前記発音情報を付与した前記応答テキストを出力する
前記(1)に記載の情報処理装置。
(12)
情報処理装置が、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
情報処理方法。
(13)
コンピュータに、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
処理を実行させるためのプログラム。
【符号の説明】
【0202】
1 情報処理端末, 2 情報処理サーバ, 151 音声処理部, 161 音声取得部, 162 音声認識部, 163 言語解析部, 164 対話管理部, 165 音声合成部, 181 対話処理部, 182 応答データベース, 183 対話履歴記憶部, 184 発音情報付与処理部, 185 発音情報事前定義データベース, 186 発音情報付与履歴記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18