特開2022-21349 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2022-21349情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022021349

(43)【公開日】2022-02-03

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G10L 13/08 20130101AFI20220127BHJP

G10L 15/00 20130101ALI20220127BHJP

G10L 13/02 20130101ALI20220127BHJP

G10L 13/00 20060101ALI20220127BHJP

G10L 15/22 20060101ALI20220127BHJP

【ＦＩ】

G10L13/08 124

G10L15/00 200T

G10L13/02 110Z

G10L13/00 100M

G10L15/22 300Z

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2018222407

(22)【出願日】2018-11-28

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100121131

【弁理士】

【氏名又は名称】西川孝

(74)【代理人】

【識別番号】100082131

【弁理士】

【氏名又は名称】稲本義雄

(72)【発明者】

【氏名】八重田寿理

(72)【発明者】

【氏名】横山早紀

(72)【発明者】

【氏名】宮崎千明

(57)【要約】

【課題】ユーザの発話に対して、正しい発音で応答することができるようにする。
【解決手段】本技術の一側面の情報処理装置は、ユーザの発話の内容を表す発話テキストに基づいて、ユーザの発話に対する応答の内容を表す応答テキストを生成し、応答テキストに含まれる文字列の読み方を表す発音情報を付与した応答テキストを出力する。本技術は、音声アシスタント機能を有する装置に適用することができる。
【選択図】図５

【特許請求の範囲】

【請求項1】

ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える
情報処理装置。

【請求項2】

前記対話管理部は、前記応答テキストに含まれる文字列のうちの少なくとも一部の文字列の読み方を表す前記発音情報を付与する
請求項１に記載の情報処理装置。

【請求項3】

前記対話管理部は、前記応答テキストの韻律を表す前記発音情報を付与する
請求項１に記載の情報処理装置。

【請求項4】

前記ユーザの発話を検出して得られた音声データを対象として音声認識を行い、前記発話テキストを生成する音声認識部をさらに備える
請求項１に記載の情報処理装置。

【請求項5】

前記発音情報により表される読み方の音声を出力するように、前記応答テキストに基づいて音声合成を行う音声合成部をさらに備える
請求項１に記載の情報処理装置。

【請求項6】

前記対話管理部は、前記発話テキストに含まれる文字列と同じ所定の文字列が前記応答テキストに含まれる場合、前記応答テキストに含まれる前記所定の文字列の読み方として、前記ユーザの読み方と同じ読み方を表す前記発音情報を付与する
請求項１に記載の情報処理装置。

【請求項7】

前記対話管理部は、それぞれの文字列の読み方を定義したデータベースを参照し、前記応答テキストに含まれる所定の文字列の読み方として、前記データベースにおいて定義されている読み方を表す前記発音情報を付与する
請求項１に記載の情報処理装置。

【請求項8】

前記発話テキストを解析し、前記ユーザの発話の意図を推定する解析部をさらに備え、
前記対話管理部は、前記所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、前記ユーザの発話の意図に応じた読み方を表す前記発音情報を付与する
請求項７に記載の情報処理装置。

【請求項9】

前記対話管理部は、前記応答テキストに含まれる所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、起動中のアプリケーションに応じた読み方を表す前記発音情報を付与する
請求項７に記載の情報処理装置。

【請求項10】

前記発音情報の付与に関する履歴を記憶する履歴記憶部をさらに備え、
前記対話管理部は、前記履歴を参照し、前記応答テキストに含まれる所定の文字列の読み方として、過去に付与された読み方と同じ読み方を表す前記発音情報を付与する
請求項１に記載の情報処理装置。

【請求項11】

前記対話管理部は、前記発話テキストを入力することに応じてニューラルネットワークから出力された、前記発音情報を付与した前記応答テキストを出力する
請求項１に記載の情報処理装置。

【請求項12】

情報処理装置が、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
情報処理方法。

【請求項13】

コンピュータに、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
処理を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザの発話に対して、正しい発音で応答することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

【背景技術】

【0002】

音声認識技術や人工知能技術の進歩により、音声アシスタント機能を搭載したデバイスが普及してきている。例えば、「天気を教えて」のユーザの発話に対して、「本日の天気は晴れです」の音声によってデバイスが応答するような、自然発話を用いた音声対話が実現されている。

【0003】

このような音声対話は、主に、ユーザの音声をテキスト化する音声認識、音声認識の結果を解析し、ユーザの意図を推定する言語解析、ユーザの意図に応じた応答テキストを生成する応答生成、および、応答テキストを音声に変換する音声合成の一連の処理により実現される。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１６－２０１６４３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

音声対話を実現するための最後の処理となる音声合成は、応答生成によって生成された応答テキストを、読み方と韻律を表す、記号的な言語表現に変換するようにして行われる。韻律には、音の高低、リズム、抑揚などが含まれる。

【0006】

ここで、応答テキストに含まれる文字列の読み方は、例えば言語辞書を用いて選択される。言語辞書には、それぞれの文字列の読み方が登録されている。

【0007】

同じ表記の１つの文字列に対して複数の読み方が言語辞書に登録されている場合、ユーザが想定しない、間違った読み方が文字列に付与されてしまうことがある。この場合、応答の内容がユーザに正しく伝わらない可能性がある。

【0008】

本技術はこのような状況に鑑みてなされたものであり、ユーザの発話に対して、正しい発音で応答することができるようにするものである。

【課題を解決するための手段】

【0009】

本技術の一側面の情報処理装置は、ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える。

【0010】

本技術の一側面においては、ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストが生成され、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストが出力される。

【図面の簡単な説明】

【0011】

【図1】本技術の一実施形態に係る情報処理システムの構成例を示す図である。

【図2】発話の例を示す図である。

【図3】音声対話を実現するための一連の処理の例を示す図である。

【図4】発話の例を示す図である。

【図5】発話の例を示す図である。

【図6】情報処理サーバの処理の概念を示す図である。

【図7】情報処理端末のハードウェア構成例を示すブロック図である。

【図8】情報処理サーバのハードウェア構成例を示すブロック図である。

【図9】情報処理サーバの機能構成例を示すブロック図である。

【図10】図９の対話管理部の構成例を示すブロック図である。

【図11】発音情報事前定義データベースの記述の例を示す図である。

【図12】発話の例を示す図である。

【図13】発話の例を示す図である。

【図14】発話の例を示す図である。

【図15】情報処理サーバの応答処理について説明するフローチャートである。

【図16】図１５のステップＳ４において行われる発音情報付与処理について説明するフローチャートである。

【図17】情報処理サーバの発音情報付与履歴記憶処理について説明するフローチャートである。

【図18】情報処理サーバの他の処理の概念を示す図である。

【発明を実施するための形態】

【0012】

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．情報処理システムにおける音声対話の例
２．情報処理システムの構成
３．発音情報の付与の具体例
４．情報処理システムの動作
５．変形例

【0013】

＜＜情報処理システムにおける音声対話の例＞＞
図１は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。

【0014】

図１の情報処理システムは、情報処理端末１と情報処理サーバ２が、インターネットなどのネットワーク１１を介して接続されることによって構成される。情報処理端末１と情報処理サーバ２が協働して処理を行うことにより、いわゆる音声アシスタント機能が実現される。ユーザは、調べ物、予定の登録、メッセージの送信などの各種の機能を音声によって実行させることができる。

【0015】

情報処理端末１は、マイクロフォン（マイク）、カメラ、スピーカなどの入出力デバイスを有する。これらの入出力デバイスが円筒状の筐体の所定の位置に設けられる。情報処理端末１は、ユーザの発話をマイクにより検出し、音声データを情報処理サーバ２に送信する。

【0016】

情報処理サーバ２は、情報処理端末１から送信されてきた音声データを解析することによってユーザの意図を推定し、ユーザの意図に応じた機能を実現するための処理を行う。情報処理サーバ２は、処理の結果を情報処理端末１に送信し、ユーザに対する応答として出力させる。例えば調べ物をするための発話をユーザが行った場合、調べ物の結果をユーザに通知するための合成音声が情報処理端末１のスピーカから出力される。

【0017】

このように、図１の情報処理システムにおいては、基本的に、UI(User Interface)の機能を情報処理端末１が担い、ユーザの意図に応じた機能を実現するための処理の実行を情報処理サーバ２が担うことによって、音声アシスタント機能が実現される。

【0018】

また、図１の情報処理システムにおいては、ユーザの発話に対する応答として情報処理端末１から出力される合成音声が、ユーザの意図に応じた正しい発音で出力される。

【0019】

図２は、発話の例を示す図である。

【0020】

吹き出し＃１に示すように、「今日の三田の天気は？」の発話をユーザが行った場合について説明する。このような発話は、「三田」の天気を調べることをユーザが情報処理システムに対して依頼する発話となる。

【0021】

以下、適宜、ユーザが情報処理システムに対して物事を依頼する発話を依頼発話という。

【0022】

ここで、依頼発話に含まれる「三田」の文字列（単語）については、「サンダ」とユーザが発音しているものとする。「三田」は地名である。

【0023】

なお、図２においては、ユーザから見て情報処理端末１の先にある情報処理サーバ２等の構成の図示が省略されている。図５等の他の図においても同様である。

【0024】

図３は、音声対話を実現するための一連の処理の例を示す図である。

【0025】

「今日の三田（サンダ）の天気は？」の依頼発話がユーザにより行われた場合、矢印Ａ１の先に示すように、依頼発話の音声データを対象として音声認識が行われる。音声認識が行われることにより、依頼発話の音声データをテキスト化した「今日の三田の天気は？」のテキストデータである発話テキストが生成される。

【0026】

情報処理サーバ２よる音声認識においては、後述するように、発話テキストとともに、「今日の三田の天気は？」の発音情報も生成される。発音情報には、ユーザが依頼発話を行ったときの各文字列の読み方を表す情報と、韻律を表す情報とが含まれる。

【0027】

矢印Ａ２の先に示すように、音声認識の結果に含まれる「今日の三田の天気は？」の発話テキストを対象として言語解析が行われる。言語解析が行われることにより、依頼発話を行ったユーザの意図が推定される。また、発話テキストに含まれる文字列が抽出される。図３の例においては、「天気の問い合わせ」というユーザの意図が推定されるとともに、「三田」の文字列が抽出されている。

【0028】

矢印Ａ３の先に示すように、言語解析によって得られたユーザの意図と文字列に応じて応答生成が行われる。応答生成により、ユーザの依頼発話に応じた応答の内容を表すテキストデータである応答テキストが生成される。

【0029】

例えば、地名を表す「三田」の文字列に基づいて天気の検索が行われ、「三田」の天気が検索結果として取得される。応答テキストは、検索結果として得られた「三田」の天気を表す例えば「晴れ」の文字列を含むようにして生成される。図３の例においては、「今日の三田の天気は晴れです」の応答テキストが生成されている。

【0030】

矢印Ａ４の先に示すように、応答生成によって得られた「今日の三田の天気は晴れです」の応答テキストに基づいて音声合成が行われる。

【0031】

依頼発話がユーザにより行われた場合、例えば情報処理サーバ２においては以上のような一連の処理が行われる。情報処理サーバ２による音声合成の結果に基づいて、応答の内容をユーザに提示するための合成音声である応答音声が情報処理端末１のスピーカから出力される。

【0032】

ここで、「三田」の表記を有する地名の読み方として、「サンダ」の他に、例えば「ミタ」がある。「三田」を「サンダ」と発音する土地と「ミタ」と発音する土地は、異なる土地である。

【0033】

したがって、単に、応答テキストだけに基づいて音声合成が行われるとした場合、図４の吹き出し＃１１に示すように「今日の三田（サンダ）の天気は晴れです」の応答音声が出力される場合もあるし、吹き出し＃１２に示すように「今日の三田（ミタ）の天気は晴れです」の応答音声が出力される場合もある。すなわち、応答テキストに含まれる「三田」の文字列が、「サンダ」と発音されることもあるし、「ミタ」と発音されることもある。

【0034】

この例においては、ユーザは「三田（サンダ）」の天気を知りたいのであるから、「三田」の文字列を「ミタ」と発音する、吹き出し＃１２に示す応答音声はユーザの意図に沿わないものとなる。

【0035】

情報処理サーバ２においては、「三田」の文字列を「サンダ」と発音する音声合成が行われるように、「サンダ」と発音することを表す発音情報が、応答テキストに含まれる「三田」の文字列に対して付与される。

【0036】

「三田」の文字列に対して発音情報が付与された応答テキストに基づいて音声合成が行われることにより、図５の吹き出し＃２１に示すように、「三田」の文字列を「サンダ」と発音する応答音声である、「今日の三田（サンダ）の天気は晴れです」が出力される。

【0037】

「サンダ」と発音することを表す発音情報は、例えば、応答テキストに含まれる文字列である「三田」が発話テキストにも含まれており、発話テキストに含まれる「三田」の文字列を、ユーザが「サンダ」と発音していたことに基づいて付与される。

【0038】

発音情報が付与された文字列を含む応答テキストに基づいて音声合成を行うことにより、情報処理サーバ２は、ユーザの意図に応じた発音の応答音声を出力させることが可能となる。

【0039】

また、情報処理サーバ２は、応答の内容を正しくユーザに伝えることができる。ユーザの意図に反した発音を含む形でフィードバックが行われるとした場合、応答の内容が正しくユーザに伝わらないことがあるが、そのようなことを防ぐことが可能となる。

【0040】

図６は、情報処理サーバ２の処理の概念を示す図である。

【0041】

図６に示すように、情報処理サーバ２が有する対話管理部は、ユーザによる依頼発話を入力として、発音情報を付与した応答テキストを出力する。発音情報を付与した応答テキストに基づいて、後段の処理部において音声合成が行われる。

【0042】

このように、情報処理サーバ２は、ユーザによる依頼発話を入力として、応答テキストと発音情報を出力する情報処理装置として機能する。情報処理サーバ２の動作の詳細については後述する。

【0043】

＜＜情報処理システムの構成＞＞
＜情報処理端末の構成例＞
図７は、情報処理端末１のハードウェア構成例を示すブロック図である。

【0044】

CPU(Central Processing Unit)５１、ROM(Read Only Memory)５２、RAM(Random Access Memory)５３は、バス５４により相互に接続される。

【0045】

バス５４には、マイク５５、カメラ５６、センサ５７、スピーカ５８、ディスプレイ５９、記憶部６０、および通信部６１が接続される。

【0046】

マイク５５は、ユーザの音声や環境音などの各種の音を検出する。

【0047】

カメラ５６は、ユーザを含む、情報処理端末１の周囲を撮影する。

【0048】

センサ５７は、周囲の明るさを検出する照度センサ、周囲にある物体までの距離を測定する測距センサ、GPS(Global Positioning System)を用いた測位センサなどの各種のセンサにより構成される。

【0049】

スピーカ５８は、例えば情報処理サーバ２による制御に従って合成音声を出力することにより、ユーザの依頼発話に対する応答を行う。

【0050】

ディスプレイ５９は、LCD、有機ELディスプレイなどのディスプレイにより構成される。ディスプレイ５９には、例えば情報処理サーバ２による制御に従って各種の情報が提示される。

【0051】

記憶部６０は、不揮発性のメモリなどにより構成される。記憶部６０は、CPU５１が実行するプログラムなどの各種のデータを記憶する。

【0052】

通信部６１は、無線や有線による通信を介して、情報処理サーバ２などの外部の装置との間で各種の情報の送受信を行う。通信部６１は、マイク５５により検出された音声データ、カメラ５６により撮影された画像データ、および、センサ５７により検出されたセンサデータを情報処理サーバ２に送信する。

【0053】

また、通信部６１は、情報処理サーバ２から送信されてきた音声データを受信してスピーカ５８に出力し、合成音声を出力させる。

【0054】

＜情報処理サーバの構成例＞
図８は、情報処理サーバ２のハードウェア構成例を示すブロック図である。

【0055】

CPU１０１、ROM１０２、RAM１０３は、バス１０４により相互に接続される。

【0056】

バス１０４には、さらに、入出力インタフェース１０５が接続される。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。

【0057】

また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

【0058】

情報処理サーバ２は、このような構成を有するコンピュータにより構成される。１台のコンピュータではなく、複数台のコンピュータにより情報処理サーバ２が構成されるようにしてもよい。

【0059】

図９は、情報処理サーバ２の機能構成例を示すブロック図である。

【0060】

図９に示す構成のうちの少なくとも一部は、図８のCPU１０１により所定のプログラムが実行されることによって実現される。

【0061】

図９に示すように、情報処理サーバ２においては音声処理部１５１が実現される。音声処理部１５１は、音声取得部１６１、音声認識部１６２、言語解析部１６３、対話管理部１６４、および音声合成部１６５から構成される。情報処理端末１から送信され、通信部１０９において受信された依頼発話の音声データは音声取得部１６１に入力される。

【0062】

音声取得部１６１は、依頼発話の音声データを取得する。音声取得部１６１により取得された音声データは音声認識部１６２に供給される。

【0063】

音声認識部１６２は、音声取得部１６１から供給された依頼発話の音声データを対象として音声認識を行い、発話テキストと発音情報を出力する。上述したように、発音情報には、ユーザが依頼発話を行ったときの各文字列の読み方を表す情報と、韻律を表す情報とが含まれる。音声認識部１６２から出力された発話テキストと発音情報は、言語解析部１６３と対話管理部１６４に供給される。

【0064】

言語解析部１６３は、発話テキストを対象として言語解析を行い、ユーザの意図を推定する。また、言語解析部１６３は、発話テキストに含まれる文字列を抽出する。言語解析を行うことによって推定されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は対話管理部１６４に供給される。

【0065】

対話管理部１６４は、言語解析部１６３による言語解析の結果に基づいて応答テキストを生成する。

【0066】

また、対話管理部１６４は、応答テキストに発音情報を付与する。発音情報の付与は、適宜、音声認識部１６２による音声認識の結果、データベースに予め登録されている情報、発音情報の付与の履歴を参照して行われる。対話管理部１６４により発音情報が付与された応答テキストは、音声合成部１６５に供給される。

【0067】

なお、応答テキストを構成する全ての文字列に対して発音情報が付与されるのではなく、一部の文字列に対して発音情報が付与されるようにしてもよい。すなわち、対話管理部１６４による発音情報の付与は、応答テキストを構成する少なくとも一部の文字列を対象として行われる。文字列の読み方を表す情報だけでなく、韻律を表す情報が発音情報に含まれるようにしてもよい。

【0068】

音声合成部１６５は、応答テキストに基づいて音声合成を行い、発音情報により表される発音を有する応答音声を生成する。音声合成により、応答テキストに含まれる文字列の読み方として、発音情報により表される読み方が設定される。

【0069】

また、応答テキストの韻律として、発音情報により表される韻律が設定される。応答テキスト全体の韻律が発音情報に基づいて設定されるようにしてもよいし、一部の文字列の韻律が発音情報に基づいて設定されるようにしてもよい。

【0070】

音声合成部１６５により音声合成が行われることによって得られた応答音声のデータは、通信部１０９から情報処理端末１に対して送信される。

【0071】

音声処理部１５１には、依頼発話によって入力された予定を管理する機能、依頼発話に応じて検索を行う機能などの、音声アシスタント機能のそれぞれの機能を実現するための構成も適宜設けられる。

【0072】

図１０は、図９の対話管理部１６４の構成例を示すブロック図である。

【0073】

図１０に示すように、対話管理部１６４は、対話処理部１８１、応答データベース１８２、対話履歴記憶部１８３、発音情報付与処理部１８４、発音情報事前定義データベース１８５、および発音情報付与履歴記憶部１８６から構成される。

【0074】

音声認識の結果として音声認識部１６２から出力された発話テキストと発音情報は、対話処理部１８１と発音情報付与処理部１８４に入力される。また、言語解析の結果として言語解析部１６３から出力されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は、対話処理部１８１に入力される。

【0075】

応答データベース１８２と発音情報事前定義データベース１８５が、対話管理部１６４の外部に設けられるようにしてもよい。また、応答データベース１８２と発音情報事前定義データベース１８５が、ネットワーク１１を介して接続される他の装置に設けられるようにしてもよい。

【0076】

対話処理部１８１は、応答データベース１８２を参照し、発話テキストに対して適切な応答となる応答テキストを生成する。対話処理部１８１により生成された応答テキストは発音情報付与処理部１８４に供給される。

【0077】

また、対話処理部１８１は、発話テキストと応答テキストを対応付けて対話履歴記憶部１８３に出力し、対話履歴として記憶させる。対話処理部１８１による応答テキストの生成は、適宜、対話履歴記憶部１８３に記憶されている対話履歴を参照して行われる。

【0078】

応答データベース１８２は、各種の発話テキストに対応する応答テキストのデータベースである。例えば、「ただいま」とユーザが発話した場合に、「おかえりなさい」という応答音声を出力するような一般的なやりとりを行うための情報が応答データベース１８２に含まれる。また、「おはよう」とユーザが発話した場合に、ユーザの一日の予定を通知したり、その日の天気を通知したりする応答テキストを出力するための情報が応答データベース１８２に含まれる。

【0079】

対話履歴記憶部１８３は、対話処理部１８１から供給された情報に基づいて対話履歴を記憶する。依頼発話を行ったときにユーザが起動させていたアプリケーションの情報が対話履歴に含まれるようにしてもよい。

【0080】

発音情報付与処理部１８４は、対話処理部１８１から供給された応答テキストを解析し、応答テキストに含まれる文字列の読み方と、韻律を表す発音情報を応答テキストに付与する。応答テキストに含まれる文字列の読み方を表す情報だけが発音情報に含まれるようにしてもよい。

【0081】

例えば、発音情報付与処理部１８４は、音声認識部１６２による音声認識の結果に基づいて、応答テキストに含まれる所定の文字列の読み方として、ユーザの読み方と同じ読み方を表す発音情報を付与する。

【0082】

また、発音情報付与処理部１８４は、発音情報事前定義データベース１８５に記憶されている情報を参照し、所定の文字列の読み方として、発音情報事前定義データベース１８５において事前に定義された読み方と同じ読み方を表す発音情報を付与する。

【0083】

発音情報付与処理部１８４は、発音情報付与履歴記憶部１８６に記憶されている履歴を参照し、所定の文字列の読み方として、過去に付与した読み方と同じ読み方を表す発音情報を付与する。

【0084】

発音情報付与処理部１８４は、応答テキストに含まれる文字列と発音情報を対応付けて発音情報付与履歴記憶部１８６に出力し、発音情報付与履歴として記憶させる。

【0085】

発音情報事前定義データベース１８５は、それぞれの文字列の読み方を定義したデータベースである。例えば、同じ表記の１つの文字列に対して複数の読み方が定義される。

【0086】

発音情報付与履歴記憶部１８６は、応答テキストに付与した発音情報の履歴である発音情報付与履歴を記憶する。

【0087】

＜＜発音情報の付与の具体例＞＞
ここで、発音情報の付与の具体例について説明する。

【0088】

＜音声認識結果を用いた付与方法＞
「今日の三田（サンダ）の天気は？」の依頼発話が行われた場合に、応答テキストに含まれる「三田」の文字列の読み方として「サンダ」の読み方を表す発音情報を付与する上述した方法が、音声認識の結果を用いた付与方法に相当する。

【0089】

すなわち、対話処理部１８１は、音声認識の結果である「今日の三田の天気は？」の発話テキストと、言語解析の結果が入力されることに応じて、「今日の三田の天気は晴れです」の応答テキストを生成する。

【0090】

発音情報付与処理部１８４は、「今日の三田の天気は晴れです」の応答テキストを解析し、発話テキストと比較することによって、応答テキストに含まれる「三田」の文字列と同じ文字列が発話テキストに含まれていることを特定する。

【0091】

発音情報付与処理部１８４は、応答テキストに含まれる「三田」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「三田」の読み方と同じ読み方である「サンダ」を付与する。

【0092】

これにより、情報処理サーバ２は、依頼発話時におけるユーザの「三田」の読み方である「サンダ」と同じ読み方で応答音声を出力させることが可能となる。

【0093】

・依頼発話が英語で行われた場合の例
以上のような発音情報の付与は、ユーザの発話が日本語で行われた場合だけでなく、英語などの他の言語で行われた場合にも適用可能である。

【0094】

例えば、消費電力量が25WのLED電球をショッピングリストに登録するために、英語で、「Add 25W LED to my shopping list」の依頼発話が行われた場合について説明する。ショッピングリストは、購入予定の物を管理する機能である。

【0095】

ここで、依頼発話に含まれる「25W」の文字列については、「twenty-five watt」とユーザが発音しているものとする。

【0096】

この場合、依頼発話を対象とした音声認識、言語解析の結果に基づいて、ショッピングリストへの登録が完了したことをユーザに通知する、例えば「25W LED has been added to my shopping list」の応答テキストが対話処理部１８１により生成される。

【0097】

発音情報付与処理部１８４は、応答テキストに含まれる「25W」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「25W」の読み方と同じ読み方である「twenty-five watt」を付与する。

【0098】

これにより、情報処理サーバ２は、例えば、応答テキストに含まれる「25W」を、ユーザが意図していない「two five double-u」などと発音するような音声合成が行われるのを防ぐことができる。情報処理サーバ２は、依頼発話時におけるユーザの「25W」の読み方である「twenty-five watt」と同じ読み方で応答音声を出力させることが可能となる。

【0099】

・他の例
例えば、中国語の「教授」の文字列は、「jiao1 shou4」と「juao4 shou4」の読み方を有する。「教える」、「大学教師としての教授」といったように、読み方によっては、「教授」の意味が異なる。

【0100】

このような複数の読み方を有する文字列が中国語の応答テキストに含まれる場合、同じ文字列が発話テキストに含まれるときには、その応答テキストに含まれる文字列の読み方として、依頼発話時のユーザの読み方と同じ読み方が設定される。

【0101】

固有名詞について、略語としての読み方と一般名詞としての読み方が異なる場合がある。例えば、「BOT」は、略語としての「ボット」の読み方と、一般名詞としての「ビーオーティー」の読み方を有する。また、「東大」は、略語としての「トウダイ」の読み方と、一般名詞（人名）としての「アズマヒロシ」の読み方を有する。

【0102】

略語としての読み方と一般名詞としての読み方のような複数の読み方を有する文字列が応答テキストに含まれる場合も同様に、依頼発話時のユーザの読み方と同じ読み方が設定される。

【0103】

表記が同一の人名の読み方が出身地や母語によって異なることがある。例えば、人名を表す「Michael」は、英語では「マイケル」と読み、フランス語では「ミッシェル」と読む。また、ドイツ語では「ミハエル」と読む。

【0104】

この場合も、応答テキストに含まれる「Michael」の文字列に対しては、依頼発話時の「Michael」のユーザの読み方と同じ読み方が設定される。

【0105】

＜発音情報事前定義データベースを参照した付与方法＞
図１１は、発音情報事前定義データベース１８５の記述の例を示す図である。

【0106】

図１１に示す情報は、「十分」の文字列の読み方を定義した情報である。図１１の例においては、「十分」の文字列の読み方として、「ジュップン」と「ジュウブン」の２つの読み方が定義されている。「ジュップン」の読み方に対しては時刻のカテゴリが設定され、「ジュウブン」の読み方に対しては「量」のカテゴリが設定されている。

【0107】

このように、発音情報事前定義データベース１８５には、同じ表記の１つの文字列に対して複数の読み方を定義した情報が記述される。それぞれの読み方には、用法に応じたカテゴリが設定される。

【0108】

図１２は、発話の例を示す図である。

【0109】

吹き出し＃３１に示すように、「次の打ち合わせはいつ？」の発話をユーザが行った場合について説明する。このような発話は、「次の打ち合わせ」の予定を調べることをユーザが依頼する依頼発話となる。図１２の依頼発話を行う前、ユーザが、打ち合わせの予定を登録しているものとする。

【0110】

この場合、対話処理部１８１は、音声認識の結果である「次の打ち合わせはいつ？」の発話テキストと、言語解析の結果が入力されることに応じて、「三時十分です」の応答テキストを生成する。

【0111】

例えば、言語解析部１６３による言語解析により、「打ち合わせの時刻の問い合わせ」というユーザの意図が推定される。対話処理部１８１は、応答データベース１８２を参照するなどして、打ち合わせの時刻が「三時十分」であることを特定し、「三時十分です」の応答テキストを生成することになる。

【0112】

発音情報付与処理部１８４は、「三時十分です」の応答テキストを解析し、「十分」の文字列の読み方として、「ジュップン」と「ジュウブン」の２つの読み方が発音情報事前定義データベース１８５において定義されていることを特定する。

【0113】

発音情報付与処理部１８４は、応答テキストに含まれる「十分」の文字列の読み方として、ユーザの意図に応じた、時刻のカテゴリの読み方と同じ読み方である「ジュップン」の読み方を付与する。

【0114】

これにより、情報処理サーバ２は、図１２の吹き出し＃３２に示すように、時刻に関する読み方である「ジュップン」を用いて、応答音声を出力させることが可能となる。

【0115】

このように、応答テキストに含まれる文字列に対する発音情報の付与が、発音情報事前定義データベース１８５の内容を参照して行われるようにすることが可能である。

【0116】

この例においては、優先させる読み方が、用法に応じたカテゴリに基づいて選択されるものとしたが、他の情報に基づいて選択されるようにしてもよい。

【0117】

例えば、依頼発話時にユーザが起動させているアプリケーションに基づいて読み方が選択されるようにしてもよい。この場合、UIの機能を担う情報処理端末１は、上述したようなスマートスピーカではなく、各種のアプリケーションを実行するスマートフォンやタブレット端末により実現される。

【0118】

例えば、電話帳アプリケーションをユーザが起動させている場合において、「ゆみこの電話番号は？」の依頼発話が行われたものとする。

【0119】

この場合、依頼発話を対象とした音声認識、言語解析の結果に基づいて、例えば、人名である「ゆみこ」と紐付けられた電話番号を表す文字列を含む「０８０１２３４５６７８です」の応答テキストが対話処理部１８１により生成される。

【0120】

発音情報付与処理部１８４は、応答テキストに含まれる「０８０」、「１２３４」、「５６７８」のそれぞれの文字列の読み方として、発音情報事前定義データベース１８５の記述に基づいて、「ゼロハチゼロ」、「イチニサンシ」、「ゴロクシチハチ」を付与する。

【0121】

例えば発音情報事前定義データベース１８５においては、電話帳アプリケーションの起動中の依頼発話に対する応答には、「０８０」の文字列の読み方として「ゼロハチゼロ」を用いることが定義されている。また、「１２３４」の文字列の読み方として「イチニサンシ」を用いることが定義され、「５６７８」の文字列の読み方として「ゴロクシチハチ」を用いることが定義されている。

【0122】

すなわち、発音情報事前定義データベース１８５においては、電話帳アプリケーションの起動中の依頼発話に対する応答に、数字を１つずつ読む読み方を優先させることが定義されている。

【0123】

これにより、情報処理サーバ２は、例えば、応答テキストに含まれる「１２３４」を、ユーザが意図していない「センニヒャクサンジュウヨン」などと発音するような音声合成が行われるのを防ぐことが可能となる。

【0124】

複数のユーザが１台の情報処理端末１を利用する場合、発音情報事前定義データベース１８５がユーザ毎に設けられるようにしてもよい。

【0125】

この場合、発話音声に基づいて、または、情報処理端末１に設けられたカメラ５６により撮影された画像に基づいて話者が識別され、話者として識別されたユーザ用の発音情報事前定義データベース１８５を用いて読み方が付与される。

【0126】

ユーザ毎に用意された発音情報事前定義データベース１８５の内容を、ユーザ自身が編集することができるようにしてもよい。

【0127】

また、話者の人物属性が発音情報事前定義データベース１８５に反映されるようにしてもよい。人物属性には、出身地、居住地、年齢、性別、趣味、嗜好などが含まれる。

【0128】

この場合、発音情報事前定義データベース１８５においては、同じ表記の複数の読み方に対してそれぞれ人物属性が紐付けられる。発音情報の付与が、依頼発話を行った話者の属性に応じた読み方を優先するように行われる。

【0129】

これにより、情報処理サーバ２は、話者の属性に応じた読み方の合成音声によって応答させることが可能となる。

【0130】

＜発音情報付与履歴を参照した付与方法＞
図１３は、発話の例を示す図である。

【0131】

吹き出し＃４１に示すように、「三田（サンダ）でサッカーの予定を登録して」の発話をユーザが行った場合について説明する。このような発話は、「三田でサッカーをする」といった予定を登録することをユーザが依頼する依頼発話となる。

【0132】

この場合、言語解析部１６３による言語解析により、「サッカーの予定を登録する」というユーザの意図が推定される。また、推定されたユーザの意図に基づいて、図示せぬ処理部により、「三田でサッカーをする」の予定が登録される。

【0133】

対話処理部１８１は、音声認識の結果である「三田でサッカーの予定を登録して」の発話テキストと、言語解析の結果が入力されることに応じて、「三田でサッカーの予定を登録しました」の応答テキストを生成する。

【0134】

発音情報付与処理部１８４は、応答テキストに含まれる「三田」の文字列の読み方として、音声認識の結果に含まれる発音情報により表される、依頼発話時のユーザの「三田」の読み方と同じ読み方である「サンダ」を付与する。この発音情報の付与の方法は、上述したような、音声認識結果を用いた付与方法となる。

【0135】

これにより、情報処理サーバ２は、図１３の吹き出し＃４２に示すように、「三田」の文字列の読み方として「サンダ」を用いた、「三田（サンダ）でサッカーの予定を登録しました」の応答音声を出力させることが可能となる。

【0136】

このような読み方を付与した場合、発音情報付与処理部１８４は、「三田」の文字列の読み方として「サンダ」を付与したことを表す情報を発音情報付与履歴記憶部１８６に記憶させる。発音情報付与履歴記憶部１８６には、読み方が付与された文字列の履歴が記憶される。

【0137】

図１４は、図１３に示す発話のやりとりが行われた週の翌週の発話の例を示す図である。

【0138】

図１４に示す発話のやりとりは、「三田」の文字列の読み方として「サンダ」を付与したことを表す情報が発音情報付与履歴記憶部１８６に記憶されている状態でのやりとりとなる。

【0139】

吹き出し＃４３に示すように、「先週末何があったっけ？」の発話をユーザが行った場合について説明する。このような発話は、「先週末の予定」を調べることをユーザが依頼する依頼発話となる。

【0140】

この場合、対話処理部１８１は、音声認識の結果である「先週末何があったっけ？」の発話テキストと、言語解析の結果が入力されることに応じて、「三田でサッカーをしました」の応答テキストを生成する。

【0141】

例えば、言語解析部１６３による言語解析により、「先週末のスケジュールの問い合わせ」というユーザの意図が推定される。対話処理部１８１は、応答データベース１８２と対話履歴記憶部１８３を参照するなどして、先週末に「三田でサッカーをした」ことを特定し、「三田でサッカーをしました」の応答テキストを生成することになる。

【0142】

発音情報付与処理部１８４は、発音情報付与履歴記憶部１８６に記憶されている履歴を参照し、応答テキストに含まれる「三田」の文字列の読み方として、過去に付与した読み方と同じ読み方である「サンダ」を付与する。

【0143】

これにより、情報処理サーバ２は、図１４の吹き出し＃４４に示すように、「三田」の文字列の読み方として「サンダ」を用いた、「三田（サンダ）でサッカーをしました」の応答音声を出力させることが可能となる。

【0144】

このように、応答テキストに含まれる文字列に対する発音情報の付与が、発音情報付与履歴記憶部１８６に記憶されている履歴を参照して行われるようにすることが可能である。

【0145】

複数のユーザが情報処理端末１を利用する場合、発音情報の付与の履歴がユーザ毎に管理されるようにしてもよい。

【0146】

この場合、発話音声に基づいて、または、情報処理端末１に設けられたカメラ５６により撮影された画像に基づいて話者が識別され、話者として識別されたユーザ毎に、発音情報の付与の履歴が管理される。また、話者として識別されたユーザ毎の履歴を参照して、応答テキストに含まれる文字列に対する発音情報の付与が行われる。

【0147】

これにより、例えば、「三田（サンダ）でサッカーをする」というユーザＡの予定と、「三田（ミタ）で打ち合わせ」というユーザＢの予定をそれぞれ正しく伝えることが可能となる。

【0148】

すなわち、発音情報付与処理部１８４は、ユーザＡの依頼発話に基づいて生成された応答テキストに含まれる「三田」の文字列に対して「サンダ」の読み方を付与することができる。また、発音情報付与処理部１８４は、ユーザＢの依頼発話に基づいて生成された応答テキストに含まれる「三田」の文字列に対しては、「ミタ」の読み方を付与することができる。

【0149】

＜＜情報処理システムの動作＞＞
ここで、以上のような構成を有する情報処理サーバ２の動作について説明する。

【0150】

はじめに、図１５のフローチャートを参照して、情報処理サーバ２の応答処理について説明する。

【0151】

ステップＳ１において、音声取得部１６１は、情報処理端末１から送信されてきた、依頼発話の音声データを取得する。

【0152】

ステップＳ２において、音声認識部１６２は、依頼発話の音声データを対象として音声認識を行う。音声認識により得られた発話テキストと発音情報は、言語解析部１６３と対話管理部１６４に出力される。

【0153】

ステップＳ３において、言語解析部１６３は、発話テキストを対象として言語解析を行う。言語解析により推定されたユーザの意図を表す情報と、発話テキストから抽出された文字列の情報は、対話管理部１６４に供給される。

【0154】

ステップＳ４において、対話管理部１６４は発音情報付与処理を行う。発音情報付与処理により、応答テキストが生成され、応答テキストに含まれる文字列に対して発音情報が付与される。発音情報付与処理の詳細については、図１６のフローチャートを参照して後述する。

【0155】

ステップＳ５において、音声合成部１６５は、応答テキストに基づいて音声合成を行い、発音情報により表される発音を有する応答音声を生成する。

【0156】

ステップＳ６において、音声合成部１６５は、音声合成が行われることによって得られた応答音声のデータを情報処理端末１に対して送信し、応答音声を出力させる。

【0157】

以上の処理が、依頼発話の音声データが情報処理端末１から送信されてくる毎に行われる。

【0158】

次に、図１６のフローチャートを参照して、図１５のステップＳ４において行われる発音情報付与処理について説明する。

【0159】

ステップＳ２１において、対話処理部１８１は、応答データベース１８２を参照するなどして応答テキストを生成する。

【0160】

ステップＳ２２において、発音情報付与処理部１８４は、対話処理部１８１から供給された応答テキストを解析する。

【0161】

ステップＳ２３，Ｓ２４，Ｓ２５の処理が、応答テキストの解析結果に基づいて例えば並行に行われる。

【0162】

ステップＳ２３において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース１８５に記憶されているか否かを判定する。

【0163】

応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース１８５に記憶されているとステップＳ２３において判定された場合、処理はステップＳ２４に進む。

【0164】

ステップＳ２４において、発音情報付与処理部１８４は、応答テキストに含まれる文字列に対して、発音情報事前定義データベース１８５において定義された読み方を表す発音情報を付与する。

【0165】

応答テキストに含まれる文字列と同じ文字列が発音情報事前定義データベース１８５に記憶されていないとステップＳ２３において判定された場合、ステップＳ２４の処理はスキップされる。

【0166】

一方、ステップＳ２５において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部１８６に記憶されているか否かを判定する。

【0167】

応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部１８６に記憶されているとステップＳ２５において判定された場合、処理はステップＳ２６に進む。

【0168】

ステップＳ２６において、発音情報付与処理部１８４は、応答テキストに含まれる文字列に対して、発音情報付与履歴記憶部１８６に記憶されている読み方と同じ読み方を表す発音情報を付与する。

【0169】

応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部１８６に記憶されていないとステップＳ２５において判定された場合、ステップＳ２６の処理はスキップされる。

【0170】

一方、ステップＳ２７において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるか否かを判定する。

【0171】

応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるとステップＳ２７において判定された場合、処理はステップＳ２８に進む。

【0172】

ステップＳ２８において、発音情報付与処理部１８４は、応答テキストに含まれる文字列に対して、依頼発話時のユーザの読み方と同じ読み方を表す発音情報を付与する。

【0173】

応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれていないとステップＳ２７において判定された場合、ステップＳ２８の処理はスキップされる。

【0174】

ステップＳ２９において、発音情報付与処理部１８４は、応答テキストに含まれる文字列に対して付与した発音情報を統合する。すなわち、発音情報事前定義データベース１８５において定義された読み方を表す発音情報（第１の発音情報）、過去に付与した読み方を表す発音情報（第２の発音情報）、ユーザの読み方と同じ読み方を表す発音情報（第３の発音情報）が適宜統合される。

【0175】

例えば、応答テキストに含まれる１つの文字列に対して第１乃至第３の発音情報が付与された場合、優先度に応じて選択された１つの発音情報に統合される。

【0176】

また、第１の発音情報と第２の発音情報が同じ読み方を表す情報であり、第３の発音情報が、それとは異なる読み方を表す情報である場合、いわば多数決的に、第１の発音情報と第２の発音情報により表される読み方を表す情報に統合される。

【0177】

このように、３つの方法を用いて付与された発音情報の統合の仕方は任意である。

【0178】

ステップＳ３０において、発音情報付与処理部１８４は、発音情報を付与した応答テキストを出力する。その後、図１５のステップＳ４に戻り、それ以降の処理が行われる。

【0179】

次に、図１７のフローチャートを参照して、発音情報付与履歴記憶処理について説明する。

【0180】

図１７の処理は、例えば、発音情報が付与される毎に、応答テキストの解析結果に基づいて発音情報付与処理部１８４により行われる。

【0181】

ステップＳ３１において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるか否かを判定する。

【0182】

応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれるとステップＳ３１において判定した場合、ステップＳ３２において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と同じ文字列が発音情報付与履歴記憶部１８６に記憶されているか否かを判定する。

【0183】

応答テキストに含まれる文字列と同じ文字列が記憶されていないとステップＳ３２において判定した場合、ステップＳ３３において、発音情報付与処理部１８４は、応答テキストに含まれる文字列と、それに付与した発音情報を発音情報付与履歴記憶部１８６に記憶させる。

【0184】

文字列と発音情報が履歴として発音情報付与履歴記憶部１８６に記憶された後、処理は終了となる。応答テキストに含まれる文字列と同じ文字列が発話テキストに含まれていないとステップＳ３１において判定された場合、または、同じ文字列が発音情報付与履歴記憶部１８６に記憶されていないと判定された場合も同様に、処理は終了となる。

【0185】

以上の処理が繰り返されることにより、それぞれの文字列の読み方がユーザの読み方に基づいて履歴として蓄積され、管理される。情報処理サーバ２は、発音情報を付与した文字列の履歴を管理しておくことにより、ユーザの依頼発話に対して、正しい発音で応答することが可能となる。

【0186】

＜＜変形例＞＞
音声認識、言語解析、応答生成、音声合成の全ての処理が情報処理サーバ２により行われるものとしたが、４つの処理のうちの少なくともいずれかの処理が、情報処理端末１により行われるようにしてもよい。音声認識、言語解析、応答生成、音声合成の全ての処理が情報処理端末１において行われるようにすることも可能である。

【0187】

また、以上の技術は、スマートスピーカだけでなく、音声対話を用いた各種のデバイスに適用可能である。例えば、情報処理端末１として、スマートフォン、タブレット端末、パーソナルコンピュータ、カーナビゲーション装置、テレビジョン受像機などの各種の装置を用いることが可能である。

【0188】

ユーザによる依頼発話を入力として発音情報を付与した応答テキストを出力する対話管理部１６４の処理が、ニューラルネットワークを用いて実現されるようにしてもよい。

【0189】

図１８は、情報処理サーバ２の他の処理の概念を示す図である。

【0190】

図１８の対話管理部１６４が有するニューラルネットワークは、ユーザによる依頼発話を入力として、発音情報を付与した応答テキストを出力するニューラルネットワークである。様々な依頼発話を学習用データとして用いて学習が行われることによって得られたニューラルネットワークが対話管理部１６４に用意される。

【0191】

＜コンピュータの構成例＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

【0192】

インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図８に示されるリムーバブルメディア１１１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

【0193】

コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

【0194】

なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

【0195】

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

【0196】

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

【0197】

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

【0198】

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

【0199】

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

【0200】

＜構成の組み合わせ例＞
本技術は、以下のような構成をとることもできる。

【0201】

（１）
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する対話管理部を備える
情報処理装置。
（２）
前記対話管理部は、前記応答テキストに含まれる文字列のうちの少なくとも一部の文字列の読み方を表す前記発音情報を付与する
前記（１）に記載の情報処理装置。
（３）
前記対話管理部は、前記応答テキストの韻律を表す前記発音情報を付与する
前記（１）または（２）に記載の情報処理装置。
（４）
前記ユーザの発話を検出して得られた音声データを対象として音声認識を行い、前記発話テキストを生成する音声認識部をさらに備える
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記発音情報により表される読み方の音声を出力するように、前記応答テキストに基づいて音声合成を行う音声合成部をさらに備える
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記対話管理部は、前記発話テキストに含まれる文字列と同じ所定の文字列が前記応答テキストに含まれる場合、前記応答テキストに含まれる前記所定の文字列の読み方として、前記ユーザの読み方と同じ読み方を表す前記発音情報を付与する
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記対話管理部は、それぞれの文字列の読み方を定義したデータベースを参照し、前記応答テキストに含まれる所定の文字列の読み方として、前記データベースにおいて定義されている読み方を表す前記発音情報を付与する
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（８）
前記発話テキストを解析し、前記ユーザの発話の意図を推定する解析部をさらに備え、
前記対話管理部は、前記所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、前記ユーザの発話の意図に応じた読み方を表す前記発音情報を付与する
前記（７）に記載の情報処理装置。
（９）
前記対話管理部は、前記応答テキストに含まれる所定の文字列の読み方として複数の読み方が前記データベースにおいて定義されている場合、起動中のアプリケーションに応じた読み方を表す前記発音情報を付与する
前記（７）に記載の情報処理装置。
（１０）
前記発音情報の付与に関する履歴を記憶する履歴記憶部をさらに備え、
前記対話管理部は、前記履歴を参照し、前記応答テキストに含まれる所定の文字列の読み方として、過去に付与された読み方と同じ読み方を表す前記発音情報を付与する
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（１１）
前記対話管理部は、前記発話テキストを入力することに応じてニューラルネットワークから出力された、前記発音情報を付与した前記応答テキストを出力する
前記（１）に記載の情報処理装置。
（１２）
情報処理装置が、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
情報処理方法。
（１３）
コンピュータに、
ユーザの発話の内容を表す発話テキストに基づいて、前記ユーザの発話に対する応答の内容を表す応答テキストを生成し、
前記応答テキストに含まれる文字列の読み方を表す発音情報を付与した前記応答テキストを出力する
処理を実行させるためのプログラム。

【符号の説明】

【0202】

１情報処理端末，２情報処理サーバ，１５１音声処理部，１６１音声取得部，１６２音声認識部，１６３言語解析部，１６４対話管理部，１６５音声合成部，１８１対話処理部，１８２応答データベース，１８３対話履歴記憶部，１８４発音情報付与処理部，１８５発音情報事前定義データベース，１８６発音情報付与履歴記憶部

【図1】