IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許-情報処理方法および情報処理システム 図1
  • 特許-情報処理方法および情報処理システム 図2
  • 特許-情報処理方法および情報処理システム 図3
  • 特許-情報処理方法および情報処理システム 図4
  • 特許-情報処理方法および情報処理システム 図5
  • 特許-情報処理方法および情報処理システム 図6
  • 特許-情報処理方法および情報処理システム 図7
  • 特許-情報処理方法および情報処理システム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-19
(45)【発行日】2022-12-27
(54)【発明の名称】情報処理方法および情報処理システム
(51)【国際特許分類】
   G10L 19/018 20130101AFI20221220BHJP
   G10L 13/02 20130101ALI20221220BHJP
   G10L 15/22 20060101ALI20221220BHJP
【FI】
G10L19/018
G10L13/02 144Z
G10L15/22 300Z
【請求項の数】 2
(21)【出願番号】P 2018103922
(22)【出願日】2018-05-30
(65)【公開番号】P2019207380
(43)【公開日】2019-12-05
【審査請求日】2021-04-02
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【弁理士】
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】石田 哲朗
(72)【発明者】
【氏名】瀬戸 優樹
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2016-75890(JP,A)
【文献】特開2016-206469(JP,A)
【文献】特開2005-338454(JP,A)
【文献】特開2007-164659(JP,A)
【文献】特開2010-156741(JP,A)
【文献】米国特許出願公開第2014/0032220(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34,19/018
G06F 3/16
G06Q 30/02
(57)【特許請求の範囲】
【請求項1】
利用者による入力に対する応答を生成し、
複数の単語の各々について関連情報が登録された関連情報テーブルから、前記生成した応答に含まれる単語に対応する関連情報を特定し、
前記生成した応答を表す応答音声と、前記特定した関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させ、
前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる
情報処理方法。
【請求項2】
利用者による入力に対する応答を生成する応答生成部と、
複数の単語の各々について関連情報が登録された関連情報テーブルから、前記応答生成部が生成した応答に含まれる単語に対応する関連情報を特定する関連情報生成部と、
前記応答生成部が生成した応答を表す応答音声と、前記関連情報生成部が特定した関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させる第1通信制御部と、
前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる第2通信制御部と
を具備する情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置に情報を提供する技術に関する。
【背景技術】
【0002】
音声により利用者に情報を提供するサービスが広く普及している。例えば特許文献1には、自動販売機を利用する利用者と対話をすることで、自動販売機の操作を補助するサービスロボットが開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-11880号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の技術では、サービスロボットは利用者に対して対話のための音声を発声するにすぎない。サービスロボットが発声する音声の内容に関する更に詳細な情報を所望する利用者は、自身が聴取した音声に関する情報を、例えば端末装置を操作することで検索サイトを利用して取得する必要がある。以上の事情を背景として、本発明の好適な態様は、利用者が煩雑な作業を必要とすることなく音声に関する情報を取得することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る情報提供方法は、利用者からの入力を受付け、前記受付けた入力に対する応答を表す応答音声と当該応答に関する関連情報の識別情報を表す音響成分とを放音装置に放音させる。
本発明の好適な態様に係る情報処理方法は、利用者による入力に対する応答を生成し、前記生成した応答に関する関連情報を生成し、前記生成した応答を表す応答音声と、前記関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させ、前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる。
本発明の好適な態様に係る放音システムは、利用者からの入力を受付ける受付部と、音響を放音する放音装置と、前記受付部が受付けた入力に対する応答を表す応答音声と当該応答に関する関連情報の識別情報を表す音響成分とを前記放音装置に放音させる放音制御部とを具備する。
本発明の好適な態様に係る情報処理システムは、利用者による入力に対する応答を生成する応答生成部と、前記応答生成部が生成した応答に関する関連情報を生成する関連情報生成部と、前記応答生成部が生成した応答を表す応答音声と、前記関連情報生成部が生成した関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させる第1通信制御部と、前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる第2通信制御部とを具備する。
【図面の簡単な説明】
【0006】
図1】第1実施形態における情報提供システムの構成を例示するブロック図である。
図2】放音システムの構成を例示するブロック図である。
図3】応答サーバの構成を例示するブロック図である。
図4】関連情報テーブルの模式図である。
図5】信号生成部の構成を例示するブロック図である。
図6】情報提供サーバの構成を例示するブロック図である。
図7】端末装置の構成を例示するブロック図である。
図8】情報提供システムの全体の処理を例示するフローチャートである。
【発明を実施するための形態】
【0007】
<第1実施形態>
図1は、本発明の第1実施形態に係る情報提供システム100の構成を例示するブロック図である。図1に例示される通り、第1実施形態の情報提供システム100は、放音システム20と応答サーバ30と情報提供サーバ40とを具備する。情報提供システム100は、端末装置50の利用者Uに各種の情報を提供するためのコンピュータシステムである。具体的には、端末装置50の利用者Uが発音した音声(以下「発話音声」という)V1に対する応答と、当該応答に関連する情報(以下「関連情報」という)Rとが利用者Uに提供される。応答サーバ30は、例えばインターネットを含む通信網を介して、放音システム20および情報提供サーバ40と通信する。応答サーバ30は、利用者Uの発話音声V1に対する応答と、当該応答に関連する関連情報Rとを生成する。応答サーバ30が生成した応答を表す音声(以下「応答音声」という)V2が放音システム20により再生され、応答サーバ30が生成した関連情報Rが情報提供サーバ40により端末装置50に送信される。以下、情報提供システム100の詳細を説明する。
【0008】
<放音システム20>
図2は、放音システム20の構成を例示するブロック図である。放音システム20は、端末装置50の利用者Uによる発話音声V1に対する応答音声V2を再生するコンピュータシステムである。利用者Uと対話する音声対話装置(いわゆるAIスピーカ)が放音システム20として好適に利用される。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が放音システム20として利用される。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)やロボットの形態で放音システム20を実現することも可能である。例えば、駅またはバス停等の交通施設、鉄道またはバス等の交通機関、販売店または飲食店等の商業施設、旅館またはホテル等の宿泊施設、博物館または美術館等の展示施設、史跡または名所等の観光施設、競技場または体育館等の運動施設、等に放音システム20が設置される。
【0009】
発話音声V1は、例えば問掛け(質問)および話掛けを含む発話の音声である。他方、応答音声V2は、問掛けに対する回答や話掛けに対する受応えを含む応答の音声である。例えば、商業施設内の飲食店の場所を質問する「近くにレストランはありますか?」という発話音声V1を利用者Uが発話すると、当該発話音声V1に対して回答する「レストランABCが近くにあります。」という応答音声V2が放音システム20から再生される。図2に例示される通り、第1実施形態の放音システム20は、収音装置21(受付部の一例)と放音装置22と記憶装置23と制御装置24と通信装置25とを具備する。
【0010】
収音装置21は、周囲の音響を収音する入力機器である。第1実施形態の収音装置21は、利用者Uが発音した発話音声V1を表すデータ(以下「入力データ」という)D1を生成する。すなわち、収音装置21は、利用者Uが発音した発話音声V1(利用者Uによる入力の一例)を受付ける受付部として機能する。具体的には、収音装置21は、利用者Uが発音した発話音声V1を収音して当該発話音声V1の波形を表す信号を生成するマイクロホンと、当該信号をアナログからデジタルに変換することで入力データD1を生成するA/D変換器とを具備する。
【0011】
制御装置24(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、放音システム20の各要素を統括的に制御する。記憶装置23は、制御装置24が実行するプログラムと、制御装置24が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置23として任意に採用される。
【0012】
制御装置24は、図2に例示される通り、記憶装置23に記憶されたプログラムを実行することで複数の機能(通信制御部243および放音制御部245)を実現する。なお、制御装置24の一部の機能を専用の電子回路で実現してもよい。また、制御装置24の機能を複数の装置に搭載してもよい。
【0013】
通信制御部243は、各種の情報の受信および送信を通信装置25に実行させる。第1に、通信制御部243は、収音装置21が生成した入力データD1を応答サーバ30に対して送信する動作を、通信装置25に実行させる。入力データD1を受信した応答サーバ30は、当該入力データD1が表す発話音声V1に対する応答音声V2を放音システム20に放音させるためのデータ(以下「音響データ」という)D2を生成する。第2に、通信制御部243は、応答サーバ30が生成した音響データD2を応答サーバ30から受信する動作を、通信装置25に実行させる。放音制御部245は、応答サーバ30から送信された音響データD2に応じた音響を放音装置22に放音させる。
【0014】
通信装置25は、通信制御部243による制御のもとで通信網を介して応答サーバ30と相互に通信する通信機器である。具体的には、通信装置25は、送信部251と受信部253とを具備する。送信部251は、収音装置21が収音した発話音声V1を表す入力データD1を応答サーバ30に送信する。受信部253は、応答サーバ30が生成した音響データD2を受信する。放音装置22は、各種の音響を放音する出力装置である。具体的には、放音装置22は、放音制御部245による制御のもとで、通信装置25が受信した音響データD2に応じた音響を放音する。すなわち、音響データD2が表す応答音声V2が放音装置22により放音される。したがって、発話音声V1を発音した利用者Uは、当該発話音声V1に対する応答音声V2を聴取することが可能である。
【0015】
<応答サーバ30>
図3は、応答サーバ30の構成を例示するブロック図である。第1実施形態の応答サーバ30は、利用者Uの発話音声V1に対する応答と、当該応答に関する関連情報Rとを生成するコンピュータシステムである。具体的には、応答サーバ30は、記憶装置31と制御装置32と通信装置33とを具備する。
【0016】
記憶装置31は、制御装置32が実行するプログラムと、制御装置32が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置31として任意に採用される。第1実施形態の記憶装置31は、関連情報テーブルを記憶する。関連情報テーブルは、発話音声V1に対する応答の関連情報Rを特定するために利用されるデータテーブルである。関連情報テーブルの詳細については後述する。
【0017】
制御装置32(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、放音システム20の各要素を統括的に制御する。図2に例示される通り、第1実施形態の制御装置32は、記憶装置31に記憶されたプログラムを実行することで複数の機能(音声認識部321,応答生成部322,関連情報生成部323,識別情報生成部324,信号生成部325,通信制御部326)を実現する。なお、制御装置32の一部の機能を専用の電子回路で実現してもよい。また、制御装置32の機能を複数の装置に搭載してもよい。
【0018】
音声認識部321は、放音システム20から送信された入力データD1に対する音声認識により、発話音声V1の発話内容を表す文字列(以下「発話文字列」という)を特定する。例えば、レストランの場所を質問する内容の発話音声V1を利用者Uが発音した場合には、「レストランは近くにありますか?」という発話文字列が特定される。入力データD1に対する音声認識には、例えばHMM(Hidden Markov Model)等の音響モデルと、言語的な制約を示す言語モデルとを利用した認識処理等の公知の技術が任意に採用される。
【0019】
応答生成部322は、発話音声V1に対する応答を生成する。具体的には、応答生成部322は、音声認識部321が特定した発話文字列に対する応答を表す文字列(以下「応答文字列」という)を生成する。例えば「レストランは近くにありますか?」という発話文字列が特定された場合には、レストランABCの所在を表す「レストランABCが近くにあります。」という応答文字列が特定される。応答文字列の生成には、発話文字列に対する形態素解析等の自然言語処理および人工知能を利用した対話技術等の公知の技術が任意に採用される。
【0020】
関連情報生成部323は、応答生成部322が生成した応答に関する関連情報Rを生成する。第1実施形態の関連情報Rは、例えば応答の内容を補足するためのコンテンツである。例えば応答文字列に含まれる特定の単語(以下「応答単語」という)の内容を補足するためのコンテンツが関連情報Rとして例示される。応答単語は、例えば応答文字列に含まれる単語のうち固有名詞等の特徴的な単語である。応答文字列「レストランABCが近くにあります。」に含まれる応答単語は、「レストランABC」である。応答単語が表す事柄を説明する情報(例えばホームページのURL)、応答単語が表す事柄の所在を示す情報(例えば地図画像、地図のURL、所在を示す文字列)等の各種のコンテンツが関連情報Rとして例示される。例えば、応答単語が表す事柄が飲食店の場合には、当該飲食店のメニューや混雑情報を知らせるコンテンツを関連情報Rとしてもよい。なお、関連情報Rは、以上の例示に限定されず、応答単語の内容や種類に応じて任意に変更される。応答単語の抽出には、例えば形態素解析等の公知の自然言語処理が任意に採用される。
【0021】
関連情報Rの生成には、関連情報テーブルが利用される。図4は、関連情報テーブルの模式図である。図4に例示される通り、関連情報テーブルは、複数の関連情報Rが登録されたテーブルである。具体的には、複数の応答単語の各々について、当該応答単語に対応する関連情報Rが登録される。
【0022】
関連情報生成部323は、応答生成部322が生成した応答文字列から応答単語を抽出し、関連情報テーブルに登録された複数の関連情報Rのうち当該応答単語に対応する関連情報Rを特定する。以上の説明から理解される通り、第1実施形態では、応答生成部322が生成した応答文字列の応答単語に対応する関連情報Rが生成される。なお、応答に対して複数の関連情報Rを生成してもよい。
【0023】
図3の識別情報生成部324は、関連情報生成部323が生成した関連情報Rを識別するための識別情報Iを生成する。関連情報テーブルに登録された複数の関連情報Rの各々について相異なる識別情報Iが生成される。なお、各関連情報Rについて事前に生成した識別情報Iを当該関連情報Rに対応付けて関連情報テーブルに予め登録してもよい。
【0024】
信号生成部325は、応答生成部322が生成した応答を表す応答音声V2と、関連情報生成部323が生成した関連情報Rに対応する識別情報Iの音響成分とを表す音響データD2を生成する。第1実施形態では、応答音声V2と識別情報Iの音響成分との混合音を表す音響データD2が生成される。図5は、信号生成部325のブロック図である。図5に例示される通り、第1実施形態の信号生成部325は、音声合成部71と変調処理部73と加算部74とを具備する。音声合成部71は、応答生成部322が生成した応答文字列に対する音声合成で音声信号を生成する。音声信号の生成には、公知の音声合成技術が任意に採用される。
【0025】
変調処理部73は、識別情報生成部324が生成した識別情報Iの音響成分を表す変調信号を生成する。変調信号は、例えば所定の周波数の搬送波を識別情報Iにより周波数変調することで生成される。なお、拡散符号を利用した各情報の拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで変調信号を生成してもよい。変調信号の周波数帯域は、放音装置22による放音と端末装置50による収音とが可能な周波数帯域であり、かつ、端末装置50の利用者Uが通常の環境で聴取する音声の周波数帯域を上回る周波数帯域(例えば18kHz以上かつ20kHz以下)に設定される。したがって、利用者Uは、識別情報Iの音響成分を殆ど聴取できない。ただし、変調信号の周波数帯域は任意であり、例えば可聴帯域内の変調信号を生成することも可能である。
【0026】
加算部74は、音声合成部71が生成した音声信号と、変調処理部73が生成した変調信号とを加算することで、音響データD2を生成する。
【0027】
図3の通信制御部326(第1通信制御部の例示)は、各種の情報の受信および送信を通信装置33に実行させる。第1に、通信制御部326は、放音システム20から送信された入力データD1を受信する動作を通信装置33に実行させる。第2に、通信制御部326は、信号生成部325が生成した音響データD2を放音システム20に対して送信する動作を、通信装置33に実行させる。第3に、通信制御部326は、関連情報生成部323が生成した関連情報Rと、識別情報生成部324が当該関連情報Rについて生成した識別情報Iとを含むデータ(以下「提供データ」という)D3を情報提供サーバ40に対して送信する動作を、通信装置33に実行させる。
【0028】
通信装置33は、通信制御部326による制御のもとで通信網を介して放音システム20および情報提供サーバ40の各々と相互に通信する。具体的には、通信装置33は、送信部331と受信部333とを含む。受信部333は、放音システム20から送信された入力データD1を受信する。送信部331は、信号生成部325が生成した音響データD2を放音システム20に対して送信し、提供データD3を情報提供サーバ40に対して送信する。
【0029】
音響データD2を受信した放音システム20の放音制御部245は、当該音響データD2に応じて放音装置22に放音させる。具体的には、音響データD2を放音装置22に供給することで、当該音響データD2が表す混合音が放音装置22から放音される。すなわち、利用者Uの発話音声V1に対する応答音声V2と、当該応答音声V2が表す応答に関する関連情報Rの識別情報Iの音響成分とが放音装置22から放音される。
【0030】
以上の説明から理解される通り、第1実施形態の放音装置22は、応答音声V2を再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信により識別情報Iを周囲に送信する送信機としても機能する。すなわち、応答音声V2を放音する放音装置22から識別情報Iの音響を放音する音響通信により、当該識別情報Iが周囲に送信される。識別情報Iは、応答音声V2の放音毎に送信される。例えば、応答音声V2の放音とともに(例えば応答音声V2の放音に並行または前後して)識別情報Iが送信される。
【0031】
<情報提供サーバ40>
図6は、情報提供サーバ40のブロック図である。情報提供サーバ40は、利用者Uの発話音声V1に対する応答に関する関連情報Rを端末装置50に送信するためのコンピュータシステムである。図6に例示される通り、第1実施形態の情報提供サーバ40は、記憶装置41と制御装置42と通信装置43とを具備する。
【0032】
記憶装置41は、制御装置42が実行するプログラムと、制御装置42が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置41として任意に採用される。第1実施形態の記憶装置41は、情報提供テーブルを記憶する。情報提供テーブルは、発話音声V1に対する応答の関連情報Rを端末装置50に提供するために利用されるデータテーブルである。具体的には、応答サーバ30から送信された提供データD3に含まれる識別情報Iと関連情報Rとが相互に対応した状態で情報提供テーブルに登録される。なお、利用者Uからの発話音声V1毎に提供データD3の生成は実行されるから、複数の関連情報Rの各々について当該関連情報Rに対応する識別情報Iが登録される。
【0033】
制御装置42(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、放音システム20の各要素を統括的に制御する。図2に例示される通り、第1実施形態の制御装置42は、記憶装置41に記憶されたプログラムを実行することで複数の機能(記憶制御部421、関連情報特定部423,通信制御部425)を実現する。なお、制御装置42の一部の機能を専用の電子回路で実現してもよい。また、制御装置42の機能を複数の装置に搭載してもよい。
【0034】
記憶制御部421は、通信装置43が受信した提供データD3を記憶装置41に記憶させる。具体的には、記憶制御部421は、提供データD3に含まれる識別情報Iと関連情報Rとを対応させて情報提供テーブルに登録する。
【0035】
関連情報特定部423は、放音システム20による音響通信で識別情報Iを受信した端末装置50からの情報要求に応じて、当該識別情報Iに対応する関連情報Rを特定する。端末装置50からの情報要求には、識別情報Iが含まれる。具体的には、関連情報特定部423は、情報提供テーブルに登録された複数の関連情報Rのうち、端末装置50からの情報要求に含まれる識別情報Iに対応する関連情報Rを情報提供テーブルから特定する。
【0036】
通信制御部425(第2通信制御部の例示)は、各種の情報の受信および送信を通信装置43に実行させる。第1に、通信制御部425は、応答サーバ30から送信された提供データD3を受信する動作を通信装置43に実行させる。第2に、通信制御部425は、放音システム20による音響通信で識別情報Iを受信した端末装置50からの情報要求に応じて、当該識別情報Iに対応する関連情報R(すなわち関連情報特定部423が特定した関連情報R)を当該端末装置50に送信する動作を、通信装置43に実行させる。
【0037】
通信装置43は、通信制御部425による制御のもとで通信網を介して応答サーバ30および端末装置50の各々と相互に通信する。具体的には、通信装置43は、送信部431と受信部433とを含む。受信部433は、応答サーバ30から送信された提供データD3を受信する。送信部431は、端末装置50に対して関連情報Rを送信する。なお、応答サーバ30と情報提供サーバ40とは、利用者Uの発話音声V1に対する応答と、当該応答に関する関連情報Rとを生成する情報処理システムとして機能する。
【0038】
<端末装置50>
図7は、端末装置50のブロック図である。端末装置50は、放音システム20の付近に所在する。端末装置50は、利用者Uが発話した発話音声V1に対する応答に関連する関連情報Rを、情報提供サーバ40から取得するための可搬型の情報端末である。例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等が端末装置50として好適である。
【0039】
図7に例示される通り、端末装置50は、収音装置51と制御装置52と記憶装置53と通信装置54と再生装置55とを具備する。収音装置51は、周囲の音響を収音する音響機器(マイクロホン)である。具体的には、収音装置51は、放音システム20が音響データD2に応じて放音した音響を収音し、当該音響の波形を表す音響信号Yを生成する。したがって、放音システム20の付近での収音により生成された音響信号Yには、識別情報Iの音響成分が含まれ得る。
【0040】
以上の説明から理解される通り、収音装置51は、端末装置50の相互間の音声通話または動画撮影時の音声収録に利用されるほか、空気振動としての音波を伝送媒体とする音響通信により識別情報Iを受信する受信機としても機能する。なお、収音装置51が生成した音響信号Yをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。また、端末装置50と一体に構成された収音装置51に代えて、別体の収音装置51を有線または無線により端末装置50に接続してもよい。
【0041】
制御装置52(コンピュータの例示)は、例えばCPU(Central Processing Unit)等の処理回路で構成され、端末装置50の各要素を統括的に制御する。記憶装置53は、制御装置52が実行するプログラムと、制御装置52が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置53として任意に採用され得る。
【0042】
制御装置52は、図7に例示される通り、記憶装置53に記憶されたプログラムを実行することで複数の機能(情報抽出部521および再生制御部523)を実現する。なお、制御装置52の一部の機能を専用の電子回路で実現してもよい。また、制御装置52の機能を複数の装置に搭載してもよい。
【0043】
情報抽出部521は、収音装置51が生成した音響信号Yから識別情報Iを抽出する。具体的には、情報抽出部521は、例えば、音響信号Yのうち識別情報Iの音響成分を含む周波数帯域を強調するフィルタ処理と、識別情報Iに対する変調処理に対応した復調処理とにより、識別情報Iを抽出する。情報抽出部521が抽出した識別情報Iは、当該識別情報Iに対応する関連情報R(すなわち放音装置22により放音された応答音声V2が表す応答に関する関連情報R)の取得に利用される。
【0044】
なお、識別情報Iを受信できるのは当該識別情報Iに対応する応答音声V2を収音可能な範囲内の位置に制限されるから、識別情報Iは、端末装置50の位置を示す情報とも表現できる。したがって、放音システム20の周囲に位置する端末装置50に限定して、関連情報Rを提供できる。
【0045】
通信装置54は、制御装置52による制御のもとで通信網を介して情報提供サーバ40と通信する。第1実施形態の通信装置54は、情報抽出部521が抽出した識別情報Iを情報提供サーバ40に送信する。情報提供サーバ40は、端末装置50から送信された識別情報Iに対応した関連情報Rを取得して端末装置50に送信する。通信装置54は、情報提供サーバ40から送信された関連情報Rを受信する。
【0046】
再生制御部523は、通信装置54が受信した関連情報Rを再生装置55に再生させる。再生装置55は、関連情報Rを再生する出力機器である。具体的には、再生装置55は、関連情報Rが表す画像を表示する表示装置を含む。なお、端末装置50と一体に構成された再生装置55に代えて、別体の再生装置55を有線または無線により端末装置50に接続してもよい。また、当該関連情報Rが表す音響を放音する放音装置を再生装置55が含んでもよい。すなわち、再生装置55による再生は、画像の表示と音響の放音とを包含する。
【0047】
図8は、情報提供システム100全体の処理のフローチャートである。利用者Uによる発話音声V1の発音を契機として図9の処理が開始される。放音システム20の収音装置21は、利用者Uからの発話音声V1を受付ける(Sa1)。具体的には、利用者Uが発話した発話音声V1を表す入力データD1が収音装置21により生成される。放音システム20の通信制御部243は、収音装置21が生成した入力データD1を応答サーバ30に送信する動作を通信装置25に実行させる(Sa2)。
【0048】
応答サーバ30の通信制御部326は、放音システム20から送信された入力データD1を受信する動作を通信装置33に実行させる(Sa3)。音声認識部321は、通信装置33が受信した入力データD1に対する音声認識により発話文字列を特定する(Sa4)。応答生成部322は、発話音声V1に対する応答を生成する(Sa5)。具体的には、音声認識部321が特定した発話文字列に対応する応答文字列が生成される。関連情報生成部323は、応答生成部322が生成した応答に関する関連情報Rを生成する(Sa6)。識別情報生成部324は、関連情報生成部323が生成した関連情報Rを識別するための識別情報Iを生成する(Sa7)。信号生成部325は、音響データD2を生成する(Sa8)。具体的には、応答音声V2と識別情報Iの音響成分との混合音を表す音響データD2が生成される。通信制御部326は、提供データD3を情報提供サーバ40に送信する動作を通信装置33に実行させる(Sa9)。提供データD3は、関連情報生成部323が生成した関連情報Rと、識別情報生成部324が当該関連情報Rについて生成した識別情報Iとを含む。
【0049】
情報提供サーバ40の通信制御部425は、応答サーバ30から送信された提供データD3を受信する動作を通信装置43に実行させる(Sa10)。記憶制御部421は、通信装置43が受信した提供データD3を記憶装置41に記憶する(Sa11)。具体的には、記憶制御部421は、提供データD3に含まれる関連情報Rと識別情報Iとを対応させて記憶装置41に格納する。
【0050】
応答サーバ30の通信制御部326は、信号生成部325が生成した音響データD2を放音システム20に対して送信する動作を通信装置33に実行させる(Sa12)。放音システム20の通信制御部243は、応答サーバ30から送信された音響データD2を受信する動作を通信装置25に実行させる(Sa13)。放音制御部245は、音響データD2に応じて放音装置22に放音させる(Sa14)。放音装置22は、応答音声V2と識別情報Iの音響成分との混合音の放音により、識別情報Iを端末装置50に送信する(Sa15)。すなわち、放音装置22を利用した音響通信により識別情報Iが端末装置50に送信される。
【0051】
端末装置50の収音装置51は、放音システム20が音響データD2に応じて放音した音響(すなわち識別情報Iの音響成分を含む音響)を収音する(Sa16)。具体的には、収音した音響の波形を表す音響信号が生成される。情報抽出部521は、収音装置51が生成した音響信号から識別情報Iを抽出する(Sa17)。通信装置54は、情報抽出部521が抽出した識別情報Iを情報提供サーバ40に送信する(Sa18)。
【0052】
情報提供サーバ40の通信制御部425は、端末装置50から送信された識別情報Iを受信する動作を通信装置43に実行させる(Sa19)。関連情報特定部423は、通信装置43が受信した識別情報Iに対応する関連情報Rを特定する(Sa20)。通信制御部425は、関連情報特定部423が特定した関連情報Rを端末装置50に送信する動作を通信装置43に実行させる(Sa21)。
【0053】
端末装置50の通信装置54は、情報提供サーバ40から送信された関連情報Rを受信する(Sa22)。再生制御部523は、通信装置54が受信した関連情報Rを再生装置55に再生させる(Sa23)。すなわち、放音装置22により放音された応答音声V2が表す応答に関する関連情報Rが再生装置55により再生される。
【0054】
以上の説明から理解される通り、第1実施形態では、応答音声V2を放音する放音装置22を利用した音響通信により識別情報Iが端末装置50に送信されるから、応答音声V2が表す応答に関する関連情報R(例えば応答に関する更に詳細な情報)を、端末装置50が当該識別情報Iを利用して取得できる。したがって、応答音声V2に関する関連情報Rを取得するために利用者Uが端末装置50に煩雑な操作を付与する負荷を軽減できる。また、応答音声V2を放音するための放音装置22を流用して端末装置50に識別情報Iを送信できる。すなわち、識別情報Iの送信に専用される送信機が不要である。
【0055】
第1実施形態では、放音システム20が受付けた発話音声V1が応答サーバ30に送信され、応答サーバ30が生成した応答を表す応答音声V2の音響データD2が受信部253により受信されるから、応答音声V2を生成するための要素を放音システム20に内蔵する必要がない。したがって、放音システム20の構成および動作が簡素化される。また、第1実施形態では、応答生成部322が生成した応答文字列に含まれる応答単語に対応する関連情報Rが生成されるから、応答文字列の全体に対応する関連情報Rを特定する構成と比較して、関連情報Rを簡単に特定できる。
【0056】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0057】
第1実施形態では、関連情報Rの識別情報Iを応答サーバ30により生成する。それに対して、第2実施形態では、関連情報Rの識別情報Iを放音システム20により生成する。すなわち、第2実施形態の応答サーバ30において、識別情報生成部324は省略される。
【0058】
第2実施形態の放音システム20の制御装置24は、通信制御部243および放音制御部245に加えて、識別情報生成部324としても機能する。利用者Uが発音した発話音声V1を収音装置21が受付けると(すなわち入力データD1を生成すると)、識別情報生成部324は、当該入力データD1に対応する識別情報Iを生成する。当該入力データD1に応じて応答サーバ30が生成する関連情報Rに対応する識別情報Iが、識別情報生成部324により予め生成される。第2実施形態の通信制御部243は、放音装置22が生成した入力データD1と、識別情報生成部324が生成した識別情報Iとを応答サーバ30に送信する動作を、通信装置25に実行させる。
【0059】
第2実施形態の応答サーバ30の通信制御部326は、放音システム20から送信された入力データD1および識別情報Iを受信する動作を通信装置33に実行させる。入力データD1を受信した応答サーバ30の音声認識部321は、第1実施形態と同様に、入力データD1から発話文字列を特定する。応答生成部322は、第1実施形態と同様に、発話文字列に対する応答文字列を生成する。関連情報生成部323は、第1実施形態と同様に、応答文字列が表す応答に関する関連情報Rを生成する。第2実施形態の信号生成部325は、応答音声V2と、放音システム20から送信された識別情報Iの音響成分とを表す音響データD2を生成する。信号生成部325により生成された音響データD2は、第1実施形態と同様に、通信制御部326による制御のもとで放音システム20に対して送信される。関連情報生成部323が生成した関連情報Rと、放音システム20から送信された識別情報Iとを含む提供データD3は、通信制御部326による制御のもとで情報提供サーバ40に対して送信される。
【0060】
提供データD3を受信した情報提供サーバ40は、第1実施形態と同様に、提供データD3を記憶装置41に記憶する。すなわち、放音システム20により生成された識別情報Iが、応答サーバ30により生成された関連情報Rに対応した状態で記憶装置41に登録される。音響データD2を受信した放音システム20は、第1実施形態と同様に、応答音声V2と、当該応答音声V2対応する関連情報Rの識別情報Iを表す音響成分とを音響データD2に応じて放音する。端末装置50は、第1実施形態と同様に、情報提供サーバ40から関連情報Rを取得する。
【0061】
第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、応答サーバ30で識別情報Iを生成することなく、応答音声V2と識別情報Iとの対応を応答サーバ30において管理することができる。
【0062】
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0063】
(1)前述の各形態では、発話音声V1を利用者Uによる入力として例示したが、利用者Uによる入力は発話音声V1に限定されない。例えば利用者Uにより指定された文字列を利用者Uによる入力としてもよい。例えば、利用者Uからの指示を受付ける操作装置(図示略)を放音システム20が具備する構成が想定される。操作装置は、例えば利用者Uが操作する複数の操作子(例えば50音の各仮名文字にそれぞれ対応した複数の操作子)を含んで構成される。利用者Uは、例えば問掛け(質問)および話掛けを含む文字列(以下「入力文字列」という)を操作装置に対して指示する。操作装置は、入力文字列を受付ける。具体的には、入力文字列を表す入力データD1が生成される。すなわち、操作装置は、利用者Uが操作装置に対して指示した入力文字列を受付ける受付部として機能する。入力データD1を受信した応答サーバ30は、当該入力データD1に応じて応答文字列および関連情報Rを生成する。すなわち、音声認識部321は省略される。
【0064】
また、例えば事前に準備された質問や話掛けをそれぞれ表す複数の選択肢のうち所望の選択肢を、利用者Uが操作装置を利用して選択してもよい。利用者Uが選択した選択肢に設定された質問や話掛けを示す入力データD1が生成される。すなわち、操作装置は、利用者Uによる選択肢の選択を受付ける受付部として機能する。選択肢の選択が利用者Uの入力に相当する。以上の説明から理解される通り、利用者Uからの入力は、利用者Uの意図に応じて受付部に付与される情報であり、発話音声V1、入力文字列、選択肢等が例示される。また、利用者Uによる入力の種類に応じて、利用者Uからの入力を受付ける受付部として利用される機器も適宜に変更される。
【0065】
(2)前述の各形態では、応答文字列の応答単語に対応する関連情報Rが生成されたが、関連情報Rは、利用者Uからの入力に対する応答に関する情報であれば、その内容は任意である。例えば、応答文字列の全体の内容を考慮して関連情報Rを生成してもよい。関連情報生成部323は、例えば「レストランABCの場所はどこ?」という発話文字列に対して、レストランABCの所在を示す関連情報Rを生成する。また、応答文字列そのものや、当該応答文字列を他言語に翻訳した文字列を関連情報Rとしてもよい。利用者Uからの入力を加味して関連情報Rを生成してもよい。なお、関連情報Rの生成に関連情報テーブルを利用することは必須ではない。関連情報Rの内容および種類に応じて、関連情報Rを生成する方法は適宜に変更される。
【0066】
(3)前述の各形態では、発話音声V1に対する応答として応答文字列が応答生成部322により生成されたが、応答生成部322が生成する応答は応答文字列に限定されない。例えば応答生成部322が生成する応答の内容が固定である場合には、例えば記憶装置23が事前に応答音声V2を記憶しておくことも可能である。応答生成部322は、入力データD1に応じた応答音声V2を発話音声V1に対する応答として記憶装置23から特定する。
【0067】
また、応答生成部322は、音声認識部321が生成した発話文字列を他言語に翻訳した文字列を、発話音声V1に対する応答として生成してもよい。発話音声V1を他言語に翻訳した応答音声V2が放音システム20から放音される。以上の構成によれば、利用者Uの発話音声V1を他言語に翻訳する自動翻訳機が放音システム20として利用される。自動翻訳機を放音システム20とする構成では、発話文字列を他言語に翻訳した文字列が関連情報Rとして好適に利用される。なお、応答サーバ30の機能を自動翻訳機に搭載してもよい。
【0068】
(4)前述の各形態では、放音システム20は、応答音声V2の放音により、発話音声V1に対する応答を利用者Uに提示したが、応答音声V2の放音とともに、例えば放音システム20の表示装置(例えば液晶ディスプレイ)により応答文字列や関連情報Rを表示してもよい。
【0069】
(5)前述の各形態では、応答音声V2と識別情報Iの音響成分との混合音を表す音響データD2が応答サーバ30により生成されたが、応答サーバ30は、応答音声V2と識別情報Iの音響成分とを個別の音響として含む音響データD2を生成して、当該音響データD2を放音システム20に送信してもよい。放音システム20は、音響データD2に応じて放音する。応答音声V2と識別情報Iの音響成分との混合音を放音してもよいし、応答音声V2と識別情報Iの音響成分とを個別に放音してもよい。また、応答音声V2と識別情報Iの音響成分とが放音される時期の関係は、任意である。例えば応答音声V2と識別情報Iの音響成分とが並行に放音されてもよいし、応答音声V2と識別情報Iの音響成分とが時間軸上の別の期間に放音されてもよい。放音制御部245は、受付部が受付けた入力に対する応答を表す応答音声V2と、当該応答に関する関連情報Rの識別情報Iを表す音響成分とを放音装置22に放音させる要素として包括的に表現される。
【0070】
(6)前述の各形態では、応答サーバ30が音響データD2を生成したが、放音システム20が音響データD2を生成してもよい。応答サーバ30は、応答文字列および識別情報Iを放音システム20に生成する。放音システム20は、応答サーバ30から送信された応答文字列と識別情報Iとから音響データD2を生成し、当該音響データD2に応じて放音する。すなわち、信号生成部325は、応答サーバ30から省略され得る。
【0071】
(7)前述の各形態では、関連情報Rの生成毎に識別情報生成部324が識別情報Iを生成したが、関連情報テーブルに登録される関連情報Rについて、事前に識別情報Iを登録しておいてもよい。識別情報生成部324は、関連情報生成部323により関連情報Rが生成されると、当該関連情報Rに対応する識別情報Iを関連情報テーブルから特定する。なお、以上の構成によれば、複数の関連情報Rの各々について当該関連情報Rの識別情報Iを対応させて事前に情報提供テーブルに登録しておいてもよい。以上の構成では、情報提供サーバ40に対する提供データD3の送信が省略される。
【0072】
(8)前述の各形態では、放音システム20は発話音声V1を表す音響信号を入力データD1として応答サーバ30に送信したが、発話音声V1の発話文字列を入力データD1として応答サーバ30に送信してもよい。すなわち、音声認識部321は、応答サーバ30から省略され得る。
【0073】
(9)前述の各形態では、応答サーバ30と情報提供サーバ40と放音システム20とで情報提供システム100を構成したが、情報提供システム100の構成は以上の例示に限定されない。例えば、単独の装置で情報提供システム100を構成してもよい。また、応答サーバ30と放音システム20とを単体の装置で実現してもよいし、応答サーバ30と情報提供システム100とを単体の装置で実現してもよい。
【0074】
(10)前述の各形態では、音声対話装置を放音システム20として利用したが、例えば自動券売機や自動販売機等を放音システム20として利用してもよい。以上の構成によれば、例えば利用者Uによる購入品に関する情報を関連情報Rとして利用できる。
【0075】
(11)前述の各形態に係る放音システム20、情報処理システム(応答サーバ30および情報提供サーバ40)および端末装置50の機能は、各形態での例示の通り、制御装置とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
【0076】
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
【0077】
本発明の好適な態様(第1態様)に係る情報提供方法は、利用者からの入力を受付け、
前記受付けた入力に対する応答を表す応答音声と当該応答に関する関連情報の識別情報を表す音響成分とを放音装置に放音させる。以上の態様では、応答音声を放音する放音装置を利用した音響通信により識別情報が端末装置に送信されるから、応答音声が表す応答に関する関連情報(例えば応答に関する更に詳細な情報)を、端末装置が当該識別情報を利用して取得できる。したがって、応答音声に関する関連情報を取得するために利用者が端末装置に煩雑な操作を付与する負荷を軽減できる。
【0078】
第1態様の好適例(第2態様)では、前記受付けた入力を表す入力データを応答サーバに送信し、前記入力データが表す入力に対する応答を表す応答音声と、当該応答に関する関連情報の識別情報を表す音響成分とを表す音響データを受信し、受信した音響データに応じて前記放音装置に放音させる。以上の態様では、受付けた入力が応答サーバに送信され、応答サーバが生成した応答を表す応答音声の音響データが受信されるから、応答音声を生成するための要素を放音システムに内蔵する必要がない。したがって、情報提供方法の構成および動作が簡素化される。
【0079】
第2態様の好適例(第3態様)では、識別情報を生成し、前記入力データと、前記生成した識別情報とを前記応答サーバに送信する。以上の態様では、応答サーバで識別情報を生成することなく、応答音声と識別情報との対応を応答サーバにおいて管理することができる。
【0080】
本発明の好適な態様(第4態様)に係る情報処理方法は、利用者による入力に対する応答を生成し、前記生成した応答に関する関連情報を生成し、前記生成した応答を表す応答音声と、前記関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させ、前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる。以上の態様では、応答音声を放音する放音装置を利用した音響通信により識別情報が端末装置に送信されるから、応答音声が表す応答に関する関連情報(例えば応答に関する更に詳細な情報)を、端末装置が当該識別情報を利用して取得できる。したがって、応答音声に関する関連情報を取得するために利用者が端末装置に煩雑な操作を付与する負荷を軽減できる。
【0081】
第4態様の好適例(第5態様)では、前記関連情報の生成において、前記応答に含まれる単語に対応する関連情報を生成する。以上の態様では、応答の全体に対応する関連情報を特定する構成と比較して、関連情報を簡単に特定できる。
【0082】
本発明の好適な態様(第6態様)に係る放音システムは、利用者からの入力を受付ける受付部と、音響を放音する放音装置と、前記受付部が受付けた入力に対する応答を表す応答音声と当該応答に関する関連情報の識別情報を表す音響成分とを前記放音装置に放音させる放音制御部とを具備する。以上の態様では、応答音声を放音する放音装置を利用した音響通信により識別情報が端末装置に送信されるから、応答音声が表す応答に関する関連情報(例えば応答に関する更に詳細な情報)を、端末装置が当該識別情報を利用して取得できる。したがって、応答音声に関する関連情報を取得するために利用者が端末装置に煩雑な操作を付与する負荷を軽減できる。
【0083】
第6態様の好適例(第7態様)では、前記受付部が受付けた入力を表す入力データを応答サーバに送信する送信部と、前記入力データが表す入力に対する応答を表す応答音声と、当該応答に関する関連情報の識別情報を表す音響成分とを表す音響データを前記応答サーバから受信する受信部とを具備し、前記放音制御部は、前記受信部が受信した音響データに応じて前記放音装置に放音させる。以上の態様では、受付部が受付けた入力が応答サーバに送信され、応答サーバが生成した応答を表す応答音声の音響データが受信部により受信されるから、応答音声を生成するための要素を放音システムに内蔵する必要がない。したがって、放音システムの構成および動作が簡素化される。
【0084】
第7態様の好適例(第8態様)では、識別情報を生成する識別情報生成部を具備し、前記送信部は、前記入力データと、前記識別情報生成部が生成した識別情報とを前記応答サーバに送信する。以上の態様では、応答サーバで識別情報を生成することなく、応答音声と識別情報との対応を応答サーバにおいて管理することができる。
【0085】
本発明の好適な態様(第9態様)に係る情報処理システムは、利用者による入力に対する応答を生成する応答生成部と、前記応答生成部が生成した応答に関する関連情報を生成する関連情報生成部と、前記応答生成部が生成した応答を表す応答音声と、前記関連情報生成部が生成した関連情報に対応する識別情報を表す音響成分とを表す音響データを、当該音響データに応じて放音する放音システムに対して送信する動作を、通信装置に実行させる第1通信制御部と、前記放音システムによる音響通信で前記識別情報を受信した端末装置からの情報要求に応じて、当該識別情報に対応する関連情報を当該端末装置に送信する動作を、前記通信装置に実行させる第2通信制御部とを具備する。以上の態様では、応答音声を放音する放音装置を利用した音響通信により識別情報が端末装置に送信されるから、応答音声が表す応答に関する関連情報(例えば応答に関する更に詳細な情報)を、端末装置が当該識別情報を利用して取得できる。したがって、応答音声に関する関連情報を取得するために利用者が端末装置に煩雑な操作を付与する負荷を軽減できる。
【0086】
第9態様の好適例(第10態様)では、前記関連情報生成部は、前記応答生成部が生成した応答に含まれる単語に対応する関連情報を生成する。以上の態様では、応答の全体に対応する関連情報を特定する構成と比較して、関連情報を簡単に特定できる。
【符号の説明】
【0087】
100…情報提供システム、20…放音システム、21…収音装置、22…放音装置、23…記憶装置、24…制御装置、243…通信制御部、245…放音制御部、25…通信装置、251…送信部、253…受信部、30…応答サーバ、31…記憶装置、32…制御装置、321…音声認識部、322…応答生成部、323…関連情報生成部、324…識別情報生成部、325…信号生成部、326…通信制御部、33…通信装置、331…送信部、333…受信部、40…情報提供サーバ、41…記憶装置、42…制御装置、421…記憶制御部、423…関連情報特定部、425…通信制御部、43…通信装置、431…送信部、433…受信部、50…端末装置、51…収音装置、52…制御装置、521…情報抽出部、523…再生制御部、53…記憶装置、54…通信装置、55…再生装置、71…音声合成部、73…変調処理部、74…加算部。
図1
図2
図3
図4
図5
図6
図7
図8