IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特許7000924音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム
<>
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図1
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図2
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図3
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図4
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図5
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図6
  • 特許-音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-28
(45)【発行日】2022-01-19
(54)【発明の名称】音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20220112BHJP
   G06F 3/16 20060101ALI20220112BHJP
   G10L 25/51 20130101ALI20220112BHJP
【FI】
G10L15/10 500Z
G06F3/16 530
G06F3/16 650
G06F3/16 690
G10L25/51
【請求項の数】 3
(21)【出願番号】P 2018039754
(22)【出願日】2018-03-06
(65)【公開番号】P2019152833
(43)【公開日】2019-09-12
【審査請求日】2020-08-31
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】長沼 立巳
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2016/136062(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/10
G06F 3/16
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
音声取得部が取得したユーザが発する音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類部と、
前記音声取得部が取得した音声を解析して、前記ユーザが要求する処理を実行する処理実行部と、
前記処理実行部が実行した処理内容に基づき、前記ユーザに向けて出力する音声用の文章データである出力文章を生成する音声内容生成部と、を有し、
前記音声内容生成部は、
前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、
前記第2音声と分類された場合に、前記第1出力文章と比べて情報が省略される第2出力文章を、前記出力文章として生成し、
前記音声分類部は、前記ユーザが発する音声がささやき声である場合に、前記第2音声として分類する、音声内容制御装置。
【請求項2】
ユーザが発する音声を取得する音声取得ステップと、
前記音声取得ステップで取得した音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類ステップと、
前記音声取得ステップで取得した音声を解析して、前記ユーザが意図した処理を実行する処理実行ステップと、
前記処理実行ステップで実行した処理内容に基づき、前記ユーザに向けて出力する音声用の文章データである出力文章を生成する音声内容生成ステップと、を有し、
前記音声内容生成ステップにおいて、
前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、
前記第2音声と分類された場合に、前記第1出力文章に含まれる情報の一部が省略される第2出力文章を生成し、
前記音声分類ステップは、前記ユーザが発する音声がささやき声である場合に、前記第2音声として分類する、音声内容制御方法。
【請求項3】
ユーザが発する音声を取得する音声取得ステップと、
前記音声取得ステップで取得した音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類ステップと、
前記音声取得ステップで取得した音声を解析して、前記ユーザが意図した処理を実行する処理実行ステップと、
前記処理実行ステップで実行した処理内容に基づき、前記ユーザに向けて出力する音用の文章データである出力文章を生成する音声内容生成ステップと、
をコンピュータに実行させ、
前記音声内容生成ステップにおいて、
前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、
前記第2音声と分類された場合に、前記第1出力文章に含まれる情報の一部が省略され
る第2出力文章を生成し、
前記音声分類ステップは、前記ユーザが発する音声がささやき声である場合に、前記第2音声として分類する、音声内容制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声内容制御装置、音声内容制御方法、及び音声内容制御プログラムに関する。
【背景技術】
【0002】
例えば特許文献1に示すように、検出したユーザの音声を解析して、ユーザの意図に応じた処理を行う音声制御装置が提案されている。また、ユーザの意図した処理を行ったことを音声で出力したり、ユーザの問い合わせ内容を音声で出力したりする音声制御装置も提案されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特公平7-109560号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、音声を出力する音声処理装置を用いる場合、ユーザ以外の周囲にいる人にもその音声が聞こえてしまう場合がある。例えば周囲にいる人が寝ている際には、その音声が迷惑となるおそれがある。このような場合、出力する音声自体を小さくしてもよいが、小さくし過ぎると、ユーザ自身にもその音声が聞こえ難くなり、内容が理解できなくなるおそれがある。従って、ユーザに音声を出力する場合に、ユーザ以外への影響を抑えつつ、ユーザに出力する音声の内容を適切に理解可能とすることが求められている。
【0005】
本発明は、上記課題を鑑み、ユーザに音声を出力する場合に、ユーザ以外への影響を抑えつつ、ユーザに出力する音声の内容を適切に理解可能とする音声内容制御装置、音声内容制御方法、及び音声内容制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様にかかる音声内容制御装置は、音声取得部が取得したユーザが発する音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類部と、前記音声取得部が取得した音声を解析して、前記ユーザが要求する処理を実行する処理実行部と、前記処理実行部が実行した処理内容に基づき、前記ユーザに向けて出力する音声用の文章データである出力文章を生成する音声内容生成部と、を有し、前記音声内容生成部は、前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、前記第2音声と分類された場合に、前記第1出力文章と比べて情報が省略される第2出力文章を、前記出力文章として生成する。
【0007】
本発明の一態様にかかる音声内容制御方法は、ユーザが発する音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類ステップと、前記音声取得ステップで取得した音声を解析して、前記ユーザが意図した処理を実行する処理実行ステップと、前記処理実行ステップで実行した処理内容に基づき、前記ユーザに向けて出力する音声用の文章データである出力内容を生成する音声内容生成ステップと、を有し、前記音声内容生成ステップにおいて、前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、前記第2音声と分類された場合に、前記前記第1出力文章に含まれる情報の一部が省略される第2出力文章を生成する。
【0008】
本発明の一態様にかかる音声内容制御プログラムは、ユーザが発する音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声を解析して、前記音声を、第1音声と第2音声とのいずれかに分類する音声分類ステップと、前記音声取得ステップで取得した音声を解析して、前記ユーザが意図した処理を実行する処理実行ステップと、前記処理実行ステップで実行した処理内容に基づき、前記ユーザに向けて出力する音声用の文章データである出力内容を生成する音声内容生成ステップと、をコンピュータに実行させ、前記音声内容生成ステップにおいて、前記第1音声と分類された場合に、前記出力文章として第1出力文章を生成し、前記第2音声と分類された場合に、前記前記第1出力文章に含まれる情報の一部が省略される第2出力文章を生成する。
【発明の効果】
【0009】
本発明によれば、ユーザに音声を出力する場合に、ユーザ以外への影響を抑えつつ、ユーザに出力する音声の内容を適切に理解可能とすることができる。
【図面の簡単な説明】
【0010】
図1図1は、第1実施形態に係る音声内容制御装置の模式図である。
図2図2は、第1実施形態に係る音声内容制御装置の模式的なブロック図である。
図3図3は、属性情報の一例を説明する表である。
図4図4は、取得情報を説明するための表である。
図5図5は、第1実施形態に係る出力文章の出力処理のフローを示すフローチャートである。
図6図6は、出力文章の出力処理のフローの他の例を示すフローチャートである。
図7図7は、第2実施形態に係る音声処理システムの模式的なブロック図である。
【0011】
以下に、本発明の実施形態を図面に基づいて詳細に説明する。なお、以下に説明する実施形態により本発明が限定されるものではない。
【0012】
(第1実施形態)
最初に、第1実施形態について説明する。図1は、第1実施形態に係る音声内容制御装置の模式図である。図1に示すように、第1実施形態に係る音声内容制御装置1は、ユーザHが発する音声V1を音声検出部10で検出し、検出した音声V1を解析して所定の処理を行って、音声出力部12により、音声V2を出力するものである。ここで、音声V2は、ユーザHに向かって出力されるが、音声内容制御装置1の周囲に他の人がいる場合、その人にも届く場合がある。その人が寝ている際などには、音声V2が、その人の迷惑となるおそれがある。本実施形態に係る音声内容制御装置1は、音声V1を解析して、音声V2として出力される文章を調整することで、音声V2のユーザH以外への影響を抑えつつ、ユーザHが音声V2の内容を適切に理解可能としている。
【0013】
図2は、第1実施形態に係る音声内容制御装置の模式的なブロック図である。図2に示すように、音声内容制御装置1は、音声検出部10と、音声出力部12と、点灯部14と、制御部16と、通信部18と、記憶部20とを有する。音声内容制御装置1は、いわゆるスマートスピーカ(AIスピーカ)であるが、後述する機能を発揮する装置であれば、それに限られない。音声内容制御装置1は、例えばスマートフォンやタブレットなどであってもよい。
【0014】
音声検出部10は、マイクであり、ユーザHが発する音声V1を検出する。ユーザHは、音声検出部10に向けて、音声内容制御装置1に実行して欲しい処理内容の情報を含めるように、音声V1を発する。なお、音声検出部10は、外部からの情報を受け付ける入力部であるともいえるが、入力部は、音声検出部10以外にも設けられていてよく、例えば、ユーザHの操作により音声V2の音量を調整するスイッチなどが設けられていてもよい。音声出力部12は、スピーカであり、制御部16が生成した文章(後述する出力文章)を、音声V2として出力する。点灯部14は、例えばLED(Laser Emitting Diode)などの光源であり、制御部16の制御により、点灯する。通信部18は、例えばWi-Fi(登録商標)モジュール、アンテナなど、外部サーバなどに通信する機構であり、制御部16の制御により、図示しない外部サーバと情報の送受信を行う。通信部18は、Wi-Fiなどの無線通信により外部サーバと情報の送受信を行うが、ケーブルなどと接続することで有線通信により外部サーバと情報の送受信を行ってもよい。記憶部20は、制御部16の演算内容やプログラムの情報などを記憶するメモリであり、例えば、RAM(Random Access Memory)と、ROM(Read Only Memory)と、フラッシュメモリ(Flash Memory)などの外部記憶装置とのうち、少なくとも1つ含む。
【0015】
制御部16は、演算装置、すなわちCPU(Central Processing Unit)である。制御部16は、音声取得部30と、音声解析部32と、処理実行部34と、音声内容生成部36と、音声分類部38と、出力制御部40とを有する。音声取得部30と、音声解析部32と、処理実行部34と、音声内容生成部36と、音声分類部38と、出力制御部40とは、記憶部20に記憶されたソフトウェア(プログラム)を読み出すことで、後述する処理を実行する。
【0016】
音声取得部30は、音声検出部10が検出した音声V1を取得する。音声解析部32は、音声取得部30が取得した音声V1の音声解析を実行して、音声V1をテキストデータに変換する。テキストデータは、音声V1として発せられた文章を含む文字データ(テキストデータ)である。音声解析部32は、例えば、音声V1から、時間毎の振幅や波長などによる音声波形を検出する。そして、音声解析部32は、音声波形と、文字との関係を記憶したテーブルに基づき、時間毎の音声波形をそれぞれ文字に置き換えることで、音声V1をテキストデータに変換する。ただし、音声解析部32は、音声V1をテキストデータに変換できるものであれば、変換の方法は任意である。
【0017】
処理実行部34は、音声解析部32が生成したテキストデータに基づき、音声V1に含まれた、音声内容制御装置1に実行して欲しい処理内容の情報を検出し、その処理を実行する。処理実行部34は、意図解析部50と、処理部52とを有する。
【0018】
意図解析部50は、音声解析部32が生成したテキストデータを取得して、テキストデータに基づき、意図情報Iを抽出し、意図情報Iに基づき、属性情報Eを抽出する。意図情報Iとは、ユーザHの意図を示す情報、すなわちインテントである。属性情報Eとは、意図情報Iに紐づいた情報であり、ユーザHが意図する処理を実行する際に必要となる条件を示す情報である。すなわち、属性情報Eは、エンティティである。
【0019】
まず、意図情報Iの抽出処理について説明する。意図情報I、すなわちインテントは、言い換えれば、ユーザHが、音声内容制御装置1にどのような処理を行うことを意図しているかを示す情報である。換言すれば、意図情報Iとは、ユーザHが音声内容制御装置1に対してどのような処理を行うことを要求しているかの情報である。意図解析部50は、例えば自然言語処理を用いて、テキストデータから意図情報Iを抽出する。本実施形態では、意図解析部50は、記憶部20に記憶されている複数の教師ありデータに基づき、テキストデータから意図情報Iを抽出する。ここでの教師ありデータは、テキストデータに対して意図情報Iが予め設定されているデータである。すなわち、意図解析部50は、音声解析部32が生成したテキストデータと類似している教師ありデータを抽出し、その教師ありデータの意図情報Iを、音声解析部32が生成したテキストデータの意図情報Iとする。なお、教師ありデータは、記憶部20に記憶されていなくてもよく、意図解析部50が、通信部18を制御して外部サーバから教師ありデータを検索してもよい。なお、意図解析部50は、テキストデータから意図情報Iを抽出するものであれば、意図情報Iの抽出方法は任意である。例えば、意図解析部50は、記憶部20に記憶されたキーワードと意図情報Iとの関係テーブルを読み出し、テキストデータに関係テーブル中のキーワードが含まれている場合に、そのキーワードに紐づいた意図情報Iを抽出してもよい。
【0020】
例えばテキストデータが「今日の天気は」という文章である場合、意図解析部50は、上述のような解析を行って、天気情報をユーザHに通知するという処理が、ユーザHが要求している処理の情報である、すなわち意図情報Iであると認識する。また、意図解析部50は、例えばテキストデータが「照明をつけて」という文章である場合、上述のような解析を行って、照明の電源をオンにするという処理が、ユーザHが要求している処理の情報である、すなわち意図情報Iであると認識する。このように、意図情報Iは、要求された情報を通知する旨の情報と、要求されたように機器を制御する旨の情報とに分類される。
【0021】
なお、テキストデータによる意図情報Iの抽出方法は、これに限られず任意である。例えば、音声内容制御装置1は、キーワードと意図情報Iとの関係テーブルを記憶部20に記憶しておき、ユーザHが発した音声V1のテキストデータがそのキーワードを含む場合に、そのキーワードに紐付けられた意図情報Iを検出してもよい。この場合の例としては、「こんにちは」というキーワードと、天気情報及びニュースの情報とを紐付けておくことが挙げられる。この場合、ユーザHが「こんにちは」という音声V1を発すると、意図解析部50は、天気情報とニュースの情報とを、意図情報Iとして検出する。
【0022】
次に、属性情報Eについて説明する。図3は、属性情報の一例を説明する表である。属性情報E、すなわちエンティティは、意図情報Iとして抽出されたユーザHの要求する処理を実行する際に必要とされる条件、すなわちパラメータである。例えば、意図情報Iが、天気情報である場合、属性情報Eは、どこの天気情報であるかを示す場所の情報と、いつの天気情報であるかを示す日時の情報とを含む。さらに言えば、図3に示すように、属性情報Eは、属性パラメータE0と、属性内容E1との情報を含む。属性パラメータE0は、パラメータの種類、すなわちどのような条件であるかを示す情報であり、属性内容E1は、その属性パラメータE0の内容を指す。すなわち、属性情報Eが場所の情報の場合、属性パラメータE0は、条件が場所である旨の情報であり、属性内容E1は、場所が東京である旨の情報である。また、属性情報Eが日時の情報の場合、属性パラメータE0は、条件が日時である旨の情報であり、属性内容E1は、日時がX年Y月Z日である旨の情報である。
【0023】
本実施形態では、意図解析部50は、抽出した意図情報Iに基づき、属性情報Eを抽出する。より詳しくは、意図解析部50は、抽出した意図情報Iから、属性パラメータE0を選択して抽出する。意図解析部50は、記憶部20に記憶されている意図情報Iと属性パラメータE0との関係テーブルを読み出し、関係テーブルから、抽出した意図情報Iと一致する意図情報Iを検出する。そして、意図解析部50は、一致する意図情報Iと紐付けられた属性パラメータE0を抽出する。ただし、意図解析部50は、通信部18を介して外部サーバと通信し、外部サーバから関係テーブルを取得してもよい。
【0024】
意図解析部50は、属性パラメータE0を抽出したら、属性パラメータE0毎に、属性内容E1を設定する。意図解析部50は、例えば、音声解析部32が生成したテキストデータから、属性内容E1を抽出する。すなわち、テキストデータに「今日」というキーワードが含まれていたら、日時の属性パラメータE0の属性内容E1を本日に設定する。また、意図解析部50は、属性パラメータE0に対する属性内容E1を予め設定していてもよい。例えば、記憶部20に、予め、意図情報Iが天気情報である場合、場所の属性内容E1が、東京である旨の設定データを記憶させておく。このようにしておけば、テキストデータに場所を示すキーワードが含まれない場合でも、意図解析部50は、場所の属性内容E1を東京として設定可能である。また、意図解析部50は、通信部18によって外部サーバと通信して属性内容E1を設定してもよい。この場合、例えば、意図解析部50は、GPS(位置情報測位システム)などの通信により現在の場所を取得し、それを属性内容E1として設定する。
【0025】
意図解析部50は、以上のようにして、意図情報Iと属性情報Eとを抽出するが、意図情報Iと属性情報Eとの抽出方法は、上記に限られず任意である。なお、図3は、天気情報が意図情報Iの場合であるが、他の場合でも同様に意図情報Iと属性情報Eとを抽出可能である。例えば、照明の電源をオンにするという情報が意図情報Iである場合、属性情報Eは、照明の場所の情報と、いつ電源をオンにするかという日時の情報とを含む。
【0026】
図2に戻り、処理部52は、意図情報Iの内容に基づき、ユーザが要求する処理を実行する。処理部52は、意図情報Iが機器を制御する旨である場合、意図情報Iの内容の処理を実行する。例えば、処理部52は、属性情報Eで示された場所の照明の電源をオンにする。
【0027】
図4は、取得情報を説明するための表である。処理部52は、意図情報Iが要求された情報を通知する旨である場合、要求された情報、すなわち取得情報Aを取得する。取得情報Aとは、ユーザHに通知するための情報であり、言い換えれば、ユーザHが通知を求めている情報であると処理実行部34によって判断された情報である。処理部52は、意図解析部50が抽出した意図情報Iに基づき、取得情報Aを取得する。より詳しくは、処理部52は、抽出した意図情報Iから、取得パラメータA0を選択して抽出する。処理部52は、記憶部20に記憶されている意図情報Iと取得パラメータA0との関係テーブルを読み出し、抽出した意図情報Iと一致する意図情報Iを、関係テーブルから検出する。そして、処理部52は、一致する意図情報Iと紐付けられた取得パラメータA0を抽出する。ただし、処理部52は、通信部18を介して外部サーバと通信し、外部サーバから関係テーブルを取得してもよい。
【0028】
処理部52は、取得パラメータA0を抽出したら、属性情報Eに基づき、取得パラメータA0毎に、取得内容情報A1を取得する。具体的には、処理部52は、属性パラメータE0が設定した属性内容E1となる場合の取得内容情報A1を、取得パラメータA0毎に取得する。処理部52は、通信部18によって外部サーバ(外部機器)と通信して、取得パラメータA0毎に、外部サーバから、取得内容情報A1を取得する。ただし、処理部52は、記憶部20に取得内容情報A1が記憶されている場合、記憶部20から取得内容情報A1を取得してもよい。すなわち、取得内容情報A1とは、処理部52が、外部サーバや記憶部20などのデータベースから取得するデータであるといえる。
【0029】
このように、取得内容情報A1は、処理部52が、外部サーバとの通信、又は、記憶部20からの読出しにより取得した情報である。図4の例では、意図情報Iが天気であり、取得パラメータA0が、天気、気温、及び降水確率である。この場合、処理部52は、X年Y月Z日の東京における、天気、気温、及び降水確率の各取得パラメータA0に対する取得内容情報A1を取得する。図4の例では、天気についての取得内容情報A1が、「晴れ時々曇り」であり、気温についての取得内容情報A1が、「最高気温:25度、最低気温:15度」であり、降水確率についての取得内容情報A1が、「20%」である。
【0030】
以上のように、処理部52は、取得パラメータA0毎の取得内容情報A1を、属性情報Eに基づき取得する。なお、本実施形態では、意図情報Iに、複数の取得パラメータA0が紐付けられていた。ただし、意図情報Iに1つの取得パラメータA0が紐付けられてもよい。この場合、意図情報Iそのものが、取得パラメータA0であるといえる。
【0031】
図2に戻り、音声内容生成部36は、処理部52が取得した取得内容情報A1に基づき、出力文章を生成する。出力文章とは、音声出力部12に出力させる音声V2用の文章のデータ、すなわちテキストデータである。出力文章は、ダイアログデータであるということもできる。音声内容生成部36は、出力文章として第1出力文章を生成する第1出力文章生成部60と、出力文章として第2出力文章を生成する第2出力文章生成部62とを有する。第1出力文章生成部60と第2出力文章生成部62とを説明する前に、音声分類部38について説明する。
【0032】
音声分類部38は、音声取得部30が取得した音声V1を解析して、音声V1を、第1音声V1Aと第2音声V1Bとのいずれかに分類する。本実施形態では、音声分類部38は、音声V1を解析して、音声V1がささやき声である場合、その音声V1を第2音声V1Bに分類する。そして、音声分類部38は、音声V1がささやき声でない場合、その音声V1を第1音声V1Aに分類する。ささやき声とは、声帯を振動させず無声化したときの声であるが、例えば後述の方法で第2音声V1Bとして分類される声であれば、声帯を振動させず無声化したときの声であることに限られない。
【0033】
例えば、音声分類部38は、音声V1の強度の時間波形を取得し、その時間波形をフーリエ変換することで、周波数毎の音声V1の強度を示すスペクトルを取得する。そして、音声分類部38は、スペクトルが有する所定強度以上のピークの周波数を特徴量として、音声V1が、第1音声V1Aであるか第2音声V1Bであるか分類する。例えば、音声分類部38は、ピークの周波数が閾値以下である場合、ささやき声であるとして、第2音声V1Bであると分類し、ピークの周波数が閾値より大きい場合、ささやき声でないとして、第1音声VBであると分類する。ただし、音声分類部38は、任意の方法で、第1音声V1Aと第2音声V1Bとを分類してもよい。例えば、音声分類部38は、スペクトルのピークの傾きを特徴量として、第1音声V1Aと第2音声V1Bとを分類してもよい。また、音声分類部38は、音声V1の音量、音声V1に含まれるユーザHの発語の速度、及び、音声V1のうちの人の発語と風切音との音量比のいずれかを特徴量として、第1音声V1Aと第2音声V1Bとを分類してもよい。また、音声内容制御装置1に近接センサを設け、近接センサの検出結果によりユーザHと音声内容制御装置1との間の距離を算出し、その距離を特徴量として、第1音声V1Aと第2音声V1Bとを分類してもよい。また、音声分類部38は、音声V1から、特徴量としてメル周波数ケプストラム係数を導出して、メル周波数ケプストラム係数に基づき、第1音声V1Aと第2音声V1Bとを分類してもよい。これらの場合において、音声分類部38は、特徴量について閾値を設定しておき、特徴量が閾値を上回るか否かに基づき、音声V1を、第1音声V1Aと第2音声V1Bとのいずれかに分類する。
【0034】
このように、音声分類部38は、音声取得部30が取得した音声V1を用いて、音声V1を分類するものである。すなわち、音声分類部38は、音声V1の意味が同じであっても、音声V1がささやき声である場合は、第2音声V1Bに分類し、音声V1がささやき声でない場合は、第1音声V1Aに分類する。
【0035】
また、音声分類部38は、音声V1から第1音声V1Aであるか第2音声V1Bであるかを分類する方法に限らない。音声取得部30が取得した音声V1に対して文字解析を行うことで音声V1のテキストデータを生成し、音声V1のテキストデータを用いて分類することであってもよい。例えば、音声分類部38は、ささやき声であるかの判定ではなく、例えば音声V1に含まれるキーワードに基づき音声V1を分類してもよい。すなわち、音声分類部38は、音声V1に、記憶部20が記憶したキーワードが含まれる場合に、第2音声V1Bであると分類し、記憶部20が記憶したキーワードが含まれない場合に、第1音声V1Aであると分類してもよい。
【0036】
音声分類部38は、以上説明した分類方法のいずれかを用いてもよいし、以上説明した分類方法を組み合わせて、分類を行ってもよい。
【0037】
音声内容生成部36は、音声分類部38によって、音声V1が第1音声V1Aであると分類された場合に、第1出力文章生成部60に、第1出力文章を生成させる。すなわち、音声内容生成部36は、音声V1が第1音声V1Aであると分類された場合には、第2出力文章を生成せず第1出力文章を生成する。第1出力文章生成部60は、処理実行部34に取得された意図情報Iと属性情報E(より詳しくは属性内容E1)と取得情報Aとの全ての情報を含む文章を、第1出力文章として生成する。すなわち、第1出力文章とは、処理実行部34に取得された意図情報Iと属性内容E1と取得情報Aとを全て含むテキストデータである。
【0038】
図3及び図4の例では、意図情報Iが、「天気」であり、属性内容E1が、「X年Y月Z日」、「東京」である。そして、取得情報Aのうち、取得パラメータA0が、「天気」、「気温」、「降水確率」であり、取得内容情報A1が、「晴れ時々曇り」、「最高気温:25度、最低気温:15度」、「20%」である。この場合、第1出力文章生成部60は、例えば、「X年Y月Z日の東京の天気は晴れ時々曇り、降水確率は20%、最高気温は25度、最低気温は15度です」という文章を、第1出力文章として生成する。意図情報Iと属性内容E1と取得情報Aとは、それぞれ個別の情報である。第1出力文章生成部60は、第1出力文章を、意図情報Iと属性内容E1と取得情報Aとを含む文章とするために、第1出力文章に情報を加える。すなわち、第1出力文章生成部60は、意図情報I、属性内容E1、及び取得情報A以外の情報(単語)を、第1出力文章に加えている。この加える情報(単語)としては、日本語であれば「です」などの丁寧語や、「は」などの助詞などであり、英語であれば冠詞などである。以下、この情報を、文章用情報とする。
【0039】
一方、音声内容生成部36は、音声分類部38によって、音声V1が第2音声V1Bであると分類された場合に、第2出力文章生成部62に、第2出力文章を生成させる。すなわち、音声内容生成部36は、音声V1が第2音声V1Bであると分類された場合には、第1出力文章を生成せず第2出力文章を生成する。第2出力文章生成部62は、第1出力文章に比べて、情報の一部が省略されるように文章を生成することで、第2出力文章を生成する。従って、第2出力文章は、第1出力文章よりも、文章量が少なくなる。さらに言えば、同じ意図情報Iと属性情報Eと取得情報Aとに基づき第1出力文章と第2出力文章とを生成したと仮定した場合、第2出力文章は、第1出力文章に比べて含まれる情報が省略されるため、第1出力文章よりも文章量が少なくなる。
【0040】
具体的には、第2出力文章生成部62は、処理実行部34が取得した意図情報I、属性内容E1、及び取得情報Aと、第1出力文章を生成する場合に加えられた文章用情報との、少なくともいずれかが含まれないように、第2出力文章を生成する。言い換えれば、第2出力文章生成部62は、同じ意図情報Iと属性情報Eと取得情報Aとに基づき第1出力文章を生成したと仮定した場合に、第1出力文章に含まれた意図情報Iと属性内容E1と取得情報Aと文章用情報との少なくともいずれかを省略して、第2出力文章を生成する。
【0041】
意図情報Iを含めない場合、すなわち意図情報Iを省略する場合、例えば、第2出力文章は、意図情報Iである「天気」が省略され、「X年Y月Z日の東京は晴れ時々曇り、降水確率は20%、最高気温は25度、最低気温は15度です」となる。ユーザHは、意図情報Iが尋ねたい情報の種類であるため、その意図情報Iが省略されても、内容を把握することができる。
【0042】
また、属性内容E1を含めない、すなわち属性内容E1を省略する場合、例えば、第2出力文章は、属性内容E1である「X年Y月Z日」と「東京」が省略され、「天気は晴れ時々曇り、降水確率は20%、最高気温は25度、最低気温は15度です」となる。ユーザHは、通常であれば、属性内容E1を音声V1に含めているので、属性内容E1が省略されても、内容を把握することができる。言い換えれば、第2出力文章生成部62は、音声V1に含まれる情報を、省略する情報、すなわち第2出力文章に含めない情報として、選択してよい。すなわち、第2出力文章生成部62は、ユーザHが発する音声V1に含まれる情報を、省略される情報の一部とする。また、例え属性内容E1が音声V1に含まれていなくても、属性内容E1は、記憶部20に設定データとして記憶されている場合がある。この場合、ユーザHは、属性内容E1が設定データ、すなわちデフォルトのデータとして設定されていることを認識しているため、属性内容E1が含まれなくても、内容を理解することができる。なお、属性内容E1が複数ある場合、第2出力文章生成部62は、全ての属性内容E1を省略してもよいし、一部の属性内容E1だけを省略してもよい。
【0043】
また、文章用情報を含めない、すなわち文章用情報を省略する場合、例えば、第2出力文章は、文章用情報である単語が省略され、「X年Y月Z日の東京の天気は晴れ時々曇り、降水確率は20%、最高気温は25度、最低気温は15度」となる。すなわち、例えば日本語の場合は、例えば文章用情報として丁寧語が省略され、例えば英語の場合は、冠詞が省略される。
【0044】
一方、取得情報Aは、ユーザHが尋ねたい情報であるため、意図情報Iと属性内容E1と文章用情報とに比べ、省略しないことが望ましい。特に、取得内容情報A1は、ユーザHに提供するデータそのものであるため、省略しないことが望ましい。すなわち、第2出力文章生成部62は、取得内容情報A1以外の情報から省略する情報を選択して、第2出力文章を生成することが望ましい。さらに言えば、第2出力文章生成部62は、取得内容情報A1を省略する情報として選択せず、取得内容情報A1を第2出力文章に含ませることが望ましい。このように、第2出力文章に含めない情報を、取得内容情報A1以外の情報から選択し、第2出力文章に含めない情報として取得内容情報A1を選択しないことで、ユーザHに内容を把握させつつ、文章量を適切に少なくすることができる。
【0045】
ただし、第2出力文章生成部62は、取得情報Aを省略することもあり、その場合について以下で説明する。例えば、第2出力文章生成部62は、取得情報Aのうちの取得パラメータA0を、省略する情報として選択してもよい。この場合、第2出力文章は、取得パラメータA0である「天気」、「降水確率」、「気温(最高気温、最低気温)」、「降水確率」が省略され、「「X年Y月Z日の東京は晴れ時々曇り、20%、15度から25度です」」となる。取得パラメータA0は、ユーザHが尋ねたい取得内容情報A1に紐づいた情報であるため、取得内容情報A1が通知されれば、ユーザHは、どの取得パラメータA0に対する取得内容情報A1であるかを認識することができる。
【0046】
より具体的には、第2出力文章生成部62は、取得内容情報A1が単位を含んだ数値情報である場合、その取得内容情報A1に紐づいた取得パラメータA0、すなわち数値情報の種類を示す情報を、省略する情報として選択する。取得内容情報A1が単位を含んでいる場合、ユーザHは、その単位から、取得パラメータA0を認識することができる。
【0047】
また、第2出力文章生成部62は、取得内容情報A1が数値範囲を示す情報である場合、その取得内容情報A1に紐づいた取得パラメータA0を、省略する情報として選択する。この場合の省略される取得パラメータA0は、数値範囲のうちの最大値であることを示す情報(この例では「最高気温」)と数値範囲のうちの最小値であることを示す情報(この例では「最低気温」)とである。
【0048】
また、第2出力文章生成部62は、取得内容情報A1に開始と終了とを示す情報である場合、その取得内容情報A1に紐づいた取得パラメータA0を、省略する情報として選択する。開始と終了とを示す情報とは、例えば、乗車駅が東京駅で、到着駅が横浜駅である場合の情報である。この場合、東京駅が開始を示す情報で、横浜駅が終了を示す情報である。この場合、例えば第1出力文章は、「乗車駅は東京駅で、降車駅は横浜駅です」となるが、第2出力文章は、取得パラメータA0である「乗車駅」と「降車駅」とが省略され、「東京駅から横浜駅です」となる。すなわち、この場合、取得パラメータA0である「乗車駅」が、開始に該当する取得内容情報A1が開始であることを示す情報であり、取得パラメータA0である「降車駅」が、終了に該当する取得内容情報A1が終了であることを示す情報であるといえる。以上のような場合でも、第2出力文章は、「AからBまで」という取得内容情報A1は含まれているので、取得パラメータA0が省略されても、ユーザHが内容を把握することができる。
【0049】
また、第2出力文章生成部62は、複数の意図情報Iや、複数の取得内容情報A1が取得された場合、一部の取得内容情報A1を省略する情報として選択してもよい。例えば、第2出力文章生成部62は、複数の意図情報Iが抽出された場合、いずれかの意図情報Iに属する取得内容情報A1を、省略する。例えば、第2出力文章生成部62は、文章とした場合に文章量が多くなる意図情報Iに属する取得内容情報A1を、優先度の低い情報として、省略する。例えば、音声V1が「おはよう」である場合に、意図情報Iとして天気とニュースとを抽出するように設定されていたケースを説明する。このケースでは、第2出力文章生成部62は、天気に関する出力文章よりもニュースに関する出力文章が長くなる場合、ニュースに関する取得内容情報A1を省略し、天気に関する取得内容情報A1を残す。
【0050】
また、第2出力文章生成部62は、1つの意図情報Iに対して複数の取得内容情報A1が取得された場合にも、いずれかの取得内容情報A1を省略してもよい。例えば、第2出力文章生成部62は、意図情報Iが渋滞の情報を通知するものである場合、取得内容情報A1は、場所ごとの渋滞情報となる。この場合、第2出力文章生成部62は、例えば現在位置から遠い場所の渋滞情報や、渋滞の規模が小さい場所の渋滞情報など、重要度の低い渋滞情報(取得内容情報A1)を、優先度の低い情報として、省略する。
【0051】
このように、第2出力文章生成部62は、複数の取得内容情報A1があり、複数の取得内容情報A1のうちの一部を省略する場合は、優先度の低い取得内容情報A1を、省略する情報として選択する。第2出力文章生成部62は、優先度を予め設定して記憶部20に記憶させておき、その優先度に基づき、優先度の低い取得内容情報A1を選択する。すなわち、例えば、文章量が少ないことを優先度が高いものとしたり、現在位置から近い渋滞情報を、優先度が高いものとしたりして、記憶させておく。
【0052】
第2出力文章生成部62は、以上のように、意図情報Iと属性内容E1と取得情報Aと文章用情報との少なくともいずれかを省略して、第2出力文章を生成する。すなわち、意図情報Iと属性内容E1と取得情報Aと文章用情報とは、省略可能な情報といえる。第2出力文章生成部62は、以上で説明した省略可能な情報を、全て省略する情報として選択してもよいし、省略可能な情報のうちの一部のみを省略してもよい。例えば、音声内容制御装置1は、省略可能な情報のうち、実際に省略する情報を、予め設定しておく。例えば、意図情報Iと属性内容E1とを省略する情報として設定された場合、第2出力文章生成部62は、第2出力文章を生成する際には、意図情報Iと属性内容E1との種類を問わず、常に意図情報Iと属性内容E1とを省略する。また、音声内容制御装置1は、実際に省略する情報の種類を示すテーブルを、記憶部20に記憶させていてもよい。この場合、例えば、省略される意図情報I(例えば天気など)と、省略されない情報(例えば時刻など)とが区分されるため、情報の種類に応じて、省略する情報を適切に選択することができる。
【0053】
音声内容生成部36は、以上のように、出力文章を生成する。以上の説明は、意図情報Iが情報を通知する旨の内容である場合の出力文章の生成方法である。意図情報Iが機器を制御する旨の内容である場合も、音声内容生成部36は、同様に、第1出力文章よりも情報が省略されるように、第2出力文章を生成する。この場合、音声内容生成部36は、処理部52による制御(例えば照明の電源をオンにする制御)を実行した後に、その制御の実行状況を説明する文章を、出力文章として生成する。より詳しくは、音声内容生成部36は、第1音声V1Aであると分類された場合に、第1出力文章として、「はい、処理を受け付けました」というテキストデータを生成する。すなわち、第1出力文章は、「はい」などの返答の情報と、「処理を受け付けました」などの、返答の情報に後続する文の情報とを含む。一方、音声内容生成部36は、第2音声V1Bであると分類された場合に、第2出力文章として、「はい」というテキストデータを生成する。すなわち、この場合、第2出力文章は、返答の情報を含み、返答の情報に後続する文の情報が省略される。従って、この場合でも、音声内容生成部36は、第2音声V1Bであると分類された場合には、第1出力文章が生成された場合に含まれる一部の情報を省略しているといえる。
【0054】
図2に戻り、出力制御部40は、音声内容生成部36が生成した出力文章、すなわち第1出力文章又は第2出力文章を取得する。出力制御部40は、このテキストデータとしての出力文章を音声データに変換し、その音声データを、音声V2として、音声出力部12に出力させる。出力制御部40は、音量を調整するスイッチで同じ音量に設定されていた場合、第1出力文章を読む音声V2の音量と、第2出力文章を読む音声V2の音量とを、同じ音量とする。すなわち、出力制御部40は、第1出力文章と第2出力文章とで、音声V2の音量を変えない。ただし、出力制御部40は、第1出力文章と第2出力文章とで、音声V2の音量を変えてもよい。また、出力制御部40は、音声V2を出力する際や、処理部52による処理が終了した際や、音声V1を検出した際などに、点灯部14を制御して点灯させてもよい。
【0055】
制御部16は、以上のような構成となっている。以下、制御部16による出力文章の出力処理のフローを、フローチャートに基づき説明する。図5は、第1実施形態に係る出力文章の出力処理のフローを示すフローチャートである。図5の示すように、制御部16は、音声取得部30により、入力音声、すなわち音声V1の音声データを取得する(ステップS10)。制御部16は、音声解析部32により、音声取得部30が取得した音声V1の音声データを解析して、テキストデータを生成する(ステップS12)。そして、制御部16は、意図解析部50により、テキストデータから、意図情報Iと属性情報Eとを抽出する(ステップS14)。意図情報Iと属性情報Eとを抽出したら、制御部16は、処理部52により、意図情報Iに即した処理を実行するか、意図情報Iに則した取得情報を取得するかの、いずれかを行う(ステップS16)。すなわち、処理部52は、意図情報Iが機器を制御する旨の内容である場合、意図情報Iと属性情報Eとで規定された内容の処理(例えば照明の電源をオンにする)を実行する。一方、処理部52は、意図情報Iが情報を通知する旨の内容である場合、意図情報Iと属性情報Eとに基づき、取得情報Aを取得する。具体的には、処理部52は、意図情報Iと属性情報Eとに基づき、取得パラメータA0を抽出し、取得パラメータA0毎に、取得内容情報A1を取得する。また、ステップS10で入力音声、すなわち音声V1を取得したら、制御部16は、音声分類部38により、音声V1を第1音声V1A、第2音声V1Bのいずれかに分類する(ステップS18)。
【0056】
制御部16は、音声V1が第1音声V1Aであるかを判定し(ステップS20)、第1音声V1Aである場合(ステップS20;Yes)、第1出力文章生成部60により、第1出力文章を生成する(ステップS22)。一方、制御部16は、第1音声V1Aでない場合(ステップS20;No)、すなわち第2音声V1Bである場合、第2出力文章生成部62により、第2出力文章を生成する(ステップS24)。制御部16は、出力文章、すなわち第1出力文章又は第2出力文章を生成したら、出力制御部40により、その出力文章を、音声出力部12により音声V2として出力させ(ステップS26)、処理を終了する。すなわち、出力制御部40は、第1出力文章が生成されたら、その第1出力文章を音声データに変換して、音声出力部12により音声V2として出力させる。そして、出力制御部40は、第2出力文章が生成された場合には、その第2出力文章を音声データに変換して、音声出力部12により音声V2として出力させる。
【0057】
本実施形態に係る音声内容制御装置1は、音声分類部38と、処理実行部34と、音声内容生成部36とを有する。音声分類部38は、音声取得部30が取得したユーザHが発する音声V1を解析して、音声V1を、第1音声V1Aと第2音声V1Bとのいずれかに分類する。処理実行部34は、音声取得部30が取得した音声V1を解析して、ユーザが要求する処理を実行する。音声内容生成部36は、処理実行部34が実行した処理内容に基づき、ユーザHに向けて出力する音声V2用の文章データ(テキストデータ)である出力文章を生成する。音声内容生成部36は、第1音声V1Aと分類された場合に、出力文章として第1出力文章を生成する。音声内容生成部36は、第2音声V1Bと分類された場合に、第1出力文章と比べて情報の一部が省略される第2出力文章を、出力文章として生成する。さらに本実施形態では、音声内容生成部36は、第2音声V1Bと分類された場合に、第1出力文章と比べて情報の一部が省略されるように文章を生成することで、第1出力文章よりも文章量が少ない第2出力文章を、出力文章として生成する。
【0058】
出力文章の音声データとして出力される音声V2は、ユーザHに向かって出力されるが、上述のように、音声内容制御装置1の周囲にいるユーザH以外の人にも届く場合がある。ユーザHは、周りの人に音声V2による影響を与えたくないと判断した場合は、ささやき声で音声V1を発したりするなど、音声V2による影響を与えてもよい判断した場合に対し、同じ内容を伝える場合であっても、音声V1を変化させる。音声内容制御装置1は、ユーザの音声V1を解析して、第1音声V1Aと分類されるような音声V1が検出された場合には、ユーザH以外の人への影響を考慮しなくてもよいと判断して、音声V2用に、第1出力文章を生成する。一方、音声内容制御装置1は、第2音声V1Bと分類されるような音声V1が検出された場合には、ユーザH以外の人への影響を考慮する必要があると判断して、音声V2用に、第1出力文章より文章量が少ない第2出力文章を生成する。これにより、音声内容制御装置1は、ユーザH以外の人への影響を考慮する必要がある場合に、音声V2として発される文章量を少なくすることができ、音声V2が出力される長さを短くして、ユーザH以外の人への影響を抑制する。さらに、音声内容制御装置1は、情報の一部を省略して第2出力文章を生成するため、省略する情報を調整することで、ユーザHが、音声V2の内容、すなわち第2出力文章の内容を、適切に理解可能とすることができる。
【0059】
また、処理実行部34は、音声V1に基づき、ユーザHの意図を示す意図情報Iを抽出する意図解析部50と、意図情報Iに基づきユーザHに通知する取得内容情報A1を取得する処理部52と、を有する。音声内容生成部36は、取得内容情報A1を含む文章データを、出力文章とする。この音声内容制御装置1は、意図情報Iに基づき取得された取得内容情報A1を、出力文章に含ませるため、ユーザHが望む情報を、適切にユーザHに伝えることができる。
【0060】
また、音声内容生成部36は、第2音声V1Bと分類された場合に、取得内容情報A1以外の情報から省略する情報を選択して、第2出力文章を生成する。取得内容情報A1は、ユーザHが要求している情報そのものを指す場合がある。音声内容生成部36は、取得内容情報A1以外から省略する情報を選択するため、取得内容情報A1を省略することなく情報を通知することができ、ユーザHに、音声V2の内容を適切に理解させることができる。
【0061】
また、音声内容生成部36は、取得内容情報A1を省略する情報として選択せず、取得内容情報A1を第2出力文章に含ませる。音声内容生成部36は、取得内容情報A1を省略することなく情報を通知することができ、ユーザHに、音声V2の内容を適切に理解させることができる。
【0062】
また、音声内容生成部36は、予め設定したテーブルから、省略する情報を選択する。音声内容制御装置1は、記憶部20に記憶させたテーブルから省略する情報を選択するため、省略する情報を適切に選択して、ユーザHに、音声V2の内容を適切に理解させることができる。
【0063】
また、音声内容生成部36は、ユーザHが発する音声V1に含まれる情報を、省略する情報として選択する。ユーザHが発する音声V1に含まれる情報は、省略したとしても、ユーザHは意味を理解しやすい。音声内容制御装置1は、そのような音声V1に含まれる情報を省略することで、音声V2の内容を適切に理解させつつ、ユーザH以外の人への影響を抑制することができる。
【0064】
また、音声内容生成部36は、取得内容情報A1に単位を含む数値情報が含まれる場合、数値情報の種類を示す情報(取得パラメータA0)を、省略する情報として選択する。音声内容制御装置1は、単位が含まれる取得内容情報A1に紐づいた取得パラメータA0を省略することで、音声V2の内容を適切に理解させつつ、ユーザH以外の人への影響を抑制することができる。
【0065】
音声内容生成部36は、処理実行部34から複数種類の取得内容情報A1を取得した場合、優先度の低い取得内容情報A1を、省略する情報として選択する。音声内容制御装置1は、優先度の低い取得内容情報A1を省略することで、音声V2の内容を適切に理解させつつ、ユーザH以外の人への影響を抑制することができる。
【0066】
音声内容生成部36は、複数種類の取得内容情報A1のうち、出力文章とした場合に文章量が多くなる前記取得内容情報A1を、省略する情報として選択する。音声内容制御装置1は、文章量が多くなる取得内容情報A1を省略することで、ユーザH以外の人への影響を抑制することができる。
【0067】
音声内容生成部36は、優先度を予め定めておき、予め定めた優先度に基づき、省略する情報を選択する。音声内容制御装置1は、予め優先度を定めることで、音声V2の内容を適切に理解させつつ、ユーザH以外の人への影響を抑制することができる。
【0068】
音声分類部38は、ユーザが発する音声V1がささやき声である場合に、音声V1を第2音声V2Bとして分類する。この音声内容制御装置1は、ささやき声を検出して、その場合に第2出力文章を生成ことで、ユーザH以外の人への影響を及ぼす状況であるかを適切に検出して、その影響を適切に抑制することができる。
【0069】
図6は、出力文章の出力処理のフローの他の例を示すフローチャートである。なお、本実施形態の音声内容生成部36は、第2音声V1Bである場合、第1出力文章を生成せず、第2出力文章を生成していた。ただし、音声内容生成部36は、第1出力文章した後、生成した第1出力文章の情報の一部を省略することで、第2出力文章を生成してもよい。すなわち、この場合、図6に示すように、音声内容生成部36は、ステップS16で処理部52の処理が行われた後に、音声V1の分類結果を参照せず、すなわち分類結果を問わずに、第1出力文章を生成する(ステップS17)。音声内容生成部36は、第1出力文章を生成した後、第1音声V1Aであると判断された場合(ステップS20A;Yes)、ステップS26に移動して、その第1出力文章を出力文章とする。一方、音声内容生成部36は、第1出力文章を生成した後、第1音声V1Aでない(ステップS20A;No)、すなわち第2音声V1Bであると判断された場合、生成した第1出力文章の情報の一部を省略することで、第2出力文章を生成し(ステップS24A)、第2出力文章を出力文章とする。この場合の第2出力文章での情報の省略方法は、既述の方法でよい。
【0070】
(第2実施形態)
次に、第2実施形態について説明する。第1実施形態に係る音声内容制御装置1は、音声検出部10及び音声出力部12を有しているが、第2実施形態に係る音声内容制御装置1Aは、音声検出部10及び音声出力部12を有していない。第2実施形態において第1実施形態と構成が共通する箇所は、説明を省略する。
【0071】
図7は、第2実施形態に係る音声処理システムの模式的なブロック図である。図7に示すように、第2実施形態に係る音声処理システム100は、音声内容制御装置1Aと、応答装置2Aとを有する。応答装置2Aは、例えば、スマートスピーカであり、音声検出部10と、音声出力部12と、点灯部14と、通信部15Aとを有する。音声内容制御装置1Aは、応答装置2Aから離れた箇所にある装置(サーバ)であり、制御部16と、通信部18Aと、記憶部20とを有する。音声内容制御装置1Aと応答装置2Aとは、無線通信で接続されているが、有線通信で接続されていてもよい。
【0072】
音声内容制御装置1Aは、音声検出部10が検出した音声V1を、通信部15Aと通信部18Aとを介した情報通信により、取得する。そして、音声内容制御装置1Aは、第1実施形態と同様の処理を実行して出力文章を生成し、その出力文章を、応答装置2Aに出力する。応答装置2Aは、音声出力部12で、出力文章を音声データに変換して、音声V2として出力する。ただし、音声内容制御装置1Aが、出力文章の音声データを生成し、応答装置2Aに送信してもよい。この場合、音声出力部12は、取得した音声データを、音声V2として出力する。このように、音声処理システム100は、音声内容制御装置1Aと、ユーザHが発する音声V1を検出する音声検出部10と、音声内容生成部36が生成した出力文章を、音声V2として出力する音声出力部12と、を有する。このように、音声内容制御装置1Aは、応答装置2Aと別体であっても、第1実施形態と同様の効果を奏する。
【0073】
以上、本発明の実施形態を説明したが、これら実施形態の内容により実施形態が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【符号の説明】
【0074】
1 音声内容制御装置
10 音声検出部
12 音声出力部
16 制御部
30 音声取得部
32 音声解析部
34 処理実行部
36 音声内容生成部
38 音声分類部
40 出力制御部
50 意図解析部
52 処理部
A 取得情報
E 属性情報
H ユーザ
I 意図情報
V1、V2 音声
V1A 第1音声
V1B 第2音声
図1
図2
図3
図4
図5
図6
図7