(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
1.構成
図1は、一実施形態に係る音声応答システム1の機能構成を例示する図である。音声応答システム1は、ユーザーの音声入力に対して音声応答を出力するシステム、すなわち会話をするシステムである。この例で、音声応答システム1は、自動車Vのナビゲーションシステムに適用される。音声応答システム1は、車載器10及びサーバ20を有する。音声応答システム1のうちユーザーとのインターフェース機能は車載器10により提供され、音声応答システム1の機能の一部はサーバ20に実装される。
【0018】
車載器10は、通信部11、音声出力部12、音声入力部13、及び制御部14を有する。車載器10は、自動車Vに搭載される。通信部11はサーバ20と通信する。音声出力部12は、与えられた音声出力パラメータに従って生成された音声を出力する。音声入力部13は、前記音声に対する応答としてユーザーからの入力音声を受け付ける。通信部11は、入力音声をデータ化し、サーバ20に送信する。制御部14は各種の制御を行う。
【0019】
サーバ20は、通信部21、記憶部22、音声分析部23、変更部24、及び会話制御部25を有する。通信部21は、車載器10と通信する。この例において通信部21は、車載器10から入力音声のデータを受信する。記憶部22は、入力音声の履歴を記憶する。記憶部22は、さらに、ユーザー毎の反応基準を記憶する。反応基準とは、音声出力パラメータを変更する条件をユーザー毎に記録した情報である。音声分析部23は、入力音声を分析する。この例で、音声分析部23は、分析制御部231、特徴量抽出部232、話者推定部233、音声認識部234、及び反応度合判断部235を有する。分析制御部231は、音声分析に関する制御を行う。特徴量抽出部232は、入力音声の履歴から、入力音声における特徴量をユーザー毎に抽出する。話者推定部233は、入力音声を発した話者を推定する。音声認識部234は、入力音声に対し音声認識処理を行う。反応度合判断部235は、入力音声から、その音声を発したユーザーの反応度合を判断する。変更部24は、参照情報に基づいて音声出力パラメータを変更する(音声出力パラメータの値を決定する)。参照情報とは、音声出力パラメータの変更に用いられる情報であり、例えば、入力音声における特徴量又はユーザーの反応度合である。会話制御部25は、音声認識部234が行った音声認識処理の結果及び変更された音声出力パラメータを用いて、入力音声に対する応答音声のデータを生成する。通信部21は、応答音声のデータを車載器10に送信する。こうして、ユーザーと音声応答システム1との会話が行われる。
【0020】
サーバ20は、ネットワークを介して他のサーバと通信する。サーバ20が通信する他のサーバには、例えば、ユーザーの行動履歴を蓄積し、行動履歴を解析するサーバ、 入力された出発地から目的地までの経路を探索するサーバ、ユーザーのスケジュールを管理するサーバ、及び気象情報、交通情報、音楽配信、又は映画配信等を行うサーバ(いずれも図示略)が含まれる。
【0021】
図2は、車載器10のハードウェア構成を例示する図である。車載器10は、プロセッサー101、メモリー102、ストレージ103、通信装置104、タッチスクリーン105、スピーカー106、及びマイクロフォン107を有するコンピュータ装置、より具体的には例えばカーナビゲーション装置である。プロセッサー101は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ103及び/又は通信装置104からメモリー102に読み出し、これらに従って各種の処理を実行する。メモリー102は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、及びRAM(Random Access Memory)のうち少なくとも1つを含む。メモリー102は、レジスタ、キャッシュ、メインメモリー(主記憶装置)などと呼ばれてもよい。メモリー102は、一実施形態に係る音声応答システム1を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。ストレージ103は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリー(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成される。ストレージ103は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリー102及び/又はストレージ103を含むデータベース、サーバその他の媒体であってもよい。通信装置104は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。タッチスクリーン105は、情報を視覚的に出力するためのディスプレイと情報を入力するためのタッチセンサーとを兼ね備えた入出力装置である。スピーカー106は、情報を音として出力するための出力装置である。マイクロフォン107は、音声を入力するための入力装置である。なお、車載器10は、タッチスクリーン105、スピーカー106、及びマイクロフォン107以外の入力装置又は出力装置を有してもよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、スイッチ、ボタン、及びセンサの少なくとも1つを含んでもよい。また、出力装置は。LED(Light Emitting Diode)ランプ等を含んでもよい。上記のハードウェア要素は、情報を通信するためのバスで接続される。このバスは、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0022】
この例において、ストレージ103は、コンピュータ装置を音声応答システム1における車載器10として機能させるためのプログラム(以下「クライアントプログラム」という)を記憶する。通信装置104は、通信部11の一例である。クライアントプログラムを実行しているプロセッサー101が制御するスピーカー106は、音声出力部12の一例である。クライアントプログラムを実行しているプロセッサー101が制御するマイクロフォン107は、音声入力部13の一例である。クライアントプログラムを実行しているプロセッサー101は、制御部14の一例である。
【0023】
図3は、サーバ20のハードウェア構成を例示する図である。サーバ20は、プロセッサー201、メモリー202、ストレージ203、及び通信装置204を有する情報処理装置(コンピュータ装置)である。プロセッサー201、メモリー202、ストレージ203、及び通信装置204は、それぞれ、プロセッサー101、メモリー202、ストレージ203、及び通信装置204と同様である。
【0024】
この例で、ストレージ203は、コンピュータ装置を音声応答システム1におけるサーバ20として機能させるためのプログラム(以下「サーバプログラム」という)を記憶する。サーバプログラムを実行しているプロセッサー201が制御する通信装置204は、通信部21の一例である。メモリー202及びストレージ203の少なくとも一方は、記憶部22の一例である。サーバプログラムを実行しているプロセッサー201は、音声分析部23、変更部24、及び会話制御部25の一例である。
【0025】
2.動作
図4は、音声応答システム1の動作の概要を示すフローチャートである。ステップS1において、音声応答システム1は、事前登録を行う。事前登録は、音声応答システム1がユーザーの特徴を掴むための情報を登録する処理である。ユーザーが発する音声の特徴を記録したデータベースを反応基準データベースという。ステップS2において、音声応答システム1は、ユーザーとの間で音声応答(音声会話)を行う。以下、これらの処理の詳細を説明する。以下において制御部14等の機能要素を処理の主体として説明するが、これらの説明は、クライアントプログラム等のソフトウェアを実行しているプロセッサー101等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。
【0026】
2−1.事前登録
図5は、事前登録の詳細を例示するシーケンスチャートである。
図5のフローは、例えば、所定のイベントを契機として開始される。事前登録を開始する契機となるイベントは、例えば、車載器10の起動(自動車Vのエンジン始動)、又はユーザーから事前登録を開始する明示的な指示である。
【0027】
ステップS101において、車載器10の制御部14は、通信部11に対し事前登録の開始を通知する。ステップS102において、サーバ20の通信部21は、車載器10から事前登録の開始通知を受信する。事前登録の開始通知を受信すると、会話制御部25は、記憶部22から事前登録用の会話データを読み出す。事前登録用の会話データは、例えば、あらかじめユーザーの仮識別情報と対応付けられた1つ以上の質問を含む。
【0028】
図6は、事前登録用の会話データを例示する図である。この例で、会話データは、複数組の仮識別情報及び質問文を含む。仮識別情報は、自動車Vの座席に対応する識別情報であり、例えば識別情報「1」は「運転席」に、識別情報「2」は「助手席」に、識別情報「3」は「後部右座席」に相当する。例えば仮識別情報「1」には質問文「運転席の方、識別情報を入力してください」及び質問文「質問を繰り返すときの音声を登録してください」が対応付けられている。
【0029】
再び
図5を参照する。ステップS103において、会話制御部25は、対象となる仮識別情報を特定する。対象となる仮識別情報は、例えば番号の小さい順に1つずつ特定される。会話制御部25は、対象となる仮識別情報に対応する会話データを、事前登録の通知元の車載器10に通信部21を介して送信する(ステップS104)。サーバ20から会話データを受信すると、音声出力部12は、会話データをデコードし、質問の音声を出力する(ステップS105)。自動車Vに乗っている複数のユーザーのうち質問において指名された一のユーザーは、質問に対する回答を発声する(例えば「識別情報を入力してください」に対し「山田太郎です」、「質問を繰り返すときの音声を登録してください」に対し「もう一度言って」)。音声入力部13は、ユーザーの回答の音声を受け付け、音声データを生成する。制御部14は、生成された音声データを、通信部11を介してサーバ20に送信する(ステップS106)。
【0030】
ステップS107において、サーバ20の通信部21は、車載器10から音声データを受信する。ステップS108において、記憶部22は、受信した音声データを記憶する。このとき、記憶部22は、車載器10の識別情報、座席の仮識別情報、及び音声データを対応付けて記憶する。ステップS109において、特徴量抽出部232は、音声データを解析し、音声データから音声の特徴量を抽出する。この例において特徴量抽出部232が抽出する特徴量には、ユーザーが発する音声の音響的特徴量及びユーザーの話し方の特徴量が含まれる。音響的特徴量は、音声の個人性を示す特徴量であり、例えば音声のスペクトル包絡の所定の広域部分の形状を数値化した情報である。話し方の特徴量は、例えば、音量、話す速さ、声の高さ、質問から回答までの時間等に関する情報である。また、音声認識部234は、ユーザーの識別情報を入力させる質問に対する回答の音声データに対し音声認識処理を行い、ユーザーの識別情報を抽出する。識別情報は、ユーザーを一意に特定するための情報であり、例えば、ユーザーの氏名及び電話番号の組、又は音声応答システム1が独自に発行した識別コードである。
【0031】
ステップS110において、分析制御部231は、特徴量抽出部232が抽出した特徴量を、記憶部22に記憶されている反応基準データベースに追加する。反応基準データベースには、音声から抽出された特徴量の履歴が、ユーザーの識別情報と対応付けられて記憶される。
【0032】
ステップS111において、会話制御部25は、全ての仮識別情報について処理が完了したか判断する。まだ処理が完了していない仮識別情報がある場合、会話制御部25は、処理をステップS103に移行する。こうして、全ての座席について処理が完了するまでステップS103〜S111の処理が繰り返し実行される。全ての仮識別情報について処理が完了したと判断された場合、会話制御部25は
図5のフローを終了する。
図5のフローが完了すると、自動車Vに登場している全てのユーザーの特徴量が反応基準データベースに記録される。
【0033】
図7は、反応基準データベースに記録されたユーザーの特徴量を例示する図である。反応基準データベースには、例えばユーザーが音声を発するたびにその特徴量が記録されるが、ここでは特徴量の履歴から得られる代表値が示される。代表値は、特徴量の履歴から得られる統計量であり、例えば、平均値、最頻値、又は中央値である。この例において、ユーザーの特徴量は、音量、話す速さ、声の高さ、質問から回答までの時間、抑揚、及び頻出コマンドを含む。音量は、そのユーザーの発声の大きさを示す。速さは、発声の速さを示す。声の高さは、発声の高さを示す。回答までの時間は、そのユーザーが回答に要する時間を示す。抑揚は、発声の抑揚を示す。頻出コマンドは、そのユーザーが音声応答システム1に対し頻繁に行う命令を示す。また、反応基準データベースにおいては、ユーザーの識別情報と対応付けて自動車Vの座席の仮識別情報が記録される。なお事前登録は省略されてもよい。
【0034】
2−2.音声応答
2−2−1.シーケンス
図8は、音声応答の詳細を例示するシーケンスチャートである。
図5のフローは、例えば、所定のイベントを契機として開始される。音声応答を開始する契機となるイベントは、例えば、あらかじめ設定された目的地に近づいた、又はあらかじめ設定されたスケジュールに近づいたというイベントである。
【0035】
ステップS201において、会話制御部25は、イベントに応じた質問を示す音声データ(以下「質問音声データ」という)を記憶部22から読み出し、読み出した質問音声データを、通信部21を介して車載器10に送信する。車載器10の通信部11は、サーバ20から質問音声データを受信する(ステップS202)。音声出力部12は、質問音声データをデコードし、質問の音声を出力する(ステップS203)。ユーザーは、質問に対する回答の音声を発する。ステップS204において、音声入力部13は、ユーザーがする回答の音声をデータ化する。ステップS205において、音声入力部13は、回答の音声データ(以下「回答音声データ」という)に車載器10の識別情報を付加してサーバ20に送信する。
【0036】
ステップS206において、通信部21は、回答音声データを車載器10から受信する。ステップS207において、特徴量抽出部232は、回答音声データを解析して特徴量を抽出する。ここにおいて抽出される特徴量は、ステップS109と同様に、音響的特徴量及び話し方の特徴量を含む。ステップS208において、音声認識部234は回答音声データに対し音声認識処理を行う。ここでいう音声認識処理は、回答音声を文字列に変換する処理である。ステップS209において、分析制御部231は、音声認識処理の結果が、対応する質問の回答となっているか判断する。質問の回答となっていない場合、分析制御部231は、処理をステップS210に移行する。質問の回答となっていない場合、分析制御部231は、処理をステップS213に移行する。
【0037】
ステップS210において、話者推定部233は、回答音声データの話者を推定する。まず、特徴量抽出部232が、回答音声データから特徴量を抽出する。話者推定部233は、回答音声データから抽出された音響的特徴量を、記憶部22において車載器10の識別情報と対応付けられている音響特徴量と対比し、一致度が最も高い仮識別情報を特定する。仮識別情報はユーザーと対応しているので、仮識別情報を特定することは話者が特定されることに相当する。
【0038】
ステップS211において、反応度合判断部235は、回答音声データが示す回答におけるユーザーの反応が、通常状態と同じであるか判断する。具体的には、まず、反応度合判断部235は、回答音声データから抽出された話し方の特徴量を、ステップS210において特定された仮識別情報と記憶部22において対応付けられている特徴量と対比し両者の差異を計算する。
【0039】
図9は、ステップS211における対比結果を例示する図である。この例において、各特徴量の差異の有無が差異「有り」及び「無し」の2値で計算される。「音量」、「速さ」、「反応までの時間」、「抑揚」、及び「頻出コマンド」については差異「有り」、「高さ」については差異「無し」である。分析制御部231は、これらの特徴量の差異を得点化する。得点が多いほど差異が大きく、得点が少ないほど差異が小さい。反応度合判断部235は、こうして計算された得点をあらかじめ決められたしきい値と比較する。得点がしきい値以下である場合、反応度合判断部235は、ユーザーの反応が通常状態であると判断する。得点がしきい値よりも高い場合、反応度合判断部235は、ユーザーの反応が通常状態とは異なると判断する。
【0040】
再び
図8を参照する。変更部24は、ステップS211の判断結果に応じて音声出力パラメータの値を変更(調整)する(ステップS212)。音声出力パラメータとは、音声出力部12における音声の出力態様を制御するためのパラメータをいい、例えば、音量、速さ、及び高さのうち少なくとも1つを含む。音声出力パラメータには、変化の基準値が設定される。ステップS211において通常状態であると判断された場合、変更部24は、音声出力パラメータの値を基準値分変化させる。ステップS211において通常状態とは異なると判断された場合、変更部24は、音声出力パラメータの値を基準値より大きな値分、変化させる。
【0041】
ステップS213において、変更部24は、回答音声の話し方の特徴量、及びステップS212において決定された音声出力パラメータを記憶部22の反応履歴データベースに追加する。
【0042】
ステップS214において、会話制御部25は、音声認識部234が行う音声認識の結果に応じた質問又は回答の音声データを記憶部22から読み出し、ステップS212において決定された音声出力パラメータを対応付けて、車載器10に送信する。ステップS215において、車載器10の通信部11は、音声データ及び音声出力パラメータを受信する。ステップS216において、音声出力部12は、音声データが示す音声を、受信した音声出力パラメータが指定する出力態様において出力する。
【0043】
2−2−2.応答例
以下、音声応答システム1とユーザーとの会話例を説明する。ここでは、音声出力パラメータとして音量が変更(調整)される例を説明する。
(例1)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザー:(通常の声)「お願いします」
音声応答システム1:(音量:20)「今日の予定は・・・」
この例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーは「お願いします」と次の処理を促す指示をしている。したがって音声応答システム1は、ユーザーに今日の予定を案内する。
【0044】
(例2)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(通常の声)「・・・もう一度言って」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
(例3)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(通常の声)「・・・もっと大きく」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーAは質問を繰り返すよう指示をしている。このとき、話し方(音量、速さ、高さ、回答までの時間、及び抑揚)は通常状態と変わりなく、また、音声認識の結果得られた文字列も頻出コマンドとして登録されている。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
【0045】
(例4)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(大きな声)「き・こ・え・な・い・よ!!」
音声応答システム1:(音量:30)「今日の予定を案内しますか?」
この例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーAは「き・こ・え・な・い・よ!!」と、質問を繰り返すよう指示をしている。このときの話し方は、通常よりも音量が大きく、速さがゆっくりであり、回答までの時間が短く、抑揚が強い。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報とは異なる。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値に係数kを乗算した音量(30)を用いて問いかけを繰り返す。この例では質問の繰り返しが要求されているので係数kはk>1である。
【0046】
(例5)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「も・う・い・ち・ど!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
(例6)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「き・き・と・れ・な・い!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーBは質問を繰り返すよう指示をしている。ユーザーBは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報である。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
【0047】
(例7)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「も・っ・と・お・お・き・く!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーBは質問を繰り返すよう指示をしている。ユーザーBは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。音声認識の結果得られた文字列は頻出コマンドとして登録されているものではないが、特徴量の差異の得点は、しきい値以下である。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
【0048】
以上において説明したように、本実施形態によれば、音声出力パラメータの値をユーザーに応じて変更できる。
【0049】
3.変形例
本発明は上述の実施形態に限定されず、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上の例が組み合わせて用いられてもよい。
【0050】
3−1.変形例1
変更部24は、ユーザー毎の反応基準によらずに音声出力パラメータの値を変更してもよい。例えば、変更部24は、全ユーザーの特徴量の統計量との比較において音声出力パラメータの値を決める。具体的には、変更部24は、入力音声の音量が平均値より大きい場合、出力音声の音量を基準値よりも大きい値分、変化させる。この例によれば、反応基準をユーザー毎に保持する必要が無く、サーバ20の負荷を低減できる。
【0051】
3−2.変形例2
反応基準と回答音声との特徴量の差異を得点化する方法は実施形態で説明した例に限定されない。特徴量を得点化する際には、項目毎に重みを異ならせてもよい。例えば、分析制御部231は、「音量」、「速さ」、「反応までの時間」、「抑揚」、及び「頻出コマンド」のうち「音量」及び「抑揚」に対し他の項目より大きい重み係数を乗算し、得点を計算してもよい。あるいは、分析制御部231は、他の項目より大きい重みを与える項目を、ユーザー毎に決めてもよい。具体的には、分析制御部231は、ユーザーAに対しては「音量」に対し他の項目より大きい重み係数を乗算し、ユーザーBに対しては「速さ」及び「抑揚」に対し他の項目より大きい重み係数を乗算してもよい。この例によれば、通常状態の判断の際に重きを置く要素をユーザー毎に異ならせることができる。
【0052】
3−3.変形例3
図10は、変形例3に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、受け付け部236及び更新部237を有する。受け付け部236は、音声出力パラメータの変更に対するユーザーからのフィードバックを受け付ける。ユーザーのフィードバックとは、音声出力パラメータの変化の有無に関し、そのユーザーの感覚(希望)との相違を示す情報をいう。例えば、上記の例4において、通常より大きな音量(30)を用いて問いかけを繰り返した後、音声応答システム1は、この音量の変更が必要であったか否かをユーザーに問いかける。この問いかけに対し、ユーザーは、「適切だった」又は「不要だった」等、自身の感覚との相違を示す回答を音声又は他の方法を用いて入力する。更新部237は、このフィードバックに応じて、反応基準を更新する。具体的には、更新部237は、「不要だった」というフィードバックがあった場合、通常状態の範囲が広がるよう、反応基準を更新する。例えば、反応基準においてそのユーザーの「音量」を「大」に更新する。
【0053】
あるいは、更新部237は、得点のしきい値をユーザーのフィードバックに応じて変化させてもよい。例えば、「不要だった」というフィードバックがあった場合、更新部237は、通常状態の範囲が広がるよう、しきい値を増加させる。
【0054】
さらに別の例において更新部237は、ユーザーのフィードバックに応じて音声出力パラメータの変化量を変化させてもよい。この場合、ユーザーのフィードバックとは、音声出力パラメータの変化量に関し、そのユーザーの感覚(希望)との相違を示す情報をいう。例えば、上記の例4において、通常より大きな音量(30)を用いて問いかけを繰り返した後、音声応答システム1は、この音量の変化量が適切であったか否かをユーザーに問いかける。この問いかけに対し、ユーザーは、「適切だった」、「大きすぎた」、又は「小さすぎた」等、自身の感覚との相違を示す回答を音声又は他の方法を用いて入力する。更新部237は、このフィードバックに応じて、反応基準を更新する。具体的には、更新部237は、「大きすぎた」というフィードバックがあった場合、基準値に乗算する係数kの値を低減する。例えば、更新部237は、従前はk=2であったところ、k=1.5に更新する。これらの例によれば、ユーザーのフィードバックを音声出力パラメータの変更に反映させることができる。
【0055】
3−4.変形例4
ユーザーの音声が質問の繰り返しを要求するコマンドを含む場合、変更部24は、反応基準との対比の結果を用いて、何回前の質問に戻るか判断してもよい。例えば、通常状態と判断された場合は前回と同じ質問を繰り返すところ、通常状態とは異なると判断された場合は、1つ前の質問に戻ってもよい。この場合において、変更部24は、質問を1つ前に戻すだけでなく、所定の音声出力パラメータの値を変更(例えば、速さを遅く)してもよい。この例によれば、反応基準との対比に応じて何回前の質問まで戻るか調整できる。
【0056】
3−5.変形例5
図11は、変形例5に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、感情推定部238を有する。感情推定部238は、入力音声からユーザーの感情を推定する。変更部24は、感情推定部238が推定した感情に応じて、基準値に乗算する係数kの値を変更する。例えば、ユーザーが怒っていると判断された場合、変更部24は係数kの値を増加させる。この例によれば、ユーザーが特定の感情を有しているときにはその感情に応じて音声出力パラメータの値を変更できる。
【0057】
3−6.変形例6
音声出力部12は、質問の対象となるユーザーの位置に応じて決定された音像位置に音声を定位させてもよい。例えば、音声出力部12は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席に定位させてもよい。この場合、音声出力部12は、定位を調整するための音声信号を処理する処理回路及び複数のスピーカーを含む。音像定位を制御する技術としては公知の技術が用いられる。あるいは、各座席に対応する複数のスピーカーを有する場合、音声出力部12は、質問の対象となるユーザーの位置に応じて決定されたスピーカーのみから音声を出力してもよい。例えば、音声出力部12は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席のスピーカーのみから出力してもよい。この例によれば、質問の対象となるユーザーに対してより効果的に音声応答システム1からの音声を出力できる。
【0058】
3−7.変形例7
変更される音声出力パラメータは音量に限定されない。例えば、変更される音声出力パラメータは、音量、話す速さ、声の高さ、抑揚、及び男声又は女声の別のうち少なくとも1つであってもよい。この場合において、これら複数の音声出力パラメータのうち変更の対象となるパラメータは、ユーザー毎に設定されてもよい。例えば、ユーザーAに対しては音量が変更され、ユーザーBに対しては速さ及び抑揚が変更される、というように設定されてもよい。この例によれば、よりユーザーに適応した音声を出力できる。
【0059】
3−8.変形例8
図12は、変形例6に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、位置推定部239を有する。位置推定部239は、回答を発したユーザーの位置(又は方向)を推定する。実施形態においては事前登録を用いて座席の位置を登録する例を説明したが、事前登録において座席の位置は登録されなくてもよい。この場合において、位置推定部239は入力音声からユーザーの位置を推定する。具体的には、この場合、音声入力部13は複数のマイクロフォンを有する。音声入力部13は、これら複数のマイクロフォンを介して入力された音声をそれぞれデータ化し、サーバ20に送信する。位置推定部239は、これら複数の音声データを解析し、音声を発したユーザーの位置を推定する。一例として、音声入力部13は、各座席に1個のマイクロフォンを有し、各座席に対応する音声データを出力する。位置推定部239は、複数の音声データのうち、信号レベルが最も高い音声データに対応する座席を、音声を発したユーザーの位置として推定する。この例によれば、ユーザーに位置に応じた音声を出力できる。
【0060】
3−9.他の変形例
音声応答システム1のハードウェア構成は実施形態で説明した例に限定されない。実施形態において車載器10に実装されていた機能の一部がサーバ20に実装されてもよい。また、実施形態においてサーバ20に実装されていた機能の一部又は全部が車載器10に実装されてもよい。一例としては、車載器10に全ての機能が集約されてもよい。別の例において、音声応答システム1は、車載器10及びサーバ20に加え、さらに別の装置を有してもよい。この場合、実施形態において車載器10及びサーバ20に実装されていた機能の一部がこの装置に実装されてもよい。一例としては、音声出力部12及び音声入力部13がこの装置(例えばスマートフォン)に実装されてもよい。この場合、ユーザーが各自のスマートフォンを使用することで、ユーザー毎に音声出力部12及び音声入力部13を設けることができる。あるいは、話者の方向を自動的に判断し、その話者の方向に音声を出力するスピーカーが、音声出力部12に用いられてもよい。
【0061】
なお、上記の実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。なお、本明細書では、「装置」という文言は、回路、デバイス、又はユニットなどに読み替えることができる。
【0062】
車載器10及びサーバ20のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。また、車載器10及びサーバ20は、マイクロプロセッサー、デジタル信号プロセッサー(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んでもよく、そのハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサー101は、これらのハードウェアの少なくとも1つで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0063】
情報の通知は、実施形態において説明した例に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。
【0064】
本明細書において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
【0065】
本明細書において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0066】
情報等は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。
【0067】
入出力された情報等は特定の場所(例えば、メモリー)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0068】
判定は、1ビットを用いて表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0069】
本明細書において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行う通知に限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0070】
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載において定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
【0071】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0072】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0073】
本明細書において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0074】
なお、本明細書において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及び/又はシンボルは信号(シグナル)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC)は、キャリア周波数、セルなどと呼ばれてもよい。
【0075】
本明細書において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0076】
また、本明細書において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスを用いて指示されてもよい。
【0077】
上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書において明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素(例えば、TPCなど)は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的なものではない。
【0078】
本明細書において使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリー中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
【0079】
本明細書において使用する「に基づいて」及び「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」及び「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」及び「に少なくとも基づいて」の両方を意味し、「に応じて」という記載は、「のみに応じて」及び「に少なくとも応じて」の両方を意味する。
【0080】
本明細書において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形において第1の要素が第2の要素に先行しなければならないことを意味しない。
【0081】
「含む(including)、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲において使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0082】
本開示の全体において、例えば、英語におけるa、an、及びtheのように、翻訳が原因で冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。