(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-08
(45)【発行日】2022-06-16
(54)【発明の名称】音声処理装置、音声処理方法および音声処理プログラム
(51)【国際特許分類】
G10L 13/00 20060101AFI20220609BHJP
G10L 13/02 20130101ALI20220609BHJP
G10L 15/04 20130101ALI20220609BHJP
G10L 15/22 20060101ALI20220609BHJP
【FI】
G10L13/00 100M
G10L13/02 130Z
G10L15/04 300Z
G10L15/22 300Z
(21)【出願番号】P 2019023125
(22)【出願日】2019-02-13
【審査請求日】2020-12-09
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110000637
【氏名又は名称】特許業務法人樹之下知的財産事務所
(72)【発明者】
【氏名】石川 健二
【審査官】菊池 智紀
(56)【参考文献】
【文献】特許第6400871(JP,B1)
【文献】特開2017-121680(JP,A)
【文献】特開2018-040897(JP,A)
【文献】特開2018-109663(JP,A)
【文献】特開2006-178063(JP,A)
【文献】特表2004-513445(JP,A)
【文献】特開2008-26463(JP,A)
【文献】特開2017-106988(JP,A)
【文献】特開2017-211596(JP,A)
【文献】宮崎昇,"話しことばを扱う音声対話システム",第37回言語・音声理解と対話処理研究会資料,2003年03月07日,pp.21-27
【文献】木下裕介 他,"言語に依存した韻律モデルによる発話継続/終了推定",日本音響学会2011年秋季研究発表会講演論文集CD-ROM,2011年09月13日,pp.85-88
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声データを取得する音声データ取得部と、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、
前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備え
、
前記発話状況解析部は、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
前記応答判定部は、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置であって、
前記発話状況解析部は、前記発話状況情報として、前記発話の内容に関する発話内容情
報をさらに生成することを特徴とする音声処理装置。
【請求項3】
請求項1または請求項2に記載の音声処理装置であって、
前記音声出力器の周囲を撮像した撮像データを取得する撮像データ取得部をさらに備え、
前記発話状況解析部は、前記発話区間の前記音声データおよび前記発話区間に撮像された前記撮像データに基づいて、前記発話状況情報を生成することを特徴とする音声処理装置。
【請求項4】
請求項1から請求項3のいずれか一項に記載の音声処理装置であって、
前記音声出力器からの前記応答に対する過去の前記ユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部をさらに備え、
前記応答判定部は、前記発話状況情報を前記応答判定モデルに入力することにより、前記応答を行うか否かを判定することを特徴とする音声処理装置。
【請求項5】
コンピュータにより音声処理を実施させる音声処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出ステップと、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析ステップと、
前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定ステップと、を含
み、
前記発話状況解析ステップは、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
前記応答判定ステップは、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理方法。
【請求項6】
コンピュータに読み込まれて実行される音声処理プログラムであって、
前記コンピュータを、
請求項1から請求項4のいずれか1項に記載の音声処理装置として機能させることを特徴とする音声処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。
【背景技術】
【0002】
従来、ユーザとの疑似的なコミュニケーションを行う音声処理装置が知られている。例えば、特許文献1には、入力される音声データからユーザの発話が含まれる音声区間を検出し、当該音声区間の発話に応じた応答を出力する音声処理装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の音声処理装置では、音声データと閾値との比較に基づいて音声区間を検出する毎に応答を出力している。すなわち、特許文献1に記載の音声処理装置では、検出された音声区間の区切り(ユーザの発話の切れ目)がどのような性質を有するかについて考慮されていない。
しかし、ユーザが発話中に言葉をつまらせた場合や、ユーザと他の話者との間の対話が険悪になって沈黙が発生した場合等において、ユーザの発話の切れ目は、応答が不適当となる性質を有する。このような場合において、音声区間を検出する毎に応答を出力すると、ユーザを不快にさせてしまう可能性が高い。
【0005】
本発明は、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備えることを特徴とする。
【発明の効果】
【0007】
本発明に係る音声処理装置によれば、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、本発明に係る音声処理装置は、ユーザとのコミュニケーションをより円滑に行うことができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る音声処理システムの概略構成を示すブロック図。
【
図2】前記実施形態のサーバ装置の概略構成を示すブロック図。
【
図3】前記実施形態のサーバ装置の音声処理方法の一例を示すフローチャート。
【発明を実施するための形態】
【0009】
本発明の一実施形態について図面に基づき説明する。
[音声処理システム1]
図1は、本実施形態の音声処理システム1の概略構成を示すブロック図である。
図1に示すように、本実施形態の音声処理システム1は、ユーザ端末10と、本発明の音声処理装置として機能するサーバ装置20と、を備えている。ユーザ端末10およびサーバ装置20は、ネットワーク(例えばインターネット)を介して通信可能に接続されている。
【0010】
ユーザ端末10は、例えばスマートスピーカーやスマートフォンなど、音声出入力機能を備えた端末装置である。サーバ装置20は、コンピュータにより構成され、ユーザとユーザ端末10との会話を実現するための音声処理を行う。ユーザ端末10は、ユーザの音声を取り込んでサーバ装置20に送信し、サーバ装置20から受信した応答を音声化して出力する。
【0011】
[ユーザ端末]
ユーザ端末10は、
図1に示すように、端末通信部11、音声入力器12、音声出力器13、カメラ14、端末記憶部15および端末制御部16を備える。
端末通信部11は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
音声入力器12は、例えば、外部から入力された音声を電気信号である音声データに変換するマイクである。音声入力器12により取得された音声データは、端末通信部11を介してサーバ装置20へ送信される。
音声出力器13は、例えば、端末通信部11を介して外部から入力された音声データを、音声に変換して出力するスピーカである。
【0012】
カメラ14は、レンズやイメージセンサなどにより構成され、ユーザ端末10の周囲を撮像する。カメラ14により撮像された映像または画像(撮像データ)は、端末通信部11を介してサーバ装置20へ送信される。
端末記憶部15は、メモリやハードディスク等のデータ記録装置により構成されている。端末記憶部15には、ユーザ端末10を制御するための各種プログラムやデータ等が記憶される。
【0013】
端末制御部16は、CPU(Central Processing Unit)等の演算回路、RAM(Random Access Memory)等の記憶回路により構成され、ユーザ端末10の各部を制御する。端末制御部16は、端末記憶部15等に記憶されているプログラムの中から所定のアプリケーション等のプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。これにより、端末制御部16は、サーバ装置20とネットワークを介して通信可能になり、サーバ装置20が提供するサービスの利用が可能となる。
【0014】
[サーバ装置20の構成]
図2は、本実施形態のサーバ装置20の概略構成を示すブロック図である。
サーバ装置20は、
図2に示すように、通信部21、記憶部22および制御部23を備える。
通信部21は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
【0015】
記憶部22は、例えばメモリやハードディスク等のデータ記録装置により構成されている。この記憶部22は、後述する音声処理を実施するための各種プログラムや各種データを記憶する。また、記憶部22は、ユーザデータベース221、学習データベース222およびモデルデータベース223を含んでいる。
【0016】
ユーザデータベース221には、音声処理システム1を利用するユーザ毎のユーザ情報が記憶されている。ユーザ情報は、例えばユーザID、ユーザ属性、機器ID、および機器アドレスが互いに関連付けられた情報を含んでいる。
【0017】
ユーザIDは、ユーザ毎に固有の識別情報である。
ユーザ属性は、ユーザの属性を示す情報である。ユーザの属性は、例えば、性別、年齢、住所および職業などである。
機器IDは、ユーザが所有するユーザ端末10に固有の識別情報である。
機器アドレスは、ユーザが所有するユーザ端末10のネットワーク上のアドレスである。
【0018】
学習データベース222には、後述する学習部237が機械学習を行うための学習データが記録される。例えば、学習データは、発話状況情報、応答有無およびユーザ反応が互いに関連付けられた情報を含む。
ここで、「発話状況情報」とは、ユーザの発話の内容に関する発話内容情報、または、ユーザの発話のトーンに関する発話トーン情報の少なくとも一種を含む。
「応答有無」は、ユーザの発話に対して音声出力器13からの応答を行ったか否かを示す情報である。
「ユーザ反応」は、音声出力器13からの応答の有無に対して、ユーザの反応が否定的であったか否かを示す情報である。
【0019】
モデルデータベース223には、音声出力器13からの応答の可否を判定するために使用される応答判定モデルが記憶される。応答判定モデルは、後述する学習部237が、学習データベース222に含まれる情報に基づく学習を行うことによって生成・更新される。また、応答判定モデルは、入力層に発話状況情報が入力された場合に、出力層から、音声出力器13からの応答可否を出力するようコンピュータを機能させる。
【0020】
なお、本実施形態において、応答判定モデルおよび学習データは、ユーザ毎に記憶されている。すなわち、応答判定モデルは、ユーザ毎にパーソナライズされる。
また、本実施形態では、サーバ装置20の記憶部22が、ユーザデータベース221、学習データベース222およびモデルデータベース223を含む構成を例示するが、例えば、ネットワーク上の他の装置に記憶されてもよい。
【0021】
制御部23は、CPU等の演算回路、RAM等の記憶回路により構成され、記憶部22等に記憶されているプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。そして、制御部23は、記憶部22に記憶された音声処理プログラムを読み込んで実行することで、
図2に示すように、発話区間検出部231、音声認識部232、発話状況解析部233、応答判定部234、応答生成部235、音声変換部236および学習部237として機能する。
【0022】
発話区間検出部231は、ユーザ端末10から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する。
音声認識部232は、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成する。
発話状況解析部233は、発話区間に対応する音声データに基づいて、後述する発話状況情報を生成する。
応答判定部234は、発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する。
応答生成部235は、発話区間に対応するテキストデータに基づいて、応答文を生成する。
音声変換部236は、応答生成部235により生成された応答文を音声データに変換する。
学習部237は、音声出力器13からの応答有無に対するユーザの反応を判定し、その判定結果を含む学習データに基づいて、応答判定モデルを生成する。
なお、制御部23による各機能の詳細については、後述に説明する。
【0023】
[音声処理方法]
サーバ装置20において実施される音声処理方法について、
図3を参照しながら説明する。
図3に示したフローチャートは、サーバ装置20が、ユーザ端末10から音声データを受信した場合に開始される。
【0024】
まず、発話区間検出部231が、ユーザ端末10から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する(ステップS1;音声データ取得ステップおよび発話区間検出ステップ)。例えば、発話区間検出部231は、音声データに関する音声信号が閾値以下の状態を所定期間以上継続している区間を無発話区間として検出し、それ以外の区間を発話区間として検出してもよい。あるいは、発話区間検出部231は、取得した音声データの波形から人の発話の始端と終端とに対応した各波形を検出することによって、発話区間を検出してもよい。
なお、発話区間検出部231は、発話区間を検出するまで、音声データの取得を継続する。
【0025】
次に、音声認識部232が、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成し、記憶部22に記憶させる(ステップS2)。なお、音声データをテキストデータに変換する音声認識処理については、既知の技術を利用できる。
【0026】
次に、発話状況解析部233は、ステップS2で生成されたテキストデータを解析することにより、ユーザの発話の内容に関する発話内容情報を生成する(ステップS3)。発話内容情報は、例えば、発話に含まれる1以上のキーワードや、複数のキーワード間の関連度など、いわゆる発話の文脈に関する情報を含んでいる。発話状況解析部233は、記憶部22に記憶された発話状況解析用の辞書データを参照することで、発話内容情報を生成することができる。
【0027】
次いで、発話状況解析部233は、ステップS1で検出された発話区間に対応する音声データに基づいて、ユーザの発話のトーン(声の音量、声の高低、および、発話速度のうち少なくとも1つ)に関する発話トーン情報を生成する(ステップS4)。例えば、発話状況解析部233は、記憶部22に記憶されているユーザの発話のトーンに関する値の平均値を参照し、当該平均値からの音声データのずれを表す発話トーン情報を生成してもよい。あるいは、発話状況解析部233は、ユーザの発話のトーンについて、経時的な変化パターンを表す発話トーン情報を生成してもよい。
【0028】
ここで、ステップS3で生成された発話内容情報、および、ステップS4で生成された発話トーン情報を、まとめて発話状況情報と記載する。すなわち、ステップS3,S4は、本発明の発話状況解析ステップに相当する。
なお、上述のステップS3とステップS4との順番は逆であってもよい。また、ステップS3,S4で生成された発話状況情報は、学習データとして、学習データベース222に記憶される。
【0029】
ステップS4の後、応答判定部234は、ステップS3,S4で生成された発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する(ステップS5:応答判定ステップ)。
具体的には、応答判定部234は、発話状況情報を、記憶部22に記憶された応答判定モデルに入力する。そして、応答判定モデルから出力される応答可否に従って、ユーザの発話に応答するか否かを判定する。
例えば、発話内容情報がユーザと他の話者との口論に関する文脈を含んでいる場合、発話内容情報がユーザの発話の結論部分を含んでいない場合、発話トーン情報がユーザのネガティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を禁止する旨の情報を出力する。
一方、発話内容情報に含まれる文脈が穏やかである場合、発話トーン情報がユーザのポジティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を許可する旨の情報を出力する。
【0030】
ユーザの発話に応答すると判定された場合(ステップS5;Yesの場合)、応答生成部235は、発話区間に対応するテキストデータに基づいて、応答文を生成する(ステップS6)。例えば、応答生成部235は、記憶部22に記憶された応答文生成用の辞書データを参照することにより、応答文を生成できる。
【0031】
次いで、音声変換部236は、生成された応答文を音声データに変換し、当該音声データをユーザ端末10に送信する(ステップS7)。ユーザ端末10では、音声出力器13が、受信した音声データを音声変換し、変換された音声を出力する。これにより、ユーザの発話に対する音声出力器13からの応答が行われる。
以上により、
図3のフローが終了する。
【0032】
一方、ユーザの発話に応答しないと判定された場合(ステップS5;Noの場合)、ステップS1に戻り、発話区間検出部231は、次の発話区間を検出する。
なお、2回目以降のフローにおいて、前回の発話区間の終端から今回の発話区間の始端までの時間が、予め設定された所定時間内である場合、応答判定部234は、初回のフローから今回のフローまでに生成された発話状況情報を、応答判定モデルに入力してもよい。すなわち、複数の発話区間が時間的に近いものであって途中に応答が挟まれない場合、これらの複数の発話区間に対応する発話状況情報に基づいて、応答可否を判定してもよい。これにより、ユーザの意図に沿った発話の単位(発話の開始から切れ目まで)の発話状況情報に基づいて、応答可否を判定することができる。
【0033】
[学習処理]
上述した音声処理の間または上述した音声処理の後、学習部237は、ユーザ端末10から送信される音声データまたは撮像データの少なくとも一方に基づいて、音声出力器13からの応答有無に対するユーザの反応(動作または発話)が否定的であるか否かを判定する。
【0034】
具体的には、音声出力器13からの応答がある場合、学習部237は、音声出力器13からの応答が終了した時点から所定時間の間において、ユーザ端末10から送信されるデータを収集する。一方、音声出力器13からの応答がない場合、学習部237は、ユーザの発話区間の終端から所定時間の間において、ユーザ端末10から送信されるデータを収集する。
そして、学習部237は、ユーザ端末10から送信されるデータを利用して、ユーザの反応が否定的であるか否かを総合的に判定する。
【0035】
例えば、音声出力器13からの応答が終了した後、音声データから「やめて」等の否定的な単語が検出された場合、または、撮像データからユーザの不快さを表す表情やジェスチャーが検出された場合、ユーザの反応は否定的であると判定されてもよい。
また、音声出力器13からの応答がないまま、音声データから直前の発話内容と同じ発話内容が検出された場合、もしくは「答えて」等の発話を促す単語が検出された場合、ユーザの反応は否定的であると判定されてもよい。あるいは、撮像データからユーザが音声出力器13を注視する動作が検出された場合、ユーザの反応は否定的であると判定されてもよい。
【0036】
ここで、音声データおよび撮像データの両方のデータに基づいてユーザの反応を判定することで、判定精度を高めることができる。ただし、音声データに基づく判定結果と撮像データに基づく判定結果とが互いに異なる場合には、予め設定されたデータに基づいて判定を行ってもよい。音声データおよび撮像データのうち、いずれのデータを重視するかについては、ユーザ毎に設定されてもよい。
例えば、撮像データが優先データとして設定されている場合であって、ユーザが笑顔で「やめて」と発話した場合には、ユーザの反応は否定的ではないと判定されてもよい。
【0037】
学習部237は、音声出力器13からの応答の有無を示す情報と、ユーザの反応が否定的であるか否かの判定結果とを、学習データとして、学習データベース222に記憶させる。そして、学習部237は、学習データベース222に蓄積された学習データに基づいて、タイミング判定モデルを生成することができる。
具体的には、学習部237は、ユーザの反応が否定的であった「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを不正解データとし、ユーザの反応が否定的ではない「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを正解データとした機械学習を行う。これにより、発話状況情報を入力、ユーザ端末10が応答すべきか否かを示す情報を出力としたタイミング判定モデルを生成できる。
【0038】
[実施形態の効果]
本実施形態のサーバ装置20において、制御部23は、音声処理プログラムを読み出し実行することで、発話区間検出部231(本発明の音声データ取得部および発話区間検出部)、発話状況解析部233および応答判定部234として機能する。そして、発話区間検出部231は、音声データを取得して当該音声データからユーザの発話を含む発話区間を検出し、発話状況解析部233は、発話区間の音声データに基づいて、ユーザの発話状況を示す発話状況情報を生成する。応答判定部234は、発話区間に含まれる発話に対して音声出力器13からの応答を行うか否かを、発話状況情報に基づいて判定する。
このような本実施形態において、サーバ装置20は、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、発話区間を検出する毎に応答を行っている従来技術と比べて、本実施形態では、ユーザとのコミュニケーションをより円滑に行うことができる。
【0039】
具体的には、本実施形態のサーバ装置20によれば、ユーザを含む複数の人間の会話に割り込んで応答する場合に、割り込みの可否を適切に判断して応答することができる。例えば、ユーザを含む複数の人間の会話の雰囲気が険悪である場合には、当該会話に割り込んだ応答を行わない対応を実行できる。
また、本実施形態のサーバ装置20によれば、ユーザが発話中に言葉をつまらせた場合にはユーザの発話に応答せず、ユーザの意図する発話の切れ目で当該発話に応答することを可能にする。
【0040】
本実施形態において、発話状況解析部233は、発話状況情報として、発話の内容に関する発話内容情報、または、発話の音響的特徴に関する発話トーン情報の少なくとも一方を生成する。このため、応答判定部234は、発話状況情報に基づいて、発話に対する音声出力器13からの応答を行うか否かを好適に判定できる。
【0041】
本実施形態では、制御部23が、音声出力器13からの応答に対する過去のユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部237としてさらに機能する。応答判定部234は、発話状況情報を応答判定モデルに入力することにより、応答を行うか否かを判定する。
このような本実施形態によれば、音声出力器13からの応答に対する過去のユーザの反応を考慮して応答をすべきか否かを決定することができる。
【0042】
[変形例]
本発明は、上述した各実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
【0043】
(変形例1)
上記実施形態において、応答判定部234は、応答判定モデルを利用して、発話に対する音声出力器13からの応答を行うか否かを判定しているが、本発明はこれに限られない。すなわち、応答判定部234は、応答判定モデルを用いずに、発話状況情報に含まれるキーワードや音声パターン等に基づく判断を行うことで、音声出力器13からの応答を行うか否かを判定してもよい。
【0044】
(変形例2)
上記実施形態において、応答生成部235は、発話区間に対応するテキストデータだけでなく、発話状況解析部233により生成された発話状況情報に基づいて、応答文を生成してもよい。この場合、応答生成部235は、応答文に対応する音声のトーンを表す情報を共に生成してもよい。
また、応答生成部235は、発話状況情報に応じたBGMを外部サーバから取得してもよい。例えば、応答判定モデルは、応答可否だけでなく、会話の雰囲気を判定して出力するように構成され、応答生成部235は、応答判定モデルにより判定された雰囲気に対応するBGMを外部サーバから取得してもよい。
【0045】
(変形例3)
発話状況解析部233は、本発明の撮像データ取得部として機能し、カメラ14により撮像された撮像データを取得してもよい。この場合、発話状況解析部233は、発話区間に撮像された撮像データに基づいて、ユーザの表情や振る舞いに関するユーザ態様情報を生成し、当該ユーザ態様情報を発話状況情報に含めてもよい。この変形例では、ユーザの発話状況をより正確に考慮して、音声出力器13からの応答を行うか否かを決定できる。
【0046】
(変形例4)
上記実施形態では、音声出力器13からの応答の有無を学習データとして応答判定モデルを生成する例を説明している。上記実施形態の変形例として、音声出力器13からの応答の有無だけでなく、音声出力器13からの応答内容を学習データに含めて、応答判定モデルを生成してもよい。この変形例では、応答有無および応答内容のそれぞれのユーザ反応に対する影響度を考慮に入れた応答判定モデルを構成することが好ましい。
【0047】
(変形例5)
上記実施形態では、応答判定モデルおよび学習データがユーザ毎に管理されているが、本発明はこれに限られない。例えば、属性が近いユーザ同士で学習データを共有してもよい。また、ユーザがサーバ装置20に新規登録される場合、ユーザの属性が近い他のユーザの応答判定モデルを初期データとして利用してもよい。
【0048】
(変形例6)
上記実施形態では、サーバ装置20が、上述の音声処理を行う構成を例示したが、ユーザ端末10が上述の音声処理を行ってもよい。すなわち 、本発明の音声処理プログラムをインストールされたユーザ端末10において、端末制御部16が、当該音声処理プログラムを読み出し実行することで、本発明の音声データ取得部、発話区間検出部、発話状況解析部および応答判定部として機能してもよい。
また、上記実施形態のサーバ装置20における処理の一部をユーザ端末10が行ってもよい。例えば、ユーザ端末10は、入力された音声データから発話区間を検出して音声認識処理を行い、発話区間に対応するテキストデータをサーバ装置20に送信してもよい。すなわち、本発明の音声処理装置は、通信可能な複数のコンピュータからなるシステムとして構成されてもよい。
【0049】
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
【符号の説明】
【0050】
1…音声処理システム、10…ユーザ端末、11…端末通信部、12…音声入力器、13…音声出力器、14…カメラ、15…端末記憶部、16…端末制御部、20…サーバ装置、21…通信部、22…記憶部、221…ユーザデータベース、222…学習データベース、223…モデルデータベース、23…制御部、231…発話区間検出部、232…音声認識部、233…発話状況解析部、234…応答判定部、235…応答生成部、236…音声変換部、237…学習部。