(58)【調査した分野】(Int.Cl.,DB名)
前記通信インタフェイスが前記話者認識機能をオフにする命令を受信すると、前記プロセッサは、当該話者認識機能をオフにしてもよいかどうかをユーザに問い合わせるための信号を前記通信インタフェイスを介して出力するように構成されている、請求項1〜6のいずれか1項に記載のサーバ装置。
【発明を実施するための形態】
【0009】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0010】
図1を参照して、本実施の形態に係るシステムの構成について説明する。
図1は、システムの概略の構成を表わすブロック図である。システムは、端末100とサーバ110とを備える。
【0011】
端末100は、音声認識機能を有する。端末100は、たとえば、掃除ロボット、テレビ、スマートフォン、冷蔵庫、電子レンジ、電気自動車、電動自転車、歩行補助車その他の対話型家電機器として実現される。端末100は、通信インターフェイス101と、音声入力部102と、音声出力部103とを備える。
【0012】
サーバ110は、音声認識機能を有する汎用コンピュータによって実現される。サーバ110は、通信インターフェイス111と、制御部112と、判断部113と、固定認識部114と、話者認識部115と、音声認識部116と、対話分析生成部117とを備える。なお、汎用コンピュータの構成は周知である。したがって、サーバ110のハードウェアの詳細な説明は繰り返さない。
【0013】
端末100において、通信インターフェイス101は、サーバ110の通信インターフェイス111と通信する。通信の態様は、無線通信および有線通信いずれでもよい。無線通信は、たとえば、WiFi(Wireless Fidelity)、LTE(Long Term Evolution)、NFC(Near Field Communication)、Bluetooth(登録商標)のように公知の無線通信技術により実現される。有線通信は、たとえば、LAN(Local Area Network)により実現される。
【0014】
音声入力部102は、端末100のユーザによる発話の入力を受け付けて、受け付けた音声信号を通信インターフェイス101を介してサーバ110に送信する。音声出力部103は、通信インターフェイス101を介してサーバ110から受信した音声データに基づき音声を出力する。
【0015】
サーバ110において、通信インターフェイス111は、端末100と通信し得る。サーバ110と端末100との通信は、たとえば、サーバ110が端末100に通信のリクエストを送信した場合に、または、サーバ110が端末100から当該リクエストを受信した場合に開始される。サーバ110または端末100において予め規定された条件が成立した場合に、または、サーバ110または端末100のユーザが当該通信を要求する指示をサーバ110または端末100に与えた場合に、当該リクエストは生成される。
【0016】
制御部112は、サーバ110の動作を制御する。制御部112は、CPU(Central Processing Unit)その他の処理装置によって実現される。
【0017】
判断部113は、通信インターフェイス111を介して受信した信号に基づいて、あるいは、サーバ110において保持されている設定の内容に基づいて、固定認識部114による認識および話者認識部115による認識のいずれを実行するかを判断する。固定認識部114による認識とは、話者に依存しない認識をいう。この場合、サーバ110に登録されているユーザ別の設定(たとえば、嗜好など)は、認識の内容または認識の結果に基づく応答に影響を及ぼさない。
【0018】
固定認識部114は、端末100またはサーバ110に与えられた音声が音声認識部116によって認識されると、当該認識の結果を生成する。認識の結果は、たとえば文字列によって表される。認識の結果は、サーバ110による問い合せに対する回答、サーバ110に対する命令等を含み得る。
【0019】
話者認識部115は、サーバ110への音声信号の入力を検知すると、サーバ110に保持されているデータに基づいて、音声の内容および当該音声を与えた話者を認識するための処理を実行する。当該データは、たとえば、声紋情報、当該声紋情報の識別情報、当該声紋が登録されたユーザの識別子および名前等を含む。当該データは、サーバ110の記憶装置に保持され、あるいは、他の情報通信装置からサーバ110に送られる。
【0020】
音声認識部116は、制御部112から送られるデータに基づき、サーバ110に与えられた音声を認識する処理を実行する。当該処理の手法は、特に限定されない。
【0021】
対話分析生成部117は、音声認識部116による認識の結果として制御部112から出力されるデータに基づき、端末100またはサーバ110のユーザによる発話の内容を分析し、または当該発話に対する応答を生成する。
【0022】
端末100およびサーバ110は、上記の各機能を実現するソフトウェアモジュールによって、もしくは、各機能を実現する回路素子その他のハードウェアモジュールによって、または、ソフトウェアモジュールとハードウェアモジュールとの組み合わせによって実現され得る。
【0023】
[構成]
(1) サーバ110は、メモリと、プロセッサと、通信インタフェイスを備える。メモリは、話者を認識するデータを格納する。通信インタフェイスは、第一の音声信号を受信する。通信インタフェイスが第一の音声信号を受信すると、プロセッサは、受信した第一の音声信号及び話者を認識するデータに基いて話者認識機能を実行し、第一の音声信号及び話者認識機能の実行結果に基づき第二の音声信号を作成し、第二の音声信号を通信インタフェイスを介して出力する。通信インタフェイスは、サーバ110に対する命令をさらに受信する。通信インタフェイスが話者認識機能をオフにする命令を受信すると、プロセッサは、話者認識機能をオフにするように構成されている。
【0024】
(2) プロセッサは、話者認識機能がオフにされたことを示す信号を通信インタフェイスを介してさらに出力するように構成されている。
【0025】
(3) 通信インタフェイスが話者認識機能をオフにする命令を受信すると、プロセッサは、当該話者認識機能をオフにしてもよいかどうかをユーザに問い合わせるための信号を通信インタフェイスを介して出力するように構成されている。
【0026】
(4) 通信インタフェイスが話者認識機能をオフにする命令を受信すると、プロセッサは、当該命令を与えた話者の名前を問い合わせ、通信インタフェイスは、話者の名前を受信する。プロセッサは、受信した話者の名前により特定される個人情報に基づき第二の音声信号を作成するように構成されている。
【0027】
(5) プロセッサは、登録された話者の名前を通信インタフェイスを介して出力するように構成されている。
【0028】
(6) プロセッサは、話者認識機能に使用される声紋情報に基づいて話者認識機能をオフにする命令を与えた話者を特定し、話者が特定された場合に、当該特定された話者の声紋情報により特定される当該話者の個人情報に基づき第二の音声信号を作成するように構成されている。
【0029】
(7) プロセッサは、特定された話者の個人情報を使用することを当該話者に確認する信号を通信インタフェイスを介して出力するように構成されている。
【0030】
(8) プロセッサは、一人分の声紋情報がサーバ110に保持されている場合に、サーバ110における現在の設定を音声認識処理に利用するか否かを確認する信号を通信インタフェイスを介して出力するように構成されている。
【0031】
(9) 他の局面に従うシステムは、サーバ110と、対話型家電機器とを備える。対話型家電機器は、音声の入力を受け付けるように構成された音声入力部と、入力された音声に基づく信号をサーバ110に送信するように構成された通信部とを備える。サーバ110は、上記の構成を備える。
【0032】
(10) 他の局面に従うシステムは、サーバ110と通信可能な情報処理端末をさらに備える。情報処理端末は、モニタと、メモリと、通信インタフェイスと、プロセッサとを備える。情報処理装置のプロセッサは、話者認識機能をオフにする命令を受け付けるための画面と、サーバ110による話者認識機能の使用者を管理する画面とをモニタに表示させるように構成されている。
【0033】
(11) 他の局面において、サーバ110による音声認識機能を管理するための方法は、話者を認識するデータにアクセスするステップと、第一の音声信号を受信するステップと、第一の音声信号の受信に基づいて、受信した第一の音声信号及び話者を認識するデータに基いて話者認識機能を実行するステップと、第一の音声信号及び話者認識機能の実行結果に基づき第二の音声信号を作成するステップと、第二の音声信号を通信インタフェイスを介して出力するステップと、サーバ110に対する命令をさらに受信するステップと、話者認識機能をオフにする命令の受信に基づいて、話者認識機能をオフにするステップとを含む。
【0034】
(12) 他の局面において、情報通信端末を制御するためのプログラムは情報通信端末に、話者認識機能を有するサーバ110との通信を確立するステップと、情報通信端末のモニタに、話者認識機能をオフにする命令を受け付けるための画面を表示するステップと、サーバ110による話者認識機能の使用者を管理する画面をモニタに表示するステップとを実行させる。
【0035】
[実施例1]
以下、本開示に係るシステムの実施例について説明する。
図2は、実施例1における、端末100とサーバ110との間の処理の一部を表すシーケンスチャートである。
【0036】
図2に示されるように、端末100とサーバ110とは、通信を確立する。たとえば、端末100のユーザによる操作に応答して、当該通信が確立される。
【0037】
ステップ210にて、端末100は、端末100のユーザによる発話に応答して、サーバ110に対して話者認識機能をオフにするための命令を送信する。この命令は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、当該命令を音声認識することによって得られた文字列または当該命令を与えた発話に基づく音声信号等を含み得る。当該発話は、たとえば、「話者認識機能をオフにして」といった命令を含む。なお、上記ユーザ識別子は個人ユーザの識別子でもいいし、家族等複数の個人からなるグループに対する識別子でもよい。
【0038】
サーバ110において、制御部112が、端末100によって送信された当該命令を受信すると、音声認識部116は、当該命令に含まれる音声を解析して話者を認識する。別の局面において、当該命令に含まれる音声が端末100において既に解析されている場合には、音声認識部116は、当該認識処理を実行しない。
【0039】
制御部112は、話者認識部115による話者認識機能をオフにする。たとえば、制御部112は、サーバ110における制御の設定を変更する。
【0040】
ステップ220にて、サーバ110は、端末100に対して、話者認識機能をオフにした旨の回答を送信する。
【0041】
この結果、下記のように処理が変更される。端末100は、端末100のユーザによる発話(例えば「交通情報教えて」)に応答して、サーバ110に対して音声信号を送信する。この音声信号は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、をさらに含み得る。サーバ110では、送信された音声信号を通信インターフェイス111が受信し、上記のシーケンスがなされる前は話者認識部115を利用して話者を認識し音声信号に対して話者に応じた返答信号(例えば、各個人の通勤・通学経路を鑑みた電車遅延情報を別サーバから取得して「電車の遅延はありません」と応答)を作成していたが、上記のシーケンスがなされた後は固定認識部114を利用して話者を認識し、音声信号に対して話者に応じた返答信号(例えば「電車の遅延はありません」)を作成するように変更される。作成された返答信号は通信インターフェイス111を介して端末100に送信される。
【0042】
[実施例2]
以下、実施例2について説明する。
図3は、サーバ110において話者認識機能がオフにされることを端末100に確認する場合の処理を表すシーケンスチャートである。
【0043】
図3に示されるように、ステップ210にて、端末100は、話者認識機能をオフにするための命令をサーバ110に送信する。
【0044】
ステップ310にて、サーバ110は、端末100に対して、たとえば「話者認識機能をオフにします。よろしいですか?」といった確認メッセージを送信する。
【0045】
ステップ320にて、端末100は、確認メッセージに対する応答が端末100のユーザによって入力されたことに基づいて、サーバ110に対し、ステップ310において受信した音声に対する回答(たとえば「OK」を表す信号)を送信する。なお、この端末100から送信される回答は、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、当該命令を音声認識することによって得られた文字列または当該命令を与えた発話に基づく音声信号等を含み得る。
【0046】
ステップ220にて、サーバ110は、端末100に対し話者認識機能をオフにした旨の応答を送信する。これにより、端末100のユーザは、話者認識機能をオフにしたことを確認できる。
【0047】
この結果、下記のように処理が変更される。端末100は、そのユーザによる発話に応答して、サーバ110に対して音声信号を送信する。この音声信号は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、をさらに含み得る。サーバ110では、通信インターフェイス111が端末100によって送信された音声信号を受信し、上記の一連の処理が実行される前は話者認識部115を利用して話者を認識し音声信号に対して話者に応じた返答信号を作成する。一方、上記の一連の処理が実行された後は、サーバ110は、固定認識部114を利用して話者を認識し、音声信号に対して話者に応じた返答信号を作成するように変更される。作成された返答信号は通信インターフェイス111を介して端末100に送信される。
【0048】
[実施例3]
以下、実施例3について説明する。
図4は、話者認識機能をオフにしたのちに話者を登録する場合の処理を表す図である。
図4に示されるように、ステップ210にて、端末100は、サーバ110に対し、話者認識機能をオフにする旨の命令を送信する。ステップ220にて、サーバ110は、端末100に対し、話者認識機能をオフにした旨の回答を送信する。
【0049】
ステップ410にて、サーバ110は、話者認識機能がオフにされたこと、または、話者認識機能がオフにされた状態で発話が行われたことを検知する。そこで、サーバ110は、端末100に対し、話者を問い合わせるメッセージ(たとえば「名前を教えて下さい。」)を送信する。端末100は、そのメッセージを受信すると、そのメッセージに基づく音声を出力する。端末100のユーザは、その音声を認識すると、メッセージに対する回答を端末100に発する。
【0050】
ステップ420にて、端末100は、ユーザからの発話(たとえば「権兵衛です。」)を受け付けて、その発話に応じた信号をサーバ110に送信する。なお、この発話に応じた信号は、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、当該命令を音声認識することによって得られた文字列または当該命令を与えた発話に基づく音声信号等を含み得る。サーバ110は、端末100から音声信号を受信したことを検知すると、音声認識処理を行ない、端末100のユーザが「権兵衛」であることを認識する。サーバ110は、音声合成を行ない、「権兵衛」に対する挨拶のメッセージを生成する。
【0051】
ステップ430にて、サーバ110は、端末100に対し、当該挨拶(たとえば「権兵衛さん、よろしくお願い致します。」)を送信する。端末100は、サーバ110から挨拶を受信すると、当該挨拶を音声で出力する。
【0052】
この結果、下記のように処理が変更される。端末100は、そのユーザによる発話に応答して、サーバ110に対して音声信号を送信する。この音声信号は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、をさらに含み得る。サーバ110では、通信インターフェイス111が送信された音声信号を受信し、上記のシーケンスがなされる前は話者認識部115を利用して話者を認識し音声信号に対して話者に応じた返答信号を作成していたが、上記のシーケンスがなされた後は固定認識部114を利用して話者を認識し、音声信号に対して話者に応じた返答信号を作成するように変更される。作成された返答信号は通信インターフェイス111を介して端末100に送信される。
【0053】
[実施例4]
図5を参照して、実施例4に係るサーバ110の制御構造について説明する。
図5は、サーバ110が備えるCPU(図示しない)が実行する処理の一部を表わすフローチャートである。本実施の形態において、サーバ110は、話者認識された情報として、当該話者を識別するためのユーザデータと、当該ユーザデータに関連付けられた声紋情報とをメモリに保持している。サーバ110と端末100とは、通信可能の状態である。端末100は、ユーザから話者認識機能をオフにする旨の命令を音声で受け付けると、その命令をサーバ110に送信する。
【0054】
ステップ510にて、サーバ110のCPUは、話者認識機能をオフにする命令を端末100から受信する。なお、この命令は、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、当該命令を音声認識することによって得られた文字列または当該命令を与えた発話に基づく音声信号等を含み得る。CPUは、当該命令を与えた音声信号を解析し、音声から声紋情報を抽出する。
【0055】
ステップ520にて、CPUは、ステップ510において受信した音声命令の声紋情報とサーバ110において現在所有される声紋情報とが一致するか否かを判断する。なお、上記現在所有する声紋情報は端末識別子またはユーザ識別子毎に管理されていてもよい。CPUは、これらの声紋情報が一致すると判断すると(ステップ520にてYES)、制御をステップ530に切り換える。そうでない場合には(ステップ520にてNO)、CPUは、制御をステップ560に切り換える。
【0056】
ステップ530にて、CPUは、一致したユーザの情報を使ってよいかユーザに尋ねる。より具体的には、CPUは、ユーザに尋ねるための音声信号を生成し、生成された音声信号を端末100に送信する。端末100は、音声信号をサーバ110から受信すると、その信号に基づく音声を出力する。端末100のユーザは、出力された音声に対して発声することにより、問い合わせに対する回答を端末100に入力する。その回答は、端末100からサーバ110に送られる。なお、この回答は、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、当該命令を音声認識することによって得られた文字列または当該命令を与えた発話に基づく音声信号等を含み得る。サーバ110において、CPUは、予め定められた時間内に当該問合せに対する回答を端末100から受信したか否かを確認する。CPUは、当該予め定められた時間内に、ユーザの情報を使ってよい旨の回答を当該ユーザから受信したと判断すると(ステップ530にてYES)、制御をステップ540に切り換える。そうでない場合には(ステップ530にてNO)、CPUは、制御をステップ560に切り換える。
【0057】
ステップ540にて、CPUは、その人のデータをそのまま利用した固定認識とする。サーバ110は、既に保持されている声紋情報に基づいて音声認識処理を実行する。したがって、サーバ110に登録されているユーザによる発話として、以降の発話も認識され得る。
【0058】
ステップ550にて、CPUは、その人のデータをそのまま利用した固定認識として話者認識機能をオフとしたことを出力する。具体的には、サーバ110は端末100に対しその旨を表わす信号を送信する。端末100は、そのような信号を受信すると、音声出力部103を介してその旨を発話する。端末100のユーザは、既に登録されている自身の声紋情報に基づく音声認識が継続されるということを認識できる。
【0059】
ステップ560にて、CPUは、端末100のユーザに対して名前を聞く。具体的にはCPUは、名前を問い合わせるためのメッセージを生成する。CPUは、端末100に対して、当該メッセージに基づく信号を送信する。端末100は、その信号を受信すると、音声出力部103を介して名前を問い合わせるメッセージを出力する。端末100のユーザがそのメッセージを認識して名前を発話すると、端末100は、その発話された音声を音声入力部102において受け付けて、その音声に応じた信号をサーバ110に送信する。
【0060】
ステップ570にて、CPUは、受信したユーザの名前で固定認識とする。具体的には、サーバ110において、固定認識部114は、新しいユーザプロファイルデータを新たに作成する。ユーザプロファイルデータは、たとえば、ユーザを識別するコード、ユーザの名前、発話から抽出された声紋情報等を含み得る。
【0061】
ステップ580にて、CPUは、ユーザ名とともに固定認識とした話者認識機能をオフにしたことを出力する。具体的には、サーバ110は端末100に対してその旨を表わす信号を送信する。端末100は、その信号を受信すると、音声出力部103を介してメッセージで出力する。
【0062】
この結果、下記のように処理が変更される。端末100は、そのユーザによる発話に応答して、サーバ110に対して音声信号を送信する。この音声信号は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、をさらに含み得る。サーバ110では、通信インターフェイス111が、端末100によって送信された音声信号を受信し、上記の一連の処理がなされる前は話者認識部115を利用して話者を認識し音声信号に対して話者に応じた返答信号を作成する。他方、上記の一連の処理がなされた後は、サーバ110は、固定認識部114を利用して話者を認識し、音声信号に対して話者に応じた返答信号を作成するように変更される。作成された返答信号は、通信インターフェイス111を介して端末100に送信される。
【0063】
[実施例5]
図6を参照して、実施例5について説明する。
図6は、実施例5に係るサーバ110の処理の手順を表すフローチャートである。端末100とサーバ110とは、通信可能な状態にある。ある局面において、端末100のユーザは、話者認識機能をオフにするべき旨を端末100に向かって発話する。端末100は、その発話に応じた音声信号をサーバ110に送信する。
【0064】
ステップ610にて、サーバ110のCPUは、話者認識機能をオフにする命令を端末100から受信する。
【0065】
ステップ620にて、CPUは、現在の持っている声紋情報が1人分であるか否かを判断する。この判断は、サーバ110の記憶装置(たとえばハードディスク)に格納されているデータに基づいて行なわれる。CPUは、現在持っている声紋情報が1人分であることを確認すると(ステップ620にてYES)、制御をステップ630に切り換える。そうでない場合には(ステップ620にてNO)、CPUは、制御をステップ660に切り換える。
【0066】
ステップ630にて、CPUは、有している声紋情報がその人であるかどうかを当該端末100のユーザに問い合わせる。より具体的には、サーバ110は、その問い合わせのための信号を生成し、当該信号を端末100に送信する。端末100は、その信号を受信すると、その問い合わせのメッセージを音声出力部103を介して出力する。
【0067】
ステップ640にて、CPUは、予め定められた時間内に、問い合わせに対するYESの回答を受信したか否かを判断する。CPUは、YESの回答を受信したと判断すると(ステップ640にてYES)、制御をステップ650に切り換える。そうでない場合には(ステップ640にてNO)、CPUは、制御をステップ660に切り換える。
【0068】
ステップ650にて、CPUは、その人のデータをそのまま利用した固定認識を行なわうことを決定する。その結果、固定認識部114が機能し得る。
【0069】
ステップ655にて、CPUは、話者認識機能をオフにした旨を端末100に対して出力する。端末100は、その旨を音声出力部103を介してメッセージとして出力する。
【0070】
ステップ660にて、CPUは、受信した話者認識機能をオフにする命令の声紋情報と現在所有する声紋情報とが一致するか否かを判断する。CPUは、これらの声紋情報が一致すると判断すると(ステップ660にてYES)、制御をステップ665に切り換える。そうでない場合には(ステップ660にてNO)、CPUは、制御をステップ680に切り換える。
【0071】
ステップ665にて、CPUは、その人のデータをそのまま利用した固定認識とすることを決定する。
【0072】
ステップ670にて、CPUは、その人のデータをそのまま利用した固定認識として話者認識機能をオフとしたことを端末100に出力する。端末100は、その旨を信号を受信すると、当該信号に基づいて音声を合成して、音声出力部103を介して当該音声を出力する。
【0073】
ステップ680にて、CPUは、端末100のユーザに名前を問い合わせる。
ステップ685にて、CPUは、端末100から受信したユーザ名で固定認識を行なうことを決定する。より具体的には、CPUは、受信したユーザ名に関連付けられる声紋情報を新たに作成する。
【0074】
ステップ690にて、サーバ110のCPUは、ユーザ名とともに固定認識とした話者認識をオフにしたことを示す信号を端末100に送信する。
【0075】
この結果、下記のように処理が変更される。端末100は、そのユーザによる発話に応答して、サーバ110に対して音声信号を送信する。この音声信号は、たとえば、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末100のIPアドレス、端末識別子またはユーザ識別子、をさらに含み得る。サーバ110では、通信インターフェイス111が、端末100によって送信された音声信号を受信し、上記の一連の処理が実行される前は話者認識部115を利用して話者を認識し音声信号に対して話者に応じた返答信号を作成する。一方、上記の一連の処理が実行された後は、サーバ110は、固定認識部114を利用して話者を認識し、音声信号に対して話者に応じた返答信号を作成するように変更される。作成された返答信号は、通信インターフェイス111を介して端末100に送信される。
【0076】
[使用態様]
図7を参照して、本実施の形態に係る端末100およびサーバ110の使用態様について説明する。
図7は、端末100およびサーバ110がネットワーク700に接続可能な状態であることを表わす図である。
【0077】
ある局面において、端末100は、たとえば、お掃除ロボット710、PC720のように、音声認識機能と通信機能とを備える機器として実現され得る。お掃除ロボット710とPC720とは、それぞれインターネットその他のネットワーク700に接続可能である。接続のタイミングは、特に限定されない。なお、本図では、端末100は1セットのみ示されているが、サーバに接続可能な機器は一つの端末に限られない。実際の局面では、ひとつサーバに対して、複数の端末が接続され得る。
【0078】
サーバ110も、端末100が接続しているネットワークに接続可能である。サーバ110によるネットワークへの接続は、端末100による当該ネットワークへの接続に依存しない。
【0079】
[画面の表示態様]
図8を参照して、画面の表示態様について説明する。
図8は、端末100またはサーバ110が備えるモニタ900における画面の変化を表わす図である。
【0080】
(状態A)
状態Aとして示されるように、ある局面において、モニタ900は、声紋機能をオフにするかどうかを問い合わせる画面を表示している。この画面は、たとえば、端末100が、通信が確立されたサーバ110のIP(Internet Protocol)アドレス、端末710のIPアドレス、端末識別子またはユーザ識別子を含んだ情報をサーバ110に送信することにより、サーバ110が作成する。ユーザが「OK」を入力すると、サーバ110における設定に応じて、モニタ900の画面は、変わり得る。たとえば、名前の入力を促す設定が初期値としてサーバ110にて設定されている場合には、画面は状態(B)に切り換わる(ステップ801)。登録されている名前が一覧表示される設定が有効である場合、画面は状態(C)に切り換わる(ステップ802)。一人のユーザのみが登録されている場合、画面は状態(D)に切り換わる(ステップ803)。登録されているユーザの設定を引き継ぐ場合においてユーザに確認することが有効であるとき、画面は状態(E)に切り換わる。
【0081】
(状態B)
状態Bとして示されるように、モニタ900は、ユーザの名前の入力を促す画面を表示し得る。ユーザは、操作によりあるいは発話により、名前を入力する。画面は、状態(B)以降の遷移について規定する設定に応じて切り換わる。たとえば、入力された名前についてユーザに確認することなく処理を続ける設定が有効である場合、画面は状態(D)に切り換わる(ステップ809)。ユーザに確認することが規定されている場合には、画面は状態(E)に切り換わる(ステップ808)。
【0082】
(状態C)
状態Cとして示されるように、モニタ900は、ユーザの名前を選択するための画面を表示し得る。たとえば、モニタ900は、話者認識が既に行われたユーザとしてサーバ110に登録されている一人以上のユーザを一覧形式で表示する。ユーザは、一覧の中から自身の名前を選択する。ユーザが「OK」ボタンを押下すると、画面は、サーバ110における設定に応じて切り換わる。
【0083】
たとえば、選択された名前を確認する設定が有効である場合には、画面は状態(D)に切り換わる(ステップ806)。既に登録されている名前に関連付けられた設定を継続することについて問い合わせることが有効である場合には、画面は状態(E)に切り換わる(ステップ807)。ユーザが「その他」を選択して「OK」ボタンを押した場合には、画面は状態(B)に切り換わる(ステップ805)。
【0084】
(状態D)
状態Dとして示されるように、モニタ900は、入力されたユーザの名前または選択されたユーザの名前を確認するための画面を表示し得る。ユーザが「OK」を入力すると、サーバ110における設定に応じて画面は切り換わる。たとえば、今までの設定を引き継ぐことが有効である場合、画面は状態(E)に切り換わる(ステップ810)。そのような設定が特に規定されていない場合、サーバ110は、「OK」の入力に応答して、その他の設定に応じた処理を継続する。
【0085】
(状態E)
状態Eとして示されるように、モニタ900は、確定された入力を確認するためのメッセージを表示し得る。たとえば、メッセージは、入力されたユーザについて既に設定されている内容を引き継いでもよいかどうかを確認するためのメッセージを含み得る。ユーザが「OK」を入力すると、サーバ110は、その設定に応じた処理を継続する。キャンセルが押されると、サーバ110は、これまでの処理を破棄して、予め設定された待機状態に戻る。
【0086】
図9を参照して、別の局面におけるモニタ900の画面の遷移について説明する。
図9は、複数の機器について機能のオン/オフの設定を変更するための画面を表す図である。
【0087】
(状態A)
状態Aとして示されるように、モニタ900は画面910を表示し得る。画面910は、あるユーザの住居において使用される1つ以上の設定を含む。1つ以上の設定は、それぞれ、ある機器の設定に相当する。ユーザが、画面910からいずれかの設定を選択すると、画面は切り換わる。たとえば、ユーザが「話者認識機能設定」を選択すると、画面は状態(B)に切り換わる(ステップ920)。
【0088】
(状態B)
状態Bとして示されるように、別の局面において、モニタ900は、画面930を表示し得る。画面930は、話者認識機能設定のための入力を受け付ける。たとえば、画面930は、特定のユーザが使用できる複数の機器のいずれかの選択を受け付ける。モニタ900は、サーバ110における設定に応じて画面を切り換える。たとえば、選択された機器について話者認識機能をオフにすることを確認することが規定されている場合には、モニタ900は状態(C)に切り換わる(ステップ940)。そのような確認を行なうことが規定されていない場合には、モニタ900は状態(D)に切り換わる(ステップ945)。
【0089】
(状態C)
状態Cとして示されるように、モニタ900は、画面930に加えて、画面950を表示し得る。画面950は、たとえば選択された機器の話者認識機能をオフにしてもよいかどうかを問い合わせるための画面である。端末100のモニタ900が画面950を表示すると、ユーザは、自らが選択した機器Aについて話者認識機能がオフになることを確認することができる。ユーザが画面950に表示された「オン」を押すと、モニタ900は状態(D)に切り換わる(ステップ960)。
【0090】
(状態D)
状態Dとして示されるように、モニタ900は、画面930に加えて、画面970を表示し得る。画面970は、選択された機器の話者認識機能をオフにした旨を通知するためのメッセージを表示する。ユーザは、このメッセージを確認すると、自らが選択した機器Aの話者認識機能がオフにされたことを認識し得る。
【0091】
図10を参照して、さらに別の局面について説明する。
図10は、機器とユーザとが関連付けられている場合における画面の推移を表す図である。
【0092】
(状態A)
状態Aとして示されるように、モニタ900は、画面930に加えて画面950を表示している。ユーザが画面950に表示された「OK」を押すと、モニタ900は状態(B)に切り換わる(ステップ1010)。
【0093】
(状態B)
状態Bとして示されるように、モニタ900は、画面930に加えて、画面1020を表示し得る。画面1020は、選択された機器を利用するユーザの名前の入力を促す画面である。たとえば、ユーザは、キー操作、タッチ操作あるいは音声入力を用いて、「早川太郎」と入力する。入力後、ユーザが「OK」を押すと、画面は状態(C)に切り換わる(ステップ1025)。
【0094】
(状態C)
状態Cとして示されるように、モニタ900は、画面930に加えて画面1030を表示し得る。画面1030は、選択された機器の利用者として入力されたユーザ名を用いて、当該ユーザに対する挨拶のためのメッセージを表示する。ユーザはこのメッセージを視認すると、入力した内容を確認することができる。
【0095】
図11を参照して、さらに別の局面について説明する。
図11は、登録されているユーザを一覧で表示できる場合の画面を表す図である。
【0096】
(状態A)
状態Aとして示されるように、モニタ900は、画面930に加えて、画面950を表示し得る。複数のユーザが登録されている場合には、モニタ900は状態(B)に切り換わる(ステップ1110)。登録されているユーザが一人の場合には、モニタ900は状態(C)に切り換わる(ステップ1130)。
【0097】
(状態B)
状態Bとして示されるように、モニタ900は、画面930に加えて、画面1120を表示し得る。画面1120は、話者認識機能が設定された機器のユーザの選択を促す画面である。たとえば、画面1120は、ユーザの一覧を表示する。ユーザが名前を選択すると、モニタ900は、サーバ110における設定に応じて画面を切り換える。たとえば、話者認識機能をオフにしたうえで、これまでの設定を引き継ぐことについて確認することがサーバ110に規定されている場合には、モニタ900は、画面を状態(C)に切り換える(ステップ1140)。そのような規定がない場合には、モニタ900は、画面を状態(D)に切り換える(ステップ1145)。
【0098】
(状態C)
状態Cとして示されるように、モニタ900は、画面930に加えて、画面1150を表示する。画面1150は、たとえば選択された名前のユーザに対して、話者認識機能をオフにした場合には、これまでの設定を引き継いでもよいかどうかを問い合わせるためのメッセージを含む。ユーザが、画面1150において「OK」を選択すると、モニタ900は画面を状態(D)に切り換える(ステップ1160)。
【0099】
(状態D)
状態Dとして示されるように、モニタ900は、画面930に加えて、画面1170を表示する。画面1170は、選択されたユーザに対して挨拶を表示するためのメッセージを含む。ユーザは、そのようなメッセージを視認すると、選択された機器Aについて話者認識機能がオフにされ、通常の音声認識機能のみが実行されることを確認することができる。
【0100】
[実施の形態のまとめ]
以上のようにして、本実施の形態に係るシステムによると、話者認識機能は、ユーザの命令に応じてオフにされる。話者認識機能がオフにされても、通常の音声認識機能は有効である。したがって、音声認識機能を有する機器のユーザが一人の場合、話者認識機能を使用することなく音声認識機能を使用できるので、煩雑な処理あるいは話者認識のための操作が省略される。その結果、ユーザの好みに応じて、話者認識機能を使用するか否かを切り換えることができるので、当該システムの利便性が向上し得る。また、話者認識機能がオフにされた場合であっても、音声認識機能および当該ユーザに関連付けられた設定は利用可能に構成されるので、当該ユーザに応じた嗜好や話題に応じた機能を利用することができる。
【0101】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。