(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
(本開示の基礎となった知見)
特許文献1には、ネットワークに接続された複数の機器同士が情報を交換することで、ユーザからの音声コマンドに対して適切な機器が応答及び動作する音声認識システムが記載されている。
【0011】
ただし、特許文献1の音声認識システムでは誰が音声コマンドを発しても、一様に同様の応答及び動作がなされる。すなわち、制御対象の複数の機器を所有する家庭内の人物ではない第三者が発話をしても、家庭内の人物と同様に各機器を操作することができてしまう。また、例えば子供が音声コマンドによって火を扱う調理機器を操作したり、操作する必要の無い機器を操作したりすることも考えられる。
【0012】
また、特許文献1のような複数の機器と対話する音声認識システムにおいては、機器の制御に限らず、さらに音声コマンドによって物品を購入することが可能な音声認識システムを構築することが期待される。例えば、冷蔵庫と対話するシーンにおいては、庫内に在庫の無い食品をユーザが指定した際に、指定した食品を購入するか否かを問いかけ、ユーザが購入することを選択した場合に当該食品をネットワーク経由で発注することが考えられる。このような場合にも、誰の音声によっても音声認識システムが動作してしまうことは好ましくない。
【0013】
すなわち、特許文献1のような従来の音声認識システムでは、音声により誰でも全ての機器を操作することができ、機器を操作させたくない話者に対して、音声により機器を操作させないようにすることに関して考慮されていなかった。また、従来、音声認識によって安全に物品を購入することができる音声認識システムについて検討されていなかった。
【0014】
以上の課題を解決すべく、本開示の一局面に係る機器制御方法は、音声によって複数の機器を制御する機器制御方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器を特定する。
【0015】
この構成によれば、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器が特定されるので、機器を制御させたくない話者に関する話者情報が特定された場合、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができる。
【0016】
また、上記態様において、話者情報は、話者の年齢に関する情報を含むことが好ましい。
【0017】
この構成によれば、話者の年齢に応じて音声により機器を制御させないようにすることができる。例えば、子供又は高齢者の話者に対して音声により機器を制御させないようにすることができる。
【0018】
また、上記態様において、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第1のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第2のテーブルとをそれぞれ参照し、第1のテーブル及び第2のテーブルの両方に合致する候補機器を制御対象機器として特定することが好ましい。
【0019】
この構成によれば、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第1のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第2のテーブルとがそれぞれ参照され、第1のテーブル及び第2のテーブルの両方に合致する候補機器が制御対象機器として特定される。
【0020】
したがって、特定された話者情報に対応する候補機器と、取得された音声コマンドに対応する候補機器とのうち、一致する候補機器が制御対象機器として決定されるので、制御対象機器を容易に決定することができる。
【0021】
また、上記態様において、第1のテーブル及び第2のテーブルの両方に合致する候補機器がない場合、制御対象機器が無い旨を通知することが好ましい。
【0022】
この構成によれば、制御対象機器が無い旨が通知されるので、ユーザは、発話した音声コマンドに対して、制御される機器が無いことを知ることができる。
【0023】
また、上記態様において、話者情報と話者情報に対応する話者の機器の使用履歴とを関連付けて記憶する第3のテーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定することが好ましい。
【0024】
この構成によれば、複数の候補機器が存在する場合、使用履歴に基づいて、過去の同一時刻に使用された機器を制御対象機器として決定することができ、また、過去に最も頻繁に使用された機器を制御対象機器として決定することができる。
【0025】
また、上記態様において、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定することが好ましい。
【0026】
この構成によれば、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器が特定されるので、複数の候補機器が存在する場合、話者の位置から最も近くにある機器を制御対象機器として決定することができる。
【0027】
また、上記態様において、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように、機器に関する情報を表示する表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御することが好ましい。
【0028】
この構成によれば、音声によって制御可能な複数の機器に関する第1の情報の一覧が表示される。そして、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報が、制御を受け付けない機器に対応する第1の情報の近傍に表示される。
【0029】
したがって、ユーザは、音声によって制御可能な複数の機器を容易に確認することができるとともに、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に確認することができる。
【0030】
本開示の他の局面に係る表示制御方法は、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法であって、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御する。
【0031】
この構成によれば、音声によって制御可能な複数の機器に関する第1の情報の一覧が表示される。そして、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報が、制御を受け付けない機器に対応する第1の情報の近傍に表示される。
【0032】
したがって、ユーザは、音声によって制御可能な複数の機器を容易に確認することができるとともに、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に確認することができる。
【0033】
また、上記態様において、表示装置は、タッチパネル式ディスプレイであり、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されており、第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報を第1の情報の近傍に表示するように表示装置を制御し、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更することが好ましい。
【0034】
この構成によれば、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されている。第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報が第1の情報の近傍に表示される。そして、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定が変更される。
【0035】
したがって、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に設定することができる。
【0036】
本開示の他の局面に係る購入決済方法は、音声によって物品を購入する購入決済方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。
【0037】
この構成によれば、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルが参照され、特定された話者情報が購入決済可能な話者情報であるか否かが判断され、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理が行われる。
【0038】
したがって、商品の購入を決済させたくない話者に関する話者情報が特定された場合、商品の購入を決済させたくない話者に対して音声により商品の購入を決済させないようにすることができる。
【0039】
(音声認識システムの全体構成)
図1Aは、本実施の形態における音声認識システムの全体構成を示す図である。
図1Bは、機器メーカがデータセンタ運営会社に該当する例を示す図である。
図1Cは、機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。
【0040】
グループ100は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ100には、機器A、機器B及び機器Cを含む複数の機器101と、ホームゲートウェイ102と、収音装置103と、スピーカ104とが存在する。
【0041】
複数の機器101は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明機器、洗濯機又は冷蔵庫等)を含む。複数の機器101は、それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ102を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ10は、グループ100内の複数の機器101を使用する。インターネットと接続可能な機器は、ホームゲートウェイ102を介さず直接後述する制御装置111と接続してもよい。複数の機器101は、直接又はホームゲートウェイ102を介して、後述する制御装置111から制御コマンドを受信する。
【0042】
ホームゲートウェイ102は、複数の機器101のうちの一部又は全部の機器、収音装置103、又はスピーカ104と接続し、様々な情報を送受信する。ホームゲートウェイ102と各機器とは、ケーブル等を用いて有線にて接続してもよいし、Wi−Fi又はBluetooth(登録商標)等を用いて無線にて接続してもよい。また、ホームゲートウェイ102は、制御装置111と接続し、情報を送受信する。
【0043】
収音装置103は、グループ100の部屋内の音声を取得する。取得した音声は、ホームゲートウェイ102を介して制御装置111に出力される。または、取得した音声は、収音装置103から制御装置111に直接出力される。収音装置103は、一般的なマイクで構成され、収音装置103の設置場所に関しては特に限定しない。収音装置103は、部屋の音声を取得し易い天井又は照明器具等に設置することが好ましい。また、収音装置103は、ユーザ10のいる方向に指向性を向ける機能を備えてもよい。
【0044】
また、収音装置103は、部屋内に固定されている必要はなく、スマートフォンなどの移動可能な携帯端末に設けられていてもよい。
【0045】
スピーカ104は、ホームゲートウェイ102を介して制御装置111から制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。または、スピーカ104は、制御装置111から直接制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。
【0046】
なお、ホームゲートウェイ102及びスピーカ104は、音声認識システムの必須の構成ではない。
【0047】
データセンタ運営会社110は、制御装置111を備える。制御装置111は、インターネットを介して様々な機器と連携する仮想化サーバである。制御装置111は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社110は、データの管理、制御装置111の管理、及びそれらを行うデータセンタの運営等を行っている。
【0048】
ここで、データセンタ運営会社110は、データの管理又は制御装置111の運営等のみを行っている会社に限らない。例えば、
図1Bに示すように、複数の機器101のうちの一つの機器を開発及び製造している機器メーカが、データの管理又は制御装置111の管理等を行っている場合は、機器メーカがデータセンタ運営会社110に該当する。また、データセンタ運営会社110は一つの会社に限らない。例えば、
図1Cに示すように、機器メーカ及び他の管理会社が共同又は分担してデータの管理又は制御装置111の運営を行っている場合は、両者又はいずれか一方がデータセンタ運営会社110に該当する。
【0049】
制御装置111は、インターネットを介してホームゲートウェイ102と接続し、ホームゲートウェイ102に接続された複数の機器101、収音装置103又はスピーカ104などと様々な情報を送受信する。または、制御装置111は、インターネットを介して複数の機器101、収音装置103又はスピーカ104などと直接接続し、様々な情報を送受信する。また、制御装置111は、後述するサーバ121と接続し、情報を送受信する。
【0050】
サービスプロバイダ120は、ユーザ10にサービスを提供するためのサーバ121を備える。ここで言うサーバ121とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ120がサーバ121を備えていない場合もある。サービスプロバイダ120とデータセンタ運営会社110とが同一の会社であってもよい。サーバ121は、制御装置111から情報を受信し、ユーザへ提供するサービスに関する制御及び処理を行う。サービスは、グループ100内のユーザ10に提供されてもよいし、グループ100外のユーザ20に提供されてもよい。
【0051】
なお、
図1Aでは、制御装置111は、グループ100の宅外に配置されているが、本開示は特にこれに限定されず、
図2に示すように、制御装置111は、グループ100の宅内に配置されてもよい。
【0052】
図2は、本実施の形態の変形例における音声認識システムの全体構成を示す図である。
【0053】
図2に示すように、制御装置111は、グループ100内に存在してもよい。
【0054】
以上が音声認識システムの全体構成の説明である。以下、各実施の形態を説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、本開示の一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素は、任意の構成要素として説明される。また、全ての実施の形態において、各々の実施の形態の内容を組み合わせることもできる。
【0055】
(実施の形態1)
(各機器の構成)
図3は、本開示の実施の形態1における機器の構成を示す図である。
図4は、本開示の実施の形態1における制御装置の構成を示す図である。
図5は、本開示の実施の形態1におけるデータベースの構成を示す図である。
【0056】
まず、
図3を用いて、
図1Aにおける複数の機器101(機器A、機器B、機器C、・・・)の構成を説明する。ここで、複数の機器101は、家庭内のあらゆる機器を含む。機器101aは、複数の機器101のうちの1つの機器である。機器101aは、例えば、テレビ、BD(Blu−ray(登録商標) Disc)レコーダ、エアコン、冷蔵庫、洗濯機、電子レンジ、及び各種調理器(ガスコンロ及びIHクッキングヒータ)等の種々の機器を含み、特に限定しない。機器101aは、家電機器に限らず、住設機器、住環境を測定及び検知するセンサ、及び電動車両なども含めた、家庭内で使用される電化製品であってもよい。
【0057】
機器101aは、例えば、通信部201、制御処理部202、メモリ203、マイク204、スピーカ205及び表示部206を備える。ただし、機器101aは、上記したように様々な機器を含むので、機器101aの構成はこれに限定されない。機器101aは、例えば、メモリ203、マイク204、スピーカ205及び表示部206のいずれか又はすべてを備えていなくてもよい。また、機器101aは、図示していない他の構成を含んでいてもよい。
【0058】
通信部201は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部201は、各種通信用IC(Integrated Circuit)などのハードウェアで構成される。
【0059】
制御処理部202は、通信部201によって受信された様々なデータ(情報)を処理及び演算し、機器101内の各構成の動作を制御する。制御処理部202は、例えばCPU(Central Processing Unit)などのハードウェアで構成される。
【0060】
メモリ203は、通信部201によって受信されたデータ(情報)、制御処理部202によって演算されたデータ(情報)、又は制御用のプログラム等を格納する。メモリ203は、例えばROM(Read Only Memory)などのハードウェアで構成される。
【0061】
マイク204は、例えば人の音声コマンドを収音(取得)する。マイク204に関しては、一般的に機器に搭載されるものであれば特に限定しない。スピーカ205及び表示部206に関しても、一般的に機器に搭載されるものを用いればよく、説明を省略する。
【0062】
次に、
図4を用いて、制御装置111の構成を説明する。制御装置111は、通信部211、制御処理部212及びデータベース213を備える。ただし、制御装置111の構成はこれに限られない。制御装置111の一部の構成が欠けていてもよいし、他の構成を含んでいてもよい。
【0063】
通信部211は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部211は、各種通信用IC(Integrated Circuit)などのハードウェアで構成される。
【0064】
制御処理部212は、通信部211によって受信された様々なデータ(情報)を処理及び演算し、制御装置111内又は複数の機器101内の各構成の動作を制御する。制御処理部212は、例えばCPU(Central Processing Unit)などのハードウェアで構成される。
【0065】
データベース213は、様々なデータを蓄積している。データベース213は、例えば、機器101aのマイク204又は収音装置103にて取得した人の音声、又は機器101aの使用履歴等を含んでもよい。データベース213に蓄積されたデータは、制御処理部212によって話者の年齢又は性別を推定する処理に利用される。データベース213の詳細は後述する。また、データベース213は、
図5に示すように、グループ(家族、企業又は団体など)ごとに取得したデータを関連付けて蓄積していてもよい。すなわち、データベース213は、第1のグループのデータを格納するデータベースと、第2のグループのデータを格納するデータベースと、第3のグループのデータを格納するデータベースとを備えてもよい。
【0066】
(音声認識システムの機能構成)
図6は、本開示の実施の形態1における音声認識システムの機能構成を示す図である。音声認識システムは、
図6に示すように、音声取得部301、音声解析部302、話者特定部303、制御対象機器特定部304及び機器制御部305を備える。
【0067】
音声取得部301は、機器周辺で発した話者の音声を示す音声情報を取得する。音声取得部301は、収音装置103又は各機器に搭載されるマイク204によって実現される。
【0068】
音声解析部302は、音声取得部301によって取得された音声情報を解析して、音声コマンドを取得する。音声解析部302は、制御装置111の制御処理部212によって実現される。音声解析部302は、音声取得部301によって取得された音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得する。
【0069】
話者特定部303は、音声取得部301によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。ここでは、話者特定部303は、大まかな話者の年齢又は性別などを特定する。話者特定部303は、例えば、制御装置111の制御処理部212及びデータベース213によって実現される。制御処理部212は、データベース213に蓄積されている年齢又は性別ごとの音声に関するデータと、音声取得部301によって取得された音声情報とを比較することで、音声情報を発話した話者の年齢又は性別などを推定する。
【0070】
すなわち、話者情報は、話者の年齢に関する情報を含む。データベース213は、複数の年齢と、各年齢を特定することが可能な音声モデルとを対応付けて記憶している。なお、年齢は、10歳などの1つの年齢だけでなく、0〜10歳などの所定の年齢の範囲を含んでもよい。話者特定部303は、音声取得部301によって取得された音声情報に一致する音声モデルを特定し、特定した音声モデルに対応付けられている年齢を特定する。
【0071】
なお、話者情報として、年齢又は性別のような大まかな情報だけでなく、より詳細に話者を特定してもよい。例えば、データベース213は、各話者の詳細な年齢、性別、嗜好及び生活パターンなどに関する情報と、各話者の音声情報(音声モデル)とを関連付けて記憶してもよい。この場合、話者特定部303は、より詳細に話者を特定できる。
【0072】
制御対象機器特定部304は、話者特定部303によって特定された話者情報に基づいて、複数の機器101のうちの制御対象機器を特定する。制御対象機器特定部304は、例えば制御装置111の制御処理部212及びデータベース213によって実現される。ここで、本実施の形態では、制御対象機器特定部304は、話者情報に基づいて制御対象機器を特定しているが、制御対象機器特定部304は、話者特定部303によって特定された話者情報のみに基づいて制御対象機器を特定してもよいし、話者特定部303によって特定された話者情報以外の情報に基づいて制御対象機器を特定してもよい。話者情報以外の情報に基づいて制御対象機器を特定する処理についての詳細は後述する。
【0073】
機器制御部305は、音声解析部302によって解析された音声コマンドに基づいて、制御対象機器特定部304によって特定された制御対象機器を制御する。機器制御部305は、機器101aの制御処理部202によって実現される。
【0074】
(音声認識システムのフローチャート)
以下に、
図7を用いて、本音声認識システムにおける機器制御方法の処理の流れを説明する。
【0075】
図7は、本開示の実施の形態1における音声認識システムの動作を示すフローチャートである。
【0076】
まず、ステップS301において、音声取得部301は、話者の音声情報を取得する。
【0077】
次に、ステップS302において、音声解析部302は、音声取得部301によって取得された音声情報を解析し音声コマンドを取得する。
【0078】
次に、ステップS303において、話者特定部303は、音声取得部301によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。
【0079】
次に、ステップS304において、制御対象機器特定部304は、音声解析部302によって取得された音声コマンドと、話者特定部303によって特定された話者情報とに基づいて、複数の機器101のうちの制御対象機器を特定する。なお、ここでは、特定した話者情報のみから制御対象機器が特定されてもよい。
【0080】
次に、ステップS305において、機器制御部305は、制御対象機器特定部304によって特定された制御対象機器を制御する。
【0081】
(音声認識システムの動作例)
図8及び
図9を用いて、本実施の形態1における音声認識システムの動作の流れの一例を説明する。
図8は、本開示の実施の形態1における音声認識システムの第1の機器に対する動作を説明するためのシーケンス図である。
図9は、本開示の実施の形態1における音声認識システムの第2の機器に対する動作を説明するためのシーケンス図である。また、
図10は、本開示の実施の形態1における制御処理部及びデータベースの構成を示す図である。
【0082】
なお、以下で説明する音声認識システムにおいて、
図10に示すように、制御装置111の制御処理部212は、音声解析部302、話者特定部303及び制御対象機器特定部304を備える。また、
図10に示すように、制御装置111のデータベース213は、音声コマンドリスト600と、複数のテーブル(テーブル700、テーブル801及びテーブル802)とを備える。
【0083】
まず、ステップS501において、収音装置103は、音声情報を取得する。ここで、本音声認識システムにおいて、音声情報を取得するタイミングは限定されない。収音装置103は、常時音声情報を取得してもよいし、予め設定されたタイミング又は間隔で音声情報を取得してもよい。例えば、収音装置103は、設置された空間内の音声情報を常時取得しており、取得した音声情報内に人の声の周波数帯域を検出した際に、取得した音声情報を制御装置111へ出力してもよい。
【0084】
また、収音装置103は、取得した音声情報内に人の声の周波数帯域を検出した際に、特定の第1のワードを検出し、検出した特定の第1のワードに続く他の第2のワードを音声情報として取得してもよい。例えば、第1のワードが“音声認識”である場合に、話者は「音声認識、温度を上げる」といったように第1のワードの後に続けて第2のワードを発声する。これにより、取得した音声情報が、音声コマンドであるか否かの識別が可能となる。なお、音声情報であるか否かの識別に関しては収音装置103ではなく制御装置111が行ってもよい。
【0085】
ここで、収音装置103が取得した音声情報には、話者の発話した音声以外に、様々なノイズが含まれる。そのため、収音装置103は、音声情報に含まれるノイズを除去するノイズ除去部を備えてもよい。また、収音装置103がノイズ除去部を備えるのではなく、制御装置111がノイズ除去部を備えてもよい。
【0086】
なお、ステップS501の処理は、
図7におけるステップS301の処理に相当する。
【0087】
次に、ステップS502において、収音装置103は、取得した音声情報を制御装置111に出力する。ここで、音声情報の出力に際しては、例えば
図1Aに示すような音声認識システムの構成では、収音装置103と制御装置111とを有線で接続することで、収音装置103は音声情報を直接出力してもよい。また、収音装置103がネットワークに接続するための通信部を備えている場合は、収音装置103はネットワーク経由で音声情報を制御装置111に送信してもよい。また、収音装置103はホームゲートウェイ102を介して音声情報を制御装置111に送信してもよい。また、音声情報を制御装置111に出力するタイミングに関しても特に限定しない。例えば、収音装置103が常時音声情報を取得している場合、一定時間音声情報を記録し、取得した音声情報内に人の声の周波数帯域を検出した際にのみ、収音装置103は記録された音声情報を制御装置111に出力してもよい。
【0088】
次に、ステップS503において、制御装置111の制御処理部212の音声解析部302は、取得した音声情報を解析し、音声コマンドを取得する。音声解析の方法は既知の方法を用いればよい。音声解析の方法としては、例えば、取得した音声情報を解析し、予め登録されている音声コマンドリスト600のうちどの音声コマンドに近いかを解析し、音声コマンドを特定する方法等が考えられる。予め登録されている音声コマンドリストの内容としては、例えば、「オン」、「オフ」、「あげる」及び「さげる」などの機器に対する動作指示が考えられる。ここで、音声解析部302が音声情報を解析した結果、登録された音声コマンドリスト600に合致するワードが音声情報に存在しない場合は、次のステップS504の処理に進まなくてもよい。
【0089】
なお、ステップS503の処理は、
図7におけるステップS302の処理に相当する。
【0090】
次に、ステップS504において、制御装置111の制御処理部212の話者特定部303は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。
【0091】
ここでは、例えば、制御装置111の話者特定部303は、取得された音声情報と、データベース213のテーブル700に登録されている音声情報とを比較し、大まかな話者情報を推定する。
【0092】
図11は、データベース213に記録されている音声情報と、推定される年齢との関係を示すテーブル700の一例を示す図である。
図11に示すように、データベース213には、5段階に分けられた年齢範囲に対応する音声情報(音声モデル)が登録されている。ここで、音声モデルとは、各年齢に該当する不特定多数の話者の音声の特徴を用いて作成された識別用モデルを指す。音声モデルには、各年代の音声の話者性を示す特徴が含まれている。例えば、音声モデルAは、不特定多数の0〜10歳の人間の発話から特徴を抽出し、抽出した特徴を何らかの規範を用いて学習し、モデル化したものである。
【0093】
音声情報をモデル化する方法は特に限定しない。一般的に、男性、女性、子供及び大人など、性別又は年代が異なれば、声帯振動の基本周波数又は声道の特性が異なることが知られている。これらの違いに注目し、例えば、分類したい年代又は性別ごとの音声情報から抽出した基本周波数をモデル化してもよいし、声道特性の特徴量を抽出し、抽出した特徴料を機械学習等による統計的なアプローチでモデル化してもよい。また、本実施の形態では、年齢を5段階に分けてデータベース化されている例を示したが、これに限らない。少なくとも子供(例えば0〜10歳)と、それ以外の大人といったように2段階の年齢層に対応する音声情報がモデル化され、データベースとして格納されていればよい。
図11のテーブル700のように、音声情報(音声モデル)と年齢に関する情報とが関連付けられていてもよいし、音声情報(音声モデル)と性別又はその他の情報とが関連付けられていてもよい。
【0094】
なお、ステップ504の処理は、
図7におけるステップS303の処理に相当する。
【0095】
次に、ステップS505において、制御装置111の制御処理部212の制御対象機器特定部304は、制御対象機器を特定する。以下、制御対象機器を特定する方法の一例として、特定された話者情報(音声モデル)と、取得された音声コマンドとから制御対象機器を特定する方法を説明する。なお、制御対象機器を特定する方法としては、以下に説明する方法に限られず、例えば、特定した話者情報のみから制御対象機器を特定する方法、又は特定した話者情報とその他の情報とを組み合わせて制御対象機器を特定する方法が考えられる。
【0096】
図10に示すように、制御対象機器特定部304は、第1の制御対象機器限定部3041と第2の制御対象機器限定部3042とを含んでもよい。
【0097】
図12は、データベース213に記憶されている音声モデルと制御対象機器との関係を示すテーブル801の一例を示す図である。
【0098】
第1の制御対象機器限定部3041は、
図12に示すデータベース213のテーブル801を用いて、話者特定部303によって特定された話者情報(音声モデルA〜D)から制御対象機器を限定する。なお、
図12において、例えば、機器Aはテレビであり、機器Bはガスコンロであり、機器Cはエアコンであり、機器Dは子供用玩具である。テーブル801に示すように、話者特定部303によって話者の年齢が0〜10歳(音声モデルA)であると特定された場合、制御対象機器は、機器A(テレビ)及び機器D(子供用玩具)に限定される。また、話者特定部303によって話者の年齢が11〜20歳(音声モデルB)であると特定された場合、制御対象機器は、機器A、機器C及び機器Dに限定される。同様に、話者特定部303によって話者の年齢が21〜40歳(音声モデルC)であると特定された場合、制御対象機器は、機器A、機器B及び機器Cに限定される。他の年齢についても、
図12に示す通りに制御対象機器が限定される。
【0099】
なお、テーブル801は、音声モデルと制御対象機器とを関連付けているが、本開示は特にこれに限定されず、年齢と制御対象機器とを関連付けてもよい。
【0100】
図13は、データベース213に記録されている音声コマンドと制御対象機器との関係を示すテーブル802の一例を示す図である。
【0101】
第2の制御対象機器限定部3042は、
図13に示すデータベース213のテーブル802を用いて、音声解析部302によって取得された音声コマンドから制御対象機器を限定する。例えば、音声コマンドが「おん」又は「おふ」である場合、制御対象機器は、機器A(テレビ)、機器B(ガスコンロ)、機器C(エアコン)及び機器D(子供用玩具)に限定される。一方、例えば、音声コマンドが「あげる」又は「さげる」である場合、制御対象機器は、機器A(テレビ)、機器B(ガスコンロ)及び機器C(エアコン)に限定される。
【0102】
ここで、例えば、話者特定部303によって音声モデルAと分類され、音声解析部302によって「あげる」という音声コマンドが取得された場合、制御対象機器は、第1の制御対象機器限定部3041と第2の制御対象機器限定部3042との双方によって限定される複数の機器101のうちの機器A(テレビ)に特定される。
【0103】
このように、制御対象機器特定部304は、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶するテーブル801(第1のテーブル)と、音声コマンドと候補機器とを関連付けて記憶するテーブル802(第2のテーブル)とをそれぞれ参照し、テーブル801及びテーブル802の両方に合致する候補機器を制御対象機器として特定する。
【0104】
また、制御対象機器特定部304は、テーブル801(第1のテーブル)及びテーブル802(第2のテーブル)の両方に合致する候補機器がない場合、制御対象機器が無い旨を通知してもよい。
【0105】
なお、ステップS505の処理は、
図7におけるステップS304の処理に相当する。
【0106】
次に、ステップS506において、制御装置111の通信部211は、制御対象機器の通信部201に音声コマンドを送信する。上記のように、ステップS505において制御対象機器が機器Aに特定された場合、
図8に示すように、通信部211は、「あげる」という音声コマンドを機器Aであるテレビに送信する。
【0107】
一方、ステップS505において制御対象機器が機器Bに特定された場合、
図9に示すように、通信部211は、音声コマンドを機器Bの通信部201に送信する。
【0108】
次に、ステップS507において、制御対象機器の制御処理部202は、受信した音声コマンドに応じて動作を制御する。
【0109】
図14は、機器のメモリに記憶されている音声コマンドと制御内容とを関連付けたテーブル803の一例を示す図である。ここで、各機器は、
図14に示すようなテーブル803を保持している。例えば、機器Aに「あげる」という音声コマンドが入力された際には制御処理部202はスピーカ205を制御し、音量設定値を一定値上げる。
【0110】
以上、本実施の形態1の音声認識システムによれば、話者の年齢等の情報と、音声コマンドとから、話者の音声コマンドに対する制御対象機器を特定することができる。これにより、従来のように、制御対象機器を特定するための入力動作が不要となり、よりユーザの利便性を向上させることができる。また、音声によって誰でも全ての機器を操作できるという従来の音声認識システムの課題を解決することができる。例えば、子供がガスコンロなどの機器を音声にて操作することを防止することができる。
【0111】
なお、本実施の形態1では、制御装置111の制御処理部212が、音声解析部302、話者特定部303及び制御対象機器特定部304を含む例を説明したが、これに限られない。複数の機器101のいずれかの機器における制御処理部202が、音声解析部302、話者特定部303及び制御対象機器特定部304のいずれか又は全てを含んでいてもよい。また、サービスプロバイダが所有するサーバ121が、音声解析部302、話者特定部303及び制御対象機器特定部304のいずれか又は全てを含んでいてもよい。その場合は、データセンタ運営会社110は、取得した情報を蓄積してサービスプロバイダに送信する。または、データセンタ運営会社110が存在しない場合もある。
【0112】
なお、ステップS303において特定される話者情報は、音声による機器の制御を受け付けるか否かを判断するための最低限のおおまかな情報でよいが、予めグループごとの個人と音声モデルとが関連付けられたテーブルが登録されていれば、音声情報から詳細な話者を特定できる。例えば、話者が、家族の中でも父親及び母親のいずれであるか、姉及び妹のいずれであるか、といったように詳細に話者を特定することができる。これにより、グループに属する予め登録された話者以外の話者が音声コマンドを発話しても、機器を制御できないようにすることができる。したがって、外部の者からグループ(家など)内の機器が制御されることを防ぐことができる。
【0113】
また、予め設定されたグループごとのデータベースが蓄積されていれば、各話者に対する機器の使用頻度を集計できる。したがって、制御対象機器特定部304は、音声コマンドを発話した話者の使用頻度の高い機器を優先的に制御対象機器として特定してもよい。すなわち、データベース213は、話者情報と、話者情報に対応する話者の機器の使用履歴とを関連付けて記憶するテーブルを記憶してもよく、制御対象機器特定部304は、当該テーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定してもよい。これにより、ユーザが意図していない機器を制御してしまうことを防止することができる。なお、グループごとの個人と関連付けられたテーブルの詳細に関しては実施の形態2でも説明する。
【0114】
また、制御対象機器特定部304は、使用頻度の履歴とともに、機器を使用した時刻に関する情報を用いて制御対象機器を特定してもよい。これにより、話者が音声コマンドを発話した時刻に、その話者が使用している頻度の高い機器を制御対象機器として特定できる。したがって、制御対象機器を特定する精度をより向上させることができる。
【0115】
また、制御対象機器特定部304は、話者及び機器の位置情報をさらに利用することで、制御対象機器を特定してもよい。すなわち、制御対象機器特定部304は、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定してもよい。
【0116】
例えば、制御対象機器特定部304は、音声コマンドと話者情報とに基づいて複数の制御対象機器の候補が特定された後に、話者の位置と、特定された複数の制御対象機器の候補の位置との関係から、最も話者の位置に近い制御対象機器の候補を制御対象機器として特定してもよい。位置情報は、例えばGPS(Global Positioning System)等を利用してもよい。また、収音装置103によって取得される音声情報に基づいて、収音装置103と各機器との位置関係及び収音装置103と話者との位置関係を計測してもよい。複数の機器101にマイク204及びスピーカ205が備えられており、各機器が情報を交換することができれば、より詳細に各機器の位置関係及び話者の位置を特定することができる。
【0117】
また、ステップS305において、特定された制御対象機器を制御する際、制御処理部202は、特定された話者に応じて制御対象機器を制御してもよい。例えば、テーブル700の音声モデルA(0〜10歳)と特定された話者が、機器A(テレビ)を音声コマンドによって制御する場合は、機器Aの表示部206は、「テレビを見るときは1m以上離れましょう」という文字を表示したり、スピーカ205は、「テレビを見るときは1m以上離れましょう」という音声を出力したりしてもよい。また、音声モデルE(60〜80歳)と特定された話者が機器Cを音声コマンドによって制御する場合は、スピーカ205は、操作方法に関するより詳細な音声ガイドを出力してもよい。すなわち、話者の情報に応じてステップS305における機器の制御方法又は機器の制御結果を変更してもよい。
【0118】
また、
図12及び
図13に示すテーブルは、メーカ側が予めデフォルトを設定していてもよいし、ユーザによる編集を受け付けてもよい。この場合、ユーザが各テーブルを編集するためのUI(ユーザインタフェース)が構築されていることが好ましい。
【0119】
図15は、音声によって操作することが可能な機器を一覧で表示する表示画面の一例を示す図であり、
図16は、音声によって操作する話者を機器毎に設定する動作を説明するための図であり、
図17は、音声によって操作する話者を機器毎に設定した際に表示される表示画面の一例を示す図である。
【0120】
図15〜
図17では、ユーザが各テーブルを設定するためのUIを示している。例えば、
図15に示すように、スマートフォンの画面には、音声操作可能な機器の一覧が表示される。また、画面の下部には、特定のユーザの機器の利用を制限するためのアイコン501,502が表示される。アイコン501は、音声モデルAに対応する0〜10歳の話者による操作を制限するためのアイコンであり、アイコン502は、音声モデルDに対応する61〜80歳の話者による操作を制限するためのアイコンである。画面を表示する表示部はタッチパネル式ディスプレイ等で構成される。
図16に示すように、ユーザは、アイコン501,502を、対象の機器の上にドラックアンドドロップする。これにより、制御処理部212は、テーブル801において、アイコンに対応する音声モデルに関連付けられている制御対象機器を変更する。
【0121】
図17の例では、最終的に、機器B(ガスコンロ)は、音声モデルA(0〜10歳)の話者と音声モデルD(61〜80歳)の話者とが音声コマンドにより操作できない機器に設定されている。また、機器C(エアコン)は、音声モデルA(0〜10歳)の話者が音声コマンドにより操作できない機器に設定されている。
【0122】
このように、制御装置111の制御処理部212は、話者からの音声に基づいて制御される複数の機器101に関する情報を表示する表示装置(例えば、スマートフォン)を制御する。制御処理部212は、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように表示装置を制御する。また、制御処理部212は、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御する。
【0123】
また、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されている。制御処理部212は、表示装置の表示画面において第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報を第1の情報の近傍に表示するように表示装置を制御する。また、制御処理部212は、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更する。
【0124】
また、音声認識システムは、制御対象機器特定部304が制御対象機器を特定した理由を出力する出力部を備えてもよい。例えば、
図12及び
図13のようにテーブルが設定されている場合は、音声モデルEの話者が「きょう」という音声コマンドを発話した際には、自動的に制御対象機器は機器B(エアコン)に特定される。この際、制御装置111の通信部211は、スピーカ205から「あなたがその音声コマンドで制御できる機器は、エアコンのみなので、エアコンを制御します。」という音声を出力する制御コマンドを送信してもよい。これにより、話者はなぜ自動的に機器Bが制御されたのか把握することができるため、話者への不快感を低減できる。
【0125】
また、音声認識システムは、話者を特定した時点で制御対象機器を可視的に話者に伝える制御対象機器通知部を備えてもよい。例えば、収音装置103が設置されている部屋内に存在する話者が音声モデルAであると特定された際には、自動的に制御対象機器の候補が機器A及び機器Dに特定される。この際、制御装置111は、機器A及び機器Dに備えられた発光部(
図3には図示せず)を発光させるように制御してもよい。これにより、話者は音声コマンドによって制御できる機器を可視的に把握できる。
【0126】
また、制御装置111は、特定された話者が制御対象機器では無い機器を音声コマンドで制御しようとした際に、「その機器は制御対象外です」という音声ガイドをスピーカ104から出力するように制御してもよい。例えば、
図12及び
図13のテーブルが登録されている場合、音声モデルAと特定された話者が「きょう」と発話しても制御対象機器が存在しないことになる。したがって、音声コマンドに対応する制御対象機器が存在しない場合、制御装置111の通信部211は、スピーカ205から「その機器は制御対象外です」という音声ガイドを出力する旨の制御コマンドを送信してもよい。
【0127】
(実施の形態2)
(本実施の形態2の基礎となった知見)
本実施の形態2では、音声によって複数の機器を制御するだけではなく、音声によって各機器又は家と仮想的に対話して、物品を購入するシステムを想定している。例えば、ユーザがシステムに登録されたレシピ通りに調理しようとした際、不足している食材の購入をシステム側から促し、ユーザ側が音声にて不足している食材の購入を指示することができれば、ユーザにとってもサービスプロバイダにとっても利便性及び価値の高いシステムとなる。
【0128】
ただし、この際、例えば家に侵入した不審者でも、音声入力によって物品を購入することが可能となってしまう。また、幼い子供でも高価な商品を購入することが可能である。すなわち、誰でも物品を購入することができる。また、従来、音声認識システムによって購入決済を行う場合、ユーザ認証を行う方法については確立されていないので、サービスプロバイダは、音声によって物品を購入しようとしている話者が予め登録されているユーザであるか否かを特定できない。そのため、ユーザを認証し安全に物品を購入することができるシステムの構築が必要である。
【0129】
本実施の形態2では、上記の課題を解決する音声認識システムを提供する。
【0130】
なお、本実施の形態2では、実施の形態1と異なる構成を中心に説明する。なお、本実施の形態2は、実施の形態1における構成を併用することも可能である。音声認識システムの全体構成、機器101aの構成、及び制御装置の構成等に関しては、
図1A、
図1B、
図1C、
図2〜
図5と同様であるので、説明を省略する。
【0131】
(音声認識システムの機能構成)
図18は、本開示の実施の形態2における音声認識システムの機能構成を示す図である。音声認識システムは、
図18に示すように、音声取得部1001、音声解析部1002、話者特定部1003及び購入決済部1004を備える。
【0132】
音声取得部1001、音声解析部1002及び話者特定部1003の構成は、実施の形態1の音声取得部301、音声解析部302及び話者特定部303の構成と同様であるので説明を省略する。ただし、本実施の形態2において、話者特定部1003が特定する話者情報は詳細な話者情報である。詳細な話者情報に関しては後述する。
【0133】
購入決済部1004は、音声解析部1002によって取得された音声コマンドと、話者特定部1003によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済方法の詳細に関しては後述する。なお、購入決済部1004は、サービスプロバイダ120のサーバ121にて実現する。サーバ121の詳細な構成については後述する。
【0134】
なお、購入決済部1004は、データセンタ運営会社110の制御装置111にて実現してもよい。
【0135】
(音声認識システムのフローチャート)
以下に、
図19を用いて、本音声認識システムにおける購入決済方法の処理の流れを説明する。
【0136】
図19は、本開示の実施の形態2における音声認識システムの動作を示すフローチャートである。
【0137】
まず、ステップS1101において、音声取得部1001は、話者の音声情報を取得する。
【0138】
次に、ステップS1102において、音声解析部1002は、音声取得部1001によって取得された音声情報を解析し音声コマンドを取得する。また、音声解析部1002は、音声コマンドが購入決済に関する音声コマンドであるか否かを判断する。
【0139】
次に、ステップS1103において、話者特定部1003は、音声取得部1001によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。話者特定部1003は、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定する。
【0140】
次に、ステップS1104において、購入決済部1004は、音声解析部1002によって取得された音声コマンドと、話者特定部303によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済部1004は、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。
【0141】
(音声認識システムの動作例)
図20を用いて、本実施の形態2における音声認識システムの動作の流れの一例を説明する。
図20は、本開示の実施の形態2における音声認識システムの購入決済処理を説明するためのシーケンス図である。また、
図21は、本開示の実施の形態2における制御装置及びサーバの構成を示す図である。
【0142】
なお、以下で説明する音声認識システムにおいて、
図21に示すように、制御装置111の制御処理部212は、音声解析部1002及び話者特定部1003を備える。さらに、制御処理部212は、制御コマンド選択部1006及び本人認証部1008を備えてもよい。また、
図21に示すように、制御装置111のデータベース213は、第1の音声コマンドリスト1301、第2の音声コマンドリスト1302、グループ(家又は会社)ごとに関連付けられたテーブル(第1のテーブル1401及び第2のテーブル1402)を備える。
【0143】
また、サービスプロバイダのサーバ121は、通信部1210、制御処理部1220及び購入決済データベース1230を備える。また、制御処理部1220は、購入決済部1004を備える。また、制御処理部1220は、登録有無確認部1005を備えてもよい。購入決済データベース1230はテーブル1403を備える。
【0144】
まず、ステップS1201において、収音装置103は、音声情報を取得する。ここで、商品の購入を指示する音声コマンドが取得されたとする。例えば「牛乳を購入」という音声情報が収音装置103に入力される。なお、ステップS1201の処理は、
図19に示すステップS1101の処理に該当する。
【0145】
次に、ステップS1202において、収音装置103は、取得した音声情報を制御装置111に送信する。
【0146】
次に、ステップS1203において、制御装置111の制御処理部212の音声解析部1002は、取得した音声情報を解析し、音声コマンドを取得する。音声解析部1002は、実施の形態1と同様に、音声情報を解析する。ここで、音声解析部1002は、音声コマンドに購入決済を意図する言葉が含まれているか否かを確認する。また、音声解析部1002は、音声コマンドに購入対象の商品に関するワードが含まれているか否かを確認する。
【0147】
例えば、「牛乳を購入」という音声コマンドが入力された場合は、音声解析部1002は、“牛乳”というワードと“購入”というワードとをそれぞれ、購入を意味するワードを予め記憶する第1の音声コマンドリスト1301と比較する。この場合、“購入”というワードが第1の音声コマンドリスト1301中に存在するので、音声解析部1002は、購入決済の音声コマンドであることを情報として付け加える。また、音声解析部1002は、“牛乳”というワードを、購入可能な物品の名称を予め記憶する第2の音声コマンドリスト1302と比較する。“牛乳”というワードが第2の音声コマンドリスト1302中に存在する場合、音声解析部1002は、購入対象商品を牛乳に設定する。
【0148】
なお、ステップS1203の処理は、
図19に示すステップS1102の処理に該当する。
【0149】
次に、ステップS1204において、制御装置111の制御処理部212の話者特定部1003は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。データベース213は、各グループの構成員の詳細な情報が蓄積されたテーブル(第1のテーブル1401及び第2のテーブル1402)を含む。第1のテーブル1401は、第1のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。第2のテーブル1402は、第1のグループとは異なる第2のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。
【0150】
図22は、データベース213に記録されている音声情報と、推定される年齢と、推定される性別との関係を示す第1のテーブル1401の一例を示す図である。第1のテーブル1401では、音声情報と詳細な年齢と性別とが関連付けられている。ここで、音声情報は、実施の形態1で説明した通りである。話者特定部1003は、ステップS1201の処理で取得した音声情報と、第1のテーブル1401に登録されている音声情報とを比較することで話者情報を特定する。
【0151】
第1のテーブル1401の構築方法は特に限定しない。例えば、制御処理部212は、ユーザによるUI(ユーザインタフェース)を用いた初期設定を予め受け付けることで第1のテーブル1401を構築してもよい。また、制御処理部212は、収音装置103が音声情報を取得したいずれかのタイミングで、話者に年齢及び性別などの情報を入力させることで第1のテーブル1401を構築してもよい。また、後述する購入決済データベース1230に話者が情報を登録した際、又は購入決済データベース1230に話者が情報を登録した後、制御処理部212は、自動的に第1のテーブル1401に購入決済データベース1230の情報をコピーしてもよい。
【0152】
ステップS1204の処理は、
図19に示すステップS1103の処理に該当する。
【0153】
次に、ステップS1205において、制御装置111の通信部211は、ステップS1203にて解析された結果、購入決済の音声コマンドであると判断された場合、特定した話者情報をサーバ121の通信部1210に送信する。なお、音声コマンドが購入決済の音声コマンドであるか否かの判断はこの時点で行わなくてもよい。サーバ121の通信部1210は、制御装置111によって送信された話者情報を受信する。
【0154】
次に、ステップS1206において、サーバ121の制御処理部1220の登録有無確認部1005は、ステップS1204において特定された話者情報が購入決済データベース1230に登録されているか否かを確認する。購入決済データベース1230は、音声認識システムにおいて物品の購入が可能なユーザに関する情報を記憶するテーブル1403を含む。
【0155】
図23は、購入決済データベース1230に記憶されているユーザ番号と音声情報と年齢とクレジットカード情報との関係を示すテーブル1403の一例を示す図である。
【0156】
ここで、登録有無確認部1005は、ステップS1204において特定された話者の音声情報が、テーブル1403に存在する場合は、ユーザ登録の有無を“有”として記憶する。
【0157】
例えば、ステップS1204において、
図22の音声情報“001”と特定された話者は、テーブル1403には存在しないので、登録有無確認部1005は、ユーザ登録の有無を“無”として記憶し、ステップS1207の処理には進まず、処理を終了する。なお、登録有無確認部1005は、処理を終了せずに、「登録情報がありません」などの音声ガイドを出力する制御コマンドを作成しスピーカ104に送信してもよい。一方、例えばステップS1204において、
図22の音声情報“003”と特定された話者は、テーブル1403に存在するので、登録有無確認部1005は、ユーザ登録の有無を“有”として記憶し、ステップS1207の処理に進む。
【0158】
なお、ユーザ登録の有無の判断に際して、テーブル1401の音声情報とテーブル1403の音声情報との一致のみを判断するのではなく、その他の情報(例えば年齢又は性別等)の一致を併せて用いることで、認証の精度を向上させてもよい。
【0159】
次に、ステップS1207において、サーバ121の通信部1210は、ユーザ登録の有無を示す情報を制御装置111の通信部211に送信する。制御装置111の通信部211は、サーバ121によって送信されたユーザ登録の有無を示す情報を受信する。
【0160】
次に、ステップS1208において、制御装置111の制御処理部212の制御コマンド選択部1006は、スピーカ104を制御するための制御コマンドをステップS1203において解析した音声コマンドに基づいて選択する。例えば、音声コマンドのうち購入可能物品の音声コマンドリスト1302と合致した商品を示すワードが安価な商品(ここでは牛乳)であれば、制御コマンド選択部1006は、「購入決済を行います。牛乳を購入してよろしいでしょうか」という音声ガイドを出力する制御コマンドを選択(生成)する。また、音声コマンドリスト1302と合致した商品を示すワードが比較的高価な商品であれば、制御コマンド選択部1006は、「購入決済を行います。パスワードを発話して下さい」という音声ガイドを出力する制御コマンドを選択(生成)する。
【0161】
ここでは、制御コマンド選択部1006は、購入する商品が安価である否かによって、作成する音声ガイドを変更しているが、これに限られない。制御コマンド選択部1006は、購入する商品が安価である否かに関わらず、常に同じ音声ガイドを生成してもよい。また、購入する商品が安価である否かの判断は、購入する商品が所定の値段より安いか否かによって判断される。所定の値段は、ユーザによって設定されてもよい。
【0162】
次に、ステップS1209において、制御装置111の通信部211は、ステップS1208において選択した制御コマンドをスピーカ104に送信する。スピーカ104は、制御装置111によって送信された制御コマンドを受信する。
【0163】
次に、ステップS1210において、スピーカ104は、受信した制御コマンドに基づいて音声ガイドを出力する。音声ガイドについては、ステップS1208において説明した通りである。これにより、話者に再度発話を促すことができる。
【0164】
次に、ステップS1211において、収音装置103は、発話を促された話者の音声情報を再度取得する。
【0165】
次に、ステップS1212において、収音装置103は、取得した音声情報を制御装置111に送信する。
【0166】
次に、ステップS1213において、制御装置111の音声解析部1002は、再度音声を解析し、音声コマンドを取得する。
【0167】
次に、ステップS1214において、制御装置111の話者特定部1003は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。
【0168】
次に、ステップS1215において、制御処理部212の本人認証部1008は、ステップS1204において特定した話者情報と、ステップS1214において特定した話者情報とが一致するか否かを判断し、2つの話者情報が一致する場合は、本人認証ができたと判断する。
【0169】
なお、ステップS1215において、本人認証部1008は、ステップS1213において解析した音声コマンドが、商品の購入を肯定する内容であるか否かを判断してもよい。ここで、音声コマンドが商品の購入を肯定する内容であると判断された場合、本人認証部1008は、本人認証ができたと判断する。一方、音声コマンドが商品の購入を否定する内容(例えば、“いいえ”又は“購入しない”など)であると判断された場合、処理を終了してもよい。この場合、制御コマンド選択部1006は、「購入意思がないようなので、決済処理を終了します。」という音声ガイドを出力する制御コマンドを選択(生成)し、スピーカ104に送信してもよい。
【0170】
次に、ステップS1216において、制御装置111の通信部211は、ステップS1215において本人の認証ができたと判断された場合は、本人認証が成功したことを示す情報をサーバ121に送信する。ここで、本人の認証ができなかったと判断された場合は、制御コマンド選択部1006は、「本人の認証ができません」という音声ガイドを出力する制御コマンドを選択(生成)し、スピーカ104に送信してもよい。サーバ121の通信部1210は、制御装置111によって送信された本人認証が成功したことを示す情報を受信する。
【0171】
最後に、ステップS1217において、サーバ121の制御処理部1220の購入決済部1004は、音声によって指定された商品を購入する購入決済処理を行う。
図23のテーブル1403では、ユーザ番号と音声情報と年齢とクレジットカード情報とが関連付けられて管理されている。そのため、ステップS1217において、購入決済部1004は、対応する話者のクレジットカード情報を抽出し、通信部1210を介してカード会社等と通信することで購入決済処理を行うことが可能である。
【0172】
以上、本実施の形態2における音声認識システムでは、取得した音声情報から話者を特定し、サービスプロバイダのサーバに蓄積されている購入決済データベースを参照することで、話者がユーザ登録されているか否かを判断し、購入決済処理が行われる。これにより、煩わしい認証作業をユーザに強いることはない。また、誰が発話しても物品が購入できるという危険性を防ぐことができる。
【0173】
また、商品の購入を再度確認することで、本人認証が行われる。これにより、より安全性の高い購入決済処理が行える。
【0174】
なお、制御処理部212は、話者の現在位置を検出する位置検出部を備えてもよい。ステップS1201において音声情報を取得した後、位置検出部は、話者の位置を検出し、ステップS1215において位置検出部は、再度話者の位置を検出し、本人認証部1008は、検出された2つの話者の位置が変化していないことを確認することで、本人認証を行ってもよい。これにより、最初に音声情報が取得された話者とは異なる話者が購入決済の意思確認のタイミング(ステップS1211)で割り込んで発話したとしても、購入決済をキャンセルすることができる。
【0175】
上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれに限られるものでない。
【0176】
(サービスの類型1:自社データセンタ型クラウドサービス)
図24は、サービスの類型1(自社データセンタ型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ120がグループ100から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ120が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ120が、ビッグデータを管理するクラウドサーバ(制御装置111)を保有している。したがって、本類型では、データセンタ運営会社は存在しない。
【0177】
本類型では、サービスプロバイダ120は、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、オペレーティングシステム(OS)2020及びアプリケーション2010を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。
【0178】
(サービスの類型2:IaaS利用型クラウドサービス)
図25は、サービスの類型2(IaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
【0179】
本類型では、データセンタ運営会社110が、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、OS2020及びアプリケーション2010を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。
【0180】
(サービスの類型3:PaaS利用型クラウドサービス)
図26は、サービスの類型3(PaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
【0181】
本類型では、データセンタ運営会社110は、OS2020を管理し、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、アプリケーション2010を管理する。サービスプロバイダ120は、データセンタ運営会社110が管理するOS2020及びサービスプロバイダ120が管理するアプリケーション2010を用いてサービスを提供する(矢印2040)。
【0182】
(サービスの類型4:SaaS利用型クラウドサービス)
図27は、サービスの類型4(SaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
【0183】
本類型では、データセンタ運営会社110は、アプリケーション2010を管理し、OS2020を管理し、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、データセンタ運営会社110が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。
【0184】
以上、いずれのクラウドサービスの類型においても、サービスプロバイダ120がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。