(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-23
(45)【発行日】2024-09-02
(54)【発明の名称】音声認識デバイス及び音声認識デバイスの連携方法
(51)【国際特許分類】
G10L 15/32 20130101AFI20240826BHJP
G06T 7/00 20170101ALI20240826BHJP
G10L 15/28 20130101ALI20240826BHJP
G10L 17/00 20130101ALI20240826BHJP
G06F 3/16 20060101ALI20240826BHJP
H04L 67/2869 20220101ALI20240826BHJP
【FI】
G10L15/32 220Z
G06T7/00 660A
G10L15/28 230K
G10L17/00 200C
G06F3/16 650
G06F3/16 640
G06F3/16 690
G06F3/16 630
H04L67/2869
(21)【出願番号】P 2022183285
(22)【出願日】2022-11-16
(62)【分割の表示】P 2020512956の分割
【原出願日】2018-04-09
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000005810
【氏名又は名称】マクセル株式会社
(74)【代理人】
【識別番号】110000442
【氏名又は名称】弁理士法人武和国際特許事務所
(72)【発明者】
【氏名】橋本 康宣
(72)【発明者】
【氏名】荒井 郁也
(72)【発明者】
【氏名】高清水 聡
(72)【発明者】
【氏名】吉澤 和彦
(72)【発明者】
【氏名】清水 宏
(72)【発明者】
【氏名】鶴賀 貞雄
(72)【発明者】
【氏名】川前 治
【審査官】滝谷 亮一
(56)【参考文献】
【文献】特開2008-053989(JP,A)
【文献】特開2010-098598(JP,A)
【文献】特開2008-306620(JP,A)
【文献】特開2017-143476(JP,A)
【文献】特開2008-067310(JP,A)
【文献】特開2015-156586(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/32
G06T 7/00
G10L 15/28
G10L 17/00
G06F 3/16
H04L 67/2869
(57)【特許請求の範囲】
【請求項1】
音声認識デバイスであって、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信インタフェースと、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐づけた声認証データ、及び、前記会話が許可された人物と、当該人物の各音声認識デバイスからの応答回数とを関連付けた第1利用状況データを記憶する記憶部と、
制御部と、を備え、
前記通信インタフェースは、複数の他の音声認識デバイスと通信し、
前記制御部は、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し、
前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力し、
前記音声入力部から入力された音声に会話起動ホットワードがある場合、会話モードを実行し、
前記音声入力部は、
特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、
前記
他の音声認識デバイスの音声入力部から入力される音声データの声特徴データを抽出し、
前記記憶部に記憶された前記声認証データと一致するかどうかを検出し、
前記声認証データとの一致を検出した場合、
前記第1利用状況データにおいて応答回数が高い順に従って、前記複数の他の音声認識デバイスに対して前記会話モードを起動させる制御コマンドを送信し、
前記
特定の人物が応答しない場合、前記
特定の人物の通信機器に前記音声データを送信する、
ことを特徴とする音声認識デバイス。
【請求項2】
音声認識デバイスであって、
音声入力部と、
音声出力部と、
他の音声認識デバイスとの間でデータの送受信を行う通信インタフェースと、
前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐づけた声認証データを記憶する記憶部と、
人感センサ
ーと、
制御部と、を備え、
前記通信インタフェースは、複数の他の音声認識デバイスと通信し、
前記制御部は、
前記他の音声認識デバイスに対して前記音声入力部から入力された音声データを送信し、
前記他の音声認識デバイスから受信した音声データを前記音声出力部から出力し、
特定の人物を呼び出す音声の入力を受け付けて出力し、
前記音声入力部から入力された音声に
会話起動ホットワードがある場合、会話モードを実行し
、
前記
特定の人物が応答しない場合、前記
特定の人物の通信機器に前記音声データを送信し、
更に、留守番ホットワードがある場合、前記
人感センサ
ーの検知に基づいて
人物の侵入を検知する留守番モードを実行し、前記留守番モードの実行中に前記声特徴データと前記声認証データとの一致を検出すると、前記留守番モードを停止する、
ことを特徴とする音声認識デバイス。
【請求項3】
請求項1又は2に記載の音声認識デバイスであって、
前記制御部は、前記会話起動ホットワードを検出すると、前記会話起動ホットワードが検出された音声データと当該音声データの再生コマンドを前記他の音声認識デバイスに送信する、
ことを特徴とする音声認識デバイス。
【請求項4】
請求項
1に記載の音声認識デバイスであって、
前記制御部は、前記声特徴データと前記声認証データとの一致を検出した場合に、前記他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項5】
請求項
1に記載の音声認識デバイスであって、
撮像部を更に備え、
前記記憶部は、前記音声認識デバイスを用いた会話が許可された人物と当該人物の撮像画像とを紐づけた顔認証データを更に記憶し、
前記制御部は、前記撮像部が撮像した撮像画像と、前記顔認証データとの一致を更に検出し、
前記撮像画像と前記顔認証データとの一致を検出した場合に、前記他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項6】
請求項
1に記載の音声認識デバイスであって、
前記制御部は、前記他の音声認識デバイスが人物の存在を検知したことを示す人物検知情報に基づき、前記人物検知情報を出力した前記他の音声認識デバイスに対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項7】
請求項1又は2に記載の音声認識デバイスであって、
タイマーを更に備え、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記他の音声識別デバイスにおいて再生させる再生コマンドを前記他の音声認識デバイスに送信し、
前記特定の人物を呼び出す音声及び前記再生コマンドを送信してからの経過時間を前記タイマーから取得し、
前記経過時間が予め定められた待機時間以上になると、前記特定の人物からの応答メッセージが無いことを通知する応答メッセージを前記音声出力部から出力させる、
ことを特徴とする音声認識デバイス。
【請求項8】
請求項1に記載の音声認識デバイスであって、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の音声識別デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバイスの全てに対して送信し、
前記通信インタフェースは、複数の他の音声認識デバイスの内の一つから、前記特定の人物からの応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デバイスとの通信は維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
【請求項9】
請求項2に記載の音声認識デバイスであって、
前記音声入力部は、特定の人物を呼び出す音声の入力を受け付け、
前記制御部は、前記特定の人物を呼び出す音声及び当該音声を前記複数の他の音声識別デバイスの其々において再生させる再生コマンドを前記複数の他の音声認識デバイスの全てに対して送信し、
前記通信インタフェースは、複数の他の音声認識デバイスの内の一つから、前記特定の人物からの応答メッセージを受信すると、当該応答メッセージを送信した他の音声認識デバイスとの通信は維持し、残りの他の音声認識デバイスとの通信は切断する、
ことを特徴とする音声認識デバイス。
【請求項10】
請求項1に記載の音声認識デバイスであって、
時刻計測部を更に備え、
前記記憶部は、前記音声認識デバイスから、前記複数の他の音声認識デバイスを呼びかける順序を時間帯に応じて定めた第2利用状況データを更に記憶し、
前記制御部は、前記会話起動ホットワードを検出した時刻を前記時刻計測部から取得し、前記第2利用状況データの前記時刻が含まれる時間帯に定められた呼びかけ優先順位に従って、前記複数の他の音声認識デバイスの其々に対して前記制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項11】
請求項2に記載の音声認識デバイスであって、
時刻計測部を更に備え、
前記記憶部は、前記音声認識デバイスから、前記複数の他の音声認識デバイスを呼びかける順序を時間帯に応じて定めた第2利用状況データを更に記憶し、
前記制御部は、前記会話起動ホットワードを検出した時刻を前記時刻計測部から取得し、前記第2利用状況データの前記時刻が含まれる時間帯に定められた呼びかけ優先順位に従って、前記複数の他の音声認識デバイスの其々に対して
前記会話モードを起動させる制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【請求項12】
他の音声認識デバイスとの音声認識デバイスの連携方法であって、
発話された音声の入力を受け付けるステップと、
前記音声から会話モードの起動を指示する会話起動ホットワードを検出するステップと、
前記他の音声認識デバイスに対して、当該他の音声認識デバイスを会話モードに遷移させるための制御コマンドを送信するステップと、
前記他の音声認識デバイスから受信した音声データを音声出力し入力を受け付けた音声を前記他の音声認識デバイスに送信する会話モードを起動するステップと、を含み、
特定の人物を呼び出す音声の入力を受け付けると、前記音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐づけた声認証データを参照し、前記特定の人
物の声特徴データを抽出し、前記声認証データとの一致を検出するステップと、
前記会話が許可された人物と、当該人物が各音声認識デバイスからの応答回数とを関連付けた第1利用状況データを参照し、前記声認証データとの一致を検出した人物が、前記第1利用状況データにおいて応答回数が高い順に従って、前記複数の他の音声認識デバイスの其々に対して前記制御コマンドを送信するステップと、
前記
特定の人物
を呼び出して応答
がない場合、前記
特定の人物の通信機器に前記音声データを送信するステップ、を更に含む、
ことを特徴とする音声認識デバイスの連携方法。
【請求項13】
他の音声認識デバイスとの音声認識デバイスの連携方法であって、
発話された音声の入力を受け付けるステップと、
前記音声から会話モードの起動を指示する会話起動ホットワードを検出するステップと、
前記他の音声認識デバイスに対して、当該他の音声認識デバイスを会話モードに遷移させるための制御コマンドを送信するステップと、
前記他の音声認識デバイスから受信した音声データを音声出力し、
特定の人物を呼び出す音声の入力を受け付けて出力し、入力を受け付けた音声を前記他の音声認識デバイスに送信する会話モードを起動するステップと、を含み、
人感センサーの検知結果に基づいて人物
の侵入を検知
する留守番モードの起動を指示する留守番ホットワードを検出するステップと、
特定の人物を呼び出して応答がない場合、前記特定の人物の通信機器に前記音声データを送信するステップと、
前記留守番モードの実行中、入力された音声データの声特徴データを抽出し、音声認識デバイスを用いた会話が許可された人物と当該人物の声特徴データとを紐づけた声認証データを参照し、前記抽出した声特徴データと前記声認証データの一致を検出すると、前記留守番モードを停止するステップと
、を更に含む、
ことを特徴とする音声認識デバイスの連携方法。
【請求項14】
請求項2に記載の音声認識デバイスであって、
前記他の音声認識デバイスの入力される音声データの声特徴データを抽出し、
当該声特徴データと前記声認証データと一致するかどうかを検出し、
前記声認証データと一致する場合に会話起動ホットワードを検出すると、前記他の音声認識デバイスに前記会話モードを起動させる制御コマンドを送信する、
ことを特徴とする音声認識デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識デバイス及び音声認識デバイスの連携方法に関する。
【背景技術】
【0002】
近年、発話者の発する音声内容を音声認識し、発話内容を解析することで、発話内容に則した応答を付属するスピーカーから音声出力する、所謂スマートスピーカー、あるいはAIスピーカーと呼ばれる音声認識技術及び人工知能技術を用いた音声認識デバイスが製品化されつつある。例えば、特許文献1には音声認識技術の一例として「発話入力に音声認識アルゴリズムを適用した結果得られた解釈候補が、冗長性を減少させて統合化された方法で提示される方法を提供するために、ユーザに解釈候補の中から選択する機会を提示し、重複要素なしでこれらの選択肢を提示するように構成される(要約抜粋)」との記載がある。また特許文献2には「自動音声認識システムにおける、音声認識モデル及びデータの使用を管理するための機能として、ユーザがいつシステムを利用する可能性があるかを予測するために追跡され得る(要約抜粋)」とする記載がある。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-68952号公報
【文献】特表2015-537258号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のスマートスピーカー等の音声認識デバイスは、当該デバイスに対して当該デバイスの周辺にいる者が音声で指示等を与えることにより当該デバイスで処理し応答を得るものであるが、当該デバイスを複数個で連携して使用することについては開示していない。つまり、宅内での使用例としてはリビングで家族が当該デバイスを共有して天気予報、ニュース、音楽などのインターネット上に存する情報取得を要求すると、それに応じた内容を音声出力するだけで、リビング以外の例えば、子供部屋にある、更に別の音声認識デバイスとの間では何らのコミュニケーションや連携動作を行うことが想定されていない。このため、複数の音声認識デバイスを連携して使用することができず、音声認識デバイスの新たな利用態様について工夫の余地がある。
【0005】
本発明は上記実情に鑑みてなされたものであり、複数の音声認識デバイスを連携して利用することができる音声認識デバイス及び音声認識デバイスの連携方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明は特許請求の範囲に記載の構成を有する。
【発明の効果】
【0007】
本発明によれば、複数の音声認識デバイスを連携して利用することができる音声認識デバイス及び音声認識デバイスの連携方法を提供することができる。上記以外の目的・構成・効果は下記実施形態において明らかにされる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態に係る音声認識デバイスのハードウェア構成図
【
図3A】参照メモリに記憶されるホットワードデータの例を示す図
【
図3B】参照メモリに記憶される声認証データの例を示す図
【
図4】音声認識デバイスを用いた連携システムを示す図
【
図5】連携システムにおける第1の呼びかけ動作を示すフローチャート
【
図7】通常モード/会話モードの第1の切り替え処理の流れを示すフローチャート
【
図8】通常モード/会話モードの第2の切り替え処理の流れを示すフローチャート
【
図9】新規設置時の第1の設定処理について示す概念図
【
図10】新規設置時の第2の設定処理について示す概念図
【
図11】新規設置時の第2の設定処理の流れを示すフローチャート
【
図12】第2実施形態における家屋内の音声認識デバイスの連携システムの概要構成を示す図
【
図13】人物についての時間帯ごとの利用状況を記録した利用状況データの一例を示す図
【
図14】人物についての時間帯ごとの呼び出し先優先順位を記録した呼び出し優先順位データの一例を示す図
【
図15】音声認識デバイスと携帯通信端末とをドックで接続する例を示す図
【
図16】留守番モードへの切替処理を示すフローチャート
【発明を実施するための形態】
【0009】
以下、本発明の実施形態の例を、図面を用いて説明する。なお、各種の図面において、同一の機能には同一の符号を付し、重複説明を省略する。
【0010】
<第1実施形態>
図1は、本実施形態に係る音声認識デバイス1のハードウェア構成図である。音声認識デバイス1は、音声認識専用の装置であっても、携帯電話端末、スマートフォン、パーソナルコンピュータ、ゲーム機器、等のように従来から存する通信機能を有する電子機器であっても良い。また、音声認識デバイス1は、通信機能として、有線LAN、無線LAN、携帯電話回線の無線通信、Bluetooth(登録商標)、RFIDなどの近接無線、等の一般的な通信機能を用いてもよく、それら通信機能に対応する通信インタフェースを一つ、又は複数備える。
【0011】
具体的には、音声認識デバイス1は、CPU101、メモリ103、外部インターフェースとしての有線LANI/F104、無線LANI/F105、及び無線通信I/F106、音声入力部107(例えばマイク)、音声出力部108(例えばスピーカ)、表示出力部109(例えば液晶画面)がバス102を介して互いに接続される。またバス102には、人物検知センサI/F110、タイマー111、RTC112、カメラ113が接続されてもよい。
【0012】
メモリ103は、揮発性メモリからなる内部メモリ1031及び不揮発性メモリからなる参照メモリ1032を含む。
【0013】
人物検知センサI/F110は、例えば人感センサーや集音センサー等種類を問わず、人物検知センサを外付けするためのI/Fである。
【0014】
図2は、音声認識デバイス1の機能ブロック図である。
【0015】
音声認識デバイス1は、音声処理エンジン120を備える。音声処理エンジン120は、主に音声処理部1201、音声認識部1202、ホットワード検出部1203、音声解析部1204、及び特徴抽出部1205を含む。
【0016】
音声処理エンジン120は、CPU101が参照メモリ1032に保持される音声処理プログラムを読み出して内部メモリ1031にロードし、音声処理プログラムに沿った処理を実行することにより、音声処理エンジン120の機能が実現する。
【0017】
具体的には、音声認識デバイス1に向けて人が何か話しかけると、その声が音声入力部107で取り込まれ、声(アナログデータ)がデジタルデータからなる音声データに変換される。
【0018】
音声処理部1201は、音声データに含まれる周辺ノイズ除去等の調整等を行う。
【0019】
音声認識部1202は、音声データを文字列データへ変換する音声認識処理を行う。
【0020】
ホットワード検出部1203は、文字列データが音声認識デバイス1に対する動作の開始、待機状態からの復帰などの起動を求める所定の語句(以下「ホットワード」という)を含む文字列データであるかを判定する。
【0021】
図3Aは、参照メモリ1032に記憶されるホットワードデータ150の例を示す図である。ホットワードデータ150は、登録ホットワード1501と、その登録ホットワード1501の音声認識デバイス1に対する動作を規定した種別1502と、登録ホットワード1501を用いて呼びかける音声認識デバイス1を特定する機器固有情報が規定された呼びかけ先1503とが関連付けられたデータである。ホットワード検出部1203は、文字列データがホットワードデータ150に記載されているかを基にホットワードの検出を行う。
【0022】
音声解析部1204は、音声認識デバイス1に向けて話した内容の解釈、即ち文字列データに対応する応答データや制御コマンドを決定し、応答データを音声出力部108から出力したり、制御コマンドをCPU101へ出力し、音声データが示す処理をCPU101に実行させる。例えば、制御コマンドとして特定の音楽の再生コマンドがある。
【0023】
音声認識部1202は、音声認識デバイス1ではなく、音声認識デバイス1に接続された外部サーバ201(
図4参照)に備え、音声認識処理を外部サーバ201で実行してもよい。これにより、音声認識デバイス1の負荷を減らすことができる。音声認識デバイス1で音声認識処理を実行する場合は、外部サーバ201とのデータ通信量を下げることができる。
【0024】
また第1実施形態に係る音声認識デバイス1に特徴的な機能として、従来の音声認識デバイスのように単独での動作のほかに、話しかけられた音声を家屋や建物内と言った所定の空間内に設置されるプライベートな通信ネットワーク(以下、宅内LAN210:
図4参照を例示する)上に存する別の音声認識デバイス1へ転送して会話を行うことができる点がある。そのため、ホットワード検出部1203は、会話を行うための会話モードへと移行する端緒であるホットワードを検出する。更に、音声認識デバイス1は、宅内LAN210を介した会話に参加可能な人物から声や画像の特徴を抽出し、登録データとの一致判定を行う特徴抽出部1205を有する。
【0025】
図3Bは、参照メモリ1032に記憶される声認証データ160の例を示す図である。
【0026】
声認証データ160は、宅内LAN210を介した会話に参加可能な人物を固有に特定する情報としての話者1601と、話者の属性、例えば音声認識デバイス1や通信ネットワークの設定権限を有する「マスター」か、又は設定権限を有さず、宅内LAN210での会話への参加権限だけを有する「一般」か、を示す話者種別1602と、各個人の声の特徴を示す話者テンプレート1603とが関連付けられたデータである。
【0027】
図4は、音声認識デバイス1を用いた連携システム100を示す図であり、宅内で使用する場合の一例を示している。なお、この例では宅内としているが、家屋内に限定されるものではなく、事務所や教室などの特定の人たちが集まる空間でも本実施形態は適用可能である。
【0028】
(第1の呼びかけ動作)
図4で家屋内の各部屋1、部屋2、部屋3、部屋4にそれぞれ設置される第1音声認識デバイス1A、第2音声認識デバイス1B、第3音声認識デバイス1C、第4音声認識デバイス1Dは、
図1の音声認識デバイス1と同一機能を有するものである。ここで、各部屋に存する第1~第4音声認識デバイス1A~1Dの其々は、部屋2~4の其々に設置されたアクセスポイント或いは無線中継器である第2AP2032~第4AP2034の其々を介して部屋1に設置してあるルーター202に接続される。そして、第1~第4音声認識デバイス1A~1Dの其々は、ルーター202を介して外部のインターネット200に接続されている。
【0029】
以下、
図5の各ステップ順に沿って、連携システム100における第1の呼びかけ動作について説明する。本ステップの処理を開始するに当たり、第1~第4音声認識デバイス1A~1Dは、全て電源が入っており、音声入力部107及び音声処理エンジン120は起動しているものとする。この状態をスタンバイモードという。
【0030】
部屋1に居る人物Aが第1音声認識デバイス1Aに向けて呼びかけを行うと、人物Aの声は第1音声認識デバイス1Aの音声入力部107で取り込まれた後に、ホットワード検出部1203で起動要求を意味する第1ホットワードか否かの判定を行う。ホットワード検出部1203が呼びかけ音声は第1ホットワードであると判定すると(S101/Yes)、「何かご用でしょうか?」と言った所定の定型語句の音声応答データを音声出力部108から再生する。ホットワード検出部1203は、第1ホットワードを音声解析部1204へ出力し、音声解析部1204は通常モード実行部1406に対して実行命令を出力する。これにより、第1音声認識デバイス1Aは、通常モードに切り替わる。通常モードは、第1音声認識デバイス1Aが有する機能を全て実行可能な動作モードである。
【0031】
ホットワード検出部1203がホットワードではないと判定すると(S101/No)、スタンバイモードを維持する。
【0032】
次に人物Aが他の部屋にいる人物Bに向けて「B君!」と言う呼び掛けを発すると、その音声は音声入力部107を介して音声データとして取り込まれた後、音声処理エンジン120の音声処理部1201で周囲ノイズ除去等の調整を行った後にホットワード検出部1203で第2ホットワード(会話モードへの切替要求を指示するホットワード)か否かを判定する(S102)。
【0033】
「B君!」と言う呼び掛け音声データがホットワードとしてホットワードデータ150に予め登録されており、ホットワード検出部1203が「B君!」という語が第2ホットワードであると判定すると(S102/Yes)、音声解析部1204に第2ホットワードを出力する。本実施態様では、会話モードへ移行する端緒となるホットワードを宅内に存する人物の名前としているが、これに限るものではなく、別の定型フレーズ、例えば、「話す」とか「つなぐ」等と言った言葉でも何であっても良い。
【0034】
音声解析部1204は、第2ホットワードが会話モードへの切替要求であると解析し、それに必要な制御コマンドを選択する(S103)。本例では、第1~第4音声認識デバイス1A~1Dを会話モードへと切り替えるモード切替コマンド、及び「B君!」という音声データを第1音声認識デバイス1Aから第2~第4音声認識デバイス1B~1Dの其々に送信し、其々の音声出力部108から出力させる音声転送コマンド及び音声再生コマンドが該当する。
【0035】
第1音声認識デバイス1Aでも会話モード実行部1403が起動し、会話モードに切り替わる(S104)。
【0036】
第1音声認識デバイス1Aのコマンド送信部1402は、音声転送コマンドに基づいて通信制御部1410を介して第2~第4音声認識デバイス1B~1Dに対して「B君!」と言う呼び掛け音声データを転送し、かつ其々に対して会話モードに切替えるモード切替コマンド及び音声再生コマンドを送信する。また、第1音声認識デバイス1Aのコマンド送信部1402は、第2~第4音声認識デバイス1B~1Dに対して呼び掛け音声データを転送してからの経過時間の計測を開始する(S105)。
【0037】
第2~第4音声認識デバイス1B~1Dの其々は、呼びかけ音声データを其々が有する音声出力部108から「B君!」という音声を再生し、会話モード実行部1403が起動して会話モードに切り替わる。音声データの再生の順番については、第2~第4音声認識デバイス1B~1Dの其々が同時に音声再生することとしても良いし、所定の順番で第2~第4音声認識デバイス1B~1Dから音声出力することでも良い。この所定の順番としては、例えば、音声認識デバイスを設置した順番であったり、部屋ごとの優先順位を付けた順番であったり(
図14参照)、等でも良い。
【0038】
部屋2にいる人物Bが応答し、例えば、「はい!」の様に呼びかけに応じた返答がなされると第2音声認識デバイス1Bが音声入力部107を介して音声データとして取り込み、当該応答音声データを呼びかけ元である第1音声認識デバイス1Aへ返送する。この際に、第2音声認識デバイス1Bと人物Bの紐づけが行われる。更に、第2音声認識デバイス1Bの存する部屋2に居る人物は人物Bであるとする紐づけ情報が、第1、第3、第4音声認識デバイス1A、1C、1Dにも共有登録される。
【0039】
【0040】
人物Bと第2音声認識デバイス1Bとの紐づけ登録例として、第1音声認識デバイス1Aが上記応答音声データを受領すると、「人物B=第2音声認識デバイス1B」として参照メモリ1032にあらかじめ登録された所在推定データ(
図6参照)に追記してもよい。宅内の第1~第4音声認識デバイス1A~1Dの識別は、機器のMacアドレスや宅内LAN210での機器割り当てIPアドレスなどの特定の識別子を使用すればよい。
【0041】
更に、上記の所在推定データは、第1音声認識デバイス1Aから宅内の他の音声認識デバイス、即ち第2~第4音声認識デバイス1B~1Dに対して登録要求が展開され、各第2~第4音声認識デバイス1B~1Dの参照メモリ1032に保持される。なお、上記所在推定データが各第1~第4音声認識デバイス1A~1D内の参照メモリ1032に既に保持されている場合は、既登録として紐づけ操作は行わない。人物の登録は、
図2の「B君!」の呼びかけ音声中に含まれる名前の部分を音声処理エンジン120、あるいは外部サーバ201上で抽出して名前データとして用いると「人物Bの名前=第2音声認識デバイス1B」の対応付けが可能となる。
【0042】
なお、会話モードへの切り替えを判断するためのホットワードの登録方法については後述する方法で初期設定時等の音声認識デバイス設置時や新規登録設定時に行う。
【0043】
第1音声認識デバイス1Aのコマンド送信部1402は、タイマー111で計測した経過時間が応答の有無を判断するための待機時間閾値以上になった場合(S106/Yes)、第2~第4音声認識デバイス1B~1Dのうち応答がなかったデバイスに対して、会話モードからスタンバイモードに戻すコマンドを送信する(S107)。
【0044】
第2~第4音声認識デバイス1B~1Dのうちの少なくとも一つから音声データの応答があり時間閾値未満の経過時間で応答があった場合(S106/No)、第1音声認識デバイス1Aと応答があったデバイス、例えば第2音声認識デバイス1Bの会話モードを維持する(S108)。
【0045】
会話モード実行部1403は、ステップS104において会話モードに切り替えられてから後に、第1音声認識デバイス1Aの音声入力部107に入力された音声、及びステップS105において第2音声認識デバイス1Bの音声入力部107に入力された音声を第1音声認識デバイス1Aと第2音声認識デバイス1Bとの間で音声の送受信を行う。
【0046】
第1音声認識デバイス1Aと第2音声認識デバイス1Bのいずれか一方が、会話モードを終了させる第3ホットワードを検出すると(S109/Yes)、ホットワードを検出した機器、例えば第2音声認識デバイス1Bはスタンバイモードに切り替わる(S110)と共に、第1音声認識デバイス1Aに対してスタンバイモードへに切り替えるコマンドを送信する(S107)。これを受けて、第1音声認識デバイス1Aもスタンバイモードに切り替わり、会話モードが終了する。
【0047】
また、ステップS102において第2ホットワードを検出しなければ(S102/No)、第1音声認識デバイス1Aは、会話モードに移行することなく、通常モードを維持したまま(S111)、処理を終了する。
【0048】
上記例では紐づけ操作は最初に呼びかけを実施した方の第1音声認識デバイス1Aがマスター機器となって、家屋2内の呼びかけられた方の第2~第4音声認識デバイス1B~1Dの其々に対して制御指示を実施しているが、これに限るものでは無く、呼びかけられ応答した方の第2音声認識デバイス1Bがマスターとなってもよい。
【0049】
別の紐づけ手法としては、例えば宅内に初めて第4音声認識デバイス1Dを設置する際に、第4音声認識デバイス1Dの主たる使用者あるいは操作者が人物Dであることを登録しておくことで、設置直後に宅内LAN210を介して第1~第3音声認識デバイス1A~1Cへ紐づけデータを展開し、第1~第4音声認識デバイス1A~1D内の参照メモリ1032に「人物D=第4音声認識デバイス1D」として登録させることも可能である。
【0050】
上記例は第1音声認識デバイス1Aから第2音声認識デバイス1Bに向けての呼びかけの例であるが、この手順は宅内に存する全ての音声認識デバイスとの間に適用可能であり、上記例以外の音声認識デバイスから他の音声認識デバイスに対する呼びかけであっても同様にできる。
【0051】
また、上記例では、第1~第4音声認識デバイス1A~1Dは各部屋との通信に無線LANを利用しているが、有線LANによる接続でも、携帯電話回線を用いた接続でも可能である。更には、会話モード時だけ通信モードを別のインタフェースに代えることも可能である。例えば、通常モードでは無線LANを使用し、会話モードではBluetoothの様な別の無線システムを利用するといったことでも良い。
【0052】
(第2の呼びかけ動作)
上記の実施形態の様に、音声認識デバイス1と人物との紐づけが完了すると、以降に人物Aと人物Bが会話を行う際には、人物Aが使用する第1音声認識デバイス1Aと人物Bが使用する第2音声認識デバイス1B間の通信のみを開放し、上記以外の音声認識デバイス1との間の通信は閉じることで会話内容の秘匿性を高めることができる。
【0053】
例えば、2回目以降に人物Aが人物Bを呼ぶと、第1音声認識デバイス1Aのコマンド送信部1402は、所在推定データ(
図6)に登録されている人物Bに紐づけられた第2音声認識デバイス1Bとの通信を確立(モード切替コマンドを送信し、それに応答することで通信が確立する)し、音声データを第2音声認識デバイス1Bに送付する。
【0054】
会話モード実行部1403は、これ以降、第1音声認識デバイス1Aと第2音声認識デバイス1Bとの間だけで音声データの通信を実施し、人物Aと人物Bとが直接会話する状態を可能とする。これにより、宅内のすべての音声認識デバイスに向けて、いちいち音声データを送付する必要はなくなる。
【0055】
この会話モード実行中に、例えば、呼びかけから所定時間内に人物Bからの応答としての音声データ受信がないと、第1音声認識デバイス1Aの会話モード実行部1403は、会話相手が不在となったと判定する。そして、会話モード実行部1403からコマンド送信部1402に対して、今まで通信を閉じていた家屋内の他の音声認識デバイスとの通信チャネルを再開、即ち他の音声認識デバイス(第3、第4音声認識デバイス1C、1D)に向けて音声データを送付して、応答を待つ。
【0056】
ここで、例えば、部屋4に存する第4音声認識デバイス1Dから応答があれば、第1音声認識デバイス1Aは、当該第4音声認識デバイス1Dとの間で通信を開始し、会話を再開する。この場合、第1音声認識デバイス1Aは内部の参照メモリ1032の所在推定データ190へ人物Bと第4音声認識デバイス1Dとの紐づけ情報を格納することは行わずに一時的に人物Bが他所へ移動したと看做すことでも良いし、あるいは人物Bと第4音声認識デバイス1Dの紐づけ情報を作成して優先順位を付し、人物Bと第2音声認識デバイス1Bの紐づけを上位、人物Bと第4音声認識デバイス1Dとの紐づけを下位に優先順を設定することでも良く、優先順に接続して応答の有無を待つことになる。
【0057】
更に、第4音声認識デバイス1Dからも応答が無ければ、順次、宅内に存する他の音声認識デバイス(本例では第3音声認識デバイス1C)に対して音声データを送付して、応答を待つ。そして、第3音声認識デバイス1Cに対して音声データを送付し応答を待ち、最終的に所定時間内にすべての部屋の音声認識デバイスから全く応答がない場合は、応答なしとして第1音声認識デバイス1Aが判定し、操作者である人物Aに対して、例えば「応答が有りませんでした。」等の所定のフレーズで返答を行う。あるいは、上記の様に第1音声認識デバイス1Aが他の音声認識デバイスから無応答であることを判定する代わりに、他の音声認識デバイスが所定時間内に人物Bからの応答音声が無いことを判定して、無応答情報を第1音声認識デバイス1Aへ戻すことで第1音声認識デバイス1Aは無応答であることを認識して「応答が有りませんでした。」等の所定の返答音声を出力することでも良い。
【0058】
なお、所定の返答音声データはメモリ103に予め格納しておいても良いし、インターネット200上の外部サーバ201等上に保持するものを用いることでも良い。
【0059】
(第3の呼びかけ動作)
本例では、
図1の音声認識デバイス1の人物検知センサI/F110に、人物を確認可能な撮像センサー、あるいは人物の有無を判別する人感センサー等の人物検知センサーが接続され、その検知結果を基に呼びかけ動作を行う。また音声認識デバイス1に内蔵されたカメラ113を用いてもよい。
【0060】
例えば、人物Aからの呼びかけに応じて第1音声認識デバイス1Aが、各部屋に存する第2~第4音声認識デバイス1B~1Dに人物Aの呼びかけ音声データを送信する際に、第2~第4音声認識デバイス1B~1Dの其々に備えられた人物検知センサーで人の有無を判断し、無人と判断できる部屋ではその場所に設置される音声認識デバイスが不在通知を第1音声認識デバイス1Aへ戻し、コマンド送信部1402が受信する。
【0061】
そして、第1音声認識デバイス1Aのコマンド送信部1402は、不在通知を第1音声認識デバイス1Aに対して送信した音声認識デバイスへは呼びかけの音声出力を行わない。
【0062】
一方、第1音声認識デバイス1Aのコマンド送信部1402は、不在通知を第1音声認識デバイス1Aに対して送信した音声認識デバイスへは、音声データを送信し、音声データを受信した音声認識デバイスは、再生して呼びかけを行う。この後の動作は前記の各実施形態の場合と同様にできる。
【0063】
また、上記の人物の認識判定は、一般に用いられる方法で良い。赤外線センサー等を用いた人感センサーで感知された人物の動きから人物の有無を検出することが可能である。
【0064】
更には、人物検知センサーとしてカメラ113を用いてもよい。そして、顔認識部1404がカメラ113で撮られた画像から人の特徴(例えば顔画像)を抽出して人物の有無を判定してもよい。更に、顔画像と人物とを対応付けた顔認証データを予め参照メモリ1032に保持しておいた人物との対応情報とを照合し、呼びかけられた人物の在室の有無を判定してもよい。呼びかけられた人物がカメラ113で捉えられ在室と判断できれば、第1音声認識デバイス1Aと第2音声認識デバイス1Bとの通信接続により人物Aと人物Bとの会話が可能となる。
【0065】
(第4の呼びかけ動作)
別の実施態様では、
図4の人物Aが人物Bに対して呼びかけを行い、人物B以外の者が返答した場合には、第1音声認識デバイス1Aと第2音声認識デバイス1B間の通信接続を確立せずに、再度の呼びかけを実施する。
【0066】
先ず、各部屋に設置される第1~第4音声認識デバイス1A~1Dの其々には、家屋内に居住する人物の声認証データ160(
図3B)が参照メモリ1032に予め保持される。声認証データ160は、音声処理エンジン120の特徴抽出部1205で人物の声紋、音声の抑揚、あるいは声の持つ周波数特性等を利用して話者テンプレート1603を作成し、第1~第4音声認識デバイス1A~1Dの参照メモリ1032に声認証データ160として予め格納しておくことで生成される。
【0067】
声認証データ160は、第1~第4音声認識デバイス1A~1Dの其々の初期設定時に登録することができる。その上で、第1音声認識デバイス1Aの声認識部1405は、声認証データ160に登録された人物Bの声特徴データと返答を行った者の声の特徴とを比較して、一致していれば人物Bとして判定し、コマンド送信部1402へ判定結果を受け渡す。これを受けて、コマンド送信部1402は、第2音声認識デバイス1Bに対して会話モードに移行させるためのコマンドを送信する。
【0068】
もし、声認識部1405が声の特徴が一致していないと判断すると、人物Bではないとして処理する。
【0069】
声認証データ160は、上記の様に各部屋に存する全ての第1~第4音声認識デバイス1A~1Dの其々に予め格納し、それぞれの部屋にいる人物が応答する音声が人物Aの呼びかけで求められる人物Bの音声と合致しているかを比較することでも良いが、それに代えて、特定のマスターとなる第1音声認識デバイス1Aの参照メモリ1032にだけ声認証データ160を格納して、第1音声認識デバイス1A上で声の特徴が合致するか否かを判定しても良い。
【0070】
あるいは宅内に設置されるサーバ等の機器に声認証データ160を格納しておき、第1~第4音声認識デバイス1A~1Dの其々から送られてくる音声データと声認証データ160とを比較して一致/不一致を判定してもよい。
【0071】
更には、宅外に設置される外部サーバ上に声認証データ160を格納して、声の特徴を比較することでも良い。
【0072】
上記例の様に話者1601の声の特徴を判定することによって、家屋内に居住する家族以外の者や家族から許可されて会話に参加可能な者以外の部外者が会話に参加することを防ぎ、セキュリティーの向上を図ることができる。
【0073】
また、登録してある話者以外の声の特徴が検出された場合には、例えば、呼びかけを行う側の第1音声認識デバイス1Aに備わる表示出力部109にアラーム表示を行わせることや、音声出力部108から「部外者からの応答があります」と言うような音声出力を行って警告を促しても良い。
【0074】
(通常モード/会話モードの切り替え1)
図7は、通常モード/会話モードの第1の切り替え処理の流れを示すフローチャートであり、
図5の例とは逆に会話モードがデフォルトで設定される。
【0075】
本例では、第1~第4音声認識デバイス1A~1Dを設置後、主電源が投入されている状態では会話モード実行部1403が起動し、操作者から他の人物への呼びかけを待つ会話モードとなる。この時に操作者からモード切替のホットワード、例えば「モードチェンジ」と言ったような所定の言葉が発せられると(S201/Yes)、モード切替部1401は通常モードに切り替え(S202)、通常モード実行部1406が起動する(S203)。
【0076】
ステップS201において、モード切替のホットワードが検出されない場合は(S201/No)、会話モード実行部1403により会話モードが維持される。
【0077】
通常モード実行部1406は、会話モードへの復帰条件が非充足となる間は(S204/No)、通常モードを維持する。
【0078】
通常モードから会話モードへの復帰条件が充足すると(S204/Yes)、再び会話モード実行部1403が起動し、会話モードへ復帰する。復帰条件として、復帰させるためのホットワードを設定しても良いし、所定時間の間に操作者からの応答が無ければ復帰する様にしても良い。
【0079】
(通常モード/会話モードの切り替え2)
図8は、通常モード/会話モードの第2の切り替え処理の流れを示すフローチャートである。
【0080】
本例では、音声認識デバイス1は、始めに音声入力部107が起動して音声の有無のみを監視し続ける(S301/No)。音声入力部107が音声を検出すると(S301/Yes)、ホットワード検出部1203が、検出した音声が音声認識デバイス1に対する起動を要求(通常モードの起動を要求)する第1ホットワード、又は会話モードの起動を要求する第2ホットワードであるかを判別する(S302)。第1ホットワード、又は第2ホットワードのいずれにも該当しなければ(S302/No)、音声検出処理に戻る。
【0081】
第1ホットワードが検出された場合(S302/第1ホットワード)、通常モード実行部1406が起動する(S303)。例えば、音声認識デバイス1を起動させるために設定されるニックネームを呼ばれた場合は、通常モードとして以降は処理する。
【0082】
また第2ホットワードが検出された場合(S302/第2ホットワード)、会話モード実行部1403が起動する(S304)。例えば、家族や宅内に居る人物の名前を呼ぶ場合は、会話モードと判別して以降の処理を行う。
【0083】
第1ホットワードや第2ホットワードは予め設定しておいても良いし、設置後に操作者の使い易さに合わせたホットワードに変更することでも良い。ホットワードの変更設定には、スマートフォンやパソコンに設定用の専用アプリケーションソフトウェアをインストールして実施することができる。あるいは、マスター操作者501を予め決めておき、マスター操作者501の声でホットワード変更を第1~第4音声認識デバイス1A~1Dに指示することでも、あるいはマスター音声認識デバイス、例えば第1音声認識デバイス1Aから他の宅内に存するスレーブデバイス、例えば第2~第4音声認識デバイス1B~1Dに向けて変更指示を発するようにしても良い。この際に、マスター操作者501の声であると認識した場合のみホットワード変更可能とすることで容易に変更されてしまうことを防止する。マスター操作者501の声の設定は、スマートフォンやパソコンの設定用専用アプリケーションを用意して、声の登録を行う。マスター操作者501の声は、第1音声認識デバイス1Aの音声処理エンジン120内の特徴抽出部1205で声特徴データを作成して参照メモリ1032に登録しても良いし、あるいはスマートフォンやパソコン上で声認証データ160を作成して参照メモリ1032に登録することでも良い。更には、宅内のネットワーク環境に繋がるホームサーバ601を有する場合は、声特徴データを当該ホームサーバ601上に格納して、該サーバと音声認識デバイスとで連携しながら呼びかけられた声の特徴と格納データの声の特徴とを比較確認することでも良い。
【0084】
(新規設置時の設定1)
図9は、新規設置時の第1の設定処理について示す概念図である。
【0085】
音声認識デバイス1を宅内に新たに設置する際には、スマートフォンやパソコンの様な電子機器401に専用のアプリケーションソフトウェア(初期設定用アプリケーションソフト)410をインストールする。そして、宅内のルーター202等とのネットワーク接続設定、既設の音声認識デバイス1が有る場合の機器登録、宅内の家族等の人物と音声認識デバイス1との対応関係に関する紐づけデータ、家族等の人物の声認証データ160等の設定を行う。この例では、新規に設置する音声認識デバイスと宅内に存する、例えば無線ルーターの様な通信機器との接続設定は上記のスマートフォンやパソコン等を使用して設定する方法、あるいはWPS(WiFi Protected Setup)の様な自動設定手法を用いることで接続設定を行う。
【0086】
また、上記の人物と音声認識デバイス1との対応関係としては、人物Aが主として使用するデバイスは第1音声認識デバイス1A、人物Bが主として使用するデバイスは第2音声認識デバイス1Bと言うように関連付けの設定を前記スマートフォンやパソコン等のアプリケーションソフトウェア上で行う。
【0087】
更に、人物の声認証データ160は既存のデバイス、例えば第3音声認識デバイス1Cに格納されているデータを読み出して、共有することでも良いし、上記の電子機器上で管理しておき、そのデータを設定することでも良い。
【0088】
(新規設置時の設定2)
図10は、新規設置時の第2の設定処理について示す概念図であり、
図11は、新規設置時の第2の設定処理の流れを示すフローチャートである。
【0089】
この例では、宅内の通信機器の設定権限を有するマスター操作者501が音声によって新規音声認識デバイス1Sの接続設定を行う。
【0090】
まず、マスター操作者501が新規音声認識デバイス1Sに向けて発話を開始し、音声入力部107が音声の入力を受け付けることで接続設定処理を開始し、タイマー111の計測を開始する(S401)。
【0091】
新規音声認識デバイス1Sのホットワード検出部1203が初期設定のための第4ホットワードW501を検出すると(S402/OK)、新規音声認識デバイス1Sの初期設定部1408は、初期設定処理を開始する。具体的には、初期設定部1408は、マスター操作者501の音声データ及び初期設定要求データを宅内の既存のデバイス、例えば第1~第4音声認識デバイス1A~1Dやホームサーバ601に向けて送信する(S403)。以上までの送信処理を所定時間内に行う(S404)。
【0092】
送信処理を所定時間内に限定するのは、送信時に宅外等に拡散する初期設定要求データとマスター操作者501の音声データが盗聴される可能性を低減するためである。
【0093】
送信された前記要求データや音声データは、宅内に既にある第1~第4音声認識デバイス1A~1Dにて受信される(S403)。
【0094】
第1~第4音声認識デバイス1A~1Dの其々の特徴抽出部1205は、上記ブロードキャストされた初期設定要求データに基づき送信された音声データがマスター操作者501のものであるかを検証する(S405)。特徴抽出部1205は、第1~第4音声認識デバイス1A~1Dの其々の参照メモリ1032に保持されるマスター操作者501の音声特徴を示す話者テンプレートとブロードキャストされた音声データとの其々から声特徴データを抽出して比較し、一致すれば(S405/OK)新規音声認識デバイス1Sに対して初期設定を実行し(S406)、接続設定処理を終了する。
【0095】
ステップS402、S405において判定結果がNGの場合(S402/NG)、(S405/NG)も本処理を終了する。
【0096】
初期設定の実行は、第1~第4音声認識デバイス1A~1Dのうち、宅内ですべての音声認識デバイスを統括するマスター音声認識デバイスが行う。マスター音声認識デバイスは、例えば、宅内のリビング等に設置されるデバイス(家人により比較的高頻度で使用される音声認識デバイス)や、最初に宅内に設置されたデバイスがその役割を担う。あるいは、マスター操作者501がマスター音声認識デバイスとして設定したものでも良い。
【0097】
又は、宅内にあるホームサーバ601をマスター機器として、上記の音声データの検証や新規接続機器の初期設定を実行しても良い。ホームサーバ601で音声データの検証を実施する場合、マスター操作者501の音声データや初期設定要求データは、既設の第1~第4音声認識デバイス1A~1Dが受信してホームサーバ601へ転送する、あるいはホームサーバ601自体で受信する。そして、ホームサーバ601にはマスター操作者501の声特徴データである音声テンプレートを格納しておき、音声の特徴が一致するかの検証を行い、一致すればホームサーバ601から新規音声認識デバイス1Sに対して、宅内LAN210への接続を可能とする様に通信の各種設定を指示する。
【0098】
<第2実施形態>
本実施形態では、音声認識デバイス1を用いる宅内での会話システムで、更にホームサーバ機器を含むシステムから成る。
図12は第2実施形態における家屋内の音声認識デバイス1の連携システム100aの概要構成を示す図である。
【0099】
図4との違いは、宅内LAN210上にホームサーバ601を有する点である。ホームサーバ601上には、宅内に存する人物の音声データや音声の特徴点を含む声認証データ160が保持してある。そして、ホームサーバ601は、第1~第4音声認識デバイス1A~1Dの其々から送られてくる音声データや人物の有無を通知するデータにより、宅内に存する人物が第1~第4音声認識デバイス1A~1Dのいずれの機器の付近に居るかを常に監視する。
【0100】
これにより、
図12において人物Aから人物Dを呼び出す場合でも、人物Aの呼びかけを受け取る第1音声認識デバイス1Aは、ホームサーバ601から人物Dにもっと近いと判断される音声認識デバイス(第4音声認識デバイス1D)の情報を取得する。
【0101】
そして第1音声認識デバイス1Aから第4音声認識デバイス1Dに対してのみ音声データを送付し、会話相手の所在を都度、確認することなく、呼び出したい人物の近くにある音声認識デバイスとの間だけでの会話が可能となる。
【0102】
図12では、人が在室しているのは、部屋2の人物Bと部屋4にいる人物Dである。第1~第4音声認識デバイス1A~1Dの其々は、自機に備えられた人物検知センサI/F110で在室状況を把握し、その結果をホームサーバ601に送信する。よって、第1音声認識デバイス1Aは、ホームサーバ601に人物を検知している音声認識デバイスがどれであるかを問い合わせることにより、部屋2と部屋4とに存する第2音声認識デバイス1B及び第4音声認識デバイス1Dとの通信接続を優先する。
【0103】
更に、人物の有無や音声の有無等の情報をホームサーバ601が収集することにより、どの人物がどの部屋に居るかを常に把握することができる。この様にして、第1音声認識デバイス1Aから人物Dに対する呼びかけデータの送付先をホームサーバ601で確認し、人物Dのいる部屋4に存する第4音声認識デバイス1Dへ呼びかけデータを送付することができる。
【0104】
次に、第4音声認識デバイス1Dで再生する呼びかけに人物Dが応答することで、第1音声認識デバイス1Aと第4音声認識デバイス1Dとの間の通信接続が確立して、人物Aと人物Dとの間での会話が可能となる。
【0105】
なお、上記の例ではホームサーバ601は、第1~第4音声認識デバイス1A~1Dの其々に備わる人物検知センサーによる在室状況の把握を行っているが、これに代える、もしくは更に加えて、各音声認識デバイスの利用状況のデータを用いることでも良い。
【0106】
図13は、人物Aについての時間帯ごとの利用状況を記録した利用状況データ170の一例を示す。また
図14は、利用状況データ170を基に決定した人物Aについての時間帯ごとの呼び出しの優先順位データ180の一例を示す。また図示しないが、他の人物に関しても同様のデータを作成するものとする。
【0107】
第1~第4音声認識デバイス1A~1Dの其々の参照メモリ1032には、利用状況データ170、呼び出し優先順位データ180が其々格納されている。例えば人物Aに対して呼びかけがされて第1音声認識デバイス1Aで応答すると、第1~第4音声認識デバイス1A~1Dの其々は、自機に格納された利用状況データ170、及び呼び出し優先順位データ180に応答実績及び呼び出し優先順位を書きこんで更新する。
【0108】
更に第1音声認識デバイス1Aは、更新された利用状況データ170及び呼び出し優先順位データ180を宅内LAN210にブロードキャスト送信する。第2~第4音声認識デバイス1B~1Dの其々は、受信した更新後の利用状況データ170及び呼び出し優先順位データ180を用いて自機の参照メモリ1032に記憶された利用状況データ170及び呼び出し優先順位データ180を更新する。
【0109】
この状態で、第4音声認識デバイス1Dから人物Bが人物Aを月曜日の7:00に呼びだしたとする。第4音声認識デバイス1Dのコマンド送信部1402は、呼び出し優先順位データ180を参照し、自機を除く第1~第3音声認識デバイス1A~1Cのうち、優先順位が高い順、即ち第2音声認識デバイス1B、第1音声認識デバイス1A、第3音声認識デバイス1Cの順に順次読み出す。
【0110】
なお、呼び出し優先順位データ180は、利用状況データ170だけによらず、ユーザの指定により変更してもよい。例えばある時間帯に特定のデバイスのそばにいることが分かっている場合は、一時的に呼び出し優先順位データ180を変更して、そのデバイスの優先順位を1位にしてもよい。
【0111】
また、例えば、第1利用状況データ170において、人物Aが第2音声認識デバイス1Bの利用頻度は土、日の20時から翌朝8時の間に頻繁に利用していることが把握できれば、その時間内であれば、人物Aは在室の可能性が高いと判断して会話モードでの接続を試みることができる。上記以外の時間帯ではホームサーバ601は人物Aが不在として処理することもできる。
【0112】
(宅外との会話)
上記例の場合で、もしも呼びかけられた人物Dが不在であると判断される場合、人物Dの所有するスマートフォン等の通信機器に音声データを転送することも可能である。
【0113】
この場合、人物Dと所有する通信機器のインターネットアドレス、回線情報、機器IDと言った機器情報がホームサーバ601の参照メモリ1032に登録しておくことで、当該情報に沿って通信機器に呼びかけデータを転送する。
【0114】
人物Dの所有する通信機器に呼びかけ情報が届くと画面表示、音声出力、振動等で人物Dに通知することになる。ここで、人物Dが応答することで宅内の第1音声認識デバイス1Aと宅外の人物Bが有する通信機器との間で通話が開始することもできる。
【0115】
もし、人物Dがこの段階でも呼びかけに応えなければ、ホームサーバ601から第1音声認識デバイス1Aに対して不在通知データを発し、第1音声認識デバイス1Aからは人物Dが出ないことを、例えば「只今、応答がありません」と言った様に所定の音声出力を行う。
【0116】
なお、以上に述べてきた実施形態では、第1音声認識デバイス1Aから他の第2~第4音声認識デバイス1B~1Dに対して呼びかけを行う例を示しているが、これに限るものではなく、第2~第4音声認識デバイス1B~1Dのいずれからでも呼びかけができる。従って、宅内に存するいずれかの音声認識デバイスからその他の音声認識デバイスを呼び出すことが可能である。また、本実施形態に係る音声認識デバイスは複数台の設置が可能であり、新たに設置する場合は、上記の設置手法によることで増設ができる。
【0117】
(宅外からの通知)
図15は、音声認識デバイス1と携帯通信端末71とをドック701で接続する例を示す。
【0118】
音声認識デバイス1は、ドック701を更に備える。ドック701は、携帯通信端末71に対して充電を行う充電制御インタフェース711と、接続端子を介して通信する通信制御インタフェース712とを含む。具体的な機能としては、USB(Universal Serial Bus)や特定の携帯通信端末インタフェースでの有線接続、あるいはワイヤレス充電機能及び無線通信機能と言ったもので実現できる。
【0119】
携帯通信端末71に対して着信があった場合には、携帯通信端末71から通信制御インタフェース712を介して音声認識デバイス1に出力し、音声出力部108から「電話です。」や「メールです。」と言った着信通知音声を出力する。
【0120】
携帯通信端末71の所有者が「再生してください。」や「誰から?」や「内容は?」と言った応答を行うと、携帯通信端末71に対して受話指示やメール内容の転送指示を行い、通知相手の名前を知らせたり、電話のスピーカーフォンとして動作したり、メールであればメール内容を音声出力することができる。
【0121】
更に、携帯通信端末71の所有者が在室していない場合は、所定時間内での応答の有無から家屋内の別の場所にいるものとして
図12に示すホームサーバ601から携帯通信端末71の所有者の現在の居場所に最も近いと判断される音声認識デバイス1を割り出し、当該音声認識デバイス1に対して着信通知を転送する。転送された着信通知に基づき、上記の呼び出し動作と同様の動作を行う。
【0122】
なお、携帯通信端末71の所有者の現在の居場所を認識する方法としては、ホームサーバ601で家屋内に存する個々の音声認識デバイス1の使用状況、個々の音声認識デバイス1に話しかけられた声の特徴抽出データ、個々の音声認識デバイス1が拾う音、ドック701と携帯通信端末71との接続状況等を用い、家屋内の人物が、どの音声認識デバイス1の近くに居るかを判定してもよい。
【0123】
更に、携帯通信端末71のように通常その所有者が身に着けているデバイス(ウエアラブルデバイスでも可)がドック701との接続のように音声認識デバイス1と十分に近くにいると判定できるような近距離通信を用いて通信できるか、音声認識デバイス1のカメラ113で同じ部屋にその端末があることを確認できる場合は、その部屋に端末所有者がいると推定して、その部屋にある音声認識デバイス1に対する呼びかけの優先順位を上げる等の対応をとってもよい。
【0124】
<第3実施形態>
(留守宅の監視)
第3実施形態は、
図12に示した第2実施形態の構成を別の利用形態に適用したものであり、留守番モードに関するものである。
図16は、留守番モードへの切替処理を示すフローチャートである。
【0125】
宅内の人物で個々の音声認識デバイス1へのアクセスを許可されている者が留守番モードに切り替えるための第5ホットワード、例えば「留守番宜しく!」と発する。第1~第4音声認識デバイス1A~1Dのいずれかが第5ホットワードを検出すると(S501/Yes)、第5ホットワードを検出した音声認識デバイスの特徴抽出部1205は、声認証データ160に宅内LANのアクセスを許可されている人物として登録された者の声の特徴と、当該音声認識デバイス1で抽出した声特徴データと比較判定する。
【0126】
この判定の仕方は、前述の各実施態様中でも述べている様な手法を用いることで可能である。また、ホットワードの確認とアクセス許可の判定の手順はどちらが先でも後でも良い。
【0127】
特徴抽出部1205が一致すると判定すると(S502/Yes)、コマンド送信部1402は、ホームサーバ601に留守番モードへの移行を指示を送信する(S503)。
【0128】
ホームサーバ601は、留守番モードへの移行指示を受信すると、受信してから所定時間経過後に宅内に在る第1~第4音声認識デバイス1A~1Dの全てに対して所定音量以上の音を感知した場合に、異常音発生の通知をホームサーバ601に送付する留守番モードへ移行させるべく、留守番モード移行指示を行う(S504)。
【0129】
第1~第4音声認識デバイス1A~1Dの其々は、自機に備えられたモード切替部1401により留守番モードに切り替え、留守番モード実行部1407が留守番モードの処理を実行する(S505)。
【0130】
少なくとも1台以上の第1~第4音声認識デバイス1A~1Dが留守番モード中に音声を検出すると(S506/Yes)、音声を検出した第1~第4音声認識デバイス1A~1Dの特徴抽出部1205は、声認証データ160に登録された者(家人)の声特徴データとの比較を行う。検出された音声が声認証データ160に登録された声特徴データと一致すると(S507/Yes)、モード切替部1401は留守番モードから通常モードへ復帰させる(S508)。
【0131】
ステップS507において、特徴抽出部1205が検出された音声データが声認証データ160に登録された者(家人)の声特徴データと一致しないと判定すると(S507/No)、モード切替部1401は警戒モードに切り替え(S509)、警戒モード実行部1409が起動する。
【0132】
警戒モード実行部1409は、警戒モード、例えば第1~第4音声認識デバイス1A~1Dの其々に備えらえたカメラ113を起動して室内の画像データの記録をしたり、音声入力部107が検知した音声の記録処理を実行する。また、ホームサーバ601に対して異常発生情報を送信してもよい。ホームサーバ601は、異常発生情報を受信すると予め登録してある家人の有する携帯電話やスマートフォン等の携帯通信端末71へメール等のアラームを送付する。
【0133】
アラームを受け取った家人は、ホームサーバ601と通信接続することもでき、ホームサーバ601は異常音を検知した音声認識デバイス1の音声入力部107が拾う音を音声データとして受け取り、当該データを家人宛てに直接送付することで宅内の状況を確認することもできる。
【0134】
警戒モードに実行中に、警戒モードの解除条件が充足、例えば帰宅した家人が発した通常モードへの復帰を指示する第1ホットワードを検出すると(S510/Yes)、モード切替部1401は警戒モードを解除し、通常モードに復帰させる(S508)。
【0135】
上記は複数の音声認識デバイス1を用いた例を示したが、音声認識デバイス1は単独でも監視動作が可能である。単独で動作する場合は、音声認識デバイス1がホームサーバ601で実行する機能を備えることになる。又は、ホームサーバ601に代えてインターネット上に存在するクラウドサーバ等を利用することでも良い。
【0136】
本実施形態によれば、宅内の音声認識デバイス1を連携させて、家人が留守の間の音声入力の有無と音声の特徴が登録済の音声か否かに基づいて、警戒モードを起動することができる。これにより、複数の部屋に設置された音声認識デバイス1を用いて宅内への侵入を監視し、異常を感知した後は宅内全体の音声認識デバイス1で警戒モードを実行し、侵入者の追跡や行動及び顔画像記録、また家人への通報が行える。
【0137】
また、上記の異常音を検出した場合には、警告音や警告音声を音声認識デバイス1から出力することも可能である。警告音としては、サイレンなど、音声としては「誰ですか」と言ったものを登録しておけば、異常音検知後に再生可能となり、防犯効果が期待できる。
【0138】
以上の実施態様においては、音声認識デバイス間の1対1の通話について説明しているが、これに限るものではなく、1対複数や複数対複数での通話モードも可能である。この場合、会話モードでの人物の音声データが複数の音声認識デバイスへ送付される。
【0139】
本実施形態によれば、複数の音声認識デバイスを連携して使用することで家庭内等のネットワークを介して宅内コミュニケーションを取ることができる。すなわち、他の部屋や他の場所に設置される音声認識デバイスとの間であたかも同じ部屋や同じ場所にいる者同士の様にコミュニケーションを取ることができるため、別の場所に存する音声認識デバイスを介して他者と円滑なコミュニケーションが図れる。
【符号の説明】
【0140】
1 :音声認識デバイス
100 :連携システム
100a :連携システム
101 :CPU
102 :バス
103 :メモリ
104 :有線LANI/F
105 :無線LANI/F
106 :無線通信I/F
107 :音声入力部
108 :音声出力部
109 :表示出力部
111 :タイマー
113 :カメラ