(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0019】
以下、本発明の好適な実施の形態について、添付の図面を参照しつつ、詳細に説明する。ただし、以下の説明において特に断らない限り、方向や向きに関する記述は、当該説明の便宜上、図面に対応するものであり、例えば実施品、製品または権利範囲等を限定するものではない。
【0020】
<1. 実施の形態>
図1は、音声認識システム1を示す図である。音声認識システム1は、サーバ装置2と、ユーザによって携帯される携帯端末装置3とを備えている。サーバ装置2と携帯端末装置3との間では、データ通信が可能となるように、図示しないネットワークによって接続されている。このようなネットワークとして、例えば、携帯電話網などを利用することができる。
【0021】
なお、音声認識システム1が備えるサーバ装置2や携帯端末装置3の数は、
図1に示す1台に限定されるものではない。すなわち、音声認識システム1は、複数のサーバ装置2や複数の携帯端末装置3から構成されていてもよい。また、後述するサーバ装置2の構成および機能が複数の装置により分担して実現されていてもよい。さらに、サーバ装置2と携帯端末装置3とを接続するネットワークの形態は、単一のネットワークに限定されるものではなく、複合網であってもよい。また、以下の説明では、サーバ装置2を操作する者を「オペレータ」と称し、携帯端末装置3を操作する者を「ユーザ」と称する。
【0022】
図2は、サーバ装置2のブロック図である。サーバ装置2は、CPU20、記憶装置21、操作部22、表示部23および通信部24を備えている。
【0023】
CPU20は、記憶装置21に格納されているプログラム210を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU20は、サーバ装置2が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、サーバ装置2は、一般的なコンピュータとして構成されている。
【0024】
記憶装置21は、サーバ装置2において各種データを記憶する機能を提供する。言い換えれば、記憶装置21がサーバ装置2において電子的に固定された情報を保存する。
【0025】
記憶装置21としては、CPU20の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(CD−ROM、DVD−ROM、PCカード、SDカード、USBメモリなど)等が該当する。
図2においては、記憶装置21を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置21は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置21は、データを記憶する機能を有する装置群の総称である。
【0026】
また、現実のCPU20は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU20が備える記憶装置も、説明の都合上、記憶装置21に含めて説明する。すなわち、一時的にCPU20自体が記憶するデータも、記憶装置21が記憶するとして説明する。
図2に示すように、記憶装置21は、プログラム210、データベース211、選択辞書情報212および更新要求情報311(事象情報372)などを記憶するために使用される。
【0027】
図3は、データベース211の構造を例示する図である。
図3に示すように、データベース211は、1つの音声辞書候補ごとに1つのレコードが作成されるテーブル構造の情報である。データベース211の各レコードには、レコード番号と、事象と、音声辞書候補とが互いに関連づけられて格納される。
【0028】
レコード番号は、データベース211の各レコードを個別に識別するための識別子である。
図3に示す例では、データベース211には、n個のレコードが記録されている(nは2以上の自然数。)。
【0029】
事象は、予め想定されるものであって、例えば、ユーザの状態種別(性別、年齢など)、ユーザの行動種別(調理や学習、通勤など)、周囲の状況種別(天気、季節、時間、屋外や屋内、シーンなど)などである。もちろん、これらの種別が複合的に組み合わされて、1つの事象とされてもよい。事象としては、ユーザの使用する言語の語彙が特徴的に予測できるものを想定することが好ましい。
図3に示すデータベース211の例では、事象として、「ショッピング」、「ジョギング」および「デフォルト」が登録されている。
【0030】
音声辞書候補は、予め想定され、データベース211に登録されている複数の事象に対応して、それぞれ準備される個別の音声辞書である。例えば、「ショッピング」に対応して準備され、関連づけられている第1音声辞書は、ショッピングにおいて使用すると予想される語彙(例えば、商品名や店名、値段、用途などの言葉)を主に含む辞書である。また、例えば、「ジョギング」に関連づけられている第2音声辞書は、ジョギングにおいて使用すると予想される語彙(例えば、ペースや脈拍、コース、アドバイス、消費カロリーなどの言葉)を主に含む辞書である。
【0031】
このように、データベース211に予め登録しておく複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、各語彙に関する認識精度を低下させることなく、音声辞書として使用する情報の容量を抑制することができる。一般的な音声辞書(汎用辞書)は、情報容量が数メガバイト程度である。しかし、事象を特定し、語彙を限定することにより、音声認識システム1は、例えば、音声辞書候補の情報容量として、数キロバイト程度に抑えることができる。
【0032】
なお、事象「デフォルト」に関連づけられている「第n音声辞書」は、現在生じている事象(検索キーとしての事象、詳細後述。)が、レコード番号「001」から「n−1」までの事象に該当しないときにも選択される音声辞書候補とする。ここに示す第n音声辞書は、汎用性のある語彙が登録されているものの、精度(例えば、サンプリング周波数)を抑えた音声辞書である。すなわち、サーバ装置2において、第n音声辞書が選択された場合、使用される音声辞書の情報容量は他の音声辞書候補と同等であるが、認識精度は犠牲となる。
【0033】
すでに説明したように、データベース211の1つのレコードには1つの事象と1つの音声辞書候補とが格納される。そして、データベース211には、複数(n個)のレコードが作成される。すなわち、記憶装置21は、データベース211を記憶することにより、予め想定される複数の事象と、音声辞書の候補となる複数の音声辞書候補とを互いに関連づけて記憶する。したがって、記憶装置21は、第1記憶装置に相当する。
【0034】
詳細は後述するが、
図2に示す選択辞書情報212は、データベース211に登録されている複数の音声辞書候補の中から、CPU20によって選択された1の音声辞書候補を含む情報である。選択辞書情報212は、サーバ装置2から、更新要求情報311(事象情報372)を送信した携帯端末装置3に向けて送信される。
【0035】
更新要求情報311は、携帯端末装置3において作成され、サーバ装置2により受信される情報である。更新要求情報311は、当該携帯端末装置3を個別に識別する識別子(例えば、ネットワークアドレスなど)と、事象情報372とを含む情報である。詳細は後述するが、携帯端末装置3は、更新要求情報311をサーバ装置2に向けて送信することにより、音声辞書の更新をサーバ装置2に要求する。
【0036】
事象情報372は、先述のように、更新要求情報311に含まれる情報である。詳細は後述するが、事象情報372は、当該事象情報372を含む更新要求情報311を送信した携帯端末装置3において現在生じている事象を示す情報である。
【0037】
操作部22は、サーバ装置2に対してオペレータ等が指示を入力するために操作するハードウェアである。操作部22としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。操作部22は、例えば、オペレータがデータベース211を構築する際などに操作される。
【0038】
表示部23は、各種データを表示することによりオペレータ等に対して出力する機能を有するハードウェアである。表示部23としては、例えば、ランプやLED、CRT、液晶ディスプレイや液晶パネルなどが該当する。
【0039】
通信部24は、サーバ装置2が携帯端末装置3とデータ通信を行う機能を提供する。すなわち、サーバ装置2は、通信部24により、携帯端末装置3から送信された情報を受信するとともに、携帯端末装置3に向けて情報を送信する。サーバ装置2が携帯端末装置3から受信する情報としては、例えば、更新要求情報311がある。また、サーバ装置2が携帯端末装置3に向けて送信する情報としては、例えば、選択辞書情報212がある。通信部24は、選択辞書情報212を送信するときに、更新要求情報311を参照して、当該更新要求情報311を送信した携帯端末装置3を特定する。
【0040】
図4は、サーバ装置2が備える機能ブロックをデータの流れとともに示す図である。
図4に示す選択部200は、CPU20がプログラム210に従って動作することにより実現される機能ブロックである。
【0041】
選択部200は、更新要求情報311に含まれる事象情報372に応じて、記憶装置21に記憶されているデータベース211を検索し、複数の音声辞書候補の中から1の音声辞書候補を選択する。また、選択部200は、選択した1の音声辞書候補を含む選択辞書情報212を作成する。
【0042】
事象情報372は、携帯端末装置3において作成される情報であって、当該携帯端末装置3からサーバ装置2に向けて送信される情報である。携帯端末装置3は、音声辞書を更新する必要が生じた場合、事象情報372を含む更新要求情報311を作成し、サーバ装置2に向けて送信する。すでに説明したように、事象情報372は、携帯端末装置3において、現在生じている事象として検出された事象を示す情報である。選択部200は、事象情報372に示される事象を検索キーとして、データベース211を検索し、当該事象に関連づけられている音声辞書候補を特定する機能を有している。
【0043】
したがって、事象情報372に、現在生じている事象として、例えば「ショッピング」が示されている場合、
図3に例示するデータベース211では、「ショッピング」に関連づけられている第1音声辞書が1の音声辞書候補として選択される。この場合、選択部200によって作成される選択辞書情報212は、第1音声辞書となる。
【0044】
作成された選択辞書情報212は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、通信部24により当該更新要求を行った携帯端末装置3に向けて送信される。
【0045】
図5は、携帯端末装置3を示すブロック図である。携帯端末装置3は、CPU30、記憶装置31、操作部32、表示部33、通信部34およびスピーカ35を備えている。
【0046】
CPU30は、記憶装置31に格納されているプログラム310を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU30は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、携帯端末装置3は、一般的なコンピュータとして構成されている。
【0047】
また、CPU30は、動作モードとして、すべての機能を利用可能な通常動作モードと、機能の一部または全部が制限される省電力モードとを有している。省電力モードは、いわゆるスリープモードであり、機能の一部または全部が制限される代わりに、CPU30における消費電力を抑制することができる動作モードである。
【0048】
なお、省電力モードには、複数のモードが段階的に定義されていてもよい。また、以下の説明では、「CPU30が省電力モードで動作する」とは、CPU30が完全に停止する場合も含む意味として使用する。
【0049】
記憶装置31は、携帯端末装置3において各種データを記憶する機能を提供する。記憶装置31としては、CPU30の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(PCカード、SDカード、USBメモリなど)等が該当する。
図5においては、記憶装置31を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置31は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置31は、データを記憶する機能を有し、CPU30によってアクセスされる装置群の総称である。
【0050】
また、現実のCPU30は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU30が備える記憶装置も、説明の都合上、記憶装置31に含めて説明する。すなわち、一時的にCPU30自体が記憶するデータも、記憶装置31が記憶するとして説明する。
図5に示すように、記憶装置31は、プログラム310および更新要求情報311などを記憶するために使用される。
【0051】
操作部32は、携帯端末装置3に対してユーザが指示を入力するために操作するハードウェアである。操作部32としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。
【0052】
表示部33は、各種データを表示することによりユーザに対して出力する機能を有するハードウェアである。表示部33としては、例えば、ランプやLED、液晶ディスプレイや液晶パネルなどが該当する。
【0053】
通信部34は、携帯端末装置3がサーバ装置2とデータ通信を行う機能を提供する。すなわち、携帯端末装置3は、通信部34により、サーバ装置2から送信された情報を受信するとともに、サーバ装置2に向けて情報を送信する。携帯端末装置3がサーバ装置2から受信する情報としては、例えば、選択辞書情報212がある。また、携帯端末装置3がサーバ装置2に向けて送信する情報としては、例えば、更新要求情報311がある。
【0054】
スピーカ35は、音声情報(一般に音声情報374とは異なるが、音声情報374を再生してもよい。)に基づいて、音声を出力する機能を有するハードウェアである。スピーカ35は、ユーザに対して、音声案内をしたり、音楽や放送番組、受話機能などを提供するために用いられる。
【0055】
さらに、携帯端末装置3は、MPU36、記憶装置37、観測装置群38およびマイクロフォン39を備えている。
【0056】
MPU36は、記憶装置37に格納されているプログラム370を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、MPU36は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。
【0057】
また、MPU36は、動作時に消費する電力が少ない演算装置として構成されている。具体的には、CPU30を省電力モードで動作させつつMPU36を動作させた方が、CPU30が通常動作モードで動作する場合に比べて、携帯端末装置3における消費電力が少なくなるように設計されている。すなわち、MPU36は、携帯端末装置3におけるメインの演算装置であるCPU30に比べて処理能力の低い、いわゆる組み込み用途のLSIである。
【0058】
記憶装置37は、携帯端末装置3において各種データを記憶する機能を提供する。言い換えれば、記憶装置37が、記憶装置31と同様に、携帯端末装置3において電子的に固定された情報を保存する。
【0059】
記憶装置37としては、MPU36の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)等が該当する。
図5においては、記憶装置37を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置37は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置37は、データを記憶する機能を有し、MPU36によってアクセスされる装置群の総称である。
【0060】
また、現実のMPU36は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなMPU36が備える記憶装置も、説明の都合上、記憶装置37に含めて説明する。すなわち、一時的にMPU36自体が記憶するデータも、記憶装置37が記憶するとして説明する。
図5に示すように、記憶装置37は、プログラム370、観測情報371、事象情報372、履歴情報373、音声情報374および選択辞書情報212などを記憶するために使用される。
【0061】
観測装置群38は、周囲の環境を示す情報や携帯端末装置3(携帯端末装置3を携帯するユーザ)の動きに関する情報などを検出して、観測情報371を取得する複数の検出装置から構成される。観測装置群38としては、温度センサ、気圧センサ、湿度センサ、照度センサ、振動感知センサ、位置を特定するGPS、周囲の画像を取得する撮像装置、ジャイロセンサ、加速度センサ、磁気センサ、脈拍センサ、血圧センサなどが想定される。
【0062】
また、ジャイロセンサ、加速度センサおよび磁気センサなどは、ユーザの動きに起因する物理量を観測情報371として取得する。ジャイロセンサや加速度センサ、磁気センサなどにより取得された情報に基づいて、携帯端末装置3を所持しているユーザの姿勢を推定したり、行動を推定したりする手法は従来の技術を適宜適用することができるため、ここでは詳細な説明を省略する。なお、後述するマイクロフォン39によって取得される音声情報374を観測情報371の一部とみなしてもよい。
【0063】
観測装置群38は、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、観測情報371の取得が可能とされている。ただし、MPU36により、必要に応じて、観測装置群38のうちの一部の装置が停止されてもよい。
【0064】
マイクロフォン39は、周囲の音声を電気信号に変換し、音声情報374を取得する機能を有するハードウェアである。マイクロフォン39は、観測装置群38と同様に、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、音声情報374の取得が可能とされている。携帯端末装置3がマイクロフォン39を備えることにより、ユーザの発する音声(言語)は、音声情報374に変換され、記憶装置37に記憶される。
【0065】
図6は、携帯端末装置3が備える機能ブロックをデータの流れとともに示す図である。
図6に示すインタフェース部360、事象検出部361および音声認識部362は、MPU36がプログラム370に従って動作することにより実現される機能ブロックである。
【0066】
インタフェース部360は、CPU30とMPU36との間の信号の入出力を制御する機能を有する。インタフェース部360は、CPU30から転送される選択辞書情報212を記憶装置37に記憶させる。また、事象検出部361によって作成された事象情報372をCPU30に向けて転送する。さらに、音声認識部362の認識結果をCPU30に向けて転送する機能も有している。
【0067】
また、インタフェース部360は、必要に応じて、省電力モードで動作しているCPU30の動作モードを通常動作モードに切り替える機能も有している。これにより、MPU36は、例えば、複雑な処理が必要になったときに、CPU30を通常動作モードに復帰させて処理させることができる。
【0068】
事象検出部361は、観測装置群38により取得された観測情報371と履歴情報373とに基づいて、予め想定される複数の事象の中から現在生じている事象を検出する。事象検出部361は、特定の事象(現在生じている事象)を検出した場合には、当該事象を示す事象情報372を作成する。より詳細には、事象検出部361は、常時取得される観測情報371により、現在生じている事象を監視しつつ、現在生じている事象の変化を検出する。そして、事象の変化を検出したときには、新たに現在生じている事象となった事象を示す事象情報372を作成する。
【0069】
また、事象検出部361は、履歴情報373を作成する機能も有している。履歴情報373とは、過去に、どのような観測情報371に基づいて、どの事象を検出したかといった情報である。履歴情報373の具体例としては、例えば、日曜の朝にユーザはジョギングをしたといった情報や、夕方の所定の時刻に料理をしたといった情報、あるいは、所定の位置(お店の場所)では買い物をしたといった情報などである。これにより、ユーザの行動パターンなどに基づいて事象を検出することができるため、事象の検出精度が向上する。
【0070】
なお、履歴情報373には、音声認識部362による認識率などを含めてもよい。このように構成することによって、事象情報372に基づいて選択された音声辞書候補(選択辞書情報212)の認識率をフィードバックすることができ、以後は、さらに適切な音声辞書候補が選択されることとなる。また、履歴情報373は、操作部32がユーザによって操作されることにより、入力された情報に基づいて作成されてもよい。
【0071】
音声認識部362は、マイクロフォン39により取得された音声情報374と、記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する。音声認識部362による音声認識の具体的な手法は、従来の技術を適宜採用することができるため、詳細な説明を省略する。
【0072】
なお、音声認識部362による認識結果は、インタフェース部360を介して、CPU30に伝達されるものとして説明する。ただし、認識結果は、必ずしもCPU30に伝達されなければならないものではない。例えば、MPU36によってのみ処理される情報であってもよい。
【0073】
以上が、音声認識システム1の構成および機能の説明である。次に、音声認識方法について説明する。
【0074】
図7は、サーバ装置2の動作を示す流れ図である。
図7に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、サーバ装置2が実行する工程を示すものである。また、
図7に示す各工程が開始されるまでに、予めデータベース211が作成され、記憶装置21に記憶されているものとする。すなわち、携帯端末装置3側で想定される複数の事象と、複数の音声辞書候補とを互いに関連づけて記憶装置21に記憶する工程は、すでに完了しているものとする。
【0075】
サーバ装置2は、運用が開始されると、携帯端末装置3からの更新要求情報311を受信したか否かを監視する(ステップS1)。
【0076】
更新要求情報311を受信すると(ステップS1においてYes。)、選択部200は、受信された更新要求情報311に含まれる事象情報372に基づいて、データベース211を検索する。
【0077】
すでに説明したように、更新要求情報311に含まれる事象情報372には、携帯端末装置3において、「現在生じている事象」が示されている。したがって、選択部200は、当該現在生じている事象を検索キーとしてデータベース211を検索することにより、当該現在生じている事象に関連づけられている音声辞書候補をデータベース211から選択する(ステップS2)。
【0078】
データベース211において各事象に関連づけられている音声辞書候補は、各事象に対応して最適化され、登録された音声辞書である。したがって、選択部200が、携帯端末装置3において現在生じている事象に関連づけられている音声辞書候補を選択することにより、現在生じている事象に最も適した音声辞書候補が選択されることになる。例えば、現在生じている事象として、「ジョギング」が示されている場合、選択部200は、ジョギングしているユーザに適した音声辞書として作成されている第2音声辞書を選択することができる。
【0079】
ステップS2を実行すると、選択部200は、選択した音声辞書候補と、選択に使用した事象情報372を含む更新要求情報311を識別するための識別子とを含む選択辞書情報212を作成する(ステップS3)。
【0080】
このようにして、新たに選択辞書情報212が作成されると、通信部24は、選択辞書情報212に含まれる識別子に基づいて更新要求情報311を特定する。そして、通信部24は、特定した更新要求情報311を送信した携帯端末装置3を特定して、当該携帯端末装置3に向けて、当該更新要求情報311を送信する(ステップS4)。これにより、サーバ装置2は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、選択辞書情報212を送信する。
【0081】
図8は、携帯端末装置3の動作を示す流れ図である。
図8に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、携帯端末装置3が実行する工程を示すものである。また、
図8に示す各工程が開始されるまでに、予め第n音声辞書が記憶装置37に選択辞書情報212として記憶されているものとする。すなわち、携帯端末装置3において、デフォルトの音声辞書(第n音声辞書)を記憶装置37に記憶する工程は、すでに完了しているものとする。
【0082】
なお、
図8には、CPU30を通常動作モードから省電力モードに切り替える工程を図示していない。このような動作モードの切り替えは、例えば、所定の期間、ユーザによる操作が検出されないときや、ユーザによる直接の指示(省電力モードへの切り替え指示)があったとき、あるいは、利用中のアプリケーションによって判断されたときなどに実行される。ただし、省電力モードへの切り替えのトリガとなるものは、これらに限定されるものではない。
【0083】
携帯端末装置3は、電源が投入されると、所定の初期設定を実行した後、音声認識を実行することが可能な状態に遷移する。この状態を、以下、「運用開始状態」と称する。運用開始状態において、CPU30の動作モードは、通常動作モードまたは省電力モードである。また、運用開始状態において、携帯端末装置3は、ユーザによって携帯されているものとする。
【0084】
運用開始状態において、携帯端末装置3は、観測装置群38により観測情報371を作成する(ステップS11)。ステップS11は、ユーザの指示がなくても、周期的かつ継続的に実行される。ステップS11において作成された観測情報371は、記憶装置37に格納される。
【0085】
観測情報371が記憶装置37に格納されると、事象検出部361は、当該観測情報371と、履歴情報373とに基づいて、現在生じている事象を検出する。より詳細には、事象検出部361は、観測装置群38により取得された観測情報371を分析して状況を把握するとともに、履歴情報373に基づいてユーザの行動パターン等を参照することにより現在生じている事象を推定する。さらに、事象検出部361は、すでに記憶されている事象情報372と比較することにより、事象が変化したか否かを判定する(ステップS12)。
【0086】
このように、携帯端末装置3は、運用開始状態において、常時、観測情報371の取得を行い、かつ、現在生じている事象に変化がないか否かを監視している。すなわち、通常動作モードのときは当然として、省電力モードにおいても、ステップS12の処理は実行される。さらに、ステップS12の処理に際して、ユーザからの特別な指示を必要としないため、ユーザが特に意識しなくても、ステップS12の処理は実行される。なお、事象情報372に示される事象の初期値は、「デフォルト」である。
【0087】
事象に変化が生じており、ステップS12においてYesと判定すると、携帯端末装置3は、更新要求処理を実行する(ステップS13)。
【0088】
図9は、携帯端末装置3が実行する更新要求処理を示す流れ図である。更新要求処理とは、携帯端末装置3が、サーバ装置2に対して、新しい音声辞書を送信するように要求する処理である。
【0089】
更新要求処理が開始されると、事象検出部361は、検出した事象(新たに生じた事象)を示す新たな事象情報372を作成する(ステップS31)。また、事象検出部361は、新たに作成した事象情報372により、記憶装置37にすでに記憶されている事象情報372を更新する。
【0090】
さらに、事象検出部361は、新たに作成した事象情報372(検出結果)や、当該事象情報372を作成する際に参照した観測情報371(検出結果の元となった情報)などに基づいて、履歴情報373を更新する(ステップS32)。これにより、過去における事象の検出結果などが蓄積される。
【0091】
次に、インタフェース部360は、事象情報372が更新されたことを検出して、CPU30の動作モードが省電力モードであるか否かを判定する(ステップS33)。そして、動作モードが省電力モードの場合(ステップS33においてYes。)、動作モードを通常動作モードに切り替える(ステップS34)。一方、省電力モードでない場合(ステップS33においてNo。)、インタフェース部360は、ステップS34の処理をスキップする。
【0092】
ステップS33およびS34の処理を、より具体的に説明する。事象情報372が更新され、当該事象情報372をCPU30に向けて送信する必要が生じたときに、インタフェース部360は、CPU30に向けて割り込み信号を通知する。MPU36(インタフェース部360)からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、実際のインタフェース部360は、ステップS33において、CPU30が省電力モードであるか否かについて判定するわけではない。
【0093】
ステップS33およびS34が実行された後において、CPU30は必ず通常動作モードとなり、事象情報372を受け取れる状態となる。したがって、インタフェース部360は、新たに作成された事象情報372をCPU30に向けて転送する(ステップS35)。
【0094】
MPU36から事象情報372を受け取ると、CPU30は、当該事象情報372に基づいて、更新要求情報311を作成する(ステップS36)。更新要求情報311は、すでに説明したように、事象情報372および携帯端末装置3の識別子(例えば、ネットワークアドレスなど)を含む情報である。
【0095】
更新要求情報311を作成すると、CPU30は、当該更新要求情報311をサーバ装置2に向けて送信するように通信部34を制御する。これにより、通信部34が、更新要求情報311をサーバ装置2に向けて送信する(ステップS37)。
【0096】
ステップS37が実行され、通信部34が更新要求情報を送信すると、携帯端末装置3は、更新要求処理を終了して、
図8に示す処理に戻る。
【0097】
図8に戻って、ステップS12においてNoと判定した場合、携帯端末装置3はステップS13をスキップする。したがって、現在生じている事象に変化が生じない限り、携帯端末装置3が更新要求処理(ステップS13)を実行することはなく、更新要求情報311がサーバ装置2に向けて送信されることもない。
【0098】
運用開始状態において、携帯端末装置3は、マイクロフォン39により音声情報374を作成する(ステップS14)。ステップS14は、運用開始状態において、ユーザの指示がなくても、周期的かつ継続的に実行される。ステップS14において作成された音声情報374は、記憶装置37に格納される。
【0099】
音声情報374が記憶装置37に格納されると、音声認識部362は、当該音声情報374と、選択辞書情報212とに基づいて、音声認識を実行し(ステップS15)、認識に成功したか否かを判定する(ステップS16)。
【0100】
このように、携帯端末装置3では、ステップS14ないしS16における処理が、MPU36によって実現されており、CPU30が省電力モードであっても、実行することが可能である。すなわち、音声認識システム1は、消費電力を抑制しつつ、常時、音声認識を実行することができるように構成されている。
【0101】
また、ステップS14ないしS16における処理は、携帯端末装置3の運用開始状態において、ユーザの特別な指示がなくても実行される処理として構成されている。したがって、ユーザは、特に意識することなく、音声認識を利用することができ、ユーザの負担が軽減される。
【0102】
音声認識部362が認識に成功した場合(ステップS16においてYes。)、MPU36は、認識結果を実行する(ステップS17)。
【0103】
ステップS17における認識結果の実行とは、MPU36がCPU30に向けて認識結果を転送することである。具体的には、まず、音声認識部362が、当該認識結果をインタフェース部360に伝達する。次に、インタフェース部360が、音声認識部362から伝達された認識結果をCPU30に向けて転送する。
【0104】
なお、認識結果をCPU30に向けて転送するときに、CPU30が省電力モードであった場合、インタフェース部360は、CPU30の動作モードを通常動作モードに切り替えてから、当該認識結果を転送する。
【0105】
現在生じている事象として「ジョギング」が検出されており、第2音声辞書候補が選択辞書情報212として記憶装置37に記憶されている状態を例に、CPU30が実行する処理を説明する。このような状態で、例えば、ユーザが「脈拍」と発声すると、音声認識部362が第2音声辞書候補を用いて音声認識を行い、「脈拍」という言葉(テキスト情報)を認識結果としてCPU30に伝達する。
【0106】
MPU36から認識結果を受け取ったCPU30は、当該認識結果に応じた処理を実行する。
【0107】
上記に示す例では、CPU30は、ユーザの「脈拍」という発声に対する処理として、ユーザの脈拍数を計測して音声案内するようにスピーカ35を制御する。これにより、スピーカ35から、例えば、「120」などの音声が再生される。したがって、ユーザは、携帯端末装置3を目視して閲覧し、操作しなくても、携帯端末装置3を使用することができる。
【0108】
運用開始状態において、サーバ装置2から送信された選択辞書情報212を通信部34が受信すると(ステップS18においてYes。)、携帯端末装置3は、動作モードが省電力モードであるか否かを判定する(ステップS19)。そして、動作モードが省電力モードの場合(ステップS19においてYes。)、動作モードを通常動作モードに切り替える(ステップS20)。一方、省電力モードでない場合(ステップS19においてNo。)、携帯端末装置3は、ステップS20の処理をスキップする。
【0109】
ステップS18ないしS20の処理を、より具体的に説明する。通信部34は、運用開始状態において、ネットワークを監視しており、当該ネットワークを介して携帯端末装置3に着信があったか否かを監視している。そして、通信部34が着信を検出した場合には、通信部34からCPU30に向けて割り込み信号が通知される。したがって、実際の通信部34は、ステップS18において、受信された情報が選択辞書情報212であるか否かについて判定するわけではない。
【0110】
通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、CPU30は、ステップS19において省電力モードか否かを判定するわけではない。
【0111】
ステップS19においてNoの場合、または、ステップS20が実行された場合、CPU30は、通信部34が受信した選択辞書情報212をMPU36(インタフェース部360)に向けて転送する。CPU30から選択辞書情報212が転送されると、インタフェース部360は、記憶装置37に、当該選択辞書情報212を記憶させる(ステップS21)。これにより、携帯端末装置3において、すでに記憶されていた選択辞書情報212が、新たに受信された選択辞書情報212に更新される。
【0112】
すでに説明したように、初期状態において、携帯端末装置3の記憶装置37には、第n音声辞書が選択辞書情報212として記憶されている。この状態において、例えば、事象「ジョギング」に関連づけられている第2音声辞書が選択辞書情報212として受信されると、ステップS21が実行されることにより、第n音声辞書が第2音声辞書に更新されることになる。
【0113】
例えば、ジョギング中のユーザが使用する言葉(携帯端末装置3に対して入力する言葉)は、ジョギングに関連する語彙に限られると予想できる。したがって、現在生じている事象として「ジョギング」が検出されたときに、ジョギングに対応して語彙が取捨選択された第2音声辞書を音声認識に用いることにより、音声認識の精度を低下させることなく、通常の音声辞書に比べて情報容量(サイズ)を減らした音声辞書を使用することができる。
【0114】
このように、音声認識システム1は、音声辞書のサイズが小さいため、応答性能がよいという利点がある。すでに説明したように、音声認識システム1では、携帯端末装置3において新しい事象が検出されるたびに、それに応じた音声辞書がサーバ装置2から携帯端末装置3にダウンロードされる。もし、ダウンロードする音声辞書のサイズが大きければ、ダウンロードに時間を要し、音声辞書を準備するまでの時間が増大することになり、応答性能が低下する。しかし、音声認識システム1は、ダウンロードする音声辞書(選択辞書情報212)のサイズが小さいため、ダウンロードに要する時間は短く、応答性能が犠牲にならずに済む。
【0115】
また、音声辞書のサイズが小さいため、記憶装置37の記憶容量が小さくて済むとともに、MPU36のような比較的処理能力の低い演算装置でも音声認識を実行することができる。したがって、システム全体として、コストを抑制することができる。
【0116】
また、特開2010−191223号公報に記載されている技術では、作業者(ユーザ)は、「会計入ります」というように、これからの作業の内容などを示す音声を入力しなければ、音声辞書の切り替えが行われない。すなわち、音声辞書を切り替えるためのトリガは、ユーザ自身が、意識的に確実に実行しなければならない。しかし、音声認識システム1は、観測装置群38によって、継続的に、かつ、ユーザに意識させることなく取得される観測情報371に基づいて現在生じている事象を自動的に検出し、これをトリガとして更新要求(更新要求処理)を行う。したがって、ユーザは、音声辞書を切り替えるためのトリガを与えることを特に意識する必要がなく、ユーザの負担が軽減される。
【0117】
また、従来の技術では、音声辞書の選択は、位置情報に基づいて行われるため、ユーザは、目的の音声辞書が選択される位置でしかトリガを与えることができない。したがって、従来の技術は、ユーザが、自身の存在位置と音声辞書との対応関係をよく理解していなければ、逆に、不適切な音声辞書を選択するおそれがある。しかし、音声認識システム1は、多様な観測情報371(および履歴情報373)に基づいて現在生じている事象を検出するため、ユーザに頼ることなく、最適な音声辞書を選択することができる。
【0118】
また、従来の技術では、音声辞書の選択が位置情報のみに基づいて行われるため、位置に関係のない事象に基づいて音声辞書を最適化することができず、汎用性が低いとともに、語彙の絞り込みも不十分という問題がある。しかし、音声認識システム1は、多様な観測情報371に基づいて現在生じている事象を検出するため、より状況に応じた音声辞書を選択することが可能となる。
【0119】
以上のように、音声を音声辞書により認識する音声認識システム1は、通常動作モードと通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能なCPU30と、予め想定される複数の事象と音声辞書の候補となる複数の音声辞書候補とを関連づけるデータベース211を記憶する記憶装置21と、事象を検出するための物理量を観測情報371として取得する観測装置群38と、音声を音声情報374として取得するマイクロフォン39と、選択辞書情報212を記憶する記憶装置37と、記憶装置37にアクセスするMPU36とを備えている。そして、MPU36は、観測装置群38により取得された観測情報371に基づいて、予め想定される複数の事象の中から現在生じている事象を検出する事象検出部361と、マイクロフォン39により取得された音声情報374と記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する音声認識部362とを備える。また、音声認識システム1は、事象検出部361により現在生じている事象として検出された事象に応じて、記憶装置21に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択部200をさらに備え、選択部200により選択された選択辞書情報212を音声辞書として記憶装置37に記憶させる。さらに、音声認識システム1では、CPU30を省電力モードで動作させつつMPU36を動作させたときの消費電力が、CPU30を通常動作モードで動作させたときの消費電力よりも小さくなるように設計されている。これにより、消費電力の低いMPU36に音声認識を実行させることにより、消費電力を抑制することができる。また、サイズの小さい選択辞書情報212を音声認識に使用したとしても、選択辞書情報212が事象に応じて最適化されているため、認識率を低下させることがない。
【0120】
また、観測装置群38は、ユーザの動きに起因する物理量を観測情報371として取得し、事象検出部361は、現在生じている事象として、ユーザの行動を推定する。ユーザの発する音声(言葉)は、ユーザの行動との関連性が高い。したがって、ユーザの行動を推定することで、より最適な音声辞書を選択することができる。すなわち、音声認識の精度が向上する。
【0121】
また、事象検出部361は、ユーザの姿勢を推定することにより、当該ユーザの行動を推定する。ユーザの行動は、ユーザの姿勢との関連性が高いため、ユーザの行動推定精度が向上する。
【0122】
また、複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、認識精度を低下させることなく、音声辞書(選択辞書情報212)のサイズを抑制することができる。
【0123】
また、音声認識システム1電力の自給能力の低い携帯端末装置3に適用することにより、消費電力の抑制効果がより顕著となる。
【0124】
また、記憶装置37は、過去の履歴情報373を記憶しており、事象検出部361は、記憶装置37に記憶された履歴情報373に基づいて、現在生じている事象を推定する。したがって、事象の推定精度が向上する。
【0125】
なお、上記実施の形態では、CPU30を省電力モードから通常動作モードに切り替える工程として、ステップS20およびステップS34のみを説明した。ただし、CPU30を通常動作モードに切り替えるトリガとなるものは、これらの工程を実行する条件となるものに限定されるわけではない。
【0126】
<2. 変形例>
以上、本発明の実施の形態について説明してきたが、本発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
【0127】
例えば、上記実施の形態に示した各工程は、あくまでも例示であって、上記に示した順序や内容に限定されるものではない。すなわち、同様の効果が得られるならば、適宜、順序や内容が変更されてもよい。例えば、事象情報372を更新する工程(ステップS31)と、履歴情報373を更新する工程(ステップS32)との順序を入れ替えても、本発明を実現することができる。
【0128】
また、上記実施の形態に示した選択部200は、CPU20がプログラム210に従って動作することにより、ソフトウェア的に実現されると説明した。また、インタフェース部360や事象検出部361、および、音声認識部362は、MPU36がプログラム370に従って動作することにより、ソフトウェア的に実現されると説明した。しかし、これらの機能ブロックの一部または全部を専用の論理回路で構成し、ハードウェア的に実現してもよい。
【0129】
また、上記実施の形態では、サーバ装置2にデータベース211が記憶され、サーバ装置2が備えるCPU20(選択部200)が音声辞書候補の選択を行う例で説明した。しかし、例えば、データベース211に相当する情報を携帯端末装置3の記憶装置31に記憶しておき、CPU30が音声辞書候補を選択してMPU36に伝達するように構成してもよい。