【実施例1】
【0010】
図1は、本発明の一実施例による携帯端末装置100の内部構成例を示すブロック図である。
【0011】
ここでは、スマートフォンの場合を例にして説明する。携帯端末100は、制御部101、音声認識部102、口唇動き認識部103、メモリ104、ストレージ105、GPS(Global Positioning System)受信部106、地磁気センサ107、加速度センサ108、ジャイロセンサ109、基地局通信部110、無線通信部111、マイク112、音声処理部113、スピーカ114、音声出力部115、タッチパネル116、操作入力部117、表示部118、画像処理部119、撮像部120、入出力I/F121を備え、それぞれはバス150に相互に接続されている。
【0012】
基地局通信部110は、W−CDMA(Wideband Code Division Multiple Access)やGSM(登録商標)(Global System for Mobile communications)などの基地局400と遠距離の無線通信を行う通信インターフェースである。これにより基地局500を通して外部ネットワーク600に接続し、情報の送受信を行うこともできる。
【0013】
制御部101はCPU(Central Processing Unit)等で構成されは、メモリ104に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。
【0014】
音声認識部102はマイク112から音声処理部113を介して取り込んだ操作者の音声を認識し、音声で指示した操作を認識するものである。また、口唇動き認識部103は撮像部120から画像処理部119を介して取り込んだ操作者の口唇を含む映像を認識し、操作者の口唇の動きで指示した操作を認識するものである。
【0015】
制御部101は、操作者の音声から認識した結果により操作を実行するか、操作者の口唇の動きから認識した結果により操作を実行するかを選択し、選択した結果に基づいて操作を実行する。
【0016】
メモリ104は、フラッシュメモリなどであり、プログラム、データなどを記憶している。上記した音声認識部102や口唇動き認識部103で認識のために使用するデータはメモリ104の所定の領域104a,104bに保存されている。
【0017】
さらに携帯端末100はメモリカードなどのストレージ105を備えており、ストレージ105にもメールアドレスや音楽、ビデオ、写真のデータなどを保存することができる。
【0018】
メモリ104或いはストレージ105に記憶されるプログラム或いはデータは、基地局通信部110が基地局と無線通信を行い、図示しない外部サーバーなどからダウンロードすることにより、随時更新・追加することが可能である。また、入出力I/F121を介してパソコン等の外部機器300と接続し、データやプログラム等を更新、追加することも可能である。
【0019】
GPS受信部106は、上空にあるGPS衛星からの信号を受信するものである。これにより、携帯端末100の現在位置を検出することができる。
【0020】
地磁気センサ107は携帯端末100の向いている方向を検出するセンサである。
【0021】
加速度センサ108は携帯端末100の加速度を検出するセンサ、ジャイロセンサ109は、携帯端末100の角速度を検出するセンサである。これらにより、携帯端末100の傾き、動きを詳細に検出することができる。
【0022】
無線通信部111は、IEEE802.11a/b/nなどの無線LANによる無線通信を行う通信インターフェースであり、無線ルータ500を介して外部ネットワーク600に接続することができる。
【0023】
マイク112は、外部の音声を入力するものであり、スピーカ111は、外部に対して音声を出力するものである。外部音声出力部115はイヤフォン200を接続して音声を出力するものである。入出力される音声は、音声処理部113にて音声処理される。
【0024】
タッチパネル116は、操作入力部117、表示部118からなる。表示部118はLCDなど映像や画像を表示するものであり、その表示面にはタッチパッドのような操作入力部117を有する。
【0025】
操作入力部117は、例えば静電容量式などのタッチパッドであり、指やタッチペンなどによる接触操作(以降、タッチという)を操作入力として検出するものである。
【0026】
撮像部120は、カメラなどである。表示部118に表示される映像や、撮像部120から入力された映像は、画像処理部119にて処理される。
【0027】
入出力I/F121は、例えばUSB(Universal Serial Bus)などであり、外部機器300とデータの送受信を行うインターフェースである。
【0028】
次に携帯端末装置100において、音声認識或いは口唇動き認識により操作を実行する制御部101の処理のフローチャートの例を
図2に示す。
【0029】
図2において、まず携帯端末装置100の状態により実行可能な操作の選択肢から、どのような操作を行うかを決定する(S201)。
図3に携帯端末装置100の状態に対応した実行可能な操作のテーブルの例を示す。例えば、ホーム画面が表示されている状態では「音楽再生」や「メール」等が操作選択肢となり、音楽を再生している状態では「停止」や「前スキップ」等が操作選択肢となる。次に、操作を行う対象を選択する必要の有無により分岐処理を行う(S202)。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作(音楽再生など)を行う対象(曲など)の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作(停止など)を行う対象の選択は必要ない。操作対象の選択がある場合(Yes)には,操作対象を決定する処理S203を行い、選択した操作対象(例えば曲)に対して、操作(例えば音楽再生)を実行する(S204)。分岐処理S202で操作対象の選択がない場合(No)には操作(例えば停止)を実行する。
図3に示した携帯端末装置の状態に応じた操作選択肢のテーブルデータはメモリ領域104cに記憶されている。
図4は操作決定処理S201の一例を示すフローチャートである。
【0030】
図4において、まずマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S401)。次に、音声認識部102で音声認識操作決定処理S402を行い、口唇動き認識部103で口唇動き認識操作決定処理S403を行う。分岐処理S404では音声認識操作決定処理S402で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識操作決定処理S402で認識した結果に基づいてどのような操作を行うかを決定する(S405)。次に分岐処理406で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新し(S407)、マナーモードを解除(S408)して処理を終了する。マナーモード解除以降の操作においては、スピーカ114から(或いはイヤフォン200が接続されている場合には外部音声出力部115を介して、イヤフォンから)の音声による操作ガイド、音による着信案内等を行う。一方、分岐処理S406で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、マナーモードを解除(S408)して処理を終了する。
【0031】
分岐処理S404で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理409で口唇動き認識フラグにより口唇動き認識操作決定処理S403で認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識操作決定処理S403で認識した結果に基づいてどのような操作を行うかを決定(S410)し、マナーモードを設定(S411)して処理を終了する。マナーモードにおいてはスピーカ114からの出力をオフとし、音声無しの画面表示での操作ガイド或いは着信案内等を行う。一方、分岐処理S409で口唇動き認識フラグにより口唇動き認識が失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S401)に戻る。
【0032】
以上の処理により、音声認識操作決定処理に成功した場合には音声認識結果に従って操作が決定され、音声認識操作決定処理に失敗して口唇動き認識操作決定処理に成功した場合には口唇動き認識に従って操作が決定される。また、音声認識に成功し、口唇動きデータの取得に成功した場合にはメモリ領域104bの口唇動き認識データの更新が行われる。
【0033】
以上の説明のように、雑踏等で騒音が大きい環境や図書館等で声を出すのがふさわしくない環境で音声認識操作決定処理が行えない場合にも、口唇動き認識操作決定処理を行うことでどのような操作を行うかを決定することができる。また、マナーモードの設定・解除が音声認識及び口唇動き認識の処理によって自動的に行うことが可能となる。
【0034】
図5は音声及び口唇部分を含む映像を取り込む処理S401の一例を示すフローチャートである。
【0035】
図5において、まず音声及び映像の取り込み開始を判断する(S501)。取り込み開始の判断としては、例えば
図6に示す携帯端末装置100のタッチパネル116の所定の部位Mがタッチされたかにより判断を行う。所定の部位Mがタッチされた(Yes)と判断すると、音声及び口唇部分の映像の取り込み(S502)を開始するとともに、取り込んだ映像を携帯端末装置100の表示部118の所定の部位Wに表示する(S503)。口唇動き検出部103により、取り込んだ映像により口唇部分が撮影範囲から外れていないかを検出する(S504)。分岐処理S505では口唇検出結果により分岐処理を行い、
図6(a)のように、口唇部分が撮影範囲から外れていない(Yes)の場合には、例えば表示部118の所定の部位Wの表示枠を青色とする(S506)。
図6(b)のように口唇部分が撮影範囲から外れている(No)と判断した場合には、例えば表示部118の所定の部位Wの表示枠を赤色とする(S507)。分岐処理S508では音声及び映像の取り込み終了を判断する。取り込み終了の判断としては、携帯端末装置100のタッチパネル116の所定の部位Mが再度タッチされたかにより判断を行う。所定の部位Mがタッチされていない(No)と判断した場合にはS502に戻り、音声及び映像の取り込みを続ける。所定の部位Mがタッチされた(Yes)と判断すると、音声及び口唇部分の映像の取り込みを終了し(S509)、処理を終了する。
【0036】
以上の処理により、音声及び口唇部分の映像の取り込みが行われる。また、取り込んだ映像の表示及び表示枠の色により口唇部分が撮影範囲から外れたかどうかを容易に判断することができ、操作者が撮影位置を修正することができる。なお、ここでは口唇部分の映像が撮影範囲から外れたかどうかを操作者に知らせる方法として表示枠の色を変えるようにしたが、他の表示方法により知らせるようにしてもよい。
【0037】
次に,音声認識部102における音声認識操作決定処理S402のフローチャートの一例を
図7に示す。
【0038】
図7において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターン(具体的には,スペクトルやケプストラムの時系列)を抽出する(S701)。次にHMM(Hidden Markov Model)による音響モデルとしてメモリ領域104aに記憶された操作選択肢に対応する音声認識データとの尤度を計算する(S702)。分岐処理S703では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S704)、最大確率を与える操作選択肢を認識結果として決定し(S705)、処理を終了する。一方、分岐処理S703でNoと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをNGとして(S706)、処理を終了する。
【0039】
次に、口唇動き認識部103における口唇動き認識操作決定処理S403について、
図8の例を用いて説明する。
【0040】
図8のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S801)。口唇の動きのデータとしては、例えば
図9に示すように口唇の横の大きさXと口唇の縦の大きさYの時間的な変化を検出する。
口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理S801において口唇動きデータの取得に失敗した場合には、分岐処理802においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S803、S809)し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S802においてYesと判断し、口唇検出フラグをOKに設定(S804)する。次に、この取得した口唇動きデータとメモリ領域104bに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する(S805)。分岐処理S806では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S807)、最大確率を与える操作選択肢を認識結果として決定し(S808)、処理を終了する。一方、分岐処理S806でNoと判断した場合には口唇動き認識フラグをNGとし(S809)、処理を終了する。
【0041】
図10に口唇動き認識データXr(t)、Yr(t)と取得した口唇動きデータXd(t)、Yd(t)の例を示す。
図10(a)は操作選択肢「音楽再生(おんがくさいせい)」に対応し、
図10(b)は「ビデオ再生(びでおさいせい)」に対応する。Xは口唇の横の大きさ、Yは口唇の縦の大きさを示している。例えば母音「あ」に対応する「が」「さ」の口唇の大きさはX、Yともに大きくなっている。一方、母音「い」に対応する「い」「び」の口唇の大きさXは比較的大きいのに対して、Yは小さくなっている。このように、口唇の動きとして取得した口唇動きデータXd(t)、Yd(t)とメモリ104に記憶された操作選択肢に対応する口唇動き認識データXr(t)、Yr(t)から口唇の大きさX,Yの時間的変化が最も近い選択肢を認識結果として決定することができる。
【0042】
口唇動き認識データ更新処理S407の一例を、
図11を用いて説明する。
【0043】
図11(a)は更新前の口唇動き認識データYr(t)を、
図11(b)は取得した口唇動きデータYd(t)を、
図11(c)は更新後の口唇動き認識データYr(t)‘を示している。ここで、更新後の口唇動き認識データYr(t)‘を以下の式で定義する。
【0044】
(数1) Yr(t)‘=Yr(t)+α・(Yd(t)-Yr(t))
更新後の口唇動き認識データYr(t)‘は次の口唇動き認識における口唇動き認識データYr(t)として用いられる。
ここで、αは口唇動き認識データが取得した口唇動きデータに収束する速さを決定する係数であり、例えば、α=1とすると、
(数2) Yr(t)‘=Yd(t)
となり、取得した口唇動きデータYd(t)が次の口唇動き認識における口唇動き認識データとなる。α=0.5とすると、
(数3) Yr(t)‘=0.5・(Yd(t)+Yr(t))
となり、取得した口唇動きデータYd(t)と更新前の口唇動き認識データYr(t)の平均が次の口唇動き認識における口唇動き認識データとなる。αの範囲は、
(数4) 0<α<1
が選ばれる。αが大きいほど口唇動き認識データが取得した口唇動きデータに早く収束する。
図11(c)はα=0.5の場合を示している。
【0045】
更新後の口唇動き認識データXr(t)‘も同様に次式で与えられる。
【0046】
(数5) Xr(t)‘=Xr(t)+α・(Xd(t)-Xr(t))
以上の処理により、更新後の口唇動き認識データXr(t)’、Yr(t)’は更新前よりも実際に取得した口唇動きに近いデータに更新され、次の口唇動き認識において口唇動き認識データXr(t)、Yr(t)として用いられる。これを繰り返すことで、より操作者の口唇動きに合わせた口唇動き認識データXr(t)、Yr(t)を得ることができ、口唇動き認識の精度を向上することができる。
【0047】
以上の音声認識操作決定処理、或いは口唇動き認識操作決定処理によりどのような操作を行うかを決定することができる。
【0048】
次に操作を行う対象を決定する処理(S203)について説明する。
【0049】
図12に操作対象決定処理のフローチャートの例を示す。
【0050】
図12において、まずマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S1201)。次に、音声認識カテゴリ決定処理S1202、口唇動き認識カテゴリ決定処理S1203を行う。分岐処理S1204では音声認識カテゴリ決定処理S1202で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識カテゴリ決定処理S1202で認識した結果に基づいて操作対象のカテゴリを決定する(S1205)。次に分岐処理1206で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新(S1207)し、次の処理S1210に進む。一方、分岐処理S1206で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、次の処理S1210に進む。
【0051】
分岐処理S1204で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理1208で口唇動き認識フラグにより口唇動き認識カテゴリ決定処理S1203で認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識カテゴリ決定処理S403で認識した結果に基づいて操作対象のカテゴリを決定し(S1209)、次の処理S1210に進む。一方、分岐処理S1208で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S1201)に戻る。
【0052】
S1210では再度音声及び操作者の少なくとも口唇部分を含む映像を取り込む。取り込んだ音声及び映像をもとに音声認識操作対象決定処理S1211、口唇動き認識操作対象決定処理S1212を行う。分岐処理S1213では音声認識操作対象決定処理S1211で認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識操作対象決定処理S1211で認識した結果に基づいて操作対象を決定する(S1214)。次に分岐処理S1215で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新し(S1216)、処理を終了する。一方、分岐処理S1215で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、処理を終了する。
【0053】
分岐処理S1213で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理1217で口唇動き認識フラグにより口唇動き認識操作対象決定処理S1212で口唇動き認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識操作対象決定処理S1212で認識した結果に基づいて操作対象を決定(S1218)し、処理を終了する。一方、分岐処理S1217で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S1210)に戻る。
【0054】
図13は口唇動き認識カテゴリ決定処理の一例を示すフローチャートである。
【0055】
図13のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1301)。口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータ取得処理S1301において口唇動きデータの取得に失敗した場合には、分岐処理1302においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1303、S1309)し、処理を終了する。一方、口唇動きデータ取得処理S1301において入力された口唇の映像からの口唇動きデータの取得に成功した場合には、分岐処理1302においてYesと判断し、口唇検出フラグをOKに設定する(S1304)。次に、この取得した口唇動きデータとメモリ領域104bに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する(S1305)。
【0056】
図14に操作に対応したカテゴリ選択肢のテーブルの例を示す。音楽、写真等のデータに付与されているメタデータの属性がカテゴリに相当する。例えば各音楽データには曲名、アーティスト、アルバム等の属性(カテゴリ)に関するデータがメタデータとして付与されている。
【0057】
分岐処理S1306では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S1307)、最大確率を与える操作カテゴリを認識結果として決定し(S1308)、処理を終了する。一方、分岐処理S1306でNoと判断した場合には口唇動き認識フラグをNGとし(S1309)、処理を終了する。
【0058】
次に、音声認識カテゴリ決定処理(S1202)について説明する。
【0059】
図15は音声認識カテゴリ決定処理の一例を示すフローチャートである。
【0060】
図15において、まずマイク112から音声処理部113を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S1501)。次にHMMによる音響モデルとしてメモリ領域104aに記憶されたカテゴリ選択肢に対応する音声認識データとの尤度を計算する(S1502)。分岐処理S1503では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には認識フラグをOKとし(S1504)、最大確率を与えるカテゴリ選択肢を認識結果として決定し(S1505)、処理を終了する。一方、分岐処理S1503でNoと判断した場合には、騒音等により音声認識に失敗したと判断し、認識フラグをNGとし(S1506)、処理を終了する。
【0061】
以上の口唇動き認識カテゴリ決定処理、或いは音声認識カテゴリ決定処理により操作対象がどのカテゴリに属するかを決定することができる。
【0062】
次に、決定したカテゴリに属する操作対象を決定するための口唇動き認識操作対象決定処理、および音声認識操作対象決定処理について説明する。
【0063】
図16は口唇動き認識操作対象決定処理の例を示すフローチャートである。
【0064】
図16のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1601)。口唇動きデータ取得処理S1601において口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理S1602においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1603、S1611)し、処理を終了する。一方、口唇動きデータ取得処理S1601において入力された口唇部分の映像からの口唇動きデータの取得に成功した場合には、分岐処理S1602においてYesと判断し、口唇検出フラグをOKに設定する(S1604)。ストレージ105に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。S1605では選択したカテゴリの属性部分の記述に対応した口唇動き認識データ(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した口唇動き認識データ)と取得した口唇動きデータとの尤度を計算する。分岐処理1606では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、候補数が複数あるか、すなわち最大確率が所定の値以上となるデータが複数あるかを判断して分岐処理を行う(S1607)。候補数が1つの場合(Yes)には口唇動き認識フラグをOKとし(S1608)、最大確率を与える操作対象を認識結果として決定し(S1609)、処理を終了する。一方、分岐処理S1607で候補数が複数の場合(No)と判断した場合には操作対象選択処理(S1610)を行い、処理を終了する。一方、分岐処理S1606でNoと判断した場合には、口唇動き認識フラグをNGとし(S1611)、処理を終了する。
【0065】
操作対象選択処理S1610について、
図17のフローチャートを用いて説明する。
【0066】
図17において、まずタッチパッド116の表示部118に複数の候補を表示する(S1701)。表示の例を
図18に示す。ここでは、候補となる曲が3つある場合の例である。また、これに対応した口唇動き認識データおよび取得口唇動きデータを
図19に示す。この場合、口唇動き認識データXr(t),Yr(t)がほとんど同じ部分が含まれ、口唇の動きだけでは操作対象を決定できない。そこで、選択のための口唇形状が異なる文字を曲名に付加して表示している(ここでは、「あ」「い」「う」)。次に撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S1702)。
まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1703)。口唇動きデータ取得処理S1703において口唇が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理1704においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1705、S1711)し、処理を終了する。一方、口唇動きデータ取得処理S1703において入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S1704においてYesと判断し、口唇検出フラグをOKに設定する(S1706)。次に、この入力映像に対応した口唇動きデータと選択のために付加した文字(
図18の例では「あ」「い」「う」)に対応した口唇動き認識データとの尤度を計算する(S1707)。分岐処理S1708では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S1709)、最大確率を与える選択肢を操作対象として決定し(S1710)、処理を終了する。
一方、分岐処理S1708でNoと判断した場合には口唇動き認識フラグをNGとし(S1711)、処理を終了する。
【0067】
以上のように、口唇動きがほぼ同じ候補が複数ある場合にも、口唇形状が異なる文字或いは文字列を付加することで、操作対象を決定することができる。
【0068】
図20は音声認識操作対象決定処理S1211の例を示すフローチャートである。
【0069】
図20において、まずマイク112から音声処理部113を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S2001)。音楽、写真等のデータの属性部分の記載(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトル)について、メモリ領域104aに音響モデルとして記憶されている音声認識データとの尤度を計算する(S2002)。分岐処理S2003では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S2004)、最大確率を与える操作対象を認識結果として決定し(S2005)、処理を終了する。一方、分岐処理S2003でNoと判断した場合には、音声認識フラグをNGとして処理を終了する。
【0070】
口唇動き認識操作決定処理S405の他の実施例を
図21に示す。本実施例では口唇の形状を母音に対応させ、口唇の動きを母音の並びとして認識を行うものである。
図21において、まず入力された口唇の動きの映像から、音節数Nを決定する(S2101)。次に、音節母音並び変換処理により各音節に対応する口唇の形状がどの母音に対応するかを判別し、N個の音節に対応した母音の並びに変換する(S2102)。この入力映像に対応した母音の並びとメモリ104bに記憶されている操作選択肢に対応する母音の並びで表現された口唇動き認識データとの尤度を計算する(S2103)。
分岐処理2104では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、認識フラグをOKとし(S2105)、最大確率を与える操作選択肢を認識結果として決定し(S2106)、処理を終了する。一方、分岐処理S2104でNoと判定した場合には認識フラグをNGとし(S2107)、処理を終了する。
【0071】
メモリ104bに予め記憶されている操作選択肢に対応する母音並びのテーブルの例を
図22に示す。例えば「音楽再生」に対応する母音並びは「おあうあいえい」となる。この操作選択肢に対応する母音並びと入力映像に対応した母音並びの尤度を計算し、最も尤度が大きい操作選択肢を認識結果として決定する。各操作選択肢の文字列の母音並びが異なるようにすることで操作選択肢と母音並びが一対一に対応し、母音並びにより操作選択肢を決定することができる。母音並びによる認識では操作選択肢に対する母音の並びを記憶するため、
図10に示す操作選択肢に対する口唇動き認識データのように口唇の大きさX及びYの時間的な変化を記憶する必要がなく、メモリ104bの使用量を少なくすることができる。
【0072】
図23に音節母音並び変換処理(S2102)のフローチャートの一例を示す。
【0073】
図23において、まず母音口唇形状と比較する音節を指定するパラメータIを1から音節数Nまでとして、ループ処理を開始し(S2301)、S2303のループ終了処理までS2302の処理を繰り返して行う。S2302では入力された映像のI番目の音節に対応する口唇の形状とメモリ104bに記憶されている口唇認識データの母音に対応する口唇の形状を比較し、I番目の音節に対応する母音を決定する。以上の処理により、入力映像に対応したN個の音節が母音の並びに変換される。
【0074】
図24に母音に対応した口唇形状の例を示す。ここでは、日本語の「あ」「い」「う」「え」「お」の母音に対する口唇形状を示している。例えば、
図25のテーブルに示すように口唇の縦の幅Xと横の幅Yの大きさを3段階で表し、各母音と対応させる。これにより、入力映像の口唇形状の縦の幅Xと横の幅Yを求め、
図25のテーブルに従って対応する母音を決定することができる。
【0075】
以上の母音並びによる認識方法は口唇動き認識操作決定処理S405に限らず、口唇動き認識カテゴリ決定処理S1104、口唇動き認識操作対象決定処理S1109に適用してもよい。
【0076】
図26は音声及び口唇部分を含む映像を取り込む処理の他の実施例を示すフローチャートである。
【0077】
図26において、
図5の音声・映像取り込み処理と異なるのは選択肢表示処理S510を付加した点である。
図27に音声及び口唇部分を含む映像を取り込む処理における表示の例を示す。
図27(a)は操作決定処理においてホームの状態での操作選択肢の表示であり、
図27(b)は操作対象決定処理において音楽再生時におけるカテゴリ選択肢の表示である。選択のための母音が異なる文字或いは文字列を付加して表示し、付加した文字或いは文字列部分について音声認識或いは口唇動き認識により操作選択処理を行なう。これにより、母音が異なる短い文字或いは文字列で認識できるため、認識を容易に確実に行うことが可能となる。
【0078】
以上のように、選択肢を表示部118に表示することで操作選択肢或いはカテゴリ選択肢をいちいち覚えておく必要がなく、確実に選択することができる。ただし、操作者が携帯端末の操作に慣れた場合などには選択肢を表示しないように、選択肢を表示するかどうかを設定できるようにしてもよい。
【実施例3】
【0085】
図30は携帯端末装置100の第3の実施例の構成例を示すブロック図であり、
図28の構成例と同一機能部分には同じ記号を付し、説明を省略する。また、
図31は本実施例の携帯端末装置100と音声・口唇動き認識サーバー700からなる音声・口唇動き認識情報処理システムの概略構成を示すブロック図である。
【0086】
本実施例の携帯端末装置100では
図28の構成例に対して音声認識部102、口唇動き認識部103、メモリ104の音声認識データ領域及び口唇動き認識データ領域を設けておらず、これらに対応する部位を音声・口唇動き認識サーバー700に設けている。
【0087】
図31において音声・口唇動き認識サーバー700は、制御部701、音声認識部702、口唇動き認識部703、メモリ704、ストレージ705、通信部706を備え、それぞれはバス710に相互に接続されている。
【0088】
通信部706は外部ネットワーク600と接続するためのインターフェースであり、基地局400或いは無線ルータ500を介して携帯端末装置100と接続される。
【0089】
制御部701はCPU等で構成されは、メモリ704に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。
【0090】
音声認識部702は通信部706を介して得られた携帯端末装置100の操作者の音声データを認識し、音声データに対応した文字列に変換するものである。また、口唇動き認識部703は通信手段706を介して得られた携帯端末装置100の操作者の映像データから口唇の動きを認識し、映像データに対応した文字列に変換するものである。制御部701は操作者の音声から認識した結果或いは操作者の口唇の動きから認識した結果を通信部706を介して携帯端末装置100に送信する。
【0091】
メモリ704は、フラッシュメモリなどであり、プログラム、データなどを記憶している。ストレージ705はSSD(Solid State Device)或いはハードディスクであり、上記した音声認識部702や口唇動き認識部703で認識のために使用するデータはストレージ705の所定の領域705a,705bに保存されている。
【0092】
図32は
図31の携帯端末装置100と音声・口唇動き認識サーバー700からなる情報処理システムにおける制御部101及び制御部701の処理の一例を示すフローチャートである。
【0093】
図32において、まず携帯端末装置100においてマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S3201)。操作者認識部122で音声・映像取り込み処理S3201で取り込んだ音声及び/或いは映像とメモリ領域104dに記憶されている操作者認識データに基づいて操作している操作者Nを認識する(S3202)。
【0094】
次に、取り込んだ音声及び映像のデータを基地局通信部110或いは無線通信部111を介して音声・口唇動き認識サーバー700に送信する(S3203)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3204を行い、認識結果を通信部706を介して携帯端末装置100に送信する(S3205)。S3206では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3201に戻る。音声認識或いは口唇動き認識に成功した場合(Yes)には操作決定処理S3207を行い、メモリ104cに記憶された
図3に示すような操作に関する選択肢データと認識結果との尤度に基づいてどのような操作を行うのかを決定し、認識結果に対応した操作選択肢が存在する場合には決定成否フラグをOKとする。分岐処理3408では決定成否フラグにより分岐処理を行い、認識結果に対応した操作選択肢が存在しない場合(No)には音声・映像取り込み処理S3201に戻る。認識結果に対応した操作選択肢が存在する場合(Yes)には分岐処理S3209で音声認識フラグに基づいて分岐処理を行う。音声認識に成功した場合(Yes)にはマナーモードを解除(S3210)し、失敗した場合(No)にはマナーモードを設定(S3211)する。
【0095】
次に、操作を行う対象を選択する必要の有無により分岐処理を行う(S3212)。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作(音楽再生など)を行う対象(曲など)の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作(停止など)を行う対象の選択は必要ない。操作対象の選択がない場合(No)には決定した操作を実行する(S3228)。分岐処理S3212において操作選択肢ありと判断した場合(Yes)には音声・映像取り込み処理S3213を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー700に送信する(S3214)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3215を行い、認識結果を携帯端末装置100に送信する(S3216)。S3217では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3213に戻る。音声認識或いは口唇動き認識に成功した場合(Yes)には操作カテゴリ決定処理S3218を行い、メモリ104cに記憶された
図13に示すような操作に対応したカテゴリ選択肢データと認識結果との尤度に基づいて操作対象のカテゴリを決定し、認識結果に対応したカテゴリ選択肢が存在する場合には決定成否フラグをOKとする。分岐処理3418では決定成否フラグにより分岐処理を行い、認識結果に対応したカテゴリ選択肢が存在しない場合(No)には音声・映像取り込み処理S3213に戻る。認識結果に対応したカテゴリ選択肢が存在する場合(Yes)には音声・映像取り込み処理S3220を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー700に送信する(S3221)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3222を行い、認識結果を携帯端末装置100に送信する(S3223)。S3224では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3220に戻る。認識に成功した場合(Yes)には操作対象決定処理S3225を行う。携帯端末100のメモリ104eには操作者毎の履歴データが記憶されており、音声認識によりインターネット検索したときの検索対象の語句等の履歴が保存されている。また、携帯端末装置100のストレージ105に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。メモリ104eに記憶された履歴データ及び操作カテゴリ決定処理S3218で決定したカテゴリの属性部分の記述(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した記述)と認識結果との尤度に基づいて操作対象を決定し、認識結果に対応した操作対象が存在する場合には決定成否フラグをOKとする。分岐処理3426では決定成否フラグにより分岐処理を行い、認識結果に対応した操作対象が存在しない場合(No)には音声・映像取り込み処理S3220に戻る。認識結果に対応した操作対象が存在する場合(Yes)にはメモリ104eに記憶されている操作者Nに対応した履歴データに決定した操作対象を追加・更新(S3227)し、決定した操作対象に対して操作を実行する(S3228)。
【0096】
音声・口唇動き認識処理S3204,S3215,S3222のフローチャートの一例を
図33に示す。
図33において、まず通信部706を介して取得した操作者の音声データ及び少なくとも口唇部分を含む映像データに基づいて音声認識部702で音声認識処理S3301を行い、口唇動き認識部703で口唇動き認識定処理S3302を行う。分岐処理S3303では音声認識処理S3301で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に失敗した場合(No)には処理を終了する。音声認識に成功した場合(Yes)には分岐処理S3304で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識で得られた文字列に対応した口唇認識データの有無により分岐処理を行う。音声認識で得られた文字列に対応した口唇認識データがある場合(Yes)には文字列に対応したストレージ領域705bの口唇認識データを更新し(S3306)、口唇認識データがない場合(No)には音声認識で得られた文字列に対応した口唇認識データをストレージ領域705bに追加し(S3307)、処理を終了する。一方、分岐処理S3304で口唇動きデータの取得に失敗したと判断した場合(No)には口唇動き認識データを更新せず、処理を終了する。
【0097】
以上の処理により、音声認識に成功し、口唇動きデータの取得に成功した場合には音声認識結果に対応した口唇動き認識データの更新及び追加が行われる。
【0098】
音声認識処理S3301のフローチャートの一例を
図34に示す。
図34において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S3401)。次にHMMによる音響モデルとしてストレージの所定の領域705aに記憶された音声認識データとの尤度を計算する(S3402)。分岐処理S3403では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S3404)、最大確率を与える音声認識データを認識結果として処理を終了する。一方、分岐処理S3403でNoと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをNGとして(S3405)、処理を終了する。
【0099】
次に、口唇動き認識処理S3302について、
図35の例を用いて説明する。
【0100】
図35のフローチャートにおいて、まず入力された映像から口唇の動きを検出し、口唇動きデータを取得する(S3501)。口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理S3501において口唇動きデータの取得に失敗した場合には、分岐処理3702においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S3503、S3508)し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S3502においてYesと判断し、口唇検出フラグをOKに設定(S3504)する。次に、この取得した口唇動きデータとストレージの所定の領域705bに記憶されている口唇動き認識データとの尤度を計算する(S3505)。分岐処理S3506では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S3507)、最大確率を与える口唇動き認識データを認識結果として処理を終了する。一方、分岐処理S3506でNoと判断した場合には口唇動き認識フラグをNGとし(S3508)、処理を終了する。
【0101】
上記の実施例では携帯端末装置100において取り込んだ音声及び映像データを音声・口唇動き認識サーバー700に送信するようにしているが、携帯端末装置100において入力音声の特徴パラメータの時系列パターンを抽出する音声分析を行い、入力された映像から口唇の動きを検出して口唇動きデータ取得した結果を音声・口唇動き認識サーバー700に送信するようにしてもよい。これにより、携帯端末装置100から音声・口唇動き認識サーバー700に送るデータ量を低減し、処理時間を低減することが可能となる。
【0102】
以上の実施例では音声・口唇動き認識サーバー700で音声認識及び口唇認識を行うことにより、多数の操作者の音声及び口唇動きのデータに基づいて口唇動き認識データが更新されるため、口唇動き認識の精度をより高めることが可能となる。また、操作者毎の履歴データを設け、音声認識で新たに使用された語句等を履歴データとして追加し、履歴データを口唇動き認識において利用することで、携帯端末装置の操作者毎に使用頻度の高い語句を口唇動き認識させることが可能となる。
【0103】
尚、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。例えば、第1及び第2の実施例では音声認識データ、口唇動き認識データ、選択肢データ、をメモリ104に記憶するようにしたが、ストレージ105に記憶するようにしてもよい。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0104】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ104やストレージ105に置くことができる。
【0105】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えても良い