(58)【調査した分野】(Int.Cl.,DB名)
前記翻訳の必要性がある状態とは、空港において飛行機にチェックインした状態、ホテルにおいてチェックインした状態、レストランや店舗において商品のクーポンがチェックされた状態、駅において改札を通過した状態のいずれかである
請求項4に記載の音声認識方法。
【発明を実施するための形態】
【0009】
(本発明の基礎となった知見)
本発明者は、「背景技術」の欄において記載した、音声認識方法に関し、以下の問題が生じることを見出した。
【0010】
特許文献1の技術では、音声認識により認識された文字情報に基づいて、機器に対する発話であるか否かを判断し、機器に対する発話であると判断した場合に、当該文字情報が示す動作指示を行い、そうでないと判断した場合に、動作指示を行わないことが開示されている。例えば、特許文献1の技術では、文字情報の文型を解析し、文型が疑問文または命令文である場合、音声が機器に対する発話であると判断している。
【0011】
しかしながら、不特定多数の人が集まるような場所においては、多くの言葉が交わされているため、多くの人が疑問文や命令文を発話している可能性があり、この場合、当該機器のユーザが発話した音声でなくても認識してしまうおそれがある。例えば、ユーザが発話した音声を音声認識によって翻訳する場合には、不特定多数の人が集まっている空港、ホテル、公共交通機関などで相手の言語に合わせて翻訳する場合が多い。このような場合には、特許文献1の技術では、ユーザが発話した以外の音声を認識するおそれがある。
【0012】
そこで、本開示では、機器のユーザ以外の人が発話した音声を認識して、翻訳することを低減するために、以下の改善策を検討した。
【0013】
本開示の一態様に係る音声認識方法は、携帯端末が取得した音声情報を認識し、当該音声情報が示す音声の言語とは異なる言語に翻訳する音声認識方法であって、前記音声情報を取得し、取得した前記音声情報が示す音声の言語の種類を認識し、認識した前記言語の種類が予め登録されている第1の言語であるか否かを判定する第1の判定を行い、前記第1の判定の結果、前記言語の種類が前記第1の言語である場合、前記音声の言語を前記第1の言語とは異なる第2の言語に翻訳する翻訳処理を行う。
【0014】
これによれば、言語の種類が第1の言語の場合、第2の言語に翻訳するため、誤検出を低減することができる。
【0015】
また、第1の言語でない場合、第2の言語に翻訳しなくてもよい。この場合、例えば、不特定多数の人が集まっている場所であっても、ユーザが発話した以外の音声を認識することを低減できる。特に、翻訳が必要な状況下においては、ユーザは、ユーザの母国語が周囲に通じない状況であるため、周囲の人々はユーザの母国語とは異なる種類の言語を話していることがほとんどであると考えられる。このような場合において、例えば、ユーザの母国語を第1の言語に設定しておけば、不特定多数の人が周囲にいるような、ユーザ以外の人が発話した音声を誤検出しやすい状況であっても、第1の言語のみを翻訳するため、誤検出を低減できる。
【0016】
また、さらに、ユーザによる前記第1の言語の登録を受け付け、前記第1の判定では、受け付けた前記登録に基づく前記第1の言語を用いてもよい。
【0017】
このため、ユーザは、容易に第1の言語を設定できる。
【0018】
また、さらに、前記携帯端末の位置を検出し、前記第1の判定では、さらに、前記言語の種類が、検出した前記位置の地域における公用語である場合、前記言語の種類が前記第1の言語と異なる言語であると判定してもよい。
【0019】
これによれば、現在の位置における公用語を第1の言語とは異なると検出するため、その地域の公用語を翻訳しない。このため、ユーザが翻訳が必要な場合に発話した音声を翻訳することができる。つまり、ユーザの母国語を公用語とする地域にユーザが滞在している場合、ユーザは、当該母国語を話すことができるため周囲の人々に翻訳して話す必要がない。一方で、ユーザの母国語を公用語としない地域にユーザが滞在している場合、当該地域の母国語を翻訳しないため、ユーザが発話した以外の音声を認識することを低減できる。
【0020】
また、さらに、検出した前記位置が、前記第1の言語を公用語とする第1の地域とは異なる第2の地域であるか否かを判定する第2の判定を行い、前記第2の判定の結果、前記位置が前記第2の地域である場合、当該第2の地域における公用語を前記第2の言語として設定してもよい。
【0021】
このため、ユーザは、第2の言語の設定をしなくても、ユーザが滞在している地域の公用語に翻訳することが容易にできる。
【0022】
また、さらに、前記携帯端末の位置を検出し、所定のアプリケーションから出力された通知情報を取得し、検出した位置、および、取得した前記通知情報を用いて、前記携帯端末のユーザが翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態であるか否かを判定する第3の判定を行い、前記第3の判定の結果、前記ユーザが、前記翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態である場合、前記第1の判定および前記翻訳処理を行ってもよい。
【0023】
このため、誤検出しやすい状況下である場合に、誤検出を低減できる。このため、処理量を削減できる。
【0024】
また、前記翻訳の必要性がある場所とは、空港、ホテル、レストラン、店舗、駅のいずれかであってもよい。
【0025】
また、前記翻訳の必要性がある状態とは、空港において飛行機にチェックインした状態、ホテルにおいてチェックインした状態、レストランや店舗において商品のクーポンがチェックされた状態、駅において改札を通過した状態のいずれかであってもよい。
【0026】
また、さらに、前記携帯端末の加速度を検出し、検出した前記加速度を用いて、前記携帯端末のユーザが所定の速さ以上で移動しているか否かを判定する第4の判定を行い、前記第4の判定の結果、前記ユーザが、前記所定の速さ以上で移動していない場合、前記第1の判定および前記翻訳処理を行ってもよい。
【0027】
所定の速さ以上で移動している場合、風切り音、摩擦音、振動音などの雑音を拾いやすくなるため、この場合に、第1の判定および翻訳処理を行わないことで、誤った翻訳を行うことを低減できる。
【0028】
また、さらに、前記携帯端末の周囲の騒音レベルを計測し、計測した前記騒音レベルが所定の騒音レベルより大きいか否かを判定する第5の判定を行い、前記第5の判定の結果、前記騒音レベルが前記所定の騒音レベル以下の場合、前記第1の判定および前記翻訳処理を行ってもよい。
【0029】
騒音を検出している場合、第1の判定および翻訳処理を行わないことで、誤った翻訳を行うことを低減できる。
【0030】
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
【0031】
以下、本発明の一態様に係る音声認識方法について、図面を参照しながら具体的に説明する。
【0032】
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0033】
(実施の形態1)
以下、
図1〜
図6を用いて、実施の形態1を説明する。
【0034】
[1−1.構成]
図1は、実施の形態1に係る翻訳システムの概略図である。
【0035】
具体的には、
図1において、携帯端末100、サーバ200および通信ネットワーク300が示されている。翻訳システム1は、例えば、これらの構成要素のうち、携帯端末100およびサーバ200を備える。
【0036】
翻訳システム1では、ユーザが発話した音声を、当該音声の言語とは異なる言語に翻訳するためのシステムである。具体的には、携帯端末100は、ユーザが発話した音声を取得し、取得した音声情報をサーバ200に送信する。サーバ200は、取得した音声情報が示す音声の言語の種類を認識し、認識結果を携帯端末100に送信する。携帯端末100は、受信した認識結果に応じて、当該音声情報が示す音声の言語を翻訳する。
【0037】
[1−1−1.携帯端末]
携帯端末100のハードウェア構成について
図2を用いて説明する。
【0038】
図2は、実施の形態1に係る携帯端末のハードウェア構成の一例を示すブロック図である。
【0039】
図2に示すように、携帯端末は、コンピュータ101、マイク102、入力IF(Interface)103、GPS(Global Positioning System)モジュール104、加速度センサ105、スピーカ106、ディスプレイ107および通信IF108を備える。携帯端末100は、例えば、スマートフォン、タブレット端末などの通信可能な情報端末である。
【0040】
コンピュータ101は、携帯端末100を動作させるための制御プログラムを実行するプロセッサと、制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域(主記憶装置)と、制御プログラム、コンテンツなどを記憶している不揮発性の記憶領域(補助記憶装置)とを有する。揮発性の記憶領域は、例えば、RAM(Randdom Access Memory)である。不揮発性の記憶領域は、例えば、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard
Disk Drive)などである。なお、コンピュータ101で用いられる制御プログラムは、後述する翻訳方法に係る演算を行うプログラムを含む。
【0041】
マイク102は、周囲の音を収集するマイクロフォンである。
【0042】
入力IF103は、例えば、ディスプレイ107の表面に配置され、ディスプレイ107に表示されるUI(User Interface)へのユーザからの入力を受け付けるタッチパネルである。入力IF103は、例えば、テンキーやキーボードなどの入力装置であってもよい。
【0043】
GPSモジュール104は、GPS(Global Positioning System)衛星からの信号を受信することにより携帯端末100の位置を推定するモジュールである。
【0044】
加速度センサ105は、携帯端末100の加速度を検出するセンサである。加速度センサ105は、具体的には、携帯端末100の所定の姿勢を基準とする、互いに直交する3軸方向の加速度を検出するセンサである。
【0045】
スピーカ106は、音声情報から復号された音を出力するスピーカである。
【0046】
ディスプレイ107は、コンピュータ101での処理結果を表示する表示装置である。ディスプレイ107は、例えば、液晶ディスプレイ、有機ELディスプレイである。
【0047】
通信IF108は、通信ネットワーク300を介してサーバ200と通信する通信インタフェースである。つまり、通信IF108は、通信ネットワーク300に通信接続できる通信インタフェースであればよい。具体的には、通信IF108は、移動通信システムの基地局との通信接続、または、ルータとの通信接続により、通信ネットワーク300と通信接続する通信インタフェースである。通信IF108は、例えば、IEEE802.11a、b、g、n規格に適合した無線LAN(Local Area Network)インタフェースであってもよいし、第3世代移動通信システム(3G)、第4世代移動通信システム(4G)、または、LTE(登録商標)などのような移動通信システムで利用される通信規格に適合した無線通信インタフェースであってもよい。
【0048】
なお、通信IF108は、他の携帯端末との通信接続により、通信ネットワーク300と通信接続する通信インタフェースであってもよい。この場合、例えば、通信IF108は、無線LANインタフェースであってもよいし、Bluetooth(登録商標)規格に適合した無線通信インタフェースであってもよい。
【0049】
[1−1−2.サーバ]
次に、サーバ200のハードウェア構成について
図3を用いて説明する。
【0050】
図3は、実施の形態1に係るサーバのハードウェア構成の一例を示すブロック図である。
【0051】
図3に示すように、サーバ200は、コンピュータ201および通信IF202を備える。サーバ200は、複数の装置で構成されていてもよい。
【0052】
コンピュータ201は、サーバ200を動作させるための制御プログラムを実行するプロセッサと、制御プログラムを実行するときに使用するワークエリアとして用いられる揮発性の記憶領域(主記憶装置)と、制御プログラム、コンテンツなどを記憶している不揮発性の記憶領域(補助記憶装置)とを有する。揮発性の記憶領域は、例えば、RAMである。不揮発性の記憶領域は、例えば、ROM、フラッシュメモリ、HDDなどである。なお、コンピュータ201で用いられる制御プログラムは、後述する翻訳方法に係る演算を行うプログラムを含む。
【0053】
通信IF202は、通信ネットワーク300を介して携帯端末100と通信する通信インタフェースである。通信IF202は、例えば、有線LANインタフェースである。なお、通信IF202は、無線LANインタフェースであってもよい。また、通信IF202は、LANインタフェースに限らずに、通信ネットワーク300との通信接続を確立できる通信インタフェースであれば、どのような通信インタフェースであってもよい。
【0054】
[1−1−3.通信ネットワーク]
次に、
図1を参照して通信ネットワークの構成について説明する。
【0055】
通信ネットワーク300は、携帯端末100およびサーバ200が互いに通信するための通信ネットワークである。通信ネットワーク300は、インターネットのような汎用のネットワークであってもよいし、翻訳システム1の専用のネットワークであってもよい。
【0056】
[1−2.翻訳システムの機能構成]
次に、翻訳システム1の機能構成について
図4を用いて説明する。
【0057】
図4は、実施の形態1に係る翻訳システムの機能構成の一例を示すブロック図である。
【0058】
まず、携帯端末100の機能構成について説明する。
【0059】
携帯端末100は、機能構成として、音声取得部111と、処理部112と、記憶部113と、提示部114と、通信部115とを備える。携帯端末100は、さらに、入力部116を備えていてもよい。
【0060】
音声取得部111は、ユーザが発話した音声を取得する。音声取得部111は、具体的には、マイク102により収集された音を示す音情報を音信号として取得し、取得した音信号から音声信号と騒音などのその他の信号とに分離することで、ユーザが発話した音声を示す音声情報を取得する。音声取得部111は、例えば、コンピュータ101、マイク102などにより実現される。
【0061】
処理部112は、判定や翻訳、登録などの各種処理を行う。処理部112は、具体的には、判定部121と、翻訳部122とを有する。処理部112は、さらに、登録部123を有していてもよい。
【0062】
判定部121は、サーバ200により認識された言語の種類が予め登録されている第1の言語であるか否かを判定する第1の判定を行う。なお、ここで、サーバにより認識された言語の種類とは、音声取得部111により取得されたユーザの発話した音声について、サーバ200が当該音声の言語の種類を認識した結果である。
【0063】
翻訳部122は、判定部121による第1の判定の結果、言語の種類が第1の言語である場合、音声取得部111により取得された音声の言語を第1の言語とは異なる第2の言語に翻訳する。なお、本実施の形態では、例として、第2の言語が英語であるとして説明する。第2の言語は、予め登録されていてもよいし、ユーザが入力することにより変更してもよい。また、翻訳部122は、判定部121による第1の判定の結果、言語が第1の言語とは異なる言語である場合、音声取得部111により取得された音声の言語を翻訳しない。
【0064】
登録部123は、入力部116により入力された言語の種類を第1の言語として登録して、記憶部113に記憶させる。つまり、登録部123は、判定部121による判定基準となる第1の言語を、ユーザの登録処理において受け付ける。例えば、ユーザが第1の言語として日本語を入力していれば、携帯端末100では、日本語とは異なる言語の音声を取得しても、翻訳しない。本実施の形態では、例として、第1の言語が日本語であるとして説明する。
【0065】
なお、第1の言語は、予め登録されていればよく、登録部123により登録されることに限らない。例えば、第1の言語として、ユーザにより入力されていなくても、英語がデフォルトで登録されていてもよい。
【0066】
処理部112は、例えば、コンピュータ101により実現される。
【0067】
記憶部113は、処理部112により処理されることによって得られた情報を記憶する。記憶部113は、例えば、コンピュータ101の不揮発性の記憶領域により実現される。
【0068】
提示部114は、処理部112により処理されることによって得られた処理結果を提示する。具体的には、提示部114は、翻訳した結果を、テキストとしてディスプレイ107に表示する。また、提示部114は、翻訳した結果を示す音声を、スピーカ106から出力してもよい。提示部114は、例えば、コンピュータ101およびディスプレイ107によって実現されてもよいし、コンピュータ101およびスピーカ106によって実現されてもよい。
【0069】
通信部115は、通信ネットワーク300を介してサーバ200との間で通信接続を確立し、サーバ200との通信を行う。通信部115は、音声取得部111によって出力された音声情報をサーバ200に送信する。また、通信部115は、サーバ200から出力された情報を受信し、受信した情報を処理部112に出力する。通信部115は、例えば、コンピュータ101および通信IF108などにより実現される。
【0070】
入力部116は、ユーザからの入力を受け付ける。具体的には、入力部116は、処理部112により実行されている所定のアプリケーションに対するユーザからの入力を受け付ける。入力部116は、例えば、翻訳アプリへのユーザ登録に係る入力などを受け付ける。入力部116は、例えば、コンピュータ101および入力IF103などにより実現される。
【0071】
次に、サーバ200の機能構成について説明する。
【0072】
サーバ200は、機能構成として、通信部211と、認識部212と、記憶部213と、を備える。
【0073】
通信部211は、通信ネットワーク300を介して携帯端末100との間で通信接続を確立し、携帯端末100との通信を行う。通信部211は、携帯端末100によって送信された音声情報を受信する。また、通信部211は、受信した音声情報に対する認識部212における認識結果を携帯端末100に送信する。通信部211は、例えば、コンピュータ201および通信IF202により実現される。
【0074】
認識部212は、受信した音声情報が示す音声に対して多言語認識を行う。認識部212は、具体的には、記憶部213に記憶されている多言語の音声と、当該音声に対応する多言語のテキストとが対応付けられた多言語データベースに基づいて、受信した音声情報が示す音声に対応するテキストを特定する。例えば、多言語データベースは、日本語、英語、中国語、スペイン語、フランス語、ドイツ語などの様々な言語を発音した音声に関する音声データと、当該音声をテキストで表現したテキストデータとが対応付けられたテーブルにより構成される。つまり、認識部212は、テキストを特定することで、当該音声情報が示す音声の言語も特定する。認識部212は、多言語認識の認識結果として、音声情報が示す音声に対応するテキストデータと、当該テキストデータが示す言語の種類を示す言語情報とを通信部211に出力する。認識部212は、例えば、コンピュータ201により実現される。
【0075】
記憶部213は、例えば、コンピュータ201の不揮発性の記憶領域により実現される。
【0076】
[1−3.動作]
次に、翻訳システム1の動作について、
図5および
図6を用いて説明する。
【0077】
図5は、実施の形態1に係る翻訳システムにおける音声認識方法の一例を示すシーケンス図である。
【0078】
まず、ユーザは、携帯端末100を操作することで、携帯端末100に翻訳アプリを実行させる。これにより、携帯端末100には、音声認識方法に係る音声認識処理が開始される。
【0079】
携帯端末100では、音声取得部111が音声を取得する(S11)。
【0080】
携帯端末100は、音声取得部111により取得された音声を示す音声情報を、通信部115がサーバ200に通信ネットワーク300を介して送信する(S12)。
【0081】
次に、サーバ200は、通信ネットワーク300を介して音声情報を受信する(S13)。
【0082】
サーバ200は、受信した音声情報について多言語認識を行い(S14)、多言語認識した認識結果を携帯端末100に通信ネットワーク300を介して送信する(S15)。
【0083】
次に、携帯端末100は、通信ネットワーク300を介して、サーバ200における多言語認識の認識結果を受信する(S16)。
【0084】
そして、携帯端末100は、認識結果に応じて翻訳処理を実行する(S17)。
【0085】
翻訳処理の詳細については、
図6を用いて説明する。
【0086】
図6は、実施の形態1に係る携帯端末における翻訳処理の一例を示すフローチャートである。
【0087】
まず、携帯端末100の判定部121は、受信した認識結果が予め登録されている第1の言語であるか否かを判定する(S21)。例えば、第1の言語が日本語である場合、判定部121は、受信した認識結果が日本語であるか否かを判定する。
【0088】
携帯端末100の翻訳部122は、受信した認識結果が予め登録されている第1の言語であると判定部121が判定した場合(S21でYes)、当該認識結果に含まれるテキストデータの言語を第1の言語とは異なる第2の言語に翻訳する(S22)。例えば、第2の言語が英語である場合、翻訳部122は、日本語のテキストデータを英語に翻訳する。
【0089】
携帯端末100の提示部114は、翻訳部122が翻訳した結果を提示する(S23)。具体的には、提示部114は、テキストデータを英語に翻訳した結果をディスプレイ107に表示させてもよいし、スピーカ106から音声で出力してもよい。
【0090】
一方で、携帯端末100の翻訳部122は、受信した認識結果が予め登録されている第1の言語とは異なる言語であると判定部121が判定した場合(S21でNo)、認識結果を棄却することで、テキストデータを翻訳しない(S24)。具体的には、翻訳部122は、受信した認識結果が英語である場合、英語のテキストデータを翻訳しない。
【0091】
[1−4.効果など]
本実施の形態に係る音声認識方法によれば、第1の言語でない場合、第2の言語に翻訳しないので、例えば、不特定多数の人が集まっている場所であっても、ユーザが発話した以外の音声を認識することを低減できる。特に、翻訳が必要な状況下においては、ユーザは、ユーザの母国語が周囲に通じない状況であるため、周囲の人々はユーザの母国語とは異なる種類の言語を話していることがほとんどであると考えられる。このような場合において、例えば、ユーザの母国語を第1の言語に設定しておけば、不特定多数の人が周囲にいるような、ユーザ以外の人が発話した音声を誤検出しやすい状況であっても、第1の言語のみを翻訳するため、誤検出を低減できる。
【0092】
また、本実施の形態に係る音声認識方法では、さらに、ユーザによる第1の言語の登録を受け付け、第1の判定では、受け付けた登録に基づく第1の言語を用いる。このため、ユーザは、容易に第1の言語を設定できる。
【0093】
(実施の形態2)
次に、
図7および
図8を用いて、実施の形態2を説明する。
【0094】
[2−1.構成]
図7は、実施の形態2に係る翻訳システムの機能構成の一例を示すブロック図である。
【0095】
図7に示すように、実施の形態2に係る翻訳システム1aでは、実施の形態1に係る翻訳システム1と比較して、携帯端末100aの構成が異なる。具体的には、携帯端末100aは、携帯端末100の構成にさらに位置取得部117を有する構成である。また、携帯端末100aは、実施の形態1の携帯端末100と比較して処理部112aの判定部121aの機能が異なる。
【0096】
なお、その他の構成は、実施の形態1と同じ構成である。このため、本実施の形態では、実施の形態1と異なる構成の説明のみ行い、実施の形態1と同じ構成の説明を省略する。なお、本実施の形態では、実施の形態1と同じ構成には実施の形態1と同じ符号を付している。
【0097】
また、携帯端末100aのハードウェア構成は、携帯端末100と同様である。
【0098】
位置取得部117は、携帯端末100が位置する位置を示す位置情報を取得する。つまり、位置取得部117は、携帯端末100の位置を検出する。位置取得部117は、例えば、コンピュータ101およびGPSモジュール104などにより実現される。
【0099】
判定部121aは、第1の判定において、さらに、サーバ200により認識された言語の種類が、位置取得部117により取得された位置情報が示す位置の地域における公用語である場合、言語の種類が第1の言語と異なる言語であると判定する。
【0100】
[2−2.動作]
実施の形態2に係る翻訳システム1aの動作は、実施の形態1に係る翻訳システム1の動作と比較して、携帯端末100aにおいて行われる翻訳処理が異なる。このため、携帯端末100aにおいて行われる翻訳処理について説明する。
【0101】
図8は、実施の形態2に係る携帯端末における翻訳処理の一例を示すフローチャートである。
【0102】
なお、実施の形態2に係る翻訳処理では、実施の形態1に係る翻訳処理と比較してステップS22〜S24の処理が同じであるので、当該ステップS22〜S24の処理の説明を省略する。
【0103】
まず、携帯端末100の位置取得部117は、携帯端末100が位置する位置を示す位置情報を取得する(S31)。
【0104】
次に、携帯端末100aの判定部121aは、受信した認識結果が予め登録されている第1の言語であるか否かを判定する(S21a)。このとき、判定部121aは、さらに、受信した認識結果が、位置取得部117により取得された位置情報が示す位置の地域における公用語である場合、言語の種類が第1の言語と異なる言語であると判定する。具体的には、携帯端末100aがアメリカに位置している場合、認識結果が、アメリカの公用語である英語であれば第1の言語と異なる言語であると判定する。このため、ステップS24の処理を行い、認識結果を棄却することで、テキストデータを翻訳しない。
【0105】
[2−3.効果など]
本実施の形態に係る音声認識方法によれば、さらに、携帯端末100aの位置を検出し、第1の判定では、さらに、言語の種類が、検出した位置の地域における公用語である場合、言語の種類が第1の言語と異なる言語であると判定する。
【0106】
つまり、現在の位置における公用語を第1の言語とは異なると検出するため、その地域の公用語を翻訳しない。このため、ユーザが翻訳が必要な場合に発話した音声を翻訳することができる。
【0107】
つまり、ユーザの母国語を公用語とする地域にユーザが滞在している場合、ユーザは、当該母国語を話すことができるため周囲の人々に翻訳して話す必要がない。一方で、ユーザの母国語を公用語としない地域にユーザが滞在している場合、当該地域の母国語を翻訳しないため、ユーザが発話した以外の音声を認識することを低減できる。
【0108】
[2−4.変形例]
上記実施の形態2のように、携帯端末100aが位置情報を取得する場合、位置情報に応じて動的に第2の言語を設定してもよい。
【0109】
この場合、判定部121aは、位置取得部117が取得した位置が、第1の言語を公用語とする第1の地域とは異なる第2の地域であるか否かを判定する第2の判定を行ってもよい。
【0110】
そして、翻訳部122は、第2の判定の結果、位置取得部117が取得した位置が、第2の地域である場合、当該第2の地域における公用語を第2の言語として設定してもよい。このため、ユーザは、第2の言語の設定をしなくても、ユーザが滞在している地域の公用語に翻訳することが容易にできる。
【0111】
(実施の形態3)
次に、
図9および
図10を用いて、実施の形態3を説明する。
【0112】
[3−1.構成]
図9は、実施の形態3に係る翻訳システムの機能構成の一例を示すブロック図である。
【0113】
図9に示すように、実施の形態3に係る翻訳システム1bでは、実施の形態2に係る翻訳システム1aと比較して、携帯端末100bの構成が異なる。具体的には、携帯端末100bの処理部112bは、携帯端末100aの構成における処理部112aがさらに位置取得部117を有する構成である。また、携帯端末100bは、実施の形態2の携帯端末100aと比較して判定部121bの機能が異なる。なお、その他の構成は、実施の形態2と同じ構成である。このため、本実施の形態では、実施の形態2と異なる構成の説明のみ行い、実施の形態2と同じ構成の説明を省略する。なお、本実施の形態では、実施の形態2と同じ構成には実施の形態2と同じ符号を付している。
【0114】
また、携帯端末100bのハードウェア構成は、携帯端末100と同様である。
【0115】
取得部124は、所定のアプリケーションから出力された通知情報を取得する。
【0116】
判定部121bは、さらに、位置取得部117が検出した位置、および、取得部124が取得した通知情報を用いて、携帯端末100bのユーザが翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態であるか否かを判定する第3の判定を行う。翻訳の必要性がある場所とは、具体的には、ユーザの母国語とは異なる言語を公用語とする地域においてコミュニケーションが特に必要とされる場所であり、例えば、空港、ホテル、レストラン、店舗、駅などである。そして、翻訳の必要性がある状態とは、例えば、空港において飛行機にチェックインした状態、ホテルにおいてチェックインした状態、レストランや店舗において商品のクーポンがチェックされた状態、駅において改札を通過した状態などである。
【0117】
ユーザが翻訳の必要性がある場所にいるか否かは、位置取得部117が取得した位置情報により、判定することができる。また、ユーザが翻訳の必要性がある状態であるか否かは、携帯端末100bの所定のアプリケーションを利用して、ユーザが空港において飛行機にチェックインする、ホテルにチェックインする、レストランや店舗において商品のクーポンを利用する、駅において改札を通過するなどが行われることで、携帯端末100bの取得部124が所定の通知情報を取得するため、当該通知情報により判定することができる。
【0118】
また、判定部121bは、第3の判定の結果、ユーザが、翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態である場合、第1の判定を行い、ユーザが、翻訳の必要性がある場所に位置しない、または、当該必要性がある状態でない場合、第1の判定を行わない。
【0119】
[3−2.動作]
実施の形態3に係る翻訳システム1bの動作は、実施の形態2に係る翻訳システム1の動作と比較して、携帯端末100bにおいて行われる翻訳処理が異なる。このため、携帯端末100bにおいて行われる翻訳処理について説明する。
【0120】
図10は、実施の形態3に係る携帯端末における翻訳処理の一例を示すフローチャートである。
【0121】
なお、実施の形態3に係る翻訳処理では、実施の形態2に係る翻訳処理と比較してステップS31、S21a〜S24の処理が同じであるので、当該ステップS31、S21a〜S24説明を省略する。
【0122】
まず、ステップS31が行われ、その後、携帯端末100bの判定部121bは、翻訳が必要な位置および状態であるか否かを判定する第3の判定を行う(S32)。
【0123】
判定部121bは、翻訳が必要な位置および状態であると判定した場合(S32でYes)、第1の判定を行う(S21a)。
【0124】
一方で、判定部121bは、翻訳が必要な位置および状態の少なくともいずれか一方を満たさないと判定した場合(S32でNo)、サーバ200における多言語認識の認識結果に含まれるテキストデータを翻訳し(S22)、翻訳した結果を提示する(S23)。
【0125】
[3−3.効果など]
本実施の形態における音声認識方法によれば、さらに、携帯端末100bの位置を検出し、所定のアプリケーションから出力された通知情報を取得し、検出した位置、および、取得した通知情報を用いて、携帯端末100bのユーザが翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態であるか否かを判定する第3の判定を行い、第3の判定の結果、ユーザが、翻訳の必要性がある場所に位置し、かつ、当該必要性がある状態である場合、第1の判定および翻訳処理を行い、ユーザが、翻訳の必要性がある場所に位置しない、または、当該必要性がある状態でない場合、第1の判定および翻訳処理を行わない。このため、誤検出しやすい状況下である場合に、誤検出を低減できる。このため、処理量を削減できる。
【0126】
(実施の形態4)
次に、
図11および
図12を用いて、実施の形態4を説明する。
【0127】
[4−1.構成]
図11は、実施の形態4に係る翻訳システムの機能構成の一例を示すブロック図である。
【0128】
図11に示すように、実施の形態4に係る翻訳システム1cでは、実施の形態1に係る翻訳システム1と比較して、携帯端末100cの構成が異なる。具体的には、携帯端末100cは、携帯端末100の構成にさらに加速度取得部118を有する構成である。また、携帯端末100cは、実施の形態1の携帯端末100と比較して処理部112cの判定部121cの機能が異なる。なお、その他の構成は、実施の形態1と同じ構成である。このため、本実施の形態では、実施の形態1と異なる構成の説明のみ行い、実施の形態1と同じ構成の説明を省略する。なお、本実施の形態では、実施の形態1と同じ構成には実施の形態1と同じ符号を付している。
【0129】
また、携帯端末100cのハードウェア構成は、携帯端末100と同様である。
【0130】
加速度取得部118は、携帯端末100cの加速度を検出する。加速度取得部118は、例えば、コンピュータ101および加速度センサ105などにより実現される。
【0131】
判定部121cは、加速度取得部118が取得した加速度を用いて、携帯端末100cのユーザが所定の速さ(例えば、歩行の速さ(4km/h))以上で移動しているか否かを判定する第4の判定を行う。判定部121cは、第4の判定の結果、ユーザが、所定の速さ以上で移動している場合、第1の判定を行わず、所定の速さ以上で移動していない場合、第1の判定を行う。
【0132】
[4−2.動作]
実施の形態4に係る翻訳システム1cの動作は、実施の形態1に係る翻訳システム1の動作と比較して、携帯端末100cにおいて行われる翻訳処理が異なる。このため、携帯端末100cにおいて行われる翻訳処理について説明する。
【0133】
図12は、実施の形態4に係る携帯端末における翻訳処理の一例を示すフローチャートである。
【0134】
なお、実施の形態4に係る翻訳処理では、実施の形態1に係る翻訳処理と比較してステップS21〜S24の処理が同じであるので、当該ステップS21〜S24の処理の説明を省略する。
【0135】
まず、携帯端末100cの加速度取得部118が携帯端末100cの加速度を取得する(S41)。
【0136】
携帯端末100cの判定部121cは、加速度取得部118が取得した加速度を用いて、携帯端末100cのユーザが所定の速さ以上で移動しているか否かを判定する第4の判定を行う(S42)。
【0137】
携帯端末100cの処理部112cは、ユーザが所定の速さ以上で移動していないと判定した場合(S42でNo)、ステップS21を行う。一方で、携帯端末100cの処理部112cは、ユーザが所定の速さ以上で移動していると判定した場合(S42でYes)、ステップS24を行う。
【0138】
[4−3.効果など]
本実施の形態に係る音声認識方法によれば、さらに、携帯端末100cの加速度を検出し、検出した加速度を用いて、携帯端末100cのユーザが所定の速さ以上で移動しているか否かを判定する第4の判定を行い、第4の判定の結果、ユーザが、所定の速さ以上で移動している場合、第1の判定および翻訳処理を行わず、所定の速さ以上で移動していない場合、第1の判定および翻訳処理を行う。所定の速さ以上で移動している場合、風切り音、摩擦音、振動音などの雑音を拾いやすくなるため、この場合に、第1の判定および翻訳処理を行わないことで、誤った翻訳を行うことを低減できる。
【0139】
(実施の形態5)
次に、
図13および
図14を用いて、実施の形態5を説明する。
【0140】
[5−1.構成]
図13は、実施の形態5に係る翻訳システムの機能構成の一例を示すブロック図である。
【0141】
図13に示すように、実施の形態5に係る翻訳システム1dでは、実施の形態4に係る翻訳システム1cと比較して、携帯端末100dの構成が異なる。具体的には、携帯端末100dは、実施の形態4の携帯端末100cの構成と比較して音声取得部111d、および、処理部112dの判定部121dの機能が異なる。なお、その他の構成は、実施の形態4と同じ構成である。このため、本実施の形態では、実施の形態4と異なる構成の説明のみ行い、実施の形態4と同じ構成の説明を省略する。なお、本実施の形態では、実施の形態4と同じ構成には実施の形態4と同じ符号を付している。
【0142】
また、携帯端末100dのハードウェア構成は、携帯端末100と同様である。
【0143】
音声取得部111dは、携帯端末100dの周囲の騒音レベルを計測する。音声取得部111dは、具体的には、音信号を、音声信号とその他の信号とに分離したときの、その他の信号のレベルを周囲の騒音として計測してもよい。音声取得部111dは、例えば、コンピュータ101およびマイク102などにより実現される。
【0144】
判定部121dは、音声取得部111dが計測した騒音レベルが所定の騒音レベルより大きいか否かを判定する第5の判定を行う。判定部121dは、具体的には、計測した騒音レベルと音声信号のレベルとを比較することで、SNが所定値(例えば0db)より大きいか否かを判定し、SNが所定値より大きければ騒音レベルが所定の騒音レベルより大きいと判定し、SNが所定値以下であれば騒音レベルが所定の騒音レベル以下であると判定する。判定部121dは、第5の判定の結果、騒音レベルが所定の騒音レベルより大きい場合、第1の判定を行わず、騒音レベルが所定の騒音レベル以下である場合、第1の判定を行う。
【0145】
[5−2.動作]
実施の形態5に係る翻訳システム1dの動作は、実施の形態4に係る翻訳システム1cの動作と比較して、携帯端末100dにおいて行われる翻訳処理が異なる。このため、携帯端末100dにおいて行われる翻訳処理について説明する。
【0146】
図14は、実施の形態5に係る携帯端末における翻訳処理の一例を示すフローチャートである。
【0147】
なお、実施の形態5に係る翻訳処理では、実施の形態4に係る翻訳処理と比較してステップS41、S42、S21〜S24の処理が同じであるので、当該ステップS41、S42、S21〜24の処理の説明を省略する。
【0148】
判定部121dは、ステップS42において「No」と判定した場合、音声取得部111dが計測した騒音レベルが所定の騒音レベルより大きいか否かを判定する第5の判定を行う(S51)。
【0149】
携帯端末100dの処理部112dは、音声取得部111dが計測した騒音レベルが所定の騒音レベル以下であると判定した場合(S51でNo)、ステップS21を行う。
【0150】
一方で、携帯端末100dの処理部112dは、ステップS42で「Yes」と判定された場合、ステップS51で「Yes」と判定された場合、ステップS21で「No」と判定された場合のいずれかの場合、ステップS24を行う。
【0151】
[5−3.効果など]
本実施の形態に係る音声認識方法によれば、さらに、携帯端末100dの周囲の騒音レベルを計測し、計測した騒音レベルが所定の騒音レベルより大きいか否かを判定する第5の判定を行い、第5の判定の結果、騒音レベルが所定の騒音レベルより大きい場合、第1の判定および翻訳処理を行わず、騒音レベルが所定の騒音レベル以下の場合、第1の判定および翻訳処理を行う。騒音を検出している場合、第1の判定および翻訳処理を行わないことで、誤った翻訳を行うことを低減できる。
【0152】
(実施の形態6)
次に、
図15および
図16を用いて、実施の形態6を説明する。
【0153】
[6−1.構成]
図15は、実施の形態6に係る携帯端末の機能構成の一例を示すブロック図である。
【0154】
図15に示すように、実施の形態6では、実施の形態1とは異なり、携帯端末100eが音声認識方法における全ての処理を行う。つまり、実施の形態6の携帯端末100eは、実施の形態1に係る携帯端末100と比較して、処理部112eが実施の形態1においてサーバ200が行っていた多言語認識を行う認識部125を有する点が異なる。携帯端末100eの記憶部113eは、実施の形態1で説明した多言語データベースを記憶している。また、携帯端末100eは、サーバ200と通信を行う必要が無いため、通信部115を備えていなくてもよい。なお、その他の構成は、実施の形態1と同じ構成である。このため、本実施の形態では、実施の形態1と異なる構成の説明のみ行い、実施の形態1と同じ構成の説明を省略する。なお、本実施の形態では、実施の形態1と同じ構成には実施の形態1と同じ符号を付している。
【0155】
なお、認識部125は、実施の形態1に係るサーバ200の認識部212と同様のことを行うため、詳細な説明を省略する。
【0156】
[6−2.動作]
図16は、実施の形態6に係る携帯端末における音声認識方法の一例を示すフローチャートである。
【0157】
図16に示すように、実施の形態6に係る携帯端末100eの動作は、実施の形態1に係る翻訳システム1の動作と比較して、全て携帯端末100eで処理が完結している点が異なる。つまり、
図5で説明したシーケンス図において、ステップS12、S13、S15、S16が省略されている。
【0158】
ステップS11の音声を取得する処理が行われた後に、多言語認識する処理を携帯端末100eの認識部125が行うステップS61が追加されている。
【0159】
ステップS61の後には、ステップS21〜S24が行われる。
【0160】
このように、サーバ200に多言語認識をさせずに、携帯端末100eだけで音声認識方法を行ってもよい。
【0161】
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識方法などを実現するソフトウェアは、次のようなプログラムである。
【0162】
すなわち、このプログラムは、コンピュータに、携帯端末が取得した音声情報を認識し、当該音声情報が示す音声の言語とは異なる言語に翻訳する音声認識方法であって、前記音声情報を取得し、取得した前記音声情報が示す音声の言語の種類を認識し、認識した前記言語の種類が予め登録されている第1の言語であるか否かを判定する第1の判定を行い、前記第1の判定の結果、前記言語の種類が前記第1の言語である場合、前記音声の言語を前記第1の言語とは異なる第2の言語に翻訳する翻訳処理を行う音声認識方法を実行させる。
【0163】
以上、本発明の一つまたは複数の態様に係る音声認識方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。