(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施形態は、ユーザによる手入力のない、ヘッドセットコンピュータを用いるもととなる言語たる原始言語すなわち第1言語から目標の言語すなわち第2言語への自動即時翻訳を提供する。
【課題を解決するための手段】
【0005】
ヘッドセットコンピュータは、即時翻訳のための自動プロセスが、現在の環境および所定のユーザ言語、例えば、デフォルトまたは好ましい言語設定に基づき得る自動即時翻訳処理を使用する。よって、ユーザは、翻訳の要求において、コメントまたはパラメータ入力(ボイスまたはキー入力)を提供する必要がなく、むしろ、プロセスを開始する一回の承認がユーザによって一旦提供されると、即時翻訳は、現在の環境および所定のユーザの(言語デフォルトまたは好みの)設定に基づき得る。
【0006】
例示的な実施形態は、即時音声翻訳を行う方法を含み、当該方法は、少なくとも第1および第2ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立することと、第1ヘッドセットコンピュータで、第1言語の音声を捕捉することと、第1言語の捕捉された音声を第1ヘッドセットコンピュータからネットワークベース音声認識サービスに送信して、捕捉された音声を第1言語のテキストとして認識して文字化することと、第1言語のテキストを第1ヘッドセットコンピュータでネットワークベース音声認識サービスから受信することと、第1言語のテキストをローカルネットワークを通じて少なくとも第2ヘッドセットコンピュータにブロードキャストすることと、第1言語のテキストを第2ヘッドセットコンピュータで受信することと、第1言語の受信されたブロードキャストされたテキストを第2ヘッドセットコンピュータからネットワークベーステキスト翻訳サービスに送信して、第1言語のテキストを第2言語のテキストに翻訳することと、第2言語のテキストを第2ヘッドセットコンピュータでネットワークベーステキスト翻訳サービスから受信することと、第2言語のテキストを第2ヘッドセットコンピュータのディスプレイに表示することとを含む。
【0007】
例示的な実施形態が、第2ヘッドセットコンピュータで第2言語のテキストから音声を合成することと、合成された音声を第2ヘッドセットコンピュータのオーディオスピーカを介して提示することと、ローカル通信ネットワークを確立する前に、第1および第2言語を第1および第2ヘッドセットコンピュータの好ましい操作言語としてそれぞれ設定することをさらに含み得る。ローカルネットワークを確立することは、各ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストすることをさらに含み得る。
【0008】
例示的な実施形態が、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせを用いて、オンスクリーン選択肢を選択して、即時音声翻訳の方法を開始させることをさらに含み得る。ローカル通信ネットワークは、Bluetooth(登録商標)パーソナルエリアネットワーク(PAN)プロファイルを用い得る。ローカル通信ネットワークは、少なくとも1つのヘッドセットコンピュータと少なくとも1つのホストデバイスとの通信リンクをさらに含み得て、ホストデバイスは、少なくとも1つのヘッドセットコンピュータと、ネットワークベース音声認識サービスと、ネットワークベーステキスト翻訳サービスとの間の中継器として動作する。ホストデバイスは、第2言語のテキストを提示するディスプレイをさらに含み得る。ホストデバイスは、少なくとも短距離無線と長距離無線とをさらに含み得て、ホストデバイスは、少なくとも1つのヘッドセットコンピュータとの通信リンクを含むローカル通信ネットワークのために短距離無線を用い得て、ネットワークベース音声認識サービスおよびネットワークベーステキスト翻訳サービスにアクセスするために長距離無線を用い得る。長距離無線は、グローバルモバイル端末システム(Global System for Mobile:GSM(登録商標))、符号分割多元接続(CDMA)などの3Gセルラー方式無線、または4G長期発展指向(Long-Term Evolution:LTE)無線であり得る。
【0009】
さらに例示的な実施形態が、即時音声翻訳を行うヘッドセットコンピューティングデバイスを含み、当該デバイスは、第1言語の音声を捕捉する音声捕捉モジュールと、少なくとも第2ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークを確立し、第1言語の捕捉された音声をネットワークベース音声認識サービスに送信して、捕捉された音声を第1言語のテキストとして認識して文字化し、第1言語のテキストをネットワークベース音声認識サービスから受信し、第1言語のテキストをローカルネットワークを通じて少なくとも第2ヘッドセットコンピュータにブロードキャストし、第2言語のテキストを少なくとも第2ヘッドセットコンピュータから受信し、第2言語の受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、第2言語のテキストを第1言語のテキストに翻訳し、第1言語のテキストをネットワークベーステキスト翻訳サービスから受信する通信モジュールと、第1言語の翻訳されたテキストを表示するマイクロディスプレイとを含みうる。
【0010】
例示的な実施形態は、第1言語のテキストを合成する音声合成器と、合成された音声を再生するオーディオスピーカとを含み得て、さらに、好ましい操作言語を含み得て、好ましい操作言語は、ヘッドセットコンピュータの初期設定時かつ少なくともローカル通信ネットワークを確立する前に設定される。
【0011】
通信モジュールは、少なくとも第2ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークの確立の一部として、ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストし得る。
【0012】
例示的な実施形態が、即時音声翻訳の方法を開始するためのオンスクリーン選択肢をさらに含み得て、オンスクリーン選択肢は、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせによって選択される。通信モジュールはBluetooth(登録商標)PANプロファイルを用いてローカル通信ネットワークを確立し得る。通信モジュールは、少なくとも1つのホストデバイスとの通信リンクをローカル通信ネットワークを通じてさらに確立し得て、ホストデバイスは、ヘッドセットコンピュータと、ネットワークベース音声認識サービスと、ネットワークベーステキスト翻訳サービスとの間の中継器として動作し得る。ホストデバイスは、第2言語のテキストを提示するディスプレイをさらに含み得る。通信モジュールは、少なくとも短距離無線と長距離無線とをさらに含み得て、ホストデバイスは、少なくとも1つのヘッドセットコンピュータとの通信リンクを含むローカル通信ネットワークのために短距離無線を用い、ネットワークベース音声認識サービスおよびネットワークベーステキスト翻訳サービスにアクセスするために長距離無線を用いる。長距離無線は、GSM(登録商標)、CDMAなどの3Gセルラー方式無線、または4G LTE無線であり得る。
【0013】
さらに例示的な実施形態が、ヘッドセットコンピュータの動作を制御するための非一時的なコンピュータプログラム製品を含み、当該コンピュータプログラム製品はコンピュータ読み取り可能な命令を記憶しているコンピュータ読み取り可能な媒体を含み、当該命令は、プロセッサによってロードされ実行される際、当該プロセッサに、少なくとも第1および第2ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立させ、第1ヘッドセットコンピュータで、第1言語の音声を捕捉させ、第1言語の捕捉された音声を第1ヘッドセットコンピュータからネットワークベース音声認識サービスに送信させて、捕捉された音声を第1言語のテキストとして認識して文字化させ、第1言語のテキストを第1ヘッドセットコンピュータでネットワークベース音声認識サービスから受信させ、第1言語のテキストをローカルネットワークを通じて少なくとも第2ヘッドセットコンピュータへブロードキャストさせ、第2ヘッドセットコンピュータから、第2言語のテキストを第1ヘッドセットコンピュータで受信させ、第2言語の受信されたテキストをネットワークベーステキスト翻訳サービスに送信させて、第2言語のテキストを第1言語のテキストに翻訳させ、ネットワークベーステキスト翻訳サービスから、第1言語のテキストを第1ヘッドセットコンピュータで受信させ、第1言語のテキストを第1ヘッドセットコンピュータのマイクロディスプレイに表示させることを含み得る。
【0014】
さらに例示的な実施形態が、即時音声翻訳を行う方法を含み、当該方法は、もととなる言語たる原始言語の音声入力をヘッドセットコンピュータで検出することと、自動言語識別を含む検出された音声を認識して、原始言語を識別することと、音声を原始言語のテキストに文字化することと、テキストを目標の言語に翻訳することと、目標言語および/または原始言語のテキストをヘッドセットコンピュータに接続されたマイクロディスプレイに表示することと、目標言語のテキストから目標言語の音声を合成することと、ヘッドセットコンピュータに接続されたオーディオスピーカを用いて合成された音声を再生することとを含む。
【0015】
さらに例示的な実施形態が、即時音声翻訳を行う方法を含み、当該方法は、ヘッドセットコンピュータに接続されたカメラを用いて、もととなる言語たる原始言語のテキスト画像を検出することと、光学式文字認識を用いて原始言語のテキストを認識することと、原始言語のテキストを目標の言語のテキストに翻訳することと、目標言語のテキストをヘッドセットコンピュータに接続されたマイクロディスプレイに表示することと、目標言語のテキストから目標言語の音声を合成することと、ヘッドセットコンピュータに接続されたオーディオスピーカを用いて合成された音声を再生することとを含む。
【発明を実施するための形態】
【0017】
以下に、例示的な実施形態について説明する。
【0018】
図1Aは、マイクロディスプレイと、ローカルプロセッサと、オーディオおよび/またはグラフィカルデータ(オーディオおよび/またはグラフィカルデータは、ボイスおよび/またはビデオデータをさらにそれぞれ含み得る)を含み得るデータの通信のためのワイヤレストランシーバとを含むヘッドセットコンピュータ(HC)(代替的に、ワイヤレスハンズフリービデオコンピューティングヘッドセット、ヘッドセットコンピューティングデバイスまたはヘッドマウントデバイス(HMD)と呼ぶ)を図示する。HCは、1つまたは複数の周辺機器とさらに一体化されていてもよい。そのような一体化された周辺機器の例として、マイクロホン、スピーカ、3軸〜9軸自由度方位検知、地理測位レシーバ(GPS)、大気センサ、健康状態センサ、デジタルコンパス(多軸磁力計)、フラッシュライト、高度計、圧力センサ、さまざまな環境センサ、対人センサ、エネルギーセンサ、光学センサおよび/またはカメラが含まれるが、これらには限定されない。
【0019】
HCは、ユーザに情報をグラフィカルに提示する1つ以上のマイクロディスプレイ装置を含み得て、任意のボイスコマンドと共に頭部の動き、手の動きおよび/またはジェスチャーなどの動作を検出する、頭部追跡加速度計、ジャイロまたは1つもしくは複数のカメラなどの入力装置を使用でき、さまざまな方法でローカルプロセッサまたはリモートホストプロセッサ上で動作しているアプリケーションの遠隔制御を提供し得る。
【0020】
図1Aに図示された例示的な実施形態は、マイクロディスプレイ(WQVGAまたはそれ以上)要素1010と以下に記載する他の機能とを含むHC100(本明細書では、デバイス100とも呼ぶ)を示す。HC100および他のデバイスの動作を制御するために、ヘッドセットに組み込まれた、および/または1つ以上の周辺機器ポートを介してデバイスに取り付けられた、1つ以上のマイクロホン(複数可)、入出力スピーカ(複数可)、地理測位検知、3軸〜9軸自由度方位検知、大気センサ、健康状態センサ、GPS、デジタルコンパス、圧力センサ、環境センサ、エネルギーセンサ、加速度、位置、高度、運動、速度用センサもしくは光学センサ、カメラ(可視光、赤外線(IR)、紫外線(UV)など)、付加的なワイヤレス無線(Bluetooth(登録商標)、Wi−Fi(登録商標)、3Gまたは4GのLTEセルラー方式、FMなど)、補助照明、距離計など、および/またはセンサ配列を、入力および/または出力装置は含む。(Bluetooth(登録商標)は、ワシントン州カークランドのBluetooth Sig, Inc.の登録商標であり、Wi−Fiは、テキサス州オースチンのWi-Fi Alliance Corporationの登録商標である。)
【0021】
また、HC100の筐体内に典型的に配置されているのは、すぐに理解されるように、マイクロコンピュータ(シングルまたはマルチコア)、1以上の有線もしくは無線インターフェースおよび/または光学インターフェースを含むさまざまな電子回路であり、付随するメモリおよび/または記憶装置、さまざまなセンサ、ならびに「ホットシュー」1020などの周辺マウントである。
【0022】
図1Aは、ヘッドセットコンピュータ(HC)100の例示的な実施形態のいくつかの詳細を示す斜視図である。HC100は、フレーム100と、ストラップ1002と、後部1004と、スピーカ1006と、カンチレバーまたはアーム1008と、マイクロディスプレイサブアセンブリ1010とを、概して含む。
【0023】
図1Bは、HC100が用いられ得るさまざまな方法のうちの一例を示す。HC100は、リモートホストコンピューティングデバイス200(リモートコンピューティングデバイス200とも呼ぶ)によって提供されたストリーミングビデオ信号のためのリモートディスプレイとして用いられ得る。ホスト200は、例えば、ラップトップコンピュータ、携帯電話、ブラックベリー(登録商標)、iPhone(登録商標)、クラウドベースサーバ、別のHC100であってもよく、または、ワイヤレスリモートコントロールHC100より計算量が少ないもしくは多いその他のコンピューティングデバイスであってもよい。さらに、ホスト200は、他のネットワークに、例えば有線または無線接続210を介してインターネット120に、接続されてもよい。そのうえ、HC100は、他のネットワークに、例えば有線または無線接続160を介してインターネット120に、さらに接続されてもよい。HC100とホスト200は、Bluetooth(登録商標)、Wi−Fi、セルラー方式、LTE、WiMaxまたは他のワイヤレス無線リンク150などによって提供される1つ以上の好適な無線接続を介して、互いにおよび/または他のネットワークに接続される(ブラックベリーは、カナダ、オンタリオ州ウォータールー、フィリップ通り295のResearch in Motion Limitedの登録商標である。iPhoneは、カリフォルニア州クパチーノ、インフィニートループ1のApple Inc.の登録商標である。)
【0024】
HC100は、ホスト200用のリモコン装置としても用いられ得る。例えば、HC100によって、ユーザは、ホスト200の仮想ディスプレイ400で区画されたかなり大きい領域内の視野300を選択できる。ユーザは、典型的には、例えば、HC100で検出された音声コマンドとともに、頭部の動き、手の動き、体のジェスチャーを用いて、または他の方法で、視野300の位置、大きさ(例えば、X−Yまたは3D範囲)および/または倍率を制御できる。HC100は、よって、例えばパンおよびズームをしたり、ディスプレイの視野を制御するための専用のユーザ入力周辺機器および処理を備え得る。
【0025】
また、HC100内に配置されているのは、すぐに理解されるように、マイクロコンピュータ(シングルであるかマルチコア)、1つ以上のワイヤレスインターフェースを含む回路であり、付随するメモリもしくは他の記憶装置、1つ以上のカメラ(光学センサ)および/または先に述べた各種センサである。カメラ(複数可)、運動センサ(複数可)および/または位置センサ(複数可)は、符号110、111、112のユーザの頭部の動きおよび/または位置、符号113の手の動きおよび/または位置、および/または体の動きおよび/または位置を、少なくとも第1軸110、110(水平)において、好ましくは、第2軸(垂直)112、第3軸(奥行き)113、第4軸(ピッチ)、第5軸(ロール)、および第6軸(ヨウ)においても、追跡するために用いられる。3軸磁気計(デジタルコンパス)が、ワイヤレスコンピューティングヘッドセットまたは周辺機器に、フル9軸自由度位置精度を提供するために、付加され得る。
【0026】
HC100は、また、少なくとも1つのマイクロホンと、メモリあるいは他の記憶装置および/または音声認識のためのプログラマブルなプロセッサなどの対応する電子機器とを含む。HC100は、ユーザのボイスを検出し、音声認識技術を用いて、コマンドおよび/またはディクテーションを導き出す。HC100は、音声認識から導き出されたコマンドを用いて、当該コマンドで示された機能を実行する。
【0027】
一例示的な実施形態では、2つ以上のHC100が、第1口語人間言語(すなわち、もととなる言語たる原始言語)から第2口語人間言語(すなわち、目標の言語)への即時翻訳を行い得る。そのような例により、HC100の2人以上のユーザは、各ユーザが、異なる言語を話し、当該ユーザが話しかけている相手と視線を合わせ続けながら、互いに対話することができる。翻訳の形式は、第1(原始)言語の音声から第2(目標)言語のテキストおよび音声を含み、またはその逆を含み得る。
【0028】
図2は、2つ以上のHC100同士の通信リンクおよび各HC100とクラウドベースネットワークリソース401とのリンクを確立することを含む即時翻訳の例示的な実施形態を示す。HC100は、マイクロディスプレイ210と、1つ以上のマイクロホン(マイク1およびマイク2)220と、1つ以上のオーディオスピーカ(スピーカ1およびスピーカ2)230と、動作可能に接続されたプロセッサ205からさらに構成されるメインボード101と、ノイズキャンセルモジュール(NCS)225と、コマンド制御モジュール250と、音声認識捕捉モジュール255と、音声合成モジュール260と、無線通信モジュール208とから構成され得る。HC100は、さらに、本発明の主体による即時音声翻訳を可能にする追加の要素から構成され得る。
【0029】
さらに、HC100のいくつかの実施形態では、ユーザは、好ましい性能のために、HC100の設定および動作をカスタマイズできる。カスタマイズは、即時翻訳セッションのためにローカル通信ネットワークを確立する前に、第1言語を、HC100の好ましい操作言語として設定することを含み得る。例えば、好ましい(またはデフォルト)言語が、コンピュータソフトウェアアプリケーション製品をHC100に最初にインストールし、設定する時に、設定され得る。理解されるように、好ましい言語は、例えばHC100のユーザが話している時などのいくつかの例では、原始言語であり得て、または、例えばHC100が当該好ましい言語以外の言語のテキストを受け取る時などは、目標言語であり得る。
【0030】
HC100とクラウドベースネットワークリソース401との通信が、スマートフォンなどの周辺ホストデバイス200を無線中継器として用いるさまざまな無線通信方法によって、可能にされ得る。いくつかの実施形態では、HC100は、Wi−Fi、3G(GSM(登録商標)、CDMAなど)もしくは4G LTEセルラー方式、またはWiFi-Directなどのさまざまな無線通信方法を用いて、クラウドベースネットワークリソース401と直接通信し得る。クラウドベースネットワークリソース401は、クラウドベース音声認識/ディクテーションモジュール405とテキスト翻訳モジュール410とを含み得る。
【0031】
図2は、2つ以上のHC100同士の通信リンクおよび各HC100とクラウドベースネットワークリソース401とのリンクを確立することを含む即時翻訳の例示的な実施形態を示す。各HC100間の通信リンクを含むローカル通信ネットワークが、確立され得る。Bluetooth(登録商標)パーソナルエリアネットワーク(PAN)プロファイルなどのプロトコルを用いる短距離無線が、ローカルネットワークのために用いられ得る。問合せメッセージング(interrogatory messaging)には、各HC100の好ましい(またはデフォルト)言語の設定を示すデータが含まれ得る。例えば、
図2の2つのHC100Aおよび100Bを考慮すると、HC100Aは、英語話者301A(ユーザとも呼ぶ)に用いられ、英語音声を聞く(すなわち、認識する)ように構成されるが、一方、HC100Bは、仏語話者301B(ユーザとも呼ぶ)に用いられ、仏語音声を聞くように構成される。言い換えると、音声認識捕捉モジュール255は、ソフトウェアを介して各HC100の各ユーザの音声を認識するように構成される。
【0032】
HC100にインストールされたまたは実行されたソフトウェア製品アプリケーションの初期設定時、好ましい言語は、好ましい言語設定が、即時翻訳セッション前の、当該セッションを開始する要求の承認以外の追加のユーザ入力なしで、自動即時音声翻訳において参照され用いられるように、ユーザによって設定され得る。
【0033】
また、
図2に示されるように、各HC100Aおよび100Bは、Bluetooth(登録商標)登録パケットなどの近距離(すなわち、およそ100フィート以下)ネットワーク問合せ305を継続して送信する。このようなネットワーク問合せにより、HC100Aおよび100Bは、当該デバイスが送信範囲内にある時、各ユーザ301Aおよび301Bの手間なしで、瞬時かつ自動的にローカルネットワーク310を構成できる。問合せ305は、好ましいまたはデフォルト言語などの各HC100の識別データと、他の動作特性とを保持し提供する。そのようなネットワーク310を識別および構成する時、HC100Bが近くにあることだけでなく、HC100Bが、仏語を話すユーザ301B用に設定されていることを、HC100Aは、認識させられる。同様に、そのようなローカル通信ネットワーク310を識別および構成する時、HC100Aが近くにあり英語を話すユーザ301A用に設定されていることを、HC100Bは認識する。さらに、各HC100(100Aおよび100B)は、各ユーザに即時音声翻訳セッションを開始できる選択肢を提供する。例えば、HC100は、即時翻訳セッションを開始するためのオンスクリーン選択肢を、マイクロディスプレイを介してユーザに提示してもよい。ユーザは、ボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンド、またはそれらの組み合わせを用いて、この即時翻訳セッションリクエストを承認または拒絶できる。
【0034】
各ユーザ301Aおよび301Bが、即時音声翻訳セッションを一旦有効にすると、当該セッションは開始できる。例えば、英語話者301Aは、英語のフレーズをデバイス100Aに話す。HC100Aは、マイクロホン(複数可)220と連動して、音声認識捕捉モジュール255を用いて、英語音声オーディオ入力を捕捉する。捕捉された音声は、無線通信モジュール208を用いて、Wi−Fiまたは4G LTEなどのネットワーク接続415を介して、クラウドベース音声認識サービス405に送信される。クラウドベース音声認識サービス405は、典型的には数秒未満に、音声オーディオ入力を文章化された英語テキストとして、HC100Aに(接続415を介して)返す。
【0035】
そして、返された文章化英語テキストすなわち英語文章は、第1ヘッドセットコンピュータ、HC100A、によって、第2ヘッドセットコンピュータ、HC100Bに、例えばBluetooth(登録商標)接続であり得るローカルネットワークリンク310を通じて送信される。英語文章を受信した後、HC100Bは、英語文章をクラウドベーステキスト翻訳サービス410に(無線通信モジュール208を用いるネットワーク接続420を通じて)送信して、その結果、当該英語文章は、文章化された仏語テキストすなわち仏語文章に翻訳され得る。クラウドベーステキスト翻訳サービス410が、受信された英語文章から仏語文章への翻訳を一旦完了すると、仏語文章はネットワーク接続420を通じてHC100Bに返される。仏語文章を受信すると、HC100Bは、仏語文章をそのマイクロディスプレイ210に表示し、音声合成モジュール260が、オーディオスピーカ(複数可)230と連動して用いられて、対応する合成音声を仏語で生成する。
【0036】
当業者ならば、(仏語ユーザ301Bによる)仏語音声が、(英語ユーザ301側で)英語テキストおよび音声に翻訳されるように、プロセスが交互に入れ替えられて、その結果双方向翻訳サービスが実現され得ることが、分かるであろう。さらに、当業者ならば、上述の方法は、グループ翻訳オーディオのブロードキャストシステムが実現されるように、複数のHC100にまで適用範囲が拡張され得ることが、分かるであろう。言い換えると、例えば、英語話者301Aは、英語で話して、それぞれが異なる言語に設定された複数の他のHC100に英語文章をブロードキャストでき、それによって、多言語即時翻訳システムを構築できる。各HC100は、英語文章(例えば、原始言語すなわち第1言語(言語1)テキスト)を受信し、各HCの好ましい(またはデフォルト)言語設定に従って第1言語すなわち原始言語すなわち一の言語と異なる適切な言語(例えば、目標言語すなわち第2言語(または第3もしくはそれ以上、例えば、言語2または言語3など))に当該英語文章を、視覚表示および合成音声のために、別個に翻訳する。
【0037】
図3は、HC100が本発明による即時翻訳システム1001において実行する例示的な工程のフローチャートである。開始後、HC100Aは、ステップ1003にて、第1言語(言語1)での動作用に設定される。次に、ステップ1005にて、HC100Aは、Bluetooth(登録商標)登録パケットなどの問合せ305を、ローカルネットワークを通じてブロードキャストする。HC100Bなどの少なくとも1つの追加のHCで構成されるローカルネットワークを識別すると、HC100AおよびHC100Bは、ステップ1007にて、ローカルBluetooth(登録商標)ネットワーク310などのローカルネットワークを構成し、そこに加わる。次に、HC100AおよびHC100Bのユーザ(ユーザ301Aおよび301B)は、それぞれのHC100上で即時翻訳セッション1009を開始する選択をする。例えば、各ユーザ301Aおよび301Bは、ボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンド、またはそれらの組み合わせを用いて、オンスクリーン選択肢に応答して、即時翻訳セッションを承認する。
【0038】
ソフトウェアアプリケーション製品のインストール時および初期インストール時に、HC100は、第1言語(言語1)が好ましい言語となるように、ステップ1003にて、設定され得る。HC100が動作中、好ましい言語設定を含むローカルネットワーク問合せが、ステップ1005にて、ブロードキャストされ得る。HC100が別の(第2)HC100の範囲(近距離、例えば、100フィート内)内にある場合、ステップ1007にて、ローカル通信ネットワークが識別され確立される。次に、ステップ1008にて、オンスクリーン(および/またはオーディオ)プロンプトが、ユーザに対して提示され、即時翻訳セッションを開始する。
【0039】
以下に、HC100AのユーザがHC100Bのユーザとの会話を始める観点から説明する。ステップ1011にて、HC100Aは、第1言語のボイス入力、すなわち、ユーザ301Aによる音声を、捕捉する。次に、ステップ1013は、捕捉した音声をクラウドベース音声認識サービス401、405に、Wi−Fiまたは4G LTEなどのネットワーク接続を通じて送信する。クラウドベース音声認識サービス405は、音声を第1言語のテキストに文字化および認識し、第1言語の文字化されたテキストをHC100Aに返す。それに応じて、HC100Aは、文字化されたテキストを、ステップ1015にて受信し、ステップ1017にて、第1言語のテキストデータとして、ローカルネットワーク310を通じてブロードキャストする。そのようなローカルネットワークは、Bluetooth(登録商標)ローカルネットワークであり得る。
【0040】
そして、HC100Bは、ステップ1021にて、第1言語のブロードキャストされたテキストを受信し得る。次に、HC100Bは、ステップ1023にて、第1言語のテキストをクラウドベース翻訳サービス410に送信し、第2言語のテキストに翻訳する。クラウドベース翻訳サービス410は、第2言語に翻訳されたテキストをHC100Bに返す(ステップ1025)。そして、HC100Bは、ステップ1027にて、第2言語に翻訳された受信テキストをマイクロディスプレイ210、1010に表示し、ステップ1029にて、HC100Bのオーディオスピーカ230を用いてユーザ301Bに対して第2言語のテキストを音声に合成する(例えば、自動で、読む、述べる、復唱する、発音する)。
【0041】
当業者であれば、各HC100が上述の工程を実行し得ることと、当該工程が入れ替わりユーザ300Aおよび300Bの会話を可能にすることとが、分かるであろう。
【0042】
上述の即時翻訳システム1001の利点は、テキストから音声への合成にのみに単に依拠するよりむしろ、受信テキストを見ることができることは、多くの場合とても有用であるという事実を含む。特に、進行中の会話において、以前の発言を参照したい場合、とても有用である。さらに、マイクロディスプレイ210、1010を、目の近くの位置に配置するが、ユーザの視界をふさがないことによって、ユーザは、会話する相手と視線を合わせ続けることができ、よって、ユーザは、視線を合わせ続けるという、対人コミュニケーションの基本ルールを守ることができる。
【0043】
他の実施形態では、(第1または原始)言語から(第2または目標)言語への即時翻訳が、本発明の主体に従って、実行される。即時翻訳は、音声から音声(STS)、音声からテキスト(STT)、テキストから音声(TTS)、および/またはテキストからテキスト(TTT)への翻訳を含む、複数の形式の、一の口語人間言語から他の口語人間言語への変換である、即時音声翻訳を含み得る。例示的な実施形態では、音声がHC100に動作可能に接続された1つ以上のマイクロホンによって検出され得て、もとの言語から翻訳言語に即座に翻訳され得る。翻訳された音声は、テキストおよび/または合成音声として提示され得る。別の例示的な実施形態では、組み込まれたテキストを含む画像が、HC100に動作可能に接続された1つ以上のカメラ160(
図4)によって捉えられ得て、前記組み込まれたテキストが認識され、もとの言語から翻訳言語に即座に翻訳され得る。認識、翻訳されたテキストは、合成音声および/またはテキストとして提示され得る。
【0044】
当業者であれば、即時翻訳によって、即時形式変換、すなわち、検出されたボイス入力を同じ言語のテキストに変換すること、または、認識されたテキストを合成音声に変換することが、さらに可能であり得ることが、分かるであろう。言い換えると、例示的な実施形態では、ハンズフリー即時STT変換、すなわち、ディクテーションが可能であり、一方、さらなる例示的な実施形態では、ハンズフリー即時TTS変換、すなわち、認識されたテキストを読み上げる(発音する)合成音声が可能である。
【0045】
図4は、即時音声翻訳に用いられるHC100、周辺ホストデバイス200およびクラウドベースネットワークリソース505の別の実施形態を示す。HC100は、マイクロディスプレイ210と、1つ以上のマイクロホン(マイク1およびマイク2)220と、1つ以上のオーディオスピーカ(スピーカ1およびスピーカ2)230と、カメラ160と、動作可能に接続されたプロセッサ205からさらに構成されるメインボード101と、メモリまたは他の記憶装置(図示せず)と、ノイズキャンセルモジュール(NCS)225と、コマンド制御モジュール250と、音声認識/ディクテーションモジュール255と、音声合成モジュール260と、光学式文字認識(OCR)モジュール165と、無線通信モジュール208とから構成され得る。HC100は、さらに、即時音声翻訳を可能にする追加の要素から構成され得る。モジュール250、255、260、225は、上述のものである。
【0046】
さらに、HC100のいくつかの実施形態では、ユーザは、好ましい性能のために、HC100の設定および動作をカスタマイズできる。HC100とクラウドベースネットワークソース505との通信が、スマートフォンなどの周辺ホストデバイス200を無線中継器として用いるさまざまな無線通信方法によって、可能にされ得る。言い換えると、各HC100は、ホストデバイス200との通信リンクを含むローカル通信ネットワークを構成し得る。ホストデバイスは、第1すなわち原始言語(または第2すなわち目標言語)のテキストデータをネットワークサービス音声認識モジュール555(またはテキスト翻訳モジュール570)へ中継し得る。いくつかの実施形態では、HC100は、
図2で上述したように、Wi−Fi、3G(GSM(登録商標)、CDMAなど)もしくは4G LTEセルラー方式、またはWiFi-Directなどのさまざまな無線通信方法を用いて、クラウドベースネットワークリソース505と直接通信し得る。クラウドベースネットワークリソース505は、クラウドベース音声認識/ディクテーションモジュール555と、OCRモジュール565と、音声合成モジュール560と、テキスト翻訳モジュール570とを含み得る。
【0047】
一実施形態では、即時音声翻訳が、HC100にて、局所的に発生し得る。マイクロホン(マイク1およびマイク2)220は、ボイス入力、すなわち、音声入力を受け取る。ノイズキャンセルモジュール(NCS)225が、用いられて、背景雑音を除去して、マイクロホン220で受け取られたボイス/音声入力のより正確な表現が、ローカル音声認識モジュール255に供給され得る。NCS225は、アクティブノイズキャンセル(ANC)などの任意のノイズキャンセル技術を使用し得る。(ノイズキャンセルの点で)処理済みまたは未処理のボイス/音声入力が、音声認識/ディクテーションモジュール255に提供され得て、そして、音声認識/ディクテーションモジュール255は、デジタルオーディオ信号に対して音声認識を行い、認識された音声をテキストに変換する。任意に、文字化されたテキストはマイクロディスプレイ210に表示され得て、認識された音声を文字化したものを提供し得る。文字化されたテキストは、ローカル翻訳モジュール(図示せず)に提供され得る。ローカル翻訳モジュールは、文字化されたテキストを、ある自然言語から翻訳して、別の翻訳テキストを生成し得る。任意に、翻訳テキストは、マイクロディスプレイ210に表示され得る。翻訳テキストは、音声合成モジュール260に供給され得て、HC100の1つ以上のオーディオスピーカ230を用いて、読み上げられ(発音され)得る。ローカル翻訳モジュールまたはメインボード101上の他のモジュール250、255、260は、ユーザ毎にデフォルト言語設定を有し、デフォルト言語の機能として、目標言語を自動的に決定し得る。
【0048】
例示的な実施形態およびカスタマイズされた構成が、典型的には第2(外国)言語で、HC100のユーザ/携帯者以外の人が話した音声が認識され翻訳され得るように、異なるマイクロホン220に関連する異なるノイズレベル閾値を設定することを、含み得る。いくつかの例示的な実施形態では、HC100が、音声についての受け取られたオーディオ信号を聞き取り、モニタしている間、当該受け取られたオーディオ信号を処理するノイズキャンセル技術を用いなくてもよい。いくつかの例示的な実施形態では、合成音声が、特にユーザの各耳に対する少なくとも1つのオーディオスピーカ230を含むHCの例示的な実施形態において、ユーザ/携帯者に対して読み上げられ/発音される際にノイズキャンセル技術を用いてもよい。
【0049】
好ましい実施形態では、即時音声翻訳は、クラウドベースネットワークリソース505を用い得る。HC100は、Bluetooth(登録商標)またはWiFi Directなどの周知のワイヤレスプロトコルを用いて、無線通信モジュール208を介して、スマートフォンなどの周辺ホストデバイス200と通信し得る。スマートフォン200は、無線中継器として機能し得て、HC100とクラウドベースネットワークリソース505との通信を可能にする。HC100のいくつかの実施形態は、無線中継デバイス(例えば、ホスト200)を用いずにクラウドベースネットワークリソース505との通信を可能にする、4G LTE、Wi−Fiなどの複数の無線を含む無線通信モジュール208を含み得る。
【0050】
マイクロホン(マイク1およびマイク2)220は、1つの言語のボイス/オーディオ入力、すなわち、音声入力を受け取る。ノイズキャンセルモジュール(NCS)225が、背景雑音を除去するために用いられて、マイクロホン220で受け取られたボイス/音声入力のより正確な表現が、ローカル音声認識モジュール255に供給され得る。NCS225は、アクティブノイズキャンセル(ANC)などの任意のノイズキャンセル技術を使用し得る。1つの(原始)言語の処理済みまたは未処理のボイス/音声入力が、ローカル音声認識/ディクテーションモジュール255に提供される。音声認識モジュール255は、受け取ったデジタルオーディオ入力信号に対して音声認識を行い、(原始言語の)認識した音声を原始言語のテキストに変換する。得られた(前記一の言語の/原始言語の)認識テキストは、リモートクラウドベース翻訳モジュール570に送信される。
【0051】
リモートクラウドベース翻訳モジュール570は、受信した原始言語のテキストを翻訳して、翻訳テキストを生成する(すなわち、テキストを前記一の言語/原始言語から第2言語/目標言語へテキストを翻訳する)。クラウドベースネットワークサーバ505は、翻訳テキストをHC100に、例えばホスト200である中継器で、伝達する。翻訳テキストがHC100に受信された後、プロセッサは、コマンドを実行して、受信された目標言語のテキストをマイクロディスプレイ210に表示する。そして、翻訳テキストが、音声合成モジュール260に供給され得て、HC100の1つ以上のオーディオスピーカ230を用いて読み上げられ(発音され)得る。HC100のコマンド/制御モジュール250または音声/テキスト処理モジュール(STT255、TTS260)は、ユーザ毎にデフォルト(または好みの)言語設定を有してもよい。このようにして、HC100からホスト200を介して中継された翻訳要求は、ユーザのデフォルト(好みの)言語設定に基づいて、目標言語を自動的に設定する。ユーザは、HC100とクラウドベースネットワークサービス505との間でやりとりされた翻訳要求毎に、目標言語の指示を挿入または入力する必要がない。
【0052】
当業者であれば、他の処理がHC100からオフロード(offroad)される他の構成が可能であることが分かるであろう。例えばHC100は、例えばボイス/音声入力などを含むさまざまな入力をクラウドベースネットワークリソース505に提供し得て、自動指示された(ユーザの好ましい/デフォルト)目標言語が、クラウドベースネットワーク音声認識/ディクテーションモジュール555に提供され得て、デジタルオーディオ信号に対して音声認識を行い、音声を同じ言語のテキストに変換し得る。そして、認識されたテキストは、クラウドベースネットワーク翻訳モジュール570によって処理され、(原始言語から自動的にデフォルト目標言語に)翻訳されたテキストを生成し得る。そして、翻訳テキストは、HC100に返信され得て、当該HC100において、テキストとしてマイクロディスプレイ210に表示され、音声合成モジュール260に供給され、1つ以上のスピーカ230を用いて、目標言語で読み上げられ(発音され)得る。上記は、少なくとも即時翻訳の要求においてユーザが目標言語の指示を入力する必要がないという意味で、自動である。
【0053】
代替的に、HC100は、検出された音声信号(およびユーザ目標言語の自動指示)をクラウドベース音声認識モジュール555に送り得て、当該クラウドベース音声認識モジュール555は、認識した音声をテキストに変換する。そして、認識されたテキストは、クラウドベースネットワーク翻訳モジュール570によって処理され、ユーザによる特定の言語要求の入力なし(入力不要)で、目標言語の翻訳テキストを自動的に生成し得る。そして、翻訳テキストは、クラウドベースネットワーク音声合成モジュール560によって用いられ、目標言語の翻訳音声を生成し得る。翻訳音声は、HC100に送られ、受信された後、スピーカ230を用いてユーザに対して再生され得る。
【0054】
図4に関する即時翻訳を可能にする例示的な実施形態を、以下に説明する。
【0055】
例示的な実施形態では、組み込まれたテキストを含む画像が、HC100のカメラ160によって捉えられ得る。組み込みテキストの認識が、OCRモジュール165を用いて、局所的に発生し得る。そして、(原始言語の)認識されたテキストは、ローカル翻訳モジュール(図示せず)に提供され得て、(デフォルト言語設定で示されたユーザ好みの)目標言語の翻訳テキストを自動的に生成し得る。翻訳テキストは、マイクロディスプレイ210に表示され得るおよび/または音声合成モジュール260およびスピーカ230を用いてユーザに対して発音され得る。上記は、即時翻訳処理に対して目標言語の指示をユーザが入力する必要がない意味で、「自動的」に達成される。
【0056】
好ましい実施形態では、カメラ160によって捉えられた組み込みテキストを有する画像は、HC100からネットワークベースOCRモジュール565に、スマートフォン200などの無線中継器として機能する周辺ホストデバイス200を介して、または無線通信モジュール208を用いて直接、送信され得る。組み込みテキストを有する捉えられた画像は、クラウドベースネットワークサービス505に送られ得て、当該クラウドベースネットワークサービス505において、組み込みテキストの認識が、クラウドベースOCRモジュール565を用いて行われ得る。そして、認識されたテキストは、クラウドベース翻訳モジュール570に、(ユーザ好みの設定/デフォルト設定から供給された)目標言語の自動指示とともに、HC100から提供され得て、目標言語の翻訳テキストを生成し得る。そして、翻訳テキストは、HC100に送られ得る。一旦HC100で受信されると、翻訳テキストは、マイクロディスプレイ210で表示され得る、および/またはローカル音声合成モジュール260を用いて音声に変換され、スピーカ230を用いて発音され得る。
【0057】
それぞれ
図5Aおよび5Bに関する即時翻訳処理1001Aおよび1001Bの例示的な実施形態を、次に説明する。
【0058】
図5Aは、本発明の、音声から音声(STS)および音声からテキスト(STT)の即時翻訳の例示的な実施1001Aを図示する。
図5Aに列挙したさまざまな機能が、HC100上で(すなわち、局所的に)実装され得る、あるいは(
図4に示された)ホスト200またはクラウドベースネットワークリソース505などの他の処理装置へ(すなわち、離れて)オフロードされうる。好ましい実施形態では、集約処理(CPUプロセス)動作および他のソース集約動作が、オフロードされて、HC100がより経済的かつ効率的に動作する。このようなプロセスをオフロードすることによって、HC100は、電力消費コストを移出して(by exporting the power consumption cost)、バッテリ電源を温存できる。さらに、ネットワークソースを用いてこのようなプロセスを行うことによって、HC100上のリソースを、再割り当てできる。
【0059】
図5Aに示された音声から音声(STS)および音声からテキスト(STT)の即時翻訳の例示的な実施1001Aは、ステップ4201にて、マイクロホン220によってボイス入力が検出されると、開始する。一旦ボイス入力が検出されると、ステップ4203にて、当該入力に含まれる音声が認識される。音声認識は、自動言語識別を含み得る。そして、認識された音声は、ステップ4205にて、テキストに文字化され得る。認識された音声が一旦テキストに文字化されると、文字化されたテキストは、ステップ4211にて、任意に、ユーザに対して(すなわち、ディクテーションしたものを文字化したものとして)マイクロディスプレイ210に表示され得る。次に、文字化されたテキストは、ステップ4207にて、ユーザの好ましい言語などの事前に選択された言語(所定の目標言語)、例えば、英語に、自動的に翻訳され得る。ユーザは、ステップ4207に対して、目標言語の指示を入力する必要がないため、システム1001Aは、即時自動翻訳を行う。一旦(原始言語からユーザのデフォルト/目標言語へ)自動的に翻訳されると、翻訳テキストは、ステップ4211にて、任意に、ユーザに対して(すなわち、ユーザの好ましい言語の翻訳文として)マイクロディスプレイ210に表示され得る。並行して、ステップ4209にて、翻訳テキストは、音声に合成され得る。一旦音声が合成されると、システム1001Aは、次いで、ステップ4213にて、翻訳テキストに対応する音声を、ユーザに対してオーディオスピーカ230を介して読み上げ(発音し)得る。
【0060】
図5Bは、テキストから音声(TTS)およびテキストからテキスト(TTT)の即時翻訳の例示的な実施1001Bを図示する。
図5Aのさまざま機能と同様に、
図5Bに列挙したさまざまな機能が、HC100上で実装されるか、または(
図4に示した)ホストデバイス200もしくはクラウドベースネットワークリソース505などの他の処理装置へオフロードされ得る。
図5Aに対して上述された利点として、好ましい実施形態では、集約CPUプロセスおよび他のリソース集約動作がオフロードされて、HC100はより経済的かつ効率的に動作する。
【0061】
図5Bに示されたテキストから音声(TTS)およびテキストからテキスト(TTT)の即時翻訳の例示的な実施1001Bは、ステップ4301にて、(カメラ160などを介して)画像入力を受け取ると、開始する。一旦画像が入力されると、ステップ4303にて、光学式文字認識(OCR)などの技術を用いて、当該画像に組み込まれたテキストが認識される。一旦組み込みテキストが認識されると、組み込みテキストは、任意に、ステップ4307にて、音声として合成され得て、そして、ステップ4311にて、HC100に接続されたオーディオスピーカ230を介してユーザに対して読み上げられ(発音され)得る。付加的にまたは代替的に、認識された組み込みテキストは、ステップ4305にて、ユーザの好ましい言語などの事前に選択された言語(所定の目標言語)、例えば、英語に、翻訳され得る。ユーザは、ステップ4305に対して、目標言語の指示を入力する必要がないため、システム1001Bは、即時自動翻訳を行う。一旦自動的に翻訳されると、翻訳テキストは、ステップ4309にて、任意に、ユーザに対して(すなわち、ユーザの好ましい/目標言語への翻訳文として)マイクロディスプレイ210に表示され得る。並行して、ステップ4307にて、翻訳テキストは、音声に合成され得る。一旦音声が合成されると、システム1001Bは、次いで、ステップ4311にて、翻訳テキストを、ユーザに対してオーディオスピーカ230を介して読み上げ(発音し)得る。
【0062】
システム1001A、1001BのSTSおよび/またはSTT翻訳は、多くの場合、有用であり得る。
図6Aは、HC100のユーザ351または携帯者が、ある外国語のみを話すことができる人360と対話し得る例を図示する。(
図4に示された)マイクロホン220を介して、システム1001A、1001Bは、外国語話者360の音声、例えば、スペイン語の音声を検出、認識し、当該検出したスペイン語のボイス入力に対してボイス音声認識を行う。そして、認識された音声は、英語などのユーザ(351)の好ましい言語または目標言語を含む多くの言語に翻訳され得る。翻訳された音声のテキストが、マイクロディスプレイ210にて、ユーザ351に対して提供され得る。代替的または付加的に、翻訳された音声は、音声合成技術を用いて、スピーカ230でユーザ351に対して読み上げられ得る。HC100の例示的な実施形態は、複数のマイクロホン220に加えて、ユーザ351の各耳に対して1つずつ、つまり2つのスピーカ230を備え得て、外国語話者360の音声を含む不要な環境音がユーザ351に聞こえないように、任意に、アクティブノイズキャンセル(ANC)225によるノイズキャンセルを提供し得る。このようなノイズキャンセル機能225は、HC100のユーザ351には(ステップ4209、4307において合成された)システムで翻訳された音声のみが聞こえ、翻訳中の外国語の音声(人360のボイス)が聞こえないため、有用であり得る。
【0063】
さらに、翻訳される外国語の音声は、ユーザ351に対して(マイクロディスプレイ210を介して)外国(原始)言語またはユーザが欲する別の言語のテキストとして表示もされ得る。例えば、スペイン語の音声は、英語に翻訳され、英語テキストとして提示され得る。
【0064】
HC100(システム1001A、B)によって可能となった即時翻訳は、外国語を学ぶのに有用となりうる。この用途の場合、「目標」言語は、(ユーザのデフォルト言語/好ましい設定言語と異なる言語)外国語である。例えば、携帯者351は、システムに、英語などの母語を仏語などの所望の外国(目標)言語に翻訳させるように決定できる。即時翻訳デバイス100/システム1001A、Bを日常の会話に用いることによって、携帯者351は、英語の音声(ボイス入力)を、仏語に翻訳させ、スピーカ230を介して、ANC225を用いて、仏語のみを聞くことができる。よって、ユーザ351は、学びたい(目標)言語に浸ることができる。携帯者351は、また、マイクロディスプレイ210を介して、翻訳された音声のテキストを見ることができ、書き言葉の(目標)言語の学習に役立つ。また、画像が、それ自身だけまたはテキストに加えて、ユーザに対して音声と同時に提示され得る。
【0065】
図6Aに示されたさらに別の例において、HC100は、翻訳された(目標)テキストを可聴音声の形態で、HCスピーカ(複数可)230から出力し得るだけでなく、HC100は、翻訳された(目標)テキストをスマートフォン200などの外部デバイスに出力してもよい。例えば、ユーザ351は、外国に到着し、HC100を用いて外国人タクシードライバー(例えば人360)と対話したい場合がある。翻訳された(目標)テキストをマイクロディスプレイ210に出力するまたはスピーカ230から音声を出力する代わりに、HC100は、翻訳された(目標)テキストを、タクシードライバーの携帯電話などの、ドライバー360に付随する周辺機器200に出力し得る。この周辺機器200は、テキストを表示可能なスクリーンまたはスピーカに動作可能に接続されていてもよい。例えば、使用の最初に、HC100は、モニタ、携帯情報端末、ノートパソコン、携帯音楽プレーヤ、リモートスピーカ、携帯電話、スマートフォン、またはトランシーバもしくはレシーバを有しデータの無線通信を受信可能なその他のデバイスなどの、外部デバイス(複数可)に問い合わせるプログラム命令を含み得る。HC100は、Bluetooth(登録商標)などの周知のプロトコル標準、または当該技術分野で周知のその他の無線通信プロトコルを用いて、外部デバイス200と組になってもよい。
【0066】
図6Bは、TTT翻訳が有用である例を図示する。例えば、ユーザ351は、外国に旅行していて、一の言語(原始言語)の標識350を理解しない。HC100およびシステム1001Bは、即時TTT翻訳を、
図5Bで上述したように、カメラ160による標識350の画像に対して行い得る。特に、システム1001Bは、入力された画像テキストを前記一の(原始)外国語からユーザのデフォルト(目標)言語に即座/自動的に翻訳し、ユーザ351に、(目標ユーザ言語の)翻訳テキストがマイクロディスプレイ210で提供される。
【0067】
本発明のさらに例示的な実施形態が、コンピュータプログラム(の製品)を用いて構成されてもよい。例えば、本発明の例示的な実施形態を実施するための制御となるように、ソフトウェアにプログラム化されてもよい。本発明のさらに例示的な実施形態が、プロセッサによって実行され得て、かつ、実行される際、当該プロセッサに本明細書中に記載の方法を行わせる命令を含む非一時的でコンピュータ読み取り可能な媒体を含んでもよい。本明細書中に記載したブロック図およびフローチャートの要素は、ソフトウェア、ハードウェア、ファームウェア、または将来決定される他の類似する実装(implementation)で実装されてもよいことが理解されるべきである。また、本明細書中に記載したブロック図およびフローチャートの要素は、ソフトウェア、ハードウェアまたはファームウェアにおいて、任意の方法で組み合わされてよくまたは分割されてもよい。ソフトウェアで実装される場合、当該ソフトウェアは、本明細書中に記載した例示的な実施形態をサポートし得る任意の言語で記載されてもよい。ソフトウェアは、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、コンパクトディスクリードオンリーメモリ(CD−ROM)などの任意の形態のコンピュータ読み取り可能な媒体に記憶されていてもよい。作動中、汎用またはアプリケーションに特化したプロセッサが、当該技術分野でよく理解された方法で、ソフトウェアをロードして実行する。ブロック図およびフローチャートが、より多いまたはより少ない要素を含み、配置または向きが異なり、または表現が異なっていてもよいことがさらに理解されるべきである。本発明の実施形態の実行を説明するブロック図、フローチャートおよび/またはネットワーク図ならびにブロック図およびフローチャートの数が、実装の際に影響を受けてもよいことが理解されるべきである。
【0068】
本発明をその例示的な実施形態を参照して詳細に示して説明してきたが、添付の特許請求の範囲に包含される本発明の範囲を逸脱することなく、さまざまな形の変更および詳細化が実施形態の中でなされ得ることが当業者によって理解されるであろう。
なお、本発明は、実施の態様として以下の内容を含む。
[態様1]
即時音声翻訳を行う方法であって、
少なくとも第1および第2ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立することと、
前記第1ヘッドセットコンピュータで、第1言語の音声を捕捉することと、
前記第1言語の前記捕捉された音声を前記第1ヘッドセットコンピュータからネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第1言語のテキストとして認識して文字化することと、
前記第1言語の前記テキストを前記第1ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信することと、
前記第1言語の前記テキストを前記ローカルネットワークを通じて少なくとも前記第2ヘッドセットコンピュータにブロードキャストすることと、
前記第1言語の前記テキストを前記第2ヘッドセットコンピュータで受信することと、
前記第1言語の前記受信されたブロードキャストされたテキストを前記第2ヘッドセットコンピュータからネットワークベーステキスト翻訳サービスに送信して、前記第1言語の前記テキストを第2言語のテキストに翻訳することと、
前記第2言語の前記テキストを前記第2ヘッドセットコンピュータで前記ネットワークベーステキスト翻訳サービスから受信することと、
前記第2言語の前記テキストを前記第2ヘッドセットコンピュータのディスプレイに表示することと
を含む方法。
[態様2]
態様1に記載の方法において、
前記第2ヘッドセットコンピュータで前記第2言語の前記テキストから音声を合成することと、前記合成された音声を前記第2ヘッドセットコンピュータのオーディオスピーカを介して提示することと
をさらに含む方法。
[態様3]
態様1に記載の方法において、
前記ローカル通信ネットワークを確立する前に、前記第1および第2言語を前記第1および第2ヘッドセットコンピュータの好ましい操作言語としてそれぞれ設定すること
をさらに含む方法。
[態様4]
態様3に記載の方法において、
前記ローカルネットワークを確立することは、各ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストすることをさらに含む方法。
[態様5]
態様1に記載の方法において、
少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせを用いて、オンスクリーン選択肢を選択して、前記即時音声翻訳の方法を開始させること、
をさらに含む方法。
[態様6]
態様1に記載の方法において、
前記ローカル通信ネットワークは、Bluetoothパーソナルエリアネットワーク(PAN)プロファイルを用いる方法。
[態様7]
態様1に記載の方法において、
前記ローカル通信ネットワークは、少なくとも1つのヘッドセットコンピュータと少なくとも1つのホストデバイスとの通信リンクをさらに含み、前記ホストデバイスは、前記少なくとも1つのヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成される方法。
[態様8]
態様7に記載の方法において、
前記ホストデバイスは、前記第2言語の前記テキストを提示するディスプレイをさらに含む方法。
[態様9]
態様7に記載の方法において、
前記ホストデバイスは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも1つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いる方法。
[態様10]
態様9に記載の方法において、
前記長距離無線は、GSM、CDMAまたは4G LTE無線である方法。
[態様11]
即時音声翻訳を行うヘッドセットコンピューティングデバイスであって、
第1言語の音声を捕捉する音声捕捉モジュールと、
少なくとも第2ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークを確立し、前記第1言語の前記捕捉された音声をネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第1言語のテキストとして認識して文字化し、前記第1言語の前記テキストを前記ネットワークベース音声認識サービスから受信し、前記第1言語の前記テキストを前記ローカルネットワークを通じて前記少なくとも第2ヘッドセットコンピュータにブロードキャストし、第2言語のテキストを前記少なくとも第2ヘッドセットコンピュータから受信し、前記第2言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第2言語の前記テキストを前記第1言語のテキストに翻訳し、前記第1言語の前記テキストを前記ネットワークベーステキスト翻訳サービスから受信する通信モジュールと、
前記第1言語の前記翻訳されたテキストを表示するマイクロディスプレイと、
を含むデバイス。
[態様12]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
前記第1言語の前記テキストを合成する音声合成器と、
前記合成された音声を再生するオーディオスピーカと、
をさらに含むヘッドセットコンピューティングデバイス。
[態様13]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
好ましい操作言語をさらに含み、当該好ましい操作言語は、前記ヘッドセットコンピュータの初期設定時かつ少なくとも前記ローカル通信ネットワークを確立する前に設定されるヘッドセットコンピューティングデバイス。
[態様14]
態様13に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、前記少なくとも第2ヘッドセットコンピュータとの前記リンクを含む前記ローカル通信ネットワークの確立の一部として、前記ヘッドセットコンピュータの前記好ましい操作言語を含む問合せをブロードキャストするヘッドセットコンピューティングデバイス。
[態様15]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
前記即時音声翻訳の方法を開始するためのオンスクリーン選択肢をさらに含み、当該オンスクリーン選択肢は、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせによって選択されるヘッドセットコンピューティングデバイス。
[態様16]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールはBluetoothパーソナルエリアネットワーク(PAN)プロファイルを用いて前記ローカル通信ネットワークを確立するヘッドセットコンピューティングデバイス。
[態様17]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも1つのホストデバイスとの通信リンクを前記ローカル通信ネットワークを通じてさらに確立し、前記ホストデバイスは、前記ヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成されるヘッドセットコンピューティングデバイス。
[態様18]
態様17に記載のヘッドセットコンピューティングデバイスにおいて、
前記ホストデバイスは、前記第2言語の前記テキストを提示するディスプレイをさらに含むヘッドセットコンピューティングデバイス。
[態様19]
態様11に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも1つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いるヘッドセットコンピューティングデバイス。
[態様20]
態様19に記載のヘッドセットコンピューティングデバイスにおいて、
前記長距離無線は、GSM、CDMAまたは4G LTE無線であるヘッドセットコンピューティングデバイス。
[態様21]
ヘッドセットコンピュータの動作を制御するための非一時的なコンピュータプログラム製品であって、当該コンピュータプログラム製品はコンピュータ読み取り可能な命令を記憶しているコンピュータ読み取り可能な媒体を含み、当該命令は、プロセッサによってロードされ実行される際、当該プロセッサに、
少なくとも第1および第2ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立させ、
前記第1ヘッドセットコンピュータで、第1言語の音声を捕捉させ、
前記第1言語の前記捕捉された音声を前記第1ヘッドセットコンピュータからネットワークベース音声認識サービスに送信させて、前記捕捉された音声を前記第1言語のテキストとして認識して文字化させ、
前記第1言語の前記テキストを前記第1ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信させ、
前記第1言語の前記テキストを前記ローカルネットワークを通じて少なくとも前記第2ヘッドセットコンピュータへブロードキャストさせ、
前記第2ヘッドセットコンピュータから、第2言語のテキストを前記第1ヘッドセットコンピュータで受信させ、
前記第2言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第2言語の前記テキストを前記第1言語のテキストに翻訳させ、
前記ネットワークベーステキスト翻訳サービスから、前記第1言語の前記テキストを前記第1ヘッドセットコンピュータで受信させ、
前記第1言語の前記テキストを前記第1ヘッドセットコンピュータのマイクロディスプレイに表示させる
非一時的なコンピュータプログラム製品。