特許6289448 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コピン　コーポレーションの特許一覧

特許6289448即時翻訳システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5A
5B
6A
6B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6289448

(24)【登録日】2018年2月16日

(45)【発行日】2018年3月7日

(54)【発明の名称】即時翻訳システム

(51)【国際特許分類】

H04M 11/00 20060101AFI20180226BHJP

G06F 17/28 20060101ALI20180226BHJP

【ＦＩ】

H04M11/00 302

G06F17/28 690

【請求項の数】23

【全頁数】26

(21)【出願番号】特願2015-509106(P2015-509106)

(86)(22)【出願日】2013年4月24日

(65)【公表番号】特表2015-521404(P2015-521404A)

(43)【公表日】2015年7月27日

(86)【国際出願番号】US2013037988

(87)【国際公開番号】WO2013163293

(87)【国際公開日】20131031

【審査請求日】2016年3月16日

(31)【優先権主張番号】61/638,419

(32)【優先日】2012年4月25日

(33)【優先権主張国】US

(31)【優先権主張番号】61/660,478

(32)【優先日】2012年6月15日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】502176580

【氏名又は名称】コピンコーポレーション

(74)【代理人】

【識別番号】100087941

【弁理士】

【氏名又は名称】杉本修司

(74)【代理人】

【識別番号】100086793

【弁理士】

【氏名又は名称】野田雅士

(74)【代理人】

【識別番号】100112829

【弁理士】

【氏名又は名称】堤健郎

(74)【代理人】

【識別番号】100144082

【弁理士】

【氏名又は名称】林田久美子

(74)【代理人】

【識別番号】100150566

【弁理士】

【氏名又は名称】谷口洋樹

(72)【発明者】

【氏名】パーキンソン・クリストファー

(72)【発明者】

【氏名】ジェイコブセン・ジェフリー・ジェイ

(72)【発明者】

【氏名】ファーガソン・デイビッド・ブルース

(72)【発明者】

【氏名】ポンボ・スチーブン・エー

【審査官】望月章俊

(56)【参考文献】

【文献】特開平１０−２０８６７（ＪＰ，Ａ）

【文献】特開２００５−１２３７７（ＪＰ，Ａ）

【文献】特開２００７−７９９７８（ＪＰ，Ａ）

【文献】米国特許出願公開第２００４／０２６７５２７（ＵＳ，Ａ１）

【文献】特表２０１２−５００５２６（ＪＰ，Ａ）

【文献】特開平９−３４８９５（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｍ１１／００

Ｇ０６Ｆ１７／２８

(57)【特許請求の範囲】

【請求項1】

即時音声翻訳を行う方法であって、
少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立することと、
前記第１ヘッドセットコンピュータで、第１言語の音声を捕捉することと、
前記第１言語の前記捕捉された音声を前記第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第１言語のテキストとして認識し文字化することと、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信することと、
前記第１言語の前記テキストを前記ローカル通信ネットワークを通じて少なくとも前記第２ヘッドセットコンピュータにブロードキャストすることと、
前記第１言語の前記テキストを前記第２ヘッドセットコンピュータで受信することと、
前記第１言語の前記受信されたブロードキャストされたテキストを前記第２ヘッドセットコンピュータからネットワークベーステキスト翻訳サービスに送信して、前記第１言語の前記テキストを第２言語のテキストに翻訳することと、
前記第２言語の前記テキストを前記第２ヘッドセットコンピュータで前記ネットワークベーステキスト翻訳サービスから受信することと、
前記第２言語の前記テキストを前記第２ヘッドセットコンピュータのディスプレイに表示することと
を含む方法。

【請求項2】

請求項１に記載の方法において、
前記第２ヘッドセットコンピュータで前記第２言語の前記テキストから音声を合成することと、前記合成された音声を前記第２ヘッドセットコンピュータのオーディオスピーカを介して提示することと
をさらに含む方法。

【請求項3】

請求項１に記載の方法において、
前記ローカル通信ネットワークを確立する前に、前記第１および第２言語を前記第１および第２ヘッドセットコンピュータの好ましい操作言語としてそれぞれ設定すること
をさらに含む方法。

【請求項4】

請求項３に記載の方法において、
前記ローカル通信ネットワークを確立することは、各ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストすることをさらに含む方法。

【請求項5】

請求項１に記載の方法において、
少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせを用いて、オンスクリーン選択肢を選択して、前記即時音声翻訳の方法を開始させること、
をさらに含む方法。

【請求項6】

請求項１に記載の方法において、
前記ローカル通信ネットワークは、Ｂｌｕｅｔｏｏｔｈパーソナルエリアネットワーク（ＰＡＮ）プロファイルを用いる方法。

【請求項7】

請求項１に記載の方法において、
前記ローカル通信ネットワークは、少なくとも１つのヘッドセットコンピュータと少なくとも１つのホストデバイスとの通信リンクをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成される方法。

【請求項8】

請求項７に記載の方法において、
前記ホストデバイスは、前記第２言語の前記テキストを提示するディスプレイをさらに含む方法。

【請求項9】

請求項７に記載の方法において、
前記ホストデバイスは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いる方法。

【請求項10】

請求項９に記載の方法において、
前記長距離無線は、ＧＳＭ、ＣＤＭＡまたは４ＧＬＴＥ無線である方法。

【請求項11】

請求項１に記載の方法において、
前記第２ヘッドセットコンピュータは、グループ内の複数の他のヘッドセットコンピュータのうちの１つであり、当該グループは第３ヘッドセットコンピュータを含み、
前記第３ヘッドセットコンピュータは、第３言語用に設定され、前記第２ヘッドセットコンピュータは第２言語用に設定され、前記第１ヘッドセットコンピュータは、第１言語用に設定され、前記第１、第２および第３言語は互いに異なり、
前記第１言語の前記テキストをブロードキャストすることは、前記グループ内の前記複数の他のヘッドセットコンピュータにブロードキャストすることをさらに含み、
さらに、
前記第１言語の前記テキストを前記第３ヘッドセットコンピュータで受信することと、
前記第１言語の前記ブロードキャストされ受信されたテキストを前記第３ヘッドセットコンピュータから前記ネットワークベーステキスト翻訳サービスに送信して、前記第１言語の前記テキストを前記第３言語のテキストに翻訳することと、
前記第３言語の前記テキストを前記第３ヘッドセットコンピュータで前記ネットワークベーステキスト翻訳サービスから受信することと、
前記第３言語の前記テキストを前記第３ヘッドセットコンピュータのディスプレイに表示することと、
を含む方法。

【請求項12】

即時音声翻訳を行う第１ヘッドセットコンピュータであるヘッドセットコンピューティングデバイスであって、
第１言語の音声を捕捉する音声捕捉モジュールと、
少なくとも第２ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークを確立し、前記第１言語の前記捕捉された音声をネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第１言語のテキストとして認識して文字化し、前記第１言語の前記テキストを前記ネットワークベース音声認識サービスから受信し、前記第１言語の前記テキストを前記ローカル通信ネットワークを通じて前記少なくとも第２ヘッドセットコンピュータにブロードキャストし、第２言語のテキストを前記少なくとも第２ヘッドセットコンピュータから受信し、前記第２言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第２言語の前記テキストを前記第１言語のテキストに翻訳し、前記第１言語の前記テキストを前記ネットワークベーステキスト翻訳サービスから受信する通信モジュールと、
前記第１言語の前記翻訳されたテキストを表示するマイクロディスプレイと、
を含むデバイス。

【請求項13】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
前記第１言語の前記テキストを合成する音声合成器と、
前記合成された音声を再生するオーディオスピーカと、
をさらに含むヘッドセットコンピューティングデバイス。

【請求項14】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
好ましい操作言語をさらに含み、当該好ましい操作言語は、前記第１ヘッドセットコンピュータの初期設定時かつ少なくとも前記ローカル通信ネットワークを確立する前に設定されるヘッドセットコンピューティングデバイス。

【請求項15】

請求項１４に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、前記少なくとも第２ヘッドセットコンピュータとの前記リンクを含む前記ローカル通信ネットワークの確立の一部として、前記第１ヘッドセットコンピュータの前記好ましい操作言語を含む問合せをブロードキャストするヘッドセットコンピューティングデバイス。

【請求項16】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
前記即時音声翻訳の方法を開始するためのオンスクリーン選択肢をさらに含み、当該オンスクリーン選択肢は、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせによって選択されるヘッドセットコンピューティングデバイス。

【請求項17】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールはＢｌｕｅｔｏｏｔｈパーソナルエリアネットワーク（ＰＡＮ）プロファイルを用いて前記ローカル通信ネットワークを確立するヘッドセットコンピューティングデバイス。

【請求項18】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも１つのホストデバイスとの通信リンクを前記ローカル通信ネットワークを通じてさらに確立し、前記ホストデバイスは、前記第１ヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成されるヘッドセットコンピューティングデバイス。

【請求項19】

請求項１８に記載のヘッドセットコンピューティングデバイスにおいて、
前記ホストデバイスは、前記第２言語の前記テキストを提示するディスプレイをさらに含むヘッドセットコンピューティングデバイス。

【請求項20】

請求項１８に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いるヘッドセットコンピューティングデバイス。

【請求項21】

請求項２０に記載のヘッドセットコンピューティングデバイスにおいて、
前記長距離無線は、ＧＳＭ、ＣＤＭＡまたは４ＧＬＴＥ無線であるヘッドセットコンピューティングデバイス。

【請求項22】

請求項１２に記載のヘッドセットコンピューティングデバイスにおいて、
前記第２ヘッドセットコンピュータは、グループ内の複数の他のヘッドセットコンピュータのうちの１つであり、当該グループは第３ヘッドセットコンピュータを含み、
前記ローカル通信ネットワークは、前記第３ヘッドセットコンピュータとのリンクをさらに含み、
前記第３ヘッドセットコンピュータは第３言語用に設定され、前記第２ヘッドセットコンピュータは第２言語用に設定され、前記第１ヘッドセットコンピュータは第１言語用に設定され、前記第１、第２および第３言語は互いに異なり、さらに
前記通信モジュールは、前記第１言語の前記テキストを前記ローカル通信ネットワークを通じて前記グループ内の前記複数の他のヘッドセットコンピュータにブロードキャストし、第３言語のテキストを前記第３ヘッドセットコンピュータから受信し、前記第３言語の前記受信されたテキストを前記ネットワークベーステキスト翻訳サービスに送信して、前記第３言語の前記テキストを前記第１言語の第２テキストに翻訳し、前記第１言語の前記第２テキストを前記ネットワークベーステキスト翻訳サービスから受信するヘッドセットコンピューティングデバイス。

【請求項23】

ヘッドセットコンピュータの動作を制御するための非一時的なコンピュータプログラムであって、当該コンピュータプログラムはコンピュータ読み取り可能な命令を記憶しているコンピュータ読み取り可能な媒体を含み、当該命令は、プロセッサによってロードされ実行される際、当該プロセッサに、
少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立させ、
前記第１ヘッドセットコンピュータで、第１言語の音声を捕捉させ、
前記第１言語の前記捕捉された音声を前記第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信させて、前記捕捉された音声を前記第１言語のテキストとして認識して文字化させ、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信させ、
前記第１言語の前記テキストを前記ローカル通信ネットワークを通じて少なくとも前記第２ヘッドセットコンピュータへブロードキャストさせ、
前記第２ヘッドセットコンピュータから、第２言語のテキストを前記第１ヘッドセットコンピュータで受信させ、
前記第２言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第２言語の前記テキストを前記第１言語のテキストに翻訳させ、
前記ネットワークベーステキスト翻訳サービスから、前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで受信させ、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータのマイクロディスプレイに表示させる
非一時的なコンピュータプログラム。

【発明の詳細な説明】

【関連出願】

【0001】

本願は、２０１２年４月２５日に出願された米国仮特許出願第６１／６３８，４１９号および２０１２年６月１５日に出願された米国仮特許出願第６１／６６０，４７８号の優先権の利益を主張する。上記出願の全教示は、参照により本明細書に組み込まれる。

【技術分野】

【0002】

本願は、ヒューマン／コンピュータインターフェースに関し、より特定的には、ボイスコマンドを受け付け、頭部の動きを追跡して実行されたソフトウェアアプリケーションにコマンド入力を提供および実行中のソフトウェアアプリケーションから表示情報を受け取るヘッドセットコンピューティングデバイスに関する。

【背景技術】

【0003】

ノートパソコン（ＰＣ）、スマートフォン、タブレットコンピューティングデバイスなどのモバイルコンピューティングデバイスは、現在、ビジネスと私生活の両方において、データを生成、分析、伝達および消費するために用いられる一般的なツールとなっている。高速ワイヤレス通信技術のユビキタス化とともに、デジタル情報へのアクセスの容易さが増すにつれて、消費者は、モバイルデジタルライフスタイルを受け入れ（embrace）続けている。モバイルコンピューティングデバイスの一般的な用途は、多くの場合デバイスにワイヤレスでストリーム配信される大量の高解像度のコンピュータグラフィックス情報およびビデオコンテンツの表示を含む。これらのデバイスは、典型的には、表示スクリーンを含むが、そのようなデバイスの物理的な大きさが、可動性の向上のために制限されるため、高解像度の大型表示の好ましい視覚体験は、そのようなモバイルデバイスでは容易に再現され得ない。上述のデバイスのタイプの別の欠点は、ユーザインターフェースが、手に依存するものであり、典型的には、ユーザが、キーボード（物理的または仮想）またはタッチスクリーンディスプレイを用いてデータ入力や選択を行う必要があることである。結果として、消費者は、現在、手に依存するモバイルデバイスを拡張するまたはこれに取って代わる、ハンズフリーの高品質で携帯可能なカラー表示のソリューションを求めている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の実施形態は、ユーザによる手入力のない、ヘッドセットコンピュータを用いるもととなる言語たる原始言語すなわち第１言語から目標の言語すなわち第２言語への自動即時翻訳を提供する。

【課題を解決するための手段】

【0005】

ヘッドセットコンピュータは、即時翻訳のための自動プロセスが、現在の環境および所定のユーザ言語、例えば、デフォルトまたは好ましい言語設定に基づき得る自動即時翻訳処理を使用する。よって、ユーザは、翻訳の要求において、コメントまたはパラメータ入力（ボイスまたはキー入力）を提供する必要がなく、むしろ、プロセスを開始する一回の承認がユーザによって一旦提供されると、即時翻訳は、現在の環境および所定のユーザの（言語デフォルトまたは好みの）設定に基づき得る。

【0006】

例示的な実施形態は、即時音声翻訳を行う方法を含み、当該方法は、少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立することと、第１ヘッドセットコンピュータで、第１言語の音声を捕捉することと、第１言語の捕捉された音声を第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信して、捕捉された音声を第１言語のテキストとして認識して文字化することと、第１言語のテキストを第１ヘッドセットコンピュータでネットワークベース音声認識サービスから受信することと、第１言語のテキストをローカルネットワークを通じて少なくとも第２ヘッドセットコンピュータにブロードキャストすることと、第１言語のテキストを第２ヘッドセットコンピュータで受信することと、第１言語の受信されたブロードキャストされたテキストを第２ヘッドセットコンピュータからネットワークベーステキスト翻訳サービスに送信して、第１言語のテキストを第２言語のテキストに翻訳することと、第２言語のテキストを第２ヘッドセットコンピュータでネットワークベーステキスト翻訳サービスから受信することと、第２言語のテキストを第２ヘッドセットコンピュータのディスプレイに表示することとを含む。

【0007】

例示的な実施形態が、第２ヘッドセットコンピュータで第２言語のテキストから音声を合成することと、合成された音声を第２ヘッドセットコンピュータのオーディオスピーカを介して提示することと、ローカル通信ネットワークを確立する前に、第１および第２言語を第１および第２ヘッドセットコンピュータの好ましい操作言語としてそれぞれ設定することをさらに含み得る。ローカルネットワークを確立することは、各ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストすることをさらに含み得る。

【0008】

例示的な実施形態が、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせを用いて、オンスクリーン選択肢を選択して、即時音声翻訳の方法を開始させることをさらに含み得る。ローカル通信ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）パーソナルエリアネットワーク（ＰＡＮ）プロファイルを用い得る。ローカル通信ネットワークは、少なくとも１つのヘッドセットコンピュータと少なくとも１つのホストデバイスとの通信リンクをさらに含み得て、ホストデバイスは、少なくとも１つのヘッドセットコンピュータと、ネットワークベース音声認識サービスと、ネットワークベーステキスト翻訳サービスとの間の中継器として動作する。ホストデバイスは、第２言語のテキストを提示するディスプレイをさらに含み得る。ホストデバイスは、少なくとも短距離無線と長距離無線とをさらに含み得て、ホストデバイスは、少なくとも１つのヘッドセットコンピュータとの通信リンクを含むローカル通信ネットワークのために短距離無線を用い得て、ネットワークベース音声認識サービスおよびネットワークベーステキスト翻訳サービスにアクセスするために長距離無線を用い得る。長距離無線は、グローバルモバイル端末システム（Global System for Mobile：ＧＳＭ（登録商標））、符号分割多元接続（ＣＤＭＡ）などの３Ｇセルラー方式無線、または４Ｇ長期発展指向（Long-Term Evolution：ＬＴＥ）無線であり得る。

【0009】

さらに例示的な実施形態が、即時音声翻訳を行うヘッドセットコンピューティングデバイスを含み、当該デバイスは、第１言語の音声を捕捉する音声捕捉モジュールと、少なくとも第２ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークを確立し、第１言語の捕捉された音声をネットワークベース音声認識サービスに送信して、捕捉された音声を第１言語のテキストとして認識して文字化し、第１言語のテキストをネットワークベース音声認識サービスから受信し、第１言語のテキストをローカルネットワークを通じて少なくとも第２ヘッドセットコンピュータにブロードキャストし、第２言語のテキストを少なくとも第２ヘッドセットコンピュータから受信し、第２言語の受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、第２言語のテキストを第１言語のテキストに翻訳し、第１言語のテキストをネットワークベーステキスト翻訳サービスから受信する通信モジュールと、第１言語の翻訳されたテキストを表示するマイクロディスプレイとを含みうる。

【0010】

例示的な実施形態は、第１言語のテキストを合成する音声合成器と、合成された音声を再生するオーディオスピーカとを含み得て、さらに、好ましい操作言語を含み得て、好ましい操作言語は、ヘッドセットコンピュータの初期設定時かつ少なくともローカル通信ネットワークを確立する前に設定される。

【0011】

通信モジュールは、少なくとも第２ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークの確立の一部として、ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストし得る。

【0012】

例示的な実施形態が、即時音声翻訳の方法を開始するためのオンスクリーン選択肢をさらに含み得て、オンスクリーン選択肢は、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせによって選択される。通信モジュールはＢｌｕｅｔｏｏｔｈ（登録商標）ＰＡＮプロファイルを用いてローカル通信ネットワークを確立し得る。通信モジュールは、少なくとも１つのホストデバイスとの通信リンクをローカル通信ネットワークを通じてさらに確立し得て、ホストデバイスは、ヘッドセットコンピュータと、ネットワークベース音声認識サービスと、ネットワークベーステキスト翻訳サービスとの間の中継器として動作し得る。ホストデバイスは、第２言語のテキストを提示するディスプレイをさらに含み得る。通信モジュールは、少なくとも短距離無線と長距離無線とをさらに含み得て、ホストデバイスは、少なくとも１つのヘッドセットコンピュータとの通信リンクを含むローカル通信ネットワークのために短距離無線を用い、ネットワークベース音声認識サービスおよびネットワークベーステキスト翻訳サービスにアクセスするために長距離無線を用いる。長距離無線は、ＧＳＭ（登録商標）、ＣＤＭＡなどの３Ｇセルラー方式無線、または４ＧＬＴＥ無線であり得る。

【0013】

さらに例示的な実施形態が、ヘッドセットコンピュータの動作を制御するための非一時的なコンピュータプログラム製品を含み、当該コンピュータプログラム製品はコンピュータ読み取り可能な命令を記憶しているコンピュータ読み取り可能な媒体を含み、当該命令は、プロセッサによってロードされ実行される際、当該プロセッサに、少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立させ、第１ヘッドセットコンピュータで、第１言語の音声を捕捉させ、第１言語の捕捉された音声を第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信させて、捕捉された音声を第１言語のテキストとして認識して文字化させ、第１言語のテキストを第１ヘッドセットコンピュータでネットワークベース音声認識サービスから受信させ、第１言語のテキストをローカルネットワークを通じて少なくとも第２ヘッドセットコンピュータへブロードキャストさせ、第２ヘッドセットコンピュータから、第２言語のテキストを第１ヘッドセットコンピュータで受信させ、第２言語の受信されたテキストをネットワークベーステキスト翻訳サービスに送信させて、第２言語のテキストを第１言語のテキストに翻訳させ、ネットワークベーステキスト翻訳サービスから、第１言語のテキストを第１ヘッドセットコンピュータで受信させ、第１言語のテキストを第１ヘッドセットコンピュータのマイクロディスプレイに表示させることを含み得る。

【0014】

さらに例示的な実施形態が、即時音声翻訳を行う方法を含み、当該方法は、もととなる言語たる原始言語の音声入力をヘッドセットコンピュータで検出することと、自動言語識別を含む検出された音声を認識して、原始言語を識別することと、音声を原始言語のテキストに文字化することと、テキストを目標の言語に翻訳することと、目標言語および／または原始言語のテキストをヘッドセットコンピュータに接続されたマイクロディスプレイに表示することと、目標言語のテキストから目標言語の音声を合成することと、ヘッドセットコンピュータに接続されたオーディオスピーカを用いて合成された音声を再生することとを含む。

【0015】

さらに例示的な実施形態が、即時音声翻訳を行う方法を含み、当該方法は、ヘッドセットコンピュータに接続されたカメラを用いて、もととなる言語たる原始言語のテキスト画像を検出することと、光学式文字認識を用いて原始言語のテキストを認識することと、原始言語のテキストを目標の言語のテキストに翻訳することと、目標言語のテキストをヘッドセットコンピュータに接続されたマイクロディスプレイに表示することと、目標言語のテキストから目標言語の音声を合成することと、ヘッドセットコンピュータに接続されたオーディオスピーカを用いて合成された音声を再生することとを含む。

【図面の簡単な説明】

【0016】

上記は、添付図面に示す以下の本発明の例示的な実施形態のさらに詳細な説明から明らかになるであろう。添付図面において、異なる図全体にわたり、同じ部分は同じ参照符号で示す。図面は必ずしも原寸に比例しておらず、本発明の実施形態の説明に重点が置かれている。

【図1A】本発明の実施形態において用いられるヘッドセットコンピュータの斜視図である。

【図1B】本発明の実施形態において用いられるヘッドセットコンピュータの斜視図である。

【図2】本発明の実施形態の概略図である。

【図3】即時翻訳の実施形態のフローチャートである。

【図4】別の実施形態の概略図である。

【図5A】図４の実施形態における即時翻訳のフローチャートである。

【図5B】図４の実施形態における即時翻訳のフローチャートである。

【図6A】図４の実施形態の使用を示す図である。

【図6B】図４の実施形態の使用を示す図である。

【発明を実施するための形態】

【0017】

以下に、例示的な実施形態について説明する。

【0018】

図１Ａは、マイクロディスプレイと、ローカルプロセッサと、オーディオおよび／またはグラフィカルデータ（オーディオおよび／またはグラフィカルデータは、ボイスおよび／またはビデオデータをさらにそれぞれ含み得る）を含み得るデータの通信のためのワイヤレストランシーバとを含むヘッドセットコンピュータ（ＨＣ）（代替的に、ワイヤレスハンズフリービデオコンピューティングヘッドセット、ヘッドセットコンピューティングデバイスまたはヘッドマウントデバイス（ＨＭＤ）と呼ぶ）を図示する。ＨＣは、１つまたは複数の周辺機器とさらに一体化されていてもよい。そのような一体化された周辺機器の例として、マイクロホン、スピーカ、３軸〜９軸自由度方位検知、地理測位レシーバ（ＧＰＳ）、大気センサ、健康状態センサ、デジタルコンパス（多軸磁力計）、フラッシュライト、高度計、圧力センサ、さまざまな環境センサ、対人センサ、エネルギーセンサ、光学センサおよび／またはカメラが含まれるが、これらには限定されない。

【0019】

ＨＣは、ユーザに情報をグラフィカルに提示する１つ以上のマイクロディスプレイ装置を含み得て、任意のボイスコマンドと共に頭部の動き、手の動きおよび／またはジェスチャーなどの動作を検出する、頭部追跡加速度計、ジャイロまたは１つもしくは複数のカメラなどの入力装置を使用でき、さまざまな方法でローカルプロセッサまたはリモートホストプロセッサ上で動作しているアプリケーションの遠隔制御を提供し得る。

【0020】

図１Ａに図示された例示的な実施形態は、マイクロディスプレイ（ＷＱＶＧＡまたはそれ以上）要素１０１０と以下に記載する他の機能とを含むＨＣ１００（本明細書では、デバイス１００とも呼ぶ）を示す。ＨＣ１００および他のデバイスの動作を制御するために、ヘッドセットに組み込まれた、および／または１つ以上の周辺機器ポートを介してデバイスに取り付けられた、１つ以上のマイクロホン（複数可）、入出力スピーカ（複数可）、地理測位検知、３軸〜９軸自由度方位検知、大気センサ、健康状態センサ、ＧＰＳ、デジタルコンパス、圧力センサ、環境センサ、エネルギーセンサ、加速度、位置、高度、運動、速度用センサもしくは光学センサ、カメラ（可視光、赤外線（ＩＲ）、紫外線（ＵＶ）など）、付加的なワイヤレス無線（Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、３Ｇまたは４ＧのＬＴＥセルラー方式、ＦＭなど）、補助照明、距離計など、および／またはセンサ配列を、入力および／または出力装置は含む。（Ｂｌｕｅｔｏｏｔｈ（登録商標）は、ワシントン州カークランドのBluetooth Sig, Inc.の登録商標であり、Ｗｉ−Ｆｉは、テキサス州オースチンのWi-Fi Alliance Corporationの登録商標である。）

【0021】

また、ＨＣ１００の筐体内に典型的に配置されているのは、すぐに理解されるように、マイクロコンピュータ（シングルまたはマルチコア）、１以上の有線もしくは無線インターフェースおよび／または光学インターフェースを含むさまざまな電子回路であり、付随するメモリおよび／または記憶装置、さまざまなセンサ、ならびに「ホットシュー」１０２０などの周辺マウントである。

【0022】

図１Ａは、ヘッドセットコンピュータ（ＨＣ）１００の例示的な実施形態のいくつかの詳細を示す斜視図である。ＨＣ１００は、フレーム１００と、ストラップ１００２と、後部１００４と、スピーカ１００６と、カンチレバーまたはアーム１００８と、マイクロディスプレイサブアセンブリ１０１０とを、概して含む。

【0023】

図１Ｂは、ＨＣ１００が用いられ得るさまざまな方法のうちの一例を示す。ＨＣ１００は、リモートホストコンピューティングデバイス２００（リモートコンピューティングデバイス２００とも呼ぶ）によって提供されたストリーミングビデオ信号のためのリモートディスプレイとして用いられ得る。ホスト２００は、例えば、ラップトップコンピュータ、携帯電話、ブラックベリー（登録商標）、ｉＰｈｏｎｅ（登録商標）、クラウドベースサーバ、別のＨＣ１００であってもよく、または、ワイヤレスリモートコントロールＨＣ１００より計算量が少ないもしくは多いその他のコンピューティングデバイスであってもよい。さらに、ホスト２００は、他のネットワークに、例えば有線または無線接続２１０を介してインターネット１２０に、接続されてもよい。そのうえ、ＨＣ１００は、他のネットワークに、例えば有線または無線接続１６０を介してインターネット１２０に、さらに接続されてもよい。ＨＣ１００とホスト２００は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ、セルラー方式、ＬＴＥ、ＷｉＭａｘまたは他のワイヤレス無線リンク１５０などによって提供される１つ以上の好適な無線接続を介して、互いにおよび／または他のネットワークに接続される（ブラックベリーは、カナダ、オンタリオ州ウォータールー、フィリップ通り２９５のResearch in Motion Limitedの登録商標である。ｉＰｈｏｎｅは、カリフォルニア州クパチーノ、インフィニートループ１のApple Inc.の登録商標である。）

【0024】

ＨＣ１００は、ホスト２００用のリモコン装置としても用いられ得る。例えば、ＨＣ１００によって、ユーザは、ホスト２００の仮想ディスプレイ４００で区画されたかなり大きい領域内の視野３００を選択できる。ユーザは、典型的には、例えば、ＨＣ１００で検出された音声コマンドとともに、頭部の動き、手の動き、体のジェスチャーを用いて、または他の方法で、視野３００の位置、大きさ（例えば、Ｘ−Ｙまたは３Ｄ範囲）および／または倍率を制御できる。ＨＣ１００は、よって、例えばパンおよびズームをしたり、ディスプレイの視野を制御するための専用のユーザ入力周辺機器および処理を備え得る。

【0025】

また、ＨＣ１００内に配置されているのは、すぐに理解されるように、マイクロコンピュータ（シングルであるかマルチコア）、１つ以上のワイヤレスインターフェースを含む回路であり、付随するメモリもしくは他の記憶装置、１つ以上のカメラ（光学センサ）および／または先に述べた各種センサである。カメラ（複数可）、運動センサ（複数可）および／または位置センサ（複数可）は、符号１１０、１１１、１１２のユーザの頭部の動きおよび／または位置、符号１１３の手の動きおよび／または位置、および／または体の動きおよび／または位置を、少なくとも第１軸１１０、１１０（水平）において、好ましくは、第２軸（垂直）１１２、第３軸（奥行き）１１３、第４軸（ピッチ）、第５軸（ロール）、および第６軸（ヨウ）においても、追跡するために用いられる。３軸磁気計（デジタルコンパス）が、ワイヤレスコンピューティングヘッドセットまたは周辺機器に、フル９軸自由度位置精度を提供するために、付加され得る。

【0026】

ＨＣ１００は、また、少なくとも１つのマイクロホンと、メモリあるいは他の記憶装置および／または音声認識のためのプログラマブルなプロセッサなどの対応する電子機器とを含む。ＨＣ１００は、ユーザのボイスを検出し、音声認識技術を用いて、コマンドおよび／またはディクテーションを導き出す。ＨＣ１００は、音声認識から導き出されたコマンドを用いて、当該コマンドで示された機能を実行する。

【0027】

一例示的な実施形態では、２つ以上のＨＣ１００が、第１口語人間言語（すなわち、もととなる言語たる原始言語）から第２口語人間言語（すなわち、目標の言語）への即時翻訳を行い得る。そのような例により、ＨＣ１００の２人以上のユーザは、各ユーザが、異なる言語を話し、当該ユーザが話しかけている相手と視線を合わせ続けながら、互いに対話することができる。翻訳の形式は、第１（原始）言語の音声から第２（目標）言語のテキストおよび音声を含み、またはその逆を含み得る。

【0028】

図２は、２つ以上のＨＣ１００同士の通信リンクおよび各ＨＣ１００とクラウドベースネットワークリソース４０１とのリンクを確立することを含む即時翻訳の例示的な実施形態を示す。ＨＣ１００は、マイクロディスプレイ２１０と、１つ以上のマイクロホン（マイク１およびマイク２）２２０と、１つ以上のオーディオスピーカ（スピーカ１およびスピーカ２）２３０と、動作可能に接続されたプロセッサ２０５からさらに構成されるメインボード１０１と、ノイズキャンセルモジュール（ＮＣＳ）２２５と、コマンド制御モジュール２５０と、音声認識捕捉モジュール２５５と、音声合成モジュール２６０と、無線通信モジュール２０８とから構成され得る。ＨＣ１００は、さらに、本発明の主体による即時音声翻訳を可能にする追加の要素から構成され得る。

【0029】

さらに、ＨＣ１００のいくつかの実施形態では、ユーザは、好ましい性能のために、ＨＣ１００の設定および動作をカスタマイズできる。カスタマイズは、即時翻訳セッションのためにローカル通信ネットワークを確立する前に、第１言語を、ＨＣ１００の好ましい操作言語として設定することを含み得る。例えば、好ましい（またはデフォルト）言語が、コンピュータソフトウェアアプリケーション製品をＨＣ１００に最初にインストールし、設定する時に、設定され得る。理解されるように、好ましい言語は、例えばＨＣ１００のユーザが話している時などのいくつかの例では、原始言語であり得て、または、例えばＨＣ１００が当該好ましい言語以外の言語のテキストを受け取る時などは、目標言語であり得る。

【0030】

ＨＣ１００とクラウドベースネットワークリソース４０１との通信が、スマートフォンなどの周辺ホストデバイス２００を無線中継器として用いるさまざまな無線通信方法によって、可能にされ得る。いくつかの実施形態では、ＨＣ１００は、Ｗｉ−Ｆｉ、３Ｇ（ＧＳＭ（登録商標）、ＣＤＭＡなど）もしくは４ＧＬＴＥセルラー方式、またはWiFi-Directなどのさまざまな無線通信方法を用いて、クラウドベースネットワークリソース４０１と直接通信し得る。クラウドベースネットワークリソース４０１は、クラウドベース音声認識／ディクテーションモジュール４０５とテキスト翻訳モジュール４１０とを含み得る。

【0031】

図２は、２つ以上のＨＣ１００同士の通信リンクおよび各ＨＣ１００とクラウドベースネットワークリソース４０１とのリンクを確立することを含む即時翻訳の例示的な実施形態を示す。各ＨＣ１００間の通信リンクを含むローカル通信ネットワークが、確立され得る。Ｂｌｕｅｔｏｏｔｈ（登録商標）パーソナルエリアネットワーク（ＰＡＮ）プロファイルなどのプロトコルを用いる短距離無線が、ローカルネットワークのために用いられ得る。問合せメッセージング（interrogatory messaging）には、各ＨＣ１００の好ましい（またはデフォルト）言語の設定を示すデータが含まれ得る。例えば、図２の２つのＨＣ１００Ａおよび１００Ｂを考慮すると、ＨＣ１００Ａは、英語話者３０１Ａ（ユーザとも呼ぶ）に用いられ、英語音声を聞く（すなわち、認識する）ように構成されるが、一方、ＨＣ１００Ｂは、仏語話者３０１Ｂ（ユーザとも呼ぶ）に用いられ、仏語音声を聞くように構成される。言い換えると、音声認識捕捉モジュール２５５は、ソフトウェアを介して各ＨＣ１００の各ユーザの音声を認識するように構成される。

【0032】

ＨＣ１００にインストールされたまたは実行されたソフトウェア製品アプリケーションの初期設定時、好ましい言語は、好ましい言語設定が、即時翻訳セッション前の、当該セッションを開始する要求の承認以外の追加のユーザ入力なしで、自動即時音声翻訳において参照され用いられるように、ユーザによって設定され得る。

【0033】

また、図２に示されるように、各ＨＣ１００Ａおよび１００Ｂは、Ｂｌｕｅｔｏｏｔｈ（登録商標）登録パケットなどの近距離（すなわち、およそ１００フィート以下）ネットワーク問合せ３０５を継続して送信する。このようなネットワーク問合せにより、ＨＣ１００Ａおよび１００Ｂは、当該デバイスが送信範囲内にある時、各ユーザ３０１Ａおよび３０１Ｂの手間なしで、瞬時かつ自動的にローカルネットワーク３１０を構成できる。問合せ３０５は、好ましいまたはデフォルト言語などの各ＨＣ１００の識別データと、他の動作特性とを保持し提供する。そのようなネットワーク３１０を識別および構成する時、ＨＣ１００Ｂが近くにあることだけでなく、ＨＣ１００Ｂが、仏語を話すユーザ３０１Ｂ用に設定されていることを、ＨＣ１００Ａは、認識させられる。同様に、そのようなローカル通信ネットワーク３１０を識別および構成する時、ＨＣ１００Ａが近くにあり英語を話すユーザ３０１Ａ用に設定されていることを、ＨＣ１００Ｂは認識する。さらに、各ＨＣ１００（１００Ａおよび１００Ｂ）は、各ユーザに即時音声翻訳セッションを開始できる選択肢を提供する。例えば、ＨＣ１００は、即時翻訳セッションを開始するためのオンスクリーン選択肢を、マイクロディスプレイを介してユーザに提示してもよい。ユーザは、ボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンド、またはそれらの組み合わせを用いて、この即時翻訳セッションリクエストを承認または拒絶できる。

【0034】

各ユーザ３０１Ａおよび３０１Ｂが、即時音声翻訳セッションを一旦有効にすると、当該セッションは開始できる。例えば、英語話者３０１Ａは、英語のフレーズをデバイス１００Ａに話す。ＨＣ１００Ａは、マイクロホン（複数可）２２０と連動して、音声認識捕捉モジュール２５５を用いて、英語音声オーディオ入力を捕捉する。捕捉された音声は、無線通信モジュール２０８を用いて、Ｗｉ−Ｆｉまたは４ＧＬＴＥなどのネットワーク接続４１５を介して、クラウドベース音声認識サービス４０５に送信される。クラウドベース音声認識サービス４０５は、典型的には数秒未満に、音声オーディオ入力を文章化された英語テキストとして、ＨＣ１００Ａに（接続４１５を介して）返す。

【0035】

そして、返された文章化英語テキストすなわち英語文章は、第１ヘッドセットコンピュータ、ＨＣ１００Ａ、によって、第２ヘッドセットコンピュータ、ＨＣ１００Ｂに、例えばＢｌｕｅｔｏｏｔｈ（登録商標）接続であり得るローカルネットワークリンク３１０を通じて送信される。英語文章を受信した後、ＨＣ１００Ｂは、英語文章をクラウドベーステキスト翻訳サービス４１０に（無線通信モジュール２０８を用いるネットワーク接続４２０を通じて）送信して、その結果、当該英語文章は、文章化された仏語テキストすなわち仏語文章に翻訳され得る。クラウドベーステキスト翻訳サービス４１０が、受信された英語文章から仏語文章への翻訳を一旦完了すると、仏語文章はネットワーク接続４２０を通じてＨＣ１００Ｂに返される。仏語文章を受信すると、ＨＣ１００Ｂは、仏語文章をそのマイクロディスプレイ２１０に表示し、音声合成モジュール２６０が、オーディオスピーカ（複数可）２３０と連動して用いられて、対応する合成音声を仏語で生成する。

【0036】

当業者ならば、（仏語ユーザ３０１Ｂによる）仏語音声が、（英語ユーザ３０１側で）英語テキストおよび音声に翻訳されるように、プロセスが交互に入れ替えられて、その結果双方向翻訳サービスが実現され得ることが、分かるであろう。さらに、当業者ならば、上述の方法は、グループ翻訳オーディオのブロードキャストシステムが実現されるように、複数のＨＣ１００にまで適用範囲が拡張され得ることが、分かるであろう。言い換えると、例えば、英語話者３０１Ａは、英語で話して、それぞれが異なる言語に設定された複数の他のＨＣ１００に英語文章をブロードキャストでき、それによって、多言語即時翻訳システムを構築できる。各ＨＣ１００は、英語文章（例えば、原始言語すなわち第１言語（言語１）テキスト）を受信し、各ＨＣの好ましい（またはデフォルト）言語設定に従って第１言語すなわち原始言語すなわち一の言語と異なる適切な言語（例えば、目標言語すなわち第２言語（または第３もしくはそれ以上、例えば、言語２または言語３など））に当該英語文章を、視覚表示および合成音声のために、別個に翻訳する。

【0037】

図３は、ＨＣ１００が本発明による即時翻訳システム１００１において実行する例示的な工程のフローチャートである。開始後、ＨＣ１００Ａは、ステップ１００３にて、第１言語（言語１）での動作用に設定される。次に、ステップ１００５にて、ＨＣ１００Ａは、Ｂｌｕｅｔｏｏｔｈ（登録商標）登録パケットなどの問合せ３０５を、ローカルネットワークを通じてブロードキャストする。ＨＣ１００Ｂなどの少なくとも１つの追加のＨＣで構成されるローカルネットワークを識別すると、ＨＣ１００ＡおよびＨＣ１００Ｂは、ステップ１００７にて、ローカルＢｌｕｅｔｏｏｔｈ（登録商標）ネットワーク３１０などのローカルネットワークを構成し、そこに加わる。次に、ＨＣ１００ＡおよびＨＣ１００Ｂのユーザ（ユーザ３０１Ａおよび３０１Ｂ）は、それぞれのＨＣ１００上で即時翻訳セッション１００９を開始する選択をする。例えば、各ユーザ３０１Ａおよび３０１Ｂは、ボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンド、またはそれらの組み合わせを用いて、オンスクリーン選択肢に応答して、即時翻訳セッションを承認する。

【0038】

ソフトウェアアプリケーション製品のインストール時および初期インストール時に、ＨＣ１００は、第１言語（言語１）が好ましい言語となるように、ステップ１００３にて、設定され得る。ＨＣ１００が動作中、好ましい言語設定を含むローカルネットワーク問合せが、ステップ１００５にて、ブロードキャストされ得る。ＨＣ１００が別の（第２）ＨＣ１００の範囲（近距離、例えば、１００フィート内）内にある場合、ステップ１００７にて、ローカル通信ネットワークが識別され確立される。次に、ステップ１００８にて、オンスクリーン（および／またはオーディオ）プロンプトが、ユーザに対して提示され、即時翻訳セッションを開始する。

【0039】

以下に、ＨＣ１００ＡのユーザがＨＣ１００Ｂのユーザとの会話を始める観点から説明する。ステップ１０１１にて、ＨＣ１００Ａは、第１言語のボイス入力、すなわち、ユーザ３０１Ａによる音声を、捕捉する。次に、ステップ１０１３は、捕捉した音声をクラウドベース音声認識サービス４０１、４０５に、Ｗｉ−Ｆｉまたは４ＧＬＴＥなどのネットワーク接続を通じて送信する。クラウドベース音声認識サービス４０５は、音声を第１言語のテキストに文字化および認識し、第１言語の文字化されたテキストをＨＣ１００Ａに返す。それに応じて、ＨＣ１００Ａは、文字化されたテキストを、ステップ１０１５にて受信し、ステップ１０１７にて、第１言語のテキストデータとして、ローカルネットワーク３１０を通じてブロードキャストする。そのようなローカルネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）ローカルネットワークであり得る。

【0040】

そして、ＨＣ１００Ｂは、ステップ１０２１にて、第１言語のブロードキャストされたテキストを受信し得る。次に、ＨＣ１００Ｂは、ステップ１０２３にて、第１言語のテキストをクラウドベース翻訳サービス４１０に送信し、第２言語のテキストに翻訳する。クラウドベース翻訳サービス４１０は、第２言語に翻訳されたテキストをＨＣ１００Ｂに返す（ステップ１０２５）。そして、ＨＣ１００Ｂは、ステップ１０２７にて、第２言語に翻訳された受信テキストをマイクロディスプレイ２１０、１０１０に表示し、ステップ１０２９にて、ＨＣ１００Ｂのオーディオスピーカ２３０を用いてユーザ３０１Ｂに対して第２言語のテキストを音声に合成する（例えば、自動で、読む、述べる、復唱する、発音する）。

【0041】

当業者であれば、各ＨＣ１００が上述の工程を実行し得ることと、当該工程が入れ替わりユーザ３００Ａおよび３００Ｂの会話を可能にすることとが、分かるであろう。

【0042】

上述の即時翻訳システム１００１の利点は、テキストから音声への合成にのみに単に依拠するよりむしろ、受信テキストを見ることができることは、多くの場合とても有用であるという事実を含む。特に、進行中の会話において、以前の発言を参照したい場合、とても有用である。さらに、マイクロディスプレイ２１０、１０１０を、目の近くの位置に配置するが、ユーザの視界をふさがないことによって、ユーザは、会話する相手と視線を合わせ続けることができ、よって、ユーザは、視線を合わせ続けるという、対人コミュニケーションの基本ルールを守ることができる。

【0043】

他の実施形態では、（第１または原始）言語から（第２または目標）言語への即時翻訳が、本発明の主体に従って、実行される。即時翻訳は、音声から音声（ＳＴＳ）、音声からテキスト（ＳＴＴ）、テキストから音声（ＴＴＳ）、および／またはテキストからテキスト（ＴＴＴ）への翻訳を含む、複数の形式の、一の口語人間言語から他の口語人間言語への変換である、即時音声翻訳を含み得る。例示的な実施形態では、音声がＨＣ１００に動作可能に接続された１つ以上のマイクロホンによって検出され得て、もとの言語から翻訳言語に即座に翻訳され得る。翻訳された音声は、テキストおよび／または合成音声として提示され得る。別の例示的な実施形態では、組み込まれたテキストを含む画像が、ＨＣ１００に動作可能に接続された１つ以上のカメラ１６０（図４）によって捉えられ得て、前記組み込まれたテキストが認識され、もとの言語から翻訳言語に即座に翻訳され得る。認識、翻訳されたテキストは、合成音声および／またはテキストとして提示され得る。

【0044】

当業者であれば、即時翻訳によって、即時形式変換、すなわち、検出されたボイス入力を同じ言語のテキストに変換すること、または、認識されたテキストを合成音声に変換することが、さらに可能であり得ることが、分かるであろう。言い換えると、例示的な実施形態では、ハンズフリー即時ＳＴＴ変換、すなわち、ディクテーションが可能であり、一方、さらなる例示的な実施形態では、ハンズフリー即時ＴＴＳ変換、すなわち、認識されたテキストを読み上げる（発音する）合成音声が可能である。

【0045】

図４は、即時音声翻訳に用いられるＨＣ１００、周辺ホストデバイス２００およびクラウドベースネットワークリソース５０５の別の実施形態を示す。ＨＣ１００は、マイクロディスプレイ２１０と、１つ以上のマイクロホン（マイク１およびマイク２）２２０と、１つ以上のオーディオスピーカ（スピーカ１およびスピーカ２）２３０と、カメラ１６０と、動作可能に接続されたプロセッサ２０５からさらに構成されるメインボード１０１と、メモリまたは他の記憶装置（図示せず）と、ノイズキャンセルモジュール（ＮＣＳ）２２５と、コマンド制御モジュール２５０と、音声認識／ディクテーションモジュール２５５と、音声合成モジュール２６０と、光学式文字認識（ＯＣＲ）モジュール１６５と、無線通信モジュール２０８とから構成され得る。ＨＣ１００は、さらに、即時音声翻訳を可能にする追加の要素から構成され得る。モジュール２５０、２５５、２６０、２２５は、上述のものである。

【0046】

さらに、ＨＣ１００のいくつかの実施形態では、ユーザは、好ましい性能のために、ＨＣ１００の設定および動作をカスタマイズできる。ＨＣ１００とクラウドベースネットワークソース５０５との通信が、スマートフォンなどの周辺ホストデバイス２００を無線中継器として用いるさまざまな無線通信方法によって、可能にされ得る。言い換えると、各ＨＣ１００は、ホストデバイス２００との通信リンクを含むローカル通信ネットワークを構成し得る。ホストデバイスは、第１すなわち原始言語（または第２すなわち目標言語）のテキストデータをネットワークサービス音声認識モジュール５５５（またはテキスト翻訳モジュール５７０）へ中継し得る。いくつかの実施形態では、ＨＣ１００は、図２で上述したように、Ｗｉ−Ｆｉ、３Ｇ（ＧＳＭ（登録商標）、ＣＤＭＡなど）もしくは４ＧＬＴＥセルラー方式、またはWiFi-Directなどのさまざまな無線通信方法を用いて、クラウドベースネットワークリソース５０５と直接通信し得る。クラウドベースネットワークリソース５０５は、クラウドベース音声認識／ディクテーションモジュール５５５と、ＯＣＲモジュール５６５と、音声合成モジュール５６０と、テキスト翻訳モジュール５７０とを含み得る。

【0047】

一実施形態では、即時音声翻訳が、ＨＣ１００にて、局所的に発生し得る。マイクロホン（マイク１およびマイク２）２２０は、ボイス入力、すなわち、音声入力を受け取る。ノイズキャンセルモジュール（ＮＣＳ）２２５が、用いられて、背景雑音を除去して、マイクロホン２２０で受け取られたボイス／音声入力のより正確な表現が、ローカル音声認識モジュール２５５に供給され得る。ＮＣＳ２２５は、アクティブノイズキャンセル（ＡＮＣ）などの任意のノイズキャンセル技術を使用し得る。（ノイズキャンセルの点で）処理済みまたは未処理のボイス／音声入力が、音声認識／ディクテーションモジュール２５５に提供され得て、そして、音声認識／ディクテーションモジュール２５５は、デジタルオーディオ信号に対して音声認識を行い、認識された音声をテキストに変換する。任意に、文字化されたテキストはマイクロディスプレイ２１０に表示され得て、認識された音声を文字化したものを提供し得る。文字化されたテキストは、ローカル翻訳モジュール（図示せず）に提供され得る。ローカル翻訳モジュールは、文字化されたテキストを、ある自然言語から翻訳して、別の翻訳テキストを生成し得る。任意に、翻訳テキストは、マイクロディスプレイ２１０に表示され得る。翻訳テキストは、音声合成モジュール２６０に供給され得て、ＨＣ１００の１つ以上のオーディオスピーカ２３０を用いて、読み上げられ（発音され）得る。ローカル翻訳モジュールまたはメインボード１０１上の他のモジュール２５０、２５５、２６０は、ユーザ毎にデフォルト言語設定を有し、デフォルト言語の機能として、目標言語を自動的に決定し得る。

【0048】

例示的な実施形態およびカスタマイズされた構成が、典型的には第２（外国）言語で、ＨＣ１００のユーザ／携帯者以外の人が話した音声が認識され翻訳され得るように、異なるマイクロホン２２０に関連する異なるノイズレベル閾値を設定することを、含み得る。いくつかの例示的な実施形態では、ＨＣ１００が、音声についての受け取られたオーディオ信号を聞き取り、モニタしている間、当該受け取られたオーディオ信号を処理するノイズキャンセル技術を用いなくてもよい。いくつかの例示的な実施形態では、合成音声が、特にユーザの各耳に対する少なくとも１つのオーディオスピーカ２３０を含むＨＣの例示的な実施形態において、ユーザ／携帯者に対して読み上げられ／発音される際にノイズキャンセル技術を用いてもよい。

【0049】

好ましい実施形態では、即時音声翻訳は、クラウドベースネットワークリソース５０５を用い得る。ＨＣ１００は、Ｂｌｕｅｔｏｏｔｈ（登録商標）またはWiFi Directなどの周知のワイヤレスプロトコルを用いて、無線通信モジュール２０８を介して、スマートフォンなどの周辺ホストデバイス２００と通信し得る。スマートフォン２００は、無線中継器として機能し得て、ＨＣ１００とクラウドベースネットワークリソース５０５との通信を可能にする。ＨＣ１００のいくつかの実施形態は、無線中継デバイス（例えば、ホスト２００）を用いずにクラウドベースネットワークリソース５０５との通信を可能にする、４ＧＬＴＥ、Ｗｉ−Ｆｉなどの複数の無線を含む無線通信モジュール２０８を含み得る。

【0050】

マイクロホン（マイク１およびマイク２）２２０は、１つの言語のボイス／オーディオ入力、すなわち、音声入力を受け取る。ノイズキャンセルモジュール（ＮＣＳ）２２５が、背景雑音を除去するために用いられて、マイクロホン２２０で受け取られたボイス／音声入力のより正確な表現が、ローカル音声認識モジュール２５５に供給され得る。ＮＣＳ２２５は、アクティブノイズキャンセル（ＡＮＣ）などの任意のノイズキャンセル技術を使用し得る。１つの（原始）言語の処理済みまたは未処理のボイス／音声入力が、ローカル音声認識／ディクテーションモジュール２５５に提供される。音声認識モジュール２５５は、受け取ったデジタルオーディオ入力信号に対して音声認識を行い、（原始言語の）認識した音声を原始言語のテキストに変換する。得られた（前記一の言語の／原始言語の）認識テキストは、リモートクラウドベース翻訳モジュール５７０に送信される。

【0051】

リモートクラウドベース翻訳モジュール５７０は、受信した原始言語のテキストを翻訳して、翻訳テキストを生成する（すなわち、テキストを前記一の言語／原始言語から第２言語／目標言語へテキストを翻訳する）。クラウドベースネットワークサーバ５０５は、翻訳テキストをＨＣ１００に、例えばホスト２００である中継器で、伝達する。翻訳テキストがＨＣ１００に受信された後、プロセッサは、コマンドを実行して、受信された目標言語のテキストをマイクロディスプレイ２１０に表示する。そして、翻訳テキストが、音声合成モジュール２６０に供給され得て、ＨＣ１００の１つ以上のオーディオスピーカ２３０を用いて読み上げられ（発音され）得る。ＨＣ１００のコマンド／制御モジュール２５０または音声／テキスト処理モジュール（ＳＴＴ２５５、ＴＴＳ２６０）は、ユーザ毎にデフォルト（または好みの）言語設定を有してもよい。このようにして、ＨＣ１００からホスト２００を介して中継された翻訳要求は、ユーザのデフォルト（好みの）言語設定に基づいて、目標言語を自動的に設定する。ユーザは、ＨＣ１００とクラウドベースネットワークサービス５０５との間でやりとりされた翻訳要求毎に、目標言語の指示を挿入または入力する必要がない。

【0052】

当業者であれば、他の処理がＨＣ１００からオフロード（offroad）される他の構成が可能であることが分かるであろう。例えばＨＣ１００は、例えばボイス／音声入力などを含むさまざまな入力をクラウドベースネットワークリソース５０５に提供し得て、自動指示された（ユーザの好ましい／デフォルト）目標言語が、クラウドベースネットワーク音声認識／ディクテーションモジュール５５５に提供され得て、デジタルオーディオ信号に対して音声認識を行い、音声を同じ言語のテキストに変換し得る。そして、認識されたテキストは、クラウドベースネットワーク翻訳モジュール５７０によって処理され、（原始言語から自動的にデフォルト目標言語に）翻訳されたテキストを生成し得る。そして、翻訳テキストは、ＨＣ１００に返信され得て、当該ＨＣ１００において、テキストとしてマイクロディスプレイ２１０に表示され、音声合成モジュール２６０に供給され、１つ以上のスピーカ２３０を用いて、目標言語で読み上げられ（発音され）得る。上記は、少なくとも即時翻訳の要求においてユーザが目標言語の指示を入力する必要がないという意味で、自動である。

【0053】

代替的に、ＨＣ１００は、検出された音声信号（およびユーザ目標言語の自動指示）をクラウドベース音声認識モジュール５５５に送り得て、当該クラウドベース音声認識モジュール５５５は、認識した音声をテキストに変換する。そして、認識されたテキストは、クラウドベースネットワーク翻訳モジュール５７０によって処理され、ユーザによる特定の言語要求の入力なし（入力不要）で、目標言語の翻訳テキストを自動的に生成し得る。そして、翻訳テキストは、クラウドベースネットワーク音声合成モジュール５６０によって用いられ、目標言語の翻訳音声を生成し得る。翻訳音声は、ＨＣ１００に送られ、受信された後、スピーカ２３０を用いてユーザに対して再生され得る。

【0054】

図４に関する即時翻訳を可能にする例示的な実施形態を、以下に説明する。

【0055】

例示的な実施形態では、組み込まれたテキストを含む画像が、ＨＣ１００のカメラ１６０によって捉えられ得る。組み込みテキストの認識が、ＯＣＲモジュール１６５を用いて、局所的に発生し得る。そして、（原始言語の）認識されたテキストは、ローカル翻訳モジュール（図示せず）に提供され得て、（デフォルト言語設定で示されたユーザ好みの）目標言語の翻訳テキストを自動的に生成し得る。翻訳テキストは、マイクロディスプレイ２１０に表示され得るおよび／または音声合成モジュール２６０およびスピーカ２３０を用いてユーザに対して発音され得る。上記は、即時翻訳処理に対して目標言語の指示をユーザが入力する必要がない意味で、「自動的」に達成される。

【0056】

好ましい実施形態では、カメラ１６０によって捉えられた組み込みテキストを有する画像は、ＨＣ１００からネットワークベースＯＣＲモジュール５６５に、スマートフォン２００などの無線中継器として機能する周辺ホストデバイス２００を介して、または無線通信モジュール２０８を用いて直接、送信され得る。組み込みテキストを有する捉えられた画像は、クラウドベースネットワークサービス５０５に送られ得て、当該クラウドベースネットワークサービス５０５において、組み込みテキストの認識が、クラウドベースＯＣＲモジュール５６５を用いて行われ得る。そして、認識されたテキストは、クラウドベース翻訳モジュール５７０に、（ユーザ好みの設定／デフォルト設定から供給された）目標言語の自動指示とともに、ＨＣ１００から提供され得て、目標言語の翻訳テキストを生成し得る。そして、翻訳テキストは、ＨＣ１００に送られ得る。一旦ＨＣ１００で受信されると、翻訳テキストは、マイクロディスプレイ２１０で表示され得る、および／またはローカル音声合成モジュール２６０を用いて音声に変換され、スピーカ２３０を用いて発音され得る。

【0057】

それぞれ図５Ａおよび５Ｂに関する即時翻訳処理１００１Ａおよび１００１Ｂの例示的な実施形態を、次に説明する。

【0058】

図５Ａは、本発明の、音声から音声（ＳＴＳ）および音声からテキスト（ＳＴＴ）の即時翻訳の例示的な実施１００１Ａを図示する。図５Ａに列挙したさまざまな機能が、ＨＣ１００上で（すなわち、局所的に）実装され得る、あるいは（図４に示された）ホスト２００またはクラウドベースネットワークリソース５０５などの他の処理装置へ（すなわち、離れて）オフロードされうる。好ましい実施形態では、集約処理（ＣＰＵプロセス）動作および他のソース集約動作が、オフロードされて、ＨＣ１００がより経済的かつ効率的に動作する。このようなプロセスをオフロードすることによって、ＨＣ１００は、電力消費コストを移出して（by exporting the power consumption cost）、バッテリ電源を温存できる。さらに、ネットワークソースを用いてこのようなプロセスを行うことによって、ＨＣ１００上のリソースを、再割り当てできる。

【0059】

図５Ａに示された音声から音声（ＳＴＳ）および音声からテキスト（ＳＴＴ）の即時翻訳の例示的な実施１００１Ａは、ステップ４２０１にて、マイクロホン２２０によってボイス入力が検出されると、開始する。一旦ボイス入力が検出されると、ステップ４２０３にて、当該入力に含まれる音声が認識される。音声認識は、自動言語識別を含み得る。そして、認識された音声は、ステップ４２０５にて、テキストに文字化され得る。認識された音声が一旦テキストに文字化されると、文字化されたテキストは、ステップ４２１１にて、任意に、ユーザに対して（すなわち、ディクテーションしたものを文字化したものとして）マイクロディスプレイ２１０に表示され得る。次に、文字化されたテキストは、ステップ４２０７にて、ユーザの好ましい言語などの事前に選択された言語（所定の目標言語）、例えば、英語に、自動的に翻訳され得る。ユーザは、ステップ４２０７に対して、目標言語の指示を入力する必要がないため、システム１００１Ａは、即時自動翻訳を行う。一旦（原始言語からユーザのデフォルト／目標言語へ）自動的に翻訳されると、翻訳テキストは、ステップ４２１１にて、任意に、ユーザに対して（すなわち、ユーザの好ましい言語の翻訳文として）マイクロディスプレイ２１０に表示され得る。並行して、ステップ４２０９にて、翻訳テキストは、音声に合成され得る。一旦音声が合成されると、システム１００１Ａは、次いで、ステップ４２１３にて、翻訳テキストに対応する音声を、ユーザに対してオーディオスピーカ２３０を介して読み上げ（発音し）得る。

【0060】

図５Ｂは、テキストから音声（ＴＴＳ）およびテキストからテキスト（ＴＴＴ）の即時翻訳の例示的な実施１００１Ｂを図示する。図５Ａのさまざま機能と同様に、図５Ｂに列挙したさまざまな機能が、ＨＣ１００上で実装されるか、または（図４に示した）ホストデバイス２００もしくはクラウドベースネットワークリソース５０５などの他の処理装置へオフロードされ得る。図５Ａに対して上述された利点として、好ましい実施形態では、集約ＣＰＵプロセスおよび他のリソース集約動作がオフロードされて、ＨＣ１００はより経済的かつ効率的に動作する。

【0061】

図５Ｂに示されたテキストから音声（ＴＴＳ）およびテキストからテキスト（ＴＴＴ）の即時翻訳の例示的な実施１００１Ｂは、ステップ４３０１にて、（カメラ１６０などを介して）画像入力を受け取ると、開始する。一旦画像が入力されると、ステップ４３０３にて、光学式文字認識（ＯＣＲ）などの技術を用いて、当該画像に組み込まれたテキストが認識される。一旦組み込みテキストが認識されると、組み込みテキストは、任意に、ステップ４３０７にて、音声として合成され得て、そして、ステップ４３１１にて、ＨＣ１００に接続されたオーディオスピーカ２３０を介してユーザに対して読み上げられ（発音され）得る。付加的にまたは代替的に、認識された組み込みテキストは、ステップ４３０５にて、ユーザの好ましい言語などの事前に選択された言語（所定の目標言語）、例えば、英語に、翻訳され得る。ユーザは、ステップ４３０５に対して、目標言語の指示を入力する必要がないため、システム１００１Ｂは、即時自動翻訳を行う。一旦自動的に翻訳されると、翻訳テキストは、ステップ４３０９にて、任意に、ユーザに対して（すなわち、ユーザの好ましい／目標言語への翻訳文として）マイクロディスプレイ２１０に表示され得る。並行して、ステップ４３０７にて、翻訳テキストは、音声に合成され得る。一旦音声が合成されると、システム１００１Ｂは、次いで、ステップ４３１１にて、翻訳テキストを、ユーザに対してオーディオスピーカ２３０を介して読み上げ（発音し）得る。

【0062】

システム１００１Ａ、１００１ＢのＳＴＳおよび／またはＳＴＴ翻訳は、多くの場合、有用であり得る。図６Ａは、ＨＣ１００のユーザ３５１または携帯者が、ある外国語のみを話すことができる人３６０と対話し得る例を図示する。（図４に示された）マイクロホン２２０を介して、システム１００１Ａ、１００１Ｂは、外国語話者３６０の音声、例えば、スペイン語の音声を検出、認識し、当該検出したスペイン語のボイス入力に対してボイス音声認識を行う。そして、認識された音声は、英語などのユーザ（３５１）の好ましい言語または目標言語を含む多くの言語に翻訳され得る。翻訳された音声のテキストが、マイクロディスプレイ２１０にて、ユーザ３５１に対して提供され得る。代替的または付加的に、翻訳された音声は、音声合成技術を用いて、スピーカ２３０でユーザ３５１に対して読み上げられ得る。ＨＣ１００の例示的な実施形態は、複数のマイクロホン２２０に加えて、ユーザ３５１の各耳に対して１つずつ、つまり２つのスピーカ２３０を備え得て、外国語話者３６０の音声を含む不要な環境音がユーザ３５１に聞こえないように、任意に、アクティブノイズキャンセル（ＡＮＣ）２２５によるノイズキャンセルを提供し得る。このようなノイズキャンセル機能２２５は、ＨＣ１００のユーザ３５１には（ステップ４２０９、４３０７において合成された）システムで翻訳された音声のみが聞こえ、翻訳中の外国語の音声（人３６０のボイス）が聞こえないため、有用であり得る。

【0063】

さらに、翻訳される外国語の音声は、ユーザ３５１に対して（マイクロディスプレイ２１０を介して）外国（原始）言語またはユーザが欲する別の言語のテキストとして表示もされ得る。例えば、スペイン語の音声は、英語に翻訳され、英語テキストとして提示され得る。

【0064】

ＨＣ１００（システム１００１Ａ、Ｂ）によって可能となった即時翻訳は、外国語を学ぶのに有用となりうる。この用途の場合、「目標」言語は、（ユーザのデフォルト言語／好ましい設定言語と異なる言語）外国語である。例えば、携帯者３５１は、システムに、英語などの母語を仏語などの所望の外国（目標）言語に翻訳させるように決定できる。即時翻訳デバイス１００／システム１００１Ａ、Ｂを日常の会話に用いることによって、携帯者３５１は、英語の音声（ボイス入力）を、仏語に翻訳させ、スピーカ２３０を介して、ＡＮＣ２２５を用いて、仏語のみを聞くことができる。よって、ユーザ３５１は、学びたい（目標）言語に浸ることができる。携帯者３５１は、また、マイクロディスプレイ２１０を介して、翻訳された音声のテキストを見ることができ、書き言葉の（目標）言語の学習に役立つ。また、画像が、それ自身だけまたはテキストに加えて、ユーザに対して音声と同時に提示され得る。

【0065】

図６Ａに示されたさらに別の例において、ＨＣ１００は、翻訳された（目標）テキストを可聴音声の形態で、ＨＣスピーカ（複数可）２３０から出力し得るだけでなく、ＨＣ１００は、翻訳された（目標）テキストをスマートフォン２００などの外部デバイスに出力してもよい。例えば、ユーザ３５１は、外国に到着し、ＨＣ１００を用いて外国人タクシードライバー（例えば人３６０）と対話したい場合がある。翻訳された（目標）テキストをマイクロディスプレイ２１０に出力するまたはスピーカ２３０から音声を出力する代わりに、ＨＣ１００は、翻訳された（目標）テキストを、タクシードライバーの携帯電話などの、ドライバー３６０に付随する周辺機器２００に出力し得る。この周辺機器２００は、テキストを表示可能なスクリーンまたはスピーカに動作可能に接続されていてもよい。例えば、使用の最初に、ＨＣ１００は、モニタ、携帯情報端末、ノートパソコン、携帯音楽プレーヤ、リモートスピーカ、携帯電話、スマートフォン、またはトランシーバもしくはレシーバを有しデータの無線通信を受信可能なその他のデバイスなどの、外部デバイス（複数可）に問い合わせるプログラム命令を含み得る。ＨＣ１００は、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの周知のプロトコル標準、または当該技術分野で周知のその他の無線通信プロトコルを用いて、外部デバイス２００と組になってもよい。

【0066】

図６Ｂは、ＴＴＴ翻訳が有用である例を図示する。例えば、ユーザ３５１は、外国に旅行していて、一の言語（原始言語）の標識３５０を理解しない。ＨＣ１００およびシステム１００１Ｂは、即時ＴＴＴ翻訳を、図５Ｂで上述したように、カメラ１６０による標識３５０の画像に対して行い得る。特に、システム１００１Ｂは、入力された画像テキストを前記一の（原始）外国語からユーザのデフォルト（目標）言語に即座／自動的に翻訳し、ユーザ３５１に、（目標ユーザ言語の）翻訳テキストがマイクロディスプレイ２１０で提供される。

【0067】

本発明のさらに例示的な実施形態が、コンピュータプログラム（の製品）を用いて構成されてもよい。例えば、本発明の例示的な実施形態を実施するための制御となるように、ソフトウェアにプログラム化されてもよい。本発明のさらに例示的な実施形態が、プロセッサによって実行され得て、かつ、実行される際、当該プロセッサに本明細書中に記載の方法を行わせる命令を含む非一時的でコンピュータ読み取り可能な媒体を含んでもよい。本明細書中に記載したブロック図およびフローチャートの要素は、ソフトウェア、ハードウェア、ファームウェア、または将来決定される他の類似する実装（implementation）で実装されてもよいことが理解されるべきである。また、本明細書中に記載したブロック図およびフローチャートの要素は、ソフトウェア、ハードウェアまたはファームウェアにおいて、任意の方法で組み合わされてよくまたは分割されてもよい。ソフトウェアで実装される場合、当該ソフトウェアは、本明細書中に記載した例示的な実施形態をサポートし得る任意の言語で記載されてもよい。ソフトウェアは、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）などの任意の形態のコンピュータ読み取り可能な媒体に記憶されていてもよい。作動中、汎用またはアプリケーションに特化したプロセッサが、当該技術分野でよく理解された方法で、ソフトウェアをロードして実行する。ブロック図およびフローチャートが、より多いまたはより少ない要素を含み、配置または向きが異なり、または表現が異なっていてもよいことがさらに理解されるべきである。本発明の実施形態の実行を説明するブロック図、フローチャートおよび／またはネットワーク図ならびにブロック図およびフローチャートの数が、実装の際に影響を受けてもよいことが理解されるべきである。

【0068】

本発明をその例示的な実施形態を参照して詳細に示して説明してきたが、添付の特許請求の範囲に包含される本発明の範囲を逸脱することなく、さまざまな形の変更および詳細化が実施形態の中でなされ得ることが当業者によって理解されるであろう。
なお、本発明は、実施の態様として以下の内容を含む。
［態様１］
即時音声翻訳を行う方法であって、
少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立することと、
前記第１ヘッドセットコンピュータで、第１言語の音声を捕捉することと、
前記第１言語の前記捕捉された音声を前記第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第１言語のテキストとして認識して文字化することと、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信することと、
前記第１言語の前記テキストを前記ローカルネットワークを通じて少なくとも前記第２ヘッドセットコンピュータにブロードキャストすることと、
前記第１言語の前記テキストを前記第２ヘッドセットコンピュータで受信することと、
前記第１言語の前記受信されたブロードキャストされたテキストを前記第２ヘッドセットコンピュータからネットワークベーステキスト翻訳サービスに送信して、前記第１言語の前記テキストを第２言語のテキストに翻訳することと、
前記第２言語の前記テキストを前記第２ヘッドセットコンピュータで前記ネットワークベーステキスト翻訳サービスから受信することと、
前記第２言語の前記テキストを前記第２ヘッドセットコンピュータのディスプレイに表示することと
を含む方法。
［態様２］
態様１に記載の方法において、
前記第２ヘッドセットコンピュータで前記第２言語の前記テキストから音声を合成することと、前記合成された音声を前記第２ヘッドセットコンピュータのオーディオスピーカを介して提示することと
をさらに含む方法。
［態様３］
態様１に記載の方法において、
前記ローカル通信ネットワークを確立する前に、前記第１および第２言語を前記第１および第２ヘッドセットコンピュータの好ましい操作言語としてそれぞれ設定すること
をさらに含む方法。
［態様４］
態様３に記載の方法において、
前記ローカルネットワークを確立することは、各ヘッドセットコンピュータの好ましい操作言語を含む問合せをブロードキャストすることをさらに含む方法。
［態様５］
態様１に記載の方法において、
少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせを用いて、オンスクリーン選択肢を選択して、前記即時音声翻訳の方法を開始させること、
をさらに含む方法。
［態様６］
態様１に記載の方法において、
前記ローカル通信ネットワークは、Ｂｌｕｅｔｏｏｔｈパーソナルエリアネットワーク（ＰＡＮ）プロファイルを用いる方法。
［態様７］
態様１に記載の方法において、
前記ローカル通信ネットワークは、少なくとも１つのヘッドセットコンピュータと少なくとも１つのホストデバイスとの通信リンクをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成される方法。
［態様８］
態様７に記載の方法において、
前記ホストデバイスは、前記第２言語の前記テキストを提示するディスプレイをさらに含む方法。
［態様９］
態様７に記載の方法において、
前記ホストデバイスは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いる方法。
［態様１０］
態様９に記載の方法において、
前記長距離無線は、ＧＳＭ、ＣＤＭＡまたは４ＧＬＴＥ無線である方法。
［態様１１］
即時音声翻訳を行うヘッドセットコンピューティングデバイスであって、
第１言語の音声を捕捉する音声捕捉モジュールと、
少なくとも第２ヘッドセットコンピュータとのリンクを含むローカル通信ネットワークを確立し、前記第１言語の前記捕捉された音声をネットワークベース音声認識サービスに送信して、前記捕捉された音声を前記第１言語のテキストとして認識して文字化し、前記第１言語の前記テキストを前記ネットワークベース音声認識サービスから受信し、前記第１言語の前記テキストを前記ローカルネットワークを通じて前記少なくとも第２ヘッドセットコンピュータにブロードキャストし、第２言語のテキストを前記少なくとも第２ヘッドセットコンピュータから受信し、前記第２言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第２言語の前記テキストを前記第１言語のテキストに翻訳し、前記第１言語の前記テキストを前記ネットワークベーステキスト翻訳サービスから受信する通信モジュールと、
前記第１言語の前記翻訳されたテキストを表示するマイクロディスプレイと、
を含むデバイス。
［態様１２］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
前記第１言語の前記テキストを合成する音声合成器と、
前記合成された音声を再生するオーディオスピーカと、
をさらに含むヘッドセットコンピューティングデバイス。
［態様１３］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
好ましい操作言語をさらに含み、当該好ましい操作言語は、前記ヘッドセットコンピュータの初期設定時かつ少なくとも前記ローカル通信ネットワークを確立する前に設定されるヘッドセットコンピューティングデバイス。
［態様１４］
態様１３に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、前記少なくとも第２ヘッドセットコンピュータとの前記リンクを含む前記ローカル通信ネットワークの確立の一部として、前記ヘッドセットコンピュータの前記好ましい操作言語を含む問合せをブロードキャストするヘッドセットコンピューティングデバイス。
［態様１５］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
前記即時音声翻訳の方法を開始するためのオンスクリーン選択肢をさらに含み、当該オンスクリーン選択肢は、少なくともボイスコマンド、ヘッドモーションコマンド、ハンドジェスチャーコマンドまたはそれらの組み合わせによって選択されるヘッドセットコンピューティングデバイス。
［態様１６］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールはＢｌｕｅｔｏｏｔｈパーソナルエリアネットワーク（ＰＡＮ）プロファイルを用いて前記ローカル通信ネットワークを確立するヘッドセットコンピューティングデバイス。
［態様１７］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも１つのホストデバイスとの通信リンクを前記ローカル通信ネットワークを通じてさらに確立し、前記ホストデバイスは、前記ヘッドセットコンピュータと、前記ネットワークベース音声認識サービスと、前記ネットワークベーステキスト翻訳サービスとの間の中継器として構成されるヘッドセットコンピューティングデバイス。
［態様１８］
態様１７に記載のヘッドセットコンピューティングデバイスにおいて、
前記ホストデバイスは、前記第２言語の前記テキストを提示するディスプレイをさらに含むヘッドセットコンピューティングデバイス。
［態様１９］
態様１１に記載のヘッドセットコンピューティングデバイスにおいて、
前記通信モジュールは、少なくとも短距離無線と長距離無線とをさらに含み、前記ホストデバイスは、前記少なくとも１つのヘッドセットコンピュータとの前記通信リンクを含む前記ローカル通信ネットワークのために前記短距離無線を用い、前記ネットワークベース音声認識サービスおよび前記ネットワークベーステキスト翻訳サービスにアクセスするために前記長距離無線を用いるヘッドセットコンピューティングデバイス。
［態様２０］
態様１９に記載のヘッドセットコンピューティングデバイスにおいて、
前記長距離無線は、ＧＳＭ、ＣＤＭＡまたは４ＧＬＴＥ無線であるヘッドセットコンピューティングデバイス。
［態様２１］
ヘッドセットコンピュータの動作を制御するための非一時的なコンピュータプログラム製品であって、当該コンピュータプログラム製品はコンピュータ読み取り可能な命令を記憶しているコンピュータ読み取り可能な媒体を含み、当該命令は、プロセッサによってロードされ実行される際、当該プロセッサに、
少なくとも第１および第２ヘッドセットコンピュータ間のリンクを含むローカル通信ネットワークを確立させ、
前記第１ヘッドセットコンピュータで、第１言語の音声を捕捉させ、
前記第１言語の前記捕捉された音声を前記第１ヘッドセットコンピュータからネットワークベース音声認識サービスに送信させて、前記捕捉された音声を前記第１言語のテキストとして認識して文字化させ、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで前記ネットワークベース音声認識サービスから受信させ、
前記第１言語の前記テキストを前記ローカルネットワークを通じて少なくとも前記第２ヘッドセットコンピュータへブロードキャストさせ、
前記第２ヘッドセットコンピュータから、第２言語のテキストを前記第１ヘッドセットコンピュータで受信させ、
前記第２言語の前記受信されたテキストをネットワークベーステキスト翻訳サービスに送信して、前記第２言語の前記テキストを前記第１言語のテキストに翻訳させ、
前記ネットワークベーステキスト翻訳サービスから、前記第１言語の前記テキストを前記第１ヘッドセットコンピュータで受信させ、
前記第１言語の前記テキストを前記第１ヘッドセットコンピュータのマイクロディスプレイに表示させる
非一時的なコンピュータプログラム製品。

【図1A】