特許第6157725号(P6157725)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フェイスブック,インク.の特許一覧

特許6157725ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法
<>
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000002
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000003
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000004
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000005
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000006
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000007
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000008
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000009
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000010
  • 特許6157725-ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6157725
(24)【登録日】2017年6月16日
(45)【発行日】2017年7月5日
(54)【発明の名称】ハイブリッド型オフライン/オンライン音声翻訳システム及びその方法
(51)【国際特許分類】
   G06F 17/28 20060101AFI20170626BHJP
   G10L 15/06 20130101ALI20170626BHJP
   G10L 15/30 20130101ALI20170626BHJP
   G10L 15/00 20130101ALI20170626BHJP
   G10L 13/00 20060101ALI20170626BHJP
   G06F 13/00 20060101ALI20170626BHJP
   G10L 13/047 20130101ALI20170626BHJP
【FI】
   G06F17/28 690
   G10L15/06 300H
   G10L15/30
   G10L15/00 200C
   G10L13/00 100G
   G06F13/00 540T
   G10L13/047 E
【請求項の数】15
【全頁数】26
(21)【出願番号】特願2016-513973(P2016-513973)
(86)(22)【出願日】2014年5月1日
(65)【公表番号】特表2016-527587(P2016-527587A)
(43)【公表日】2016年9月8日
(86)【国際出願番号】US2014036454
(87)【国際公開番号】WO2014186143
(87)【国際公開日】20141120
【審査請求日】2016年10月5日
(31)【優先権主張番号】13/915,820
(32)【優先日】2013年6月12日
(33)【優先権主張国】US
(31)【優先権主張番号】61/822,629
(32)【優先日】2013年5月13日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】508178054
【氏名又は名称】フェイスブック,インク.
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(72)【発明者】
【氏名】ワイベル、ナオミ アオキ
(72)【発明者】
【氏名】ワイベル、アレクサンダー
(72)【発明者】
【氏名】フューゲン、クリスチャン
(72)【発明者】
【氏名】ロットマン、ケイ
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開2006−099296(JP,A)
【文献】 特開2003−108555(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
G10L 13/00−15/34
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
翻訳サーバと、
前記翻訳サーバと通信するように構成されたクライアント・デバイスとを備える音声翻訳システムであって、前記クライアント・デバイスは、
マイクロホンと、
前記マイクロホンに接続されたプロセッサと、
前記プロセッサに接続され、前記プロセッサによって実行される命令を記憶するメモリと、
前記プロセッサに接続されたスピーカとを備え、
前記クライアント・デバイスは、第1の言語から第2の言語への口頭の入力句の翻訳を前記スピーカを通じて出力するためのものであり、
前記メモリが命令を記憶し、前記命令によって、
前記プロセッサが、前記クライアント・デバイスにおいて前記クライアント・デバイスのユーザから受信した口頭の入力句について前記第2の言語を決定する工程と、
前記プロセッサが、決定された前記第2の言語への前記口頭の入力句の翻訳に対する前記クライアント・デバイスの翻訳モード設定を前記ユーザから受信する工程であって、前記翻訳モード設定は、セキュリティで保護された無線ネットワークが使用可能な場合に限り、前記翻訳サーバを使用することのプライバシー・プリファレンスを備える、工程と、
セキュリティで保護された無線ネットワークが使用可能でないという決定に応答して、前記翻訳が前記クライアント・デバイスにおいて行われるように自動的に選択される工程であって、前記翻訳は、
前記口頭の入力句を、前記第1の言語から前記第2の言語へ翻訳する工程と、
前記口頭の入力句の翻訳を前記第2の言語により前記ユーザに対して出力する工程と、を含む、工程と、
セキュリティで保護された無線ネットワークが使用可能であるという決定に応答して、前記翻訳が前記翻訳サーバにおいて行われるように自動的に選択される工程であって、前記翻訳は、
前記クライアント・デバイスが、前記クライアント・デバイスによって受信された前記第1の言語による前記口頭の入力句に関連付けられている情報を前記翻訳サーバに対して送信する工程と、
前記翻訳サーバが、前記クライアント・デバイスから前記無線ネットワークを通じて受信した前記データに基づいて、前記口頭の入力句の前記第2の言語によるサーバ翻訳を決定する工程と、
前記翻訳サーバが、前記口頭の入力句の前記第2の言語による前記サーバ翻訳に関するデータを前記クライアント・デバイスに対して送信することによって前記クライアント・デバイスが前記サーバ翻訳を出力する工程と、を含む、工程と、が行われ、
前記翻訳サーバは、前記第1の言語から前記第2の言語への翻訳のために前記クライアント・デバイスが受信した音声発話を経時的に監視し、
前記翻訳サーバは、監視された前記音声発話に基づいて、前記ユーザによって使用された語彙を決定し、
前記翻訳サーバは、決定された前記語彙に基づいて、前記クライアント・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新し、前記クライアント・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つの前記更新は、前記翻訳サーバから前記クライアント・デバイスに対して前記無線ネットワークを通じて送信される、音声翻訳システム。
【請求項2】
前記クライアント・デバイスは、ユーザが翻訳を前記クライアント・デバイスと前記翻訳サーバとの間で切り替えることを可能にするユーザ・インターフェイスを有する、請求項1に記載の音声翻訳システム。
【請求項3】
前記クライアント・デバイスは、前記第1の言語による前記音声発話を認識し、認識した前記音声発話を前記第2の言語に翻訳し、前記クライアント・デバイスの前記スピーカを通じて出力するために、前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルを前記メモリに記憶し、
前記翻訳サーバは、前記無線ネットワークを通じて前記クライアント・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第2の言語への前記翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備え、
前記ローカル音響モデルは前記バックエンド音響モデルとは異なっており、
前記ローカル言語モデルは前記バックエンド言語モデルとは異なっており、
前記ローカル翻訳モデルは前記バックエンド翻訳モデルとは異なっており、
前記ローカル音声合成モデルは前記バックエンド音声合成モデルとは異なっている、請求項1に記載の音声翻訳システム。
【請求項4】
前記クライアント・デバイスは、前記クライアント・デバイスの位置を決定するためのGPSシステムを備え、
前記翻訳サーバは、前記クライアント・デバイスの前記位置に基づいて、前記クライアント・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされ、前記クライアント・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの前記少なくとも1つに対する更新は、前記無線ネットワークを通じて前記翻訳サーバから前記クライアント・デバイスに送信される、請求項3に記載の音声翻訳システム。
【請求項5】
前記翻訳サーバは、複数の翻訳サーバのうちの1つであり、前記クライアント・デバイスは、前記無線ネットワークを通じて前記複数の翻訳サーバの各々と通信するように構成され、
前記複数の翻訳サーバの各々は、前記無線ネットワークを通じて前記クライアント・デバイスから受信した前記データに基づいて、前記第1の言語による前記音声発話の前記第
2の言語への翻訳を決定するためのものであり、
前記複数の翻訳サーバのうちの1つは、前記クライアント・デバイスに送信するために前記複数の翻訳サーバからの前記翻訳のうちの1つを選択する、請求項3に記載の音声翻訳システム。
【請求項6】
前記翻訳サーバは、前記複数の翻訳サーバのうちの1つであり、前記クライアント・デバイスは、前記無線ネットワークを通じて前記複数の翻訳サーバの各々と通信するように構成され、
前記複数の翻訳サーバの各々は、無線ネットワークを通じて前記クライアント・デバイスから受信した前記データに基づく前記第1の言語による前記音声発話の前記第2の言語への翻訳を決定するためのものであり、
前記複数の翻訳サーバの1つは、前記複数の翻訳サーバからの2つ以上の翻訳を併合し、前記クライアント・デバイスに送信するための併合された翻訳を生成する、請求項3に記載の音声翻訳システム。
【請求項7】
第1の言語による口頭の入力句をクライアント・デバイスにおいて前記クライアント・デバイスのユーザから受信する工程と、
前記口頭の入力句の翻訳のための第2の言語を決定する、第2の言語決定工程と、
決定された前記第2の言語への口頭の入力句の翻訳に対する前記クライアント・デバイスの翻訳モード設定を前記ユーザから受信する工程であって、前記翻訳モード設定は、セキュリティで保護された無線ネットワークが使用可能な場合に限り、翻訳サーバを使用することのプライバシー・プリファレンスを備える、工程と、
セキュリティで保護された無線ネットワークが使用可能でないという決定に応答して、前記翻訳が前記クライアント・デバイスにおいて行われるように自動的に選択する工程であって、前記翻訳は、
前記クライアント・デバイスが、前記口頭の入力句を、前記第1の言語から前記第2の言語へ翻訳する工程と、
前記口頭の入力句の翻訳を前記第2の言語により出力する工程と、を含む、工程と、
セキュリティで保護された前記無線ネットワークが使用可能であるという決定に応答して、前記翻訳が翻訳サーバにおいて行われるように自動的に選択する工程であって、前記翻訳は、
前記口頭の入力句に関連付けられている情報を前記クライアント・デバイスから前記翻訳サーバに対して送信する工程と、
前記第1の言語から前記第2の言語への口頭の入力句のサーバ翻訳に関連付けられているデータを、前記クライアント・デバイスにおいて前記翻訳サーバから受信する工程と、
前記第2の言語による前記入力句のサーバ翻訳を出力する工程とを含む、工程と、
前記第1の言語から前記第2の言語への翻訳のために前記クライアント・デバイスが受信した音声発話を経時的に監視する工程と、
監視された前記音声発話に基づいて、前記ユーザによって使用された語彙を決定する工程と、
決定された前記語彙に基づいて、前記クライアント・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新する工程であって、前記クライアント・デバイスの前記ローカル音響モデル、前記ローカル言語モデル、前記ローカル翻訳モデル、および前記ローカル音声合成モデルのうちの少なくとも1つの前記更新は、前記無線ネットワークを通じて前記翻訳サーバから前記クライアント・デバイスに対して送信される、工程と、を備える、方法。
【請求項8】
前記第1の言語および前記第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアを前記クライアント・デバイスがダウンロードする、ダウンロード工程をさらに
備える、請求項7に記載の方法。
【請求項9】
前記クライアント・デバイスが前記クライアント・デバイスの位置を決定する工程と、
前記クライアント・デバイスと前記翻訳サーバとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、前記クライアント・デバイスが、前記クライアント・デバイスの決定された前記位置に基づいて前記言語翻訳ペア用の前記アプリケーション・ソフトウェアをダウンロードする工程とをさらに備える、請求項8に記載の方法。
【請求項10】
前記第2の言語決定工程は、前記第2の言語を選択するユーザ入力を受信することに応答するものである、請求項7に記載の方法。
【請求項11】
前記第2の言語決定工程は、前記クライアント・デバイスによって自動的に決定される、請求項7に記載の方法。
【請求項12】
前記第2の言語は、前記ユーザの位置に基づいて、前記クライアント・デバイスによって自動的に決定される、請求項11に記載の方法。
【請求項13】
前記第2の言語は、前記クライアント・デバイスにダウンロードされている言語ペアに基づいて、前記クライアント・デバイスによって自動的に決定される、請求項11に記載の方法。
【請求項14】
前記第2の言語は、利用可能な言語ペアに基づいて、前記クライアント・デバイスによって自動的に決定される、請求項11に記載の方法。
【請求項15】
決定された前記語彙は、ドメイン固有である、請求項7に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
ハイブリッド型オフライン/オンライン音声翻訳システムに関する。
【背景技術】
【0002】
音声間翻訳(STS:Speech−To−Speech translation)システムは、通常、2つの異なる形式、インターネットを経由したオンライン形式、またはユーザのデバイス(例えば、スマートフォンまたはその他の適切なコンピューティング・デバイス)に組み込まれたオフライン形式のいずれかで提供される。オンライン・バージョンは、大型サーバ(クラウド)上の豊富な処理リソースを利用できるというメリットを備えており、改良およびカスタマイズを可能にするデータ・フィードをサービス・プロバイダに提供する。しかし、オンライン処理は継続的なネットワーク接続を必要とするため、すべての位置で保証されることが可能であるとは限らず、ローミング・コストやプライバシー/セキュリティの問題のため、望ましくない場合がある。別の展開様式(デプロイ)として、Jibbigo音声翻訳アプリなどの音声間翻訳は、スマートフォン自体にローカルに組み込まれて動作するソフトウェアとして提供されることが可能であり、この翻訳アプリケーションを最初にダウンロードした後に、ネットワーク接続は不要である。このようなオフラインの組み込み音声翻訳機能は、ほとんどではないにしても、言語サポートが必要となる多くの実際の状況では、ネットワークが使用できなかったり、不安定であったり、高価であったりする場合があるため、望ましい展開様式である。ほとんどの旅行者は、このような接続の瞬断や喪失を、例えば、飛行機内、遠隔な地理的位置で、建物内にいる場合、あるいは、単純に外国での旅行中に関連付けられたローミング課金を避けるためにデータ・ローミングがオフにされていることによって体験する。
【0003】
このような音声翻訳サービスまたは音声翻訳ソフトウェアが提供される方法は、ドメインに依存する方法で、またはドメインに依存しない方法で、そのソフトウェアがどの範囲で動作できるのか、または動作する必要があるのかということ、およびそのソフトウェアがユーザによるコンテキストに適応できるのかどうかということにも影響を与える。通常、STSシステムは、特定の利用ドメイン向けに綿密に最適化および調整された場合、そのドメインではある程度良好に動作するが、別のドメインではあまりうまく動作せず(ドメイン依存性)、あるいは、すべてのドメインで概ね同じように良好に動作することで、ドメイン非依存性を実現しようとする。これらの解決策は、いずれも、すべての具体的な状況に対して性能を制限する。
【0004】
一般にユーザは、オンライン・クライアント・プログラムを、自分のコンピューティング・デバイス上で実行する。通常、このデバイスは、音声をデジタル化し、場合によってはエンコードし、その後、通信回線を経由してサンプルまたは係数をサーバに送信する。次にサーバは、計算負荷の大きい音声認識および/または翻訳を実行し、その結果を通信回線を経由してユーザに返送し、その結果はユーザのデバイス上に表示される。処理チェーンのさまざまな部分をサーバに移動させ、多少の計算作業をデバイス上で実行する各種オンライン設計が提案されている。音声認識、翻訳、および翻訳システムにおいて、ユーザのデバイスは、単にマイクロホンまたはアナログ/デジタル変換器である場合もあれば、ノイズ抑制、係数としてのエンコーディング、1つまたは複数の音声認識パス、1つまたは複数の言語処理工程などの、より複雑な機能を提供する場合もある。一方、オフライン設計は、アプリケーション全体をデバイス自体の上で組み込みアプリケーションとして実行する。すべての計算はデバイス上でローカルに実行され、使用時にクライアントとサーバとの間での送信は不要である。
【0005】
通常、オンライン設計には、極めて単純なクライアントしか必要としないため、アプリケーションを非常に単純なコンピューティング・デバイス、または携帯電話機上で実行できるというメリットがあり、すべての重い計算および処理は大型コンピューティング・サーバ上で実行される。音声翻訳および機械翻訳にとって、これは、より高度な計算負荷の大きいアルゴリズムが使用され得、最新の背景情報が使用され得ることを意味する。オンライン設計には、サービスの開発者またはオペレータがサーバ上のサービスまたは機能を保守/改良することができ、ユーザが新しいシステムのバージョンをダウンロードしたりアップグレードしたりする必要がないというメリットもある。
【0006】
オンライン設計のデメリットは、ネットワーク接続に決定的に依存しているという点である。ユーザが遠隔な地理的位置に移動したり旅行したりすると、接続は瞬断し、かつ/または非常に高価(ローミング)になる可能性があり、さまざまな理由で使用できなくなる可能性がある。音声翻訳システムでは、多くの場合、このような要件を受け入れることはできない。テキストまたは電子メールの送信とは異なり、音声は、情報やリアルタイム性能を損なわずに、接続の喪失に対応する音声ストリームの中断を許可することができないため、接続の一時的喪失を許容できない。そのため、オンライン設計では、使用時の継続的なリアルタイム送信を保証する必要があり、したがって継続的な接続を保証する必要がある。
【図面の簡単な説明】
【0007】
図1】本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。
図2A】本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。
図2B】本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。
図3】本発明のさまざまな実施形態に依るクライアント・コンピューティング・デバイスのブロック図。
図4A】本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。
図4B】本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのユーザが所望の言語翻訳ペアを選択し、オフライン・モードからオンライン・モードへ、およびオンライン・モードからオフライン・モードへ遷移できるグラフィカル・ユーザ・インターフェイスの例示のスクリーンショット。
図5】本発明のさまざまな実施形態に依る、オフライン・モードとオンライン・モードとの間で自動的に遷移するためのクライアント・コンピューティング・デバイスの処理を図で示すフローチャート。
図6】本発明のさまざまな実施形態に依る、クライアント・コンピューティング・デバイスのオフライン音声翻訳のさまざまなモデルおよびテーブルを更新する処理を図で示すフローチャート。
図7】本発明のさまざまな実施形態に依るオフライン・モードおよびオンライン・モードの音声翻訳処理を図で示すフローチャート。
図8】本発明のさまざまな実施形態に依るハイブリッド型音声翻訳システムのブロック図。
【発明を実施するための形態】
【0008】
一般的な1つの態様では、本発明は、無線対応のクライアント・コンピューティング・デバイス(例えば、スマートフォンやタブレット・コンピュータ)が、入力語句(例えば、入力音声発話や入力テキスト)をある言語から別の言語にローカルに(例えば、「オフライン」モードで)翻訳することができ、また、無線ネットワーク接続が存在する場合の「オンライン」モードにおいて、リモート・コンピュータ(例えば、バックエンド音声翻訳サーバ・システム)に翻訳を実行させ、その翻訳を無線ネットワークを通じてクライアント・コンピューティング・デバイスに返送させて、クライアント・コンピューティング・デバイスによって(例えば、スピーカを通じて音声で、かつ/またはテキスト表示フィールドを通じて)出力できる、ハイブリッド型音声翻訳システムを対象にする。さまざまな実施形態では、クライアント・コンピューティング・デバイスのユーザは、モード間を遷移することができ、この遷移は、ユーザの選択または設定に基づいて自動的に(ユーザにとって透過的に)行われることも可能である。さらに、バックエンドの音声翻訳サーバ・システムは、経時的なユーザ・データの解析に基づいて、オフライン・モードにおいてクライアント・コンピューティング・デバイスによって使用されるさまざまな音声翻訳モデルに適応することができ、それによって、スケールダウンされているがバックエンド音声翻訳サーバ・システムよりも効率的かつ高速なモデルを用いて、ユーザのドメインに適応させながら、クライアント・コンピューティング・デバイスを構成することができる。
【0009】
本発明の実施形態は、特に音声翻訳システムおよび音声翻訳方法を対象にする添付の特許請求の範囲において開示され、ある請求項のカテゴリ(例えば、方法)に記載された任意の特徴は、別の請求項のカテゴリ(例えば、システム)において同様に請求されることも可能である。添付の特許請求の範囲および以下で示された実施形態における従属関係および後方参照は、形式的な理由でのみ選択されている。ただし、先行する任意の請求項または実施形態への(特に複数の従属関係における)意図的な後方参照から発生するすべての主題は、同様に請求されることが可能であり、請求項の任意の組み合わせおよびそれらの特徴は、添付の特許請求の範囲において選択された従属関係にかかわらず開示され、請求されることが可能である。以下で示された実施形態の特徴の任意の組み合わせも、それらに記載された後方参照とは無関係に開示される。
【0010】
本発明の実施形態において、音声翻訳システムは、
− バックエンド音声翻訳サーバ・システムと、
− 無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備え、クライアント・コンピューティング・デバイスは、
− マイクロホンと、
− マイクロホンに接続されたプロセッサと、
− プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、
− プロセッサに接続されたスピーカとを備え、
− クライアント・コンピューティング・デバイスは、第1の言語から第2の言語への入力語句の翻訳をスピーカを通じて出力するためのものであり、
− メモリは命令を記憶し、その命令によって、
第1の動作モードにおいて、プロセッサが命令を実行するとき、プロセッサが入力語句をユーザに出力するために第2の言語に翻訳し、
第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスが受信した第1の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、
− バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライア
ント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語の入力語句の第2の言語への翻訳を決定し、
− バックエンド音声翻訳システムは、第1の言語による入力語句の第2の言語への翻訳に関するデータを、無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは、第1の言語の入力語句の第2の言語への翻訳を出力する。
【0011】
クライアント・コンピューティング・デバイスは、ユーザが第1の動作モードと第2の動作モードとの間で切り替えることを可能にするユーザ・インターフェイスを備えることができる。
【0012】
クライアント・コンピューティング・デバイスは、無線ネットワークへの接続状態に基づいて、第1の動作モードまたは第2の動作モードのどちらを使用するかを自動的に選択できる。
【0013】
あるいは、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて、第1の動作モードまたは第2の動作モードのどちらを使用するかを自動的に選択できる。
【0014】
本発明のさらなる実施形態において、入力語句は、
− クライアント・コンピューティング・デバイスのマイクロホンによって取り込まれた入力音声発話、およびクライアント・コンピューティング・デバイスのユーザ・インターフェイス上のテキスト入力フィールドを通じて入力されたテキストのうちの1つによって、クライアント・コンピューティングに入力される。
【0015】
クライアント・コンピューティング・デバイスは、スピーカを通じて音声で翻訳を出力できる。
本発明の音声翻訳システムでは、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による音声発話を認識し、認識した音声発話を第2の言語に翻訳し、クライアント・コンピューティング・デバイスのスピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。
【0016】
バックエンド音声翻訳サーバ・システムは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備えることができる。
【0017】
望ましくは、ローカル音響モデルをバックエンド音響モデルとは異なるものにすることができ、
ローカル言語モデルをバックエンド言語モデルとは異なるものにすることができ、
ローカル翻訳モデルをバックエンド翻訳モデルとは異なるものにすることができ、
ローカル音声合成モデルをバックエンド音声合成モデルとは異なるものにすることができる。
【0018】
さらに、バックエンド音声翻訳サーバ・システムは、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューテ
ィング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
【0019】
クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルは、ユーザによる翻訳クエリの解析に基づいて更新される。
【0020】
クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備えることができる。
さらに、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスの位置に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新するようにプログラムされることが可能であり、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つ対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される。
【0021】
さらに、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであることが可能であり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成されることが可能である。
【0022】
第2の動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第1の言語による音声発話の第2の言語への翻訳を決定するためのものであることができ、複数のバックエンド音声翻訳サーバ・システムのうちの1つは、クライアント・コンピューティング・デバイスに送信するために、複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの1つを選択できる。
【0023】
あるいは、複数のバックエンド音声翻訳サーバ・システムのうちの1つは、複数のバックエンド音声翻訳サーバ・システムからの2つ以上の翻訳を併合し、クライアント・コンピューティング・デバイスに送信するための併合された翻訳を生成する。
【0024】
本発明の別の態様では、音声翻訳方法が開示され、音声翻訳方法は、
− 第1の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第1の入力語句を受信する工程と、
− クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第1の入力語句を出力する工程と、を備え、
− クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程とを備え、
− 第2の動作モードにおいて、
− クライアント・コンピューティング・デバイスが第1の言語による第2の入力語
句を受信する工程と、
− クライアント・コンピューティング・デバイスが、第2の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、
− クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、
− クライアント・コンピューティング・デバイスが第2の言語による第2の入力語句を出力する工程とを備える。
【0025】
本発明のさらなる実施形態では、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による入力音声発話を認識し、認識した入力音声発話を第2の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶し、バックエンド音声翻訳サーバ・システムは、望ましくは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて第1の言語による入力音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。
【0026】
さらに、音声翻訳方法は、
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視する工程と、
− バックエンド音声翻訳サーバ・システムが、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを更新し、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つに対する更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信される工程とを備える。
【0027】
音声翻訳方法は、第1の言語および第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェアをクライアント・コンピューティング・デバイスがダウンロードする工程を備えることができる。
【0028】
言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードする工程は、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードすることを含むことができる。
【0029】
本発明のさらなる実施形態では、音声翻訳方法は、
− クライアント・コンピューティング・デバイスがクライアント・コンピューティング・デバイスの位置を決定する工程と、
− クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能であるときに、クライアント・コンピューティング・デバイスが、決定されたクライアント・コンピューティング・デバイスの位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウン
ロードする工程とを備えることができる。
【0030】
望ましくは、クライアント・コンピューティング・デバイスは、同時に表示される第1の言語表示セクションおよび第2の言語表示セクションを有するグラフィカル・ユーザ・インターフェイスを備えることができ、
− 第1の言語表示セクションおよび第2の言語表示セクションの各々が、ユーザがアクセスできる複数の言語のリスト表示を備えることができる。
【0031】
音声翻訳方法は、第1の言語表示セクションのリスト表示からの第1の言語の選択と、第2の言語表示セクションの第2の言語の選択を、クライアント・コンピューティング・デバイスがグラフィカル・ユーザ・インターフェイスを通じて受け取る工程をさらに備えることができ、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第1の言語から第2の言語に翻訳するように構成される。
【0032】
第1の動作モードにおいて使用できる言語は、グラフィカル・ユーザ・インターフェイスの第1の言語表示セクションおよび第2の言語表示セクションにおいて、第1の動作モードにおいて使用できない言語とは異なるように視覚的に示される。
【0033】
クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程は、クライアント・コンピューティング・デバイスのユーザ・インターフェイスを通じた入力に応答して第1の動作モードから第2の動作モードに遷移することである。
【0034】
本発明のこれらおよびその他の利点は、以下の説明で明らかになる。
本明細書では、本発明のさまざまな実施形態は、以下の図面に関連する例を用いて説明される。
【0035】
本発明は、一般に、無線対応のクライアント・コンピューティング・デバイス(例えば、スマートフォンまたはタブレット・コンピュータ)がオンライン機能(例えば、リモート・コンピュータ・システムによる音声翻訳処理)およびオフライン機能(例えば、クライアント・コンピューティング・デバイスに組み込まれた音声翻訳処理)の両方を備える音声翻訳システムを対象にする。図1は、本発明のさまざまな実施形態に記載の音声翻訳システム10の実施例のブロック図である。図1に示すように、システム10は、無線対応のクライアント・コンピューティング・デバイス12、無線ネットワーク14、データ通信ネットワーク15(例えば、インターネット)、バックエンド音声翻訳サーバ・システム16、およびアプリケーション・ストア・サーバ・システム(「アプリストア」)18を備える。クライアント・コンピューティング・デバイス12は、クライアント・コンピューティング・デバイス12が受信した第1の言語の音声発話を第2の言語(または、その他の言語)に翻訳するために、ユーザによって使用される。クライアント・コンピューティング・デバイス12は、デスクトップ・コンピュータまたはラップトップ・コンピュータなどの任意の適切なコンピューティング・デバイスにすることができるが、スマートフォンまたはタブレット・コンピュータなどの携帯用のモバイル・コンピューティング・デバイスにすることが、より望ましい。クライアント・コンピューティング・デバイス12の例に関する詳細は、図3に関連して下で説明される。
【0036】
また、クライアント・コンピューティング・デバイス12は、無線ネットワーク14を通じた無線データ通信を実行できる(すなわち、クライアント・コンピューティング・デバイス12が「無線対応」である)ことが望ましい。無線ネットワーク14は、IEEE
802.11WLAN規格を使用する無線LAN(WLAN)などの任意の適切な無線ネットワーク(例えば、WiFiネットワーク)にすることができる。無線ネットワーク
14は、3Gまたは4G LTE携帯電話移動体通信ネットワークなどの移動体通信ネットワークを備えることもできるが、その他の適切な無線ネットワークが使用されることも可能である。無線ネットワーク14は、アクセス・ポイントまたは基地局を通じてなど、インターネット15への接続を提供することが望ましい。バックエンド音声翻訳サーバ・システム16およびアプリストア18は、インターネット15に接続され、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12と通信する。
【0037】
本明細書に記載されているように、クライアント・コンピューティング・デバイス12には、クライアント・コンピューティング・デバイス12がオフライン音声翻訳を実行できるようにする、あるいはバックエンド音声翻訳サーバ・システム16が計算負荷の大きい音声認識処理工程および/または翻訳処理工程を提供して、クライアント・コンピューティング・デバイス12がオンライン音声翻訳を実行できるようにする、ソフトウェア(モデルを含む)が提供される。したがって、バックエンド音声翻訳サーバ・システム16は、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12から受信したデータに基づいて音声翻訳を実行する1つまたは複数のネットワーク・コンピュータ・サーバを備えることができる。したがって、バックエンド音声翻訳サーバ・システム16は、例えば、入力された音声発話データ内の第1の言語による音声を認識するための自動音声認識(ASR:Automatic Speech Recognition)モジュール20と、認識した第1の言語の音声を選択された第2の言語に変換/翻訳する機械翻訳(MT:Machine Translation)モジュール22と、第2の言語による音声出力の信号を送信するために翻訳を第2の言語で合成する音声合成モジュール24とを備えることができる。ASRモジュール20は、例えば、(i)単語の大規模なリストと、それらが特定の順序で発生する確率を含む言語モデル、および(ii)言語モデル内の各単語を構成する区別可能な音の統計的表現を含む音響モデルを使用することができる。MTモジュールは、例えば、適切な翻訳テーブル(またはモデル)および言語モデルを使用することができる。音声合成モジュール24は、適切な音声合成モデルを使用できる。同様に、クライアント・コンピューティング・デバイス12の音声翻訳ソフトウェアは、ASRモジュール(言語モデルおよび音響モデルを含む)、MTモジュール(翻訳テーブル/モデルおよび言語モデルを含む)、および音声合成モジュール(音声合成モデルを含む)を備えることができる。オンライン・モードとオフライン・モードのASRモジュール(またはエンジン)、MTモジュール(またはエンジン)、および合成モジュール(またはエンジン)の詳細については、米国特許第8,090,570号明細書および米国特許第8,204,739号明細書に記載されており、これらは全体を本明細書に参照として援用する。
【0038】
クライアント・コンピューティング・デバイス12のユーザは、アプリストア18を通じて音声翻訳ソフトウェア(あるいは、アプリケーションまたは「アプリ」)を購入できる。さまざまな実施形態では、クライアント・コンピューティング・デバイス12への接続を前提としてバックエンド音声翻訳サーバ・システム16が大部分の音声翻訳処理を実行するオンライン・バージョンの翻訳アプリは、アプリストア18を通じて無料でダウンロードできる。オンライン翻訳アプリは、音声発話(クライアント・コンピューティング・デバイス12上でマイクロホンによって取り込まれる)またはテキスト(ユーザ・インターフェイスによって提供されたテキスト・フィールドを通じて)などの翻訳用の入力語句を収集し、翻訳を(クライアント・コンピューティング・デバイス12のスピーカを通じて、かつ/またはユーザ・インターフェイスを通じてテキストで)出力する機能であるユーザ・インターフェイスをクライアント・コンピューティング・デバイス12に提供する。そのような実施形態では、クライアント・コンピューティング・デバイス12は、クライアント・コンピューティング・デバイス12のマイクロホンによって記録された、またはテキスト入力フィールドを通じて入力された翻訳するべき第1の言語の入力語句に関するデータを、例えば、入力音声を前処理した後のエンコーディングされたデジタルのサ
ンプルまたは特徴ベクトルを含むデータとして、無線ネットワーク14を通じてバックエンド音声翻訳サーバ・システム16に送信できる。バックエンド音声翻訳サーバ・システム16は、受信された入力データに基づいて、音声発話を選択された第2の言語に翻訳し、翻訳のデータ表現を、処理、合成、およびクライアント・コンピューティング・デバイス12のスピーカを通じて音声出力するために、無線ネットワーク14を通じてクライアント・コンピューティング・デバイス12に返送する。
【0039】
音声翻訳アプリは、オフライン・モードで動作させることもでき、オフライン・モードにおいてクライアント・コンピューティング・デバイス12は、バックエンド音声翻訳サーバ・システム16に接続せずに音声翻訳をローカルに実行する。さまざまな実施形態では、クライアント・コンピューティング・デバイス12のユーザは、ネットワーク接続が中断した状態でオフライン・システムが動作できるようにするために、無線ネットワーク14に接続しながら、選択した言語ペア(例えば、英語−スペイン語など)用のオフライン・アプリ・ソフトウェアをダウンロードする。図2A図2Bに、ユーザが所望の言語ペアを選択できるようにするアプリを使用するクライアント・コンピューティング・デバイス12上のユーザ・インターフェイスの表示例を示す。図に示されたユーザ・インターフェイスの例では、ユーザがユーザ・コントロールを通じてオンライン・モードまたはオフライン・モードを選択できることも示されている。例えば、図2Aでは、ユーザは、クラウドおよび/または「オンライン翻訳」の説明で示されているようにユーザ・コントロール40をオンラインに切り替えており、図2Bでは、ユーザは、クラウドを通る斜線および「オフライン翻訳」の説明で示されているようにユーザ・コントロール40をオフラインに切り替えている。図2A図2Bの例では、ユーザは、所望の言語ペアが、ハイライト表示された選択エリア46で第1の列および第2の列内の言語で示されて表示されるまで、第1の列42および第2の列44内の言語を(スクロール・ホイールのように)上下にスクロールできる。図2Aの例では、選択された言語ペアは、英語(インターナショナル・バージョン)およびスペイン語(メキシコ・バージョン)である。図2Bの例では、選択された言語ペアは、英語(インターナショナル・バージョン)およびスペイン語(スペイン・バージョン)である。
【0040】
オンライン・モードにおいて、ユーザは提供されている任意の言語ペアにアクセスできる。このことは、図2Aに示されるように、使用できる言語の色付きのアイコン(例えば、国旗)を2つの列42、44に表示することによって、ユーザに示されることが可能である。ユーザは、2つの列を上下にスクロールして、所望の言語ペアを選択エリア46内に表示することができる。さまざまな実施形態では、無線ネットワーク接続が使用できない場合(無線ネットワーク接続が、ユーザによってユーザ・コントロール40を通じてオフに切り替えられた場合、または下で説明されるように自動的にオフに切り替えられた場合など)、クライアント・コンピューティング・デバイス12上にすでにインストールされている言語ペアのみが使用可能になる。同様に、オフライン・モードで使用可能な言語は、図2Bに示されるように、インストールされている言語の色付きのアイコン(例えば、旗)を2つの列42、44に表示し、インストールされていない言語をすべてグレーで表示することによって、ユーザに示されることが可能である。
【0041】
図7は、さまざまな実施形態に記載のハイブリッド型オンライン/オフライン処理を示すフローチャートである。クライアント・コンピューティング・デバイス12は(例えば、それに付属するマイクロホンによって)、第1の言語の入力音声発話を工程70で取り込む。工程72でオンライン・モードが使用されている場合、工程74でクライアント・コンピューティング・デバイス12は入力音声発話に関するデータ(例えば、入力音声発話のサンプルまたは係数)を、無線ネットワーク14を通じてバックエンド音声翻訳サーバ・システム16に送信し、バックエンド音声翻訳サーバ・システム16は工程76で発話を第2の言語に翻訳する。工程77で、バックエンド音声翻訳サーバ・システム16は
無線ネットワーク14を通じて翻訳データをクライアント・コンピューティング・デバイス12に返送し、工程79で、クライアント・コンピューティング・デバイス12(例えば、それのスピーカ)は、入力発話の第2の言語による翻訳を音声出力できる。工程72でオフライン・モードが使用されている場合、工程78でクライアント・コンピューティング・デバイス12は、メモリに記憶されたダウンロード済みのオフライン音声翻訳ソフトウェアを実行して発話を第2の言語に翻訳し、その翻訳が工程79で出力される。
【0042】
図3は、さまざまな実施形態に記載のクライアント・コンピューティング・デバイス12のブロック図である。図3の例に示されるように、デバイス12は複数のプロセッサ202、204を備えることができる。ベースバンド・プロセッサ202は、任意の適切な通信技術(例えば、3G、4Gなど)に従って、移動体通信ネットワーク(例えば、携帯電話ネットワーク)を経由する通信を処理できる。ベースバンド・プロセッサ202は、専用のランダム・アクセス・メモリ(RAM:Random Access Memory)214を備えることができる。さまざまな実施形態では、ベースバンド・プロセッサ202はトランシーバ206と通信できる。その後、トランシーバ206は1つまたは複数のパワーアンプ208およびアンテナ210と通信できる。移動体通信ネットワークの発信信号は、ベースバンド・プロセッサ202によってベースバンドで処理され、トランシーバ206に供給されることが可能である。トランシーバ206および/またはベースバンド・プロセッサ206は、発信信号を搬送波周波数に変調できる。1つまたは複数のアンプ208は発信信号を増幅することができ、その後、発信信号はアンテナ210を通じて送信されることが可能である。移動体通信ネットワークの受信信号は、アンテナ210によって受信され、1つまたは複数のアンプ208によって増幅され、トランシーバ206に供給されることが可能である。トランシーバ206またはベースバンド・プロセッサ202のどちらかは、受信信号をベースバンドに復調できる。
【0043】
アプリケーション・プロセッサ204は、オペレーティング・システムおよび、本明細書に記載されたオフラインおよびオンラインの音声認識機能および/または翻訳機能を含むソフトウェア・アプリケーション(例えば、アプリストア18を通じてダウンロードされた)を実行できる。アプリケーション・プロセッサ204は、タッチスクリーン・インターフェイス232用のソフトウェアを実行することもできる。アプリケーション・プロセッサ204は、RAM212および不揮発性データ・ストレージ(例えば、ROM)216のアプリケーションと通信することもできる。RAM212は、特にプロセッサ204によって実行するために、アプリストア18を通じてダウンロードされたオフライン音声翻訳およびオンライン音声翻訳用のアプリケーション・ソフトウェアを、オフライン処理に必要な自動音声認識モジュール、機械翻訳モジュール、および音声合成モジュール、ならびにオンライン処理でバックエンド音声翻訳サーバ・システム16と通信するためのソフトウェアを含めて記憶できる。
【0044】
さらに、アプリケーション・プロセッサ204は、Wi−Fi/BLUETOOTH(登録商標)トランシーバ218の組み合わせなど、他のハードウェア・デバイスと通信することができる。Wi−Fi/BLUETOOTHトランシーバ218は、LANとの無線周波数(RF:Radio Frequency)通信(例えば、Wi−Fi規格または任意の適切な規格に従う)またはデバイス200と別の無線デバイスとの間のダイレクトRF通信(例えば、BLUETOOTH規格または任意の適切な規格に従う)を処理することができる。さまざまな実施形態では、デバイス200は、デバイス12の地理的位置を表す情報をアプリケーション・プロセッサ204に提供するために、衛星を利用したGPSシステムとGPSアンテナ223を通じて通信する、全地球測位システム(GPS:Global Positioning System)222を備えることもできる。タッチスクリーン232は、デバイス12の出力を視覚的形式でユーザに提供すること、およびユーザから入力を受け取ることの両方を行うことができる。入力は、ユーザによ
るスクリーンのタッチを表す信号の形式にすることができる。音声コーデック・モジュール224は、音声信号をデコーディングおよび再生するためのハードウェアおよび/またはソフトウェアを提供できる。一部の実施形態では、コーデック224はデジタル・アナログ変換器を備えることもできる。音声出力信号は、音声出力信号を再生するために、デバイスのスピーカ16、ならびに/もしくは一連のヘッドホンおよび/またはスピーカを接続できるジャック(図に示されていない)に供給されることが可能である。音声入力信号は、デバイスのマイクロホン18を通じて供給されることが可能である。デバイスは、デジタル・カメラ240を備えることもできる。
【0045】
特定の実施形態では、その他のさまざまなセンサが含まれることが可能である。磁気センサ226は、デバイスの近くの磁場を検出できる。例えば、磁気センサ226は、コンパスを実装するために、さまざまなアプリおよび/またはシステムの機能によって使用されることが可能である。加速度計228およびジャイロスコープ230は、デバイスの動きを表すデータを提供できる。例えば、加速度計228およびジャイロスコープ230からのデータは、タッチスクリーン232の表示の向き(例えば、縦長と横長)を定めるのに使用されることが可能である。デバイス200は、バッテリ234から電力を供給されることが可能であり、バッテリ234は電源管理集積回路(PMIC:Power Management Integrated Circuit)236によって管理されることが可能である。I/Oトランシーバ238は、例えばユニバーサル・シリアル・バス(USB:Universal Serial Bus)またはその他の適切な規格に従って、本デバイスとその他のデバイスとの間の有線通信を管理できる。コネクタ239は、有線接続を容易にすることができる。一部の実施形態では、コネクタ239およびI/Oトランシーバ238を通じた接続は、バッテリ234を充電するための電力を供給できる。
【0046】
前述したように、さまざまな実施形態では、ユーザは、図2Aおよび図2Bの例で示されたようにユーザ・コントロール40を操作することなどによって、オンライン・モードとオフライン・モードとの間で切り替えることができる。オンライン処理は、可能な場合、言語モデルにおいてオンライン処理よりも多くの語彙を提供するが、オンライン処理は、ユーザによって入力された発話のデータが無線ネットワーク14およびインターネットを通じて送信されないため、強化されたユーザ・プライバシーおよびユーザ・セキュリティを提供できる。翻訳アプリ・ソフトウェアは、さまざまな実施形態に記載の、クライアント・コンピューティング・デバイス12がオンライン・モードとオフライン・モードとの間で自動的に切り替えることを可能にすることもできる。例えば、ユーザは、無線ネットワーク14(例えば、適切なデータレート/接続速度でのネットワーク接続)が使用可能な場合にはオンライン動作モードが使用され、そうでない場合にはオフライン動作モードが使用されるように、アプリを設定できる。したがって、そのような実施形態では、図5のフローチャートの例に示されるように、クライアント・コンピューティング・デバイス14が無線通信モード(例えば、WiFi、または3Gや4Gなどの携帯電話ネットワーク)である場合(工程50)、クライアント・コンピューティング・デバイス12のプロセッサは、メモリに記憶されたアプリ・ソフトウェアを実行してWiFiネットワークのデータレート/接続速度をチェックすることができ(工程52)、データレート/接続速度がしきい値を上回っている場合はオンライン・モードが使用され(工程54)、そうでない場合はオフライン・モードが使用される(工程56)。このようにして、ユーザは自動化された継続的な翻訳機能を有し、オフライン・モードまたはオンライン・モードのどちらが使用されているかは、ユーザにとって透過的になる。クライアント・コンピューティング・デバイス12は、特定の時間にどのモードが使用されているかを(前述したクラウドおよびクラウド無しのアイコンなどを使用して)視覚的に表示することができる。
【0047】
その他の実施形態では、クライアント・コンピューティング・デバイス12のプロセッ
サは、メモリに記憶されたアプリ・ソフトウェアを実行し、コスト(例えば、ローミング料金が適用されている場合、またはネットワーク接続が存在しない場合はオフライン動作モードが使用され、そうでない場合はオンライン・モードが使用される)、品質(例えば、話者に固有のオフライン・モデルやドメインに依存しない一般的なオンライン・モデルを使用するなど、より適切な翻訳モデル、音響モデル、または言語モデル)、位置(例えば、GPSシステム222によって決定されるGPS座標に基づく)、プライバシー(例えば、セキュリティで保護された無線ネットワークが使用可能な場合にのみオンライン・モードを使用する)、および/または時間(例えば、指定された時間帯では指定されたモードを使用する)などの、その他の要因に基づいて、オンライン動作モードとオフライン動作モードとの間で自動的に切り替えることができる。さまざまな実施形態では、クライアント・コンピューティング・デバイス14のユーザは、設定することによってアプリを構成し、オンライン動作モードとオフライン動作モードとの間で自動的に遷移するために適用可能な条件を定めることができる。例えば、さまざまな実施形態では、ユーザは、常にオフライン・モードを使用すること(この場合、オンライン・モードは使用されない)、最も速いサービスを優先すること(この場合、無線ネットワークの接続速度がしきい値を超えた場合にのみオンライン・モードが使用される)、最も正確な翻訳(この場合、使用可能であれば必ずオンライン・モードが使用される)、コストを制限すること(この場合、例えば、ローミング料金が適用可され得る場合にオフライン・モードが使用される)を選択できる。そのようなユーザの選択は、プライバシー(データ転送)、品質(音声翻訳モデルのサイズおよび性能)、またはコスト(データ・ローミング)に関する考慮による影響を受ける可能性がある。
【0048】
ハイブリッド型オフライン/オンライン翻訳システムの別の態様は、オフライン・モードのクライアント・コンピューティング・デバイス12上で使用可能にされる言語ペアである。クライアント・コンピューティング・デバイス12のメモリ・サイズ制限により、使用可能なすべての言語ペアをクライアント・コンピューティング・デバイス12にダウンロードすることは、ほとんどの場合、現実的ではない。そのため、クライアント・コンピューティング・デバイス12のユーザは、ユーザが必要とする選択された言語ペアのみをクライアント・コンピューティング・デバイス12にダウンロードすることが望ましい。例えば、さまざまな実施形態では、ユーザはアプリストア18を通じて使用可能なオフライン言語ペアを選択または購入できる。さまざまな実施形態では、ユーザは複数の言語ペア(例えば、ヨーロッパ、東南アジアなどの地理的領域内の言語、またはスペイン語のメキシコ・バージョンやスペイン・バージョン、ポルトガル語のポルトガル・バージョンやブラジル・バージョンなどの同じ言語のバージョン)を含むパッケージを購入することができ、その場合、パッケージに含まれるすべての言語ペア用のソフトウェア・アプリをクライアント・コンピューティング・デバイス18にダウンロードできる。例えば、図4Aは、ユーザがさまざまな翻訳言語ペアの購入を選択できるスクリーンショットの例を示し、図4Bは翻訳言語ペアのパッケージ(この例では世界パッケージ)のスクリーンショットの例を示している。ユーザがある言語ペアをクライアント・コンピューティング・デバイスから同じメモリに対して削除したい場合、さまざまな実施形態では、ユーザは、その言語ペアおよびそれに対応するモデルを、利用可能性を失うことなく、削除することができる。つまり、ユーザは、後日、それらのモデルを再びダウンロードできる。
【0049】
一実施形態では、言語ペアをダウンロードするかどうかの選択はユーザに委ねられており、ユーザはオフライン翻訳用にクライアント・コンピューティング・デバイスにインストールされるペアを選択する。ユーザが選択された言語ペアのインストールをユーザが要求したが、十分なネットワーク接続が存在しなかった場合、クライアント・コンピューティング・デバイスはその要求を保存し、次にネットワーク接続が使用可能になったときに、そのペアをダウンロードするためのリマインダ・メッセージをユーザに発行する。リマインダ・メッセージは、選択された言語ペアのオフライン・バージョンをダウンロードす
るかどうかをユーザに尋ね、ユーザによって確認された場合に、ダウンロードを開始する。
【0050】
別の実施形態では、クライアント・コンピューティング・デバイス12自体が、ユーザ用のオフライン翻訳言語ペアを自動的に管理できる。例えば、クライアント・コンピューティング・デバイス12は、世界各国で使用されている言語に関するデータを管理することができ、ユーザの位置に関係するオフライン言語ペアを自動的にダウンロードできる。例えば、ユーザがスペインにいることをGPSシステム22が示している場合、スペイン語のスペイン・バージョンがダウンロードされることが可能になるなどである。また、オフライン言語ペアは、例えばユーザの(旅行などに関する)カレンダ・データ、またはユーザの興味もしくは世界の特定の地域に移動する飛行機を示すウェブ検索データに基づいて自動的にダウンロードされることが可能である。
【0051】
ユーザの位置(例えば、GPSデータに基づく)および/または興味(例えば、インターネット検索データおよび/または音声翻訳クエリに基づく)へのアクセスは、音声翻訳システムの言語の動作におけるカスタマイズも提供する。特定の単語、地名、および食品の種類が望ましい場合がある。特に名称(地名、人名)は、多かれ少なかれ位置に関係し、依存している可能性が高い(例えば、日本の場合は「カワサキ」、「ヤマモト」、スペインの場合は「マルチネス」、「ゴンザレス」など)。したがって、認識モデルおよび翻訳モデルのモデリング・パラメータ、最も重要なそれらの語彙および翻訳候補は、ユーザの位置および興味に基づいて調整されることが可能である。オンライン・モードにおいて、この調整は、確立された適応アルゴリズムを用いて、すべて使用中に動的に実行されることが可能である。ただし、オフライン・システムでは、モバイル・デバイスの効率性を実現するために、すべての単語が記憶されないようにする必要があり、メモリは節約されなければならない。したがって、さまざまな実施形態では、システムは、オフライン/組み込みシステムの場合でも、ネットワーク接続が使用可能な場合に、バックエンド音声翻訳システム16からカスタマイズされたパラメータ・モデルをダウンロードし、語彙の項目、言語モデル、および変更された確率的音響パラメータを入れ替えることができる。
【0052】
音声翻訳システムの最も多くのメモリを消費する側面は、通常、機械翻訳エンジンの翻訳テーブルと言語モデル、認識エンジンの音響モデルと言語モデル、および音声合成エンジンの音声パラメータによって与えられる。クライアント・コンピューティング・デバイス12に展開されるオフライン翻訳アプリのモデルのサイズを減らすために、モデルの種類に応じて異なる手法が使用されることが可能である。音響モデルや言語モデルなど、モデル・パラメータとして確率を含むモデルは、確率の値の範囲が連続的空間から固定数の値の点のみを含む離散的空間にマッピングされるように、確率の値の範囲を量子化することによって、縮小されることが可能である。量子化係数に応じて、ストレージの要件は、1バイトまたは数数ビットだけに縮小されることが可能である。翻訳テーブルや言語モデルなど、語句を記憶するモデルは、効率的に実装されたプレフィックス・ツリーなどの記憶手法を使用できる。さらに、メモリ・マッピング手法が使用されることが可能であり、この手法は、モデルの小さい部分のみを必要に応じて動的にRAM212/214に読み込み、不要な部分を不揮発性ストレージ216にそのまま残す。
【0053】
オフラインのクライアント・コンピューティング・デバイス上で実行するために、言語モデルおよび/または翻訳モデルを特定のサイズに縮小する別のより高度な手法は、語彙および単語のNグラムを削除するか、または追加情報を加えることによってベース・モデルを拡張する、特殊なトリミング/拡張ヒューリスティック手法を使用することである。削除は、リソースが制限されているにもかかわらずユーザの最も可能性の高い単語や言い回しが依然とし表現されるようにする日和見的(Opportunistic)方式で実行されることが可能であり、例えば、語彙をユーザ固有のサブセットのみに限定し、一般
的モデルのうち、この語彙によってカバーされる部分のみを選択すること、またはユーザ固有の情報をユーザのクエリから自動的に収集し、一般的モデルのうち、ユーザのクエリに密接に関連する部分を選択することによって実行されることが可能である。一方、拡張は、ユーザ固有の情報(例えば、ユーザの話し方に基づく)および/またはドメイン固有の情報(例えば、観光や人道支援での使用)および/または状況固有の情報(例えば、GPS位置に基づく)および/または、サーバ上の上記の固有の情報のいずれにも関連しない一般的な情報を選択し、この(差分)情報のみをサーバからデバイスに転送し、この情報をデバイスに記憶されたベース・モデルに適用することによって、実行されることが可能である。
【0054】
例えば、図6のフローチャートを参照すると、工程60では、バックエンド音声翻訳サーバ・システム16はユーザ・データを解析し、工程62で、例えば、ユーザによく使用される単語および言い回しを維持したまま、または、よく使用されるサーバ上の翻訳および言い回しを抽出し、それらをクライアント・コンピューティング・デバイスに記憶されたベース・モデルに適用したまま、滅多に使用されない単語または言い回しを削除するように、ユーザのオフライン言語モデルおよび/または翻訳テーブルを更新するかどうかを決定することができる。前述したように、バックエンド音声翻訳サーバ・システム16は、ユーザの翻訳クエリ(例えば、翻訳対象の言い回し)および/またはインターネット閲覧履歴を解析し、よく使用される(および、あまり使用されない)単語および言い回しを決定できる。そのため、さまざまな実施形態では、ユーザの翻訳クエリは、オフライン・モードにおいてクライアント・コンピューティング・デバイス12によって保存および記憶され、バックエンド音声翻訳サーバ・システム16によって解析されることを可能にするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム16にアップロードされることが可能である。同様に、ユーザのインターネット閲覧履歴(例えば、クッキー・データ)は、バックエンド音声翻訳サーバ・システム16によって解析され、ユーザによく使用される(および、あまり使用されない)単語および言い回しを決定できるようにするために、ネットワークへの接続中にバックエンド音声翻訳サーバ・システム16にアップロードされることが可能である。バックエンド音声翻訳サーバ・システム16が、ユーザ・データの解析によって、クライアント・コンピューティング・デバイスのオフライン処理ソフトウェアの言語モデルおよび/または翻訳テーブルを更新することを決定した場合、更新されるソフトウェア(例えば、モデル)は、工程64で(例えば、バックエンド音声翻訳サーバ・システム16から)クライアント・コンピューティング・デバイスにダウンロードされる。すべてのモデルをダウンロードするのではなく、クライアント・コンピューティング・デバイス上のモデルを更新するのに必要な(差分)情報のみをダウンロードすることもできる。
【0055】
同様に、例えばより一般的な音響モデルをより小さいユーザ固有の音響モデルに置き換えることによって、ユーザ固有の情報が音響モデルのサイズの縮小に役立つ場合もある。これは、ユーザ固有のデータの量に応じて、例えばMLLRなどの音響モデル適応技術を使用したり、新しい追加データを使用して音響モデルを完全に再トレーニングしたりすることによって実現できる。したがって、例えば、再び図6を参照すると、工程66でバックエンド音声翻訳サーバ・システム16が、ユーザ・データの解析に基づいてユーザのクライアント・コンピューティング・デバイス12のオフライン・モードの音響モデルを変更することを決定した場合、更新されるソフトウェア(例えば、音響モデル)は、工程68でクライアント・コンピューティング・デバイスに(例えば、バックエンド音声翻訳サーバ・システム16から)ダウンロードされる。
【0056】
音声間翻訳システムにおいて、最も速度を制限する要素は、音声信号の多くの音響の仮説および多くのタイム・スライスに対して検索を実行する音声認識アルゴリズムである。アルゴリズムの検索速度は、主に設定された音響モデルのサイズに左右される。クライア
ント・コンピューティング・デバイス12上で音声間翻訳を実行する際のオフライン・システムの速度を維持するために、いくつかの手法が使用されることが可能である。例えば、一実施形態では、モデルと入力音声との間のマハラノビス距離を計算するために、必要に応じてこの距離を計算するのではなく、モデルのサイズに応じてルックアップ・テーブルが使用されることが可能である。さらに、オフライン・モードにおいて、評価される必要のあるモデル・パラメータ全体の量を減らすために、ガウス選択手法が使用されることが可能である。図6に関連して前述したように、ユーザ固有の情報が使用可能になるとすぐに、より小さくより効率的なユーザ固有のモデルが代わりに使用されることが可能になる。
【0057】
さらに、さまざまな実施形態では、バックエンド音声翻訳システム16は、オンライン・モード時に複数の音声認識エンジン(モジュール)および翻訳エンジン(モジュール)を使用し、組み合わせることができる。これらのバックエンドのエンジンは、例えば、同じ音声翻訳プロバイダによって提供されて同じサーバ上で実行されることが可能であり、または、他の実施形態では、3つの別々の独立したバックエンド音声翻訳システム16を表した図8の例に示されるように、独立した音声翻訳プロバイダによってさまざまな位置で提供されることが可能である(ただし、他の実施形態では、さらに少ないか多いバックエンド音声翻訳システム16が使用されることが可能である)。このような実施形態では、各バックエンド音声翻訳システム16は、同時に翻訳を実行するようにインターネット15を通じて要求されることが可能である。そのような実施形態では、各バックエンド音声翻訳システム16が(例えば、インターネット15を通じて)通信し、バックエンド音声翻訳システム16のうちの1つが、各翻訳からより優れた翻訳を選択するか、各翻訳を結合する。複数のシステム/翻訳から決定するために、かつ/または組み合わせ内のどのシステムにどの程度重みを付けるかについて決定するために、ASRにおける信頼性基準およびMTの信頼性基準が使用されることが可能である。これらの信頼性基準は、ASRの仮説またはMTの仮説の信頼性の決定に使用される。このような実施形態で、2つ以上のASRエンジンまたはMTエンジンが併合される場合、ASR出力を組み合わせる「ROVER」手法(例えば、ジェー.ジー.フィスカス、自動音声認識および理解に関するIEEEワークショップ、pp.347〜354、1997年、「単語誤り率を低減するための後処理システム:誤り低減を決定する認識装置出力(ROVER)」(G.Fiscus,“A post−processing system to yield reduced error word rates:Recognizer output voting error reduction(ROVER),”IEEE Workshop on Automatic Speech Recognition and Understanding,pp.347−354,1997)を参照)、1つのシステムのその他のシステムへの交差適応、またはMTシステムの組み合わせ技術(例えば、ロッシ他、NAACL HLTのプロシーディング、pp.228〜235、2007年、「複数の機械翻訳システムからの出力の結合」(Rosti et al,”Combining Outputs from Multiple Machine Translation Systems,”Proc.of NAACL HLT,pp.228−235,2007)およびケイ.ハーフィールド他、数理言語学のプラハ会報、第93号、pp.27〜36、2010年、「機械翻訳出力とオープン・ソースの結合」(K.Heafield et al.,“Combining Machine Translation Output with Open Source,”Prague Bulletin of Mathematical Linguistics,No.93,pp.27−36,2010)を参照)など、システムの組み合わせが使用されることが可能である。このような実施形態では、選択されて組み合わされた仮説は、バックエンドで競い合い、ユーザにとって最適な出力を生成できる。これがオンライン・モードで実行されると、システムは、この方法で達成された最適な選択を、オフライン・システムに導入するために記憶する。結合されたオンライン・システム16は、オフライ
ン・システムの学習用に、複数のASRエンジンの認識の仮説および/または複数のMTエンジンの翻訳の仮説をメモリに保持し、これらの仮説の組み合わせ、またはこれらの仮説のうちのより優れた仮説を使用して、新しいオフライン・システムを適応またはトレーニングする。このように再トレーニングまたは適応されたシステムは、その後、無線ネットワークが使用可能になったときに、オフライン・システムと交換されることが可能である。
【0058】
したがって、一般的な1つの態様では、本発明は、ハイブリッド型オフライン/オンライン音声翻訳用の音声翻訳システムおよび音声翻訳方法を対象にする。さまざまな実施形態では、システムは、バックエンド音声翻訳サーバ・システムと、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムと通信するように構成されたクライアント・コンピューティング・デバイスとを備えることができる。クライアント・コンピューティング・デバイスは、マイクロホンと、マイクロホンに接続されたプロセッサと、プロセッサに接続され、プロセッサによって実行される命令を記憶するメモリと、プロセッサに接続されたスピーカとを備えることができる。クライアント・コンピューティング・デバイスは、第1の言語から第2の言語に翻訳するための入力語句(例えば、音声発話または入力テキスト)の翻訳を、例えばスピーカまたはテキスト表示フィールドを通じて出力するためのものである。メモリは命令を記憶し、第1の動作モード(オフライン・モード)において、プロセッサが命令を実行した場合、プロセッサは入力語句を第2の言語に翻訳して(例えば、スピーカを通じて)出力する。第2の動作モード(オンライン・モード)において、(i)クライアント・コンピューティング・デバイスは、マイクロホンが受信した第1の言語の入力語句に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信し、(ii)バックエンド音声翻訳サーバ・システムは、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による入力語句の第2の言語への翻訳を決定し、(iii)バックエンド音声翻訳システムは、第1の言語による入力語句の第2の言語への翻訳に関するデータを無線ネットワークを通じてクライアント・コンピューティング・デバイスに送信し、クライアント・コンピューティング・デバイスは第1の言語による音声発話の第2の言語への翻訳を出力する。
【0059】
さまざまな実装では、クライアント・コンピューティング・デバイスは、ユーザが第1の動作モードと第2の動作モードとの間で切り替えることができるようにするユーザ・インターフェイスを備える。あるいは、クライアント・コンピューティング・デバイスは、第1の動作モードまたは第2の動作モードのどちらを使用するかを、クライアント・コンピューティング・デバイスのユーザのユーザプリファレンス設定に基づいて自動的に選択する。さらに、クライアント・コンピューティング・デバイスは、第1の動作モードにおいて、第1の言語による音声発話を認識し、認識した音声発話を第2の言語に翻訳し、スピーカを通じて出力するために、ローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルをメモリに記憶できる。また、バックエンド音声翻訳サーバ・システムは、第2の動作モードにおいて、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による音声発話の第2の言語への翻訳を決定するために、バックエンド音響モデル、バックエンド言語モデル、バックエンド翻訳モデル、およびバックエンド音声合成モデルを備える。ローカル・モデルは、バックエンド・モデルとは異なる(例えば、サブセットまたはその他の変形)。
【0060】
さらに、バックエンド音声翻訳サーバ・システムは、(i)第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話を経時的に監視し、(ii)クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうち
の少なくとも1つを、第1の言語から第2の言語に翻訳するためにクライアント・コンピューティング・デバイスが受信した音声発話の経時的な監視に基づいて更新するようにプログラムされることが可能である。クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスの位置を決定するためのGPSシステムを備えることもできる。そのような実施形態では、バックエンド音声翻訳サーバ・システムは、クライアント・コンピューティング・デバイスのローカル音響モデル、ローカル言語モデル、ローカル翻訳モデル、およびローカル音声合成モデルのうちの少なくとも1つを、クライアント・コンピューティング・デバイスの位置に基づいて更新するようにプログラムされることも可能である。クライアント・コンピューティング・デバイスのモデルのうちの少なくとも1つに対するそのような任意の更新は、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムからクライアント・コンピューティング・デバイスに送信されることが可能である。
【0061】
さらに、クライアント・コンピューティング・デバイスは、第1の言語および第2の言語を含む言語翻訳ペア用のアプリケーション・ソフトウェア(モデルを含む)を、特にクライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、ダウンロードするように構成されることが可能である。また、クライアント・コンピューティング・デバイスがGPSシステムを備える実施形態では、クライアント・コンピューティング・デバイスは、クライアント・コンピューティング・デバイスとバックエンド音声翻訳サーバ・システムとの間の適切な接続が無線ネットワークを通じて使用可能である場合に、クライアント・コンピューティング・デバイスの決定された位置に基づいて言語翻訳ペア用のアプリケーション・ソフトウェアをダウンロードするように構成されることが可能である。
【0062】
さらに、クライアント・コンピューティング・デバイスは、第1の言語表示セクションおよび第2の言語表示セクションが同時に表示されるグラフィカル・ユーザ・インターフェイスを備えることができる。第1の言語表示セクションおよび第2の言語表示セクションの各々は、ユーザがアクセスできる複数の言語のリスト表示を備えることができ、クライアント・コンピューティング・デバイスのユーザが第1の言語表示セクションのリスト表示から第1の言語を選択し、第2の言語表示セクションから第2の言語を選択すると、それによってクライアント・コンピューティング・デバイスは、入力音声発話を第1の言語から第2の言語に翻訳するように構成される。第1の(オフライン)動作モードにおいて使用できる言語は、第1の言語表示セクションおよび第2の言語表示セクションにおいて、第1の動作モードにおいて使用できない言語とは異なるように示される。
【0063】
さらに、さまざまな実施形態では、バックエンド音声翻訳サーバ・システムは、複数のバックエンド音声翻訳サーバ・システムのうちの1つであり、クライアント・コンピューティング・デバイスは、無線ネットワークを通じて複数のバックエンド音声翻訳サーバ・システムの各々と通信するように構成される。第2の(オンライン)動作モードにおいて、複数のバックエンド音声翻訳サーバ・システムの各々は、無線ネットワークを通じてクライアント・コンピューティング・デバイスから受信したデータに基づいて、第1の言語による入力語句の第2の言語への翻訳を決定する。そのような環境では、複数のバックエンド音声翻訳サーバ・システムのうちの1つが、クライアント・コンピューティング・デバイスに送信するために複数のバックエンド音声翻訳サーバ・システムからの翻訳のうちの1つを選択するか、または複数のバックエンド音声翻訳サーバ・システムからの翻訳の2つ以上が併合されて、クライアント・コンピューティング・デバイスに送信するための併合された翻訳が生成される。
【0064】
一般的な1つの態様では、音声翻訳方法は、第1の(オフライン)動作モードにおいて、(i)クライアント・コンピューティング・デバイスが第1の言語による第1の入力語
句を受信する工程と、(ii)クライアント・コンピューティング・デバイスが第1の入力語句を第2の言語に翻訳する工程と、(iii)クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を(例えば、スピーカを通じて音声によって、かつ/またはテキスト表示フィールドを通じて視覚的に)出力する工程とを備える。さらに音声翻訳方法は、クライアント・コンピューティング・デバイスが第1の動作モードから第2の動作モードに遷移する工程を備え、第2の(オンライン)動作モードにおいて、(iv)クライアント・コンピューティング・デバイスが第1の言語による第2の入力語句を受信する工程と、(v)クライアント・コンピューティング・デバイスが第2の入力語句に関するデータを無線ネットワークを通じてバックエンド音声翻訳サーバ・システムに送信する工程と、(vi)クライアント・コンピューティング・デバイスが、バックエンド音声翻訳サーバ・システムによる第1の言語から第2の言語への第2の入力語句の翻訳に関するデータを、無線ネットワークを通じてバックエンド音声翻訳サーバ・システムから受信する工程と、クライアント・コンピューティング・デバイスが第2の言語による第1の音声発話を出力する工程とを備える。
【0065】
当業者にとっては、本明細書に記載された実施形態の少なくとも一部が、ソフトウェア、ファームウェア、および/またはハードウェアの多くのさまざまな実施形態で実装されることが可能であることは明らかである。ソフトウェアおよびファームウェア・コードは、プロセッサ回路またはその他の任意の同様のコンピューティング・デバイスによって実行されることが可能である。実施形態の実装に使用されることが可能なソフトウェア・コードまたは特殊な制御ハードウェアは、限定されない。例えば、本明細書に記載された実施形態は、従来技術やオブジェクト指向技術などを使用する任意の種類の適切なコンピュータ・ソフトウェア言語を使用して、コンピュータ・ソフトウェアで実装されることが可能である。それらのソフトウェアは、任意の種類の適切なコンピュータ可読媒体(例えば、磁気ストレージ媒体や光ストレージ媒体)に記憶されることが可能である。実施形態の操作および動作は、特定のソフトウェア・コードまたは特殊なハードウェア・構成要素への特定の参照を含まずに記載されることが可能である。当業者であれば、妥当な範囲を超える努力や過度の実験を行わずに、本明細書の記載内容に基づいてソフトウェアを設計し、ハードウェアを制御して、実施形態を実装できるであろうということが明確に理解されるため、そのような特定の参照がないことは適切である。
【0066】
さらに、本実施形態に関連する処理は、コンピュータまたはコンピュータ・システム、モバイル・デバイス、スマートフォン、および/またはプロセッサなどのプログラム可能な機器によって実行されることが可能である。プログラム可能な機器で処理を実行できるようにするソフトウェアは、コンピュータ・システムの(不揮発性)メモリ、RAM、ROM、フラッシュ・メモリなどの任意のストレージ・デバイスに記憶されることが可能である。さらに、処理の少なくとも一部は、コンピュータ・システムが製造されるとき、または各種のコンピュータ可読媒体に記憶されるときに、プログラムされることが可能である。
【0067】
「コンピュータ」、「コンピュータ・システム」、「ホスト」、「サーバ」、「プロセッサ」は、例えば、プロセッサ、マイクロコンピュータ、ミニコンピュータ、サーバ、メインフレーム、ラップトップ、携帯情報端末(PDA:Personal Data Assistant)、無線電子メール・デバイス、携帯電話機、スマートフォン、タブレット、モバイル・デバイス、ポケットベル、プロセッサ、ファクス、スキャナ、またはネットワークを経由してデータを送信および/または受信するように構成されたその他の任意のプログラム可能なデバイスにすることができるが、これらに限定されない。本明細書で開示されたコンピュータ・システムおよびコンピュータベース・デバイスは、情報の取得、処理、および通信に使用される特定のソフトウェア・モジュールまたはソフトウェア・エンジンを記憶するために、メモリを含むことができる。そのようなメモリは、開示さ
れた実施形態の動作に対して内部または外部に存在できると理解されることが可能である。メモリは、ハード・ディスク、光ディスク、フロッピー(登録商標)(登録商標)ディスク、ROM(読み取り専用メモリ)、RAM(ランダム・アクセス・メモリ)、PROM(プログラマブルROM)、EEPROM(電気的消去可能PROM)、および/またはその他のコンピュータ可読媒体を含む、ソフトウェアを記憶するための任意の手段も含み得る。本明細書に記載されたソフトウェア・モジュールおよびソフトウェア・エンジンは、モジュールを記憶するメモリにアクセスするコンピュータ・デバイスの1つのプロセッサ(または、場合によっては複数のプロセッサ)によって実行されることが可能である。
【0068】
本明細書で開示されたさまざまな実施形態において、特定の機能を実行するために、単一の構成要素が複数の構成要素に置き換えられることが可能であり、複数の構成要素が単一の構成要素に置き換えられることが可能である。そのような置き換えが有効でない場合を除き、そのような置き換えは実施形態の意図された範囲に含まれる。本明細書に記載された任意のサーバは、例えば、連携機能用に展開および構成された「サーバ・ファーム」またはその他のネットワーク・サーバのグループ(サーバ・ブレードなど)に置き換えられることが可能である。サーバ・ファームは、ファームの個々の構成要素間で、個々の構成要素にわたって作業負荷を分散し、複数のサーバが連携する全体的能力を利用して計算処理を速める働きをすると理解されることが可能である。そのようなサーバ・ファームは、例えば、異なるマシンからの処理能力に対する要求の追跡、ネットワーク要求に基づくタスクの優先順位付けとスケジューリング、および/または構成要素障害の発生時または操作性の低下時の緊急バックアップの提供などのタスクを実行する、負荷バランシング・ソフトウェアを使用できる。
【0069】
本明細書にはさまざまな実施形態が記載されているが、当業者が少なくとも一部の利点を実現する際に、それらの実施形態に対するさまざまな修正、変更、および適応が発生する可能性があることは明らかである。したがって、開示された実施形態は、本明細書に記載された実施形態の範囲から逸脱することなく、そのような修正、変更、および適応をすべて含むよう意図されている。
図1
図2A
図2B
図3
図4A
図4B
図5
図6
図7
図8