【新規性喪失の例外の表示】特許法第30条第2項適用 平成27年12月10日付けで、株式会社リクルートライフスタイルがウェブサイト(http://hirothings.hatenablog.jp/entry/2016/02/20/193659 http://onthehammock.com/blog/2091)記載の手順を利用して、井村優基が発明したプログラムに関するアプリケーションソフトを公開した。
【文献】
福島 拓 外2名,共通言語を用いた対面型会議における非母語話者支援システムPaneLiveの構築,電子情報通信学会論文誌(J92−D),日本,社団法人電子情報通信学会,2009年6月1日,第J92−D巻第6号,p.719−728
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、かかる翻訳技術は急速に進展しているものの、発話された内容や言い回しによっては、ソース言語(話者が発話した元の言語)による発話内容とは意味が異なる翻訳結果が得られてしまうことがある。このような精度が低い翻訳や誤訳が生じると、話者間の相互理解が困難になってしまい、円滑なコミュニケーションを妨げたり、或いは、話者間で思い違いが発生したりするおそれがある。
【0006】
そこで、従来の音声翻訳アプリケーションソフト等では、対話者に翻訳結果を伝達する前に、その翻訳結果をソース言語に逆翻訳(折り返し翻訳とも呼ばれる)し、(1)ソース言語による発話内容、(2)他言語による翻訳結果、及び、(3)その逆翻訳結果を、表示デバイス上の一画面に並べてテキスト表示している(例えば非特許文献1における画面表示参照)。話者は、(1)のソース言語による発話内容と(3)の逆翻訳結果との一致度から、(2)の翻訳結果の当否を判断し、翻訳精度が低い又は誤訳である場合、ソース言語による発話をやり直すことができる。
【0007】
しかし、この場合、同一の言語によるテキストが一画面に並んで表示されるので、それらを視認する話者としては、両方の内容が如何なる意味合いを有するのか、即座に判断し難いことがある。また、話者が、(3)の逆翻訳結果の表示を特に必要としていない場合であっても、それが表示されてしまうため、画面表示が紛雑になって視認性が低下したり、或いは、話者がその逆翻訳結果の表示自体に違和感を覚えたりしてしまう。特に、(1)のソース言語による発話内容と(3)の逆翻訳結果が一致又は類似している場合には、それらの傾向が顕著となる。また、発話の都度、(3)の逆翻訳結果の内容の当否を判断することになるので、会話の円滑な進行が妨げられたり、操作性が低下したりしてしまうといった問題もある。
【0008】
そこで、本発明は、かかる事情に鑑みてなされたものであり、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明の一態様による音声翻訳装置は、話者のソース言語による音声を入力するための入力部と、入力音声の内容をソース言語とは異なる他言語の内容に翻訳する翻訳部と、他言語による翻訳結果をソース言語の内容に逆翻訳する逆翻訳部と、入力音声の内容と他言語による翻訳結果を表示する表示部を備える。そして、当該音声翻訳装置では、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示するように構成されている。
【0010】
より具体的には、表示部は、話者の指示を入力するための逆翻訳ボタンを表示し、逆翻訳部が、その逆翻訳ボタンによる話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示するようにしてもよい。
【0011】
また、入力音声の内容を記憶する記憶部を更に備え、表示部は、話者が、(他言語による)翻訳結果が誤りであることを翻訳部に通知するための通知ボタンを表示し、記憶部が、その通知ボタンによる話者からの通知があった場合に、その翻訳結果が誤りであることを、入力音声の内容に関連付けて記憶するように構成することもできる。
【0012】
また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、逆翻訳部、及び表示部を備える本発明の音声翻訳装置を用いる方法である。すなわち、当該方法は、入力部が、話者のソース言語による音声を入力するステップと、翻訳部が、入力音声の内容をソース言語とは異なる他言語の内容に翻訳するステップと、逆翻訳部が、その他言語による翻訳結果をソース言語の内容に逆翻訳するステップと、表示部が、入力音声の内容と他言語による翻訳結果を表示するステップとを含む。そして、逆翻訳するステップにおいては、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示する。
【0013】
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、話者のソース言語による音声を入力するための入力部と、入力音声の内容をソース言語とは異なる他言語の内容に翻訳する翻訳部と、他言語による翻訳結果をソース言語の内容に逆翻訳する逆翻訳部と、入力音声の内容と他言語による翻訳結果を表示する表示部として機能させる。そして、当該音声翻訳プログラムは、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を行うように、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を出力するように、コンピュータを制御する。
【発明の効果】
【0014】
本発明によれば、話者のソース言語による入力音声の内容を異なる他言語の内容に翻訳し、話者の指示があった場合にのみ、その他言語による翻訳結果をソース言語の内容に逆翻訳(折り返し翻訳)する、又は、そのソース言語による逆翻訳結果を表示する。よって、話者の指示の有無に拘わらず、他言語による翻訳結果をソース言語に逆翻訳し、かつ、その逆翻訳結果を、当初の入力音声の内容とともに表示する従来に比して、逆翻訳結果を、当初の入力音声の内容から区別して識別し易くなる。また、かかる従来に比して、画面表示が自然で簡潔となり、その視認性が向上する。さらに、話者は、発話の都度、逆翻訳結果の内容の当否を判断する必要がなく、必要と感じたときに、逆翻訳結果を表示することができるので、会話の円滑な進行が妨げられたり、操作性が低下したりといった不都合が解消される。すなわち、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることが可能となる。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
【0017】
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、話者が使用する情報端末10にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
【0018】
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
【0019】
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
【0020】
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
【0021】
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
【0022】
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
【0023】
表示デバイス16は、画像表示インターフェイスとして各種の情報を話者に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
【0024】
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
【0025】
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
【0026】
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ等も記憶されている。
【0027】
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
【0028】
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と他言語の音声翻訳の場合、日本語音声コーパス、各他言語音声コーパス、日本語文字(語彙)コーパス、各他言語文字(語彙)コーパス、日本語辞書、各他言語辞書、日本語/各他言語対訳辞書、日本語/各他言語対訳コーパス等)、音声データベース、話者(当該音声翻訳アプリケーションのユーザ等)に関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
【0029】
(音声翻訳処理)
以上のとおり構成された音声翻訳装置100における音声翻訳処理の操作及び動作の一例について、以下に説明する。
図2は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、
図3(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、ここでは、会話を行う話者が、日本語(ソース言語)を話す店員(店舗の従業員)と英語(他言語)を話す外国人の客である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
【0030】
まず、店員が当該音声翻訳アプリケーションを起動する(ステップSU1)と、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、情報端末10の表示デバイス16に、客の言語を選択するための言語選択画面が表示される(
図3(A);ステップSJ1)。この言語選択画面には、客に言語を尋ねることを店員に促すための日本語のテキストT1、客に言語を尋ねる旨の英語のテキストT2、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン31が表示される。さらにその下方には、言語選択画面を閉じて音声翻訳アプリケーションを終了するためのキャンセルボタンB1も表示される。
【0031】
このとき、日本語のテキストT1及び英語のテキストT2は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、店員と客が対面している状態で会話を行う場合、店員は日本語のテキストT1を確認し易い一方、客は、英語のテキストT2を確認し易くなる。また、日本語のテキストT1と英語のテキストT2が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。
【0032】
客の言語が選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と英語の音声入力待機画面が表示デバイス16に表示される(
図3(B);ステップSJ2)。この音声入力待機画面には、店員と客の言語の何れを発話するかを問う日本語のテキストT3、並びに、日本語の音声入力を行うための入力ボタン32a及び英語の音声入力を行うための入力ボタン32bが表示される。
【0033】
また、この音声入力待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン33、対話者の言語を手動で選択するための言語選択ボタン34、それまでになされた音声入力内容の履歴表示を選択するための履歴ボタン35、予め用意された複数の定型フレーズ(推奨フレーズ)群のなかから所望の定型フレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン36、及び当該音声翻訳アプリケーションソフトの各種設定を行うための設定ボタン37も表示される。
【0034】
次に、
図3(B)に示す音声入力待機画面において、店員が日本語の入力ボタン32aをタップして日本語の音声入力を選択すると、店員の日本語による発話内容を受け付ける音声入力画面となる(
図3(C))。この音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、店員の音声入力を促すテキストT2、音声入力状態にあることを示すマイク図案38、及びテキスト入力へ切り替えるための入力切替ボタンB2が表示される。さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、会話を終了するか、音声入力待機画面(
図3(B))へ戻って音声入力をやり直すことができる。
【0035】
この状態で、店員が客への伝達事項等(例えば「申し訳ございません。満席ですのでこちらで少々おまちください。」といったフレーズ)を発話する(ステップSU2)と、テキストT2とともに、その声量の大小を模式的に且つ動的に表す多重円形図案39が表示され、音声入力レベルが話者へ視覚的にフィードバックされる。それから、発話が終了してマイク図案38がタップされると、プロセッサ11は、発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
【0036】
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23に(必要に応じて適宜のデータベースに)記憶する。
【0037】
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日本語/英語対訳辞書、日本語/英語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英語の文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、入力音声の内容をソース言語(日本語)とは異なる他言語(英語)の内容に翻訳する「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの日本語及び英語の句、節、文等を、記憶資源23に記憶しておくこともできる。
【0038】
また、この翻訳処理中に、プロセッサ21は、入力音声の認識結果(入力音声の内容)を、情報端末10に送信し、プロセッサ11は、その認識結果を、
図3(D)に示す翻訳処理中画面に、日本語のテキストT5として表示する。なお、このテキスト5としては、入力音声の認識結果をそのまま表示してもよいし、予め記憶資源23に記憶されている日本語の会話コーパスのなかから、実際の入力音声の内容に対応するものを呼び出して表示してもよい。また、この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストT6、及び、処理中であることを表すため円弧の一部が回動するように表示される環状図案40も表示される(ここまでステップSJ3)。
【0039】
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
【0040】
次いで、プロセッサ21は、英語による翻訳結果(対応する英語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、情報端末10へ送信する。そのテキスト信号を受信したプロセッサ11は、
図3(D)の翻訳中画面に表示した日本語のテキストT5と、その英語による翻訳結果(対訳)のテキストT6を、
図4(A)に示す翻訳結果表示画面に表示する。また、この翻訳結果表示画面には、テキストT5で示す内容が客に伝わることを説明するための日本語のテキストT7も表示される。このとおり、プロセッサ11,21及び表示デバイス16が、「表示部」として機能する。
【0041】
また、この翻訳結果表示画面には、話者が操作可能な各種ボタンが表示される。すなわち、テキストT5,T6の間の画面領域には、
図3(B)のホーム画面へ戻るためのチェックボタンB3、及び、英語による翻訳結果のテキストT6の内容を日本語に逆翻訳するための逆翻訳ボタンB4が表示される。さらに、この翻訳結果表示画面には、翻訳結果の誤りを報告するための誤訳通知ボタンB5、対訳のテキストT6の内容を再生するための音声出力ボタンB6、及び、
図3(C)の音声入力画面に戻って発話をやり直すための再入力ボタンB7も表示される(ここまでステップSJ5)。
【0042】
ここで、話者が各種ボタンのタップ操作を行う(ステップSU3)と、情報端末10のプロセッサ11からボタン操作信号を受信したプロセッサ21が、選択された操作の内容(1)〜(4)を判断し(ステップSJ6)、それぞれに対応した処理を行う。
【0043】
(1)逆翻訳
すなわち、店員が逆翻訳ボタンB4をタップ(ステップSU3;話者の指示)すると、情報端末10のプロセッサ11からその選択信号を受信したプロセッサ21は、上述した多言語翻訳処理により、英語による翻訳結果のテキストT6の内容を日本語に逆翻訳し、その日本語による逆翻訳結果のテキストT8を、入力音声の内容のテキストT5とともに、
図4(B)に示す逆翻訳結果表示画面に表示する(ステップSJ10)。このとおり、プロセッサ21は、他言語(英語)による翻訳結果をソース言語(日本語)の内容に逆翻訳する「逆翻訳部」としても機能する。なお、この逆翻訳結果表示画面には、
図4(A)に示す翻訳結果表示画面を再表示するための戻るボタンB8も表示され、逆翻訳結果を確認した店員がそれをタップすることにより、ステップSU3の各種ボタンのタップ操作に戻ることができる。
【0044】
(2)誤訳通知
また、そのようにして日本語の逆翻訳結果を確認して、英語の翻訳結果の精度が不十分又は誤訳であると判断した店員は、誤訳通知ボタンB5をタップ(ステップSU3;話者からの通知)することにより、その旨をサーバ20に報告することができる。この場合、プロセッサ21は、その英語の翻訳結果が誤りであることを、先に記憶資源23に記憶しておいた入力音声の内容に関連付けて記憶する(ステップSJ20)。それから、店員はステップSU3の各種ボタンのタップ操作を続けることができる。
【0045】
(3)音声出力
また、そのようにして日本語の逆翻訳結果を確認して、英語の翻訳結果が正確又は妥当であると判断した店員は、音声出力ボタンB6をタップ(ステップSU3)することにより、英語による翻訳結果のテキストT5の内容を再生することができる。この場合、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末10へ送信する。その音声信号を受信したプロセッサ11は、音声入出力デバイス13を用いて、テキストT5の内容の音声を出力する(読み上げる)(ステップSJ30)。それから、店員は、チェックボタンB3をタップして、
図3(B)のホーム画面へ戻り、必要に応じて客の発話(ステップSU2)に処理を移行することができる。
【0046】
(4)再入力
また、逆翻訳結果を確認することなく、或いは、確認した後、店員は、再入力ボタンB7をタップ(ステップSU3)することにより、
図3(C)の音声入力画面に戻って発話をやり直すこともできる(ステップSU2)。以上のようにして、店員と客は、会話を進めることができ、会話が終了した後、店員は、当該音声翻訳アプリケーションを適宜終了することができる。
【0047】
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、例えば翻訳結果表示画面(
図4(A))に逆翻訳ボタンB4を表示する。そして、それがタップ操作された場合(話者の指示があった場合)にのみ、話者の日本語(ソース言語)による入力音声の英語(他言語)の翻訳結果を、日本語(ソース言語)の内容に逆翻訳する。よって、従来の如く、話者の指示の有無に拘わらず、
図4(B)に示すような翻訳結果と逆翻訳結果のテキストを表示する場合に比して、逆翻訳結果を、当初の入力音声の内容から区別して識別し易くなる。
【0048】
また、かかる従来に比して、
図4(A)及び
図4(B)に示すとおり、画面表示が自然で簡潔となり、その視認性が向上する。さらに、話者は、発話の都度、逆翻訳結果の内容の当否を判断する必要がなく、必要と感じたときに、逆翻訳結果を表示することができるので、会話の円滑な進行が妨げられたり、操作性が低下したりといった不都合が解消される。すなわち、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることが可能となる。換言すれば、本発明によれば、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることができる。
【0049】
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
【0050】
また、
図2に示すフローの例えばステップSJ3において、ステップSJ10の逆翻訳処理を予め行っておき、逆翻訳ボタンB4がタップされた場合、ステップSJ10においては逆翻訳結果の表示のみ行ってもよい。すなわち、この場合、逆翻訳処理を事前に行っておき、話者の指示があった場合にのみ、プロセッサ11,21及び表示デバイス16(表示部)が逆翻訳結果を表示する。さらに、
図2に示すフローのステップSJ3,SJ5間で音声合成処理(ステップSJ4)を行わず、ステップSU3において音声出力ボタンB6がタップされた場合に、ステップSJ30において音声合成処理(ステップSJ4)を行ってもよい。
【0051】
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。