【解決手段】本発明の一態様による音声翻訳装置は、ユーザ及び/又は対話者の音声を入力するための入力部と、1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、それらの複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部を備える。これにより、対話者の使用言語が不明であっても、会話の切っ掛け(契機)を得て、会話を自然に開始しかつ円滑に進めることができ、ユーザの心理的な負担を軽減することが可能となる。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
【0015】
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
【0016】
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
【0017】
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
【0018】
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
【0019】
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
【0020】
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
【0021】
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや対話者(会話の相手方)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
【0022】
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
【0023】
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
【0024】
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、各言語の選択頻度(又は選択回数)等も記憶されている。
【0025】
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
【0026】
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と他言語の音声翻訳の場合、日本語音声コーパス、各他言語音声コーパス、日本語文字(語彙)コーパス、各他言語文字(語彙)コーパス、日本語辞書、各他言語辞書、日本語/各他言語対訳辞書、日本語/各他言語対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース、異なる言語のコーパス間の適合性指標(翻訳の精度又は確度を示す指標)データベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
【0027】
(第1実施形態)
以上のとおり構成された音声翻訳装置100における音声翻訳処理の操作及び動作の一例(第1実施形態)について、以下に更に説明する。
図2は、第1実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、
図4(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、ここでは、情報端末10のユーザが日本語を話す店員(店舗の従業員)であり、対話者(会話の相手)がフランス語を話す外国人客である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
【0028】
まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、情報端末10の表示デバイス16に、ホーム画面として、デフォルト言語である日本語と英語の音声入力待機画面が表示デバイス16に表示される(
図4(A);ステップSJ1)。この音声入力待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語のテキストT1、並びに、日本語の音声入力を行うための入力ボタン42a及び英語の音声入力を行うための入力ボタン42bが表示される。
【0029】
また、この音声入力待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン43、対話者の言語を手動で選択するための言語選択ボタン44、それまでになされた音声入力内容の履歴表示を選択するための履歴ボタン45、予め用意された複数の定型フレーズ(推奨フレーズ)群のなかから所望の定型フレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン46、及び当該アプリケーションソフトの各種設定を行うための設定ボタン47も表示される。
【0030】
次に、
図4(A)に示す音声入力待機画面において、ユーザが日本語の入力ボタン42aをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる(
図4(B))。この音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストT2、音声入力状態にあることを示すマイク図案48、及びテキスト入力へ切り替えるための入力切替ボタン41が表示される。さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、会話を終了するか、音声入力待機画面(
図4(A))へ戻って音声入力をやり直すことができる。
【0031】
この状態で、ユーザが対話者への伝達事項等(例えば「御用はございませんか?」といったフレーズ)を発話する(ステップSU2)と、テキストT2とともに、その声量の大小を模式的に且つ動的に表す多重円形図案49が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる。それから、発話が終了し、ユーザがマイク図案48をタップすると、プロセッサ11は、ユーザによる発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
【0032】
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23に(必要に応じて適宜のデータベースに)記憶する。
【0033】
次いで、プロセッサ21は、その入力音声の認識結果を、情報端末10に送信し、プロセッサ11は、それを日本語のテキストとして画面表示する(図示省略)。このとき、入力音声の認識結果をそのまま表示してもよいし、予め記憶資源23に記憶されている日本語の会話コーパスのなかから、実際の入力音声の内容に対応するものを呼び出して表示してもよい。
【0034】
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、各他言語辞書、日本語/各他言語対訳辞書、日本語/各他言語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する各他言語を抽出し、それらを各他言語の文法に従って並び替えて自然な各他言語の句、節、文等へと変換する。このとおり、プロセッサ21は、1つの入力音声に対して複数の異なる言語による対訳を取得する「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの日本語及び英語の句、節、文等を、記憶資源23に記憶しておくこともできる。
【0035】
それから、プロセッサ21は、多言語翻訳処理によって取得した複数の異なる言語による対訳(例えば「御用はございませんか?」の対訳)の出力信号を生成し、情報端末10へ送信する。情報端末10のプロセッサ11は、それらの出力信号に基づいて、例えば
図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面を表示デバイス16に表示する。これらの対訳テキストT3,T4のリスト画面は、例えば表示デバイス16の画面を指で左右にワイプすることにより切り替わる。このとおり、プロセッサ11,21及び表示デバイス16が「出力部」として機能し、複数の異なる言語による対訳テキストT3,T4が表示デバイス16に一時に表示される。
【0036】
ここで、
図4(C)に示す対訳テキストT3のリスト画面には、英語とアジア系言語(中国語、ハングル語、ベトナム語、タガログ語等)による対訳が表示される。また、
図4(D)に示す対訳テキストT4のリスト画面には、英語と他の欧米系言語(イタリア語、スペイン語、ドイツ語、フランス語等)による対訳が表示される。また、各対訳テキストT3,T4の直下には、それぞれの言語による回答(「はい」と「いいえ」に相当)をタップ入力するためのボタンB11〜B15,B21〜B25が表示される。
【0037】
次に、ユーザからこの対訳テキストT3,T4のリスト画面を呈示された対話者は、対話者が使用する言語又は自分が理解することができる言語による対訳のテキストがあった場合、その対訳の下方に表示されているボタン(対話者がフランス人であれば、フランス語による対訳の下に表示されているボタンB25)をタップして回答することができる(ステップSU3)。
【0038】
対話者が、ユーザの問い掛けに応じて、ボタンB25の「Oui」(はい)の部分をタップすると、情報端末10のプロセッサ11から、その選択信号がサーバ20へ送信され、その選択信号を受信したプロセッサ21は、対話者の言語がフランス語であると判断し、会話における対話者の使用言語としてフランス語を選定する(ステップSJ3)。
【0039】
次に、プロセッサ21は、再び音声入力待機画面を表示デバイス16に表示する(再びステップSJ1)。この音声入力待機画面は、英語の入力ボタン42bに代えて、フランス語の音声入力を行うための入力ボタンが表示されること以外は、
図4(A)に示す日本語の音声入力待機画面と同様に構成されている(図示省略)。次いで、その音声入力待機画面において、例えばユーザがフランス語の入力ボタンをタップしてフランス語の音声入力を選択すると、対話者のフランス語による発話内容を受け付ける音声入力画面となる。このフランス語の音声入力画面は、日本語のテキスト表示がフランス語のテキスト表示に替わること以外は、
図4(B)に示す日本語の音声入力画面と同様に構成されたものである(図示省略)。
【0040】
この状態で、対話者がユーザへの伝達事項等を発話し(再びステップSU2)、対話者がマイク図案48をタップすると、プロセッサ11は、対話者による発話内容の受け付けを終了し、プロセッサ21による入力音声の音声認識処理、及び、フランス語の内容から日本語の内容への翻訳処理を実行する。
【0041】
それから、プロセッサ21は、音声合成処理へ移行する。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
【0042】
そして、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声入出力デバイス13を用いて、日本語の音声出力処理を行う(ここまでステップSJ4)。このとおり、プロセッサ11,21及び音声入出力デバイス13も、「出力部」として機能する。なお、音声出力に先立って、対話者の音声認識結果とその翻訳結果を、情報端末10に一旦表示し、対話者による確認後に、音声出力を行うようにしてもよい(図示省略)。
【0043】
それから、ステップSJ1,SU2,SJ4を必要に応じて適宜繰り返すことにより、ユーザと対話者の会話を進めることができ、会話が終了した後、ユーザは、当該アプリケーションを適宜終了することができる(ステップSU4)。
【0044】
(第2実施形態)
次に、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第2実施形態)について説明する。
図3は、第2実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、
図5(A)及び(B)は、情報端末における表示画面の遷移の一例を示す平面図である。この第2実施形態においては、ステップSJ2において、複数の言語による対訳テキストT3,T4のリスト表示に加えて、それらの対訳の音声出力を行うこと以外は、第1実施形態と同様の処理を実行する。
【0045】
このときの対訳の音声出力処理としては、例えば、対話者の外見や言動等に基づいてユーザが推定した少なくとも1つの言語による対訳をユーザが指定し、その指定した対訳のみを音声出力してもよいし、翻訳結果として得られた複数の言語による対訳の一部又は全部を自動で音声出力するようにしてもよい。音声出力する対訳を指定する方法としては、例えば
図4(C)及び(D)に表示された対訳テキストT3,T4のうち所望の対訳の部分をタップする構成、
図5(A)及び(B)に示す如く、対訳のそれぞれに選択用のチェックボックス51を設けてタップにより指定(チェック)する構成等が挙げられる。こうして音声出力する対訳が指定されると、情報端末10及びサーバ20により、それらの対訳の内容の音声合成が行われ、音声入出力デバイス13を用いて、各言語による対訳の音声出力処理(順次再生)が行われる(ステップSJ2)。
【0046】
(第3実施形態)
次に、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第3実施形態)について説明する。この第3実施形態においては、ステップSJ2において、ユーザの店舗や同業種の店舗でのユーザと対話者の会話で選定(使用)される回数又は頻度が比較的高い複数の言語による対訳、つまり、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力すること以外は、第1実施形態又は第2実施形態と同様の処理を実行する。
【0047】
この場合、ユーザの店舗や同業種の店舗における当該音声翻訳アプリケーションを用いた会話において、サーバ20のプロセッサ21は、ステップSJ3で言語が選定された回数又は頻度を、記憶資源23における適宜のデータベースに記憶する。或いは、プロセッサ21は、適宜のタイミングで、ネットワークNを介して複数のユーザの情報端末10から各言語の選定回数又は選定頻度を取得し、それらを記憶資源23における適宜のデータベースに記憶する。このとおり、プロセッサ21及び記憶資源23が「記憶部」として機能する。
【0048】
そして、プロセッサ21は、ステップSJ2において、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば
図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面のように表示する。或いは、プロセッサ21は、それに加えて又はそれに代えて、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を、例えば
図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面においてより高い順位(例えば画面上方)に表示する。
【0049】
(第4実施形態)
さらに、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第4実施形態)について説明する。この第4実施形態においては、ステップSJ2において、複数の異なる言語による対訳のうち翻訳の精度又は確度が比較的高い複数の対訳、つまり、入力音声の内容と対訳との適合性指標が比較的高い上位の所定数の対訳を出力すること以外は、第1実施形態又は第2実施形態と同様の処理を実行する。
【0050】
この場合、プロセッサ21は、例えば、各言語のコーパスに収録されている対訳フレーズのそれぞれについての適合性指標を、ネットワークNに接続されたウェブページや商用データベースから予め取得しておき、或いは、例えばクラウドソーシングを利用した正確性評価により、予め評価又は収集しておく。また、プロセッサ21は、取得した適合性指標を、各対訳フレーズに関連付けて記憶資源23に記憶しておく。このとおり、プロセッサ21及び記憶資源23が「指標取得部」としても機能する。なお、適合性評価手法としては、例えば、2言語間の意味比較に用いられるWalkerらの適合性評価(Walker, K., et al: Multiple−Translation Arabic (MTA) Part 1, Linguistic Data Consortium, Philadelphia (2003))を利用する5段階評価等が挙げられる(但し、これに限定されない)。
【0051】
そして、プロセッサ21は、ステップSJ2において、複数の言語による対訳のなかから適合性指標が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば
図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面のように表示する。或いは、プロセッサ21は、それに加えて又はそれに代えて、複数の言語による対訳のなかから整合性指標が比較的高い言語の対訳を、例えば
図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面においてより高い順位(例えば画面上方)に表示する。
【0052】
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者の会話を開始するに際し、ユーザが発話した1つの入力音声に対して複数の異なる言語による対訳を取得し、それらの複数の対訳テキストT3,T4を、例えば
図4(C)及び(D)の如く表示して対話者に呈示し、及び/又は、それらの対訳を音声で出力する。
【0053】
よって、対話者の使用言語が不明であっても、会話の切っ掛け(契機)を得ることができ、また、ユーザの発話内容を対話者に正しく伝えることができる。したがって、会話に先立って対話者の使用言語を選択しなくとも、会話を自然に開始することができ、ユーザの心理的な負担を軽減することができる。また、対話者が理解することができた対訳から対話者の使用言語(実施形態の例では、フランス語)が判明し、それを使用言語として選定するので、それ以降の発話では、複数の異なる言語への翻訳が不要となり、その後の会話を円滑に進めることができる。
【0054】
また、
図4(C)及び(D)の如く、複数の異なる言語による対訳テキストT3,T4を一時に表示すれば、視認性が向上するので、対話者がユーザの発話内容を把握し易くなる。さらに、
図4(C)及び(D)の如く、アジア系言語と欧米系言語による対訳を別画面に表示するようにすれば、その際の視認性及び利便性が更に向上される。またそのように表示すれば、ユーザが対話者の外見や言動等から対話者の使用言語をある程度絞り込める場合に特に有用である。
【0055】
さらに、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力し、また、その際に、それらの対訳を選定回数又は選定頻度の順に出力することにより、対話者の使用言語をより確実に推定して、その対訳を対話者に呈示することができる。
【0056】
またさらに、複数の異なる言語による対訳のうち適合性指標(翻訳の精度又は確度)が比較的高い上位の所定数の対訳を出力することにより、例えば、対話者が複数の言語を使用又は理解することができる場合に、ある一の言語ではユーザの発話内容を理解できなくとも、他の言語ではユーザの発話内容を理解することができる可能性が高まる。より具体的には、例えば、中国語を話しかつ英語を理解することができる対話者に対し、ユーザの発話内容によっては、英語による対訳の適合性指標が中国語による対訳の適合性指標よりも高い場合、対話者は、中国語の対訳ではユーザの発話内容を理解できないものの、英語の対訳によってそれを理解し得る可能性(つまり、中国語では通じないけれど、英語では通じるケース)が挙げられる。
【0057】
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
【0058】
また、ステップSJ2において、複数の言語による対訳テキストT3,T4のリスト表示に代えて、複数の言語による対訳の音声出力のみとしてもよい。この場合、それらの対訳を、順次読み上げるようにしてもよい。さらに、対話者に単純な回答を求めるのではなく、対話者による発話を求める場合には、
図4(C)及び(D)並びに
図5(A)及び(B)に示す回答をタップ入力するためのボタンB11〜B15,B21〜B25に代えて、各言語の対訳の近傍に発話ボタンを表示してもよい。具体的には、例えば英語であれば、「お話し下さい。」の意を示す「Please talk.」といったテキストを表示したタップ用のボタン(アイコン)を英語の対訳の下に表示する。また、例えばドイツ語であれば、「お話し下さい。」の意を示す「Bitte sprechen.」といったテキストを表示したタップ用のボタン(アイコン)をドイツ語の対訳の下に表示する。
【0059】
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
【0060】
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。