【課題】ユーザ(話し手又は聞き手)の感情を考慮した音声認識処理及び翻訳処理を実行することにより、ユーザの真意や本音を聞き手に伝えることができ、その結果、ユーザ同士(話し手と聞き手)のコミュニケーションの向上を図る。
【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、該ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び/又はテキストで出力する出力部とを備える。
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に、かかる従来の音声翻訳技術では、発話された音声の認識処理を行ってその音声の読み(文字)を取得し、辞書を用いてその文字を他の言語へ翻訳する。この場合、音声認識処理には、予め構築された音響モデルや言語モデルが適用され、また、翻訳処理には、予め用意された各言語のコーパス等のデータベースが用いられる。しかし、このような音声認識処理及び翻訳処理では、会話の内容によっては、音声翻訳を通して話し手の真意や本音が伝わらず、誤解が生じてしまうことにより両者の十分なコミュニケーションがとれないといった不都合が生じる場合があった。
【0006】
具体的には、聞き手が不快に感じないように、或いは、聞き手を困惑させないように、話し手が婉曲的な表現を用いること、すなわち、話し手が、否定的又は不都合な含意を有する語句を含む内容をそのまま聞き手に伝えることを避けるために、そのような語句を直接用いずに他の語句に置き換えて発話することが考えられる。これに対し、従来の翻訳技術では、かかる婉曲な表現を踏まえた音声認識処理と翻訳処理を行わず、発話された音声の内容そのものの翻訳結果を取得し、聞き手に伝えることが想定される。その結果、話し手が意図した本来の否定的又は不都合な含意が聞き手に伝わらないおそれがある。
【0007】
また、例えば、話し手と聞き手の親密度が高い場合、その親密さと好意的な感情を込めた内容を聞き手に伝えるために、話し手は、敢えて、悪い意味、無礼な意味、不都合な意味等を有する語句や表現(言い方)を使用し、場合によっては、話し手の真意や本音とは反対の意味を示す内容を発話することがあり得る。これに対し、従来の翻訳技術では、そのような話し手の真意や本音を考慮した上で音声認識処理と翻訳処理を行うわけではなく、発話された音声の内容そのものの翻訳結果を取得し、聞き手に伝えることが想定される。その結果、話し手の真意や本音が聞き手に伝わらないおそれがある。
【0008】
そこで、本発明は、かかる事情に鑑みてなされたものであり、ユーザ(話し手又は聞き手)の感情を考慮した音声認識処理及び翻訳処理を実行することにより、ユーザの真意や本音を聞き手に伝えることができ、その結果、ユーザ同士(話し手と聞き手)のコミュニケーションの向上を図ることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び/又はテキストで出力する出力部とを備える。
【0010】
より具体的には、出力部は、感情文字又は感情記号を表示させるためのボタンを、入力された音声の認識結果が表示された画面に表示するように構成しても好適である。
【0011】
さらには、出力部は、選択された感情文字又は感情記号を、異なる言語に翻訳された内容が表示された画面に表示するように構成しても好適である。
【0012】
また、所定のフレーズと感情文字又は感情記号との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶する記憶部を備え、翻訳部は、感情文字又は感情記号が入力されたときに、入力された音声に含まれるフレーズと該感情文字又は該感情記号との組み合わせが記憶部に記憶されているか否かを判定し、その組み合わせが記憶されているときに、その組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳を行うようにしてもよい。なお、「フレーズ」には、文、節、句、語、及び数字が含まれるものとする。
【0013】
或いは、所定のフレーズと感情文字又は感情記号との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶する記憶部を備え、出力部は、入力された音声に含まれるフレーズが、所定のフレーズに含まれるときに、その所定のフレーズと感情文字又は感情記号との組み合わせの一覧を、ユーザが選択可能なように表示し、翻訳部は、選択された組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳を行うようにしてもよい。
【0014】
また、本発明の一態様による音声翻訳方法は、入力部、認識部、提示部、翻訳部、及び出力部を備える音声翻訳装置を用い、入力部が、ユーザの音声を入力するステップと、認識部が、入力された音声を認識するステップと、提示部が、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示するステップと、翻訳部が、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳するステップと、出力部が、異なる言語に翻訳された内容を、音声及び/又はテキストで出力するステップとを含む。
【0015】
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが前声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び/又はテキストで出力する出力部として機能させる。
【発明の効果】
【0016】
本発明によれば、ユーザ(話し手又は聞き手)による音声の入力とともに、そのユーザの感情を表現するための感情文字又は感情記号を選択し、認識された入力音声の内容だけでなく、それとともに選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳して出力するので、言わば、ユーザの感情を考慮した翻訳処理を実行することにより、話し手の真意や本音を聞き手に伝えることができ、その結果、ユーザ同士(話し手と聞き手)のコミュニケーションの向上を図ることが可能となる。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
【0019】
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
【0020】
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
【0021】
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
【0022】
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
【0023】
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
【0024】
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
【0025】
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザ(話し手と聞き手)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
【0026】
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
【0027】
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
【0028】
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、会話の一方のユーザ(話し手)が会話の他方のユーザ(聞き手)へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、後述するフレーズデータ等も記憶されている。
【0029】
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
【0030】
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース、後述する階層構造を有するフレーズデータベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
【0031】
(通常の音声翻訳による会話)
以上のとおり構成された音声翻訳装置100における処理操作及び動作の一例について、以下に説明する。ここでは、ユーザ同士(話し手と聞き手)の会話及び/又は会話準備における通常の音声翻訳処理の一例について説明する。
図2は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、
図3(A)乃至(D)及び
図4(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者の言語が日本語であり、他方の話者の言語が中国語である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
【0032】
まず、ユーザ(話し手)が当該アプリケーションを起動する(ステップSU1)と、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、情報端末10の表示デバイス16に、ユーザ(聞き手)の言語を選択するための言語選択画面が表示される(
図3(A);ステップSJ1)。この言語選択画面には、聞き手に言語を尋ねることを話し手に促すための日本語のテキストT1、聞き手に言語を尋ねる旨の英語のテキストT2、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン31が表示される。さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンB1も表示される。
【0033】
このとき、
図3(A)に示す如く、日本語のテキストT1及び英語のテキストT2は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、話し手と聞き手が対面している状態で会話を行う場合、話し手は日本語のテキストT1を確認し易い一方、聞き手は、英語のテキストT2を確認し易くなる。また、日本語のテキストT1と英語のテキストT2が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。
【0034】
話し手がその言語選択画面における英語のテキストT2の表示を聞き手に提示し、聞き手に「中国語」のボタンをタップしてもらうことにより、又は、聞き手が自ら、聞き手の言語である「中国語」を選択することができる。こうして聞き手の言語が選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と中国語の音声入力の待機画面が表示デバイス16に表示される(
図3(B);ステップSJ2)。この音声入力待機画面には、日本語の音声入力を行うためのマイクを図案化した入力ボタン32a及び中国語の音声入力を行うためのマイクを図案化した入力ボタン32bが表示される。また、入力ボタン32a,32bよりも画面の縁側には、それぞれ、日本語を中国語に変換することを示す日本語のテキストT3、及び、中国語を日本語に変換することを示す中国語のテキストT4が表示される。さらに、入力ボタン32a,32bよりも画面の中央側には、それぞれ、マイクを図案化した入力ボタン32a,32bをタップして会話を始めることを促す日本語のテキストT5及び中国語のテキストT6が表示される。
【0035】
またさらに、この音声入力待機画面には、ユーザが予め登録しておいたフレーズ群を表示させるための登録フレーズボタンB2、音声入力に代えてテキストで入力するためのテキスト入力ボタンB3、及び当該アプリケーションソフトの各種設定を行うための設定ボタンB4も表示される。
【0036】
次に、
図3(B)に示す音声入力待機画面において、ユーザ(話し手)が日本語の入力ボタン32aをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる(
図3(C))。この音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末10のマイクに向かって音声入力を行うように促す日本語のテキストT6、相手が音声入力中であることを示す中国語のテキストT7、マイクを図案化した入力ボタン32a、及び、その入力ボタン32aを囲うような多重円形図案33が表示される。この多重円形図案33は、音声入力状態にあることを示し、声量の大小を模式的に且つ動的に表すように、声量に応じて表示される円部分の大きさが変化する。これにより、音声入力レベルがユーザへ視覚的にフィードバックされる。
【0037】
さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(
図3(B))へ戻って音声入力をやり直すことができる。また、入力ボタン32aの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための日本語のテキストT8が表示される。
【0038】
この状態で、話し手が聞き手への伝達事項等を発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
【0039】
それから、発話が終了して日本語のテキストT8がタップ(タッチ)されると、プロセッサ11は、発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。
【0040】
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「音声認識サーバ」としても機能する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23(記憶部)に(必要に応じて適宜のデータベースに)記憶する。
【0041】
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。ここでは、聞き手の言語として中国語が選択されているので、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、中国語辞書、日本語/中国語対訳辞書、日本語/中国語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する中国語を抽出し、それらを中国語の文法に従って並び替えて自然な中国語の句、節、文等へと変換する。このとおり、プロセッサ21は、入力音声の内容を第1言語(日本語)とは異なる第2言語(中国語)の内容に翻訳する「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの日本語及び中国語の句、節、文等を、記憶資源23に記憶しておくこともできる。
【0042】
また、この翻訳処理中に、情報端末10のプロセッサ11は、
図3(D)に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストT9及び中国語のテキストT10、並びに、翻訳処理中であることを表すための円弧の一部が回動するように表示される環状図案34も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(
図3(B))へ戻って音声入力をやり直すことができる。
【0043】
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、中国語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である中国語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
【0044】
次いで、プロセッサ21は、中国語による翻訳結果(対応する中国語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、情報端末10へ送信する。そのテキスト信号を受信したプロセッサ11は、音声認識した入力音声の内容を示す日本語のテキストT11と、その中国語による翻訳結果(対訳)のテキストT12を、
図4(A)に示す翻訳結果表示画面に表示する。
【0045】
また、この翻訳結果表示画面には、
図3(B)のホーム画面にも表示されたマイクを図案化した日本語の入力ボタン32a及び中国語の入力ボタン32bが表示され、それらの近傍には、それぞれ、日本語及び中国語であることを示すテキストT13,T14が表示される。
【0046】
さらに、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末10へ送信する。その音声信号を受信したプロセッサ11は、テキストT13,T14の表示とともに、音声入出力デバイス13(出力部)を用いて、中国語のテキストT12の内容の音声を出力する(読み上げる)(ステップSJ7)。
【0047】
さらに、テキストT11の近傍には、音声入力に代えてテキストで入力するためのテキスト入力ボタンB5が表示され、画面下部には、
図3(B)のホーム画面へ戻るためのチェックボタンB6、及び、翻訳結果の誤りを報告するための誤訳通知ボタンB7が表示される。またさらに、この翻訳結果表示画面には、ユーザ(話し手と聞き手)の感情を表現するための感情文字又は感情記号(以下まとめて「感情文字」という)を表示させるための表示ボタンB8も表示される。
【0048】
ここで、テキスト入力ボタンB5をタップすると、
図4(B)に示すテキスト入力画面が表示される。このテキスト入力画面には、
図4(A)に表示された日本語のテキストT11が淡いグレースケールで表示される。日本語のキーボードKからテキスト入力を開始すると、テキストT11が消去され、その場所に新たに入力されたテキストの内容が表示される。また、テキスト入力画面の上部には、入力したテキストをキャンセルして消去するための消去ボタンB9が表示され、キーボードKの直上には、入力したテキストを翻訳するための翻訳ボタンB10が表示される。この翻訳ボタンB10がタップされると、先述の翻訳処理と音声合成処理が行われ、
図4(A)に示す翻訳結果表示画面と同様の画面が表示される。
【0049】
その後、聞き手が回答する場合、
図4(A)の翻訳結果表示画面に表示された中国語の入力ボタン32bをタップして中国語の音声入力を選択すると、聞き手の中国語による発話内容を受け付ける音声入力画面となる(
図4(C))。この音声入力画面が表示されると、
図3(C)に示す音声入力画面と同様に、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末10のマイクに向かって音声入力を行うように促す中国語のテキストT15、相手が音声入力中であることを示す日本語のテキストT16、マイクを図案化した入力ボタン32b、及び、その入力ボタン32bを囲うような多重円形図案33が表示される。
【0050】
さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(
図3(B))へ戻って音声入力をやり直すことができる。また、入力ボタン32bの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための中国語のテキストT17が表示される。
【0051】
この状態で、聞き手が話し手への回答事項等を発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。それから、発話が終了して中国語のテキストT14がタップ(タッチ)されると、プロセッサ11は、発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。
【0052】
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、中国語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23に(必要に応じて適宜のデータベースに)記憶する。
【0053】
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、中国語文字コーパス、中国語辞書、日本語辞書、中国語/日本語対訳辞書、中国語/日本語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて中国語の句、節、文等へ変換し、その変換結果に対応する日本語を抽出し、それらを日本語の文法に従って並び替えて自然な日本語の句、節、文等へと変換する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの中国御及び日本語の句、節、文等を、記憶資源23に記憶しておくこともできる。
【0054】
また、この翻訳処理中に、情報端末10のプロセッサ11は、
図4(D)に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストT9及び中国語のテキストT10、並びに、翻訳処理中であることを表すため円弧の一部が回動するように表示される環状図案34も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(
図3(B))へ戻って音声入力をやり直すことができる。
【0055】
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。
【0056】
次いで、プロセッサ21は、日本語による翻訳結果(対応する日本語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、情報端末10へ送信する。そのテキスト信号を受信したプロセッサ11は、音声認識した入力音声の内容を示す中国語のテキストと、その日本語による翻訳結果(対訳)のテキストを、
図4(A)に示す翻訳結果表示画面と同様に表示する。
【0057】
(ユーザの感情を考慮した音声翻訳による会話)
次に、ユーザ同士(話し手と聞き手)の会話及び/又は会話準備において、ユーザが自分の感情を表現するための感情文字又は感情記号を選択し、その感情を考慮して音声翻訳を行う場合の処理操作及び動作の一例について、以下に説明する。
図5は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、
図6(A)及び(B)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者の言語が日本語であり、他方の話者の言語が英語である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
【0058】
ここでの処理手順は、
図2に示す多言語翻訳(ステップSJ5)と音声合成(ステップSJ6)の間に、感情文字の選択(ステップSU3)、及び、その選択された感情文字で表現されるユーザの感情を考慮した多言語翻訳、つまり入力音声の内容と感情文字に基づく多言語翻訳(ステップSJ50)を実施すること以外は、
図2に示す「通常の音声翻訳による会話」における処理手順と同様である。
【0059】
すなわち、ユーザ(話し手)が当該アプリケーションを起動して(ステップSU1)、ユーザ(聞き手)の言語を選択するための言語選択画面を表示し(
図3(A);ステップSJ1)、さらに、聞き手の言語を選択して日本語と英語の音声入力待機画面を表示デバイス16に表示する(
図3(B)と同様;ステップSJ2)。それから、話し手が日本語の入力ボタン32aをタップして聞き手への伝達事項等を発話して(ステップSU2)、音声入力を行い(ステップSJ3)、入力された音声の音声認識処理を実施した後(ステップSJ4)、一旦、多言語翻訳処理を実行する(ステップSJ5)。
【0060】
ここで、一例として、
図4(A)に示すフレーズと異なり、聞き手が「君は本当に馬鹿だな」というフレーズを発話した場合の英語への翻訳結果を
図6(A)に示す。
図6(A)は、
図4(A)と同様の翻訳結果表示画面であり、音声認識した入力音声の内容を示す日本語のテキストT18と、その英語による翻訳結果(対訳)のテキストT19が表示される。また、この翻訳結果表示画面におけるその他の各種ボタンB5,B6,B7,B8は、
図4(A)における翻訳結果表示画面に表示されるものと同じである。
【0061】
この際、
図6(A)における翻訳結果表示画面に表示された日本語のテキストT18としては、発話された内容である「君は本当に馬鹿だな」と表示され、その英語による翻訳結果のテキストT19には、その本来のフレーズどおりの意味である例えば「You are so stupid.」と表示される。ところで、話し手は、聞き手への親しみを込めて、敢えて失礼な言い方として「君は本当に馬鹿だな」という表現を用いる場合があり得るが、この場合に、その本来のフレーズどおりの意味である「You are so stupid.」と翻訳してしまうと、話し手の真意や本音が聞き手に伝わらないばかりか、誤解を招いてコミュニケーションを阻害してしまうおそれがある。
【0062】
そこで、かかる場合に、話し手は、
図6(A)に示す翻訳結果表示画面に表示されているユーザの感情を表現する感情文字を表示させるための表示ボタンB8をタップして、
図6(B)に示す感情文字入出力画面を表示させることができる。表示ボタンB8がタップされると、プロセッサ11,21は、感情文字入出力画面の下部に、感情文字キーボードEを表示し、各種ジャンルの絵文字、顔文字、アスキーアート等(ここでは、絵文字のみ表示)を、ユーザ(話し手)が適宜選択できるような一覧表示によって提示する。このとおり、プロセッサ11,21が、「提示部」として機能する。ユーザ(話し手)は、各種ジャンルのタブをタップする等して一覧表示を切り替え、所望の感情文字をタップして選択入力することができる。例えば、話し手が、親しみを込める意味で、ハート型の目を有する顔マークE1を選択すると、感情文字キーボードEの上方に、入力音声の認識内容である日本語のテキストT18(「君は本当に馬鹿だな」)とともに、その選択された顔マークE1が表示される。
【0063】
ここで、サーバ20の記憶資源23には、複数の所定の日本語のフレーズの各々と感情文字との組み合わせが保存(記憶)されており、さらに、それらの各フレーズと感情文字の組み合わせについて、対応する英語による内容が関連付けられて記憶されている。
【0064】
本実施形態の例では、例えば、「ばか・だ」というフレーズについて、
図6(B)に示す顔マークE1、及び、その顔マークE1と同種のハート型図形が含まれている顔マークや、笑っている系の顔マークとの各種組み合わせに対して、「バカ・だ」という本来の意味の「stupid」とはほぼ反対の意味を有する「cute」や「lovely」等といった訳文を記憶しておく。一方、「ばか・だ」というフレーズについて、
図6(B)に示す顔マークE1の如く、しかめ面や泣いている表情の顔マーク、及び、怒っている表情の顔マークとの各種組み合わせに対しては、「バカ・だ」という本来の意味の「stupid」や「silly」といった訳文を記憶しておく。
【0065】
そして、サーバ20のプロセッサ21は、感情文字キーボードEから感情文字が入力された場合(ステップSU3)、入力された音声を解析して認識されるその音声の内容に含まれるフレーズ(「馬鹿・だ」)と該感情文字の組み合わせが記憶資源23に記憶されているか否かを判定する。上記の例では、話し手が、「君は本当に馬鹿だな」という音声入力とともに、顔マークE1を選択して入力すると、プロセッサ21は、その音声に含まれるフレーズの組み合わせの一つである「馬鹿・だ」と顔マークE1の組み合わせが記憶資源に23に予め記憶されていると判定する。この場合、プロセッサ21は、「馬鹿・だ」と顔マークE1の組み合わせに関連付けて記憶されていた「cute」又は「lovely」が、話し手が意図している訳語であるとして、その英語フレーズを用い、「君は本当に馬鹿だな」という音声入力の内容を、
図6(B)の英語のテキストT20に示す如く「You are so cute!」と翻訳する(ステップSJ50)。
【0066】
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行し(ステップSJ6)、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。
【0067】
それから、プロセッサ21は、英語による翻訳結果(対応する英語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、プロセッサ11へ送信する。そのテキスト信号を受信したプロセッサ11は、
図6(B)に示す感情文字入出力画面において、音声認識した入力音声の内容を示す日本語のテキストT18及び顔マークE1とともに、その英語による翻訳結果(対訳)のテキストT20を表示する。この場合、英語のテキストT20の近傍にも、話し手が選択した顔マークE1を表示してもよい。
【0068】
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザ(話し手又は聞き手)による音声の入力とともに、そのユーザの感情を表現するための顔マークE1のような感情文字を選択し、認識された入力音声の内容だけでなく、それとともに選択された感情文字に基づいて、認識された音声の内容を異なる言語の内容に翻訳して出力する。すなわち、ユーザの感情を考慮した翻訳処理を実行することにより、話し手の真意や本音を聞き手に伝えることができ、その結果、ユーザ同士(話し手と聞き手)のコミュニケーションの向上を図ることが可能となる。
【0069】
また、所定のフレーズと感情文字との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて、予め記憶資源23に記憶しておき、入力音声にその所定のフレーズが含まれ且つ感情文字が選択された場合に、記憶資源23にその組み合わせが含まれているか判定し、その組み合わせが記憶されているときに、その組み合わせに関連付けて記憶されている異なる言語の内容を用いて翻訳を行うので、翻訳処理の速度を向上させることができる。
【0070】
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
【0071】
また、所定のフレーズと感情文字との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶資源23に記憶させておいた上で、以下の処理を実施してもよい。すなわち、入力音声に含まれるフレーズ(上記の例では、「馬鹿・だ」)が、記憶された所定のフレーズに含まれるときに、その所定のフレーズと感情文字(上記の例では、顔マークE1,E2等)との組み合わせの一覧を、ユーザが選択可能なように表示し、ユーザによって選択された組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳処理を行ってもよい。
【0072】
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
【0073】
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。