特開2017-182395(P2017-182395A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートライフスタイルの特許一覧

特開2017-182395音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
<>
  • 特開2017182395-音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム 図000003
  • 特開2017182395-音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム 図000004
  • 特開2017182395-音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム 図000005
  • 特開2017182395-音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム 図000006
  • 特開2017182395-音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-182395(P2017-182395A)
(43)【公開日】2017年10月5日
(54)【発明の名称】音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20170908BHJP
   G10L 15/00 20130101ALI20170908BHJP
   G10L 15/22 20060101ALI20170908BHJP
   G10L 13/00 20060101ALI20170908BHJP
   G06F 17/28 20060101ALI20170908BHJP
【FI】
   G06F3/16 610
   G10L15/00 200C
   G10L15/22 460
   G10L13/00 100G
   G06F3/16 650
   G06F17/28 690
【審査請求】有
【請求項の数】7
【出願形態】OL
【全頁数】17
(21)【出願番号】特願2016-67703(P2016-67703)
(22)【出願日】2016年3月30日
(71)【出願人】
【識別番号】513267453
【氏名又は名称】株式会社リクルートライフスタイル
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100139066
【弁理士】
【氏名又は名称】伊藤 健太郎
(72)【発明者】
【氏名】井村 優基
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA01
5B091BA03
5B091CB12
5B091CB28
5B091CD15
(57)【要約】
【課題】会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進める。
【解決手段】本発明の一態様による音声翻訳装置は、ユーザ及び/又は対話者の音声を入力するための入力部と、1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、それらの複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部を備える。これにより、対話者の使用言語が不明であっても、会話の切っ掛け(契機)を得て、会話を自然に開始しかつ円滑に進めることができ、ユーザの心理的な負担を軽減することが可能となる。
【選択図】図4
【特許請求の範囲】
【請求項1】
ユーザ及び/又は対話者の音声を入力するための入力部と、
1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部と、
を備える音声翻訳装置。
【請求項2】
前記出力部は、前記複数の異なる言語による対訳のテキストを一時に表示する、
請求項1記載の音声翻訳装置。
【請求項3】
前記複数の異なる言語による対訳が出力された後に、前記対話者の使用言語を選定する言語選定部を更に備える、
請求項1又は2記載の音声翻訳装置。
【請求項4】
前記複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、
前記出力部は、前記複数の異なる言語のうち前記選定回数又は前記選定頻度が比較的高い上位の所定数の言語による対訳を出力する、
請求項1乃至3の何れか記載の音声翻訳装置。
【請求項5】
前記表示部は、前記所定数の言語による対訳を前記選定回数又は前記選定頻度の順に出力する、
請求項4記載の音声翻訳装置。
【請求項6】
前記1つの入力音声の内容と前記複数の異なる言語による対訳のそれぞれとの適合性指標を取得する指標取得部を更に備え、
前記出力部は、前記複数の異なる言語による対訳のうち前記適合性指標が比較的高い上位の所定数の対訳を出力する、
請求項1乃至5の何れか記載の音声翻訳装置。
【請求項7】
入力部、翻訳部、及び出力部を備える音声翻訳装置を用い、
前記入力部が、ユーザ及び/又は対話者の音声を入力するステップと、
前記翻訳部が、1つの入力音声に対して複数の異なる言語による対訳を取得するステップと、
前記出力部が、前記複数の異なる言語による対訳をテキスト及び/又は音声で出力するステップと、
を含む音声翻訳方法。
【請求項8】
コンピュータを、
ユーザ及び/又は対話者の音声を入力するための入力部と、
1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部と、
して機能させる音声翻訳プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。
【背景技術】
【0002】
互いの言語を理解できない人同士の会話、例えばユーザ(店舗の従業員等)と対話者(外国人客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平9−34895号公報
【特許文献2】特開平2014−16475号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、例えば特許文献2に図示されているアプリケーションの操作画面のとおり、従来の音声翻訳アプリケーションや装置は、会話に際して、ユーザ及び対話者の使用言語を最初に選択するように構成されている。しかし、かかる言語選択操作は、使用言語が異なる話者同士の会話を行うために必要ではあるものの、ユーザは、会話に際し、言葉が通じない対話者に対して言語選択を依頼する何らかの声掛けを行わなければならない。これは、ユーザの心理的な負担になるとともに、円滑な会話を行うための障害となっていた。
【0005】
そこで、本発明は、かかる事情に鑑みてなされたものであり、会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進めることができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザ及び/又は対話者の音声を入力するための入力部と、1つの入力音声(1フレーズ)に対して(入力音声の言語以外の)複数の異なる言語による対訳を取得する翻訳部と、それらの複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部とを備える。
【0007】
具体的には、出力部が、複数の異なる言語による対訳のテキストを一時(いっとき)に表示するようにしてもよい。この場合の画面表示は、単一画面に限らず、複数の画面に分割して表示してもよい。さらに、出力部による音声出力は、複数の異なる言語による対訳の全てを出力しなくてもよく、それらのうち例えばユーザ又は対話者が指定した少なくとも1つの対訳の音声を出力してもよい。
【0008】
また、複数の異なる言語による対訳が出力された後に、対話者の使用言語を選定する言語選定部を更に備えてもよい。さらに、複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、出力部が、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力するように構成しても好適である。この場合、出力部は、上記所定数の言語による対訳を選定回数又は選定頻度の順に出力してもよい。なお、「選択頻度」は、複数の異なる言語による対訳が出力された後に言語選択部によって選択された回数に基づく値でもよく、又は、事前に選択された回数に基づく値でもよく、或いは、両者の合計回数に基づく値であってもよい。
【0009】
さらに、1つの入力音声の内容と複数の異なる言語による対訳のそれぞれとの適合性指標(翻訳の精度又は確度を表す指標)を取得する指標取得部を更に備え、出力部が、複数の異なる言語による対訳のうち適合性指標が比較的高い上位の所定数の対訳を出力するようにしても好適である。
【0010】
また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、及び出力部を備える音声翻訳装置を用いる方法である。すなわち、当該方法は、入力部が、ユーザ及び/又は対話者の音声を入力するステップと、翻訳部が、1つの入力音声に対して複数の異なる言語による対訳を取得するステップと、出力部が、複数の異なる言語による対訳をテキスト及び/又は音声で出力するステップとを含む。
【0011】
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザ及び/又は対話者の音声を入力するための入力部と、1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、複数の異なる言語による対訳をテキスト及び/又は音声で出力する出力部として機能させる。
【発明の効果】
【0012】
本発明によれば、ユーザと対話者との会話において、例えばユーザが発話した1つの入力音声に対して複数の異なる言語による対訳を取得し、それらの複数の対訳をテキスト及び/又は音声で出力することにより、対話者の使用言語が不明であっても、会話の切っ掛け(契機)を得ることができ、また、ユーザの発話内容を対話者に伝えることができる。よって、会話に先立って対話者の使用言語を選択しなくとも、会話を自然に開始することができ、ユーザの心理的な負担を軽減することができる。また、対話者が理解することができた対訳から対話者の使用言語が判明するので、それ以降の発話では、複数の異なる言語への翻訳が不要となり、その後の会話を円滑に進めることができる。
【図面の簡単な説明】
【0013】
図1】本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。
図2】本発明による音声翻訳装置の好適な一実施形態における処理の流れ(一部)の一例を示すフローチャートである。
図3】本発明による音声翻訳装置の好適な一実施形態における処理の流れ(一部)の一例を示すフローチャートである。
図4】(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。
図5】(A)及び(B)は、情報端末における表示画面の遷移の一例を示す平面図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
【0015】
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
【0016】
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
【0017】
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
【0018】
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
【0019】
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
【0020】
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
【0021】
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや対話者(会話の相手方)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
【0022】
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
【0023】
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
【0024】
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、各言語の選択頻度(又は選択回数)等も記憶されている。
【0025】
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
【0026】
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と他言語の音声翻訳の場合、日本語音声コーパス、各他言語音声コーパス、日本語文字(語彙)コーパス、各他言語文字(語彙)コーパス、日本語辞書、各他言語辞書、日本語/各他言語対訳辞書、日本語/各他言語対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース、異なる言語のコーパス間の適合性指標(翻訳の精度又は確度を示す指標)データベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
【0027】
(第1実施形態)
以上のとおり構成された音声翻訳装置100における音声翻訳処理の操作及び動作の一例(第1実施形態)について、以下に更に説明する。図2は、第1実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図4(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、ここでは、情報端末10のユーザが日本語を話す店員(店舗の従業員)であり、対話者(会話の相手)がフランス語を話す外国人客である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
【0028】
まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、情報端末10の表示デバイス16に、ホーム画面として、デフォルト言語である日本語と英語の音声入力待機画面が表示デバイス16に表示される(図4(A);ステップSJ1)。この音声入力待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語のテキストT1、並びに、日本語の音声入力を行うための入力ボタン42a及び英語の音声入力を行うための入力ボタン42bが表示される。
【0029】
また、この音声入力待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン43、対話者の言語を手動で選択するための言語選択ボタン44、それまでになされた音声入力内容の履歴表示を選択するための履歴ボタン45、予め用意された複数の定型フレーズ(推奨フレーズ)群のなかから所望の定型フレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン46、及び当該アプリケーションソフトの各種設定を行うための設定ボタン47も表示される。
【0030】
次に、図4(A)に示す音声入力待機画面において、ユーザが日本語の入力ボタン42aをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる(図4(B))。この音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストT2、音声入力状態にあることを示すマイク図案48、及びテキスト入力へ切り替えるための入力切替ボタン41が表示される。さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、会話を終了するか、音声入力待機画面(図4(A))へ戻って音声入力をやり直すことができる。
【0031】
この状態で、ユーザが対話者への伝達事項等(例えば「御用はございませんか?」といったフレーズ)を発話する(ステップSU2)と、テキストT2とともに、その声量の大小を模式的に且つ動的に表す多重円形図案49が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる。それから、発話が終了し、ユーザがマイク図案48をタップすると、プロセッサ11は、ユーザによる発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
【0032】
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23に(必要に応じて適宜のデータベースに)記憶する。
【0033】
次いで、プロセッサ21は、その入力音声の認識結果を、情報端末10に送信し、プロセッサ11は、それを日本語のテキストとして画面表示する(図示省略)。このとき、入力音声の認識結果をそのまま表示してもよいし、予め記憶資源23に記憶されている日本語の会話コーパスのなかから、実際の入力音声の内容に対応するものを呼び出して表示してもよい。
【0034】
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、各他言語辞書、日本語/各他言語対訳辞書、日本語/各他言語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する各他言語を抽出し、それらを各他言語の文法に従って並び替えて自然な各他言語の句、節、文等へと変換する。このとおり、プロセッサ21は、1つの入力音声に対して複数の異なる言語による対訳を取得する「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの日本語及び英語の句、節、文等を、記憶資源23に記憶しておくこともできる。
【0035】
それから、プロセッサ21は、多言語翻訳処理によって取得した複数の異なる言語による対訳(例えば「御用はございませんか?」の対訳)の出力信号を生成し、情報端末10へ送信する。情報端末10のプロセッサ11は、それらの出力信号に基づいて、例えば図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面を表示デバイス16に表示する。これらの対訳テキストT3,T4のリスト画面は、例えば表示デバイス16の画面を指で左右にワイプすることにより切り替わる。このとおり、プロセッサ11,21及び表示デバイス16が「出力部」として機能し、複数の異なる言語による対訳テキストT3,T4が表示デバイス16に一時に表示される。
【0036】
ここで、図4(C)に示す対訳テキストT3のリスト画面には、英語とアジア系言語(中国語、ハングル語、ベトナム語、タガログ語等)による対訳が表示される。また、図4(D)に示す対訳テキストT4のリスト画面には、英語と他の欧米系言語(イタリア語、スペイン語、ドイツ語、フランス語等)による対訳が表示される。また、各対訳テキストT3,T4の直下には、それぞれの言語による回答(「はい」と「いいえ」に相当)をタップ入力するためのボタンB11〜B15,B21〜B25が表示される。
【0037】
次に、ユーザからこの対訳テキストT3,T4のリスト画面を呈示された対話者は、対話者が使用する言語又は自分が理解することができる言語による対訳のテキストがあった場合、その対訳の下方に表示されているボタン(対話者がフランス人であれば、フランス語による対訳の下に表示されているボタンB25)をタップして回答することができる(ステップSU3)。
【0038】
対話者が、ユーザの問い掛けに応じて、ボタンB25の「Oui」(はい)の部分をタップすると、情報端末10のプロセッサ11から、その選択信号がサーバ20へ送信され、その選択信号を受信したプロセッサ21は、対話者の言語がフランス語であると判断し、会話における対話者の使用言語としてフランス語を選定する(ステップSJ3)。
【0039】
次に、プロセッサ21は、再び音声入力待機画面を表示デバイス16に表示する(再びステップSJ1)。この音声入力待機画面は、英語の入力ボタン42bに代えて、フランス語の音声入力を行うための入力ボタンが表示されること以外は、図4(A)に示す日本語の音声入力待機画面と同様に構成されている(図示省略)。次いで、その音声入力待機画面において、例えばユーザがフランス語の入力ボタンをタップしてフランス語の音声入力を選択すると、対話者のフランス語による発話内容を受け付ける音声入力画面となる。このフランス語の音声入力画面は、日本語のテキスト表示がフランス語のテキスト表示に替わること以外は、図4(B)に示す日本語の音声入力画面と同様に構成されたものである(図示省略)。
【0040】
この状態で、対話者がユーザへの伝達事項等を発話し(再びステップSU2)、対話者がマイク図案48をタップすると、プロセッサ11は、対話者による発話内容の受け付けを終了し、プロセッサ21による入力音声の音声認識処理、及び、フランス語の内容から日本語の内容への翻訳処理を実行する。
【0041】
それから、プロセッサ21は、音声合成処理へ移行する。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
【0042】
そして、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声入出力デバイス13を用いて、日本語の音声出力処理を行う(ここまでステップSJ4)。このとおり、プロセッサ11,21及び音声入出力デバイス13も、「出力部」として機能する。なお、音声出力に先立って、対話者の音声認識結果とその翻訳結果を、情報端末10に一旦表示し、対話者による確認後に、音声出力を行うようにしてもよい(図示省略)。
【0043】
それから、ステップSJ1,SU2,SJ4を必要に応じて適宜繰り返すことにより、ユーザと対話者の会話を進めることができ、会話が終了した後、ユーザは、当該アプリケーションを適宜終了することができる(ステップSU4)。
【0044】
(第2実施形態)
次に、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第2実施形態)について説明する。図3は、第2実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図5(A)及び(B)は、情報端末における表示画面の遷移の一例を示す平面図である。この第2実施形態においては、ステップSJ2において、複数の言語による対訳テキストT3,T4のリスト表示に加えて、それらの対訳の音声出力を行うこと以外は、第1実施形態と同様の処理を実行する。
【0045】
このときの対訳の音声出力処理としては、例えば、対話者の外見や言動等に基づいてユーザが推定した少なくとも1つの言語による対訳をユーザが指定し、その指定した対訳のみを音声出力してもよいし、翻訳結果として得られた複数の言語による対訳の一部又は全部を自動で音声出力するようにしてもよい。音声出力する対訳を指定する方法としては、例えば図4(C)及び(D)に表示された対訳テキストT3,T4のうち所望の対訳の部分をタップする構成、図5(A)及び(B)に示す如く、対訳のそれぞれに選択用のチェックボックス51を設けてタップにより指定(チェック)する構成等が挙げられる。こうして音声出力する対訳が指定されると、情報端末10及びサーバ20により、それらの対訳の内容の音声合成が行われ、音声入出力デバイス13を用いて、各言語による対訳の音声出力処理(順次再生)が行われる(ステップSJ2)。
【0046】
(第3実施形態)
次に、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第3実施形態)について説明する。この第3実施形態においては、ステップSJ2において、ユーザの店舗や同業種の店舗でのユーザと対話者の会話で選定(使用)される回数又は頻度が比較的高い複数の言語による対訳、つまり、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力すること以外は、第1実施形態又は第2実施形態と同様の処理を実行する。
【0047】
この場合、ユーザの店舗や同業種の店舗における当該音声翻訳アプリケーションを用いた会話において、サーバ20のプロセッサ21は、ステップSJ3で言語が選定された回数又は頻度を、記憶資源23における適宜のデータベースに記憶する。或いは、プロセッサ21は、適宜のタイミングで、ネットワークNを介して複数のユーザの情報端末10から各言語の選定回数又は選定頻度を取得し、それらを記憶資源23における適宜のデータベースに記憶する。このとおり、プロセッサ21及び記憶資源23が「記憶部」として機能する。
【0048】
そして、プロセッサ21は、ステップSJ2において、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面のように表示する。或いは、プロセッサ21は、それに加えて又はそれに代えて、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を、例えば図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面においてより高い順位(例えば画面上方)に表示する。
【0049】
(第4実施形態)
さらに、音声翻訳装置100における音声翻訳処理の操作及び動作の他の一例(第4実施形態)について説明する。この第4実施形態においては、ステップSJ2において、複数の異なる言語による対訳のうち翻訳の精度又は確度が比較的高い複数の対訳、つまり、入力音声の内容と対訳との適合性指標が比較的高い上位の所定数の対訳を出力すること以外は、第1実施形態又は第2実施形態と同様の処理を実行する。
【0050】
この場合、プロセッサ21は、例えば、各言語のコーパスに収録されている対訳フレーズのそれぞれについての適合性指標を、ネットワークNに接続されたウェブページや商用データベースから予め取得しておき、或いは、例えばクラウドソーシングを利用した正確性評価により、予め評価又は収集しておく。また、プロセッサ21は、取得した適合性指標を、各対訳フレーズに関連付けて記憶資源23に記憶しておく。このとおり、プロセッサ21及び記憶資源23が「指標取得部」としても機能する。なお、適合性評価手法としては、例えば、2言語間の意味比較に用いられるWalkerらの適合性評価(Walker, K., et al: Multiple−Translation Arabic (MTA) Part 1, Linguistic Data Consortium, Philadelphia (2003))を利用する5段階評価等が挙げられる(但し、これに限定されない)。
【0051】
そして、プロセッサ21は、ステップSJ2において、複数の言語による対訳のなかから適合性指標が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面のように表示する。或いは、プロセッサ21は、それに加えて又はそれに代えて、複数の言語による対訳のなかから整合性指標が比較的高い言語の対訳を、例えば図4(C)及び(D)に示す対訳テキストT3,T4のリスト画面においてより高い順位(例えば画面上方)に表示する。
【0052】
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者の会話を開始するに際し、ユーザが発話した1つの入力音声に対して複数の異なる言語による対訳を取得し、それらの複数の対訳テキストT3,T4を、例えば図4(C)及び(D)の如く表示して対話者に呈示し、及び/又は、それらの対訳を音声で出力する。
【0053】
よって、対話者の使用言語が不明であっても、会話の切っ掛け(契機)を得ることができ、また、ユーザの発話内容を対話者に正しく伝えることができる。したがって、会話に先立って対話者の使用言語を選択しなくとも、会話を自然に開始することができ、ユーザの心理的な負担を軽減することができる。また、対話者が理解することができた対訳から対話者の使用言語(実施形態の例では、フランス語)が判明し、それを使用言語として選定するので、それ以降の発話では、複数の異なる言語への翻訳が不要となり、その後の会話を円滑に進めることができる。
【0054】
また、図4(C)及び(D)の如く、複数の異なる言語による対訳テキストT3,T4を一時に表示すれば、視認性が向上するので、対話者がユーザの発話内容を把握し易くなる。さらに、図4(C)及び(D)の如く、アジア系言語と欧米系言語による対訳を別画面に表示するようにすれば、その際の視認性及び利便性が更に向上される。またそのように表示すれば、ユーザが対話者の外見や言動等から対話者の使用言語をある程度絞り込める場合に特に有用である。
【0055】
さらに、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力し、また、その際に、それらの対訳を選定回数又は選定頻度の順に出力することにより、対話者の使用言語をより確実に推定して、その対訳を対話者に呈示することができる。
【0056】
またさらに、複数の異なる言語による対訳のうち適合性指標(翻訳の精度又は確度)が比較的高い上位の所定数の対訳を出力することにより、例えば、対話者が複数の言語を使用又は理解することができる場合に、ある一の言語ではユーザの発話内容を理解できなくとも、他の言語ではユーザの発話内容を理解することができる可能性が高まる。より具体的には、例えば、中国語を話しかつ英語を理解することができる対話者に対し、ユーザの発話内容によっては、英語による対訳の適合性指標が中国語による対訳の適合性指標よりも高い場合、対話者は、中国語の対訳ではユーザの発話内容を理解できないものの、英語の対訳によってそれを理解し得る可能性(つまり、中国語では通じないけれど、英語では通じるケース)が挙げられる。
【0057】
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
【0058】
また、ステップSJ2において、複数の言語による対訳テキストT3,T4のリスト表示に代えて、複数の言語による対訳の音声出力のみとしてもよい。この場合、それらの対訳を、順次読み上げるようにしてもよい。さらに、対話者に単純な回答を求めるのではなく、対話者による発話を求める場合には、図4(C)及び(D)並びに図5(A)及び(B)に示す回答をタップ入力するためのボタンB11〜B15,B21〜B25に代えて、各言語の対訳の近傍に発話ボタンを表示してもよい。具体的には、例えば英語であれば、「お話し下さい。」の意を示す「Please talk.」といったテキストを表示したタップ用のボタン(アイコン)を英語の対訳の下に表示する。また、例えばドイツ語であれば、「お話し下さい。」の意を示す「Bitte sprechen.」といったテキストを表示したタップ用のボタン(アイコン)をドイツ語の対訳の下に表示する。
【0059】
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
【0060】
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
【産業上の利用可能性】
【0061】
本発明によれば、会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進めることができるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。
【符号の説明】
【0062】
10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ
21 プロセッサ
22 通信インターフェイス
23 記憶資源
41 入力切替ボタン
42a,42b 入力ボタン
43 お声がけボタン
44 言語選択ボタン
45 履歴ボタン
46 サジェストボタン
47 設定ボタン
48 マイク図案
49 多重円形図案
51 チェックボックス
100 音声翻訳装置
B1 キャンセルボタン
B11〜B15,B21〜B25 回答用のボタン
D20 データベース
L20 モジュール
M20 モデル
N ネットワーク
P10,P20 プログラム
T1,T2 テキスト
T3,T4 対訳テキスト
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2016年12月2日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザ及び対話者の音声を入力するための入力部と、
前記ユーザによる1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト、又は、テキスト及び音声で出力する出力部と、
前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定する言語選定部と、
を備え、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳装置。
【請求項2】
前記出力部は、前記言語の種類自体を前記画面に表示することなく、前記複数の異なる言語による前記質問事項の対訳のテキスト、及び、前記それぞれの対訳の言語による該質問事項への回答を示すボタンを前記画面に表示する、
請求項1記載の音声翻訳装置。
【請求項3】
前記複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、
前記出力部は、前記複数の異なる言語のうち前記選定回数又は前記選定頻度が比較的高い上位の所定数の言語による対訳を出力する、
請求項1又は2記載の音声翻訳装置。
【請求項4】
前記表示部は、前記所定数の言語による対訳を前記選定回数又は前記選定頻度の順に出力する、
請求項記載の音声翻訳装置。
【請求項5】
前記1つの入力音声の内容と前記複数の異なる言語による対訳のそれぞれとの適合性指標を取得する指標取得部を更に備え、
前記出力部は、前記複数の異なる言語による対訳のうち前記適合性指標が比較的高い上位の所定数の対訳を出力する、
請求項1乃至の何れか記載の音声翻訳装置。
【請求項6】
入力部、翻訳部、出力部、及び言語選定部を備える音声翻訳装置を用い、
前記入力部が、ユーザ及び対話者の音声を入力するステップと、
前記翻訳部が、前記ユーザによる1つの入力音声に対して複数の異なる言語による対訳を取得するステップと、
前記出力部が、前記複数の異なる言語による対訳をテキスト、又は、テキスト及び音声で出力するステップと、
前記言語選定部が、前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定するステップと、
を含み、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳方法。
【請求項7】
コンピュータを、
ユーザ及び対話者の音声を入力するための入力部と、
前記ユーザによる1つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト、又は、テキスト及び音声で出力する出力部と、
前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定する言語選定部と、
して機能させ、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳プログラム。