特開2017-182395 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートライフスタイルの特許一覧

特開2017-182395音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2017-182395(P2017-182395A)

(43)【公開日】2017年10月5日

(54)【発明の名称】音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

(51)【国際特許分類】

G06F 3/16 20060101AFI20170908BHJP

G10L 15/00 20130101ALI20170908BHJP

G10L 15/22 20060101ALI20170908BHJP

G10L 13/00 20060101ALI20170908BHJP

G06F 17/28 20060101ALI20170908BHJP

【ＦＩ】

G06F3/16 610

G10L15/00 200C

G10L15/22 460

G10L13/00 100G

G06F3/16 650

G06F17/28 690

【審査請求】有

【請求項の数】7

【出願形態】ＯＬ

【全頁数】17

(21)【出願番号】特願2016-67703(P2016-67703)

(22)【出願日】2016年3月30日

(71)【出願人】

【識別番号】513267453

【氏名又は名称】株式会社リクルートライフスタイル

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100139066

【弁理士】

【氏名又は名称】伊藤健太郎

(72)【発明者】

【氏名】井村優基

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA01

5B091BA03

5B091CB12

5B091CB28

5B091CD15

(57)【要約】

【課題】会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進める。
【解決手段】本発明の一態様による音声翻訳装置は、ユーザ及び／又は対話者の音声を入力するための入力部と、１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、それらの複数の異なる言語による対訳をテキスト及び／又は音声で出力する出力部を備える。これにより、対話者の使用言語が不明であっても、会話の切っ掛け（契機）を得て、会話を自然に開始しかつ円滑に進めることができ、ユーザの心理的な負担を軽減することが可能となる。
【選択図】図４

【特許請求の範囲】

【請求項1】

ユーザ及び／又は対話者の音声を入力するための入力部と、
１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト及び／又は音声で出力する出力部と、
を備える音声翻訳装置。

【請求項2】

前記出力部は、前記複数の異なる言語による対訳のテキストを一時に表示する、
請求項１記載の音声翻訳装置。

【請求項3】

前記複数の異なる言語による対訳が出力された後に、前記対話者の使用言語を選定する言語選定部を更に備える、
請求項１又は２記載の音声翻訳装置。

【請求項4】

前記複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、
前記出力部は、前記複数の異なる言語のうち前記選定回数又は前記選定頻度が比較的高い上位の所定数の言語による対訳を出力する、
請求項１乃至３の何れか記載の音声翻訳装置。

【請求項5】

前記表示部は、前記所定数の言語による対訳を前記選定回数又は前記選定頻度の順に出力する、
請求項４記載の音声翻訳装置。

【請求項6】

前記１つの入力音声の内容と前記複数の異なる言語による対訳のそれぞれとの適合性指標を取得する指標取得部を更に備え、
前記出力部は、前記複数の異なる言語による対訳のうち前記適合性指標が比較的高い上位の所定数の対訳を出力する、
請求項１乃至５の何れか記載の音声翻訳装置。

【請求項7】

入力部、翻訳部、及び出力部を備える音声翻訳装置を用い、
前記入力部が、ユーザ及び／又は対話者の音声を入力するステップと、
前記翻訳部が、１つの入力音声に対して複数の異なる言語による対訳を取得するステップと、
前記出力部が、前記複数の異なる言語による対訳をテキスト及び／又は音声で出力するステップと、
を含む音声翻訳方法。

【請求項8】

コンピュータを、
ユーザ及び／又は対話者の音声を入力するための入力部と、
１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳をテキスト及び／又は音声で出力する出力部と、
して機能させる音声翻訳プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

【背景技術】

【0002】

互いの言語を理解できない人同士の会話、例えばユーザ（店舗の従業員等）と対話者（外国人客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１及び２参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平９−３４８９５号公報

【特許文献2】特開平２０１４−１６４７５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、例えば特許文献２に図示されているアプリケーションの操作画面のとおり、従来の音声翻訳アプリケーションや装置は、会話に際して、ユーザ及び対話者の使用言語を最初に選択するように構成されている。しかし、かかる言語選択操作は、使用言語が異なる話者同士の会話を行うために必要ではあるものの、ユーザは、会話に際し、言葉が通じない対話者に対して言語選択を依頼する何らかの声掛けを行わなければならない。これは、ユーザの心理的な負担になるとともに、円滑な会話を行うための障害となっていた。

【0005】

そこで、本発明は、かかる事情に鑑みてなされたものであり、会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進めることができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザ及び／又は対話者の音声を入力するための入力部と、１つの入力音声（１フレーズ）に対して（入力音声の言語以外の）複数の異なる言語による対訳を取得する翻訳部と、それらの複数の異なる言語による対訳をテキスト及び／又は音声で出力する出力部とを備える。

【0007】

具体的には、出力部が、複数の異なる言語による対訳のテキストを一時（いっとき）に表示するようにしてもよい。この場合の画面表示は、単一画面に限らず、複数の画面に分割して表示してもよい。さらに、出力部による音声出力は、複数の異なる言語による対訳の全てを出力しなくてもよく、それらのうち例えばユーザ又は対話者が指定した少なくとも１つの対訳の音声を出力してもよい。

【0008】

また、複数の異なる言語による対訳が出力された後に、対話者の使用言語を選定する言語選定部を更に備えてもよい。さらに、複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、出力部が、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力するように構成しても好適である。この場合、出力部は、上記所定数の言語による対訳を選定回数又は選定頻度の順に出力してもよい。なお、「選択頻度」は、複数の異なる言語による対訳が出力された後に言語選択部によって選択された回数に基づく値でもよく、又は、事前に選択された回数に基づく値でもよく、或いは、両者の合計回数に基づく値であってもよい。

【0009】

さらに、１つの入力音声の内容と複数の異なる言語による対訳のそれぞれとの適合性指標（翻訳の精度又は確度を表す指標）を取得する指標取得部を更に備え、出力部が、複数の異なる言語による対訳のうち適合性指標が比較的高い上位の所定数の対訳を出力するようにしても好適である。

【0010】

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、及び出力部を備える音声翻訳装置を用いる方法である。すなわち、当該方法は、入力部が、ユーザ及び／又は対話者の音声を入力するステップと、翻訳部が、１つの入力音声に対して複数の異なる言語による対訳を取得するステップと、出力部が、複数の異なる言語による対訳をテキスト及び／又は音声で出力するステップとを含む。

【0011】

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザ及び／又は対話者の音声を入力するための入力部と、１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、複数の異なる言語による対訳をテキスト及び／又は音声で出力する出力部として機能させる。

【発明の効果】

【0012】

本発明によれば、ユーザと対話者との会話において、例えばユーザが発話した１つの入力音声に対して複数の異なる言語による対訳を取得し、それらの複数の対訳をテキスト及び／又は音声で出力することにより、対話者の使用言語が不明であっても、会話の切っ掛け（契機）を得ることができ、また、ユーザの発話内容を対話者に伝えることができる。よって、会話に先立って対話者の使用言語を選択しなくとも、会話を自然に開始することができ、ユーザの心理的な負担を軽減することができる。また、対話者が理解することができた対訳から対話者の使用言語が判明するので、それ以降の発話では、複数の異なる言語への翻訳が不要となり、その後の会話を円滑に進めることができる。

【図面の簡単な説明】

【0013】

【図1】本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。

【図2】本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。

【図3】本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。

【図4】（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。

【図5】（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。

【発明を実施するための形態】

【0014】

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

【0015】

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザが使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

【0016】

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

【0017】

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

【0018】

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

【0019】

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

【0020】

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

【0021】

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや対話者（会話の相手方）に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

【0022】

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

【0023】

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

【0024】

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、各言語の選択頻度（又は選択回数）等も記憶されている。

【0025】

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

【0026】

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と他言語の音声翻訳の場合、日本語音声コーパス、各他言語音声コーパス、日本語文字（語彙）コーパス、各他言語文字（語彙）コーパス、日本語辞書、各他言語辞書、日本語／各他言語対訳辞書、日本語／各他言語対訳コーパス等）、音声データベース、ユーザに関する情報を管理するための管理用データベース、異なる言語のコーパス間の適合性指標（翻訳の精度又は確度を示す指標）データベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

【0027】

（第１実施形態）
以上のとおり構成された音声翻訳装置１００における音声翻訳処理の操作及び動作の一例（第１実施形態）について、以下に更に説明する。図２は、第１実施形態の音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図４（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、ここでは、情報端末１０のユーザが日本語を話す店員（店舗の従業員）であり、対話者（会話の相手）がフランス語を話す外国人客である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

【0028】

まず、ユーザ（店員）が当該アプリケーションを起動する（ステップＳＵ１）と、情報端末１０の表示デバイス１６に、ホーム画面として、デフォルト言語である日本語と英語の音声入力待機画面が表示デバイス１６に表示される（図４（Ａ）；ステップＳＪ１）。この音声入力待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語のテキストＴ１、並びに、日本語の音声入力を行うための入力ボタン４２ａ及び英語の音声入力を行うための入力ボタン４２ｂが表示される。

【0029】

また、この音声入力待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン４３、対話者の言語を手動で選択するための言語選択ボタン４４、それまでになされた音声入力内容の履歴表示を選択するための履歴ボタン４５、予め用意された複数の定型フレーズ（推奨フレーズ）群のなかから所望の定型フレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン４６、及び当該アプリケーションソフトの各種設定を行うための設定ボタン４７も表示される。

【0030】

次に、図４（Ａ）に示す音声入力待機画面において、ユーザが日本語の入力ボタン４２ａをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図４（Ｂ））。この音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストＴ２、音声入力状態にあることを示すマイク図案４８、及びテキスト入力へ切り替えるための入力切替ボタン４１が表示される。さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、会話を終了するか、音声入力待機画面（図４（Ａ））へ戻って音声入力をやり直すことができる。

【0031】

この状態で、ユーザが対話者への伝達事項等（例えば「御用はございませんか？」といったフレーズ）を発話する（ステップＳＵ２）と、テキストＴ２とともに、その声量の大小を模式的に且つ動的に表す多重円形図案４９が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる。それから、発話が終了し、ユーザがマイク図案４８をタップすると、プロセッサ１１は、ユーザによる発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

【0032】

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３に（必要に応じて適宜のデータベースに）記憶する。

【0033】

次いで、プロセッサ２１は、その入力音声の認識結果を、情報端末１０に送信し、プロセッサ１１は、それを日本語のテキストとして画面表示する（図示省略）。このとき、入力音声の認識結果をそのまま表示してもよいし、予め記憶資源２３に記憶されている日本語の会話コーパスのなかから、実際の入力音声の内容に対応するものを呼び出して表示してもよい。

【0034】

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、各他言語辞書、日本語／各他言語対訳辞書、日本語／各他言語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する各他言語を抽出し、それらを各他言語の文法に従って並び替えて自然な各他言語の句、節、文等へと変換する。このとおり、プロセッサ２１は、１つの入力音声に対して複数の異なる言語による対訳を取得する「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの日本語及び英語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

【0035】

それから、プロセッサ２１は、多言語翻訳処理によって取得した複数の異なる言語による対訳（例えば「御用はございませんか？」の対訳）の出力信号を生成し、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、それらの出力信号に基づいて、例えば図４（Ｃ）及び（Ｄ）に示す対訳テキストＴ３，Ｔ４のリスト画面を表示デバイス１６に表示する。これらの対訳テキストＴ３，Ｔ４のリスト画面は、例えば表示デバイス１６の画面を指で左右にワイプすることにより切り替わる。このとおり、プロセッサ１１，２１及び表示デバイス１６が「出力部」として機能し、複数の異なる言語による対訳テキストＴ３，Ｔ４が表示デバイス１６に一時に表示される。

【0036】

ここで、図４（Ｃ）に示す対訳テキストＴ３のリスト画面には、英語とアジア系言語（中国語、ハングル語、ベトナム語、タガログ語等）による対訳が表示される。また、図４（Ｄ）に示す対訳テキストＴ４のリスト画面には、英語と他の欧米系言語（イタリア語、スペイン語、ドイツ語、フランス語等）による対訳が表示される。また、各対訳テキストＴ３，Ｔ４の直下には、それぞれの言語による回答（「はい」と「いいえ」に相当）をタップ入力するためのボタンＢ１１〜Ｂ１５，Ｂ２１〜Ｂ２５が表示される。

【0037】

次に、ユーザからこの対訳テキストＴ３，Ｔ４のリスト画面を呈示された対話者は、対話者が使用する言語又は自分が理解することができる言語による対訳のテキストがあった場合、その対訳の下方に表示されているボタン（対話者がフランス人であれば、フランス語による対訳の下に表示されているボタンＢ２５）をタップして回答することができる（ステップＳＵ３）。

【0038】

対話者が、ユーザの問い掛けに応じて、ボタンＢ２５の「Ｏｕｉ」（はい）の部分をタップすると、情報端末１０のプロセッサ１１から、その選択信号がサーバ２０へ送信され、その選択信号を受信したプロセッサ２１は、対話者の言語がフランス語であると判断し、会話における対話者の使用言語としてフランス語を選定する（ステップＳＪ３）。

【0039】

次に、プロセッサ２１は、再び音声入力待機画面を表示デバイス１６に表示する（再びステップＳＪ１）。この音声入力待機画面は、英語の入力ボタン４２ｂに代えて、フランス語の音声入力を行うための入力ボタンが表示されること以外は、図４（Ａ）に示す日本語の音声入力待機画面と同様に構成されている（図示省略）。次いで、その音声入力待機画面において、例えばユーザがフランス語の入力ボタンをタップしてフランス語の音声入力を選択すると、対話者のフランス語による発話内容を受け付ける音声入力画面となる。このフランス語の音声入力画面は、日本語のテキスト表示がフランス語のテキスト表示に替わること以外は、図４（Ｂ）に示す日本語の音声入力画面と同様に構成されたものである（図示省略）。

【0040】

この状態で、対話者がユーザへの伝達事項等を発話し（再びステップＳＵ２）、対話者がマイク図案４８をタップすると、プロセッサ１１は、対話者による発話内容の受け付けを終了し、プロセッサ２１による入力音声の音声認識処理、及び、フランス語の内容から日本語の内容への翻訳処理を実行する。

【0041】

それから、プロセッサ２１は、音声合成処理へ移行する。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

【0042】

そして、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してその音声信号を受信し、音声入出力デバイス１３を用いて、日本語の音声出力処理を行う（ここまでステップＳＪ４）。このとおり、プロセッサ１１，２１及び音声入出力デバイス１３も、「出力部」として機能する。なお、音声出力に先立って、対話者の音声認識結果とその翻訳結果を、情報端末１０に一旦表示し、対話者による確認後に、音声出力を行うようにしてもよい（図示省略）。

【0043】

それから、ステップＳＪ１，ＳＵ２，ＳＪ４を必要に応じて適宜繰り返すことにより、ユーザと対話者の会話を進めることができ、会話が終了した後、ユーザは、当該アプリケーションを適宜終了することができる（ステップＳＵ４）。

【0044】

（第２実施形態）
次に、音声翻訳装置１００における音声翻訳処理の操作及び動作の他の一例（第２実施形態）について説明する。図３は、第２実施形態の音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図５（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。この第２実施形態においては、ステップＳＪ２において、複数の言語による対訳テキストＴ３，Ｔ４のリスト表示に加えて、それらの対訳の音声出力を行うこと以外は、第１実施形態と同様の処理を実行する。

【0045】

このときの対訳の音声出力処理としては、例えば、対話者の外見や言動等に基づいてユーザが推定した少なくとも１つの言語による対訳をユーザが指定し、その指定した対訳のみを音声出力してもよいし、翻訳結果として得られた複数の言語による対訳の一部又は全部を自動で音声出力するようにしてもよい。音声出力する対訳を指定する方法としては、例えば図４（Ｃ）及び（Ｄ）に表示された対訳テキストＴ３，Ｔ４のうち所望の対訳の部分をタップする構成、図５（Ａ）及び（Ｂ）に示す如く、対訳のそれぞれに選択用のチェックボックス５１を設けてタップにより指定（チェック）する構成等が挙げられる。こうして音声出力する対訳が指定されると、情報端末１０及びサーバ２０により、それらの対訳の内容の音声合成が行われ、音声入出力デバイス１３を用いて、各言語による対訳の音声出力処理（順次再生）が行われる（ステップＳＪ２）。

【0046】

（第３実施形態）
次に、音声翻訳装置１００における音声翻訳処理の操作及び動作の他の一例（第３実施形態）について説明する。この第３実施形態においては、ステップＳＪ２において、ユーザの店舗や同業種の店舗でのユーザと対話者の会話で選定（使用）される回数又は頻度が比較的高い複数の言語による対訳、つまり、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力すること以外は、第１実施形態又は第２実施形態と同様の処理を実行する。

【0047】

この場合、ユーザの店舗や同業種の店舗における当該音声翻訳アプリケーションを用いた会話において、サーバ２０のプロセッサ２１は、ステップＳＪ３で言語が選定された回数又は頻度を、記憶資源２３における適宜のデータベースに記憶する。或いは、プロセッサ２１は、適宜のタイミングで、ネットワークＮを介して複数のユーザの情報端末１０から各言語の選定回数又は選定頻度を取得し、それらを記憶資源２３における適宜のデータベースに記憶する。このとおり、プロセッサ２１及び記憶資源２３が「記憶部」として機能する。

【0048】

そして、プロセッサ２１は、ステップＳＪ２において、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば図４（Ｃ）及び（Ｄ）に示す対訳テキストＴ３，Ｔ４のリスト画面のように表示する。或いは、プロセッサ２１は、それに加えて又はそれに代えて、複数の言語による対訳のなかから選定回数又は選定頻度が比較的高い言語の対訳を、例えば図４（Ｃ）及び（Ｄ）に示す対訳テキストＴ３，Ｔ４のリスト画面においてより高い順位（例えば画面上方）に表示する。

【0049】

（第４実施形態）
さらに、音声翻訳装置１００における音声翻訳処理の操作及び動作の他の一例（第４実施形態）について説明する。この第４実施形態においては、ステップＳＪ２において、複数の異なる言語による対訳のうち翻訳の精度又は確度が比較的高い複数の対訳、つまり、入力音声の内容と対訳との適合性指標が比較的高い上位の所定数の対訳を出力すること以外は、第１実施形態又は第２実施形態と同様の処理を実行する。

【0050】

この場合、プロセッサ２１は、例えば、各言語のコーパスに収録されている対訳フレーズのそれぞれについての適合性指標を、ネットワークＮに接続されたウェブページや商用データベースから予め取得しておき、或いは、例えばクラウドソーシングを利用した正確性評価により、予め評価又は収集しておく。また、プロセッサ２１は、取得した適合性指標を、各対訳フレーズに関連付けて記憶資源２３に記憶しておく。このとおり、プロセッサ２１及び記憶資源２３が「指標取得部」としても機能する。なお、適合性評価手法としては、例えば、２言語間の意味比較に用いられるＷａｌｋｅｒらの適合性評価（Ｗａｌｋｅｒ，Ｋ．，ｅｔａｌ：Ｍｕｌｔｉｐｌｅ−ＴｒａｎｓｌａｔｉｏｎＡｒａｂｉｃ（ＭＴＡ）Ｐａｒｔ１，ＬｉｎｇｕｉｓｔｉｃＤａｔａＣｏｎｓｏｒｔｉｕｍ，Ｐｈｉｌａｄｅｌｐｈｉａ（２００３））を利用する５段階評価等が挙げられる（但し、これに限定されない）。

【0051】

そして、プロセッサ２１は、ステップＳＪ２において、複数の言語による対訳のなかから適合性指標が比較的高い言語の対訳を所定数選択し、それらの選択された対訳を、例えば図４（Ｃ）及び（Ｄ）に示す対訳テキストＴ３，Ｔ４のリスト画面のように表示する。或いは、プロセッサ２１は、それに加えて又はそれに代えて、複数の言語による対訳のなかから整合性指標が比較的高い言語の対訳を、例えば図４（Ｃ）及び（Ｄ）に示す対訳テキストＴ３，Ｔ４のリスト画面においてより高い順位（例えば画面上方）に表示する。

【0052】

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者の会話を開始するに際し、ユーザが発話した１つの入力音声に対して複数の異なる言語による対訳を取得し、それらの複数の対訳テキストＴ３，Ｔ４を、例えば図４（Ｃ）及び（Ｄ）の如く表示して対話者に呈示し、及び／又は、それらの対訳を音声で出力する。

【0053】

よって、対話者の使用言語が不明であっても、会話の切っ掛け（契機）を得ることができ、また、ユーザの発話内容を対話者に正しく伝えることができる。したがって、会話に先立って対話者の使用言語を選択しなくとも、会話を自然に開始することができ、ユーザの心理的な負担を軽減することができる。また、対話者が理解することができた対訳から対話者の使用言語（実施形態の例では、フランス語）が判明し、それを使用言語として選定するので、それ以降の発話では、複数の異なる言語への翻訳が不要となり、その後の会話を円滑に進めることができる。

【0054】

また、図４（Ｃ）及び（Ｄ）の如く、複数の異なる言語による対訳テキストＴ３，Ｔ４を一時に表示すれば、視認性が向上するので、対話者がユーザの発話内容を把握し易くなる。さらに、図４（Ｃ）及び（Ｄ）の如く、アジア系言語と欧米系言語による対訳を別画面に表示するようにすれば、その際の視認性及び利便性が更に向上される。またそのように表示すれば、ユーザが対話者の外見や言動等から対話者の使用言語をある程度絞り込める場合に特に有用である。

【0055】

さらに、複数の異なる言語のうち選定回数又は選定頻度が比較的高い上位の所定数の言語による対訳を出力し、また、その際に、それらの対訳を選定回数又は選定頻度の順に出力することにより、対話者の使用言語をより確実に推定して、その対訳を対話者に呈示することができる。

【0056】

またさらに、複数の異なる言語による対訳のうち適合性指標（翻訳の精度又は確度）が比較的高い上位の所定数の対訳を出力することにより、例えば、対話者が複数の言語を使用又は理解することができる場合に、ある一の言語ではユーザの発話内容を理解できなくとも、他の言語ではユーザの発話内容を理解することができる可能性が高まる。より具体的には、例えば、中国語を話しかつ英語を理解することができる対話者に対し、ユーザの発話内容によっては、英語による対訳の適合性指標が中国語による対訳の適合性指標よりも高い場合、対話者は、中国語の対訳ではユーザの発話内容を理解できないものの、英語の対訳によってそれを理解し得る可能性（つまり、中国語では通じないけれど、英語では通じるケース）が挙げられる。

【0057】

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

【0058】

また、ステップＳＪ２において、複数の言語による対訳テキストＴ３，Ｔ４のリスト表示に代えて、複数の言語による対訳の音声出力のみとしてもよい。この場合、それらの対訳を、順次読み上げるようにしてもよい。さらに、対話者に単純な回答を求めるのではなく、対話者による発話を求める場合には、図４（Ｃ）及び（Ｄ）並びに図５（Ａ）及び（Ｂ）に示す回答をタップ入力するためのボタンＢ１１〜Ｂ１５，Ｂ２１〜Ｂ２５に代えて、各言語の対訳の近傍に発話ボタンを表示してもよい。具体的には、例えば英語であれば、「お話し下さい。」の意を示す「Ｐｌｅａｓｅｔａｌｋ．」といったテキストを表示したタップ用のボタン（アイコン）を英語の対訳の下に表示する。また、例えばドイツ語であれば、「お話し下さい。」の意を示す「Ｂｉｔｔｅｓｐｒｅｃｈｅｎ．」といったテキストを表示したタップ用のボタン（アイコン）をドイツ語の対訳の下に表示する。

【0059】

また、音声認識、翻訳、音声合成等の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

【0060】

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

【産業上の利用可能性】

【0061】

本発明によれば、会話の開始時に言語選択を行うことなく、ユーザと対話者の会話を自然に開始しかつ円滑に進めることができるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

【符号の説明】

【0062】

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
４１入力切替ボタン
４２ａ，４２ｂ入力ボタン
４３お声がけボタン
４４言語選択ボタン
４５履歴ボタン
４６サジェストボタン
４７設定ボタン
４８マイク図案
４９多重円形図案
５１チェックボックス
１００音声翻訳装置
Ｂ１キャンセルボタン
Ｂ１１〜Ｂ１５，Ｂ２１〜Ｂ２５回答用のボタン
Ｄ２０データベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐ１０，Ｐ２０プログラム
Ｔ１，Ｔ２テキスト
Ｔ３，Ｔ４対訳テキスト

【図1】

【図2】

【図3】

【図4】

【図5】

【手続補正書】

【提出日】2016年12月2日

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ユーザ及び対話者の音声を入力するための入力部と、
前記ユーザによる１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳を、テキスト、又は、テキスト及び音声で出力する出力部と、
前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定する言語選定部と、
を備え、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳装置。

【請求項2】

前記出力部は、前記言語の種類自体を前記画面に表示することなく、前記複数の異なる言語による前記質問事項の対訳のテキスト、及び、前記それぞれの対訳の言語による該質問事項への回答を示すボタンを前記画面に表示する、
請求項１記載の音声翻訳装置。

【請求項3】

前記複数の異なる言語のそれぞれの選定回数又は選定頻度を記憶又は取得する記憶部を更に備え、
前記出力部は、前記複数の異なる言語のうち前記選定回数又は前記選定頻度が比較的高い上位の所定数の言語による対訳を出力する、
請求項１又は２記載の音声翻訳装置。

【請求項4】

前記表示部は、前記所定数の言語による対訳を前記選定回数又は前記選定頻度の順に出力する、
請求項３記載の音声翻訳装置。

【請求項5】

前記１つの入力音声の内容と前記複数の異なる言語による対訳のそれぞれとの適合性指標を取得する指標取得部を更に備え、
前記出力部は、前記複数の異なる言語による対訳のうち前記適合性指標が比較的高い上位の所定数の対訳を出力する、
請求項１乃至４の何れか記載の音声翻訳装置。

【請求項6】

入力部、翻訳部、出力部、及び言語選定部を備える音声翻訳装置を用い、
前記入力部が、ユーザ及び対話者の音声を入力するステップと、
前記翻訳部が、前記ユーザによる１つの入力音声に対して複数の異なる言語による対訳を取得するステップと、
前記出力部が、前記複数の異なる言語による対訳を、テキスト、又は、テキスト及び音声で出力するステップと、
前記言語選定部が、前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定するステップと、
を含み、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳方法。

【請求項7】

コンピュータを、
ユーザ及び対話者の音声を入力するための入力部と、
前記ユーザによる１つの入力音声に対して複数の異なる言語による対訳を取得する翻訳部と、
前記複数の異なる言語による対訳を、テキスト、又は、テキスト及び音声で出力する出力部と、
前記複数の異なる言語による対訳のテキストが出力された後に、前記対話者の使用言語を選定する言語選定部と、
して機能させ、
前記出力部は、前記入力音声が質問事項であるときに、前記複数の異なる言語による該質問事項の対訳のテキストを画面に一時に表示し、かつ、該それぞれの対訳のテキストについて、該それぞれの対訳の言語による該質問事項への回答を示すボタンを表示し、
前記言語選定部は、前記ボタンの何れかがタップされた場合に、該タップされたボタンの回答に対応する言語を、前記対話者の使用言語として選定する、
音声翻訳プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特開2017-182395(P2017-182395A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版