特許第6570893号(P6570893)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000002
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000003
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000004
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000005
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000006
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000007
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000008
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000009
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000010
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000011
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000012
  • 特許6570893-翻訳支援システムおよび情報処理装置 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6570893
(24)【登録日】2019年8月16日
(45)【発行日】2019年9月4日
(54)【発明の名称】翻訳支援システムおよび情報処理装置
(51)【国際特許分類】
   G06F 17/28 20060101AFI20190826BHJP
   G06F 3/16 20060101ALI20190826BHJP
   G06F 13/00 20060101ALI20190826BHJP
   G10L 15/00 20130101ALI20190826BHJP
【FI】
   G06F17/28 690
   G06F17/28 654
   G06F3/16 620
   G06F3/16 650
   G06F13/00 540T
   G10L15/00 200C
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2015-125675(P2015-125675)
(22)【出願日】2015年6月23日
(65)【公開番号】特開2017-10311(P2017-10311A)
(43)【公開日】2017年1月12日
【審査請求日】2018年2月8日
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】110000752
【氏名又は名称】特許業務法人朝日特許事務所
(72)【発明者】
【氏名】松沼 健一
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開2015−036826(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/27−17/28
G06F 3/048−3/0489
G06F 3/16
G06F 13/00
G10L 15/00−17/26
(57)【特許請求の範囲】
【請求項1】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の顔の画像を取得する情報取得手段と、
前記画像から前記話者が怒ってると判断された場合、当該話者が怒っていないと判断される場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
【請求項2】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の周囲の雑音レベルを示す情報を取得する情報取得手段と、
前記雑音レベルが雑音しきい値よりも高い場合、当該雑音レベルが当該雑音しきい値以下である場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
【請求項3】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記オペレータの稼働率を示す情報を取得する情報取得手段と、
前記稼働率が稼働率しきい値よりも高い場合、当該稼働率が当該稼働率しきい値以下である場合と比較して前記不良範囲にあると判定されにくくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
【請求項4】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記音声取得手段によって取得された音声により示される会話の内容を示す情報を取得する情報取得手段と、
前記会話において特定の商品の購入が示唆される場合、当該商品の購入が示唆されない場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する翻訳支援システム。
【請求項5】
前記オペレータへの呼接続時に、前記音声または当該音声に対する音声認識の結果である文字列の履歴を当該オペレータに送信する送信手段
を有する請求項1ないしのいずれか一項に記載の翻訳支援システム。
【請求項6】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の顔の画像を取得する情報取得手段と、
前記画像から前記話者が怒ってると判断された場合、当該話者が怒っていないと判断される場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
【請求項7】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記話者の周囲の雑音レベルを示す情報を取得する情報取得手段と、
前記雑音レベルが雑音しきい値よりも高い場合、当該雑音レベルが当該雑音しきい値以下である場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
【請求項8】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記オペレータの稼働率を示す情報を取得する情報取得手段と、
前記稼働率が稼働率しきい値よりも高い場合、当該稼働率が当該稼働率しきい値以下である場合と比較して前記不良範囲にあると判定されにくくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
【請求項9】
第1言語で話す話者の音声を取得する音声取得手段と、
前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、
前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、
前記翻訳精度が前記不良範囲にあると判定された場合、オペレータへの呼接続の処理または当該呼接続を前記話者に促す処理を行う処理手段と、
前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段と
前記音声取得手段によって取得された音声により示される会話の内容を示す情報を取得する情報取得手段と、
前記会話において特定の商品の購入が示唆される場合、当該商品の購入が示唆されない場合と比較して前記不良範囲にあると判定されやすくなるように、前記翻訳精度を判定するための精度しきい値を決定する決定手段と
を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を介した機械翻訳と人間による翻訳とを併用する技術に関する。
【背景技術】
【0002】
外国人観光客の増加に伴い、小売店やサービス提供事業者における翻訳のニーズが高まっている。例えば、特許文献1には自動翻訳の翻訳レベルが低い場合に、同じ文を翻訳家に再翻訳させる技術が記載されている。また、非特許文献1には、音声の自動翻訳とオペレータとの電話による翻訳とを併用する、スマートフォン向けのアプリケーションプログラムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−32217号公報
【非特許文献】
【0004】
【非特許文献1】“世界初の通訳アプリ「SmartTrip」を昭文社と共同開発”、[online]、平成27年、[2015年6月9日検索]、インターネット<URL: http://www.wi-ho.net/news/1954.html>
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1および非特許文献1に記載の技術においては、いずれも、機械翻訳と人間による翻訳とはユーザが手動で切り替える必要があり不便であった。
これに対し本発明は、機械翻訳と人間による翻訳とを自動的に切り替える技術を提供する。
【課題を解決するための手段】
【0006】
本発明は、第1言語で話す話者の音声を取得する音声取得手段と、前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続する通信手段と、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段とを有する翻訳支援システムを提供する。
【0007】
この翻訳支援システムは、前記翻訳支援システムまたは前記話者に関する情報を取得する情報取得手段と、情報取得手段により取得された情報に応じて前記不良範囲を決定する決定手段とを有してもよい。
【0008】
前記情報取得手段は、前記話者の画像を取得してもよい。
【0009】
前記情報取得手段は、前記話者の属性を取得してもよい。
【0010】
前記情報取得手段は、前記話者の周辺環境を示す情報を取得してもよい。
【0011】
前記情報取得手段は、前記オペレータの混雑度合いを示す情報を取得してもよい。
【0012】
前記情報取得手段は、前記音声取得手段によって取得された音声により示される会話の内容を取得してもよい。
【0013】
この翻訳支援システムは、前記オペレータへの接続時に、前記音声または当該音声に対する音声認識の結果である文字列の履歴を当該オペレータに送信する送信手段を有してもよい。
【0014】
また、本発明は、第1言語で話す話者の音声を取得する音声取得手段と、前記音声取得手段により取得された音声により示される文を第2言語に翻訳する翻訳手段と、前記翻訳手段における翻訳精度が、あらかじめ決められた不良範囲にあるか判定する判定手段と、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続する通信手段と、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳手段により翻訳された結果を出力する出力手段とを有する情報処理装置を提供する。
【0015】
さらに、本発明は、コンピュータに、第1言語で話す話者の音声を取得するステップと、前記取得された音声により示される文を第2言語に翻訳をするステップと、前記翻訳における翻訳精度が、あらかじめ決められた不良範囲にあるか判定するステップと、前記翻訳精度が前記不良範囲にあると判定された場合、オペレータに呼接続するステップと、前記オペレータに呼接続されているときは当該オペレータの音声を、当該オペレータに接続されていないときは前記翻訳された結果を出力するステップとを実行させるためのプログラムを提供する。
【発明の効果】
【0016】
本発明によれば、機械翻訳と人間による翻訳とを翻訳精度に応じて自動的に切り替えることができる。
【図面の簡単な説明】
【0017】
図1】一実施形態に係る翻訳支援システム1の概要を示す図
図2】翻訳支援システム1の機能構成を例示する図
図3】ユーザ端末10のハードウェア構成を例示する図
図4】サーバ20のハードウェア構成を例示する図
図5】オペレータ端末30のハードウェア構成を例示する図
図6】翻訳支援システム1の一実施形態に係る動作を例示するシーケンスチャート
図7】ユーザ端末10におけるUI画面を例示する図
図8】第1言語が選択された後のUI画面を例示する図
図9】翻訳文が表示されているUI画面を例示する図
図10】話者と翻訳オペレータOとの会話を例示する模式図
図11】呼接続を促す画像を例示する図
図12】変形例6に係るユーザ端末10の機能構成を例示する図
【発明を実施するための形態】
【0018】
1.構成
図1は、一実施形態に係る翻訳支援システム1の概要を示す図である。翻訳支援システム1は、第1言語を話す第1話者U1と第2言語を話す第2話者U2との会話を支援するシステムである。翻訳支援システム1は、例えば、店舗における外国人相手の接客に用いられる。この例で、第1話者U1は英語を話す外国人客であり、第2話者U2は日本語を話す店員である。
【0019】
翻訳支援システム1は、ユーザ端末10、サーバ20、およびオペレータ端末30を有する。ユーザ端末10は、店舗において用いられる端末であり、第1話者U1と第2話者U2とのインターフェースとして機能する。オペレータ端末30は翻訳オペレータO(すなわち人間の通訳)により用いられる端末である。サーバ20は、ユーザ端末10とオペレータ端末30との接続を管理するための装置である。ユーザ端末10、サーバ20、およびオペレータ端末30は、ネットワーク40を介して互いに接続されている。ネットワーク40は、例えば、インターネットおよび移動通信網を含む。なお、翻訳支援システム1はユーザ端末10およびオペレータ端末30をそれぞれ複数有していてもよいが、ここでは図面を簡単にするためそれぞれ1台のみ示している。
【0020】
図2は、翻訳支援システム1の機能構成を例示する図である。この例では、ユーザ端末10が、表示手段11、音声入力手段12、音声取得手段13、送信手段14、通信手段15、音声出力手段16、および処理手段17を有し、サーバ20が、受信手段21、音声認識手段22、翻訳手段23、送信手段24、判定手段25、および接続制御手段26を有し、オペレータ端末30が、通信手段31を有する。
【0021】
ユーザ端末10において、表示手段11は、UI(User Interface)画面を表示する。音声入力手段12は、話者の音声の入力を受け付ける。音声取得手段13は、音声入力手段12により入力が受け付けられた音声をデータ化した音声データを取得する。送信手段14は、音声取得手段13により取得された音声データをサーバ20に送信する。
【0022】
サーバ20において、受信手段21は、ユーザ端末10から音声データを受信する。音声認識手段22は、受信手段21により受信された音声データに対し、音声認識処理を行う。ここで、音声認識処理とは、人間の話し言葉を文字列に変換することをいう。翻訳手段23は、音声認識手段22により得られた文字列すなわち文を別の言語に翻訳する。送信手段24は、翻訳手段23により翻訳の結果を示すデータをユーザ端末10に送信する。判定手段25は、翻訳手段23における翻訳精度があらかじめ決められた不良範囲にあるか判定する。翻訳手段23における翻訳精度が不良範囲にあると判定された場合、接続制御手段26は、ユーザ端末10とオペレータ端末30とを呼接続するように制御する。
【0023】
ユーザ端末10において、通信手段15は、オペレータ端末30と呼接続する。処理手段17は、オペレータ端末30との呼接続を開始させるための処理またはその呼接続を話者に促すための処理を行う。オペレータ端末30において、通信手段31は、ユーザ端末10と呼接続する。ここでいう呼接続は、少なくとも音声を通信するための通信接続をいう。ユーザ端末10において、音声出力手段16は、翻訳結果を音声で出力する。通信手段15によってオペレータ端末30と呼接続されている場合、音声出力手段は、オペレータの音声を出力する。
【0024】
この例で、サーバ20はさらに、情報取得手段27および決定手段28を有する。情報取得手段27は、翻訳支援システム1または話者に関する情報を取得する。決定手段28は、情報取得手段により取得された情報に応じて、翻訳手段23における不良範囲を決定する。
【0025】
図3は、ユーザ端末10のハードウェア構成を例示する図である。ユーザ端末10は、例えばタブレット端末である。ユーザ端末10は、CPU100、ROM101、RAM102、ストレージ103、通信IF104、表示部105、タッチセンサ106、マイクロフォン107、およびスピーカ108を有するコンピュータ装置(情報処理装置)である。
【0026】
CPU100は、ユーザ端末10の他のハードウェア要素を制御するプロセッサである。ROM101は、ユーザ端末10の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。RAM102は、CPU100がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ103は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信IF104は、ネットワーク40を介した通信を行うためのインターフェースである。この例で、通信IF104は、移動通信網を介して通信を行うためのインターフェースを含む。表示部105は、情報を表示する表示装置であり、例えば液晶ディスプレイを含む。タッチセンサ106は、指示体(例えばユーザの指)により触れられた位置を検知するセンサである。この例で、タッチセンサ106は表示部105の表示面上に設けられており、いわゆるタッチスクリーンを構成する。マイクロフォン107は、ユーザの音声を集音する。スピーカ108は、音声を出力する。
【0027】
この例で、ストレージ103は、コンピュータ装置を翻訳支援システム1のユーザ端末として機能させるためのクライアントプログラムを記憶している。CPU100がこのクライアントプログラムを実行することにより、図2に示される機能が実装される。表示部105は、表示手段11の一例である。マイクロフォン107は、音声入力手段12の一例である。CPU100は、音声取得手段13の一例である。通信IF104は、送信手段14および通信手段15の一例である。スピーカ108は、音声出力手段16の一例である。
【0028】
図4は、サーバ20のハードウェア構成を例示する図である。サーバ20は、CPU200、ROM201、RAM202、ストレージ203、および通信IF204を有するコンピュータ装置である。
【0029】
CPU200は、サーバ20の他のハードウェア要素を制御するプロセッサである。ROM201は、サーバ20の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。RAM202は、CPU200がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ203は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信IF204は、ネットワーク40を介した通信を行うためのインターフェースである。
【0030】
この例で、ストレージ203は、コンピュータ装置を翻訳支援システム1のサーバとして機能させるためのサーバプログラムを記憶している。CPU200がこのサーバプログラムを実行することにより、図2に示される機能が実装される。通信IF204は、受信手段21および送信手段24の一例である。CPU200は、音声認識手段22、翻訳手段23、判定手段25、接続制御手段26、情報取得手段27、および決定手段28の一例である。
【0031】
図5は、オペレータ端末30のハードウェア構成を例示する図である。オペレータ端末30は、例えばデスクトップ型のPC(Personal Computer)である。オペレータ端末30は、CPU300、ROM301、RAM302、ストレージ303、通信IF304、表示部305、キーボード306、マイクロフォン307、およびスピーカ308を有するコンピュータ装置である。
【0032】
CPU300は、オペレータ端末30の他のハードウェア要素を制御するプロセッサである。ROM301は、オペレータ端末30の動作に用いられるプログラムおよびデータを記憶した不揮発性の記憶装置である。RAM302は、CPU300がプログラムを実行する際のワークエリアとして機能する揮発性の記憶装置である。ストレージ303は、各種のプログラムおよびデータを記憶する、書き換え可能な不揮発性の記憶装置である。通信IF304は、ネットワーク40を介した通信を行うためのインターフェースである。表示部305は、情報を表示する表示装置であり、例えば液晶ディスプレイを含む。キーボード306は、オペレータが情報を入力するための入力装置である。マイクロフォン307は、オペレータの音声を集音する。スピーカ308は、音声を出力する。
【0033】
この例で、ストレージ303は、コンピュータ装置を翻訳支援システム1のオペレータ端末として機能させるためのオペレータ端末プログラムを記憶している。CPU300がこのオペレータ端末プログラムを実行することにより、図2に示される機能が実装される。通信IF304は、通信手段31の一例である。
【0034】
2.動作
2−1.概要
図6は、翻訳支援システム1の一実施形態に係る動作を例示するシーケンスチャートである。以下、翻訳支援システム1が店舗における外国人相手の接客に用いられる例を説明する。この例で、第1話者U1は英語(第1言語の一例)を話す外国人客であり、第2話者U2は日本語(第2言語の一例)を話す店員である。図6のフローは、例えば、ユーザ端末10の電源が投入されたことを契機として開始される。
【0035】
ステップS100において、ユーザ端末10は、UI画面を表示する。
【0036】
図7は、ユーザ端末10におけるUI画面を例示する図である。このUI画面は、ボタン51〜54を含んでいる。ボタン51〜54は、客すなわち第1話者U1に第1言語を選択させるための選択肢を示す画像オブジェクトである。具体的には、ボタン51〜54は、それぞれ、第1言語として英語、仏語、中国語、および韓国語を選択するためのボタンである。客は、ユーザ端末10のタッチスクリーンにおいて、自分が話す言語に対応するボタンが表示されている位置に触れることにより、第1言語を選択する。この例では英語が選択される。なお以下の説明において、タッチスクリーンにおいてボタンが表示されている位置に触れることを単に「ボタンを押す」という。
【0037】
図8は、第1言語が選択された後のUI画面を例示する図である。このUI画面は、ボタン55およびボタン56を含んでいる。ボタン55は、話者が客すなわち第1話者U1であることを特定するためのボタンであり、ボタン56は、話者が店員すなわち第2話者U2であることを特定するためのボタンである。客は、自分が話をするときにはボタン55を押す。店員は、自分が話をするときにはボタン56を押す。これらのボタンにより、ユーザ端末10は、いま話をしている話者が第1話者U1であるか第2話者U2であるか容易に特定することができる。
【0038】
再び図6を参照する。ステップS101において、ユーザ端末10のCPU100は、第1言語および第2言語、並びにユーザ端末10を特定する情報を、通信IF104を介してサーバ20に送信する。この情報により、サーバは、翻訳元の言語および翻訳先の言語を特定することができる。
【0039】
ステップS102において、CPU100は、マイクロフォン107を介して入力された音声をデータ化し、音声データを得る。CPU100は、この音声データに、話者が話している言語の識別子を付加する。ステップS103において、CPU100は、音声データを、通信IF104を介してサーバ20に送信する。
【0040】
ステップS104において、サーバ20のCPU200は、ユーザ端末10から受信した音声データに対し、音声認識処理を行う。この音声データには、言語を特定する識別子が付加されている。CPU200は、この識別子を参照し、識別子により示される言語に適した辞書およびアルゴリズムを用いて音声認識処理を行う。音声認識処理により、話者の話し言葉から変換された文字列のデータが得られる。以下、音声認識処理により得られた文字列を「対象原文」という。このデータには、対象原文の言語を特定する識別子が含まれる。
【0041】
ステップS105において、CPU200は、対象原文を翻訳する。対象原文の言語はデータに含まれる識別子により示され、また、翻訳先の言語はステップS101で送信された情報により示される。CPU200は、これらの情報により示される言語に適した辞書およびアルゴリズムを用いて翻訳を行う。翻訳により、対象原文を翻訳した文字列が得られる。以下、翻訳により得られた文字列を対象翻訳文という。
【0042】
ステップS106において、CPU200は、翻訳精度の判定を行う。この例で、翻訳精度の判定は、以下のとおり行われる。まず、CPU200は、対象翻訳文を対象原文の言語に再翻訳する。再翻訳により得られた文字列を「対象再翻訳文」という。CPU200は、対象再翻訳文と対象原文とを対比し、両者の近似度に基づいて翻訳精度を判定する。具体的には、CPU200は、所定のアルゴリズムにより対象再翻訳文と対象原文との近似度を数値として算出する。CPU200は、算出された近似度をしきい値と比較し、近似度がしきい値よりも低い(対象再翻訳文と対象原文とが近似していない)場合に、翻訳精度が不良範囲にあると判定する。この例で、このしきい値は、翻訳支援システム1および2人の話者の少なくともいずれかの状況に応じて動的に決定される。しきい値の決定方法の詳細は後述する。翻訳精度が不良範囲にないと判断された場合、CPU200は、処理をステップS107に移行する。翻訳精度が不良範囲にあると判断された場合、CPU200は、処理をステップS110に移行する。
【0043】
ステップS107において、CPU200は、対象翻訳文を用いて音声合成処理を行う。音声合成処理により、対象翻訳文の音声データが得られる。ステップS108において、CPU200は、対象原文の文字データ、対象翻訳文の文字データ、および対象翻訳文の音声データを、対象原文の音声データの送信元であるユーザ端末10に送信する。
【0044】
ステップS109において、ユーザ端末10のCPU100は、サーバ20から受信したデータに基づき、翻訳文を出力する。翻訳文の出力は、対象翻訳文の文字列の表示および対象翻訳文の音声の出力を含む。この例では、さらに、対象原文の文字列の表示も行われる。
【0045】
図9は、翻訳文が表示されているUI画面を例示する図である。このUI画面においては、第1話者U1の話し言葉と第2話者U2の話し言葉とを区別可能なように、第1話者U1と第2話者U2とで、例えば、文字の書体、色、大きさ、および表示位置の少なくとも1つが異なっている。また、原文と翻訳文とにおいても、文字の書体、色、大きさ、および表示位置の少なくとも1つが異なっている。
【0046】
この例では、客の「How much is this?」という話し言葉に対して、音声認識により得られた「How much is this?」という原文、および「これはいくらですか?」という翻訳文が表示されている。さらに、これに対する店員の「20,000円です」という話し言葉に対して「20,000円です」という原文、および「20,000 JPY」という翻訳文が表示されている。このように、翻訳文と併せて音声認識の結果得られた原文の文字列を表示することにより、話者は、自分の話し言葉が正しく認識されているか確認しながら会話を進めることができる。音声認識の結果が誤っていた場合、話者は、再度ゆっくり話して正しい情報を伝えることができる。
【0047】
再び図6を参照する。ステップS110において、CPU200は、話者と翻訳オペレータO(通訳)とを通話させるため、翻訳オペレータOを選択する。サーバ20は、翻訳支援システム1においてサービス提供可能な翻訳オペレータOの一覧を含むデータベースをストレージ203に記憶している。このデータベースには、各翻訳オペレータOが対応可能な言語を示す情報、その翻訳オペレータOが現在稼働中かどうかを示す情報、およびその翻訳オペレータOが使用しているオペレータ端末30の識別子が含まれている。CPU200は、現在稼働中の翻訳オペレータOの中から、第1言語および第2言語に対応可能な翻訳オペレータOを選択する。
【0048】
ステップS111において、CPU200は、選択された翻訳オペレータOが使用しているオペレータ端末30の識別子、およびオペレータへの接続指令を、ユーザ端末10に送信する。
【0049】
サーバ20からオペレータへの接続指令を受信すると、ユーザ端末10のCPU100は、接続指令と共に受信した識別子により特定されるオペレータ端末30に対し、呼接続を要求する(ステップS112)。ここでいう呼接続は、音声通信回線を介したものであってもよいし、データ通信回線を介したものであってもよい。ユーザ端末10およびオペレータ端末30は、周知の技術により呼接続を確立する(ステップS113)。すなわち通信回線を接続する。呼接続されると、話者と翻訳オペレータOとは、通常の電話と同じように話をすることができる。
【0050】
ユーザ端末10のCPU100は、オペレータ端末30との呼接続が確立されると、会話の履歴データをオペレータ端末30に送信する。会話の履歴データとは、第1話者U1および第2話者U2の話し言葉に関し、原文および翻訳文の文字データおよび音声データの少なくとも一方の履歴を含むデータをいう。履歴データを受信すると、オペレータ端末30のCPU300は、例えば表示部305に会話の履歴を表示する。これにより、翻訳オペレータOは、それまでの会話の流れを把握することができる。
【0051】
話者の音声はマイクロフォン107により集音され、ネットワーク40を介してオペレータ端末30に提供される。翻訳オペレータOの音声はマイクロフォン307により集音され、ネットワーク40を介してユーザ端末10に提供される。翻訳オペレータOの音声はスピーカ108から出力される。なお、翻訳オペレータOの呼接続が切断されると、機械翻訳に戻る。UI画面には、例えば呼接続が切断するためのボタンが含まれる。
【0052】
図10は、話者と翻訳オペレータOとの会話を例示する模式図である。ユーザ端末10においてマイクロフォン107およびスピーカ108は第1話者U1および第2話者U2がいずれも使用可能な、いわゆるスピーカフォンの状態であり、互いにユーザ端末10に向かって話しかけることで会話が成立する。
【0053】
以上で説明したように本実施形態によれば、サーバ20における翻訳(いわゆる機械翻訳)の精度が低いときには、自動的に翻訳オペレータOと呼接続される。
【0054】
2−2.翻訳精度判定のしきい値の決定
翻訳精度判定のしきい値(以下「精度しきい値」という)は、翻訳支援システム1、第1話者U1、および第2話者U2の少なくともいずれか一者の状況に応じて動的に決定される。サーバ20のCPU200は、これらの状況を示す情報を取得し、これを参照して精度しきい値を決定する。以下、精度しきい値の決定方法について具体例を挙げて説明する。以下で説明する精度しきい値の決定は、どのようなタイミングで行われてもよい。例えば、話者の発言毎に精度しきい値の決定が行われてもよいし、定期的に(例えば1日1回)精度しきい値の決定が行われてもよい。以下で説明する決定方法はいずれか1つだけが用いられてもよいし、2つ以上のものが組み合わせて用いられてもよい。このように、状況に応じてしきい値を動的に決定することにより、状況により適したサービスを提供することができる。
【0055】
2−2−1.翻訳支援システム1の状況に応じた決定
ここでいう翻訳支援システム1の状況とは、第1話者U1または第2話者U2の個人的な属性以外の状況をいう。翻訳支援システム1の状況には、例えば以下のものがある。
【0056】
(1)周囲の雑音
「周囲の雑音」とは、ユーザ端末10のマイクロフォン107が集音する音声のうち、話者の音声以外の音をいう。例えば店舗において雑音(他の店員や客の話し声、館内放送、BGM等)が大きいと話者の声と雑音の分離が難しくなり、音声認識における誤認識の原因となる。したがって、雑音レベルが所定のしきい値よりも高い場合、サーバ20のCPU200は、翻訳オペレータOに接続されやすくなるよう、精度しきい値を上げる。周囲の雑音レベルは、例えば、ユーザ端末10において、ボタン55およびボタン56のいずれも押されていないときに測定される。
【0057】
(2)店舗の属性
「店舗の属性」とは、ここでは店舗の混雑度に関係する情報をいう。例えば、店舗の所在地や平均来客数がここでいう店舗の属性に相当する。混雑しやすい店舗はそれだけ客が多い可能性が高いので、精度の低い機械翻訳で一人の客の対応に手間取ると、他の客の対応ができなくなってしまう場合がある。したがって、店舗の属性によりその店舗が混雑しやすいと判断される場合、CPU200は、翻訳オペレータOに接続されやすくなるよう、精度しきい値を上げる。店舗の属性は、例えば、あらかじめデータベースに登録されている。
【0058】
(3)会話内容
「会話内容」とは第1話者U1と第2話者U2との会話(すなわち客と店員との会話)の内容をいう。例えば特定の商品(高額な商品や専門的な商品)の購入を検討している客と店員との会話においては、機械翻訳では齟齬が生じてしまう可能性がある。したがって、会話の内容から例えば特定商品の購入が示唆されるような場合、CPU200は、翻訳オペレータOに接続されやすくなるよう、精度しきい値を上げる。会話内容は、例えば対象原文に基づいてCPU200が判断する。
【0059】
(4)翻訳オペレータOの混雑度
翻訳オペレータOの稼働率が高い場合、例えば、100人いる翻訳オペレータOのうち90人が通話中であるような場合、今後新たな呼接続に対応できる余力は10人分しか残されていない。このような場合、余力がゼロとなることを避けるため、CPU200は、翻訳オペレータOに接続されにくくなるよう、精度しきい値を下げる。翻訳オペレータOの稼働率は、オペレータ端末30からサーバ20に送信される稼働状況から得られる。
【0060】
(5)日時
店舗の混雑度は、日時に応じて変わる。例えば、土曜、日曜、祝日は混雑しやすいので、精度の低い機械翻訳で一人の客の対応に手間取ると、他の客の対応ができなくなってしまう場合がある。したがって、現在日時が混雑しやすい日時帯に入っている場合、CPU200は、翻訳オペレータOに接続されやすくなるよう、精度しきい値を上げる。
【0061】
2−2−2.第1話者U1の状況に応じた決定
(1)第1話者U1の画像
例えば会話が通じないため第1話者U1(客)が怒ってしまったような場合、第1話者U1および第2話者U2の話している内容を互いに正確に理解するため、翻訳オペレータOに接続することが望ましい。そこでこの例では、第1話者U1の画像を用いて、第1話者U1が怒っているかどうかが判断される。この場合、ユーザ端末10は、話者の顔を撮影するためのカメラ(図示略)を有している。CPU100は、ボタン55が押されているときにカメラで話者の顔を撮影する。CPU100は、撮影された画像(静止画または動画)から、話者が怒っているか判断する。話者が怒っていると判断された場合、CPU100は、その旨をサーバ20に通知する。この通知を受けると、サーバ20のCPU200は、翻訳オペレータOに接続されやすくなるよう、精度しきい値を上げる。
【0062】
(2)第1言語
例えば文法構造の違いや辞書の完成度の違いに起因して、特定の言語については他の言語よりも機械翻訳の精度が劣る場合がある。このような場合に対処するため、CPU200は、第1言語の種類に応じて精度しきい値を変更する。
【0063】
(3)第1話者U1の個人的な属性
例えば統計調査により、女性は機械翻訳よりも翻訳オペレータOを好むとか、20代の若者は翻訳オペレータOよりも機械翻訳を好むとかいう情報が得られている場合、CPU200は、現在の話者の属性(年齢、性別等)に応じて精度しきい値を変更する。
【0064】
2−2−3.第2話者U2の状況に応じた決定
第2話者U2は店舗の店員であるので、どのような人物であるか事前に分かっている。そこで、話者毎(店員毎)に、精度しきい値が設定される。例えば、英語に堪能な店員に対しては翻訳オペレータOに接続されにくくなるよう精度しきい値を下げ、英語が苦手な店員に対しては翻訳オペレータOに接続されやすくなるよう精度しきい値を上げる。第2話者U2がどの店員であるかは、例えばユーザ端末10へのログイン処理により特定される。
【0065】
3.変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上のものが組み合わせて用いられてもよい。
【0066】
3−1.変形例1
翻訳精度が不良範囲にあると判断された場合の処理は、実施形態で説明した、自動的に(強制的に)オペレータ端末30に呼接続を行うものに限定されない。翻訳精度が不良範囲にあると判断された場合、CPU100は、オペレータ端末30への呼接続を話者に促す処理を行ってもよい。呼接続を促す処理は、例えば、呼接続を促す音声の出力および呼接続を促す画像の表示の少なくとも一方を含む。
【0067】
図11は、呼接続を促す画像を例示する図である。この例では、図9で説明したUI画面上にポップアップウインドウ60が表示されている。ポップアップウインドウ60は、呼接続を促すメッセージ61および呼接続を開始するためのボタン62を含んでいる。この例で、メッセージ61は、「翻訳精度が悪いのでオペレータへの接続をお薦めします」という文字列を含んでいる。話者がボタン62を押すと、CPU100は、オペレータ端末30との呼接続を行う。ボタン62が押されないまま一定時間が経過した場合、またはポップアップウインドウ60を閉じる操作が話者により行われた場合、CPU100は、画面上からポップアップウインドウ60を消去する。この場合、オペレータ端末30との呼接続は行われない。
【0068】
3−2.変形例2
履歴データとして送られる会話の範囲(例えば、直近の2回分を送るのか3回分を送るのか)が、翻訳支援システム1、第1話者U1、および第2話者U2の少なくともいずれか一者の状況に応じて動的に決定されてもよい。例えば、第1話者U1が怒っていると判断された場合には、CPU100は通常よりも過去に遡った履歴をサーバ20に送信してもよい。あるいは、ユーザ端末10は、オペレータ端末30と呼接続したときに履歴データを送信しなくてもよい。
【0069】
3−3.変形例3
翻訳支援システム1、第1話者U1、および第2話者U2の少なくともいずれか一者の状況により音声認識の精度が低下することが想定される状況において、CPU100は、その状況の改善を促すための情報を表示部105に表示してもよい。例えば、第1話者U1が早口で話しているときに、CPU100は、ゆっくり話すことを促すメッセージを表示部105に表示してもよい。
【0070】
3−4.変形例4
翻訳精度の不良範囲の精度しきい値は、話者毎に決定されてもよいし、話者によらず共通のものが用いられてもよい。第1話者U1と第2話者U2とで精度しきい値が個別に決定される場合、例えば使用言語や話者に応じてより適切なサービスを提供することができる。話者によらず共通の精度しきい値が用いられる場合、システムの処理負荷を低減することができる。
【0071】
3−5.変形例5
第2話者U2(店員)に対する翻訳精度の判定を行わず、第1話者U1(客)に対してのみ翻訳精度の判定を行ってもよい。この例によれば、両者に対して翻訳精度の判定が行われる場合と比較してシステムの処理負荷を低減することができる。
【0072】
3−6.変形例6
翻訳オペレータOの話し言葉が他の言語に翻訳され、その音声および文字列の少なくとも一方がユーザ端末10において出力されてもよい。翻訳オペレータOは第1言語および第2言語の双方で話す可能性があるが、例えば、翻訳オペレータOが第1言語(英語)で話しているときはその第2言語訳(日本語訳)がユーザ端末10において出力され、第2言語(日本語)で話しているときはその第1言語訳(英語訳)がユーザ端末10において出力される。この例によれば、例えば第1話者U1は、自分の発言の再翻訳を確認できることになり、音声認識および翻訳が適切に行われているか確認できる。
【0073】
3−7.変形例7
翻訳精度が不良範囲にあると判断された場合、サーバ20による翻訳の結果をユーザ端末10において出力したうえで、ユーザ端末10とオペレータ端末30との呼接続が行われてもよい。すなわち、図6のフローにおいて、ステップS106において翻訳精度が不良範囲にあると判断された場合、CPU200は、ステップS107およびS108に相当する処理を行ってから、ステップS110の処理を行ってもよい。
【0074】
3−8.変形例8
ユーザ端末10およびサーバ20における機能の分担は実施形態で説明したものに限定されない。実施形態においてサーバ20の機能として説明したものの少なくとも一部を、ユーザ端末10に実装してもよい。あるいは、実施形態においてユーザ端末10の機能として説明したものの一部を、サーバ20に実装してもよい。例えば、音声認識、翻訳、翻訳精度の判定、および音声合成の少なくとも1つがサーバ20ではなくユーザ端末10において行われてもよい。
【0075】
図12は、変形例8に係るユーザ端末10の機能構成を例示する図である。この例では、ユーザ端末10に機能が集約されている。この例で、ユーザ端末10は、表示手段11、音声入力手段12、音声取得手段13、通信手段15、音声出力手段16、処理手段17、音声認識手段22、翻訳手段23、判定手段25、および接続制御手段26を有する。
【0076】
3−9.他の変形例
【0077】
実施形態で説明したUI画面はあくまで例示であり、UI画面はこれに限定されない。例えば、UI画面は、話者を特定するためのボタン55およびボタン56を含んでいなくてもよい。この場合において、ユーザ端末10またはサーバ20は、話者の音声によりその言語を判定してもよい。
【0078】
図2に例示した機能構成の一部は省略されてもよい。例えば、情報取得手段27および決定手段28は省略されてもよい。また、要求される機能を実現するためのハードウェア構成は、図3〜5で例示したものに限定されない。ユーザ端末10、サーバ20、およびオペレータ端末30は、それぞれ、どのようなハードウェア構成を有していてもよい。
【0079】
上述の実施形態においてCPU100等によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよい。また、このプログラムは、インターネットのようなネットワーク経由でダウンロードされてもよい。
【符号の説明】
【0080】
1…翻訳支援システム、10…ユーザ端末、20…サーバ、30…オペレータ端末、40…ネットワーク、11…表示手段、12…音声入力手段、13…音声取得手段、14…送信手段、15…通信手段、16…音声出力手段、21…受信手段、22…音声認識手段、23…翻訳手段、24…送信手段、25…判定手段、26…接続制御手段、27…情報取得手段、28…決定手段、31…通信手段、100…CPU、101…ROM、102…RAM、103…ストレージ、104…通信IF、105…表示部、106…タッチセンサ、107…マイクロフォン、108…スピーカ、200…CPU、201…ROM、202…RAM、203…ストレージ、204…通信IF、300…CPU、301…ROM、302…RAM、303…ストレージ、304…通信IF、305…表示部、306…キーボード、307…マイクロフォン、308…スピーカ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12