特開2017-182406(P2017-182406A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートライフスタイルの特許一覧

特開2017-182406音声翻訳システム、その制御方法および音声翻訳プログラム
<>
  • 特開2017182406-音声翻訳システム、その制御方法および音声翻訳プログラム 図000003
  • 特開2017182406-音声翻訳システム、その制御方法および音声翻訳プログラム 図000004
  • 特開2017182406-音声翻訳システム、その制御方法および音声翻訳プログラム 図000005
  • 特開2017182406-音声翻訳システム、その制御方法および音声翻訳プログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-182406(P2017-182406A)
(43)【公開日】2017年10月5日
(54)【発明の名称】音声翻訳システム、その制御方法および音声翻訳プログラム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20170908BHJP
   G10L 15/00 20130101ALI20170908BHJP
   G06F 17/28 20060101ALI20170908BHJP
【FI】
   G06F17/27 650
   G10L15/00 200C
   G06F17/28 690
   G06F17/28 654
【審査請求】有
【請求項の数】4
【出願形態】OL
【全頁数】13
(21)【出願番号】特願2016-67958(P2016-67958)
(22)【出願日】2016年3月30日
(11)【特許番号】特許第6147387号(P6147387)
(45)【特許公報発行日】2017年6月14日
(71)【出願人】
【識別番号】513267453
【氏名又は名称】株式会社リクルートライフスタイル
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100139066
【弁理士】
【氏名又は名称】伊藤 健太郎
(72)【発明者】
【氏名】宇賀神 千春
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA01
5B091BA03
5B091BA11
5B091CA21
5B091CD04
5B091CD11
5B091CD15
(57)【要約】
【課題】会話の言語を事前に選択しなくても、自然な会話の流れの中で会話の言語を判別する。
【解決手段】発話者の音声を集音し、その集音した音声の内容を認識し、その認識した内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳し、その翻訳した内容の確からしさを表す翻訳精度を、翻訳元言語ごとに算出し、全ての翻訳元言語の翻訳精度を少なくとも1回以上算出した後に、その算出した翻訳精度のうち、最も高い翻訳精度に対応する翻訳元言語を選択し、それ以降は、認識された集音音声の内容を、選択された翻訳元言語の内容であると仮定し、他の言語の内容に翻訳する。
【選択図】図4
【特許請求の範囲】
【請求項1】
発話者の音声を集音するための音声集音部と、
前記音声集音部により集音された音声の内容を認識する音声認識部と、
前記音声認識部により認識された内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳する翻訳部と、
前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部と、
前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部と、
を備え、
前記翻訳部は、前記音声認識部により認識された内容を、前記言語選択部により選択された前記翻訳元言語の内容であると仮定し、前記他の言語の内容に翻訳する、
ことを特徴とする音声翻訳システム。
【請求項2】
前記翻訳部により翻訳された内容を解析し、前記発話者の状況が予め定められた状況に該当するか否かを判定する判定部と、
前記判定部により前記発話者の状況が予め定められた状況に該当すると判定された場合に、メッセージを出力する出力部と、
をさらに備えることを特徴とする請求項1記載の音声翻訳システム。
【請求項3】
音声翻訳システムを制御する方法であって、
発話者の音声を集音するステップと、
集音音声の内容を認識するステップと、
認識した集音音声の内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳するステップと、
翻訳した内容の確からしさを表す翻訳精度を、前記翻訳言語ごとに算出するステップと、
全ての前記翻訳言語の前記翻訳精度を少なくとも1回以上算出した後に、算出した前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳言語を選択するステップと、
認識した集音音声の内容を、前記翻訳言語を選択するステップにおいて選択された前記翻訳言語の内容であると仮定し、前記他の言語の内容に翻訳するステップと、
を含むことを特徴とする音声翻訳システムの制御方法。
【請求項4】
コンピュータを、
発話者の音声を集音するための音声集音部、
前記音声集音部により集音された音声の内容を認識する音声認識部、
前記音声認識部により認識された内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳する翻訳部、
前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部、
前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部、
として機能させ、
前記翻訳部は、前記音声認識部により認識された内容を、前記言語選択部により選択された前記翻訳元言語の内容であると仮定し、前記他の言語の内容に翻訳する、
ことを特徴とする音声翻訳プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声翻訳システム、その制御方法および音声翻訳プログラムに関する。
【背景技術】
【0002】
互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と顧客(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示する音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平9−34895号公報
【非特許文献】
【0004】
【非特許文献1】U−STARコンソーシアムホームページ[平成28年3月28日検索]、インターネット<URL:http://www.ustar-consortium.com/app_ja/app.html>
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の音声翻訳技術では、音声翻訳をする前に、ユーザが話す言語を選択し、その選択した言語で話すことで、その話の内容を翻訳している。つまり、従来の音声翻訳技術では、話す言語を事前に選択しなければ、会話に見合った翻訳結果を得ることができない。
【0006】
本発明は、このような事情に鑑みてなされたものであり、会話の言語を事前に選択しなくても、自然な会話の流れの中で会話の言語を判別することができる音声翻訳システム、その制御方法および音声翻訳プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様による音声翻訳システムは、発話者の音声を集音するための音声集音部と、前記音声集音部により集音された音声の内容を認識する音声認識部と、前記音声認識部により認識された内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳する翻訳部と、前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部と、前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部と、を備え、前記翻訳部は、前記音声認識部により認識された内容を、前記言語選択部により選択された前記翻訳元言語の内容であると仮定し、前記他の言語の内容に翻訳する。
【0008】
前記翻訳部により翻訳された内容を解析し、前記発話者の状況が予め定められた状況に該当するか否かを判定する判定部と、前記判定部により前記発話者の状況が予め定められた状況に該当すると判定された場合に、メッセージを出力する出力部と、をさらに備えることとしてもよい。
【0009】
また、本発明の一態様による音声翻訳システムの制御方法は、以下の各ステップを有する。すなわち、当該方法は、発話者の音声を集音するステップと、集音音声の内容を認識するステップと、認識した集音音声の内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳するステップと、翻訳した内容の確からしさを表す翻訳精度を、前記翻訳言語ごとに算出するステップと、全ての前記翻訳言語の前記翻訳精度を少なくとも1回以上算出した後に、算出した前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳言語を選択するステップと、認識した集音音声の内容を、前記翻訳言語を選択するステップにおいて選択された前記翻訳言語の内容であると仮定し、前記他の言語の内容に翻訳するステップと、を含む。
【0010】
また、本発明の一態様による音声翻訳プログラムは、コンピュータを、発話者の音声を集音するための音声集音部、前記音声集音部により集音された音声の内容を認識する音声認識部、前記音声認識部により認識された内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の内容であると仮定し、所定の他の言語の内容に翻訳する翻訳部、前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部、前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部、として機能させ、前記翻訳部は、前記音声認識部により認識された内容を、前記言語選択部により選択された前記翻訳元言語の内容であると仮定し、前記他の言語の内容に翻訳する。
【発明の効果】
【0011】
本発明によれば、会話の言語を事前に選択しなくても、自然な会話の流れの中で会話の言語を判別することができる。
【図面の簡単な説明】
【0012】
図1】本発明に係る音声翻訳システムにおけるネットワーク構成等の好適な一実施形態を概略的に示すブロック図である。
図2】本発明に係る音声翻訳システムにおける情報端末の構成の一例を概略的に示すブロック図である。
図3】本発明に係る音声翻訳システムにおけるサーバ装置の構成の一例を概略的に示すブロック図である。
図4】本発明に係る音声翻訳システムにおける音声翻訳処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
【0014】
図1は、本発明に係る音声翻訳システムにおけるネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。音声翻訳システム100は、情報端末10およびサーバ装置20を備える。情報端末10とサーバ装置20とはネットワークNを介して電子的に接続する。情報端末10は、ユーザ(店舗の店員)が使用する端末であり、例えば飲食店等の店舗内に配置され、来店した顧客(発話者)の音声を集音し、サーバ装置20に送信する。サーバ装置20は、集音された音声の内容を翻訳して解析し、解析結果に応じてユーザに報知メッセージを出力する。情報端末10およびサーバ装置20の機能の詳細については後述する。
【0015】
情報端末10は、例えば、タッチパネル等のユーザインターフェイスおよび視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。
【0016】
図2に示すように、情報端末10は、例えば、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、およびカメラ17を備える。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳システムの一部または全部として機能する。
【0017】
プロセッサ11は、算術論理演算ユニットおよび各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されるプログラムP12(例えば音声翻訳アプリケーションソフト)を解釈および実行し、各種処理を行う。このプログラムP12は、例えばサーバ装置20からネットワークNを通じて配信可能なものであり、手動的にまたは自動的にインストールおよびアップデートされてもよい。
【0018】
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、または付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)により構成される通信網であり、これらを混在して構成される通信網であってもよい。
【0019】
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、およびサウンドデータを再生可能なサウンドプレイヤであり、情報端末10に内蔵されるものに限らず、外付けマイクロフォンやスピーカ等のように情報端末10に外付け(有線/無線通信)されるものであってもよい。
【0020】
通信インターフェイス14は、例えばサーバ装置20との接続インターフェイスを提供するものであり、無線通信インターフェイスおよび/または有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
【0021】
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザ等に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものであり、情報端末10に内蔵されていることに限らず、情報端末10に外付けされてもよい。
【0022】
サーバ装置20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、翻訳精度算出サーバ、言語選択サーバおよび判定サーバとして機能する単数または複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。
【0023】
図3に示すように、サーバ装置20は、プロセッサ21、通信インターフェイス22、および記憶資源23を備える。
【0024】
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニットおよび各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP23を解釈および実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
【0025】
記憶資源23は、例えば、物理デバイス(ディスクドライブまたは半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数または複数の、プログラムP23、各種モジュールL23、各種データベースD23、および各種モデルM23が格納されている。
【0026】
プログラムP23は、サーバ装置20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL23は、情報端末10から送信されてくる要求および情報に係る一連の情報処理を行うため、プログラムP23の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL23としては、音声認識モジュール、翻訳モジュール、翻訳精度算出モジュール、言語選択モジュール、判定モジュール等が挙げられる。
【0027】
また、各種データベースD23としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM23としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
【0028】
以上のとおり構成された音声翻訳システム100における、音声翻訳処理の操作および動作の一例について、以下にさらに説明する。
【0029】
図4は、音声翻訳システム100における音声翻訳処理の一例を示すフローチャートである。ここでは、情報端末10を飲食店の厨房付近に配置し、情報端末10に外付けした音声入出力デバイス13(例えばワイヤレスマイクロフォン)を、飲食店の顧客用テーブル付近に配置する場合について説明する。また、音声翻訳処理における翻訳元の言語として、英語、フランス語、ドイツ語、中国語の4か国語を採用し、翻訳する他の言語として、日本語を採用した場合について説明する。例示する音声翻訳処理では、翻訳元の言語を、英語、フランス語、ドイツ語、中国語の順に、所定時間(例えば5分)ごとに順次変更し、集音された音声の内容を、日本語に翻訳する場合について説明する。
【0030】
最初に、ユーザ(店員)は、情報端末10の表示デバイス16に表示されている音声翻訳アプリケーションソフトのアイコン(図示せず)をタップして当該アプリケーションを起動する。これにより、表示デバイス16には、発話者(顧客)の音声が集音できる状態になったことを示す音声集音画面が表示され、情報端末10は、音声入出力デバイス13による音声の集音が可能な状態となる。情報端末10に外付けされている音声入出力デバイス13は店舗内のテーブル付近に配置されている。
【0031】
続いて、来店した顧客がテーブルに着席し、例えば、英語で会話を始める(ステップS101)と、プロセッサ11は、音声入出力デバイス13により集音された音声に基づいて音声信号を生成し、その音声信号を通信インターフェイス14およびネットワークNを通してサーバ装置20へ送信する。このように、情報端末10自体、またはプロセッサ11および音声入出力デバイス13が「音声集音部」として機能する。
【0032】
続いて、サーバ装置20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理(ステップS102)、他言語翻訳処理(ステップS103)および翻訳精度算出処理(ステップS104)を、翻訳元の言語を所定時間(例えば5分)ごとに順次変更しながら実行する。具体的に、最初の5分間は、英語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)を実行し、その次の5分間は、フランス語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)を実行し、その次の5分間は、ドイツ語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)を実行し、その次の5分間は、中国語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)を実行する。各翻訳元言語に割り当てる時間や翻訳元言語の変更を繰り返すサイクル回数は任意に設定することができる。
【0033】
ここでは、最初の5分間に行われる英語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)について説明することとし、フランス語から日本語に翻訳する際の各処理、ドイツ語から日本語に翻訳する際の各処理、および中国語から日本語に翻訳する際の各処理の説明については省略する。
【0034】
音声認識処理(ステップS102)において、プロセッサ21は、受信した音声信号の内容を認識する。具体的に、プロセッサ21は、記憶資源23から、必要なモジュールL23、データベースD23、およびモデルM23(音声認識モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、集音音声の「音」を「読み」(文字)へ変換する。このように、プロセッサ21は、「音声認識部」として機能し、サーバ装置20は、全体として「音声認識サーバ」として機能する。
【0035】
他言語翻訳処理(ステップS103)において、プロセッサ21は、認識された音声の「読み」(文字)を他の言語である日本語に翻訳する。具体的に、プロセッサ21は、記憶資源23から、必要なモジュールL23およびデータベースD23(翻訳モジュール、英語文字コーパス、英語辞書、日本語辞書、英日対訳辞書、英日対訳コーパス等)を呼び出し、認識結果である集音音声の「読み」(文字列)を適切に並び替えて英語の句、節、文等へ変換し、その変換結果に対応する日本語を抽出し、それらを日本語文法に従って並び替えて自然な日本語の句、節、文等へと変換する。このように、プロセッサ21は、「翻訳部」として機能し、サーバ装置20は、全体として「翻訳サーバ」として機能する。
【0036】
翻訳精度算出処理(ステップS104)において、プロセッサ21は、翻訳された内容の確からしさを表す翻訳精度を、翻訳元の言語ごとに算出する。具体的に、プロセッサ21は、集音音声の内容に対応付けられた翻訳結果(翻訳内容)および当該翻訳結果に対応する翻訳精度に関するスコア(例えば、70%または90%等)を翻訳元の言語ごとに算出する。翻訳精度の算出方法は、公知の方法を任意に採用することができる。このように、プロセッサ21は、「翻訳精度算出部」として機能し、サーバ装置20は、全体として「翻訳精度算出サーバ」として機能する。
【0037】
続いて、サーバ装置20のプロセッサ21は、各翻訳元言語から日本語に翻訳する際の各処理(ステップS102〜ステップS104)が所定サイクル終了したか否かを判定し(ステップS105)、この判定がNOである場合(ステップS105;NO)には、処理を上記ステップS102に移行する。
【0038】
一方、上記ステップS105の判定で、所定サイクル終了したと判定された場合(ステップS105;YES)に、サーバ装置20のプロセッサ21は、上記ステップS104で算出された翻訳精度のうち、最も高い翻訳精度に対応する翻訳元言語を選択する(ステップS106)。ここでは、英語が選択されたこととする。このように、プロセッサ21は、「言語選択部」として機能し、サーバ装置20は、全体として「言語選択サーバ」として機能する。
【0039】
続いて、サーバ装置20のプロセッサ21は、通信インターフェイス22を通して情報端末10からの音声信号を受信するたびに、音声認識処理(ステップS107)および他言語翻訳処理(ステップS108)を実行する。音声認識処理(ステップS107)および他言語翻訳処理(ステップS108)は、上述した音声認識処理(ステップS102)および他言語翻訳処理(ステップS103)と同様であるため、ここでは説明を省略する。
【0040】
続いて、サーバ装置20のプロセッサ21は、上記ステップS108で翻訳した内容を解析し、発話者の状況が予め定められた状況に該当するか否かを判定し(ステップS109)、この判定がNOである場合(ステップS109;NO)には、処理を上記ステップS107に移行する。
【0041】
一方、上記ステップS109の判定で、発話者の状況が予め定められた状況に該当すると判定された場合(ステップS109;YES)に、サーバ装置20のプロセッサ21は、その旨を報知するためのメッセージを、通信インターフェイス22およびネットワークNを通して情報端末10に送信する。このように、プロセッサ21は、「判定部」として機能し、サーバ装置20は、全体として「判定サーバ」として機能する。
【0042】
ここで、予め定められた状況として、例えば、顧客が注文したい状況が該当する。この場合、翻訳した内容が、例えば“ビールをもう1杯飲もうか”や、“デザートを頼もうか”である場合には、顧客が注文したい状況に該当すると判定する。そして、このように判定した場合には、顧客が注文したい状況であることを報知するメッセージを情報端末10に送信する。これにより、店員は、顧客が注文したい状況にあることを把握することができ、最適なタイミングで顧客から注文を伺うことが可能となる。
【0043】
情報端末10のプロセッサ11は、通信インターフェイス14を通してメッセージを受信し、メッセージの出力処理を行う(ステップS110)。メッセージの出力処理では、例えば、文字、音声、音、色等を利用してメッセージに対応する内容を情報端末10から出力(表示、音声出力)することができる。
【0044】
上述したように、実施形態における音声翻訳システム100によれば、発話者の音声を集音し、その集音した音声の内容を認識し、その認識した内容を、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの翻訳元言語の内容であると仮定して、所定の他の言語の内容に翻訳することができる。
【0045】
また、翻訳した内容の確からしさを表す翻訳精度を、翻訳元言語ごとに算出することができ、全ての翻訳元言語の翻訳精度が少なくとも1回以上算出された後に、その算出した翻訳精度のうち、最も高い翻訳精度に対応する翻訳元言語を選択し、以降は、認識した集音音声の内容を、その選択した翻訳元言語の内容であると仮定して、他の言語の内容に翻訳することができる。
【0046】
それゆえ、実施形態における音声翻訳システム100によれば、会話の言語を事前に選択しなくても、自然な会話の流れの中で会話の言語を判別することができる。
【0047】
さらに、実施形態における音声翻訳システム100によれば、翻訳した内容を解析し、発話者の状況が予め定められた状況に該当するか否かを判定することができ、その判定において発話者の状況が予め定められた状況に該当すると判定された場合には、その旨を報知するメッセージを出力することができる。
【0048】
なお、上述したとおり、上記の実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源またはソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
【0049】
また、上記実施形態では、音声認識、翻訳、翻訳精度算出、言語選択および判定の各処理をサーバ装置20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL23は、情報端末10の記憶資源12に保存されていてもよいし、サーバ装置20の記憶資源23に保存されていてもよい。つまり、音声翻訳システムは、ネットワークNおよびサーバ装置20を備えなくてもよい。
【0050】
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
【符号の説明】
【0051】
10 情報端末(音声翻訳システム)
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ装置(音声翻訳システム)
21 プロセッサ
22 通信インターフェイス
23 記憶資源
100 音声翻訳システム
D23 データベース
L23 モジュール
M23 モデル
N ネットワーク
P12,P23 プログラム
図1
図2
図3
図4
【手続補正書】
【提出日】2017年4月6日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
発話者の音声を集音するための音声集音部と、
前記音声集音部により集音された音声の、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の音であると仮定し、前記翻訳元言語の文字に変換する音声認識部と、
前記音声認識部により変換された文字、複数の前記翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の文字であると仮定し、所定の他の言語の文字に翻訳する翻訳部と、
前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部と、
前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部と、
を備え、
前記翻訳部は、前記音声認識部により変換された文字を、前記言語選択部により選択された前記翻訳元言語の文字であると仮定し、前記他の言語の文字に翻訳する、
ことを特徴とする音声翻訳システム。
【請求項2】
前記翻訳部により翻訳された内容、前記発話者が注文したい状況に該当するか否かを判定する判定部と、
前記判定部により、前記翻訳部により翻訳された内容が前記発話者が注文したい状況に該当すると判定された場合に、メッセージを出力する出力部と、
をさらに備えることを特徴とする請求項1記載の音声翻訳システム。
【請求項3】
音声翻訳システムを制御する方法であって、
発話者の音声を集音するステップと、
集音音声の、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の音であると仮定し、前記翻訳元言語の文字に変換するステップと、
変換した文字、複数の前記翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の文字であると仮定し、所定の他の言語の文字に翻訳するステップと、
翻訳した内容の確からしさを表す翻訳精度を、前記翻訳言語ごとに算出するステップと、
全ての前記翻訳言語の前記翻訳精度を少なくとも1回以上算出した後に、算出した前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳言語を選択するステップと、
変換した文字を、前記翻訳言語を選択するステップにおいて選択された前記翻訳言語の文字であると仮定し、前記他の言語の文字に翻訳するステップと、
を含むことを特徴とする音声翻訳システムの制御方法。
【請求項4】
コンピュータを、
発話者の音声を集音するための音声集音部、
前記音声集音部により集音された音声の、予め定められた複数の翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の音であると仮定し、前記翻訳元言語の文字に変換する音声認識部、
前記音声認識部により変換された文字、複数の前記翻訳元言語のうち所定時間ごとに順次変更される一つの前記翻訳元言語の文字であると仮定し、所定の他の言語の文字に翻訳する翻訳部、
前記翻訳部により翻訳された内容の確からしさを表す翻訳精度を、前記翻訳元言語ごとに算出する翻訳精度算出部、
前記翻訳精度算出部により全ての前記翻訳元言語の前記翻訳精度が少なくとも1回以上算出された後に、前記翻訳精度算出部により算出された前記翻訳精度のうち、最も高い前記翻訳精度に対応する前記翻訳元言語を選択する言語選択部、
として機能させ、
前記翻訳部は、前記音声認識部により変換された文字を、前記言語選択部により選択された前記翻訳元言語の文字であると仮定し、前記他の言語の文字に翻訳する、
ことを特徴とする音声翻訳プログラム。