IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人幾徳学園の特許一覧 ▶ 国立大学法人 長崎大学の特許一覧

特開2024-110756音声翻訳システムおよび音声翻訳方法
<>
  • 特開-音声翻訳システムおよび音声翻訳方法 図1
  • 特開-音声翻訳システムおよび音声翻訳方法 図2
  • 特開-音声翻訳システムおよび音声翻訳方法 図3
  • 特開-音声翻訳システムおよび音声翻訳方法 図4
  • 特開-音声翻訳システムおよび音声翻訳方法 図5
  • 特開-音声翻訳システムおよび音声翻訳方法 図6
  • 特開-音声翻訳システムおよび音声翻訳方法 図7
  • 特開-音声翻訳システムおよび音声翻訳方法 図8
  • 特開-音声翻訳システムおよび音声翻訳方法 図9
  • 特開-音声翻訳システムおよび音声翻訳方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110756
(43)【公開日】2024-08-16
(54)【発明の名称】音声翻訳システムおよび音声翻訳方法
(51)【国際特許分類】
   G06F 40/289 20200101AFI20240808BHJP
   G06F 40/44 20200101ALI20240808BHJP
   G10L 13/00 20060101ALI20240808BHJP
   G10L 15/00 20130101ALI20240808BHJP
【FI】
G06F40/289
G06F40/44
G10L13/00 100G
G10L15/00 200C
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023015534
(22)【出願日】2023-02-03
(71)【出願人】
【識別番号】391022614
【氏名又は名称】学校法人幾徳学園
(71)【出願人】
【識別番号】504205521
【氏名又は名称】国立大学法人 長崎大学
(74)【代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】上平 員丈
(72)【発明者】
【氏名】高田 英明
(72)【発明者】
【氏名】鈴木 雅洋
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA04
5B091CB12
5B091CB32
5B091EA01
(57)【要約】
【課題】 翻訳時間を短縮でき、利用可能なシーンを拡大できるシステムや方法を提供すること。
【解決手段】 音声翻訳システムは、外国語の音声を日本語に翻訳するシステムであり、入力された外国語の音声の音声認識を行う音声認識部20と、音声認識された音声を単語単位で分割する分割部21と、単語もしくは1つの意味としてまとまりのある2以上の単語を連結した連結単語につき、日本語に翻訳する翻訳部27と、日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成部30とを含む。
【選択図】 図2
【特許請求の範囲】
【請求項1】
外国語の音声を日本語に翻訳するシステムであって、
入力された外国語の音声の音声認識を行う音声認識手段と、
音声認識された音声を単語単位で分割する分割手段と、
単語もしくは1つの意味としてまとまりのある2以上の単語を連結した連結単語につき、日本語に翻訳する翻訳手段と、
日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成手段と
を含む、音声翻訳システム。
【請求項2】
前記単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する音声内容記憶手段と、
前記単語もしくは連結単語が複数の訳の候補を有する場合、前記音声内容記憶手段に記憶された前記翻訳済みの音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する演算手段と
を含み、
前記翻訳手段は、算出された確率が閾値以上である訳の候補を、前記単語もしくは連結単語の訳として選択する、請求項1に記載の音声翻訳システム。
【請求項3】
前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が存在しない場合、前記単語もしくは連結単語を翻訳せずに外国語のまま使用する、請求項2に記載の音声翻訳システム。
【請求項4】
前記音声合成手段は、前記翻訳手段により翻訳されない外国語の単語もしくは連結単語を、日本語が有する音素のみで音声合成を行う、請求項3に記載の音声翻訳システム。
【請求項5】
前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が存在せず、前記訳の候補が所定数以下である場合、前記訳の候補を全て選択し、
前記音声合成手段は、選択した前記訳の候補を、無音期間を挟んで音声合成を行う、請求項2に記載の音声翻訳システム。
【請求項6】
前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が2以上存在する場合、前記確率が最も高い訳の候補を選択する、請求項2に記載の音声翻訳システム。
【請求項7】
連続する2以上の単語が連結単語として第1の辞書に登録されているか否かを判断する連結性判断手段を含む、請求項1に記載の音声翻訳システム。
【請求項8】
前記単語もしくは連結単語が省略可能な単語として第2の辞書に登録されているか否かを判定する省略可否判定手段を含む、請求項7に記載の音声翻訳システム。
【請求項9】
前記単語もしくは連結単語が第3の辞書を参照して複数の訳の候補を有するか否かを判定する多義語判定手段を含む、請求項8に記載の音声翻訳システム。
【請求項10】
前記単語もしくは連結単語が第4の辞書を参照して転置すべき単語もしくは連結単語か否かを判定する転置処理手段と、
転置すべき単語もしくは連結単語と判定された場合、判定された前記単語もしくは連結単語を記憶する単語記憶手段と
を含む、請求項9に記載の音声翻訳システム。
【請求項11】
音声認識手段と、分割手段と、翻訳手段と、音声合成手段とを含む音声翻訳システムにより、外国語の音声を日本語に翻訳する方法であって、
前記音声認識手段が、入力された外国語の音声の音声認識を行うステップと、
前記分割手段が、音声認識された音声を単語単位で分割するステップと、
前記翻訳手段が、単語もしくは1つの意味としてまとまりのある2以上の単語を連結した連結単語につき、日本語に翻訳するステップと、
前記音声合成手段が、日本語に翻訳された単語もしくは連結単語の音声合成を行うステップと
を含む、音声翻訳方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、外国語の音声を日本語に翻訳するシステムおよび方法に関する。
【背景技術】
【0002】
近年、英語等の外国語から日本語への翻訳、あるいはその逆方向への翻訳が、AI(Artificial Intelligence)を用いて自動的に変換される自動翻訳機や自動通訳機が開発されている。しかしながら、1つの文が終了しないと翻訳ができないことから、翻訳に時間を要し、リアルタイムでの双方向の円滑な会話ができない。
【0003】
そこで、入力された発話を句や節といった単位で翻訳し、その部分的な翻訳結果の日本語表現を順次確定していきながら、文全体として意味の通る自然な日本語文を生成する技術が提案されている(例えば、特許文献1、2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8-263499号公報
【特許文献2】特開平10-247194号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来の技術では、句や節の単位で語順を入れ替えるため、双方向のリアルタイムな会話にとって十分なレベルで翻訳時間を短縮することができていない。このため、3人以上で行う会議において、誰かの発言に対して直ちに応答したいケースで用いることはできず、利用可能なシーンが制限されている。
【課題を解決するための手段】
【0006】
そこで、本発明の発明者らは、鋭意検討の結果、従来の技術が節単位等の出来るだけ長い区間で文法を遵守した語順とすることで文全体の意味の整合性を重視することを基本とし、これがリアルタイム性を犠牲にしている主要因となっていることから、意味が分かる最小の単位として単語もしくは2以上の単語を連結した連結単語を直ちに翻訳するようにすれば、リアルタイムな会話にとって十分なレベルで翻訳時間を短縮することができることを見出した。上記課題は、本発明の音声翻訳システムおよび音声翻訳方法を提供することにより解決される。
【0007】
本発明によれば、外国語の音声を日本語に翻訳するシステムであって、
入力された外国語の音声の音声認識を行う音声認識手段と、
音声認識された音声を単語単位で分割する分割手段と、
単語もしくは1つの意味としてまとまりのある2以上の単語を連結した連結単語につき、日本語に翻訳する翻訳手段と、
日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成手段と
を含む、音声翻訳システムが提供される。
【0008】
音声翻訳システムは、単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する音声内容記憶手段と、単語もしくは連結単語が複数の訳の候補を有する場合、音声内容記憶手段に記憶された翻訳済みの音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する演算手段とを含むことができ、翻訳手段は、算出された確率が閾値以上である訳の候補を、単語もしくは連結単語の訳として選択することができる。
【0009】
翻訳手段は、算出された確率が閾値以上である訳の候補が存在しない場合、単語もしくは連結単語を翻訳せずに外国語のまま使用することができる。
【0010】
音声合成手段は、翻訳手段により翻訳されない外国語の単語もしくは連結単語を、日本語が有する音素のみで音声合成を行うことができる。
【発明の効果】
【0011】
本発明によれば、翻訳時間を短縮することができ、利用可能なシーンを拡大させることができる。
【図面の簡単な説明】
【0012】
図1】音声翻訳システムの第1の構成例として、音声翻訳端末のハードウェア構成の一例を示した図。
図2】音声翻訳端末の機能構成の一例を示したブロック図。
図3】音声翻訳処理の一例を示したフローチャート。
図4】音声翻訳処理の第1の例について説明する図。
図5】音声翻訳処理の第2の例について説明する図。
図6】音声翻訳処理の第3の例について説明する図。
図7】音声翻訳処理の第4の例について説明する図。
図8】音声翻訳処理の第5の例について説明する図。
図9】音声翻訳システムの第2の構成例を示した図。
図10】音声翻訳システムの第3の構成例を示した図。
【発明を実施するための形態】
【0013】
以下、本発明を実施するための形態について詳細に説明する。ただし、本発明は、以下に示す実施形態に限定されるものではない。
【0014】
図1は、音声翻訳システムの第1の構成例として、音声翻訳端末のハードウェア構成の一例を示した図である。すなわち、音声翻訳端末は、音声翻訳専用の端末、スマートフォン、タブレット端末、ノートPC(Personal Computer)、PDA(Personal Digital Assistant)、ゲーム機等である。
【0015】
音声翻訳端末10は、ハードウェアとして、プロセッサ11、メモリ12、ストレージ13、音声入力装置14、音声出力装置15を少なくとも備える。音声翻訳端末10は、通信装置、入力装置、表示装置、周辺機器と接続するインターフェース、メモリカード等の記録媒体を着脱するスロット等をさらに備えていてもよい。
【0016】
プロセッサ11は、音声翻訳端末10全体を制御し、入力された音声を翻訳し、音声出力する処理を実行する。メモリ12は、プロセッサ11に対して作業領域を提供する。ストレージ13は、プロセッサ11が実行するプログラムや種々のデータ等を記憶する。したがって、プロセッサ11は、ストレージ13に記憶されたプログラムをメモリ12に読み出し、実行することにより各種の機能を実現することができる。
【0017】
音声入力装置14は、外国人が発声した外国語の音声の入力を受け付けるマイクロフォン等である。音声出力装置15は、プロセッサ11により外国語を日本語に翻訳し、その翻訳結果を音声として出力するイヤフォン、ヘッドフォン、スピーカー等である。
【0018】
音声翻訳端末10は、プロセッサ11がストレージ13からメモリ12にプログラムを読み出し、該プログラムを実行することにより、外国語の音声の入力を受け付け、入力された外国語の音声を日本語の音声に翻訳し、翻訳した日本語の音声を出力する処理を実行する。
【0019】
外国語は、日本語以外の言語であればいかなる言語であってもよい。以下、外国語を英語として説明する。
【0020】
音声翻訳端末10は、英語で話される言葉を、基本的に1つの単語の後に、あるいは多くとも2、3個程度の少数の単語の発話後に、その訳を音声出力する。このため、1、2秒程度の遅延のみで通訳が可能となり、通常の同一言語同士の会話と変わらない円滑な会話を可能とし、人間が行う同時通訳と同等あるいはそれよりも遅延の少ない通訳を実現することができる。
【0021】
図2は、音声翻訳端末10の機能構成の一例を示したブロック図である。図2に示す各機能部は、プロセッサ11がメモリ12に読み出したプログラムを実行することにより実現されるが、これに限定されるものではない。したがって、プロセッサ11等の1つの処理回路に限らず、2以上の処理回路により実現してもよく、また、各機能を実行するように設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)等により実現してもよい。
【0022】
音声翻訳端末10は、機能部として、音声認識部20、分割部21、連結性判断部22、省略可否判定部23、多義語判定部24、音声内容記憶部25、演算部26、翻訳部27、転置処理部28、単語記憶部29、音声合成部30を備える。
【0023】
音声入力装置14が受け付けた英語の音声は、音声認識部20に入力される。音声認識部20は、音の強弱や周波数等の特徴量を抽出し、抽出した特徴量に基づき、どの音に近いかをパターンと照合し、音の組み合わせを発音辞書により抽出して単語として認識させ、単語のつながりを予測して文章化する。音声認識部20は、例えば、ある文字列に続く文字の出現しやすさをパターン化し、それらの出現率を定義する隠れマルコフモデルを利用して、単語の出現率を算出し、算出した出現率に基づき、単語を繋ぎ合わせて文章化することができる。
【0024】
分割部21は、文章化された音声を単語単位で分割する。単語は、1つのまとまりある意味をもち、文の構成要素となる言語の最小単位である。英語では、単語と単語の区切りが明確に示されるので、その区切りで分割することができる。
【0025】
連結性判断部22は、発声時の時系列に従って順に入力された単語につき、その単語に続く所定数以内の連続する単語が熟語として、あるいはそれら連続する複数の単語がまとまりとして、1つの意味を有する単語群として第1の辞書に登録されているか否かにより連結性を判断する。連結性ありと判断された単語群は、連結単語として参照される。
【0026】
連結性なしと判断された単語群を構成する各単語は、1つが前置詞もしくはbe動詞である場合、前置詞もしくはbe動作とそれに続く単語とを連結する。また、冠詞や助動詞が前にある場合、冠詞や助動詞とそれに続く単語とを連結する。名詞、動詞、形容詞等の1つの単語で意味をもつものは、単一の単語とする。なお、前置詞等と連結した単語も、連結単語とみなして処理が実行される。
【0027】
省略可否判定部23は、単語もしくは連結単語が、第2の辞書に登録されているか否かにより翻訳が省略可能か否かを判定する。
【0028】
多義語判定部24は、単語もしくは連結単語が、第3の辞書に登録されているか否かにより、複数の意味を有する多義語であるか否かを判定する。
【0029】
音声内容記憶部25は、現在翻訳の対象としている単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する。演算部26は、その単語もしくは連結単語が複数の訳の候補を有する多義語である場合、音声内容記憶部25に記憶された音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する。
【0030】
機械学習により学習されるモデルは、数学的なモデルであり、例えば人間の脳内にある神経細胞(ニューロン)網を数学的なモデルで表現したニューラルネットワーク(NN)を用いることができる。音声翻訳は、時系列に入力される音声データを翻訳することから、NNとしては、時系列データを扱うリカレントニューラルネットワーク(RNN)や、RNNの短時間前のデータしか処理できないという欠点を解消し、長期の時系列データを学習できるLSTM(Long Short Term Memory)を用いることができる。
【0031】
演算部26は、深層学習(ディープラーニング)により学習された学習済みモデルを使用し、現在翻訳対象としている単語もしくは連結単語が発生する以前の音声内容に基づき、各訳の候補の確率を算出することができる。
【0032】
演算部26は、ある単語の訳の候補が5つ(A~E)存在する場合、当該単語より前に発言された内容に基づき、学習済みモデルを使用して、Aの確率を10%、Bの確率を20%、Cの確率を40%、Dの確率を15%、Eの確率を15%と算出することができる。この場合、最も確率が高いCを、訳の候補として選択することができる。
【0033】
なお、この場合のCの確率(40%)は、他のA、B、D、Eの確率を合計した60%より低い。このように低い確率では、Cが本当に正しい訳である可能性は低い。
【0034】
そこで、訳の候補として採用する確率の閾値は、予めシステム設計者が設定した値とすることができ、例えば70%以上とすることができる。したがって、Aの確率を10%、Bの確率を10%、Cの確率を70%、Dの確率を5%、Eの確率を5%と算出された場合、閾値の70%以上であるCを訳の候補として選択することができる。また、上記の例のように、最も確率が高いCでも40%であり、その確率が閾値より小さい場合、いずれの訳の候補も選択しないようにすることができる。
【0035】
翻訳部27は、連結性なしと判断された単語、もしくは連結性ありと判断された連結単語であって、省略可能ではなく、多義語でもない場合、当該単語もしくは連結単語をそのまま翻訳する。翻訳部27は、省略可能な単語もしくは連結単語である場合、当該単語もしくは連結単語の翻訳を省略する。
【0036】
翻訳部27は、多義語である場合、複数の訳の候補に翻訳し、翻訳した複数の訳を演算部26に渡す。翻訳部27は、演算部26により算出された確率が閾値以上である訳の候補を、単語もしくは連結単語の訳として選択する。翻訳部27は、演算部26により算出された確率が閾値以上である訳の候補が存在しない場合、単語もしくは連結単語を翻訳せずに英語を日本語読み(カタカナ読み)にして使用する。すなわち、多義語の複数の訳の候補の中から文脈に合った正しい訳を、その単語が出現する以前の単語等の情報から確定できない場合、あえて翻訳せずに英語のまま使用する。従来においては、多義語について文脈に合った正確な訳を選出するため、少なくとも節の最後まで入力して文脈から判断するが、これではリアルタイム性が損なわれることになる。しかしながら、このように正しい訳を候補の中から確定できない場合、あえて翻訳せずに英語のまま使用することで、リアルタイム性が損なわれるのを防ぐことができる。
【0037】
また、翻訳部27は、演算部26により算出された確率が閾値以上である訳の候補が存在せず、訳の候補の数が所定数以内である場合、訳の候補を全て選択する。翻訳部27は、演算部26により算出された確率が閾値以上である訳の候補が2以上存在する場合、確率が最も高い訳の候補を選択する。
【0038】
転置処理部28は、単語や連結単語が第4の辞書を参照して転置すべき単語もしくは連結単語であるか否かを判定する。単語記憶部29は、転置すべき単語もしくは連結単語と判定された場合、判定された単語もしくは連結単語を記憶する。
【0039】
音声合成部30は、翻訳された単語もしくは連結単語の音声合成を行う。音声合成は、人工的に音声を生成する処理であり、テキスト化された単語もしくは連結単語を音声に変換する。音声合成部30は、省略可能と判定された単語もしくは連結単語を省略して音声合成を行う。また、音声合成部30は、確率が閾値以上である訳の候補が存在しない場合、英語をカタカナ読みとした単語もしくは連結単語の音声合成を行う。さらに、音声合成部30は、訳の候補が全て選択された場合、選択された訳の候補を一定の間(無音期間)を挟んで音声合成を行う。無音期間は、訳と訳の間の区切れが分かれば、いかなる期間であってもよい。ただし、あまり長い期間であると、遅延の少ない通訳を実現することができなくなるため、長くても数秒以内とされる。
【0040】
音声合成部30は、例えば英単語や英語の熟語を日本語に訳さずに音声出力する際に、日本語がもつ音素で音声合成を行う。この場合、音声合成部30は、日本語に訳さずに音声出力する可能性がある単語等を第5の辞書に登録しておき、音声合成の際に参照することができる。第5の辞書は、日本語に訳さずに音声出力する可能性がある単語等だけではなく、その単語の音声、すなわち日本語の音素による音声も、当該単語等に関連付けて登録しておくことができる。
【0041】
音声合成部30は、複数の訳の候補を一定の間を挟んで音声合成を行うことにより、単語間のリエゾン(連音)をなくし、音声の出力も、英語を日本語の五十音の範囲の音に変換して音声出力することが可能となる。音声合成部30は、音声出力装置15へ音声合成が行われた単語もしくは連結単語を出力する。音声出力装置15は、音声合成部30から出力された単語もしくは連結単語を音声出力する。
【0042】
このような機能構成により、従来の課題であった多義語の翻訳も、可能性の高い少数の翻訳を提示してユーザが判断できることから、ユーザ側で適切な意味を把握することが可能となる。また、翻訳が困難な場合、英語をカタカナ読みにして発話することなるが、翻訳が困難な単語は限られた単語のみで、通常の学校教育で覚えなければならない単語数に比べれば、ごく少数で、短時間で覚えられる範囲の数であり、ユーザへの負担も、従来の英会話学習に比べれば皆無に近いレベルとなる。さらに、日本人にとって英語にヒアリングで最大の問題は、日本語にない音を聞き取れないことであり、本システムでは、日本語が有する音のみで音声合成を行うため、英単語を知っていれば直ちに単語の聞き取りが可能となる。
【0043】
図3は、音声翻訳処理の一例を示したフローチャートである。外国人が1~3語程度の単語を発話し、その音声が入力されたことを受けて、ステップ100から処理を開始する。入力された音声は、アナログ信号であり、A/D変換によりデジタル信号へ変換される。
【0044】
ステップ101では、音声認識部20が、音声認識処理を実行する。ステップ102では、分割部21が、音声認識処理によりテキスト化された音声を単語単位で分割する。ステップ103では、連結性判断部22が、単語が後続の単語と連結した場合、その連結した単語が第1の辞書にあるかどうかを判断する。熟語等の単語群として第1の辞書にある場合、その連結した単語を連結単語とし、1つのまとまりとして扱う。第1の辞書にない場合、単語単体で扱う。
【0045】
ステップ104では、省略可否判定部23が、第2の辞書を参照し、単語もしくは連結単語の翻訳が省略可能か否かを判定する。省略可能と判定した場合、単語もしくは連結単語の翻訳を省略する。ステップ105では、多義語判定部24が、第3の辞書を参照し、単語もしくは連結単語が日本語において複数の異なる意味に訳されるかどうかを判定する。
【0046】
ステップ105の判定結果が、複数の異なる意味に訳される多義語と判定された場合、ステップ106で、演算部26が、音声内容記憶部25に記憶した、外国人が発話を開始し、音声認識処理を行った後の文の先頭から現在の翻訳対象の単語もしくは連結単語までの単語群と、当該単語もしくは連結単語とを入力とし、学習済みモデルを用いて、その状況での意味として最も可能性の高い意味を確率として算出する。
【0047】
最も高い確率が閾値以上の場合、翻訳部27は、最も可能性の高い意味をもつ訳の候補を単語もしくは連結単語の訳として選択する。最も高い確率が閾値未満である場合、ステップ108へ進み、翻訳部27は、日本語に翻訳せずに英語の単語もしくは連結単語をカタカナ読みにして使用する。
【0048】
ステップ105の判定結果が、多義語と判定されなかった場合、ステップ109で、翻訳部27は、単語もしくは連結単語を第5の辞書(翻訳辞書)を参照して翻訳する。
【0049】
ステップ110では、転置処理部28が、第4の辞書を参照し、転置すべき単語もしくは連結単語であるか否かを判断する。転置すべき単語もしくは連結単語である場合、単語記憶部29にその単語もしくは連結単語を記憶する。転置処理部28は、節の終わり等の転置すべき位置において、単語記憶部29から記憶した単語もしくは連結単語を読み出し、音声合成部30へ出力する。一方、その単語が転置すべき単語もしくは連結単語ではない場合、音声合成部30へその単語もしくは連結単語を出力する。音声合成部30へ出力される単語もしくは連結単語は、閾値以上の最も高い確率の訳の候補、翻訳された単語もしくは連結単語、翻訳されない英語の単語もしくは連結単語である。
【0050】
ステップ111では、音声合成部30が、日本語化された単語もしくは連結単語、または翻訳されなかった英語の単語もしくは連結単語の音声合成を行う。音声合成部30は、連結された英単語の場合、リエゾンのない音声として、また、全ての英単語の音声を日本語の五十音の音として音声合成を行う。そして、ステップ112へ進み、この処理を終了する。音声出力装置15は、音声合成部30により音声合成された音声を出力する。音声が入力されている間、ステップ100からステップ112の処理が繰り返される。
【0051】
全体の音声翻訳処理の流れは、図3に示した通りであるが、図4図8を参照して、図3に示した各ステップにおける処理を、具体的な例をもって説明する。図4は、音声翻訳処理の第1の例について説明する図である。図4に示す例では、外国人が「Thank you for joining this meeting today.」と発話している。
【0052】
分割部21は、図4に示すように、各単語に分割する。連結性判断部22は、第1の辞書を参照し、第1の辞書に登録されている「Thank you」を連結単語と判断する。また、連結性判断部22は、前置詞「for」を検出し、前置詞「for」の後に続く「joining」と連結し、「for joining」を連結単語とする。
【0053】
省略可否判定部23、多義語判定部24により各判定をし、翻訳部27により各単語および連結単語を日本語に翻訳し、音声合成部30が、翻訳されたテキスト状態の日本語を音声に変換する。すると、図4に示すように、「ありがとう」、「参加に対し」、「この」、「ミーティング」、「今日」という順に音声出力される。
【0054】
より詳細に説明すると、「Thank you for」と発話された段階で、上記処理を開始し、各単語に分割、連結性判断を行い、「Thank you」の部分につき、「ありがとう」に翻訳し、音声合成して音声出力を行う。「for」については、後続する単語と連結される単語であるため、次の発話を待つ。「for joining」と発話された段階で、連結し、「参加に対し」と翻訳し、音声合成して音声出力を行う。後の「this」、「meeting」、「today」に関しては、各単語が発話された段階であってもよいし、「this meeting」と発話された段階でもよいし、「this meeting today」と発話された段階でもよいが、各単語を翻訳し、音声合成して音声出力を行う。とにかく、1~3語程度の発話があった段階で翻訳を行い、音声合成して音声出力する。
【0055】
図4に示した例では、転置、省略がなく、多義語でもない場合について説明した。図5は、音声翻訳処理の第2の例について説明する図で、転置がある場合の例である。図5に示す例では、外国人が「Since everyone is here, let’s get started.」と発話している。
【0056】
分割部21は、各単語に分割し、連結性判断部22は、単語が連結されて連結単語とされるか否かを判断する。単語、連結単語が省略なく、多義語でもない場合、翻訳部27は、単語、連結単語を翻訳する。転置処理部28は、転置すべき単語もしくは連結単語か否かを判断する。この例では、「Since」が転置すべき単語として第4の辞書に登録されているため、「Since」が単語記憶部29に記憶される。「everyone」、「is here,」という節の終わりにおいて、単語記憶部29から読み出され、その位置に「Since」が配置される。
【0057】
音声合成部30は、転置後の順に、翻訳した単語、連結単語の音声合成を行う。このため、転置処理がなければ、「ので」、「皆さん」、「いる」、「始めましょう」の順で音声出力されることになるが、転置処理により、「皆さん」、「いる」、「ので」、「始めましょう」の順に音声出力されることになる。
【0058】
図5に示した例では、転置がある場合について説明した。図6は、音声翻訳処理の第3の例について説明する図で、省略がある場合の例である。図6に示す例では、外国人が「I’d like to thank everyone for coming today.」と発話している。
【0059】
分割部21は、各単語に分割し、連結性判断部22は、単語が連結されて連結単語とされるか否かを判断する。省略可否判定部23は、第2の辞書を参照し、単語、連結単語が省略可能か否かを判定する。第2の辞書には、「I’d like to」が登録されている。したがって、省略可否判定部23は、「I’d like to」の連結単語について省略可能と判定する。それ以外の単語、連結単語は、第2の辞書に登録されていないので、省略は不可である。翻訳部27は、省略可能な「I’d like to」を除いた単語、連結単語を翻訳する。
【0060】
図6に示した例では、第4の辞書に登録された、転置すべき単語、連結単語がない。このため、音声合成部30は、翻訳した単語、連結単語の音声合成を行う。これにより、「ありがとう」、「皆さん」、「来てくれて」、「今日」の順に音声出力されることになる。
【0061】
図6に示した例では、省略がある場合について説明した。図7は、音声翻訳処理の第4の例について説明する図で、多義語の場合の例である。図7に示す例では、外国人が「The prize went to him.」と発話している。
【0062】
分割部21は、各単語に分割し、連結性判断部22は、単語が連結されて連結単語とされるか否かを判断する。連結性判断部22は、冠詞「The」に続く「prize」が連結されると判断する。これにより、「The prize」と連結され、これが連結単語とされる。図7に示した例では、省略可能な単語等はない。
【0063】
多義語判定部24は、第3の辞書を参照し、第3の辞書に「go」が登録されていることから、その過去形である「went」が登録されているものとし、「went」を多義語であると判定する。「go」は、「行く」、「なくなる」、「進む」、「経過する」、「与えられる」等の意味がある。
【0064】
翻訳部27は、学習済みモデルを使用し、上記の訳の候補のうち、最も高い確率のものであって、その確率が閾値以上である「与えられる」を選択し、「went」を「与えられた」と翻訳する。
【0065】
図7に示した例では、転置すべき単語等がないため、音声合成部30は、翻訳した単語、連結単語の音声合成を行う。これにより、「その賞は」、「与えられた」、「彼に」の順に音声出力されることになる。
【0066】
図7に示した例では、多義語の場合であって、最も高い確率の訳の候補が閾値以上の場合について説明した。図8は、音声翻訳処理の第5の例について説明する図で、多義語の場合であって、最も高い確率の訳の候補が閾値未満である場合の例である。図8に示す例では、外国人が「This vending machine takes any coin.」と発話している。
【0067】
分割部21は、各単語に分割し、連結性判断部22は、単語が連結されて連結単語とされるか否かを判断する。連結性判断部22は、「any」+「名詞」が登録されており、「any」と「coin」が連結されると判断する。これにより、「any coin」と連結され、これが連結単語とされる。図8に示した例も、省略可能な単語等はない。
【0068】
多義語判定部24は、第3の辞書を参照し、第3の辞書に「take」が登録されていることから「takes」が登録されているものとし、「takes」を多義語であると判定する。「take」は、「取る」、「つかむ」、「持っていく」、「連れて行く」、「運ぶ」、「かかる」、「受け入れる」等の意味がある。
【0069】
翻訳部27は、学習済みモデルを使用し、上記の訳の候補のうち、最も高い確率のものであって、その確率が閾値以上である訳の候補が存在しないため、「takes」は英語のまま使用する。すなわち、翻訳部27は、カタカナ読みにして「テイクする」と訳す。
【0070】
図8に示した例では、転置すべき単語等がないため、音声合成部30は、翻訳した単語、連結単語の音声合成を行う。これにより、「この」、「販売」、「機械」、「テイクする」、どんなコインも」の順に音声出力されることになる。
【0071】
図9は、音声翻訳システムの第2の構成例を示した図である。音声翻訳システムは、音声翻訳端末10のみで構成されていてもよいが、音声翻訳端末10と、クラウド上のサーバ40とから構成されていてもよい。音声翻訳システムを音声翻訳端末10のみで構成する場合、各辞書を全て音声翻訳端末10内に保持する必要があるが、クラウド上のサーバ40に各辞書等を保持させ、サーバ40に連結単語や省略可能な単語等が登録されているかを問い合わせることができる。
【0072】
このため、音声翻訳端末10は、ネットワークを介してサーバ40と通信を行う通信装置を備える。なお、サーバ40は、図2に示した機能部の一部を備え、サーバ40において一部の処理を実施してもよい。
【0073】
図10は、音声翻訳システムの第3の構成例を示した図である。図10は、中継装置41を介して互いに離れた場所で通信端末42、43を使用し、ネットワーク44を介して会議を行う会議システムを示している。音声翻訳端末10の機能が、中継装置41もしくは通信端末42に実装されている。なお、音声翻訳端末10の機能の一部が、通信端末42に実装され、残りの機能が、中継装置41に実装されていてもよい。また、音声翻訳端末10の機能を、通信端末42が実装し、中継装置41が、通信端末42により参照される各辞書を保持していてもよい。
【0074】
このような会議システムは、通信端末43を使用して会話を行う外国人の発話を、中継装置41を介して通信端末42で翻訳し、音声合成を行い、音声出力することになる。外国人が発言した内容を理解することができるため、片言であっても、適切な返事を返すことができる。
【0075】
以上のように、本発明は、英語から日本語への通訳ではなく、英語から英語型日本語への通訳に関する発明であり、英語で発声された音声の時系列順序を変えることなく翻訳、音声合成、音声出力を行うことで、可能な限り少ない単語の発声後に翻訳を実行し、翻訳における遅延を極力短くすることができ、円滑な会話が期待できる。
【0076】
また、英語型日本語は、従来の英語の学習に比べ、簡単な学習で使用することができ、英語の構造を自然に身に着けることが可能となり、英会話を学習する者にとっても上達を早めることが可能となる。さらに、将来においては、英文科等の専門家を除き、一般の日本人にとって英語学習を不要にできるという効果も期待できる。
【0077】
これまで本発明の音声翻訳システムおよび音声翻訳方法について上述した実施形態をもって詳細に説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態や、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0078】
10…音声翻訳端末
11…プロセッサ
12…メモリ
13…ストレージ
14…音声入力装置
15…音声出力装置
20…音声認識部
21…分割部
22…連結性判断部
23…省略可否判定部
24…多義語判定部
25…音声内容記憶部
26…演算部
27…翻訳部
28…転置処理部
29…単語記憶部
30…音声合成部
40…サーバ
41…中継装置
42、43…通信端末
44…ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10