特開2024-110756 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人幾徳学園の特許一覧 ▶ 国立大学法人　長崎大学の特許一覧

特開2024-110756音声翻訳システムおよび音声翻訳方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024110756

(43)【公開日】2024-08-16

(54)【発明の名称】音声翻訳システムおよび音声翻訳方法

(51)【国際特許分類】

G06F 40/289 20200101AFI20240808BHJP

G06F 40/44 20200101ALI20240808BHJP

G10L 13/00 20060101ALI20240808BHJP

G10L 15/00 20130101ALI20240808BHJP

【ＦＩ】

G06F40/289

G06F40/44

G10L13/00 100G

G10L15/00 200C

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023015534

(22)【出願日】2023-02-03

(71)【出願人】

【識別番号】391022614

【氏名又は名称】学校法人幾徳学園

(71)【出願人】

【識別番号】504205521

【氏名又は名称】国立大学法人長崎大学

(74)【代理人】

【識別番号】110000420

【氏名又は名称】弁理士法人ＭＩＰ

(72)【発明者】

【氏名】上平員丈

(72)【発明者】

【氏名】高田英明

(72)【発明者】

【氏名】鈴木雅洋

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA04

5B091CB12

5B091CB32

5B091EA01

(57)【要約】

【課題】翻訳時間を短縮でき、利用可能なシーンを拡大できるシステムや方法を提供すること。
【解決手段】音声翻訳システムは、外国語の音声を日本語に翻訳するシステムであり、入力された外国語の音声の音声認識を行う音声認識部２０と、音声認識された音声を単語単位で分割する分割部２１と、単語もしくは１つの意味としてまとまりのある２以上の単語を連結した連結単語につき、日本語に翻訳する翻訳部２７と、日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成部３０とを含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

外国語の音声を日本語に翻訳するシステムであって、
入力された外国語の音声の音声認識を行う音声認識手段と、
音声認識された音声を単語単位で分割する分割手段と、
単語もしくは１つの意味としてまとまりのある２以上の単語を連結した連結単語につき、日本語に翻訳する翻訳手段と、
日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成手段と
を含む、音声翻訳システム。

【請求項2】

前記単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する音声内容記憶手段と、
前記単語もしくは連結単語が複数の訳の候補を有する場合、前記音声内容記憶手段に記憶された前記翻訳済みの音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する演算手段と
を含み、
前記翻訳手段は、算出された確率が閾値以上である訳の候補を、前記単語もしくは連結単語の訳として選択する、請求項１に記載の音声翻訳システム。

【請求項3】

前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が存在しない場合、前記単語もしくは連結単語を翻訳せずに外国語のまま使用する、請求項２に記載の音声翻訳システム。

【請求項4】

前記音声合成手段は、前記翻訳手段により翻訳されない外国語の単語もしくは連結単語を、日本語が有する音素のみで音声合成を行う、請求項３に記載の音声翻訳システム。

【請求項5】

前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が存在せず、前記訳の候補が所定数以下である場合、前記訳の候補を全て選択し、
前記音声合成手段は、選択した前記訳の候補を、無音期間を挟んで音声合成を行う、請求項２に記載の音声翻訳システム。

【請求項6】

前記翻訳手段は、算出された前記確率が前記閾値以上である訳の候補が２以上存在する場合、前記確率が最も高い訳の候補を選択する、請求項２に記載の音声翻訳システム。

【請求項7】

連続する２以上の単語が連結単語として第１の辞書に登録されているか否かを判断する連結性判断手段を含む、請求項１に記載の音声翻訳システム。

【請求項8】

前記単語もしくは連結単語が省略可能な単語として第２の辞書に登録されているか否かを判定する省略可否判定手段を含む、請求項７に記載の音声翻訳システム。

【請求項9】

前記単語もしくは連結単語が第３の辞書を参照して複数の訳の候補を有するか否かを判定する多義語判定手段を含む、請求項８に記載の音声翻訳システム。

【請求項10】

前記単語もしくは連結単語が第４の辞書を参照して転置すべき単語もしくは連結単語か否かを判定する転置処理手段と、
転置すべき単語もしくは連結単語と判定された場合、判定された前記単語もしくは連結単語を記憶する単語記憶手段と
を含む、請求項９に記載の音声翻訳システム。

【請求項11】

音声認識手段と、分割手段と、翻訳手段と、音声合成手段とを含む音声翻訳システムにより、外国語の音声を日本語に翻訳する方法であって、
前記音声認識手段が、入力された外国語の音声の音声認識を行うステップと、
前記分割手段が、音声認識された音声を単語単位で分割するステップと、
前記翻訳手段が、単語もしくは１つの意味としてまとまりのある２以上の単語を連結した連結単語につき、日本語に翻訳するステップと、
前記音声合成手段が、日本語に翻訳された単語もしくは連結単語の音声合成を行うステップと
を含む、音声翻訳方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、外国語の音声を日本語に翻訳するシステムおよび方法に関する。

【背景技術】

【0002】

近年、英語等の外国語から日本語への翻訳、あるいはその逆方向への翻訳が、ＡＩ（Artificial Intelligence）を用いて自動的に変換される自動翻訳機や自動通訳機が開発されている。しかしながら、１つの文が終了しないと翻訳ができないことから、翻訳に時間を要し、リアルタイムでの双方向の円滑な会話ができない。

【0003】

そこで、入力された発話を句や節といった単位で翻訳し、その部分的な翻訳結果の日本語表現を順次確定していきながら、文全体として意味の通る自然な日本語文を生成する技術が提案されている（例えば、特許文献１、２参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平８－２６３４９９号公報

【特許文献2】特開平１０－２４７１９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記の従来の技術では、句や節の単位で語順を入れ替えるため、双方向のリアルタイムな会話にとって十分なレベルで翻訳時間を短縮することができていない。このため、３人以上で行う会議において、誰かの発言に対して直ちに応答したいケースで用いることはできず、利用可能なシーンが制限されている。

【課題を解決するための手段】

【0006】

そこで、本発明の発明者らは、鋭意検討の結果、従来の技術が節単位等の出来るだけ長い区間で文法を遵守した語順とすることで文全体の意味の整合性を重視することを基本とし、これがリアルタイム性を犠牲にしている主要因となっていることから、意味が分かる最小の単位として単語もしくは２以上の単語を連結した連結単語を直ちに翻訳するようにすれば、リアルタイムな会話にとって十分なレベルで翻訳時間を短縮することができることを見出した。上記課題は、本発明の音声翻訳システムおよび音声翻訳方法を提供することにより解決される。

【0007】

本発明によれば、外国語の音声を日本語に翻訳するシステムであって、
入力された外国語の音声の音声認識を行う音声認識手段と、
音声認識された音声を単語単位で分割する分割手段と、
単語もしくは１つの意味としてまとまりのある２以上の単語を連結した連結単語につき、日本語に翻訳する翻訳手段と、
日本語に翻訳された単語もしくは連結単語の音声合成を行う音声合成手段と
を含む、音声翻訳システムが提供される。

【0008】

音声翻訳システムは、単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する音声内容記憶手段と、単語もしくは連結単語が複数の訳の候補を有する場合、音声内容記憶手段に記憶された翻訳済みの音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する演算手段とを含むことができ、翻訳手段は、算出された確率が閾値以上である訳の候補を、単語もしくは連結単語の訳として選択することができる。

【0009】

翻訳手段は、算出された確率が閾値以上である訳の候補が存在しない場合、単語もしくは連結単語を翻訳せずに外国語のまま使用することができる。

【0010】

音声合成手段は、翻訳手段により翻訳されない外国語の単語もしくは連結単語を、日本語が有する音素のみで音声合成を行うことができる。

【発明の効果】

【0011】

本発明によれば、翻訳時間を短縮することができ、利用可能なシーンを拡大させることができる。

【図面の簡単な説明】

【0012】

【図1】音声翻訳システムの第１の構成例として、音声翻訳端末のハードウェア構成の一例を示した図。

【図2】音声翻訳端末の機能構成の一例を示したブロック図。

【図3】音声翻訳処理の一例を示したフローチャート。

【図4】音声翻訳処理の第１の例について説明する図。

【図5】音声翻訳処理の第２の例について説明する図。

【図6】音声翻訳処理の第３の例について説明する図。

【図7】音声翻訳処理の第４の例について説明する図。

【図8】音声翻訳処理の第５の例について説明する図。

【図9】音声翻訳システムの第２の構成例を示した図。

【図10】音声翻訳システムの第３の構成例を示した図。

【発明を実施するための形態】

【0013】

以下、本発明を実施するための形態について詳細に説明する。ただし、本発明は、以下に示す実施形態に限定されるものではない。

【0014】

図１は、音声翻訳システムの第１の構成例として、音声翻訳端末のハードウェア構成の一例を示した図である。すなわち、音声翻訳端末は、音声翻訳専用の端末、スマートフォン、タブレット端末、ノートＰＣ(Personal Computer)、ＰＤＡ(Personal Digital Assistant)、ゲーム機等である。

【0015】

音声翻訳端末１０は、ハードウェアとして、プロセッサ１１、メモリ１２、ストレージ１３、音声入力装置１４、音声出力装置１５を少なくとも備える。音声翻訳端末１０は、通信装置、入力装置、表示装置、周辺機器と接続するインターフェース、メモリカード等の記録媒体を着脱するスロット等をさらに備えていてもよい。

【0016】

プロセッサ１１は、音声翻訳端末１０全体を制御し、入力された音声を翻訳し、音声出力する処理を実行する。メモリ１２は、プロセッサ１１に対して作業領域を提供する。ストレージ１３は、プロセッサ１１が実行するプログラムや種々のデータ等を記憶する。したがって、プロセッサ１１は、ストレージ１３に記憶されたプログラムをメモリ１２に読み出し、実行することにより各種の機能を実現することができる。

【0017】

音声入力装置１４は、外国人が発声した外国語の音声の入力を受け付けるマイクロフォン等である。音声出力装置１５は、プロセッサ１１により外国語を日本語に翻訳し、その翻訳結果を音声として出力するイヤフォン、ヘッドフォン、スピーカー等である。

【0018】

音声翻訳端末１０は、プロセッサ１１がストレージ１３からメモリ１２にプログラムを読み出し、該プログラムを実行することにより、外国語の音声の入力を受け付け、入力された外国語の音声を日本語の音声に翻訳し、翻訳した日本語の音声を出力する処理を実行する。

【0019】

外国語は、日本語以外の言語であればいかなる言語であってもよい。以下、外国語を英語として説明する。

【0020】

音声翻訳端末１０は、英語で話される言葉を、基本的に１つの単語の後に、あるいは多くとも２、３個程度の少数の単語の発話後に、その訳を音声出力する。このため、１、２秒程度の遅延のみで通訳が可能となり、通常の同一言語同士の会話と変わらない円滑な会話を可能とし、人間が行う同時通訳と同等あるいはそれよりも遅延の少ない通訳を実現することができる。

【0021】

図２は、音声翻訳端末１０の機能構成の一例を示したブロック図である。図２に示す各機能部は、プロセッサ１１がメモリ１２に読み出したプログラムを実行することにより実現されるが、これに限定されるものではない。したがって、プロセッサ１１等の１つの処理回路に限らず、２以上の処理回路により実現してもよく、また、各機能を実行するように設計されたＡＳＩＣ(Application Specific Integrated Circuit)、ＤＳＰ(Digital Signal Processor)、ＦＰＧＡ(Field Programmable Gate Array)等により実現してもよい。

【0022】

音声翻訳端末１０は、機能部として、音声認識部２０、分割部２１、連結性判断部２２、省略可否判定部２３、多義語判定部２４、音声内容記憶部２５、演算部２６、翻訳部２７、転置処理部２８、単語記憶部２９、音声合成部３０を備える。

【0023】

音声入力装置１４が受け付けた英語の音声は、音声認識部２０に入力される。音声認識部２０は、音の強弱や周波数等の特徴量を抽出し、抽出した特徴量に基づき、どの音に近いかをパターンと照合し、音の組み合わせを発音辞書により抽出して単語として認識させ、単語のつながりを予測して文章化する。音声認識部２０は、例えば、ある文字列に続く文字の出現しやすさをパターン化し、それらの出現率を定義する隠れマルコフモデルを利用して、単語の出現率を算出し、算出した出現率に基づき、単語を繋ぎ合わせて文章化することができる。

【0024】

分割部２１は、文章化された音声を単語単位で分割する。単語は、１つのまとまりある意味をもち、文の構成要素となる言語の最小単位である。英語では、単語と単語の区切りが明確に示されるので、その区切りで分割することができる。

【0025】

連結性判断部２２は、発声時の時系列に従って順に入力された単語につき、その単語に続く所定数以内の連続する単語が熟語として、あるいはそれら連続する複数の単語がまとまりとして、１つの意味を有する単語群として第１の辞書に登録されているか否かにより連結性を判断する。連結性ありと判断された単語群は、連結単語として参照される。

【0026】

連結性なしと判断された単語群を構成する各単語は、１つが前置詞もしくはｂｅ動詞である場合、前置詞もしくはｂｅ動作とそれに続く単語とを連結する。また、冠詞や助動詞が前にある場合、冠詞や助動詞とそれに続く単語とを連結する。名詞、動詞、形容詞等の１つの単語で意味をもつものは、単一の単語とする。なお、前置詞等と連結した単語も、連結単語とみなして処理が実行される。

【0027】

省略可否判定部２３は、単語もしくは連結単語が、第２の辞書に登録されているか否かにより翻訳が省略可能か否かを判定する。

【0028】

多義語判定部２４は、単語もしくは連結単語が、第３の辞書に登録されているか否かにより、複数の意味を有する多義語であるか否かを判定する。

【0029】

音声内容記憶部２５は、現在翻訳の対象としている単語もしくは連結単語が発生する以前の翻訳済みの音声内容を記憶する。演算部２６は、その単語もしくは連結単語が複数の訳の候補を有する多義語である場合、音声内容記憶部２５に記憶された音声内容に基づき、機械学習により学習された学習済みモデルを使用して、各訳の候補が出現する確率を算出する。

【0030】

機械学習により学習されるモデルは、数学的なモデルであり、例えば人間の脳内にある神経細胞（ニューロン）網を数学的なモデルで表現したニューラルネットワーク（NN）を用いることができる。音声翻訳は、時系列に入力される音声データを翻訳することから、ＮＮとしては、時系列データを扱うリカレントニューラルネットワーク（RNN）や、ＲＮＮの短時間前のデータしか処理できないという欠点を解消し、長期の時系列データを学習できるＬＳＴＭ(Long Short Term Memory)を用いることができる。

【0031】

演算部２６は、深層学習（ディープラーニング）により学習された学習済みモデルを使用し、現在翻訳対象としている単語もしくは連結単語が発生する以前の音声内容に基づき、各訳の候補の確率を算出することができる。

【0032】

演算部２６は、ある単語の訳の候補が５つ（Ａ～Ｅ）存在する場合、当該単語より前に発言された内容に基づき、学習済みモデルを使用して、Ａの確率を１０％、Ｂの確率を２０％、Ｃの確率を４０％、Ｄの確率を１５％、Ｅの確率を１５％と算出することができる。この場合、最も確率が高いＣを、訳の候補として選択することができる。

【0033】

なお、この場合のＣの確率（４０％）は、他のＡ、Ｂ、Ｄ、Ｅの確率を合計した６０％より低い。このように低い確率では、Ｃが本当に正しい訳である可能性は低い。

【0034】

そこで、訳の候補として採用する確率の閾値は、予めシステム設計者が設定した値とすることができ、例えば７０％以上とすることができる。したがって、Ａの確率を１０％、Ｂの確率を１０％、Ｃの確率を７０％、Ｄの確率を５％、Ｅの確率を５％と算出された場合、閾値の７０％以上であるＣを訳の候補として選択することができる。また、上記の例のように、最も確率が高いＣでも４０％であり、その確率が閾値より小さい場合、いずれの訳の候補も選択しないようにすることができる。

【0035】

翻訳部２７は、連結性なしと判断された単語、もしくは連結性ありと判断された連結単語であって、省略可能ではなく、多義語でもない場合、当該単語もしくは連結単語をそのまま翻訳する。翻訳部２７は、省略可能な単語もしくは連結単語である場合、当該単語もしくは連結単語の翻訳を省略する。

【0036】

翻訳部２７は、多義語である場合、複数の訳の候補に翻訳し、翻訳した複数の訳を演算部２６に渡す。翻訳部２７は、演算部２６により算出された確率が閾値以上である訳の候補を、単語もしくは連結単語の訳として選択する。翻訳部２７は、演算部２６により算出された確率が閾値以上である訳の候補が存在しない場合、単語もしくは連結単語を翻訳せずに英語を日本語読み（カタカナ読み）にして使用する。すなわち、多義語の複数の訳の候補の中から文脈に合った正しい訳を、その単語が出現する以前の単語等の情報から確定できない場合、あえて翻訳せずに英語のまま使用する。従来においては、多義語について文脈に合った正確な訳を選出するため、少なくとも節の最後まで入力して文脈から判断するが、これではリアルタイム性が損なわれることになる。しかしながら、このように正しい訳を候補の中から確定できない場合、あえて翻訳せずに英語のまま使用することで、リアルタイム性が損なわれるのを防ぐことができる。

【0037】

また、翻訳部２７は、演算部２６により算出された確率が閾値以上である訳の候補が存在せず、訳の候補の数が所定数以内である場合、訳の候補を全て選択する。翻訳部２７は、演算部２６により算出された確率が閾値以上である訳の候補が２以上存在する場合、確率が最も高い訳の候補を選択する。

【0038】

転置処理部２８は、単語や連結単語が第４の辞書を参照して転置すべき単語もしくは連結単語であるか否かを判定する。単語記憶部２９は、転置すべき単語もしくは連結単語と判定された場合、判定された単語もしくは連結単語を記憶する。

【0039】

音声合成部３０は、翻訳された単語もしくは連結単語の音声合成を行う。音声合成は、人工的に音声を生成する処理であり、テキスト化された単語もしくは連結単語を音声に変換する。音声合成部３０は、省略可能と判定された単語もしくは連結単語を省略して音声合成を行う。また、音声合成部３０は、確率が閾値以上である訳の候補が存在しない場合、英語をカタカナ読みとした単語もしくは連結単語の音声合成を行う。さらに、音声合成部３０は、訳の候補が全て選択された場合、選択された訳の候補を一定の間（無音期間）を挟んで音声合成を行う。無音期間は、訳と訳の間の区切れが分かれば、いかなる期間であってもよい。ただし、あまり長い期間であると、遅延の少ない通訳を実現することができなくなるため、長くても数秒以内とされる。

【0040】

音声合成部３０は、例えば英単語や英語の熟語を日本語に訳さずに音声出力する際に、日本語がもつ音素で音声合成を行う。この場合、音声合成部３０は、日本語に訳さずに音声出力する可能性がある単語等を第５の辞書に登録しておき、音声合成の際に参照することができる。第５の辞書は、日本語に訳さずに音声出力する可能性がある単語等だけではなく、その単語の音声、すなわち日本語の音素による音声も、当該単語等に関連付けて登録しておくことができる。

【0041】

音声合成部３０は、複数の訳の候補を一定の間を挟んで音声合成を行うことにより、単語間のリエゾン（連音）をなくし、音声の出力も、英語を日本語の五十音の範囲の音に変換して音声出力することが可能となる。音声合成部３０は、音声出力装置１５へ音声合成が行われた単語もしくは連結単語を出力する。音声出力装置１５は、音声合成部３０から出力された単語もしくは連結単語を音声出力する。

【0042】

このような機能構成により、従来の課題であった多義語の翻訳も、可能性の高い少数の翻訳を提示してユーザが判断できることから、ユーザ側で適切な意味を把握することが可能となる。また、翻訳が困難な場合、英語をカタカナ読みにして発話することなるが、翻訳が困難な単語は限られた単語のみで、通常の学校教育で覚えなければならない単語数に比べれば、ごく少数で、短時間で覚えられる範囲の数であり、ユーザへの負担も、従来の英会話学習に比べれば皆無に近いレベルとなる。さらに、日本人にとって英語にヒアリングで最大の問題は、日本語にない音を聞き取れないことであり、本システムでは、日本語が有する音のみで音声合成を行うため、英単語を知っていれば直ちに単語の聞き取りが可能となる。

【0043】

図３は、音声翻訳処理の一例を示したフローチャートである。外国人が１～３語程度の単語を発話し、その音声が入力されたことを受けて、ステップ１００から処理を開始する。入力された音声は、アナログ信号であり、Ａ／Ｄ変換によりデジタル信号へ変換される。

【0044】

ステップ１０１では、音声認識部２０が、音声認識処理を実行する。ステップ１０２では、分割部２１が、音声認識処理によりテキスト化された音声を単語単位で分割する。ステップ１０３では、連結性判断部２２が、単語が後続の単語と連結した場合、その連結した単語が第１の辞書にあるかどうかを判断する。熟語等の単語群として第１の辞書にある場合、その連結した単語を連結単語とし、１つのまとまりとして扱う。第１の辞書にない場合、単語単体で扱う。

【0045】

ステップ１０４では、省略可否判定部２３が、第２の辞書を参照し、単語もしくは連結単語の翻訳が省略可能か否かを判定する。省略可能と判定した場合、単語もしくは連結単語の翻訳を省略する。ステップ１０５では、多義語判定部２４が、第３の辞書を参照し、単語もしくは連結単語が日本語において複数の異なる意味に訳されるかどうかを判定する。

【0046】

ステップ１０５の判定結果が、複数の異なる意味に訳される多義語と判定された場合、ステップ１０６で、演算部２６が、音声内容記憶部２５に記憶した、外国人が発話を開始し、音声認識処理を行った後の文の先頭から現在の翻訳対象の単語もしくは連結単語までの単語群と、当該単語もしくは連結単語とを入力とし、学習済みモデルを用いて、その状況での意味として最も可能性の高い意味を確率として算出する。

【0047】

最も高い確率が閾値以上の場合、翻訳部２７は、最も可能性の高い意味をもつ訳の候補を単語もしくは連結単語の訳として選択する。最も高い確率が閾値未満である場合、ステップ１０８へ進み、翻訳部２７は、日本語に翻訳せずに英語の単語もしくは連結単語をカタカナ読みにして使用する。

【0048】

ステップ１０５の判定結果が、多義語と判定されなかった場合、ステップ１０９で、翻訳部２７は、単語もしくは連結単語を第５の辞書（翻訳辞書）を参照して翻訳する。

【0049】

ステップ１１０では、転置処理部２８が、第４の辞書を参照し、転置すべき単語もしくは連結単語であるか否かを判断する。転置すべき単語もしくは連結単語である場合、単語記憶部２９にその単語もしくは連結単語を記憶する。転置処理部２８は、節の終わり等の転置すべき位置において、単語記憶部２９から記憶した単語もしくは連結単語を読み出し、音声合成部３０へ出力する。一方、その単語が転置すべき単語もしくは連結単語ではない場合、音声合成部３０へその単語もしくは連結単語を出力する。音声合成部３０へ出力される単語もしくは連結単語は、閾値以上の最も高い確率の訳の候補、翻訳された単語もしくは連結単語、翻訳されない英語の単語もしくは連結単語である。

【0050】

ステップ１１１では、音声合成部３０が、日本語化された単語もしくは連結単語、または翻訳されなかった英語の単語もしくは連結単語の音声合成を行う。音声合成部３０は、連結された英単語の場合、リエゾンのない音声として、また、全ての英単語の音声を日本語の五十音の音として音声合成を行う。そして、ステップ１１２へ進み、この処理を終了する。音声出力装置１５は、音声合成部３０により音声合成された音声を出力する。音声が入力されている間、ステップ１００からステップ１１２の処理が繰り返される。

【0051】

全体の音声翻訳処理の流れは、図３に示した通りであるが、図４～図８を参照して、図３に示した各ステップにおける処理を、具体的な例をもって説明する。図４は、音声翻訳処理の第１の例について説明する図である。図４に示す例では、外国人が「Thank you for joining this meeting today.」と発話している。

【0052】

分割部２１は、図４に示すように、各単語に分割する。連結性判断部２２は、第１の辞書を参照し、第１の辞書に登録されている「Thank you」を連結単語と判断する。また、連結性判断部２２は、前置詞「for」を検出し、前置詞「for」の後に続く「joining」と連結し、「for joining」を連結単語とする。

【0053】

省略可否判定部２３、多義語判定部２４により各判定をし、翻訳部２７により各単語および連結単語を日本語に翻訳し、音声合成部３０が、翻訳されたテキスト状態の日本語を音声に変換する。すると、図４に示すように、「ありがとう」、「参加に対し」、「この」、「ミーティング」、「今日」という順に音声出力される。

【0054】

より詳細に説明すると、「Thank you for」と発話された段階で、上記処理を開始し、各単語に分割、連結性判断を行い、「Thank you」の部分につき、「ありがとう」に翻訳し、音声合成して音声出力を行う。「for」については、後続する単語と連結される単語であるため、次の発話を待つ。「for joining」と発話された段階で、連結し、「参加に対し」と翻訳し、音声合成して音声出力を行う。後の「this」、「meeting」、「today」に関しては、各単語が発話された段階であってもよいし、「this meeting」と発話された段階でもよいし、「this meeting today」と発話された段階でもよいが、各単語を翻訳し、音声合成して音声出力を行う。とにかく、１～３語程度の発話があった段階で翻訳を行い、音声合成して音声出力する。

【0055】

図４に示した例では、転置、省略がなく、多義語でもない場合について説明した。図５は、音声翻訳処理の第２の例について説明する図で、転置がある場合の例である。図５に示す例では、外国人が「Since everyone is here, let’s get started.」と発話している。

【0056】

分割部２１は、各単語に分割し、連結性判断部２２は、単語が連結されて連結単語とされるか否かを判断する。単語、連結単語が省略なく、多義語でもない場合、翻訳部２７は、単語、連結単語を翻訳する。転置処理部２８は、転置すべき単語もしくは連結単語か否かを判断する。この例では、「Since」が転置すべき単語として第４の辞書に登録されているため、「Since」が単語記憶部２９に記憶される。「everyone」、「is here,」という節の終わりにおいて、単語記憶部２９から読み出され、その位置に「Since」が配置される。

【0057】

音声合成部３０は、転置後の順に、翻訳した単語、連結単語の音声合成を行う。このため、転置処理がなければ、「ので」、「皆さん」、「いる」、「始めましょう」の順で音声出力されることになるが、転置処理により、「皆さん」、「いる」、「ので」、「始めましょう」の順に音声出力されることになる。

【0058】

図５に示した例では、転置がある場合について説明した。図６は、音声翻訳処理の第３の例について説明する図で、省略がある場合の例である。図６に示す例では、外国人が「I’d like to thank everyone for coming today.」と発話している。

【0059】

分割部２１は、各単語に分割し、連結性判断部２２は、単語が連結されて連結単語とされるか否かを判断する。省略可否判定部２３は、第２の辞書を参照し、単語、連結単語が省略可能か否かを判定する。第２の辞書には、「I’d like to」が登録されている。したがって、省略可否判定部２３は、「I’d like to」の連結単語について省略可能と判定する。それ以外の単語、連結単語は、第２の辞書に登録されていないので、省略は不可である。翻訳部２７は、省略可能な「I’d like to」を除いた単語、連結単語を翻訳する。

【0060】

図６に示した例では、第４の辞書に登録された、転置すべき単語、連結単語がない。このため、音声合成部３０は、翻訳した単語、連結単語の音声合成を行う。これにより、「ありがとう」、「皆さん」、「来てくれて」、「今日」の順に音声出力されることになる。

【0061】

図６に示した例では、省略がある場合について説明した。図７は、音声翻訳処理の第４の例について説明する図で、多義語の場合の例である。図７に示す例では、外国人が「The prize went to him.」と発話している。

【0062】

分割部２１は、各単語に分割し、連結性判断部２２は、単語が連結されて連結単語とされるか否かを判断する。連結性判断部２２は、冠詞「The」に続く「prize」が連結されると判断する。これにより、「The prize」と連結され、これが連結単語とされる。図７に示した例では、省略可能な単語等はない。

【0063】

多義語判定部２４は、第３の辞書を参照し、第３の辞書に「go」が登録されていることから、その過去形である「went」が登録されているものとし、「went」を多義語であると判定する。「go」は、「行く」、「なくなる」、「進む」、「経過する」、「与えられる」等の意味がある。

【0064】

翻訳部２７は、学習済みモデルを使用し、上記の訳の候補のうち、最も高い確率のものであって、その確率が閾値以上である「与えられる」を選択し、「went」を「与えられた」と翻訳する。

【0065】

図７に示した例では、転置すべき単語等がないため、音声合成部３０は、翻訳した単語、連結単語の音声合成を行う。これにより、「その賞は」、「与えられた」、「彼に」の順に音声出力されることになる。

【0066】

図７に示した例では、多義語の場合であって、最も高い確率の訳の候補が閾値以上の場合について説明した。図８は、音声翻訳処理の第５の例について説明する図で、多義語の場合であって、最も高い確率の訳の候補が閾値未満である場合の例である。図８に示す例では、外国人が「This vending machine takes any coin.」と発話している。

【0067】

分割部２１は、各単語に分割し、連結性判断部２２は、単語が連結されて連結単語とされるか否かを判断する。連結性判断部２２は、「any」＋「名詞」が登録されており、「any」と「coin」が連結されると判断する。これにより、「any coin」と連結され、これが連結単語とされる。図８に示した例も、省略可能な単語等はない。

【0068】

多義語判定部２４は、第３の辞書を参照し、第３の辞書に「take」が登録されていることから「takes」が登録されているものとし、「takes」を多義語であると判定する。「take」は、「取る」、「つかむ」、「持っていく」、「連れて行く」、「運ぶ」、「かかる」、「受け入れる」等の意味がある。

【0069】

翻訳部２７は、学習済みモデルを使用し、上記の訳の候補のうち、最も高い確率のものであって、その確率が閾値以上である訳の候補が存在しないため、「takes」は英語のまま使用する。すなわち、翻訳部２７は、カタカナ読みにして「テイクする」と訳す。

【0070】

図８に示した例では、転置すべき単語等がないため、音声合成部３０は、翻訳した単語、連結単語の音声合成を行う。これにより、「この」、「販売」、「機械」、「テイクする」、どんなコインも」の順に音声出力されることになる。

【0071】

図９は、音声翻訳システムの第２の構成例を示した図である。音声翻訳システムは、音声翻訳端末１０のみで構成されていてもよいが、音声翻訳端末１０と、クラウド上のサーバ４０とから構成されていてもよい。音声翻訳システムを音声翻訳端末１０のみで構成する場合、各辞書を全て音声翻訳端末１０内に保持する必要があるが、クラウド上のサーバ４０に各辞書等を保持させ、サーバ４０に連結単語や省略可能な単語等が登録されているかを問い合わせることができる。

【0072】

このため、音声翻訳端末１０は、ネットワークを介してサーバ４０と通信を行う通信装置を備える。なお、サーバ４０は、図２に示した機能部の一部を備え、サーバ４０において一部の処理を実施してもよい。

【0073】

図１０は、音声翻訳システムの第３の構成例を示した図である。図１０は、中継装置４１を介して互いに離れた場所で通信端末４２、４３を使用し、ネットワーク４４を介して会議を行う会議システムを示している。音声翻訳端末１０の機能が、中継装置４１もしくは通信端末４２に実装されている。なお、音声翻訳端末１０の機能の一部が、通信端末４２に実装され、残りの機能が、中継装置４１に実装されていてもよい。また、音声翻訳端末１０の機能を、通信端末４２が実装し、中継装置４１が、通信端末４２により参照される各辞書を保持していてもよい。

【0074】

このような会議システムは、通信端末４３を使用して会話を行う外国人の発話を、中継装置４１を介して通信端末４２で翻訳し、音声合成を行い、音声出力することになる。外国人が発言した内容を理解することができるため、片言であっても、適切な返事を返すことができる。

【0075】

以上のように、本発明は、英語から日本語への通訳ではなく、英語から英語型日本語への通訳に関する発明であり、英語で発声された音声の時系列順序を変えることなく翻訳、音声合成、音声出力を行うことで、可能な限り少ない単語の発声後に翻訳を実行し、翻訳における遅延を極力短くすることができ、円滑な会話が期待できる。

【0076】

また、英語型日本語は、従来の英語の学習に比べ、簡単な学習で使用することができ、英語の構造を自然に身に着けることが可能となり、英会話を学習する者にとっても上達を早めることが可能となる。さらに、将来においては、英文科等の専門家を除き、一般の日本人にとって英語学習を不要にできるという効果も期待できる。

【0077】

これまで本発明の音声翻訳システムおよび音声翻訳方法について上述した実施形態をもって詳細に説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態や、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0078】

１０…音声翻訳端末
１１…プロセッサ
１２…メモリ
１３…ストレージ
１４…音声入力装置
１５…音声出力装置
２０…音声認識部
２１…分割部
２２…連結性判断部
２３…省略可否判定部
２４…多義語判定部
２５…音声内容記憶部
２６…演算部
２７…翻訳部
２８…転置処理部
２９…単語記憶部
３０…音声合成部
４０…サーバ
４１…中継装置
４２、４３…通信端末
４４…ネットワーク

【図1】