(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6397641
(24)【登録日】2018年9月7日
(45)【発行日】2018年9月26日
(54)【発明の名称】自動通訳装置及び方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20180913BHJP
G10L 15/22 20060101ALI20180913BHJP
【FI】
G10L15/00 200C
G10L15/22 453
【請求項の数】17
【全頁数】19
(21)【出願番号】特願2014-56505(P2014-56505)
(22)【出願日】2014年3月19日
(65)【公開番号】特開2015-26054(P2015-26054A)
(43)【公開日】2015年2月5日
【審査請求日】2017年3月21日
(31)【優先権主張番号】10-2013-0089649
(32)【優先日】2013年7月29日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】596180076
【氏名又は名称】韓國電子通信研究院
【氏名又は名称原語表記】Electronics and Telecommunications Research Institute
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】イ スー−ジョン
(72)【発明者】
【氏名】キム サン フン
(72)【発明者】
【氏名】キム ジョン セ
【審査官】
山下 剛史
(56)【参考文献】
【文献】
特開2002−288170(JP,A)
【文献】
特開2013−61371(JP,A)
【文献】
特表2007−531930(JP,A)
【文献】
特開平7−98709(JP,A)
【文献】
特開2002−288167(JP,A)
【文献】
特開平11−161651(JP,A)
【文献】
特開平8−166966(JP,A)
【文献】
特開2005−149042(JP,A)
【文献】
金泰完他,日韓機械翻訳システムの現状分析および開発への提言,自然言語処理,言語処理学会,1998年10月10日,第5巻,第4号,p.127-149
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
ユーザからユーザ命令と、通訳対象となるソース言語基盤音声とが印加され、前記ソース言語基盤音声が翻訳されたターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、
前記ユーザ命令に応答して、前記ソース言語とターゲット言語に関する情報を設定する設定部と、
前記インターフェース部を介して前記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、変換された前記ソース言語基盤テキストの発声音を前記ターゲット言語で表示するターゲット言語テキストに変換し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳して前記インターフェース部に伝送する通訳部と、
を含む自動通訳装置。
【請求項2】
前記通訳部は、
前記ソース言語及び前記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、
前記インターフェース部から受信される前記ソース言語基盤音声を前記音響及び言語データベース部の前記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、
前記音声認識部から前記ソース言語基盤テキストを受信し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、
前記テキスト翻訳部から前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成して、前記インターフェース部に伝送する音声合成部と、
前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換し、前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する発声音変換部と、を含むことを特徴とする請求項1に記載の自動通訳装置。
【請求項3】
前記発声音変換部は、
前記音声認識部及び前記テキスト翻訳部のうちの1つから前記ソース言語基盤テキストを受信し、前記言語データベース部の認識ネットワークを利用して、受信された前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換して前記インターフェース部に出力する第1発声音変換部と、
前記テキスト翻訳部及び前記音声合成部のうちの1つから前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する第2発声音変換部と、を含むことを特徴とする請求項2に記載の自動通訳装置。
【請求項4】
前記第1及び第2発声音変換部のそれぞれは、
前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする請求項3に記載の自動通訳装置。
【請求項5】
前記音響及び言語データベース部は、
前記ソース言語及び前記ターゲット言語の種類に応じて前記認識ネットワークが、発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることを特徴とする請求項3に記載の自動通訳装置。
【請求項6】
前記ソース言語が、韓国語であり、前記ターゲット言語が、語節を有する言語であることを特徴とする請求項5に記載の自動通訳装置。
【請求項7】
前記第1発声音変換部は、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行って語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ターゲット言語の音節に変換し、変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成することを特徴とする請求項6に記載の自動通訳装置。
【請求項8】
前記第2発声音変換部は、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別し、対訳語が存在する語彙に対しては、対訳語の発音を適用し、対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ソース言語の音節に変換し、前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成することを特徴とする請求項7に記載の自動通訳装置。
【請求項9】
前記インターフェース部は、
前記ユーザが入力する音声を感知して前記通訳部に伝送する音声感知部と、
ユーザ命令入力手段として実現され、前記ユーザ命令または前記ソース言語基盤テキストが入力されるユーザ入力部と、
ディスプレイ手段として実現され、前記ソース言語基盤テキストと翻訳された前記ターゲット言語基盤テキスト、前記ターゲット言語基盤テキストの発声音をソース言語で表記した前記ソース言語テキスト、及び前記ソース言語基盤テキストの発声音をターゲット言語で表記した前記ターゲット言語テキストのうちの少なくとも1つを表示するディスプレイ部と、
音声出力手段として実現され、前記合成音を出力する音声出力部と、を含むことを特徴とする請求項2に記載の自動通訳装置。
【請求項10】
インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、前記自動通訳装置が、
前記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、
前記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、
前記ソース言語基盤音声が印加されると、前記通訳部の音響及び言語データベース部に格納されているソース言語及びターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、
前記ソース言語基盤テキストの発声音をターゲット言語で表示するターゲット言語テキストに変換して出力するステップと、
前記ソース言語基盤テキストを、前記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、
を含む自動通訳方法。
【請求項11】
前記ソース言語および前記ターゲット言語が、語節を有する言語であることを特徴とする請求項10に記載の自動通訳方法。
【請求項12】
前記認識ネットワークは、
前記ソース言語及び前記ターゲット言語の種類に応じて発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを含むことを特徴とする請求項11に記載の自動通訳方法。
【請求項13】
前記ターゲット言語テキストに変換して出力するステップは、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、
前記発音変異変換が行われた前記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、
前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位の発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ターゲット言語の音節に変換するステップと、
前記変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成するステップと、
前記ターゲット言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項12に記載の自動通訳方法。
【請求項14】
前記翻訳されたターゲット言語基盤テキストの発声音を前記ソース言語で表示するソース言語テキストに変換して出力するステップをさらに含み、
前記ソース言語テキストに変換して出力するステップは、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、
前記対訳語が存在する語彙に対しては対訳語の発音を適用するステップと、
前記対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離するステップと、
前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ソース言語の音節に変換するステップと、
前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成するステップと、
前記ソース言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項13に記載の自動通訳方法。
【請求項15】
前記ターゲット言語テキストに変換して出力するステップ及び前記ソース言語テキストに変換して出力するステップのそれぞれは、
前記発音変異変換を行うステップ及び前記対訳語が存在するか否かを判別するステップの前に、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理ステップをさらに含むことを特徴とする請求項14に記載の自動通訳方法。
【請求項16】
前記自動通訳方法は、
前記ターゲット言語基盤テキストに翻訳するステップの前に、前記ソース言語基盤音声が印加されないと、前記インターフェース部を介してソース言語基盤テキストが直接印加されるステップと、
前記ターゲット言語基盤テキストに翻訳するステップの後に、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、前記インターフェース部を介して合成音を出力するステップと、をさらに含むことを特徴とする請求項10に記載の自動通訳方法。
【請求項17】
請求項10から請求項16のいずれか1項に記載の自動通訳装置の自動通訳方法を行うためのコンピュータ読み取り可能なプログラムを記録した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動通訳装置及び方法に関し、より詳細には、自動通訳時に出力される音声認識テキスト及び自動翻訳テキストのそれぞれの発声音を相対国言語または発音表記法により表示できる自動通訳装置及び方法に関する。
【背景技術】
【0002】
自動通訳装置は、互いに異なる言語を話す人の間に意思疎通をより円滑に図ることができるようにする装置であって、通常ソース言語のユーザがソース言語で発声すると、発声されたソース言語を音声認識して、相対国言語のユーザが使用するターゲット言語に自動翻訳し、翻訳されたターゲット言語を合成音声で出力する。
【0003】
すなわち、既存の自動通訳装置では、ソース言語の発声音が音声認識によりソース言語のテキストで表示され、自動翻訳によりターゲット言語のテキストに翻訳される。ターゲット言語のテキストは、ターゲット言語の音声に合成されて出力される。しかし、合成されて出力される音声は直ちに消滅するので、ユーザが相対国言語の発声音を直接再現して意思疎通に活用することは困難であるという問題点があった。
【0004】
また、既存の大部分の自動通訳装置は、通常使用頻度の低い固有名詞が入力される場合や雑音がひどい環境では、音声認識性能が急激に低下する現象が現われる。このように音声認識性能が低下する場合は、ユーザが自動通訳装置に直接テキストを入力して意思疏通を図るか、自動通訳によらないで相対国言語を直接発声する必要性が発生する。したがって、ユーザの円滑な意思疎通のためには多様なインターフェースが最大限提供されなければならない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、ソース言語を音声認識してターゲット言語に自動変換し、音声で出力すると同時にユーザが、翻訳されたターゲット言語を直接発音できるように、ターゲット言語をソース言語の発音表記法により表示することができる自動通訳装置を提供することにある。
【0006】
本発明の他の目的は、上記目的を達成するための自動通訳装置の自動通訳方法を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の一例に係る自動通訳装置は、ユーザからユーザ命令及び通訳対象となるソース言語基盤音声が印加され、上記ソース言語基盤音声を翻訳したターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、上記ユーザ命令に応答して上記ソース言語及び上記ターゲット言語に関する情報を設定する設定部と、上記インターフェース部を介して上記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳し、翻訳された上記ターゲット言語基盤テキストに付加して上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に伝送する通訳部と、を含む。
【0008】
上記通訳部は、上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、上記インターフェース部から受信される上記ソース言語基盤音声を上記音響及び言語データベース部の上記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、上記音声認識部から上記ソース言語基盤テキストを受信し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、上記テキスト翻訳部から上記ターゲット言語基盤テキストを受信して上記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、上記インターフェース部に伝送する音声合成部と、上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する発声音変換部と、を含むことを特徴とする。
【0009】
上記発声音変換部は、上記音声認識部及び上記テキスト翻訳部のうちの1つから上記ソース言語基盤テキストを受信し、上記言語データベース部の認識ネットワークを利用して、受信された上記ソース言語基盤テキストの発声音を上記ターゲット言語テキストに変換し、上記インターフェース部に出力する第1発声音変換部と、上記テキスト翻訳部及び上記音声合成部のうちの1つから上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する第2発声音変換部と、を含むことを特徴とする。
【0010】
上記第1及び第2発声音変換部のそれぞれは、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキスト中の文法誤りを分析して修正し、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする。
【0011】
上記音響及び言語データベース部は、上記ソース言語及び上記ターゲット言語の種類に応じて、上記認識ネットワークが発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることを特徴とする。
【0012】
上記の他の目的を達成するために本発明の一例に係る自動通訳方法は、インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、上記自動通訳装置が上記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、上記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、上記ソース言語基盤音声が印加されると、上記通訳部の音響及び言語データベース部に格納されている上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、上記ソース言語基盤テキストを上記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、上記翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換して出力するステップと、を含む。
【0013】
上記ソース言語は、韓国語であり、上記ターゲット言語は日本語であることを特徴とする。
【0014】
上記認識ネットワークは、上記ソース言語及び上記ターゲット言語の種類に応じて発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを含むことを特徴とする。
【0015】
上記ターゲット言語テキストに変換して出力するステップは、上記ソース言語基盤テキストに対し、上記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、上記発音変異変換が行われた上記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、上記g2p変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ターゲット言語の音節に変換するステップと、上記変換された音節を結合して上記語節を復元することにより上記ソース言語基盤テキストの発声音を表示する上記ターゲット言語テキストを生成するステップと、上記ターゲット言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。
【0016】
上記ソース言語テキストに変換して出力するステップは、上記ターゲット言語基盤テキストに、ソース言語で慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、上記対訳語が存在する語彙に対しては、対訳語の発音を適用するステップと、上記対訳語が存在しない語彙に対しては、語節、音節及び音素単位に順次分離するステップと、上記g2p変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ソース言語の音節に変換するステップと、上記対訳語の発音と変換された音節とを結合して上記語節を復元することにより上記ターゲット言語基盤テキストの発声音を表示する上記ソース言語テキストを生成するステップと、上記ソース言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。
【発明の効果】
【0017】
本発明の自動通訳装置及び方法は、既存の自動通訳装置と同様に、ユーザのソース言語発声音を受信して音声認識し、自動でターゲット言語に翻訳及び音声で出力するだけでなく音声認識されたテキストに付加してその発声音をターゲット言語で表示し、翻訳されたターゲット言語の発音をソース言語の発音表記法により表示することにより、ユーザが直接音声認識テキストを発音したり、翻訳されたターゲット言語を発音したりすることができる。従って、ユーザが状況によって音声認識対象テキストや通訳されたターゲット言語を直接発声することができるので、対話相手と円滑な疎通を図ることができるだけでなく、相対国の言語を理解し、分かり難い外国語の発音を容易に認識して発音を真似ることができるので、外国語学習の成就度を大きく高めることができる。さらに、ユーザの発声音に対する音声認識結果をソース言語及びターゲット言語で共に表示することにより、自動通訳装置の誤りの可否を迅速で正確に判断して、対処することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施例に係る自動通訳装置の構成を示す図面である。
【
図2】本発明の一実施例に係る自動通訳装置の自動通訳方法を示す図面である。
【
図3】
図2の自動通訳方法における第1発声音変換ステップを詳細に示す図面である。
【
図4】
図2の自動通訳方法における第2発声音変換ステップを詳細に示す図面である。
【発明を実施するための形態】
【0019】
本発明と本発明の動作上の利点及び本発明の実施によって達成される目的を十分に理解するためには、本発明の好ましい実施例を例示する添付図面及び添付図面に記載された内容を参照しなければならない。
【0020】
以下、添付した図面に基づいて本発明の好ましい実施例を説明することにより本発明を詳細に説明する。しかし、本発明は、多様な異なる形態に実現することができ、説明する実施例に限定されるものではない。そして、本発明を明確に説明するために、説明と関係ない部分は省略し、図面において、同一の図面符号は同一の部材であることを示す。
【0021】
明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特別に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、明細書に記載された「・・・部」、「・・・機」、「モジュール」、「ブロック」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはハードウェアとソフトウェアとの結合により実現可能である。
【0022】
図1は、本発明の一実施例に係る自動通訳装置の構成を示す。
【0023】
図1を参照すると、本発明の自動通訳装置は、インターフェース部と、設定部200と、通訳部300と、を含む。
【0024】
インターフェース部は、自動通訳装置の入出力部であって、ユーザの命令が印加され、ユーザに通訳結果を出力する。インターフェース部は、音声感知部110と、ユーザ入力部120と、ディスプレイ部130と、音声出力部140と、を含む。音声感知部110は、マイクのような音声感知センサーを含み、ユーザが入力する音声信号(in)を感知して通訳部300に伝送する。ユーザ入力部120は、キーボード、マウス、タッチパッド、タッチスクリーン等のようなユーザ命令の入力手段として実現され、ユーザがユーザ命令またはテキストを自動通訳装置に印加できるようにする。ユーザ入力部120は、ユーザ命令が印加されると、設定部200に伝送し、通訳するためのテキストが入力されると、テキストを通訳部300に伝送する。
【0025】
ディスプレイ部130は、スクリーン、モニターなどのようなディスプレイ手段により実現可能であり、場合によって、タッチスクリーンやタッチパネルのように、ユーザ入力部120と結合された形態に実現されることも可能である。ディスプレイ部130は、ユーザが音声で入力したソース言語に対する音声認識結果やユーザが入力したテキスト、通訳されたターゲット言語テキストを表示する。特に、本発明の自動通訳装置におけるディスプレイ部130は、ソース言語に対する音声認識結果やユーザが入力したテキストに対する発音をターゲット言語で表示し、通訳されたターゲット言語テキストに対する発音をソース言語で、ともに表示する。これは、直ちに消滅してしまう音声と異なって、ユーザが相手の言語の発音を認知して直接発音できるようにする。そして、通訳されたターゲット言語が音声で出力され、かつターゲット言語テキストに対する発音がソース言語で、ともに表示されると、音声のみに発声される場合に比べて、ユーザが通訳された言語の発音に対して、より理解し易くなり、外国語学習にも大きい成果を得ることができる。
【0026】
音声出力部140は、通訳部300で通訳されたターゲット言語が合成音に生成されると、生成された合成音を出力する。音声出力部140は、スピーカーのような音声出力手段により実現可能である。
【0027】
設定部200は、ユーザ入力部120を介して印加されるユーザ命令に応答してソース言語情報、ターゲット言語情報、合成音の出力設定などを設定して格納する。ここで、ソース言語情報は、ユーザにより音声またはテキストで入力されて、通訳対象となるソース言語がどんな言語であるのかに関する情報を含む。これと類似に、ターゲット言語情報は、入力されたソース言語をどんな言語に通訳するかに関する情報を含む。例えば、ソース言語情報及びターゲット言語情報として韓国語、英語、日本語、中国語などを設定することができる。
【0028】
通訳部300は、ユーザが入力したソース言語基盤の音声またはテキストを翻訳してターゲット言語基盤のテキストに翻訳し、翻訳されたターゲット言語基盤のテキストを合成音に生成して通訳を行う。特に、本発明における通訳部300は、ソース言語基盤のテキストの発声音をターゲット言語で表示し、翻訳されたターゲット言語基盤のテキストの発声音をソース言語で表示する。すなわち、ソース言語及びターゲット言語のそれぞれに対して、発声音を互いに相対国の言語で表示することにより、互いに異なる言語を使用する複数のユーザが互いに相手の言語を直接発音できるようにする。
【0029】
通訳部300は、音声及び言語データベース部310と、音声認識部320と、テキスト翻訳部330と、音声合成部340と、第1発声音変換部350と、第2発声音変換部360と、を含む。
【0030】
音声及び言語データベース部310は、ソース言語及びターゲット言語に関するデータを格納する。音声及び言語データベース部310には、一般的に音声認識装置において音声認識をするために使用される言語モデル、発音辞書及び音響モデルが格納される。言語モデルは、自然語において、文法、構文、単語などに対する、ある規則性を見つけ出し、その規則性を利用するために備えられ、音響モデルは、音声を認識単位に分離し、モデリングして認識単位の音声を認識単位の音素に変換するために備えられる。発音辞書は、各言語の発音表記法及び発音特性情報を含み、言語別の言語表記法を提供する。言語モデル、音響モデル及び発音辞書は、ソース言語及びターゲット言語に対してそれぞれ備えられることができ、他の言語に対しても備えられることができる。そして、音声及び言語データベース部310は、言語モデル、発音辞書及び音響モデルを統合した認識ネットワークを形成して格納することができる。
【0031】
特に、本発明に係る自動通訳装置は、従来の通訳装置と異なって、入力されたソース言語をターゲット言語に変換して出力するだけでなく、ターゲット言語に変換されたテキストに対する発声音をソース言語で表示したり、入力されたソース言語のテキストの発声音をターゲット言語で表示したりすることができる。また、それぞれの言語は、固有の文字体系や発音体系を有する場合が多い。このため、本発明の音声及び言語データベース部310は、言語モデルの種類に応じて発音辞書、発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることができる。
一例として、韓国語を日本語に、日本語を韓国語に相互通訳する場合を想定すると、韓国語は、音節及び音素文字体系であるのに対して、日本語は、音節単位の文字体系であるため、 互いに発音表記法が異なる。
【0032】
先ず、韓国語の発声音を日本語で表示する場合を説明すると、発音辞書は、文字を音素単位の発音記号に変換するための規則を格納し、g2p変換テーブルの土台となる。すなわち、文字素が入力されると、入力された文字素を、対応する音素の発音記号に変換して出力することができる。
【0033】
発音対訳データベースは、韓国語音節に対応する音素の結合構造を格納し、音素の結合に対応する日本語音節を格納して、韓国語音節を日本語音節に変換できるようにする。
【0034】
そして、韓国語の場合は、子音同化、口蓋音化、縮約などの多様な発音変異現象が存在する。そのため、発音変異データベースは、発音変異情報を格納し、各語彙の実際の発音に対応する発音を抽出できるようにする。例えば、韓国語の標記
【0036】
を日本語で表示しようとする場合は、実際の発音である
【0038】
に対応する日本語が表示されるようにでき、
【0042】
に対応する日本語が表示できるようにする。
【0043】
一方、日本語の発声音を韓国語で表示する場合を説明すると、g2p変換テーブルは、韓国語の発音を日本語で表示する場合と同様に動作する。発音対訳データベースは、日本語音節の発音記号を韓国語音節に対比して変換できるようにする。しかし、日本語の場合は、韓国語のような発音変異が相対的に少ないため、発音変異データベースが省略できる。代わりに、日本語中には、韓国語の表記が既に慣習化されている語彙がかなり多く存在する。対訳語データベースは、日本語に対して慣習化された対訳語を提供して、慣習化された語彙に対応できるようにする。
【0044】
音声認識部320は、音声感知部110を介して音声信号(in)を受信し、音声及び言語データベース部310に格納された音響モデルと言語モデルとを基盤にして設定された認識ネットワークを利用してテキストに変換する。このとき、変換されたテキストはソース言語基盤テキストである。
【0045】
テキスト翻訳部330は、音声信号(in)が変換されたソース言語基盤テキストを音声認識部320から受信したり、ユーザがユーザ入力部120を用いて入力したりしたソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。仮に、韓国語音声信号(in)が韓国語
【0047】
と音声認識されると、テキスト翻訳部330は、
【0049】
に対応する日本語である「さようなら」に変換することができる。テキスト翻訳部330は、音声及び言語データベース部310の言語モデルを基盤にして、ソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。テキストを翻訳する技法は公知された様々な技術が存在するので、ここでは詳細な説明を省略する。
【0050】
そして、テキスト翻訳部330は、前処理部(図示せず)を備えることができる。前処理部は、テキスト翻訳の前にアラビア数字のような記号をテキストに変換したり、綴字法誤りをチェックして修正する前処理作業を行うことができる。しかし、数字や記号の場合は、多くの言語では、統合して使用される場合も多いため、テキストに変換する必要がないこともある。しかし、数字や記号に対する発音は各言語別に異なる場合が大部分であるので、前処理部は、テキストを発声音に従って変換する第1及び第2発声音変換部350、360に含まれ得る。
【0051】
音声合成部340は、翻訳されたターゲット言語基盤テキストを音声合成してユーザが聴取できるように、合成音を生成して音声出力部140に出力する。このとき、音声合成部340は、設定部200の設定により合成音を男性の音声または女性の音声や、大人または子供の音声などで多様に合成することができる。
【0052】
第1発声音変換部350は、音声認識部320で認識したソース言語基盤テキストを音声及び言語データベースの発音辞書に基づいてターゲット言語に変換する。すなわち音声信号(in)が入力されて、音声認識部320でソース言語基盤テキストに変換されると、変換されたソース言語基盤テキストの発声音をターゲット言語で表示する。上記の例のように、韓国語を日本語に通訳する場合、音声信号(in)は、ソース言語が韓国語である韓国語基盤音声信号で入力される。そして、韓国語基盤音声信号は、音声認識部320で韓国語基盤テキストに変換される。ここで、第1発声音変換部350は、韓国語基盤テキストの発声音をターゲット言語である日本語テキストに変換する。仮に、入力信号(in)が、
【0054】
で音声認識されると、第1発声音変換部350は、
【0056】
を音声及び言語データベース部310のデータを用いて日本語のカタカナ表記「アンニョンヒ・ギェセヨ」に変換する。これは、テキスト翻訳部330が行う意味的翻訳である「さようなら」と異なって、韓国語発声音を「アンニョンヒ・ギェセヨ」に変換することにより、相対者である日本人が韓国語発音を、自国語で見て容易に発声できるようにする。
【0057】
そして、第1発声音変換部350は、音声認識部320で認識したソース言語基盤テキストとソース言語基盤テキストの発声音を表示したターゲット言語テキストとをディスプレイ部130に伝送し、ディスプレイ部130が音声認識されたソース言語基盤テキストに付加してソース言語基盤テキストの発声音を表示したターゲット言語テキストを表示できるようにする。ここで、ユーザは、自分が発話した音声を自動通訳装置が正確に認識したか否かを判別することができ、これに対応する発声音のターゲット言語表記も確認することができる。
【0058】
上記では、第1発声音変換部350が音声認識部320からソース言語基盤テキストを受信することを説明したが、ソース言語基盤テキストは、テキスト翻訳部から受信することもできる。
【0059】
第2発声音変換部360は、第1発声音変換部350とは反対に、テキスト翻訳部330で翻訳したターゲット言語基盤テキストの発声音を言語データベースに基づいてソース言語のテキストに変換する。第2発声音変換部360は、音声合成部340に印加されたターゲット言語に翻訳されたテキストを受信し、翻訳されたターゲット言語テキストの発声音をソース言語に変換する。上記の例で、第2発声音変換部360は、韓国語の
【0061】
が翻訳された日本語である“さようなら”を韓国語発音の
【0063】
に変換する。ここで「−」は、長音表記記号である。
【0064】
そして、第1発声音変換部350と同様に、第2発声音変換部360が、翻訳された日本語の発声音を表示する韓国語を日本語テキストとともにディスプレイ部130に伝送して表示されるようにすることで、ユーザはターゲット言語に翻訳されたテキストに対する発音を韓国語で確認することができるので、発音に対する高い理解度を有し、翻訳されたテキストを容易に直接発話することができる。
【0065】
同時に、ターゲット言語に翻訳されたテキストに対応する合成音が音声出力部140を介して出力されるので、発音に対する高い理解度を有することができるので、語学学習の際にも成就度を高めることができる。
【0066】
上記では説明の便宜のために、第1発声音変換部350と第2発声音変換部360を別に図示したが、第1発声音変換部350と第2発声音変換部360は統合して実現されることもできる。また、
図1では、第2発声音変換部360が、音声合成部340から翻訳されたターゲット言語基盤テキストを受信することに図示したが、第2発声音変換部360は、テキスト翻訳部330からターゲット言語基盤テキストを受信してもよい。
【0067】
また、
図1では、設定部200を通訳部300と別途に図示したが、設定部200は通訳部300に含まれてもよい。
【0068】
図1の自動通訳装置は、通訳のための別途の装置として実現されることもできるが、設定部200及び通訳部300が、ソフトウェアとして実現可能であるため、インターフェース部を備える様々な装置が自動通訳装置として活用可能である。例えば、スマートフォン、スマートパッド、PDA、PCなどのような各種情報通信機器が自動通訳装置として活用されることができる。
【0069】
図2は、本発明の一実施例に係る自動通訳装置の自動通訳方法を示す。
【0070】
図2の自動通訳方法も、
図1に示したように、韓国語を日本語に通訳する場合を例にあげて説明する。
図1を参照して
図2の自動通訳方法を説明すると、自動通訳装置は、先ず、ユーザがユーザ入力部120を介して印加するユーザ命令により自動通訳設定を受信して格納する(S10)。ここで、自動通訳設定は、ソース言語及びターゲット言語情報、合成音の出力設定などを格納する。自動通訳設定は、基本値が予め指定されており、ユーザが設定しなくても、基本設定により通訳が行われることができる。
【0071】
自動通訳設定が指定されると、自動通訳装置は、音声信号(in)であるソース語音声が入力されるか否かを判別する(S20)。ソース語音声は、ユーザが使用するソース言語基盤の音声であって、音声感知部110を介して入力されることができ、ユーザは、ユーザ入力部120を介してユーザ命令として音声入力命令を印加することにより、ソース語音声が入力されるようにすることができ、場合によっては、自動通訳装置が自動で音声入力の可否を感知できるようにすることも可能である。若しソース語音声が入力されたと判別されると、音声認識部320は、音声及び言語データベース部310で音響モデル、発音辞書及び言語モデルを統合して格納された認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成する(S30)。
【0072】
一方、ソース語音声が入力されないと、ソース語テキストが入力されるか否かを判別する(S40)。ユーザは、通訳しようとする文章を音声で自動通訳装置に印加してもよく、雑音が多い場合や、音声に発話し難い環境のような特別な場合は、ユーザ入力部120を介して、通訳しようとする文章をテキストで直接入力してもよい。この場合は、音声認識が不要であるので、音声認識ステップS30を省略する。
【0073】
音声認識またはソーステキスト入力によりソース言語基盤テキストが得られると、第1発声音変換部350は、ソース言語基盤テキストの発音をターゲット言語のテキストに変換し、ソース言語基盤テキストとソース言語テキストの発声音を表示するターゲット言語テキストとをディスプレイ部130を介して出力する(S50)。
【0074】
そして、ソース言語基盤テキストを自動通訳設定により自動で翻訳してターゲット言語テキストに変換する(S60)。
【0075】
自動翻訳が行われてターゲット言語テキストが得られると、自動通訳装置の第2発声音変換部260が、翻訳されたターゲット言語テキストの発音をソース言語テキストに変換し、ターゲット言語テキストとターゲット言語テキストの発声音を表示するソース言語テキストとをディスプレイ部130を介して出力する(S70)。
一方、音声合成部340は、ターゲット言語基盤テキストに対応する音声を合成して合成音を生成する(S80)。そして、音声出力部140は、合成音を受信して出力する(S90)。
【0076】
合成音を出力した後、自動通訳装置は、逆にターゲット語に対して通訳するか否かを、ユーザ入力部120を介して印加されるユーザ命令により判別する(S100)。若しターゲット語に対する通訳命令が印加されると、既に設定された自動通訳設定においてソース語とターゲット語とを相互交換する通訳設定転換を行う(S110)。
【0077】
上記のように、本発明に係る自動通訳装置の自動通訳方法は、ソース語が音声またはテキストで入力されると、入力されたソース語の発音に対応するターゲット言語テキストと、ソース語が翻訳されたターゲット語に付加してその発声音を表記したソース言語テキストとを出力することにより、ユーザが発話した音声に対するターゲット語の発音表記と、通訳されたターゲット語に対するソース語の発音表記とを全て確認することができる。したがって、ユーザが、通訳されたターゲット言語の発音を容易に認知することができるので、直接発話できるようにするだけでなく、語学学習にも役に立つことができる。
【0078】
上記では、ソース言語基盤テキストの発音をターゲット言語テキストに変換する第1発声音変換ステップS50を説明したが、実際のユーザは、ターゲット言語テキストを必要としない場合もある。この場合、第1発声音変換ステップS50は、省略可能であり、第1発声音変換部350も自動通訳装置から除去可能である。
【0079】
図3は、
図2の自動通訳方法での第1発声音変換ステップを詳細に示し、
図4は、
図2の自動通訳方法での第2発声音変換ステップを詳細に示す。
【0080】
図3及び
図4においても、韓国語から日本語に通訳する場合を一例にして説明し、前処理部がテキスト翻訳部ではなく、第1及び第2発声音変換部350、360にそれぞれ備えられることを想定して説明する。
【0081】
図3の第1発声音変換ステップS50は、ソース言語基盤テキストの発声音をターゲット言語テキストに変換するステップであって、先ず、音声認識されたり、ソース語テキストが入力されたりして得られたソース言語基盤テキストに対して、前処理作業を行う(S51)。 前処理作業は、上述したように、綴字法チェックのように文法的誤りを修正し、数字や記号をソース言語基盤テキストに変換して行われることができる。そして、音声及び言語データベース部310の発音変異データベースを用いて発音変異変換を行う(S52)。発音変異変換は、上述したように、韓国語の特性である子音同化、口蓋音化、縮約などの様々な発音変異現象がソース言語基盤テキストに適用されるようにする。すなわちソース言語基盤テキストを発音基盤テキストに一部変換する。
【0082】
発音変異変換を行った後、ソース言語基盤テキストを語節単位に分離する(S53)。語節分離は、言語の種類に関係なく、分かち書きが反映されるようにするためである。語節が分離されると、音節分離を行う(S54)。そして、音節が分離されると、各音節を初声、中声及び終声に音素分離を行う(S55)。音素分離は、韓国語が音素基盤言語であるため行い、音素に分離できない日本語や中国語の場合は、音素分離を省略できる。
【0083】
音素分離が行われると、音声及び言語データベース部310のg2p変換テーブルを用いて分離された音素を音素単位の発音記号に変換する(S56)。表1は、韓国語を発音記号に変換するためのg2p変換テーブルの一例を示す。
【0085】
そして、音声及び言語データベース部310の発音対訳データベースを用いて、変換された音素単位発音記号を音節単位に結合した後、結合された音節に対応するターゲット語(ここでは、日本語)の音節に変換する(S57)。表2は、韓国語を日本語の音節に変換するための発音対訳データベースの一例を示す。
【0087】
分離された音節の全てがターゲット語の音節に変換されると、変換された音節を再び結合して語節を復元する(S58)。復元された語節は、ソース言語基盤テキストの発声音がターゲット言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部130を介してターゲット言語テキストを表示する(S59)。このとき、ソース言語基盤テキストに付加して、ソース言語基盤テキストの発声音に対するターゲット言語テキストがともに表示されることができる。
【0088】
一方、
図4の第2発声音変換ステップ(S70)は、翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換するステップであって、第1発声音変換ステップS50と同様に、先ず前処理ステップを行うことができる(S71)。そして、対訳語検索ステップを行う(S72)。上述したように、日本語基盤テキストの発声音を韓国語テキストに変換する場合は、既に慣習化された語彙の対訳語がかなり多く数存在するので、これを反映する必要がある。このような対訳語が発音に適用されるように、音声及び言語データベース部310に含まれている対訳語データベースを用いて、ターゲット言語基盤テキストにソース言語の対訳語が存在するか否かを判断する。
【0089】
若し対訳語が存在することに判別されると、音声及び言語データベース部310に格納されている対訳語を呼び出して適用する(S74)。対訳語を適用する場合は、当該語彙に対しては、別途の変換過程が不要である。
【0090】
一方、対訳語の存在しない語彙に対しては、
図3と同様に、音節分離ステップ(S75)と、g2p変換ステップ(S76)と、発音対訳変換ステップ(S77)とを行う。単に、g2p変換のためのg2p変換テーブル及び発音対訳データベースの場合は、韓国語の発音を日本語に変換する場合と、日本語の発音を韓国語に変換する場合とが異なるので、互いに異なるg2p変換テーブル及び発音対訳データベースを使用することができる。
表3は、日本語を発音記号に変換するためのg2p変換テーブルの一例を示す。
【0092】
表4は、日本語を韓国語の音節に変換するための発音対訳データベースの一例を示す。
【0094】
表1から表4において、アルファベット大文字“B”と“L”は、日本語の発音特性上、語頭、語中、語尾に応じて異なって発音される発声を反映したものであり、“:”は、長音を示す。
【0095】
対訳語が存在する語彙に対しては、対訳語が適用され、対訳語が存在しない語彙に対しては、音節分離、g2p変換及び発音対訳変換が行われると、対訳語と、発音対訳が行われた語彙とを再び文章として結合する(S78)。
【0096】
結合された文章は、翻訳されたターゲット言語基盤テキストの発声音がソース言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部130を介してソース言語テキストを表示する(S79)。ここで、翻訳されたターゲット言語基盤テキストとともに、その発声音をソース言語で表示したソース言語テキストを表示することができる。
【0097】
図3及び
図4は、韓国語を日本語に通訳する場合を想定して説明したが、日本語を韓国語に通訳する場合は、
図3が第2発声音変換ステップとして行われ、
図4が第1発声音変換ステップとして行われることができる。
【0098】
上記では、一例として韓国語と日本語との間の通訳を例にして説明したが、本発明は、これに限定されず、他の種類の言語に対しても適用できることは明らかである。
【0099】
本発明に係る方法は、コンピューター読み取り可能な記録媒体に、コンピューターで読み取り可能なコードで実現することができる。コンピューターで読み取り可能な記録媒体とは、コンピューターシステムによって読み出されることができるデータが格納されるすべての種類の記録装置を含む。記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ格納装置などがあり、また、キャリアウエーブ(例えばインターネットを介した伝送)などの形態に実現されることも含む。また、コンピューターで読み取り可能な記録媒体は、ネットワークに接続されたコンピューターシステムに分散され、分散方式でコンピューターで読み取り可能なコードとして格納されて行われる。
【0100】
本発明は、図面に示した実施例に基づいて説明したが、これは例示的に説明したものに過ぎず、本発明が属する技術分野の通常の知識を有する者であれば、これから多様な変形及び均等な他の実施例が可能であることを理解できよう。
【0101】
したがって、本発明の技術的保護範囲は、本発明の請求範囲の技術的思想によって定められるべきである。