(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-16
(45)【発行日】2023-08-24
(54)【発明の名称】話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム
(51)【国際特許分類】
G10L 15/00 20130101AFI20230817BHJP
G10L 15/20 20060101ALI20230817BHJP
【FI】
G10L15/00 200C
G10L15/20 353
(21)【出願番号】P 2021188902
(22)【出願日】2021-11-19
【審査請求日】2021-11-19
(31)【優先権主張番号】10-2021-0000912
(32)【優先日】2021-01-05
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0106300
(32)【優先日】2021-08-11
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】596099882
【氏名又は名称】エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート
【氏名又は名称原語表記】ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】バン ジョン ウク
(72)【発明者】
【氏名】ユン スン
(72)【発明者】
【氏名】キム サン フン
(72)【発明者】
【氏名】イ ミン キュ
(72)【発明者】
【氏名】メン ジュン ギュ
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2018/186416(WO,A1)
【文献】特開2012-59121(JP,A)
【文献】米国特許出願公開第2017/0060850(US,A1)
【文献】登録実用新案第3225682(JP,U)
【文献】特開2009-122989(JP,A)
【文献】特開2002-244688(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,21/0272
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ユーザ端末での話者分離基盤の自動通訳方法において、
ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を自動通訳サービス提供端末から受信するステップと、
前記第1の音声信号を話者別音声信号に分離するステップと、
通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップと、
前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップと、
を含
み、
前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、
前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳方法。
【請求項2】
前記ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を自動通訳サービス提供端末から受信するステップは、
前記通訳モードに基づいて前記第1の音声信号を自動通訳サービス提供端末から受信し、
前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力される、
請求項1に記載の話者分離基盤の自動通訳方法。
【請求項3】
前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、
前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記ユーザ音声の通訳の結果である第2の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供する、
請求項1に記載の話者分離基盤の自動通訳方法。
【請求項4】
前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出するステップと、
前記抽出された状況情報をバッファ上に保存するステップと、
前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳するステップと、
を含む、
請求項
1に記載の話者分離基盤の自動通訳方法。
【請求項5】
前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を前記自動通訳サービス提供端末に提供する、
請求項
4に記載の話者分離基盤の自動通訳方法。
【請求項6】
話者分離基盤の自動通訳サービスを提供するユーザ端末において、
自動通訳サービス提供端末及び相手端末とデータを送受信する通信モジュールと、
自動通訳サービス提供端末からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を受信すると、これを基盤に通訳の結果である第2の音声信号を生成するためのプログラムが保存されたメモリと、
前記メモリに保存されたプログラムを実行するプロセッサと、
を含み、
前記プロセッサは、前記プログラムを実行することにより、前記第1の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通信モジュールを介して通訳の結果より生成された第2の音声信号を、通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供
し、
前記プロセッサは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項7】
前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力される、
請求項
6に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項8】
前記プロセッサは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通信モジュールを介して前記ユーザ音声の通訳の結果である第2の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供する、
請求項
6に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項9】
前記プロセッサは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出して前記メモリのバッファ上に保存し、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳する、
請求項
6に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項10】
前記プロセッサは、前記第1の音声信号及び前記第2の音声信号と前記抽出された状況情報とを基盤に、前記第1の音声信号を話者別音声信号に分離するための話者別ソース分離モデル、前記第1の音声信号を認識するための音声認識モデル、第1の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新する、
請求項
9に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項11】
前記プロセッサは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供する、
請求項
9に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。
【請求項12】
話者分離基盤の自動通訳サービス提供システムにおいて、
ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を、多チャンネルマイクを介して受信し、第1の音声信号に対する通訳の結果及び相手音声に対する通訳の結果を、スピーカーを介して提供する自動通訳サービス提供端末と、
前記第1の音声信号を受信して話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するユーザ端末と、
前記第2の音声信号をユーザ端末から受信して提供し、前記通訳モードに応じて相手音声を通訳してユーザ端末に提供する相手端末と、
を含
み、
前記ユーザ端末は、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳サービス提供システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システムに関する。
【背景技術】
【0002】
一般的に自動通訳(または自動翻訳)は、ユーザの第1言語を認識して第2言語に通訳した後、相手端末に送信したり、相手端末から受信された通訳結果を合成して、ユーザに聞かせる構成となっている。
【0003】
このようなアプローチは、基本的にユーザと相手とが存在する対面対話を目的とする。しかし、自動通訳が必要な殆どの状況は、ユーザが海外に行ったとき、外国人と会話(観光、レストラン、ショッピング、ホテル、ビジネスなど)をしたり、または空港案内音声、旅行地域テレビニュース、周囲の外国人の音声など状況判断のために、周囲から聞こえる外国人の音声を理解するためである。
【0004】
つまり、対面対話だけでなく、周囲から聞こえる外国人の音声を通訳してユーザに提供することが必要であるが、これらの技術が存在していないのが実情である。
【先行技術文献】
【特許文献】
【0005】
【文献】韓国公開特許第10-2019-0015081号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようする課題は、個別装置に入力される複数の話者の音声を話者別に区分し、これをユーザの希望する言語音声にすべて変換して、通訳結果を提供する、話者分離基盤の自動通訳サービスを提供するシステム、ユーザ端末及び方法を提供することである。
【0007】
ただし、本発明が解決しようとする課題は、上記した課題に限定されず、また他の課題が存在し得る。
【課題を解決するための手段】
【0008】
前述した課題を解決するために、本発明の第1側面によるユーザ端末での話者分離基盤の自動通訳方法は、ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を自動通訳サービス提供端末から受信するステップと、前記第1の音声信号を話者別音声信号に分離するステップと、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップと、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップと、を含む。
【0009】
本発明の一実施形態において、前記ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を自動通訳サービス提供端末から受信するステップは、前記通訳モードに基づいて前記第1の音声信号を自動通訳サービス提供端末から受信し、前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力されることができる。
【0010】
本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ音声の通訳の結果である第2の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供することができる。
【0011】
本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ周囲の音声に対する通訳の結果を話者別に区分して、前記自動通訳サービス提供端末に提供することができる。
【0012】
本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出するステップと、前記抽出された状況情報をバッファ上に保存するステップと、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳するステップと、を含むことができる。
【0013】
本発明の一実施形態において、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を前記自動通訳サービス提供端末に提供することができる。
【0014】
本発明の一実施形態において、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ周囲の音声に対する通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供することができる。
【0015】
また、本発明の第2側面による話者分離基盤の自動通訳サービスを提供するユーザ端末は、自動通訳サービス提供端末及び相手端末とデータを送受信する通信モジュールと、自動通訳サービス提供端末からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を受信すると、これを基盤に通訳の結果である第2の音声信号を生成するためのプログラムが保存されたメモリと、前記メモリに保存されたプログラムを実行するプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することにより、前記第1の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通信モジュールを介して通訳の結果より生成された第2の音声信号を、通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供する。
【0016】
本発明の一実施形態において、前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力されることができる。
【0017】
本発明の一実施形態において、前記プロセッサは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通信モジュールを介して前記ユーザ音声の通訳の結果である第2の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳結果を自動通訳サービス提供端末に提供することができる。
【0018】
本発明の一実施形態において、前記プロセッサは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する通訳の結果を話者別に区分して、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。
【0019】
本発明の一実施形態において、前記プロセッサは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出して前記メモリのバッファ上に保存し、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳することができる。
【0020】
本発明の一実施形態において、前記プロセッサは、前記第1の音声信号及び前記第2の音声信号と前記抽出された状況情報とを基盤に、前記第1の音声信号を話者別音声信号に分離するための話者別ソース分離モデル、前記第1の音声信号を認識するための音声認識モデル、第1の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新することができる。
【0021】
本発明の一実施形態において、前記プロセッサは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。
【0022】
本発明の一実施形態において、前記プロセッサは、前記ユーザ周囲の音声に対する通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。
【0023】
また、本発明の第3側面による話者分離基盤の自動通訳サービス提供システムは、ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を、多チャンネルマイクを介して受信し、第1の音声信号に対する通訳の結果及び相手音声に対する通訳の結果を、スピーカーを介して提供する自動通訳サービス提供端末と、前記第1の音声信号を受信して話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通訳の結果より生成された第2の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するユーザ端末と、前記第2の音声信号をユーザ端末から受信して提供し、前記通訳モードに応じて相手音声を通訳してユーザ端末に提供する相手端末と、を含む。
【0024】
前述した課題を解決するために、本発明の他の側面によるコンピュータプログラムは、ハードウェアであるコンピュータと結合されて話者分離基盤の自動通訳サービスを提供するシステム、ユーザ端末及び方法を実行し、コンピュータで読取り可能な記録媒体に保存される。
【0025】
本発明の他の具体的な事項は、詳細な説明及び図面に含まれている。
【発明の効果】
【0026】
前述した本発明の一実施形態によれば、従来の対面自動通訳方法に比べて、ユーザは、周囲の複数の話者の音声をすべて母国語に変換して便利に情報を得ることができるという利点がある。
【0027】
また、本発明の一実施形態は、従来の対面方法と混合して対話モード及びリスニングモードも提供される自動通訳方式を提供することができる。
【0028】
また、本発明の一実施形態は、言語学習のための補助ツールとして活用することができ、ユーザは、周囲の母国語音声を希望する言語に通訳して聴き取ることにより、外国語会話学習にも応用することができる。
【0029】
本発明の効果は、以上で言及された効果に制限されず、言及されていない他の効果は、以下の記載から当業者によって明確に理解することができるであろう。
【図面の簡単な説明】
【0030】
【
図1】本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システムを概略的に説明するための図である。
【
図2】本発明の一実施形態に係るユーザ端末を説明するためのブロック図である。
【
図3】本発明の一実施形態に係る話者分離基盤の自動通訳方法のフローチャートである。
【
図4】ユーザ周囲の音声を説明するための図である。
【
図5a】第1の音声信号を話者別音声信号に分離する内容を説明するための図である。
【
図5b】第1の音声信号を話者別音声信号に分離する内容を説明するための図である。
【
図6】本発明の一実施形態において提供される対話モードを説明するための図である。
【
図7】本発明の一実施形態において提供されるリスニングモードを説明するための図である。
【
図8】本発明の一実施形態において状況情報を抽出し反映する内容を説明するための図である。
【
図9】本発明の一実施形態において状況情報を抽出し反映する内容を説明するための図である。
【
図10】収集された状況情報に基づいて、第2の音声信号を提供する内容を総合して示した図である。
【
図11】自動通訳サービス提供端末で行われる各プロセスを説明するための図である。
【発明を実施するための形態】
【0031】
本発明の利点及び特徴、並びにそれらを達成する方法は、添付図面と共に詳細に後述されている実施形態を参照すれば明確になるであろう。しかし、本発明は、以下に開示される実施形態に限定されるものではなく、様々な形態で実装されても良く、本実施形態は、本発明の開示が完全になるようにし、本発明が属する技術分野における当業者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。
【0032】
本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限するものではない。本明細書において、単数形は文句で特に言及しない限り、複数形も含む。明細書で使用される「含む(comprises/comprising)」は、言及された構成要素の他に一つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は同一の構成要素を指し、「及び/または」は、言及された構成要素のそれぞれ及び一つ以上のすべての組み合わせを含む。「第1」、「第2」などは、様々な構成要素を記述するために使用されるが、これらの構成要素はこれらの用語によって限定されないことは言うまでもない。これらの用語は、単に一つの構成要素を他の構成要素と区別するために使用されるものである。したがって、以下に言及される第1の構成要素は、本発明の技術的思想内で第2の構成要素であっても良いのは言うまでもない。
【0033】
他の定義がない限り、本明細書で使用されるすべての用語(技術及び科学的用語を含む)は、本発明が属する技術分野における当業者に共通的に理解できる意味として使用される。また、一般的に使用される辞書に定義されている用語は、特に定義されていない限り、異常または過度に解釈されない。
【0034】
本発明は、話者分離基盤の自動通訳サービスを提供するシステム1、ユーザ端末100及び方法に関する。
【0035】
本発明は、自動通訳において対面(face-to-face)対話を目的とする従来の方法とは異なり、個別装置に入力される多数の混合された話者の音声を区分して、ユーザの所望する言語音声にすべて変換し、複数の話者の音声を各話者の特性を考慮してユーザ端末100に提供することを特徴とする。ここでは、ユーザの希望する言語は、母国語であることが一般的ではあるが、必ずしもこれに限定されるものではない。
【0036】
これにより、本発明の一実施形態は、ユーザが海外にいるなど、異種言語環境(例えば、海外旅行など)に晒されている状態において、周囲の状況を簡単に把握できるようにし、ユーザ周囲の情報を対面自動通訳システムに活用して、自動通訳性能及びユーザの利便性を向上させることができる。
【0037】
さらに、本発明の一実施形態は、母国語環境でも適用することができ、例えば、母国語環境においてユーザ周囲の音声を受信して英語に通訳された結果が提供され、外国語の学習に利用できる利点がある。特に、本発明では、ユーザ周囲の音声に対する通訳結果を提供するときに、状況情報をさらに抽出して合成された音声信号に反映することを特徴としているので、ユーザ周囲の音声に含まれる複数の話者の音声それぞれに対する通訳結果だけではなく、これらの通訳結果に位置情報がさらに反映されて提供されることによって、よりリアルな外国語学習が可能になるという効果がある。
【0038】
一方、本発明の一実施形態では、発話者と聴者とが異なる言語を使用する環境での同時通訳を対象としているが、必ずしもこれに限定されるものではない。
【0039】
以下では、
図1~
図2を参照して、本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム1及びユーザ端末100について説明する。
【0040】
図1は、本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム1を概略的に説明するための図である。
図2は、本発明の一実施形態に係るユーザ端末100を説明するためのブロック図である。
【0041】
本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム1は、ユーザ端末100、自動通訳サービス提供端末200及び相手端末300を含む。
【0042】
まず、自動通訳サービス提供端末200は、ユーザ音声及びユーザの周囲の音声のうち少なくとも一つを含む第1の音声信号を、多チャンネルマイク210を介して受信する。また、自動通訳サービス提供端末200は、第1の音声信号に対する通訳結果をユーザ端末100から受信したり、相手音声に対する通訳結果を相手端末300から受信してスピーカー230を介して提供する。
【0043】
自動通訳サービス提供端末200は、通訳モード選択ボタン220を備えても良く、ユーザにより選択された通訳モードに応じて音声受信及び通訳結果を提供する。
【0044】
一実施形態として、自動通訳サービス提供端末200は、スピーカー230及びマイク210を備えるハンズフリー端末の形で提供されても良いが、必ずしもこれに限定されるものではなく、スピーカー230及びマイク210を備えるすべての端末は、自動通訳サービス提供端末200であっても良い。これにより、自動通訳サービス提供端末200は、マイク210及びスピーカー230を備えるユーザ端末100または相手端末300と一体型として構成されても良いのは言うまでもない。
【0045】
図2を参照すると、ユーザ端末100は、通信モジュール110、メモリ120及びプロセッサ130を含む。
【0046】
通信モジュール110は、自動通訳サービス提供端末200及び相手端末300とデータを送受信する。つまり、通信モジュール110は、リアルタイムでユーザ音声の通訳結果を相手端末300に提供することができ、相手端末300から受信した相手音声の通訳結果を受信して自動通訳サービス提供端末200に提供することができる。
【0047】
通信モジュール110は、無線通信モジュールで構成されるのが好ましいが、必ずしも有線通信モジュールを排除する概念ではない。有線通信モジュールは、電力線通信装置、電話線通信装置、ケーブルホーム(MoCA)、イーサネット(Ethernet;登録商標)、IEEE1294、統合有線ホームネットワーク及びRS-485の制御装置に実装されても良い。また、無線通信モジュールは、WLAN(wireless LAN)、Bluetooth(登録商標)、HDR WPAN、UWB、ZigBee(登録商標)、Impulse Radio、60GHz WPAN、Binary-CDMA、無線USB技術及び無線HDMI(登録商標)技術などで実装されても良い。
【0048】
メモリ120には、自動通訳サービス提供端末200からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を受信すると、これを基盤に通訳結果である第2の音声信号を生成するためのプログラムが保存される。
【0049】
メモリ120は、電源が供給されなくても、保存されている情報を保持し続ける不揮発性記憶装置及び揮発性記憶装置を通称するものである。例えば、メモリは、CF(コンパクトフラッシュ(compact flash;登録商標))カード、SD(secure digital;登録商標)カード、メモリスティック(memory stick;登録商標)、SSD(ソリッドステートドライブ(solid-state drive))及びマイクロ(micro)SDカードなどのようなNAND型フラッシュメモリ(NAND flash memory;登録商標)、HDD(ハードディスクドライブ(hard disk drive))などのような磁気コンピュータ記憶装置及びCD-ROM、DVD-ROMなどのような光学ディスクドライブ(optical disc drive)などを含むことができる。
【0050】
プロセッサ130は、メモリ120に保存されたプログラムを実行することにより、自動通訳サービス提供端末200から受信した第1の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、通信モジュールを介して通訳結果より生成された第2の音声信号を、通訳モードに応じて相手端末300や自動通訳サービス提供端末200に提供する。
【0051】
相手端末300は、ユーザ端末100と同じように音声信号を受信して通訳結果をユーザ端末100や相手端末300とペアリングされた自動通訳サービス提供端末200に提供する。つまり、本発明の一実施形態において、ユーザ端末100と相手端末300とは、使用する主体に応じてその名称を区分したもので、その構成及び機能は、互いに同一である。
【0052】
一方、本発明におけるユーザ端末100及び相手端末300は、サーバシステム、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)などや、携帯用デバイスにインターネット通信と情報検索などコンピュータ支援機能を追加したインテリジェントデバイスであっても良く、また、ユーザの希望する多数のアプリケーションプログラムをインストールして実行できる携帯電話、スマートフォン(smart phone)、パッド(Pad)、スマートウォッチ(Smart watch)、ウェアラブル(wearable)デバイス、その他の移動通信デバイスなどであっても良い。
【0053】
以下では、
図3~
図11を参照して、本発明の一実施形態に係るユーザ端末100で行われる話者分離基盤の自動通訳方法について、より詳細に説明する。
【0054】
図3は、本発明の一実施形態に係る話者分離基盤の自動通訳方法のフローチャートである。
図4は、ユーザ周囲の音声を説明するための図である。
図5a及び
図5bは、第1の音声信号を話者別音声信号に分離する内容を説明するための図である。
【0055】
まず、自動通訳サービス提供端末200またはユーザ端末100の要求に応じて、ユーザ端末100は、自動通訳サービス提供端末200とペアリングを行う(S110)。このとき、ユーザ端末100は、自動通訳サービス提供端末200とペアリングされることにより、通訳環境を初期化させる。通訳環境の初期化の一例としては、既に行われた通訳結果での状況情報(話者情報、コンテキスト情報、雑音情報)を初期化させるものであっても良い。ただし、同一の環境で周囲の音声を受信するものであったり、或いは同一の相手を対象に連続して対話を進めることがあり得るので、通訳環境の初期化プロセスは、ユーザの入力に応じて選択的に行われても良いのは言うまでもない。
【0056】
次に、自動通訳サービス提供端末200からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第1の音声信号を受信する(S120)。
【0057】
このとき、ユーザ音声は、ユーザ端末100を使用する主体であるユーザの発話に該当し、ユーザ周囲の音声は、多チャンネルマイク210を介して受信されるユーザ音声を除いた残りの音声に該当する。つまり、本発明の一実施形態は、ユーザ音声である発話を対象に通訳を行なって、相手端末300に提供し、相手端末300から相手音声に対する通訳結果を受信して、ユーザ端末100及び自動通訳サービス提供端末200に提供する対面通訳サービスを基本的に提供する。
【0058】
本発明の一実施形態は、さらに、対面対話ではなく様々な発話者による周囲の音声を多チャンネルマイク210が受信し、これを対象に通訳を行なってユーザ端末100及び自動通訳サービス提供端末200に提供しても良い。ここで、様々な発話者は、人による直接発話だけではなく、スピーカー230を介して出力される案内音声など、その対象を特に限定しない。
【0059】
例えば、
図4を参照すると、ユーザ周囲の音声(P1)は、「周囲の雑音」、「周囲の人1の音声」、「周囲の人2の音声」を含んでも良く、このとき、周囲の人1、2は、ユーザと直接対話していない不特定人に該当する。
【0060】
このような状況において、本発明の一実施形態は、自動通訳サービス提供端末200の多チャンネルマイク210を介してユーザ周囲の音声を受信すると、自動通訳サービス提供端末200は、これをユーザ周囲の音声をユーザ端末100に提供し、ユーザ端末100は、後述するように周囲の人1、周囲の人2のそれぞれの音声言語(英語、韓国語)に相応する通訳結果(韓国語)を生成して、自動通訳サービス提供端末200のスピーカー230を介して出力されるように提供できる。
【0061】
自動通訳サービス提供端末200は、通訳モード選択ボタン220を備えても良く、ユーザにより選択された通訳モードに応じて音声受信及び通訳結果を提供する。
【0062】
次に、ユーザ端末100は、第1の音声信号を話者別音声信号に分離する(S130)。
【0063】
本発明の一実施形態は、まず、ユーザ音声及びユーザ周囲の音声を話者別音声信号に分離する。
【0064】
ユーザ音声及びユーザ周囲の音声を区分するのは、
図5a及び
図5bに示すように、通訳モードに応じて容易に区分することができる。つまり、対面対話モードの場合、マイク210を介して受信される音声は、ユーザ音声と認識することができ、対話モードではなくリスニングモードである場合、ユーザ音声ではなくユーザ周囲の音声と認識することができる。これは自動通訳サービス提供端末200によっても、予め区分されて提供されても良い。
【0065】
話者別音声信号を分離する過程において、ユーザ音声は話者別ソース分離モデル(P2)により話者が1名であるので、ユーザ発話音声と雑音信号とに分離される。そして、ユーザ周囲の音声の場合には、話者別ソース分離モデル(P2)により複数の話者発話音声と雑音信号とに分離されても良い。
【0066】
さらに、
図3を参照すると、ユーザ端末100は、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳する(S140)。そして、通訳結果より生成された第2の音声信号を、通訳モードに応じて相手端末300及び自動通訳サービス提供端末200のうち少なくとも一つに提供する(S150)。
【0067】
図6は、本発明の一実施形態において提供する対話モードを説明するための図であり、
図7は、本発明の一実施形態において提供するリスニングモードを説明するための図である。
図8及び
図9は、本発明の一実施形態において、状況情報を抽出し反映する内容を説明するための図である。
図10は、収集された状況情報に基づいて、第2の音声信号を提供する内容を総合して示した図である。
【0068】
一実施形態において、本発明は、通訳モードとして対話モード及びリスニングモードを提供する。
【0069】
まず、
図6を参照すると、対話モードは、ユーザと相手が対面対話をする場合であって、ユーザ端末100は、対話モードの場合、分離された話者別音声信号のうちユーザ音声を選択し(S141)、ユーザ音声を対象に通訳を行なった後(S142)、ユーザ音声の通訳結果である第2の音声信号を相手端末300に提供する(S143)。また、相手もまたこれに対する回答などの対話をする場合、相手端末300から受信した相手音声の通訳結果を受信して(S144)、自動通訳サービス提供端末200に提供する(S145)。
【0070】
次に、
図7を参照すると、リスニングモードは、対面対話ではなくユーザ周囲状況の音声を受信して通訳するための場合であり、ユーザ端末100は、リスニングモードである場合、分離された話者別音声信号のうちユーザ周囲の音声を選択し(S146)、ユーザ周囲の音声を対象に通訳を行なう(S147)。そしてユーザ端末100は、ユーザ周囲の音声に対する通訳結果を話者別に区分して(S148)、自動通訳サービス提供端末200に提供することができる(S149)。
【0071】
このとき、ユーザ端末100は、リスニングモードの場合、ユーザ周囲の音声から状況情報を抽出するプロセスをさらに行うことができる。
図8を参照すると、ユーザ端末100は、ユーザ周囲の音声から区分された話者別音声信号を音声エンコーダ(A1)に入力させると共に、各話者別に分離されたユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状態情報を抽出し、抽出された状況情報をバッファ上に保存する。
【0072】
そして、抽出された状況情報を状況情報エンコーダ(A2)に入力させた後、音声エンコーダの出力情報と合算して翻訳デコーダ(A3)に入力させることにより、ユーザ周囲の音声に対する通訳時に状況情報が反映された通訳結果を提供することができる。
【0073】
このとき、ユーザ端末100は、
図9に示すように抽出された状況情報から話者別に音声信号を区分し、状況情報を介して話者別に区分された音声信号の強度情報及び反響情報をさらに反映して、通訳結果を自動通訳サービス提供端末200に提供することができる。つまり、ユーザ端末100は、強度情報及び反響情報に基づいて話者の位置情報を推定し(B1)、バッファ上に該当話者情報が存在するかどうか確認した後(B2)、自動通訳結果を出力するにあたって話者別位置情報をさらに反映して提供することができる。
【0074】
これにより、自動通訳サービス提供端末200から出力される話者別音声信号は、実際の話者の発話と類似した特性を有するように出力されることができる。
【0075】
既存の一般的な自動通訳システムでは、対話の話者の特性を考慮せずに、自動通訳結果を予め設定された単一の話者の音声でユーザに提供する。一方、本発明の一実施形態では、話者別音声信号を分離する過程と状況情報を抽出し適用するプロセスとを介して、複数の話者の自動通訳結果を実際発話する話者の音声と類似した特性を有するように合成することができ、より自然な自動通訳結果をユーザに提供することができる。
【0076】
一方、話者情報は、男女、またはコンピュータ音声であるかどうか、年齢、国籍、感情状態などの情報を含むことができ、コンテキスト情報は、リアルタイム通訳結果により前後の単語や文章の意味を通じて確認することができ、雑音情報は、位置、時間、空間などの情報を含む概念である。
【0077】
図10は、
図9での位置情報を反映して通訳結果を第2の音声信号として提供する内容を示したもので、ユーザ周囲の音声から抽出された話者別音声信号と状況情報から抽出された話者情報及び位置情報とが、それぞれ、テキストエンコーダ(C1)と状況情報エンコーダ(C2)とに入力される。次いで、テキストエンコーダ(C1)の出力情報と状況情報エンコーダ(C2)の出力情報とを合算して音声合成デコーダ(C3)に入力させることによって、ユーザ周囲の音声に対する通訳結果は、複数の話者別に区分され(C4)、複数の話者の位置情報が反映された第2の音声信号に合成されて(C5)、ユーザ端末100を介して自動通訳サービス提供端末200に提供されることができる。
【0078】
また、本発明の一実施形態は、第1の音声信号及び第2の音声信号とユーザ周囲の音声を介して抽出された状況情報とに基づいて、話者別ソース分離モデル、第1の音声信号を認識するための音声認識モデル、第1の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新することができる。つまり、第1の音声信号及び第2の音声信号と状況情報とを入力データに設定し、各モデルでの既存の出力された情報を出力データに設定して、ニューラルネットワークモデル、ディープラーニングモデルなど人工知能モデル学習方法に基づいて各モデルの性能を自動的に更新することができる。これにより、本発明の一実施形態は、自動通訳サービスを持続的に利用することにより、一層向上された自動通訳結果を提供できるという利点がある。
【0079】
図11は、自動通訳サービス提供端末200で行われる各プロセスを説明するための図である。
【0080】
自動通訳サービス提供端末200は、ユーザの自動通訳要求を受信すると(S210)、ユーザ端末100とペアリングされることにより、ユーザ端末100に通訳初期化を要求する(S220)。
【0081】
次に、通訳モードを区分して(S230)、対話モードである場合は、多チャンネルマイク210を介してユーザ音声を受信し(S231)、リスニングモードである場合は、多チャンネルマイク210を介してユーザ周囲の音声を受信する(S232)。
【0082】
次に、受信したユーザ音声またはユーザ周囲の音声をユーザ端末100に転送し(S240)、ユーザ端末100から通訳結果による第2の音声信号またはユーザ端末100を介して相手端末300の通訳結果による第2の音声信号を受信すると(S250)、第2の音声信号を、スピーカー230を介してユーザに出力する(S260)。
【0083】
一方、前述した説明において、ステップS110~S260は、本発明の実施形態に応じて、更なるステップに分けられたり、或いはより少ないステップに組み合わせられる。また、一部のステップは、必要に応じて省略されても良く、ステップ間の順序が変更されても良い。なお、その他の省略された内容であっても、
図1~
図2の内容は、
図3~
図11の話者分離基盤の自動通訳方法にも適用されることができる。
【0084】
前述した本発明の一実施形態は、ハードウェアであるコンピュータと結合されて実行されるために、プログラム(またはアプリケーション)に実装されて媒体に保存されることができる。
【0085】
前述したプログラムは、前記コンピュータがプログラムを読み込んで、プログラムに実装された前記方法を実行させるために、前記コンピュータのプロセッサ(CPU)が前記コンピュータのデバイスインタフェースを介して読み込まれるC、C++、JAVA(登録商標)、Ruby(登録商標)、機械語などのコンピュータ言語でコード化されたコード(Code)を含むことができる。これらのコードは、前記方法を実行する必要な機能を定義した関数などに関する機能的なコード(Functional Code)を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順通りに実行させるのに必要な実行手順関連制御コードを含むことができる。また、これらのコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加情報やメディアが、前記コンピュータの内部または外部メモリのどの位置(アドレス番地)で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。また、前記コンピュータのプロセッサが、前記機能を実行させるために遠隔(Remote)にある任意のコンピュータやサーバなどと通信が必要な場合には、コードは前記コンピュータの通信モジュールを利用して遠隔にある任意のコンピュータやサーバなどとどのように通信すべきか、通信時にどのような情報やメディアを送受信すべきかなどに対する通信関連コードをさらに含むことができる。
【0086】
前記保存される媒体は、レジスタ、キャッシュ、メモリなどのように、短い瞬間にデータを保存する媒体ではなく、半永続的にデータを保存し、機器によって読取り(reading)可能な媒体を意味する。具体的には、前記保存される媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク(登録商標)、光データ記憶装置などがあるが、これらに限定されない。すなわち、前記プログラムは、前記コンピュータが接続できる様々なサーバ上の様々な記録媒体またはユーザの前記コンピュータ上の様々な記録媒体に保存されることができる。また、前記媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存されることができる。
【0087】
前述した本発明は、例示のためのものであり、本発明が属する技術分野の当業者は、本発明の技術的思想や必須の特徴を変更せずに、他の具体的な形で容易に変形可能であることを理解できるであろう。したがって、前述した実施形態は、すべての面で例示的なものであって、限定的ではないものと理解しなければならない。例えば、単一型として説明されている各構成要素は、分散されて実施されても良く、同様に分散されたものと説明されている構成要素も結合された形態として実施されても良い。
【0088】
本発明の範囲は、前記詳細な説明よりは、後述する特許請求の範囲によって示され、特許請求の範囲の意味及び範囲そしてその均等概念から導出されるすべての変更または変形された形態が、本発明の範囲に含まれるものと解釈されなければならない。
【符号の説明】
【0089】
1:自動通訳サービス提供システム
100:ユーザ端末
110:通信モジュール
120:メモリ
130:プロセッサ
200:自動通訳サービス提供端末
210:多チャンネルマイク
220:通訳モード選択ボタン
230:スピーカー
300:相手端末