特許7333371 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エレクトロニクス　アンド　テレコミュニケーションズ　リサーチ　インスチチュートの特許一覧

特許7333371話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5a
5b
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-08-16

(45)【発行日】2023-08-24

(54)【発明の名称】話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム

(51)【国際特許分類】

G10L 15/00 20130101AFI20230817BHJP

G10L 15/20 20060101ALI20230817BHJP

【ＦＩ】

G10L15/00 200C

G10L15/20 353

【請求項の数】 12

(21)【出願番号】P 2021188902

(22)【出願日】2021-11-19

(65)【公開番号】P2022105982

(43)【公開日】2022-07-15

【審査請求日】2021-11-19

(31)【優先権主張番号】10-2021-0000912

(32)【優先日】2021-01-05

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2021-0106300

(32)【優先日】2021-08-11

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】596099882

【氏名又は名称】エレクトロニクスアンドテレコミュニケーションズリサーチインスチチュート

【氏名又は名称原語表記】ＥＬＥＣＴＲＯＮＩＣＳＡＮＤＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳＲＥＳＥＡＲＣＨＩＮＳＴＩＴＵＴＥ

(74)【代理人】

【識別番号】110002952

【氏名又は名称】弁理士法人鷲田国際特許事務所

(72)【発明者】

【氏名】バンジョンウク

(72)【発明者】

【氏名】ユンスン

(72)【発明者】

【氏名】キムサンフン

(72)【発明者】

【氏名】イミンキュ

(72)【発明者】

【氏名】メンジュンギュ

【審査官】山下剛史

(56)【参考文献】

【文献】国際公開第２０１８／１８６４１６（ＷＯ，Ａ１）

【文献】特開２０１２－５９１２１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／００６０８５０（ＵＳ，Ａ１）

【文献】登録実用新案第３２２５６８２（ＪＰ，Ｕ）

【文献】特開２００９－１２２９８９（ＪＰ，Ａ）

【文献】特開２００２－２４４６８８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４，２１／０２７２

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

ユーザ端末での話者分離基盤の自動通訳方法において、
ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を自動通訳サービス提供端末から受信するステップと、
前記第１の音声信号を話者別音声信号に分離するステップと、
通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップと、
前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップと、
を含み、
前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、
前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳方法。

【請求項2】

前記ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を自動通訳サービス提供端末から受信するステップは、
前記通訳モードに基づいて前記第１の音声信号を自動通訳サービス提供端末から受信し、
前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力される、
請求項１に記載の話者分離基盤の自動通訳方法。

【請求項3】

前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、
前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記ユーザ音声の通訳の結果である第２の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供する、
請求項１に記載の話者分離基盤の自動通訳方法。

【請求項4】

前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、
前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出するステップと、
前記抽出された状況情報をバッファ上に保存するステップと、
前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳するステップと、
を含む、
請求項１に記載の話者分離基盤の自動通訳方法。

【請求項5】

前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、
前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を前記自動通訳サービス提供端末に提供する、
請求項４に記載の話者分離基盤の自動通訳方法。

【請求項6】

話者分離基盤の自動通訳サービスを提供するユーザ端末において、
自動通訳サービス提供端末及び相手端末とデータを送受信する通信モジュールと、
自動通訳サービス提供端末からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を受信すると、これを基盤に通訳の結果である第２の音声信号を生成するためのプログラムが保存されたメモリと、
前記メモリに保存されたプログラムを実行するプロセッサと、
を含み、
前記プロセッサは、前記プログラムを実行することにより、前記第１の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通信モジュールを介して通訳の結果より生成された第２の音声信号を、通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供し、
前記プロセッサは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項7】

前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力される、
請求項６に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項8】

前記プロセッサは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通信モジュールを介して前記ユーザ音声の通訳の結果である第２の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供する、
請求項６に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項9】

前記プロセッサは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出して前記メモリのバッファ上に保存し、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳する、
請求項６に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項10】

前記プロセッサは、前記第１の音声信号及び前記第２の音声信号と前記抽出された状況情報とを基盤に、前記第１の音声信号を話者別音声信号に分離するための話者別ソース分離モデル、前記第１の音声信号を認識するための音声認識モデル、第１の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新する、
請求項９に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項11】

前記プロセッサは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供する、
請求項９に記載の話者分離基盤の自動通訳サービスを提供するユーザ端末。

【請求項12】

話者分離基盤の自動通訳サービス提供システムにおいて、
ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を、多チャンネルマイクを介して受信し、第１の音声信号に対する通訳の結果及び相手音声に対する通訳の結果を、スピーカーを介して提供する自動通訳サービス提供端末と、
前記第１の音声信号を受信して話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するユーザ端末と、
前記第２の音声信号をユーザ端末から受信して提供し、前記通訳モードに応じて相手音声を通訳してユーザ端末に提供する相手端末と、
を含み、
前記ユーザ端末は、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する話者別に区分された通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供する、
話者分離基盤の自動通訳サービス提供システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システムに関する。

【背景技術】

【0002】

一般的に自動通訳（または自動翻訳）は、ユーザの第１言語を認識して第２言語に通訳した後、相手端末に送信したり、相手端末から受信された通訳結果を合成して、ユーザに聞かせる構成となっている。

【0003】

このようなアプローチは、基本的にユーザと相手とが存在する対面対話を目的とする。しかし、自動通訳が必要な殆どの状況は、ユーザが海外に行ったとき、外国人と会話（観光、レストラン、ショッピング、ホテル、ビジネスなど）をしたり、または空港案内音声、旅行地域テレビニュース、周囲の外国人の音声など状況判断のために、周囲から聞こえる外国人の音声を理解するためである。

【0004】

つまり、対面対話だけでなく、周囲から聞こえる外国人の音声を通訳してユーザに提供することが必要であるが、これらの技術が存在していないのが実情である。

【先行技術文献】

【特許文献】

【0005】

【文献】韓国公開特許第１０－２０１９－００１５０８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明が解決しようする課題は、個別装置に入力される複数の話者の音声を話者別に区分し、これをユーザの希望する言語音声にすべて変換して、通訳結果を提供する、話者分離基盤の自動通訳サービスを提供するシステム、ユーザ端末及び方法を提供することである。

【0007】

ただし、本発明が解決しようとする課題は、上記した課題に限定されず、また他の課題が存在し得る。

【課題を解決するための手段】

【0008】

前述した課題を解決するために、本発明の第１側面によるユーザ端末での話者分離基盤の自動通訳方法は、ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を自動通訳サービス提供端末から受信するステップと、前記第１の音声信号を話者別音声信号に分離するステップと、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップと、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップと、を含む。

【0009】

本発明の一実施形態において、前記ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を自動通訳サービス提供端末から受信するステップは、前記通訳モードに基づいて前記第１の音声信号を自動通訳サービス提供端末から受信し、前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力されることができる。

【0010】

本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ音声の通訳の結果である第２の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳の結果を自動通訳サービス提供端末に提供することができる。

【0011】

本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ周囲の音声に対する通訳の結果を話者別に区分して、前記自動通訳サービス提供端末に提供することができる。

【0012】

本発明の一実施形態において、前記通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳するステップは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出するステップと、前記抽出された状況情報をバッファ上に保存するステップと、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳するステップと、を含むことができる。

【0013】

本発明の一実施形態において、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を前記自動通訳サービス提供端末に提供することができる。

【0014】

本発明の一実施形態において、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するステップは、前記ユーザ周囲の音声に対する通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を前記自動通訳サービス提供端末に提供することができる。

【0015】

また、本発明の第２側面による話者分離基盤の自動通訳サービスを提供するユーザ端末は、自動通訳サービス提供端末及び相手端末とデータを送受信する通信モジュールと、自動通訳サービス提供端末からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を受信すると、これを基盤に通訳の結果である第２の音声信号を生成するためのプログラムが保存されたメモリと、前記メモリに保存されたプログラムを実行するプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することにより、前記第１の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通信モジュールを介して通訳の結果より生成された第２の音声信号を、通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供する。

【0016】

本発明の一実施形態において、前記自動通訳サービス提供端末は、前記通訳モードが対話モードである場合、マイクを介してユーザ音声を入力され、前記通訳モードがリスニングモードである場合、マイクを介してユーザ周囲の音声を入力されることができる。

【0017】

本発明の一実施形態において、前記プロセッサは、前記通訳モードが対話モードである場合、前記分離された話者別音声信号のうちユーザ音声を選択して通訳を行い、前記通信モジュールを介して前記ユーザ音声の通訳の結果である第２の音声信号を相手端末に提供し、前記相手端末から受信した相手音声の通訳結果を自動通訳サービス提供端末に提供することができる。

【0018】

本発明の一実施形態において、前記プロセッサは、前記通訳モードがリスニングモードである場合、前記分離された話者別音声信号のうちユーザ周囲の音声を選択して通訳を行い、前記ユーザ周囲の音声に対する通訳の結果を話者別に区分して、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。

【0019】

本発明の一実施形態において、前記プロセッサは、前記ユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状況情報を抽出して前記メモリのバッファ上に保存し、前記抽出された状況情報に基づいて前記ユーザ周囲の音声に含まれる話者別音声信号を通訳することができる。

【0020】

本発明の一実施形態において、前記プロセッサは、前記第１の音声信号及び前記第２の音声信号と前記抽出された状況情報とを基盤に、前記第１の音声信号を話者別音声信号に分離するための話者別ソース分離モデル、前記第１の音声信号を認識するための音声認識モデル、第１の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新することができる。

【0021】

本発明の一実施形態において、前記プロセッサは、前記抽出された状況情報から話者別に音声信号を区分し、話者別に区分された音声信号の強度情報及び反響情報を反映して、通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。

【0022】

本発明の一実施形態において、前記プロセッサは、前記ユーザ周囲の音声に対する通訳の結果のうち、ユーザにより選択された少なくとも一つの話者に相応する通訳の結果を、前記通信モジュールを介して前記自動通訳サービス提供端末に提供することができる。

【0023】

また、本発明の第３側面による話者分離基盤の自動通訳サービス提供システムは、ユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を、多チャンネルマイクを介して受信し、第１の音声信号に対する通訳の結果及び相手音声に対する通訳の結果を、スピーカーを介して提供する自動通訳サービス提供端末と、前記第１の音声信号を受信して話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、前記通訳の結果より生成された第２の音声信号を、前記通訳モードに応じて相手端末及び自動通訳サービス提供端末のうち少なくとも一つに提供するユーザ端末と、前記第２の音声信号をユーザ端末から受信して提供し、前記通訳モードに応じて相手音声を通訳してユーザ端末に提供する相手端末と、を含む。

【0024】

前述した課題を解決するために、本発明の他の側面によるコンピュータプログラムは、ハードウェアであるコンピュータと結合されて話者分離基盤の自動通訳サービスを提供するシステム、ユーザ端末及び方法を実行し、コンピュータで読取り可能な記録媒体に保存される。

【0025】

本発明の他の具体的な事項は、詳細な説明及び図面に含まれている。

【発明の効果】

【0026】

前述した本発明の一実施形態によれば、従来の対面自動通訳方法に比べて、ユーザは、周囲の複数の話者の音声をすべて母国語に変換して便利に情報を得ることができるという利点がある。

【0027】

また、本発明の一実施形態は、従来の対面方法と混合して対話モード及びリスニングモードも提供される自動通訳方式を提供することができる。

【0028】

また、本発明の一実施形態は、言語学習のための補助ツールとして活用することができ、ユーザは、周囲の母国語音声を希望する言語に通訳して聴き取ることにより、外国語会話学習にも応用することができる。

【0029】

本発明の効果は、以上で言及された効果に制限されず、言及されていない他の効果は、以下の記載から当業者によって明確に理解することができるであろう。

【図面の簡単な説明】

【0030】

【図1】本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システムを概略的に説明するための図である。

【図2】本発明の一実施形態に係るユーザ端末を説明するためのブロック図である。

【図3】本発明の一実施形態に係る話者分離基盤の自動通訳方法のフローチャートである。

【図4】ユーザ周囲の音声を説明するための図である。

【図5a】第１の音声信号を話者別音声信号に分離する内容を説明するための図である。

【図5b】第１の音声信号を話者別音声信号に分離する内容を説明するための図である。

【図6】本発明の一実施形態において提供される対話モードを説明するための図である。

【図7】本発明の一実施形態において提供されるリスニングモードを説明するための図である。

【図8】本発明の一実施形態において状況情報を抽出し反映する内容を説明するための図である。

【図9】本発明の一実施形態において状況情報を抽出し反映する内容を説明するための図である。

【図10】収集された状況情報に基づいて、第２の音声信号を提供する内容を総合して示した図である。

【図11】自動通訳サービス提供端末で行われる各プロセスを説明するための図である。

【発明を実施するための形態】

【0031】

本発明の利点及び特徴、並びにそれらを達成する方法は、添付図面と共に詳細に後述されている実施形態を参照すれば明確になるであろう。しかし、本発明は、以下に開示される実施形態に限定されるものではなく、様々な形態で実装されても良く、本実施形態は、本発明の開示が完全になるようにし、本発明が属する技術分野における当業者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。

【0032】

本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限するものではない。本明細書において、単数形は文句で特に言及しない限り、複数形も含む。明細書で使用される「含む（ｃｏｍｐｒｉｓｅｓ／ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素の他に一つ以上の他の構成要素の存在または追加を排除しない。明細書全体にわたって同一の図面符号は同一の構成要素を指し、「及び／または」は、言及された構成要素のそれぞれ及び一つ以上のすべての組み合わせを含む。「第１」、「第２」などは、様々な構成要素を記述するために使用されるが、これらの構成要素はこれらの用語によって限定されないことは言うまでもない。これらの用語は、単に一つの構成要素を他の構成要素と区別するために使用されるものである。したがって、以下に言及される第１の構成要素は、本発明の技術的思想内で第２の構成要素であっても良いのは言うまでもない。

【0033】

他の定義がない限り、本明細書で使用されるすべての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における当業者に共通的に理解できる意味として使用される。また、一般的に使用される辞書に定義されている用語は、特に定義されていない限り、異常または過度に解釈されない。

【0034】

本発明は、話者分離基盤の自動通訳サービスを提供するシステム１、ユーザ端末１００及び方法に関する。

【0035】

本発明は、自動通訳において対面（ｆａｃｅ－ｔｏ－ｆａｃｅ）対話を目的とする従来の方法とは異なり、個別装置に入力される多数の混合された話者の音声を区分して、ユーザの所望する言語音声にすべて変換し、複数の話者の音声を各話者の特性を考慮してユーザ端末１００に提供することを特徴とする。ここでは、ユーザの希望する言語は、母国語であることが一般的ではあるが、必ずしもこれに限定されるものではない。

【0036】

これにより、本発明の一実施形態は、ユーザが海外にいるなど、異種言語環境（例えば、海外旅行など）に晒されている状態において、周囲の状況を簡単に把握できるようにし、ユーザ周囲の情報を対面自動通訳システムに活用して、自動通訳性能及びユーザの利便性を向上させることができる。

【0037】

さらに、本発明の一実施形態は、母国語環境でも適用することができ、例えば、母国語環境においてユーザ周囲の音声を受信して英語に通訳された結果が提供され、外国語の学習に利用できる利点がある。特に、本発明では、ユーザ周囲の音声に対する通訳結果を提供するときに、状況情報をさらに抽出して合成された音声信号に反映することを特徴としているので、ユーザ周囲の音声に含まれる複数の話者の音声それぞれに対する通訳結果だけではなく、これらの通訳結果に位置情報がさらに反映されて提供されることによって、よりリアルな外国語学習が可能になるという効果がある。

【0038】

一方、本発明の一実施形態では、発話者と聴者とが異なる言語を使用する環境での同時通訳を対象としているが、必ずしもこれに限定されるものではない。

【0039】

以下では、図１～図２を参照して、本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム１及びユーザ端末１００について説明する。

【0040】

図１は、本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム１を概略的に説明するための図である。図２は、本発明の一実施形態に係るユーザ端末１００を説明するためのブロック図である。

【0041】

本発明の一実施形態に係る話者分離基盤の自動通訳サービス提供システム１は、ユーザ端末１００、自動通訳サービス提供端末２００及び相手端末３００を含む。

【0042】

まず、自動通訳サービス提供端末２００は、ユーザ音声及びユーザの周囲の音声のうち少なくとも一つを含む第１の音声信号を、多チャンネルマイク２１０を介して受信する。また、自動通訳サービス提供端末２００は、第１の音声信号に対する通訳結果をユーザ端末１００から受信したり、相手音声に対する通訳結果を相手端末３００から受信してスピーカー２３０を介して提供する。

【0043】

自動通訳サービス提供端末２００は、通訳モード選択ボタン２２０を備えても良く、ユーザにより選択された通訳モードに応じて音声受信及び通訳結果を提供する。

【0044】

一実施形態として、自動通訳サービス提供端末２００は、スピーカー２３０及びマイク２１０を備えるハンズフリー端末の形で提供されても良いが、必ずしもこれに限定されるものではなく、スピーカー２３０及びマイク２１０を備えるすべての端末は、自動通訳サービス提供端末２００であっても良い。これにより、自動通訳サービス提供端末２００は、マイク２１０及びスピーカー２３０を備えるユーザ端末１００または相手端末３００と一体型として構成されても良いのは言うまでもない。

【0045】

図２を参照すると、ユーザ端末１００は、通信モジュール１１０、メモリ１２０及びプロセッサ１３０を含む。

【0046】

通信モジュール１１０は、自動通訳サービス提供端末２００及び相手端末３００とデータを送受信する。つまり、通信モジュール１１０は、リアルタイムでユーザ音声の通訳結果を相手端末３００に提供することができ、相手端末３００から受信した相手音声の通訳結果を受信して自動通訳サービス提供端末２００に提供することができる。

【0047】

通信モジュール１１０は、無線通信モジュールで構成されるのが好ましいが、必ずしも有線通信モジュールを排除する概念ではない。有線通信モジュールは、電力線通信装置、電話線通信装置、ケーブルホーム（ＭｏＣＡ）、イーサネット（Ｅｔｈｅｒｎｅｔ；登録商標）、ＩＥＥＥ１２９４、統合有線ホームネットワーク及びＲＳ－４８５の制御装置に実装されても良い。また、無線通信モジュールは、ＷＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＨＤＲＷＰＡＮ、ＵＷＢ、ＺｉｇＢｅｅ（登録商標）、ＩｍｐｕｌｓｅＲａｄｉｏ、６０ＧＨｚＷＰＡＮ、Ｂｉｎａｒｙ－ＣＤＭＡ、無線ＵＳＢ技術及び無線ＨＤＭＩ（登録商標）技術などで実装されても良い。

【0048】

メモリ１２０には、自動通訳サービス提供端末２００からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を受信すると、これを基盤に通訳結果である第２の音声信号を生成するためのプログラムが保存される。

【0049】

メモリ１２０は、電源が供給されなくても、保存されている情報を保持し続ける不揮発性記憶装置及び揮発性記憶装置を通称するものである。例えば、メモリは、ＣＦ（コンパクトフラッシュ（ｃｏｍｐａｃｔｆｌａｓｈ；登録商標））カード、ＳＤ（ｓｅｃｕｒｅｄｉｇｉｔａｌ；登録商標）カード、メモリスティック（ｍｅｍｏｒｙｓｔｉｃｋ；登録商標）、ＳＳＤ（ソリッドステートドライブ（ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ））及びマイクロ（ｍｉｃｒｏ）ＳＤカードなどのようなＮＡＮＤ型フラッシュメモリ（ＮＡＮＤｆｌａｓｈｍｅｍｏｒｙ；登録商標）、ＨＤＤ（ハードディスクドライブ（ｈａｒｄｄｉｓｋｄｒｉｖｅ））などのような磁気コンピュータ記憶装置及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなどのような光学ディスクドライブ（ｏｐｔｉｃａｌｄｉｓｃｄｒｉｖｅ）などを含むことができる。

【0050】

プロセッサ１３０は、メモリ１２０に保存されたプログラムを実行することにより、自動通訳サービス提供端末２００から受信した第１の音声信号を話者別音声信号に分離し、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳した後、通信モジュールを介して通訳結果より生成された第２の音声信号を、通訳モードに応じて相手端末３００や自動通訳サービス提供端末２００に提供する。

【0051】

相手端末３００は、ユーザ端末１００と同じように音声信号を受信して通訳結果をユーザ端末１００や相手端末３００とペアリングされた自動通訳サービス提供端末２００に提供する。つまり、本発明の一実施形態において、ユーザ端末１００と相手端末３００とは、使用する主体に応じてその名称を区分したもので、その構成及び機能は、互いに同一である。

【0052】

一方、本発明におけるユーザ端末１００及び相手端末３００は、サーバシステム、ウェブブラウザ（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートパソコン、デスクトップ（ｄｅｓｋｔｏｐ）、ラップトップ（ｌａｐｔｏｐ）などや、携帯用デバイスにインターネット通信と情報検索などコンピュータ支援機能を追加したインテリジェントデバイスであっても良く、また、ユーザの希望する多数のアプリケーションプログラムをインストールして実行できる携帯電話、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、パッド（Ｐａｄ）、スマートウォッチ（Ｓｍａｒｔｗａｔｃｈ）、ウェアラブル（ｗｅａｒａｂｌｅ）デバイス、その他の移動通信デバイスなどであっても良い。

【0053】

以下では、図３～図１１を参照して、本発明の一実施形態に係るユーザ端末１００で行われる話者分離基盤の自動通訳方法について、より詳細に説明する。

【0054】

図３は、本発明の一実施形態に係る話者分離基盤の自動通訳方法のフローチャートである。図４は、ユーザ周囲の音声を説明するための図である。図５ａ及び図５ｂは、第１の音声信号を話者別音声信号に分離する内容を説明するための図である。

【0055】

まず、自動通訳サービス提供端末２００またはユーザ端末１００の要求に応じて、ユーザ端末１００は、自動通訳サービス提供端末２００とペアリングを行う（Ｓ１１０）。このとき、ユーザ端末１００は、自動通訳サービス提供端末２００とペアリングされることにより、通訳環境を初期化させる。通訳環境の初期化の一例としては、既に行われた通訳結果での状況情報（話者情報、コンテキスト情報、雑音情報）を初期化させるものであっても良い。ただし、同一の環境で周囲の音声を受信するものであったり、或いは同一の相手を対象に連続して対話を進めることがあり得るので、通訳環境の初期化プロセスは、ユーザの入力に応じて選択的に行われても良いのは言うまでもない。

【0056】

次に、自動通訳サービス提供端末２００からユーザ音声及びユーザ周囲の音声のうち少なくとも一つを含む第１の音声信号を受信する（Ｓ１２０）。

【0057】

このとき、ユーザ音声は、ユーザ端末１００を使用する主体であるユーザの発話に該当し、ユーザ周囲の音声は、多チャンネルマイク２１０を介して受信されるユーザ音声を除いた残りの音声に該当する。つまり、本発明の一実施形態は、ユーザ音声である発話を対象に通訳を行なって、相手端末３００に提供し、相手端末３００から相手音声に対する通訳結果を受信して、ユーザ端末１００及び自動通訳サービス提供端末２００に提供する対面通訳サービスを基本的に提供する。

【0058】

本発明の一実施形態は、さらに、対面対話ではなく様々な発話者による周囲の音声を多チャンネルマイク２１０が受信し、これを対象に通訳を行なってユーザ端末１００及び自動通訳サービス提供端末２００に提供しても良い。ここで、様々な発話者は、人による直接発話だけではなく、スピーカー２３０を介して出力される案内音声など、その対象を特に限定しない。

【0059】

例えば、図４を参照すると、ユーザ周囲の音声（Ｐ１）は、「周囲の雑音」、「周囲の人１の音声」、「周囲の人２の音声」を含んでも良く、このとき、周囲の人１、２は、ユーザと直接対話していない不特定人に該当する。

【0060】

このような状況において、本発明の一実施形態は、自動通訳サービス提供端末２００の多チャンネルマイク２１０を介してユーザ周囲の音声を受信すると、自動通訳サービス提供端末２００は、これをユーザ周囲の音声をユーザ端末１００に提供し、ユーザ端末１００は、後述するように周囲の人１、周囲の人２のそれぞれの音声言語（英語、韓国語）に相応する通訳結果（韓国語）を生成して、自動通訳サービス提供端末２００のスピーカー２３０を介して出力されるように提供できる。

【0061】

【0062】

次に、ユーザ端末１００は、第１の音声信号を話者別音声信号に分離する（Ｓ１３０）。

【0063】

本発明の一実施形態は、まず、ユーザ音声及びユーザ周囲の音声を話者別音声信号に分離する。

【0064】

ユーザ音声及びユーザ周囲の音声を区分するのは、図５ａ及び図５ｂに示すように、通訳モードに応じて容易に区分することができる。つまり、対面対話モードの場合、マイク２１０を介して受信される音声は、ユーザ音声と認識することができ、対話モードではなくリスニングモードである場合、ユーザ音声ではなくユーザ周囲の音声と認識することができる。これは自動通訳サービス提供端末２００によっても、予め区分されて提供されても良い。

【0065】

話者別音声信号を分離する過程において、ユーザ音声は話者別ソース分離モデル（Ｐ２）により話者が1名であるので、ユーザ発話音声と雑音信号とに分離される。そして、ユーザ周囲の音声の場合には、話者別ソース分離モデル（Ｐ２）により複数の話者発話音声と雑音信号とに分離されても良い。

【0066】

さらに、図３を参照すると、ユーザ端末１００は、通訳モードに基づいて話者別音声信号をユーザにより選択された言語に通訳する（Ｓ１４０）。そして、通訳結果より生成された第２の音声信号を、通訳モードに応じて相手端末３００及び自動通訳サービス提供端末２００のうち少なくとも一つに提供する（Ｓ１５０）。

【0067】

図６は、本発明の一実施形態において提供する対話モードを説明するための図であり、図７は、本発明の一実施形態において提供するリスニングモードを説明するための図である。図８及び図９は、本発明の一実施形態において、状況情報を抽出し反映する内容を説明するための図である。図１０は、収集された状況情報に基づいて、第２の音声信号を提供する内容を総合して示した図である。

【0068】

一実施形態において、本発明は、通訳モードとして対話モード及びリスニングモードを提供する。

【0069】

まず、図６を参照すると、対話モードは、ユーザと相手が対面対話をする場合であって、ユーザ端末１００は、対話モードの場合、分離された話者別音声信号のうちユーザ音声を選択し（Ｓ１４１）、ユーザ音声を対象に通訳を行なった後（Ｓ１４２）、ユーザ音声の通訳結果である第２の音声信号を相手端末３００に提供する（Ｓ１４３）。また、相手もまたこれに対する回答などの対話をする場合、相手端末３００から受信した相手音声の通訳結果を受信して（Ｓ１４４）、自動通訳サービス提供端末２００に提供する（Ｓ１４５）。

【0070】

次に、図７を参照すると、リスニングモードは、対面対話ではなくユーザ周囲状況の音声を受信して通訳するための場合であり、ユーザ端末１００は、リスニングモードである場合、分離された話者別音声信号のうちユーザ周囲の音声を選択し（Ｓ１４６）、ユーザ周囲の音声を対象に通訳を行なう（Ｓ１４７）。そしてユーザ端末１００は、ユーザ周囲の音声に対する通訳結果を話者別に区分して（Ｓ１４８）、自動通訳サービス提供端末２００に提供することができる（Ｓ１４９）。

【0071】

このとき、ユーザ端末１００は、リスニングモードの場合、ユーザ周囲の音声から状況情報を抽出するプロセスをさらに行うことができる。図8を参照すると、ユーザ端末１００は、ユーザ周囲の音声から区分された話者別音声信号を音声エンコーダ（Ａ１）に入力させると共に、各話者別に分離されたユーザ周囲の音声から話者情報、コンテキスト情報及び雑音情報のうち少なくとも一つを含む状態情報を抽出し、抽出された状況情報をバッファ上に保存する。

【0072】

そして、抽出された状況情報を状況情報エンコーダ（Ａ２）に入力させた後、音声エンコーダの出力情報と合算して翻訳デコーダ（Ａ３）に入力させることにより、ユーザ周囲の音声に対する通訳時に状況情報が反映された通訳結果を提供することができる。

【0073】

このとき、ユーザ端末１００は、図９に示すように抽出された状況情報から話者別に音声信号を区分し、状況情報を介して話者別に区分された音声信号の強度情報及び反響情報をさらに反映して、通訳結果を自動通訳サービス提供端末２００に提供することができる。つまり、ユーザ端末１００は、強度情報及び反響情報に基づいて話者の位置情報を推定し（Ｂ１）、バッファ上に該当話者情報が存在するかどうか確認した後（Ｂ２）、自動通訳結果を出力するにあたって話者別位置情報をさらに反映して提供することができる。

【0074】

これにより、自動通訳サービス提供端末２００から出力される話者別音声信号は、実際の話者の発話と類似した特性を有するように出力されることができる。

【0075】

既存の一般的な自動通訳システムでは、対話の話者の特性を考慮せずに、自動通訳結果を予め設定された単一の話者の音声でユーザに提供する。一方、本発明の一実施形態では、話者別音声信号を分離する過程と状況情報を抽出し適用するプロセスとを介して、複数の話者の自動通訳結果を実際発話する話者の音声と類似した特性を有するように合成することができ、より自然な自動通訳結果をユーザに提供することができる。

【0076】

一方、話者情報は、男女、またはコンピュータ音声であるかどうか、年齢、国籍、感情状態などの情報を含むことができ、コンテキスト情報は、リアルタイム通訳結果により前後の単語や文章の意味を通じて確認することができ、雑音情報は、位置、時間、空間などの情報を含む概念である。

【0077】

図１０は、図９での位置情報を反映して通訳結果を第２の音声信号として提供する内容を示したもので、ユーザ周囲の音声から抽出された話者別音声信号と状況情報から抽出された話者情報及び位置情報とが、それぞれ、テキストエンコーダ（Ｃ１）と状況情報エンコーダ（Ｃ２）とに入力される。次いで、テキストエンコーダ（Ｃ１）の出力情報と状況情報エンコーダ（Ｃ２）の出力情報とを合算して音声合成デコーダ（Ｃ３）に入力させることによって、ユーザ周囲の音声に対する通訳結果は、複数の話者別に区分され（Ｃ４）、複数の話者の位置情報が反映された第２の音声信号に合成されて（Ｃ５）、ユーザ端末１００を介して自動通訳サービス提供端末２００に提供されることができる。

【0078】

また、本発明の一実施形態は、第１の音声信号及び第２の音声信号とユーザ周囲の音声を介して抽出された状況情報とに基づいて、話者別ソース分離モデル、第１の音声信号を認識するための音声認識モデル、第１の音声信号を翻訳するための機械翻訳モデル及びこれらの結合された自動通訳モデルの性能を自動的に更新することができる。つまり、第１の音声信号及び第２の音声信号と状況情報とを入力データに設定し、各モデルでの既存の出力された情報を出力データに設定して、ニューラルネットワークモデル、ディープラーニングモデルなど人工知能モデル学習方法に基づいて各モデルの性能を自動的に更新することができる。これにより、本発明の一実施形態は、自動通訳サービスを持続的に利用することにより、一層向上された自動通訳結果を提供できるという利点がある。

【0079】

図１１は、自動通訳サービス提供端末２００で行われる各プロセスを説明するための図である。

【0080】

自動通訳サービス提供端末２００は、ユーザの自動通訳要求を受信すると（Ｓ２１０）、ユーザ端末１００とペアリングされることにより、ユーザ端末１００に通訳初期化を要求する（Ｓ２２０）。

【0081】

次に、通訳モードを区分して（Ｓ２３０）、対話モードである場合は、多チャンネルマイク２１０を介してユーザ音声を受信し（Ｓ２３１）、リスニングモードである場合は、多チャンネルマイク２１０を介してユーザ周囲の音声を受信する（Ｓ２３２）。

【0082】

次に、受信したユーザ音声またはユーザ周囲の音声をユーザ端末１００に転送し（Ｓ２４０）、ユーザ端末１００から通訳結果による第２の音声信号またはユーザ端末１００を介して相手端末３００の通訳結果による第２の音声信号を受信すると（Ｓ２５０）、第２の音声信号を、スピーカー２３０を介してユーザに出力する（Ｓ２６０）。

【0083】

一方、前述した説明において、ステップＳ１１０～Ｓ２６０は、本発明の実施形態に応じて、更なるステップに分けられたり、或いはより少ないステップに組み合わせられる。また、一部のステップは、必要に応じて省略されても良く、ステップ間の順序が変更されても良い。なお、その他の省略された内容であっても、図１～図２の内容は、図３～図１１の話者分離基盤の自動通訳方法にも適用されることができる。

【0084】

前述した本発明の一実施形態は、ハードウェアであるコンピュータと結合されて実行されるために、プログラム（またはアプリケーション）に実装されて媒体に保存されることができる。

【0085】

前述したプログラムは、前記コンピュータがプログラムを読み込んで、プログラムに実装された前記方法を実行させるために、前記コンピュータのプロセッサ（ＣＰＵ）が前記コンピュータのデバイスインタフェースを介して読み込まれるＣ、Ｃ＋＋、ＪＡＶＡ（登録商標）、Ｒｕｂｙ（登録商標）、機械語などのコンピュータ言語でコード化されたコード（Ｃｏｄｅ）を含むことができる。これらのコードは、前記方法を実行する必要な機能を定義した関数などに関する機能的なコード（ＦｕｎｃｔｉｏｎａｌＣｏｄｅ）を含むことができ、前記機能を前記コンピュータのプロセッサが所定の手順通りに実行させるのに必要な実行手順関連制御コードを含むことができる。また、これらのコードは、前記機能を前記コンピュータのプロセッサが実行させるのに必要な追加情報やメディアが、前記コンピュータの内部または外部メモリのどの位置（アドレス番地）で参照されるべきかに対するメモリ参照関連コードをさらに含むことができる。また、前記コンピュータのプロセッサが、前記機能を実行させるために遠隔（Ｒｅｍｏｔｅ）にある任意のコンピュータやサーバなどと通信が必要な場合には、コードは前記コンピュータの通信モジュールを利用して遠隔にある任意のコンピュータやサーバなどとどのように通信すべきか、通信時にどのような情報やメディアを送受信すべきかなどに対する通信関連コードをさらに含むことができる。

【0086】

前記保存される媒体は、レジスタ、キャッシュ、メモリなどのように、短い瞬間にデータを保存する媒体ではなく、半永続的にデータを保存し、機器によって読取り（ｒｅａｄｉｎｇ）可能な媒体を意味する。具体的には、前記保存される媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク（登録商標）、光データ記憶装置などがあるが、これらに限定されない。すなわち、前記プログラムは、前記コンピュータが接続できる様々なサーバ上の様々な記録媒体またはユーザの前記コンピュータ上の様々な記録媒体に保存されることができる。また、前記媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存されることができる。

【0087】

前述した本発明は、例示のためのものであり、本発明が属する技術分野の当業者は、本発明の技術的思想や必須の特徴を変更せずに、他の具体的な形で容易に変形可能であることを理解できるであろう。したがって、前述した実施形態は、すべての面で例示的なものであって、限定的ではないものと理解しなければならない。例えば、単一型として説明されている各構成要素は、分散されて実施されても良く、同様に分散されたものと説明されている構成要素も結合された形態として実施されても良い。

【0088】

本発明の範囲は、前記詳細な説明よりは、後述する特許請求の範囲によって示され、特許請求の範囲の意味及び範囲そしてその均等概念から導出されるすべての変更または変形された形態が、本発明の範囲に含まれるものと解釈されなければならない。

【符号の説明】

【0089】

１：自動通訳サービス提供システム
１００：ユーザ端末
１１０：通信モジュール
１２０：メモリ
１３０：プロセッサ
２００：自動通訳サービス提供端末
２１０：多チャンネルマイク
２２０：通訳モード選択ボタン
２３０：スピーカー
３００：相手端末

【図1】