特許7178028 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ネオサピエンス株式会社の特許一覧

特許7178028多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-16

(45)【発行日】2022-11-25

(54)【発明の名称】多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

(51)【国際特許分類】

G10L 13/10 20130101AFI20221117BHJP

G10L 13/00 20060101ALI20221117BHJP

G10L 13/033 20130101ALI20221117BHJP

G10L 15/00 20130101ALI20221117BHJP

G06F 40/58 20200101ALI20221117BHJP

【ＦＩ】

G10L13/10 112Z

G10L13/00 100G

G10L13/033 102A

G10L15/00 200C

G06F40/58

【請求項の数】 11

(21)【出願番号】P 2020538666

(86)(22)【出願日】2019-01-11

(65)【公表番号】

(43)【公表日】2021-05-06

(86)【国際出願番号】 KR2019000513

(87)【国際公開番号】W WO2019139431

(87)【国際公開日】2019-07-18

【審査請求日】2020-07-10

(31)【優先権主張番号】10-2018-0004047

(32)【優先日】2018-01-11

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2018-0036377

(32)【優先日】2018-03-29

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2019-0004188

(32)【優先日】2019-01-11

(33)【優先権主張国・地域又は機関】KR

【前置審査】

(73)【特許権者】

【識別番号】519018864

【氏名又は名称】ネオサピエンス株式会社

【氏名又は名称原語表記】ＮＥＯＳＡＰＩＥＮＣＥ，ＩＮＣ．

(74)【代理人】

【識別番号】100121728

【弁理士】

【氏名又は名称】井関勝守

(74)【代理人】

【識別番号】100165803

【弁理士】

【氏名又は名称】金子修平

(74)【代理人】

【識別番号】100170900

【弁理士】

【氏名又は名称】大西渉

(72)【発明者】

【氏名】ギムテス

(72)【発明者】

【氏名】イヨングン

【審査官】大野弘

(56)【参考文献】

【文献】国際公開第２０１７／１６８８７０（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１５／０１８６３５９（ＵＳ，Ａ１）

【文献】特開２０１７－０３２８３９（ＪＰ，Ａ）

【文献】Huaiping Ming et al.，A Light-weight Method of Building an LSTM-RNN-based Bilingual TTS System，2017 International Conference on Asian Language Processing (IALP)，IEEE，2017年12月05日，pp.201-204，入手元 IEL Online (IEEE Xplore)

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／１０

Ｇ１０Ｌ１３／００

Ｇ１０Ｌ１３／０３３

Ｇ１０Ｌ１５／００

Ｇ０６Ｆ４０／５８

(57)【特許請求の範囲】

【請求項1】

システムのプロセッサにより遂行される多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用した音声翻訳方法であって、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データおよび前記第１の言語の学習音声データに関連する第１の言語に対する話者の情報、並びに、第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データおよび前記第２の言語の学習音声データに関連する第２の言語に対する話者の情報に基づいて学習された、単一の人工ニューラルネットワークの多言語テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成するステップと、
前記第１の言語の入力音声データおよび前記第１の言語に対する話者の発声特徴を受信するステップと、
前記第１の言語の前記入力音声データを前記第１の言語のテキストに変換するステップと、
前記第１の言語の前記テキストを前記第２の言語のテキストに変換するステップと、
前記第２の言語の前記テキストおよび前記第１の言語に対する話者の発声特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成するステップと、を含み、
前記第１の言語の学習テキストおよび前記第２の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも１つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む方法。

【請求項2】

前記第１の言語に対する前記話者の発声特徴は、前記第１の言語の入力音声データから特徴ベクトルを抽出して生成される、請求項１に記載の方法。

【請求項3】

前記第１の言語の前記入力音声データから前記第１の言語に対する前記話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成する前記ステップは、前記第２の言語の前記テキスト、および前記第１の言語に対する前記話者の発声特徴および前記感情的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成するステップを含む、請求項１に記載の方法。

【請求項4】

前記感情的特徴は、前記話者の発話内容に内在された感情に関する情報を含む、請求項３に記載の方法。

【請求項5】

前記第１の言語の前記入力音声データから前記第１の言語に対する前記話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップをさらに含み、
前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成する前記ステップは、前記第２の言語の前記テキスト、および前記第１の言語に対する前記話者の発声特徴および前記韻律的特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成するステップを含む、請求項１に記載の方法。

【請求項6】

前記韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含む、請求項５に記載の方法。

【請求項7】

システムのプロセッサにより遂行される多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用したビデオ翻訳方法であって、
第１の言語の学習テキスト、前記第１の言語の学習テキストに対応する第１の言語の学習音声データおよび前記第１の言語の学習音声データに関連する第１の言語に対する話者の情報、並びに、第２の言語の学習テキスト、前記第２の言語の学習テキストに対応する第２の言語の学習音声データおよび前記第２の言語の学習音声データに関連する第２の言語に対する話者の情報に基づいて学習された、単一の人工ニューラルネットワークの多言語テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを生成するステップと、
前記第１の言語の入力音声データを含むビデオデータ、前記第１の言語の前記入力音声データに対応する第１の言語のテキスト、および前記第１の言語に対する話者の発声特徴を受信するステップと、
前記ビデオデータから前記第１の言語の前記入力音声データを削除するステップと、
前記第１の言語の前記テキストを前記第２の言語のテキストに変換するステップと、
前記第２の言語の前記テキストおよび前記第１の言語に対する前記話者の発声特徴を前記単一の人工ニューラルネットワークの多言語テキスト音声合成モデルに入力して、前記第１の言語に対する話者の音声を模写する前記第２の言語の前記テキストに対する出力音声データを生成するステップと、
前記第２の言語の前記テキストに対する出力音声データを前記ビデオデータに結合するステップと、を含み、
前記第１の言語の学習テキストおよび前記第２の言語の学習テキストは、字母単位、文字単位または音素単位に分離され、少なくとも１つの埋め込み層によって変換された複数のテキストの埋め込みベクトルを含む方法。

【請求項8】

【請求項9】

【請求項10】

前記第１の言語に対する話者の発声特徴は、話者ＩＤまたは話者埋め込みベクトルを含む、請求項１に記載の方法。

【請求項11】

請求項１～１０のいずれか一項に記載の方法のステップを遂行する命令語を含むプログラムが記録された、コンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用した音声翻訳方法およびシステムに関するものである。また、本開示は、多言語テキスト音声合成モデルを利用したビデオ翻訳方法およびシステムに関するものである。

【背景技術】

【0002】

一般的に、テキスト音声合成（ＴＴＳ：Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ）とも呼ばれる音声合成技術は、案内放送、ナビゲーション、ＡＩ秘書などのように人の声が必要なアプリケーションにおいて、実際の人の声を事前に録音せずに、必要な音声を再生するために使用される技術である。音声合成の典型的な方法は、音声を音素などの非常に短い単位で予めに切断して格納し、合成する文章を構成する音素を結合して、音声を合成する連結音声合成（ｃｏｎｃａｔｅｎａｔｉｖｅＴＴＳ）と、音声的特徴をパラメータで表現し、合成する文章を構成する音声的特徴を表すパラメータを、ボコーダー（ｖｏｃｏｄｅｒ）を利用して文章に対応する音声に合成するパラメータ音声合成（ｐａｒａｍｅｔｒｉｃＴＴＳ）がある。

【0003】

一方、最近では、人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）ベースの音声合成方法が活発に研究されており、この音声合成方法によって合成された音声は、従来の方法に比べてはるかに自然な音声的特徴を見せている。しかし、人工ニューラルネットワークベースの音声合成方法で新しい声の音声合成部を実現するためには、その声に対応する多くのデータが必要であり、このデータを利用したニューラルネットワークモデルの再学習が要求される。

【0004】

また、特定の言語のテキストを他の言語のテキストに翻訳し、翻訳された言語の音声に合成する研究も進められている。ここで、翻訳された言語の音声合成には、その言語の代表的な特徴を有する話者の音声データが使用されることができる。

【発明の概要】

【課題を解決するための手段】

【0005】

本開示の一実施例に係る多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用した音声翻訳方法は、第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップと、第１の言語の入力音声データおよび第１の言語に対する話者の発声特徴を受信するステップと、第１の言語の入力音声データを第１の言語のテキストに変換するステップと、第１の言語のテキストを第２の言語のテキストに変換するステップと、第２の言語のテキストおよび話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップと、を含む。

【0006】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法において、第１の言語に対する話者の発声特徴は、話者が第１の言語で発話した音声データから特徴ベクトルを抽出して生成される。

【0007】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第１の言語の入力音声データから第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップを含む。

【0008】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法において、感情的特徴は、話者の発話内容に内在された感情に関する情報を含む。

【0009】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法は、第１の言語の入力音声データから第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および第１の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップを含む。

【0010】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用した音声翻訳方法において、韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含む。

【0011】

本開示の一実施例に係る多言語（ｍｕｌｔｉｌｉｎｇｕａｌ）テキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを利用したビデオ翻訳方法は、第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップと、第１の言語の入力音声データを含むビデオデータ、第１の言語の入力音声データに対応する第１の言語のテキスト、および第１の言語に対する話者の発声特徴を受信するステップと、ビデオデータから第１の言語の入力音声データを削除するステップと、第１の言語のテキストを第２の言語のテキストに変換するステップと、第２の言語のテキストおよび第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップと、出力音声データをビデオデータに結合するステップと、を含む。

【0012】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、第１の言語の入力音声データから第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップを含む。

【0013】

本開示の一実施例に係る多言語テキスト音声合成モデルを利用したビデオ翻訳方法は、第１の言語の入力音声データから第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップをさらに含み、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップは、第２の言語のテキスト、および第１の言語に対する話者の発声特徴および韻律的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップを含む。

【0014】

また、上述したような多言語テキスト音声合成モデルを利用した音声翻訳およびビデオ翻訳方法を具現するためのプログラムは、コンピュータ読み取り可能な記録媒体に記録されることができる。

【図面の簡単な説明】

【0015】

【図1】図１は、一実施例に係る音声翻訳システムを示すブロック図である。

【図2】図２は、一実施例に係る音声翻訳部の詳細構成を示すブロック図である。

【図3】図３は、一実施例に係る音声合成部の詳細構成を示すブロック図である。

【図4】図４は、一実施例に係る韻律翻訳部（ｐｒｏｓｏｄｙｔｒａｎｓｌａｔｉｏｎ）の詳細構成を示すブロック図である。

【図5】図５は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【図6】図６は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【図7】図７は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【図8】図８は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

【図9】図９は、一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

【図10】図１０は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。

【図11】図１１は、一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語の音声を合成する方法を示す図である。

【図12】図１２は、一実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【図13】図１３は、他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【図14】図１４は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【図15】図１５は、さらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【図16】図１６は、一実施例に係る音声翻訳方法を示すフローチャートである。

【図17】図１７は、一実施例に係るビデオ翻訳方法を示すフローチャートである。

【図18】図１８は、一実施例に係るテキスト音声合成システムのブロック図である。

【発明を実施するための形態】

【0016】

開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付の図面と共に後述される実施例を参照すると明確である。しかし、本開示は、以下において開示される実施形態に限定されるものではなく、異なる多様な形態で具現されることができ、単に本実施例は、本開示が完全になるようにし、本開示が属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。

【0017】

本明細書において使用される用語について簡略に説明し、開示された実施例について具体的に説明する。

【0018】

本明細書において使用される用語は、本開示での機能を考慮しながら可能な現在広く使用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、新しい技術の出現などによって異なることができる。また、特定の場合、出願人が任意に選定した用語もあり、この場合は該当する発明の説明部分で詳細にその意味を記載する。したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。

【0019】

本明細書においての単数の表現は、文脈上明らかに単数であるものと特定していない限り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数であるものと特定していない限り、単数の表現を含む。

【0020】

明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが可能であることを意味する。

【0021】

また、明細書において使用される「部」という用語は、ソフトウェアまたはハードウェア構成要素を意味し、「部」は、ある役割を遂行する。しかしながら、「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成することもでき、１つまたはそれ以上のプロセッサを再生させるように構成されることもできる。したがって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスクの構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中で提供される機能は、より少数の構成要素および「部」で結合されたり、追加の構成要素と「部」にさらに分離されたりすることができる。

【0022】

本開示の一実施例によれば、「部」は、プロセッサおよびメモリで具現されることができる。用語「プロセッサ」は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、アプリケーションプロセッサ（ＡＰ）、コントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境において「プロセッサ」は、カスタムＩＣ（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などを称することもできる。用語「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した１つ以上のマイクロプロセッサの組み合わせ、または任意の他のこのような構成の組み合わせのような処理デバイスの組み合わせを称することもできる。

【0023】

用語「メモリ」は、電子情報を格納可能な任意の電子コンポーネントを含むように広く解釈されるべきである。用語メモリは、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ記憶装置、レジスタなどのプロセッサ－読み出し可能媒体の多様なタイプを称することもできる。プロセッサがメモリから情報を読み取りし／したり、メモリに情報を記録することができたりすれば、メモリは、プロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信状態にある。

【0024】

以下では、添付した図面を参照して、実施例に対して本開示が属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。そして図面で本開示を明確に説明するために説明と関係ない部分は省略する。

【0025】

図１は、本開示の一実施例に係る音声翻訳システムを示すブロック図である。

【0026】

図示されたように、音声翻訳システム（１００）は、入力部（１１０）、音声翻訳部（１２０）および出力部（１３０）を含むことができる。入力部（１１０）は、音声を受信して、音声翻訳部（１２０）に第１の言語の音声データを送信することができる。入力部（１１０）は、音声を受信できる多様な手段を含むことができる。例えば、入力部（１１０）は、ユーザーから直接音声を受信できるマイクロフォン（ｍｉｃｒｏｐｈｏｎｅ）、ボイスレコーダー（ｖｏｉｃｅｒｅｃｏｒｄｅｒ）、ヘッドセット（ｈｅａｄｓｅｔ）などのような多様な音声入力装置または手段のうち１つを含むことができる。他の例において、入力部（１１０）は、メモリまたはデータベースに格納されている音声データを受信できる入力装置であることができる。さらに他の例において、入力部（１１０）は、ブルートゥース（Ｂｌｕｔｏｏｔｈ：登録商標）、ＷｉＦｉ、インターネットなどの無線または有線ネットワークを介して音声データを受信できる無線または有線入力装置であることができる。さらに他の例において、入力部（１１０）は、メモリに格納されたビデオデータまたは映像ファイル、オンライン上でダウンロード可能なビデオデータまたは映像ファイルから音声データを抽出できるプロセッサまたは音声処理装置であることができる。

【0027】

音声翻訳部（１２０）は、第１の言語の音声データを第２の言語の音声データに変換することができる。本開示において、「第１の言語」は、韓国語、日本語、中国語、英語などの多様な国や民族が使用するさまざまな言語のうち１つを示すことができ、「第２の言語」は、第１の言語と異なる国や民族が使用する言語のうち１つを示すことができる。音声翻訳部（１２０）は、以下で詳細に説明するように、第１の言語の音声を第２の言語の音声に翻訳するために、人工ニューラルネットワークまたは機械学習モデルを使用することができる。音声翻訳部（１２０）に使用される人工ニューラルネットワークまたは機械学習モデルは、回帰型ニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、長・短期記憶モデル（ＬＳＴＭ：ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙｍｏｄｅｌ）、ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）などを含む多様な人工ニューラルネットワークモデルのうちある１つまたはこれらの組み合わせで構成されることができる。

【0028】

一実施例において、音声翻訳部（１２０）は、第１の言語の音声を第２の言語の音声に翻訳する場合において、第１の言語を使用する話者の発声特徴、韻律的特徴または感情的特徴のうち少なくとも１つを反映して、第２の言語の音声データを生成することができる。他の実施例において、音声翻訳部（１２０）は、第１の言語の音声を第２の言語の音声に翻訳するにおいて、第１の言語の音声の話者ではない他の話者の発声特徴、韻律的特徴または感情的特徴のうち少なくとも１つを反映して、第２の言語の音声データを生成することもできる。

【0029】

出力部（１３０）は、音声翻訳部（１２０）によって生成された第２の言語の音声データを出力することができる。出力部（１３０）は、音声を出力できる手段を含むことができる。例えば、出力部（１３０）は、第２の言語の音声データを音に変換できるスピーカー、ヘッドセット、ヘッドフォン、イヤフォンなどのような多様な音声入力装置または手段のうち１つを含むことができる。他の例において、出力部（１３０）は、メモリまたはデータベースに音声データを送信して格納できる出力装置であることができる。さらに他の例において、出力部（１３０）は、ブルートゥース（登録商標）、ＷｉＦｉ、インターネットなどの無線または有線ネットワークを介して音声データを送信できる無線または有線出力装置であることができる。さらに他の例において、出力部（１３０）は、ビデオデータまたは映像ファイルに音声データを結合して、メモリに転送及び格納したり、オンライン上でダウンロード可能に変換したりすることができるプロセッサまたは音声処理装置であることができる。

【0030】

図２は、本開示の一実施例に係る音声翻訳部の詳細構成を示すブロック図である。

【0031】

音声翻訳部（１２０）は、音声認識部（２１０）、機械翻訳部（２２０）、音声合成部（２３０）、発声特徴抽出部（２４０）、感情的特徴抽出部（２５０）および韻律的特徴抽出部（２６０）または韻律翻訳部（２７０）を含むことができる。

【0032】

音声認識部（２１０）は、第１の言語の音声データを第１の言語のテキストに変換することができる。音声認識部（２１０）は、第１の言語の音声データを第１の言語のテキストに変換するために、本発明の技術分野において知られている多様な音声認識アルゴリズムのうち１つを使用することができる。例えば、音声認識部（２１０）が使用する音声認識アルゴリズムは、ＨＭＭ（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ）、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｕｔｕｒｅｍｏｄｅｌ）、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）のような統計的パターン認識方法、またはＲＮＮ、ＬＳＴＭ、ＤＮＮ、ＣＮＮのような人工ニューラルネットワークモデルのうちある１つまたはこれらの組み合わせを含むことができるが、これに限定されるものではない。

【0033】

機械翻訳部（２２０）は、音声認識部（２１０）から第１の言語のテキストを受信して、第２の言語のテキストを生成することができる。つまり、機械翻訳部（２２０）は、第１の言語のテキストを、これと同一または類似の意味を有する第２の言語のテキストに変換する。例えば、機械翻訳部（２２０）が第１の言語のテキストを第２の言語のテキストに変換するために、統計的機械翻訳（ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ）、人工ニューラルネットワーク機械翻訳（ｎｅｕｒａｌｎｅｔｗｏｒｋｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ）などの多様な機械翻訳アルゴリズムのうち１つを使用することができるが、これに限定されるものではない。機械翻訳部（２２０）が機械翻訳アルゴリズムを使用する場合、複数の第１の言語のテキストと、これに対応する複数の第２の言語のテキストに基づいて機械学習を実行することによって、機械翻訳モデルを生成することができる。機械翻訳部（２２０）は、このように予め学習された機械翻訳モデルに第１の言語のテキストを入力して、第２の言語のテキストを生成することができる。

【0034】

音声合成部（２３０）は、機械翻訳部（２２０）から第２の言語のテキストを受信し、これに対応する第２の言語の音声データを出力することができる。

【0035】

一実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて第１の言語に対する話者の発声特徴を受信して、この話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。ここで、第１の言語に対する話者の発声特徴は、その話者の発声の音色または話者の発声の音高のうち少なくとも１つを含むことができる。

【0036】

他の実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて第１の言語に対する話者の発声特徴および第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を受信して、この話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。ここで、第１の言語に対する話者の感情的特徴は、この話者の発話内容に内在された感情（例えば、話者の喜び、悲しみ、怒り、恐怖、信頼、嫌悪、驚きまたは期待のような感情）に関する情報を含むことができる。

【0037】

さらに他の実施例において、音声合成部（２３０）は、第２の言語のテキストに加えて第１の言語に対する話者の発声特徴および第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を受信して、この話者の声を模写する第２の言語のテキストに対する出力音声データを生成することができる。ここで、第１の言語に対する話者の韻律的特徴は、発話速度に関する情報、発音アクセントに関する情報、音高に関する情報および休止区間に関する情報のうち少なくとも１つを含むことができる。

【0038】

音声合成部（２３０）において、第２の言語のテキストに加えて受信される第１の言語に対する話者の発声特徴、感情的特徴および韻律的特徴は、第１の言語に対する任意の話者が発話した音声データから抽出されることができる。一実施例において、第１の言語に対する話者の発声特徴、感情的特徴および韻律的特徴は、第１の言語を使用する互いに異なる話者が発話した音声データから抽出されることができる。例えば、第１の言語に対する感情的特徴と韻律的特徴は、第１の言語の音声データから抽出し、第１の言語に対する発声特徴は、第１の言語の音声データの話者ではない第３の話者（例えば、声が知られた芸能人、政治家などの有名人）が発話した音声データから抽出されることもできる。このように、第１の言語に対する話者が発話した音声データから抽出される、第１の言語に対する話者の発声特徴、感情的特徴および韻律的特徴は、音声翻訳部（１２０）の外部から受信されたり、音声翻訳部（１２０）に入力されたりする第１の言語の音声データから抽出されることもできる。

【0039】

また、第１の言語に対する話者の発声特徴、感情的特徴または韻律的特徴は、この話者が第１の言語で発話した音声データから特徴ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）を抽出して生成することができる。例えば、第１の言語で発話した音声データから抽出される特徴ベクトルは、ＭＦＣＣ（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｅｆｆｉｃｉｅｎｔｓ）、ＰＬＰ（ｐｅｒｃｅｐｔｕａｌｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）などのような多様な音声特徴ベクトルのうち１つを含むことができるが、これに限定されるものではない。

【0040】

音声翻訳部（１２０）は、入力される第１の言語の音声データから第１の言語に対する話者の発声特徴、感情的特徴または韻律的特徴を抽出するために、発声特徴抽出部（２４０）、感情的特徴抽出部（２５０）または韻律的特徴抽出部（２６０）のうち少なくとも１つを含むことができる。発声特徴抽出部（２４０）は、第１の言語の音声データから第１の言語に対する話者の発声特徴を生成することができる。感情的特徴抽出部（２５０）は、第１の言語の音声データから第１の言語に対する話者の感情的特徴を生成することができる。また、韻律的特徴抽出部（２６０）は、第１の言語の音声データから第１の言語に対する話者の韻律的特徴を生成することができる。音声合成部（２３０）は、機械翻訳部（２２０）から受信した第２の言語のテキストに加えて、発声特徴抽出部（２４０）、感情的特徴抽出部（２５０）または韻律的特徴抽出部（２６０）のうち少なくとも１つから受信された情報を受信して、第１の言語に対する話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。

【0041】

音声合成部（２３０）は、第２の言語のテキストを第２の言語の音声データに変換するために、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを使用することができる。単一の人工ニューラルネットワークのテキスト音声合成モデルは、以下で詳細に説明する人工ニューラルネットワークを利用した多様なテキスト音声合成モデルのうち１つであって、複数の第１の言語の学習テキストおよび複数の第１の言語の学習テキストに対応する第１の言語の学習音声データと、複数の第２の言語の学習テキストおよび複数の第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、テキスト音声合成モデルであることができる。

【0042】

この場合、音声合成部（２３０）は、第１の言語に対する話者の発声特徴と、感情的特徴または韻律的特徴のうち少なくとも１つを多言語テキスト音声合成モデルに入力して、第１の言語に対する話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。

【0043】

このように、音声翻訳部（１２０）が第１の言語に対する話者が発話した音声データから話者の特徴を抽出して、第１の言語の音声データから第２の言語の音声データを翻訳および合成するのに利用する場合、音声合成部（２３０）のテキスト音声合成モデルがその話者の声を事前に学習していない場合でも、その話者の音声を模写して第２の言語の出力音声データを生成することができる。また、音声翻訳部（１２０）が、第１の言語の音声データから第２の言語の音声データを翻訳および合成するにおいて、第１の言語に対する話者の感情的特徴または韻律的特徴を反映する場合、その話者が発話した音声に内在された感情や韻律を模写して第２の言語の出力音声データを生成することができる。

【0044】

音声翻訳部（１２０）は、韻律的特徴抽出部（２６０）から出力される第１の言語に対する韻律的特徴を受信して、第２の言語に対する韻律的特徴を生成する韻律翻訳部（２７０）をさらに含むことができる。図示されたように、韻律翻訳部（２７０）は、韻律的特徴抽出部（２６０）によって第１の言語の音声データから抽出された韻律的特徴を受信することができる。韻律翻訳部（２７０）は、第１の言語の音声データから抽出された韻律的特徴を第２の言語の出力音声の韻律的特徴に変換することができる。このように韻律翻訳部（２７０）が、第１の言語の入力音声から話者の韻律的特徴を抽出して第２の言語の韻律的特徴に翻訳する場合、第１の言語の音声の話す速度、区切り読み、強調などの特徴が第２の言語の出力音声に反映されることができる。

【0045】

図３は、本開示の一実施例に係る音声合成部の詳細構成を示すブロック図である。図示されたように、音声合成部（２３０）は、エンコーダ（３１０）（ｅｎｃｏｄｅｒ）、アテンション（３２０）（ａｔｔｅｎｔｉｏｎ）、およびデコーダ（３３０）（ｄｅｃｏｄｅｒ）を含むことができる。音声合成部（２３０）に含まれたエンコーダ（３１０）は、第２の言語のテキストを受信して、合成すべき音声に対応する入力テキストがどれであるかを示す情報を生成する。また、アテンション（３２０）は、音声を合成すべき入力テキストの位置情報を生成する。デコーダ（３３０）は、アテンション（３２０）から受信した入力テキストの位置情報に基づいて、時間の経過に応じて該当の入力テキストに対応する音声データを生成する。

【0046】

また、音声合成部（２３０）に含まれたエンコーダ（３１０）およびデコーダ（３３０）は、話者の発声特徴、感情的特徴および韻律的特徴を受信することができる。ここで発声特徴、感情的特徴および韻律的特徴それぞれは、話者埋め込みベクトル（ｓｐｅａｋｅｒｅｍｂｅｄｄｉｎｇ）、感情埋め込みベクトル（ｅｍｏｔｉｏｎｅｍｂｅｄｄｉｎｇ）、韻律埋め込みベクトル（ｐｒｏｓｏｄｙｅｍｂｅｄｄｉｎｇ）であることができる。音声合成部（２３０）に含まれたエンコーダ（３１０）、アテンション（３２０）およびデコーダ（３３０）は、以下の図５～図７を参照して詳細に説明するように、第２の言語の入力テキストをこれと対応する第２の言語の音声データに変換するにおいて、目的話者の発声特徴、感情的特徴および／または韻律的特徴を反映して目的話者の音声を模写する、単一の人工ニューラルネットワークのテキスト音声合成モデルを構成することができる。本開示の一実施例において、音声合成部（２３０）が構成する単一の人工ニューラルネットワークのテキスト音声合成モデルは、シーケンスツーシーケンスの学習モデル（ｓｅｑ２ｓｅｑ：ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌ）を利用して学習されたものであることができる。例えば、シーケンスツーシーケンスの学習モデルは、ＲＮＮに基づいたエンコーダ－デコーダ構造（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒａｒｃｈｉｔｅｃｔｕｒｅ）（「ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ」、ＩｌｙａＳｕｔｓｋｅｖｅｒ、ｅｔａｌ．、２０１４参照）にアテンション構造（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）（「ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ」、ＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ｅｔａｌ．、２０１５および「ＥｆｆｅｃｔｉｖｅＡｐｐｒｏａｃｈｅｓｔｏＡｔｔｅｎｔｉｏｎ－ｂａｓｅｄＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ」、Ｍｉｎｈ－ＴｈａｎｇＬｕｏｎｇ、ｅｔａｌ．、２０１５参照）を結合して具現されることができる。

【0047】

図４は、本開示の一実施例に係る韻律翻訳部（ｐｒｏｓｏｄｙｔｒａｎｓｌａｔｉｏｎ）の詳細構成を示すブロック図である。

【0048】

図示されたように、韻律翻訳部（２７０）は、韻律エンコーダ（４１０）、アテンション（４２０）および韻律デコーダ（４３０）を含むことができる。韻律翻訳部（２７０）に含まれたエンコーダ（４１０）は、第１の言語の韻律的特徴を受信して、翻訳すべき韻律的特徴がどれであるかを示す情報を生成する。また、アテンション（４２０）は、翻訳すべき韻律的特徴の位置情報を生成する。デコーダ（４３０）は、アテンション（４２０）から受信した韻律的特徴の位置情報に基づいて、時間の経過に応じて該当の韻律的特徴に対応する第２の言語の韻律的特徴を生成する。

【0049】

韻律翻訳部（２７０）に含まれたエンコーダ（４１０）、アテンション（４２０）およびデコーダ（４３０）は、シーケンスツーシーケンスの学習モデル（ｓｅｑ２ｓｅｑ：ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌ）を利用して学習されたものであることができる。例えば、シーケンスツーシーケンスの学習モデルは、ＲＮＮに基づいたエンコーダ－デコーダ構造にアテンション構造（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）を結合して具現されることができる。

【0050】

図５は、一実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【0051】

人工ニューラルネットワークベースの音声合成部（２３０）は、多言語（言語１、言語２、．．．、言語Ｎ）の学習テキストとこれに対応する多言語の学習音声データのペアで構成されるデータベースを利用して、学習することができる。音声合成部（２３０）は、テキストを受信し、テキストを機械学習モデルに適用して出力された音声データを正解音声データと比較して、損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義することができる。正解音声データは、目的話者によって直接録音された音声データであることができる。音声合成部（２３０）は、損失関数を誤差逆伝播（ｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズムを通じて学習し、最終的にランダムのテキストを入力したときに所望の出力音声データが生成される人工ニューラルネットワークを得ることができる。音声合成部（２３０）は、エンコーダ（５１０）、デコーダ（５２０）およびボコーダー（ｖｏｃｏｄｅｒ）（５３０）を含むことができる。図５のエンコーダ（５１０）およびデコーダ（５２０）は、それぞれ図３のエンコーダ（３１０）およびデコーダ（３３０）に対応することができる。また、デコーダ（５２０）に含まれたアテンション（ｍｏｎｏｔｏｎｉｃａｔｔｅｎｔｉｏｎ）（５２１）は、図３のアテンション（３２０）に対応することができる。

【0052】

音声合成部（２３０）に含まれたエンコーダ（５１０）は、少なくとも１つの文字埋め込み（ｔｅｘｔｅｍｂｅｄｄｉｎｇ）（例：言語１、言語２、．．．、言語Ｎ）を受信することができる。ここで、文字埋め込みは、字母単位、文字単位、または音素（ｐｈｏｎｅｍｅ）単位に分離されたテキストに対応する埋め込みベクトルであることができる。エンコーダ（５１０）は、テキスト埋め込みベクトルを取得するために、すでに学習された機械学習モデルを使用することができる。エンコーダは、機械学習を遂行しながら機械学習モデルを更新することができるが、この場合、分離されたテキストに対するテキスト埋め込みベクトルも変更されることができる。

【0053】

音声合成部（２３０）に含まれたエンコーダ（５１０）は、テキスト埋め込みベクトルを全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたプレネット（ｐｒｅ－ｎｅｔ）モジュールに通過させることができる。プレネット（Ｐｒｅ－ｎｅｔ）は、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。

【0054】

エンコーダ（５１０）は、プレネット（ｐｒｅ－ｎｅｔ）モジュールの出力をＣＢＨＧモジュールに通過させることができる。ＣＢＨＧモジュールは、１次元畳み込みバンク（１Ｄｃｏｎｖｏｌｕｔｉｏｎｂａｎｋ）、最大プーリング（ｍａｘｐｏｏｌｉｎｇ）、ハイウェイネットワーク（ｈｉｇｈｗａｙｎｅｔｗｏｒｋ）、双方向ＧＲＵ（ＢｉｄｉｒｅｃｔｉｏｎａｌＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）のうち少なくとも１つを含むことができる。エンコーダ（５１０）は、ＣＢＨＧモジュールから出力される隠れ状態（ｈｉｄｄｅｎｓｔａｔｅｓ）（ｈ）をデコーダ（５２０）に出力することができる。エンコーダ（５１０）から出力される隠れ状態は、音声を合成すべき入力テキストがどれであるかを示す情報であることができる。

【0055】

デコーダ（５２０）のアテンション（５２１）（ＭｏｎｏｔｏｎｉｃＡｔｔｅｎｔｉｏｎ）は、エンコーダ（５１０）から受信した隠れ状態（ｈ）を受信することができる。また、デコーダ（５２０）のアテンション（５２１）は、アテンションＲＮＮから情報を受信することができる。アテンションＲＮＮから受信した情報は、デコーダ（５２０）が以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。また、デコーダ（５２０）のアテンション（５２１）は、アテンションＲＮＮから受信した情報およびエンコーダ（５１０）からの受信した隠れ状態に基づいて、コンテキストベクトル（ｃｔ）を出力することができる。コンテキストベクトル（ｃｔ）は、現在の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）で入力テキストのうちどの部分から音声を生成するかを決定するための情報であることができる。例えば、デコーダ（５２０）のアテンション（５２１）は、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を出力することができる。

【0056】

デコーダ（５２０）は、全結合層で構成されたプレネット（ｐｒｅ－ｎｅｔ）モジュール、ＧＲＵで構成されたアテンション（ａｔｔｅｎｔｉｏｎ）ＲＮＮおよびレジデュアル（ｒｅｓｉｄｕａｌ）ＧＲＵで構成されたデコーダＲＮＮのセットを少なくとも１つ以上含むことができる。デコーダ（５２０）のデコーダＲＮＮは、ｒフレームを生成することができる。デコーダ（５２０）は、生成されたｒフレームを時間順に並べてメルスケールスペクトログラムで表現された音声データを出力することができる。

【0057】

音声を合成するために、デコーダ（５２０）は、話者の発声特徴に対応する情報であるワンホット話者ＩＤ（ｏｎｅ－ｈｏｔｓｐｅａｋｅｒｉｄ）を受信することができる。デコーダ（５２０）は、ルックアップテーブルからワンホット話者ＩＤを検索して、ワンホット話者ＩＤに対応する話者の埋め込みベクトル（ｓ）を取得することができる。話者の埋め込みベクトル（ｓ）は、エンコーダ（５１０）のＣＢＨＧモジュール、デコーダ（５２０）のデコーダＲＮＮまたはアテンションＲＮＮに出力されることができる。デコーダＲＮＮまたはアテンションＲＮＮは、話者別に異ならせてデコードをするように人工ニューラルネットワークの構造を構成することができる。

【0058】

また、音声合成部（２３０）は、人工ニューラルネットワークを学習するために、テキスト、話者インデックス、音声信号を含むデータベースを利用することができる。入力されたテキストは、文字単位のワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構成されることができる。多言語テキストを入力とするためには、その多言語の文字をすべて表現できるワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構成されることができる。ここに選択的に特定の言語を表す情報を追加で入力することができる。特定の言語を表す情報を通じて言語を変えることにより、特定の言語のスタイルに、特定の言語と異なる言語を発音する音声を合成することもできる。また、話者の情報を追加で入力して、話者別に異なる音声を合成したり、その話者が異なる言語を話すように音声を合成したりすることもできる。このように、テキスト、話者の情報、言語の情報などをそれぞれ人工ニューラルネットワークの入力として、その音声信号を正解とし、前述した方法と同様に学習することによって、テキストや話者の情報を入力として与えたときに、その話者の音声を出力できる音声合成部を得る。

【0059】

ボコーダー（５３０）は、デコーダ（５２０）の出力を受信することができる。ボコーダー（５３０）に含まれたＣＢＨＧモジュールは、デコーダ（５２０）の出力をリニアスケール（ｌｉｎｅａｒ－ｓｃａｌｅ）スペクトログラムに変換することができる。ボコーダー（５３０）に含まれたＣＢＨＧモジュールの出力は、マグニチュードスペクトログラム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｏｇｒａｍ）であることができる。ボコーダー（５３０）は、スペクトログラムの位相（ｐｈａｓｅ）をグリフィンリム（Ｇｒｉｆｆｉｎ－Ｌｉｍ）アルゴリズムを通じて予測することができる。ボコーダー（５３０）は、逆短時間フーリエ変換（ＩｎｖｅｒｓｅＳｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を利用して、時間ドメイン（ｔｉｍｅｄｏｍａｉｎ）の音声信号を出力することができる。

【0060】

図６は、他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【0061】

図示されたように、音声合成部（２３０）は、エンコーダ（６１０）、デコーダ（６２０）およびボコーダー（ｖｏｃｏｄｅｒ）（６３０）を含むことができる。図６のエンコーダ（６１０）およびデコーダ（６２０）は、それぞれ図３のエンコーダ（３１０）およびデコーダ（３３０）に対応することができる。また、デコーダ（６２０）に含まれたアテンション（ｍｏｎｏｔｏｎｉｃａｔｔｅｎｔｉｏｎ）（６２１）は、図３のアテンション（３２０）に対応することができる。以下において、図６のエンコーダ（６１０）、デコーダ（６２０）およびボコーダー（６３０）の構成と機能のうち、図５のエンコーダ（５１０）、デコーダ（５２０）およびボコーダー（５３０）と同一または類似の構成と機能については説明を省略する。

【0062】

図６のデコーダ（６２０）は、図５のデコーダ（５２０）が話者の情報をワンホット話者ＩＤで受信したのとは異なり、話者の音声を受信する。また、デコーダ（６２０）は、話者の音声から特徴情報を抽出するために、話者識別ネット（ｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｎｅｔ）を使用することができる。話者識別ネットワークは、話者を区分できる特徴を抽出することができる多様な形態の機械学習モデルのうち１つまたはこれらの組み合わせで具現されることができる。

【0063】

一実施例において、話者識別ネットは、機械学習モデルに基づいて話者の音声を話者埋め込みベクトルに変換することができる。話者埋め込みベクトルは、話者の発声特徴、感情的特徴および韻律的特徴のうち少なくとも１つに対する埋め込みベクトルであることができる。話者識別ネットの機械学習モデルは、複数の異なる言語に対する複数の話者の音声データを受信して、話者の発声特徴、韻律的特徴、感情的特徴などを機械学習することができる。

【0064】

話者識別ネットは、変換された話者埋め込みベクトル（ｓ）をエンコーダ（６１０）のＣＢＨＧ、デコーダ（６２０）のデコーダＲＮＮおよびアテンションＲＮＮに出力することができる。デコーダ（６２０）は、話者埋め込みベクトル（ｓ）、入力テキストに基づいて複数のｒフレームを生成することができる。デコーダ（６２０）は、複数のｒフレームを時間順に並べてメルスペクトログラムで表現された出力音声データを生成することができる。ボコーダー（６３０）は、メルスペクトログラムで表現された出力音声データを時間ドメインの音声に変換することができる。

【0065】

図７は、さらに他の実施例に係る特定の言語の声模写のための人工ニューラルネットワークベースの音声合成部の構成を示す図である。

【0066】

図示されたように、音声合成部（２３０）は、エンコーダ（７１０）、デコーダ（７２０）およびボコーダー（７３０）を含むことができる。図７のエンコーダ（７１０）およびデコーダ（７２０）は、それぞれ図３のエンコーダ（３１０）およびデコーダ（３３０）に対応することができる。また、図７のデコーダ（７２０）に含まれたアテンション（７２４）は、図３のアテンション（３２０）に対応することができる。以下において、図７のエンコーダ（７１０）、デコーダ（７２０）およびボコーダー（７３０）の構成と機能のうち、図５および図６のエンコーダ（５１０、６１０）、デコーダ（５２０、６２０）およびボコーダー（５３０、６３０）と同一または類似の構成と機能については説明を省略する。

【0067】

図７において、エンコーダ（７１０）は、入力テキストを受信することができる。エンコーダ（７１０）が受信した入力テキストは、複数の言語に対するテキストを含むことができる。例えば、入力テキストは「アンニョンハセヨ」または「Ｈｏｗａｒｅｙｏｕ？」のような文章を含むことができる。エンコーダ（７１０）は、受信された入力テキストを字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離することができる。または、エンコーダ（７１０）は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離された入力テキストを受信することができる。

【0068】

エンコーダ（７１０）は、少なくとも１つの埋め込み層（例：ＥＬ言語１、ＥＬ言語２、．．．、ＥＬ言語Ｎ）を含むことができる。エンコーダ（７１０）の少なくとも１つの埋め込み層は、字母単位、文字単位、音素（ｐｈｏｎｅｍｅ）単位に分離された入力テキストをテキスト埋め込みベクトルに変換することができる。エンコーダ（７１０）は、分離された入力テキストをテキスト埋め込みベクトルに変換するために、すでに学習された機械学習モデルを使用することができる。エンコーダ（７１０）は、機械学習を遂行しながら機械学習モデルを更新することができるが、この場合、分離された入力テキストに対するテキスト埋め込むベクトルも変更されることができる。

【0069】

エンコーダ（７１０）は、テキスト埋め込みベクトルを全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたＤＮＮモジュールに通過させることができる。ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。

【0070】

エンコーダ（７１０）は、ＤＮＮの出力をＣＮＮとＲＮＮの組み合わせが含まれたモジュールに通過させることができる。ＣＮＮは、畳み込みカーネル（ｃｏｎｖｏｌｕｔｉｏｎｋｅｒｎｅｌ）サイズによる地域的特性を捕捉することができ、ＲＮＮは、長期依存性（ｌｏｎｇｔｅｒｍｄｅｐｅｎｄｅｎｃｙ）を捕捉することができる。エンコーダ（７１０）は、エンコーダの隠れ状態（ｈ）を出力することができる。エンコーダ（７１０）から出力される隠れ状態は、音声を合成すべき入力テキストがどれであるかを示す情報であることができる。

【0071】

デコーダ（７２０）の埋め込み層は、エンコーダ（７１０）の埋め込み層と類似の演算を遂行することができる。埋め込み層は、話者ＩＤを受信することができる。話者ＩＤは、ワンホット話者ＩＤ（ｏｎｅ－ｈｏｔｓｐｅａｋｅｒＩＤ）であることができ、この場合、ワンホット話者ＩＤによって話者に応じた番号が付けられることができる。例えば、「第１の話者」の話者ＩＤは「１」、「第２の話者」の話者ＩＤは「２」、「第３の話者」の話者ＩＤは「３」と付けられることができる。埋め込み層は、話者ＩＤを話者埋め込むベクトル（ｓ）に変換することができる。デコーダ（７２０）は、話者ＩＤを話者埋め込むベクトル（ｓ）に変換するために、すでに学習された機械学習モデルを使用することができる。デコーダ（７２０）は、機械学習を遂行しながら機械学習モデルを更新することができるが、この場合、話者ＩＤに対する話者埋め込みベクトル（ｓ）も変更されることができる。

【0072】

デコーダ（７２０）のアテンション（７２４）（Ａｔｔｅｎｔｉｏｎ）は、エンコーダから受信した隠れ状態（ｈ）を受信することができる。また、デコーダ（７２０）のアテンション（７２４）は、アテンションＲＮＮから情報を受信することができる。アテンションＲＮＮから受信した情報は、デコーダ（７２０）が以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。また、デコーダ（７２０）のアテンション（７２４）は、アテンションＲＮＮから受信した情報およびエンコーダ（７１０）からの受信した隠れ状態に基づいて、コンテキストベクトル（ｃｔ）を出力することができる。コンテキストベクトル（ｃｔ）は、現在の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）で入力テキストのうちどの部分から音声を生成するかを決定するための情報であることができる。例えば、デコーダ（７２０）のアテンション（７２４）は、音声生成の初期には、テキスト入力の前部分に基づいて音声を生成し、音声が生成されるにつれて、徐々にテキスト入力の後部分に基づいて音声を生成するようにする情報を出力することができる。

【0073】

デコーダ（７２０）は、話者埋め込みベクトル（ｓ）をアテンションＲＮＮおよびデコーダＲＮＮに入力して、話者別に異ならせてデコードをするように人工ニューラルネットワークの構造を構成することができる。また、音声合成部（２３０）は、人工ニューラルネットワーク（単一の人工ニューラルネットワークのテキスト音声合成モデル）を学習させるために、テキスト、話者インデックス、音声データのペアで存在するデータベースを利用することができる。テキスト入力は、文字単位のワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構成されることができる。音声合成部（２３０）は、多言語テキストを入力とするために、その多言語の文字をすべて表現できるワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）で構成することができる。また、音声合成部（２３０）は、その言語を表す情報を追加で入力とすることができる。

【0074】

ダミーフレーム（７２５）は、以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）が存在しない場合、デコーダ（７２０）に入力されるフレームである。ＲＮＮは、自動回帰的（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）に機械学習をすることができる。つまり、直前の時間－ステップ（７２２）で出力されたｒフレームは、現在の時間－ステップ（７２３）の入力になることができる。最初の時間－ステップ（７２１）では直前の時間－ステップが存在しないため、デコーダは、最初の時間－ステップの機械学習にダミーフレーム（７２５）を入力することができる。

【0075】

デコーダ（７２０）は、全結合層で構成されたＤＮＮ、ＧＲＵで構成されたアテンション（ａｔｔｅｎｔｉｏｎ）ＲＮＮおよびレジデュアル（ｒｅｓｉｄｕａｌ）ＧＲＵで構成されたデコーダＲＮＮのセット（７２１、７２２、７２３）を少なくとも１つ以上含むことができる。ここで、ＤＮＮは、一般的なフィードフォワード層（ｆｅｅｄｆｏｒｗａｒｄｌａｙｅｒ）または線形層（ｌｉｎｅａｒｌａｙｅｒ）であることができる。また、アテンションＲＮＮは、アテンションで使用される情報を出力する層である。アテンションについては上述したため、詳細な説明は省略する。デコーダＲＮＮは、アテンションから入力テキストの位置情報を受信することができる。つまり、位置情報は、デコーダ（７２０）が入力テキストのどの位置を音声に変換しているかに関する情報であることができる。デコーダＲＮＮは、アテンションＲＮＮから情報を受信することができる。アテンションＲＮＮから受信した情報は、デコーダ（７２０）が以前の時間－ステップ（ｔｉｍｅ－ｓｔｅｐ）までどの音声を生成したのかに関する情報であることができる。デコーダＲＮＮは、今まで生成した音声に後続する次の出力音声を生成することができる。出力音声は、メルスペクトログラムの形態であるｒフレームを含むことができる。

【0076】

テキスト音声合成のために、ＤＮＮ、アテンションＲＮＮおよびデコーダＲＮＮの動作は、繰り返して遂行されることができる。例えば、最初の時間－ステップ（７２１）で取得されたｒフレームは、次の時間－ステップ（７２２）の入力となることができる。また、時間－ステップ（７２２）で出力されたｒフレームは、次の時間－ステップ（７２３）の入力となることができる。

【0077】

上述したような過程を通じて、テキストのすべての単位に対する音声が生成されることができる。音声合成部（２３０）は、それぞれの時間－ステップごとに出たメルスペクトログラムを時間順に連結（ｃｏｎｃａｔｅｎａｔｅ）して、全体テキストに対するメルスペクトログラムの音声を取得することができる。全体テキストに対するメルスペクトログラムの音声は、ボコーダ（７３０）に出力されることができる。

【0078】

本開示の一実施例によるボコーダー（７３０）のＣＮＮまたはＲＮＮは、エンコーダのＣＮＮまたはＲＮＮと類似な動作をすることができる。つまり、ボコーダー（７３０）のＣＮＮまたはＲＮＮは、地域的特性と長期依存性を捕捉することができる。ボコーダー（７３０）のＣＮＮまたはＲＮＮは、リニアスケールスペクトログラム（ｌｉｎｅａｒ－ｓｃａｌｅｓｐｅｃｔｒｏｇｒａｍ）を出力することができる。リニアスケールスペクトログラムは、マグニチュードスペクトログラム（ｍａｇｎｉｔｕｄｅｓｐｅｃｔｒｏｇｒａｍ）であることができる。ボコーダー（７３０）は、スペクトログラムの位相（ｐｈａｓｅ）をグリフィンリム（Ｇｒｉｆｆｉｎ－Ｌｉｍ）アルゴリズムを通じて予測することができる。ボコーダー（７３０）は、逆短時間フーリエ変換（ＩｎｖｅｒｓｅＳｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を利用して、時間ドメイン（ｔｉｍｅｄｏｍａｉｎ）の音声信号を出力することができる。

【0079】

本開示の他の実施例によるボコーダー（７３０）は、機械学習モデルに基づいて、メルスペクトログラムから音声信号を取得することができる。機械学習モデルは、メルスペクトログラムと音声信号との間の相関関係を機械学習したモデルであることができる。例えば、ＷａｖｅＮｅｔまたはＷａｖｅＧｌｏｗのようなモデルが使用されることができる。

【0080】

人工ニューラルネットワークベースの音声合成部（２３０）は、多言語のテキストと音声データのペアで存在する大容量のデータベースを利用して学習する。音声合成部（２３０）は、テキストを受信し、出力された音声データを正解音声信号と比較して、損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を定義することができる。音声合成部（２３０）は、損失関数を誤差逆伝播（ｅｒｒｏｒｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズムを通じて学習し、最終的にランダムのテキストを入力したときに所望の音声出力が出る人工ニューラルネットワークを得ることができる。

【0081】

音声合成部（２３０）は、前述したような方法で生成された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、言語を変えることにより、第１の言語のスタイルで第２の言語を発音する音声を合成することができる。また、音声合成部（２３０）は、話者の発声特徴を受信し、その話者のスタイルに応じた音声を合成することができる。また、音声合成部（２３０）は、第１の言語を駆使する話者が第２の言語を話すように音声を合成することもできる。

【0082】

音声合成部（２３０）は、テキスト、話者の発声特徴、言語の情報などを、それぞれ人工ニューラルネットワークの入力として音声データを出力することができる。音声合成部（２３０）は、出力された音声データと正解音声データを比較して学習することによって、テキストと話者の発声特徴を受信するとき、その話者の音声を模写してテキストを読んだような出力音声データを生成することができる。

【0083】

図８は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

【0084】

図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づいて、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステップ（ｔｒａｉｎｉｎｇｓｔａｇｅ）は、韓国語のテキストと音声データのペアに基づいて実行されることができる。例えば、韓国語のテキストである「アンニョンハセヨ？」をエンコーダ（８１０）に入力し、韓国語話者ベクトルをエンコーダ（８１０）とデコーダ（８２０）に入力する。エンコーダ（８１０）とデコーダ（８２０）は、図３および図５～図７に図示されたエンコーダ（３１０、５１０、６１０、７１０）とデコーダ（３３０、５２０、６２０、７２０）に対応することができる。韓国語話者ベクトルは、図５～図７の話者埋め込みベクトル（ｓ）に対応することができる。韓国語話者ベクトルは、話者（８３０）の発声特徴、韻律的特徴または感情的特徴のうち少なくとも１つに対応することができる。

【0085】

図３および図５～７を参照して説明したように、デコーダ（８２０）は、エンコーダ（８１０）から韓国語音声出力に対応するテキストがどれなのかを示す情報（つまり、エンコーダの隠れ状態）を受信することができる。デコーダ（８２０）は、エンコーダの隠れ状態および韓国語話者ベクトルに基づいて韓国語音声出力を生成することができる。音声合成部（２３０）は、生成された音声出力と実測音声の差異がある場合、機械学習をして単一の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。音声合成部（２３０）は、生成された音声出力と実測音声の差が最小になるように、単一の人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することができる。

【0086】

図９は、本開示の一実施例に基づいて多言語の音声を合成するための単一の人工ニューラルネットワークのテキスト音声合成モデルを学習する方法を示す図である。

【0087】

図示されたように、複数の言語に対するテキストとこれに対応する音声データに基づいて、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成する学習ステップ（ｔｒａｉｎｉｎｇｓｔａｇｅ）は、図８に図示された学習ステップに続いて、英語のテキストと音声データのペアに基づいて実行されることができる。例えば、英語のテキストである「Ｈｅｌｌｏ？」をエンコーダ（９１０）に入力し、英語話者ベクトルをエンコーダ（８１０）とデコーダ（８２０）に入力する。

【0088】

図３および図５～７を参照して説明したように、デコーダ（８２０）は、エンコーダ（８１０）から英語音声出力に対応するテキストがどれなのかを示す情報（つまり、エンコーダの隠れ状態）を受信することができる。デコーダ（８２０）は、エンコーダの隠れ状態および英語話者ベクトルに基づいて、英語音声出力を生成することができる。音声合成部（２３０）は、生成された音声出力と実測音声の差異がある場合、機械学習をして単一の人工ニューラルネットワークのテキスト音声合成モデルを更新することができる。音声合成部（２３０）は、生成された音声出力と実測音声の差異が最小になるように、単一の人工ニューラルネットワークのテキスト音声合成モデルを繰り返して更新することができる。

【0089】

図８の音声合成部（２３０）による学習ステップおよび図１０の音声合成部（２３０）による学習ステップが別途図示されているが、これらの学習ステップは、同じ単一の人工ニューラルネットワークのテキスト音声合成モデルを生成するための全体学習過程の一部を示したものであることができる。つまり、音声合成部（２３０）は、複数の言語のテキストおよび複数の言語のテキストに対応する音声データを受信して、各言語のテキストおよびそれに対応する音声データに対する学習を繰り返して遂行することにより、単一の人工ニューラルネットワークのテキスト音声合成モデルを生成することができる。

【0090】

図１０は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。

【0091】

図示されたように、図８および図９に図示された方法に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成するテストステップ（ｔｅｓｔｓｔａｇｅ）は、エンコーダ（８１０）に英語のテキスト（例：「Ｈｅｌｌｏ？」）を入力し、エンコーダ（８１０）とデコーダ（８２０）に韓国語話者ベクトル（８３０）を入力して実行されることができる。韓国語話者ベクトルは、話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、または感情的特徴に関する埋め込みベクトルのうち少なくとも１つを含むことができる。

【0092】

この場合、デコーダ（８２０）は、英語のテキストおよび韓国語話者ベクトルを単一の人工ニューラルネットワークのテキスト音声合成モデルに適用して、韓国語のスタイルの英語音声（例：「Ｈｅｌｌｏ？」）を生成することができる。単一の人工ニューラルネットワークのテキスト音声合成モデルは、図８および図９の方法に基づいて生成した単一の人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコーダ（１０２０）が生成した音声は、韓国語話者の音声を模写して英語「Ｈｅｌｌｏ？」を発音した効果を出す音声であることができる。

【0093】

図１１は、本開示の一実施例に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを利用して、多言語音声を合成する方法を示す図である。

【0094】

図示されたように、図８および図９に図示された方法に基づいて学習された単一の人工ニューラルネットワークのテキスト音声合成モデルを適用して、多言語音声出力を生成するテストステップ（ｔｅｓｔｓｔａｇｅ）は、エンコーダ（８１０）に韓国語のテキスト（例：「アンニョンハセヨ？」）を入力し、エンコーダ（８１０）とデコーダ（８２０）に英語話者ベクトル（９３０）を入力して実行されることができる。英語話者ベクトルは、話者の発声特徴に対する埋め込みベクトル、韻律的特徴に関する埋め込みベクトル、または感情的特徴に関する埋め込みベクトルのうち少なくとも１つを含むことができる。

【0095】

この場合、デコーダ（８２０）は、韓国語のテキストおよび英語話者ベクトルを単一の人工ニューラルネットワークのテキスト音声合成モデルに適用して、英語のスタイルの英語音声（例：「アンニョンハセヨ？」）を生成することができる。単一の人工ニューラルネットワークのテキスト音声合成モデルは、図８および図９の方法に基づいて生成した単一の人工ニューラルネットワークのテキスト音声合成モデルであることができる。デコーダ（８２０）が生成した音声は、英語話者の音声を模写して英語「アンニョンハセヨ？」を発音した効果を出す音声であることができる。

【0096】

図１２は、本開示の一実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【0097】

図示されたように、ビデオ翻訳システム（１２００）は、音声除去部（１２１０）および音声合成部（１２２０）を含むことができる。音声合成部（１２２０）は、図２～図１１の音声合成部（２３０）に対応することができる。

【0098】

ビデオ翻訳システム（１２００）は、第１の言語の学習テキストおよび前記第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップを遂行することができる。ビデオ翻訳システム（１２００）は、単一の人工ニューラルネットワークのテキスト音声合成モデルをメモリに格納していることができる。または、ビデオ翻訳システム（１２００）は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受信することができる。

【0099】

音声除去部（１２１０）は、第１の言語のビデオデータを受信することができる。第１の言語のビデオデータは、第１の言語の入力音声データを含むことができる。音声除去部（１２１０）は、第１の言語のビデオデータから第１の言語の入力音声を除去したビデオデータを出力することができる。

【0100】

音声合成部（１２２０）は、予め翻訳されたテキストを受信することができる。予め翻訳されたテキストは、第１の言語の入力音声データを同一または類似の意味の第１の言語のテキストに変換した後、第１の言語のテキストをこれに対応する第２の言語のテキストに翻訳したテキストであることができる。例えば、予め翻訳されたテキストは、第１の言語のビデオデータに含まれた第２の言語の字幕データであることができる。

【0101】

音声合成部（１２２０）は、話者のＩＤおよびタイミング情報を受信することができる。一実施例において、話者ＩＤは、第１の言語のビデオデータに含まれた音声データの話者の発声特徴を表すことができたり、第１の言語を使用する他の話者の発声特徴を表したりすることもできる。例えば、話者ＩＤは、第１の言語のビデオデータに含まれた音声データの話者ではない、第３の話者（例えば、声が知られている芸能人、政治家などの有名人）が発話した音声データから抽出されることもできる。ここで、話者ＩＤは、図５～図７の話者埋め込みベクトル（ｓ）に対応することができる。話者ＩＤは、特定の話者（例えば、第１の言語に対する話者）に対応する埋め込みベクトルを表すことができる。したがって、音声合成部（１２２０）は、話者ＩＤに基づいて特定の話者の声を模写する音声を生成することができる。一方、タイミング情報は、予め翻訳されたテキストが、ビデオデータと一緒に表示される時点を示す情報であることができる。または、タイミング情報は、予め翻訳されたテキストに対応する第２の言語の音声が、ビデオデータと一緒に表示される時点を示す情報であることができる。音声合成部（１２２０）は、予め翻訳されたテキストおよび話者ＩＤを単一の人工ニューラルネットワークのテキスト音声合成モデルに適用して翻訳された言語の音声を取得することができる。ビデオ翻訳システム（１２００）は、タイミング情報に基づいて翻訳された言語の音声および音声が除去されたビデオデータを結合することができる。これにより、翻訳された言語の音声が結合されたビデオデータは、第２の言語の音声を含んでいることができる。

【0102】

図１３は、本開示の他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【0103】

図示されたように、ビデオ翻訳システム（１３００）は、音声除去部（１３１０）、音声認識部（１３２０）、機械翻訳部（１３３０）、音声合成部（１３４０）、話者認識部（１３５０）、タイミング同期化部（１３５５）および発声特徴抽出部（１３６０）を含むことができる。

【0104】

図１３の音声除去部（１３１０）および音声合成部（１３４０）は、図１２の音声除去部（１２１０）および音声合成部（１２２０）にそれぞれ対応することができる。したがって、図１３に関する説明のうち図１２と重複する説明は省略する。

【0105】

ビデオ翻訳システム（１３００）は、第１の言語の学習テキストおよび前記第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップを遂行することができる。ビデオ翻訳システム（１３００）は、単一の人工ニューラルネットワークのテキスト音声合成モデルをメモリに格納していることができる。または、ビデオ翻訳システム（１３００）は、単一の人工ニューラルネットワークのテキスト音声合成モデルをネットワークから受信することができる。

【0106】

ビデオ翻訳システム（１３００）は、第１の言語の入力音声データを含むビデオデータ、第１の言語の入力音声データに対応する第１の言語のテキスト、および前記第１の言語に対する話者の発声特徴を受信するステップを遂行することができる。

【0107】

図１３を参照すると、音声除去部（１３１０）は、第１の言語のビデオデータを受信することができる。第１の言語のビデオデータは、第１の言語の入力音声データを含むビデオデータであることができる。音声除去部（１３１０）は、ビデオデータから第１の言語の入力音声データを削除するステップを遂行することができる。

【0108】

ビデオ翻訳システム（１３００）は、第１の言語のビデオデータから第１の言語の入力音声データを抽出することができる。音声認識部（１３２０）は、第１の言語の入力音声データを第１の言語のテキストに変換することができる。機械翻訳部（１３３０）は、第１の言語のテキストを第２の言語のテキストに変換するステップを遂行することができる。音声認識部（１３２０）および機械翻訳部（１３３０）は、図２の音声認識部（２１０）および機械翻訳部（２２０）にそれぞれ対応することができる。

【0109】

話者認識部（１３５０）は、第１の言語の音声に基づいて話者ＩＤを取得することができる。一実施例によると、話者認識部（１３５０）は、予め学習された機械学習モデルから取得されることができる。機械学習モデルは、複数の話者の音声に基づいて機械学習されたモデルであることができる。話者認識部（１３５０）は、第１の言語の音声を機械学習モデルに適用して、話者ＩＤを生成することができる。話者ＩＤは、特定の話者に対応する埋め込みベクトルであることができる。他の実施例によると、話者認識部（１３５０）は、機械学習モデルを使用しないこともできる。話者認識部（１３５０）は、第１の言語の音声と最も類似な話者の音声に対する話者ＩＤをデータベースから選択することができる。

【0110】

タイミング同期化部（１３５５）は、音声認識部（１３２０）と機械翻訳部（１３３０）から出力される音声およびテキストの位置情報に基づいて、タイミング情報を生成して出力することができる。タイミング情報は、第１の言語の音声に対応する第２の言語の音声がビデオデータと一緒に表示される時点を示す情報であることができる。

【0111】

発声特徴抽出部（１３６０）は、第１の言語の音声から第１の言語に対する話者の発声特徴を取得することができる。すでに説明したように、話者の発声特徴は、話者の発声の音色または話者の発声の音高のうち少なくとも１つを含むことができる。

【0112】

音声合成部（１３４０）は、第２の言語のテキストおよび第１の言語に対する話者の発声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを遂行することができる。ビデオ翻訳システム（１３００）は、出力音声データを、音声除去部（１３１０）によって音声が削除されたビデオデータに結合するステップを遂行することができる。

【0113】

音声合成部（１３４０）は、第２の言語のテキスト、話者ＩＤおよび第１の言語に対する話者の発声特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを遂行することができる。

【0114】

ビデオ翻訳システム（１３００）は、第１の言語に対する話者の発声特徴を模写する第２の言語の音声を含むビデオデータを出力することができる。すなわち、第２の言語の音声は、まるで第１の言語に対する話者の音声を模写して第２の言語で話すのと同じ音声であることができる。

【0115】

図１４は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【0116】

図１４を参照すると、ビデオ翻訳システム（１４００）は、音声除去部（１４１０）、音声認識部（１４２０）、機械翻訳部（１４３０）、音声合成部（１４４０）、話者認識部（１４５０）、タイミング同期化部（１４５５）、発声特徴抽出部（１４６０）および感情的特徴抽出部（１４７０）を含むことができる。図１４の音声除去部（１４１０）、音声認識部（１４２０）、機械翻訳部（１４３０）、音声合成部（１４４０）、話者認識部（１４５０）、タイミング同期化部（１４５５）および発声特徴抽出部（１４６０）は、図１３の音声除去部（１３１０）、音声認識部（１３２０）、機械翻訳部（１３３０）、音声合成部（１３４０）、話者認識部（１３５０）、タイミング同期化部（１３５５）および発声特徴抽出部（１３６０）にそれぞれ対応することができる。したがって、図１４の説明のうち図１３と重複する説明は省略する。

【0117】

ビデオ翻訳システム（１４００）は、感情的特徴抽出部（１４７０）をさらに含むことができる。感情的特徴抽出部（１４７０）は、第１の言語の入力音声データから第１の言語に対する話者の感情的特徴（ｅｍｏｔｉｏｎｆｅａｔｕｒｅ）を生成することができる。感情的特徴抽出部（１４７０）は、図２の感情的特徴抽出部（２５０）に対応することができる。

【0118】

音声合成部（１４４０）は、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。音声合成部（１４４０）は、第２の言語のテキスト、および第１の言語に対する話者の発声特徴および感情的特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップを遂行することができる。

【0119】

図１５は、本開示のさらに他の実施例に係るビデオ翻訳システムの構成を示すブロック図である。

【0120】

図１５を参照すると、ビデオ翻訳システム（１５００）は、音声除去部（１５１０）、音声認識部（１５２０）、機械翻訳部（１５３０）、音声合成部（１５４０）、話者認識部（１５５０）、タイミング同期化部（１５５５）、発声特徴抽出部（１５６０）、感情的特徴抽出部（１５７０）、韻律的特徴抽出部（１５８０）および韻律翻訳部（１５８５）を含むことができる。図１５の音声除去部（１５１０）、音声認識部（１５２０）、機械翻訳部（１５３０）、音声合成部（１５４０）、話者認識部（１５５０）、タイミング同期化部（１５５５）、発声特徴抽出部（１５６０）および感情的特徴抽出部（１５７０）は、図１４の音声除去部（１４１０）、音声認識部（１４２０）、機械翻訳部（１４３０）、音声合成部（１４４０）、話者認識部（１４５０）、タイミング同期化部（１４５５）、発声特徴抽出部（１４６０）および感情的特徴抽出部（１４７０）にそれぞれ対応することができる。したがって、図１５の説明のうち図１４と重複する説明は省略する。

【0121】

ビデオ翻訳システム（１５００）は、韻律的特徴抽出部（１５８０）をさらに含むことができる。韻律的特徴抽出部（１５８０）は、第１の言語の入力音声データから第１の言語に対する話者の韻律的特徴（ｐｒｏｓｏｄｙｆｅａｔｕｒｅ）を生成するステップを遂行することができる。韻律的特徴抽出部（１５８０）は、図２の韻律的特徴抽出部（２６０）に対応することができる。

【0122】

また、ビデオ翻訳システム（１５００）は、韻律的特徴抽出部（１５８０）から出力される第１の言語に対する韻律的特徴を受信して第２の言語の韻律的特徴を生成する韻律翻訳部（１５８５）をさらに含むことができる。図示されたように、韻律翻訳部（１５８５）は、韻律的特徴抽出部（１５８０）によって第１の言語の音声データから抽出された韻律的特徴を受信することができる。韻律翻訳部（１５８５）は、第１の言語の音声データから抽出された韻律的特徴を、第２の言語の出力音声の韻律的特徴に変換することができる。このように韻律翻訳部（１５８５）が、第１の言語の入力音声から話者の韻律的特徴を抽出して第２の言語の韻律的特徴に翻訳する場合、第１の言語の音声の話す速度、区切り読み、強調などの特徴が第２の言語の出力音声に反映されることができる。

【0123】

また、音声合成部（１５４０）は、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成することができる。また、音声合成部（１５４０）は、第２の言語のテキスト、および第１の言語に対する話者の発声特徴、感情的特徴および韻律的特徴を前記単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップを遂行することができる。

【0124】

図１６は、本開示の一実施例に係る音声翻訳方法（１６００）を示すフローチャートである。

【0125】

音声翻訳部（１２０）は、多言語テキスト音声合成モデルを利用して音声を翻訳することができる。音声翻訳部（１２０）は、第１の言語の学習テキストおよび第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップ（１６１０）を遂行することができる。音声翻訳部（１２０）は、第１の言語の入力音声データおよび前記第１の言語に対する話者の発声特徴を受信するステップ（１６２０）を遂行することができる。音声翻訳部（１２０）は、第１の言語の入力音声データを第１の言語のテキストに変換するステップ（１６３０）を遂行することができる。音声翻訳部（１２０）は、第１の言語のテキストを第２の言語のテキストに変換するステップ（１６４０）を遂行することができる。音声翻訳部（１２０）は、第２の言語のテキストおよび話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、話者の音声を模写する第２の言語のテキストに対する出力音声データを生成するステップ（１６５０）を遂行することができる。

【0126】

図１７は、本開示の一実施例に係るビデオ翻訳方法（１７００）を示すフローチャートである。

【0127】

音声翻訳部（１２０）は、多言語テキスト音声合成モデルを利用して、ビデオデータの音声を翻訳することができる。音声翻訳部（１２０）は、第１の言語の学習テキストおよび前記第１の言語の学習テキストに対応する第１の言語の学習音声データと、第２の言語の学習テキストおよび前記第２の言語の学習テキストに対応する第２の言語の学習音声データに基づいて学習された、単一の人工ニューラルネットワークのテキスト音声合成（ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）モデルを取得するステップ（１７１０）を遂行することができる。音声翻訳部（１２０）は、第１の言語の入力音声データを含むビデオデータ、前記第１の言語の入力音声データに対応する第１の言語のテキスト、および前記第１の言語に対する話者の発声特徴を受信するステップ（１７２０）を遂行することができる。音声翻訳部（１２０）は、ビデオデータから前記第１の言語の入力音声データを削除するステップ（１７３０）を遂行することができる。音声翻訳部（１２０）は、第１の言語のテキストを第２の言語のテキストに変換するステップ（１７４０）を遂行することができる。第２の言語のテキストおよび前記第１の言語に対する話者の発声特徴を単一の人工ニューラルネットワークのテキスト音声合成モデルに入力して、前記話者の音声を模写する前記第２の言語のテキストに対する出力音声データを生成するステップ（１７５０）を遂行することができる。音声翻訳部（１２０）は、出力音声データをビデオデータに結合するステップ（１７６０）を遂行することができる。

【0128】

図１８は、本開示の一実施例に係るテキスト音声合成システム（１８００）のブロック図である。

【0129】

図１８を参照すると、一実施例によるテキスト音声合成システム（１８００）は、データ学習部（１８１０）およびデータ認識部（１８２０）を含むことができる。データ学習部（１８１０）およびデータ認識部（１８２０）のそれぞれは、上述した多様な実施例による音声翻訳システム（１００）、ビデオ翻訳システム（１２００、１３００、１４００、１５００）の構成要素のうち人工ニューラルネットワークベースの音声合成部に対応することができる。また、テキスト音声合成システム（１８００）は、プロセッサおよびメモリを含むことができる。

【0130】

データ学習部（１８１０）は、テキストに対する音声学習をすることができる。データ学習部（１８１０）は、テキストに応じてどの音声を出力するかに関する基準を学習することができる。また、データ学習部（１８１０）は、どの音声の特徴を利用して音声を出力するかに関する基準を学習することができる。音声の特徴は、音素の発音、ユーザーの語調、イントネーションまたはアクセントのうち少なくとも１つを含むことができる。データ学習部（１８１０）は、学習に利用されるデータを取得し、取得されたデータを後述するデータ学習モデルに適用することによって、テキストに応じた音声を学習することができる。

【0131】

データ認識部（１８２０）は、テキストに基づいてテキストに対する音声を出力することができる。データ認識部（１８２０）は、学習されたデータ学習モデルを利用して、所定のテキストから音声を出力することができる。データ認識部（１８２０）は、学習による予め設定された基準に基づいて、所定のテキスト（データ）を取得することができる。また、データ認識部（１８２０）は、取得されたデータを入力値としてデータ学習モデルを利用することによって、所定のデータに基づいた音声を出力することができる。また、取得されたデータを入力値としてデータ学習モデルによって出力された結果値は、データ学習モデルを更新するのに利用されることができる。

【0132】

データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なくとも１つは、少なくとも１つのハードウェアチップ形態に製作されて、電子機器に搭載されることができる。例えば、データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なくとも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、すでに説明した各種の電子機器に搭載されることもできる。

【0133】

また、データ学習部（１８１０）およびデータ認識部（１８２０）は、別々の電子機器にそれぞれ搭載されることもできる。例えば、データ学習部（１８１０）およびデータ認識部（１８２０）のうち１つは電子機器に含まれ、残りの１つはサーバーに含まれることができる。また、データ学習部（１８１０）およびデータ認識部（１８２０）は、有線または無線を通じて、データ学習部（１８１０）が構築したモデルの情報をデータ認識部（１８２０）に提供することもでき、データ認識部（１８２０）に入力されたデータが追加の学習データとしてデータ学習部（１８１０）に提供されることもできる。

【0134】

一方、データ学習部（１８１０）またはデータ認識部（１８２０）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ学習部（１５１０）およびデータ認識部（１８２０）のうち少なくとも１つが、ソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、メモリまたはコンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

【0135】

本開示の一実施例によるデータ学習部（１８１０）は、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）およびモデル評価部（１８１５）を含むことができる。

【0136】

データ取得部（１８１１）は、機械学習に必要なデータを取得することができる。学習のためには多くのデータが必要であるため、データ取得部（１８１１）は、複数のテキストおよびそれに対応する音声を受信することができる。

【0137】

前処理部（１８１２）は、ユーザーの心理状態判断のために取得されたデータが機械学習に使用され得るように、取得されたデータを前処理することができる。前処理部（１８１２）は、後述するモデル学習部（１８１４）が利用できるように、取得されたデータを予め設定されたフォーマットに加工することができる。例えば、前処理部（１８１２）は、テキストおよび音声を形態素解析して形態素埋め込みを取得することができる。

【0138】

学習データ選択部（１８１３）は、前処理されたデータの中から学習に必要なデータを選択することができる。選択されたデータは、モデル学習部（１８１４）に提供されることができる。学習データ選択部（１８１３）は、既設定された基準に基づいて、前処理されたデータの中から学習に必要なデータを選択することができる。また、学習データ選択部（１８１３）は、後述するモデル学習部（１８１４）による学習によって、既設定された基準に基づいてデータを選択することもできる。

【0139】

モデル学習部（１８１４）は、学習データに基づいて、テキストに応じてどの音声を出力するかに関する基準を学習することができる。また、モデル学習部（１８１４）は、テキストに応じて音声を出力する学習モデルを学習データとして利用して学習させることができる。この場合、データ学習モデルは、予め構築されたモデルを含むことができる。例えば、データ学習モデルは、基本学習データ（例えば、サンプルイメージなど）の入力を受けて予め構築されたモデルを含むことができる。

【0140】

データ学習モデルは、学習モデルの適用分野、学習の目的または装置のコンピュータ性能などを考慮して構築されることができる。データ学習モデルは、例えば、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）をベースにするモデルを含むことができる。例えば、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、回帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、長・短期記憶モデル（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ）、双方向性回帰型ディープニューラルネットワーク（ＢＲＤＮＮ：ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）などのようなモデルがデータ学習モデルとして使用されることができるが、これに限定されない。

【0141】

多様な実施例によれば、モデル学習部（１８１４）は、予め構築されたデータ学習モデルが複数個存在する場合、入力された学習データと基本学習データの関連性が大きいデータ学習モデルを学習するデータ学習モデルとして決定することができる。この場合、基本学習データは、データのタイプ別に既分類されていることができ、データ学習モデルは、データのタイプ別に予め構築されていることができる。例えば、基本学習データは、学習データが生成された地域、学習データが生成された時間、学習データの大きさ、学習データのジャンル、学習データの生成者、学習データ内のオブジェクトの種類などのような多様な基準で既分類されていることができる。

【0142】

また、モデル学習部（１８１４）は、例えば、誤差逆伝播法（ｅｒｒｏｒｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）または最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を含む学習アルゴリズムなどを利用して、データ学習モデルを学習することができる。

【0143】

また、モデル学習部（１８１４）は、例えば、学習データを入力値とする教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。

【0144】

また、モデル学習部（１８１４）は、例えば、別途のガイドなしに、状況判断のために必要なデータの種類を自分で学習することによって状況判断のための基準を発見する教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。また、モデル学習部（１８１４）は、例えば、学習による状況判断の結果が正しいかに対するフィードバックを利用する強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を通じて、データ学習モデルを学習することができる。

【0145】

また、データ学習モデルが学習されると、モデル学習部（１８１４）は、学習されたデータ学習モデルを格納することができる。この場合、モデル学習部（１８１４）は、学習されたデータ学習モデルを、データ認識部（１８２０）を含む電子機器のメモリに格納することができる。また、モデル学習部（１８１４）は、学習されたデータ学習モデルを電子機器と有線または無線ネットワークで接続されるサーバーのメモリに格納することもできる。

【0146】

この場合、学習されたデータ学習モデルが格納されるメモリは、例えば、電子機器の少なくとも１つの他の構成要素に関係された命令またはデータを一緒に格納することもできる。さらに、メモリは、ソフトウェアおよび／またはプログラムを格納することもできる。プログラムは、例えば、カーネル、ミドルウェア、アプリケーションプログラミングインターフェース（ＡＰＩ）および／またはアプリケーションプログラム（または「アプリケーション」）などを含むことができる。

【0147】

モデル評価部（１８１５）は、データ学習モデルに評価データを入力し、評価データから出力される結果が所定の基準を満たさない場合、モデル学習部（１８１４）が再学習するようにすることができる。この場合、評価データは、データ学習モデルを評価するための既設定されたデータを含むことができる。

【0148】

例えば、モデル評価部（１８１５）は、評価データに対する学習されたデータ学習モデルの結果の中で、認識結果が正確でない評価データの数または比率が予め設定されたしきい値を超える場合、所定の基準を満たさないものと評価することができる。例えば、所定の基準が比率２％で定義される場合において、学習されたデータ学習モデルが総１０００個の評価データの中で２０個を超える評価データに対して誤った認識結果を出力する場合、モデル評価部（１８１５）は、学習されたデータ学習モデルが適していないものであると評価することができる。

【0149】

一方、学習されたデータ学習モデルが複数個存在する場合、モデル評価部（１８１５）は、それぞれの学習されたデータ学習モデルに対して所定の基準を満たすかを評価し、所定の基準を満足するモデルを最終データ学習モデルとして決定することができる。この場合、所定の基準を満たすモデルが複数個である場合、モデル評価部（１８１５）は、評価点数の高い順に予め設定されたある１つまたは所定個数のモデルを最終データ学習モデルとして決定することができる。

【0150】

一方、データ学習部（１８１０）内のデータ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル評価部（１８１５）のうち少なくとも１つは、少なくとも１つのハードウェアチップ形態に製作されて、電子機器に搭載されることができる。例えば、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル評価部（１８１５）のうち少なくとも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、前述した各種の電子機器に搭載されることもできる。

【0151】

また、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）およびモデル評価部（１８１５）は、１つの電子機器に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）およびモデル評価部（１８１５）のうち一部は電子機器に含まれ、残りの一部はサーバーに含まれることができる。

【0152】

また、データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル評価部（１８１５）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ取得部（１８１１）、前処理部（１８１２）、学習データ選択部（１８１３）、モデル学習部（１８１４）またはモデル評価部（１８１５）のうち少なくとも１つがソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

【0153】

本開示の一実施例によるデータ認識部（１８２０）は、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）およびモデル更新部（１８２５）を含むことができる。

【0154】

データ取得部（１８２１）は、音声を出力するために必要なテキストを取得することができる。逆に、データ取得部（１８２１）は、テキストを出力するために必要な音声を取得することができる。前処理部（１８２２）は、音声またはテキストを出力するために取得されたデータが使用され得るように、取得されたデータを前処理することができる。前処理部（１８２２）は、後述する認識結果提供部（１８２４）が音声またはテキストを出力するために取得されたデータを利用できるように、取得されたデータを既設定されたフォーマットに加工することができる。

【0155】

認識データ選択部（１８２３）は、前処理されたデータの中から音声またはテキストを出力するために必要なデータを選択することができる。選択されたデータは、認識結果提供部（１８２４）に提供されることができる。認識データ選択部（１８２３）は、音声またはテキストを出力するための既設定された基準に基づいて、前処理されたデータの中から一部または全部を選択することができる。また、認識データ選択部（１８２３）は、モデル学習部（１８１４）による学習によって、既設定された基準に基づいてデータを選択することもできる。

【0156】

認識結果提供部（１８２４）は、選択されたデータをデータ学習モデルに適用して、音声またはテキストを出力することができる。認識結果提供部（１８２４）は、認識データ選択部（１８２３）によって選択されたデータを入力値として利用することにより、選択されたデータをデータ学習モデルに適用することができる。また、認識結果は、データ学習モデルによって決定されることができる。

【0157】

モデル更新部（１８２５）は、認識結果提供部（１８２４）によって提供される認識結果に対する評価に基づいて、データ学習モデルが更新されるようにすることができる。例えば、モデル更新部（１８２５）は、認識結果提供部（１８２４）によって提供される認識結果をモデル学習部（１８１４）に提供することにより、モデル学習部（１８１４）がデータ学習モデルを更新するようにすることができる。

【0158】

一方、データ認識部（１８２０）内のデータ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）またはモデル更新部（１８２５）のうち少なくとも１つは、少なくとも１つのハードウェアチップの形態に製作されて、電子機器に搭載されることができる。例えば、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）またはモデル更新部（１８２５）のうち少なくとも１つは、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）のための専用ハードウェアチップの形態に製作されることもでき、または既存の汎用プロセッサ（例：ＣＰＵまたはａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）またはグラフィック専用プロセッサ（例：ＧＰＵ）の一部として製作され、前述した各種の電子機器に搭載されることもできる。

【0159】

また、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）およびモデル更新部（１８２５）は、１つの電子機器に搭載されることもでき、または別の電子機器にそれぞれ搭載されることもできる。例えば、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）およびモデル更新部（１８２５）のうち一部は電子機器に含まれ、残りの一部はサーバーに含まれることができる。

【0160】

また、データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）またはモデル更新部（１８２５）のうち少なくとも１つは、ソフトウェアモジュールで具現されることができる。データ取得部（１８２１）、前処理部（１８２２）、認識データ選択部（１８２３）、認識結果提供部（１８２４）またはモデル更新部（１８２５）のうち少なくとも１つが、ソフトウェアモジュール（または、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を含むプログラムモジュール）で具現される場合、ソフトウェアモジュールは、コンピュータ読み取り可能な非一時的な読み取り可能な記録媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉａ）に格納されることができる。また、この場合、少なくとも１つのソフトウェアモジュールは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供されたり、所定のアプリケーションによって提供されたりすることができる。これと異なり、少なくとも１つのソフトウェアモジュールのうち一部はＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって提供され、残りの一部は所定のアプリケーションによって提供されることができる。

【0161】

これまでに多様な実施例を中心に説明した。本発明が属する技術分野において通常の知識を有する者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態で具現され得ることを理解できるであろう。したがって、開示された実施例は、限定的な観点ではなく、説明的な観点から考慮されるべきである。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等の範囲内にあるすべての違いは、本発明に含まれるものと解釈されるべきである。

【0162】

一方、上述した本発明の実施例は、コンピュータで実行され得るプログラムで作成可能であり、コンピュータ読み取り可能な記録媒体を利用してプログラムを動作させる汎用デジタルコンピュータで具現されることができる。コンピュータ読み取り可能な記録媒体は、磁気記録媒体（例えば、ロム、フロッピーディスク、ハードディスクなど）、光学的読み取り媒体（例えば、ＣＤ－ＲＯＭ、ＤＶＤなど）のような記憶媒体を含む。

【図1】