(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】話し手の音声を処理するための装置および方法
(51)【国際特許分類】
G10L 15/22 20060101AFI20240711BHJP
G10L 15/00 20130101ALI20240711BHJP
G10L 21/0272 20130101ALI20240711BHJP
G10L 15/20 20060101ALI20240711BHJP
G06F 3/16 20060101ALI20240711BHJP
【FI】
G10L15/22 453
G10L15/00 200C
G10L15/00 200U
G10L21/0272 100Z
G10L15/20 353
G06F3/16 650
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024503740
(86)(22)【出願日】2022-07-14
(85)【翻訳文提出日】2024-01-19
(86)【国際出願番号】 KR2022010276
(87)【国際公開番号】W WO2023003271
(87)【国際公開日】2023-01-26
(31)【優先権主張番号】10-2021-0094265
(32)【優先日】2021-07-19
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】504394744
【氏名又は名称】アモセンス・カンパニー・リミテッド
【氏名又は名称原語表記】AMOSENSE CO., LTD.
【住所又は居所原語表記】(Cheonan the fourth Local Industrial Complex) 19-1 Block, 90, 4sandan 5-gil, jiksan-eup, Seobuk-gu Cheonan-si, Chungcheongnam-do 31040, Republic of Korea
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】キム,ジョンミン
(57)【要約】
話し手の音声に対する翻訳結果を生成するように構成された音声処理装置を提供する。
【課題】本発明による音声処理装置は、話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されるマイク、話し手の音声の音源位置に対応する言語を示す位置-言語情報を保存するように構成されるメモリー、音声信号および位置-言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されるプロセッサを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
話し手の音声に対する翻訳結果を生成するように構成された音声処理装置において、
話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されたマイクと、
話し手の音声の音源位置に対応する言語を示す位置-言語情報を保存するように構成されたメモリーと、
前記音声信号および位置-言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されたプロセッサと、を含むことを特徴とする音声処理装置。
【請求項2】
前記プロセッサは、
前記マイクで生成された音声信号を用いて、話し手の音声の音源位置を決定し、前記決定された音源位置を示す音源位置情報を生成し、
前記音声信号から各音源位置で発話された音声に連関する分離音声信号を生成し、
前記メモリーに保存された位置-言語情報を用いて、話し手の音声の現在の言語を決定し、
前記分離音声信号と決定された現在の言語とを用いて、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記プロセッサは、
前記マイクで生成された音声信号を用いて、話し手の音声の音源位置を決定し、前記決定された音源位置を示す音源位置情報を生成し、
前記音声信号から各音源位置で発話された音声に連関する分離音声信号を生成し、
前記メモリーに保存された位置-言語情報を用いて、話し手の音声の現在の言語を決定し、
前記分離音声信号と決定された現在の言語とを用いて、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成することを特徴とする請求項1に記載の音声処理装置。
【請求項4】
前記プロセッサは、
前記メモリーに保存された位置-言語情報を用いて、話し手のそれぞれの音声の現在の言語が翻訳される他の言語を決定し、
決定された現在の言語および他の言語によって、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成することを特徴とする請求項2に記載の音声処理装置。
【請求項5】
前記プロセッサは、
話し手の音声に連関する音声信号を用いて、話し手のうち、第1話し手の音声の音源位置を示す第1音源位置情報を生成し、
前記音声信号と前記第1音源位置情報とを用いて、前記第1話し手の音声に連関する第1分離音声信号を生成し、
前記メモリーに保存された位置-言語情報を参照し、前記第1音源位置情報に対応する第1話し手の音声の言語を決定し、
前記メモリーに保存された位置-言語情報を参照し、前記話し手のうち、前記第1話し手を除いた残りの話し手の音声の言語を決定し、
前記第1分離音声信号を用いて、前記第1話し手の音声の言語が残りの話し手の音声の言語に翻訳された翻訳結果を生成することを特徴とする請求項4に記載の音声処理装置。
【請求項6】
前記プロセッサは、
前記分離音声信号を用いて、話し手の音声の現在の言語で表現された話し手のそれぞれの音声内容が含まれた原文議事録を生成することを特徴とする請求項2に記載の音声処理装置。
【請求項7】
前記プロセッサは、
前記翻訳文議事録を生成し、前記翻訳結果をテキスト変換し、テキストデータを前記翻訳文議事録に記録することを特徴とする請求項1に記載の音声処理装置。
【請求項8】
話し手の音声に対する翻訳結果を生成するように構成された音声処理装置を用いた音声処理方法において、
話し手の音声の音源位置に対応する言語を示す位置-言語情報を保存するステップと、
マイクを用いて話し手の音声に連関する音声信号を生成するステップと、
前記音声信号および位置-言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成するステップと、
前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するステップと、を含むことを特徴とする音声処理方法。
【請求項9】
前記翻訳結果を生成するステップは、
前記生成された音声信号を用いて、話し手の音声の音源位置を決定するステップと、
前記決定された音源位置を示す音源位置情報を生成するステップと、
前記音声信号から各音源位置で発話された音声に連関する分離音声信号を生成するステップと、
前記保存された位置-言語情報を用いて、話し手の音声の現在の言語を決定するステップと、
前記分離音声信号と決定された現在の言語とを用いて、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成するステップと、を含むことを特徴とする請求項8に記載の音声処理方法。
【請求項10】
前記マイクは、アレイを成すように配置された複数のマイクを含み、
前記話し手の音声の音源位置を決定するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて前記音源位置を決定するステップを含むことを特徴とする請求項9に記載の音声処理方法。
【請求項11】
前記翻訳結果を生成するステップは、
前記保存された位置-言語情報を用いて、話し手のそれぞれの音声の現在の言語が翻訳される他の言語を決定するステップと、
前記決定された現在の言語および他の言語によって、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成するステップと、をさらに含むことを特徴とする請求項9に記載の音声処理方法。
【請求項12】
前記翻訳結果を生成するステップは、
話し手の音声に連関する音声信号を用いて、話し手のうち、第1話し手の音声の音源位置を示す第1音源位置情報を生成するステップと、
前記音声信号と前記第1音源位置情報とを用いて、前記第1話し手の音声に連関する第1分離音声信号を生成するステップと、
前記保存された位置-言語情報を参照し、前記第1音源位置情報に対応する第1話し手の音声の言語を決定するステップと、
前記保存された位置-言語情報を参照し、前記話し手のうち、前記第1話し手を除いた残りの話し手の音声の言語を決定するステップと、
前記第1分離音声信号を用いて、前記第1話し手の音声の言語が残りの話し手の音声の言語に翻訳された翻訳結果を生成するステップと、をさらに含むことを特徴とする請求項11に記載の音声処理方法。
【請求項13】
前記音声処理方法は、
前記分離音声信号を用いて、話し手の音声の現在の言語で表現された話し手のそれぞれの音声内容が含まれた原文議事録を生成するステップをさらに含むことを特徴とする請求項9に記載の音声処理方法。
【請求項14】
前記音声処理方法は、
前記翻訳結果をテキスト変換し、テキストデータを前記翻訳文議事録に記録するステップをさらに含むことを特徴とする請求項8に記載の音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話し手の音声を処理するための装置および方法に関する。
【背景技術】
【0002】
マイク(microphone)は、音声を認識し、認識された音声を電気的な信号である音声信号に変換する装置である。会議室や教室のように複数の話し手(speaker)が位置する空間内にマイクが配置される場合、マイクは、複数の話し手からの音声をいずれも受信し、複数の話し手の音声に連関する音声信号を生成する。
【0003】
複数の話し手が同時に発話する場合、個別の話し手の音声のみを示す音声信号を分離することが必要である。また、複数の話し手が互いに異なる言語で発話する場合、複数の話し手の音声を容易に翻訳するためには、複数の話し手の音声の元の言語(すなわち、起点言語)を把握しなければならないが、音声自体の特徴だけで当該音声の言語を把握することは時間が多くかかり、多くのリソースがかかるという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、話し手の音声信号を用いて話し手の位置を把握し、音声信号を話し手別に分離および認識可能な音声処理装置および方法を提供することにある。
【0005】
本発明が解決しようとする課題は、話し手の音声から話し手のそれぞれの位置を決定し、決定された位置によって話し手のそれぞれの現在の言語を決定し、決定された現在の言語によって話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を生成可能な音声処理装置および方法を提供することにある。
【0006】
本発明が解決しようとする課題は、話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成可能な音声処理装置および方法を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するためになされた本発明の一態様による音声処理装置は、話し手の音声に対する翻訳結果を生成するように構成され、前記音声処理装置は、話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されたマイク、話し手の音声の音源位置に対応する言語を示す位置-言語情報を保存するように構成されたメモリー、音声信号および位置-言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されるプロセッサを含む。
【発明の効果】
【0008】
本発明による音声処理装置および方法によれば、話し手の音声信号を用いて話し手の位置を把握し、音声信号を話し手別に分離および認識することができる効果がある。
【0009】
本発明による音声処理装置および方法によれば、話し手の音声から話し手のそれぞれの位置を決定し、決定された位置によって話し手のそれぞれの現在の言語を決定し、決定された現在の言語によって話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を生成することができる効果がある。
【0010】
本発明による音声処理装置および方法によれば、話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成することができる効果がある。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施例による音声処理システムを示す図である。
【
図2】本発明の実施例による音声処理装置を示す図である。
【
図3】本発明の実施例による音声処理装置の動作を説明するための図である。
【
図4】本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。
【
図5】本発明の実施例による音声処理装置の翻訳機能を説明するための図である。
【
図6】本発明の実施例による音声処理装置の翻訳機能を説明するための図である。
【
図7】本発明の実施例による音声処理装置による翻訳結果の生成方法を示すフローチャートである。
【
図8】本発明の実施例による音声処理装置の動作を説明するための図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施例を説明する。
【0013】
図1は、本発明の実施例による音声処理システムを示す図である。
図1を参照すると、本発明の実施例による音声処理システム10は、音声処理装置100および翻訳サーバー200を含む。
【0014】
音声処理システム10は、話し手(speaker;SPK1~SPK4)の音声を分離し、話し手SPK1~SPK4のそれぞれの分離した音声に対する翻訳を提供することができる。
【0015】
話し手SPK1~SPK4は、空間(例えば、会議室、車両、講義室など)に位置して音声を発話(pronounce)する。例えば、第1位置P1に位置した第1話し手SPK1は、第1言語(例えば、韓国語(KR))で音声を発話し、第2位置P2に位置した第2話し手SPK2は、第2言語(例えば、英語(EN))で音声を発話し、第3位置P3に位置した第3話し手SPK3は、第3言語(例えば、中国語(CN))で音声を発話し、第4位置P4に位置した第4話し手SPK4は、第4言語(例えば、日本語(JP))で音声を発話する。
【0016】
音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に応答して、話し手SPK1~SPK4の音声に連関する音声信号を生成することができる。音声信号は、特定の時間の間発話された音声に連関する信号であって、複数の話し手の音声を示す信号であってもよい。
【0017】
音声処理装置100は、話し手SPK1~SPK4の音声を話し手SPK1~SPK4別にそれぞれ分離して認識することができる。複数の話し手SPK1~SPK4が同時に発話する場合、音声には発話した複数の話し手SPK1~SPK4の音声がいずれも含まれている。話し手SPK1~SPK4のそれぞれの音声を正確に処理するためには、複数の話し手SPK1~SPK4の音声がいずれも含まれた音声から各話し手SPK~SPK4のみの音声を分離することが必要である。
【0018】
本発明の実施例による音声処理装置100は、複数の話し手SPK1~SPK4の音声に連関する音声信号から、話し手SPK1~SPK4の音声のそれぞれの音源位置を決定し、音源位置に基づいて音源分離を行うことによって、音声信号から話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を抽出(または、生成)することができる。
【0019】
すなわち、音声処理装置100は、音声の音源位置(すなわち、話し手の位置)に基づいて、各位置P1~P4に位置した話し手SPK1~SPK4の音声に連関する分離音声信号を生成することができる。実施例によって、音声処理装置100は、音声信号の成分を位置P1~P4別に分類し、各位置P1~P4に対応する分類された成分を用いて各位置P1~P4で発話された音声に連関する分離音声信号を生成することができる。
【0020】
例えば、音声処理装置100は、音声信号に基づいて、第1位置P1で発話した第1話し手SPK1の音声に連関する第1分離音声信号を生成する。このとき、第1分離音声信号は、話し手SPK1~SPK4の音声のうち、第1話し手SPK1の音声と最も高い連関度を有する音声信号であり得る。言い換えると、第1分離音声信号に含まれた音声成分の中で第1話し手SPK1の音声成分の比重が最も高い可能性がある。
【0021】
また、本発明の実施例による音声処理装置100は、音声信号から話し手SPK1~SPK4の位置を決定し、話し手SPK1~SPK4の音声の現在の言語(すなわち、起点言語(source language))を、音声信号から決定された話し手SPK1~SPK4の位置に基づいて決定し、話し手SPK1~SPK4の音声の言語を他の言語に翻訳した翻訳結果を生成する。
【0022】
一般的に、音声を翻訳するためには、当該音声の現在の言語に対する情報が必要である。しかし、音声自体を解釈して当該音声の現在の言語を把握することには多くのリソースがかかるという問題がある。一方、本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の位置を通じて話し手SPK1~SPK4の音声の言語(すなわち、起点言語)を決定することができるので、話し手SPK1~SPK4の音声自体を解釈して言語を決定する必要がなく、翻訳にかかる時間およびリソースが減少する効果がある。
【0023】
本明細書で、音声処理装置100が翻訳結果を生成するということは、音声処理装置100に保存されたプログラムの実行によって、音声の言語を翻訳して翻訳結果を生成することだけではなく、音声処理装置100が外部の翻訳サーバーに翻訳要請を転送し、外部サーバーによって実行される翻訳プログラムから生成された翻訳結果を、翻訳サーバーから受信することを含む。
【0024】
実施例によって、音声処理装置100は、音声のそれぞれに対する翻訳結果を生成することができる。翻訳結果は、目標言語で表現された話し手SPK1~SPK4のそれぞれの音声に連関するテキストデータまたは音声信号であってもよい。
【0025】
翻訳サーバー200は、言語に対する翻訳を提供することができる。実施例によって、翻訳サーバー200は、音声処理装置100から話し手SPK1~SPK4の音声に連関する音声信号を受信し、話し手SPK1~SPK4の音声が他の言語に翻訳された翻訳結果を音声処理装置100に提供することができる。
【0026】
翻訳サーバー200は、自らの演算を通じて翻訳作業を行い、翻訳結果を提供することができるが、これに限定されるものではない。例えば、翻訳サーバー200は、外部から翻訳結果を入力され、入力された翻訳結果を再び音声処理装置100に提供することもできる。
【0027】
図1には、音声処理装置100と翻訳サーバー200とが分離されて示されているが、実施例によって、音声処理装置100は、翻訳サーバー200を含んでもよい。これは、音声処理装置100は、音声処理装置100のプロセッサを用いて実行される翻訳プログラムを保存していることも意味する。
【0028】
図2は、本発明の実施例による音声処理装置を示す図である。
図2を参照すると、音声処理装置100は、マイク110、通信回路120、プロセッサ130、およびメモリー140を含む。実施例によって、音声処理装置100は、スピーカー150をさらに含んでもよい。
【0029】
マイク110は、発生した音声に応答して音声信号を生成することができる。実施例によって、マイク110は、音声による空気の振動を検出し、検出結果によって振動に対応する電気的な信号である音声信号を生成することができる。例えば、マイク110は、各位置P1~P4に位置した話し手SPK1~SPK4の音声を受信し、話し手SPK1~SPK4の音声を電気的な信号である音声信号に変換することができる。
【0030】
実施例によって、マイク110は複数であってもよく、複数のマイク110のそれぞれは、音声に応答して音声信号を生成し得る。このとき、複数のマイク110のそれぞれが配置された位置は互いに異なることもあるので、マイク110のそれぞれから生成された音声信号は互いに位相差(または、時間遅延)を有し得る。
【0031】
一方、本明細書では、音声処理装置100がマイク110を含み、マイク110を用いて話し手SPK1~SPK4の音声に連関する音声信号を直接生成するものとして説明するが、実施例によって、マイクは音声処理装置100と分離されて外部に構成されてもよく、音声処理装置100は分離されて構成されたマイクから音声信号を受信し、受信した音声信号を処理または用いてもよい。例えば、音声処理装置100は分離されたマイクから受信した音声信号から分離音声信号を生成することができる。
【0032】
ただし、説明の便宜上、別途の言及がない限り音声処理装置100がマイク110を含むことを仮定して説明する。
【0033】
通信回路120は、無線通信方式によって外部装置とデータをやり取りする。実施例によって、通信回路120は多様な周波数の電波を用いて、外部装置とデータをやり取りすることができる。例えば、通信回路120は、近距離無線通信、中距離無線通信、および長距離無線通信の少なくとも一つの無線通信方式によって、外部装置とデータをやり取りすることができる。
【0034】
プロセッサ130は、音声処理装置100の全般的な動作を制御する。実施例によって、プロセッサ130は、演算処理機能を有するプロセッサを含んでもよい。例えば、プロセッサ130は、CPU(central processingunit)、MCU(micro controller unit)、GPU(graphics processing unit)、DSP(digital signal processor)、ADCコンバータ(analog to digital converter)、またはDACコンバータ(digital to analog converter)を含んでもよいが、これに限定されるものではない。
【0035】
別途の言及がない限り、本明細書で説明される音声処理装置100の動作は、プロセッサ130の動作として理解することができる。
【0036】
プロセッサ130は、マイク110によって生成された音声信号を処理する。例えば、プロセッサ130は、マイク110によって生成されたアナログタイプの音声信号をデジタルタイプの音声信号に変換し、変換されたデジタルタイプの音声信号を処理することができる。この場合、信号のタイプ(アナログまたはデジタル)が変わるので、本発明の実施例に対する説明において、デジタルタイプの音声信号とアナログタイプの音声信号とを混用して説明することにする。
【0037】
実施例によって、プロセッサ130は、マイク110によって生成された音声信号を用いて、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を抽出(または、生成)することができる。実施例によって、プロセッサ130は、各位置P1~P4に位置した話し手SPK1~SPK4の音声に連関する分離音声信号を生成する。分離音声信号は、音声データまたはテキストデータの形態であってもよい。
【0038】
プロセッサ130は、音声信号間の時間遅延(または、位相遅延)を用いて音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定することができる。例えば、プロセッサ130は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定することができる。
【0039】
プロセッサ130は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成することができる。実施例によって、プロセッサ130は、音声信号の成分を音源位置P1~P4別に分類し、各位置P1~P4に対応する分類された成分を用いて各音源位置P1~P4で発話された音声に連関する分離音声信号を生成することができる。例えば、プロセッサ130は、音声の音源位置に基づいて、第1話し手SPK1の音声に連関する第1分離音声信号を生成することができる。
【0040】
実施例によって、プロセッサ130は、決定された音源位置を示す音源位置情報を、分離音声信号とマッチングさせて保存する。例えば、プロセッサ130は、第1話し手SPK1の音声に連関する第1分離音声信号および第1話し手SPK1の音声の音源位置を示す第1音源位置情報をマッチングさせてメモリー140に保存する。すなわち、音源の位置がすぐに話し手SPK1~SPK4のそれぞれの位置に対応するので、音源位置情報は、話し手SPK1~SPK4のそれぞれの位置を識別するための話し手位置情報として機能し得る。
【0041】
プロセッサ130は、音源位置情報を用いて、話し手SPK1~SPK4の音声の言語(すなわち、起点言語)を決定する。実施例によって、プロセッサ130は、話し手SPK1~SPK4の音声から音源位置情報を決定し、決定された音源位置情報に対応する位置-言語情報を決定することによって、各音声の言語を決定する。このとき、位置-言語情報は、各位置にいる話し手SPK1~SPK4の言語が何であるのかを示す情報であって、事前に各位置にマッチングされ、メモリー140に保存されていてもよい。これについては、後述することにする。
【0042】
プロセッサ130は、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号に該当する音声の言語を示す情報を、通信回路120を用いて翻訳サーバー200に転送することができる。実施例によって、プロセッサ130は、分離音声信号と音声の言語を示す情報とを翻訳サーバー200に転送するための制御命令を生成する。
【0043】
翻訳サーバー200は、分離音声信号を用いて話し手の音声の言語を翻訳した翻訳結果を生成することができる。
【0044】
または、実施例によって、プロセッサ130は、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号と位置-言語情報とを用いて、話し手SPK1~SPK4の音声を翻訳し、翻訳結果を生成することができる。例えば、プロセッサ130は、翻訳プログラムを実行し、翻訳プログラムに話し手の音声に連関する分離音声信号および位置-言語情報を入力として提供することによって、話し手の音声を目標言語に翻訳した翻訳結果を生成する。
【0045】
翻訳結果は、目標言語で表現された話し手SPK1~SPK4のそれぞれの音声に連関するテキストデータまたは音声信号をいずれも意味する。
【0046】
実施例によって、プロセッサ130は、翻訳結果を用いて話し手SPK1~SPK4の言語で作成された議事録を生成することができる。例えば、プロセッサ130は、分離音声信号を用いて話し手SPK1~SPK4のそれぞれの音声に対するテキストデータを生成し、各話し手のテキストデータを音声が認識された時点に応じて配置または並べることによって、議事録を生成する。
【0047】
本明細書で説明されるプロセッサ130または音声処理装置100の動作は、コンピューティング装置によって実行可能なプログラムの形態で具現することができる。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。
【0048】
メモリー140は、音声処理装置100の動作に必要なデータを保存する。例えば、メモリー140は、不揮発性メモリーおよび揮発性メモリーのうちの少なくとも一つを含んでもよい。
【0049】
実施例によって、メモリー140は、空間上の各位置P1~P4に対応する識別子を保存する。識別子は、位置P1~P4を区別するためのデータであってもよい。位置P1~P4のそれぞれには話し手SPK1~SPK4のそれぞれが位置するので、位置P1~P4に対応する識別子を用いて話し手SPK1~SPK4のそれぞれを区別することができる。例えば、第1位置P1を示す第1識別子は、すなわち、第1話し手SPK1を示す。このような観点で、空間上の各位置P1~P4に対応する識別子は、話し手SPK1~SPK4のそれぞれを識別するための話し手識別子として機能する。
【0050】
識別子は、音声処理装置100の入力装置(例えば、タッチパッド)を通じて入力される。
【0051】
実施例によって、メモリー140は、話し手SPK1~SPK4のそれぞれの位置に関連する音源位置情報および話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を保存する。
【0052】
また、メモリー140は、話し手SPK1~SPK4の音声の言語を示す位置-言語情報を保存する。実施例によって、位置-言語情報は、事前に各位置にマッチングされ、メモリー140に保存されていてもよい。これについては、後述することにする。
【0053】
スピーカー150は、プロセッサ130の制御によって振動し、振動によって音声を生成する。実施例によって、スピーカー150は、音声信号に対応する振動を形成することによって、音声信号に連関する音声を再生することができる。
【0054】
図3は、本発明の実施例による音声処理装置の動作を説明するための図である。以下、本明細書で説明される音声処理装置100の動作は、音声処理装置100に含まれたプロセッサ130の制御によって行われる動作として理解することができる。
【0055】
図3を参照すると、各位置P1~P4に位置した話し手SPK1~SPK4のそれぞれが発話する。
【0056】
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に連関する分離音声信号を生成し、分離音声信号と音源、すなわち、話し手SPK1~SPK4のそれぞれの位置を示す音源位置情報を保存することができる。
【0057】
実施例によって、音声処理装置100は、音声信号間の時間遅延(または、位相遅延)を用いて、音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定することができる。例えば、音声処理装置100は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定する。
【0058】
音声処理装置100は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成することができる。
【0059】
図3に示すように、第1話し手SPK1が音声「AAA」を発話し、第2話し手SPK2が音声「BBB」を発話し、第3話し手SPK3が音声「CCC」を発話し、第4話し手SPK4が音声「DDD」を発話する。
【0060】
音声処理装置100は、話し手SPK1~SPK4の音声に応答して、話し手SPK1~SPK4の音声に連関する音声信号を生成する。このとき、生成された音声信号は、話し手SPK1~SPK4の音声「AAA」、「BBB」、「CCC」、および音声「DDD」に連関する成分を含む。
【0061】
音声処理装置100は、生成された音声信号を用いて、第1話し手SPK1の音声「AAA」に連関する第1分離音声信号、第2話し手SPK2の音声「BBB」に連関する第2分離音声信号、第3話し手SPK3の音声「CCC」に連関する第3分離音声信号、および第4話し手SPK4の音声「DDD」に連関する第4分離音声信号を生成する。
【0062】
このとき、音声処理装置100は、話し手SPK1~SPK4の音声に連関する分離音声信号と、話し手SPK1~SPK4の位置(すなわち、音源位置)を示す音源位置情報とをメモリー140に保存する。例えば、音声処理装置100は、第1話し手SPK1の音声「AAA」に連関する第1分離音声信号と、第1話し手SPK1の音声の音源位置である第1位置P1を示す第1位置情報とをメモリー140に保存する。例えば、
図3に示すように、分離音声信号のそれぞれと音源位置情報とは互いにマッチングされて保存される。
【0063】
すなわち、本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に連関する分離音声信号を生成し、分離音声信号と話し手SPK1~SPK4のそれぞれの位置を示す位置情報とを保存する。
【0064】
図4は、本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。
図4を参照して説明される音声処理装置の動作方法は、非一時的な記憶媒体に保存され、コンピューティング装置によって実行可能なアプリケーション(例えば、音声分離アプリケーション)として具現することができる。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。
【0065】
図4を参照すると、音声処理装置100は、話し手SPK1~SPK4の音声に連関する音声信号を受信する(S110)。実施例によって、音声処理装置100は、空間で感知される音声を電気的な信号である音声信号に変換する。
【0066】
音声処理装置100は、話し手SPK1~SPK4の音声に連関する音声信号を用いて、話し手SPK1~SPK4の位置を決定する(S120)。実施例によって、音声処理装置100は、話し手SPK1~SPK4の位置に対応する音源位置(すなわち、話し手SPK1~SPK4の位置)を示す音源位置情報を生成する。
【0067】
音声処理装置100は、音声のそれぞれに対する音源位置に基づいて、話し手SPK1~SPK4の音声のそれぞれに連関する分離音声信号を生成する(S130)。実施例によって、音声処理装置100は、生成された音声信号を、音声のそれぞれに対する音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに連関する分離音声信号を生成する。例えば、音声処理装置100は、音声信号に含まれた成分を音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに連関する分離音声信号を生成する。
【0068】
音声処理装置100は、音源の位置を示す音源位置情報と分離音声信号とを保存する(S140)。実施例によって、音声処理装置100は、音源の位置を示す音源位置情報と、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号とをマッチングさせて保存する。例えば、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号に該当するデータと音源位置情報とをマッチングさせて保存する。
【0069】
実施例によって、本発明の実施例による音声処理装置100(または、プロセッサ130)は、メモリー140に保存されたアプリケーション(例えば、音声分離アプリケーション)を実行することによって、話し手SPK1~SPK4の音声に連関する音声信号から話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成(または、分離)することができる。
【0070】
図5は、本発明の実施例による音声処理装置の翻訳機能を説明するための図である。
図5を参照すると、第1話し手SPK1は、音声「AAA」を韓国語KRで発話し、第2話し手SPK2は、音声「BBB」を英語ENで発話し、第3話し手SPK3は、音声「CCC」を中国語CNで発話し、第4話し手SPK4は、音声「DDD」を日本語JPで発話する。
【0071】
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の位置を決定し、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成することができる。音声処理装置100は、話し手SPK1~SPK4のそれぞれの位置に対応して保存された位置-言語情報を用いて話し手SPK1~SPK4の音声の言語を決定し、話し手SPK1~SPK4の音声に対する翻訳を提供することができる。
【0072】
例えば、音声処理装置100は、第1位置P1に対応する言語が「KR」であることを示す第1位置-言語情報をメモリー140に保存する。また、音声処理装置100は、第1話し手SPK1の音声「AAA」に連関する第1分離音声信号、第1話し手SPK1の位置である第1位置P1を示す第1音源位置情報および第1話し手SPK1の音声「AAA」の言語である韓国語KRを示す第1位置-言語情報をメモリー140に保存する。
【0073】
図6は、本発明の実施例による音声処理装置の翻訳機能を説明するための図である。
図6を参照すると、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成し、分離音声信号を用いて話し手SPK1~SPK4のそれぞれの音声に対する翻訳結果を生成することができる。このとき、翻訳結果は、話し手SPK1~SPK4の音声の言語が他の言語(例えば、目標言語)に変換された結果を示す。
【0074】
例えば、音声処理装置100は、分離音声信号をテキストデータに変換して(例えば、STT(Speech-To-Text)変換)、変換されたテキストデータに対する翻訳結果を生成し、翻訳結果を音声信号として変換(例えば、TTS(Text-to-Speech)変換)することができる。すなわち、本明細書で言及される翻訳結果は、目標言語で表現された話し手SPK1~SPK4のそれぞれの音声に連関するテキストデータまたは音声信号をいずれも意味する。
【0075】
実施例によって、音声処理装置100は、生成された翻訳結果を出力することができる。例えば、音声処理装置100は、生成された翻訳結果をスピーカー150を通じて出力するか、または他の外部装置に転送する。
【0076】
図6に示すように、第1話し手SPK1は、音声「AAA」を韓国語KRで発話する。この場合、第1話し手SPK1の音声「AAA」の起点言語は、韓国語KRである。
【0077】
音声処理装置100は、第1話し手SPK1の音声「AAA」に応答して、第1話し手SPK1の音源位置(例えば、P1)を決定し、音源位置に基づいて第1話し手SPK1の音声「AAA」に連関する第1分離音声信号を生成する。
【0078】
音声処理装置100は、生成された分離音声信号を用いて、話し手SPK1~SPK4の音声に対する翻訳を提供することができる。実施例によって、音声処理装置100は、メモリー140に保存された位置-言語情報を用いて、各位置P1~P4に位置した話し手SPK1~SPK4によって発話された音声の言語を決定し、決定された言語によって話し手SPK1~SPK4のそれぞれの音声の言語に対する翻訳結果を生成することができる。
【0079】
図6に示すように、音声処理装置100は、第1話し手SPK1の音声「AAA」の音源位置である第1位置P1を示す第1音源位置情報を用いて、メモリー140から第1位置P1で発話された音声「AAA」の言語が韓国語KRであることを示す第1位置-言語情報をリードする。音声処理装置100は、第1話し手SPK1の音声「AAA」の言語である韓国語KRを他の言語に翻訳した翻訳結果を生成することができる。
【0080】
実施例によって、音声処理装置100は、第1話し手SPK1の音声「AAA」に対する分離音声信号と、音声「AAA」の言語が韓国語KRであることを示す情報を用いて音声「AAA」の言語を他の言語に翻訳した翻訳結果を生成することができる。
【0081】
このとき、話し手SPK1~SPK4の音声が翻訳されるべき言語(すなわち、目標言語)は、予め決定されているか、外部ユーザーの入力によって指定されるか、または音声処理装置100によって設定される。
【0082】
実施例によって、音声処理装置100は、話し手SPK1~SPK4の位置に対応する言語を示す位置-言語情報に基づいて、話し手SPK1~SPK4のうちの一人の話し手の音声の言語を残りの話し手の言語に翻訳した翻訳結果を生成することができる。
【0083】
図6に示すように、音声処理装置100は、予め保存された位置-言語情報に基づいて、第1位置P1に位置した第1話し手SPK1の音声「AAA」が翻訳されるべき言語(すなわち、目標言語)が、第1話し手SPK1を除いた残りの話し手SPK2~SPK4の位置に対応する言語(英語、中国語および日本語)であることを決定する。決定によって、音声処理装置100は、音声「AAA」の言語が英語、中国語、および日本語に翻訳された翻訳結果を生成することができる。
【0084】
すなわち、本発明の実施例による音声処理装置100は、複数の話し手SPK1~SPK4が発話している状況で、話し手SPK1~SPK4の音声から話し手SPK1~SPK4の位置(すなわち、音源位置)を決定し、決定された位置から各話し手SPK1~SPK4の言語(起点言語および目標言語)を決定し、決定された言語に基づいて話し手SPK1~SPK4の音声を翻訳することができる効果がある。
【0085】
実施例によって、音声処理装置100は、翻訳結果を残りの話し手SPK2~SPK4に提供することができる。また、実施例によって、音声処理装置100は、翻訳結果を他の装置(例えば、スピーカー、ディスプレイまたは外部装置)に転送することもできる。
【0086】
図7は、本発明の実施例による音声処理装置による翻訳結果の生成方法を示すフローチャートである。
図7を参照して説明される音声処理装置の作動方法は、非一時的な記憶媒体に保存され、コンピューティング装置によって実行可能なアプリケーション(例えば、翻訳アプリケーション)として具現することができる。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。
【0087】
図7を参照すると、音声処理装置100は、話し手SPK1~SPK4の音声に連関する音声信号を受信する(S210)。
【0088】
音声処理装置100は、話し手SPK1~SPK4の音声に連関する音声信号を用いて、話し手SPK1~SPK4の位置を決定する(S220)。実施例によって、音声処理装置100は、話し手SPK1~SPK4の位置に対応する音源位置(すなわち、話し手SPK1~SPK4の位置)を示す音源位置情報を生成する。
【0089】
音声処理装置100は、音声のそれぞれに対する音源位置に基づいて、話し手SPK1~SPK4の音声のそれぞれに連関する分離音声信号を生成する(S230)。
【0090】
音声処理装置100は、話し手SPK1~SPKの位置に基づいて話し手SPK1~SPK4の音声の言語(すなわち、現在の言語)を決定する(S240)。実施例によって、音声処理装置100は、決定された音源位置情報と、保存された位置-言語情報とを用いて話し手SPK1~SPK4のそれぞれの音声の言語(すなわち、現在の言語)を決定する(S240)。
【0091】
音声処理装置100は、決定された音声の言語によって、話し手SPK1~SPK4のそれぞれの音声に対する翻訳結果を生成する(S250)。実施例によって、音声処理装置100は、話し手SPK1~SPK4のそれぞれの分離音声信号および話し手SPK1~SPK4の音声の言語に対する情報を用いて、話し手SPK1~SPK4のそれぞれの音声に対する翻訳結果を生成することができる。
【0092】
例えば、音声処理装置100は、話し手SPK1~SPK4の位置に対応する言語を示す位置-言語情報に基づいて、話し手SPK1~SPK4のうちの一人の話し手の音声の言語を残りの話し手の言語に翻訳した翻訳結果を生成することができる。
【0093】
図8は、本発明の実施例による音声処理装置の動作を説明するための図である。
図8を参照すると、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を用いて議事録MOMを生成することができる。
【0094】
議事録MOMは、話し手SPK1~SPK4のそれぞれの発話内容を記録したデータであってもよい。例えば、話し手SPK1~SPK4のそれぞれの発話内容は、時間順に整理して構成することができる。
【0095】
音声処理装置100は、議事録MOMを生成し、話し手SPK1~SPK4の音声に連関する分離音声信号を用いて、議事録MOMに話し手SPK1~SPK4の発話内容を保存(または、記録)することができる。このとき、音声処理装置100は、各話し手SPK1~SPK4の発話内容と各話し手SPK1~SPK4を識別するための識別子(例えば、名前)などを互いにマッチングさせて記録することができる。したがって、議事録MOMを通じてどの話し手がどんな内容で発話したのかを確認することができる。
【0096】
実施例によって、議事録MOMは、テキストデータ、音声データ、またはイメージデータのうちの少なくとも一つで構成されてもよいが、これに限定されるものではない。音声処理装置100は、話し手SPK1~SPK4の音声に連関する分離音声信号を処理することによって、議事録MOMを生成することができる。例えば、音声処理装置100は、話し手SPK1~SPK4の音声に応答して、話し手SPK1~SPK4のそれぞれの音声に連関する分離音声信号を生成し、生成された分離音声信号をテキスト変換して保存することによって、議事録MOMを生成することができる。
【0097】
本発明の実施例による音声処理装置100は、元の言語(すなわち、起点言語)で表現された話し手SPK1~SPK4のそれぞれの音声の内容を含む議事録(すなわち、原文議事録)だけでなく、他の言語(すなわち、目標言語)で表現された話し手SPK1~SPK4のそれぞれの音声の内容を含む議事録(すなわち、翻訳文議事録)を生成することができる。例えば、第1話し手SPK1は、韓国語KRで発話するので、第1話し手SPK1の立場では、韓国語議事録KR MOMが原文議事録となり、英語議事録EN MOM、中国語議事録CN MOM、および日本語議事録JP MOMが翻訳文議事録となる。
【0098】
実施例によって、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に対する分離音声信号を用いて原文議事録を生成し、分離音声信号に対する翻訳結果を用いて話し手SPK1~SPK4のそれぞれの音声の言語に翻訳された翻訳文議事録MOMを生成することができる。
【0099】
実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声内容が話し手SPK1~SPK4のうち、第1話し手SPK1の言語である韓国語KRで示した韓国語議事録KR MOMを生成することができる。例えば、音声処理装置100は、話し手SPK1~SPK4のうち、第1話し手SPK1の音声に連関する第1分離音声信号(すなわち、韓国語KRで表現される)と、残りの話し手SPK2~SPK4の音声の言語が第1話し手SPK1の言語である韓国語KRに翻訳された翻訳結果を用いて韓国語議事録KR MOMを生成することができる。同様に、音声処理装置100は、話し手SPK1~SPK4の音声内容が残りの話し手SPK2~SPK4の言語で示した議事録(EN MOM、CN MOM、JP MOM)を生成することができる。
【0100】
図8に示すように、第1位置P1の第1話し手SPK1が音声「AAA」を韓国語で発話し、第3位置P3の第3話し手SPK3が音声「CCC」を中国語で発話し、第2位置P2の第2話し手SPK2が音声「BBB」を英語で発話する。
【0101】
音声処理装置100は、音声「AAA」に応答して、音声「AAA」の音源位置である第1位置P1を決定して音声「AAA」に連関する第1分離音声信号を生成する。音声処理装置100は、位置-言語情報に基づいて音声「AAA」の言語(すなわち、起点言語)が韓国語KRであることが決定できる。
【0102】
音声処理装置100は、音声「AAA」に対する第1分離音声信号を用いて韓国語議事録KR MOMを生成することができる。例えば、音声処理装置100は、韓国語議事録KR MOMを生成し、音声「AAA」に対する第1分離音声信号に対応するテキストデータを韓国語議事録KR MOMに記録(または、保存)することができる。すなわち、韓国語議事録KR MOMは、韓国語KRで発話された音声「AAA」に対する内容を含んでもよい。
【0103】
音声処理装置100は、音声「AAA」に対する翻訳結果を用いて英語議事録EN MOM、中国語議事録CN MOM、および日本語議事録JP MOMを生成することができる。例えば、音声処理装置100は、英語議事録EN MOMを生成し、音声「AAA」の言語が英語ENに翻訳された翻訳結果をテキスト変換し、テキストデータを英語議事録EN MOMに記録(または、保存)することができる。すなわち、英語議事録EN MOMは英語ENで記載された音声「AAA」に対する内容を含んでもよい。
【0104】
同様に、音声処理装置100は、音声「CCC」に対する第3分離音声信号を用いて中国語議事録CN MOMに中国語CNで発話された音声「CCC」の内容を記録することができ、音声「CCC」に対する翻訳結果を用いて他の言語の議事録(KR MOM、EN MOM、JP MOM)に他の言語で発話された音声「CCC」の内容を記録することができる。
【0105】
同様に、音声処理装置100は、音声「BBB」に対する第2分離音声信号を用いて英語議事録EN MOMに英語ENで発話された音声「BBB」の内容を記録することができ、音声「BBB」に対する翻訳結果を用いて他の言語の議事録(KR MOM、CN MOM、JP MOM)に他の言語で発話された音声「BBB」の内容を記録することができる。
【0106】
以上のように、本発明の実施例が、限定された実施例と図面によって説明されているが、当該技術分野における通常の知識を有した者であれば、上記の記載から多様な修正および変形が可能である。例えば、説明された技術が説明された方法と異なる順に行われるか、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合または組み合わせされるか、他の構成要素または均等物によって代替されるか置換されても適切な結果を達成することができる。
【0107】
したがって、他の具現形態、他の実施例および本発明の技術範囲と均等なものなども本発明の範囲に属する。
は
【0108】
本発明は、話し手の音声を処理するための装置および方法に適用できる。
【符号の説明】
【0109】
10 音声処理システム
100 音声処理装置
110 マイク
120 通信回路
130 プロセッサ
140 メモリー
150 スピーカー
200 翻訳サーバー
【国際調査報告】