(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-04
(54)【発明の名称】音声を処理するための音声処理装置、音声処理システムおよび音声処理方法
(51)【国際特許分類】
G10L 21/028 20130101AFI20240528BHJP
G10L 25/51 20130101ALI20240528BHJP
G10L 15/00 20130101ALI20240528BHJP
H04R 3/00 20060101ALI20240528BHJP
【FI】
G10L21/028 B
G10L25/51 400
G10L15/00 200Z
H04R3/00 320
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023573293
(86)(22)【出願日】2022-05-20
(85)【翻訳文提出日】2023-11-27
(86)【国際出願番号】 KR2022007250
(87)【国際公開番号】W WO2022250387
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】10-2021-0067977
(32)【優先日】2021-05-27
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】504394744
【氏名又は名称】アモセンス・カンパニー・リミテッド
【氏名又は名称原語表記】AMOSENSE CO., LTD.
【住所又は居所原語表記】(Cheonan the fourth Local Industrial Complex) 19-1 Block, 90, 4sandan 5-gil, jiksan-eup, Seobuk-gu Cheonan-si, Chungcheongnam-do 31040, Republic of Korea
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】キム,ジュンミン
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】複数の話し手の音声に関連する分離音声信号を生成し処理するための音声処理装置を提供する。
【解決手段】本発明による音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されるマイクと、データを送受信するように構成される通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の話し手の音声を処理するための音声処理装置において、
前記複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、
データを送受信するように構成された通信回路と、
メモリーと、
プロセッサと、を含み、
前記プロセッサは、前記メモリーに保存された命令語に基づいて、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離し、
音源分離によって、前記音声のそれぞれに関連する分離音声信号を生成し、
前記音声のそれぞれの音源位置に対応する出力モードを決定し、
前記通信回路を用いて、前記決定された出力モードによって前記分離音声信号を出力することを特徴とする音声処理装置。
【請求項2】
前記マイクは、
アレイを成すように配置された複数のマイクを含むことを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断し、
前記判断された音源位置に基づいて、前記分離音声信号を生成することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記プロセッサは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成し、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存することを特徴とする請求項3に記載の音声処理装置。
【請求項5】
前記メモリーは、前記音声のそれぞれの音源位置に対応した出力モードを示す出力モード情報を保存し、
前記プロセッサは前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対応する出力モードを決定することを特徴とする請求項1に記載の音声処理装置。
【請求項6】
前記プロセッサは、
前記音源分離によって生成された第1分離音声信号を前記出力モードに対応する形式に変換することによって第2分離音声信号を生成し、
前記通信回路を用いて、前記第2分離音声信号を出力することを特徴とする請求項1に記載の音声処理装置。
【請求項7】
前記プロセッサは、
前記出力モードによって、前記第1分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換することを特徴とする請求項6に記載の音声処理装置。
【請求項8】
複数の話し手の音声を処理するための音声処理方法において、
前記複数の話し手の音声に応答して音声信号を生成するステップと、
前記音声信号を前記音声のそれぞれの音源位置に基づいて音源分離するステップと、
前記音声のそれぞれに関連する分離音声信号を生成するステップと、
前記音声のそれぞれの音源位置に対する出力モードを決定するステップと、
前記決定された出力モードによって前記分離音声信号を出力するステップと、を含むことを特徴とする音声処理方法。
【請求項9】
前記音声信号を生成するステップは、
アレイを成すように配置された複数のマイクを用いて音声信号を生成するステップを含むことを特徴とする請求項8に記載の音声処理方法。
【請求項10】
前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を判断するステップと、
前記判断された音源位置に基づいて、前記分離音声信号を生成するステップと、を含むことを特徴とする請求項9に記載の音声処理方法。
【請求項11】
前記音源分離するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて、前記音声のそれぞれの音源位置を示す音源位置情報を生成するステップと、
前記音声に対する音源位置情報と前記音声に対する分離音声信号とを互いにマッチングさせて保存するステップと、をさらに含むことを特徴とする請求項10に記載の音声処理方法。
【請求項12】
出力モードを決定するステップは、
前記音声のそれぞれの音源位置に対する出力モードを示す出力モード情報を保存するステップと、
前記保存された出力モード情報を参照して、前記音源位置のそれぞれに対する出力モードを決定するステップと、を含むことを特徴とする請求項8に記載の音声処理方法。
【請求項13】
前記決定された出力モードによって前記分離音声信号を出力するステップは、
前記音源分離によって生成された第1分離音声信号を前記出力モードに対応する形式に変換することによって第2分離音声信号を生成するステップと、
通信回路を用いて、前記第2分離音声信号を出力するステップと、を含むことを特徴とする請求項8に記載の音声処理方法。
【請求項14】
前記第2分離音声信号を生成するステップは、
前記出力モードによって、前記第1分離音声信号の形式をテキストデータ形式および音声データ形式のいずれか一つの形式に変換するステップを含むことを特徴とする請求項13に記載の音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関する。
【背景技術】
【0002】
マイク(microphone)は、音声を電気的な信号である音声信号に変換する装置である。会議室や教室のように複数の話し手(speaker)が位置する空間内にマイクが配置される場合、マイクは、複数の話し手から出た音声を全て受信し、複数の話し手の音声に関連する音声信号を生成する。
【0003】
一方、複数の話し手が同時に発話する場合、複数の話し手の音声が全て混合される可能性がある。このとき、複数の話し手の音声の中で特定の話し手の音声を示す音声信号を分離することが必要となる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、話し手の音声に応答して、話し手のそれぞれの音声に関連する分離音声信号を生成することができる音声処理装置、および音声処理方法を提供することにある。
【0005】
また、本発明の目的は、話し手のそれぞれの音声に関連する分離音声信号を用いて、話し手のそれぞれの音声を話し手のそれぞれに対して設定された出力モードによって出力することができる音声処理装置、音声処理システムおよび音声処理方法を提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理装置は、複数の話し手の音声に応答して音声信号を生成するように構成されたマイクと、データを送受信するように構成された通信回路と、メモリーと、プロセッサと、を含み、プロセッサは、メモリーに保存された命令語に基づいて、音声信号を音声のそれぞれの音源位置に基づいて音源分離し、音源分離によって、音声のそれぞれに関連する分離音声信号を生成し、音声のそれぞれの音源位置に対応する出力モードを決定し、通信回路を用いて、決定された出力モードによって分離音声信号を出力する。
【0007】
上記目的を達成するためになされた本発明の一態様による複数の話し手の音声を処理するための音声処理方法は、複数の話し手の音声に応答して音声信号を生成するステップと、音声信号を音声のそれぞれの音源位置に基づいて音源分離するステップと、音声のそれぞれに関連する分離音声信号を生成するステップと、音声のそれぞれの音源位置に対する出力モードを決定するステップと、分離音声信号を用いて、決定された出力モードによって複数の話し手のそれぞれの音声を出力するステップと、を含む。
【発明の効果】
【0008】
本発明によれば、音声の音源位置に基づいて特定の音源位置からの音声に関連する分離音声信号を生成することができるので、周辺騷音の影響を最小化した音声信号を生成することができるという効果がある。
【0009】
また、本発明によれば、複数の話し手のそれぞれの音声を音源位置によって分離し、話し手のそれぞれに対して設定された出力モードによって出力することができ、ユーザーは、一部の話し手の音声のみを聞くか(聴覚的)または観覧(視覚的)することができ、これによって、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施例による音声処理システムを示す。
【
図4】本発明の実施例によるモバイル端末機の動作を説明するための図である。
【
図5】本発明の実施例によるモバイル端末機の動作を説明するための図である。
【
図6】本発明の実施例によるモバイル端末機の動作を説明するための図である。
【
図7】本発明の実施例による音声分離方法を示すフローチャートである。
【
図8】本発明の実施例による音声処理システムを説明するための図である。
【
図9】本発明の実施例による音声処理システムを説明するための図である。
【
図10】本発明の実施例による出力モードを説明するための図である。
【
図11】本発明の実施例による出力モードを説明するための図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の実施例を説明する。
【0012】
図1は、本発明の実施例による音声処理システムを示す。
図1を参照すると、音声処理システム10は、話し手SPK1~SPK4の音声に対応する音声信号を生成し、生成された音声信号を出力する音声処理装置100および音声処理装置100から出力された音声信号を受信するユーザー端末機200を含む。
【0013】
話し手SPK1~SPK4は、空間(例えば、会議室、車両、講義室など)に位置して音声を発話(pronounce)する。実施例によって、第1話し手SPK1は、第1位置P1で音声を発話し、第2話し手SPK2は、第2位置P2で音声を発話し、第3話し手SPK3は、第3位置P3で音声を発話し、第4話し手SPK4は、第4位置P4で音声を発話する。
【0014】
音声処理装置100は、話し手SPK1~SPK4の音声を処理する装置であって、音声を電気的な信号に変換するマイクロホン(microphone)を含む。
【0015】
音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に応答して、話し手SPK1~SPK4の音声に関連する音声信号を生成する。音声信号は、特定の時間の間発話された音声に関連する信号であって、複数の話し手の音声を示す信号である。
【0016】
実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を用いて、話し手SPK1~SPK4の音声のそれぞれの音源位置を判断し、音源位置に基づいて音源分離を行うことによって、音声信号から話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を抽出(または生成)する。
【0017】
音声処理装置100は、分離音声信号および音源位置を示す音源位置情報を保存する。
【0018】
すなわち、音声処理装置100は、音声信号に対応する音声の音源位置に基づいて、各位置P1~P4に位置した話し手SPK1~SPK4の音声に関連する分離音声信号を生成する。例えば、音声処理装置100は、音声信号に基づいて、第1位置P1で発話した第1話し手SPK1の音声に関連する第1分離音声信号を生成する。このとき、第1分離音声信号は、話し手SPK1~SPK4の音声のうち、第1話し手SPK1の音声と最も高い関連度を有する音声信号である。言い換えると、第1分離音声信号に含まれた音声成分の中で、第1話し手SPK1の音声成分の比重が最も高いものである。
【0019】
音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号をユーザー端末機200に伝送する。実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号および当該の音源位置を示す音源位置情報をともにユーザー端末機200に伝送する。
【0020】
また、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に対する翻訳を提供することができる。例えば、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声を翻訳するための起点言語(source language;翻訳対象言語)と目標言語(target language;翻訳後言語)を決定し、分離音声信号を用いて話し手のそれぞれの言語に対する翻訳を提供する。
【0021】
実施例によって、音声処理装置100は、音声のそれぞれに対する翻訳結果を出力する。翻訳結果は、目標言語で表現された話し手SPK1~SPK4のそれぞれの音声に関連するテキストデータまたは音声信号である。
【0022】
ユーザー端末200は、通信機能および演算処理機能を有する電子装置である。例えば、ユーザー端末200は、スマートホン(smartphone)、ノート・パソコン(laptop)、PDA(personal digital assistance)、ウェアラブルデバイス(wearable device)、スマートウォッチ(smart watch)、タブレットコンピュータ(tablet computer)、TV(television)などであってもよいが、本発明の実施例はこれに限定されるものではない。
【0023】
ユーザー端末200は、音声処理装置100から話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を受信し、受信した分離音声信号を出力する。例えば、ユーザー端末200は、分離音声信号を聴覚的に出力するか(すなわち、音)または視覚的に出力することができる(すなわち、字幕)。
【0024】
図2は、本発明の実施例による音声処理装置を示す。
図2を参照すると、音声処理装置100は、マイク110、通信装置120、プロセッサ130、メモリー140、およびディスプレイ150を含み得る。実施例によって、音声処理装置100は、スピーカー160をさらに含んでもよい。
【0025】
マイク110は、発生した音声に応答して音声信号を生成する。実施例によって、マイク110は、音声による空気の振動を検出し、検出結果によって振動に対応した電気的な信号である音声信号を生成する。
【0026】
実施例によって、マイク110は、複数であってもよく、複数のマイク110のそれぞれは音声に応答して音声信号を生成する。このとき、複数のマイク110のそれぞれが配置された位置は互いに異なり得るので、マイク110のそれぞれから生成された音声信号は互いに位相差(または、時間遅延)を有する。
【0027】
通信装置120は、無線通信方式によって外部装置とデータをやり取りする。実施例によって、通信装置120は、多様な周波数の電波を用いて、外部装置とデータをやり取りする。例えば、通信装置120は、近距離無線通信、中距離無線通信、および長距離無線通信の少なくとも一つの無線通信方式によって、外部装置とデータをやり取りする。
【0028】
プロセッサ130は、音声処理装置100の全般的な動作を制御する。実施例によって、プロセッサ130は、演算処理機能を有するプロセッサを含んでもよい。例えば、プロセッサ130は、CPU(central processing unit)、MCU(micro controller unit)、GPU(graphics processing unit)、DSP(digital signal processor)、ADCコンバータ(analog to digital converter)、またはDACコンバータ(digital to analog converter)を含んでもよいが、これに限定されるものではない。
【0029】
プロセッサ130は、マイク110によって生成された音声信号を処理する。例えば、プロセッサ130は、マイク110によって生成されたアナログタイプの音声信号をデジタルタイプの音声信号に変換し、変換されたデジタルタイプの音声信号を処理する。この場合、信号のタイプ(アナログまたはデジタル)が変わるので、本発明の実施例に対する説明において、デジタルタイプの音声信号とアナログタイプの音声信号とを混用して説明するようにする。
【0030】
実施例によって、プロセッサ130は、マイク110によって生成された音声信号を用いて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を抽出(または生成)する。実施例によって、プロセッサ130は、各位置P1~P4に位置した話し手SPK1~SPK4の音声に関連する分離音声信号を生成する。
【0031】
プロセッサ130は、音声信号間の時間遅延(または、位相遅延)を用いて、音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定する。例えば、プロセッサ130は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定する。
【0032】
プロセッサ130は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。例えば、プロセッサ130は、音声の音源位置に基づいて、第1話し手SPK1の音声に関連する第1分離音声信号を生成する。
【0033】
実施例によって、プロセッサ130は、決定された音源位置を示す音源位置情報を分離音声信号とマッチングさせて保存する。例えば、プロセッサ130は、第1話し手SPK1の音声に関連する第1分離音声信号および第1話し手SPK1の音声の音源位置を示す第1音源位置情報をマッチングさせてメモリー140に保存する。
【0034】
本明細書で説明されるプロセッサ130または音声処理装置100の動作は、コンピュータ装置によって実行可能なプログラムの形態で具現することができる。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。
【0035】
メモリー140は、音声処理装置100の動作に必要なデータを保存する。例えば、メモリー140は、不揮発性メモリーおよび揮発性メモリーの少なくとも一つを含む。
【0036】
実施例によって、メモリー140は、空間上の各位置P1~P4に対応した識別子を保存する。識別子は位置P1~P4を区別するためのデータである。位置P1~P4のそれぞれには、話し手SPK1~SPK4のそれぞれが位置するので、位置P1~P4に対応した識別子を用いて話し手SPK1~SPK4のそれぞれを区別することができる。例えば、第1位置P1を示す第1識別子は、すなわち、第1話し手SPK1を示す。
【0037】
識別子は、音声処理装置100の入力装置(例えば、タッチパッド)を通じて入力されてもよい。
【0038】
実施例によって、メモリー140は、話し手SPK1~SPK4のそれぞれの位置に関連する音源位置情報および話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を保存する。
【0039】
図3は、本発明の実施例によるユーザー端末を示す。
図3を参照すると、ユーザー端末200は、入力部210、制御部220、保存部230、および出力部240を含む。
【0040】
入力部210は、ユーザー端末200のユーザーの操作に応答して入力信号を生成する。実施例によって、入力部210は、ユーザーのユーザー端末200に対する操作に基づいて、電気的な信号である入力信号を生成する。例えば、入力部210は、キーボード、タッチパネル、またはタッチディスプレイであってもよいが、これに限定されるものではない。
【0041】
制御部220は、ユーザー端末200の全般的な動作を制御する。実施例によって、制御部220は、演算処理機能を有するプロセッサを含む。例えば、制御部220は、CPU(central processing unit)、MCU(micro controller unit)、AP(application processor)であってもよいが、これに限定されるものではない。
【0042】
制御部220は、音声処理装置100から伝送された分離音声信号が出力されるように、ユーザー端末200を制御する。実施例によって、制御部220は、保存部230に保存されたプログラム(または、アプリケーション)を実行し、実行結果によって、音声処理装置100から伝送された分離音声信号が出力部240を通じて出力されるように、ユーザー端末200を制御する。
【0043】
実施例によって、制御部220は、保存部230に保存されたプログラムの実行によってユーザー端末200が特定の動作を行うようにユーザー端末200を制御する。すなわち、本明細書で説明されるユーザー端末200の動作は、制御部220が保存されたプログラムを実行することによって引き起される動作として理解することができる。
【0044】
保存部230は、ユーザー端末200の動作に必要なデータを保存する。実施例によって、保存部230は、不揮発性メモリーまたは揮発性メモリーであってもよいが、これに限定されるものではない。
【0045】
出力部240は、ユーザー端末200に保存されたデータを出力する。実施例によって、出力部240は、制御部220の制御によって、ユーザー端末200に保存されたデータを聴覚的または視覚的に出力する。例えば、出力部240は、スピーカーまたはディスプレイ装置であってもよいが、本発明の実施例はこれに限定されるものではない。
【0046】
図4~
図6は、本発明の実施例によるモバイル端末機の動作を説明するための図である。
図4~
図6を参照すると、各位置P1~P4に位置した話し手SPK1~SPK4のそれぞれが発話する。
【0047】
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に関連する分離音声信号を生成し、分離音声信号と話し手SPK1~SPK4のそれぞれの位置を示す位置情報とを保存する。
【0048】
実施例によって、音声処理装置100は、音声信号間の時間遅延(または、位相遅延)を用いて、音声の音源位置(すなわち、話し手SPK1~SPK4の位置)を決定する。例えば、音声処理装置100は、音声処理装置100に対する音源(すなわち、話し手SPK1~SPK4)の相対的な位置を決定する。
【0049】
音声処理装置100は、決定された音源位置に基づいて、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。
【0050】
図4に示すように、第1話し手SPK1が音声「AAA」を発話する。音声「AAA」が発話されると、音声処理装置100は、音声「AAA」に応答して、音声「AAA」に関連する音声信号を生成する。実施例によって、音声「AAA」に関連する音声信号には、音声「AAA」以外の騷音に関連する成分も含まれる。
【0051】
実施例によって、音声処理装置100は生成された音声信号を用いて、第1話し手SPK1の音声「AAA」に関連する分離音声信号を生成する。このとき、音声処理装置100は、第1話し手SPK1の音声「AAA」に関連する第1分離音声信号と第1話し手SPK1の位置である第1位置P1を示す第1音源位置情報とをメモリー140に保存する。例えば、
図4に示すように、第1分離音声信号と第1音源位置情報とは互いにマッチングされて保存される。
【0052】
図5に示すように、第2話し手SPK2が音声「BBB」を発話する。音声「BBB」が発話されると、音声処理装置100は、音声「BBB」に応答して、音声「BBB」に関連する音声信号を生成する。
【0053】
実施例によって、音声処理装置100は生成された音声信号を用いて、第2話し手SPK2の音声「BBB」に関連する第2分離音声信号を生成する。このとき、音声処理装置100は、第2話し手SPK2の音声「BBB」に関連する第2分離音声信号と第2話し手SPK2の位置である第2位置P2を示す第2音源位置情報とをメモリー140に保存する。例えば、
図5に示すように、第2分離音声信号と第2音源位置情報とは互いにマッチングされて保存される。
【0054】
図6に示すように、第3話し手SPK3が音声「CCC」を発話し、第4話し手SPK4が音声「DDD」を発話する。音声処理装置100は、音声「CCC」および音声「DDD」に応答して、音声「CCC」および音声「DDD」に関連する音声信号を生成する。すなわち、音声信号は、音声「CCC」および音声「DDD」に関連する成分を含む音声信号である。
【0055】
実施例によって、音声処理装置100は生成された音声信号を用いて、第3話し手SPK3の音声「CCC」に関連する第3分離音声信号および第4話し手SPK4の音声「DDD」に関連する第4分離音声信号を生成する。
【0056】
このとき、音声処理装置100は、第3話し手SPK3の音声「CCC」に関連する第3分離音声信号と第3話し手SPK3の位置である第3位置P3を示す第3位置情報とをメモリー140に保存する。また、音声処理装置100は、第4話し手SPK4の音声「DDD」に関連する第4分離音声信号と第4話し手SPK4の位置である第4位置P4を示す第4位置情報とをメモリー140に保存する。
【0057】
例えば、
図6に示すように、第3分離音声信号と第3音源位置情報とは互いにマッチングされて保存され、第4分離音声信号と第4音源位置情報とは互いにマッチングされて保存される。
【0058】
すなわち、本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声から各話し手SPK1~SPK4の音声に関連する分離音声信号を生成し、分離音声信号と話し手SPK1~SPK4のそれぞれの位置を示す位置情報とを保存する。
【0059】
図7は、本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。
図7を参照して説明されるモバイル端末機の動作方法は、非一時的な保存媒体に保存され、コンピュータ装置によって実行可能なアプリケーション(例えば、音声分離アプリケーション)として具現される。例えば、プロセッサ130は、メモリー140に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の作動を指示する命令語に対応する作動を行う。
【0060】
図7を参照すると、音声処理装置100は、音声に応答して、音声信号を生成する(S110)。実施例によって、音声処理装置100は、空間で感知される音声を電気的な信号である音声信号に変換する。
【0061】
音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を用いて、音声のそれぞれに対する音源位置(すなわち、話し手SPK1~SPK4の位置)を判断する(S120)。実施例によって、音声処理装置100は、話し手SPK1~SPK4の音声のそれぞれに対する音源位置(すなわち、話し手SPK1~SPK4の位置)を示す音源位置情報を生成する。
【0062】
音声処理装置100は、音声のそれぞれに対する音源位置に基づいて、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する(S130)。実施例によって、音声処理装置100は生成された音声信号を、音声のそれぞれに対する音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する。例えば、音声処理装置100は、音声信号に含まれた成分を音源位置に基づいて分離することによって、話し手SPK1~SPK4の音声のそれぞれに関連する分離音声信号を生成する。
【0063】
音声処理装置100は、音源の位置を示す音源位置情報と分離音声信号とを保存する(S140)。実施例によって、音声処理装置100は、音源の位置を示す音源位置情報と、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号とをマッチングさせて保存する。例えば、音声処理装置100は、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号に該当するデータと音源位置情報とをマッチングさせて保存する。
【0064】
実施例によって、本発明の実施例による音声処理装置100(または、プロセッサ130)は、メモリー140に保存されたアプリケーション(例えば、音声分離アプリケーション)を実行することによって、話し手SPK1~SPK4の音声に関連する音声信号から話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成(または、分離)する。
【0065】
図8および
図9は、本発明の実施例による音声処理システムを説明するための図である。
図8および
図9を参照すると、第1話し手SPK1は、「こんにちは」を発話し、第2話し手SPK2は、「はじめまして」を発話し、第4話し手SPK4は、「ようこそ」を発話する。
【0066】
図4~
図7を参照して説明したように、音声処理装置100は、話し手SPK1、SPK3、およびSPK4の音声(「こんにちは」、「はじめまして」、および「ようこそ」)のそれぞれに関連する分離音声信号と話し手SPK1、SPK3、およびSPK4の位置を示す音源位置情報とを互いにマッチングさせてメモリー140に保存する。すなわち、音声処理装置100は、話し手SPK1、SPK3、およびSPK4から発話された音声を分離し、それぞれに関連する分離音声信号を生成する。
【0067】
図9を参照すると、ユーザー端末200は、音声処理装置100から話し手SPK1、SPK3、およびSPK4のそれぞれの音声に関連する分離音声信号を受信し、受信した分離音声信号を視覚的または聴覚的に出力する。
【0068】
本発明の実施例による音声処理システムによると、ユーザー端末200は、話し手SPK1~SPK4のそれぞれに対する(または、音源位置P1~P4のそれぞれに対する)出力モードを設定し、設定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。実施例によって、ユーザー端末200は、話し手SPK1~SPK4のうち、第1話し手の音声は第1モードによって出力し、第2話し手の音声は第1モードとは異なる第2モードで出力する。例えば、ユーザー端末200は、第1話し手の音声は第1モードによって聴覚的に出力し、第2話し手の音声は第2モードによって視覚的に出力する。
【0069】
図9に示すように、ユーザー端末200は、音声処理装置100から話し手SPK1、SPK3、およびSPK4の音声(「こんにちは」、「はじめまして」、および「ようこそ」)のそれぞれに関連する分離音声信号を受信する。
【0070】
ユーザー端末200は、話し手SPK1、SPK3、およびSPK4のそれぞれに対して設定された出力モードによって、第1話し手SPK1の音声「こんにちは」は、ユーザー端末200の表示装置(例えば、ディスプレイ)を通じて字幕で(すなわち、視覚的に)出力し、第3話し手SPK3の音声「はじめまして」と第4話し手SPK4の音声「ようこそ」とは、ユーザー端末200のスピーカーを通じて音で(すなわち、聴覚的に)出力する。したがって、ユーザーは、特定の話し手の音声を所望のモードによって確認することができる。
【0071】
一方、必要な場合、ユーザー端末200は、受信した音声信号の形式を出力モードに適した形式に変換することができる。例えば、音声を視覚的に出力する場合、受信した音声信号をテキストデータに変換する(Speech to Text)。
【0072】
図10は、本発明の実施例による出力モードを説明するための図である。
図10を参照すると、ユーザー端末200は、話し手SPK1~SPK4(または、音源位置P1~P4)のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、ユーザー端末200は、出力モード情報を含むテーブル231を保存する。実施例によって、テーブル231は、ユーザー端末200のユーザーから入力された入力信号によって生成されて保存部230に保存されるが、本発明の実施例はこれに限定されるものではない。
【0073】
ユーザー端末200は、保存部230に保存されたテーブル231を参照して、話し手SPK1~SPK4のそれぞれに対する出力モードを決定し、音声処理装置100から受信した分離音声信号を用いて決定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。
【0074】
実施例によって、ユーザー端末200は、音声処理装置100から分離音声信号を受信し、分離音声信号と対応する音源位置を決定し、決定された音源位置を用いてテーブル231から分離音声信号のそれぞれに対応する出力モードを決定し、決定された出力モードによって話し手SPK1~SPK4のそれぞれの音声を出力する。
【0075】
例えば、
図10に示すように、ユーザー端末200は、第1位置P1の第1話し手SPK1の音声は、第1モードM1によって視覚的に出力し、位置P2、P3、およびP4の話し手SPK2、SPK3、およびSPK4の音声は、第2モードM2によって聴覚的に出力する。
【0076】
一方、本明細書では、音声の出力モードが視覚的または聴覚的方式のいずれか一つであるものと説明したが、本発明の実施例はこれに限定されるものではなく、本発明の実施例による出力モードは互いに異なる方式の多様なモードをいずれも含んでもよい。また、音声を出力しないことも一つの出力モードとして理解されなければならない。
【0077】
図11は、本発明の実施例による出力モードを説明するための図である。
図11を参照すると、音声処理装置100は、話し手SPK1~SPK4(または、音源位置P1~P4)のそれぞれに対応する出力モードに関する出力モード情報を保存する。実施例によって、音声処理装置100は、出力モード情報を含むテーブル141を保存する。実施例によって、テーブル141は、音声処理装置100のユーザーから入力された入力信号によって生成され、メモリー140に保存されるが、本発明の実施例はこれに限定されるものではない。
【0078】
実施例によって、音声処理装置100は、複数のユーザー端末のそれぞれに対して、各音源位置(または、各話し手)別に出力モードを示す出力モード情報を保存する。例えば、
図11に示すように、端末1に対する出力モード情報および端末2に対する出力モード情報を別個に保存する。
【0079】
音声処理装置100は、メモリー140に保存されたテーブル141を参照して、話し手SPK1~SPK4のそれぞれに対する出力モードを決定し、決定された出力モードによって分離音声信号をユーザー端末200に伝送する。実施例によって、音声処理装置100は、決定された出力モードに対応する形式の分離音声信号をユーザー端末200に伝送する。一方、出力モードが「未出力」である場合、音声処理装置100は、当該の分離音声信号を伝送しない。
【0080】
実施例によって、音声処理装置100は、保存された分離音声信号を決定された出力モードに対応する形式に変換し、変換された形式を有する分離音声信号をユーザー端末200に伝送する。例えば、音声処理装置100は、端末1の第1話し手SPK1に対する分離音声信号をテキストデータ形式に変換して伝送し、端末1の第2話し手SPK2に対する分離音声信号は、音声信号形式に変換して伝送するが、これに限定されるものではない。
【0081】
本発明の実施例による音声処理装置100は、話し手SPK1~SPK4の音声に関連する音声信号を生成し、音声信号を処理することによって、話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を生成する。
【0082】
本発明の実施例によると、ユーザー端末200は、音声処理装置100から伝送された話し手SPK1~SPK4のそれぞれの音声に関連する分離音声信号を、話し手SPK1~SPK4のそれぞれに対して設定された出力モードによって出力する。これによって、ユーザーは、一部の話し手の音声のみを聞くか(聴覚的)または観覧(視覚的)することができ、話し手の重要度によって選別的に対話を聞き取りまたは視聴することができるという効果がある。
【0083】
以上のように、本発明が限定された実施例と図面によって説明されているが、当該技術分野における通常の知識を有した者であれば、上記の記載から多様な修正および変形が可能である。例えば、説明された技術が説明された方法と異なる手順で実行されるか、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合または組み合わされるか、他の構成要素または均等物によって代替されるか、置換されても適切な結果が達成できる。
【0084】
したがって、他の具現、他の実施例およびこれらと均等なものなども本発明の技術範囲に属する。
【産業上の利用可能性】
【0085】
本発明は、音声を処理するための音声処理装置、音声処理システムおよび音声処理方法に関するものである。
【符号の説明】
【0086】
100 音声処理装置
110 マイク
120 通信装置
130 プロセッサ
140 メモリー
200 ユーザー端末機(ユーザー端末)
210 入力部
220 制御部
230 保存部
240 出力部
【国際調査報告】