特表2024-526924 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アモセンス・カンパニー・リミテッドの特許一覧

特表2024-526924話し手の音声を処理するための装置および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-19

(54)【発明の名称】話し手の音声を処理するための装置および方法

(51)【国際特許分類】

G10L 15/22 20060101AFI20240711BHJP

G10L 15/00 20130101ALI20240711BHJP

G10L 21/0272 20130101ALI20240711BHJP

G10L 15/20 20060101ALI20240711BHJP

G06F 3/16 20060101ALI20240711BHJP

【ＦＩ】

G10L15/22 453

G10L15/00 200C

G10L15/00 200U

G10L21/0272 100Z

G10L15/20 353

G06F3/16 650

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024503740

(86)(22)【出願日】2022-07-14

(85)【翻訳文提出日】2024-01-19

(86)【国際出願番号】 KR2022010276

(87)【国際公開番号】W WO2023003271

(87)【国際公開日】2023-01-26

(31)【優先権主張番号】10-2021-0094265

(32)【優先日】2021-07-19

(33)【優先権主張国・地域又は機関】KR

(81)【指定国・地域】

(71)【出願人】

【識別番号】504394744

【氏名又は名称】アモセンス・カンパニー・リミテッド

【氏名又は名称原語表記】ＡＭＯＳＥＮＳＥＣＯ．，ＬＴＤ．

【住所又は居所原語表記】（ＣｈｅｏｎａｎｔｈｅｆｏｕｒｔｈＬｏｃａｌＩｎｄｕｓｔｒｉａｌＣｏｍｐｌｅｘ）１９－１Ｂｌｏｃｋ，９０，４ｓａｎｄａｎ５－ｇｉｌ，ｊｉｋｓａｎ－ｅｕｐ，Ｓｅｏｂｕｋ－ｇｕＣｈｅｏｎａｎ－ｓｉ，Ｃｈｕｎｇｃｈｅｏｎｇｎａｍ－ｄｏ３１０４０，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110000051

【氏名又は名称】弁理士法人共生国際特許事務所

(72)【発明者】

【氏名】キム，ジョンミン

(57)【要約】

話し手の音声に対する翻訳結果を生成するように構成された音声処理装置を提供する。
【課題】本発明による音声処理装置は、話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されるマイク、話し手の音声の音源位置に対応する言語を示す位置－言語情報を保存するように構成されるメモリー、音声信号および位置－言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されるプロセッサを含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

話し手の音声に対する翻訳結果を生成するように構成された音声処理装置において、
話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されたマイクと、
話し手の音声の音源位置に対応する言語を示す位置－言語情報を保存するように構成されたメモリーと、
前記音声信号および位置－言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されたプロセッサと、を含むことを特徴とする音声処理装置。

【請求項2】

前記プロセッサは、
前記マイクで生成された音声信号を用いて、話し手の音声の音源位置を決定し、前記決定された音源位置を示す音源位置情報を生成し、
前記音声信号から各音源位置で発話された音声に連関する分離音声信号を生成し、
前記メモリーに保存された位置－言語情報を用いて、話し手の音声の現在の言語を決定し、
前記分離音声信号と決定された現在の言語とを用いて、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成することを特徴とする請求項１に記載の音声処理装置。

【請求項3】

【請求項4】

前記プロセッサは、
前記メモリーに保存された位置－言語情報を用いて、話し手のそれぞれの音声の現在の言語が翻訳される他の言語を決定し、
決定された現在の言語および他の言語によって、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成することを特徴とする請求項２に記載の音声処理装置。

【請求項5】

前記プロセッサは、
話し手の音声に連関する音声信号を用いて、話し手のうち、第１話し手の音声の音源位置を示す第１音源位置情報を生成し、
前記音声信号と前記第１音源位置情報とを用いて、前記第１話し手の音声に連関する第１分離音声信号を生成し、
前記メモリーに保存された位置－言語情報を参照し、前記第１音源位置情報に対応する第１話し手の音声の言語を決定し、
前記メモリーに保存された位置－言語情報を参照し、前記話し手のうち、前記第１話し手を除いた残りの話し手の音声の言語を決定し、
前記第１分離音声信号を用いて、前記第１話し手の音声の言語が残りの話し手の音声の言語に翻訳された翻訳結果を生成することを特徴とする請求項４に記載の音声処理装置。

【請求項6】

前記プロセッサは、
前記分離音声信号を用いて、話し手の音声の現在の言語で表現された話し手のそれぞれの音声内容が含まれた原文議事録を生成することを特徴とする請求項２に記載の音声処理装置。

【請求項7】

前記プロセッサは、
前記翻訳文議事録を生成し、前記翻訳結果をテキスト変換し、テキストデータを前記翻訳文議事録に記録することを特徴とする請求項１に記載の音声処理装置。

【請求項8】

話し手の音声に対する翻訳結果を生成するように構成された音声処理装置を用いた音声処理方法において、
話し手の音声の音源位置に対応する言語を示す位置－言語情報を保存するステップと、
マイクを用いて話し手の音声に連関する音声信号を生成するステップと、
前記音声信号および位置－言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成するステップと、
前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するステップと、を含むことを特徴とする音声処理方法。

【請求項9】

前記翻訳結果を生成するステップは、
前記生成された音声信号を用いて、話し手の音声の音源位置を決定するステップと、
前記決定された音源位置を示す音源位置情報を生成するステップと、
前記音声信号から各音源位置で発話された音声に連関する分離音声信号を生成するステップと、
前記保存された位置－言語情報を用いて、話し手の音声の現在の言語を決定するステップと、
前記分離音声信号と決定された現在の言語とを用いて、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成するステップと、を含むことを特徴とする請求項８に記載の音声処理方法。

【請求項10】

前記マイクは、アレイを成すように配置された複数のマイクを含み、
前記話し手の音声の音源位置を決定するステップは、
前記複数のマイクから生成された複数の音声信号間の時間遅延に基づいて前記音源位置を決定するステップを含むことを特徴とする請求項９に記載の音声処理方法。

【請求項11】

前記翻訳結果を生成するステップは、
前記保存された位置－言語情報を用いて、話し手のそれぞれの音声の現在の言語が翻訳される他の言語を決定するステップと、
前記決定された現在の言語および他の言語によって、話し手の音声の現在の言語が他の言語に翻訳された翻訳結果を生成するステップと、をさらに含むことを特徴とする請求項９に記載の音声処理方法。

【請求項12】

前記翻訳結果を生成するステップは、
話し手の音声に連関する音声信号を用いて、話し手のうち、第１話し手の音声の音源位置を示す第１音源位置情報を生成するステップと、
前記音声信号と前記第１音源位置情報とを用いて、前記第１話し手の音声に連関する第１分離音声信号を生成するステップと、
前記保存された位置－言語情報を参照し、前記第１音源位置情報に対応する第１話し手の音声の言語を決定するステップと、
前記保存された位置－言語情報を参照し、前記話し手のうち、前記第１話し手を除いた残りの話し手の音声の言語を決定するステップと、
前記第１分離音声信号を用いて、前記第１話し手の音声の言語が残りの話し手の音声の言語に翻訳された翻訳結果を生成するステップと、をさらに含むことを特徴とする請求項１１に記載の音声処理方法。

【請求項13】

前記音声処理方法は、
前記分離音声信号を用いて、話し手の音声の現在の言語で表現された話し手のそれぞれの音声内容が含まれた原文議事録を生成するステップをさらに含むことを特徴とする請求項９に記載の音声処理方法。

【請求項14】

前記音声処理方法は、
前記翻訳結果をテキスト変換し、テキストデータを前記翻訳文議事録に記録するステップをさらに含むことを特徴とする請求項８に記載の音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、話し手の音声を処理するための装置および方法に関する。

【背景技術】

【0002】

マイク（ｍｉｃｒｏｐｈｏｎｅ）は、音声を認識し、認識された音声を電気的な信号である音声信号に変換する装置である。会議室や教室のように複数の話し手（ｓｐｅａｋｅｒ）が位置する空間内にマイクが配置される場合、マイクは、複数の話し手からの音声をいずれも受信し、複数の話し手の音声に連関する音声信号を生成する。

【0003】

複数の話し手が同時に発話する場合、個別の話し手の音声のみを示す音声信号を分離することが必要である。また、複数の話し手が互いに異なる言語で発話する場合、複数の話し手の音声を容易に翻訳するためには、複数の話し手の音声の元の言語（すなわち、起点言語）を把握しなければならないが、音声自体の特徴だけで当該音声の言語を把握することは時間が多くかかり、多くのリソースがかかるという問題がある。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、話し手の音声信号を用いて話し手の位置を把握し、音声信号を話し手別に分離および認識可能な音声処理装置および方法を提供することにある。

【0005】

本発明が解決しようとする課題は、話し手の音声から話し手のそれぞれの位置を決定し、決定された位置によって話し手のそれぞれの現在の言語を決定し、決定された現在の言語によって話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を生成可能な音声処理装置および方法を提供することにある。

【0006】

本発明が解決しようとする課題は、話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成可能な音声処理装置および方法を提供することにある。

【課題を解決するための手段】

【0007】

上記課題を解決するためになされた本発明の一態様による音声処理装置は、話し手の音声に対する翻訳結果を生成するように構成され、前記音声処理装置は、話し手の音声に応答して、話し手の音声に連関する音声信号を生成するように構成されたマイク、話し手の音声の音源位置に対応する言語を示す位置－言語情報を保存するように構成されたメモリー、音声信号および位置－言語情報を用いて話し手のそれぞれの音声の言語を翻訳した翻訳結果を生成し、前記翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成するように構成されるプロセッサを含む。

【発明の効果】

【0008】

本発明による音声処理装置および方法によれば、話し手の音声信号を用いて話し手の位置を把握し、音声信号を話し手別に分離および認識することができる効果がある。

【0009】

本発明による音声処理装置および方法によれば、話し手の音声から話し手のそれぞれの位置を決定し、決定された位置によって話し手のそれぞれの現在の言語を決定し、決定された現在の言語によって話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を生成することができる効果がある。

【0010】

本発明による音声処理装置および方法によれば、話し手のそれぞれの音声の現在の言語が他の言語に翻訳された翻訳結果を用いて、他の言語で表現された話し手のそれぞれの音声内容が含まれた翻訳文議事録を生成することができる効果がある。

【図面の簡単な説明】

【0011】

【図1】本発明の実施例による音声処理システムを示す図である。

【図2】本発明の実施例による音声処理装置を示す図である。

【図3】本発明の実施例による音声処理装置の動作を説明するための図である。

【図4】本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。

【図5】本発明の実施例による音声処理装置の翻訳機能を説明するための図である。

【図6】本発明の実施例による音声処理装置の翻訳機能を説明するための図である。

【図7】本発明の実施例による音声処理装置による翻訳結果の生成方法を示すフローチャートである。

【図8】本発明の実施例による音声処理装置の動作を説明するための図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して本発明の実施例を説明する。

【0013】

図１は、本発明の実施例による音声処理システムを示す図である。図１を参照すると、本発明の実施例による音声処理システム１０は、音声処理装置１００および翻訳サーバー２００を含む。

【0014】

音声処理システム１０は、話し手（ｓｐｅａｋｅｒ；ＳＰＫ１～ＳＰＫ４）の音声を分離し、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの分離した音声に対する翻訳を提供することができる。

【0015】

話し手ＳＰＫ１～ＳＰＫ４は、空間（例えば、会議室、車両、講義室など）に位置して音声を発話（ｐｒｏｎｏｕｎｃｅ）する。例えば、第１位置Ｐ１に位置した第１話し手ＳＰＫ１は、第１言語（例えば、韓国語（ＫＲ））で音声を発話し、第２位置Ｐ２に位置した第２話し手ＳＰＫ２は、第２言語（例えば、英語（ＥＮ））で音声を発話し、第３位置Ｐ３に位置した第３話し手ＳＰＫ３は、第３言語（例えば、中国語（ＣＮ））で音声を発話し、第４位置Ｐ４に位置した第４話し手ＳＰＫ４は、第４言語（例えば、日本語（ＪＰ））で音声を発話する。

【0016】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に応答して、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を生成することができる。音声信号は、特定の時間の間発話された音声に連関する信号であって、複数の話し手の音声を示す信号であってもよい。

【0017】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声を話し手ＳＰＫ１～ＳＰＫ４別にそれぞれ分離して認識することができる。複数の話し手ＳＰＫ１～ＳＰＫ４が同時に発話する場合、音声には発話した複数の話し手ＳＰＫ１～ＳＰＫ４の音声がいずれも含まれている。話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声を正確に処理するためには、複数の話し手ＳＰＫ１～ＳＰＫ４の音声がいずれも含まれた音声から各話し手ＳＰＫ～ＳＰＫ４のみの音声を分離することが必要である。

【0018】

本発明の実施例による音声処理装置１００は、複数の話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号から、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれの音源位置を決定し、音源位置に基づいて音源分離を行うことによって、音声信号から話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を抽出（または、生成）することができる。

【0019】

すなわち、音声処理装置１００は、音声の音源位置（すなわち、話し手の位置）に基づいて、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を生成することができる。実施例によって、音声処理装置１００は、音声信号の成分を位置Ｐ１～Ｐ４別に分類し、各位置Ｐ１～Ｐ４に対応する分類された成分を用いて各位置Ｐ１～Ｐ４で発話された音声に連関する分離音声信号を生成することができる。

【0020】

例えば、音声処理装置１００は、音声信号に基づいて、第１位置Ｐ１で発話した第１話し手ＳＰＫ１の音声に連関する第１分離音声信号を生成する。このとき、第１分離音声信号は、話し手ＳＰＫ１～ＳＰＫ４の音声のうち、第１話し手ＳＰＫ１の音声と最も高い連関度を有する音声信号であり得る。言い換えると、第１分離音声信号に含まれた音声成分の中で第１話し手ＳＰＫ１の音声成分の比重が最も高い可能性がある。

【0021】

また、本発明の実施例による音声処理装置１００は、音声信号から話し手ＳＰＫ１～ＳＰＫ４の位置を決定し、話し手ＳＰＫ１～ＳＰＫ４の音声の現在の言語（すなわち、起点言語（ｓｏｕｒｃｅｌａｎｇｕａｇｅ））を、音声信号から決定された話し手ＳＰＫ１～ＳＰＫ４の位置に基づいて決定し、話し手ＳＰＫ１～ＳＰＫ４の音声の言語を他の言語に翻訳した翻訳結果を生成する。

【0022】

一般的に、音声を翻訳するためには、当該音声の現在の言語に対する情報が必要である。しかし、音声自体を解釈して当該音声の現在の言語を把握することには多くのリソースがかかるという問題がある。一方、本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の位置を通じて話し手ＳＰＫ１～ＳＰＫ４の音声の言語（すなわち、起点言語）を決定することができるので、話し手ＳＰＫ１～ＳＰＫ４の音声自体を解釈して言語を決定する必要がなく、翻訳にかかる時間およびリソースが減少する効果がある。

【0023】

本明細書で、音声処理装置１００が翻訳結果を生成するということは、音声処理装置１００に保存されたプログラムの実行によって、音声の言語を翻訳して翻訳結果を生成することだけではなく、音声処理装置１００が外部の翻訳サーバーに翻訳要請を転送し、外部サーバーによって実行される翻訳プログラムから生成された翻訳結果を、翻訳サーバーから受信することを含む。

【0024】

実施例によって、音声処理装置１００は、音声のそれぞれに対する翻訳結果を生成することができる。翻訳結果は、目標言語で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関するテキストデータまたは音声信号であってもよい。

【0025】

翻訳サーバー２００は、言語に対する翻訳を提供することができる。実施例によって、翻訳サーバー２００は、音声処理装置１００から話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を受信し、話し手ＳＰＫ１～ＳＰＫ４の音声が他の言語に翻訳された翻訳結果を音声処理装置１００に提供することができる。

【0026】

翻訳サーバー２００は、自らの演算を通じて翻訳作業を行い、翻訳結果を提供することができるが、これに限定されるものではない。例えば、翻訳サーバー２００は、外部から翻訳結果を入力され、入力された翻訳結果を再び音声処理装置１００に提供することもできる。

【0027】

図１には、音声処理装置１００と翻訳サーバー２００とが分離されて示されているが、実施例によって、音声処理装置１００は、翻訳サーバー２００を含んでもよい。これは、音声処理装置１００は、音声処理装置１００のプロセッサを用いて実行される翻訳プログラムを保存していることも意味する。

【0028】

図２は、本発明の実施例による音声処理装置を示す図である。図２を参照すると、音声処理装置１００は、マイク１１０、通信回路１２０、プロセッサ１３０、およびメモリー１４０を含む。実施例によって、音声処理装置１００は、スピーカー１５０をさらに含んでもよい。

【0029】

マイク１１０は、発生した音声に応答して音声信号を生成することができる。実施例によって、マイク１１０は、音声による空気の振動を検出し、検出結果によって振動に対応する電気的な信号である音声信号を生成することができる。例えば、マイク１１０は、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４の音声を受信し、話し手ＳＰＫ１～ＳＰＫ４の音声を電気的な信号である音声信号に変換することができる。

【0030】

実施例によって、マイク１１０は複数であってもよく、複数のマイク１１０のそれぞれは、音声に応答して音声信号を生成し得る。このとき、複数のマイク１１０のそれぞれが配置された位置は互いに異なることもあるので、マイク１１０のそれぞれから生成された音声信号は互いに位相差（または、時間遅延）を有し得る。

【0031】

一方、本明細書では、音声処理装置１００がマイク１１０を含み、マイク１１０を用いて話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を直接生成するものとして説明するが、実施例によって、マイクは音声処理装置１００と分離されて外部に構成されてもよく、音声処理装置１００は分離されて構成されたマイクから音声信号を受信し、受信した音声信号を処理または用いてもよい。例えば、音声処理装置１００は分離されたマイクから受信した音声信号から分離音声信号を生成することができる。

【0032】

ただし、説明の便宜上、別途の言及がない限り音声処理装置１００がマイク１１０を含むことを仮定して説明する。

【0033】

通信回路１２０は、無線通信方式によって外部装置とデータをやり取りする。実施例によって、通信回路１２０は多様な周波数の電波を用いて、外部装置とデータをやり取りすることができる。例えば、通信回路１２０は、近距離無線通信、中距離無線通信、および長距離無線通信の少なくとも一つの無線通信方式によって、外部装置とデータをやり取りすることができる。

【0034】

プロセッサ１３０は、音声処理装置１００の全般的な動作を制御する。実施例によって、プロセッサ１３０は、演算処理機能を有するプロセッサを含んでもよい。例えば、プロセッサ１３０は、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＭＣＵ（ｍｉｃｒｏｃｏｎｔｒｏｌｌｅｒｕｎｉｔ）、ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＤＳＰ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、ＡＤＣコンバータ（ａｎａｌｏｇｔｏｄｉｇｉｔａｌｃｏｎｖｅｒｔｅｒ）、またはＤＡＣコンバータ（ｄｉｇｉｔａｌｔｏａｎａｌｏｇｃｏｎｖｅｒｔｅｒ）を含んでもよいが、これに限定されるものではない。

【0035】

別途の言及がない限り、本明細書で説明される音声処理装置１００の動作は、プロセッサ１３０の動作として理解することができる。

【0036】

プロセッサ１３０は、マイク１１０によって生成された音声信号を処理する。例えば、プロセッサ１３０は、マイク１１０によって生成されたアナログタイプの音声信号をデジタルタイプの音声信号に変換し、変換されたデジタルタイプの音声信号を処理することができる。この場合、信号のタイプ（アナログまたはデジタル）が変わるので、本発明の実施例に対する説明において、デジタルタイプの音声信号とアナログタイプの音声信号とを混用して説明することにする。

【0037】

実施例によって、プロセッサ１３０は、マイク１１０によって生成された音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を抽出（または、生成）することができる。実施例によって、プロセッサ１３０は、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を生成する。分離音声信号は、音声データまたはテキストデータの形態であってもよい。

【0038】

プロセッサ１３０は、音声信号間の時間遅延（または、位相遅延）を用いて音声の音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を決定することができる。例えば、プロセッサ１３０は、音声処理装置１００に対する音源（すなわち、話し手ＳＰＫ１～ＳＰＫ４）の相対的な位置を決定することができる。

【0039】

プロセッサ１３０は、決定された音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成することができる。実施例によって、プロセッサ１３０は、音声信号の成分を音源位置Ｐ１～Ｐ４別に分類し、各位置Ｐ１～Ｐ４に対応する分類された成分を用いて各音源位置Ｐ１～Ｐ４で発話された音声に連関する分離音声信号を生成することができる。例えば、プロセッサ１３０は、音声の音源位置に基づいて、第１話し手ＳＰＫ１の音声に連関する第１分離音声信号を生成することができる。

【0040】

実施例によって、プロセッサ１３０は、決定された音源位置を示す音源位置情報を、分離音声信号とマッチングさせて保存する。例えば、プロセッサ１３０は、第１話し手ＳＰＫ１の音声に連関する第１分離音声信号および第１話し手ＳＰＫ１の音声の音源位置を示す第１音源位置情報をマッチングさせてメモリー１４０に保存する。すなわち、音源の位置がすぐに話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置に対応するので、音源位置情報は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置を識別するための話し手位置情報として機能し得る。

【0041】

プロセッサ１３０は、音源位置情報を用いて、話し手ＳＰＫ１～ＳＰＫ４の音声の言語（すなわち、起点言語）を決定する。実施例によって、プロセッサ１３０は、話し手ＳＰＫ１～ＳＰＫ４の音声から音源位置情報を決定し、決定された音源位置情報に対応する位置－言語情報を決定することによって、各音声の言語を決定する。このとき、位置－言語情報は、各位置にいる話し手ＳＰＫ１～ＳＰＫ４の言語が何であるのかを示す情報であって、事前に各位置にマッチングされ、メモリー１４０に保存されていてもよい。これについては、後述することにする。

【0042】

プロセッサ１３０は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号に該当する音声の言語を示す情報を、通信回路１２０を用いて翻訳サーバー２００に転送することができる。実施例によって、プロセッサ１３０は、分離音声信号と音声の言語を示す情報とを翻訳サーバー２００に転送するための制御命令を生成する。

【0043】

翻訳サーバー２００は、分離音声信号を用いて話し手の音声の言語を翻訳した翻訳結果を生成することができる。

【0044】

または、実施例によって、プロセッサ１３０は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号と位置－言語情報とを用いて、話し手ＳＰＫ１～ＳＰＫ４の音声を翻訳し、翻訳結果を生成することができる。例えば、プロセッサ１３０は、翻訳プログラムを実行し、翻訳プログラムに話し手の音声に連関する分離音声信号および位置－言語情報を入力として提供することによって、話し手の音声を目標言語に翻訳した翻訳結果を生成する。

【0045】

翻訳結果は、目標言語で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関するテキストデータまたは音声信号をいずれも意味する。

【0046】

実施例によって、プロセッサ１３０は、翻訳結果を用いて話し手ＳＰＫ１～ＳＰＫ４の言語で作成された議事録を生成することができる。例えば、プロセッサ１３０は、分離音声信号を用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対するテキストデータを生成し、各話し手のテキストデータを音声が認識された時点に応じて配置または並べることによって、議事録を生成する。

【0047】

本明細書で説明されるプロセッサ１３０または音声処理装置１００の動作は、コンピューティング装置によって実行可能なプログラムの形態で具現することができる。例えば、プロセッサ１３０は、メモリー１４０に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。

【0048】

メモリー１４０は、音声処理装置１００の動作に必要なデータを保存する。例えば、メモリー１４０は、不揮発性メモリーおよび揮発性メモリーのうちの少なくとも一つを含んでもよい。

【0049】

実施例によって、メモリー１４０は、空間上の各位置Ｐ１～Ｐ４に対応する識別子を保存する。識別子は、位置Ｐ１～Ｐ４を区別するためのデータであってもよい。位置Ｐ１～Ｐ４のそれぞれには話し手ＳＰＫ１～ＳＰＫ４のそれぞれが位置するので、位置Ｐ１～Ｐ４に対応する識別子を用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれを区別することができる。例えば、第１位置Ｐ１を示す第１識別子は、すなわち、第１話し手ＳＰＫ１を示す。このような観点で、空間上の各位置Ｐ１～Ｐ４に対応する識別子は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれを識別するための話し手識別子として機能する。

【0050】

識別子は、音声処理装置１００の入力装置（例えば、タッチパッド）を通じて入力される。

【0051】

実施例によって、メモリー１４０は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置に関連する音源位置情報および話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を保存する。

【0052】

また、メモリー１４０は、話し手ＳＰＫ１～ＳＰＫ４の音声の言語を示す位置－言語情報を保存する。実施例によって、位置－言語情報は、事前に各位置にマッチングされ、メモリー１４０に保存されていてもよい。これについては、後述することにする。

【0053】

スピーカー１５０は、プロセッサ１３０の制御によって振動し、振動によって音声を生成する。実施例によって、スピーカー１５０は、音声信号に対応する振動を形成することによって、音声信号に連関する音声を再生することができる。

【0054】

図３は、本発明の実施例による音声処理装置の動作を説明するための図である。以下、本明細書で説明される音声処理装置１００の動作は、音声処理装置１００に含まれたプロセッサ１３０の制御によって行われる動作として理解することができる。

【0055】

図３を参照すると、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４のそれぞれが発話する。

【0056】

本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声から各話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を生成し、分離音声信号と音源、すなわち、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置を示す音源位置情報を保存することができる。

【0057】

実施例によって、音声処理装置１００は、音声信号間の時間遅延（または、位相遅延）を用いて、音声の音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を決定することができる。例えば、音声処理装置１００は、音声処理装置１００に対する音源（すなわち、話し手ＳＰＫ１～ＳＰＫ４）の相対的な位置を決定する。

【0058】

音声処理装置１００は、決定された音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成することができる。

【0059】

図３に示すように、第１話し手ＳＰＫ１が音声「ＡＡＡ」を発話し、第２話し手ＳＰＫ２が音声「ＢＢＢ」を発話し、第３話し手ＳＰＫ３が音声「ＣＣＣ」を発話し、第４話し手ＳＰＫ４が音声「ＤＤＤ」を発話する。

【0060】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に応答して、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を生成する。このとき、生成された音声信号は、話し手ＳＰＫ１～ＳＰＫ４の音声「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」、および音声「ＤＤＤ」に連関する成分を含む。

【0061】

音声処理装置１００は、生成された音声信号を用いて、第１話し手ＳＰＫ１の音声「ＡＡＡ」に連関する第１分離音声信号、第２話し手ＳＰＫ２の音声「ＢＢＢ」に連関する第２分離音声信号、第３話し手ＳＰＫ３の音声「ＣＣＣ」に連関する第３分離音声信号、および第４話し手ＳＰＫ４の音声「ＤＤＤ」に連関する第４分離音声信号を生成する。

【0062】

このとき、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号と、話し手ＳＰＫ１～ＳＰＫ４の位置（すなわち、音源位置）を示す音源位置情報とをメモリー１４０に保存する。例えば、音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」に連関する第１分離音声信号と、第１話し手ＳＰＫ１の音声の音源位置である第１位置Ｐ１を示す第１位置情報とをメモリー１４０に保存する。例えば、図３に示すように、分離音声信号のそれぞれと音源位置情報とは互いにマッチングされて保存される。

【0063】

すなわち、本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声から各話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を生成し、分離音声信号と話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置を示す位置情報とを保存する。

【0064】

図４は、本発明の実施例による音声処理装置による音声分離方法を示すフローチャートである。図４を参照して説明される音声処理装置の動作方法は、非一時的な記憶媒体に保存され、コンピューティング装置によって実行可能なアプリケーション（例えば、音声分離アプリケーション）として具現することができる。例えば、プロセッサ１３０は、メモリー１４０に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。

【0065】

図４を参照すると、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を受信する（Ｓ１１０）。実施例によって、音声処理装置１００は、空間で感知される音声を電気的な信号である音声信号に変換する。

【0066】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４の位置を決定する（Ｓ１２０）。実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の位置に対応する音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を示す音源位置情報を生成する。

【0067】

音声処理装置１００は、音声のそれぞれに対する音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに連関する分離音声信号を生成する（Ｓ１３０）。実施例によって、音声処理装置１００は、生成された音声信号を、音声のそれぞれに対する音源位置に基づいて分離することによって、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに連関する分離音声信号を生成する。例えば、音声処理装置１００は、音声信号に含まれた成分を音源位置に基づいて分離することによって、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに連関する分離音声信号を生成する。

【0068】

音声処理装置１００は、音源の位置を示す音源位置情報と分離音声信号とを保存する（Ｓ１４０）。実施例によって、音声処理装置１００は、音源の位置を示す音源位置情報と、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号とをマッチングさせて保存する。例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号に該当するデータと音源位置情報とをマッチングさせて保存する。

【0069】

実施例によって、本発明の実施例による音声処理装置１００（または、プロセッサ１３０）は、メモリー１４０に保存されたアプリケーション（例えば、音声分離アプリケーション）を実行することによって、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号から話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成（または、分離）することができる。

【0070】

図５は、本発明の実施例による音声処理装置の翻訳機能を説明するための図である。図５を参照すると、第１話し手ＳＰＫ１は、音声「ＡＡＡ」を韓国語ＫＲで発話し、第２話し手ＳＰＫ２は、音声「ＢＢＢ」を英語ＥＮで発話し、第３話し手ＳＰＫ３は、音声「ＣＣＣ」を中国語ＣＮで発話し、第４話し手ＳＰＫ４は、音声「ＤＤＤ」を日本語ＪＰで発話する。

【0071】

本発明の実施例による音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声から各話し手ＳＰＫ１～ＳＰＫ４の位置を決定し、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成することができる。音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの位置に対応して保存された位置－言語情報を用いて話し手ＳＰＫ１～ＳＰＫ４の音声の言語を決定し、話し手ＳＰＫ１～ＳＰＫ４の音声に対する翻訳を提供することができる。

【0072】

例えば、音声処理装置１００は、第１位置Ｐ１に対応する言語が「ＫＲ」であることを示す第１位置－言語情報をメモリー１４０に保存する。また、音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」に連関する第１分離音声信号、第１話し手ＳＰＫ１の位置である第１位置Ｐ１を示す第１音源位置情報および第１話し手ＳＰＫ１の音声「ＡＡＡ」の言語である韓国語ＫＲを示す第１位置－言語情報をメモリー１４０に保存する。

【0073】

図６は、本発明の実施例による音声処理装置の翻訳機能を説明するための図である。図６を参照すると、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成し、分離音声信号を用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対する翻訳結果を生成することができる。このとき、翻訳結果は、話し手ＳＰＫ１～ＳＰＫ４の音声の言語が他の言語（例えば、目標言語）に変換された結果を示す。

【0074】

例えば、音声処理装置１００は、分離音声信号をテキストデータに変換して（例えば、ＳＴＴ（Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）変換）、変換されたテキストデータに対する翻訳結果を生成し、翻訳結果を音声信号として変換（例えば、ＴＴＳ（Ｔｅｘｔ－ｔｏ－Ｓｐｅｅｃｈ）変換）することができる。すなわち、本明細書で言及される翻訳結果は、目標言語で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関するテキストデータまたは音声信号をいずれも意味する。

【0075】

実施例によって、音声処理装置１００は、生成された翻訳結果を出力することができる。例えば、音声処理装置１００は、生成された翻訳結果をスピーカー１５０を通じて出力するか、または他の外部装置に転送する。

【0076】

図６に示すように、第１話し手ＳＰＫ１は、音声「ＡＡＡ」を韓国語ＫＲで発話する。この場合、第１話し手ＳＰＫ１の音声「ＡＡＡ」の起点言語は、韓国語ＫＲである。

【0077】

音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」に応答して、第１話し手ＳＰＫ１の音源位置（例えば、Ｐ１）を決定し、音源位置に基づいて第１話し手ＳＰＫ１の音声「ＡＡＡ」に連関する第１分離音声信号を生成する。

【0078】

音声処理装置１００は、生成された分離音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４の音声に対する翻訳を提供することができる。実施例によって、音声処理装置１００は、メモリー１４０に保存された位置－言語情報を用いて、各位置Ｐ１～Ｐ４に位置した話し手ＳＰＫ１～ＳＰＫ４によって発話された音声の言語を決定し、決定された言語によって話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声の言語に対する翻訳結果を生成することができる。

【0079】

図６に示すように、音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」の音源位置である第１位置Ｐ１を示す第１音源位置情報を用いて、メモリー１４０から第１位置Ｐ１で発話された音声「ＡＡＡ」の言語が韓国語ＫＲであることを示す第１位置－言語情報をリードする。音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」の言語である韓国語ＫＲを他の言語に翻訳した翻訳結果を生成することができる。

【0080】

実施例によって、音声処理装置１００は、第１話し手ＳＰＫ１の音声「ＡＡＡ」に対する分離音声信号と、音声「ＡＡＡ」の言語が韓国語ＫＲであることを示す情報を用いて音声「ＡＡＡ」の言語を他の言語に翻訳した翻訳結果を生成することができる。

【0081】

このとき、話し手ＳＰＫ１～ＳＰＫ４の音声が翻訳されるべき言語（すなわち、目標言語）は、予め決定されているか、外部ユーザーの入力によって指定されるか、または音声処理装置１００によって設定される。

【0082】

実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の位置に対応する言語を示す位置－言語情報に基づいて、話し手ＳＰＫ１～ＳＰＫ４のうちの一人の話し手の音声の言語を残りの話し手の言語に翻訳した翻訳結果を生成することができる。

【0083】

図６に示すように、音声処理装置１００は、予め保存された位置－言語情報に基づいて、第１位置Ｐ１に位置した第１話し手ＳＰＫ１の音声「ＡＡＡ」が翻訳されるべき言語（すなわち、目標言語）が、第１話し手ＳＰＫ１を除いた残りの話し手ＳＰＫ２～ＳＰＫ４の位置に対応する言語（英語、中国語および日本語）であることを決定する。決定によって、音声処理装置１００は、音声「ＡＡＡ」の言語が英語、中国語、および日本語に翻訳された翻訳結果を生成することができる。

【0084】

すなわち、本発明の実施例による音声処理装置１００は、複数の話し手ＳＰＫ１～ＳＰＫ４が発話している状況で、話し手ＳＰＫ１～ＳＰＫ４の音声から話し手ＳＰＫ１～ＳＰＫ４の位置（すなわち、音源位置）を決定し、決定された位置から各話し手ＳＰＫ１～ＳＰＫ４の言語（起点言語および目標言語）を決定し、決定された言語に基づいて話し手ＳＰＫ１～ＳＰＫ４の音声を翻訳することができる効果がある。

【0085】

実施例によって、音声処理装置１００は、翻訳結果を残りの話し手ＳＰＫ２～ＳＰＫ４に提供することができる。また、実施例によって、音声処理装置１００は、翻訳結果を他の装置（例えば、スピーカー、ディスプレイまたは外部装置）に転送することもできる。

【0086】

図７は、本発明の実施例による音声処理装置による翻訳結果の生成方法を示すフローチャートである。図７を参照して説明される音声処理装置の作動方法は、非一時的な記憶媒体に保存され、コンピューティング装置によって実行可能なアプリケーション（例えば、翻訳アプリケーション）として具現することができる。例えば、プロセッサ１３０は、メモリー１４０に保存されたアプリケーションを実行し、アプリケーションの実行によって特定の動作を指示する命令語に対応する動作を行う。

【0087】

図７を参照すると、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を受信する（Ｓ２１０）。

【0088】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する音声信号を用いて、話し手ＳＰＫ１～ＳＰＫ４の位置を決定する（Ｓ２２０）。実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の位置に対応する音源位置（すなわち、話し手ＳＰＫ１～ＳＰＫ４の位置）を示す音源位置情報を生成する。

【0089】

音声処理装置１００は、音声のそれぞれに対する音源位置に基づいて、話し手ＳＰＫ１～ＳＰＫ４の音声のそれぞれに連関する分離音声信号を生成する（Ｓ２３０）。

【0090】

音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫの位置に基づいて話し手ＳＰＫ１～ＳＰＫ４の音声の言語（すなわち、現在の言語）を決定する（Ｓ２４０）。実施例によって、音声処理装置１００は、決定された音源位置情報と、保存された位置－言語情報とを用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声の言語（すなわち、現在の言語）を決定する（Ｓ２４０）。

【0091】

音声処理装置１００は、決定された音声の言語によって、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対する翻訳結果を生成する（Ｓ２５０）。実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの分離音声信号および話し手ＳＰＫ１～ＳＰＫ４の音声の言語に対する情報を用いて、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対する翻訳結果を生成することができる。

【0092】

例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の位置に対応する言語を示す位置－言語情報に基づいて、話し手ＳＰＫ１～ＳＰＫ４のうちの一人の話し手の音声の言語を残りの話し手の言語に翻訳した翻訳結果を生成することができる。

【0093】

図８は、本発明の実施例による音声処理装置の動作を説明するための図である。図８を参照すると、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を用いて議事録ＭＯＭを生成することができる。

【0094】

議事録ＭＯＭは、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの発話内容を記録したデータであってもよい。例えば、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの発話内容は、時間順に整理して構成することができる。

【0095】

音声処理装置１００は、議事録ＭＯＭを生成し、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を用いて、議事録ＭＯＭに話し手ＳＰＫ１～ＳＰＫ４の発話内容を保存（または、記録）することができる。このとき、音声処理装置１００は、各話し手ＳＰＫ１～ＳＰＫ４の発話内容と各話し手ＳＰＫ１～ＳＰＫ４を識別するための識別子（例えば、名前）などを互いにマッチングさせて記録することができる。したがって、議事録ＭＯＭを通じてどの話し手がどんな内容で発話したのかを確認することができる。

【0096】

実施例によって、議事録ＭＯＭは、テキストデータ、音声データ、またはイメージデータのうちの少なくとも一つで構成されてもよいが、これに限定されるものではない。音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に連関する分離音声信号を処理することによって、議事録ＭＯＭを生成することができる。例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声に応答して、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に連関する分離音声信号を生成し、生成された分離音声信号をテキスト変換して保存することによって、議事録ＭＯＭを生成することができる。

【0097】

本発明の実施例による音声処理装置１００は、元の言語（すなわち、起点言語）で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声の内容を含む議事録（すなわち、原文議事録）だけでなく、他の言語（すなわち、目標言語）で表現された話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声の内容を含む議事録（すなわち、翻訳文議事録）を生成することができる。例えば、第１話し手ＳＰＫ１は、韓国語ＫＲで発話するので、第１話し手ＳＰＫ１の立場では、韓国語議事録ＫＲＭＯＭが原文議事録となり、英語議事録ＥＮＭＯＭ、中国語議事録ＣＮＭＯＭ、および日本語議事録ＪＰＭＯＭが翻訳文議事録となる。

【0098】

実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声に対する分離音声信号を用いて原文議事録を生成し、分離音声信号に対する翻訳結果を用いて話し手ＳＰＫ１～ＳＰＫ４のそれぞれの音声の言語に翻訳された翻訳文議事録ＭＯＭを生成することができる。

【0099】

実施例によって、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声内容が話し手ＳＰＫ１～ＳＰＫ４のうち、第１話し手ＳＰＫ１の言語である韓国語ＫＲで示した韓国語議事録ＫＲＭＯＭを生成することができる。例えば、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４のうち、第１話し手ＳＰＫ１の音声に連関する第１分離音声信号（すなわち、韓国語ＫＲで表現される）と、残りの話し手ＳＰＫ２～ＳＰＫ４の音声の言語が第１話し手ＳＰＫ１の言語である韓国語ＫＲに翻訳された翻訳結果を用いて韓国語議事録ＫＲＭＯＭを生成することができる。同様に、音声処理装置１００は、話し手ＳＰＫ１～ＳＰＫ４の音声内容が残りの話し手ＳＰＫ２～ＳＰＫ４の言語で示した議事録（ＥＮＭＯＭ、ＣＮＭＯＭ、ＪＰＭＯＭ）を生成することができる。

【0100】

図８に示すように、第１位置Ｐ１の第１話し手ＳＰＫ１が音声「ＡＡＡ」を韓国語で発話し、第３位置Ｐ３の第３話し手ＳＰＫ３が音声「ＣＣＣ」を中国語で発話し、第２位置Ｐ２の第２話し手ＳＰＫ２が音声「ＢＢＢ」を英語で発話する。

【0101】

音声処理装置１００は、音声「ＡＡＡ」に応答して、音声「ＡＡＡ」の音源位置である第１位置Ｐ１を決定して音声「ＡＡＡ」に連関する第１分離音声信号を生成する。音声処理装置１００は、位置－言語情報に基づいて音声「ＡＡＡ」の言語（すなわち、起点言語）が韓国語ＫＲであることが決定できる。

【0102】

音声処理装置１００は、音声「ＡＡＡ」に対する第１分離音声信号を用いて韓国語議事録ＫＲＭＯＭを生成することができる。例えば、音声処理装置１００は、韓国語議事録ＫＲＭＯＭを生成し、音声「ＡＡＡ」に対する第１分離音声信号に対応するテキストデータを韓国語議事録ＫＲＭＯＭに記録（または、保存）することができる。すなわち、韓国語議事録ＫＲＭＯＭは、韓国語ＫＲで発話された音声「ＡＡＡ」に対する内容を含んでもよい。

【0103】

音声処理装置１００は、音声「ＡＡＡ」に対する翻訳結果を用いて英語議事録ＥＮＭＯＭ、中国語議事録ＣＮＭＯＭ、および日本語議事録ＪＰＭＯＭを生成することができる。例えば、音声処理装置１００は、英語議事録ＥＮＭＯＭを生成し、音声「ＡＡＡ」の言語が英語ＥＮに翻訳された翻訳結果をテキスト変換し、テキストデータを英語議事録ＥＮＭＯＭに記録（または、保存）することができる。すなわち、英語議事録ＥＮＭＯＭは英語ＥＮで記載された音声「ＡＡＡ」に対する内容を含んでもよい。

【0104】

同様に、音声処理装置１００は、音声「ＣＣＣ」に対する第３分離音声信号を用いて中国語議事録ＣＮＭＯＭに中国語ＣＮで発話された音声「ＣＣＣ」の内容を記録することができ、音声「ＣＣＣ」に対する翻訳結果を用いて他の言語の議事録（ＫＲＭＯＭ、ＥＮＭＯＭ、ＪＰＭＯＭ）に他の言語で発話された音声「ＣＣＣ」の内容を記録することができる。

【0105】

同様に、音声処理装置１００は、音声「ＢＢＢ」に対する第２分離音声信号を用いて英語議事録ＥＮＭＯＭに英語ＥＮで発話された音声「ＢＢＢ」の内容を記録することができ、音声「ＢＢＢ」に対する翻訳結果を用いて他の言語の議事録（ＫＲＭＯＭ、ＣＮＭＯＭ、ＪＰＭＯＭ）に他の言語で発話された音声「ＢＢＢ」の内容を記録することができる。

【0106】

以上のように、本発明の実施例が、限定された実施例と図面によって説明されているが、当該技術分野における通常の知識を有した者であれば、上記の記載から多様な修正および変形が可能である。例えば、説明された技術が説明された方法と異なる順に行われるか、および／または説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合または組み合わせされるか、他の構成要素または均等物によって代替されるか置換されても適切な結果を達成することができる。

【0107】

したがって、他の具現形態、他の実施例および本発明の技術範囲と均等なものなども本発明の範囲に属する。
は

【0108】

本発明は、話し手の音声を処理するための装置および方法に適用できる。

【符号の説明】

【0109】

１０音声処理システム
１００音声処理装置
１１０マイク
１２０通信回路
１３０プロセッサ
１４０メモリー
１５０スピーカー
２００翻訳サーバー

【図1】