(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-12
(45)【発行日】2024-03-21
(54)【発明の名称】マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
(51)【国際特許分類】
G10L 17/00 20130101AFI20240313BHJP
G10L 17/02 20130101ALI20240313BHJP
G10L 17/04 20130101ALI20240313BHJP
G10L 25/78 20130101ALI20240313BHJP
【FI】
G10L17/00 200C
G10L17/02
G10L17/04
G10L25/78
(21)【出願番号】P 2023001000
(22)【出願日】2023-01-06
(62)【分割の表示】P 2020204340の分割
【原出願日】2020-12-09
【審査請求日】2023-01-06
(31)【優先権主張番号】10-2020-0066240
(32)【優先日】2020-06-02
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】523303688
【氏名又は名称】LINE WORKS株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ホ ヒス
(72)【発明者】
【氏名】カン ハンヨン
(72)【発明者】
【氏名】キム ユジン
(72)【発明者】
【氏名】キム ハンギュ
(72)【発明者】
【氏名】ムン ソンギュ
(72)【発明者】
【氏名】イ ボンジン
(72)【発明者】
【氏名】チャン ジョンフン
(72)【発明者】
【氏名】チョン ジュンソン
(72)【発明者】
【氏名】ハン イクサン
(72)【発明者】
【氏名】ホ ジェソン
【審査官】大野 弘
(56)【参考文献】
【文献】特開2013-012059(JP,A)
【文献】特開2011-059500(JP,A)
【文献】特開2018-063313(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00
G10L 17/02
G10L 17/04
G10L 25/78
(57)【特許請求の範囲】
【請求項1】
コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された個別音声ファイルを受信する段階、
前記各電子機器の前記個別音声ファイルに対してエンドポイント検出(EPD)を実行する段階、
前記各電子機器の個別EPD結果を統合してEPDユニオンを生成する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の前記個別音声ファイルに対して計算された個別埋め込み行列に基づいて候補クラスタ数を推定する段階であって、前記個別EPD結果を利用して埋め込み抽出をすることで前記各電子機器の個別埋め込み行列を計算する段階、および前記各電子機器の前記個別埋め込み行列を利用して前記候補クラスタ数と前記個別埋め込み行列の信頼度値を計算する段階を含む、推定する段階、
前記少なくとも1つのプロセッサにより、前記信頼度値に基づいて前記各電子機器の前記候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも1つのプロセッサにより、前記EPDユニオンを利用して埋め込み抽出をすることで計算される前記各電子機器の個別類似度行列を平均した平均類似度行列と前記最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
【請求項2】
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。
【請求項3】
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する段階は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、請求項1に記載の話者ダイアライゼーション方法。
【請求項4】
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項3に記載の話者ダイアライゼーション方法。
【請求項5】
前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項3に記載の話者ダイアライゼーション方法。
【請求項6】
前記推定する段階は、
前記個別EPD結果に対して学習された加重値に基づいて前記個別埋め込み行列に対する加重和を適用する段階
をさらに含む、請求項1~5のうちのいずれか一項に記載の話者ダイアライゼーション方法。
【請求項7】
前記決定する段階は、
前記信頼度値が最も大きい埋め込み行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項1~6のうちのいずれか一項に記載の話者ダイアライゼーション方法。
【請求項8】
請求項1~7のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
【請求項9】
請求項1~7のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
【請求項10】
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
複数の電子機器から各電子機器で録音された個別音声ファイルを受信する過程、
前記各電子機器の前記個別音声ファイルに対してエンドポイント検出(EPD)を実行する過程、
前記各電子機器の個別EPD結果を統合してEPDユニオンを生成する過程、
前記各電子機器の前記個別音声ファイルに対して計算された個別埋め込み行列に基づいて候補クラスタ数を推定する過程であって、前記個別EPD結果を利用して埋め込み抽出をすることで前記各電子機器の個別埋め込み行列を計算する過程、および前記各電子機器の前記個別埋め込み行列を利用して前記候補クラスタ数と前記個別埋め込み行列の信頼度値を計算する過程を含む、推定する過程、
前記信頼度値に基づいて前記各電子機器の前記候補クラスタ数を利用して最終クラスタ数を決定する過程、および
前記EPDユニオンを利用して埋め込み抽出をすることで計算される前記各電子機器の個別類似度行列を平均した平均類似度行列と前記最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行する過程
を処理する、コンピュータシステム。
【請求項11】
前記候補クラスタ数と前記個別埋め込み行列の前記信頼度値を計算する過程は、
前記個別埋め込み行列に対して固有値分解を実行して固有値を抽出する過程、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する過程、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する過程
を含む、請求項10に記載のコンピュータシステム。
【請求項12】
前記残った固有値を利用して前記信頼度値を計算する過程は、
前記残った固有値のうちで最も大きい固有値を前記個別埋め込み行列の前記信頼度値として決定すること
を特徴とする、請求項11に記載のコンピュータシステム。
【請求項13】
前記推定する過程は、
前記個別EPD結果に対して学習された加重値に基づいて前記個別埋め込み行列に対する加重和を適用する過程
をさらに含む、請求項10~12のうちのいずれか一項に記載のコンピュータシステム。
【請求項14】
前記決定する過程は、
前記信頼度値が最も大きい埋め込み行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、請求項10~13のうちのいずれか一項に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、話者ダイアライゼーション(speaker diarization)技術に関する。
【背景技術】
【0002】
話者ダイアライゼーションとは、複数の話者が発声した内容を録音した音声ファイルから話者ごとに発声区間を分割する技術である。
【0003】
話者ダイアライゼーション技術は、オーディオデータから話者境界区間を検出するものであって、話者に対する先行知識の使用の可否によって距離基盤方式とモデル基盤方式とに分けられる。
【0004】
例えば、特許文献1(登録日2018年2月23日)では、話者の音声を認識する環境の変化や話者の発話状態の影響を受けずに、話者の音声に基づいて話者を区分することができる話者認識モデルを生成する技術が開示されている。
【0005】
このような話者ダイアライゼーション技術は、会議、インタビュー、取引、裁判などように複数の話者が一定の順序をもたずに発声する状況において発声内容を話者ごとに分割して自動記録する諸般の技術であって、議事録の自動作成などに活用されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
マルチデバイスによる話者ダイアライゼーション性能を向上させることができる方法およびシステムを提供する。
【0008】
各ユーザが保有している個人機器を活用するマルチデバイス環境で話者ダイアライゼーションを実行することができる方法およびシステムを提供する。
【0009】
信頼度に基づいて話者数(クラスタ数)を推定することができる方法およびシステムを提供する。
【課題を解決するための手段】
【0010】
コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、前記少なくとも1つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、前記少なくとも1つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および前記少なくとも1つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含む、話者ダイアライゼーション方法を提供する。
【0011】
一側面によると、前記受信する段階は、前記各電子機器の前記音声ファイルに対してエンドポイント検出(EPD(end point detection))を実行する段階、および前記各電子機器のEPD結果を統合してEPDユニオン(union)を生成する段階を含んでよい。
【0012】
他の側面によると、前記推定する段階は、前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出することで類似度行列(affinity matrix)を計算する段階、および前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階を含んでよい。
【0013】
また他の側面によると、前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、前記類似度行列に対して固有値分解(eigen decomposition)を実行して固有値(eigenvalue)を抽出する段階、および前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階を含んでよい。
【0014】
また他の側面によると、前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階を含んでよい。
【0015】
また他の側面によると、前記残った固有値を利用して前記信頼度値を計算する段階は、前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定してよい。
【0016】
また他の側面によると、前記残った固有値を利用して前記信頼度値を計算する段階は、前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定してよい。
【0017】
また他の側面によると、前記推定する段階は、前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和(weighted sum)を適用する段階をさらに含んでよい。
【0018】
また他の側面によると、前記決定する段階は、前記信頼度値が最も大きい類似度行列から推定された候補クラスタ数を前記最終クラスタ数として決定してよい。
【0019】
さらに他の側面によると、前記実行する段階は、前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階を含んでよい。
【0020】
前記話者ダイアライゼーション方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。
【0021】
前記話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体を提供する。
【0022】
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、複数の電子機器から各電子機器で録音された音声ファイルを受信する過程、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する過程、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する過程、および前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する過程を処理する、コンピュータシステムを提供する。
【発明の効果】
【0023】
本発明の実施形態によると、マルチデバイスによる話者ダイアライゼーション性能を向上させることができる。
【0024】
本発明の実施形態によると、追加の装備は必要とせず、各ユーザが保有する個人機器を活用するマルチデバイス環境で話者ダイアライゼーションを実行することができる。
【0025】
本発明の実施形態によると、信頼度に基づいて話者数(クラスタ数)をより正確に推定することができる。
【図面の簡単な説明】
【0026】
【
図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。
【
図2】本発明の一実施形態における、コンピュータシステムの内部構成の例を示したブロック図である。
【
図3】本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。
【
図4】本発明の一実施形態における、コンピュータシステムが実行することのできる話者ダイアライゼーション方法の例を示したフローチャートである。
【
図5】本発明の一実施形態における、話者ダイアライゼーションのための全体的な過程の一例を示した図である。
【
図6】本発明の一実施形態における、個別音声ファイルで認識された音声領域を併合する過程を説明するための例示図である。
【
図7】本発明の一実施形態における、個別音声ファイルで認識された音声領域を併合する過程を説明するための例示図である。
【
図8】本発明の一実施形態における、クラスタ数を決定する過程を説明するための例示図である。
【
図9】本発明の一実施形態における、話者ダイアライゼーションクラスタリングを実行する過程を説明するための例示図である。
【発明を実施するための形態】
【0027】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0028】
本発明の実施形態は、オーディオデータから話者境界区間を検出する話者ダイアライゼーション技術に関する。
【0029】
本明細書で具体的に開示される事項を含む実施形態は、マルチデバイスのよる話者ダイアライゼーションを実行することで話者ダイアライゼーション性能を向上させることができ、各ユーザが保有する個人機器を活用することでシステム構築費用を節減することができる。
【0030】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。
図1のネットワーク環境は、複数の電子機器110、120、130、140、サーバ150、およびネットワーク160を含む例を示している。このような
図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が
図1のように限定されることはない。
【0031】
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(Internet of Things)デバイス、VR(Virtual Reality)デバイス、AR(Augmented Reality)デバイスなどがある。一例として、
図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。
【0032】
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0033】
サーバ150は、複数の電子機器110、120、130、140とネットワーク160を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク160を介して接続した複数の電子機器110、120、130、140に目的とするサービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、音声認識を基盤とした人工知能議事録サービスなど)を複数の電子機器110、120、130、140に提供してよい。
【0034】
図2は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。
図1で説明したサーバ150は、
図2のように構成されたコンピュータシステム200によって実現されてよい。
【0035】
図2に示すように、コンピュータシステム200は、本発明の実施形態に係る話者ダイアライゼーション方法を実行するための構成要素として、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。
【0036】
メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータシステム200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム200のメモリ210にロードされてよい。
【0037】
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0038】
通信インタフェース230は、ネットワーク160を介してコンピュータシステム200が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータシステム200の通信インタフェース230を通じてコンピュータシステム200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータシステム200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0039】
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離有線/無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0040】
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータシステム200と1つの装置で構成されてもよい。
【0041】
また、他の実施形態において、コンピュータシステム200は、
図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータシステム200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
【0042】
以下では、マルチデバイスによって話者ダイアライゼーション性能を向上させるための方法およびシステムの具体的な実施形態について説明する。
【0043】
図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、
図4は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
【0044】
本実施形態に係るサーバ150は、話者ダイアライゼーションによって議事録音声ファイルを文書として整理することができる人工知能サービスを提供するサービスプラットフォームの役割をする。
【0045】
サーバ150には、コンピュータシステム200によって実現された話者ダイアライゼーションシステムが構成されてよい。サーバ150は、クライアント(client)である複数の電子機器110、120、130、140を対象とするものであり、電子機器110、120、130、140上にインストールされた専用アプリケーションや、サーバ150と関連するウェブ/モバイルサイトへの接続によって音声認識基盤の人工知能議事録サービスを提供してよい。
【0046】
特に、サーバ150は、各ユーザが保有する個人機器を利用したマルチデバイスによって話者ダイアライゼーション性能を向上させることができる。
【0047】
サーバ150のプロセッサ220は、
図4に係る話者ダイアライゼーション方法を実行するための構成要素として、
図3に示すように、音声統合部310、クラスタ決定部320、およびクラスタリング実行部330を含んでよい。
【0048】
実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
【0049】
このようなプロセッサ220およびプロセッサ220の構成要素は、
図4の話者ダイアライゼーション方法が含む段階410~430を実行するようにサーバ150を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
【0050】
ここで、プロセッサ220の構成要素は、サーバ150に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150が機器別に認識された音声領域を統合するように上述した命令にしたがってサーバ150を制御するプロセッサ220の機能的表現として、音声統合部310が利用されてよい。
【0051】
プロセッサ220は、サーバ150の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階410~430をプロセッサ220が実行するように制御するための命令を含んでよい。
【0052】
以下で説明する段階410~430は、
図4に示したものとは異なる順序で実行されてもよく、段階410~430のうちの一部が省略されるか追加の過程がさらに含まれてもよい。
【0053】
図4を参照すると、段階410で、音声統合部310は、複数の電子機器110、120、130、140を対象として各電子機器から該当の機器で録音された音声ファイル(以下、「個別音声ファイル」とする)を受信し、個別音声ファイルから認識された音声領域を統合してよい。
【0054】
本実施形態は、マルチデバイス基盤の環境で話者ダイアライゼーションを実行するものであって、例えば、会議に参加するユーザそれぞれが保有する個人機器からなる複数の電子機器110、120、130、140を活用してよい。
【0055】
サーバ150と関連する専用アプリケーションやウェブ/モバイルサイトでは、会議への参加を開始するための開始ボタンと、会議の参加を終了するための終了ボタンが含まれてよく、開始ボタンが入力されると同時に、機器で録音される音声をサーバ150にリアルタイムで伝達する機能が含まれてよい。
【0056】
本実施形態は、会議音声を録音してサーバ150に伝達するための装備として追加の装備を必要とせず、会議参加者が会議中に所持しているスマートフォンやタブレットなどのような個人機器を活用してよい。特に、話者ダイアライゼーション性能を向上させるために会議音声を録音してサーバ150に伝達するための装備として、単一の装備ではなく、複数の参加者の個人機器からなるマルチデバイスを活用してよい。
【0057】
音声統合部310は、各電子機器110、120、130、140から個別音声ファイルを受信した後、それぞれの個別音声ファイルから抽出された音声区間を統合する役割を行う。検出される音声領域は機器ごとに異なることがあるため、特定の機器から検出されない音声領域を追加することによって区間の抜けをなくすために各機器の音声区間を統合する。
【0058】
段階420で、クラスタ決定部320は、個別音声ファイルごとに、個別音声ファイルに対して計算された埋め込み行列(以下、「個別埋め込み行列」とする)に基づいて候補クラスタ数を推定した後、個別埋め込み行列の信頼度に基づいて最終クラスタ数を決定してよい。
【0059】
クラスタ決定部320は、各個別音声ファイルに対して独立的にクラスタ数を推定した後、推定されたクラスタ数のうちから最終クラスタ数を決定してよい。
【0060】
特に、クラスタ決定部320は、最終クラスタ数を決定するために個別音声ファイルに対する候補クラスタ数を推定する過程において、信頼度をともに計算してよく、信頼度が最も高い個別音声ファイルで推定された候補クラスタ数を最終クラスタ数として決定してよい。
【0061】
クラスタ数を決定する具体的な過程については、以下でさらに詳しく説明する。
【0062】
段階430で、クラスタリング実行部330は、段階410で統合された音声領域に対して計算された埋め込み行列と、段階420で決定された最終クラスタ数を利用して、話者ダイアライゼーションのためのクラスタリングを実行してよい。
【0063】
クラスタリング実行部330は、各機器の音声ファイルに対する個別埋め込み行列を平均した平均埋め込み行列を求めてよく、平均埋め込み行列と最終クラスタ数に基づいて話者ダイアライゼーションクラスタリングを実行してよい。
【0064】
したがって、本実施形態では、クラスタ数の推定と話者ダイアライゼーションクラスタリングを、同じ埋め込み行列ではなく別の埋め込み行列に基づいて実行することができ、クラスタ数の推定は個別埋め込み行列を利用し、話者ダイアライゼーションクラスタリングは平均埋め込み行列を利用することができる。
【0065】
図5は、本発明の一実施形態における、話者ダイアライゼーションの全体的な過程の一例を示した図である。
【0066】
図5を参照すると、話者ダイアライゼーション過程は、各電子機器110、120、130、140から受信した個別音声ファイルごとに独立的に実行される独立過程と、個別音声ファイルを統合して実行される統合過程とで構成されてよい。
【0067】
音声統合部310は、会議中に会議に参加する複数の参加者の個人機器である電子機器110、120、130、140から、会議参加者の位置で録音された音声ファイル(個別音声ファイル)を受信する(S51)。
【0068】
音声統合部310は、それぞれの個別音声ファイルに対して独立的にEPD(end point detection)過程を実行する(S52)。EPDとは、無音区間に該当するフレームから音響特徴を取り除いた後に、各フレームのエネルギーを測定することによって音声/無音を区分した発声の始めと終わりを探索することを意味する。言い換えれば、音声統合部310は、個別音声ファイルで音声のある領域を探索するEPDを実行する。
【0069】
例えば、
図6に示すように、音声統合部310は、会議参加者の各機器からEPD結果として検出された音声領域601を取得してよい。会議に参加する参加者ごとに位置が異なるため、それぞれ検出される音声領域601も異なるようになる。
【0070】
再び
図5を参照すると、音声統合部310は、会議参加者の各機器のEPD結果を統合してEPDユニオン(union)を生成してよい(S53)。
【0071】
図7に示すように、会議参加者の各機器から検出される音声領域601はすべて異なるため、区間の漏れが発生しないように、各機器のEPD結果を統合してEPDユニオン702を生成してよい。
【0072】
言い換えれば、音声統合部310は、会議参加者の各機器から受信した各個別音声ファイルの各個別EPD結果を1つのEPD結果として統合するのである。
【0073】
再び
図5を参照すると、クラスタ決定部320は、各機器のEPD結果に対して独立的に埋め込み抽出過程を実行する(S54)。
【0074】
クラスタ決定部320は、各機器のEPD結果から埋め込み抽出をすることで個別類似度行列(affinity matrix)を計算した後、各機器の個別類似度行列を利用してクラスタ数を計算する(S55)。
【0075】
このとき、クラスタ決定部320は、クラスタ数とともに、個別類似度行列の信頼度を計算してよい。
【0076】
図8を参照すると、クラスタ決定部320は、各機器の個別音声ファイルごとに計算された個別類似度行列803に対して固有値分解(eigen decomposition)を実行して固有値(eigenvalue)と固有ベクトル(eigenvector)を抽出してよい。
【0077】
このとき、クラスタ決定部320は、個別類似度行列803から抽出された固有値を固有値の大きさ順に整列し、整列された固有値に基づいてクラスタ数804と信頼度値805を決定してよい。
【0078】
クラスタ決定部320は、整列された固有値に隣接する固有値の差を基準に、有効な主成分に該当する固有値の個数をクラスタ数804として決定してよい。固有値が高いということは個別類似度行列803で影響力が大きいことを意味し、すなわち、個別音声ファイル内の音声領域に対して個別類似度行列803を構成するときに、発声がある話者のうちで発声の比重が高いことを意味する。
【0079】
言い換えれば、クラスタ決定部320は、整列された固有値のうちから十分な大きさの値を有する固有値を選択し、選択された固有値の個数を、話者数を示すクラスタ数804として決定してよい。
【0080】
クラスタ数804の決定過程で選択されなかった固有値は、個別類似度行列803に含まれるノイズとして見なされてよく、選択されなかった固有値が小さいほど個別類似度行列803の計算が正確であると判断され、結果的には個別類似度行列803の信頼度が高いと判断されてよい。
【0081】
クラスタ決定部320は、整列された固有値のうち、クラスタ数804の決定過程で選択されずにノイズとして残った固有値を利用して信頼度値805を計算してよい。
【0082】
一例として、クラスタ決定部320は、クラスタ数804の決定過程で選択されなかった固有値のうち、最も大きい固有値を信頼度値805として活用してよい。例えば、整列された固有値のうち、値が高い4つの固有値が有効な主成分の数、すなわち、クラスタ数804として決定された場合、5番目の固有値を信頼度値805として活用してよい。
【0083】
他の例として、クラスタ決定部320は、クラスタ数804の決定過程で選択されなかったすべての固有値の平均を計算した平均固有値を信頼度値805として活用してよい。
【0084】
会議参加者の各機器から検出される音声領域601は異なるという点において、これから計算された個別類似度行列803もすべて異なることがあり、話者数を示すクラスタ数804の結果も異なることがある。
【0085】
機器1の個別音声ファイルでは4人の話者が推定され、機器2の個別音声ファイルでは5人の話者が推定される場合、このように異なる結果を統合するために信頼度を活用するのである。
【0086】
クラスタ決定部320は、各機器の個別類似度行列803を平均した平均類似度行列を利用してクラスタ数804を決定することも可能である。しかし、平均類似度行列を利用する場合には、クラスタ数804を誤って推定するというエラーが発生することがある。
【0087】
類似度行列から計算された固有値のうちから有効な主成分の数を類推してクラスタ数804を推定するため、類似度行列のシャープネス(sharpness)が下がれば性能が下落することもある。
【0088】
したがって、クラスタ数804を決定するあたり、場合によっては、音声ファイルをスムージング(smoothing)した結果(平均類似度行列)よりはシャープネスした結果(各機器の個別類似度行列)を利用する方が、より正確な結果が得られる可能性がある。
【0089】
実施形態によっては、個別類似度行列803の加重和(weighted sum)を適用してよい。
【0090】
個別類似度行列803の区間ごとに信頼度が異なることがあるという点を考慮した上で、個別類似度行列803のすべての区間に同じ加重値を適用して固有値分解を実行するのではなく、EPDとして検出されなかった領域の加重値を低める方向などによって加重値を学習して適用してよい。
【0091】
一例として、個別類似度行列803の区間ごとに加重値をランダムに適用して行列を統合した後、固有値を計算して信頼度を高める方向によって加重値を学習してよい。
【0092】
再び
図5を参照すると、クラスタ決定部320は、各機器の各個別音声ファイルに対して推定されたクラスタ数と信頼度値を統合した後、信頼度に基づいてクラスタ数を最終的に決定してよい(S56)。
【0093】
クラスタ決定部320は、各機器の各個別音声ファイルに対して計算された個別類似度行列のうちで信頼度値が最も高い個別類似度行列として計算されたクラスタ数を、最終クラスタ数として決定してよい。
【0094】
クラスタリング実行部330は、各機器のEPD結果を統合した結果であるEPDユニオンを利用して、独立的にそれぞれ埋め込み抽出をすることで各機器の個別類似度行列を計算してよい(S57)。
【0095】
クラスタリング実行部330は、各機器に対して独立的に計算された個別類似度行列を平均して平均類似度行列を計算した後、平均類似度行列とともに、段階S56で信頼度に基づいて決定されたクラスタ数を利用して話者ダイアライゼーションクラスタリングを実行してよい(S58)。
【0096】
図9に示すように、クラスタリング実行部330は、各機器に対して独立的に計算された個別類似度行列901を平均した平均類似度行列902を計算してよい。
【0097】
一例として、クラスタリング実行部330は、各機器に対して計算された個別類似度行列901に対して行列算術演算(element-wise)を実行して平均類似度行列902を計算してよい。
【0098】
続いて、クラスタリング実行部330は、平均類似度行列902に対して固有値分解を実行し、固有値順に整列された固有ベクトルに基づいてクラスタリングを実行してよい。
【0099】
1つの個別音声ファイルからm個の音声区間が抽出される場合、m×m個のエレメントを含む行列が生成されるが、このとき、各エレメントを示すvi、jは、i番目の音声区間からj番目の音声区間までの距離を意味する。
【0100】
このとき、クラスタリング実行部330は、信頼度に基づいて決定されたクラスタ数だけ固有ベクトルを選択する方式によって話者ダイアライゼーションクラスタリングを実行してよい。
【0101】
話者ダイアライゼーションのための全体過程は、会議中に複数の個人機器で同時に録音された音声ファイルを受信し、各機器の音声ファイルに対してEPDを実行し、EPDが実行されたセグメント(音声領域)単位で埋め込みを抽出してクラスタ数(話者数)を推定した後、推定されたクラスタ数に基づいてクラスタリングを実行する。
【0102】
本実施形態において、話者ダイアライゼーション性能を改善するための過程としては、各機器の個別音声ファイルを利用してEPDユニオンを生成すること、各機器の個別音声ファイルに対して計算された個別埋め込み行列を利用してクラスタ数を推定した後に信頼度に基づいて最終クラスタ数を決定すること、信頼度に基づくクラスタ数と平均類似度行列を利用して話者ダイアライゼーションクラスタリングを実行することが含まれてよい。
【0103】
このように、本発明の実施形態によると、追加の装備は必要とせず、複数の会議参加者が所持している個人機器を活用しながら、マルチデバイスによる話者ダイアライゼーションを実行することができる。
【0104】
本発明の実施形態によると、各機器の音声ファイルからクラスタ数を推定した後、これに対する信頼度に基づいて最終クラスタ数を決定することにより、正確に推定されたクラスタ数によって話者ダイアライゼーション性能を向上させることができる。
【0105】
このように、本実施形態では、マルチデバイスによる話者ダイアライゼーションという新たなタスクを定義することができ、会議参加者それぞれが保有している個人機器を活用するためシステム構築費用を節減することができ、会議を行うための空間をより広い範囲で効率的にカバーすることができる。
【0106】
新たなタスクに合うようにモデルを学習することが最も一般的な接近方式ではあるが、新たなモデルの学習のためには、データの収集、適用する実際の環境、一般化性能などを考慮する必要がある。この反面、本実施形態は、従来の話者ダイアライゼーションモデルをそのまま使用することができ、既にサービスされている話者ダイアライゼーションシステムの場合であっても、モデルを再学習する必要なく、マルチデバイスから会議音声を受信する機能を追加するだけで話者ダイアライゼーション性能を向上させることができる。
【0107】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0108】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0109】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0110】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0111】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【0112】
次の付記を記す。
(付記1) コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも1つのプロセッサにより、複数の電子機器から各電子機器で録音された音声ファイルを受信する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する段階、
前記少なくとも1つのプロセッサにより、前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する段階、および
前記少なくとも1つのプロセッサにより、前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
(付記2) 前記受信する段階は、
前記各電子機器の前記音声ファイルに対してエンドポイント検出(EPD)を実行する段階、および
前記各電子機器のEPD結果を統合してEPDユニオンを生成する段階
を含む、付記1に記載の話者ダイアライゼーション方法。
(付記3) 前記推定する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、付記1に記載の話者ダイアライゼーション方法。
(付記4) 前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、および
前記抽出された固有値を整列した後、隣接する固有値の差に基づいて前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階
を含む、付記3に記載の話者ダイアライゼーション方法。
(付記5) 前記候補クラスタ数と前記類似度行列の信頼度値を計算する段階は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する段階、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する段階
を含む、付記3に記載の話者ダイアライゼーション方法。
(付記6) 前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記5に記載の話者ダイアライゼーション方法。
(付記7) 前記残った固有値を利用して前記信頼度値を計算する段階は、
前記残った固有値の平均を計算した平均値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記5に記載の話者ダイアライゼーション方法。
(付記8) 前記推定する段階は、
前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する段階
をさらに含む、付記3に記載の話者ダイアライゼーション方法。
(付記9) 前記決定する段階は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、付記3に記載の話者ダイアライゼーション方法。
(付記10) 前記実行する段階は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する段階、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する段階
を含む、付記1に記載の話者ダイアライゼーション方法。
(付記11) 付記1~10のうちのいずれか一つに記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
(付記12) 付記1~10のうちのいずれか一つに記載の話者ダイアライゼーション方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
(付記13) コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
複数の電子機器から各電子機器で録音された音声ファイルを受信する過程、
前記各電子機器の前記音声ファイルに対して計算された埋め込み行列に基づいて候補クラスタ数を推定する過程、
前記各電子機器の候補クラスタ数を利用して最終クラスタ数を決定する過程、および
前記最終クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する過程
を処理する、コンピュータシステム。
(付記14) 前記受信する過程は、
前記各電子機器の前記音声ファイルに対してEPDを実行する過程、および
前記各電子機器のEPD結果を統合してEPDユニオンを生成する過程
を含む、付記13に記載のコンピュータシステム。
(付記15) 前記推定する過程は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の前記類似度行列を利用して前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程
を含む、付記13に記載のコンピュータシステム。
(付記16) 前記候補クラスタ数と前記類似度行列の信頼度値を計算する過程は、
前記類似度行列に対して固有値分解を実行して固有値を抽出する過程、
前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数を前記候補クラスタ数として決定する過程、および
前記候補クラスタ数の決定過程で選択されずに残った固有値を利用して前記信頼度値を計算する過程
を含む、付記15に記載のコンピュータシステム。
(付記17) 前記残った固有値を利用して前記信頼度値を計算する過程は、
前記残った固有値のうちで最も大きい固有値を前記類似度行列の信頼度値として決定すること
を特徴とする、付記16に記載のコンピュータシステム。
(付記18) 前記推定する過程は、
前記音声ファイルのEPD結果に対して学習された加重値に基づいて前記類似度行列に対する加重和を適用する過程
をさらに含む、付記15に記載のコンピュータシステム。
(付記19) 前記決定する過程は、
前記信頼度値が最も大きい類似度行列で推定された候補クラスタ数を前記最終クラスタ数として決定すること
を特徴とする、付記15に記載のコンピュータシステム。
(付記20) 前記実行する過程は、
前記各電子機器の前記音声ファイルのEPD結果から埋め込み抽出をすることで類似度行列を計算する過程、および
前記各電子機器の類似度行列を平均し、平均類似度行列と前記最終クラスタ数に基づいて前記話者ダイアライゼーションクラスタリングを実行する過程
を含む、付記13に記載のコンピュータシステム。
【符号の説明】
【0113】
220:プロセッサ
310:音声統合部
320:クラスタ決定部
330:クラスタリング実行部