特許7650132 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック　インテレクチュアル　プロパティ　コーポレーション　オブ　アメリカの特許一覧

特許7650132学習方法、話者識別方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-13

(45)【発行日】2025-03-24

(54)【発明の名称】学習方法、話者識別方法、及び、プログラム

(51)【国際特許分類】

G10L 17/04 20130101AFI20250314BHJP

G10L 17/18 20130101ALI20250314BHJP

G10L 21/003 20130101ALI20250314BHJP

G10L 17/00 20130101ALI20250314BHJP

G06N 3/08 20230101ALI20250314BHJP

【ＦＩ】

G10L17/04

G10L17/18

G10L21/003

G10L17/00 200C

G06N3/08

【請求項の数】 8

(21)【出願番号】P 2020077113

(22)【出願日】2020-04-24

(65)【公開番号】P2021033260

(43)【公開日】2021-03-01

【審査請求日】2023-02-13

(31)【優先権主張番号】62/890,872

(32)【優先日】2019-08-23

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】514136668

【氏名又は名称】パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ

【氏名又は名称原語表記】ＰａｎａｓｏｎｉｃＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙＣｏｒｐｏｒａｔｉｏｎｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】土井美沙貴

(72)【発明者】

【氏名】釜井孝浩

(72)【発明者】

【氏名】板倉光佑

【審査官】佐久聖子

(56)【参考文献】

【文献】国際公開第２０１９／１１６８８９（ＷＯ，Ａ１）

【文献】特開２０１９－２１９５７４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

Ｇ１０Ｌ１３／００－１３／１０

Ｇ１０Ｌ１９／００－９９／００

Ｇ０６Ｎ３／０８

(57)【特許請求の範囲】

【請求項1】

音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、
第１の話者の第１の音声データに対して声質変換処理を行うことで、第２の話者の第２の音声データを生成し、
前記第１の音声データと前記第２の音声データとを学習データとして前記話者識別モデルの学習処理を行い、
さらに、前記声質変換処理を行うことで生成した前記第２の音声データの話者特徴量である第１の話者特徴量と、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データに含まれる発話の話者である前記第１の話者の話者特徴量である第２の話者特徴量とを比較して、前記第１の話者特徴量と、前記第２の話者特徴量との類似度が所定の範囲内であるか否かを判定し、
前記判定において、前記類似度が前記所定の範囲内でないと判定した場合には、前記学習処理では、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データを、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データに含まれる発話の話者である前記第１の話者とは異なる第三者の音声データとして、前記学習処理を行う
学習方法。

【請求項2】

前記声質変換処理は、前記第１の話者の音声データと前記第２の話者の音声データとに基づく処理である、
請求項１に記載の学習方法。

【請求項3】

前記声質変換処理は、前記第１の話者の音声データを入力すると、前記第２の話者の音声データを出力するように予め学習処理を行った声質変換モデルに、前記第１の音声データを入力することで、前記声質変換モデルから前記第２の音声データを出力する処理を含む、
請求項２に記載の学習方法。

【請求項4】

前記声質変換モデルは、ＷＡＶフォーマットの音声データを入力とし、ＷＡＶフォーマットの音声データを出力とする深層ニューラルネットワークを含む、
請求項３に記載の学習方法。

【請求項5】

前記声質変換処理は、前記第１の話者の音声データと第３の話者の音声データとに基づく処理である、
請求項１に記載の学習方法。

【請求項6】

前記話者識別モデルは、音声データに含まれる発話の特徴を示す発話特徴量を入力とし、話者の特徴を示す話者性特徴量を出力する深層ニューラルネットワークを含む、
請求項１に記載の学習方法。

【請求項7】

請求項１に記載の学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる、
話者識別方法。

【請求項8】

コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、
前記処理は、
第１の話者の第１の音声データに対して声質変換処理を行うことで、第２の話者の第２の音声データを生成する第１のステップと、
前記第１の音声データと前記第２の音声データとを学習データとして前記話者識別モデルの学習処理を行う第２のステップと、を含み、
さらに、前記声質変換処理を行うことで生成した前記第２の音声データの話者特徴量である第１の話者特徴量と、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データに含まれる発話の話者である前記第１の話者の話者特徴量である第２の話者特徴量とを比較して、前記第１の話者特徴量と、前記第２の話者特徴量との類似度が所定の範囲内であるか否かを判定する第３のステップを含み、
前記第３のステップにおいて、前記類似度が前記所定の範囲内でないと判定した場合には、前記第２のステップでは、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データを、前記声質変換処理を行うことで前記第２の音声データを生成した元となる前記第１の音声データに含まれる発話の話者である前記第１の話者と異なる第三者の音声データとして、前記学習処理を行う、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、話者を識別する技術に関する。

【背景技術】

【0002】

従来、話者識別モデルを用いて話者を識別する技術が知られている（例えば、非特許文献１参照）。

【先行技術文献】

【非特許文献】

【0003】

【文献】David Snyder, Daniel Garcia-Romero, Gregory Sell, Daniel Povey, Sanjeev Khudanpur, “X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION” ICASSP 2018:5329-5333.

【発明の概要】

【発明が解決しようとする課題】

【0004】

精度よく話者を識別したい。

【課題を解決するための手段】

【0005】

本開示の一態様に係る学習方法は、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習方法であって、第１の話者の第１の音声データに対して声質変換処理を行うことで、第２の話者の第２の音声データを生成し、前記第１の音声データと前記第２の音声データとを学習データとして前記話者識別モデルの学習処理を行う。

【0006】

本開示の一態様に係る話者識別方法は、上記学習方法により予め学習処理を行った前記話者識別モデルに音声データを入力して、前記話者識別モデルに前記話者識別情報を出力させる。

【0007】

本開示の一態様に係るプログラムは、コンピュータに、音声データを入力すると、前記音声データに含まれる発話の話者を識別する話者識別情報を出力する話者識別モデルの学習を行う処理を実行させるためのプログラムであって、前記処理は、第１の話者の第１の音声データに対して声質変換処理を行うことで、第２の話者の第２の音声データを生成する第１のステップと、前記第１の音声データと前記第２の音声データとを学習データとして前記話者識別モデルの学習処理を行う第２のステップと、を含む。

【0008】

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

【発明の効果】

【0009】

本開示に係る学習方法等によると、精度よく話者を識別することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施の形態に係る話者識別装置の構成例を示すブロック図である。

【図2】図２は、実施の形態に係る音声データ保持部が、音声データと話者識別情報とを互いに対応付けて記憶する様子の一例を示す模式図である。

【図3】図３は、実施の形態に係る声質変換部が、一の話者の音声データを、複数の他の話者の音声データに変換して出力する様子を示す模式図である。

【図4】図４は、実施の形態に係る声質変換部の構成例を示すブロック図である。

【図5】図５は、実施の形態に係る話者識別モデル学習処理のフローチャートである。

【図6】図６は、実施の形態に係る声質変換モデル学習処理のフローチャートである。

【図7】図７は、実施の形態に係る話者識別処理のフローチャートである。

【発明を実施するための形態】

【0011】

（本開示の一態様を得るに至った経緯）
話者を識別する識別情報に紐付けされた音声データを学習データとして予め学習処理を行った話者識別モデルを用いて話者を識別する話者識別技術が知られている。

【0012】

従来、学習データの数を増やす（以下、「学習データの数を増やす」ことを「学習データの拡張」とも称する。）ために、オリジナルの学習用音声データに対して、ノイズ付与、残響付与等が行われている。しかしながら、上記従来のノイズ付与、残響付与等による学習データの拡張では、一の話者における発話内容、言語（日本語、英語等）を増やすことはできない。このため、話者識別モデルの学習処理における、発話内容、言語による影響を十分に低減できないことがある。

【0013】

そこで、発明者らは、話者識別モデルを用いて行う話者の識別において、精度よく話者を識別すべく、鋭意検討、実験を重ねた。その結果、発明者らは、下記学習方法等に想到した。

【0014】

【0015】

上記学習方法によると、話者識別モデルの学習処理における学習データの拡張において、第２の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。

【0016】

従って、上記学習方法によると、精度よく話者を識別することができる。

【0017】

また、前記声質変換処理は、前記第１の話者の音声データと前記第２の話者の音声データとに基づく処理であるとしてもよい。

【0018】

また、前記声質変換処理は、前記第１の話者の音声データを入力すると、前記第２の話者の音声データを出力するように予め学習処理を行った声質変換モデルに、前記第１の音声データを入力することで、前記声質変換モデルから前記第２の音声データを出力する処理を含むとしてもよい。

【0019】

また、前記声質変換モデルは、ＷＡＶフォーマットの音声データを入力とし、ＷＡＶフォーマットの音声データを出力とする深層ニューラルネットワークを含むとしてもよい。

【0020】

また、前記声質変換処理は、前記第１の話者の音声データと第３の話者の音声データとに基づく処理であるとしてもよい。

【0021】

また、前記話者識別モデルは、音声データに含まれる発話の特徴を示す発話特徴量を入力とし、話者の特徴を示す話者性特徴量を出力する深層ニューラルネットワークを含むとしてもよい。

【0022】

【0023】

上記話者識別方法によると、話者識別モデルの学習処理における学習データの拡張において、第２の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。

【0024】

従って、上記話者識別方法によると、精度よく話者を識別することができる。

【0025】

【0026】

上記プログラムによると、話者識別モデルの学習処理における学習データの拡張において、第２の話者の音声データの数を、発話内容、言語により制限されることなく増やすことができる。このため、話者識別モデルによる話者の識別の精度を向上することができる。

【0027】

従って、上記プログラムによると、精度よく話者を識別することができる。

【0028】

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

【0029】

以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

【0030】

（実施の形態）
以下、実施の形態に係る話者識別装置について説明する。この話者識別装置は、音声データを取得して、その音声データに含まれる発話の話者を識別する識別情報を出力する。

【0031】

＜構成＞
図１は、実施の形態に係る話者識別装置１の構成例を示すブロック図である。

【0032】

図１に示すように、話者識別装置１は、音声データ拡張部１０と、話者識別モデル２０と、学習部３０と、識別対象音声データ取得部４０とを備える。

【0033】

音声データ拡張部１０は、話者識別モデル２０の学習処理を行うための学習データを拡張する（すなわち、学習データの数を増やす）。音声データ拡張部１０は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、音声データ拡張部１０の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、音声データ拡張部１０は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。

【0034】

図１に示すように、音声データ拡張部１０は、音声データ保持部１１と、第１音声データ取得部１２と、声質変換部１３と、ノイズ残響付与部１４と、第１特徴量算出部１５と、比較部１６と、音声データ保存部１７と、拡張音声データ保持部１８とを有する。

【0035】

学習部３０は、音声データ拡張部１０により拡張された学習データを用いて、話者識別モデル２０の学習処理を行う。学習部３０は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、学習部３０の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、学習部３０は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。

【0036】

図１に示すように、学習部３０は、第２音声データ取得部３１と、第２特徴量算出部３２と、第１学習部３３とを有する。

【0037】

話者識別モデル２０は、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力する。話者識別モデル２０は、例えば、マイクロプロセッサ、メモリ、通信インターフェース等を備えるコンピュータにより実現されてもよい。この場合、話者識別モデル２０の各種機能は、マイクロプロセッサが、メモリに記憶されるプログラムを実行することで実現される。また、話者識別モデル２０は、例えば、互いに通信する複数のコンピュータによる、分散コンピューティング又はクラウドコンピューティングによって実現されてもよい。

【0038】

図１に示すように、話者識別モデル２０は、第３特徴量算出部２１と、深層ニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）２２と、判定部２３とを有する。

【0039】

識別対象音声データ取得部４０は、話者識別モデル２０が行う話者の識別における識別の対象とする音声データを取得する。識別対象音声データ取得部４０は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から音声データを取得してもよい。また、識別対象音声データ取得部４０は、例えば、入出力ポート（例えば、ＵＳＢポート）を有し、入出力ポートに接続された外部記憶装置（例えばＵＳＢメモリ）から音声データを取得してもよい。また、識別対象音声データ取得部４０は、例えば、マイクロフォンを有し、マイクロフォンに入力された音声を電気信号に変換することで音声データを取得してもよい。

【0040】

以下、音声データ拡張部１０を構成する各構成要素について説明する。

【0041】

音声データ保持部１１は、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。

【0042】

図２は、音声データ保持部１１が、音声データと話者識別情報とを互いに対応付けて記憶する様子の一例を示す模式図である。

【0043】

図２に示すように、音声データ保持部１１は、互いに異なる複数の話者識別情報に紐付けされた複数の音声データを記憶する。音声データ保持部１１が記憶する音声データ及び話者識別情報は、話者識別モデル２０の学習処理を行うための学習データとして利用される。

【0044】

再び図１に戻って、話者識別装置１の説明を続ける。

【0045】

音声データ保持部１１は、例えば、外部装置と通信する通信インターフェースを有し、通信インターフェースを介して外部装置から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。また、音声データ保持部１１は、例えば、入出力ポート（例えば、ＵＳＢポート）を有し、入出力ポートに接続された外部記憶装置（例えばＵＳＢメモリ）から取得した音声データ及びその音声データに紐付けされた話者識別情報を記憶するとしてもよい。

【0046】

ここでは、音声データは、ＷＡＶフォーマットであるとして説明する。しかしながら、音声データは、必ずしもＷＡＶフォーマットに限定される必要はなく、例えば、ＡＩＦＦフォーマット、ＡＡＣフォーマット等であっても構わない。

【0047】

第１音声データ取得部１２は、音声データ保持部１１から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。

【0048】

声質変換部１３は、第１音声データ取得部１２により取得された音声データを、その音声データに紐付けされた話者識別情報により識別される話者以外の話者（以下、「他の話者」とも称する）により発話された音声データに変換して出力する。より具体的には、声質変換部１３は、音声データに含まれる発話の周波数成分を変更することで、他の話者により発話された音声データを生成して出力する。

【0049】

声質変換部１３は、一の話者の音声データを、複数の他の話者の音声データに変換して出力することで、互いに話者が異なる一方で同一の発話内容となる複数の音声データを出力することができる。また、声質変換部１３は、一の話者の音声データが日本語による発話を含む音声データである場合には、必ずしも日本語を話すことができない他の話者の日本語による発話を含む音声データに変換することができる。すなわち、声質変換部１３は、変換前の音声データの発話内容、言語に制限されることなく、一の話者の音声データを、複数の他の話者の音声データに変換して出力することができる。

【0050】

図３は、声質変換部１３が、一の話者の音声データを、複数の他の話者の音声データに変換して出力する様子を示す模式図である。

【0051】

図３に示すように、声質変換部１３は、話者識別モデル２０の学習処理を行うための学習データとして利用される音声データの数を、発話内容、言語により制限されることなく増やすことができる。

【0052】

再び図１に戻って、話者識別装置１の説明を続ける。

【0053】

声質変換部１３は、例えば、広く入手可能な従来型の声質変換器により実現されてもよい。また、声質変換部１３は、例えば、第１の話者の音声データを入力すると、第２の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されてもよい。ここでは、声質変換部１３は、第１の話者の音声データを入力すると、第２の話者の音声データを出力するように予め学習処理を行った声質変換モデルを利用することにより実現されるとして説明する。

【0054】

図４は、声質変換部１３の構成例を示すブロック図である。

【0055】

図４に示すように、声質変換部１３は、声質変換学習用データ保持部１３１と、第２学習部１３２と、声質変換モデル１３３とを有する。

【0056】

声質変換モデル１３３は、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第１の話者の音声データを入力すると、話者ペアの他方の話者である第２の話者の音声データを出力するように、及び、第２の話者の音声データを入力すると、第１の話者の音声データを出力するように予め学習処理を行った深層ニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）である。ここでは、一例として、声質変換モデル１３３は、複数の話者ペアのそれぞれについて、第１の話者のＷＡＶフォーマットの音声データを入力すると、第２の話者のＷＡＶフォーマットの音声データを出力するように、及び、第２の話者のＷＡＶフォーマットの音声データを入力すると、第１の話者のＷＡＶフォーマットの音声データを出力するように予め学習処理を行ったｃｙｃｌｅＶＡＥであるとして説明する。しかしながら、声質変換モデル１３３は、複数の話者ペアのそれぞれについて、第１の話者の音声データを入力すると、第２の話者の音声データを出力するように、及び、第２の話者の音声データを入力すると、第１の話者の音声データを出力するように予め学習処理を行ったＤＮＮであれば、必ずしも上記ｃｙｃｌｅＶＡＥに限定される必要はない。

【0057】

声質変換学習用データ保持部１３１は、声質変換モデル１３３の学習処理を行うための学習データを記憶する。より具体的には、声質変換学習用データ保持部１３１は、声質変換モデル１３３が対象とする複数の話者それぞれの音声データ（ここでは、ＷＡＶフォーマットの音声データ）を記憶する。

【0058】

第２学習部１３２は、声質変換学習用データ保持部１３１に記憶される学習用データを用いて、複数の話者ペアのそれぞれについて、話者ペアの一方の話者である第１の話者の音声データを入力すると、話者ペアの他方の話者である第２の話者の音声データを出力するように、及び、第２の話者の音声データを入力すると、第１の話者の音声データを出力するように声質変換モデル１３３の学習処理を行う。

【0059】

再び図１に戻って、話者識別装置１の説明を続ける。

【0060】

ノイズ残響付与部１４は、声質変換部１３から出力される音声データのそれぞれに対して、ノイズ付与（例えば４種類）及び残響付与（例えば１種類）を行い、ノイズ付与後の音声データ及びノイズ付与後の音声データを出力する。これにより、ノイズ残響付与部１４は、音声データの数を更に増やすことができる。

【0061】

第１特徴量算出部１５は、声質変換部１３から出力される音声データと、ノイズ残響付与部１４から出力される音声データとのそれぞれから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第１特徴量算出部１５は、発話特徴量として、話者の声道特性を示すＭＦＣＣ（Ｍｅｌ－ＦｒｅｕｙｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）を算出するとして説明する。しかしながら、第１特徴量算出部１５は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもＭＦＣＣを算出する例に限定される必要はない。第１特徴量算出部１５は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。

【0062】

比較部１６は、第１特徴量算出部１５から出力される話者特徴量（以下、「第１の話者特徴量」とも称する）のそれぞれについて、第１の話者特徴量と、その第１の話者特徴量の算出元となる音声データに含まれる発話の話者の話者特徴量（以下、「第２の話者特徴量」とも称する）とを比較する。

【0063】

比較部１６は、比較の結果、（１）第１の話者特徴量と第２の話者特徴量との類似度が所定の範囲内である場合には、第１の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者を識別する話者識別情報を紐付ける。これにより、比較部１６は、一の話者識別情報に紐付けされた音声データの数を増やすことができる。そして、比較部１６は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。

【0064】

比較部１６は、比較の結果、（２）第１の話者特徴量と第２の話者特徴量との類似度が所定の範囲内でない場合には、第１の話者特徴量の算出元となる音声データに、その音声データに含まれる発話の話者とは異なる第三者を識別する識別情報を紐付ける。これにより、比較部１６は、音声データに紐付けされた話者識別情報の数を増やすことができる。すなわち、比較部１６は、話者識別モデル２０の学習処理を行うための学習データにおける話者の数を増やすことができる。話者の数を増やすことで、後述する話者識別モデル２０の学習処理における過学習を抑制することができる。これにより、話者識別モデル２０の汎化性能を向上させることができる。そして、比較部１６は、音声データと、その音声データに紐付けされた話者識別情報とを出力する。

【0065】

拡張音声データ保持部１８は、音声データ保持部１１と同様に、音声データと、その音声データに紐付けされた、その音声データに含まれる発話の話者を識別する話者識別情報とを、互いに対応付けて記憶する。

【0066】

音声データ保存部１７は、比較部１６から出力される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部１８に記憶させる。また、音声データ保存部１７は、第１音声データ取得部１２により取得される、音声データ及びその音声データに紐付けされた話者識別情報のそれぞれについて、音声データとその音声データに紐付けされた話者識別情報とを互いに対応付けて、拡張音声データ保持部１８に記憶させる。これにより、拡張音声データ保持部１８は、音声データ保持部１１が話者識別モデル２０の学習処理を行うための学習データとして記憶する音声データに加えて、比較部１６から出力された音声データをも、話者識別モデルの学習処理を行うための学習データとして記憶する。

【0067】

以下、話者識別モデル２０を構成する各構成要素について説明する。

【0068】

第３特徴量算出部２１は、識別対象音声データ取得部４０により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第３特徴量算出部２１は、発話特徴量として、話者の声道特性を示すＭＦＣＣを算出するとして説明する。しかしながら、第３特徴量算出部２１は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもＭＦＣＣを算出する例に限定される必要はない。第３特徴量算出部２１は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。

【0069】

深層ニューラルネットワーク２２は、第３特徴量算出部２１により算出される発話特徴量を入力すると、その発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力するように予め学習処理を行った深層ニューラルネットワーク（ＤＮＮ）である。ここでは、一例として、深層ニューラルネットワーク２２は、話者の声道特性を示すＭＦＣＣを入力すると、可変長の発話を固定次元埋め込みにマッピングした発話の音響特徴量であるｘ－Ｖｅｃｔｏｒを話者性特徴量として出力するように予め学習処理を行ったＫａｌｄｉであるとして説明する。しかしながら、深層ニューラルネットワーク２２は、第３特徴量算出部２１により算出される発話特徴量を入力すると、話者の特徴を示す話者性特徴量を出力するように予め学習処理を行ったＤＮＮであれば、必ずしも上記Ｋａｌｄｉに限定される必要はない。なお、ｘ－Ｖｅｃｔｏｒの算出方法等の詳細は、非特許文献１に開示されているため、ここでの詳述を省略する。

【0070】

判定部２３は、深層ニューラルネットワーク２２から出力される話者性特徴量に基づいて、識別対象音声データ取得部４０により取得された音声データに含まれる発話の話者を判定する。より具体的には、判定部２３は、複数の話者のｘ－Ｖｅｃｔｏｒを記憶し、記憶する複数のｘ－Ｖｅｃｔｏｒのうち、深層ニューラルネットワーク２２から出力されるｘ－Ｖｅｃｔｏｒに最も類似するｘ－Ｖｅｃｔｏｒを特定し、特定したｘ－Ｖｅｃｔｏｒの話者を、識別対象音声データ取得部４０により取得された音声データに含まれる発話の話者と判定する。そして、判定部２３は、判定した話者を識別する話者識別情報を出力する。

【0071】

以下、学習部３０を構成する各構成要素について説明する。

【0072】

第２音声データ取得部３１は、拡張音声データ保持部１８から、音声データと、その音声データに紐付けされた話者識別情報とを取得する。

【0073】

第２特徴量算出部３２は、第２音声データ取得部３１により取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する。ここでは、一例として、第２特徴量算出部３２は、発話特徴量として、話者の声道特性を示すＭＦＣＣを算出するとして説明する。しかしながら、第２特徴量算出部３２は、話者の特徴を示す発話特徴量を算出することができれば、必ずしもＭＦＣＣを算出する例に限定される必要はない。第２特徴量算出部３２は、例えば、発話の音声信号にメルフィルタバンクをかけたものを発話特徴量として算出するとしてもよいし、例えば、発話の音声信号のスペクトログラムを発話特徴量として算出するとしてもよい。

【0074】

第１学習部３３は、第２特徴量算出部３２により算出された発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル２０の学習処理を行う。

【0075】

より具体的には、第１学習部３３は、第２特徴量算出部３２により算出されたＭＦＣＣと、そのＭＦＣＣに対応する話者識別情報とを学習データとして、ＭＦＣＣを入力すると、そのＭＦＣＣ算出元となる音声データに含まれる発話の話者の特徴を示すｘ－Ｖｅｃｔｏｒを出力するように深層ニューラルネットワーク２２の学習処理を行う。

【0076】

＜動作＞
上記構成の話者識別装置１は、話者識別モデル学習処理と、声質変換モデル学習処理と、話者識別処理とを行う。

【0077】

以下、これらの処理について、図面を参照しながら順に説明する。

【0078】

図５は、話者識別モデル学習処理のフローチャートである。

【0079】

話者識別モデル学習処理は、話者識別モデル２０の学習処理を行う処理である。

【0080】

話者識別モデル学習処理は、例えば、話者識別装置１を利用するユーザが、話者識別装置１に対して、話者識別モデル学習処理を開始する旨の操作を行うことで開始される。

【0081】

話者識別モデル学習処理が開始されると、第１音声データ取得部１２は、音声データ保持部１１から、一の音声データと、その一の音声データに紐付けされた一の話者識別情報とを取得する（ステップＳ１００）。

【0082】

一の音声データと一の話者識別情報とが取得されると、音声データ保存部１７は、その一の音声データとその一の話者識別情報とを互いに対応付けて、拡張音声データ保持部１８に記憶させる（ステップＳ１１０）。

【0083】

一方で、声質変換部１３は、その一の話者識別情報により識別される話者以外の話者である他の話者の中から一の話者を選択する（ステップＳ１２０）。そして、声質変換部１３は、一の音声データを、その一の話者により発話された音声データに変換して（ステップＳ１３０）出力する。

【0084】

声質変換部１３から音声データが出力されると、ノイズ残響付与部１４は、声質変換部１３から出力された音声データに対して、ノイズ付与及び残響付与を行い（ステップＳ１４０）、１以上の音声データを出力する。

【0085】

ノイズ残響付与部１４から１以上の音声データが出力されると、第１特徴量算出部１５は、声質変換部１３から出力された音声データと、ノイズ残響付与部１４から出力された１以上の音声データとのそれぞれから、発話特徴量を算出する（ステップＳ１５０）。

【0086】

発話特徴量が算出されると、比較部１６は、算出された発話特徴量のそれぞれについて、選択した一の話者の発話特徴量と比較して、算出された発話特徴量と一の話者の発話特徴量との類似度が所定の範囲内であるか否かを判定する（ステップＳ１６０）。

【0087】

比較部１６は、ステップＳ１６０の処理において肯定的に判定した場合に（ステップＳ１６０：Ｙｅｓ）、肯定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者を識別する話者識別情報を紐付けする（ステップＳ１７０）。そして、比較部１６は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。

【0088】

比較部１６は、ステップＳ１６０の処理において否定的に判定した場合に（ステップＳ１６０：Ｎｏ）、否定的に判定した発話特徴量の算出元となる音声データに、選択した一の話者とは異なる第三者を識別する識別情報を紐付けする（ステップＳ１８０）。そして、比較部１６は、その音声データと、その音声データに紐付けされた話者識別情報とを出力する。

【0089】

ステップＳ１６０の処理において比較対象となった全ての発話特徴量に対して、比較部１６によりステップＳ１７０の処理又はステップＳ１８０の処理が実行されると、音声データ保存部１７は、比較部１６から出力された、音声データと、その音声データに紐付けされた話者識別情報とのそれぞれについて、その音声データとその話者識別情報とを互いに対応付けて、拡張音声データ保持部１８に記憶させる（ステップＳ１９０）。

【0090】

ステップＳ１９０の処理が終了すると、声質変換部１３は、他の話者の中に、ステップＳ１２０の処理において選択されていない一の話者（以下、「未選択の話者」とも称する）があるか否かを判定する（ステップＳ２００）。

【0091】

ステップＳ２００の処理において、未選択の話者があると判定された場合に（ステップＳ２００：Ｙｅｓ）、声質変換部１３は、未選択の話者の中から一の話者を選択し（ステップＳ２１０）、ステップＳ１３０の処理に進む。

【0092】

ステップＳ２００の処理において、未選択の話者がないと判定された場合に（ステップＳ２００：Ｎｏ）、第１音声データ取得部１２は、音声データ保持部１１が記憶する音声データのうち、未だ取得していない未取得の音声データがあるか否かを判定する（ステップＳ２２０）。

【0093】

ステップＳ２２０の処理において、未取得の音声データがあると判定された場合に（ステップＳ２２０：Ｙｅｓ）、第１音声データ取得部１２は、未取得の音声データの中から一の音声データを取得して（ステップＳ２３０）、ステップＳ１１０の処理に進む。

【0094】

ステップＳ２２０の処理において、未取得の音声データがないと判定された場合に（ステップＳ２２０：Ｎｏ）、第２音声データ取得部３１は、拡張音声データ保持部１８から、拡張音声データ保持部１８が記憶する全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とを取得する（ステップＳ２４０）。

【0095】

全ての音声データについて、音声データと、その音声データに紐付けされた話者識別情報とが取得されると、第２特徴量算出部３２は、全ての音声データに対して、音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出する（ステップＳ２５０）。

【0096】

全ての音声データに対して、発話特徴量が算出されると、第１学習部３３は、全ての発話特徴量について、発話特徴量と、その発話特徴量の算出元となる音声データに含まれる発話の話者を識別する話者識別情報とを学習データとして、音声データを入力すると、その音声データに含まれる発話の話者を識別する話者識別情報を出力するように話者識別モデル２０の学習処理を行う（ステップＳ２６０）。

【0097】

ステップＳ２６０の処理が終了すると、話者識別装置１は、その話者識別モデル学習処理を終了する。

【0098】

図６は、声質変換モデル学習処理のフローチャートである。

【0099】

声質変換モデル学習処理は、声質変換モデル１３３の学習処理を行う処理である。

【0100】

声質変換モデル学習処理は、例えば、話者識別装置１を利用するユーザが、話者識別装置１に対して、声質変換モデル学習処理を開始する旨の操作を行うことで開始される。

【0101】

声質変換モデル学習処理が開始されると、第２学習部１３２は、声質変換モデル１３３が対象とする複数の話者のうち、一の話者ペアを選択する（ステップＳ３００）。そして、第２学習部１３２は、声質変換学習用データ保持部１３１が保持する学習データのうち、選択中の一の話者ペアを構成する２名の話者それぞれについての学習データを用いて、選択中の一の話者ペアについて、話者ペアの一方の話者である第１の話者の音声データを入力すると、話者ペアの他方の話者である第２の話者の音声データを出力するように、及び、第２の話者の音声データを入力すると、第１の話者の音声データを出力するように声質変換モデル１３３の学習処理を行う（ステップＳ３１０）。

【0102】

第２学習部１３２は、一の話者ペアについて声質変換モデル１３３の学習処理を行うと、声質変換モデル１３３が対象とする複数の話者のうち、未だ選択していない未選択の話者ペアがあるか否かを判定する（ステップＳ３２０）。

【0103】

ステップＳ３２０の処理において、未取得の話者ペアがあると判定された場合に（ステップＳ３２０：Ｙｅｓ）、第２学習部１３２は、未選択の話者ペアの中から一の話者ペアを選択して（ステップＳ３３０）、ステップＳ３１０の処理に進む。

【0104】

ステップＳ３２０の処理において、未取得の話者ペアがないと判定された場合に（ステップＳ３２０：Ｎｏ）、話者識別装置１は、その声質変換モデル学習処理を終了する。

【0105】

図７は、話者識別処理のフローチャートである。

【0106】

話者識別処理は、音声データに含まれる発話の話者を識別する処理である。より具体的には、話者識別処理は、予め学習処理を行った話者識別モデル２０に音声データを入力して、話者識別モデル２０に話者識別情報を出力させる処理である。

【0107】

話者識別処理は、例えば、話者識別装置１を利用するユーザが、話者識別装置１に対して、話者識別処理を開始する旨の操作を行うことで開始される。

【0108】

話者識別処理が開始されると、識別対象音声データ取得部４０は、識別の対象とする音声データを取得する（ステップＳ４００）。

【0109】

音声データが取得されると、第３特徴量算出部２１は、取得された音声データから、その音声データに含まれる発話の特徴を示す発話特徴量を算出し（ステップＳ４１０）、算出した発話特徴量を深層ニューラルネットワーク２２に入力する。すると、深層ニューラルネットワーク２２は、入力された発話特徴量の算出元となる音声データに含まれる発話の話者の特徴を示す話者性特徴量を出力する（ステップＳ４２０）。

【0110】

話者性特徴量が出力されると、判定部２３は、出力された話者性特徴量に基づいて、識別対象音声データ取得部４０により取得された音声データに含まれる発話の話者を判定する（ステップＳ４３０）。そして、判定部２３は、判定した話者を識別する話者識別情報を出力する（ステップＳ４４０）。

【0111】

ステップＳ４４０の処理が終了すると、話者識別装置１は、その話者識別処理を終了する。

【0112】

＜考察＞
上述したように、話者識別装置１は、音声データ保持部１１が記憶する、話者識別モデル２０の学習を行うための学習データを、発話内容、言語により制限されることなく拡張する。そして、拡張した学習データを用いて、話者識別モデル２０の学習処理を行う。このため、話者識別装置１によると、話者識別モデル２０を用いて行う話者の識別精度を向上することができる。従って、話者識別装置１によると、精度よく話者を識別することができる。

【0113】

（補足）
以上、実施の形態に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。

【0114】

例えば、上記実施の形態に係る話者識別装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

【0115】

また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

【0116】

また、本開示は、実施の形態に係る話者識別装置により実行される、話者識別モデルの学習方法として実現されてもよいし、話者識別方法として実現されてもよい。

【0117】

また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

【0118】

また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

【0119】

また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

【0120】

以上、一つまたは複数の態様に係る話者認識装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、各種変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

【産業上の利用可能性】

【0121】

本開示は、話者を識別する装置等に広く利用可能である。

【符号の説明】

【0122】

１話者識別装置
１０音声データ拡張部
１１音声データ保持部
１２第１音声データ取得部
１３声質変換部
１４ノイズ残響付与部
１５第１特徴量算出部
１６比較部
１７音声データ保持部
１８拡張音声データ保持部
２０話者識別モデル
２１第３特徴量算出部
２２深層ニューラルネットワーク
２３判定部
３０学習部
３１第２音声データ取得部
３２第２特徴量算出部
３３第１学習部
４０識別対象音声データ取得部
１３１声質変換学習用データ保持部
１３２第２学習部
１３３音声変換モデル

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版