(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-21
(45)【発行日】2024-10-29
(54)【発明の名称】話者識別装置、方法およびプログラム
(51)【国際特許分類】
G10L 17/04 20130101AFI20241022BHJP
G10L 17/08 20130101ALI20241022BHJP
【FI】
G10L17/04
G10L17/08
(21)【出願番号】P 2023528248
(86)(22)【出願日】2020-12-25
(86)【国際出願番号】 JP2020048744
(87)【国際公開番号】W WO2022137507
(87)【国際公開日】2022-06-30
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】ワン チョンチョン
(72)【発明者】
【氏名】越仲 孝文
【審査官】土井 悠生
(56)【参考文献】
【文献】欧州特許出願公開第03660842(EP,A1)
【文献】米国特許出願公開第2010/0114572(US,A1)
【文献】国際公開第2019/097674(WO,A1)
【文献】国際公開第2016/157642(WO,A1)
【文献】特開2016-180988(JP,A)
【文献】特開2015-212915(JP,A)
【文献】国際公開第2019/187521(WO,A1)
【文献】ZHENG Haishu, et al,Two-stage Decision for Short Utterance Speaker Identification in Mobile Telecommunication Environment,Proc. 2004 IEEE International Conference on Systems, Man and Cybernetics,米国,IEEE,2004年10月10日,pp. 547-551,[online],<DOI: 10.1109/ICSMC.2004.1398356>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択手段と、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト
音声の話者を識別する話者識別手段とを備え
、
前記話者サブセット選択手段は、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、前記音声モデルの複数のサブセットを決定し、決定された各サブセットの前記音声モデルに関する信頼性をそれぞれ計算し、
前記話者識別手段は、前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、前記テスト音声の話者を識別する
ことを特徴とする話者識別装置。
【請求項2】
話者サブセット選択手段は、テスト音声の位置を推定するレシーバーの位置と選択された属性の位置との距離が近いほど信頼性が高くなるように、当該属性に対応するサブセットの信頼性を計算する
請求項
1記載の話者識別装置。
【請求項3】
話者識別手段は、サブセット内の音声モデルと特徴量との類似度を算出し、最も類似度が大きい音声モデルに対応する話者をテスト
音声の話者と識別する
請求項1
または請求項2記載の話者識別装置。
【請求項4】
話者識別手段は、
サブセット内の音声モデルと特徴量との類似度を算出し、サブセットごとに算出された類似度に、当該サブセットの信頼性を加重したスコアを算出し、算出されたスコアが最も大きいサブセット内で決定された音声モデルに対応する話者を、テスト
音声の話者と識別する
請求項
1または請求項2記載の話者識別装置。
【請求項5】
テスト音声の位置を推定するレシーバーから位置を受信する情報受信部と、
受信した位置に基づいて属性を選択する属性選択部とを備え、
話者サブセット選択手段は、選択された前記属性に対応する話者を話者全体のサブセット情報から選択する
請求項1から請求項
4のうちのいずれか1項に記載の話者識別装置。
【請求項6】
テスト音声の特徴量を抽出する特徴抽出手段を備え、
話者識別手段は、抽出された前記特徴量に基づいて、テスト
音声の話者を識別する
請求項1から請求項
5のうちのいずれか1項に記載の話者識別装置。
【請求項7】
話者サブセット選択手段は、位置情報または位置を間接的に
特定可能な情報に基づいて、選択された属性に対応する話者を選択する
請求項1から請求項6のうちのいずれか1項に記載の話者識別装置。
【請求項8】
コンピュータが、位置情報に基づいて選択された
複数の各属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルの
複数のサブセットを決定し、
決定された各サブセットの前記音声モデルに関する信頼性をそれぞれ計算し、
前記コンピュータが、前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから
、当該サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、前記テスト
音声の話者を識別
する
ことを特徴とする話者識別方法。
【請求項9】
コンピュータに、
位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択処理、および、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト
音声の話者を識別する話者識別処理を実行させ
、
前記話者サブセット選択処理で、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、前記音声モデルの複数のサブセットを決定させ、決定された各サブセットの前記音声モデルに関する信頼性をそれぞれ計算させ、
前記話者識別処理で、前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、前記テスト音声の話者を識別させる
ための話者識別プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、検出された発話に基づいて話者を識別する話者識別装置、話者識別方法および話者識別プログラムに関する。
【背景技術】
【0002】
話者識別では、未知の話者からの発話が分析され、既知の話者の音声モデルと比較される。そして、未知の話者は、入力された音声と最もよく一致するモデルを持つ話者として識別される。話者識別は、例えば、テレフォンバンキングや、コールセンターなど、多くのアプリケーションにおいて人的リソースを軽減させることに役立っている。
【0003】
例えば、特許文献1には、話者識別の精度を向上させる音声操作装置が記載されている。特許文献1に記載された装置は、GPS(Global Positioning System)装置から入力したGPS情報を利用して、音声操作装置が配置された位置情報を算出し、その位置情報に応じて、利用者ごとに登録された複数の声質モデルの中から所望の声質モデルを選択する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
一方、話者識別において、意思決定の選択肢の数は、人口の大きさに等しい。そして、識別性能は、母集団の規模が大きくなるにつれて低下する。言い換えると、話者識別の効率および精度は、識別システムに登録されたユーザ数に影響される。
【0006】
そのため、話者識別の効率および精度を改良するためには、話者識別を行うマッチング範囲を絞り込むことが重要である。
【0007】
特許文献1に記載された音声操作装置は、GPS情報を利用して周囲の環境に適した声質モデルを選択する。そのため、環境の条件を絞り込むことで話者識別の精度を向上させることができたとしても、対象者の範囲を絞り込むことは困難なため、話者識別の効率を改良することは難しい。
【0008】
そこで、本開示は、話者識別の効率および精度を向上させることができる話者識別装置、話者識別方法および話者識別プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
話者識別装置は、位置情報に基づいて選択された属性に対応する話者をその話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択手段と、テスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する話者識別手段とを備え、話者サブセット選択手段が、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算し、話者識別手段が、サブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別する。
【0010】
話者識別方法は、コンピュータが、位置情報に基づいて選択された複数の各属性に対応する話者をその話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算し、コンピュータが、テスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットから、そのサブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別することを含む。
【0011】
話者識別プログラムは、コンピュータに、位置情報に基づいて選択された属性に対応する話者をその話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択処理、および、テスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する話者識別処理を実行させ、話者サブセット選択処理で、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定させ、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算させ、話者識別処理で、サブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別させる。
【図面の簡単な説明】
【0012】
【
図1】本開示による話者識別装置の第一の実施形態の構成例を示すブロック図である。
【
図2】テスト
音声と音声モデルとを比較して話者識別を行う一般的な処理の例を示す説明図である。
【
図4】第一の実施形態の話者識別装置が話者識別を行う処理の例を示す説明図である。
【
図5】第一の実施形態の話者識別装置が行う話者識別の方法の例を示す説明図である。
【
図6】第一の実施形態の話者識別装置の動作を示すフローチャートである。
【
図7】本開示による話者識別装置の第二の実施形態の構成例を示すブロック図である。
【
図8】第二の実施形態の話者識別装置が行う話者識別の方法の例を示す説明図である。
【
図9】第二の実施形態の話者識別装置の動作例を示すフローチャートである。
【
図10】本開示による話者識別装置の第一の具体例の構成を示すブロック図である。
【
図11】本開示による話者識別装置の第二の具体例の構成を示すブロック図である。
【
図12】本開示による話者識別装置の第三の具体例の構成を示すブロック図である。
【
図13】本開示による話者識別装置の第四の具体例の構成を示すブロック図である。
【
図14】本開示による話者識別装置の第五の具体例の構成を示すブロック図である。
【
図15】本開示による話者識別装置の概要を示すブロック図である。
【
図16】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0013】
以下、本開示の実施形態を図面を参照して説明する。なお、各ブロック図で示す一方向性の矢印は、情報の流れの方向を端的に示したものであり、双方向性を排除するものではない。
【0014】
実施形態1.
図1は、本開示による話者識別装置の第一の実施形態の構成例を示すブロック図である。第一の実施形態の話者識別装置1は、サブセット検出部10と、特徴抽出部20と、話者識別部30とを備えている。
【0015】
サブセット検出部10は、想定する話者全体の中から、識別候補とする話者のサブセットを検出する機能を有する。すなわち、サブセット検出部10は、話者とのマッチングを行う範囲を絞り込んでいると言える。サブセット検出部10は、情報受信部12と、属性選択部14と、マッピング情報記憶部16と、話者サブセット選択部18とを含む。
【0016】
情報受信部12は、識別の対象とする話者が発する音声(以下、テスト音声と記す。)の位置を推定するレシーバーから情報を受信する。言い換えると、情報受信部12は、識別の候補となる一人以上の話者が存在する領域を識別する情報を取得する。情報受信部12は、経度および緯度を示す位置情報を、例えば、GPSから受信してもよい。
【0017】
他にも、情報受信部12は、例えば、設置された場所に応じた位置情報を送信するレシーバーであるロボット(言い換えると、居場所を検知するセンサを有するロボット)から、その位置情報を受信してもよい。位置情報の例として、建物(例えば、学校、ホテル、店舗、刑務所など)の位置を示す情報や、屋内の部屋(教室、客室、フロア、監房など)の位置を示す情報などが挙げられる。
【0018】
また、位置情報は、直接的に位置を示す情報に限定されず、識別の候補となる話者が存在する位置を間接的に特定可能な情報であってもよい。位置を間接的に特定可能な属性情報として、例えば、講義情報が挙げられる。この講義情報を用いることで、その講義が行われる部屋の位置などを特定することが可能になる。
【0019】
また、例えば、学校の教室のように、同じ教室であっても、時間帯が異なれば講義(属性)も異なるため、識別の対象とする学生(話者)も異なる。そのため、情報受信部12は、位置情報だけでなく、話者識別が行われる時間や時間帯を受信してもよい。
【0020】
属性選択部14は、情報受信部12が受信した位置情報から話者の属性を選択する。ここで、本開示における属性とは、話者の性質を意味する他、所属先や分類を示す意味も含まれる。なお、位置情報と属性との対応付けは、ユーザ等により予め定められ、属性選択部14は、その対応付けに応じて、話者の属性を選択する。
【0021】
例えば、位置情報が刑務所内の位置を示す情報であった場合、属性として、刑務所の囚人が収監されている監房を識別する情報である監房IDが挙げられる。他にも、例えば、位置情報が学校内の位置を示す情報であった場合、属性として、学生が講義を受ける教室を識別する情報である部屋番号が挙げられる。
【0022】
また、情報受信部12から話者識別が行われる時間を受信した場合、属性選択部14は、話者識別が行われる位置(例えば、話者識別装置の位置)と上記時間を考慮して、話者の属性を選択してもよい。
【0023】
マッピング情報記憶部16は、属性と1人以上の話者とを対応付けた情報を記憶する。この情報は、以下、サブセット情報と記すこともある。属性と話者との対応付けは、ユーザ等により予め定められる。なお、本開示におけるサブセット情報とは、候補とする全話者の一部を示す情報であり、属性内の話者の一部を示す情報ではない。
【0024】
例えば、刑務所の全囚人について、サブセット情報は、囚人IDと監房IDとのマッピング情報(対応付けた情報)である。他にも、大学の全学生について、サブセット情報は、学生IDと講義IDとのマッピング情報である。また、ホテルやクルーズ船で隔離されているすべての対象者について、サブセット情報は、対象者と部屋番号とのマッピング情報である。さらに、寮の全学生について、サブセット情報は、学生IDと部屋番号とのマッピング情報である。また、チェーン店においていずれかの店舗に登録されている顧客について、サブセット情報は、顧客IDと店舗IDとのマッピング情報である。
【0025】
なお、ここで例示したサブセット情報は一例であり、マッピング情報記憶部16は、任意のサブセット情報を記憶していればよい。マッピング情報記憶部16は、例えば、磁気ディスク等により実現される。
【0026】
さらに、マッピング情報記憶部16は、話者に対応する音声モデル(参照モデル)を記憶していてもよい。音声モデル(参照モデル)の例として、例えば、GMM(Gaussian Mixture Model)や、i-vector、x-vectorなどが挙げられる。なお、上述する例において、話者は、囚人や学生、対象者、および、顧客である。
【0027】
話者サブセット選択部18は、属性選択部14によって選択された属性に基づいて、マッピング情報記憶部16に記憶されたサブセット情報から話者のサブセットを選択する。また、話者サブセット選択部18は、取得したサブセットに含まれる話者に対応する音声モデルをマッピング情報記憶部16から取得してもよい。
【0028】
なお、音声モデル(参照モデル)がマッピング情報記憶部16ではない外部の記憶部(図示せず)に記憶されている場合、話者サブセット選択部18は、話者に対応する音声モデルをその外部の記憶部から取得してもよい。
【0029】
特徴抽出部20は、テスト音声の特徴量抽出(Feature extraction)を行う。具体的には、特徴抽出部20は、例えば、テスト音声の信号をA/D変換し、変換後のデジタルデータに対して離散フーリエ変換やz変換等を施すことで、音声特徴量を抽出してもよい。特徴抽出部20が特徴量抽出を行う方法は、後述する話者識別部30が話者の識別に用いる特徴量を抽出できる方法であれば、その内容は任意である。特徴抽出部20は、例えば、i-vectorのフレームワークに基づいて特徴量を抽出してもよい。また、特徴抽出部20は、他にも、深層話者埋め込み(Deep speaker embedding)や、x-vectorの方式に基づいて特徴量を抽出してもよい。
【0030】
話者識別部30は、抽出された特徴量に基づいて、話者識別を行う。具体的には、話者識別部30は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する。特徴量に基づく話者識別の方法は任意である。
【0031】
例えば、i-vectorのフレームワークに基づいて特徴量が抽出される場合、話者識別部30は、音声モデル(参照モデル)としてi-vectorを用い、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)により類似度計算を行ってもよい。具体的には、話者識別部30は、サブセット内の音声モデルと特徴量との類似度を算出する。そして、話者識別部30は、最も類似度が高い音声モデルに対応する話者を、テスト音声の話者と識別してもよい。
【0032】
図2は、テスト
音声と音声モデルとを比較して話者識別を行う一般的な処理の例を示す説明図である。また、
図3は、話者識別の方法の例を示す説明図である。
図2に例示する処理は、全話者N人の音声モデルと、テスト
音声21とをそれぞれ一対一でN回比較する処理を示す。具体的には、
図3に例示するように、特徴抽出部20がテスト
音声21から特徴量を抽出すると、話者識別部30が、発話と各話者の音声モデルとの類似度を算出する。そして、話者識別部30は、対象とする話者の中から、最も高い類似度が高い話者(話者ID)を識別結果として選択する。
【0033】
図4は、本実施形態の話者識別装置が話者識別を行う処理の例を示す説明図である。
図4に示す例では、対象とする全話者N人のうち、話者4人のサブセットの音声モデルとテスト
音声とが比較されていることを示す。なお、
図4では、サブセット4人の話者が連続している例を示しているが、必ずしも話者が連続している必要はない。すなわち、話者サブセット選択部18は、テスト音声が識別される音声モデルを複数まとめて1つのサブセットを決定すればよい。
【0034】
例えば、刑務所に収監された囚人の数が数百人存在したとしても、1つの監房に収容されている囚人の数は、高々数人である。すなわち、全体の話者の人数Nに対し、サブセットの話者の人数Mは、M<<Nであると言える。
【0035】
図5は、本実施形態の話者識別装置が行う話者識別の方法の例を示す説明図である。
図5に例示するように、本実施形態では、話者識別部30が、話者のサブセットの音声モデルを用いて、各話者の音声モデルと発話との類似度を算出し、最も類似度が高い話者(話者ID)を識別結果として選択する。このように、話者の候補を絞り込むことで、テスト
音声と比較する話者の音声モデルとを比較する回数を大幅に低減できるため、話者識別の効率化および精度を向上させることが可能になる。
【0036】
サブセット検出部10(より具体的には、情報受信部12と、属性選択部14と、話者サブセット選択部18)とは、プログラム(話者識別プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、話者識別装置1が備える記憶媒体(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、サブセット検出部10(より具体的には、情報受信部12と、属性選択部14と、話者サブセット選択部18)として動作してもよい。また、話者識別装置1の機能がSaaS(Software as a Service )形式で提供されてもよい。
【0037】
また、サブセット検出部10(より具体的には、情報受信部12と、属性選択部14と、話者サブセット選択部18)とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
【0038】
また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0039】
次に、本実施形態の話者識別装置の動作を説明する。
図6は、本実施形態の話者識別装置1の動作例を示すフローチャートである。
【0040】
情報受信部12は、識別対象とする話者に関する位置情報を受信する(ステップS11)。属性選択部14は、受信した位置情報から話者の属性を選択する(ステップS12)。そして、話者サブセット選択部18は、選択された属性に対応する話者をマッピング情報記憶部16に記憶されたサブセット情報から選択して、テスト音声の識別に用いられる音声モデルのサブセットを決定する(ステップS13)。
【0041】
一方、特徴抽出部20は、識別対象とする話者が発する音声(すなわち、テスト音声)の特徴量抽出を行う(ステップS14)。そして、話者識別部30は、特徴抽出部20によってテスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する(ステップS15)。
【0042】
以上のように、本実施形態では、サブセット検出部(より具体的には、話者サブセット選択部18)が、位置情報に基づいて選択された属性に対応する話者を全話者のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する。そして、話者識別部30は、特徴抽出部20によってテスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する。よって、話者識別の効率および精度を向上させることができる。
【0043】
実施形態2.
次に、本実施形態の話者識別装置の第二の実施形態を説明する。第一の実施形態では、サブセットを選択する形式が、1つのサブセットに基づくいわゆる決定論的(逐次的)である場合について説明した。本実施形態では、サブセットを選択する形式が、複数のサブセットに基づくいわゆる確率論的(連続的)である場合について説明する。
【0044】
図7は、本開示による話者識別装置の第二の実施形態の構成例を示すブロック図である。第二の実施形態の話者識別装置2は、サブセット検出部40と、特徴抽出部20と、話者識別部50とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0045】
サブセット検出部40は、情報受信部12と、属性選択部44と、マッピング情報記憶部16と、話者サブセット選択部48とを含む。情報受信部12およびマッピング情報記憶部16の内容は、第一の実施形態と同様である。
【0046】
属性選択部44は、第一の実施形態の属性選択部14と同様、情報受信部12が受信した位置情報から話者の属性を選択する。本実施形態の属性選択部44は、1以上の属性を選択する。複数の属性を選択する状況として、例えば、位置情報から複数の属性の可能性があり、属性が一意に決定できない状況が挙げられる。例えば、刑務所において、位置情報から複数の監房IDが推定可能な状況、などである。
【0047】
話者サブセット選択部48は、属性選択部44によって選択された属性に基づいて、マッピング情報記憶部16に記憶されたサブセット情報から複数の話者のサブセットを選択する。具体的には、話者サブセット選択部48は、複数の属性それぞれに応じた話者のサブセットをマッピング情報記憶部16から取得する。また、第一の実施形態と同様、話者サブセット選択部48は、取得したサブセットに含まれる話者に対応する音声モデルをマッピング情報記憶部16から取得してもよく、外部の記憶部から取得してもよい。
【0048】
さらに、本実施形態の話者サブセット選択部48は、各サブセットの音声モデルに関する信頼性を合わせて計算する。各サブセットの音声モデルに関する信頼性は、予め計算されて保持されていてもよく、話者サブセット選択部48によって逐次計算されてもよい。
【0049】
各サブセットの音声モデルに関する信頼性は、サブセットに含まれる音声モデルが話者の特徴をより適切に表現しているほど高く設定される値であり、予め定められた基準に基づいて算出される値である。また、本実施形態における信頼性は、音声モデルそのものの信頼性だけでなく、位置情報に基づいて選択された属性(すなわち、サブセット)の信頼性も含む。これは、選択された属性自体の信頼性が高ければ、その属性のサブセットに対応する音声モデルも、対象とする話者を含む信頼性が高いと言えるからである。
【0050】
音声モデルそのものの信頼性は、例えば、各モデルの生成過程で算出された尤度や確率等が使用されればよい。例えば、静かな環境で取得された音声データに基づいて生成されたモデルの信頼性が高く算出され、騒音の多い環境で取得された音声データに基づいて生成されたモデルの信頼性を低く算出されてもよい。
【0051】
また、複数のサブセットの候補が存在する場合、各サブセットの信頼性を、全体のサブセットの信頼性に対する個々の信頼性の比で定義してもよい。以下、位置情報を事前情報として使用する場合に信頼度を算出する方法の一例を説明する。位置情報に基づいて選択された属性の信頼性を算出する方法として、距離や時間を使用する方法が挙げられる。話者識別において、遠くに存在する対象ほど、また、識別対象の存在し得る時間と離れているほど、識別精度は低くなると考えられるからである。
【0052】
例えば、テスト音声の位置を推定するレシーバーから得られる位置(例えば、ロボットの位置)と、対象とする各属性i(例えば、各監房)が存在する位置との距離をdiとすると、各属性iのサブセットの信頼性riは、以下に例示する式1で算出できる。なお、式1におけるbは、予め定められる値である。
【0053】
【0054】
このように、話者サブセット選択部48は、テスト音声の位置を推定するレシーバーの位置と、選択された属性の位置との距離が近いほど信頼性が高くなるように、その属性に対応するサブセットの信頼性を計算してもよい。
【0055】
話者識別部50は、第一の実施形態の話者識別部30と同様、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の話者を識別する。本実施形態の話者識別部50は、計算されたサブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別する。
【0056】
具体的には、話者識別部50は、サブセットごとに、類似度が最大になる音声モデルを決定する。次に、話者識別部50は、信頼性を類似度に加重したスコアをサブセットごとに算出する。そして、話者識別部50は、算出されたスコアが最も大きいサブセットで決定された音声モデルに対応する話者を、テスト音声の話者と識別する。
【0057】
図8は、本実施形態の話者識別装置が行う話者識別の方法の例を示す説明図である。第一の実施形態と同様、話者識別部50が、各サブセットKの音声モデルM
Kを用いて、各話者の音声モデルと発話との類似度を算出し、最も類似度が高い話者(話者ID)を識別結果としてそれぞれ選択する。さらに、話者識別部50は、サブセットごとに算出された類似度に、それぞれのサブセットの信頼性を加重したスコアを算出し、算出されたスコアが最も大きいサブセットで決定された音声モデルに対応する話者を、テスト
音声の話者と識別する。
【0058】
このように、複数のサブセットの候補が存在する場合であっても、各サブセットの信頼性に基づいて話者を識別するため、話者識別の精度をより向上させることが可能になる。
【0059】
サブセット検出部40(より具体的には、情報受信部12と、属性選択部44と、話者サブセット選択部48)とは、プログラム(話者識別プログラム)に従って動作するコンピュータのCPUによって実現される。
【0060】
次に、本実施形態の話者識別装置の動作を説明する。
図9は、本実施形態の話者識別装置2の動作例を示すフローチャートである。
【0061】
位置情報を受信する処理は、
図6に例示するステップS11と同様である。属性選択部44は、受信した位置情報から話者の複数の属性を選択する(ステップS22)。そして、話者サブセット選択部48は、選択された各属性に対応する話者をマッピング情報記憶部16に記憶されたサブセット情報から選択して、テスト音声を識別するために用いられる音声モデルのサブセットを複数決定する(ステップS23)。さらに、話者サブセット選択部48は、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算する(ステップ24)。
【0062】
なお、テスト音声の抽出処理は、
図6に例示するステップS14と同様である。話者識別部50は、特徴抽出部20によってテスト音声から抽出された特徴量に基づいて、サブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト
音声の話者を識別する(ステップS25)。
【0063】
以上のように、本実施形態では、話者サブセット選択部48が、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算する。そして、話者識別部50が、サブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別する。よって、第一の実施形態の効果に加え、話者識別の精度をより向上させることが可能になる。
【0064】
次に、本開示の話者識別装置を用いた具体的構成例を説明する。以下の具体的構成例において、サブセットが一つ取得される場合を例示する。すなわち、以下の説明では、第一の実施形態の話者識別装置を用いた具体的構成例を説明する。なお、サブセットが複数取得される場合、第二の実施形態の話者識別装置が用いられればよい。
【0065】
<具体例1>:
第一の具体例は、刑務所内での配膳および皿集めを想定した状況において、本開示の話者識別装置を利用する形態である。刑務所内での人的負担を軽減させるため、個々の囚人に対する配膳および皿集めの作業を自動化できることが好ましい。その前提として、配膳および皿集めの対象とする囚人を特定する必要がある。
【0066】
話者識別により、音声を発した囚人を一定の精度で識別することは可能である。しかし、刑務所内の囚人の数が多くなるほど、上述したような効率および精度の問題が生ずる。本具体例では、位置情報から監房IDを選択して話者識別の対象とする囚人の数を低減させることで、話者識別の効率および精度を向上できるようにする。
【0067】
図10は、本開示による話者識別装置の第一の具体例の構成を示すブロック図である。第一の具体例における話者識別装置100は、サブセット検出部110と、特徴抽出部20と、話者識別部130とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0068】
サブセット検出部110は、情報受信部12と、監房ID選択部114と、マッピング情報記憶部116と、囚人サブセット選択部118とを含む。情報受信部12の内容は、第一の実施形態と同様である。
【0069】
監房ID選択部114は、情報受信部12が受信した位置情報から監房IDを選択する。すなわち、監房ID選択部114は、第一の実施形態における属性選択部14が選択する属性として、監房IDを選択する。位置情報から監房IDを選択する方法は、属性選択部14が属性を選択する方法と同様である。
【0070】
マッピング情報記憶部116は、サブセット情報として、監房IDと1人以上の囚人とを対応付けた情報を記憶する。また、マッピング情報記憶部116は、各囚人の音声モデルを記憶していてもよい。
【0071】
囚人サブセット選択部118は、監房ID選択部114によって選択された監房IDに基づいて、マッピング情報記憶部116に記憶されたサブセット情報から囚人のサブセットを選択する。すなわち、囚人サブセット選択部118は、刑務所内の全囚人のサブセットとして、選択された監房IDで識別される監房内の囚人を選択する。合わせて、囚人サブセット選択部118は、選択した囚人の音声モデルを取得する。
【0072】
話者識別部130は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の囚人を識別する。なお、話者識別の方法は、第一の実施形態における話者識別部30が行う方法と同様である。
【0073】
<具体例2>
第二の具体例は、大学の講義での出席チェックを行う状況において、本開示の話者識別装置を利用する形態である。講師による人的負担を軽減させるため、出席チェックの作業を自動化できることが好ましい。その前提として、対象とする講義に出席する学生を特定する必要がある。
【0074】
話者識別により、音声を発した学生を一定の精度で識別することは可能である。しかし、学校に在籍する学生の数が多くなるほど、上述したような効率および精度の問題が生ずる。本具体例では、位置情報から講義を選択して話者識別の対象とする学生の数を低減させることで、話者識別の効率および精度を向上できるようにする。なお、講義を一意に特定するため、時間情報も合わせて使用することが好ましい。
【0075】
図11は、本開示による話者識別装置の第二の具体例の構成を示すブロック図である。第二の具体例における話者識別装置200は、サブセット検出部210と、特徴抽出部20と、話者識別部230とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0076】
サブセット検出部210は、情報受信部12と、講義ID選択部214と、マッピング情報記憶部216と、学生サブセット選択部218とを含む。情報受信部12の内容は、第一の実施形態と同様である。
【0077】
講義ID選択部214は、情報受信部12が受信した位置情報から講義IDを選択する。すなわち、講義ID選択部214は、第一の実施形態における属性選択部14が選択する属性として、講義IDを選択する。位置情報から講義IDを選択する方法は、属性選択部14が属性を選択する方法と同様である。
【0078】
マッピング情報記憶部216は、サブセット情報として、講義IDと1人以上の学生とを対応付けた情報を記憶する。また、マッピング情報記憶部216は、各学生の音声モデルを記憶していてもよい。
【0079】
学生サブセット選択部218は、講義ID選択部214によって選択された講義IDに基づいて、マッピング情報記憶部216に記憶されたサブセット情報から学生のサブセットを選択する。すなわち、学生サブセット選択部218は、学校内の全学生のサブセットとして、選択された講義IDで識別される講義を受講する学生を選択する。合わせて、学生サブセット選択部218は、選択した学生の音声モデルを取得する。
【0080】
話者識別部230は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の学生を識別する。なお、話者識別の方法は、第一の実施形態における話者識別部30が行う方法と同様である。
【0081】
<具体例3>
第三の具体例は、検疫対象者の温度チェックを行う状況において、本開示の話者識別装置を利用する形態である。病院や検疫所での人的負担を軽減させるため、個々の検疫対象者に対する温度チェックを自動化できることが好ましい。その前提として、個々の検疫対象者を特定する必要がある。本具体例では、位置情報から部屋IDを選択して話者識別の対象とする検疫対象者の数を低減させることで、話者識別の効率および精度を向上できるようにする。
【0082】
図12は、本開示による話者識別装置の第三の具体例の構成を示すブロック図である。第三の具体例における話者識別装置300は、サブセット検出部310と、特徴抽出部20と、話者識別部330とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0083】
サブセット検出部310は、情報受信部12と、部屋ID選択部314と、マッピング情報記憶部316と、対象者サブセット選択部318とを含む。情報受信部12の内容は、第一の実施形態と同様である。
【0084】
部屋ID選択部314は、情報受信部12が受信した位置情報から部屋IDを選択する。すなわち、部屋ID選択部314は、第一の実施形態における属性選択部14が選択する属性として、部屋IDを選択する。位置情報から部屋IDを選択する方法は、属性選択部14が属性を選択する方法と同様である。
【0085】
マッピング情報記憶部316は、サブセット情報として、部屋IDと1人以上の対象者とを対応付けた情報を記憶する。また、マッピング情報記憶部316は、各対象者の音声モデルを記憶していてもよい。
【0086】
対象者サブセット選択部318は、部屋ID選択部314によって選択された部屋IDに基づいて、マッピング情報記憶部316に記憶されたサブセット情報から対象者のサブセットを選択する。すなわち、対象者サブセット選択部318は、全検疫対象者のサブセットとして、選択された部屋IDで識別される部屋にいる対象者を選択する。合わせて、対象者サブセット選択部318は、選択した対象者の音声モデルを取得する。
【0087】
話者識別部330は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の対象者を識別する。なお、話者識別の方法は、第一の実施形態における話者識別部30が行う方法と同様である。
【0088】
<具体例4>
第四の具体例は、門限後に帰寮する学生をチェックする状況において、本開示の話者識別装置を利用する形態である。寮のスタッフの人的負担を軽減させるため、門限後に帰寮した個々の学生のチェックを自動化できることが好ましい。その前提として、チェックの対象とする学生を特定する必要がある。本具体例では、位置情報から部屋IDを選択して話者識別の対象とする学生の数を低減させることで、話者識別の効率および精度を向上できるようにする。
【0089】
図13は、本開示による話者識別装置の第四の具体例の構成を示すブロック図である。第四の具体例における話者識別装置400は、サブセット検出部410と、特徴抽出部20と、話者識別部430とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0090】
サブセット検出部410は、情報受信部12と、部屋ID選択部414と、マッピング情報記憶部416と、学生サブセット選択部418とを含む。情報受信部12の内容は、第一の実施形態と同様である。
【0091】
部屋ID選択部414は、情報受信部12が受信した位置情報から部屋IDを選択する。すなわち、部屋ID選択部414は、第一の実施形態における属性選択部14が選択する属性として、部屋IDを選択する。位置情報から部屋IDを選択する方法は、属性選択部14が属性を選択する方法と同様である。
【0092】
マッピング情報記憶部416は、サブセット情報として、部屋IDと1人以上の学生とを対応付けた情報を記憶する。また、マッピング情報記憶部416は、各学生の音声モデルを記憶していてもよい。
【0093】
学生サブセット選択部418は、部屋ID選択部414によって選択された部屋IDに基づいて、マッピング情報記憶部416に記憶されたサブセット情報から学生のサブセットを選択する。すなわち、学生サブセット選択部418は、寮内の全学生のサブセットとして、選択された部屋IDで識別される部屋に住んでいる学生を選択する。合わせて、学生サブセット選択部418は、選択した学生の音声モデルを取得する。
【0094】
話者識別部430は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の学生を識別する。なお、話者識別の方法は、第一の実施形態における話者識別部30が行う方法と同様である。
【0095】
<具体例5>
第五の具体例は、チェーン店における顧客管理において、本開示の話者識別装置を利用する形態である。チェーン店を展開する会社では、例えば、本部で顧客を集中管理する形態をとることが多い。このとき、登録された店舗やよく利用する店舗が、合わせて管理されることが通常である。このような状況において、各店舗で所望する顧客の情報は、本部が管理する全顧客ではなく、その店舗を利用する顧客のサブセットであると考えられる。
【0096】
本具体例では、位置情報から店舗IDを選択して話者識別の対象とする顧客の数を低減させることで、話者識別の効率および精度を向上できるようにする。さらに、そのサブセットに含まれない顧客(外れ値の顧客)が来店した場合、将来のプロモーションなどのために、その店舗に顧客登録すること推薦できるようにする。
【0097】
図14は、本開示による話者識別装置の第五の具体例の構成を示すブロック図である。第五の具体例における話者識別装置500は、サブセット検出部510と、特徴抽出部20と、話者識別部530とを備えている。特徴抽出部20の内容は、第一の実施形態と同様である。
【0098】
サブセット検出部510は、情報受信部12と、店舗ID選択部514と、マッピング情報記憶部516と、顧客サブセット選択部518とを含む。情報受信部12の内容は、第一の実施形態と同様である。
【0099】
店舗ID選択部514は、情報受信部12が受信した位置情報から店舗IDを選択する。すなわち、店舗ID選択部514は、第一の実施形態における属性選択部14が選択する属性として、店舗IDを選択する。位置情報から店舗IDを選択する方法は、属性選択部14が属性を選択する方法と同様である。
【0100】
マッピング情報記憶部516は、サブセット情報として、店舗IDと1人以上の顧客とを対応付けた情報を記憶する。また、マッピング情報記憶部516は、各顧客の音声モデルを記憶していてもよい。
【0101】
顧客サブセット選択部518は、店舗ID選択部514によって選択された店舗IDに基づいて、マッピング情報記憶部516に記憶されたサブセット情報から顧客のサブセットを選択する。すなわち、顧客サブセット選択部518は、登録された全顧客のサブセットとして、選択された店舗IDで識別される顧客を選択する。合わせて、顧客サブセット選択部518は、選択した顧客の音声モデルを取得する。
【0102】
話者識別部530は、特徴抽出部20によって抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト音声の顧客を識別する。なお、話者識別の方法は、第一の実施形態における話者識別部30が行う方法と同様である。
【0103】
次に、本開示の概要を説明する。
図15は、本開示による話者識別装置の概要を示すブロック図である。本開示の話者識別装置80(例えば、話者識別装置1)は、属性に対応する話者を、その話者全体のサブセット情報から選択して、テスト音声(例えば、テスト音声21)が識別される音声モデルのサブセットを決定する話者サブセット選択手段81(例えば、話者サブセット選択部18)と、テスト音声から抽出された特徴量に基づいて、決定された音声モデルのサブセットからテスト
音声の話者を識別する話者識別手段82(例えば、話者識別部30)とを備えている。
【0104】
そのような構成により、話者識別の効率および精度を向上させることができる。
【0105】
また、話者サブセット選択手段81(例えば、話者サブセット選択部48)は、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算してもよい。そして、話者識別手段82(例えば、話者識別部50)は、サブセットの信頼性が高いほど、そのサブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別してもよい。
【0106】
具体的には、話者サブセット選択手段81は、テスト音声の位置を推定するレシーバー(例えば、ロボット)の位置と選択された属性の位置との距離が近いほど信頼性が高くなるように、その属性に対応するサブセットの信頼性を計算してもよい。
【0107】
また、話者識別手段82は、サブセット内の音声モデルと特徴量との類似度を算出し、最も類似度が大きい音声モデルに対応する話者をテスト音声の話者と識別してもよい。
【0108】
また、話者識別手段82は、サブセットごとに算出された類似度に、そのサブセットの信頼性を加重したスコアを算出し、算出されたスコアが最も大きいサブセットで決定された音声モデルに対応する話者を、テスト音声の話者と識別してもよい。
【0109】
また、話者識別装置80は、テスト音声の位置を推定するレシーバーから位置を受信する情報受信部(例えば、情報受信部12)と、受信した位置に基づいて属性を選択する属性選択部(例えば、属性選択部14)とを備えていてもよい。そして、話者サブセット選択手段81は、選択された属性に対応する話者を話者全体のサブセット情報から選択してもよい。
【0110】
また、話者識別装置80は、テスト音声の特徴量を抽出する特徴抽出手段(例えば、特徴抽出部20)を備えていてもよい。そして、話者識別手段82は、抽出された特徴量に基づいて、テスト音声の話者を識別してもよい。
【0111】
図16は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
【0112】
上述の話者識別装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(話者識別プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
【0113】
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
【0114】
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0115】
本発明は、その例示的な実施形態を参照して特に示され、説明されてきたが、本発明はこれらの実施形態に限定されるものではない。特許請求の範囲によって定義される本開示の精神および範囲から逸脱することなく、形態および詳細における様々な変更がそこでなされ得ることは、当業者によって理解されるであろう。
【0116】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されるものではない。
【0117】
(付記1)位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択手段と、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト音声の話者を識別する話者識別手段とを備えた
ことを特徴とする話者識別装置。
【0118】
(付記2)話者サブセット選択手段は、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算し、
話者識別手段は、前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別する
付記1記載の話者識別装置。
【0119】
(付記3)話者サブセット選択手段は、テスト音声の位置を推定するレシーバーの位置と選択された属性の位置との距離が近いほど信頼性が高くなるように、当該属性に対応するサブセットの信頼性を計算する
付記2記載の話者識別装置。
【0120】
(付記4)話者識別手段は、サブセット内の音声モデルと特徴量との類似度を算出し、最も類似度が大きい音声モデルに対応する話者をテスト音声の話者と識別する
付記1から付記3のうちのいずれか1つに記載の話者識別装置。
【0121】
(付記5)話者識別手段は、サブセットごとに算出された類似度に、当該サブセットの信頼性を加重したスコアを算出し、算出されたスコアが最も大きいサブセット内で決定された音声モデルに対応する話者を、テスト音声の話者と識別する
付記4記載の話者識別装置。
【0122】
(付記6)テスト音声の位置を推定するレシーバーから位置を受信する情報受信部と、
受信した位置に基づいて属性を選択する属性選択部とを備え、
話者サブセット選択手段は、選択された前記属性に対応する話者を話者全体のサブセット情報から選択する
付記1から付記5のうちのいずれか1つに記載の話者識別装置。
【0123】
(付記7)テスト音声の特徴量を抽出する特徴抽出手段を備え、
話者識別手段は、抽出された前記特徴量に基づいて、テスト音声の話者を識別する
付記1から付記6のうちのいずれか1つに記載の話者識別装置。
【0124】
(付記8)話者サブセット選択手段は、位置情報または属性情報に基づいて、選択された属性に対応する話者を選択する
付記1から付記7のうちのいずれか1つに記載の話者識別装置。
【0125】
(付記9)位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定し、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト音声の話者を識別する
ことを特徴とする話者識別方法。
【0126】
(付記10)複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定し、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算し、
前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別する
付記9記載の話者識別方法。
【0127】
(付記11)コンピュータに、
位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択処理、および、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト音声の話者を識別する話者識別処理
を実行させるための話者識別プログラムを記憶する非一過性のコンピュータ読み取り可能な情報記録媒体。
【0128】
(付記12)コンピュータに、
話者サブセット選択処理で、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定させ、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算させ、
話者識別処理で、前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別させる
ための話者識別プログラムを記憶する付記11記載の非一過性のコンピュータ読み取り可能な情報記録媒体。
【0129】
(付記13)コンピュータに、
位置情報に基づいて選択された属性に対応する話者を当該話者全体のサブセット情報から選択して、テスト音声が識別される音声モデルのサブセットを決定する話者サブセット選択処理、および、
前記テスト音声から抽出された特徴量に基づいて、決定された前記音声モデルのサブセットから前記テスト音声の話者を識別する話者識別処理
を実行させるための話者識別プログラム。
【0130】
(付記14)コンピュータに、
話者サブセット選択処理で、複数の各属性に対応する話者を話者全体のサブセット情報から選択して、音声モデルの複数のサブセットを決定させ、決定された各サブセットの音声モデルに関する信頼性をそれぞれ計算させ、
話者識別処理で、前記サブセットの信頼性が高いほど、当該サブセットの音声モデルに対応する話者に決定する可能性が高くなるように、テスト音声の話者を識別させる
付記13記載の話者識別プログラム。
【符号の説明】
【0131】
1,100,200,300,400,500 話者識別装置
10,40,110,210,310,410,510 サブセット検出部
12 情報受信部
14 属性選択部
16,116,216,316,416,516 マッピング情報記憶部
18,48 話者サブセット選択部
20 特徴抽出部
21 テスト音声
30,130,230,330,430,530 話者識別部
114 監房ID選択部
118 囚人サブセット選択部
214 講義ID選択部
218,418 学生サブセット選択部
314,414 部屋ID選択部
318 対象者サブセット選択部
514 店舗ID選択部
518 顧客サブセット選択部