特許7540489 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7540489音声登録装置、制御方法、プログラム及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-19

(45)【発行日】2024-08-27

(54)【発明の名称】音声登録装置、制御方法、プログラム及び記憶媒体

(51)【国際特許分類】

G10L 17/04 20130101AFI20240820BHJP

G10L 15/06 20130101ALI20240820BHJP

G10L 15/30 20130101ALI20240820BHJP

【ＦＩ】

G10L17/04

G10L15/06 500P

G10L15/06 500L

G10L15/30

【請求項の数】 9

(21)【出願番号】P 2022539809

(86)(22)【出願日】2020-07-27

(86)【国際出願番号】 JP2020028724

(87)【国際公開番号】W WO2022024188

(87)【国際公開日】2022-02-03

【審査請求日】2023-01-13

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】岡部浩司

(72)【発明者】

【氏名】越仲孝文

【審査官】渡部幸和

(56)【参考文献】

【文献】特開２００６－０５３４５９（ＪＰ，Ａ）

【文献】特開昭６３－２２８１９８（ＪＰ，Ａ）

【文献】特開平０２－２４４０９６（ＪＰ，Ａ）

【文献】特開２０００－２０００９９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１７／００

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段と、
を有する音声登録装置。

【請求項2】

前記音声入力と同期するように前記雑音データの再生を制御する雑音再生音声入力同期手段をさらに有する、請求項１に記載の音声登録装置。

【請求項3】

前記再登録判定手段は、前記静音環境音声データと、前記音声入力に基づく音声データとの間の特徴間距離が所定の閾値以下である場合に、前記音声データ取得手段による前記音声データの再取得が必要と判定する、請求項１または２に記載の音声登録装置。

【請求項4】

前記雑音再生手段は、前記音声データ取得手段による前記音声データの再取得が必要と前記再登録判定手段により判定された場合、前記雑音データの再度の再生時でのパラメータを変更する、請求項１～３のいずれか一項に記載の音声登録装置。

【請求項5】

前記雑音再生手段は、前記パラメータの変更として、前記雑音データの再生音量を増加する、又は、再生する前記雑音データを変更する、請求項４に記載の音声登録装置。

【請求項6】

前記雑音データに基づき、前記音声データから雑音を除去するエコーキャンセラー手段をさらに有する、請求項１～５のいずれか一項に記載の音声登録装置。

【請求項7】

コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する、制御方法。

【請求項8】

ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する処理をコンピュータに実行させるプログラム。

【請求項9】

請求項８に記載のプログラムを格納した記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声の登録に関する処理を行う音声登録装置、制御方法、プログラム及び記憶媒体の技術分野に関する。

【背景技術】

【0002】

近年、スマートスピーカーやカーナビケーションシステムに代表される様々な機器において、音声認識技術を用いてユーザの発話内容を聞き分けることで、機器の操作を行うことができるようになっている。また、その普及に伴い、発話内容を聞き分けるだけでなく、サービスへのログインや、よりユーザに適した応答を行うパーソナライズといった目的で、“事前に登録された音声を発した話者と、今回入力された音声を発した話者が、同一の話者かどうか”を判定する話者照合（声認証）システムも利用されるようになってきている。
このような話者照合システムを用いるには、事前の登録フェーズにおいて、音声登録システムを用いて対象ユーザの発した音声を登録しておき、その後照合フェーズにおいて新しく入力された音声を発した話者が、登録音声を発した対象話者と同一かどうかを判定する。特許文献１には、登録フェーズ及び照合フェーズを備える話者照合システムが開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開ＷＯ２０１６－０９２８０７

【発明の概要】

【発明が解決しようとする課題】

【0004】

話者照合システムの登録フェーズを静音環境下で行い、照合フェーズを例えば電車の往来がある線路沿いなどの背景雑音の大きな環境下で行った場合、後者ではロンバード効果に起因して発声器官の形状が変化する場合がある。この場合、発声に含まれる話者の特徴が登録音声と大きく異なるように変化し、話者照合システムの照合精度が低下してしまう。

【0005】

本開示の目的は、上記の課題を勘案し、照合用の音声の登録を好適に実行可能な音声登録装置、制御方法、プログラム及び記憶媒体を提供することである。

【課題を解決するための手段】

【0006】

音声登録装置の一の態様は、
ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段と、
を有する音声登録装置である。

【0007】

制御方法の一の態様は、
コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する、制御方法である。

【0008】

プログラムの一の態様は、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する処理をコンピュータに実行させるプログラムである。

【図面の簡単な説明】

【0009】

【図1】第１実施形態における音声登録装置の機能的な構成を示すブロック図である。

【図2】音声登録装置のハードウェア構成の一例である。

【図3】音声登録装置の各構成要素が実行する処理フローを示す図である。

【図4】ユーザの音声入力時に雑音再生を行わない比較例に係る音声登録装置の構成例を示す。

【図5】比較例に係る音声登録装置の各構成要素が実行する処理フローを示す図である。

【図6】第２実施形態における音声登録装置の機能ブロック図である。

【図7】第２実施形態における音声登録装置の各構成要素が実行する処理フローを示す図である。

【図8】第３実施形態における音声登録装置の機能ブロック図である。

【図9】第３実施形態における音声登録装置の各構成要素が実行する処理フローを示す図である。

【図10】第４実施形態の音声登録装置の概略構成図を示す。

【図11】第４実施形態において音声登録装置が実行するフローチャートの一例である。

【図12】ログイン直後の音声登録画面を表示したスマートフォンの正面図を示す。

【図13】音声登録開始アイコン選択後の音声登録画面を表示したスマートフォンの正面図を示す。

【図14】サーバ装置とスマートフォンとを有する音声登録システムを示す。

【発明を実施するための形態】

【0010】

以下、図面を参照しながら、検出装置、検出方法及び記憶媒体の実施形態について説明する。

【0011】

＜第１実施形態＞
（１）機能ブロック
図１は、第１実施形態における音声登録装置１の機能的な構成を示すブロック図である。音声登録装置１は、話者を音声の照合により識別する話者音声システムにおいて、照合に用いる話者の音声を登録する登録フェーズを行う。なお、話者音声システムでは、登録フェーズに加えて、新しく入力された音声を発した話者が、登録フェーズにおいて登録された音声を発した対象話者と同一かどうかを判定する照合フェーズを行う。

【0012】

第１実施形態における音声登録装置１は、機能的には、音声入力部２００と、音声登録部２１０と、雑音再生部２２０と、雑音再生音声入力同期部２３０と、を有する。なお、図１では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図１に限定されない。後述する他のブロック図においても同様である。

【0013】

音声入力部２００は、雑音再生音声入力同期部２３０の制御に基づき、ユーザの音声の入力を受け付けることで、ユーザの音声を示す音声データを生成する。音声登録部２１０は、音声入力部２００が生成した音声データを、音声を発したユーザを識別するためのユーザ識別情報と関連付けて、当該ユーザの音声に関する照合用データとして登録音声データベース（ＤＢ：ＤａｔａＢａｓｅ）に登録する。

【0014】

雑音再生部２２０は、雑音再生音声入力同期部２３０の制御に基づき、音声入力部２００による音声入力が行われている期間（「音声入力期間」とも呼ぶ。）中に雑音の再生を行う。なお、ここでの「期間」は、秒単位での短い時間長である場合も含む。雑音再生音声入力同期部２３０は、音声入力部２００と雑音再生部２２０の同期制御を行う。具体的には、雑音再生音声入力同期部２３０は、音声入力期間中に雑音再生部２２０が雑音の再生を行うように、雑音再生部２２０の制御を行う。言い換えると、雑音再生音声入力同期部２３０は、音声入力と同期して雑音データが再生されるように、雑音再生部２２０による再生を制御する。

【0015】

なお、音声登録装置１は、複数の装置により構成されてもよい。即ち、音声入力部２００と、音声登録部２１０と、雑音再生部２２０と、雑音再生音声入力同期部２３０とは、複数の装置により構成された音声登録装置１により実現されてもよい。この場合、音声登録装置１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により相互に行う。この場合、音声登録装置１は、音声登録システムとして機能する。

【0016】

（２）ハードウェア構成
図２は、各実施形態に共通する音声登録装置１のハードウェア構成の一例である。音声登録装置１は、ハードウェアとして、プロセッサ２と、メモリ３と、インターフェース４と、音入力装置５と、音出力装置６と、登録音声ＤＢ７とを含む。プロセッサ２、メモリ３及びインターフェース４は、データバス８を介して接続されている。

【0017】

プロセッサ２は、メモリ３に記憶されているプログラムを実行することにより、音声登録装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ２は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、量子プロセッサなどのプロセッサである。プロセッサ２は、複数のプロセッサから構成されてもよい。プロセッサ２は、音声登録部２１０及び雑音再生音声入力同期部２３０として機能する。また、プロセッサ２は、音入力装置５と共に音声入力部２００として機能し、音出力装置６と共に雑音再生部２２０として機能する。また、プロセッサ２は、コンピュータの一例である。

【0018】

メモリ３は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ３には、音声登録装置１が実行する処理を実行するためのプログラムが記憶される。また、例えば、メモリ３には、雑音を再生するための１又は複数の雑音データ、発話を行うユーザのユーザ識別情報などの音声登録装置１の処理に必要な種々の情報が記憶される。なお、メモリ３が記憶する情報の一部は、音声登録装置１と通信可能な１又は複数の外部記憶装置により記憶されてもよく、音声登録装置１に対して着脱自在な記憶媒体により記憶されてもよい。

【0019】

インターフェース４は、音声登録装置１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。本実施形態では、インターフェース４は、少なくとも、音入力装置５と、音出力装置６と、登録音声ＤＢ７とのインターフェース動作を行う。音入力装置５は、例えばマイクロフォンであり、検知した音に応じた電気信号を生成する。音出力装置６は、例えばスピーカであり、プロセッサ２の制御に基づき、指定された音データに応じた音を出力する。

【0020】

登録音声ＤＢ７は、プロセッサ２の制御に基づき、音声入力期間中において音入力装置５が生成した音声データを、話者を識別するためのユーザ識別情報と関連付けて記憶する。登録音声ＤＢ７は、登録された音声データを用いて話者の照合を行う照合フェーズにおいて用いられる。なお、照合フェーズは、音声登録装置１により実行されてもよく、登録音声ＤＢ７を参照する他の装置により行われてもよい。登録音声ＤＢ７は、メモリ３に格納されてもよく、音声登録装置１と通信可能な外部記憶装置に格納されてもよい。

【0021】

なお、音声登録装置１のハードウェア構成は、図２に示す構成に限定されない。例えば、音声登録装置１は、音声入力以外の入力（例えばキーボード、ボタン、又はタッチパネル等による入力）を受け付ける入力装置、ディスプレイ又はプロジェクタなどの表示装置などをさらに含んでもよい。

【0022】

ここで、図１において説明した音声入力部２００、音声登録部２１０、雑音再生部２２０及び雑音再生音声入力同期部２３０の各要素は、例えば、プロセッサ２がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（field-programmable gate array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）により構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

【0023】

（３）処理フロー
図３は、図１に示す音声登録装置１の各構成要素が実行する処理フローを示す図である。音声登録装置１は、１人のユーザに対する音声登録ごとに、図３に示す処理フローを実行する。

【0024】

まず、雑音再生音声入力同期部２３０は、雑音再生部２２０に対して雑音再生開始命令を行う（ステップＴ１）。そして、雑音再生部２２０は、上記雑音再生開始命令に従い、雑音の再生を開始する（ステップＴ２）。

【0025】

次に、雑音再生音声入力同期部２３０は、音声入力部２００に対して、音声入力開始命令を行う（ステップＴ３）。そして、音声入力部２００は、上記音声入力開始命令に従い、ユーザの音声の入力を開始する（ステップＴ４）。

【0026】

その後、音声入力部２００は、音声入力の終了タイミングを検知し、音声入力を完了する（ステップＴ５）。この場合、音声入力部２００は、例えば、入力された音声データの音声認識等により所定のキーワードを検出した場合、又は、予め設けた発声終了ボタンの選択などの所定のユーザ入力を検出した場合に、音声入力の終了タイミングであると判定する。そして、音声入力部２００は、雑音再生音声入力同期部２３０に音声入力完了通知を行う。

【0027】

雑音再生音声入力同期部２３０は、上記音声入力完了通知を受け取ると、雑音再生部２２０に対して、雑音再生終了命令を行う（ステップＴ６）。雑音再生部２２０は、上記雑音再生終了命令に従い、雑音の再生を完了する（ステップＴ７）。

【0028】

音声入力部２００で音声入力開始から音声入力終了までの間に入力されたユーザの音声データは、音声登録部２１０に渡され、音声登録部２１０は、ユーザ識別情報と関連付けて音声データを登録音声ＤＢ７に登録する（ステップＴ８）。この時、音声登録部２１０は、音入力装置５が生成した音声データをそのまま登録する代わりに、音声登録部２１０において話者識別性能の高い話者特徴量を抽出し、抽出した話者特徴量を示す特徴量データを登録音声ＤＢ７に登録してもよい。以後では、登録音声ＤＢ７にユーザ識別情報と関連付けて登録する音声データ又は特徴量データの算出に用いた音声データを、「登録音声」とも呼ぶ。

【0029】

（４）第１実施形態による効果
次に、第１実施形態による効果について説明する。

【0030】

第１実施形態では、音声登録装置１は、ユーザの音声入力時に雑音を再生するように構成されている。これにより、音声登録装置１が照合用のユーザ音声を登録する登録音声ＤＢ７には、ロンバード効果による発音変形を起こした音声が登録されることが期待できる。よって、第１実施形態の音声登録装置１を用いて登録された音声を利用した話者照合システムの照合フェーズにおいて、雑音環境下での話者照合精度を向上させることができる。

【0031】

次に、ユーザの音声入力時に雑音再生を行わない比較例を用いて、第１実施形態の音声登録装置１の効果について補足説明する。図４は、ユーザの音声入力時に雑音再生を行わない比較例に係る音声登録装置１ａの構成例を示す。音声登録装置１ａは、図１に示される音声登録装置１の一部の構成要素に相当する、音声入力部２００と、音声登録部２１０とを含む。

【0032】

図５は、音声登録装置１ａの各構成要素が実行する処理フローを示す図である。音声登録装置１ａは、図３に示される音声登録装置１の処理フローの一部に相当する処理を実行する。具体的には、音声入力部２００は、ユーザの音声入力を開始する（ステップＴ４）。そして、音声入力部２００は、自動キーワード検出またはユーザからの発声終了ボタンの入力受付などにより、音声入力終了タイミングを決定し、音声入力を完了する（ステップＴ５）。音声入力部２００で音声入力開始から音声入力終了までの間に入力されたユーザの音声データは、音声登録部２１０に渡され、音声登録部２１０は、ユーザ識別情報と共に音声データを登録音声ＤＢに登録する（ステップＴ８）。この時、音声登録部２１０は、入力音声データをそのまま登録するのではなく、音声登録部２１０において話者識別性能の高い話者特徴量を抽出し、その特徴量データを登録してもよい。

【0033】

このように、比較例の構成では、話者照合システムの登録フェーズを静音環境下で行う。この場合、登録された音声データを用いて話者の照合を行う照合フェーズを例えば電車の往来がある線路沿いなどの背景雑音の大きな環境下で行った場合に、雑音の音量に負けないようにユーザが無意識に声を張り上げる現象（所謂ロンバード効果）が起こる。この場合、発声器官の形状が変化し、すなわち発声に含まれる話者の特徴が登録音声と大きく異なるように変化し、照合フェーズでの話者照合システムの照合精度が低下してしまう。

【0034】

以上を勘案し、第１実施形態に係る音声登録装置１は、登録フェーズにおいてユーザの音声入力時に雑音を再生することで、照合フェーズにおいて雑音環境下でのロンバード効果による話者照合精度の低下を好適に防ぐことができる。即ち、ロンバード効果による発音変形を起こした音声を登録フェーズにおいて登録しておくことで、照合フェーズにおいて、ロンバード効果を起こした音声同士で照合を行うことが可能となり、発音変形による音声間の差を好適に減少させて照合精度を向上させることができる。

【0035】

＜第２実施形態＞
図６は、第２実施形態における音声登録装置１Ａの機能ブロック図である。第２実施形態に係る音声登録装置１Ａは、十分に発音変形が起こるまで音声登録処理が繰り返される点において、第１実施形態の音声登録装置１と異なる。以後では、第１実施形態の音声登録装置１と同一構成要素となる第２実施形態の音声登録装置１Ａの構成要素については、適宜同一符号を付し、その説明を省略する。

【0036】

図６に示すように、音声登録装置１Ａは、再登録判定部２４０を備える。再登録判定部２４０は、音声入力期間において音声入力部２００により生成された音声データと、静音環境下で同一話者が発声した登録済みの音声データ（「静音環境音声データ」とも呼ぶ。）との比較結果に基づき、音声データの再取得の要否（即ち音声データの登録の適否）を判定する。静音環境音声データは、例えば、ユーザ識別情報と関連付けられて登録音声ＤＢ７に予め記憶されている。

【0037】

再登録判定部２４０は、上記の比較により、発音変形が生じていると判定した場合に、音声入力部２００により生成された音声データの登録音声ＤＢ７への登録を、音声登録部２１０に実行させる。例えば、再登録判定部２４０は、音声入力部２００により生成された音声データと静音環境音声データとの特徴間距離が所定の閾値より大きい場合に、発音変形が生じていると判定する。上述の特徴間距離は、例えば、話者特徴量の特徴空間における距離（差異）である。再登録判定部２４０による判定の具体例については、後述の［実施例２］のセクションにおいて具体的に説明する。なお、再登録判定部２４０は、特徴間距離を算出する代わりに、音声入力部２００により生成された音声データと静音環境音声データとを相互相関関数等によって直接比較して算出した類似度等に基づいて、発音変形の有無を判定してもよい。

【0038】

一方、再登録判定部２４０は、上記の比較により、発音変形が生じていないと判定した場合には、音声入力の再取得が必要であると判定し、音声入力期間を再び設け、音声入力を再度実行させる。例えば、再登録判定部２４０は、音声入力部２００により生成された音声データと静音環境音声データとの特徴間距離が所定の閾値以下の場合に、発音変形が生じていないと判定する。

【0039】

好適には、音声入力の再取得が必要であると判定した場合、再登録判定部２４０は、雑音再生開始命令に、雑音再生部２２０のパラメータを変更する命令も加えるように、雑音再生音声入力同期部２３０に対して指示するとよい。具体的には、再登録判定部２４０は、上記のパラメータを変更する命令として、例えば、雑音の音量を所定度合い又は所定率だけ上げる、又は／及び、雑音の種類を変更する（即ち再生する雑音データを変更する）命令を指定する。

【0040】

図７は、第２実施形態における音声登録装置１Ａの各構成要素が実行する処理フローを示す図である。音声登録装置１Ａは、１人のユーザに対する音声登録ごとに図７に示す処理フローを実行する。図７のステップＵ１～ステップＵ４の処理は、第１実施形態において説明した図３のステップＴ１～ステップＴ４の処理と同一のため、その説明を省略する。

【0041】

音声入力部２００は、ステップＵ５において、音声入力の終了タイミングを検知し、音声入力を終了した後、生成した音声データを、音声登録部２１０を介して再登録判定部２４０に供給する。また、雑音再生音声入力同期部２３０は、ステップＴ６と同様に、雑音再生終了命令を雑音再生部２２０に対して行い（ステップＵ６）、雑音再生部２２０は、ステップＴ７と同様に、雑音再生終了命令に基づき雑音再生を終了する（ステップＵ７）。

【0042】

再登録判定部２４０は、ステップＵ５の後、音声入力部２００が生成した音声データと、同一話者の登録済みの静音環境音声データとの比較を行うことで、音声データの再登録判定を行う（ステップＵ８）。そして、再登録判定部２４０は、発音変形が起こり、静音環境下での登録音声との差分が大きいと判定した場合（ステップＵ８；ＹＥＳ）、音声登録部２１０に音声データを供給し、音声登録部２１０に登録音声ＤＢ７への音声データの登録を実行させる（ステップＵ９）。

【0043】

一方、再登録判定部２４０は、発音変形が十分に起こらず、静音環境下での登録音声との差分が小さいと判定した場合（ステップＵ８；ＮＯ）、雑音再生のパラメータを変更する命令も加えた雑音再生部２２０への雑音再生開始命令を、雑音再生音声入力同期部２３０に実行させる（ステップＵ１）。以降、再びステップＵ２以降の処理が再実行される。

【0044】

以上説明したように、第２実施形態に係る音声登録装置１Ａは、十分に発音変形が起こるまで音声登録処理を繰り返す。これにより、登録された音声を利用した照合フェーズにおいて、雑音環境下での話者照合精度の向上が、より多くの話者で得ることができるようになる。

【0045】

＜第３実施形態＞
図８は、第３実施形態における音声登録装置１Ｂの機能ブロック図である。第３実施形態に係る音声登録装置１Ｂは、エコーキャンセラーを用いることにより、雑音再生部２２０による再生に起因した雑音を除去して登録音声のＳＮ比を向上させる点において、第１実施形態の音声登録装置１と異なる。以後では、第１実施形態の音声登録装置１と同一構成要素となる第３実施形態の音声登録装置１Ｂの構成要素については、適宜同一符号を付し、その説明を省略する。

【0046】

図８に示すように、音声登録装置１Ｂは、エコーキャンセラー部２５０を有する。エコーキャンセラー部２５０は、音声入力部２００が生成した音声データに対してエコーキャンセラーを適用することで、再生雑音を除去した音声データを生成する。そして、エコーキャンセラー部２５０は、エコーキャンセラー適用後の音声データを、音声登録部２１０に供給し、音声登録部２１０は、エコーキャンセラー適用後の音声データを、ユーザ識別情報と関連付けて登録音声ＤＢ７に登録する。なお、音声登録部２１０は、エコーキャンセラー適用後の音声データを登録音声ＤＢ７に登録する代わりに、エコーキャンセラー適用後の音声データの話者特徴量を示す特徴量データを登録音声ＤＢ７に登録してもよい。

【0047】

図９は、第３実施形態における音声登録装置１Ｂの各構成要素が実行する処理フローを示す図である。音声登録装置１Ｂは、１人のユーザに対する音声登録ごとに図９に示す処理フローを実行する。図９のステップＶ１～ステップＶ４の処理は、第１実施形態において説明した図３のステップＴ１～ステップＴ４の処理と同一のため、その説明を省略する。

【0048】

音声入力部２００は、ステップＶ５において、音声入力の終了タイミングを検知し、音声入力を終了した後、生成した音声データを、音声登録部２１０を介してエコーキャンセラー部２５０に供給する。また、雑音再生音声入力同期部２３０は、ステップＴ６と同様に、雑音再生終了命令を雑音再生部２２０に対して行い（ステップＶ６）、雑音再生部２２０は、ステップＴ７と同様に、雑音再生終了命令に基づき雑音再生を終了する（ステップＶ７）。

【0049】

エコーキャンセラー部２５０は、ステップＶ５の後、音声入力部２００が生成した音声データに対して、エコーキャンセラーを適用することで、再生雑音の除去を行う（ステップＶ８）。ここで、音声入力部２００が生成した音声データは、雑音再生部２２０で用いられた既知の雑音データが回り込んで録音されていると考えられることから、雑音再生部２２０での再生に起因した雑音成分が含まれている。よって、エコーキャンセラー部２５０は、エコーキャンセラーを音声データに適用することで、再生時の雑音が好適に除去された音声データを生成することができる。その後、第１実施形態と同様に、音声登録部２１０は、雑音除去済みの音声データ又はその話者特徴量を示す特徴量データを、ユーザ識別情報と関連付けて登録音声ＤＢ７に登録する（ステップＶ９）。

【0050】

第３実施形態に係る音声登録装置１Ｂは、エコーキャンセラーを用いることにより、登録音声のＳＮ比を向上させることができる。これにより、第３実施形態の音声登録装置１Ｂにより生成又は更新された登録音声ＤＢ７を利用した話者照合システムの照合フェーズでは、静音環境下を含めた異なる種類の雑音環境下においても話者照合精度を向上させることができる。

【0051】

＜第４実施形態＞
図１０は、第４実施形態の音声登録装置１Ｘの概略構成図を示す。音声登録装置１Ｘは、主に、雑音再生手段２２０Ｘと、音声データ取得手段２００Ｘと、音声登録手段２１０Ｘとを有する。なお、音声登録装置１Ｘは、複数の装置から構成されてもよい。例えば、音声登録装置１Ｘは、第１実施形態～第３実施形態における音声登録装置１、音声登録装置１Ａ、又は音声登録装置１Ｂとすることができる。

【0052】

雑音再生手段２２０Ｘは、ユーザの音声入力が行われる期間において雑音データを再生する。ここで、「雑音データを再生する」には、雑音再生手段２２０Ｘが自ら音を出力する態様に限られず、雑音データに基づく音が出力されるように音声登録装置１Ｘ内の他の構成要素又は外部装置に雑音データの再生信号等を送信する態様も含まれる。例えば、雑音再生手段２２０Ｘは、第１実施形態～第３実施形態における雑音再生部２２０とすることができる。

【0053】

音声データ取得手段２００Ｘは、音声入力に基づく音声データを取得する。ここで、「音声データを取得する」には、音声データ取得手段２００Ｘが自ら音声データを生成する態様に限られず、他の装置が生成した音声データを取得する態様も含まれる。例えば、音声データ取得手段２００Ｘは、第１実施形態～第３実施形態における音声入力部２００とすることができる。

【0054】

音声登録手段２１０Ｘは、音声データ、または、音声データに基づき生成したデータを、ユーザの音声に関する照合用データとして登録する。照合用データとして登録する場所（データベース）は、音声登録装置１Ｘが備えるメモリに限らず、音声登録装置１Ｘ以外の記憶装置であってもよい。音声登録手段２１０Ｘは、例えば、第１実施形態～第３実施形態における音声登録部２１０とすることができる。

【0055】

図１１は、第４実施形態において音声登録装置１Ｘが実行するフローチャートの一例である。まず、雑音再生手段２２０Ｘは、ユーザの音声入力が行われる期間において雑音データを再生する（ステップＳ１）。音声データ取得手段２００Ｘは、音声入力に基づく音声データを取得する（ステップＳ２）。音声登録手段２１０Ｘは、音声データ、または、音声データに基づき生成したデータを、ユーザの音声に関する照合用データとして登録する（ステップＳ３）。

【0056】

第４実施形態によれば、音声登録装置１Ｘは、登録フェーズにおいてユーザの音声入力時に雑音を再生することで、照合フェーズでの雑音環境下でのロンバード効果による話者照合精度の低下を好適に防ぐことができる。

【0057】

＜実施例＞
次に、第１～第４実施形態に関する具体的な実施例（実施例１及び実施例２）について説明する。

【0058】

［実施例１］
音声登録プログラムが実装されたスマートフォン５００は、スマートフォンに内蔵されたマイクロフォンおよびスピーカを用いて、音声入力および音声出力を行う。この場合、スマートフォンは、第１実施形態～第４実施形態における音声登録装置の一例である。スマートフォンには、音声登録プログラムが予めインストールされている。

【0059】

まず、音声照合以外のなんらかの認証方法（例えばログインＩＤとパスワードによる認証）により音声登録プログラムへのログインを行うと、スマートフォン５００は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を表示し、第１実施形態～第４実施形態において説明した登録フェーズを開始する。

【0060】

具体的には、スマートフォン５００は、音声登録プログラムに基づき、「音声登録開始アイコン」を含む音声登録画面を表示し、「音声登録開始アイコン」が選択されたことを検知すると、雑音再生部２２０がスピーカから雑音の再生を行う。雑音再生が正常に開始された後、マイクロフォンからの録音を開始して音声登録画面上に「“ひらけごま”と話してください」といったメッセージを表示し、ユーザからの音声入力を受け付ける。このメッセージの文面は例示であり、他の文面でも構わない。また固定のキーフレーズであるとも限らない。また、この時ロンバード効果を起こしやすくするために、マイクに入力される音声の音量を示すボリュームメータを表示し、かつ一定以上の音量の場合に色を変更してもよい。

【0061】

また、スマートフォン５００は、待ち受け時に「発話終了アイコン」を表示し、ユーザがそれをタップする、または「ひらけごま」という発話の自動キーワード検出を行うことで、ユーザからの発話の終了を検知すると、スピーカからの雑音の再生を終了する。

【0062】

図１２は、ログイン直後の音声登録画面を表示したスマートフォン５００の正面図を示す。図１３は、音声登録開始アイコン選択後の音声登録画面を表示したスマートフォン５００の正面図を示す。

【0063】

図１２では、ユーザのログイン認証後に、スマートフォン５００は、音声登録開始アイコン５０を含む音声登録画面を表示する。そして、スマートフォン５００は、音声登録開始アイコン５０が選択されたことを検知した場合、図１３に示す音声登録画面を表示する。図１３に示す音声登録画面は、音声登録に関するメッセージ５１と、ボリュームメータ５２と、発話終了アイコン５３とを含んでいる。

【0064】

スマートフォン５００は、メッセージ５１として、雑音を再生中である旨の通知、所定のキーワードの発話の指示、及び発話の音量に関する指示を夫々示すテキスト文を表示する。また、スマートフォン５００は、入力された音声の音量に応じて、ボリュームメータ５２のメータ長及び色を変化させる。ここでは、スマートフォン５００は、音声の音量が目標音量である場合にボリュームメータ５２を青色とし、音声の音量が目標音量外である場合にボリュームメータ５２を青以外の色（例えば赤色）とする。目標音量は、ロンバード効果が起こりやすい音量の範囲（及び音割れが生じない範囲）となるように予め決定され、スマートフォン５００のメモリ等に記憶されている。このように、スマートフォン５００は、入力音声の音量が目標音量の範囲内か否かに基づいてボリュームメータ５２の表示態様を決定することで、音声入力時に適切な音量の目安となる情報を、ユーザに提示することができる。

【0065】

また、スマートフォン５００は、発話終了アイコン５３が選択されたことを検知した場合、入力された音声データ又はその特徴量を示す特徴量データを、音声登録プログラムへのログインに用いられたユーザＩＤと関連付けて登録音声ＤＢ７に記憶する。

【0066】

ここで、スマートフォン５００は、入力された音声を、ＭＦＣＣ（Mel-Frequency Cepstral Coefficients）などの時系列音響特徴量や、i-vectorなどの発声特徴量や、話者識別を目的タスクとして学習されたニューラルネットワークのボトルネック特徴量を抽出した話者特徴量に変換してもよい。さらに、スマートフォン５００は、特徴量抽出後に、平均正規化、ＬＤＡ(Linear Discriminant Analysis)やノルム正規化などの処理を行ってもよい。これらの場合、スマートフォン５００は、上述の処理により得られたデータを、音声登録プログラムへのログインに用いられたユーザＩＤと関連付けて登録音声ＤＢ７に記憶する。

【0067】

なお、雑音環境下での発話だけでなく、静音環境下での発話も登録した方がよい場合がある。この場合、スマートフォン５００は、上記雑音再生を、当該ユーザの二度目以降の登録のみで（即ち静音環境下での発話登録後に）行ってもよい。この場合、二度目以降の登録では、スマートフォン５００は、静音環境下で一度目に登録された音声データを用いて、第２実施形態において説明した再登録判定部２４０の処理を実行してもよい。また、スマートフォン５００は、雑音再生の有無に関するユーザ設定を受け付け、雑音再生有りの設定の時のみ、上記雑音再生を行ってもよい。

【0068】

音声照合システムによる照合フェーズでは、音声照合システム（例えばスマートフォン５００）は、登録フェーズと雑音再生を除き同一処理を行うことで、ユーザからの照合音声の入力を受け付ける。これにより、音声照合システムは、登録音声ＤＢ７に登録されたデータと照合する照合音声又はその照合音声特徴量を得る。音声照合システムは、上記照合音声または照合音声特徴量と、登録音声ＤＢ７上の全ての登録音声または登録音声特徴量との照合スコアを、コサイン距離や、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）などによって算出する。そして、照合スコアの最大値が予め設定された閾値を超えた場合、音声照合システムは、照合スコアが最大値となった登録音声又は登録特徴量に紐づくユーザとして、照合が成功したと判定する。なお、照合スコアの最大値に基づきユーザを認証する手法は単なる例示であり、特徴量の平均を用いて照合するなど他のいかなる照合手法を用いても構わない。

【0069】

なお、第１実施例では、スマートフォン５００上で動作するプログラム（音声登録プログラム）を主な実行主体として説明を行ったが、スマートフォン５００以外の任意の機器を主な実行主体として登録フェーズが行われてもよい。例えば、ネットワークを介してスマートフォン５００と接続するサーバ装置が第１～第４実施形態における音声登録装置として機能し、登録フェーズを実行してもよい。図１４は、サーバ装置７５０とスマートフォン５００とを有する音声登録システムを示す。サーバ装置７５０は、ネットワーク９を介してスマートフォン５００に対して制御信号を送信することで、スマートフォン５００の音入力装置（マイクロフォン）及び音出力装置（スピーカ）を制御し、第１実施形態～第４実施形態における音声登録装置として機能する。そして、サーバ装置７５０は、登録音声ＤＢ７を有し、音声登録期間中にスマートフォン５００が生成した音声データを受信し、受信した音声データ又はその特徴量等を示すデータを、ユーザ識別情報と関連付けて登録音声ＤＢ７に記憶する。この態様によっても、サーバ装置７５０は、登録フェーズを好適に実行することができる。

【0070】

［実施例２］
実施例２は、第２実施形態に対する具体的な実施例であり、再登録判定部２４０に関する処理をさらに行う点で第１実施例と異なる。

【0071】

具体的には、実施例２では、スマートフォン５００は、音声入力期間中に生成された音声データから抽出した話者特徴量と、予め登録済みの静音環境音声データの話者特徴量との類似度に相当する照合スコアを、照合フェーズと同様の処理を用いて算出する。そして、算出された照合スコアが予め設定された再登録判定用の閾値を超えていた場合、スマートフォン５００は、入力された音声データと静音環境音声データとの差異が小さく、ロンバード効果による発音変形が不十分だと判定し、その旨を通知するメッセージと「音声登録開始アイコン」をＧＵＩ上で表示し、音声データの入力を受け付ける処理を行う。また、この場合、スマートフォン５００は、雑音の再生ボリュームを上げたり、再生する雑音データを変更したりすることで、再度の音声入力期間中での雑音再生の態様を、発音変形が不十分と判定された音声データの音声入力期間中での雑音再生の態様と異ならせる。

【0072】

なお、上述した各実施形態及び各実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0073】

その他、上記の各実施形態及び各実施例の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

【0074】

［付記１］
ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
を有する音声登録装置。
［付記２］
前記音声入力と同期するように前記雑音データの再生を制御する雑音再生音声入力同期手段をさらに有する、付記１に記載の音声登録装置。
［付記３］
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段をさらに有する、付記１または２に記載の音声登録装置。
［付記４］
前記再登録判定手段は、前記静音環境音声データと、前記音声入力に基づく音声データとの間の特徴間距離が所定の閾値以下である場合に、前記音声データ取得手段による前記音声データの再取得が必要と判定する、付記３に記載の音声登録装置。
［付記５］
前記雑音再生手段は、前記音声データ取得手段による前記音声データの再取得が必要と前記再登録判定手段により判定された場合、前記雑音データの再度の再生時でのパラメータを変更する、付記３または４に記載の音声登録装置。
［付記６］
前記雑音再生手段は、前記パラメータの変更として、前記雑音データの再生音量を増加する、又は、再生する前記雑音データを変更する、付記５に記載の音声登録装置。
［付記７］
前記雑音データに基づき、前記音声データから雑音を除去するエコーキャンセラー手段をさらに有する、付記１～６のいずれか一項に記載の音声登録装置。
［付記８］
前記期間において入力された音声の音量を示すメータを表示する表示制御手段をさらに有する、付記１～７のいずれか一項に記載の音声登録装置。
［付記９］
前記表示制御手段は、前記音量が目標の音量の範囲であるか否かに基づき、前記メータの表示態様を決定する、付記８に記載の音声登録装置。
［付記１０］
前記音声登録装置は、互いに通信可能な複数の装置により構成される、付記１～９のいずれか一項に記載の音声登録装置。
［付記１１］
音入力装置と、音出力装置とを有する端末装置と通信を行うサーバ装置である、付記１～１０のいずれか一項に記載の音声登録装置。
［付記１２］
コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する、制御方法。
［付記１３］
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する処理をコンピュータに実行させるプログラム。
［付記１４］
付記１３に記載のプログラムを格納した記憶媒体。

【0075】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

【産業上の利用可能性】

【0076】

スマートスピーカー、カーナビケーションシステム、ロボット、携帯電話やヒアラブルデバイスといったデバイスで用いる話者照合用途に適用することができる。

【符号の説明】

【0077】

１、１ａ、１Ａ、1Ｂ、１Ｘ音声登録装置
２００音声入力部
２１０音声登録部
２２０雑音再生部
２３０雑音再生音声入力同期部
２４０再登録判定部
２５０エコーキャンセラー部
５００スマートフォン
７５０サーバ装置

【図1】