(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】音声登録装置、制御方法、プログラム及び記憶媒体
(51)【国際特許分類】
G10L 17/04 20130101AFI20240820BHJP
G10L 15/06 20130101ALI20240820BHJP
G10L 15/30 20130101ALI20240820BHJP
【FI】
G10L17/04
G10L15/06 500P
G10L15/06 500L
G10L15/30
(21)【出願番号】P 2022539809
(86)(22)【出願日】2020-07-27
(86)【国際出願番号】 JP2020028724
(87)【国際公開番号】W WO2022024188
(87)【国際公開日】2022-02-03
【審査請求日】2023-01-13
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】岡部 浩司
(72)【発明者】
【氏名】越仲 孝文
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2006-053459(JP,A)
【文献】特開昭63-228198(JP,A)
【文献】特開平02-244096(JP,A)
【文献】特開2000-200099(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段と、
を有する音声登録装置。
【請求項2】
前記音声入力と同期するように前記雑音データの再生を制御する雑音再生音声入力同期手段をさらに有する、請求項1に記載の音声登録装置。
【請求項3】
前記再登録判定手段は、前記静音環境音声データと、前記音声入力に基づく音声データとの間の特徴間距離が所定の閾値以下である場合に、前記音声データ取得手段による前記音声データの再取得が必要と判定する、請求項
1または2に記載の音声登録装置。
【請求項4】
前記雑音再生手段は、前記音声データ取得手段による前記音声データの再取得が必要と前記再登録判定手段により判定された場合、前記雑音データの再度の再生時でのパラメータを変更する、請求項
1~3のいずれか一項に記載の音声登録装置。
【請求項5】
前記雑音再生手段は、前記パラメータの変更として、前記雑音データの再生音量を増加する、又は、再生する前記雑音データを変更する、請求項
4に記載の音声登録装置。
【請求項6】
前記雑音データに基づき、前記音声データから雑音を除去するエコーキャンセラー手段をさらに有する、請求項1~
5のいずれか一項に記載の音声登録装置。
【請求項7】
コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し
、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する、制御方法。
【請求項8】
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録
し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する処理をコンピュータに実行させるプログラム。
【請求項9】
請求項
8に記載のプログラムを格納した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声の登録に関する処理を行う音声登録装置、制御方法、プログラム及び記憶媒体の技術分野に関する。
【背景技術】
【0002】
近年、スマートスピーカーやカーナビケーションシステムに代表される様々な機器において、音声認識技術を用いてユーザの発話内容を聞き分けることで、機器の操作を行うことができるようになっている。また、その普及に伴い、発話内容を聞き分けるだけでなく、サービスへのログインや、よりユーザに適した応答を行うパーソナライズといった目的で、“事前に登録された音声を発した話者と、今回入力された音声を発した話者が、同一の話者かどうか”を判定する話者照合(声認証)システムも利用されるようになってきている。
このような話者照合システムを用いるには、事前の登録フェーズにおいて、音声登録システムを用いて対象ユーザの発した音声を登録しておき、その後照合フェーズにおいて新しく入力された音声を発した話者が、登録音声を発した対象話者と同一かどうかを判定する。特許文献1には、登録フェーズ及び照合フェーズを備える話者照合システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
話者照合システムの登録フェーズを静音環境下で行い、照合フェーズを例えば電車の往来がある線路沿いなどの背景雑音の大きな環境下で行った場合、後者ではロンバード効果に起因して発声器官の形状が変化する場合がある。この場合、発声に含まれる話者の特徴が登録音声と大きく異なるように変化し、話者照合システムの照合精度が低下してしまう。
【0005】
本開示の目的は、上記の課題を勘案し、照合用の音声の登録を好適に実行可能な音声登録装置、制御方法、プログラム及び記憶媒体を提供することである。
【課題を解決するための手段】
【0006】
音声登録装置の一の態様は、
ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段と、
を有する音声登録装置である。
【0007】
制御方法の一の態様は、
コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する、制御方法である。
【0008】
プログラムの一の態様は、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録し、
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データの再取得の要否を判定する処理をコンピュータに実行させるプログラムである。
【図面の簡単な説明】
【0009】
【
図1】第1実施形態における音声登録装置の機能的な構成を示すブロック図である。
【
図2】音声登録装置のハードウェア構成の一例である。
【
図3】音声登録装置の各構成要素が実行する処理フローを示す図である。
【
図4】ユーザの音声入力時に雑音再生を行わない比較例に係る音声登録装置の構成例を示す。
【
図5】比較例に係る音声登録装置の各構成要素が実行する処理フローを示す図である。
【
図6】第2実施形態における音声登録装置の機能ブロック図である。
【
図7】第2実施形態における音声登録装置の各構成要素が実行する処理フローを示す図である。
【
図8】第3実施形態における音声登録装置の機能ブロック図である。
【
図9】第3実施形態における音声登録装置の各構成要素が実行する処理フローを示す図である。
【
図10】第4実施形態の音声登録装置の概略構成図を示す。
【
図11】第4実施形態において音声登録装置が実行するフローチャートの一例である。
【
図12】ログイン直後の音声登録画面を表示したスマートフォンの正面図を示す。
【
図13】音声登録開始アイコン選択後の音声登録画面を表示したスマートフォンの正面図を示す。
【
図14】サーバ装置とスマートフォンとを有する音声登録システムを示す。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら、検出装置、検出方法及び記憶媒体の実施形態について説明する。
【0011】
<第1実施形態>
(1)
機能ブロック
図1は、第1実施形態における音声登録装置1の機能的な構成を示すブロック図である。音声登録装置1は、話者を音声の照合により識別する話者音声システムにおいて、照合に用いる話者の音声を登録する登録フェーズを行う。なお、話者音声システムでは、登録フェーズに加えて、新しく入力された音声を発した話者が、登録フェーズにおいて登録された音声を発した対象話者と同一かどうかを判定する照合フェーズを行う。
【0012】
第1実施形態における音声登録装置1は、機能的には、音声入力部200と、音声登録部210と、雑音再生部220と、雑音再生音声入力同期部230と、を有する。なお、
図1では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは
図1に限定されない。後述する他のブロック図においても同様である。
【0013】
音声入力部200は、雑音再生音声入力同期部230の制御に基づき、ユーザの音声の入力を受け付けることで、ユーザの音声を示す音声データを生成する。音声登録部210は、音声入力部200が生成した音声データを、音声を発したユーザを識別するためのユーザ識別情報と関連付けて、当該ユーザの音声に関する照合用データとして登録音声データベース(DB:DataBase)に登録する。
【0014】
雑音再生部220は、雑音再生音声入力同期部230の制御に基づき、音声入力部200による音声入力が行われている期間(「音声入力期間」とも呼ぶ。)中に雑音の再生を行う。なお、ここでの「期間」は、秒単位での短い時間長である場合も含む。雑音再生音声入力同期部230は、音声入力部200と雑音再生部220の同期制御を行う。具体的には、雑音再生音声入力同期部230は、音声入力期間中に雑音再生部220が雑音の再生を行うように、雑音再生部220の制御を行う。言い換えると、雑音再生音声入力同期部230は、音声入力と同期して雑音データが再生されるように、雑音再生部220による再生を制御する。
【0015】
なお、音声登録装置1は、複数の装置により構成されてもよい。即ち、音声入力部200と、音声登録部210と、雑音再生部220と、雑音再生音声入力同期部230とは、複数の装置により構成された音声登録装置1により実現されてもよい。この場合、音声登録装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、有線又は無線での直接通信により又はネットワークを介した通信により相互に行う。この場合、音声登録装置1は、音声登録システムとして機能する。
【0016】
(2)
ハードウェア構成
図2は、各実施形態に共通する音声登録装置1のハードウェア構成の一例である。音声登録装置1は、ハードウェアとして、プロセッサ2と、メモリ3と、インターフェース4と、音入力装置5と、音出力装置6と、登録音声DB7とを含む。プロセッサ2、メモリ3及びインターフェース4は、データバス8を介して接続されている。
【0017】
プロセッサ2は、メモリ3に記憶されているプログラムを実行することにより、音声登録装置1の全体の制御を行うコントローラ(演算装置)として機能する。プロセッサ2は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)、FPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、量子プロセッサなどのプロセッサである。プロセッサ2は、複数のプロセッサから構成されてもよい。プロセッサ2は、音声登録部210及び雑音再生音声入力同期部230として機能する。また、プロセッサ2は、音入力装置5と共に音声入力部200として機能し、音出力装置6と共に雑音再生部220として機能する。また、プロセッサ2は、コンピュータの一例である。
【0018】
メモリ3は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ3には、音声登録装置1が実行する処理を実行するためのプログラムが記憶される。また、例えば、メモリ3には、雑音を再生するための1又は複数の雑音データ、発話を行うユーザのユーザ識別情報などの音声登録装置1の処理に必要な種々の情報が記憶される。なお、メモリ3が記憶する情報の一部は、音声登録装置1と通信可能な1又は複数の外部記憶装置により記憶されてもよく、音声登録装置1に対して着脱自在な記憶媒体により記憶されてもよい。
【0019】
インターフェース4は、音声登録装置1と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。本実施形態では、インターフェース4は、少なくとも、音入力装置5と、音出力装置6と、登録音声DB7とのインターフェース動作を行う。音入力装置5は、例えばマイクロフォンであり、検知した音に応じた電気信号を生成する。音出力装置6は、例えばスピーカであり、プロセッサ2の制御に基づき、指定された音データに応じた音を出力する。
【0020】
登録音声DB7は、プロセッサ2の制御に基づき、音声入力期間中において音入力装置5が生成した音声データを、話者を識別するためのユーザ識別情報と関連付けて記憶する。登録音声DB7は、登録された音声データを用いて話者の照合を行う照合フェーズにおいて用いられる。なお、照合フェーズは、音声登録装置1により実行されてもよく、登録音声DB7を参照する他の装置により行われてもよい。登録音声DB7は、メモリ3に格納されてもよく、音声登録装置1と通信可能な外部記憶装置に格納されてもよい。
【0021】
なお、音声登録装置1のハードウェア構成は、
図2に示す構成に限定されない。例えば、音声登録装置1は、音声入力以外の入力(例えばキーボード、ボタン、又はタッチパネル等による入力)を受け付ける入力装置、ディスプレイ又はプロジェクタなどの表示装置などをさらに含んでもよい。
【0022】
ここで、
図1において説明した音声入力部200、音声登録部210、雑音再生部220及び雑音再生音声入力同期部230の各要素は、例えば、プロセッサ2がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばFPGA(field-programmable gate array)又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ASSP(Application Specific Standard Produce)により構成されてもよい。このように、上述の各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
【0023】
(3)
処理フロー
図3は、
図1に示す音声登録装置1の各構成要素が実行する処理フローを示す図である。音声登録装置1は、1人のユーザに対する音声登録ごとに、
図3に示す処理フローを実行する。
【0024】
まず、雑音再生音声入力同期部230は、雑音再生部220に対して雑音再生開始命令を行う(ステップT1)。そして、雑音再生部220は、上記雑音再生開始命令に従い、雑音の再生を開始する(ステップT2)。
【0025】
次に、雑音再生音声入力同期部230は、音声入力部200に対して、音声入力開始命令を行う(ステップT3)。そして、音声入力部200は、上記音声入力開始命令に従い、ユーザの音声の入力を開始する(ステップT4)。
【0026】
その後、音声入力部200は、音声入力の終了タイミングを検知し、音声入力を完了する(ステップT5)。この場合、音声入力部200は、例えば、入力された音声データの音声認識等により所定のキーワードを検出した場合、又は、予め設けた発声終了ボタンの選択などの所定のユーザ入力を検出した場合に、音声入力の終了タイミングであると判定する。そして、音声入力部200は、雑音再生音声入力同期部230に音声入力完了通知を行う。
【0027】
雑音再生音声入力同期部230は、上記音声入力完了通知を受け取ると、雑音再生部220に対して、雑音再生終了命令を行う(ステップT6)。雑音再生部220は、上記雑音再生終了命令に従い、雑音の再生を完了する(ステップT7)。
【0028】
音声入力部200で音声入力開始から音声入力終了までの間に入力されたユーザの音声データは、音声登録部210に渡され、音声登録部210は、ユーザ識別情報と関連付けて音声データを登録音声DB7に登録する(ステップT8)。この時、音声登録部210は、音入力装置5が生成した音声データをそのまま登録する代わりに、音声登録部210において話者識別性能の高い話者特徴量を抽出し、抽出した話者特徴量を示す特徴量データを登録音声DB7に登録してもよい。以後では、登録音声DB7にユーザ識別情報と関連付けて登録する音声データ又は特徴量データの算出に用いた音声データを、「登録音声」とも呼ぶ。
【0029】
(4)第1実施形態による効果
次に、第1実施形態による効果について説明する。
【0030】
第1実施形態では、音声登録装置1は、ユーザの音声入力時に雑音を再生するように構成されている。これにより、音声登録装置1が照合用のユーザ音声を登録する登録音声DB7には、ロンバード効果による発音変形を起こした音声が登録されることが期待できる。よって、第1実施形態の音声登録装置1を用いて登録された音声を利用した話者照合システムの照合フェーズにおいて、雑音環境下での話者照合精度を向上させることができる。
【0031】
次に、ユーザの音声入力時に雑音再生を行わない比較例を用いて、第1実施形態の音声登録装置1の効果について補足説明する。
図4は、ユーザの音声入力時に雑音再生を行わない比較例に係る音声登録装置1aの構成例を示す。音声登録装置1aは、
図1に示される音声登録装置1の一部の構成要素に相当する、音声入力部200と、音声登録部210とを含む。
【0032】
図5は、音声登録装置1aの各構成要素が実行する処理フローを示す図である。音声登録装置1aは、
図3に示される音声登録装置1の処理フローの一部に相当する処理を実行する。具体的には、音声入力部200は、ユーザの音声入力を開始する(ステップT4)。そして、音声入力部200は、自動キーワード検出またはユーザからの発声終了ボタンの入力受付などにより、音声入力終了タイミングを決定し、音声入力を完了する(ステップT5)。音声入力部200で音声入力開始から音声入力終了までの間に入力されたユーザの音声データは、音声登録部210に渡され、音声登録部210は、ユーザ識別情報と共に音声データを登録音声DBに登録する(ステップT8)。この時、音声登録部210は、入力音声データをそのまま登録するのではなく、音声登録部210において話者識別性能の高い話者特徴量を抽出し、その特徴量データを登録してもよい。
【0033】
このように、比較例の構成では、話者照合システムの登録フェーズを静音環境下で行う。この場合、登録された音声データを用いて話者の照合を行う照合フェーズを例えば電車の往来がある線路沿いなどの背景雑音の大きな環境下で行った場合に、雑音の音量に負けないようにユーザが無意識に声を張り上げる現象(所謂ロンバード効果)が起こる。この場合、発声器官の形状が変化し、すなわち発声に含まれる話者の特徴が登録音声と大きく異なるように変化し、照合フェーズでの話者照合システムの照合精度が低下してしまう。
【0034】
以上を勘案し、第1実施形態に係る音声登録装置1は、登録フェーズにおいてユーザの音声入力時に雑音を再生することで、照合フェーズにおいて雑音環境下でのロンバード効果による話者照合精度の低下を好適に防ぐことができる。即ち、ロンバード効果による発音変形を起こした音声を登録フェーズにおいて登録しておくことで、照合フェーズにおいて、ロンバード効果を起こした音声同士で照合を行うことが可能となり、発音変形による音声間の差を好適に減少させて照合精度を向上させることができる。
【0035】
<第2実施形態>
図6は、第2実施形態における音声登録装置1Aの機能ブロック図である。第2実施形態に係る音声登録装置1Aは、十分に発音変形が起こるまで音声登録処理が繰り返される点において、第1実施形態の音声登録装置1と異なる。以後では、第1実施形態の音声登録装置1と同一構成要素となる第2実施形態の音声登録装置1Aの構成要素については、適宜同一符号を付し、その説明を省略する。
【0036】
図6に示すように、音声登録装置1Aは、再登録判定部240を備える。再登録判定部240は、音声入力期間において音声入力部200により生成された音声データと、静音環境下で同一話者が発声した登録済みの音声データ(「静音環境音声データ」とも呼ぶ。)との比較結果に基づき、音声データの再取得の要否(即ち音声データの登録の適否)を判定する。静音環境音声データは、例えば、ユーザ識別情報と関連付けられて登録音声DB7に予め記憶されている。
【0037】
再登録判定部240は、上記の比較により、発音変形が生じていると判定した場合に、音声入力部200により生成された音声データの登録音声DB7への登録を、音声登録部210に実行させる。例えば、再登録判定部240は、音声入力部200により生成された音声データと静音環境音声データとの特徴間距離が所定の閾値より大きい場合に、発音変形が生じていると判定する。上述の特徴間距離は、例えば、話者特徴量の特徴空間における距離(差異)である。再登録判定部240による判定の具体例については、後述の[実施例2]のセクションにおいて具体的に説明する。なお、再登録判定部240は、特徴間距離を算出する代わりに、音声入力部200により生成された音声データと静音環境音声データとを相互相関関数等によって直接比較して算出した類似度等に基づいて、発音変形の有無を判定してもよい。
【0038】
一方、再登録判定部240は、上記の比較により、発音変形が生じていないと判定した場合には、音声入力の再取得が必要であると判定し、音声入力期間を再び設け、音声入力を再度実行させる。例えば、再登録判定部240は、音声入力部200により生成された音声データと静音環境音声データとの特徴間距離が所定の閾値以下の場合に、発音変形が生じていないと判定する。
【0039】
好適には、音声入力の再取得が必要であると判定した場合、再登録判定部240は、雑音再生開始命令に、雑音再生部220のパラメータを変更する命令も加えるように、雑音再生音声入力同期部230に対して指示するとよい。具体的には、再登録判定部240は、上記のパラメータを変更する命令として、例えば、雑音の音量を所定度合い又は所定率だけ上げる、又は/及び、雑音の種類を変更する(即ち再生する雑音データを変更する)命令を指定する。
【0040】
図7は、第2実施形態における音声登録装置1Aの各構成要素が実行する処理フローを示す図である。音声登録装置1Aは、1人のユーザに対する音声登録ごとに
図7に示す処理フローを実行する。
図7のステップU1~ステップU4の処理は、第1実施形態において説明した
図3のステップT1~ステップT4の処理と同一のため、その説明を省略する。
【0041】
音声入力部200は、ステップU5において、音声入力の終了タイミングを検知し、音声入力を終了した後、生成した音声データを、音声登録部210を介して再登録判定部240に供給する。また、雑音再生音声入力同期部230は、ステップT6と同様に、雑音再生終了命令を雑音再生部220に対して行い(ステップU6)、雑音再生部220は、ステップT7と同様に、雑音再生終了命令に基づき雑音再生を終了する(ステップU7)。
【0042】
再登録判定部240は、ステップU5の後、音声入力部200が生成した音声データと、同一話者の登録済みの静音環境音声データとの比較を行うことで、音声データの再登録判定を行う(ステップU8)。そして、再登録判定部240は、発音変形が起こり、静音環境下での登録音声との差分が大きいと判定した場合(ステップU8;YES)、音声登録部210に音声データを供給し、音声登録部210に登録音声DB7への音声データの登録を実行させる(ステップU9)。
【0043】
一方、再登録判定部240は、発音変形が十分に起こらず、静音環境下での登録音声との差分が小さいと判定した場合(ステップU8;NO)、雑音再生のパラメータを変更する命令も加えた雑音再生部220への雑音再生開始命令を、雑音再生音声入力同期部230に実行させる(ステップU1)。以降、再びステップU2以降の処理が再実行される。
【0044】
以上説明したように、第2実施形態に係る音声登録装置1Aは、十分に発音変形が起こるまで音声登録処理を繰り返す。これにより、登録された音声を利用した照合フェーズにおいて、雑音環境下での話者照合精度の向上が、より多くの話者で得ることができるようになる。
【0045】
<第3実施形態>
図8は、第3実施形態における音声登録装置1Bの機能ブロック図である。第3実施形態に係る音声登録装置1Bは、エコーキャンセラーを用いることにより、雑音再生部220による再生に起因した雑音を除去して登録音声のSN比を向上させる点において、第1実施形態の音声登録装置1と異なる。以後では、第1実施形態の音声登録装置1と同一構成要素となる第3実施形態の音声登録装置1Bの構成要素については、適宜同一符号を付し、その説明を省略する。
【0046】
図8に示すように、音声登録装置1Bは、エコーキャンセラー部250を有する。エコーキャンセラー部250は、音声入力部200が生成した音声データに対してエコーキャンセラーを適用することで、再生雑音を除去した音声データを生成する。そして、エコーキャンセラー部250は、エコーキャンセラー適用後の音声データを、音声登録部210に供給し、音声登録部210は、エコーキャンセラー適用後の音声データを、ユーザ識別情報と関連付けて登録音声DB7に登録する。なお、音声登録部210は、エコーキャンセラー適用後の音声データを登録音声DB7に登録する代わりに、エコーキャンセラー適用後の音声データの話者特徴量を示す特徴量データを登録音声DB7に登録してもよい。
【0047】
図9は、第3実施形態における音声登録装置1Bの各構成要素が実行する処理フローを示す図である。音声登録装置1Bは、1人のユーザに対する音声登録ごとに
図9に示す処理フローを実行する。
図9のステップV1~ステップV4の処理は、第1実施形態において説明した
図3のステップT1~ステップT4の処理と同一のため、その説明を省略する。
【0048】
音声入力部200は、ステップV5において、音声入力の終了タイミングを検知し、音声入力を終了した後、生成した音声データを、音声登録部210を介してエコーキャンセラー部250に供給する。また、雑音再生音声入力同期部230は、ステップT6と同様に、雑音再生終了命令を雑音再生部220に対して行い(ステップV6)、雑音再生部220は、ステップT7と同様に、雑音再生終了命令に基づき雑音再生を終了する(ステップV7)。
【0049】
エコーキャンセラー部250は、ステップV5の後、音声入力部200が生成した音声データに対して、エコーキャンセラーを適用することで、再生雑音の除去を行う(ステップV8)。ここで、音声入力部200が生成した音声データは、雑音再生部220で用いられた既知の雑音データが回り込んで録音されていると考えられることから、雑音再生部220での再生に起因した雑音成分が含まれている。よって、エコーキャンセラー部250は、エコーキャンセラーを音声データに適用することで、再生時の雑音が好適に除去された音声データを生成することができる。その後、第1実施形態と同様に、音声登録部210は、雑音除去済みの音声データ又はその話者特徴量を示す特徴量データを、ユーザ識別情報と関連付けて登録音声DB7に登録する(ステップV9)。
【0050】
第3実施形態に係る音声登録装置1Bは、エコーキャンセラーを用いることにより、登録音声のSN比を向上させることができる。これにより、第3実施形態の音声登録装置1Bにより生成又は更新された登録音声DB7を利用した話者照合システムの照合フェーズでは、静音環境下を含めた異なる種類の雑音環境下においても話者照合精度を向上させることができる。
【0051】
<第4実施形態>
図10は、第4実施形態の音声登録装置1Xの概略構成図を示す。音声登録装置1Xは、主に、雑音再生手段220Xと、音声データ取得手段200Xと、音声登録手段210Xとを有する。なお、音声登録装置1Xは、複数の装置から構成されてもよい。例えば、音声登録装置1Xは、第1実施形態~第3実施形態における音声登録装置1、音声登録装置1A、又は音声登録装置1Bとすることができる。
【0052】
雑音再生手段220Xは、ユーザの音声入力が行われる期間において雑音データを再生する。ここで、「雑音データを再生する」には、雑音再生手段220Xが自ら音を出力する態様に限られず、雑音データに基づく音が出力されるように音声登録装置1X内の他の構成要素又は外部装置に雑音データの再生信号等を送信する態様も含まれる。例えば、雑音再生手段220Xは、第1実施形態~第3実施形態における雑音再生部220とすることができる。
【0053】
音声データ取得手段200Xは、音声入力に基づく音声データを取得する。ここで、「音声データを取得する」には、音声データ取得手段200Xが自ら音声データを生成する態様に限られず、他の装置が生成した音声データを取得する態様も含まれる。例えば、音声データ取得手段200Xは、第1実施形態~第3実施形態における音声入力部200とすることができる。
【0054】
音声登録手段210Xは、音声データ、または、音声データに基づき生成したデータを、ユーザの音声に関する照合用データとして登録する。照合用データとして登録する場所(データベース)は、音声登録装置1Xが備えるメモリに限らず、音声登録装置1X以外の記憶装置であってもよい。音声登録手段210Xは、例えば、第1実施形態~第3実施形態における音声登録部210とすることができる。
【0055】
図11は、第4実施形態において音声登録装置1Xが実行するフローチャートの一例である。まず、雑音再生手段220Xは、ユーザの音声入力が行われる期間において雑音データを再生する(ステップS1)。音声データ取得手段200Xは、音声入力に基づく音声データを取得する(ステップS2)。音声登録手段210Xは、音声データ、または、音声データに基づき生成したデータを、ユーザの音声に関する照合用データとして登録する(ステップS3)。
【0056】
第4実施形態によれば、音声登録装置1Xは、登録フェーズにおいてユーザの音声入力時に雑音を再生することで、照合フェーズでの雑音環境下でのロンバード効果による話者照合精度の低下を好適に防ぐことができる。
【0057】
<実施例>
次に、第1~第4実施形態に関する具体的な実施例(実施例1及び実施例2)について説明する。
【0058】
[実施例1]
音声登録プログラムが実装されたスマートフォン500は、スマートフォンに内蔵されたマイクロフォンおよびスピーカを用いて、音声入力および音声出力を行う。この場合、スマートフォンは、第1実施形態~第4実施形態における音声登録装置の一例である。スマートフォンには、音声登録プログラムが予めインストールされている。
【0059】
まず、音声照合以外のなんらかの認証方法(例えばログインIDとパスワードによる認証)により音声登録プログラムへのログインを行うと、スマートフォン500は、GUI(Graphical User Interface)を表示し、第1実施形態~第4実施形態において説明した登録フェーズを開始する。
【0060】
具体的には、スマートフォン500は、音声登録プログラムに基づき、「音声登録開始アイコン」を含む音声登録画面を表示し、「音声登録開始アイコン」が選択されたことを検知すると、雑音再生部220がスピーカから雑音の再生を行う。雑音再生が正常に開始された後、マイクロフォンからの録音を開始して音声登録画面上に「“ひらけごま”と話してください」といったメッセージを表示し、ユーザからの音声入力を受け付ける。このメッセージの文面は例示であり、他の文面でも構わない。また固定のキーフレーズであるとも限らない。また、この時ロンバード効果を起こしやすくするために、マイクに入力される音声の音量を示すボリュームメータを表示し、かつ一定以上の音量の場合に色を変更してもよい。
【0061】
また、スマートフォン500は、待ち受け時に「発話終了アイコン」を表示し、ユーザがそれをタップする、または「ひらけごま」という発話の自動キーワード検出を行うことで、ユーザからの発話の終了を検知すると、スピーカからの雑音の再生を終了する。
【0062】
図12は、ログイン直後の音声登録画面を表示したスマートフォン500の正面図を示す。
図13は、音声登録開始アイコン選択後の音声登録画面を表示したスマートフォン500の正面図を示す。
【0063】
図12では、ユーザのログイン認証後に、スマートフォン500は、音声登録開始アイコン50を含む音声登録画面を表示する。そして、スマートフォン500は、音声登録開始アイコン50が選択されたことを検知した場合、
図13に示す音声登録画面を表示する。
図13に示す音声登録画面は、音声登録に関するメッセージ51と、ボリュームメータ52と、発話終了アイコン53とを含んでいる。
【0064】
スマートフォン500は、メッセージ51として、雑音を再生中である旨の通知、所定のキーワードの発話の指示、及び発話の音量に関する指示を夫々示すテキスト文を表示する。また、スマートフォン500は、入力された音声の音量に応じて、ボリュームメータ52のメータ長及び色を変化させる。ここでは、スマートフォン500は、音声の音量が目標音量である場合にボリュームメータ52を青色とし、音声の音量が目標音量外である場合にボリュームメータ52を青以外の色(例えば赤色)とする。目標音量は、ロンバード効果が起こりやすい音量の範囲(及び音割れが生じない範囲)となるように予め決定され、スマートフォン500のメモリ等に記憶されている。このように、スマートフォン500は、入力音声の音量が目標音量の範囲内か否かに基づいてボリュームメータ52の表示態様を決定することで、音声入力時に適切な音量の目安となる情報を、ユーザに提示することができる。
【0065】
また、スマートフォン500は、発話終了アイコン53が選択されたことを検知した場合、入力された音声データ又はその特徴量を示す特徴量データを、音声登録プログラムへのログインに用いられたユーザIDと関連付けて登録音声DB7に記憶する。
【0066】
ここで、スマートフォン500は、入力された音声を、MFCC(Mel-Frequency Cepstral Coefficients)などの時系列音響特徴量や、i-vectorなどの発声特徴量や、話者識別を目的タスクとして学習されたニューラルネットワークのボトルネック特徴量を抽出した話者特徴量に変換してもよい。さらに、スマートフォン500は、特徴量抽出後に、平均正規化、LDA(Linear Discriminant Analysis)やノルム正規化などの処理を行ってもよい。これらの場合、スマートフォン500は、上述の処理により得られたデータを、音声登録プログラムへのログインに用いられたユーザIDと関連付けて登録音声DB7に記憶する。
【0067】
なお、雑音環境下での発話だけでなく、静音環境下での発話も登録した方がよい場合がある。この場合、スマートフォン500は、上記雑音再生を、当該ユーザの二度目以降の登録のみで(即ち静音環境下での発話登録後に)行ってもよい。この場合、二度目以降の登録では、スマートフォン500は、静音環境下で一度目に登録された音声データを用いて、第2実施形態において説明した再登録判定部240の処理を実行してもよい。また、スマートフォン500は、雑音再生の有無に関するユーザ設定を受け付け、雑音再生有りの設定の時のみ、上記雑音再生を行ってもよい。
【0068】
音声照合システムによる照合フェーズでは、音声照合システム(例えばスマートフォン500)は、登録フェーズと雑音再生を除き同一処理を行うことで、ユーザからの照合音声の入力を受け付ける。これにより、音声照合システムは、登録音声DB7に登録されたデータと照合する照合音声又はその照合音声特徴量を得る。音声照合システムは、上記照合音声または照合音声特徴量と、登録音声DB7上の全ての登録音声または登録音声特徴量との照合スコアを、コサイン距離や、PLDA(Probabilistic Linear Discriminant Analysis)などによって算出する。そして、照合スコアの最大値が予め設定された閾値を超えた場合、音声照合システムは、照合スコアが最大値となった登録音声又は登録特徴量に紐づくユーザとして、照合が成功したと判定する。なお、照合スコアの最大値に基づきユーザを認証する手法は単なる例示であり、特徴量の平均を用いて照合するなど他のいかなる照合手法を用いても構わない。
【0069】
なお、第1実施例では、スマートフォン500上で動作するプログラム(音声登録プログラム)を主な実行主体として説明を行ったが、スマートフォン500以外の任意の機器を主な実行主体として登録フェーズが行われてもよい。例えば、ネットワークを介してスマートフォン500と接続するサーバ装置が第1~第4実施形態における音声登録装置として機能し、登録フェーズを実行してもよい。
図14は、サーバ装置750とスマートフォン500とを有する音声登録システムを示す。サーバ装置750は、ネットワーク9を介してスマートフォン500に対して制御信号を送信することで、スマートフォン500の音入力装置(マイクロフォン)及び音出力装置(スピーカ)を制御し、第1実施形態~第4実施形態における音声登録装置として機能する。そして、サーバ装置750は、登録音声DB7を有し、音声登録期間中にスマートフォン500が生成した音声データを受信し、受信した音声データ又はその特徴量等を示すデータを、ユーザ識別情報と関連付けて登録音声DB7に記憶する。この態様によっても、サーバ装置750は、登録フェーズを好適に実行することができる。
【0070】
[実施例2]
実施例2は、第2実施形態に対する具体的な実施例であり、再登録判定部240に関する処理をさらに行う点で第1実施例と異なる。
【0071】
具体的には、実施例2では、スマートフォン500は、音声入力期間中に生成された音声データから抽出した話者特徴量と、予め登録済みの静音環境音声データの話者特徴量との類似度に相当する照合スコアを、照合フェーズと同様の処理を用いて算出する。そして、算出された照合スコアが予め設定された再登録判定用の閾値を超えていた場合、スマートフォン500は、入力された音声データと静音環境音声データとの差異が小さく、ロンバード効果による発音変形が不十分だと判定し、その旨を通知するメッセージと「音声登録開始アイコン」をGUI上で表示し、音声データの入力を受け付ける処理を行う。また、この場合、スマートフォン500は、雑音の再生ボリュームを上げたり、再生する雑音データを変更したりすることで、再度の音声入力期間中での雑音再生の態様を、発音変形が不十分と判定された音声データの音声入力期間中での雑音再生の態様と異ならせる。
【0072】
なお、上述した各実施形態及び各実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0073】
その他、上記の各実施形態及び各実施例の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
【0074】
[付記1]
ユーザの音声入力が行われる期間において雑音データを再生する雑音再生手段と、
前記音声入力に基づく音声データを取得する音声データ取得手段と、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する音声登録手段と、
を有する音声登録装置。
[付記2]
前記音声入力と同期するように前記雑音データの再生を制御する雑音再生音声入力同期手段をさらに有する、付記1に記載の音声登録装置。
[付記3]
静音環境下において前記ユーザが発声した登録済みの音声データである静音環境音声データと前記音声入力に基づく音声データとの比較結果に基づき、前記音声データ取得手段による前記音声データの再取得の要否を判定する再登録判定手段をさらに有する、付記1または2に記載の音声登録装置。
[付記4]
前記再登録判定手段は、前記静音環境音声データと、前記音声入力に基づく音声データとの間の特徴間距離が所定の閾値以下である場合に、前記音声データ取得手段による前記音声データの再取得が必要と判定する、付記3に記載の音声登録装置。
[付記5]
前記雑音再生手段は、前記音声データ取得手段による前記音声データの再取得が必要と前記再登録判定手段により判定された場合、前記雑音データの再度の再生時でのパラメータを変更する、付記3または4に記載の音声登録装置。
[付記6]
前記雑音再生手段は、前記パラメータの変更として、前記雑音データの再生音量を増加する、又は、再生する前記雑音データを変更する、付記5に記載の音声登録装置。
[付記7]
前記雑音データに基づき、前記音声データから雑音を除去するエコーキャンセラー手段をさらに有する、付記1~6のいずれか一項に記載の音声登録装置。
[付記8]
前記期間において入力された音声の音量を示すメータを表示する表示制御手段をさらに有する、付記1~7のいずれか一項に記載の音声登録装置。
[付記9]
前記表示制御手段は、前記音量が目標の音量の範囲であるか否かに基づき、前記メータの表示態様を決定する、付記8に記載の音声登録装置。
[付記10]
前記音声登録装置は、互いに通信可能な複数の装置により構成される、付記1~9のいずれか一項に記載の音声登録装置。
[付記11]
音入力装置と、音出力装置とを有する端末装置と通信を行うサーバ装置である、付記1~10のいずれか一項に記載の音声登録装置。
[付記12]
コンピュータにより、
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する、制御方法。
[付記13]
ユーザの音声入力が行われる期間において雑音データを再生し、
前記音声入力に基づく音声データを取得し、
前記音声データ、または、前記音声データに基づき生成したデータを、前記ユーザの音声に関する照合用データとして登録する処理をコンピュータに実行させるプログラム。
[付記14]
付記13に記載のプログラムを格納した記憶媒体。
【0075】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
【産業上の利用可能性】
【0076】
スマートスピーカー、カーナビケーションシステム、ロボット、携帯電話やヒアラブルデバイスといったデバイスで用いる話者照合用途に適用することができる。
【符号の説明】
【0077】
1、1a、1A、1B、1X 音声登録装置
200 音声入力部
210 音声登録部
220 雑音再生部
230 雑音再生音声入力同期部
240 再登録判定部
250 エコーキャンセラー部
500 スマートフォン
750 サーバ装置