IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックIPマネジメント株式会社の特許一覧

<>
  • 特開-音声認証装置および音声認証方法 図1
  • 特開-音声認証装置および音声認証方法 図2
  • 特開-音声認証装置および音声認証方法 図3
  • 特開-音声認証装置および音声認証方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023139711
(43)【公開日】2023-10-04
(54)【発明の名称】音声認証装置および音声認証方法
(51)【国際特許分類】
   G10L 17/20 20130101AFI20230927BHJP
   G10L 25/84 20130101ALI20230927BHJP
【FI】
G10L17/20
G10L25/84
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022045389
(22)【出願日】2022-03-22
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】弁理士法人栄光事務所
(72)【発明者】
【氏名】宮本 正成
(57)【要約】
【課題】音声データ環境雑音の変化に起因する話者認証精度の低下を抑制する。
【解決手段】音声認証装置は、音声データを取得する取得部と、取得された音声データから話者が発話している発話区間と、話者が発話していない非発話区間とを検出する検出部と、事前に登録された複数の話者のそれぞれの音声データに非発話区間の音声データを合成する合成部と、非発話区間の音声データが合成された複数の合成音声データと、発話区間の音声データとに基づいて、話者を認証する認証部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声データを取得する取得部と、
取得された前記音声データから話者が発話している発話区間と、前記話者が発話していない非発話区間とを検出する検出部と、
事前に登録された複数の話者のそれぞれの音声データに前記非発話区間の音声データを合成する合成部と、
前記非発話区間の音声データが合成された複数の合成音声データと、前記発話区間の音声データとに基づいて、前記話者を認証する認証部と、を備える、
音声認証装置。
【請求項2】
前記音声データから話者の特徴量を抽出する抽出部、をさらに備え、
前記認証部は、抽出された前記複数の合成音声データの特徴量と、前記発話区間の音声データの特徴量とに基づいて、前記話者を認証する、
請求項1に記載の音声認証装置。
【請求項3】
前記複数の合成音声データと、前記発話区間の音声データとの類似度を算出する算出部、をさらに備え、
前記認証部は、算出された複数の前記類似度に基づいて、前記話者を認証する、
請求項1に記載の音声認証装置。
【請求項4】
前記認証部は、算出された前記類似度が閾値以上であるか否かを判定し、前記類似度が前記閾値以上であると判定された音声合成データに対応する話者を前記話者であると特定する、
請求項3に記載の音声認証装置。
【請求項5】
前記認証部は、前記類似度が前記閾値以上である前記話者に関する情報を含む認証結果画面を生成して、出力する、
請求項4に記載の音声認証装置。
【請求項6】
前記認証部は、算出された前記複数の類似度が前記閾値以上でないと判定した場合、前記話者を特定不可であると判定する、
請求項5に記載の音声認証装置。
【請求項7】
前記検出部は、前記非発話区間に含まれるノイズを抽出し、
前記合成部は、前記複数の話者のそれぞれの前記音声データに前記ノイズを合成する、
請求項1に記載の音声認証装置。
【請求項8】
音声データを取得し、
取得された前記音声データから話者が発話している発話区間と、前記話者が発話していない非発話区間とを検出し、
事前に登録された複数の話者のそれぞれの音声データに前記非発話区間の音声データを合成し、
前記非発話区間の音声データが合成された複数の合成音声データと、前記発話区間の音声データとに基づいて、前記話者を認証する、
音声認証方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認証装置および音声認証方法に関する。
【背景技術】
【0002】
特許文献1には、雑音を含む認識対象としての音声信号を入力し、入力された音声信号から雑音を除去し、雑音除去後の信号に既知雑音を付加し、雑音付加後の信号を音声認識用パラメータに変換し、パラメータを音響モデルと比較して音声認識を行う音声認識装置が開示されている。なお、ここでいう既知雑音とは、音声認識装置において参照されるパターンや統計的手法における音響モデル学習時に背景雑音として学習されたもの、あるいはそれと同様の特性を有する雑音である。音声認識装置は、入力された音声信号に既知雑音を付加することで、除去し切れなかった消し残り雑音を含む音声信号と、予め容易された音響モデルで認識される音声信号との齟齬を低減し、音声認識の精度を向上させる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-12884号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、音声信号を用いた声紋認証を行う場合、事前に登録される音声信号は、静かで雑音が発生しにくい環境で収音されることが多い。よって、既知雑音が付加された音声信号と、登録された音声信号とを用いて声紋認証を実行する場合には、付加された既知雑音により声紋認証精度が低下する可能性があった。
【0005】
本開示は、上述した従来の状況に鑑みて案出され、環境雑音の変化に起因する話者認証精度の低下を抑制する音声認証装置および音声認証方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示は、音声データを取得する取得部と、取得された前記音声データから話者が発話している発話区間と、前記話者が発話していない非発話区間とを検出する検出部と、事前に登録された複数の話者のそれぞれの音声データに前記非発話区間の音声データを合成する合成部と、前記非発話区間の音声データが合成された複数の合成音声データと、前記発話区間の音声データとに基づいて、前記話者を認証する認証部と、を備える、音声認証装置を提供する。
【0007】
また、本開示は、音声データを取得し、取得された前記音声データから話者が発話している発話区間と、前記話者が発話していない非発話区間とを検出し、事前に登録された複数の話者のそれぞれの音声データに前記非発話区間の音声データを合成し、前記非発話区間の音声データが合成された複数の合成音声データと、前記発話区間の音声データとに基づいて、前記話者を認証する、音声認証方法を提供する。
【発明の効果】
【0008】
本開示によれば、環境雑音の変化に起因する話者認証精度の低下を抑制できる。
【図面の簡単な説明】
【0009】
図1】実施の形態に係る音声認証システムの内部構成例を示すブロック図
図2】実施の形態における端末装置のプロセッサが行う各処理について説明する図
図3】実施の形態における端末装置の動作手順例を示すフローチャート
図4】実施の形態における端末装置の話者認証手順例を示すフローチャート
【発明を実施するための形態】
【0010】
以下、適宜図面を参照しながら、本開示に係る音声認証装置および音声認証方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0011】
まず、図1および図2を参照して、実施の形態に係る音声認証システム100について説明する。図1は、実施の形態に係る音声認証システム100の内部構成例を示すブロック図である。図2は、実施の形態における端末装置P1のプロセッサ11が行う各処理について説明する図である。
【0012】
音声認証システム100は、音声認証装置の一例としての端末装置P1と、モニタMNとを含む。なお、音声認証システム100は、マイクMKあるいはモニタMNを含む構成であってもよい。
【0013】
マイクMKは、端末装置P1に事前に登録される話者USの発話音声を収音する。マイクMKは、収音された話者USの発話音声を、端末装置P1に登録される音声信号または音声データに変換する。マイクMKは、変換された音声信号または音声データを、通信部10を介してプロセッサ11に送信する。
【0014】
また、マイクMKは、話者認証に用いられる話者USの発話音声を収音する。マイクMKは、収音された話者USの発話音声を音声信号または音声データに変換する。マイクMKは、変換された音声信号または音声データを、通信部10を介してプロセッサ11に送信する。
【0015】
なお、マイクMKは、例えば、PC(Personal Computer)、ノートPC、スマートフォン、タブレット端末等の所定の装置が備えるマイクであってもよい。また、マイクMKは、ネットワーク(不図示)を介した無線通信により、音声信号または音声データを端末装置P1に送信してもよい。なお、以降の説明では、音声データを用いた話者認証処理について説明する。
【0016】
端末装置P1は、例えば、PC、ノートPC、スマートフォン、タブレット端末等により実現され、話者USの発話音声に基づく話者認証を実行する。通信部10と、プロセッサ11と、メモリ12と、特徴量抽出モデルデータベースDB1と、登録話者データベースDB2と、類似度計算モデルデータベースDB3と、を含む。
【0017】
取得部の一例としての通信部10は、マイクMKと、モニタMNとの間でデータ送受信可能に有線通信あるいは無線通信可能に接続される。ここでいう無線通信は、例えばBluetooth(登録商標)、NFC(登録商標)等の近距離無線通信、またはWi-Fi(登録商標)等の無線LAN(Local Area Network)を介した通信である。
【0018】
なお、通信部10は、USB(Universal Serial Bus)等のインターフェースを介してマイクMKとの間でデータ送受信を実行してもよい。また、通信部10は、HDMI(High-Definition Multimedia Interface,登録商標)等のインターフェースを介してモニタMNとの間でデータ送受信を実行してもよい。
【0019】
プロセッサ11は、例えばCPU(Central Processing Unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ12と協働して、各種の処理および制御を行う。具体的には、プロセッサ11は、メモリ12に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、話者登録部111、ノイズ抽出部112、ノイズ合成部113、第1特徴量抽出部114、第2特徴量抽出部115、認証部116等の各部の機能を実現する。
【0020】
プロセッサ11は、話者USの音声登録時に、話者登録部111の機能を実現することで、登録話者データベースDB2への話者USの音声データの登録(格納)を実行する。また、プロセッサ11は、話者USの音声認証時に、ノイズ抽出部112、ノイズ合成部113、第1特徴量抽出部114、第2特徴量抽出部115、認証部116の各部の機能を実現することで、話者認証処理を実行する。
【0021】
話者登録部111は、マイクMKから送信された話者USの音声データと、話者USの話者情報とを対応付けて、登録話者データベースDB2に登録する。
【0022】
なお、話者情報は、音声データから音声認識により抽出されてもよいし、話者USが所有する端末(例えば、PC、ノートPC、スマートフォン,タブレット端末)から取得されてもよい。また、ここでいう話者情報は、例えば、話者USを識別可能な識別情報、話者USの氏名、話者ID(Identification)等である。
【0023】
検出部の一例としてのノイズ抽出部112は、マイクMKから送信された話者USの音声データを取得する。ノイズ抽出部112は、音声データのうち話者USが発話している発話区間と、話者USが発話していない区間(以降、「非発話区間」と表記)とを検出する。ノイズ抽出部112は、検出された非発話区間に含まれるノイズを抽出し、抽出されたノイズのデータ(以降、「ノイズデータ」と表記)をノイズ合成部113に出力する。
【0024】
ここでいうノイズは、収音時の環境(背景)に起因して収音されたノイズであって、例えば、収音時の周囲の話し声、音楽、車両の走行音、風の音等である。
【0025】
合成部の一例としてのノイズ合成部113は、ノイズ抽出部112から出力されたノイズデータを取得する。ノイズ合成部113は、登録話者データベースDB2に登録された複数の話者の登録音声データのそれぞれに取得されたノイズデータを合成し、第1特徴量抽出部114に出力する。
【0026】
抽出部の一例としての第1特徴量抽出部114は、ノイズ合成部113からノイズデータが合成された複数の話者の登録音声データのそれぞれを取得する。第1特徴量抽出部114は、特徴量抽出モデルデータベースDB1に格納された特徴量抽出モデルを用いて、複数の話者の登録音声データのそれぞれから各話者の個人性を示す特徴量を抽出する。第1特徴量抽出部114は、複数の話者のそれぞれの特徴量を認証部116に出力する。
【0027】
抽出部の一例としての第2特徴量抽出部115は、マイクMKから送信された話者USの音声データを取得する。第2特徴量抽出部115は、特徴量抽出モデルデータベースDB1に格納された特徴量抽出モデルを用いて、話者USの音声データから話者USの個人性を示す特徴量を抽出する。第2特徴量抽出部115は、話者USの特徴量を認証部116に出力する。
【0028】
算出部の一例としての認証部116は、第1特徴量抽出部114から出力された複数の話者のそれぞれの特徴量と、第2特徴量抽出部115から出力された話者USの特徴量との類似度を、類似度計算モデルデータベースDB3に格納された類似度計算モデルを用いて算出する。認証部116は、算出された類似度に基づいて、話者USを特定する。認証部116は、特定された話者USの話者情報に基づいて、認証結果画面SCを生成して、モニタMNに出力する。
【0029】
メモリ12は、例えばプロセッサ11の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ11の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ11により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ11の動作を規定するプログラムが書き込まれている。
【0030】
特徴量抽出モデルデータベースDB1は、所謂ストレージであって、例えばフラッシュメモリ、HDD(Hard Disk Drive)あるいはSSD(Solid State Drive)等の記憶媒体を用いて構成される。特徴量抽出モデルデータベースDB1は、音声データから話者US等の人物の発話区間を検出し、人物の特徴量を抽出可能な特徴量抽出モデルを格納する。特徴量抽出モデルは、例えば、ディープラーニング等を用いた学習により生成された学習モデルである。
【0031】
登録話者データベースDB2は、所謂ストレージであって、例えばフラッシュメモリ、HDDあるいはSSD等の記憶媒体を用いて構成される。登録話者データベースDB2は、事前に登録された複数の話者のそれぞれの音声データと、話者情報とを対応付けて格納する。
【0032】
類似度計算モデルデータベースDB3は、所謂ストレージであって、例えばフラッシュメモリ、HDDあるいはSSD等の記憶媒体を用いて構成される。類似度計算モデルデータベースDB3は、2つの特徴量の類似度を算出可能な類似度計算モデルを格納する。類似度計算モデルは、例えば、ディープラーニング等を用いた学習により生成された学習モデルである。
【0033】
例えば、類似度計算モデルは、2つの多次元ベクトルの類似度を高精度に算出するために、個人性の表れやすい次元を事前学習しておき保持しておくものである。なお、モデルを利用した類似度の算出方法は、ベクトル間の類似度計算における手法のあくまで一例であって、ユークリッド距離やコサイン類似度などの既出の技術が用いられてもよい。
【0034】
モニタMNは、例えばLCD(Liquid Crystal Display)または有機EL(Electroluminescence)等のディスプレイを用いて構成される。モニタMNは、端末装置P1から出力された認証結果画面SCを表示する。
【0035】
認証結果画面SCは、話者認証結果を話者USあるいは管理者(例えば、モニタMNを視聴する人物等)に通知する画面であって、認証結果情報「XX XXさんの声と一致しました。」を含む。認証結果画面SCは、他の話者情報(例えば、顔画像等)を含んでもよい。
【0036】
次に、図3を参照して、端末装置P1の動作手順について説明する。図3は、実施の形態における端末装置P1の動作手順例を示すフローチャートである。
【0037】
端末装置P1は、マイクMKから音声データを取得する(St11)。なお、マイクMKは、例えば、PC、ノートPC、スマートフォン、タブレット端末が備えるマイクであってもよい。
【0038】
端末装置P1は、取得された音声データに対応付けられた制御指令、あるいは話者情報に基づいて、登録話者データベースDB2に登録するか否かを判定する(St12)。なお、取得された音声データにノイズが多く含まれている場合には、登録話者データベースDB2に登録せず、再度マイクMKから音声データを取得してもよい。音声データに含まれるノイズ量を一定値以下にすることにより、話者認証精度を向上することができる。
【0039】
端末装置P1は、ステップSt12の処理において、音声データに音声データの登録を要求する制御指令あるいは話者情報が対応付けられている場合には、登録話者データベースDB2に登録すると判定し(St12,YES)、音声データと話者情報とを対応付けて、登録話者データベースDB2に登録する(St14)。
【0040】
端末装置P1は、ステップSt12の処理において、音声データに音声データの登録を要求する制御指令が対応付けられていない場合には、登録話者データベースDB2に登録しないと判定し(St12,NO)、音声データのうち非発話区間に含まれるノイズを抽出する(St13)。ここでいうノイズは、ノイズであって、音声データが収音された時の周囲の環境雑音、雑音等である。
【0041】
端末装置P1は、登録話者データベースDB2に格納(登録)された複数の話者のそれぞれの音声データに、抽出されたノイズデータを合成する(St15)。
【0042】
端末装置P1は、ノイズ合成後の複数の話者のそれぞれの音声データから、登録話者データベースDB2に登録された各話者の個人性を示す特徴量を抽出する(St16)。
【0043】
端末装置P1は、取得された音声データの発話区間から話者USの個人性を示す特徴量を抽出する(St17)。
【0044】
端末装置P1は、抽出された話者USの特徴量と、複数の話者のそれぞれの特徴量とに基づいて、話者認証処理を実行する(St20)。
【0045】
以上により、端末装置P1は、話者認証に用いられる音声データから抽出されたノイズを、登録話者データベースDB2に登録された複数の話者のそれぞれの音声データに合成することで、音声データに含まれるノイズに起因する話者認証精度の低下をより効果的に抑制できる。
【0046】
次に、図4を参照して、図3に示すステップSt20に示す話者認証手順について説明する。図4は、実施の形態における端末装置P1の話者認証手順例を示すフローチャートである。
【0047】
端末装置P1は、類似度計算モデルデータベースDB3から類似度計算モデルを読み込む(St21)。
【0048】
端末装置P1は、取得された話者USの特徴量と、ノイズ合成後の複数の話者のそれぞれの特徴量との類似度をそれぞれ算出する(St22)。
【0049】
端末装置P1は、算出された類似度のそれぞれのうち閾値以上の類似度があるか否かを判定する(St23)。
【0050】
端末装置P1は、ステップSt23の処理において、算出された類似度のそれぞれのうち閾値以上の類似度があると判定した場合(St23,YES)、閾値以上であると判定され類似度に対応する話者情報に基づいて、話者USを特定する(St24)。なお、端末装置P1は、閾値以上であると判定された類似度が複数ある場合には、算出された類似度が最も高い類似度に対応する話者情報に基づいて、話者USを特定してもよい。
【0051】
端末装置P1は、ステップSt23の処理において、算出された類似度のそれぞれのうち閾値以上の類似度がないと判定した場合(St23,NO)、話者USを特定不可であると判定する(St25)。
【0052】
端末装置P1は、特定された話者USの話者情報に基づいて、認証結果画面SCを生成する。端末装置P1は、生成された認証結果画面SCをモニタMNに出力して、表示させる(St26)。
【0053】
以上により、端末装置P1は、音声登録時の話者USの音声データにノイズが含まれず、音声認証時の話者USの音声データにノイズが含まれる場合であっても、話者認証精度の低下をより効果的に抑制できる。つまり、端末装置P1は、環境雑音(ノイズ)の変化に起因する話者認証精度の低下をより効果的に抑制できる。
【0054】
なお、端末装置P1は、音声登録時の話者USの音声データにノイズが含まれるか否かを判定してもよい。例えば、端末装置P1は、音声登録時の音声データに含まれるノイズが閾値未満であると判定した場合、音声データがノイズを含んでいないと判定し、音声登録処理を実行してもよい。この閾値は、例えば、特徴量を用いた話者認証処理において無視可能なノイズ、あるいは誤認証を誘発しない程度のノイズであるか否かを判定するための任意の値が設定されてよい。
【0055】
以上により、実施の形態に係る端末装置P1(音声認証装置の一例)は、音声データを取得する通信部10(取得部の一例)と、取得された音声データから話者が発話している発話区間と、話者USが発話していない非発話区間とを検出するノイズ抽出部112(検出部の一例)と、事前に登録された複数の話者のそれぞれの音声データに非発話区間の音声データを合成するノイズ合成部113(合成部の一例)と、非発話区間の音声データが合成された複数の合成音声データと、発話区間の音声データとに基づいて、話者USを認証する認証部116と、を備える。
【0056】
これにより、実施の形態に係る端末装置P1は、音声登録時の話者USの音声データにノイズが含まれず、音声認証時の話者USの音声データにノイズが含まれる場合であっても、話者認証精度の低下をより効果的に抑制できる。
【0057】
また、以上により、実施の形態に係る端末装置P1は、音声データから話者の特徴量を抽出する第1特徴量抽出部114および第2特徴量抽出部115(抽出部の一例)、をさらに備える。認証部116は、抽出された複数の合成音声データの特徴量と、発話区間の音声データの特徴量とに基づいて、話者USを認証する。これにより、実施の形態に係る端末装置P1は、話者USの個人性を示す特徴量を用いて、話者認証を実行できる。
【0058】
また、以上により、実施の形態に係る端末装置P1は、複数の合成音声データと、発話区間の音声データとの類似度を算出する認証部116(算出部の一例)、をさらに備える。認証部116は、算出された複数の類似度に基づいて、話者USを認証する。これにより、実施の形態に係る端末装置P1は、事前に登録された複数の話者の特徴量と、話者USの特徴量との類似度を用いて、話者認証を実行できる。
【0059】
また、以上により、実施の形態に係る端末装置P1における認証部116は、算出された類似度が閾値以上であるか否かを判定し、類似度が閾値以上であると判定された音声合成データに対応する話者を話者USであると特定する。これにより、実施の形態に係る端末装置P1は、話者USの特徴量と話者の特徴量との類似度に基づいて、話者USをより高精度に特定できる。
【0060】
また、以上により、実施の形態に係る端末装置P1における認証部116は、類似度が閾値以上である話者に関する情報を含む認証結果画面SCを生成して、出力する。これにより、実施の形態に係る端末装置P1は、話者USあるいは管理者に話者認証結果を提示できる。
【0061】
また、以上により、実施の形態に係る端末装置P1における認証部116は、算出された複数の類似度が閾値以上でないと判定した場合、話者USを特定不可であると判定する。これにより、実施の形態に係る端末装置P1は、話者認証精度の低下をより効果的に抑制し、話者USの誤認証をより効果的に抑制できる。
【0062】
また、以上により、実施の形態に係る端末装置P1におけるノイズ抽出部112は、非発話区間に含まれるノイズを抽出する。ノイズ合成部113は、複数の話者のそれぞれの音声データにノイズを合成する。これにより、実施の形態に係る端末装置P1は、音声登録時の音声データに音声認証時のノイズを合成することで、音声登録時と音声認証時との発話音声(音声データ)の収音環境を近づけることができ、環境雑音(ノイズ)の変化による話者認証精度の低下をより効果的に抑制できる。
【0063】
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0064】
本開示は、環境雑音の変化に起因する話者認証精度の低下を抑制する音声認証装置および音声認証方法として有用である。
【符号の説明】
【0065】
10 通信部
11 プロセッサ
12 メモリ
100 音声認証システム
111 話者登録部
112 ノイズ抽出部
113 ノイズ合成部
114 第1特徴量抽出部
115 第2特徴量抽出部
116 認証部
DB1 特徴量抽出モデルデータベース
DB2 登録話者データベース
DB3 類似度計算モデルデータベース
MK マイク
MN モニタ
P1 端末装置
SC 認証結果画面
US 話者
図1
図2
図3
図4