(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023032041
(43)【公開日】2023-03-09
(54)【発明の名称】個人認証方法、個人認証装置及び個人認証用プログラム
(51)【国際特許分類】
G10L 17/00 20130101AFI20230302BHJP
G10L 25/18 20130101ALI20230302BHJP
【FI】
G10L17/00 200B
G10L25/18
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021137909
(22)【出願日】2021-08-26
(71)【出願人】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100197642
【弁理士】
【氏名又は名称】南瀬 透
(74)【代理人】
【識別番号】100099508
【弁理士】
【氏名又は名称】加藤 久
(74)【代理人】
【識別番号】100182567
【弁理士】
【氏名又は名称】遠坂 啓太
(74)【代理人】
【識別番号】100219483
【弁理士】
【氏名又は名称】宇野 智也
(72)【発明者】
【氏名】中藤 良久
(72)【発明者】
【氏名】橋口 岳史
(57)【要約】 (修正有)
【課題】個人認証の個人性の多様性に対応し、発話に基づく認証性能を高めることが可能な個人認証方法、個人認証装置及び個人認証用プログラムを提供する。
【解決手段】個人認証装置31は、発話者の発声する音声をセンシングする複数のセンサ(第1センサ11、第2センサ12)と、複数のセンサで収録したそれぞれのセンサデータの時間・周波数特徴量を抽出する特徴量抽出部(第1の特徴量抽出部13、第2の特徴量抽出部14)と、夫々のセンサデータから抽出された時間・周波数特徴量をまとめた特徴量統合データを作成する特徴量間相違データ算出部15と、特徴量統合データとあらかじめデータベースに登録しておいた特徴量統合データを含む登録モデルとを用いて発話者の認証を行う認証部17と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
発話者の発声に伴う振動をセンシングする複数のセンサと、
前記複数のセンサで取得したそれぞれの複数のセンサデータの時間・周波数特徴量を抽出する特徴量抽出部と、
それぞれの前記センサデータから抽出された前記時間・周波数特徴量をまとめた特徴量統合データを作成する特徴量統合データ作成部と、
前記特徴量統合データと、あらかじめデータベースに登録しておいた特徴量統合データを含む登録モデルとを用いて、前記発話者の認証を行う認証部とを有する、個人認証装置。
【請求項2】
前記特徴量統合データ作成部が、それぞれの前記センサデータから抽出された前記時間・周波数特徴量間の違いである特徴量間相違データを算出する特徴量間相違データ算出部を含む、請求項1に記載の個人認証装置。
【請求項3】
前記複数のセンサは、それぞれ異なる種類のセンサであり、
前記センサが、マイクロフォン、骨導マイク、振動センサ、および加速度センサからなる群から選択される2種以上のセンサである請求項1または2に記載の個人認証装置。
【請求項4】
前記複数のセンサは、それぞれ異なる位置で取得するものであり、
前記位置が、口、顎、喉、首筋、耳周辺、および外耳道からなる群から選択される2か所以上を対象とするものである請求項1~3のいずれかに記載の個人認証装置。
【請求項5】
前記特徴量間相違データ算出部は、特徴量間相違データとの間の差分および/または比を算出する構成とした請求項2に記載の個人認証装置。
【請求項6】
前記認証部は、認証対象の前記発話者の前記特徴量統合データと、前記登録モデルに登録された前記特徴量統合データとの、統計的距離および/または機械学習による学習済みモデルと比較した類似度により認証を行う請求項1~5に記載の個人認証装置。
【請求項7】
前記特徴量統合データ作成部は、前記複数のセンサの取り付け位置により取得された音声に対して、単位時間毎にスペクトル分析を実行するスペクトル分析手段を備え、
前記スペクトル分析手段によりスペクトル分析が実行されることによって得られた前記複数のセンサの取り付け位置のスペクトル分析結果の差分や比を特徴とする請求項1~6のいずれかに記載の個人認証装置。
【請求項8】
発話者の発話に基づく振動をセンシングする複数のセンサで取得する取得工程と、
前記複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出工程と、
前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成工程と、
前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証工程とを有する、個人認証方法。
【請求項9】
発話者の発話に基づく振動をセンシングする複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出部と、
前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成部と、
前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証部として、コンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、利用者の発話を用いて個人認証処理を行う、個人認証方法、個人認証装置および個人認証用プログラムに関するものである。
【背景技術】
【0002】
近年、物流現場での物品の仕分けや配達時の宛先入力、あるいは医療現場でのカルテ入力など、様々な場面で音声認識が用いられるようになってきた。それに伴って、作業現場における免許所持の確認や情報漏洩防止のための人物判断を行うために、ユーザの発話を用いた個人認証へのニーズが高まってきている。
【0003】
一般的に、発話を用いる個人認証では、特許文献1のように、マイクで音声を収音し、この入力音声を音響分析して特徴量を算出し、あらかじめ登録しておいた個人のパターンと比較して、入力音声がどの個人に似ているかを照合して、個人の認証を行う構成となっている。しかし、騒音が多い環境の場合は認証性能が低下するため、明瞭な音声を収録するために骨導マイクや骨導マイクを内蔵したヘッドセットが利用されることになる。
【0004】
特許文献2は、接触した被認証者の人体(骨格)を通じて、骨伝導マイクによって受信された信号から、特徴抽出部にて骨伝導音の周波数分析を行うことで個人特徴を抽出し、特徴量照合部にて特徴量データベースに登録される個人データと照合を行うことで、個人認証を行っている。
【0005】
特許文献3に記載の生体認証装置は、生体に信号パターンを発信し、生体組織を伝達して通過する応答信号を受信し、生体に発信した信号パターンと生体から受信された応答信号とに基づいて、生体を経由して伝達される信号の伝達特性を算出し、算出された伝達特性に基づいて生体毎に異なる量である特徴量を抽出し、抽出された特徴量と予め記憶された特徴量とを照合することで個人識別を行っている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2021-64110号公報
【特許文献2】特開2003-58190号公報
【特許文献3】特開2008-40882号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記従来例における課題は、個人識別の性能を向上させるために利用者の音声から個人性をいかに的確に捉えるかであり、各々の特許文献の中で色々な工夫が述べられている。
【0008】
すなわち、特許文献1に記載された先行技術では、所定の文字列をユーザが発話してマイクを通して音声を収音し、この入力音声を音響分析して特徴量を算出して、あらかじめ登録しておいた個人のパターンと比較して、入力音声がどの個人に似ているかを照合して、個人の認証を行う構成となっている。
【0009】
しかしながら、このような個人認証方法では、音声の中に内在するその人らしさ、すなわち個人性を用いて個人認証を行うが、入力音声とあらかじめ登録した音声との違いを利用しているだけのものであり、発話するユーザの体調などによっては登録した際の音声と大きく異なることがあり、安定した認証性能を発揮することが難しいことがある。また、この個人認証方法では、マイクで収録した音声の1種類の収音方法を用いているのみである。
【0010】
一方、特許文献2では、マイクとして骨導マイクを用いることで、周囲に雑音が存在する際にユーザの発声する声が雑音に埋もれて認証性能が著しく低下することを防止している。
【0011】
しかしながら、マイクとして骨導マイクを用いたとしても、本質的には音声の中に内在するその人らしさ、すなわち個人性を用いて個人認証することでは同じであり、発話するユーザの体調などによっては、安定した識別性能を発揮することが難しいことがある。また、この個人認証方法では、骨導マイクで収録した音声の1種類の収音方法のみを用いている。
【0012】
さらに特許文献3の生体認証装置は、生体に向かって信号を発信し、生体組織を伝達して通過する応答信号を受信し、生体に発信した信号と生体から受信された応答信号とに基づいて生体の伝達特性を算出し、この伝達特性に基づいて生体毎に抽出した特徴量と予め記憶された特徴量とを照合することで個人識別を行っている。
【0013】
しかしながら、この生体認証では、スピーカら出力した音を生体内に入力した後、生体内を通過した音をマイクで収録する方法を用いているが、1種類の音響データしか用いていない。生体内を通過する音は、体格や体質、体の組成などによって、様々な影響を受ける。そのため、音が体内を通過する際の伝達特性も様々であり、また音の経路によって様々変化する可能性がある。
【0014】
本発明は、このように個人認証の個人性の多様性に対応するものであり、発話に基づく認証性能を高めることを目的とするものである。
【課題を解決するための手段】
【0015】
本発明者は、上記課題を解決すべく鋭意研究を重ねた結果、下記の発明が上記目的に合致することを見出し、本発明に至った。すなわち、本発明は、以下の発明に係るものである。
【0016】
<1> 発話者の発声に伴う振動をセンシングする複数のセンサと、
前記複数のセンサで取得したそれぞれの複数のセンサデータの時間・周波数特徴量を抽出する特徴量抽出部と、
それぞれの前記センサデータから抽出された前記時間・周波数特徴量をまとめた特徴量統合データを作成する特徴量統合データ作成部と、
前記特徴量統合データと、あらかじめデータベースに登録しておいた特徴量統合データを含む登録モデルとを用いて、前記発話者の認証を行う認証部とを有する、個人認証装置。
<2> 前記特徴量統合データ作成部が、それぞれの前記センサデータから抽出された前記時間・周波数特徴量間の違いである特徴量間相違データを算出する特徴量間相違データ算出部を含む、前記<1>に記載の個人認証装置。
<3> 前記複数のセンサは、それぞれ異なる種類のセンサであり、
前記センサが、マイクロフォン、骨導マイク、振動センサ、および加速度センサからなる群から選択される2種以上のセンサである前記<1>または<2>に記載の個人認証装置。
<4> 前記複数のセンサは、それぞれ異なる位置で取得するものであり、
前記位置が、口、顎、喉、首筋、耳周辺、および外耳道からなる群から選択される2か所以上を対象とするものである前記<1>~<3>のいずれかに記載の個人認証装置。
<5> 前記特徴量間相違データ算出部は、特徴量間相違データとの間の差分および/または比を算出する構成とした前記<2>に記載の個人認証装置。
<6> 前記認証部は、認証対象の前記発話者の前記特徴量統合データと、前記登録モデルに登録された前記特徴量統合データとの、統計的距離および/または機械学習による学習済みモデルと比較した類似度により認証を行う前記<1>~<5>に記載の個人認証装置。
<7> 前記特徴量統合データ作成部は、前記複数のセンサの取り付け位置により取得された音声に対して、単位時間毎にスペクトル分析を実行するスペクトル分析手段を備え、
前記スペクトル分析手段によりスペクトル分析が実行されることによって得られた前記複数のセンサの取り付け位置のスペクトル分析結果の差分や比を特徴とする前記<1>~<6>のいずれかに記載の個人認証装置。
<8> 発話者の発話に基づく振動をセンシングする複数のセンサで取得する取得工程と、
前記複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出工程と、
前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成工程と、
前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証工程とを有する、個人認証方法。
<9> 発話者の発話に基づく振動をセンシングする複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出部と、
前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成部と、
前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証部として、コンピュータを機能させるためのプログラム。
【発明の効果】
【0017】
本発明は、発話に基づく複数のデータをまとめて処理することにより、認証性能を大幅に高めることができる。また、これは個人認証装置等の使用者に対する満足感を高めることもできる。
【図面の簡単な説明】
【0018】
【
図1】本発明の認証方法に係る例のフロー図である。
【
図5】認証時の特徴量間相違データの作成例を示す図である。
【
図6】学習時の特徴量間相違データの作成例を示す図である。
【
図8】複数のセンサの取り付け位置の例を示す図である。
【
図9】センサの外耳道での取り付け位置を示す図である。
【発明を実施するための形態】
【0019】
以下に本発明の実施の形態を詳細に説明するが、以下に記載する構成要件の説明は、本発明の実施態様の一例(代表例)であり、本発明はその要旨を変更しない限り、以下の内容に限定されない。なお、本明細書において「~」という表現を用いる場合、その前後の数値を含む表現として用いる。
【0020】
[本発明の個人認証装置]
本発明の個人認証装置は、発話者の発声に伴う振動をセンシングする複数のセンサと、前記複数のセンサで取得したそれぞれの複数のセンサデータの時間・周波数特徴量を抽出する特徴量抽出部と、それぞれの前記センサデータから抽出された前記時間・周波数特徴量をまとめた特徴量統合データを作成する特徴量統合データ作成部と、前記特徴量統合データと、あらかじめデータベースに登録しておいた特徴量統合データを含む登録モデルとを用いて、前記発話者の認証を行う認証部とを有する。
【0021】
[本発明の個人認証方法]
本発明の個人認証方法は、発話者の発話に基づく振動をセンシングする複数のセンサで取得する取得工程と、前記複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出工程と、前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成工程と、前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証工程とを有する。
【0022】
[本発明の個人認証用プログラム]
本発明の個人認証用プログラムは、人発話者の発話に基づく振動をセンシングする複数のセンサで取得したそれぞれの複数のセンサデータから複数の時間・周波数特徴量を抽出する特徴量抽出部と、前記複数のセンサにより取得したそれぞれのセンサデータの時間・周波数特徴量をまとめて特徴量統合データを作成する特徴量統合データ作成部と、前記特徴量統合データとあらかじめデータベースに登録しておいた登録モデルとを用いて認証を行う認証部として、コンピュータを機能させるためのプログラムである。
【0023】
なお、本願において本発明の個人認証装置により本発明の個人認証方法を行うこともでき、本発明の個人認証用プログラムもこれらに用いることもでき、本願においてそれぞれに対応する構成は相互に利用することができる。
【0024】
図1は、本発明の認証方法に係る例のフロー図である。本発明の認証方法は、後述の実施形態に係る個人認証装置等により実施することができる。まず、ステップS11は、人間の発声する音声を様々な場所でセンシングする複数のセンサで収録する。次に、ステップS21は、収録した複数のセンサデータから複数の時間・周波数特徴量を抽出する複数の特徴量抽出を行う。ステップS31は、特徴量統合データの作成を行う。ステップS41は、登録モデルを用いて認証する。ステップS51は認証結果を通知する。
【0025】
[取得]
本発明の認証にあたっては、複数のセンサで取得された音声に関するセンサデータを利用する。これらのセンサデータは、発話者の発声する音声をセンシングする複数のセンサなどで取得することができるものである。これらは、複数の異なる位置に配置したセンサや、複数の異なる種類のセンサを組み合わせて人間の発話に基づく音声や体内を伝導する骨伝導などの振動を様々な場所でセンシングするものである。
【0026】
[特徴量抽出]
本発明の認証にあたっては、複数のセンサで収録したそれぞれの複数のセンサデータの時間・周波数特徴量を抽出する。時間・周波数特徴量とは、発話者が発してセンサがセンシングした振動についての、時間と周波数との関係性に係る特徴量である。
【0027】
[特徴量統合データ作成]
本発明の認証にあたっては、それぞれのセンサデータから抽出された前記時間・周波数特徴量をまとめた特徴量統合データを作成する。これは、複数の位置や種類のセンサで取得したデータについて、統合することで単独のセンサでは取得しにくい情報を得て認証等しやすくするためのものである。統合データは、それぞれの特徴量について、加算、減算、乗算、除算や、これらを組み合わせたものなどとすることができる。
【0028】
[認証]
本発明の認証に当たっては、特徴量統合データと、あらかじめデータベースに登録しておいた特徴量統合データを含む登録モデルとを用いて、発話者の認証を行う。認証対象の情報は、登録モデルとしてあらかじめ登録される。その登録モデルと照合して、類似度などを求めて所定の閾値を超えたものと特定する認証などを行う。そして、認証結果は、通知や表示することができる。また、認証結果は、利用して他の操作を開始する信号などとすることができる。
【0029】
本発明の適用例としては、例えば建設業界などがあげられる。近年、日本の建設業界では労働者数の減少に伴い、建設現場などの作業環境の改善が進められている。例えば、騒音下でもクリアな音声通話が可能な骨伝導マイクを搭載した業務用ヘッドセットの利用が拡大している。そこで、本発明は骨伝導マイクなどの音声センサを用いた話者識別の性能改善を目的とする。さらに、話者識別を用いて、作業現場おける免許所持の確認や、情報漏洩防止のための人物判断を行う方法にも適用することができる。また、本発明はセンシングした振動に基づいて、パーソナルコンピュータやタブレット端末、スマートフォンなどで実行するアプリケーションソフトとして達成することもできる。
【0030】
[実施の形態1]
図2は実施の形態1の処理ブロック図を示す。個人認証装置31は、まず個人認証装置を使用する人が発する音声や振動を第1のセンサ11や第2のセンサ12でセンシングして、認証するための処理を行う装置である。
【0031】
個人認証装置31は、複数のセンサを有する。個人認証装置31において、この複数のセンサとして、第1のセンサ11と、第2のセンサ12を有する。第1のセンサ11や第2のセンサ12は、例えばコンデンサマイクや骨導マイク、咽喉マイクなど人が発声する音声を収録する様々なマイクロフォンを用いることができる。また、振動センサや加速度センサなどの人が体から発生する振動や動きを捉えるセンサを用いることも可能である。
【0032】
本実施形態は第1のセンサおよび第2のセンサの2つを用いた例を示しているが、センサ数は、さらに多くてもよく、3つ以上や、4つ以上のセンサを用いても良い。これらの複数のセンサは、それぞれ異なる種類のセンサを用いるか、異なる位置に配置することで、同一の発話者の同一の発話内容に対しても時間・周波数特徴量が異なる音声を取得して用いる。
【0033】
雑音が生じにくい骨導音を複数箇所で収録し、収録された複数の骨導音を用いて特徴量間相違データを算出することで、収録毎に生じる特徴量間相違データの誤差を低減し、安定した認証性能を取得するものとすることもできる。このため、センサも、骨導音に対応するセンシングができるものであることが好ましい。
【0034】
第1の特徴量抽出部13は、第1のセンサ11で取り込んだ音や振動データから時間・周波数特徴量を抽出する。第2の特徴量抽出部14は、第2のセンサ12で取り込んだ音や振動データから時間・周波数特徴量を抽出する。ここで時間・周波数特徴量としては、例えば音や振動の周波数分析により算出されるパワースペクトルや対数パワースペクトルやメル対数パワースペクトル、あるいは線形予測分析などパラメトリックな手法から求められる予測係数、さらには準同型分析などから求められるケプストラム係数など、センサから取り込んだ信号の時間・周波数の特徴を表現している様々な特徴量を用いることができる。
【0035】
特徴量間相違データ算出部15は、特徴量統合データ作成部の例である。特徴量間相違データ算出部15は、第1の特徴量抽出部13で抽出した時間・周波数特徴量と、第2の特徴量抽出部14で抽出した時間・周波数特徴量との違いを特徴量間相違データとして算出する。時間・周波数特徴量との違いとして、例えば特徴量としてパワースペクトルを用いる場合は除算して算出する方法や、特徴量として対数パワースペクトルを用いる場合は減算して算出する方法などが挙げられる。すなわち、特徴量官相違データ算出部15は、特徴量間相違データとして、それぞれの前記センサデータから抽出された前記時間・周波数特徴量間の差分や非を算出する構成とすることができる。
【0036】
これらのほかにも統合データとして、加減乗除の様々な算法のいずれかや、これらを組み合わせて用いるものとしてもよい。特に、特徴量間相違データとして、それぞれのセンサによる特徴量の相違や比を用いると、生体を経由して伝達される音声を取得するものを含み、時間・周波数特徴量に含まれる生体の伝達特性を抽出することができるものとしやすい。
【0037】
特徴量間相違データ算出部15は、複数のセンサの取り付け位置により収録された音声に対して、所定の単位時間毎にスペクトル分析を実行するスペクトル分析手段を備えることができる。そして、スペクトル分析手段によりスペクトル分析が実行されることによって得られた複数のセンサの取り付け位置のスペクトル分析結果の差分や比を用いることができる。この単位時間は、例えば5~50msecや、10msec~25msecとすることができる。
【0038】
認証時相違データ格納部16は、特徴量間相違データ算出部15で算出した特徴量間相違データを記憶する。このとき、例えば特徴量間相違データを複数時間フレームに亘って平均を求めて格納することや、平均・分散などの統計的データを求めて格納することなどもできる。
【0039】
認証部17は、認証時相違データ格納部16に記憶された特徴量間相違データがどの個人であるかを特定するための認証を行う。認証部17の処理としては様々な方法が考えられるが、例えば判別関数やユークリッド距離やマハラノビス距離などの統計的距離尺度を用いる方法、決定木やSVM、ニューラルネットなどのような機械学習モデルを用いる方法など、様々な方法が考えられる。
【0040】
登録モデル部18は、認証部17で認証する際に用いる個人ごとの登録モデルを格納する。登録モデル部18に格納しておくべき登録モデルは、認証部17で行う認証方法に対応したものであり、認証したい個人の特徴量間相違データを用いてあらかじめ学習により作成しておくものである。この登録モデル用のデータは、同一の装置で事前に登録しておいたものや、共通する構成の装置で事前に登録しておいたものを用いることができる。登録モデルには、典型的な発話サンプルを使用が想定される認証対象となる発話者などに発話させて収録したものを用いる。
【0041】
例えば、登録モデルとして判別関数や統計的距離尺度を用いる場合は、判別閾値や平均・分散などの統計量がこれに相当する。一方、登録モデルとして決定木やSVM(サポートベクターマシン)、ニューラルネットなどのような機械学習モデルを用いる場合は、閾値やSVMパラメータ、ニューラルネットモデルなどがこれに相当する。
【0042】
認証の結果は、任意の手段で通知や利用、記録することができる。例えば、認証結果の発話者を特定する情報を、音や画像などで通知することができる。または認証の結果に基づいて、操作対象とする装置やシステムなどの、起動や停止などの信号として利用することもできる。
【0043】
[実施の形態2]
実施の形態2は、実施の形態1に基づくより詳しい実施形態の例を示すものである。実施の形態2では、個人認証装置の動作を大きく2つの場合、すなわち認証時と学習時に分けて説明する。認証時の装置の動作とは、実際に個人認証を行いたい人が、自ら発する音声や体の動きなどを用いて、個人認証を行う場合の動作のことである。一方、学習時の装置の動作とは、認証したい個人の特徴量間相違データを用いて、あらかじめ学習により登録モデルを作成する場合の動作のことである。そこで、以下認証時と学習時の動作に分けて説明する。
【0044】
図3は実施の形態2の認証時の処理ブロック図を示す。個人認証装置32において、認証・学習切替スイッチ(認証時の状態)2は、装置の動作として認証時の動作であることを示す。まず第1のマイクロフォン101は実施の形態1で示した第1のセンサ1としてマイクロフォンを用いる場合の具体例であり、第2のマイクロフォン102は実施の形態1で示した第2のセンサ2の具体例である。これらの具体例としては、コンデンサマイクや骨導マイクや咽喉マイクなど様々なマイクロフォンを用いることができる。
【0045】
なお、本実施形態では、増幅器103や、増幅器104、A/D変換器105、A/D変換器106を用いる。本実施形態では第1および第2のマイクロフォンを用いた例を示しているが、さらに、実施の形態1で前述したような他のマイクロフォンなどを用いても良い。
【0046】
第1の特徴量抽出部107は、第1のマイクロフォン101で取り込んだ音から時間・周波数特徴量を抽出する。同様に第2の特徴量抽出部108は、第2のマイクロフォン102で取り込んだ音から時間・周波数特徴量を抽出する。ここで時間・周波数特徴量としては実施の形態1と同様に、例えば音や振動の周波数分析により算出されるパワースペクトルや対数パワースペクトルやメル対数パワースペクトル、あるいは線形予測分析などパラメトリックな手法から求められる予測係数、さらには準同型分析などから求められるケプストラム係数など、マイクロフォンから取り込んだ信号の時間・周波数の特徴を表現している様々な特徴量を用いることができる。
【0047】
次に、特徴量間相違データ算出部109は、第1の特徴量抽出部107で抽出した時間・周波数特徴量と第2の特徴量抽出部108で抽出した時間・周波数特徴量との違いを特徴量間相違データとして算出する。時間・周波数特徴量との違いとしては実施の形態1と同様に、例えば特徴量としてパワースペクトルを用いる場合は除算して算出する方法や、特徴量として対数パワースペクトルを用いる場合は減算して算出する方法など加減乗除の様々な算法が考えられる。
【0048】
認証時相違データ格納部110は、特徴量間相違データ算出部109で算出した特徴量間相違データを記憶する。このとき実施の形態1と同様に、例えば特徴量間相違データを複数時間フレームに亘って平均を求めて格納することや、平均・分散などの統計的データを求めて格納することなどが考えられる。
【0049】
認証部111は、認証時相違データ格納部110に記憶された特徴量間相違データがどの個人であるかを特定するための認証を行う。認証部111の処理としては様々な方法が考えられるが、実施の形態1と同様に例えば判別関数やユークリッド距離やマハラノビス距離などの統計的距離尺度を用いる方法、決定木やSVM、ニューラルネットなどのような機械学習モデルを用いる方法など、様々な方法が考えられる。
【0050】
登録モデル部114は、認証部111で認証する際に用いる個人ごとの登録モデルを格納する。登録モデル部114に格納しておくべき登録モデルは、認証部111で行う認証方法によって異なるが、認証したい個人の特徴量間相違データを用いてあらかじめ学習により作成しておくものである。
【0051】
例えば、実施の形態1と同様に登録モデルとして判別関数や統計的距離尺度を用いる場合は、判別閾値や平均・分散などの統計量がこれに相当する。一方、登録モデルとして決定木やSVM、ニューラルネットなどのような機械学習モデルを用いる場合は、閾値やSVMパラメータ、ニューラルネットモデルなどがこれに相当する。
【0052】
ここで、学習時相違データ格納部112および学習部113は、学習時のみ使用する処理であり、認証・学習切替スイッチ(認証時の状態)2が認証時の状態にある場合は、
図3の点線で示すように、学習時相違データ格納部112への情報の流れや学習部113への情報の流れ、さらに登録モデル部114への情報の流れは無く、また学習時相違データ格納部112や学習部113の処理も行われない。なお、認証を行いながら学習処理を行うものとしてもよく、認証と学習の同時処理を行うことも妨げない。
【0053】
図4は実施の形態2の学習時の処理ブロック図を示す。個人認証装置32において、認証・学習切替スイッチ(学習時の状態)2は、装置の動作として学習時の動作であることを示す。
図3と
図4の動作は、点線の処理以外は同様であるので、ここでは
図3と
図4の異なる部分のみ説明する。
【0054】
まず学習時相違データ格納部112は、特徴量間相違データ算出部109で算出した特徴量間相違データを記憶する。このとき実施の形態1と同様に、例えば特徴量間相違データを複数時間フレームに亘って平均を求めて格納することや、平均・分散などの統計的データを求めて格納することなどが考えられる。さらに、様々な時刻や場面での特徴量間相違データをあらかじめ蓄積しておく。
【0055】
学習部113は、学習時相違データ格納部112に記憶された特徴量間相違データを用いて認証処理の際に必要な登録モデルを作成するために学習処理を行う。学習部111の処理としては様々な方法が考えられるが、実施の形態1と同様に、例えば認証処理方法として判別関数やユークリッド距離やマハラノビス距離などの統計的距離尺度を用いる場合は、判別閾値や平均・分散などの統計量を登録モデルとして学習する。
【0056】
一方、認証処理方法として決定木やSVM、ニューラルネットなどのような機械学習モデルを用いる場合は、閾値やSVMパラメータ、ニューラルネットモデルなどを登録モデルとして学習する。いずれにしても、登録モデル部114は、学習時相違データ格納部112に蓄積された学習時相違データから、学習部113において作成されることになる。
【0057】
ここで、認証時相違データ格納部110および認証部111は、認証時のみ使用する処理であり、認証・学習切替スイッチ(学習時の状態)2が学習時の状態にある場合は、
図4の点線で示すように、認証時相違データ格納部110への情報の流れや認証部111への情報の流れは無く、また認証時相違データ格納部110や認証部111の処理も行われない。なお、認証処理を行いながら学習処理を行うものとしてもよい。
【0058】
[実施の形態3]
図5は実施の形態2の認証時の特徴量間相違データの作成方法を示す図を示す。個人認証装置32において、認証・学習切替スイッチ(認証時の状態)2は、装置の動作として認証時の動作であることを示す。
【0059】
まず第1のマイクロフォン101は、実施の形態2で示したマイクロフォンとして外耳道マイクロフォン用いる場合の具体例であり、例えば通常のコンデンサマイクや骨導マイクや咽喉マイクなど様々なマイクロフォンを用いることができる。
【0060】
一方第2のマイクロフォン102は実施の形態2で示したマイクロフォンとして骨導マイクロフォン用いる場合の具体例であり、例えば通常のコンデンサマイクや咽喉マイクなど様々なマイクロフォンを用いることができる。
【0061】
図5(a)は、実施の形態2において、第1の特徴量抽出部107で抽出する時間・周波数特徴量として対数パワースペクトルを用いる場合の具体例である。同様に
図5(b)は、第2の特徴量抽出部108で抽出する時間・周波数特徴量として対数パワースペクトルを用いる場合の具体例である。
【0062】
図5において、
図5(a)から
図5(b)を減算する動作は、特徴量間相違データとして2つのマイクロフォンから得られた対数パワースペクトル間の減算を行う方法に相当する。この特徴量間相違データが、認証時相違データ格納部110で格納されることになる。このとき、各マイクロフォンから得られた対数パワースペクトルを各々複数時間フレームに亘って平均してから減算する方法や、各マイクロフォンから得られた対数パワースペクトルを減算してから複数時間フレームに亘って平均する方法など、様々な方法が考えられる。
【0063】
図6は実施の形態2の学習時の特徴量間相違データの作成方法を示す図を示す。個人認証装置32において、認証・学習切替スイッチ(学習時の状態)2は、装置の動作として学習時の動作であることを示す。
図5と
図6の動作は、認証処理の場合か学習処理の場合かのみの違いであるので、
図5と
図6の処理は同一であるため説明を割愛する。
【0064】
図7は、実施の形態2における認証方法を示す図である。
図7(a)は、実施の形態2において、特徴量間相違データを作成する際、時間・周波数特徴量として対数パワースペクトルを用いる場合の具体例である。一方、
図7(b)は、実施の形態2における登録モデル部114を作成する際にも時間・周波数特徴量として対数パワースペクトルを用いる場合の具体例である。
【0065】
図7は認証処理部111において、認証時相違データ格納部110に記憶された対数パワースペクトルを用いて算出された特徴量間相違データと、同様に時間・周波数特徴量として対数パワースペクトルを用いて学習された登録モデルを用いて認証する方法を示している。
【0066】
[実施の形態4]
図8は実施の形態2にかかる個人認証装置の斜視図、
図9は実施の形態2にかかる複数のマイクロフォンの取り付け位置図、
図10は、実施の形態2にかかるセンサの構造例を示す図である。実施の形態2にかかる外耳道マイクロフォンの斜視図において、本体ケース1には、軟質材料で形成された装着体3が連結されており、装着体3の先端には外耳道マイクロフォンとして用いる第1のマイクロフォン101を備えている。
【0067】
本体ケース1内には、個人認証装置32が内蔵されている。また、本体ケース1の表面には、認証・学習切替スイッチ2、骨導マイクロフォンとして用いる第2のマイクロフォン102が設けられている。さらに、
図9、
図10のごとく、第一のマイクロフォン101とレシーバ4が軟質材料で形成された装着体3に一体化されており、これらの装着体3と第1のマイクロフォン101は音響管5を、レシーバ4は音響管6を介して外耳道8内に向けて開口した状態となる。
【0068】
本体ケース1を耳の背面側に沿うように装着することで、本体ケース1の表面に設置された第2のマイクロフォン102が耳の背面側の軟骨に接触することになる。
【0069】
なお、この
図9においては、外耳道8に対するレシーバ4と第1のマイクロフォン101の位置関係を理解しやすいように、耳(耳介)7に本体ケース1を装着していないが、実使用時には、本体ケース1が耳(耳介)7上に掛けられ、本体ケース1は耳(耳介)7の背面に沿うように配置され、レシーバ4と第1のマイクロフォン101が
図9のごとく外耳道8の入り口に装着し、またはこの外耳道8内に挿入された状態となる。
【0070】
認証・学習切替スイッチ2は、ユーザが自らの個人情報を登録(学習)する際に認証・学習切替スイッチ2を操作することになる。なお、この認証・学習切替スイッチ2の動作は、個人認証装置が人の音声を検出することや、内部の処理状態に応じて自動的に切り替えることも考えられる。その場合は、認証・学習切替スイッチ2は不要となる。
【実施例0071】
本発明に関する以下の実験を行った。
【0072】
本発明の提案手法の話者識別方法の流れの例を説明する。まず、骨導音と咽喉音のメル対数パワースペクトル(logMel)を算出し、入力音声の全フレームの平均値を求める。その後、骨導音と咽喉音のlogMelの差分値を計算し、あらかじめ特定の話者の差分値で学習しておいたSVMを用いて該当の話者か否かの識別を行う。
【0073】
骨導音と咽喉音のスペクトルの差分値では、各々に含まれる共通の音声スペクトルが除去される。残りのスペクトルには頭頸部の形状や組織等に起因する伝達特性が含まれている可能性がある。この伝達特性に話者の固有の特徴が含まれているのではないかと私たちは考える。
【0074】
入力音声として骨導音や咽喉音など複数の収音方法で異なる部位での収音を行うことは、人の発声時の様々な音響的特徴を利用することができ、認証制度の向上が期待できる。一方、骨導音や咽喉音以外の気道音を入力音声として用いる方法も考えられるが、気道音は周囲の騒音の影響を受け易く認証制度の低下が懸念されることから、我々は骨導および咽喉マイクを用いたスペクトル差を利用した話者識別方法の提案を行う。以下、識別実験による評価を行う。
【0075】
本研究では、骨導音(BC)と咽喉音(TH)のスペクトルの差を用いた話者識別方法を提案する。提案手法では、BCとTHのMel logパワースペクトルを計算される。そして、スペクトルの差を計算し、SVMを用いて話者の識別を行う。BCとTHのスペクトルの差を用いた提案手法は、最も高い識別率を達成し、BCとTHのスペクトルの差の有効性が確認できた。
【0076】
[識別実験の概要]
音声波からopenSMILEを用いて音響的特徴量を算出する。得られた音響的特徴量から骨導音と咽喉音のスペクトル差を計算し、SVMに学習させ、該当話者か否かの識別実験を行う。この識別結果を元に、骨導音と咽喉音のスペクトル差の有効性を判断する。また、各音声(AC、BC、TH)を単独で用いて識別する場合の3種類についても比較のため評価する。
【0077】
[音声データ]
本研究では、気導音(AC)、骨導音(BC)、咽喉音(TH)の3種類の音声を用いるため以下3つのマイクを用いて同時収録を行う。
・コンデンサマイク(SONY製 ECM-530, 単一指向性)
・骨導マイク(テムコジャパン製 EM21N-Tip)
・咽喉マイク(Retivis製 1 Pin 3.5mm Throat MIC Earpiece Covert Air Tube Earpiece For Phones)
【0078】
音声収録は、防音室内で21歳の成人男性6名を対象に行った。収録した音声データは、ATR音素バランス503文の20文である。音声は、サンプリング周波数48kHz、量子化ビット数16ビットのデジタル録音で収録されている。音声をopenSMILEで分析するために、ffmpegを用いてサンプリング周波数16kHzにダウンサンプリングする。
【0079】
[実験条件]
入力音声の全フレームの平均の0-7次元logMelはopenSMILEを用いて抽出する。抽出する音声のサンプリング周波数は16kHz、分析フレーム長は25ms、シフト幅は10msである。得られた0-7次元のlogMelから算出した差分値を特徴量として使用している。本研究では、このデータを用いて、Weka[参照URL Weka: https://www.cs.waikato.ac.nz/ml/weka/]のSVMにより6人の話者(m1-m6)を識別する。
これは、データを学習することで複数のクラスを分離するパターン方式である。以下の式は多項式のカーネル関数を用いたもので、SVMの設定は表2に示すとおりで、K(x,x´)はカーネル関数、その他は定数である。
【0080】
【0081】
実験の評価には、混合行列を用いた。これにより、AccuracyとF値を求めた。Accuracyは、全データに占める正解の割合である。F-measureは、再現性と適合性の調和平均である。また10-fold cross-validationによる評価を行うため、各話者に対して学習用データ18文、評価用データ2文である。
実験の評価には、混同行列を使用する。混同行列では、AccuracyとF値を求めることができる。Accuracyは、すべてのデータの中での正解の割合である。F値は、再現性と適合度の調和平均である。また、データ数が非常に少ないため、10分割交差検証を行い、各話者、学習用データ18文、評価用データ2文となっている。
【0082】
[識別結果および考察]
・識別結果
各音声のAccuracyとF-measureの平均値を
図11と
図12に示す。BCとTHの差による識別結果(98.3%)は、AC単独を用いる識別結果(83.3%)、BC単独を用いる識別結果(95.0%)、TH単独を用いる識別結果(94.1%)よりも高くなった。また、BC単独を用いる識別結果とTH単独を用いる識別結果において、識別結果に大きな違いは見られなかった。しかし、AC単独を用いる識別結果は、他の識別結果よりもはるかに低いものであった。
【0083】
・考察
BCとTHの差分値による識別結果(98.3%)はAC単独を用いる識別結果(83.3%)、BC単独を用いる識別結果(95.0%)、TH単独を用いる識別結果(94.1%)よりも高い。これより、骨伝導と咽喉音のスペクトル差を用いた話者識別方法の有効性が確認された。
【0084】
各話者のAC、BC、THから得られた特徴量(0-7次元のlogMel)の平均値を評価した。BCとTHの特徴量(0-7次元のlogMel)の平均値の差分値を評価した。話者の特徴量の値の差は比較的小さいことがわかった。一方、各話者の特徴量の値の差は比較的大きいことがわかった。
【0085】
また、識別結果において、各話者の特徴量の値の差が小さい場合に誤認しやすく、各話者の特徴量の値の差が大きい場合に誤認しにくくなっていた。また、BCとTHは人体を伝わってきた音声を収録しているため伝達特性が含まれている。しかし、ACは空気中を伝わってきた音声を収録しているため伝達特性を含んでいない。そのため、ACはBCとTHに比べ、各話者の特徴量の値の差が小さくなり、誤認しやすくなくなるため、識別結果が低くなったと考えられる。
【0086】
以上のように、骨導音と咽喉音のスペクトル差を用いた話者識別方法の提案を行い、識別実験による評価を行った。その結果、骨導音と咽喉音の差分値による識別結果は98.3%を達成し、骨導音と咽喉音のスペクトル差における話者識別方法の有効性が確認できた。また、頭頸部の形状や組織等に起因する伝達特性を含んでいる音声(骨導音、咽喉音)は、伝達特性を含んでいない音声(気導音)よりも識別精度が上がるということがわかった。