(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024129781
(43)【公開日】2024-09-27
(54)【発明の名称】音声認証装置、および機器
(51)【国際特許分類】
G10L 17/18 20130101AFI20240919BHJP
G06F 21/32 20130101ALI20240919BHJP
G10L 17/00 20130101ALI20240919BHJP
G06F 21/60 20130101ALI20240919BHJP
【FI】
G10L17/18
G06F21/32
G10L17/00 200Z
G10L17/00 200D
G06F21/60
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023189551
(22)【出願日】2023-11-06
(31)【優先権主張番号】P 2023038389
(32)【優先日】2023-03-13
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000116024
【氏名又は名称】ローム株式会社
(74)【代理人】
【識別番号】110001933
【氏名又は名称】弁理士法人 佐野特許事務所
(72)【発明者】
【氏名】玉野 浩二
(72)【発明者】
【氏名】西山 高浩
(57)【要約】
【課題】機器において音声認証のために外部との通信が不要となる音声認証装置を提供する。
【解決手段】音声認証装置(3)は、外部からの音声(S)を電気信号である音声信号(SD)に変換するように構成される音声変換部(2)を備えた機器(1)に搭載可能であって、前記音声信号に基づいて、AIモデルのパラメータを学習するように構成される音声登録部(3A)と、前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記AIモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部(3B)と、を備え、前記音声登録部と前記音声照合部に基づいて音声認証を実行する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
外部からの音声を電気信号である音声信号に変換するように構成される音声変換部を備えた機器に搭載可能であって、
前記音声信号に基づいて、AIモデルのパラメータを学習するように構成される音声登録部と、
前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記AIモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部と、
を備え、
前記音声登録部と前記音声照合部に基づいて音声認証を実行する、音声認証装置。
【請求項2】
前記音声登録部および前記音声照合部は、それぞれキーワードを含んだ前記音声に基づいて登録・照合を行う、請求項1に記載の音声認証装置。
【請求項3】
前記AIモデルは、入力層、隠れ層、および出力層を有する3層ニューラルネットワークである、請求項2に記載の音声認証装置。
【請求項4】
前記音声登録部は、下記(A)式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβ0を算出する、請求項3に記載の音声認証装置。
P0=(H0
TH0)-1
β0=P0H0
Tt0 (A)
ただし、隠れ層行列Hi=G(xi・α+b)、α:前記入力層と前記隠れ層を結合する重み、b:前記隠れ層のバイアス、G:前記隠れ層の活性化関数、xi:バッチサイズkiのi番目の入力データ、ti:バッチサイズkiのi番目の教師データ
【請求項5】
前記音声登録部は、下記(B)式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβiを逐次算出する、請求項3に記載の音声認証装置。
Pi=Pi-1-Pi-1Hi
T(I+HiPi-1Hi
T)-1HiPi-1
βi=βi-1+PiHi
T(ti-Hiβi-1) (B)
ただし、隠れ層行列Hi=G(xi・α+b)、α:前記入力層と前記隠れ層を結合する重み、b:前記隠れ層のバイアス、G:前記隠れ層の活性化関数、xi:バッチサイズkiのi番目の入力データ、ti:バッチサイズkiのi番目の教師データ
【請求項6】
前記音声登録部は、下記(C)式を用いて前記重みβ0を算出する、請求項5に記載の音声認証装置。
P0=(H0
TH0)-1
β0=P0H0
Tt0 (C)
【請求項7】
前記音声登録部は、ti=xiとして学習を行う、請求項4から請求項6のいずれか1項に記載の音声認証装置。
【請求項8】
前記入力データは、前記音声信号のサンプリングデータである、請求項4から請求項6のいずれか1項に記載の音声認証装置。
【請求項9】
前記入力データは、前記音声信号を周波数解析して得られるスペクトルデータである、請求項4から請求項6のいずれか1項に記載の音声認証装置。
【請求項10】
請求項1に記載の音声認証装置と、前記音声変換部と、通信ネットワークと通信可能な通信部と、を備える、機器。
【請求項11】
スマートスピーカである、請求項10に記載の機器。
【請求項12】
請求項1に記載の音声認証装置と、前記音声変換部と、を備え、
通信ネットワークと分離されて構成される、機器。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認証装置に関する。
【背景技術】
【0002】
従来、音声認証を行う機器が知られている(例えば特許文献1)。音声認証では、人が発した音声に関する特徴(声紋など)を登録する処理と、登録した特徴との照合を行う処理が行われる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、音声認証を行う機器は、処理能力の高い外部サーバーと通信して登録・照合を行っていた。しかしながら、音声データの漏洩などの課題があった。
【0005】
上記状況に鑑み、本開示は、機器において音声認証のために外部との通信が不要となる音声認証装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
例えば、本開示に係る音声認証装置は、
外部からの音声を電気信号である音声信号に変換するように構成される音声変換部を備えた機器に搭載可能であって、
前記音声信号に基づいて、AIモデルのパラメータを学習するように構成される音声登録部と、
前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記AIモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部と、
を備え、
前記音声登録部と前記音声照合部に基づいて音声認証を実行する構成としている。
【発明の効果】
【0007】
本開示に係る音声認証装置によれば、機器において音声認証のために外部との通信が不要となる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、比較例に係る音声認証システムを示す図である。
【
図2】
図2は、本開示の例示的な実施形態に係るスマートスピーカの構成を示す図である。
【
図5】
図5は、3層ニューラルネットワークの構成を示す図である。
【
図7】
図7は、本開示の変形例に係る機器の構成を示す図である。
【発明を実施するための形態】
【0009】
<1.比較例>
図1は、比較例に係る音声認証システムを示す図である。
図1に示すシステムにおいては、音声認証装置100と、サーバー200と、が設けられる。音声認証装置100は、サーバー200との間で通信を行う。
【0010】
登録処理時には、ユーザPが発した音声Sが音声認証装置100に入力され、音声認証装置100は、入力された音声Sに関する音声データをサーバー200へ送信する。サーバー200は、送信された音声データに基づいて音声Sの特徴を登録する登録処理を行う。照合処理時には、ユーザが発した音声が音声認証装置100に入力されると、音声認証装置100は、入力された音声に関する音声データをサーバー200へ送信する。サーバー200は、送信された音声データに基づいて登録処理により登録された音声Sの特徴との照合を行う。照合処理時のユーザが登録処理時のユーザPである場合は、サーバー200は、登録された音声Sの特徴と一致するとの照合結果を取得する。一方、照合処理時のユーザが登録処理時のユーザPと異なる場合は、サーバー200は、登録された音声Sの特徴と一致しないとの照合結果を取得する。
【0011】
音声Sの特徴として例えば声紋を登録する場合、AI(人工知能)モデルとして深層ニューラルネットワークを用いた学習処理が行われる。深層ニューラルネットワークの学習では、複雑な最適化問題を繰り返し解く必要があり、サーバー200における処理能力の高いプロセッサ(GPU(Graphics Processing Unit)、AI専用プロセッサなど)が使用される。一例として、下記(1)式を用いた確率的勾配降下法(SGD)による最適化が行われる。ここでは、学習データのセットをミニバッチに分割し、繰り返し学習する。
wk+1=wk-η∇L(wk) (1)
ただし、wk,wk+1:重み行列、η:学習係数、∇L:損失関数の勾配
【0012】
上記のように比較例においては、音声認証にサーバー200との通信が必要となり、音声データの漏洩などによるセキュリティの課題があった。また、音声認証以外の機能で外部ネットワークとの通信を行う必要がない機器(家電など)において、上記比較例を適用した場合、音声認証のために通信部を設ける必要があった。
【0013】
<2.スマートスピーカ>
図2は、本開示の例示的な実施形態に係るスマートスピーカ1の構成を示す図である。スマートスピーカ1は、本開示に係る音声認証装置を備える機器の一例である。
【0014】
スマートスピーカ1は、音声変換部2と、音声認証装置3と、制御部4と、音声出力部5と、通信部6と、を備える。
【0015】
音声変換部2は、例えばマイクとADコンバータを有し、ユーザPが発した音声Sを電気信号である音声信号SDに変換する。音声認証装置3は、音声信号SDに基づいて登録処理および照合処理を行うことで音声認証を行う。音声認証装置3については、後に詳述する。
【0016】
制御部4は、スマートスピーカ1の全体を制御する。音声出力部5は、例えばスピーカおよびDAコンバータを有し、音声信号を音声に変換して音声を外部に出力する。通信部6は、外部の通信ネットワーク10との通信を行うインタフェースである。
【0017】
スマートスピーカ1においては、制御部4は、ユーザPが発した音声Sの音声認識処理を行う。これにより、例えば、ユーザPが発した音声Sによる検索キーワードが制御部4により音声認識され、制御部4は、検索キーワードを通信部6および通信ネットワーク10を介して外部サーバー(不図示)に送信する。この場合、外部サーバーにより検索された楽曲の音声データが通信ネットワーク10を介して通信部6に送信され、音声出力部5は当該音声データに基づいて楽曲の音声を外部に出力する。また、例えば、ユーザPが発した音声Sによる操作指示が制御部4により音声認識され、制御部4は、操作指示を通信部6および通信ネットワーク10を介して外部の機器(スマート家電など)に送信し、当該機器の操作が行われる。
【0018】
<3.音声認証装置>
図2に示すように、音声認証装置3は、音声登録部3Aと、音声照合部3Bと、を有する。音声登録部3Aは、入力された音声Sが音声変換部2により変換された音声信号SDに基づいて音声登録処理を行う。音声照合部3Bは、入力された音声Sが音声変換部2により変換された音声信号SDに基づいて音声照合処理を行う。音声照合処理では、登録された音声との照合を行う。
【0019】
図3に示すように、登録を行うユーザPAは、特定のキーワードKW1を含んだ音声SA1を発して、音声SA1を音声認証装置3に入力させる。これにより、音声登録部3Aにより音声SA1の登録が行われる。
【0020】
次に、
図4に示すように、例えば登録を行ったユーザPAが特定のキーワードKW1を含んだ音声SA1を発した場合、音声認証装置3における音声照合部3Bにより照合処理が行われ、登録内容と一致した旨の照合結果が得られる。この場合、例えばスマートスピーカ1の使用が許可される。
【0021】
もし、
図4に示すように、登録を行ったユーザPAがキーワードKW1とは異なるキーワードKW2を含んだ音声SA2を発した場合は、登録した内容と一致しない旨の照合結果が得られる。このような場合、例えばスマートスピーカ1の使用が許可されない。なお、登録を行ったユーザPAとは異なるユーザPBがキーワードKW1を含んだ音声SB1を発した場合も、登録した内容と一致しない旨の照合結果が得られる。
【0022】
<4.3層ニューラルネットワークを用いた登録・照合処理>
音声登録部3Aは、AIモデルの学習処理を行うことで音声登録を行う。本実施形態では、当該AIモデルとして、
図5に示すような3層ニューラルネットワーク30を用いる。キーワードの学習であれば、深層ニューラルネットワークを用いずとも、3層ニューラルネットワークで十分実現可能である。
【0023】
図5に示すように、3層ニューラルネットワーク30は、入力層30Aと、隠れ層30Bと、出力層30Cと、を有するAIモデルである。一般に、3層ニューラルネットワーク30において、バッチサイズkのn次元の入力データx∈R
k×nに対して、n’次元の推論結果y∈R
k×n’は、y=G(x・α+b)βとして得られる。ここで、α∈R
n×mは入力層30Aと隠れ層30Bとを結合する重みであり、β∈R
m×n’は隠れ層30Bと出力層30Cとを結合する重みである。また、b∈R
mは、隠れ層30Bのバイアスであり、Gは隠れ層30Bの活性化関数である。
【0024】
本実施形態では、3層ニューラルネットワーク30を任意のバッチサイズで逐次的に学習できるアルゴリズムを用いる。バッチサイズk
iのi番目の学習データ{x
i∈R
ki×n, t
i∈R
ki×n’}が得られた場合、下記(2)式で示される誤差を最小化するβ
iを求める必要がある。
【数1】
なお、i番目の隠れ層行列H
i=G(x
i・α+b)である。また、tは、推論結果yに対応する教師データである。
【0025】
最適化された重みβiは、下記(3)式により計算される。
Pi=Pi-1-Pi-1Hi
T(I+HiPi-1Hi
T)-1HiPi-1
βi=βi-1+PiHi
T(ti-Hiβi-1) (3)
【0026】
ここで、P0とβ0については、下記(4)式により得られる。
P0=(H0
TH0)-1
β0=P0H0
Tt0 (4)
【0027】
学習のアルゴリズムは次のようになる。
重みα、およびバイアスbの値を乱数により初期化する。
(2)x0に対するH0を算出し、P0およびβ0を算出する。
(3)バッチサイズkiのi番目の学習データが得られるたびに、Piおよびβiを逐次算出する。
なお、(4)式におけるβ0の算出式を用いずに、乱数により初期化した値をβ0としてもよい。
【0028】
また、本実施形態では、オートエンコーダを用いた学習を行う。オートエンコーダは、入力データをそのまま教師データとして流用し、入力データを推論結果として再構成できるように学習する。すなわち、上記でいえば、t=xとして学習する。オートエンコーダは、別個に教師データを作成する必要がないので、教師なし学習アルゴリズムの一種となる。
【0029】
音声登録時には、まずユーザP(
図2)が特定のキーワードを含んだ音声Sを発し、音声変換部2により音声SをAD変換した時系列データである音声データSDを0番目のバッチサイズk
0の入力データx
0として、音声登録部3Aは上記(4)式によりP
0およびβ
0を算出する。
図6に音声信号を模式的に示すが、入力データxの1つのノードが音声データSDにおける1つのサンプリングデータとなり、時系列に並ぶn個(n:入力データxのノード数)のサンプリングデータの組がk個集まってバッチサイズkの入力データとなる。
【0030】
次に、ユーザPが特定のキーワードを含んだ音声Sを新たに発するたびに、得られた音声データSDの時系列データをi番目のバッチサイズkiの入力データxiとし、音声登録部3Aは上記(3)式によりPiおよびβiを逐次算出する。なお、登録処理時におけるユーザPがキーワードを発声する回数(複数回)は、特に限定されない。
【0031】
次に、音声照合時には、ユーザP(登録時のユーザとは限らない)がキーワードを含んだ音声Sを発し、音声変換部2により音声SをAD変換した時系列データである音声データSDをバッチサイズkの入力データxとして、3層ニューラルネットワークの推論結果yを得る。そして、誤差L(y,t)=L(y,x)=|y-x|が閾値を超えるか否かにより、照合を行う。誤差Lが閾値を超えない場合、登録内容と一致した旨の照合結果となり、誤差Lが閾値を超える場合、登録内容と一致しなかった旨の照合結果となる。なお、誤差Lは、上記に限らず、例えばL=|y-x|2としてもよい。
【0032】
なお、入力データとしては、音声データSDを周波数解析して得られるパワースペクトルを用いてもよい。この場合、入力データxの1つのノードが周波数成分ごとのパワーとなる。
【0033】
また、先述したような上記(3)式と(4)式の両方を用いる学習に限らず、音声登録を1回のみの発声による音声Sにより行う場合は、上記(4)式のみにより学習を行ってもよい。
【0034】
このように本実施形態では、学習処理の処理負荷が低いため、音声認証装置3を小型・低コストなIC(集積回路)により実現することができ、高価なプロセッサが不要となる。これにより、通信ネットワーク10を介して外部サーバーで登録・照合処理を行う必要がなく、音声認証をスマートスピーカ1内部で完結できる。従って、個人情報である音声データの漏洩を抑制でき、セキュリティを向上させることができる。なお、音声登録部3Aおよび音声照合部3Bは、ハードウェア回路で実現してもよいし、ソフトウェアで実現してもよい。
【0035】
<5.変形例>
図7は、本開示の変形例に係る機器1xの構成を示す図である。機器1xは、外部の通信ネットワーク10から分離された機器である。すなわち、機器1xは、通信ネットワーク10と通信可能な通信部を有さない。機器1xは、例えば通信ネットワーク10と接続されない家電などである。なお、
図7では、機器1xにおける音声認証機能以外の構成については図示を省略している。
【0036】
この場合、機器1xに音声変換部2と音声認証装置3を設けることで、機器1x内部で音声認証を完結できる。従って、機器1xにおいて、音声認証のためだけに通信ネットワーク10と通信する通信部を設ける必要がなくなり、小型化・低コストを実現できる。
<6.その他>
本開示の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。これまでに説明してきた各種の実施形態及び変形例は、矛盾のない範囲で適宜組み合わせて実施してもよい。以上の実施形態は、あくまでも、本開示の実施形態の例であって、本開示ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。
【0037】
<7.付記>
以上の通り、本開示の一態様に係る音声認証装置(3)は、
外部からの音声(S)を電気信号である音声信号(SD)に変換するように構成される音声変換部(2)を備えた機器(1)に搭載可能であって、
前記音声信号に基づいて、AIモデルのパラメータを学習するように構成される音声登録部(3A)と、
前記音声信号に基づく入力データに対して、学習された前記パラメータを有する前記AIモデルにより得られる推論結果に基づいて音声の照合を実行するように構成される音声照合部(3B)と、
を備え、
前記音声登録部と前記音声照合部に基づいて音声認証を実行する構成としている(第1の構成)。
【0038】
また、上記第1の構成において、前記音声登録部および前記音声照合部は、それぞれキーワードを含んだ前記音声に基づいて登録・照合を行う構成としてもよい(第2の構成)。
【0039】
また、上記第2の構成において、前記AIモデルは、入力層(30A)、隠れ層(30B)、および出力層(30C)を有する3層ニューラルネットワーク(30)である構成としてもよい(第3の構成)。
【0040】
また、上記第3の構成において、前記音声登録部は、下記(A)式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβ0を算出する構成としてもよい(第4の構成)。
P0=(H0
TH0)-1
β0=P0H0
Tt0 (A)
ただし、隠れ層行列Hi=G(xi・α+b)、α:前記入力層と前記隠れ層を結合する重み、b:前記隠れ層のバイアス、G:前記隠れ層の活性化関数、xi:バッチサイズkiのi番目の入力データ、ti:バッチサイズkiのi番目の教師データ
【0041】
また、上記第3の構成において、前記音声登録部は、下記(B)式を用いて前記パラメータとして前記隠れ層と前記出力層を結合する重みβiを逐次算出する構成としてもよい(第5の構成)。
Pi=Pi-1-Pi-1Hi
T(I+HiPi-1Hi
T)-1HiPi-1
βi=βi-1+PiHi
T(ti-Hiβi-1) (B)
ただし、隠れ層行列Hi=G(xi・α+b)、α:前記入力層と前記隠れ層を結合する重み、b:前記隠れ層のバイアス、G:前記隠れ層の活性化関数、xi:バッチサイズkiのi番目の入力データ、ti:バッチサイズkiのi番目の教師データ
【0042】
また、上記第5の構成において、前記音声登録部は、下記(C)式を用いて前記重みβ0を算出する構成としてもよい(第6の構成)。
P0=(H0
TH0)-1
β0=P0H0
Tt0 (C)
【0043】
また、上記第4から第6のいずれかの構成において、前記音声登録部は、ti=xiとして学習を行う構成としてもよい(第7の構成)。
【0044】
また、上記第4から第7のいずれかの構成において、前記入力データは、前記音声信号のサンプリングデータである構成としてもよい(第8の構成)。
【0045】
また、上記第4から第7のいずれかの構成において、前記入力データは、前記音声信号を周波数解析して得られるスペクトルデータである構成としてもよい(第9の構成)。
【0046】
また、本開示の一態様に係る機器(1)は、上記第1から第9のいずれかの構成とした音声認証装置(3)と、前記音声変換部(2)と、通信ネットワーク(10)と通信可能な通信部(6)と、を備える(第10の構成)。
【0047】
また、上記第10の構成の機器は、例えばスマートスピーカである(第11の構成)。
【0048】
また、本開示の一態様に係る機器(1x)は、上記第1から第9のいずれかの構成とした音声認証装置(3)と、前記音声変換部(2)と、を備え、通信ネットワーク(10)と分離されて構成される(第12の構成)。
【産業上の利用可能性】
【0049】
本開示は、例えば、スマートスピーカなど各種機器に利用することが可能である。
【符号の説明】
【0050】
1 スマートスピーカ
1x 機器
2 音声変換部
3 音声認証装置
3A 音声登録部
3B 音声照合部
4 制御部
5 音声出力部
6 通信部
10 通信ネットワーク
30 3層ニューラルネットワーク
30A 入力層
30B 隠れ層
30C 出力層
100 音声認証装置
200 サーバー
S、SA1、SA2、SB1 音声
P、PA、PB ユーザ
KW1、KW2 キーワード