(58)【調査した分野】(Int.Cl.,DB名)
事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する音声認識手段と、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する登録音声評価手段と、
前記登録音声評価手段の評価結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する辞書登録手段とを備えた話者識別装置。
前記登録音声評価手段は、単語毎に、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する請求項1〜3のいずれか1項に記載の話者識別装置。
前記辞書登録手段は、前記単語毎の前記スコアの全てが所定の基準値より大きい場合、前記話者識別辞書に、前記登録音声の特徴量を登録する請求項4に記載の話者識別装置。
事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する話者識別用の登録音声の特徴量登録方法。
事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する処理をコンピュータに実行させるプログラム。
【背景技術】
【0002】
話者識別(または話者認識)は、人間の声から個人を認識(識別や認証)するコンピュータによる処理をいう。具体的には、話者識別では、音声から特徴を抽出し、モデル化し、モデル化されたデータを用いて個人の声を識別する。
【0003】
話者識別サービスは、話者識別を提供するサービスであって、入力した音声データの話者を識別するサービスである。
【0004】
この話者識別サービスでは、識別対象の話者の音声などのデータを事前に登録し、その後識別対象のデータを登録済みのデータと照合するという手順が広く用いられている。話者登録は、エンロール (enroll)、訓練、またはトレーニング(training)とも呼ばれる。
【0005】
図9Aおよび
図9Bは、一般的な話者識別サービスを説明するための図である。
図9Aおよび
図9Bに示されるように、一般的な話者識別サービスは、2段階で動作し、登録フェーズと識別フェーズの2つのフェーズを有する。
図9Aは、登録フェーズの内容を模式的に示す図である。
図9Bは、識別フェーズの内容を模式的に示す図である。
【0006】
図9Aに示されるように、登録フェーズでは、まず、利用者は、話者識別サービスに対して、登録音声(実際には、話者名と登録音声)を入力する。次に、話者識別サービスは、登録音声から特徴量を抽出する。そして、話者識別サービスは、辞書登録として、話者名と特徴量の組を話者識別辞書に格納する。
【0007】
図9Bに示されるように、識別フェーズでは、まず、利用者は、話者認識サービスに対して、音声(具体的には、識別対象音声)を入力する。次に、話者識別サービスは、識別対象音声から特徴量を抽出する。そして、話者識別サービスは、抽出した特徴量と、話者識別辞書に登録されている特徴量とを照合することにより、識別対象音声と同一の特徴量を持つ登録音声を特定する。最後に、話者識別サービスは、特定された登録音声に付加されている話者名を、識別結果として、利用者に返却する。
【0008】
図9Aおよび
図9Bに記載の話者識別サービスでは、話者識別の精度が登録音声の品質に依存していた。すわなち、たとえば、登録音声が母音しか含まない場合や、登録対象の話者以外の声が混在している場合や、雑音レベルが高い場合などの条件下では、理想的な条件で登録された場合よりも精度が低下する。このため、識別辞書に格納されたデータの内容によって、実用的な識別精度を得ることができない場合があった。
【0009】
なお、
図9Aおよび
図9Bに示される特徴量には、たとえば、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient, MFCC)、ガウス混合モデル (Gaussian Mixture Model, GMM)が、知られている。
【0010】
登録フェーズにおいて、識別辞書に格納するデータは、これらの特徴量そのものであるとは限らない。たとえば、特徴量データの集合を用いてサポートベクトルマシン(Support Vector Machine)などの分類器を生成し、その分類器のパラメータを識別辞書に登録するという手法も知られている(たとえば、特許文献1)。
【0011】
また、特許文献1では、以前にデータベースに登録されたデータと、新規にデータベースに登録するデータとの類似度を算出し、類似度が基準値未満である場合に限り登録を許可している。特許文献1に記載の技術では、類似したデータが複数登録された場合に、入力音声 (識別対象の音声)との類似度をより厳密に算出するための二次識別を行う。
【0012】
ただし、特許文献1に記載の技術では、新規にデータベースに登録するデータが十分な情報を含んでいない場合に、新規に登録するデータと登録済みデータとの間の類似度が低い傾向がある。このため、類似した特徴をもつデータが予めデータベースに登録されているにもかかわらず、新規に登録しようとするデータがデータベースへの登録に成功してしまうことがあった。この結果、照合時に誤って音声識別されることがあった。
【0013】
一方、特許文献2には、データベースに予め登録された生体情報との類似度を用いた評価手段が、開示されている。特許文献2に記載の技術では、新規に登録しようとする生体情報と、データベースに登録済みの生体情報のそれぞれとの間で尤度(類似度)を算出し、すべての登録済み生体情報との間で尤度が基準値未満である場合に限って、登録を許可する。
【0014】
この手法により、例えばAとBの2人の話者がデータベースに登録されている場合に、AがBと誤認識される可能性を減らすことができ、逆にBがAと誤認識される可能性も減らすことができる。
【0015】
また、例えば、特許文献3〜5にも、本発明の関連する技術が、開示されている。
【発明を実施するための形態】
【0024】
<第1の実施の形態>
本発明の第1の実施の形態における話者識別サーバ100を含む話者識別システム1000の構成について説明する。
【0025】
話者識別システム1000の構成を説明する前に、話者識別処理の原理を
図2に基づいて説明する。
図2は、本発明の第1の実施の形態における話者識別処理の原理を説明するための図である。話者識別装置500は、本発明の話者識別装置に対応する。
【0026】
図2に示されるように、話者識別装置500は、登録対象テキストデータ501を利用者600に提示する。この際、話者識別装置500は、利用者600に対して、登録対象テキストデータ501の読み上げを依頼する(処理1)。なお、話者識別装置500は、本発明の話者識別装置に対応し、
図1の話者識別サーバ100の機能を模式的に示すブロックに相当する。
【0027】
次に、端末(
図2にて不図示)に設けられたマイク(
図2にて不図示)は、利用者600により読み上げられた声を集音する。そして、利用者600により読み上げられた声は、登録音声502として、話者識別装置500に入力される(処理2)。
【0028】
次に、話者識別装置500は、音声認識により、登録音声502から抽出テキストデータ503を抽出する(処理3)。
【0029】
次に、話者識別装置500は、処理3で抽出された抽出テキストデータ503(テキスト抽出結果)と、登録対象テキストデータ501とを比較し、両者が一致している部分の割合(類似度)を基にスコアを算出する(処理4)。
【0030】
最後に、話者識別装置500は、処理4で得られるスコアが基準値以上である場合、登録音声502から抽出した特徴量と話者名の組を話者識別辞書504に登録する(処理5)。一方、話者識別装置500は、処理4で得られるスコアが基準値以上でない場合、処理2以降の処理を再試行する。
【0031】
なお、登録対象テキスト全体を複数の部分テキスト(例えば文単位)に分割し、それぞれの部分テキストについて処理1〜4の手順を繰り返し実行し、すべての部分テキストについてスコアが基準値を超えた時点で、該当ユーザについて処理5の登録処理を行うようにしても良い。
【0032】
このように、登録フェーズにおいて音声認識を用いて登録音声の品質を評価し、十分な品質を持つ特徴量のみ登録することで、安定した識別精度を得ることができる。
【0033】
以上、話者識別処理の原理を
図2に基づいて説明した。
【0034】
次に、話者識別システム1000の構成を説明する。
図1は、話者識別サーバ100を含む話者識別システム1000の構成を示す図である。話者識別サーバ100は、本発明の話者識別装置に対応する。
【0035】
図1に示されるように、話者識別システム1000は、話者識別サーバ100と、端末200とから構成される。話者識別サーバ100および端末200は、ネットワーク300を介して、互いに通信できるように接続されている。
【0036】
図1に示されるように、話者識別サーバ100は、ネットワーク300に接続されている。話者識別サーバ100は、ネットワーク300を介して、1以上の端末200に通信接続する。より具体的には、話者識別サーバ100は、ネットワーク300経由で、端末200により入力された音声データに対して、話者識別を行うサーバ装置である。1台の話者識別サーバに対して、1台以上の任意の台数の端末200を接続することができる。
【0037】
図1に示されるように、話者識別サーバ100は、テキスト提示部101と、音声認識部102と、登録音声評価部103と、辞書登録部104と、話者識別部105と、登録対象テキスト記録部106と、音声一時記録部107と、話者識別辞書108とを備えている。
【0038】
図1に示されるように、テキスト提示部101は、音声認識部102、登録音声評価部103、辞書登録部104および登録対象テキスト記録部106に接続されている。テキスト提示部101は、予め設定されたテキストデータである登録対象テキストデータ(文字または記号を含むデータ)を登録話者に提供する。より具体的には、テキスト提示部101は、ネットワーク300を介して、端末200を利用する登録話者に、登録対象テキストデータを提供し、登録話者に登録対象テキストデータの読み上げを促す。なお、登録話者は、端末200の利用者であって、自身の音声を話者識別サーバ100に登録する者である。登録対象テキストデータは、予め設定されたテキストデータであって、基準となるテキストデータである。登録対象テキストデータは、事前に任意に設定することができる。
【0039】
図1に示されるように、音声認識部102は、テキスト提示部101、登録音声評価部103および辞書登録部104に接続されている。音声認識部102は、登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。すなわち、登録話者が端末200を用いて基準テキストデータを読み上げると、端末200は、登録話者により読み上げられることにより入力される音声を、登録音声として、ネットワーク300を介して、話者識別サーバ100へ送信する。そして音声認識部102は、音声認識(speech-to-text)により、登録対象テキストデータの読み上げ結果である登録音声からテキストデータを、抽出テキストデータとして抽出する。
【0040】
図1に示されるように、登録音声評価部103は、テキスト提示部101、音声認識部102、辞書登録部104、登録対象テキスト記録部106および音声一時記録部107に接続されている。登録音声評価部103は、音声認識部102により抽出された抽出テキストデータと、登録対象テキストデータとの間の類似度を示す登録音声スコアを、登録話者毎に算出する。すなわち、登録音声評価部103は、登録音声からのテキスト抽出結果(抽出テキストデータ)と、登録対象テキストデータとを比較することにより、登録音声の品質を示す指標として、登録音声スコアを算出する。
【0041】
図1に示されるように、辞書登録部104は、テキスト提示部101、音声認識部102、登録音声評価部103、話者識別部105および話者識別辞書108に接続されている。辞書登録部104は、登録音声評価部103の評価結果に応じて、話者識別辞書108に、登録音声の特徴量を登録する。より具体的には、登録音声評価部103により算出された登録音声スコアが所定の基準値より大きい場合、辞書登録部104は話者識別辞書108に登録音声の特徴量を登録する。すなわち、辞書登録部104は、登録音声評価部103により算出された登録音声スコアが基準値以上である登録音声から特徴量を抽出し、この抽出情報を話者識別辞書108に登録する。
【0042】
図1に示されるように、話者識別部105は、辞書登録部104および話者識別辞書108に接続されている。話者識別部105は、端末200により入力される識別対象音声に基づいて、話者識別辞書108を参照して、識別対象音声の主がどの登録話者なのかを識別する。
【0043】
図1に示されるように、登録対象テキスト記録部106は、テキスト提示部101および登録音声評価部103に接続されている。登録対象テキスト記録部106は、ストレージ装置(または、ストレージ装置内の一部の領域)であって、登録対象テキストデータを記憶する。登録対象テキストデータは、テキスト提示部101により参照される。
【0044】
図1に示されるように、音声一時記録部107は、登録音声評価部103に接続されている。音声一時記録部107は、ストレージ装置(または、ストレージ装置内の一部の領域)であって、端末200により入力される登録音声を一時的に記録する。
【0045】
図1に示されるように、話者識別辞書108は、辞書登録部104および話者識別部105に接続されている。話者識別辞書108は、登録話者毎に登録音声の特徴量を登録するための辞書である。
【0046】
図1に示されるように、端末200は、ネットワーク300に接続されている。端末200は、ネットワーク300を介して、話者識別サーバ100に通信接続する。端末200は、マイク等の入力装置(
図1にて不図示)と、液晶ディズプレイ等の出力装置(
図1にて不図示)を備えている。また、端末200は、ネットワーク300を介して話者識別サーバ100と情報の送受を行う送受信機能を有する。端末200は、たとえば、PC(Personal Computer)、電話機、携帯電話機、スマートフォンなどである。
【0047】
以上、話者識別システム1000の構成について説明した。
【0048】
次に、話者識別サーバ100の動作について説明する。話者識別サーバ100の動作は、登録フェーズと識別フェーズの2種類の動作を含んでいる。
【0049】
まず、話者識別サーバ100の登録フェーズの動作について説明する。登録フェーズは、登録話者により端末200に対して行われる話者登録操作を起点に、開始される。以下の説明では、登録対象テキストは、複数個のテキストにより構成されるものとする。
【0050】
図3は、話者識別サーバ100の登録フェーズの動作フローを示す図である。
【0051】
図3に示されるように、まず、話者識別サーバ100は、端末200により送信される話者登録要求に応答して、登録対象テキストデータを端末200に送信する(ステップ(STEP:以下、単にSと称する。)11)。このとき、テキスト提示部101は、登録対象テキスト記録部106に予め格納された登録対象テキストデータを取得し、この登録対象テキストデータを、端末200の利用者である登録話者に提供する。このS11の処理は、
図2のテキスト提示処理(処理1)に対応する。
【0052】
次に、端末200は、テキスト提示部101により提供された登録対象テキストデータを受信し、端末200の利用者である登録話者に対して、登録対象テキストデータの読み上げを依頼する。登録話者が登録対象テキストデータを読み上げると、端末200は、登録話者が読み上げた結果の音声データを、登録音声として、話者識別サーバ100へ送信する。この処理は、
図2の音声入力処理(処理2)に対応する。
【0053】
なお、S11において、話者サーバ100から端末200に登録対象テキストデータを電文として送信するか、あるいは事前に登録対象テキストデータを紙に印刷した形(以下、登録対象テキスト紙)で利用者に配付しても良い。後者の場合、登録対象テキスト紙には、個々の登録対象テキストに番号を付加した形で印刷しておき、本ステップでは話者識別サーバから端末に対して読み上げ対象の番号を送信する。
【0054】
次に、話者識別サーバ100は、端末200により送信された登録音声を受信する(S12)。ここでは、端末200から話者識別サーバ100に入力される登録音声の信号は、PCM(Pulse Code Modulation)やG.729などの符号化方式で表現されたデジタル信号、またはアナログ音声信号のいずれでも良い。また、ここで入力される音声信号をS13以降の処理に先立って変換しても良い。例えば、話者識別サーバ100は、G.729符号化方式による音声信号を受理し、S12とS13の間で音声信号をリニアPCMに変換した後で、これを音声認識処理(S13)および辞書登録処理(S18)に適合するように構成しても良い。
【0055】
音声認識部102は、音声認識により、登録音声から抽出テキストデータを抽出する(S13)。このS13の処理では、既知の音声認識技術を用いる。音声認識技術には、利用者の事前登録(エンロール、enroll) を必要とするものとしないものがあるが、本発明では事前登録を必要としない技術を用いる。このS13の処理は、
図2のテキスト抽出処理(処理3)に対応する。
【0056】
次に、登録音声評価部103は、音声認識部102により抽出された抽出テキストデータと、登録対象テキストデータとを比較して、両者間の類似度を示す登録音声スコアを登録話者毎に算出する(S14)。このS14処理は、
図2の比較→スコア算出処理(処理4)に対応する。
【0057】
ここで、S14のスコア算出処理について、
図4および
図5に基づいて、具体的に説明する。
【0058】
図4および
図5は、登録音声評価部103によるスコア算出処理を説明するための図である。
【0059】
図4は、登録対象テキストデータが日本語の場合を示している。
図4の上段には、正解テキストとして、[A]登録対象テキストデータを示す。
図4の下段には、[B]登録音声からのテキスト抽出結果(抽出テキストデータ)を示す。
【0060】
既知の音声認識技術では、音声認識結果[B]は、辞書を用いて、単語単位で、かな漢字交じりの文章として、表現される。
【0061】
正解テキストとして用いる登録対象テキスト[A]は、これに合わせて事前に、単語単位に分割した状態で、登録対象テキスト記録部106に記録しておく。S14では、登録音声評価部103は、単語ごとに、登録対象テキストデータ[A]と抽出テキストデータ[B]を比較する。そして、登録音声評価部103は、登録対象テキストデータ[A]と抽出テキストデータ[B]の比較結果に基づいて、登録対象テキストデータ[A]中の全単語数のうち、抽出テキストデータ[B]と一致した単語数の割合を登録音声スコアとして算出する。
図4の例では、4単語中3単語が一致しているので、スコアは3/4=0.75となる。
【0062】
図5は、登録対象テキストが英語の場合を示している。
図5の上段には、正解テキストとして、[A]登録対象テキストデータを示す。
図5の下段には、[B]登録音声からのテキスト抽出結果(抽出テキストデータ)を示す。
【0063】
図4の例と同様に、登録音声評価部103は、単語ごとに、登録対象テキストデータ[A]と抽出テキストデータ[B]を比較する。そして、登録音声評価部103は、登録対象テキストデータ[A]と抽出テキストデータ[B]の比較結果に基づいて、登録対象テキストデータ[A]中の全単語数のうち、抽出テキストデータ[B]と一致した単語数の割合を登録音声スコアとして算出する。
図5の例では、4単語中3単語が一致しているので、スコアは3/4=0.75となる。
【0064】
図3に戻って、辞書登録部104は、登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きいか否かを判断する(S15)。
【0065】
登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きい場合(S15、YES)、辞書登録部104は話者識別辞書108に登録音声を音声一時記録部107に登録する(S16)。
【0066】
登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きくない場合(S15、NO)、話者識別サーバ100は、S11の処理以降の処理を繰り返す。
【0067】
話者識別サーバ100は、登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が、音声一時記録部107に格納されたか否かを判断する(S17)。
【0068】
登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部107に格納された場合(S17、YES)、辞書登録部104は話者識別辞書108に登録音声を登録する(S18)。このS18は、
図2の辞書登録処理(処理5)に対応する。
【0069】
登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部107に格納されていない場合(S17、NO)、話者識別サーバ100は、S11の処理に戻り、他の登録対象テキストデータに対する処理を行う。
【0070】
このS17における繰り返しの制御について、
図6を用いて、具体例を説明する。
図6は、音声一時記録部107に格納された情報を示す図である。
【0071】
図6では、ユーザ(登録話者)のID「000145」と、登録対象テキストデータID1〜5の組のそれぞれについて、対応する登録音声が音声一時記録部107に格納済みか否か(true/false)を示している。この例では、登録対象テキストデータ1および2については格納済みで、登録対象テキストデータ3〜5については未格納であるため、話者識別サーバ100は、登録対象テキストデータ3〜5のいずれかを対象としてS11以降の処理を繰り返し行う。
【0072】
図3に戻って、最後に、登録対象の利用者(登録話者)について、音声一時記録部107に格納された登録音声全てを削除する(S19)。
【0073】
以上、話者識別サーバ100の登録フェーズの動作について説明した。
【0074】
次に、話者識別サーバ100の識別フェーズの動作について説明する。
図7は、話者識別サーバ100の登録フェーズの動作フローを示す図である。なお、話者識別サーバ100の識別フェーズは、
図8の登録フェーズの処理と同様である。
【0075】
図7に示されるように、まず、話者識別サーバ100は、端末200から送信される話者識別要求を受信する(S21)。話者識別要求には、パラメータとして、端末200により録音された音声データ(識別対象音声)が含まれている。
【0076】
次に、話者識別サーバ100の話者識別部105は、話者識別辞書108を参照して登録話者を識別する(S22)。すなわち、話者識別部105は、S21で得られた識別対象音声の特徴量と、話者識別辞書108に登録された登録音声の特徴量とを照合する。これにより、話者識別部105は、識別対象音声が話者識別辞書108内のいずれかのユーザID(Identifier)の登録音声とマッチするか否かを判定する。
【0077】
最後に、話者識別サーバ100は、話者識別部105の識別結果を、端末200へ送信する(S23)。
【0078】
以上、話者識別サーバ100の識別フェーズの動作について説明した。
【0079】
以上の通り、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)は、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書108に、登録音声の特徴量を登録する。
【0080】
このように、話者識別サーバ100(話者識別装置)では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書108に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を算出し、辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に話者識別辞書108に、登録音声の特徴量を登録する。これにより、登録音声評価部103の評価結果が好ましい場合の登録音声は、話者識別辞書108に登録されるが、登録音声評価部103の評価結果が好ましくない場合の登録音声は、話者識別辞書108に登録されない。したがって、話者識別辞書108には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。
【0081】
このように、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献2に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。
【0082】
また、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、辞書登録部104は、スコア(登録音声スコア)が所定の基準値より大きい場合、話者識別辞書108に、登録音声の特徴量を登録する。
【0083】
このように、話者識別辞書108に登録音声の特徴量を登録する判断基準であるスコア(登録音声スコア)を定量的に判断することにより、話者識別辞書108に登録される登録音声の品質をより定量的に高めることができる。したがって、不十分な品質の登録音声に起因する識別誤りをより効果的に抑制し、より安定して正確に話者を識別することができる。
【0084】
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)は、テキスト提示部101を備えている。テキスト提示部101は、登録対象テキストデータを登録話者に提供する。これにより、登録対象テキストデータをより円滑に登録話者に提供することができる。
【0085】
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、登録音声評価部103は、単語毎に、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。このように、単語毎にスコアを算出するので、抽出テキストデータと登録対象テキストデータとをより精度高く比較することができる。
【0086】
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、辞書登録部104は、単語毎のスコアの全てが所定の基準値より大きい場合、話者識別辞書108に、登録音声の特徴量を登録する。これにより、話者識別辞書108に登録される登録音声の品質をより高めることができる。
【0087】
本発明の第1の実施の形態における話者識別用の登録音声の特徴量登録方法は、音声認識ステップと、登録音声評価ステップと、辞書登録ステップとを含む。音声認識ステップでは、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価ステップでは、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録ステップでは、登録音声評価ステップの評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。この方法によっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
【0088】
本発明の第1の実施の形態における話者識別用の登録音声の特徴量登録プログラムは、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させる。このプログラムによっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
【0089】
本発明の第1の実施の形態における記憶媒体は、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させるプログラムを記憶する。この記憶媒体によっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
【0090】
<第2の実施の形態>
次に、本発明の第2の実施の形態における話者識別サーバの構成について、説明する。
【0091】
第1の実施の形態では、登録音声の評価基準として、登録音声から音声認識により抽出したテキストデータと、正解テキストとして登録対象テキストデータとの比較を用いていた。ここで、正解テキストとしての登録対象テキストデータは、
図3のS11における登録対象テキストデータを指す。
【0092】
この第2の実施の形態では、登録音声の評価基準として、登録音声に含まれる音素 (例: a, i, u, e, o, k, s, …) の種類を用いる。具体的には、登録音声を音声認識した結果抽出される各音素の出現回数をカウントし、すべての種類の音素について出現回数が基準回数 (例えば5回)に達していれば、十分な情報を含むと判定する。この条件を満たさない場合に、利用者に対して追加の登録音声の入力を依頼し、前回までの登録音声に含まれる音素数と合算して基準回数(基準音素数)に達しているか否かを判定しても良い。
【0093】
本発明の第2の実施の形態における話者識別サーバ(話者識別装置)において、登録音声評価部は、抽出テキストデータに含まれる音素の数を、予め設定された基準音素数と比較する。
【0094】
これにより、スコアの算出に正解テキスト(すなわち登録対象テキスト)を無くすことができる。このため、登録話者は、話者登録時に任意の文章を読み上げることができる。
【0095】
<第3の実施の形態>
本発明の第3の実施の形態における話者識別サーバ100Aの構成について説明する。
図8は、本発明の第3の実施の形態における話者識別サーバ100Aの構成を示す図である。なお、
図8では、
図1〜
図7で示した各構成要素と同等の構成要素には、
図1〜
図7に示した符号と同等の符号を付している。
【0096】
図8に示されるように、話者識別サーバ100Aは、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。
図1のように図示しないが、音声認識部102と登録音声評価部103と辞書登録部104は、互いに接続されている。音声認識部102、登録音声評価部103および辞書登録部104は、第1の実施の形態における話者識別サーバ100に含まれる構成要素と同一である。すなわち、話者識別サーバ100Aは、話者識別サーバ100の一部の構成要素のみで構成されている。
【0097】
音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。
【0098】
登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコアを、登録話者毎に算出する。
【0099】
辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。
【0100】
以上の通り、本発明の第3の実施の形態における話者識別サーバ100(話者識別装置)は、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。
【0101】
このように、話者識別サーバ100A(話者識別装置)では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を算出し、辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に話者識別辞書に、登録音声の特徴量を登録する。これにより、登録音声評価部103の評価結果が好ましい場合の登録音声は、話者識別辞書に登録されるが、登録音声評価部103の評価結果が好ましくない場合の登録音声は、話者識別辞書に登録されない。したがって、話者識別辞書には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。
【0102】
このように、本発明の第3の実施の形態における話者識別サーバ100A(話者識別装置)によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献2に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。
【0103】
本発明の実施の形態1〜3における話者識別技術は、話者識別の応用分野全般への利用が可能である。具体例として、次のものを含む。(1)電話などの音声通話において、通話音声から通話相手を識別するサービス、(2)声の特徴を利用して建物や部屋への入退場を管理する装置、(3)電話会議・テレビ会議・映像作品において、発言者名と発言内容の組をテキストとして抽出するサービス。
【0104】
なお、特許文献3〜5と本発明の対比は、以下の通りである。
【0105】
特許文献3には、音声認識結果(音声認識の結果得られるテキスト)と正解テキスト(比較の基準となるテキスト)との比較や、認識信頼度に基づいて、スコアを算出する技術が、開示されている(特に、段落[0009]、[0011]、[0013])。しかし、特許文献3に記載の技術は、音声認識の結果を評価するための一般的な方法であり、本発明と直接的には関係ない。また、特許文献3には、スコア算出結果が閾値未満である場合、話者登録学習を適用し、登録対象の話者に対して、特定の単語について発声を促し、その結果を用いて発音辞書を更新するという処理が、開示されている。
【0106】
しかし、少なくとも、登録音声評価部103が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を登録話者毎に算出する技術は、特許文献3には開示されていない。
【0107】
すなわち、既知の話者識別技術では、同一話者について、単語単位などの短い音声を逐次的に識別辞書に登録するのではなく、ある程度の長さ (典型的には数分程度) を持つ音声を一度に登録する必要がある。
【0108】
特許文献4には、ユーザが発声した音声と、それに対応するテキストを入力させ、前者について話者性を取り除いた後の音声特徴量と、後者のテキストの対応関係を認識辞書に記憶するという動作が、開示されている(特に段落[0024])。また、音声認識の対象となる音声信号について、話者認識の結果である話者ラベルを用いて、適用すべき正規化パラメータを特定する処理が開示されている(特に[0040])。しかしながら、少なくとも、登録音声評価部103が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を登録話者毎に算出する技術は、特許文献4には開示されていない。
【0109】
特許文献5には、新規登録ユーザにランダムなテキストを提示して、それに対応する音声入力を促し、その結果を用いて個人用辞書を作成する動作が、開示されている(段落[0016])。また、不特定話者音声辞書と音声データとの照合結果である照合スコアを算出し、個人用辞書の一部として登録する動作が、開示されている(特に段落[0022])。
【0110】
しかしながら、特許文献5には、同一話者について複数の部分テキストを提示する技術は開示されていない。
【0111】
さらに、特許文献5には、正規化スコアと閾値との大小関係により、本人か否かを判定する動作が開示されている(特に段落[0024])。これは話者照合における一般的な動作(本件の
図8に記載した技術の「識別フェーズ」に相当)である。
【0112】
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0113】
この出願は、2014年12月11日に出願された日本出願特願2014−250835を基礎とする優先権を主張し、その開示の全てをここに取り込む。