(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-06
(45)【発行日】2023-11-14
(54)【発明の名称】評価装置、評価方法、及び評価プログラム
(51)【国際特許分類】
G10L 15/28 20130101AFI20231107BHJP
G10L 25/60 20130101ALI20231107BHJP
H04R 1/14 20060101ALI20231107BHJP
【FI】
G10L15/28 400
G10L25/60
H04R1/14
(21)【出願番号】P 2019154876
(22)【出願日】2019-08-27
【審査請求日】2022-07-12
【新規性喪失の例外の表示】特許法第30条第2項適用 2018年8月29日に一般社団法人日本音響学会が発行した日本音響学会2018年秋季研究発表会講演論文集70頁に掲載。
【新規性喪失の例外の表示】特許法第30条第2項適用 2018年9月12~14日(発表日:2018年9月12日)に大分大学旦野原キャンパスで開催された日本音響学会2018年秋季研究発表会で発表。
(73)【特許権者】
【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100124800
【氏名又は名称】諏澤 勇司
(72)【発明者】
【氏名】西村 雅史
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2005-140860(JP,A)
【文献】特開2005-49876(JP,A)
【文献】特開2000-250577(JP,A)
【文献】特開2019-10436(JP,A)
【文献】鈴木貴仁他,スペクトラム変換とボトルネック特徴量を用いた咽喉マイクの大語彙連続音声認識,日本音響学会2018年春季研究発表会講演論文集[CD-ROM],2018年03月,pp.121-122
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
H04R 1/14
(57)【特許請求の範囲】
【請求項1】
咽喉マイクの装着位置を評価する評価装置であって、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出部と、
前記第1のスペクトル特徴量及び前記第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部と、
前記複数の装着位置のそれぞれに対応して、前記距離算出部によって時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力部と、
を備える評価装置。
【請求項2】
前記第1のスペクトル特徴量を、補正用のモデルを用いて、第2のスペクトル特徴量の特性に近づくように補正する補正部をさらに備え、
前記距離算出部は、補正後の前記第1のスペクトル特徴量及び前記第2のスペクトル特徴量を基に前記スペクトル距離を算出する、
請求項1に記載の評価装置。
【請求項3】
前記距離算出部は、前記スペクトル距離として前記第1のスペクトル特徴量と前記第2のスペクトル特徴量の差を数値化して前記スペクトル距離を算出する、
請求項1又は2に記載の評価装置。
【請求項4】
前記距離算出部は、前記スペクトル距離としてメルケプストラム距離を算出する、
請求項3に記載の評価装置。
【請求項5】
前記距離出力部は、前記咽喉マイクあるいは前記音響マイクからの前記音声信号を基に認識された発話区間において算出された前記スペクトル距離の平均値を算出する、
請求項1~4のいずれか1項に記載の評価装置。
【請求項6】
前記距離出力部は、前記咽喉マイクあるいは前記音響マイクからの前記音声信号を基に一定期間ごとに時間窓を順次シフトさせて前記スペクトル距離の平均値を算出し、シフトさせた前記時間窓ごとの前記平均値を順次出力する、
請求項1~5のいずれか1項に記載の評価装置。
【請求項7】
前記距離出力部は、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出した前記スペクトル距離の平均値を順次画面上に表示させる、
請求項1~6のいずれか1項に記載の評価装置。
【請求項8】
咽喉マイクの装着位置を評価する評価方法であって、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出ステップと、
前記第1のスペクトル特徴量及び前記第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出ステップと、
前記複数の装着位置のそれぞれに対応して、前記距離算出ステップにおいて時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力ステップと、
を備える評価方法。
【請求項9】
コンピュータを、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出部、
前記第1のスペクトル特徴量及び前記第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部、及び
前記複数の装着位置のそれぞれに対応して、前記距離算出部によって時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力部、
として機能させる評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザにおける咽喉マイクの装着位置を評価する評価装置、評価方法、及び評価プログラムに関する。
【背景技術】
【0002】
従来から、マイクロフォン(以下、単に「マイク」と言う。)によって音声を検出することによって生成された音声信号を用いて音声認識処理を実行する装置が用いられている。例えば、下記特許文献1には、音声信号から低S/N環境下でも高精度に発話区間を検出できるシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したような音声信号の処理技術においては、複数人で行われる会議等の会話の音声を処理する際には、音声信号中に雑音が含まれたり、音声信号中に複数人の話者の音声が重なり合って含まれる場合がある。このような音声信号を対象にした場合には、高精度の音声認識処理が困難である。このような問題は、人体の頸部に直接装着して話者の発声に伴う頸部の振動を直接検出する接触型のマイクである咽喉マイクを用いることで解決される場合がある。しかしながら、咽喉マイクを頸部の適切な位置に装着しない場合には話者の発した音声の検出精度が著しく低下しがちであり、その装着位置によっては音声信号の音質が劣化しやすい場合があった。
【0005】
そこで、本発明は、かかる課題に鑑みてなされたものであり、咽喉マイクを用いて音声信号を生成する場合に咽喉マイクの適した装着位置を評価させることが可能な評価装置、評価方法、及び評価プログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の一側面は、咽喉マイクの装着位置を評価する評価装置であって、咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出部と、第1のスペクトル特徴量及び第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部と、距離算出部によって時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力部と、を備える。なお、上記の「音響マイク」とは、咽喉マイクなどの接触型のマイクとの対比として、ユーザの発声を大気を介した振動として検出する検出機器を広く含む概念である。
【0007】
あるいは、本発明の他の側面は、咽喉マイクの装着位置を評価する評価方法であって、咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出ステップと、第1のスペクトル特徴量及び第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出ステップと、距離算出ステップにおいて時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力ステップと、を備える。
【0008】
あるいは、本発明の他の側面は、コンピュータを、咽喉マイクからの音声信号を基に第1のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第2のスペクトル特徴量を抽出する抽出部、第1のスペクトル特徴量及び第2のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部、及び距離算出部によって時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力部、として機能させる。
【0009】
上記いずれかの側面によれば、咽喉マイクからの音声信号を基にして抽出された第1のスペクトル特徴量と音響マイクからの音声信号を基にした第2のスペクトル特徴量との間のスペクトル距離が算出され、時間的に連続して算出されたスペクトル距離の平均値が算出および出力される。これにより、咽喉マイクが適した位置に装着されているか否かを、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を基に評価させることができる。
【0010】
上記一側面においては、第1のスペクトル特徴量を、補正用のモデルを用いて、第2のスペクトル特徴量の特性に近づくように補正する補正部をさらに備え、距離算出部は、補正後の第1のスペクトル特徴量及び第2のスペクトル特徴量を基にスペクトル距離を算出する、ことが好適である。この場合、咽喉マイクのスペクトル上の検出特性と音響マイクのスペクトル上の検出特性との差を考慮して第1のスペクトル特徴量を補正することができ、この補正された第1のスペクトル特徴量を用いることで咽喉マイクの装着位置をより適切に評価できる。
【0011】
また、距離算出部は、スペクトル距離として第1のスペクトル特徴量と第2のスペクトル特徴量の差を数値化してスペクトル距離を算出する、ことが好適である。この場合、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を、簡易に評価することができる。
【0012】
また、距離算出部は、スペクトル距離としてメルケプストラム距離を算出する、ことも好適である。この場合、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を、簡易かつ適切に評価することができる。
【0013】
さらに、距離出力部は、咽喉マイクあるいは音響マイクからの音声信号を基に認識された発話区間において算出されたスペクトル距離の平均値を算出する、ことも好適である。この場合、ユーザの発話区間における、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価でき、雑音の影響を受けることなく咽喉マイクの装着位置をより適切に評価できる。
【0014】
またさらに、距離出力部は、咽喉マイクあるいは音響マイクからの音声信号を基に一定期間ごとに時間窓を順次シフトさせてスペクトル距離の平均値を算出し、シフトさせた時間窓ごとの平均値を順次出力する、ことも好適である。かかる構成によれば、時間的に連続して、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価でき、咽喉マイクの装着位置を時間的に連続して評価できる。
【0015】
さらにまた、距離出力部は、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出したスペクトル距離の平均値を順次画面上に表示させる、ことも好適である。かかる構成によれば、ユーザの咽喉部における装着位置を示しながら、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価できる。その結果、咽喉マイクの装着位置を順次変えさせながら、適した装着位置を評価させることができる。
【発明の効果】
【0016】
本発明の一側面によれば、咽喉マイクを用いて音声信号を生成する場合に咽喉マイクの適した装着位置を評価させることができる。
【図面の簡単な説明】
【0017】
【
図1】実施形態にかかる評価装置1の概略構成を示すブロック図である。
【
図2】
図1の評価制御1のハードウェア構成を示す図である。
【
図3】
図1の評価装置1における事前学習処理における動作手順を示すフローチャートである。
【
図4】
図1の評価装置1における装着位置評価処理における動作手順を示すフローチャートである。
【
図5】
図1の平均値算出部16によるスペクトル距離の平均値の入出力デバイス105における出力イメージを示す図である。
【
図6】実施形態の評価プログラムの構成を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
【0019】
図1は、実施形態の評価装置1の概略構成を示すブロック図である。
図1に示されるように、評価装置1は、ユーザの咽喉部における咽喉マイクM1の装着位置を評価するための装置である。評価装置1は、咽喉マイクM1及び音響マイクである接話型マイクM2からアナログ信号である音声信号を、ケーブルを介して受信可能に構成され、咽喉マイクM1から受信した音声信号を用いて音声認識処理を実行し、ユーザが発した音声を文字に変換して文字データを生成および記憶する機能を有する。ただし、評価装置1は、ブルートゥース(登録商標)、無線LAN等の無線信号を用いて、咽喉マイクM1及び接話型マイクM2のうちの一方あるいは両方から音声信号を受信可能に構成されていてもよい。また、評価装置1は、音声認識の機能を必ずしも有してなくてよく、外部装置に音声信号をデジタルデータとして転送して外部装置に音声認識処理を実行させてもよい。咽喉マイクM1は、ユーザの咽喉付近の皮膚に装着されて発声に応じた皮膚の振動を検出して発声に対応した音声信号を生成する検出機器である。咽喉マイクM1としては、ピエゾ素子を内蔵したもの、あるいは、コンデンサマイクを内蔵したもの等が用いられる。接話型マイクM2は、ユーザの口に近づけて使用され、発声に応じた口付近の空気の振動を検出することにより音声信号を生成する検出機器である。ただし、接話型マイクM2は、発声を大気を介した振動として検出できる音響マイクであれば他の種類のマイクに置換されてもよく、ピンマイク、ボーカルマイク等の集音マイクに置換されてもよい。
【0020】
ここで、評価装置1は、機能的な構成要素として、特徴量抽出器11、スペクトル補正部12、距離算出部13、区間検出部14、時間窓カウンタ部15、及び平均値算出部(距離出力部)16を含んで構成されている。
【0021】
図2は、評価装置1のハードウェア構成を示すブロック図である。
図2に示すように、評価装置1は、スマートフォン、タブレット端末、コンピュータ端末等に代表される演算装置50によって実現される。演算装置50は、物理的には、プロセッサであるCPU(Central Processing Unit)101、記録媒体であるRAM(Random Access Memory)102又はROM(Read Only Memory)103、通信モジュール104、及び入出力デバイス等を含んだコンピュータ等であり、各々は内部で電気的に接続されている。入出力デバイス105は、キーボード、マウス、ディスプレイ装置、タッチパネルディスプレイ装置、スピーカ等である。上述した評価装置1の各機能部は、CPU101及びRAM102等のハードウェア上に実施形態の評価プログラムを読み込ませることにより、CPU101の制御のもとで、通信モジュール104、及び入出力デバイス105等を動作させるとともに、RAM102におけるデータの読み出し及び書き込みを行うことで実現される。
【0022】
以下、
図1に戻って、評価装置1の各機能部の機能について詳細に説明する。
【0023】
特徴量抽出器11は、咽喉マイクM1及び接話型マイクM2の両方から同時に音声信号を受信し、それぞれの音声信号をA/D変換する。そして、特徴量抽出器11は、咽喉マイクM1からの音声信号の全フレームを対象としたスペクトル分析を行うことにより、音声信号のスペクトル(第1のスペクトル)とスペクトル特徴量(第1のスペクトル特徴量)を抽出するとともに、接話型マイクM2からの音声信号の全フレームを対象にしたスペクトル分析を行うことにより、音声波形のスペクトル(第2のスペクトル)とスペクトル特徴量(第2のスペクトル特徴量)を抽出する。このスペクトル特徴量は、スペクトルの特徴を表すものであれば特定のものには限定されないが、例えば、スペクトルをフーリエ変換して得られるLPC(Linear Predictive Coding)ケプストラム、LPCメルケプストラム等の音声スペクトルの概形を表すケプストラムが挙げられる。
【0024】
また、スペクトル補正部12は、予め特徴量抽出器11によって同時に取得された第1のスペクトル及び第2のスペクトルの組み合わせを複数のフレーム分用いて、第1のスペクトルを第2のスペクトルに近づけるように周波数特性を補正するための機械学習の補正用モデルを作成し、内部メモリ(RAM102等)に記憶する(事前学習機能)。この補正用モデルのアルゴリズムとしては、LSTM(Long Short Term Memory)等の深層学習のアルゴリズムが用いられる。そして、スペクトル補正部12は、咽喉マイクM1の装着位置の評価の処理時には、特徴量抽出器11によって得られた第1のスペクトルを内部メモリに記憶された事前学習済の補正用モデルを用いて順次補正する。これにより、特徴量抽出器11においては、順次補正された第1のスペクトルを基に第1のスペクトル特徴量が抽出される。
【0025】
距離算出部13は、特徴量抽出器11によってフレーム毎に抽出された第1及び第2のスペクトル特徴量を参照して、フレーム毎のスペクトル距離を時間的に連続して算出する。例えば、距離算出部13は、下記式(1)を用いてスペクトル距離として、2つのスペクトル特徴量(メルケプストラム)間の差(距離)を数値化したMCD(Mel-Cepstrum Distortion)を算出する。
【0026】
【数1】
上記式(1)中、m
xは第2のスペクトル特徴量であるメルケプストラム係数を示し、m
x’は第1のスペクトル特徴量であるメルケプストラム係数を示し、DはLPCの次数である整数を示す。MCDは、聴取音の品質を評価するためのパラメータであり、0に近いほど2つの音声のスペクトル特性が近いことを示す。なお、距離算出部13は、第1のスペクトルと第2のスペクトルとの近さ(距離)を評価することができるパラメータであれば他のパラメータを算出してもよい。例えば、上記式(1)に示すルートの項をスペクトル距離として算出してもよいし、上記式(1)に示すΣの値をスペクトル距離として算出してもよいし、LPCケプストラム距離(LCD)をスペクトル距離として算出してもよい。
【0027】
区間検出部14は、特徴量抽出器11で抽出された各フレーム毎の音声信号を対象にして、ユーザの発話区間を特定する。この発話区間の特定は、特徴量抽出器11において生成されたA/D変換後の音声信号からパワーあるいはスペクトルを推定した上で音声信号における有音/無音を判定し、有音の期間を特定することにより行われる。そして、区間検出部14は、発話区間に含まれる各フレームについてスペクトル距離を算出するように距離算出部13を制御する。
【0028】
時間窓カウンタ部15は、区間検出部14において特定された発話区間の開始タイミングから一定時間の時間窓を設定し、その時間窓を順次時間方向にシフトさせて設定する。そして、時間窓カウンタ部15は、順次シフトさせて設定される時間窓ごとにその時間窓に含まれるフレームに関してスペクトル距離を算出するように距離算出部13を制御する。
【0029】
平均値算出部16は、距離算出部13によってフレーム毎に時間的に連続して算出されたスペクトル距離の平均値を算出する。すなわち、区間検出部14によって特定された発話区間に含まれる全フレームのスペクトル距離の平均値を算出する。または、平均値算出部16は、時間窓カウンタ部15によって順次シフトさせて設定された時間窓毎に、その時間窓に含まれる全フレームのスペクトル距離の平均値を算出する。さらに、平均値算出部16は、算出したスペクトル距離の平均値を入出力デバイス105に出力する。例えば、平均値算出部16は、ユーザの咽喉マイクM1の装着位置の変更に応じた平均値の変化を視覚的に認識可能にディスプレイ等に出力してもよいし、その変化をユーザの聴覚によって認識可能なようにスピーカ等を用いて音声出力してもよい。
【0030】
次に、上述した評価装置1の事前学習処理における動作および装着位置評価処理における動作を説明するとともに、実施形態に係る評価方法の流れについて詳述する。
図3は、評価装置1における事前学習処理における動作手順を示すフローチャートであり、
図4は、評価装置1における装着位置評価処理における動作手順を示すフローチャートである。
【0031】
最初に、装着位置評価処理を実行する前の任意のタイミングでユーザによって咽喉マイクM1及び接話型マイクM2が装着された状態で事前学習処理が開始される。この事前学習処理は、装着位置評価処理を実行する度に毎回実行される必要はなく、評価装置1の提供者等が最適な装着位置でマイクを装着した上で実行されてもよい。事前学習処理が開始されると、ユーザによる連続的な発声に伴って評価装置1によって咽喉マイクM1及び接話型マイクM2から音声信号が受信され、特徴量抽出器11によって、それらの音声信号がA/D変換される(ステップS01)。次に、特徴量抽出器11によって、咽喉マイクM1から得られた音声信号から第1のスペクトルが抽出され、接話型マイクM2から得られた音声信号から第2のスペクトルが抽出される(ステップS02)。その後、スペクトル補正部12によって、複数フレームに亘って連続して得られた第1及び第2のスペクトルのペアを基に、第1のスペクトルから計算される第1のスペクトル特徴量を補正するための機械学習の補正用モデルが生成される(ステップS03)。そして、スペクトル補正部12により、生成された補正用モデルが内部メモリに記憶される(ステップS04)。
【0032】
図4に移って、装着位置評価処理の流れについて説明する。この装着位置評価処理は、ユーザによって接話型マイクM2を装着した状態で咽喉マイクM1の装着位置が変更された後に、評価装置1に対する指示入力に応じてその都度開始される。
【0033】
最初に、ユーザによる連続的な発声に伴って評価装置1によって咽喉マイクM1及び接話型マイクM2から音声信号が受信され、特徴量抽出器11によって、それらの音声信号がA/D変換される(ステップS101)。このとき、評価装置1によって、ユーザに対して、咽喉マイクM1の装着位置に応じて音質の比較的大きな変化が生じる音声(例えば、“shi”、“su”等)を発声するように促すように、ディスプレイ等の入出力デバイス105に指示が出力されることが好ましい。同時に、評価装置1によって、ユーザに対して咽喉マイクM1をユーザの咽喉部の所定の部位に装着することを促すように、ディスプレイ等の入出力デバイス105に指示が出力されることも好ましい。
【0034】
次に、特徴量抽出器11によって連続する各フレームにおいて、A/D変換された2つの音声信号を基に、第1のスペクトル特徴量及び第2のスペクトル特徴量が抽出される(ステップS102)。その後、スペクトル補正部12によって、内部メモリに記憶された補正用モデルが読み出され、その補正用モデルを用いて各フレームの第1のスペクトル特徴量が補正される(ステップS103)。
【0035】
次に、距離算出部13によって、特徴量抽出器11によって抽出された各フレームの第2のスペクトル特徴量と、スペクトル補正部12によって補正された各フレームの第1のスペクトル特徴量とを用いて、各フレームに関してスペクトル距離が算出および保持される(ステップS104)。さらに、第1及び第2のスペクトル特徴量の抽出、第1のスペクトル特徴量の補正、及びスペクトル距離の算出は、発話区間に含まれる全フレームに関して、もしくは、発話区間の開始後の一定時間の移動分析の時間窓に含まれる全フレームに関して繰り返し行われる(ステップS105)。
【0036】
そして、平均値算出部16によって、発話区間あるいはそれぞれの時間窓におけるスペクトル距離の平均値が算出され出力される(ステップS106)。最後に、ユーザによる評価装置1に対する装着位置評価処理の終了が指示されたか否かが判定され(ステップS107)、終了が指示されていない場合には(ステップS107;No)、処理がステップS102に戻されて、スペクトル距離の平均値の算出および出力が繰り返される。一方で、終了が指示された場合には(ステップS107;Yes)、装着位置評価処理が終了される。
【0037】
図5には、平均値算出部16によるスペクトル距離の平均値の入出力デバイス105における出力イメージを示す。ここでは、ディスプレイ装置における出力イメージを示している。このように、ユーザに対して咽喉部における咽喉マイクM1の装着位置“1”、“2”、“3”、…を指示するようにディスプレイ画面21上に順次指示情報が表示されるとともに、それぞれの装着位置に対応して算出された平均値“X.XX”がその装着位置に関連付けてディスプレイ画面21上に順次表示される。この平均値の表示に際しては、平均値を示す文字列に加えて、前回測定時からの平均値の変化を示す情報(例えば、上昇を示す記号“↑”)が表示されてもよい。また、平均値算出部16は、ディスプレイ画面上に視認可能なように情報を出力することには限定されず、スピーカ等を用いて聴覚で認識可能なように音声を出力してもよい。例えば、スペクトル距離の平均値が下降した際にビープ音等を出力してもよいし、平均値の大小をビープ音の高低で表わして出力してもよい。
【0038】
次に、
図6を参照して、コンピュータを上記評価装置1として機能させるための評価プログラムを説明する。
【0039】
評価プログラムP1は、メインモジュールP10、特徴量算出モジュールP11、スペクトル補正モジュールP12、距離算出モジュールP13、区間検出モジュールP14、時間窓カウンタモジュールP15、及び平均値算出モジュールP16を備えている。
【0040】
メインモジュールP10は、評価装置1の動作を統括的に制御する部分である。メインモジュールP10、特徴量算出モジュールP11、スペクトル補正モジュールP12、距離算出モジュールP13、区間検出モジュールP14、時間窓カウンタモジュールP15、及び平均値算出モジュールP16を実行することにより実現される機能は、それぞれ、特徴量抽出器11、スペクトル補正部12、距離算出部13、区間検出部14、時間窓カウンタ部15、及び平均値算出部16の機能と同様である。
【0041】
評価プログラムP1は、例えば、CD-ROM、DVDもしくはROM等のコンピュータ読み取り可能な記録媒体または半導体メモリによって提供される。また、評価プログラムP1は、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。
【0042】
上述した評価装置1によれば、咽喉マイクM1からの音声信号を基にして抽出された第1のスペクトル特徴量と接話型マイクM2からの音声信号を基にした第2のスペクトル特徴量との間のスペクトル距離が算出され、時間的に連続して算出されたスペクトル距離の平均値が算出および出力される。これにより、咽喉マイクM1が適した位置に装着されているか否かを、咽喉マイクM1による検出を基にした信号のスペクトルと接話型マイクM2による検出を基にした信号のスペクトルとの間の類似性を基に評価させることができる。
【0043】
また、評価装置1においては、第1のスペクトル特徴量を補正用のモデルを用いて、第2のスペクトル特徴量の特性に近づくように補正されている。この場合、咽喉マイクM1のスペクトル上の検出特性と接話型マイクM2のスペクトル上の検出特性との差を考慮して第1のスペクトル特徴量を補正することができ、この補正された第1のスペクトル特徴量を用いることで咽喉マイクM1の装着位置をより適切に評価できる。
【0044】
また、評価装置1においては、スペクトル距離として、第1のスペクトル特徴量と第2のスペクトル特徴量の差を数値化したメルケプストラム距離が用いられている。この場合、咽喉マイクM1による検出を基にした信号のスペクトルと接話型マイクM2による検出を基にした信号のスペクトルとの間の類似性を、簡易かつ適切に評価することができる。
【0045】
さらに、評価装置1においては、咽喉マイクM1あるいは接話型マイクM2からの音声信号を基に認識された発話区間に含まれる全フレームにおけるスペクトル距離の平均値が算出されている。この場合、ユーザの発話区間における、咽喉マイクM1による検出を基にした信号のスペクトルと接話型マイクM2による検出を基にした信号のスペクトルとの間の類似性を評価でき、雑音の影響を受けることなく咽喉マイクM1の装着位置をより適切に評価できる。
【0046】
一方で、評価装置1においては、咽喉マイクM1あるいは接話型マイクM2からの音声信号を基に一定期間ごとに時間窓を順次シフトさせてスペクトル距離の平均値が算出されている。このようにすることで、時間的に連続して、咽喉マイクM1による検出を基にした信号のスペクトルと接話型マイクM2による検出を基にした信号のスペクトルとの間の類似性を評価でき、咽喉マイクM1の装着位置を時間的に連続して評価できる。
【0047】
また、評価装置1においては、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出したスペクトル距離の平均値が順次画面上に表示されている。このような機能により、ユーザの咽喉部における装着位置を示しながら、咽喉マイクM1による検出を基にした信号のスペクトルと接話型マイクM2による検出を基にした信号のスペクトルとの間の類似性を評価できる。その結果、咽喉マイクM1の装着位置を順次変えさせながら、適した装着位置を評価させることができる。
【0048】
以上、本発明の種々の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、又は他のものに適用したものであってもよい。
【符号の説明】
【0049】
1…評価装置、11…特徴量抽出器(抽出部)、13…距離算出部、16…平均値算出部(距離出力部)、M1…咽喉マイク、M2…接話型マイク(音響マイク)、P1…評価プログラム。