特許7378770 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人静岡大学の特許一覧

特許7378770評価装置、評価方法、及び評価プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-06

(45)【発行日】2023-11-14

(54)【発明の名称】評価装置、評価方法、及び評価プログラム

(51)【国際特許分類】

G10L 15/28 20130101AFI20231107BHJP

G10L 25/60 20130101ALI20231107BHJP

H04R 1/14 20060101ALI20231107BHJP

【ＦＩ】

G10L15/28 400

G10L25/60

H04R1/14

【請求項の数】 9

(21)【出願番号】P 2019154876

(22)【出願日】2019-08-27

(65)【公開番号】P2021033134

(43)【公開日】2021-03-01

【審査請求日】2022-07-12

【新規性喪失の例外の表示】特許法第３０条第２項適用２０１８年８月２９日に一般社団法人日本音響学会が発行した日本音響学会２０１８年秋季研究発表会講演論文集７０頁に掲載。

【新規性喪失の例外の表示】特許法第３０条第２項適用２０１８年９月１２～１４日（発表日：２０１８年９月１２日）に大分大学旦野原キャンパスで開催された日本音響学会２０１８年秋季研究発表会で発表。

(73)【特許権者】

【識別番号】304023318

【氏名又は名称】国立大学法人静岡大学

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100124800

【弁理士】

【氏名又は名称】諏澤勇司

(72)【発明者】

【氏名】西村雅史

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００５－１４０８６０（ＪＰ，Ａ）

【文献】特開２００５－４９８７６（ＪＰ，Ａ）

【文献】特開２０００－２５０５７７（ＪＰ，Ａ）

【文献】特開２０１９－１０４３６（ＪＰ，Ａ）

【文献】鈴木貴仁他，スペクトラム変換とボトルネック特徴量を用いた咽喉マイクの大語彙連続音声認識，日本音響学会２０１８年春季研究発表会講演論文集［ＣＤ－ＲＯＭ］，2018年03月，pp.121-122

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

Ｈ０４Ｒ１／１４

(57)【特許請求の範囲】

【請求項1】

咽喉マイクの装着位置を評価する評価装置であって、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出部と、
前記第１のスペクトル特徴量及び前記第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部と、
前記複数の装着位置のそれぞれに対応して、前記距離算出部によって時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力部と、
を備える評価装置。

【請求項2】

前記第１のスペクトル特徴量を、補正用のモデルを用いて、第２のスペクトル特徴量の特性に近づくように補正する補正部をさらに備え、
前記距離算出部は、補正後の前記第１のスペクトル特徴量及び前記第２のスペクトル特徴量を基に前記スペクトル距離を算出する、
請求項１に記載の評価装置。

【請求項3】

前記距離算出部は、前記スペクトル距離として前記第１のスペクトル特徴量と前記第２のスペクトル特徴量の差を数値化して前記スペクトル距離を算出する、
請求項１又は２に記載の評価装置。

【請求項4】

前記距離算出部は、前記スペクトル距離としてメルケプストラム距離を算出する、
請求項３に記載の評価装置。

【請求項5】

前記距離出力部は、前記咽喉マイクあるいは前記音響マイクからの前記音声信号を基に認識された発話区間において算出された前記スペクトル距離の平均値を算出する、
請求項１～４のいずれか１項に記載の評価装置。

【請求項6】

前記距離出力部は、前記咽喉マイクあるいは前記音響マイクからの前記音声信号を基に一定期間ごとに時間窓を順次シフトさせて前記スペクトル距離の平均値を算出し、シフトさせた前記時間窓ごとの前記平均値を順次出力する、
請求項１～５のいずれか１項に記載の評価装置。

【請求項7】

前記距離出力部は、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出した前記スペクトル距離の平均値を順次画面上に表示させる、
請求項１～６のいずれか１項に記載の評価装置。

【請求項8】

咽喉マイクの装着位置を評価する評価方法であって、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出ステップと、
前記第１のスペクトル特徴量及び前記第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出ステップと、
前記複数の装着位置のそれぞれに対応して、前記距離算出ステップにおいて時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力ステップと、
を備える評価方法。

【請求項9】

コンピュータを、
ユーザの咽喉部の複数の装着位置のそれぞれに対応して咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出部、
前記第１のスペクトル特徴量及び前記第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部、及び
前記複数の装着位置のそれぞれに対応して、前記距離算出部によって時間的に連続して算出された前記スペクトル距離の平均値を算出および出力する距離出力部、
として機能させる評価プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザにおける咽喉マイクの装着位置を評価する評価装置、評価方法、及び評価プログラムに関する。

【背景技術】

【0002】

従来から、マイクロフォン（以下、単に「マイク」と言う。）によって音声を検出することによって生成された音声信号を用いて音声認識処理を実行する装置が用いられている。例えば、下記特許文献１には、音声信号から低Ｓ／Ｎ環境下でも高精度に発話区間を検出できるシステムが開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００９－２１０６１７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述したような音声信号の処理技術においては、複数人で行われる会議等の会話の音声を処理する際には、音声信号中に雑音が含まれたり、音声信号中に複数人の話者の音声が重なり合って含まれる場合がある。このような音声信号を対象にした場合には、高精度の音声認識処理が困難である。このような問題は、人体の頸部に直接装着して話者の発声に伴う頸部の振動を直接検出する接触型のマイクである咽喉マイクを用いることで解決される場合がある。しかしながら、咽喉マイクを頸部の適切な位置に装着しない場合には話者の発した音声の検出精度が著しく低下しがちであり、その装着位置によっては音声信号の音質が劣化しやすい場合があった。

【0005】

そこで、本発明は、かかる課題に鑑みてなされたものであり、咽喉マイクを用いて音声信号を生成する場合に咽喉マイクの適した装着位置を評価させることが可能な評価装置、評価方法、及び評価プログラムを提供することを課題とする。

【課題を解決するための手段】

【0006】

本発明の一側面は、咽喉マイクの装着位置を評価する評価装置であって、咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出部と、第１のスペクトル特徴量及び第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部と、距離算出部によって時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力部と、を備える。なお、上記の「音響マイク」とは、咽喉マイクなどの接触型のマイクとの対比として、ユーザの発声を大気を介した振動として検出する検出機器を広く含む概念である。

【0007】

あるいは、本発明の他の側面は、咽喉マイクの装着位置を評価する評価方法であって、咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出ステップと、第１のスペクトル特徴量及び第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出ステップと、距離算出ステップにおいて時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力ステップと、を備える。

【0008】

あるいは、本発明の他の側面は、コンピュータを、咽喉マイクからの音声信号を基に第１のスペクトル特徴量を抽出し、音響マイクからの音声信号を基に第２のスペクトル特徴量を抽出する抽出部、第１のスペクトル特徴量及び第２のスペクトル特徴量を基に、スペクトル距離を算出する距離算出部、及び距離算出部によって時間的に連続して算出されたスペクトル距離の平均値を算出および出力する距離出力部、として機能させる。

【0009】

上記いずれかの側面によれば、咽喉マイクからの音声信号を基にして抽出された第１のスペクトル特徴量と音響マイクからの音声信号を基にした第２のスペクトル特徴量との間のスペクトル距離が算出され、時間的に連続して算出されたスペクトル距離の平均値が算出および出力される。これにより、咽喉マイクが適した位置に装着されているか否かを、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を基に評価させることができる。

【0010】

上記一側面においては、第１のスペクトル特徴量を、補正用のモデルを用いて、第２のスペクトル特徴量の特性に近づくように補正する補正部をさらに備え、距離算出部は、補正後の第１のスペクトル特徴量及び第２のスペクトル特徴量を基にスペクトル距離を算出する、ことが好適である。この場合、咽喉マイクのスペクトル上の検出特性と音響マイクのスペクトル上の検出特性との差を考慮して第１のスペクトル特徴量を補正することができ、この補正された第１のスペクトル特徴量を用いることで咽喉マイクの装着位置をより適切に評価できる。

【0011】

また、距離算出部は、スペクトル距離として第１のスペクトル特徴量と第２のスペクトル特徴量の差を数値化してスペクトル距離を算出する、ことが好適である。この場合、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を、簡易に評価することができる。

【0012】

また、距離算出部は、スペクトル距離としてメルケプストラム距離を算出する、ことも好適である。この場合、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を、簡易かつ適切に評価することができる。

【0013】

さらに、距離出力部は、咽喉マイクあるいは音響マイクからの音声信号を基に認識された発話区間において算出されたスペクトル距離の平均値を算出する、ことも好適である。この場合、ユーザの発話区間における、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価でき、雑音の影響を受けることなく咽喉マイクの装着位置をより適切に評価できる。

【0014】

またさらに、距離出力部は、咽喉マイクあるいは音響マイクからの音声信号を基に一定期間ごとに時間窓を順次シフトさせてスペクトル距離の平均値を算出し、シフトさせた時間窓ごとの平均値を順次出力する、ことも好適である。かかる構成によれば、時間的に連続して、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価でき、咽喉マイクの装着位置を時間的に連続して評価できる。

【0015】

さらにまた、距離出力部は、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出したスペクトル距離の平均値を順次画面上に表示させる、ことも好適である。かかる構成によれば、ユーザの咽喉部における装着位置を示しながら、咽喉マイクによる検出を基にした信号のスペクトルと音響マイクによる検出を基にした信号のスペクトルとの間の類似性を評価できる。その結果、咽喉マイクの装着位置を順次変えさせながら、適した装着位置を評価させることができる。

【発明の効果】

【0016】

本発明の一側面によれば、咽喉マイクを用いて音声信号を生成する場合に咽喉マイクの適した装着位置を評価させることができる。

【図面の簡単な説明】

【0017】

【図1】実施形態にかかる評価装置１の概略構成を示すブロック図である。

【図2】図１の評価制御１のハードウェア構成を示す図である。

【図3】図１の評価装置１における事前学習処理における動作手順を示すフローチャートである。

【図4】図１の評価装置１における装着位置評価処理における動作手順を示すフローチャートである。

【図5】図１の平均値算出部１６によるスペクトル距離の平均値の入出力デバイス１０５における出力イメージを示す図である。

【図6】実施形態の評価プログラムの構成を示すブロック図である。

【発明を実施するための形態】

【0018】

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。

【0019】

図１は、実施形態の評価装置１の概略構成を示すブロック図である。図１に示されるように、評価装置１は、ユーザの咽喉部における咽喉マイクＭ１の装着位置を評価するための装置である。評価装置１は、咽喉マイクＭ１及び音響マイクである接話型マイクＭ２からアナログ信号である音声信号を、ケーブルを介して受信可能に構成され、咽喉マイクＭ１から受信した音声信号を用いて音声認識処理を実行し、ユーザが発した音声を文字に変換して文字データを生成および記憶する機能を有する。ただし、評価装置１は、ブルートゥース（登録商標）、無線ＬＡＮ等の無線信号を用いて、咽喉マイクＭ１及び接話型マイクＭ２のうちの一方あるいは両方から音声信号を受信可能に構成されていてもよい。また、評価装置１は、音声認識の機能を必ずしも有してなくてよく、外部装置に音声信号をデジタルデータとして転送して外部装置に音声認識処理を実行させてもよい。咽喉マイクＭ１は、ユーザの咽喉付近の皮膚に装着されて発声に応じた皮膚の振動を検出して発声に対応した音声信号を生成する検出機器である。咽喉マイクＭ１としては、ピエゾ素子を内蔵したもの、あるいは、コンデンサマイクを内蔵したもの等が用いられる。接話型マイクＭ２は、ユーザの口に近づけて使用され、発声に応じた口付近の空気の振動を検出することにより音声信号を生成する検出機器である。ただし、接話型マイクＭ２は、発声を大気を介した振動として検出できる音響マイクであれば他の種類のマイクに置換されてもよく、ピンマイク、ボーカルマイク等の集音マイクに置換されてもよい。

【0020】

ここで、評価装置１は、機能的な構成要素として、特徴量抽出器１１、スペクトル補正部１２、距離算出部１３、区間検出部１４、時間窓カウンタ部１５、及び平均値算出部（距離出力部）１６を含んで構成されている。

【0021】

図２は、評価装置１のハードウェア構成を示すブロック図である。図２に示すように、評価装置１は、スマートフォン、タブレット端末、コンピュータ端末等に代表される演算装置５０によって実現される。演算装置５０は、物理的には、プロセッサであるＣＰＵ（Central Processing Unit）１０１、記録媒体であるＲＡＭ（Random Access Memory）１０２又はＲＯＭ（Read Only Memory）１０３、通信モジュール１０４、及び入出力デバイス等を含んだコンピュータ等であり、各々は内部で電気的に接続されている。入出力デバイス１０５は、キーボード、マウス、ディスプレイ装置、タッチパネルディスプレイ装置、スピーカ等である。上述した評価装置１の各機能部は、ＣＰＵ１０１及びＲＡＭ１０２等のハードウェア上に実施形態の評価プログラムを読み込ませることにより、ＣＰＵ１０１の制御のもとで、通信モジュール１０４、及び入出力デバイス１０５等を動作させるとともに、ＲＡＭ１０２におけるデータの読み出し及び書き込みを行うことで実現される。

【0022】

以下、図１に戻って、評価装置１の各機能部の機能について詳細に説明する。

【0023】

特徴量抽出器１１は、咽喉マイクＭ１及び接話型マイクＭ２の両方から同時に音声信号を受信し、それぞれの音声信号をＡ／Ｄ変換する。そして、特徴量抽出器１１は、咽喉マイクＭ１からの音声信号の全フレームを対象としたスペクトル分析を行うことにより、音声信号のスペクトル（第１のスペクトル）とスペクトル特徴量（第１のスペクトル特徴量）を抽出するとともに、接話型マイクＭ２からの音声信号の全フレームを対象にしたスペクトル分析を行うことにより、音声波形のスペクトル（第２のスペクトル）とスペクトル特徴量（第２のスペクトル特徴量）を抽出する。このスペクトル特徴量は、スペクトルの特徴を表すものであれば特定のものには限定されないが、例えば、スペクトルをフーリエ変換して得られるＬＰＣ（Linear Predictive Coding）ケプストラム、ＬＰＣメルケプストラム等の音声スペクトルの概形を表すケプストラムが挙げられる。

【0024】

また、スペクトル補正部１２は、予め特徴量抽出器１１によって同時に取得された第１のスペクトル及び第２のスペクトルの組み合わせを複数のフレーム分用いて、第１のスペクトルを第２のスペクトルに近づけるように周波数特性を補正するための機械学習の補正用モデルを作成し、内部メモリ（ＲＡＭ１０２等）に記憶する（事前学習機能）。この補正用モデルのアルゴリズムとしては、ＬＳＴＭ（Long Short Term Memory）等の深層学習のアルゴリズムが用いられる。そして、スペクトル補正部１２は、咽喉マイクＭ１の装着位置の評価の処理時には、特徴量抽出器１１によって得られた第１のスペクトルを内部メモリに記憶された事前学習済の補正用モデルを用いて順次補正する。これにより、特徴量抽出器１１においては、順次補正された第１のスペクトルを基に第１のスペクトル特徴量が抽出される。

【0025】

距離算出部１３は、特徴量抽出器１１によってフレーム毎に抽出された第１及び第２のスペクトル特徴量を参照して、フレーム毎のスペクトル距離を時間的に連続して算出する。例えば、距離算出部１３は、下記式（１）を用いてスペクトル距離として、２つのスペクトル特徴量（メルケプストラム）間の差（距離）を数値化したＭＣＤ（Mel-Cepstrum Distortion）を算出する。

【0026】

【数1】

上記式（１）中、ｍ_ｘは第２のスペクトル特徴量であるメルケプストラム係数を示し、ｍ_ｘ’は第１のスペクトル特徴量であるメルケプストラム係数を示し、ＤはＬＰＣの次数である整数を示す。ＭＣＤは、聴取音の品質を評価するためのパラメータであり、０に近いほど２つの音声のスペクトル特性が近いことを示す。なお、距離算出部１３は、第１のスペクトルと第２のスペクトルとの近さ（距離）を評価することができるパラメータであれば他のパラメータを算出してもよい。例えば、上記式（１）に示すルートの項をスペクトル距離として算出してもよいし、上記式（１）に示すΣの値をスペクトル距離として算出してもよいし、ＬＰＣケプストラム距離（ＬＣＤ）をスペクトル距離として算出してもよい。

【0027】

区間検出部１４は、特徴量抽出器１１で抽出された各フレーム毎の音声信号を対象にして、ユーザの発話区間を特定する。この発話区間の特定は、特徴量抽出器１１において生成されたＡ／Ｄ変換後の音声信号からパワーあるいはスペクトルを推定した上で音声信号における有音／無音を判定し、有音の期間を特定することにより行われる。そして、区間検出部１４は、発話区間に含まれる各フレームについてスペクトル距離を算出するように距離算出部１３を制御する。

【0028】

時間窓カウンタ部１５は、区間検出部１４において特定された発話区間の開始タイミングから一定時間の時間窓を設定し、その時間窓を順次時間方向にシフトさせて設定する。そして、時間窓カウンタ部１５は、順次シフトさせて設定される時間窓ごとにその時間窓に含まれるフレームに関してスペクトル距離を算出するように距離算出部１３を制御する。

【0029】

平均値算出部１６は、距離算出部１３によってフレーム毎に時間的に連続して算出されたスペクトル距離の平均値を算出する。すなわち、区間検出部１４によって特定された発話区間に含まれる全フレームのスペクトル距離の平均値を算出する。または、平均値算出部１６は、時間窓カウンタ部１５によって順次シフトさせて設定された時間窓毎に、その時間窓に含まれる全フレームのスペクトル距離の平均値を算出する。さらに、平均値算出部１６は、算出したスペクトル距離の平均値を入出力デバイス１０５に出力する。例えば、平均値算出部１６は、ユーザの咽喉マイクＭ１の装着位置の変更に応じた平均値の変化を視覚的に認識可能にディスプレイ等に出力してもよいし、その変化をユーザの聴覚によって認識可能なようにスピーカ等を用いて音声出力してもよい。

【0030】

次に、上述した評価装置１の事前学習処理における動作および装着位置評価処理における動作を説明するとともに、実施形態に係る評価方法の流れについて詳述する。図３は、評価装置１における事前学習処理における動作手順を示すフローチャートであり、図４は、評価装置１における装着位置評価処理における動作手順を示すフローチャートである。

【0031】

最初に、装着位置評価処理を実行する前の任意のタイミングでユーザによって咽喉マイクＭ１及び接話型マイクＭ２が装着された状態で事前学習処理が開始される。この事前学習処理は、装着位置評価処理を実行する度に毎回実行される必要はなく、評価装置１の提供者等が最適な装着位置でマイクを装着した上で実行されてもよい。事前学習処理が開始されると、ユーザによる連続的な発声に伴って評価装置１によって咽喉マイクＭ１及び接話型マイクＭ２から音声信号が受信され、特徴量抽出器１１によって、それらの音声信号がＡ／Ｄ変換される（ステップＳ０１）。次に、特徴量抽出器１１によって、咽喉マイクＭ１から得られた音声信号から第１のスペクトルが抽出され、接話型マイクＭ２から得られた音声信号から第２のスペクトルが抽出される（ステップＳ０２）。その後、スペクトル補正部１２によって、複数フレームに亘って連続して得られた第１及び第２のスペクトルのペアを基に、第１のスペクトルから計算される第１のスペクトル特徴量を補正するための機械学習の補正用モデルが生成される（ステップＳ０３）。そして、スペクトル補正部１２により、生成された補正用モデルが内部メモリに記憶される（ステップＳ０４）。

【0032】

図４に移って、装着位置評価処理の流れについて説明する。この装着位置評価処理は、ユーザによって接話型マイクＭ２を装着した状態で咽喉マイクＭ１の装着位置が変更された後に、評価装置１に対する指示入力に応じてその都度開始される。

【0033】

最初に、ユーザによる連続的な発声に伴って評価装置１によって咽喉マイクＭ１及び接話型マイクＭ２から音声信号が受信され、特徴量抽出器１１によって、それらの音声信号がＡ／Ｄ変換される（ステップＳ１０１）。このとき、評価装置１によって、ユーザに対して、咽喉マイクＭ１の装着位置に応じて音質の比較的大きな変化が生じる音声（例えば、“ｓｈｉ”、“ｓｕ”等）を発声するように促すように、ディスプレイ等の入出力デバイス１０５に指示が出力されることが好ましい。同時に、評価装置１によって、ユーザに対して咽喉マイクＭ１をユーザの咽喉部の所定の部位に装着することを促すように、ディスプレイ等の入出力デバイス１０５に指示が出力されることも好ましい。

【0034】

次に、特徴量抽出器１１によって連続する各フレームにおいて、Ａ／Ｄ変換された２つの音声信号を基に、第１のスペクトル特徴量及び第２のスペクトル特徴量が抽出される（ステップＳ１０２）。その後、スペクトル補正部１２によって、内部メモリに記憶された補正用モデルが読み出され、その補正用モデルを用いて各フレームの第１のスペクトル特徴量が補正される（ステップＳ１０３）。

【0035】

次に、距離算出部１３によって、特徴量抽出器１１によって抽出された各フレームの第２のスペクトル特徴量と、スペクトル補正部１２によって補正された各フレームの第１のスペクトル特徴量とを用いて、各フレームに関してスペクトル距離が算出および保持される（ステップＳ１０４）。さらに、第１及び第２のスペクトル特徴量の抽出、第１のスペクトル特徴量の補正、及びスペクトル距離の算出は、発話区間に含まれる全フレームに関して、もしくは、発話区間の開始後の一定時間の移動分析の時間窓に含まれる全フレームに関して繰り返し行われる（ステップＳ１０５）。

【0036】

そして、平均値算出部１６によって、発話区間あるいはそれぞれの時間窓におけるスペクトル距離の平均値が算出され出力される（ステップＳ１０６）。最後に、ユーザによる評価装置１に対する装着位置評価処理の終了が指示されたか否かが判定され（ステップＳ１０７）、終了が指示されていない場合には（ステップＳ１０７；Ｎｏ）、処理がステップＳ１０２に戻されて、スペクトル距離の平均値の算出および出力が繰り返される。一方で、終了が指示された場合には（ステップＳ１０７；Ｙｅｓ）、装着位置評価処理が終了される。

【0037】

図５には、平均値算出部１６によるスペクトル距離の平均値の入出力デバイス１０５における出力イメージを示す。ここでは、ディスプレイ装置における出力イメージを示している。このように、ユーザに対して咽喉部における咽喉マイクＭ１の装着位置“１”、“２”、“３”、…を指示するようにディスプレイ画面２１上に順次指示情報が表示されるとともに、それぞれの装着位置に対応して算出された平均値“Ｘ．ＸＸ”がその装着位置に関連付けてディスプレイ画面２１上に順次表示される。この平均値の表示に際しては、平均値を示す文字列に加えて、前回測定時からの平均値の変化を示す情報（例えば、上昇を示す記号“↑”）が表示されてもよい。また、平均値算出部１６は、ディスプレイ画面上に視認可能なように情報を出力することには限定されず、スピーカ等を用いて聴覚で認識可能なように音声を出力してもよい。例えば、スペクトル距離の平均値が下降した際にビープ音等を出力してもよいし、平均値の大小をビープ音の高低で表わして出力してもよい。

【0038】

次に、図６を参照して、コンピュータを上記評価装置１として機能させるための評価プログラムを説明する。

【0039】

評価プログラムＰ１は、メインモジュールＰ１０、特徴量算出モジュールＰ１１、スペクトル補正モジュールＰ１２、距離算出モジュールＰ１３、区間検出モジュールＰ１４、時間窓カウンタモジュールＰ１５、及び平均値算出モジュールＰ１６を備えている。

【0040】

メインモジュールＰ１０は、評価装置１の動作を統括的に制御する部分である。メインモジュールＰ１０、特徴量算出モジュールＰ１１、スペクトル補正モジュールＰ１２、距離算出モジュールＰ１３、区間検出モジュールＰ１４、時間窓カウンタモジュールＰ１５、及び平均値算出モジュールＰ１６を実行することにより実現される機能は、それぞれ、特徴量抽出器１１、スペクトル補正部１２、距離算出部１３、区間検出部１４、時間窓カウンタ部１５、及び平均値算出部１６の機能と同様である。

【0041】

評価プログラムＰ１は、例えば、ＣＤ－ＲＯＭ、ＤＶＤもしくはＲＯＭ等のコンピュータ読み取り可能な記録媒体または半導体メモリによって提供される。また、評価プログラムＰ１は、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。

【0042】

上述した評価装置１によれば、咽喉マイクＭ１からの音声信号を基にして抽出された第１のスペクトル特徴量と接話型マイクＭ２からの音声信号を基にした第２のスペクトル特徴量との間のスペクトル距離が算出され、時間的に連続して算出されたスペクトル距離の平均値が算出および出力される。これにより、咽喉マイクＭ１が適した位置に装着されているか否かを、咽喉マイクＭ１による検出を基にした信号のスペクトルと接話型マイクＭ２による検出を基にした信号のスペクトルとの間の類似性を基に評価させることができる。

【0043】

また、評価装置１においては、第１のスペクトル特徴量を補正用のモデルを用いて、第２のスペクトル特徴量の特性に近づくように補正されている。この場合、咽喉マイクＭ１のスペクトル上の検出特性と接話型マイクＭ２のスペクトル上の検出特性との差を考慮して第１のスペクトル特徴量を補正することができ、この補正された第１のスペクトル特徴量を用いることで咽喉マイクＭ１の装着位置をより適切に評価できる。

【0044】

また、評価装置１においては、スペクトル距離として、第１のスペクトル特徴量と第２のスペクトル特徴量の差を数値化したメルケプストラム距離が用いられている。この場合、咽喉マイクＭ１による検出を基にした信号のスペクトルと接話型マイクＭ２による検出を基にした信号のスペクトルとの間の類似性を、簡易かつ適切に評価することができる。

【0045】

さらに、評価装置１においては、咽喉マイクＭ１あるいは接話型マイクＭ２からの音声信号を基に認識された発話区間に含まれる全フレームにおけるスペクトル距離の平均値が算出されている。この場合、ユーザの発話区間における、咽喉マイクＭ１による検出を基にした信号のスペクトルと接話型マイクＭ２による検出を基にした信号のスペクトルとの間の類似性を評価でき、雑音の影響を受けることなく咽喉マイクＭ１の装着位置をより適切に評価できる。

【0046】

一方で、評価装置１においては、咽喉マイクＭ１あるいは接話型マイクＭ２からの音声信号を基に一定期間ごとに時間窓を順次シフトさせてスペクトル距離の平均値が算出されている。このようにすることで、時間的に連続して、咽喉マイクＭ１による検出を基にした信号のスペクトルと接話型マイクＭ２による検出を基にした信号のスペクトルとの間の類似性を評価でき、咽喉マイクＭ１の装着位置を時間的に連続して評価できる。

【0047】

また、評価装置１においては、ユーザの咽喉部の複数の装着位置を順次画面上に表示させるとともに、それぞれの装着位置に対応して算出したスペクトル距離の平均値が順次画面上に表示されている。このような機能により、ユーザの咽喉部における装着位置を示しながら、咽喉マイクＭ１による検出を基にした信号のスペクトルと接話型マイクＭ２による検出を基にした信号のスペクトルとの間の類似性を評価できる。その結果、咽喉マイクＭ１の装着位置を順次変えさせながら、適した装着位置を評価させることができる。

【0048】

以上、本発明の種々の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、又は他のものに適用したものであってもよい。

【符号の説明】

【0049】

１…評価装置、１１…特徴量抽出器（抽出部）、１３…距離算出部、１６…平均値算出部（距離出力部）、Ｍ１…咽喉マイク、Ｍ２…接話型マイク（音響マイク）、Ｐ１…評価プログラム。

【図1】