特許第6221267号(P6221267)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セイコーエプソン株式会社の特許一覧

特許6221267音声認識装置及び方法、並びに、半導体集積回路装置
<>
  • 特許6221267-音声認識装置及び方法、並びに、半導体集積回路装置 図000002
  • 特許6221267-音声認識装置及び方法、並びに、半導体集積回路装置 図000003
  • 特許6221267-音声認識装置及び方法、並びに、半導体集積回路装置 図000004
  • 特許6221267-音声認識装置及び方法、並びに、半導体集積回路装置 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6221267
(24)【登録日】2017年10月13日
(45)【発行日】2017年11月1日
(54)【発明の名称】音声認識装置及び方法、並びに、半導体集積回路装置
(51)【国際特許分類】
   G10L 15/22 20060101AFI20171023BHJP
   G10L 15/00 20130101ALI20171023BHJP
【FI】
   G10L15/22 200V
   G10L15/00 200K
   G10L15/22 300Z
【請求項の数】7
【全頁数】16
(21)【出願番号】特願2013-42664(P2013-42664)
(22)【出願日】2013年3月5日
(65)【公開番号】特開2014-170163(P2014-170163A)
(43)【公開日】2014年9月18日
【審査請求日】2015年12月10日
(73)【特許権者】
【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
(74)【代理人】
【識別番号】100116665
【弁理士】
【氏名又は名称】渡辺 和昭
(74)【代理人】
【識別番号】100164633
【弁理士】
【氏名又は名称】西田 圭介
(74)【代理人】
【識別番号】100179475
【弁理士】
【氏名又は名称】仲井 智至
(72)【発明者】
【氏名】野中 勉
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開平09−311694(JP,A)
【文献】 特開平03−231297(JP,A)
【文献】 特開平02−106800(JP,A)
【文献】 特開2008−129412(JP,A)
【文献】 小島弘 南角吉彦 李晃伸 徳田恵一,信頼度基準による解探索打ち切りに基づく超早音声認識,電子情報通信学会技術研究報告 IEICE Technical Report SP2008−128,日本,社団法人電子情報通信学会,2009年 1月22日,Vol.108 No.422,pp.13-18
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、
変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、
前記変換リストを格納する変換リスト格納部と、
前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを前記音声認識データベースから抽出する標準パターン抽出部と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整する認識精度調整部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。
【請求項2】
前記音声認識結果に対する応答内容を表す応答データを受信し、前記応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する、請求項1記載の半導体集積回路装置。
【請求項3】
前記信号処理部が、前記音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する、請求項1又は2記載の半導体集積回路装置。
【請求項4】
請求項1記載の半導体集積回路装置と、
前記変換候補となる単語又は文章を表すテキストデータ、及び、前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
【請求項5】
請求項2記載の半導体集積回路装置と、
前記半導体集積回路装置から出力される前記音声認識結果に応じて複数の応答内容の中から前記応答内容を選択し、選択された前記応答内容を表す前記応答データ、前記応答内容に対する回答として前記変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章に応じて選択された前記認識精度パラメーターを、前記コマンドと共に前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
【請求項6】
請求項3記載の半導体集積回路装置と、
前記音声検出信号が活性化されてから所定の期間内に前記特徴パターンと前記標準パターンとの一致を表す前記音声認識結果が得られない場合に、新たな前記認識精度パラメーターを新たな前記コマンドと共に前記半導体集積回路装置に送信し、一致検出を行うように前記半導体集積回路装置を制御する制御部と、
を具備する音声認識装置。
【請求項7】
変換候補となる単語又は文章を表すテキストデータ、及び、前記変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、前記コマンドに従って、変換リストにテキストデータを設定するステップ(a)と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する前記標準パターンを抽出するステップ(b)と、
前記認識精度パラメーターに従って、前記音声認識データベースから抽出された前記標準パターンの広がりの範囲を調整するステップ(c)と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(d)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンが前記標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、前記変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(e)と、
を具備する音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、及び、携帯端末等におけるヒューマンインターフェース技術の一環として、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置において用いられる半導体集積回路装置等に関する。
【背景技術】
【0002】
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、認識結果を得る技術である。しかしながら、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって、認識結果を得るのに多くの時間を要すると共に、類似の標準パターンを有する単語又は文章の数も多くなることで認識率が低下してしまう傾向にある。
【0003】
また、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。
【0004】
関連する従来技術として、特許文献1には、使用者の発話が曖昧な場合にも、使用者の発話を精度良く認識することを目的とする音声認識装置が開示されている。この音声認識装置は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置であって、制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段と、タスク種類決定手段により決定された種類のタスクを判断対象として、入力された音声を認識する音声認識手段とを備えている。
【0005】
特許文献1の音声認識装置は、音声信号に基づいてユーザーの言葉が良好に認識されると、ユーザーの言葉において何を制御するかが特定されていなくても、どのように制御するかという指標に従って認識対象を限定して、制御対象の制御内容を決定することが可能である。しかしながら、音声信号に基づいてユーザーの言葉を認識する際に要求される認識精度の厳密さ又は曖昧さは一定であり、音声認識における認識率を向上させることはできない。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2008−64885号公報(段落0006−0010)
【発明の概要】
【発明が解決しようとする課題】
【0007】
上述したように、音声認識において、音声信号に基づいて単語又は文章を認識する際に要求される認識精度の厳密さ又は曖昧さは、類似の表示パターンを有する単語又は文章の数に関わらず一定に設定されている。そのため、選択肢の数が多い場合と少ない場合とにおいて、又は、選択肢の中に類似する言葉が多い場合と少ない場合とにおいて、同一の認識条件で音声認識が行われるので、音声認識における認識率が向上しないという問題があった。
【0008】
そこで、上記の点に鑑み、本発明の目的の1つは、音声認識における選択肢の数を適切に制限すると共に、音声認識に要求される認識精度の厳密さ又は曖昧さを選択肢に応じて変化させることにより、音声認識における認識率を向上させることである。本発明は、上述した課題若しくは問題の少なくとも1つを解決するためになされたものである。
【課題を解決するための手段】
【0009】
本発明の第1の観点に係る半導体集積回路装置は、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する音声認識データベース格納部と、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定する変換情報設定部と、変換リストを格納する変換リスト格納部と、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する認識精度調整部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する一致検出部とを具備する。
【0010】
また、本発明の第1の観点に係る音声認識装置は、本発明の第1の観点に係る半導体集積回路装置と、変換候補となる複数の単語又は文章を表すテキストデータ、及び、該複数の単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。
【0011】
さらに、本発明の第1の観点に係る音声認識方法は、変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共に受信し、コマンドに従って、変換リストにテキストデータを設定するステップ(a)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(b)と、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整するステップ(c)と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(d)と、音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力するステップ(e)とを具備する。
【0012】
本発明の第1の観点によれば、深い階層メニューに従って音声認識を行う場合に、選択肢の数を適切に制限すると共に、各々の選択肢の組み合わせに適した認識精度パラメーターを設定して、認識精度パラメーターに従って標準パターンの広がりの範囲を調整することにより、音声認識における認識率を向上させることができる。
【0013】
本発明の第2の観点に係る半導体集積回路装置は、音声認識結果に対する応答内容を表す応答データを受信し、応答データに基づいて出力音声信号を合成する音声信号合成部をさらに具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
【0014】
本発明の第2の観点に係る音声認識装置は、本発明の第2の観点に係る半導体集積回路装置と、半導体集積回路装置から出力される音声認識結果に応じて複数の応答内容の中から応答内容を選択し、選択された応答内容を表す応答データ、応答内容に対する回答として変換候補となる単語又は文章を表すテキストデータ、及び、変換候補となる単語又は文章に応じて選択された認識精度パラメーターを、コマンドと共に半導体集積回路装置に送信する制御部とを具備する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部に設定することができる。
【0015】
本発明の第3の観点に係る半導体集積回路装置においては、信号処理部が、音声信号のレベルが所定の値を超えたときに音声検出信号を活性化する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
【0016】
本発明の第3の観点に係る音声認識装置は、本発明の第3の観点に係る半導体集積回路装置と、音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、新たな認識精度パラメーターを新たなコマンドと共に半導体集積回路装置に送信し、一致検出を行うように半導体集積回路装置を制御する制御部とを具備する。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、認識精度パラメーターを変更して一致検出を再度行うことができる。
【図面の簡単な説明】
【0017】
図1】本発明の一実施形態に係る音声認識装置の構成例を示す図。
図2図1に示す音声認識装置によって実施される音声認識方法を示すフロー図。
図3】食品メニューに表示されている複数の食品名を含む変換リストAを示す図。
図4】質問に対する複数の回答を含む変換リストBを示す図。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成例を示す図である。この音声認識装置は、例えば、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、又は、携帯端末等に搭載され、ユーザーの音声を認識し、その認識結果に対応する応答や処理を行うものである。
【0019】
図1に示すように、音声認識装置は、音声入力部10と、A/D変換器20と、音声認識用の半導体集積回路装置30と、D/A変換器40と、音声出力部50と、制御部60とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器40、及び、音声出力部50の少なくとも一部を、半導体集積回路装置30に内蔵しても良い。
【0020】
制御部60は、ホストCPU(中央演算装置)61と、格納部62とを含んでいる。ホストCPU61は、格納部62の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。ホストCPU61は、半導体集積回路装置30に制御信号を供給することにより、半導体集積回路装置30における音声認識動作を制御する。
【0021】
音声入力部10は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルターとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
【0022】
半導体集積回路装置30は、信号処理部31と、音声認識DB(データベース)格納部32と、変換情報設定部33と、変換リスト格納部34と、標準パターン抽出部35と、認識精度調整部36と、一致検出部37とを含んでいる。さらに、半導体集積回路装置30は、音声信号合成部38、及び/又は、音声合成DB(データベース)格納部39を含んでも良い。
【0023】
信号処理部31は、入力された音声信号にフーリエ変換を施すことにより音声信号の複数の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは一致検出部37に出力される。また、信号処理部31は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部37及びホストCPU61に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
【0024】
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部31は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部31は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部31は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部31は、各々の周波数成分の絶対値を求める。
【0025】
信号処理部31は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部31は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
【0026】
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部31は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従ってMFCCを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
【0027】
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
【0028】
音声認識データベース格納部32は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。
【0029】
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。
【0030】
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部31に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
【0031】
また、1つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部37は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。
【0032】
あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部32は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部37は、音声認識データベース格納部32に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って1つの音声認識データベースを選択して使用することができる。
【0033】
変換情報設定部33は、変換候補となる複数の単語又は文章を表すテキストデータ、及び、音声信号に基づいて単語又は文章を認識する際に適用される認識精度の厳密さを表す認識精度パラメーターを、コマンドと共にホストCPU61から受信する。また、変換情報設定部33は、受信されたコマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。変換リスト格納部34は、変換リストを格納する。
【0034】
コマンドとしては、例えば、変換リストにおける全てのテキストデータ及び認識精度パラメーターを新規設定するための設定コマンドと、変換リストに一部のテキストデータを追加するための追加コマンドと、変換リストから一部のテキストデータを削除するための削除コマンドとが用いられる。従って、変換リスト全体を置き換えることなく、変換リストの一部を任意に変更することも可能である。また、認識精度パラメーターのみを変更するための変更コマンドが用いられても良い。尚、変換リストには、予め所定のテキストデータの設定がなされていても良い。
【0035】
変換リスト格納部34において、変換リストに新たなテキストデータが設定されると、標準パターン抽出部35は、変換リストに設定されたテキストデータによって表される単語又は文章の少なくとも一部に対応する標準パターンを、音声認識データベースから抽出する。
【0036】
認識精度調整部36は、変換情報設定部33によって設定された認識精度パラメーターに従って、音声認識データベース32から抽出された標準パターンの広がりの範囲を調整する。標準パターン抽出部35によって音声認識データベース32から抽出された標準パターンは、多次元空間において、ばらつきを含む広がりを有しているが、認識精度調整部36は、この標準パターンの広がりの範囲を調整する。
【0037】
以下の例においては、認識精度パラメーターによって表される認識精度の厳密さ又は曖昧さが、最も曖昧なランク1から最も厳密なランクMまでのM個のランクに分類される(Mは、2以上の自然数)。ある標準パターンAのN次元空間(Nは自然数)における広がりをA1(i)〜A2(i)で表すと(i=1、2、・・・、N)、認識精度調整部36によって調整された標準パターンAの広がりの範囲A1a(i)〜A2a(i)は、ランクR(1≦R≦M)を用いて、例えば、次式によって表される。
A1a(i)=A1(i)−k・(M−R)・(A2(i)−A1(i))
A2a(i)=A2(i)+k・(M−R)・(A2(i)−A1(i))
ここで、kは定数である。
【0038】
例えば、自動車の制御に音声認識を適用するような場合には、誤った制御が行われることを防止するために、最も厳密なランクMを表す認識精度パラメーター「M」が設定される。一方、変換リストに含まれている2つの単語の内の一方を選択するような場合には、音声認識において誤りが生じる可能性が低いので、最も曖昧なランク1を表す認識精度パラメーター「1」が設定される。
【0039】
あるいは、変換リストにおいて選択肢の数が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。また、変換リストにおいて選択肢に含まれている類似する言葉が所定の数よりも多いか少ないかに応じて異なる認識精度パラメーターを設定しても良い。
【0040】
一致検出部37は、音声検出信号が活性化されているときに動作し、信号処理部31によって生成された特徴パターンと、認識精度調整部36によって広がりの範囲が調整された標準パターンとを比較する。そして、一致検出部37は、入力された音声信号の少なくとも一部から生成された特徴パターンが、認識精度調整部36によって調整された標準パターンの広がりの範囲内に入っているか否かを判定する。
【0041】
比較はN次元空間における各成分について行われ、i=1、2、・・・、Nについて次式が満たされれば、特徴パターンBが標準パターンAの広がりの範囲内に入っていると判定される。
A1a(i)≦B(i)≦A2a(i)
一致検出部37は、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の一致を検出する。
【0042】
例えば、一致検出部37は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。変換リストにおいて、一致が検出された音節を先頭に有する変換候補が1つだけ存在する場合には、その変換候補が、変換後の単語又は文章となる。一方、変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部37は、変換候補が1つに絞られるまで、一致を検出すべき音節の範囲を拡大する。
【0043】
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
【0044】
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」についての標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」についての標準パターンと、音節「か」を構成する第2番目の音素「a」についての標準パターンとのことである。
【0045】
入力された音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
【0046】
特徴パターンと標準パターンとの一致が検出されると、一致検出部37は、一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストCPU61は、半導体集積回路装置30に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
【0047】
ホストCPU61は、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容(質問又はメッセージ)の中から1つの応答内容を選択し、選択された応答内容を表す応答データを半導体集積回路装置30に送信する。
【0048】
半導体集積回路装置30の音声信号合成部38は、ホストCPU61から音声認識結果に対する応答内容を表す応答データを受信し、受信された応答データに基づいて、出力すべき音声を表す音声信号を合成する。音声信号を合成するためには、音声合成データベース格納部39に格納されている音声合成データベースを用いても良いが、音声認識データベース格納部32に格納されている音声認識データベースを用いて音声信号を合成することも可能である。
【0049】
その場合には、例えば、音声信号合成部38は、応答内容に含まれている各々の音素について、音声認識データベースに含まれている標準パターンから周波数スペクトルを求める。さらに、音声信号合成部38は、周波数スペクトルを逆フーリエ変換して音声波形を求め、応答内容に含まれている複数の音素についての複数の音声波形を繋ぎ合わせることにより、応答内容に対応する音声信号を合成する。
【0050】
D/A変換器40は、音声信号合成部38から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部50は、D/A変換器40から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、ホストCPU61から供給される応答データによって表される応答内容を、音声として出力する。これにより、応答データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出すことができる。
【0051】
また、ホストCPU61は、選択された質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータ、及び、それらの単語又は文章に応じて選択された認識精度パラメーターを、設定コマンドと共に半導体集積回路装置30に送信する。
【0052】
半導体集積回路装置30の変換情報設定部33は、ホストCPU61からテキストデータ及び認識精度パラメーターを設定コマンドと共に受信すると、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。これにより、応答データに基づいて発せられる質問又はメッセージに対応する複数の単語又は文章を表すテキストデータを変換リストに設定すると共に、それらの単語又は文章に応じて選択された認識精度パラメーターを認識精度調整部36に設定することができる。
【0053】
次に、本発明の一実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。図2は、図1に示す音声認識装置によって実施される音声認識方法を示すフローチャートである。
【0054】
図2のステップS1において、ホストCPU61が、半導体集積回路装置30の電源投入時又はリセット後に、1つの質問又はメッセージを表す交信データと、その質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置30に送信する。
【0055】
ステップS2において、半導体集積回路装置30の変換情報設定部33が、テキストデータ及び認識精度パラメーターを、設定コマンドと共にホストCPU61から受信する。変換情報設定部33は、受信された設定コマンドに従って、変換リストにテキストデータを設定すると共に、認識精度調整部36に認識精度パラメーターを設定する。
【0056】
変換リストに新たなテキストデータが設定されると、ステップS3において、標準パターン抽出部35が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。また、ステップS4において、認識精度調整部36が、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
【0057】
ステップS5において、音声信号合成部38が、受信された交信データに基づいて音声信号を合成することにより、音声出力部50から質問又はメッセージが発せられる。これに回答してユーザーが音声を発すると、ステップS6において、信号処理部31が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部31は、音声検出信号を活性化する。
【0058】
音声検出信号が活性化されると、ステップS7において、一致検出部37が、入力された音声信号の少なくとも一部から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば両者の一致を検出し、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。
【0059】
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、ホストCPU61は、ランクの低い新たな認識精度パラメーターを変更コマンドと共に半導体集積回路装置30に送信し、一致検出を再度行うように半導体集積回路装置30を制御しても良い。これにより、所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られない場合に、音声認識における認識精度の厳密さを緩めて一致検出を再度行うことができる。
【0060】
あるいは、ホストCPU61は、「もう一度お願いします」等のメッセージを表す応答データを半導体集積回路装置30に送信しても良いし、分かり易いように言い直した質問を表す応答データを半導体集積回路装置30に送信しても良い。音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成し、音声出力部50から新たなメッセージ又は質問が発せられる。
【0061】
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップS8において、ホストCPU61が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップS9に移行する。
【0062】
ステップS9において、ホストCPU61が、半導体集積回路装置30から出力される音声認識結果に応じて複数の応答内容の中から1つの応答内容を選択し、選択された応答内容を表す応答データと、選択された応答内容に対する回答として変換候補となる複数の単語又は文章を表すテキストデータと、それらの単語又は文章に応じて選択された認識精度パラメーターとを、設定コマンドと共に半導体集積回路装置30に送信する。これにより、ステップS2以降の処理が繰り返される。
【0063】
本発明の一実施形態によれば、音声認識シナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。ここで、音声認識シナリオとは、ある質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出して音声認識を行うことをいう。
【0064】
その際に、音声認識における認識精度の厳密さ又は曖昧さは、ホストCPU61からコマンド及び認識精度パラメーターを半導体集積回路装置30に送信することにより、音声認識シナリオに沿って自由に設定可能である。その結果、音声認識における認識精度を厳密にして誤認識を防止したり、あるいは、音声認識における認識精度を緩くして認識率を向上させたりすることができる。
【0065】
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の具体例について説明する。ここでは、図1に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。
【0066】
自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「そば」、「うどん」、「カレー」、「カツ丼」等の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「そば」、「うどん」、「カレー」、「カツ丼」等の内のいずれかになることが予測される。
【0067】
そこで、ホストCPU61は、自動販売機の電源投入時又はリセット後に、食品メニューに表示されている複数の食品名を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。その際に、ホストCPU61は、食品メニューに表示されている食品名の数が所定の数よりも多い場合に認識精度を厳密にし、食品メニューに表示されている食品名の数が所定の数よりも少ない場合に認識精度を緩くするように、認識精度パラメーターを設定しても良い。
【0068】
半導体集積回路装置30の変換情報設定部33は、受信された設定コマンドに従って、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部36に設定する。
【0069】
このようにして、図3に示す変換リストAが作成される。図3には、食品名に対応する番号と、食品名の日本語表記と、食品名に含まれている音素のローマ字表記とが示されているが、変換リストには、食品名に含まれている音素を特定できるローマ字表記又はカナ表記が少なくとも含まれていれば良い。
【0070】
変換リストAが作成されると、標準パターン抽出部35は、変換リストAに含まれている食品名「そば」、「うどん」、「カレー」、「カツ丼」等の先頭の音節「そ」、「う」、「カ」、「カ」等に含まれている音素「s・o」、「u」、「k・a」、「k・a」等のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。また、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
【0071】
また、ホストCPU61は、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージを表す交信データを半導体集積回路装置30に送信する。半導体集積回路装置30の音声信号合成部38は、この交信データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージが発せられる。
【0072】
音声出力部50から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て「カツ丼を下さい。」と言うと、信号処理部31は、音素「k・a・t・u・d・o・N・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
【0073】
一致検出部37は、信号処理部31によって生成された先頭の音節の第1番目の音素「k」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「s」、「u」、「k」、「k」等の標準パターンとを比較することにより、音素「k」の一致を検出する。
【0074】
一致が検出された音素が子音を表している場合には、さらに、一致検出部37が、先頭の音節の第2番目の音素を比較する。一致検出部37は、信号処理部31によって生成された先頭の音節の第2番目の音素「a」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」、「a」等の標準パターンとを比較することにより、音素「a」の一致を検出する。
【0075】
これにより、音節「カ」の一致が検出される。一致が検出された食品名が1つであれば、ここで音声認識結果が得られる。しかしながら、変換リストには、食品名「カレー」と食品名「カツ丼」とが含まれているので、いずれが該当するかを認識することができない。そのような場合に、一致検出部37は、一致を検出すべき音節の範囲を拡大する。
【0076】
即ち、一致検出部37は、変換リストに含まれている上記食品名の第2番目の音節に対応する標準パターンの抽出を依頼する信号を標準パターン抽出部35に出力する。これにより、標準パターン抽出部35は、変換リストに含まれている食品名「カレー」及び「カツ丼」の第2番目の音節「レ」及び「ツ」に含まれている音素「r・e」及び「t・u」のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。また、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
【0077】
一致検出部37は、信号処理部31によって生成された第2番目の音節の第1番目の音素「t」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第1番目の音素「r」及び「t」の標準パターンとを比較することにより、音素「t」の一致を検出する。
【0078】
さらに、一致検出部37は、信号処理部31によって生成された第2番目の音節の第2番目の音素「u」の特徴パターンと、音声認識データベースから抽出された第2番目の音節の第2番目の音素「e」及び「u」の標準パターンとを比較することにより、音素「u」の一致を検出する。
【0079】
これにより、音節「ツ」の一致が検出される。先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名が他にも存在する場合には、一致検出部37は、一致を検出すべき音節の範囲をさらに拡大すれば良い。一致検出部37は、一致が検出された先頭の音節「カ」及び第2番目の音節「ツ」を有する食品名「カツ丼」を特定する音声認識結果をホストCPU61に出力する。
【0080】
食品名「カツ丼」を特定する情報としては、図3に示す番号、食品名の日本語表記「カツ丼」又はその一部「カツ」、食品名に含まれている音素のローマ字表記「katudoN」又はその一部「katu」等が該当する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する食品名「カツ丼」を認識することができる。
【0081】
このようにして第1回目の音声認識動作が終了すると、ホストCPU61は、第2回目の音声認識動作を開始する。ホストCPU61は、受け取った音声認識結果に応じて、格納部62に格納されている応答データによって表される複数の応答内容の中から1つの適切な応答内容を選択し、選択された応答内容を表す応答データ、及び、選択された応答内容に対する回答として複数の変換候補を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。
【0082】
半導体集積回路装置30の変換情報設定部33は、受信された設定コマンドに従って、現在のテキストデータの全てを変換リストから削除した後、受信されたテキストデータを変換リストに設定すると共に、受信された認識精度パラメーターを認識精度調整部36に設定する。
【0083】
例えば、ホストCPU61は、「いくつですか?」という質問を表す応答データを音声信号合成部38に供給する。その場合には、この質問に対してユーザーが発する最初の言葉が、「1つ」、「2つ」、「3つ」等の複数の回答の内のいずれかになることが予測される。そこで、ホストCPU61は、「1つ」、「2つ」、「3つ」等の複数の回答を表すテキストデータを、認識精度パラメーター及び設定コマンドと共に半導体集積回路装置30に送信する。
【0084】
このようにして、図4に示す変換リストBが作成される。変換リストBが作成されると、標準パターン抽出部35は、変換リストBに含まれているテキストデータによって表される単語「1つ」、「2つ」、「3つ」等の先頭の音節「ひ」、「ふ」、「み」等に含まれている音素「h・i」、「h・u」、「m・i」等のそれぞれについて、周波数成分の分布状態を表す標準パターンを音声認識データベースから抽出する。さらに、認識精度調整部36は、認識精度パラメーターに従って、音声認識データベースから抽出された標準パターンの広がりの範囲を調整する。
【0085】
音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「いくつですか?」という質問が発せられる。
【0086】
音声出力部50から発せられた質問に対して、ユーザーが、「1つです。」と言うと、信号処理部31は、音素「h・i・t・o・t・u・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
【0087】
一致検出部37は、信号処理部31によって生成された先頭の音節の第1番目の音素「h」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「h」、「h」、「m」等の標準パターンとを比較することにより、音素「h」の一致を検出する。
【0088】
一致が検出された音素が子音を表している場合には、さらに、一致検出部37が、信号処理部31によって生成された先頭の音節の第2番目の音素「i」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「i」、「u」、「i」等の標準パターンとを比較することにより、音素「i」の一致を検出する。
【0089】
これにより、音節「ひ」の一致が検出される。一致検出部37は、一致が検出された音節「ひ」を先頭に有する単語「1つ」を特定する音声認識結果をホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する単語「1つ」を認識することができる。
【0090】
そこで、ホストCPU61は、「○○○円を投入して下さい。」というメッセージを表す応答データを音声信号合成部38に供給する。音声信号合成部38は、ホストCPU61から供給された応答データに基づいて音声信号を合成してD/A変換器40に出力し、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50からユーザーに対して、「○○○円を投入して下さい。」というメッセージが発せられる。
【0091】
以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
【符号の説明】
【0092】
10…音声入力部、20…A/D変換器、30…半導体集積回路装置、31…信号処理部、32…音声認識データベース格納部、33…変換情報設定部、34…変換リスト格納部、35…標準パターン抽出部、36…認識精度調整部、37…一致検出部、38…音声信号合成部、39…音声合成データベース格納部、40…D/A変換器、50…音声出力部、60…制御部、61…ホストCPU、62…格納部
図1
図2
図3
図4