IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 菱洋エレクトロ株式会社の特許一覧

<>
  • 特許-音声認識システム、及び音声認識装置 図1
  • 特許-音声認識システム、及び音声認識装置 図2
  • 特許-音声認識システム、及び音声認識装置 図3
  • 特許-音声認識システム、及び音声認識装置 図4
  • 特許-音声認識システム、及び音声認識装置 図5
  • 特許-音声認識システム、及び音声認識装置 図6
  • 特許-音声認識システム、及び音声認識装置 図7
  • 特許-音声認識システム、及び音声認識装置 図8
  • 特許-音声認識システム、及び音声認識装置 図9
  • 特許-音声認識システム、及び音声認識装置 図10
  • 特許-音声認識システム、及び音声認識装置 図11
  • 特許-音声認識システム、及び音声認識装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-17
(45)【発行日】2022-11-28
(54)【発明の名称】音声認識システム、及び音声認識装置
(51)【国際特許分類】
   G10L 15/19 20130101AFI20221118BHJP
   G10L 15/06 20130101ALI20221118BHJP
   G10L 15/10 20060101ALI20221118BHJP
   G10L 15/22 20060101ALI20221118BHJP
【FI】
G10L15/19
G10L15/06 400Z
G10L15/10 200C
G10L15/22 200V
【請求項の数】 8
(21)【出願番号】P 2018231738
(22)【出願日】2018-12-11
(65)【公開番号】P2020095118
(43)【公開日】2020-06-18
【審査請求日】2021-12-03
(73)【特許権者】
【識別番号】391021684
【氏名又は名称】菱洋エレクトロ株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】菊田 敦
(72)【発明者】
【氏名】越田 高広
【審査官】中村 天真
(56)【参考文献】
【文献】特開平08-278794(JP,A)
【文献】特開平08-248978(JP,A)
【文献】特開平06-186994(JP,A)
【文献】特開平06-102897(JP,A)
【文献】鈴木 良弥ほか,体系的な意味カテゴリーで記述された係り受け関係を利用する日本語文音声認識,電子情報通信学会論文誌,1993年11月,第J76-D-II巻,第11号,p.2264-2273
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
収音装置を用いて利用者の音声を収音し、音声認識装置を用いて前記音声に対応する認識情報を生成する音声認識システムであって、
前記収音装置により収音された前記音声に基づき、音声データを取得する取得手段と、
音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出手段と、
予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出手段と、
予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出手段と、
前記信頼度に基づき、複数の前記候補データから評価データを選択する選択手段と、
前記評価データに基づき、前記認識情報を生成する生成手段と
を備えることを特徴とする音声認識システム。
【請求項2】
前記抽出手段は、1つの前記音声データから複数の前記認識対象データを抽出し、
複数の前記認識対象データは、それぞれ異なる前記音素及び前記休止区間の前記配列を有すること
を特徴とする請求項1記載の音声認識システム。
【請求項3】
前記算出手段は、前記センテンスを複数生成し、
複数の前記センテンスは、それぞれ前記候補データの種類及び組み合わせの少なくとも何れかが異なること
を特徴とする請求項1又は2記載の音声認識システム。
【請求項4】
予め取得された前記文字列情報と、前記文字列情報を組み合わせた参照センテンスと、前記文字列情報毎に付与された閾値とが記憶された参照データベースをさらに備え、
前記生成手段は、
前記参照データベースを参照し、前記参照センテンスのうち、前記評価データに対応する第1参照センテンスを指定する指定手段と、
前記評価データに対応する前記信頼度と、前記第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する比較手段と、
を有し、前記比較手段の比較結果に基づき、前記認識情報を生成すること
を特徴とする請求項1~3の何れか1項記載の音声認識システム。
【請求項5】
前記認識情報に基づき、参照する前記文字列データベースの内容を選択する設定手段をさらに備えること
を特徴とする請求項1~4の何れか1項記載の音声認識システム。
【請求項6】
前記設定手段は、選択された前記文字列データベースの内容に基づく報知情報を生成すること
を特徴とする請求項5記載の音声認識システム。
【請求項7】
前記文字列データベースには、予め取得された類似文字列情報と、前記類似文字列情報に付与された類似クラスIDとが記憶されること
を特徴とする請求項1~6の何れか1項記載の音声認識システム。
【請求項8】
収音装置を用いて利用者の音声を収音し、前記音声に対応する認識情報を生成する音声認識装置であって、
前記収音装置により収音された前記音声に基づき、音声データを取得する取得部と、
音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出部と、
予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出部と、
予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出部と、
前記信頼度に基づき、複数の前記候補データから評価データを選択する選択部と、
前記評価データに基づき、前記認識情報を生成する生成部と
を備えることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、及び音声認識装置に関する。
【背景技術】
【0002】
従来、音声認識に関する技術として、例えば特許文献1の認知機能評価装置や、特許文献2の発話内容の把握システム等が提案されている。
【0003】
特許文献1の認知機能評価装置では、フォルマント解析部は、対象者の音声に含まれる特定の音素の瞬時音圧の時間変動を対象期間に亘って表している対象データを受け取る。そして、フォルマント解析部は、対象期間を複数のフレームに分割し、特定のフォルマントの周波数を、2つ以上の対象フレームのそれぞれについて求める。特徴解析部は、対象フレーム毎に求められた特定のフォルマントの周波数について特徴量を求める。評価部は、特徴量に基づいて対象者の認知機能を評価する。
【0004】
特許文献2では、録取された音声データに対して音素基準の音声認識を行ってインデクシングされたデータを保存し、これを用いて核心語に基づく発話内容を把握することにより、発話内容の把握が正確に、手軽に且つ速やかに行われる、録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法等が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2018-50847号公報
【文献】特開2015-539364号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、音声認識に関する技術では、様々な分野での応用が期待される一方で、認識精度の向上が課題として挙げられている。認識精度を向上させるために、音素を用いる方法が注目を集めているが、音声データから音素の配列を取得する際のバラつき等により、依然として認識精度の向上が課題として挙げられている。
【0007】
この点、特許文献1では、対象者の音声に基づく特定のフォルマント周波数について特徴量を求め、特徴量に基づいて対象者の認知機能を評価することで、精度の向上を図っている。しかしながら、特許文献1の開示技術では、対象者の発する音声の内容までを認識することができない。
【0008】
また、特許文献2では、核心語に基づく発話内容を把握することにより、発話内容の把握を実現する技術が開示されている。しかしながら、特許文献2の開示技術では、音素の類似する核心語が発話内容に含まれる場合、認識精度が悪くなる恐れがある。このような状況により、認識精度の向上を可能とする音声認識に関する技術が望まれている。
【0009】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、認識精度の向上を可能とする音声認識システム、及び音声認識装置を提供することにある。
【課題を解決するための手段】
【0010】
第1発明に係る音声認識システムは、収音装置を用いて利用者の音声を収音し、音声認識装置を用いて前記音声に対応する認識情報を生成する音声認識システムであって、前記収音装置により収音された前記音声に基づき、音声データを取得する取得手段と、音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出手段と、予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出手段と、予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出手段と、前記信頼度に基づき、複数の前記候補データから評価データを選択する選択手段と、前記評価データに基づき、前記認識情報を生成する生成手段とを備えることを特徴とする。
【0011】
第2発明に係る音声認識システムは、第1発明において、前記抽出手段は、1つの前記音声データから複数の前記認識対象データを抽出し、複数の前記認識対象データは、それぞれ異なる前記音素及び前記休止区間の前記配列を有することを特徴とする。
【0012】
第3発明に係る音声認識システムは、第1発明又は第2発明において、前記算出手段は、前記センテンスを複数生成し、複数の前記センテンスは、それぞれ前記候補データの種類及び組み合わせの少なくとも何れかが異なることを特徴とする。
【0013】
第4発明に係る音声認識システムは、第1発明~第3発明の何れかにおいて、予め取得された前記文字列情報と、前記文字列情報を組み合わせた参照センテンスと、前記文字列情報毎に付与された閾値とが記憶された参照データベースをさらに備え、前記生成手段は、前記参照データベースを参照し、前記参照センテンスのうち、前記評価データに対応する第1参照センテンスを指定する指定手段と、前記評価データに対応する前記信頼度と、前記第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する比較手段と、を有し、前記比較手段の比較結果に基づき、前記認識情報を生成することを特徴とする。
【0014】
第5発明に係る音声認識システムは、第1発明~第4発明の何れかにおいて、前記認識情報に基づき、参照する前記文字列データベースの内容を選択する設定手段をさらに備えることを特徴とする。
【0015】
第6発明に係る音声認識システムは、第5発明において、前記設定手段は、選択された前記文字列データベースの内容に基づく報知情報を生成することを特徴とする。
【0016】
第7発明に係る音声認識システムは、第1発明~第6発明の何れかにおいて、前記文字列データベースには、予め取得された類似文字列情報と、前記類似文字列情報に付与された類似クラスIDとが記憶されることを特徴とする。
【0017】
第8発明に係る音声認識装置は、収音装置を用いて利用者の音声を収音し、音声に対応する認識情報を生成する音声認識装置であって、前記収音装置により収音された前記音声に基づき、音声データを取得する取得部と、音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出部と、予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出部と、予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出部と、前記信頼度に基づき、複数の前記候補データから評価データを選択する選択部と、前記評価データに基づき、前記認識情報を生成する生成部とを備えることを特徴とする。
【発明の効果】
【0018】
第1発明~第7発明によれば、抽出手段は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出手段は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
【0019】
また、第1発明~第7発明によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
【0020】
特に、第2発明によれば、抽出手段は、1つの音声データから複数の認識対象データを抽出する。このため、音素及び休止区間の配列にバラつきが発生するような音声データを取得した場合においても、認識精度の低下を抑制することができる。これにより、認識精度のさらなる向上が可能となる。
【0021】
特に、第3発明によれば、算出手段は、センテンスを複数生成する。すなわち、候補データを組み合わせるパターンが複数存在する場合においても、全てのパターンに対応するセンテンスを生成することができる。このため、例えばパターンマッチングの探索方法等に比べて、誤認識を低減させることができる。これにより、認識精度のさらなる向上が可能となる。
【0022】
特に、第4発明によれば、比較手段は、信頼度と、第1閾値とを比較する。このため、複数の候補データから相対的に選択された評価データに対し、閾値による判定も行うことで、誤認識をさらに低減させることができる。これにより、認識精度のさらなる向上が可能となる。
【0023】
特に、第5発明によれば、設定手段は、認識情報に基づき、参照する文字列データベースの内容を選択する。このため、特定の状況に応じた音声のみを認識することができる。これにより、認識精度のさらなる向上を図ることが可能となる。
【0024】
特に、第6発明によれば、設定手段は、選択された文字列データベースの内容に基づく報知情報を生成する。このため、報知情報を利用者等に報知することで、誤認識に伴う誤動作を抑制することができる。また、誤作動を抑制するために用いられる文字列データベースのデータ容量を最小限に抑えることもできる。
【0025】
特に、第7発明によれば、文字列データベースには、類似文字列情報と、類似クラスIDとが記憶される。このため、類似文字列情報が候補データに含まれた場合においても、容易に排除することができる。また、方言や数字等の僅かに異なる音声であっても、同一の内容として認識させることができる。これらにより、認識精度のさらなる向上を図ることが可能となる。
【0026】
第8発明によれば、抽出部は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出部は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
【0027】
また、第8発明によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
【図面の簡単な説明】
【0028】
図1図1は、本実施形態における音声認識システムの構成の一例を示す模式図である。
図2図2(a)は、本実施形態における音声認識装置の構成の一例を示す模式図であり、図2(b)は、本実施形態における音声認識装置の機能の一例を示す模式図であり、図2(c)は、本実施形態における生成部の一例を示す模式図である。
図3図3は、本実施形態における音声認識装置の各機能の一例を示す模式図である。
図4図4は、文字列データベース、文法データベース、及び参照データベースの一例を示す模式図である。
図5図5(a)は、本実施形態における音声認識システムの動作の一例を示すフローチャートであり、図5(b)は、生成手段の一例を示すフローチャートであり、図5(c)は、反映手段の一例を示すフローチャートである。
図6図6は、更新手段の一例を示す模式図である。
図7図7(a)は、更新手段の一例を示すフローチャートであり、図7(b)は、設定手段の一例を示すフローチャートである。
図8図8は、設定手段の一例を示す模式図である。
図9図9(a)及び図9(b)は、設定手段の他の例を示す模式図である。
図10図10は、条件情報の一例を示す模式図である。
図11図11は、文字列データベース及び参照データベースの変形例を示す模式図である。
図12図12は、参照データベースの変形例を示す模式図である。
【発明を実施するための形態】
【0029】
以下、本発明の実施形態における音声認識システム及び音声認識装置の一例について、図面を参照しながら説明する。
【0030】
(音声認識システム100の構成)
図1図4を参照して、本実施形態における音声認識システム100の構成の一例について説明する。図1は、本実施形態における音声認識システム100の全体の構成を示す模式図である。
【0031】
音声認識システム100は、利用者の用途に応じて構築された文字列データベース及び文法データベースを参照し、利用者の音声に対応する認識情報を生成する。文字列データベースには、利用者が発すると想定される文字列(文字列情報)と、文字列に対応する音素(音素情報)が記憶される。このため、上記文字列及び音素を蓄積することで用途に応じた認識情報を生成でき、様々な用途に展開することが可能となる。
【0032】
特に、文字列データベースに記憶される音素の配列(音素情報)は、音声に含まれる休止区間を踏まえて分類することで、音声に対する認識情報の精度を飛躍的に向上させることが可能となることを、発明者が発見した。また、音声認識システム100では、例えば文字列データベースに記憶された文字列情報に限定して、音声に対する認識情報を生成する。このため、用途毎に文法データベースの内容を変更することで、用途に適した認識情報を高精度に生成することが可能となる。
【0033】
文法データベースには、文字列情報を組み合わせたセンテンスを生成するために必要な文法情報が記憶される。文法情報は、文字列情報毎に紐づくクラスIDの配列順序を示す情報を複数含む。文法データベースを参照することで、休止区間を踏まえて分類された音素の配列に基づいて文字列情報を検出したあと、容易に各文字列情報を組み合わせることができる。これにより、音声に対する文法を考慮した認識情報を生成することができる。この結果、利用者等の発する音声の内容を踏まえた音声認識を高精度に実現することが可能となる。
【0034】
図1に示すように、音声認識システム100は、音声認識装置1を備える。音声認識システム100では、例えば収音装置2等を用いて利用者等の音声を収音し、音声認識装置1を用いて音声に対応する認識情報を生成する。認識情報は、音声を文字列に変換したテキストデータ等のほか、例えば制御装置3等を制御する情報や、利用者に返答するための音声情報等を含む。
【0035】
音声認識システム100では、音声認識装置1に対して、収音装置2や制御装置3が直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。また、音声認識装置1に対して、例えば公衆通信網4を介して、サーバ5や利用者等の保有するユーザ端末6が、公衆通信網4を介して接続されてもよい。なお、音声認識装置1には、収音装置2及び制御装置3の少なくとも何れかが一体に形成されてもよい。
【0036】
<音声認識装置1>
図2(a)は、音声認識装置1の構成の一例を示す模式図である。音声認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等の電子機器が用いられてもよい。音声認識装置1は、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0037】
CPU101は、音声認識装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、文字列データベース等の各種情報が保存される。保存部104として、例えばSDメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等が用いられる。
【0038】
I/F105は、収音装置2、制御装置3、公衆通信網4等との各種情報の送受信を行うためのインターフェースである。I/F106は、用途に応じて接続される入力部分108との各種情報の送受信を行うためのインターフェースである。入力部分108として、例えばキーボードが用いられ、音声認識システム100の管理等を行う利用者等は、入力部分108を介して、各種情報又は音声認識装置1の制御コマンド等を入力又は選択する。I/F107は、用途に応じて接続される出力部分109との各種情報の送受信を行うためのインターフェースである。出力部分109は、保存部104に保存された各種情報、認識情報、音声認識装置1の処理状況等を出力する。出力部分109として、ディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、出力部分109が入力部分108を含む構成としてもよい。なお、I/F105~I/F107は、例えば同一のものが用いられてもよい。また、入力部分108及び出力部分109の少なくとも何れかは、状況に応じて取り外されてもよい。
【0039】
図2(b)は、音声認識装置1の機能の一例を示す模式図である。音声認識装置1は、取得部11と、抽出部12と、記憶部13と、検出部14と、算出部15と、選択部16と、生成部17と、出力部18とを備える。音声認識装置1は、例えば反映部19を備えてもよい。なお、図2(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。また、各機能の一部は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて実現し、各種データの抽出や生成等の処理を行ってもよい。また、各機能の一部は、人工知能により制御されてもよい。ここで、「人工知能」は、いかなる周知の人工知能技術に基づくものであってもよい。
【0040】
<取得部11>
取得部11は、少なくとも1つの音声データを取得する。取得部11は、例えば収音装置2等を用いて収音した音声(音声信号)に対し、PCM(pulse code modulation)等のパルス変調したデータを、音声データとして取得する。取得部11は、収音装置2の種類に応じて、例えば複数の音声データを一度に取得してもよい。なお、音声信号をパルス変調する処理は、収音装置2等により行われるほか、例えば取得部11により行われてもよい。
【0041】
取得部11は、例えば同時に複数の音声データを取得してもよい。この場合、音声認識装置1に対して、収音装置2が複数接続されるほか、複数の音声を同時に収音できる収音装置2が接続されてもよい。なお、取得部11は、音声データのほか、例えばI/F105、I/F106を介して各種情報(データ)を収音装置2等から取得する。
【0042】
<抽出部12>
抽出部12は、音素認識により、音声データに含まれる開始無音区間及び終了無音区間を抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。すなわち、抽出部12の基本的な機能は、音素認識技術を用いることにより実現することができる。
【0043】
抽出部12は、例えば100ミリ秒以上1秒以下の非発話状態(無音区間)を、開始無音区間及び終了無音区間として抽出する。抽出部12は、開始無音区間と終了無音区間との間に挟まれた区間(音声区間)に対し、音素及び休止区間を割り当てる。抽出部12は、それぞれ割り当てられた音素及び休止区間の配列を、認識対象データとして抽出する。
【0044】
音素は、母音と、子音とを含む公知のものである。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。抽出部12は、例えば各音素の長さ又は認識対象データ全体の長さを判定したあと、休止区間の長さを設定した上で、音素及び休止区間を割り当てた配列を、認識対象データとして抽出してもよい。すなわち、抽出部12は、音素の長さ又は認識対象データ全体の長さに応じて、休止区間の長さを設定してもよい。
【0045】
抽出部12は、例えば図3に示すように、開始無音区間「silB」及び終了無音区間「silE」を抽出し、音声区間における配列「a/k/a/r/i/*/w/o/*/ts/u/k/e/t/e」(*は休止区間を示す)を、対象認識データとして抽出する。抽出部12は、例えば1つの音声データからそれぞれ異なる配列の対象認識データを複数抽出してもよい。この場合、抽出部12における音素及び休止区間の割り当てに伴うバラつきを考慮した音声認識を実施することができる。例えば抽出部12は、1つ以上5つ以下の対象認識データを抽出することで、処理時間を抑えた上で、認識精度を高めることができる。なお、抽出部12は、例えば開始無音区間及び終了無音区間の少なくとも何れかを含む配列を、対象認識データとして抽出してもよい。
【0046】
休止区間は、例えば呼吸音及びリップノイズの少なくとも何れかを含んでもよい。すなわち、抽出部12は、例えば休止区間に含まれる呼吸音及びリップノイズの少なくとも何れかを、認識対象データとして抽出してもよい。この場合、後述する文字列データベースに記憶された音素情報に、呼吸音及びリップノイズの少なくとも何れかを含ませることで、より精度の高い認識情報を生成することが可能となる。
【0047】
<記憶部13、データベース>
記憶部13は、各種データを保存部104に記憶させ、又は各種データを保存部104から取出す。記憶部13は、必要に応じて保存部104に記憶された各種データベースを取出す。
【0048】
保存部104には、例えば図4に示すように、文字列データベース及び文法データベースが記憶され、例えば参照データベースが記憶されてもよい。
【0049】
文字列データベースには、予め取得された文字列情報と、文字列情報に紐づく音素情報と、文字列情報に付与されたクラスIDとが記憶される。文字列データベースは、検出部14によって候補データを検出するときに用いられる。
【0050】
音素情報は、利用者が発すると想定される音素の配列(例えば第1音素情報「a/k/a/r/i」等)を複数含む。音素の配列は、休止区間により分離される区間に対応するほか、例えば「h/i/*/i/t/e」のように休止区間を含んでもよく、利用条件に応じて任意に設定される。なお、音素情報は、例えば開始無音区間及び終了無音区間の少なくとも何れかを含んでもよい。
【0051】
文字列情報は、各音素の配列に紐づく文字列(例えば第1文字列情報「明かり」等)を含む。このため、文字列情報には、単語や形態素等の意味を持つ表現要素が用いられるほか、意味を持たない文字列が用いられてもよい。なお、文字列情報は、日本語のほか、例えば2ヵ国以上の言語を含んでもよく、数字や利用箇所で用いられる略称等の文字列を含んでもよい。また、同一の文字列情報に対して、異なる音素の配列が紐づけられてもよい。
【0052】
クラスIDは、文字列情報に紐づき、文字列情報の単語等が文法上用いられると想定される配列箇所(例えば第1クラスID「1」等)を示す。例えば音声の文法(センテンス)が「対象」+「助詞」+「アクション」として表すことができる場合、クラスIDとして、音声の「対象」となる文字列情報に対して「1」が用いられ、音声の「助詞」となる文字列情報に対して「2」が用いられ、音声の「アクション」となる文字列情報に対して「3」が用いられる。
【0053】
文法データベースには、予め取得された複数のクラスIDの配列順序を示す文法情報が記憶される。文法データベースは、算出部15によって信頼度を算出するときに用いられる。文法情報として、例えば第1文法情報「1、2、3」が用いられる場合、音声の候補として「対象」+「助詞」+「アクション」を示すセンテンスを生成することができる。文法情報は、例えば第1文法情報「1、2、3」、第2文法情報「4、5、6」、第3文法情報「2、1、3」等のクラスIDの配列順序を複数含む。
【0054】
参照データベースには、予め取得された文字列情報と、文字列を組み合わせた参照センテンスと、文字列情報毎に付与された閾値とが記憶され、例えば文字列情報に紐づく音素情報が記憶されてもよい。参照データベースは、生成部17によって認識情報を生成するときに、必要に応じて用いられる。なお、参照データベースに記憶される文字列情報及び音素情報は、例えば文字列データベースに記憶される文字列情報及び音素情報と等しくすることで、データ容量を少なくすることができる。
【0055】
<検出部14>
検出部14は、文字列データベースを参照し、認識対象データの有する音素の配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。
【0056】
検出部14は、例えば図3に示すように、認識対象データに対応する音素情報「a/k/a/r/i」、「w/o」、「ts/u/k/e/t/e」を選択し、各音素情報に紐づく文字列情報及びクラスID「明かり/1」、「を/2」、「つけて/3」を、それぞれ候補データとして検出する。このとき、認識対象データの数に応じて、候補データの数が増加する。なお、各音素の配列は、予め休止区間毎に区切られて分類されるほか、音素及び休止区間を含む音素情報に基づいて分類されてもよい。
【0057】
<算出部15>
算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎の文字列情報に対する信頼度を、文法データベースを用いて算出する。信頼度の算出には、例えば文法データベースを参照したスタックデコーディングサーチが行われる。
【0058】
算出部15は、例えば図3に示すように、第1文法情報「1、2、3」に含まれるクラスID毎に、各候補データ「明かり/1」、「を/2」、「つけて/3」のクラスIDを対応させ、センテンス「明かり/1」「を/2」「つけて/3」を生成する。このとき、例えば文法情報が「3、1、2」の場合、センテンスとして「つけて/3」「明かり/1」「を/2」が生成される。
【0059】
算出部15は、センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」、に対応する信頼度「0.982」、「1.000」、「0.990」を算出する。算出部15は、各候補データの文字列情報に対して0.000以上1.000以下の範囲で信頼度を算出する。
【0060】
算出部15は、例えば各センテンスに対して、優先度を示すランクを設定(図3ではランク1~ランク5)してもよい。ランクを設定することで、任意のランク下位にランク付けされたセンテンス(例えばランク6以下)を、評価対象から除外することができる。このため、後述する評価データとして選択される候補データの数を減らすことができ、処理速度の向上を図ることが可能となる。
【0061】
算出部15は、例えば内容の異なるセンテンスに同一の候補データが含まれる場合、各候補データにはそれぞれ異なる信頼度を算出してもよい。例えば、第1センテンスに含まれる各候補データ「明かり/1」、「を/2」、「つけて/3」に対応する信頼度「0.982」、「1.000」、「0.990」が算出された場合、第2センテンスに含まれる各候補データ「明かり/1」、「を/2」、「弾いて/3」に対応する信頼度「0.942」、「1.000」、「0.023」が算出される。すなわち、同一の候補データ「明かり」であっても、センテンスの内容や組み合わせの順序によって、異なる信頼度が算出されてもよい。
【0062】
例えば信頼度として、各文字列情報に対して予め設定された値が用いられてもよい。この場合、予め設定された値は、例えば文法データベースに記憶される。上記のほか、例えば信頼度として、検出部14において検出された候補データ(又は候補データの文字列情報)の種類及び数に応じた相対値が用いられてもよい。例えば検出部14において検出された複数の候補データにおいて、1つのクラスIDが付与された文字列情報の種類が多くなるにつれて、各文字列情報に対して低い信頼度を算出するようにしてもよい。
【0063】
<選択部16>
選択部16は、信頼度に基づき、複数の候補データから評価データを選択する。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。例えば選択部16は、同じクラスID「3」における候補データ「つけて/3/0.990」、「弾いて/3/0.023」のうち、最も高い信頼度を有する候補データ「つけて/3/0.990」を評価データとして選択する。なお、選択部16は、例えば1つのクラスIDに対して複数の候補データを、評価データとして選択してもよい。この場合、後述する生成部17において、複数の候補データから1つ選択するようにしてもよい。
【0064】
<生成部17>
生成部17は、評価データに基づき、認識情報を生成する。生成部17は、例えば評価データをテキスト形式に変換し、認識情報として生成するほか、例えば評価データを音声データ形式や、制御装置3を制御するための制御データ形式に変換し、認識情報として生成してもよい。すなわち、認識情報は、制御装置3を制御するための情報(例えば車両の走行速度を制御するための情報)を含む。なお、評価データに基づくテキスト形式、音声データ形式、又は制御データ形式に変換する方法は、公知の技術を用いることができ、必要に応じて各データ形式を蓄積したデータベース等を用いてもよい。
【0065】
生成部17は、例えば指定部17aと、比較部17bとを有してもよい。指定部17aは、参照データベースを参照し、参照センテンスのうち、評価データに対応する第1参照センテンスを指定する。指定部17aは、例えば評価データとして「明かり/1」、「を/2」、「つけて/3」が選択された場合、図4に示す第1参照センテンスを指定する。この場合、第1参照センテンスに含まれる各文字列情報(第1文字列情報)として、評価データに含まれる候補データと等しい文字列が指定される。
【0066】
比較部17bは、評価データに対応する信頼度と、第1文字列情報に付与された閾値(第1閾値)とを比較する。比較部17bは、例えば評価データ「明かり」、「を」、「つけて」の信頼度「0.982」、「1.000」、「0.990」が、第1文字列情報「明かり」、「を」、「つけて」の第1閾値「0.800」、「0.900」、「0.880」以上か否かを比較する。この場合、生成部17は、比較結果に基づいて認識情報を生成する。例えば信頼度が第1閾値以上の場合に、生成部17が認識情報を生成してもよい。例えば信頼度が第1閾値以上の場合と、第1閾値未満の場合とに応じて、生成部17が異なる生成情報を生成してもよい。
【0067】
<出力部18>
出力部18は、認識情報を出力する。出力部18は、I/F105を介して制御装置3等に認識情報を出力する。出力部18は、例えばI/F107を介して出力部分109に認識情報を出力してもよい。出力部18は、認識情報のほか、例えばI/F105、I/F107を介して各種情報(データ)を制御装置3等に出力する。
【0068】
<反映部19>
反映部19は、認識情報を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させる。反映部19は、例えば認識情報に対して評価結果が悪い場合(すなわち、音声データに対して得られる認識情報が、利用者等の要求と乖離している場合)、閾値を変更させることで、認識情報の改善を図る。このとき、例えば公知の機械学習方法等を用いて、評価結果を閾値に反映させてもよい。
【0069】
<収音装置2>
収音装置2は、公知のマイクに加え、例えばDSP(digital signal processor)を有してもよい。収音装置2がDSPを有する場合、収音装置2は、マイクによって収音した音声信号に対しPCM等のパルス変調したデータ(音声データ)を生成し、音声認識装置1に送信する。
【0070】
収音装置2は、例えば音声認識装置1と直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。なお、収音装置2がマイクのみを有する場合、音声認識装置1がパルス変調したデータを生成してもよい。
【0071】
<制御装置3>
制御装置3は、認識情報を音声認識装置1から受信して制御可能な装置を示す。制御装置3として、例えばLED等の照明装置が用いられるほか、例えば車載装置(例えば車両の走行速度を制御するため、ブレーキ系統に直結する装置)、表示言語を変更できる自動販売機、施錠装置、オーディオ機器、マッサージ機等が用いられる。制御装置3は、例えば音声認識装置1と直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。
【0072】
<公衆通信網4>
公衆通信網4は、音声認識装置1が通信回路を介して接続されるインターネット網等である。公衆通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、公衆通信網4は、有線通信網には限定されず、無線通信網等の公知の通信網で実現してもよい。
【0073】
<サーバ5>
サーバ5には、上述した各種情報が記憶される。サーバ5には、例えば公衆通信網4を介して送られてきた各種情報が蓄積される。サーバ5には、例えば保存部104と同様の情報が記憶され、公衆通信網4を介して音声認識装置1と各種情報の送受信が行われてもよい。すなわち、音声認識装置1は、保存部104の代わりにサーバ5を用いてもよい。特に、サーバ5に上述した各データベースが保存され、音声認識装置1には、サーバ5に記憶された各データベースの少なくとも一部が保存されるようにしてもよい。この場合、サーバ5を用いて音声認識装置1に保存された各データベースを適宜更新することで、音声認識装置1における更新機能や蓄積するデータ容量を最小限に抑えることができる。このため、音声認識装置1を公衆通信網4に常時接続しない状態で利用することができ、更新が必要な場合のみ公衆通信網4に接続するように用いることができる。これにより、音声認識装置1の利用先を大幅に拡大させることができる。
【0074】
<ユーザ端末6>
ユーザ端末6は、例えば音声認識システム100の利用者等が保有する端末を示す。ユーザ端末6として、主に携帯電話(携帯端末)が用いられ、それ以外ではスマートフォン、タブレット型端末、ウェアラブル端末、パーソナルコンピュータ、IoT(Internet of Things)デバイス等の電子機器のほか、あらゆる電子機器で具現化されたものが用いられてもよい。ユーザ端末6は、例えば公衆通信網4を介して音声認識装置1と接続されるほか、例えば音声認識装置1と直接接続されてもよい。利用者等は、例えばユーザ端末6を介して音声認識装置1から認識情報を取得するほか、例えば収音装置2の代わりにユーザ端末6を用いて音声を収音させてもよい。
【0075】
(音声認識システム100の動作の一例)
次に、本実施形態における音声認識システム100の動作の一例について説明する。図5(a)は、本実施形態における音声認識システム100の動作の一例を示すフローチャートである。
【0076】
<取得手段S110>
先ず、音声データを取得する(取得手段S110)。取得部11は、収音装置2等により収音された音声に基づき、音声データを取得する。取得部11は、例えば記憶部13を介して保存部104に音声データを保存する。
【0077】
<抽出手段S120>
次に、認識対象データを抽出する(抽出手段S120)。抽出部12は、例えば記憶部13を介して保存部104から音声データを取出し、音声データに含まれる開始無音区間及び終了無音区間を、音素認識により抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。抽出部12は、例えば記憶部13を介して保存部104に認識対象データを保存する。なお、抽出部12は、一度に複数の音声データを取得してもよい。
【0078】
抽出部12は、例えば1つの音声データから複数の認識データを抽出する。このとき、複数の認識データは、それぞれ異なる音素及び休止区間の配列を有する(例えば図3の配列A~配列C)。抽出部12は、例えばそれぞれ異なる条件を設定するほか、例えば同一条件で設定したときにおけるバラつきの範囲内で、複数の認識データを抽出する。
【0079】
なお、例えば休止区間が呼吸音及びリップノイズの少なくとも何れかを含むとき、抽出部12は、呼吸音及びリップノイズの少なくとも何れかを含む配列を、認識対象データとして抽出してもよい。
【0080】
<検出手段S130>
次に、認識対象データに基づき、候補データを検出する(検出手段S130)。検出部14は、例えば記憶部13を介して保存部104から認識対象データを取出す。検出部14は、文字列データベースを参照し、認識対象データの有する配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。検出部14は、例えば記憶部13を介して保存部104に候補データを保存する。なお、認識対象データの有する配列は、例えば一対の休止区間の間における音素の配列を示し、一対の休止区間の間に他の休止区間が配列されてもよい。
【0081】
<算出手段S140>
次に、各候補データに対応する信頼度を算出する(算出手段S140)。算出部15は、例えば記憶部13を介して保存部104から候補データを取出す。算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎に対応する信頼度を算出する。算出部15は、例えば記憶部13を介して保存部104に各候補データ及び信頼度を保存する。算出部15として、例えばJulius等の公知の音声認識エンジンが用いられることで、センテンスの生成及び信頼度の算出が実現されてもよい。
【0082】
算出部15は、文法データベースの文法情報の種類に応じて、複数のセンテンスを生成することができる。また、算出部15は、文法情報の種類を選択することで、状況に適した音声認識を高精度で実施することができる。
【0083】
<選択手段S150>
次に、信頼度に基づき、評価データを選択する(選択手段S150)。選択部16は、例えば記憶部13を介して保存部104から候補データ及び信頼度を取出す。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。選択部16は、例えば記憶部13を介して保存部104に評価データを保存する。
【0084】
<生成手段S160>
次に、評価データに基づき、認識情報を生成する(生成手段S160)。生成部17は、例えば記憶部13を介して保存部104から評価データを取出す。生成部17は、例えば上述した公知の技術を用いて評価データを任意のデータに変換し、認識情報として生成する。
【0085】
生成手段S160は、例えば図5(b)に示すように、指定手段S161と、比較手段S162とを有してもよい。
【0086】
指定手段S161は、評価データに対応する第1参照センテンスを指定する。指定部17aは、参照データベースを参照し、参照センテンスのうち、評価データに対応する第1参照センテンスを指定する。
【0087】
比較手段S162は、評価データに対応する信頼度と、第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する。比較部17bは、例えば図3に示すように、評価データの信頼度が第1閾値以上の場合に、認識が正しいと判断してもよい。この後、比較部17bの判断(比較結果)に基づき、認識情報が生成される。なお、比較部17bにおいて評価データの信頼度が第1閾値未満となり、認識が誤っていると判断した場合、そのまま終了するか、抽出手段S120から再度実施するほか、例えば利用者等に再度音声を発するように促す認識情報を生成してもよい。
【0088】
<出力手段S170>
その後、必要に応じて認識情報を出力する(出力手段S170)。出力部18は、I/F107を介して出力部分109に認識情報を表示するほか、例えばI/F105を介して制御装置3等を制御するための認識情報を出力する。
【0089】
<反映手段S180>
なお、例えば認識情報を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させてもよい(反映手段S180)。この場合、反映部19は、取得部11を介して利用者等が作成した評価結果を取得する。反映部19は、評価結果に含まれる評価値等に基づき、比較手段S162における比較の結果が改善(認識精度が向上)するように、閾値を変更する。
【0090】
なお、反映部19は、例えば参照データベースのほか、文字列データベース及び文法データベースの少なくとも何れかに評価結果を反映させてもよい。また、算出部15が評価結果に基づき、信頼度の算出に反映させてもよい。
【0091】
これにより、本実施形態における音声認識システム100の動作が終了する。
【0092】
本実施形態における音声認識システム100によれば、抽出手段S120は、音素及び休止区間の配列を認識対象データとして抽出する。また、検出手段S130は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出する。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
【0093】
また、認識精度の向上が可能となるため、精度向上のために用いられる事前音声入力を実施する必要がない。ここで、事前音声入力とは、音声データを取得する前に、音声認識を開始させるための音声を示す。事前音声入力を用いることで、認識精度を向上させることができる一方で、利便性の低下に影響する懸念が挙げられる。この点、本実施形態における音声認識システム100によれば、事前音声入力を実施しないことで、利便性の向上を実現させることが可能となる。
【0094】
なお、本実施形態における音声認識システム100によれば、必要に応じて事前音声入力を実施してもよい。これにより、認識精度のさらなる向上を図ることが可能となる。
【0095】
また、本実施形態における音声認識システム100によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶される。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
【0096】
特に、音声認識システム100の利用される環境を踏まえて、文字列データベースに記憶される文字列情報を選択することで、データ容量の削減ができ、例えば公衆通信網4に接続する必要がなく、利用の幅を広げることができる。また、音声データの取得から認識情報を生成するまでの時間を大幅に短縮することができる。
【0097】
また、本実施形態における音声認識システム100によれば、抽出手段S120は、1つの音声データから複数の認識対象データを抽出する。このため、音素及び休止区間の配列にバラつきが発生するような音声データを取得した場合においても、認識精度の低下を抑制することができる。これにより、認識精度のさらなる向上が可能となる。
【0098】
また、本実施形態における音声認識システム100によれば、算出手段S140は、センテンスを複数生成する。すなわち、候補データを組み合わせるパターンが複数存在する場合においても、全てのパターンに対応するセンテンスを生成することができる。このため、例えばパターンマッチングの探索方法等に比べて、誤認識を低減させることができる。これにより、認識精度のさらなる向上が可能となる。
【0099】
また、本実施形態における音声認識システム100によれば、比較手段S162は、信頼度と、第1閾値とを比較する。このため、複数の候補データから相対的に選択された評価データに対し、閾値による判定も行うことで、誤認識をさらに低減させることができる。これにより、認識精度のさらなる向上が可能となる。
【0100】
また、本実施形態における音声認識システム100によれば、反映手段S180は、評価結果を閾値に反映させてもよい。このため、認識情報が、利用者の認識と乖離している場合、容易に改善を実施することができる。これにより、持続的な認識精度の向上を実現することができる。
【0101】
また、本実施形態における音声認識システム100によれば、出力手段S170は、認識情報を出力してもよい。上記の通り、本実施形態における音声認識システム100は、従来のシステムに比べて精度の高い認識情報を生成することができる。このため、認識情報に基づいて制御装置3等の制御を実施する場合、制御装置3等の誤作動を大幅に抑制することができる。例えば車両のブレーキを制御するために音声認識システム100を用いた場合においても、通常の走行に支障を与えない程度の精度を実現し得る。すなわち、認識精度の向上に伴い、利用者の運転補助等として用いることができる。これにより、幅広い用途への応用が可能となる。
【0102】
また、本実施形態における音声認識システム100によれば、休止区間は、呼吸音及びリップノイズの少なくとも何れかを含んでもよい。このため、音素のみでは判断し難い音声データの差異に対しても容易に判断でき、認識対象データを抽出することができる。これにより、認識精度のさらなる向上を図ることが可能となる。
【0103】
本実施形態における音声認識装置1によれば、抽出部12は、音素及び休止区間の配列を認識対象データとして抽出してもよい。また、検出部14は、認識対象データの有する配列に対応する音素情報を選択し、候補データを検出してもよい。このため、認識対象データにおける音素のみを考慮した配列に対して候補データを検出する場合に比べ、誤認識を低減させることができる。これにより、認識精度の向上を図ることが可能となる。
【0104】
また、本実施形態における音声認識装置1によれば、文字列データベースには、音素と休止区間との配列に対応する音素情報、及び音素情報に紐づく文字列情報が記憶されてもよい。このため、音素全体に対してパターンマッチングするために記憶するデータに比べて、データ容量の削減や、データ蓄積の簡易化を実現することができる。
【0105】
(音声認識システム100の構成の第1変形例)
次に、本実施形態における音声認識システム100の第1変形例について説明する。上述した実施形態と、第1変形例との違いは、生成部17が更新部17cを有する点である。なお、上述した構成と同様の構成については、説明を省略する。
【0106】
生成部17の有する更新部17cは、例えば図6に示すように、候補データ及び信頼度に基づき、参照データベースに記憶された閾値を更新する。すなわち、候補データ及び信頼度の内容に応じた値に、閾値を更新することができる。
【0107】
更新部17cは、例えば各クラスIDに紐づく複数の信頼度の平均値を算出する。更新部17cは、算出した平均値に基づき閾値を更新する。
【0108】
閾値を更新する場合、算出された平均値が閾値として用いられるほか、予め設定された係数を平均値にかけ合わせた値が、更新後の閾値として用いられてもよい。また、更新前の閾値に対して、係数を平均値にかけ合わせた値を四則演算した結果の値を更新後の閾値として用いられてもよい。
【0109】
候補データ及び信頼度の内容に基づき閾値を更新することで、例えば音声データにノイズ等が含まれ易い場合においても、音声データの品質に応じた閾値を設定することができる。また、1つのクラスIDに紐づく文字列情報が多数検出され、各文字列情報の信頼度が低い場合においても、全ての信頼度が閾値未満になることを防ぐことができる。
【0110】
更新部17cは、例えば各クラスIDに紐づく複数の信頼度のうち、最も低い信頼度を除いた平均値を算出してもよい。この場合、更新後の閾値は、更新前の閾値に比べて高くなる傾向を示す。これにより、誤認識を低減させることが可能となる。
【0111】
更新部17cは、例えば各クラスIDに紐づく複数の信頼度のうち、最も低い信頼度及び最も高い信頼度を除いた平均値を算出してもよい。この場合、更新後の閾値は、更新前の閾値に比べて低くなる傾向を示す。これにより、認識率を向上させることができる。また、更新前後における閾値の変動を抑制することができる。
【0112】
(音声認識システム100の動作の第1変形例)
次に本実施形態における音声認識システム100の第1変形例について説明する。図7(a)は、第1変形例における更新手段S163の一例を示すフローチャートである。
【0113】
図7(a)に示すように、上述した選択手段S150を実施したあと、複数の候補データ、及び複数の信頼度に基づき、参照データベースに記憶された閾値を更新する(更新手段S163)。更新部17cは、例えば記憶部13を介して保存部104から候補データ、信頼度、及び参照データベースを取出す。
【0114】
更新部17cは、例えば図6に示すように、ランク1、2、4に含まれるクラスID「1」に紐づく複数の信頼度「0.982」、「0.942」、「0.897」の平均値「0.940」を算出する。その後、更新部17cは、例えば算出した平均値に係数(例えば0.9)をかけ合わせた値「0.846」を、更新後の閾値として用いる。
【0115】
その後、上述した指定手段S161等を実施し、本実施形態における音声認識システム100の動作が終了する。
【0116】
本変形例によれば、更新手段S163における更新部17cは、候補データ及び信頼度に基づき、閾値を更新する。このため、予め設定された閾値を常に用いる場合に比べて、取得する音声データにおける品質に応じた認識情報を生成することができる。これにより、利用できる環境の幅を広げることが可能となる。
【0117】
(音声認識システム100の動作の第2変形例)
次に本実施形態における音声認識システム100の第2変形例について説明する。上述した実施形態と、第2変形例との違いは、設定手段S190を備える点である。なお、上述した構成と同様の構成については、説明を省略する。
【0118】
設定手段S190は、例えば図7(b)に示すように、生成手段S160の後に実施される。設定手段S190は、認識情報に基づき、検出手段S130、算出手段S140、及び指定手段S161の少なくとも何れかにおいて、参照する各データベースの内容を選択する。設定手段S190の実施後、上述した出力手段S170や、取得手段S110等が適宜実施される。例えば生成手段S160において、生成部17は、生成した認識情報に基づき、検出部14が参照する文字列データベースの内容を選択する。文字列データベースの内容が選択されることで、特定の状況に応じた音声のみを認識することができる。これにより、認識精度をさらに向上させることが可能となる。
【0119】
ここで、「文字列データベースの内容」とは、文字列データベースに記憶された文字列情報、クラスID、及び音素情報を示す。また、「内容を選択」とは、認識情報に基づいて、文字列データベースに記憶された文字列情報、クラスID、及び音素情報のうち、一部を選択することを示す。他のデータベースの内容についても同様である。
【0120】
なお、「特定の状況」とは、例えば音楽を再生するための音声データを認識する状況(例えば、曲名や曲番号等のみを認識するミュージックモード)等を示す。例えばミュージックモードでは、曲名や曲番号等のような特定の音声を認識する必要があり、他の音声を認識する必要がない。このため、通常の文字列データベースを用いた場合では、特定の音声が他の音声と同様に評価されるため、認識できる可能性が著しく低下する事情がある。これに対し、本実施形態によれば、設定手段S190において文字列データベース等の内容を選択することができ、特定の音声に対する認識精度を向上させることが可能となる。
【0121】
また、「特定の状況」とは、例えば音声を認識する順序が必要な状況(例えば起動モード)等を示す。例えば起動モードでは、音声を認識する順序によって、音声認識装置1から得られる情報を変える必要がある。このため、通常の文字列データベースを用いた場合では、順序を認識できない、又は、順序を含む長い文字列等を記憶させる必要があり、汎用的な利用に向かない事情がある。これに対し、本実施形態によれば、設定手段S190において、認識した音声の順序に応じて文字列データベース等の内容を選択することができる。このため、文字列データベースに記憶させるデータ容量を最小限に抑えることができ、汎用的な利用を実現することが可能となる。
【0122】
文字列データベースには、文字列情報、音素情報、及びクラスIDが、認識情報の内容に応じて選択できる状態で記憶される。また、文法データベースには、文法情報が、認識情報の内容に応じて選択できる状態で記憶される。例えば認識情報の内容が「ミュージックモードの設定」に関する情報の場合、文字列データベースに記憶された情報のうち、曲名や曲番号に限定した文字列情報等が選択されるようにでき、文法データベースに記憶された情報のうち、文字列データベースにおいて選択されたクラスIDの配列順序を示す文法情報が選択されるようにできる。また、選択された文字列データベース及び文法データベースに応じて、参照データベースに記憶された内容が選択されるようにできる。
【0123】
例えば設定手段S190において、生成部17は、評価データに基づき生成された認識情報(例えばミュージックモードに関する情報)に基づき、検出部14が参照する文字列データベースの内容を選択する。その後、取得手段S110及び抽出手段S120を実施して認識対象データを抽出した後、検出手段S130において、検出部14は、文字列データベースのうち、「ミュージックモード」に特化した音素情報、文字列情報、及びクラスIDを選択して参照する。このため、設定手段S190を実施しない場合に比べて、特定の内容に対する音素情報等に限定することができる。これにより、認識精度を飛躍的に向上させることが可能となる。
【0124】
例えば設定手段S190では、認識情報の内容毎に異なるクラスIDを選択してもよい。文字列データベースには、例えばクラスID「1~10」、各クラスIDが付与された文字列情報、及び文字列情報に紐づく音素情報が記憶され、そのうち曲名や曲番号に関する文字列情報には、クラスID「5~10」を付与して記憶される。この場合、設定手段S190において、「ミュージックモードの設定」に関する認識情報が生成された場合、設定手段S190においてクラスID「5~10」を選択することで、クラスID「5~10」が付与された曲名に関する文字列情報のみを、検出手段S130で検出することができる。
【0125】
なお、例えば設定手段S190において、生成部17は、認識情報に基づき、算出部15が参照する文法データベースの内容、及び、指定部17aが参照する参照データベースの内容を選択してもよい。この場合、上述した検出手段S130と同様に、算出手段S140において、算出部15は、文法データベースのうち、「ミュージックモード」に特化したセンテンスの生成、及びセンテンスに含まれる候補データ毎に対応する信頼度を算出することができる。また、指定手段S161において、指定部17aは、参照データベースのうち、「ミュージックモード」に特化した第1参照センテンスを指定することができる。これにより、特定の状態に応じた音声のみを認識することができ、認識精度を飛躍的に向上させることが可能となる。
【0126】
例えば図8に示すように、本実施形態における音声認識システム100において、特定の音声データ(起動ワード)を予めデータベースに記憶させ、起動ワードを認識したときに、設定手段S190が実施されるようにしてもよい。例えば特定の音声データ(図8では起動ワードA)を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースAを選択する。これにより、検出手段S130において、検出部14は、文字列データベースAを参照して候補データを検出する。このため、設定手段S190を実施する前に比べて、認識する音声データの種類を限定することができる。
【0127】
なお、例えば図8の文字列データベースAに示すように、文字列データベースが特定の音声データを複数記憶してもよい(図8では起動ワードB-1、起動ワードB-2)。この場合、認識した特定の音声データに応じて、選択される文字列データベースの内容を変えることができる。
【0128】
例えば図8では、文字列データベースAを参照して起動ワードB-1を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースB-1を選択する。また、起動ワードB-2を認識した場合、設定手段S190において、生成部17は、認識情報に基づき、文字列データベースに含まれる文字列データベースB-2を選択する。このように、複数の起動ワードを用いることにより、認識精度の低下を抑制した状態で、認識できる音声の種類を増加させることが可能となる。
【0129】
また、例えば設定手段S190において文字列データベースを選択したあと、一定期間に取得手段S110が実施されない場合、文字列データベースの選択を解除してもよい。この場合、一定期間経過後に取得手段S110が実施される際、選択前の文字列データベースを参照して検出手段S130が実施される。このため、誤って発した音声を認識した場合や、誤認識した場合におけるやり直しを円滑に実施することができる。なお、文字列データベースの選択を解除する起動ワードを設定し、予め文字列データベースに記憶してもよい。
【0130】
なお、設定手段S190において各データベースの内容を選択したあと、例えば出力手段S170において、出力部18が各データベースの内容を選択(変更)した旨の情報(例えば後述する報知情報)を出力するようにしてもよい。
【0131】
本実施形態における音声認識システム100において、例えば図9に示すように、設定手段S190は、選択された文字列データベースの内容に基づく報知情報を生成してもよい。この場合、出力手段S170により報知情報を出力する。報知情報は、例えば各データベース又は保存部104に保存された報知用の定型文字列等のデータに基づき生成される。
【0132】
報知情報は、例えば認識した内容の成否判断をする内容を示し、公知の音声合成技術により出力部18等を介して利用者等に報知されるほか、例えばテキスト形式により出力部分109に出力されてもよい。このとき、設定手段S190により選択された文字列データベースには、報知情報に対して利用者等が返答する内容(例えば「はい」又は「いいえ」)を認識できる程度の内容が記憶されている。即ち、文字列データベースのうち、認証に特化した内容で構築されたデータベースを用いることができる。このため、音声認識システム100の誤認識に伴う誤作動を抑制できる。また、誤作動を抑制するために用いられる文字列データベースのデータ容量を最小限に抑えることもできる。
【0133】
例えば図9(a)に示すように、音声データとして「コマンドA」が入力され、各手段S110~S160が実施される。その後、設定手段S190において、例えば生成部17は、図8に示した文字列データベースAを選択し、報知情報として「Aを確認しました 実行しますか?」(報知情報A)を生成する。その後、出力手段S170において、例えば出力部18を介して、報知情報Aが出力部分109に出力される。
【0134】
その後、例えば利用者等が、「はい」(確定コマンド)と発した場合、音声データとして確定コマンドが入力され、各手段S110~S160が実施される。その後、設定手段S190において、例えば生成部17は、報知情報として「Aを実行します」(報知情報A-E)を生成する。その後、出力手段S170において、例えば出力部18を介して、報知情報A-Eが出力部分109に出力される。これにより、音声認識システム100の誤認識に伴う誤作動を抑制できる。
【0135】
また、例えば図9(b)に示すように、音声データとして「コマンドA」が入力され、出力部分109に「Aを確認しました 実行しますか?」(報知情報A)が出力された後、例えば利用者等が確定コマンド以外の内容(例えばコマンドB)を発してもよい。この場合、報知情報Aの代わりに「Bを確認しました Bを実行しますか?」(報知情報B)を出力部分109に出力してもよい。即ち、報知情報に対応するコマンド以外の音声に対しても認識できるように、文字列データベースを構築してもよい。このため、誤って発した音声を認識した場合や、誤認識した場合におけるやり直しを円滑に実施することができる。
【0136】
本変形例によれば、設定手段S190は、認識情報に基づき、参照する文字列データベースの内容を選択する。このため、特定の状況に応じた音声のみを認識することができる。これにより、認識精度のさらなる向上を図ることが可能となる。
【0137】
また、本変形例によれば、設定手段S190は、選択された文字列データベースの内容に基づく報知情報を生成する。このため、報知情報を利用者等に報知することで、誤認識に伴う誤動作を抑制することができる。また、誤作動を抑制するために用いられる文字列データベースのデータ容量を最小限に抑えることもできる。
【0138】
(取得手段S110の変形例)
次に、本実施形態における取得手段S110の変形例について説明する。上述した実施形態と、本変形例との違いは、取得部11が条件情報を取得する点である。なお、上述した構成と同様の構成については、説明を省略する。
【0139】
取得手段S110において取得部11は、音声データが生成された条件を示す条件情報を取得する。条件情報は、例えば図10に示すように、環境情報と、雑音情報と、収音装置情報と、利用者情報と、音特性情報とを有する。なお、上述した設定手段S190と同様に、例えば検出部14は、条件情報に基づき、参照する文字列データベース及び文法データベースの少なくとも何れかの内容を選択してもよい。また、例えば反映部19は、参照データベースの閾値の更新に、条件情報を用いてもよい。
【0140】
条件情報は、例えば収音装置2により生成されるほか、例えば利用者等が予め生成してもよい。例えば取得部11は、音声データの一部を条件情報として取得してもよい。
【0141】
環境情報は、収音装置2の設置された環境に関する情報を有し、例えば屋外、屋内の広さ等を示す。環境情報を用いることで、例えば屋内における音声の反射条件等を考慮することができ、抽出される認識対象データ等の精度を高めることができる。
【0142】
雑音情報は、収音装置2が収音し得る雑音に関する情報を有し、例えば利用者等以外の音声、空調音等を示す。雑音情報を用いることで、音声データに含まれる不要なデータを予め除去でき、抽出される認識対象データ等の精度を高めることができる。
【0143】
収音装置情報は、収音装置2の種類、性能等に関する情報を有し、例えばマイクの数、マイクの種類等も含まれる。収音装置情報を用いることで、音声データが生成された状況に対応したデータベースの選択等ができ、音声認識の精度を高めることができる。
【0144】
利用者情報は、利用者等の人数、国籍、性別等に関する情報を有する。音特性情報は、音声の声量、音圧、癖、活舌の状態等に関する情報を有する。利用者情報を用いることで、音声データの特徴を予め限定することができ、音声認識の精度を高めることができる。
【0145】
本変形例によれば、取得手段S110は、条件情報を取得する。すなわち、取得手段S110は、音声データを取得する際の周辺環境、音声データに含まれる雑音、音声を採取する収音装置2の種類等の各種条件を、条件情報として取得する。このため、条件情報に応じた各手段や各データベースの設定を実施することができる。これにより、利用される環境等に関わらず、認識精度の向上を図ることが可能となる。
【0146】
また、本変形例によれば、検出手段S130は、条件情報に基づき、参照する文字列データベースの内容を選択する。このため、文字列データベースには、条件情報毎に異なる文字列情報等を記憶させておくことで、条件情報毎に適した候補データを検出することができる。これにより、条件情報毎における認識精度の向上を図ることが可能となる。
【0147】
(文字列データベースの変形例)
次に、本実施形態における文字列データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、類似文字列情報等が文字列データベースに記憶される点である。なお、上述した構成と同様の構成については、説明を省略する。
【0148】
文字列データベースには、例えば図11に示すように、予め取得された類似文字列情報(図11では類似文字列情報A~C)と、類似クラスID(図11では類似クラスID-A~C)とが記憶される。類似文字列情報には、上述した文字列情報と同様に、音素情報が紐づけられる。類似クラスIDは、類似文字列情報に付与される。
【0149】
類似文字列情報は、音声認識の対象として設定された文字列情報に対して誤認識する可能性のある文字列情報を示し、利用者等が予め設定する。類似文字列情報は、文字列情報に近い音素情報を有し、例えば検出手段S130において、誤認識し易い文字列情報を示す。例えば文字列情報として「こうないかんきょう」が文字列データベースに記憶されている場合、類似文字列情報として「こうないえん」、「こうさてん」「こうとくてん」等の「こうないかんきょう」として誤認識する可能性のある文字列情報が記憶される。
【0150】
類似クラスIDは、文字列情報に付与されるクラスIDとは異なるIDが付与され、図11では、文字列情報に付与されたクラスIDが「1」に対して、類似文字列情報に付与された類似クラスIDは「9999」である。
【0151】
文字列データベースに類似文字列情報及び類似クラスIDが記憶されることで、例えば類似文字列情報が候補データに含まれた場合においても、容易に排除することが可能となる。これにより、誤認識に伴う認識情報の生成を抑制することが可能となる。
【0152】
類似文字列情報が候補データに含まれる場合、例えば比較手段S162において排除することができる。例えば図11に示すように、参照データベースに記憶された類似文字列には、信頼度の上限を超える閾値(>1.000)が予め付与される。このため、評価データに類似文字列情報が含まれる場合においても、確実に排除することができる。
【0153】
なお、上述した閾値の設定は一例であり、類似文字列情報を排除できる値であれば任意である。また、例えば算出手段S140、選択手段S150等において、類似クラスIDを排除するように予め設定してもよい。
【0154】
上記のほか、例えば方言、数字、又は類語等のように、認識したい内容に対して複数の表現が存在する場合がある。この場合、類似文字列情報を、認識したい文字列情報と同等の閾値を設定することで、複数の文字列に対して等しい認識情報を生成することができる。
【0155】
本変形例によれば、文字列データベースには、類似文字列情報と、類似クラスIDとが記憶される。このため、類似文字列情報が候補データに含まれた場合においても、容易に排除することができる。また、方言や数字等の僅かに異なる音声であっても、同一の内容として認識させることができる。これらにより、認識精度のさらなる向上を図ることが可能となる。
【0156】
(参照データベースの変形例)
次に、本実施形態における参照データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、参照データベースに記憶された情報の内容が異なる点である。なお、上述した構成と同様の構成については、説明を省略する。
【0157】
参照データベースには、例えば図12に示すように、予め取得された過去の評価データ、過去の評価データに紐づく参照センテンス、及び過去の評価データと参照センテンスとの
間における連関度が記憶される。
【0158】
生成部17は、例えば参照データベースを参照し、過去の評価データのうち、評価データに対応する第1評価データ(図12の「過去の評価データ」内の破線枠)を選択する。その後、生成部17は、参照センテンスのうち、第1評価データに対応する第1参照センテンス(図12の「参照センテンス」内の破線枠)、を取得する。また、生成部17は、連関度のうち、第1評価データと第1参照センテンスとの間における第1連関度(図12の「65%」等)を取得する。なお、第1評価データ及び第1参照センテンスは、複数のデータを含んでもよい。
【0159】
生成部17は、第1連関度の値に基づき、認識情報を生成する。生成部17は、例えば第1連関度と、予め取得された閾値と比較し、閾値を上回る第1連関度に紐づく第1参照センテンスを参考に、認識情報を生成する。
【0160】
過去の評価データとして、評価データと一部一致又は完全一致する情報が選択されるほか、例えば類似(同一概念等を含む)する情報が用いられる。評価データ及び過去の評価データが複数の文字列間の組み合わせで示される場合、例えば、名詞-動詞、名詞-形容詞、形容詞-動詞、名詞-名詞の何れかの組み合わせが用いられる。
【0161】
連関度(第1連関度)は、例えば百分率等の3段階以上で示される。例えば参照データベースがニューラルネットワークで構成される場合、第1連関度は、選択された過去の評価対象情報に紐づく重み変数を示す。
【0162】
上述した参照データベースを用いる場合、3段階以上に設定されている連関度に基づいて、音声認識を実現できる点に特徴がある。連関度等は、例えば0~100%までの数値で記述することができるが、これに限定されるものではなく3段階以上の数値で記述できればいかなる段階で構成されていてもよい。
【0163】
このような連関度等に基づいて、評価データに対する認識情報の候補として選ばれる第1参照センテンスにおいて、連関度等の高い又は低い順に第1参照センテンスを選択することが可能となる。このように連関度の順に選択することで、状況に見合う可能性の高い第1参照センテンスを優先的に選択することができる。他方、状況に見合う可能性の低い第1参照センテンスも除外せずに選択できるため、廃棄対象とせずに認識情報の候補として選択することが可能となる。
【0164】
上記に加え、例えば連関度等が1%のような極めて低い評価も見逃すことなく選択することができる。すなわち、連関度等が極めて低い値であっても、僅かな兆候として繋がっていることを示しており、過度の廃棄対象の選択や誤認を抑制することが可能となる。
【0165】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0166】
1 :音声認識装置
2 :収音装置
3 :制御装置
4 :公衆通信網
5 :サーバ
6 :ユーザ端末
10 :筐体
11 :取得部
12 :抽出部
13 :記憶部
14 :検出部
15 :算出部
16 :選択部
17 :生成部
17a :指定部
17b :比較部
17c :更新部
18 :出力部
19 :反映部
100 :音声認識システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部分
109 :出力部分
110 :内部バス
S110 :取得手段
S120 :抽出手段
S130 :検出手段
S140 :算出手段
S150 :選択手段
S160 :生成手段
S161 :指定手段
S162 :比較手段
S163 :更新手段
S170 :出力手段
S180 :反映手段
S190 :設定手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12