IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 菱洋エレクトロ株式会社の特許一覧

<>
  • 特開-音認識システム、及び音認識方法 図1
  • 特開-音認識システム、及び音認識方法 図2
  • 特開-音認識システム、及び音認識方法 図3
  • 特開-音認識システム、及び音認識方法 図4
  • 特開-音認識システム、及び音認識方法 図5
  • 特開-音認識システム、及び音認識方法 図6
  • 特開-音認識システム、及び音認識方法 図7
  • 特開-音認識システム、及び音認識方法 図8
  • 特開-音認識システム、及び音認識方法 図9
  • 特開-音認識システム、及び音認識方法 図10
  • 特開-音認識システム、及び音認識方法 図11
  • 特開-音認識システム、及び音認識方法 図12
  • 特開-音認識システム、及び音認識方法 図13
  • 特開-音認識システム、及び音認識方法 図14
  • 特開-音認識システム、及び音認識方法 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023108586
(43)【公開日】2023-08-04
(54)【発明の名称】音認識システム、及び音認識方法
(51)【国際特許分類】
   G10L 15/06 20130101AFI20230728BHJP
【FI】
G10L15/06 400V
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022142269
(22)【出願日】2022-09-07
(31)【優先権主張番号】P 2022009621
(32)【優先日】2022-01-25
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】391021684
【氏名又は名称】菱洋エレクトロ株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】菊田 敦
(72)【発明者】
【氏名】越田 高広
(72)【発明者】
【氏名】池田 彬
(72)【発明者】
【氏名】胡 玉涛
(57)【要約】      (修正有)
【課題】物理音を対象とした認識精度の向上を図り、認識対象の拡大を図り、音声を利用した環境音の認識条件又は音声を利用した環境音の認識条件の設定を実現する音認識システム及び音認識方法を提供する。
【解決手段】音素認識を用いた音認識システムであって、音認識装置1は、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、予め取得された参照用物理音情報及びそれに紐づく参照用音素とを用いて構築された複数の学習モデル並びに予め取得された認識用音素及びそれに紐づく認識情報を用いて構築され、複数の学習モデルに紐づく複数のデータベースを記憶する記憶部と、物理音情報の内容を認識した認識結果を導出する導出部と、を備える。導出部は、複数の前記学習モデルの少なくとも何れかを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する認識結果を導出する。
【選択図】図5
【特許請求の範囲】
【請求項1】
音素認識を用いた音認識システムであって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、
予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築された複数の学習モデルと、
予め取得された認識用音素と、前記認識用音素に紐づく認識情報とを用いて構築され、複数の前記学習モデルに紐づく複数のデータベースと、
前記物理音情報の内容を認識した認識結果を導出する導出部と、
を備え、
前記導出部は、
複数の前記学習モデルの少なくとも何れかを参照し、前記物理音情報から音素情報を抽出し、
参照した前記学習モデルに紐づく前記データベースを参照し、前記音素情報に対応する前記認識結果を導出すること
を特徴とする音認識システム。
【請求項2】
前記参照用音素は、
音声素と、
前記音声素とは異なる環境音素と、
を含み、
複数の前記学習モデルは、
前記音声素を用いて構築された音声素モデルと、
前記環境音素を用いて構築された環境音素モデルと、
を含むこと
を特徴とする請求項1記載の音認識システム。
【請求項3】
前記物理音情報は、それぞれ異なる特徴を有する音声情報、及び環境音情報を含み、
前記導出部は、
前記音声素モデル、及び前記音声素モデルに紐づく音声素データベースを参照し、前記音声情報の内容を認識した第1認識結果を導出する第1導出部と、
前記環境音素モデル、及び前記環境音素モデルに紐づく環境音素データベースを参照し、前記環境音情報の内容を認識した第2認識結果を導出する第2導出部と、
を含み、
前記第1認識結果及び前記第2認識結果に基づき、前記認識結果を導出すること
を特徴とする請求項2記載の音認識システム。
【請求項4】
前記第2導出部は、前記第1認識結果に基づき前記第2認識結果を導出すること
を特徴とする請求項3記載の音認識システム。
【請求項5】
前記第1導出部は、前記第2認識結果に基づき前記第1認識結果を導出すること
を特徴とする請求項3記載の音認識システム。
【請求項6】
前記導出部は、前記第1認識結果及び前記第2認識結果に基づき、前記第1認識結果及び前記第2認識結果とは異なる総合認識結果を、前記認識結果として導出すること
を特徴とする請求項3~5の何れか1項記載の音認識システム。
【請求項7】
前記データベースは、前記環境音素モデルに紐づく環境音素データベースを含み、
前記環境音素データベースは、
それぞれ紐づけられた前記認識用音素、前記認識情報、及び環境音IDを用いて構築された環境音素用文字列データベースと、
前記環境音IDの配列順序を示す情報を含む環境音素用配列データベースと、
を含み、
前記導出部は、
前記環境音素モデルを参照し、前記物理音情報から環境音素情報を抽出し、
前記環境音素用文字列データベースを参照し、前記環境音素情報に対応する前記認識情報、及び前記環境音IDを選択し、
前記環境音素用配列データベースを参照し、前記環境音IDの配列順序を特定し、
選択された前記認識情報、及び特定された配列順序に基づき、前記認識結果を導出すること
を含むこと
を特徴とする請求項2記載の音認識システム。
【請求項8】
前記認識用音素は、それぞれ異なる第1認識用音素、及び第2認識用音素を含み、
複数の前記データベースは、
前記第1認識用音素を用いて構築された第1データベースと、
前記第2認識用音素、及び前記第1認識用音素と等しいダミー音素を用いて構築された第2データベースと、
を含むこと
を特徴とする請求項1又は2記載の音認識システム。
【請求項9】
前記第2データベースは、前記第2認識用音素、及び前記ダミー音素のみを前記認識用音素として用いて構築されたこと
を特徴とする請求項8記載の音認識システム。
【請求項10】
前記導出部は、
前記第1データベース、及び前記第1データベースに紐づく第1学習モデルを参照し、前記物理音情報の内容を認識した第1認識結果を導出する第1導出部と、
前記第2データベース、及び前記第2データベースに紐づく第2学習モデルを参照し、前記物理音情報の内容を認識した第2認識結果を導出する第2導出部と、
を含み、
前記第1認識結果及び前記第2認識結果に基づき、前記認識結果を導出すること
を特徴とする請求項8記載の音認識システム。
【請求項11】
音素認識を用いた音認識方法であって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得ステップと、
予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築された複数の学習モデル、及び
予め取得された認識用音素と、前記認識用音素に紐づく認識情報と用いて構築され、複数の前記学習モデル毎に紐づく複数のデータベース
を参照し、前記物理音情報の内容を認識した認識結果を導出する導出ステップと、
を備え、
前記導出ステップは、
複数の前記学習モデルの少なくとも何れかを参照し、前記物理音情報から音素情報を抽出し、
参照した前記学習モデルに紐づく前記データベースを参照し、前記音素情報に対応する前記認識結果を導出すること
を特徴とする音認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音素認識を用いた音認識システム、及び音認識方法に関する。
【背景技術】
【0002】
従来、音素認識を用いた音認識に関する技術として、例えば特許文献1、2の音声認識システム等が提案されている。
【0003】
特許文献1では、例えば複数混合のガウス混合モデルを生成し、所定の雑音のない音声HMMと生成された雑音ガウス混合モデルから複数の適応化されたHMMを生成し、生成された複数の適応化されたHMMを並置しマルチパス形式の音響モデルを生成し、抽出された特徴量に基づき上記適応化された音響モデルを用いて発話音声信号の音声認識を行う旨の技術が開示されている。
【0004】
特許文献2では、少なくとも1つの音声データを取得する取得手段と、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、認識対象データとして抽出する抽出手段等を備えることを特徴とする音声認識システムが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003-177781号公報
【特許文献2】特許第6462936号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、媒質を介して伝播する物理音の認識技術は、様々な用途が期待される一方で、認識精度の向上が難しいという事情がある。この点、特許文献1では、雑音等の環境音が混入した場合においても、高い音声認識率を得ることを前提としており、環境音については、雑音(ノイズ)としての扱いを前提としている。即ち、音声以外の物理音を対象とした認識については、記載も示唆もされていない。また、特許文献2の開示技術においても、音声以外の物理音を対象とした認識については、記載も示唆もされていない。
【0007】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、物理音を対象とした認識精度の向上を図る音認識システム、及び音認識方法を提供することにある。
【課題を解決するための手段】
【0008】
第1発明に係る音認識システムは、音素認識を用いた音認識システムであって、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築された複数の学習モデルと、予め取得された認識用音素と、前記認識用音素に紐づく認識情報とを用いて構築され、複数の前記学習モデルに紐づく複数のデータベースと、前記物理音情報の内容を認識した認識結果を導出する導出部と、を備え、前記導出部は、複数の前記学習モデルの少なくとも何れかを参照し、前記物理音情報から音素情報を抽出し、参照した前記学習モデルに紐づく前記データベースを参照し、前記音素情報に対応する前記認識結果を導出することを特徴とする。
【0009】
第2発明に係る音認識システムは、第1発明において、前記参照用音素は、音声素と、前記音声素とは異なる環境音素と、を含み、複数の前記学習モデルは、前記音声素を用いて構築された音声素モデルと、前記環境音素を用いて構築された環境音素モデルと、を含むことを特徴とする。
【0010】
第3発明に係る音認識システムは、第2発明において、前記物理音情報は、それぞれ異なる特徴を有する音声情報、及び環境音情報を含み、前記導出部は、前記音声素モデル、及び前記音声素モデルに紐づく音声素データベースを参照し、前記音声情報の内容を認識した第1認識結果を導出する第1導出部と、前記環境音素モデル、及び前記環境音素モデルに紐づく環境音素データベースを参照し、前記環境音情報の内容を認識した第2認識結果を導出する第2導出部と、を含み、前記第1認識結果及び前記第2認識結果に基づき、前記認識結果を導出することを特徴とする。
【0011】
第4発明に係る音認識システムは、第3発明において、前記第2導出部は、前記第1認識結果に基づき前記第2認識結果を導出することを特徴とする。
【0012】
第5発明に係る音認識システムは、第3発明において、前記第1導出部は、前記第2認識結果に基づき前記第1認識結果を導出することを特徴とする。
【0013】
第6発明に係る音認識システムは、第3発明~第5発明の何れかにおいて、前記導出部は、前記第1認識結果及び前記第2認識結果に基づき、前記第1認識結果及び前記第2認識結果とは異なる総合認識結果を、前記認識結果として導出することを特徴とする。
【0014】
第7発明に係る音認識システムは、第2発明において、前記データベースは、前記環境音素モデルに紐づく環境音素データベースを含み、前記環境音素データベースは、それぞれ紐づけられた前記認識用音素、前記認識情報、及び環境音IDを用いて構築された環境音素用文字列データベースと、前記環境音IDの配列順序を示す情報を含む環境音素用配列データベースと、を含み、前記導出部は、前記環境音素モデルを参照し、前記物理音情報から環境音素情報を抽出し、前記環境音素用文字列データベースを参照し、前記環境音素情報に対応する前記認識情報、及び前記環境音IDを選択し、前記環境音素用配列データベースを参照し、前記環境音IDの配列順序を特定し、選択された前記認識情報、及び特定された配列順序に基づき、前記認識結果を導出することを含むことを特徴とする。
【0015】
第8発明に係る音認識システムは、第1発明又は第2発明において、前記認識用音素は、それぞれ異なる第1認識用音素、及び第2認識用音素を含み、複数の前記データベースは、前記第1認識用音素を用いて構築された第1データベースと、前記第2認識用音素、及び前記第1認識用音素と等しいダミー音素を用いて構築された第2データベースと、を含むことを特徴とする。
【0016】
第9発明に係る音認識システムは、第8発明において、前記第2データベースは、前記第2認識用音素、及び前記ダミー音素のみを前記認識用音素として用いて構築されたことを特徴とする。
【0017】
第10発明に係る音認識システムは、第8発明において、前記導出部は、前記第1データベース、及び前記第1データベースに紐づく第1学習モデルを参照し、前記物理音情報の内容を認識した第1認識結果を導出する第1導出部と、前記第2データベース、及び前記第2データベースに紐づく第2学習モデルを参照し、前記物理音情報の内容を認識した第2認識結果を導出する第2導出部と、を含み、前記第1認識結果及び前記第2認識結果に基づき、前記認識結果を導出することを特徴とする。
【0018】
第11発明に係る音認識方法は、音素認識を用いた音認識方法であって、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得ステップと、予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築された複数の学習モデル、及び予め取得された認識用音素と、前記認識用音素に紐づく認識情報と用いて構築され、複数の前記学習モデル毎に紐づく複数のデータベースを参照し、前記物理音情報の内容を認識した認識結果を導出する導出ステップと、を備え、前記導出ステップは、複数の前記学習モデルの少なくとも何れかを参照し、前記物理音情報から音素情報を抽出し、参照した前記学習モデルに紐づく前記データベースを参照し、前記音素情報に対応する前記認識結果を導出することを特徴とする。
【発明の効果】
【0019】
第1発明~第10発明によれば、導出部は、複数の学習モデルの少なくとも何れかを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する認識結果を導出する。このため、唯一の学習モデル及びデータベースを用いて音認識を実施する場合に比べて、多角的な認識処理を実施することができ、物理音情報に適した認識結果の導出を実施することができる。これにより、物理音を対象とした認識精度の向上を図ることが可能となる。
【0020】
特に、第2発明によれば、複数の学習モデルは、音声素を用いて構築された音声素モデルと、環境音素を用いて構築された環境音素モデルとを含む。即ち、物理音情報を認識する際、異なる種類の音素を用いて認識することができる。このため、音声素のみでは認識できない物理音に対しても、認識できる可能性を高めることができる。これにより、認識対象の拡大を図ることが可能となる。
【0021】
特に、第3発明によれば、第1導出部は、音声情報の内容を認識した第1認識結果を導出する。また、第2導出部は、環境音情報の内容を認識した第2認識結果を導出する。また、導出部は、第1認識結果及び第2認識結果に基づき、認識結果を導出する。即ち、1つの物理音情報に音声情報及び環境音情報が含まれる場合においても、音声情報及び環境音情報の内容を踏まえた認識結果を導出することができる。このため、環境音情報の特徴を踏まえた音声認識を実施することができる。これにより、音声認識の精度向上を図ることが可能となる。
【0022】
特に、第4発明によれば、第2導出部は、第1認識結果に基づき第2認識結果を導出する。このため、第1認識結果を踏まえた第2認識結果を導出することができる。これにより、環境音認識の精度を向上させることが可能となる。また、第1認識結果の内容に応じて、環境音情報に対する認識条件を変更することができる。これにより、音声を利用した環境音の認識条件の設定を実現することが可能となる。
【0023】
特に、第5発明によれば、第1導出部は、第2認識結果に基づき第1認識結果を導出する。このため、第2認識結果を踏まえた第1認識結果を導出することができる。これにより、音声認識の精度を向上させることが可能となる。また、第2認識結果の内容に応じて、音声情報に対する認識条件を変更することができる。これにより、環境音を利用した音声の認識条件の設定を実現することが可能となる。
【0024】
特に、第6発明によれば、導出部は、第1認識結果及び第2認識結果に基づき、第1認識結果及び第2認識結果とは異なる総合認識結果を、認識結果として導出する。このため、音声情報及び環境音情報の個々の内容のみでは認識しきれない物理音情報の内容についても、総合認識結果として導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0025】
特に、第7発明によれば、環境音素データベースは、環境音素用文字列データベースと、環境音素用配列データベースとを含む。このため、認識対象となる環境音素情報が、複数の音素の組合せにより構成される場合においても、音素の配列順序を考慮した認識結果を導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0026】
特に、第8発明によれば、複数のデータベースは、第1認識用音素を用いて構築された第1データベースと、第2認識用音素、及びダミー音素を用いて構築された第2データベースとを含む。このため、第2データベースを参照して認識結果を導出する際、第1データベースを参照した場合に導出される認識結果との差異を明確にすることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0027】
特に、第9発明によれば、第2データベースは、第2認識用音素、及びダミー音素のみを認識用音素として用いて構築されたものである。このため、第2データベースを参照する際、第2認識用音素の判定に特化した認識を実施することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0028】
特に、第10発明によれば、導出部は、第1認識結果を導出する第1導出部と、第2認識結果を導出する第2導出部とを含み、第1認識結果及び第2認識結果に基づき、認識結果を導出する。このため、1つの物理音情報に複数の内容が含まれる場合においても、複数の内容を踏まえた認識結果を導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0029】
第11発明によれば、導出ステップは、複数の学習モデルの少なくとも何れかを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する認識結果を導出する。このため、唯一の学習モデル及びデータベースを用いて音認識を実施する場合に比べて、多角的な認識処理を実施することができ、物理音情報に適した認識結果の導出を実施することができる。これにより、物理音を対象とした認識精度の向上を図ることが可能となる。
【図面の簡単な説明】
【0030】
図1図1は、第1実施形態における音認識システムの構成の一例を示す模式図である。
図2図2は、第1実施形態における音認識システムの構成の変形例を示す模式図である。
図3図3は、第1実施形態における音認識方法の一例を示す模式図である。
図4図4は、学習モデル、及びデータベースの一例を示す模式図である。
図5図5(a)は、音認識装置の構成の一例を示す模式図であり、図5(b)は、音認識装置の機能の一例を示す模式図である。
図6図6は、音声素モデル、環境音素モデル、音声素データベース、及び環境音素データベースの一例を示す模式図である。
図7図7(a)は、第1実施形態における音認識方法の第1変形例を示す模式図であり、図7(b)は、第1実施形態における音認識方法の第2変形例を示す模式図である。
図8図8(a)は、第1実施形態における音認識方法の第3変形例を示す模式図であり、図8(b)は、第1実施形態における音認識方法の第4変形例を示す模式図である。
図9図9は、第1実施形態における音認識方法の第5変形例を示す模式図である。
図10図10は、第2実施形態における音認識方法の一例を示す模式図である。
図11図11は、音声素用文字列データベース、環境音素用文字列データベース、音声素用配列データベース、及び環境音素用配列データベースの一例を示す模式図である。
図12図12は、第2実施形態における第1認識ステップの変形例を示す模式図である。
図13図13は、第2実施形態における第2認識ステップの変形例を示す模式図である。
図14図14は、音声素用参照データベース、及び環境音素用参照データベースの一例を示す模式図である。
図15図15は、ダミー音素を用いて構築された第1データベース及び第2データベースの一例を示す模式図である。
【発明を実施するための形態】
【0031】
以下、本発明の実施形態における音認識システム及び音認識方法の一例について、図面を参照しながら説明する。
【0032】
(第1実施形態:音認識システム100、及び音認識方法)
図1、及び図2を参照して、本実施形態における音認識システム100の構成の一例について説明する。図1は、本実施形態における音認識システム100の構成の一例を示す模式図であり、図2は、本実施形態における音認識システム100の構成の変形例を示す模式図である。
【0033】
音認識システム100は、音素認識を用いて、物理音の認識を実施するために用いられる。音認識システム100は、例えば図1に示すように、音認識装置1と、収音装置2とを備え、例えば制御装置3を備えてもよい。なお、音認識システム100は、例えば図2に示すように、公知の通信網4を介して制御装置3、サーバ5、ユーザ端末6等を対象に、各種情報の送受信を実施してもよい。各構成の詳細については、後述する。
【0034】
物理音は、媒質を介して伝播する音波(例えば弾性波)である。音波は、音声等のような人間の可聴周波数帯域(例えば20Hz~20,000Hz程度)を示すほか、例えば可聴周波数よりも低い超低周波から、可聴周波数よりも高い超音波までを含む周波数帯域(例えば1Hz~数GHz程度)を示してもよい。音認識システム100では、用途に応じて認識対象とする物質音の周波数を任意に設定することができる。
【0035】
音認識システム100では、例えば物理音として、人間の可聴周波数帯域の音波を対象とすることで、音声の認識を実現できるほか、例えば音声とは異なる環境音の認識も実現することができる。また、例えば物理音として、可聴周波数よりも高い周波数帯域、又は可聴周波数よりも低い周波数帯域を対象とすることで、従来の音声認識技術では認識できなかった周波数帯域の音波も認識することができ、音認識システム100の用途を拡大させることが可能となる。
【0036】
図3は、本実施形態における音認識方法の一例を示す模式図である。音認識方法は、取得ステップS100と、導出ステップS200とを備える。なお、音認識方法は、音認識システム100を用いて実施することができる。
【0037】
<取得ステップS100>
取得ステップS100は、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する。取得ステップS100では、例えば公知のマイクロフォン等のような収音装置2を用いて、アナログ音である物理音をデジタル化した物理音情報を生成する。物理音情報は、1種類の音波を含む物理音に基づき生成されたデータを示すほか、例えば複数の音波の組合せを含む物理音に基づき生成されたデータや、異なる期間に発生した複数の音波を含む物理音に基づき生成されたデータを示してもよい。
【0038】
例えば物理音情報は、音声情報及び環境音情報の少なくとも何れかを含む。音声情報は、人が発する音波(音声)がデジタル化された情報を示し、例えば公知の音声合成法等により生成された音波から生成されたデータも含む。環境音情報は、自然音、機械音、電子音、動物の鳴き声、放射騒音等のような、音声とは異なる種類の音波がデジタル化された情報を示す。
【0039】
<導出ステップS200>
導出ステップS200は、予め構築された学習モデル、及びデータベースを参照し、物理音情報の内容を認識した認識結果を導出する。導出ステップS200は、音素認識を用いて認識結果を導出する。なお、導出ステップS200では、予め構築された複数の学習モデル及び複数のデータベースが用いられ、例えば学習モデル及びデータベースが一対一で紐づけられて用いられる。この場合、導出ステップS200では、複数の学習モデルのうち特定の学習モデルを選択した場合、特定の学習モデルに紐づく1つのデータベースが選択される。
【0040】
なお、学習モデル及びデータベースは、例えば一対多や、多対多等のように、任意の数で紐づいてもよい。特に、学習モデル及びデータベースが、一対一で紐づく場合には、誤認識を減らすことができる。
【0041】
導出ステップS200は、例えば複数の学習モデルの少なくとも何れかを参照し、音素認識を用いて物理音情報に対する音素情報を抽出する。音素情報は、1つ以上の音素を含み、例えば複数の音素の配列を示す。
【0042】
音素は、用途に応じて設定された音波の特徴(例えば振幅、周波数、音色の少なくとも何れか)を示す。音素は、例えば公知の音声素を含むほか、音声素とは異なる音素(以下、環境音素とする)を含んでもよい。
【0043】
導出ステップS200は、例えば音素情報を抽出する際に参照した学習モデルに紐づくデータベースを参照し、抽出された音素情報に対応する認識結果を導出する。認識結果は、例えば「ピーピー、火事です」のような文字列を示すほか、例えば制御装置3を制御するためのデータを示してもよく、用途に応じて任意に設定することができる。
【0044】
導出ステップS200は、例えばJulius等の公知の音素認識技術を用いて、例えば図4に示す学習モデル及びデータベースを参照し、物理音情報から認識結果を導出する。導出ステップS200は、例えば公知の機械学習を用いて構築された学習モデル及びデータベースを参照し、物理音情報から認識結果を導出してもよい。
【0045】
ここで、従来の音素認識を用いた音声認識技術では、音声に含まれる言語の配列に基づき、認識処理を実施する場合がある。この場合、認識精度を向上させるには、言語に対応し得る全ての音素(音声素)及び音声素の配列を、1つの学習モデルを用いて実施することが求められる。
【0046】
しかしながら、音声認識を用いて音声以外の音波を認識する場合、上述したような1つの学習モデルを用いて実施すると、認識対象の音波に対する音素の抽出に加え、認識対象外の音波に対する音素も抽出する場合があり、認識精度の向上が難しいという事情がある。これに対し、音声以外の音波を認識する際、複数の学習モデルを用意し、少なくとも何れかを用いることで、認識精度が向上することを発明者らは見出した。複数の学習モデルは、認識対象とする音波の特徴毎、又は認識対象とする複数の音波の特徴毎に構築される。これにより、認識対象以外の音波に対する音素の抽出を抑制することができ、認識精度の向上を図ることが可能となる。
【0047】
なお、複数の学習モデルの少なくとも何れかを選択する方法は、例えば物理音情報から特定できる特徴(例えば振幅、周波数、音色)に基づき、特徴に適した学習モデルを選択するようにしてもよい。この場合、例えば学習モデル毎に、予め上記特徴を紐づけておくことで、公知のマッチング技術等を用いて実現することができる。上記のほか、例えば全ての学習モデルを参照し、抽出された音素情報うち最も可能性の高い音素情報に基づき、認識結果を抽出してもよい。
【0048】
上述した音認識方法によれば、導出ステップS200は、複数の学習モデルの少なくとも何れかを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する認識結果を導出する。このため、唯一の学習モデル及びデータベースを用いて音認識を実施する場合に比べて、多角的な認識処理を実施することができ、物理音情報に適した認識結果の導出を実施することができる。これにより、物理音を対象とした認識精度の向上を図ることが可能となる。
【0049】
<音認識装置1>
音認識装置1は、例えば取得した物理音情報から音素情報を抽出し、音素情報に対応する認識結果を導出する。音素情報は、例えば音声素情報、及び環境音素情報の少なくとも何れかを含む。
【0050】
音認識装置1は、例えば物理音情報に含まれる音声情報から音声素情報を抽出し、物理音情報に含まれる環境音情報から環境音素情報を抽出し、音声素情報及び環境音素情報に基づき、認識結果を導出してもよい。この場合、物理音情報に含まれる複数の情報の内容を認識した上で、認識結果を導出できるため、認識精度の向上を図ることができる。
【0051】
音声素情報は、人間が発する音素(例えば「k/a/j/i/d/e/th/u」等)を1つ以上含む。音声素情報は、母音と、子音とを含む公知の言語に対応する音素を含む。なお、音声素情報が2つ以上の音声素を含む場合、音声素情報は各音声素の配列に関する情報も含む。
【0052】
環境音素情報は、音声素とは異なる音素(例えば環境音素:「@/?/#/@/?/#」等)を1つ以上含む。環境音素情報は、例えば母音及び子音とは異なる音素のみを含む。環境音素情報に含まれる音素として、例えば自然言語とは異なる特徴の振幅が用いられ、自然言語とは異なる符号が付与される。なお、環境音素情報として、例えば音声素が一部に含まれてもよい。また、環境音素情報が2つ以上の音素を含む場合、環境音素情報は各音声の配列に関する情報も含む。
【0053】
音声素情報及び環境音素情報は、例えば各音の開始を示す無音区間(例えば「silB」等で示される開始無音区間)、及び各音の終了を示す無音区間(例えば「silE」等で示される終了無音区間)の少なくとも何れかを含んでもよい。開始無音区間、及び終了無音区間は、公知の音素認識技術により抽出することができる。
【0054】
音声素情報及び環境音素情報は、例えば休止区間を含んでもよい。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。休止区間は、公知の音素認識技術により抽出することができる。
【0055】
特に、環境音素情報が休止区間を含むことで、複数の環境音の組合せに伴う共鳴により生じる僅かな無音状態を、環境音素情報として抽出することができる。これにより、環境音認識の精度向上を図ることが可能となる。
【0056】
図5(a)は、音認識装置1の構成の一例を示す模式図である。音認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等のような公知の電子機器が用いられてもよい。音認識装置1は、例えば筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
【0057】
CPU101は、音認識装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、学習モデルやデータベース等の各種情報が保存される。保存部104として、例えば公知のメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等のような公知のデータ保存媒体が用いられる。
【0058】
I/F105は、用途に応じて接続される収音装置2、制御装置3、通信網4等との各種情報の送受信を行うための公知のインターフェースである。I/F105は、例えば複数設けられてもよい。
【0059】
I/F106は、用途に応じて接続される入力部108との各種情報の送受信を行うための公知のインターフェースである。入力部108として、例えばキーボードが用いられ、音認識システム100の管理等を行う管理者等は、入力部108を介して、各種情報又は音認識装置1の制御コマンド等を入力又は選択する。
【0060】
I/F107は、用途に応じて接続される表示部109との各種情報の送受信を行うための公知のインターフェースである。表示部109は、保存部104に保存された各種情報や、音認識装置1の処理状況等を出力する。表示部109として、例えばディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、表示部109が入力部108を含む構成としてもよい。
【0061】
なお、I/F105~I/F107として、例えば同一のものが用いられてもよく、各I/F105~I/F107として、例えばそれぞれ複数のものが用いられてもよい。また、収音装置2、制御装置3、通信網4、入力部108、及び表示部109の少なくとも何れかは、状況に応じて取り外されてもよい。
【0062】
図5(b)は、音認識装置1の機能の一例を示す模式図である。音認識装置1は、取得部11と、導出部12と、出力部13と、記憶部14とを備える。なお、図5(b)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。
【0063】
<<取得部11>>
取得部11は、物理音情報を取得する。取得部11は、例えば上述した取得ステップS100を実施する際に用いられる。取得部11が収音装置2から物理音情報を取得するタイミングは、任意に設定することができる。取得部11は、例えば記憶部14を介して、取得した物理音情報を保存部104に保存する。
【0064】
<<導出部12>>
導出部12は、学習モデル及びデータベースを参照し、物理音情報に対する認識結果を導出する。導出部12は、例えば上述した導出ステップS200を実施する際に用いられる。導出部12は、例えばJulius等の公知の音素認識技術を用いて、学習モデル及びデータベースを参照し、物理音情報から認識結果を導出する。例えば導出部12は、複数の学習モデルの少なくとも1つを参照し、物理音情報から音素情報を抽出したあと、参照した学習モデルに紐づくデータベースを参照し、抽出された音素情報から認識結果を導出する。
【0065】
学習モデルは、例えば図4に示すように、予め取得された参照用物理音情報と、参照用物理音情報に紐づく参照用音素とを用いて、複数構築される。各学習モデルを構築する際、例えば参照用物理音情報の種類、参照用音素の種類、及び参照用物理音情報と参照用音素との紐づけ方の少なくとも何れかが、それぞれ異なる。学習モデルは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。なお、学習モデルは、例えば参照用音素毎に設定された閾値を含んでもよい。
【0066】
参照用物理音情報は、物理音情報と同種のデジタルデータを示し、例えば一定期間における振幅の度合いを特徴としたデータを示す。なお、参照用物理音情報の示す振幅の期間は、紐づけられた参照用音素に応じて任意に設定することができる。
【0067】
参照用音素は、音素情報と同種の情報を示す。参照用音素は、1つ以上の音素を含み、例えば複数の音素の配列に関する情報を含む。
【0068】
データベースは、予め取得された認識用音素と、認識用音素に紐づく認識情報とを用いて、複数構築される。複数のデータベースは、複数の学習モデルに紐づけられ、例えば1つのデータベースに対して1つの学習モデルが紐づけられた状態で保存部104等に保存される。データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。なお、データベースは、例えば認識情報毎に設定された閾値を含んでもよい。
【0069】
認識用音素は、音素情報及び参照用音素と同種の情報を示す。認識用音素は、例えば紐づけられた学習モデルの参照用音素と同じ音素を含む。
【0070】
認識情報は、物理音情報の内容を特定するための情報を示す。認識情報は、例えば認識結果を導出するための情報を含み、例えば認識結果として用いられてもよい。
【0071】
導出部12は、例えば1つの学習モデルを参照し、物理音情報に一致又は類似する参照用物理音情報を選択し、選択した参照用物理音情報に紐づく参照用音素を、音素情報として抽出する。また、導出部12は、例えば参照した学習モデルに紐づくデータベースを参照し、音素情報に一致又は類似する認識用音素を選択し、選択した認識用音素に紐づく認識情報を、認識結果として導出する。
【0072】
なお、例えば導出部は、判定部を含んでもよい。判定部は、例えば選択された認識用音素に紐づく認識情報に基づき、認識結果を導出するための処理を実施する。判定部は、予め設定された参照用認識情報に対し、認識情報が一致又は類似するかを判定する。判定部は、参照用認識情報と、認識情報とが一致又は類似すると判定した場合、認識情報を認識結果として導出し、類似しないと判定した場合、認識情報を認識結果として導出しない。例えば複数の認識情報が選択された場合、判定部は、最も参照用認識情報と類似する認識情報を、認識結果として導出する。
【0073】
なお、判定部として、公知の判定技術を用いることができ、例えば参照用認識情報に紐づく閾値を用いて判定を実施してもよい。また、判定部は、例えば複数の参照用認識情報を用いてもよい。
【0074】
なお、複数の学習モデルは、例えば図6に示すように、音声素モデル及び環境音素モデルの少なくとも何れかを含んでもよい。音声素モデルは、物理音情報から音声素情報を抽出するために用いられる。環境音素モデルは、物理音情報から環境音素情報を抽出するために用いられる。この場合、従来の音声認識に加え、環境音認識の処理を実施することができる。これにより、音声及び環境音の認識を図ることが可能となる。
【0075】
例えば音声素モデルは、予め取得された参照用音声情報と、参照用音声素とを用いて構築される。音声素モデルは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。
【0076】
参照用音声情報は、音声情報と同種のデジタル化された情報を示し、例えば一定期間における振幅の度合いを特徴としたデータを示す。また、参照用音声素は、音声素情報と同種の音素(即ち音声素)を含む。
【0077】
例えば環境音素モデルは、予め取得された参照用環境音情報と、参照用環境音素とを用いて構築される。環境音素モデルは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。
【0078】
参照用環境音情報は、環境音情報と同種のデジタル化された情報を示し、例えば一定期間における振幅の度合いを特徴としたデータを示す。また、参照用環境音素は、環境音素情報と同種の音素を含む。
【0079】
例えば環境音素モデルは、1つの参照用環境情報、及び1つの参照用環境音素のみを用いて構築されてもよい。この場合、1つの参照用環境情報の特徴に特化した処理が実施できるため、物理音情報から抽出される環境音素情報の精度を向上させることが可能となる。特に、1つの参照用環境情報、及び1つの参照用環境音素のみを用いて構築された複数の環境音素モデルを用いて、1つの物理音情報から複数の環境音素情報を抽出することで、導出される認識結果の精度を向上させることが可能となる。
【0080】
なお、複数のデータベースは、例えば音声素データベース及び環境音素データベースの少なくとも何れかを含んでもよい。音声素データベースは、音声素情報から音声認識結果を導出するために用いられる。環境音素データベースは、環境音素情報から環境音認識結果を導出するために用いられる。
【0081】
音声素データベースは、音声素モデルに紐づけられて保存部104等に記憶される。音声素データベースは、予め取得された認識用音声素と、認識用音声素に紐づく音声素認識情報とを用いて構築される。
【0082】
認識用音声素は、音声素情報及び参照用音声素と同種の情報を示す。認識用音声素は、例えば紐づけられた音声素モデルの参照用音声素と同じ音素を含む。
【0083】
音声素認識情報は、音声情報の内容を特定するための情報を示す。音声素認識情報は、例えば認識結果を導出するための情報(音声認識結果)を含み、例えば認識結果として用いられてもよい。
【0084】
環境音素データベースは、環境音素モデルに紐づけられて保存部104等に記憶される。環境音素データベースは、予め取得された認識用環境音素と、認識用環境音素に紐づく環境音素認識情報とを用いて構築される。
【0085】
認識用環境音素は、環境音素情報及び参照用環境音素と同種の情報を示す。認識用環境音素は、例えば紐づけられた環境音素モデルの参照用環境音素と同じ音素を含む。
【0086】
環境音素認識情報は、環境音情報の内容を特定するための情報を示す。環境音認識情報は、例えば認識結果を導出するための情報(環境音認識結果)を含み、例えば認識結果として用いられてもよい。
【0087】
<<出力部13>>
出力部13は、各種情報を表示部109等に出力する。出力部13は、例えば導出部12により導出された認識結果を、表示部109等に出力する。出力部13は、例えば認識結果として、制御装置3を制御するための制御情報を導出し、認識結果を制御装置3に出力してもよい。なお、出力部13は、例えば通信網4を介して、認識結果をユーザ端末6等に出力してもよい。
【0088】
<<記憶部14>>
記憶部14は、各種情報を保存部104に記憶させ、又は各種情報を保存部104から取出す。記憶部14は、例えば取得部11、導出部12、及び出力部13の処理内容に応じて、各種情報の記憶又は取出しを行う。
【0089】
<収音装置2>
収音装置2は、音波をデジタル化できる公知の収音機器を示す。収音装置2は、例えば音認識装置1とデータ通信可能な状態で接続される。なお、収音装置2は、例えば音認識装置1に内蔵されてもよい。
【0090】
収音装置2として、例えば人間の可聴周波数帯域を収音できるマイクロフォンが用いられるほか、例えば人間の可聴周波数帯域よりも高い周波数帯域を収音できるAEセンサ等が用いられてもよく、用途に適した周波数帯の音波を収音できる公知の機器を用いることができる。
【0091】
<制御装置3>
制御装置3は、音認識装置1から出力される認識結果に基づき制御される装置を示す。制御装置3は、音認識装置1とデータ通信可能な状態で接続されるほか、例えば音認識装置1又は収音装置2を内蔵してもよい。
【0092】
制御装置3として、例えば照明、エアコン等の家電製品が用いられるほか、例えば稼働式ベッド、ドア、窓、カーテン等の駆動可能な部分を有する構成が用いられる。制御装置3として、例えばロボット、無人搬送車(AGV:Automated Guided Vehicle)、生産機械等が用いられてもよい。なお、制御装置3は、例えば通信網4を介して、音認識装置1とデータ通信可能な状態で接続されてもよい。
【0093】
<通信網4>
通信網4は、例えば音認識装置1が通信回路を介して接続されるインターネット網を示し、光ファイバ通信網で構成されてもよい。通信網4は、有線通信網のほか、無線通信網等の公知の通信網で実現できる。
【0094】
本実施形態によれば、導出部12は、複数の学習モデルの少なくとも何れかを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する認識結果を導出する。このため、唯一の学習モデル及びデータベースを用いて音認識を実施する場合に比べて、多角的な認識処理を実施することができ、物理音情報に適した認識結果の導出を実施することができる。これにより、物理音を対象とした認識精度の向上を図ることが可能となる。
【0095】
また、本実施形態によれば、複数の学習モデルは、音声素を用いて構築された音声素モデルと、環境音素を用いて構築された環境音素モデルとを含む。即ち、物理音情報を認識する際、異なる種類の音素を用いて認識することができる。このため、音声素のみでは認識できない物理音に対しても、認識できる可能性を高めることができる。これにより、認識対象の拡大を図ることが可能となる。
【0096】
また、本実施形態によれば、例えば環境音素モデルは、母音及び子音とは異なる音素のみを用いて構築されてもよい。この場合、環境音モデルを参照して環境音情報を認識する際、音声情報との誤認識を抑制することができる。これにより、環境音認識の精度向上を図ることが可能となる。
【0097】
また、本実施形態によれば、例えば導出部12は、複数の学習モデルの2以上を参照し、物理音情報から複数の音素情報を抽出し、参照した学習モデルのそれぞれに紐づくデータベースを参照し、複数の音素情報のそれぞれに基づく認識結果を導出することができる。この場合、例えば物理音情報として周波数等の特徴が異なる複数の音波の情報が含まれていても、複数の学習モデルを用いることで、複数の音波の情報毎に音素情報を抽出することができる。これにより、複数の音素情報を踏まえた認識結果を導出することができる。これにより、導出される認識結果の精度を向上させることが可能となる。なお、上記の場合には、例えば判定部が用いられ、それぞれ平行して抽出された上記複数の音素情報に基づき、認識結果が導出されてもよい。この場合においても、導出される認識結果の精度を向上させることが可能となる。
【0098】
(第1実施形態:音認識方法の第1変形例)
次に、本実施形態における音認識方法の第1変形例について説明する。図7(a)は、本実施形態における音認識方法の第1変形例を示す模式図である。
【0099】
第1変形例では、導出ステップS200が、第1導出ステップS210と、第2導出ステップS220とを含む。例えば音認識装置1の導出部12は、第1導出部と、第2導出部とを含む。第1導出部は、第1導出ステップS210を実施する。第2導出部は、第2導出ステップS220を実施する。
【0100】
<<第1導出ステップS210>>
第1導出ステップS210は、例えば図7(a)に示すように、第1学習モデル、及び第1データベースを参照し、物理音情報に含まれる内容の少なくとも一部を認識した第1認識結果を導出する。
【0101】
<<第2導出ステップS220>>
第2導出ステップS220は、第2学習モデル、及び第2データベースを参照し、物理音情報に含まれる内容の少なくとも一部を認識した第2認識結果を導出する。なお、第2導出ステップS220では、第1導出ステップS210と同様の物理音情報を用いて、第2認識結果を導出する。
【0102】
第1導出ステップS210及び第2導出ステップS220では、例えば上述した導出ステップS200と同様の処理を用いて、物理音情報から第1認識結果及び第2認識結果を導出することができる。
【0103】
なお、第1導出ステップS210及び第2導出ステップS220を実施する順番は、任意である。
【0104】
その後、導出ステップS200は、例えば第1認識結果及び第2認識結果に基づき、認識結果を導出する。導出ステップS200では、第1認識結果及び第2認識結果を認識結果として導出するほか、例えば第1認識結果又は第2認識結果の何れかを認識結果として導出してもよい。
【0105】
本変形例によれば、第1導出ステップS210は、第1学習モデル及び第1データベースを参照し、第1認識結果を導出する。また、第2導出ステップS220は、第2学習モデル及び第2データベースを参照し、第2認識結果を導出する。このため、1つの物理音情報に対し、異なる処理によって2種類の認識結果を導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0106】
なお、例えば第1導出ステップS210は、上述した音声素モデル及び音声素データベースを参照し、物理音情報に含まれる音声情報の内容を認識した音声認識結果を、第1認識結果として導出してもよい。また、第2導出ステップS220は、上述した環境音素モデル及び環境音素データベースを参照し、物理音情報に含まれる環境音情報の内容を認識した環境音認識結果を、第2認識結果として導出してもよい。
【0107】
即ち、第1導出部は、音声情報の内容を認識した音声認識結果を導出する。また、第2導出部は、環境音情報の内容を認識した環境音認識結果を導出する。また、導出部12は、音声認識結果及び環境音認識結果に基づき、認識結果を導出する。このため、1つの物理音情報に音声情報及び環境音情報が含まれる場合においても、音声情報及び環境音情報の内容を踏まえた認識結果を導出することができる。これにより、環境音情報の特徴を踏まえた音声認識を実施することができる。従って、音声認識の精度向上を図ることが可能となる。
【0108】
(第1実施形態:音認識方法の第2変形例)
次に、本実施形態における音認識方法の第2変形例について説明する。第2変形例では、第1導出ステップS210において第1物理音情報(例えば音声情報)を対象とした認識を実施し、第2導出ステップS220において第2物理音情報(例えば環境音情報)を対象とした認識を実施する。なお、上述した第1変形例と同様に、第1導出部は第1導出ステップS210を実施し、第2導出部は第2導出ステップS220を実施してもよい。
【0109】
本変形例における物理音情報は、例えば図7(b)に示すように、それぞれ異なる期間に生じた第1物理音情報及び第2物理音情報を含む。第1物理音情報及び第2物理音情報は、例えば一部の期間において重複してもよい。第1物理音情報及び第2物理音情報は、同一の時間幅を示すほか、例えば異なる時間幅を示してもよい。
【0110】
なお、例えば取得部11は、取得した物理音情報から、公知の技術を用いて第1物理音情報及び第2物理音情報を抽出してもよい。取得部11は、例えば物理音情報から特定できる特徴(例えば振幅、周波数、及び音色の少なくとも何れか)に基づき、第1物理音情報と、第2物理音情報とを抽出する。この場合、例えば第1物理音情報として、可聴周波数帯域の音波に対応する音声情報が抽出され、第2物理音情報として、可聴周波数帯域とは異なる周波数帯域の音波に対応する環境音情報が抽出される。
【0111】
第1導出ステップS210は、例えば音声素モデル、及び音声素データベースを参照し、第1物理音情報に含まれる音声の内容を認識した第1認識結果を導出する。この際、第1導出ステップS210は、第2物理音情報の内容を認識しない。
【0112】
第2導出ステップS220は、例えば環境音素モデル、及び環境音素データベースを参照し、第2物理音情報に含まれる環境音の内容を認識した第2認識結果を導出する。この際、第2導出ステップS220は、第1物理音情報の内容を認識しない。
【0113】
なお、第1導出ステップS210及び第2導出ステップS220を実施する順番は、第1物理音情報及び第2物理音情報を取得したタイミングに関わらず、任意である。
【0114】
本変形例によれば、第1導出ステップS210は、例えば第1導出部が、第1物理音情報の内容を認識した第1認識結果を導出する。また、第2導出ステップS220は、例えば第2導出部が、第2物理音情報に含まれる環境音の内容を認識した第2認識結果を導出する。このため、音声及び環境音の認識を、それぞれ最適な物理音情報を用いて実施することができる。これにより、音声及び環境音の認識精度の向上を図ることが可能となる。
【0115】
(第1実施形態:音認識方法の第3変形例)
次に、本実施形態における音認識方法の第3変形例について説明する。第3変形例では、第1導出ステップS210を実施したあと、第2導出ステップS220を実施する。
【0116】
第2導出ステップS220では、例えば図8(a)に示すように、第2導出部は、第1認識結果に基づき第2認識結果を導出する。第2導出部は、例えば第2学習モデル、第2データベース、及び第1認識結果を参照し、物理音情報に含まれる内容を認識した第2認識結果を導出する。例えば、第1認識結果として特定の内容が導出された場合(例えば「火事です」等)、第2導出部は、物理音情報のうち特定の内容(例えば「ピーピー」等)を導出する可能性を高めてもよい。この場合、第2導出部は、例えば保存部104に予め保存された特定の内容と、第1認識結果とを比較し、比較結果を踏まえて特定の内容を導出する可能性を変更してもよい。
【0117】
なお、特定の内容を導出する可能性の変更方法として、例えば第2学習モデルにおける特定の参照用音素を抽出するための閾値を変更するほか、第2データベースにおける特定の認識情報を選択するための閾値を変更する等のような、音素認識技術で用いられる公知の処理方法が挙げられる。
【0118】
例えば第2導出部は、第1認識結果に基づき、第2認識結果を導出するか否かを判定してもよい。例えば第2導出部は、第1認識結果として特定の内容が導出された場合(例えば「火事です」等)、第2認識結果を導出し、第1認識結果として特定の内容が導出されなかった場合、第2認識結果を導出しない。これらの場合、第2導出部は、例えば保存部104に予め保存された特定の内容と、第1認識結果とを比較し、比較結果を踏まえて第2認識結果を導出するか否かを判定してもよい。
【0119】
本変形例によれば、第2導出ステップS220は、例えば第2導出部が、第1認識結果に基づき第2認識結果を導出する。このため、第1認識結果を踏まえた第2認識結果を導出することができる。これにより、第2認識結果の導出精度を向上させることが可能となる。
【0120】
例えば第1導出部が、音声素モデル、及び音声素データベースを参照して第1認識結果を導出し、第2導出部が、環境音素モデル、環境音素データベース、及び第1認識結果を参照し、物理音情報に含まれる環境音情報の内容を認識した第2認識結果を導出してもよい。この場合においても、第1認識結果を踏まえた第2認識結果を導出することができる。これにより、環境音認識の精度を向上させることが可能となる。また、第1認識結果の内容に応じて、環境音情報に対する認識条件を変更することができる。これにより、音声を利用した環境音の認識条件の設定を実現することが可能となる。
【0121】
(第1実施形態:音認識方法の第4変形例)
次に、本実施形態における音認識方法の第4変形例について説明する。第4変形例では、第2導出ステップS220を実施したあと、第1導出ステップS210を実施する。
【0122】
第1導出ステップS210では、例えば図8(b)に示すように、第1導出部は、第2認識結果に基づき第1認識結果を導出する。第1導出部は、例えば第1学習モデル、第1データベース、及び第2認識結果を参照し、物理音情報に含まれる内容を認識した第1認識結果を導出する。例えば、第2認識結果として特定の内容が導出された場合(例えば「ピーピー」等)、第1導出部は、物理音情報のうち特定の内容(例えば「火事です」等)を導出する可能性を高めてもよい。この場合、第1導出部は、例えば保存部104に予め保存された特定の内容と、第2認識結果とを比較し、比較結果を踏まえて特定の内容を導出する可能性を変更してもよい。
【0123】
なお、特定の内容を導出する可能性の変更方法として、例えば第1学習モデルにおける特定の参照用音素を抽出するための閾値を変更するほか、第1データベースにおける特定の認識情報を選択するための閾値を変更する等のような、音素認識技術で用いられる公知の処理方法が挙げられる。
【0124】
例えば第1導出部は、第2認識結果に基づき、第1認識結果を導出するか否かを判定してもよい。例えば第1導出部は、第2認識結果として特定の内容が導出された場合(例えば「ピーピー」等)、第1認識結果を導出し、第2認識結果として特定の内容が導出されなかった場合、第1認識結果を導出しない。これらの場合、第1導出部は、例えば保存部104に予め保存された特定の内容と、第2認識結果とを比較し、比較結果を踏まえて第1認識結果を導出するか否かを判定してもよい。
【0125】
例えば第1導出部は、第2認識結果に基づき、物理音情報に含まれる第2認識結果に紐づく第2物理音情報を除去した加工音情報を生成し、加工音情報に含まれる内容を認識した第1認識結果を導出してもよい。この場合、第1導出部は、公知のノイズキャンセリング技術を用いて、物理音情報から第2物理音情報を除去した加工音情報を生成する。この際、例えば第1導出部は、第2データベース等を用いて加工音情報を生成してもよい。
【0126】
本変形例によれば、第1導出ステップS210は、例えば第1導出部が、第2認識結果に基づき第1認識結果を導出する。このため、第2認識結果を踏まえた第1認識結果を導出することができる。
【0127】
例えば第2導出部が、環境音素モデル、及び環境音素データベースを参照して第2認識結果を導出し、第1導出部が、音声素モデル、音声素データベース、及び第2認識結果を参照し、物理音情報に含まれる音声情報の内容を認識した第1認識結果を導出してもよい。この場合においても、第2認識結果を踏まえた第1認識結果を導出することができる。これにより、音声認識の精度を向上させることが可能となる。また、第2認識結果の内容に応じて、音声情報に対する認識条件を変更することができる。これにより、環境音を利用した音声の認識条件の設定を実現することが可能となる。
【0128】
(第1実施形態:音認識方法の第5変形例)
次に、本実施形態における音認識方法の第5変形例について説明する。第5変形例では、認識結果として総合認識結果を導出する。
【0129】
導出ステップS200では、例えば図9に示すように、導出部12は、第1認識結果及び第2認識結果に基づき、物理音情報に対する総合認識結果を、認識結果として導出する。総合認識結果は、例えば第1認識結果及び第2認識結果を組合せた内容(例えば「ピーピー、火事です」等)を示す。
【0130】
例えば導出部12は、第1認識結果及び第2認識結果とは異なる内容を、総合認識結果として導出してもよい。この場合、導出部12は、例えば保存部104に予め保存された参照用の第1認識結果及び第2認識結果と、導出部12により導出された第1認識結果及び第2認識結果とを比較し、比較結果として一致又は類似と判定された場合に、参照用の第1認識結果及び第2認識結果に紐づく内容を、総合認識結果として導出してもよい。
【0131】
例えば導出部12は、第1認識結果及び第2認識結果に基づき、総合認識結果を導出するか否かを判定してもよい。例えば導出部12は、第1認識結果として特定の内容(例えば「火事です」等)が導出され、第2認識結果として特定の内容(例えば「ピーピー」等)が導出された場合、総合認識結果を導出し、各認識結果として特定の内容が導出されなかった場合、総合認識結果を導出しない。これらの場合、導出部12は、例えば保存部104に予め保存された特定の内容と、第1認識結果及び第2認識結果とを比較し、比較結果を踏まえて総合認識結果を導出するか否かを判定してもよい。
【0132】
本変形例によれば、導出ステップS200は、例えば導出部12が、第1認識結果及び第2認識結果に基づき、物理音情報に対する総合認識結果を、認識結果として導出する。このため、物理音情報に含まれる複数の情報(例えば音声情報及び環境音情報)を踏まえた認識結果を導出することができる。これにより、物理音情報に対する認識精度を向上させることが可能となる。
【0133】
また、本変形例によれば、導出部12は、第1認識結果及び第2認識結果に基づき、第1認識結果及び第2認識結果とは異なる総合認識結果を、認識結果として導出する。このため、物理音情報に含まれる情報(例えば音声情報及び環境音情報)の個々の内容のみでは認識しきれない物理音情報全体の内容についても、総合認識結果として導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0134】
(第2実施形態:音認識システム100、及び音認識方法)
次に、第2実施形態における音認識システム100、及び音認識方法の一例について説明する。上述した実施形態と、本実施形態との違いは、第1導出ステップS210が、第1抽出ステップS211と、第1認識ステップS212とを含み、第2導出ステップS220が、第2抽出ステップS221と、第2認識ステップS222とを含む点である。なお、上述した実施形態と同様の内容については、説明を省略する。
【0135】
第1抽出ステップS211は、例えば図10に示すように、音声素モデルを参照し、物理音情報(又は第1物理音情報)に含まれる音声情報に対応する音声素情報を抽出する。例えば第1導出部は、公知の音素認識技術を用いて、音声素モデルを参照して音声素情報を抽出する。第1導出部は、例えば1つの物理音情報に対し、対応する可能性のある複数の音声素情報を抽出してもよい。
【0136】
第1認識ステップS212は、音声素データベースを参照し、音声素情報に対応する第1認識結果を導出する。第1認識ステップS212では、第1抽出ステップS211において参照した音声素モデルに紐づく音声素データベースを参照する。
【0137】
例えば第1導出部は、公知の機械学習を用いて構築された音声素データベースを参照し、抽出された音声素情報から第1認識結果を導出する。例えば音声素情報が複数抽出された場合、第1導出部は、最も音声情報に対応する可能性のある音声素情報から、第1認識結果を導出してもよい。
【0138】
第2抽出ステップS221は、環境音素モデルを参照し、物理音情報(又は第2物理音情報)に含まれる環境音情報に対応する環境音素情報を抽出する。例えば第2導出部は、公知の音素認識技術を用いて、環境音素モデルを参照して環境音素情報を抽出する。第2導出部は、例えば1つの物理音情報に対し、対応する可能性のある複数の環境音素情報を抽出してもよい。
【0139】
第2認識ステップS222は、環境音素データベースを参照し、環境音素情報に対応する第2認識結果を導出する。第2認識ステップS222では、第2抽出ステップS221において参照した環境音素モデルに紐づく環境音素データベースを参照する。
【0140】
例えば第2導出部は、公知の機械学習を用いて構築された環境音素データベースを参照し、抽出された環境音素情報から第2認識結果を導出する。例えば環境音素情報が複数抽出された場合、第2導出部は、最も環境音情報に対応する可能性のある環境音素情報から、第2認識結果を導出してもよい。
【0141】
本実施形態によれば、第1導出ステップS210は、第1抽出ステップS211と、第1認識ステップS212とを含む。また、第2導出ステップS220は、第2抽出ステップS221と、第2認識ステップS222とを含む。このため、各ステップにて参照する音声素モデル、音声素データベース、環境音素モデル、及び環境音素データベースの少なくとも何れかを更新する際、個別に更新することができる。これにより、用途に応じた認識条件の最適化を容易に実現することが可能となる。
【0142】
なお、上記では第1抽出ステップS211において音声素モデルを用いる例を示したが、第2抽出ステップS221において用いられる環境音素モデルとは異なる環境音素モデルが用いられてもよい。また、上記では第2抽出ステップS221において環境音素モデルを用いる例を示したが、第1抽出ステップS211において用いられる音声素モデルとは異なる音声素モデルが用いられてもよい。何れの場合においても、上記と同様に、用途に応じた認識条件の最適化を容易に実現することが可能となる。
【0143】
(第2実施形態:音認識方法の変形例)
次に、本実施形態における音認識方法の変形例について説明する。本変形例は、音声素データベースが、音声素用文字列データベースと、音声素用配列データベースとを含み、環境音素データベースが、環境音素用文字列データベースと、環境音素用配列データベースとを含む。また、本変形例は、例えば第1認識ステップS212が、第1選択ステップS212aと、第1特定ステップS212bと、第1評価ステップS212cとを含み、第2認識ステップS222が、第2選択ステップS222aと、第2特定ステップS222bと、第2評価ステップS222cとを含んでもよい。
【0144】
音声素用文字列データベースは、例えば図11に示すように、それぞれ紐づけられた認識用音声素、音声認識情報、及び音声IDを含む。音声素用文字列データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。
【0145】
音声素用配列データベースは、音声IDの配列順序を示す音声文法情報を含む。音声素用配列データベースでは、1つの音声文法情報として1つの音声IDの配列順序が対応する。
【0146】
環境音素用文字列データベースは、例えばそれぞれ紐づけられた認識用環境音素、環境音認識情報、及び環境音IDを含む。環境音素用文字列データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。
【0147】
環境音素用配列データベースは、環境音IDの配列順序を示す環境音文法情報を複数含む。環境音素用配列データベースでは、1つの環境音文法情報として1つの環境音IDの配列順序が対応する。
【0148】
第1選択ステップS212aは、例えば図12に示すように、音声素用文字列データベースを参照し、音声素情報に対応する音声候補データを選択する。例えば第1導出部は、音声素情報に対応する音声認識情報、及び音声IDの複数の組合せを、音声候補データとして選択する。例えば第1導出部において、音声認識情報、及び音声IDの組合せを選択する数は、任意に設定することができる。
【0149】
第1特定ステップS212bは、音声素用配列データベースを参照し、音声IDの配列順序を特定する。例えば第1導出部は、選択された音声候補データのうち、音声情報の内容に類似する可能性が最も高い音声IDの配列に対応する配列順序を特定し、音声IDの配列順序に紐づく音声認識情報を用いて、音声認識データを生成する。音声認識データは、例えば各音声認識情報に紐づく信頼度を含んでもよい。なお、信頼度は、公知の音声認識技術により付与された値を用いてもよく、例えば第1選択ステップS212aにおける音声候補データを選択する際、各音声認識情報の適合率として付与されてもよい。
【0150】
例えば第1導出部は、音声素用配列データベースを参照し、音声候補データに対応し得る複数の音声センテンスを生成してもよい(例えば図12の破線矢印)。この場合、第1導出部は、音声情報の内容に類似する可能性が最も高い音声センテンスを選択し、音声認識データとして生成する。第1導出部は、例えば音声センテンス毎に含まれる信頼度の平均値から、音声情報の内容に最も類似する音声センテンスを選択するほか、例えば最も高い信頼度を含む音声センテンスを選択してもよい。なお、音声センテンスは、音声認識データと同種のデータを示す。
【0151】
第1評価ステップS212cは、音声認識データに基づき、第1認識結果を導出する。例えば第1導出部は、公知のマッチング技術を用いて、音声認識データに最適な第1認識結果を導出してもよい。この場合、第1導出部は、例えば保存部104に予め保存された複数の候補データと、音声認識データとを比較した結果を踏まえ、特定の候補データを第1認識結果として導出してもよい。
【0152】
第1導出部は、例えば図14に示す音声素用参照データベースを参照してもよい。音声素用参照データベースは、それぞれ紐づけられた音声用参照センテンス、音声認識情報、及び閾値を含み、例えば認識用音声素を含んでもよい。音声参照用データベースでは、例えば1つの音声用参照センテンスに、複数の音声認識情報、及び複数の閾値が紐づけられている。
【0153】
例えば第1導出部は、音声素用参照データベースを参照し、音声認識データに最も対応する可能性の高い音声用参照センテンスを選択し、第1認識結果として導出する。この際、音声認識データと、各音声用参照センテンスとの対応関係の比較には、信頼度と、閾値との比較を用いてもよい。
【0154】
第2選択ステップS222aは、例えば図13に示すように、環境音素用文字列データベースを参照し、環境音素情報に対応する環境音候補データを選択する。例えば第2導出部は、環境音素情報に対応する環境音認識情報、及び環境音IDの複数の組合せを、環境音候補データとして選択する。例えば第2導出部において、環境音認識情報、及び環境音IDの組合せを選択する数は、任意に設定することができる。
【0155】
第2特定ステップS222bは、環境音素用配列データベースを参照し、環境音IDの配列順序を特定する。例えば第2導出部は、選択された環境音候補データのうち、環境音情報の内容に類似する可能性が最も高い環境音IDの配列に対応する配列順序を特定し、環境音IDの配列順序に紐づく環境音認識情報を用いて、環境音認識データを生成する。環境音認識データは、例えば各環境音認識情報に紐づく信頼度を含んでもよい。なお、信頼度は、公知の音声認識技術により付与された値を用いてもよく、例えば第2選択ステップS222aにおける環境音候補データを選択する際、各環境音認識情報の適合率として付与されてもよい。
【0156】
例えば第2導出部は、環境音素用配列データベースを参照し、環境音候補データに対応し得る複数の環境音センテンスを生成してもよい(例えば図13の破線矢印)。この場合、第2導出部は、環境音情報の内容に類似する可能性が最も高い環境音センテンスを選択し、環境音認識データとして生成する。第2導出部は、例えば環境音センテンス毎に含まれる信頼度の平均値から、環境音情報の内容に最も類似する環境音センテンスを選択するほか、例えば最も高い信頼度を含む環境音センテンスを選択してもよい。なお、環境音センテンスは、環境音認識データと同種のデータを示す。
【0157】
第2評価ステップS222cは、環境音認識データに基づき、第2認識結果を導出する。例えば第2導出部は、公知のマッチング技術を用いて、環境音認識データに最適な第2認識結果を導出してもよい。この場合、第2導出部は、例えば保存部104に予め保存された複数の候補データと、環境音認識データとを比較した結果を踏まえ、特定の候補データを第2認識結果として導出してもよい。
【0158】
第2導出部は、例えば図14に示す環境音素用参照データベースを参照してもよい。環境音素用参照データベースは、それぞれ紐づけられた環境音用参照センテンス、環境音認識情報、及び閾値を含み、例えば認識用環境音素を含んでもよい。環境音参照用データベースでは、例えば1つの環境音用参照センテンスに、複数の環境音認識情報、及び複数の閾値が紐づけられている。
【0159】
例えば第2導出部は、環境音素用参照データベースを参照し、環境音認識データに最も対応する可能性の高い環境音用参照センテンスを選択し、第2認識結果として導出する。この際、環境音認識データと、各環境音用参照センテンスとの対応関係の比較には、信頼度と、閾値との比較を用いてもよい。
【0160】
本変形例によれば、音声素データベースは、音声素用文字列データベースと、音声素用配列データベースとを含む。このため、各データベースの容量を抑えた状態で、音声認識を実現することができる。これにより、通信網4等と接続が困難な環境においても、認識可能な音声の種類を増加させることが可能となる。
【0161】
本変形例によれば、環境音素データベースは、環境音素用文字列データベースと、環境音素用配列データベースとを含む。このため、認識対象となる環境音情報が、複数の音素の組合せにより構成される場合においても、音素の配列順序を考慮した認識結果を導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0162】
(第3実施形態:音認識システム100)
次に、第3実施形態における音認識システム100の一例について説明する。上述した実施形態と、本実施形態との違いは、ダミー音素を用いてデータベースが構築される点である。なお、上述した実施形態と同様の内容については、説明を省略する。
【0163】
本実施形態における音認識システム100において、認識用音素はダミー音素を含む。音認識システム100では、例えばダミー情報に紐づけられた認識情報(ダミー認識情報)が、認識結果として導出され難い条件に設定される。例えば上述した判定部は、ダミー認識情報を認識結果として導出されないように設定される。この場合、判定部の参照する参照用認識結果として、例えばダミー認識結果を除く情報が用いられる。
【0164】
例えばダミー音素は、物理音情報から抽出された音素情報に基づき、他の認識用音素に比べて選択され難い条件に設定されてもよい。例えば図15に示すように、ダミー音素には、例えば他の認識用音素よりも高い閾値が設定される。この場合、例えば導出部12が、音素情報に基づいてダミー音素を特定する可能性を低減させ、他の認識用音素を特定する可能性を高めることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0165】
上記のほか、例えばダミー音素として、学習モデルの構築に用いられていない音素が用いられてもよい。この場合、学習モデルを参照して抽出された音素情報には、ダミー音素が含まれ難い。このため、導出部12が、音素情報に基づいてダミー音素を特定する可能性を低減させ、他の認識用音素を特定する可能性を高めることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0166】
上記のほか、例えば音認識システム100の収音装置2が、特定の物理音のみを収音してもよい。この場合、ダミー音素として、他の認識用音素に比べて特定の物理音から抽出され難い音素が用いられる。この場合においても、導出部12が、音素情報に基づいてダミー音素を特定する可能性を低減させ、他の認識用音素を特定する可能性を高めることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0167】
音認識システム100における複数のデータベースは、第1データベースと、第2データベースを含む。第1データベースは、第1認識用音素を用いて構築される。また、第2データベースは、第1認識用音素とは異なる第2認識用音素、及び第1認識用音素と等しいダミー音素(図15の「g/y/o:」)を用いて構築される。即ち、第1データベースにおいて認識対象となる第1認識用音素が、第2データベースでは認識対象外のダミー音素として用いられる。このため、各データベースにおける認識対象の違いを際立たせることができる。
【0168】
なお、各データベースの構築に用いられる認識用音素として、1つの認識用音素、及び1つのダミー音素のみが設定されてもよい。この場合、1つの認識用音素のみの判定に特化したデータベースが構築される。
【0169】
なお、ダミー音素を用いて構築されたデータベースは、例えば上述した各実施形態のデータベースとして用いることができる。また、ダミー音素は、上述した文字列データベースに含ませてもよい。以下、導出部12が、上述した第1導出部と、第2導出部とを含む場合について説明する。
【0170】
第1導出部は、第1データベース、及び第1データベースに紐づく第1学習モデルを参照し、物理音情報の内容を認識した第1認識結果(例えば「ギョ―」)を導出する。また、第2導出部は、第2データベース、及び第2データベースに紐づく第2学習モデルを参照し、物理音情報の内容を認識した第2認識結果(例えば「ミャーオ」)を導出する。その後、例えば導出部12は、第1認識結果及び第2認識結果に基づき、認識結果を導出する。
【0171】
上記において、第2データベースにおけるダミー音素の影響により、第2認識結果として第1認識結果と同様の内容が導出される可能性を、極めて低くすることができる。
【0172】
本実施形態によれば、複数のデータベースは、第1認識用音素を用いて構築された第1データベースと、第2認識用音素、及びダミー音素を用いて構築された第2データベースとを含む。このため、第2データベースを参照して認識結果を導出する際、第1データベースを参照した場合に導出される認識結果との差異を明確にすることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0173】
また、本実施形態によれば、第2データベースは、第2認識用音素、及びダミー音素のみを認識用音素として用いて構築されたものである。このため、第2データベースを参照する際、第2認識用音素の判定に特化した認識を実施することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0174】
また、本実施形態によれば、導出部12は、第1認識結果を導出する第1導出部と、第2認識結果を導出する第2導出部とを含み、第1認識結果及び第2認識結果に基づき、認識結果を導出する。このため、1つの物理音情報に複数の内容が含まれる場合においても、複数の内容を踏まえた認識結果を導出することができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。
【0175】
上述した音認識システム100、音認識装置1、及び音認識方法では、例えば下記のような環境音を対象とした認識結果を導出することができる。
【0176】
<<自然音>>
例えば環境音は、自然音を対象とした音波を示してもよい。自然音は、水の音、雨の音、地面の音、風の音、雷の音、草木の揺れる音等のような、自然を介して発生した音波を示す。自然音を対象として導出された認識結果は、例えば天候の予測、災害予測等のような将来予測の検討時に利用することができる。
【0177】
<<動物の鳴き声>>
例えば環境音は、動物の鳴き声を対象とした音波を示してもよい。動物の鳴き声を対象として導出された認識結果は、例えば動物の健康管理、鳥獣対策等の検討時に利用することができる。
【0178】
<<産業音>>
例えば環境音は、産業音を対象とした音波を示してもよい。産業音は、コンクリート等を叩く打音、コネクタ等の接続時に発する嵌合音、モーター音、電子音等のような、産業活動に伴い発生した音波を示す。産業音を対象として導出された認識結果は、例えば建造物の劣化判定、製造物の良否判定、製品の故障判定、製品の故障予測等のような、産業活動への影響因子の検討時に利用することができる。
【0179】
<<放射騒音(アコースティック・エミッション)>>
例えば環境音は、放射騒音(AE:Acoustic Emission)を対象とした音波を示してもよい。放射騒音は、ガラスの割れる音、木材の折れる音、コンクリートのき裂発生時の音等のような、材料の変形や破壊に伴い発生した音波を示す。放射騒音を対象として導出された認識結果は、例えば建造物の劣化判定、防犯等に利用することができる。
【0180】
なお、上述した第1学習モデル及び第1データベースとして、例えば環境音素モデル及び環境音素データベースが用いられてもよい。また、上述した第2学習モデル及び第2データベースとして、例えば音声素モデル及び音声素データベースが用いられてもよい。また、上述した各実施形態及び変形例の各構成は、それぞれ組合せてもよい。
【0181】
本発明の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0182】
1 :音認識装置
10 :筐体
11 :取得部
12 :導出部
13 :出力部
14 :記憶部
2 :収音装置
3 :制御装置
4 :通信網
5 :サーバ
6 :ユーザ端末
100 :音認識システム
S100 :取得ステップ
S200 :導出ステップ
S210 :第1導出ステップ
S220 :第2導出ステップ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15