特開2024-134879 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 菱洋エレクトロ株式会社の特許一覧

特開2024-134879音認識システム、及び音認識方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024134879

(43)【公開日】2024-10-04

(54)【発明の名称】音認識システム、及び音認識方法

(51)【国際特許分類】

G10L 15/10 20060101AFI20240927BHJP

G10L 15/32 20130101ALI20240927BHJP

【ＦＩ】

G10L15/10 500Z

G10L15/32 200Z

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023045310

(22)【出願日】2023-03-22

(71)【出願人】

【識別番号】391021684

【氏名又は名称】菱洋エレクトロ株式会社

(74)【代理人】

【識別番号】100120868

【弁理士】

【氏名又は名称】安彦元

(72)【発明者】

【氏名】菊田敦

(72)【発明者】

【氏名】越田高広

(72)【発明者】

【氏名】池田彬

(72)【発明者】

【氏名】胡玉涛

(57)【要約】（修正有）

【課題】物理音を対象とした認識精度の向上を図る音認識システム、及び音認識方法を提供する。
【解決手段】音素認識を用いた音認識システムであって、音声認識装置１は、取得部と、保存部と、導出部と、を備える。取得部は、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する。保存部は、予め設定された音素認識の認識条件が複数保存される。生成部は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。導出部は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。
【選択図】図４

【特許請求の範囲】

【請求項1】

音素認識を用いた音認識システムであって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、
予め設定された前記音素認識の認識条件が複数保存された保存部と、
前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記認識条件に基づき生成する生成部と、
複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出部と、
を備えること
を特徴とする音認識システム。

【請求項2】

前記導出部は、
複数の前記認識履歴毎に含まれる特徴量を特定し、
複数の前記特徴量を用いて、前記認識結果を導出すること
を含むこと
を特徴とする請求項１記載の音認識システム。

【請求項3】

前記生成部は、
第１認識条件に基づき、前記物理音情報に対応する第１認識履歴を生成し、
前記第１認識履歴に基づき、前記第１認識条件とは異なる第２認識条件を選択し、
前記第２認識条件に基づき、前記物理音情報に対応する第２認識履歴を生成すること
を含み、
前記導出部は、前記第１認識履歴、及び前記第２認識履歴を少なくとも含む複数の前記認識履歴に基づき、前記認識結果を導出することを含むこと
を特徴とする請求項１記載の音認識システム。

【請求項4】

前記生成部は、それぞれ異なる前記認識条件を用いて前記認識履歴を生成する第１認識部、及び第２認識部を含むこと
を特徴とする請求項１記載の音認識システム。

【請求項5】

前記生成部は、
前記第１認識部を介して生成された第１認識履歴、及び
前記第２認識部を介して生成された第２認識履歴
に基づき、前記第１認識部及び前記第２認識部における前記認識条件を選択し、
選択された前記認識条件に基づき、
前記第１認識部を介して第３認識履歴、及び
前記第２認識部を介して第４認識履歴
を生成すること
を含むこと
を特徴とする請求項４記載の音認識システム。

【請求項6】

前記認識履歴は、
前記物理音情報から抽出された音素情報と、
前記認識条件の特徴を示す認識条件情報と、
前記認識条件に基づき、前記音素情報を評価した結果を示す評価情報と、
を含むこと
を特徴とする請求項１～５の何れか１項記載の音認識システム。

【請求項7】

前記認識条件情報は、前記音素認識に用いられる学習モデルを特定する情報を含み、
前記学習モデルは、予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築され、前記保存部に複数保存されること
を特徴とする請求項６記載の音認識システム。

【請求項8】

前記認識条件情報は、前記音素認識に用いられるデータベースを特定する情報を含み、
前記データベースは、予め取得された認識用音素と、前記認識用音素に紐づく認識情報とを用いて構築され、前記保存部に複数保存され、
前記生成部は、
前記認識条件に紐づく前記学習モデルを参照し、前記物理音情報から前記音素情報を抽出し、
前記認識条件に紐づく前記データベースを参照し、前記音素情報に対応する前記評価情報を導出し、
前記音素情報、参照した前記学習モデルの情報、参照した前記データベースの情報、及び前記評価情報を含む前記認識履歴を生成すること
を特徴とする請求項７記載の音認識システム。

【請求項9】

音素認識を用いた音認識方法であって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得ステップと、
前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記音素認識の認識条件に基づき生成する生成ステップと、
複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出ステップと、
を備えること
を特徴とする音認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音素認識を用いた音認識システム、及び音認識方法に関する。

【背景技術】

【0002】

従来、音素認識を用いた音認識に関する技術として、例えば特許文献１、２の音声認識システム等が提案されている。

【0003】

特許文献１では、例えば複数混合のガウス混合モデルを生成し、所定の雑音のない音声ＨＭＭと生成された雑音ガウス混合モデルから複数の適応化されたＨＭＭを生成し、生成された複数の適応化されたＨＭＭを並置しマルチパス形式の音響モデルを生成し、抽出された特徴量に基づき上記適応化された音響モデルを用いて発話音声信号の音声認識を行う旨の技術が開示されている。

【0004】

特許文献２では、少なくとも１つの音声データを取得する取得手段と、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、認識対象データとして抽出する抽出手段等を備えることを特徴とする音声認識システムが開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００３－１７７７８１号公報

【特許文献2】特許第６４６２９３６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

ここで、媒質を介して伝播する物理音の認識技術は、様々な用途が期待される一方で、認識精度の向上が難しいという事情がある。この点、特許文献１では、雑音等の環境音が混入した場合においても、高い音声認識率を得ることを前提としており、環境音については、雑音（ノイズ）としての扱いを前提としている。即ち、音声以外の物理音を対象とした認識については、記載も示唆もされていない。また、特許文献２の開示技術においても、音声以外の物理音を対象とした認識については、記載も示唆もされていない。

【0007】

そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、物理音を対象とした認識精度の向上を図る音認識システム、及び音認識方法を提供することにある。

【課題を解決するための手段】

【0008】

第１発明に係る音認識システムは、音素認識を用いた音認識システムであって、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、予め設定された前記音素認識の認識条件が複数保存された保存部と、前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記認識条件に基づき生成する生成部と、複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出部と、を備えることを特徴とする。

【0009】

第２発明に係る音認識システムは、第１発明において、前記導出部は、複数の前記認識履歴毎に含まれる特徴量を特定し、複数の前記特徴量を用いて、前記認識結果を導出することを含むことを特徴とする。

【0010】

第３発明に係る音認識システムは、第１発明において、前記生成部は、第１認識条件に基づき、前記物理音情報に対応する第１認識履歴を生成し、前記第１認識履歴に基づき、前記第１認識条件とは異なる第２認識条件を選択し、前記第２認識条件に基づき、前記物理音情報に対応する第２認識履歴を生成することを含み、前記導出部は、前記第１認識履歴、及び前記第２認識履歴を少なくとも含む複数の前記認識履歴に基づき、前記認識結果を導出することを含むことを特徴とする。

【0011】

第４発明に係る音認識システムは、第１発明において、前記生成部は、それぞれ異なる前記認識条件を用いて前記認識履歴を生成する第１認識部、及び第２認識部を含むことを特徴とする。

【0012】

第５発明に係る音認識システムは、第４発明において、前記生成部は、前記第１認識部を介して生成された第１認識履歴、及び前記第２認識部を介して生成された第２認識履歴に基づき、前記第１認識部及び前記第２認識部における前記認識条件を選択し、選択された前記認識条件に基づき、前記第１認識部を介して第３認識履歴、及び前記第２認識部を介して第４認識履歴を生成することを含むことを特徴とする。

【0013】

第６発明に係る音認識システムは、第１発明～第５発明の何れかにおいて、前記認識履歴は、前記物理音情報から抽出された音素情報と、前記認識条件の特徴を示す認識条件情報と、前記認識条件に基づき、前記音素情報を評価した結果を示す評価情報と、を含むことを特徴とする。

【0014】

第７発明に係る音認識システムは、第６発明において、前記認識条件情報は、前記音素認識に用いられる学習モデルを特定する情報を含み、前記学習モデルは、予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築され、前記保存部に複数保存されることを特徴とする。

【0015】

第８発明に係る音認識システムは、第７発明において、前記認識条件情報は、前記音素認識に用いられるデータベースを特定する情報を含み、前記データベースは、予め取得された認識用音素と、前記認識用音素に紐づく認識情報とを用いて構築され、前記保存部に複数保存され、前記生成部は、前記認識条件に紐づく前記学習モデルを参照し、前記物理音情報から前記音素情報を抽出し、前記認識条件に紐づく前記データベースを参照し、前記音素情報に対応する前記評価情報を導出し、前記音素情報、参照した前記学習モデルの情報、参照した前記データベースの情報、及び前記評価情報を含む前記認識履歴を生成することを特徴とする。

【0016】

第９発明に係る音認識方法は、音素認識を用いた音認識方法であって、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得ステップと、前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記音素認識の認識条件に基づき生成する生成ステップと、複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出ステップと、を備えることを特徴とする。

【発明の効果】

【0017】

第１発明～第８発明によれば、生成部は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。また、導出部は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。このため、１つの認識条件のみを用いて認識結果を導出する場合に比べ、物理音の特徴を捉え易くすることができる。これにより、物理音を対象とした認識精度を向上させることが可能となる。

【0018】

特に、第２発明によれば、導出部は、複数の認識履歴毎に含まれる特徴量を特定し、複数の特徴量を用いて、認識結果を導出する。このため、複数の認識条件毎に物理音情報を評価した過程の少なくとも一部を特徴量として特定することで、総合的な認識結果を導出することができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0019】

特に、第３発明によれば、生成部は、第１認識履歴に基づき第２認識条件を選択し、第２認識条件に基づき第２認識履歴を生成する。このため、認識履歴の結果を踏まえ、認識精度向上に必要となる認識条件を選択し易くすることができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0020】

特に、第４発明によれば、生成部は、それぞれ異なる認識条件を用いて認識履歴を生成する第１認識部、及び第２認識部を含む。このため、同一の生成部を用いて繰返し認識履歴を生成する場合に比べ、処理時間を短くすることができる。これにより、音認識の反応速度向上を図ることが可能となる。

【0021】

特に、第５発明によれば、生成部は、第１認識履歴及び第２認識履歴に基づき、第１認識部及び第２認識部における認識条件を選択し、選択された認識条件に基づき第３認識履歴及び第４認識履歴を生成する。このため、認識履歴の結果を踏まえ、認識精度向上に必要となる認識条件を選択し易くすることができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0022】

特に、第６発明によれば、認識履歴は、音素情報と、認識条件情報と、評価情報とを含む。このため、認識条件毎に異なる各情報の差異に基づき、認識結果の導出を容易に実現することができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0023】

特に、第７発明によれば、認識条件情報は、音素認識に用いられる学習モデルを特定する情報を含む。このため、学習モデルの違いによって生じ得る評価の差異を、容易に特定することができる。これにより、認識精度の低下を抑制した状態で、抽出可能な音素の幅を拡張させることが可能となる。

【0024】

特に、第８発明によれば、認識条件情報は、音素認識に用いられるデータベースを特定する情報を含む。このため、データベースの違いによって生じ得る評価の差異を、容易に特定することができる。これにより、認識精度の低下を抑制した状態で、認識可能な音素の幅を拡張させることが可能となる。

【0025】

第９発明によれば、生成ステップは、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。また、導出ステップは、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。このため、１つの認識条件のみを用いて認識結果を導出する場合に比べ、物理音の特徴を捉え易くすることができる。これにより、物理音を対象とした認識精度を向上させることが可能となる。

【図面の簡単な説明】

【0026】

【図1】図１は、第１実施形態における音認識システムの構成の一例を示す模式図である。

【図2】図２は、第１実施形態における音認識方法の一例を示す模式図である。

【図3】図３は、認識履歴の一例を示す模式図である。

【図4】図４（ａ）は、音認識装置の構成の一例を示す模式図であり、図４（ｂ）は、音認識装置の機能の一例を示す模式図である。

【図5】図５は、学習モデル、及びデータベースの一例を示す模式図である。

【図6】図６は、第１実施形態における導出部の動作の一例を示す模式図である。

【図7】図７は、第１実施形態における導出部の動作の変形例を示す模式図である。

【図8】図８は、第２実施形態における生成部の動作の一例を示す模式図である。

【図9】図９は、第３実施形態における生成部の動作の一例を示す模式図である。

【図10】図１０は、文字列データベース、及び配列データベースの一例を示す模式図である。

【図11】図１１は、第４実施形態における生成部の動作の一例を示す模式図である。

【発明を実施するための形態】

【0027】

以下、本発明の実施形態における音認識システム及び音認識方法の一例について、図面を参照しながら説明する。

【0028】

（第１実施形態：音認識システム１００、及び音認識方法）
図１を参照して、本実施形態における音認識システム１００の構成の一例について説明する。図１は、本実施形態における音認識システム１００の構成の一例を示す模式図である。

【0029】

音認識システム１００は、音素認識を用いて、物理音の認識を実施するために用いられる。音認識システム１００は、例えば図１に示すように、音認識装置１を備え、例えば収音装置２、及び制御装置３の少なくとも何れかを備えてもよい。音認識システム１００は、例えば後述する状態情報を取得するためのセンサを備えてもよい。なお、音認識システム１００は、例えば公知の通信網を介して制御装置３、センサ、サーバ、ユーザ端末等を対象に、各種情報の送受信を実施してもよい。また、音認識システム１００の備える音認識装置１、収音装置２、制御装置３、及びセンサの数は、任意である。

【0030】

物理音は、媒質を介して伝播する音波（例えば弾性波）である。音波は、音声等のような人間の可聴周波数帯域（例えば２０Ｈｚ～２０，０００Ｈｚ程度）を示すほか、例えば可聴周波数よりも低い超低周波から、可聴周波数よりも高い超音波までを含む周波数帯域（例えば１Ｈｚ～数ＧＨｚ程度）を示してもよい。音認識システム１００では、用途に応じて認識対象とする物質音の周波数を任意に設定することができる。

【0031】

音認識システム１００では、例えば物理音として、人間の可聴周波数帯域の音波を対象とすることで、音声の認識を実現できるほか、例えば音声とは異なる環境音の認識も実現することができる。また、例えば物理音として、可聴周波数よりも高い周波数帯域、又は可聴周波数よりも低い周波数帯域を対象とすることで、従来の音声認識技術では認識が困難であった周波数帯域の音波も認識することができ、音認識システム１００の用途を拡大させることが可能となる。なお、音認識システム１００では、例えば特定の周波数帯域に対応可能な学習モデルを用いることで、用途に応じた任意の周波数帯域の音波を認識することができる。

【0032】

図２は、本実施形態における音認識方法の一例を示す模式図である。音認識方法は、取得ステップＳ１１０と、生成ステップＳ１２０と、導出ステップＳ１３０とを備える。なお、音認識方法は、音認識システム１００を用いて実施することができる。

【0033】

＜取得ステップＳ１１０＞
取得ステップＳ１１０は、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する。取得ステップＳ１１０では、例えば公知のマイクロフォン等のような収音装置２を用いて、アナログ音である物理音をデジタル化した物理音情報を生成する。

【0034】

物理音情報は、例えば音認識装置１に接続された収音装置２から取得するほか、例えば公知のサーバ等に予め保存された物理音情報を取得してもよい。物理音情報は、例えば公知のファイル形式を用いて保存される。物理音情報は、１種類の音波を含む物理音に基づき生成されたデータを示すほか、例えば複数の音波の組合せを含む物理音に基づき生成されたデータや、異なる期間に発生した複数の音波を含む物理音に基づき生成されたデータを示してもよい。

【0035】

例えば物理音情報は、音声情報及び環境音情報の少なくとも何れかを含む。音声情報は、人が発する音波（音声）がデジタル化された情報を示し、例えば公知の音声合成法等により生成された音波から生成されたデータも含む。環境音情報は、自然音、機械音、電子音、動物の鳴き声、放射騒音等のような、音声とは異なる種類の音波がデジタル化された情報を示す。

【0036】

＜生成ステップＳ１２０＞
生成ステップＳ１２０は、物理音情報に対応する複数の認識履歴を、それぞれ異なる音素認識の認識条件に基づき生成する。認識条件は、音素認識技術に用いられる公知の条件を示し、例えば音素を抽出する際に用いる学習モデルの種類、音素を評価する際に用いるデータベース（辞書）、抽出された音素を評価する際に用いる閾値、物理音情報が生成される際の環境状態等のような、物理音情報の評価に影響し得る条件を含む。認識履歴は、例えば取得ステップＳ１１０により取得された１つの物理音情報に対して複数生成される。

【0037】

認識履歴は、例えば図３に示すように、音素情報、認識条件情報、及び評価情報の少なくとも何れかを含む。認識履歴は、例えば音素情報、認識条件情報、及び評価情報の組合せを示す認識候補を、１つ以上含む。音素情報は、物理音情報から抽出された音素を示す。認識条件情報は、物理音情報から音素の抽出、及び音素の評価に用いた条件（例えば学習モデル、データベース、閾値等）を示す。評価情報は、物理音情報から抽出された音素を評価した結果を示す。

【0038】

認識条件情報は、例えば状態情報を含む。状態情報は、物理音を収音した際の環境の特徴や、物理音情報を生成した際の生成条件等を示す。環境の特徴は、例えば気温、物理音源の温度、収音空間圧力等の特徴を含み、例えば公知のセンサを用いて計測される。生成条件は、例えばノイズ係数、音圧係数、音量上限閾値等の特徴を含み、例えば物理音をデジタル化する際の公知のパラメータを含む。

【0039】

生成ステップＳ１２０は、例えばＪｕｌｉｕｓ等の公知の音素認識技術を用いて、物理音情報に対応する複数の認識履歴を生成する。生成ステップＳ１２０は、例えば公知の機械学習を用いて構築された学習モデル及びデータベースを参照し、物理音情報に対応する複数の認識履歴を生成してもよい。

【0040】

＜導出ステップＳ１３０＞
導出ステップＳ１３０は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。導出ステップＳ１３０は、例えば複数の認識履歴毎に含まれる特徴量を特定し、複数の特徴量を用いて認識結果を導出する。即ち、導出ステップＳ１３０は、認識履歴に含まれる少なくとも一部の情報を用いて、認識結果を導出することができる。

【0041】

認識結果は、物理音の特徴を明確にする文字列（例えば音声に対して「明かりをつけて」、環境音に対して「水の流れる音」等）を示すほか、例えば物理音の状態を明確にする文字列（「流量正常」、「管理範囲外の流量」等）を示してもよい。認識結果は、例えば制御装置３を制御するためのデータを示してもよく、用途に応じて任意に設定することができる。

【0042】

これにより、本実施形態における音認識方法が終了する。なお、上述した各ステップＳ１１０、Ｓ１２０、Ｓ１３０を複数回実施してもよい。

【0043】

本実施形態における音認識方法によれば、生成ステップＳ１２０は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。また、導出ステップＳ１３０は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。このため、１つの認識条件のみを用いて認識結果を導出する場合に比べ、物理音の特徴を捉え易くすることができる。これにより、物理音を対象とした認識精度を向上させることが可能となる。

【0044】

ここで、音素認識を用いた従来の音認識方法では、１つの認識条件を用いて、物理音に対応する認識結果を導出する。特に、１つの認識条件に対して複数の認識候補が抽出された場合、信頼度数ＣＭＶ等の指標を用いて特定された１つの認識候補が認識結果として導出される。即ち、従来の音認識方法は、認識結果を導出する際の履歴を、認識結果に反映させることを想定していない。このため、複数種類の物理音の組合せに基づき生成された物理音情報を認識対象とした場合、認識することが難しい。これにより、認識可能な物理音の種類が限られる懸念が挙げられる。

【0045】

これに対し、本実施形態における音認識方法によれば、生成ステップＳ１２０は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。即ち、従来の音認識方法とは異なり、認識候補を抽出する際の認識履歴を、認識結果に反映させることを前提としている。このため、複数種類の物理音の組合せに基づき生成された物理音情報を認識する場合においても、従来の音認識方法に比べて認識し易くすることができる。これにより、認識可能な物理音の種類を拡大させることが可能となる。

【0046】

＜音認識装置１＞
音認識装置１は、上述した各ステップＳ１１０、Ｓ１２０、Ｓ１３０を実施し、物理音に対応する認識結果を導出する際に用いられる。

【0047】

図４（ａ）は、音認識装置１の構成の一例を示す模式図である。音認識装置１として、ＲａｓｐｂｅｒｒｙＰｉ（登録商標）等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ（ＰＣ）等のような公知の電子機器が用いられてもよい。音認識装置１は、例えば筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５～１０７とを備える。各構成１０１～１０７は、内部バス１１０により接続される。

【0048】

ＣＰＵ１０１は、音認識装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、音認識に用いられる認識条件等の各種情報が保存される。保存部１０４として、例えばメモリーカード、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等のような公知のデータ保存媒体が用いられる。

【0049】

Ｉ／Ｆ１０５は、用途に応じて接続される収音装置２、制御装置３、センサ、通信網等との各種情報の送受信を行うための公知のインターフェースである。Ｉ／Ｆ１０５は、例えば複数設けられてもよい。

【0050】

Ｉ／Ｆ１０６は、用途に応じて接続される入力部１０８との各種情報の送受信を行うための公知のインターフェースである。入力部１０８として、例えばキーボードが用いられ、音認識システム１００の管理等を行う管理者等は、入力部１０８を介して、各種情報又は音認識装置１の制御コマンド等を入力又は選択する。

【0051】

Ｉ／Ｆ１０７は、用途に応じて接続される表示部１０９との各種情報の送受信を行うための公知のインターフェースである。表示部１０９は、保存部１０４に保存された各種情報や、音認識装置１の処理状況等を出力する。表示部１０９として、例えばディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、表示部１０９が入力部１０８を含む構成としてもよい。

【0052】

なお、Ｉ／Ｆ１０５～Ｉ／Ｆ１０７として、例えば同一のものが用いられてもよく、各Ｉ／Ｆ１０５～Ｉ／Ｆ１０７として、例えばそれぞれ複数のものが用いられてもよい。また、収音装置２、制御装置３、通信網、入力部１０８、及び表示部１０９の少なくとも何れかは、状況に応じて取り外されてもよい。

【0053】

図４（ｂ）は、音認識装置１の機能の一例を示す模式図である。音認識装置１は、取得部１１と、生成部１２と、導出部１３と、出力部１４と、記憶部１５とを備える。なお、図４（ｂ）に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に保存されたプログラムを実行することにより実現される。

【0054】

＜＜取得部１１＞＞
取得部１１は、物理音情報を取得する。取得部１１は、例えば上述した取得ステップＳ１１０を実施する際に用いられる。取得部１１が収音装置２から物理音情報を取得するタイミングは、任意に設定することができる。取得部１１は、例えば記憶部１５を介して、保存部１０４に保存された物理音情報を取得してもよい。

【0055】

＜＜生成部１２＞＞
生成部１２は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。生成部１２は、例えば上述した生成ステップＳ１２０を実施する際に用いられる。

【0056】

生成部１２は、例えばＪｕｌｉｕｓ等の公知の音素認識技術を用いて、複数の認識履歴を生成する。この場合、例えば認識条件として、音声認識に影響し得るパラメータを用いることができる。

【0057】

生成部１２は、例えば記憶部１５を介して、保存部１０４に保存された少なくとも２つの認識条件を取得し、取得した認識条件の数に応じた認識履歴を生成する。生成部１２は、例えば予め設定された認識条件の種類、及び認識条件の数に基づき、複数の認識履歴を生成する。なお、認識条件の種類、及び認識条件の数は、用途に応じて任意に設定することができる。

【0058】

生成部１２は、例えば予め設定された認識条件に紐づく学習モデルを参照し、物理音情報から音素情報を抽出する。また、生成部１２は、例えば予め設定された認識条件に紐づくデータベースを参照し、音素情報に対応する評価情報を導出する。この場合、生成部１２は、抽出した音素情報、参照した学習モデルの情報、参照したデータベースの情報、及び導出した評価情報を含む認識履歴を生成する。

【0059】

［音素情報］
音素情報は、例えば音声素情報、及び環境音素情報の少なくとも何れかを含む。

【0060】

音声素情報は、人間が発する音素（例えば「k/a/j/i/d/e/th/u」等）を１つ以上含む。音声素情報は、母音と、子音とを含む公知の言語に対応する音素を含む。なお、音声素情報が２つ以上の音声素を含む場合、音声素情報は各音声素の配列に関する情報も含む。

【0061】

環境音素情報は、音声素とは異なる音素（例えば環境音素：「@/?/#/@/?/#」等）を１つ以上含む。環境音素情報は、例えば母音及び子音とは異なる音素のみを含む。環境音素情報に含まれる音素として、例えば自然言語とは異なる特徴の振幅が用いられ、自然言語とは異なる符号が付与される。なお、環境音素情報として、例えば音声素が一部に含まれてもよい。また、環境音素情報が２つ以上の音素を含む場合、環境音素情報は各音声の配列に関する情報も含む。

【0062】

音声素情報及び環境音素情報は、例えば各音の開始を示す無音区間（例えば「silB」等で示される開始無音区間）、及び各音の終了を示す無音区間（例えば「silE」等で示される終了無音区間）の少なくとも何れかを含んでもよい。開始無音区間、及び終了無音区間は、公知の音素認識技術により抽出することができる。

【0063】

音声素情報及び環境音素情報は、例えば休止区間を含んでもよい。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間（長さ）を示す。休止区間は、公知の音素認識技術により抽出することができる。

【0064】

特に、環境音素情報が休止区間を含むことで、複数の環境音の組合せに伴う共鳴により生じる僅かな無音状態を、環境音素情報として抽出することができる。これにより、環境音認識の精度向上を図ることが可能となる。

【0065】

［学習モデル］
学習モデルは、予め取得された参照用物理音情報と、参照用物理音情報に紐づく参照用音素とを用いて構築され、例えば保存部１０４等に複数保存される。

【0066】

複数の学習モデルは、例えば図５に示すように、音声素を対象とした音声素モデル、及び環境音素を対象とした環境音素モデルの少なくとも何れかを含み、用途に適した種類及び数を含む。各学習モデルを構築する際、例えば参照用物理音情報の種類、参照用音素の種類、及び参照用物理音情報と参照用音素との紐づけ方の少なくとも何れかが、それぞれ異なる。

【0067】

学習モデルは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。なお、学習モデルは、例えば参照用音素毎に設定された閾値を含んでもよい。

【0068】

参照用物理音情報は、物理音情報と同種のデジタルデータを示し、例えば一定期間における振幅の度合いを特徴としたデータを示す。なお、参照用物理音情報の示す振幅の期間は、紐づけられた参照用音素に応じて任意に設定することができる。

【0069】

参照用音素は、音素情報と同種の情報を示す。参照用音素は、１つ以上の音素を含み、例えば複数の音素の配列に関する情報を含む。

【0070】

生成部１２は、例えば複数の学習モデルのうち何れか１つを参照し、音素認識を用いて物理音情報に対応する音素情報を抽出する。音素情報は、１つ以上の音素を含み、例えば複数の音素の配列を示す。

【0071】

［データベース］
データベースは、予め取得された認識用音素と、認識用音素に紐づく認識情報とを用いて構築され、例えば保存部１０４に複数保存される。

【0072】

複数のデータベースは、例えば図５に示すように、音声素を対象とした音声素データベース、及び環境音素を対象とした環境音素データベースの少なくとも何れかを含み、用途に適した種類及び数を含む。複数のデータベースは、複数の学習モデルに紐づけられ、例えば１つのデータベースに対して１つの学習モデルが紐づけられた状態で保存部１０４等に保存される。

【0073】

なお、学習モデル及びデータベースは、例えば一対多や、多対多等のように、任意の数で紐づいてもよい。特に、学習モデル及びデータベースが、一対一で紐づく場合には、誤認識を減らすことができる。

【0074】

データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。なお、データベースは、例えば認識情報毎に設定された閾値を含んでもよい。

【0075】

認識用音素は、音素情報及び参照用音素と同種の情報を示す。認識用音素は、例えば紐づけられた学習モデルの参照用音素と同じ音素を含む。

【0076】

認識情報は、物理音情報の内容を特定するための情報を示す。認識情報は、例えば認識結果を導出するための情報を含んでもよい。

【0077】

生成部１２は、例えば音素情報を抽出する際に参照した学習モデルに紐づくデータベースを参照し、抽出された音素情報に対応する評価情報を導出する。

【0078】

［評価結果］
評価結果は、データベースを参照し、音素情報を評価した結果を示す。評価情報は、例えば音素情報が特定の認識情報に対応する確度を示す。評価情報は、例えば閾値に基づき判定された「Ｙｅｓ」、「Ｎｏ」を示すほか、「０．９５」、「０．６６」等の信頼度数ＣＭＶを示してもよい。評価情報は、例えば音素情報に対応する可能性のある認識情報を含んでもよい。

【0079】

＜＜導出部１３＞＞
導出部１３は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。導出部１３は、例えば生成部１２で生成された複数の認識履歴のうち、２以上の認識履歴に基づき、認識結果を導出する。

【0080】

導出部１３は、例えば認識履歴に含まれる複数の情報のうち少なくとも１つを、特徴量として特定する。導出部１３は、例えば図６に示すように、複数の認識履歴毎に含まれる信頼度数ＣＭＶを特定し、複数の信頼度数ＣＭＶを用いて認識結果を導出する。導出部１３は、例えば信頼度数ＣＭＶを複数の認識履歴毎に並べた際の認識傾向に基づき、認識結果を導出する。

【0081】

導出部１３は、例えば並べられた複数の信頼度数ＣＭＶ等の複数の特徴量に対し、公知の近似式を用いた結果と、予め保存部１０４等に保存された基準データとの乖離度合いから認識傾向を算出し、認識結果を導出してもよい。上記のほか、例えば認識結果は、複数の特徴量に対し、Ｌｕｃａｓ数列、カイ２乗検定、ｔ検定、分散分析、グレイコード等のような公知の技術を用いて、認識結果を導出してもよい。

【0082】

なお、予め保存部１０４等に保存された基準データは、複数の特徴量と比較するためのデータを示すほか、例えば複数の特徴量を変数として、認識傾向を解として算出できる関数を示してもよい。この場合、関数の結果に応じた認識結果を導出するための参照データが、保存部１０４等に保存される。また、導出部１３は、例えば公知の分類技術や判定技術を用いて、複数の特徴量から認識結果を導出してもよい。

【0083】

導出部１３は、例えば図７に示すように、複数の認識履歴のうち、一部の条件が同様の条件群毎（図７では第１条件群、第２条件群）に特徴量の認識傾向を算出した結果に基づき、認識結果を導出してもよい。この場合、導出部１３は、複数の条件群毎に特徴量の認識傾向を算出した結果を統合し、各認識傾向の差異（図７では領域Ｒ）に基づき、認識結果を導出する。なお、上述した領域Ｒに基づく認識結果は、例えば予め保存部１０４等に保存された基準データと、領域Ｒとの乖離度合いから導出されてもよい。この場合、認識結果として、予め設定された乖離度合いの閾値未満では「流量正常」、閾値以上では「流量異常」、等の文字列が導出されてもよい。

【0084】

例えば条件群は、学習モデル毎に分類してもよい。この場合、条件群毎に異なる音素情報に着目した認識傾向を算出することができる。上記のほか、例えば条件群は、状態情報毎（例えば物理音情報の生成条件毎）に分類してもよい。この場合、条件群毎に異なる生成条件に着目した認識傾向を算出することができる。

【0085】

例えば条件群は、音素認識に用いられるシーケンス、パラメータ、等に基づき分類されてもよい。条件群は、例えば動的割当てパラメータに紐づいた遷移履歴、及び方向性に基づき分類されてもよい。

【0086】

なお、図６等では２次元（認識履歴の番号、及び信頼度数ＣＭＶ）における認識結果の導出の一例を示したが、例えば導出部１３は、認識履歴から特定する特徴量の種類を複数（例えば信頼度数ＣＭＶ、学習モデルの情報、温度、湿度、時間等）として、多次元における認識結果を導出してもよく、用途に応じて任意に次元を設定することができる。

【0087】

＜＜出力部１４＞＞
出力部１４は、各種情報を表示部１０９等に出力する。出力部１４は、例えば導出部１３により導出された認識結果を、表示部１０９等に出力する。出力部１４は、例えば特徴量のプロット図（例えば図６における認識履歴の番号と信頼度数ＣＭＶとの関係を示すグラフ）のような、抽出した特徴量の特徴が視認可能な画像データ等を出力してもよい。

【0088】

出力部１４は、例えば認識結果として、制御装置３を制御するための制御情報を導出し、認識結果を制御装置３に出力してもよい。なお、出力部１４は、例えば公知の通信網を介して、認識結果をユーザ端末等に出力してもよい。

【0089】

＜＜記憶部１５＞＞
記憶部１５は、各種情報を保存部１０４に記憶させ、又は各種情報を保存部１０４から取出す。記憶部１５は、例えば取得部１１、生成部１２、導出部１３、及び出力部１４の処理内容に応じて、各種情報の記憶又は取出しを行う。

【0090】

＜収音装置２＞
収音装置２は、物理音をデジタルに変換（即ち物理音情報を生成）できる公知の収音機器を示す。収音装置２は、例えば音認識装置１とデータ通信可能な状態で接続される。なお、収音装置２は、例えば音認識装置１に内蔵されてもよい。なお、収音装置２で生成された物理音情報は、例えば音認識装置１の保存部１０４やサーバ等に保存されてもよい。

【0091】

収音装置２として、例えば人間の可聴周波数帯域を収音できるマイクロフォンが用いられるほか、例えば人間の可聴周波数帯域よりも高い周波数帯域を収音できるＡＥセンサ等が用いられてもよく、用途に適した周波数帯の音波を収音できる公知の機器を用いることができる。

【0092】

＜制御装置３＞
制御装置３は、音認識装置１から出力される認識結果に基づき制御される装置を示す。制御装置３は、音認識装置１とデータ通信可能な状態で接続されるほか、例えば音認識装置１又は収音装置２を内蔵してもよい。

【0093】

制御装置３として、例えば照明、エアコン等の家電製品が用いられるほか、例えば稼働式ベッド、ドア、窓、カーテン等の駆動可能な部分を有する構成が用いられる。制御装置３として、例えばロボット、無人搬送車（ＡＧＶ：Automated Guided Vehicle）、生産機械等が用いられてもよい。なお、制御装置３は、例えば公知の通信網を介して、音認識装置１とデータ通信可能な状態で接続されてもよい。

【0094】

本実施形態によれば、生成部１２は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。また、導出部１３は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。このため、１つの認識条件のみを用いて認識結果を導出する場合に比べ、物理音の特徴を捉え易くすることができる。これにより、物理音を対象とした認識精度を向上させることが可能となる。

【0095】

また、本実施形態によれば、導出部１３は、複数の認識履歴毎に含まれる特徴量を特定し、複数の特徴量を用いて、認識結果を導出する。このため、複数の認識条件毎に物理音情報を評価した過程の少なくとも一部を特徴量として特定することで、総合的な認識結果を導出することができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0096】

また、本実施形態によれば、認識履歴は、音素情報と、認識条件情報と、評価情報とを含む。このため、認識条件毎に異なる各情報の差異に基づき、認識結果の導出を容易に実現することができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0097】

また、本実施形態によれば、認識条件情報は、音素認識に用いられる学習モデルを特定する情報を含む。このため、学習モデルの違いによって生じ得る評価の差異を、容易に特定することができる。これにより、認識精度の低下を抑制した状態で、抽出可能な音素の幅を拡張させることが可能となる。

【0098】

また、本実施形態によれば、認識条件情報は、音素認識に用いられるデータベースを特定する情報を含む。このため、データベースの違いによって生じ得る評価の差異を、容易に特定することができる。これにより、認識精度の低下を抑制した状態で、認識可能な音素の幅を拡張させることが可能となる。

【0099】

また、本実施形態によれば、生成部１２は、複数の学習モデルのうち何れか１つを参照し、物理音情報から音素情報を抽出し、参照した学習モデルに紐づくデータベースを参照し、音素情報に対応する評価情報を導出してもよい。この場合、１つの学習モデルのみ実装された場合に比べ、物理音情報に適した学習モデルを選択する可能性を広げることができる。これにより、物理音を対象とした認識精度のさらなる向上を図ることが可能となる。

【0100】

（第２実施形態：音認識システム１００）
次に、第２実施形態における音認識システム１００の一例について説明する。上述した実施形態と、本実施形態との違いは、生成された認識履歴に基づき、その後の処理に用いられる認識条件が選択される点である。なお、上述した実施形態と同様の内容については説明を省略する。

【0101】

生成部１２は、例えば図８に示すように、第１認識条件に基づき、物理音情報に対応する第１認識履歴を生成する。その後、生成部１２は、第１認識履歴に基づき、第１認識条件とは異なる第２認識条件を選択する。なお、第１認識履歴に基づき第２認識条件を選択する方法は、例えば複数の認識履歴の特徴と、複数の認識条件とが紐づけられたテーブル等を用いることができ、用途に応じて公知の技術を用いることができる。

【0102】

その後、生成部１２は、第２認識条件に基づき、物理音情報に対応する第２認識履歴を生成する。生成部１２は、例えば予め設定された認識履歴の生成数に応じて、認識履歴に基づき新たな認識条件を選択する。

【0103】

例えば生成部１２は、予め設定された特徴を有する認識履歴を生成するまで、認識履歴に基づき新たな認識条件を選択してもよい。この「特徴」として、例えば順番に生成された認識履歴の変化度合いの閾値が用いられてもよく、変化度合いが閾値以下の場合に、新たな認識条件を選択せずに終了するように設定してもよい。

【0104】

例えば生成部１２は、認識履歴に含まれる特徴量（例えば信頼度数ＣＭＶ）が、予め設定された収縮値又は分散値に達するまで、認識履歴に基づき新たな認識条件の選択、及び新たな認識履歴の生成を実施してもよい。上記のほか、例えば生成部１２は、認識履歴の特徴量が、予め設定された許容範囲に含まれる、又は許容範囲から外れるまで、認識履歴に基づき新たな認識条件の選択、及び新たな認識履歴の生成を実施してもよい。

【0105】

例えば生成部１２は、認識履歴に含まれる状態情報に、特定の情報が含まれるまで、認識履歴に基づき新たな認識条件の選択、及び新たな認識履歴の生成を実施してもよい。この場合、例えば物理音の収音環境における温度が、一定値を超えるまで認識履歴の生成を継続する等を、用途に応じて任意に設定することができる。

【0106】

次に、導出部１３は、第１認識履歴、及び第２認識履歴を少なくとも含む複数の認識履歴に基づき、認識結果を導出する。なお、認識結果を導出する方法は、上述した実施形態と同様である。

【0107】

本実施形態によれば、上述した実施形態に加え、生成部１２は、第１認識履歴に基づき第２認識条件を選択し、第２認識条件に基づき第２認識履歴を生成する。このため、認識履歴の結果を踏まえ、認識精度向上に必要となる認識条件を選択し易くすることができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0108】

（第３実施形態：音認識システム１００）
次に、第３実施形態における音認識システム１００の一例について説明する。上述した実施形態と、本実施形態との違いは、生成部１２が、複数の認識部を含む点である。なお、上述した実施形態と同様の内容については説明を省略する。

【0109】

生成部１２は、例えば図９に示すように、第１認識部と、第２認識部とを含む。第１認識部、及び第２認識部は、それぞれ異なる認識条件（図９では第１認識条件及び第２認識条件）を用いて認識履歴を生成する（図９では第１認識履歴及び第２認識履歴）。なお、生成部１２は、例えば３つ以上の認識部を含んでもよい。生成部１２が複数の認識部を含むことで、例えば１つの収音装置２から取得した物理音情報に対し、並列処理により複数の認識履歴を生成することができる。これにより、リアルタイム・レスポンス処理を実現することが可能となる。なお、生成部１２は、例えば複数の収音装置２から取得した複数の物理音情報に対し、複数の認識履歴を生成してもよい。この場合、生成部１２は、複数の物理音情報毎に異なる認識部を用いて認識履歴を生成するほか、複数の物理音情報を集約した１つの物理音情報群に対し、複数の認識部毎に認識履歴を生成してもよい。

【0110】

生成部１２は、例えば第１認識履歴及び第２認識履歴に基づき、第１認識部及び第２認識部に用いられる認識条件を選択してもよく、例えば第１認識部及び第２認識部に対してそれぞれ異なる認識条件を選択する。この場合、生成部１２は、選択された認識条件に基づき、第１認識部を介して第３認識履歴、及び第２認識部を介して第４認識履歴を生成する。生成部１２は、予め設定された認識履歴の生成数に応じて、認識履歴に基づき認識条件を選択し、各認識部を介して新たな認識履歴を生成する。

【0111】

次に、導出部１３は、第１認識履歴、第２認識履歴、第３認識履歴、及び第４認識履歴を少なくとも含む複数の認識履歴に基づき、認識結果を導出する。なお、認識結果を導出する方法は、上述した実施形態と同様である。

【0112】

本実施形態によれば、上述した実施形態に加え、生成部１２は、それぞれ異なる認識条件を用いて認識履歴を生成する第１認識部、及び第２認識部を含む。このため、同一の生成部１２を用いて繰返し認識履歴を生成する場合に比べ、処理時間を短くすることができる。これにより、音認識の反応速度向上を図ることが可能となる。

【0113】

また、本実施形態によれば、生成部１２は、第１認識履歴及び第２認識履歴に基づき、第１認識部及び第２認識部における認識条件を選択し、選択された認識条件に基づき第３認識履歴及び第４認識履歴を生成する。このため、認識履歴の結果を踏まえ、認識精度向上に必要となる認識条件を選択し易くすることができる。これにより、物理音を対象とした認識精度をさらに向上させることが可能となる。

【0114】

（第４実施形態：音認識システム１００）
次に、第４実施形態における音認識システム１００の一例について説明する。上述した実施形態と、本実施形態との違いは、データベースが、文字列データベースと、配列データベースとを含む点である。なお、上述した実施形態と同様の内容については説明を省略する。

【0115】

データベースは、文字列データベースと、配列データベースとを含む。文字列データベース及び配列データベースは、例えば保存部１０４等に複数保存される。

【0116】

［文字列データベース］
文字列データベースは、例えば図１０に示すように、音声素を対象とした音声素用文字列データベース、及び環境音素を対象とした環境音素用文字列データベースの少なくとも何れかを含み、用途に適した種類及び数を含む。

【0117】

音声素用文字列データベースは、それぞれ紐づけられた認識用音声素、音声認識情報、及び音声ＩＤを含む。音声素用文字列データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。

【0118】

環境音素用文字列データベースは、例えばそれぞれ紐づけられた認識用環境音素、環境音認識情報、及び環境音ＩＤを含む。環境音素用文字列データベースは、リレーショナルデータベースを示すほか、例えば公知の機械学習により構築されたニューラルネットワークや関数等を示してもよい。

【0119】

［配列データベース］
配列データベースは、音声素を対象とした音声素用配列データベース、及び環境音素を対象とした環境音素用配列データベースの少なくとも何れかを含み、用途に適した種類及び数を含む。

【0120】

音声素用配列データベースは、音声ＩＤの配列順序を示す音声文法情報を含む。音声素用配列データベースでは、１つの音声文法情報として１つの音声ＩＤの配列順序が対応する。

【0121】

環境音素用配列データベースは、環境音ＩＤの配列順序を示す環境音文法情報を複数含む。環境音素用配列データベースでは、１つの環境音文法情報として１つの環境音ＩＤの配列順序が対応する。

【0122】

生成部１２は、例えば図１１に示すように、学習モデルを参照して音声情報を抽出したあと、文字列データベースを参照し、音素情報に対応する候補データを選択する。例えば生成部１２は、音素情報に対応する認識情報、及びＩＤの複数の組合せを、候補データとして選択する。例えば生成部１２において、認識情報、及びＩＤの組合せを選択する数は、任意に設定することができる。

【0123】

その後、生成部１２は、配列データベースを参照し、ＩＤの配列順序を特定する。例えば生成部１２は、選択された候補データのうち、物理音情報の内容に一致又は類似する可能性のあるＩＤの配列に対応する配列順序を特定する。そして、生成部１２は、特定された配列順序に沿った認識情報と、音素情報との一致度合いとを評価した結果を、評価情報として導出する。評価情報として、公知の音認識技術により評価された判定結果（例えば「Ｙｅｓ」、「Ｎｏ」等）や、信頼度数ＣＭＶ等が用いられてもよく、例えば候補データを選択する際、各音素情報に対して導出した適合率等が用いられてもよい。

【0124】

そして、生成部１２は、音素情報、認識条件情報、及び評価情報を含む認識履歴を生成する。なお、特定された配列順序の候補が複数存在する場合、複数の候補を含む認識履歴が生成される。

【0125】

なお、例えば生成部１２は、配列データベースを参照し、候補データに対応し得る複数のセンテンスを生成してもよい。この場合、複数のセンテンス、及び複数のセンテンス毎に導出された評価情報が、認識履歴に含まれてもよい。

【0126】

本実施形態によれば、上述した実施形態と同様に、物理音を対象とした認識精度を向上させることが可能となる。

【0127】

ここで、従来の音素認識を用いた音声認識技術では、音声に含まれる言語の配列に基づき、認識処理を実施する場合がある。この場合、認識精度を向上させるには、言語に対応し得る全ての音素（音声素）及び音声素の配列を、１つの学習モデルを用いて実施することが求められる。仮に、複数の学習モデルを用いて実施した場合、学習モデル毎に抽出された複数の音声素を、最適な配列に組合わせることが困難となる。

【0128】

しかしながら、音声認識を用いて音声以外の音波を認識する場合、上述したような１つの学習モデルを用いて実施すると、認識対象の音波に対する音素の抽出に加え、認識対象外の音波に対する音素も抽出する場合があり、認識精度の向上が難しいという事情がある。これに対し、音声以外の音波を認識する際、複数の学習モデルを用意し、少なくとも１つを用いることで、認識精度が向上することを発明者らは見出した。複数の学習モデルは、認識対象とする音波の特徴毎に構築される。これにより、認識対象以外の音波に対する音素の抽出を抑制することができ、認識精度の向上を図ることが可能となる。

【0129】

なお、複数の学習モデルの少なくとも１つを選択する方法は、例えば物理音情報から特定できる特徴（例えば振幅、周波数、音色）に基づき、特徴に適した学習モデルを選択するようにしてもよい。この場合、例えば学習モデル毎に、予め上記特徴を紐づけておくことで、公知のマッチング技術等を用いて実現することができる。上記のほか、例えば全ての学習モデルを参照し、抽出された音素情報うち最も可能性の高い音素情報に基づき、認識結果を抽出してもよい。

【0130】

また、上述した各実施形態によれば、例えば複数の学習モデルは、音声素を用いて構築された音声素モデルと、環境音素を用いて構築された環境音素モデルとを含んでもよい。即ち、物理音情報を認識する際、異なる種類の音素を用いて認識することができる。このため、音声素のみでは認識できない物理音に対しても、認識できる可能性を高めることができる。これにより、認識対象の拡大を図ることが可能となる。

【0131】

また、上述した各実施形態によれば、例えば環境音素モデルは、母音及び子音とは異なる音素のみを用いて構築されてもよい。この場合、環境音モデルを参照して環境音情報を認識する際、音声情報との誤認識を抑制することができる。これにより、環境音認識の精度のさらなる向上を図ることが可能となる。

【0132】

また、上述した各実施形態によれば、例えば生成部１２は、複数の学習モデルの２以上を参照し、物理音情報から複数の音素情報を抽出し、参照した学習モデルのそれぞれに紐づくデータベースを参照し、複数の音素情報のそれぞれに基づく認識履歴を生成することができる。この場合、例えば物理音情報として周波数等の特徴が異なる複数の音波の情報が含まれていても、複数の学習モデルを用いることで、複数の音波の情報毎に音素情報を抽出することができる。これにより、複数の音素情報を踏まえた認識結果を導出することが可能となる。

【0133】

上述した音認識システム１００、音認識装置１、及び音認識方法では、例えば下記のような環境音を対象とした認識結果を導出することができる。

【0134】

＜＜自然音＞＞
例えば環境音は、自然音を対象とした音波を示してもよい。自然音は、水の音、雨の音、地面の音、風の音、雷の音、草木の揺れる音等のような、自然を介して発生した音波を示す。自然音を対象として導出された認識結果は、例えば天候の予測、災害予測等のような将来予測の検討時に利用することができる。

【0135】

＜＜動物の鳴き声＞＞
例えば環境音は、動物の鳴き声を対象とした音波を示してもよい。動物の鳴き声を対象として導出された認識結果は、例えば動物の健康管理、鳥獣対策等の検討時に利用することができる。

【0136】

＜＜産業音＞＞
例えば環境音は、産業音を対象とした音波を示してもよい。産業音は、コンクリート等を叩く打音、コネクタ等の接続時に発する嵌合音、モーター音、電子音等のような、産業活動に伴い発生した音波を示す。産業音を対象として導出された認識結果は、例えば建造物の劣化判定、製造物の良否判定、製品の故障判定、製品の故障予測等のような、産業活動への影響を与える要因の検討時に利用することができる。

【0137】

＜＜放射騒音（アコースティック・エミッション）＞＞
例えば環境音は、放射騒音（ＡＥ：Acoustic Emission）を対象とした音波を示してもよい。放射騒音は、ガラスの割れる音、木材の折れる音、コンクリートのき裂発生時の音等のような、材料の変形や破壊に伴い発生した音波を示す。放射騒音を対象として導出された認識結果は、例えば建造物の劣化判定、防犯等に利用することができる。

【0138】

本発明の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0139】

１：音認識装置
２：収音装置
３：制御装置
１０：筐体
１１：取得部
１２：生成部
１３：導出部
１４：出力部
１５：記憶部
１００：音認識システム
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５～１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
Ｒ：領域
Ｓ１１０：取得ステップ
Ｓ１２０：生成ステップ
Ｓ１３０：導出ステップ

【図1】