IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 菱洋エレクトロ株式会社の特許一覧

<>
  • 特開-音声認識システム及び音声処理装置 図1
  • 特開-音声認識システム及び音声処理装置 図2
  • 特開-音声認識システム及び音声処理装置 図3
  • 特開-音声認識システム及び音声処理装置 図4
  • 特開-音声認識システム及び音声処理装置 図5
  • 特開-音声認識システム及び音声処理装置 図6
  • 特開-音声認識システム及び音声処理装置 図7
  • 特開-音声認識システム及び音声処理装置 図8
  • 特開-音声認識システム及び音声処理装置 図9
  • 特開-音声認識システム及び音声処理装置 図10
  • 特開-音声認識システム及び音声処理装置 図11
  • 特開-音声認識システム及び音声処理装置 図12
  • 特開-音声認識システム及び音声処理装置 図13
  • 特開-音声認識システム及び音声処理装置 図14
  • 特開-音声認識システム及び音声処理装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022070008
(43)【公開日】2022-05-12
(54)【発明の名称】音声認識システム及び音声処理装置
(51)【国際特許分類】
   G10L 15/28 20130101AFI20220502BHJP
   G10L 15/20 20060101ALI20220502BHJP
【FI】
G10L15/28 400
G10L15/20 370E
G10L15/20 360Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2020179008
(22)【出願日】2020-10-26
(71)【出願人】
【識別番号】391021684
【氏名又は名称】菱洋エレクトロ株式会社
(74)【代理人】
【識別番号】100120868
【弁理士】
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】川上 憲一
(72)【発明者】
【氏名】越田 高広
(72)【発明者】
【氏名】村田 淳
(57)【要約】
【課題】音声認識の精度を向上させる音声認識システム、及び音声処理装置を提供する。
【解決手段】気導マイク28と、骨導マイク29と、を有するマイク部27により収音される音声に基づき、音声データDを取得する取得部11と、音声データDを処理するためのパラメータを設定する設定部12と、パラメータに基づいて音声データDを処理する処理部13と、音声データDの内容を認識した認識結果を生成する音声認識装置3と、を備え、設定部12は、マイク部27により収音されるキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する第1パラメータ設定部121を有し、処理部13は、第1パラメータに基づいて、音声データDを制御する制御部131を有することを特徴とする。
【選択図】図4
【特許請求の範囲】
【請求項1】
気導マイクと、骨導マイクと、を有するマイク部により収音される音声に基づき、音声データを取得する取得手段と、
前記音声データを処理するためのパラメータを設定する設定手段と、
前記パラメータに基づいて前記音声データを処理して対象データを生成する処理手段と、
前記対象データの内容を認識した認識結果を生成する音声認識手段と、を備え、
前記設定手段は、
前記マイク部により収音されるキャリブレーション用の音に基づいて、前記音声データを制御するための第1パラメータを設定する第1パラメータ設定手段を有し、
前記処理手段は、
前記第1パラメータに基づいて、前記音声データを制御する制御手段と、を有すること
を特徴とする音声認識システム。
【請求項2】
前記第1パラメータ設定手段は、
音声を前記キャリブレーション用の音として取得し、1つの前記キャリブレーション用の音に対して複数の仮パラメータを設定し、
前記制御手段は、
複数の前記仮パラメータに基づいて、前記キャリブレーション用の音に基づく複数の評価用音データを生成し、
前記音声認識手段は、
複数の前記評価用音データの内容を認識した評価結果を生成し、
前記第1パラメータ設定手段は、
前記評価結果に基づいて、前記第1パラメータを設定すること
を特徴とする請求項1記載の音声認識システム。
【請求項3】
前記取得手段は、前記気導マイクを介して取得される気導音声データ、及び前記骨導マイクを介して取得される骨導音声データを取得し、
前記設定手段は、
前記マイク部を介して取得されるノイズデータ、前記音声認識手段に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、前記ノイズデータ、前記認識装置データ、及び前記初期設定データの少なくとも何れかに基づいて、前記第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定手段を有し、
前記処理手段は、
前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データの少なくとも何れかを選択する選択手段と、
前記第2パラメータに基づいて、選択された前記気導音声データ及び前記骨導音声データの少なくとも何れかから前記対象データを生成する対象データ生成手段と、を有すること
を特徴とする請求項2記載の音声認識システム。
【請求項4】
前記制御手段は、前記気導音声データに補助音を付加する補助音付加手段を有すること
を特徴とする請求項3記載の音声認識システム。
【請求項5】
前記選択手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを選択し、
前記対象データ生成手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを加算した加算音声データを前記対象データとして生成し、
前記音声認識手段は、前記対象データの内容を認識した前記認識結果を生成すること
を特徴とする請求項3又は4記載の音声認識システム。
【請求項6】
前記選択手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを選択し、
前記対象データ生成手段は、前記第2パラメータに基づいて、前記気導音声データから生成される第1対象データと、前記骨導音声データから生成される第2対象データと、を含む前記対象データを生成し、
前記音声認識手段は、前記第1対象データの内容を第1利用者によるものとし、前記第2対象データの内容を第2利用者によるものとして、前記認識結果を生成すること
を特徴とする請求項3又は4記載の音声認識システム。
【請求項7】
前記気導マイクは、指向性を有しない第1気導マイクと、指向性を有する第2気導マイクを有し、
前記第1パラメータ設定手段は、前記第1気導マイクを介して取得されるキャリブレーション用の音に基づいて、前記第1パラメータを設定し、
前記選択手段は、前記第2気導マイクを介して取得される前記気導音声データ、及び前記骨導マイクを介して取得される前記骨導音声データを選択すること
を特徴とする請求項6記載の音声認識システム。
【請求項8】
前記取得手段は、前記気導マイクを介して取得される気導音声データ、及び前記骨導マイクを介して取得される骨導音声データを取得し、
前記設定手段は、
前記マイク部を介して取得されるノイズデータ、前記音声認識手段に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、前記ノイズデータ、前記認識装置データ、及び前記初期設定データの少なくとも何れかに基づいて、前記第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定手段を有し、
前記処理手段は、
前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データの少なくとも何れか一方又は両方を選択する選択手段と、
前記第2パラメータに基づいて、選択された前記気導音声データ及び前記骨導音声データの少なくとも何れかから前記対象データを生成する対象データ生成手段と、を有し、
前記音声認識手段は、前記第1対象データの内容を第1利用者によるものとし、前記第2対象データの内容を第2利用者によるものとして、前記認識結果を生成すること
を特徴とする請求項1記載の音声認識システム。
【請求項9】
前記第1パラメータは、ノイズキャンセリング、アコースティックエコー除去、ボリューム、補助音の付加、位相調整、マイクゲイン、オートゲインコントロール、イコライザー及びダイナミックレンジコントロールの少なくとも何れかの条件を含むこと
を特徴とする請求項2~8の何れか1項記載の音声認識システム。
【請求項10】
音声認識システムに認識させる対象データを生成するための音声処理装置であって、
気導マイクと、骨導マイクと、を有するマイク部により収音される音声に基づき、音声データを取得する取得手段と、
前記音声データを処理するためのパラメータを設定する設定手段と、
前記パラメータに基づいて、前記音声データを処理して対象データを生成する処理手段と、を備え、
前記設定手段は、
前記マイク部により収音されるキャリブレーション用の音に基づいて、前記音声データを制御するための第1パラメータを設定する第1パラメータ設定手段を有し、
前記処理手段は、
前記第1パラメータに基づいて、前記音声データを制御する制御手段を有すること
を特徴とする音声処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム及び音声処理装置に関する。
【背景技術】
【0002】
従来、音声認識に関する技術として、例えば特許文献1の音声処理装置等が提案されている。
【0003】
特許文献1の開示技術では、複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の区間代表値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、を比較する比較手段と、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうち少なくとも1つの利得を、出力において前記接触雑音が低減されるように調整する利得調整手段と、を備える。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004-317942号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、特許文献1では、複数のマイクロホンとして、気導マイクロホンと、骨導マイクロホンを用いて、音声認識を行う技術が開示されている。しかしながら、音声データを音声認識する際には、音声認識に用いる音声認識エンジンの種類や、周囲の環境によって、音声認識の精度が変化する。このため、取得した音声データによっては、正しく音声を認識できない場合がある。これにより、音声認識の精度が低くなることが懸念される。
【0006】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、音声認識の精度を向上させる音声認識システム、及び音声処理装置を提供することにある。
【課題を解決するための手段】
【0007】
第1発明に係る音声認識システムは、気導マイクと、骨導マイクと、を有するマイク部により収音される音声に基づき、音声データを取得する取得手段と、前記音声データを処理するためのパラメータを設定する設定手段と、前記パラメータに基づいて前記音声データを処理して対象データを生成する処理手段と、前記対象データの内容を認識した認識結果を生成する音声認識手段と、を備え、前記設定手段は、前記マイク部により収音されるキャリブレーション用の音に基づいて、前記音声データを制御するための第1パラメータを設定する第1パラメータ設定手段を有し、前記処理手段は、前記第1パラメータに基づいて、前記音声データを制御する制御手段と、を有することを特徴とする。
【0008】
第2発明に係る音声認識システムは、第1発明において、前記第1パラメータ設定手段は、音声を前記キャリブレーション用の音として取得し、1つの前記キャリブレーション用の音に対して複数の仮パラメータを設定し、前記制御手段は、複数の前記仮パラメータに基づいて、前記キャリブレーション用の音に基づく複数の評価用音データを生成し、前記音声認識手段は、複数の前記評価用音データの内容を認識した評価結果を生成し、前記第1パラメータ設定手段は、前記評価結果に基づいて、前記第1パラメータを設定することを特徴とする。
【0009】
第3発明に係る音声認識システムは、第2発明において、前記取得手段は、前記気導マイクを介して取得される気導音声データ、及び前記骨導マイクを介して取得される骨導音声データを取得し、前記設定手段は、前記マイク部を介して取得されるノイズデータ、前記音声認識手段に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、前記ノイズデータ、前記認識装置データ、及び前記初期設定データの少なくとも何れかに基づいて、前記第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定手段を有し、前記処理手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データの少なくとも何れかを選択する選択手段と、 前記第2パラメータに基づいて、選択された前記気導音声データ及び前記骨導音声データの少なくとも何れかから前記対象データを生成する対象データ生成手段と、を有することを特徴とする。
【0010】
第4発明に係る音声認識システムは、第3発明において、前記制御手段は、前記気導音声データに補助音を付加する補助音付加手段を有することを特徴とする。
【0011】
第5発明に係る音声認識システムは、第3発明又は第4発明において、前記選択手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを選択し、前記対象データ生成手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを加算した加算音声データを前記対象データとして生成し、前記音声認識手段は、前記対象データの内容を認識した前記認識結果を生成することを特徴とする。
【0012】
第6発明に係る音声認識システムは、第3発明又は第4発明において、前記選択手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データを選択し、前記対象データ生成手段は、前記第2パラメータに基づいて、前記気導音声データから生成される第1対象データと、前記骨導音声データから生成される第2対象データと、を含む前記対象データを生成し、前記音声認識手段は、前記第1対象データの内容を第1利用者によるものとし、前記第2対象データの内容を第2利用者によるものとして、前記認識結果を生成することを特徴とする。
【0013】
第7発明に係る音声認識システムは、第6発明において、前記気導マイクは、指向性を有しない第1気導マイクと、指向性を有する第2気導マイクを有し、前記第1パラメータ設定手段は、前記第1気導マイクを介して取得されるキャリブレーション用の音に基づいて、前記第1パラメータを設定し、前記選択手段は、前記第2気導マイクを介して取得される前記気導音声データ、及び前記骨導マイクを介して取得される前記骨導音声データを選択することを特徴とする。
【0014】
第8発明に係る音声認識システムは、第1発明において、前記取得手段は、前記気導マイクを介して取得される気導音声データ、及び前記骨導マイクを介して取得される骨導音声データを取得し、前記設定手段は、前記マイク部を介して取得されるノイズデータ、前記音声認識手段に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、前記ノイズデータ、前記認識装置データ、及び前記初期設定データの少なくとも何れかに基づいて、前記第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定手段を有し、前記処理手段は、前記第2パラメータに基づいて、前記気導音声データ及び前記骨導音声データの少なくとも何れか一方又は両方を選択する選択手段と、前記第2パラメータに基づいて、選択された前記気導音声データ及び前記骨導音声データの少なくとも何れかから前記対象データを生成する対象データ生成手段と、を有し、前記音声認識手段は、前記第1対象データの内容を第1利用者によるものとし、前記第2対象データの内容を第2利用者によるものとして、前記認識結果を生成することを特徴とする。
【0015】
第9発明に係る音声認識システムは、第2発明~第8発明において、前記第1パラメータは、ノイズキャンセリング、アコースティックエコー除去、ボリューム、補助音の付加、位相調整、マイクゲイン、オートゲインコントロール、イコライザー及びダイナミックレンジコントロールの少なくとも何れかの条件を含むことを特徴とする。
【0016】
第10発明に係る音声処理装置は、音声認識システムに認識させる対象データを生成するための音声処理装置であって、気導マイクと、骨導マイクと、を有するマイク部により収音される音声に基づき、音声データを取得する取得手段と、前記音声データを処理するためのパラメータを設定する設定手段と、前記パラメータに基づいて、前記音声データを処理して対象データを生成する処理手段と、を備え、前記設定手段は、前記マイク部により収音されるキャリブレーション用の音に基づいて、前記音声データを制御するための第1パラメータを設定する第1パラメータ設定手段を有し、前記処理手段は、前記第1パラメータに基づいて、前記音声データを制御する制御手段を有することを特徴とする。
【発明の効果】
【0017】
第1発明~第10発明によれば、設定手段は、マイク部により収音されるキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する第1パラメータ設定手段を有し、処理手段は、第1パラメータに基づいて、音声データDを制御する制御手段を有する。このため、音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0018】
特に、第2発明によれば、第1パラメータ設定手段は、音声をキャリブレーション用の音として取得し、1つの前記キャリブレーション用の音に対して複数の仮パラメータを設定し、制御手段は、複数の仮パラメータに基づいて、キャリブレーション用の音に基づく複数の評価用音データを生成し、音声認識手段は、複数の評価用音データの内容を認識した評価結果を生成し、第1パラメータ設定手段は、評価結果に基づいて、第1パラメータを設定する。このため、キャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。
【0019】
特に、第3発明、第8発明によれば、取得手段は、気導マイクを介して取得される気導音声データ及び骨導マイクを介して取得される骨導音声データを取得し、マイク部を介して取得されるノイズデータ、音声認識手段に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、ノイズデータ、認識装置データ、及び初期設定データの少なくとも何れかに基づいて、第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定手段を有し、処理手段は、第2パラメータに基づいて、気導音声データ及び骨導音声データの少なくとも何れかを選択する選択手段と、第2パラメータに基づいて、選択された気導音声データ及び骨導音声データの少なくとも何れかから対象データを生成する対象データ生成手段、を有する。このため、音声認識させる対象データFを、状況に応じて適した選択することができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0020】
特に、第4発明によれば、制御手段は、気導音声データに補助音を付加する補助音付加手段を有する。気導音声データに補助音を付加することにより、音声認識装置での誤認識を低減させることができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0021】
特に、第5発明によれば、選択手段は、気導音声データ及び骨導音声データを選択し、対象データ生成手段は、気導音声データ及び骨導音声データを加算した加算音声データを対象データとして生成し、音声認識手段は、この対象データの内容を認識した認識結果を生成する。このため、気導音声データと骨導音声データの両方を考慮して音声認識させることができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0022】
特に、第6発明によれば、選択手段は、気導音声データ及び骨導音声データを選択し、対象データ生成手段は、気導音声データから生成される第1対象データと、骨導音声データから生成される第2対象データとを含む対象データを生成し、音声認識手段は、第1対象データの内容を第1利用者によるものとし、第2対象データの内容を第2利用者によるものとして、認識結果を生成する。このため、異なる利用者同士の音声を音声認識させることができる。これにより、窓口等での対面業務や電話応対業務等において、より好適に用いることが可能となる。
【0023】
特に、第7発明によれば、気導マイクは、指向性を有しない第1気導マイクと、指向性を有する第2気導マイクを有し、第1パラメータ設定手段は、第1気導マイクを介して取得されるキャリブレーション用の音に基づいて、第1パラメータを設定し、選択手段は、第2気導マイクを介して取得される気導音声データ及び骨導音声データを選択する。このため、指向性を有しない第1気導マイクによりキャリブレーション用の音として周囲のノイズや音声を収音することができ、周囲の環境をより考慮した第1パラメータを設定することができる。また、第2気導マイクが指向性を有するため、収音装置を装着した第2利用者の音声を第2対象データとして取得し、例えば第2利用者の対面にいる第1利用者の音声を第1対象データとして取得する際に、第1利用者の音声をより効率的に収音することができる。これにより、音声認識の精度を更に向上させることができる。
【0024】
特に、第9発明によれば、第1パラメータは、ノイズキャンセリング、アコースティックエコー除去、ボリューム、補助音の付加、位相調整、マイクゲイン、オートゲインコントロール及びダイナミックレンジコントロールの少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段を行うことで、音声認識システム100を利用する様々な状況に適した第1パラメータを、容易に設定することができる。これにより、利用環境の制限を抑制することが可能となる。
【図面の簡単な説明】
【0025】
図1図1は、第1実施形態における音声認識システムの構成の一例を示す模式図である。
図2図2は、第1実施形態における収音装置の一例を示す模式図である。
図3図3(a)は、第1実施形態における音声処理装置の構成の一例を示す模式図であり、図3(b)は、第1実施形態における音声処理装置の機能の一例を示す模式図である。
図4図4は、第1実施形態における音声認識システムの機能の一例の詳細を示す模式図である。
図5図5は、第1実施形態における音声認識システムの機能の一例の詳細を示す模式図である。
図6図6は、第1参照用テーブルの一例を示す模式図である。
図7図7は、第2参照用テーブルの一例を示す模式図である。
図8図8は、第1実施形態における音声認識システムの動作の第1例を示すフローチャートである。
図9図9は、第1実施形態における音声認識システムの動作の第1変形例を示すフローチャートである。
図10図10は、第1実施形態における音声認識システムの動作の第2変形例を示すフローチャートである。
図11図11は、第2実施形態における収音装置の一例を示す模式図である。
図12図12は、第3実施形態における音声認識システムの動作の一例を示す模式図である。
図13図13は、第4実施形態における音声認識システムの動作の一例を示す模式図である。
図14図14は、第5実施形態における音声認識システムの動作の一例を示す模式図である。
図15図15は、第6実施形態における音声認識システムの動作の一例を示す模式図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態における音声認識システム及び音声認識装置の一例について、図面を参照しながら説明する。
【0027】
(第1実施形態:音声認識システム100の構成)
図1を参照して、第1実施形態における音声認識システム100の構成の一例について説明する。図1は、第1実施形態における音声認識システム100の構成の一例を示す模式図である。
【0028】
音声認識システム100は、利用者の音声を認識するために用いられる。音声認識システム100は、利用者の音声に基づく音声データDをキャリブレーション用の音に基づいて制御し、制御された音声データDから音声認識させるための対象データFを生成する。これにより、音声認識エンジンの種類や周囲の環境に応じて適切なキャリブレーションができる。これにより、音声認識の精度を向上させることが可能となる。
【0029】
音声認識システム100は、例えば図1に示すように、収音装置2と、音声処理装置1と、音声認識装置3とを備える。音声認識システム100では、音声処理装置1と、収音装置2とが、有線通信又は無線通信により接続される。音声認識システム100では、音声処理装置1と、音声認識装置3とが、有線通信又は無線通信により接続される。
【0030】
音声認識システム100は、音声処理装置1を介して、キャリブレーション用の音を取得する。その後、音声処理装置1は、キャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。
【0031】
音声認識システム100は、音声処理装置1を介して、利用者の音声に基づく音声データDを取得する。その後、音声処理装置1は、設定した第1パラメータに基づいて、音声データDを処理して対象データFを生成する。そして、音声処理装置1は、音声認識装置3に対して対象データFを送信する。
【0032】
音声認識システム100は、対象データFを受信する。音声認識システム100は、音声認識装置3を用い、対象データFの内容を認識した認識結果を生成する。このため、音声認識システム100では、認識すべき対象データFを正しく認識することができる。これにより、音声認識システム100は、対象データFの認識精度を向上させることが可能となる。
【0033】
<収音装置2>
図2は、収音装置2の構成の一例を示す模式図である。収音装置2は、例えばマイク部27と、制御部21と、変換部22と、通信部23と、を備え、例えば記憶部24を備えてもよい。収音装置2として、利用者の頭部に装着可能なインカム型のものが用いられるほか、無線通信機能を備えた公知の収音機器が用いられる。
【0034】
<<マイク部27>>
マイク部27は、利用者の音声を収音する。マイク部27は、気導マイク28と、骨導マイク29と、を有する。気導マイク28は、空気振動を用いて音声を収音するものである。骨導マイク29は、発声した際に生じる人体の通過する骨伝導音を収音するものである。マイク部27は、気導マイク28によりキャリブレーション用の音を収音する。マイク部27は、気導マイク28によりノイズを収音する。気導マイク28及び骨導マイク29として、公知の収音機器が用いられる。
【0035】
<<制御部21>>
制御部21は、収音装置2全体の制御を行い、例えば音声データDの送受信に関する動作制御を行う。制御部21は、例えば送信する音声データDの変調方式等を制御するほか、音声データDを送信するタイミング等を制御する。制御部21として、例えばDSP(Digital Signal Processor)等の公知のプロセッサが用いられる。
【0036】
<<変換部22>>
変換部22は、マイク部27により収音された音声(アナログ信号)をデジタル信号(音声データD)に変換する。変換部22は、例えばPCM(Pulse Code Modulation)のような公知技術を用いて、アナログ信号をデジタル信号に変換し、音声データDとして取得する。変換部22として、A/Dコンバータが用いられる。変換部22は、省略されてもよい。
【0037】
<<通信部23>>
通信部23は、有線通信又は無線通信により音声データDを送信する。通信部23は、例えば音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えば無線通信の場合には、GFSK(Gaussian frequency-shift keying):ガウス型周波数偏移変調)、DQPSK(Differential Quadrature Phase-Shift Keying:差動四位相偏移変調)8PSK(8 phase-shift keying:八位相偏移変)等の変調方式を用いて、データを変調する。変調部によるデータの変調は、周波数変調であってもよい。
【0038】
収音装置2は、例えば後述する通信機器111と同様に、受信機構を有してもよい。なお、通信機器111の有する変換部、及び通信部は、変換部22、及び通信部23に対応させることができる。収音装置2は、入力装置212を有する。入力装置212は、制御部21に接続され、各種情報の入力、選択等を行うことができる。入力装置212として、例えばスイッチ等の公知の入力装置が用いられ、収音装置2等の管理等を行う管理者等は、入力装置212を介して、各種情報や、音声処理装置1、収音装置2、音声認識装置3の制御コマンド等を入力又は選択する。
【0039】
<<記憶部24>>
記憶部24は、各種情報を図示しない保存部に記憶させ、又は各種情報を保存部から取出す。保存部は、例えば後述する保存部104と同様に、SDメモリーカード等の公知のデータ保存媒体が用いられる。
【0040】
<音声処理装置1>
図3(a)は、音声処理装置1の構成の一例を示す模式図である。音声処理装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等のような公知の電子機器が用いられてもよい。音声処理装置1は、例えば筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~108とを備え、例えば通信機器111を備えてもよい。各構成101~108は、内部バス110により接続される。
【0041】
CPU101は、音声処理装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、文字列データベース等の各種情報が保存される。保存部104として、例えばSDメモリーカードのほか、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等のような公知のデータ保存媒体が用いられる。
【0042】
I/F105は、通信機器111との各種情報の送受信を行うための公知のインターフェースである。通信機器111は、収音装置2、音声認識装置3等との有線通信又は無線通信を行うために用いられる。通信機器111として、例えばUHF帯域を利用できる公知の通信制御機器が用いられる。なお、通信機器111は、音声処理装置1に対して後付けで設けられるほか、音声処理装置1に内蔵されてもよい。
【0043】
通信機器111は、例えばアンテナと、受信機構とを有し、例えば送信機構を有してもよい。受信機構は、例えば変調されたデータを復調するデジタル復調部と、符号化されたデータを復号する復号化部とを有する。送信機構は、例えば音声をデジタルデータ(音声データD)に変換する変換部と、音声データDを必要に応じて処理する通信部とを有する。通信部は、音声データDを符号化する符号化部と、音声データDを変調する変調部とを有する。変調部は、例えばDQPSK等の位相変調方式を用いて、データを変調する。なお、上述した通信機器111における少なくとも一部の機能を、例えば取得部11が行ってもよい。
【0044】
I/F106は、用途に応じて接続される入力装置112との各種情報の送受信を行うための公知のインターフェースである。入力装置112として、例えばキーボード等の公知の入力装置が用いられ、音声認識システム100の管理等を行う管理者等は、入力装置112を介して、各種情報や、音声処理装置1、収音装置2、音声認識装置3の制御コマンド等を入力又は選択する。入力装置112として、スイッチが用いられ、制御コマンド等の入力又は選択をしてもよい。
【0045】
I/F107は、用途に応じて接続される表示部113との各種情報の送受信を行うための公知のインターフェースである。表示部113は、保存部104に保存された各種情報や、音声処理装置1の処理状況等を出力する。表示部113として、例えばディスプレイが用いられ、例えばタッチパネル式でもよい。この場合、表示部113が入力装置112を含む構成としてもよい。
【0046】
I/F108は、例えば音声認識装置3のような外部機器との各種情報の送受信を行うための公知のインターフェースである。I/F108は、例えば複数設けられ、インターネット等の通信網を介した各種情報の送受信を行うために用いられてもよい。
【0047】
なお、I/F105~I/F108として、例えば同一のものが用いられてもよく、各I/F105~I/F108として、例えばそれぞれ複数のものが用いられてもよい。また、入力装置112及び表示部113の少なくとも何れかは、状況に応じて取り外されてもよい。
【0048】
図3(b)は、音声処理装置1の機能の一例を示す模式図である。図4は、第1実施形態における音声認識システム100の機能の一例の詳細を示す模式図である。音声処理装置1は、取得部11と、設定部12と、処理部13と、記憶部14と、出力部15とを備える。なお、図3(b)及び図4に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現される。
【0049】
<<取得部11>>
取得部11は、各種情報を取得する。取得部11は、マイク部27により収音される音声に基づき、音声データDを取得する。取得部11は、第1取得部11aと、第2取得部11bと、を有する。第1取得部11aは、気導マイク28を介して取得される気導音声データD1やデジタル信号に変換されたキャリブレーション用の音を取得する。第2取得部11bは、骨導マイク29を介して取得される骨導音声データD2を取得する。マイク部27により収音された音声を収音装置2においてデジタル信号である音声データDに変換し、取得部11は、このデジタル信号に変換された音声データDを取得する。マイク部27によりアナログ信号の音声データDを取得した場合、取得部11は、アナログ信号の音声データDを取得してもよい。取得部11は、収音装置2、音声認識装置3から各種情報を取得する。
【0050】
なお、取得部11は、マイク部27を有していてもよい。また、取得部11は、マイク部27により収音された音声(アナログ信号)をデジタル信号(音声データD)に変換する機能を有していてもよい。かかる場合には、マイク部27により収音された音声を取得部11においてデジタル信号である音声データDに変換し、取得部11は、このデジタル信号に変換された音声データDを取得する。
【0051】
<<設定部12>>
設定部12は、音声データDを処理するためのパラメータを設定する。設定部12は、第1パラメータ設定部121と、第2パラメータ設定部122と、を有する。
【0052】
<<<第1パラメータ設定部121>>>
第1パラメータ設定部121は、キャリブレーション用の音を取得部11から取得する。第1パラメータ設定部121は、気導マイク28(マイク部27)により収音されるキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。キャリブレーション用の音としては、音声又はノイズデータが用いられる。キャリブレーション用の音が音声の場合には、例えば後述する評価結果Rに基づいて第1パラメータを設定する。キャリブレーション用の音がノイズデータの場合には、例えばノイズレベルに基づいて第1パラメータを設定する。第1パラメータ設定部121は、例えばキャリブレーション用の音の大きさを判定する閾値を用いて、第1パラメータを設定してもよい。なお、閾値は予め設定することができ、公知の技術を用いて判定してもよい。パラメータ値は、例えば事前に測定評価した結果を用いてもよいし、パラメータ値を設定するためのプログラムをCPU101等により実行させたものを用いてもよい。
【0053】
第1パラメータ設定部121は、例えば取得部11により取得される評価結果Rに基づいて、音声データDを制御するための第1パラメータを設定する。
【0054】
第1パラメータ設定部121は、図5に示すように、1つのキャリブレーション用の音に対する複数の仮パラメータを設定する。第1パラメータ設定部121は、評価用音データMを制御するための仮パラメータを設定する。仮パラメータは、第1パラメータに対応するものである。仮パラメータは、例えばキャリブレーション用の音の内容に関わらず予め設定されていてもよいし、任意に設定してもよい。
【0055】
第1パラメータ設定部121は、例えば、評価用音データM(Ma、Mb、Mc、Md)に対する複数の評価結果R(評価結果Ra、Rb、Rc、Rd)のうち、最も高い信頼度の評価結果Rに設定された仮パラメータを、第1パラメータとして設定する。
【0056】
第1パラメータ設定部121は、初期設定データ、ノイズデータ、及び認識装置データの少なくとも何れかに基づいて、音声データDを制御するための第1パラメータを設定してもよい。
【0057】
<<<第2パラメータ設定部122>>>
第2パラメータ設定部122は、第1パラメータとは異なる第2パラメータを設定するための付加データに基づいて、第2パラメータを設定する。第2パラメータ設定部122は、付加データに基づいて、気導選択部133での選択と、骨導選択部134での選択と、対象データ生成部135により対象データFを生成する基になる音声データDの選択と、を設定する。
【0058】
付加データは、初期設定データ、ノイズデータ、認識装置データの少なくとも何れかを含む。第2パラメータ設定部122は、初期設定データ、ノイズデータ、及び認識装置データの少なくとも何れかに基づいて、第2パラメータを設定する。
【0059】
初期設定データは、ユーザからの入力動作に基づくものであり、取得部11により取得される。初期設定データに応じて、設定すべき第1パラメータ及び第2パラメータの少なくとも何れかが割り当てられている。初期設定データは、選択部132での選択に関する情報を含む。また、初期設定データは、対象データ生成部135で生成する対象データFの種類に関する情報を含む。初期設定データは、第1パラメータを設定する際に、キャリブレーション用の音として、音声、又はノイズデータの選択に関する情報を含む。
【0060】
ノイズデータは、気導マイク28により収音されるノイズに関するものであり、取得部11により取得される。ノイズデータに応じて、設定すべき第1パラメータ及び第2パラメータの少なくとも何れかが割り当てられている。ノイズデータは、選択部132での選択に関する情報を含む。また、ノイズデータは、対象データ生成部135で生成する対象データFの種類に関する情報を含む。
【0061】
認識装置データは、音声認識装置3の種類に関するものであり、取得部11により取得される。認識装置データに応じて、設定すべき第1パラメータ及び第2パラメータの少なくとも何れかが割り当てられている。認識装置データは、選択部132での選択に関する情報を含む。また、認識装置データは、対象データ生成部135で生成する対象データFの種類に関する情報を含む。
【0062】
<<処理部13>>
処理部13は、取得部11により取得した音声データDを処理して対象データFを生成する。処理部13は、制御部131と、選択部132と、対象データ生成部135と、を有する。処理部13は、対象データFを音声認識装置3に送信する。処理部13は、評価用音データMを音声認識装置3に送信する。
【0063】
<<<制御部131>>>
制御部131は、例えば図6に示すような第1参照用テーブルを参照し、第1パラメータに基づいて、音声データDを制御する。第1参照用テーブルには、各制御項目に対するパラメータ値が割り当てられた複数の設定が第1パラメータとして記憶される。第1参照用テーブルには、例えば図6に示すように、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)、ノイズキャンセリング(NC:Noise Cancelling)、ボリューム(Vol:Volume)、補助音の付加、位相調整、マイクゲイン(MIC Gain)、オートゲインコントロール(AGC:Auto Gain Control)、イコライザー(EQ:Equalizer)及びダイナミックレンジコントロール(DRC:Dynamic Range Control)の少なくとも何れかの制御項目として含む。
【0064】
制御部131は、複数の仮パラメータに基づいて、複数の評価用音データMを生成する。制御部131は、例えば図5に示すように、設定1-1を仮パラメータとした評価用音データMaと、設定1-2を仮パラメータとした評価用音データMbと、設定1-3を仮パラメータとした評価用音データMcと、設定1-4を仮パラメータとした評価用音データMdと、を生成する。
【0065】
制御部131は、気導制御部131aと、骨導制御部131bと、を有する。
【0066】
<<<<気導制御部131a>>>>
気導制御部131aは、例えば気導音声データD1についての、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)、ノイズキャンセリング(NC:Noise Cancelling)、ボリューム(Vol:Volume)、補助音の付加、位相調整、マイクゲイン(MIC Gain)、オートゲインコントロール(AGC:Auto Gain Control)、イコライザー(EQ:Equalizer)及びダイナミックレンジコントロール(DRC:Dynamic Range Control)の少なくとも何れかを制御する。気導制御部131aは、例えばDSP(Digital Signal Processor)等の公知のプロセッサが用いられる。
【0067】
気導制御部131aは、気導音声データD1に補助音を付加する補助音付加部131cを有する。補助音付加部131cは、例えばDSP(Digital Signal Processor)等の公知のプロセッサに内蔵されるものであってもよいし、外付けされるものであってもよい。補助音付加部131cは、例えば補助音としてコンフォートノイズ、ホワイトノイズ、ピンクノイズ等の公知の補助的なノイズを気導音声データD1に付加する。
【0068】
気導制御部131aは、気導音声データD1の位相を骨導音声データD2の位相を調整する位相調整部131dを有する。位相調整部131dは、例えばDSP(Digital Signal Processor)等の公知のプロセッサに内蔵されるものであってもよいし、外付けされるものであってもよい。
【0069】
<<<<骨導制御部131b>>>>
骨導制御部131bは、例えば骨導音声データD2についての、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)、ノイズキャンセリング(NC:Noise Cancelling)、ボリューム(Vol:Volume)、マイクゲイン(MIC Gain)、オートゲインコントロール(AGC:Auto Gain Control)及びダイナミックレンジコントロール(DRC:Dynamic Range Control)、の少なくとも何れかを制御する。骨導制御部131bは、例えばDSP(Digital Signal Processor)等の公知のプロセッサが用いられる。
【0070】
<<<選択部132>>>
選択部132は、例えば図7に示すような第2参照用テーブルを参照し、第2パラメータに基づいて、気導音声データD1及び骨導音声データD2の何れか一方又は両方を選択する。選択部132は、気導選択部133と、骨導選択部134と、を有する。第2参照用テーブルには、気導音声データD1及び骨導音声データD2の少なくとも何れかを選択部132により選択に関する設定と、選択部132により選択された音声データDから対象データFを生成に関する設定とが、第2パラメータとして記憶される。
【0071】
<<<<気導選択部133>>>>
気導選択部133は、例えば、第2パラメータに基づいて、気導制御、気導バイパス及び気導ミュートの何れかを選択する。気導制御は、気導制御部131aによる気導音声データD1の制御を行うものである。気導バイパスは、気導制御部131aによる気導音声データD1の制御を行わないものである。気導ミュートは、気導音声データD1を無効化するものである。気導選択部133としては、公知の切替回路が用いられる。
【0072】
<<<<骨導選択部134>>>>
骨導選択部134は、例えば、第2パラメータに基づいて、骨導制御、骨導バイパス及び骨導ミュートの何れかを選択する。骨導制御は、骨導制御部131bによる骨導音声データD2の制御を行うものである。骨導バイパスは、骨導制御部131bによる骨導音声データD2の制御を行わないものである。骨導ミュートは、骨導音声データD2を無効化するものである。骨導選択部134としては、公知の切替回路が用いられる。
【0073】
<<<対象データ生成部135>>>
対象データ生成部135は、第2参照用テーブルを参照し、第2パラメータに基づいて、選択部132により選択された音声データDから対象データFを生成する。
【0074】
対象データ生成部135は、第2パラメータに基づいて、気導音声データD1を対象データFとして生成する。このとき、処理部13は、気導音声データD1である対象データFを音声認識装置3に送信する。
【0075】
対象データ生成部135は、第2パラメータに基づいて、骨導音声データD2を対象データFとして生成する。このとき、処理部13は、骨導音声データD2である対象データFを音声認識装置3に送信する。
【0076】
対象データ生成部135は、第2パラメータに基づいて、気導音声データD1及び骨導音声データD2を加算した加算音声データD3を対象データFとして生成する。このとき、処理部13は、加算音声データD3である対象データFを音声認識装置3に送信する。
【0077】
対象データ生成部135は、第2パラメータに基づいて、気導音声データD1から第1対象データF1を生成し、骨導音声データD2から第2対象データF2を生成する。対象データ生成部135は、第1対象データF1と第2対象データF2とを含む対象データFを生成する。このとき、処理部13は、気導音声データD1である第1対象データF1と骨導音声データD2である第2対象データF2とを含む対象データFを、音声認識装置3に送信する。
【0078】
<<記憶部14>>
記憶部14は、各種情報を保存部104に記憶させ、又は各種情報を保存部104から取出す。記憶部14は、取得部11と、設定部12と、処理部13と、出力部15との処理内容に応じて、各種情報の記憶又は取出しを行う。
【0079】
<<出力部15>>
出力部15は、各種情報を表示部113等に出力する。出力部15は、例えば音声認識装置3により生成された認識結果を、表示部113等に出力する。
【0080】
<音声認識装置3>
音声認識装置3は、処理部13から送信された対象データFを取得する。音声認識装置3は、音素認識を用い、対象データFの内容を認識した認識結果を生成する。音声認識装置3は、例えばJulius等の公知の音素認識技術を含む音声認識エンジンや、Python等のような公知の汎用プログラミング言語を用いて、音声データDの内容を認識した認識結果の生成を実現することができる。音声認識装置3は、Azure(登録商標)や、Amazon transcribeや、Vbox等の音声認識エンジンが用いられてもよい。音声認識装置3は、例えば取得した対象データFに含まれる音素の配列(音素情報)を抽出し、音素情報に基づき認識結果を生成する。
【0081】
音素情報は、利用者が発する音素の配列(例えば「a/k/a/r/i」等)を複数含む。音素は、母音と、子音とを含む公知のものである。なお、音素情報は、例えば音声の開始を示す無音区間(例えば「silB」等で示される開始無音区間)、及び音声の終了を示す無音区間(例えば「silE」等で示される終了無音区間)の少なくとも何れかを含んでもよい。開始無音区間、及び終了無音区間は、公知の音素認識技術により抽出することができる。
【0082】
音素情報は、例えば休止区間を含んでもよい。休止区間は、開始無音区間及び終了無音区間よりも短い区間を示し、例えば音素の区間と同程度の区間(長さ)を示す。休止区間は、公知の音素認識技術により抽出することができる。
【0083】
音声認識装置3は、複数の評価用音データMを取得し、複数の評価用音データM(Ma、Mb、Mc、Md)の内容を認識した評価結果R(Ra、Rb、Rc、Rd)を生成する。評価結果Rは、例えば音声認識の度合い(例えば百分率)を示す信頼度を含む。
【0084】
(第1実施形態:音声認識システム100の動作の第1例)
次に、第1実施形態における音声認識システム100の動作の第1例について説明する。図8は、第1実施形態における音声認識システム100の動作の第1例を示すフローチャートである。
【0085】
音声認識システム100の動作の第1例では、気導マイク28により収音されるノイズデータ等のキャリブレーション用の音とし、このキャリブレーション用の音に基づいて第1パラメータを設定するものである。
【0086】
音声認識システム100の動作の第1例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0087】
設定ステップS110は、第1パラメータ設定ステップS113を有する。
【0088】
第1パラメータ設定ステップS113は、取得部11がキャリブレーション用の音を取得する。第1パラメータ設定ステップS113では、第1パラメータ設定部121が気導マイク28(マイク部27)を介して取得されるキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。
【0089】
取得ステップS120では、気導マイク28と、骨導マイク29と、を有するマイク部27により収音される音声に基づき、音声データDを取得する。取得ステップS120では、気導マイク28を介して取得される気導音声データD1と、骨導マイク29を介して取得される骨導音声データD2と、を取得する。
【0090】
処理ステップS130では、音声データDを処理して対象データFを生成する。処理ステップS130は、制御ステップS131を有する。
【0091】
制御ステップS131では、制御部131は、第1パラメータに基づいて、音声データDの制御を行う。
【0092】
音声認識ステップS140では、音声認識装置3は、対象データFの内容を認識した認識結果を生成する。
【0093】
その後、必要に応じて、例えば出力部15は、I/F107を介して、表示部113に認識結果を出力する。
【0094】
本実施形態によれば、設定部12は、マイク部27により収音されるキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する第1パラメータ設定部121を有し、処理部13は、第1パラメータに基づいて、音声データDを制御する制御部131を有する。このため、音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0095】
(第1実施形態:音声認識システム100の動作の第1変形例)
次に、第1実施形態における音声認識システム100の動作の第1変形例について説明する。図9は、第1実施形態における音声認識システム100の動作の第1変形例を示すフローチャートである。
【0096】
音声認識システム100の動作の第1変形例では、音声認識装置3により音声認識させる対象データFを、利用者が選択するものである。また、音声認識システム100の動作の第1例では、気導マイク28により収音される音声をキャリブレーション用の音として取得し、このキャリブレーション用の音に基づいて第1パラメータを設定するものである。
【0097】
音声認識システム100の動作の第1変形例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0098】
設定ステップS110は、入力ステップS111と、第2パラメータ設定ステップS112と、第1パラメータ設定ステップS113と、を有する。
【0099】
入力ステップS111では、取得部11が初期設定データを含む付加データを取得する。この初期設定データには、キャリブレーション用の音として音声を選択する旨が含まれる。
【0100】
第2パラメータ設定ステップS112では、第2パラメータ設定部122が初期設定データを含む付加データを取得し、付加データに基づいて、第2パラメータを設定する。
【0101】
第1パラメータ設定ステップS113では、取得部11は、気導マイク28(マイク部27)により収音される音声を1つのキャリブレーション用の音を取得する。
【0102】
第1パラメータ設定ステップS113では、第1パラメータ設定部121は、キャリブレーション用の音を取得し、取得した1つのキャリブレーション用の音に対して複数の仮パラメータを設定する。次に、第1パラメータ設定ステップS113では、制御部131は、複数の仮パラメータに基づいて、キャリブレーション用の音に基づく複数の評価用音データM(Ma、Mb、Mc、Md)を生成し、複数の評価用音データMを音声認識装置3に送信する。次に、第1パラメータ設定ステップS113では、音声認識装置3は、複数の評価用音データM(Ma、Mb、Mc、Md)の内容を認識した評価結果R(評価結果Ra、Rb、Rc、Rd)を生成し、取得部11に送信する。そして、第1パラメータ設定ステップS113では、第1パラメータ設定部121は、取得された評価結果Rに基づいて、第1パラメータを設定する。このとき、第1パラメータ設定部121は、評価用音データM(Ma、Mb、Mc、Md)に対する複数の評価結果R(評価結果Ra、Rb、Rc、Rd)のうち、最も高い信頼度の評価結果Rを生成した評価用音データMに設定された仮パラメータを、第1パラメータとして設定する。
【0103】
取得ステップS120では、気導マイク28と、骨導マイク29と、を有するマイク部27により収音される音声に基づき、音声データDを取得する。取得ステップS120では、気導マイク28を介して気導音声データD1と、骨導マイク29を介して骨導音声データD2と、を取得する。
【0104】
処理ステップS130では、音声データDを処理して対象データFを生成する。処理ステップS130は、制御ステップS131と、選択ステップS132と、対象データ生成ステップS133と、を有する。
【0105】
制御ステップS131では、制御部131は、第1パラメータに基づいて、音声データDの制御を行う。気導制御部131aは、例えば、第1パラメータに基づいて、気導音声データD1のノイズキャンセリング、ボリューム、アコースティックエコー除去、補助音の付加及び位相の制御を行う。骨導制御部131bは、例えば、第1パラメータに基づいて、骨導音声データD2のノイズキャンセリング及びボリュームの制御を行う。
【0106】
選択ステップS132では、選択部132は、第2パラメータに基づいて、音声認識装置3に対象データFを生成するための音声データDを、気導音声データD1及び骨導音声データD2の少なくとも何れかを選択する。気導選択部133は、例えば、第2パラメータに基づいて、気導制御部131aによる気導音声データD1の制御を行う気導制御、気導制御部131aによる気導音声データD1の制御を行わない気導バイパス、及び気導音声データD1を無効化する気導ミュートの何れかを選択する。骨導選択部134は、例えば、第2パラメータに基づいて、骨導制御部131bによる骨導音声データD2の制御を行う骨導制御、骨導制御部131bによる骨導音声データD2の制御を行わない骨導バイパス及び骨導音声データD2を無効化する骨導ミュートの何れかを選択する。
【0107】
対象データ生成ステップS133では、対象データ生成部135は、第2パラメータに基づいて、選択部132により選択された音声データDから対象データFを生成する。例えば、対象データ生成部135は、第2パラメータに基づいて、気導音声データD1を対象データFとして生成する。例えば、対象データ生成部135は、第2パラメータに基づいて、骨導音声データD2を対象データFとして生成する。例えば、対象データ生成部135は、気導音声データD1と骨導音声データD2とを加算した加算音声データD3を対象データFとして生成する。
【0108】
音声認識ステップS140では、音声認識装置3は、処理部13から送信された対象データFの内容を認識した認識結果を生成する。
【0109】
その後、必要に応じて、例えば出力部15は、I/F107を介して、表示部113に認識結果を出力する。
【0110】
(第1実施形態:音声認識システム100の動作の第2変形例)
次に、第1実施形態における音声認識システム100の動作の第2変形例について説明する。図10は、第1実施形態における音声認識システム100の動作の第2変形例を示すフローチャートである。
【0111】
音声認識システム100の動作の第2変形例では、音声認識装置3により音声認識させる対象データFを、利用者が選択するものである。また、音声認識システム100の動作の第2変形例では、気導マイク28により収音されるノイズをキャリブレーション用の音として取得し、このキャリブレーション用の音に基づいて第1パラメータを設定するものである。第2変形例では、キャリブレーション用の音としてノイズを用いる点で、主に第1変形例と相違する。
【0112】
音声認識システム100の動作の第2変形例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0113】
設定ステップS110は、入力ステップS111と、第2パラメータ設定ステップS112と、第1パラメータ設定ステップS113と、を有する。
【0114】
入力ステップS111では、取得部11が初期設定データを含む付加データを取得する。この初期設定データには、キャリブレーション用の音としてノイズデータを選択する旨が含まれる。
【0115】
第2パラメータ設定ステップS112は、上述した第1変形例と同様であるため、省略する。
【0116】
第1パラメータ設定ステップS113は、取得部11は、気導マイク28によりキャリブレーション用の音としてノイズを収音したノイズデータを取得する。第1パラメータ設定ステップS113では、第1パラメータ設定部121は、このキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。
【0117】
以下、上述した第1例と同様に、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を行う。
【0118】
(第1実施形態:音声認識システム100の動作の第3変形例)
次に、第1実施形態における音声認識システム100の動作の第3変形例について説明する。第1実施形態における音声認識システム100の動作の第3変形例におけるフローチャートは、図9と同様である。
【0119】
音声認識システム100の動作の第3変形例では、音声認識装置3により音声認識させる対象データFを、自動的に選択するものである。また、音声認識システム100の動作の第3変形例では、気導マイク28により収音される音声をキャリブレーション用の音として取得し、このキャリブレーション用の音に基づいて第1パラメータを設定するものである。第3変形例では、音声認識させる対象データFをノイズデータ又は認識装置データに基づいて選択させる。
【0120】
音声認識システム100の動作の第3変形例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0121】
設定ステップS110は、入力ステップS111と、第2パラメータ設定ステップS112と、第1パラメータ設定ステップS113と、を有する。
【0122】
入力ステップS111では、取得部11が初期設定データを含む付加データを取得する。この初期設定データには、キャリブレーション用の音として音声を選択する旨が含まれる。
【0123】
第2パラメータ設定ステップS112では、取得部11は、付加データとして、認識装置データ及びノイズデータの少なくとも何れかを取得する。第2パラメータ設定ステップS112では、第2パラメータ設定部122は、取得した付加データに基づいて、第2パラメータを設定する。
【0124】
第1パラメータ設定ステップS113は、上述した第1例と同様であるため、省略する。
【0125】
以下、上述した第1変形例と同様に、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を行う。
【0126】
(第1実施形態:音声認識システム100の動作の第4変形例)
次に、第1実施形態における音声認識システム100の動作の第4変形例について説明する。第1実施形態における音声認識システム100の動作の第4変形例におけるフローチャートは、図10と同様である。
【0127】
音声認識システム100の動作の第4変形例では、音声認識装置3により音声認識させる対象データFが、気導音声データD1である第1対象データF1と、骨導音声データD2である第2対象データF2とを含むものである。また、音声認識システム100の動作の第4変形例では、気導マイク28により収音されるノイズをキャリブレーション用の音として取得し、このキャリブレーション用の音に基づいて第1パラメータを設定するものである。
【0128】
音声認識システム100の動作の第4変形例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0129】
設定ステップS110は、入力ステップS111と、第2パラメータ設定ステップS112と、第1パラメータ設定ステップS113と、を有する。
【0130】
入力ステップS111では、取得部11が初期設定データを含む付加データを取得する。この初期設定データには、キャリブレーション用の音としてノイズデータを選択する旨が含まれる。
【0131】
第2パラメータ設定ステップS112では、第2パラメータ設定部122が取得した初期設定データを含む付加データに基づいて、第2パラメータを設定する。
【0132】
第1パラメータ設定ステップS113は、気導マイク28によりキャリブレーション用の音としてノイズを収音したノイズデータを取得し、このキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。
【0133】
次に、上述した第2例と同様に、取得ステップS120を行う。
【0134】
処理ステップS130では、音声データDを処理して対象データFを生成する。処理ステップS130は、制御ステップS131と、選択ステップS132と、対象データ生成ステップS133と、を有する。
【0135】
制御ステップS131は、上述した第2例と同様に、行う。
【0136】
選択ステップS132では、選択部132は、第2パラメータに基づいて、対象データFを生成する基になる音声データDを、気導音声データD1及び骨導音声データD2の両方を選択する。気導選択部133は、例えば、第2パラメータに基づいて、気導制御部131aによる気導音声データD1の制御を行う気導制御又は気導制御部131aによる気導音声データD1の制御を行わない気導バイパスを選択する。骨導選択部134は、例えば、第2パラメータに基づいて、骨導制御部131bによる骨導音声データD2の制御を行う骨導制御又は骨導制御部131bによる骨導音声データD2の制御を行わない骨導バイパスの何れかを選択する。
【0137】
対象データ生成ステップS133では、選択ステップS132により選択された気導音声データD1と骨導音声データD2と、から対象データFを生成する。対象データ生成部135は、気導音声データD1である第1対象データF1と、骨導音声データD2である第2対象データF2とを含む対象データFを生成する。
【0138】
音声認識ステップS140では、音声認識装置3は、処理部13から送信された対象データFの内容を認識した認識結果を生成する。このとき、音声認識装置3は、第1対象データF1を第1利用者によるものとし、第2対象データF2を第2利用者によるものとして、認識結果を生成する。
【0139】
本実施形態によれば、第1パラメータ設定部121は、音声をキャリブレーション用の音として取得し、1つの前記キャリブレーション用の音に対して複数の仮パラメータを設定し、制御部131は、複数の仮パラメータに基づいて、キャリブレーション用の音に基づく複数の評価用音データを生成し、音声認識装置3は、複数の評価用音データの内容を認識した評価結果を生成し、第1パラメータ設定部121は、評価結果Rに基づいて、第1パラメータを設定する。このため、キャリブレーションを行う際に費やすデータの送受信回数を、最小限に抑えることができる。これにより、キャリブレーションの調整時間を大幅に削減することが可能となる。
【0140】
本実施形態によれば、取得部11は、気導マイク28を介して取得される気導音声データD1及び骨導マイク29を介して取得される骨導音声データD2を取得し、マイク部27を介して取得されるノイズデータ、音声認識装置3に関する認識装置データ、及び初期設定に関する初期設定データの少なくとも何れかを取得し、ノイズデータ、認識装置データ、及び初期設定データの少なくとも何れかに基づいて、第1パラメータとは異なる第2パラメータを設定する第2パラメータ設定部122を有し、処理部13は、第2パラメータに基づいて、気導音声データD1及び骨導音声データD2の少なくとも何れかを選択する選択部132と、第2パラメータに基づいて、選択された気導音声データD1及び骨導音声データD2の少なくとも何れかから対象データFを生成する対象データ生成部135と、を有する。このため状況に応じて適した対象データFを選択することができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0141】
本実施形態によれば、第2パラメータ設定部122は、マイク部27を介して取得されるノイズデータに基づいて、第2パラメータを設定する。このため、ノイズのレベルに応じて、音声認識装置3に音声認識させる対象データFを選択することができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0142】
本実施形態によれば、第2パラメータ設定部122は、音声認識装置3についての認識装置データに基づいて、第2パラメータを設定する。このため、音声認識装置3の種類に応じて、音声認識装置3に音声認識させる対象データFを選択することができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0143】
本実施形態によれば、第2パラメータ設定部122は、初期設定に関する初期設定データに基づいて、第2パラメータを設定する。このため、利用者の入力動作に応じて、音声認識装置3に音声認識させる対象データFを選択することができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0144】
本実施形態によれば、制御部131は、気導音声データD1に補助音を付加する補助音付加部131cを有する。ここで、雑音がほとんどない環境において気導マイク28を介して取得される気導音声データD1である対象データFを音声認識させたとき、この対象データFの認識結果が誤認識される場合がある。この点、気導音声データD1に補助音を付加することにより、音声認識装置3での誤認識を低減させることができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0145】
本実施形態によれば、選択部132は、気導音声データD1及び骨導音声データD2を選択し、対象データ生成部135は、気導音声データD1及び骨導音声データD2を加算した加算音声データD3を対象データFとして生成し、音声認識装置3は、この対象データFの内容を認識した認識結果を生成する。このため、気導音声データD1と骨導音声データD2の両方を考慮して音声認識させることができる。これにより、音声認識の精度を更に向上させることが可能となる。
【0146】
本実施形態によれば、選択部132は、気導音声データD1及び骨導音声データD2を選択し、対象データ生成部135は、気導音声データD1から生成される第1対象データF1と、骨導音声データD2から生成される第2対象データF2とを含む対象データFを生成し、音声認識装置3は、第1対象データF1の内容を第1利用者によるものとし、第2対象データF2の内容を第2利用者によるものとして、認識結果を生成する。このため、異なる利用者同士の音声を音声認識させることができる。これにより、窓口等での対面業務や電話応対業務等において、異なる利用者同士の会話を認識させる際に、より好適に用いることが可能となる。
【0147】
本実施形態によれば、第1パラメータは、ノイズキャンセリング、アコースティックエコー除去、ボリューム、補助音の付加、位相調整、マイクゲイン、オートゲインコントロール、イコライザー及びダイナミックレンジコントロールの少なくとも何れかの条件を含む。このため、一度のキャリブレーション手段を行うことで、音声認識システム100を利用する様々な状況に適した第1パラメータを、容易に設定することができる。これにより、利用環境の制限を抑制することが可能となる。
【0148】
(第2実施形態:音声認識システム100)
次に、第2実施形態における音声認識システム100の一例について説明する。上述した実施形態と、第2実施形態との違いは、気導マイク28が第1気導マイク28aと第2気導マイク28bとを有する点である。なお、上述した実施形態と同様の内容については、説明を省略する。
【0149】
図11は、第2実施形態における収音装置2の構成の一例を示す模式図である。第1気導マイク28aは、指向性を有しないものであって、キャリブレーション用の音を収音するものである。第2気導マイク28bは、指向性を有するものであって、音声データDを取得するための音声を収音するものである。
【0150】
収音装置2は、音声を収音するマイクを第1気導マイク28aと第2気導マイク28bとの何れかに切り替える切替部26を有する。切替部26は、取得部11による初期設定データに基づいて、第1気導マイク28aと第2気導マイク28bの何れか一方により収音するかを切り替える。収音装置2としては、第1気導マイク28aと、第2気導マイク28bと、骨導マイク29とを備えた、第2利用者の頭部に装着可能なものが用いられる。第2気導マイク28bは、第2利用者の対面にいる第1利用者に向けられていることが好ましい。切替部26による切り替えは、例えば、初期設定データに基づいて、行われる。
【0151】
(第2実施形態:音声認識システム100の動作の第1例)
次に、第2実施形態における音声認識システム100の動作の第1例について説明する。第2実施形態における音声認識システム100の動作の第1例におけるフローチャートは、図10と同様である。
【0152】
第2実施形態の音声認識システム100の動作の第1例では、キャリブレーション用の音を第1気導マイク28aにより収音し、音声認識させる音声を第2気導マイク28bにより収音する点で、第1実施形態の第4変形例と相違する。
【0153】
音声認識システム100の動作の第1例では、設定ステップS110と、取得ステップS120と、処理ステップS130と、音声認識ステップS140と、を備える。
【0154】
設定ステップS110は、入力ステップS111と、第2パラメータ設定ステップS112と、第1パラメータ設定ステップS113と、を有する。
【0155】
入力ステップS111では、利用者がスイッチ等の入力装置112を押圧することにより、取得部11が利用者からの入力動作を初期設定データとして取得する。
【0156】
第2パラメータ設定ステップS112では、第2パラメータ設定部122が取得した初期設定データを含む付加データに基づいて、第2パラメータを設定する。
【0157】
第1パラメータ設定ステップS113は、取得部11は、第1気導マイク28aを介して収音されるノイズをキャリブレーション用の音として取得し、第1パラメータ設定部121は、このキャリブレーション用の音に基づいて、音声データDを制御するための第1パラメータを設定する。
【0158】
取得ステップS120では、切替部26により第1気導マイク28aから第2気導マイク28bに切り替え、第2気導マイク28bを介して気導音声データD1を取得する。また、取得ステップS120では、骨導マイク29を介して骨導音声データD2を取得する。
【0159】
処理ステップS130では、音声データDを処理して対象データFを生成する。処理ステップS130は、制御ステップS131と、選択ステップS132と、対象データ生成ステップS133と、を有する。
【0160】
制御ステップS131は、上述した第1例と同様に行う。
【0161】
選択ステップS132では、選択部132は、第2パラメータに基づいて、音声認識装置3に音声認識させる対象データFを、第2気導マイク28bを介して取得した気導音声データD1及び骨導マイク29を介して取得した骨導音声データD2の両方を選択する。気導選択部133は、例えば、第2パラメータに基づいて、気導制御部131aによる気導音声データD1の制御を行う気導制御、又は気導制御部131aによる気導音声データD1の制御を行わない気導バイパスを選択する。骨導選択部134は、例えば、第2パラメータに基づいて、骨導制御部131bによる骨導音声データD2の制御を行う骨導制御、又は骨導制御部131bによる骨導音声データD2の制御を行わない骨導バイパスの何れかを選択する。
【0162】
対象データ生成ステップS133では、対象データ生成部135は、第2パラメータに基づいて、音声データDから対象データFを生成する。選択部132により気導音声データD1及び骨導音声データD2が選択され、対象データ生成部135は、第2パラメータに基づいて、気導音声データD1から生成される第1対象データF1と、骨導音声データD2から第2対象データF2とを含む対象データFを生成する。
【0163】
音声認識ステップS140では、音声認識装置3は、処理部13から送信された対象データFの内容を認識した認識結果を生成する。このとき、音声認識装置3は、第1対象データF1を第1利用者によるものとし、第2対象データF2を第2利用者によるものとして、認識結果を生成する。
【0164】
本実施形態によれば、気導マイク28は、指向性を有しない第1気導マイク28aと、指向性を有する第2気導マイク28bを有し、第1パラメータ設定部121は、第1気導マイク28aを介して取得されるキャリブレーション用の音に基づいて、第1パラメータを設定し、選択部132は、第2気導マイク28bを介して取得される気導音声データD1及び骨導音声データD2を選択する。このため、指向性を有しない第1気導マイク28aによりキャリブレーション用の音として周囲のノイズや音声を収音することができ、周囲の環境をより考慮した第1パラメータを設定することができる。また、第2気導マイク28bが指向性を有するため、収音装置2を装着した第2利用者の音声を第2対象データF2として取得し、例えば第2利用者の対面にいる第1利用者の音声を第1対象データF1として取得する際に、第1利用者の音声をより効率的に収音することができる。これにより、音声認識の精度を更に向上させることができる。
【0165】
(第3実施形態:音声認識システム100の構成)
図12を参照して、第3実施形態における音声認識システム100の構成の一例について説明する。図12は、第3実施形態における音声認識システム100の構成の一例を示す模式図である。
【0166】
第3実施形態における音声認識システム100は、収音装置2に音声処理装置1が内蔵される。本実施形態においても、音声認識させる音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0167】
(第4実施形態:音声認識システム100の構成)
図13を参照して、第4実施形態における音声認識システム100の構成の一例について説明する。図13は、第4実施形態における音声認識システム100の構成の一例を示す模式図である。
【0168】
第4実施形態における音声認識システム100は、音声認識装置3に音声処理装置1が内蔵される。なお、音声処理装置1に音声認識装置3が内蔵されてもよい。本実施形態においても、音声認識させる音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0169】
(第5実施形態:音声認識システム100の構成)
図14を参照して、第5実施形態における音声認識システム100の構成の一例について説明する。図14は、第5実施形態における音声認識システム100の構成の一例を示す模式図である。
【0170】
第5実施形態における音声認識システム100は、収音装置2に音声処理装置1が内蔵される。本実施形態においても、音声認識させる音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0171】
本実施形態における音声認識システム100は、更に操作装置200を備える。操作装置200は、例えばスマートフォン等の電子機器が用いられ、収音装置2、音声処理装置1、及び音声認識装置3を制御する機能を有する。これらを制御する際には操作装置200でのアプリケーションを実行することにより行われてもよい。操作装置200は、音声処理装置1と同様に、例えば筐体と、CPUと、ROMと、RAMと、保存部と、各種I/Fとを備え、例えば通信機器を備えてもよい。上記の各構成は、内部バスにより接続される。
【0172】
操作装置200は、音声処理装置1が内蔵された収音装置2から各種情報の送受信を行うことができる。また、操作装置200は、音声認識装置3と各種情報の送受信を行うことができる。音声認識装置3により認識された認識結果を取得し、取得した認識結果を操作装置200において実行されるアプリケーションに利用することができる。
【0173】
例えば、操作装置200のアプリケーションにおいて、音声処理装置1により生成された対象データFをクラウド上の音声認識装置3に送信することもできる。例えば、操作装置200のアプリケーションにおいて、第1対象データF1と第2対象データF2とを、それぞれ第1利用者、第2利用者による音声であることを管理することができる。
【0174】
操作装置200は、駆動装置300に有線通信又は無線通信等により接続されていてもよい。駆動装置300として、例えば照明、エアコン等の家電製品が用いられるほか、例えば稼働式ベッド、ドア、窓、カーテン等の駆動可能な部分を有する構成が用いられる。駆動装置300として、例えばロボット、無人搬送車(AGV:Automated Guided Vehicle)、生産機械等が用いられてもよい。操作装置200のアプリケーションにおいて取得した認識結果を用いて、操作装置200に接続される駆動装置を制御することができる。図示の例では、駆動装置300が操作装置200に有線又は無線により接続されるが、駆動装置300が音声認識装置3に有線又は無線されていてもよい。本実施形態は、上述した他の実施形態と組み合わせて適用することができる。
【0175】
また、操作装置200は、wi-fi(登録商標)等の無線通信機能を有する。このため、音声処理装置1に無線通信機能を発揮させるためのバッテリーを省略することができる。これにより、音声処理装置1の小型化を実現することができる。
【0176】
(第6実施形態:音声認識システム100の構成)
図15を参照して、第6実施形態における音声認識システム100の構成の一例について説明する。図15は、第6実施形態における音声認識システム100の構成の一例を示す模式図である。
【0177】
第6実施形態における音声認識システム100は、収音装置2に音声処理装置1が内蔵される。本実施形態においても、音声認識させる音声データDに対してキャリブレーションを行うことができる。これにより、音声認識の精度を向上させることが可能となる。
【0178】
本実施形態における音声認識システム100は、更に操作装置200を備える。操作装置200は、例えばRaspberry Pi(登録商標)等のシングルボードコンピュータが用いられてもよい。本実施形態は、上述した他の実施形態と組み合わせて適用することができる。
【0179】
本発明の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。また、これらの実施形態の各例は、適宜組み合わせて実施することが可能である。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0180】
100 :音声認識システム
1 :音声処理装置
10 :筐体
11 :取得部
12 :設定部
121 :第1パラメータ設定部
122 :第2パラメータ設定部
13 :処理部
131 :制御部
131a :気導制御部
131b :骨導制御部
131c :補助音付加部
131d :位相調整部
132 :選択部
133 :気導選択部
134 :骨導選択部
135 :対象データ生成部
14 :記憶部
15 :出力部
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :I/F
110 :内部バス
111 :通信機器
112 :入力装置
113 :表示部
2 :収音装置
21 :制御部
22 :変換部
23 :通信部
24 :記憶部
26 :切替部
27 :マイク部
28 :気導マイク
28a :第1気導マイク
28b :第2気導マイク
29 :骨導マイク
3 :音声認識装置
S110 :設定ステップ
S111 :入力ステップ
S112 :第2パラメータ設定ステップ
S113 :第1パラメータ設定ステップ
S120 :取得ステップ
S130 :処理ステップ
S131 :制御ステップ
S132 :選択ステップ
S133 :対象データ生成ステップ
S140 :音声認識ステップ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15