IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2024-75304音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム
<>
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図1
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図2
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図3
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図4
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図5
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図6
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図7
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図8
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図9
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図10
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図11
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図12
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図13
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図14
  • 特開-音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075304
(43)【公開日】2024-06-03
(54)【発明の名称】音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラム
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240527BHJP
   G10L 15/20 20060101ALI20240527BHJP
【FI】
G10L15/06 300Y
G10L15/06 400V
G10L15/20 370D
G10L15/06 500L
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022186669
(22)【出願日】2022-11-22
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】小柴 聡
(57)【要約】
【課題】様々な環境において、より精度高く音声認識を行うこと。
【解決手段】音声認識システムは、認識対象の音声を含む学習用の音声データと当該音声に対応する自然言語を示す正解データと当該音声が集音された位置を示す学習用の位置情報とを取得する学習用情報取得部と、学習用の位置情報に基づく位置ごとに学習用の音声データと正解データとに基づいて機械学習を行い位置ごとの学習モデルをそれぞれ生成する学習モデル生成部と、認識対象の音声を含む推論用の音声データと当該音声が集音された位置を示す推論用の位置情報とを取得する推論用情報取得部と、位置ごとの学習モデルのうち推論用の位置情報に基づく位置に対応する学習モデルを取得する学習モデル取得部と、推論用の音声データと推論用の位置情報に基づく位置に対応する学習モデルとに基づいて推論用の音声データに基づく音声を推論する推論部とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得部と、
前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成部と、
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得部と、
前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得部と、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論部と、
を備える音声認識システム。
【請求項2】
前記学習用の音声データ及び前記推論用の音声データのうち少なくとも一方に含まれる雑音を低減又は除去する調整部
を更に備える請求項1に記載の音声認識システム。
【請求項3】
学習用情報取得部が前記正解データを得られない場合に、前記学習モデル生成部への前記認識対象の音声に対応する自然言語の手入力を受け付ける調整部
を更に備える請求項1に記載の音声認識システム。
【請求項4】
前記学習用の位置情報及び前記推論用の位置情報のうち少なくとも一方は、前記認識対象の音声が集音された位置の周辺が撮像された画像を用いてビジュアルポジショニングシステムによって測定された位置を示す位置情報である
請求項1に記載の音声認識システム。
【請求項5】
前記位置情報は、ウェアラブルデバイスに備えられたカメラによって撮像された前記画像を用いて測定された位置を示す位置情報である
請求項4に記載の音声認識システム。
【請求項6】
前記学習用の音声データ及び前記推論用の音声データのうち少なくとも一方は、前記ウェアラブルデバイスに備えられたマイクロフォンによって集音された音に基づく音声データである
請求項5に記載の音声認識システム。
【請求項7】
前記認識対象の音声を集音するアプリケーションに設定される設定情報の取得を要求する認識設定要求部と、
前記認識設定要求部からの要求に応じて、前記推論部による推論の精度を向上させる、前記アプリケーションに対応付けられた前記設定情報を取得する設定情報取得部と、
前記設定情報取得部によって取得された前記設定情報を前記アプリケーションに適用する認識設定適用部と、
をさらに備える請求項1から6のうちいずれか一項に記載の音声認識システム。
【請求項8】
前記設定情報は、集音する前記音声の周波数帯、又は、前記音声を集音する際のバッファリング時間を示す情報を含む
請求項7に記載の音声認識システム。
【請求項9】
認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得部と、
前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成部と、
を備える学習装置。
【請求項10】
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得部と、
集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得部と、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論部と、
を備える推論装置。
【請求項11】
コンピュータによる音声認識方法であって、
認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得ステップと、
前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得ステップと、
前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、
を有する音声認識方法。
【請求項12】
コンピュータによる学習方法であって、
認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得ステップと、
前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、
を有する学習方法。
【請求項13】
コンピュータによる推論方法であって、
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得ステップと、
集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、
を有する推論方法。
【請求項14】
認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得ステップと、
前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得ステップと、
前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、
を実行する音声認識システムとしてコンピュータを機能させるためのプログラム。
【請求項15】
認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得ステップと、
前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、
を実行する学習装置としてコンピュータを機能させるためのプログラム。
【請求項16】
認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得ステップと、
集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、
前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、
を実行する推論装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラムに関する。
【背景技術】
【0002】
近年、特にディープラーニングをはじめとするAI(人工知能)の進化に伴って、音声認識技術の認識精度が飛躍的に向上している。昨今、音声認識技術が活用される場面は多岐にわたり、認識精度のさらなる向上が求められている。例えば、非特許文献1に記載の音声認識技術は、医療分野又は金融・保険分野等の特定の領域に特化した音声認識エンジンを備え、利用場面に応じて所望の音声認識エンジンを選択可能な構成にすることで認識精度の向上を図っている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】“AmiVoiceとは”、[online]、株式会社アドバンスト・メディア、[令和4年11月16日検索]、インターネット<URL:https://acp.amivoice.com/amivoice/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声認識技術の活用形態として、例えば話者の音声を自動的にテキスト化して聴覚障がい者に提供するサービスがある。このような音声認識技術は、例えば屋外をはじめとする雑音が多い環境及び雑音の状況が変化する環境においても用いられることがある。この場合、たとえ特定の領域に特化した音声認識エンジンを選択可能な音声認識技術が用いられたとしても、雑音によって認識精度が低下することがある。
【0005】
従来、例えば講演会場、会議室、又は電話による通話等のような特定の環境における雑音を除去するための技術は検討されている。しかしながら、例えば駅では、雑踏から生じる音や話し声、構内アナウンス、及び列車の走行音等の多種多様な雑音が入り混じっている。また、例えば工事現場やアミューズメント施設等では、駅とは異なる種類や大きさの雑音が入り混じっている。そして、このような雑音は時期によっても変化する。このように、場所や時期等によって発生する雑音は多種多様であるため、従来技術では、様々な環境において一様に認識精度を高くするような音声認識技術を実現することが難しいという課題があった。
【0006】
本発明は、このような状況に鑑みてなされたものであり、雑音が発生する様々な環境において、より精度高く音声認識を行うことができる音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様は、認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得部と、前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成部と、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得部と、前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得部と、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論部と、を備える音声認識システムである。
【0008】
また、本発明の一態様は、認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得部と、前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成部と、を備える学習装置である。
【0009】
本発明の一態様は、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得部と、集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得部と、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論部と、を備える推論装置である。
【0010】
また、本発明の一態様は、コンピュータによる音声認識方法であって、認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得ステップと、前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得ステップと、前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、を有する音声認識方法である。
【0011】
また、本発明の一態様は、コンピュータによる学習方法であって、認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得ステップと、前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、を有する学習方法である。
【0012】
また、本発明の一態様は、コンピュータによる推論方法であって、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得ステップと、集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、を有する推論方法である。
【0013】
また、本発明の一態様は、認識対象の音声を含む学習用の音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す学習用の位置情報と、を取得する学習用情報取得ステップと、前記学習用の位置情報に基づく位置ごとに、前記学習用の音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する推論用情報取得ステップと、前記位置ごとの学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、を実行する音声認識システムとしてコンピュータを機能させるためのプログラムである。
【0014】
また、本発明の一態様は、認識対象の音声を含む音声データと、前記認識対象の音声に対応する自然言語を示す正解データと、前記認識対象の音声が集音された位置を示す位置情報と、を取得する取得ステップと、前記位置情報に基づく位置ごとに、前記音声データと前記正解データとに基づいて機械学習を行い、前記位置ごとの学習モデルをそれぞれ生成する学習モデル生成ステップと、を実行する学習装置としてコンピュータを機能させるためのプログラムである。
【0015】
また、本発明の一態様は、認識対象の音声を含む推論用の音声データと、前記認識対象の音声が集音された位置を示す推論用の位置情報と、を取得する取得ステップと、集音された位置ごとの学習用の音声データを用いて行われた機械学習によって前記位置ごとに生成された学習モデルのうち、前記推論用の位置情報に基づく位置に対応する前記学習モデルを取得する学習モデル取得ステップと、前記推論用の音声データと、前記推論用の位置情報に基づく位置に対応する前記学習モデルと、に基づいて前記推論用の音声データに基づく音声を推論する推論ステップと、を実行する推論装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0016】
本発明によれば、雑音が発生する様々な環境において、より精度高く音声認識を行うことを可能にする。
【図面の簡単な説明】
【0017】
図1】本発明の第1の実施形態における音声認識システム1の全体構成図である。
図2】本発明の第1の実施形態における端末装置10の機能構成を示すブロック図である。
図3】本発明の第1の実施形態における端末装置10のハードウェア構成を示すブロック図である。
図4】本発明の第1の実施形態における音声認識装置20の機能構成を示すブロック図である。
図5】本発明の第1の実施形態における音声認識装置20のハードウェア構成を示すブロック図である。
図6】本発明の第1の実施形態における音声認識装置20の学習時における端末装置10の動作を示すフローチャートである。
図7】本発明の第1の実施形態における音声認識装置20の学習時における動作を示すフローチャートである。
図8】本発明の第1の実施形態における音声認識装置20の推論時における端末装置10の動作を示すフローチャートである。
図9】本発明の第1の実施形態における音声認識装置20の推論時における動作を示すフローチャートである。
図10】本発明の第2の実施形態における音声認識システム1aの全体構成図である。
図11】本発明の第2の実施形態における端末装置10aの機能構成を示すブロック図である。
図12】本発明の第2の実施形態における音声認識装置20aの機能構成を示すブロック図である。
図13】本発明の第3の実施形態における音声認識システム1bの全体構成図である。
図14】本発明の第3の実施形態における端末装置10bの機能構成を示すブロック図である。
図15】本発明の第3の実施形態における音声認識装置20bの機能構成を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態における音声認識システム、学習装置、推論装置、音声認識方法、学習方法、推論方法及びプログラムについて説明する。
【0019】
<第1の実施形態>
以下、本発明の第1の実施形態について、図面を参照しながら詳しく説明する。
【0020】
[音声認識システムの構成]
図1は、本発明の第1の実施形態における音声認識システム1の全体構成図である。音声認識システム1は、少なくとも1つの端末装置10と、音声認識装置20と、を含んで構成される。なお、図1では、端末装置10を3台記載しているが、これに限られるものではなく、端末装置10の台数は任意である。なお、実際の場面においては、端末装置10は多数存在することが想定される。
【0021】
端末装置10と音声認識装置20とは、例えば無線及び有線の通信回線を介して通信接続される。例えば、端末装置10は、インターネット等の公衆回線に接続された無線基地局(不図示)に5G(5th Generation)、LTE(Long Term Evolution)、又はWi-Fi(登録商標)等の無線の通信回線を介して通信接続する。そして、例えば、端末装置10は、公衆回線に接続された音声認識装置20に無線基地局を介して通信接続する。但し、端末装置10と音声認識装置20との間の通信接続の形態は、これに限られるものではなく、任意の形態で構わない。
【0022】
端末装置10は、音声を含むデータ(以下、「音声データ」という。)を音声認識装置20へ送信する。音声認識装置20は、音声データを受信し、音声認識を行うことによって音声データに含まれる音声をテキスト化する。音声認識装置20は、テキストデータを端末装置10へ送り返す。すなわち、音声認識装置20は、音声データをテキストデータに変換するサービスを提供するサーバである。第1の実施形態における音声認識システム1は、例えば、端末装置10によって集音された音に含まれる音声をリアルタイムにテキスト化するサービスを、端末装置10を使用するユーザ(例えば、聴覚障がい者等)に対して提供するためのシステムである。
【0023】
第1の実施形態における音声認識システム1の音声認識装置20は、予め機械学習(以下、単に「学習」ともいう。)を行い、音声認識を行うための機械学習モデル(以下、単に「学習モデル」という。)を生成する。このとき、第1の実施形態における音声認識装置20は、端末装置10が集音した位置ごとにそれぞれ学習モデルを生成することを特徴とする。そして、音声認識装置20は、音声データと、当該音声データに対応付けられた位置情報とを端末装置10から取得し、当該位置情報に基づく位置に対応する学習モデルを用いて音声認識を行い、音声データに含まれる音声をテキスト化する。
【0024】
例えば図1では、3台の端末装置10は、位置A、位置B、及び位置Cにそれぞれ位置し、周囲の音を集音する。例えば、位置Aは駅の構内であり、位置Bは娯楽施設の中であり、位置Cは公園の中である。なお、図1では、一例として、位置A、位置B、及び位置Cの各位置に1台づつ端末装置が存在しているが、これに限られるものではなく、各位置に存在する端末装置の数は任意である。また、例えば図1では位置A、位置B、及び位置Cの3つの位置のみ記載しているが、これに限られるものではなく、実際には多数の位置が存在することが想定される。また、例えば図1では位置A、位置B、及び位置Cは互いに離れているが、これに限られるものではなく、多数の位置によってエリア全体が満遍なく網羅されていてもよい。
【0025】
例えば、位置Aに存在する端末装置10は、駅の構内において、当該端末装置10を使用するユーザに対して他者が話しかけた音声を含む周囲の音を集音する。また、端末装置10は、例えば測位装置等を用いて自己位置を示す情報(すなわち、位置Aを示す情報)を取得する。そして、端末装置10は、集音して生成された音声データと位置Aを示す情報とを対応付けて音声認識装置20へ送信する。
【0026】
例えば図1では、音声認識装置20は、位置Aに対応付けられた学習モデルと、位置Bに対応付けられた学習モデルと、位置Cに対応付けられた学習モデルとを、それぞれ記憶している。例えば、音声認識装置20は、端末装置10から送信された、音声データと位置Aを示す情報とを受信すると、位置Aに対応付けられた学習モデルを用いて音声認識を行い、音声データに含まれる音声をテキスト化する。
【0027】
なお、位置Bに存在する端末装置10及び位置Cに存在する端末装置10の場合にも、上記と同様の方法で音声認識が行われる。
【0028】
一般的に、駅、娯楽施設、及び公園では、発生する雑音の種類や大きさはそれぞれ異なる。そのため、駅で集音された音に対して精度高く音声認識を行うことができる学習モデルと、娯楽施設で集音された音に対して精度高く音声認識を行うことができる学習モデルと、公園で集音された音に対して精度高く音声認識を行うことができる学習モデルとは、互いに異なる。そのため、第1の実施形態における音声認識装置20は、位置ごとに学習モデルをそれぞれ有している。
【0029】
以下、第1の実施形態における端末装置10及び音声認識装置20の構成について、更に詳しく説明する。
【0030】
[端末装置の機能構成]
図2は、本発明の第1の実施形態における端末装置10の機能構成を示すブロック図である。端末装置10は、例えば、スマートフォン、タブレット端末、又はノートパソコン等の移動端末である。または、端末装置10は、音声認識システム1によって提供される音声認識のサービスに特化して作られた専用の移動端末であってもよい。なお、端末装置10は、移動端末に限られるものではなく、デスクトップ型のパソコン又は据え置き型の専用の情報処理装置等であってもよい。
【0031】
図2に示されるように、端末装置10は、集音部101と、位置情報取得部102と、補足情報取得部103と、記憶部104と、送信部105と、受信部106と、表示部107とを含んで構成される。
【0032】
集音部101は、端末装置10の周囲の音を後述されるマイク125等を用いて集音し、音声データを生成する。例えば、集音部101は、後述されるタッチパネル124を用いたユーザによる操作入力に応じて集音を開始及び終了する。例えば、ユーザは、周囲で発せられている音声の発生源の方向、又は自身に話しかけている話者の方向に端末装置10を向けて集音を開始させ、当該周囲の音声又は当該話者の音声を含む周囲の音を集音部101に集音させる。なお、周囲で発せられている音声とは、例えば、駅や娯楽施設等で流されるアナウンス等である。集音部101は、生成された音声データを記憶部104に記憶させる。
【0033】
位置情報取得部102は、例えば測位装置等を用いて自己位置を示す情報(以下、単に「位置情報」ともいう。)を取得する。例えば、位置情報取得部102は、GPS(Global Navigation Satellite System)をはじめとするGNSS(Global Navigation Satellite System)の受信機(不図示)を備えており、当該受信機を用いて衛星から位置情報を取得する。但し、位置情報の取得方法は、この方法に限られるものではなく、任意の方法で構わない。
【0034】
例えば、位置情報取得部102は、地磁気センサ、加速度センサ、又はジャイロセンサ等の測位を可能にするセンサ(不図示)を備えていてもよい。または、例えば、位置情報取得部102は、Wi-Fi(登録商標)を利用した位置情報サービスから位置情報を取得するようにしてもよい。
【0035】
または、例えば、位置情報取得部102は、VPS(Visual Positioning Service, Visual Positioning System)(不図示)によって位置情報を取得するようにしてもよい。VPSとは、画像に移っている物体(例えば、建物等)を解析することによって、当該画像が撮像された位置を特定するサービス又はシステムである。この場合、位置情報取得部102は、例えばカメラ(不図示)を備えており、端末装置10の周囲を撮像する。位置情報取得部102は、撮像して得られた画像をVPSへ送信し、当該VPSから返送される位置情報を取得する。
【0036】
なお、位置情報取得部102は、複数の取得方法で位置情報をそれぞれ取得し、より正確に自己位置を特定するようにしてもよい。
【0037】
位置情報取得部102は、取得された位置情報を、上記の集音部101によって生成された音声データと対応付けて記憶部104に記憶させる。すなわち、記憶部104には、音声データと、当該音声データに含まれる音が集音された位置を示す位置情報とが、対応付けて記憶される。
【0038】
補足情報取得部103は、集音部101によって生成された音声データに含まれる周囲の音声又は話者の音声に関する情報(以下、「補足情報」という。)を取得する。補足情報は、例えば、周囲の音声又は話者の音声に対応するテキストデータである。補足情報取得部103は、例えば、後述されるタッチパネル124を用いて入力された補足情報を取得する。タッチパネルによる補足情報の入力は、例えば、端末装置10を使用するユーザ(例えば、聴覚障がい者等)を介護する介護者等によって行われる。
【0039】
補足情報取得部103によって取得される補足情報は、音声認識装置20によって行われる機械学習において用いられる教師データの一部である。すなわち、音声認識装置20は、例えば、音声データと、当該音声データに含まれる音声に対応する正解データ(正解ラベル)としてのテキストデータ(補足情報)とを教師データとして、機械学習を行う。このように、補足情報取得部103は、音声認識装置20による機械学習の学習時において用いられる機能部である。
【0040】
補足情報取得部103は、取得された補足情報を、上記の集音部101によって生成された音声データ、及び上記の位置情報取得部102によって取得された位置情報と対応付けて記憶部104に記憶させる。すなわち、記憶部104には、音声データと、当該音声データに含まれる音声に対応する正解データとしての補足情報と、当該音声データに含まれる音が集音された位置を示す位置情報とが、対応付けて記憶される。
【0041】
記憶部104は、互いに対応付けられた、音声データと、位置情報とを記憶する。また、記憶部104は、音声認識装置20による機械学習の学習時においては、互いに対応付けられた、音声データと、補足情報と、位置情報とを記憶する。また、記憶部104は、後述される音声認識の認識結果としてのテキストデータを記憶する。
【0042】
送信部105は、記憶部104に記憶された、互いに対応付けられた音声データと位置情報とを、音声認識装置20へ送信する。例えば、送信部105は、互いに対応付けられた音声データと位置情報とが記憶部104に記憶されたことを検知した場合に、速やかにこれらの情報を音声認識装置20へ送信する。このような構成にすることで、端末装置10によって集音された音に含まれる音声をリアルタイムにテキスト化するサービスの提供が可能になる。
【0043】
また、送信部105は、音声認識装置20による機械学習の学習時においては、互いに対応付けられた音声データと補足情報と位置情報とを、音声認識装置20へ送信する。この場合、送信部105は、互いに対応付けられた音声データと補足情報と位置情報とが記憶部104に記憶されたことを検知した場合に、速やかに音声認識装置20へ送信してもよい。または、送信部105は、音声認識装置20において機械学習が行われるタイミングで、記憶部104に蓄積された複数の互いに対応付けられた音声データと補足情報と位置情報とをまとめて音声認識装置20へ送信してもよい。
【0044】
なお、送信部105は、音声データ、位置情報、及び補足情報を、記憶部104から取得する代わりに、集音部101、位置情報取得部102、及び補足情報取得部103の各々から直接取得するようにしてもよい。このような構成にすることで、音声をテキスト化した結果をより早くユーザに提示することが可能になる。
【0045】
受信部106は、音声認識装置20から送信された、音声認識の認識結果としてのテキストデータ(以下、「認識結果情報」ともいう。)を受信する。受信部106は、受信した認識結果情報を記憶部104に記憶させる。
【0046】
表示部107は、記憶部104に記憶された認識結果情報を後述されるタッチパネル124に表示することにより、音声認識の結果をユーザに対して提示する。なお、表示部107は、認識結果情報を、記憶部104から取得する代わりに、受信部106から直接取得するようにしてもよい。このような構成にすることで、音声をテキスト化した結果をより早くユーザに提示することが可能になる。
【0047】
なお、端末装置10は、表示部107によって認識結果情報を表示させる代わりに、送信部105から外部の表示装置へ認識結果情報を送信し、当該外部の表示装置によって音声認識の結果が出力されるようにしてもよい。
【0048】
[端末装置のハードウェア構成]
図3は、本発明の第1の実施形態における端末装置10のハードウェア構成を示すブロック図である。図3に示されるように、端末装置10は、互いにバスで通信接続された、プロセッサ121と、メモリ122と、補助記憶装置123と、タッチパネル124と、マイク125と、通信インターフェース126とを含んで構成される。
【0049】
プロセッサ121、メモリ122、及び補助記憶装置123は、端末装置10の各構成部の動作を制御する制御部120として機能する。制御部120は、プログラムを実行することにより、端末装置10を、集音部101と、位置情報取得部102と、補足情報取得部103と、記憶部104と、送信部105と、受信部106と、表示部107とを備える装置として機能させる。なお、制御部120は、画像処理用のプロセッサであるASIC(Application Specific Integrated Circuit)等をさらに備えていてもよい。
【0050】
プロセッサ121は、例えば、CPU(Central Processing Unit)等の処理装置を用いて構成される。プロセッサ121は、例えば、補助記憶装置123に記憶されたプログラムを、メモリ122にロードして実行する。
【0051】
メモリ122は、例えば、RAM(Random Access Memory)、フラッシュメモリ、又はEEPROM(登録商標)(Electric Erasable Programmable Read-Only Memory)等の、データの書き換えが可能な半導体記憶装置を用いて構成される。
【0052】
補助記憶装置123は、例えば、HDD(Hard Disk Drive)等の磁気記憶装置、SSD(Solid State Drive)、RAM、ROM(Read Only Memory)等の半導体記憶装置、又はこれらの記憶装置の組み合わせを用いて構成される。補助記憶装置223は、例えば、端末装置10の各機能部の動作を制御するためのオペレーションシステム及びアプリケーションプログラムを予め記憶する。また、補助記憶装置223は、例えば、音声認識システム1によって提供される、集音された音声をリアルタイムにテキスト化するサービスを実行するためのアプリケーションプログラム(例えば、スマートフォンアプリ)を予め記憶する。
【0053】
タッチパネル124は、例えば、液晶ディスプレイ(LCD)、又は有機EL(Electroluminescence)ディスプレイ等のディスプレイと、タッチ入力を検知するタッチセンサとが積層されたものである。例えば、補足情報取得部103及び表示部107は、タッチパネル124を用いて構成される。
【0054】
マイク125は、マイクロフォンであり、端末装置10の周囲の音を集音して電気信号に変換する電気音響変換器である。なお、マイク125は、例えばコンデンサーマイク等の、周囲で発せられている音声の発生源の方向又は話者の音声の方向に合わせて集音する、指向性を有するマイクロフォンであってもよい。集音部101は、マイク125を用いて構成される。
【0055】
なお、マイク125は、端末装置10と通信接続が可能な、例えばスマートグラス等のウェアラブルデバイス(不図示)に内蔵されたマイクロフォンであってもよい。この場合、例えば、位置情報取得部102は、スマートグラス等のウェアラブルデバイス(不図示)によって撮像された画像を用いてVPSにより測定された位置を示す位置情報を取得するような構成であってもよい。
【0056】
通信インターフェース126は、例えば5G、LTE、又はWi-Fi(登録商標)等の無線の電波を送受信するアンテナ及び送受信機を用いて構成される。但し、通信インターフェース126の構成は、このような構成に限られるものではなく、有線通信を行うための通信インターフェースであってもよい。例えば、通信インターフェース126は、5G、LTE、又はWi-Fi(登録商標)等の無線の通信回線、各種の中継基地局及び中継装置、及びインターネット等の公衆回線を介して、音声認識装置20と互いに通信接続する。送信部105及び受信部106は、通信インターフェース126を用いて構成される。
【0057】
なお、端末装置10は、例えばGPS受信機等の自己位置を取得するための測位装置(不図示)をさらに備えていてもよい。例えば、位置情報取得部102は、測位装置を用いて構成される。
【0058】
[音声認識装置の機能構成]
図4は、本発明の第1の実施形態における音声認識装置20の機能構成を示すブロック図である。音声認識装置20は、例えば、汎用コンピュータ等の情報処理装置である。または、音声認識装置20は、音声認識により音声をテキスト化するサービスの提供に特化して作られた専用の情報処理装置であってもよい。
【0059】
図4に示されるように、音声認識装置20の機能構成は、学習部200と、推論部210とに、大きく分けられる。学習部200は、音声認識装置20の学習時に動作する機能部である。学習部200は、機械学習を行い、音声認識を行うために用いられる学習モデルの生成及び更新を行う。推論部210は、音声認識装置20の推論時に動作する機能部である。推論部210は、学習部200によって生成及び更新された学習モデルを用いて推論(音声認識)を実行する。なお、学習部200と推論部210とは、別々の装置に備えられている構成であってもよい。
【0060】
図4に示されるように、学習部200は、音声取得部201と、位置情報取得部202と、補足情報取得部203と、学習実行部204と、学習モデル記憶部205と、表示部206と、調整部207とを含んで構成される。
【0061】
音声取得部201は、端末装置10から送信された音声データを取得する。位置情報取得部202は、端末装置10から送信された位置情報を取得する。補足情報取得部203は、端末装置10から送信された補足情報を取得する。前述の通り、各機能部によってそれぞれ取得される音声データと、位置情報と、補足情報とは、互いに対応付けられている。前述の通り、位置情報は、音声データに含まれる音が集音された位置を示す情報であり、補足情報は、音声データに含まれる音声に対応する自然言語である正解データを示す情報(例えば、テキストデータ)である。音声取得部201は音声データを、位置情報取得部202は位置情報を、補足情報取得部203は補足情報を、学習実行部204へそれぞれ出力する。
【0062】
第1の実施形態における学習実行部204は、集音された位置ごとに学習モデルを生成及び更新することを特徴とする。学習実行部204は、音声取得部201から出力された音声データ、位置情報取得部202から出力された位置情報、及び補足情報取得部203から出力された補足情報をそれぞれ取得する。学習実行部204は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在するか否か(すなわち、既に生成されているか否か)を確認する。
【0063】
学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在する場合、当該学習モデルを読み出す。また、学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在しない場合、学習モデルを新たに生成する。学習実行部204は、新たに生成された学習モデルと、取得された位置情報に基づく位置とを対応付けて、学習モデル記憶部205に記憶させる。
【0064】
学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在する場合、読み出された当該学習モデルと、取得された音声データ及び補足情報とに基づいて、機械学習を行う。具体的には、学習実行部204は、例えばニューラルネットワークを用いて構成された学習モデルに音声データ及び補足情報を入力し、例えば誤差逆伝搬法等のアルゴリズムを用いて当該学習モデルのパラメータを更新する。また、学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在しない場合、新たに生成された学習モデルと、取得された音声データ及び補足情報とに基づいて、機械学習を行う。具体的には、学習実行部204は、新たに生成された学習モデルに音声データ及び補足情報を入力し、例えば誤差逆伝搬法等のアルゴリズムを用いて当該学習モデルのパラメータを更新する。
【0065】
学習モデル記憶部205は、位置と学習モデルとを対応付けて記憶する。ここでいう「位置」とは、例えば、世界測地系等の座標に基づく位置であってもよいし、住所又は郵便番号等に基づいて識別される位置であってもよいし、特定の施設や土地の名称に基づいて識別される位置であってもよい。すなわち、学習モデルに対応付けられる位置と、端末装置10によって得られる位置情報に基づく位置とを、対応付けることが可能であるならば、どのように定義された位置が用いられても構わない。なお、例えば位置情報として座標を用いる場合、座標ごとに学習モデルが生成されるようにしてもよいし、所定の範囲の座標ごとに学習モデルが生成されるようにしてもよい。
【0066】
表示部206及び調整部207は、機械学習の実行において、例えば音声認識装置20を運用する運用者が各種の調整を行うための機能部である。ここでいう「調整」とは、例えば、音声データの雑音を低減又は除去し、機械学習における学習効率を向上させるための調整である。または、ここでいう「調整」とは、例えば、端末装置10を使用する聴覚障がい者等のユーザに介護者が付いていない場合等のように、補足情報が得られない場合に、運用者が、音声データに含まれる音声を聞き取って内容をテキスト化し、正解データとして学習実行部204に手入力することである。
【0067】
表示部206は、例えば、運用者が調整部207による調整を行うために必要な各種の情報(例えば、音声データ、位置情報、補足情報、及び学習モデルに関する情報等)を表示する、後述されるディスプレイ225を用いて構成される。調整部207は、例えば運用者が調整を行うために必要な操作入力を受け付ける、後述される入力インターフェース224を用いて構成される。
【0068】
図4に示されるように、推論部210は、音声取得部211と、位置情報取得部212と、推論実行部213と、結果送信部214とを含んで構成される。
【0069】
音声取得部211は、端末装置10から送信された音声データを取得する。位置情報取得部212は、端末装置10から送信された位置情報を取得する。前述の通り、各機能部によってそれぞれ取得される音声データと、位置情報とは、互いに対応付けられている。前述の通り、位置情報は、音声データに含まれる音が集音された位置を示す情報である。音声取得部211は音声データを、位置情報取得部212は位置情報を、推論実行部213へ出力する。
【0070】
推論実行部213は、音声取得部211から出力された音声データ、及び位置情報取得部212から出力された位置情報を取得する。推論実行部213は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、取得された位置情報に基づく位置に対応する学習モデルが存在するか否か(すなわち、既に生成されているか否か)を確認する。
【0071】
推論実行部213は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在する場合、当該学習モデルを読み出す。また、学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在しない場合、学習モデル記憶部205に予め記憶された汎用的に用いられる所定の学習モデルを読み出す。なお、学習実行部204は、取得された位置情報に基づく位置に対応する学習モデルが学習モデル記憶部205に存在しない場合、当該位置の近隣の位置に対応する学習モデルを読み出すようにしてもよい。
【0072】
推論実行部213は、読み出された当該学習モデルと、取得された音声データとに基づいて、推論を実行することにより音声認識を行う。具体的には、推論実行部213は、例えばニューラルネットワークを用いて構成される学習モデルに音声データを入力することによって、当該学習モデルから出力されるテキストデータ(認識結果情報)を得る。推論実行部213は、得られた認識結果情報を結果送信部214へ出力する。
【0073】
結果送信部214は、推論実行部213から出力された認識結果情報を取得する。結果送信部214は、音声データ等の入力データの送信元である端末装置10へ、認識結果情報を返送する。
【0074】
[音声認識装置のハードウェア構成]
図5は、本発明の第1の実施形態における音声認識装置20のハードウェア構成を示すブロック図である。図5に示されるように、音声認識装置20は、互いにバスで通信接続された、プロセッサ221と、メモリ222と、補助記憶装置223と、入力インターフェース224と、ディスプレイ225と、通信インターフェース226とを含んで構成される。
【0075】
プロセッサ221、メモリ222、及び補助記憶装置223は、音声認識装置20の各構成部の動作を制御する制御部220として機能する。制御部220は、プログラムを実行することにより、音声認識装置20を、音声取得部201と、位置情報取得部202と、補足情報取得部203と、学習実行部204と、学習モデル記憶部205と、表示部206と、調整部207と、音声取得部211と、位置情報取得部212と、推論実行部213と、結果送信部214とを備える装置として機能させる。なお、制御部220は、画像処理用のプロセッサであるASIC等をさらに備えていてもよい。
【0076】
プロセッサ221は、例えば、CPU等の処理装置を用いて構成される。プロセッサ221は、例えば、補助記憶装置223に記憶されたプログラムを、メモリ222にロードして実行する。
【0077】
メモリ222は、例えば、RAM、フラッシュメモリ、又はEEPROM(登録商標)等の、データを書き換え可能な半導体記憶装置を用いて構成される。
【0078】
補助記憶装置223は、例えば、HDD等の磁気記憶装置、SSD、RAM、ROM等の半導体記憶装置、又はこれらの記憶装置の組み合わせを用いて構成される。補助記憶装置223は、例えば、音声認識装置20の各機能部の動作を制御するためのオペレーションシステム及びアプリケーションプログラムを予め記憶する。また、補助記憶装置223は、例えば、位置ごとの学習モデル、及び機械学習を実行するためのアプリケーションプログラムを予め記憶する。
【0079】
入力インターフェース224は、例えば、キーボード、マウス、入力ボタン等の入力装置、又はこれらの入力装置の組み合わせである。例えば、調整部207は、入力インターフェース224を用いて構成される。
【0080】
ディスプレイ225は、例えば、液晶ディスプレイ、又は有機ELディスプレイ等のディスプレイである。例えば、表示部206は、ディスプレイ225を用いて構成される。なお、入力インターフェース224とディスプレイ225とは、一体化された装置であってもよい。すなわち、入力インターフェース224及びディスプレイ225は、例えば、ディスプレイとタッチセンサとが積層されたタッチパネルであってもよい。
【0081】
通信インターフェース226は、例えばインターネット等の公衆回線に接続するためのLAN(Local Area Network)接続端子等である。但し、通信インターフェース226は、これに限られるものではなく、その他の有線通信又は無線通信を行うための通信インターフェースであってもよい。例えば、通信インターフェース226は、インターネット等の公衆回線、各種の中継基地局及び中継装置、及び5G、LTE、又はWi-Fi(登録商標)等の無線の通信回線を介して、各々の端末装置10と互いに通信接続する。音声取得部201、位置情報取得部202、補足情報取得部203、音声取得部211、位置情報取得部212、及び結果送信部214は、通信インターフェース226を用いて構成される。
【0082】
以下、音声認識装置20の学習時及び推論時における、端末装置10及び音声認識装置20動作の一例について、それぞれ説明する。
【0083】
[音声認識装置の学習時における端末装置の動作]
図6は、本発明の第1の実施形態における音声認識装置20の学習時における端末装置10の動作を示すフローチャートである。
【0084】
まず、集音部101は、端末装置10の周囲の音をマイク125等を用いて集音し、音声データを生成する(ステップS101)。集音部101は、生成された音声データを記憶部104に記憶させる。
【0085】
次に、位置情報取得部102は、例えばGPS等の測位装置を用いて自己位置を示す位置情報を取得する(ステップS102)。位置情報取得部102は、取得された位置情報を、上記の集音部101によって生成された音声データと対応付けて記憶部104に記憶させる。
【0086】
次に、補足情報取得部103は、集音部101によって生成された音声データに含まれる周囲の音声又は話者の音声に関する情報(例えば、周囲の音声又は話者の音声に対応するテキストデータ)である補足情報を取得する(ステップS103)。補足情報取得部103は、取得された補足情報を、上記の集音部101によって生成された音声データ、及び上記の位置情報取得部102によって取得された位置情報と対応付けて記憶部104に記憶させる。
【0087】
次に、送信部105は、記憶部104に記憶された、互いに対応付けられた音声データと位置情報と補足情報とを、音声認識装置20へ送信する(ステップS104)。以上で、図6のフローチャートが示す音声認識装置20の学習時における端末装置10の動作が終了する。
【0088】
[音声認識装置の学習時における動作]
図7は、本発明の第1の実施形態における音声認識装置20の学習時における動作を示すフローチャートである。
【0089】
まず、音声認識装置20は、端末装置10から送信された、互いに対応付けられた音声データと位置情報と補足情報とを受信する(ステップS201)。音声取得部201は、受信した音声データを学習実行部204へ出力する。位置情報取得部202は、受信した位置情報を学習実行部204へ出力する。補足情報取得部203は、受信した補足情報を学習実行部204へ出力する。
【0090】
次に、学習実行部204は、音声取得部201から出力された音声データ、位置情報取得部202から出力された位置情報、及び補足情報取得部203から出力された補足情報を取得する。学習実行部204は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、受信した位置情報に基づく位置に対応する学習モデルが既に生成済みであるか否か(すなわち、学習モデル記憶部205に存在するか否か)を確認する(ステップS202)。
【0091】
次に、学習実行部204は、受信した位置情報に基づく位置に対応する学習モデルが既に生成済みである場合(ステップS203・YES)、当該対応する学習モデルを読み出す(ステップS204)。
【0092】
次に、学習実行部204は、受信した音声データと補足情報とに基づいて機械学習を実行し、読み出された学習モデルを更新する(ステップS205)。
【0093】
一方、学習実行部204は、受信した位置情報に基づく位置に対応する学習モデルがまだ生成されていない場合、受信した音声データと位置情報とに基づいて機械学習を実行し、学習モデルを新たに生成する(ステップS206)。
【0094】
次に、学習実行部204は、受信した位置情報と生成された学習モデルとを対応付けて学習モデル記憶部205に記憶させる(ステップS207)。以上で、図7のフローチャートが示す音声認識装置20の学習時における動作が終了する。
【0095】
[音声認識装置の推論時における端末装置の動作]
図8は、本発明の第1の実施形態における音声認識装置の推論時における端末装置10の動作を示すフローチャートである。
【0096】
まず、集音部101は、端末装置10の周囲の音をマイク125等を用いて集音し、音声データを生成する(ステップS111)。集音部101は、生成された音声データを記憶部104に記憶させる。
【0097】
次に、位置情報取得部102は、例えばGPS等の測位装置等を用いて自己位置を示す位置情報を取得する(ステップS112)。位置情報取得部102は、取得された位置情報を、上記の集音部101によって生成された音声データと対応付けて記憶部104に記憶させる。
【0098】
次に、送信部105は、記憶部104に記憶された、互いに対応付けられた音声データと位置情報とを音声認識装置20へ送信する(ステップS113)。その後、受信部106は、音声認識装置20から返送される、音声認識の認識結果を示す認識結果情報の受信を待ち受ける。
【0099】
次に、受信部106は、音声認識装置20から送信された認識結果情報を受信する(ステップS114)。受信部106は、受信した認識結果情報を記憶部104に記憶させる。
【0100】
次に、表示部107は、記憶部104に記憶された認識結果情報を後述されるタッチパネル124に表示することにより、音声認識の結果をユーザに対して提示する。(ステップS115)。以上で、図8のフローチャートが示す音声認識装置20の学習時における端末装置10の動作が終了する。
【0101】
[音声認識装置の推論時における動作]
図9は、本発明の第1の実施形態における音声認識装置20の推論時における動作を示すフローチャートである。
【0102】
まず、音声認識装置20は、端末装置10から送信された、互いに対応付けられた音声データと位置情報と受信する(ステップS211)。音声取得部211は、受信した音声データを推論実行部213へ出力する。位置情報取得部212は、受信した位置情報を推論実行部213へ出力する。
【0103】
次に、推論実行部213は、音声取得部211から出力された音声データ、及び位置情報取得部212から出力された位置情報を取得する。推論実行部213は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、受信した位置情報に基づく位置に対応する学習モデルが既に生成済みであるか否か(すなわち、学習モデル記憶部205に存在するか否か)を確認する(ステップS212)。
【0104】
次に、推論実行部213は、受信した位置情報に基づく位置に対応する学習モデルが既に生成済みである場合(ステップS213・YES)、当該対応する学習モデルを読み出す(ステップS214)。
【0105】
一方、推論実行部213は、受信した位置情報に基づく位置に対応する学習モデルがまだ生成されていない場合、学習モデル記憶部205に予め記憶された汎用的に用いられる所定の学習モデルを読み出す(ステップS215)。
【0106】
次に、推論実行部213は、受信した音声データと、読み出された学習モデルとに基づいて、推論を実行することにより音声認識を行う。推論実行部213は、音声認識の結果を示す認識結果情報を生成する(ステップS216)。具体的には、推論実行部213は、読み出された学習モデルに音声データを入力することによって、当該学習モデルから出力されるテキストデータ(認識結果情報)を得る。推論実行部213は、得られた認識結果情報を結果送信部214へ出力する。
【0107】
次に、結果送信部214は、推論実行部213から出力された認識結果情報を取得する。結果送信部214は、音声データ等の入力データの送信元である端末装置10へ、認識結果情報を送信する(ステップS217)。以上で、図9のフローチャートが示す音声認識装置20の推論時における動作が終了する。
【0108】
以上説明したように、本発明の第1の実施形態における音声認識システム1は、位置ごとに学習モデルを生成及び更新して、音声認識を行う。このような構成をそなえることで、音声認識システム1は、位置ごとに雑音の状態が異なる環境であっても、その位置に適した学習モデルを用いて音声認識を行うことができる。これにより、本発明の第1の実施形態における音声認識システム1は、雑音が発生する様々な環境において、より精度高く音声認識を行うことができる。
【0109】
また、本発明の第1の実施形態における音声認識装置20は、端末装置10から送信される補足情報を教師データ(正解データ)として機械学習を行う。上述したように、補足情報とは、例えば端末装置10を使用するユーザ(例えば、聴覚障がい者等)を介護する介護者等によって、音声認識装置20へフィードバックされる情報である。そのため、端末装置10を使用するユーザが多く存在する場所であるほど、より多くの補足情報がフィードバックされる。これにより、本発明の第1の実施形態における音声認識システム1では、端末装置10を使用するユーザが多く存在する場所(すなわち、音声認識システム1が提供するサービスを必要とするユーザが多く存在する場所)であるほど、より早く機械学習が習熟し、より早く音声認識の精度が向上する。このように、本発明の第1の実施形態における音声認識装置20によれば、より効率的な機械学習が実現される。
【0110】
また、一般的に、例えば工事現場での工事等のように、特定の期間に限って雑音が発生するような環境もある。このような場合においても、本発明の第1の実施形態における音声認識システム1によれば、音声認識システム1が提供するサービスを必要とするユーザが多く存在する場所であるほどより早く、多くのフィードバックが行われるため、雑音状況の変化に合わせて学習モデルが適応的に更新されやすい。
【0111】
なお、上記の第1の実施形態では、音声認識システム1は、位置ごとに学習モデルを生成及び更新するものとしたが、これに限られるものではなく、例えば、端末装置10の位置における時間、季節、及び天気等に関する情報を更に取得して、時間帯ごと、季節ごと、及び天気ごと等に更に分けて学習モデルを生成及び更新するようにしてもよい。例えば、駅では、朝夕の通勤時間帯、深夜の時間帯、又はそれ以外の時間帯等によって、発生する雑音の状態はそれぞれ異なる。また、例えば、娯楽施設や公園では、季節及び天気等によって、発生する雑音の状態はそれぞれ異なる。上記のような構成を備えることで、音声認識システム1は、時間帯ごと、季節ごと、及び天気ごと等によって雑音の状態が変化する環境においても、より精度高く音声認識を行うことが可能になる。
【0112】
なお、音声認識システム1は、更に、端末装置10の移動速度に関する情報を取得して、移動速度ごとに更に分けて学習モデルをそれぞれ生成及び更新するようにしてもよい。一般的に、例えば、同一の位置であっても、旅客機、新幹線、在来線、自動車、自転車、徒歩等による移動中、及び静止中等の様々な移動状態によって、周囲で発生する音声や雑音の種類及び大きさはそれぞれ異なる。これに対し、音声認識システム1は、移動速度に関する情報を更に取得することにより、例えば位置と移動速度とに基づいて、端末装置10がどのような移動状態であるかを推測することができる。上記のような構成を備えることで、音声認識システム1は、どのような移動状態の端末装置10が生成した音声データであっても、より精度高く音声認識を行うことが可能になる。
【0113】
<第2の実施形態>
以下、本発明の第2の実施形態について、図面を参照しながら詳しく説明する。なお、以下では、第1の実施形態と構成が同様の部分については説明を省略し、第1の実施形態の構成とは構成が異なる部分を中心に説明する。
【0114】
前述の第1の実施形態における音声認識システム1では、音声認識装置20側で学習モデルを用いた推論(音声認識)が行われ、端末装置10は、音声認識の認識結果であるテキストデータ(認識結果情報)を取得する構成であった。これに対し、以下に説明する第2の実施形態における音声認識システム1aでは、端末装置10aは音声認識装置20aから(位置に応じた)学習モデルを取得し、端末装置10a側で学習モデルを用いた推論(音声認識)が行われる構成である。
【0115】
[音声認識システムの構成]
図10は、本発明の第2の実施形態における音声認識システム1aの全体構成図である。音声認識システム1aは、少なくとも1つの端末装置10aと、音声認識装置20aと、を含んで構成される。
【0116】
図10に示されるように、第2の実施形態における音声認識システム1aでは、推論時において、端末装置10aは音声認識装置20aへ位置情報を送信する。すなわち、端末装置10aは、前述の第1の実施形態における端末装置10とは異なり、推論時には音声データを音声認識装置20aへ送信しない。
【0117】
また、図10に示されるように、音声認識装置20aは、端末装置10aから送信された位置情報を受信すると、当該位置情報に基づく位置に対応する学習モデルを端末装置10aへ返送する。すなわち、音声認識装置20aは、前述の第1の実施形態における音声認識装置20とは異なり、音声認識の認識結果であるテキストデータ(認識結果情報)ではなく、(位置に応じた)学習モデルを端末装置10aへ返送する。
【0118】
なお、第2の実施形態における音声認識システム1aの学習時における構成は、前述の第1の実施形態における音声認識システム1の構成と同様である。すなわち、第2の実施形態における音声認識システム1aの構成と第1の実施形態における音声認識システム1の構成とは、推論時における構成が異なる。
【0119】
但し、上記のような構成に限られるものではなく、推論だけでなく学習についても端末装置10a側で行われるようにしてもよい。この場合、端末装置10aは、音声認識装置20aから取得した(位置に応じた)学習モデルを用いて学習を行い、学習済みの学習モデルを音声認識装置20aへ返送する必要がある。
【0120】
[端末装置の機能構成]
図11は、本発明の第2の実施形態における端末装置10aの機能構成を示すブロック図である。図11に示されるように、端末装置10aは、集音部101と、位置情報取得部102と、補足情報取得部103と、記憶部104aと、送信部105aと、受信部106aと、表示部107と、推論実行部108と、を含んで構成される。すなわち、端末装置10aの機能構成は、前述の第1の実施形態における端末装置10の機能構成に対して、記憶部104が記憶部104aに置き換えられ、送信部105が送信部105aに置き換えられ、受信部106が受信部106aに置き換えられ、かつ、推論実行部108が更に追加されたものである。
【0121】
送信部105aは、推論時には、記憶部104aに記憶された位置情報を音声認識装置20aへ送信する。例えば、送信部105aは、互いに対応付けられた音声データと位置情報とが記憶部104aに記憶されたことを検知した場合に、速やかに位置情報のみを音声認識装置20aへ送信する。
【0122】
受信部106aは、音声認識装置20aから送信された学習モデルを受信する。当該学習モデルは、送信部105aから送信された位置情報に基づく位置に対応する学習モデルである。受信部106aは、受信した学習モデルを記憶部104aに記憶させる。
【0123】
推論実行部108は、記憶部104aに記憶された学習モデルと音声データとを取得する。推論実行部108は、取得された学習モデルと音声データとに基づいて推論を実行することにより音声認識を行う。具体的には、推論実行部108は、例えばニューラルネットワークを用いて構成される学習モデルに音声データを入力することによって、当該学習モデルから出力されるテキストデータ(認識結果情報)を得る。推論実行部108は、得られた認識結果情報を表示部107へ出力する。
【0124】
なお、推論実行部108は、学習モデル及び音声データを記憶部104aから取得する代わりに、受信部106a及び集音部101の各々から直接取得するようにしてもよい。このような構成にすることで、音声をテキスト化した結果をより早くユーザに提示することが可能になる。
【0125】
[音声認識装置の機能構成]
図12は、本発明の第2の実施形態における音声認識装置20aの機能構成を示すブロック図である。図12に示されるように、音声認識装置20aは、学習部200と、位置情報取得部212と、学習モデル選択部215と、学習モデル送信部216とを含んで構成される。すなわち、音声認識装置20aの機能構成は、前述の第1の実施形態における音声認識装置20の機能構成に対して、音声取得部211、推論実行部213、及び結果送信部214が省かれるとともに、学習モデル選択部215及び学習モデル送信部216が追加されたものである。なお、学習部200の構成は、前述の第1の実施形態と同様である。
【0126】
位置情報取得部212は、端末装置10aから送信された位置情報を取得し、学習モデル選択部215へ出力する。
【0127】
学習モデル選択部215は、端末装置10aから送信された位置情報を取得する。学習モデル選択部215は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、取得された位置情報に基づく位置に対応する学習モデルを取得する。学習モデル選択部215は、取得した学習モデルを学習モデル送信部216へ出力する。
【0128】
学習モデル送信部216は、学習モデル選択部215から出力された学習モデルを取得する。学習モデル送信部216は、位置情報の送信元である端末装置10aへ、学習モデルを返送する。
【0129】
このように、第2の実施形態における音声認識装置20aは、第1の実施形態における音声認識装置20とは異なり、推論部210を備えない構成である。音声認識装置20aは、端末装置10aから送信された位置情報を受信し、当該位置情報に基づく位置に対応する学習モデルを端末装置10aへ返送する。
【0130】
<第3の実施形態>
以下、本発明の第3の実施形態について、図面を参照しながら詳しく説明する。なお、以下では、第2の実施形態と構成が同様の部分については説明を省略し、第2の実施形態の構成とは構成が異なる部分を中心に説明する。
【0131】
一般的に、端末側にインストールされる、例えば音声認識等の集音を行うアプリケーションには、集音する処理における各種設定が可能なものがある。ここでいう各種設定(以下、「認識設定」という。)とは、例えば、マイクによって集音する音の周波数帯を任意の周波数帯に指定する設定である。音声認識の認識精度を高くすることができる周波数帯はアプリケーションごとに異なるため、アプリケーションに応じて適切な周波数帯が設定されることが望ましい。また、認識設定とは、例えば、マイクによって集音された音がアプリケーションに入力されるまでのバッファリング時間を任意の値に指定する設定である。遅延を抑えつつ音声認識の認識精度を高くすることができるバッファリング時間はアプリケーションごとに異なるため、アプリケーションに応じて適切なバッファリング時間が設定されることが望ましい。
【0132】
以下に説明する第3の実施形態における音声認識システム1bは、端末装置10bにインストールされたアプリケーションに応じて適切な認識設定を行うことができる構成を更に有することを特徴とする。
【0133】
[音声認識システムの構成]
図13は、本発明の第3の実施形態における音声認識システム1bの全体構成図である。音声認識システム1bは、少なくとも1つの端末装置10bと、音声認識装置20bとを含んで構成される。
【0134】
図13に示されるように、第3の実施形態における音声認識システム1bでは、推論時において端末装置10bは、位置情報の他に、認識設定を要求するための情報(以下、「認識設定要求」という。)を音声認識装置20bへ送信する。認識設定要求には、端末装置10bにインストールされている音声認識のアプリケーションを識別する情報(以下、「アプリケーション識別情報」という。)が含まれている。
【0135】
また、図13に示されるように、音声認識装置20bは、端末装置10bから送信された位置情報及び認識設定要求を受信すると、当該位置情報に基づく位置に対応する学習モデルと、当該認識設定要求に含まれるアプリケーション識別情報に対応する認識設定情報とを、端末装置10bへ返送する。認識設定情報とは、例えば、端末装置10bにインストールされたアプリケーションにおいて設定される周波数帯やバッファリング時間等の、認識設定を示す情報である。音声認識装置20bには、アプリケーション識別情報ごとに、当該アプリケーション識別情報が示すアプリケーションに適した認識設定を示す認識設定情報が予め記憶されている。端末装置10bは、音声認識装置20bから送信された学習モデル及び認識設定情報を取得すると、当該認識設定情報に基づく認識設定をアプリケーションに対して行った上で、当該学習モデルを用いた推論(音声認識)を実行する。
【0136】
[端末装置の機能構成]
図14は、本発明の第3の実施形態における端末装置10bの機能構成を示すブロック図である。図14に示されるように、端末装置10bは、集音部101と、位置情報取得部102と、補足情報取得部103と、記憶部104bと、送信部105bと、受信部106bと、表示部107と、推論実行部108と、認識設定要求部109と、認識設定適用部110とを含んで構成される。すなわち、端末装置10bの機能構成は、前述の第2の実施形態における端末装置10aの機能構成に対して、記憶部104aが記憶部104bに置き換えられ、送信部105aが送信部105bに置き換えられ、受信部106aが受信部106bに置き換えられ、かつ、認識設定要求部109及び認識設定適用部110が更に追加されたものである。
【0137】
送信部105bは、推論時には、記憶部104bに記憶された位置情報と、認識設定要求部109から出力された認識設定要求とを、音声認識装置20bへ送信する。認識設定要求には、端末装置10bにインストールされているアプリケーションを識別するアプリケーション識別情報が含まれる。例えば、送信部105bは、互いに対応付けられた音声データと位置情報とが記憶部104bに記憶されたことを検知した場合に、速やかに位置情報と認識設定要求とを音声認識装置20bへ送信する。
【0138】
受信部106bは、音声認識装置20bから送信された学習モデル及び認識設定情報を受信する。当該学習モデルは、送信部105bから送信された位置情報に基づく位置に対応する学習モデルである。また、当該認識設定情報は、端末装置10bにインストールされているアプリケーションに対して適切な認識設定を示す情報である。受信部106bは、受信した学習モデル及び認識設定情報を記憶部104bに記憶させる。
【0139】
認識設定適用部110は、記憶部104bに記憶された認識設定情報を取得する。認識設定適用部110は、端末装置10bにインストールされているアプリケーションに対して、認識設定情報に基づく認識設定を適用する。
【0140】
推論実行部108は、記憶部104bに記憶された学習モデルと音声データとを取得する。推論実行部108は、取得された学習モデルと音声データとに基づいて推論を実行することにより音声認識を行う。具体的には、推論実行部108は、例えばニューラルネットワークを用いて構成される学習モデルに音声データを入力することによって、当該学習モデルから出力されるテキストデータ(認識結果情報)を得る。推論実行部108は、得られた認識結果情報を表示部107へ出力する。
【0141】
なお、推論実行部108は、学習モデル、音声データ、及び認識設定情報を、記憶部104bから取得する代わりに、受信部106b及び集音部101の各々から直接取得するようにしてもよい。このような構成にすることで、音声をテキスト化した結果をより早くユーザに提示することが可能になる。
【0142】
[音声認識装置の機能構成]
図15は、本発明の第3の実施形態における音声認識装置20bの機能構成を示すブロック図である。図15に示されるように、音声認識装置20bは、学習部200と、位置情報取得部212と、学習モデル選択部215と、設定要求取得部217と、設定情報選択部218と、認識設定情報記憶部219と、学習モデル・設定情報送信部216bとを含んで構成される。すなわち、音声認識装置20bの機能構成は、前述の第2の実施形態における音声認識装置20aの機能構成に対して、学習モデル送信部216が省かれるとともに、設定要求取得部217と、設定情報選択部218と、認識設定情報記憶部219と、学習モデル・設定情報送信部216bとが追加されたものである。なお、学習部200の構成は、前述の第1及び第2の実施形態と同様である。
【0143】
位置情報取得部212は、端末装置10bから送信された位置情報を取得し、学習モデル選択部215へ出力する。
【0144】
学習モデル選択部215は、位置情報取得部212から出力された位置情報を取得する。学習モデル選択部215は、学習モデル記憶部205に記憶された位置ごとの学習モデルを参照し、取得された位置情報に基づく位置に対応する学習モデルを取得する。学習モデル選択部215は、取得した学習モデルを学習モデル・設定情報送信部216bへ出力する。
【0145】
設定要求取得部217は、端末装置10bから送信された認識設定要求を取得し、設定情報選択部218へ出力する。
【0146】
設定情報選択部218は、設定要求取得部217から出力された認識設定要求を取得し、当該認識設定要求に含まれるアプリケーション識別情報を取得する。設定情報選択部218は、認識設定情報記憶部219に記憶されたアプリケーション識別情報ごとの認識設定情報を参照し、取得されたアプリケーション識別情報に対応する認識設定情報を取得する。設定情報選択部218は、取得した認識設定情報を学習モデル・設定情報送信部216bへ出力する。
【0147】
学習モデル・設定情報送信部216bは、学習モデル選択部215から出力された学習モデル、及び設定情報選択部218から出力された認識設定情報を取得する。学習モデル・設定情報送信部216bは、位置情報及び認識設定要求の送信元である端末装置10bへ、学習モデル及び認識設定情報を返送する。
【0148】
このように、第3の実施形態における音声認識装置20bは、第2の実施形態における音声認識装置20aの構成に加えて、端末装置10bにインストールされたアプリケーションのアプリケーション識別情報を取得して、当該アプリケーションに対して適切な認識設定を示す認識設定情報を端末装置10bへ返送する構成をさらに備える。
【0149】
上述した実施形態によれば、音声認識システムは、学習用情報取得部と、学習モデル生成部と、推論用情報取得部と、学習モデル取得部と、推論部とを備える。例えば、音声認識システム1は、実施形態における音声認識システム1,1a,1bであり、学習用情報取得部は、実施形態における端末装置10,10a,10bの集音部101、位置情報取得部102、及び補足情報取得部103であり、学習モデル生成部は、実施形態における音声認識装置20,20a,20bの学習実行部204であり、推論用情報取得部は、実施形態における音声取得部211及び位置情報取得部212、又は、集音部101及び位置情報取得部102であり、学習モデル取得部及び推論部は、実施形態における推論実行部213又は推論実行部108である。
【0150】
学習用情報取得部は、認識対象の音声を含む学習用の音声データと、認識対象の音声に対応する自然言語を示す正解データと、認識対象の音声が集音された位置を示す学習用の位置情報とを取得する。例えば、正解データは、実施形態における補足情報である。学習モデル生成部は、学習用の位置情報に基づく位置ごとに、学習用の音声データと正解データとに基づいて機械学習を行い、位置ごとの学習モデルをそれぞれ生成する。推論用情報取得部は、認識対象の音声を含む推論用の音声データと、認識対象の音声が集音された位置を示す推論用の位置情報とを取得する。学習モデル取得部は、位置ごとの学習モデルのうち、推論用の位置情報に基づく位置に対応する学習モデルを取得する。推論部は、推論用の音声データと、推論用の位置情報に基づく位置に対応する学習モデルとに基づいて、推論用の音声データに基づく音声を推論する。
【0151】
なお、上記の音声認識システムは、学習用の音声データ及び推論用の音声データのうち少なくとも一方に含まれる雑音を低減又は除去する調整部を更に備えていてもよい。例えば、調整部は、実施形態における調整部207である。
【0152】
なお、上記の音声認識システムは、学習用情報取得部が正解データを得られない場合に、学習モデル生成部への認識対象の音声に対応する自然言語の手入力を受け付ける調整部を更に備えていてもよい。例えば、調整部は、実施形態における調整部207である。
【0153】
なお、上記の音声認識システムにおいて、学習用の位置情報及び推論用の位置情報のうち少なくとも一方は、認識対象の音声が集音された位置の周辺が撮像された画像を用いてビジュアルポジショニングシステムによって測定された位置を示す位置情報であってもよい。
【0154】
なお、上記の音声認識システムにおいて、位置情報は、ウェアラブルデバイスに備えられたカメラによって撮像された画像を用いて測定された位置を示す位置情報であってもよい。
【0155】
なお、上記の音声認識システムにおいて、学習用の音声データ及び推論用の音声データのうち少なくとも一方は、ウェアラブルデバイスに備えられたマイクロフォンによって集音された音に基づく音声データであってもよい。
【0156】
なお、上記の音声認識システムは、認識設定要求部と、設定情報取得部と、認識設定適用部とを更に備えていてもよい。例えば、認識設定要求部は、実施形態における認識設定要求部109であり、設定情報取得部は、実施形態における設定情報選択部218であり、認識設定適用部は、実施形態における認識設定適用部110である。認識設定要求部は、認識対象の音声を集音するアプリケーションに設定される設定情報の取得を要求する。例えば、設定情報は、実施形態における認識設定情報である。設定情報取得部は、認識設定要求部からの要求に応じて、推論部による推論の精度を向上させる、アプリケーションに対応付けられた設定情報を取得する。認識設定適用部は、設定情報取得部によって取得された設定情報をアプリケーションに適用する。
【0157】
なお、上記の音声認識システムにおいて、設定情報は、集音する音声の周波数帯、又は、音声を集音する際のバッファリング時間を示す情報を含んでいてもよい。
【0158】
また、上述した実施形態によれば、学習装置は、取得部と、学習モデル生成部とを備える。例えば、学習装置は、実施形態における音声認識装置20であり、取得部は、実施形態における音声取得部201、位置情報取得部202、及び補足情報取得部203であり、学習モデル生成部は、実施形態における学習実行部204である。取得部は、認識対象の音声を含む音声データと、認識対象の音声に対応する自然言語を示す正解データと、認識対象の音声が集音された位置を示す位置情報とを取得する。例えば、正解データは、実施形態における補足情報である。学習モデル生成部は、位置情報に基づく位置ごとに、音声データと正解データとに基づいて機械学習を行い、位置ごとの学習モデルをそれぞれ生成する。
【0159】
また、上述した実施形態によれば、推論装置は、取得部と、学習モデル取得部と、推論部とを備える。例えば、推論装置は、実施形態における音声認識装置20であり、取得部は、実施形態における音声取得部211及び位置情報取得部212であり、学習モデル取得部及び推論部は、実施形態における推論実行部213である。取得部は、認識対象の音声を含む推論用の音声データと、認識対象の音声が集音された位置を示す推論用の位置情報とを取得する。学習モデル取得部は、集音された位置ごとの学習用の音声データを用いて行われた機械学習によって位置ごとに生成された学習モデルのうち、推論用の位置情報に基づく位置に対応する学習モデルを取得する。推論部は、推論用の音声データと、推論用の位置情報に基づく位置に対応する学習モデルとに基づいて、推論用の音声データに基づく音声を推論する。
【0160】
なお、実施形態における音声認識システム1、端末装置10、音声認識装置20、学習部200、推論部210を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上述した処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウエアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0161】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0162】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0163】
1、1a、1b…音声認識システム、10、10a、10b…端末装置、20、20a、20b…音声認識装置、101…集音部、102…位置情報取得部、103…補足情報取得部、104、104a、104b…記憶部、105、105a、105b…送信部、106、106a、106b…受信部、107…表示部、108…推論実行部、109…認識設定要求部、110…認識設定適用部、121…プロセッサ、122…メモリ、123…補助記憶装置、124…タッチパネル、125…マイク、126…通信インターフェース、200…学習部、201…音声取得部、202…位置情報取得部、203…補足情報取得部、204…学習実行部、205…学習モデル記憶部、206…表示部、207…調整部、210…推論部、211…音声取得部、212…位置情報取得部、213…推論実行部、214…結果送信部、215…学習モデル選択部、216…学習モデル送信部、216b…学習モデル・設定情報送信部、217…設定要求取得部、218…設定情報選択部、219…認識設定情報記憶部、221…プロセッサ、222…メモリ、223…補助記憶装置、224…入力インターフェース、225…ディスプレイ、226…通信インターフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15