(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022094936
(43)【公開日】2022-06-27
(54)【発明の名称】音声認識システム、及び、音声認識方法
(51)【国際特許分類】
G10L 15/30 20130101AFI20220620BHJP
【FI】
G10L15/30
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2021196114
(22)【出願日】2021-12-02
(31)【優先権主張番号】P 2020207327
(32)【優先日】2020-12-15
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】720009479
【氏名又は名称】オンキヨー株式会社
(72)【発明者】
【氏名】林田 洋平
(57)【要約】 (修正有)
【課題】ローカルのサーバーを常駐させることなく、ほぼリアルタイムにレスポンスを返す安価な音声認識システム及び音声認識方法を提供する。
【解決手段】音声認識システムは、所定の要求によって起動し、所定の機能を実行するFaaS(Function as a Service)を用いて、音声を録音する音声録音処理と、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行するコンテナ実行サービスを用いて、音声録音処理により録音された音声を認識する音声認識処理と、を実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理と、
コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、前記音声録音処理により録音された音声を認識する音声認識処理と、
を実行することを特徴とする音声認識システム。
【請求項2】
前記音声録音処理により録音された音声を分割する音声分割処理をさらに実行することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記音声分割処理により分割された音声に対して、前記音声認識処理を実行することを特徴とする請求項2に記載の音声認識システム。
【請求項4】
前記音声分割処理により分割された複数の音声に対して、並行して前記音声認識処理を実行することを特徴とする請求項2又は3に記載の音声認識システム。
【請求項5】
前記音声分割処理において、無音区間毎に音声を分割することを特徴とする請求項2~4のいずれか1項に記載の音声認識システム。
【請求項6】
前記音声分割処理において、音声区間検出を用いて、音声を分割することを特徴とする請求項2~5のいずれか1項に記載の音声認識システム。
【請求項7】
前記音声分割処理において、分割した音声に対して、分割した順番を表すインデックスを付加することを特徴とする請求項2~6のいずれか1項に記載の音声認識システム。
【請求項8】
前記音声分割処理において、分割した音声に対して、分割した区間が音声の終端か否かを判断するためのフラグを付加することを特徴とする請求項2~7のいずれか1項に記載の音声認識システム。
【請求項9】
前記音声録音処理において、録音した音声を保存することを特徴とする請求項1~8のいずれか1項に記載の音声認識システム。
【請求項10】
前記音声録音処理において、電話による通話音声を録音することを特徴とする請求項1~9のいずれか1項に記載の音声認識システム。
【請求項11】
前記音声認識処理において、音声認識結果を保存することを特徴とする請求項1~10のいずれか1項に記載の音声認識システム。
【請求項12】
前記第1サービスは、電話の受信に応じて起動することを特徴とする請求項1~11のいずれか1項に記載の音声認識システム。
【請求項13】
前記第1サービスは、FaaS(Function as a Service)であることを特徴とする請求項1~12のいずれか1項に記載の音声認識システム。
【請求項14】
前記第2サービスは、コンテナ実行サービスであることを特徴とする請求項1~13のいずれか1項に記載の音声認識システム。
【請求項15】
前記音声録音処理、及び、前記音声認識処理は、クラウド上で実行されることを特徴とする請求項1~14のいずれか1項に記載の音声認識システム。
【請求項16】
所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理と、
コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、前記音声録音処理により録音された音声を認識する音声認識処理と、
を実行することを特徴とする音声認識方法。
【請求項17】
前記音声録音処理により録音された音声を分割する音声分割処理をさらに実行することを特徴とする請求項16に記載の音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に関する。
【背景技術】
【0002】
音声の認識を行う音声認識システムにおいては、従来、リアルタイムに処理を行うサーバー常駐方式と、後でまとめて処理を行うバッチ方式と、が主流である。しかしながら、前者のサーバー常駐方式では、音声認識システムが稼働できるような、高価なシステムサーバーを常時稼働させておく必要がある。このため、サーバー費用が嵩むという問題がある。また、後者のバッチ方式では、サーバーを常駐させておく必要がないため、安価である。しかしながら、リアルタイム性がないため、用途が限定されるという問題がある。
【0003】
なお、特許文献1には、クライアントとサーバーとを備える音声認識システムにおいて、クライアントが音声認識を行う場合と、サーバーが音声認識を行う場合と、を切り替える発明が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、サーバー常駐方式、バッチ方式双方に問題がある。
【0006】
本発明の目的は、従来の音声認識における問題を解決する手段を提供することである。
【課題を解決するための手段】
【0007】
第1の発明の音声認識システムは、所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理と、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、前記音声録音処理により録音された音声を認識する音声認識処理と、を実行することを特徴とする。
【0008】
本発明では、所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理を実行する。また、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、音声録音処理により録音された音声を認識する。これにより、疑似的にリアルタイム処理を実現しつつ、ローカルのサーバーを必要としない、疑似リアルタイムの音声認識を実現することができる。すなわち、ローカルのサーバーを常駐させることなく、ほぼリアルタイムにレスポンスを返すことができる、安価な音声認識システムを構築することが可能となる。よって、サーバー常駐方式のサーバーを必要とするという問題点と、バッチ方式のリアルタイム性がないという問題点と、を解決することが可能である。
【0009】
第2の発明の音声認識システムは、第1の発明の音声認識システムにおいて、前記音声録音処理により録音された音声を分割する音声分割処理をさらに実行することを特徴とする。
【0010】
本発明では、音声録音処理により録音された音声を分割する音声分割処理を実行する。これにより、発話者が、一度に長尺な発話を行った場合であっても、分割した音声に音声認識処理を実行すれば、リアルタイム処理と比較して、結果の出力が遅くなることが防止される。
【0011】
第3の発明の音声認識システムは、第2の発明の音声認識システムにおいて、前記音声分割処理により分割された音声に対して、前記音声認識処理を実行することを特徴とする。
【0012】
第4の発明の音声認識システムは、第2又は第3の発明の音声認識システムにおいて、前記音声分割処理により分割された複数の音声に対して、並行して前記音声認識処理を実行することを特徴とする。
【0013】
本発明では、音声分割処理により分割された複数の音声に対して、並行して音声認識処理を実行する。これにより、全体の処理時間の短縮化を図ることができる。また、音声認識が終了した音声認識結果を逐次出力することで、最初の処理結果を出力するまでの遅れ(ラグ)を短縮することができる。
【0014】
第5の発明の音声認識システムは、第2~第4のいずれかの発明の音声認識システムにおいて、前記音声分割処理において、無音区間毎に音声を分割することを特徴とする。
【0015】
第6の発明の音声認識システムは、第2~第5のいずれかの発明の音声認識システムにおいて、音声区間検出を用いて、音声を分割することを特徴とする。
【0016】
第7の発明の音声認識システムは、第2~第6のいずれかの発明の音声認識システムにおいて、前記音声分割処理において、分割した音声に対して、分割した順番を表すインデックスを付加することを特徴とする。
【0017】
第8の発明の音声認識システムは、第2~第7のいずれかの発明の音声認識システムにおいて、前記音声分割処理において、分割した音声に対して、分割した区間が音声の終端か否かを判断するためのフラグを付加することを特徴とする。
【0018】
第9の発明の音声認識システムは、第1~第8のいずれかの発明の音声認識システムにおいて、前記音声録音処理において、録音した音声を保存することを特徴とする。
【0019】
第10の発明の音声認識システムは、第1~第9のいずれかの発明の音声認識システムにおいて、前記音声録音処理において、電話による通話音声を録音することを特徴とする。
【0020】
第11の発明の音声認識システムは、第1~第10のいずれかの発明の音声認識システムにおいて、前記音声認識処理において、音声認識結果を保存することを特徴とする。
【0021】
第12の発明の音声認識システムは、第1~第11のいずれかの発明の音声認識システムにおいて、前記第1サービスは、電話の受信に応じて起動することを特徴とする。
【0022】
第13の発明の音声認識システムは、第1~第12のいずれかの発明の音声認識システムにおいて、前記第1サービスは、FaaS(Function as a Service)であることを特徴とする。
【0023】
第14の発明の音声認識システムは、第1~第13のいずれかの発明の音声認識システムにおいて、前記第2サービスは、コンテナ実行サービスであることを特徴とする。
【0024】
第15の発明の音声認識システムは、第1~第14のいずれかの発明の音声認識システムにおいて、前記音声録音処理、及び、前記音声認識処理は、クラウド上で実行されることを特徴とする。
【0025】
第16の発明の音声認識方法は、所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理と、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、前記音声録音処理により録音された音声を認識する音声認識処理と、を実行することを特徴とする。
【0026】
第17の発明の音声認識方法は、第16の発明の音声認識処理方法において、前記音声録音処理により録音された音声を分割する音声分割処理をさらに実行することを特徴とする。
【発明の効果】
【0027】
本発明によれば、サーバー常駐方式のサーバーを必要とするという問題点と、バッチ方式のリアルタイム性がないという問題点と、を解決することが可能である。
【図面の簡単な説明】
【0028】
【
図1】本発明の第1実施形態に係る音声認識システムの概要を示す図である。
【
図2】本発明の第2実施形態に係る音声認識システムの概要を示す図である。
【0029】
以下、本発明の実施形態について説明する。
【0030】
(第1実施形態)
図1は、本発明の第1実施形態に係る音声認識システムの概要を示す図である。本実施形態に係る音声認識システムは、電話を受信し、受信した電話の通話音声を認識する。本実施形態では、音声認識システムは、クラウド(Cloud)上で実現される。音声認識システムは、音声録音処理、音声認識処理を行う。
【0031】
音声録音処理は、所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する処理である。音声録音処理において、電話による通話音声は、録音される。また、音声録音処理において、録音された音声は、ストレージに保存される。音声録音処理では、音声が録音され、wavファイルが生成される。第1サービスは、具体的には、FaaS(Function as a Service)である。FaaSは、何らかのリクエストを受信したタイミングで起動し、任意の機能を実行するような環境を提供するサービスである。FaaSは、サーバーレスと呼称される、サーバーの構築、保守を利用者ではなく、提供会社が行う仕組みのサービスの1つである。FaaSは、電話の受信に応じて起動する。
【0032】
音声認識処理は、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、音声録音処理により録音された音声を認識する処理である。音声認識処理において、音声認識結果は、ストレージに保存される。第2サービスは、具体的には、コンテナ実行サービスである。コンテナ実行サービスは、コンテナ型仮想化技術を用いて作られたコンテナをサーバーレスに実行可能なサービスである。
【0033】
図1に示すように、音声認識システムは、まず、電話を受信する(1)。次に、FaaSで予め定められたスクリプトが実行される。これにより、音声認識システムは、フロー毎(例:名前、電話番号、住所など)に音声を録音し、ストレージに保存していく(2)。このとき、上述したように、音声が録音され、wavファイル(録音ファイル)が生成され、wavファイルがストレージに保存される。録音ファイルが作成されると、コンテナ実行サービスに予め指定しておいた音声認識を行うコンテナが呼ばれる。これにより、音声認識システムは、録音ファイルの音声認識を実行する(3)。上述したように、認識が完了次第、実行結果は、順次、ストレージに保存される。
【0034】
以上説明したように、本実施形態では、所定の要求によって起動し、所定の機能を実行する第1サービスを用いて、音声を録音する音声録音処理を実行する。また、コンテナ型仮想化技術によるコンテナを、サーバーを用いずに実行する第2サービスを用いて、音声録音処理により録音された音声を認識する。これにより、疑似的にリアルタイム処理を実現しつつ、ローカルのサーバーを必要としない、疑似リアルタイムの音声認識を実現することができる。すなわち、ローカルのサーバーを常駐させることなく、ほぼリアルタイムにレスポンスを返すことができる、安価な音声認識システムを構築することが可能となる。よって、サーバー常駐方式のサーバーを必要とするという問題点と、バッチ方式のリアルタイム性がないという問題点と、を解決することが可能である。
【0035】
(第2実施形態)
第1実施形態によれば、上述のとおり、疑似的にリアルタイムの音声認識を実現することができるが、入電者が、一度に長尺な発話を行った場合、発話が長尺であればあるほど、リアルタイム処理と比較して、結果の出力が遅くなるという問題がある。
【0036】
第2実施形態に係る音声認識システムは、第1実施形態に係る音声認識システムで行う処理に加え、音声録音処理の後、音声認識処理の前に、音声録音処理によって録音された音声を分割する音声分割処理を実行する。そして、音声認識システムは、音声分割処理によって分割された音声に対して、音声認識処理を実行する。このとき、音声認識システムは、音声認識処理によって分割された複数の音声に対して、並行して音声認識処理を実行する。
【0037】
ここで、音声認識システムは、音声分割処理において、無音(無言)区間毎に音声を分割する。例えば、音声認識システムは、音声区間検出(Voice Activity Detection: VAD)を用いて、無音(無言)区間ごとに音声を分割する。
【0038】
図2は、本発明の第2実施形態に係る音声認識システムの概要を示す図である。第1実施形態同様、音声認識システムを、電話を受電するコールシステムに適用した例について説明する。
【0039】
音声認識システムは、まず、電話を受信する(1)。次に、FaaSで予め定められたスクリプトが実行される。これにより、音声認識システムは、フロー毎(例:名前、電話番号、住所など)に音声を録音する(2)。次に、音声認識システムは、VADを用いて、録音が完了した音声から、無音(無言)区間を検出する。音声認識システムは、VADによって検出された無音(無言)区間毎に、音声を分割する。すなわち、音声認識システムは、1つの録音ファイルを、複数の録音ファイルに分割する。音声認識システムは、分割した音声(録音ファイル)に対して、分割した順番を表すインデックス(
図2におけるindex)と、分割した区間が音声の終端か否か(
図2におけるisEnd)を判断するためのフラグ(終端判定用フラグ)と、を付加する(3)。
【0040】
次に、分割された個々の録音ファイルに対して、コンテナ実行サービスによって音声認識を行うコンテナが呼ばれる。これにより、音声認識システムは、録音ファイルの音声認識を実行する(4)。次に、音声認識システムは、コンテナにより、音声認識が終わった順に、順次、実行結果(認識結果)とインデックス番号と終端フラグとをストレージに保存する(5)。認識結果の受け取り側は、PCによって、各音声認識結果のインデックスと終端区間を表すインデックス番号とを基に、全ての区間データがそろうまで、定期的にストレージを確認する。そして、受け取り側は、完了している結果があれば、インデックス順に取得し、適宜、結果出力ビュアー等に画面表示を行う(6)。
【0041】
以上説明したように、本実施形態では、音声認識システムは、音声録音処理により録音された音声を分割する音声分割処理を実行する。これにより、発話者が、一度に長尺な発話を行った場合であっても、分割した音声に音声認識処理を実行すれば、リアルタイム処理と比較して、結果の出力が遅くなることが防止される。
【0042】
また、本実施形態では、音声分割処理により分割された複数の音声(録音ファイル)に対して、並行して音声認識処理を実行する。これにより、全体の処理時間の短縮化を図ることができる。また、音声認識が終了した音声認識結果を逐次出力することで、最初の処理結果を出力するまでの遅れ(ラグ)を短縮することができる。すなわち、長尺の発話が一度に入ってくるようなケースにおいても、サービス提供者が、自身のサーバーを常駐させることなくほぼリアルタイムにレスポンスを返すことができる、安価な音声認識システムを構築することが可能となる。言い換えれば、長尺の発話が一度に入ってくるようなケースにおいても、疑似的にリアルタイム処理を実現しつつ、コストの嵩むサーバーを用いずに、音声認識システムを構築することが可能となる。
【0043】
以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。
【産業上の利用可能性】
【0044】
本発明は、音声認識を行う音声認識システム、及び、音声認識方法に好適に採用され得る。