(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-22
(45)【発行日】2022-08-01
(54)【発明の名称】音声認識システム
(51)【国際特許分類】
G10L 15/16 20060101AFI20220725BHJP
G06F 21/32 20130101ALI20220725BHJP
G10L 15/00 20130101ALI20220725BHJP
G10L 15/04 20130101ALI20220725BHJP
G10L 15/10 20060101ALI20220725BHJP
G10L 15/30 20130101ALI20220725BHJP
G10L 17/00 20130101ALI20220725BHJP
【FI】
G10L15/16
G06F21/32
G10L15/00 200Z
G10L15/04 300Z
G10L15/10 400K
G10L15/30
G10L17/00 200C
(21)【出願番号】P 2018193388
(22)【出願日】2018-10-12
【審査請求日】2021-09-15
(73)【特許権者】
【識別番号】518363532
【氏名又は名称】三浦 浩之
(74)【代理人】
【識別番号】100075948
【氏名又は名称】日比谷 征彦
(74)【代理人】
【識別番号】100181928
【氏名又は名称】日比谷 洋平
(72)【発明者】
【氏名】三浦 浩之
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開2014-206896(JP,A)
【文献】国際公開第2019/187521(WO,A1)
【文献】特開2017-003611(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/16
G10L 15/30
G10L 15/04
G10L 15/10
G06F 21/32
G10L 15/00
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
周囲の音を入力する集音部から入力した音声データを含む音データを、データ加工することにより音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成される音声認識システムであって、
前記処理部はインターネットを介して自己学習機能を備えた文字変換サーバ及び話者特定サーバと接続しており、
前記音声ファイルを前記文字変換サーバに送信して、前記文字変換サーバから前記音声ファイルをテキスト化した文章ファイルを受信し、
前記音声ファイル及び話者のユーザID情報を前記話者特定サーバに送信して、前記音声ファイルに対する前記話者の特定結果を受信し、
前記音声ファイルに対応する前記文章ファイル及び前記話者の特定結果を前記モニタ部に表示することを特徴とする音声認識システム。
【請求項2】
前記音データから人間の発声の周波数のみを抽出した音声データを生成し、前記話者の発言と発言との間の無音状態が所定時間以上の場合に前記音声データを区切り、区切れた直前の音声データに基づいて、前記音声ファイルを生成することを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記音声データを所定間隔でサンプリングして、中心周波数の特性の判別により、前記話者ごとの前記音声ファイルを生成することを特徴とする請求項2に記載の音声認識システム。
【請求項4】
前記モニタ部は前記音声ファイルに対応する前記文章ファイルと前記特定結果の前記話者とを対応付けて時系列順に表示することを特徴とする請求項1~3の何れか1項に記載の音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば複数の話者に対しても、認識精度の高い音声認識システムに関するものである。
【背景技術】
【0002】
マイクロホンから音声入力された音声データをテキスト化する音声認識装置は、広く普及している。そして、特許文献1には話者ごとに発声特徴を学習させて、音声認識の精度を高める音声認識装置が開示されている。
【0003】
また、様々なクラウドサービスにおいて、ディープラーニング(深層学習)を利用した学習システムが構築されている。これらの学習システムは、インターネットを介して多数のユーザから収集されるデータを基に、ニューラルネットワークベースの処理装置により、自己学習によりデータ分析、解析を行う。
【0004】
人間からの指示を待たずに自己学習してゆくことで、効率的に処理装置の出力精度を高めることが可能であり、ディープラーニングを活用したクラウドサービスによってデータ分析された分析結果をユーザは利用している。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1の音声認識装置は、マイクロホンから収集される音声のみから学習しているため、収集できる音声データに限界がある。また、上述のクラウドサービスでは演算処理部を並列に多数配置するような大規模のシステムが構築されているのに対して、特許文献1の音声認識装置はシステム規模が小さいものとなってしまう。従って、特許文献1の音声認識装置は学習精度の向上が遅く、テキスト化、話者特定の精度がなかなか向上しないという問題がある。
【0007】
本発明の目的は、上述の課題を解決し、インターネットを介したクラウドサービスである学習型サーバを利用することで、収集した音声を精度良くテキスト化すると共に、精度良く話者の特定を行う音声認識システムを提供することにある。
【課題を解決するための手段】
【0008】
上記目的を達成するための本発明に係る音声認識システムは、周囲の音を入力する集音部と、該集音部から入力した音データのデータ加工を行うことにより音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成される音声認識システムであって、前記処理部はインターネットを介して自己学習機能を備えた文字変換サーバ及び話者特定サーバと接続しており、前記音声ファイルを前記文字変換サーバに送信して、前記文字変換サーバから前記音声ファイルをテキスト化した文章ファイルを受信し、前記音声ファイル及び話者のユーザID情報を前記話者特定サーバに送信して、前記音声ファイルに対する前記話者の特定結果を受信し、前記音声ファイルに対応する前記文章ファイル及び前記話者の特定結果を前記モニタ部に表示することを特徴とする。
【発明の効果】
【0009】
本発明に係る音声認識システムによれば、インターネットを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ及び話者特定サーバを利用することで、文字変換機能及び話者特定機能を設けることなく、音声ファイルに対して精度よく文字変換及び話者特定を行うことができる。
【0010】
また、音声ファイルに文章ファイルと特定結果の話者を対応付けて、モニタ部に時系列順にほぼリアルタイムで表示させることができる。話者と発言内容とを文字で確認することができ、画面のスクロールにより過去の発言も容易に確認することが可能である。
【図面の簡単な説明】
【0011】
【
図2】音声データから音声ファイルを生成する場合のフローチャート図である。
【
図3】話者の音声データを波形で表した説明図である。
【
図5】別の話者の音声データを波形で表した説明図である。
【
図6】話者ごとの音声データを判別する説明図である。
【
図7】モニタ部に表示されるテキスト文の説明図である。
【発明を実施するための形態】
【0012】
本発明を図示の実施例に基づいて詳細に説明する。
音声認識システム1は、周囲の音を入力する集音部2と、この集音部2から入力した音データのデータ加工を行うことで音声ファイルFを生成し、この音声ファイルFを文字変換サーバ及び話者特定サーバに送信し、文章ファイルWと話者Hの特定結果を受信する処理部3と、処理部3の処理結果を表示するモニタ部4から構成される。
【0013】
音声認識システム1には、市販のノートパソコンやデスクトップパソコンを用いてもよく、集音部2として例えば外付けのマイクロホン等を使用する。集音部2は左右の二重で録音されるステレオタイプではなく、モノラルタイプを使用し、高品質のものが好ましい。このモノラルタイプの集音部2をテーブル等の話者間の中央に設置することになる。
【0014】
処理部3は演算部3a、メモリ部3b及び記憶部3cから成り、記憶部3cに記憶したソフトウェアを起動することで、各種のデータ処理を行う。この処理部3と集音部2とは有線又は無線で接続されている。
【0015】
モニタ部4は処理部3と接続されており、例えば液晶ディスプレイからなり、モニタ部4に処理部3における各種処理結果等を表示されることができる。なお、モニタ部4はネットワークを介して接続した別のPCや携帯端末のモニタ等であってもよい。
【0016】
文字変換サーバ5は、インターネットIN上に存在するニューラルネットワークベースのAPI(Application Programming Interface)であり、音声認識システム1とインターネットINを介して接続されている。
【0017】
文字変換サーバ5は音声認識システム1外であって、音声認識システム1の処理部3から音声ファイルFがアップロードされると、文章ファイルWに変換するテキスト化処理を行い、処理部3は生成した文章ファイルWをダウンロードすることができる。数分間に渡る長い音声ファイルFをアップロードすると、テキスト化処理に時間を要するため、音声データVを数10秒以下に区切り、文字変換サーバ5にアップロードすることが好ましい。
【0018】
また、文字変換サーバ5は大量のユーザからアップロードされる音声ファイルを基にディープラーニングを行い、テキスト化処理の自己修正している。従って、時間が経過するにつれて、テキスト化処理の変換精度が向上することになる。
【0019】
同時に、文字変換サーバ5と別体である話者特定サーバ6は、インターネットIN上に存在するニューラルネットワークベースのAPIであり、音声認識システム1とインターネットINを介して接続されている。
【0020】
この話者特定サーバ6は、予め話者ごとに音声サンプルを登録しておき、音声認識システム1から音声データVを話者特定サーバ6にアップロードすると、登録している話者データに基づいて、音声データVの話者を特定することが可能である。例えば、話者Haの音声データをアップロードすると、話者Haが既に話者特定サーバ6に登録されていれば、音声データの声主は、話者Haであると特定されることになる。また、話者特定サーバ6には多数の話者が登録されているため、登録しているユーザIDのグループを音声データVと共にアップロードすることで、効率的にユーザIDから認識することが可能である。
【0021】
この話者特定サーバ6も大量のユーザからアップロードされる音声ファイルを基に、ディープランニングを利用して自己分析を行いながら、話者特定を行うため、時間が経過するにつれて話者特定のための精度が向上する。
【0022】
例えば、複数の話者である話者Ha、Hb、HcのそれぞれのユーザIDを、話者Ha、Hb、Hcの会話を録音した音声データVと共に話者特定サーバ6にアップロードすることにより、各話者Ha、Hb、Hcの特定は3つのユーザIDから選出されることになる。従って、話者特定の処理速度が速くなると共に、話者特定の精度が向上することになる。
【0023】
図2は集音部2を介して処理部3に入力した音データに対する音声ファイル生成のフローチャート図である。音データは集音部2に入力されたデータであり、録音した音データを加工したものが音声データVとなる。
【0024】
図1に示すように、例えば話者Ha、Hb、Hcの中心に1個の集音部2を配置し、会議を開始した場合の処理部3の処理について説明する。会議が開始されると、
図3に示すように話者Ha、Hb、Hcは時系列にそれぞれ音声を発して、これらが合成された1つの音データが得られる。
【0025】
ステップS1において、記憶部3cに記憶した音データに対して、人間の発声周波数のみを抽出して音声データVとして記憶する。この抽出処理は例えば、椅子を動かした音や、救急車のサイレン音等が音データに混入されると、それらの音域をノイズとしてカットしたものを音声データVとして記憶することになる。
【0026】
図3は時間t11から録音を開始した音声データVを簡略した波形で表した説明図である。例えば、最初に話者Haが「これから会議を始めます。」と発言し、次に話者Hbが「了解です。」、更に話者Hcが「分かりました。」と続き、その後に話者Haが「それでは議題に移ります。」と発言したときの音声の波形である。
【0027】
続いて、
図2のステップS2に移行し、音声データVの発言と発言の間の無音状態である無音時間mを計測する。例えば、無音時間mの閾値を1秒と設定し、1秒以上の無音時間m1が発生すると、ステップS3に移行する。ステップS2で1秒以下の無音時間m0があると、ステップS2の処理を繰り返して行う。
【0028】
ステップS3では、無音時間m1により区切れた直前の音声データVに対して、話者Hが複数人存在するか否かの判定を行う。この話者Hを識別する処理は、所定間隔でサンプリングした音声データVに対して、話者Hごとに中心周波数が異なることを利用する。中心周波数の変位から、無音時間m1により区切れた直前の音声データの話者Hの人数を判別することが可能である。
【0029】
話者Hの人数を判別した後にステップS4に移行し、話者Hが複数である場合はステップS5に移行し、話者Hが単数の場合は、ステップS4を省略してステップS6に移行する。
【0030】
図3に示す音声データVでは、時間t12、t13、t14、t15で区切られた直前の音声データVは、何れも1人ずつの周波数特性しかないので、ステップS4では、ステップS5を省略してステップS6に移行する。
【0031】
ステップS5の処理は後述し、先にステップS6における処理を説明すると、区切られた音声データVは、
図4に示すように話者Haが最初に発言した「これから会議を始めます。」の音声ファイルF1:t11、話者Hbが発言した「了解です。」の音声ファイルF2:t12、話者Hcが発言した「分かりました。」の音声ファイルF3:t13、話者Haが発言した「それでは議題に移ります。」の音声ファイルF4:t14として保存される。なお、これらの音声ファイルFに対して、処理部3は誰の発言であるかを特定することはできない。
【0032】
そして、生成された各音声ファイルFを、文字変換サーバ5及び話者特定サーバ6に送信する。送信後にステップS2に戻り、ステップS2~ステップS6の処理を繰り返す。
【0033】
図3は前述のように話者Ha、Hb、Hcが会話をする際に、最初の話者Haの会話が終わった後に、無音時間m1が発生した後に、次の話者Hbの音声が開始する音声データを示しているが、
図5は話者Ha、Hb、Hcの会話の間に無音時間が閾値以下の無音時間m0であった場合における音声データVを簡略した波形で表した説明図である。
【0034】
図5に示す話者Haの「それでは議題に移ります。」との発言後に、最初の無音時間m1が発生した場合では、ステップS3において、時間t21で区切られた直前の音声データV0に対して、所定時間でサンプリングして中心周波数を測定する。そして、ステップS4において中心周波数が複数の場合に、つまり話者Hが複数の場合にはステップS5に移行する。
【0035】
ステップS5では、判別した話者Hごとの音声ファイルFを生成する。
図6は時間t25で無音時間m1が発生することで区切られた直前の音声データV0に対して、中心周波数の変位から話者Hを判別する場合の説明図である。この音声データV0の中心周波数を判別することで、時間t21から開始する音声データVH1、時間t22から開始する音声データVH2、時間t23から開始する音声データVH3に区分することができる。
【0036】
なお、音声データV0の一部に2人の話者Hが重複して発声して録音されている場合であっても、サンプリング時間を短くする、例えば10msecとすることで、各サンプリング時間を占有する話者Hを特定することができ、重複して発声している音声データV0から個々の音声データVへ区分けすることが可能である。
【0037】
更に、2つの発言から成る音声データVH1は、発言間に無音時間m1が存在することから、2つの音声ファイルFの音声ファイルF1:t21と音声ファイルF4:t24を生成することができる。
【0038】
以上の判別処理を行うことで、
図4に示す音声ファイルF1:t11~F4:t14と同様な音声ファイルF1:t21~F4:t24を生成することができる。なお、処理部3ではこれらの音声ファイルF1:t21~F4:t24について話者が異なることは判別できても、誰の発言であるのかを特定することはできない。
【0039】
また、音声データVH1から2つの音声ファイルFを生成する処理を行わず、1つの音声ファイルF1:t21のみを生成するようにしてもよい。この場合は、音声ファイルF1:t21の後半の発言と、音声ファイルF2:t22、F3:t23の発言との時系列を明確にするため、時間t21~t24の情報を各音声ファイルに記憶する必要がある。つまり、音声ファイルF1:t21に時間t21、t24を記憶することで、後述するモニタ部4に各発言を時間t21~t24の時系列で表示することができる。
【0040】
図3に示す音声データVと
図5に示す音声データVの処理部3における処理の差は、
図3の音声データVにおいては無音時間m1が発生する度に、音声ファイルFaが生成され、
図4の音声ファイルF1:t11~F4:t14は上から順に生成されて、生成される都度ステップS6に移行することになる。これに対して、
図5の音声データVにおいては音声ファイルF1:t21~F4:t24がほぼ同時に生成され、ステップS6に移行することになる。
【0041】
ステップS6において、生成された音声ファイルFを文字変換サーバ5に送信すると、音声ファイルF1:t11~F4:t14及び音声ファイルF1:t21~F4:t24は、それぞれテキスト化された文章ファイルW1:t11~W4:t14及び文章ファイルW1:t21~W4:t24に変換され、音声認識システム1はこれらのファイルを受信することになる。
【0042】
また、生成された音声ファイルFを話者特定サーバ6に送信する際には、音声ファイルF1:t11~F4:t14及び音声ファイルF1:t21~F4:t24に加えて、会話を構成する話者Ha~HcのユーザIDを併せて送信する。話者特定サーバ6は、処理部3から送信された音声ファイルF1:t11~F4:t14及び音声ファイルF1:t21~F4:t24に対して、併せて送られてきたユーザIDの中からそれぞれの話者Hを特定し、処理部3は特定結果の話者Ha~Hcを音声ファイルFに対応して受信する。
【0043】
そして処理部3では、音声ファイルFに文章ファイルWと特定結果の話者Hを対応付けて、モニタ部4に時系列順に表示する。つまり、話者Hが特定できなかった「これから会議を始めます。」の音声ファイルF1:t11は、「これから会議を始めます。」の文章ファイルW1:t11と、話者Haが特定されて、
図7に示すように表示される。
【0044】
音声ファイルFは、ファイル名末尾が時間tに対する通し番号として保存され、
図7に示すように文章ファイルW及び話者Hは時間tの時系列順に表示される。なお、
図7では話者Hを識別し易くするために、話者Haを左側に表示し、話者Hb、Hcを右側に表示している。
【0045】
このように各ファイルの生成、クラウドサービスへの送受信に多少のタイムラグが発生するものの、ほぼリアルタイムで最新の音声ファイルFに対する発言日時、文章ファイルW及び話者Hがモニタ部4の画面下部から順に表示されることになる。
【0046】
なお、音声ファイルFのファイル名を基に表示する順を決定しているが、ファイル名以外にも時間t11~t14をファイルのヘッダ等に発言日時として記憶することで、それらの情報を基に時系列で表示することができる。
【0047】
また、表示される発言日時に代えて、画面に表示処理した処理日時を表示するようにしてもよい。この場合は、上述の発言日時を記憶せずに、処理部3から音声ファイルFを生成した順でクラウドサービスに送信し、受信することを条件として次の音声ファイルFをクラウドサービスに送るようにしてもよい。
【0048】
図7に示すように会話形式で表示されることで後日に、誰がどのような発言をしたのかを容易に確認することが可能である。また、
図7に示す画面を他の端末装置を接続したPCや携帯端末で閲覧可能とすることで、ほぼリアルタイムで他の場所から会議の内容を目視で確認することができる。
【0049】
特に、別の場所で会議を音で聞いている場合には、話者Hを特定できずに、全体の内容を把握し難いのに対して、音声認識システム1では話者と発言内容とを文字で確認できるので会議内容を把握し易い。
【0050】
更には、音声を出力することが困難な場所での会議内容の確認や、聴覚障害者による会議内容を確認する際に、容易に会議の内容を把握することができる。画面のスクロールにより過去の発言を簡単に確認することもできる。
【0051】
また、音声認識システム1のテーブル等の話者Ha~Hcの中央に設置した集音部2により、集音した音データを用いて説明したが、別の場所等で録音した音声データを含む音データのファイルをネットワークや記憶媒体等を経由して記憶部3cに記憶させて、又は直接読み込ませて演算部3aにより前述のフローチャートの処理を行うようにしてもよい。
【0052】
このように、音声認識システム1はインターネットINを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ5及び話者特定サーバ6を利用することで、文字変換機能及び話者特定機能を設けることなく、精度のよい文字変換及び話者特定を行うことができる。
【0053】
また、会議内容をほぼリアルタイムで文章化することができ、また録音した音声ファイルに対しても事後的に文章化することができるので、迅速な会議内容の把握に役立てることが可能である。
【符号の説明】
【0054】
1 音声認識システム
2 集音部
3 処理部
4 モニタ部
5 文字変換サーバ
6 話者特定サーバ
IN インターネット