(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-14
(45)【発行日】2023-06-22
(54)【発明の名称】音声認識システム
(51)【国際特許分類】
G10L 15/20 20060101AFI20230615BHJP
G10L 15/30 20130101ALI20230615BHJP
G10L 15/04 20130101ALI20230615BHJP
G10L 17/00 20130101ALI20230615BHJP
G10L 15/22 20060101ALI20230615BHJP
G10L 15/00 20130101ALI20230615BHJP
【FI】
G10L15/20 370D
G10L15/30
G10L15/04 300A
G10L17/00 200Z
G10L15/22 460Z
G10L15/00 200B
(21)【出願番号】P 2019021924
(22)【出願日】2019-02-08
【審査請求日】2022-02-07
(73)【特許権者】
【識別番号】518363532
【氏名又は名称】三浦 浩之
(74)【代理人】
【識別番号】100181928
【氏名又は名称】日比谷 洋平
(74)【代理人】
【識別番号】100075948
【氏名又は名称】日比谷 征彦
(72)【発明者】
【氏名】三浦 浩之
【審査官】堀 洋介
(56)【参考文献】
【文献】特開平07-020892(JP,A)
【文献】特開2013-182150(JP,A)
【文献】特開2012-073361(JP,A)
【文献】特開昭59-124399(JP,A)
【文献】特開2013-200423(JP,A)
【文献】特開2000-029486(JP,A)
【文献】特開2000-352995(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、
インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、
前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第1の閾値と、騒音を除去する第2の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成
し、
インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザID情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする音声認識システム。
【請求項2】
前記第1の閾値は、前記話者が発声していない状態において、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項1に記載の音声認識システム。
【請求項3】
前記第2の閾値は、前記話者が発声した際に、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項1又は請求項2に記載の音声認識システム。
【請求項4】
前記所定のビットレートは、人間の発声の周波数帯域を中心に変換する値であることを特徴とする請求項1~3の何れか1項に記載の音声認識システム。
【請求項5】
前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて前記デジタル音声ファイルを生成することを特徴とする請求項1~4の何れか1項に記載の音声認識システム。
【請求項6】
前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記発言の始点より手前の時点から前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて、前記デジタル音声ファイルを生成することを特徴とする請求項5に記載の音声認識システム。
【請求項7】
前記モニタ部は前記デジタル音声ファイルに対応する前記文章ファイルと前記特定結果の前記話者とを対応付けて時系列順に表示することを特徴とする請求項
1に記載の音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者の発話に対して、認識精度の高い音声認識システムに関するものである。
【背景技術】
【0002】
マイクロホンから音声入力された音声データをテキスト化する音声認識装置は、広く普及している。そして、特許文献1には話者ごとに発声特徴を学習させて、音声認識の精度を高める音声認識装置が開示されている。
【0003】
また、様々なクラウドサービスにおいて、ディープラーニング(深層学習)を利用した学習システムが構築されている。これらの学習システムは、インターネットを介して多数のユーザから収集されるデータを基に、ニューラルネットワークベースの処理装置で自己学習することにより、データの分析や解析を行う。
【0004】
人間からの指示を待たずに自己学習してゆくことで、効率的に処理装置の出力精度を高めることが可能であり、ディープラーニングを活用したクラウドサービスによってデータ分析された分析結果をユーザは利用している。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1の音声認識装置は、マイクロホンから収集される音声のみから学習しているため、収集できる音声データに限界がある。また、上述のクラウドサービスでは演算処理部を並列に多数配置するような大規模のシステムが構築されているのに対して、特許文献1の音声認識装置はシステム規模が小さいものとなってしまう。従って、特許文献1の音声認識装置は学習精度の向上が遅く、テキスト化、話者特定の精度がなかなか向上しないという問題がある。
【0007】
また、マイクロホンに入力される音声は、様々な録音環境下で収集されるため、処理装置により音声の分析、解析を行ってテキスト化する際に、同じ話者が同じ文章を読み上げたとしても、録音環境によって音声認識の精度にばらつきが生じていた。
【0008】
本発明の目的は、上述の課題を解決し、インターネットを介したクラウドサービスである学習型サーバを利用することで、収集した音声を精度良くテキスト化すると共に、精度良く話者の特定を行う音声認識システムを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するための本発明に係る音声認識システムは、話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第1の閾値と、騒音を除去する第2の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成し、インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザID情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする。
【発明の効果】
【0010】
本発明に係る音声認識システムによれば、マイク等の集音部より入力された音声を含むアナログ音データ、又は予め電子ファイルとして集音部を介して録音し、記録された音声を含むアナログ音データを、インターネット上に設けた文字変換サーバが認識し易いビットレートに即してデジタル化すると共に、文字変換サーバの変換精度を高めるために、雑音及び騒音を除去する閾値の初期設定を行い、ノイズ除去の処理を行う。閾値の初期設定処理を行うことで、精度良くデジタル音声データをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。
【図面の簡単な説明】
【0011】
【
図2】アナログ音データをデジタル化した際の説明図である。
【
図3】閾値の微調整を行う初期設定処理のフローチャート図である。
【
図4】音声データから音声ファイルを生成する場合のフローチャート図である。
【
図5】話者の音声データを波形で表した説明図である。
【
図7】別の話者の音声データを波形で表した説明図である。
【
図8】話者ごとの音声データを判別する説明図である。
【
図9】モニタ部に表示されるテキスト文の説明図である。
【発明を実施するための形態】
【0012】
本発明を図示の実施例に基づいて詳細に説明する。
図1は音声認識システム1のシステム構成図であり、例えば話者Ha、Hb、Hcの中心にマイク等である集音部を配置している。
【0013】
音声認識システム1は、周囲の音を時間に対して連続的に変化する電圧値として入力する集音部2と、この集音部2から入力した連続した電圧値であるアナログ音データSのデジタル化処理及びノイズ除去処理を行うことでデジタル音声ファイルFを生成し、このデジタル音声ファイルFを文字変換サーバ及び話者特定サーバに送信し、文章ファイルWと話者Hの特定結果を受信する処理部3と、処理部3の処理結果を表示するモニタ部4から構成される。
【0014】
音声認識システム1には、市販のPC、スマートフォンやタブレット端末を用いてもよく、集音部2として例えば外付けのマイク等を使用する。この集音部2をテーブル等の話者間の中央に設置することになる。
【0015】
処理部3は演算部3a、メモリ部3b及び記憶部3cから成り、記憶部3cに記憶したソフトウェアを起動することで、デジタル化処理や各種のデータ加工を行う。この処理部3と集音部2とは有線又は無線で接続されている。
【0016】
モニタ部4は処理部3と接続されており、例えば液晶ディスプレイからなり、モニタ部4に処理部3で行う各種処理結果等を表示することができる。なお、モニタ部4はネットワークを介して接続した別のPCや携帯端末のモニタ等であってもよい。
【0017】
文字変換サーバ5は、インターネットIN上に存在するニューラルネットワークベースのAPI(Application Programming Interface)であり、音声認識システム1とインターネットINを介して接続されている。
【0018】
文字変換サーバ5では、音声認識システム1の処理部3からデジタル音声ファイルFがインターネットINを介してアップロードされると、文章ファイルWに変換するテキスト化処理を行い、処理部3は生成した文章ファイルWをダウンロードすることができる。数分間に渡る長いデジタル音声ファイルFをアップロードすると、テキスト化処理に時間を要するため、デジタル音声データVを数10秒以下に区切ったデジタル音声ファイルFを、文字変換サーバ5にアップロードすることが好ましい。
【0019】
また、文字変換サーバ5は大量のユーザからアップロードされるデジタル音声ファイルFを基にディープラーニングを行い、テキスト化処理を自己修正している。従って、時間が経過するにつれて、テキスト化処理の変換精度が向上することになる。
【0020】
同時に、文字変換サーバ5と別体である話者特定サーバ6は、インターネットIN上に存在するニューラルネットワークベースのAPIであり、音声認識システム1とインターネットINを介して接続されている。
【0021】
この話者特定サーバ6では、予め話者Hごとに音声サンプルを登録しておき、音声認識システム1からデジタル音声ファイルFを話者特定サーバ6にアップロードすると、登録している話者データに基づいて、デジタル音声ファイルFの話者Hを特定することが可能である。例えば、話者Haのデジタル音声ファイルFをアップロードすると、話者Haが既に話者特定サーバ6に登録されていれば、デジタル音声ファイルFの声主は、話者Haであると特定されることになる。また、話者特定サーバ6には多数の話者Hが登録されているため、登録しているユーザIDのグループをデジタル音声ファイルFと共にアップロードすることで、効率的にグループ内のユーザIDから話者Hを認識することが可能である。
【0022】
この話者特定サーバ6も大量のユーザからアップロードされるデジタル音声ファイルFを基に、ディープランニングを利用して自己学習によるデータ分析、解析を行いながら話者特定を行うため、時間が経過するにつれて話者特定の精度が向上する。
【0023】
例えば、複数の話者である話者Ha、Hb、Hcから成るグループ内の3人のユーザIDを、話者Ha、Hb、Hcの発声した音声を含むアナログ音データSを変換したデジタル音声ファイルFと共に、話者特定サーバ6にアップロードすることにより、各話者Ha、Hb、Hcの特定はグループ内の3人のユーザIDから選出されることになる。従って、話者特定サーバ6は話者特定の処理速度が速くなると共に、話者特定の精度が向上することになる。
【0024】
図1に示すように、例えば話者Ha、Hb、Hcにより会議を開始する際には、話者Ha、Hb、Hcの中心に1個の集音部2を配置し、この集音部2から入力されるアナログ音データSを処理部3により随時に変換してデジタル音声ファイルFを生成し、このデジタル音声ファイルFを文字変換サーバ5及び話者特定サーバ6にアップロードすることになる。
【0025】
先ず、文字変換サーバ5に最も適したデジタル音声ファイルFを送信するにあたり、話者Ha、Hb、Hcに対して、等間隔となる場所に集音部2を配置する。各話者Hから集音部2までの距離が等間隔であればよく、距離は机等の配置に応じて例えば1~3mの範囲で適宜に設定すればよい。
【0026】
このようにして配置した集音部2から入力される、時間に対して連続的に変化する電圧値であるアナログ音データSを、以下の(1)式のビットレートの不連続の値に変換することでデジタル化を行う。
ビットレート=サンプリング周波数×量子化ビット数×チャネル数 (1)
【0027】
アナログ音データSに対して、文字変換サーバ5が認識し易いビットレートになるように各値の設定及び後述するノイズ除去のデータ加工を行うことになる。
【0028】
(1)式のサンプリング周波数は、大きい値ほど高い音域まで記録可能であるが、音声認識処理においては音声として入力される周波数帯域のみを集音できればよいので、サンプリング周波数の設定は余分な周波数領域をカットする4KHz、又は8KHz程度に設定することが好ましい。
【0029】
サンプリング周波数の設定が時間方向に対する間隔の設定であるのに対して、振幅方向に対する間隔の設定である量子化ビット数の設定を行う。量子化ビット数の設定を16ビットとすることで、0~65535の範囲で電圧値を量子化、つまり数値化することができる。
【0030】
チャネル数の設定はモノラルである1が好ましく、このようにして得られる(1)式のビットレートは、サンプリング周波数が4KHzの場合では64Kbps、8KHzの場合では128Kbpsとなり、人間の発声の周波数帯域を中心に変換されることになる。
【0031】
図2は集音部2から入力されたアナログ音データSである電圧値を(1)式のビットレートに即して、デジタル化した際の説明図であり、時間軸である横軸における各出力値の間隔がサンプリング周波数に対応し、縦軸が音量に相当する電圧値を量子化した量子化値に対応している。
【0032】
話者Ha、Hb、Hcの何れか一人の音声を利用して、設定したビットレートに変換した量子化値に対して、更にノイズ除去のための閾値P1、P2を設定する処理を行う。これらの閾値P1、P2の初期設定を行い、ノイズ除去の処理を行うことで、アップロードするデジタル音声ファイルFを文字変換サーバ5及び話者特定サーバ6が認識し易い、デジタル音声データVとして生成することができるようになる。
【0033】
ノイズ除去の手順として、先ず話者Hが発話していない状態で数秒間を経過させて、量子化値の最高値を閾値P1として記憶する。この発話していない状態の閾値P1である量子化値は、室内のエアコンの音、パソコンのファン音等や、人間の耳では聞き取れない音である雑音を量子化した値であり、一定の範囲の時間変化の少ない値が得られる。
【0034】
続いて、発話していない時間の経過後に、話者Hが所定期間、発話することで、最大の量子化値Rを抽出することができ、この量子化値Rに所定割合を乗算した値を閾値P2と設定する。この所定割合は例えば1.2程度が好ましい。
【0035】
閾値P1を下回る量子化値は、上述の雑音が該当し、閾値P2を上回る量子化値は、騒音が該当することになる。これらの雑音及び騒音から成るノイズを除去することで、
図2に示す矩形の点線で囲まれた閾値P1から閾値P2の間に含まれる量子化値のみから成るデジタル音声データVを生成することができる。
【0036】
そして、
図2に示す閾値P2を上回る騒音Zの量子化値は除去され、集音部2から等距離で配置している話者Ha、Hb、Hcの会話のみがデジタル音声データVとして生成され、このデジタル音声データVから成るデジタル音声ファイルFが文字変換サーバ5及び話者特定サーバ6に送信されることになる。
【0037】
図3はデジタル音声ファイルFの作成に際して、処理部3により閾値P1及び閾値P2の微調整を行う初期設定処理の詳細を示したフローチャート図である。この初期設定処理では、話者Hは予め用意した原稿を読み上げて、文字変換サーバ5により認識した文章と読み上げた原稿とを比較して、閾値P1及び閾値P2の微調整を行う。このようにすることで、更に精度良く文字変換サーバ5による文字認識が可能となる。
【0038】
ステップST11において、先ず、話者Hは発話しない時間の経過後に、用意した原稿である文章Tx0を読み上げて、集音部2に入力する。高音であって会話上で音量が大きい「サシスセソ」を含むと共に、低音であって音量が小さい「ン」を含む文章Tx0を、例えば「コンニチワ、サシスセソ、シンシントユキガフリツモル」という文字列を予め用意した原稿として、読み上げる。
【0039】
続いて、ステップST12において、集音部2を介して入力された文章Tx0を読み上げた基準アナログ音データS0に対して、設定したビットレートによる前述のデジタル化処理を行う。このデジタル変換処理により、
図2に示すような量子化値が得られる。
【0040】
続いてステップST13に移行し、量子化値に対して閾値P1、P2を設定し、閾値P1から閾値P2の間に含まれる量子化値であるデジタル音声ファイルF0を作成する。なお、最初の発話しない時間帯の量子化値に基づいて、雑音を除去する閾値P1を設定し、読み上げた文章Tx0内の最大の量子化値に基づいて騒音を除去する閾値P2を設定する。
【0041】
次にステップST14に移行し、デジタル音声ファイルF0を文字変換サーバ5にインターネットINを介してアップロードする。数秒後に文字変換サーバ5によってテキスト化された文章ファイルW1を受信し、ステップST15において文章ファイルW1の文章Tx1と、予め読み上げた文章Tx0との比較を行う。一致する場合は、ステップST16に移行し、文字変換サーバ5及び話者特定サーバ6に対する閾値P1、P2を記憶部3cに記憶して初期設定処理は完了する。
【0042】
ステップST15において、文章Tx0及び文章Tx1の比較が一致しなかった場合には、ステップST17に移行する。ステップST17では、加工音データS1に対して、ステップST13の閾値P1、P2を設定の微調整を行う。これは、録音環境等により文字変換サーバ5の認識率が変化するため、文字変換サーバ5が認識し易い閾値P1、P2を抽出するためである。
【0043】
ステップST17において、文章Tx0と文章Tx1とを比較した結果、最初の文字が一致しない場合、例えば文章Tx0が「オンニチハ」と認識された場合には、発音始めの量子化値を必要以上にカットしていると考えられるので、閾値P1を数%下げる処理を行う。また、「サシスセソ」に加工音データS1に対して、認識率が悪い場合には、閾値P2を更に数%上げる処理を行う。このようにして調整した閾値P1、P2に基づいて、ノイズ除去処理を行い、デジタル音声ファイルF0を作成する。
【0044】
そして、ステップST14でデジタル音声ファイルF0を再度、文字変換サーバ5に送信し、ステップST15で、再びデジタル音声ファイルF0に対するテキスト化した文章Tx2と、読み上げた文章Tx0とを比較する。
【0045】
文章Tx0及び文章Tx2が再度一致しなかった場合は、ステップST17に戻る。このステップST17の修正処理には、比較した文章の一致率を記憶しておき、文章Tx0及び文章Txnが一致するまで閾値P1、P2の上下する割合を適宜に調整する。
【0046】
このようにして、閾値P1、P2に基づく雑音、騒音の除去する処理を、ステップST14、ステップST15、ステップST17で繰り返すことで、文字変換サーバ5による認識率が高いデジタル音声データVから成るデジタル音声ファイルFを作成することが可能となり、微調整を行った閾値P1、P2を記憶部3cに記憶して、初期設定処理は完了する。
【0047】
図4は初期設定を完了した後に、話者Ha、Hb、Hcによって会議を開始した場合の処理部3の処理のフローチャート図である。会議が開始されると、
図5に示すように話者Ha、Hb、Hcは時系列にそれぞれ音声を発して、これらが合成された1つのアナログ音データSが得られる。なお、このアナログ音データSは、予め集音部2を介して録音し、記録された電子ファイルのアナログ音データSであってもよく、
図1に示すように直接、集音部2を介して処理部3に入力したアナログ音データSであってもよい。
【0048】
ステップST21において、入力したアナログ音データSに対して、
図2のステップST11からステップST13までのデジタル化及びノイズ除去処理を行い、デジタル音声データVを生成する。これらのデジタル化処理及びノイズ除去処理により、例えば、エアコン音、椅子を動かした音や、救急車のサイレン音等が混入したアナログ音データSに対して、それらの雑音、騒音をノイズとして除去したデジタル音声データVを生成することが可能となる。
【0049】
図5は時間t11から録音を開始したデジタル音声データVを分かり易くするために簡略した波状形で表した説明図である。例えば、最初に話者Haが「これから会議を始めます。」と発言し、次に話者Hbが「了解です。」、更に話者Hcが「分かりました。」と続き、その後に話者Haが「それでは議題に移ります。」と発言したときの音声の波形である。
【0050】
続いて、
図4のステップST22に移行し、デジタル音声データVの発言と発言の間の無音状態である無音時間mを計測する。例えば、無音時間mの閾値を1秒と設定し、1秒以上の無音時間m1が発生すると、ステップST23に移行する。ステップST22で1秒以下の無音時間m0があると、ステップST22の処理を繰り返して行う。
【0051】
ステップST23では、無音時間m1により区切れた直前のデジタル音声データVに対して、話者Hが複数人存在するか否かの判定を行う。この話者Hを識別する処理は、所定間隔でサンプリングしたデジタル音声データVに対して、話者Hごとに中心周波数が異なることを利用する。中心周波数の変位から、無音時間m1により区切られた直前の音声データの話者Hの人数を判別することが可能である。
【0052】
話者Hの人数を判別した後にステップST24に移行し、話者Hが複数である場合はステップST25に移行し、話者Hが単数の場合は、ステップST25を省略してステップST26に移行する。
【0053】
図5に示すデジタル音声データVでは、時間t12、t13、t14、t15で区切られた直前のデジタル音声データVは、何れも1人ずつの周波数特性しかないので、ステップST24では、ステップST25を省略してステップST26に移行する。
【0054】
ステップST25の処理は後述し、先にステップST26における処理を説明すると、区切られたデジタル音声データVは、
図6に示すように話者Haが最初に発言した「これから会議を始めます。」のデジタル音声ファイルF1:t11、話者Hbが発言した「了解です。」のデジタル音声ファイルF2:t12、話者Hcが発言した「分かりました。」のデジタル音声ファイルF3:t13、話者Haが発言した「それでは議題に移ります。」のデジタル音声ファイルF4:t14として保存される。なお、これらのデジタル音声ファイルFに対して、処理部3は誰の発言であるかを特定することはできない。
【0055】
そして、生成された各デジタル音声ファイルFを、文字変換サーバ5及び話者特定サーバ6に送信する。送信後にステップST22に戻り、ステップST22~ステップST26の処理を繰り返す。
【0056】
なお、
図3のフローチャートに示した閾値P1、P2の初期設定の処理は、話者Haの「これから会議を始めます。」のアナログ音データSを利用して設定することも可能である。録音を開始した無音の時点から時間t12までのアナログ音データSに対して、閾値P1、P2を設定することが可能である。
【0057】
併せて、無音時間mにより区切られる会話ごとのアナログ音データSの始点は、文字変換サーバ5において「おれから会議を始めます。」との誤変換を防止するために、時間t11より数百msec前を始点として区切り、区切られたデジタル音声データVに対するデジタル音声ファイルF1:t11を作成する。
【0058】
また、
図5は前述のように話者Ha、Hb、Hcが会話をする際に、最初の話者Haの会話が終わった後に、無音時間m1が発生した後に、次の話者Hbの音声が開始する音声データを示しているが、
図7は話者Ha、Hb、Hcの会話の間に無音時間が閾値以下の無音時間m0であった場合におけるデジタル音声データVを簡略した波形で表した説明図である。
【0059】
図7に示す話者Haの「それでは議題に移ります。」との発言後に、最初の無音時間m1が発生した場合では、ステップST23において、時間t21で区切られた直前のデジタル音声データV’に対して、所定時間でサンプリングして中心周波数を測定する。そして、ステップST24において中心周波数が複数の場合には、つまり話者Hが複数の場合にはステップST25に移行する。
【0060】
ステップST25では、判別した話者Hごとのデジタル音声ファイルFを生成する。
図8は時間t25で無音時間m1が発生することで区切られた直前のデジタル音声データV’に対して、中心周波数の変位から話者Hを判別する場合の説明図である。このデジタル音声データV’の中心周波数を判別することで、時間t21から開始するデジタル音声データVH1、時間t22から開始するデジタル音声データVH2、時間t23から開始するデジタル音声データVH3に区分することができる。
【0061】
なお、デジタル音声データV’の一部に2人の話者Hが重複して発声して録音されている場合であっても、サンプリング周波数を高くすることで、各サンプリング時間を占有する話者Hを特定することができ、重複して発声しているデジタル音声データV’から個々のデジタル音声データVへ区分けすることが可能である。
【0062】
更に、2つの発言から成るデジタル音声データVH1からは、発言間に無音時間m1が存在することから、2つのデジタル音声ファイルF1:t21とF4:t24を生成することができる。
【0063】
以上の判別処理を行うことで、
図6に示すデジタル音声ファイルF1:t11~F4:t14と同様なデジタル音声ファイルF1:t21~F4:t24を生成することができる。なお、処理部3ではこれらのデジタル音声ファイルF1:t21~F4:t24について話者が異なることは判別できても、誰の発言であるのかを特定することはできない。
【0064】
また、デジタル音声データVH1から2つのデジタル音声ファイルFを生成する処理を行わず、1つのデジタル音声ファイルF1:t21のみを生成するようにしてもよい。この場合は、デジタル音声ファイルF1:t21の後半の発言と、デジタル音声ファイルF2:t22、F3:t23の発言との時系列を明確にするため、時間t21~t24の情報を各音声ファイルに記憶する必要がある。つまり、デジタル音声ファイルF1:t21に時間t21、t24を記憶することで、後述するモニタ部4に各発言を時間t21~t24の時系列で表示することができる。
【0065】
図5に示すデジタル音声データVと
図7に示すデジタル音声データVの処理部3における処理の差は、
図5のデジタル音声データVにおいては無音時間m1が発生する度に、デジタル音声ファイルFが生成され、
図6のデジタル音声ファイルF1:t11~F4:t14は上から順に生成されて、生成される都度ステップST26に移行することになる。これに対して、
図7のデジタル音声データV’においてはデジタル音声ファイルF1:t21~F4:t24がほぼ同時に生成され、ステップST26に移行することになる。
【0066】
ステップST26において、生成されたデジタル音声ファイルFを文字変換サーバ5に送信すると、デジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24は、それぞれテキスト化された文章ファイルW1:t11~W4:t14及び文章ファイルW1:t21~W4:t24に変換され、音声認識システム1はこれらのファイルを受信することになる。
【0067】
また、生成されたデジタル音声ファイルFを話者特定サーバ6に送信する際には、デジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24に加えて、会話を構成する話者Ha~HcのユーザIDを併せて送信する。話者特定サーバ6は、処理部3から送信されたデジタル音声ファイルF1:t11~F4:t14及びデジタル音声ファイルF1:t21~F4:t24に対して、併せて送られてきたユーザIDの中からそれぞれの話者Hを特定し、処理部3は特定結果の話者Ha~Hcをデジタル音声ファイルFに対応して受信する。
【0068】
そして処理部3では、デジタル音声ファイルFに文章ファイルWと特定結果の話者Hを対応付けて、モニタ部4に時系列順に表示する。つまり、話者Hが特定できなかった「これから会議を始めます。」のデジタル音声ファイルF1:t11は、「これから会議を始めます。」の文章ファイルW1:t11と、話者Haが特定されて、
図9に示すように表示される。
【0069】
デジタル音声ファイルFは、ファイル名末尾が時間tに対する通し番号として保存され、
図9に示すように文章ファイルW及び話者Hは時間tの時系列順に表示される。なお、
図9では話者Hを識別し易くするために、話者Haを左側に表示し、話者Hb、Hcを右側に表示している。
【0070】
このように各ファイルの生成、クラウドサービスへの送受信に多少のタイムラグが発生するものの、ほぼリアルタイムで最新のデジタル音声ファイルFに対する発言日時、文章ファイルW及び話者Hがモニタ部4の画面下部から順に表示されることになる。
【0071】
なお、デジタル音声ファイルFのファイル名を基に表示する順を決定しているが、ファイル名以外にも時間t11~t14をファイルのヘッダ等に発言日時として記憶することで、それらの情報を基に時系列で表示することができる。
【0072】
また、表示される発言日時に代えて、画面に表示処理した処理日時を表示するようにしてもよい。この場合は、上述の発言日時を記憶せずに、処理部3からデジタル音声ファイルFを生成した順でクラウドサービスに送信し、受信することを条件として次のデジタル音声ファイルFをクラウドサービスに送るようにしてもよい。
【0073】
図9に示すように、話者会話形式として文章ファイルWと話者Hの特定結果とが併せて表示することで後日に、誰がどのような発言をしたのかを容易に確認することが可能である。また、
図9に示す画面を他の端末装置を接続したPCや携帯端末で閲覧可能とすることで、ほぼリアルタイムで他の場所から会議の内容を目視で確認することができる。
【0074】
特に、別の場所で会議を音で聞いている場合には、話者Hを特定できずに、全体の内容を把握し難いのに対して、音声認識システム1では話者と発言内容とを文字で確認できるので会議内容を把握し易い。
【0075】
更には、音声を出力することが困難な場所での会議内容の確認や、聴覚障害者による会議内容を確認する際に、容易に会議の内容を把握することができる。画面のスクロールにより過去の発言を簡単に確認することもできる。
【0076】
また、音声認識システム1のテーブル等の話者Ha~Hcの中央に設置した集音部2により、集音したアナログ音データSを用いて説明したが、別の場所等で録音した音声を含むアナログ音データSのファイルをネットワークや記憶媒体等を経由して記憶部3cに記憶させて、又は直接記憶媒体等から読み込ませて演算部3aにより
図3、
図4に示すフローチャートの処理を行うようにしてもよい。
【0077】
このように、音声認識システム1はインターネットINを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ5及び話者特定サーバ6を利用することで、文字変換機能及び話者特定機能を設けることなく、精度のよい文字変換及び話者特定を行うことができる。
【0078】
また、処理部3により、マイク等の集音部2より入力された音声を含むアナログ音データS、又は予め電子ファイルとして集音部2を介して録音し、記録された音声を含むアナログ音データSを、文字変換サーバ5が認識し易いビットレートに即してデジタル化すると共に、文字変換サーバ5の変換精度を高めるために、雑音及び騒音を除去する閾値P1、P2の初期設定を行い、ノイズ除去の処理を行う。これらの閾値P1、P2の初期設定処理を行うことで、精度良くデジタル音声データVをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。更に、録音した音声ファイルに対しても事後的にテキスト化することができるので、迅速な会議内容の把握に役立てることが可能である。
【符号の説明】
【0079】
1 音声認識システム
2 集音部
3 処理部
4 モニタ部
5 文字変換サーバ
6 話者特定サーバ
IN インターネット