特許7296214 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三浦　浩之の特許一覧

特許7296214音声認識システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-14

(45)【発行日】2023-06-22

(54)【発明の名称】音声認識システム

(51)【国際特許分類】

G10L 15/20 20060101AFI20230615BHJP

G10L 15/30 20130101ALI20230615BHJP

G10L 15/04 20130101ALI20230615BHJP

G10L 17/00 20130101ALI20230615BHJP

G10L 15/22 20060101ALI20230615BHJP

G10L 15/00 20130101ALI20230615BHJP

【ＦＩ】

G10L15/20 370D

G10L15/30

G10L15/04 300A

G10L17/00 200Z

G10L15/22 460Z

G10L15/00 200B

【請求項の数】 7

(21)【出願番号】P 2019021924

(22)【出願日】2019-02-08

(65)【公開番号】P2020129080

(43)【公開日】2020-08-27

【審査請求日】2022-02-07

(73)【特許権者】

【識別番号】518363532

【氏名又は名称】三浦浩之

(74)【代理人】

【識別番号】100181928

【弁理士】

【氏名又は名称】日比谷洋平

(74)【代理人】

【識別番号】100075948

【弁理士】

【氏名又は名称】日比谷征彦

(72)【発明者】

【氏名】三浦浩之

【審査官】堀洋介

(56)【参考文献】

【文献】特開平０７－０２０８９２（ＪＰ，Ａ）

【文献】特開２０１３－１８２１５０（ＪＰ，Ａ）

【文献】特開２０１２－０７３３６１（ＪＰ，Ａ）

【文献】特開昭５９－１２４３９９（ＪＰ，Ａ）

【文献】特開２０１３－２００４２３（ＪＰ，Ａ）

【文献】特開２０００－０２９４８６（ＪＰ，Ａ）

【文献】特開２０００－３５２９９５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、
インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、
前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第１の閾値と、騒音を除去する第２の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成し、
インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザＩＤ情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする音声認識システム。

【請求項2】

前記第１の閾値は、前記話者が発声していない状態において、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項１に記載の音声認識システム。

【請求項3】

前記第２の閾値は、前記話者が発声した際に、前記所定のビットレートに則してデジタル化した量子化値に基づいて設定されることを特徴とする請求項１又は請求項２に記載の音声認識システム。

【請求項4】

前記所定のビットレートは、人間の発声の周波数帯域を中心に変換する値であることを特徴とする請求項１～３の何れか１項に記載の音声認識システム。

【請求項5】

前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて前記デジタル音声ファイルを生成することを特徴とする請求項１～４の何れか１項に記載の音声認識システム。

【請求項6】

前記話者の発言と発言との間の無音状態が所定時間以上の場合に、前記発言の始点より手前の時点から前記デジタル音声データを区切り、区切れた直前の前記デジタル音声データに基づいて、前記デジタル音声ファイルを生成することを特徴とする請求項５に記載の音声認識システム。

【請求項7】

前記モニタ部は前記デジタル音声ファイルに対応する前記文章ファイルと前記特定結果の前記話者とを対応付けて時系列順に表示することを特徴とする請求項１に記載の音声認識システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、話者の発話に対して、認識精度の高い音声認識システムに関するものである。

【背景技術】

【0002】

マイクロホンから音声入力された音声データをテキスト化する音声認識装置は、広く普及している。そして、特許文献１には話者ごとに発声特徴を学習させて、音声認識の精度を高める音声認識装置が開示されている。

【0003】

また、様々なクラウドサービスにおいて、ディープラーニング（深層学習）を利用した学習システムが構築されている。これらの学習システムは、インターネットを介して多数のユーザから収集されるデータを基に、ニューラルネットワークベースの処理装置で自己学習することにより、データの分析や解析を行う。

【0004】

人間からの指示を待たずに自己学習してゆくことで、効率的に処理装置の出力精度を高めることが可能であり、ディープラーニングを活用したクラウドサービスによってデータ分析された分析結果をユーザは利用している。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００２－２１５１８４８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、特許文献１の音声認識装置は、マイクロホンから収集される音声のみから学習しているため、収集できる音声データに限界がある。また、上述のクラウドサービスでは演算処理部を並列に多数配置するような大規模のシステムが構築されているのに対して、特許文献１の音声認識装置はシステム規模が小さいものとなってしまう。従って、特許文献１の音声認識装置は学習精度の向上が遅く、テキスト化、話者特定の精度がなかなか向上しないという問題がある。

【0007】

また、マイクロホンに入力される音声は、様々な録音環境下で収集されるため、処理装置により音声の分析、解析を行ってテキスト化する際に、同じ話者が同じ文章を読み上げたとしても、録音環境によって音声認識の精度にばらつきが生じていた。

【0008】

本発明の目的は、上述の課題を解決し、インターネットを介したクラウドサービスである学習型サーバを利用することで、収集した音声を精度良くテキスト化すると共に、精度良く話者の特定を行う音声認識システムを提供することにある。

【課題を解決するための手段】

【0009】

上記目的を達成するための本発明に係る音声認識システムは、話者が発声した音声を含むアナログ音データに基づいて、デジタル音声データから成るデジタル音声ファイルを生成する処理部と、該処理部の処理結果を表示するモニタ部とから構成され、インターネットを介して接続され、自己学習機能を備える文字変換サーバに対して、前記デジタル音声ファイルを送信し、前記文字変換サーバから前記デジタル音声ファイルをテキスト化した文章ファイルを受信し、該文章ファイルを前記モニタ部に表示する音声認識システムであって、前記処理部は、前記アナログ音データに対して、所定のビットレートでデジタル化すると共に、雑音を除去する第１の閾値と、騒音を除去する第２の閾値に基づいて、ノイズを除去して前記デジタル音声データを生成し、インターネットを介して接続され、自己学習機能を備えた話者特定サーバに対して、前記デジタル音声ファイル及び前記話者のユーザＩＤ情報を送信し、前記デジタル音声ファイルに対する前記話者の特定結果を受信し、前記文章ファイルと前記話者の特定結果とを併せて前記モニタ部に表示することを特徴とする。

【発明の効果】

【0010】

本発明に係る音声認識システムによれば、マイク等の集音部より入力された音声を含むアナログ音データ、又は予め電子ファイルとして集音部を介して録音し、記録された音声を含むアナログ音データを、インターネット上に設けた文字変換サーバが認識し易いビットレートに即してデジタル化すると共に、文字変換サーバの変換精度を高めるために、雑音及び騒音を除去する閾値の初期設定を行い、ノイズ除去の処理を行う。閾値の初期設定処理を行うことで、精度良くデジタル音声データをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。

【図面の簡単な説明】

【0011】

【図1】音声認識システムのシステム構成図である。

【図2】アナログ音データをデジタル化した際の説明図である。

【図3】閾値の微調整を行う初期設定処理のフローチャート図である。

【図4】音声データから音声ファイルを生成する場合のフローチャート図である。

【図5】話者の音声データを波形で表した説明図である。

【図6】話者ごとの音声データの一覧図である。

【図7】別の話者の音声データを波形で表した説明図である。

【図8】話者ごとの音声データを判別する説明図である。

【図9】モニタ部に表示されるテキスト文の説明図である。

【発明を実施するための形態】

【0012】

本発明を図示の実施例に基づいて詳細に説明する。図１は音声認識システム１のシステム構成図であり、例えば話者Ｈａ、Ｈｂ、Ｈｃの中心にマイク等である集音部を配置している。

【0013】

音声認識システム１は、周囲の音を時間に対して連続的に変化する電圧値として入力する集音部２と、この集音部２から入力した連続した電圧値であるアナログ音データＳのデジタル化処理及びノイズ除去処理を行うことでデジタル音声ファイルＦを生成し、このデジタル音声ファイルＦを文字変換サーバ及び話者特定サーバに送信し、文章ファイルＷと話者Ｈの特定結果を受信する処理部３と、処理部３の処理結果を表示するモニタ部４から構成される。

【0014】

音声認識システム１には、市販のＰＣ、スマートフォンやタブレット端末を用いてもよく、集音部２として例えば外付けのマイク等を使用する。この集音部２をテーブル等の話者間の中央に設置することになる。

【0015】

処理部３は演算部３ａ、メモリ部３ｂ及び記憶部３ｃから成り、記憶部３ｃに記憶したソフトウェアを起動することで、デジタル化処理や各種のデータ加工を行う。この処理部３と集音部２とは有線又は無線で接続されている。

【0016】

モニタ部４は処理部３と接続されており、例えば液晶ディスプレイからなり、モニタ部４に処理部３で行う各種処理結果等を表示することができる。なお、モニタ部４はネットワークを介して接続した別のＰＣや携帯端末のモニタ等であってもよい。

【0017】

文字変換サーバ５は、インターネットＩＮ上に存在するニューラルネットワークベースのＡＰＩ（Application Programming Interface）であり、音声認識システム１とインターネットＩＮを介して接続されている。

【0018】

文字変換サーバ５では、音声認識システム１の処理部３からデジタル音声ファイルＦがインターネットＩＮを介してアップロードされると、文章ファイルＷに変換するテキスト化処理を行い、処理部３は生成した文章ファイルＷをダウンロードすることができる。数分間に渡る長いデジタル音声ファイルＦをアップロードすると、テキスト化処理に時間を要するため、デジタル音声データＶを数１０秒以下に区切ったデジタル音声ファイルＦを、文字変換サーバ５にアップロードすることが好ましい。

【0019】

また、文字変換サーバ５は大量のユーザからアップロードされるデジタル音声ファイルＦを基にディープラーニングを行い、テキスト化処理を自己修正している。従って、時間が経過するにつれて、テキスト化処理の変換精度が向上することになる。

【0020】

同時に、文字変換サーバ５と別体である話者特定サーバ６は、インターネットＩＮ上に存在するニューラルネットワークベースのＡＰＩであり、音声認識システム１とインターネットＩＮを介して接続されている。

【0021】

この話者特定サーバ６では、予め話者Ｈごとに音声サンプルを登録しておき、音声認識システム１からデジタル音声ファイルＦを話者特定サーバ６にアップロードすると、登録している話者データに基づいて、デジタル音声ファイルＦの話者Ｈを特定することが可能である。例えば、話者Ｈａのデジタル音声ファイルＦをアップロードすると、話者Ｈａが既に話者特定サーバ６に登録されていれば、デジタル音声ファイルＦの声主は、話者Ｈａであると特定されることになる。また、話者特定サーバ６には多数の話者Ｈが登録されているため、登録しているユーザＩＤのグループをデジタル音声ファイルＦと共にアップロードすることで、効率的にグループ内のユーザＩＤから話者Ｈを認識することが可能である。

【0022】

この話者特定サーバ６も大量のユーザからアップロードされるデジタル音声ファイルＦを基に、ディープランニングを利用して自己学習によるデータ分析、解析を行いながら話者特定を行うため、時間が経過するにつれて話者特定の精度が向上する。

【0023】

例えば、複数の話者である話者Ｈａ、Ｈｂ、Ｈｃから成るグループ内の３人のユーザＩＤを、話者Ｈａ、Ｈｂ、Ｈｃの発声した音声を含むアナログ音データＳを変換したデジタル音声ファイルＦと共に、話者特定サーバ６にアップロードすることにより、各話者Ｈａ、Ｈｂ、Ｈｃの特定はグループ内の３人のユーザＩＤから選出されることになる。従って、話者特定サーバ６は話者特定の処理速度が速くなると共に、話者特定の精度が向上することになる。

【0024】

図１に示すように、例えば話者Ｈａ、Ｈｂ、Ｈｃにより会議を開始する際には、話者Ｈａ、Ｈｂ、Ｈｃの中心に１個の集音部２を配置し、この集音部２から入力されるアナログ音データＳを処理部３により随時に変換してデジタル音声ファイルＦを生成し、このデジタル音声ファイルＦを文字変換サーバ５及び話者特定サーバ６にアップロードすることになる。

【0025】

先ず、文字変換サーバ５に最も適したデジタル音声ファイルＦを送信するにあたり、話者Ｈａ、Ｈｂ、Ｈｃに対して、等間隔となる場所に集音部２を配置する。各話者Ｈから集音部２までの距離が等間隔であればよく、距離は机等の配置に応じて例えば１～３ｍの範囲で適宜に設定すればよい。

【0026】

このようにして配置した集音部２から入力される、時間に対して連続的に変化する電圧値であるアナログ音データＳを、以下の（１）式のビットレートの不連続の値に変換することでデジタル化を行う。
ビットレート＝サンプリング周波数×量子化ビット数×チャネル数（１）

【0027】

アナログ音データＳに対して、文字変換サーバ５が認識し易いビットレートになるように各値の設定及び後述するノイズ除去のデータ加工を行うことになる。

【0028】

（１）式のサンプリング周波数は、大きい値ほど高い音域まで記録可能であるが、音声認識処理においては音声として入力される周波数帯域のみを集音できればよいので、サンプリング周波数の設定は余分な周波数領域をカットする４ＫＨｚ、又は８ＫＨｚ程度に設定することが好ましい。

【0029】

サンプリング周波数の設定が時間方向に対する間隔の設定であるのに対して、振幅方向に対する間隔の設定である量子化ビット数の設定を行う。量子化ビット数の設定を１６ビットとすることで、０～６５５３５の範囲で電圧値を量子化、つまり数値化することができる。

【0030】

チャネル数の設定はモノラルである１が好ましく、このようにして得られる（１）式のビットレートは、サンプリング周波数が４ＫＨｚの場合では６４Ｋｂｐｓ、８ＫＨｚの場合では１２８Ｋｂｐｓとなり、人間の発声の周波数帯域を中心に変換されることになる。

【0031】

図２は集音部２から入力されたアナログ音データＳである電圧値を（１）式のビットレートに即して、デジタル化した際の説明図であり、時間軸である横軸における各出力値の間隔がサンプリング周波数に対応し、縦軸が音量に相当する電圧値を量子化した量子化値に対応している。

【0032】

話者Ｈａ、Ｈｂ、Ｈｃの何れか一人の音声を利用して、設定したビットレートに変換した量子化値に対して、更にノイズ除去のための閾値Ｐ１、Ｐ２を設定する処理を行う。これらの閾値Ｐ１、Ｐ２の初期設定を行い、ノイズ除去の処理を行うことで、アップロードするデジタル音声ファイルＦを文字変換サーバ５及び話者特定サーバ６が認識し易い、デジタル音声データＶとして生成することができるようになる。

【0033】

ノイズ除去の手順として、先ず話者Ｈが発話していない状態で数秒間を経過させて、量子化値の最高値を閾値Ｐ１として記憶する。この発話していない状態の閾値Ｐ１である量子化値は、室内のエアコンの音、パソコンのファン音等や、人間の耳では聞き取れない音である雑音を量子化した値であり、一定の範囲の時間変化の少ない値が得られる。

【0034】

続いて、発話していない時間の経過後に、話者Ｈが所定期間、発話することで、最大の量子化値Ｒを抽出することができ、この量子化値Ｒに所定割合を乗算した値を閾値Ｐ２と設定する。この所定割合は例えば１．２程度が好ましい。

【0035】

閾値Ｐ１を下回る量子化値は、上述の雑音が該当し、閾値Ｐ２を上回る量子化値は、騒音が該当することになる。これらの雑音及び騒音から成るノイズを除去することで、図２に示す矩形の点線で囲まれた閾値Ｐ１から閾値Ｐ２の間に含まれる量子化値のみから成るデジタル音声データＶを生成することができる。

【0036】

そして、図２に示す閾値Ｐ２を上回る騒音Ｚの量子化値は除去され、集音部２から等距離で配置している話者Ｈａ、Ｈｂ、Ｈｃの会話のみがデジタル音声データＶとして生成され、このデジタル音声データＶから成るデジタル音声ファイルＦが文字変換サーバ５及び話者特定サーバ６に送信されることになる。

【0037】

図３はデジタル音声ファイルＦの作成に際して、処理部３により閾値Ｐ１及び閾値Ｐ２の微調整を行う初期設定処理の詳細を示したフローチャート図である。この初期設定処理では、話者Ｈは予め用意した原稿を読み上げて、文字変換サーバ５により認識した文章と読み上げた原稿とを比較して、閾値Ｐ１及び閾値Ｐ２の微調整を行う。このようにすることで、更に精度良く文字変換サーバ５による文字認識が可能となる。

【0038】

ステップＳＴ１１において、先ず、話者Ｈは発話しない時間の経過後に、用意した原稿である文章Ｔｘ０を読み上げて、集音部２に入力する。高音であって会話上で音量が大きい「サシスセソ」を含むと共に、低音であって音量が小さい「ン」を含む文章Ｔｘ０を、例えば「コンニチワ、サシスセソ、シンシントユキガフリツモル」という文字列を予め用意した原稿として、読み上げる。

【0039】

続いて、ステップＳＴ１２において、集音部２を介して入力された文章Ｔｘ０を読み上げた基準アナログ音データＳ０に対して、設定したビットレートによる前述のデジタル化処理を行う。このデジタル変換処理により、図２に示すような量子化値が得られる。

【0040】

続いてステップＳＴ１３に移行し、量子化値に対して閾値Ｐ１、Ｐ２を設定し、閾値Ｐ１から閾値Ｐ２の間に含まれる量子化値であるデジタル音声ファイルＦ０を作成する。なお、最初の発話しない時間帯の量子化値に基づいて、雑音を除去する閾値Ｐ１を設定し、読み上げた文章Ｔｘ０内の最大の量子化値に基づいて騒音を除去する閾値Ｐ２を設定する。

【0041】

次にステップＳＴ１４に移行し、デジタル音声ファイルＦ０を文字変換サーバ５にインターネットＩＮを介してアップロードする。数秒後に文字変換サーバ５によってテキスト化された文章ファイルＷ１を受信し、ステップＳＴ１５において文章ファイルＷ１の文章Ｔｘ１と、予め読み上げた文章Ｔｘ０との比較を行う。一致する場合は、ステップＳＴ１６に移行し、文字変換サーバ５及び話者特定サーバ６に対する閾値Ｐ１、Ｐ２を記憶部３ｃに記憶して初期設定処理は完了する。

【0042】

ステップＳＴ１５において、文章Ｔｘ０及び文章Ｔｘ１の比較が一致しなかった場合には、ステップＳＴ１７に移行する。ステップＳＴ１７では、加工音データＳ１に対して、ステップＳＴ１３の閾値Ｐ１、Ｐ２を設定の微調整を行う。これは、録音環境等により文字変換サーバ５の認識率が変化するため、文字変換サーバ５が認識し易い閾値Ｐ１、Ｐ２を抽出するためである。

【0043】

ステップＳＴ１７において、文章Ｔｘ０と文章Ｔｘ１とを比較した結果、最初の文字が一致しない場合、例えば文章Ｔｘ０が「オンニチハ」と認識された場合には、発音始めの量子化値を必要以上にカットしていると考えられるので、閾値Ｐ１を数％下げる処理を行う。また、「サシスセソ」に加工音データＳ１に対して、認識率が悪い場合には、閾値Ｐ２を更に数％上げる処理を行う。このようにして調整した閾値Ｐ１、Ｐ２に基づいて、ノイズ除去処理を行い、デジタル音声ファイルＦ０を作成する。

【0044】

そして、ステップＳＴ１４でデジタル音声ファイルＦ０を再度、文字変換サーバ５に送信し、ステップＳＴ１５で、再びデジタル音声ファイルＦ０に対するテキスト化した文章Ｔｘ２と、読み上げた文章Ｔｘ０とを比較する。

【0045】

文章Ｔｘ０及び文章Ｔｘ２が再度一致しなかった場合は、ステップＳＴ１７に戻る。このステップＳＴ１７の修正処理には、比較した文章の一致率を記憶しておき、文章Ｔｘ０及び文章Ｔｘｎが一致するまで閾値Ｐ１、Ｐ２の上下する割合を適宜に調整する。

【0046】

このようにして、閾値Ｐ１、Ｐ２に基づく雑音、騒音の除去する処理を、ステップＳＴ１４、ステップＳＴ１５、ステップＳＴ１７で繰り返すことで、文字変換サーバ５による認識率が高いデジタル音声データＶから成るデジタル音声ファイルＦを作成することが可能となり、微調整を行った閾値Ｐ１、Ｐ２を記憶部３ｃに記憶して、初期設定処理は完了する。

【0047】

図４は初期設定を完了した後に、話者Ｈａ、Ｈｂ、Ｈｃによって会議を開始した場合の処理部３の処理のフローチャート図である。会議が開始されると、図５に示すように話者Ｈａ、Ｈｂ、Ｈｃは時系列にそれぞれ音声を発して、これらが合成された１つのアナログ音データＳが得られる。なお、このアナログ音データＳは、予め集音部２を介して録音し、記録された電子ファイルのアナログ音データＳであってもよく、図１に示すように直接、集音部２を介して処理部３に入力したアナログ音データＳであってもよい。

【0048】

ステップＳＴ２１において、入力したアナログ音データＳに対して、図２のステップＳＴ１１からステップＳＴ１３までのデジタル化及びノイズ除去処理を行い、デジタル音声データＶを生成する。これらのデジタル化処理及びノイズ除去処理により、例えば、エアコン音、椅子を動かした音や、救急車のサイレン音等が混入したアナログ音データＳに対して、それらの雑音、騒音をノイズとして除去したデジタル音声データＶを生成することが可能となる。

【0049】

図５は時間ｔ１１から録音を開始したデジタル音声データＶを分かり易くするために簡略した波状形で表した説明図である。例えば、最初に話者Ｈａが「これから会議を始めます。」と発言し、次に話者Ｈｂが「了解です。」、更に話者Ｈｃが「分かりました。」と続き、その後に話者Ｈａが「それでは議題に移ります。」と発言したときの音声の波形である。

【0050】

続いて、図４のステップＳＴ２２に移行し、デジタル音声データＶの発言と発言の間の無音状態である無音時間ｍを計測する。例えば、無音時間ｍの閾値を１秒と設定し、１秒以上の無音時間ｍ１が発生すると、ステップＳＴ２３に移行する。ステップＳＴ２２で１秒以下の無音時間ｍ０があると、ステップＳＴ２２の処理を繰り返して行う。

【0051】

ステップＳＴ２３では、無音時間ｍ１により区切れた直前のデジタル音声データＶに対して、話者Ｈが複数人存在するか否かの判定を行う。この話者Ｈを識別する処理は、所定間隔でサンプリングしたデジタル音声データＶに対して、話者Ｈごとに中心周波数が異なることを利用する。中心周波数の変位から、無音時間ｍ１により区切られた直前の音声データの話者Ｈの人数を判別することが可能である。

【0052】

話者Ｈの人数を判別した後にステップＳＴ２４に移行し、話者Ｈが複数である場合はステップＳＴ２５に移行し、話者Ｈが単数の場合は、ステップＳＴ２５を省略してステップＳＴ２６に移行する。

【0053】

図５に示すデジタル音声データＶでは、時間ｔ１２、ｔ１３、ｔ１４、ｔ１５で区切られた直前のデジタル音声データＶは、何れも１人ずつの周波数特性しかないので、ステップＳＴ２４では、ステップＳＴ２５を省略してステップＳＴ２６に移行する。

【0054】

ステップＳＴ２５の処理は後述し、先にステップＳＴ２６における処理を説明すると、区切られたデジタル音声データＶは、図６に示すように話者Ｈａが最初に発言した「これから会議を始めます。」のデジタル音声ファイルＦ１：ｔ１１、話者Ｈｂが発言した「了解です。」のデジタル音声ファイルＦ２：ｔ１２、話者Ｈｃが発言した「分かりました。」のデジタル音声ファイルＦ３：ｔ１３、話者Ｈａが発言した「それでは議題に移ります。」のデジタル音声ファイルＦ４：ｔ１４として保存される。なお、これらのデジタル音声ファイルＦに対して、処理部３は誰の発言であるかを特定することはできない。

【0055】

そして、生成された各デジタル音声ファイルＦを、文字変換サーバ５及び話者特定サーバ６に送信する。送信後にステップＳＴ２２に戻り、ステップＳＴ２２～ステップＳＴ２６の処理を繰り返す。

【0056】

なお、図３のフローチャートに示した閾値Ｐ１、Ｐ２の初期設定の処理は、話者Ｈａの「これから会議を始めます。」のアナログ音データＳを利用して設定することも可能である。録音を開始した無音の時点から時間ｔ１２までのアナログ音データＳに対して、閾値Ｐ１、Ｐ２を設定することが可能である。

【0057】

併せて、無音時間ｍにより区切られる会話ごとのアナログ音データＳの始点は、文字変換サーバ５において「おれから会議を始めます。」との誤変換を防止するために、時間ｔ１１より数百ｍｓｅｃ前を始点として区切り、区切られたデジタル音声データＶに対するデジタル音声ファイルＦ１：ｔ１１を作成する。

【0058】

また、図５は前述のように話者Ｈａ、Ｈｂ、Ｈｃが会話をする際に、最初の話者Ｈａの会話が終わった後に、無音時間ｍ１が発生した後に、次の話者Ｈｂの音声が開始する音声データを示しているが、図７は話者Ｈａ、Ｈｂ、Ｈｃの会話の間に無音時間が閾値以下の無音時間ｍ０であった場合におけるデジタル音声データＶを簡略した波形で表した説明図である。

【0059】

図７に示す話者Ｈａの「それでは議題に移ります。」との発言後に、最初の無音時間ｍ１が発生した場合では、ステップＳＴ２３において、時間ｔ２１で区切られた直前のデジタル音声データＶ’に対して、所定時間でサンプリングして中心周波数を測定する。そして、ステップＳＴ２４において中心周波数が複数の場合には、つまり話者Ｈが複数の場合にはステップＳＴ２５に移行する。

【0060】

ステップＳＴ２５では、判別した話者Ｈごとのデジタル音声ファイルＦを生成する。図８は時間ｔ２５で無音時間ｍ１が発生することで区切られた直前のデジタル音声データＶ’に対して、中心周波数の変位から話者Ｈを判別する場合の説明図である。このデジタル音声データＶ’の中心周波数を判別することで、時間ｔ２１から開始するデジタル音声データＶＨ１、時間ｔ２２から開始するデジタル音声データＶＨ２、時間ｔ２３から開始するデジタル音声データＶＨ３に区分することができる。

【0061】

なお、デジタル音声データＶ’の一部に２人の話者Ｈが重複して発声して録音されている場合であっても、サンプリング周波数を高くすることで、各サンプリング時間を占有する話者Ｈを特定することができ、重複して発声しているデジタル音声データＶ’から個々のデジタル音声データＶへ区分けすることが可能である。

【0062】

更に、２つの発言から成るデジタル音声データＶＨ１からは、発言間に無音時間ｍ１が存在することから、２つのデジタル音声ファイルＦ１：ｔ２１とＦ４：ｔ２４を生成することができる。

【0063】

以上の判別処理を行うことで、図６に示すデジタル音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４と同様なデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４を生成することができる。なお、処理部３ではこれらのデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４について話者が異なることは判別できても、誰の発言であるのかを特定することはできない。

【0064】

また、デジタル音声データＶＨ１から２つのデジタル音声ファイルＦを生成する処理を行わず、１つのデジタル音声ファイルＦ１：ｔ２１のみを生成するようにしてもよい。この場合は、デジタル音声ファイルＦ１：ｔ２１の後半の発言と、デジタル音声ファイルＦ２：ｔ２２、Ｆ３：ｔ２３の発言との時系列を明確にするため、時間ｔ２１～ｔ２４の情報を各音声ファイルに記憶する必要がある。つまり、デジタル音声ファイルＦ１：ｔ２１に時間ｔ２１、ｔ２４を記憶することで、後述するモニタ部４に各発言を時間ｔ２１～ｔ２４の時系列で表示することができる。

【0065】

図５に示すデジタル音声データＶと図７に示すデジタル音声データＶの処理部３における処理の差は、図５のデジタル音声データＶにおいては無音時間ｍ１が発生する度に、デジタル音声ファイルＦが生成され、図６のデジタル音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４は上から順に生成されて、生成される都度ステップＳＴ２６に移行することになる。これに対して、図７のデジタル音声データＶ’においてはデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４がほぼ同時に生成され、ステップＳＴ２６に移行することになる。

【0066】

ステップＳＴ２６において、生成されたデジタル音声ファイルＦを文字変換サーバ５に送信すると、デジタル音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及びデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４は、それぞれテキスト化された文章ファイルＷ１：ｔ１１～Ｗ４：ｔ１４及び文章ファイルＷ１：ｔ２１～Ｗ４：ｔ２４に変換され、音声認識システム１はこれらのファイルを受信することになる。

【0067】

また、生成されたデジタル音声ファイルＦを話者特定サーバ６に送信する際には、デジタル音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及びデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４に加えて、会話を構成する話者Ｈａ～ＨｃのユーザＩＤを併せて送信する。話者特定サーバ６は、処理部３から送信されたデジタル音声ファイルＦ１：ｔ１１～Ｆ４：ｔ１４及びデジタル音声ファイルＦ１：ｔ２１～Ｆ４：ｔ２４に対して、併せて送られてきたユーザＩＤの中からそれぞれの話者Ｈを特定し、処理部３は特定結果の話者Ｈａ～Ｈｃをデジタル音声ファイルＦに対応して受信する。

【0068】

そして処理部３では、デジタル音声ファイルＦに文章ファイルＷと特定結果の話者Ｈを対応付けて、モニタ部４に時系列順に表示する。つまり、話者Ｈが特定できなかった「これから会議を始めます。」のデジタル音声ファイルＦ１：ｔ１１は、「これから会議を始めます。」の文章ファイルＷ１：ｔ１１と、話者Ｈａが特定されて、図９に示すように表示される。

【0069】

デジタル音声ファイルＦは、ファイル名末尾が時間ｔに対する通し番号として保存され、図９に示すように文章ファイルＷ及び話者Ｈは時間ｔの時系列順に表示される。なお、図９では話者Ｈを識別し易くするために、話者Ｈａを左側に表示し、話者Ｈｂ、Ｈｃを右側に表示している。

【0070】

このように各ファイルの生成、クラウドサービスへの送受信に多少のタイムラグが発生するものの、ほぼリアルタイムで最新のデジタル音声ファイルＦに対する発言日時、文章ファイルＷ及び話者Ｈがモニタ部４の画面下部から順に表示されることになる。

【0071】

なお、デジタル音声ファイルＦのファイル名を基に表示する順を決定しているが、ファイル名以外にも時間ｔ１１～ｔ１４をファイルのヘッダ等に発言日時として記憶することで、それらの情報を基に時系列で表示することができる。

【0072】

また、表示される発言日時に代えて、画面に表示処理した処理日時を表示するようにしてもよい。この場合は、上述の発言日時を記憶せずに、処理部３からデジタル音声ファイルＦを生成した順でクラウドサービスに送信し、受信することを条件として次のデジタル音声ファイルＦをクラウドサービスに送るようにしてもよい。

【0073】

図９に示すように、話者会話形式として文章ファイルＷと話者Ｈの特定結果とが併せて表示することで後日に、誰がどのような発言をしたのかを容易に確認することが可能である。また、図９に示す画面を他の端末装置を接続したＰＣや携帯端末で閲覧可能とすることで、ほぼリアルタイムで他の場所から会議の内容を目視で確認することができる。

【0074】

特に、別の場所で会議を音で聞いている場合には、話者Ｈを特定できずに、全体の内容を把握し難いのに対して、音声認識システム１では話者と発言内容とを文字で確認できるので会議内容を把握し易い。

【0075】

更には、音声を出力することが困難な場所での会議内容の確認や、聴覚障害者による会議内容を確認する際に、容易に会議の内容を把握することができる。画面のスクロールにより過去の発言を簡単に確認することもできる。

【0076】

また、音声認識システム１のテーブル等の話者Ｈａ～Ｈｃの中央に設置した集音部２により、集音したアナログ音データＳを用いて説明したが、別の場所等で録音した音声を含むアナログ音データＳのファイルをネットワークや記憶媒体等を経由して記憶部３ｃに記憶させて、又は直接記憶媒体等から読み込ませて演算部３ａにより図３、図４に示すフローチャートの処理を行うようにしてもよい。

【0077】

このように、音声認識システム１はインターネットＩＮを介して多数のユーザから収集されるデータを基に、自己学習によりデータ分析、解析を行うクラウドサービスである文字変換サーバ５及び話者特定サーバ６を利用することで、文字変換機能及び話者特定機能を設けることなく、精度のよい文字変換及び話者特定を行うことができる。

【0078】

また、処理部３により、マイク等の集音部２より入力された音声を含むアナログ音データＳ、又は予め電子ファイルとして集音部２を介して録音し、記録された音声を含むアナログ音データＳを、文字変換サーバ５が認識し易いビットレートに即してデジタル化すると共に、文字変換サーバ５の変換精度を高めるために、雑音及び騒音を除去する閾値Ｐ１、Ｐ２の初期設定を行い、ノイズ除去の処理を行う。これらの閾値Ｐ１、Ｐ２の初期設定処理を行うことで、精度良くデジタル音声データＶをテキスト化できると共に、会話内容をほぼリアルタイムでテキスト化することができる。更に、録音した音声ファイルに対しても事後的にテキスト化することができるので、迅速な会議内容の把握に役立てることが可能である。

【符号の説明】

【0079】

１音声認識システム
２集音部
３処理部
４モニタ部
５文字変換サーバ
６話者特定サーバ
ＩＮインターネット

【図1】