(58)【調査した分野】(Int.Cl.,DB名)
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する選択部と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間に対して音声認識処理を行う音声認識部と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、を備え、
前記時間軸調整部は、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付ける、
議事録生成装置。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する選択部と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する合成部と、
前記合成音声データの前記発話区間に対して音声認識処理を行う音声認識部と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、
を備える、
議事録生成装置。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、
コンピュータに、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける第1処理と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する第2処理と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間に対して音声認識処理を行う第3処理と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する第4処理と、を実行させる、
議事録生成プログラムであって、
前記第1処理では、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付ける、
議事録生成プログラム。
同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、
コンピュータに、
前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける第1処理と、
前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する第2処理と、
前記複数の音声データのそれぞれにおいて検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する第3処理と、
前記合成音声データの前記発話区間に対して音声認識処理を行う第4処理と、
前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する第5処理と、
を実行させる、
議事録生成プログラム。
【発明を実施するための形態】
【0011】
(第1の実施形態)
以下、
図1を参照して、本実施形態に係る議事録生成システムの構成について説明する。
【0012】
図1は、本実施形態に係る議事録生成システムの全体構成の一例を示す図である。
【0013】
本実施形態に係る議事録生成システムは、複数の音声入力装置m1〜m3、議事録生成装置10、閲覧・編集端末20を含んで構成される。そして、議事録生成システムは、会議室等、同一の音空間(同じ音源からの音が到達し得る空間を表す。以下同じ。)に配置された複数の音声入力装置m1〜m3で録音された音声データD1〜D3に基づいて、議事録を生成するものである。尚、同一の音空間は、同じ会議室内に限らず、テレビ会議のように遠隔会議システムによって接続された、複数の離隔した空間を含む。
【0014】
複数の音声入力装置m1〜m3は、例えば、ボイスレコーダであり、マイクロホンに入力される音声をAD変換して、音声波形を示す音声データを生成する。そして、音声入力装置m1〜m3は、音声データD1〜D3を記憶している。ここでは、複数の音声入力装置m1〜m3は、それぞれ、一つの会議室内の各出席者の前に配置されている。ここでは、複数の音声入力装置m1〜m3は、同様の構成を有するものとして、これらの間で区別しない場合、単に音声入力装置mと言う。
【0015】
議事録生成装置10は、議事録データを生成するコンピュータである。議事録生成装置10は、記憶部11、取得部12、時間軸調整部13、選択部14、合成部15、音声認識部16、議事録生成部17を含んで構成される。
【0016】
記憶部11は、RAM、ROM、レジスタ等のメモリーであり、コンピュータ議事録生成プログラム、複数の音声入力装置m1〜m3から取得した音声データD1〜D3、演算処理の中間データ等を記憶する。なお、記憶部11が格納する各音声データには、当該音声データの識別情報(当該音声データを生成した音声入力装置mの識別情報、あるいは、当該音声入力装置mのユーザ(話者)の識別情報)が対応付けられている。
【0017】
尚、取得部12、時間軸調整部13、選択部14、合成部15、音声認識部16、議事録生成部17は、記憶部11が格納するコンピュータ議事録生成プログラムを制御部(CPU)が実行することによって実現されている(これらの機能を用いた動作フローは、
図2を参照して後述する)。
【0018】
取得部12は、複数の音声入力装置m1〜m3から音声データD1〜D3を取得して、記憶部11に格納する。
【0019】
時間軸調整部13は、音声データD1〜D3が示す音声波形に基づいて、当該複数の音声入力装置m1〜m3の音声データD1〜D3を共通の時間軸に調整する。
【0020】
ここで、「共通の時間軸に調整する」とは、音声データD1〜D3のそれぞれが個別に有する時間軸を、共通の時間軸(例えば、実時間軸)に対応付けて、音声データD1〜D3のそれぞれの時間的な相対関係を決定することである。
【0021】
より具体的には、時間軸調整部13は、同一の音源(発話者)から同一のタイミングに出力(発話)された音声の音声データ部分を、共通部分として、音声データD1〜D3のそれぞれから抽出する。そして、時間軸調整部13は、抽出された音声データD1〜D3それぞれの共通部分が、共通の時間軸の同一時刻に対応するように、音声データD1〜D3の時間軸を合わせる。
【0022】
選択部14は、共通の時間軸に調整された音声データD1a〜D3aが示す音声レベルに基づいて、発話区間を検出するとともに、同一時刻について複数の音声データから発話区間が検出された場合、これらの発話区間のうち少なくとも一の発話区間を選択する。ここで、発話区間とは、音声データのうち、ある出席者が発話を行ったと推定される音声データ部分である。
【0023】
合成部15は、共通の時間軸の時刻毎に、複数の音声データD1a〜D3aのうち選択された発話区間を合成して、合成音声データD−allを生成する。
【0024】
音声認識部16は、生成された合成音声データD−allを音声認識して(音声データに対する音声認識処理を行って)、当該音声データに対応するテキストデータを生成する。尚、音声認識部16は、必ずしも合成音声データD−allに対して音声認識処理を行わなくてもよく、元の音声データD1a〜D3aに対して、少なくとも選択された発話区間を対象とする形で、個別に音声認識処理を行ってもよい。
【0025】
議事録生成部17は、選択部14に選択された発話区間ごとに、テキストデータと基の音声データの識別情報(音声入力端末mの識別情報、あるいは、ユーザの識別情報)とを対応づけた情報を、共通の時間軸に沿って並べることにより、議事録データを生成し、閲覧・編集端末20に表示させる。
【0026】
閲覧・編集端末20は、生成された議事録データを議事録生成装置10から取得して、議事録として表示するコンピュータである。尚、閲覧・編集端末20は、例えば、LAN等の通信回線を介して、議事録生成装置10とデータの送受信が可能な状態となっているものとする。
【0027】
以下、
図2〜
図6を参照して、本実施形態に係る議事録生成装置10の動作の一例について説明する。
【0028】
図2、
図3は、議事録生成装置10の動作フローを説明する図である。
図4は、時間軸調整部13の動作を説明する図である。
図5は、選択部14及び合成部15の動作を説明する図である。
【0029】
まず、議事録生成装置10の取得部12は、複数の音声入力装置m1〜m3から、USB入力端子等を介して、音声データD1〜D3を取得して、記憶部11に格納する(ステップS1)。
【0030】
次に、時間軸調整部13は、複数の音声データD1〜D3を共通の時間軸に調整する(ステップS2)。
【0031】
図4(A)に示すように、例えば、複数の音声入力装置m1〜m3の録音開始タイミングがずれていたり、計時時刻がずれていたりすることに起因して、音声データD1〜D3は、録音開始タイミングから同一の音声に対応して現われる音声波形までのタイミングがずれていることがある。そこで、時間軸調整部13は、
図4(B)に示すように、音声データD1〜D3が示す音声波形の共通する波形部分を基準タイミングDTとして、音声データD1〜D3の共通の時間軸に調整する(以下では、共通の時間軸に調整された音声データD1〜D3をD1a〜D3aと表す)。
【0032】
尚、「共通する波形部分」とは、同一音源から同一タイミングで出力された音声に対応する音声データ部分である可能性が高い波形部分である。同一音源から同一タイミングで出力された音声に対応する波形であっても、その形状や大きさは、音源からの距離その他の条件に応じて音声データごとに異なり得る。したがって、時間軸調整部13は、音声データの中で特徴的な形状や大きさを有する波形部分(比較しやすい波形部分、例えば最も波高値が高い波形)を抽出し、抽出された各波形部分の振幅を縮小又は拡大して比較する事により、共通する波形部分を検出する。
【0033】
ここでは、時間軸調整部13は、音声データD1〜D3それぞれについて、
図3に示す次のステップを行って、共通する波形部分を検出して共通の時間軸に調整する。
【0034】
まず、時間軸調整部13(第1のタイミング検出部)は、音声データD1が基準音を有するか否かを検出する(ステップS2a)。ここで、基準音とは、例えば、会議開始の際に鳴らされる鐘の音のような波高値が大きく、かつ、波形急峻度が鋭いパルス状の音声波形の音である。すなわち、基準音とは、音声データに、特徴的な形状や大きさを有する波形部分を生じさせ得る音である。基準音としては、周波数が高く、且つ、大きな音であれば、鐘の音以外のものであってもよいのは勿論である。
【0035】
このように、音声データD1の中で、波高値(音声レベル)及び波形急峻度が閾値よりも大きくなる基準音の波形部分DTを検出することによって、基準タイミングDTを特定することができる。尚、音声データが示す音声レベルを比較する際には、音源からの距離やマイク感度の差等を考慮して、音声レベルが正規化されたものを用いてもよいのは勿論である。
【0036】
そこで、時間軸調整部13は、時系列に音声データの波形をサーチして、音声データD1の中で基準音が検出された場合(ステップS2a:YES)、例えば、当該基準音の波高値の位置を基準タイミングDTとする(ステップS2b)。時間軸の調整は、基準タイミングDTを基準として仮想的な時間軸を設定したり(音声データのヘッダー部分に設定)、音声データD1〜D3の開始時刻を設定したりすることによって行うことができる。
【0037】
一方、時間軸調整部13(第2のタイミング検出部)は、時系列に音声データの波形をサーチして、音声データD1の中で基準音が検出されない場合(ステップS2a:NO)、音声データD1〜D3の中で共通する波形を抽出して、当該共通する波形の位置を基準タイミングDTとする(ステップS2c)。
【0038】
この場合、時間軸調整部13は、例えば、音声データD1の中で比較しやすい波形(例えば、最も波高値が高い波形)の振幅のみを縮小又は拡大した波形をテンプレートとして生成する。そして、時間軸調整部13は、他の音声データD2、D3が示す波形の中から当該テンプレートと類似度が高くなるタイミングを検出し(例えば、テンプレートマッチングによる)、基準タイミングDTとする。
【0039】
つまり、この場合には、会議における発言等の回り込み音声に基づいて、基準タイミングDTを特定する。このように、時間軸調整部13は、音声波形に基づいて複数の音声データを共通の時間軸に調整するため、精緻に(例えば、ミリ秒単位で)時間軸を一致させることを可能にしている。録音した音の中に上記した基準音がある場合には、複数の音声データD1〜D3の波形同士を比較することなく、容易に基準タイミングDTを特定することができる。
【0040】
続いて、選択部14は、
図5に示すように、複数の音声データD1a〜D3aそれぞれについて、音声波形の音声レベルに基づいて発話区間を検出する(ステップS3)。ここでは、選択部14は、音声データD1a〜D3aを時系列に所定区間(例えば、1秒)ごとに区切って、当該区間ごとの音声レベルが所定閾値を超えるか否かを判定するものとする。
【0041】
そして、選択部14は、音声レベルが所定閾値を超える割合が所定以上である状態が連続する区間を、一の発話区間と認定する。尚、
図5では、区間c11、c12、c21、c22、c23、c31、c32が発話区間に対応する。このとき、選択部14は、音声データD1a〜D3aの当該発話区間c11、c12、c21、c22、c23、c31、c32を、そのタイミング情報とともにレジスタに記憶する。
【0042】
次に、選択部14は、共通の時間軸の各時刻において、発話区間が存在するか否かを判定する。そして、選択部14は、発話区間が1つの音声データにしか存在しない時刻については、かかる音声データを選択する。一方、選択部14は、発話区間が複数の音声データに存在する時刻については、当該複数の音声データ(例えば、音声データD1a〜D3a)の間で発話区間の音声レベルを比較して、最も音声レベルが大きい発話区間を選択する(ステップS4)。
【0043】
言い換えると、選択部14は、複数の音声入力装置m1〜m3のうち、話者の目の前に配置され、最も鮮明に(大きい音量で)音声を録音した音声入力装置m1〜m3を、より積極的に抽出する。そして、選択部14は、かかる音声抽出により、話者から離れた位置に配置された他の音声入力装置で録音された回り込み音声(不鮮明な音声)を排除する。
【0044】
尚、
図5では、音声データD1a〜D3aの発話区間c11、c22、c32は、選択部14に選択された発話区間を示し、発話区間c12、c23、c31は、選択されなかった部分を示している。このとき、選択部14は、発話区間c11、c12、c21、c22、c23、c31、c32を記憶するデータと対応させて、選択・非選択の情報をレジスタに記憶する。
【0045】
続いて、合成部15は、共通の時間軸に調整された音声データD1a〜D3aのうち、選択部14によって選択された発話区間(音声データ部分)を合成して、合成音声データD−allを生成する(ステップS5)。合成部15は、例えば、共通の時間軸上で、発話区間c11、c12、c21、c22、c23、c31、c32のうち選択された発話区間c11、c22、c32を連結することにより、合成音声データD−allを生成する。このようにして、議事録生成装置10は、話者の目の前に配置された音声入力装置m1〜m3で録音された最も鮮明な音声の合成音声データD−allを生成する。
【0046】
尚、選択された複数の発話区間の間に、いずれの音声データからも発話音声が検出されない区間(以下「無発話区間」という)が存在し得る。合成部15は、共通の時間軸のうち、無発話区間に、つまり、隣り合う複数の発話区間の間に、無音の音声データ、あるいは、いずれかの音声データの対応する区間の音声データ部分を挿入して、合成音声データD−allを生成してもよい。
【0047】
そして、音声認識部16は、合成された音声データD−allを音声認識して、当該音声データD−allの音声波形に対応するテキストデータを生成する(ステップS6)。かかるテキストデータは、つまり、音声データD−allに含まれる発話音声をテキスト化したものである。
【0048】
音声認識部16は、例えば、次のようにして、音声認識処理を行う。まず、音声認識部16は、音声データD−allの発話区間のそれぞれに対してフレーム化処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、音声特徴量(例えば、Mel-Frequency Cepstrum Coefficients:MFCC)を抽出する。次に、音声認識部16は、発話区間における音声特徴量の時系列データに基づき、記憶部11に予め格納された音響モデル、辞書、及び言語モデルを参照して、音声パターンを認識して、対応するテキストデータを生成する。
【0049】
尚、音響モデルとは、音声の特徴量と発音記号との確率的な対応付けをデータ化したものである。又、辞書は単語の表記と読みを記述したものである。又、言語モデルは、辞書に記述された単語のそれぞれについて、大量のテキストデータから計算した出現確率や他の単語との接続確率をデータ化したものである。
【0050】
そして、音声認識部16は、生成されたテキストデータを、発話区間のタイミング情報(例えば、開始時刻および終了時刻)と対応付けて記憶部11に格納する。
【0051】
次に、議事録生成部17は、共通の時間軸上で、選択された発話区間のテキストデータと当該発話区間が属する音声データの識別情報とを対応づけて、議事録データを生成する(ステップS7)。つまり、議事録生成部17は、選択部14が複数の音声入力装置m1〜m3のいずれの音声データの発話区間を選択したかに応じて、発話区間ごとに識別情報(音声入力装置mのID、ユーザID等)を対応づけていく。又、議事録生成部17は、当該議事録データを閲覧・編集端末20に送信して、編集可能に表示させる。尚、議事録生成部17は、閲覧・編集端末20から編集要求を受信した場合、議事録データの対応するテキストデータを更新する。
【0052】
そして、議事録生成部17は、生成された議事録データに基づき、当該議事録データの内容を示す議事録画面を生成し、閲覧・編集端末20に表示させる。
【0053】
図6は、議事録画面の一例を示す図である。
【0054】
図6に示すように、議事録画面には、話者T1、発言時刻T2、音声認識結果のテキストデータT3、編集データT4、編集中データT5、再生アイコンT6、音声波形表示T7の表示領域が含まれる。
【0055】
話者T1、発言時刻T2、音声認識結果のテキストデータT3は、発話区間ごとに対応づけて記憶されたデータを時系列に表示するものである。尚、発言時刻T2は、共通の時間軸上で表され、例えば、音声入力装置m1に記憶された録音開始時刻を基準として、当該録音開始時刻からの経過時間によって発話区間ごとに算出されたものである。
【0056】
編集データT4は、音声認識結果のテキストデータT3を編集して記憶されたデータを表示するものである。編集中データT5は、音声認識結果のテキストデータT3を編集している際に、ユーザに入力された内容を反映させたものである。編集中データT5の表示領域は、テキスト入力ボックスであり、ユーザが音声認識結果のテキストデータT3を編集可能な状態で表示される。尚、図中では、T5aの音声認識結果のテキストデータが編集中であることを表す。そして、編集された状態で、確定アイコン(図示せず)が押されると、編集データT4が更新される。
【0057】
再生アイコンT6は、合成音声データD−allを再生するためのアイコンであり、ユーザに選択操作された場合、これに応じて合成音声データD−allを再生する。尚、音声波形表示T7の表示領域には、再生アイコンT6によって現在再生中の音声データの音声波形が表示される。
【0058】
このような議事録画面が表示されることにより、オペレータは、自動で生成された議事録データの内容やその正確性を容易に確認することができ、更に、誤りがあった場合に、これを容易に修正することができる。
【0059】
以上のように、本実施形態に係る議事録生成システムは、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、上記音空間において行われた会話の議事録を生成する議事録生成装置10を有している。議事録生成装置10は、複数の音声データのそれぞれが示す音声波形に基づいて、複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部13を備えている。また、議事録生成装置10は、複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された発話区間に対して音声認識処理を行う音声認識部16を備えている。更に、議事録生成装置10は、音声認識処理により得られたテキストデータを共通の時間軸に沿って並べることにより、議事録を生成する議事録生成部17を備えている。
【0060】
すなわち、議事録生成装置10は、時間軸調整部13において、波形に基づいて当該複数の音声データの間で時間軸の調整を行うことによって、音声認識すべき対象の音声データを抽出する際に、当該複数の音声データを共通の時間軸上で用いることを可能にしている。そうすることで、選択部14は、発話区間ごとに、当該複数の音声データの中で用いる音声データを適切に選択することが可能となり、鮮明に録音された音声データのみを用いて議事録を生成することができる。又、議事録生成部17は、選択部14に当該複数の音声データのうちいずれの音声データが選択されたかによって、話者の特定をすることができる。
【0061】
したがって、議事録生成装置10は、複数の音声入力装置m1〜m3で個別に生成された音声データD1〜D3を用いて、正確な議事録を生成することができる。
【0062】
加えて、音声認識部16は、選択部14に選択された鮮明に録音された音声データのみを用いて音声認識することができる。したがって、議事録生成装置10は、回り込み音声を含むすべての音声データを用いる場合に比較して、議事録生成装置10の処理負荷、処理時間を大きく軽減することができる。
【0063】
(第2の実施形態)
次に、
図7〜
図9を参照して、第2の実施形態に係る議事録生成システムについて説明する。
【0064】
図7は、本実施形態に係る議事録生成システムの構成を示す図である。
図8は、本実施形態に係る議事録生成装置10aの動作フローを説明する図である。
図9は、本実施形態に係る選択部14a及び合成部15aの動作を説明する図である。
【0065】
本実施形態では、同じタイミングに発話する話者が複数人いる場合も想定して、同一の時刻について、複数の音声入力装置(音声データ)の発話区間が選択され得る点で、第1の実施形態と相違する。尚、第1の実施形態と共通する構成については、説明を省略する(以下、他の実施形態についても同様)。
【0066】
選択部14aは、上記した(ステップS3)の工程において、共通の時間軸上で発話区間の検出を行った後、同一時刻において複数の音声データの発話区間の音声レベルが所定の閾値を超える場合、複数の発話区間を選択する(ステップS4a)。
【0067】
図9では、説明の便宜のため、
図5に示した発話区間c11と同じタイミングで、他の話者が存在している場合を示しており、選択部14aが発話区間c11と発話区間c21とをともに選択した状態を示している。
【0068】
選択部14aは、それらの発話区間c11、c21をともに選択してレジスタに格納する。つまり、このとき、レジスタには、(ステップS3)で検出された音声データD1〜D3の当該発話区間c11、c12、c21、c22、c23、c31、c32のタイミング情報と、これらのうち、発話区間c11、c21、c22、c32が選択されたことが記憶される。
【0069】
尚、この際、同じ音声について音声認識してしまう状態を排除するため、選択部14aは、発話区間c21の波形と、発話区間c11の波形との類似度を算出して、類似していると判断される場合には、一方を音声認識しなくてもよい。
【0070】
次に、合成部15aは、共通の時間軸に調整された音声データD1a〜D3aのうち、選択部14aに選択された発話区間の波形を合成して、合成音声データD−allを生成する(ステップS5a)。
【0071】
尚、合成部15aは、選択部14aが同一時刻について複数の発話区間を選択している場合、それら複数の発話区間をすべて合成する。ここでは、合成部15aは、同じ発話区間にあたる音声データD1aの発話区間c11、音声データD2aのc21の両方を合成する。そうすることで、議事録生成装置10aは、議事録音声データを生成する。尚、合成部15aは、例えば、合成対象の波形を加算することによって、同じ発話区間の波形を合成する。
【0072】
続いて、音声識別部16aは、合成された音声データD−allが示す波形を音声認識して、当該波形に対応するテキストデータを生成する(ステップS6a)。但し、音声識別部16aは、複数の音声データの間で選択された発話区間が重複している場合、元の音声データD1a〜D3aからそれらの発話区間を別個に抽出して音声認識して、別個にテキストデータを生成する。
【0073】
生成されたテキストデータは、ともに発話区間のタイミング情報(例えば、時刻)と対応付けて記憶部11に格納される。そうすることで、同じタイミングに発話する話者が複数人いる場合も、それぞれの発話内容を別個にテキストデータとして生成することができる。尚、同じタイミングで複数の発話区間が選択されている場合、当該発話区間における、合成音声データD−allに基づいてなされた音声認識結果は、不鮮明なデータとなっている。そのため、音声識別部16aは、当該発話区間を、音声認識の対象としなくてもよい。
【0074】
そして、議事録生成部17aは、共通の時間軸上で、当該発話区間のテキストデータと選択部14に選択された音声データの識別情報を対応づけて議事録データを生成する(ステップS7a)。このとき、議事録生成部17aは、同じタイミングで発話する話者が複数人いる場合には、当該発話内容に対応するテキストデータをともに生成する。
【0075】
議事録生成部17aは、例えば、上記した
図6に示す議事録画面において、発言時刻T2として同じ時刻を付して、それぞれの話者T1及び音声認識結果のテキストデータT3を表示されるように、議事録データを生成する。
【0076】
以上のように、本実施形態に係る議事録生成システムによれば、同じタイミングで複数の話者がいる場合であっても、それぞれの発話内容を記録した正確な議事録を生成することが可能である。
【0077】
(第3の実施形態)
次に、
図10を参照して、第3の実施形態に係る議事録生成システムについて説明する。
【0078】
図10は、本実施形態に係る議事録生成システムの構成を示す図である。本実施形態では、音声認識部16bが、話者モデルとの照合によって各発話区間における話者を識別する点で、第1の実施形態と相違する。
【0079】
会議の席において、第1の実施形態のように、音声入力装置mが各出席者の目の前に配置されておらず、一の音声入力装置mに対して複数の話者の音声が入力されるような場合がある。このような場合、議事録は、複数の話者のうちのいずれの話者の発言か区別できない状態で生成されてしまうことになる。
【0080】
すなわち、音声入力装置mの識別によってのみでは、必ずしも各発話の話者を識別することができず、その結果、誤った議事録データが生成されるおそれがある。
【0081】
そこで、本実施形態では、音声認識部16bが、一連の音声認識処理の中で、当該発話区間における話者を識別する。
【0082】
音声認識部16bは、上記したとおり、発話区間の音声特徴量の時系列データを抽出して、記憶部11に予め格納された音響モデル、辞書、及び言語モデルを参照して、音声パターンを認識する。その際、予め、会議の出席者等の話者モデル(話者ごとの音響モデル)を記憶しておくことによって、音声認識部16bは、一連の音声認識処理の中で、当該発話区間における話者を識別することができる。
【0083】
このように、音声認識部16bは、話者モデルを用いることによって、波形に含まれる音声認識対象の話者の発した音声以外の回り込み音声を除去したり、複数の話者のうち、いずれの話者が発生した音声かを特定したりすることができる。そして、音声認識部16bは、波形に含まれる音声認識対象の話者の発した音声以外の回り込み音声を除去してから対応するテキストデータを生成する。又、音声認識部16bは、波形に含まれる話者を特定して、選択部14に選択された音声データの識別情報として識別した話者の識別情報を格納する。
【0084】
又、議事録生成部17は、発話区間ごとにテキストデータと、音声認識部16bに識別された当該話者とを対応付けて表示する。
【0085】
以上のように、本実施形態に係る議事録生成システムによれば、一の音声入力装置mに対して複数の話者の音声が入力されるような場合であっても、話者を特定し、より正確な議事録を生成することが可能である。
【0086】
(その他の実施形態)
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。
【0087】
上記実施形態では、選択部14の構成の一例として、音声データD1〜D3をフレーム化して、当該フレーム内における音声レベルが所定閾値を超える割合で、発話区間を検出するとともに、音声レベルが最大の音声データを選択する態様を示した。しかし、選択部14は、複数の音声データD1〜D3から鮮明な音声データを選択するものであれば、その選択処理は、種々に変更しうる。
【0088】
例えば、発話区間を検出する際には、信号の強さが予め決められたレベルを一定時間以上連続して超えている場合、発話区間と判定するものとしてもよい。又、音声レベルが同程度の音声データが複数ある場合には、回り込み音声等に起因するノイズ成分が少ない音声データを選択するものとしてもよい。
【0089】
又、上記実施形態では、議事録生成システムの構成の一例として、議事録生成装置10にコンピュータ等を用い、音声入力装置mにボイスレコーダ等を用いる態様を示した。しかし、これら構成は、一例に過ぎず、同様の機能を実現できれば、種々の電子機器であってよい。
【0090】
例えば、議事録生成装置10と音声入力装置mが、ともにスマートフォン等によって構成されるものであってもよい。又、同様に、議事録生成装置10の一部又は全部の機能が、音声入力装置mに組み込まれる構成としてもよい。他方、議事録生成装置10の制御部の機能(時間軸調整部13、選択部14、合成部15、音声認識部16、議事録生成部17)を複数のコンピュータに分散させて、議事録生成装置10を構成してもよい。
【0091】
(本開示のまとめ)
本明細書および添付図面の記載によって、少なくとも以下の事項が明らかとなる。
【0092】
本開示に係る議事録生成装置は、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成する議事録生成装置であって、前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける時間軸調整部と、前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された前記発話区間に対して音声認識処理を行う音声認識部と、前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する議事録生成部と、を備える。
【0093】
また、上記議事録生成装置は、前記共通の時間軸上の同一時刻において1つの発話音声のみが検出されたとき、当該1つの発話区間を選択し、前記共通の時間軸上の同一時刻において複数の発話音声が検出されたとき、当該複数の発話区間を比較することにより当該複数の発話区間の中から1つを選択する選択部、を更に有し、前記議事録生成部は、選択された前記発話区間の前記テキストデータに基づいて、前記議事録を生成してもよい。
【0094】
また、上記議事録生成装置において、前記時間軸調整部は、前記複数の音声データから、同一の音源から同一のタイミングで出力された音声に対応する共通部分を検出し、検出された前記共通部分が前記共通の時間軸上で同一の位置となるように、前記複数の音声データの時間軸を前記共通の時間軸に対応付けてもよい。
【0095】
また、上記議事録生成装置において、前記時間軸調整部は、前記複数の音声データのそれぞれから、前記音声データが示す波形の波高値が閾値よりも大きい部分を、前記共通部分として検出してもよい。
【0096】
また、上記議事録生成装置において、前記時間軸調整部は、第1の前記音声データに含まれる音声波形を、第2の前記音声データで探索することにより、前記共通部分を検出してもよい。
【0097】
また、上記議事録生成装置は、複数の前記音声データから検出された前記発話区間を、前記共通の時間軸において合成して合成音声データを生成する合成部を更に備え、前記音声認識部は、前記合成音声データに対して、音声認識処理を行ってもよい。
【0098】
また、上記議事録生成装置において、前記議事録生成部は、前記発話区間ごとに、前記テキストデータと基の前記音声データの識別情報とを対応づけて表示する、議事録画面を生成して出力してもよい。
【0099】
また、上記議事録生成装置において、前記音声認識部は、話者モデルに基づいて、前記音声データが示す波形から音声認識の対象となる話者を特定して前記音声認識を行い、前記議事録生成部は、特定された話者の識別情報を前記テキストデータに対応付けて表示する、前記議事録画面を生成してもよい。
【0100】
本開示に係る議事録生成プログラムは、同一の音空間に配置された複数の音声入力装置で個別に生成された複数の音声データを用いて、前記音空間において行われた会話の議事録を生成するための議事録生成プログラムであって、コンピュータに、前記複数の音声データのそれぞれが示す音声波形に基づいて、前記複数の音声データのそれぞれの時間軸を共通の時間軸に対応付ける処理と、前記複数の音声データのそれぞれに対して、当該音声データが示す音声レベルに基づいて発話区間を検出する処理を行い、検出された前記発話区間に対して音声認識処理を行う処理と、前記音声認識処理により得られたテキストデータを前記共通の時間軸に沿って並べることにより、前記議事録を生成する処理と、を実行させる。
【0101】
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。