(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022115696
(43)【公開日】2022-08-09
(54)【発明の名称】音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20220802BHJP
G10L 15/28 20130101ALI20220802BHJP
G10L 15/00 20130101ALI20220802BHJP
【FI】
G10L15/22 200Z
G10L15/28 200
G10L15/00 200U
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021012411
(22)【出願日】2021-01-28
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】清水 歩
(72)【発明者】
【氏名】三宅 英和
(72)【発明者】
【氏名】鈴木 優
(57)【要約】
【課題】サードベンダーが音声認識システムを提供する場合において、より音質の良い音声データを使用することができる音声選択システム、会話テキスト取得装置、会話テキスト取得方法、及びプログラムを提供することにある。
【解決手段】第一音声取得部は、話者使用装置のマイクに入力された第一音声データを取得する。第二音声受信部は、会話システムが生成する第二音声データを受信する。音声データ分割部は、第一音声データ及び第二音声データを複数の部分音声データに分割する。部分音声分類部は、分割された複数の部分音声データを話者別に分類する。非加入者側音声決定部は、複数の部分音声データのうち、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する。認識結果取得部は、第一音声データ及び非加入者側部分音声データの音声認識結果であるテキストデータを取得する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
話者使用装置と、
会話テキスト取得装置と、
を備える音声選択システムであって、
前記話者使用装置は、
前記話者使用装置のマイクに入力された音声を表す第一音声データを取得する第一音声取得部と、
前記第一音声データを前記会話テキスト取得装置に送信する音声送信部と、
を備え、
前記会話テキスト取得装置は、
前記音声送信部から前記第一音声データを受信する第一音声受信部と、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信部と、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割部と、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定部と、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得部
とを備える、
音声選択システム。
【請求項2】
話者使用装置から前記話者使用装置のマイクに入力された音声を表す第一音声データを受信する第一音声受信部と、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信部と、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割部と、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定部と、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得部と、
を備える会話テキスト取得装置。
【請求項3】
分割された前記複数の部分音声データを話者別に分類する部分音声分類部
をさらに備える請求項2に記載の会話テキスト取得装置。
【請求項4】
前記第二音声データは、前記会話システムが生成した前記話者使用装置のスピーカーから出力するための音声データである
請求項2または請求項3に記載の会話テキスト取得装置。
【請求項5】
前記非加入者側音声決定部は、
前記複数の部分音声データのうち、前記第一音声データに含まれる話者に分類されず、かつ、前記第二音声データに含まれる話者に分類された部分音声データを前記非加入者側部分音声データと決定する、
請求項2から請求項4の何れか1項に記載の会話テキスト取得装置。
【請求項6】
前記第一音声データから分割された部分音声データのうち、全ての前記第二音声データに含まれない部分音声データを加入者側部分音声データと決定する加入者側部分音声決定部を備え、
前記認識結果取得部は前記加入者側部分音声データ及び前記非加入者側部分音声データの音声認識結果を取得する、
請求項2から請求項5の何れか1項に記載の会話テキスト取得装置。
【請求項7】
話者使用装置から前記話者使用装置のマイクに入力された音声を表す第一音声データを受信する第一音声受信ステップと、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信ステップと、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割ステップと、
分割された前記複数の部分音声データを話者別に分類する部分音声分類ステップと、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定ステップと、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得ステップと、
を有する会話テキスト取得方法。
【請求項8】
コンピュータに請求項7に記載の方法を実行させるためのプログラム。
【請求項9】
コンピュータに含まれる話者使用装置であって、前記コンピュータは、複数のコンピュータから受信した音声データを合成して各コンピュータに合成した第二音声データを送信する会話システムへ第一音声データを送信し、
マイクに入力された音声を表す前記第一音声データを取得する第一音声取得部と、
前記会話システムから前記第二音声データを取得する第二音声取得部と、
前記第一音声データ及び前記第二音声データを、音声認識結果を生成する会話テキスト取得装置に送信する音声送信部と
を備える話者使用装置。
【請求項10】
マイクに入力された音声を表す第一音声データを取得する第一音声取得ステップと、
複数のコンピュータから受信した音声データを合成して各コンピュータに合成した第二音声データを送信する会話システムへ、前記第一音声データを送信する第二音声送信ステップと、
前記会話システムから前記第二音声データを取得する第二音声取得ステップと、
前記第一音声データ及び前記第二音声データを、音声認識結果を生成する会話テキスト取得装置に送信する音声送信ステップと
を有する話者使用方法。
【請求項11】
コンピュータに請求項10に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラムに関する。
【背景技術】
【0002】
オンラインの会議システムは、参加者が同じ場所に集まる必要がないなどの利便性から、その需要が高まっている。また、会議の参加者の発言を音声認識し、テキストとして保存するという方法で議事録が作成されることがある。
【0003】
オンラインの会議システムにおいて参加者の発言を音声認識するために、会議システムのベンダーとは異なるベンダーであるサードベンダーの提供する音声認識システムを利用したい場合がある。サードベンダーの音声認識システムを利用する場合、会議システムの録画機能によって得られる映像データから抽出された音声データや、会議の参加者のマイクから取得された音声データを、音声認識システムに入力することで、音声認識処理を実行することができる。
【先行技術文献】
【特許文献】
【0004】
【0005】
しかし、会議システムから提供される映像データは、音声が圧縮されており音声認識に適さない可能性がある。また参加者全員から直接音声を取得する場合、参加者全員が音声収集用のアプリケーションを導入する必要があるが、例えば会社間の会議などにおいては、参加者全員からアプリケーションを導入することの同意が得られない可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、サードベンダーが音声認識システムを提供する場合において、より音質の良い音声データを使用することができる音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
実施形態の音声選択システムは、話者使用装置と、会話テキスト取得装置とを持つ。
話者使用装置は、第一音声取得部と、第二音声取得部と、音声送信部とを持つ。
第一音声取得部は、話者使用装置のマイクに入力された音声を表す第一音声データを取得する。
第二音声取得部は、会話システムが生成した話者使用装置のスピーカーから出力するための音声データを表す第二音声データを取得する。会話システムは、話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを複数のコンピュータそれぞれに対して送信する。
音声送信部は、第一音声データ及び第二音声データを会話テキスト取得装置に送信する。
会話テキスト取得装置は、第一音声受信部と、第二音声受信部と、音声データ分割部と、部分音声分類部と、非加入者側音声決定部と、認識結果取得部とを持つ。
第一音声受信部は、音声送信部から第一音声データを受信する。
第二音声受信部は、音声送信部から、第二音声データを受信する。
音声データ分割部は、第一音声データ及び第二音声データをある時点に基づいて複数の部分音声データに分割する。
部分音声分類部は、分割された複数の部分音声データを話者別に分類する。
非加入者側音声決定部は、複数の部分音声データのうち、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する。
認識結果取得部は、第一音声データ及び非加入者側部分音声データの音声認識結果を取得する。
【図面の簡単な説明】
【0008】
【
図1】第1の実施形態に係る音声選択システムの構成を示す図。
【
図2】第1の実施形態に係る話者使用装置110の構成を示す図。
【
図3】第1の実施形態に係る会話テキスト取得装置14の構成を示す図。
【
図4】分類された第一音声データ及び第二音声データの一例。
【
図7】第1の実施形態に係る音声選択システム1の動作を示すフローチャート。
【
図8】第2の実施形態に係る会話テキスト取得装置14を示す図。
【
図9】第2の実施形態に係る非加入者側音声データ及び加入者側音声データの一例を示す図。
【発明を実施するための形態】
【0009】
〈第1の実施形態〉
図1は、第1の実施形態に係る音声選択システム1の構成を示す図である。音声選択システム1は、会話システム21を介して行われる会話を文字に起こしたテキストデータを生成するシステムである。会話システム21は複数のコンピュータ11から受信した音声データを合成し、合成した音声データを各コンピュータ11に送信する。これにより、コンピュータ11の利用者は、会話システム21を介して他のコンピュータ11の利用者と会話をすることができる。音声選択システム1は、後述する話者使用装置110、会話テキスト取得装置14を備える。音声選択システム1は、話者使用装置110を複数備えてもよい。本実施形態では、会話システムによる会話の参加者のうち、音声選択システム1の利用者を加入者と呼び、他の参加者を非加入者と呼ぶ。
【0010】
話者使用装置110は会話システム21を用いた会話を行う複数のコンピュータ11の少なくとも1つに搭載される。話者使用装置110は、コンピュータ11に組み込まれるデバイスであってもよく、コンピュータ11にインストールされるソフトウェアであってもよい。コンピュータ11はマイク13及びスピーカー12を備える。コンピュータ11は、会話システム21に対して音声データを送信する。ここで、マイク13及びスピーカー12が一体化していてもよい。また、マイク13及びスピーカー12はコンピュータ11に内蔵されていてもよい。コンピュータ11に搭載される話者使用装置110とは別の装置(例えば、会話システム21に接続するためのフロントエンドアプリケーション)が、会話システム21に対して音声データを送信してもよい。
【0011】
音声認識装置22は、取得した音声データに対して音声認識を行う。音声認識とは、例えば、音声データに含まれる言葉を文字に起こすことである。また、音声認識装置22は、生成した音声認識結果を出力する。音声認識結果は、例えば、テキストデータである。
音声認識装置22は、音声認識結果にタイミング情報を付与する。タイミング情報は、音声を発したタイミングを示す情報であり、例えば、取得する音声データのストリームデータ量を使用して算出される。タイミング情報は、音声データの再生位置によって表されてもよいし、時刻によって表されてもよい。
また、音声認識装置22は、音声選択システム1に含まれていても、含まれていなくてもどちらでもよい。
【0012】
図2は第1の実施形態に係る話者使用装置110の構成を示す図である。話者使用装置110は第一音声取得部1101、第二音声取得部1102及び音声送信部1103を備える。第一音声取得部1101は、マイク13を介して話者使用装置110に入力された音声を第一音声データとして取得する。第二音声取得部1102は、会話システム21から受信された第二音声データを取得する。第二音声データは、例えばコンピュータ11のスピーカー12より出力される音声データである。なお、第二音声データは、スピーカー12の音声をループバックした音声でなく、会話システム21から受信されたスピーカー12出力用の音声データを直接録音することが好ましい。音声送信部1103は、第一音声データ及び第二音声データを会話テキスト取得装置14に送信する。
【0013】
なお、第一音声データは、第二音声データよりも品質の良い音声データである。第二音声データは、会話システム21においてリアルタイムに伝送する必要があるために圧縮された状態で提供されるが、第一音声データは、話者使用装置110が直接取得することができるため、話者使用装置110にて音声データの品質を自由に設定することができる。例えば、第一音声データは、第二音声データよりも圧縮率が低い音声データである。例えば、第一音声データは、第二音声データよりも単位時間当たりのデータ量が大きい。第一音声データは、無圧縮データまたはロスレス圧縮されたデータであることが好ましい。
【0014】
また、1つの話者使用装置110が取得する第一音声データと第二音声データの音声データは互いに重複しない。つまり、話者使用装置110の使用者が話者Aであるとき、その話者使用装置110が取得する第二音声データには話者Aが発した音声は含まれない。これは、会話システム21を用いた会話においてスピーカー12から本人の声が出力されないよう、会話システム21が各コンピュータ11に対して他のコンピュータ11から受信した音声データを合成して出力するためである。
【0015】
図3は、第1の実施形態に係る会話テキスト取得装置14の構成を示す図である。会話テキスト取得装置14は、第一音声受信部141、第二音声受信部142、音声データ分割部143、部分音声分類部144、非加入者側音声決定部145、認識結果取得部146、認識結果結合部147、結合認識結果出力部148を備える。
【0016】
第一音声受信部141は、話者使用装置110から第一音声データを取得する。
第二音声受信部142は、話者使用装置110から第二音声データを取得する。
【0017】
音声データ分割部143は、第一音声データ及び第二音声データをある時点に基づいて複数の部分音声データに分割する。音声データ分割部143は、例えば、音声データの強度が一定値以下になった時点、話者が変わる時点、または発話がない区間などを区切りとして音声データを分割する。話者の切り替わりは、例えば周波数などの音声の特性を分析することによって推定される。
【0018】
部分音声分類部144は、第一音声データ及び第二音声データの部分音声データを話者ごとに分類する。部分音声分類部144は、例えば、部分音声データの特徴量を分析しクラスタリングを行うことにより、部分音声データを話者ごとに分類する。部分音声分類部144は、部分音声データを分類する際に、予め話者数が分かっているのであれば、当該話者数をクラスタ数に指定してクラスタリングを行うことで、部分音声データを話者ごとに分類してもよい。なお、部分音声分類部144は、第一音声データの部分音声データと第二音声データの部分音声データとをそれぞれ別個にクラスタリングする。このとき、第一音声データと第二音声データとで生成されるクラスタの境界が異なるが、話者ごとの特徴量は第一音声データと第二音声データとで変わらないため、部分音声分類部144は、クラスタ中心の比較を行うことなどによって、同一の話者に係るクラスタの組み合わせを特定することができる。
【0019】
図4は、分類された第一音声データ及び第二音声データの一例である。
以下、t
N≦t≦t
N+1の時間区間を区間Nと定義する。例えば、t
1≦t≦t
2の時間区間を区間1と呼び、t
4≦t≦t
5の時間区間を区間4と呼ぶ。
【0020】
図4においては、第一音声データは、区間1、区間3、区間6において発話があり、区間2、4、5において発話がない。したがって、第一音声データからは、区間1、3、6から部分音声が抽出される。また区間1、3、6に係る各部分音声が同一の話者に係るクラスタに分類される。第二音声データは、区間2、4、5において発話があり、区間1、3、6において発話がない。したがって、第二音声データからは、区間2、4、5から部分音声が抽出される。
図4に示す例では、区間2、区間4、区間5に係る部分音声は、それぞれ異なる話者に係るクラスタに分類される。第一音声データに係るクラスタは、第二音声データに係るいずれのクラスタとも異なるため、第一音声データの部分音声の話者は、第二音声データの何れの話者とも異なることが分かる。
【0021】
非加入者側音声決定部145は、分割された第二音声データに基づいて、非加入者側部分音声データを決定する。
図5は、非加入者側音声データの一例である。
図5は、会話テキスト取得装置14が、話者使用装置110α及び話者使用装置110βのそれぞれから第一音声データを受信した場合の非加入者側音声データを示す。なお、以下の説明は音声選択システム1が2つの話者使用装置110を含む場合の実施態様であるが、話者使用装置110の数を2つに限定することを意図するものではない。
【0022】
非加入者側音声決定部145は、話者使用装置110α及び話者使用装置110βから受信したすべての第二音声データに含まれる話者に係る部分音声データを、非加入者側部分音声データと決定する。分類は、発話のタイミングのみで行っても、音声の特徴量から得られるクラスタ分類を単独、もしくは併用してもよい。例えば、音声特徴量から得られるクラスタ分類を用いた場合は、次のようになる。
図5に示す例では、部分音声分類部144によって話者使用装置110α及び話者使用装置110βから受信した第一音声データ及び第二音声データのそれぞれについて、話者の分類がなされている。部分音声分類部144は、話者使用装置110αから受信した第二音声データの区間2の部分音声が属するクラスタのクラスタ中心が、話者使用装置110βから受信した第一音声データの部分音声が属するクラスタ中心の近傍に位置するため、2つのクラスタが対応していると判定する。また部分音声分類部144は、話者使用装置110βから受信した第二音声データの区間1、3、6の部分音声が属するクラスタのクラスタ中心が、話者使用装置110αから受信した第一音声データの部分音声が属するクラスタ中心の近傍に位置するため、2つのクラスタが対応していると判定する。また部分音声分類部144は、話者使用装置110αから受信した第二音声データの区間4の部分音声が属するクラスタのクラスタ中心が、話者使用装置110βから受信した第二音声データの区間4の部分音声が属するクラスタ中心の近傍に位置するため、2つのクラスタが対応していると判定する。また部分音声分類部144は、話者使用装置110αから受信した第二音声データの区間5の部分音声が属するクラスタのクラスタ中心が、話者使用装置110βから受信した第二音声データの区間5の部分音声が属するクラスタ中心の近傍に位置するため、2つのクラスタが対応していると判定する。そのため、2つの第二音声データにともに含まれる部分音声データは、第二音声データの区間4及び区間5の部分音声データである。
【0023】
認識結果取得部146は、音声認識装置22に第一音声データの部分音声データ及び非加入者側部分音声データの音声認識リクエストを送信し、音声認識装置22から、音声認識結果を取得する。
【0024】
認識結果結合部147は、取得した音声認識結果をタイミング情報に基づいて結合する。
図6は結合した音声認識結果の一例である。音声認識結果は音声の内容を示すテキストデータであり、また、タイミング情報が付与される。したがって、認識結果結合部147は、取得した音声認識結果をタイミング情報が示す時刻の昇順に並べることで、会話の順に音声認識結果を並べたデータを生成することができる。
【0025】
なお、第一音声データ及び第二音声データのタイミング情報は必ずしも同一のタイミングを示しているとは限らない。これは、第二音声データは1つの話者使用装置110から会話システム21を経由して話者使用装置110に送信される音声データであり、第一音声データのタイミングよりも遅れが生じるためである。そのため、認識結果結合部147は、1つの話者使用装置110からの音声データの音声認識結果に付与されるタイミング情報を基準とする。具体的には、認識結果結合部147は、以下の手順で音声認識結果のタイミングを決定する。
【0026】
認識結果結合部147は、部分音声分類部144による第一音声データ及び第二音声データの部分音声の分類結果から、同一の発言を表す部分音声の組み合わせを特定する。具体的には、各部分音声について特徴量同士の距離が所定の閾値以下となる組み合わせを、同一の発言を表す部分音声の組み合わせとして特定する。例えば、
図5に示す例では、話者使用装置110αの第一音声データの区間1に対応する部分音声の特徴量と、話者使用装置110βの第二音声データの区間1に対応する部分音声の特徴量との距離が閾値未満である場合に、この2つの部分音声データが同一の発言を表すものとして特定する。認識結果結合部147は、第一音声データの部分音声データの音声認識結果のタイミング情報を、当該部分音声データに対応する第二音声データの部分音声データのタイミングに基づいて書き換える。これにより、認識結果結合部は、音声認識結果のタイミング情報を同期させることができる。
【0027】
また認識結果結合部147は、部分音声分類部144が特定した各部分音声データの分類結果を用いることで、発言ごとに話者を示す記号を付すことができる。また、認識結果結合部147は、第一音声データの部分音声データによる音声認識結果であるか第二音声データの部分音声データによる音声認識結果であるかの区別を、メタデータとして持つことができる。これにより、利用者は発言内容が加入者側の発言であるか非加入者側の発言であるかを認識することができる。音声認識結果を結合させることで、認識結果結合部147は
図6に示すようなデータを作成することができる。
図6において、左側に配置されたテキストが加入者側の発言を示し、右側に配置されたテキストが非加入者側の発言を示す。
【0028】
結合認識結果出力部148は、結合された音声認識結果を話者使用装置110に出力する。
【0029】
〈第1の実施形態のフローチャート〉
図7は、第1の実施形態に係る音声選択システム1の動作を示すフローチャートである。会話システム21による会話サービスが開始されると、話者使用装置110の第一音声取得部1101は、話者使用装置110のマイク13に入力される音声を録音し、第一音声データとして記憶部への記録を開始する(ステップS101)。また、第二音声取得部1102は、会話システム21から受信されたスピーカー12出力用の音声データを、第二音声データとして記憶部への記録を開始する(ステップS102)。
【0030】
会話システム21による会話サービスが終了すると、第一音声取得部1101は第一音声データの記録を終了し、第二音声取得部1102は第二音声データの記録を終了する(ステップS103)。なお、会話サービスの終了は、話者使用装置110が会話システム21を監視することで自動的に決定されてもよく、話者使用装置110への入力により決定されてもよい。音声送信部1103は、第一音声データを会話テキスト取得装置14に送信する(ステップS104)。音声送信部1103は、第二音声データを会話テキスト取得装置14に送信する(ステップS105)。
【0031】
会話テキスト取得装置14の第一音声受信部141は、話者使用装置110から第一音声データを受信する(ステップS204)。第二音声受信部142は、話者使用装置110から第二音声データを受信する(ステップS205)。音声データ分割部143は、第一音声データ及び第二音声データを複数の部分音声データに分割する(ステップS206)。その後、部分音声分類部144は、分割された複数の部分音声データを話者別に分類する(ステップS207)。
【0032】
非加入者側音声決定部145は、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する(ステップS208)。非加入者側音声決定部145は、第一音声データ及び非加入者側部分音声データを音声認識装置22に送信する(ステップS209)。音声認識装置22は受信した音声データを音声認識し、音声認識結果を生成する。音声認識装置22は、音声認識結果を認識結果取得部146に出力する。認識結果取得部146は音声認識装置22から音声認識結果を取得する(ステップS210)。認識結果結合部147は、音声認識結果を結合する(ステップS211)。結合認識結果出力部は、結合した音声認識結果を話者使用装置110に出力する(ステップS212)。
【0033】
このように、第1の実施形態によれば、会話テキスト取得装置14は、マイク13から取得した第一音声データ及び非加入者側音声データが結合された音声認識結果を取得する。つまり、第1の実施形態に係る会話テキスト取得装置14は、第二音声データを用いることで、会話の音声認識の漏れをなくし、マイク13から取得した第一音声データを用いることで、音声認識の精度を向上させることができる。
【0034】
〈第2の実施形態〉
図8は第2の実施形態に係る会話テキスト取得装置14を示す図である。第2の実施形態に係る会話テキスト取得装置14は、会話システム21においてミュートされた音声を避けて音声認識を実行させる。会話システム21は、ミュート機能を有する。ミュート機能とは、コンピュータ11に入力する音声を会話システム21の他の利用者に出力しないようにする機能である。
【0035】
第2の実施形態に係る会話テキスト取得装置14は、第1の実施形態に係る会話テキスト取得装置14の構成に加え、さらに加入者側音声決定部149を備える。加入者側音声決定部149は、第一音声データに含まれる部分音声データのうち、すべての第二音声データに含まれない部分音声データを加入者側部分音声データと決定する。
【0036】
図9は、第2の実施形態に係る非加入者側音声データ及び加入者側音声データの一例である。非加入者側音声データは、第1の実施形態に係る方法により決定される。
【0037】
加入者側音声決定部149は、話者使用装置110α及び話者使用装置110βから受信したすべての第一音声データに含まれ、かつ第二音声データに含まれる音声データを、非加入者側部分音声データと決定する。
図8に示す例では、部分音声分類部144によって話者使用装置110α及び話者使用装置110βから受信した第一音声データ及び第二音声データのそれぞれについて、話者の分類がなされている。
【0038】
加入者側音声決定部149は、第一音声データに含まれる部分音声に対応する音声データが第二音声データに含まれるか否かを判定する。加入者側音声決定部149は、各部分音声の特徴量同士の距離に基づいて部分音声の対応関係を特定する。話者使用装置110において会話システム21のミュートが使用されていると、第一音声データの部分音声データに、対応する第二音声データの部分音声データが存在しないものが生じる。
図8に示す例において、話者使用装置110αの第一音声データの区間1の部分音声は、話者使用装置110βの第二音声データの区間1の部分音声に対応する。話者使用装置110αの第一音声データの区間6の部分音声は、話者使用装置110βの第二音声データの区間6の部分音声に対応する。話者使用装置110βの第一音声データの区間2の部分音声は、話者使用装置110αの第二音声データの区間2の部分音声に対応する。しかし、話者使用装置110αの第一音声データの区間3の部分音声は、話者使用装置110βの第二音声データの区間3の部分音声に対応しない。これは、区間3において話者使用装置110αがミュート機能を使用していたためである。そのため、加入者側音声決定部149は、第一音声データのうち、区間3における話者使用装置110Aの第一音声データを除いた音声データを加入者側音声データと決定する。
【0039】
認識結果取得部146は、非加入者側音声データ及び加入者側音声データの音声認識リクエストを音声認識装置22に出力し、音声認識装置22からそれぞれの音声認識結果を受信する。
【0040】
このように、第2の実施形態によれば、会話テキスト取得装置14は第一音声データに含まれるが第二音声データには含まれない音声データ(例えば、会話システム21においてミュートした音声データ)を加入者側音声データから取り除くことができる。これにより、品質の良い第一音声データを音声認識するとともに、音声データを会話システム21を介して行われた会話の音声データに対応する音声データにすることができる。
【0041】
上述した実施形態によれば、音声選択システム1のコンピュータ11の利用者は、オンラインで行われた会議・商談の見える化や振り返りを容易に行うことができる。また、出力される音声認識結果を使用して、記録されたオンライン会議・商談の内容を発話率、話速、口癖など複数の観点から分析することで、会議・商談の参加者を定量的に評価・ビジュアル化することが可能である。
【0042】
〈他の実施形態〉
上述した実施形態では、第二音声受信部142は、話者使用装置110から第二音声データを受信するが、これに限られない。例えば、他の実施形態における第二音声受信部142は、会話システム21から第二音声データを受信してもよい。会話システム21から受信する第二音声データは、会話システム21に参加する全てのコンピュータから出力された音声データを合成した音声データであってもよい。会話システム21から受信する第二音声データは、例えば、会話システム21が生成した録画データから抽出された音声データである。
【0043】
上述した実施形態では、会話システム21による会話の終了後に、話者使用装置110側が第一音声データ及び第二音声データを会話テキスト取得装置14に送信し、会話テキスト取得装置14が処理を行うが、これに限られない。例えば、話者使用装置110は、会話システム21による会話の間(例えば、会議中)に、取得した第一音声データ及び第二音声データを逐一会話テキスト取得装置14に送信することで、会話テキスト取得装置14は会話システム21による会話と並行して処理を行ってもよい。このとき、第一音声データ及び第二音声データは、例えばストリーミングやプログレッシブダウンロードにより伝送されてよい。なお、会話テキスト取得装置14の処理に関して、音声データの分割や分類等、分析のフロー(S204~S209)と音声認識処理の順番は前後しても良い。また、話者使用装置110が音声取得を行っている間、会話テキスト取得装置14は、音声認識処理のみを会話システム21による会話と並行して行い、全ての第一音声データ及び第二音声データが取得された後に音声データの分析を行っても良い。
【0044】
上述した実施形態では、音声選択システム1が複数の話者使用装置110を備えるが、これに限られない。例えば、他の実施形態における音声選択システム1が備える話者使用装置110は1つであってもよい。音声選択システム1が備える話者使用装置110は1つである場合、会話テキスト取得装置14は、音声データ分割部143、部分音声分類部144、非加入者側音声決定部145を備えなくてもよい。
【0045】
上述の話者使用装置110、会話テキスト取得装置14は、コンピュータに実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージに記憶されている。プロセッサは、プログラムをストレージから読み出してメインメモリに展開し、当該プログラムに従って上記処理を実行する。また、プロセッサは、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリに確保する。
【0046】
プログラムは、コンピュータに発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータは、上記構成に加えて、または上記構成に代えてPLD(Programmable Logic Device)などのカスタムLSI(Large Scale Integrated Circuit)を備えてもよい。PLDの例としては、PAL(Programmable Array Logic)、GAL(Generic Array Logic)、CPLD(Complex Programmable Logic Device)、FPGA(Field Programmable Gate Array)が挙げられる。この場合、プロセッサによって実現される機能の一部または全部が当該集積回路によって実現されてよい。
【0047】
ストレージの例としては、磁気ディスク、光磁気ディスク、半導体メモリ等が挙げられる。ストレージは、コンピュータのバスに直接接続された内部メディアであってもよいし、インターフェースまたは通信回線を介してコンピュータに接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータに配信される場合、配信を受けたコンピュータが当該プログラムをメインメモリに展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、ストレージは、一時的でない有形の記憶媒体である。
【0048】
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージに既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0049】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0050】
1 音声選択システム、11 コンピュータ、12 スピーカー、13 マイク、14 会話テキスト取得装置、21 会話システム、22 音声認識装置、110 話者使用装置、1101 第一音声取得部、1102 第二音声取得部、1103 音声送信部、141 第一音声受信部、142 第二音声受信部、143 音声データ分割部、144 部分音声分類部、145 非加入者側音声決定部、146 認識結果取得部、147 認識結果結合部、148 結合認識結果出力部、149 加入者側音声決定部