特開2022-115696 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2022-115696音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022115696

(43)【公開日】2022-08-09

(54)【発明の名称】音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20220802BHJP

G10L 15/28 20130101ALI20220802BHJP

G10L 15/00 20130101ALI20220802BHJP

【ＦＩ】

G10L15/22 200Z

G10L15/28 200

G10L15/00 200U

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021012411

(22)【出願日】2021-01-28

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】清水歩

(72)【発明者】

【氏名】三宅英和

(72)【発明者】

【氏名】鈴木優

(57)【要約】

【課題】サードベンダーが音声認識システムを提供する場合において、より音質の良い音声データを使用することができる音声選択システム、会話テキスト取得装置、会話テキスト取得方法、及びプログラムを提供することにある。
【解決手段】第一音声取得部は、話者使用装置のマイクに入力された第一音声データを取得する。第二音声受信部は、会話システムが生成する第二音声データを受信する。音声データ分割部は、第一音声データ及び第二音声データを複数の部分音声データに分割する。部分音声分類部は、分割された複数の部分音声データを話者別に分類する。非加入者側音声決定部は、複数の部分音声データのうち、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する。認識結果取得部は、第一音声データ及び非加入者側部分音声データの音声認識結果であるテキストデータを取得する。
【選択図】図１

【特許請求の範囲】

【請求項1】

話者使用装置と、
会話テキスト取得装置と、
を備える音声選択システムであって、
前記話者使用装置は、
前記話者使用装置のマイクに入力された音声を表す第一音声データを取得する第一音声取得部と、
前記第一音声データを前記会話テキスト取得装置に送信する音声送信部と、
を備え、
前記会話テキスト取得装置は、
前記音声送信部から前記第一音声データを受信する第一音声受信部と、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信部と、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割部と、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定部と、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得部
とを備える、
音声選択システム。

【請求項2】

話者使用装置から前記話者使用装置のマイクに入力された音声を表す第一音声データを受信する第一音声受信部と、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信部と、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割部と、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定部と、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得部と、
を備える会話テキスト取得装置。

【請求項3】

分割された前記複数の部分音声データを話者別に分類する部分音声分類部
をさらに備える請求項２に記載の会話テキスト取得装置。

【請求項4】

前記第二音声データは、前記会話システムが生成した前記話者使用装置のスピーカーから出力するための音声データである
請求項２または請求項３に記載の会話テキスト取得装置。

【請求項5】

前記非加入者側音声決定部は、
前記複数の部分音声データのうち、前記第一音声データに含まれる話者に分類されず、かつ、前記第二音声データに含まれる話者に分類された部分音声データを前記非加入者側部分音声データと決定する、
請求項２から請求項４の何れか１項に記載の会話テキスト取得装置。

【請求項6】

前記第一音声データから分割された部分音声データのうち、全ての前記第二音声データに含まれない部分音声データを加入者側部分音声データと決定する加入者側部分音声決定部を備え、
前記認識結果取得部は前記加入者側部分音声データ及び前記非加入者側部分音声データの音声認識結果を取得する、
請求項２から請求項５の何れか１項に記載の会話テキスト取得装置。

【請求項7】

話者使用装置から前記話者使用装置のマイクに入力された音声を表す第一音声データを受信する第一音声受信ステップと、
前記話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを前記複数のコンピュータに対して送信するシステムである会話システムが生成する、前記第二音声データを受信する第二音声受信ステップと、
前記第一音声データ及び前記第二音声データをある時点に基づいて複数の部分音声データに分割する音声データ分割ステップと、
分割された前記複数の部分音声データを話者別に分類する部分音声分類ステップと、
前記複数の部分音声データのうち、すべての前記第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する非加入者側音声決定ステップと、
前記第一音声データ及び前記非加入者側部分音声データの音声認識結果を取得する認識結果取得ステップと、
を有する会話テキスト取得方法。

【請求項8】

コンピュータに請求項７に記載の方法を実行させるためのプログラム。

【請求項9】

コンピュータに含まれる話者使用装置であって、前記コンピュータは、複数のコンピュータから受信した音声データを合成して各コンピュータに合成した第二音声データを送信する会話システムへ第一音声データを送信し、
マイクに入力された音声を表す前記第一音声データを取得する第一音声取得部と、
前記会話システムから前記第二音声データを取得する第二音声取得部と、
前記第一音声データ及び前記第二音声データを、音声認識結果を生成する会話テキスト取得装置に送信する音声送信部と
を備える話者使用装置。

【請求項10】

マイクに入力された音声を表す第一音声データを取得する第一音声取得ステップと、
複数のコンピュータから受信した音声データを合成して各コンピュータに合成した第二音声データを送信する会話システムへ、前記第一音声データを送信する第二音声送信ステップと、
前記会話システムから前記第二音声データを取得する第二音声取得ステップと、
前記第一音声データ及び前記第二音声データを、音声認識結果を生成する会話テキスト取得装置に送信する音声送信ステップと
を有する話者使用方法。

【請求項11】

コンピュータに請求項１０に記載の方法を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラムに関する。

【背景技術】

【0002】

オンラインの会議システムは、参加者が同じ場所に集まる必要がないなどの利便性から、その需要が高まっている。また、会議の参加者の発言を音声認識し、テキストとして保存するという方法で議事録が作成されることがある。

【0003】

オンラインの会議システムにおいて参加者の発言を音声認識するために、会議システムのベンダーとは異なるベンダーであるサードベンダーの提供する音声認識システムを利用したい場合がある。サードベンダーの音声認識システムを利用する場合、会議システムの録画機能によって得られる映像データから抽出された音声データや、会議の参加者のマイクから取得された音声データを、音声認識システムに入力することで、音声認識処理を実行することができる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－１６０４２５号公報

【0005】

しかし、会議システムから提供される映像データは、音声が圧縮されており音声認識に適さない可能性がある。また参加者全員から直接音声を取得する場合、参加者全員が音声収集用のアプリケーションを導入する必要があるが、例えば会社間の会議などにおいては、参加者全員からアプリケーションを導入することの同意が得られない可能性がある。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明が解決しようとする課題は、サードベンダーが音声認識システムを提供する場合において、より音質の良い音声データを使用することができる音声選択システム、会話テキスト取得装置、会話テキスト取得方法、話者使用装置、話者使用方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0007】

実施形態の音声選択システムは、話者使用装置と、会話テキスト取得装置とを持つ。
話者使用装置は、第一音声取得部と、第二音声取得部と、音声送信部とを持つ。
第一音声取得部は、話者使用装置のマイクに入力された音声を表す第一音声データを取得する。
第二音声取得部は、会話システムが生成した話者使用装置のスピーカーから出力するための音声データを表す第二音声データを取得する。会話システムは、話者使用装置を含む複数のコンピュータから音声データを受信し、受信した音声データを合成し、合成した音声データを表す第二音声データを複数のコンピュータそれぞれに対して送信する。
音声送信部は、第一音声データ及び第二音声データを会話テキスト取得装置に送信する。
会話テキスト取得装置は、第一音声受信部と、第二音声受信部と、音声データ分割部と、部分音声分類部と、非加入者側音声決定部と、認識結果取得部とを持つ。
第一音声受信部は、音声送信部から第一音声データを受信する。
第二音声受信部は、音声送信部から、第二音声データを受信する。
音声データ分割部は、第一音声データ及び第二音声データをある時点に基づいて複数の部分音声データに分割する。
部分音声分類部は、分割された複数の部分音声データを話者別に分類する。
非加入者側音声決定部は、複数の部分音声データのうち、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する。
認識結果取得部は、第一音声データ及び非加入者側部分音声データの音声認識結果を取得する。

【図面の簡単な説明】

【0008】

【図1】第１の実施形態に係る音声選択システムの構成を示す図。

【図2】第１の実施形態に係る話者使用装置１１０の構成を示す図。

【図3】第１の実施形態に係る会話テキスト取得装置１４の構成を示す図。

【図4】分類された第一音声データ及び第二音声データの一例。

【図5】非加入者側音声データの一例。

【図6】結合した音声認識結果の一例。

【図7】第１の実施形態に係る音声選択システム１の動作を示すフローチャート。

【図8】第２の実施形態に係る会話テキスト取得装置１４を示す図。

【図9】第２の実施形態に係る非加入者側音声データ及び加入者側音声データの一例を示す図。

【発明を実施するための形態】

【0009】

〈第１の実施形態〉
図１は、第１の実施形態に係る音声選択システム１の構成を示す図である。音声選択システム１は、会話システム２１を介して行われる会話を文字に起こしたテキストデータを生成するシステムである。会話システム２１は複数のコンピュータ１１から受信した音声データを合成し、合成した音声データを各コンピュータ１１に送信する。これにより、コンピュータ１１の利用者は、会話システム２１を介して他のコンピュータ１１の利用者と会話をすることができる。音声選択システム１は、後述する話者使用装置１１０、会話テキスト取得装置１４を備える。音声選択システム１は、話者使用装置１１０を複数備えてもよい。本実施形態では、会話システムによる会話の参加者のうち、音声選択システム１の利用者を加入者と呼び、他の参加者を非加入者と呼ぶ。

【0010】

話者使用装置１１０は会話システム２１を用いた会話を行う複数のコンピュータ１１の少なくとも１つに搭載される。話者使用装置１１０は、コンピュータ１１に組み込まれるデバイスであってもよく、コンピュータ１１にインストールされるソフトウェアであってもよい。コンピュータ１１はマイク１３及びスピーカー１２を備える。コンピュータ１１は、会話システム２１に対して音声データを送信する。ここで、マイク１３及びスピーカー１２が一体化していてもよい。また、マイク１３及びスピーカー１２はコンピュータ１１に内蔵されていてもよい。コンピュータ１１に搭載される話者使用装置１１０とは別の装置（例えば、会話システム２１に接続するためのフロントエンドアプリケーション）が、会話システム２１に対して音声データを送信してもよい。

【0011】

音声認識装置２２は、取得した音声データに対して音声認識を行う。音声認識とは、例えば、音声データに含まれる言葉を文字に起こすことである。また、音声認識装置２２は、生成した音声認識結果を出力する。音声認識結果は、例えば、テキストデータである。
音声認識装置２２は、音声認識結果にタイミング情報を付与する。タイミング情報は、音声を発したタイミングを示す情報であり、例えば、取得する音声データのストリームデータ量を使用して算出される。タイミング情報は、音声データの再生位置によって表されてもよいし、時刻によって表されてもよい。
また、音声認識装置２２は、音声選択システム１に含まれていても、含まれていなくてもどちらでもよい。

【0012】

図２は第１の実施形態に係る話者使用装置１１０の構成を示す図である。話者使用装置１１０は第一音声取得部１１０１、第二音声取得部１１０２及び音声送信部１１０３を備える。第一音声取得部１１０１は、マイク１３を介して話者使用装置１１０に入力された音声を第一音声データとして取得する。第二音声取得部１１０２は、会話システム２１から受信された第二音声データを取得する。第二音声データは、例えばコンピュータ１１のスピーカー１２より出力される音声データである。なお、第二音声データは、スピーカー１２の音声をループバックした音声でなく、会話システム２１から受信されたスピーカー１２出力用の音声データを直接録音することが好ましい。音声送信部１１０３は、第一音声データ及び第二音声データを会話テキスト取得装置１４に送信する。

【0013】

なお、第一音声データは、第二音声データよりも品質の良い音声データである。第二音声データは、会話システム２１においてリアルタイムに伝送する必要があるために圧縮された状態で提供されるが、第一音声データは、話者使用装置１１０が直接取得することができるため、話者使用装置１１０にて音声データの品質を自由に設定することができる。例えば、第一音声データは、第二音声データよりも圧縮率が低い音声データである。例えば、第一音声データは、第二音声データよりも単位時間当たりのデータ量が大きい。第一音声データは、無圧縮データまたはロスレス圧縮されたデータであることが好ましい。

【0014】

また、１つの話者使用装置１１０が取得する第一音声データと第二音声データの音声データは互いに重複しない。つまり、話者使用装置１１０の使用者が話者Ａであるとき、その話者使用装置１１０が取得する第二音声データには話者Ａが発した音声は含まれない。これは、会話システム２１を用いた会話においてスピーカー１２から本人の声が出力されないよう、会話システム２１が各コンピュータ１１に対して他のコンピュータ１１から受信した音声データを合成して出力するためである。

【0015】

図３は、第１の実施形態に係る会話テキスト取得装置１４の構成を示す図である。会話テキスト取得装置１４は、第一音声受信部１４１、第二音声受信部１４２、音声データ分割部１４３、部分音声分類部１４４、非加入者側音声決定部１４５、認識結果取得部１４６、認識結果結合部１４７、結合認識結果出力部１４８を備える。

【0016】

第一音声受信部１４１は、話者使用装置１１０から第一音声データを取得する。
第二音声受信部１４２は、話者使用装置１１０から第二音声データを取得する。

【0017】

音声データ分割部１４３は、第一音声データ及び第二音声データをある時点に基づいて複数の部分音声データに分割する。音声データ分割部１４３は、例えば、音声データの強度が一定値以下になった時点、話者が変わる時点、または発話がない区間などを区切りとして音声データを分割する。話者の切り替わりは、例えば周波数などの音声の特性を分析することによって推定される。

【0018】

部分音声分類部１４４は、第一音声データ及び第二音声データの部分音声データを話者ごとに分類する。部分音声分類部１４４は、例えば、部分音声データの特徴量を分析しクラスタリングを行うことにより、部分音声データを話者ごとに分類する。部分音声分類部１４４は、部分音声データを分類する際に、予め話者数が分かっているのであれば、当該話者数をクラスタ数に指定してクラスタリングを行うことで、部分音声データを話者ごとに分類してもよい。なお、部分音声分類部１４４は、第一音声データの部分音声データと第二音声データの部分音声データとをそれぞれ別個にクラスタリングする。このとき、第一音声データと第二音声データとで生成されるクラスタの境界が異なるが、話者ごとの特徴量は第一音声データと第二音声データとで変わらないため、部分音声分類部１４４は、クラスタ中心の比較を行うことなどによって、同一の話者に係るクラスタの組み合わせを特定することができる。

【0019】

図４は、分類された第一音声データ及び第二音声データの一例である。
以下、ｔ_Ｎ≦ｔ≦ｔ_Ｎ＋１の時間区間を区間Ｎと定義する。例えば、ｔ_１≦ｔ≦ｔ_２の時間区間を区間１と呼び、ｔ_４≦ｔ≦ｔ_５の時間区間を区間４と呼ぶ。

【0020】

図４においては、第一音声データは、区間１、区間３、区間６において発話があり、区間２、４、５において発話がない。したがって、第一音声データからは、区間１、３、６から部分音声が抽出される。また区間１、３、６に係る各部分音声が同一の話者に係るクラスタに分類される。第二音声データは、区間２、４、５において発話があり、区間１、３、６において発話がない。したがって、第二音声データからは、区間２、４、５から部分音声が抽出される。図４に示す例では、区間２、区間４、区間５に係る部分音声は、それぞれ異なる話者に係るクラスタに分類される。第一音声データに係るクラスタは、第二音声データに係るいずれのクラスタとも異なるため、第一音声データの部分音声の話者は、第二音声データの何れの話者とも異なることが分かる。

【0021】

非加入者側音声決定部１４５は、分割された第二音声データに基づいて、非加入者側部分音声データを決定する。図５は、非加入者側音声データの一例である。図５は、会話テキスト取得装置１４が、話者使用装置１１０α及び話者使用装置１１０βのそれぞれから第一音声データを受信した場合の非加入者側音声データを示す。なお、以下の説明は音声選択システム１が２つの話者使用装置１１０を含む場合の実施態様であるが、話者使用装置１１０の数を２つに限定することを意図するものではない。

【0022】

非加入者側音声決定部１４５は、話者使用装置１１０α及び話者使用装置１１０βから受信したすべての第二音声データに含まれる話者に係る部分音声データを、非加入者側部分音声データと決定する。分類は、発話のタイミングのみで行っても、音声の特徴量から得られるクラスタ分類を単独、もしくは併用してもよい。例えば、音声特徴量から得られるクラスタ分類を用いた場合は、次のようになる。図５に示す例では、部分音声分類部１４４によって話者使用装置１１０α及び話者使用装置１１０βから受信した第一音声データ及び第二音声データのそれぞれについて、話者の分類がなされている。部分音声分類部１４４は、話者使用装置１１０αから受信した第二音声データの区間２の部分音声が属するクラスタのクラスタ中心が、話者使用装置１１０βから受信した第一音声データの部分音声が属するクラスタ中心の近傍に位置するため、２つのクラスタが対応していると判定する。また部分音声分類部１４４は、話者使用装置１１０βから受信した第二音声データの区間１、３、６の部分音声が属するクラスタのクラスタ中心が、話者使用装置１１０αから受信した第一音声データの部分音声が属するクラスタ中心の近傍に位置するため、２つのクラスタが対応していると判定する。また部分音声分類部１４４は、話者使用装置１１０αから受信した第二音声データの区間４の部分音声が属するクラスタのクラスタ中心が、話者使用装置１１０βから受信した第二音声データの区間４の部分音声が属するクラスタ中心の近傍に位置するため、２つのクラスタが対応していると判定する。また部分音声分類部１４４は、話者使用装置１１０αから受信した第二音声データの区間５の部分音声が属するクラスタのクラスタ中心が、話者使用装置１１０βから受信した第二音声データの区間５の部分音声が属するクラスタ中心の近傍に位置するため、２つのクラスタが対応していると判定する。そのため、２つの第二音声データにともに含まれる部分音声データは、第二音声データの区間４及び区間５の部分音声データである。

【0023】

認識結果取得部１４６は、音声認識装置２２に第一音声データの部分音声データ及び非加入者側部分音声データの音声認識リクエストを送信し、音声認識装置２２から、音声認識結果を取得する。

【0024】

認識結果結合部１４７は、取得した音声認識結果をタイミング情報に基づいて結合する。図６は結合した音声認識結果の一例である。音声認識結果は音声の内容を示すテキストデータであり、また、タイミング情報が付与される。したがって、認識結果結合部１４７は、取得した音声認識結果をタイミング情報が示す時刻の昇順に並べることで、会話の順に音声認識結果を並べたデータを生成することができる。

【0025】

なお、第一音声データ及び第二音声データのタイミング情報は必ずしも同一のタイミングを示しているとは限らない。これは、第二音声データは１つの話者使用装置１１０から会話システム２１を経由して話者使用装置１１０に送信される音声データであり、第一音声データのタイミングよりも遅れが生じるためである。そのため、認識結果結合部１４７は、１つの話者使用装置１１０からの音声データの音声認識結果に付与されるタイミング情報を基準とする。具体的には、認識結果結合部１４７は、以下の手順で音声認識結果のタイミングを決定する。

【0026】

認識結果結合部１４７は、部分音声分類部１４４による第一音声データ及び第二音声データの部分音声の分類結果から、同一の発言を表す部分音声の組み合わせを特定する。具体的には、各部分音声について特徴量同士の距離が所定の閾値以下となる組み合わせを、同一の発言を表す部分音声の組み合わせとして特定する。例えば、図５に示す例では、話者使用装置１１０αの第一音声データの区間１に対応する部分音声の特徴量と、話者使用装置１１０βの第二音声データの区間１に対応する部分音声の特徴量との距離が閾値未満である場合に、この２つの部分音声データが同一の発言を表すものとして特定する。認識結果結合部１４７は、第一音声データの部分音声データの音声認識結果のタイミング情報を、当該部分音声データに対応する第二音声データの部分音声データのタイミングに基づいて書き換える。これにより、認識結果結合部は、音声認識結果のタイミング情報を同期させることができる。

【0027】

また認識結果結合部１４７は、部分音声分類部１４４が特定した各部分音声データの分類結果を用いることで、発言ごとに話者を示す記号を付すことができる。また、認識結果結合部１４７は、第一音声データの部分音声データによる音声認識結果であるか第二音声データの部分音声データによる音声認識結果であるかの区別を、メタデータとして持つことができる。これにより、利用者は発言内容が加入者側の発言であるか非加入者側の発言であるかを認識することができる。音声認識結果を結合させることで、認識結果結合部１４７は図６に示すようなデータを作成することができる。図６において、左側に配置されたテキストが加入者側の発言を示し、右側に配置されたテキストが非加入者側の発言を示す。

【0028】

結合認識結果出力部１４８は、結合された音声認識結果を話者使用装置１１０に出力する。

【0029】

〈第１の実施形態のフローチャート〉
図７は、第１の実施形態に係る音声選択システム１の動作を示すフローチャートである。会話システム２１による会話サービスが開始されると、話者使用装置１１０の第一音声取得部１１０１は、話者使用装置１１０のマイク１３に入力される音声を録音し、第一音声データとして記憶部への記録を開始する（ステップＳ１０１）。また、第二音声取得部１１０２は、会話システム２１から受信されたスピーカー１２出力用の音声データを、第二音声データとして記憶部への記録を開始する（ステップＳ１０２）。

【0030】

会話システム２１による会話サービスが終了すると、第一音声取得部１１０１は第一音声データの記録を終了し、第二音声取得部１１０２は第二音声データの記録を終了する（ステップＳ１０３）。なお、会話サービスの終了は、話者使用装置１１０が会話システム２１を監視することで自動的に決定されてもよく、話者使用装置１１０への入力により決定されてもよい。音声送信部１１０３は、第一音声データを会話テキスト取得装置１４に送信する（ステップＳ１０４）。音声送信部１１０３は、第二音声データを会話テキスト取得装置１４に送信する（ステップＳ１０５）。

【0031】

会話テキスト取得装置１４の第一音声受信部１４１は、話者使用装置１１０から第一音声データを受信する（ステップＳ２０４）。第二音声受信部１４２は、話者使用装置１１０から第二音声データを受信する（ステップＳ２０５）。音声データ分割部１４３は、第一音声データ及び第二音声データを複数の部分音声データに分割する（ステップＳ２０６）。その後、部分音声分類部１４４は、分割された複数の部分音声データを話者別に分類する（ステップＳ２０７）。

【0032】

非加入者側音声決定部１４５は、すべての第二音声データに含まれる部分音声データを非加入者側部分音声データと決定する（ステップＳ２０８）。非加入者側音声決定部１４５は、第一音声データ及び非加入者側部分音声データを音声認識装置２２に送信する（ステップＳ２０９）。音声認識装置２２は受信した音声データを音声認識し、音声認識結果を生成する。音声認識装置２２は、音声認識結果を認識結果取得部１４６に出力する。認識結果取得部１４６は音声認識装置２２から音声認識結果を取得する（ステップＳ２１０）。認識結果結合部１４７は、音声認識結果を結合する（ステップＳ２１１）。結合認識結果出力部は、結合した音声認識結果を話者使用装置１１０に出力する（ステップＳ２１２）。

【0033】

このように、第１の実施形態によれば、会話テキスト取得装置１４は、マイク１３から取得した第一音声データ及び非加入者側音声データが結合された音声認識結果を取得する。つまり、第１の実施形態に係る会話テキスト取得装置１４は、第二音声データを用いることで、会話の音声認識の漏れをなくし、マイク１３から取得した第一音声データを用いることで、音声認識の精度を向上させることができる。

【0034】

〈第２の実施形態〉
図８は第２の実施形態に係る会話テキスト取得装置１４を示す図である。第２の実施形態に係る会話テキスト取得装置１４は、会話システム２１においてミュートされた音声を避けて音声認識を実行させる。会話システム２１は、ミュート機能を有する。ミュート機能とは、コンピュータ１１に入力する音声を会話システム２１の他の利用者に出力しないようにする機能である。

【0035】

第２の実施形態に係る会話テキスト取得装置１４は、第１の実施形態に係る会話テキスト取得装置１４の構成に加え、さらに加入者側音声決定部１４９を備える。加入者側音声決定部１４９は、第一音声データに含まれる部分音声データのうち、すべての第二音声データに含まれない部分音声データを加入者側部分音声データと決定する。

【0036】

図９は、第２の実施形態に係る非加入者側音声データ及び加入者側音声データの一例である。非加入者側音声データは、第１の実施形態に係る方法により決定される。

【0037】

加入者側音声決定部１４９は、話者使用装置１１０α及び話者使用装置１１０βから受信したすべての第一音声データに含まれ、かつ第二音声データに含まれる音声データを、非加入者側部分音声データと決定する。図８に示す例では、部分音声分類部１４４によって話者使用装置１１０α及び話者使用装置１１０βから受信した第一音声データ及び第二音声データのそれぞれについて、話者の分類がなされている。

【0038】

加入者側音声決定部１４９は、第一音声データに含まれる部分音声に対応する音声データが第二音声データに含まれるか否かを判定する。加入者側音声決定部１４９は、各部分音声の特徴量同士の距離に基づいて部分音声の対応関係を特定する。話者使用装置１１０において会話システム２１のミュートが使用されていると、第一音声データの部分音声データに、対応する第二音声データの部分音声データが存在しないものが生じる。図８に示す例において、話者使用装置１１０αの第一音声データの区間１の部分音声は、話者使用装置１１０βの第二音声データの区間１の部分音声に対応する。話者使用装置１１０αの第一音声データの区間６の部分音声は、話者使用装置１１０βの第二音声データの区間６の部分音声に対応する。話者使用装置１１０βの第一音声データの区間２の部分音声は、話者使用装置１１０αの第二音声データの区間２の部分音声に対応する。しかし、話者使用装置１１０αの第一音声データの区間３の部分音声は、話者使用装置１１０βの第二音声データの区間３の部分音声に対応しない。これは、区間３において話者使用装置１１０αがミュート機能を使用していたためである。そのため、加入者側音声決定部１４９は、第一音声データのうち、区間３における話者使用装置１１０Ａの第一音声データを除いた音声データを加入者側音声データと決定する。

【0039】

認識結果取得部１４６は、非加入者側音声データ及び加入者側音声データの音声認識リクエストを音声認識装置２２に出力し、音声認識装置２２からそれぞれの音声認識結果を受信する。

【0040】

このように、第２の実施形態によれば、会話テキスト取得装置１４は第一音声データに含まれるが第二音声データには含まれない音声データ（例えば、会話システム２１においてミュートした音声データ）を加入者側音声データから取り除くことができる。これにより、品質の良い第一音声データを音声認識するとともに、音声データを会話システム２１を介して行われた会話の音声データに対応する音声データにすることができる。

【0041】

上述した実施形態によれば、音声選択システム１のコンピュータ１１の利用者は、オンラインで行われた会議・商談の見える化や振り返りを容易に行うことができる。また、出力される音声認識結果を使用して、記録されたオンライン会議・商談の内容を発話率、話速、口癖など複数の観点から分析することで、会議・商談の参加者を定量的に評価・ビジュアル化することが可能である。

【0042】

〈他の実施形態〉
上述した実施形態では、第二音声受信部１４２は、話者使用装置１１０から第二音声データを受信するが、これに限られない。例えば、他の実施形態における第二音声受信部１４２は、会話システム２１から第二音声データを受信してもよい。会話システム２１から受信する第二音声データは、会話システム２１に参加する全てのコンピュータから出力された音声データを合成した音声データであってもよい。会話システム２１から受信する第二音声データは、例えば、会話システム２１が生成した録画データから抽出された音声データである。

【0043】

上述した実施形態では、会話システム２１による会話の終了後に、話者使用装置１１０側が第一音声データ及び第二音声データを会話テキスト取得装置１４に送信し、会話テキスト取得装置１４が処理を行うが、これに限られない。例えば、話者使用装置１１０は、会話システム２１による会話の間（例えば、会議中）に、取得した第一音声データ及び第二音声データを逐一会話テキスト取得装置１４に送信することで、会話テキスト取得装置１４は会話システム２１による会話と並行して処理を行ってもよい。このとき、第一音声データ及び第二音声データは、例えばストリーミングやプログレッシブダウンロードにより伝送されてよい。なお、会話テキスト取得装置１４の処理に関して、音声データの分割や分類等、分析のフロー（Ｓ２０４～Ｓ２０９）と音声認識処理の順番は前後しても良い。また、話者使用装置１１０が音声取得を行っている間、会話テキスト取得装置１４は、音声認識処理のみを会話システム２１による会話と並行して行い、全ての第一音声データ及び第二音声データが取得された後に音声データの分析を行っても良い。

【0044】

上述した実施形態では、音声選択システム１が複数の話者使用装置１１０を備えるが、これに限られない。例えば、他の実施形態における音声選択システム１が備える話者使用装置１１０は１つであってもよい。音声選択システム１が備える話者使用装置１１０は１つである場合、会話テキスト取得装置１４は、音声データ分割部１４３、部分音声分類部１４４、非加入者側音声決定部１４５を備えなくてもよい。

【0045】

上述の話者使用装置１１０、会話テキスト取得装置１４は、コンピュータに実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージに記憶されている。プロセッサは、プログラムをストレージから読み出してメインメモリに展開し、当該プログラムに従って上記処理を実行する。また、プロセッサは、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリに確保する。

【0046】

プログラムは、コンピュータに発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータは、上記構成に加えて、または上記構成に代えてＰＬＤ（Programmable Logic Device）などのカスタムＬＳＩ（Large Scale Integrated Circuit）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）が挙げられる。この場合、プロセッサによって実現される機能の一部または全部が当該集積回路によって実現されてよい。

【0047】

ストレージの例としては、磁気ディスク、光磁気ディスク、半導体メモリ等が挙げられる。ストレージは、コンピュータのバスに直接接続された内部メディアであってもよいし、インターフェースまたは通信回線を介してコンピュータに接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータに配信される場合、配信を受けたコンピュータが当該プログラムをメインメモリに展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージは、一時的でない有形の記憶媒体である。

【0048】

また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージに既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0049】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0050】

１音声選択システム、１１コンピュータ、１２スピーカー、１３マイク、１４会話テキスト取得装置、２１会話システム、２２音声認識装置、１１０話者使用装置、１１０１第一音声取得部、１１０２第二音声取得部、１１０３音声送信部、１４１第一音声受信部、１４２第二音声受信部、１４３音声データ分割部、１４４部分音声分類部、１４５非加入者側音声決定部、１４６認識結果取得部、１４７認識結果結合部、１４８結合認識結果出力部、１４９加入者側音声決定部

【図1】