特許7539278 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特許7539278情報処理装置、プログラム、および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-15

(45)【発行日】2024-08-23

(54)【発明の名称】情報処理装置、プログラム、および情報処理方法

(51)【国際特許分類】

G10L 15/00 20130101AFI20240816BHJP

G10L 15/22 20060101ALI20240816BHJP

【ＦＩ】

G10L15/00 200U

G10L15/22 460Z

【請求項の数】 9

(21)【出願番号】P 2020154373

(22)【出願日】2020-09-15

(65)【公開番号】P2022048516

(43)【公開日】2022-03-28

【審査請求日】2023-06-30

(73)【特許権者】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】福江尚史

(72)【発明者】

【氏名】小西啓介

【審査官】山下剛史

(56)【参考文献】

【文献】特開２０１６－２１１９６（ＪＰ，Ａ）

【文献】特開平１０－３２２４５０（ＪＰ，Ａ）

【文献】特開２０１５－１８４５６４（ＪＰ，Ａ）

【文献】特開２０００－３３８９９１（ＪＰ，Ａ）

【文献】特開２０１７－１９１５３３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１４／０１６３９８１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

情報処理装置であって、
第１発話者による第１音声の第１音声データを取得する第１音声取得部と、
前記第１音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第１音声データに基づいて、前記第１音声を再生する再生部と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する第２音声取得部と、
前記第１音声データと前記第２音声データとに基づいて、前記第１音声の第１認識結果を示す第１テキスト情報と、前記第２音声の第２認識結果を示す第２テキスト情報と、を取得する認識結果取得部と、
前記第１テキスト情報と前記第２テキスト情報とに基づいて、テキストによる前記第１発話者の発話の記録データを生成する記録生成部と、
前記第１音声データと前記第２音声データとに基づいて、前記第１発話者と前記情報処理装置との間の第１距離と、前記第２発話者と前記情報処理装置との間の第２距離と、を推定する推定部と、
前記第１音声の第１音量および前記第２音声の第２音量の組み合わせ、または前記第１距離および前記第２距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第１認識結果および前記第２認識結果のそれぞれの認識精度を算定する精度算定部と、
ユーザのユーザ端末に前記認識精度を表示させる表示部と、を備える、
情報処理装置。

【請求項2】

前記音声データから、前記第１音声データの複数の区間に対応する複数の第１発話データと、前記第２音声データの複数の区間に対応する複数の第２発話データを生成する発話データ生成部、をさらに備え、
前記認識結果取得部は、前記第１発話データと前記第２発話データに基づいて、前記複数の区間ごとに区分けされた前記第１テキスト情報と前記第２テキスト情報とを取得し、
前記情報処理装置は、前記複数の区間ごとに、前記第１テキスト情報と前記第２テキスト情報とを比較する比較部をさらに備え、
前記記録生成部は、前記比較部による比較結果に基づいて、前記記録データを生成する、
請求項１に記載の情報処理装置。

【請求項3】

前記比較結果を、前記ユーザ端末に表示させる前記表示部と、
前記ユーザ端末から、前記複数の区間それぞれに対して、前記第１テキスト情報と前記第２テキスト情報のいずれを前記第１発話者の発話の記録として採用するかの選択を受け付ける受付部と、
前記記録生成部は、さらに前記受付部が受け付けた選択に基づいて、前記第１テキスト情報と第２テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項２に記載の情報処理装置。

【請求項4】

前記第１認識結果および前記第２認識結果それぞれの信頼度を算出する信頼度算出部をさらに備え、
前記表示部は、前記比較結果と併せて、前記ユーザ端末に前記信頼度を表示させる、
請求項３に記載の情報処理装置。

【請求項5】

前記表示部は、前記第１テキスト情報と前記第２テキスト情報とが前記比較結果で不一致だった前記区間について、前記区間の第１テキスト情報または前記第２テキスト情報を編集するための編集フォームを前記ユーザ端末に表示させ、
前記受付部は、前記ユーザ端末から、前記編集フォームに対して前記ユーザが入力したテキスト情報を受け付けて、
前記記録生成部は、前記不一致だった前記区間について、前記受付部が受け付けたテキスト情報で前記第１テキスト情報または前記第２テキスト情報を上書きして、前記記録データを生成する、
請求項３に記載の情報処理装置。

【請求項6】

前記第１発話者と前記情報処理装置との間の第１距離と、前記第２発話者と前記情報処理装置との間の第２距離と、を推定する推定部と、
前記第１音声の第１音量および前記第２音声の第２音量の組み合わせ、または前記第１距離および前記第２距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第１認識結果および前記第２認識結果のそれぞれの認識精度を算定する精度算定部と、
前記第１認識結果および前記第２認識結果それぞれの信頼度を算出する信頼度算出部と、
前記第１テキスト情報と前記第２テキスト情報とが前記比較結果で不一致だった前記区間について、前記信頼度または前記認識精度の少なくともいずれかに基づいて、前記第１テキスト情報と第２テキスト情報のいずれを前記第１発話者の発話の記録として採用するかを選択する選択部と、
前記記録生成部は、さらに前記選択部による選択結果に基づいて、前記第１テキスト情報と第２テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項２に記載の情報処理装置。

【請求項7】

音声合成処理を用いて、前記第１テキスト情報に基づいて、第３音声を出力するための第３音声データを生成する音声データ生成部と、
前記第１音声データおよび前記第３音声データを、前記第１音声と前記第３音声とをステレオフォニック再生するためのステレオ音声データに加工する加工部と、
前記再生部は、前記ステレオ音声データに基づいて、前記復唱モードが設定された場合に、前記第１音声の再生をする代わりに、前記ステレオフォニック再生をする、
請求項１から６のいずれか一項に記載の情報処理装置。

【請求項8】

コンピュータに、
第１発話者による第１音声の第１音声データを取得する第１音声機能と、
前記第１音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第１音声データに基づいて、前記第１音声を再生する再生機能と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する第２音声取得機能と、
前記第１音声データと前記第２音声データとに基づいて、前記第１音声の第１認識結果を示す第１テキスト情報と、前記第２音声の第２認識結果を示す第２テキスト情報と、を取得する認識結果取得機能と、
前記第１テキスト情報と前記第２テキスト情報とに基づいて、テキストによる前記第１発話者の発話の記録データを生成する記録生成機能と、
前記第１音声データと前記第２音声データとに基づいて、前記第１発話者と前記コンピュータとの間の第１距離と、前記第２発話者と前記コンピュータとの間の第２距離と、を推定する推定機能と、
前記第１音声の第１音量および前記第２音声の第２音量の組み合わせ、または前記第１距離および前記第２距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第１認識結果および前記第２認識結果のそれぞれの認識精度を算定する精度算定機能と、
ユーザのユーザ端末に前記認識精度を表示させる表示機能と、を実現させる、
プログラム。

【請求項9】

コンピュータが、
第１発話者による第１音声の第１音声データを取得し、
前記第１音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第１音声データに基づいて、前記第１音声を再生し、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得し、
前記第１音声データと前記第２音声データとに基づいて、前記第１音声の第１認識結果を示す第１テキスト情報と、前記第２音声の第２認識結果を示す第２テキスト情報と、を取得し、
前記第１テキスト情報と前記第２テキスト情報とに基づいて、テキストによる前記第１発話者の発話の記録データを生成し、
前記第１音声データと前記第２音声データとに基づいて、前記第１発話者と前記コンピュータとの間の第１距離と、前記第２発話者と前記コンピュータとの間の第２距離と、を推定し、
前記第１音声の第１音量および前記第２音声の第２音量の組み合わせ、または前記第１距離および前記第２距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第１認識結果および前記第２認識結果のそれぞれの認識精度を算定し、
ユーザのユーザ端末に前記認識精度を表示させる、
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、プログラム、および情報処理方法に関する。

【背景技術】

【0002】

従来、会議での発話者の音声を取得し、音声認識技術を用いて取得した音声に基づいて議事録を作成する技術が知られている。

【0003】

下記特許文献１に開示されている議事録作成システムでは、発話者の音声を予め設定された辞書を用いて音声認識を行い、その結果認識されなかった用語について、第２の辞書に対して認識要求を出力する。そして、議事録作成システムでは、第２の辞書による認識結果を受信して、議事録を作成する。このような議事録作成システムによれば、予め設定された辞書で音声認識できなかったところを第２の辞書による音声認識で補うことができるため、認識精度を向上させることが可能になる。そして、議事録作成者が作成された議事録を確認して修正する作業を減らすことができる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１７－１９１５３３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１の議事録作成システムでは、会議での発話者の音声がそもそも認識しづらい音声（例えば、音量が小さいなど）であった場合、第２の辞書による認識であっても認識が困難なため、議事録作成者の修正する作業を減らすことができないという問題がある。

【0006】

そこで、本発明は、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様に係る情報処理装置は、第１発話者による第１音声の第１音声データを取得する第１音声取得部と、第１音声を復唱する音声を取得するための復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生する再生部と、復唱モードが設定された場合に、復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する第２音声取得部と、第１音声データと第２音声データとに基づいて、第１音声の第１認識結果を示す第１テキスト情報と、第２音声の第２認識結果を示す第２テキスト情報と、を取得する認識結果取得部と、第１テキスト情報と第２テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成部と、を備える。

【0008】

本発明の一態様に係るプログラムは、コンピュータに、第１発話者による第１音声の第１音声データを取得する第１音声機能と、第１音声を復唱する音声を取得するための復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生する再生機能と、復唱モードが設定された場合に、復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する第２音声取得機能と、第１音声データと第２音声データとに基づいて、第１音声の第１認識結果を示す第１テキスト情報と、第２音声の第２認識結果を示す第２テキスト情報と、を取得する認識結果取得機能と、第１テキスト情報と第２テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成機能と、を実現させる。

【0009】

本発明の一態様に係る情報処理方法は、コンピュータが、第１発話者による第１音声の第１音声データを取得し、第１音声を復唱する音声を取得するための復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生し、復唱モードが設定された場合に、復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得し、第１音声データと第２音声データとに基づいて、第１音声の第１認識結果を示す第１テキスト情報と、第２音声の第２認識結果を示す第２テキスト情報と、を取得し、第１テキスト情報と第２テキスト情報とに基づいて、テキストによる発話の記録データを生成する。

【発明の効果】

【0010】

本発明によれば、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することができる。

【図面の簡単な説明】

【0011】

【図1】本実施形態に係る議事録作成システムのシステム構成例を説明するための図である。

【図2】本実施形態に係る議事録作成システムの概要を説明するための図である。

【図3】本実施形態に係る記録装置の機能構成の一例を示す図である。

【図4】本実施形態に係る議事録作成システムの画面例の一例を示す図である。

【図5】本実施形態に係る議事録作成システムの認識率と音量または発話者との距離との関係の一例を示す図である。

【図6】本実施形態に係る議事録作成システムのパワーと周波数との関係の一例を示す図である。

【図7】本実施形態に係る記録装置の動作例を示す図である。

【図8】本実施形態に係る記録装置のハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0012】

添付図面を参照して、本発明の好適な実施形態（以下、「本実施形態」という）について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。

【0013】

本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されてもよい。

【0014】

＜１．システム構成＞
図１を参照して、本実施形態に係わる議事録作成システム１のシステム構成例を説明する。議事録作成システム１は、ユーザの会議などでの発話の内容を議事録として記録するシステムである。しかしながら、本発明をこれに限る趣旨ではない。本発明は、議事録に限らずに、ユーザの発話の内容を記録する諸々のシステムに適用可能である。図１に示すように、議事録作成システム１は、記録装置１００と、ユーザ端末２００とを含む。また議事録作成システム１は、ネットワークＮを介して音声認識システム３００と接続さている。

【0015】

ネットワークＮは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙ－ｐｈｏｎｅＳｙｓｔｅｍ）網、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、３Ｇ（３ｒｄＧｅｎｅｒａｔｉｏｎ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、４Ｇ（４ｔｈＧｅｎｅｒａｔｉｏｎ）、５Ｇ（５ｔｈＧｅｎｅｒａｔｉｏｎ）、ＷｉＭａｘ（登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、有線ＬＡＮ、電話線、電灯線ネットワーク、ＩＥＥＥ１３９４等に準拠したネットワークがある。

【0016】

記録装置１００は、ユーザ端末２００や音声認識システム３００との通信が可能な情報処理装置である。記録装置１００は、後述の第１発話者や第２発話者の音声を取得して、取得した音声を音声認識によりテキストに変換して記録する。

【0017】

記録装置１００は、取得した音声に対話などで応答する、いわゆるスマートスピーカーであるが、これに限る趣旨ではない。記録装置１００は、他の例として、汎用のタブレット端末やスマートフォンなどであってもよい。記録装置１００は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末などを記録装置１００として使用してもよい。

【0018】

ユーザ端末２００は、ユーザからの要求の受け付けの入力や記録装置１００との通信が可能なスマートフォンやラップトップ端末などの情報処理装置である。ユーザ端末２００は、所定のプログラムを実行することにより、記録装置１００と連携して、音声認識により記録されたテキストデータ（以下、「記録データ」ともいう）を表示させたり、この記録データを編集するためのフォームを表示させてテキストデータの編集を可能にさせたりする。

【0019】

ユーザは、第１発話者と第２発話者とを含み、発話者以外にも議事録作成の担当者など議事録作成システム１に関わる者を含む。

【0020】

音声認識システム３００は、記録装置１００と通信の通信が可能なシステムである。音声認識システム３００は、記録装置１００から受信したユーザの音声を示す音声データ（以下、単に「音声データ」ともいう）に基づいてユーザの音声を認識する。

【0021】

＜２．システム概要＞
図２を参照して、議事録作成システム１の概要を説明する。

【0022】

（１）図２に示すように、記録装置１００の第１音声取得部１３１は、第１発話者による第１音声として「会議を始めます」の第１音声データを取得する。（２）記録装置１００の認識結果取得部１１２は、上記（１）の取得した第１音声データに基づいて、第１音声の音声認識を音声認識システム３００に指示する。（３）記録装置１００の認識結果取得部１１２は、音声認識システム３００から、第１音声の第１認識結果を示す第１テキスト情報を取得する。

【0023】

「第１発話者」とは、議事録作成システム１の記録対象の第１音声を発声する者である。第１発話者は、例えば、会議における発言者であってもよい。

【0024】

（４）記録装置１００の再生部１５１は、第２発話者の指定などにより復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生する。すなわち、再生部１５１は、第１音声「会議を始めます」を出力する。ここで「復唱モード」とは、第１音声を復唱する音声（第２音声）を取得するための動作モードである。また、復唱モードは、第２音声を取得するために第１音声を再生する動作モードであってもよい。

【0025】

（５）復唱モードが設定された場合、第１音声を聴きながら第２発話者が復唱して第２音声「会議を始めます」を発声すると、記録装置１００の第２音声取得部１３２は、この復唱する第２音声の第２音声データを取得する。（６）記録装置１００の認識結果取得部１１２は、上記（５）の取得した第２音声データに基づいて、第２音声の音声認識を音声認識システム３００に指示する。（３）記録装置１００の認識結果取得部１１２は、音声認識システム３００から、第２音声の第２認識結果を示す第２テキスト情報を取得する。

【0026】

「第２発話者」とは、第１音声を復唱して第２音声を発声する者である。なお、「第１発話者」と「第２発話者」について、特に区別の必要がない場合、以降、総称して「発話者」ともいう。

【0027】

「第１音声データ」と「第２音声データ」について、特に区別の必要がない場合、以降、総称して「音声データ」ともいう。

【0028】

「第１認識結果」と「第２認識結果」について、特に区別の必要がない場合、以降、総称して「認識結果」ともいう。

【0029】

「第１テキスト情報」と「第２テキスト情報」について、特に区別の必要がない場合、以降、総称して「テキスト情報」ともいう。

【0030】

（７）記録装置１００の比較部１１３は、第１テキスト情報と第２テキスト情報とを比較する。（８）記録装置１００の記録生成部１１４は、上記（７）の比較結果ならびに第１テキスト情報および第２テキスト情報に基づいて、議事録としてテキストによる記録データを生成する。記録生成部１１４は、例えば、第２テキスト情報との比較結果により不一致だった第１テキスト情報の箇所について、第２テキスト情報に置き換えて記録データを生成してもよい。

【0031】

上記構成によれば、記録装置１００は、会議での第１発話者の第１音声が認識しづらい音声であっても第１音声を復唱した第２音声の音声認識結果との比較によりテキストによる記録データを議事録として生成することができる。このため、上記構成によれば、記録装置１００は、精度よく議事録を作成することができる。

【0032】

＜３．機能構成＞
図４を参照して、本実施形態に係る記録装置１００の機能構成を説明する。図４に示すように、記録装置１００は、制御部１１０と、音声取得部１３０と、通信部１４０と、出力部１５０と、記憶部１６０と、を備える。

【0033】

制御部１１０は、認識結果取得部１１２と、記録生成部１１４と、を備える。また、制御部１１０は、例えば、音声認識部１１１、比較部１１３、発話データ生成部１１５、表示部１１６、受付部１１７、信頼度算出部１１８、推定部１１９、精度算定部１２０、音声データ生成部１２１、または加工部１２２を備えてもよい。

【0034】

制御部１１０は、受付部１１７が受け付けた復唱モードの指定に基づいて、記録装置１００の動作モードを復唱モードに設定する。

【0035】

音声認識部１１１は、音声取得部１３０により取得された発話者の音声データを認識する。音声認識部１１１は、この認識の結果を示すテキスト情報を生成する。音声認識部１１１は、例えば、認識結果取得部１１２からの音声認識の指示により、音声取得部１３０が取得した音声データを、音声認識技術を用いてテキスト情報に変換してもよい。音声認識部１１１は、例えば、自己の認識率を算出してもよい。

【0036】

音声認識部１１１は、例えば、通信部１４０が音声認識システム３００に音声データを送信している途中で音声認識システム３００との通信が不可能になった場合、未送信の音声データの音声に基づいてテキスト情報を生成してもよい。

【0037】

認識結果取得部１１２は、音声取得部１３０により取得された第１音声データに基づいて、第１音声の第１認識結果を示す第１テキスト情報を取得する。また、認識結果取得部１１２は、音声取得部１３０により取得された第２音声データに基づいて、第２音声の第２認識結果を示す第２テキスト情報を取得する。認識結果取得部１１２は、例えば、第１音声データと第２音声データとに基づいて、音声認識システム３００または音声認識部１１１にこれらの音声データの音声認識を指示する。認識結果取得部１１２は、この指示に対する応答として、第１テキスト情報と第２テキスト情報とを取得する。

【0038】

認識結果取得部１１２は、例えば、後述の発話データ生成部１１５が生成した第１発話データと第２発話データに基づいて、複数の区間ごとに区分けされた第１テキスト情報と第２テキスト情報とを取得してもよい。

【0039】

「区間」とは、例えば、音声データ（デジタル信号）において音声レベルがゼロまたは所定の閾値以下となる無音区間と、音声レベルがゼロより大きいまたは所定の閾値を超える発話区間（有音区間）と、を含んでもよい。また区間は、他の例として、所定期間ごとに区切られた範囲であってもよい。

【0040】

比較部１１３は、第１テキスト情報と、第２テキスト情報と、を比較する。比較部１１３は、例えば、複数の区間ごとに、第１テキスト情報と第２テキスト情報とを比較してもよい。比較部１１３は、比較結果として、第１テキスト情報と第２テキスト情報とが一致しているか、または第１テキスト情報と第２テキスト情報とが不一致であるかを出力する。

【0041】

比較部１１３は、例えば、複数の発話区間ごとに、第１テキスト情報と第２テキスト情報のどちらの音声の認識精度（以下、単に「認識精度」ともいう）が高いか比較してもよい。認識精度は、例えば、音声認識処理における認識率であってもよい。比較部１１３は、この比較結果を、精度フラグに設定してもよい。ここで「精度フラグ」とは、区間ごとに、第１テキスト情報および第２テキスト情報のどちらのテキスト情報の認識精度が高いかを示す情報である。精度フラグには、例えば、相対的に認識精度が高い方に「１」が設定され、他方（相対的に認識精度が低い方）に「０」が設定される。

【0042】

記録生成部１１４は、第１テキスト情報と第２テキスト情報とに基づいて、テキストによる発話の記録データを生成する。ここでいう「発話の記録データ」は、例えば、会議の議事録となるデータであってもよい。なお、発話の記録データは、以降、単に「記録データ」ともいう。

【0043】

上記構成によれば、記録生成部１１４は、例えば、会議での第１発話者の第１音声が認識しづらい音声であっても、第１音声を復唱した第２音声の音声認識結果である第２テキスト情報も用いることで第１テキスト情報を補うことができる。このため、上記構成によれば、記録生成部１１４は、精度よく記録データを議事録として生成することができる。

【0044】

記録生成部１１４は、例えば、比較部１１３による比較結果に基づいて、記録データを生成してもよい。記録生成部１１４は、例えば、精度フラグに基づいて、複数の発話区間ごとに、第１テキスト情報と第２テキスト情報に対して、比較部１１３による比較結果で認識精度が高い方を採用する。記録生成部１１４は、複数の発話区間ごとにこの採用した第１テキスト情報と第２テキスト情報とを組み合わせて、記録データを生成する。

【0045】

上記構成によれば、記録生成部１１４は、区間ごとに、第１テキスト情報と第２テキスト情報の認識精度がより高い方を記録データとして採用することができる。このため、記録生成部１１４は、より精度よく記録データを生成することができる。

【0046】

記録生成部１１４は、例えば、後述の受付部１１７が受け付けた第１テキスト情報と第２テキスト情報のいずれを発話の記録として採用するかの選択に基づいて、第１テキスト情報と第２テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。

【0047】

上記構成によれば、記録生成部１１４は、比較結果をユーザに対して表示させて、区間ごとに第１テキスト情報または第２テキスト情報の選択された方を組み合わせて記録データを生成することができる。このため、上記構成によれば、第１テキスト情報と第２テキスト情報に対してユーザに選択させることができるため、ユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、議事録作成において合目的性・正確性を向上させることができる。

【0048】

記録生成部１１４は、例えば、第１テキスト情報と第２テキスト情報とが比較部１１３による比較結果で不一致だった区間について、受付部１１７が受け付けたテキスト情報で第１テキスト情報または第２テキスト情報を上書きして、記録データを生成してもよい。

【0049】

上記構成によれば、記録生成部１１４は、ユーザが編集したテキスト情報で記録データをカスタマイズできるため、よりユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、発話の記録において合目的性・正確性を向上させることができる。

【0050】

発話データ生成部１１５は、第１音声データの複数の区間に対応する複数の第１発話データを生成する。また、発話データ生成部１１５は、第２音声データの複数の区間に対応する複数の第２発話データを生成する。なお、「第１発話データ」と「第２発話データ」について、特に区別の必要がない場合、以降、総称して「発話データ」ともいう。

【0051】

発話データ生成部１１５は、まず、音声データから複数の発話区間と無音区間とを検出する。次に、発話データ生成部１１５は、音声データを、発話区間ごとの発話データに分割する。このように発話データ生成部１１５は、音声データの複数の発話区間に対応する複数の発話データを生成する。

【0052】

表示部１１６は、比較部１１３による比較結果を、ユーザ端末２００に表示させる。表示部１１６は、例えば、比較結果として、表示情報を生成する。表示情報は、例えば、複数の区間それぞれの記録データや精度フラグなどを含む。この「複数の区間それぞれの記録データ」は、複数の区間それぞれの第１テキスト情報と、複数の区間それぞれの第２テキスト情報と、を含む。表示情報は、図４に示す第１比較画面Ａ１と第２比較画面Ａ２などの議事録作成システム１の画面をユーザ端末２００に表示させるための情報でもある。表示部１１６は、通信部１４０を介して、生成した表示情報をユーザ端末２００に送信する。

【0053】

表示部１１６は、例えば、比較部１１３による比較結果と併せて、第１認識結果および第２認識結果それぞれの信頼度をユーザ端末２００に表示させてもよい。ここで「信頼度」とは、音声の認識結果の確からしさの度合い（確信度）である。表示情報は、これらの信頼度を含む。

【0054】

上記構成によれば、表示部１１６は、ユーザに対して、第１テキスト情報と第２テキスト情報との比較結果と併せて、それぞれの認識結果の信頼度を表示させることができる。このため、上記構成によれば、ユーザは、第１テキスト情報と第２テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度を確認することができる。したがって、表示部１１６は、第１テキスト情報と第２テキスト情報の選択におけるユーザビリティを向上させることができる。

【0055】

表示部１１６は、例えば、比較部１１３による比較結果と併せて、第１認識結果および第２認識結果それぞれの認識精度をユーザ端末２００に表示させてもよい。表示情報は、これらの認識精度を含む。

【0056】

上記構成によれば、表示部１１６は、ユーザに対して、第１テキスト情報と第２テキスト情報との比較結果と併せて、それぞれの認識結果の認識精度を表示させることができる。このため、上記構成によれば、第１テキスト情報と第２テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度をユーザは確認することができる。したがって、表示部１１６は、第１テキスト情報と第２テキスト情報の選択におけるユーザビリティを向上させることができる。

【0057】

表示部１１６は、例えば、第１テキスト情報と第２テキスト情報とが比較結果で不一致だった区間について、当該区間の第１テキスト情報または前記第２テキスト情報を編集するための編集フォームをユーザ端末２００に表示させてもよい。表示情報は、この編集フォームを含む。

【0058】

受付部１１７は、ユーザ端末２００から、複数の区間それぞれに対して、第１認識結果（第１テキスト情報）と第２認識結果（第２テキスト情報）のいずれを第１発話者の発話の記録として採用するかの選択を受け付ける。受付部１１７は、例えば、表示部１１６が表示させた第１テキスト情報と第２テキスト情報とが不一致だった区間に対して、第１テキスト情報と第２テキスト情報のいずれを第１発話者の発話の議事録として採用するかの選択を受け付けてもよい。

【0059】

受付部１１７は、例えば、ユーザ端末２００から、表示部１１６が表示させた編集フォームに対してユーザが入力したテキスト情報を受け付けてもよい。

【0060】

ここで、図４を参照して、表示部１１６が表示させる比較画面の一例を説明する。図４（ａ）は、発話区間ごとに区分けされた第１テキスト情報を第１認識結果として表示する第１比較画面の一例を示す。図４（ｂ）は、発話区間ごとに区分けされた第２テキスト情報を第２認識結果として表示する第２比較画面の一例を示す。本例では、説明を容易にするために、第１比較画面と第２比較画面とを別の画面として表示させる例を説明するが、これに限る趣旨ではない。第１比較画面の表示内容と第２比較画面の表示内容とは、例えば、一つの画面にまとめて並べて表示させてもよい。

【0061】

図４（ａ）に示すように、表示部１１６は、ユーザ端末２００に、第１比較画面Ａ１を表示させる。第１比較画面Ａ１は、第１音声データ表示エリアａ１１と、第１音声データ表示エリアａ１１や第２音声データ表示エリアａ２１に表示された発話データの音声を再生するための再生ボタンａ１２と、表示・編集されたテキスト情報を記録データとして保存するための保存ボタンａ１３と、を含む。

【0062】

第１音声データ表示エリアａ１１は、発話区間ごとに区分けされたそれぞれの第１発話データを表示する複数の第１発話データ表示エリアを含む。本例では、複数の第１発話データ表示エリアの中から、第１発話データ表示エリアａ１１１と、第１発話データ表示エリアａ１１２と、を用いて説明する。第１発話データ表示エリアａ１１１は、第１発話者を「参加者１」として、参加者１が発生した音声を認識した第１テキスト情報「こんにちは」を表示する。また、第１発話データ表示エリアａ１１２は、第１発話者を「参加者２」として、参加者２が発生した音声を認識した第１テキスト情報「こちは」を表示する。

【0063】

図４（ｂ）に示すように、表示部１１６は、ユーザ端末２００に、第２比較画面Ａ２を表示させる。第２比較画面Ａ２は、第２音声データ表示エリアａ２１と、再生ボタンａ１２と、保存ボタンａ１３と、を含む。

【0064】

第２音声データ表示エリアａ２１は、第１音声データ表示エリアａ１１と同様に、複数の第２発話データ表示エリアを含む。

【0065】

本例では、複数の第２発話データ表示エリアの中から、第１発話データ表示エリアａ１１１に対応する第２発話データ表示エリアａ２１１と、第１発話データ表示エリアａ１１２に対応する第２発話データ表示エリアａ２１２と、を用いて説明する。第１発話データ表示エリアａ１１１に表示された第１発話データに対して、その第１音声を復唱した第２音声の第２発話データが第２発話データ表示エリアａ１１２に表示されている。第１発話データ表示エリアａ１１２に表示された第１発話データに対して、その第１音声を復唱した第２音声の第２発話データが第２発話データ表示エリアａ２１２に表示されている。

【0066】

第２発話データ表示エリアａ２１１では、第２発話者を「復唱者１」として、復唱者１が発生した音声を認識した第２テキスト情報「こんにちは」を表示する。また、第２発話データ表示エリアａ２１２では、第２発話者を同じく「復唱者１」として、復唱者１が発生した音声を認識した第２テキスト情報「こんにちは」を表示する。

【0067】

第１発話データ表示エリアａ１１１と第２発話データ表示エリアａ２１１とでは、該当の発話区間における第１テキスト情報と第２テキスト情報とが一致しているため、それぞれの認識結果を表示する。なお、このように一致している発話データ表示エリアのいずれかをユーザが押下（タップ操作・クリック操作など）した場合、表示部１１６は、この発話データ表示エリアのテキスト情報を編集するための編集入力ウィンドウａ１４（編集フォームの一態様）をユーザ端末２００に表示させてもよい。

【0068】

表示部１１６は、第１テキスト情報と第２テキスト情報の不一致箇所が一目でわかるよう、一致箇所と相違するように、不一致箇所に関する発話データ表示エリアの表示態様を変更させることができる。具体的には、第１発話データ表示エリアａ１１２と第２発話データ表示エリアａ２１２とは、該当の発話区間における第１テキスト情報と第２テキスト情報とが不一致のため、それぞれの認識結果を表示する他に、比較結果や編集フォームなどを表示する。より具体的には、第１発話データ表示エリアａ１１２は、比較結果として、認識精度が相対的に低いことを示す困り顔のアイコンと、文字色（例えば、赤）やフォントを変更したテキスト情報と、を表示する。第２発話データ表示エリアａ２１２は、比較結果として、認識精度が相対的に高いことを示す笑顔のアイコンと、文字色（例えば、黒）やフォントを変更したテキスト情報と、を表示する。また、第２発話データ表示エリアａ２１２は、ユーザがテキスト情報を直接編集できるテキストフォーム（編集フォームの一態様）にもなっている。また、このテキストフォームは、第２認識結果の認識精度が所定の閾値より高い場合、ユーザによる編集が不要である旨を示す表示態様としてもよい（例えば、背景色（例えば、グレー）を変更してもよい）。ユーザがこのテキストフォームに対してテキスト情報を入力すると、受付部１１７がこの入力されたテキスト情報を受け付ける。

【0069】

表示部１１６は、第１テキスト情報と第２テキスト情報の不一致箇所について、第１認識結果の認識精度より第２認識結果の認識精度が高い場合には、上記の例のように第２発話データ表示エリアａ２１２をテキストフォームにして表示させる。他方、表示部１１６は、第２認識結果の認識精度より第１認識結果の認識精度が高い場合には、第１発話データ表示エリアａ１１２の第１テキスト情報を第２発話データ表示エリアａ２１２にコピー（上書き）した上で第２発話データ表示エリアａ２１２をテキストフォームにして表示させてもよい。なお、この際、表示部１１６は、第２認識結果の第２テキスト情報を、第２発話データ表示エリアａ２１２の備考エリア（不図示）に表示させてもよい。

【0070】

ユーザは、上記のとおり不一致箇所である第１発話データ表示エリアａ１１２と第２発話データ表示エリアａ２１２とに対して、記録データとしてどちらを採用するかそれぞれのエリアを押下して選択することができる。ユーザが選択すると、受付部１１７がこの選択を受け付ける。

【0071】

上記構成によれば、表示部１１６は、第１比較画面Ａ１と第２比較画面Ａ２とにより、第１テキスト情報と第２テキスト情報とを区間ごとに比較可能に表示させることができる。また、上記構成によれば、表示部１１６は、第１テキスト情報と第２テキスト情報の不一致箇所が一目でわかるようその表示態様を変更することができる。このため上記構成によれば、表示部１１６は、テキスト情報の確認やテキスト情報の選択などのＵＩにおいて、ユーザビリティを向上させることができる。

【0072】

図３に戻って説明を続ける。受付部１１７は、例えば、ユーザ端末２００から、再生部によるステレオフォニック再生にあたって、左右のチャンネルの音声を入れ替える指定を受け付けてもよい。

【0073】

受付部１１７は、例えば、ユーザ端末２００から、復唱モードの指定を受け付けてもよい。

【0074】

信頼度算出部１１８は、第１認識結果および第２認識結果それぞれの信頼度を算出する。信頼度算出部１１８は、例えば、認識結果に含まれる単語ごとの信頼度を算出し、算出した単語ごとの信頼度を集計して認識結果の信頼度を算出してもよい。

【0075】

単語ごとの信頼度は、例えば、所定の範囲の値（例えば、０．０～１．０の範囲）を有してもよい。この所定の範囲の値の中で数値が１．０、すなわち上限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に少ないことを示す。他方、この所定の範囲の値の中で数値が０．０、すなわち下限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に多いことを示す。すなわち、所定の範囲の中で数値が上限に近ければ近いほど、単語ごとの信頼度は、認識結果の一位候補の単語に近い他の候補がなく、信頼（確信）をもってその認識結果を出力したということがいえる。

【0076】

単語の信頼度の算出方法は、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」（情報処理学会論文誌、Ｖｏｌ．４３、Ｎｏ．１０、ｐｐ３０７８－３０８６）が知られている。

【0077】

推定部１１９は、第１音声データに基づいて、第１発話者と記録装置１００との間の第１距離を推定する。また、推定部１１９は、第２音声データに基づいて、第２発話者と記録装置１００との間の第２距離を推定する。ここで「発話者と記録装置１００との間の距離（以下、単に「発話者との距離」ともいう）」とは、具体的には、発話者と音声入力装置８１７の複数のマイクロフォン（マイクアレイ）（以下、単に「マイクロフォン」ともいう）との間の距離であってもよい。

【0078】

推定部１１９は、例えば、発話者ごとの音声データに基づいて、発話者の方向や位置または発話者との距離などを推定する。推定部１１９は、推定結果（発話者の方向や位置または発話者との距離など）を位置情報として記憶部１６０に記録してもよい。推定部１１９は、例えば、音声入力装置８１７に入力された二つの音声信号の時間波形の間で相互相関関数を算出して、算出した相互相関関数より音の到達時間差を算出する。推定部１１９は、算出した音到達時間差に基づいて、発話者の方向や位置または距離を推定してもよい。

【0079】

精度算定部１２０は、第１音声の第１音量および第２音声の第２音量の組み合わせ（以下、「音量の組み合わせ」ともいう）に基づいて、第１認識結果および第２認識結果のそれぞれの認識精度を算定する。また、精度算定部１２０は、第１距離および第２距離の組み合わせ（以下、「距離の組み合わせ」ともいう）に基づいて、第１認識結果および第２認識結果のそれぞれの認識精度を算定する。精度算定部１２０は、音量の組み合わせまたは距離の組み合わせの少なくともいずれかに基づいて、第１認識結果および第２認識結果のそれぞれの認識精度を算定してもよい。

【0080】

精度算定部１２０は、例えば、音声認識システム３００による音声認識を利用する場合、音声認識システム３００から認識結果と併せて認識率を取得してもよい。精度算定部１２０は、例えば、音声認識部１１１による音声認識を利用する場合、音声認識部１１１から認識結果と併せて認識率を取得してもよい。

【0081】

精度算定部１２０は、例えば、音量の組み合わせでは、所定の学習期間における音声の音量とそれに対応する音声の認識率を学習データとして入力することにより図５（ａ）に示すような音量と認識率の第１パターンモデルを構築してもよい。精度算定部１２０は、例えば、音量を説明変数（特徴量）とし認識率を目的変数（特徴量）として、回帰分析による統計処理を用いて第１パターンモデルを構築してもよい。精度算定部１２０は、構築した第１パターンモデルに音声の音量を入力して、認識率を算定してもよい。精度算定部１２０は、例えば、音量の取りうる範囲を３つの段階（「高」「中」「低」）に区分けする。精度算定部１２０は、例えば、区分けした３つの範囲のうち所定の範囲（Ｒ１）内に属する音量の認識率を「高」と算定する。

【0082】

精度算定部１２０は、例えば、距離の組み合わせでは、所定の学習期間における発話者とマイクロフォンとの距離とそれに対応する認識率を学習データとして入力することにより図５（ｂ）に示すような発話者との距離と認識率の第２パターンモデルを構築する。精度算定部１２０は、例えば、発話者との距離を説明変数（特徴量）とし認識率を目的変数（特徴量）として、回帰分析による統計処理を用いて第２パターンモデルを構築してもよい。精度算定部１２０は、構築した第２パターンモデルに発話者との距離を入力して、認識率を算定してもよい。精度算定部１２０は、例えば、発話者との距離の取りうる範囲を３つの段階（「高」「中」「低」）に区分けする。精度算定部１２０は、例えば、設定した３つの範囲のうち所定の範囲（Ｒ２）内に属する発話者との距離の認識率を「高」と算定する。

【0083】

精度算定部１２０は、例えば、第１音声の周波数および第２音声の周波数の組み合わせに基づいて、第１認識結果および第２認識結果のそれぞれの認識精度を算定してもよい。精度算定部１２０は、例えば、発話区間ごとに、第１音声や第２音声の周波数の統計値（平均値や中央値）または周波数帯域を算出し、統計値または周波数帯域の下限が所定の閾値より高い場合には、この発話区間における認識率を「高」と算定してもよい。すなわち、精度算定部１２０は、高い周波数成分が音声に多く含まれる場合に、認識率を高く算定してもよい。

【0084】

精度算定部１２０は、例えば、音声に含まれる、子音または所定の閾値以上の高周波数域の少なくともいずれかのパワー（または音圧レベル）を特徴量として抽出してもよい。ここでいう「パワー」とは、いわゆる音響パワーであり、音の周波数分析において、周波数ごとの重み（パワー）を示し、人の聴覚が感じる音の大きさや強さ（音量）とは相違する。パワーは、子音または所定の閾値以上の高周波数域の音声の強さとする。精度算定部１２０は、抽出した特徴量に基づいて、認識率を算定してもよい。精度算定部１２０は、例えば、子音のパワーにより上記で算定した認識率に重み付けを行い、重み付けを行った認識率に対して上記のような３つの段階（「高」「中」「低」）で算定をしてもよい。

【0085】

精度算定部１２０は、例えば、音声の音圧レベルと周波数とについて、図６に示すようにプロットする。精度算定部１２０は、プロットしたデータが取りうる範囲を３つの認識率の段階（「高」「中」「低」）のエリアに区分けする。精度算定部１２０は、例えば、音声の音圧レベルと周波数とが区分けした３つのエリアのいずれに属するかによって、認識率を算定してもよい。

【0086】

精度算定部１２０は、例えば、上記のように（ア）音量、（イ）発話者との距離、（ウ）周波数、（エ）子音または所定の閾値以上の高周波数域のパワー、の少なくともいずれかにより算定した認識率と、（オ）音声認識システム３００や音声認識部１１１から取得した認識率と、の組み合わせに基づいて、複合的な認識率（以下、「複合認識率」ともいう）を算定してもよい。

【0087】

精度算定部１２０は、例えば、上記（ア）～（オ）それぞれの認識率の加重平均を算出して、算出した加重平均を複合認識率として算定してもよい。精度算定部１２０は、例えば、この加重平均にあたって、上記の（ア）と（イ）の重要度を他の（ウ）～（オ）より高く設定してもよい。精度算定部１２０は、例えば、この重要度に比例した係数をそれぞれの認識率にかけて重み付けをしてもよい。精度算定部１２０は、具体的には、以下の式によって複合認識率を算定してもよい。

【0088】

複合認識率＝（α×上記（オ）の認識率＋β×上記（ア）の認識率＋θ×上記（イ）の認識率＋δ・上記（ウ）の認識率）／（α＋β＋θ＋δ）

【0089】

「α」は、上記（オ）の重み係数であり、「β」は、上記（ア）、すなわち音量の重み係数であり、「θ」は上記（イ）、すなわち距離の重み係数であり、「δ」は、上記（ウ）、すなわち周波数の重み係数である。βとθは、設定した重要度に応じて、αおよびδより大きい値としてもよい。

【0090】

音声データ生成部１２１は、音声合成処理を用いて、第１テキスト情報に基づいて、第３音声を出力するための第３音声データを生成する。第３音声は、例えば、第１テキスト情報の文字列を読み上げる音声であってもよい。

【0091】

音声データ生成部１２１は、例えば、テキスト情報に基づき、応答情報を生成してもよい。ここで「応答情報」とは、記録装置１００がユーザの音声に対して応答するための情報である。音声データ生成部１２１は、例えば、自然言語処理を用いてテキスト情報を解析する。そして音声データ生成部１２１は、この解析により、ユーザの音声に対する応答の内容を特定し、応答情報を生成する。音声データ生成部１２１は音声合成処理を用いて、応答情報に基づいて、ユーザの音声に対する応答のための音声データを生成してもよい。

【0092】

音声データ生成部１２１は、例えば、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次に、音声データ生成部１２１は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、（ア）第１発話者の発話の議事録を作成するための第１音声データの取得や音声認識処理などの一連の処理を実行、（イ）ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。

【0093】

「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容を関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記（ア）および（イ）の処理の実行とする応答の内容と、を関連付ける。

【0094】

加工部１２２は、第１音声データおよび第３音声データを、ステレオ音声データに加工する。ここで「ステレオ音声データ」とは、第１音声と、第２音声と、第３音声とのいずれか二つの音声をステレオフォニック再生するための音声データである。

【0095】

加工部１２２は、例えば、第１音声データ、第２音声データまたは第３音声データの少なくともいずれか二つを、ステレオ音声データに加工してもよい。この場合、ステレオ音声データは、（Ａ）第１音声データと第２音声データとの組み合わせ、（Ｂ）第１音声データと第３音声データとの組み合わせ、（Ｃ）第２音声データと第３音声データとの組み合わせ、とする３パターンのうちいずれか一つのパターンであってもよい。

【0096】

加工部１２２は、例えば、ステレオ音声データの加工の前処理として、第１音声データ、第２音声データまたは第３音声データの音声の音像を定位させてもよい。加工部１２２は、例えば、第１音声データについて、第１発話者（チャンネル）ごとに仮想音源の位置に第１音声の音像を定位させてもよい。この仮想音源の位置は、例えば、発話者の位置（角度）に偏りがあると聞き取りづらい音声になる、すなわち認識しづらい音声になるため、発話者の位置が均等になるように設定してもよい。

【0097】

音声取得部１３０は、ユーザの音声の音声データを取得する。音声取得部１３０は、第１音声取得部１３１と、第２音声取得部１３２と、を備える。第１音声取得部１３１は、第１発話者による第１音声の第１音声データを取得する。第２音声取得部１３２は、復唱モードが設定された場合に、復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する。

【0098】

音声取得部１３０は、例えば、発話者ごとの音声データを取得するにあたって、音声入力装置８１７に入力された音声信号に対して指向性処理や音源を分離する音源分離処理をしてもよい。指向性処理とは、例えば、発話者の方向からの音声を強調し、発話者以外の方向からの音声を抑制する信号処理（ビームフォーミング処理）である。また音源分離処理とは、発話者の方向ごとの対象音を抽出して個別に分離する処理である。音声取得部１３０は、すなわち発話者を分離し、分離された発話者ごとに、発話者それぞれの方向からの音声の音声データを取得する。

【0099】

音声取得部１３０は、例えば、発話者ごとに指向性を有するマイクロフォンを用いて、集音したマイクロフォンを特定して発話者を識別し、識別した発話者ごとに音声データを取得してもよい。

【0100】

通信部１４０は、ネットワークＮを介して、ユーザ端末２００、音声認識システム３００などとの間で音声データやテキスト情報などの各種情報・データを送受信する。

【0101】

出力部１５０は、応答情報に基づき、音声に対する応答を出力する。出力部１５０の出力態様は、どのような態様でもよい。出力部１５０の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。出力部１５０は、再生部１５１を備える。

【0102】

再生部１５１は、復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生する。

【0103】

再生部１５１は、例えば、加工部により加工されたステレオ音声データに基づいて、第１音声、第２音声、または第３音声の少なくともいずれか二つをステレオフォニック再生してもよい。また、再生部１５１は、ステレオフォニック再生にあたって、受付部１１７が受け付けた左右のチャンネルの入れ替えの指定に基づいて、左右のチャンネルの音声を入れ替えてもよい。再生部１５１は、例えば、左のチャンネルが第１音声で右のチャンネルが第３音声の場合、上記の左右のチャンネルの入れ替えの指定に基づいて、左のチャンネルが第３音声で右のチャンネルが第１音声に入れ替えてステレオフォニック再生してもよい。

【0104】

再生部１５１は、例えば、加工部により加工されたステレオ音声データに基づいて、復唱モードが設定された場合に、第１音声の再生をする代わりに、第１音声と第３音声とをステレオフォニック再生してもよい。

【0105】

上記構成によれば、再生部１５１は、第１音声と第３音声とをステレオフォニック再生することで第１音声と第３音声との違いを第２発話者に認識させることができる。このため、上記構成によれば、再生部１５１は、第１音声と第１音声を音声認識した第３音声との差異を認識させつつ第２発話者に復唱させることができる。

【0106】

記憶部１６０は、音声データ（ステレオ音声データを含む）を記憶する。また記憶部１６０は、例えば、音声データと関連付けて、音声データの認識結果を示すテキスト情報、音声データに関する発話者の位置情報、音声データの認識結果の認識精度を示す精度情報、音声データの認識結果の信頼度を示す信頼度情報および／または音声データの認識結果に対する応答情報などを記憶してもよい。また記憶部１６０は、例えば、辞書情報を記憶してもよい。

【0107】

記憶部１６０は、データベースマネジメントシステム（ＤＢＭＳ）を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。ＤＢＭＳを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。

【0108】

＜４．動作例＞
図７を参照して、記録装置１００の動作例を説明する。なお、以下に示す図７の動作例の処理の順番は一例であって、適宜、変更されてもよい。

【0109】

図７に示すように、記録装置１００の第１音声取得部１３１は、第１発話者による第１音声の第１音声データを取得する（Ｓ１０）。次に、制御部１１０は、ユーザ端末２００から受け付けた復唱モードの指定に基づいて、復唱モードを設定する（Ｓ１１）。

【0110】

次に、再生部１５１は、第１音声を復唱する音声を取得するための復唱モードが設定された場合に、第１音声データに基づいて、第１音声を再生する（Ｓ１２）。次に、第２音声取得部１３２は、復唱モードが設定された場合に、復唱する音声の音声データとして第２発話者による第２音声の第２音声データを取得する（Ｓ１３）。

【0111】

次に、認識結果取得部１１２は、第１音声データと第２音声データとに基づいて、第１音声の第１認識結果を示す第１テキスト情報と、第２音声の第２認識結果を示す第２テキスト情報と、を取得する（Ｓ１５）。

【0112】

次に、比較部１１３は、第１テキスト情報と第２テキスト情報とを比較する（Ｓ１６）。記録生成部１１４は、第１テキスト情報と第２テキスト情報と比較部１１３による比較結果に基づいて、テキストによる発話の記録データを生成する（Ｓ１７）。

【0113】

＜５．ハードウェア構成＞
図８を参照して、上述してきた記録装置１００をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

【0114】

図８に示すように、コンピュータ８００は、プロセッサ８０１と、メモリ８０３と、記憶装置８０５と、入力Ｉ／Ｆ部８０７と、データＩ／Ｆ部８０９と、通信Ｉ／Ｆ部８１１、表示装置８１３、音声入力装置８１７および音声出力装置８１９を含む。

【0115】

プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、記録装置１００の制御部１１０が備える各機能部などは、メモリ８０３に一時記憶されたプログラムをプロセッサ８０１が実行することにより実現可能である。

【0116】

メモリ８０３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

【0117】

記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、音声データ、テキスト情報、位置情報、精度情報、信頼度情報または応答情報などを登録するテーブルと、このテーブルを管理するＤＢを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

【0118】

入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ８００に接続されても良い。

【0119】

データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００へと接続される。

【0120】

通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線または無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００に接続される。

【0121】

表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介してコンピュータ８００に接続される。また、入力Ｉ／Ｆ部８０７としてタッチパネルが採用される場合には、表示装置８１３は、入力Ｉ／Ｆ部８０７と一体化して構成することが可能である。

【0122】

音声入力装置８１７は、マイクなどの音声を検出するための入力装置である。音声入力装置８１７は、例えば、音声信号を含めたアナログ振動信号を取得する単一または複数のマイクロフォン（マイクアレイ）、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するＡ／Ｄ変換部などを備える。音声入力装置８１７は、例えば、ユーザが発する音声を検出する。

【0123】

音声出力装置８１９は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置８１９は、ヘッドフォンまたはイヤフォンに音をステレオ再生するための装置であってもよい。

【0124】

なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。

【0125】

［変形例］
なお、本発明を上記実施形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。

【0126】

［変形例１］
上記実施形態に係る記録装置１００おける各構成の少なくとも一部は、ユーザ端末２００またはサーバ装置（不図示）に搭載させる議事録作成システム１専用のプログラムが備えてもよい。例えば、このプログラムに、記録装置１００の制御部１１０の各機能部や音声取得部１３０を備えさせて、出力部１５０に関してはユーザ端末２００に標準的に備える機能を利用して、ユーザ端末２００で全て実現してもよい。また、この際、制御部１１０の各機能部の中で比較的処理負荷の高い信頼度算出部１１８、推定部１１９または精度算定部１２０などはサーバ装置に搭載させてもよい。ユーザ端末２００は、サーバ装置のこれらの機能に対する処理の指示と指示に対する処理結果を受け取るだけとしてもよい。

【0127】

［変形例２］
上記実施形態では、第１テキスト情報と第２テキスト情報とが不一致だった区間について、どちらのテキスト情報を第１発話者の発話の記録、すなわち議事録として採用するかユーザに選択させる例を示したが、これに限定されない。議事録作成システム１では、第１認識結果および第２認識結果それぞれの認識精度などに基づいて、自動的にどちらを採用するか選択してもよい。

【0128】

制御部１１０は、選択部（不図示）を備える。選択部は、第１テキスト情報と第２テキスト情報とが比較部１１３による比較結果で不一致だった区間について、信頼度または認識精度の少なくともいずれかに基づいて、第１テキスト情報と第２テキスト情報のいずれを第１発話者の発話の記録として採用するかを選択する。
選択部は、例えば、信頼度の高い方のテキスト情報を第１発話者の発話の記録として選択してもよい。

【0129】

記録生成部１１４は、例えば、選択部による選択結果に基づいて、第１テキスト情報と第２テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。

【0130】

上記構成によれば、第１テキスト情報と第２テキスト情報のいずれかを選択する手間をユーザは省くことができるため、効率よく発話の記録を生成することができる。

【0131】

［変形例３］
上記実施形態では示していないが、復唱モードが設定された場合、第２発話者が復唱している際に、精度算定部１２０は、第２音声取得部１３２が取得した第２音声データの第２音声の認識精度を随時算出してもよい。そして表示部１１６が、算出された認識精度をユーザ端末２００に随時表示させてもよい。このような構成によれば、表示部１１６は、第２発話者が復唱している際に、タイムリーにその第２音声の認識精度を表示させることができる。このため、上記構成によれば、第２発話者は、例えば、自身の音量や記録装置１００との距離をより精度よく認識できるよう見直しつつ、復唱することができる。

【符号の説明】

【0132】

１…議事録作成システム、１００…記録装置、１１０…制御部、１１１…音声認識部、１１２…認識結果取得部、１１３…比較部、１１４…記録生成部、１１５…発話データ生成部、１１６…表示部、１１７…受付部、１１８…信頼度算出部、１１９…推定部、１２０…精度算定部、１２１…音声データ生成部、１２２…加工部、１３０…音声取得部、１３１…第１音声取得部、１３２…第２音声取得部、１４０…通信部、１５０…出力部、１５１…再生部、１６０…記憶部、２００…ユーザ端末、３００…音声認識システム、８００…コンピュータ、８０１…プロセッサ、８０３…メモリ、８０５…記憶装置、８０７…入力Ｉ／Ｆ部、８０９…データＩ／Ｆ部、８１１…通信Ｉ／Ｆ部、８１３…表示装置、８１７…音声入力装置、８１９…音声出力装置。

【図1】