(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-15
(45)【発行日】2024-08-23
(54)【発明の名称】情報処理装置、プログラム、および情報処理方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20240816BHJP
G10L 15/22 20060101ALI20240816BHJP
【FI】
G10L15/00 200U
G10L15/22 460Z
(21)【出願番号】P 2020154373
(22)【出願日】2020-09-15
【審査請求日】2023-06-30
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】福江 尚史
(72)【発明者】
【氏名】小西 啓介
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2016-21196(JP,A)
【文献】特開平10-322450(JP,A)
【文献】特開2015-184564(JP,A)
【文献】特開2000-338991(JP,A)
【文献】特開2017-191533(JP,A)
【文献】米国特許出願公開第2014/0163981(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
(57)【特許請求の範囲】
【請求項1】
情報処理装置であって、
第1発話者による第1音声の第1音声データを取得する第1音声取得部と、
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生する再生部と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得部と、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得部と、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成する記録生成部と、
前記第1音声データと前記第2音声データとに基づいて、前記第1発話者と前記情報処理装置との間の第1距離と、前記第2発話者と前記情報処理装置との間の第2距離と、を推定する推定部と、
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定する精度算定部と、
ユーザのユーザ端末に前記認識精度を表示させる表示部と、を備える、
情報処理装置。
【請求項2】
前記音声データから、前記第1音声データの複数の区間に対応する複数の第1発話データと、前記第2音声データの複数の区間に対応する複数の第2発話データを生成する発話データ生成部、をさらに備え、
前記認識結果取得部は、前記第1発話データと前記第2発話データに基づいて、前記複数の区間ごとに区分けされた前記第1テキスト情報と前記第2テキスト情報とを取得し、
前記情報処理装置は、前記複数の区間ごとに、前記第1テキスト情報と前記第2テキスト情報とを比較する比較部をさらに備え、
前記記録生成部は、前記比較部による比較結果に基づいて、前記記録データを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記比較結果を、
前記ユーザ端末に表示させる
前記表示部と、
前記ユーザ端末から、前記複数の区間それぞれに対して、前記第1テキスト情報と前記第2テキスト情報のいずれを前記第1発話者の発話の記録として採用するかの選択を受け付ける受付部と、
前記記録生成部は、さらに前記受付部が受け付けた選択に基づいて、前記第1テキスト情報と第2テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項2に記載の情報処理装置。
【請求項4】
前記第1認識結果および前記第2認識結果それぞれの信頼度を算出する信頼度算出部をさらに備え、
前記表示部は、前記比較結果と併せて、前記ユーザ端末に前記信頼度を表示させる、
請求項3に記載の情報処理装置。
【請求項5】
前記表示部は、前記第1テキスト情報と前記第2テキスト情報とが前記比較結果で不一致だった前記区間について、前記区間の第1テキスト情報または前記第2テキスト情報を編集するための編集フォームを前記ユーザ端末に表示させ、
前記受付部は、前記ユーザ端末から、前記編集フォームに対して前記ユーザが入力したテキスト情報を受け付けて、
前記記録生成部は、前記不一致だった前記区間について、前記受付部が受け付けたテキスト情報で前記第1テキスト情報または前記第2テキスト情報を上書きして、前記記録データを生成する、
請求項
3に記載の情報処理装置。
【請求項6】
前記第1発話者と前記情報処理装置との間の第1距離と、前記第2発話者と前記情報処理装置との間の第2距離と、を推定する推定部と、
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定する精度算定部と、
前記第1認識結果および前記第2認識結果それぞれの信頼度を算出する信頼度算出部と、
前記第1テキスト情報と前記第2テキスト情報とが前記比較結果で不一致だった前記区間について、前記信頼度または前記認識精度の少なくともいずれかに基づいて、前記第1テキスト情報と第2テキスト情報のいずれを前記第1発話者の発話の記録として採用するかを選択する選択部と、
前記記録生成部は、さらに前記選択部による選択結果に基づいて、前記第1テキスト情報と第2テキスト情報とを前記区間ごとに組み合わせて、前記記録データを生成する、
請求項2に記載の情報処理装置。
【請求項7】
音声合成処理を用いて、前記第1テキスト情報に基づいて、第3音声を出力するための第3音声データを生成する音声データ生成部と、
前記第1音声データおよび前記第3音声データを、前記第1音声と前記第3音声とをステレオフォニック再生するためのステレオ音声データに加工する加工部と、
前記再生部は、前記ステレオ音声データに基づいて、前記復唱モードが設定された場合に、前記第1音声の再生をする代わりに、前記ステレオフォニック再生をする、
請求項1から
6のいずれか一項に記載の情報処理装置。
【請求項8】
コンピュータに、
第1発話者による第1音声の第1音声データを取得する第1音声機能と、
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生する再生機能と、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得機能と、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得機能と、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成する記録生成機能と、
前記第1音声データと前記第2音声データとに基づいて、前記第1発話者と前記コンピュータとの間の第1距離と、前記第2発話者と前記コンピュータとの間の第2距離と、を推定する推定機能と、
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定する精度算定機能と、
ユーザのユーザ端末に前記認識精度を表示させる表示機能と、を実現させる、
プログラム。
【請求項9】
コンピュータが、
第1発話者による第1音声の第1音声データを取得し、
前記第1音声を復唱する音声を取得するための復唱モードが設定された場合に、前記第1音声データに基づいて、前記第1音声を再生し、
前記復唱モードが設定された場合に、前記復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得し、
前記第1音声データと前記第2音声データとに基づいて、前記第1音声の第1認識結果を示す第1テキスト情報と、前記第2音声の第2認識結果を示す第2テキスト情報と、を取得し、
前記第1テキスト情報と前記第2テキスト情報とに基づいて、テキストによる前記第1発話者の発話の記録データを生成
し、
前記第1音声データと前記第2音声データとに基づいて、前記第1発話者と前記コンピュータとの間の第1距離と、前記第2発話者と前記コンピュータとの間の第2距離と、を推定し、
前記第1音声の第1音量および前記第2音声の第2音量の組み合わせ、または前記第1距離および前記第2距離の組み合わせの少なくともいずれかの組み合わせに基づいて、前記第1認識結果および前記第2認識結果のそれぞれの認識精度を算定し、
ユーザのユーザ端末に前記認識精度を表示させる、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム、および情報処理方法に関する。
【背景技術】
【0002】
従来、会議での発話者の音声を取得し、音声認識技術を用いて取得した音声に基づいて議事録を作成する技術が知られている。
【0003】
下記特許文献1に開示されている議事録作成システムでは、発話者の音声を予め設定された辞書を用いて音声認識を行い、その結果認識されなかった用語について、第2の辞書に対して認識要求を出力する。そして、議事録作成システムでは、第2の辞書による認識結果を受信して、議事録を作成する。このような議事録作成システムによれば、予め設定された辞書で音声認識できなかったところを第2の辞書による音声認識で補うことができるため、認識精度を向上させることが可能になる。そして、議事録作成者が作成された議事録を確認して修正する作業を減らすことができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の議事録作成システムでは、会議での発話者の音声がそもそも認識しづらい音声(例えば、音量が小さいなど)であった場合、第2の辞書による認識であっても認識が困難なため、議事録作成者の修正する作業を減らすことができないという問題がある。
【0006】
そこで、本発明は、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、第1発話者による第1音声の第1音声データを取得する第1音声取得部と、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する再生部と、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得部と、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得部と、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成部と、を備える。
【0008】
本発明の一態様に係るプログラムは、コンピュータに、第1発話者による第1音声の第1音声データを取得する第1音声機能と、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する再生機能と、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する第2音声取得機能と、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する認識結果取得機能と、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する記録生成機能と、を実現させる。
【0009】
本発明の一態様に係る情報処理方法は、コンピュータが、第1発話者による第1音声の第1音声データを取得し、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生し、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得し、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得し、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する。
【発明の効果】
【0010】
本発明によれば、発話者の音声が認識しづらい音声であってもその発話の内容を精度よく記録することができる情報処理装置、プログラム、および情報処理方法を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本実施形態に係る議事録作成システムのシステム構成例を説明するための図である。
【
図2】本実施形態に係る議事録作成システムの概要を説明するための図である。
【
図3】本実施形態に係る記録装置の機能構成の一例を示す図である。
【
図4】本実施形態に係る議事録作成システムの画面例の一例を示す図である。
【
図5】本実施形態に係る議事録作成システムの認識率と音量または発話者との距離との関係の一例を示す図である。
【
図6】本実施形態に係る議事録作成システムのパワーと周波数との関係の一例を示す図である。
【
図7】本実施形態に係る記録装置の動作例を示す図である。
【
図8】本実施形態に係る記録装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0012】
添付図面を参照して、本発明の好適な実施形態(以下、「本実施形態」という)について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。
【0013】
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。
【0014】
<1.システム構成>
図1を参照して、本実施形態に係わる議事録作成システム1のシステム構成例を説明する。議事録作成システム1は、ユーザの会議などでの発話の内容を議事録として記録するシステムである。しかしながら、本発明をこれに限る趣旨ではない。本発明は、議事録に限らずに、ユーザの発話の内容を記録する諸々のシステムに適用可能である。
図1に示すように、議事録作成システム1は、記録装置100と、ユーザ端末200とを含む。また議事録作成システム1は、ネットワークNを介して音声認識システム300と接続さている。
【0015】
ネットワークNは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、PHS(Personal Handy-phone System)網、無線LAN(Local Area Network)、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)、WiMax(登録商標)、赤外線通信、Bluetooth(登録商標)、有線LAN、電話線、電灯線ネットワーク、IEEE1394等に準拠したネットワークがある。
【0016】
記録装置100は、ユーザ端末200や音声認識システム300との通信が可能な情報処理装置である。記録装置100は、後述の第1発話者や第2発話者の音声を取得して、取得した音声を音声認識によりテキストに変換して記録する。
【0017】
記録装置100は、取得した音声に対話などで応答する、いわゆるスマートスピーカーであるが、これに限る趣旨ではない。記録装置100は、他の例として、汎用のタブレット端末やスマートフォンなどであってもよい。記録装置100は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末などを記録装置100として使用してもよい。
【0018】
ユーザ端末200は、ユーザからの要求の受け付けの入力や記録装置100との通信が可能なスマートフォンやラップトップ端末などの情報処理装置である。ユーザ端末200は、所定のプログラムを実行することにより、記録装置100と連携して、音声認識により記録されたテキストデータ(以下、「記録データ」ともいう)を表示させたり、この記録データを編集するためのフォームを表示させてテキストデータの編集を可能にさせたりする。
【0019】
ユーザは、第1発話者と第2発話者とを含み、発話者以外にも議事録作成の担当者など議事録作成システム1に関わる者を含む。
【0020】
音声認識システム300は、記録装置100と通信の通信が可能なシステムである。音声認識システム300は、記録装置100から受信したユーザの音声を示す音声データ(以下、単に「音声データ」ともいう)に基づいてユーザの音声を認識する。
【0021】
<2.システム概要>
図2を参照して、議事録作成システム1の概要を説明する。
【0022】
(1)
図2に示すように、記録装置100の第1音声取得部131は、第1発話者による第1音声として「会議を始めます」の第1音声データを取得する。(2)記録装置100の認識結果取得部112は、上記(1)の取得した第1音声データに基づいて、第1音声の音声認識を音声認識システム300に指示する。(3)記録装置100の認識結果取得部112は、音声認識システム300から、第1音声の第1認識結果を示す第1テキスト情報を取得する。
【0023】
「第1発話者」とは、議事録作成システム1の記録対象の第1音声を発声する者である。第1発話者は、例えば、会議における発言者であってもよい。
【0024】
(4)記録装置100の再生部151は、第2発話者の指定などにより復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する。すなわち、再生部151は、第1音声「会議を始めます」を出力する。ここで「復唱モード」とは、第1音声を復唱する音声(第2音声)を取得するための動作モードである。また、復唱モードは、第2音声を取得するために第1音声を再生する動作モードであってもよい。
【0025】
(5)復唱モードが設定された場合、第1音声を聴きながら第2発話者が復唱して第2音声「会議を始めます」を発声すると、記録装置100の第2音声取得部132は、この復唱する第2音声の第2音声データを取得する。(6)記録装置100の認識結果取得部112は、上記(5)の取得した第2音声データに基づいて、第2音声の音声認識を音声認識システム300に指示する。(3)記録装置100の認識結果取得部112は、音声認識システム300から、第2音声の第2認識結果を示す第2テキスト情報を取得する。
【0026】
「第2発話者」とは、第1音声を復唱して第2音声を発声する者である。なお、「第1発話者」と「第2発話者」について、特に区別の必要がない場合、以降、総称して「発話者」ともいう。
【0027】
「第1音声データ」と「第2音声データ」について、特に区別の必要がない場合、以降、総称して「音声データ」ともいう。
【0028】
「第1認識結果」と「第2認識結果」について、特に区別の必要がない場合、以降、総称して「認識結果」ともいう。
【0029】
「第1テキスト情報」と「第2テキスト情報」について、特に区別の必要がない場合、以降、総称して「テキスト情報」ともいう。
【0030】
(7)記録装置100の比較部113は、第1テキスト情報と第2テキスト情報とを比較する。(8)記録装置100の記録生成部114は、上記(7)の比較結果ならびに第1テキスト情報および第2テキスト情報に基づいて、議事録としてテキストによる記録データを生成する。記録生成部114は、例えば、第2テキスト情報との比較結果により不一致だった第1テキスト情報の箇所について、第2テキスト情報に置き換えて記録データを生成してもよい。
【0031】
上記構成によれば、記録装置100は、会議での第1発話者の第1音声が認識しづらい音声であっても第1音声を復唱した第2音声の音声認識結果との比較によりテキストによる記録データを議事録として生成することができる。このため、上記構成によれば、記録装置100は、精度よく議事録を作成することができる。
【0032】
<3.機能構成>
図4を参照して、本実施形態に係る記録装置100の機能構成を説明する。
図4に示すように、記録装置100は、制御部110と、音声取得部130と、通信部140と、出力部150と、記憶部160と、を備える。
【0033】
制御部110は、認識結果取得部112と、記録生成部114と、を備える。また、制御部110は、例えば、音声認識部111、比較部113、発話データ生成部115、表示部116、受付部117、信頼度算出部118、推定部119、精度算定部120、音声データ生成部121、または加工部122を備えてもよい。
【0034】
制御部110は、受付部117が受け付けた復唱モードの指定に基づいて、記録装置100の動作モードを復唱モードに設定する。
【0035】
音声認識部111は、音声取得部130により取得された発話者の音声データを認識する。音声認識部111は、この認識の結果を示すテキスト情報を生成する。音声認識部111は、例えば、認識結果取得部112からの音声認識の指示により、音声取得部130が取得した音声データを、音声認識技術を用いてテキスト情報に変換してもよい。音声認識部111は、例えば、自己の認識率を算出してもよい。
【0036】
音声認識部111は、例えば、通信部140が音声認識システム300に音声データを送信している途中で音声認識システム300との通信が不可能になった場合、未送信の音声データの音声に基づいてテキスト情報を生成してもよい。
【0037】
認識結果取得部112は、音声取得部130により取得された第1音声データに基づいて、第1音声の第1認識結果を示す第1テキスト情報を取得する。また、認識結果取得部112は、音声取得部130により取得された第2音声データに基づいて、第2音声の第2認識結果を示す第2テキスト情報を取得する。認識結果取得部112は、例えば、第1音声データと第2音声データとに基づいて、音声認識システム300または音声認識部111にこれらの音声データの音声認識を指示する。認識結果取得部112は、この指示に対する応答として、第1テキスト情報と第2テキスト情報とを取得する。
【0038】
認識結果取得部112は、例えば、後述の発話データ生成部115が生成した第1発話データと第2発話データに基づいて、複数の区間ごとに区分けされた第1テキスト情報と第2テキスト情報とを取得してもよい。
【0039】
「区間」とは、例えば、音声データ(デジタル信号)において音声レベルがゼロまたは所定の閾値以下となる無音区間と、音声レベルがゼロより大きいまたは所定の閾値を超える発話区間(有音区間)と、を含んでもよい。また区間は、他の例として、所定期間ごとに区切られた範囲であってもよい。
【0040】
比較部113は、第1テキスト情報と、第2テキスト情報と、を比較する。比較部113は、例えば、複数の区間ごとに、第1テキスト情報と第2テキスト情報とを比較してもよい。比較部113は、比較結果として、第1テキスト情報と第2テキスト情報とが一致しているか、または第1テキスト情報と第2テキスト情報とが不一致であるかを出力する。
【0041】
比較部113は、例えば、複数の発話区間ごとに、第1テキスト情報と第2テキスト情報のどちらの音声の認識精度(以下、単に「認識精度」ともいう)が高いか比較してもよい。認識精度は、例えば、音声認識処理における認識率であってもよい。比較部113は、この比較結果を、精度フラグに設定してもよい。ここで「精度フラグ」とは、区間ごとに、第1テキスト情報および第2テキスト情報のどちらのテキスト情報の認識精度が高いかを示す情報である。精度フラグには、例えば、相対的に認識精度が高い方に「1」が設定され、他方(相対的に認識精度が低い方)に「0」が設定される。
【0042】
記録生成部114は、第1テキスト情報と第2テキスト情報とに基づいて、テキストによる発話の記録データを生成する。ここでいう「発話の記録データ」は、例えば、会議の議事録となるデータであってもよい。なお、発話の記録データは、以降、単に「記録データ」ともいう。
【0043】
上記構成によれば、記録生成部114は、例えば、会議での第1発話者の第1音声が認識しづらい音声であっても、第1音声を復唱した第2音声の音声認識結果である第2テキスト情報も用いることで第1テキスト情報を補うことができる。このため、上記構成によれば、記録生成部114は、精度よく記録データを議事録として生成することができる。
【0044】
記録生成部114は、例えば、比較部113による比較結果に基づいて、記録データを生成してもよい。記録生成部114は、例えば、精度フラグに基づいて、複数の発話区間ごとに、第1テキスト情報と第2テキスト情報に対して、比較部113による比較結果で認識精度が高い方を採用する。記録生成部114は、複数の発話区間ごとにこの採用した第1テキスト情報と第2テキスト情報とを組み合わせて、記録データを生成する。
【0045】
上記構成によれば、記録生成部114は、区間ごとに、第1テキスト情報と第2テキスト情報の認識精度がより高い方を記録データとして採用することができる。このため、記録生成部114は、より精度よく記録データを生成することができる。
【0046】
記録生成部114は、例えば、後述の受付部117が受け付けた第1テキスト情報と第2テキスト情報のいずれを発話の記録として採用するかの選択に基づいて、第1テキスト情報と第2テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。
【0047】
上記構成によれば、記録生成部114は、比較結果をユーザに対して表示させて、区間ごとに第1テキスト情報または第2テキスト情報の選択された方を組み合わせて記録データを生成することができる。このため、上記構成によれば、第1テキスト情報と第2テキスト情報に対してユーザに選択させることができるため、ユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、議事録作成において合目的性・正確性を向上させることができる。
【0048】
記録生成部114は、例えば、第1テキスト情報と第2テキスト情報とが比較部113による比較結果で不一致だった区間について、受付部117が受け付けたテキスト情報で第1テキスト情報または第2テキスト情報を上書きして、記録データを生成してもよい。
【0049】
上記構成によれば、記録生成部114は、ユーザが編集したテキスト情報で記録データをカスタマイズできるため、よりユーザの要望にそった記録データを生成することができる。したがって、上記構成によれば、発話の記録において合目的性・正確性を向上させることができる。
【0050】
発話データ生成部115は、第1音声データの複数の区間に対応する複数の第1発話データを生成する。また、発話データ生成部115は、第2音声データの複数の区間に対応する複数の第2発話データを生成する。なお、「第1発話データ」と「第2発話データ」について、特に区別の必要がない場合、以降、総称して「発話データ」ともいう。
【0051】
発話データ生成部115は、まず、音声データから複数の発話区間と無音区間とを検出する。次に、発話データ生成部115は、音声データを、発話区間ごとの発話データに分割する。このように発話データ生成部115は、音声データの複数の発話区間に対応する複数の発話データを生成する。
【0052】
表示部116は、比較部113による比較結果を、ユーザ端末200に表示させる。表示部116は、例えば、比較結果として、表示情報を生成する。表示情報は、例えば、複数の区間それぞれの記録データや精度フラグなどを含む。この「複数の区間それぞれの記録データ」は、複数の区間それぞれの第1テキスト情報と、複数の区間それぞれの第2テキスト情報と、を含む。表示情報は、
図4に示す第1比較画面A1と第2比較画面A2などの議事録作成システム1の画面をユーザ端末200に表示させるための情報でもある。表示部116は、通信部140を介して、生成した表示情報をユーザ端末200に送信する。
【0053】
表示部116は、例えば、比較部113による比較結果と併せて、第1認識結果および第2認識結果それぞれの信頼度をユーザ端末200に表示させてもよい。ここで「信頼度」とは、音声の認識結果の確からしさの度合い(確信度)である。表示情報は、これらの信頼度を含む。
【0054】
上記構成によれば、表示部116は、ユーザに対して、第1テキスト情報と第2テキスト情報との比較結果と併せて、それぞれの認識結果の信頼度を表示させることができる。このため、上記構成によれば、ユーザは、第1テキスト情報と第2テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度を確認することができる。したがって、表示部116は、第1テキスト情報と第2テキスト情報の選択におけるユーザビリティを向上させることができる。
【0055】
表示部116は、例えば、比較部113による比較結果と併せて、第1認識結果および第2認識結果それぞれの認識精度をユーザ端末200に表示させてもよい。表示情報は、これらの認識精度を含む。
【0056】
上記構成によれば、表示部116は、ユーザに対して、第1テキスト情報と第2テキスト情報との比較結果と併せて、それぞれの認識結果の認識精度を表示させることができる。このため、上記構成によれば、第1テキスト情報と第2テキスト情報のいずれを採用するか選択するにあたって、その指標となりうる信頼度をユーザは確認することができる。したがって、表示部116は、第1テキスト情報と第2テキスト情報の選択におけるユーザビリティを向上させることができる。
【0057】
表示部116は、例えば、第1テキスト情報と第2テキスト情報とが比較結果で不一致だった区間について、当該区間の第1テキスト情報または前記第2テキスト情報を編集するための編集フォームをユーザ端末200に表示させてもよい。表示情報は、この編集フォームを含む。
【0058】
受付部117は、ユーザ端末200から、複数の区間それぞれに対して、第1認識結果(第1テキスト情報)と第2認識結果(第2テキスト情報)のいずれを第1発話者の発話の記録として採用するかの選択を受け付ける。受付部117は、例えば、表示部116が表示させた第1テキスト情報と第2テキスト情報とが不一致だった区間に対して、第1テキスト情報と第2テキスト情報のいずれを第1発話者の発話の議事録として採用するかの選択を受け付けてもよい。
【0059】
受付部117は、例えば、ユーザ端末200から、表示部116が表示させた編集フォームに対してユーザが入力したテキスト情報を受け付けてもよい。
【0060】
ここで、
図4を参照して、表示部116が表示させる比較画面の一例を説明する。
図4(a)は、発話区間ごとに区分けされた第1テキスト情報を第1認識結果として表示する第1比較画面の一例を示す。
図4(b)は、発話区間ごとに区分けされた第2テキスト情報を第2認識結果として表示する第2比較画面の一例を示す。本例では、説明を容易にするために、第1比較画面と第2比較画面とを別の画面として表示させる例を説明するが、これに限る趣旨ではない。第1比較画面の表示内容と第2比較画面の表示内容とは、例えば、一つの画面にまとめて並べて表示させてもよい。
【0061】
図4(a)に示すように、表示部116は、ユーザ端末200に、第1比較画面A1を表示させる。第1比較画面A1は、第1音声データ表示エリアa11と、第1音声データ表示エリアa11や第2音声データ表示エリアa21に表示された発話データの音声を再生するための再生ボタンa12と、表示・編集されたテキスト情報を記録データとして保存するための保存ボタンa13と、を含む。
【0062】
第1音声データ表示エリアa11は、発話区間ごとに区分けされたそれぞれの第1発話データを表示する複数の第1発話データ表示エリアを含む。本例では、複数の第1発話データ表示エリアの中から、第1発話データ表示エリアa111と、第1発話データ表示エリアa112と、を用いて説明する。第1発話データ表示エリアa111は、第1発話者を「参加者1」として、参加者1が発生した音声を認識した第1テキスト情報「こんにちは」を表示する。また、第1発話データ表示エリアa112は、第1発話者を「参加者2」として、参加者2が発生した音声を認識した第1テキスト情報「こちは」を表示する。
【0063】
図4(b)に示すように、表示部116は、ユーザ端末200に、第2比較画面A2を表示させる。第2比較画面A2は、第2音声データ表示エリアa21と、再生ボタンa12と、保存ボタンa13と、を含む。
【0064】
第2音声データ表示エリアa21は、第1音声データ表示エリアa11と同様に、複数の第2発話データ表示エリアを含む。
【0065】
本例では、複数の第2発話データ表示エリアの中から、第1発話データ表示エリアa111に対応する第2発話データ表示エリアa211と、第1発話データ表示エリアa112に対応する第2発話データ表示エリアa212と、を用いて説明する。第1発話データ表示エリアa111に表示された第1発話データに対して、その第1音声を復唱した第2音声の第2発話データが第2発話データ表示エリアa112に表示されている。第1発話データ表示エリアa112に表示された第1発話データに対して、その第1音声を復唱した第2音声の第2発話データが第2発話データ表示エリアa212に表示されている。
【0066】
第2発話データ表示エリアa211では、第2発話者を「復唱者1」として、復唱者1が発生した音声を認識した第2テキスト情報「こんにちは」を表示する。また、第2発話データ表示エリアa212では、第2発話者を同じく「復唱者1」として、復唱者1が発生した音声を認識した第2テキスト情報「こんにちは」を表示する。
【0067】
第1発話データ表示エリアa111と第2発話データ表示エリアa211とでは、該当の発話区間における第1テキスト情報と第2テキスト情報とが一致しているため、それぞれの認識結果を表示する。なお、このように一致している発話データ表示エリアのいずれかをユーザが押下(タップ操作・クリック操作など)した場合、表示部116は、この発話データ表示エリアのテキスト情報を編集するための編集入力ウィンドウa14(編集フォームの一態様)をユーザ端末200に表示させてもよい。
【0068】
表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所が一目でわかるよう、一致箇所と相違するように、不一致箇所に関する発話データ表示エリアの表示態様を変更させることができる。具体的には、第1発話データ表示エリアa112と第2発話データ表示エリアa212とは、該当の発話区間における第1テキスト情報と第2テキスト情報とが不一致のため、それぞれの認識結果を表示する他に、比較結果や編集フォームなどを表示する。より具体的には、第1発話データ表示エリアa112は、比較結果として、認識精度が相対的に低いことを示す困り顔のアイコンと、文字色(例えば、赤)やフォントを変更したテキスト情報と、を表示する。第2発話データ表示エリアa212は、比較結果として、認識精度が相対的に高いことを示す笑顔のアイコンと、文字色(例えば、黒)やフォントを変更したテキスト情報と、を表示する。また、第2発話データ表示エリアa212は、ユーザがテキスト情報を直接編集できるテキストフォーム(編集フォームの一態様)にもなっている。また、このテキストフォームは、第2認識結果の認識精度が所定の閾値より高い場合、ユーザによる編集が不要である旨を示す表示態様としてもよい(例えば、背景色(例えば、グレー)を変更してもよい)。ユーザがこのテキストフォームに対してテキスト情報を入力すると、受付部117がこの入力されたテキスト情報を受け付ける。
【0069】
表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所について、第1認識結果の認識精度より第2認識結果の認識精度が高い場合には、上記の例のように第2発話データ表示エリアa212をテキストフォームにして表示させる。他方、表示部116は、第2認識結果の認識精度より第1認識結果の認識精度が高い場合には、第1発話データ表示エリアa112の第1テキスト情報を第2発話データ表示エリアa212にコピー(上書き)した上で第2発話データ表示エリアa212をテキストフォームにして表示させてもよい。なお、この際、表示部116は、第2認識結果の第2テキスト情報を、第2発話データ表示エリアa212の備考エリア(不図示)に表示させてもよい。
【0070】
ユーザは、上記のとおり不一致箇所である第1発話データ表示エリアa112と第2発話データ表示エリアa212とに対して、記録データとしてどちらを採用するかそれぞれのエリアを押下して選択することができる。ユーザが選択すると、受付部117がこの選択を受け付ける。
【0071】
上記構成によれば、表示部116は、第1比較画面A1と第2比較画面A2とにより、第1テキスト情報と第2テキスト情報とを区間ごとに比較可能に表示させることができる。また、上記構成によれば、表示部116は、第1テキスト情報と第2テキスト情報の不一致箇所が一目でわかるようその表示態様を変更することができる。このため上記構成によれば、表示部116は、テキスト情報の確認やテキスト情報の選択などのUIにおいて、ユーザビリティを向上させることができる。
【0072】
図3に戻って説明を続ける。受付部117は、例えば、ユーザ端末200から、再生部によるステレオフォニック再生にあたって、左右のチャンネルの音声を入れ替える指定を受け付けてもよい。
【0073】
受付部117は、例えば、ユーザ端末200から、復唱モードの指定を受け付けてもよい。
【0074】
信頼度算出部118は、第1認識結果および第2認識結果それぞれの信頼度を算出する。信頼度算出部118は、例えば、認識結果に含まれる単語ごとの信頼度を算出し、算出した単語ごとの信頼度を集計して認識結果の信頼度を算出してもよい。
【0075】
単語ごとの信頼度は、例えば、所定の範囲の値(例えば、0.0~1.0の範囲)を有してもよい。この所定の範囲の値の中で数値が1.0、すなわち上限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に少ないことを示す。他方、この所定の範囲の値の中で数値が0.0、すなわち下限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に多いことを示す。すなわち、所定の範囲の中で数値が上限に近ければ近いほど、単語ごとの信頼度は、認識結果の一位候補の単語に近い他の候補がなく、信頼(確信)をもってその認識結果を出力したということがいえる。
【0076】
単語の信頼度の算出方法は、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」(情報処理学会論文誌、Vol.43、No.10、pp3078-3086)が知られている。
【0077】
推定部119は、第1音声データに基づいて、第1発話者と記録装置100との間の第1距離を推定する。また、推定部119は、第2音声データに基づいて、第2発話者と記録装置100との間の第2距離を推定する。ここで「発話者と記録装置100との間の距離(以下、単に「発話者との距離」ともいう)」とは、具体的には、発話者と音声入力装置817の複数のマイクロフォン(マイクアレイ)(以下、単に「マイクロフォン」ともいう)との間の距離であってもよい。
【0078】
推定部119は、例えば、発話者ごとの音声データに基づいて、発話者の方向や位置または発話者との距離などを推定する。推定部119は、推定結果(発話者の方向や位置または発話者との距離など)を位置情報として記憶部160に記録してもよい。推定部119は、例えば、音声入力装置817に入力された二つの音声信号の時間波形の間で相互相関関数を算出して、算出した相互相関関数より音の到達時間差を算出する。推定部119は、算出した音到達時間差に基づいて、発話者の方向や位置または距離を推定してもよい。
【0079】
精度算定部120は、第1音声の第1音量および第2音声の第2音量の組み合わせ(以下、「音量の組み合わせ」ともいう)に基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定する。また、精度算定部120は、第1距離および第2距離の組み合わせ(以下、「距離の組み合わせ」ともいう)に基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定する。精度算定部120は、音量の組み合わせまたは距離の組み合わせの少なくともいずれかに基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定してもよい。
【0080】
精度算定部120は、例えば、音声認識システム300による音声認識を利用する場合、音声認識システム300から認識結果と併せて認識率を取得してもよい。精度算定部120は、例えば、音声認識部111による音声認識を利用する場合、音声認識部111から認識結果と併せて認識率を取得してもよい。
【0081】
精度算定部120は、例えば、音量の組み合わせでは、所定の学習期間における音声の音量とそれに対応する音声の認識率を学習データとして入力することにより
図5(a)に示すような音量と認識率の第1パターンモデルを構築してもよい。精度算定部120は、例えば、音量を説明変数(特徴量)とし認識率を目的変数(特徴量)として、回帰分析による統計処理を用いて第1パターンモデルを構築してもよい。精度算定部120は、構築した第1パターンモデルに音声の音量を入力して、認識率を算定してもよい。精度算定部120は、例えば、音量の取りうる範囲を3つの段階(「高」「中」「低」)に区分けする。精度算定部120は、例えば、区分けした3つの範囲のうち所定の範囲(R1)内に属する音量の認識率を「高」と算定する。
【0082】
精度算定部120は、例えば、距離の組み合わせでは、所定の学習期間における発話者とマイクロフォンとの距離とそれに対応する認識率を学習データとして入力することにより
図5(b)に示すような発話者との距離と認識率の第2パターンモデルを構築する。精度算定部120は、例えば、発話者との距離を説明変数(特徴量)とし認識率を目的変数(特徴量)として、回帰分析による統計処理を用いて第2パターンモデルを構築してもよい。精度算定部120は、構築した第2パターンモデルに発話者との距離を入力して、認識率を算定してもよい。精度算定部120は、例えば、発話者との距離の取りうる範囲を3つの段階(「高」「中」「低」)に区分けする。精度算定部120は、例えば、設定した3つの範囲のうち所定の範囲(R2)内に属する発話者との距離の認識率を「高」と算定する。
【0083】
精度算定部120は、例えば、第1音声の周波数および第2音声の周波数の組み合わせに基づいて、第1認識結果および第2認識結果のそれぞれの認識精度を算定してもよい。精度算定部120は、例えば、発話区間ごとに、第1音声や第2音声の周波数の統計値(平均値や中央値)または周波数帯域を算出し、統計値または周波数帯域の下限が所定の閾値より高い場合には、この発話区間における認識率を「高」と算定してもよい。すなわち、精度算定部120は、高い周波数成分が音声に多く含まれる場合に、認識率を高く算定してもよい。
【0084】
精度算定部120は、例えば、音声に含まれる、子音または所定の閾値以上の高周波数域の少なくともいずれかのパワー(または音圧レベル)を特徴量として抽出してもよい。ここでいう「パワー」とは、いわゆる音響パワーであり、音の周波数分析において、周波数ごとの重み(パワー)を示し、人の聴覚が感じる音の大きさや強さ(音量)とは相違する。パワーは、子音または所定の閾値以上の高周波数域の音声の強さとする。精度算定部120は、抽出した特徴量に基づいて、認識率を算定してもよい。精度算定部120は、例えば、子音のパワーにより上記で算定した認識率に重み付けを行い、重み付けを行った認識率に対して上記のような3つの段階(「高」「中」「低」)で算定をしてもよい。
【0085】
精度算定部120は、例えば、音声の音圧レベルと周波数とについて、
図6に示すようにプロットする。精度算定部120は、プロットしたデータが取りうる範囲を3つの認識率の段階(「高」「中」「低」)のエリアに区分けする。精度算定部120は、例えば、音声の音圧レベルと周波数とが区分けした3つのエリアのいずれに属するかによって、認識率を算定してもよい。
【0086】
精度算定部120は、例えば、上記のように(ア)音量、(イ)発話者との距離、(ウ)周波数、(エ)子音または所定の閾値以上の高周波数域のパワー、の少なくともいずれかにより算定した認識率と、(オ)音声認識システム300や音声認識部111から取得した認識率と、の組み合わせに基づいて、複合的な認識率(以下、「複合認識率」ともいう)を算定してもよい。
【0087】
精度算定部120は、例えば、上記(ア)~(オ)それぞれの認識率の加重平均を算出して、算出した加重平均を複合認識率として算定してもよい。精度算定部120は、例えば、この加重平均にあたって、上記の(ア)と(イ)の重要度を他の(ウ)~(オ)より高く設定してもよい。精度算定部120は、例えば、この重要度に比例した係数をそれぞれの認識率にかけて重み付けをしてもよい。精度算定部120は、具体的には、以下の式によって複合認識率を算定してもよい。
【0088】
複合認識率=(α×上記(オ)の認識率+β×上記(ア)の認識率+θ×上記(イ)の認識率+δ・上記(ウ)の認識率)/(α+β+θ+δ)
【0089】
「α」は、上記(オ)の重み係数であり、「β」は、上記(ア)、すなわち音量の重み係数であり、「θ」は上記(イ)、すなわち距離の重み係数であり、「δ」は、上記(ウ)、すなわち周波数の重み係数である。βとθは、設定した重要度に応じて、αおよびδより大きい値としてもよい。
【0090】
音声データ生成部121は、音声合成処理を用いて、第1テキスト情報に基づいて、第3音声を出力するための第3音声データを生成する。第3音声は、例えば、第1テキスト情報の文字列を読み上げる音声であってもよい。
【0091】
音声データ生成部121は、例えば、テキスト情報に基づき、応答情報を生成してもよい。ここで「応答情報」とは、記録装置100がユーザの音声に対して応答するための情報である。音声データ生成部121は、例えば、自然言語処理を用いてテキスト情報を解析する。そして音声データ生成部121は、この解析により、ユーザの音声に対する応答の内容を特定し、応答情報を生成する。音声データ生成部121は音声合成処理を用いて、応答情報に基づいて、ユーザの音声に対する応答のための音声データを生成してもよい。
【0092】
音声データ生成部121は、例えば、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次に、音声データ生成部121は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、(ア)第1発話者の発話の議事録を作成するための第1音声データの取得や音声認識処理などの一連の処理を実行、(イ)ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。
【0093】
「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容を関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記(ア)および(イ)の処理の実行とする応答の内容と、を関連付ける。
【0094】
加工部122は、第1音声データおよび第3音声データを、ステレオ音声データに加工する。ここで「ステレオ音声データ」とは、第1音声と、第2音声と、第3音声とのいずれか二つの音声をステレオフォニック再生するための音声データである。
【0095】
加工部122は、例えば、第1音声データ、第2音声データまたは第3音声データの少なくともいずれか二つを、ステレオ音声データに加工してもよい。この場合、ステレオ音声データは、(A)第1音声データと第2音声データとの組み合わせ、(B)第1音声データと第3音声データとの組み合わせ、(C)第2音声データと第3音声データとの組み合わせ、とする3パターンのうちいずれか一つのパターンであってもよい。
【0096】
加工部122は、例えば、ステレオ音声データの加工の前処理として、第1音声データ、第2音声データまたは第3音声データの音声の音像を定位させてもよい。加工部122は、例えば、第1音声データについて、第1発話者(チャンネル)ごとに仮想音源の位置に第1音声の音像を定位させてもよい。この仮想音源の位置は、例えば、発話者の位置(角度)に偏りがあると聞き取りづらい音声になる、すなわち認識しづらい音声になるため、発話者の位置が均等になるように設定してもよい。
【0097】
音声取得部130は、ユーザの音声の音声データを取得する。音声取得部130は、第1音声取得部131と、第2音声取得部132と、を備える。第1音声取得部131は、第1発話者による第1音声の第1音声データを取得する。第2音声取得部132は、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する。
【0098】
音声取得部130は、例えば、発話者ごとの音声データを取得するにあたって、音声入力装置817に入力された音声信号に対して指向性処理や音源を分離する音源分離処理をしてもよい。指向性処理とは、例えば、発話者の方向からの音声を強調し、発話者以外の方向からの音声を抑制する信号処理(ビームフォーミング処理)である。また音源分離処理とは、発話者の方向ごとの対象音を抽出して個別に分離する処理である。音声取得部130は、すなわち発話者を分離し、分離された発話者ごとに、発話者それぞれの方向からの音声の音声データを取得する。
【0099】
音声取得部130は、例えば、発話者ごとに指向性を有するマイクロフォンを用いて、集音したマイクロフォンを特定して発話者を識別し、識別した発話者ごとに音声データを取得してもよい。
【0100】
通信部140は、ネットワークNを介して、ユーザ端末200、音声認識システム300などとの間で音声データやテキスト情報などの各種情報・データを送受信する。
【0101】
出力部150は、応答情報に基づき、音声に対する応答を出力する。出力部150の出力態様は、どのような態様でもよい。出力部150の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。出力部150は、再生部151を備える。
【0102】
再生部151は、復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する。
【0103】
再生部151は、例えば、加工部により加工されたステレオ音声データに基づいて、第1音声、第2音声、または第3音声の少なくともいずれか二つをステレオフォニック再生してもよい。また、再生部151は、ステレオフォニック再生にあたって、受付部117が受け付けた左右のチャンネルの入れ替えの指定に基づいて、左右のチャンネルの音声を入れ替えてもよい。再生部151は、例えば、左のチャンネルが第1音声で右のチャンネルが第3音声の場合、上記の左右のチャンネルの入れ替えの指定に基づいて、左のチャンネルが第3音声で右のチャンネルが第1音声に入れ替えてステレオフォニック再生してもよい。
【0104】
再生部151は、例えば、加工部により加工されたステレオ音声データに基づいて、復唱モードが設定された場合に、第1音声の再生をする代わりに、第1音声と第3音声とをステレオフォニック再生してもよい。
【0105】
上記構成によれば、再生部151は、第1音声と第3音声とをステレオフォニック再生することで第1音声と第3音声との違いを第2発話者に認識させることができる。このため、上記構成によれば、再生部151は、第1音声と第1音声を音声認識した第3音声との差異を認識させつつ第2発話者に復唱させることができる。
【0106】
記憶部160は、音声データ(ステレオ音声データを含む)を記憶する。また記憶部160は、例えば、音声データと関連付けて、音声データの認識結果を示すテキスト情報、音声データに関する発話者の位置情報、音声データの認識結果の認識精度を示す精度情報、音声データの認識結果の信頼度を示す信頼度情報および/または音声データの認識結果に対する応答情報などを記憶してもよい。また記憶部160は、例えば、辞書情報を記憶してもよい。
【0107】
記憶部160は、データベースマネジメントシステム(DBMS)を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。
【0108】
<4.動作例>
図7を参照して、記録装置100の動作例を説明する。なお、以下に示す
図7の動作例の処理の順番は一例であって、適宜、変更されてもよい。
【0109】
図7に示すように、記録装置100の第1音声取得部131は、第1発話者による第1音声の第1音声データを取得する(S10)。次に、制御部110は、ユーザ端末200から受け付けた復唱モードの指定に基づいて、復唱モードを設定する(S11)。
【0110】
次に、再生部151は、第1音声を復唱する音声を取得するための復唱モードが設定された場合に、第1音声データに基づいて、第1音声を再生する(S12)。次に、第2音声取得部132は、復唱モードが設定された場合に、復唱する音声の音声データとして第2発話者による第2音声の第2音声データを取得する(S13)。
【0111】
次に、認識結果取得部112は、第1音声データと第2音声データとに基づいて、第1音声の第1認識結果を示す第1テキスト情報と、第2音声の第2認識結果を示す第2テキスト情報と、を取得する(S15)。
【0112】
次に、比較部113は、第1テキスト情報と第2テキスト情報とを比較する(S16)。記録生成部114は、第1テキスト情報と第2テキスト情報と比較部113による比較結果に基づいて、テキストによる発話の記録データを生成する(S17)。
【0113】
<5.ハードウェア構成>
図8を参照して、上述してきた記録装置100をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
【0114】
図8に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、表示装置813、音声入力装置817および音声出力装置819を含む。
【0115】
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、記録装置100の制御部110が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
【0116】
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0117】
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、テキスト情報、位置情報、精度情報、信頼度情報または応答情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
【0118】
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
【0119】
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
【0120】
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
【0121】
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
【0122】
音声入力装置817は、マイクなどの音声を検出するための入力装置である。音声入力装置817は、例えば、音声信号を含めたアナログ振動信号を取得する単一または複数のマイクロフォン(マイクアレイ)、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するA/D変換部などを備える。音声入力装置817は、例えば、ユーザが発する音声を検出する。
【0123】
音声出力装置819は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置819は、ヘッドフォンまたはイヤフォンに音をステレオ再生するための装置であってもよい。
【0124】
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。
【0125】
[変形例]
なお、本発明を上記実施形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。
【0126】
[変形例1]
上記実施形態に係る記録装置100おける各構成の少なくとも一部は、ユーザ端末200またはサーバ装置(不図示)に搭載させる議事録作成システム1専用のプログラムが備えてもよい。例えば、このプログラムに、記録装置100の制御部110の各機能部や音声取得部130を備えさせて、出力部150に関してはユーザ端末200に標準的に備える機能を利用して、ユーザ端末200で全て実現してもよい。また、この際、制御部110の各機能部の中で比較的処理負荷の高い信頼度算出部118、推定部119または精度算定部120などはサーバ装置に搭載させてもよい。ユーザ端末200は、サーバ装置のこれらの機能に対する処理の指示と指示に対する処理結果を受け取るだけとしてもよい。
【0127】
[変形例2]
上記実施形態では、第1テキスト情報と第2テキスト情報とが不一致だった区間について、どちらのテキスト情報を第1発話者の発話の記録、すなわち議事録として採用するかユーザに選択させる例を示したが、これに限定されない。議事録作成システム1では、第1認識結果および第2認識結果それぞれの認識精度などに基づいて、自動的にどちらを採用するか選択してもよい。
【0128】
制御部110は、選択部(不図示)を備える。選択部は、第1テキスト情報と第2テキスト情報とが比較部113による比較結果で不一致だった区間について、信頼度または認識精度の少なくともいずれかに基づいて、第1テキスト情報と第2テキスト情報のいずれを第1発話者の発話の記録として採用するかを選択する。
選択部は、例えば、信頼度の高い方のテキスト情報を第1発話者の発話の記録として選択してもよい。
【0129】
記録生成部114は、例えば、選択部による選択結果に基づいて、第1テキスト情報と第2テキスト情報とを区間ごとに組み合わせて、記録データを生成してもよい。
【0130】
上記構成によれば、第1テキスト情報と第2テキスト情報のいずれかを選択する手間をユーザは省くことができるため、効率よく発話の記録を生成することができる。
【0131】
[変形例3]
上記実施形態では示していないが、復唱モードが設定された場合、第2発話者が復唱している際に、精度算定部120は、第2音声取得部132が取得した第2音声データの第2音声の認識精度を随時算出してもよい。そして表示部116が、算出された認識精度をユーザ端末200に随時表示させてもよい。このような構成によれば、表示部116は、第2発話者が復唱している際に、タイムリーにその第2音声の認識精度を表示させることができる。このため、上記構成によれば、第2発話者は、例えば、自身の音量や記録装置100との距離をより精度よく認識できるよう見直しつつ、復唱することができる。
【符号の説明】
【0132】
1…議事録作成システム、100…記録装置、110…制御部、111…音声認識部、112…認識結果取得部、113…比較部、114…記録生成部、115…発話データ生成部、116…表示部、117…受付部、118…信頼度算出部、119…推定部、120…精度算定部、121…音声データ生成部、122…加工部、130…音声取得部、131…第1音声取得部、132…第2音声取得部、140…通信部、150…出力部、151…再生部、160…記憶部、200…ユーザ端末、300…音声認識システム、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。