(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-06-20
(45)【発行日】2024-06-28
(54)【発明の名称】発話情報抽出装置及びそのプログラム
(51)【国際特許分類】
G10L 17/00 20130101AFI20240621BHJP
【FI】
G10L17/00 400
(21)【出願番号】P 2024008068
(22)【出願日】2024-01-23
【審査請求日】2024-01-23
【早期審査対象出願】
(73)【特許権者】
【識別番号】520008533
【氏名又は名称】株式会社ACES
(74)【代理人】
【識別番号】110002181
【氏名又は名称】弁理士法人IP-FOCUS
(74)【代理人】
【識別番号】100208959
【氏名又は名称】島田 敏史
(72)【発明者】
【氏名】阿久澤 圭
(72)【発明者】
【氏名】荒川 陸
(72)【発明者】
【氏名】久保 静真
(72)【発明者】
【氏名】村上 大騎
(72)【発明者】
【氏名】三田村 健
【審査官】中村 天真
(56)【参考文献】
【文献】特開2022-015775(JP,A)
【文献】特開2009-139592(JP,A)
【文献】特開2022-109048(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00-17/26
(57)【特許請求の範囲】
【請求項1】
音声データから発話者の発話を抽出する発話情報抽出装置であって、
前記音声データを入手する音声データ入手手段と、
前記音声データにおいて使用されたマイクの数と前記発話者の数を入手する情報入手手段と、
前記音声データを発話毎に分割して分割発話とする発話分割手段と、
前記分割発話と前記発話者とを紐付ける紐付け手段と、
前記発話者と紐付けられた紐付け結果を表示させる表示手段とを備え、
前記紐付け手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎の前記分割発話を単一の前記発話者に紐付けし、
前記マイクの数が前記発話者の数より少ないときは、前記分割発話毎に前記発話者との紐付けを行うことを特徴とする発話情報抽出装置。
【請求項2】
請求項1に記載の発話情報抽出装置であって、
前記表示手段は、
前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎に紐付けられた発話者を表示し、
前記マイクに紐付けられた前記発話者が複数あるときは、主たる前記発話者を表示すると共に前記発話者が複数であることを示す複数表示を行い、前記複数表示の開示指示があったときは、前記マイクに紐付けられた複数の前記発話者のすべてを表示させることを特徴とする発話情報抽出装置。
【請求項3】
請求項1に記載の発話情報抽出装置であって、
前記紐付け手段は、複数の発話者の基準音声によって学習された発話者DBを参照し、
前記発話者DBの学習を行う発話者DB学習手段をさらに備え、
前記発話者DB学習手段は、
前記発話者に紐付く前記基準音声として、いずれの音声データを前記発話者DBの学習に用いるかを示す情報を、パラメータとして管理画面によって編集可能であることを特徴とする発話情報抽出装置。
【請求項4】
請求項3に記載の発話情報抽出装置であって、
前記パラメータは、前記基準音声が録音されたイベントであることを特徴とする発話情報抽出装置。
【請求項5】
請求項3に記載の発話情報抽出装置であって、
前記発話者DBは、前記発話者の基準音声を解析した結果の発話の特徴量を含むことを特徴とする発話情報抽出装置。
【請求項6】
請求項
3に記載の発話情報抽出装置であって、
前記紐付け手段の紐付け結果に対してユーザが修正可能な修正手段を備え、
前記発話者DB学習手段は、ユーザによって修正された修正結果を前記発話者DBが学習し、
前記紐付け手段は、学習済の前記発話者DBを参照して紐付けを行うことを特徴とする発話情報抽出装置。
【請求項7】
コンピュータを請求項1乃至6のいずれか1項に記載の発話情報抽出装置として作動させる発話情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オンラインミーティング、或いは講演会等の音声データについて、発話者を認識して発話を抽出する装置及びそのプログラムに関する。
【背景技術】
【0002】
オンラインミーティング、或いは講演会等の音声データについて、いつ誰が話したかを推定して抽出する技術は、話者ダイアライゼーション技術と呼ばれている。例えば、オンラインミーティングの音声データについて、発話者を認識してその発話を抽出することにより、事後的にそのオンラインミーティングにおける発話の有効性の分析等を行うことができる。
【0003】
特許文献1には、音声ファイルに対して行う話者ダイアライゼーション方法であって、話者の基準音声を利用して音声ファイルから基準音声の発話者を識別し、識別されなかった残りの発話区間に対してクラスタリングを利用して話者の識別を行う話者ダイアライゼーション方法が開示されている。
【0004】
特許文献1の方法では、音声ファイルを録音したマイク(マイクロフォン)についてどのように取り扱うかの記載がないため、単に音声ファイルを発話毎に切り分けて、切り分けられた発話がどの発話者の発話であるかを識別している。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の方法では、音声ファイルを録音したマイクが単数であるか複数であるかに関わらず同じ処理を行っているが、本願発明者等は、話者ダイアライゼーションを行う際に、話者とマイクとの関係が処理の精度に影響を与えていることを知見した。
【0007】
本発明は、音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の発話情報抽出装置は、音声データから発話者の発話を抽出する発話情報抽出装置であって、前記音声データを入手する音声データ入手手段と、前記音声データにおいて使用されたマイクの数と前記発話者の数を入手する情報入手手段と、前記音声データを発話毎に分割して分割発話とする発話分割手段と、前記分割発話と前記発話者とを紐付ける紐付け手段と、前記発話者と紐付けられた紐付け結果を表示させる表示手段とを備え、前記紐付け手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎の前記分割発話を単一の前記発話者に紐付けし、前記マイクの数が前記発話者の数より少ないときは、前記分割発話毎に前記発話者との紐付けを行うことを特徴とする。
【0009】
本発明の発話情報抽出装置は、情報入手手段によってマイクの数と発話者の数を入手し、マイクの数が発話者の数より少ないときは、各マイクによって録音がなされた音声データには複数の発話者の発話が含まれることになるので、分割発話毎に発話者との紐付けを行う。一方で、マイクの数が発話者の数と同数であるときは、各マイクによって録音がなされた音声データは、単独の発話者による発話のみとなるため、各マイクの音声データについて、一度どの発話者の発話かを判定できれば、その後は他の発話者か否かの判断をする必要がない。よって、マイクの数が発話者の数と同数であるときは不要な処理を行わないため誤った処理がなされることがなく、マイクの数が発話者の数より少ないときのみ紐付け処理を行えばよく、処理効率が向上すると共に処理精度が向上する。
【0010】
本発明の発話情報抽出装置において、前記表示手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎に紐付けられた発話者を表示し、前記マイクに紐付けられた前記発話者が複数あるときは、主たる前記発話者を表示すると共に前記発話者が複数であることを示す複数表示を行い、前記複数表示の開示指示があったときは、前記マイクに紐付けられた複数の前記発話者のすべてを表示させるようにしてもよい。
【0011】
当該構成によれば、あるマイクによって録音された音声データが、複数の発話者の発話を含む場合に、ユーザは主たる発話者と、発話者が複数であることを一目で確認することができる。また、ユーザがそのマイクを使用した他の発話者が誰なのかを知りたい場合は、開示指示を行うことによりその発話者を知ることができる。一方で、他の発話者の情報を知る必要がない場合、或いは、発話者が誤って分割された場合は、開示指示を解除することができる。ここで、主たる発話者とは、そのマイクで録音された音声データの発話時間が最も長い発話者としてもよく、マイクの所有者を主たる発話者としてもよい。
【0012】
本発明の発話情報抽出装置において、前記紐付け手段は、複数の発話者の基準音声によって学習された発話者DB(DB=データベース。以下同じ。)を参照し、前記発話者DBの学習を行う発話者DB学習手段をさらに備え、前記発話者DB学習手段は前記発話者に紐付く前記基準音声として、いずれの音声データを前記発話者DBの学習に用いるかを示す情報を、パラメータとして管理画面によって編集可能としてもよい。
【0013】
当該構成によれば、例えば、発話者DBに記憶されているある発話者のデータについて、パラメータとして記録された会議の記録を見て、特定日の会議における発話が、別の発話者が出席していた会議である等、発話者の特徴量として不適切であると判断した場合等に、その特定日の会議のデータを削除することができる。当該編集により、発話者DBにおけるデータが、本来の発話者におけるデータとなるため、発話者DBのデータの信頼性を向上させることができる。
【0014】
当該構成において、前記パラメータは、前記基準音声が録音されたイベントであってもよい。ここで、イベントとは、オンラインミーティングや講演会、パネルディスカッション等が含まれる。このように、パラメータをイベントとすると、発話者DBにおいて基準音声とすべきでないイベントがあった場合に、そのイベント毎に削除等の編集を行うことができる。当該編集は、ユーザが行ってもよく、所定のルールやアルゴリズム等を用いて自動で行ってもよい。
【0015】
また、当該構成において、前記発話者DBは、前記発話者の基準音声を解析した結果の発話の特徴量を含んでいてもよい。当該構成によれば、発話者DBのデータとして発話者の特徴量を含むため、音声データから正確に発話者の発話を抽出することができる。ここで、基準音声とは、発話者の特徴を抽出する際に基準とすべき音声であり、平常の会話の他、種々の感情を伴った会話等を含む。
【0016】
本発明の発話情報抽出装置において、前記紐付け手段の紐付け結果に対してユーザが修正可能な修正手段を備え、前記発話者DB学習手段が、ユーザによって修正された修正結果を前記発話者DBが学習し、前記紐付け手段が、学習済の前記発話者DBを参照して紐付けを行うようにしてもよい。
【0017】
当該構成によれば、紐付け手段による処理に誤りがあった場合であっても、ユーザによりその誤りを修正し、発話者DBに反映することができる。従って、例えば、ユーザが1箇所の紐付けの誤りを修正した場合であっても、発話者DBが更新されるため、他の同様の誤りも自動的に修正されるものとなる。
【発明の効果】
【0018】
本発明によれば、音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置を提供することができる。
【図面の簡単な説明】
【0019】
【
図1】本発明の実施形態の一例である発話情報抽出装置の機能的構成を示す説明図。
【
図2】(A)及び(B)は、オンラインミーティングのマイクと発話者との関係を示す説明図。
【
図3】(A)~(D)は、本実施形態の発話情報抽出装置の結果表示画面を示す説明図。
【
図4】本実施形態の発話情報抽出装置の作動を示すフローチャート。
【
図5】本実施形態の発話情報抽出装置の管理画面を示す説明図。
【
図6】本実施形態の発話情報抽出装置の結果表示画面での修正の状態を示す説明図。
【発明を実施するための形態】
【0020】
次に、
図1~
図6を参照して、本発明の実施形態である発話情報抽出装置、及び発話情報抽出プログラムについて説明する。本実施形態の発話情報抽出装置1は、例えば、オンラインミーティング等で録画されたミーティングの音声である音声データ2を、発話者S毎に抽出して表示させる装置である。
【0021】
本実施形態の発話情報抽出装置1は、機能的構成として、
図1に示すように、音声データ2を入手する音声データ入手手段3と、音声データ2において使用されたマイクMの数と発話者Sの数を入手する情報入手手段4と、音声データ2を発話毎に分割して分割発話10とする発話分割手段5と、分割発話10と発話者Sとを紐付ける紐付け手段6と、発話者Sと紐付けられた紐付け結果11を表示させる表示手段7とを備えている。
【0022】
また、本実施形態の発話情報抽出装置1は、紐付け手段6が発話者DB8と接続されている。発話者DB8には、発話者Sの基準音声の学習を行う発話者DB学習手段9が設けられている。発話者DB8は、ネットワーク等を介して紐付け手段6と接続されていてもよく、発話情報抽出装置1の内部の記憶手段に記憶されていてもよい。
【0023】
音声データ2は、例えば、オンラインミーティング等で録画されたミーティングの音声である。その他、複数のパネリスト(発話者)が参加するパネルディスカッション等において録音されたデータ等も含まれる。
【0024】
音声データ入手手段3は、発話情報抽出装置1に音声データ2を入手する機能部である。音声データ2のデータ形式は、音声のみのデータであってもよく、動画データの音声トラックであってもよい。音声データ入手手段3は、例えば、発話情報抽出装置1となっているコンピュータに、音声データ2をアップロードすることにより入手することができる。音声データ2のアップロードは、ネットワーク等を介して行ってもよく、SDカード等の記録媒体を介して行ってもよい。
【0025】
情報入手手段4は、音声データ2において使用されたマイクMの数と前記発話者の数を入手する手段である。例えば、
図2(B)のようなネットワーク14を介したオンラインミーティングがあった場合、拠点(d)においては、ミーティング装置12dの前で発話者Sdがミーティングを行うものである。発話者Sdはヘッドセット13dを装着しており、マイクMdは発話者Sdと1対1の関係となる。一方で、拠点(e)では、ミーティング装置12eの前に1個のマイクMeが設置されており、1個のマイクMeを用いて複数の発話者Se1~Se3が発話を行う。
【0026】
このようなミーティングの音声データ2について発話者情報の抽出を行う際には、情報入手手段4は、音声データ2に付随するデータ、例えばマイクIDや発話者ID等のデータを基礎として、マイクMの数と発話者Sの数の情報を入手する。具体的には、オンライン会議ツールで会議に参加したユーザのIDを入手する手法や、出願人が提供するAIによる議事録自動化システムであるACESMeetを用いてユーザ自身に情報を入力させる手法を用いることができる。
【0027】
発話分割手段5は、音声データ2を発話毎に分割して分割発話10とする機能部である。分割の手法としては、例えば、音声データ2のパワーの閾値に基づく手法を用いることができる。この手法では、一定の時間(例えば0.25ミリ秒)毎に音声を分割し、その分割されたフレーム内のパワーの総和が閾値以上の場合はそのフレームは音声フレームとし、閾値未満の場合は非音声フレームとする。そして、音声フレームが連続している区間をまとめて分割発話10とする。なお、音声データ2の分割の手法は、当該手法には限られず、公知の他の手法を用いてもよい。
【0028】
紐付け手段6は、発話分割手段5によって分割された分割発話10と、発話者Sとを紐付ける機能部である。例えば、
図2(A)のようなオンラインミーティングがあった場合、拠点(a)~(c)においては、各発話者Sa~Scにそれぞれ1台のマイクMa~Mcという構成となっている。このような場合は、各マイクMa~Mcの音声データ2についての分割発話10は、そのマイクMa~Mcのユーザである発話者Sa~Scの音声のみとなっているので、そのマイクMa~Mcの分割発話10について、発話者Sa~Sc以外の発話者を紐付けることはしない。
【0029】
一方で、
図2(B)のようなオンラインミーティングがあった場合は、拠点(e)において、マイクMeを複数の発話者Se1~Se3が使用しているため、マイクMeの分割発話10について、どの発話者の発話であるかの紐付けを行う。
【0030】
表示手段7は、発話者Sと紐付けられた分割発話10という紐付け結果11を表示させる機能部である。紐付け結果11は、例えば
図3(A)に示すように、結果表示画面20において、マイクM毎に、そのマイクMで発話を行っている発話者Sの氏名21、及び各マイクにおいて発話者が行った発話を示す分割発話10が表示される。
図3(A)は、
図2(A)のオンラインミーティングの際の紐付け結果11を示している。
【0031】
図2(B)のオンラインミーティングの際の紐付け結果11は、
図3(B)のとおりとなる。
図3(B)においては、マイクの数分だけ、そのマイクの主たる発話者の氏名21及び分割発話10が表示されている。また、
図3(B)においては、上段のマイクの氏名21の表示の左側に、そのマイクを使用している発話者が複数であることを示す複数表示22が表示される。
【0032】
このように、本実施形態の発話情報抽出装置1では、表示手段7は、当該複数表示22を行って、ユーザにマイクに紐付けられた発話者が複数であることを報知する。また、この複数表示22は、ユーザがタッチ操作等を行って開示指示を行うことにより、そのマイクに紐付けられた複数の発話者のすべてを表示させることができる。
【0033】
発話者DB8は、複数の発話者の基準音声によって学習された結果が保存されているデータベースである。発話者DB8に記憶されているデータとしては、発話者の氏名、発話者の複数の基準音声、及び基準音声を解析した結果の発話の特徴量(ベクトル)等である。
【0034】
発話者DB8としては、例えば、ディープニューラルネットワークを使ったテキスト依存の話者認証として知られている「d-vector」や「i-vector」等を用いることができる。また、発話者DB8としては、その他に、Pythonによるオープンソースフレームワークである「Pyannote.audio」等、他のデータベースを用いてもよい。
【0035】
発話者DB学習手段9は、
図5に示す管理画面23によってパラメータを編集可能となっており、パラメータを変更することにより発話者DB8の学習を行う機能部である。管理画面23は、
図5に示すように、パラメータとして、発話者「○○さんのデータベースに登録されている会議一覧」の項目において、現在登録されている会議(イベント)が表示される。この場合、パラメータとなっているイベントは会議となる。
【0036】
その会議の横には、削除ボタン24が設けられており、その会議を削除したい場合に利用される。また、会議が並んでいる最終行には、追加ボタン25が設けられている。また、管理画面23の下方には、編集内容を登録する登録ボタン26及びキャンセルを行うキャンセルボタン27が設けられている。本実施形態では、管理画面23において、発話者DB8の学習のためのパラメータとして会議のデータを表示しているが、これに限らず、会議中の特定の発話、例えば1時間の音声データのうち特定の区間のみを指定することもでき、ユーザが自身でアップロードした音声ファイル等をパラメータとすることができる。
【0037】
紐付け手段6は、この発話者DB8に記憶されているデータに基づいて、ある分割発話10がどの発話者の発話であるかを判定する。判定の方法としては、紐付け手段6においてAI(Artificial Intelligence)を利用して判定を行ってもよい。AIによる判定を行う場合は、AIに対する入力が分割発話10であり、出力が分割発話10の発話を行ったと推定される発話者Sである。
【0038】
その他の判定方法としては、分割発話10の音声を解析して発話の特徴量を算出し、発話者DB8に記憶されている特徴量に関するデータとの対比を行って、特徴量が近い発話を行っている発話者を判定結果とすることもできる。また、判定方法として、「話者分類(speaker classification)」や「話者認証(speaker verification)」の研究領域における公知の方法を採用してもよい。
【0039】
本実施形態の発話情報抽出装置1は、ユーザが使用するコンピュータ(ユーザ端末1U)等を用いて、発話情報抽出プログラム1Pを作動させることにより実現される。この発話情報抽出プログラム1Pは、パーソナルコンピュータにインストールされているものでもよく、サーバにインストールされてクライアント端末で使用できるものであってもよい。また、CDロムやDVDロム等に記憶された状態であってもよく、サーバ上にアップされてネットワークを通じてダウンロード可能となっていてもよい。
【0040】
発話情報抽出プログラム1Pが実行されるコンピュータは、CPU(中央演算処理装置)、GPU(画像処理装置)等のプロセッサ、ハードディスク、メモリ等の記憶手段、及び各種ネットワークとの接続手段、キーボード、マウス、及びディスプレイ等を備えている(図示省略)。
【0041】
次に、本実施形態の発話情報抽出装置1の作動について、
図1~
図6を参照して説明する。ユーザがユーザ端末1Uを起動させ、発話情報抽出プログラム1Pを起動させると、ユーザ端末1Uの画面に、ユーザを認識するための初期画面が表示される(図示省略)。ユーザが初期画面に対して必要な事項を入力すると、登録済のオンライン会議ツールがある場合は、音声データ入手手段3によって、そのオンライン会議ツールの動画デーから音声データ2が入力される。
【0042】
次に、ユーザが、参照すべき発話者DB8を指定し、実行指示を行うと、まず、発話分割手段5が音声データ2を分割して分割発話10とする分割処理が行われる(STEP1)。分割の手法としては、上述の音声データ2のパワーの閾値に基づく手法を用いる。
【0043】
次に、紐付け手段6によって、分割発話10について、発話者Sとの紐付けを行う紐付け処理が行われる。この紐付け処理では、まず、紐付け手段6が、音声データ2に付随するデータから、マイクMの数と発話者Sの数、及びマイクMの所有者等の情報を入手する(STEP2)。
【0044】
ここで、マイクMの数と発話者Sの数が同数であるか否かの判定を行う(STEP3)
。マイクMの数と発話者Sの数が同数であった場合(STEP3でY)、音声データ2のうち、各マイクMで録音された分割発話10を、単一の発話者と紐付ける処理を行う(STEP4)。
【0045】
具体的には、各マイクMで録音された分割発話10について、STEP2で入手したマイクMの所有者の情報から、各マイクMと発話者Sの紐付けを行う。表示手段7は、この紐付けの結果を結果表示画面20に表示させる(STEP5)。
【0046】
一方で、マイクMの数が発話者Sの数よりも少ないときは(STEP3でN)、各分割発話10毎に発話者Sの紐付けを行う(STEP6)。紐付け処理は、音声データ2から生成された分割発話10を判定AIの入力とし、出力として、発話者に紐付いた分割発話10の情報を得て、表示手段7により表示を行う(STEP7)。
【0047】
ここで、音声データ入手手段3によって入手された音声データ2において、各マイクM毎の音声データとなっておらず、1つのファイルとなっている場合、音声データ2のもととなった動画データから各マイクMの発話者Sが判明する場合は、各マイクM毎に発話者Sとの紐付けを行う。一方で、各マイクMの発話者Sが判明しない場合は、1つのマイクMにおいて複数の発話者Sが発話しているものとして処理を行う。
【0048】
なお、まれにマイクMの数が発話者Sの数よりも多いときがあるが、この場合は、発話分割手段5による分割処理の際に、パワーの低いマイクMを特定し、そのマイクMは使用されていないものと判定して、そのマイクMを除いて以降の処理を行ってもよい。或いは、各マイクMの分割処理を行った後に、通常通り紐付け処理を行ってもよい。
【0049】
表示手段7による表示は、紐付け手段6による紐付けの結果をユーザ端末1Uに表示させることにより行う(STEP5,7)。紐付けの結果は、例えば、
図3に示す構成とすることができる。
【0050】
マイクMの数と発話者Sの数が同数であった場合(STEP3でY)の表示は、表示手段7は、
図3(A)に示す結果表示画面20を表示させる(STEP5)。
図3(A)においては、紐付けの結果として、各マイクにおける主たる発話者Sの名前(名字)と、そのマイクにより得られた音声データ2における発話者Sが発話を行った分割発話10が表示されている。この分割発話10は、その音声データ2において記憶されている時刻を横軸に時系列で表示される。
図3(A)の例では、発話者Sである山田氏が最初に発話を行い、その後、鈴木氏、佐藤氏の順で発話が行われたことがわかる。
【0051】
一方で、マイクMの数が発話者Sの数よりも少ないとき(STEP3でN)の表示は、
図3(B)に示す結果表示画面20となる。
図3(B)においては、紐付けの結果として、各マイクの主たる発話者Sが表示されている。具体的には1行目のマイクには山田氏の名前が表示され、2行目のマイクには佐藤氏の名前が表示されている。
【0052】
また、
図3(B)の結果表示画面20では、1行目のマイクの表示の左横に、そのマイクMを使用している発話者Sが複数あることを示す複数表示22が表示されている。具体的には、複数表示22は、三角形で一つの頂点が発話者Sの山田氏に向けて表示された状態となっている。
【0053】
ユーザは、この複数表示22をユーザ端末1Uのマウスでクリック、或いは画面にタッチする等の操作を行うことにより、複数表示の開示指示を行うことができる。ユーザによる開示指示を受けたときは(STEP8でY)、表示手段7は、マイクMに紐付けられた複数の発話者のすべてを表示させる(STEP9)。このとき、複数表示22は、三角形の一つの頂点が下向きとなるように変更される。
図3(C)においては、山田氏のマイクMにおいて紐付けられた発話者が、山田氏以外に2名いることがわかる。
【0054】
図3(C)においては、山田氏のマイクMに紐付けられた発話者は、「山田_1」と鈴木氏となっている。「山田_1」の表示は、山田氏のマイクMに紐付けられた分割発話10であって、紐付け手段6によっては紐付けができなかった状態を示している。なお、この状態で、ユーザが再度複数表示22をクリックすれば、表示されていた山田氏以外の分割発話10の表示を折り畳んで、
図3(B)の状態に戻るようになっている。
【0055】
紐付けができなかった発話者Sについては、ユーザはその発話者の分割発話10を指定して再生指示をすることにより、分割発話10の内容を再生させて確認することができる。本実施形態では、このような場合に、紐付けが誤っている分割発話10について、結果表示画面20で修正可能としている(本発明における修正手段)。
【0056】
ここで、ユーザが当該分割発話10について、発話者Sを修正する場合は(STEP10でY)、
図3(D)に示すように、分割発話10の表示をユーザが修正した内容に変更することができる(STEP11)。ここでは、「山田_1」を斉藤氏に修正している。
【0057】
このように、ユーザによって分割発話10の紐付けの修正がなされた場合は、今回発話者の抽出を行った音声データ2が、発話者DB8において発話者の紐付けに使用されるデータとして登録される(STEP12)。これにより、次回以降の処理において当該音声データ2を発話者の紐付けに使用できるようになる。
【0058】
次に、
図5を参照して、ユーザが発話者DB学習手段9を利用し、管理画面23によってパラメータを変更し、発話者DB8の学習を行う場合について説明する。
図5においては、発話者である「○○さん」のデータベースに登録されている会議が一覧で表示されている。ユーザが、この会議一覧を見て、例えば、会議2が学習を行うのにふさわしくないと判断したときは、会議2の右横の削除ボタン24をクリックし、会議2の削除を行うことができる。
【0059】
また、ユーザが、別の会議を登録したいと判断したときは、追加ボタン25をクリックする。すると、登録したい会議の指定を促す画面(図示省略)が表示されるので、ユーザは、登録が必要と考える会議の音声データ2を指定して発話者DB8に登録することができる。
【0060】
次に、紐付け処理がなされた分割発話10について誤りがあった際の修正について、
図6を参照して説明する。例えば、
図6(A)に示した状態で、山田氏のマイクMにおいて録音された3個ある分割発話10のうち、鈴木の右端にある分割発話10をユーザが確認した際に、鈴木氏ではなく佐藤氏の発話であったことが判明した。
【0061】
この場合、ユーザは、修正が必要であるので(STEP10でY)、マウスやタッチによる操作等で右端の分割発話10を鈴木氏から佐藤氏に移動させ、修正することができる(STEP11)。この修正を確定させると、修正内容が発話者DB8に登録される(STEP12)。
【0062】
ここで、ユーザが再度の紐付け処理を行いたい場合は、再度処理を実行させることで、紐付け手段6が、修正が行われた後の学習済の発話者DB8を参照して、再度紐付け処理を行うことができる。その結果、例えば、
図6における鈴木氏の左から2個目の分割発話10も佐藤氏の発話であることが判明したときは、表示手段7は、
図6(B)に示すように、修正後の分割発話10の表示を行う。
【0063】
以上の通り、本実施形態の発話情報抽出装置1によれば、マイクMの数が発話者Sの数と同数であるときは、各マイクMによって録音がなされた音声データ2は、単独の発話者による発話のみとなるため、各マイクMからの音声データ2について、どの発話者Sの発話かを判定する処理を行う必要がない。よって、この場合は不要な処理を行わないため誤った処理がなされることがなく、マイクMの数が発話者の数より少ないときのみ紐付け処理を行えばよく、処理効率が向上すると共に処理精度が向上する。
【0064】
また、あるマイクMによって録音された音声データ2が、複数の発話者Sの発話を含む場合に、結果表示画面20において、ユーザは主たる発話者Sと、発話者Sが複数であることを一目で確認することができる。また、ユーザがそのマイクMを使用した他の発話者Sが誰なのかを知りたい場合は、開示指示を行うことによりその発話者Sを知ることができる。
【0065】
一方で、ユーザが複数表示22によって、マイクMを使用した他の発話者Sを確認した際に、実際は発話者Sが単独であるにも関わらず、2人以上が発話を行っていると誤認識されていることが発見される場合がある。この場合は、ユーザが再度複数表示22をクリックすれば、表示されていた複数の分割発話10の表示を折り畳んで、
図3(B)の状態に戻すことができる。当該構成により、発話者Sの認識が誤っている場合であっても、誤った分割発話10を非表示にすることができる。
【0066】
また、発話者DB8に記憶されているある発話者Sのデータについて、パラメータとして記録された会議の記録を見て、学習データとしてふさわしくないと判断した場合に、その特定日の会議のデータを削除する等の編集をすることができる。当該編集により、発話者DB8のデータの信頼性を向上させることができる。
【0067】
また、発話者DB8のパラメータを編集可能とすることにより、一人の発話者Sに対して複数の会議を紐付けることが可能となる。同一の発話者Sであっても、その声の特徴は使用しているマイクの種類や、発話者の体調、発話のバリエーション(笑い声、ささやき声等)、マイクと発話者との距離、部屋の大きさと反響に関する特性などの音響環境に影響を受ける。このため、発話者Sについて、特定の会議のみから特徴量を推定すると、他の音響環境における発話者Sの判定の精度が低くなるが、複数の音響環境の会議を紐付けることで、判定精度の向上を図ることができる。
【0068】
さらに、紐付け処理がなされた分割発話10について誤りがあった場合であっても、ユーザが修正を行うことができ、その修正結果が発話者DB8に反映されるので、1箇所の修正を行えば、その他の同様の修正を自動で行うことができる。
【0069】
なお、上記実施形態においては、結果表示画面20において、マイクMで録音された音声データ2が複数の発話者Sである場合に、主たる発話者Sを、マイクMで録音された音声データ2の発話時間が最も長い発話者Sとしているが、これに限らず、マイクMの所有者として登録されている発話者Sを主たる発話者Sとしてもよい。
【0070】
また、上記実施形態では、音声データ入手手段3による音声データ2の入力を、登録されたオンライン会議ツールの動画データから自動的に行っているが、これに限らず、ユーザ端末1Uに入力画面(図示省略)を表示させて、その入力画面から音声データ2を入力するようにしてもよい。
【0071】
また、上記実施形態では、複数表示22は、三角形の表示となっているが、これに限らず、複数あることが認識できれば、他の表示方法を用いてもよい。例えば、矢印等の図形や、何らかの図形を点滅表示させ、展開させた際に点滅を停止する等、任意の表示とすることができる。
【0072】
また、上記実施形態では、STEP4において、音声データ2のうち、各マイクMで録音された分割発話10を、単一の発話者と紐付ける処理を行う際に、各マイクMで録音された分割発話10について、STEP2で入手したマイクMの所有者の情報から、各マイクMと発話者Sの紐付けを行っているが、発話者DB8を参照して判定を行う判定AIに入力し、出力として発話をしたと推定される発話者を得るようにしてもよい。
【0073】
また、上記実施形態では、発話者DB学習手段9として、
図5に示す管理画面23によってパラメータを編集可能としているが、これに限らず、自動で学習を行うようにしてもよい。例えば、STEP4において、各マイクMで録音された分割発話10を、単一の発話者と紐付ける処理を行った際に、発話者DB8において追加学習を行ってデータベースを更新するようにしてもよい。また、別個に学習管理画面(図示省略)を設けて、STEP4の紐付け処理の結果を学習させるか否かを設定できるようにしてもよい。
【0074】
また、上記実施形態では、複数表示22は、ユーザがタッチ操作等を行って開示指示を行うことにより、そのマイクに紐付けられた複数の発話者のすべてを表示させるようにしているが、これに限らず、複数表示を行うか否かの設定画面(図示省略)を設けておき、その設定に従って複数のすべての表示を行うか否かを設定できるようにしてもよい。
【符号の説明】
【0075】
1…発話情報抽出装置
1P…発話情報抽出プログラム
2…音声データ
3…音声データ入手手段
4…情報入手手段
5…発話分割手段
6…紐付け手段
7…表示手段
8…発話者DB
9…発話者DB学習手段
10…分割発話
11…紐付け結果
20…結果表示画面
22…複数表示
23…管理画面
M…マイク
S…発話者
【要約】 (修正有)
【課題】音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置及びプログラムを提供する。
【解決手段】発話情報抽出装置1は、音声データ2を入手する音声データ入手手段3と、音声データ2において使用されたマイクの数と発話者の数を入手する情報入手手段4と、音声データ2を発話毎に分割して分割発話とする発話分割手段5と、分割発話と発話者とを紐付ける紐付け手段6と、発話者と紐付けられた紐付け結果を表示させる表示手段7と、を備える。マイクの数と発話者の数が同数であった場合、音声データ2のうち、各マイクで録音された分割発話を、単一の発話者と紐付ける処理を行う。
【選択図】
図1