特許7507528 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＡＣＥＳの特許一覧

特許7507528発話情報抽出装置及びそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-06-20

(45)【発行日】2024-06-28

(54)【発明の名称】発話情報抽出装置及びそのプログラム

(51)【国際特許分類】

G10L 17/00 20130101AFI20240621BHJP

【ＦＩ】

G10L17/00 400

【請求項の数】 7

(21)【出願番号】P 2024008068

(22)【出願日】2024-01-23

【審査請求日】2024-01-23

【早期審査対象出願】

(73)【特許権者】

【識別番号】520008533

【氏名又は名称】株式会社ＡＣＥＳ

(74)【代理人】

【識別番号】110002181

【氏名又は名称】弁理士法人ＩＰ－ＦＯＣＵＳ

(74)【代理人】

【識別番号】100208959

【弁理士】

【氏名又は名称】島田敏史

(72)【発明者】

【氏名】阿久澤圭

(72)【発明者】

【氏名】荒川陸

(72)【発明者】

【氏名】久保静真

(72)【発明者】

【氏名】村上大騎

(72)【発明者】

【氏名】三田村健

【審査官】中村天真

(56)【参考文献】

【文献】特開２０２２－０１５７７５（ＪＰ，Ａ）

【文献】特開２００９－１３９５９２（ＪＰ，Ａ）

【文献】特開２０２２－１０９０４８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１７／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

音声データから発話者の発話を抽出する発話情報抽出装置であって、
前記音声データを入手する音声データ入手手段と、
前記音声データにおいて使用されたマイクの数と前記発話者の数を入手する情報入手手段と、
前記音声データを発話毎に分割して分割発話とする発話分割手段と、
前記分割発話と前記発話者とを紐付ける紐付け手段と、
前記発話者と紐付けられた紐付け結果を表示させる表示手段とを備え、
前記紐付け手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎の前記分割発話を単一の前記発話者に紐付けし、
前記マイクの数が前記発話者の数より少ないときは、前記分割発話毎に前記発話者との紐付けを行うことを特徴とする発話情報抽出装置。

【請求項2】

請求項１に記載の発話情報抽出装置であって、
前記表示手段は、
前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎に紐付けられた発話者を表示し、
前記マイクに紐付けられた前記発話者が複数あるときは、主たる前記発話者を表示すると共に前記発話者が複数であることを示す複数表示を行い、前記複数表示の開示指示があったときは、前記マイクに紐付けられた複数の前記発話者のすべてを表示させることを特徴とする発話情報抽出装置。

【請求項3】

請求項１に記載の発話情報抽出装置であって、
前記紐付け手段は、複数の発話者の基準音声によって学習された発話者ＤＢを参照し、
前記発話者ＤＢの学習を行う発話者ＤＢ学習手段をさらに備え、
前記発話者ＤＢ学習手段は、前記発話者に紐付く前記基準音声として、いずれの音声データを前記発話者ＤＢの学習に用いるかを示す情報を、パラメータとして管理画面によって編集可能であることを特徴とする発話情報抽出装置。

【請求項4】

請求項３に記載の発話情報抽出装置であって、
前記パラメータは、前記基準音声が録音されたイベントであることを特徴とする発話情報抽出装置。

【請求項5】

請求項３に記載の発話情報抽出装置であって、
前記発話者ＤＢは、前記発話者の基準音声を解析した結果の発話の特徴量を含むことを特徴とする発話情報抽出装置。

【請求項6】

請求項３に記載の発話情報抽出装置であって、
前記紐付け手段の紐付け結果に対してユーザが修正可能な修正手段を備え、
前記発話者ＤＢ学習手段は、ユーザによって修正された修正結果を前記発話者ＤＢが学習し、
前記紐付け手段は、学習済の前記発話者ＤＢを参照して紐付けを行うことを特徴とする発話情報抽出装置。

【請求項7】

コンピュータを請求項１乃至６のいずれか１項に記載の発話情報抽出装置として作動させる発話情報抽出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オンラインミーティング、或いは講演会等の音声データについて、発話者を認識して発話を抽出する装置及びそのプログラムに関する。

【背景技術】

【0002】

オンラインミーティング、或いは講演会等の音声データについて、いつ誰が話したかを推定して抽出する技術は、話者ダイアライゼーション技術と呼ばれている。例えば、オンラインミーティングの音声データについて、発話者を認識してその発話を抽出することにより、事後的にそのオンラインミーティングにおける発話の有効性の分析等を行うことができる。

【0003】

特許文献１には、音声ファイルに対して行う話者ダイアライゼーション方法であって、話者の基準音声を利用して音声ファイルから基準音声の発話者を識別し、識別されなかった残りの発話区間に対してクラスタリングを利用して話者の識別を行う話者ダイアライゼーション方法が開示されている。

【0004】

特許文献１の方法では、音声ファイルを録音したマイク（マイクロフォン）についてどのように取り扱うかの記載がないため、単に音声ファイルを発話毎に切り分けて、切り分けられた発話がどの発話者の発話であるかを識別している。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０２２－１０９８６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

特許文献１の方法では、音声ファイルを録音したマイクが単数であるか複数であるかに関わらず同じ処理を行っているが、本願発明者等は、話者ダイアライゼーションを行う際に、話者とマイクとの関係が処理の精度に影響を与えていることを知見した。

【0007】

本発明は、音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本発明の発話情報抽出装置は、音声データから発話者の発話を抽出する発話情報抽出装置であって、前記音声データを入手する音声データ入手手段と、前記音声データにおいて使用されたマイクの数と前記発話者の数を入手する情報入手手段と、前記音声データを発話毎に分割して分割発話とする発話分割手段と、前記分割発話と前記発話者とを紐付ける紐付け手段と、前記発話者と紐付けられた紐付け結果を表示させる表示手段とを備え、前記紐付け手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎の前記分割発話を単一の前記発話者に紐付けし、前記マイクの数が前記発話者の数より少ないときは、前記分割発話毎に前記発話者との紐付けを行うことを特徴とする。

【0009】

本発明の発話情報抽出装置は、情報入手手段によってマイクの数と発話者の数を入手し、マイクの数が発話者の数より少ないときは、各マイクによって録音がなされた音声データには複数の発話者の発話が含まれることになるので、分割発話毎に発話者との紐付けを行う。一方で、マイクの数が発話者の数と同数であるときは、各マイクによって録音がなされた音声データは、単独の発話者による発話のみとなるため、各マイクの音声データについて、一度どの発話者の発話かを判定できれば、その後は他の発話者か否かの判断をする必要がない。よって、マイクの数が発話者の数と同数であるときは不要な処理を行わないため誤った処理がなされることがなく、マイクの数が発話者の数より少ないときのみ紐付け処理を行えばよく、処理効率が向上すると共に処理精度が向上する。

【0010】

本発明の発話情報抽出装置において、前記表示手段は、前記マイクの数が前記発話者の数と同数であるときは、前記マイク毎に紐付けられた発話者を表示し、前記マイクに紐付けられた前記発話者が複数あるときは、主たる前記発話者を表示すると共に前記発話者が複数であることを示す複数表示を行い、前記複数表示の開示指示があったときは、前記マイクに紐付けられた複数の前記発話者のすべてを表示させるようにしてもよい。

【0011】

当該構成によれば、あるマイクによって録音された音声データが、複数の発話者の発話を含む場合に、ユーザは主たる発話者と、発話者が複数であることを一目で確認することができる。また、ユーザがそのマイクを使用した他の発話者が誰なのかを知りたい場合は、開示指示を行うことによりその発話者を知ることができる。一方で、他の発話者の情報を知る必要がない場合、或いは、発話者が誤って分割された場合は、開示指示を解除することができる。ここで、主たる発話者とは、そのマイクで録音された音声データの発話時間が最も長い発話者としてもよく、マイクの所有者を主たる発話者としてもよい。

【0012】

本発明の発話情報抽出装置において、前記紐付け手段は、複数の発話者の基準音声によって学習された発話者ＤＢ（ＤＢ＝データベース。以下同じ。）を参照し、前記発話者ＤＢの学習を行う発話者ＤＢ学習手段をさらに備え、前記発話者ＤＢ学習手段は前記発話者に紐付く前記基準音声として、いずれの音声データを前記発話者ＤＢの学習に用いるかを示す情報を、パラメータとして管理画面によって編集可能としてもよい。

【0013】

当該構成によれば、例えば、発話者ＤＢに記憶されているある発話者のデータについて、パラメータとして記録された会議の記録を見て、特定日の会議における発話が、別の発話者が出席していた会議である等、発話者の特徴量として不適切であると判断した場合等に、その特定日の会議のデータを削除することができる。当該編集により、発話者ＤＢにおけるデータが、本来の発話者におけるデータとなるため、発話者ＤＢのデータの信頼性を向上させることができる。

【0014】

当該構成において、前記パラメータは、前記基準音声が録音されたイベントであってもよい。ここで、イベントとは、オンラインミーティングや講演会、パネルディスカッション等が含まれる。このように、パラメータをイベントとすると、発話者ＤＢにおいて基準音声とすべきでないイベントがあった場合に、そのイベント毎に削除等の編集を行うことができる。当該編集は、ユーザが行ってもよく、所定のルールやアルゴリズム等を用いて自動で行ってもよい。

【0015】

また、当該構成において、前記発話者ＤＢは、前記発話者の基準音声を解析した結果の発話の特徴量を含んでいてもよい。当該構成によれば、発話者ＤＢのデータとして発話者の特徴量を含むため、音声データから正確に発話者の発話を抽出することができる。ここで、基準音声とは、発話者の特徴を抽出する際に基準とすべき音声であり、平常の会話の他、種々の感情を伴った会話等を含む。

【0016】

本発明の発話情報抽出装置において、前記紐付け手段の紐付け結果に対してユーザが修正可能な修正手段を備え、前記発話者ＤＢ学習手段が、ユーザによって修正された修正結果を前記発話者ＤＢが学習し、前記紐付け手段が、学習済の前記発話者ＤＢを参照して紐付けを行うようにしてもよい。

【0017】

当該構成によれば、紐付け手段による処理に誤りがあった場合であっても、ユーザによりその誤りを修正し、発話者ＤＢに反映することができる。従って、例えば、ユーザが１箇所の紐付けの誤りを修正した場合であっても、発話者ＤＢが更新されるため、他の同様の誤りも自動的に修正されるものとなる。

【発明の効果】

【0018】

本発明によれば、音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置を提供することができる。

【図面の簡単な説明】

【0019】

【図1】本発明の実施形態の一例である発話情報抽出装置の機能的構成を示す説明図。

【図2】（Ａ）及び（Ｂ）は、オンラインミーティングのマイクと発話者との関係を示す説明図。

【図3】（Ａ）～（Ｄ）は、本実施形態の発話情報抽出装置の結果表示画面を示す説明図。

【図4】本実施形態の発話情報抽出装置の作動を示すフローチャート。

【図5】本実施形態の発話情報抽出装置の管理画面を示す説明図。

【図6】本実施形態の発話情報抽出装置の結果表示画面での修正の状態を示す説明図。

【発明を実施するための形態】

【0020】

次に、図１～図６を参照して、本発明の実施形態である発話情報抽出装置、及び発話情報抽出プログラムについて説明する。本実施形態の発話情報抽出装置１は、例えば、オンラインミーティング等で録画されたミーティングの音声である音声データ２を、発話者Ｓ毎に抽出して表示させる装置である。

【0021】

本実施形態の発話情報抽出装置１は、機能的構成として、図１に示すように、音声データ２を入手する音声データ入手手段３と、音声データ２において使用されたマイクＭの数と発話者Ｓの数を入手する情報入手手段４と、音声データ２を発話毎に分割して分割発話１０とする発話分割手段５と、分割発話１０と発話者Ｓとを紐付ける紐付け手段６と、発話者Ｓと紐付けられた紐付け結果１１を表示させる表示手段７とを備えている。

【0022】

また、本実施形態の発話情報抽出装置１は、紐付け手段６が発話者ＤＢ８と接続されている。発話者ＤＢ８には、発話者Ｓの基準音声の学習を行う発話者ＤＢ学習手段９が設けられている。発話者ＤＢ８は、ネットワーク等を介して紐付け手段６と接続されていてもよく、発話情報抽出装置１の内部の記憶手段に記憶されていてもよい。

【0023】

音声データ２は、例えば、オンラインミーティング等で録画されたミーティングの音声である。その他、複数のパネリスト（発話者）が参加するパネルディスカッション等において録音されたデータ等も含まれる。

【0024】

音声データ入手手段３は、発話情報抽出装置１に音声データ２を入手する機能部である。音声データ２のデータ形式は、音声のみのデータであってもよく、動画データの音声トラックであってもよい。音声データ入手手段３は、例えば、発話情報抽出装置１となっているコンピュータに、音声データ２をアップロードすることにより入手することができる。音声データ２のアップロードは、ネットワーク等を介して行ってもよく、ＳＤカード等の記録媒体を介して行ってもよい。

【0025】

情報入手手段４は、音声データ２において使用されたマイクＭの数と前記発話者の数を入手する手段である。例えば、図２（Ｂ）のようなネットワーク１４を介したオンラインミーティングがあった場合、拠点（ｄ）においては、ミーティング装置１２ｄの前で発話者Ｓｄがミーティングを行うものである。発話者Ｓｄはヘッドセット１３ｄを装着しており、マイクＭｄは発話者Ｓｄと１対１の関係となる。一方で、拠点（ｅ）では、ミーティング装置１２ｅの前に１個のマイクＭｅが設置されており、１個のマイクＭｅを用いて複数の発話者Ｓｅ１～Ｓｅ３が発話を行う。

【0026】

このようなミーティングの音声データ２について発話者情報の抽出を行う際には、情報入手手段４は、音声データ２に付随するデータ、例えばマイクＩＤや発話者ＩＤ等のデータを基礎として、マイクＭの数と発話者Ｓの数の情報を入手する。具体的には、オンライン会議ツールで会議に参加したユーザのＩＤを入手する手法や、出願人が提供するＡＩによる議事録自動化システムであるＡＣＥＳＭｅｅｔを用いてユーザ自身に情報を入力させる手法を用いることができる。

【0027】

発話分割手段５は、音声データ２を発話毎に分割して分割発話１０とする機能部である。分割の手法としては、例えば、音声データ２のパワーの閾値に基づく手法を用いることができる。この手法では、一定の時間（例えば０．２５ミリ秒）毎に音声を分割し、その分割されたフレーム内のパワーの総和が閾値以上の場合はそのフレームは音声フレームとし、閾値未満の場合は非音声フレームとする。そして、音声フレームが連続している区間をまとめて分割発話１０とする。なお、音声データ２の分割の手法は、当該手法には限られず、公知の他の手法を用いてもよい。

【0028】

紐付け手段６は、発話分割手段５によって分割された分割発話１０と、発話者Ｓとを紐付ける機能部である。例えば、図２（Ａ）のようなオンラインミーティングがあった場合、拠点（ａ）～（ｃ）においては、各発話者Ｓａ～Ｓｃにそれぞれ１台のマイクＭａ～Ｍｃという構成となっている。このような場合は、各マイクＭａ～Ｍｃの音声データ２についての分割発話１０は、そのマイクＭａ～Ｍｃのユーザである発話者Ｓａ～Ｓｃの音声のみとなっているので、そのマイクＭａ～Ｍｃの分割発話１０について、発話者Ｓａ～Ｓｃ以外の発話者を紐付けることはしない。

【0029】

一方で、図２（Ｂ）のようなオンラインミーティングがあった場合は、拠点（ｅ）において、マイクＭｅを複数の発話者Ｓｅ１～Ｓｅ３が使用しているため、マイクＭｅの分割発話１０について、どの発話者の発話であるかの紐付けを行う。

【0030】

表示手段７は、発話者Ｓと紐付けられた分割発話１０という紐付け結果１１を表示させる機能部である。紐付け結果１１は、例えば図３（Ａ）に示すように、結果表示画面２０において、マイクＭ毎に、そのマイクＭで発話を行っている発話者Ｓの氏名２１、及び各マイクにおいて発話者が行った発話を示す分割発話１０が表示される。図３（Ａ）は、図２（Ａ）のオンラインミーティングの際の紐付け結果１１を示している。

【0031】

図２（Ｂ）のオンラインミーティングの際の紐付け結果１１は、図３（Ｂ）のとおりとなる。図３（Ｂ）においては、マイクの数分だけ、そのマイクの主たる発話者の氏名２１及び分割発話１０が表示されている。また、図３（Ｂ）においては、上段のマイクの氏名２１の表示の左側に、そのマイクを使用している発話者が複数であることを示す複数表示２２が表示される。

【0032】

このように、本実施形態の発話情報抽出装置１では、表示手段７は、当該複数表示２２を行って、ユーザにマイクに紐付けられた発話者が複数であることを報知する。また、この複数表示２２は、ユーザがタッチ操作等を行って開示指示を行うことにより、そのマイクに紐付けられた複数の発話者のすべてを表示させることができる。

【0033】

発話者ＤＢ８は、複数の発話者の基準音声によって学習された結果が保存されているデータベースである。発話者ＤＢ８に記憶されているデータとしては、発話者の氏名、発話者の複数の基準音声、及び基準音声を解析した結果の発話の特徴量（ベクトル）等である。

【0034】

発話者ＤＢ８としては、例えば、ディープニューラルネットワークを使ったテキスト依存の話者認証として知られている「d-vector」や「i-vector」等を用いることができる。また、発話者ＤＢ８としては、その他に、Pythonによるオープンソースフレームワークである「Pyannote.audio」等、他のデータベースを用いてもよい。

【0035】

発話者ＤＢ学習手段９は、図５に示す管理画面２３によってパラメータを編集可能となっており、パラメータを変更することにより発話者ＤＢ８の学習を行う機能部である。管理画面２３は、図５に示すように、パラメータとして、発話者「○○さんのデータベースに登録されている会議一覧」の項目において、現在登録されている会議（イベント）が表示される。この場合、パラメータとなっているイベントは会議となる。

【0036】

その会議の横には、削除ボタン２４が設けられており、その会議を削除したい場合に利用される。また、会議が並んでいる最終行には、追加ボタン２５が設けられている。また、管理画面２３の下方には、編集内容を登録する登録ボタン２６及びキャンセルを行うキャンセルボタン２７が設けられている。本実施形態では、管理画面２３において、発話者ＤＢ８の学習のためのパラメータとして会議のデータを表示しているが、これに限らず、会議中の特定の発話、例えば１時間の音声データのうち特定の区間のみを指定することもでき、ユーザが自身でアップロードした音声ファイル等をパラメータとすることができる。

【0037】

紐付け手段６は、この発話者ＤＢ８に記憶されているデータに基づいて、ある分割発話１０がどの発話者の発話であるかを判定する。判定の方法としては、紐付け手段６においてＡＩ（Artificial Intelligence）を利用して判定を行ってもよい。ＡＩによる判定を行う場合は、ＡＩに対する入力が分割発話１０であり、出力が分割発話１０の発話を行ったと推定される発話者Ｓである。

【0038】

その他の判定方法としては、分割発話１０の音声を解析して発話の特徴量を算出し、発話者ＤＢ８に記憶されている特徴量に関するデータとの対比を行って、特徴量が近い発話を行っている発話者を判定結果とすることもできる。また、判定方法として、「話者分類（speaker classification）」や「話者認証（speaker verification）」の研究領域における公知の方法を採用してもよい。

【0039】

本実施形態の発話情報抽出装置１は、ユーザが使用するコンピュータ（ユーザ端末１Ｕ）等を用いて、発話情報抽出プログラム１Ｐを作動させることにより実現される。この発話情報抽出プログラム１Ｐは、パーソナルコンピュータにインストールされているものでもよく、サーバにインストールされてクライアント端末で使用できるものであってもよい。また、ＣＤロムやＤＶＤロム等に記憶された状態であってもよく、サーバ上にアップされてネットワークを通じてダウンロード可能となっていてもよい。

【0040】

発話情報抽出プログラム１Ｐが実行されるコンピュータは、ＣＰＵ（中央演算処理装置）、ＧＰＵ（画像処理装置）等のプロセッサ、ハードディスク、メモリ等の記憶手段、及び各種ネットワークとの接続手段、キーボード、マウス、及びディスプレイ等を備えている（図示省略）。

【0041】

次に、本実施形態の発話情報抽出装置１の作動について、図１～図６を参照して説明する。ユーザがユーザ端末１Ｕを起動させ、発話情報抽出プログラム１Ｐを起動させると、ユーザ端末１Ｕの画面に、ユーザを認識するための初期画面が表示される（図示省略）。ユーザが初期画面に対して必要な事項を入力すると、登録済のオンライン会議ツールがある場合は、音声データ入手手段３によって、そのオンライン会議ツールの動画デーから音声データ２が入力される。

【0042】

次に、ユーザが、参照すべき発話者ＤＢ８を指定し、実行指示を行うと、まず、発話分割手段５が音声データ２を分割して分割発話１０とする分割処理が行われる（ＳＴＥＰ１）。分割の手法としては、上述の音声データ２のパワーの閾値に基づく手法を用いる。

【0043】

次に、紐付け手段６によって、分割発話１０について、発話者Ｓとの紐付けを行う紐付け処理が行われる。この紐付け処理では、まず、紐付け手段６が、音声データ２に付随するデータから、マイクＭの数と発話者Ｓの数、及びマイクＭの所有者等の情報を入手する（ＳＴＥＰ２）。

【0044】

ここで、マイクＭの数と発話者Ｓの数が同数であるか否かの判定を行う（ＳＴＥＰ３）
。マイクＭの数と発話者Ｓの数が同数であった場合（ＳＴＥＰ３でＹ）、音声データ２のうち、各マイクＭで録音された分割発話１０を、単一の発話者と紐付ける処理を行う（ＳＴＥＰ４）。

【0045】

具体的には、各マイクＭで録音された分割発話１０について、ＳＴＥＰ２で入手したマイクＭの所有者の情報から、各マイクＭと発話者Ｓの紐付けを行う。表示手段７は、この紐付けの結果を結果表示画面２０に表示させる（ＳＴＥＰ５）。

【0046】

一方で、マイクＭの数が発話者Ｓの数よりも少ないときは（ＳＴＥＰ３でＮ）、各分割発話１０毎に発話者Ｓの紐付けを行う（ＳＴＥＰ６）。紐付け処理は、音声データ２から生成された分割発話１０を判定ＡＩの入力とし、出力として、発話者に紐付いた分割発話１０の情報を得て、表示手段７により表示を行う（ＳＴＥＰ７）。

【0047】

ここで、音声データ入手手段３によって入手された音声データ２において、各マイクＭ毎の音声データとなっておらず、１つのファイルとなっている場合、音声データ２のもととなった動画データから各マイクＭの発話者Ｓが判明する場合は、各マイクＭ毎に発話者Ｓとの紐付けを行う。一方で、各マイクＭの発話者Ｓが判明しない場合は、１つのマイクＭにおいて複数の発話者Ｓが発話しているものとして処理を行う。

【0048】

なお、まれにマイクＭの数が発話者Ｓの数よりも多いときがあるが、この場合は、発話分割手段５による分割処理の際に、パワーの低いマイクＭを特定し、そのマイクＭは使用されていないものと判定して、そのマイクＭを除いて以降の処理を行ってもよい。或いは、各マイクＭの分割処理を行った後に、通常通り紐付け処理を行ってもよい。

【0049】

表示手段７による表示は、紐付け手段６による紐付けの結果をユーザ端末１Ｕに表示させることにより行う（ＳＴＥＰ５，７）。紐付けの結果は、例えば、図３に示す構成とすることができる。

【0050】

マイクＭの数と発話者Ｓの数が同数であった場合（ＳＴＥＰ３でＹ）の表示は、表示手段７は、図３（Ａ）に示す結果表示画面２０を表示させる（ＳＴＥＰ５）。図３（Ａ）においては、紐付けの結果として、各マイクにおける主たる発話者Ｓの名前（名字）と、そのマイクにより得られた音声データ２における発話者Ｓが発話を行った分割発話１０が表示されている。この分割発話１０は、その音声データ２において記憶されている時刻を横軸に時系列で表示される。図３（Ａ）の例では、発話者Ｓである山田氏が最初に発話を行い、その後、鈴木氏、佐藤氏の順で発話が行われたことがわかる。

【0051】

一方で、マイクＭの数が発話者Ｓの数よりも少ないとき（ＳＴＥＰ３でＮ）の表示は、図３（Ｂ）に示す結果表示画面２０となる。図３（Ｂ）においては、紐付けの結果として、各マイクの主たる発話者Ｓが表示されている。具体的には１行目のマイクには山田氏の名前が表示され、２行目のマイクには佐藤氏の名前が表示されている。

【0052】

また、図３（Ｂ）の結果表示画面２０では、１行目のマイクの表示の左横に、そのマイクＭを使用している発話者Ｓが複数あることを示す複数表示２２が表示されている。具体的には、複数表示２２は、三角形で一つの頂点が発話者Ｓの山田氏に向けて表示された状態となっている。

【0053】

ユーザは、この複数表示２２をユーザ端末１Ｕのマウスでクリック、或いは画面にタッチする等の操作を行うことにより、複数表示の開示指示を行うことができる。ユーザによる開示指示を受けたときは（ＳＴＥＰ８でＹ）、表示手段７は、マイクＭに紐付けられた複数の発話者のすべてを表示させる（ＳＴＥＰ９）。このとき、複数表示２２は、三角形の一つの頂点が下向きとなるように変更される。図３（Ｃ）においては、山田氏のマイクＭにおいて紐付けられた発話者が、山田氏以外に２名いることがわかる。

【0054】

図３（Ｃ）においては、山田氏のマイクＭに紐付けられた発話者は、「山田＿１」と鈴木氏となっている。「山田＿１」の表示は、山田氏のマイクＭに紐付けられた分割発話１０であって、紐付け手段６によっては紐付けができなかった状態を示している。なお、この状態で、ユーザが再度複数表示２２をクリックすれば、表示されていた山田氏以外の分割発話１０の表示を折り畳んで、図３（Ｂ）の状態に戻るようになっている。

【0055】

紐付けができなかった発話者Ｓについては、ユーザはその発話者の分割発話１０を指定して再生指示をすることにより、分割発話１０の内容を再生させて確認することができる。本実施形態では、このような場合に、紐付けが誤っている分割発話１０について、結果表示画面２０で修正可能としている（本発明における修正手段）。

【0056】

ここで、ユーザが当該分割発話１０について、発話者Ｓを修正する場合は（ＳＴＥＰ１０でＹ）、図３（Ｄ）に示すように、分割発話１０の表示をユーザが修正した内容に変更することができる（ＳＴＥＰ１１）。ここでは、「山田＿１」を斉藤氏に修正している。

【0057】

このように、ユーザによって分割発話１０の紐付けの修正がなされた場合は、今回発話者の抽出を行った音声データ２が、発話者ＤＢ８において発話者の紐付けに使用されるデータとして登録される（ＳＴＥＰ１２）。これにより、次回以降の処理において当該音声データ２を発話者の紐付けに使用できるようになる。

【0058】

次に、図５を参照して、ユーザが発話者ＤＢ学習手段９を利用し、管理画面２３によってパラメータを変更し、発話者ＤＢ８の学習を行う場合について説明する。図５においては、発話者である「○○さん」のデータベースに登録されている会議が一覧で表示されている。ユーザが、この会議一覧を見て、例えば、会議２が学習を行うのにふさわしくないと判断したときは、会議２の右横の削除ボタン２４をクリックし、会議２の削除を行うことができる。

【0059】

また、ユーザが、別の会議を登録したいと判断したときは、追加ボタン２５をクリックする。すると、登録したい会議の指定を促す画面（図示省略）が表示されるので、ユーザは、登録が必要と考える会議の音声データ２を指定して発話者ＤＢ８に登録することができる。

【0060】

次に、紐付け処理がなされた分割発話１０について誤りがあった際の修正について、図６を参照して説明する。例えば、図６（Ａ）に示した状態で、山田氏のマイクＭにおいて録音された３個ある分割発話１０のうち、鈴木の右端にある分割発話１０をユーザが確認した際に、鈴木氏ではなく佐藤氏の発話であったことが判明した。

【0061】

この場合、ユーザは、修正が必要であるので（ＳＴＥＰ１０でＹ）、マウスやタッチによる操作等で右端の分割発話１０を鈴木氏から佐藤氏に移動させ、修正することができる（ＳＴＥＰ１１）。この修正を確定させると、修正内容が発話者ＤＢ８に登録される（ＳＴＥＰ１２）。

【0062】

ここで、ユーザが再度の紐付け処理を行いたい場合は、再度処理を実行させることで、紐付け手段６が、修正が行われた後の学習済の発話者ＤＢ８を参照して、再度紐付け処理を行うことができる。その結果、例えば、図６における鈴木氏の左から２個目の分割発話１０も佐藤氏の発話であることが判明したときは、表示手段７は、図６（Ｂ）に示すように、修正後の分割発話１０の表示を行う。

【0063】

以上の通り、本実施形態の発話情報抽出装置１によれば、マイクＭの数が発話者Ｓの数と同数であるときは、各マイクＭによって録音がなされた音声データ２は、単独の発話者による発話のみとなるため、各マイクＭからの音声データ２について、どの発話者Ｓの発話かを判定する処理を行う必要がない。よって、この場合は不要な処理を行わないため誤った処理がなされることがなく、マイクＭの数が発話者の数より少ないときのみ紐付け処理を行えばよく、処理効率が向上すると共に処理精度が向上する。

【0064】

また、あるマイクＭによって録音された音声データ２が、複数の発話者Ｓの発話を含む場合に、結果表示画面２０において、ユーザは主たる発話者Ｓと、発話者Ｓが複数であることを一目で確認することができる。また、ユーザがそのマイクＭを使用した他の発話者Ｓが誰なのかを知りたい場合は、開示指示を行うことによりその発話者Ｓを知ることができる。

【0065】

一方で、ユーザが複数表示２２によって、マイクＭを使用した他の発話者Ｓを確認した際に、実際は発話者Ｓが単独であるにも関わらず、２人以上が発話を行っていると誤認識されていることが発見される場合がある。この場合は、ユーザが再度複数表示２２をクリックすれば、表示されていた複数の分割発話１０の表示を折り畳んで、図３（Ｂ）の状態に戻すことができる。当該構成により、発話者Ｓの認識が誤っている場合であっても、誤った分割発話１０を非表示にすることができる。

【0066】

また、発話者ＤＢ８に記憶されているある発話者Ｓのデータについて、パラメータとして記録された会議の記録を見て、学習データとしてふさわしくないと判断した場合に、その特定日の会議のデータを削除する等の編集をすることができる。当該編集により、発話者ＤＢ８のデータの信頼性を向上させることができる。

【0067】

また、発話者ＤＢ８のパラメータを編集可能とすることにより、一人の発話者Ｓに対して複数の会議を紐付けることが可能となる。同一の発話者Ｓであっても、その声の特徴は使用しているマイクの種類や、発話者の体調、発話のバリエーション（笑い声、ささやき声等）、マイクと発話者との距離、部屋の大きさと反響に関する特性などの音響環境に影響を受ける。このため、発話者Ｓについて、特定の会議のみから特徴量を推定すると、他の音響環境における発話者Ｓの判定の精度が低くなるが、複数の音響環境の会議を紐付けることで、判定精度の向上を図ることができる。

【0068】

さらに、紐付け処理がなされた分割発話１０について誤りがあった場合であっても、ユーザが修正を行うことができ、その修正結果が発話者ＤＢ８に反映されるので、１箇所の修正を行えば、その他の同様の修正を自動で行うことができる。

【0069】

なお、上記実施形態においては、結果表示画面２０において、マイクＭで録音された音声データ２が複数の発話者Ｓである場合に、主たる発話者Ｓを、マイクＭで録音された音声データ２の発話時間が最も長い発話者Ｓとしているが、これに限らず、マイクＭの所有者として登録されている発話者Ｓを主たる発話者Ｓとしてもよい。

【0070】

また、上記実施形態では、音声データ入手手段３による音声データ２の入力を、登録されたオンライン会議ツールの動画データから自動的に行っているが、これに限らず、ユーザ端末１Ｕに入力画面（図示省略）を表示させて、その入力画面から音声データ２を入力するようにしてもよい。

【0071】

また、上記実施形態では、複数表示２２は、三角形の表示となっているが、これに限らず、複数あることが認識できれば、他の表示方法を用いてもよい。例えば、矢印等の図形や、何らかの図形を点滅表示させ、展開させた際に点滅を停止する等、任意の表示とすることができる。

【0072】

また、上記実施形態では、ＳＴＥＰ４において、音声データ２のうち、各マイクＭで録音された分割発話１０を、単一の発話者と紐付ける処理を行う際に、各マイクＭで録音された分割発話１０について、ＳＴＥＰ２で入手したマイクＭの所有者の情報から、各マイクＭと発話者Ｓの紐付けを行っているが、発話者ＤＢ８を参照して判定を行う判定ＡＩに入力し、出力として発話をしたと推定される発話者を得るようにしてもよい。

【0073】

また、上記実施形態では、発話者ＤＢ学習手段９として、図５に示す管理画面２３によってパラメータを編集可能としているが、これに限らず、自動で学習を行うようにしてもよい。例えば、ＳＴＥＰ４において、各マイクＭで録音された分割発話１０を、単一の発話者と紐付ける処理を行った際に、発話者ＤＢ８において追加学習を行ってデータベースを更新するようにしてもよい。また、別個に学習管理画面（図示省略）を設けて、ＳＴＥＰ４の紐付け処理の結果を学習させるか否かを設定できるようにしてもよい。

【0074】

また、上記実施形態では、複数表示２２は、ユーザがタッチ操作等を行って開示指示を行うことにより、そのマイクに紐付けられた複数の発話者のすべてを表示させるようにしているが、これに限らず、複数表示を行うか否かの設定画面（図示省略）を設けておき、その設定に従って複数のすべての表示を行うか否かを設定できるようにしてもよい。

【符号の説明】

【0075】

１…発話情報抽出装置
１Ｐ…発話情報抽出プログラム
２…音声データ
３…音声データ入手手段
４…情報入手手段
５…発話分割手段
６…紐付け手段
７…表示手段
８…発話者ＤＢ
９…発話者ＤＢ学習手段
１０…分割発話
１１…紐付け結果
２０…結果表示画面
２２…複数表示
２３…管理画面
Ｍ…マイク
Ｓ…発話者

【要約】（修正有）

【課題】音声データから発話者の発話を抽出する際に、話者とマイクとの関係を明らかにして処理精度の向上を実現する発話情報抽出装置及びプログラムを提供する。
【解決手段】発話情報抽出装置１は、音声データ２を入手する音声データ入手手段３と、音声データ２において使用されたマイクの数と発話者の数を入手する情報入手手段４と、音声データ２を発話毎に分割して分割発話とする発話分割手段５と、分割発話と発話者とを紐付ける紐付け手段６と、発話者と紐付けられた紐付け結果を表示させる表示手段７と、を備える。マイクの数と発話者の数が同数であった場合、音声データ２のうち、各マイクで録音された分割発話を、単一の発話者と紐付ける処理を行う。
【選択図】図１

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版