(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170182
(43)【公開日】2023-12-01
(54)【発明の名称】話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法
(51)【国際特許分類】
G10L 25/87 20130101AFI20231124BHJP
G10L 15/04 20130101ALI20231124BHJP
G10L 25/48 20130101ALI20231124BHJP
G10L 21/0272 20130101ALI20231124BHJP
【FI】
G10L25/87
G10L15/04 300A
G10L25/48 100
G10L21/0272 100A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022081731
(22)【出願日】2022-05-18
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】高島 悠樹
(72)【発明者】
【氏名】堀口 翔太
(57)【要約】
【課題】話者ダイアライゼーションにおける話者毎の発話期間の判定精度を向上する。
【解決手段】話者ダイアライゼーション支援装置は、話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、パラメータの値の分散が予め設定された閾値を超えるか否かを判定し、分散が閾値以下である場合、分散が閾値を超えるような音声入力装置及び話者の相対的な位置関係を示す推奨配置を生成して出力する。上記のパラメータは、例えば、音声入力装置と話者との間の距離である。また、上記のパラメータは、例えば、音声データについて判定された話者の夫々の発話期間における音圧レベルの最大ピーク値又は最大ピーク値の平均値である。話者ダイアライゼーション支援装置は、例えば、音声入力装置及び話者の現在配置から推奨配置への移行を促す情報を生成して出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーションを支援する装置であって、
プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、
話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、
前記パラメータの値の分散を求め、
前記分散が予め設定された閾値を超えるか否かを判定し、
前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成し、
前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力する、
話者ダイアライゼーション支援装置。
【請求項2】
請求項1に記載の話者ダイアライゼーション支援装置であって、
前記パラメータは、前記音声入力装置と前記話者との間の距離である、
話者ダイアライゼーション支援装置。
【請求項3】
請求項1に記載の話者ダイアライゼーション支援装置であって、
前記パラメータは、前記話者ダイアライゼーションにより取得される話者毎の発話期間における音圧レベルの最大ピーク値又は前記最大ピーク値の平均値である、
話者ダイアライゼーション支援装置。
【請求項4】
請求項1に記載の話者ダイアライゼーション支援装置であって、
前記音声入力装置及び前記話者の現在配置を示す情報を取得し、
前記推奨配置に基づく情報は、前記現在配置から前記推奨配置への移行を促す情報である、
話者ダイアライゼーション支援装置。
【請求項5】
請求項4に記載の話者ダイアライゼーション支援装置であって、
前記現在配置を示す情報を取得するインタフェースを備える、
話者ダイアライゼーション支援装置。
【請求項6】
請求項5に記載の話者ダイアライゼーション支援装置であって、
前記インタフェースは、3Dモーションセンサ又は距離画像取得装置である、
話者ダイアライゼーション支援装置。
【請求項7】
請求項1に記載の話者ダイアライゼーション支援装置であって、
話者が3人以上存在する場合、そのうちのいずれの2人の話者の組についても前記パラメータの値の差が前記閾値を超えるような前記推奨配置を生成する、
話者ダイアライゼーション支援装置。
【請求項8】
請求項1に記載の話者ダイアライゼーション支援装置であって、
各話者の音圧レベルが予め設定した下限値以下にならないように前記推奨配置を生成する、
話者ダイアライゼーション支援装置。
【請求項9】
請求項1に記載の話者ダイアライゼーション支援装置であって、
前記閾値の入力を受け付けるユーザインタフェースを備える、
話者ダイアライゼーション支援装置。
【請求項10】
請求項1に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置を示す情報又は前記推奨配置に基づく情報をユーザに提示するユーザインタフェースを備える、
話者ダイアライゼーション支援装置。
【請求項11】
請求項10に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置に基づく情報は、前記推奨配置における前記話者の位置を示す情報である、
話者ダイアライゼーション支援装置。
【請求項12】
請求項10に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置に基づく情報は、前記推奨配置における前記音声入力装置の位置を示す情報である、
話者ダイアライゼーション支援装置。
【請求項13】
一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーションを支援する方法であって、
プロセッサ及び記憶装置を有する情報処理装置が、
話者の音圧レベルに影響を与えるパラメータの値を話者毎に求めるステップ、
前記パラメータの値の分散を求めるステップ、
前記分散が予め設定された閾値を超えるか否かを判定するステップ、
前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成するステップ、及び、
前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力するステップ、
を実行する、話者ダイアライゼーション支援方法。
【請求項14】
請求項13記載の話者ダイアライゼーション支援方法であって、
前記パラメータは、前記音声入力装置と前記話者との間の距離である、
話者ダイアライゼーション支援方法。
【請求項15】
請求項13に記載の話者ダイアライゼーション支援方法であって、
前記パラメータは、前記話者ダイアライゼーションにより取得される話者毎の発話期間における音圧レベルの最大ピーク値又は前記最大ピーク値の平均値である、
話者ダイアライゼーション支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法に関する。
【背景技術】
【0002】
非特許文献1には、複数の話者の音声が混合された音声データに対して話者毎の発話期間を判定する技術(「いつ、誰が発話したか」を判定する技術。以下、「話者ダイアライゼーション」と称する。)が記載されている。話者ダイアライゼーションは、例えば、複数話者音声認識システムのフロントエンドとして用いられる。例えば、非特許文献2には、話者ダイアライゼーションと音源分離と音声認識とを直列に組み合わせた会議書き起こしシステムについて記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Anguera, Xavier, et al. "Speaker diarization: A review of recent research" , IEEE Transactions on Audio, Speech, and Language Processing 20.2 (2012): 356-370
【非特許文献2】Shota Horiguchi, et al. "Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones" , ISCA INTERSPEECH, 2020
【発明の概要】
【発明が解決しようとする課題】
【0004】
話者ダイアライゼーションでは、話者性だけなく、話者の音圧の大きさ(以下、「音圧レベル」と称する。)の違いも考慮して話者毎の発話期間を判定している。そのため、例えば、マイクロフォン(音声入力装置)までの距離が等しくなるような位置に複数の話者が存在する場合、話者毎の音圧レベルのばらつきが少ないために、話者毎の発話期間の判定精度(話者の分離精度)が低下してしまうという課題がある。
【0005】
本発明は、上記の課題を解決すべくなされたもので、話者毎の発話期間を精度よく判定することが可能な話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の目的を達成するための本発明の一つは、話者ダイアライゼーション支援装置であって、一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーション支援装置であって、プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、前記パラメータの値の分散を求め、前記分散が予め設定された閾値を超えるか否かを判定し、前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成し、前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力する。
【発明の効果】
【0007】
本発明によれば、話者毎の発話期間を精度よく判定することができる。
【図面の簡単な説明】
【0008】
【
図1】話者ダイアライゼーション装置の主な構成を示すブロック図である。
【
図2】第1実施形態の話者ダイアライゼーション装置の機能を説明する図である。
【
図3】音声信号に基づき発話期間判定結果が生成される過程を説明する図である。
【
図5】第1実施形態の推奨配置提示処理を説明するフローチャートである。
【
図6】第2実施形態の話者ダイアライゼーション装置の機能を説明する図である。
【
図7】第2実施形態の推奨配置提示処理を説明するフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照しつつ、本発明の実施形態について説明する。尚、以下の記載及び図面は、本発明を説明するための例示であり、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。
【0010】
[第1実施形態]
図1は、第1実施形態として示す話者ダイアライゼーション装置100の主な構成を示すブロック図である。話者ダイアライゼーション装置100は、音声データ(一つ以上の音声入力装置から取得される複数の話者の音声が混合された音声データ)における各話者の発話期間を判定する装置である。話者ダイアライゼーション装置100は、情報処理装置(コンピュータ)を用いて構成される。話者ダイアライゼーション装置100は、例えば、音声認識システム等の複数話者の音声を認識する必要があるシステムのフロントエンドとして用いられる。話者ダイアライゼーション装置100は、話者ダイアライゼーションにおける話者毎の発話期間の精度確保や精度向上を支援する装置(以下、「話者ダイアライゼーション支援装置」と称する。)としての機能を有する。尚、以下の説明において、話者は複数存在するものとする。
【0011】
同図に示すように、話者ダイアライゼーション装置100は、プロセッサ11、主記憶装置12(メモリ)、補助記憶装置13(外部記憶装置、ストレージ装置)、入力装置14、出力装置15、及び通信装置16を備える。
【0012】
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ、DSP(Digital Signal Processor)チップ等を用いて構
成されている。
【0013】
主記憶装置12は、プロセッサ11がプログラムを実行する際に利用する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。話者ダイアライゼーション装置100において実現される各種の機能は、プロセッサ11が、補助記憶装置13に格納(記憶)されているプログラムやデータを主記憶装置12に読み出して実行することにより実現される。
【0014】
補助記憶装置13は、プログラムやデータを記憶する装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブ、光学式記憶装置(CD(Compact Disc)
、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の非一時的な記録媒体の読取/書込装置、クラウドサーバの非一時的な記憶領域等で構成することができる。補助記憶装置13には、記録媒体の読取装置や
通信装置16を介して、非一時的な記録媒体や非一時的な記憶装置を備えた他の情報処理装置からプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
【0015】
入力装置14は、外部からの情報の入力を受け付けるインタフェースであり、例えば、一つ以上の音声入力装置(マイクロフォン)、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、物体の現在位置を特定可能な情報(動画、静止画等)を取得する装置(3Dモーションセンサ、距離画像取得装置等)である。
【0016】
出力装置15は、処理経過や処理結果等の各種情報を外部に出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、プロジェクタ、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、話者ダイアライゼーション装置100が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
【0017】
入力装置14と出力装置15は、例えば、ユーザとの間での対話処理(情報の受け付け、情報の提供等)を実現するユーザインタフェースを構成する。
【0018】
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワークを介して他の装置との間の通信を実現する、有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
【0019】
尚、話者ダイアライゼーション装置100には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。
【0020】
話者ダイアライゼーション装置100は、その全部又は一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、話者ダイアライゼーション装置100によって提供される機能の全部又は一部は、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供する
サービスによって実現してもよい。また、話者ダイアライゼーション装置100によって提供される機能の全部又は一部は、例えば、SaaS(Software as a Service)、Pa
aS(Platform as a Service)、IaaS(Infrastructure as a Service)等を利用して実現されるものであってもよい。
【0021】
図2は、話者ダイアライゼーション装置100が備える主な機能を説明する図である。同図に示すように、話者ダイアライゼーション装置100は、音声データ生成部110、発話期間判定部120、及び推奨配置提示部130の各機能を有する。
【0022】
音声データ生成部110は、一つ以上の音声入力装置(マイクロフォン)により取得されたアナログの音声信号を増幅しアナログ/ディジタル変換(A/D変換)することにより音声データ101を生成して記憶する。尚、音声入力装置が複数存在する場合、音声データ生成部110は、複数の音声入力装置の夫々から取得される音声信号で構成されるマルチチャネルデータである音声データ101を生成する。
【0023】
発話期間判定部120は、音声データ101に含まれる話者毎の発話期間を判定し、判定した結果を含む発話期間判定結果102を生成して出力する。発話期間判定部120は
、周知又は公知の手法(例えば、"End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based Attractors," (Shota Horiguchi, et al,
ISCA INTERSPEECH, 2020)を参照)を用いて話者毎の発話期間の判定を行い、判定した結果を含む発話期間判定結果102を生成する。発話期間判定部120は、例えば、ユーザインタフェースを介してユーザから受け付けた話者数に基づき上記の判定を行ってもよいし、例えば、公知の話者数検出技術を用いて音声データ101から推定した話者数に基づき上記の判定を行ってもよい。発話期間判定結果102は、各時刻における話者の存在有無を示す情報を含む。
【0024】
図3は、入力された音声信号に基づき発話期間判定結果102が生成される過程を説明する図である。同図に示す例は、音声データ101に基づき、発話期間判定部120が、2人の話者(話者A,話者B)の夫々の発話期間を判定する場合である。本例では、発話期間判定部120は、話者Aが、「こんにちは」、「お久しぶりです」、「お元気でしたか」と発言した3つの期間を発話期間として判定している。また、発話期間判定部120は、話者Bが、「こんにちは」、「お久しぶりです」と発言した2つの期間を発話期間として判定している。
【0025】
図2に戻り、推奨配置提示部130は、話者毎の発話期間の判定精度が高くなるような各話者と各音声入力装置の配置(各話者と音声入力装置の相対的な位置関係を示す情報を含む。以下、「推奨配置104」と称する。)を生成し、生成した推奨配置104を示す情報や推奨配置104に基づく情報を生成して出力する。同図に示すように、推奨配置提示部130は、現在配置取得部131、離間距離算出部132、分散算出部133、配置変更要否判定部134、推奨配置生成部135、及び推奨配置出力部136を含む。
【0026】
現在配置取得部131は、音声入力装置と話者の現在の配置を示す情報(各話者と各音声入力装置との相対的な位置関係を示す情報。以下、「現在配置103」と称する。)を取得する。現在配置取得部131は、例えば、ユーザインタフェースを介してユーザ(例えば、現場に居る話者や管理者)から現在配置103を取得する(例えば、ユーザが音声入力装置や話者の位置座標を入力する)。また、現在配置取得部131は、例えば、公知の物体検出技術(3Dモーションセンサや距離画像取得装置等から取得される情報(動画、静止画等)を解析(例えば、機械学習モデルを用いて解析)することにより物体の現在位置を取得する技術)により現在配置103を取得する。
【0027】
離間距離算出部132は、現在配置取得部131が取得した現在配置103に基づき、話者の夫々と音声入力装置との間の距離(以下、「離間距離」と称する。)を算出する。尚、音声入力装置が複数存在する場合、離間距離算出部132は、音声入力装置の夫々について離間距離を算出する。
【0028】
分散算出部133は、離間距離のばらつきの度合いを示す値(以下、「分散」と称する。)を算出する。尚、分散は、話者毎の発話期間の判定精度への影響の度合いを示すパラメータ(作用変数)であり、本実施形態では、上記判定精度を向上する観点からみた、話者と音声入力装置の配置の評価値としての意味をもつ。
【0029】
配置変更要否判定部134は、分散算出部133が算出した分散を予め設定された閾値と比較し、現在配置103を変更する必要があるか否かを判定する。分散が閾値以下である場合、配置変更要否判定部134は、現在配置103を変更する必要があると判定する。一方、分散が閾値を超える場合、配置変更要否判定部134は、現在配置103を変更する必要がないと判定する。即ち、配置変更要否判定部134は、離間距離のばらつきが大きい場合は、各話者の音圧の大きさ(以下、「音圧レベル」と称する。)に十分な差があるため現在配置103を変更する必要はないと判定し、離間距離のばらつきが小さい場
合は、各話者の音圧レベルに差を出す(ばらつきを大きくする)ため現在配置103を変更する必要があると判定する。尚、話者ダイアライゼーション装置100は、例えば、ユーザインタフェースを介して上記の閾値の設定をユーザから受け付ける。ユーザが閾値を適切に設定することで、例えば、話者ダイアライゼーション装置100が過剰に現在配置103を変更する必要があると判定してしまうのを防ぐことができる。
【0030】
推奨配置生成部135は、配置変更要否判定部134が現在配置103を変更する必要があると判定した場合に、分散が閾値を超えるような推奨配置104を生成する。例えば、話者が2人(話者A、話者B)である場合、推奨配置生成部135は、例えば、話者Aと話者Bの離間距離の差が、話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置104を生成する。また、話者が3人(話者A、話者B、話者C)である場合、推奨配置生成部135は、3人の離間距離の差がいずれも話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置104を生成する。このように、話者が3人以上である場合、推奨配置生成部135は、そのうちのいずれの2人の話者の組についても離間距離の差が、話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置104を生成する。尚、離間距離をあまり大きくし過ぎると、音声認識等の後段の処理で必要とされる音圧レベルが得られなくなるので、推奨配置生成部135は、例えば、各話者の音圧レベルが予め設定した下限値以下にならないように推奨配置104を生成する。
【0031】
推奨配置出力部136は、推奨配置生成部135が生成した推奨配置104を示す情報や推奨配置104に基づく情報を生成して出力する。例えば、推奨配置出力部136は、生成した推奨配置104を示す情報や推奨配置104に基づく情報を記載した画面(以下、「推奨配置提示画面500」と称する。)を生成して出力装置15(ディスプレイ等)に表示する。尚、上記の推奨配置104に基づく情報とは、例えば、話者等の現場のユーザに対して、推奨配置104となるように、話者や音声入力装置の位置の変更を指示する情報(例えば、各話者の推奨する離間距離を示す情報を含む。)である。
【0032】
図4A及び
図4Bに、推奨配置提示画面400の一例を示す。これらの図に例示する推奨配置提示画面400は、いずれも推奨配置の表示欄411と推奨配置に基づく情報の表示欄412を有する。推奨配置の表示欄411には、例えば、推奨配置104を示す図が表示される。また、推奨配置に基づく情報の表示欄412には、例えば、現在の状態から推奨配置104に移行する方法や話者毎の離間距離を示す情報を示すメッセージが表示される。
図4Aの例では、マイクbが、話者B,Cに対して等しい離間距離となっているため、マイクbを話者Cに近づけるように誘導している。また、
図4Bの例では、マイクaが、話者A,Bに対して等しい離間距離となっているため、マイクaを話者Aに近づけるように誘導している。
【0033】
図5は、話者ダイアライゼーション装置100の推奨配置提示部130が行う主な処理(以下、「推奨配置提示処理S500」と称する。)を説明するフローチャートである。以下、同図とともに推奨配置提示処理S500について説明する。
【0034】
まず、現在配置取得部131が、現在配置103を取得する(S511)。
【0035】
続いて、離間距離算出部132が、現在配置103に基づき各話者と音声入力装置との間の離間距離を求める(S512)。
【0036】
続いて、分散算出部133が、各話者の離間距離の分散を求める(S513)。
【0037】
続いて、配置変更要否判定部134が、求めた分散を予め設定された閾値と比較する(
S514)。分散が閾値を超えている場合(S514:No)、推奨配置提示処理S500は終了する。一方、分散が閾値以下である場合(S514:Yes)、処理はS515に進む。
【0038】
S515では、推奨配置生成部135が、分散が閾値を超えるような推奨配置104を生成する。
【0039】
続いて、推奨配置出力部136が、推奨配置104や推奨配置104に基づく情報を出力してユーザに提示する(S516)。その後、処理はS511に戻る。
【0040】
以上に説明したように、第1実施形態の話者ダイアライゼーション装置100は、話者と音声入力装置の現在配置から求めた各話者の離間距離の分散を求め、分散が予め設定した閾値以下であれば分散が予め設定した閾値を超えるような推奨配置104を生成して推奨配置104に基づく情報や推奨配置104に基づく情報をユーザに提示する。このように、第1実施形態の話者ダイアライゼーション装置100によれば、話者毎の発話期間の判定精度が十分でない場合にユーザに現在配置の変更を促し、話者毎の発話期間の判定精度の向上を図ることができる。
【0041】
[第2実施形態]
第1実施形態の話者ダイアライゼーション装置100は、話者と音声入力装置の現在配置から求められる話者毎の離間距離をパラメータとして分散を求め、分散が予め設定した閾値以下か否かを判定することにより配置変更の要否を判定する。一方、以下に説明する第2実施形態の話者ダイアライゼーション装置100は、発話期間判定部120により判定された各話者の発話期間における音声データの音圧レベルをパラメータとしてその分散を求め、分散が予め設定した閾値以下か否かを判定することにより、配置変更の要否を判定する。尚、第2実施形態の話者ダイアライゼーション装置100の仕組みは、発話期間判定部120により話者毎の発話期間が所定の精度で判定可能な場合に有効に機能する。
【0042】
図6に、第2実施形態の話者ダイアライゼーション装置100が備える主な機能を示す。尚、同図に示す機能のうち、音声データ生成部110、配置変更要否判定部134、推奨配置生成部135、及び推奨配置出力部136の各機能については第1実施形態と同様であるので説明を省略する。以下では、第1実施形態と異なる点を中心として説明する。
【0043】
第2実施形態の話者ダイアライゼーション装置100の発話期間判定部120は、第1実施形態の発話期間判定部120と同様に、音声データ101に含まれる話者毎の発話期間を判定し、発話期間判定結果102を生成して出力する。また、第2実施形態の発話期間判定部120は、発話期間毎の音声データ105を推奨配置提示部130に入力する。
【0044】
同図に示すように、第2実施形態の話者ダイアライゼーション装置100の推奨配置提示部130は、音圧レベル比較値算出部161を有する。音圧レベル比較値算出部161は、発話期間判定部120から入力された発話期間毎の音声データ105に基づき、発話期間毎の音圧レベルを表すパラメータの値(例えば、発話期間における音声データの音圧レベルの最大ピーク値(最大振幅値)や最大ピーク値(最大振幅値)の平均値。以下、「音圧レベル比較値」と称する。)を算出する。尚、音圧レベル比較値を算出する際に用いる発話期間における音声データとしては、他の発話期間との重複のない(時間的に重なっていない)期間における音声データを用いることが好ましい。
【0045】
第2実施形態の分散算出部133は、音圧レベル比較値のばらつきを示す値、即ち分散を算出する。
【0046】
第2実施形態の配置変更要否判定部134は、第1実施形態と同様に、分散算出部133が算出した分散を予め設定された閾値と比較し、現在配置103を変更する必要があるか否かを判定する。分散が閾値以下である場合、配置変更要否判定部134は、現在配置103を変更する必要があると判定する。一方、分散が閾値を超える場合、配置変更要否判定部134は、現在配置103を変更する必要はないと判定する。
【0047】
第2実施形態の推奨配置生成部135は、第1実施形態と同様に、配置変更要否判定部134が現在配置103を変更する必要があると判定した場合に、分散が閾値を超えるような推奨配置104を生成する。
【0048】
第2実施形態の推奨配置出力部136は、第1実施形態と同様に、推奨配置生成部135が生成した推奨配置104を示す情報や推奨配置104に基づく情報を生成して出力する。
【0049】
続いて、第2実施形態の話者ダイアライゼーション装置100が行う主な処理について説明する。
【0050】
図7は、第2実施形態の話者ダイアライゼーション装置100の推奨配置提示部130が行う主な処理(以下、「推奨配置提示処理S700」と称する。)を説明するフローチャートである。以下、同図とともに推奨配置提示処理S700について説明する。
【0051】
まず、音圧レベル比較値算出部161が、発話期間判定部120から発話期間毎の音声データ105を取得し(S711)、取得した発話期間毎の音声データ105に基づき、発話期間毎の音圧レベル比較値を算出する(S712)。
【0052】
続いて、分散算出部133が、発話期間毎の音圧レベル比較値の分散を求める(S713)。
【0053】
続いて、配置変更要否判定部134が、求めた分散を予め設定された閾値と比較する(S714)。分散が閾値を超えている場合(S714:No)、推奨配置提示処理S500は終了する。一方、分散が閾値以下である場合(S714:Yes)、処理はS515に進む。
【0054】
S715では、推奨配置生成部135が、分散が閾値を超えるような推奨配置104を生成する。
【0055】
続いて、推奨配置出力部136が、推奨配置104や推奨配置104に基づく情報を出力してユーザに提示する(S716)。その後、処理はS711に戻る。
【0056】
以上のように、第2実施形態の話者ダイアライゼーション装置100は、発話期間判定部120により判定された話者毎の発話期間における音圧レベル比較値をパラメータとしてその分散を求め、分散が予め設定した閾値以下であれば分散が予め設定した閾値を超えるような推奨配置104を生成して推奨配置104に基づく情報や推奨配置104に基づく情報をユーザに提示する。そのため、第2実施形態の話者ダイアライゼーション装置100は、第1実施形態の話者ダイアライゼーション装置100のように現在配置をユーザから取得する必要がなく、ユーザに負担を生じさせない。また、第2実施形態の話者ダイアライゼーション装置100は3Dモーションセンサや距離画像取得装置等の入力装置14を設ける必要もなく、簡素な構成にて、話者毎の発話期間の判定精度を向上する仕組みを実現することができる。
【0057】
以上、実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、様々な変形例が含まれ、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることや、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
【0058】
例えば、音声入力装置(マイクロフォン)を、無線又は有線により通信が可能な自律制御が可能な移動体(ロボット、ドローン等)に搭載し、話者ダイアライゼーション装置100から推奨配置生成部135が生成した推奨配置や当該推奨配置となるように、上記移動体を移動させる指示(コマンド)を上記移動体に送信するようにしてもよい。これによりユーザを煩わせることなく、現場において音声入力装置と話者の配置が自動的に推奨配置になるようにすることができる。
【0059】
また、例えば、以上に説明した話者ダイアライゼーション装置100の機能のうち、例えば、推奨配置104の生成や出力に関する機能、例えば、第1実施形態及び第2実施形態における話者ダイアライゼーション装置100の推奨配置提示部130の機能や、第2実施形態における発話期間判定部120の発話期間毎の音声データ105を生成する機能については、音声信号から発話期間判定結果102の生成に関する話者ダイアライゼーション装置100の基本的な機能を実現する情報処理装置とは異なる他の情報処理装置(話者ダイアライゼーション支援装置)により実現するようにしてもよい。
【符号の説明】
【0060】
100 話者ダイアライゼーション装置
101 音声データ
102 発話期間判定結果
103 現在配置
104 推奨配置
105 発話期間毎の音声データ
110 音声データ生成部
120 発話期間判定部
130 推奨配置提示部
131 現在配置取得部
132 離間距離算出部
133 分散算出部
134 配置変更要否判定部
135 推奨配置生成部
136 推奨配置出力部
161 音圧レベル比較値算出部
S500 推奨配置提示処理
S700 推奨配置提示処理