特開2023-170182 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-170182話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023170182

(43)【公開日】2023-12-01

(54)【発明の名称】話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法

(51)【国際特許分類】

G10L 25/87 20130101AFI20231124BHJP

G10L 15/04 20130101ALI20231124BHJP

G10L 25/48 20130101ALI20231124BHJP

G10L 21/0272 20130101ALI20231124BHJP

【ＦＩ】

G10L25/87

G10L15/04 300A

G10L25/48 100

G10L21/0272 100A

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022081731

(22)【出願日】2022-05-18

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000176

【氏名又は名称】弁理士法人一色国際特許事務所

(72)【発明者】

【氏名】高島悠樹

(72)【発明者】

【氏名】堀口翔太

(57)【要約】

【課題】話者ダイアライゼーションにおける話者毎の発話期間の判定精度を向上する。
【解決手段】話者ダイアライゼーション支援装置は、話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、パラメータの値の分散が予め設定された閾値を超えるか否かを判定し、分散が閾値以下である場合、分散が閾値を超えるような音声入力装置及び話者の相対的な位置関係を示す推奨配置を生成して出力する。上記のパラメータは、例えば、音声入力装置と話者との間の距離である。また、上記のパラメータは、例えば、音声データについて判定された話者の夫々の発話期間における音圧レベルの最大ピーク値又は最大ピーク値の平均値である。話者ダイアライゼーション支援装置は、例えば、音声入力装置及び話者の現在配置から推奨配置への移行を促す情報を生成して出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーションを支援する装置であって、
プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、
話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、
前記パラメータの値の分散を求め、
前記分散が予め設定された閾値を超えるか否かを判定し、
前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成し、
前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力する、
話者ダイアライゼーション支援装置。

【請求項2】

請求項１に記載の話者ダイアライゼーション支援装置であって、
前記パラメータは、前記音声入力装置と前記話者との間の距離である、
話者ダイアライゼーション支援装置。

【請求項3】

請求項１に記載の話者ダイアライゼーション支援装置であって、
前記パラメータは、前記話者ダイアライゼーションにより取得される話者毎の発話期間における音圧レベルの最大ピーク値又は前記最大ピーク値の平均値である、
話者ダイアライゼーション支援装置。

【請求項4】

請求項１に記載の話者ダイアライゼーション支援装置であって、
前記音声入力装置及び前記話者の現在配置を示す情報を取得し、
前記推奨配置に基づく情報は、前記現在配置から前記推奨配置への移行を促す情報である、
話者ダイアライゼーション支援装置。

【請求項5】

請求項４に記載の話者ダイアライゼーション支援装置であって、
前記現在配置を示す情報を取得するインタフェースを備える、
話者ダイアライゼーション支援装置。

【請求項6】

請求項５に記載の話者ダイアライゼーション支援装置であって、
前記インタフェースは、３Ｄモーションセンサ又は距離画像取得装置である、
話者ダイアライゼーション支援装置。

【請求項7】

請求項１に記載の話者ダイアライゼーション支援装置であって、
話者が３人以上存在する場合、そのうちのいずれの２人の話者の組についても前記パラメータの値の差が前記閾値を超えるような前記推奨配置を生成する、
話者ダイアライゼーション支援装置。

【請求項8】

請求項１に記載の話者ダイアライゼーション支援装置であって、
各話者の音圧レベルが予め設定した下限値以下にならないように前記推奨配置を生成する、
話者ダイアライゼーション支援装置。

【請求項9】

請求項１に記載の話者ダイアライゼーション支援装置であって、
前記閾値の入力を受け付けるユーザインタフェースを備える、
話者ダイアライゼーション支援装置。

【請求項10】

請求項１に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置を示す情報又は前記推奨配置に基づく情報をユーザに提示するユーザインタフェースを備える、
話者ダイアライゼーション支援装置。

【請求項11】

請求項１０に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置に基づく情報は、前記推奨配置における前記話者の位置を示す情報である、
話者ダイアライゼーション支援装置。

【請求項12】

請求項１０に記載の話者ダイアライゼーション支援装置であって、
前記推奨配置に基づく情報は、前記推奨配置における前記音声入力装置の位置を示す情報である、
話者ダイアライゼーション支援装置。

【請求項13】

一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーションを支援する方法であって、
プロセッサ及び記憶装置を有する情報処理装置が、
話者の音圧レベルに影響を与えるパラメータの値を話者毎に求めるステップ、
前記パラメータの値の分散を求めるステップ、
前記分散が予め設定された閾値を超えるか否かを判定するステップ、
前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成するステップ、及び、
前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力するステップ、
を実行する、話者ダイアライゼーション支援方法。

【請求項14】

請求項１３記載の話者ダイアライゼーション支援方法であって、
前記パラメータは、前記音声入力装置と前記話者との間の距離である、
話者ダイアライゼーション支援方法。

【請求項15】

請求項１３に記載の話者ダイアライゼーション支援方法であって、
前記パラメータは、前記話者ダイアライゼーションにより取得される話者毎の発話期間における音圧レベルの最大ピーク値又は前記最大ピーク値の平均値である、
話者ダイアライゼーション支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法に関する。

【背景技術】

【0002】

非特許文献１には、複数の話者の音声が混合された音声データに対して話者毎の発話期間を判定する技術（「いつ、誰が発話したか」を判定する技術。以下、「話者ダイアライゼーション」と称する。）が記載されている。話者ダイアライゼーションは、例えば、複数話者音声認識システムのフロントエンドとして用いられる。例えば、非特許文献２には、話者ダイアライゼーションと音源分離と音声認識とを直列に組み合わせた会議書き起こしシステムについて記載されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Anguera, Xavier, et al. "Speaker diarization: A review of recent research" , IEEE Transactions on Audio, Speech, and Language Processing 20.2 (2012): 356-370

【非特許文献2】Shota Horiguchi, et al. "Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones" , ISCA INTERSPEECH, 2020

【発明の概要】

【発明が解決しようとする課題】

【0004】

話者ダイアライゼーションでは、話者性だけなく、話者の音圧の大きさ（以下、「音圧レベル」と称する。）の違いも考慮して話者毎の発話期間を判定している。そのため、例えば、マイクロフォン（音声入力装置）までの距離が等しくなるような位置に複数の話者が存在する場合、話者毎の音圧レベルのばらつきが少ないために、話者毎の発話期間の判定精度（話者の分離精度）が低下してしまうという課題がある。

【0005】

本発明は、上記の課題を解決すべくなされたもので、話者毎の発話期間を精度よく判定することが可能な話者ダイアライゼーション支援装置、及び話者ダイアライゼーション支援方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記の目的を達成するための本発明の一つは、話者ダイアライゼーション支援装置であって、一つ以上の音声入力装置から取得される複数の話者の音声信号が混在する音声データにおける各話者の発話期間を判定する話者ダイアライゼーション支援装置であって、プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、話者の音圧レベルに影響を与えるパラメータの値を話者毎に求め、前記パラメータの値の分散を求め、前記分散が予め設定された閾値を超えるか否かを判定し、前記分散が前記閾値以下である場合に、分散が前記閾値を超えるような前記音声入力装置及び前記話者の相対的な位置関係を示す情報である推奨配置を生成し、前記推奨配置を示す情報又は前記推奨配置に基づく情報を生成して出力する。

【発明の効果】

【0007】

本発明によれば、話者毎の発話期間を精度よく判定することができる。

【図面の簡単な説明】

【0008】

【図1】話者ダイアライゼーション装置の主な構成を示すブロック図である。

【図2】第１実施形態の話者ダイアライゼーション装置の機能を説明する図である。

【図3】音声信号に基づき発話期間判定結果が生成される過程を説明する図である。

【図4A】推奨配置提示画面の一例である。

【図4B】推奨配置提示画面の他の一例である。

【図5】第１実施形態の推奨配置提示処理を説明するフローチャートである。

【図6】第２実施形態の話者ダイアライゼーション装置の機能を説明する図である。

【図7】第２実施形態の推奨配置提示処理を説明するフローチャートである。

【発明を実施するための形態】

【0009】

以下、図面を参照しつつ、本発明の実施形態について説明する。尚、以下の記載及び図面は、本発明を説明するための例示であり、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップの意味である。

【0010】

［第１実施形態］
図１は、第１実施形態として示す話者ダイアライゼーション装置１００の主な構成を示すブロック図である。話者ダイアライゼーション装置１００は、音声データ（一つ以上の音声入力装置から取得される複数の話者の音声が混合された音声データ）における各話者の発話期間を判定する装置である。話者ダイアライゼーション装置１００は、情報処理装置（コンピュータ）を用いて構成される。話者ダイアライゼーション装置１００は、例えば、音声認識システム等の複数話者の音声を認識する必要があるシステムのフロントエンドとして用いられる。話者ダイアライゼーション装置１００は、話者ダイアライゼーションにおける話者毎の発話期間の精度確保や精度向上を支援する装置（以下、「話者ダイアライゼーション支援装置」と称する。）としての機能を有する。尚、以下の説明において、話者は複数存在するものとする。

【0011】

同図に示すように、話者ダイアライゼーション装置１００は、プロセッサ１１、主記憶装置１２（メモリ）、補助記憶装置１３（外部記憶装置、ストレージ装置）、入力装置１４、出力装置１５、及び通信装置１６を備える。

【0012】

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable
Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ、ＤＳＰ（Digital Signal Processor）チップ等を用いて構
成されている。

【0013】

主記憶装置１２は、プロセッサ１１がプログラムを実行する際に利用する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。話者ダイアライゼーション装置１００において実現される各種の機能は、プロセッサ１１が、補助記憶装置１３に格納（記憶）されているプログラムやデータを主記憶装置１２に読み出して実行することにより実現される。

【0014】

補助記憶装置１３は、プログラムやデータを記憶する装置であり、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶装置（ＣＤ（Compact Disc）
、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の非一時的な記録媒体の読取／書込装置、クラウドサーバの非一時的な記憶領域等で構成することができる。補助記憶装置１３には、記録媒体の読取装置や
通信装置１６を介して、非一時的な記録媒体や非一時的な記憶装置を備えた他の情報処理装置からプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

【0015】

入力装置１４は、外部からの情報の入力を受け付けるインタフェースであり、例えば、一つ以上の音声入力装置（マイクロフォン）、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、物体の現在位置を特定可能な情報（動画、静止画等）を取得する装置（３Ｄモーションセンサ、距離画像取得装置等）である。

【0016】

出力装置１５は、処理経過や処理結果等の各種情報を外部に出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、プロジェクタ、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、話者ダイアライゼーション装置１００が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

【0017】

入力装置１４と出力装置１５は、例えば、ユーザとの間での対話処理（情報の受け付け、情報の提供等）を実現するユーザインタフェースを構成する。

【0018】

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信ネットワークを介して他の装置との間の通信を実現する、有線方式又は無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

【0019】

尚、話者ダイアライゼーション装置１００には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

【0020】

話者ダイアライゼーション装置１００は、その全部又は一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、話者ダイアライゼーション装置１００によって提供される機能の全部又は一部は、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供する
サービスによって実現してもよい。また、話者ダイアライゼーション装置１００によって提供される機能の全部又は一部は、例えば、ＳａａＳ（Software as a Service）、Ｐａ
ａＳ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）等を利用して実現されるものであってもよい。

【0021】

図２は、話者ダイアライゼーション装置１００が備える主な機能を説明する図である。同図に示すように、話者ダイアライゼーション装置１００は、音声データ生成部１１０、発話期間判定部１２０、及び推奨配置提示部１３０の各機能を有する。

【0022】

音声データ生成部１１０は、一つ以上の音声入力装置（マイクロフォン）により取得されたアナログの音声信号を増幅しアナログ／ディジタル変換（Ａ／Ｄ変換）することにより音声データ１０１を生成して記憶する。尚、音声入力装置が複数存在する場合、音声データ生成部１１０は、複数の音声入力装置の夫々から取得される音声信号で構成されるマルチチャネルデータである音声データ１０１を生成する。

【0023】

発話期間判定部１２０は、音声データ１０１に含まれる話者毎の発話期間を判定し、判定した結果を含む発話期間判定結果１０２を生成して出力する。発話期間判定部１２０は
、周知又は公知の手法（例えば、"End-to-End Speaker Diarization for an Unknown Number of Speakers with Encoder-Decoder Based Attractors," (Shota Horiguchi, et al,
ISCA INTERSPEECH, 2020)を参照）を用いて話者毎の発話期間の判定を行い、判定した結果を含む発話期間判定結果１０２を生成する。発話期間判定部１２０は、例えば、ユーザインタフェースを介してユーザから受け付けた話者数に基づき上記の判定を行ってもよいし、例えば、公知の話者数検出技術を用いて音声データ１０１から推定した話者数に基づき上記の判定を行ってもよい。発話期間判定結果１０２は、各時刻における話者の存在有無を示す情報を含む。

【0024】

図３は、入力された音声信号に基づき発話期間判定結果１０２が生成される過程を説明する図である。同図に示す例は、音声データ１０１に基づき、発話期間判定部１２０が、２人の話者（話者Ａ，話者Ｂ）の夫々の発話期間を判定する場合である。本例では、発話期間判定部１２０は、話者Ａが、「こんにちは」、「お久しぶりです」、「お元気でしたか」と発言した３つの期間を発話期間として判定している。また、発話期間判定部１２０は、話者Ｂが、「こんにちは」、「お久しぶりです」と発言した２つの期間を発話期間として判定している。

【0025】

図２に戻り、推奨配置提示部１３０は、話者毎の発話期間の判定精度が高くなるような各話者と各音声入力装置の配置（各話者と音声入力装置の相対的な位置関係を示す情報を含む。以下、「推奨配置１０４」と称する。）を生成し、生成した推奨配置１０４を示す情報や推奨配置１０４に基づく情報を生成して出力する。同図に示すように、推奨配置提示部１３０は、現在配置取得部１３１、離間距離算出部１３２、分散算出部１３３、配置変更要否判定部１３４、推奨配置生成部１３５、及び推奨配置出力部１３６を含む。

【0026】

現在配置取得部１３１は、音声入力装置と話者の現在の配置を示す情報（各話者と各音声入力装置との相対的な位置関係を示す情報。以下、「現在配置１０３」と称する。）を取得する。現在配置取得部１３１は、例えば、ユーザインタフェースを介してユーザ（例えば、現場に居る話者や管理者）から現在配置１０３を取得する（例えば、ユーザが音声入力装置や話者の位置座標を入力する）。また、現在配置取得部１３１は、例えば、公知の物体検出技術（３Ｄモーションセンサや距離画像取得装置等から取得される情報（動画、静止画等）を解析（例えば、機械学習モデルを用いて解析）することにより物体の現在位置を取得する技術）により現在配置１０３を取得する。

【0027】

離間距離算出部１３２は、現在配置取得部１３１が取得した現在配置１０３に基づき、話者の夫々と音声入力装置との間の距離（以下、「離間距離」と称する。）を算出する。尚、音声入力装置が複数存在する場合、離間距離算出部１３２は、音声入力装置の夫々について離間距離を算出する。

【0028】

分散算出部１３３は、離間距離のばらつきの度合いを示す値（以下、「分散」と称する。）を算出する。尚、分散は、話者毎の発話期間の判定精度への影響の度合いを示すパラメータ（作用変数）であり、本実施形態では、上記判定精度を向上する観点からみた、話者と音声入力装置の配置の評価値としての意味をもつ。

【0029】

配置変更要否判定部１３４は、分散算出部１３３が算出した分散を予め設定された閾値と比較し、現在配置１０３を変更する必要があるか否かを判定する。分散が閾値以下である場合、配置変更要否判定部１３４は、現在配置１０３を変更する必要があると判定する。一方、分散が閾値を超える場合、配置変更要否判定部１３４は、現在配置１０３を変更する必要がないと判定する。即ち、配置変更要否判定部１３４は、離間距離のばらつきが大きい場合は、各話者の音圧の大きさ（以下、「音圧レベル」と称する。）に十分な差があるため現在配置１０３を変更する必要はないと判定し、離間距離のばらつきが小さい場
合は、各話者の音圧レベルに差を出す（ばらつきを大きくする）ため現在配置１０３を変更する必要があると判定する。尚、話者ダイアライゼーション装置１００は、例えば、ユーザインタフェースを介して上記の閾値の設定をユーザから受け付ける。ユーザが閾値を適切に設定することで、例えば、話者ダイアライゼーション装置１００が過剰に現在配置１０３を変更する必要があると判定してしまうのを防ぐことができる。

【0030】

推奨配置生成部１３５は、配置変更要否判定部１３４が現在配置１０３を変更する必要があると判定した場合に、分散が閾値を超えるような推奨配置１０４を生成する。例えば、話者が２人（話者Ａ、話者Ｂ）である場合、推奨配置生成部１３５は、例えば、話者Ａと話者Ｂの離間距離の差が、話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置１０４を生成する。また、話者が３人（話者Ａ、話者Ｂ、話者Ｃ）である場合、推奨配置生成部１３５は、３人の離間距離の差がいずれも話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置１０４を生成する。このように、話者が３人以上である場合、推奨配置生成部１３５は、そのうちのいずれの２人の話者の組についても離間距離の差が、話者毎の発話期間の判定精度を確保可能な程度に大きくなるような推奨配置１０４を生成する。尚、離間距離をあまり大きくし過ぎると、音声認識等の後段の処理で必要とされる音圧レベルが得られなくなるので、推奨配置生成部１３５は、例えば、各話者の音圧レベルが予め設定した下限値以下にならないように推奨配置１０４を生成する。

【0031】

推奨配置出力部１３６は、推奨配置生成部１３５が生成した推奨配置１０４を示す情報や推奨配置１０４に基づく情報を生成して出力する。例えば、推奨配置出力部１３６は、生成した推奨配置１０４を示す情報や推奨配置１０４に基づく情報を記載した画面（以下、「推奨配置提示画面５００」と称する。）を生成して出力装置１５（ディスプレイ等）に表示する。尚、上記の推奨配置１０４に基づく情報とは、例えば、話者等の現場のユーザに対して、推奨配置１０４となるように、話者や音声入力装置の位置の変更を指示する情報（例えば、各話者の推奨する離間距離を示す情報を含む。）である。

【0032】

図４Ａ及び図４Ｂに、推奨配置提示画面４００の一例を示す。これらの図に例示する推奨配置提示画面４００は、いずれも推奨配置の表示欄４１１と推奨配置に基づく情報の表示欄４１２を有する。推奨配置の表示欄４１１には、例えば、推奨配置１０４を示す図が表示される。また、推奨配置に基づく情報の表示欄４１２には、例えば、現在の状態から推奨配置１０４に移行する方法や話者毎の離間距離を示す情報を示すメッセージが表示される。図４Ａの例では、マイクｂが、話者Ｂ，Ｃに対して等しい離間距離となっているため、マイクｂを話者Ｃに近づけるように誘導している。また、図４Ｂの例では、マイクａが、話者Ａ，Ｂに対して等しい離間距離となっているため、マイクａを話者Ａに近づけるように誘導している。

【0033】

図５は、話者ダイアライゼーション装置１００の推奨配置提示部１３０が行う主な処理（以下、「推奨配置提示処理Ｓ５００」と称する。）を説明するフローチャートである。以下、同図とともに推奨配置提示処理Ｓ５００について説明する。

【0034】

まず、現在配置取得部１３１が、現在配置１０３を取得する（Ｓ５１１）。

【0035】

続いて、離間距離算出部１３２が、現在配置１０３に基づき各話者と音声入力装置との間の離間距離を求める（Ｓ５１２）。

【0036】

続いて、分散算出部１３３が、各話者の離間距離の分散を求める（Ｓ５１３）。

【0037】

続いて、配置変更要否判定部１３４が、求めた分散を予め設定された閾値と比較する（
Ｓ５１４）。分散が閾値を超えている場合（Ｓ５１４：Ｎｏ）、推奨配置提示処理Ｓ５００は終了する。一方、分散が閾値以下である場合（Ｓ５１４：Ｙｅｓ）、処理はＳ５１５に進む。

【0038】

Ｓ５１５では、推奨配置生成部１３５が、分散が閾値を超えるような推奨配置１０４を生成する。

【0039】

続いて、推奨配置出力部１３６が、推奨配置１０４や推奨配置１０４に基づく情報を出力してユーザに提示する（Ｓ５１６）。その後、処理はＳ５１１に戻る。

【0040】

以上に説明したように、第１実施形態の話者ダイアライゼーション装置１００は、話者と音声入力装置の現在配置から求めた各話者の離間距離の分散を求め、分散が予め設定した閾値以下であれば分散が予め設定した閾値を超えるような推奨配置１０４を生成して推奨配置１０４に基づく情報や推奨配置１０４に基づく情報をユーザに提示する。このように、第１実施形態の話者ダイアライゼーション装置１００によれば、話者毎の発話期間の判定精度が十分でない場合にユーザに現在配置の変更を促し、話者毎の発話期間の判定精度の向上を図ることができる。

【0041】

［第２実施形態］
第１実施形態の話者ダイアライゼーション装置１００は、話者と音声入力装置の現在配置から求められる話者毎の離間距離をパラメータとして分散を求め、分散が予め設定した閾値以下か否かを判定することにより配置変更の要否を判定する。一方、以下に説明する第２実施形態の話者ダイアライゼーション装置１００は、発話期間判定部１２０により判定された各話者の発話期間における音声データの音圧レベルをパラメータとしてその分散を求め、分散が予め設定した閾値以下か否かを判定することにより、配置変更の要否を判定する。尚、第２実施形態の話者ダイアライゼーション装置１００の仕組みは、発話期間判定部１２０により話者毎の発話期間が所定の精度で判定可能な場合に有効に機能する。

【0042】

図６に、第２実施形態の話者ダイアライゼーション装置１００が備える主な機能を示す。尚、同図に示す機能のうち、音声データ生成部１１０、配置変更要否判定部１３４、推奨配置生成部１３５、及び推奨配置出力部１３６の各機能については第１実施形態と同様であるので説明を省略する。以下では、第１実施形態と異なる点を中心として説明する。

【0043】

第２実施形態の話者ダイアライゼーション装置１００の発話期間判定部１２０は、第１実施形態の発話期間判定部１２０と同様に、音声データ１０１に含まれる話者毎の発話期間を判定し、発話期間判定結果１０２を生成して出力する。また、第２実施形態の発話期間判定部１２０は、発話期間毎の音声データ１０５を推奨配置提示部１３０に入力する。

【0044】

同図に示すように、第２実施形態の話者ダイアライゼーション装置１００の推奨配置提示部１３０は、音圧レベル比較値算出部１６１を有する。音圧レベル比較値算出部１６１は、発話期間判定部１２０から入力された発話期間毎の音声データ１０５に基づき、発話期間毎の音圧レベルを表すパラメータの値（例えば、発話期間における音声データの音圧レベルの最大ピーク値（最大振幅値）や最大ピーク値（最大振幅値）の平均値。以下、「音圧レベル比較値」と称する。）を算出する。尚、音圧レベル比較値を算出する際に用いる発話期間における音声データとしては、他の発話期間との重複のない（時間的に重なっていない）期間における音声データを用いることが好ましい。

【0045】

第２実施形態の分散算出部１３３は、音圧レベル比較値のばらつきを示す値、即ち分散を算出する。

【0046】

第２実施形態の配置変更要否判定部１３４は、第１実施形態と同様に、分散算出部１３３が算出した分散を予め設定された閾値と比較し、現在配置１０３を変更する必要があるか否かを判定する。分散が閾値以下である場合、配置変更要否判定部１３４は、現在配置１０３を変更する必要があると判定する。一方、分散が閾値を超える場合、配置変更要否判定部１３４は、現在配置１０３を変更する必要はないと判定する。

【0047】

第２実施形態の推奨配置生成部１３５は、第１実施形態と同様に、配置変更要否判定部１３４が現在配置１０３を変更する必要があると判定した場合に、分散が閾値を超えるような推奨配置１０４を生成する。

【0048】

第２実施形態の推奨配置出力部１３６は、第１実施形態と同様に、推奨配置生成部１３５が生成した推奨配置１０４を示す情報や推奨配置１０４に基づく情報を生成して出力する。

【0049】

続いて、第２実施形態の話者ダイアライゼーション装置１００が行う主な処理について説明する。

【0050】

図７は、第２実施形態の話者ダイアライゼーション装置１００の推奨配置提示部１３０が行う主な処理（以下、「推奨配置提示処理Ｓ７００」と称する。）を説明するフローチャートである。以下、同図とともに推奨配置提示処理Ｓ７００について説明する。

【0051】

まず、音圧レベル比較値算出部１６１が、発話期間判定部１２０から発話期間毎の音声データ１０５を取得し（Ｓ７１１）、取得した発話期間毎の音声データ１０５に基づき、発話期間毎の音圧レベル比較値を算出する（Ｓ７１２）。

【0052】

続いて、分散算出部１３３が、発話期間毎の音圧レベル比較値の分散を求める（Ｓ７１３）。

【0053】

続いて、配置変更要否判定部１３４が、求めた分散を予め設定された閾値と比較する（Ｓ７１４）。分散が閾値を超えている場合（Ｓ７１４：Ｎｏ）、推奨配置提示処理Ｓ５００は終了する。一方、分散が閾値以下である場合（Ｓ７１４：Ｙｅｓ）、処理はＳ５１５に進む。

【0054】

Ｓ７１５では、推奨配置生成部１３５が、分散が閾値を超えるような推奨配置１０４を生成する。

【0055】

続いて、推奨配置出力部１３６が、推奨配置１０４や推奨配置１０４に基づく情報を出力してユーザに提示する（Ｓ７１６）。その後、処理はＳ７１１に戻る。

【0056】

以上のように、第２実施形態の話者ダイアライゼーション装置１００は、発話期間判定部１２０により判定された話者毎の発話期間における音圧レベル比較値をパラメータとしてその分散を求め、分散が予め設定した閾値以下であれば分散が予め設定した閾値を超えるような推奨配置１０４を生成して推奨配置１０４に基づく情報や推奨配置１０４に基づく情報をユーザに提示する。そのため、第２実施形態の話者ダイアライゼーション装置１００は、第１実施形態の話者ダイアライゼーション装置１００のように現在配置をユーザから取得する必要がなく、ユーザに負担を生じさせない。また、第２実施形態の話者ダイアライゼーション装置１００は３Ｄモーションセンサや距離画像取得装置等の入力装置１４を設ける必要もなく、簡素な構成にて、話者毎の発話期間の判定精度を向上する仕組みを実現することができる。

【0057】

以上、実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、様々な変形例が含まれ、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることや、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。

【0058】

例えば、音声入力装置（マイクロフォン）を、無線又は有線により通信が可能な自律制御が可能な移動体（ロボット、ドローン等）に搭載し、話者ダイアライゼーション装置１００から推奨配置生成部１３５が生成した推奨配置や当該推奨配置となるように、上記移動体を移動させる指示（コマンド）を上記移動体に送信するようにしてもよい。これによりユーザを煩わせることなく、現場において音声入力装置と話者の配置が自動的に推奨配置になるようにすることができる。

【0059】

また、例えば、以上に説明した話者ダイアライゼーション装置１００の機能のうち、例えば、推奨配置１０４の生成や出力に関する機能、例えば、第１実施形態及び第２実施形態における話者ダイアライゼーション装置１００の推奨配置提示部１３０の機能や、第２実施形態における発話期間判定部１２０の発話期間毎の音声データ１０５を生成する機能については、音声信号から発話期間判定結果１０２の生成に関する話者ダイアライゼーション装置１００の基本的な機能を実現する情報処理装置とは異なる他の情報処理装置（話者ダイアライゼーション支援装置）により実現するようにしてもよい。

【符号の説明】

【0060】

１００話者ダイアライゼーション装置
１０１音声データ
１０２発話期間判定結果
１０３現在配置
１０４推奨配置
１０５発話期間毎の音声データ
１１０音声データ生成部
１２０発話期間判定部
１３０推奨配置提示部
１３１現在配置取得部
１３２離間距離算出部
１３３分散算出部
１３４配置変更要否判定部
１３５推奨配置生成部
１３６推奨配置出力部
１６１音圧レベル比較値算出部
Ｓ５００推奨配置提示処理
Ｓ７００推奨配置提示処理

【図1】