(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20241001BHJP
G10L 25/84 20130101ALI20241001BHJP
【FI】
G10L25/51
G10L25/84
(21)【出願番号】P 2020218964
(22)【出願日】2020-12-28
【審査請求日】2023-06-08
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100119677
【氏名又は名称】岡田 賢治
(74)【代理人】
【識別番号】100160495
【氏名又は名称】畑 雅明
(74)【代理人】
【識別番号】100115794
【氏名又は名称】今下 勝博
(72)【発明者】
【氏名】椎名 亮太
(72)【発明者】
【氏名】福井 達也
(72)【発明者】
【氏名】成川 聖
(72)【発明者】
【氏名】南 勝也
(72)【発明者】
【氏名】谷口 友宏
(72)【発明者】
【氏名】猿渡 俊介
(72)【発明者】
【氏名】渡邊 尚
(72)【発明者】
【氏名】藤橋 卓也
(72)【発明者】
【氏名】山口 隼平
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平09-090991(JP,A)
【文献】米国特許出願公開第2018/0006837(US,A1)
【文献】特開平07-225593(JP,A)
【文献】特開2006-154484(JP,A)
【文献】特開2002-078970(JP,A)
【文献】特開平10-301600(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93,15/00-17/26
(57)【特許請求の範囲】
【請求項1】
入力されたディジタル音声信号
の大きさが、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを
並行して時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データ
を比較し、
前記発話区間データの各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とするデータ処理装置。
【請求項2】
前記データ処理装置は、入力されたディジタル音声信号の過去の一定期間内における大きさの平均値の一定割合を前記設定された閾値と設定することを特徴とする請求項
1に記載のデータ処理装置。
【請求項3】
前記データ処理装置は、前記話者データの中で、前後所定の数の単位期間が発話で、1単位期間だけ無音と判断されたときは、当該1単位期間も発話と訂正し、
前後所定の数の単位期間が無音で、1単位期間だけ発話と判断されたときは、当該1単位期間も無音と訂正することを特徴とする請求項
1又は
2に記載のデータ処理装置。
【請求項4】
入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を相互に時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とする複数のセンサ装置、及び
前記複数のセンサ装置からの前記ディジタル音声信号を入力とする請求項
1から
3に記載のいずれかのデータ処理装置を備える発話者推定システム。
【請求項5】
入力されたディジタル音声信号
の大きさが、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを
並行して時系列に並べて、いずれかの人間が発話していると判断された区間を発話区間とし、いずれの人間も発話していないと判断された区間を無音区間とし、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データ
を比較し、
前記発話区間データの各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とするデータ処理方法。
【請求項6】
請求項
5に記載のデータ処理方法をコンピュータに実行させるデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、他社間でのコミュニケーションにおいて、発話者を検知する発話検知技術に関する。
【背景技術】
【0002】
従来、定性的にしか把握されていなかった人集団内のコミュニケーションを定量化し、それらの結果をビジネス分野や、教育・心理分野に応用する検討がなされている。コミュニケーションの中での会話を定量化するために、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出する手法が求められている。
【0003】
例えば、非特許文献1では、マイクロホンアレイを用いた発話検知方法が検討されている。しかし、この方法では、高精度な発話検知が可能であるもの、マイクロホンアレイ設備を設置した特定の場所でしか検知できず、また発話者の移動に対して検知が困難になるという課題があった。
【0004】
また、非特許文献2~4では、バッジ型センサを用いた発話検知方法が検討されている。しかし、これらの方法では、複数人が会話しているときに、誰がどのタイミングで発話しているのかを検知する制度が低いという課題があった。
【先行技術文献】
【非特許文献】
【0005】
【文献】黄楊暘、大塚琢馬、中臺一博、奥乃博、「多チャンネルマイクロホンアレイを用いた音声区間検出および音源定位の精度の向上の検討」、人工知能学会研究会資料、JSAI Technical Report、SIG-Challenge-B202-5
【文献】カタログ「ビジネス顕微鏡の概要」、日立ハイテク、2011年発行
【文献】Daniel Olguin Olguin, Benjamin N. Waber, Taemie Kim, Akshay Mohan, Koji Ara, and Alex Pentlan, “Sensible Organizations: Technology and Methodology for Automatically Measuring Organizational Behavior” , IEEE TRANSACTIONS ON SYSTEMS, MAN, and CYBERNETICS-PART B: CYBERNETICS, VOL. 39, NO.1, FEBRUARY 2009
【文献】Oren Lederman, Dan Calacci, Angus MacMullen, Daniel C. Fehder, Fiona E. Murray, and Alex “Sandy” Pentland, “Open Badges: A Low-Cost Toolkit for Measuring Team Communication and Dynamics” , arXiv:1710.01842v1 [cs.HC] 5 Oct. 2017
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示は、上記事情に着目してなされたもので、本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することを目的とする。
【0007】
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することを目的とする。
【課題を解決するための手段】
【0008】
本開示のセンサ装置及びセンシング方法は、
入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とする
ことを特徴とする。
【0009】
本開示のデータ処理装置及びデータ処理方法は、
入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された前記閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とする。
【0010】
本開示の発話者推定システムは、複数の本開示のセンサ装置及び本開示のデータ処理装置を備える。
【0011】
本開示のデータ処理プログラムは、本開示のデータ処理方法をコンピュータに実行させるプログラムである。
【発明の効果】
【0012】
本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
【図面の簡単な説明】
【0013】
【
図1】本開示のセンサ装置の使用方法の一例を示す。
【
図3】本開示のデータ処理装置の構成の一例を示す。
【
図4】本開示のデータ処理装置の動作の一例を示す。
【発明を実施するための形態】
【0014】
以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。本開示で例示される数値は一例であって、これらの値に限定されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
【0015】
(センサ装置)
本実施形態のセンサ装置の使用方法の一例を
図1に示す。センサ装置10は、複数の人間、ここでは、「Aさん」、「Bさん」及び「Cさん」の3人が保持している。Aさんが話していると、Aさんの声がAさんの保持するセンサ装置10に記録される。同時に、Bさん及びCさんの保持するセンサ装置10にも、声の大きさは小さいが記録される。
【0016】
本実施形態のセンサ装置の構成の一例を
図2に示す。本実施形態のセンサ装置の動作の一例を
図5に示す。センサ装置10は、集音部11、増幅回路12、ピークホールド回路13、同期信号生成回路14、AD変換回路15及び記憶回路16を備える。
【0017】
集音部11は、入力音声信号として入力される音波(
図5(1)に示す。)を音電気変換して、音電気信号(
図5(2)に示す。)として出力する。集音部11は、音波を電気信号に変換するMEMSアナログマイクロフォンが例示できる。音電気信号の大きさが小さいときは、増幅回路12で増幅してもよい。増幅回路12はOPアンプが適用できる。
【0018】
ピークホールド回路13は、音電気信号を一定時間だけピークホールドして、ピークホールド信号(
図5(3)の実線で示す。)として出力する。ピークホールド回路は、ピーク検出回路とサンプルホールド回路を組み合わせて構成することができる。ピークホールド回路13は立ち上がりに瞬時に応答するので、平滑回路や積分回路よりも立ち上がり特性が優れている。また、サンプルホールド回路単独に比較して、音質の特徴が失われても、発話を精度高く検出することができる。Aさんが話をしていると、Aさんのセンサ装置10だけでなく、Bさんのセンサ装置10やCさんのセンサ装置10にも、Aさんの声が記録される。しかし、Aさんのセンサ装置10は、Aさんの声の大きい期間を最も長く記録することになる。ピークホールドする一定時間(
図5(3)の「P」の期間で示す。)としては、例えば、100msecが例示できる。ピークホールドする一定時間は、ピークホールド回路のコンデンサの容量、抵抗、バイアス電圧等に依存する放電で決定してもよいし、リセットパルスで一定時間ごとに強制的にリセットしてもよい。
図5(3)はピークホールドする一定時間ごとにリセットパルスで強制的にリセットしている。放電を利用する場合は、放電時定数に従って緩やかな立下りとなる。
【0019】
AD変換回路15は、ピークホールド信号をAD変換して、ディジタル音声信号として出力する。このとき、同期信号生成回路14は、AD変換回路15がピークホールド信号をAD変換する周期を、単位期間の周期とし、単位期間の周期を他のセンサ装置10と同期させる。周期を同期させることによって、他のセンサ装置が出力するディジタル音声信号との時系列処理を容易にする。単位期間はピークホールドする一定時間よりもみじかくすることが望ましく、例えば、1~10msecが例示できる。また、同期信号生成回路14は、AD変換回路15がピークホールド信号をAD変換するタイミングを、他のセンサ装置と時刻同期させる。タイミングを時刻同期させることによって、他のセンサ装置が出力するディジタル音声信号との時刻を合わせた時系列処理を可能にする。時刻同期は、複数のセンサ装置10を初期状態で時刻を一致させ、それぞれのセンサ装置10が時刻を維持してもよいし、無線経由で、センタ局から各センサ装置10に時刻同期をとってもよいし、いずれかのセンサ装置10がマスタとなって、他のセンサ装置10がスレーブとなって時刻同期をとってもよい。
【0020】
AD変換回路15からのディジタル音声信号を記憶回路16に記憶させてもよい。記憶回路16は、ディジタル音声信号を記憶し、指示によりディジタル音声信号を出力する。ディジタル音声信号は、有線で出力してもよいし、無線で出力してもよい。
【0021】
本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。
【0022】
(データ処理装置)
本実施形態のデータ処理装置の構成の一例を
図3に示す。データ処理装置20は、推定前処理部21、発話区間推定部22及び発話者推定部23を備える。データ処理装置の動作の一例を
図4に示す。
図4は、各データを時刻で同期させ、相対的な時間で17秒後から47秒後までの動作を示したものである。
【0023】
推定前処理部21は、ディジタル音声信号、例えば、センサ装置10の出力するディジタル音声信号を発話か無音かの識別を行う。具体的には、推定前処理部21は、ラベル付け回路211を有する。ラベル付け回路211は、入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された閾値未満のときに無音と判断して、話者データとする。話者データは例えば、発話のとき“1”、無音のとき“0”のバイナリでラベル付けすると、
図4の「Aさん」のデータように、 発話の“1”と無音の“0” が交互に現れるバイナリデータとなる。
【0024】
識別を行う閾値は、予め設定しておいてもよい。予め設定する閾値は、接続されるセンサ装置10ごとに変えてもよいし、固定であってもよい。本開示のデータ処理装置20は、推定前処理部21にゼロ点補正回路212を有してもよい。ゼロ点補正回路212は、入力されたディジタル音声信号の過去の一定期間のウィンドウ内における大きさの移動平均値又は移動平均値の一定割合を閾値と設定する。設定する一定割合としては、例えば、0.5倍である。
図4における、「Aさん」、「Bさん」、「Cさん」の話者データのように、ゼロ点補正回路212により、接続されるセンサ装置10ごとに閾値を自動で設定して、適切なデータとすることができる。設定する一定期間としては、例えば、5秒である。
【0025】
発話区間推定部22は、複数の人間の話者データを合わせて発話区間データを作成する。具体的には、発話区間推定部22は、発話論理回路223及び発話区間データ生成回路224を有する。
【0026】
発話論理回路223は、複数の人間の話者データを、時刻を基準に時系列に並べ、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断する。話者データは例えば、発話のとき“1”、無音のとき“0”のバイナリとすると、各話者データの論理和をとり、
図4の「論理演算後」のデータように、 発話の“1”と無音の“0” が交互に現れるバイナリデータが得られる。
【0027】
発話区間データ生成回路224は、発話論理回路223の出力する発話区間の中で、一定期間以下の発話を無音区間に修正して発話区間データを作成する。例えば、
図4の「発話区間データ生成で発話区間とみなされなかった部分」のように、発話区間の中でも短い部分は無音区間に訂正して、「発話区間データ」を出力する。一定期間以下の発話を無音区間に訂正することにより、物の衝突音や接触音、あるいは人間の発する咳やくしゃみといった発話でない部分を除去することができる。除去する発話の一定期間は調整できることが望ましい。訂正する一定期間としては、例えば、100msecが例示できる。
【0028】
発話者推定部23は、ラベル付け回路211からの話者データ及び発話区間データ生成回路224からの発話区間データを比較し、発話区間データの各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する。推定した後、誰がどれだけの時間だけ発話したかの発話者情報及び発話時間情報として出力してもよい。
【0029】
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
【0030】
本開示のデータ処理装置20は、発話区間推定部22に穴埋め回路221及び/又はパルスノイズ除去回路222を有してもよい。穴埋め回路221は、ラベル付け回路211からの話者データの中で、前後所定の数の単位期間が発話で、1単位期間だけ無音と判断されたときは、当該1単位期間も発話と訂正する。このような訂正で誤って無音と判断されても、精度高く発話を検出することができる。
【0031】
パルスノイズ除去回路222は、ラベル付け回路211からの話者データの中で、前後所定の数の単位期間が無音で、1単位期間だけ発話と判断されたときは、当該1単位期間も無音と訂正する。例えば、
図4の「Bさん」の話者データの中で、前後に無音が連続し、1単位期間だけ発話の場合は、当該発話の部分を除去する。このような訂正で誤って発話と判断されても、精度高く無音を検出することができる。
【0032】
本開示の発話者推定システムは、前述した複数のセンサ装置10及び前述したデータ処理装置20を備える。複数のセンサ装置10が作成したディジタル音声信号のデータ処理装置20への伝達は、複数のセンサ装置10をデータ処理装置20に直接、接続してもよいし、記録媒体を介してもよいし、伝送線路を介してもよいし、ネットワークを介してもよい。
【0033】
本開示の発話者推定システムは、複数のセンサ装置10をデータ処理装置20にネットワークを介して接続する場合のネットワークは、データ通信ネットワークである。プライベートネットワーク又はパブリックネットワークであってよく、(a)例えば或る部屋をカバーするパーソナル・エリア・ネットワーク、(b)例えば或る建物をカバーするローカル・エリア・ネットワーク、(c)例えば或るキャンパスをカバーするキャンパス・エリア・ネットワーク、(d)例えば或る都市をカバーするメトロポリタン・エリア・ネットワーク、(e)例えば都市、地方、又は国家の境界をまたいでつながる領域をカバーするワイド・エリア・ネットワーク、又は(f)インターネット、のいずれか又はすべてを含むことができる。通信は、ネットワークを介して電子信号及び光信号によって行われる。
【0034】
本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
【0035】
本発明のデータ処理装置は、コンピュータとプログラムによっても実現できる。本発明のデータ処理方法は、コンピュータとプログラムによっても実行できる。本発明のデータ処理プログラムは、記録媒体に記録することも、ネットワークを通して提供することも可能である。
【産業上の利用可能性】
【0036】
本開示は情報通信産業に適用することができる。
【符号の説明】
【0037】
10:センサ装置
11:集音部
12:増幅回路
13:ピークホールド回路
14:同期信号生成回路
15:AD変換回路
16:記憶回路
20:データ処理装置
21:推定前処理部
211:ラベル付け回路
212:ゼロ点補正回路
22:発話区間推定部
221:穴埋め回路
222:パルスノイズ除去回路
223:発話論理回路
224:発話区間データ生成回路
23:発話者推定部