(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-16
(45)【発行日】2022-02-04
(54)【発明の名称】会話認識記録システム
(51)【国際特許分類】
G10L 25/78 20130101AFI20220128BHJP
G06Q 10/10 20120101ALI20220128BHJP
【FI】
G10L25/78
G06Q10/10
(21)【出願番号】P 2017234875
(22)【出願日】2017-12-07
【審査請求日】2020-11-04
(73)【特許権者】
【識別番号】000002299
【氏名又は名称】清水建設株式会社
(74)【代理人】
【識別番号】100139114
【氏名又は名称】田中 貞嗣
(74)【代理人】
【識別番号】100139103
【氏名又は名称】小山 卓志
(74)【代理人】
【識別番号】100119220
【氏名又は名称】片寄 武彦
(74)【代理人】
【識別番号】100091971
【氏名又は名称】米澤 明
(74)【代理人】
【識別番号】100095120
【氏名又は名称】内田 亘彦
(74)【代理人】
【識別番号】100088041
【氏名又は名称】阿部 龍吉
(72)【発明者】
【氏名】松尾 隆士
(72)【発明者】
【氏名】増田 崇
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2014-083658(JP,A)
【文献】特開2010-266722(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
G06Q 10/00-10/10
(57)【特許請求の範囲】
【請求項1】
複数の区画に分割された空間のそれぞれで会話が発生したか否かを認識し記録を行う会話認識記録システムにおいて、
情報処理装置に、
それぞれの区画で集音された音に音声が含まれるか否かを判定する音声判定
ステップと、
それぞれの区画周辺で複数の人が存在するか否かを判定する人判定
ステップと、
前記音声判定
ステップにおいて、ある区画で集音された音に音声が含まれると判定され、かつ、前記人判定
ステップにおいて、当該区画周辺で複数の人が存在すると判定されると当該区画で会話が発生したものと認識して記録を行う記録
ステップと、を
実行させることを特徴とする会話認識記録システム。
【請求項2】
前記音声判定
ステップは、
集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出し、
中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれる
と判定することを特徴とする請求項1に記載の会話認識記録システム。
【請求項3】
前記人判定
ステップが、カメラで取得された画像を解析することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする請求項1又は請求項2に記載の会話認識記録システム。
【請求項4】
前記人判定
ステップが、RFIDタグを利用することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする請求項1又は請求項2に記載の会話認識記録システム。
【請求項5】
前記人判定
ステップが、人感センサーを利用することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする請求項1又は請求項2に記載の会話認識記録システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、オフィス内におけるコミュニケーションの活性度の指標として会話の有無を認識し、これを記録する際に用い得る会話認識記録システムに関する。
【背景技術】
【0002】
建物空間内で発生する会話は人々のコミュニケーション量や知的生産性を測る指標として重要である。ある空間内に人が居るかコミュニケーションが活発に行われているかを判定する手段として、音声を検知することは有効な方法である。このような音声検知方法が確立されていれば、例えば、オフィス内のコミュニケーション活性度の計測を行ったり、或いは、公共施設などの交流ペースの活用度を計測したり、といったことが可能となる。
【0003】
業務に適したオフィス環境が提供されているかを知る尺度として、例えば、特許文献1(特開2016-115003号公報)には、複数の種類の業務が各ユーザによってそれぞれ遂行されるように構成される施設におけるオフィス活動を分析するオフィス活動分析システムにおいて、対話などによる現場の音をセンサーであるマイクによって集音して、マイクで集音した音の音圧レベルがある値を超える場合や音圧レベルが変動する場合に会話が行われていると判断する技術が開示されている。
【文献】特開2016-115003号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1記載の従来技術においては、音圧レベルの変動から会話を推定するものであり、空間内では暗騒音を含む様々な音が発生することを考慮すると会話検知の精度が低くなる、という問題があった。
【0005】
さらに、従来技術のように音圧センサーだけでは空間内で発生する音圧レベルは測定できても、それが人の会話であるかそれ以外の音(騒音、電話ベルなど)によるものであるかは判断できず、精度高く、所定空間内で発生する会話の有無を認識することができず、問題であった。
【課題を解決するための手段】
【0006】
この発明は、上記のような問題を解決するものであって、本発明に係る会話認識記録システムは、複数の区画に分割された空間のそれぞれで会話が発生したか否かを認識し記録を行う会話認識記録システムにおいて、情報処理装置に、それぞれの区画で集音された音に音声が含まれるか否かを判定する音声判定ステップと、それぞれの区画周辺で複数の人が存在するか否かを判定する人判定ステップと、前記音声判定ステップにおいて、ある区画で集音された音に音声が含まれると判定され、かつ、前記人判定ステップにおいて、当該区画周辺で複数の人が存在すると判定されると当該区画で会話が発生したものと認識して記録を行う記録ステップと、を実行させることを特徴とする。
【0007】
また、本発明に係る会話認識記録システムは、前記音声判定ステップは、集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベルと、中心周波数500Hzのオクターブバンド等価音圧レベルとを算出し、中心周波数500Hzのオクターブバンド等価音圧レベルからA特性等価音圧レベルを引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれると判定することを特徴とする。
【0008】
また、本発明に係る会話認識記録システムは、前記人判定ステップが、カメラで取得された画像を解析することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする。
【0009】
また、本発明に係る会話認識記録システムは、前記人判定ステップが、RFIDタグを利用することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする。
【0010】
また、本発明に係る会話認識記録システムは、前記人判定ステップが、人感センサーを利用することで、ある区画周辺で複数の人が存在するか否かを判定することを特徴とする。
【発明の効果】
【0011】
本発明に係る会話認識記録システムは、音声判定部において、ある区画で集音された音に音声が含まれると判定され、かつ、人判定部において、当該区画周辺で複数の人が存在すると判定されると当該区画で会話が発生したものと認識するものであり、このような本発明に係る会話認識記録システムによれば、所定の空間内にける会話の有無を高い精度で認識し、記録を行うことが可能となる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施形態に係る会話認識記録システム1のオフィス100への適用例を示す図である。
【
図2】本発明の実施形態に係る会話認識記録システム1のブロック図を示す図である。
【
図3】本発明の実施形態に係る会話認識記録システム1の設定時間間隔毎の処理アルゴリズムのフローチャートを示す図である。
【
図4】音声判定サブルーチンのフローチャートを示す図である。
【
図5】人判定サブルーチンのフローチャートを示す図である。
【
図6】着目区画とその周辺の区画とを説明する図である。
【
図7】本発明の実施形態に係る会話認識記録システム1による記録例を示す図である。
【
図8】打合スペースにおける会話の有無に応じた音圧レベルの周波数特性を示す図である。
【
図9】打合スペースにおける会話の有無に応じたL
diffの度数分布を示す図である。
【
図10】閾値L
Tの設定値と判定精度の関係を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態を図面を参照しつつ説明する。
図1は本発明の実施形態に係る会話認識記録システム1のオフィス100への適用例を示す図である。また、
図2は本発明の実施形態に係る会話認識記録システム1のブロック図を示す図である。
【0014】
本実施形態に係る会話認識記録システム1が適用されるオフィス100における床101及び天井102の間の空間は、床101及び天井102の点線で示される区画によって、仮想的に分割されていることを想定している。本実施形態では、4×4の計16の区画によって分割されている例を示すが、本発明において、区画の分割例がこれに限られるものではない。本実施形態においてはそれぞれ区画を、図示するように、第1区画、第2区画、第3区画、・・・・、第15区画、第16区画と称することとする。
【0015】
それぞれの区画の天井102においては、当該区画における音を集音するマイクロホン30'、 30' '、 30' ' ' ・・・が設けられている。マイクロホン30'、 30' '、 30' ' ' ・・・で集音された音データについては、情報処理装置20に対して有線又は無線によるデータ通信によって送信される。
【0016】
例えば、情報処理装置20としては、CPUなどの演算を実行する演算部、表示や入力を行うインターフェイス部、有線又は無線によるデータ通信を行う通信部、データ記録を行うHDD、SSDなどの記憶部等、を有するパーソナルコンピューターなどの汎用のものを用いることができる。なお、情報処理装置20としては、パーソナルコンピューターに限らず、タブレット型端末などの他のものを用いるようにしてもよい。
【0017】
このような情報処理装置20には、各マイクロホン30'、 30' '、 30' ' ' ・・・で集音された音データが入力され、情報処理装置20ではそれぞれの音データの解析が行われ、当該音データに音声が含まれているか否かが判定される。
【0018】
また、オフィス100の壁面には、オフィス100内の空間を全的的に撮像することが可能なカメラ60が取り付けられている。カメラ60で撮像された画像データは、情報処理装置20に対して有線又は無線によるデータ通信によって送信される。情報処理装置20では、カメラ60から送信された画像データの画像解析が行われ、人が存在するか否かが判定される。
【0019】
以上のように構成される本発明に係る会話認識記録システム1がオフィス100内における会話を認識し、会話の発生等を記録する処理について
図3を参照して説明する。
図3は本発明の実施形態に係る会話認識記録システム1の設定時間間隔毎の処理アルゴリズムのフローチャートを示す図である。
【0020】
また、
図3に示すフローチャートは、予め設定された時間間隔幅(タイムスロット)1つに対する処理を示すものであり、設定時間より長い時間にわたって会話認識・会話発生記録を行う場合、
図3に示すフローチャートが複数回繰り返して実行されることとなる。
【0021】
図3において、ステップS100で、会話認識・会話発生記録の処理が開始されると、続くステップS101では、音声判定のサブルーチンが実行される。ここで、
図4を参照して音声判定のサブルーチンを説明する。
【0022】
図4に示すフローチャートにおいて、ステップS200で処理が開始されると、続いてステップS201に進み、第N区画として、第1区画がセットされる。ここで、Nは1ずつインクリメントされる変数である。
【0023】
続いて、ステップS202に進み、マイクロホン30によって取得された音データのうち、第N区画における設定時間間隔幅の音データを取得する。
【0024】
ステップS203では、取得された集音データに対して設定された時間間隔幅の中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を算出する。
【0025】
ここで、本明細書においては、予め設定された時間間隔幅(タイムスロット)における中心周波数500Hzのオクターブバンド等価音圧レベルをL500eqといい、A特性等価音圧レベルをLAeqという。
【0026】
次のステップS204では、音データに対して、A特性重み付け補正を実行する。このようなA特性重み付け補正については、周知の方法によって実行され得るものである。
【0027】
ステップS205では、ステップS203でA特性重み付け補正された集音データに対して設定時間間隔幅のA特性等価音圧レベル(LAeq)を算出する。
【0028】
続いて、情報処理装置20がA特性等価音圧レベル(LAeq)と中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)を受信すると、ステップS206では、
Ldiff=L500eq-LAeq (1)
の演算が実行され、ステップS206では、
Ldiff≧ LT (2)
の真否が判定される。
【0029】
ステップS207の判定結果がYESであるときには、ステップS208に進み、当該時間間隔幅における検知結果は「音声検知」とし、ステップS210で第N区画では「音声検知」の結果を履歴として記録する。
【0030】
一方、ステップS207の判定結果がNOであるときには、ステップS209に進み、当該時間間隔幅における検知結果は「音声非検知」とし、ステップS210で第N区画では「音声非検知」の結果を履歴として記録する。
【0031】
ステップS211では、全区画が終了したか否か(本例では、N=16であるか否か)が判定される。ステップS211の判定結果がNOであれば、ステップS212に進み、Nを「1」インクリメントして、次の区画に進み、ステップS202に進む。一方、ステップS211の判定結果がYESであれば、ステップS213に進み、元のメインルーチンにリターンする。
【0032】
元のメインルーチンでは、続いて、ステップS102に進み、人判定サブルーチンが実行される。ここで、
図5を参照して人判定サブルーチンを説明する。
【0033】
図5に示すフローチャートにおいて、ステップS300において、人判定サブルーチンが開始されると、ステップS301に進み、予め設定された時間間隔幅(タイムスロット)におけるカメラ60による撮像データを取得し、ステップS302で、取得された撮像データの画像解析を実行する。
【0034】
ステップS303では、第N区画として、第1区画がセットされる。ここで、Nは1ずつインクリメントされる変数である。
【0035】
次のステップS304では、撮像データの画像解析結果に基づいて、着目する第N区画とその回りの区画で複数人の画像を認識したか否かを判定する。ここで、
図6には、着目区画とその周辺の区画とが図示されている。
図6において、アンダーバーが付された数字が、区画の序数を示している。例えば、
図6に示すように、着目する区画が第6区画であるものとすると、その周辺の区画とは、点線が通過する第1区画、第2区画、第3区画、第5区画、第7区画、第9区画、第10区画、第11区画が該当する。
【0036】
ステップS304の判定結果がYESであるときには、ステップS305に進み、当該時間間隔幅における検知結果は「複数人検知」とし、ステップS307で第N区画では「複数人検知」の結果を履歴として記録する。
【0037】
一方、ステップS304の判定結果がNOであるときには、ステップS306に進み、当該時間間隔幅における検知結果は「複数人非検知」とし、ステップS307で第N区画では「複数人非検知」の結果を履歴として記録する。
【0038】
ステップS308では、全区画が終了したか否か(本例では、N=16であるか否か)が判定される。ステップS308の判定結果がNOであれば、ステップS309に進み、Nを「1」インクリメントして、次の区画に進み、ステップS304に進む。一方、ステップS308の判定結果がYESであれば、ステップS310に進み、元のメインルーチンにリターンする。
【0039】
なお、本実施形態では、人判定に係る技術には、カメラによって撮像された画像データを画像解析することによって行う構成が採用されているが、人判定においてはその他の技術を用いることもできる。例えば、人判定に係る技術には、RFIDタグを利用することで、ある区画周辺で複数の人が存在するか否かを判定するようにしてもよいし、また、人感センサーを利用することで、ある区画周辺で複数の人が存在するか否かを判定するようにしてもよい。さらに、人判定に係る技術には、赤外線センサー、振動センサー、CO2センサーなどを応用するようにしてもよい。
【0040】
さて、
図3のメインルーチンに戻り、続いて、ステップS103では、第N区画として、第1区画がセットされる。ここで、Nは1ずつインクリメントされる変数である。
【0041】
ステップS104においては、音声判定サブルーチンの結果により、第N区画で「音声検知」であったか否かが判定される。判定結果がNOであれば、ステップS107に進み、第N区画=(会話非発生)として記録が残される。判定結果がYESであれば、続いて、ステップS105に進む。
【0042】
ステップS105においては、人判定サブルーチンの結果により、第N区画で「複数人検知」であったか否かが判定される。判定結果がNOであれば、ステップS107に進み、第N区画=(会話非発生)として記録が残される。判定結果がYESであれば、続いて、ステップS106に進み、第N区画=(会話発生)として記録が残される。
【0043】
ステップS108では、全区画が終了したか否か(本例では、N=16であるか否か)が判定される。ステップS108の判定結果がNOであれば、ステップS109に進み、Nを「1」インクリメントして、次の区画に進み、ステップS104に進む。一方、ステップS108の判定結果がYESであれば、ステップS110に進み、処理を終了する。
【0044】
以上のような本発明に係る会話認識記録システム1で記録される履歴について説明する。
図7は本発明の実施形態に係る会話認識記録システム1による記録例を示す図である。
図7に示す例では、設定された時間間隔幅(タイムスロット)が30秒間であり、当該時間間隔幅においてそれぞれの区画で、会話が発生したのか(「会話発生」記録)、或いは、会話が発生しなかったのか(「会話非発生」記録)についての履歴が残される。例えば、10:30:00~10:30:30での時間間隔区幅では、第1区画=(会話発生)、第2区画=(会話発生)、第3区画=(会話発生)、第4区画=(会話非発生)、・・・・第16区画=(会話非発生)のような履歴が取得される。
【0045】
上記のような本発明に係る会話認識記録システム1では、
図1の(A)周辺において会議を行っているスペースにおいては、(会話発生)の履歴が取得されるが、一方で、
図1の(B)において1人が電話対応のみを行っているようなケースでは、(会話非発生)のような履歴が取得される。このように本発明に係る会話認識記録システム1では、空間内における実際の会話を高い確度で認識し履歴を残すことが可能となる。
【0046】
以上のような、本発明に係る会話認識記録システム1では、音声判定において、ある区画で集音された音に音声が含まれると判定され、かつ、人判定において、当該区画周辺で複数の人が存在すると判定されると当該区画で会話が発生したものと認識するものであり、このような本発明に係る会話認識記録システム1によれば、所定の空間内にける会話の有無を高い精度で認識し、記録を行うことが可能となる。
【0047】
次に上記のような本発明に係る会話認識記録システム1における音声検知の判定方法(音声判定のサブルーチン)の技術的根拠を示す。
【0048】
図8に、オフィス内の打合スペースにおいて会話が行われていた場合と会話が行われていない場合の音圧レベルの周波数特性を示す。
図8の周波数特性の測定は1分間オクターブバンド等価音圧レベルを連続測定した。全測定サンプルは5622サンプル、その内会話が行われていた場合は1406サンプル、会話が行われていない場合は4216サンプルであった。
図8には、打合スペースで会話が行われていた場合と会話が行われていない場合それぞれにおける測定結果の平均値と平均値±標準偏差を示す。なお、各周波数における音圧レベルはA特性により重み付けされた値である。
【0049】
図8からは、等価音圧レベルを測定した1分間に会話が行われている場合、即ち音声が含まれている場合は500Hzオクターブバンド音圧レベルが卓越した周波数特性であることがわかる。一方、会話が行われていない場合、即ち音声が含まれていない場合はこのような特徴は示されていない。以上の測定結果は、音声は500Hzオクターブバンドに主な周波数成分を持つことを示している。
【0050】
逆に言えば、測定した音の周波数特性において500Hzオクターブバンド音圧レベルが卓越している場合、その測定した音には音声が含まれている可能性が高いことを示唆する。
【0051】
ここで、A特性音圧レベルと500Hzオクターブバンド音圧レベルの関係を考える。仮に、測定した音が500Hzオクターブバンドにのみ周波数成分を持つとすると、A特性音圧レベルの定義からその差Ldiffは3.2dBとなる。
【0052】
実際には、音声は500Hzオクターブバンド以外の帯域にも周波数成分を持つため、A特性音圧レベルとLdiffがちょうど3.2dBとなることはないが、Ldiffが3.2dBに近いほど測定した音の500Hzオクターブバンド音圧レベルが卓越していることを意味する。
【0053】
図8に示した測定結果からL
diffを算出し、打合スペースにおいて会話が行われていた場合と会話が行われていない場合それぞれにおけるL
diffの度数分布を
図9に示す。
【0054】
図9から、会話が行われている場合は、会話が行われていない場合と比較してL
diffが大きい、即ちL
diffが3.2dBに近いことが示されている。
【0055】
L
diffから測定した音に音声が含まれていると判定する閾値L
Tの設定値により、判定精度が変化する。
図10に、閾値L
Tの設定値と判定精度の関係を示す。
【0056】
ここで示した測定例では、閾値LTを-1dBに設定した場合に、会話が行われていること及び会話が行われていないことの判定精度が共に90%程度であった。
【0057】
閾値LTを大きい値に設定すると、測定した音に音声が含まれているにも関わらず音声が含まれていないと誤判定する確率が高くなる。一方で、閾値LTを小さい値に設定すると、測定した音に音声が含まれていないにも関わらず音声が含まれていると誤判定する確率が高くなる。閾値LTは音声以外の周囲の騒音等の影響を加味して設定する必要がある。
【0058】
ここで示した測定例では、1分間の等価音圧レベルを測定しているが、等価音圧レベルの測定時間は1分間に限定されるものではない。等価音圧レベルの測定時間は必要な音声検出頻度により設定するが、一般的には10秒間から10分間程度と設定することが適当である。なお、等価音圧レベルの測定時間を長く設定した場合、測定時間内の短い時間にのみ音声が含まれる場合は音声が含まれないものと判定されることがある。
【0059】
上記のような、技術的な根拠により、本発明に係る会話認識記録システムは音声検出の判定を行うものであり、原理的にみても、複雑なデータ処理等が不要なことが明白である。
【0060】
このように、本発明に係る会話認識記録システム1における音声判定は、集音された音に基づいて、設定された時間間隔帯におけるA特性等価音圧レベル(LAeq)と、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)とを算出し、中心周波数500Hzのオクターブバンド等価音圧レベル(L500eq)からA特性等価音圧レベル(LAeq)を引いた差分が予め設定された閾値以上である場合、集音された音に音声が含まれていると判定するものであり、このような本発明に係る会話認識記録システム1の音声判定によれば、音圧レベルの値や変動幅を用いることなく、高い精度で音声の有無を検知することが可能となる。
【0061】
また、本発明に係る会話認識記録システム1における音声判定は、高度な信号処理技術や人工知能等を用い、音声が含まれているかを判定することではなく、安価で簡便な装置構成で検知を行うものであり、広い空間内や建物内各所の多点で簡便に音声を検知することが可能となる。
【0062】
以上、本発明に係る会話認識記録システムは、音声判定部において、ある区画で集音された音に音声が含まれると判定され、かつ、人判定部において、当該区画周辺で複数の人が存在すると判定されると当該区画で会話が発生したものと認識するものであり、このような本発明に係る会話認識記録システムによれば、所定の空間内にける会話の有無を高い精度で認識し、記録を行うことが可能となる。
【0063】
また、本発明に係る会話認識記録システムによれば、会話量および発生位置をモニタリングすることができ、 それにより、建物内でのコミュニケーションの発生頻度や打合せスペースの利活用状況などを把握することができる。
【0064】
また、本発明に係る会話認識記録システムによれば、取得した履歴データはオフィスのレイアウト変更などの知的生産性を向上させるための空間設計に活用することができる。
【符号の説明】
【0065】
1・・・会話認識記録システム
20・・・情報処理装置
30・・・マイクロホン
60・・・カメラ
100・・・オフィス
101・・・床
102・・・天井