(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】コミュニケーションシステム
(51)【国際特許分類】
G06F 3/01 20060101AFI20240730BHJP
G10L 15/10 20060101ALI20240730BHJP
G10L 25/84 20130101ALI20240730BHJP
G06F 3/16 20060101ALI20240730BHJP
G10L 15/04 20130101ALI20240730BHJP
【FI】
G06F3/01 510
G10L15/10 500Z
G10L25/84
G06F3/16 610
G10L15/04 300A
(21)【出願番号】P 2020143020
(22)【出願日】2020-08-26
【審査請求日】2023-07-18
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】菅田 光留
【審査官】槙 俊秋
(56)【参考文献】
【文献】特許第6400445(JP,B2)
【文献】特開2019-138937(JP,A)
【文献】特許第7276158(JP,B2)
【文献】特許第6747592(JP,B2)
【文献】特許第6859283(JP,B2)
【文献】特許第6817580(JP,B2)
【文献】特許第6756328(JP,B2)
【文献】特許第6565500(JP,B2)
【文献】特許第5055781(JP,B2)
【文献】特開2008-46802(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048-3/04895
G06F 3/16
G10L 13/00
G10L 19/00-99/00
G10L 15/10-17/26
(57)【特許請求の範囲】
【請求項1】
少なくとも3人のユーザがそれぞれ1台ずつ用いる少なくとも3台のウェアラブル端末と接続する判定装置を含むコミュニケーションシステムであって、前記判定装置は、
前記
少なくとも3台のウェアラブル端末
のそれぞれが備えるマイクが検知した音声データに基づいて、前記
少なくとも3人のユーザのう
ち発話している
1人の発話者
と前記発話者の発話区間とを判定する発話判定部と、
前記少なくとも3台のウェアラブル端末
のそれぞれが備える加速度センサが検知した加速度データに基づいて、
前記少なくとも3人のユーザの頷きを判定する興味動作判定部と、
前記発話者の発話区間において前記少なくとも2人の非発話者のそれぞれの所定時間における前記頷きの回数である頷き密度の時間的推移
を算出し、
前記少なくとも2人の非発話者の間で前記頷き密度の時間的推移の相関を算出
し、前記相関の大きさに基づいて前記少なくとも2人の非発話者の間の前記発話者に対する興味関心の類似度を前記少なくとも2人の非発話者の前記発話者を中心としたコミュニケーションへの参加度合いとして推定する興味関心判定部と、を備え
、
前記発話判定部は、
前記音声データの音圧の大きさに基づいて、前記少なくとも3人のユーザのうち発話している1人の発話者を判定し、前記少なくとも3台のウェアラブル端末のうち、前記発話者か否かを判定する対象の対象ウェアラブル端末が備える加速度センサが検知した音声データに基づき判定される第1非発話区間、第2非発話区間及び第3非発話区間の区間以外の区間を、前記対象ウェアラブル端末を装着したユーザが発話した発話区間と判定し、
前記興味動作判定部は、
前記少なくとも2人の非発話者のそれぞれの加速度データに含まれる加速度の時系列データの鉛直方向の値を所定の時間区間ごとに抽出し、前記所定の時間区間の前記鉛直方向の値から計算した値が所定の値と所定の関係を満たす場合には、前記所定の時間区間で非発話者の頷きが発生したと判定する
コミュニケーションシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はコミュニケーションシステムに関する。
【背景技術】
【0002】
特許文献1には、ユーザの周囲とのコミュニケーション参加度合いを、画像情報等を用いて検出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
情報処理コストの高い画像情報を用いない場合であっても、検出精度の低下を抑制して、ユーザの周囲とのコミュニケーション参加度合いを検出できるコミュニケーションシステムを実現したいという課題があった。
【0005】
本開示では、そのような課題を解決するためになされたものであり、情報処理コストを低減させつつも、検出精度の低下を抑制して、ユーザの周囲とのコミュニケーション参加度合いを検出できるコミュニケーションシステムを提供することを目的とする。
【課題を解決するための手段】
【0006】
少なくとも3台のウェアラブル端末と接続する判定装置を含むコミュニケーションシステムであって、前記判定装置は、
前記接続されるウェアラブル端末が検知した音声データに基づいて、前記ウェアラブル端末の各ユーザのうち、発話している発話者を判定する発話判定部と、
前記ウェアラブル端末が検知した加速度データに基づいて、前記ウェアラブル端末の各ユーザの頷きを判定する興味動作判定部と、
所定時間における前記頷きの回数である頷き密度の時間的推移を前記発話者の発話区間において算出し、非発話者の間で前記頷き密度の時間的推移の相関を算出する興味関心判定部と、を備える
コミュニケーションシステム。
【発明の効果】
【0007】
本開示によって、情報処理コストを低減させつつも、検出精度の低下を抑制して、ユーザの周囲とのコミュニケーション参加度合いを検出できるコミュニケーションシステムを提供できる。
【図面の簡単な説明】
【0008】
【
図1】第1の実施形態に係るコミュニケーションシステムの構成を示すブロック図である。
【
図2】第1の実施形態に係る判定装置の動作を示すフローチャートである。
【
図3】第1の実施形態に係る判定装置における、発話者に対する非発話者間における興味関心の類似度を推定する方法の具体例を示す図である。
【発明を実施するための形態】
【0009】
以下では、本開示を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
【0010】
(第1の実施形態)
まず、第1の実施形態に係るコミュニケーションシステム1を説明する。
図1は、第1の実施形態に係るコミュニケーションシステム1の構成を示すブロック図である。
図1に示すように、コミュニケーションシステム1は、少なくとも3台以上のウェアラブル端末10と、判定装置20(コミュニケーション判定装置20)と、を備えている。まず、コミュニケーションシステム1において、ウェアラブル端末10及び判定装置20の各構成を説明する。その後、コミュニケーションシステム1の動作を説明する。
【0011】
<ウェアラブル端末10の構成>
ウェアラブル端末10は、ユーザに装着される。例えば、1人のユーザは、1つのウェアラブル端末10を装着する。よって、複数のウェアラブル端末10は、複数のユーザに装着される。なお、
図1では、3台のウェアラブル端末10が示されているが、これに限らず、ウェアラブル端末10は、4台以上でもよい。
【0012】
ウェアラブル端末10は、例えば、バッジである。なお、ウェアラブル端末10は、ユーザに装着されるものであれば、バッジに限らず、ヘッドセット、イヤホン、メガネ、ネックレス、ペンダント等でもよい。ウェアラブル端末10は、センサ11を備える。
【0013】
センサ11は、ウェアラブル端末10のユーザの物理情報を検知する。例えば、センサ11は、ユーザの発声を検知するマイクを備え、ウェアラブル端末10のユーザの発話、すなわち音声を検知する。また、センサ11は、ユーザの動きを検知する加速度センサを備え、ウェアラブル端末10のユーザの加速度を検知する。
【0014】
各ウェアラブル端末10は、図示しない送受信器を有している。各ウェアラブル端末10は、無線または有線の通信回線により、判定装置20に接続されている。例えば、各ウェアラブル端末10は、Bluetooth(登録商標)等の近距離無線通信により、判定装置20と通信可能に接続されてもよい。各ウェアラブル端末10は、インターネット等のネットワークを介して、判定装置20に接続されてもよい。各ウェアラブル端末10は、通信回線を介して、判定装置20に検知した情報を送信する。また、各ウェアラブル端末10は、通信回線を介して、判定装置20から、制御信号等の情報を受信する。
【0015】
また、各ウェアラブル端末10は、時刻を同期させてもよい。例えば、各ウェアラブル端末10は、インターネットに接続した判定装置20から、ネットワークタイムプロトコル(Network Time Protocol、NTP)の時刻を受信して、時刻を同期させてもよい。
【0016】
各ウェアラブル端末10は、無線または有線の通信回線により、相互に接続されてもよい。各ウェアラブル端末10は、Bluetooth(登録商標)等の近距離無線通信により、相互に通信可能に接続されてもよいし、インターネット等のネットワークを介して、相互に接続されてもよい。各ウェアラブル端末10は、ウェアラブル端末10同士で相互に各種の情報を送受信してもよい。判定装置20は、各ウェアラブル端末10間の近距離無線通信により、各ウェアラブル端末10間の距離を取得してもよい。
【0017】
<判定装置20の構成>
判定装置20は、無線または有線の通信回線により各ウェアラブル端末10に接続されている。判定装置20は、例えば、PC(Personal Computer)、サーバ(Server)、スマートフォン等の情報処理装置である。判定装置20は、インターネット経由で各ウェアラブル端末10が取得した情報を収集できるように、クラウド上に設けられてもよい。
【0018】
判定装置20は、複数のウェアラブル端末10を用いて取得した情報に基づき、ウェアラブル端末10のユーザ間の興味・関心の類似度を推定する。判定装置20は、記憶部21、発話判定部22、興味動作判定部23及び興味関心判定部24を備える。
【0019】
記憶部21は、例えばウェアラブル端末10のセンサ11が検知した情報を記憶する。記憶部21は、センサ11が検知した発話の音声データ、及び、センサ11が検知した加速度データ等を記憶する。
【0020】
発話判定部22は、発話の発話者及び発話区間を判定する。発話者を判定する方法は、以下に示すいくつかの例が挙げられる。例えば、発話判定部22は、センサ11により検知された音圧の大きさが閾値を超えているかどうかで発話者を判定してもよい。また、例えば、発話判定部22は、まず、近距離無線通信等を用いて取得したウェアラブル端末10間の距離をもとに、距離が近い複数のユーザで仮想的にグループを形成する。その上で、その仮想的なグループの中で音圧が一番大きく、さらに、他のユーザの音圧よりも一定以上の差をもっている一人を発話者と判定してもよい。
【0021】
さらに、発話者の判定精度を向上させる方法として、発話判定部22は、発話者かどうか判定する対象の対象ウェアラブル端末10のセンサ11が取得した音声データに発話区間がある場合には、対象ウェアラブル端末10を装着したユーザを発話者と判定する。
【0022】
具体的には、発話判定部22は、対象ウェアラブル端末10のセンサ11が取得した音声データにおいて、音圧が定常ノイズの閾値よりも小さい区間を、定常ノイズの影響を反映した第1非発話区間と判定する。定常ノイズは、周囲の環境から由来する音であって、エアコンの稼働音や周囲のざわつき等、一定の範囲内で音圧が継続的に発生しているものである。
【0023】
発話判定部22は、対象ウェアラブル端末10のセンサ11が取得した音声データにおいて、音圧が、定常ノイズの閾値以上であり、対象ウェアラブル端末10から所定距離内に位置する比較ウェアラブル端末10のセンサ11が取得した音声データの音圧と類似する場合には、突発的な非定常ノイズの影響を反映した第2非発話期間と判定する。突発的な非定常ノイズは、ウェアラブル端末10を装着したユーザの発声以外に由来する音であって、周囲の人の突発的な大声や、大きな物音等、突発的に発声するものである。
【0024】
発話判定部22は、対象ウェアラブル端末10のセンサ11が取得した音声データにおいて、音圧が、定常ノイズの閾値以上であり、比較ウェアラブル端末10の音圧と類似せず、比較ウェアラブル端末10までの距離に応じて減少すべき閾値よりも小さい場合には、他者の発話が混入した第3非発話区間と判定する。
【0025】
そして、発話判定部22は、対象ウェアラブル端末10のセンサ11が取得した音声データにおいて、第1~第3非発話区間以外の区間を、対象ウェアラブル端末10を装着したユーザが発話した発話区間と判定する。このようにして、発話判定部22は、対象ウェアラブル端末10のユーザが発話者かどうか判定する。なお、発話者を判定する方法は、上記の方法に限らない。また、上述した発話者を判定する方法をいくつか組み合わせてもよい。
【0026】
興味動作判定部23は、センサ11が取得したウェアラブル端末10のユーザの動きのデータから興味関心を表す特徴的動作を判定する。具体的には、興味動作判定部23は、センサ11が検知した加速度からウェアラブル端末10を装着したユーザの「頷き」を判定する。なお、興味動作は、頷きに限らず、拍手等でもよい。
【0027】
興味動作判定部23は、以下のような方法で、「頷き」を判定する。例えば、興味動作判定部23は、センサ11が取得した加速度のXYZの3軸の時系列データのうち、鉛直方向の値を所定の時間区間ごとに抽出する。そして、その時間区間の平均値と標準偏差を算出する。算出した標準偏差が所定の値よりも小さい場合に、その時間区間で頷きが発生したと判定する。ただし、この場合には、歩行や姿勢変更といった大きな動作を伴わないことが必要条件である。また、興味動作判定部23は、算出した平均値から、所定の偏差よりも外れている点が存在する場合に、その時間区間で頷きが発生したと判定してもよい。ただし、単発的な鉛直方向の動作が出ることが必要条件である。
【0028】
また、「頷き」を検出する別の方法として、興味動作判定部23は、センサ11が取得した加速度のXYZの3軸の時系列データを、所定の時間区間ごとに抽出する。その時間区間の値を深層学習の畳み込みニューラルネットワーク(Convolution Neural Network、CNN)にかけ、出力値が所定の値以上であれば、その区間で頷きが発生したと判定してもよい。
【0029】
興味関心判定部24は、発話判定部22及び興味動作判定部23が判定した情報に基づいて、発話者に対する非発話者間における興味関心の類似度を推定する。具体的には、発話判定部22が判定した発話者の発話区間内で、非発話者の頷き密度の時間的推移を算出する。ここで、頷き密度は、例えば所定時間におけるウェアラブル端末10のユーザの頷き回数である。そして、興味関心判定部24は、非発話者間で頷き密度の時間的推移の相関を算出する。したがって、当該相関の大きさに基づいて、非発話者における発話者に対する興味関心の類似度が推定できる。
【0030】
<ハードウェア構成>
ウェアラブル端末10又は判定装置20は、例えば、算出処理、判定処理、制御処理等を行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム、制御プログラム等が記憶されたROM(Read Only Memory)、各種のデータなどを記憶するRAM(Random Access Memory)、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェアで構成されてもよい。CPU、ROM、RAM及びインターフェイス部は、データバスなどを介して相互に接続されている。
【0031】
<判定装置20の動作>
続いて、第1の実施形態に係るコミュニケーションシステム1の動作を説明する。ここで、コミュニケーションシステム1の判定装置20の動作を中心に説明する。
図2は、第1の実施形態に係る判定装置20の動作を示すフローチャートである。
【0032】
少なくとも3人以上のユーザが会話をする状況を想定する。1人のユーザは、1つのウェアラブル端末10を用いる。よって、複数のウェアラブル端末10は、複数のユーザに用いられる。ウェアラブル端末10のユーザは、例えばグループワークなどの参加者である。
【0033】
判定装置20の記憶部21は、ウェアラブル端末10のセンサ11が検知した情報を記憶している。検知した情報とは、ウェアラブル端末10のユーザが発話を検知した音声データ、及び、ウェアラブル端末10のユーザの動きを検知した加速度データ等である。
【0034】
まず、
図2に示すように、ステップS101において、判定装置20の発話判定部22は、ウェアラブル端末10が取得した音声データに基づいて、ウェアラブル端末10のユーザの中から発話者を判定し、さらに発話者の発話区間を判定する。発話区間は、発話者が発話している時間に対応する。ここで、発話判定部22は、記憶部21からウェアラブル端末10を用いる各ユーザの音声データを取得する。
【0035】
次に、ステップS102において、興味動作判定部23は、ウェアラブル端末10が取得した加速度データに基づいて、ウェアラブル端末10のユーザの頷きを判定する。ここで、発話判定部22は、記憶部21からウェアラブル端末10を用いる各ユーザの加速度データを取得する。
【0036】
次に、興味関心判定部24は、発話判定部22及び興味動作判定部23が判定した情報に基づいて、非発話者における発話者に対する興味関心の類似度を推定する。まず、ステップS103において、興味関心判定部24は、発話判定部22が判定した発話者の発話区間内で、非発話者の頷き密度の時間的推移を算出する。ここで、頷き密度は、例えば所定時間におけるウェアラブル端末10のユーザの頷き回数である。次に、ステップS104において、興味関心判定部24は、非発話者間で頷き密度の時間的推移の相関を算出する。したがって、興味関心判定部24は、当該相関の大きさに基づいて、非発話者における発話者に対する興味関心の類似度が推定できる。
【0037】
続いて、
図2及び
図3を用いて、ステップS103~ステップS104に示した発話者に対する非発話者間における興味関心の類似度を推定する方法の具体例を説明する。
図3は、第1の実施形態に係る判定装置20における、発話者に対する非発話者間における興味関心の類似度を推定する方法の具体例を示す図である。
【0038】
図3に示す一例において、ユーザA~ユーザDは、それぞれウェアラブル端末10を用いる。ユーザAは発話者である。一方、ユーザB、ユーザC又はユーザDは、非発話者である。ユーザAは、発話開始点I~発話終了点IIまで発話し、発話開始点I~発話終了点IIまでの時間は発話区間である。
【0039】
まず、ステップS103において、興味関心判定部24は、発話者(ユーザA)の発話区間内で、非発話者(ユーザB~ユーザD)ごとに頷き密度の時間的推移を算出する。ここで、頷き密度は、例えば所定時間におけるウェアラブル端末10のユーザの頷き回数である。
【0040】
次に、ステップS104において、興味関心判定部24は、非発話者間で頷き密度の時間的推移の相関を算出する。したがって、興味関心判定部24は、当該相関の大きさに基づいて、非発話者における発話者に対する興味関心の類似度を推定できる。例えば、興味関心判定部24は、ユーザBとユーザCでは、時間的推移の相関が高いと判定する。そうすると、興味関心判定部24は、ユーザAに対するユーザBとユーザCとの興味関心が似ていると推定する。一方、興味関心判定部24は、ユーザBとユーザDでは、時間的推移の相関が低いと判定する。そうすると、興味関心判定部24は、ユーザAに対するユーザBとユーザDとの興味関心が異なると推定する。
【0041】
第1の実施形態に係るコミュニケーションシステム1は、情報量が多く情報処理コストの高い画像情報を用いず、情報処理コストの低い音声データや加速度データなどの情報を用いて非発話者における発話者に対する興味関心の類似度を推定する。興味関心の類似度から、興味関心の類似度から非発話者の発話者を中心としたコミュニケーションへの参加度合いを検出できる。例えば、発話者に対して同様の興味関心を持つ非発話者が多い程、非発話者が発話者を中心としたコミュニケーションに参加していることが推定できる。したがって、情報処理コストを低減させつつも、検出精度の低下を抑制して、ユーザの周囲とのコミュニケーション参加度合いを検出できるコミュニケーションシステムを提供できる。
【0042】
また、特許文献1では、ユーザの周囲とのコミュニケーション参加度合いが画像情報を用いて検出される場合、ユーザの動作はカメラ等で撮像される。そうすると、さらに、以下の(1)~(3)の課題も生じる。(1)撮影可能な範囲外や顔の角度が後ろ向きなどになった場合にコミュニケーション参加度合いが判定できない。(2)ユーザは、撮影されることに対する心理的抵抗感を持つ。(3)カメラの敷設コストが必要となる。第1の実施形態に係るコミュニケーションシステム1は、画像情報を用いずに非発話者における発話者に対する興味関心の類似度を推定する。したがって、上記(1)~(3)の課題を解決するとともに、検出精度の低下を抑制して、ユーザの周囲とのコミュニケーション参加度合いを検出できるコミュニケーションシステムを提供できる。
【0043】
また、特許文献1では、情報提供者が情報取得者に対面して説明対象物に関連する情報を提供しており、情報取得者が説明対象物に直接アクセス可能な状況において、情報取得者の興味傾向を示す情報である興味傾向情報を取得し、出力する興味傾向情報出力装置を提供する。具体的には、特許文献1の興味傾向情報出力装置は、情報取得者の動きを示すモーション情報を受け付けるモーション情報受付部と、情報取得者の発した音声に関する音声情報を受け付ける音声情報受付部と、モーション情報と音声情報とから、情報取得者の興味傾向に関する情報である興味傾向情報を生成する興味傾向情報生成部と、興味傾向情報を出力する興味傾向情報出力部とを備える。そして、特許文献1の興味傾向情報出力装置は、このような構成により、グループワークといったコミュニケーションの場において、関係性を深く知るために、興味・関心が似ている人を把握したいニーズに対応しようとしている。
【0044】
しかしながら、特許文献1の興味傾向情報出力装置は、発話者の発話内容を把握し、それに対する反応の紐づけから興味・関心を推定している。よって、発話内容や映像といった大きい情報量を扱う必要があり、手軽なシステムで簡便に興味・関心を知ることはできない。また、発話者が発話内容を取られることに対して心理的な抵抗感がある。
【0045】
これに対して、第1の実施形態に係るコミュニケーションシステム1は、発話者の発話内容を把握し、それに対する反応の紐づけから興味・関心を推定する必要がないので、情報処理コストを低減することができる。また、発話者が発話内容を取られることに対しての心理的な抵抗感を抑制することができる。
【0046】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【0047】
上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置の機能(処理)を、CPUやメモリ等を有するコンピュータにより実現してもよい。例えば、記憶装置に実施形態における方法を行うためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをCPUで実行することにより実現してもよい。
【0048】
これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random Access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【0049】
1 コミュニケーションシステム
10 ウェアラブル端末
11 センサ
20 判定装置(コミュニケーション判定装置)
21 記憶部
22 発話判定部
23 興味動作判定部
24 興味関心判定部