(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-16
(45)【発行日】2024-02-27
(54)【発明の名称】会話支援システム
(51)【国際特許分類】
G06F 3/01 20060101AFI20240219BHJP
G06F 3/16 20060101ALI20240219BHJP
G06T 7/20 20170101ALI20240219BHJP
H04R 3/00 20060101ALI20240219BHJP
H04W 88/02 20090101ALI20240219BHJP
【FI】
G06F3/01 570
G06F3/01 510
G06F3/16 540
G06F3/16 610
G06T7/20 300A
H04R3/00 310
H04W88/02 120
H04W88/02 130
(21)【出願番号】P 2020115275
(22)【出願日】2020-07-03
【審査請求日】2023-06-20
(31)【優先権主張番号】P 2020016136
(32)【優先日】2020-02-03
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002299
【氏名又は名称】清水建設株式会社
(74)【代理人】
【識別番号】100139114
【氏名又は名称】田中 貞嗣
(74)【代理人】
【識別番号】100139103
【氏名又は名称】小山 卓志
(74)【代理人】
【識別番号】100214260
【氏名又は名称】相羽 昌孝
(74)【代理人】
【氏名又は名称】片寄 武彦
(72)【発明者】
【氏名】内藤 拡也
(72)【発明者】
【氏名】山本 裕治
【審査官】▲高▼瀬 健太郎
(56)【参考文献】
【文献】特開2008-193676(JP,A)
【文献】特開2013-058872(JP,A)
【文献】特開2014-175944(JP,A)
【文献】特表2017-517780(JP,A)
【文献】特開2018-109924(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
H04W 88/02
G06T 7/20
H04R 3/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声データを無線により送受信する通信部と、装着者の発声を集音し音声データに変換し、前記通信部から送信すると共に、前記通信部から受信した音声データを可聴音として発音する音声情報制御部と、を有する会話支援端末装置と、
対象空間における会話支援端末装置を装着する装着者を撮像する撮像部と、
一の前記会話支援端末装置で集音された音声データを、他の前記会話支援端末装置で発音する際に、音声データの調整を行う音声情報調整部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の顔方向を推定する顔方向推定部と、
前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者のジェスチャーを推定するジェスチャー推定部と、を含み、
前記会話支援端末装置を装着する装着者間における会話の支援を行う会話支援システムであって、
前記位置推定部で推定された装着者の位置と、前記顔方向推定部で推定された装着者の顔方向と、前記ジェスチャー推定部で推定された装着者のジェスチャー
とに応じて、前記音声情報調整部が音声データの調整方法を変更し音声支援を行うことを特徴とする会話支援システム。
【請求項2】
前記会話支援端末装置を装着する装着者の位置を推定する位置推定部をさらに有し、
前記音声情報調整部は、前記位置推定部で推定された装着者の位置にも応じて、音声データの調整方法を変更することを特徴とする請求項1に記載の会話支援システム。
【請求項3】
前記ジェスチャー推定部と、前記音声情報調整部の各機能を実行する前記会話支援端末装置とは異なる会話支援サーバー装置を有することを特徴とする請求項1
又は請求項2に記載の会話支援システム。
【請求項4】
前記会話支援端末装置を装着する装着者の手の動きを検出する検出部をさらに有し、
前記ジェスチャー推定部が、前記検出部で検出された手の動きに基づいて、ジェスチャーを推定することを特徴とする請求項1又は請求項2に記載の会話支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、広大で、かつ環境騒音が大きい場所において、的確なコミュニケーションが取れるように、会話の支援を行う会話支援システムに関する。
【背景技術】
【0002】
建設現場、工場の製造ライン、空港の滑走路、イベント会場のような広大で、かつ環境騒音が大きい場所においては作業を行う人は、作業を進める上で、一人または複数の対象者と会話をし、コミュニケーションを取りたい場面があるが、当該対象者が遠方に離れており、対面での肉声による会話が困難であるケースが多い。
【0003】
このような場合、大声を出したり、拡声器を用いたりすることが考えられるが、大音量を出すと、それ自体が騒音となってしまい、周囲の作業効率低下などの原因となりかねないし、また、関係のない部外者などに音が届いてしまい、情報漏洩が発生してしまうようなこともあり得る。
【0004】
そこで、携帯電話やトランシーバー等などといった携帯機器を補助として用いて、会話を行うことが考えられる。しかしながら、このような携帯機器として、手に持つタイプの携帯機器を使う場合、会話のたびごとに手を使う作業を止める必要があり、作業の妨げになり問題であった。また、入力操作を要するような携帯機器の場合には、危険な現場環境で用いると安全上好ましくない、という問題もあった。以上から、携帯機器を補助として会話を行う際においては、可能な限りハンズフリーであることが望ましく、そのための会話を支援するためのシステムが種々提案されてきた。
【0005】
例えば、特許文献1(特開2016-4066号公報)には、複数のユーザーの各々に使用され、音声データを送受信して音声の入出力を行うヘッドセットと、複数のユーザーをグループ分けし、同一の会話グループに属するユーザー間で音声の入出力による会話を実現させる管理サーバーとを備えるシステムが開示されている。
【文献】特開2016-4066号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、引用文献1記載の従来技術においては、会話の内容などからグループ分けされた対象者の間での会話のみを実現させる構成であるために、発言の発信者が、メッセージを実際に伝えたい相手(受信者)に対して、伝達することが必ずしもできない、という問題があった。
【0007】
以上、(1)大声を出したり、拡声器を用いたりすることなく、通常の小さい音量での会話でも十分に聞き取りしやすいこと、(2)携帯機器の入力操作を要することなく、ハンズフリーで会話を行うことを可能とすること、(3)発言の発信者が、メッセージを実際に伝えたい相手(受信者)に対して、的確に発言を伝達すること、が本発明で実現可能とすべき課題である。
【課題を解決するための手段】
【0008】
この発明は、上記課題を解決するものであって、本発明に係る会話支援システムは、音声データを無線により送受信する通信部と、装着者の発声を集音し音声データに変換し、前記通信部から送信すると共に、前記通信部から受信した音声データを可聴音として発音する音声情報制御部と、を有する会話支援端末装置と、対象空間における会話支援端末装置を装着する装着者を撮像する撮像部と、一の前記会話支援端末装置で集音された音声データを、他の前記会話支援端末装置で発音する際に、音声データの調整を行う音声情報調整部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者の顔方向を推定する顔方向推定部と、前記撮像部で撮像された画像データに基づいて、前記会話支援端末装置を装着する装着者のジェスチャーを推定するジェスチャー推定部と、を含み、前記会話支援端末装置を装着する装着者間における会話の支援を行う会話支援システムであって、前記位置推定部で推定された装着者の位置と、前記顔方向推定部で推定された装着者の顔方向と、前記ジェスチャー推定部で推定された装着者のジェスチャーとに応じて、前記音声情報調整部が音声データの調整方法を変更し音声支援を行うことを特徴とする。
【0009】
また、本発明に係る会話支援システムは、前記会話支援端末装置を装着する装着者の位置を推定する位置推定部をさらに有し、前記音声情報調整部は、前記位置推定部で推定された装着者の位置にも応じて、音声データの調整方法を変更することを特徴とする。
【0011】
また、本発明に係る会話支援システムは、前記ジェスチャー推定部と、前記音声情報調整部の各機能を実行する前記会話支援端末装置とは異なる会話支援サーバー装置を有することを特徴とする。
【0012】
また、本発明に係る会話支援システムは、前記会話支援端末装置を装着する装着者の手の動きを検出する検出部をさらに有し、前記ジェスチャー推定部が、前記検出部で検出された手の動きに基づいて、ジェスチャーを推定することを特徴とする。
【発明の効果】
【0013】
本発明に係る会話支援システムは、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システムによれば、(1)大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる(2)携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、(3)発言の発信者が、メッセージを実際に伝えたい相手(受信者)に対して、的確に発言を伝達することが可能となる。
【0014】
また、本発明に係る会話支援システムによれば、発信者の音声が届く範囲を一定程度に制御が可能となるので、部外者への音漏れや情報漏れを抑制することができる。
【0015】
また、本発明に係る会話支援システムによれば、音声が届く範囲を流動的に変更することが可能 となり、円滑なコミュニケーションを実現することができる。
【0016】
また、本発明に係る会話支援システムによれば、情報の聴き取り精度を向上させることができるので、情報の伝達ミスを抑制することが可能となる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態に係る会話支援システム1の運用例を説明する図である。
【
図2】本発明の実施形態に係る会話支援システム1で用いる会話支援端末装置200のブロック図である。
【
図3】本発明の実施形態に係る会話支援システム1で用いる会話支援メイン装置100のブロック図である。
【
図4】本発明の実施形態に係る会話支援システム1における位置・顔方向・ジェスチャー推定処理のフローチャートを示す図である。
【
図5】ジェスチャー推定部126で推定されるジェスチャーの具体例を示す図である。
【
図6】位置・顔方向・ジェスチャーテーブルの一例を示す図である。
【
図7】本発明の実施形態に係る会話支援システム1における音声調整テーブル更新処理のフローチャートを示す図である。
【
図9】(a)装着者A(例)の顔方向を基準とした座標、(b)音量調整係数マップの座標への重ね合わせ
【
図10】ジェスチャー組み合わせ-音量調整係数マップ対応テーブルの一例を示す図である。
【
図12】本発明の実施形態に係る会話支援システム1における音声支援処理のフローチャートを示す図である。
【
図13】本発明の他の実施形態に係る会話支援システム1で用いる会話支援端末装置200のブロック図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態を図面を参照しつつ説明する。
図1は本発明の実施形態に係る会話支援システム1の運用例を説明する図である。
【0019】
本発明に係る会話支援システム1は、例えば建設現場など広大で、かつ環境騒音が大きい場所(以下、「対象空間」という)で用いられることが想定されている。本発明に係る会話支援システム1は、例えば、このような騒音が大きい対象空間において、ある作業者が他の作業者に対して、発言・発声・メッセージを伝達することを支援する目的で構成されている。このような目的のために、対象空間で作業に従事する者には、それぞれに対して会話支援端末装置200が配布されている。
【0020】
本実施形態に係る会話支援システム1は、対象空間に付随して設置される会話支援メイン装置100と、対象空間で作業に従事する者が携行する、前記の会話支援端末装置200と、から構成されている。本発明に係る会話支援システム1では、対象空間において、複数の作業者のそれぞれが携行することが想定されているために、会話支援端末装置200は複数準備されている。
【0021】
例えば、
図1で示す対象空間において作業を行う者A乃至Dは、いずれも会話支援端末装置200を身体に装着していることが前提となる。本実施形態に係る会話支援システム1において、会話支援端末装置200は、所謂ヘッドセットのように身体に装着することできる装置でき、基本的にハンズフリーで機能するように構成されているものである。
【0022】
ここで、以下、明細書においては、自らの発言・発声・メッセージを伝える者を「発信者」或いは「発信側」と称し、発信者による発言・発声・メッセージを受け取る者を「受信者」或いは「受信側」と称する。
【0023】
次に、本実施形態に係る会話支援システム1において用いる会話支援端末装置200についてより詳しく説明する。
図2は本発明の実施形態に係る会話支援システム1で用いる会話支援端末装置200のブロック図である。また、
図1には、会話支援端末装置200の装着者Bの拡大図を示している。
【0024】
会話支援端末装置200は、装着者の耳に配され、装着者が聞き取れる可聴音を発音するスピーカーなどの発音部250を有している。また、会話支援端末装置200は、装着者の口元に配され、装着者の発言・発声・メッセージを集音するマイクロフォンなどの集音部240を有している。
【0025】
会話支援端末装置200には、装着者が操作することで装置に対して入力を行う入力ボタン部260が設けられている。このような入力ボタン部260には会話支援端末装置200をオンオフする電源ボタンを含めることができる。また、本発明に係る会話支援システム1では、会話支援端末装置200を装着する装着者のジェスチャーを自動的に推定するように構成されているが、このような推定が不調である場合のバックアップ用途に入力ボタン部260を用いることができる。
【0026】
会話支援端末装置200における制御部210は、例えば、CPUとCPU上で動作するプログラムを保持するROMとCPUのワークエリアであるRAMなどからなる汎用のマイクロコンピューターなどの情報処理装置を用いることができる。このような制御部210は、
図2で接続される各構成とデータ通信を行い、各構成から所定のデータを受信して演算を行ったり、所定のデータを指令などとして出力したりすることができるようになっている。
【0027】
特に、制御部210は、会話支援端末装置200内で扱う音声データを調整したり加工したりする。集音部240、発音部250及び制御部210を含む音声データを扱う構成を、音声情報制御部205と称する。
【0028】
会話支援端末装置200において、通信部230は音声データを無線により送受信するものであり、制御部210から転送されるデータを外部の機器に送信したり、或いは、外部の機器から受信したデータを制御部210に転送したりする。
【0029】
集音部240で集音された音声は集音部240で音声信号に変換され、ノイズ除去部243に入力されノイズが除去される。ノイズ除去部243から出力された音声信号は、さらにA/D変換部245に入力され、デジタル音声データに変換されて、制御部210に入力される。
【0030】
また、制御部210で調整・加工された音声データは、D/A変換部255に入力され、音声信号に増幅される。この音声信号は、続いて増幅部252に入力され、所定の増幅度で増幅された後に、発音部250へと出力される。発音部250は、音声信号を、装着者が聞き取り可能な可聴音として発音する。
【0031】
本実施形態に係る会話支援システム1においては、会話支援端末装置200には識別用マーカー280を含めることができる。識別用マーカー280は、例えば、
図1に示すように会話支援端末装置200の装着者のヘルメットに添貼することができる。識別用マーカー280は、バーコードやQRコード(登録商標)などから構成することでできる。
【0032】
識別用マーカー280は、唯一無二のID情報が含まれており、後述する撮像部で取り込まれ処理されることで、ID情報をシステム側で認識することができる。個々の識別用マーカー280のID情報は、個々の会話支援端末装置200に対応付けられており、ヘルメットの識別用マーカー280を画像的に取り込むことで、それぞれの会話支援端末装置200の装着者をシステム側が認識し、例えば装着者の位置情報を把握することができる。
【0033】
なお、本実施形態に係る会話支援システム1では、このような識別用マーカー280を用いてシステム側が、会話支援端末装置200の装着者の位置情報を把握するように構成されているが、装着者の位置情報を把握するために他の方法を用いるようにしてもよい。例えば、それぞれの会話支援端末装置200には固有のビーコン信号を発信する発信器を設けておき、これをシステム側が受信して装着者の位置情報を把握するようにしてもよい。
【0034】
また、本実施形態に係る会話支援システム1では、識別用マーカー280を、会話支援端末装置200の装着者のヘルメットに添貼するようにしているが、識別用マーカー280を配する位置がこれに限定されるものではない。
【0035】
次に、対象空間において上記のような会話支援端末装置200を装着して作業に従事する複数の者をモニタリングすると共に、必要に応じて会話支援のための処理を実行する会話支援メイン装置100の構成について説明する。
図3は本発明の実施形態に係る会話支援システム1で用いる会話支援メイン装置100のブロック図である。
【0036】
会話支援メイン装置100は、対象空間の画像を撮像して(動)画像データを取得する第1撮像部101及び第2撮像部102と、第1撮像部101及び第2撮像部102で取得された画像データを画像解析したり、この画像解析に基づいて、会話支援端末装置200間の音声データのやりとりの中で音声データの調整を行ったりする会話支援サーバー装置105と、から構成されている。
【0037】
対象空間の画像を撮像する撮像部は本実施形態では、第1撮像部101及び第2撮像部102の2つであるが、設ける撮像部の数は任意である。要は、対象空間において、会話支援端末装置200を装着する全ての作業者の動作・ジェスチャーを画像解析可能とする画像データを取得することができればよい。
【0038】
会話支援サーバー装置105としては、演算機能、データ蓄積機能、入出力機能、通信機能などを備える汎用のコンピューターを用いることができる。このような会話支援サーバー装置105には、本実施形態に係る会話支援システム1を当該コンピューターに実行させるプログラムがインストールされており、
図3のブロック図に示す各機能を実現する。
【0039】
画像解析部120には、第1撮像部101及び第2撮像部102で取得された画像データが入力され、会話支援端末装置200の装着者の動きなどが画像解析される。このような画像解析には従来周知の技術を適宜用いることができる。また、画像解析部120では、会話支援端末装置200の装着者の識別用マーカー280が認識され、識別用マーカー280が示すID情報に基づいて位置推定部122において当該装着者の位置が推定される。
【0040】
また、画像解析部120では、会話支援端末装置200の装着者の顔の部分が認識され、顔方向推定部124では、当該装着者の顔の向き(顔方向)が推定される。また、画像解析部120では、会話支援端末装置200の装着者の体の動き(ジェスチャー)が認識され、ジェスチャー推定部126では、当該装着者のジェスチャーが推定される。
【0041】
位置推定部122で推定される装着者の位置に係る情報、顔方向推定部124で推定される装着者の顔方向に係る情報、及び、ジェスチャー推定部126で推定される装着者のジェスチャーに係る情報は、音声情報調整部110に入力され、音声情報調整部110において各音声データの調整・加工処理のために利用される。
【0042】
会話支援サーバー装置105における通信部130は、それぞれの会話支援端末装置200の通信部230と無線通信を実行することで、各会話支援端末装置200から音声データを受信すると共に、対象の会話支援端末装置200に対して音声データを送信する。音声情報調整部110は、受信した音声データを、必要に応じて調整・加工処理した上で、対象の会話支援端末装置200に対して送信する。
【0043】
ここで、音声情報調整部110は、音声データの調整方法を、少なくとも位置推定部122で推定される装着者の位置情報、顔方向推定部124で推定される装着者の顔方向情報、ジェスチャー推定部126で推定される装着者のジェスチャー情報のいずれかの情報に応じて、変更することで、受信者が、送信者の発言・発声・メッセージを聞き取りやすくするようにしている。
【0044】
次に、以上のように構成される本発明に係る会話支援システム1における処理例について説明していく。
図4は本発明の実施形態に係る会話支援システム1における位置・顔方向・ジェスチャー推定処理のフローチャートを示す図である。
【0045】
図4に示す位置・顔方向・ジェスチャー推定処理は、会話支援メイン装置100で主として実行される。ステップS100で、位置・顔方向・ジェスチャー推定処理が開始されると、続いて、ステップS101に進み、第1撮像部101、第2撮像部102で取得した画像データの画像処理を画像解析部120で実行する。
【0046】
続いて、ステップS102では、特定されている全ての会話支援端末装置200の装着者について、ステップS103~ステップS106の各ステップを実行する。ステップS103~ステップS106の各ステップが、全ての会話支援端末装置200の装着者について完了すると、ステップS107からステップS101に戻り、ループする。
【0047】
ステップS103では、位置推定部122において、画像データにおける識別用マーカー280の位置から装着者の位置を推定する。
【0048】
次のステップS104では、顔方向推定部124において、画像解析に基づく装着者の顔画像から顔方向を推定する。
【0049】
次のステップS105では、ジェスチャー推定部126において、画像解析に基づく装着者の身体の画像からジェスチャーを推定する。なお、入力ボタン部260でのジェスチャー指定の入力操作があれば、入力ボタン部260からの入力を、ジェスチャー推定部126の推定より、優先させるようにしてもよい。
【0050】
ここで、ジェスチャー推定部126において、会話支援端末装置200の装着者のどのようなジェスチャーを推定するのかを例に基づいて説明する。
図5はジェスチャー推定部126で推定されるジェスチャーの具体例を示す図である。
図5(1)乃至(6)は、ジェスチャー推定部126が推定してジェスチャーの種別として分類した例である。本実施形態では、これら以外の装着者のジェスチャーは、特段分類されず、装着者が特にジェスチャーをしていないものと判断する。
【0051】
なお、言うまでもなく、ジェスチャー推定部126におけるジェスチャーの分類は、
図5(1)乃至(6)に示すまさにその通りのジェスチャーのみならず、当該ジェスチャーに近いジェスチャーと判断されるものも含まれる。また、本発明に係る会話支援システム1は、
図5に示す以外のその他のジェスチャーを利用するように構成することもできる。
【0052】
図5(1)は「片手を口元に添える」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、発信者が受信者に向けて音量を上げて、発言・発声・メッセージを発信しようとしているものと会話支援システム1は認識する。
【0053】
また、
図5(2)は「両手を口元に添える」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、発信者が受信者に向けて
図5(1)の場合より音量を上げて、発言・発声・メッセージを発信しようとしているものと会話支援システム1は認識する。
【0054】
また、
図5(3)は「片手を耳に添える」ジェスチャー分類であり、受信者側においてこのジェスチャーが把握されると、受信者が発信者の発言・発声・メッセージを、大きな音量で受信しようとしているものと会話支援システム1は認識する。
【0055】
また、
図5(4)は「両手を耳に添える」ジェスチャー分類であり、受信者側においてこのジェスチャーが把握されると、受信者が発信者の発言・発声・メッセージを、
図5(3)の場合より大きな音量で受信しようとしているものと会話支援システム1は認識する。
【0056】
また、
図5(5)は「所定方向を指さす」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、指を指した方向に存在する受信者に対して発言・発声・メッセージを、発信しようとしているものと会話支援システム1は認識する。
【0057】
また、
図5(6)は「両手で所定幅を示す」ジェスチャー分類であり、発信者側においてこのジェスチャーが把握されると、両手で指した方向の範囲内に存在する複数の受信者に対して発言・発声・メッセージを、発信しようとしているものと会話支援システム1は認識する。
【0058】
以上のようなステップS103~S105で、会話支援端末装置200の装着者の位置情報、顔方向情報、ジェスチャー情報がそれぞれ推定されると、次のステップS106においては、位置・顔方向・ジェスチャーテーブルの更新を実行する。
【0059】
図6は、ステップS106で扱う位置・顔方向・ジェスチャーテーブルの一例を示す図である。位置・顔方向・ジェスチャーテーブルには、会話支援端末装置200の装着者、推定された装着者の位置、推定された顔方向、推定されたジェスチャー分類のコード番号(0~6)が対応付けて記憶されている。そして、このようなテーブルは、データ記憶部150に記憶されており、音声情報調整部110によって、音声データの調整方法が変更される際に参照される。
【0060】
次に、本発明に係る会話支援システム1において、音声情報調整部140が、音声データを調整・加工することで音声支援を行う際に参照する音声調整テーブルについて説明する。このような音声調整テーブルは、対象空間に存在する会話支援端末装置200の装着者の状況に応じて適宜更新される。この音声調整テーブルの更新処理について説明していく。
図7は本発明の実施形態に係る会話支援システム1における音声調整テーブル更新処理のフローチャートを示す図である。
【0061】
図7において、ステップS200で、音声調整テーブル更新処理が開始されると、続いて、ステップS201に進み、位置・顔方向・ジェスチャーテーブルを、データ記憶部150から読み込む。
【0062】
続いて、ステップS202では、特定されている全ての会話支援端末装置200の装着者の組み合わせについて、ステップS203~ステップS207の各ステップを実行する。ステップS203~ステップS207の各ステップが、全ての会話支援端末装置200の装着者について完了すると、ステップS208からステップS201に戻り、ループする。
【0063】
以下、会話支援端末装置200の装着者AとBの組み合わせ(
図1参照)を例に、フローチャートを説明する。また、
図8は対象空間を上からみた平面模式図である。平面模式図では、当該対象空間に装着者A乃至Dが会話支援システム1で認識されている様子を示している。
【0064】
ステップS203においては、位置・顔方向・ジェスチャーテーブルに基づいて、装着者A(例)の顔方向を基準とした座標を得る。
図8の平面模式図における装着者A(例)の顔の正面向きをY座標として、そのY座標を時計回りに90°回転したものをX座標とする。
図9(a)はステップS203で取得される座標のイメージを示している。
【0065】
なお、本実施形態では、平面模式図において
図8や
図9に示すように直交座標形式を採用しているが、極座標形式を採用するようにしてもよい。
【0066】
続いてステップS204では、位置・顔方向・ジェスチャーテーブルに基づいて、当該座標上での装着者B(例)の位置を算出して、装着者Bを当該座標にプロットする。本例では装着者Bの位置は、
図8、
図9の点線の矢印の矢先の位置として示される箇所である。
【0067】
次のステップS205では、ジェスチャーの組み合わせ-マップ対応テーブルから、装着者A、B(例)のジェスチャーの組み合わせで音量調整係数マップを選択して、当該座標に重ね合わせる。10はジェスチャー組み合わせ-音量調整係数マップ対応テーブルの一例である。
【0068】
ジェスチャー組み合わせ-音量調整係数マップ対応テーブルは、
図10に示すように、「送信側ジェスチャー(コード)」、「受信側ジェスチャー(コード)」、「音量調整係数マップ」とを対応付けたテーブルで、データ記憶部150に予め記憶されているものである。音量調整係数マップは、XY座標上の区画毎に係数が記憶されているものである。
図10においては音量調整係数マップM
50が例示されている。
【0069】
図9(b)は、ステップS205が実行され、装着者A(例)の顔の向きを基準とした座標に対して、音量調整係数マップ(M
50)を重ね合わせたものである。
【0070】
続くステップS206では、装着者B(例)の位置に基づいて、重ね合わせられた音量調整係数マップ(M
50)より音声調整係数を取得する。
図9に示すれいでは、このステップで、係数として「0.8」が取得される。
【0071】
続く、ステップS207において、ステップS206で取得した音声調整係数で音量調整テーブルの行(送信側)列(受信側)を更新する。
図11は音量調整テーブルの一例を示す図である。音量調整テーブルは、装着者X(X=A,B,C,D・・・)が送信側で、装着者Y(Y=A,B,C,D・・・)が受信側であるときに、音声情報調整部110で用いる調整係数が記述されているこのような音量調整テーブルは、データ記憶部150に記憶しておく。
【0072】
音量調整テーブルに記述されている調整係数は、例えば、送信者の音声データの音量レベルにこれを乗じて、受信者に送信するようにして用いる。(例えば、
図11の場合、送信者Aの音声データの音量レベルに「0.8」が乗ぜられ、受信者Bに送信される。)このような受信者が受信する音声データの音量レベルには、調整係数が乗じられることで、受信者は適切な音量で、送信者の発言・発声を聞くことができ、的確なコミュニケーションを取ることが可能となる。なお、本例では、調整係数を、音声データの音量レベルの調整のために用いているが、音声データの音量レベル以外の項目(例えば、音質など)に用いるようにしてもよい。
【0073】
次に、以上のような更新された各種テーブルに基づく、本発明に係る会話支援システム1における音声支援処理について説明する。
図12は本発明の実施形態に係る会話支援システム1における音声支援処理のフローチャートを示す図である。このような音声支援処理のフローチャートは、会話支援メイン装置100の会話支援サーバー装置105にて実行される。
【0074】
図12において、ステップS300で、音声支援処理が開始されると、続いて、ステップS301に進む。
【0075】
続くステップS301では、会話支援サーバー装置105側では、通信部130で取得される各会話支援端末装置200からの音声データに基づいて、送信者を特定する。
【0076】
次のステップS302では、
図6に示す位置・顔方向・ジェスチャーテーブルから、当該送信者が発言・発声・メッセージを発信しようとしている対象である受信者を特定する。このとき、ジェスチャー分類が「0」であったとしても、「位置」、「顔方向」に関するデータから、送信者の特定を行う。
【0077】
続く、ステップS303では、
図11に示す音量調整テーブルから、当該送信者、当該受信者に対応する音声調整係数を取得する。
【0078】
次のステップS304では、当該送信者から受信した音声データを、取得した音声調整係数で調整を行い、当該受信者に送信する。
【0079】
上記のステップS304で送信された調整済みの音声データは、受信側の会話支援端末装置200の発音部250で再生・発音され、当該会話支援端末装置200の装着者が聞き取ることが可能となる。
【0080】
以上のように、本発明に係る会話支援システム1は、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システム1によれば、(1)大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる(2)携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、(3)発言の発信者が、メッセージを実際に伝えたい相手(受信者)に対して、的確に発言を伝達することが可能となる。
【0081】
また、本発明に係る会話支援システム1によれば、発信者の音声が届く範囲を一定程度に制御が可能となるので、部外者への音漏れや情報漏れを抑制することができる。
【0082】
また、本発明に係る会話支援システム1によれば、音声が届く範囲を流動的に変更することが可能 となり、円滑なコミュニケーションを実現することができる。
【0083】
また、本発明に係る会話支援システム1によれば、情報の聴き取り精度を向上させることができるので、情報の伝達ミスを抑制することが可能となる。
【0084】
次に、本発明の他の実施形態について説明する。他の実施形態では、先の実施形態で用いられた会話支援メイン装置100を省略し、会話支援メイン装置100の機能を、個々の会話支援端末装置200に移管するように構成したものである。以下、そのために用いる機能が拡張された会話支援端末装置200の構成について説明する。
【0085】
図13は本発明の他の実施形態に係る会話支援システム1で用いる会話支援端末装置200のブロック図である。なお、先の実施形態の会話支援端末装置200と同様の参照番号を有する構成は、他の実施形態においても同様のものであるので、説明を省略する。
【0086】
先の会話支援システム1においては、会話支援メイン装置100側で画像データを取得することで、会話支援端末装置200装着者の位置・顔方向・ジェスチャーに係る情報を取得するようにしていた。
【0087】
一方、他の実施形態で用いる会話支援端末装置200においては、位置・顔方向・ジェスチャーに係る情報を取得するために、会話支援端末装置200にビーコン送受信部305、姿勢検出部310、ジェスチャー検出部320が設けられている。
【0088】
ビーコン送受信部305は、それぞれ固有のビーコン信号を送信すると共に、他の装置のビーコン信号を受信する構成である。このビーコン送受信部305は、Bluetooth、UWB等の技術により構成することができる。ビーコン送受信部305は、他の装置のビーコン信号を受信し、信号の到来時間、時間差、到来角を得ることで、会話支援端末装置200間の相対位置を検出する。
【0089】
姿勢検出部310は、会話支援端末装置200装着者の姿勢を検出する加速度センサ、方位センサから構成することができる。これにより、会話支援端末装置200装着者の顔方向を検出することができる。顔方向を検出するために、ビーコン送受信部305で得られる情報を用いるようにしてもよい。
【0090】
ジェスチャー検出部320は、ヘッドセット様の会話支援端末装置200のフレーム部(不図示)に設けられ、装着者の手の動きを検出し得る赤外線センサにより構成することができる。ジェスチャー検出部320は、このような赤外線センサにより会話支援端末装置200装着者のジェスチャーが推定される。
【0091】
位置・顔方向・ジェスチャー推定部330は、ビーコン送受信部305、姿勢検出部310、ジェスチャー検出部320から得られるデータに基づいて、先の実施形態同様、位置・顔方向・ジェスチャーに係る情報を取得し、位置・顔方向・ジェスチャーテーブルを更新する。
【0092】
上記の更新された位置・顔方向・ジェスチャーテーブルは、データ記憶部350に記憶される。また、データ記憶部350には、先の実施形態同様、ジェスチャー組み合わせ-音量調整係数マップ対応テーブルが予め準備され記憶されている。また、データ記憶部350においては、音量調整テーブルが先の実施形態と同様のアルゴリズムによって更新される。
【0093】
通信部130は他の装置からの音声データを取得し、音声情報調整部340では、
図12に示したフローチャートに基づいて、当該音声データに調整・加工を施した上で、発音部250でこれを発音させて、装着者に対して聞き取りやすい音声を提供する。
【0094】
以上のような、他の実施形態に係る会話支援システム1によっても、先の実施形態と同様の効果を享受することが可能となると共に、対象空間側に会話支援メイン装置100を設ける必要がなくなるので、システム構成を簡素化することができる。
【0095】
他の実施形態に係る会話支援システム1は、ヘッドセット様の会話支援端末装置200に多くのデータ処理を負担させる構成であったために、会話支援端末装置200の装置構成の容量が大きくなってしまう。一方、スマートフォンなどのデバイスが業務用に支給される事例が多い。そこで、会話支援端末装置200の機能・構成の一部を、スマートフォンなどのデバイスに担わせるようにすることもできる。
【0096】
以上、本発明に係る会話支援システムは、ジェスチャー推定部で推定された会話支援端末装置装着者のジェスチャーに応じて、音声情報調整部が音声データの調整方法を変更し音声支援を行うので、本発明に係る会話支援システムによれば、(1)大声を出したり、拡声器を用いたりすることなく、通常の小さい音量で十分に聞き取りしやすい会話が可能となり、環境騒音を抑制したり、声量の個人差の補正ができる(2)携帯機器の入力操作を要することなく、ツール等を意識せずにハンズフリーで会話を行うことを可能なり、(3)発言の発信者が、メッセージを実際に伝えたい相手(受信者)に対して、的確に発言を伝達することが可能となる。
【0097】
また、本発明に係る会話支援システムによれば、発信者の音声が届く範囲を一定程度に制御が可能となるので、部外者への音漏れや情報漏れを抑制することができる。
【0098】
また、本発明に係る会話支援システムによれば、音声が届く範囲を流動的に変更することが可能 となり、円滑なコミュニケーションを実現することができる。
【0099】
また、本発明に係る会話支援システムによれば、情報の聴き取り精度を向上させることができるので、情報の伝達ミスを抑制することが可能となる。
【符号の説明】
【0100】
1・・・会話支援システム
100・・・会話支援メイン装置
101・・・第1撮像部
102・・・第2撮像部
105・・・会話支援サーバー装置
110・・・音声情報調整部
120・・・画像解析部
122・・・位置推定部
124・・・顔方向推定部
126・・・ジェスチャー推定部
130・・・通信部
150・・・データ記憶部
200・・・会話支援端末装置
205・・・音声情報制御部
210・・・制御部
230・・・通信部
240・・・集音部
243・・・ノイズ除去部
245・・・A/D変換部
250・・・発音部
252・・・増幅部
255・・・D/A変換部
260・・・入力ボタン部
280・・・識別用マーカー
305・・・ビーコン送受信部
310・・・姿勢検出部
320・・・ジェスチャー検出部
330・・・位置・顔方向・ジェスチャー推定部
340・・・音声情報調整部
350・・・データ記憶部