(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023176801
(43)【公開日】2023-12-13
(54)【発明の名称】端末装置のグルーピングシステム、プログラム及び制御装置
(51)【国際特許分類】
G06F 3/16 20060101AFI20231206BHJP
G06F 3/01 20060101ALI20231206BHJP
【FI】
G06F3/16 650
G06F3/16 630
G06F3/16 690
G06F3/01 510
G06F3/16 640
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022089284
(22)【出願日】2022-05-31
(71)【出願人】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(71)【出願人】
【識別番号】000002853
【氏名又は名称】ダイキン工業株式会社
(74)【代理人】
【識別番号】100116850
【弁理士】
【氏名又は名称】廣瀬 隆行
(74)【代理人】
【識別番号】100165847
【弁理士】
【氏名又は名称】関 大祐
(72)【発明者】
【氏名】向井 義智
(72)【発明者】
【氏名】藤野 真人
(72)【発明者】
【氏名】竹崎 雄一郎
(72)【発明者】
【氏名】久池井 淳
(72)【発明者】
【氏名】片岡 太郎
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA46
5E555AA62
5E555BA04
5E555BB04
5E555BC13
5E555CA45
5E555CA47
5E555CB23
5E555CB64
5E555CB82
5E555EA09
5E555EA23
5E555FA00
(57)【要約】
【課題】複数の端末装置を柔軟にグループ化する。
【解決手段】複数の端末装置10と制御装置20とが通信回線を介して接続されたシステム100において、複数の端末装置10はそれぞれ集音部を含み、複数の端末装置10又は制御装置20は集音部で取得した音声信号を解析し、制御装置20は音声解析部による解析情報に基づいて複数の端末装置10のうちの一又は複数の端末装置10をグループ化する。制御装置20は、音声信号の解析情報に基づいて端末装置10に対する命令情報を取得し、あるグループに属する少なくとも1つの特定の端末装置10に対して命令情報に応答する指令情報を生成するとよい。
【選択図】
図2
【特許請求の範囲】
【請求項1】
複数の端末装置と、前記端末装置と通信回線を介して接続された制御装置とを含むシステムであって、
前記複数の端末装置は、それぞれ集音部を含み、
前記複数の端末装置又は前記制御装置は、前記集音部で取得した音声信号を解析する音声解析部を含み、
前記制御装置は、前記音声解析部による解析情報に基づいて、前記複数の端末装置のうちの一又は複数の端末装置をグループ化するグルーピング部を含む
システム。
【請求項2】
前記制御装置は、さらに、
前記解析情報に基づいて前記端末装置に対する命令情報を取得する命令取得部と、
あるグループに属する少なくとも1つの特定の端末装置に対して前記命令情報に応答する指令情報を生成する指令生成部を含む
請求項1に記載のシステム。
【請求項3】
前記制御装置は、
あるグループに属する前記複数の端末装置の中から、前記命令情報に応答する少なくとも1つの端末装置を特定する端末特定部をさらに含み、
前記端末特定部で特定した前記端末装置に対して前記命令情報に応答する指令情報を送信する
請求項2に記載のシステム。
【請求項4】
前記グルーピング部は、所定の時間範囲内に所定の誤差範囲の前記音声信号を前記集音部で取得した複数の前記端末装置を同じグループにまとめる
請求項2に記載のシステム。
【請求項5】
前記複数の端末装置は、それぞれ自己の位置情報を取得する位置情報取得部をさらに含み、
前記グルーピング部は、所定の地理的範囲内にあり、所定の時間範囲内に、所定の誤差範囲の前記音声信号を前記集音部で取得した複数の前記端末装置を同じグループにまとめる
請求項4に記載のシステム。
【請求項6】
前記複数の端末装置は、それぞれ、近距離無線通信部をさらに含み、
前記グルーピング部は、前記近距離無線通信部による通信状態にあり、所定の時間範囲内に、所定の誤差範囲の前記音声信号を前記集音部で取得した複数の前記端末装置を同じグループにまとめる
請求項4に記載のシステム。
【請求項7】
携帯情報端末を、請求項1に記載のシステムにおける前記端末装置として機能させるためのプログラム。
【請求項8】
集音部を含む複数の端末装置と通信回線を介して接続された制御装置であって、
前記複数の端末装置又は前記制御装置は、前記集音部で取得した音声信号を解析する音声解析部を含み、
前記制御装置は、前記音声解析部による解析情報に基づいて、前記複数の端末装置のうちの一又は複数の端末装置をグループ化するグルーピング部を含む
制御装置。
【請求項9】
コンピュータを、請求項8に記載の前記制御装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置が取得した音声に基づいて端末装置をグループ化するためのシステム、プログラム、及び制御システムに関する。
【背景技術】
【0002】
近年、現場作業の複雑化、就労人口の減少、熟練工が持つ技術の承継などの様々な問題に対応するために、現場作業のDX(デジタルトランスフォーメーション)化が喫緊の課題となっている。これらの問題の解決策の一つとして、現場の作業員が装着しているウェアラブルデバイスと支援者が操作するコンピュータをインターネット等を経由して接続し、音声情報や視覚情報を共有する遠隔支援システムが提案されている(特許文献1)。
【0003】
このような遠隔支援システムを利用する場合、現場での作業開始前に作業員に対してウェアラブルデバイスを配布(貸与)することが多い。また、大規模な現場では、複数の作業員をグループ分けし、そのグループごとに人数分のデバイスを配布することとなる。このとき、複数台のデバイスを作業員のグループに対応付けることが必要となるが、一般的には、予め各デバイスにグループを設定しておき、所定のグループが割り当てられたデバイスをそのグループに属する作業員に配布することとなる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
このように、ウェアラブルデバイスを作業員のグループに対応付けるためには、一般的に、デバイスを作業員に配布する前に、予め各デバイスにグループを設定しておく必要があった。しかし、事前にデバイスのグループ分けを行うと、デバイスの配布時に、例えばデバイスがどのグループに属するのか、デバイスと作業員のグループが対応しているかなどを確認する作業が必要となる。例えばデバイスの取り違え(あるグループに属する作業員に別のグループが設定されたデバイスを配布すること)が発生すると、支援者から作業員への指示系統に混乱が発生し、現場での重大なミスや事故を招く恐れがある。また、このような取り違えを防止するために、デバイスの配布時に入念な確認を行うことが必要となるため、現場での作業効率が低下するという懸念がある。
【0006】
また、ある作業者が、複数のウェアラブルデバイスの中から、例えば最もバッテリ残量が多いデバイスを選択して装着したいという場面もある。このとき、各デバイスのバッテリ残量を一つひとつ確認することは手間であることから、複数のデバイスの中から最もバッテリ残量が多いデバイスが、作業者の問い掛けに対して自動的に応答すると便利である。しかし、前述のように各デバイスに対して事前にグループを設定すると、作業者の目の前にある複数のデバイスに異なるグループに属するものが混在している状況が発生することも考えられる。その場合、どの範囲の中から最もバッテリ残量が多いデバイスを応答させるべきかが定かではなくなることから、上記のような利便性の高い応答は困難となる。
【0007】
そこで、本発明は、複数の端末装置を柔軟にグループ化できる技術を提案することを目的の一つとする。また、本発明は、グループ化した複数の端末装置の中から一又は複数の端末装置を容易に特定することのできる技術を提案することを他の目的とする。本発明は、上記目的の少なくも1つを解決する手段を提供するものである。
【課題を解決するための手段】
【0008】
本発明の第1の側面は、主に複数の端末装置をグループ化するためのシステムに関する。本発明に係るシステムは、複数の端末装置と制御装置とを含む。これらの端末装置と制御装置は、インターネット等の通信回線を通じて接続されている。複数の端末装置は、それぞれ集音部(マイクロホン)を含む。また、複数の端末装置又は制御装置は、集音部で取得した音声信号を解析する音声解析部を含む。なお、端末装置が音声解析部を含む場合、集音部で取得した音声信号を自己端末内で解析し、その解析情報を制御装置へ送信すればよい。制御装置が音声解析を含む場合、端末装置は集音部で取得した音声信号を制御装置へ送信し、制御装置が端末装置から受信した音声信号の解析を行う。また、ここにいう「音声解析」には、音声認識(音声信号から文字情報を読み取る処理)の他、音声の周波数解析、話者の感情認識、態度認識、言語認識、声紋解析(声の特徴解析)などが含まれる。制御装置は、音声解析部による解析情報に基づいて、複数の端末装置のうちの一又は複数の端末装置をグループ化するグルーピング部を含む。なお、「グループ化」とは、一又は複数の端末装置を同じグループにまとめることを意味する。例えば、グルーピング部は、音声解析の結果、所定の類似範囲内の音声信号を取得したと判断できる複数の端末装置を同じグループに振り分ければよい。
【0009】
上記構成のように、各端末装置が取得した音声信号に基づいて複数の端末装置をグループ化できるようにすることで、事前に端末装置のグループを設定することを省略できる。例えば、グループ未設定の端末装置を複数台配置しておき、それらの端末装置に対して声を掛けることで、その声が届く範囲の端末装置を同じグループに設定できる。このような処理は、例えば端末装置(ウェアラブルデバイス)を作業員に装着した後に行うことも可能である。
【0010】
本発明に係るシステムにおいて、制御装置は、命令取得部と指令生成部をさらに含むことが好ましい。命令取得部は、音声解析部による解析情報に基づいて、端末装置に対する命令情報を取得する。指令生成部は、あるグループに属する少なくとも1つの特定の端末装置に対して、命令取得部が取得した命令情報に応答する指令情報を生成する。これにより、あるユーザの音声によって同じグループに割り振られた複数の端末装置の中から、その音声に基づく命令に応答すべき端末装置を容易に特定できる。
【0011】
本発明に係るシステムにおいて、制御装置は、端末特定部をさらに含むことが好ましい。端末特定部は、あるグループに属する複数の端末装置の中から、命令情報に応答する少なくとも1つの端末装置を特定する。そして、制御装置は、端末特定部で特定した端末装置に対して命令情報に応答する指令情報を送信する。これにより、あるユーザの音声による問い掛けに対して、一又は複数の端末装置を自動的に応答させることができる。
【0012】
本発明に係るシステムにおいて、制御装置のグルーピング部は、所定の時間範囲内に所定の誤差範囲の音声信号を集音部で取得した複数の前記端末装置を同じグループにまとめることとしてもよい。このように、音声信号を取得した時間及びその音声信号の類似度によって端末装置をグループ化することで、グループ化処理の精度を向上させることができる。
【0013】
本発明に係るシステムにおいて、複数の端末装置は、それぞれ自己の位置情報を取得する位置情報取得部をさらに含むこととしてもよい。この場合、制御装置のグルーピング部は、所定の地理的範囲内にあり、所定の時間範囲内に、所定の誤差範囲の音声信号を集音部で取得した複数の端末装置を同じグループにまとめることが好ましい。このように、端末装置が音声信号を取得した時点の地理的情報をさらに加えて複数の端末をグループ化することで、その精度をさらに向上させることができる。
【0014】
本発明に係るシステムにおいて、複数の端末装置は、それぞれ近距離無線通信部をさらに含むこととしてもよい。この場合、制御装置のグルーピング部は、近距離無線通信部による通信状態にあり、所定の時間範囲内に、所定の誤差範囲の前記音声を前記集音部で取得した複数の前記端末装置を同じグループにまとめることが好ましい。このように、端末装置が音声信号を取得した時点において端末装置同士が近距離無線通信を行っているかどうかの情報をさらに加えて複数の端末をグループ化することで、その精度をさらに向上させることができる。
【0015】
本発明の第2の側面は、集音部(マイクロホン)を備える携帯情報端末(PDA)を、上記第1の側面に係るシステムにおける端末装置として機能させるためのプログラムに関する。このようなプログラムは、インターネットを通じて携帯情報端末にダウンロード可能なものであってもよいし、携帯情報端末にプリインストールされていてもよいし、CD-ROM等の携帯情報端末が読取り可能な記録媒体に格納されていてもよい。
【0016】
本発明の第3の側面は、制御装置に関する。本発明に係る制御装置は、集音部を含む複数の端末装置と通信回線を介して接続されている。複数の端末装置又は制御装置は、集音部で取得した音声を解析する音声解析部を含む。そして、本発明に係る制御装置は、音声解析部による解析情報に基づいて、複数の端末装置のうちの一又は複数の端末装置をグループ化するグルーピング部を含む。
【0017】
本発明の第4の側面は、コンピュータを、上記第3の側面に係る制御装置として機能させるためのプログラムである。このようなプログラムは、インターネットを通じてコンピュータにダウンロード可能なものであってもよいし、コンピュータにプリインストールされていてもよいし、CD-ROM等のコンピュータが読取り可能な記録媒体に格納されていてもよい。
【発明の効果】
【0018】
本発明によれば、複数の端末装置を柔軟にグループ化することができる。あるいは、本発明によれば、グループ化した複数の端末装置の中から一又は複数の端末装置を容易に特定することができる。
【図面の簡単な説明】
【0019】
【
図1】
図1は、本発明に係るシステムの全体図を示している。
【
図2】
図2は、本発明に係るシステムによる情報処理の概要を示している。
【
図3】
図3は、端末装置の一例として、首掛け型のウェアラブルデバイスを示している。
【
図4】
図4は、本発明に係るシステムに含まれる端末装置と制御装置の機能構成例を示したブロック図である。
【
図5】
図5は、本発明の一実施形態に係るシステムにより実行される処理のメインフローを示している。
【
図6】
図6は、
図5に示したグルーピング工程のサブフローを示している。
【発明を実施するための形態】
【0020】
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
【0021】
図1は、本発明の一実施形態に係るシステム100の全体構成を模式的に示している。本実施形態に係るシステム100は、主に複数の作業者が現場で行う作業を支援者がインターネットを介して遠隔で支援するといった用途で好適に用いられる。特に、本システムは、現場の作業者に端末装置10を配布し、複数の端末装置10を制御装置20によって一括的に管理することを想定している。また、遠隔地の支援者は、支援装置30を通じて、現場の作業者が装着する端末装置10と音声や画像のやり取りをすることができる。
【0022】
図1に示されるように、本システム100は、複数の端末装置10と、制御装置20と、支援装置30を含む。端末装置10の例は、ウェアラブルデバイスである。ウェアラブルデバイスとしては、例えば首掛け型、眼鏡型、頭部装着型、及び腕時計型などが挙げられる。本実施形態では、端末装置10として首掛け型のウェアラブルデバイスを採用している。このような端末装置10は、複数の作業者が一つずつ装着することになる。制御装置20は、複数の端末装置10とインターネットを介して接続されており、例えば複数の端末装置10が取得した情報を受信してこれをデータベースに蓄積したり、複数の端末装置10に対して制御信号を送信してこれらの端末装置10を遠隔制御する機能を有する。制御装置20は、一台のサーバ装置によって構築されていてもよいし、ネットワークを介して相互に接続された複数のサーバ装置によって構築されていてもよい。支援装置30は、インターネットを介して端末装置10と接続されており音声や画像の送受信を行う。支援装置30としては、汎用的なパーソナルコンピュータ(PC)を利用できる。支援装置30は、基本的に複数の端末装置10を装着した作業者を支援するための支援者によって操作される。このとき、制御装置20は、端末装置10と支援装置30の間での情報の送受信を中継する役割を担うものであってもよい。なお、本発明は、主に、複数の端末装置10と制御装置20とによる情報処理に特徴を持つ。このため、以下では、端末装置10と制御装置20に焦点を当てて、本発明の実施形態について具体的に説明を行う。
【0023】
図2は、本発明に係るシステムの特徴的な処理を模式的に示したものである。一例を挙げて説明すると、ユーザ(主に現場の作業者)が複数の端末装置10に対して「この中で最もバッテリ残量の多い端末は?」と問い掛けたとする。この問い掛けの音声を取得できる範囲にいる複数の端末装置10(a)~(c)は、その音声情報を制御装置20に送信する。なお、このとき、複数の端末装置10(a)~(c)は、ユーザの音声を電気信号に変換した音声信号をほぼそのまま制御装置20に送信することとしてもよいし、音声信号を解析することにより得られた解析情報を制御装置20に送信することとしてもよい。
図2に記載の「音声情報」は、このようなユーザの音声信号やその解析情報を含む概念である。
【0024】
次に、制御装置20は、端末装置10(a)~(c)から音声情報を受け取ると、その音声情報に基づいて端末装置10(a)~(c)をグループ化する。例えば、制御装置20は、各端末装置10(a)~(c)から受信した音声信号の類似度を判定して、所定類似範囲内に含まれる音声信号を送信した端末装置10を同じグループとする。あるいは、制御装置20は、各端末装置10(a)~(c)から受信した音声信号を解析し、その解析結果の類似度を判定して、所定類似範囲内に含まれる音声信号を送信した端末装置10を同じグループとする。
図2に示した例では、端末装置10(a)~(c)が同じグループに設定されている。一方で、端末装置10(d)は、ユーザの問い掛けの音声を取得できなかったため、端末装置10(a)~(c)とは同じグループとはされていない。また、端末装置10(d)がもし端末装置10(a)~(c)と同時期にユーザの音声を取得していたとしても、その類似度が所定範囲内ではなかった場合には、端末装置10(a)~(c)とは同じグループとはされないこととなる。
【0025】
次に、制御装置20は、端末装置10(a)~(c)から受信した音声情報から、ユーザが端末装置10(a)~(c)に対して発した命令を抽出する。例えば、制御装置20は、ユーザの音声信号に対して音声認識を行うことで、その音声をテキスト化し、「この中で最もバッテリ残量の多い端末は?」という命令情報を得る。また、制御装置20は、自然言語処理によってこの命令情報を解釈する。具体的には、「この中」とは端末装置10(a)~(c)が属するグループを意味する。このため、制御装置20は、端末装置10(a)~(c)の中から最もバッテリ残量の多い端末を特定する。例えば、
図2に示した例では、端末装置10(a)~(c)のうち、端末装置10(a)が最もバッテリ残量の多い端末であるとする。この場合、制御装置20は、端末装置10(a)に対して、ユーザの問い掛けに応答するように指令を送信する。端末装置10(a)は、制御装置20から応答指令を受信すると、例えばマイクロホンから「はい、私です。」といった音を出力することによって、自身が最もバッテリ残量の多い端末であることをユーザに知らせる。なお、端末装置10(a)の応答は、音の出力に限らず、LEDランプの点滅やバイブレータの振動などによって行うことも可能である。
【0026】
このようにすることで、ユーザは、複数の端末装置10の中から自身の求める端末装置10を簡単に特定することが可能である。なお、最もバッテリ残量の多い端末を探すのは一例であり、本システムは様々な用途に応用できる。例えば、現場の作業員がそれぞれ端末装置10を装着している場合に、複数の作業員に対して現場監督者が「この中で1時間以上連続して作業をしている者は?」と問い掛けたとする。すると、その問い掛けの音声を取得した端末装置10のうち、1時間以上連続して作業者の運動を検知している端末装置10が「はい、私です。」と応答することとなる。これにより、現場監督者は、応答した端末装置10を装着している作業者に休憩を促すことができる。その他、「この中で一番長時間作業をしている者は?」といった問い掛けにも対応可能である。このように、本発明に係るシステム100では、ユーザの音声での問い掛けにより複数の端末装置10が自動的にグループ化されて、その問い掛けに該当する端末装置10が自動的に応答するようになる。
【0027】
続いて、本発明の一実施形態に係るシステム100の構成についてさらに具体的に説明する。
図3は、端末装置10の一例を示した外観斜視図である。また、
図4は、端末装置10のハードウェア要素の例を示している。
図3に示されるように、本実施形態における端末装置10は、首掛け型のウェアラブルデバイスである。端末装置10は、左腕部と、右腕部と、それらを装着者の首裏にて接続する本体部を備える。端末装置10を装着する際には、本体部を装着者の首裏に接触させ、左腕部と右腕部を装着者の首横から胸部側に向かって垂らすようにして、装置全体を首元に引っ掛ければよい。端末装置10の筐体内には、各種の電子部品が格納されている。
【0028】
左腕部と右腕部には、それぞれ複数の集音部14(マイク)が設けられている。集音部14は、主に装着者の周囲の音や、装着者と対話者の音声を取得することを目的として配置されている。装着者周囲で発生した音を広く集音できるように、集音部14としては、全指向性(無指向性)のマイクロホンを採用することが好ましい。集音部14としては、ダイナミックマイクやコンデンサマイク、MEMS(Micro-Electrical-Mechanical Systems)マイクなど、公知のマイクロホンを採用すればよい。集音部14は、音を電気信号に変換し、その電気信号をアンプ回路によって増幅した上で、A/D変換回路によってデジタル情報に変換して制御部11へと出力する。集音部14によって取得した音信号は、筐体内に設けられた制御部11へ伝達される。また、本実施形態において、集音部14によって取得した音信号は、通信部13を介してインターネット経由で制御装置20に送信される。さらに、集音部14によって取得した音信号は、遠隔地の支援者が操作する支援装置30(
図1参照)に送信されてもよい。これにより、現場の作業者が端末装置10によって取得した音が、遠隔地の支援者の支援装置30にも共有される。
【0029】
左腕部には、撮像部15がさらに設けられている。具体的には、左腕部の先端面に撮像部15が設けられており、この撮像部15によって装着者の正面側の静止画像や動画像を撮影することができる。撮像部15によって取得された画像は、筐体内の制御部11に伝達され画像データとして記憶される。撮像部15としては一般的なデジタルカメラを採用すればよい。撮像部15は、例えば、撮影レンズ、メカシャッター、シャッタードライバ、CCDイメージセンサユニットなどの光電変換素子、光電変換素子から電荷量を読み出し画像データを生成するデジタルシグナルプロセッサ(DSP)、及びICメモリで構成される。撮像部15によって取得された画像データは、制御部11へと供給されて記憶部12に記憶される。また、画像データに対して所定の画像解析処理を行うこととしてもよい。また、撮像部15で取得した静止画像や動画像は、通信部13を介してインターネット経由で制御装置20へと送信される。また、静止画像や動画像は、遠隔地の支援者が操作する支援装置30(
図1参照)に送信されてもよい。これにより、現場の作業者が端末装置10で取得した静止画や動画像が、遠隔地の支援者の支援装置30にも共有される。
【0030】
右腕部には、非接触型のジェスチャセンサ16がさらに設けられている。ジェスチャセンサ16は、主に端末装置10の正面側における装着者の手の動きを検知することを目的として、右腕部の先端面に配置されている。ジェスチャセンサ16は、例えば装着者の手指の動作や形を検知する。ジェスチャセンサ16の例は光学式センサであり、赤外発光LEDから対象物に向けて光を照射し、その反射光の変化を受光素子で捉えることで対象物の動作や形を検出する。ジェスチャセンサ16による検知情報は、制御部11へと伝達され、主に撮像部15や放音部18の制御に利用される。具体的には、ジェスチャセンサ16の検知情報は、撮像部15や放音部18の起動、停止などの制御に利用される。例えば、ジェスチャセンサ16は、装着者の手などの物体がそのジェスチャセンサ16に近接したことを検知して撮像部15を制御することとしてもよいし、あるいはジェスチャセンサ16の検知範囲内で装着者が所定のジェスチャーを行ったことを検知して撮像部15を制御することとしてもよい。なお、本実施形態において、撮像部15とジェスチャセンサ16の位置を入れ替えることも可能である。また、ジェスチャセンサ16は近接センサに置き換えることとしてもよい。近接センサは、例えば装着者の手指が所定範囲まで近接したことを検知する。近接センサとしては、光学式、超音波式、磁気式、静電容量式、又は温感式などの公知のものを採用できる。
【0031】
装着者の首裏に位置する本体部の外側(装着者の反対側)には放音部(スピーカ)18が設けられている。本実施形態において、放音部18は、本体部の外側に向かって音を出力するように配置されている。このように、装着者の首裏から真後ろに向かって音を放出することで、この放音部18から出力された音が、装着者の正面前方に存在する対話者に直接的に届きにくくなる。これにより、対話者は、装着者自身が発した音声と端末装置10の放音部18から発せられた音とを区別しやすくなる。放音部18は、電気信号を物理的振動(すなわち音)に変換する音響装置である。放音部18の例は、空気振動により音を装着者に伝達する一般的なスピーカである。また、放音部18としては、装着者の骨を振動させることにより音を装着者に伝達する骨伝導スピーカであってもよい。なお、この場合、放音部18を本体部の内側(装着者側)に設けて、骨伝導スピーカが装着者の首裏の骨(頚椎)に接触するように構成すればよい。また、本実施形態において、支援装置30に入力された音声信号は、インターネット経由で端末装置10に送信される。端末装置10は、支援装置30から受信した音声信号を放音部18によって音に変換して出力する。これにより、支援装置30を操作する支援者の音声を、端末装置10を装着した作業者に届けることができる。
【0032】
図4に示されるように、端末装置10の制御部11は、この端末装置10が備える他の要素を制御する演算処理を行う。制御部11としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサを利用することができる。制御部11は、基本的に、記憶部12に記憶されているプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。また、制御部11は、プログラムに従った演算結果を記憶部12に適宜書き込んだり読み出したりすることができる。また、端末装置10の制御部11は、制御装置20で実行されたRPAプログラムの命令情報に従って、記憶部12に記憶されている既成のアプリケーションプログラムを実行し、そのプログラムに基づいて各種のハードウェア要素を制御したり所定の演算を行うこともできる。
【0033】
端末装置10の記憶部12は、制御部11での演算処理等に用いられる情報やその演算結果を記憶するための要素である。記憶部12のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、記憶部12は、制御部11による演算処理の途中経過などを書き込む又は読み出すためのメインメモリとしての機能を有していてもよい。記憶部12のメモリ機能は、RAMやDRAMといった揮発性メモリにより実現できる。また、記憶部12には、それを所持するユーザ固有のID情報が記憶されていてもよい。また、記憶部12には、端末装置10のネットワーク上の識別情報であるIPアドレスが記憶されていてもよい。
【0034】
端末装置10の通信部13は、制御装置20、支援装置30、又は別の端末装置10と無線通信するための要素である。通信部13は、インターネットを介して制御装置20や支援装置30と通信を行うために、例えば、3G(W-CDMA)、4G(LTE/LTE-Advanced)、5Gといった公知の移動通信規格や、Wi-Fi(登録商標)等の無線LAN方式で無線通信するための通信モジュールを採用すればよい。また、通信部13は、別の端末装置10と直接的に通信を行うために、Bluetooth(登録商標)やNFC等の方式の近接無線通信用の通信モジュールを採用することもできる。
【0035】
端末装置10のセンサ類17は、例えば端末装置10の動作や利用状況、あるいはその装着者の生体情報を検知するためのセンサ機器を含む。センサ類17としては、一般的な携帯情報端末やウェアラブルデバイスに搭載されているセンサモジュールを採用すればよい。例えば、センサ類17には、ジャイロセンサ、加速度センサ、地磁気センサ、バッテリセンサが含まれる。また、センサ類17には、体温センサ、心拍センサ、血中酸素濃度センサ、血圧センサ、心電図センサなど、装着者の生体情報を検知するための生体センサが含まれていてもよい。
【0036】
端末装置10の位置情報取得部19は、その端末装置10の現在の位置情報を取得するための要素である。具体的には、位置情報取得部19は、GPS(Global Positioning System)を利用した測位を行う機能を持つ。位置情報取得部19は、複数のGPS衛星から送られた電波に含まれる電波送信時間の情報に基づき、それぞれの電波を受信するのに要した時間を測定し、その時間を示す時間情報を制御部11に伝達する。制御部11は、取得した時間情報に基づいて、端末装置10の所在位置の緯度経度に関する情報を算出することができる。また、位置情報取得部19は、Wi-Fi(登録商標)アクセスポイントなどの無線基地局から発信される電波やビーコン信号をスキャンすることにより、現在の位置情報を取得するものであってもよい。
【0037】
なお、
図3及び
図4から明らかなように、本実施形態において、端末装置10は、ディスプレイやモニタなどの表示装置を有していない。このため、作業者は、ジェスチャセンサ16等を利用して各ハードウェア要素のオン・オフ等の比較的簡単な操作は行うことができるものの、アプリケーションプログラムの操作など複雑な操作は困難である。このような表示装置を持たない端末装置10を用いる場合、本発明に係るシステムのように、制御装置20などによりインターネットを介して複数の端末装置10を遠隔制御することが特に有効である。
【0038】
図4は、さらに、制御装置20のハードウェア及びソフトウェアの構成要素を示している。本実施形態における制御装置20としては、一又は複数のWebサーバで構成された公知のクラウドシステムを利用することができる。制御装置20は、基本的に、管理制御部21、データベース22、及び通信部23を含む。管理制御部21としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサを利用することができる。管理制御部21は、所定のプログラムを読み出してメインメモリに展開し、このプログラムに従って所定の演算処理を実行する。データベース22のストレージ機能は、例えばHDD及びSDDといった不揮発性メモリによって実現できる。また、通信部23には公知の通信モジュールを採用すればよい。制御装置20は、複数の端末装置10と通信を行うことで各端末装置10をモニタリング(監視)しており、各種端末装置10が各種センサによって取得した情報などをデータベース22に蓄積するとともに、その情報を常時更新している。また、制御装置20は、端末装置10のグループ化や、ユーザからの問い掛けに対して応答するように特定の端末装置10を制御する。
【0039】
図4に示されるように、本実施形態において、管理制御部21は、モニタリング部21a、音声解析部21b、グルーピング部21c、命令取得部21d、端末特定部21e、及び指令生成部21gを含む。これらの各機能ブロック21a~21gは、管理制御部21が所定のプログラムを実行することにより実現される。
【0040】
モニタリング部21aは、各端末装置10から収集した情報をデータベース22に登録するとともに、その情報を随時更新する。具体的には、各端末装置10は、ジャイロセンサ、加速度センサ、地磁気センサで検知した端末装置10の運動情報や、バッテリセンサで検知したバッテリ残量や使用状況に関する情報など、センサ類17で検知した情報を制御装置20に対して常時又は定期的に送信している。また、各端末装置10は、センサ類17で装着者の生体情報(体温、心拍、血中酸素濃度、血圧、心電図等)を検知している場合には、これらの情報を制御装置20に対して送信する。制御装置20のモニタリング21aは、各端末装置10から受信したこれらの情報を、端末装置10ごとに関連付けてデータベース22に登録し、随時更新する。また、1つの端末装置10を複数のユーザによって使用する場合には、端末装置10のセンサ類17が検知した情報は、ユーザごとに関連付けてデータベース22に登録し、随時更新することとしてもよい。これにより、制御装置20は、データベース22に記録されている情報を参照することで、端末装置10又はユーザごとに運動情報又は生体情報を確認することができる。
【0041】
音声解析部21bは、各端末装置10が取得したユーザの音声信号を解析する。音声解析には、音声認識、周波数解析、話者の感情認識、話者の態度認識、話者の言語認識、話者の声紋解析などが含まれる。音声認識では、ユーザの音声信号を文字情報に変換する。また、周波数解析は、ユーザの音声信号をそれに含まれる周波数成分毎に分解したスペクトル(強度分布)に変換する。話者の感情認識、態度認識、言語認識では、ユーザの音声信号やそのスペクトルに基づいて、その音声を発したユーザの感情や態度、あるいは言語を定量化する。声紋解析は、ユーザの音声信号やそのスペクトルに基づいて、その音声を発したユーザの声の特徴を定量化する。また、これらの音声解析では、大量の教師データを利用して予め機械学習を行うことにより得られた学習済みモデルを利用することとしてもよい。例えば、不特定の話者の音声信号に対して様々な感情のタグ付けを行った教師データを利用して機械学習を行うことで、感情認識モデルが得られる。態度認識や言語認識も同様である。これらの学習済みモデルを利用してユーザの音声信号を分析することとしてもよい。
【0042】
グルーピング部21cは、主に音声解析部21bの解析情報に基づいて、ユーザの音声信号を取得した複数の端末装置10のうち、一又は複数の端末装置10をグループ化する。具体的には、同じグループに属するべき端末装置10は基本的には同じユーザから同じ音声信号を取得しているはずである。そこで、各端末装置10が取得した音声信号の類似度を判定し、所定の類似範囲内に音声信号を取得した端末装置10同士をグループ化することとなる。グルーピング部21cは、端末装置10を同じグループに割り当てるかどうかを判断するにあたり、音声信号の類似度の他、近距離無線通信の状況や、各端末装置10の位置情報を参照することとしてもよい。グルーピング部21cの処理の具体例については、
図6を参照して後ほど詳しく説明する。
【0043】
命令取得部21dは、音声解析部21bの解析情報に基づいて、コンピュータ(特に端末装置10)に対する命令情報を取得する。具体的には、音声解析部21bは、音声認識処理を行うことでユーザの音声信号を文字情報に変換している。命令取得部21dは、音声解析部21bにより変換された文字情報に対して、例えば形態素解析、構文解析、意味解析、文脈解析等を含む自然言語処理を行うことで、ユーザの音声に含まれる命令情報を取得する。なお、このような音声から命令情報を取得する処理は、公知の音声アシスタントで利用されている技術を採用すればよい。
【0044】
端末特定部21eは、データベース22に記録されている情報を参照して、グループ化された端末装置10の中から、命令取得部21dが取得した命令情報に対応する端末装置10を特定する。例えばユーザからの命令が「この中で最もバッテリ残量の多い端末は?」というものである場合、端末特定部21eは、データベース22に記録されている各端末装置10の現在のバッテリ残量に関する情報を参照して、グループの中からバッテリ残量が最も多い端末装置10を特定すればよい。なお、ユーザの命令内容によっては、グループ内のどの端末装置10もその命令に対応しない場合もあるし、グループ内の2以上の端末装置10が命令に対応する場合もあり得る。
【0045】
指令生成部21gは、端末特定部21eが特定した端末装置10に対して、命令取得部21dが取得した命令情報に対して応答させるための指令情報を生成する。例えばユーザからの命令が「この中で最もバッテリ残量の多い端末は?」というものである場合、指令生成部21gは、グループ内でバッテリ残量が最も多い端末装置10に対して、「はい、私です。」という音を出力させたり、ランプを発光させるといった何らかの反応を行わせるための指令情報を生成すればよい。指令生成部21gが生成した指令情報は、端末特定部21eが特定した端末装置10に対して、通信部23を介して送信される。この指令情報を受け取った端末装置10は、指令情報に従った音の出力やランプの発光等の処理を行う。
【0046】
なお、
図4では、図示は省略しているが、支援装置30としては、公知のパーソナルコンピュータ(PC)や、スマートフォン、タブレット型端末などを利用できる。具体的には、支援装置30は、CPU等のプロセッサで構成された制御部と、不揮発性メモリ及び揮発性メモリを含む記憶部と、インターネット接続用の通信モジュールで構成された通信部を含む。また、支援装置30は、マウスやキーボード、マイクロホンなどの入力部と、ディスプレイやスピーカなどの出力部をさらに含む。支援装置30は、現場の作業者に対して支援情報を提供する支援者(オペレーター等)によって操作される端末である。これにより、支援者は、遠隔地から現場に居る作業者の端末装置10に対して作業指示等を送ったり、端末装置10から音声や画像を受信してそれらをスピーカやディスプレイから出力できる。
【0047】
続いて、
図5及び
図6を参照して、ユーザ(主に現場の作業員)から複数の端末装置10に対して音声で命令がなされた場合に実行される、端末装置10と制御装置20の処理のフローの一例を示している。
図5はメインフローを示し、
図6はグルーピング工程のサブフローを示している。
【0048】
図5に示されるように、複数の端末装置10は、それぞれ集音部14でユーザの音声を取得する(ステップS1)。ここで取得されたユーザの音声は、集音部14により音声信号に変換され、その音声を取得した日時情報等のメタ情報とともに、デジタル信号として一時的に記憶部12に記憶される。なお、各端末装置10は、集音部14が常時オンになっていることとしてもよいし、ユーザによる音声での問い掛けがなされる特定のシチュエーションに限って集音部14がオンとなってもよい。例えば、端末装置10の充電中や、端末装置10がユーザによって装着されていることを検知している間のみ、集音部14がオンとなってもよい。また、集音部14のオン/オフの切り替えは、ジェスチャセンサ16により行われてもよい。このステップS1でユーザの音声を取得した端末装置10は、これをトリガーとして以降の処理を開始する。
【0049】
次に、端末装置10は、ユーザの音声を取得した時点において、他の端末装置10と近距離無線通信を行っているか否かを確認する(ステップS2)。端末装置10は、近距離無線通信を行っている場合には、その相手の端末装置10の識別情報(個体識別番号等)を取得して一時的に記憶部12に記憶しておく。
【0050】
また、端末装置10は、位置情報取得部19により、ユーザの音声を取得した時点における位置情報を取得する(ステップS3)。端末装置10は、位置情報取得部19が取得した位置情報を一時的に記憶部12に記憶する。なお、ステップS2とステップS3は、どちらを先に実行してもよい。また、ステップS2とステップS3は、同時に実行することも可能である。
【0051】
次に、端末装置10は、通信部13により、自己の識別情報(個体識別番号等)とともに、ステップS1~S3で取得した情報を制御装置20へと送信する(ステップS4)。具体的には、集音部14で取得した音声信号とその取得日時の情報、近距離無線通信を行っている場合にはその相手の端末装置10の識別情報、及び位置情報取得部19が取得した位置情報が、端末装置10から制御装置20へと送信される。制御装置20は、複数の端末装置10から、これらの情報を受信する(ステップS5)。
【0052】
制御装置20は、管理制御部21の音声解析部21bにより、各端末装置10から受信した音声信号に対して音声解析処理を行う(ステップS6)。
図5に示されるように、ここでの音声解析処理には、複数の端末装置10のグループ化をする目的(ステップS7)と、音声信号から端末装置10のグループに対するユーザの命令を取得する目的(ステップS8)がある。まず複数の端末装置10をグループ化する処理について説明する。
【0053】
図6は、制御装置20の管理制御部21のグルーピング部21cにより実行されるグルーピング処理(ステップS7)のサブフローを示している。グルーピング部21cは、複数の端末装置10から受信した音声信号について、その取得日時が所定時間範囲内であるか否かを判断する(ステップS7-1)。例えば、制御装置20が3台の端末装置10から音声信号を取得した場合に、グルーピング部21cは各端末装置10が音声信号を取得した日時が例えば30秒以内であるか否かを判断する。この音声信号の取得日時が所定時間範囲内である端末装置10については次のステップ(ステップS7-2)へ進み、所定時間範囲内ではない端末装置10については異なるグループであると判断される(ステップS7-7)。なお、異なるグループであると判断された端末装置10については、別のグループに属すると判断される場合もある。
【0054】
次に、グルーピング部21cは、音声解析部21bの解析情報に基づいて、各端末装置10が取得した音声信号の類似度が所定範囲内であるか否かを判断する(ステップS7-2)。類似度の判断手法は特に制限されないが、例えば各端末装置10が取得した音声信号を周波数解析することにより得られたスペクトルが所定範囲で類似するか否かを判断することとしてもよい。また、各端末装置10が取得した音声信号を音声認識によって文字情報に変換し、この文字情報が所定範囲で類似するか否かを判断することとしてもよい。その他、ユーザの音声信号に対して感情認識、態度認識、言語認識、声紋解析を実行した結果の類似度を判定することも可能である。この音声信号の類似度が所定範囲内である端末装置10については次のステップ(ステップS7-3)へ進み、所定範囲内ではない端末装置10については異なるグループであると判断される(ステップS7-7)。
【0055】
次に、グルーピング部21cは、音声信号の類似度が所定範囲内である端末装置10同士が、その音声信号の取得時点において近距離無線通信を行っていたか否かを判断する(ステップS7-3)。前述のとおり、端末装置10が近距離無線通信を行っている場合にはその相手の識別情報が制御装置20へと送信されている。グルーピング部21cは、この識別情報に基づいて、端末装置10同士が近距離無線通信を行っていたか否かを判断すればよい。音声信号の類似度が所定範囲内であり、かつ、その時点において近距離無線通信を行っていた端末装置10同士は、グルーピング部21cにより同一のグループであると判断される(ステップS7-6)。一方で、その時点で近距離無線通信を行っていなかった端末装置10については次のステップ(ステップS7-4)へと進む。
【0056】
次に、グルーピング部21cは、音声信号の類似度が所定範囲内である端末装置10同士が、その音声信号の取得時点において所定の位置範囲内であったか否かを判断する。前述のとおり、各端末装置10から音声信号の取得時おける位置情報が制御装置20へと送信されているため、グルーピング部21cは、各端末装置10から取得した位置情報に基づいて、各端末装置10が所定の位置範囲内であったか否かを判断すればよい。なお、所定の位置範囲は特に制限されないが、例えば端末装置10の間の距離が1~2mである場合には所定の位置範囲内であると判断することが好ましい。音声信号の類似度が所定範囲内であり、かつ、その時点において所定位置範囲内に存在していた端末装置10同士は、グルーピング部21cにより同一のグループであると判断される(ステップS7-6)。一方で、その時点で所定範囲内ではなかった端末装置10については次のステップ(ステップS7-5)へと進む。
【0057】
次に、グルーピング部21cは、音声信号の類似度が所定範囲内である端末装置10同士が、その音声信号の取得時点において所定の位置範囲外であったか否かを判断する(ステップS7-5)。すなわち、実際には端末装置10は音声信号の取得時点において近距離に存在していたものの、通信障害などの理由からその時点の位置情報の取得に失敗していた可能性もある。このとき、ステップS7-6において音声取得時点において所定位置範囲内でないものを一律に異なるグループであると判断すると、本来は同一グループに属するはずの端末装置10同士が、通信障害等が原因で異なるグループに属すると判断される可能性もある。そこで、ステップS7-5において、グルーピング部21cは、音声信号の取得時点において所定の位置範囲外であったことの確認が出来た端末装置10のみを異なるグループであると判断する(ステップS7-7)。一方で、グルーピング部21cは、ステップS7-5において所定の位置範囲外であることの確認が出来なかった端末装置10同士であっても、ステップS7-2において音声信号の類似度が所定範囲内であることの確認が取れていることから、これらの端末装置10同士を同一のグループであると判断する(ステップ7-6)。これらのステップS7-1~7-7により、複数の端末装置10が同一のグループであるか否かの判定が行われる。
【0058】
次に、再び
図5に戻り、ユーザの音声信号から端末装置10のグループに対する命令を取得して、その命令を特定の端末装置10に送信する処理について説明する。まず、制御装置20の管理制御部21の音声解析部21bは、端末装置10から受信した音声信号に対して音声認識処理を行う。これにより、ユーザの音声が文字情報に変換される。このとき、制御装置20は、グループ化の候補となる複数の端末装置10から音声信号が受信している場合が多い。複数の端末装置10がほぼ同じ場所で同じユーザから音声信号を取得していたとしても、各端末装置10のマイク性能やマイクの向きなどによっては、各端末装置10の音声信号から得られた文字情報にばらつきが生じる場合がある。この場合には、音声解析部21bは、複数の端末装置10から受信した音声信号の中から最も信頼性の高い音声信号、例えば最も音声成分の強度が強い音声信号を選択して、その選択した音声信号についてのみ音声認識処理を行うこととしてもよい。あるいは、音声解析部21bは、複数の端末装置10から受信した音声信号の全てに対して音声認識処理を行い、それぞれの文字情報を比較して、その比較結果から正しく音声認識できていないと推定される文字情報を破棄したり、もしくは最も正しく音声認識できていると推定される文字情報を選択することとしてもよい。
【0059】
次に、管理制御部21の命令取得部21dは、音声解析部21bの音声認識により得られた文字情報から、端末装置10のグループに対する命令情報を取得する(ステップS8)。前述のように、命令取得部21dは、この文字情報に対して例えば形態素解析、構文解析、意味解析、文脈解析等を含む自然言語処理を行うことで、ユーザの音声に含まれる命令情報を取得できる。この命令情報は、コンピュータである制御装置20が理解可能なレベルの情報である。具体的には、この命令情報は、グルーピング工程(ステップS7)にてグループ化された複数の端末装置10の中から、一又は複数の端末装置10を特定する命令であることが多い。このため、この命令情報は、データベース22に記録されている端末装置10に関する情報の中から特定の端末装置10を検索するためのクエリであってもよい。
【0060】
次に、管理制御部21の端末特定部21eは、データベース22にアクセスし、前述したグルーピング工程(ステップS7)にてグループ化された複数の端末装置10について、それらの端末装置10やそれを装着しているユーザの情報を参照する(ステップS9)。前述のとおり、データベース22には、管理制御部21のモニタリング部21aにより、各端末装置10のセンサ類17によって取得された端末装置10やそれを装着するユーザに関する情報が蓄積及び更新されている。端末特定部21eは、このデータベース22内の情報を参照して、グループ化された複数の端末装置10の中から、命令取得部21dが取得した命令情報に応答すべき一又は複数の端末装置10を特定する。
【0061】
次に、管理制御部21の指令生成部21gは、端末特定部21eで特定した端末装置10に対して、ユーザからの命令情報に応答させるための指令情報を生成する。ユーザからの命令情報がグループの中から特定の端末装置10を探し出すためのものである場合、指令情報は、例えばその特定の端末装置10に音や光などを出力させるための制御情報であればよい。なお、ユーザの命令情報は、より複雑なものであっても構わない。例えば、ユーザからの命令情報が、グループ内の特定の端末装置10に特定の機能の発揮を要求するもの(例えばグループ内の最もバッテリ残量の多い端末装置10に静止画の撮影を要求するもの)である場合には、指令情報もそのような命令情報に対応したものとなる。
【0062】
次に、制御装置20は、指令生成部21gで生成した指令情報を、通信部23を介して、端末特定部21eで特定した端末装置10に対して送信する(ステップS12)。この特定の端末装置10は、制御装置20から指令情報を受信する(ステップS13)。この指令情報を受信した端末装置10は、その指令情報に従って、音や光を出力したり、あるいはその他の特定の機能を発揮するように、各種のハードウェアを制御する(ステップS14)。このように、本発明のシステムでは、ユーザの音声による命令に基づいて複数の端末装置10を自動的にグループ化するとともに、そのグループ内の特定の端末に対してユーザの命令に対する応答を自動的に実行させることが可能となる。
【0063】
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
【0064】
例えば、前述した実施形態では、端末装置10はユーザの音声信号を単純に制御装置20へ送ることとし、この制御装置20においてユーザの音声信号を一括して解析処理を行うこととしていた。一方で、制御装置20の負荷を軽減するために、各端末装置10においてユーザの音声信号の解析処理を実行し、その解析結果を各端末装置10から制御装置20へ送ることとしてもよい。この場合、
図4に示した音声解析部21bの機能は、端末装置10の制御部11により実現されることとなる。同様に、
図5に示した音声解析工程(ステップS6)は、複数の端末装置10において実行されることとなる。
【0065】
また、上記の音声の解析処理に限らず、その他にも制御装置20で実行していた処理の一部を各端末装置10に負担させることで、制御装置20の負荷を各端末装置10へと分散させることも可能である。
【符号の説明】
【0066】
10…端末装置 11…制御部
12…記憶部 13…通信部
14…集音部 15…撮像部
16…ジェスチャセンサ 17…センサ類
18…放音部 19…位置情報取得部
20…制御装置 21…管理制御部
21a…モニタリング部 21b…音声解析部
21c…グルーピング部 21d…命令取得部
21e…端末特定部 21g…指令生成部
22…データベース 23…通信部
30…支援装置 100…システム