特許第6892173号(P6892173)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディヴァース インコーポレイテッドの特許一覧

特許6892173コミュニケーションシステム、管理サーバ、およびそれらの制御方法
<>
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000002
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000003
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000004
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000005
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000006
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000007
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000008
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000009
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000010
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000011
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000012
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000013
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000014
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000015
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000016
  • 特許6892173-コミュニケーションシステム、管理サーバ、およびそれらの制御方法 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6892173
(24)【登録日】2021年5月31日
(45)【発行日】2021年6月23日
(54)【発明の名称】コミュニケーションシステム、管理サーバ、およびそれらの制御方法
(51)【国際特許分類】
   G06F 13/00 20060101AFI20210614BHJP
   H04M 3/42 20060101ALI20210614BHJP
【FI】
   G06F13/00 650B
   H04M3/42 P
   H04M3/42 A
【請求項の数】12
【全頁数】28
(21)【出願番号】特願2020-175312(P2020-175312)
(22)【出願日】2020年10月19日
【審査請求日】2020年10月19日
【早期審査対象出願】
(73)【特許権者】
【識別番号】518144986
【氏名又は名称】シンメトリー・ディメンションズ・インク
(74)【代理人】
【識別番号】110002000
【氏名又は名称】特許業務法人栄光特許事務所
(72)【発明者】
【氏名】瀬古 保次
(72)【発明者】
【氏名】沼倉 正吾
【審査官】 今川 悟
(56)【参考文献】
【文献】 特開2002−202882(JP,A)
【文献】 特開2019−179314(JP,A)
【文献】 特開2014−064093(JP,A)
【文献】 特開2014−060647(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/42
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信手段と
を有し、
前記第1の解析手段が、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とするコミュニケーションシステム。
【請求項2】
前記第1の解析手段が、すでに接続が確立されたグループに属している端末からの音声データに基づいて、当該グループに属していない第3の端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とする請求項1に記載のコミュニケーションシステム。
【請求項3】
前記第2の送信手段は、前記グループに属する端末のうち、音声データを送信してきた端末以外の端末に対して、当該音声データを送信することを特徴とする請求項1または2に記載のコミュニケーションシステム。
【請求項4】
前記接続手段にて接続が確立されたグループに属する端末のうち、所定の時間の間、音声データを送信してこなかった端末との接続を切断する切断手段を更に有することを特徴とする請求項1〜のいずれか一項に記載のコミュニケーションシステム。
【請求項5】
前記管理サーバは、
前記音声データからテキストデータを生成する生成手段と、
前記生成手段にて生成したテキストデータを掲示板画面上に表示する掲示手段と
を更に有することを特徴とする請求項1〜のいずれか一項に記載のコミュニケーションシステム。
【請求項6】
前記生成手段は更に、前記テキストデータから要約データを生成し、
前記掲示手段は更に、当該要約データを前記掲示板画面上に表示する
ことを特徴とする請求項に記載のコミュニケーションシステム。
【請求項7】
前記管理サーバは、
前記音声データに基づいて、実行すべき処理を特定する第2の解析手段と、
前記第2の解析手段にて特定された処理を実行する処理手段と
を更に有することを特徴とする請求項に記載のコミュニケーションシステム。
【請求項8】
前記第2の解析手段にて特定される処理は写真登録処理であり、
前記処理手段は、
前記テキストデータから要約データを生成し、
当該要約データ、指定された画像データ、撮影位置、撮影日時、および前記音声データの発話者の情報を対応付けて前記掲示板画面上に表示する
ことを特徴とする請求項に記載のコミュニケーションシステム。
【請求項9】
前記第2の解析手段にて特定される処理はスケジューリング処理であり、
前記処理手段は、
前記テキストデータからスケジュールを設定する対象者を特定し、
前記テキストデータから要約データを生成し、
前記特定された対象者にスケジュールの通知を行い、
前記要約データを前記掲示板画面上に表示する
ことを特徴とする請求項に記載のコミュニケーションシステム。
【請求項10】
複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信工程と
を有し、
前記第1の解析工程において、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とするコミュニケーションシステムの制御方法。
【請求項11】
複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する信手段と
を有し、
前記解析手段が、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とする管理サーバ。
【請求項12】
複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する信工程と
を有し、
前記解析工程において、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とする管理サーバの制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、コミュニケーションシステム、管理サーバ、およびそれらの制御方法に関する。
【背景技術】
【0002】
近年、遠隔地において多人数間のコミュニケーションをサポートするツールが普及している。例えば、SNS(Social Networking Service)などでは、文字や音声を用いて多人数間でのコミュニケーションを行うための機能が提供されている。
【0003】
例えば、特許文献1には、スマートフォンなどの端末間の通話内容を文字へ変換し、表示領域へ表示させる構成が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020−154652号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来、携帯電話などの一般的なコミュニケーションツールでは、要求元が通信相手を指定して接続を試み、その通信相手側が接続を承諾した結果、2者間でのコミュニケーション(例えば、通話)が開始される。このような一般的な手順では、通信相手とのコミュニケーションが開始されるまでに時間や手間を要する。例えば、急用である場合には、このような時間や手間がユーザの利便性を低下させてしまう。
【0006】
また、上記のような従来のコミュニケーションツールでは、コミュニケーション相手が遠隔地にいる感覚でコミュニケーションを行うため、コミュニケーション相手がすぐそばにいるような感覚でのコミュニケーションとは異なるものとなっていた。例えば、会話相手がそばにいる状況では、何かしらのアクションを行うことなく、単に話しかける(発声する)だけで会話が開始されることとなる。
【0007】
本願発明は、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能なコミュニケーションシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために本願発明は以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信手段と
を有し、
前記第1の解析手段が、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させる
【0009】
また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信工程と
を有し、
前記第1の解析工程において、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第3の端末を更に当該グループに含めて接続を確立させる
【0010】
また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する信手段と
を有し、
前記解析手段が、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させる
【0011】
また、本願発明の別の一形態として以下の構成を有する。すなわち、複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する信工程と
を有し、
前記解析工程において、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続工程では、前記第3の端末を更に当該グループに含めて接続を確立させる
【発明の効果】
【0012】
本願発明によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【図面の簡単な説明】
【0013】
図1】本願発明の一実施形態に係るシステムの全体構成の例を示す概要図。
図2】本願発明の一実施形態に係る各装置の機能構成の例を示す図。
図3】第1の実施形態に係る命令ワードDBの構成例を示す図。
図4】第1の実施形態に係る音声データDBの構成例を示す図。
図5】第1の実施形態に係る通信先情報DBの構成例を示す図。
図6】第1の実施形態に係るグループ管理DBの構成例を示す図。
図7】第1の実施形態に係る学習済みモデルの説明。
図8】第1の実施形態に係る処理シーケンス(1対1間の通話接続)。
図9】第1の実施形態に係る自動切断処理の処理シーケンス。
図10】第2の実施形態に係る処理シーケンス(多人数間の通話接続)。
図11】第2の実施形態に係る処理シーケンス(多人数間の通話接続)。
図12】第3の実施形態に係る各装置の機能構成の例を示す図。
図13】第3の実施形態に係る処理シーケンス。
図14】第3の実施形態に係る掲示板機能の画面構成の例を示す図。
図15】第4の実施形態に係る掲示板の写真登録機能の処理シーケンス。
図16】第4の実施形態に係る掲示板のスケジューリング機能の処理シーケンス。
【発明を実施するための形態】
【0014】
以下、本願発明を実施するための形態について図面などを参照して説明する。なお、以下に説明する実施形態は、本願発明を説明するための一実施形態であり、本願発明を限定して解釈されることを意図するものではなく、また、各実施形態で説明されている全ての構成が本願発明の課題を解決するために必須の構成であるとは限らない。また、各図面において、同じ構成要素については、同じ参照番号を付すことにより対応関係を示す。
【0015】
<第1の実施形態>
以下、本願発明の第1の実施形態について説明を行う。
【0016】
[システム構成]
図1は、本実施形態に係るコミュニケーションシステムの全体構成の例を示す概念図である。本実施形態に係るコミュニケーションシステムは、管理サーバ101と複数の端末103〜105とがネットワーク102を介して通信可能に接続される。図1では、3つの端末を例に挙げて示しているが、端末数は特に限定するものではなく、更に多くの端末が含まれてもよい。端末としては、スマートフォンやタブレット端末などの携帯端末であってもよいし、ヘッドマウントディスプレイやヘッドフォン、スマートウォッチなどのウェアラブル端末であってもよい。したがって、各端末は、同じ構成であってもよいし、別の構成を備えていてもよい。端末はそれぞれ、ユーザにより所持されているものとする。また、管理サーバ101は、図1に示すように1台の装置にて構成されるものに限定するものではなく、負荷分散や機能などに応じて複数の装置にて構成されてよいし、クラウドコンピューティングやエッジコンピューティングなどの手法を用いて実現されてもよい。
【0017】
[機能構成]
図2は、本実施形態に係る各装置の機能構成の例を示す図である。図2(a)は、本実施形態に係る端末の機能構成の例を示す図である。ここでは、端末103を例に挙げて説明するが、他の端末104、105も同等の構成を備えるものとする。端末103は、音声入力部201、音声出力部202、表示部203、操作入力部204、処理部205、データ通信部206、および記憶部207を含んで構成される。
【0018】
音声入力部201は、マイク(不図示)などを含んで構成され、外部から音声の入力を受け付ける。ここでの音声は、例えば、端末103のユーザの発話などが含まれる。音声出力部202は、スピーカ(不図示)などを含んで構成され、外部への音声データの出力を行う。表示部203は、例えば、ディスプレイなどを含んで構成され、UI(User Interface)画面や各種情報を表示する。操作入力部204は、ユーザからの操作を受け付ける。例えば、表示部203と操作入力部204が一体となったタッチパネルディスプレイなどが用いられてもよい。
【0019】
処理部205は、端末103における各種処理の他、端末103の動作を統括的に制御する。処理部は例えば、CPU(Central Processing Unit)や専用回路などから構成されてよい。データ通信部206は、ネットワークインターフェース(NIC)などを含んで構成され、外部とのデータの送受信に関する制御を行う。ここでの通信規格は特に限定するものでは無いが、後述するような音声通信などが可能なプロトコル(例えば、VoIPなど)を利用可能であるものとする。また、本実施形態において、各端末は、管理サーバ101へアクセスするための各種情報を予め保持しているものとする。記憶部207は、ROM(Read Only Memory)やHDD(Hard Disk Drive)などの不揮発性の記憶装置や、RAM(Random Access Memory)などの揮発性の記憶領域などから構成されてよい。
【0020】
図2(b)は、本実施形態に係る管理サーバ101の機能構成の例を示す図である。管理サーバ101は、不図示の処理部、記憶部、および入出力部を備えた情報処理装置として構成される。処理部は例えば、CPUや専用回路などから構成されてよい。記憶部は、ROMやHDDなどの不揮発性の記憶装置や、RAMなどの揮発性の記憶領域などから構成されてよい。以下に示す各部位は、例えば、記憶部に格納されたプログラムを処理部が読み出して実行することにより実現されてよい。管理サーバ101は、音声変換部211、データ解析部212、接続管理部213、接続制御部214、通信先決定部215、通信先情報管理部216、音声データ管理部217、およびデータ通信部218を含んで構成される。
【0021】
音声変換部211は、各端末から受信した音声データをテキストデータに変換する。データ解析部212は、変換されたテキストデータの解析を行う。例えば、テキストデータに対して、形態素解析、構文解析、文脈解析、意味解析、単語抽出などを行って、実行すべき処理の特定を行う。本実施形態に係る解析処理の具体例については後述する。
【0022】
接続管理部213は、端末との接続を管理する。また、接続管理部213は、複数の端末との接続をグループ化し管理する。本実施形態に係る接続管理やグループ化の詳細は後述する。接続制御部214は、端末との接続の確立および切断を制御する。通信先決定部215は、テキストデータに基づいて、接続を確立する通信先を決定する。
【0023】
通信先情報管理部216は、接続を行う通信先の情報を管理する。通信先情報の例については、図5を用いて後述する。音声データ管理部217は、各端末から受信した音声データを管理する。ここで管理する情報の例については、図4を用いて後述する。データ通信部218は、ネットワークインターフェース(NIC)などを含んで構成され、外部とのデータの送受信に関する制御を行う。ここでの通信規格は特に限定するものでは無いが、後述するような音声通信が可能なプロトコル(例えば、VoIPなど)を利用可能であるものとする。
【0024】
[データベース(DB)構成]
(命令ワードDB)
図3は、本実施形態に係る命令ワードDBの構成例を示す。命令ワードは、ユーザから入力された音声に含まれるキーワードを示し、このキーワードに応じて所定の処理が実行されるものとする。管理サーバ101のデータ解析部212は、入力された音声から命令ワードを抽出し、実行する処理を特定した上で、その処理を実行する。本実施形態では、命令ワードDBは、管理サーバ101に保持され、適時更新されるものとする。
【0025】
命令ワードDBは、命令ワードと実行処理が対応付けて保持されているものとする。命令ワードとしては、例えば、人名や処理を示す名称などが挙げられる。また、命令ワードに対応付けられる処理としては、端末と管理サーバ101の接続の確立(接続処理)や、入力された音声データの送信(音声データ送信)、確立されている接続の切断(切断処理)などが挙げられる。また、図3に示すように、命令ワードが含まれていない場合でも、管理サーバ101と各端末との通信が確立された状態であれば、入力された音声データを装置間で送受信するような構成であってもよい。なお、ここでの処理は特に限定するものではなく、管理サーバ101の機能などに応じて規定されてよい。
【0026】
(音声データDB)
図4は、本実施形態に係る音声データDBの構成例を示す。音声データDBは、管理サーバ101の音声データ管理部217にて管理され、適時更新されるものとする。音声データDBは、コミュニケーションが行われた際の音声の履歴情報として用いられる。音声データDBは、音声データID、端末ID、発話日時、音声データの格納先、テキストデータの格納先、およびグループIDを含んで構成される。音声データIDは、音声データを一意に識別するための識別情報である。端末IDは、端末を一意に識別するための識別情報であり、音声データを管理サーバ101に送信してきた端末の端末IDが設定される。発話日時は、端末から音声データを受信した日時が設定される。
【0027】
音声データの格納先は、端末から受信した音声データの格納先を示す。この格納先は、管理サーバ101が備えた記憶装置であってもよいし、他の装置にて構成された記憶装置であってもよい。音声データは、所定のファイル形式にて管理されているものとするが、ファイル形式は特に限定するものではない。テキストデータの格納先は、端末から受信した音声データを変換することにより得られるテキストデータの格納先を示す。テキストデータは、所定のファイル形式にて管理されているものとするが、ファイル形式は特に限定するものではない。グループIDは、端末と管理サーバ101との間の接続をグループ化した際に、各グループを一意に識別するための識別情報である。各IDの仕様(桁数や使用可能文字など)は、図4に示したものに限定するものでは無く、任意の仕様が用いられてよい。また、各IDは、管理サーバ101が任意のタイミングにて割り当てる構成であってよい。
【0028】
(通信先情報DB)
図5は、本実施形態に係る通信先情報DBの構成例を示す。通信先情報DBは、管理サーバ101の通信先情報管理部216にて管理され、適時更新されるものとする。通信先情報DBは、対応ワード、端末ID、電話番号、およびIPアドレスを含んで構成される。対応ワードは、テキストデータから抽出されるワードに対応する。端末IDは、端末を一意に識別するための識別情報であり、図3の音声データDBの端末IDに対応する。電話番号は、端末に割り当てられた電話番号を示す。IPアドレスは、端末に割り当てられたIPアドレスを示す。図5では、IPアドレスとして、IPv6の構成にて示しているが、これに限定するものではない。なお、管理サーバ101と端末との間の通信プロトコルに応じて、電話番号またはIPアドレスの一方のみが接続の際に用いられてもよいし、他の情報が用いられてもよい。
【0029】
(グループ管理DB)
図6は、本実施形態に係るグループ管理DBの構成例を示す。グループ管理DBは、管理サーバ101の接続管理部213にて管理され、適時更新されるものとする。グループ管理DBは、グループID、所属端末ID、接続開始日時、最新音声データ受信日時、および最新音声データ送信日時を含んで構成される。グループIDは、グループを一意に識別するための情報である。本実施形態に係るグループとは、管理サーバ101と端末の接続を複数まとめて管理するためのものであり、そのグループに属する端末間において音声データの送受信が行われ、所謂グループ通話が可能となる。例えば、管理サーバ101と端末103、104、105それぞれとの接続を1のグループとして管理している場合、端末103、104、105にてグループ通話が可能となる。
【0030】
所属端末IDは、グループに属している端末の端末IDを示し、図3などに示した端末IDに対応する。接続開始日時は、グループに属して接続を開始した日時を示す。最新音声データ受信日時は、対応する端末から音声データを受信した最新の日時を示す。最新音声データ送信日時は、対応する端末へ音声データを送信した最新の日時を示す。
【0031】
なお、上記に示す各種DBの構成例は一例であり、これに限定するものではない。例えば、他の項目を含めて管理してもよいし、上記に示した例のうちの1のDBを複数のDBに分けて構成してもよい。
【0032】
[データ解析処理]
次に本実施形態に係る管理サーバ101のデータ解析部212によるデータ解析処理について説明する。データ解析部212は、端末から取得した音声データを音声変換部211にてテキストデータに変換した後、そのテキストデータの解析を行う。解析により、実行すべき処理を特定する。解析手法は特に限定するものではないが、本実施形態では、上述した命令ワードDB(図3)を用いての処理の特定、および、予め学習処理が行われた学習済みモデルを用いて行う例について説明する。
【0033】
(学習済みモデル)
本実施形態では、1または複数の単語を入力とし、実行する処理を出力するための学習済みモデルを用いる。本実施形態にて用いる学習済みモデルのための学習方法は、ニューラルネットワークによる教師あり学習を用いるものとして説明するが、これ以外の手法が用いられてよい。
【0034】
図7は、本実施形態に係る学習処理の概念を説明するための図である。本実施形態にて用いる学習用データは、入力データと教師データとの対から構成される。入力データは、例えば、音声データから生成されるテキストデータに含まれ得る1または複数の単語である。また、教師データは、管理サーバ101にて実行すべき処理である。
【0035】
学習モデルに入力データ(1または複数の単語)を入力すると、その入力に応じて実行すべき処理を示す出力データが出力される。そして、損失関数を用いて、出力データと、教師データとの比較が行われ、学習モデルにおける重みが調整されることで、学習モデルのパラメータが更新される。この処理を繰り返すことで学習済みモデルが生成される。つまり、本実施形態において、学習済みモデルは、分類器としての動作を行うこととなる。なお、学習処理は、学習用データが追加されるごとに繰り返されてよく、その学習結果により学習済みモデルが更新されてよい。
【0036】
出力データとしての処理の種類は、管理サーバ101の機能に応じて、予め規定されているものとする。本実施形態では、例えば、端末との接続処理、音声データの送信処理、接続の切断処理などが該当する。また、学習処理自体は管理サーバ101が学習処理部(不図示)を備えて行ってもよいし、他の装置にて学習処理を行い、管理サーバ101が適時取得するような構成であってもよい。また、出力データとして示される処理は、1つであってもよいし、複数であってもよい。
【0037】
データ解析部212は、テキストデータの解析を行う際には、対象となるテキストデータに対して、形態素解析、構文解析、文脈解析、意味解析、単語抽出などを行って、入力データの生成を行う。そして、データ解析部212は、その入力データを学習済みモデルに適用することで、実行するべき処理を特定する。また、データ解析部212は、命令ワードDB(図3)を参照することで、抽出した単語に対応付けられた処理を特定することができる。例えば、データ解析部212は、テキストデータから人名などを抽出した際には、通信先決定部215にそのデータを渡し、通信先の決定などを行わせる。そのほか、データ解析部212は、特定した処理に応じて、他の部位に対して処理の実行を要求する。なお、入力データは、テキストデータの元となった音声データの発話者や端末の情報などを含めてもよい。この場合には、学習処理においても同等のデータを用いて学習を行うことが望ましい。
【0038】
データ解析部212による学習済みモデルを用いた処理の特定の具体例について説明する。例えば、以下のような内容の音声データを端末から受信した場合、これがテキストデータに変換される。そして、学習済みモデルへの入力データを生成した上で、実行すべき処理が特定される。
テキストデータ:「Bさん、その柱Cは北側に設置するように設計変更されたよ。」
入力データ(単語):「Bさん」「柱C」「北側」「設置」「設計変更」
出力データ(処理):「接続処理」、「音声データ送信処理」
【0039】
その後、管理サーバ101の通信先決定部215により通信先(ここでは「Bさん」に対応する端末)が特定され、「接続処理」および「音声データ送信処理」が実行される。
【0040】
なお、命令ワードDBと学習済みモデルは両方が用いられてもよいし、一方のみが用いられてもよい。また、両方を用いる場合には、それぞれにて特定した処理全てを実行するような構成であってもよいし、いずれかを優先するような構成であってもよい。
【0041】
[処理シーケンス]
以下、本実施形態に係る通信処理の流れについて説明する。図8は、本実施形態に係るシステムにおける通信シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ101、端末103、および端末104としてまとめて示す。また、図8では、処理の起点として端末103を例に挙げて説明するが、これに限定するものではなく、他の端末が起点となった場合でも同様の処理が行われるものとする。
【0042】
なお、本処理を開始する場合において、端末103、104は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。
【0043】
S801にて、端末103は、ユーザ(ここでは、ユーザAとする)から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末103が備えるマイク(不図示)を介して行われる。
【0044】
S802にて、端末103は、管理サーバ101へアクセスを行い、S801にて入力された音声に基づく音声データを管理サーバ101へ送信する。なお、上述したように、端末103は、管理サーバ101へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。
【0045】
S803にて、管理サーバ101は、端末103から送信されてきた音声データを受信する。
【0046】
S804にて、管理サーバ101は、S805にて受信した音声データをテキストデータに変換する。
【0047】
S805にて、管理サーバ101は、音声データとテキストデータを所定の格納先に記録し、音声データDB(図4)に登録する。
【0048】
S806にて、管理サーバ101は、変換したテキストデータの解析を行う。本実施形態では、図3に示した命令ワードDBや図7を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理(通信先決定、接続処理、音声データ送信など)が特定されたものとして説明する。
【0049】
S807にて、管理サーバ101は、S806にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報DB(図5)を参照して決定する。ここでは、接続先として、端末104を特定したものとして説明する。
【0050】
S808にて、管理サーバ101は、特定した接続先が既に端末103と接続中か否かを判定する。具体的には、管理サーバ101は、グループ管理DB(図6)を参照し、音声データの発信元である端末103と、接続先である端末104が同じグループに属した状態であるか否かを判定する。接続中である場合には(S808にてYES)、管理サーバ101の処理はS813へ進む。一方、接続中でない場合には(S808にてNO)、管理サーバ101の処理はS809へ進む。
【0051】
S809にて、管理サーバ101は、接続先として特定した端末104との接続を確立するための接続処理を行う。このとき、音声データの送信元である端末103との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。
【0052】
S810にて、管理サーバ101は、S809にて行った接続処理にて確立された各接続をグループ化する。具体的には、管理サーバ101は、端末103との接続、および、端末104との接続をグループ化し、端末103と端末104を含むグループ内で音声による音声データの送受信ができるように制御する。
【0053】
S811にて、管理サーバ101は、S803にて受信した音声データを端末104へ送信する。
【0054】
S812にて、端末104は、管理サーバ101から音声データを受信する。
【0055】
S813にて、端末104は、S813にて管理サーバ101から受信した音声データを、スピーカ(不図示)などを介して出力する。そして、本処理シーケンスを終了する。
【0056】
(自動切断処理)
次に、図8にて説明した処理シーケンスにおいて確立された接続を自動的に切断する処理について説明する。図9は、本実施形態に係る自動切断処理のフローチャートである。本処理フローは、管理サーバ101が備える処理部が記憶部に格納されたプログラムを読み出して実現されてよい。また、本処理は、管理サーバ101の接続管理部213がグループ管理DB(図6)を用いて管理している各グループそれぞれに対して適時行われるものとする。
【0057】
S901にて、管理サーバ101は、グループ管理DB(図6)を参照し、グループに属している端末のうち、未処理の1の端末に着目する(以下、着目端末と称する)。
【0058】
S902にて、管理サーバ101は、グループ管理DB(図6)を参照し、着目端末の情報を取得する。
【0059】
S903にて、管理サーバ101は、S902にて取得した情報に基づき、着目端末からの音声データの受信が行われずに一定時間が経過したか否かを判定する。ここでの一定時間は特に限定するものではないが、管理サーバ101側で予め設定されていてもよいし、各端末のユーザが設定できるような構成であってもよい。一定時間として、例えば、20秒が設定されてよい。一定時間が経過した場合は(S903にてYES)、管理サーバ101の処理はS904へ進む。一方、一定時間が経過していない場合は(S903にてNO)、管理サーバ101の処理はS907へ進む。
【0060】
S904にて、管理サーバ101は、着目端末との間に確立している接続を切断する。これにより、着目端末はグループから除外されることとなる。
【0061】
S905にて、管理サーバ101は、着目端末が除外された結果、グループに含まれる端末が1つのみになったか否かを判定する。1つのみの端末が含まれている場合(S905にてYES)、管理サーバ101の処理はS906へ進む。一方、複数の端末が含まれている場合(S905にてNO)、管理サーバ101の処理はS907へ進む。
【0062】
S906にて、管理サーバ101は、グループに残っている端末との間に確立している接続を切断する。これによりグループに属する端末は無くなるため、管理サーバ101は、当該グループの管理を終了する。そして、本処理フローを終了する。
【0063】
S907にて、管理サーバ101は、グループに属する端末のうち、未処理の端末があるか否かを判定する。未処理の端末がある場合(S907にてYES)、管理サーバ101の処理はS901へ戻り、処理を繰り返す。一方、未処理の端末が無い場合(S907にてNO)、本処理フローを終了する。
【0064】
以上、本実施形態により、ユーザによる接続動作を必要とすることなく、発話をするだけで目的とする相手との接続が行われ、コミュニケーションを行うことができる。また、通話相手側も承認動作を必要とすることなく、コミュニケーションを開始することができる。また、コミュニケーションが不要となった場合には、特段の動作を行うことなく、接続を切断することが可能となる。その結果、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0065】
<第2の実施形態>
第1の実施形態では、2者間にてコミュニケーションを行う形態について説明した。本実施形態では、3者以上の間でのコミュニケーション(いわゆる、グループ通話)の形態について説明する。なお、第1の実施形態と重複する構成については説明を省略し、差分に着目して説明する。ここでは、端末103、104、105間でコミュニケーションを行う例について説明する。
【0066】
[処理シーケンス]
以下、本実施形態に係る通信処理の流れについて説明する。図10図11は、本実施形態に係るシステムにおける通信シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ101、端末103、端末104、端末105としてまとめて示す。なお、本処理を開始する場合において、端末103、端末104、端末105は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。
【0067】
(新たな端末の追加)
図10は、すでにグループに含まれる端末を起点として新たな通話相手となる端末を追加する場合の処理シーケンスを示す。図10の処理シーケンスが開始される前に第1の実施形態の図8にて述べた処理シーケンスが行われているものとする。その結果、管理サーバ101と、端末103および端末104との接続が確立されてグループが生成され、これらの通話が可能な状態になっているものとする。
【0068】
S1001にて、端末103は、ユーザAから発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末103が備えるマイク(不図示)を介して行われる。
【0069】
S1002にて、端末103は、管理サーバ101へアクセスを行い、S1001にて入力された音声に基づく音声データを管理サーバ101へ送信する。なお、上述したように、端末103は、管理サーバ101へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。
【0070】
S1003にて、管理サーバ101は、端末103から送信されてきた音声データを受信する。
【0071】
S1004にて、管理サーバ101は、S1003にて受信した音声データをテキストデータに変換する。
【0072】
S1005にて、管理サーバ101は、音声データとテキストデータを所定の格納先に記録し、音声データDB(図4)に登録する。
【0073】
S1006にて、管理サーバ101は、変換したテキストデータの解析を行う。本実施形態では、図3に示した命令ワードDBや図7を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理(通信先決定、接続処理、音声データ送信など)が特定されたものとして説明する。
【0074】
S1007にて、管理サーバ101は、S1006にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報DB(図5)を参照して決定する。ここでは、接続先として、端末105を特定したものとして説明する。
【0075】
S1008にて、管理サーバ101は、接続先として特定した端末105との接続を確立するための接続処理を行う。上述したように、端末103と端末104それぞれとの接続はすでに確立されてグループ化されているものとする。
【0076】
S1009にて、管理サーバ101は、S1008にて行った接続処理にて確立された端末105と接続を、音声データの送信元である端末103が属するグループに含めるようにグループ化する。これにより、端末103、端末104、端末105を含むグループが生成され、このグループ内で音声による音声データの送受信ができるように制御される。
【0077】
S1010にて、管理サーバ101は、S1003にて受信した音声データを端末104へ送信する。
【0078】
S1011にて、管理サーバ101は、S1003にて受信した音声データを端末105へ送信する。
【0079】
S1012にて、端末104は、管理サーバ101から音声データを受信する。
【0080】
S1013にて、端末104は、S1012にて管理サーバ101から受信した音声データを、スピーカ(不図示)などを介して出力する。
【0081】
S1014にて、端末105は、管理サーバ101から音声データを受信する。
【0082】
S1015にて、端末105は、S1014にて管理サーバ101から受信した音声データを、スピーカ(不図示)などを介して出力する。
【0083】
(新たな端末の参加)
図11は、グループへの未参加の端末を起点として、既存のグループがあればそのグループに参加する場合の処理シーケンスを示す。
【0084】
S1101にて、端末105は、ユーザ(ここでは、ユーザCとする)から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末105が備えるマイク(不図示)を介して行われる。
【0085】
S1102にて、端末105は、管理サーバ101へアクセスを行い、S1101にて入力された音声に基づく音声データを管理サーバ101へ送信する。なお、上述したように、端末105は、管理サーバ101へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。
【0086】
S1103にて、管理サーバ101は、端末105から送信されてきた音声データを受信する。
【0087】
S1104にて、管理サーバ101は、S1103にて受信した音声データをテキストデータに変換する。
【0088】
S1105にて、管理サーバ101は、音声データとテキストデータを所定の格納先に記録し、音声データDB(図4)に登録する。
【0089】
S1106にて、管理サーバ101は、変換したテキストデータの解析を行う。本実施形態では、図3に示した命令ワードDBや図7を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。ここでは、実行すべき処理として、通信に関する処理(通信先決定、接続処理、音声データ送信など)が特定されたものとして説明する。
【0090】
S1107にて、管理サーバ101は、S1006にて特定した処理に対応して、その処理に必要な情報を特定する。ここでは、通信に関する処理が特定されたものとし、その接続先となる端末をテキストデータに含まれる単語に基づいて、通信先情報DB(図5)を参照して決定する。ここでは、接続先として、端末104を特定したものとして説明する。
【0091】
S1109にて、管理サーバ101は、特定した接続先(ここでは、端末104)を含むグループが登録されているか否かを判定する。具体的には、グループ管理DB(図6)を参照し、端末104が属するグループが登録されているか否かを判定する。端末104を含むグループがある場合には(S1108にてYES)、管理サーバ101の処理はS1112へ進む。一方、端末104を含むグループが無い場合には(S1108にてNO)、管理サーバ101の処理はS1109へ進む。
【0092】
S1109にて、管理サーバ101は、接続先として特定した端末104との接続を確立するための接続処理を行う。このとき、音声データの送信元である端末105との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。
【0093】
S1110にて、管理サーバ101は、S1109にて行った接続処理にて確立された各接続をグループ化する。具体的には、管理サーバ101は、端末104との接続、および、端末105との接続をグループ化し、端末104と端末105を含むグループ内で音声による音声データの送受信ができるように制御する。
【0094】
S1111にて、管理サーバ101は、S1103にて受信した音声データを端末104へ送信する。
【0095】
S1112にて、管理サーバ101は、端末105と接続を、音声データの送信元である端末104が属するグループに含めるようにグループ化する。このとき、端末103と端末104それぞれとの接続はすでに確立されてグループ化されているものとする。また、音声データの送信元である端末105との接続が確立されていない場合には、このタイミングで確立するような構成であってもよい。これにより、端末103、端末104、端末105を含むグループが生成され、このグループ内で音声による音声データの送受信ができるように制御される。
【0096】
S1113にて、管理サーバ101は、S1103にて受信した音声データを端末104へ送信する。
【0097】
S1114にて、管理サーバ101は、S1003にて受信した音声データを端末103へ送信する。
【0098】
S1115にて、端末104は、管理サーバ101から音声データを受信する。
【0099】
S1116にて、端末104は、S1115にて管理サーバ101から受信した音声データを、スピーカ(不図示)などを介して出力する。
【0100】
S1117にて、端末103は、管理サーバ101から音声データを受信する。
【0101】
S1118にて、端末103は、S1117にて管理サーバ101から受信した音声データを、スピーカ(不図示)などを介して出力する。
【0102】
以上、本実施形態により、ユーザによる接続動作を必要とすることなく、発話をするだけで新たな端末を追加したり、参加したりすることができ、多者間でのコミュニケーションを容易に行うことが可能となる。更には、第1の実施形態の図9に示す自動切断機能により、グループからの離脱を容易に行うことも可能である。その結果、遠隔地にいる複数の相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0103】
<第3の実施形態>
上記の実施形態では、通話機能に着目した形態について説明した。本願発明の第3の実施形態として、更に掲示板機能を備える構成について説明する。なお、第1の実施形態と重複する構成については説明を省略し、差分に着目して説明する。
【0104】
[機能構成]
図12は、本実施形態に係る管理サーバ101の機能構成の例を示す。第1の実施形態の図2(a)との差分として、管理サーバ101は、掲示板管理部1201、写真登録部1202、およびスケジュール登録部1203を更に備える。掲示板管理部1201は、音声変換部211にて変換されたテキストデータを表示する掲示板の生成、管理を行う。写真登録部1202は、指定された写真などの画像データを管理し、掲示板への登録を行う。スケジュール登録部1203は、指定されたスケジュールの内容を管理する。写真登録部1202による写真登録機能、および、スケジュール登録部1203によるスケジュール登録機能の詳細については、第4の実施形態にて後述する。
【0105】
[処理シーケンス]
以下、本実施形態に係る処理の流れについて説明する。図13は、本実施形態に係るシステムにおける処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ101、端末103、および端末104としてまとめて示す。第1の実施形態にて述べた図8との差分として、S1301、S1302の処理が追加されている。
【0106】
S810の処理の後、S1301にて、管理サーバ101は、グループに対応する掲示板を生成する。掲示板の構成例については、図14を用いて後述する。
【0107】
S808にてNOの場合(特定した接続先と音声データの送信元である端末とが接続中である場合)、または、S1301の処理の後、管理サーバ101の処理は、S1302へ進む。S1302にて、管理サーバ101は、S805にて記録されているテキストデータを時系列順に登録する。そして、管理サーバ101の処理は、S811へ進む。
【0108】
なお、第2の実施形態にて述べた図10図11の処理においてもS1301、S1302と同様の処理を追加することで、掲示板機能を実現してよい。
【0109】
[掲示板の構成例]
図14は、本実施形態に係る管理サーバ101が提供する掲示板機能による掲示板の画面構成の例を示す図である。掲示板画面1400は、管理サーバ101にWebブラウザ(不図示)を介してアクセスすることで参照できるような構成であってもよいし、各端末にインストールされたアプリケーション(不図示)を起動することで参照できるような構成であってもよい。
【0110】
掲示板画面1400は、音声データの入力を行った端末のユーザを示すアイコン1401、その音声データから生成されたテキストデータの内容1402、および、音声データが入力された日時情報1403を対として、時系列に並べて表示される。また、接続処理など、システム(管理サーバ101)側で行われた処理の内容を併せて表示してもよい(アイコン1404、メッセージ1405等)。
【0111】
なお、掲示板にテキストデータを登録するか否かは、S806の解析処理の結果に基づいて行われてもよい。例えば、所定の単語がテキストデータに含まれている場合には、掲示板に登録しないような構成であってもよい。
【0112】
以上、本実施形態により、発話内容を記録して表示する掲示板機能を備えることで、第1、第2の実施形態の効果に加え、すでに行われた発話によるコミュニケーションの記録を容易に行うことができる。
【0113】
<第4の実施形態>
本願発明の第4の実施形態として、図12に示した管理サーバ101が備える、写真登録部1202による写真登録機能、および、スケジュール登録部1203によるスケジュール登録機能について説明する。なお、上述した各実施形態と重複する構成については説明を省略し、差分に着目して説明する。
【0114】
[処理シーケンス]
(写真登録機能)
以下、本実施形態に係る写真登録処理の流れについて説明する。図15は、本実施形態に係るシステムにおける写真登録機能の処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ101、および端末103としてまとめて示す。なお、本処理を開始する場合において、端末103は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。
【0115】
S1501にて、端末103は、ユーザ(ここでは、ユーザAとする)からの写真の選択を受け付ける。ここでの写真は、端末103が備えるカメラ(不図示)などを用いて撮影されたものであってもよいし、端末103が外部から取得した画像であってもよい。また、写真の選択は、端末103が提供する画面(不図示)を介して行われてよく、選択可能な写真の枚数は複数であってもよい。また、写真データには、その撮影時の撮影設定や撮影位置の情報(例えば、EXIF情報)などが付されているため、これらの情報もまとめて写真データとして扱う。このような情報が付されていない場合には、例えば、端末103の現在位置の情報を用いてもよい。
【0116】
S1502にて、端末103は、ユーザAから発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末103が備えるマイク(不図示)を介して行われる。
【0117】
S1503にて、端末103は、管理サーバ101へアクセスを行い、S1501にて選択された写真データ、および、S1502にて入力された音声に基づく音声データを管理サーバ101へ送信する。なお、上述したように、端末103は、管理サーバ101へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。
【0118】
S1504にて、管理サーバ101は、端末103から送信されてきた写真データ、および音声データを受信する。
【0119】
S1505にて、管理サーバ101は、S1504にて受信した音声データをテキストデータに変換する。
【0120】
S1506にて、管理サーバ101は、音声データとテキストデータを所定の格納先に記録し、音声データDB(図4)に登録する。
【0121】
S1507にて、管理サーバ101は、変換したテキストデータの解析を行う。本実施形態では、図7を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。このとき、音声データと併せて写真データを受信した場合には、写真登録処理が実行すべき処理として特定してもよい。
【0122】
S1508にて、管理サーバ101は、S1507にて写真登録処理が特定されたか否かを判定する。実行すべき処理として写真登録処理が特定された場合(S1508にてYES)、管理サーバ101の処理はS1509へ進む。一方、実行すべき処理として写真登録処理が特定されていない場合(S1508にてNO)、本処理フローを終了する。この場合、S1507にて特定された別の処理を行うような構成であってもよい。
【0123】
S1509にて、管理サーバ101は、S1505にて変換したテキストデータから要約データを生成する。また、要約データの他、写真のタイトルを併せて作成してもよい。要約データやタイトルの生成方法は特に限定するものでは無いが、例えば、テキストデータから1または複数の単語を抽出して要約データとしてもよい。より具体的には、以下のように、要約データやタイトルを生成してよい。
テキストデータ:「この写真は、令和2年7月10日金曜日、13時15分、住所〇〇のプロジェクトKの基礎工事作業終了の証拠写真です。掲示板にアップして。」
要約データ:「令和2年7月10日金曜日、13時15分、住所〇〇のプロジェクトKの基礎工事作業終了の証拠写真」
タイトル:「プロジェクトKの基礎工事作業終了の証拠写真」
【0124】
S1510にて、管理サーバ101は、写真データに付与されている情報から位置情報を抽出する。上述したように、写真データに付与されているEXIF情報や端末103の位置情報などから位置情報を抽出してよい。
【0125】
S1511にて、管理サーバ101は、写真データの送信元である端末103のユーザAの情報、S1504にて取得した写真データ、S1509にて生成した要約データ、およびS1510にて抽出した位置情報を対応付けて掲示板に登録する。タイトルを生成している場合には、更にタイトルを登録してよい。ここでの掲示板は、第3の実施形態の図14にて示した画面構成と同様であってもよいし、他の画面構成であってもよい。また、写真データに対応付けて掲示板に登録する情報は上記に限定するものではなく、そのほか、写真データに付与された他の情報や、音声データ(または、テキストデータ)から抽出される他の情報を対応付けて登録してよい。そして、本処理シーケンスを終了する。
【0126】
(スケジュール登録機能)
以下、本実施形態に係るスケジュール登録処理の流れについて説明する。図16は、本実施形態に係るシステムにおけるスケジュール登録機能の処理シーケンスを示す。なお、各装置における処理は、各処理が備える部位が連携して行うものとし、ここでは説明を簡略化するために処理主体を管理サーバ101、端末103、および端末104としてまとめて示す。なお、本処理を開始する場合において、端末103、および端末104は、本実施形態に係る機能を実現するための所定のアプリケーションを起動させていたり、所定の動作モードへ切り替えていたりするような構成であってもよい。
【0127】
S1601にて、端末103は、ユーザ(ここでは、ユーザAとする)から発話に基づく音声の入力を受け付ける。例えば、音声入力は、例えば、端末103が備えるマイク(不図示)を介して行われる。
【0128】
S1602にて、端末103は、管理サーバ101へアクセスを行い、S1601にて入力された音声に基づく音声データを管理サーバ101へ送信する。なお、上述したように、端末103は、管理サーバ101へアクセスし、音声データを送信するための各種情報を予め保持しているものとする。
【0129】
S1603にて、管理サーバ101は、端末103から送信されてきた音声データを受信する。
【0130】
S1604にて、管理サーバ101は、S1605にて受信した音声データをテキストデータに変換する。
【0131】
S1605にて、管理サーバ101は、音声データとテキストデータを所定の格納先に記録し、音声データDB(図4)に登録する。
【0132】
S1606にて、管理サーバ101は、変換したテキストデータの解析を行う。本実施形態では、図3に示した命令ワードDBや図7を用いて説明した学習済みモデルを用いて実行すべき処理を特定する。
【0133】
S1607にて、管理サーバ101は、S1606にてスケジュール登録処理が特定されたか否かを判定する。実行すべき処理としてスケジュール登録処理が特定された場合(S1607にてYES)、管理サーバ101の処理はS1608へ進む。一方、実行すべき処理としてスケジュール登録処理が特定されていない場合(S1607にてNO)、本処理フローを終了する。この場合、S1606にて特定された別の処理を行うような構成であってもよい。
【0134】
S1608にて、管理サーバ101は、S1604にて変換したテキストデータからスケジュールの内容を生成する。スケジュールの内容の生成方法は特に限定するものでは無いが、例えば、テキストデータから所定の項目に対応する単語を抽出することでスケジュールの内容としてもよい。所定の項目としては、例えば、開催日時、開催場所、参加者などが挙げられる。また、テキストデータから要約データを生成して、スケジュールの内容としてもよい。
【0135】
S1609にて、管理サーバ101は、S1608にて生成した情報に基づいて、通知先を決定する。例えば、参加者の項目として抽出した情報から端末103のユーザA以外の参加者を特定する。参加者の項目が抽出できない場合などには、参加者をユーザAのみとしてもよい。ユーザA以外の参加者がいる場合には、通信先情報DBを参照してスケジュールの通知先を決定する。ここでは、通知先として、端末104を特定したものとして説明する。
【0136】
S1610にて、管理サーバ101は、S1608にて生成したスケジュールの内容に基づいて登録を行う。ここでの登録は、上述したような掲示板に対して行ってもよいし、他のスケジュール管理画面(不図示)に対して行ってもよい。これらのスケジュールの登録内容を確認するための画面は、管理サーバ101にWebブラウザ(不図示)を介してアクセスすることで参照できるような構成であってもよいし、各端末にインストールされたアプリケーション(不図示)を起動することで参照できるような構成であってもよい。
【0137】
S1611にて、管理サーバ101は、S1610にて登録したスケジュールの内容をS1609にて特定した通知先(ここでは、端末104)へ通知する。このとき、スケジュールを登録したユーザ(ここでは、ユーザA)の情報も併せて通知してよい。
【0138】
S1612にて、管理サーバ101は、S1610にて登録したスケジュールの内容を、登録要求を行った端末(ここでは、端末103)へ通知する。このとき、スケジュールの通知を行ったユーザ(ここでは、端末104のユーザB)の情報も併せて通知してよい。
【0139】
S1613にて、端末104は、S1611にて管理サーバ101から通知されたスケジュールの内容を受信する。
【0140】
S1614にて、端末104は、S1613にて管理サーバ101から受信したスケジュールの内容を出力する。ここでの出力は、端末104の画面(不図示)上にて表示してもよいし、音声として出力してもよい。そして、本処理シーケンスを終了する。
【0141】
S1615にて、端末103は、S1612にて管理サーバ101から通知されたスケジュールの内容を受信する。
【0142】
S1616にて、端末103は、S1615にて管理サーバ101から受信したスケジュールの内容を出力する。ここでの出力は、端末103の画面(不図示)上にて表示してもよいし、音声として出力してもよい。そして、本処理シーケンスを終了する。
【0143】
以上、本実施形態により、発話により利用可能な写真登録機能やスケジュール登録機能を備えることで、容易にデータの管理、登録を行うことができる。そして、これらの機能を利用して他者とのコミュニケーションを簡便に行うことが可能となる。
【0144】
<その他の実施形態>
また、本願発明において、上述した1以上の実施形態の機能を実現するためのプログラムやアプリケーションを、ネットワーク又は記憶媒体等を用いてシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。
【0145】
また、上述した実施形態では一つの管理サーバに種々の機能が集約されているが、複数の管理サーバがこれらの機能を分担してもよいことは言うまでもない。また、管理サーバの種々の機能の一部を端末で負担してもよいことは言うまでもない。
【0146】
以上の通り、本明細書には次の事項が開示されている。
(1) 複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、
前記複数の端末それぞれは、
発話を受け付ける受付手段と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信手段と、
前記管理サーバから受信した音声データを出力する出力手段と
を有し、
前記管理サーバは、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信手段と
を有することを特徴とするコミュニケーションシステム。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0147】
(2) 前記第1の解析手段が、すでに接続が確立されたグループに属している端末からの音声データに基づいて、当該グループに属していない第3の端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とする(1)に記載のコミュニケーションシステム。
この構成によれば、グループに含まれていない相手を容易にグループに含めることができ、遠隔地にいる3者以上の間で、相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0148】
(3) 前記第1の解析手段が、すでに接続が確立されたグループに属していない第3の端末からの音声データに基づいて、当該グループに属している端末を接続先として特定した場合、前記接続手段は、前記第3の端末を更に当該グループに含めて接続を確立させることを特徴とする請求項(1)または(2)に記載のコミュニケーションシステム。
この構成によれば、グループに含まれていない相手を容易にグループに含めることができ、遠隔地にいる3者以上の間で、相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0149】
(4) 前記第2の送信手段は、前記グループに属する端末のうち、音声データを送信してきた端末以外の端末に対して、当該音声データを送信することを特徴とする(1)〜(3)のいずれかに記載のコミュニケーションシステム。
この構成によれば、自身の発話をグループに属する他の端末のユーザ側でのみ出力させることが可能となる。
【0150】
(5) 前記接続手段にて接続が確立されたグループに属する端末のうち、所定の時間の間、音声データを送信してこなかった端末との接続を切断する切断手段を更に有することを特徴とする(1)〜(4)のいずれかに記載のコミュニケーションシステム。
【0151】
(6) 前記管理サーバは、
前記音声データからテキストデータを生成する生成手段と、
前記生成手段にて生成したテキストデータを掲示板画面上に表示する掲示手段と
を更に有することを特徴とする(1)〜(5)のいずれかに記載のコミュニケーションシステム。
この構成によれば、すでに行われた発話によるコミュニケーションの記録を容易に行うことができる。
【0152】
(7) 前記生成手段は更に、前記テキストデータから要約データを生成し、
前記掲示手段は更に、当該要約データを前記掲示板画面上に表示する
ことを特徴とする(6)に記載のコミュニケーションシステム。
この構成によれば、すでに行われた発話に基づいて要約データを生成し、コミュニケーションの記録を容易に行うことができる。
【0153】
(8) 前記管理サーバは、
前記音声データに基づいて、実行すべき処理を特定する第2の解析手段と、
前記第2の解析手段にて特定された処理を実行する処理手段と
を更に有することを特徴とする(7)に記載のコミュニケーションシステム。
この構成によれば、発話に基づいて、実行すべき処理を特定し、当該処理を実行することが可能となる。
【0154】
(9) 前記第2の解析手段にて特定される処理は写真登録処理であり、
前記処理手段は、
前記テキストデータから要約データを生成し、
当該要約データ、指定された画像データ、撮影位置、撮影日時、および前記音声データの発話者の情報を対応付けて前記掲示板画面上に表示する
ことを特徴とする(8)に記載のコミュニケーションシステム。
この構成によれば、指定された写真データを発話に基づいて登録でき、コミュニケーションに利用することが可能となる。
【0155】
(10) 前記第2の解析手段にて特定される処理はスケジューリング処理であり、
前記処理手段は、
前記テキストデータからスケジュールを設定する対象者を特定し、
前記テキストデータから要約データを生成し、
前記特定された対象者にスケジュールの通知を行い、
前記要約データを前記掲示板画面上に表示する
ことを特徴とする(8)に記載のコミュニケーションシステム。
この構成によれば、スケジュールを発話に基づいて設定でき、所定の相手に通知することが可能となる。
【0156】
(11) 複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムの制御方法であって、
前記複数の端末それぞれにおいて、
発話を受け付ける受付工程と、
前記発話に基づく音声データを前記管理サーバに送信する第1の送信工程と、
前記管理サーバから受信した音声データを出力する出力工程と
を有し、
前記管理サーバにおいて、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信工程と
を有することを特徴とするコミュニケーションシステムの制御方法。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0157】
(12) 複数の端末と通信可能に構成される管理サーバであって、
前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析手段と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信手段と
を有することを特徴とする管理サーバ。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【0158】
(13) 複数の端末と通信可能に構成される管理サーバの制御方法であって、
前記複数の端末のうちの第1の端末から音声データを受信する受信工程と、
前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する解析工程と、
前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続工程と、
前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信工程と
を有することを特徴とする管理サーバの制御方法。
この構成によれば、遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能となる。
【符号の説明】
【0159】
101…管理サーバ
102…ネットワーク
103、104、105…端末
201…音声入力部
202…音声出力部
203…表示部
204…操作入力部
205…処理部
206…データ通信部
207…記憶部
211…音声変換部
212…データ解析部
213…接続管理部
214…接続制御部
215…通信先決定部
216…通信先情報管理部
217…音声データ管理部
218…データ通信部
1201…掲示板管理部
1202…写真登録部
1203…スケジュール登録部
1400…掲示板画面
【要約】
【課題】遠隔地にいる相手がすぐそばにいるような感覚でのリアルタイムのコミュニケーションが可能なコミュニケーションシステムを提供する。
【解決手段】複数の端末と、管理サーバとを含んで構成されるコミュニケーションシステムであって、前記複数の端末それぞれは、発話を受け付ける受付手段と、前記発話に基づく音声データを前記管理サーバに送信する第1の送信手段と、前記管理サーバから受信した音声データを出力する出力手段とを有し、前記管理サーバは、前記複数の端末のうちの第1の端末から音声データを受信する受信手段と、前記音声データに基づいて、前記複数の端末のうちの接続先となる第2の端末を特定する第1の解析手段と、前記第1の端末と前記第2の端末とを含むグループ内において通話を行うための接続を確立する接続手段と、前記第2の端末に対して、前記第1の端末から受信した音声データを送信する第2の送信手段とを有する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16