(58)【調査した分野】(Int.Cl.,DB名)
前記第1及び第2の通信端末は、前記断片的な発話データそれぞれの、発話開始時間及び発話終了時間の少なくとも一方を、前記発話データと関連付けて記憶することを特徴とする請求項1に記載の通信システム。
前記情報処理装置は、前記合成音声データを再生する際に、合成する前記断片的な発話データの発話タイミングを調整して、各発話データの音声が重ならないようにすることを特徴とする請求項1に記載の通信システム。
断片的な前記第1の発話データそれぞれの、発話開始時間及び発話終了時間の少なくとも一方を、前記第1の発話データと関連付けて記憶する発話データ記憶を実行することを特徴とする請求項5に記載のプログラム。
前記第1及び第2の通信端末によって、前記断片的な発話データそれぞれの、発話開始時間及び発話終了時間の少なくとも一方を、前記発話データと関連付けて記憶することを特徴とする請求項7に記載の通信システムの制御方法。
前記情報処理装置によって、前記合成音声データを再生する際に、合成する前記断片的な発話データの発話タイミングを調整して、各発話データの音声が重ならないようにすることを特徴とする請求項7に記載の通信システムの制御方法。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態を図面と共に説明する。
[実施形態1]
<1.通信システムの全体構成>
図1は、本発明の実施形態1における通信システムの概略的な構成を示す図である。本発明の通信システム300は、少なくとも1つ以上のサーバ1と、該サーバ1とGSM(登録商標)、3G(登録商標)、4G(登録商標)、WCDMA(登録商標)、LTE(登録商標)などのモバイルネットワークを介して接続可能な複数のクライアント2を備える。
【0018】
サーバ1は少なくともクライアント2の間での音声通信を制御するためのVoIP(Voice Over Internet Protcol)サーバ11を備え、また、通信システム300に含まれるサーバ1の内の少なくとも1つは、クライアント2の接続やVoIPサーバ11の割り振りを管理するAPI(Application Programmable Interface)サーバ10を備えている。サーバ1は、1つのサーバコンピュータにより構成しても良く、また、複数のサーバコンピュータを用意してそれぞれのサーバコンピュータ上にそれぞれの機能を実装して構成しても良い。また、それぞれのサーバ1は、世界中の各地域に分散して配置されていてもよい。
【0019】
サーバ1を構成するサーバコンピュータは、CPU、ROM、RAM及びハードディスク等の記憶装置(主記憶装置及び補助記憶装置等)およびI/O回路等により構成される。また、サーバ1は、TCP/IPなどの有線通信に適した通信規格にしたがって広域ネットワークに接続され、該広域ネットワークを介して他のサーバ1との間で相互通信できるようにと相互通信するように構成される。
【0020】
APIサーバ10は、多対多で行われるグループ通話を行う際に該グループ通話に参加する複数のクライアント2との間で該グループ通話に必要となる情報をやり取りし、そこで得られた情報に基づいてVoIPサーバ11に対して指令して該グループ通話に参加する複数のクライアント2間でグループ通話を実現する管理サーバとしての役割を持つ。APIサーバ10は、サーバ1を構成するサーバコンピュータ上に実装される。
【0021】
APIサーバ10は、同一のサーバ1内に配置されるVoIPサーバ11だけでなく、ネットワークを介して接続可能な他のVoIPサーバ11に対しても指令することが可能である。これは、APIサーバ10が、グループ通話に参加する複数のクライアント2のIPアドレスなどの情報から該クライアント2の地理的な位置を特定し、該クライアント2から低遅延接続が可能なVoIPサーバ11を選択し、該VoIPサーバ11に対して前記クライアント2を振り分けることを可能とする。また、APIサーバ10は、複数のVoIPサーバ11の中から稼働率の低いVoIPサーバ11を検出して該VoIPサーバ11に対してクライアント2を振り分けることが可能である。
【0022】
VoIPサーバ11は、APIサーバ10からの指令を受けて、各クライアント2間での音声パケットのやり取り(会話)を制御する役割を持つ。VoIPサーバ11は、サーバ1を構成するサーバコンピュータ上に実装される。VoIPサーバ11は、公知のIP−PBX(Internet Protocol−Private Branch Exchange)のソフトウェアスイッチとして構成しても良い。VoIPサーバ11は、クライアント2間でのリアルタイム通話を実現するためにオンメモリで音声パケットを処理する機能を備える。
【0023】
クライアント2は、利用者が備える携帯通信端末20と、該携帯通信端末20との間でBluetooth通信などの近距離無線通信で接続されたヘッドセット21を備える。携帯通信端末20は、利用者による音声通話における音声パケットの通信制御を行う役割を持つ。携帯通信端末20は、CPU、ROM、RAM及びメモリカード等の記憶装置(主記憶装置及び補助記憶装置等)およびI/O回路等を備えた、タブレット型端末又はスマートフォンなどの利用者による携帯が可能なサイズ、形状および重量に設計されている情報端末により構成される。
【0024】
携帯通信端末20は、GSM(登録商標)、3G(登録商標)、4G(登録商標)、WCDMA(登録商標)、LTE(登録商標)等の遠距離での無線通信に適した通信規格にしたがって、図示しない基地局に接続された広域ネットワークを介してサーバ1や他のクライアント2と相互通信できるように構成されている。
【0025】
携帯通信端末20は、Bluetooth(登録商標)等の近距離無線通信規格(以下、「第1近距離無線通信規格」という。)に従って、ヘッドセット21との間で音声データを相互通信できるように構成される。また、携帯通信端末20は、BLE(Bluetooth Low Energy)(登録商標)等の第1近距離無線通信規格よりも小さな電力で通信が可能な近距離無線通信規格(以下、「第2近距離無線通信規格」という。)に従って、近距離にある携帯通信端末20と通信できるように構成される。
【0026】
ヘッドセット21は、利用者の発話した音声に基づいて音声データを作成し、作成した音声データを携帯通信端末20へと送信すると共に、携帯通信端末20から送信されてきた音声データに基づいて音声を再生する役割を持つ。ヘッドセット21は、CPU、ROM、RAM及びメモリカード等の記憶装置(主記憶装置及び補助記憶装置等)およびマイクロフォンやスピーカーなどのI/O回路等を備える。ヘッドセット21は、Bluetooth(登録商標)等の近距離無線通信規格に従って、ヘッドセット21との間で音声データを相互通信できるように構成される。ヘッドセット21は、装着した利用者が外部の環境音を聞き取ることができるように、オープン型のヘッドセットとして構成されていることが望ましい。
【0027】
上記した構成を備えた本実施形態の通信システム300は、グループ通話サービスの利用状況に応じて各地域にVoIPサーバ11を設置し、配置されたVoIPサーバ11による通話をAPIサーバ10で統括的に管理することが可能となるため、マルチリージョン間でのクライアント2間の接続を通信遅延を低減させながら効率的に運用することが可能となる。
【0028】
<2.サーバの機能構成>
図2は、本発明の実施形態1におけるAPIサーバ10の概略的な機能構成を示す図である。APIサーバ10は、通話確立制御部100、通話品質制御部110、クライアント管理部120、サーバ管理部130、通話グループ管理部140を備える。これらの機能手段は、APIサーバ10が実装されているサーバコンピュータが備える記憶装置やI/O回路等をCPUが制御することにより実現される。
【0029】
通話確立制御部100は、クライアント2からのグループ通話開始要求に基づいて、該クライアント2と、該グループ通話開始要求に含まれる少なくとも1つの他のクライアント2との間でのグループ通話を開始する制御を行う機能手段である。通話確立制御部100は、クライアント2からのグループ通話開始要求を受けると、グループ通話開始要求をしたクライアント2が後述する通話グループ管理部140で管理されていない場合には、該クライアント2を含む新しい通話グループを作成するように通話グループ管理部140に対して指令し、グループ通話開始要求をしたクライアント2が通話グループ管理部140で管理されている場合には、該クライアント2を含む通話グループに対してグループ通話開始要求に含まれるクライアント2を追加するように通話グループ管理部140に対して指令する。
【0030】
通話確立制御部100は、通話グループ管理部140に対して新しい通話グループの作成を指令する際に、新しい通話グループに参加する複数のクライアント2と通信を行い、それぞれのクライアント2の地理的位置を特定する。通話確立制御部100は、クライアント2のIPアドレスに基づいてクライアント2の地理的位置を特定するようにしても良いし、クライアント2を構成する携帯通信端末20が備えるGPSなどの位置特定手段からの情報に基づいてクライアント2の地理的位置を特定するようにしても良い。通話確立制御部100は、新しい通話グループに参加する複数のクライアント2の地理的位置を特定すると、後述するサーバ管理部130で管理されているサーバ1の内で、特定した複数のクライアント2の位置から見て低遅延接続可能な地域に配置されている少なくとも1以上のサーバ1を抽出した上で、その中から稼働率の低いVoIPサーバ11を備えたサーバ1を検出する。そして、通話確立制御部100は、検出したサーバ1が備えるVoIPサーバ11を介したグループ通話を開始するように、複数のクライアント2に対して指令する。
【0031】
通話品質制御部110は、グループ通話に参加している複数のクライアント2の間での通信品質の制御を行う機能手段である。通話品質制御部110は、通話グループ管理部140で管理されているクライアント2によるグループ通話におけるデータ転送遅延状況を監視し、あるクライアント2にデータ転送遅延が発生した時、即ち該クライアント2が弱電波になるなどして通信回線の状況が悪化した時に、該クライアント2が通信を維持できるようにグループ通話に参加している他のクライアント2に対してデータ品質を抑制してデータ量を低減するように指令する。通話品質制御部110は、グループ通話の制御を行っているVoIPサーバ11から各クライアント2の通信状況を所定の周期で取得することによりクライアント2のデータ転送遅延状況を監視するようにしても良い。通話品質制御部110は、データ転送遅延が発生したクライアント2のデータ転送遅延状況が回復した場合には、グループ通話に参加している他のクライアント2に対してデータ品質の抑制を解除するように指令する。
【0032】
また、通話品質制御部110は、あるクライアント2の通信が途絶した場合、即ち該クライアント2が弱電波になるなどして通信ができない状況になった時に、該クライアント2との通信が途絶したことをグループ通話に参加している他のクライアント2に対して通知する。通話品質制御部110は、グループ通話の制御を行っているVoIPサーバ11から各クライアント2の通信状況を所定の周期で取得することによりクライアント2の通信が途絶したことを検出するようにしても良い。通話品質制御部110は、通信が途絶したクライアント2との通信が回復したことを検出した場合には、その旨をグループ通話に参加している他のクライアント2に対して通知し、通信が回復したクライアント2をグループ通話に再度参加させるように制御する。
【0033】
クライアント管理部120は、グループ通話を行うクライアント2に係る情報であるクライアント情報を管理する機能手段である。クライアント管理部120が管理するクライアント情報には、少なくとも該クライアント情報に対応するクライアント2を一意に識別する識別情報を含み、更に、該クライアント情報に対応するクライアント2を有する利用者の名前などの情報や、該クライアント情報に対応するクライアント2の地理上の位置に係る情報を含むようにしても良い。クライアント管理部120は、一般的に提供されるサービスなどと同様に、クライアント2からのクライアント情報登録要求やクライアント情報要求、クライアント情報削除要求などを受けて、クライアント情報の登録、修正、削除などの処理を行うようにしても良い。
【0034】
サーバ管理部130は、APIサーバ10から指令して制御することが可能なVoIPサーバ11を備えたサーバ1に係る情報であるサーバ情報を管理する機能手段である。サーバ管理部130が管理するサーバ情報には、少なくとも該サーバの地理上の位置と該サーバのネットワーク上の位置(IPアドレスなど)を含み、更に、該サーバが備えるVoIPサーバ11の稼働率、該サーバの管理者に係る情報などを含むようにしても良い。サーバ管理部130は、APIサーバ10の管理者によるサーバ情報登録操作、サーバ情報修正操作、サーバ情報削除操作などを受けて、サーバ情報の登録、修正、削除などの処理を行うようにしても良い。
【0035】
通話グループ管理部140は、現在グループ通話を行っているクライアント2のグループ(以下、「クライアントグループ」と言う。)に係る情報である通話グループ情報を管理する機能手段である。通話グループ管理部140が管理する通話グループ情報は、少なくとも該通話グループ情報に対応するグループ通話に参加しているクライアント2を識別する情報(該クライアント2に係るクライアント情報に登録されている識別情報)、該通話グループ情報にグループ通話に用いられているVoIPサーバに係る情報、該通話グループ情報にグループ通話に参加しているそれぞれのクライアント2の通信状態(データ遅延状況、通信途絶状況など)を含む。通話グループ管理部140は、通話確立制御部100、通話品質制御部110からの通話グループ作成指令や通話グループ削除指令、通話グループ修正指令などを受けて、通話グループ情報の作成、修正、削除などの処理を行うようにしても良い。
【0036】
上記した構成を備えた本実施形態のAPIサーバ10は、グループ通話に参加する各クライアント2の位置と、各VoIPサーバ11の稼働率とに基づいて、各クライアント2からのグループ通話要求を低遅延接続が可能なVoIPサーバ11へと振り分けることができる。また、本実施形態のAPIサーバ10は、各地域に設置されるVoIPサーバ11を介して、グループ通話を行う各クライアント2の死活状態を検知して、状況に応じたフェイルオーバ処理を行うため、利用者の手を煩わせることなく状況に応じた最適なグループ通話サービスを提供することができる。
【0037】
<3.クライアントの機能構成>
図3は、本発明の実施形態1における携帯通信端末20の概略的な機能構成を示す図である。携帯通信端末20は、グループ通話管理部201、グループ通話制御部202、ノイズ推定部203、発話候補判定部204、発話性判定部205、音声データ送信部206、再生音声データ送信部207、通信部208、および近距離無線通信部209を備える。これらの機能手段は、携帯通信端末20が備える記憶装置やI/O回路等をCPUが制御することにより実現される。
【0038】
グループ通話管理部201は、APIサーバ10との間でグループ通話の管理に係る情報を通信部208を介してやり取りし、グループ通話の開始や終了などを管理する機能手段である。グループ通話管理部201は、APIサーバ10に対してグループ通話開始要求、クライアント追加要求、グループ通話終了要求などの各種要求を送信し、該要求に対するAPIサーバ10の応答に応じて後述するグループ通話制御部202に対して指令することによりグループ通話の管理を行う。
【0039】
グループ通話制御部202は、グループ通話管理部201からの指令に基づいてグループ通話に参加している他のクライアント2との間の音声データの送受信と、ヘッドセット21との間の音声データの送受信とを制御する機能手段である。グループ通話制御部202は、後述するノイズ推定部203、発話候補判定部204、発話性判定部205によりヘッドセット21から受信した利用者の発話にかかる音声データの発話検知と音声データのデータ品質制御を行う。
【0040】
ノイズ推定部203は、ヘッドセット21から受信した利用者の発話にかかる音声データから平均環境音の推定を行う機能手段である。ヘッドセット21から受信した利用者の発話にかかる音声データには、利用者の発話と環境音とが含まれているがノイズ推定部203によるノイズ推定の方法としては、最小二乗誤差(MMSE)推定や最尤法、最大事後確率推定などの公知の方法を用いても良い。例えば、ノイズ推定部203は、サンプルフレーム毎の音声存在確率推定を元にして環境音のパワースペクトルをMMSE基準により逐次更新し、該環境音のパワースペクトルを用いて音声データの中からノイズである環境音を推定できるようにするようにしても良い。
【0041】
発話候補判定部204は、ノイズ推定部203によるノイズとなる環境音の推定結果に基づいて、音声データの中から平均環境音と異なる音を発話候補として判定する機能手段である。発話候補判定部204は、数フレーム単位の長時間スペクトル変動とノイズ推定部203が推定した環境音のパワースペクトルとを比較することで、非定常的な音声データの部分を利用者の発話による音声データであると判定する。
【0042】
発話性判定部205は、発話候補判定部204が利用者による発話による音声データであると判定した部分について、人間の声以外の突発的な環境音であると推定される音声データの部分を判定する機能手段である。発話性判定部205は、発話候補判定部204が利用者による発話による音声データであると判定した部分に対してスペクトル周期成分の含有比率推定などを行うことで、人間の喉などから発せられた音声に基づく音声データで有るかどうかを判定する。また、発話性判定部205は、音声波形からのエコーの度合いの推定による発話者との距離や直接波であるかどうかの評価を行い、発話者が発した音声に基づく音声データであるかどうかを判定する。
【0043】
音声データ送信部206は、発話候補判定部204が発話候補として判定された範囲から、発話性判定部205が突発的な環境音であると判定して部分を除いた範囲の音声データをエンコードしてVoIPサーバへと送信する。音声データ送信部206は、音声データをエンコードする際に、グループ通話制御部202がAPIサーバ10の通信品質制御部110からの指令に基づいて決定したエンコード方式と通信品質で音声データのエンコードを行う。
【0044】
再生音声データ送信部207は、通信部208を介してVoIPサーバから受信してデコードされた音声データを近距離無線通信部209を介してヘッドセット21へと送信する。
【0045】
通信部208は、モバイルネットワークを介した通信を制御する機能手段である。通信部208は、一般的な携帯通信網などに対する通信インタフェースを用いて実現される。近距離無線通信部209は、Bluetooth(登録商標)などの近距離無線通信を制御する機能手段である。近距離無線通信部209は、一般的な近距離無線通信インタフェースを用いて実現される。
【0046】
図4は、本発明の実施形態1におけるヘッドセット21の概略的な機能構成を示す図である。ヘッドセット21は、音声検知部211、発話強調部212、再生制御部213、近距離無線通信部216を備える。これらの機能手段は、ヘッドセット21が備える記憶装置やI/O回路等をCPUが制御することにより実現される。
【0047】
音声検知部211は、ヘッドセット21を装着した利用者の発話を検知して音声データへと変換する機能手段である。音声検知部211は、ヘッドセット21が備えるマイクロフォンとA/D変換回路、音声データのエンコーダなどにより構成される。音声検知部211を構成するマイクロフォンとして、少なくとも2つのマイクロフォンを備えていることが望ましい。
【0048】
発話強調部212は、音声検知部211が検知して変換された音声データの中からヘッドセット21を装着している利用者の発話を強調して検出できるようにする機能手段である。発話強調部212は、例えば公知のビームフォーミングアルゴリズムなどを利用して利用者の発話を環境音に対して相対的に強調する。発話強調部212が行う処理により、音声データに含まれる環境音が利用者の発話に対して相対的に抑制されるため、音質の向上と、後段の信号処理の性能と計算負荷を下げることが可能となる。発話強調部212により変換された音声データは、近距離無線通信部216を介して携帯通信端末20へと送信される。
【0049】
再生制御部213は、近距離無線通信部216を介して携帯通信端末20から受信した音声データを再生する機能手段である。再生制御部213は、ヘッドセット21が備える音声データのデコーダ、D/A変換回路、スピーカーなどにより構成される。再生制御部213は、携帯通信端末20から受信した音声データにおける発話区間における音声を再生する際には、ヘッドセット21が備えるマイクロフォンが検知した環境音を元に再生する音声データを利用者に聴取し易い形で再生する。再生制御部213は、音声検知部で推定した周辺騒音を元に、ノイズキャンセリング処理を実施して利用者が聴取する環境音を打ち消して再生音を聴取しやすくしてもよいし、周辺騒音の大きさに連動して再生音量を大きくする処理を実施して相対的に再生音を聴取しやすくしても良い。
【0050】
上記した構成を備えた本実施形態のクライアント2は、発話と環境音に関する様々な推定処理を連関させた多面的な音声データ処理を行うことで、通信路に伝送される音声データのサイズを削減しながらも、クリアな発話再生ができるようになっている。これにより、クライアント2を構成する各機器における電力消費の省力化と、通話のUX(User Experience)の大幅な向上を実現することができる。
【0051】
以下では、上記構成を備えた通信システム300の特徴的な機能である発話検知機能、通信制御機能、音声再生制御機能について、動作の流れを示すシーケンスチャートを用いて説明する。
【0052】
<4.発話検知機能>
図5は、本発明の実施形態1における発話検知機能に係るヘッドセット及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSA01]音声検知部211は、環境音を含む利用者の発話を音声として検知して音声データへと変換する。
●[ステップSA02]発話強調部212は、ステップSA01で変換された音声データに含まれる利用者の発話音声を環境音に対して相対的に強調する。
●[ステップSA03]近距離無線通信部216は、ステップSA02で変換された音声データを第1携帯通信端末20へと送信する。
【0053】
●[ステップSA04]ノイズ推定部203は、第1ヘッドセットから受信された音声データを解析して、音声データに含まれるノイズである環境音を推定する。
●[ステップSA05]発話候補判定部204は、ステップSA04におけるノイズ推定部203によるノイズとなる環境音の推定結果に基づいて、音声データの中から平均環境音と異なる音を発話候補として判定する。
●[ステップSA06]発話性判定部205は、ステップSA05で発話候補判定部204が利用者による発話候補である判定した音声データの部分について、突発的な環境音や、ヘッドセットのマイクロフォンから距離のある位置から発せられた発話であると推定される音声データの部分を判定する。
●[ステップSA07]グループ通話制御部202は、ステップSA05で発話候補として判定された範囲から、ステップSA06で発話性判定部205が突発的な環境音やヘッドセットのマイクロフォンから離れた位置から発せられた発話であると判定して部分を除いた範囲の音声データを対象として、VoIPサーバ11とのやり取りで決定されたエンコード方式と通信品質で音声データのエンコードを行い、エンコードした音声データをVoIPサーバへと送信する。
【0054】
図6は、本発明の実施形態1における
図5のシーケンスチャートに従って検知された音声から送信される音声データが生成されるまでの変換のイメージを示す図である。
図6に示すように、本発明の通信システムでは、検知された音声の内で発話の再現に必要となる部分のみが抽出されるため、エンコードされてVoIPサーバ11に送信される音声データは通常の通信システムにおいて送信される音声データと比較してサイズを小さくすることができる。
【0055】
<5.音声再生制御機能>
図7は、本発明の実施形態1における音声再生制御機能に係るヘッドセット及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSB01]グループ通話制御部202は、VoIPサーバ11とのやり取りで決定されたエンコード方式により受信したデータを音声データへとデコードする。
●[ステップSB02]再生音声データ送信部207は、ステップSB02でデコードされた音声データを第2ヘッドセット21へと送信する。
【0056】
●[ステップSB03]音声検知部211は、環境音を音声として検知して音声データへと変換する。
●[ステップSB04]再生制御部213は、第2携帯通信端末20から受信した音声データを、音声データの発話区間においてステップSB03で検知した環境音に対して再生音を聴取しやすくする処理を行いながら再生する。
なお、本実施形態では、第2ヘッドセット21は、環境音を打ち消して第2携帯通信端末20から受信した音声データを再生することとしたが、これに限られない。例えば、第2ヘッドセット21は、環境音を打ち消さずに第2携帯通信端末20から受信した音声データをそのまま再生してもよい。
【0057】
<6.通信制御機能>
図8は、本発明の実施形態1におけるデータ転送遅延が発生した時の通信制御機能に係るAPIサーバ、VoIPサーバ及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSC01]VoIPサーバ11は、第2携帯通信端末20のデータ転送遅延を検出する。
●[ステップSC02]VoIPサーバ11は、第2携帯通信端末20のデータ転送遅延状況をAPIサーバ10へと通知する。
【0058】
●[ステップSC03]通信品質制御部110は、VoIPサーバ11から通知された第2携帯通信端末20のデータ転送遅延状況に応じた通信品質を決定し、決定した通信品質にするようにVoIPサーバ11と、第2携帯通信端末20と同じクライアントグループに所属する第1携帯通信端末20とに指令する。
●[ステップSC04]VoIPサーバ11は、第2携帯通信端末20が所属するクライアントグループの通信品質を、ステップSC03で指令された通信品質へと変更する。
●[ステップSC05]第1携帯通信端末20は、通信品質をステップSC03で指令された通信品質へと変更する。
【0059】
図9は、本発明の実施形態1におけるデータ転送状況が回復した時の通信制御機能に係るAPIサーバ、VoIPサーバ及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSD01]VoIPサーバ11は、第2携帯通信端末20のデータ転送状況の回復を検出する。
●[ステップSD02]VoIPサーバ11は、第2携帯通信端末20のデータ転送状況の回復をAPIサーバ10へと通知する。
【0060】
●[ステップSD03]通信品質制御部110は、VoIPサーバ11から通知された第2携帯通信端末20のデータ転送状況の回復に応じて、通信品質を回復するようにVoIPサーバ11と、第2携帯通信端末20と同じクライアントグループに所属する第1携帯通信端末20とに指令する。
●[ステップSD04]VoIPサーバ11は、第2携帯通信端末20が所属するクライアントグループの通信品質を回復する。
●[ステップSD05]第1携帯通信端末20は、通信品質を回復する。
【0061】
図10は、本発明の実施形態1における通信途絶が発生した時の通信制御機能に係るAPIサーバ、VoIPサーバ及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSE01]VoIPサーバ11は、第2携帯通信端末20との通信が途絶したことを検出する。
●[ステップSE02]VoIPサーバ11は、第2携帯通信端末20の通信途絶をAPIサーバ10へと通知する。
【0062】
●[ステップSE03]通信品質制御部110は、第2携帯通信端末20と同じクライアントグループに所属する第1携帯通信端末20に対して第2携帯通信端末20との通信が途絶したことを通知する。
●[ステップSE04]VoIPサーバ11は、第2携帯通信端末20の通信状態に係る情報を通信途絶状態へと変更する。
●[ステップSE05]第1携帯通信端末20は、第2携帯通信端末20の通信状態に係る情報を通信途絶状態へと変更する。
【0063】
図11は、本発明の実施形態1における通信途絶が発生した時の通信制御機能に係るAPIサーバ、VoIPサーバ及び携帯通信端末上で実行される処理の流れを示すシーケンスチャートである。
●[ステップSF01]VoIPサーバ11は、第2携帯通信端末20の通信状況が回復したことを検出する。
●[ステップSE02]VoIPサーバ11は、第2携帯通信端末20の通信状況回復をAPIサーバ10へと通知する。
【0064】
●[ステップSE03]通信品質制御部110は、第2携帯通信端末20と同じクライアントグループに所属する第1携帯通信端末20に対して第2携帯通信端末20との通信が回復したことを通知する。
●[ステップSE04]VoIPサーバ11は、第2携帯通信端末20の通信状態に係る情報を通常状態へと変更する。
●[ステップSE05]第1携帯通信端末20は、第2携帯通信端末20の通信状態に係る情報を通常状態へと変更する。
【0065】
以上説明したように、本発明の実施形態1によれば、多対多のグループ通話においてモバイルネットワークを介して転送されるデータ量が減少し、これにより携帯通信端末やヘッドセットにおける電力消費量を低減させることが可能となり、また、通信帯域が十分でない場合でも音声遅延を抑えることが可能となる。更に、自動的に発話区間のみを検出することで、手を用いず他の活動を妨げない形でノイズを低減し通話相手の発話内容だけがクリアに伝達されることによる通話のUX(User Experience)を大幅に向上させることができる。
【0066】
なお、実施形態1において、携帯通信端末20の各機能を実行するためのプログラムは、携帯通信端末20内のメモリに記憶されている。携帯通信端末20内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。また、ヘッドセット21の各機能を実行するためのプログラムは、ヘッドセット21内のメモリに記憶されている。ヘッドセット21内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0067】
また、実施形態1において、APIサーバ10の各機能を実行するためのプログラムは、APIサーバ10内のメモリに記憶されている。APIサーバ10内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。また、VoIPサーバ11の各機能を実行するためのプログラムは、VoIPサーバ11内のメモリに記憶されている。VoIPサーバ11内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0068】
なお、実施形態1において、ヘッドセット21の機能の一部を、携帯通信端末20に設けてもよい。例えば、携帯通信端末20は、ヘッドセット21に代えて、
図4に記載の発話強調部212を備えてもよい。また、実施形態1において、携帯通信端末20の機能の一部を、ヘッドセット21に設けてもよい。例えば、ヘッドセット21は、携帯通信端末20に代えて、
図3に記載のグループ通話管理部201、グループ通話制御部202、ノイズ推定部203、発話候補判定部204、発話性判定部205、および音声データ送信部206の全てまたは一部を備えてもよい。
【0069】
また、実施形態1において、ヘッドセット21および携帯通信端末20の機能の一部を、VoIPサーバ11に設けてもよい。例えば、VoIPサーバ11は、ヘッドセット21に代えて、
図4に記載の発話強調部212を備えてもよい。また、VoIPサーバ11は、携帯通信端末20に代えて、
図3に記載のグループ通話管理部201、グループ通話制御部202、ノイズ推定部203、発話候補判定部204、発話性判定部205、および音声データ送信部206の全てまたは一部を備えてもよい。この場合、VoIPサーバ11に高性能の機能を持たせることで、VoIPサーバ11は、高精度なノイズ推定、高精度な発話候補判定、および高精度な発話性判定等を行うことができる。
【0070】
[実施形態2]
以下、本発明の実施形態2について説明する。
図12は、本発明の実施形態2における通信システムの概略的な構成図である。
図12において、
図1の各部に対応する部分には同一の符号を付し、説明を省略する。
【0071】
実施形態1においては、クライアント2は携帯通信端末20とヘッドセット21とを備えることとした。一方、実施形態2においては、クライアント2は携帯通信端末20を備えておらず、ヘッドセット21が携帯通信端末20の機能を備えることとする。また、実施形態2のAPIサーバ10およびVoIPサーバ11は、実施形態2のAPIサーバ10およびVoIPサーバ11と同様の構成を備える。
【0072】
具体的に、
図12に示されるヘッドセット21は、
図3に示される携帯通信端末20の各機能(グループ通話管理部201、グループ通話制御部202、ノイズ推定部203、発話候補判定部204、発話性判定部205、および音声データ送信部206)を備える。これによって、ヘッドセット21は、実施形態1の携帯通信端末20に代えて、音声データに基づいてノイズを推定したり(
図5のステップSA04)、ノイズの推定結果に基づいて発話候補を判定したり(
図5のステップSA05)、発話候補に基づいて利用者の発話部分を判定したり(
図5のステップSA06)、発話部分のみの音声データをVoIPサーバ11に送信したり(
図5のステップSA07)することができる。
【0073】
以上説明したように、本発明の実施形態2によれば、クライアント2に携帯通信端末20を備える必要がないため、通信システム300の構成を簡易化することができ、システム全体に要するコストを低減することができる。また、ヘッドセット21に近距離無線通信部216を持たせる必要がなく、クライアント2内において無線通信を行う必要がないため、無線通信による処理の遅延を防止することができる。
【0074】
なお、実施形態2において、ヘッドセット21の各機能を実行するためのプログラムは、ヘッドセット21内のメモリに記憶されている。ヘッドセット21内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0075】
[実施形態3]
以下、本発明の実施形態3について説明する。
図13は、本発明の実施形態3における通信システムの概略的な構成図である。
図13において、
図1の各部に対応する部分には同一の符号を付し、説明を省略する。
【0076】
実施形態1においては、クライアント2は携帯通信端末20とヘッドセット21とを備えることとした。一方、実施形態3においては、クライアント2は携帯通信端末20を備えておらず、ヘッドセット21が携帯通信端末20の機能を備えることとする。また、実施形態1および実施形態2においては、サーバ1はAPIサーバ10およびVoIPサーバ11を備えることとした。一方、実施形態3においては、サーバ1はVoIPサーバ11を備えておらず、各クライアント2がVoIPサーバ11の機能を備えることとする。
【0077】
具体的に、
図13に示される各クライアント2は、VoIPサーバ11の各機能を備え、VoIPサーバ11を介さずに、クライアント2同士がP2P(Peer to Peer)通信で直接通信を行う。また、APIサーバ10は、接続先を一位に定めるために複数のクライアント2間の通信を管理する。これによって、クライアント2は、実施形態2のVoIPサーバ11に代えて、データ転送の遅延を検出したり(
図8のステップSC01)、データ転送状況の回復を検出したり(
図9のステップSD01)、通信品質を変更したり(
図8のステップSC04および
図9のSD04)、通信途絶を検出したり(
図10のステップSE01)、通信状況の回復を検出したり(
図11のステップSF01)、携帯通信端末20の状態を変更したり(
図10のステップSE04および
図11のステップSF04)することができる。
【0078】
以上説明したように、本発明の実施形態3によれば、サーバ1にVoIPサーバ11を備える必要がないため、通信システム300の構成を簡易化することができ、通信システム300全体に要するコストを低減することができる。また、クライアント2およびAPIサーバ10は、VoIPサーバ11と通信する必要がないため、クライアント2およびVoIPサーバ11間の通信による処理の遅延や、APIサーバ10およびVoIPサーバ11間の通信による処理の遅延を防止することができる。
【0079】
なお、実施形態3において、携帯通信端末20の各機能を実行するためのプログラムは、携帯通信端末20内のメモリに記憶されている。携帯通信端末20内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。また、ヘッドセット21の各機能を実行するためのプログラムは、ヘッドセット21内のメモリに記憶されている。ヘッドセット21内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。また、APIサーバ10の各機能を実行するためのプログラムは、APIサーバ10内のメモリに記憶されている。APIサーバ10内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0080】
[実施形態4]
以下、本発明の実施形態4について説明する。従来、業務用の音声コミュニケーションツールとして、トランシーバーを利用することがあった。トランシーバーを利用する環境においては、その通話可能範囲が電波の到達距離により制限されるため、発話内容が相手に届いているか否かを確認することが出来ない場合があった。したがって、従来のトランシーバーは、発話内容が届いているか否かを繰り返し相手に問いかけて確認するか、または録音装置に発話内容を記録して、後から発話内容を確認できるようにする必要があった。
【0081】
また、特開2005−234666号公報には、PoC(Push−to−Talk over Cellular)サーバと、GLMS(Group List Management Server)とを備えたシステムネットワークにおいて、通信内容を記録する手段が開示されている。
【0082】
しかしながら、会話内容を録音する機能を有する通信システムにおいて、会話がされているか、されていないかに関わらず全ての音声データを記録すると、データ容量が大きくなるという問題があった。
【0083】
そこで、本発明の実施形態4においては、録音された音声データの容量を小さくすることができるサービス提供方法、情報処理装置、プログラム、および記録媒体を提供することを目的とする。
【0084】
<7.システムの全体構成>
図14は、本発明の実施形態4における通信システムの概略的な構成図である。実施形態4における通信システム1000は、第1ヘッドセット1100Aと、第2ヘッドセット1100Bと、第1携帯通信端末1200Aと、第2携帯通信端末1200Bと、クラウド1300と、コンピュータ1400と、表示部1410と、携帯通信端末1500とを備える。
【0085】
第1ヘッドセット1100Aは、ユーザーの耳に装着され、ボタン1110Aおよびコミュニケーションユニット1111Aを備える。ボタン1110Aは、マニュアルスイッチとして機能する。コミュニケーションユニット1111Aは、音声入力部としてのマイクと、音声出力部としてのスピーカーとを備える。第1ヘッドセット1100Aは、第1携帯通信端末1200Aと無線接続するためのチップを備える。
【0086】
第1携帯通信端末1200Aは、スマートフォンなどの携帯電話やタブレット端末等であり、サービスを提供するクラウド1300に接続される。第1ヘッドセット1100Aは、ユーザーから発せられた音声を示す音声データを、マイクを用いて検出し、検出した音声データを第1携帯通信端末1200Aに送信する。第1携帯通信端末1200Aは、第1ヘッドセット1100Aから受信した音声データをクラウド1300に送信する。また、第1携帯通信端末1200Aは、クラウド1300から受信した、第2ヘッドセット1100Bによって検出された音声データを第1ヘッドセット1100Aに送信する。第1ヘッドセット1100Aは、第1携帯通信端末1200Aから受信した音声データを、スピーカーを用いて再生する。
【0087】
なお、第2ヘッドセット1100B、ボタン1110B、コミュニケーションユニット1111B、および第2携帯通信端末1200Bは、それぞれ、第1ヘッドセット1100A、ボタン1110A、コミュニケーションユニット1111A、および第1携帯通信端末1200Aと同様の構成であるため、これらの詳細な説明については省略する。
【0088】
クラウド1300は、第1携帯通信端末1200Aおよび第2携帯通信端末1200Bから複数の断片的な音声データを収集し、収集した複数の断片的な音声データを合成して合成音声データを生成し、生成した合成音声データを所定期間(例えば、6ヶ月)保持する。ユーザーは、クラウド1300に接続された第1携帯通信端末1200Aまたは第2携帯通信端末1200Bを用いて、合成音声データをクラウド1300から取得することができる。合成音声データの詳細については後述する。
【0089】
コンピュータ1400は、デスクトップ型のコンピュータであるが、これに限られない。例えば、コンピュータ1400は、ノート型のコンピュータであってもよい。コンピュータ1400は、表示部1410に接続される。表示部1410は、液晶表示装置などの表示装置である。
【0090】
コンピュータ1400は、管理者権限を有するユーザーによって用いられる。管理者権限を有するユーザーは、通信システム1000の各種設定(例えば、ユーザーに対する各種権限の付与、アカウントの変更、およびユーザーの招待等)を行うことができるユーザーである。管理者権限を有するユーザーとしては、例えば、テナント管理者およびマネージャーが存在する。テナント管理者は、テナント全体を管理する権限を有し、テナント内部のユーザー登録や、ユーザーの削除等を行うことができる。テナントは、システム利用契約を締結する契約主体である。テナント管理者は、メールアドレス等を用いてユーザーを特定する。マネージャーは、テナント内でルームの作成や端末登録等の権限を有するユーザーである。マネージャーも、テナント管理者と同様に、メールアドレス等を用いてユーザーを特定する。
【0091】
管理者権限を有しないユーザーとしては、例えば、一般ユーザーと共用ユーザーが存在する。一般ユーザーは、グループ通話に参加する一般のユーザーである。テナント管理者およびマネージャーは、メールアドレス等を用いて一般ユーザーを特定する。一方、共用ユーザーは、グループ通話に参加するユーザーであるが、テナント管理者およびマネージャーは、メールアドレス等を用いて共用ユーザーを特定しない。共用ユーザーのアカウントは、課金のためのアカウント数をカウントするために用いられる。
【0092】
携帯通信端末1500は、管理者権限を有するユーザー(テナント管理者およびマネージャー等)によって用いられる。携帯通信端末1500は、スマートフォンなどの携帯電話やタブレット端末等であり、サービスを提供するクラウド1300に接続される。
【0093】
管理者権限を有するユーザー(テナント管理者およびマネージャー等)は、コンピュータ1400または携帯通信端末1500を用いることにより、通信システム1000の各種設定を行うことができる。
【0094】
以下、第1ヘッドセット1100Aおよび第2ヘッドセット1100Bのうち、いずれのヘッドセットであるかを区別しない場合は、単にヘッドセット1100と表記する。また、第1携帯通信端末1200Aおよび第2携帯通信端末1200Bのうち、いずれの携帯通信端末であるかを区別しない場合は、単に携帯通信端末1200と表記する。
【0095】
図15は、本発明の実施形態4における携帯通信端末の構成を示すブロック図である。携帯通信端末1200は、グループ通話管理部1201、グループ通話制御部1202、ノイズ推定部1203、発話候補判定部1204、発話性判定部1205、音声データ送信部1206、再生音声データ送信部1207、通信部1208、近距離無線通信部1209、録音データ記憶部1210、音声データ生成部1211、表示部1212、および再生部1213を備える。
【0096】
なお、実施形態4におけるグループ通話管理部1201、グループ通話制御部1202、ノイズ推定部1203、発話候補判定部1204、発話性判定部1205、音声データ送信部1206、再生音声データ送信部1207、通信部1208、および近距離無線通信部1209は、それぞれ、実施形態1における
図3に示されるグループ通話管理部201、グループ通話制御部202、ノイズ推定部203、発話候補判定部204、発話性判定部205、音声データ送信部206、再生音声データ送信部207、通信部208、および近距離無線通信部209と同様の構成であるため、これらの詳細な説明については省略する。
【0097】
録音データ記憶部1210は、携帯通信端末1200と通信可能なヘッドセット1100によって取得された音声データ(合成前の音声データ)を録音データとして一時的に記憶する。音声データ生成部1211は、録音データ記憶部1210に記憶された録音データに基づき、ヘッドセット1100を使用するユーザーが発話した期間の音声を示す断片的な音声データを生成する。詳細は後述するが、音声データ生成部1211は、生成した断片的な音声データに、ユーザーIDと、発話の開始時間と、発話の終了時間とをメタデータとして付与する。なお、音声データ生成部1211によって生成される断片的な音声データについての詳細は後述する。表示部1212は、例えばタッチパネルディスプレイである。再生部1213は、例えば、音声データを再生するスピーカーである。
【0098】
なお、実施形態4におけるヘッドセット1100の構成を示すブロック図は、
図4に示される実施形態1におけるヘッドセット21のブロック図と同様である。具体的に、
【0099】
図16は、本発明の実施形態4におけるクラウドの構成を示すブロック図である。クラウド1300は、ヘッドセット1100を用いて行われた会話の音声データを提供する情報処理装置である。クラウド1300は、通信部1301と、音声データ合成部1302と、音声データ記憶部1303とを備える。
【0100】
通信部1301は、携帯通信端末1200、コンピュータ1400、および携帯通信端末1500と通信する。音声データ合成部1302は、第1携帯通信端末1200Aおよび第2携帯通信端末1200Bから受信した複数の断片的な音声データを合成することにより、合成音声データを生成する。なお、音声データ合成部1302によって生成される合成音声データの詳細については後述する。音声データ記憶部1303は、音声データ合成部1302によって生成された合成音声データを記憶する。
【0101】
<8.ヘッドセットと携帯通信端末との接続>
図17は、本発明の実施形態4におけるヘッドセット(イヤフォン)と携帯通信端末との接続状況を表示する接続状況表示画面を示す図である。
図17に示される接続状況表示画面は、携帯通信端末1200の表示部1212に表示される。表示部1212には、携帯通信端末1200に接続されるヘッドセット1100を識別するための識別情報(
図17においては、“xxxxxx”)が表示される。携帯通信端末1200とヘッドセット1100は、Bluetooth(登録商標)等を用いて接続され、音声データに加えて各種制御データが送信される。
【0102】
<9.ログイン>
図18は、本発明の実施形態4における通信システムにログインする際に表示されるログイン画面を示す図である。ユーザーは、
図18に示されるログイン画面にログイン情報(テナントID、メールアドレス、およびパスワード)を入力することによって、通信システム1000にログインすることができる。テナントIDは、テナントを識別するための記号であり、N桁の数字・文字等によって表される。
【0103】
本通信システム1000は、ビジネスユースを想定したクラウドサービスである。このため、ログイン画面には、テナント選択キー1214および共用ユーザログインキー1215が表示される。ユーザーがテナント選択キー1214を選択(タップ)すると、後述するテナント変更画面(
図19)が表示部1212に表示される。一方、ユーザーが共用ユーザログインキー1215を選択(タップ)すると、ログイン情報を入力することなく、ユーザーは共用ユーザーとしてログインすることができる。なお、管理者権限を有するユーザーによって共用ユーザーに提供されるコード情報(例えば、QRコード(登録商標))を用いて、共用ユーザーを認証してもよい。共用ユーザーについての詳細は後述する。
【0104】
図19は、本発明の実施形態4におけるテナントを変更する際に表示されるテナント変更画面を示す図である。テナント変更画面には、テナントリスト1216と、新規テナント追加キー1218とが表示される。デフォルトで選択されるテナントAには、チェックマーク1217が表示されている。また、ユーザーは、過去に選択したことのあるテナントB〜Eを、テナントリスト1216から再度選択することができる。
【0105】
また、ユーザーは、新規テナント追加キー1218を選択(タップ)することにより、新規のテナントを追加することができる。ユーザーによってテナントが選択されると、
図18に示されるログイン画面が表示部1212に表示され、ログイン情報(ID、メールアドレス、パスワード)を入力することでログインすることができる。テナントにログインしたユーザーは、ルームへの参加が可能となる。ルームは、グループごとの通話を管理するための単位である。ルームは、管理者権限を有するユーザーによって作成および削除される。
【0106】
<10.ルームへの参加およびルームの新設>
図20は、本発明の実施形態4におけるユーザーがルームに参加する際に表示されるルーム参加画面を示す図である。
図20に示されるルーム参加画面には、招待通知1219と、ルームキー入力領域1220と、ルーム参加キー1221と、ルーム参加履歴1222と、ルーム新設キー1223とが表示される。
【0107】
招待通知1219は、他のユーザーからルームへの招待が届いた場合に、新着情報として表示される。招待は、ルームにユーザーを追加するための通知である。ユーザーは、招待通知1219を選択(タップ)することにより、招待されたルームに直接参加することができる。
【0108】
ルームキー入力領域1220は、ルームを識別するためのルームキーがユーザーによって入力される領域である。ルームキーは、通話接続先を一意に定めるユニークなキーである。ユーザーは、ルームキーをルームキー入力領域1220に入力し、ルーム参加キー1221を選択(タップ)することにより、ルームに参加することができる。
【0109】
ルーム参加履歴1222は、ユーザーが過去に参加したルームのリストである。ユーザーは、ルーム参加履歴1222に表示されたルームを選択(タップ)することにより、選択したルームに参加することができる。
【0110】
ユーザーが、ルームを新設する権限を有するユーザーIDを用いてログインした場合は、ルーム参加画面の下部にルーム新設キー1223が表示される。ユーザーが、ルーム新設キー1223を選択(タップ)すると、ルーム新設画面(
図21)が表示部1212に表示される。
【0111】
図21は、本発明の実施形態4におけるユーザーがルームを新設する際に表示されるルーム新設画面を示す図である。
図21に示されるルーム新設画面には、ルーム名1224と、ルームキー1225と、ルームURL1226と、メンバー招待キー1227とが表示される。
【0112】
ルーム名1224は自動的に決定されるが、ユーザーによって変更されてもよい。ルームキー1225は、新設されたルームに参加するために必要な認証情報であり、例えば数字によって表される。ルームURL1226は、新設されたルームのインターネット上における場所を特定するための情報である。メンバー招待キー1227は、ルームに招待するユーザーをメンバーリストから選択するための画面を表示させるためのキーである。
【0113】
ルームを新設したユーザーは、ルームキーまたはルームURLを用いて他のユーザーをルームに招待することができるとともに、メンバーリストからルームに招待したい他のユーザーを選択することもできる。ルームを新設したユーザーは、ルームに招待したい他のユーザーに対して、メールでルームキーまたはルームURLを知らせてもよいし、口頭でルームキーまたはルームURLを知らせてもよい。一方、ユーザーが、メンバーリストから他のユーザーを選択すると、選択された他のユーザーが所有する携帯通信端末1200にpush通知が届き、
図20に示される招待通知1219が表示部1212に表示される。なお、
図20に示されるルーム参加履歴1222には、招待されたルームが表示される。このため、ルームに招待されたユーザーは、招待通知1219を見落とした場合であっても、ルーム参加履歴1222からルームに参加することができる。
【0114】
<11.ルームにおける会話機能>
図22は、本発明の実施形態4におけるユーザーがルームに参加した際に表示される通話画面を示す図である。
図22に示される通話画面には、通話終了キー1228と、ルームメンバーキー1229と、通話キー1230と、録音キー1231と、プッシュ/ハンズフリー切り替えキー1232とが表示される。
【0115】
ユーザーが通話終了キー1228をタップすると、ルームにおける通話が終了する。なお、ユーザーが通話終了キー1228をタップするのに代えて、通話終了キー1228をスワイプしたことに応じて、通話を終了してもよい。ルームにおける通話が終了する。ルームメンバーキー1229には、ユーザー名と、ルームに参加しているメンバー数(
図22の例においては、6名)が表示されている。ユーザーがルームメンバーキー1229を選択(タップ)すると、後述するルームメンバー画面(
図23)が表示部1212に表示される。
【0116】
ユーザーが通話キー1230を選択(タップ)すると、通話キー1230のオン/オフが切り替わる。通話キー1230がオンの場合には、携帯通信端末1200は、ヘッドセット1100から取得した音声データをクラウド1300に送信する。一方、通話キー1230がオフの場合には、携帯通信端末1200は、ヘッドセット1100から取得した音声データをクラウド1300に送信しない。これにより、通話キー1230をオフにすることによって、ユーザーの発話が通信相手に聞かれないようにすることができる。なお、通話キー1230に代えて、ヘッドセット1100のボタン1110を用いて、オン/オフを切り替えてもよい。
【0117】
ユーザーが録音キー1231を選択(タップ)すると、ユーザーの発話に基づいて取得された音声データの録音が開始される。録音された音声データは、録音データとして録音データ記憶部1210に記憶される。また、ユーザーがプッシュ/ハンズフリー切り替えキー1232を上下方向にスワイプすることにより、プッシュとハンズフリーとを切り替えることができる。
【0118】
図23は、本発明の実施形態4におけるユーザーがルームメンバーを確認する際に表示されるルームメンバー画面を示す図である。ルームメンバー画面には、ルームに参加しているアクティブなメンバーのリストと、ルームから退出したメンバーのリストとが表示される。
【0119】
なお、管理者権限を有するユーザーは、ルームメンバー画面に表示されたユーザーの一人を選択して、選択したユーザーを呼び出したり、ルームから外したりすることができる。例えば、管理者権限を有するユーザーは、ルームメンバー画面からユーザーBの選択キー1233を選択(タップ)すると、ポップアップウィンドウ1234(
図24)が表示部1212に表示される。
【0120】
図24は、本発明の実施形態4におけるルームメンバー画面に表示されたポップアップウィンドウを示す図である。管理者権限を有するユーザーは、ポップアップウィンドウ1234から、ユーザーBを呼び出すか、ルームから外すかを選択することができる。一方、管理者権限を有するユーザーは、キャンセルキー1235を選択(タップ)すると、ポップアップウィンドウ1234を閉じることができる。
【0121】
<12.ユーザー設定画面>
図25は、本発明の実施形態4におけるユーザー設定画面を示す図である。
図25は、一例として、管理者権限を有するユーザー(マネージャーA)のユーザー設定画面を示している。ユーザー設定画面には、アカウント設定アイコン1236と、トーク設定アイコン1237と、管理画面選択キー1238とが表示される。
【0122】
管理者権限を有するユーザーがアカウント設定アイコン1236を選択(タップ)すると、アカウント設定画面が表示部1212に表示される。管理者権限を有するユーザーは、アカウント設定画面において、パスワードおよびニックネームを変更することができる。
【0123】
また、前述したように、管理者権限を有するユーザーの他に、一般ユーザーと、共用ユーザーとが存在する。一般ユーザーは、管理者権限を有するユーザーと同様に、アカウント設定画面において、パスワードおよびニックネームを変更することができる。一方、共用ユーザーは、アカウント設定画面において、ニックネームを変更することはできるものの、パスワードを変更することはできない。なお、上述したアカウント設定画面における設定内容は一例にすぎず、これに限られない。例えば、アカウント設定画面において、パスワードおよびニックネーム以外を設定できるようにしてもよい。また、共用ユーザーは、アカウント設定画面において、パスワードを変更できるようにしてもよい。
【0124】
ユーザーがトーク設定アイコン1237を選択(タップ)すると、トーク設定画面が表示部1212に表示される。ユーザーは、トーク設定画面において、音量やノイズの抑制レベル等を変更することができる。なお、上述したトーク設定画面における設定内容は一例にすぎず、これに限られない。例えば、トーク設定画面において、音量やノイズおよび抑制レベル以外を設定できるようにしてもよい。
【0125】
管理画面選択キー1238は、管理者権限を有するユーザーのユーザー設定画面には表示されるが、一般ユーザーのユーザー設定画面および共用ユーザーのユーザー設定画面には表示されない。管理者権限を有するユーザーが管理画面選択キー1238を選択(タップ)すると、管理画面が表示部1212に表示される。
【0126】
<13.管理画面>
図26は、本発明の実施形態4におけるルームおよび録音に関する管理画面を示す図である。
図27は、本発明の実施形態4におけるユーザー属性に関する管理画面を示す図である。
図26および
図27は、一例として、コンピュータ1400に接続された表示部1410に表示される管理画面1411を示しているが、携帯通信端末1200の表示部1212にも、
図26および
図27と同様の管理画面が表示される。なお、
図26および
図27は、コンピュータ400を用いてテナント管理者がログインした場合に、表示部1410に表示される管理画面1411の一例である。
【0127】
図26に示されるように、ルームおよび録音に関する管理画面には、テナント内の全ルームが一覧表示される。各ルームはルーム名で管理され、ルームごとに録音可能となっている。ルームおよび録音に関する管理画面には、ルーム名1412と、録音データ情報1413と、メンバー情報1414とが表示される。ルーム名は、会話が録音されたルームの名前である。録音データ情報1413は、録音データの件数と、録音データの容量を示す情報である。メンバー情報1414は、ルームに参加したメンバーに関する情報である。
【0128】
また、
図27に示されるように、ユーザー属性に関する管理画面には、テナント内の全ユーザーが一覧表示される。ユーザーは、テナントごとに管理される。テナント管理者は、ユーザー属性に関する管理画面から、ユーザーに対する各種権限の付与、アカウントの変更、およびユーザーの招待等を行うことができる。
図27に示されるように、ユーザー属性に関する管理画面には、所属選択ウィンドウ1415が表示される。テナント管理者は、所属選択ウィンドウ1415において所属を選択することにより、各ユーザーの所属(グループ)を設定することができる。
【0129】
テナント管理者は、ユーザーを組織内の所属(グループ)ごとに管理する。これにより、テナント管理者は、同一グループ内に分類されたユーザーの属性を一括で変更することができる。なお、テナント管理者は、ユーザーをグループごとに管理することとしたが、これに限られない。例えば、テナント管理者は、タグを各ユーザーに付与し、ユーザーをタグごとに管理してもよい。タグとは、ユーザーに付与されるメタ情報であり、ユーザーの招待や、ユーザーの検索等に用いられる情報である。
【0130】
<14.ユーザーの追加>
図28は、本発明の実施形態4におけるユーザー追加ウィンドウを示す図である。ユーザー追加ウィンドウ1416は、管理者権限を有するユーザーまたは一般ユーザーをテナントに追加するための画面である。テナント管理者は、表示部1410に表示されるユーザー追加ウィンドウ1416に、ユーザーのメールアドレス、氏名、所属、および権限を入力することによって、ユーザーをテナントに追加することができる。
【0131】
図29は、本発明の実施形態4における共用ユーザー追加ウィンドウを示す図である。共用ユーザー追加ウィンドウ1417は、共用ユーザーをテナントに追加するための画面である。テナント管理者は、表示部1410に表示される共用ユーザー追加ウィンドウ1417に、共用デバイスのデバイス名および所属(店舗)を入力することによって、共用ユーザーをテナントに追加することができる。なお、共用デバイスは、複数の一時的な共用ユーザーによって利用される携帯通信端末である。テナント管理者は、一時的に共用ユーザーに貸与する携帯通信端末を、共用デバイスとして管理する。テナント管理者は、メールアドレス等を用いて共用ユーザーを特定できないため、共用ユーザーによって利用される共用デバイス自体を管理する。
【0132】
ビジネス向けのクラウドサービスの多くにおいては、アカウントごとに費用が生じる。このため、テナント管理者は、課金対象となるアカウントの追加および削除を、管理画面において一括で管理する。
図28に示されるように、テナント管理者は、新規ユーザーのメールアドレスを入力する。コンピュータ1400は、テナント管理者によって入力されたメールアドレスをクラウド1300に送信する。クラウド1300は、コンピュータ1400から受信したメールアドレスに、本登録を行うための認証用メールを送付する。
【0133】
これに対し、アルバイトやパートタイム等のユーザーの場合、メンバーの入れ替わりが発生しやすい。このため、メールアドレスを用いて、アルバイトやパートタイム等のユーザーのアカウントを管理するのは適切でない。そこで、クラウド1300は、共用デバイスに関する情報のみを登録するものとする。なお、共用デバイスに対して、共用デバイスを管理するための共用デバイスIDが付与される。共用デバイスIDは、共用デバイスの識別情報である。
【0134】
なお、テナント管理者は、共用ユーザーの自動ログアウト設定、共用ユーザーの作成、タグやユーザー基本データの管理、登録メールの再送、端末登録、端末除去、ユーザーデータの詳細表示等の操作を行うことができる。ここで、端末登録は、共用ユーザーと携帯通信端末1200とを紐付けるための登録を意味する。端末除去は、共用ユーザーと携帯通信端末1200との紐付けを解除することを意味する。端末除去が行われた携帯通信端末1200は、別のユーザーアカウントと再度紐付け可能な状態となる。ユーザー基本データは、ユーザーの氏名(共用ユーザーの場合は、部署名等)、ニックネーム、タグ、アイコン等のデータである。
【0135】
テナント管理者は、監査ログや、ユーザーアクティビティログや、ユーザーと紐付いた録音データのリストを、表示部1212または表示部1410に表示させることができる。監査ログは、ユーザーの追加、削除、ログイン記録等の、通信システム1000の動作に関するログである。ユーザーアクティビティログは、ルームへの参加、ルームからの退出、ルームへの招待、ルームからの追い出し、録音、ルームの状態(例えば、非アクティブ状態等)を示す情報、およびデバイスを特定するための情報等のログである。また、テナント管理者は、ユーザーIDまたは時間を検索キーとして用いて、音声データの絞込検索を行うことができるとともに、検索結果を表示部1212または表示部1410に表示させることができる。
【0136】
<15.会話の録音および再生>
図30は、本発明の実施形態4における録音データを一覧表示する録音データウィンドウを示す図である。
図30に示される録音データウィンドウは、録音データをダウンロードする際に表示部1410に表示される。録音データウィンドウに表示される録音データは、クラウド1300の音声データ合成部1302によって生成された合成音声データである。ユーザーは、
図30に示される録音データウィンドウから録音データを選択(タップ)することにより、クラウド1300から携帯通信端末1200に録音データをダウンロードすることができる。携帯通信端末1200の再生部1213は、ダウンロードした録音データを再生する。
【0137】
携帯通信端末1200は、管理者権限を有するユーザーが録音キー1231(
図22)を選択(タップ)したことに応じて録音を開始することとしたが、これに限られない。例えば、携帯通信端末1200は、デフォルトで全ての会話を録音してもよい。また、携帯通信端末1200は、特定のユーザーが参加するルームにおいては、デフォルトで会話を録音してもよい。管理者権限を有するユーザーは、ルームの作成時に録音の設定を変更してもよい。例えば、管理者権限を有するユーザーは、ユーザーの特性を勘案し、録音開始の条件を決定してもよい。なお、録音データ(音声データ合成部1302によって生成された合成音声データ)は、クラウド1300の音声データ記憶部1303に記憶される。このため、録音データの容量が予め設定された上限に達した場合、クラウド1300は、追加課金や他のデータの保存期間を変更する等の条件を、テナント管理者が所有するコンピュータ1400や携帯通信端末1500に通知してもよい。
【0138】
<16.音声データの合成処理>
図31は、本発明の実施形態4における音声データの合成処理を示すシーケンス図である。本実施形態においては、第1携帯通信端末1200Aを所持するユーザーAおよび第2携帯通信端末1200Bを所持するユーザーBの両方が、管理者権限を有し、ルーム内の録音開始を指示できることとする。なお、説明の簡易化のため、
図31はルームに参加しているユーザーの人数が2名である例を示しているが、ユーザーの人数は3名以上であってもよい。また、
図31は、録音キー1231(
図22)が選択(タップ)されたことに応じて録音を開始する例を示しているが、デフォルトで全ての会話を録音するように設定されていてもよい。
【0139】
図31において、第1携帯通信端末1200Aを所持するユーザーAが、第2携帯通信端末1200Bを所持するユーザーBが参加しているルームに参加すると、第1携帯通信端末1200Aは、クラウド1300に参加通知を送信する(ステップS1)。クラウド1300は、第1携帯通信端末1200Aから参加通知を受信すると、ユーザーAについての新規メンバー情報(例えば、ユーザーID)を、第2携帯通信端末1200Bに送信する(ステップS2)。これによって、ルーム内において、ユーザーAはユーザーBと会話することができる。
【0140】
ユーザーAが録音キー1231(
図22)を選択(タップ)すると、第1携帯通信端末1200Aは、録音開始通知を第2携帯通信端末1200Bに送信する(ステップS3)。これによって、第1携帯通信端末1200Aおよび第2携帯通信端末1200Bは、音声データの録音を開始する。
【0141】
第1ヘッドセット1100Aは、マイクを用いて取得した音声データを、第1携帯通信端末1200Aに送信する。第1携帯通信端末1200Aの音声データ生成部1211は、第1ヘッドセット1100Aから受信した音声データから、発話性判定部1205により人間の音声であると判定された部分の複数の断片的な音声データを生成する。この断片的な音声データは、ユーザーAが発話した部分の音声データである。第1携帯通信端末1200Aは、この断片的な音声データを、クラウド1300および第2携帯通信端末1200Bを介して、第2ヘッドセット1100Bに送信する。これによって、第2ヘッドセット1100Bのスピーカーは、ユーザーAが発話した部分の音声データのみを再生することができる。
【0142】
また、第1携帯通信端末1200Aの録音データ記憶部1210は、第1携帯通信端末1200Aの音声データ生成部1211によって生成された複数の断片的な音声データを、録音データとして記憶する。なお、第1携帯通信端末1200Aの録音データ記憶部1210に記憶される断片的な音声データには、ユーザーAのユーザーIDと、発話の開始時間と、発話の終了時間とがメタデータとして付与される。録音開始が指示される以前の音声データが第1携帯通信端末1200Aの録音データ記憶部1210に記憶されている場合、この音声データを録音データとして用いてもよい。
【0143】
一方、第2ヘッドセット1100Bは、マイクを用いて取得した音声データを、第2携帯通信端末1200Bに送信する。第2携帯通信端末1200Bの音声データ生成部1211は、第2ヘッドセット1100Bから受信した音声データから、発話性判定部1205により人間の音声であると判定された部分の複数の断片的な音声データを生成する。この断片的な音声データは、ユーザーBが発話した部分の音声データである。第2携帯通信端末1200Bは、この断片的な音声データを、クラウド1300および第1携帯通信端末1200Aを介して、第1ヘッドセット1100Aに送信する。これによって、第1ヘッドセット1100Aのスピーカーは、ユーザーBが発話した部分の音声データのみを再生することができる。
【0144】
また、第2携帯通信端末1200Bの録音データ記憶部1210は、第2携帯通信端末1200Bの音声データ生成部1211によって生成された複数の断片的な音声データを、録音データとして記憶する。なお、第2携帯通信端末1200Bの録音データ記憶部1210に記憶される断片的な音声データには、ユーザーBのユーザーIDと、発話開始時間と、発話終了時間とがメタデータとして付与される。録音開始が指示される以前の音声データが第2携帯通信端末1200Bの録音データ記憶部1210に記憶されている場合、この音声データを録音データとして用いてもよい。
【0145】
なお、第1携帯通信端末1200Aは、クラウド1300を介して第2携帯通信端末1200Bから受信したユーザーBの音声データを第1ヘッドセット1100Aに送信するが、このユーザーBの音声データを第1携帯通信端末1200Aの録音データ記憶部1210に記憶しない。また、第2携帯通信端末1200Bは、クラウド1300を介して第1携帯通信端末1200Aから受信したユーザーAの音声データを第2ヘッドセット1100Bに送信するが、このユーザーAの音声データを第2携帯通信端末1200Bの録音データ記憶部1210に記憶しない。
【0146】
ユーザーAは、通話終了キー1228(
図22)をタップすることによって、ルームから退出する。ユーザーAがルームから退出すると、第1携帯通信端末1200Aは、音声データの録音を終了する。ユーザーAがルームから退出してから所定時間が経過した後、第1携帯通信端末1200Aは、録音データ記憶部1210に記憶された複数の断片的な音声データを読み出し、クラウド1300に送信する(ステップS4)。
【0147】
一方、ユーザーBは、通話終了キー1228(
図22)をタップすることによって、ルームから退出する。ユーザーBがルームから退出すると、第2携帯通信端末1200Bは、音声データの録音を終了する。ユーザーBがルームから退出してから所定時間が経過した後、第2携帯通信端末1200Bは、録音データ記憶部1210に記憶された複数の断片的な音声データを読み出し、クラウド1300に送信する(ステップS5)。
【0148】
なお、
図31に示されるシーケンス図においては、携帯通信端末1200が音声データをバッファリングし、ユーザーがルームアウトしたときに音声データをクラウド1300に送り、クラウド1300が録音データの合成を行うこととしたが、これに限られない。例えば、クラウド1300は、携帯通信端末1200から録音開始通知を受信すると、その後携帯通信端末1200から受信した音声データの保存を開始してもよい。つまり、携帯通信端末1200が音声データをバッファリングするのではなく、会話をしている間は常にクラウド1300が音声データを蓄積してもよい。また、全ユーザーがルームアウト(または、録音を停止)したときに、クラウド1300は、音声データに付与されたタイムスタンプ(発話開始時間および発話終了時間)を用いて合成音声データを生成してもよい。
【0149】
図32は、本発明の実施形態4におけるクラウドが受信した複数の断片的な音声データを示す図である。
図32において、ユーザーAのユーザーIDは“ID001”であり、ユーザーBのユーザーIDは“ID002”であることとする。
図32において、音声データA、音声データC、および音声データEは、第1携帯通信端末1200Aから受信した複数の断片的な音声データ(ユーザーAの音声データ)であり、音声データB、音声データD、および音声データFは、第2携帯通信端末1200Bから受信した複数の断片的な音声データ(ユーザーBの音声データ)である。
【0150】
音声データA、音声データC、および音声データEには、それぞれ、メタデータD1、メタデータD3、およびメタデータD5が付与されている。また、音声データB、音声データD、および音声データFには、それぞれ、メタデータD2、メタデータD4、およびメタデータD6が付与されている。メタデータD1〜D6には、ユーザーIDと、発話開始時間と、発話終了時間とが含まれる。クラウド1300の音声データ合成部1302は、メタデータに含まれる発話開始時間および発話終了時間に基づいて複数の断片的な音声データを合成することにより、合成音声データを生成する。音声データ合成部1302によって生成された合成音声データは、ルームにおける会話内容が録音された録音データである。音声データ記憶部1303は、音声データ合成部1302によって生成された合成音声データを、録音データとして所定期間(例えば、6ヶ月)記憶する。
【0151】
前述したように、管理者権限を有するユーザーは、
図30に示される録音データウィンドウから録音データを選択することにより、クラウド1300の音声データ記憶部1303に記憶された録音データをダウンロードすることができる。
【0152】
本発明の実施形態4によれば、ユーザーが発話した部分のみの音声データを抽出することにより、音声データのサイズを小さくすることができ、通信システム1000内におけるデータの通信量を低減することができる。また、クラウド1300は、全ての発話内容を合成するのではなく、特定のユーザーの音声のみを取り出すことで、ディクテーション・テキストを生成してもよい。これによって、会話データの元データとして各ユーザーに紐付けられた音声のみを取り出すことができる。
【0153】
なお、クラウド1300の音声データ合成部1302は、合成音声データ(会話ファイル)を生成する際、各ユーザーの音声データの発話タイミングを調整して、各ユーザーの音声が重ならないようにしてもよい。これによって、各ユーザーの会話を聞き取りやすくすることができる。また、クラウド1300は、ユーザーごとの音声データを、音声認識に利用してもよい。更に、クラウド1300は、ユーザーIDを検索キーとして用いて、合成音声データを検索してもよい。これによって、ルーム内の会話に参加しているユーザーを効率的に特定することができる。
【0154】
なお、実施形態4において、携帯通信端末1200の各機能を実行するためのプログラムは、携帯通信端末1200内のメモリに記憶されている。携帯通信端末1200内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。また、ヘッドセット1100の各機能を実行するためのプログラムは、ヘッドセット1100内のメモリに記憶されている。ヘッドセット1100内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0155】
また、実施形態4において、クラウド1300の各機能を実行するためのプログラムは、クラウド1300内のメモリに記憶されている。クラウド1300内のCPUは、メモリからプログラムを読み出して実行することにより、上記の各機能を実行することができる。
【0156】
なお、実施形態4において、ヘッドセット1100の機能の一部を、携帯通信端末1200に設けてもよい。例えば、携帯通信端末1200は、ヘッドセット1100に代えて、
図4に記載の発話強調部212を備えてもよい。また、実施形態4において、携帯通信端末1200の機能の一部を、ヘッドセット1100に設けてもよい。例えば、ヘッドセット1100は、携帯通信端末1200に代えて、
図15に記載のグループ通話管理部1201、グループ通話制御部1202、ノイズ推定部1203、発話候補判定部1204、発話性判定部1205、および音声データ送信部1206、録音データ記憶部1210、および音声データ生成部1211の全てまたは一部を備えてもよい。
【0157】
また、実施形態4において、ヘッドセット1100および携帯通信端末1200の機能の一部を、クラウド1300に設けてもよい。例えば、クラウド1300は、ヘッドセット1100に代えて、
図4に記載の発話強調部212を備えてもよい。また、クラウド1300は、携帯通信端末1200に代えて、
図15に記載のグループ通話管理部1201、グループ通話制御部1202、ノイズ推定部1203、発話候補判定部1204、発話性判定部1205、音声データ送信部1206、録音データ記憶部1210、および音声データ生成部1211の全てまたは一部を備えてもよい。
【0158】
以上説明したように、本発明の実施形態4によれば、第1携帯通信端末1200Aから断片的な第1音声データを取得する第1取得ステップと、第1携帯通信端末1200Aと同じ通話グループに属する第2携帯通信端末1200Bから断片的な第2音声データを取得する第2取得ステップと、第1音声データと第2音声データとを合成して合成音声データを生成する生成ステップと、合成音声データを再生可能に提供する提供ステップと、を有するサービス提供方法を実現することができる。
【0159】
また、本発明の実施形態4によれば、上記のサービス提供方法を実行するクラウド1300を実現することができる。
【0160】
また、本発明の実施形態4によれば、情報処理装置によって実行されることにより、上記のサービス提供方法を実行するプログラムを実現することができる。
【0161】
また、本発明の実施形態4によれば、上記のプログラムが記録された記録媒体を実現することができる。
【0162】
また、本発明の実施形態4によれば、上記のクラウド1300に接続可能な携帯通信端末1200であって、複数の断片的な音声データが合成された合成音声データをクラウド1300から受信する通信部1208と、通信部1208により受信された合成音声データを再生する再生部1213と、を有する携帯通信端末1200を提供することができる。
【0163】
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。