(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024131008
(43)【公開日】2024-09-30
(54)【発明の名称】コミュニケーション支援装置および音声出力方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240920BHJP
G10L 25/51 20130101ALI20240920BHJP
H04M 3/56 20060101ALI20240920BHJP
H04S 1/00 20060101ALI20240920BHJP
【FI】
H04R3/00 310
G10L25/51
H04M3/56 B
H04S1/00 200
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023041010
(22)【出願日】2023-03-15
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】坂野 真聖
【テーマコード(参考)】
5D162
5D220
5K201
【Fターム(参考)】
5D162CD01
5D162EA02
5D220AA12
5K201BB09
5K201BD04
5K201CA01
5K201DC05
5K201DC06
5K201EC06
(57)【要約】
【課題】オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握すること。
【解決手段】コミュニケーション支援装置は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、検出部が複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末のユーザの発話音声を、複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、
前記複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、
前記検出部が前記複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、
を備える、コミュニケーション支援装置。
【請求項2】
前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の冒頭部をさらに検出し、
前記音声出力制御部は、前記複数の情報端末のユーザの発話における冒頭部が重なったことを前記検出部が検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項1に記載のコミュニケーション支援装置。
【請求項3】
前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の空白期間があることをさらに検出し、
前記音声出力制御部は、空白期間の後に、前記複数の情報端末のユーザの発話音声が重なったことを前記検出部が検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項1に記載のコミュニケーション支援装置。
【請求項4】
前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の継続性をさらに検出し、
前記音声出力制御部は、発話が継続的であった前記情報端末のユーザの発話音声と、発話が継続的ではない前記情報端末のユーザの発話音声とが重なったことを前記検出部が検出した場合、発話が継続的ではない前記情報端末のユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項1に記載のコミュニケーション支援装置。
【請求項5】
ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得ステップと、
前記複数の情報端末のユーザの発話音声が重なったことを検出する検出ステップと、
前記複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御ステップと、
をコミュニケーション支援装置が実行する、音声出力方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コミュニケーション支援装置および音声出力方法に関する。
【背景技術】
【0002】
オンラインコミュニケーションが普及しており、複数の参加者によるオンライン会議等も一般化している。このようなオンラインコミュニケーションにおいては、複数の発話者が同時に発話を開始してしまう、発話の衝突が以前から指摘されている。特許文献1には、発話予備動作から発話可能性を算出し、次の発話者を選択することが開示されている。特許文献2には、発話された特徴後等から発話優先度を算出し、発話優先度に基づき他方の発言をミュートすることが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011-118632号公報
【特許文献2】特開2022-136589号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1および特許文献2に記載の技術は、発言の衝突を低減することが目的であり、ボディランゲージや発話内容の分析から、次の発言者を特定する。しかし、発言の衝突があった場合、どのように発言を譲るのか、優先させるのかの判断は、様々な要素に基づいて判断されるため、一概にいずれかの発言を優先させる決定を行うことが適さない場面も存在する。また、発言の衝突があった場合、オンラインコミュニケーションの参加者は、同時に複数の参加者の発言に基づく音声が出力されるため、発言内容が聞き取れずに、いずれを優先させるのか判断できない場合、または、他の発言が存在したことに気付かない場合もある。
【0005】
本発明は、オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握することのできるコミュニケーション支援装置および音声出力方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のコミュニケーション支援装置は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、前記複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、前記検出部が前記複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、を備える。
【0007】
本発明の音声出力方法は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得ステップと、前記複数の情報端末のユーザの発話音声が重なったことを検出する検出ステップと、前記複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御ステップと、をコミュニケーション支援装置が実行する。
【発明の効果】
【0008】
本発明によれば、オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、第一実施形態に係るWEBシステムの構成例を示す図である。
【
図2】
図2は、第一実施形態に係る情報端末の構成例を示すブロック図である。
【
図3】
図3は、第一実施形態に係るサーバ装置の構成例を示すブロック図である。
【
図4】
図4は、第一実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。
【
図5】
図5は、第一実施形態に係る発話音声を出力させる方法を説明するための図である。
【
図6】
図6は、第一実施形態に係る音声出力方法を示すフローチャートである。
【
図7】
図7は、第二実施形態に係る音声出力方法を示すフローチャートである。
【
図8】
図8は、第三実施形態に係る音声出力方法を示すフローチャートである。
【
図9】
図9は、第四実施形態に係る発話の断続性を説明するための図である。
【
図10】
図10は、第四実施形態に係る音声出力方法を説明するためのフローチャートである。
【
図11】
図11は、第五実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。
【
図12】
図12は、第五実施形態に係る音声出力方法を説明するためのフローチャートである。
【
図13】
図13は、第六実施形態に係る音声出力方法を説明するためのフローチャートである。
【
図14】
図14は、第七実施形態に係る音声出力方法を説明するためのフローチャートである。
【
図15】
図15は、第八実施形態に係る音声出力方法を説明するためのフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0011】
[第一実施形態]
(WEB会議システム)
図1を用いて、第一実施形態に係るWEB会議システムの構成例について説明する。
図1は、第一実施形態に係るWEBシステムの構成例を示す図である。
【0012】
図1に示すように、情報処理システム1は、複数の情報端末10と、サーバ装置12とを含む。各情報端末10は、WEB会議アプリケーションを起動することで、サーバ装置12を介して、他の情報端末10とWEB会議を行うことができる。
【0013】
(情報端末)
図2を用いて、第一実施形態に係る情報端末の構成例について説明する。
図2は、第一実施形態に係る情報端末の構成例を示すブロック図である。
【0014】
図2に示すように、情報端末10は、カメラ20と、マイクロフォン22と、音声出力部24と、操作部26と、通信部28と、表示部30と、端末制御装置(制御部)32と、を備える。情報端末10としては、例えば、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット端末などの情報端末が例示される。
【0015】
カメラ20は、情報端末10の前に存在しているユーザを撮影する。カメラ20は、情報端末10を使用するユーザを撮影する。カメラ20は、例えば、表示部30側に設けられたインカメラである。カメラ20は、情報端末10に接続された外部のカメラであってもよい。
【0016】
マイクロフォン22は、情報端末10を使用するユーザが発話した音声を収音する。マイクロフォン22は、収音した音声に関する音声情報を端末制御装置32の音声取得部44に出力する。
【0017】
音声出力部24は、音声出力制御部48の制御に従って、各種の音声を出力する。音声出力部24は、例えば、WEB会議に参加している他の参加者の発話音声を出力する。音声出力部24は、例えば、少なくとも左右2チャンネルのステレオ音声出力が可能なスピーカ、イヤフォン、ヘッドセットなどで実現される。音声出力部24は、通常は、左右チャンネルに対して同一の音声を同一の音量で出力するモノラル音声でWEB会議の音声を出力する。
【0018】
操作部26は、情報端末10に対する各種の入力操作を受け付ける。操作部26は、受け付けた入力操作に応じた操作信号を端末制御装置32に出力する。操作部26は、例えば、キーボード、マウス、タッチパネル、ボタン、スイッチなどを含む。操作部26としてタッチパネルが用いられる場合には、操作部26は表示部30上に配置される。
【0019】
通信部28は、有線又は無線のネットワークを介して、外部装置との間で通信を行う。通信部28は、例えば、有線又は無線のネットワークを介して、サーバ装置12との間で通信を行う。
【0020】
表示部30は、文字及び画像を含む各種の映像を表示する。表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro-Luminescence)などを含むディスプレイである。
【0021】
端末制御装置32は、情報端末10の各部を制御する。端末制御装置32は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの情報処理装置と、RAM(Random Access Memory)又はROM(Read Only Memory)などの記憶装置とを有する。端末制御装置32は、本発明に係る情報端末10の動作を制御するプログラムを実行する。端末制御装置32は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。端末制御装置32は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
【0022】
端末制御装置32は、回路や実行されるプログラムによって実現される機能ブロックとして、撮影制御部40と、通信制御部42と、音声取得部44と、表示制御部46と、音声出力制御部48と、アプリケーション制御部50と、操作制御部52と、記憶部54と、を有する。
【0023】
撮影制御部40は、カメラ20を制御して、画像を撮影させる。撮影制御部40は、カメラ20に撮影させた画像に関する画像データを取得する。具体的には、撮影制御部40は、カメラ20によって撮影された、情報端末10を使用するユーザを撮影した画像データを取得する。カメラ20の撮影によって取得する画像データは、動画像の画像データである。
【0024】
通信制御部42は、通信部28を制御して、情報端末10と外部装置との間の通信を実行させる。具体的には、通信制御部42は、例えば、通信部28を制御して、情報端末10と、サーバ装置12との間の通信を制御する。通信制御部42は、例えば、通信部28を制御して、他の情報端末10を使用するユーザの発話音声に関する音声情報を含むWEB会議に関する情報をサーバ装置12から取得する。通信制御部42は、例えば、通信部28を制御して、音声取得部44が取得した情報端末10を使用するユーザの発話音声に関する音声情報をサーバ装置12に送信する。
【0025】
音声取得部44は、マイクロフォン22が検出した音声に関する音声情報を取得する。音声取得部44は、情報端末10を使用するユーザの発話に関する音声情報を取得する。
【0026】
表示制御部46は、表示部30を制御して、文字及び画像を含む各種の映像を表示させる。表示制御部46は、例えば、表示部30を制御して、WEB会議のアプリケーションを実行させた情報(以下、WEB会議画面)を表示させる。WEB会議画面は、表示制御部46がWEB会議画面を生成して表示部30に表示させてもよく、サーバ装置12が生成したWEB会議画面を、表示制御部46が表示部30に表示させてもよい。
【0027】
音声出力制御部48は、音声出力部24を制御して、各種の音声を出力させる。音声出力制御部48は、例えば、音声出力部24を制御して、複数の情報端末10のユーザの発話音声が重なったことが検出された場合、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、聞こえる位置が異なる方向となる処理を行って出力させる。言い換えれば、音声出力制御部48は、例えば、音声出力部24を制御して、複数の情報端末10のユーザの発話音声が重なったことが検出された場合、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0028】
アプリケーション制御部50は、情報端末10で動作する各種のアプリケーションの動作を制御する。アプリケーション制御部50は、例えば、WEB会議ツール及びチャットツールなどのアプリケーションの動作を制御する。アプリケーション制御部50は、情報端末10において、WEB会議ツール等のアプリケーションを動作させる構成に代えて、サーバ装置12において、WEB会議ツール等のアプリケーションを動作させる構成であてもよい。また、アプリケーション制御部50は、情報端末10およびサーバ装置12において、WEB会議ツール等のアプリケーションを分散的に動作させてもよい。言い換えると、アプリケーション制御部50は、情報端末10のみで実現される機能ブロックである場合に加え、サーバ装置12において実現される機能ブロック、情報端末10およびサーバ装置12で実現される機能ブロックであってもよい。
【0029】
操作制御部52は、操作部26が受け付けた操作に応じた操作信号を操作部26から取得する。操作制御部52は、取得した操作信号に応じた制御信号を、各部に出力する。
【0030】
記憶部54は、例えば、端末制御装置32の演算内容、およびプログラム等の情報を記憶する。記憶部54は、例えば、RAMと、ROMのような主記憶装置、SSD(Solid State Drive)等の記憶装置などで構成される。
【0031】
(サーバ装置)
図3を用いて、第一実施形態に係るサーバ装置の構成例について説明する。
図3は、第一実施形態に係るサーバ装置の構成例を示すブロック図である。
【0032】
図3に示すように、サーバ装置12は、通信部60と、サーバ制御装置62と、を備える。サーバ装置12は、コンピュータで実現される、汎用のサーバ装置である。サーバ装置12は、WEB会議ツールを提供する企業等のサーバなどである。
【0033】
通信部60は、有線又は無線のネットワークを介して、外部装置との間で通信を行う。通信部60は、例えば、有線又は無線のネットワークを介して、情報端末10との間で通信を行う。
【0034】
サーバ制御装置62は、サーバ装置12の各部を制御する。サーバ制御装置62は、例えば、CPUやMPUなどの情報処理装置と、RAM又はROMなどの記憶装置とを有する。サーバ制御装置62は、本発明に係るサーバ装置12の動作を制御するプログラム実行する。サーバ制御装置62は、例えば、ASICやFPGA等の集積回路により実現されてもよい。サーバ制御装置62は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
【0035】
サーバ制御装置62は、回路や実行されるプログラムによって実現される機能ブロックとして、接続制御部70と、通信制御部72と、記憶部74と、を備える。サーバ制御装置62は、上述したように、WEB会議ツール等のアプリケーションを動作させるアプリケーション制御部を備えていてもよい。
【0036】
接続制御部70は、サーバ装置12と、情報端末10との接続を制御する。接続制御部70は、サーバ装置12と、情報端末10との接続を確立させる。
【0037】
通信制御部72は、通信部60を制御して、サーバ装置12と外部装置との間の通信を実行させる。具体的には、通信制御部72は、例えば、通信部60を制御して、サーバ装置12と、情報端末10との間の通信を制御する。通信制御部72は、例えば、通信部60を制御して、情報端末10を使用するユーザの発話音声に関する発話情報を、情報端末10から取得する。通信制御部72は、例えば、情報端末10を使用するユーザの発話音声に関する情報を、他の情報端末10に送信する。
【0038】
記憶部74は、例えば、接続制御部70及び通信制御部72の演算内容、およびプログラム等の情報を記憶する。記憶部74は、例えば、RAMと、ROMのような主記憶装置、SSD、HDD(Hard Disk Drive)等の記憶装置などで構成される。
【0039】
(コミュニケーション支援装置)
図4を用いて、第一実施形態に係るコミュニケーション支援装置の構成例について説明する。
図4は、第一実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。
【0040】
図4に示すように、コミュニケーション支援装置80は、音声取得部82と、検出部84と、音声出力制御部86と、を備える。コミュニケーション支援装置80は、端末制御装置32またはサーバ制御装置62のいずれか一方または双方の協働で実現される概念的な装置である。したがって、情報端末10またはサーバ装置12のいずれかをコミュニケーション支援装置80と称してもよく、情報端末10およびサーバ装置12からなる情報処理システム1をコミュニケーション支援装置80と称してもよい。このため、コミュニケーション支援装置80が備える音声取得部82、検出部84および音声出力制御部86は、端末制御装置32およびサーバ制御装置62のいずれか、または双方で実現される。
【0041】
(第一の構成例)
コミュニケーション支援装置80の第一の構成例について説明する。コミュニケーション支援装置80の第一構成例では、音声取得部82は、サーバ装置12の通信制御部72で実現される。通信制御部72は、通信部60による通信を介して、各情報端末10から音声情報を取得(受信)する。コミュニケーション支援装置80の第一の構成例では、検出部84は、サーバ装置12のサーバ制御装置62の処理によって実現される。コミュニケーション支援装置80の第一の構成例では、音声出力制御部86は、サーバ装置12の通信制御部72で実現される。通信制御部72は、通信部60による通信を介して、各情報端末10に音声情報を出力(送信)する。すなわち、コミュニケーション支援装置80の第一構成例では、コミュニケーション支援装置80は、サーバ装置12で実現される。
【0042】
(第二の構成例)
コミュニケーション支援装置80の第二構成例について説明する。コミュニケーション支援装置80の第二構成例では、音声取得部82は、情報端末10のマイクロフォン22から発話音声に関する音声情報を取得する音声取得部44で実現される。コミュニケーション支援装置80の第二構成例では、検出部84は、情報端末10のWEB会議アプリケーションを制御するアプリケーション制御部50で実現される。コミュニケーション支援装置80の第二構成例では、音声出力制御部86は、情報端末10の音声出力部24を制御する音声出力制御部48で実現される。すなわち、コミュニケーション支援装置80の第二構成例では、コミュニケーション支援装置80は、情報端末10で実現される。
【0043】
(第三の構成例)
コミュニケーション支援装置80の第三構成例について説明する。コミュニケーション支援装置80の第三構成例では、音声取得部82は、情報端末10のマイクロフォン22から発話音声に関する音声情報を取得する音声取得部44で実現される。コミュニケーション支援装置80の第三の構成例では、検出部84は、サーバ装置12のサーバ制御装置62の処理によって実現される。コミュニケーション支援装置80の第二構成例では、音声出力制御部86は、情報端末10の音声出力部24を制御する音声出力制御部48で実現される。すなわち、コミュニケーション支援装置80の第二構成例は、情報端末10で実現される。すなわち、コミュニケーション支援装置80の第三構成例では、コミュニケーション支援装置80は、情報端末10およびサーバ装置12で実現される。
【0044】
音声取得部82は、ネットワークを介して接続された情報端末10のユーザの発話音声を取得する。
【0045】
検出部84は、WEB会議において、複数の情報端末10のユーザの発話音声が重なったことを検出する。
【0046】
音声出力制御部86は、音声取得部82が発話音声を取得すると、複数の情報端末10のユーザに対して、音声取得部82が取得した発話音声を出力させる。音声出力制御部86は、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0047】
図5は、第一実施形態に係る発話音声を出力させる方法を説明するための図である。
図5に示す例では、ユーザAと、ユーザBと、ユーザCとがWEB会議において発話している例を示しており、横軸は時間の経過を示す。
図5に示すように、検出部84は、ユーザAの発話音声V1と、ユーザBの発話音声V2の発話音声とが時刻t2において重なったことを検出する。この場合、音声出力制御部86は、発話音声の重なりが検出されるまでの期間である時刻t1を含む時刻t2までの間は、発話音声をモノラル音声で出力させる。このため、時刻t1から時刻t2までの間は、発話音声V1がモノラル音声として出力される。音声出力制御部86は、発話音声V1と発話音声V2とが重なっている時刻t2から時刻t3の間は、例えば発話音声V1を左音声として出力し、発話音声V2を右音声として出力する。ここで、音声出力制御部86は、発話音声V1と発話音声V2とが聞こえる方向を完全に左右に分けてもよいし、発話音声V1の右出力を小さくし、発話音声V2の左出力を小さくしてもよい。
【0048】
音声出力制御部86は、検出部84により時刻t3以降は発話音声V2と重なっている発話音声がないことが検出されるので、時刻t3以降、次の発話音声の重なりが検出されるまでの間は、発話音声をモノラル音声で出力させる。このため、時刻t3から時刻t4までの間は、ユーザBの発話音声V2がモノラル音声として出力され、時刻t5から時刻t6の間は、ユーザCの発話音声V3がモノラル音声で出力される。音声出力制御部86は、ユーザAの発話音声V4とユーザBの発話音声V5とが重なっている時刻t7から時刻t8の間は、例えば発話音声V4を左音声として出力し、発話音声V5を右音声と出力する。
【0049】
時刻t2で、ユーザAの発話音声V1を左音声として出力し、ユーザBの発話音声V2を右音声として出力した場合、ユーザBの発話音声V2が継続している期間は、ユーザBの発話音声を右音声として出力してもよい。この場合、
図5の例においては、時刻t2から時刻t3の間、ユーザAの発話音声V1は左音声として出力され、時刻t2から時刻t4の間、ユーザBの発話音声V2は右音声として出力される。
【0050】
言い換えると、複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声の重なりの検出によって、発話音声が重なった複数の情報端末のユーザの発話音声を異なる方向から聞こえるようにした後、発話音声が重なった発話が継続している期間は、異なる方向から聞こえるようにする処理を継続する。
【0051】
また、時刻t2で、ユーザAの発話音声V1と、ユーザBの発話音声V2の発話音声とが時刻t2において重なったことが検出されたことに基づき、ユーザAの発話音声V1をモノラル音声による出力を継続し、ユーザBの発話音声を、左右いずれかの音声で出力してもよい。この場合、
図5の例においては、時刻t1から時刻t3の間、ユーザAの発話音声V1はモノラル音声として出力され、時刻t2から時刻t4の間、ユーザBの発話音声V2は右音声または左音声として出力される。
【0052】
言い換えると、複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なったことが検出されるまで発話が継続している情報端末のユーザの発話音声は、発話音声の聞こえる方向を変化させず、発話音声が重なったことが検出されたときに発話を開始した情報端末のユーザの発話音声の聞こえる方向を、発話音声が重なったことが検出されるまで発話が継続している情報端末のユーザの発話音声の聞こえる方向とは異なる方向から聞こえるようにする。
【0053】
(情報処理方法)
図6を用いて、第一実施形態に係る音声出力方法について説明する。
図6は、第一実施形態に係る音声出力方法を示すフローチャートである。
【0054】
図6に示す処理は、複数のユーザが参加するWEB会議が開始されることによって開始される。
【0055】
音声出力制御部86は、音声取得部82が取得したWEB会議に参加しているユーザの発話音声をモノラル音声で情報端末10に出力させる(ステップS10)。そして、ステップS12に進む。
【0056】
コミュニケーション支援装置80は、WEB会議が終了したか否かを判定する(ステップS12)。WEB会議が終了したと判定された場合(ステップS12;Yes)、
図6の処理を終了する。WEB会議が終了したと判定されない場合(ステップS12;No)、ステップS14に進む。
【0057】
検出部84は、WEB会議に参加している複数のユーザの発話の重なりを検出したか否かを判定する(ステップS14)。発話の重なりを検出したと判定された場合(ステップS14;Yes)、ステップS16に進む。発話の重なりを検出したと判定されない場合(ステップS14;No)、ステップS12に進む。WEB会議に参加している複数のユーザの発話の重なりが検出される状態とは、
図5の場合、時刻t2および時刻t7の状態である。
【0058】
音声出力制御部86は、ステップS14で発話が重なったことが検出部84によって検出された複数の発話音声を、異なる方向から聞こえるように、例えば、左チャンネルおよび右チャンネルで各々出力させる(ステップS16)。具体的には、音声出力制御部86は、発話音声が重なった情報端末のユーザが2名である場合、発話音声が重なった2名のユーザのうち、一方の発話音声を左チャンネルの音声として出力させ、他方の発話音声を右チャンネルの音声として出力させる。そして、ステップS18に進む。
【0059】
検出部84は、発話の重なりが解消したか否かを判定する(ステップS18)。発話の重なりが解消したと判定された場合(ステップS18;Yes)、ステップS10に進む。発話の重なりが解消したと判定されない場合(ステップS18;No)、ステップS18に進む。すなわち、第一実施形態では、発話の重なりが解消されるまでの間は、複数の発話音声が左チャンネルおよび右チャンネルで各々出力される。発話の重なりが解消した状態とは、
図5の場合、時刻t3および時刻t8の状態である。
【0060】
上述のとおり、第一実施形態は、発話音声が重なった場合に、発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第一実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。
【0061】
[第二実施形態]
第二実施形態について説明する。第二実施形態では、検出部84は、音声取得部82が取得した複数の情報端末10のユーザの発話音声の冒頭部を検出する。複数の情報端末10のユーザの発話における冒頭部が重なったことを検出部84が検出した場合、音声出力制御部86は、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0062】
発話音声の冒頭部とは、例えば、特定のユーザが所定時間以上(例えば、5秒以上)発話の無い状態から、発話が開始された場合の発話の冒頭をいう。複数の情報端末のユーザの発話における冒頭部が重なったこととは、複数の情報端末のユーザの発話が、同時またはほぼ同時に開始されることを示す。ほぼ同時とは、複数のユーザの発話の開始のタイミングが1秒から2秒程度の差である場合をいう。例えば、
図5に示す例において、発話音声V2は、時刻t2に開始しており、発話音声V1と重なっているが、発話音声が重なっている発話音声V2は、発話の冒頭部ではないため、冒頭部が重なったとは判断されない。また、時刻t7においては、ユーザAの発話音声V4の冒頭と、ユーザBの発話音声V5の冒頭が検出されるため、時刻t7において、ユーザAの発話の冒頭部とユーザBの発話の冒頭部が重なったことが検出される。音声出力制御部86は、時刻t7までの音声出力はモノラル音声で出力させる。音声出力制御部86は、時刻t7以降は、例えばユーザAの発話音声V4を左音声として出力し、ユーザBの発話音声V5を右音声として出力する。音声出力制御部86は、時刻t8以降は発話音声の重なりが無いので、音声取得部82が取得した発話音声をモノラル音声として出力させる。
【0063】
(音声出力方法)
図7を用いて、第二実施形態に係る音声出力方法について説明する。
図7は、第二実施形態に係る音声出力方法を示すフローチャートである。
【0064】
図7に示すステップS20およびステップS22の処理は、それぞれ、
図6に示すステップS10およびステップS12の処理と同じなので、説明を省略する。
【0065】
ステップS22でNoと判定された場合、検出部84は、発話の冒頭部の重なりを検出したか否かを判定する(ステップS24)。具体的には、複数のユーザの発話の冒頭部が重なったこと、言い換えると、複数のユーザが、同時またはほぼ同時に開始したことを検出する。発話の冒頭部の重なりを検出したと判定された場合(ステップS24;Yes)、ステップS26に進む。発話の冒頭部の重なりを検出したと判定されない場合(ステップS24;No)、ステップS22に進む。
【0066】
図7に示すステップS26およびステップS28の処理は、それぞれ、
図6に示すステップS16およびステップS18の処理と同じなので、説明を省略する。
【0067】
上述のとおり、第二実施形態では、発話音声が重なることが多い冒頭部で発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。特に、冒頭部の発話の重なりは、他のユーザが同時に双方の発話を聞き取ることが困難な場合も多い。第二実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。
【0068】
[第二実施形態の変形例]
第二実施形態の変形例について説明する。検出部84は、複数の情報端末10のユーザの発話音声が冒頭部で重なったことを検出したときの時間差を検出してもよい。この場合、音声出力制御部86は、時間差が例えば、0.5秒など所定時間未満である場合は、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、右音声と左音声など、聞こえる位置が対称的に異なる方向となる処理を行って出力させてもよい。音声出力制御部86は、時間差が、同時またはほぼ同時に開始されたと判断される時間差内において0.5秒以上など所定時間以上である場合は、発話音声が重なった複数の情報端末10のユーザの発話音声のうち、後に発話した側の発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させてもよい。つまり、先に発話した側の発話音声をモノラル音声として中央から聞こえるように出力させ、後に発話した側の発話音声を、右音声または左音声として出力する。
【0069】
[第三実施形態]
第三実施形態について説明する。第三実施形態では、検出部84は、音声取得部82が取得した複数の情報端末10のユーザの発話音声の空白期間があることを検出する。空白期間の後に、複数の情報端末のユーザの発話音声が重なったことを検出部84が検出した場合、音声出力制御部86は、発話音声が重なった複数の情報端末10のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0070】
空白期間とは、例えば、WEB会議に参加しているすべてのユーザの発話が10秒以上ない場合をいう。
図5に示す例では、時刻t4から時刻t5までは、WEB会議に参加しているすべてのユーザの発話がない期間であるが、この期間が10秒未満である場合には、空白期間とは判定されない。また、時刻t4から時刻t5までが10秒以上であることで空白期間と判定された場合であっても、空白期間の後に複数のユーザの発話音声が重なっていないため、処理の対象外となる。例えば、時刻t6から時刻t7までが空白期間と判定され、時刻t7において、ユーザAの発話音声V4とユーザBの発話音声Vとが重なったことが検出されたとする。この場合、音声出力制御部86は、時刻t7までの発話音声はモノラル音声で出力させるが、時刻t7以降は、例えばユーザAの発話音声V4を左音声と、ユーザBの発話音声V5を右音声として出力してよい。音声出力制御部86は、時刻t8以降は発話音声の重なりが無いので、音声取得部82が取得した発話音声をモノラル音声として出力させる。
【0071】
(音声出力方法)
図8を用いて、第三実施形態に係る音声出力方法について説明する。
図8は、第三実施形態に係る音声出力方法を示すフローチャートである。
【0072】
図8に示すステップS30およびステップS32の処理は、それぞれ、
図6に示すステップS10およびステップS12の処理と同じなので、説明を省略する。
【0073】
ステップS32でNoと判定された場合、検出部84は、空白期間を検出したか否かを判定する(ステップS34)。空白期間を検出したと判定された場合(ステップS34;Yes)、ステップS36に進む。空白期間を検出したと判定されない場合(ステップS34;No)、ステップS32に進む。
【0074】
ステップS34でYesと判定された場合、検出部84は、空白期間の後に発話の重なりを検出したか否かを判定する(ステップS36)。空白期間の後に発話の重なりを検出したと判定された場合(ステップS36;Yes)、ステップS38に進む。空白期間の後に発話の重なりを検出したと判定されない場合(ステップS36;No)、ステップS32に進む。
【0075】
ステップS34がYesおよびステップS36がYesの検出は、言い換えると、WEB会議に参加している参加者の発話がない状態において、複数のユーザが、同時またはほぼ同時に開始したことを検出する。
【0076】
図8に示すステップS38およびステップS40の処理は、それぞれ、
図6に示すステップS16およびステップS18の処理と同じなので、説明を省略する。
【0077】
上述のとおり、第三実施形態では、発話音声が重なることが多い発話の空白期間後に発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。特に、他の発話がない状態における冒頭部の発話の重なりは、他のユーザが同時に双方の発話を聞き取ることが困難な場合も多い。これにより、第三実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。
【0078】
[第四実施形態]
第四実施形態について説明する。第四実施形態では、検出部84は、音声取得部82が取得した複数の情報端末10のユーザの発話音声の継続性を検出する。発話が継続的であった情報端末10のユーザの発話音声と、発話が継続的ではない10情報端末のユーザの発話音声とが重なったことを検出部84が検出した場合、音声出力制御部86は、発話が継続的ではない情報端末10のユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0079】
発話音声が継続的であるとは、同一の発話者の発話音声が断続的に続いていることをいう。例えば、発話と発話の間が5秒未満の空白である場合は、断続的であると判定される。
図9は、第四実施形態に係る発話音声を出力させる方法を説明するための図である。
図9に示す例では、
図5に示す例と同様に、ユーザAと、ユーザBと、ユーザCとがWEB会議において発話している例を示しており、横軸は時間の経過を示す。
【0080】
図9に示す例では、例えば、時刻ta6において、ユーザAの発話音声V14とユーザBの発話音声V15とが検出されている。つまり、時刻ta6において、ユーザAの発話音声とユーザBの発話音声が重なったことが検出されている。この場合、ユーザAの発話音声V13が終わった時刻ta5から発話音声V14が始まった時刻ta6の間隔は5秒未満の間隔である場合、時刻ta5までは発話があったため、ユーザAの発話音声が断続的に続いていると判定される。つまり、発話音声の重なりが検出されたユーザAの発話V14は、ユーザAの直前の発話V13とは、継続的であると判定される。また、ユーザCの発話音声V12が終わった時刻ta4から発話音声V15が始まった時刻ta6の間隔は5秒以上の間隔である場合、時刻ta4までは発話があったが、ユーザAの発話音声が断続的に続いていない判定される。つまり、発話音声の重なりが検出されたユーザBの発話音声V15は、ユーザBの直前の発話V12とは、継続的ではないと判定される。このため、音声出力制御部86は、発話音声が重なったことが検出された時刻ta6からは、ユーザAの発話音声V15を、発話音声V13に引き続き、モノラル音声での出力を継続させ、ユーザBの発話音声V15を左右いずれかの音声として出力させる。音声出力制御部86は、時刻ta7以降は発話音声の重なりが無いので、音声取得部82が取得した発話音声をモノラル音声として出力させる。
【0081】
(音声出力方法)
図10を用いて、第四実施形態に係る音声出力方法について説明する。
図10は、第四実施形態に係る音声出力方法を説明するためのフローチャートである。
【0082】
図10に示すステップS50からステップS54の処理は、それぞれ、
図6に示すステップS10からステップS14の処理と同じなので、説明を省略する。
【0083】
ステップS54でYesと判定された場合、検出部84は、同一ユーザの断続的な発話があるか否かを判定する(ステップS56)。同一ユーザの断続的な発話があると判定された場合(ステップS56;Yes)、ステップS58に進む。同一ユーザの断続的な発話があると判定されない場合(ステップS56:No)、ステップS52に進む。
【0084】
図10に示すステップS58およびステップS60の処理は、それぞれ、
図6に示すステップS16およびステップS18の処理と同じなので、説明を省略する。
【0085】
上述のとおり、第四実施形態は、発話音声が重なった場合に、発話が継続的ではないユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第四実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話が継続的ではないユーザの発話音声が、左右いずれかの方向の音声として聞こえることで、発話を継続しているユーザの発話を阻害することなく、適切に発話の優先度を判断することができる。
【0086】
[第五実施形態]
(コミュニケーション支援装置)
図11を用いて、第五実施形態に係るコミュニケーション支援装置の構成例について説明する。
図11は、第五実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。
【0087】
図11に示すように、コミュニケーション支援装置80Aは、音声取得部82と、検出部84と、音声出力制御部86Aと、発話履歴取得部88と、を備える。コミュニケーション支援装置80Aは、発話履歴取得部88を備える点で、
図4に示すコミュニケーション支援装置80と異なる。コミュニケーション支援装置80Aは、
図4に示すコミュニケーション支援装置80と同様に、端末制御装置32またはサーバ制御装置62のいずれか一方または双方の協働で実現される概念的な装置である。このため、コミュニケーション支援装置80Aが備える発話履歴取得部88も、端末制御装置32およびサーバ制御装置62のいずれか、または双方で実現される。
【0088】
発話履歴取得部88は、複数の情報端末10のユーザの発話履歴を取得する。発話履歴とは、発話頻度であり、例えばWEB会議中における発言回数である。発言回数とは、例えば、ユーザ毎の発話において、発話間隔が5秒以上の発話毎に発話回数がカウントされる。例えば、連続した発話間の発話間隔が5秒未満である場合は、連続した発話としてカウントされる。例えば、
図9に示す例において、ユーザAの発話は時刻ta5から時刻ta6が5秒未満の間隔であることから、時刻ta4から時刻ta7までの発話が1回の発話とカウントされる。
【0089】
発話履歴取得部88は、例えば、WEB会議において発話頻度の高い傾向のユーザを特定する。発話頻度が高い傾向であると判断される条件は、例えば、他の参加者の平均発話回数に対して、1.5倍以上の発話回数がある場合、そのユーザは発話頻度が高い傾向であると判断される。また、発話頻度が高い傾向であると判断される条件は、発話音声が重なった複数のユーザにおける発話頻度の差に基づいて判断されてもよい。
【0090】
音声出力制御部86Aは、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話音声を、発話履歴取得部88が取得した発話履歴に基づいて、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。音声出力制御部86Aは、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話のうち、発話頻度に基づいて決定されたユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話頻度の高い傾向のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる場合について説明する。
【0091】
例えば、
図9に示す例において、時刻ta6でユーザAの発話音声V14とユーザBの発話音声V15が重なったことが検出され、ユーザAの発話頻度が発話履歴取得部88により高い傾向であると判断されたとする。この場合、音声出力制御部86Aは、時刻ta6からは、例えばユーザBの発話音声V15をモノラル音声による出力を継続し、ユーザAの発話音声V14を右音声または左音声のいずれかとして出力させる。
【0092】
(音声出力方法)
図12を用いて、第五実施形態に係る音声出力方法について説明する。
図12は、第五実施形態に係る音声出力方法を説明するためのフローチャートである。
【0093】
図12に示すステップS70からステップS74の処理は、それぞれ、
図6に示すステップS10からステップS14の処理と同じなので、説明を省略する。
【0094】
ステップS74でYesと判定された場合、発話履歴取得部88は、発話が重なったユーザに発話頻度の高い傾向のユーザがあるか否かを判定する(ステップS76)。発話頻度の高い傾向のユーザがあると判定された場合(ステップS76;Yes)、ステップS78に進む。発話頻度の高い傾向のユーザがあると判定されない場合(ステップS76;No)、ステップS80に進む。ステップS76の処理は、発話が重なったユーザのいずれかが発話頻度の高い傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話頻度の高い傾向のユーザである場合、または、発話が重なったユーザがいずれも発話頻度の低い傾向のユーザである場合は、ステップS76でNoの判定となる。
【0095】
ステップS76でYesと判定された場合、音声出力制御部86Aは、発話頻度の高い傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる(ステップS78)。そして、ステップS82に進む。
【0096】
図12に示すステップS76でNoと判定された場合、音声出力制御部86Aは、重なった複数の音声を左右のチャンネルで各々出力させる(ステップS80)。そして、ステップS82に進む。
【0097】
図12に示すステップS82の処理は、
図6に示すステップS18の処理と同じなので、説明を省略する。
【0098】
上述のとおり、第五実施形態は、発話音声が重なった場合に、発話頻度の高い傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第五実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話頻度の高い傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話頻度の高い傾向のユーザの発話が優先的になることを抑制し、適切に発話の優先度を判断することができる。
【0099】
[第六実施形態]
第六実施形態について説明する。第六実施形態では、発話履歴取得部88は、複数の情報端末10のユーザの発話履歴として発話頻度を取得する。音声出力制御部86Aは、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話のうち、発話頻度に基づいて決定されたユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理行って出力させる。以下の例においては、発話頻度の低い傾向のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる場合について説明する。
【0100】
発話履歴取得部88は、例えば、WEB会議において発話頻度の低い傾向のユーザを特定する。発話頻度が低い傾向であると判断される条件は、例えば、他のWEB会議の参加者の平均発話回数に対して0.6倍未満の発話回数である場合、そのユーザは発話頻度が低い傾向であると判断される。また、発話頻度低い傾向であると判断される条件は、発話音声が重なった複数のユーザにおける発話頻度の差に基づいて判断されてもよい。
【0101】
例えば、
図9に示す例において、時刻ta6でユーザAの発話音声V14とユーザBの発話音声V15が重なったことが検出され、ユーザAの発話頻度が発話履歴取得部88により低い傾向であると判断されたとする。この場合、音声出力制御部86Aは、時刻ta6からは、例えばユーザBの発話音声V15をモノラル音声による出力を継続し、ユーザAの発話音声V14を右音声または左音声のいずれかとして出力させる。
【0102】
(音声出力方法)
図13を用いて、第六実施形態に係る音声出力方法について説明する。
図13は、第六実施形態に係る音声出力方法を説明するためのフローチャートである。
【0103】
図13に示すステップS90からステップS94の処理は、それぞれ、
図6に示すステップS10からステップS14の処理と同じなので、説明を省略する。
【0104】
ステップS94でYesと判定された場合、発話履歴取得部88は、発話が重なったユーザに発話頻度の低い傾向のユーザがあるか否かを判定する(ステップS96)。発話頻度の低い傾向のユーザがあると判定された場合(ステップS96;Yes)、ステップS98に進む。発話頻度の低い傾向のユーザがあると判定されない場合(ステップS96;No)、ステップS100に進む。ステップS96の処理は、発話が重なったユーザのいずれかが発話頻度の低い傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話頻度の高い傾向のユーザである場合、または、発話が重なったユーザがいずれも発話頻度の低い傾向のユーザである場合は、ステップS96でNoの判定となる。
【0105】
ステップS96でYesと判定された場合、音声出力制御部86Aは、発話頻度の低い傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる(ステップS98)。そして、ステップS102に進む。
【0106】
図13に示すステップS100およびステップS102の処理は、それぞれ、
図12に示すステップS80およびステップS82の処理と同じなので、説明を省略する。
【0107】
第六実施形態は、発話音声が重なった場合に、発話頻度の低い傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第六実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話頻度の低い傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話頻度の低い傾向のユーザの発話が認識されやすくなり、適切に発話の優先度を判断することができる。
【0108】
[第七実施形態]
第七実施形態について説明する。第七実施形態では、発話履歴取得部88は、複数の情報端末10のユーザの発話履歴として発話音量の傾向を取得する。音声出力制御部86Aは、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話のうち、発話音量に基づいて決定されたユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話音量が大きい傾向のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0109】
発話履歴取得部88は、例えば、WEB会議開始時からWEB会議に参加している各ユーザの発話音量の傾向を取得している。発話音量の傾向とは、ユーザ毎における発話音量の平均値である。発話履歴取得部88は、例えば、WEB会議において発話音量が大きい傾向のユーザを特定する。発話音量が大きい傾向であると判断される条件は、例えば、他のWEB会議の参加者の平均発話音量に対して、1.2倍程度以上の音量、または2dB以上高い音量などで発話が行われている場合、そのユーザは発話音量が大きい傾向であると判断される。また、発話音量が大きい傾向であると判断される条件は、発話音量が重なった複数のユーザにおける発話音量の差に基づいて判断されてもよい。
【0110】
例えば、
図9に示す例において、時刻ta6でユーザAの発話音声V14とユーザBの発話音声V15が重なったことが検出され、ユーザAの発話音量が発話履歴取得部88により大きい傾向にあると判断されたとする。この場合、音声出力制御部86Aは、時刻ta6からは、例えばユーザBの発話音声V15をモノラル音声による出力を継続し、ユーザAの発話音声V14を右音声または左音声のいずれかとして出力させる。
【0111】
(音声出力方法)
図14を用いて、第七実施形態に係る音声出力方法について説明する。
図14は、第七実施形態に係る音声出力方法を説明するためのフローチャートである。
【0112】
図14に示すステップS110からステップS114の処理は、それぞれ、
図6に示すステップS10からステップS14の処理と同じなので、説明を省略する。
【0113】
ステップS114でYesと判定された場合、発話履歴取得部88は、発話が重なったユーザに発話音量が大きい傾向のユーザがあるか否かを判定する(ステップS116)。発話音量の大きい傾向のユーザがあると判定された場合(ステップS116;Yes)、ステップS118に進む。発話音量の大きい傾向のユーザがあると判定されない場合(ステップS116;No)、ステップS120に進む。ステップS116の処理は、発話が重なったユーザのいずれかが発話音量が大きい傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話音量の大きい傾向のユーザである場合、または、発話が重なったユーザがいずれも発話音量の小さい傾向のユーザである場合は、ステップS116でNoの判定となる。
【0114】
ステップS116でYesと判定された場合、音声出力制御部86Aは、発話音量の大きい傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる(ステップS118)。そして、ステップS122に進む。
【0115】
図14に示すステップS120およびステップS122の処理は、それぞれ、
図12に示すステップS80およびステップS82の処理と同じなので、説明を省略する。
【0116】
上述のとおり、第七実施形態は、発話音声が重なった場合に、発話音量の大きい傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第七実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話音量の大きい傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話音量の大きい傾向のユーザの発話が優先的になることを抑制し、適切に発話の優先度を判断することができる。
【0117】
[第八実施形態]
第八実施形態について説明する。第八実施形態では、発話履歴取得部88は、複数の情報端末10のユーザの発話履歴として発話音量の傾向を取得する。音声出力制御部86Aは、検出部84が複数の情報端末10のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末10のユーザの発話のうち、発話音量に基づいて決定されたユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話音量が小さい傾向のユーザの発話音声を、複数の情報端末10のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。
【0118】
発話履歴取得部88は、例えば、WEB会議開始時からWEB会議に参加している各ユーザの発話音量の傾向を取得している。発話履歴取得部88は、例えば、WEB会議において発話音量が小さい傾向のユーザを特定する。発話音量が小さい傾向であると判断される条件は、例えば、他のWEB会議の参加者の平均発話音量に対して、0.8倍程度以上の音量、または2dB以上低い音量などで発話が行われている場合、そのユーザは発話音量が小さい傾向であると判断される。また、発話音量が小さい傾向であると判断される条件は、発話音量が重なった複数のユーザにおける発話音量の差に基づいて判断されてもよい。
【0119】
例えば、
図9に示す例において、時刻ta6でユーザAの発話音声V14とユーザBの発話音声V15が重なったことが検出され、ユーザAの発話音量が発話履歴取得部88により小さい傾向にあると判断されたとする。この場合、音声出力制御部86Aは、時刻ta6からは、例えばユーザBの発話音声V15をモノラル音声による出力を継続し、ユーザAの発話音声V14を右音声または左音声のいずれかとして出力させる。
【0120】
(音声出力方法)
図15を用いて、第八実施形態に係る音声出力方法について説明する。
図15は、第八実施形態に係る音声出力方法を説明するためのフローチャートである。
【0121】
図15に示すステップS130からステップS134の処理は、それぞれ、
図6に示すステップS10からステップS14の処理と同じなので、説明を省略する。
【0122】
ステップS134でYesと判定された場合、発話履歴取得部88は、発話が重なったユーザに発話音量が小さい傾向のユーザがあるか否かを判定する(ステップS136)。発話音量の小さい傾向のユーザがあると判定された場合(ステップS136;Yes)、ステップS138に進む。発話音量の小さい傾向のユーザがあると判定されない場合(ステップS136;No)、ステップS140に進む。ステップS136の処理は、発話が重なったユーザのいずれかが発話音量が小さい傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話音量の小さい傾向のユーザである場合、または、発話が重なったユーザがいずれも発話音量の大きい傾向のユーザである場合は、ステップS136でNoの判定となる。
【0123】
ステップS136でYesと判定された場合、音声出力制御部86Aは、発話音量の小さい傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる(ステップS138)。そして、ステップS142に進む。
【0124】
図15に示すステップS140およびステップS142の処理は、それぞれ、
図12に示すステップS80およびステップS82の処理と同じなので、説明を省略する。
【0125】
上述のとおり、第八実施形態は、発話音声が重なった場合に、発話音量の小さい傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第八実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話音量の小さい傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話音量の小さい傾向のユーザの発話が認識されやすくなり、適切に発話の優先度を判断することができる。
【0126】
[その他の実施形態]
その他の実施形態について説明する。
【0127】
例えば、発話音声が重なった2名のユーザの発話音声を左右方向の音声として出力する場合の例として、ユーザAの発話音声を左方向からの音声、ユーザBの発話音声を右方向からの音声として出力する場合、左チャンネルの音声をユーザAの発話音声のみ、右チャンネルの音声をユーザBの発話音声のみとしてもよく、ユーザAの発話音声を左方向に定位させ、ユーザBの発話音声を右方向に定位させる処理を行ってもよい。
【0128】
例えば、発話音声が重なった2名のユーザの発話音声をモノラル音声と右方向の音声として出力する場合の例として、ユーザAの発話音声をモノラル音声、ユーザBの発話音声を右方向からの音声として出力する場合、ユーザAの発話音声を左右チャンネルから均等に出力させ、ユーザBの発話音声を右チャンネルから出力させてもよく、ユーザAの発話音声を中央方向に定位させ、ユーザBの発話音声を右方向に定位させる処理を行ってもよい。
【0129】
上記各実施形態においては、複数の情報端末のユーザのうち、2名のユーザの発話音声が重なった場合について説明した。2名以上の発話の重なりに対応も可能である。例えば、3名のユーザの発話が重なった場合は、左右および中央(モノラル)に各々定位させてもよい。例えば、4名のユーザの発話が重なった場合は、左、左中央、右中央、右のように各々定位させてもよい。
【0130】
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の付加や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。
【0131】
以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【符号の説明】
【0132】
1 情報処理システム
10 情報端末
12 サーバ装置
20 カメラ
22 マイクロフォン
24 音声出力部
26 操作部
28,60 通信部
30 表示部
32 端末制御装置
40 撮影制御部
44 音声取得部
46 表示制御部
48 音声出力制御部
50 アプリケーション制御部
52 操作制御部
54 記憶部
62 サーバ制御装置
70 接続制御部
72 通信制御部
74 記憶部
80 コミュニケーション支援装置
82 音声取得部
84 検出部
86 音声出力制御部
88 発話履歴取得部