特開2024-131008 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-131008コミュニケーション支援装置および音声出力方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024131008

(43)【公開日】2024-09-30

(54)【発明の名称】コミュニケーション支援装置および音声出力方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20240920BHJP

G10L 25/51 20130101ALI20240920BHJP

H04M 3/56 20060101ALI20240920BHJP

H04S 1/00 20060101ALI20240920BHJP

【ＦＩ】

H04R3/00 310

G10L25/51

H04M3/56 B

H04S1/00 200

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023041010

(22)【出願日】2023-03-15

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】坂野真聖

【テーマコード（参考）】

5D162

5D220

5K201

【Ｆターム（参考）】

5D162CD01

5D162EA02

5D220AA12

5K201BB09

5K201BD04

5K201CA01

5K201DC05

5K201DC06

5K201EC06

(57)【要約】

【課題】オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握すること。
【解決手段】コミュニケーション支援装置は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、検出部が複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末のユーザの発話音声を、複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、
前記複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、
前記検出部が前記複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、
を備える、コミュニケーション支援装置。

【請求項2】

前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の冒頭部をさらに検出し、
前記音声出力制御部は、前記複数の情報端末のユーザの発話における冒頭部が重なったことを前記検出部が検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項１に記載のコミュニケーション支援装置。

【請求項3】

前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の空白期間があることをさらに検出し、
前記音声出力制御部は、空白期間の後に、前記複数の情報端末のユーザの発話音声が重なったことを前記検出部が検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項１に記載のコミュニケーション支援装置。

【請求項4】

前記検出部は、前記音声取得部が取得した前記複数の情報端末のユーザの発話音声の継続性をさらに検出し、
前記音声出力制御部は、発話が継続的であった前記情報端末のユーザの発話音声と、発話が継続的ではない前記情報端末のユーザの発話音声とが重なったことを前記検出部が検出した場合、発話が継続的ではない前記情報端末のユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる、
請求項１に記載のコミュニケーション支援装置。

【請求項5】

ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得ステップと、
前記複数の情報端末のユーザの発話音声が重なったことを検出する検出ステップと、
前記複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御ステップと、
をコミュニケーション支援装置が実行する、音声出力方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コミュニケーション支援装置および音声出力方法に関する。

【背景技術】

【0002】

オンラインコミュニケーションが普及しており、複数の参加者によるオンライン会議等も一般化している。このようなオンラインコミュニケーションにおいては、複数の発話者が同時に発話を開始してしまう、発話の衝突が以前から指摘されている。特許文献１には、発話予備動作から発話可能性を算出し、次の発話者を選択することが開示されている。特許文献２には、発話された特徴後等から発話優先度を算出し、発話優先度に基づき他方の発言をミュートすることが開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１１－１１８６３２号公報

【特許文献2】特開２０２２－１３６５８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１および特許文献２に記載の技術は、発言の衝突を低減することが目的であり、ボディランゲージや発話内容の分析から、次の発言者を特定する。しかし、発言の衝突があった場合、どのように発言を譲るのか、優先させるのかの判断は、様々な要素に基づいて判断されるため、一概にいずれかの発言を優先させる決定を行うことが適さない場面も存在する。また、発言の衝突があった場合、オンラインコミュニケーションの参加者は、同時に複数の参加者の発言に基づく音声が出力されるため、発言内容が聞き取れずに、いずれを優先させるのか判断できない場合、または、他の発言が存在したことに気付かない場合もある。

【0005】

本発明は、オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握することのできるコミュニケーション支援装置および音声出力方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明のコミュニケーション支援装置は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得部と、前記複数の情報端末のユーザの発話音声が重なったことを検出する検出部と、前記検出部が前記複数の情報端末のユーザの発話音声が重なったことを検出した場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御部と、を備える。

【0007】

本発明の音声出力方法は、ネットワークを介して接続された複数の情報端末のユーザの発話音声を取得する音声取得ステップと、前記複数の情報端末のユーザの発話音声が重なったことを検出する検出ステップと、前記複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なった前記複数の情報端末のユーザの発話音声を、前記複数の情報端末のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる音声出力制御ステップと、をコミュニケーション支援装置が実行する。

【発明の効果】

【0008】

本発明によれば、オンラインコミュニケーションにおいて、発言の衝突があった場合に、衝突のあった発話内容を適切に把握することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、第一実施形態に係るＷＥＢシステムの構成例を示す図である。

【図2】図２は、第一実施形態に係る情報端末の構成例を示すブロック図である。

【図3】図３は、第一実施形態に係るサーバ装置の構成例を示すブロック図である。

【図4】図４は、第一実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。

【図5】図５は、第一実施形態に係る発話音声を出力させる方法を説明するための図である。

【図6】図６は、第一実施形態に係る音声出力方法を示すフローチャートである。

【図7】図７は、第二実施形態に係る音声出力方法を示すフローチャートである。

【図8】図８は、第三実施形態に係る音声出力方法を示すフローチャートである。

【図9】図９は、第四実施形態に係る発話の断続性を説明するための図である。

【図10】図１０は、第四実施形態に係る音声出力方法を説明するためのフローチャートである。

【図11】図１１は、第五実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。

【図12】図１２は、第五実施形態に係る音声出力方法を説明するためのフローチャートである。

【図13】図１３は、第六実施形態に係る音声出力方法を説明するためのフローチャートである。

【図14】図１４は、第七実施形態に係る音声出力方法を説明するためのフローチャートである。

【図15】図１５は、第八実施形態に係る音声出力方法を説明するためのフローチャートである。

【発明を実施するための形態】

【0010】

以下、添付図面を参照して、本発明に係る実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

【0011】

［第一実施形態］
（ＷＥＢ会議システム）
図１を用いて、第一実施形態に係るＷＥＢ会議システムの構成例について説明する。図１は、第一実施形態に係るＷＥＢシステムの構成例を示す図である。

【0012】

図１に示すように、情報処理システム１は、複数の情報端末１０と、サーバ装置１２とを含む。各情報端末１０は、ＷＥＢ会議アプリケーションを起動することで、サーバ装置１２を介して、他の情報端末１０とＷＥＢ会議を行うことができる。

【0013】

（情報端末）
図２を用いて、第一実施形態に係る情報端末の構成例について説明する。図２は、第一実施形態に係る情報端末の構成例を示すブロック図である。

【0014】

図２に示すように、情報端末１０は、カメラ２０と、マイクロフォン２２と、音声出力部２４と、操作部２６と、通信部２８と、表示部３０と、端末制御装置（制御部）３２と、を備える。情報端末１０としては、例えば、デスクトップ型ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ノート型ＰＣ、タブレット端末などの情報端末が例示される。

【0015】

カメラ２０は、情報端末１０の前に存在しているユーザを撮影する。カメラ２０は、情報端末１０を使用するユーザを撮影する。カメラ２０は、例えば、表示部３０側に設けられたインカメラである。カメラ２０は、情報端末１０に接続された外部のカメラであってもよい。

【0016】

マイクロフォン２２は、情報端末１０を使用するユーザが発話した音声を収音する。マイクロフォン２２は、収音した音声に関する音声情報を端末制御装置３２の音声取得部４４に出力する。

【0017】

音声出力部２４は、音声出力制御部４８の制御に従って、各種の音声を出力する。音声出力部２４は、例えば、ＷＥＢ会議に参加している他の参加者の発話音声を出力する。音声出力部２４は、例えば、少なくとも左右２チャンネルのステレオ音声出力が可能なスピーカ、イヤフォン、ヘッドセットなどで実現される。音声出力部２４は、通常は、左右チャンネルに対して同一の音声を同一の音量で出力するモノラル音声でＷＥＢ会議の音声を出力する。

【0018】

操作部２６は、情報端末１０に対する各種の入力操作を受け付ける。操作部２６は、受け付けた入力操作に応じた操作信号を端末制御装置３２に出力する。操作部２６は、例えば、キーボード、マウス、タッチパネル、ボタン、スイッチなどを含む。操作部２６としてタッチパネルが用いられる場合には、操作部２６は表示部３０上に配置される。

【0019】

通信部２８は、有線又は無線のネットワークを介して、外部装置との間で通信を行う。通信部２８は、例えば、有線又は無線のネットワークを介して、サーバ装置１２との間で通信を行う。

【0020】

表示部３０は、文字及び画像を含む各種の映像を表示する。表示部３０は、例えば、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）などを含むディスプレイである。

【0021】

端末制御装置３２は、情報端末１０の各部を制御する。端末制御装置３２は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの情報処理装置と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶装置とを有する。端末制御装置３２は、本発明に係る情報端末１０の動作を制御するプログラムを実行する。端末制御装置３２は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路により実現されてもよい。端末制御装置３２は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

【0022】

端末制御装置３２は、回路や実行されるプログラムによって実現される機能ブロックとして、撮影制御部４０と、通信制御部４２と、音声取得部４４と、表示制御部４６と、音声出力制御部４８と、アプリケーション制御部５０と、操作制御部５２と、記憶部５４と、を有する。

【0023】

撮影制御部４０は、カメラ２０を制御して、画像を撮影させる。撮影制御部４０は、カメラ２０に撮影させた画像に関する画像データを取得する。具体的には、撮影制御部４０は、カメラ２０によって撮影された、情報端末１０を使用するユーザを撮影した画像データを取得する。カメラ２０の撮影によって取得する画像データは、動画像の画像データである。

【0024】

通信制御部４２は、通信部２８を制御して、情報端末１０と外部装置との間の通信を実行させる。具体的には、通信制御部４２は、例えば、通信部２８を制御して、情報端末１０と、サーバ装置１２との間の通信を制御する。通信制御部４２は、例えば、通信部２８を制御して、他の情報端末１０を使用するユーザの発話音声に関する音声情報を含むＷＥＢ会議に関する情報をサーバ装置１２から取得する。通信制御部４２は、例えば、通信部２８を制御して、音声取得部４４が取得した情報端末１０を使用するユーザの発話音声に関する音声情報をサーバ装置１２に送信する。

【0025】

音声取得部４４は、マイクロフォン２２が検出した音声に関する音声情報を取得する。音声取得部４４は、情報端末１０を使用するユーザの発話に関する音声情報を取得する。

【0026】

表示制御部４６は、表示部３０を制御して、文字及び画像を含む各種の映像を表示させる。表示制御部４６は、例えば、表示部３０を制御して、ＷＥＢ会議のアプリケーションを実行させた情報（以下、ＷＥＢ会議画面）を表示させる。ＷＥＢ会議画面は、表示制御部４６がＷＥＢ会議画面を生成して表示部３０に表示させてもよく、サーバ装置１２が生成したＷＥＢ会議画面を、表示制御部４６が表示部３０に表示させてもよい。

【0027】

音声出力制御部４８は、音声出力部２４を制御して、各種の音声を出力させる。音声出力制御部４８は、例えば、音声出力部２４を制御して、複数の情報端末１０のユーザの発話音声が重なったことが検出された場合、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、聞こえる位置が異なる方向となる処理を行って出力させる。言い換えれば、音声出力制御部４８は、例えば、音声出力部２４を制御して、複数の情報端末１０のユーザの発話音声が重なったことが検出された場合、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0028】

アプリケーション制御部５０は、情報端末１０で動作する各種のアプリケーションの動作を制御する。アプリケーション制御部５０は、例えば、ＷＥＢ会議ツール及びチャットツールなどのアプリケーションの動作を制御する。アプリケーション制御部５０は、情報端末１０において、ＷＥＢ会議ツール等のアプリケーションを動作させる構成に代えて、サーバ装置１２において、ＷＥＢ会議ツール等のアプリケーションを動作させる構成であてもよい。また、アプリケーション制御部５０は、情報端末１０およびサーバ装置１２において、ＷＥＢ会議ツール等のアプリケーションを分散的に動作させてもよい。言い換えると、アプリケーション制御部５０は、情報端末１０のみで実現される機能ブロックである場合に加え、サーバ装置１２において実現される機能ブロック、情報端末１０およびサーバ装置１２で実現される機能ブロックであってもよい。

【0029】

操作制御部５２は、操作部２６が受け付けた操作に応じた操作信号を操作部２６から取得する。操作制御部５２は、取得した操作信号に応じた制御信号を、各部に出力する。

【0030】

記憶部５４は、例えば、端末制御装置３２の演算内容、およびプログラム等の情報を記憶する。記憶部５４は、例えば、ＲＡＭと、ＲＯＭのような主記憶装置、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置などで構成される。

【0031】

（サーバ装置）
図３を用いて、第一実施形態に係るサーバ装置の構成例について説明する。図３は、第一実施形態に係るサーバ装置の構成例を示すブロック図である。

【0032】

図３に示すように、サーバ装置１２は、通信部６０と、サーバ制御装置６２と、を備える。サーバ装置１２は、コンピュータで実現される、汎用のサーバ装置である。サーバ装置１２は、ＷＥＢ会議ツールを提供する企業等のサーバなどである。

【0033】

通信部６０は、有線又は無線のネットワークを介して、外部装置との間で通信を行う。通信部６０は、例えば、有線又は無線のネットワークを介して、情報端末１０との間で通信を行う。

【0034】

サーバ制御装置６２は、サーバ装置１２の各部を制御する。サーバ制御装置６２は、例えば、ＣＰＵやＭＰＵなどの情報処理装置と、ＲＡＭ又はＲＯＭなどの記憶装置とを有する。サーバ制御装置６２は、本発明に係るサーバ装置１２の動作を制御するプログラム実行する。サーバ制御装置６２は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。サーバ制御装置６２は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

【0035】

サーバ制御装置６２は、回路や実行されるプログラムによって実現される機能ブロックとして、接続制御部７０と、通信制御部７２と、記憶部７４と、を備える。サーバ制御装置６２は、上述したように、ＷＥＢ会議ツール等のアプリケーションを動作させるアプリケーション制御部を備えていてもよい。

【0036】

接続制御部７０は、サーバ装置１２と、情報端末１０との接続を制御する。接続制御部７０は、サーバ装置１２と、情報端末１０との接続を確立させる。

【0037】

通信制御部７２は、通信部６０を制御して、サーバ装置１２と外部装置との間の通信を実行させる。具体的には、通信制御部７２は、例えば、通信部６０を制御して、サーバ装置１２と、情報端末１０との間の通信を制御する。通信制御部７２は、例えば、通信部６０を制御して、情報端末１０を使用するユーザの発話音声に関する発話情報を、情報端末１０から取得する。通信制御部７２は、例えば、情報端末１０を使用するユーザの発話音声に関する情報を、他の情報端末１０に送信する。

【0038】

記憶部７４は、例えば、接続制御部７０及び通信制御部７２の演算内容、およびプログラム等の情報を記憶する。記憶部７４は、例えば、ＲＡＭと、ＲＯＭのような主記憶装置、ＳＳＤ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶装置などで構成される。

【0039】

（コミュニケーション支援装置）
図４を用いて、第一実施形態に係るコミュニケーション支援装置の構成例について説明する。図４は、第一実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。

【0040】

図４に示すように、コミュニケーション支援装置８０は、音声取得部８２と、検出部８４と、音声出力制御部８６と、を備える。コミュニケーション支援装置８０は、端末制御装置３２またはサーバ制御装置６２のいずれか一方または双方の協働で実現される概念的な装置である。したがって、情報端末１０またはサーバ装置１２のいずれかをコミュニケーション支援装置８０と称してもよく、情報端末１０およびサーバ装置１２からなる情報処理システム１をコミュニケーション支援装置８０と称してもよい。このため、コミュニケーション支援装置８０が備える音声取得部８２、検出部８４および音声出力制御部８６は、端末制御装置３２およびサーバ制御装置６２のいずれか、または双方で実現される。

【0041】

（第一の構成例）
コミュニケーション支援装置８０の第一の構成例について説明する。コミュニケーション支援装置８０の第一構成例では、音声取得部８２は、サーバ装置１２の通信制御部７２で実現される。通信制御部７２は、通信部６０による通信を介して、各情報端末１０から音声情報を取得(受信)する。コミュニケーション支援装置８０の第一の構成例では、検出部８４は、サーバ装置１２のサーバ制御装置６２の処理によって実現される。コミュニケーション支援装置８０の第一の構成例では、音声出力制御部８６は、サーバ装置１２の通信制御部７２で実現される。通信制御部７２は、通信部６０による通信を介して、各情報端末１０に音声情報を出力(送信)する。すなわち、コミュニケーション支援装置８０の第一構成例では、コミュニケーション支援装置８０は、サーバ装置１２で実現される。

【0042】

(第二の構成例)
コミュニケーション支援装置８０の第二構成例について説明する。コミュニケーション支援装置８０の第二構成例では、音声取得部８２は、情報端末１０のマイクロフォン２２から発話音声に関する音声情報を取得する音声取得部４４で実現される。コミュニケーション支援装置８０の第二構成例では、検出部８４は、情報端末１０のＷＥＢ会議アプリケーションを制御するアプリケーション制御部５０で実現される。コミュニケーション支援装置８０の第二構成例では、音声出力制御部８６は、情報端末１０の音声出力部２４を制御する音声出力制御部４８で実現される。すなわち、コミュニケーション支援装置８０の第二構成例では、コミュニケーション支援装置８０は、情報端末１０で実現される。

【0043】

（第三の構成例）
コミュニケーション支援装置８０の第三構成例について説明する。コミュニケーション支援装置８０の第三構成例では、音声取得部８２は、情報端末１０のマイクロフォン２２から発話音声に関する音声情報を取得する音声取得部４４で実現される。コミュニケーション支援装置８０の第三の構成例では、検出部８４は、サーバ装置１２のサーバ制御装置６２の処理によって実現される。コミュニケーション支援装置８０の第二構成例では、音声出力制御部８６は、情報端末１０の音声出力部２４を制御する音声出力制御部４８で実現される。すなわち、コミュニケーション支援装置８０の第二構成例は、情報端末１０で実現される。すなわち、コミュニケーション支援装置８０の第三構成例では、コミュニケーション支援装置８０は、情報端末１０およびサーバ装置１２で実現される。

【0044】

音声取得部８２は、ネットワークを介して接続された情報端末１０のユーザの発話音声を取得する。

【0045】

検出部８４は、ＷＥＢ会議において、複数の情報端末１０のユーザの発話音声が重なったことを検出する。

【0046】

音声出力制御部８６は、音声取得部８２が発話音声を取得すると、複数の情報端末１０のユーザに対して、音声取得部８２が取得した発話音声を出力させる。音声出力制御部８６は、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0047】

図５は、第一実施形態に係る発話音声を出力させる方法を説明するための図である。図５に示す例では、ユーザＡと、ユーザＢと、ユーザＣとがＷＥＢ会議において発話している例を示しており、横軸は時間の経過を示す。図５に示すように、検出部８４は、ユーザＡの発話音声Ｖ１と、ユーザＢの発話音声Ｖ２の発話音声とが時刻ｔ２において重なったことを検出する。この場合、音声出力制御部８６は、発話音声の重なりが検出されるまでの期間である時刻ｔ１を含む時刻ｔ２までの間は、発話音声をモノラル音声で出力させる。このため、時刻ｔ１から時刻ｔ２までの間は、発話音声Ｖ１がモノラル音声として出力される。音声出力制御部８６は、発話音声Ｖ１と発話音声Ｖ２とが重なっている時刻ｔ２から時刻ｔ３の間は、例えば発話音声Ｖ１を左音声として出力し、発話音声Ｖ２を右音声として出力する。ここで、音声出力制御部８６は、発話音声Ｖ１と発話音声Ｖ２とが聞こえる方向を完全に左右に分けてもよいし、発話音声Ｖ１の右出力を小さくし、発話音声Ｖ２の左出力を小さくしてもよい。

【0048】

音声出力制御部８６は、検出部８４により時刻ｔ３以降は発話音声Ｖ２と重なっている発話音声がないことが検出されるので、時刻ｔ３以降、次の発話音声の重なりが検出されるまでの間は、発話音声をモノラル音声で出力させる。このため、時刻ｔ３から時刻ｔ４までの間は、ユーザＢの発話音声Ｖ２がモノラル音声として出力され、時刻ｔ５から時刻ｔ６の間は、ユーザＣの発話音声Ｖ３がモノラル音声で出力される。音声出力制御部８６は、ユーザＡの発話音声Ｖ４とユーザＢの発話音声Ｖ５とが重なっている時刻ｔ７から時刻ｔ８の間は、例えば発話音声Ｖ４を左音声として出力し、発話音声Ｖ５を右音声と出力する。

【0049】

時刻ｔ２で、ユーザＡの発話音声Ｖ１を左音声として出力し、ユーザＢの発話音声Ｖ２を右音声として出力した場合、ユーザＢの発話音声Ｖ２が継続している期間は、ユーザＢの発話音声を右音声として出力してもよい。この場合、図５の例においては、時刻ｔ２から時刻ｔ３の間、ユーザＡの発話音声Ｖ１は左音声として出力され、時刻ｔ２から時刻ｔ４の間、ユーザＢの発話音声Ｖ２は右音声として出力される。

【0050】

言い換えると、複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声の重なりの検出によって、発話音声が重なった複数の情報端末のユーザの発話音声を異なる方向から聞こえるようにした後、発話音声が重なった発話が継続している期間は、異なる方向から聞こえるようにする処理を継続する。

【0051】

また、時刻ｔ２で、ユーザＡの発話音声Ｖ１と、ユーザＢの発話音声Ｖ２の発話音声とが時刻ｔ２において重なったことが検出されたことに基づき、ユーザＡの発話音声Ｖ１をモノラル音声による出力を継続し、ユーザＢの発話音声を、左右いずれかの音声で出力してもよい。この場合、図５の例においては、時刻ｔ１から時刻ｔ３の間、ユーザＡの発話音声Ｖ１はモノラル音声として出力され、時刻ｔ２から時刻ｔ４の間、ユーザＢの発話音声Ｖ２は右音声または左音声として出力される。

【0052】

言い換えると、複数の情報端末のユーザの発話音声が重なったことが検出された場合、発話音声が重なったことが検出されるまで発話が継続している情報端末のユーザの発話音声は、発話音声の聞こえる方向を変化させず、発話音声が重なったことが検出されたときに発話を開始した情報端末のユーザの発話音声の聞こえる方向を、発話音声が重なったことが検出されるまで発話が継続している情報端末のユーザの発話音声の聞こえる方向とは異なる方向から聞こえるようにする。

【0053】

（情報処理方法）
図６を用いて、第一実施形態に係る音声出力方法について説明する。図６は、第一実施形態に係る音声出力方法を示すフローチャートである。

【0054】

図６に示す処理は、複数のユーザが参加するＷＥＢ会議が開始されることによって開始される。

【0055】

音声出力制御部８６は、音声取得部８２が取得したＷＥＢ会議に参加しているユーザの発話音声をモノラル音声で情報端末１０に出力させる（ステップＳ１０）。そして、ステップＳ１２に進む。

【0056】

コミュニケーション支援装置８０は、ＷＥＢ会議が終了したか否かを判定する（ステップＳ１２）。ＷＥＢ会議が終了したと判定された場合（ステップＳ１２；Ｙｅｓ）、図６の処理を終了する。ＷＥＢ会議が終了したと判定されない場合（ステップＳ１２；Ｎｏ）、ステップＳ１４に進む。

【0057】

検出部８４は、ＷＥＢ会議に参加している複数のユーザの発話の重なりを検出したか否かを判定する（ステップＳ１４）。発話の重なりを検出したと判定された場合（ステップＳ１４；Ｙｅｓ）、ステップＳ１６に進む。発話の重なりを検出したと判定されない場合（ステップＳ１４；Ｎｏ）、ステップＳ１２に進む。ＷＥＢ会議に参加している複数のユーザの発話の重なりが検出される状態とは、図５の場合、時刻ｔ２および時刻ｔ７の状態である。

【0058】

音声出力制御部８６は、ステップＳ１４で発話が重なったことが検出部８４によって検出された複数の発話音声を、異なる方向から聞こえるように、例えば、左チャンネルおよび右チャンネルで各々出力させる（ステップＳ１６）。具体的には、音声出力制御部８６は、発話音声が重なった情報端末のユーザが２名である場合、発話音声が重なった２名のユーザのうち、一方の発話音声を左チャンネルの音声として出力させ、他方の発話音声を右チャンネルの音声として出力させる。そして、ステップＳ１８に進む。

【0059】

検出部８４は、発話の重なりが解消したか否かを判定する（ステップＳ１８）。発話の重なりが解消したと判定された場合（ステップＳ１８；Ｙｅｓ）、ステップＳ１０に進む。発話の重なりが解消したと判定されない場合（ステップＳ１８；Ｎｏ）、ステップＳ１８に進む。すなわち、第一実施形態では、発話の重なりが解消されるまでの間は、複数の発話音声が左チャンネルおよび右チャンネルで各々出力される。発話の重なりが解消した状態とは、図５の場合、時刻ｔ３および時刻ｔ８の状態である。

【0060】

上述のとおり、第一実施形態は、発話音声が重なった場合に、発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第一実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。

【0061】

［第二実施形態］
第二実施形態について説明する。第二実施形態では、検出部８４は、音声取得部８２が取得した複数の情報端末１０のユーザの発話音声の冒頭部を検出する。複数の情報端末１０のユーザの発話における冒頭部が重なったことを検出部８４が検出した場合、音声出力制御部８６は、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0062】

発話音声の冒頭部とは、例えば、特定のユーザが所定時間以上（例えば、５秒以上）発話の無い状態から、発話が開始された場合の発話の冒頭をいう。複数の情報端末のユーザの発話における冒頭部が重なったこととは、複数の情報端末のユーザの発話が、同時またはほぼ同時に開始されることを示す。ほぼ同時とは、複数のユーザの発話の開始のタイミングが１秒から２秒程度の差である場合をいう。例えば、図５に示す例において、発話音声Ｖ２は、時刻ｔ２に開始しており、発話音声Ｖ１と重なっているが、発話音声が重なっている発話音声Ｖ２は、発話の冒頭部ではないため、冒頭部が重なったとは判断されない。また、時刻ｔ７においては、ユーザＡの発話音声Ｖ４の冒頭と、ユーザＢの発話音声Ｖ５の冒頭が検出されるため、時刻ｔ７において、ユーザＡの発話の冒頭部とユーザＢの発話の冒頭部が重なったことが検出される。音声出力制御部８６は、時刻ｔ７までの音声出力はモノラル音声で出力させる。音声出力制御部８６は、時刻ｔ７以降は、例えばユーザＡの発話音声Ｖ４を左音声として出力し、ユーザＢの発話音声Ｖ５を右音声として出力する。音声出力制御部８６は、時刻ｔ８以降は発話音声の重なりが無いので、音声取得部８２が取得した発話音声をモノラル音声として出力させる。

【0063】

（音声出力方法）
図７を用いて、第二実施形態に係る音声出力方法について説明する。図７は、第二実施形態に係る音声出力方法を示すフローチャートである。

【0064】

図７に示すステップＳ２０およびステップＳ２２の処理は、それぞれ、図６に示すステップＳ１０およびステップＳ１２の処理と同じなので、説明を省略する。

【0065】

ステップＳ２２でＮｏと判定された場合、検出部８４は、発話の冒頭部の重なりを検出したか否かを判定する（ステップＳ２４）。具体的には、複数のユーザの発話の冒頭部が重なったこと、言い換えると、複数のユーザが、同時またはほぼ同時に開始したことを検出する。発話の冒頭部の重なりを検出したと判定された場合（ステップＳ２４；Ｙｅｓ）、ステップＳ２６に進む。発話の冒頭部の重なりを検出したと判定されない場合（ステップＳ２４；Ｎｏ）、ステップＳ２２に進む。

【0066】

図７に示すステップＳ２６およびステップＳ２８の処理は、それぞれ、図６に示すステップＳ１６およびステップＳ１８の処理と同じなので、説明を省略する。

【0067】

上述のとおり、第二実施形態では、発話音声が重なることが多い冒頭部で発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。特に、冒頭部の発話の重なりは、他のユーザが同時に双方の発話を聞き取ることが困難な場合も多い。第二実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。

【0068】

［第二実施形態の変形例］
第二実施形態の変形例について説明する。検出部８４は、複数の情報端末１０のユーザの発話音声が冒頭部で重なったことを検出したときの時間差を検出してもよい。この場合、音声出力制御部８６は、時間差が例えば、０．５秒など所定時間未満である場合は、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、右音声と左音声など、聞こえる位置が対称的に異なる方向となる処理を行って出力させてもよい。音声出力制御部８６は、時間差が、同時またはほぼ同時に開始されたと判断される時間差内において０．５秒以上など所定時間以上である場合は、発話音声が重なった複数の情報端末１０のユーザの発話音声のうち、後に発話した側の発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させてもよい。つまり、先に発話した側の発話音声をモノラル音声として中央から聞こえるように出力させ、後に発話した側の発話音声を、右音声または左音声として出力する。

【0069】

［第三実施形態］
第三実施形態について説明する。第三実施形態では、検出部８４は、音声取得部８２が取得した複数の情報端末１０のユーザの発話音声の空白期間があることを検出する。空白期間の後に、複数の情報端末のユーザの発話音声が重なったことを検出部８４が検出した場合、音声出力制御部８６は、発話音声が重なった複数の情報端末１０のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0070】

空白期間とは、例えば、ＷＥＢ会議に参加しているすべてのユーザの発話が１０秒以上ない場合をいう。図５に示す例では、時刻ｔ４から時刻ｔ５までは、ＷＥＢ会議に参加しているすべてのユーザの発話がない期間であるが、この期間が１０秒未満である場合には、空白期間とは判定されない。また、時刻ｔ４から時刻ｔ５までが１０秒以上であることで空白期間と判定された場合であっても、空白期間の後に複数のユーザの発話音声が重なっていないため、処理の対象外となる。例えば、時刻ｔ６から時刻ｔ７までが空白期間と判定され、時刻ｔ７において、ユーザＡの発話音声Ｖ４とユーザＢの発話音声Ｖとが重なったことが検出されたとする。この場合、音声出力制御部８６は、時刻ｔ７までの発話音声はモノラル音声で出力させるが、時刻ｔ７以降は、例えばユーザＡの発話音声Ｖ４を左音声と、ユーザＢの発話音声Ｖ５を右音声として出力してよい。音声出力制御部８６は、時刻ｔ８以降は発話音声の重なりが無いので、音声取得部８２が取得した発話音声をモノラル音声として出力させる。

【0071】

（音声出力方法）
図８を用いて、第三実施形態に係る音声出力方法について説明する。図８は、第三実施形態に係る音声出力方法を示すフローチャートである。

【0072】

図８に示すステップＳ３０およびステップＳ３２の処理は、それぞれ、図６に示すステップＳ１０およびステップＳ１２の処理と同じなので、説明を省略する。

【0073】

ステップＳ３２でＮｏと判定された場合、検出部８４は、空白期間を検出したか否かを判定する（ステップＳ３４）。空白期間を検出したと判定された場合（ステップＳ３４；Ｙｅｓ）、ステップＳ３６に進む。空白期間を検出したと判定されない場合（ステップＳ３４；Ｎｏ）、ステップＳ３２に進む。

【0074】

ステップＳ３４でＹｅｓと判定された場合、検出部８４は、空白期間の後に発話の重なりを検出したか否かを判定する（ステップＳ３６）。空白期間の後に発話の重なりを検出したと判定された場合（ステップＳ３６；Ｙｅｓ）、ステップＳ３８に進む。空白期間の後に発話の重なりを検出したと判定されない場合（ステップＳ３６；Ｎｏ）、ステップＳ３２に進む。

【0075】

ステップＳ３４がＹｅｓおよびステップＳ３６がＹｅｓの検出は、言い換えると、ＷＥＢ会議に参加している参加者の発話がない状態において、複数のユーザが、同時またはほぼ同時に開始したことを検出する。

【0076】

図８に示すステップＳ３８およびステップＳ４０の処理は、それぞれ、図６に示すステップＳ１６およびステップＳ１８の処理と同じなので、説明を省略する。

【0077】

上述のとおり、第三実施形態では、発話音声が重なることが多い発話の空白期間後に発話音声が重なった複数のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。特に、他の発話がない状態における冒頭部の発話の重なりは、他のユーザが同時に双方の発話を聞き取ることが困難な場合も多い。これにより、第三実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握することができ、適切に発話の優先度を判断することができる。

【0078】

［第四実施形態］
第四実施形態について説明する。第四実施形態では、検出部８４は、音声取得部８２が取得した複数の情報端末１０のユーザの発話音声の継続性を検出する。発話が継続的であった情報端末１０のユーザの発話音声と、発話が継続的ではない１０情報端末のユーザの発話音声とが重なったことを検出部８４が検出した場合、音声出力制御部８６は、発話が継続的ではない情報端末１０のユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0079】

発話音声が継続的であるとは、同一の発話者の発話音声が断続的に続いていることをいう。例えば、発話と発話の間が５秒未満の空白である場合は、断続的であると判定される。図９は、第四実施形態に係る発話音声を出力させる方法を説明するための図である。図９に示す例では、図５に示す例と同様に、ユーザＡと、ユーザＢと、ユーザＣとがＷＥＢ会議において発話している例を示しており、横軸は時間の経過を示す。

【0080】

図９に示す例では、例えば、時刻ｔａ６において、ユーザＡの発話音声Ｖ１４とユーザＢの発話音声Ｖ１５とが検出されている。つまり、時刻ｔａ６において、ユーザＡの発話音声とユーザＢの発話音声が重なったことが検出されている。この場合、ユーザＡの発話音声Ｖ１３が終わった時刻ｔａ５から発話音声Ｖ１４が始まった時刻ｔａ６の間隔は５秒未満の間隔である場合、時刻ｔａ５までは発話があったため、ユーザＡの発話音声が断続的に続いていると判定される。つまり、発話音声の重なりが検出されたユーザＡの発話Ｖ１４は、ユーザＡの直前の発話Ｖ１３とは、継続的であると判定される。また、ユーザＣの発話音声Ｖ１２が終わった時刻ｔａ４から発話音声Ｖ１５が始まった時刻ｔａ６の間隔は５秒以上の間隔である場合、時刻ｔａ４までは発話があったが、ユーザＡの発話音声が断続的に続いていない判定される。つまり、発話音声の重なりが検出されたユーザＢの発話音声Ｖ１５は、ユーザＢの直前の発話Ｖ１２とは、継続的ではないと判定される。このため、音声出力制御部８６は、発話音声が重なったことが検出された時刻ｔａ６からは、ユーザＡの発話音声Ｖ１５を、発話音声Ｖ１３に引き続き、モノラル音声での出力を継続させ、ユーザＢの発話音声Ｖ１５を左右いずれかの音声として出力させる。音声出力制御部８６は、時刻ｔａ７以降は発話音声の重なりが無いので、音声取得部８２が取得した発話音声をモノラル音声として出力させる。

【0081】

（音声出力方法）
図１０を用いて、第四実施形態に係る音声出力方法について説明する。図１０は、第四実施形態に係る音声出力方法を説明するためのフローチャートである。

【0082】

図１０に示すステップＳ５０からステップＳ５４の処理は、それぞれ、図６に示すステップＳ１０からステップＳ１４の処理と同じなので、説明を省略する。

【0083】

ステップＳ５４でＹｅｓと判定された場合、検出部８４は、同一ユーザの断続的な発話があるか否かを判定する（ステップＳ５６）。同一ユーザの断続的な発話があると判定された場合（ステップＳ５６；Ｙｅｓ）、ステップＳ５８に進む。同一ユーザの断続的な発話があると判定されない場合（ステップＳ５６：Ｎｏ）、ステップＳ５２に進む。

【0084】

図１０に示すステップＳ５８およびステップＳ６０の処理は、それぞれ、図６に示すステップＳ１６およびステップＳ１８の処理と同じなので、説明を省略する。

【0085】

上述のとおり、第四実施形態は、発話音声が重なった場合に、発話が継続的ではないユーザの発話音声に対して、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第四実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話が継続的ではないユーザの発話音声が、左右いずれかの方向の音声として聞こえることで、発話を継続しているユーザの発話を阻害することなく、適切に発話の優先度を判断することができる。

【0086】

［第五実施形態］
（コミュニケーション支援装置）
図１１を用いて、第五実施形態に係るコミュニケーション支援装置の構成例について説明する。図１１は、第五実施形態に係るコミュニケーション支援装置の構成例を示すブロック図である。

【0087】

図１１に示すように、コミュニケーション支援装置８０Ａは、音声取得部８２と、検出部８４と、音声出力制御部８６Ａと、発話履歴取得部８８と、を備える。コミュニケーション支援装置８０Ａは、発話履歴取得部８８を備える点で、図４に示すコミュニケーション支援装置８０と異なる。コミュニケーション支援装置８０Ａは、図４に示すコミュニケーション支援装置８０と同様に、端末制御装置３２またはサーバ制御装置６２のいずれか一方または双方の協働で実現される概念的な装置である。このため、コミュニケーション支援装置８０Ａが備える発話履歴取得部８８も、端末制御装置３２およびサーバ制御装置６２のいずれか、または双方で実現される。

【0088】

発話履歴取得部８８は、複数の情報端末１０のユーザの発話履歴を取得する。発話履歴とは、発話頻度であり、例えばＷＥＢ会議中における発言回数である。発言回数とは、例えば、ユーザ毎の発話において、発話間隔が５秒以上の発話毎に発話回数がカウントされる。例えば、連続した発話間の発話間隔が５秒未満である場合は、連続した発話としてカウントされる。例えば、図９に示す例において、ユーザＡの発話は時刻ｔａ５から時刻ｔａ６が５秒未満の間隔であることから、時刻ｔａ４から時刻ｔａ７までの発話が１回の発話とカウントされる。

【0089】

発話履歴取得部８８は、例えば、ＷＥＢ会議において発話頻度の高い傾向のユーザを特定する。発話頻度が高い傾向であると判断される条件は、例えば、他の参加者の平均発話回数に対して、１．５倍以上の発話回数がある場合、そのユーザは発話頻度が高い傾向であると判断される。また、発話頻度が高い傾向であると判断される条件は、発話音声が重なった複数のユーザにおける発話頻度の差に基づいて判断されてもよい。

【0090】

音声出力制御部８６Ａは、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話音声を、発話履歴取得部８８が取得した発話履歴に基づいて、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。音声出力制御部８６Ａは、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話のうち、発話頻度に基づいて決定されたユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話頻度の高い傾向のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる場合について説明する。

【0091】

例えば、図９に示す例において、時刻ｔａ６でユーザＡの発話音声Ｖ１４とユーザＢの発話音声Ｖ１５が重なったことが検出され、ユーザＡの発話頻度が発話履歴取得部８８により高い傾向であると判断されたとする。この場合、音声出力制御部８６Ａは、時刻ｔａ６からは、例えばユーザＢの発話音声Ｖ１５をモノラル音声による出力を継続し、ユーザＡの発話音声Ｖ１４を右音声または左音声のいずれかとして出力させる。

【0092】

（音声出力方法）
図１２を用いて、第五実施形態に係る音声出力方法について説明する。図１２は、第五実施形態に係る音声出力方法を説明するためのフローチャートである。

【0093】

図１２に示すステップＳ７０からステップＳ７４の処理は、それぞれ、図６に示すステップＳ１０からステップＳ１４の処理と同じなので、説明を省略する。

【0094】

ステップＳ７４でＹｅｓと判定された場合、発話履歴取得部８８は、発話が重なったユーザに発話頻度の高い傾向のユーザがあるか否かを判定する（ステップＳ７６）。発話頻度の高い傾向のユーザがあると判定された場合（ステップＳ７６；Ｙｅｓ）、ステップＳ７８に進む。発話頻度の高い傾向のユーザがあると判定されない場合（ステップＳ７６；Ｎｏ）、ステップＳ８０に進む。ステップＳ７６の処理は、発話が重なったユーザのいずれかが発話頻度の高い傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話頻度の高い傾向のユーザである場合、または、発話が重なったユーザがいずれも発話頻度の低い傾向のユーザである場合は、ステップＳ７６でＮｏの判定となる。

【0095】

ステップＳ７６でＹｅｓと判定された場合、音声出力制御部８６Ａは、発話頻度の高い傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる（ステップＳ７８）。そして、ステップＳ８２に進む。

【0096】

図１２に示すステップＳ７６でＮｏと判定された場合、音声出力制御部８６Ａは、重なった複数の音声を左右のチャンネルで各々出力させる（ステップＳ８０）。そして、ステップＳ８２に進む。

【0097】

図１２に示すステップＳ８２の処理は、図６に示すステップＳ１８の処理と同じなので、説明を省略する。

【0098】

上述のとおり、第五実施形態は、発話音声が重なった場合に、発話頻度の高い傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第五実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話頻度の高い傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話頻度の高い傾向のユーザの発話が優先的になることを抑制し、適切に発話の優先度を判断することができる。

【0099】

［第六実施形態］
第六実施形態について説明する。第六実施形態では、発話履歴取得部８８は、複数の情報端末１０のユーザの発話履歴として発話頻度を取得する。音声出力制御部８６Ａは、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話のうち、発話頻度に基づいて決定されたユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理行って出力させる。以下の例においては、発話頻度の低い傾向のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる場合について説明する。

【0100】

発話履歴取得部８８は、例えば、ＷＥＢ会議において発話頻度の低い傾向のユーザを特定する。発話頻度が低い傾向であると判断される条件は、例えば、他のＷＥＢ会議の参加者の平均発話回数に対して０．６倍未満の発話回数である場合、そのユーザは発話頻度が低い傾向であると判断される。また、発話頻度低い傾向であると判断される条件は、発話音声が重なった複数のユーザにおける発話頻度の差に基づいて判断されてもよい。

【0101】

例えば、図９に示す例において、時刻ｔａ６でユーザＡの発話音声Ｖ１４とユーザＢの発話音声Ｖ１５が重なったことが検出され、ユーザＡの発話頻度が発話履歴取得部８８により低い傾向であると判断されたとする。この場合、音声出力制御部８６Ａは、時刻ｔａ６からは、例えばユーザＢの発話音声Ｖ１５をモノラル音声による出力を継続し、ユーザＡの発話音声Ｖ１４を右音声または左音声のいずれかとして出力させる。

【0102】

（音声出力方法）
図１３を用いて、第六実施形態に係る音声出力方法について説明する。図１３は、第六実施形態に係る音声出力方法を説明するためのフローチャートである。

【0103】

図１３に示すステップＳ９０からステップＳ９４の処理は、それぞれ、図６に示すステップＳ１０からステップＳ１４の処理と同じなので、説明を省略する。

【0104】

ステップＳ９４でＹｅｓと判定された場合、発話履歴取得部８８は、発話が重なったユーザに発話頻度の低い傾向のユーザがあるか否かを判定する（ステップＳ９６）。発話頻度の低い傾向のユーザがあると判定された場合（ステップＳ９６；Ｙｅｓ）、ステップＳ９８に進む。発話頻度の低い傾向のユーザがあると判定されない場合（ステップＳ９６；Ｎｏ）、ステップＳ１００に進む。ステップＳ９６の処理は、発話が重なったユーザのいずれかが発話頻度の低い傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話頻度の高い傾向のユーザである場合、または、発話が重なったユーザがいずれも発話頻度の低い傾向のユーザである場合は、ステップＳ９６でＮｏの判定となる。

【0105】

ステップＳ９６でＹｅｓと判定された場合、音声出力制御部８６Ａは、発話頻度の低い傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる（ステップＳ９８）。そして、ステップＳ１０２に進む。

【0106】

図１３に示すステップＳ１００およびステップＳ１０２の処理は、それぞれ、図１２に示すステップＳ８０およびステップＳ８２の処理と同じなので、説明を省略する。

【0107】

第六実施形態は、発話音声が重なった場合に、発話頻度の低い傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第六実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話頻度の低い傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話頻度の低い傾向のユーザの発話が認識されやすくなり、適切に発話の優先度を判断することができる。

【0108】

［第七実施形態］
第七実施形態について説明する。第七実施形態では、発話履歴取得部８８は、複数の情報端末１０のユーザの発話履歴として発話音量の傾向を取得する。音声出力制御部８６Ａは、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話のうち、発話音量に基づいて決定されたユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話音量が大きい傾向のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0109】

発話履歴取得部８８は、例えば、ＷＥＢ会議開始時からＷＥＢ会議に参加している各ユーザの発話音量の傾向を取得している。発話音量の傾向とは、ユーザ毎における発話音量の平均値である。発話履歴取得部８８は、例えば、ＷＥＢ会議において発話音量が大きい傾向のユーザを特定する。発話音量が大きい傾向であると判断される条件は、例えば、他のＷＥＢ会議の参加者の平均発話音量に対して、１．２倍程度以上の音量、または２ｄＢ以上高い音量などで発話が行われている場合、そのユーザは発話音量が大きい傾向であると判断される。また、発話音量が大きい傾向であると判断される条件は、発話音量が重なった複数のユーザにおける発話音量の差に基づいて判断されてもよい。

【0110】

例えば、図９に示す例において、時刻ｔａ６でユーザＡの発話音声Ｖ１４とユーザＢの発話音声Ｖ１５が重なったことが検出され、ユーザＡの発話音量が発話履歴取得部８８により大きい傾向にあると判断されたとする。この場合、音声出力制御部８６Ａは、時刻ｔａ６からは、例えばユーザＢの発話音声Ｖ１５をモノラル音声による出力を継続し、ユーザＡの発話音声Ｖ１４を右音声または左音声のいずれかとして出力させる。

【0111】

（音声出力方法）
図１４を用いて、第七実施形態に係る音声出力方法について説明する。図１４は、第七実施形態に係る音声出力方法を説明するためのフローチャートである。

【0112】

図１４に示すステップＳ１１０からステップＳ１１４の処理は、それぞれ、図６に示すステップＳ１０からステップＳ１４の処理と同じなので、説明を省略する。

【0113】

ステップＳ１１４でＹｅｓと判定された場合、発話履歴取得部８８は、発話が重なったユーザに発話音量が大きい傾向のユーザがあるか否かを判定する（ステップＳ１１６）。発話音量の大きい傾向のユーザがあると判定された場合（ステップＳ１１６；Ｙｅｓ）、ステップＳ１１８に進む。発話音量の大きい傾向のユーザがあると判定されない場合（ステップＳ１１６；Ｎｏ）、ステップＳ１２０に進む。ステップＳ１１６の処理は、発話が重なったユーザのいずれかが発話音量が大きい傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話音量の大きい傾向のユーザである場合、または、発話が重なったユーザがいずれも発話音量の小さい傾向のユーザである場合は、ステップＳ１１６でＮｏの判定となる。

【0114】

ステップＳ１１６でＹｅｓと判定された場合、音声出力制御部８６Ａは、発話音量の大きい傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる（ステップＳ１１８）。そして、ステップＳ１２２に進む。

【0115】

図１４に示すステップＳ１２０およびステップＳ１２２の処理は、それぞれ、図１２に示すステップＳ８０およびステップＳ８２の処理と同じなので、説明を省略する。

【0116】

上述のとおり、第七実施形態は、発話音声が重なった場合に、発話音量の大きい傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第七実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話音量の大きい傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話音量の大きい傾向のユーザの発話が優先的になることを抑制し、適切に発話の優先度を判断することができる。

【0117】

［第八実施形態］
第八実施形態について説明する。第八実施形態では、発話履歴取得部８８は、複数の情報端末１０のユーザの発話履歴として発話音量の傾向を取得する。音声出力制御部８６Ａは、検出部８４が複数の情報端末１０のユーザの発話音声が重なったことを検出した場合、発話音声が重なった複数の情報端末１０のユーザの発話のうち、発話音量に基づいて決定されたユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。以下の例においては、発話音量が小さい傾向のユーザの発話音声を、複数の情報端末１０のユーザに対して、異なる方向から聞こえるようにする処理を行って出力させる。

【0118】

発話履歴取得部８８は、例えば、ＷＥＢ会議開始時からＷＥＢ会議に参加している各ユーザの発話音量の傾向を取得している。発話履歴取得部８８は、例えば、ＷＥＢ会議において発話音量が小さい傾向のユーザを特定する。発話音量が小さい傾向であると判断される条件は、例えば、他のＷＥＢ会議の参加者の平均発話音量に対して、０．８倍程度以上の音量、または２ｄＢ以上低い音量などで発話が行われている場合、そのユーザは発話音量が小さい傾向であると判断される。また、発話音量が小さい傾向であると判断される条件は、発話音量が重なった複数のユーザにおける発話音量の差に基づいて判断されてもよい。

【0119】

例えば、図９に示す例において、時刻ｔａ６でユーザＡの発話音声Ｖ１４とユーザＢの発話音声Ｖ１５が重なったことが検出され、ユーザＡの発話音量が発話履歴取得部８８により小さい傾向にあると判断されたとする。この場合、音声出力制御部８６Ａは、時刻ｔａ６からは、例えばユーザＢの発話音声Ｖ１５をモノラル音声による出力を継続し、ユーザＡの発話音声Ｖ１４を右音声または左音声のいずれかとして出力させる。

【0120】

（音声出力方法）
図１５を用いて、第八実施形態に係る音声出力方法について説明する。図１５は、第八実施形態に係る音声出力方法を説明するためのフローチャートである。

【0121】

図１５に示すステップＳ１３０からステップＳ１３４の処理は、それぞれ、図６に示すステップＳ１０からステップＳ１４の処理と同じなので、説明を省略する。

【0122】

ステップＳ１３４でＹｅｓと判定された場合、発話履歴取得部８８は、発話が重なったユーザに発話音量が小さい傾向のユーザがあるか否かを判定する（ステップＳ１３６）。発話音量の小さい傾向のユーザがあると判定された場合（ステップＳ１３６；Ｙｅｓ）、ステップＳ１３８に進む。発話音量の小さい傾向のユーザがあると判定されない場合（ステップＳ１３６；Ｎｏ）、ステップＳ１４０に進む。ステップＳ１３６の処理は、発話が重なったユーザのいずれかが発話音量が小さい傾向のユーザであるか否かの判定としてもよい。この場合、発話が重なったユーザがいずれも発話音量の小さい傾向のユーザである場合、または、発話が重なったユーザがいずれも発話音量の大きい傾向のユーザである場合は、ステップＳ１３６でＮｏの判定となる。

【0123】

ステップＳ１３６でＹｅｓと判定された場合、音声出力制御部８６Ａは、発話音量の小さい傾向のユーザの発話音声を左右のチャンネルのいずれかで出力させる（ステップＳ１３８）。そして、ステップＳ１４２に進む。

【0124】

図１５に示すステップＳ１４０およびステップＳ１４２の処理は、それぞれ、図１２に示すステップＳ８０およびステップＳ８２の処理と同じなので、説明を省略する。

【0125】

上述のとおり、第八実施形態は、発話音声が重なった場合に、発話音量の小さい傾向のユーザの発話音声を、異なる方向から聞こえるようにする処理を行って出力させる。これにより、第八実施形態は、発話音声が重なった複数の発話音声の発話内容を適切に把握するとともに、発話音量の小さい傾向のユーザの発話が、左右いずれかの方向の音声として聞こえることで、発話音量の小さい傾向のユーザの発話が認識されやすくなり、適切に発話の優先度を判断することができる。

【0126】

［その他の実施形態］
その他の実施形態について説明する。

【0127】

例えば、発話音声が重なった２名のユーザの発話音声を左右方向の音声として出力する場合の例として、ユーザＡの発話音声を左方向からの音声、ユーザＢの発話音声を右方向からの音声として出力する場合、左チャンネルの音声をユーザＡの発話音声のみ、右チャンネルの音声をユーザＢの発話音声のみとしてもよく、ユーザＡの発話音声を左方向に定位させ、ユーザＢの発話音声を右方向に定位させる処理を行ってもよい。

【0128】

例えば、発話音声が重なった２名のユーザの発話音声をモノラル音声と右方向の音声として出力する場合の例として、ユーザＡの発話音声をモノラル音声、ユーザＢの発話音声を右方向からの音声として出力する場合、ユーザＡの発話音声を左右チャンネルから均等に出力させ、ユーザＢの発話音声を右チャンネルから出力させてもよく、ユーザＡの発話音声を中央方向に定位させ、ユーザＢの発話音声を右方向に定位させる処理を行ってもよい。

【0129】

上記各実施形態においては、複数の情報端末のユーザのうち、２名のユーザの発話音声が重なった場合について説明した。２名以上の発話の重なりに対応も可能である。例えば、３名のユーザの発話が重なった場合は、左右および中央（モノラル）に各々定位させてもよい。例えば、４名のユーザの発話が重なった場合は、左、左中央、右中央、右のように各々定位させてもよい。

【0130】

図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の付加や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。

【0131】

以上、本発明の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

【符号の説明】

【0132】

１情報処理システム
１０情報端末
１２サーバ装置
２０カメラ
２２マイクロフォン
２４音声出力部
２６操作部
２８，６０通信部
３０表示部
３２端末制御装置
４０撮影制御部
４４音声取得部
４６表示制御部
４８音声出力制御部
５０アプリケーション制御部
５２操作制御部
５４記憶部
６２サーバ制御装置
７０接続制御部
７２通信制御部
７４記憶部
８０コミュニケーション支援装置
８２音声取得部
８４検出部
８６音声出力制御部
８８発話履歴取得部

【図1】