(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-30
(45)【発行日】2024-08-07
(54)【発明の名称】音声会議装置、音声会議システム及び音声会議方法
(51)【国際特許分類】
G10L 25/48 20130101AFI20240731BHJP
【FI】
G10L25/48 100
(21)【出願番号】P 2022529155
(86)(22)【出願日】2020-06-01
(86)【国際出願番号】 JP2020021646
(87)【国際公開番号】W WO2021245759
(87)【国際公開日】2021-12-09
【審査請求日】2023-04-07
(73)【特許権者】
【識別番号】517063112
【氏名又は名称】ハイラブル株式会社
(73)【特許権者】
【識別番号】503124919
【氏名又は名称】株式会社リバネス
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】水本 武志
【審査官】竹下 翔平
(56)【参考文献】
【文献】国際公開第2008/078555(WO,A1)
【文献】国際公開第2019/142230(WO,A1)
【文献】国際公開第2019/139101(WO,A1)
【文献】特開2018-170009(JP,A)
【文献】国際公開第2019/142231(WO,A1)
【文献】特開2018-124456(JP,A)
【文献】特表2015-510716(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
19/00-99/00
G06Q 10/00-10/30
30/00-30/08
50/00-50/60
(57)【特許請求の範囲】
【請求項1】
ネットワークを介した複数の音声会議を提供する音声会議装置であって、
前記複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信する音声会議部と、
前記複数の音声会議それぞれにおいて発せられた前記音声を分析する音声分析部と、
前記複数の音声会議が継続している間に、前記複数の音声会議それぞれに関連付けて、前記音声分析部による当該音声会議において発せられた前記音声の分析結果であって、前記複数の利用者の間で発言者が遷移した向きと、前記向きで発言者が遷移した回数と、に対応する情報を含む分析結果を、前記複数の音声会議を管理する管理者が利用する管理者端末に表示させる表示制御部と、
を有
し、
前記音声会議部は、前記複数の音声会議それぞれにおいて発せられた前記音声における前記複数の利用者それぞれの発言量に応じて当該利用者に対する音声、文字又は画像のうち少なくとも一つを含む介入内容を決定し、決定した前記介入内容を用いて当該利用者が参加している当該音声会議に自動的に介入する、
音声会議装置。
【請求項2】
前記音声会議部は、前記管理者端末による前記複数の音声会議のいずれかへの音声、文字又は画像のうち少なくとも一つを用いた介入を受け付ける、
請求項1に記載の音声会議装置。
【請求項3】
前記分析結果に基づいて、前記複数の音声会議のいずれかへの介入を前記管理者端末に対して提案する提案部をさらに有する
請求項2に記載の音声会議装置。
【請求項4】
前記表示制御部は、前記複数の音声会議のうち、前記提案部が介入を提案している前記音声会議の表示態様を、その他の前記音声会議の表示態様とは異ならせる、
請求項3に記載の音声会議装置。
【請求項5】
前記表示制御部は、前記音声会議が継続している間に、当該音声会議に参加している前記複数の利用者が利用する前記複数の利用者端末それぞれに前記分析結果を表示させる、
請求項1から
4のいずれか一項に記載の音声会議装置。
【請求項6】
前記表示制御部は、前記音声会議が継続している間に、前記複数の利用者を撮像した複数の撮像画像の間に、当該音声会議における前記複数の利用者の間の発言のやり取りの程度を示す記号を表示する
請求項
5に記載の音声会議装置。
【請求項7】
前記音声会議部は、前記音声会議が継続している間に、当該音声会議に参加している前記複数の利用者が利用する前記複数の利用者端末それぞれから所定のアクションの入力を受け付け、
前記表示制御部は、前記音声の分析結果に加えて、前記複数の音声会議それぞれにおいて入力された前記アクションを示す情報を前記管理者端末に表示させる、
請求項1から
6のいずれか一項に記載の音声会議装置。
【請求項8】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を過去に取得された音声パターン又は手本の音声パターンと比較することによって分析する、
請求項1から
7のいずれか一項に記載の音声会議装置。
【請求項9】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を当該音声会議の目的ごとに異なる前記音声パターンと比較することによって分析する、
請求項
8に記載の音声会議装置。
【請求項10】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を当該音声会議の期間ごとに異なる前記音声パターンと比較することによって分析する、
請求項
8に記載の音声会議装置。
【請求項11】
前記音声分析部は、前記分析結果に基づいて前記複数の利用者を複数のグループに分割し、
前記音声会議部は、前記複数のグループそれぞれに含まれている前記複数の利用者が参加する前記音声会議を開始する、
請求項1から
10のいずれか一項に記載の音声会議装置。
【請求項12】
前記音声分析部は、前記分析結果に加えて、前記複数の利用者それぞれの属性に基づいて、前記複数の利用者を複数のグループに分割する、
請求項
11に記載の音声会議装置。
【請求項13】
前記音声分析部は、前記分析結果に基づいて、1つのグループに属する前記複数の利用者の発言量又は発言の傾向が近くなるように、前記複数の利用者を複数のグループに分割する、
請求項
11に記載の音声会議装置。
【請求項14】
ネットワークを介した複数の音声会議を提供する音声会議装置と、
前記複数の音声会議を管理する管理者が利用する管理者端末と、
を含み、
前記音声会議装置は、
前記複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信する音声会議部と、
前記複数の音声会議それぞれにおいて発せられた前記音声を分析する音声分析部と、
前記複数の音声会議が継続している間に、前記複数の音声会議それぞれに関連付けて、前記音声分析部による当該音声会議において発せられた前記音声の分析結果であって、前記複数の利用者の間で発言者が遷移した向きと、前記向きで発言者が遷移した回数と、に対応する情報を含む分析結果を、前記管理者端末に表示させる表示制御部と、
を有し、
前記管理者端末は、前記分析結果を表示する表示部を有
し、
前記音声会議部は、前記複数の音声会議それぞれにおいて発せられた前記音声における前記複数の利用者それぞれの発言量に応じて当該利用者に対する音声、文字又は画像のうち少なくとも一つを含む介入内容を決定し、決定した前記介入内容を用いて当該利用者が参加している当該音声会議に自動的に介入する、
音声会議システム。
【請求項15】
コンピュータが実行する、
ネットワークを介した複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信するステップと、
前記複数の音声会議それぞれにおいて発せられた前記音声を分析するステップと、
前記複数の音声会議が継続している間に、前記複数の音声会議それぞれに関連付けて、前記分析するステップにおける当該音声会議において発せられた前記音声の分析結果であって、前記複数の利用者の間で発言者が遷移した向きと、前記向きで発言者が遷移した回数と、に対応する情報を含む分析結果を、前記複数の音声会議を管理する管理者が利用する管理者端末に表示させるステップと、
前記複数の音声会議それぞれにおいて発せられた前記音声における前記複数の利用者それぞれの発言量に応じて当該利用者に対する音声、文字又は画像のうち少なくとも一つを含む介入内容を決定し、決定した前記介入内容を用いて当該利用者が参加している当該音声会議に自動的に介入するステップと、
を有する、音声会議方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークを介した音声会議を実行するための音声会議装置、音声会議システム及び音声会議方法に関する。
【背景技術】
【0002】
近年、複数の情報端末の間でネットワークを介して音声会議をするためのシステムの普及が進んでいる。特許文献1には、音声会議の中で発言をしている発言者を特定し、特定した発言者を視覚的に明示するシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
学校や会社において、教師や上司等の管理者が複数の音声会議を管理する場合がある。しかしながら、特許文献1に開示されたシステムでは、1つの音声会議の参加者が当該音声会議における発言者が明示されるのみであるため、管理者が複数の音声会議の状況を容易に知ることはできない。
【0005】
本発明はこれらの点に鑑みてなされたものであり、管理者が複数の音声会議の状況を容易に知ることができるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の音声会議装置は、ネットワークを介した複数の音声会議を提供する音声会議装置であって、前記複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信する音声会議部と、前記複数の音声会議それぞれにおいて発せられた前記音声を分析する音声分析部と、前記複数の音声会議それぞれに関連付けて、前記音声分析部による当該音声会議において発せられた前記音声の分析結果を、前記複数の音声会議を管理する管理者が利用する管理者端末に表示させる表示制御部と、を有する。
【0007】
前記表示制御部は、前記複数の音声会議が継続している間に、前記複数の音声会議それぞれに関連付けて前記分析結果を前記管理者端末に表示させてもよい。
【0008】
前記音声会議部は、前記管理者端末による前記複数の音声会議のいずれかへの音声、文字又は画像のうち少なくとも一つを用いた介入を受け付けてもよい。
【0009】
前記音声会議装置は、前記分析結果に基づいて、前記複数の音声会議のいずれかへの介入を前記管理者端末に対して提案する提案部をさらに有してもよい。
【0010】
前記表示制御部は、前記複数の音声会議のうち、前記提案部が介入を提案している前記音声会議の表示態様を、その他の前記音声会議の表示態様とは異ならせてもよい。
【0011】
前記音声会議部は、前記分析結果に基づいて、前記複数の音声会議のいずれかへ音声、文字又は画像のうち少なくとも一つを用いて自動的に介入してもよい。
【0012】
前記表示制御部は、前記音声会議が継続している間に、当該音声会議に参加している前記複数の利用者が利用する前記複数の利用者端末それぞれに前記分析結果を表示させてもよい。
【0013】
前記表示制御部は、前記音声会議が継続している間に、前記複数の利用者を撮像した複数の撮像画像の間に、当該音声会議における前記複数の利用者の間の発言のやり取りの程度を示す記号を表示してもよい。
【0014】
前記音声会議部は、前記音声会議が継続している間に、当該音声会議に参加している前記複数の利用者が利用する前記複数の利用者端末それぞれから所定のアクションの入力を受け付け、前記表示制御部は、前記音声の分析結果に加えて、前記複数の音声会議それぞれにおいて入力された前記アクションを示す情報を前記管理者端末に表示させてもよい。
【0015】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を過去に取得された音声パターン又は手本の音声パターンと比較することによって分析してもよい。
【0016】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を当該音声会議の目的ごとに異なる前記音声パターンと比較することによって分析してもよい。
【0017】
前記音声分析部は、前記複数の音声会議それぞれにおいて発せられた前記音声を当該音声会議の期間ごとに異なる前記音声パターンと比較することによって分析してもよい。
【0018】
前記音声分析部は、前記分析結果に基づいて前記複数の利用者を複数のグループに分割し、前記音声会議部は、前記複数のグループそれぞれに含まれている前記複数の利用者が参加する前記音声会議を開始してもよい。
【0019】
前記音声分析部は、前記分析結果に加えて、前記複数の利用者それぞれの属性に基づいて、前記複数の利用者を複数のグループに分割してもよい。
【0020】
前記音声分析部は、前記分析結果に基づいて、1つのグループに属する前記複数の利用者の発言量又は発言の傾向が近くなるように、前記複数の利用者を複数のグループに分割してもよい。
【0021】
本発明の第2の態様の音声会議システムは、ネットワークを介した複数の音声会議を提供する音声会議装置と、前記複数の音声会議を管理する管理者が利用する管理者端末と、を含み、前記音声会議装置は、前記複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信する音声会議部と、前記複数の音声会議それぞれにおいて発せられた前記音声を分析する音声分析部と、前記複数の音声会議それぞれに関連付けて、前記音声分析部による当該音声会議において発せられた前記音声の分析結果を、前記管理者端末に表示させる表示制御部と、を有し、前記管理者端末は、前記分析結果を表示する表示部を有する。
【0022】
本発明の第3の態様の音声会議方法は、コンピュータが実行する、ネットワークを介した複数の音声会議それぞれに参加している複数の利用者が利用する複数の利用者端末との間で、当該音声会議において発せられた音声を送受信するステップと、前記複数の音声会議それぞれにおいて発せられた前記音声を分析するステップと、前記複数の音声会議それぞれに関連付けて、前記分析するステップにおける当該音声会議において発せられた前記音声の分析結果を、前記複数の音声会議を管理する管理者が利用する管理者端末に表示させるステップと、を有する。
【発明の効果】
【0023】
本発明によれば、管理者が複数の音声会議の状況を容易に知ることができるという効果を奏する。
【図面の簡単な説明】
【0024】
【
図1】実施形態に係る音声会議システムの模式図である。
【
図2】実施形態に係る音声会議システムのブロック図である。
【
図3】例示的な音声会議一覧画面を表示している利用者端末の模式図である。
【
図4】例示的な音声会議画面を表示している利用者端末の模式図である。
【
図5】例示的な音声会議一覧画面を表示している管理者端末の模式図である。
【
図6】分析結果上にアクションを表示する方法を説明するための模式図である。
【
図7】分析結果に基づいて複数の利用者を複数のグループに分割する方法を説明するための模式図である。
【
図8】音声会議装置が実行する音声会議方法のフローチャートを示す図である。
【発明を実施するための形態】
【0025】
[音声会議システムSの概要]
図1は、本実施形態に係る音声会議システムSの模式図である。音声会議システムSは、音声会議装置1と、複数の利用者端末2と、管理者端末3とを含む。音声会議システムSが含む利用者端末2及び管理者端末3の数は限定されない。音声会議システムSは、その他のサーバ、端末等の機器を含んでもよい。
【0026】
音声会議装置1は、ネットワークを介した複数の音声会議を提供するコンピュータである。音声会議は、複数の利用者端末2の間で音声を授受することである。音声会議は、複数の利用者端末2の間で、音声に加えて画像(画像は静止画でも、動画でもよい。)又は文字の少なくとも一方を授受することであってもよい。また、音声会議装置1は、音声会議において発せられた音声を分析し、分析結果を利用者端末2及び管理者端末3に表示させる。
【0027】
音声会議装置1は、例えば、単一のコンピュータ、又はコンピュータ資源の集合であるクラウドによって構成される。音声会議装置1は、ローカルエリアネットワーク、インターネット等のネットワークを介して、利用者端末2及び管理者端末3に有線又は無線で接続される。
【0028】
利用者端末2は、音声会議システムSが提供する音声会議に参加する利用者(生徒、従業員等)が利用する情報端末である。利用者端末2は、例えばパーソナルコンピュータ、スマートフォン、タブレット端末等である。また、利用者端末2は、利用者が装着して音声や画像の入出力をするウェアラブル端末であってもよい。利用者端末2は、利用者の音声の入力を受け付けて音声会議装置1に送信するとともに、他の利用者端末2において入力された音声を音声会議装置1から受信して出力する。本実施形態では、1人の利用者が1つの利用者端末2を利用する例について説明をするが、複数の利用者が1つの利用者端末2を利用してもよい。
【0029】
管理者端末3は、音声会議システムSが提供する一又は複数の音声会議を管理する管理者(利用者を管理する立場にある教師、上司等)が利用する情報端末である。管理者端末3は、例えばパーソナルコンピュータ、スマートフォン、タブレット端末等である。また、管理者端末3は、管理者が装着して音声や画像の入出力をするウェアラブル端末であってもよい。管理者端末3は、音声会議装置1による音声の分析結果を表示するとともに、管理者による音声会議への介入を受け付ける。
【0030】
本実施形態に係る音声会議システムSにおいて、音声会議装置1は、複数の音声会議それぞれにおいて発せられた音声を分析し、複数の音声会議それぞれに関連付けて、音声の分析結果を管理者端末3に表示させる。これにより、音声会議システムSは、管理者に対して複数の音声会議の状況を俯瞰させることができ、管理者が複数の音声会議の状況を容易に知ることを可能する。
【0031】
[音声会議システムSの構成]
図2は、本実施形態に係る音声会議システムSのブロック図である。
図2において、矢印は主なデータの流れを示しており、
図2に示していないデータの流れがあってよい。
図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、
図2に示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
【0032】
音声会議装置1は、記憶部11と、制御部12とを有する。制御部12は、音声会議部121と、音声分析部122と、提案部123と、表示制御部124を有する。記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部11は、制御部12が実行するプログラムを予め記憶している。記憶部11は、音声会議装置1の外部に設けられてもよく、その場合にネットワークを介して制御部12との間でデータの授受を行ってもよい。
【0033】
制御部12は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部11に記憶されたプログラムを実行することにより、音声会議部121、音声分析部122、提案部123及び表示制御部124として機能する。制御部12の機能の少なくとも一部は、電気回路によって実行されてもよい。また、制御部12の機能の少なくとも一部は、ネットワーク経由で実行されるプログラムによって実行されてもよい。
【0034】
音声会議部121は、複数の利用者端末2の間で音声を送受信することによって複数の音声会議を実行する。音声会議部121は、音声会議に参加している複数の利用者が利用する複数の利用者端末2との間で、当該音声会議において発せられた音声(すなわち、音声入出力部22に入力された音声)を送受信する。また、音声会議部121は、音声会議に参加している複数の利用者が利用する複数の利用者端末2との間で、当該音声会議に参加している利用者の撮像画像(すなわち、撮像部23が撮像した撮像画像)を送受信する。また、音声会議部121は、音声会議に参加している複数の利用者が利用する複数の利用者端末2との間で、当該音声会議に参加している利用者の入力内容(入力された文字、アクション等)を送受信する。
【0035】
これにより、音声会議部121は、複数の利用者端末2の間で、音声、撮像画像及び入力内容を共有させ、音声会議を実行することができる。音声会議部121は、音声会議を実行するために、ここに示した具体的な方法に限られず、既知の方法を用いることができる。
【0036】
また、音声会議部121は、提案部123が介入を提案した音声会議に対して、管理者端末3による文字又は音声を用いた介入を受け付け、又は自動的に文字又は音声を用いて介入してもよい。音声会議への介入は、例えば、管理者が管理者端末3において入力した文字、音声又は画像のうち少なくとも一つを音声会議に参加している各利用者の利用者端末2に出力すること、又は音声会議部121が生成した文字、音声又は画像のうち少なくとも一つを音声会議に参加している各利用者の利用者端末2に出力することである。
【0037】
音声会議部121は、例えば、管理者端末3の操作部34においていずれかの音声会議に対応する介入ボタン314を選択する操作が行われた場合に、管理者端末3と、当該音声会議に参加している複数の利用者端末2との間で、音声又は文字の少なくとも一方の送受信を開始することによって、管理者端末3から音声会議への介入を可能にする。音声会議部121は、複数の利用者端末2のうち、管理者端末3において選択された一部の利用者端末2にのみ、音声又は文字の少なくとも一方の送受信をしてもよい。また、音声会議部121は、介入に関して、音声若しくは文字の少なくとも一方に加えて又はそれらに代えて、利用者端末2で指定された画像(画像は静止画でも、動画でもよい。)及び管理者端末3で指定された画像の送受信を行ってもよい。
【0038】
音声分析部122は、複数の音声会議それぞれにおいて発せられた音声を分析する。音声分析部122は、例えば、複数の音声会議それぞれに関連付けて、複数の利用者それぞれの発言量を算出するとともに、複数の利用者間のやり取り(発言者の遷移)の程度を算出する。
【0039】
音声分析部122は、まず音声会議部121が取得した音声に基づいて、音声会議において、時間ごと(例えば10ミリ秒~100ミリ秒ごと)に、いずれの利用者が発言(発声)したかを判別する。1つの利用者端末2に対して1人の利用者の音声が入力される場合には、音声分析部122は、音声の取得元の利用者端末2に基づいていずれの利用者が発言したかを判別する。1つの利用者端末2に対して複数の利用者の音声が入力される場合には、音声分析部122は、既知の話者分離処理を実行することによって、1つの利用者端末2から取得した音声においていずれの利用者が発言をしたかを判別する。
【0040】
音声分析部122は、1人の利用者が発言を開始してから終了するまでの連続した期間を発言期間として特定し、記憶部11に記憶させる。また、音声分析部122は、時間ごとの各利用者の発言量を算出し、記憶部11に記憶させる。音声分析部122は、例えば、ある時間窓(例えば5秒間)において、利用者の発言を行った時間の長さを時間窓の長さで割った値を、時間ごとの発言量として算出する。
【0041】
音声分析部122は、音声会議の開始時刻から現在時刻(音声会議の終了後の分析の場合には終了時刻)まで、時間窓を所定の時間(例えば1秒)ずつずらしながら、各利用者について時間ごとの発言量の算出を繰り返す。そして音声分析部122は、ある発言期間の後に別の発言期間に切り替わった場合に、発言者の遷移を検出する。音声分析部122は、分析対象の議論において検出した遷移の発生時刻と、遷移元の利用者と、遷移先の利用者とを集計し、それらを関連付けて記憶部11に記憶させる。
【0042】
さらに、音声分析部122は、複数の音声会議それぞれにおいて発せられた音声を、過去に取得された音声パターン又は手本の音声パターンと比較することによって分析してもよい。この場合に、記憶部11は、過去に取得された音声パターン又は手本の音声パターンを予め記憶している。手本の音声パターンは、例えば手本とする人間による音声会議の音声パターンを予め取得すること等により作成された、手本とする人間の発言量の時系列データである。
【0043】
過去に取得された音声パターン又は手本の音声パターンは、例えば、教育、営業、面接等、音声会議の目的(音声会議の用途、音声会議の利用者の種類)ごとに定義される。音声分析部122は、利用者端末2又は管理者端末3から音声会議の目的の選択を予め受け付け、当該音声会議の音声から算出した各利用者の発言量を、目的ごとに異なる音声パターンと比較する。
【0044】
また、これらの音声パターンは、例えば、音声会議の期間ごとに定義されてもよい。音声分析部122は、利用者端末2又は管理者端末3から音声会議の予定時間(例えば、1時間)の指定を予め受け付け、当該音声会議の音声から算出した各利用者の発言量を、予定時間の中の期間(前半、中盤、後半等)ごとに異なる音声パターンと比較する。
【0045】
手本の音声パターンと比較する場合でいうと、例えば、教育を目的とする音声会議で、その利用者がすべて生徒である場合(典型的には、学生どうしのディベートに用いられる場合)には、各利用者からの発言量が予定時間中のいずれの期間においてもなるべく均一になることが望ましいと言えるので、比較される手本の音声パターンはそのようなものとなる。また、教育を目的とする音声会議であっても、その利用者の中に指導的役割を担う者がいる場合(典型的には、英会話学校等における、一人の講師と一人以上の生徒とからなる英会話クラスに用いられる場合)には、講師の発言量よりも生徒の発言量が多いことが望ましく、また生徒が複数人である場合には各生徒からの発言量はなるべく均一であることが望ましいと言えるので、比較される手本の音声パターンはそのようなものとなる。さらに、営業を目的とする音声会議である場合(典型的には、顧客への営業のための会議に用いられる場合)には、予定時間の中の前半から中盤にかけては、自社製品又はサービスの説明のために自社営業マンの発言量は多くても良いが、中盤から後半にかけては顧客の反応を聞き出すべく顧客の発言量が多くなることが望ましいと言えるので、比較される手本の音声パターンはそのようなものとなる。
【0046】
音声分析部122は、音声パターンが示す発言量の時系列データに対する、利用者の発言量の差の程度(例えば、音声パターンの発言量と利用者の発言量との差の累計値)を比較結果として算出し、記憶部11に記憶させる。
【0047】
提案部123は、音声分析部122による音声の分析結果に基づいて、複数の音声会議のいずれかへの介入を管理者端末3に対して提案する。音声会議への介入は、管理者が管理者端末3において文字又は音声の少なくとも一方を用いて音声会議に参加することをいう。提案部123は、例えば、音声分析部122による1つの音声会議の分析結果が所定の条件を満たした場合に、当該音声会議を介入対象として特定し、特定した介入対象の音声会議を表示制御部124により管理者端末3に通知する。提案部123は、例えば、音声会議に発言量が所定値以下である利用者がいる場合、音声会議に参加している複数の利用者の合計発言量が所定値以下である場合等に、当該音声会議を介入対象として提案する。
【0048】
表示制御部124は、音声分析部122による分析に基づいて、利用者端末2及び管理者端末3に、音声会議の状況及び分析結果を表示させる。表示制御部124による詳細な表示内容については、
図3~
図6を用いて後述する。
【0049】
利用者端末2は、表示部21と、音声入出力部22と、撮像部23と、操作部24とを有する。管理者端末3は、表示部31と、音声入出力部32と、撮像部33と、操作部34とを有する。表示部21、31は、情報を表示可能な液晶ディスプレイ等を含む。音声入出力部22、32は、音声を入力するためのマイクロフォン等、及び音声を出力するためのスピーカ等を含む。1つの利用者端末2に対して複数の利用者の音声が入力される場合には、音声分析部122で行う話者分離処理に応じて、音声入出力部22は、複数のマイクロフォンやマイクロフォンアレイ等で構成されても良い。撮像部23、33は、利用者又は管理者を撮像した撮像画像を出力するカメラ等を含む。操作部24、34は、人間による操作を受け付け可能なボタン、スイッチ、タッチパネル等を含む。
【0050】
本実施形態に係る音声会議装置1、利用者端末2及び管理者端末3は、
図2に示す具体的な構成に限定されない。音声会議装置1、利用者端末2及び管理者端末3は、それぞれ1つの装置に限られず、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。
【0051】
[音声会議方法の説明]
(利用者端末2の表示画面)
まず、音声会議装置1が利用者端末2に対して音声会議に関する情報を表示させる処理について以下に説明する。音声会議装置1において、表示制御部124は、利用者が参加可能な複数の音声会議に関する情報を含む音声会議一覧画面を利用者端末2に表示させる。
【0052】
以下の説明は、所定の音声会議の目的等で開催される音声会議に参加する複数の利用者を複数の部屋(仮想的な部屋)に分割して音声会議を行う場合のものである。すなわち、所定の音声会議の目的等で開催される音声会議(上位階層の音声会議)の中に各部屋(仮想的な部屋)が設けられ、各部屋(仮想的な部屋)において下位階層の複数の音声会議が開催される場合のものである。
【0053】
図3は、例示的な音声会議一覧画面を表示している利用者端末2の模式図である。利用者端末2は、音声会議装置1による制御に応じて、表示部21上に音声会議一覧画面を表示している。音声会議一覧画面は、複数の音声会議(部屋)それぞれに関連付けて、音声会議情報211と、入室ボタン212とを表している。音声会議情報211は、音声会議に参加している利用者の人数を表している。また、音声会議情報211は、音声会議に参加している利用者の名前、音声会議の目的等を表してもよい。
【0054】
利用者端末2の操作部24においていずれかの入室ボタン212を選択する操作が行われた場合に、音声会議部121は、利用者端末2の利用者を選択された入室ボタン212に対応する音声会議(部屋)に参加させ、音声会議を開始する。また、音声会議部121は、利用者端末2の利用者に、予め割り当てられた音声会議(部屋)に自動的に参加させてもよい。
【0055】
表示制御部124は、利用者が参加している音声会議に関する情報を含む音声会議画面を利用者端末2に表示させる。
図4は、例示的な音声会議画面を表示している利用者端末2の模式図である。利用者端末2は、音声会議装置1による制御に応じて、表示部21上に音声会議画面を表示している。
【0056】
音声会議画面は、利用者端末2の利用者が参加している音声会議(部屋)に関する、利用者画像213と、文字情報214と、入力欄215と、アクション欄216と、分析結果217とを表している。利用者画像213は、複数の利用者端末2それぞれの撮像部23が撮像した、利用者の撮像画像である。利用者端末2から撮像画像を取得できない場合や、利用者が撮像画像の公開を希望しない場合には、利用者画像213の位置に、所定の画像又は文字(利用者の名前等)が表されてもよい。
【0057】
文字情報214は、複数の利用者端末2それぞれの操作部24において入力されたメッセージを表している。また、文字情報214は、音声会議装置1が生成したメッセージ(例えば、後述の自動介入メッセージ)を表してもよい。
【0058】
入力欄215は、利用者が音声会議中のコメント(例えば、感想や注釈)を入力するための領域である。入力欄215に入力されたコメントは、入力された時刻と関連付けて音声会議装置1の記憶部11に記憶される。アクション欄216は、利用者が音声会議中にアクションを入力するための領域である。アクション欄216は、例えば、いいね、拍手、笑い等の複数のアクションに対応する複数のボタン(アイコン)を含んでいる。アクション欄216で入力されたアクションは、入力された時刻と関連付けて音声会議装置1の記憶部11に記憶される。
【0059】
分析結果217は、音声会議が継続している間に、音声会議装置1による当該音声会議における音声の分析結果を表している。表示制御部124は、音声会議が継続している間に、音声分析部122による分析結果に基づいて、2人の利用者の組み合わせごとに音声会議において開始時刻から現在時刻までに発生した遷移の回数(すなわち、複数の利用者の間のやり取りの程度)を示す矢印記号を、分析結果217として表す。分析結果217の矢印記号は、遷移の回数が多いほど太く、遷移の回数が少ないほど細く表示される。これにより、音声会議システムSは、利用者に対して、音声会議が継続している間に、当該音声会議における利用者間のやり取りの程度を視覚的に通知することができる。
【0060】
また、表示制御部124は、音声会議が継続している間に、音声分析部122による分析結果に基づいて、利用者の発言量に応じて利用者画像213の表示態様を変化させる。表示制御部124は、音声会議において開始時刻から現在時刻までの発言量を利用者ごとに合計する。そして表示制御部124は、1人の利用者の発言量(又は他の利用者と比較した発言の割合)が所定値以下である場合に、当該利用者の利用者画像213の色、大きさ、形状、枠線等を、他の利用者の利用者画像213とは異ならせる。これにより、音声会議システムSは、発言の少ない利用者に対して発言を促すことができる。
【0061】
また、表示制御部124は、複数の利用者端末2それぞれにおける分析結果217の表示の有無を切り替えてもよい。表示制御部124は、例えば、音声会議の目的に応じて、分析結果217の表示の有無を切り替える。また、表示制御部124は、予め記憶部11に記憶された利用者の習熟度合いや性格を示す情報を取得し、取得した習熟度合い又は性格が所定条件(例えば、上級者であること又は議論が得意な性格であること)を満たす利用者の利用者端末2にのみ、分析結果217を表示させてもよい。また、表示制御部124は、管理者が指定した利用者の利用者端末2にのみ、分析結果217を表示させてもよい。また、表示制御部124は、既知の視線検出方法によって利用者の視線方向を取得し、取得した視線方向が所定条件(例えば、分析結果217を所定時間以上注視していないこと)を満たす利用者の利用者端末2にのみ、分析結果217を表示させてもよい。
【0062】
次に、音声会議装置1が管理者端末3に対して音声会議に関する情報を表示させる処理について以下に説明する。音声会議装置1において、表示制御部124は、管理者が管理する複数の音声会議に関する情報を含む音声会議一覧画面を管理者端末3に表示させる。
【0063】
(管理者端末3の表示画面)
以下の説明も、所定の音声会議の目的等で開催される音声会議に参加する複数の利用者を複数の部屋(仮想的な部屋)に分割して音声会議を行う場合のものである。すなわち、所定の音声会議の目的等で開催される音声会議(上位階層の音声会議)の中に各部屋(仮想的な部屋)が設けられ、各部屋(仮想的な部屋)において下位階層の複数の音声会議が開催される場合のものである。
【0064】
なお、管理者が、複数の上位階層の音声会議を管理している場合には、下位階層で複数の音声会議が開催されている場合であっても、複数の上位階層の音声会議に関する情報を含む音声会議一覧画面を管理者端末3に表示させることを可能としても良い。この場合、上位階層の音声会議に関する情報として、当該上位階層の音声会議の中で行われている音声会議の情報を下位階層の区別をせずにすべて表示させるようにしても良いし、また、上位階層の音声会議の中の特定の下位階層の音声会議の情報を選択的に表示できるようにして、一の上位階層の音声会議の中の特定の下位階層の音声会議の情報と他の上位階層の音声会議の中の下位階層の音声会議の情報が表示できるようにしても良い。
【0065】
図5(a)、
図5(b)は、例示的な音声会議一覧画面を表示している管理者端末3の模式図である。管理者端末3は、音声会議装置1による制御に応じて、表示部31上に音声会議一覧画面を表示している。音声会議一覧画面は、管理者が管理している上位階層の音声会議に含まれている複数の下位階層の音声会議(部屋)それぞれに関連付けて、音声会議情報311と、分析結果312とを表している。音声会議情報311は、音声会議に参加している利用者の名前を表している。音声会議情報311は、音声会議に参加している利用者の人数、音声会議の目的等を表してもよい。分析結果312は、音声分析部122による音声会議の分析の結果を表している。また、音声会議一覧画面は、後述の提案情報313、介入ボタン314、比較情報315、及び再グループ化ボタン316を含む。
【0066】
表示制御部124は、複数の音声会議(部屋)それぞれに関連付けて、音声分析部122による当該音声会議において発せられた音声の分析結果312を管理者端末3に表示させる。表示制御部124は、複数の音声会議が継続している間に、複数の音声会議それぞれに関連付けて分析結果を管理者端末3に表示させることが望ましい。これにより、音声会議システムSは、管理者に対して現在開催されている複数の音声会議の状況を通知し、管理者が複数の音声会議への介入の要否を判断することを容易にすることができる。
【0067】
表示制御部124は、例えば、音声分析部122による分析結果に基づいて、1つの音声会議に参加している2人の利用者の組み合わせごとに当該音声会議において開始時刻から現在時刻までに発生した遷移の回数(すなわち、複数の利用者の間のやり取りの程度)を示す矢印記号を、分析結果312として表す。分析結果312の矢印記号は、遷移の回数が多いほど太く、遷移の回数が少ないほど細く表示される。これにより、音声会議システムSは、管理者に対して、音声会議が継続している間に、当該音声会議における利用者間のやり取りの程度を視覚的に通知することができる。
【0068】
表示制御部124は、例えば、音声分析部122による分析結果に基づいて、1つの音声会議(部屋)に参加している複数の利用者それぞれの発言量の時間変化を示す線グラフを、分析結果312として表す。表示制御部124は、縦軸に発言量を、横軸に時間をとって、各利用者について分析結果が示す時間ごとの発言量を折れ線グラフとして表示させる。このとき、表示制御部124は、各時点において利用者の発言量を互いに積み上げて、すなわち利用者の発言量を順に合計した値を、縦軸にとって表示する。これにより音声会議システムSは、音声会議が継続している間に、音声会議に参加している各利用者の発言量に加えて、音声会議全体の発言量を管理者に視覚的に通知することができる。
【0069】
表示制御部124は、例えば、音声分析部122による分析結果に基づいて、1つの音声会議に参加している複数の利用者それぞれの発言量の合計値を示す棒グラフを、分析結果312として表す。これにより音声会議システムSは、音声会議が継続している間に、各利用者の発言量の合計値を管理者に視覚的に通知することができる。
【0070】
表示制御部124は、管理者端末3の操作部34において分析結果312が含む矢印記号、線グラフ又は棒グラフを選択する操作が行われた場合に、選択された矢印記号、線グラフ又は棒グラフを拡大して詳細に表示してもよい。表示制御部124は、分析結果312として、矢印記号、線グラフ及び棒グラフに限られず、音声を分析することによって得られるその他の分析結果を、複数の音声会議(部屋)それぞれに関連付けて表示してもよい。
【0071】
表示制御部124は、提案部123が介入を提案している音声会議(部屋)を示す情報を、管理者端末3に表示させる。
図5(a)に示すように、表示制御部124は、管理者端末3が表示している音声会議一覧画面において、提案部123が介入を提案している音声会議を示す提案情報313を表示させる。表示制御部124は、例えば、提案部123が介入を提案している音声会議(部屋)を特定可能な文字を含むとともに、介入が必要な理由を説明する文字を含む提案情報313を表示させる。
【0072】
また、表示制御部124は、管理者端末3が表示している音声会議一覧画面が含む複数の音声会議のうち、提案部123が介入を提案している音声会議に対応する音声会議情報311の表示態様を、その他の音声会議に対応する音声会議情報311の表示態様とは異ならせる。
図5(a)の例では、表示制御部124は、表示態様として、音声会議情報311の枠線を変更しているが、音声会議情報311の色、大きさ、形状等を変更してもよい。
【0073】
図5(b)に示すように、表示制御部124は、音声分析部122が算出した比較結果を示す比較情報315を表示させてもよい。表示制御部124は、例えば、音声パターンとの比較を行った音声会議を特定可能な文字を含むとともに、比較結果を説明する文字を含む提案情報313を表示させる。また、表示制御部124は、管理者端末3だけでなく利用者端末2に、音声パターンに対する音声の比較結果を表示させてもよい。これにより音声会議システムSは、予め取得した音声パターンを基準とした音声の分析結果を管理者に提示し、管理者又は利用者が分析結果の解釈をしやすくできる。
【0074】
表示制御部124は、管理者端末3が表示している音声会議一覧画面において、音声分析部122による分析結果に加えて、音声会議が継続している間に利用者が入力したアクション及びコメントを表示してもよい。上述のように、アクションは、音声会議中に利用者端末2において利用者が入力した、いいね、拍手、笑い等の複数のアクションのうちいずれかであり、入力された時刻と関連付けて記憶部11に記憶されている。コメントは、音声会議中に利用者端末2において利用者が入力した感想や注釈等であり、入力された時刻と関連付けて記憶部11に記憶されている。
【0075】
図6は、分析結果上にアクション及びコメントを表示する方法を説明するための模式図である。表示制御部124は、例えば音声会議一覧画面が含む分析結果312において、発言量の時間変化を示す線グラフ上のアクション及びコメントが入力された時刻に対応する位置に、アクション及びコメントの内容を示す文字を表示させる。また、表示制御部124は、管理者端末3だけでなく利用者端末2に、アクション及びコメントを表示させてもよい。これにより音声会議システムSは、音声会議中に入力された利用者のアクション及びコメントとともに分析結果を提示し、管理者又は利用者が分析結果の解釈をしやすくできる。
【0076】
また、表示制御部124は、音声会議の継続中に、1つの利用者端末2において入力されたアクションを示す情報を、他の利用者端末2に表示させてもよい。これにより、利用者は、進行中の会話に割り込むことなく、同意等の意見を他の利用者に通知することができる。
【0077】
(利用者の分割処理)
管理者端末3の操作部34において
図5(a)、
図5(b)に示す音声会議一覧画面が含む再グループ化ボタン316を選択する操作が行われた場合に、音声会議装置1において、音声分析部122は、複数の音声会議の分析結果に基づいて、複数の利用者を、複数の音声会議を実行するための複数のグループに分割してもよい。すなわち、音声分析部122は、分析結果に基づいて、次回以降の音声会議を実行するために好ましい複数のグループを提案する。
【0078】
図7は、分析結果に基づいて複数の利用者を複数のグループに分割する方法を説明するための模式図である。音声分析部122は、複数の利用者を分割したグループG1、G2に対応する2つの音声会議の音声を分析した分析結果を、それぞれ記憶部11に記憶させたものとする。音声分析部122は、記憶部11に記憶された分析結果に基づいて、複数の利用者を新たなグループG1’、G2’に分割する。
【0079】
なお、ここでの説明は、グループG1、G2を新たなグループG1’、G2’とする、各部屋(仮想的な部屋)間(下位階層の音声会議間)での再グループ化を意味するが、再グループ化には、ある部屋(仮想的な部屋)の音声会議を更に細かな下位階層の音声会議に分割する内容を含むものであっても良い。
【0080】
音声分析部122は、例えば、分析結果に基づいて、1つのグループに属する複数の利用者の発言量又は発言の傾向が近くなるように、複数の利用者を複数のグループに分割する。この場合に、音声分析部122は、複数の利用者の発言量を既知の方法を用いてクラスタリングし、各クラスタをグループとする。
【0081】
また、音声分析部122は、例えば、音声会議において他人の発言の途中に割り込むことが多いことや、音声会議において、前半、中盤又は後半のいずれかにおいて発言が多いこと等の発言の傾向がある利用者同士を同じグループにしてもよい。逆に、音声分析部122は、1つのグループに属する複数の利用者の発言量又は発言の傾向が遠くなるように、複数の利用者を複数のグループに分割してもよい。
【0082】
また、音声分析部122は、分析結果に加えて、複数の利用者それぞれの属性に基づいて、複数の利用者を複数のグループに分割してもよい。利用者の属性は、例えば、利用者の学校の成績や、利用者に対して予め実施された性格診断の結果である。この場合に、音声分析部122は、1つのグループに属する複数の利用者の属性が近くなるように又は遠くなるように、複数の利用者を複数のグループに分割する。
【0083】
音声会議部121は、音声分析部122が生成した複数のグループそれぞれに含まれている複数の利用者が参加する音声会議を自動的に開始する。また、表示制御部124は、
図3の利用者端末2が表示している音声会議一覧画面において、利用者が含まれているグループに対応する音声会議を示す情報を表示することによって、利用者に対して参加すべき音声会議を通知してもよい。
【0084】
このように、音声会議システムSは、類似する利用者同士、又は類似しない利用者同士で音声会議を行うためのグループを提案することによって、利用者の学習や評価を効率的に行うことを可能にできる。
【0085】
(音声分析結果に基づく自動介入)
音声会議部121は、提案部123が介入を提案している音声会議(部屋)に対して、音声又は文字の少なくとも一方を用いて自動的に介入してもよい。この場合に、音声会議部121は、音声分析部122による分析結果に基づいて、介入内容を決定する。音声会議部121は、例えば、音声会議に発言量が所定値以下である利用者がいる場合に、利用者に対して発言を促すことを介入内容として決定する。また、音声会議部121は、例えば、音声会議に参加している複数の利用者の合計発言量が所定値以下である場合に、全員に対して発言を促すことを介入内容として決定する。
【0086】
そして音声会議部121は、介入内容を示す自動音声(機械音声)を生成して音声会議に参加している複数の利用者端末2に出力させ、又は介入内容を示す文字を生成して音声会議に参加している複数の利用者端末2に表示させる。これにより音声会議システムSは、音声の分析結果に基づいて介入が必要な音声会議に対して自動的に介入し、管理者の負担を軽減しながら音声会議を円滑化することができる。音声会議部121は、複数の利用者端末2のうち、所定の条件に基づいて選択された一部の利用者端末2にのみ、自動的に介入してもよい。この場合に、音声会議部121は、例えば、発言量が所定値以下である利用者の利用者端末2を介入対象として選択する。
【0087】
なお、音声会議部121は、介入に関して、音声若しくは文字の少なくとも一方に加えて又はそれらに代えて、利用者端末2で指定された画像(画像は静止画でも、動画でもよい。)及び管理者端末3で指定された画像の送受信を行ってもよいことは上述したとおりである。
【0088】
[音声会議のフロー]
図8は、音声会議装置1が実行する音声会議方法のフローチャートを示す図である。音声会議装置1において、表示制御部124は、利用者が参加可能な複数の音声会議に関する情報を含む音声会議一覧画面を利用者端末2に表示させる。
【0089】
音声会議部121は、利用者端末2の操作部24における操作に応じて、利用者のいずれかの音声会議への参加を受け付ける(S11)。音声会議部121は、音声会議に参加している複数の利用者の複数の利用者端末2との間で音声の授受を開始することによって、音声会議を開始する(S12)。
【0090】
音声分析部122は、複数の音声会議それぞれにおいて発せられた音声を分析する(S13)。音声分析部122は、例えば、複数の音声会議それぞれに関連付けて、複数の利用者それぞれの発言量を算出するとともに、複数の利用者間のやり取り(発言者の遷移)の程度を算出する。
【0091】
表示制御部124は、音声分析部122による分析結果を利用者端末2に表示させる(S14)。表示制御部124は、例えば、音声会議が継続している間に、音声分析部122による分析結果に基づいて、複数の利用者の間のやり取りの程度を示す矢印記号を利用者端末2に表示させる。また、表示制御部124は、例えば、音声会議が継続している間に、音声分析部122による分析結果に基づいて、利用者の発言量に応じて利用者画像の表示態様を変化させる。
【0092】
表示制御部124は、複数の音声会議それぞれに関連付けて、音声分析部122による当該音声会議において発せられた音声の分析結果312を管理者端末3に表示させる(S15)。表示制御部124は、例えば、音声会議が継続している間に、音声分析部122による分析結果に基づいて、複数の利用者の間のやり取りの程度を示す矢印記号を管理者端末3に表示させる。
【0093】
また、表示制御部124は、例えば、音声会議が継続している間に、音声分析部122による分析結果に基づいて、1つの音声会議に参加している複数の利用者それぞれの発言量の時間変化を示す線グラフを管理者端末3に表示させる。また、表示制御部124は、例えば、音声会議が継続している間に、音声分析部122による分析結果に基づいて、1つの音声会議に参加している複数の利用者それぞれの発言量の合計値を示す棒グラフを管理者端末3に表示させる。
【0094】
[本実施形態の効果]
本実施形態に係る音声会議システムSによれば、音声会議装置1は、複数の音声会議それぞれにおいて発せられた音声を分析し、複数の音声会議それぞれに関連付けて、音声の分析結果を管理者端末3に表示させる。これにより、音声会議システムSは、管理者に対して複数の音声会議の状況を俯瞰させることができ、管理者が複数の音声会議の状況を容易に知ることを可能にする。
【0095】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【0096】
音声会議装置1のプロセッサは、
図8に示す音声会議方法に含まれる各ステップ(工程)の主体となる。すなわち、音声会議装置1のプロセッサは、
図8に示す音声会議方法を実行するためのプログラムを記憶部11から読み出し、該プログラムを実行して音声会議装置1の各部を制御することによって、
図8に示す音声会議方法を実行する。
図8に示す音声会議方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
【符号の説明】
【0097】
S 音声会議システム
1 音声会議装置
12 制御部
121 音声会議部
122 音声分析部
123 提案部
124 表示制御部
2 利用者端末
3 管理者端末