(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-08
(45)【発行日】2023-06-16
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
H04N 7/15 20060101AFI20230609BHJP
G10L 21/0364 20130101ALI20230609BHJP
G10L 15/10 20060101ALI20230609BHJP
H04S 1/00 20060101ALI20230609BHJP
【FI】
H04N7/15
H04N7/15 150
G10L21/0364
G10L15/10 200W
H04S1/00 200
(21)【出願番号】P 2021157164
(22)【出願日】2021-09-27
【審査請求日】2022-03-16
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】上村 征幸
【審査官】川中 龍太
(56)【参考文献】
【文献】国際公開第2000/022823(WO,A1)
【文献】特開2015-070472(JP,A)
【文献】特開平11-234640(JP,A)
【文献】特開2012-165170(JP,A)
【文献】特開2007-300452(JP,A)
【文献】米国特許出願公開第2014/0368604(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/15
G10L 21/0364
G10L 15/10
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出手順と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御手順と、
をコンピュータに実行させる情報処理プログラム。
【請求項2】
前記算出手順は、
前記聞き手の視線を検出する検出部によって検出された視線の方向に基づいて、前記傾聴度合を算出する、
請求項1に記載の情報処理プログラム。
【請求項3】
前記算出手順は、
前記検出部によって検出された視線の方向に基づいて、前記聞き手に注視されている発言者を特定し、特定された発言者の前記傾聴度合を他の発言者の前記傾聴度合よりも高く算出する、
請求項2に記載の情報処理プログラム。
【請求項4】
前記補助制御手順は、
前記低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、前記聞き手に対して前記低傾聴発言者の発言への注意を促す強調処理を行う、
請求項1~3のいずれか1つに記載の情報処理プログラム。
【請求項5】
前記事前に設定された文字列は、
過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である、
請求項4に記載の情報処理プログラム。
【請求項6】
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう前記音声出力部を制御する、
請求項4または5に記載の情報処理プログラム。
【請求項7】
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対応する音源の位置を元の位置から前記高傾聴発言者の音声に対応する音源の位置へ変更するよう前記音声出力部を制御する、
請求項4~6のいずれか1つに記載の情報処理プログラム。
【請求項8】
前記補助制御手順は、
前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対する残響処理を行うことなく前記低傾聴発言者の音声を出力するよう前記音声出力部を制御する、
請求項4~7のいずれか1つに記載の情報処理プログラム。
【請求項9】
前記補助制御手順は、
前記強調処理として、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像のうち、前記低傾聴発言者の前記参加者画像を他の発言者の前記参加者画像よりも視覚的に強調して表示するよう前記表示部を制御する、
請求項4~8のいずれか1つに記載の情報処理プログラム。
【請求項10】
前記補助制御手順は、
前記強調処理として、前記検出された文字列に関する情報を表示するよう前記表示部を制御する、
請求項9に記載の情報処理プログラム。
【請求項11】
前記補助制御手順は、
前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、前記聞き手によって指定された前記低傾聴発言者に対応する個別録画画像を再生して表示するよう前記表示部を制御する、
請求項1~10のいずれか1つに記載の情報処理プログラム。
【請求項12】
前記補助制御手順は、
前記聞き手によって指定された再生時間における前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項11に記載の情報処理プログラム。
【請求項13】
前記補助制御手順は、
前記聞き手によって指定された再生速度で前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項11または12に記載の情報処理プログラム。
【請求項14】
前記補助制御手順は、
前記聞き手によって指定された前記低傾聴発言者に対応する前記表示領域に前記個別録画画像を再生して表示するよう前記表示部を制御する、
請求項11~13のいずれか1つに記載の情報処理プログラム。
【請求項15】
前記補助制御手順は、
前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう前記表示部を制御する、
請求項1~14のいずれか1つに記載の情報処理プログラム。
【請求項16】
前記リモート会議における発言ごとに、前記発言を文字変換した文字情報と、前記発言の発言時刻と、前記発言の発言者とを対応付けて記録した議事進捗情報を生成する生成手順をさらに備え、
前記補助制御手順は、
前記リモート会議の最中に、前記表示部に表示された前記議事進捗情報の中から、前記聞き手によって指定された前記発言の前記発言時刻を再生開始時刻として、前記再生開始時刻から前記全体録画画像を再生して表示するよう前記表示部を制御する、
請求項15に記載の情報処理プログラム。
【請求項17】
前記傾聴度合が所定の閾値を超える超傾聴発言者を複数の前記聞き手それぞれについて特定し、各聞き手を各聞き手について特定された前記超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する生成手順と、
をさらに備え、
前記補助制御手順は、
前記リモート会議の最中に、前記生成手順によって生成された前記クラスタ情報を表示するよう表示部を制御する、
請求項1~16のいずれか1つに記載の情報処理プログラム。
【請求項18】
前記リモート会議における参加者の音声データを取得する取得手順と、
前記音声データに基づいて、前記音声データの特徴を示す第1音声特徴データを生成する生成手順と、
をさらに備え、
前記補助制御手順は、
他の参加者の他の情報処理
装置が受信した前記音声データの特徴を示す第2音声特徴データと前記第1音声特徴データが一致しない場合に、前記参加者に対して通知を行う、
請求項1~17のいずれか1つに記載の情報処理プログラム。
【請求項19】
コンピュータが実行する情報処理方法であって、
複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出工程と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御工程と、
を含む情報処理方法。
【請求項20】
複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出部と、
前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御部と、
を備える情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、遠隔地にいる人同士が、電話回線やインターネット回線を用いてオンライン上で会議を行うリモート会議(遠隔会議)システムに関する技術が知られている。例えば、複数の拠点間で遠隔通話により会議を実施する電話会議システムにおいて、受話側で聞く発言者の音像位置を任意に設定するためのレンダリング処理手段を会議参加者側それぞれに設ける技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、リモート会議におけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、受話側で各発言者の音声を仮想的にそれぞれの発言者位置に自由に配置させるにすぎない。そのため、複数の発言者のうち、相対的に、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を聞き手が満足に聞くことが困難となる可能性がある。したがって、上記の従来技術では、リモート会議におけるユーザビリティが高いとは言えない場合がある。
【課題を解決するための手段】
【0005】
実施形態に係る情報処理プログラムは、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出手順と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御手順と、をコンピュータに実行させる。
また、前記算出手順は、前記聞き手の視線を検出する検出部によって検出された視線の方向に基づいて、前記傾聴度合を算出する。
また、前記算出手順は、前記検出部によって検出された視線の方向に基づいて、前記聞き手に注視されている発言者を特定し、特定された発言者の前記傾聴度合を他の発言者の前記傾聴度合よりも高く算出する。
また、前記補助制御手順は、前記低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、前記聞き手に対して前記低傾聴発言者の発言への注意を促す強調処理を行う。
また、前記事前に設定された文字列は、過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対応する音源の位置を元の位置から前記高傾聴発言者の音声に対応する音源の位置へ変更するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、前記複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部から出力される前記複数の発言者それぞれの音声のうち、前記低傾聴発言者の音声に対する残響処理を行うことなく前記低傾聴発言者の音声を出力するよう前記音声出力部を制御する。
また、前記補助制御手順は、前記強調処理として、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像のうち、前記低傾聴発言者の前記参加者画像を他の発言者の前記参加者画像よりも視覚的に強調して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記強調処理として、前記検出された文字列に関する情報を表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、前記聞き手によって指定された前記低傾聴発言者に対応する個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された再生時間における前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された再生速度で前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記聞き手によって指定された前記低傾聴発言者に対応する前記表示領域に前記個別録画画像を再生して表示するよう前記表示部を制御する。
また、前記補助制御手順は、前記リモート会議の最中に、表示部のそれぞれ異なる表示領域に表示される前記複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう前記表示部を制御する。
また、前記リモート会議における発言ごとに、前記発言を文字変換した文字情報と、前記発言の発言時刻と、前記発言の発言者とを対応付けて記録した議事進捗情報を生成する生成手順をさらに備え、前記補助制御手順は、前記リモート会議の最中に、前記表示部に表示された前記議事進捗情報の中から、前記聞き手によって指定された前記発言の前記発言時刻を再生開始時刻として、前記再生開始時刻から前記全体録画画像を再生して表示するよう前記表示部を制御する。
また、前記傾聴度合が所定の閾値を超える超傾聴発言者を複数の前記聞き手それぞれについて特定し、各聞き手を各聞き手について特定された前記超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する生成手順と、をさらに備え、前記補助制御手順は、前記リモート会議の最中に、前記生成手順によって生成された前記クラスタ情報を表示するよう表示部を制御する。
また、前記リモート会議における参加者の音声データを取得する取得手順と、前記音声データに基づいて、前記音声データの特徴を示す第1音声特徴データを生成する生成手順と、をさらに備え、前記補助制御手順は、他の参加者の他の情報処理装置が受信した前記音声データの特徴を示す第2音声特徴データと前記第1音声特徴データが一致しない場合に、前記参加者に対して通知を行う。
また、実施形態に係る情報処理方法は、コンピュータが実行する情報処理方法であって、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出工程と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御工程と、を含む。
また、実施形態に係る情報処理装置は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による前記複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を前記複数の発言者それぞれについて算出する算出部と、前記傾聴度合が高い高傾聴発言者と比べて、前記傾聴度合が低い低傾聴発言者の発言を、前記聞き手にとって聞きやすくする補助機能を提供する補助制御部と、を備える。
【図面の簡単な説明】
【0006】
【
図1】
図1は、実施形態に係る情報処理システムの構成例を示す図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成例を示す図である。
【
図3】
図3は、実施形態に係る画面の一例を示す図である。
【
図4】
図4は、実施形態に係る複数音声の3次元配置の一例を示す図である。
【
図5】
図5は、実施形態に係る傾聴度合について説明するための図である。
【
図6】
図6は、実施形態に係る補助機能の一例を示す図である。
【
図7】
図7は、実施形態に係る補助機能の一例を示す図である。
【
図8】
図8は、実施形態に係る情報処理手順を示す図である。
【
図9】
図9は、変形例に係る補助機能の一例を示す図である。
【
図10】
図10は、変形例に係る補助機能の一例を示す図である。
【
図11】
図11は、変形例に係る補助機能の一例を示す図である。
【
図12】
図12は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0007】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0008】
(実施形態)
〔1.情報処理システムの構成例〕
図1は、実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、リモート会議サービスの利用者によって利用される情報処理装置100と、リモート会議サービスを提供する配信サーバ200とを備える。情報処理装置100と配信サーバ200とは所定のネットワークNを介して、有線または無線により通信可能に接続される。なお、
図1に示す情報処理システム1には、任意の数の情報処理装置100と任意の数の配信サーバ200とが含まれてもよい。以下では、リモート会議の一例として、Web会議(オンライン会議ともいう)の場合について説明する。
【0009】
情報処理装置100は、Web会議サービスの利用者によって利用される情報処理装置である。情報処理装置100は、例えば、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。なお、以下では、Web会議サービスの利用者のうち、所定のWeb会議に参加している利用者のことを「参加者」と記載する。
【0010】
また、情報処理装置100には、Web会議サービスを利用するためのアプリケーション(以下、「Web会議アプリ」ともいう)がインストールされている。情報処理装置100は、Web会議アプリをインストールした利用者(後の参加者)を識別可能な参加者識別情報(例えば、ID)を発行する。また、情報処理装置100は、参加者識別情報とともに、参加者に関する基本情報である参加者情報(参加者の本人情報、会議における参加者の役割(「プレゼンター」、「参加者」等)、デバイスおよびアプリケーションに関する情報、IPアドレス、設定キーワード等)をメタデータとして配信サーバ200に送信する。
【0011】
配信サーバ200は、Web会議サービスを提供するサーバ装置である。具体的には、配信サーバ200は、複数の参加者それぞれの参加者情報を複数の参加者それぞれの情報処理装置100から受信する。続いて、配信サーバ200は、参加者全員の参加者情報を集約した会議メタデータを生成する。続いて、配信サーバ200は、会議メタデータを生成すると、生成した会議メタデータを複数の参加者それぞれの情報処理装置100に送信する。また、配信サーバ200は、参加者情報がアップデートされた場合、更新された会議メタデータをその都度生成し、複数の参加者それぞれの情報処理装置100に送信する。
【0012】
また、配信サーバ200は、参加者全員の参加者情報に基づいて、各参加者の氏名、所属団体(社名、所属部署等)を設定キーワードとして取得する。また、配信サーバ200は、参加者全員の参加者情報に基づいて、参加者によってあらかじめ設定されたキーワードを設定キーワードとして取得する。なお、設定キーワードは、単語に限らず、フレーズ等の文章であってもよい。また、配信サーバ200は、会議での頻出ワード、呼びかけ語(「ちょっといいですか」等)を設定キーワードとして取得する。なお、設定キーワードの取得は、配信サーバ200内に設けられた学習部が、過去のWeb会議において設定されたキーワードを教師データとして機械学習し、その学習結果に基づいて取得してもよい。配信サーバ200は、設定キーワードを取得すると、各参加者の設定キーワードと各参加者の参加者識別情報とを対応付けたキーワードリストを生成する。配信サーバ200は、キーワードリストを生成すると、生成したキーワードリストを複数の参加者それぞれの情報処理装置100に送信する。
【0013】
また、情報処理装置100は、カメラ、マイク、スピーカー等の各種センサの機能を有するデバイスを備える。なお、以下では、情報処理装置100を使用している参加者のことを「本人」と記載する場合がある。例えば、情報処理装置100は、マイクが検出した参加者(本人)の音声に関する音声データおよびカメラが検出した参加者(本人)の画像データを参加者識別情報とともに配信サーバ200に送信する。以下では、画像データが映像(動画像ともいう)である場合について説明する。なお、画像データには、静止画像が含まれてよい。
【0014】
また、配信サーバ200は、Web会議に参加する複数の参加者それぞれの音声に関する音声データを複数の参加者それぞれの情報処理装置100から受信する。続いて、配信サーバ200は、受信した音声データを参加者(本人)以外の他の参加者の情報処理装置100に送信する。また、配信サーバ200は、複数の参加者それぞれの画像データを複数の参加者それぞれの情報処理装置100から受信する。続いて、配信サーバ200は、受信した画像データを参加者(本人)以外の他の参加者の情報処理装置100に送信する。なお、配信サーバ200は、参加者(本人)の画像データを配信しない場合、デフォルトの画像データ(例えば、参加者(本人)の名前やイニシャルを示す文字を含む画像データ)または参加者(本人)による設定等により登録された画像データを他の参加者の情報処理装置100に送信する。
【0015】
また、情報処理装置100は、画面を備え、配信サーバ200から受信した他の参加者の画像を画面に表示する。具体的には、情報処理装置100は、Web会議における複数の参加者それぞれの参加者画像を含む全画面画像を画面に表示する。また、情報処理装置100は、Web会議における複数の参加者それぞれの参加者画像を画面のそれぞれ異なる表示領域に表示する。
【0016】
また、情報処理装置100は、例えば、複数のスピーカーを備え、配信サーバ200から受信した他の参加者の音声を複数のスピーカーそれぞれから出力する。具体的には、情報処理装置100は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を複数のスピーカーそれぞれから出力する。ここで、発言者の人数とスピーカーの台数は、異なってよい。より具体的には、複数のスピーカーから出力される音像の中で、複数の発言者それぞれの音像の配置関係が定位される。例えば、右のスピーカーから聞こえるような定位であっても、左のスピーカーからも音量をぐっと下げたり、遅延を設けたりすることで音飛来の方向を聞き手に感知させることができる。すなわち、スピーカーの台数は、発言者の人数より少なくてよい。あるいは、スピーカーの台数は、発言者の人数より多くてもよい。このように、情報処理装置100は、複数の発言者それぞれの音声の音源を3次元的に異なる位置に配置することで、聞き手にとって、複数の発言者それぞれの音声を聞き分けやすくすることができる。なお、情報処理装置100は、複数のスピーカーの代わりに、イヤホン(ヘッドホン)を備え、配信サーバ200から受信した他の参加者の音声をイヤホン(ヘッドホン)から出力してもよい。
【0017】
例えば、情報処理装置100は、会議の開始時は、会議メタデータに基づいて、複数の発言者それぞれの音声の音源の位置(定位ともいう)、音量、および音声加工(残響処理等)の有無を決定する。また、情報処理装置100は、会議中は、複数の発言者の発言を聞いている聞き手の複数の発言者それぞれに対する傾聴の度合いを示す傾聴度合に基づいて、複数の発言者それぞれの音声の定位、音量、および音声加工の有無を決定する。また、情報処理装置100は、複数の発言者それぞれの音声が、それぞれの音声について決定された音声の定位から、それぞれの音声について決定された音量および音声加工された状態で聞こえるように、複数の発言者それぞれの音声を出力する。なお、傾聴度合についての詳細は後述する。また、情報処理装置100は、利用者のアプリケーションの設定により、複数音声の分離加減(定位分離、音量、残響音のメリハリ具合)を変更する。
【0018】
以下では、参加者ID「U1」により特定される参加者を「参加者U1」とする場合がある。このように、以下では、「参加者U*(*は任意の数値)」と記載した場合、その参加者は参加者ID「U*」により特定される参加者であることを示す。例えば、「参加者U2」と記載した場合、その参加者は参加者ID「U2」により特定される参加者である。
【0019】
また、以下では、情報処理装置100を利用する参加者に応じて、情報処理装置100を情報処理装置100-1、100-2として説明する。例えば、情報処理装置100-1は、参加者U1により使用される情報処理装置100である。また、例えば、情報処理装置100-2は、参加者U2により使用される情報処理装置100である。また、以下では、情報処理装置100-1、100-2について、特に区別なく説明する場合には、情報処理装置100と記載する。
【0020】
なお、上述した実施形態では、リモート会議がWeb会議である場合について説明したが、本実施形態に係るリモート会議は、Web会議に限られない。例えば、本実施形態に係るリモート会議は、Web会議の他にも、テレビ会議または電話会議であってもよい。
【0021】
〔2.情報処理装置の構成例〕
図2は、実施形態に係る情報処理装置100の構成例を示す図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、表示部130と、音声出力部140と、検出部150と、制御部160とを有する。なお、情報処理装置100は、情報処理装置100の利用者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
【0022】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークN(図示略)と有線又は無線で接続され、例えば、配信サーバ200や他の情報処理装置100との間で情報の送受信を行う。
【0023】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、各種プログラム(情報処理プログラムの一例に相当)を記憶する。例えば、記憶部120は、Web会議アプリのプログラムを記憶する。
【0024】
また、記憶部120は、各種データを記憶する。例えば、記憶部120は、会議制御部161が取得した会議メタデータを記憶する。また、記憶部120は、生成部163が生成した議事進捗情報を記憶する。また、記憶部120は、マイクに入力された参加者の音声データを記憶する。また、記憶部120は、カメラによって撮影された参加者の画像データを記憶する。また、記憶部120は、参加者の画像を録画した録画データを記憶する。また、記憶部120は、会議制御部161が取得した他の参加者の音声データを記憶する。また、記憶部120は、会議制御部161が取得した他の参加者の画像データを記憶する。また、記憶部120は、会議制御部161が取得した他の参加者の画像を録画した録画データを記憶する。
【0025】
(表示部130)
表示部130は、ディスプレイ等の画像出力デバイスによって実現される。表示部130は、会議制御部161または補助制御部165の制御に従って、各種情報を表示する。なお、情報処理装置100にタッチパネルが採用される場合には、入力部と表示部130とは一体化される。また、以下の説明では、表示部130を画面と記載する場合がある。
【0026】
具体的には、表示部130は、Web会議における複数の参加者それぞれの参加者画像をそれぞれ異なる表示領域に表示する。例えば、表示部130は、会議制御部161の制御に従って、会議制御部161が取得した複数の参加者それぞれの参加者画像をそれぞれ異なる表示領域に表示する。
【0027】
また、表示部130は、Web会議における複数の参加者それぞれの参加者画像を含む全画面画像をさらに表示する。例えば、表示部130は、会議制御部161の制御に従って、会議制御部161が取得した複数の参加者それぞれの参加者画像を含む全画面画像を表示する。
【0028】
(音声出力部140)
音声出力部140は、スピーカー等の音声出力デバイスによって実現される。音声出力部140は、例えば、聞き手の左右に配置された2つのスピーカーによって実現される。例えば、音声出力部140は、聞き手の情報処理装置100から見て所定距離だけ左の位置に設置されたスピーカー(以下、左スピーカーともいう)および情報処理装置100本体から見て所定距離だけ右の位置に設置されたスピーカー(以下、右スピーカーともいう)によって実現される。例えば、音声出力部140は、ステレオ方式により、左右2つのスピーカーによって音声を出力する。
【0029】
また、音声出力部140は、Web会議における複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。例えば、音声出力部140は、会議制御部161の制御に従って、会議制御部161が取得した複数の発言者それぞれの音声が、それぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。また、以下の説明では、音声出力部140をスピーカーと記載する場合がある。
【0030】
(検出部150)
検出部150は、各種センサデバイスによって実現される。例えば、検出部150は、音センサであるマイク等の集音デバイスによって実現される。音センサは、参加者の音声などを集音し、集音した音声データを制御部160に出力する。また、以下の説明では、音センサをマイクと記載する場合がある。
【0031】
また、検出部150は、画像センサであるカメラ等の撮像デバイスによって実現される。画像センサは、参加者などの画像を撮影し、撮影した画像データを制御部160に出力する。また、以下の説明では、画像センサをカメラと記載する場合がある。
【0032】
また、検出部150は、聞き手の視線を検出する。具体的には、検出部150は、公知の視線検出技術を用いて、聞き手の視線を検出する。例えば、検出部150は、カメラによって取得された聞き手の画像に含まれる聞き手の目の目頭と虹彩の位置関係に基づいて、聞き手の視線の方向を特定する。
【0033】
あるいは、検出部150は、赤外線LEDおよび赤外線カメラを備える。検出部150は、赤外線LEDで聞き手の顔を照らした状態で、赤外線カメラによって聞き手の顔を撮影する。検出部150は、赤外線カメラによって取得された聞き手の画像に含まれる聞き手の目の角膜反射と瞳孔の位置関係に基づいて、聞き手の視線の方向を特定してもよい。
【0034】
(制御部160)
制御部160は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報処理装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。
【0035】
図2に示すように、制御部160は、会議制御部161と、算出部162と、生成部163と、取得部164と、補助制御部165とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部160の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0036】
(会議制御部161)
会議制御部161は、入力部を介して参加者の操作を受け付けると、Web会議アプリを起動する。また、会議制御部161は、Web会議アプリを起動すると、カメラおよびマイクを起動する。続いて、会議制御部161は、マイクが検出した参加者(本人)の音声に関する音声データおよびカメラが検出した参加者(本人)の画像データを参加者識別情報とともに配信サーバ200に送信する。
【0037】
また、会議制御部161は、参加者識別情報とともに、参加者に関する基本情報である参加者情報(参加者の本人情報、会議における参加者の役割(「プレゼンター」、「参加者」等)、デバイスおよびアプリケーションに関する情報、IPアドレス等)をメタデータとして配信サーバ200に送信する。
【0038】
また、会議制御部161は、配信サーバ200から会議メタデータを取得する。例えば、会議制御部161は、参加者U11および参加者U21~U23の4名の参加者によるWeb会議の会議メタデータを取得する。会議制御部161は、会議メタデータを取得すると、会議メタデータに基づいて、会議の開始時における複数の発言者それぞれの参加者画像の配置を決定する。
【0039】
図3は、実施形態に係る画面の一例を示す図である。
図3では、参加者U11および参加者U21~U23の4名の参加者が参加するWeb会議において、3名の発言者である参加者U21~U23(以下、発言者U21~U23ともいう)の発言を聞いている聞き手である参加者U11(以下、聞き手U11ともいう)の情報処理装置100-11の画面の一例を示す。会議制御部161は、
図3に示すような画面を表示部130-11に表示する。
【0040】
図3では、会議制御部161は、Web会議における3名の参加者U21~U23それぞれの参加者画像G21~G23を配信サーバ200から取得する。続いて、会議制御部161は、3名の参加者U21~U23それぞれの参加者画像G21~G23を画面のそれぞれ異なる表示領域F21~F23に表示する。
図3に示す例では、会議制御部161は、会議メタデータのうち、会議における参加者の役割を示す情報に基づいて、会議の開始時における参加者U21~U23それぞれの参加者画像G21~G23を表示する表示領域F21~F23の位置を決定する。
【0041】
例えば、会議制御部161は、参加者U21の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者U21の参加者画像G21を中央の表示領域F21に配置することを決定する。また、会議制御部161は、表示領域F21に参加者U21の音源の位置を示すアイコンG211を表示する。
【0042】
また、会議制御部161は、残りの参加者U22(参加者U23)の役割が「参加者」であることに基づいて、会議の開始時における参加者U22(参加者U23)の参加者画像G22(参加者画像G23)を中央より右の表示領域F22(中央より左の表示領域F23)に配置することを決定する。また、会議制御部161は、表示領域F22(表示領域F23)に参加者U22(参加者U23)の音源の位置を示すアイコンG221(アイコンG231)を表示する。
【0043】
また、会議制御部161は、参加者U21~U23それぞれの参加者画像G21~G23を含む全画面画像G11を画面に表示する。なお、全画面画像G11のうち、参加者画像G21~G23以外の領域には、会議に関する資料等が表示されるが、
図3では描画を省略する。
【0044】
図4は、実施形態に係る複数音声の3次元配置の一例を示す図である。
図4では、参加者U11および参加者U21~U23の4名の参加者が参加するWeb会議において、3名の発言者U21~U23の発言を聞いている聞き手である参加者U11にとっての3名の発言者U21~U23それぞれの音声の音源の配置の一例を示す。
【0045】
図4に示す例では、聞き手U11の情報処理装置100-11から見て所定距離だけ左の位置に左スピーカー140-11-Lが配置されている。また、聞き手U11の情報処理装置100-11から見て所定距離だけ右の位置に右スピーカー140-11-Rが配置されている。また、情報処理装置100-11の表示部130-11には、発言者U21~U23の参加者画像G21~G23がそれぞれ異なる表示領域に表示されている。また、情報処理装置100-11の表示部130-11の上部には、検出部150-11を構成するカメラが設置されている。
【0046】
図4では、会議制御部161は、Web会議における3名の発言者U21~U23それぞれの音声データを配信サーバ200から取得する。続いて、会議制御部161は、複数の発言者U21~U23それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者U21~U23それぞれの音声を出力する。
図4に示す例では、会議制御部161は、会議メタデータのうち、会議における参加者の役割を示す情報に基づいて、会議の開始時における複数の発言者それぞれの音声の音源の位置(定位ともいう)、音量、および音声加工(残響処理等)の有無を決定する。
【0047】
例えば、会議制御部161は、参加者U21の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者U21の音声の音源を聞き手U11にとって最も聞きやすい目の前(中央)の位置に配置することを決定する。また、会議制御部161は、残りの参加者U22(参加者U23)の役割が「参加者」であることに基づいて、会議の開始時における参加者U22(参加者U23)の音声の音源を参加者U21の音声よりも聞きにくい中央より右の位置(中央より左の位置)に配置することを決定する。
【0048】
また、会議制御部161は、参加者U21の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者U21の音声の音量を、聞き手U11にとって最も聞きやすい大きい音量(例えば、「10」)にすることを決定する。また、会議制御部161は、残りの参加者U22(参加者U23)の役割が「参加者」であることに基づいて、会議の開始時における参加者U22(参加者U23)の音声の音量を参加者U21の音声の音量よりも小さい音量(例えば、「7」)にすることを決定する。
【0049】
また、一般的に、複数の音声のうち、一部の音声に対して音声加工(例えば、残響処理)を施すと、音声加工を施さない音声に対して脳が集中しやすくなることが知られている。そこで、会議制御部161は、参加者U21の役割が「プレゼンター」であることに基づいて、会議の開始時における参加者U21の音声に対する残響処理を行わないことを決定する。また、会議制御部161は、残りの参加者U22(参加者U23)の役割が「参加者」であることに基づいて、会議の開始時における参加者U22(参加者U23)の音声に対する残響処理を行うことを決定する。
【0050】
(算出部162)
算出部162は、複数の参加者が参加するWeb会議において、複数の発言者の発言を聞いている聞き手による複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する。具体的には、算出部162は、検出部150によって検出された視線の方向に基づいて、傾聴度合を算出する。より具体的には、算出部162は、検出部150によって検出された視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。
【0051】
図5は、実施形態に係る傾聴度合について説明するための図である。
図5は、
図4における傾聴度合について説明する。
図5では、算出部162は、検出部150によって検出された聞き手U11の視線の方向に基づいて、聞き手U11に注視されている発言者U21を特定し、特定された発言者U21の傾聴度合を他の発言者U22およびU23の傾聴度合よりも高く算出する。例えば、算出部162は、聞き手U11に注視されている発言者U21の傾聴度合を他の発言者U22およびU23の傾聴度合である「70」よりも高い「100」と算出する。また、以下では、他の発言者と比べて、相対的に傾聴度合が高い発言者を「高傾聴発言者」と記載する。また、他の発言者と比べて、相対的に傾聴度合が低い発言者を「低傾聴発言者」と記載する。
図4および
図5に示す例では、他の発言者U22およびU23と比べて、相対的に傾聴度合が高い発言者U21が高傾聴発言者である。また、他の発言者U21と比べて、相対的に傾聴度合が低い発言者U22およびU23が低傾聴発言者である。
【0052】
(生成部163)
生成部163は、Web会議における発言ごとに、発言を文字変換した文字情報と、発言の発言時刻と、発言の発言者とを対応付けて記録した議事進捗情報を生成する。例えば、生成部163は、会議制御部161が取得した他の参加者の音声データおよび検出部150のマイクが検出した参加者の音声データに基づいて、公知の音声認識技術を用いて、各発言に対応する音声データを文字変換した文字情報を生成する。また、生成部163は、会議制御部161が他の参加者の音声データとともに取得した他の参加者の参加者識別情報に基づいて、各発言の発言者を特定する。また、生成部163は、会議制御部161が取得した他の参加者の音声データの取得時刻(発言時刻に相当)および検出部150のマイクが検出した参加者の音声データの取得時刻(発言時刻に相当)に基づいて、各発言の発言時刻を特定する。続いて、生成部163は、各発言を文字変換した文字情報と、各発言の発言時刻と、各発言の発言者とを対応付けて記録した議事進捗情報を生成する。生成部163は、議事進捗情報を生成すると、生成した議事進捗情報を記憶部120に記憶する。
【0053】
(取得部164)
取得部164は、Web会議の前に、事前に設定されたキーワードやフレーズ等である設定キーワードを取得する。例えば、取得部164は、配信サーバ200からキーワードリストを取得する。続いて、取得部164は、キーワードリストを取得すると、取得したキーワードリストに基づいて、参加者の参加者識別情報と対応付けられた設定キーワードを取得する。
【0054】
(補助制御部165)
補助制御部165は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する。具体的には、補助制御部165は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。
【0055】
図6は、実施形態に係る補助機能の一例を示す図である。
図6は、発言者U22の発言に聞き手U11の設定キーワードである「キーワード#1」(例えば、「キーワード#1」は、聞き手U11の名前であってよい。)が含まれる点が
図4と異なる。補助制御部165は、記憶部120を参照して、
図4における低傾聴発言者である発言者U22の発言を文字変換した文字情報の中から、聞き手U11の設定キーワードである「キーワード#1」と一致する文字列を検出する。
【0056】
補助制御部165は、発言者U22の発言に聞き手U11の設定キーワードである「キーワード#1」と一致する文字列を検出した場合に、強調処理の一例として、低傾聴発言者である発言者U22の音声の音量を他の発言者U21およびU23の音声の音量よりも大きくして出力するよう音声出力部140を制御する。例えば、補助制御部165は、低傾聴発言者である発言者U22の音声の音量を、聞き手U11にとって最も聞きやすい大きい音量(例えば、「10」)にして出力するよう音声出力部140を制御する。また、補助制御部165は、他の発言者U21およびU23の音声の音量を、発言者U22の音声の音量よりも小さい音量(例えば、「7」)にして出力するよう音声出力部140を制御する。
【0057】
また、補助制御部165は、強調処理の一例として、低傾聴発言者である発言者U22の音声に対する残響処理を行うことなく発言者U22の音声を出力するよう音声出力部140を制御する。また、補助制御部165は、強調処理の一例として、他の発言者U21およびU23の音声に対する残響処理を行った状態で他の発言者U21およびU23の音声を出力するよう音声出力部140を制御する。
【0058】
また、補助制御部165は、強調処理の一例として、複数の参加者画像のうち、低傾聴発言者である発言者U22の参加者画像G22を視覚的に強調して表示するよう表示部130を制御する。例えば、補助制御部165は、低傾聴発言者である発言者U22の参加者画像G22をハイライト表示または点滅表示するよう表示部130を制御する。
【0059】
なお、
図6では図示を省略するが、補助制御部165は、強調処理の一例として、検出された文字列に関する情報を表示するよう表示部130を制御してもよい。
図6の例では、補助制御部165は、検出された設定キーワードである「キーワード#1」を表示するよう表示部130を制御する。
【0060】
図7は、実施形態に係る補助機能の一例を示す図である。
図7は、
図4における低傾聴発言者である発言者U22の音声に対応する音源の位置と
図4における高傾聴発言者であるU21の音声に対応する音源の位置が入れ替わっている点が
図6と異なる。
【0061】
補助制御部165は、発言者U22の発言に聞き手U11の設定キーワードである「キーワード#1」と一致する文字列を検出した場合に、強調処理の一例として、低傾聴発言者である発言者U22の音声に対応する音源の位置を元の位置(
図4および
図6における「右」の位置)から高傾聴発言者である発言者U21の音声に対応する音源の位置(
図4および
図6における「中央」の位置)へ変更するよう音声出力部140を制御する。
【0062】
また、補助制御部165は、強調処理の一例として、複数の参加者画像のうち、低傾聴発言者である発言者U22の参加者画像G22の表示位置を元の位置(
図4および
図6における「右」の位置)から高傾聴発言者である発言者U21の参加者画像G21の表示位置(
図4および
図6における「中央」の位置)へ変更するよう表示部130を制御する。
【0063】
なお、上述した実施形態では、補助制御部165が、低傾聴発言者の発言の中に設定キーワードと一致する文字列を検出した場合に、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者に対応する音源の位置へ変更するよう音声出力部140を制御する場合について説明したが、発言者の定位位置を変更するトリガーは、設定キーワードの検出に限られない。具体的には、検出部150は、聞き手の視線の方向の変化を検出する。例えば、検出部150は、聞き手の視線の方向が高傾聴発言者から低傾聴発言者へ変化したことを検出する。補助制御部165は、検出部150によって検出された聞き手の視線の方向の変化に基づいて、聞き手に注視され始めた低傾聴発言者を特定する。続いて、補助制御部165は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたか否かを判定する。補助制御部165は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたと判定した場合、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者に対応する音源の位置へ変更するよう音声出力部140を制御する。
【0064】
なお、算出部162は、補助制御部165の代わりに、検出部150によって検出された聞き手の視線の方向の変化に基づいて、聞き手に注視され始めた低傾聴発言者を特定してもよい。続いて、算出部162は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたか否かを判定する。続いて、算出部162は、特定された低傾聴発言者を聞き手が注視している時間の長さが所定の閾値を超えたと判定した場合、特定された低傾聴発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。すなわち、算出部162は、聞き手によって注視されている時間の長さが所定の閾値を超えた発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。つまり、聞き手によって注視されている時間の長さが所定の閾値を超えた発言者は、低傾聴発言者から高傾聴発言者へと変更されてもよい。補助制御部165は、算出部162によって算出された傾聴度合に基づいて、新たに高傾聴発言者へと変更された発言者(元の低傾聴発言者)の音声に対応する音源の位置を元の位置から元の高傾聴発言者に対応する音源の位置へ変更するよう音声出力部140を制御してもよい。
【0065】
〔3.情報処理手順〕
図8は、実施形態に係る情報処理手順を示す図である。
図8に示すように、情報処理装置100の検出部150は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手の視線を検出する(ステップS101)。
【0066】
情報処理装置100の算出部162は、複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する(ステップS102)。例えば、算出部162は、検出部150が検出した視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。
【0067】
情報処理装置100の補助制御部165は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する(ステップS103)。例えば、補助制御部165は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。
【0068】
〔4.変形例〕
上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
【0069】
〔4-1.タイムシフト再生〕
図9は、変形例に係る補助機能の一例を示す図である。
図9では、聞き手U11が低傾聴発言者である発言者U22の発言を聞き逃してしまったとする。そこで、聞き手U11は、聞き逃してしまった発言者U22の参加者画像を録画した個別録画画像G22´を巻き戻して高速で再生する操作を行う。例えば、聞き手U11は、
図3に示す画面において、低傾聴発言者である発言者U22の画像G22を選択する操作(クリックまたはタップなどの操作)を行ったとする。なお、聞き手U11が発言者U22を指定する操作は、発言者U22の画像G22を選択する操作に限られない。例えば、聞き手U11が発言者U22を指定する操作は、聞き手U11が専用のフィールドに発言者U22を識別可能な情報を入力することによって行われてもよい。
【0070】
補助制御部165は、Web会議の最中に、複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、聞き手U11によって指定された低傾聴発言者である発言者U22に対応する個別録画画像G22´を再生して表示するよう表示部130を制御する。具体的には、補助制御部165は、聞き手U11から個別録画画像を再生したい発言者の指定を受け付けると、聞き手U11によって指定された発言者U22に対応する個別録画画像G22´を配信サーバ200から取得する。続いて、補助制御部165は、聞き手U11よって指定された低傾聴発言者である発言者U22の画像の表示領域F22に個別録画画像G22´を再生して表示するよう表示部130を制御する。なお、配信サーバ200は、複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像を記憶する。そして、配信サーバ200は、聞き手によって指定された個別録画画像を情報処理装置100にストリーミング配信してもよい。例えば、補助制御部165は、聞き手U11から個別録画画像を再生したい発言者の指定を受け付けると、配信サーバ200からストリーミング配信された個別録画画像G22´を表示するよう表示部130を制御する。
【0071】
また、補助制御部165は、聞き手U11によって指定された再生速度「1.5倍速」で個別録画画像G22´を再生して表示するよう表示部130を制御する。
図9に示す個別録画画像G22´には、聞き手U11によって指定された再生速度「1.5倍速」を示すアイコンG222が含まれる。また、個別録画画像G22´には、聞き手U11によって指定されていないが、選択可能な再生速度「1.0倍速」を示すアイコンG223および再生速度「2.0倍速」を示すアイコンG224が含まれる。
【0072】
また、補助制御部165は、聞き手U11によって指定された再生時間「30秒」における個別録画画像G22´を再生して表示するよう表示部130を制御する。
図9に示す個別録画画像G22´には、聞き手U11によって指定された再生時間「30秒」を示すアイコンG225が含まれる。また、個別録画画像G22´には、聞き手U11によって指定されていないが、選択可能な再生時間「10秒」を示すアイコンG226が含まれる。なお、聞き手U11がアイコンG225またはアイコンG226を選択する回数に比例して、再生時間が長くなる。
【0073】
また、個別録画画像G22´には、聞き手U11によって選択された場合に、録画画像から元のWeb会議の画像(ライブ画像)に切り替え可能なボタンG227が含まれる。
【0074】
また、上述した例では、補助制御部165が、Web会議の最中に、個別録画画像を再生して表示するよう表示部130を制御する場合について説明したが、補助制御部165は、Web会議の最中に、全画面画像を録画した全体録画画像を再生して表示するよう表示部130を制御してもよい。具体的には、表示部130は、参加者の操作に従って、Web会議の最中に、議事進捗情報を表示する。補助制御部165は、議事進捗情報の中から、聞き手によって指定された発言の発言時刻を再生開始時刻として受け付けた場合に、受け付けた再生開始時刻から全画面画像を録画した全体録画画像を配信サーバ200から取得する。続いて、補助制御部165は、取得した全体録画画像を再生して表示するよう表示部130を制御する。これにより、情報処理装置100は、例えば、前の会議が押して20分遅れの参加となったような聞き手が、重要な部分のみを倍速再生してキャッチアップするのを助けることができる。
【0075】
〔4-2.傾聴クラスタ表現〕
図10は、変形例に係る補助機能の一例を示す図である。一般的に、Web会議では、対面と異なり、相手の視線を感じることが難しい。そこで、生成部163は、傾聴度合が所定の閾値を超える超傾聴発言者を複数の聞き手それぞれについて特定し、各聞き手を各聞き手について特定された超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する。
【0076】
図9に示す例では、生成部163は、4名の聞き手である「ayyapan」、「doigaki」、「ishige」、および「yamada」それぞれについて傾聴度合が所定の閾値を超える超傾聴発言者である発言者U21を特定し、4名の聞き手を発言者U21のクラスタCL21に分類し、分類されたクラスタCL21に関するクラスタ情報を生成する。例えば、生成部163は、クラスタCL21によって示される傾聴度合に加えて、4名の聞き手のそれぞれの表情や相槌等の感情を認識可能なアイコンを含む画像G31を生成する。
【0077】
また、生成部163は、クラスタCL21の参加者と同じWeb会議に参加している3名の聞き手である「iwaki」、「tonoma」、および「yamaoka」それぞれについて傾聴度合が所定の閾値を超える超傾聴発言者である発言者U22を特定し、3名の聞き手を発言者U22のクラスタCL22に分類し、分類されたクラスタCL22に関するクラスタ情報を生成する。例えば、生成部163は、クラスタCL22によって示される傾聴度合に加えて、3名の聞き手のそれぞれの表情や相槌等の感情を認識可能なアイコンを含む画像G32を生成する。
【0078】
補助制御部165は、Web会議の最中に、生成部163によって生成された画像G31および画像G32を表示するよう表示部130を制御する。
【0079】
これにより、情報処理装置100は、リモート会議において、複数の参加者それぞれが注目する相手の視線を視覚的に視認可能とすることができる。また、情報処理装置100は、複数の参加者それぞれが、同じWeb会議に参加しながら、複数のグループにわかれて議論することも、自由にグループ間の行き来も可能とすることができる。
【0080】
〔4-3.音声品質ヘルスチェック〕
図11は、変形例に係る補助機能の一例を示す図である。一般的に、Web会議では、対面と異なり、相手に声が正常に届いているか自分ではわからない。そこで、
図11では、本人(音声の出力元)である参加者U1の情報処理装置100-1から出力された第1音声データの特徴を示す第1音声特徴データと、他の会議参加者(音声の出力先)である参加者U2の情報処理装置100-2から出力された第2音声データの特徴を示す第2音声特徴データが一致しない場合に、参加者U1に対して通知を行う。
【0081】
具体的には、情報処理装置100-1の会議制御部161は、Web会議における本人の音声データ(第1音声データ)を取得する。会議制御部161は、第1音声データを取得すると、第1音声データを配信サーバ200に送信する。配信サーバ200は、情報処理装置100-1から第1音声データを取得すると、取得した第1音声データを情報処理装置100-2に送信する。また、配信サーバ200は、情報処理装置100-1から第1音声データを取得すると、取得した第1音声データの特徴を示す音声特徴データを生成する。ここで、音声特徴データは、例えば、音声振幅の時間変化量や平均振幅通過連続数を特徴化(数値化)したデータである。
【0082】
また、情報処理装置100-1の生成部163は、会議制御部161が取得した第1音声データに基づいて、第1音声データの特徴を示す第1音声特徴データを生成する。生成部163は、第1音声特徴データを生成すると、第1音声特徴データを配信サーバ200に送信する。配信サーバ200は、情報処理装置100-1から第1音声特徴データを取得すると、取得した第1音声特徴データと取得した第1音声データの特徴を示す音声特徴データとを比較して、両者が一致する場合に、第1音声特徴データを情報処理装置100-2に送信する。
【0083】
情報処理装置100-2の会議制御部161は、配信サーバ200から第1音声データを取得すると、第1音声データを音声出力部140から出力する。情報処理装置100-2の取得部164は、音声出力部140から出力された第2音声データを取得する。情報処理装置100-2の生成部163は、取得部164が取得した第2音声データに基づいて、第2音声データの特徴を示す第2音声特徴データを生成する。また、情報処理装置100-2の補助制御部165は、配信サーバ200から第1音声特徴データを取得する。補助制御部165は、生成部163が生成した第2音声特徴データと第1音声特徴データが一致しない場合に、参加者U1に対して通知を行う。
【0084】
上述した情報処理システム1は、音声同様に途中ネットワーク経路で欠損することがあっては比較ができないため、確実に受信できる仕組みを有する(TCPかつACK確認するまで再送)する。
【0085】
これにより、情報処理装置100は、複数点の音声特徴データのマッチ・アンマッチの結果から、どこで音声パケットが脱落しているかの見当をつきやすくすることができる。なお、アンマッチの結果は、被疑区間の提示を含めて、本人のみならず参加者全員に共有されてもよい。
【0086】
〔4-4.音源の数および位置〕
また、上述した実施形態では、情報処理装置100が、3名の発言者それぞれの音声が聞き手の左右および中央のそれぞれ異なる位置に配置された音源それぞれから聞こえるように3名の発言者それぞれの音声を出力する場合について説明したが、音源の数は3個に限られない。具体的には、情報処理装置100は、2名以下の発言者それぞれの音声が発言者の人数に応じてそれぞれ異なる位置に配置された2個以下の音源それぞれから聞こえるように2名以下の発言者それぞれの音声を出力してもよい。また、情報処理装置100は、4名以上の発言者それぞれの音声が発言者の人数に応じてそれぞれ異なる位置に配置された4個以上の音源それぞれから聞こえるように4名以上の発言者それぞれの音声を出力してもよい。
【0087】
より具体的には、情報処理装置100は、4名以上の発言者それぞれの音声が、聞き手の前方の直線上に配置された4個以上の音源それぞれから聞こえるように4名以上の発言者それぞれの音声を出力してもよい。例えば、補助制御部165は、算出部162が算出した傾聴度合が高い発言者に対応する音源の位置ほど、聞き手に近い位置に配置する。つまり、補助制御部165は、算出部162が算出した傾聴度合が低い発言者に対応する音源の位置ほど、聞き手から遠い位置に配置する。なお、音源の位置は、例えば、聞き手の前方の直線上に等間隔に配置されてよい。
【0088】
また、情報処理装置100は、4名以上の発言者それぞれの音声が、聞き手を中心とする円の円周上に配置された4個以上の音源それぞれから聞こえるように4名以上の発言者それぞれの音声を出力してもよい。音源の位置は、例えば、聞き手を中心とする円の円周上に等間隔に配置されてよい。例えば、補助制御部165は、算出部162が算出した傾聴度合が最も高い発言者に対応する音源の位置を聞き手の目の前に配置する。また、補助制御部165は、算出部162が算出した傾聴度合が次に高い発言者に対応する音源の位置を聞き手の目の前の左右の位置に配置する。また、補助制御部165は、算出部162が算出した傾聴度合が相対的に低い発言者に対応する音源の位置を聞き手の後方に配置する。また、一般的に、サラウンドシステムにおいて、聞き手の後方の音は聞き手にとって聞こえづらい(ほとんど聞こえない)ことが知られている。そこで、補助制御部165は、算出部162が算出した傾聴度合が相対的に低い発言者の音声の音量をあえてゼロにしてもよい。
【0089】
上述したように、情報処理装置100は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を出力する。
【0090】
〔4-5.スピーカーの数〕
また、上述した実施形態では、情報処理装置100が、聞き手の左右に配置された2台のスピーカーから複数の発言者それぞれの音声を出力する場合について説明したが、スピーカーの台数は2台に限られない。例えば、情報処理装置100は、聞き手を取り囲むように配置された3個以上(例えば、6個や8個等)のスピーカーを備え、サラウンド方式により、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を3個以上のスピーカーそれぞれから出力してもよい。なお、情報処理装置100は、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように複数の発言者それぞれの音声を1台のスピーカーから出力してもよい。
【0091】
〔5.効果〕
上述してきたように、実施形態に係る情報処理装置100は、算出部162と補助制御部165を備える。算出部162は、複数の参加者が参加するリモート会議において、複数の発言者の発言を聞いている聞き手による複数の発言者それぞれの発言に対する傾聴の度合いを示す傾聴度合を複数の発言者それぞれについて算出する。補助制御部165は、傾聴度合が高い高傾聴発言者と比べて、傾聴度合が低い低傾聴発言者の発言を、聞き手にとって聞きやすくする補助機能を提供する。
【0092】
このように、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を、聞き手が聞きやすくするようにすることができる。これにより、情報処理装置100は、複数の参加者が参加するリモート会議において、参加者が充実した議論を行うことを可能とすることができる。また、情報処理装置100は、複数の参加者が参加するリモート会議において、参加者が会議中快適に過ごすことを可能とすることができる。したがって、情報処理装置100は、リモート会議におけるユーザビリティを向上させることができる。
【0093】
また、算出部162は、聞き手の視線を検出する検出部150によって検出された視線の方向に基づいて、傾聴度合を算出する。
【0094】
これにより、情報処理装置100は、聞き手の視線に基づいて傾聴度合を算出するため、傾聴度合を適切に算出することができる。
【0095】
また、算出部162は、検出部150によって検出された視線の方向に基づいて、聞き手に注視されている発言者を特定し、特定された発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出する。
【0096】
これにより、情報処理装置100は、聞き手が注目している発言者の傾聴度合を他の発言者の傾聴度合よりも高く算出するため、傾聴度合を適切に算出することができる。
【0097】
また、補助制御部165は、低傾聴発言者の発言を文字変換した文字情報の中から、事前に設定された文字列と一致する文字列が検出された場合に、聞き手に対して低傾聴発言者の発言への注意を促す強調処理を行う。例えば、事前に設定された文字列は、過去のリモート会議において事前に設定された文字列を教師データとして機械学習した結果に基づき、設定された文字列である。
【0098】
これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の発言に事前に設定されたキーワード等が登場した場合に、聞き手が注目する相手ではない(聞き手が注目していない)発言者に注目するよう聞き手に対して注意を促すことができる。したがって、情報処理装置100は、聞き手が注目する相手の発言に集中することを妨げることなく、必要なときだけ、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を聞き手が聞きやすくするようにすることができる。
【0099】
また、補助制御部165は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部140から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声の音量を他の発言者の音声の音量よりも大きくして出力するよう音声出力部140を制御する。
【0100】
これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の音声を聞き手にとって聞きやすい大きい音量にするため、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を聞き手が聞きやすくするようにすることができる。
【0101】
また、補助制御部165は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部140から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声に対応する音源の位置を元の位置から高傾聴発言者の音声に対応する音源の位置へ変更するよう音声出力部140を制御する。
【0102】
これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の音声に対応する音源の位置を聞き手にとって聞きやすい位置に変更するため、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を聞き手が聞きやすくするようにすることができる。
【0103】
また、補助制御部165は、強調処理として、複数の発言者それぞれの音声がそれぞれ異なる位置に配置された複数の音源それぞれから聞こえるように音声出力部140から出力される複数の発言者それぞれの音声のうち、低傾聴発言者の音声に対する残響処理を行うことなく低傾聴発言者の音声を出力するよう音声出力部140を制御する。
【0104】
一般的に、複数の音声のうち、一部の音声に対して音声加工(例えば、残響処理)を施すと、音声加工を施さない音声に対して脳が集中しやすくなることが知られている。これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の話を聞き手が聞きやすくするようにすることができる。
【0105】
また、補助制御部165は、強調処理として、表示部130のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像のうち、低傾聴発言者の参加者画像を他の発言者の参加者画像よりも視覚的に強調して表示するよう表示部130を制御する。
【0106】
これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の参加者画像を視覚的に強調して表示するため、聞き手が注目する相手ではない(聞き手が注目していない)発言者の発言に対する注意を促すことができる。
【0107】
また、補助制御部165は、強調処理として、検出された文字列に関する情報を表示するよう表示部130を制御する。
【0108】
これにより、情報処理装置100は、設定されたキーワードを表示して聞き手の視覚に訴えるため、聞き手が注目する相手ではない(聞き手が注目していない)発言者の発言に対する注意を促すことができる。
【0109】
また、補助制御部165は、リモート会議の最中に、表示部130のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像をそれぞれ録画した複数の個別録画画像のうち、聞き手によって指定された低傾聴発言者に対応する個別録画画像を再生して表示するよう表示部130を制御する。
【0110】
これにより、情報処理装置100は、聞き手が注目する相手ではない(聞き手が注目していない)発言者の発言を聞き逃してしまった場合であっても、聞き逃してしまった発言を会議中にキャッチアップすることを可能とすることができる。
【0111】
また、補助制御部165は、聞き手によって指定された再生時間における個別録画画像を再生して表示するよう表示部130を制御する。
【0112】
これにより、情報処理装置100は、聞き手が個別録画画像の再生時間を指定できるため、聞き手にとってのユーザビリティを向上させることができる。
【0113】
また、補助制御部165は、聞き手によって指定された再生速度で個別録画画像を再生して表示するよう表示部130を制御する。
【0114】
これにより、情報処理装置100は、聞き手が個別録画画像の再生速度を指定できるため、聞き手にとってのユーザビリティを向上させることができる。
【0115】
また、補助制御部165は、聞き手によって指定された低傾聴発言者に対応する表示領域に個別録画画像を再生して表示するよう表示部130を制御する。
【0116】
これにより、情報処理装置100は、聞き手が、他の発言者の発言を聞きながら、聞き逃してしまった発言者の発言を聞くことを可能にすることができる。
【0117】
また、補助制御部165は、リモート会議の最中に、表示部130のそれぞれ異なる表示領域に表示される複数の参加者それぞれの参加者画像を含む全画面画像を録画した全体録画画像を再生して表示するよう表示部130を制御する。
【0118】
これにより、情報処理装置100は、聞き手が、例えば、遅れて参加した会議全体の内容を会議中にキャッチアップすることを可能とすることができる。
【0119】
また、情報処理装置100は、生成部163をさらに備える。生成部163は、リモート会議における発言ごとに、発言を文字変換した文字情報と、発言の発言時刻と、発言の発言者とを対応付けて記録した議事進捗情報を生成する。補助制御部165は、リモート会議の最中に、表示部130に表示された議事進捗情報の中から、聞き手によって指定された発言の発言時刻を再生開始時刻として、再生開始時刻から全体録画画像を再生して表示するよう表示部130を制御する。
【0120】
これにより、情報処理装置100は、聞き手が、例えば、遅れて参加した会議全体の内容であって、聞き手が重要だと思う発言以降の内容を会議中にキャッチアップすることを可能とすることができる。
【0121】
また、情報処理装置100は、生成部163をさらに備える。生成部163は、傾聴度合が所定の閾値を超える超傾聴発言者を複数の聞き手それぞれについて特定し、各聞き手を各聞き手について特定された超傾聴発言者のクラスタに分類し、分類された各クラスタに関するクラスタ情報を生成する。補助制御部165は、リモート会議の最中に、生成部163によって生成されたクラスタ情報を表示するよう表示部130を制御する。
【0122】
これにより、情報処理装置100は、リモート会議において、複数の参加者それぞれが注目する相手の視線を視覚的に視認可能とすることができる。また、情報処理装置100は、複数の参加者それぞれが、同じWeb会議に参加しながら、複数のグループにわかれて議論することも、自由にグループ間の行き来も可能とすることができる。
【0123】
また、情報処理装置100は、取得部164と生成部163をさらに備える。取得部164は、リモート会議における参加者の音声データを取得する。生成部163は、音声データに基づいて、音声データの特徴を示す第1音声特徴データを生成する。補助制御部165は、他の参加者の他の情報処理装置100が受信した音声データの特徴を示す第2音声特徴データと第1音声特徴データが一致しない場合に、参加者に対して通知を行う。
【0124】
これにより、情報処理装置100は、複数点の音声特徴データのマッチ・アンマッチの結果から、どこで音声パケットが脱落しているかの見当をつきやすくすることができる。
【0125】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば
図12に示すような構成のコンピュータ1000によって実現される。
図12は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0126】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0127】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0128】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0129】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0130】
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部160の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0131】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0132】
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0133】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0134】
例えば、上述した実施形態では、情報処理システム1が中央処理型(集中型ともいう)のコンピューティングシステムである例について説明したが、情報処理システム1の構成はこれに限られない。例えば、情報処理システム1は、複数台の情報処理装置100で構成される分散型コンピューティングシステムであってよい。この場合、情報処理システムは、複数台の情報処理装置100がネットワークを介して互いに接続される。また、この場合、情報処理システムでは、それぞれの情報処理装置100に
図2で説明した情報処理装置100の機能が実装される。
【0135】
また、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0136】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0137】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、補助制御部は、補助制御手段や補助制御回路に読み替えることができる。
【符号の説明】
【0138】
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
130 表示部
140 音声出力部
150 検出部
160 制御部
161 会議制御部
162 算出部
163 生成部
164 取得部
165 補助制御部