(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024071304
(43)【公開日】2024-05-24
(54)【発明の名称】電話会議システム、電話会議装置、プログラム、および、電話会議における発言者の役割判断方法
(51)【国際特許分類】
H04M 3/56 20060101AFI20240517BHJP
H04M 3/42 20060101ALI20240517BHJP
G10L 15/00 20130101ALI20240517BHJP
G10L 15/10 20060101ALI20240517BHJP
【FI】
H04M3/56 Z
H04M3/42 P
G10L15/00 200U
G10L15/10 500Z
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022182179
(22)【出願日】2022-11-14
(71)【出願人】
【識別番号】000134707
【氏名又は名称】株式会社ナカヨ
(74)【代理人】
【識別番号】100104570
【弁理士】
【氏名又は名称】大関 光弘
(72)【発明者】
【氏名】渡部 祐太
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BB10
5K201CA01
5K201CC10
5K201DC05
5K201EC06
5K201ED01
(57)【要約】
【課題】会議での発言者それぞれ実際の役割を会議の進行とともに把握できるようにする。
【解決手段】電話会議装置1は、電話会議端末2-1~2-nから音声データを受信する毎に、この音声データを送信元の電話会議端末2-1~2-nおよびその受信開始時刻に紐付けて記憶する。また、送信元の電話会議端末2-1~2-nおよび受信開始時刻に紐付けられて記憶された音声データ各々に対して、音声認識処理を実施してテキストデータに生成し、さらに生成したテキストデータに形態素解析を含む文章解析処理を実施して、テキストデータから所定品詞の語句を抽出して、抽出語句を対応する音声データに紐付ける。それから、電話会議装置1は、送信元の電話会議端末2-1~2-nおよび受信開始時刻に紐付けられて記憶された音声データ毎に、この音声データに紐付けられている抽出語句に基づいて参加者の役割を判断し、判断した役割をこの音声データに紐付ける。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の電話会議端末と、前記電話会議端末毎に、当該電話会議端末を除く前記複数の電話会議端末から受信した音声データをミキシングして電話会議データを生成し、当該電話会議端末に送信する電話会議装置と、を備えた電話会議システムであって、
前記電話会議装置は、
前記複数の電話会議端末から受信した音声データ各々を、送信元の前記電話会議端末およびその受信開始時刻に紐付けて記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに対して音声認識処理を実施してテキストデータを生成し、当該生成したテキストデータを当該音声データに紐付ける音声認識手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられているテキストデータに対して文章解析処理を実施して、当該テキストデータから所定品詞の語句を抽出し、当該抽出した語句を当該音声データに紐付ける文章解析手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられている前記語句に基づいて、当該音声データの発言を行った参加者の役割を判断し、当該判断した役割を当該音声データに紐付ける役割判断手段と、を有する
ことを特徴とする電話会議システム。
【請求項2】
請求項1に記載の電話会議システムであって、
参加者の役割毎に、当該役割の参加者の発言に含まれる可能性のある所定品詞の語句リストが記憶された語句リスト記憶手段をさらに有し、
前記役割判断手段は、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられている前記語句を最も多く含む語句リストを前記語句リスト記憶手段から検索し、検索した語句リストに対応付けられる参加者の役割を、当該音声データに紐付ける参加者の役割として判断する
ことを特徴とする電話会議システム。
【請求項3】
請求項1に記載の電話会議システムであって、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データの音量レベル、発話ピッチを含む音響特性に基づいて、当該音声データの発言を行った参加者の感情を判断し、判断した参加者の感情を当該音声データに紐付ける感情判断手段と、
前記音声データ記憶手段において、受信開始時刻の順に時系列に並ぶ複数の音声データに紐付けられた参加者の感情に基づいて、電話会議で発生した支障を検出し、検出した支障を当該複数の音声データに紐付ける支障検出手段と、をさらに有する
ことを特徴とする電話会議システム。
【請求項4】
請求項2に記載の電話会議システムであって、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データの音量レベル、発話ピッチを含む音響特性に基づいて、当該音声データの発言を行った参加者の感情を判断し、判断した参加者の感情を当該音声データに紐付ける感情判断手段と、
前記音声データ記憶手段において、受信開始時刻の順に時系列に並ぶ複数の音声データに紐付けられた参加者の役割および感情の変遷に基づいて、電話会議で発生した支障を検出し、検出した支障を当該複数の音声データに紐付ける支障検出手段と、をさらに有する
ことを特徴とする電話会議システム。
【請求項5】
請求項3に記載の電話会議システムであって、
前記電話会議で想定される支障毎に、当該支障の内容を、当該支障の発生に関わる参加者の役割および感情の並びを含む支障発生パターンに紐付けて記憶する支障情報記憶手段をさらに有し、
前記支障検出手段は、
前記支障情報記憶手段に記憶されている支障発生パターン毎に、当該支障発生パターンと一致する参加者の役割および感情の並びを、前記音声データ記憶手段において受信開始時刻の順に時系列に並ぶ音声データの列から検索し、当該支障発生パターンと一致する参加者の役割および感情の並びを含む音声データの列を検出したならば、当該音声データの列が示す会話において障害が発生したものと判断し、当該変遷パターンに紐付けられている支障の内容を当該音声データの列に紐付ける
ことを特徴とする電話会議システム。
【請求項6】
請求項4に記載の電話会議システムであって、
前記電話会議で想定される支障毎に、当該支障の内容を、当該支障の発生に関わる参加者の役割および感情の並びを含む支障発生パターンに紐付けて記憶する支障情報記憶手段をさらに有し、
前記支障検出手段は、
前記支障情報記憶手段に記憶されている支障発生パターン毎に、当該支障発生パターンと一致する参加者の役割および感情の並びを、前記音声データ記憶手段において受信開始時刻の順に時系列に並ぶ音声データの列から検索し、当該支障発生パターンと一致する参加者の役割および感情の並びを含む音声データの列を検出したならば、当該音声データの列が示す会話において障害が発生したものと判断し、当該支障発生パターンに紐付けられている支障の内容を当該音声データの列に紐付ける
ことを特徴とする電話会議システム。
【請求項7】
請求項2、4、または6に記載の電話会議システムであって、
前記電話会議装置に接続された管理端末をさらに備え、
前記電話会議装置は、
前記管理端末から受け付けた指示に従い、前記語句リスト記憶手段の登録内容を更新する語句リスト更新手段をさらに有する
ことを特徴とする電話会議システム。
【請求項8】
請求項5または6に記載の電話会議システムであって、
前記電話会議装置に接続された管理端末をさらに備え、
前記電話会議装置は、
前記管理端末から受け付けた指示に従い、前記支障情報記憶手段の登録内容を更新する支障情報更新手段をさらに有する
ことを特徴とする電話会議システム。
【請求項9】
複数の電話会議端末毎に、当該電話会議端末を除く前記複数の電話会議端末から受信した音声データをミキシングして電話会議データを生成し、当該電話会議端末に送信する電話会議装置あって、
前記複数の電話会議端末から受信した音声データ各々を、送信元の前記電話会議端末およびその受信開始時刻に紐付けて記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに対して音声認識処理を実施してテキストデータを生成し、当該生成したテキストデータを当該音声データに紐付ける音声認識手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられているテキストデータに対して文章解析処理を実施して、当該テキストデータから所定品詞の語句を抽出し、当該抽出した語句を当該音声データに紐付ける文章解析手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられている前記語句に基づいて、当該音声データの発言を行った参加者の役割を判断し、当該判断した役割を当該音声データに紐付ける役割判断手段と、を有する
ことを特徴とする電話会議装置。
【請求項10】
電話会議端末毎に、当該電話会議端末を除く複数の電話会議端末から受信した音声データをミキシングして電話会議データを生成し、当該電話会議端末に送信する電話会議装置としてコンピュータを機能させるプログラムであって、
前記複数の電話会議端末から受信した音声データ各々を、送信元の前記電話会議端末およびその受信開始時刻に紐付けて記憶する音声データ記憶手段、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに対して音声認識処理を実施してテキストデータを生成し、当該生成したテキストデータを当該音声データに紐付ける音声認識手段、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられているテキストデータに対して文章解析処理を実施して、当該テキストデータから所定品詞の語句を抽出し、当該抽出した語句を当該音声データに紐付ける文章解析手段、および
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられている前記語句に基づいて、当該音声データの発言を行った参加者の役割を判断し、当該判断した役割を当該音声データに紐付ける役割判断手段として、前記コンピュータを機能させる
ことを特徴とするプログラム。
【請求項11】
電話会議端末毎に、当該電話会議端末を除く前記複数の電話会議端末から受信した音声データをミキシングして電話会議データを生成し、当該電話会議端末に送信する電話会議装置を用いた電話会議における発言者の役割判断方法であって、
前記複数の電話会議端末から受信した音声データ各々を、送信元の前記電話会議端末およびその受信開始時刻に紐付けて記憶し、
記憶されている音声データ毎に、当該音声データに対して音声認識処理を実施してテキストデータを生成し、当該生成したテキストデータを当該音声データに紐付け記憶し、
記憶されている音声データ毎に、当該音声データに紐付けられているテキストデータに対して文章解析処理を実施して、当該テキストデータから所定品詞の語句を抽出し、当該抽出した語句を当該音声データに紐付けて記憶し、
記憶されている音声データ毎に、当該音声データに紐付けられている前記語句に基づいて、当該音声データの発言を行った参加者の役割を判断し、当該判断した役割を当該音声データに紐付けて記憶する
ことを特徴とする電話会議における発言者の役割判断方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話会議システムに関し、特に、電話会議における発言者の役割判断技術に関する。
【背景技術】
【0002】
特許文献1には、電話会議において発言がある都度、その発言者を他の参加者に通知する技術が開示されている。この技術において、各参加者は、発言を行うにあたり電話会議端末の発言ボタンを押下し、発言ボタンが押下された電話会議端末は、発言者識別情報を電話会議装置に送信する。電話会議装置は、いずれかの電話会議端末から発言者識別情報を受信すると、この発言者識別情報に紐付けられている参加者を表す音声データを、この電話会議端末から送られてくる発言の音声データとミキシングして、この電話会議端末以外の各電話会議端末に送信する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
通常、会議は、参加者が、大きく分けて、説明者、質問者、および傍聴者のいずれかの役割を適切に果たすことによって円滑に進行する。しかし、会議においては、説明者が不十分な説明を行い、一部の質問者が説明者の意図を理解できずに厳しい質問を繰り返す等、参加者の発言の応酬が会議進行に支障をきたす場合がある。また、説明者の説明が不明瞭であるために会議進行に支障が生じていると感じた傍聴者が、やむを得ず仲介者となって説明者の代わりに質問者に説明する等、参加者の役割が、会議の進行状況に応じて当初の役割から変化することもある。
【0005】
したがって、会議が支障なく円滑に進行したか否かを判断する上で、会議における発言者それぞれの実際の役割を、会議の進行とともに把握することは重要である。しかしながら、特許文献1に記載の技術は、この点を何ら考慮していない。
【0006】
本発明は上記事情に鑑みてなされたものであり、その目的は、会議における発言者それぞれの役割を、会議の進行とともに把握できるようにすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明において、電話会議装置は、電話会議端末から音声(発言)データを受信する毎に、この音声データを、送信元の電話会議端末およびその受信(発言)開始時刻に紐付けて記憶する。また、送信元の電話会議端末および受信開始時刻に紐付けられて記憶された音声データ各々に対して、音声認識処理を実施してテキストデータを生成し、さらに、生成したテキストデータに形態素解析を含む文章解析処理を実施して、このテキストデータから、名詞、動詞、形容詞等の所定品詞に該当する語句を抽出し、テキストデータおよび抽出語句を、対応する音声データに紐付ける。それから、電話会議装置は、音声データの送信元の電話会議端末および受信開始時刻に紐付けられて記憶された音声データ毎に、この音声データに紐付けられている抽出語句に基づいて、音声データの発言を行った参加者の役割(説明者、質問者、仲介者)を判断し、判断した役割をこの音声データに紐付ける。
【0008】
例えば、本発明の電話会議システムは、
複数の電話会議端末と、前記電話会議端末毎に、当該電話会議端末を除く前記複数の電話会議端末から受信した音声データをミキシングして電話会議データを生成し、当該電話会議端末に送信する電話会議装置と、を備えた電話会議システムであって、
前記電話会議装置は、
前記複数の電話会議端末から受信した音声データ各々を、送信元の前記電話会議端末およびその受信開始時刻に紐付けて記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに対して音声認識処理を実施してテキストデータを生成し、当該生成したテキストデータを当該音声データに紐付ける音声認識手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられているテキストデータに対して文章解析処理を実施して、当該テキストデータから所定品詞の語句を抽出し、当該抽出した語句を当該音声データに紐付ける文章解析手段と、
前記音声データ記憶手段に記憶されている音声データ毎に、当該音声データに紐付けられている前記語句に基づいて参加者の役割を判断し、当該判断した役割を当該音声データに紐付ける役割判断手段と、を有する。
【発明の効果】
【0009】
本発明では、音声データ毎に、音声データの音声認識結果であるテキストデータおよびそのテキストデータに含まれている所定品質の語句に基づいて判断された参加者の役割が、受信開始時刻とともにこの音声データに紐付けられる。したがって、本発明によれば、会議における発言者それぞれの実際の役割を、会議の進行状況に合わせて把握することができるので、電話会議全体の流れを把握して、電話会議進行上の問題点および改善点等を検討することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本発明の一実施の形態に係る電話会議システムの概略構成図である。
【
図2】
図2は、電話会議装置1の概略機能構成図である。
【
図3】
図3は、音声データ記憶部103の登録内容例を模式的に表した図である。
【
図4】
図4は、解析結果記憶部104の登録内容例を模式的に表した図である。
【
図5】
図5は、語句リスト記憶部105の登録内容例を模式的に表した図である。
【
図6】
図6は、支障情報記憶部106の登録内容例を模式的に表した図である。
【
図7】
図7は、電話会議装置1の電話会議録音処理を説明するためのフロー図である。
【
図8】
図8は、電話会議装置1の電話会議解析処理を説明するためのフロー図である。
【
図9】
図9は、電話会議装置1の電話会議解析処理を説明するためのフロー図であり、
図8の続きである。
【発明を実施するための形態】
【0011】
以下に、本発明の一実施の形態について説明する。
【0012】
図1は、本実施の形態に係る電話会議システムの概略構成図である。
【0013】
図示するように、本実施の形態に係る電話会議システムは、複数の電話会議端末2-1~2-n(以下、単に電話会議端末2とも呼ぶ)と、複数の電話会議端末2を収容し、これらの電話会議端末2に対して電話会議サービスを提供する電話会議装置1と、電話会議装置1を保守・管理する管理端末3とが、WAN(Wide Area Network)、LAN(Local Area Network)等のネットワーク4を介して互いに接続されて構成されている。
【0014】
電話会議装置1は、電話会議端末2毎に、他の複数の電話会議端末2から受信した音声データをミキシングして電話会議データを生成し、生成した電話会議データをこの電話会議端末2に送信する(電話会議サービス)。また、電話会議装置1は、電話会議サービスにより複数の電話会議端末2間で実施された電話会議において、発言毎に発言者の役割および感情を認識し、これらの認識結果に基づいて、円滑な会議進行を妨げる支障発生(紛糾、混乱等の、電話会議進行の滞り)の有無を判断する。
【0015】
つぎに、本実施の形態に係る電話会議装置1について説明する。なお、電話会議端末2には、ボタン電話機等の既存の電話端末を用いることができる。また、管理端末3には、PC(Personal Computer)等の既存のネットワーク端末を用いることができる。そこで、これらの詳細な説明は省略している。
【0016】
【0017】
図示するように、電話会議装置1は、ネットワークインターフェース部100と、電話機制御部101と、電話会議処理部102と、音声データ記憶部103と、解析結果記憶部104と、語句リスト記憶部105と、支障情報記憶部106と、音声認識部107と、文章解析部108と、役割判断部109と、感情判断部110と、支障検出部111と、主制御部112と、を有する。
【0018】
ネットワークインターフェース部100は、ネットワーク4に接続するためのインターフェースである。
【0019】
電話機制御部101は、SIP(Session Initiation Protocol)等の呼制御プロトコルに従い、ネットワーク4を介して電話会議端末2と通話路を確立したり、確立した通話路を解放したりする。
【0020】
電話会議処理部102は、電話機制御部101により電話会議装置1との通話路が確立された複数の電話会議端末2(つまり、電話会議に参加する複数の電話会議端末2)に電話会議サービスを提供する。具体的には、電話会議に参加する電話会議端末2毎に、この電話会議端末2を除く他の複数の電話会議端末2から受信した音声データをミキシングして電話会議データを生成し、生成した電話会議データをこの電話会議端末2に送信する。
【0021】
また、電話会議処理部102は、電話会議に参加中のいずれかの電話会議端末2から音声データを受信する毎に、この音声データを、その受信開始時刻、送信元の電話会議端末2、および電話会議に紐付けて音声データ記憶部103に記憶する。
【0022】
音声データ記憶部103には、電話会議毎に、電話会議に参加中の電話会議端末2から受信した音声データが、その受信開始時刻および送信元の電話会議端末2に紐付けられて記憶される。
【0023】
図3は、音声データ記憶部103の登録内容例を模式的に表した図である。
【0024】
図示するように、音声データ記憶部103には、電話会議毎に、その電話会議における発言の音声データが時系列に記録された電話会議テーブル1030が、その電話会議の識別情報(会議ID)および会議開始日時に紐付けられて記憶される。
【0025】
電話会議テーブル1030には、電話会議における発言毎に、その発言の音声データのレコード1031が記憶される。音声データのレコード1031には、音声データの受信(発言)開始時刻が登録されたフィールド1032と、発言者の情報(音声データの送信元の電話会議端末2の番号情報あるいはその番号情報に紐付けられている参加者の氏名情報等)が登録されたフィールド1033と、音声データが登録されたフィールド1034と、を有する。
【0026】
解析結果記憶部104には、音声データ記憶部103に記憶されている電話会議テーブル1030毎に、電話会議における発言の音声データに対する解析結果が記憶される。
【0027】
図4は、解析結果記憶部104の登録内容例を模式的に表した図である。
【0028】
図示するように、解析結果記憶部104には、電話会議毎に、その電話会議における発言の音声データの解析結果が時系列に記録された解析結果テーブル1040が、その電話会議の会議IDおよび会議開始日時に紐付けられて記憶される。
【0029】
解析結果テーブル1040には、電話会議における発言毎に、その発言の音声データに対する解析結果のレコード1041が記憶される。解析結果のレコード1041には、音声データの受信(発言)開始時刻が登録されたフィールド1042と、発言者の情報(音声データの送信元の電話会議端末2の番号情報あるいはその番号情報に紐付けられている参加者の氏名情報等)が登録されたフィールド1043と、その音声データの音声認識結果であるテキストデータが登録されたフィールド1044と、このテキストデータから抽出された所定品詞の語句(抽出語句)が登録されたフィールド1045と、抽出語句に基づいて判断された発言者の役割(説明者、質問者、補足者等)が登録されたフィールド1046と、音声データの音量レベル、発話ピッチ等に基づいて判断された発言者の感情が登録されたフィールド1047と、電話会議の進行に支障をきたしている場合に後述の支障発生パターンID(
図6参照)のいずれかが登録されるフィールド1048と、を有する。
【0030】
語句リスト記憶部105には、会議において発言者が果たす役割毎に、その役割を果たすことを目的とする発言に含まれる可能性のある語句(名詞、動詞、形容詞を含む所定品詞に該当する語句)のリストが記憶されている。
【0031】
図5は、語句リスト記憶部105の登録内容例を模式的に表した図である。
【0032】
図示するように、語句リスト記憶部105には、会議において発言者が果たす役割毎に語句リストのレコード1050が記憶されている。語句リストのレコード1050には、発言者の役割が登録されたフィールド1051と、その役割を果たすことを目的とする発言に含まれる可能性のある語句(名詞、動詞、形容詞を含む所定品詞に該当する語句)のリストが登録されたフィールド1052と、を有する。
【0033】
支障情報記憶部106には、電話会議で想定される支障毎に、その支障の詳細に関する支障情報が記憶されている。
【0034】
図6は、支障情報記憶部106の登録内容例を模式的に表した図である。
【0035】
図示するように、支障情報記憶部106には、電話会議で想定される支障毎に支障情報のレコード1060が記憶されている。支障情報のレコード1060は、支障発生パターンの識別情報(支障発生パターンID)が登録されたフィールド1061と、支障発生パターン(支障を発生させた一連の発言の発言者の役割および発言中の感情の、発言順の並び)が登録されたフィールド1062と、支障の内容が登録されたフィールド1064と、を有する。また、支障発生パターンのフィールド1062は、支障を発生させた一連の発言の発言者の役割および発言中の感情が発言順に格納された複数のサブフィールド1063を有している。本実施の形態では、一例として、時系列に連続する3つの音声データについて、1番目の音声データの発言者(第1発言者)の役割・感情が登録されたサブフィールド1063-1、2番目の音声データの発言者(第2発言者)の役割・感情が登録されたサブフィールド1063-2、および3番目の音声データの発言者(第3発言者)の役割・感情が登録されたサブフィールド1063-3を設けている。
【0036】
音声認識部107は、音声データ記憶部103を参照し、解析対象の電話会議テーブル1030に記憶されている解析対象のレコード1031から音声データを読み出して音声認識処理を実施し、この音声データが表す発言内容のテキストデータを生成する。そして、生成したテキストデータを、解析対象の電話会議テーブル1030と共通の会議IDおよび会議開始日時に紐付けられて解析結果記憶部104に記憶された解析結果テーブル1040のレコード1041(解析対象のレコード1031と共通の受信開始時刻および発言者が登録されているレコード1041)に登録する。
【0037】
文章解析部108は、解析結果記憶部104の解析結果テーブル1040に記憶されているレコード1041からテキストデータを読み出し、これに形態素解析を含む文章解析処理を実施して、このテキストデータを構成する語句(名詞、動詞、形容詞を含む所定品詞に該当する語句)を抽出する。そして、抽出語句を、この解析結果のレコード1041に登録する。
【0038】
役割判断部109は、解析結果記憶部104の解析結果テーブル1040から役割判断対象のレコード1041を特定し、このレコード1041から抽出語句を読み出す。そして、抽出語句と共通の語句を最も多く含む語句リストが登録されたレコード1050を語句リスト記憶部105から検索し、このレコード1050に登録されている発言者の役割を、役割判断対象のレコード1041に登録する。
【0039】
感情判断部110は、解析対象の電話会議テーブル1030から感情判断対象のレコード1031を特定し、このレコード1031から音声データを読み出して、この音声データの音量レベル、発話ピッチ等の音響情報に基づき発言者の感情(冷静、興奮、萎縮等)を判断する。そして、解析結果記憶部104を参照し、判断した発言者の感情を、解析対象の電話会議テーブル1030と共通の会議IDおよび会議開始日時に紐付けられた解析結果テーブル1040のレコード1041(感情判断対象の音声データのレコード1031と共通の受信開始時刻および発言者が登録されている解析結果のレコード1041)に登録する。
【0040】
支障検出部111は、支障情報記憶部106に記憶されているレコード1060毎に、このレコード1060に登録されている支障発生パターン通りに発言者の役割・感情が並ぶ解析結果のレコード1041の配列(受信開始時刻が時系列に連続して並ぶ解析結果のレコード1041のグループ)を、解析結果記憶部104から検索する。そして、いずれかの支障発生パターンに該当する解析結果のレコード1041の配列を検出したならば、該当する支障発生パターンのレコード1060に登録されている支障発生パターンIDを、この解析結果のレコード1041の配列に紐付ける。具体的には、検出した解析結果のレコード1041の配列を構成するいずれかのレコード1041(ここでは、末尾レコード1041)に、該当する支障発生パターンIDを登録する。
【0041】
主制御部112は、電話会議装置1の各部100~111を統括的に制御する。また、主制御部112は、ネットワークインターフェース部100を介して管理端末3から受け付けた指示に従い、音声データ記憶部103および解析結果記憶部104の登録内容を管理端末3に送信する。
【0042】
なお、
図2に示す電話会議装置1の機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)などの計算機によりソフトウエア的に実現されるものでもよい。または、CPU(Central Processing Unit)と、メモリと、SSD(Solid State Drive)、HDD(Hard Disk Drive)等の補助記憶装置と、NIC(Network Interface Card)等の通信装置と、を備えたPC(Personal Computer)等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することでプロセスとして実現されるものでもよい。
【0043】
図7は、電話会議装置1の電話会議録音処理を説明するためのフロー図である。
【0044】
このフローは、電話機制御部101がネットワークインターフェース部100を介して複数の電話会議端末2と通話路を確立し、電話会議処理部102がこれらの電話会議端末2に対して電話会議サービスの提供を開始することにより開始される。
【0045】
まず、電話会議処理部102は、新たに開催される電話会議における一連の発言の音声データを格納するための電話会議テーブル1030を音声データ記憶部103に新規登録して、この電話会議テーブル1030を、新たに発行した会議IDおよび会議開始日時(現在日時)に紐付ける(S200)。
【0046】
その後、電話機制御部101がすべての電話会議端末2との通話路を解放することにより電話会議サービスの提供を終了するまでの間(S203でNO)、電話会議処理部102は、電話会議中にいずれかの参加者が発言者として発言する都度、すなわち、電話機制御部101を介して電話会議端末2から音声データを受信する都度(S201でYES)、新規登録した電話会議テーブル1030にレコード1031を追加して、このレコード1031に、音声データの受信開始時刻および発言者の情報(音声データの送信元の電話会議端末2の番号情報あるいはその番号情報に紐付けられている参加者の氏名情報等)を登録するとともに、受信した音声データを登録する(S202)。
【0047】
図8および
図9は、電話会議装置1の電話会議解析処理を説明するためのフロー図である。
【0048】
このフローは、管理端末3からネットワークインターフェース部100を介して電話会議解析要求を受け付けることにより開始される。
【0049】
まず、主制御部112は、音声データ記憶部103に未解析の電話会議テーブル1030が存在するか否かを確認する(S300)。具体的には、音声データ記憶部103および解析結果記憶部104を参照し、解析結果記憶部104のいずれの解析結果テーブル1040にも紐付けられていない会議IDおよび会議開始日時に紐付けられた電話会議テーブル1030を音声データ記憶部103から検索する。そして、音声データ記憶部103に未解析の電話会議テーブル1030が存在しないならば(S300でNO)、このフローを終了する。
【0050】
一方、未解析の電話会議テーブル1030が存在する場合(S300でYES)、主制御部112は、いずれかの未解析の電話会議テーブル1030を解析対象として選択するとともに、解析結果記憶部104に解析結果テーブル1040を新規に登録して、この解析結果テーブル1040に、解析対象の電話会議テーブル1030に紐付けられている会議IDおよび会議開始日時を紐付ける(S301)。
【0051】
つぎに、主制御部112は、解析対象の電話会議テーブル1030に未解析の音声データのレコード1031が存在するか否かを確認する(S302)。未解析の音声データのレコード1031が存在せず、すべての音声データのレコード1031を解析済みならば(S302でNO)、S309に移る。一方、未解析の音声データのレコード1031が存在する場合(S302でYES)、主制御部112は、未解析の音声データのレコード1031のなかから、最も早い受信開始時刻を含むレコード1031を解析対象のレコード1031として決定する(S303)。それから、新規登録した解析結果テーブル1040に新規レコード1041を追加し、この新規レコード1041に、解析対象のレコード1031に登録された受信開始時刻および発言者を登録する(S304)。
【0052】
つぎに、主制御部112は、音声認識部107に、解析対象の電話会議テーブル1030に紐付けられた会議IDと、解析対象のレコード1031に登録された受信開始時刻および発言者とを通知して、音声データの音声認識処理を指示する。これを受けて、音声認識部107は、音声データ記憶部103を参照し、主制御部112より通知された会議IDに紐付けられた解析対象の電話会議テーブル1030から、主制御部112より通知された受信開始時刻および発言者に紐付けられた解析対象のレコード1031を特定し、この解析対象のレコード1031に登録されている音声データに音声認識処理を実施してテキストデータを生成する。そして、解析結果記憶部104を参照して、主制御部112より通知された会議IDに紐付けられた解析結果テーブル1040のレコード1041のうち、主制御部112より通知された受信開始時刻および発言者を含むレコード1041に、このテキストデータを登録する(S305)。
【0053】
つぎに、主制御部112は、文章解析部108に、解析対象の電話会議テーブル1030に紐付けられた会議IDと、解析対象のレコード1031に登録された受信開始時刻および発言者とを通知して、テキストデータの文章解析処理を指示する。これを受けて、文章解析部108は、解析結果記憶部104を参照して、主制御部112より通知された会議IDに紐付けられた解析結果テーブル1040から、主制御部112より通知された受信開始時刻および発言者に紐付けられた解析結果のレコード1041を特定し、このレコード1041のテキストデータに形態素解析を含む文章解析処理を実施する。これによりテキストデータから、所定品詞に該当する語句を抽出して、抽出語句を、特定した解析結果のレコード1041に登録する(S306)。
【0054】
つぎに、主制御部112は、役割判断部109に、解析対象の電話会議テーブル1030に紐付けられた会議IDと、解析対象のレコード1031に登録された受信開始時刻および発言者とを通知して、発言者(参加者)の役割判断を指示する。これを受けて、役割判断部109は、解析結果記憶部104を参照して、主制御部112より通知された会議IDに紐付けられた解析結果テーブル1040から、主制御部112より通知された受信開始時刻および発言者に紐付けられた解析結果のレコード1041を役割判断対象として特定し、このレコード1041から抽出語句を読み出して、抽出語句と共通の語句を最も多く含む語句リストが登録されているレコード1050を語句リスト記憶部105から検索する。そして、検索した語句リストのレコード1050に登録されている発言者の役割を、役割判断対象の解析結果のレコード1041に登録する(S307)。
【0055】
つぎに、主制御部112は、感情判断部110に、解析対象の電話会議テーブル1030に紐付けられた会議IDと、解析対象のレコード1031に登録された受信開始時刻および発言者とを通知して、発言者(参加者)の感情判断を指示する。これを受けて、感情判断部110は、音声データ記憶部103を参照し、主制御部112より通知された会議IDに紐付けられた解析対象の電話会議テーブル1030から、主制御部112より通知された受信開始時刻および発言者に紐付けられたレコード1031を役割判断対象として特定し、このレコード1031に登録されている音声データの音量レベル、発話ピッチ等の音響情報に基づき発言者の感情(冷静、興奮、萎縮等)を判断する。そして、主制御部112より通知された会議IDに紐付けられて解析結果記憶部104に記憶された解析結果テーブル1040から、主制御部112より通知された受信開始時刻および発言者と共通の受信開始時刻および発言者に紐付けられたレコード1041を特定し、このレコード1041に、判断した発言者の感情を登録する(S308)。その後、S302に戻る。
【0056】
また、S309において、主制御部112は、支障検出部111に、解析対象の電話会議テーブル1030に紐付けられた会議IDを通知して、電話会議における支障検出を指示する。これを受けて、支障検出部111は、支障情報記憶部106から未選択のレコード1060を選択し(S309)、このレコード1060に登録されている支障発生パターンと発言者の役割・感情およびその並びが一致するレコード1041の配列(受信開始時刻が時系列に連続して並ぶ解析結果のレコード1041のグループ)を解析結果記憶部104から検索する(S310)。そして、発言者の役割・感情が支障発生パターン通りに並ぶレコード1041の配列を検出したならば(S311でYES)、このレコード1041の配列の末尾レコード1041に、選択したレコード1060に登録されている支障発生パターンIDを登録する(S312)。
【0057】
つぎに、支障検出部111は、支障情報記憶部106に未選択のレコード1060が存在するならば(S313でYES)、S309に戻り、支障情報記憶部106のすべてのレコード1060を選択済みならば(S313でNO)、その旨を主制御部112に通知して、S300に戻る。
【0058】
以上、本発明の一実施の形態を説明した。
【0059】
本実施の形態では、電話会議中の発言毎に、その発言の音声データの音声認識結果であるテキストデータに含まれる所定品詞の語句に基づいて発言者の役割を判断し、この発言者の役割を、音声データの受信開始時刻およびその送信元(発言者)をキーとして、その発言の音声データに紐付けている。したがって、本実施の形態によれば、電話会議における発言者それぞれの発言内容およびその実際の役割を、電話会議の進行状況に合わせて時系列に把握することができるので、電話会議全体の流れを把握して、電話会議の進行上の問題点および改善点等を検討することができる。
【0060】
また、本実施の形態では、電話会議中の発言毎に、その発言の音声データの音声認識結果であるテキストデータから抽出した所定品詞の語句を最も多く含む語句リストを語句リスト記憶部105から検索し、検索した語句リストに紐付けられている参加者の役割を、その発言の音声データに紐付ける。したがって、本実施の形態によれば、会議中に発言した参加者のみ、その役割を効率よく判断することができる。
【0061】
また、本実施の形態では、会議中の発言毎に、その発言の音声データの音量レベル、発話ピッチを含む音響特性に基づいて発言者の感情を判断し、この発言者の感情を、音声データの受信開始時刻およびその送信元をキーとして、その発言の音声データに紐付けている。そして、電話会議中の発言順に時系列に並んだ発言者の役割および感情に基づいて、電話会議の進行を妨げる支障の発生を検出し、検出した支障を、音声データの受信開始時刻およびその送信元である発言者をキーとして、支障発生の原因となった一連の発言の音声データに紐付けている。したがって、本実施の形態によれば、電話会議のどのタイミングで支障が発生したのかを把握することができ、電話会議全体の流れを、より精度よく把握することが可能となり、電話会議の進行上の問題点および改善点等を効率よく検討することができる。
【0062】
また、本実施の形態では、支障情報記憶部106に記憶されている支障発生パターン毎に、支障発生パターン通りに時系列に並ぶ発言者の役割および感情を解析結果記憶部104から検索し、該当する発言者の役割および感情の並びを検出したならば、これらの発言者の役割および感情に紐付けられている一連の音声データ(時系列に並ぶ音声データのグループ)が録音された会話において電話会議進行上の支障が発生したものと判断する。そし、支障発生パターンに紐付けられた支障内容を、音声データの受信開始時刻およびその送信元をキーとして、電話会議進行上の支障を生じさせた会話の音声データの配列に紐付けている。したがって、本実施の形態によれば、音声会議のどのタイミングで支障が発生したのかを、その支障内容とともに把握することができ、電話会議の問題点および改善点等をさらに効率よく検討することができる。
【0063】
なお、本発明は、上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【0064】
例えば、上記の実施の形態では、電話会議テーブル1030および解析結果テーブル1040を会議IDで互いに紐付けて、それぞれ音声データ記憶部103および解析結果記憶部104に記憶するとともに、電話会議テーブル1030に記憶されている音声データのレコード1031および解析結果テーブル1040に記憶されている解析結果のレコード1041を、音声データの受信開始時刻およびその送信元である発言者で互いに紐付けている。しかし、本発明はこれに限定されない。音声データのレコード1031と解析結果のレコード1041とを統合することにより、電話会議テーブル1030および解析結果テーブル1040を一体化してもよい。この場合、音声データ記憶部103および解析結果記憶部104の一方を省略することができる。
【0065】
また、上記の実施の形態において、電話会議装置1の語句リスト記憶部105および/または支障情報記憶部106は、管理端末3により更新可能としてもよい。すなわち、電話会議装置1において、主制御部112は、ネットワークインターフェース部100を介して管理端末3から受け付けた指示に従い、語句リスト記憶部105および/または支障情報記憶部106の登録内容を更新する。具体的には、ネットワークインターフェース部100を介して管理端末3から語句リストのレコード1050を受け付けて、このレコード1050を語句リスト記憶部105に追加する。また、ネットワークインターフェース部100を介して管理端末3から受け付けた支障発生パターンのレコード1060を支障情報記憶部106に追加する。
【符号の説明】
【0066】
1:電話会議装置 2-1~2-n:電話会議端末 3:管理端末
4:ネットワーク 100:ネットワークインターフェース部
101:電話機制御部 102:電話会議処理部
103:音声データ記憶部 104:解析結果記憶部
105:語句リスト記憶部 106:支障情報記憶部 107:音声認識部
108:文章解析部 109:役割判断部 110:感情判断部
111:支障検出部 112:主制御部