IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シンギュレイトの特許一覧

特許7449577情報処理装置、情報処理方法、およびプログラム
<>
  • 特許-情報処理装置、情報処理方法、およびプログラム 図1
  • 特許-情報処理装置、情報処理方法、およびプログラム 図2
  • 特許-情報処理装置、情報処理方法、およびプログラム 図3
  • 特許-情報処理装置、情報処理方法、およびプログラム 図4
  • 特許-情報処理装置、情報処理方法、およびプログラム 図5
  • 特許-情報処理装置、情報処理方法、およびプログラム 図6
  • 特許-情報処理装置、情報処理方法、およびプログラム 図7
  • 特許-情報処理装置、情報処理方法、およびプログラム 図8
  • 特許-情報処理装置、情報処理方法、およびプログラム 図9
  • 特許-情報処理装置、情報処理方法、およびプログラム 図10
  • 特許-情報処理装置、情報処理方法、およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-06
(45)【発行日】2024-03-14
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G10L 21/18 20130101AFI20240307BHJP
   G10L 25/51 20130101ALI20240307BHJP
【FI】
G10L21/18
G10L25/51
【請求項の数】 13
(21)【出願番号】P 2021082874
(22)【出願日】2021-05-17
(65)【公開番号】P2022176438
(43)【公開日】2022-11-30
【審査請求日】2023-12-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】520400726
【氏名又は名称】株式会社シンギュレイト
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】鹿内 学
(72)【発明者】
【氏名】谷口 泰地
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2020-148931(JP,A)
【文献】特開2018-45364(JP,A)
【文献】特開2016-206355(JP,A)
【文献】特開2008-262046(JP,A)
【文献】国際公開第2019/130816(WO,A1)
【文献】米国特許出願公開第2019/0318743(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
G06Q 10/00
(57)【特許請求の範囲】
【請求項1】
複数の参加者による会話から収集された音声に関する音声データを取得する手段と、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段と、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段と、
前記第1遷移確率行列を参照して統合情報量を算出する手段と、
前記統合情報量に基づいて前記会話を評価する手段と
を具備
前記発言者データを生成する手段は、前記音声データを時間窓単位で解析することと、前記時間窓の位置を所定の移動時間だけ時間軸上で移動させることとを含む窓処理を繰り返すことで、各時間窓において発言した参加者の時系列遷移を表すように前記発言者データを生成し、
前記時間窓の時間長は、前記会話の参加者数、または前記移動時間の少なくとも1つに依存する、
情報処理装置。
【請求項2】
前記移動時間の時間長は、1発言あたりの所要時間に依存する、
請求項1に記載の情報処理装置。
【請求項3】
前記第1遷移確率行列を算出する手段は、
前記発言者データを参照して前記複数の参加者のうち2名以上が同時に発言しているデータサンプルを抽出する手段と、
前記データサンプルの抽出結果を参照して前記第1遷移確率行列を算出する手段とを備える、
請求項1に記載の情報処理装置。
【請求項4】
複数の参加者による会話から収集された音声に関する音声データを取得する手段と、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段と、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段と、
前記第1遷移確率行列を参照して統合情報量を算出する手段と、
前記統合情報量に基づいて前記会話を評価する手段と
を具備
前記統合情報量を算出する手段は、
前記第1遷移確率行列の独立成分を抽出することで、互いに独立な複数の第2状態の間の遷移確率を示す第2遷移確率行列を算出する手段と、
前記第2遷移確率行列を参照して前記統合情報量を算出する手段とを備える、
情報処理装置。
【請求項5】
前記会話を評価する手段は、前記複数の第2状態と前記複数の第1状態との対応関係にさらに基づいて前記会話を評価する、
請求項4に記載の情報処理装置。
【請求項6】
複数の参加者による会話から収集された音声に関する音声データを取得する手段と、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段と、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段と、
前記第1遷移確率行列を参照して統合情報量を算出する手段と、
前記統合情報量に基づいて前記会話を評価する手段と
を具備
前記第1遷移確率行列を算出する手段は、前記複数の第1状態の少なくとも1つについて遷移確率を算出するために前記発言者データにおいて参照可能なデータサンプルの数が所定の条件を満たす場合に、既定の事前分布を用いて当該遷移確率を算出する、
情報処理装置。
【請求項7】
複数の参加者による会話から収集された音声に関する音声データを取得する手段と、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段と、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段と、
前記第1遷移確率行列を参照して統合情報量を算出する手段と、
前記統合情報量に基づいて前記会話を評価する手段と
を具備
前記会話を評価する手段は、前記統合情報量に基づく評価結果を出力し、
前記会話を評価する手段は、前記統合情報量を最大化する発言状態を示すコンプレックスを決定し、当該コンプレックスに関する情報を含む評価結果を出力する、
情報処理装置。
【請求項8】
前記評価結果は、前記統合情報量の時間変化に関する情報を含む、
請求項7に記載の情報処理装置。
【請求項9】
コンピュータが、
複数の参加者による会話から収集された音声に関する音声データを取得することと、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成することと、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出することと、
前記第1遷移確率行列を参照して統合情報量を算出することと、
前記統合情報量に基づいて前記会話を評価することと
を具備
前記発言者データを生成することでは、前記音声データを時間窓単位で解析することと、前記時間窓の位置を所定の移動時間だけ時間軸上で移動させることとを含む窓処理を繰り返すことで、各時間窓において発言した参加者の時系列遷移を表すように前記発言者データを生成し、
前記時間窓の時間長は、前記会話の参加者数、または前記移動時間の少なくとも1つに依存する、
情報処理方法。
【請求項10】
コンピュータを、
複数の参加者による会話から収集された音声に関する音声データを取得する手段、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段、
前記第1遷移確率行列を参照して統合情報量を算出する手段、
前記統合情報量に基づいて前記会話を評価する手段
として機能させ
前記発言者データを生成する手段は、前記音声データを時間窓単位で解析することと、前記時間窓の位置を所定の移動時間だけ時間軸上で移動させることとを含む窓処理を繰り返すことで、各時間窓において発言した参加者の時系列遷移を表すように前記発言者データを生成し、
前記時間窓の時間長は、前記会話の参加者数、または前記移動時間の少なくとも1つに依存する、
プログラム。
【請求項11】
コンピュータを、
複数の参加者による会話から収集された音声に関する音声データを取得する手段、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段、
前記第1遷移確率行列を参照して統合情報量を算出する手段、
前記統合情報量に基づいて前記会話を評価する手段
として機能させ
前記統合情報量を算出する手段は、
前記第1遷移確率行列の独立成分を抽出することで、互いに独立な複数の第2状態の間の遷移確率を示す第2遷移確率行列を算出する手段と、
前記第2遷移確率行列を参照して前記統合情報量を算出する手段とを備える、
プログラム。
【請求項12】
コンピュータを、
複数の参加者による会話から収集された音声に関する音声データを取得する手段、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段、
前記第1遷移確率行列を参照して統合情報量を算出する手段、
前記統合情報量に基づいて前記会話を評価する手段
として機能させ
前記第1遷移確率行列を算出する手段は、前記複数の第1状態の少なくとも1つについて遷移確率を算出するために前記発言者データにおいて参照可能なデータサンプルの数が所定の条件を満たす場合に、既定の事前分布を用いて当該遷移確率を算出する、
プログラム。
【請求項13】
コンピュータを、
複数の参加者による会話から収集された音声に関する音声データを取得する手段、
前記音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段、
前記発言者データを参照して前記複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段、
前記第1遷移確率行列を参照して統合情報量を算出する手段、
前記統合情報量に基づいて前記会話を評価する手段
として機能させ
前記会話を評価する手段は、前記統合情報量に基づく評価結果を出力し、
前記会話を評価する手段は、前記統合情報量を最大化する発言状態を示すコンプレックスを決定し、当該コンプレックスに関する情報を含む評価結果を出力する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、複数の参加者が集まる会議等において新たなアイデアを創出するために様々な取り組みがなされている。
【0003】
特許文献1には、議論に関する発言量総和およびメンバ参加数をパラメータとして議論活性化度を計算することが記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2008-262046号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術では、会議における発言量または発言者の多寡に着目して議論の活性を評価している。しかしながら、議論が活発な会議であっても、参加者の意見がばらばらのまま、つまり議論が収束せず新たなアイデアの創出に結び付かないことがある。
【0006】
本開示の目的は、複数の参加者間の意見の統合という観点から会話(会議を含む)を評価することである。
【課題を解決するための手段】
【0007】
本開示の一態様によれば、情報処理装置は、複数の参加者による会話から収集された音声に関する音声データを取得する手段と、音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段と、発言者データを参照して複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段と、第1遷移確率行列を参照して統合情報量を算出する手段と、統合情報量に基づいて会話を評価する手段とを備える。
【発明の効果】
【0008】
本開示によれば、複数の参加者間の意見の統合という観点から会話を評価できる。
【図面の簡単な説明】
【0009】
図1】本実施形態の情報処理装置の構成を示すブロック図である。
図2】本実施形態の概要の説明図である。
図3】本実施形態の発言者データのデータ構造を示す図である。
図4】本実施形態の情報処理のフローチャートである。
図5】本実施形態の情報処理における発言者データの生成処理の詳細のフローチャートである。
図6図5の処理の説明図である。
図7】TPMの説明図である。
図8】本実施形態の情報処理において表示される画面例を示す図である。
図9】本実施形態の情報処理において表示される画面例を示す図である。
図10】変形例1の情報処理におけるTPMの算出処理の詳細のフローチャートである。
図11】変形例2の情報処理における統合情報量の算出処理の詳細のフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0011】
(1)情報処理装置の構成
情報処理装置の構成について説明する。図1は、本実施形態の情報処理装置の構成を示すブロック図である。
【0012】
図1に示すように、情報処理装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14とを備える。
【0013】
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0014】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
【0015】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータ及びデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0016】
プロセッサ12は、記憶装置11に記憶されたプログラムを起動してデータを処理することによって、情報処理装置10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。記憶装置11により記憶されるプログラム及びデータは、ネットワークを介して提供されてもよいし、コンピュータにより読み取り可能な記録媒体に記録して提供されてもよい。なお、情報処理装置10の機能の少なくとも一部が、1又は複数の専用のハードウェアにより実現されていてもよい。
【0017】
入出力インタフェース13は、情報処理装置10に接続される入力デバイスから信号(例えば、音声信号、ユーザの指示、制御信号)を取得し、かつ、情報処理装置10に接続される出力デバイスに信号(例えば、画像信号、音声信号、制御信号)を出力するように構成される。
入力デバイスは、例えば、センサ(マイクロホンを含む)、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0018】
通信インタフェース14は、情報処理装置10と外部装置との間の通信を制御するように構成される。
【0019】
(2)実施形態の概要
本実施形態の概要について説明する。図2は、本実施形態の概要の説明図である。
【0020】
図2に示すように、情報処理装置10は、複数の参加者による会議(「会話」の一例)から収集された音声に関する音声データを取得する。一例として、音声は、複数のマイクロホンを用いて収集することができる。
【0021】
情報処理装置10は、取得した音声データを解析することで、発言した参加者(つまり、発言者)の時系列遷移を表す時系列データ(以下、「発言者データ」と称する)を生成する。一例として、情報処理装置10は、音声データに対して話者認識処理、または音源分離処理を行うことで、発言者を特定する。
【0022】
情報処理装置10は、生成した発言者データを参照して、遷移確率行列(TPM: Transition Probability Matrix)を算出する。TPMは、複数の発言状態の間の遷移確率を示す。発言状態とは、会議における複数の参加者の発言の組み合わせによって定義される。例えば、参加人数が4人の会議では、各参加者の発言の有無の組み合わせは16(=2)通りであるから、16種類の発言状態が定義される。
【0023】
情報処理装置10は、TPMを参照して統合情報量Phiを算出する。ここで、統合情報量Phiは、統合情報理論(IIT: Integrated Information Theory)において定義される指標である。IITによれば、統合情報量は、脳を構成する複数の神経細胞の発火の系列を分析し、神経細胞のネットワークにおいて統合された情報の量を評価することで得られる。
【0024】
新たなアイデアを創出するための理想的な会議では、ある参加者の発言にインスピレーションまたは動機づけを得て、別の参加者が発言する。このような議論を通じて各参加者の意見が統合され、新しいアイデアが生み出される。情報処理装置10は、IITにおける脳の神経細胞の発火を会議の参加者の発言に置き換えてTPMを算出し、当該TPMを元に統合情報量Phiを算出する。統合情報量Phiは、会議の複数の参加者において統合された情報の量を表す。統合情報量Phiによれば、会議の品質(例えば、参加者間の意見の統合)を定量評価することができる。
【0025】
さらに、情報処理装置10は、統合情報量Phiに加えてコンプレックスを決定し、当該コンプレックスに関する情報を会議の評価結果に含めてもよい。コンプレックスは、統合情報量Phiを最大化する発言状態(つまり、1以上の発言者)を示す。コンプレックスによれば、会議において意見の統合に対する貢献の大きかった参加者(統合情報量Phiを最大化する発言状態における発言者)を特定することができる。
【0026】
(3)データ構造
本実施形態の発言者データのデータ構造について説明する。図3は、本実施形態の発言者データのデータ構造を示す図である。
【0027】
図3に示すように、発言者データは、異なる時間に関連付けられる複数のサンプルからなる時系列データである。各サンプルは、サンプルIDによって識別される。各サンプルは、時間情報と、会議の各参加者の発言情報とを含む。
【0028】
時間情報は、各参加者の発言の有無が解析される対象期間に関する情報である。一例として、時間情報は、対象期間の始点、中点、または終点を示す値を持つ。
【0029】
参加者の発言情報は、当該発言情報に関連付けられる時間情報の示す対象期間における当該参加者の発言の有無を示す。発言情報は、参加者が対象期間に発言した場合には「1」の値を持ち、参加者が対象期間に発言しなかった場合には「0」の値を持つ。
【0030】
例えば、あるサンプルの発言者データにおいて、時間情報が「00:00:30」の値を持ち、Aさんの発言情報が「0」の値を持ち、Bさんの発言情報が「1」の値を持ち、かつCさんの発言情報が「1」の値を持っていたとする。この発言者データは、「00:00:30」によって特定される対象期間に、Aさんは発言せず、かつBさんおよびCさんが発言したことを意味する。
【0031】
(4)情報処理
本実施形態の情報処理について説明する。図4は、本実施形態の情報処理のフローチャートである。図5は、本実施形態の情報処理における発言者データの生成処理の詳細のフローチャートである。図6は、図5の処理の説明図である。図7は、TPMの説明図である。図8は、本実施形態の情報処理において表示される画面例を示す図である。図9は、本実施形態の情報処理において表示される画面例を示す図である。
【0032】
図4の情報処理は、例えば以下の開始条件のいずれかに応じて開始する。
・情報処理装置10に情報処理の開始を指示するユーザ指示が入力されたこと
・情報処理装置10が外部装置から情報処理の開始要求を受信したこと
・所定の日時が到来したこと
【0033】
図4に示すように、情報処理装置10は、音声データの取得(S110)を実行する。
具体的には、プロセッサ12は、複数の参加者による会議から収集された音声に関する音声データを取得する。プロセッサ12は、例えば以下のいずれかから音声データを取得する。
・記憶装置11
・入出力インタフェース13を介して接続された1以上のマイクロホン
・通信インタフェース14を介して接続された外部装置(例えば、音声データを蓄積する外部サーバ)
【0034】
ステップS110の後に、情報処理装置10は、発言者データの生成(S120)を実行する。
具体的には、プロセッサ12は、ステップS110において取得した音声データを解析することで、発言者データ(図3)を生成する。一例として、情報処理装置10は、音声データに対して話者認識処理、または音源分離処理を行うことで、発言者を特定する。
【0035】
会議を構成する個々の微小時間に着目すると、1人の参加者のみが発言している、または全ての参加者が発言していない、のどちらかの場合が殆どである。このように、対象期間を過度に短く設定すると、複数の参加者が同時に発言する発言状態は殆ど出現しない。つまり、全ての発言状態を網羅することが困難である。逆に、発言者データの時間情報に対応する対象期間を過度に長く設定すると、生成可能な発言者データのサンプル数が少なくなるうえに、発言時間の大きく異なる参加者が同時に発言したとして扱われる。対象期間を適切な時間長に設定することで、算出される統合情報量Phiの信頼度を向上させることができる。
【0036】
会議における参加者数をNとし、1発言あたりの標準的な所要時間(これは、発言者の交代周期に対応する)をTとすると、対象期間を例えば(N-1)×T以上、かつN×T以下程度の時間長に設定することができる。このような対象期間によれば、全ての参加者が逐次的に発言した場合であっても、個々の発言の所要時間がTを超過しない限り、これらの参加者を同時に発言したとして扱うことができる。このように、対象期間は、全ての発言状態を網羅可能であって、かつなるべく短い時間長であることが好ましい。
【0037】
1発言あたりの標準的な所要時間Tは、1会議毎に個別に決定されてもよいし、複数の会議に対して共通に決定されてもよい。所要時間Tは、評価対象となる会議における発言時間の測定値に基づいて事後的に決定されてよい。所要時間Tは、評価対象となる会議よりも以前に開催された1以上の会議における発言時間の測定値に基づいて決定されてもよい。
【0038】
一例として、情報処理装置10は、図5に示すように発言者データの生成(S120)を実行してもよい。
【0039】
図5に示すように、情報処理装置10は、音声データの解析(S1201)を実行する。
具体的には、プロセッサ12は、ステップS110において取得した音声データを単位時間の時間窓単位で解析する。ここで、時間窓は、発言者データにおける対象期間に対応するので、対象期間と同じ時間長を備える。発言者データの生成(S120)を実行する毎に、プロセッサ12は、時間窓の始点を例えば音声データの始点に初期化する。
一例として図6に示すように、プロセッサ12は、音声データのうち時間窓に含まれる複数のサンプルについてそれぞれ発言者を特定する。プロセッサ12は、時間窓に含まれる所定個数(所定個数は1であってもよいし、2以上であってもよい)以上のサンプルに対応する発言者を、時間窓における発言者として特定してもよい。これにより、発言者データの1サンプルが生成される。
【0040】
ステップS1201の後、音声データに未処理のデータが残存している場合に、情報処理装置10は、時間窓の移動(S1202)を実行する。
具体的には、プロセッサ12は、時間窓の位置を所定の移動時間だけ時間軸上で移動させる。移動時間は、時間窓よりも時間長が短くなるように定められてもよいが、時間窓以上の時間長に定められてもよい。例えば、移動時間は、1発言あたりの標準的な所要時間Tと同じ時間長を備える。
【0041】
ステップS1202の後、情報処理装置10は、音声データの解析(S1201)を実行する。
【0042】
ステップS1201の後、音声データに未処理のデータが残存していない場合に、情報処理装置10は、発言者データの生成(S120)を終了する。
【0043】
図4に示すように、ステップS120の後に、情報処理装置10は、TPMの算出(S130)を実行する。
具体的には、プロセッサ12は、ステップS120において生成した発言者データを参照して、複数の参加者の発言の有無の組み合わせによって定義される複数の発言状態の間の遷移確率を示すTPMを算出する。
【0044】
図7に示すように、TPMは、参加者数をNとすると、2行×N列の行列で表すことができる。TPMの行は、現在の発言状態を表すN桁のバイナリ値に対応する。例えば図7の(1000)は、Aさんだけが発言し、Bさん、Cさん、およびDさんが発言していない状態を表す。図7の(0110)は、BさんおよびCさんが発言し、AさんおよびDさんが発言していない状態を表す。
【0045】
TPMの第i行第j列の要素eijは、現在の発言状態が第i番目の状態である場合に、第j番目の参加者が次に発火する、つまり当該参加者を発言者に含む状態に遷移する確率を表す。例えば、図7の第3行第3列の要素は、現在の発言状態が(0100)である場合に、発言状態が(**1*)に遷移する確率が「0.62」である(換言すれば、発言状態が(**0*)に遷移する確率が「0.38」である)ことを表す。ここで、*は、ドントケア(0または1のいずれでもよい)である。
【0046】
ステップS130の後に、情報処理装置10は、統合情報量の算出(S140)を実行する。
具体的には、プロセッサ12は、ステップS130において算出したTPMを参照して、IITの定義に従って統合情報量Phiを算出する。
【0047】
ステップS140の後に、情報処理装置10は、会議の評価(S150)を実行する。
具体的には、プロセッサ12は、ステップS140において算出した会議の統合情報量Phiに基づいて会議を評価する。
【0048】
一例として、情報処理装置10は、画面P10(図8)をディスプレイに表示する。画面P10は、情報処理装置10に入出力インタフェース13を介して接続されたディスプレイに表示されてもよいし、情報処理装置10と通信インタフェース14を介して接続された外部装置のディスプレイに表示されてもよい。
【0049】
画面P10には、表示領域DA101と、表示領域DA102と、ボタンオブジェクトB10とが含まれる。
【0050】
表示領域DA101には、会議の品質の定量評価の結果に関する情報が表示される。会議の品質は、例えばステップS140において算出した統合情報量Phiに基づいて定量評価される。一例として、プロセッサ12は、統合情報量Phiの代表値(例えば最大値)を所定の数値範囲(例えば、0以上100以下の整数、5以下の自然数)に正規化した結果を表示領域DA101に含めてもよい。
【0051】
表示領域DA102には、会議において意見の統合に対する貢献の大きかった参加者の評価結果に関する情報が表示される。会議において意見の統合に対する貢献の大きかった参加者は、例えばステップS140において算出した統合情報量を最大化する1以上の発言者である。プロセッサ12は、ステップS140において算出した統合情報量を参照してコンプレックスを決定し、当該コンプレックスに関する情報を表示領域DA102に含めてもよい。
【0052】
評価閲覧者がボタンオブジェクトB10を選択すると、プロセッサ12は、画面P11(図9)をディスプレイに表示する。評価閲覧者は、例えば、データを提供した会議の参加者、組織内でのツール管理者をはじめとした組織に所属するメンバ、または情報処理装置10を用いて会議の評価サービスを提供する事業者などが該当する。
【0053】
画面P11には、表示領域DA11と、ボタンオブジェクトB11とが含まれる。
【0054】
表示領域DA11には、統合情報量Phiの時間変化に関する情報が含まれる。例えば、プロセッサ12は、ステップS140において算出した統合情報量Phiの時間変化をプロットしたグラフを表示領域DA11に含めてもよい。さらに、プロセッサ12は、統合情報量Phiの最大値φmと、最大値φmに対応する時間tmとを示す情報を表示領域DA11に含めてもよい。
【0055】
評価閲覧者がボタンオブジェクトB10を選択すると、プロセッサ12は、画面P10(図8)をディスプレイに表示する。
【0056】
ステップS150の終了を以て、情報処理装置10は、図4の情報処理を終了する。
【0057】
(6)小括
以上説明したように、本実施形態の情報処理装置10は、複数の参加者による会議から収集された音声に関する音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する。情報処理装置10は、発言者データを参照して、複数の参加者の発言の有無の組み合わせによって定義される複数の発言状態の間の遷移確率を示すTPMを算出する。情報処理装置10は、TPMを参照して統合情報量Phiを算出し、当該統合情報量Phiに基づいて会議を評価する。これにより、会話内容にかかわる言語的データを分析することなく、複数の参加者間の意見の統合という観点から会議を評価することができる。
【0058】
情報処理装置10は、音声データを時間窓単位で解析することと、当該時間窓の位置を時間窓の移動時間だけ時間軸上で移動させることとを含む窓処理を繰り返すことで、各時間窓における発言者の時系列遷移を表すように発言者データを生成してもよい。これにより、発言者データのサンプル数の減少を抑えつつ、対象期間の時間長を大きくすることが可能となる。時間窓の時間長は、会議の参加者数、または時間窓の移動時間の少なくとも1つに依存するように決定されてよい。これにより、時間窓の時間長を適正化して、信頼度の高い統合情報量Phiを算出することができる。時間窓の移動時間の時間長は、会議における1発言あたりの所要時間に依存してもよい。これにより、時間窓の移動時間の時間長を適正化して、信頼度の高い統合情報量Phiを算出することができる。
【0059】
情報処理装置10は、統合情報量Phiに基づく評価結果を出力してもよい。これにより、評価閲覧者は、会議の品質を定量的に把握することができる。情報処理装置10は、統合情報量Phiの時間変化に関する情報を評価結果に含めてもよい。これにより、評価閲覧者は、会議の品質が高かった時間、または会議の品質が低かった時間を把握し、より詳細に会議の内容を分析したり、今後の会議のタイムマネジメントに活用したりすることができる。情報処理装置10は、統合情報量Phiを最大化する1以上の発言者を示すコンプレックスを決定し、当該コンプレックスに関する情報を評価結果に含めてもよい。これにより、評価閲覧者は、会議における意見の統合に対する貢献の大きかった参加者を把握し、今後の会議の体制(例えば参加メンバ)の設計に活用することができる。
【0060】
(6)変形例
本実施形態の変形例について説明する。
【0061】
(6-1)変形例1
変形例1について説明する。変形例1は、発言企図を用いてTPMを算出する例である。
【0062】
(6-1-1)情報処理
変形例1の情報処理について説明する。図10は、変形例1の情報処理におけるTPMの算出処理の詳細のフローチャートである。
【0063】
変形例1の情報処理は、本実施形態の情報処理(図4)と比較して、TPMの算出(S130)の詳細において異なる。変形例1の情報処理では、図5を用いて説明した窓処理を行う必要はない。他の点について、変形例1の情報処理は、本実施形態の情報処理と同様である。
具体的には、情報処理装置10は、図10に示すようにTPMの算出(S130)を実行する。
【0064】
図6に示すように、情報処理装置10は、発言企図の抽出(S1301)を実行する。
具体的には、プロセッサ12は、ステップS120において生成した発言者データを参照して、発言企図を抽出する。
【0065】
ここで、発言企図とは、会議における複数の参加者のうち2名以上が同時に発言しているデータサンプルを意味する。白熱した会議では、参加者の発言に対して別の参加者が割り込んで発言を行うことがある。このような割り込みが生じると、複数の参加者の発言がわずかな時間だけ重なるが、最終的に1人の参加者が発言を継続して残りの参加者は発言の継続を差し控える。割り込みによって略同時に生じる複数の参加者の発言を発言企図として抽出し、抽出結果に基づいてTPMを算出することで、統合情報量Phiの信頼度を向上させることができる。
【0066】
ステップS1301の後に、情報処理装置10は、TPMの算出(S1302)を実行する。
具体的には、プロセッサ12は、ステップS1302における発言企図の抽出結果を参照してTPMを算出する。
【0067】
ステップS1301の終了を以て、情報処理装置10は、TPMの算出(S130)を終了する。
【0068】
(6-1-2)小括
以上説明したように、変形例1の情報処理装置10は、発言者データから発言企図を抽出し、当該発言企図の抽出結果を参照してTPMを算出する。これにより、信頼度の高い統合情報量Phiを算出することができる。
【0069】
(6-2)変形例2
変形例2について説明する。変形例2は、TPMから独立成分を抽出し、抽出結果に基づいて統合情報量Phiを算出する例である。変形例2は、本実施形態または変形例1と組み合わせることができる。
【0070】
(6-2-1)情報処理
変形例2の情報処理について説明する。図11は、変形例2の情報処理における統合情報量の算出処理の詳細のフローチャートである。
【0071】
変形例2の情報処理は、本実施形態の情報処理(図4)と比較して、統合情報量の算出(S140)および会議の評価(S150)の詳細において異なる。他の点について、変形例2の情報処理は、本実施形態の情報処理または変形例1の情報処理と同様である。
具体的には、情報処理装置10は、図11に示すように統合情報量の算出(S140)を実行する。
【0072】
図11に示すように、情報処理装置10は、独立成分の抽出(S1401)を実行する。
具体的には、プロセッサ12は、ステップS130において算出したTPMの独立成分を抽出する。プロセッサ12は、TPMに対して独立成分を抽出する処理(例えば、直交化、または行列分解)を行うことで、TPMを変換する。変換後のTPMは、互いに独立な複数の状態(以下、「独立状態」と称する)の間の遷移確率を示す。各独立状態は、複数の発言状態の変換結果に相当する。つまり、各独立状態は、少なくとも1つの発言状態と対応関係を有する。一例として、独立状態S1が、発言状態X1および発言状態X2に対して対応関係f1を有している場合に、S1=f1(X1,X2)と表すことができる。
【0073】
ステップS1401の後に、情報処理装置10は、統合情報量の算出(S1402)を実行する。
具体的には、プロセッサ12は、ステップS1401における変換後のTPMを参照して統合情報量Phiを算出する。
【0074】
ステップS1402の終了を以て、情報処理装置10は、統合情報量の算出(S140)を終了する。
【0075】
ステップS140の後に、情報処理装置10は、会議の評価(S150)を実行する。
具体的には、プロセッサ12は、ステップS1402において算出した統合情報量Phiと、独立状態と発言状態との対応関係とに基づいて、会議を評価する。一例として、プロセッサ12は、統合情報量Phiを最大化する独立状態を決定し、当該独立状態と対応関係のある(例えば寄与率の高い)複数の発言状態をコンプレックスと決定する。プロセッサ12は、例えば前述の独立状態S1=f1(X1,X2)をコンプレックスと決定した場合に、発言状態X1および発言状態X2をコンプレックスと決定する。
【0076】
(6-2-2)小括
【0077】
以上説明したように、変形例2の情報処理装置10は、発言者データに基づいて算出したTPMから独立成分を抽出し、抽出結果に基づいて統合情報量Phiを算出する。これにより、ノード間の独立性が担保されたTPMを利用できるので、信頼度の高い統合情報量Phiを算出することができる。
【0078】
情報処理装置10は、算出した統合情報量Phiと、独立状態と発言状態との対応関係とに基づいて、会議を評価してもよい。これにより、個々の発言状態に紐づけて会議を評価することができる。
【0079】
(6-3)変形例3
変形例3について説明する。変形例3は、既定の事前分布を必要に応じて利用してTPMを算出する例である。変形例3は、本実施形態、変形例1、または変形例2のうち1つ以上と組み合わせることができる。
【0080】
(6-3-1)情報処理
変形例3の情報処理について説明する。
【0081】
変形例3の情報処理は、本実施形態の情報処理(図4)と比較して、TPMの算出(S130)の詳細において異なる。他の点について、変形例3の情報処理は、本実施形態、変形例1、変形例2、またはこれら組み合わせの情報処理と同様である。
【0082】
具体的には、ステップS130において、プロセッサ12は、複数の発言状態のうち少なくとも1つについて遷移確率を算出するために発言者データにおいて参照可能なデータサンプルの数が所定の条件を満たす場合に、当該発言者データの代わりに既定の事前分布を用いて当該遷移確率を算出する。
【0083】
発言者データのサンプル数が少ない場合に、特定の発言状態の出現数が零、または極端に小さくなることがある。かかる発言状態について発言者データから算出された遷移確率は妥当でない可能性がある。一例として、ある発言状態について遷移確率を算出するために参照可能なデータサンプルの数が閾値未満である場合に、プロセッサ12は、既定の事前分布を用いて当該遷移確率を算出する。この閾値は、例えば二項分布の理論的信頼性を考慮して決定することができる。
【0084】
プロセッサ12は、対象となる各発言状態Siの次に各参加者Pjが発言する確率を、既定の事前分布を用いたベイズ推定を行うことで算出する。プロセッサ12は、算出した確率を、TPMの第Si行第Pj列の要素として扱う。
【0085】
既定の事前分布の第1の例は、一様分布である。
既定の事前分布の第2の例は、評価対象となる会議よりも以前に開催された1以上の会議において観測された各発話状態の出現確率に基づく確率分布である。
【0086】
(6-3-2)小括
以上説明したように、変形例3の情報処理装置10は、複数の発言状態の少なくとも1つについて、必要に応じて既定の事前分布を用いて遷移確率を算出する。これにより、TPMの要素の一部として妥当でない確率が算出される(例えば極わずかなサンプルに基づいて確率が算出される)のを防止し、信頼度の高い統合量を算出することができる。
【0087】
(7)その他の変形例
記憶装置11は、ネットワークNWを介して、情報処理装置10と接続されてもよい。
【0088】
本実施形態の情報処理装置10を、スタンドアロン型のコンピュータによって実装する例を示した。しかしながら、実施形態の情報処理装置10は、クライアント/サーバ型のシステムによって実装することもできる。
【0089】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【0090】
(8)付記
実施形態および変形例で説明した事項を、以下に付記する。
【0091】
(付記1)
複数の参加者による会話から収集された音声に関する音声データを取得する手段(S110)と、
音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段(S120)と、
発言者データを参照して複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段(S130)と、
第1遷移確率行列を参照して統合情報量を算出する手段(S140)と、
統合情報量に基づいて会話を評価する手段(S150)と
を具備する、情報処理装置(10)。
【0092】
(付記2)
発言者データを生成する手段は、音声データを時間窓単位で解析すること(S1201)と、時間窓の位置を所定の移動時間だけ時間軸上で移動させること(S1202)とを含む窓処理を繰り返すことで、各時間窓において発言した参加者の時系列遷移を表すように発言者データを生成する、
付記1に記載の情報処理装置。
【0093】
(付記3)
時間窓の時間長は、会話の参加者数、または移動時間の少なくとも1つに依存する、
付記2に記載の情報処理装置。
【0094】
(付記4)
移動時間の時間長は、1発言あたりの所要時間に依存する、
付記2または付記3に記載の情報処理装置。
【0095】
(付記5)
第1遷移確率行列を算出する手段は、
発言者データを参照して複数の参加者のうち2名以上が同時に発言しているデータサンプルを抽出する手段(S1301)と、
データサンプルの抽出結果を参照して第1遷移確率行列を算出する手段(S1302)とを備える、
付記1に記載の情報処理装置。
【0096】
(付記6)
統合情報量を算出する手段は、
第1遷移確率行列の独立成分を抽出することで、互いに独立な複数の第2状態の間の遷移確率を示す第2遷移確率行列を算出する手段(S1401)と、
第2遷移確率行列を参照して統合情報量を算出する手段(S1402)とを備える、
付記1乃至付記5のいずれかに記載の情報処理装置。
【0097】
(付記7)
会話を評価する手段は、複数の第2状態と複数の第1状態との対応関係にさらに基づいて会話を評価する、
付記6に記載の情報処理装置。
【0098】
(付記8)
第1遷移確率行列を算出する手段は、複数の第1状態の少なくとも1つについて遷移確率を算出するために発言者データにおいて参照可能なデータサンプルの数が所定の条件を満たす場合に、既定の事前分布を用いて当該遷移確率を算出する、
付記1乃至付記7のいずれかに記載の情報処理装置。
【0099】
(付記9)
会話を評価する手段は、統合情報量に基づく評価結果を出力する、
付記1乃至付記8のいずれかに記載の情報処理装置。
【0100】
(付記10)
評価結果は、統合情報量の時間変化に関する情報を含む、
付記9に記載の情報処理装置。
【0101】
(付記11)
会話を評価する手段は、統合情報量を最大化する発言状態を示すコンプレックスを決定し、当該コンプレックスに関する情報を含む評価結果を出力する、
付記9または付記10に記載の情報処理装置。
【0102】
(付記12)
コンピュータ(10)が、
複数の参加者による会話から収集された音声に関する音声データを取得すること(S110)と、
音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成すること(S120)と、
発言者データを参照して複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出すること(S130)と、
第1遷移確率行列を参照して統合情報量を算出すること(S140)と、
統合情報量に基づいて会話を評価すること(S150)と
を具備する、情報処理方法。
【0103】
(付記13)
コンピュータ(10)を、
複数の参加者による会話から収集された音声に関する音声データを取得する手段(S110)、
音声データを解析することで、発言した参加者の時系列遷移を表す発言者データを生成する手段(S120)、
発言者データを参照して複数の参加者の発言の有無の組み合わせによって定義される複数の第1状態の間の遷移確率を示す第1遷移確率行列を算出する手段(S130)、
第1遷移確率行列を参照して統合情報量を算出する手段(S140)、
統合情報量に基づいて会話を評価する手段(150)
として機能させるプログラム。
【符号の説明】
【0104】
10 :情報処理装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11