(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023127481
(43)【公開日】2023-09-13
(54)【発明の名称】説得力推定装置、説得力推定方法及び説得力推定プログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20230906BHJP
G10L 15/16 20060101ALI20230906BHJP
【FI】
G10L15/10 500Z
G10L15/16
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022031300
(22)【出願日】2022-03-01
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】397038037
【氏名又は名称】学校法人成蹊学園
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】二瓶 芙巳雄
(72)【発明者】
【氏名】石井 亮
(72)【発明者】
【氏名】深山 篤
(72)【発明者】
【氏名】中村 高雄
(72)【発明者】
【氏名】伊藤 温志
(72)【発明者】
【氏名】中野 有紀子
(57)【要約】
【課題】グループ会議における参加者の説得力の推定を可能にすることができる。
【解決手段】入力情報生成部16は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第1活性化関数を用いて会話参加者の会話における行動の特徴量を含む入力情報を生成する。推定部17は、入力情報生成部16により生成された入力情報に対して第2活性化関数を用いて説得力の評価値を取得し、取得した評価値を基に会話参加者間の説得力の順位のクラスを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第1活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する入力情報生成部と、
前記入力情報生成部により生成された前記入力情報に対して第2活性化関数を用いて、前記会話参加者間の説得力の順位のクラスを生成する推定部と
を備えたことを特徴とする説得力推定装置。
【請求項2】
前記推定部は、前記入力情報に対して前記第2活性化関数を用いて前記会話参加者それぞれの説得力の評価値を取得し、取得した各前記評価値を基に前記会話参加者間の説得力の順位の前記クラスを生成することを特徴とする請求項1に記載の説得力推定装置。
【請求項3】
前記入力情報生成部は、前記会話参加者のうちの1人を推定対象者とし他の前記会話参加者を他参加者として、前記推定対象者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記推定対象者の第1入力情報を生成し、全ての前記他参加者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記他参加者をまとめた第2入力情報を生成し、
前記推定部は、前記第1入力情報及び前記第2入力情報を用いて、前記推定対象者の属する前記クラスを推定する
ことを特徴とする請求項1又は2に記載の説得力推定装置。
【請求項4】
前記入力情報生成部は、各前記他参加者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記第1活性化関数を用いて前記他参加者毎の会話における行動の特徴量を生成し、前記他参加者毎の会話における行動の前記特徴量を連結させたデータに対して前記第1活性化関数を用いて前記第2入力情報を生成することを特徴とする請求項3に記載の説得力推定装置。
【請求項5】
前記入力情報生成部は、前記第1活性化関数としてReLUを用い、
前記推定部は、前記第2活性化関数としてSoftmaxを用いる
ことを特徴とする請求項1~4のいずれか一つに記載の説得力推定装置。
【請求項6】
前記会話参加者のそれぞれの前記映像情報である顔の特徴値を基に映像ベクトルデータを生成する映像情報処理部と、
前記会話参加者のそれぞれの前記音声情報であるメルスペクトログラムを基に音声ベクトルデータを生成する音声情報処理部と、
各前記会話参加者のそれぞれの前記言語情報である発言の書き起こしを基に言語ベクトルデータを生成する言語情報処理部と、
前記談話構造情報として、前記会話参加者のそれぞれの発話数及び発話長を表現したベクトルデータを生成する談話構造情報生成部とをさらに備え、
前記入力情報生成部は、前記映像情報処理部より生成された前記映像ベクトルデータ、前記音声情報処理部により生成された前記音声ベクトルデータ、前記言語情報処理部により生成された言語ベクトルデータ、及び、前記談話構造情報生成部により生成された前記談話構造情報を基に、前記入力情報を生成する
ことを特徴とする請求項1~5のいずれか一つに記載の説得力推定装置。
【請求項7】
説得力推定装置で実行される説得力推定方法であって、
会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第1活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する生成工程と、
前記入力情報に対して第2活性化関数を用いて、前記会話参加者間の説得力の順位のクラスを生成する推定工程と
を含んだことを特徴とする説得力推定方法。
【請求項8】
コンピュータを請求項1~6に記載の説得力推定装置として機能させるための説得力推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、説得力推定装置、説得力推定方法及び説得力推定プログラムに関する。
【背景技術】
【0002】
従来、グループ会議における参加者の説得力を推定する技術として、語り手のモノローグを視聴した視聴者が説得された程度として説得力を定義し、その定義に応じて説得力の推定を行う技術が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Sunghyun Park, Han Suk Shim, Moitreya Chatterjee, Kenji Sagae, and Louis-Philippe Morency. 2014. Computational Analysis of Persuasiveness in Social Multimedia: A Novel Dataset and Multimodal Prediction Approach. In Proceedings of the 16th International Conference on Multimodal Interaction (ICMI '14). Association for Computing Machinery, New York, NY, USA, 50-57. DOI, [令和4年2月8日検索] インターネット <URL:https://doi.org/10.1145/2663204.2663260>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、複数名のメンバーが参加するグループ会議では、参加者の説得力は参加者間での説得力を比較したうえで評価される。そのため、語り手のモノローグを視聴した視聴者が説得された程度を説得力の定義として単純に用いても、相互の比較が考慮されておらず、グループ会議における各参加者の説得力を推定することは難しい。
【0005】
本発明は、上記に鑑みてなされたものであって、グループ会議における参加者の説得力の推定を可能にすることを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、推定制御装置は、入力情報生成部及び推定部を備える。入力情報生成部は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第1活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する。推定部は、前記入力情報生成部により生成された前記入力情報に対して第2活性化関数を用いて説得力の評価値を取得し、取得した前記評価値を基に前記会話参加者間の説得力の順位のクラスを生成する。
【発明の効果】
【0007】
本発明によれば、グループ会議における参加者の説得力の推定することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る説得力推定装置のブロック図である。
【
図2】
図2は、説得力推定装置が実行する処理の概要を示す図である。
【
図3】
図3は、実施形態に係る説得力推定処理のフローチャートである。
【
図4】
図4は、説得力推定プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願の開示する説得力推定装置、説得力推定方法及び説得力推定プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する説得力推定装置、説得力推定方法及び説得力推定プログラムが限定されるものではない。
【0010】
[説得力推定装置の構成]
図1を用いて、説得力推定装置1の構成について説明する。
図1は、実施形態に係る説得力推定装置のブロック図である。説得力推定装置1は、サーバなどの情報処理装置である。説得力推定装置1は、複数名のメンバーが参加するグループ会議における会話に参加した推定対象者の説得力を推定する装置である。
図1に示すように、説得力推定装置1は、データ入力装置2に接続される。
【0011】
データ入力装置2は、グループ会議の1分間におけるグループ会議での会話に参加した会話参加者である推定対象者及びその他の参加者である他参加者のデータを取得して説得力推定装置1に送信する。例えば、データ入力装置2は、カメラ及びマイクを有する。そして、データ入力装置2は、カメラで撮影したグループ会議の1分間の画像データ及びマイクで収集した1分間の音性データを説得力推定装置1へ送信する。他にも、データ入力装置2は、利用者からの指示を受けて、画像データや音声データを編集する機能を有していてもよい。
【0012】
説得力推定装置1は、
図1に示すように、データ取得部11,映像情報処理部12,音声情報処理部13、言語情報処理部14、談話構造情報生成部15、入力情報生成部16、推定部17及び出力部18を有する。以下では、グループ会議の会話参加者が合わせて4名の場合を例に説明する。
【0013】
データ取得部11は、データ入力装置2からグループ会議における4名分の1分間の画像データ及び音声データを取得する。
【0014】
そして、データ取得部11は、画像データから、1分の区間における、4名の会話参加者それぞれの顔の特徴値を取得する。顔の特徴値は、本実施形態では、3次元空間で表される映像上の頭部の位置及び頭部回転の情報を含む6次元のデータである。例えば、データ取得部11は、画像データを基に、映像ベースの顔トラッカの出力値として顔の特徴値を得ることができる。そして、データ取得部11は、1分の区間における、4名の会話参加者それぞれの顔の特徴値を含む映像情報を映像情報処理部12へ出力する。
【0015】
また、データ取得部11は、音声データから、1分の区間における、4名の会話参加者それぞれの音響特徴量であるメルスペクトログラムを取得する。メルスペクトログラムは、本実施例では、64次元のデータであり、フレームレートが50fps、すなわち分析単位である1分あたり3000フレームのデータである。そして、データ取得部11は、1分の区間における、4名の会話参加者それぞれのメルスペクトログラムを含む音声情報を音声情報処理部13へ出力する。
【0016】
また、データ取得部11は、音声データから、1分の区間における、4名の会話参加者それぞれの発言を書き起こした言語情報を取得する。そして、データ取得部11は、1分の区間における、4名の会話参加者それぞれの発言を書き起こした言語情報を言語情報処理部14へ出力する。
【0017】
また、データ取得部11は、音声データから、1分の区間における、4名の会話参加者それぞれの発言の時間区間情報を取得する。そして、データ取得部11は、1分の区間における、4名の会話参加者それぞれの発言の時間区間情報を談話構造情報生成部15へ出力する。
【0018】
映像情報処理部12は、映像情報をベクトル化する映像情報のエンコーダを有する。映像情報のエンコーダは、例えば、Gated Recurrent Unit(GRU)で実装される。
【0019】
映像情報処理部12は、3次元空間における頭部位置と頭部回転を表す6次元のデータである映像情報の入力をデータ取得部11から受ける。次に、映像情報処理部12は、入力された映像情報を180フレーム(180フレームは6秒間に対応する。)毎に平均する。次に、映像情報処理部12は、平均したフレームを映像情報のエンコーダである二層の双方向GRUに入力する。そして、映像情報処理部12は、GRUの二層目の最終の隠れ状態をエンコーダの出力として取得して映像ベクトルデータとする。映像ベクトルデータは、6×2のサイズを有する。その後、映像情報処理部12は、4名の会話参加者それぞれの映像ベクトルデータを入力情報生成部16へ出力する。
【0020】
音声情報処理部13は、音声情報をベクトル化する音声情報のエンコーダを有する。音声情報のエンコーダは、例えば、GRUで実装される。
【0021】
音声情報処理部13は、64次元のデータである音声情報の入力をデータ取得部11から受ける。次に、音声情報処理部13は、入力された音声情報を300フレーム(300フレームは6秒間に対応する。)毎に平均する。次に、音声情報処理部13は、平均したフレームを、音声情報のエンコーダである二層の双方向GRUに入力する。そして、音声情報処理部13は、GRUの二層目の最終の隠れ状態をエンコーダの出力として取得して音声ベクトルデータとする。音声ベクトルデータは、64×2のサイズを有する。その後、音声情報処理部13は、4名の会話参加者それぞれの音声ベクトルデータを入力情報生成部16へ出力する。
【0022】
言語情報処理部14は、言語情報をベクトル化する言語情報のエンコーダを有する。言語情報のエンコーダは、例えば、GRUで実装される。
【0023】
言語情報処理部14は、1分の区間における、4名の会話参加者それぞれの発言を書き起こした言語情報の入力をデータ取得部11から受ける。次に、言語情報処理部14は、1分間にて生じた発話それぞれについて、BERT(Bidirectional Encoder Representations from Transformers)などの自然言語処理モデルを使用して768次元のベクトルデータを生成する。次に、言語情報処理部14は、生成した発話それぞれに対応する768次元のベクトルデータを、言語情報のエンコーダである二層の双方向GRUに入力する。そして、言語情報処理部14は、GRUの二層目の最終の隠れ状態をエンコーダの出力として取得して言語ベクトルデータとする。言語ベクトルデータは、768×2のサイズを有する。その後、言語情報処理部14は、4名の会話参加者それぞれの言語ベクトルデータを入力情報生成部16へ出力する。
【0024】
談話構造情報生成部15は、1分の区間における、4名の会話参加者それぞれの発言の時間区間情報の入力をデータ取得部11から受ける。次に、談話構造情報生成部15は、4名の会話参加者それぞれの1分間における発話数と各発話の発話長を時間区間情報から取得する。次に、談話構造情報生成部15は、1分間における4名の会話参加者それぞれの発話数及び発話長を表現したベクトルデータである談話構造情報を生成する。
【0025】
例えば、談話構造情報生成部15は、発話長に基づく8つのビンを用意する。8つのビンは、例えば、0秒以上1秒未満の発話長のビン、1秒以上2秒未満の発話長のビン、2秒以上3秒未満の発話長のビン、3秒以上5秒未満の発話長のビン、5秒以上8秒未満の発話長のビン、8秒以上10秒未満の発話長のビン、10秒以上15秒未満の発話長のビン及び10秒以上15秒未満の発話長のビンである。次に、談話構造情報生成部15は、各ビンに1分間において生じた発話を投入する。その後、談話構造情報生成部15は、各ビンに含まれる発話の数を数え上げる。これにより、談話構造情報生成部15は、8次元のベクトルデータである談話構造情報を生成することができる。
【0026】
その後、談話構造情報生成部15は、生成した4名の会話参加者それぞれの談話構造情報を入力情報生成部16へ出力する。
【0027】
入力情報生成部16は、活性化関数がReLU(Rectified Linear Unit)である全結合層を有する。入力情報生成部16は、4名の会話参加者それぞれの映像ベクトルデータの入力を映像情報処理部12から受ける。また、入力情報生成部16は、4名の会話参加者それぞれの音声ベクトルデータの入力を音声情報処理部13から受ける。また、入力情報生成部16は、4名の会話参加者それぞれの言語ベクトルデータの入力を言語情報処理部14から受ける。さらに、入力情報生成部16は、4名の会話参加者それぞれの談話構造情報の入力を談話構造情報生成部15から受ける。
【0028】
入力情報生成部16は、以下に説明するように推定対象者の入力情報を生成する。入力情報生成部16は、推定対象者の映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、その推定対象者のマルチモーダルテンソル(Multimodal Tensor)を作成する。次に、入力情報生成部16は、生成した推定対象者のマルチモーダルテンソルを活性化関数がReLUである全結合層に入力し、100次元の推定対象者ベクトルを取得する。
【0029】
また、入力情報生成部16は、以下に説明するように他参加者に関する入力情報を生成する。入力情報生成部16は、他参加者毎に、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、各他参加者のマルチモーダルテンソルを作成する。次に、入力情報生成部16は、生成した各他参加者のマルチモーダルテンソルを活性化関数がReLUである全結合層に入力し、100次元の他参加者ベクトルを他参加者それぞれについて取得する。その後、入力情報生成部16は、3名分の他参加者ベクトルを連結させて、マルチパーティテンソル(Multiparty Tensor)を作成する。次に、入力情報生成部16は、マルチパーティテンソルを活性化関数がReLUである全結合層に入力し、100次元の他参加者結合ベクトルを取得する。ここで、マルチパーティテンソルを入力する全結合層は、マルチモーダルテンソルを入力する全結合層と同じ構造を有していてもよいし、異なる構造を有していてもよい。
【0030】
以上のように、入力情報生成部16は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、ReLUである第1活性化関数を用いて会話参加者の会話における行動の特徴量を含む入力情報を生成する。より詳しくは、入力情報生成部16は、会話参加者のうちの1人を推定対象者とし他の会話参加者を他参加者として、推定対象者の音声情報、言語情報、映像情報及び談話構造情報を基に推定対象者の第1入力情報を生成し、全ての他参加者の音声情報、言語情報、映像情報及び談話構造情報を基に他参加者をまとめた第2入力情報を生成する。
【0031】
その後、入力情報生成部16は、100次元の推定対象者ベクトル及び100次元の他参加者結合ベクトルを推定部17へ出力する。
【0032】
推定部17は、活性関数がsoftmaxである全結合層を有する。推定部17は、100次元の推定対象者ベクトル及び100次元の他参加者結合ベクトルの入力を入力情報生成部16から受ける。
【0033】
次に、推定部17は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて200次元のベクトルデータである連結データを生成する。次に、推定部17は、活性化関数がsoftmaxである全結合層へ連結データを入力する。その後、推定部17は、全結合層からの出力を推定対象者の説得力推定結果として取得する。推定部17は、説得力をn(nは2以上の自然数)値の分類問題として推定し、全結合層の出力として説得力のクラスラベルの尤度を取得する。
【0034】
例えば、説得力として、1~7の数値で評価者からの評価が与えられる場合で説明する。この場合、推定部17は、以下の方法でその数値をクラス化する。例えば、推定部17は、1分間の区間における、すべての参加者の説得力の数値を得たうえで、数値を順位に置き換える。例えば、4名の参加者の説得力の評価値がそれぞれ、5、7、3、1であれば、推定部17は、各参加者の順位を順に2位、1位、3位、4位とする。次に、推定部17は、順位をクラス化する。例えば、推定部17は、1位と2位をまとめて高説得力、それ以外を低説得力とする。この場合、推定部17は、説得力の2種類のクラスラベルの尤度を推定結果として出力する。
【0035】
以上のように、推定部17は、入力情報生成部16により生成された入力情報に対してsoftmaxである第2活性化関数を用いて、会話参加者間の説得力の順位のクラスを生成する。より詳しくは、推定部17は、推定者の第1入力情報及び全ての他参加者の第2入力情報を用いて、推定対象者がクラスのいずれに属するかを推定する。例えば、推定部17は、入力情報に対して第2活性化関数を用いて会話参加者それぞれの説得力の評価値を取得し、取得した各評価値を基に前記クラスを生成する。
【0036】
出力部18は、推定部17による推定結果を取得する。そして、出力部19は、モニタなどの出力装置に推定結果を表示させて、利用者に推定結果を通知する。
【0037】
ここで、
図2を参照して、説得力推定装置1の機能についてまとめて説明する。
図2は、説得力推定装置が実行する処理の概要を示す図である。
図2におけるブロック100は、推定対象者の行動の処理を表す。また、ブロック110、120及び130は、3名の第1~第3の他参加者の行動の処理を表す。
【0038】
ブロック100において、映像情報処理部12は、推定対象者の3次元空間における頭部位置と頭部回転を表す6次元のデータである映像情報101の入力をデータ取得部11から受ける。次に、映像情報処理部12は、映像情報101を180フレーム毎に平均して二層の双方向GRUであるGRU105に入力する。そして、映像情報処理部12は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、6×2次元データである推定対象者の映像ベクトルデータを取得する。
【0039】
同様にブロック100において、音声情報処理部13は、推定対象者の64次元のデータである音声情報102の入力をデータ取得部11から受ける。次に、音声情報処理部13は、音声情報102を300フレーム毎に平均して二層の双方向GRUであるGRU106に入力する。そして、音声情報処理部13は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、64×2次元データである推定対象者の音声ベクトルデータを取得する。
【0040】
同様にブロック100において、言語情報処理部14は、1分の区間における推定対象者の発言を書き起こした言語情報103を取得して、発話それぞれについて自然言語処理モデルを使用して768次元のベクトルデータを生成する。ここで、
図2では、便宜上、言語情報103に768次元の脚注を付けたが、実際には言語情報103がベクトルデータに変えられた後の次元である。次に、言語情報処理部14は、生成した発話それぞれに対応する768次元のベクトルデータを、二層の双方向GRUであるGRU107に入力する。そして、言語情報処理部14は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、768×2次元データである推定対象者の言語ベクトルデータを取得する。
【0041】
同様にブロック100において、談話構造情報生成部15は、推定対象者の1分間における発話数と各発話の発話長を音声データ及び画像データから取得する。次に、談話構造情報生成部15は、1分間における推定対象者の発話数及び発話長を表現したベクトルデータである談話構造情報104を生成する。
【0042】
同様にブロック100において、入力情報生成部16は、推定対象者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、推定対象者のマルチモーダルテンソル108を作成する。次に、入力情報生成部16は、生成した推定対象者のマルチモーダルテンソル108を活性化関数がReLUである全結合層109に入力し、100次元データの推定対象者ベクトルを取得する。
【0043】
また、ブロック110において、映像情報処理部12は、第1の他参加者の3次元空間における頭部位置と頭部回転を表す6次元のデータである映像情報111の入力をデータ取得部11から受ける。次に、映像情報処理部12は、映像情報111を180フレーム毎に平均して二層の双方向GRUであるGRU115に入力する。そして、映像情報処理部12は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、6×2次元データである第1の他参加者の映像ベクトルデータを取得する。ここで、GRU115は、GRU105と同じものでもよい。
【0044】
同様にブロック110において、音声情報処理部13は、第1の他参加者の64次元のデータである音声情報112の入力をデータ取得部11から受ける。次に、音声情報処理部13は、音声情報112を300フレーム毎に平均して二層の双方向GRUであるGRU116に入力する。そして、音声情報処理部13は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、64×2次元データである第1の他参加者の音声ベクトルデータを取得する。ここで、GRU116は、GRU106と同じものでもよい。
【0045】
同様にブロック110において、言語情報処理部14は、第1の他参加者の発言を書き起こした言語情報113を取得して、発話それぞれについて自然言語処理モデルを使用して768次元のベクトルデータを生成する。次に、言語情報処理部14は、生成した発話それぞれに対応する768次元のベクトルデータを、二層の双方向GRUであるGRU117に入力する。そして、言語情報処理部14は、GRUの二層目の最終の隠れ状態をエンコーダの出力として、768×2次元データである第1の他参加者の言語ベクトルデータを取得する。ここで、GRU117は、GRU107と同じものでもよい。
【0046】
同様にブロック110において、談話構造情報生成部15は、第1の他参加者の1分間における発話数と各発話の発話長を音声データ及び画像データから取得する。次に、談話構造情報生成部15は、1分間における第1の他参加者の発話数及び発話長を表現したベクトルデータである談話構造情報114を生成する。
【0047】
同様にブロック110において、入力情報生成部16は、第1の他参加者の映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、第1の他参加者のマルチモーダルテンソル118を作成する。次に、入力情報生成部16は、生成した推定対象者のマルチモーダルテンソル118を活性化関数がReLUである全結合層119に入力し、100次元データの第1の他参加者の他参加者ベクトルを取得する。ここで、全結合層119は、全結合層109と同じものでもよい。
【0048】
入力情報生成部16は、ブロック120及び130についても、ブロック110と同様の処理を行い、100次元データの第2及び第3の他参加者の他参加者ベクトルをそれぞれ取得する。
【0049】
次に、入力情報生成部16は、ブロック110、120及び130から出力された、100次元データである第1~第3の他参加者の他参加者ベクトルを連結させて、マルチパーティテンソル201を作成する。次に、入力情報生成部16は、マルチパーティテンソル201を活性化関数がReLUである全結合層202に入力し、100次元データである他参加者結合ベクトルを取得する。
【0050】
推定部17は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて200次元のベクトルデータである連結データ301を生成する。次に、推定部17は、活性化関数がsoftmaxである全結合層302に連結データ301を入力する。その後、推定部17は、全結合層302からの出力を推定対象者の説得力推定結果303として取得する。
【0051】
[説得力推定処理]
次に、
図3を参照して、説得力推定装置1による説得力推定処理の全体の流れについて説明する。
図3は、実施形態に係る説得力推定処理のフローチャートである。
【0052】
映像情報処理部12、音声情報処理部13、言語情報処理部14及び談話構造情報生成部15は推定対象者のデータを取得する(ステップS1)。
【0053】
映像情報処理部12は、映像情報を180フレーム毎に平均して二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として推定対象者の映像ベクトルデータを取得する映像処理を実行する(ステップS2)。
【0054】
音声情報処理部13は、音声情報を300フレーム毎に平均して二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として推定対象者の音声ベクトルデータを取得する音声処理を実行する(ステップS3)。
【0055】
言語情報処理部14は、言語情報に対して自然言語処理モデルを用いて生成した768次元のベクトルデータを二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として、推定対象者の言語ベクトルデータを取得する言語処理を実行する(ステップS4)。
【0056】
談話構造情報生成部15は、推定対象者の1分間における発話数と各発話の発話長を取得して。1分間における推定対象者の発話数及び発話長を表現したベクトルデータである談話構造情報を生成する(ステップS5)。
【0057】
その後、入力情報生成部16は、推定対象者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、推定対象者のマルチモーダルテンソルを作成する(ステップS6)。
【0058】
次に、入力情報生成部16は、生成した推定対象者のマルチモーダルテンソルを活性化関数がReLUである全結合層に入力して推定対象者ベクトルを取得する(ステップS7)。
【0059】
また、映像情報処理部12、音声情報処理部13、言語情報処理部14及び談話構造情報生成部15は他参加者のデータを取得する(ステップS8)。
【0060】
映像情報処理部12は、映像情報を180フレーム毎に平均して二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として他参加者の映像ベクトルデータを取得する映像処理を実行する(ステップS9)。
【0061】
音声情報処理部13は、音声情報を300フレーム毎に平均して二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として他参加者の音声ベクトルデータを取得する音声処理を実行する(ステップS10)。
【0062】
言語情報処理部14は、言語情報に対して自然言語処理モデルを用いて生成した768次元のベクトルデータを二層の双方向GRUに入力して、GRUの二層目の最終の隠れ状態をエンコーダの出力として、他参加者の言語ベクトルデータを取得する言語処理を実行する(ステップS11)。
【0063】
談話構造情報生成部15は、他参加者の1分間における発話数と各発話の発話長を取得して。1分間における他参加者の発話数及び発話長を表現したベクトルデータである談話構造情報を生成する(ステップS12)。
【0064】
その後、入力情報生成部16は、他参加者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、他参加者のマルチモーダルテンソルを作成する(ステップS13)。
【0065】
次に、入力情報生成部16は、生成した他参加者のマルチモーダルテンソルを活性化関数がReLUである全結合層に入力して他参加者ベクトルを取得する(ステップS14)。
【0066】
次に、入力情報生成部16は、全ての他参加者の他参加者ベクトルを取得したか否かを判定する(ステップS15)。他参加者ベクトルを未取得の他参加者が存在する場合(ステップS15:否定)、入力情報生成部16は、ステップS8に戻る。
【0067】
これに対して、全ての他参加者の他参加者ベクトルを取得した場合(ステップS15:肯定)、入力情報生成部16は、全ての他参加者ベクトルを連結させて、マルチパーティテンソルを作成する(ステップS16)。
【0068】
次に、入力情報生成部16は、マルチパーティテンソルを活性化関数がReLUである全結合層に入力して、他参加者結合ベクトルを取得する(ステップS17)。
【0069】
推定部17は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて200次元のベクトルデータである連結データを生成する(ステップS18)。
【0070】
次に、推定部17は、活性化関数がsoftmax関数である全結合層に連結データを入力して、全結合層からの出力を推定対象者の説得力推定結果として取得する(ステップS19)。
【0071】
[説得力推定装置及び説得力推定処理による効果]
以上に説明したように、本実施例に係る説得力推定装置は、会話参加者全員のメルスペクトログラムなどの音声情報、会話参加者全員の発言の書き起こしなどの言語情報、映像ベースの顔トラッカの出力値などの映像情報及び参加者の発話量などの談話構造情報を入力情報とする。そして、説得力推定装置は、深層学習技術を用いた推定器を使用して、入力情報から推定対象者の説得力を推定する。さらに、説得力推定装置は、説得力の推定においては、参加者の説得力を評価者が評価する際の、参加者間での暗黙的な相対評価を考慮するため、前処理により説得力の評価値を、参加者間の説得力の順位のクラスとして再定義する。参加者間の説得力の順位のクラスとは、具体的には、参加者全員の説得力を順位で置き換えて、その順位を基に説得力が高いクラス及び説得力が低いクラスのように、説得力をクラス化することである。
【0072】
これにより、説得力の数値を直接推定する、あるいは参加者間の順位を考慮せず説得力の数値をクラス化した場合と比較して、グループにおける説得力の推定性能を向上させることができ、各参加者の説得力を適切に推定することが可能になる。ここで、説得力の数値を直接推定するとは、例えば評価者による評価が説得力を1~7点の数値で表される場合に、評価者が評価した参加者の説得力の高さの数値(例えば、「6」など)を直接推定することにあたる。また、参加者間の順位を考慮せず説得力の数値をクラス化した場合とは、例えば評価者による評価が説得力を1~7点の数値で表される場合に、1~3点を低いクラス、4点を中程度のクラス、5~7点を高いクラスといったようにクラス化することにあたる。
【0073】
また、従来は特定の話者の説得力を評価する場合に、他の話者のデータは用いずにその特定の話者のデータを用いて推定を行っていた。これに対して、本実施例に係る説得力推定装置は、評価対象の話者及び他の話者を含む会話参加者全員のデータを用いて特定の話者の説得力の評価を行うため、話者の発言に対する他者の反応も考慮することができ、説得力の推定性能が向上する。
【0074】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0075】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0076】
[プログラム]
一実施形態として、説得力推定装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の情報処理を実行する説得力推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の説得力推定プログラムを情報処理装置に実行させることにより、情報処理装置を説得力推定装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handy-phone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0077】
また、説得力推定装置1は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の説得力推定処理に関するサービスを提供する説得力推定サーバ装置として実装することもできる。例えば、説得力推定装置は、グループ会議の各参加者のデータを入力とし、説得力推定処理を行う説得力推定サービスを提供するサーバ装置として実装される。この場合、説得力推定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の説得力推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
【0078】
図4は、説得力推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0079】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0080】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、説得力推定装置1と同等の機能を持つ説得力推定装置1の各処理を規定説得力推定プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、説得力推定装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0081】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
【0082】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0083】
1 説得力推定装置
2 データ入力装置
11 データ取得部
12 映像情報処理部
13 音声情報処理部
14 言語情報処理部
15 談話構造情報生成部
16 入力情報生成部
17 推定部
18 出力部