特開2023-127481 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人成蹊学園の特許一覧

特開2023-127481説得力推定装置、説得力推定方法及び説得力推定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023127481

(43)【公開日】2023-09-13

(54)【発明の名称】説得力推定装置、説得力推定方法及び説得力推定プログラム

(51)【国際特許分類】

G10L 15/10 20060101AFI20230906BHJP

G10L 15/16 20060101ALI20230906BHJP

【ＦＩ】

G10L15/10 500Z

G10L15/16

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022031300

(22)【出願日】2022-03-01

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】397038037

【氏名又は名称】学校法人成蹊学園

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】二瓶芙巳雄

(72)【発明者】

【氏名】石井亮

(72)【発明者】

【氏名】深山篤

(72)【発明者】

【氏名】中村高雄

(72)【発明者】

【氏名】伊藤温志

(72)【発明者】

【氏名】中野有紀子

(57)【要約】

【課題】グループ会議における参加者の説得力の推定を可能にすることができる。
【解決手段】入力情報生成部１６は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第１活性化関数を用いて会話参加者の会話における行動の特徴量を含む入力情報を生成する。推定部１７は、入力情報生成部１６により生成された入力情報に対して第２活性化関数を用いて説得力の評価値を取得し、取得した評価値を基に会話参加者間の説得力の順位のクラスを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第１活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する入力情報生成部と、
前記入力情報生成部により生成された前記入力情報に対して第２活性化関数を用いて、前記会話参加者間の説得力の順位のクラスを生成する推定部と
を備えたことを特徴とする説得力推定装置。

【請求項2】

前記推定部は、前記入力情報に対して前記第２活性化関数を用いて前記会話参加者それぞれの説得力の評価値を取得し、取得した各前記評価値を基に前記会話参加者間の説得力の順位の前記クラスを生成することを特徴とする請求項１に記載の説得力推定装置。

【請求項3】

前記入力情報生成部は、前記会話参加者のうちの１人を推定対象者とし他の前記会話参加者を他参加者として、前記推定対象者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記推定対象者の第１入力情報を生成し、全ての前記他参加者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記他参加者をまとめた第２入力情報を生成し、
前記推定部は、前記第１入力情報及び前記第２入力情報を用いて、前記推定対象者の属する前記クラスを推定する
ことを特徴とする請求項１又は２に記載の説得力推定装置。

【請求項4】

前記入力情報生成部は、各前記他参加者の前記音声情報、前記言語情報、前記映像情報及び前記談話構造情報を基に前記第１活性化関数を用いて前記他参加者毎の会話における行動の特徴量を生成し、前記他参加者毎の会話における行動の前記特徴量を連結させたデータに対して前記第１活性化関数を用いて前記第２入力情報を生成することを特徴とする請求項３に記載の説得力推定装置。

【請求項5】

前記入力情報生成部は、前記第１活性化関数としてＲｅＬＵを用い、
前記推定部は、前記第２活性化関数としてＳｏｆｔｍａｘを用いる
ことを特徴とする請求項１～４のいずれか一つに記載の説得力推定装置。

【請求項6】

前記会話参加者のそれぞれの前記映像情報である顔の特徴値を基に映像ベクトルデータを生成する映像情報処理部と、
前記会話参加者のそれぞれの前記音声情報であるメルスペクトログラムを基に音声ベクトルデータを生成する音声情報処理部と、
各前記会話参加者のそれぞれの前記言語情報である発言の書き起こしを基に言語ベクトルデータを生成する言語情報処理部と、
前記談話構造情報として、前記会話参加者のそれぞれの発話数及び発話長を表現したベクトルデータを生成する談話構造情報生成部とをさらに備え、
前記入力情報生成部は、前記映像情報処理部より生成された前記映像ベクトルデータ、前記音声情報処理部により生成された前記音声ベクトルデータ、前記言語情報処理部により生成された言語ベクトルデータ、及び、前記談話構造情報生成部により生成された前記談話構造情報を基に、前記入力情報を生成する
ことを特徴とする請求項１～５のいずれか一つに記載の説得力推定装置。

【請求項7】

説得力推定装置で実行される説得力推定方法であって、
会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第１活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する生成工程と、
前記入力情報に対して第２活性化関数を用いて、前記会話参加者間の説得力の順位のクラスを生成する推定工程と
を含んだことを特徴とする説得力推定方法。

【請求項8】

コンピュータを請求項１～６に記載の説得力推定装置として機能させるための説得力推定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、説得力推定装置、説得力推定方法及び説得力推定プログラムに関する。

【背景技術】

【0002】

従来、グループ会議における参加者の説得力を推定する技術として、語り手のモノローグを視聴した視聴者が説得された程度として説得力を定義し、その定義に応じて説得力の推定を行う技術が提案されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Sunghyun Park, Han Suk Shim, Moitreya Chatterjee, Kenji Sagae, and Louis－Philippe Morency. 2014. Computational Analysis of Persuasiveness in Social Multimedia: A Novel Dataset and Multimodal Prediction Approach. In Proceedings of the 16th International Conference on Multimodal Interaction (ICMI '14). Association for Computing Machinery, New York, NY, USA, 50－57. DOI, [令和４年２月８日検索] インターネット＜ＵＲＬ：https://doi.org/10.1145/2663204.2663260＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、複数名のメンバーが参加するグループ会議では、参加者の説得力は参加者間での説得力を比較したうえで評価される。そのため、語り手のモノローグを視聴した視聴者が説得された程度を説得力の定義として単純に用いても、相互の比較が考慮されておらず、グループ会議における各参加者の説得力を推定することは難しい。

【0005】

本発明は、上記に鑑みてなされたものであって、グループ会議における参加者の説得力の推定を可能にすることを目的とする。

【課題を解決するための手段】

【0006】

上述した課題を解決し、目的を達成するために、推定制御装置は、入力情報生成部及び推定部を備える。入力情報生成部は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、第１活性化関数を用いて前記会話参加者の会話における行動の特徴量を含む入力情報を生成する。推定部は、前記入力情報生成部により生成された前記入力情報に対して第２活性化関数を用いて説得力の評価値を取得し、取得した前記評価値を基に前記会話参加者間の説得力の順位のクラスを生成する。

【発明の効果】

【0007】

本発明によれば、グループ会議における参加者の説得力の推定することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る説得力推定装置のブロック図である。

【図2】図２は、説得力推定装置が実行する処理の概要を示す図である。

【図3】図３は、実施形態に係る説得力推定処理のフローチャートである。

【図4】図４は、説得力推定プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0009】

以下に、本願の開示する説得力推定装置、説得力推定方法及び説得力推定プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する説得力推定装置、説得力推定方法及び説得力推定プログラムが限定されるものではない。

【0010】

［説得力推定装置の構成］
図１を用いて、説得力推定装置１の構成について説明する。図１は、実施形態に係る説得力推定装置のブロック図である。説得力推定装置１は、サーバなどの情報処理装置である。説得力推定装置１は、複数名のメンバーが参加するグループ会議における会話に参加した推定対象者の説得力を推定する装置である。図１に示すように、説得力推定装置１は、データ入力装置２に接続される。

【0011】

データ入力装置２は、グループ会議の１分間におけるグループ会議での会話に参加した会話参加者である推定対象者及びその他の参加者である他参加者のデータを取得して説得力推定装置１に送信する。例えば、データ入力装置２は、カメラ及びマイクを有する。そして、データ入力装置２は、カメラで撮影したグループ会議の１分間の画像データ及びマイクで収集した１分間の音性データを説得力推定装置１へ送信する。他にも、データ入力装置２は、利用者からの指示を受けて、画像データや音声データを編集する機能を有していてもよい。

【0012】

説得力推定装置１は、図１に示すように、データ取得部１１，映像情報処理部１２，音声情報処理部１３、言語情報処理部１４、談話構造情報生成部１５、入力情報生成部１６、推定部１７及び出力部１８を有する。以下では、グループ会議の会話参加者が合わせて４名の場合を例に説明する。

【0013】

データ取得部１１は、データ入力装置２からグループ会議における４名分の１分間の画像データ及び音声データを取得する。

【0014】

そして、データ取得部１１は、画像データから、１分の区間における、４名の会話参加者それぞれの顔の特徴値を取得する。顔の特徴値は、本実施形態では、３次元空間で表される映像上の頭部の位置及び頭部回転の情報を含む６次元のデータである。例えば、データ取得部１１は、画像データを基に、映像ベースの顔トラッカの出力値として顔の特徴値を得ることができる。そして、データ取得部１１は、１分の区間における、４名の会話参加者それぞれの顔の特徴値を含む映像情報を映像情報処理部１２へ出力する。

【0015】

また、データ取得部１１は、音声データから、１分の区間における、４名の会話参加者それぞれの音響特徴量であるメルスペクトログラムを取得する。メルスペクトログラムは、本実施例では、６４次元のデータであり、フレームレートが５０ｆｐｓ、すなわち分析単位である1分あたり３０００フレームのデータである。そして、データ取得部１１は、１分の区間における、４名の会話参加者それぞれのメルスペクトログラムを含む音声情報を音声情報処理部１３へ出力する。

【0016】

また、データ取得部１１は、音声データから、１分の区間における、４名の会話参加者それぞれの発言を書き起こした言語情報を取得する。そして、データ取得部１１は、１分の区間における、４名の会話参加者それぞれの発言を書き起こした言語情報を言語情報処理部１４へ出力する。

【0017】

また、データ取得部１１は、音声データから、１分の区間における、４名の会話参加者それぞれの発言の時間区間情報を取得する。そして、データ取得部１１は、１分の区間における、４名の会話参加者それぞれの発言の時間区間情報を談話構造情報生成部１５へ出力する。

【0018】

映像情報処理部１２は、映像情報をベクトル化する映像情報のエンコーダを有する。映像情報のエンコーダは、例えば、Gated Recurrent Unit（ＧＲＵ）で実装される。

【0019】

映像情報処理部１２は、３次元空間における頭部位置と頭部回転を表す６次元のデータである映像情報の入力をデータ取得部１１から受ける。次に、映像情報処理部１２は、入力された映像情報を１８０フレーム（１８０フレームは６秒間に対応する。）毎に平均する。次に、映像情報処理部１２は、平均したフレームを映像情報のエンコーダである二層の双方向ＧＲＵに入力する。そして、映像情報処理部１２は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として取得して映像ベクトルデータとする。映像ベクトルデータは、６×２のサイズを有する。その後、映像情報処理部１２は、４名の会話参加者それぞれの映像ベクトルデータを入力情報生成部１６へ出力する。

【0020】

音声情報処理部１３は、音声情報をベクトル化する音声情報のエンコーダを有する。音声情報のエンコーダは、例えば、ＧＲＵで実装される。

【0021】

音声情報処理部１３は、６４次元のデータである音声情報の入力をデータ取得部１１から受ける。次に、音声情報処理部１３は、入力された音声情報を３００フレーム（３００フレームは６秒間に対応する。）毎に平均する。次に、音声情報処理部１３は、平均したフレームを、音声情報のエンコーダである二層の双方向ＧＲＵに入力する。そして、音声情報処理部１３は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として取得して音声ベクトルデータとする。音声ベクトルデータは、６４×２のサイズを有する。その後、音声情報処理部１３は、４名の会話参加者それぞれの音声ベクトルデータを入力情報生成部１６へ出力する。

【0022】

言語情報処理部１４は、言語情報をベクトル化する言語情報のエンコーダを有する。言語情報のエンコーダは、例えば、ＧＲＵで実装される。

【0023】

言語情報処理部１４は、１分の区間における、４名の会話参加者それぞれの発言を書き起こした言語情報の入力をデータ取得部１１から受ける。次に、言語情報処理部１４は、１分間にて生じた発話それぞれについて、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）などの自然言語処理モデルを使用して７６８次元のベクトルデータを生成する。次に、言語情報処理部１４は、生成した発話それぞれに対応する７６８次元のベクトルデータを、言語情報のエンコーダである二層の双方向ＧＲＵに入力する。そして、言語情報処理部１４は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として取得して言語ベクトルデータとする。言語ベクトルデータは、７６８×２のサイズを有する。その後、言語情報処理部１４は、４名の会話参加者それぞれの言語ベクトルデータを入力情報生成部１６へ出力する。

【0024】

談話構造情報生成部１５は、１分の区間における、４名の会話参加者それぞれの発言の時間区間情報の入力をデータ取得部１１から受ける。次に、談話構造情報生成部１５は、４名の会話参加者それぞれの１分間における発話数と各発話の発話長を時間区間情報から取得する。次に、談話構造情報生成部１５は、1分間における４名の会話参加者それぞれの発話数及び発話長を表現したベクトルデータである談話構造情報を生成する。

【0025】

例えば、談話構造情報生成部１５は、発話長に基づく８つのビンを用意する。８つのビンは、例えば、０秒以上１秒未満の発話長のビン、１秒以上２秒未満の発話長のビン、２秒以上３秒未満の発話長のビン、３秒以上５秒未満の発話長のビン、５秒以上８秒未満の発話長のビン、８秒以上１０秒未満の発話長のビン、１０秒以上１５秒未満の発話長のビン及び１０秒以上１５秒未満の発話長のビンである。次に、談話構造情報生成部１５は、各ビンに1分間において生じた発話を投入する。その後、談話構造情報生成部１５は、各ビンに含まれる発話の数を数え上げる。これにより、談話構造情報生成部１５は、８次元のベクトルデータである談話構造情報を生成することができる。

【0026】

その後、談話構造情報生成部１５は、生成した４名の会話参加者それぞれの談話構造情報を入力情報生成部１６へ出力する。

【0027】

入力情報生成部１６は、活性化関数がＲｅＬＵ（Rectified Linear Unit）である全結合層を有する。入力情報生成部１６は、４名の会話参加者それぞれの映像ベクトルデータの入力を映像情報処理部１２から受ける。また、入力情報生成部１６は、４名の会話参加者それぞれの音声ベクトルデータの入力を音声情報処理部１３から受ける。また、入力情報生成部１６は、４名の会話参加者それぞれの言語ベクトルデータの入力を言語情報処理部１４から受ける。さらに、入力情報生成部１６は、４名の会話参加者それぞれの談話構造情報の入力を談話構造情報生成部１５から受ける。

【0028】

入力情報生成部１６は、以下に説明するように推定対象者の入力情報を生成する。入力情報生成部１６は、推定対象者の映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、その推定対象者のマルチモーダルテンソル（Multimodal Tensor）を作成する。次に、入力情報生成部１６は、生成した推定対象者のマルチモーダルテンソルを活性化関数がＲｅＬＵである全結合層に入力し、１００次元の推定対象者ベクトルを取得する。

【0029】

また、入力情報生成部１６は、以下に説明するように他参加者に関する入力情報を生成する。入力情報生成部１６は、他参加者毎に、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、各他参加者のマルチモーダルテンソルを作成する。次に、入力情報生成部１６は、生成した各他参加者のマルチモーダルテンソルを活性化関数がＲｅＬＵである全結合層に入力し、１００次元の他参加者ベクトルを他参加者それぞれについて取得する。その後、入力情報生成部１６は、３名分の他参加者ベクトルを連結させて、マルチパーティテンソル（Multiparty Tensor）を作成する。次に、入力情報生成部１６は、マルチパーティテンソルを活性化関数がＲｅＬＵである全結合層に入力し、１００次元の他参加者結合ベクトルを取得する。ここで、マルチパーティテンソルを入力する全結合層は、マルチモーダルテンソルを入力する全結合層と同じ構造を有していてもよいし、異なる構造を有していてもよい。

【0030】

以上のように、入力情報生成部１６は、会議における会話参加者全員の音声情報、言語情報、映像情報及び談話構造情報を基に、ＲｅＬＵである第１活性化関数を用いて会話参加者の会話における行動の特徴量を含む入力情報を生成する。より詳しくは、入力情報生成部１６は、会話参加者のうちの１人を推定対象者とし他の会話参加者を他参加者として、推定対象者の音声情報、言語情報、映像情報及び談話構造情報を基に推定対象者の第１入力情報を生成し、全ての他参加者の音声情報、言語情報、映像情報及び談話構造情報を基に他参加者をまとめた第２入力情報を生成する。

【0031】

その後、入力情報生成部１６は、１００次元の推定対象者ベクトル及び１００次元の他参加者結合ベクトルを推定部１７へ出力する。

【0032】

推定部１７は、活性関数がｓｏｆｔｍａｘである全結合層を有する。推定部１７は、１００次元の推定対象者ベクトル及び１００次元の他参加者結合ベクトルの入力を入力情報生成部１６から受ける。

【0033】

次に、推定部１７は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて２００次元のベクトルデータである連結データを生成する。次に、推定部１７は、活性化関数がｓｏｆｔｍａｘである全結合層へ連結データを入力する。その後、推定部１７は、全結合層からの出力を推定対象者の説得力推定結果として取得する。推定部１７は、説得力をｎ（ｎは２以上の自然数）値の分類問題として推定し、全結合層の出力として説得力のクラスラベルの尤度を取得する。

【0034】

例えば、説得力として、１～７の数値で評価者からの評価が与えられる場合で説明する。この場合、推定部１７は、以下の方法でその数値をクラス化する。例えば、推定部１７は、１分間の区間における、すべての参加者の説得力の数値を得たうえで、数値を順位に置き換える。例えば、４名の参加者の説得力の評価値がそれぞれ、５、７、３、１であれば、推定部１７は、各参加者の順位を順に２位、１位、３位、４位とする。次に、推定部１７は、順位をクラス化する。例えば、推定部１７は、１位と２位をまとめて高説得力、それ以外を低説得力とする。この場合、推定部１７は、説得力の２種類のクラスラベルの尤度を推定結果として出力する。

【0035】

以上のように、推定部１７は、入力情報生成部１６により生成された入力情報に対してｓｏｆｔｍａｘである第２活性化関数を用いて、会話参加者間の説得力の順位のクラスを生成する。より詳しくは、推定部１７は、推定者の第１入力情報及び全ての他参加者の第２入力情報を用いて、推定対象者がクラスのいずれに属するかを推定する。例えば、推定部１７は、入力情報に対して第２活性化関数を用いて会話参加者それぞれの説得力の評価値を取得し、取得した各評価値を基に前記クラスを生成する。

【0036】

出力部１８は、推定部１７による推定結果を取得する。そして、出力部１９は、モニタなどの出力装置に推定結果を表示させて、利用者に推定結果を通知する。

【0037】

ここで、図２を参照して、説得力推定装置１の機能についてまとめて説明する。図２は、説得力推定装置が実行する処理の概要を示す図である。図２におけるブロック１００は、推定対象者の行動の処理を表す。また、ブロック１１０、１２０及び１３０は、３名の第１～第３の他参加者の行動の処理を表す。

【0038】

ブロック１００において、映像情報処理部１２は、推定対象者の３次元空間における頭部位置と頭部回転を表す６次元のデータである映像情報１０１の入力をデータ取得部１１から受ける。次に、映像情報処理部１２は、映像情報１０１を１８０フレーム毎に平均して二層の双方向ＧＲＵであるＧＲＵ１０５に入力する。そして、映像情報処理部１２は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、６×２次元データである推定対象者の映像ベクトルデータを取得する。

【0039】

同様にブロック１００において、音声情報処理部１３は、推定対象者の６４次元のデータである音声情報１０２の入力をデータ取得部１１から受ける。次に、音声情報処理部１３は、音声情報１０２を３００フレーム毎に平均して二層の双方向ＧＲＵであるＧＲＵ１０６に入力する。そして、音声情報処理部１３は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、６４×２次元データである推定対象者の音声ベクトルデータを取得する。

【0040】

同様にブロック１００において、言語情報処理部１４は、１分の区間における推定対象者の発言を書き起こした言語情報１０３を取得して、発話それぞれについて自然言語処理モデルを使用して７６８次元のベクトルデータを生成する。ここで、図２では、便宜上、言語情報１０３に７６８次元の脚注を付けたが、実際には言語情報１０３がベクトルデータに変えられた後の次元である。次に、言語情報処理部１４は、生成した発話それぞれに対応する７６８次元のベクトルデータを、二層の双方向ＧＲＵであるＧＲＵ１０７に入力する。そして、言語情報処理部１４は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、７６８×２次元データである推定対象者の言語ベクトルデータを取得する。

【0041】

同様にブロック１００において、談話構造情報生成部１５は、推定対象者の１分間における発話数と各発話の発話長を音声データ及び画像データから取得する。次に、談話構造情報生成部１５は、1分間における推定対象者の発話数及び発話長を表現したベクトルデータである談話構造情報１０４を生成する。

【0042】

同様にブロック１００において、入力情報生成部１６は、推定対象者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、推定対象者のマルチモーダルテンソル１０８を作成する。次に、入力情報生成部１６は、生成した推定対象者のマルチモーダルテンソル１０８を活性化関数がＲｅＬＵである全結合層１０９に入力し、１００次元データの推定対象者ベクトルを取得する。

【0043】

また、ブロック１１０において、映像情報処理部１２は、第１の他参加者の３次元空間における頭部位置と頭部回転を表す６次元のデータである映像情報１１１の入力をデータ取得部１１から受ける。次に、映像情報処理部１２は、映像情報１１１を１８０フレーム毎に平均して二層の双方向ＧＲＵであるＧＲＵ１１５に入力する。そして、映像情報処理部１２は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、６×２次元データである第１の他参加者の映像ベクトルデータを取得する。ここで、ＧＲＵ１１５は、ＧＲＵ１０５と同じものでもよい。

【0044】

同様にブロック１１０において、音声情報処理部１３は、第１の他参加者の６４次元のデータである音声情報１１２の入力をデータ取得部１１から受ける。次に、音声情報処理部１３は、音声情報１１２を３００フレーム毎に平均して二層の双方向ＧＲＵであるＧＲＵ１１６に入力する。そして、音声情報処理部１３は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、６４×２次元データである第１の他参加者の音声ベクトルデータを取得する。ここで、ＧＲＵ１１６は、ＧＲＵ１０６と同じものでもよい。

【0045】

同様にブロック１１０において、言語情報処理部１４は、第１の他参加者の発言を書き起こした言語情報１１３を取得して、発話それぞれについて自然言語処理モデルを使用して７６８次元のベクトルデータを生成する。次に、言語情報処理部１４は、生成した発話それぞれに対応する７６８次元のベクトルデータを、二層の双方向ＧＲＵであるＧＲＵ１１７に入力する。そして、言語情報処理部１４は、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、７６８×２次元データである第１の他参加者の言語ベクトルデータを取得する。ここで、ＧＲＵ１１７は、ＧＲＵ１０７と同じものでもよい。

【0046】

同様にブロック１１０において、談話構造情報生成部１５は、第１の他参加者の１分間における発話数と各発話の発話長を音声データ及び画像データから取得する。次に、談話構造情報生成部１５は、1分間における第１の他参加者の発話数及び発話長を表現したベクトルデータである談話構造情報１１４を生成する。

【0047】

同様にブロック１１０において、入力情報生成部１６は、第１の他参加者の映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、第１の他参加者のマルチモーダルテンソル１１８を作成する。次に、入力情報生成部１６は、生成した推定対象者のマルチモーダルテンソル１１８を活性化関数がＲｅＬＵである全結合層１１９に入力し、１００次元データの第１の他参加者の他参加者ベクトルを取得する。ここで、全結合層１１９は、全結合層１０９と同じものでもよい。

【0048】

入力情報生成部１６は、ブロック１２０及び１３０についても、ブロック１１０と同様の処理を行い、１００次元データの第２及び第３の他参加者の他参加者ベクトルをそれぞれ取得する。

【0049】

次に、入力情報生成部１６は、ブロック１１０、１２０及び１３０から出力された、１００次元データである第１～第３の他参加者の他参加者ベクトルを連結させて、マルチパーティテンソル２０１を作成する。次に、入力情報生成部１６は、マルチパーティテンソル２０１を活性化関数がＲｅＬＵである全結合層２０２に入力し、１００次元データである他参加者結合ベクトルを取得する。

【0050】

推定部１７は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて２００次元のベクトルデータである連結データ３０１を生成する。次に、推定部１７は、活性化関数がｓｏｆｔｍａｘである全結合層３０２に連結データ３０１を入力する。その後、推定部１７は、全結合層３０２からの出力を推定対象者の説得力推定結果３０３として取得する。

【0051】

［説得力推定処理］
次に、図３を参照して、説得力推定装置１による説得力推定処理の全体の流れについて説明する。図３は、実施形態に係る説得力推定処理のフローチャートである。

【0052】

映像情報処理部１２、音声情報処理部１３、言語情報処理部１４及び談話構造情報生成部１５は推定対象者のデータを取得する（ステップＳ１）。

【0053】

映像情報処理部１２は、映像情報を１８０フレーム毎に平均して二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として推定対象者の映像ベクトルデータを取得する映像処理を実行する（ステップＳ２）。

【0054】

音声情報処理部１３は、音声情報を３００フレーム毎に平均して二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として推定対象者の音声ベクトルデータを取得する音声処理を実行する（ステップＳ３）。

【0055】

言語情報処理部１４は、言語情報に対して自然言語処理モデルを用いて生成した７６８次元のベクトルデータを二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、推定対象者の言語ベクトルデータを取得する言語処理を実行する（ステップＳ４）。

【0056】

談話構造情報生成部１５は、推定対象者の１分間における発話数と各発話の発話長を取得して。1分間における推定対象者の発話数及び発話長を表現したベクトルデータである談話構造情報を生成する（ステップＳ５）。

【0057】

その後、入力情報生成部１６は、推定対象者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、推定対象者のマルチモーダルテンソルを作成する（ステップＳ６）。

【0058】

次に、入力情報生成部１６は、生成した推定対象者のマルチモーダルテンソルを活性化関数がＲｅＬＵである全結合層に入力して推定対象者ベクトルを取得する（ステップＳ７）。

【0059】

また、映像情報処理部１２、音声情報処理部１３、言語情報処理部１４及び談話構造情報生成部１５は他参加者のデータを取得する（ステップＳ８）。

【0060】

映像情報処理部１２は、映像情報を１８０フレーム毎に平均して二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として他参加者の映像ベクトルデータを取得する映像処理を実行する（ステップＳ９）。

【0061】

音声情報処理部１３は、音声情報を３００フレーム毎に平均して二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として他参加者の音声ベクトルデータを取得する音声処理を実行する（ステップＳ１０）。

【0062】

言語情報処理部１４は、言語情報に対して自然言語処理モデルを用いて生成した７６８次元のベクトルデータを二層の双方向ＧＲＵに入力して、ＧＲＵの二層目の最終の隠れ状態をエンコーダの出力として、他参加者の言語ベクトルデータを取得する言語処理を実行する（ステップＳ１１）。

【0063】

談話構造情報生成部１５は、他参加者の１分間における発話数と各発話の発話長を取得して。１分間における他参加者の発話数及び発話長を表現したベクトルデータである談話構造情報を生成する（ステップＳ１２）。

【0064】

その後、入力情報生成部１６は、他参加者の、映像ベクトルデータ、音声ベクトルデータ、言語ベクトルデータ及び談話構造情報を連結して、他参加者のマルチモーダルテンソルを作成する（ステップＳ１３）。

【0065】

次に、入力情報生成部１６は、生成した他参加者のマルチモーダルテンソルを活性化関数がＲｅＬＵである全結合層に入力して他参加者ベクトルを取得する（ステップＳ１４）。

【0066】

次に、入力情報生成部１６は、全ての他参加者の他参加者ベクトルを取得したか否かを判定する（ステップＳ１５）。他参加者ベクトルを未取得の他参加者が存在する場合（ステップＳ１５：否定）、入力情報生成部１６は、ステップＳ８に戻る。

【0067】

これに対して、全ての他参加者の他参加者ベクトルを取得した場合（ステップＳ１５：肯定）、入力情報生成部１６は、全ての他参加者ベクトルを連結させて、マルチパーティテンソルを作成する（ステップＳ１６）。

【0068】

次に、入力情報生成部１６は、マルチパーティテンソルを活性化関数がＲｅＬＵである全結合層に入力して、他参加者結合ベクトルを取得する（ステップＳ１７）。

【0069】

推定部１７は、推定対象者ベクトルと他参加者結合ベクトルとを連結させて２００次元のベクトルデータである連結データを生成する（ステップＳ１８）。

【0070】

次に、推定部１７は、活性化関数がｓｏｆｔｍａｘ関数である全結合層に連結データを入力して、全結合層からの出力を推定対象者の説得力推定結果として取得する（ステップＳ１９）。

【0071】

［説得力推定装置及び説得力推定処理による効果］
以上に説明したように、本実施例に係る説得力推定装置は、会話参加者全員のメルスペクトログラムなどの音声情報、会話参加者全員の発言の書き起こしなどの言語情報、映像ベースの顔トラッカの出力値などの映像情報及び参加者の発話量などの談話構造情報を入力情報とする。そして、説得力推定装置は、深層学習技術を用いた推定器を使用して、入力情報から推定対象者の説得力を推定する。さらに、説得力推定装置は、説得力の推定においては、参加者の説得力を評価者が評価する際の、参加者間での暗黙的な相対評価を考慮するため、前処理により説得力の評価値を、参加者間の説得力の順位のクラスとして再定義する。参加者間の説得力の順位のクラスとは、具体的には、参加者全員の説得力を順位で置き換えて、その順位を基に説得力が高いクラス及び説得力が低いクラスのように、説得力をクラス化することである。

【0072】

これにより、説得力の数値を直接推定する、あるいは参加者間の順位を考慮せず説得力の数値をクラス化した場合と比較して、グループにおける説得力の推定性能を向上させることができ、各参加者の説得力を適切に推定することが可能になる。ここで、説得力の数値を直接推定するとは、例えば評価者による評価が説得力を１～７点の数値で表される場合に、評価者が評価した参加者の説得力の高さの数値（例えば、「６」など）を直接推定することにあたる。また、参加者間の順位を考慮せず説得力の数値をクラス化した場合とは、例えば評価者による評価が説得力を１～７点の数値で表される場合に、１～３点を低いクラス、４点を中程度のクラス、５～７点を高いクラスといったようにクラス化することにあたる。

【0073】

また、従来は特定の話者の説得力を評価する場合に、他の話者のデータは用いずにその特定の話者のデータを用いて推定を行っていた。これに対して、本実施例に係る説得力推定装置は、評価対象の話者及び他の話者を含む会話参加者全員のデータを用いて特定の話者の説得力の評価を行うため、話者の発言に対する他者の反応も考慮することができ、説得力の推定性能が向上する。

【0074】

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0075】

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0076】

［プログラム］
一実施形態として、説得力推定装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の情報処理を実行する説得力推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の説得力推定プログラムを情報処理装置に実行させることにより、情報処理装置を説得力推定装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handy-phone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

【0077】

また、説得力推定装置１は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の説得力推定処理に関するサービスを提供する説得力推定サーバ装置として実装することもできる。例えば、説得力推定装置は、グループ会議の各参加者のデータを入力とし、説得力推定処理を行う説得力推定サービスを提供するサーバ装置として実装される。この場合、説得力推定サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の説得力推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

【0078】

図４は、説得力推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0079】

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

【0080】

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、説得力推定装置１と同等の機能を持つ説得力推定装置１の各処理を規定説得力推定プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、説得力推定装置１における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

【0081】

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

【0082】

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【符号の説明】

【0083】

１説得力推定装置
２データ入力装置
１１データ取得部
１２映像情報処理部
１３音声情報処理部
１４言語情報処理部
１５談話構造情報生成部
１６入力情報生成部
１７推定部
１８出力部

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版