IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2023-167938情報処理装置、情報処理方法およびプログラム
<>
  • 特開-情報処理装置、情報処理方法およびプログラム 図1
  • 特開-情報処理装置、情報処理方法およびプログラム 図2
  • 特開-情報処理装置、情報処理方法およびプログラム 図3
  • 特開-情報処理装置、情報処理方法およびプログラム 図4
  • 特開-情報処理装置、情報処理方法およびプログラム 図5
  • 特開-情報処理装置、情報処理方法およびプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023167938
(43)【公開日】2023-11-24
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20231116BHJP
   G06F 3/01 20060101ALI20231116BHJP
   H04N 7/14 20060101ALI20231116BHJP
   H04N 21/442 20110101ALI20231116BHJP
【FI】
G06Q10/04
G06F3/01 510
H04N7/14 110
H04N21/442
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022079497
(22)【出願日】2022-05-13
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】宮崎 和雅
(72)【発明者】
【氏名】内海 秀介
(72)【発明者】
【氏名】野武 健一郎
(72)【発明者】
【氏名】真鍋 芳宏
(72)【発明者】
【氏名】宮崎 諒司
(72)【発明者】
【氏名】福田 純子
(72)【発明者】
【氏名】佐々木 隆
(72)【発明者】
【氏名】長尾 恭治
【テーマコード(参考)】
5C164
5E555
5L049
【Fターム(参考)】
5C164FA10
5C164UB41P
5C164VA04S
5C164VA06S
5C164VA35P
5C164YA12
5E555AA46
5E555AA61
5E555BA02
5E555BA03
5E555BA05
5E555BA06
5E555BA76
5E555BB02
5E555BB03
5E555BB05
5E555BB06
5E555BC04
5E555BD07
5E555CA42
5E555CA47
5E555CB56
5E555CB64
5E555CB66
5E555CB67
5E555DA01
5E555DB45
5E555DD06
5E555EA03
5E555EA05
5E555EA14
5E555EA22
5E555EA23
5E555FA00
5L049AA04
(57)【要約】      (修正有)
【課題】精度よく相手の状態を推測することが可能な情報処理装置、情報処理方法およびプログラムを提案する。
【解決手段】コミュニケーション支援システムにおいて、情報処理装置として機能する端末TAは、刺激認識部ST、反応予想部PR、反応認識部RE及び状態推測部ESを有する。刺激認識部STは、対話の相手を刺激する話者の言動を認識する。反応予想部PRは、刺激に対して予想される相手の反応を予想反応として認識する。反応認識部REは、刺激に対する実際の相手の反応を実反応として認識し、状態推測部ESは、予想反応と実反応の違いに基づいて相手の状態を推測する。
【選択図】図2
【特許請求の範囲】
【請求項1】
対話の相手を刺激する話者の言動を認識する刺激認識部と、
刺激に対して予想される前記相手の反応を予想反応として認識する反応予想部と、
前記刺激に対する実際の前記相手の反応を実反応として認識する反応認識部と、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する状態推測部と、
を有する情報処理装置。
【請求項2】
前記状態推測部は、前記予想反応と前記実反応との間の反応の大きさの違いおよび反応が起きるタイミングの違いを加味して前記相手の状態を推測する、
請求項1に記載の情報処理装置。
【請求項3】
前記刺激認識部は、前記話者が持つ特有の行動パターンに基づく言動を前記刺激として認識する、
請求項1に記載の情報処理装置。
【請求項4】
前記反応予想部は、前記相手が持つ特有の行動パターンを加味して前記刺激に対する前記相手の反応を予想する、
請求項1に記載の情報処理装置。
【請求項5】
前記状態推測部は、前記刺激とは無関係の前記相手の言動に基づいて仮ポジネガ度を算出し、前記仮ポジネガ度を前記予想反応と前記実反応との違いに基づいて補正して得られたポジネガ度を前記相手の状態として出力する、
請求項1に記載の情報処理装置。
【請求項6】
前記状態推測部は、現在の前記相手の言動に影響を及ぼす可能性のある直近の前記刺激を加味して現在の前記ポジネガ度を算出する、
請求項5に記載の情報処理装置。
【請求項7】
前記状態推測部は、直近に算出された前記ポジネガ度を加味して現在の前記ポジネガ度を算出する、
請求項5に記載の情報処理装置。
【請求項8】
前記状態推測部は、時間の経過に伴って前記ポジネガ度を徐々にニュートラルの値に近づける、
請求項7に記載の情報処理装置。
【請求項9】
対話の相手を刺激する話者の言動を前記相手に送信するデータ送信部と、
前記刺激に対して推測される前記相手の状態を受信するデータ受信部と、
前記相手の状態を前記話者に提示する相手状態提示部と、
を有する情報処理装置。
【請求項10】
対話の相手を刺激する話者の言動を認識し、
刺激に対して予想される前記相手の反応を予想反応として認識し、
前記刺激に対する実際の前記相手の反応を実反応として認識し、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する、
ことを有する、コンピュータにより実行される情報処理方法。
【請求項11】
対話の相手を刺激する話者の言動を認識し、
刺激に対して予想される前記相手の反応を予想反応として認識し、
前記刺激に対する実際の前記相手の反応を実反応として認識し、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する、
ことをコンピュータに実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
リアルな対面でのコミュニケーションでは、対話の相手の発言、抑揚および表情などから相手の様々な情報を読み取ることができる。話者は、読み取った情報から相手の状態を推測し、相手に気を配ることで、円滑なコミュニケーションを行うことができる。通信端末を用いたリモートのコミュニケーションでは、画面越しに対話が行われるため、下記のような理由により、話者は相手の情報を読み取りにくくなる。
【0003】
(i)画面に映る相手の顔が小さい場合、相手の表情や身振り手振りが読み取りにくい。
(ii)情報の伝達に遅延が発生する場合、会話の正確な間(ま)がくみ取れない。
(iii)通信端末の操作に気を取られて相手の表情を見落とす可能性がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016-213631号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
相手の表情や言葉の抑揚などから相手の状態を推測する技術は存在する。しかし、この種の技術では、絶対的な表情等のレベルに基づいて相手の状態が推測される。検出される表情等のレベルには個人差が存在するため、精度のよい推定結果が得られにくい。例えば、説明を理解しようとする際に眉間に皺を寄せる癖のある人は怒っていると推測される。
【0006】
そこで、本開示では、精度よく相手の状態を推測することが可能な情報処理装置、情報処理方法およびプログラムを提案する。
【課題を解決するための手段】
【0007】
本開示によれば、対話の相手を刺激する話者の言動を認識する刺激認識部と、刺激に対して予想される前記相手の反応を予想反応として認識する反応予想部と、前記刺激に対する実際の前記相手の反応を実反応として認識する反応認識部と、前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する状態推測部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
【0008】
また、本開示によれば、対話の相手を刺激する話者の言動を前記相手に送信するデータ送信部と、前記刺激に対して推測される前記相手の状態を受信するデータ受信部と、前記相手の状態を前記話者に提示する相手状態提示部と、を有する情報処理装置が提供される。
【図面の簡単な説明】
【0009】
図1】従来のコミュニケーション支援システムのブロック図である。
図2】本開示のコミュニケーション支援システムのブロック図である。
図3】保険外交員と顧客との間のコミュニケーションの例を示す図である。
図4】本開示のコミュニケーション支援システムの処理フローの一例を示す図である。
図5】ポジネガ度の算出方法の一例を示す図である。
図6】通信端末のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0011】
なお、説明は以下の順序で行われる。
[1.コミュニケーション支援サービス]
[1-1.従来のシステム構成例]
[1-2.本開示のシステム構成例]
[2.コミュニケーション例]
[3.情報処理方法]
[4.ハードウェア構成例]
[5.効果]
【0012】
[1.コミュニケーション支援サービス]
図1および図2は、コミュニケーション支援サービスの概要を説明する図である。図1は、従来のコミュニケーション支援サービスに適用されるコミュニケーション支援システムCSCのブロック図である。図2は、本開示のコミュニケーション支援サービスに適用されるコミュニケーション支援システムCSのブロック図である。
【0013】
コミュニケーション支援サービスは、ユーザ間のリモートコミュニケーションを支援するサービスである。ユーザは、スマートフォン、タブレット端末、ノートパソコンおよびデスクトップパソコンなどの通信端末TMを用いてリモートコミュニケーションを行う。
【0014】
コミュニケーション支援システムCSCは、ユーザの数に応じた複数の通信端末TMを有する。通信端末TMは、センサを用いてユーザをセンシングし、センシング結果を他のユーザの通信端末TMに送信する。コミュニケーション支援システムは、対話の相手PAの状態(感情など)を話者SKに対して可視化して提示する。話者SKは、相手PAの状態をリアルタイムで認識しながら対話を行うことができる。
【0015】
[1-1.従来のシステム構成例]
図1の例では、話者SKは保険外交員CNであり、対話の相手PAは顧客CUである。話者SKと相手PAは端末TKおよび端末TAを介して対話を行う。端末TKおよび端末TAは、映像および音声を送受信可能な通信端末TMである。端末TKおよび端末TMは、映像および音声を処理する情報処理装置として機能する。
【0016】
端末TKは、カメラ入力部CM、マイク入力部MC、コンテンツ表示部DC、相手映像表示部DP、相手音声出力部SP、相手状態提示部PS、データ送信部DTKおよびデータ受信部DRKを有する。端末TAは、カメラ入力部CM、マイク入力部MC、共有コンテンツ表示部DS、相手映像表示部DP、相手音声出力部SP、反応認識部RE、データ送信部DTAおよびデータ受信部DRAを有する。
【0017】
例えば、カメラ入力部CM、マイク入力部MCおよび相手音声出力部SPには、公知のカメラ、マイクおよびスピーカが用いられる。コンテンツ表示部DC、共有コンテンツ表示部DSおよび相手映像表示部DPには、LCD(Liquid Crystal Display)などの公知のディスプレイが用いられる。
【0018】
カメラ入力部CMは、カメラで撮影された話者SKまたは相手PAの映像を入力する。マイク入力部MCは、マイクで集音した話者SKまたは相手PAの音声を入力する。コンテンツ表示部DCおよび共有コンテンツ表示部DSは、ユーザ間で共有されるコンテンツCTをディスプレイに表示する。
【0019】
話者SKの映像、音声およびコンテンツCTは、データ送信部DTKおよびデータ受信部DRAを介して、それぞれ端末TAの相手映像表示部DP、相手音声出力部SPおよび共有コンテンツ表示部DSに供給される。相手PAの映像および音声は、データ送信部DTAおよびデータ受信部DRKを介して端末TKの相手映像表示部DPおよび相手音声出力部SPに供給される。
【0020】
反応認識部REは、相手PAの映像および音声から相手PAの反応を認識する。反応認識部REは、相手PAの反応を分析し、分析結果に基づいて相手PAの状態を推測する。例えば、分析は、感情分析の一種であるポジネガ分析によって行われる。ポジネガ分析では、感情の状態がポジネガ度PNによって表される。ポジネガ度は、ポジティブの度合いを数値で表したものである。反応認識部REは、推測された相手PAの状態(例えばポジネガ度PN)をデータ送信部DTAおよびデータ受信部DRKを介して相手状態提示部PSに通知する。相手状態提示部PSは、相手PAの状態を端末TKのディスプレイSCKに表示する。
【0021】
なお、図1の例では、反応認識部REが端末TAに搭載された。しかし、図1の点線で示すように、反応認識部REは端末TKに搭載されてもよい。この場合、反応認識部REは、データ受信部DRKを介して取得した相手PAの映像および音声から相手PAの反応を認識する。また、図1の例は、保険のコンサルティングへの適用例であるため、一方のユーザ(顧客CU)の状態のみが分析される。しかし、商談などの他の適用例では、双方のユーザが互いに相手の状態を認識できることが好ましい。この場合、端末TKにも反応認識部REを搭載し、対話を行う双方のユーザの状態を分析できるようにしてもよい。
【0022】
図1の下部には、端末TKおよび端末TAに表示される情報の一例が示されている。端末TAのディスプレイSCAには、コンテンツCTと話者SKの映像IMAが表示される。端末TKのディスプレイSCKには、コンテンツCTと相手PAの映像IMKの他に、相手PAのポジネガ度PNが表示される。話者SKは、ポジネガ度PNを参照しながら、相手PAが好ましい感情を持っているか、あるいは、対話の内容について相手PAがどの程度理解しているか、などを推測する。
【0023】
[1-2.本開示のシステム構成例]
図2は、本開示のコミュニケーション支援システムCSの一例を示す図である。本開示において従来と異なる点は、相手PAの状態を推測する手法である。図1に示す従来例では、対話の相手PAの反応のみを用いて相手PAの状態が推測される。本開示では、話者SKの言動とその言動に対する相手PAの反応との相関関係(話者SKの言動に対して予想される相手PAの反応と実際の相手PAの反応との差分の情報)に基づいて相手PAの状態が推測される。
【0024】
データ送信部DTKは、対話の相手PAを刺激する話者SKの言動を端末TA(相手PA)に送信する。端末TAは、話者SKの言動と相手PAの反応との相関関係に基づいて相手PAの状態を推測する。データ受信部DRKは、刺激に対して推測される相手PAの状態を端末TAから受信する。相手状態提示部PSは、相手PAの状態を話者SKに提示する。以下、図1の従来例との差分を中心に説明する。
【0025】
端末TAは、図1の構成に加えて、刺激認識部ST、反応予想部PR、状態推測部ES、刺激データベース部DBSおよび反応データベース部DBRを有する。
【0026】
刺激認識部STは、対話の相手PAを刺激する話者SKの言動を認識する。刺激とは、相手PAの反応を引き起こす契機となるものを意味する。刺激となる言動には、相手PAの反応(理解、同意、行動など)を促すような発言、ジェスチャ、表情、および、コンテンツCTの提示などが含まれる。刺激認識部STは、話者SKの映像、話者SKの音声、および、話者SKから提示されたコンテンツCTから、刺激となる言動を抽出する。
【0027】
抽出すべき言動は、システム設計者などにより予め設定される。刺激データベース部DBSは、刺激として抽出すべき言動の内容を刺激情報として記憶する。言動の内容とは、言動の種類および特徴を意味する。例えば、刺激となる言動がジェスチャであれば、ジェスチャの種類および骨格の動きの特徴が刺激情報として記憶される。刺激となる言動が顔の表情であれば、表情の種類および顔の特徴点の配置が刺激情報として記憶される。
【0028】
刺激認識部STは、公知の画像解析技術および音声解析技術を用いて、話者SKの映像、音声およびコンテンツCTから、刺激となる言動を抽出する。刺激認識部STは、刺激となる言動の内容、および、刺激が相手PAに認識された時刻(タイムスタンプ)を刺激認識情報として出力する。
【0029】
刺激認識部STは、話者SKが持つ特有の行動パターンに基づく言動を刺激として認識することができる。刺激データベース部DBSは、話者SKが相手の理解や反応を促す際の行う特有の言動(癖など)を話者SKの行動パターンとして記憶する。特有の行動パターンとしては、「細かく発話ごとに相手の反応を確かめる」、「理解してほしい重要な用語は2回以上繰り返して説明する」、「マウスカーソルで重要な部分を丸く囲う」および「注目させるために暫く黙る」などが挙げられる。刺激認識部STは、話者特有の行動パターンと類似する言動を話者SKの映像、音声およびコンテンツCTから抽出する。
【0030】
反応予想部PRは、刺激に対して予想される相手PAの反応を予想反応として認識する。例えば、刺激となる言動が「問いかけ」であれば、「うなずき」や「回答」などの言動が予想反応として認識される。刺激となる言動が「資料の提示」であれば、「注目」や「うなずき」などの言動が予想反応として認識される。
【0031】
刺激と予想反応との対応関係は反応データベース部DBRに規定されている。反応データベース部DBRは、刺激ごとに、1以上の予想反応を規定する。反応データベース部DBRは、予想反応ごとに、予想反応となる言動の内容、言動が起こるタイミング、および、言動から予想されるポジネガ度(予想ポジネガ度)を予想反応情報として記憶する。
【0032】
例えば、予想反応がジェスチャであれば、ジェスチャの種類、骨格の動きの特徴、ジェスチャが起こるタイミング、および、ジェスチャから予想される予想ポジネガ度が予想反応情報として記憶される。予想反応が顔の表情であれば、表情の種類、顔の特徴点の配置、表情が現れるタイミング、および、表情から予想される予想ポジネガ度が予想反応情報として記憶される。予想ポジネガ度の値は、システム設計者が任意に設定することができる。例えば、「問いかけ」に対しては「うなずき」が予想反応の一つとして想定される。「うなづき」は、相手PAへの理解を示すポジティブな反応であるため、予想ポジネガ度としては高い値が設定される。
【0033】
反応予想部PRは、刺激認識情報から、刺激となる言動の内容を特定する。反応予想部PRは、反応データベース部DBRから、該当する内容の言動に紐づけられた1以上の予想反応情報を抽出し、状態予測部ESに供給する。
【0034】
反応予想部PRは、相手PAが持つ特有の行動パターンを加味して刺激に対する相手PAの反応を予想することができる。反応データベース部DBRは、相手PAが刺激を受けた際に行う特有の言動(癖など)を相手PAの行動パターンとして記憶する。特有の行動パターンとしては、「資料の提示」に対して、納得したという意味で「口を丸くしながら数回うなずく」や、一生懸命考えているという意味で「指をこめかみに当てながら考えこむ」などが挙げられる。反応予想部PRは、相手特有の行動パターンと類似する言動を相手PAの映像および音声から抽出する。
【0035】
反応認識部REは、相手PAの映像および音声から相手PAの反応を認識する。反応認識部REは、刺激に対する実際の相手PAの反応を実反応として認識する。状態推測部ESは、予想反応と実反応の違いに基づいて相手PAの状態を推測する。相手PAの状態は、例えば、ポジネガ度PNとして算出される。ポジネガ度PNは、予想ポジネガ度を予想反応と実反応の違いに基づいて補正することにより算出される。補正の方法はシステム開発者が任意に設定することができる。
【0036】
例えば、状態推測部ESは、相手PAの反応の種類に応じたポジネガ度PNを仮ポジネガ度として算出する。反応データベース部DBRは、反応として検出すべき個々の言動の情報を反応情報として記憶する。反応情報は、反応として検出される言動の内容、および、言動から予想されるポジネガ度(仮ポジネガ度)を含む。仮ポジネガ度の値は、システム設計者によって任意に設定される。例えば、会話とは無関係な方向を向く行為は、無関心を示すネガティブな反応であるため、仮ポジネガ度は低い値に設定される。
【0037】
反応予想部PRは、反応データベース部DBRから相手PAの反応に対応する反応情報を抽出し、状態推測部ESに供給する。状態推測部ESは、反応情報から仮ポジネガ度を抽出し、相手PAの状態を示すポジネガ度PNとして算出する。相手PAの反応が予想反応と同じ種類の反応である場合には、状態推測部ESは、予想反応情報から抽出した予想ポジネガ度と仮ポジネガ度との差に応じた補正値でポジネガ度PNを補正する。状態推測部ESは、補正後のポジネガ度PNを相手PAの状態として算出する。
【0038】
状態推測部ESは、予想反応と実反応との間の反応の大きさの違いおよび反応が起きるタイミングの違いを加味して相手PAの状態を推測することができる。例えば、反応データベース部DBRには、「問いかけ」という刺激に対して「うなずき」という反応が予想反応の一つとして登録されている。実反応として「うなずき」が認識された場合、反応予想部PRは、反応データベース部DBRから「うなずき」に関する予想反応情報を抽出し、状態推測部ESに供給する。状態推測部ESは、予想反応情報から、標準的な「うなずき」の大きさ、タイミング(「問いかけ」から「うなずき」が生じるまでの時間)および予想ポジネガ度を抽出する。
【0039】
反応認識部REは、実反応を分析して、実際の「うなずき」の大きさおよびタイミングを検出する。状態推測部ESは、実際の「うなずき」の大きさおよびタイミングを反応予想部PRで予想された(予想反応情報から抽出された)「うなずき」の大きさおよびタイミングと比較し、比較結果に基づいて、付与すべき補正値を算出する。例えば、「うなずき」の大きさが予想された値よりも大きくなるほど、あるいは、「うなずき」のタイミングが予想された値よりも早くなるほど、補正値は大きくなる。
【0040】
相手PAの反応が予想反応とは異なる種類の反応である場合には、状態推測部ESは、反応情報から抽出された仮ポジネガ度を、相手PAの状態を示すポジネガ度PNとして算出する。直近の話者SKの刺激が現在の相手PAの言動に影響を及ぼす可能性がある場合には、状態推測部ESは、直近の刺激を加味した補正値でポジネガ度PNを補正することができる。例えば、直近の刺激によってポジティブな反応が予想される場合には、ポジネガ度PNに正の補正値が付与される。
【0041】
状態推測部ESは、推測された相手PAの状態(ポジネガ度PN)をデータ送信部DTAおよびデータ受信部DRKを介して相手状態提示部PSに通知する。相手状態提示部PSは、相手PAの状態を端末TKのディスプレイSCKに表示する。
【0042】
図2の例は、保険のコンサルティングへの適用例であるため、一方のユーザ(顧客CU)の状態のみが分析される。しかし、商談などの他の適用例では、双方のユーザが互いに相手の状態を認識できることが好ましい。この場合、端末TKにも端末TAと同様の構成(刺激認識部ST、反応認識部RE、反応予想部PR、状態推測部ES、刺激データベース部DBSおよび反応データベース部DBR)を搭載し、対話を行う双方のユーザの状態を分析できるようにしてもよい。
【0043】
[2.コミュニケーション例]
図3は、保険外交員CNと顧客CUとの間のコミュニケーションの例を示す図である。
【0044】
保険外交員CNは端末TKを介して顧客CUに「なぜ資産分散したほうが良いのでしょうか?」と問いかける。顧客CU側の端末TAは、端末TKから送信された保険外交員CNの映像および音声を分析し、保険外交員CNの「問いかけ」を刺激として検出する。
【0045】
端末TAは、「問いかけ」という刺激に対して「すぐに(0.1秒後)返答する」という反応を予想する。実際には、顧客CUは、適切な回答が見いだせず、顔を横に向けながら考え込む。端末TAは、顧客CUの映像および音声を分析し、「しばらく(1秒)顔を横に向けながら考え込んでいる」という反応を認識する。端末TAは、ポジネガ度PNを10と判定し、端末TKに通知する。ポジネガ度PNは、0から100までの値をとる。ポジネガ度PNの値が低いほど、ネガティブの度合いが大きい。
【0046】
端末TKは、端末TAからの通知に基づいて、ディスプレイSCKのポジネガ度PNを更新する。保険外交員CNは、ポジネガ度PNの値を見て、顧客CUが理解していないことを認識する。保険外交員CNは、顧客CUの理解を促すために、「これです。」と言って、端末TKのカメラに向けて「卵を一つのかごに盛るな」の資料を提示する。端末TKは、資料を共有用のコンテンツCTとして端末TAに送信する。
【0047】
端末TAは、コンテンツCTの更新を認識し、ディスプレイSCAに資料を表示する。端末TAは、「資料の提示」という刺激に対して、「しばらく(0.5秒)資料を眺めて軽くうなずく」という反応を予想する。実際には、顧客CUは、提示された資料によって分散投資の意義を理解し、「なるほど」といって大きくうなずく。端末TAは、顧客CUの映像および音声を分析し、「すぐに(0.1秒後)『なるほど』といって大きくうなずく」という反応を認識する。端末TAは、ポジネガ度PNを90と判定し、端末TKに通知する。
【0048】
端末TKは、端末TAからの通知に基づいて、ディスプレイSCKのポジネガ度PNを更新する。保険外交員CNは、ポジネガ度PNの値を見て、顧客CUが理解したことを認識する。
【0049】
[3.情報処理方法]
図4は、コミュニケーション支援システムCSの処理フローの一例を示す図である。
【0050】
刺激認識部STは、顧客CUが端末TAを介して視聴する映像および音声(以下、視聴映像等と記載する)を分析する(ステップS1)。視聴映像等には、保険外交員CNの顔映像、音声および共有資料映像などが含まれる。刺激認識部STは、分析結果に基づいて、視聴映像等に顧客CUを刺激する言動が存在するか否かを判定する(ステップS2)。
【0051】
刺激として抽出すべき言動は、刺激データベース部DBSに登録されている。刺激データベース部DBSは、刺激となる言動ごとに、言動の内容(種類、特徴)を規定した刺激情報を記憶する。刺激認識部STは、顧客CUの視聴映像等を刺激データベース部DBSと照合する。刺激認識部STは、視聴映像等に刺激データベース部DBSに登録された言動が存在すれば、刺激となる言動が存在すると判定する。
【0052】
視聴映像等に刺激となる言動が存在する場合には(ステップS2:Yes)、刺激認識部STは、刺激となる言動の内容および刺激が顧客CUに認識された時刻(タイムスタンプ)を示す刺激認識情報を生成する(ステップS3)。刺激となる言動の内容は、刺激情報から取得される。時刻情報は視聴映像等を分析することにより取得される。「刺激が顧客CUに認識された時刻」とは、視聴映像等の送信時刻ではなく、ネットワーク遅延やパケットロスなどを加味した、実際に顧客CUが視聴映像等を取得した時刻を意味する。
【0053】
反応予想部PRは、刺激に対する顧客CUの反応を予想する(ステップS4)。予想される反応は、反応データベース部DBRに登録されている。反応データベース部DBRは、刺激ごとに、予想反応となる言動の内容、言動が起こるタイミング、および、言動から予想される予想ポジネガ度を規定した予想反応情報を記憶する。反応予想部PRは、刺激認識情報から、刺激となる言動の内容を特定し、反応データベース部DBRから、刺激に対応する予想反応情報を抽出する。
【0054】
反応認識部REは、端末TAによってモニタリングされた顧客CUの映像および音声(以下、モニタリング映像等と記載する)を分析する(ステップS5)。モニタリング映像等には、顧客CUの顔映像および音声などが含まれる。
【0055】
状態推測部ESは、反応認識部REの分析結果に基づいて顧客CUのポジネガ度PNを算出する(ステップS6)。例えば、状態推測部ESは、反応予想部PRから予想反応の情報を取得すると、刺激に対して予想される反応(予想反応)と実際の顧客CUの反応(実反応)との違いに基づいてポジネガ度PNを算出する(ステップS6)。算出されたポジネガ度PNは、端末TKに送信され、ディスプレイSCKに表示される。
【0056】
ステップS2において、視聴映像等に刺激となる言動が存在しない場合には(ステップS2:No)、ステップS3およびステップS4に示した予想反応の算出処理は行われない。反応認識部REは、モニタリング映像等を分析して、刺激とは無関係の顧客CUの言動を認識する(ステップS5)。状態推測部ESは、刺激とは無関係の顧客CUの言動に基づいて顧客CUのポジネガ度PNを算出する(ステップS6)。
【0057】
端末TKは、終了ボタンなどの操作に基づいて処理の終了を判定する(ステップS7)。端末TKは、終了操作が行われるまで上述の処理を繰り返す。
【0058】
図5は、ポジネガ度PNの算出方法の一例を示す図である。
【0059】
反応認識部REは、モニタリング映像等を分析して、顧客CUから何らかの言動が検出されたか否かを判定する(ステップS11)。検出対象となる言動は、反応データベース部DBRに登録されている。検出対象となる言動には、刺激に応答した言動(刺激に対する反応)および刺激とは無関係の言動の双方が含まれる。反応認識部REは、反応データベース部DBRに登録された言動がモニタリング映像等から検出された場合には、顧客CUから何らかの言動が検出されたと判定する。
【0060】
顧客CUから何らかの言動が検出された場合には(ステップS11:Yes)、状態推測部ESは、検出された言動に基づいてポジネガ度PNの算出を行う。
【0061】
まず、状態推測部ESは、刺激とは無関係の顧客の言動に基づいて仮ポジネガ度を算出する(ステップS12)。反応認識部REは、前後の時間帯に刺激に対する予想反応が存在するか否かを判定する(ステップS13)。予想反応が存在する場合には(ステップS13:Yes)、状態推測部ESは、仮ポジネガ度を予想反応と実反応との違いに基づいて補正して得られたポジネガ度PNを顧客CUの状態として出力する。
【0062】
例えば、状態推測部ESは、刺激に対する実際の顧客CUの反応(実反応)が予想反応よりもポジティブであるか否かを判定する(ステップS14)。実反応が予想反応よりもポジティブである場合には(ステップS14:Yes)、状態推測部ESは、予想反応と実反応との違いに基づいて仮ポジネガ度をポジティブに変更する(ステップS15)。実反応が予想反応よりもネガティブである場合には(ステップS14:No)、状態推測部ESは、予想反応と実反応との違いに基づいて仮ポジネガ度をネガティブに変更する(ステップS16)。
【0063】
顧客CUから何らの言動も検出されない場合には(ステップS11:No)、状態推測部ESは、直近の刺激を加味して現在のポジネガ度PNを算出する。直近の刺激とは、予想反応となる言動が現時刻において起こる可能性のある刺激を意味する。例えば、反応データベース部DBRには、予想反応が起きるタイミングとして、所定の時間幅を持った期間が登録されている。その期間内に現在の時刻が含まれている場合には、直近の刺激が現在の顧客CUの言動に影響を及ぼす可能性があると考えられる。状態推測部ESは、そのような現在の顧客CUの言動に影響を及ぼす可能性のある直近の刺激を加味して現在のポジネガ度PNを算出する。
【0064】
まず、状態推測部ESは、現在の顧客CUの言動に影響を及ぼす可能性のある過去の刺激が存在するか否かを判定する(ステップS18)。状態推測部ESは、予想反応が起きるタイミングとして登録された期間内に現在の時刻が含まれる場合には、現在の顧客CUの言動に影響を及ぼす可能性のある過去の刺激が存在すると判定する。
【0065】
現在の顧客CUの言動に影響を及ぼす可能性のある過去の刺激が存在する場合には(ステップS18:Yes)、状態推測部ESは、過去の刺激に対する予想反応がポジティブな反応であるか否かを判定する(ステップS19)。
【0066】
状態推測部ESは、反応データベース部DBRから、予想反応に対応する予想ポジネガ度を抽出する。予想反応がポジティブな反応である場合には(ステップS19:Yes)、状態推測部ESは、予想ポジネガ度に応じて仮ポジネガ度をネガティブに変更する(ステップS20)。予想反応がネガティブな反応である場合には(ステップS19:No)、状態推測部ESは、予想ポジネガ度に応じて仮ポジネガ度をポジティブに変更する(ステップS21)。
【0067】
ステップS20およびステップS21において使用される仮ポジネガ度は、例えば、直近に算出された仮ポジネガ度またはポジネガ度PNである。これにより、状態推測部ESは、直近に算出されたポジネガ度PNを加味して現在のポジネガ度PNを算出することができる。なお、顧客CUの状態(ポジティブ、ネガティブ)はしばらく保持され、少しずつニュートラルに戻るような動きになると考えられる。そのため、ポジネガ度PNもそれに応じてニュートラルに戻るような変化を示すようにしてもよい。例えば、状態推測部ESは、時間の経過に伴ってポジネガ度PNを徐々にニュートラルの値に近づける。
【0068】
状態推測部ESは、ステップS15,S16,S20,S21において補正された後の仮ポジネガ度を顧客CUの状態を示すポジネガ度PNとして保険外交員CNに通知する(ステップS17)。
【0069】
[4.ハードウェア構成例]
図6は、通信端末TMのハードウェア構成の一例を示す図である。
【0070】
通信端末TMの情報処理は、例えば、コンピュータ1000によって実現される。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
【0071】
CPU1100は、ROM1300またはHDD1400に格納されたプログラム(プログラムデータ1450)に基づいて動作し、各部の制御を行う。たとえば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
【0072】
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)などのブートプログラムや、コンピュータ1000のハードウェアに依存するプログラムなどを格納する。
【0073】
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な非一時的記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。
【0074】
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(たとえばインターネット)と接続するためのインターフェイスである。たとえば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
【0075】
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、表示装置やスピーカやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
【0076】
たとえば、コンピュータ1000が実施形態にかかる通信端末TMとして機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、前述した各部の機能を実現する。また、HDD1400には、本開示にかかる情報処理プログラム、各種モデルおよび各種データが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
【0077】
[5.効果]
端末TAは、刺激認識部ST、反応予想部PR、反応認識部REおよび状態推測部ESを有する。刺激認識部STは、対話の相手PAを刺激する話者SKの言動を認識する。反応予想部PRは、刺激に対して予想される相手PAの反応を予想反応として認識する。反応認識部REは、刺激に対する実際の相手PAの反応を実反応として認識する。状態推測部ESは、予想反応と実反応の違いに基づいて相手PAの状態を推測する。本開示の情報処理方法は、端末TAの処理がコンピュータ1000により実行される。本開示のプログラムは、端末TAの処理をコンピュータ1000に実現させる。
【0078】
この構成によれば、話者SKの言動(刺激)に対して相手PAがどのように反応したかによって相手PAの状態が推測される。相手PAの情報(絶対的な表情等のレベル)のみから相手PAの状態を推測すると、個人差によって精度のよい推測が行われない。話者SKの言動と相手PAの反応との相関関係に基づいて相手PAの状態を推測することで、推測の精度が高まる。
【0079】
状態推測部ESは、予想反応と実反応との間の反応の大きさの違いおよび反応が起きるタイミングの違いを加味して相手PAの状態を推測する。
【0080】
この構成によれば、相手PAの状態の推測の精度が高まる。
【0081】
刺激認識部STは、話者SKが持つ特有の行動パターンに基づく言動を刺激として認識する。
【0082】
この構成によれば、話者SKの行動パターンを加味した適切な刺激の抽出が行われる。
【0083】
反応予想部PRは、相手PAが持つ特有の行動パターンを加味して刺激に対する相手PAの反応を予想する。
【0084】
この構成によれば、相手PAの行動パターンを加味した適切な反応の予想が行われる。
【0085】
状態推測部ESは、刺激とは無関係の相手PAの言動に基づいて仮ポジネガ度を算出する。状態推測部ESは、仮ポジネガ度を予想反応と実反応との違いに基づいて補正して得られたポジネガ度PNを相手PAの状態として出力する。
【0086】
この構成によれば、実反応以外の相手PAの言動を加味した適切な状態の推測が行われる。
【0087】
状態推測部ESは、現在の相手PAの言動に影響を及ぼす可能性のある直近の刺激を加味して現在のポジネガ度PNを算出する。
【0088】
この構成によれば、直近の刺激の影響を現在の相手PAの状態に適切に反映させることができる。
【0089】
状態推測部ESは、直近に算出されたポジネガ度PNを加味して現在のポジネガ度PNを算出する。
【0090】
この構成によれば、時系列で並ぶデータ相互の前後関係(文脈)を考慮した適切な状態の推測が行われる。
【0091】
状態推測部ESは、時間の経過に伴ってポジネガ度PNを徐々にニュートラルの値に近づける。
【0092】
この構成によれば、ポジネガ度PNが感情の変化に即した緩やかな変化を示す。
【0093】
端末TKは、データ送信部DTK、データ受信部DRKおよび相手状態提示部PSを有する。データ送信部DTKは、対話の相手PAを刺激する話者SKの言動を送信する。データ受信部DRKは、刺激に対して推測される相手PAの状態を受信する。相手状態提示部PSは、相手PAの状態を話者SKに提示する。
【0094】
この構成によれば、話者SKは相手PAの状態を確認しながら対話を行うことができる。
【0095】
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0096】
[付記]
なお、本技術は以下のような構成も採ることができる。
(1)
対話の相手を刺激する話者の言動を認識する刺激認識部と、
刺激に対して予想される前記相手の反応を予想反応として認識する反応予想部と、
前記刺激に対する実際の前記相手の反応を実反応として認識する反応認識部と、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する状態推測部と、
を有する情報処理装置。
(2)
前記状態推測部は、前記予想反応と前記実反応との間の反応の大きさの違いおよび反応が起きるタイミングの違いを加味して前記相手の状態を推測する、
上記(1)に記載の情報処理装置。
(3)
前記刺激認識部は、前記話者が持つ特有の行動パターンに基づく言動を前記刺激として認識する、
上記(1)または(2)に記載の情報処理装置。
(4)
前記反応予想部は、前記相手が持つ特有の行動パターンを加味して前記刺激に対する前記相手の反応を予想する、
上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(5)
前記状態推測部は、前記刺激とは無関係の前記相手の言動に基づいて仮ポジネガ度を算出し、前記仮ポジネガ度を前記予想反応と前記実反応との違いに基づいて補正して得られたポジネガ度を前記相手の状態として出力する、
上記(1)ないし(5)のいずれか1つに記載の情報処理装置。
(6)
前記状態推測部は、現在の前記相手の言動に影響を及ぼす可能性のある直近の前記刺激を加味して現在の前記ポジネガ度を算出する、
上記(5)に記載の情報処理装置。
(7)
前記状態推測部は、直近に算出された前記ポジネガ度を加味して現在の前記ポジネガ度を算出する、
上記(5)または(6)に記載の情報処理装置。
(8)
前記状態推測部は、時間の経過に伴って前記ポジネガ度を徐々にニュートラルの値に近づける、
上記(7)に記載の情報処理装置。
(9)
対話の相手を刺激する話者の言動を前記相手に送信するデータ送信部と、
前記刺激に対して推測される前記相手の状態を受信するデータ受信部と、
前記相手の状態を前記話者に提示する相手状態提示部と、
を有する情報処理装置。
(10)
対話の相手を刺激する話者の言動を認識し、
刺激に対して予想される前記相手の反応を予想反応として認識し、
前記刺激に対する実際の前記相手の反応を実反応として認識し、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する、
ことを有する、コンピュータにより実行される情報処理方法。
(11)
対話の相手を刺激する話者の言動を認識し、
刺激に対して予想される前記相手の反応を予想反応として認識し、
前記刺激に対する実際の前記相手の反応を実反応として認識し、
前記予想反応と前記実反応の違いに基づいて前記相手の状態を推測する、
ことをコンピュータに実現させるプログラム。
【符号の説明】
【0097】
DRK データ受信部
DTK データ送信部
ES 状態推測部
PA 相手
PN ポジネガ度
PR 反応予想部
PS 相手状態提示部
RE 反応認識部
SK 話者
ST 刺激認識部
TA 端末(情報処理装置)
TK 端末(情報処理装置)
TM 通信端末(情報処理装置)
図1
図2
図3
図4
図5
図6