(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-12
(45)【発行日】2022-08-22
(54)【発明の名称】情報処理システム、情報処理方法、及びプログラム
(51)【国際特許分類】
G06F 3/01 20060101AFI20220815BHJP
G06F 3/04817 20220101ALI20220815BHJP
G06F 3/16 20060101ALI20220815BHJP
G06T 7/00 20170101ALI20220815BHJP
G10L 13/02 20130101ALI20220815BHJP
【FI】
G06F3/01 510
G06F3/04817
G06F3/16 630
G06F3/16 650
G06F3/16 690
G06T7/00 P
G06T7/00 660A
G10L13/02 130Z
(21)【出願番号】P 2019214178
(22)【出願日】2019-11-27
【審査請求日】2021-08-13
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】福江 尚史
(72)【発明者】
【氏名】小西 啓介
【審査官】酒井 優一
(56)【参考文献】
【文献】特開2015-064513(JP,A)
【文献】特開2010-183444(JP,A)
【文献】特開2015-067254(JP,A)
【文献】国際公開第2019/144542(WO,A1)
【文献】米国特許出願公開第2019/0187252(US,A1)
【文献】特開2019-113696(JP,A)
【文献】国際公開第2018/168427(WO,A1)
【文献】国際公開第2019/155717(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/04817
G06F 3/16
G06T 7/00
G10L 13/02
(57)【特許請求の範囲】
【請求項1】
スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得する取得部と、
前記顔画像に基づいて、前記ユーザの感情を分析する感情分析部と、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定する視線判定部と、
前記視線判定部における判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出する時間算出部と、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部と、
前記感情分析部で分析された前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定するタイミング特定部であって、前記感情分析部において分析される前記ユーザの第1感情に対する第1タイミングを特定し、前記感情分析部において分析される、前記第1感情とは異なる第2感情に対する第2タイミングを、前記第1感情に対する第1タイミングよりも長くなるように特定するタイミング特定部と、
前記応答内容特定部で特定された前記所定の応答内容に沿って、
前記タイミング特定部で特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信する送信部と、
を備える情報処理システム。
【請求項2】
表示部を有する前記スピーカ装置において、前記表示部に人の表情を模したアイコンを表示させるべく、所定の情報を参照して、前記応答内容に対応する前記アイコンを特定する表情アイコン特定部
をさらに備え、
前記送信部は、前記表情アイコン特定部で特定された前記アイコンを、前記スピーカ装置に送信する
請求項
1に記載の情報処理システム。
【請求項3】
前記取得部は、複数の前記ユーザのそれぞれの位置情報を含む前記顔画像を取得し、
前記送信部は、前記複数のユーザのそれぞれに対して前記表情アイコン特定部で特定された前記アイコンを、前記複数のユーザのそれぞれの前記位置情報に対応する前記表示部の所定の領域に表示させるべく、前記スピーカ装置に送信する
請求項
2に記載の情報処理システム。
【請求項4】
前記スピーカ装置
をさらに備え、
前記スピーカ装置は、
前記顔画像に基づいて、前記ユーザの感情を分析するスピーカ感情分析部を有し、
前記スピーカ感情分析部で分析された前記ユーザの感情に基づいて、所定の応答内容を特定するスピーカ応答内容特定部と、
前記スピーカ応答内容特定部で特定された前記所定の応答内容に沿って、前記スピーカに音声出力させるべく、前記所定の応答内容を示す音声信号を、前記スピーカに出力する出力部と、
を有する
請求項1から請求項3の何れか一項に記載の情報処理システム。
【請求項5】
前記スピーカ装置は、円筒形状を呈し、円筒形状の上端部における側周縁部に、前記感情分析部または前記スピーカ感情分析部の少なくともいずれかで分析される、人の表情を模したアイコンを表示する表示部を有する
請求項
4に記載の情報処理システム。
【請求項6】
コンピュータが、
スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得することと、
前記顔画像に基づいて、前記ユーザの感情を分析することと、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定することと、
判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出することと、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定することと、
前記顔画像によって分析される前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定することであって、前記顔画像に基づき分析される前記ユーザの第1感情に対する第1タイミングを特定し、前記顔画像に基づき分析される、前記第1感情とは異なる第2感情に対する第2タイミングを、前記第1感情に対する第1タイミングよりも長くなるように特定することと、
前記特定され
た所定の応答内容に沿って、
前記特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信することと、
を実行する情報処理方法。
【請求項7】
コンピュータに、
スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得させることと、
前記顔画像に基づいて、前記ユーザの感情を分析させることと、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定させることと、
判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出させることと、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定させることと、
前記顔画像によって分析される前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定することであって、前記顔画像に基づき分析される前記ユーザの第1感情に対する第1タイミングを特定し、前記顔画像に基づき分析される、前記第1感情とは異なる第2感情に対する第2タイミングを、前記第1感情に対する第1タイミングよりも長くなるように特定することと、
前記特定され
た所定の応答内容に沿って、
前記特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信させることと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
画像センサで検知された画像情報に基づいてスピーカに音声出力させるか否かを決定する決定装置が開示されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1には、ユーザが居住する住宅内に設けられたスピーカにおける音声出力のタイミングを画像情報に基づいて決定する決定装置が開示されている。また、特許文献1に記載の決定装置は、音声情報が途切れたタイミングにおいてスピーカに音声出力させる。特許文献1の決定装置によれば住宅内の状況に応じてスピーカに音声出力させることができる。しかしながら、特許文献1に記載の決定装置では、スピーカからユーザに対して、ユーザの感情を考慮して能動的に音声出力させることができないため、スピーカとユーザとの会話を円滑に行うには不十分であるという問題があった。
【0005】
本発明の目的は、上記のような問題に鑑みてなされたものであり、ユーザの感情を考慮して、スピーカから能動的に音声出力するシステムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一態様に係る情報処理システムは、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得する取得部と、前記顔画像に基づいて、前記ユーザの感情を分析する感情分析部と、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定する視線判定部と、前記視線判定部における判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出する時間算出部と、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部と、前記応答内容特定部で特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信する送信部と、を備える。
【0007】
本発明の一態様に係る情報処置方法は、コンピュータが、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得することと、前記顔画像に基づいて、前記ユーザの感情を分析することと、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定することと、判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出することと、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定することと、特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信することと、を実行する。
【0008】
本発明の一態様に係るプログラムは、コンピュータに、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得させることと、前記顔画像に基づいて、前記ユーザの感情を分析させることと、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定させることと、判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出させることと、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定させることと、特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信させることと、を実行させる。
【発明の効果】
【0009】
本発明によれば、ユーザの感情および視線に基づいて、能動的にユーザに対して音声出力することで、ユーザの発言を促すことができる。
【図面の簡単な説明】
【0010】
【
図1】音声通知システムの構成の一例を示す図である。
【
図2】音声通知システムにおける処理の概要を示す図である。
【
図3】応答サーバ装置の機能構成の一例を示す図である。
【
図5】スピーカ装置の機能構成の一例を示す図である。
【
図6】応答サーバ装置の処理の一例を示すフロー図である。
【
図7】コンピュータのハードウェア構成の一例を示す図である。
【
図8】スピーカ装置の他の実施形態における機能構成の一例を示す図である。
【
図9】スピーカ応答情報テーブルの一例を示す図である。
【発明を実施するための形態】
【0011】
以下に、本発明の一実施形態における音声通知システム1について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、又は各実施例を組み合わせる等して実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
==構成==
【0012】
図1は、音声通知システム1の構成の一例を示す図である。
図1に示すように、音声通知システム1は、例えば応答サーバ装置10およびスピーカ装置20を含む。なお、応答サーバ装置10とスピーカ装置20の機能を一のシステムで実現してもよい。また、応答サーバ装置10とスピーカ装置20のそれぞれの機能を、他の複数の装置で実現してもよい。以下、音声通知システム1の各構成要素について説明する。
【0013】
応答サーバ装置10は、スピーカ装置20からユーザの顔を示す顔画像を取得し、該顔画像に基づきスピーカ装置20に所定の応答情報を送信することで、スピーカ装置20からユーザに対して能動的に発話させる装置である。応答サーバ装置10は、例えばサーバコンピュータなどの情報処理装置で構成され、ネットワーク300を介してスピーカ装置20と接続される。応答サーバ装置10とスピーカ装置20との間の各種データの送受信については後述する。
【0014】
スピーカ装置20は、顔画像を取得する画像取得装置21を有し、該画像取得装置21で取得された顔画像を、応答サーバ装置10に送信する装置である。そして、スピーカ装置20は、応答サーバ装置10から取得した応答情報に基づいて発話する。スピーカ装置20は所謂スマートスピーカである。
【0015】
ここで、以下説明の理解を助けるために、スピーカ装置20のハードウェア構成の一例について説明する。スピーカ装置20は、例えば、音声を検出して電気信号に変換するマイクロフォン(不図示)、応答サーバ装置10から取得する音声情報を音声出力するスピーカ(不図示)、外部の装置と通信するための通信モジュール(不図示)、視覚的にスピーカ装置20のステータスや表情を模したアイコンを表示する表示部22、各種操作指示を行うための操作ボタン(不図示)、各構成要素を制御する制御部(不図示)を備える。スピーカ装置20については、様々の種類のものが存在し、例えば、複数のマイクロフォンおよびスピーカを有するものや、上面の外周部に等間隔にマイクロフォンを配設したものや、側面の外周部に等間隔にスピーカを配設したものなどが存在し、その仕様が限定されるものではない。
==音声通知システム1の概要==
【0016】
図2は、音声通知システム1における処理の概要を示す図である。
図2を参照して、音声通知システム1の動作の概要を説明する。
【0017】
まず、S1において、スピーカ装置20の画像取得装置21は、ユーザの顔画像を取得する。
【0018】
次に、S2において、スピーカ装置20は、取得した顔画像を応答サーバ装置10に送信する。そして、応答サーバ装置10において、顔画像に基づいてユーザの表情および視線が分析される。応答サーバ装置10は、分析したユーザの表情および視線に基づいて、ユーザの感情およびユーザがスピーカ装置20を見ている継続時間を特定する。
【0019】
次に、S3において、応答サーバ装置10は、特定された感情や継続時間に基づき応答情報を特定し、該応答情報をスピーカ装置20に送信する。これにより、スピーカ装置20は、応答情報に基づいて、ユーザに対して能動的に適切な発話が可能となる。
【0020】
次に、S4において、スピーカ装置20はユーザに対して応答情報に応じた音声を発信する。
==音声通知システム1の構成==
【0021】
以下、応答サーバ装置10およびスピーカ装置20が備える機能について、それぞれ説明する。
<<応答サーバ装置10>>
【0022】
図3を参照して、応答サーバ装置10の機能構成について説明する。
図3は、応答サーバ装置10の機能構成の一例を示す図である。
図3に示すとおり、応答サーバ装置10は、記憶部11、取得部12、感情分析部13、視線判定部14、時間算出部15、タイミング特定部16、応答内容特定部17、表情アイコン特定部18、送信部19の機能を有する。
【0023】
記憶部11は、例えば応答情報テーブル11aを有する。
【0024】
応答情報テーブル11aは、例えばユーザに対する応答内容を示す応答情報を格納したテーブルである。
図4に示すように、応答情報テーブル11aのデータ構造は、例えば応答内容IDなどの適宜な項目を主キーとして、感情、継続時間、タイミング、ユーザ属性、応答内容、および表情アイコンなどのデータから成るレコードの集合体である。ここで、感情とは、例えば顔画像に基づいて推測されるユーザの感情である。継続時間とは、例えばユーザがスピーカ装置20を継続的に見ている時間である。タイミングとは、例えばスピーカ装置20が発話するタイミングである。ユーザ属性とは、例えばユーザの性別や職位などである。応答内容とは、例えばスピーカ装置20から音声出力される内容である。表情アイコンとは、例えばスピーカ装置20の表示部に表示される人の表情を模したアイコンである。応答情報テーブル11aの内容は、例えば応答サーバ装置10の管理者により適宜更新される。なお、応答情報テーブル11aは一例を示すものであり、その内容が限定されるものではない。
【0025】
また、記憶部11は、例えば、後述する感情分析部13や時間算出部15における学習済みモデルを格納してもよい。さらに、記憶部11には、学習済みモデルを生成するための学習データを格納していてもよい。学習データとは、例えば感情分析部13における感情分析で用いられる顔画像などと、これに対応付けられ、教師データとなるユーザの感情や視線などである。これらについては後述する。
【0026】
取得部12は、スピーカ装置20から送信された顔画像を取得する。
【0027】
感情分析部13は、顔画像における特徴量を学習済みモデルに入力してユーザの感情を分析し、出力する。具体的には、感情分析部13は、例えば、目の領域、口の領域、鼻の領域、または頬の領域などの注目領域を抽出し、該注目領域から特徴点を抽出する。感情分析部13は、抽出した特徴点間の距離から特徴量を特定する。そして、該特徴量を学習済みモデルに入力することで、ユーザの感情を出力する。ここで、該学習済みモデルは、例えば、畳み込みニューラルネットワークであり、注目領域の特徴量と、該特徴量に対応する感情(教師データ)との組を学習データとして学習されたものである。これにより、感情分析部13は、顔画像から、ユーザの目、口、鼻、頬などの顔の要素の変形に応じて生じる顔の筋肉の収縮で現れる表情を分析し、該表情が表す感情を特定できる。
【0028】
なお、感情とは、例えば、所謂27種類の基本的な感情であってもよく、また該基本的な感情を組み合わせた感情であってもよい。以下では、説明の便宜のため、一例として感情分析部13で特定される感情を「楽しい」「怒り」「悲哀」に限定して説明する。
【0029】
視線判定部14は、顔画像からユーザの目に関する特徴量を学習済みモデルに入力してユーザの視線を分析し、ユーザがスピーカ装置20を見ているか否かを判定する。具体的には、視線判定部14は、例えば、顔画像のうち少なくとも片目を含む部分的画像を抽出し、該部分的画像が示す特徴量を抽出する。視線判定部14は、該特徴量を学習済みモデルに入力し、ユーザがスピーカ装置20に見ているか否かを判定する。ここで、該学習済みモデルは、例えば、畳み込みニューラルネットワークであり、該部分的画像が示す特徴量と、該特徴量に対応する視線(教師データ)との組を学習データとして学習されたものである。
【0030】
なお、上述した、感情分析部13および視線判定部14おける、特徴量を抽出する技術や、それを用いた学習済みモデルは、あくまで例示であって限定されるものではなく、これらに代えて周知の他の技術を利用することを妨げない。
【0031】
時間算出部15は、視線判定部14においてユーザがスピーカ装置20を見ていると判定されている間の継続時間を算出する。具体的には、時間算出部15は、視線判定部14から所定の時間間隔で判定結果を取得することで、ユーザがスピーカ装置20を見ていると判定された時点から、ユーザがスピーカ装置20を見ていない判定された時点までの時間を、継続時間として算出する。
【0032】
タイミング特定部16は、例えば、感情分析部13で分析された感情と、時間算出部15で算出された継続時間と、の少なくともいずれかに基づいて、所定の応答内容をスピーカ装置20に音声出力させるタイミングを特定する。これにより、ユーザの感情に適切なタイミングでスピーカ装置20に音声出力させることができる。
【0033】
また、タイミング特定部16は、感情分析部13において分析されるユーザの第1感情に対する第1タイミングを特定し、第1感情とは異なり、感情分析部13において分析される第2感情に対する第2タイミングを、第1タイミングよりも長くなるように特定する。具体的には、
図4に示すように、例えば、継続時間が「一瞬」において、第2感情が「楽しい」の場合には「直後」の第1タイミングを特定し、第2感情が「悲哀」の場合には、「楽しい」の第1タイミング(直後)よりも長い、「3秒前後」の第2タイミングを特定する。また、第2感情が「怒り」の場合には、「楽しい」の第1タイミング(直後)よりも長い、「6秒前後」の第2タイミングを特定する。このように、「楽しい」などのプラスの感情をユーザが抱いている場合は、スピーカ装置20はできるだけ早く応答内容を音声出力させ、「悲哀」や「怒り」など、マイナス感情が強くなるにしたがって、スピーカ装置20は応答内容の音声出力を遅らせる。これにより、ユーザの感情に応じた適切なタイミングでスピーカ装置20に音声出力させることができるため、ユーザとスピーカ装置20との間のコミュニケーションを促進できる。
【0034】
なお、タイミング特定部16は、予めタイミングを定めた応答情報テーブル11aを参照して、感情分析部13で分析された感情と時間算出部15で算出された継続時間とに対応付けられる、第1タイミングおよび第2タイミングを特定してもよい。
【0035】
応答内容特定部17は、応答情報テーブル11aを参照して、少なくとも感情および継続時間に基づいて、スピーカ装置20に音声出力させる応答内容を特定する。これにより、ユーザの感情に適切な内容をスピーカ装置20に音声出力させることができるため、ユーザとスピーカ装置20との間のコミュニケーションを促進できる。また、会議やパーティなど、複数の人が集まるような状況において、その状況に応じた的確な応答内容を音声出力できる、会議やパーティなどを円滑に進行させることができる。
【0036】
表情アイコン特定部18は、応答情報テーブル11aを参照して、応答内容に対応する表情アイコンを特定する。表情アイコン特定部18で特定された表情アイコンを表示部22に表示させることにより、スピーカ装置20を見ているユーザの心に寄り添う雰囲気を演出できるため、ユーザとスピーカ装置20とのコミュニケーションを促進できる。
【0037】
なお、上述した、タイミング特定部16、応答内容特定部17、および表情アイコン特定部18の機能を、周知の学習済みモデルを用いて実現することを妨げない。すなわち、この場合、各機能部は、応答情報テーブル11aを参照する必要がない。
【0038】
送信部19は、タイミング、応答内容、および表情アイコンに関する情報を含む応答情報をスピーカ装置20に送信する。
<<スピーカ装置20>>
【0039】
次に、スピーカ装置20の機能構成について説明する。スピーカ装置20は、送受信部20aおよび表示制御部20bの機能を有する。
【0040】
送受信部20aは、スピーカ装置20におけるデータの送受信を制御する。例えば、送受信部20aは、画像取得装置21から取得した顔画像を応答サーバ装置10などの外部装置に送信する。また、送受信部20aは、応答サーバ装置10などの外部装置からの応答情報を受信する。
【0041】
表示制御部20bは、スピーカ装置20が備える、またはスピーカ装置20に接続される表示部22(
図1参照)の表示を制御する。表示制御部20bは、応答情報に含まれる表情アイコンを表示部22に表示させる。
===処理手順===
【0042】
図6は、応答サーバ装置10の処理の一例を示すフロー図である。
図6を参照して、応答サーバ装置10により実行される処理の一例を説明する。
【0043】
まず、S100において、応答サーバ装置10はスピーカ装置20(または画像取得装置21)から顔画像を取得する。次に、S101において、応答サーバ装置10は顔画像を学習済みモデルに入力してユーザの感情を特定する。次に、S102において、応答サーバ装置10は顔画像のうち例えばユーザの目を含む部分的画像を学習済みモデルに入力してユーザがスピーカ装置20を見ているか否か判定し、見ていると判定された場合に、その時点からユーザが見ていないと判定される時点までの継続時間を算出する。次に、S103において、応答サーバ装置10は、感情および継続時間に基づいてスピーカ装置20から音声出力するタイミングを特定する。次に、S104において、応答サーバ装置10は、少なくとも感情および継続時間に基づいて応答内容を特定する。次に、S105において、応答サーバ装置10は、応答情報をスピーカ装置20に送信する。これにより、スピーカ装置20は、適切なタイミングで的確な応答内容をユーザに対して音声出力できる。
==音声通知システム1のハードウェア構成==
【0044】
図7を参照して、応答サーバ装置10およびスピーカ装置20をコンピュータ100により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。また、スピーカ装置20における一部のハードウェア構成については上述したとおりである。応答サーバ装置10およびスピーカ装置20が有する機能は、プロセッサ101が、記憶装置103に記憶されたコンピュータプログラムを読み込み、実行し、応答サーバ装置10およびスピーカ装置20の各構成を制御すること等により実現される。
【0045】
図7は、コンピュータのハードウェア構成の一例を示す図である。
図7に示すように、コンピュータ100は、プロセッサ101と、メモリ102と、記憶装置103と、入力I/F部104と、データI/F部105と、通信I/F部106、および表示装置107を含む。
【0046】
プロセッサ101は、メモリ102に記憶されているプログラムを実行することによりコンピュータ100における各種の処理を制御する制御部である。
【0047】
メモリ102は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ102は、プロセッサ101によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0048】
記憶装置103は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置103は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。
【0049】
入力I/F部104は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部104の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部104は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ100に接続されても良い。
【0050】
データI/F部105は、コンピュータ100の外部からデータを入力するためのデバイスである。データI/F部105の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部105は、コンピュータ100の外部に設けられることも考えられる。その場合、データI/F部105は、例えばUSB等のインタフェースを介してコンピュータ100へと接続される。
【0051】
通信I/F部106は、コンピュータ100の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部106は、コンピュータ100の外部に設けられることも考えられる。その場合、通信I/F部106は、例えばUSB等のインタフェースを介してコンピュータ100に接続される。
【0052】
表示装置107(表示部22)は、各種情報を表示するためのデバイスである。表示装置107の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイなどである。表示装置107は、コンピュータ100の外部に設けられても良い。その場合、表示装置107は、例えばディスプレイケーブル等を介してコンピュータ100に接続される。また、入力I/F部104としてタッチパネルが採用される場合には、表示装置107は、入力I/F部104と一体化して構成することが可能である。
===他の実施形態===
<<応答サーバ装置210(不図示)>>
【0053】
上記において、応答サーバ装置10は、応答情報を特定するために、感情分析部13において感情を分析するよう説明したが、これに代えて、感情分析部213(不図示)においてユーザの表情を分析してもよい。この場合、例えば「笑っている」という表情、「怒っている」という表情、または「悲しんでいる」という表情などを分析して、これらの表情と継続時間とに基づいて、応答内容を特定してもよい。すなわち、応答サーバ装置210(不図示)においては、感情を表すユーザの挙動をユーザの感情に対応付けて、応答情報を特定してもよい。
<<スピーカ装置220>>
【0054】
上記において、スピーカ装置20は、ユーザの顔画像を応答サーバ装置10に送信する。その後、応答サーバ装置10から応答情報を受信することでユーザに対して音声出力する。すなわち、スピーカ装置20おいて、顔画像を分析処理することなく、ユーザに対して音声出力するように説明したが、これに限定されない。
【0055】
例えば、スピーカ装置220は、ユーザの顔画像からユーザの感情を特定することで、ユーザに対して応答してもよい。
図8は、他の実施形態におけるスピーカ装置220の構成を示す図である。
図8に示すように、スピーカ装置220は、例えば、記憶部221、取得部222、スピーカ感情分析部223、音声分析部224、タイミング特定部225、スピーカ応答内容特定部226、表示制御部227、出力部228を含む。なお、以下においては説明の便宜上、スピーカ装置20と同様のものはその説明を省略し、異なるものを中心に説明する。
【0056】
記憶部221には、例えばスピーカ応答情報テーブル221aを有する。
【0057】
スピーカ応答情報テーブル221aは、例えばユーザに対する応答内容を格納したテーブルである。
図9は、スピーカ応答情報テーブル221aを示す図である。
図9に示すように、スピーカ応答情報テーブル221aのデータ構造は、例えば応答内容IDなどの適宜な項目を主キーとして、感情、声の大きさ、タイミング、応答内容、および表情アイコンなどのデータから成るレコードの集合体である。ここで、感情、タイミング、応答内容および表情アイコンについては、上述した応答情報テーブル11aと同様であるため説明を省略する。声の大きさとは、スピーカ装置220のマイクロフォンで取得されるユーザの声に関する情報から特定されるユーザの声の大きさである。スピーカ装置220は、スピーカ応答情報テーブル221aを参照することで、ユーザに対して相槌など即座に発話させることができるため、ユーザとのコミュニケーションを促進できる。なお、声の大きさに代えて、または、声の大きさと共に「継続時間」を格納することを妨げない。スピーカ応答情報テーブル221aは一例を示すものであり、その内容が特に限定されるものではない。
【0058】
また、記憶部221は、例えば後述するスピーカ感情分析部223における学習済みモデルを格納してもよい。さらに、記憶部221には、学習済みモデルを生成するための学習データを格納していてもよい。
【0059】
スピーカ感情分析部223は、応答サーバ装置10の感情分析部13と同様であるためその説明を省略する。
【0060】
音声分析部224は、スピーカ装置220のマイクロフォンで取得されるユーザの音声を示す音声情報に基づいて、ユーザの音声の大きさを分析する。音声分析部224は、例えば、所定の閾値以上の大きさ(声量)を示す音声情報については「大」と評価し、所定の閾値未満の大きさを示す音声情報については「小」と評価する。これにより、例えばユーザの怒りの度合いなどに応じて、後述するように、スピーカ装置220から音声出力する適切なタイミングを特定できるため、ユーザとのコミュニケーションを円滑に実行できる。
【0061】
なお、音声分析部224は、声の大きさ(声量)によって「大」「小」を分析することに限定されず、例えば、声に含まれる単語を分析して感情の「大」「小」を区別してもよい。具体的には、例えば、音声情報をテキストに変換し、該テキストから形態素を抽出した後、所定の文章に所定の感情用語が含まれている場合、該感情用語に基づいて感情ベクトルを計算する。そして、感情ベクトルが示す代表的な感情強さ「大」「小」などを特定する。なお、声に含まれる単語を分析して感情の「大」「小」を特定する技術は、周知の技術を利用することが可能である。
【0062】
タミング特定部は、スピーカ感情分析部223で分析された感情と、音声分析部224で分析された音声情報と、の少なくともいずれかに基づいて、所定の応答内容をスピーカ装置220に音声出力させるタイミングを特定する。具体的には、
図9に示すように、スピーカ感情分析部223において分析されるユーザに感情に対するタイミングを特定する。例えば、感情が「楽しい」の場合は「直後」のタイミングを特定し、感情が「悲哀」の場合は「直後」のタイミングを特定する。さらに、感情が「怒り」の場合において、ユーザの音声が「小」の場合は「直後」のタイミングを特定し、ユーザの音声が「大」の場合は「待ち」(応答しない)のタイミングを特定する。このように、応答サーバ装置10において特定されるタイミングよりもシンプルなタイミングを特定することで、応答サーバ装置10よりも性能の低いハードウェア資源でユーザに対する1次応答を実現できるため、ユーザとスピーカ装置220とのコミュニケーションを促進できる。
【0063】
ここで、
図9に示す「待ち」とは、例えば応答サーバ装置210から応答情報が送信されるのを待つ処理を意味する。例えば、ユーザに強い「怒り」の感情があることが判定された場合において、スピーカ装置220が即座に相槌などの返答をすると、ユーザはマイナス方向の感情を持つと推認されるため、待機する処理である。
【0064】
なお、タイミング特定部225は、予めタイミングを定めたスピーカ応答情報テーブル221aを参照して、スピーカ感情分析部223で分析された感情と音声分析部224で分析された音声情報とに対応付けられるタイミングを特定してもよい。
【0065】
スピーカ応答内容特定部226は、スピーカ応答情報テーブル221aを参照して、少なくとも感情および音声情報に基づいて、スピーカ装置220に音声出力させる応答内容を特定する。スピーカ応答内容特定部226においては、応答サーバ装置210よりも簡易な応答内容である「相槌」のような応答内容を特定する。これにより、応答サーバ装置210よりも性能の低いハードウェア資源でユーザに対する1次応答を実現できる。
【0066】
なお、スピーカ応答内容特定部226は、予め応答内容を定めたスピーカ応答情報テーブル221aを参照して、スピーカ感情分析部223で分析された感情、音声分析部224で分析された音声情報、およびタイミング特定部225で特定されたタイミングに対応付けられる応答内容を特定してもよい。
【0067】
このように、音声通知システム200は、まずスピーカ装置220においてユーザに対して即時に相槌などの回答を発し、その後、ユーザの感情に応じて応答サーバ装置10を介して適切なメッセージを出力するよう処理できるため、ユーザに対して能動的に適切なコミュニケーションを図れる。
【0068】
出力部228は、スピーカ応答内容特定部226で特定された応答内容に沿ってスピーカに音声出力させるべく、応答内容を示す音声信号をスピーカに出力する。
【0069】
さらに、スピーカ装置220は、位置情報生成部(不図示)を備えていてもよい。位置情報生成部は、例えば、複数のユーザそれぞれの位置を示す位置情報を生成する。位置情報生成部は、例えば、顔画像に基づいてユーザの存在する位置を特定してもよく、またはユーザが所持する携帯端末装置と無線接続されるビーコンから該携帯端末装置の位置情報を取得してユーザの存在する位置を特定してもよい。ユーザの存在する位置の特定方法は限定されない。
【0070】
この場合において、スピーカ装置220の表情アイコン表示部は、例えば、位置情報生成部で生成された位置情報に基づいて、複数のユーザの存在する位置と対向する、表示装置の所定の領域に表情アイコンを表示してもよい。これにより、複数のユーザに対して同時に、スピーカ装置220がユーザの心に寄り添う雰囲気を演出できるため、複数のユーザとスピーカ装置220とのコミュニケーションを促進できる。なお、表示装置は、スピーカ装置220の円周部における所定の領域を360度にわたって設けられることが望ましい。また、画像取得装置21は、スピーカ装置220に360度を撮影可能なカメラとして設けられていることが望ましい。これにより、ユーザの存在する位置に対応するように表情アイコンを確実に表示できる。
===まとめ===
【0071】
本実施形態に係る音声通知システム1は、スピーカを有するスピーカ装置20に接続される画像取得装置21から、ユーザの顔を示す顔画像を取得する取得部12と、顔画像に基づいて、ユーザの感情を分析する感情分析部13と、顔画像に基づいて、ユーザがスピーカ装置20を見ているか否かを判定する視線判定部14と、視線判定部14における判定結果に基づいて、ユーザがスピーカ装置20を見ている継続時間を算出する時間算出部15と、ユーザの感情と、継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部17と、応答内容特定部17で特定された前記所定の応答内容に沿って、スピーカ装置20に音声出力させるべく、所定の応答内容を示す音声情報を、スピーカ装置20に送信する送信部19と、を備える。本実施形態によれば、ユーザの感情および視線に基づいて、能動的にユーザに対して音声出力することで、ユーザの発言を促すことができる。
【0072】
本実施形態に係る音声通知システム1は、感情分析部13で分析されたユーザの感情に基づいて、所定の応答内容をスピーカ装置20に音声出力させるタイミングを特定するタイミング特定部16をさらに備え、送信部19は、タイミング特定部16で特定されたタイミングでスピーカ装置20に音声出力させるべく、音声情報を前記スピーカ装置20に送信する。本実施形態によれば、ユーザの感情に応じた適切なタイミングでスピーカ装置20に音声出力させることができるため、ユーザとスピーカ装置20との間のコミュニケーションを促進できる。
【0073】
本実施形態に係る音声通知システム1のタイミング特定部16は、感情分析部13において分析されるユーザの第1感情に対する第1タイミングを特定し、第1感情とは異なり、感情分析部13において分析される第2感情に対する第2タイミングを、第1タイミングよりも長くなるように特定する。本実施形態によれば、ユーザの感情に応じた、より適切なタイミングでスピーカ装置20に音声出力させることができるため、ユーザとスピーカ装置20との間のコミュニケーションを促進できる。
【0074】
本実施形態に係る音声通知システム1は、表示部を有するスピーカ装置20において表示部22に表情を模した表情アイコン(アイコン)を表示させるべく、応答情報テーブル11aを参照して、応答内容に対応する表情アイコン(アイコン)を特定する表情アイコン特定部18をさらに備え、送信部19は、表情アイコン特定部18で特定された表情アイコン(アイコン)を、スピーカ装置20に送信する。本実施形態によれば、スピーカ装置20を見ているユーザの心に寄り添う雰囲気を演出できるため、ユーザとスピーカ装置20とのコミュニケーションを促進できる。
【0075】
本実施形態に係る音声通知システム1は、スピーカ装置220をさらに備え、スピーカ装置220は、顔画像に基づいて、ユーザの感情を分析するスピーカ感情分析部223を有し、ユーザ感情分析部で分析されたユーザの感情に基づいて、所定の応答内容を特定するスピーカ応答内容特定部226と、スピーカ応答内容特定部226で特定された所定の応答内容に沿って、スピーカに音声出力させるべく、所定の応答内容を示す音声信号を、スピーカに出力する出力部228と、を備える。本実施形態によれば、応答サーバ装置210とスピーカ装置220とを含む一のシステムとして構成することで、システム設計を効率的に実施できる。
【0076】
本実施形態に係る音声通知システム1のスピーカ装置220は、円筒形状を呈し、円筒形状の上端部における側周縁部に、感情分析部13またはスピーカ感情分析部223の少なくともいずれかで分析される、表情アイコンを表示する表示部22を有する。本実施形態によれば、ユーザの存在する位置に対応するように表情アイコンを確実に表示できるため、より確実に、ユーザとスピーカ装置220とのコミュニケーションを促進できる。
【0077】
なお、述した実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得るとともに、本発明にはその等価物も含まれる。
【符号の説明】
【0078】
1,200…音声通知システム、10…応答サーバ装置、12…取得部、13…感情分析部、14…視線判定部、15…時間算出部、16…タイミング特定部、17…応答内容特定部、18…表情アイコン特定部、19…送信部、20,220…スピーカ装置、21…画像取得装置、223…スピーカ感情分析部、226…スピーカ応答内容特定部、228…出力部