特許7123028 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特許7123028情報処理システム、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-08-12

(45)【発行日】2022-08-22

(54)【発明の名称】情報処理システム、情報処理方法、及びプログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20220815BHJP

G06F 3/04817 20220101ALI20220815BHJP

G06F 3/16 20060101ALI20220815BHJP

G06T 7/00 20170101ALI20220815BHJP

G10L 13/02 20130101ALI20220815BHJP

【ＦＩ】

G06F3/01 510

G06F3/04817

G06F3/16 630

G06F3/16 650

G06F3/16 690

G06T7/00 P

G06T7/00 660A

G10L13/02 130Z

【請求項の数】 7

(21)【出願番号】P 2019214178

(22)【出願日】2019-11-27

(65)【公開番号】P2021086354

(43)【公開日】2021-06-03

【審査請求日】2021-08-13

(73)【特許権者】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】福江尚史

(72)【発明者】

【氏名】小西啓介

【審査官】酒井優一

(56)【参考文献】

【文献】特開２０１５－０６４５１３（ＪＰ，Ａ）

【文献】特開２０１０－１８３４４４（ＪＰ，Ａ）

【文献】特開２０１５－０６７２５４（ＪＰ，Ａ）

【文献】国際公開第２０１９／１４４５４２（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１９／０１８７２５２（ＵＳ，Ａ１）

【文献】特開２０１９－１１３６９６（ＪＰ，Ａ）

【文献】国際公開第２０１８／１６８４２７（ＷＯ，Ａ１）

【文献】国際公開第２０１９／１５５７１７（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８１７

Ｇ０６Ｆ３／１６

Ｇ０６Ｔ７／００

Ｇ１０Ｌ１３／０２

(57)【特許請求の範囲】

【請求項1】

スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得する取得部と、
前記顔画像に基づいて、前記ユーザの感情を分析する感情分析部と、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定する視線判定部と、
前記視線判定部における判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出する時間算出部と、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部と、
前記感情分析部で分析された前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定するタイミング特定部であって、前記感情分析部において分析される前記ユーザの第１感情に対する第１タイミングを特定し、前記感情分析部において分析される、前記第１感情とは異なる第２感情に対する第２タイミングを、前記第１感情に対する第１タイミングよりも長くなるように特定するタイミング特定部と、
前記応答内容特定部で特定された前記所定の応答内容に沿って、前記タイミング特定部で特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信する送信部と、
を備える情報処理システム。

【請求項2】

表示部を有する前記スピーカ装置において、前記表示部に人の表情を模したアイコンを表示させるべく、所定の情報を参照して、前記応答内容に対応する前記アイコンを特定する表情アイコン特定部
をさらに備え、
前記送信部は、前記表情アイコン特定部で特定された前記アイコンを、前記スピーカ装置に送信する
請求項１に記載の情報処理システム。

【請求項3】

前記取得部は、複数の前記ユーザのそれぞれの位置情報を含む前記顔画像を取得し、
前記送信部は、前記複数のユーザのそれぞれに対して前記表情アイコン特定部で特定された前記アイコンを、前記複数のユーザのそれぞれの前記位置情報に対応する前記表示部の所定の領域に表示させるべく、前記スピーカ装置に送信する
請求項２に記載の情報処理システム。

【請求項4】

前記スピーカ装置
をさらに備え、
前記スピーカ装置は、
前記顔画像に基づいて、前記ユーザの感情を分析するスピーカ感情分析部を有し、
前記スピーカ感情分析部で分析された前記ユーザの感情に基づいて、所定の応答内容を特定するスピーカ応答内容特定部と、
前記スピーカ応答内容特定部で特定された前記所定の応答内容に沿って、前記スピーカに音声出力させるべく、前記所定の応答内容を示す音声信号を、前記スピーカに出力する出力部と、
を有する請求項１から請求項３の何れか一項に記載の情報処理システム。

【請求項5】

前記スピーカ装置は、円筒形状を呈し、円筒形状の上端部における側周縁部に、前記感情分析部または前記スピーカ感情分析部の少なくともいずれかで分析される、人の表情を模したアイコンを表示する表示部を有する
請求項４に記載の情報処理システム。

【請求項6】

コンピュータが、
スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得することと、
前記顔画像に基づいて、前記ユーザの感情を分析することと、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定することと、
判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出することと、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定することと、
前記顔画像によって分析される前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定することであって、前記顔画像に基づき分析される前記ユーザの第１感情に対する第１タイミングを特定し、前記顔画像に基づき分析される、前記第１感情とは異なる第２感情に対する第２タイミングを、前記第１感情に対する第１タイミングよりも長くなるように特定することと、
前記特定された所定の応答内容に沿って、前記特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信することと、
を実行する情報処理方法。

【請求項7】

コンピュータに、
スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得させることと、
前記顔画像に基づいて、前記ユーザの感情を分析させることと、
前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定させることと、
判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出させることと、
前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定させることと、
前記顔画像によって分析される前記ユーザの感情に基づいて、前記所定の応答内容を前記スピーカ装置に音声出力させるタイミングを特定することであって、前記顔画像に基づき分析される前記ユーザの第１感情に対する第１タイミングを特定し、前記顔画像に基づき分析される、前記第１感情とは異なる第２感情に対する第２タイミングを、前記第１感情に対する第１タイミングよりも長くなるように特定することと、
前記特定された所定の応答内容に沿って、前記特定されたタイミングで前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信させることと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、及びプログラムに関する。

【背景技術】

【0002】

画像センサで検知された画像情報に基づいてスピーカに音声出力させるか否かを決定する決定装置が開示されている（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－３５８９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１には、ユーザが居住する住宅内に設けられたスピーカにおける音声出力のタイミングを画像情報に基づいて決定する決定装置が開示されている。また、特許文献１に記載の決定装置は、音声情報が途切れたタイミングにおいてスピーカに音声出力させる。特許文献１の決定装置によれば住宅内の状況に応じてスピーカに音声出力させることができる。しかしながら、特許文献１に記載の決定装置では、スピーカからユーザに対して、ユーザの感情を考慮して能動的に音声出力させることができないため、スピーカとユーザとの会話を円滑に行うには不十分であるという問題があった。

【0005】

本発明の目的は、上記のような問題に鑑みてなされたものであり、ユーザの感情を考慮して、スピーカから能動的に音声出力するシステムを提供することにある。

【課題を解決するための手段】

【0006】

本発明の一態様に係る情報処理システムは、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得する取得部と、前記顔画像に基づいて、前記ユーザの感情を分析する感情分析部と、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定する視線判定部と、前記視線判定部における判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出する時間算出部と、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部と、前記応答内容特定部で特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信する送信部と、を備える。

【0007】

本発明の一態様に係る情報処置方法は、コンピュータが、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得することと、前記顔画像に基づいて、前記ユーザの感情を分析することと、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定することと、判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出することと、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定することと、特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信することと、を実行する。

【0008】

本発明の一態様に係るプログラムは、コンピュータに、スピーカを有するスピーカ装置に接続される画像取得装置から、ユーザの顔を示す顔画像を取得させることと、前記顔画像に基づいて、前記ユーザの感情を分析させることと、前記顔画像に基づいて、前記ユーザが前記スピーカ装置を見ているか否かを判定させることと、判定結果に基づいて、前記ユーザが前記スピーカ装置を見ている継続時間を算出させることと、前記ユーザの感情と、前記継続時間と、に基づいて、所定の応答内容を特定させることと、特定された前記所定の応答内容に沿って、前記スピーカ装置に音声出力させるべく、前記所定の応答内容を示す音声情報を、前記スピーカ装置に送信させることと、を実行させる。

【発明の効果】

【0009】

本発明によれば、ユーザの感情および視線に基づいて、能動的にユーザに対して音声出力することで、ユーザの発言を促すことができる。

【図面の簡単な説明】

【0010】

【図1】音声通知システムの構成の一例を示す図である。

【図2】音声通知システムにおける処理の概要を示す図である。

【図3】応答サーバ装置の機能構成の一例を示す図である。

【図4】応答情報テーブルの一例を示す図である。

【図5】スピーカ装置の機能構成の一例を示す図である。

【図6】応答サーバ装置の処理の一例を示すフロー図である。

【図7】コンピュータのハードウェア構成の一例を示す図である。

【図8】スピーカ装置の他の実施形態における機能構成の一例を示す図である。

【図9】スピーカ応答情報テーブルの一例を示す図である。

【発明を実施するための形態】

【0011】

以下に、本発明の一実施形態における音声通知システム１について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、又は各実施例を組み合わせる等して実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
＝＝構成＝＝

【0012】

図１は、音声通知システム１の構成の一例を示す図である。図１に示すように、音声通知システム１は、例えば応答サーバ装置１０およびスピーカ装置２０を含む。なお、応答サーバ装置１０とスピーカ装置２０の機能を一のシステムで実現してもよい。また、応答サーバ装置１０とスピーカ装置２０のそれぞれの機能を、他の複数の装置で実現してもよい。以下、音声通知システム１の各構成要素について説明する。

【0013】

応答サーバ装置１０は、スピーカ装置２０からユーザの顔を示す顔画像を取得し、該顔画像に基づきスピーカ装置２０に所定の応答情報を送信することで、スピーカ装置２０からユーザに対して能動的に発話させる装置である。応答サーバ装置１０は、例えばサーバコンピュータなどの情報処理装置で構成され、ネットワーク３００を介してスピーカ装置２０と接続される。応答サーバ装置１０とスピーカ装置２０との間の各種データの送受信については後述する。

【0014】

スピーカ装置２０は、顔画像を取得する画像取得装置２１を有し、該画像取得装置２１で取得された顔画像を、応答サーバ装置１０に送信する装置である。そして、スピーカ装置２０は、応答サーバ装置１０から取得した応答情報に基づいて発話する。スピーカ装置２０は所謂スマートスピーカである。

【0015】

ここで、以下説明の理解を助けるために、スピーカ装置２０のハードウェア構成の一例について説明する。スピーカ装置２０は、例えば、音声を検出して電気信号に変換するマイクロフォン（不図示）、応答サーバ装置１０から取得する音声情報を音声出力するスピーカ（不図示）、外部の装置と通信するための通信モジュール（不図示）、視覚的にスピーカ装置２０のステータスや表情を模したアイコンを表示する表示部２２、各種操作指示を行うための操作ボタン（不図示）、各構成要素を制御する制御部（不図示）を備える。スピーカ装置２０については、様々の種類のものが存在し、例えば、複数のマイクロフォンおよびスピーカを有するものや、上面の外周部に等間隔にマイクロフォンを配設したものや、側面の外周部に等間隔にスピーカを配設したものなどが存在し、その仕様が限定されるものではない。
＝＝音声通知システム１の概要＝＝

【0016】

図２は、音声通知システム１における処理の概要を示す図である。図２を参照して、音声通知システム１の動作の概要を説明する。

【0017】

まず、Ｓ１において、スピーカ装置２０の画像取得装置２１は、ユーザの顔画像を取得する。

【0018】

次に、Ｓ２において、スピーカ装置２０は、取得した顔画像を応答サーバ装置１０に送信する。そして、応答サーバ装置１０において、顔画像に基づいてユーザの表情および視線が分析される。応答サーバ装置１０は、分析したユーザの表情および視線に基づいて、ユーザの感情およびユーザがスピーカ装置２０を見ている継続時間を特定する。

【0019】

次に、Ｓ３において、応答サーバ装置１０は、特定された感情や継続時間に基づき応答情報を特定し、該応答情報をスピーカ装置２０に送信する。これにより、スピーカ装置２０は、応答情報に基づいて、ユーザに対して能動的に適切な発話が可能となる。

【0020】

次に、Ｓ４において、スピーカ装置２０はユーザに対して応答情報に応じた音声を発信する。
＝＝音声通知システム１の構成＝＝

【0021】

以下、応答サーバ装置１０およびスピーカ装置２０が備える機能について、それぞれ説明する。
＜＜応答サーバ装置１０＞＞

【0022】

図３を参照して、応答サーバ装置１０の機能構成について説明する。図３は、応答サーバ装置１０の機能構成の一例を示す図である。図３に示すとおり、応答サーバ装置１０は、記憶部１１、取得部１２、感情分析部１３、視線判定部１４、時間算出部１５、タイミング特定部１６、応答内容特定部１７、表情アイコン特定部１８、送信部１９の機能を有する。

【0023】

記憶部１１は、例えば応答情報テーブル１１ａを有する。

【0024】

応答情報テーブル１１ａは、例えばユーザに対する応答内容を示す応答情報を格納したテーブルである。図４に示すように、応答情報テーブル１１ａのデータ構造は、例えば応答内容ＩＤなどの適宜な項目を主キーとして、感情、継続時間、タイミング、ユーザ属性、応答内容、および表情アイコンなどのデータから成るレコードの集合体である。ここで、感情とは、例えば顔画像に基づいて推測されるユーザの感情である。継続時間とは、例えばユーザがスピーカ装置２０を継続的に見ている時間である。タイミングとは、例えばスピーカ装置２０が発話するタイミングである。ユーザ属性とは、例えばユーザの性別や職位などである。応答内容とは、例えばスピーカ装置２０から音声出力される内容である。表情アイコンとは、例えばスピーカ装置２０の表示部に表示される人の表情を模したアイコンである。応答情報テーブル１１ａの内容は、例えば応答サーバ装置１０の管理者により適宜更新される。なお、応答情報テーブル１１ａは一例を示すものであり、その内容が限定されるものではない。

【0025】

また、記憶部１１は、例えば、後述する感情分析部１３や時間算出部１５における学習済みモデルを格納してもよい。さらに、記憶部１１には、学習済みモデルを生成するための学習データを格納していてもよい。学習データとは、例えば感情分析部１３における感情分析で用いられる顔画像などと、これに対応付けられ、教師データとなるユーザの感情や視線などである。これらについては後述する。

【0026】

取得部１２は、スピーカ装置２０から送信された顔画像を取得する。

【0027】

感情分析部１３は、顔画像における特徴量を学習済みモデルに入力してユーザの感情を分析し、出力する。具体的には、感情分析部１３は、例えば、目の領域、口の領域、鼻の領域、または頬の領域などの注目領域を抽出し、該注目領域から特徴点を抽出する。感情分析部１３は、抽出した特徴点間の距離から特徴量を特定する。そして、該特徴量を学習済みモデルに入力することで、ユーザの感情を出力する。ここで、該学習済みモデルは、例えば、畳み込みニューラルネットワークであり、注目領域の特徴量と、該特徴量に対応する感情（教師データ）との組を学習データとして学習されたものである。これにより、感情分析部１３は、顔画像から、ユーザの目、口、鼻、頬などの顔の要素の変形に応じて生じる顔の筋肉の収縮で現れる表情を分析し、該表情が表す感情を特定できる。

【0028】

なお、感情とは、例えば、所謂２７種類の基本的な感情であってもよく、また該基本的な感情を組み合わせた感情であってもよい。以下では、説明の便宜のため、一例として感情分析部１３で特定される感情を「楽しい」「怒り」「悲哀」に限定して説明する。

【0029】

視線判定部１４は、顔画像からユーザの目に関する特徴量を学習済みモデルに入力してユーザの視線を分析し、ユーザがスピーカ装置２０を見ているか否かを判定する。具体的には、視線判定部１４は、例えば、顔画像のうち少なくとも片目を含む部分的画像を抽出し、該部分的画像が示す特徴量を抽出する。視線判定部１４は、該特徴量を学習済みモデルに入力し、ユーザがスピーカ装置２０に見ているか否かを判定する。ここで、該学習済みモデルは、例えば、畳み込みニューラルネットワークであり、該部分的画像が示す特徴量と、該特徴量に対応する視線（教師データ）との組を学習データとして学習されたものである。

【0030】

なお、上述した、感情分析部１３および視線判定部１４おける、特徴量を抽出する技術や、それを用いた学習済みモデルは、あくまで例示であって限定されるものではなく、これらに代えて周知の他の技術を利用することを妨げない。

【0031】

時間算出部１５は、視線判定部１４においてユーザがスピーカ装置２０を見ていると判定されている間の継続時間を算出する。具体的には、時間算出部１５は、視線判定部１４から所定の時間間隔で判定結果を取得することで、ユーザがスピーカ装置２０を見ていると判定された時点から、ユーザがスピーカ装置２０を見ていない判定された時点までの時間を、継続時間として算出する。

【0032】

タイミング特定部１６は、例えば、感情分析部１３で分析された感情と、時間算出部１５で算出された継続時間と、の少なくともいずれかに基づいて、所定の応答内容をスピーカ装置２０に音声出力させるタイミングを特定する。これにより、ユーザの感情に適切なタイミングでスピーカ装置２０に音声出力させることができる。

【0033】

また、タイミング特定部１６は、感情分析部１３において分析されるユーザの第１感情に対する第１タイミングを特定し、第１感情とは異なり、感情分析部１３において分析される第２感情に対する第２タイミングを、第１タイミングよりも長くなるように特定する。具体的には、図４に示すように、例えば、継続時間が「一瞬」において、第２感情が「楽しい」の場合には「直後」の第１タイミングを特定し、第２感情が「悲哀」の場合には、「楽しい」の第１タイミング（直後）よりも長い、「３秒前後」の第２タイミングを特定する。また、第２感情が「怒り」の場合には、「楽しい」の第１タイミング（直後）よりも長い、「６秒前後」の第２タイミングを特定する。このように、「楽しい」などのプラスの感情をユーザが抱いている場合は、スピーカ装置２０はできるだけ早く応答内容を音声出力させ、「悲哀」や「怒り」など、マイナス感情が強くなるにしたがって、スピーカ装置２０は応答内容の音声出力を遅らせる。これにより、ユーザの感情に応じた適切なタイミングでスピーカ装置２０に音声出力させることができるため、ユーザとスピーカ装置２０との間のコミュニケーションを促進できる。

【0034】

なお、タイミング特定部１６は、予めタイミングを定めた応答情報テーブル１１ａを参照して、感情分析部１３で分析された感情と時間算出部１５で算出された継続時間とに対応付けられる、第１タイミングおよび第２タイミングを特定してもよい。

【0035】

応答内容特定部１７は、応答情報テーブル１１ａを参照して、少なくとも感情および継続時間に基づいて、スピーカ装置２０に音声出力させる応答内容を特定する。これにより、ユーザの感情に適切な内容をスピーカ装置２０に音声出力させることができるため、ユーザとスピーカ装置２０との間のコミュニケーションを促進できる。また、会議やパーティなど、複数の人が集まるような状況において、その状況に応じた的確な応答内容を音声出力できる、会議やパーティなどを円滑に進行させることができる。

【0036】

表情アイコン特定部１８は、応答情報テーブル１１ａを参照して、応答内容に対応する表情アイコンを特定する。表情アイコン特定部１８で特定された表情アイコンを表示部２２に表示させることにより、スピーカ装置２０を見ているユーザの心に寄り添う雰囲気を演出できるため、ユーザとスピーカ装置２０とのコミュニケーションを促進できる。

【0037】

なお、上述した、タイミング特定部１６、応答内容特定部１７、および表情アイコン特定部１８の機能を、周知の学習済みモデルを用いて実現することを妨げない。すなわち、この場合、各機能部は、応答情報テーブル１１ａを参照する必要がない。

【0038】

送信部１９は、タイミング、応答内容、および表情アイコンに関する情報を含む応答情報をスピーカ装置２０に送信する。
＜＜スピーカ装置２０＞＞

【0039】

次に、スピーカ装置２０の機能構成について説明する。スピーカ装置２０は、送受信部２０ａおよび表示制御部２０ｂの機能を有する。

【0040】

送受信部２０ａは、スピーカ装置２０におけるデータの送受信を制御する。例えば、送受信部２０ａは、画像取得装置２１から取得した顔画像を応答サーバ装置１０などの外部装置に送信する。また、送受信部２０ａは、応答サーバ装置１０などの外部装置からの応答情報を受信する。

【0041】

表示制御部２０ｂは、スピーカ装置２０が備える、またはスピーカ装置２０に接続される表示部２２（図１参照）の表示を制御する。表示制御部２０ｂは、応答情報に含まれる表情アイコンを表示部２２に表示させる。
＝＝＝処理手順＝＝＝

【0042】

図６は、応答サーバ装置１０の処理の一例を示すフロー図である。図６を参照して、応答サーバ装置１０により実行される処理の一例を説明する。

【0043】

まず、Ｓ１００において、応答サーバ装置１０はスピーカ装置２０（または画像取得装置２１）から顔画像を取得する。次に、Ｓ１０１において、応答サーバ装置１０は顔画像を学習済みモデルに入力してユーザの感情を特定する。次に、Ｓ１０２において、応答サーバ装置１０は顔画像のうち例えばユーザの目を含む部分的画像を学習済みモデルに入力してユーザがスピーカ装置２０を見ているか否か判定し、見ていると判定された場合に、その時点からユーザが見ていないと判定される時点までの継続時間を算出する。次に、Ｓ１０３において、応答サーバ装置１０は、感情および継続時間に基づいてスピーカ装置２０から音声出力するタイミングを特定する。次に、Ｓ１０４において、応答サーバ装置１０は、少なくとも感情および継続時間に基づいて応答内容を特定する。次に、Ｓ１０５において、応答サーバ装置１０は、応答情報をスピーカ装置２０に送信する。これにより、スピーカ装置２０は、適切なタイミングで的確な応答内容をユーザに対して音声出力できる。
＝＝音声通知システム１のハードウェア構成＝＝

【0044】

図７を参照して、応答サーバ装置１０およびスピーカ装置２０をコンピュータ１００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。また、スピーカ装置２０における一部のハードウェア構成については上述したとおりである。応答サーバ装置１０およびスピーカ装置２０が有する機能は、プロセッサ１０１が、記憶装置１０３に記憶されたコンピュータプログラムを読み込み、実行し、応答サーバ装置１０およびスピーカ装置２０の各構成を制御すること等により実現される。

【0045】

図７は、コンピュータのハードウェア構成の一例を示す図である。図７に示すように、コンピュータ１００は、プロセッサ１０１と、メモリ１０２と、記憶装置１０３と、入力Ｉ／Ｆ部１０４と、データＩ／Ｆ部１０５と、通信Ｉ／Ｆ部１０６、および表示装置１０７を含む。

【0046】

プロセッサ１０１は、メモリ１０２に記憶されているプログラムを実行することによりコンピュータ１００における各種の処理を制御する制御部である。

【0047】

メモリ１０２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ１０２は、プロセッサ１０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

【0048】

記憶装置１０３は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置１０３は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。

【0049】

入力Ｉ／Ｆ部１０４は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部１０４の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部１０４は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ１００に接続されても良い。

【0050】

データＩ／Ｆ部１０５は、コンピュータ１００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部１０５の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部１０５は、コンピュータ１００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部１０５は、例えばＵＳＢ等のインタフェースを介してコンピュータ１００へと接続される。

【0051】

通信Ｉ／Ｆ部１０６は、コンピュータ１００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部１０６は、コンピュータ１００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部１０６は、例えばＵＳＢ等のインタフェースを介してコンピュータ１００に接続される。

【0052】

表示装置１０７（表示部２２）は、各種情報を表示するためのデバイスである。表示装置１０７の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイなどである。表示装置１０７は、コンピュータ１００の外部に設けられても良い。その場合、表示装置１０７は、例えばディスプレイケーブル等を介してコンピュータ１００に接続される。また、入力Ｉ／Ｆ部１０４としてタッチパネルが採用される場合には、表示装置１０７は、入力Ｉ／Ｆ部１０４と一体化して構成することが可能である。
＝＝＝他の実施形態＝＝＝
＜＜応答サーバ装置２１０（不図示）＞＞

【0053】

上記において、応答サーバ装置１０は、応答情報を特定するために、感情分析部１３において感情を分析するよう説明したが、これに代えて、感情分析部２１３（不図示）においてユーザの表情を分析してもよい。この場合、例えば「笑っている」という表情、「怒っている」という表情、または「悲しんでいる」という表情などを分析して、これらの表情と継続時間とに基づいて、応答内容を特定してもよい。すなわち、応答サーバ装置２１０（不図示）においては、感情を表すユーザの挙動をユーザの感情に対応付けて、応答情報を特定してもよい。
＜＜スピーカ装置２２０＞＞

【0054】

上記において、スピーカ装置２０は、ユーザの顔画像を応答サーバ装置１０に送信する。その後、応答サーバ装置１０から応答情報を受信することでユーザに対して音声出力する。すなわち、スピーカ装置２０おいて、顔画像を分析処理することなく、ユーザに対して音声出力するように説明したが、これに限定されない。

【0055】

例えば、スピーカ装置２２０は、ユーザの顔画像からユーザの感情を特定することで、ユーザに対して応答してもよい。図８は、他の実施形態におけるスピーカ装置２２０の構成を示す図である。図８に示すように、スピーカ装置２２０は、例えば、記憶部２２１、取得部２２２、スピーカ感情分析部２２３、音声分析部２２４、タイミング特定部２２５、スピーカ応答内容特定部２２６、表示制御部２２７、出力部２２８を含む。なお、以下においては説明の便宜上、スピーカ装置２０と同様のものはその説明を省略し、異なるものを中心に説明する。

【0056】

記憶部２２１には、例えばスピーカ応答情報テーブル２２１ａを有する。

【0057】

スピーカ応答情報テーブル２２１ａは、例えばユーザに対する応答内容を格納したテーブルである。図９は、スピーカ応答情報テーブル２２１ａを示す図である。図９に示すように、スピーカ応答情報テーブル２２１ａのデータ構造は、例えば応答内容ＩＤなどの適宜な項目を主キーとして、感情、声の大きさ、タイミング、応答内容、および表情アイコンなどのデータから成るレコードの集合体である。ここで、感情、タイミング、応答内容および表情アイコンについては、上述した応答情報テーブル１１ａと同様であるため説明を省略する。声の大きさとは、スピーカ装置２２０のマイクロフォンで取得されるユーザの声に関する情報から特定されるユーザの声の大きさである。スピーカ装置２２０は、スピーカ応答情報テーブル２２１ａを参照することで、ユーザに対して相槌など即座に発話させることができるため、ユーザとのコミュニケーションを促進できる。なお、声の大きさに代えて、または、声の大きさと共に「継続時間」を格納することを妨げない。スピーカ応答情報テーブル２２１ａは一例を示すものであり、その内容が特に限定されるものではない。

【0058】

また、記憶部２２１は、例えば後述するスピーカ感情分析部２２３における学習済みモデルを格納してもよい。さらに、記憶部２２１には、学習済みモデルを生成するための学習データを格納していてもよい。

【0059】

スピーカ感情分析部２２３は、応答サーバ装置１０の感情分析部１３と同様であるためその説明を省略する。

【0060】

音声分析部２２４は、スピーカ装置２２０のマイクロフォンで取得されるユーザの音声を示す音声情報に基づいて、ユーザの音声の大きさを分析する。音声分析部２２４は、例えば、所定の閾値以上の大きさ（声量）を示す音声情報については「大」と評価し、所定の閾値未満の大きさを示す音声情報については「小」と評価する。これにより、例えばユーザの怒りの度合いなどに応じて、後述するように、スピーカ装置２２０から音声出力する適切なタイミングを特定できるため、ユーザとのコミュニケーションを円滑に実行できる。

【0061】

なお、音声分析部２２４は、声の大きさ（声量）によって「大」「小」を分析することに限定されず、例えば、声に含まれる単語を分析して感情の「大」「小」を区別してもよい。具体的には、例えば、音声情報をテキストに変換し、該テキストから形態素を抽出した後、所定の文章に所定の感情用語が含まれている場合、該感情用語に基づいて感情ベクトルを計算する。そして、感情ベクトルが示す代表的な感情強さ「大」「小」などを特定する。なお、声に含まれる単語を分析して感情の「大」「小」を特定する技術は、周知の技術を利用することが可能である。

【0062】

タミング特定部は、スピーカ感情分析部２２３で分析された感情と、音声分析部２２４で分析された音声情報と、の少なくともいずれかに基づいて、所定の応答内容をスピーカ装置２２０に音声出力させるタイミングを特定する。具体的には、図９に示すように、スピーカ感情分析部２２３において分析されるユーザに感情に対するタイミングを特定する。例えば、感情が「楽しい」の場合は「直後」のタイミングを特定し、感情が「悲哀」の場合は「直後」のタイミングを特定する。さらに、感情が「怒り」の場合において、ユーザの音声が「小」の場合は「直後」のタイミングを特定し、ユーザの音声が「大」の場合は「待ち」（応答しない）のタイミングを特定する。このように、応答サーバ装置１０において特定されるタイミングよりもシンプルなタイミングを特定することで、応答サーバ装置１０よりも性能の低いハードウェア資源でユーザに対する１次応答を実現できるため、ユーザとスピーカ装置２２０とのコミュニケーションを促進できる。

【0063】

ここで、図９に示す「待ち」とは、例えば応答サーバ装置２１０から応答情報が送信されるのを待つ処理を意味する。例えば、ユーザに強い「怒り」の感情があることが判定された場合において、スピーカ装置２２０が即座に相槌などの返答をすると、ユーザはマイナス方向の感情を持つと推認されるため、待機する処理である。

【0064】

なお、タイミング特定部２２５は、予めタイミングを定めたスピーカ応答情報テーブル２２１ａを参照して、スピーカ感情分析部２２３で分析された感情と音声分析部２２４で分析された音声情報とに対応付けられるタイミングを特定してもよい。

【0065】

スピーカ応答内容特定部２２６は、スピーカ応答情報テーブル２２１ａを参照して、少なくとも感情および音声情報に基づいて、スピーカ装置２２０に音声出力させる応答内容を特定する。スピーカ応答内容特定部２２６においては、応答サーバ装置２１０よりも簡易な応答内容である「相槌」のような応答内容を特定する。これにより、応答サーバ装置２１０よりも性能の低いハードウェア資源でユーザに対する１次応答を実現できる。

【0066】

なお、スピーカ応答内容特定部２２６は、予め応答内容を定めたスピーカ応答情報テーブル２２１ａを参照して、スピーカ感情分析部２２３で分析された感情、音声分析部２２４で分析された音声情報、およびタイミング特定部２２５で特定されたタイミングに対応付けられる応答内容を特定してもよい。

【0067】

このように、音声通知システム２００は、まずスピーカ装置２２０においてユーザに対して即時に相槌などの回答を発し、その後、ユーザの感情に応じて応答サーバ装置１０を介して適切なメッセージを出力するよう処理できるため、ユーザに対して能動的に適切なコミュニケーションを図れる。

【0068】

出力部２２８は、スピーカ応答内容特定部２２６で特定された応答内容に沿ってスピーカに音声出力させるべく、応答内容を示す音声信号をスピーカに出力する。

【0069】

さらに、スピーカ装置２２０は、位置情報生成部（不図示）を備えていてもよい。位置情報生成部は、例えば、複数のユーザそれぞれの位置を示す位置情報を生成する。位置情報生成部は、例えば、顔画像に基づいてユーザの存在する位置を特定してもよく、またはユーザが所持する携帯端末装置と無線接続されるビーコンから該携帯端末装置の位置情報を取得してユーザの存在する位置を特定してもよい。ユーザの存在する位置の特定方法は限定されない。

【0070】

この場合において、スピーカ装置２２０の表情アイコン表示部は、例えば、位置情報生成部で生成された位置情報に基づいて、複数のユーザの存在する位置と対向する、表示装置の所定の領域に表情アイコンを表示してもよい。これにより、複数のユーザに対して同時に、スピーカ装置２２０がユーザの心に寄り添う雰囲気を演出できるため、複数のユーザとスピーカ装置２２０とのコミュニケーションを促進できる。なお、表示装置は、スピーカ装置２２０の円周部における所定の領域を３６０度にわたって設けられることが望ましい。また、画像取得装置２１は、スピーカ装置２２０に３６０度を撮影可能なカメラとして設けられていることが望ましい。これにより、ユーザの存在する位置に対応するように表情アイコンを確実に表示できる。
＝＝＝まとめ＝＝＝

【0071】

本実施形態に係る音声通知システム１は、スピーカを有するスピーカ装置２０に接続される画像取得装置２１から、ユーザの顔を示す顔画像を取得する取得部１２と、顔画像に基づいて、ユーザの感情を分析する感情分析部１３と、顔画像に基づいて、ユーザがスピーカ装置２０を見ているか否かを判定する視線判定部１４と、視線判定部１４における判定結果に基づいて、ユーザがスピーカ装置２０を見ている継続時間を算出する時間算出部１５と、ユーザの感情と、継続時間と、に基づいて、所定の応答内容を特定する応答内容特定部１７と、応答内容特定部１７で特定された前記所定の応答内容に沿って、スピーカ装置２０に音声出力させるべく、所定の応答内容を示す音声情報を、スピーカ装置２０に送信する送信部１９と、を備える。本実施形態によれば、ユーザの感情および視線に基づいて、能動的にユーザに対して音声出力することで、ユーザの発言を促すことができる。

【0072】

本実施形態に係る音声通知システム１は、感情分析部１３で分析されたユーザの感情に基づいて、所定の応答内容をスピーカ装置２０に音声出力させるタイミングを特定するタイミング特定部１６をさらに備え、送信部１９は、タイミング特定部１６で特定されたタイミングでスピーカ装置２０に音声出力させるべく、音声情報を前記スピーカ装置２０に送信する。本実施形態によれば、ユーザの感情に応じた適切なタイミングでスピーカ装置２０に音声出力させることができるため、ユーザとスピーカ装置２０との間のコミュニケーションを促進できる。

【0073】

本実施形態に係る音声通知システム１のタイミング特定部１６は、感情分析部１３において分析されるユーザの第１感情に対する第１タイミングを特定し、第１感情とは異なり、感情分析部１３において分析される第２感情に対する第２タイミングを、第１タイミングよりも長くなるように特定する。本実施形態によれば、ユーザの感情に応じた、より適切なタイミングでスピーカ装置２０に音声出力させることができるため、ユーザとスピーカ装置２０との間のコミュニケーションを促進できる。

【0074】

本実施形態に係る音声通知システム１は、表示部を有するスピーカ装置２０において表示部２２に表情を模した表情アイコン（アイコン）を表示させるべく、応答情報テーブル１１ａを参照して、応答内容に対応する表情アイコン（アイコン）を特定する表情アイコン特定部１８をさらに備え、送信部１９は、表情アイコン特定部１８で特定された表情アイコン（アイコン）を、スピーカ装置２０に送信する。本実施形態によれば、スピーカ装置２０を見ているユーザの心に寄り添う雰囲気を演出できるため、ユーザとスピーカ装置２０とのコミュニケーションを促進できる。

【0075】

本実施形態に係る音声通知システム１は、スピーカ装置２２０をさらに備え、スピーカ装置２２０は、顔画像に基づいて、ユーザの感情を分析するスピーカ感情分析部２２３を有し、ユーザ感情分析部で分析されたユーザの感情に基づいて、所定の応答内容を特定するスピーカ応答内容特定部２２６と、スピーカ応答内容特定部２２６で特定された所定の応答内容に沿って、スピーカに音声出力させるべく、所定の応答内容を示す音声信号を、スピーカに出力する出力部２２８と、を備える。本実施形態によれば、応答サーバ装置２１０とスピーカ装置２２０とを含む一のシステムとして構成することで、システム設計を効率的に実施できる。

【0076】

本実施形態に係る音声通知システム１のスピーカ装置２２０は、円筒形状を呈し、円筒形状の上端部における側周縁部に、感情分析部１３またはスピーカ感情分析部２２３の少なくともいずれかで分析される、表情アイコンを表示する表示部２２を有する。本実施形態によれば、ユーザの存在する位置に対応するように表情アイコンを確実に表示できるため、より確実に、ユーザとスピーカ装置２２０とのコミュニケーションを促進できる。

【0077】

なお、述した実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得るとともに、本発明にはその等価物も含まれる。

【符号の説明】

【0078】

１，２００…音声通知システム、１０…応答サーバ装置、１２…取得部、１３…感情分析部、１４…視線判定部、１５…時間算出部、１６…タイミング特定部、１７…応答内容特定部、１８…表情アイコン特定部、１９…送信部、２０，２２０…スピーカ装置、２１…画像取得装置、２２３…スピーカ感情分析部、２２６…スピーカ応答内容特定部、２２８…出力部

【図1】