(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-11
(45)【発行日】2024-12-19
(54)【発明の名称】音声通知制御装置およびそのプログラム
(51)【国際特許分類】
G10L 21/034 20130101AFI20241212BHJP
G10L 19/00 20130101ALI20241212BHJP
G06F 3/16 20060101ALI20241212BHJP
【FI】
G10L21/034
G10L19/00 312E
G06F3/16 630
G06F3/16 650
G06F3/16 690
(21)【出願番号】P 2021004056
(22)【出願日】2021-01-14
【審査請求日】2023-12-04
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】小川 展夢
【審査官】土井 悠生
(56)【参考文献】
【文献】国際公開第2019/138652(WO,A1)
【文献】特開2020-091416(JP,A)
【文献】特開2019-035897(JP,A)
【文献】特開2020-027398(JP,A)
【文献】特開2008-092093(JP,A)
【文献】特開2018-097185(JP,A)
【文献】中国特許出願公開第105282345(CN,A)
【文献】Julien Cumin, 外3名,“Inferring Availability for Communication in Smart Homes Using Context”,2018 IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom Workshops),2018年10月07日,p. 253-258
【文献】小川展夢, 外2名,“ニュース音声通知に適したブレークポイントの検出”,情報処理学会 研究報告 ヒューマンコンピュータインタラクション(HCI),2021-HCI-191 No.22,2021年01月29日,pp. 1-7
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声コンテンツを配信するコンテンツサーバが
前記音声コンテンツと対応して配信す
るメタデータと、前記音声コンテンツをユーザに通知するタイミングを示すセンサで検知された前記ユーザの状態とに基づいて、スマートスピーカが前記音声コンテンツを再生するタイミングおよび音量を制御する音声通知制御装置であって、
前記ユーザの状態を示す情報であるユーザコンテキストを取得するコンテキスト取得手段と、
前記音声コンテンツの所在位置と音声特徴とを含む前記メタデータを取得し、コンテンツメタテーブルに設定するメタデータ取得手段と、
前記ユーザコンテキストと前記音声特徴とに対応付けて再生音量値を設定した再生音量テーブルを参照して、再生音量値を決定する再生音量決定手段と、
前記ユーザコンテキストを取得したタイミングで、取得した前記ユーザコンテキストと前記コンテンツメタテーブルに設定されている音声特徴とにより前記再生音量決定手段で再生音量値を決定し、
決定した前記再生音量値と前記音声コンテンツの所在位置と
を、前記スマートスピーカに通知する音声再生指示手段と、
を備えることを特徴とする音声通知制御装置。
【請求項2】
前記メタデータには、前記音声コンテンツを再生する優先度をさらに含み、
前記音声再生指示手段は、前記コンテンツメタテーブルにおいて前記優先度の高い音声コンテンツから順に前記スマートスピーカに再生させることを特徴とする請求項1に記載の音声通知制御装置。
【請求項3】
前記メタデータには、前記音声コンテンツを発行したコンテンツ発行日時をさらに含み、
前記音声再生指示手段は、前記コンテンツメタテーブルにおいて前記コンテンツ発行日時の新しい音声コンテンツから、または、前記コンテンツ発行日時の古い音声コンテンツから順に前記スマートスピーカに再生させることを特徴とする請求項1に記載の音声通知制御装置。
【請求項4】
前記メタデータには、前記音声コンテンツを再生する優先度および前記音声コンテンツを発行したコンテンツ発行日時をさらに含み、
前記音声再生指示手段は、前記コンテンツメタテーブルにおいて前記優先度が高い音声コンテンツから順に前記スマートスピーカに再生させ、前記優先度が同じ音声コンテンツについては前記コンテンツ発行日時の新しい音声コンテンツから、または、前記コンテンツ発行日時の古い音声コンテンツから順に前記スマートスピーカに再生させることを特徴とする請求項1に記載の音声通知制御装置。
【請求項5】
前記メタデータには、前記優先度が最も高い緊急優先度を含み、
前記緊急優先度を含んだメタデータを取得したタイミングで、前記音声再生指示手段は、前記ユーザコンテキストの取得を待たずに、前記メタデータで特定される音声コンテンツを前記スマートスピーカに再生させることを特徴とする請求項2または請求項4に記載の音声通知制御装置。
【請求項6】
前記スマートスピーカが再生した再生音量値を取得する再生音量取得手段をさらに備え、
前記再生音量決定手段は、直近に決定したユーザコンテキストおよび音声特徴に対応する前記再生音量テーブルの再生音量値を、前記再生音量取得手段が取得した再生音量値で更新することを特徴とする請求項1から請求項5のいずれか一項に記載の音声通知制御装置。
【請求項7】
コンピュータを、請求項1から請求項6のいずれか一項に記載の音声通知制御装置として機能させるための音声通知制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スマートスピーカの音声通知を制御する音声通知制御装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、ネットワーク上の外部サーバから音声コンテンツをダウンロードして再生することが可能なスマートスピーカが開発されている。
一部のスマートスピーカは、API(Application Programming Interface)を備え、外部のコントローラが任意のタイミングで音声再生を制御することが可能となっている。例えば、Google社製のスマートスピーカである“Google Nest Hub”は、APIを備えている。
このようなAPIを備えたスマートスピーカを利用することで、ユーザコンテキスト(ユーザの状態)に応じて音声を通知するサービスを実現することができる。例えば、デプスカメラでユーザの行動をセンシングし、センシングデータを基に特定のユーザコンテキスト(例えば、移動する、ものを持ち上げる等)を検知し、これを起点にスマートスピーカで音声通知を行うシステムが開示されている(非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Mitsuki Komori, Yuichiro Fujimoto, Jianfeng Xu, Kazuyuki Tasaka, Hiromasa Yanagihara, and Kinya Fujita. 2019. Experimental Study on Estimation of Opportune Moments for Proactive Voice Information Service Based on Activity Transition for People Living Alone. In Human-Computer Interaction. Perspectives on Design, Masaaki Kurosu (ed.). Springer International Publishing, Cham, 527-539. DOI:https://doi.org/10.1007/978-3-030-22646-6_39
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1で開示されている従来技術では、ユーザコンテキストのみに応じて音声通知を行っている。
このような音声通知を行うシステムにおいては、例えば、地震情報等の緊急性を有する音声コンテンツは、速やかに、かつ、大音量で音声通知を行うことが好ましい。
また、例えば、低い声で読み上げられたニュースの音声は、高い声で読み上げられたニュースの音声に比べて遠くまで届きにくい。そのため、音声通知を行うシステムにおいては、音声コンテンツの種類によって、再生音量を変えることが好ましい。
しかし、従来技術のように、ユーザコンテキストのみでは、音声コンテンツを適切な再生タイミングおよび再生音量で通知することができないという問題がある。
【0005】
本発明は、このような従来技術の問題点に鑑みてなされたもので、スマートスピーカを用いて音声通知を行う際に、音声通知の再生タイミングおよび再生音量を制御することが可能な音声通知制御装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するため、本発明に係る音声通知制御装置は、音声コンテンツを配信するコンテンツサーバが前記音声コンテンツと対応して配信するメタデータと、前記音声コンテンツをユーザに通知するタイミングを示すセンサで検知された前記ユーザの状態とに基づいて、スマートスピーカが前記音声コンテンツを再生するタイミングおよび音量を制御する音声通知制御装置であって、コンテキスト取得手段と、メタデータ取得手段と、再生音量決定手段と、音声再生指示手段と、を備える構成とした。
【0007】
かかる構成において、音声通知制御装置は、コンテキスト取得手段によって、ユーザの状態を示す情報であるユーザコンテキストを取得する。このユーザコンテキストは、センサで検知され、音声コンテンツをユーザに通知するタイミングを示す情報である。
また、音声通知制御装置は、メタデータ取得手段によって、音声コンテンツの所在位置と音声特徴とを含むメタデータを取得し、コンテンツメタテーブルに設定する。所在位置は、例えば、コンテンツの所在位置を示すアドレス(URL:Uniform Resource Locator)である。音声特徴は、再生音量を特定するための情報であって、例えば、必ず聞いて欲しい音声、音程(ピッチ)の高いあるいは低い音声等、再生音量の基準となる情報である。
【0008】
また、音声通知制御装置は、音声再生指示手段によって、ユーザコンテキストを取得したタイミングで、取得したユーザコンテキストとコンテンツメタテーブルに設定されている音声特徴とにより再生音量決定手段で再生音量値を決定し、決定した再生音量値と音声コンテンツの所在位置とを、スマートスピーカに通知する。
なお、再生音量決定手段は、ユーザコンテキストと音声特徴とに対応付けて再生音量値を設定した再生音量テーブルを参照して、再生音量値を決定する。
再生音量テーブルは、ユーザコンテキストと音声特徴とに対応付けて再生音量値を設定したテーブルであるため、ユーザの状態や音声コンテンツの特徴に応じて異なる再生音量値を設定することができる。
【0009】
これによって、音声通知制御装置は、ユーザコンテキストにより音声コンテンツの再生タイミングを制御しつつ、ユーザの状態や音声コンテンツの特徴に応じてスマートスピーカの再生音量を制御することができる。
なお、音声通知制御装置は、コンピュータを、前記した各手段として機能させるための音声通知制御プログラムで動作させることができる。
【発明の効果】
【0010】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、センサによって検知されたユーザの状態に応じて、スマートスピーカにおける音声コンテンツの再生タイミングを制御することができるとともに、再生音量を制御することができる。
これによって、本発明は、スマートスピーカに対して、ユーザにとって適切な再生タイミングで、かつ、ユーザの状態および音声コンテンツに適した再生音量で音声通知を行わせることができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態に係る音声通知制御装置を含む音声通知システムの構成を示す全体構成図である。
【
図2】本発明の実施形態に係る音声通知制御装置の構成を示すブロック図である。
【
図3】コンテンツメタテーブルの構成例を示す図である。
【
図4】再生音量テーブルの構成例を示す図であって、(a)は再生音量値の更新前、(b)は再生音量値の更新後の一例を示す。
【
図5】本発明の実施形態に係る音声通知制御装置が緊急時のコンテンツを再生する動作を示すシーケンス図である。
【
図6】本発明の実施形態に係る音声通知制御装置がユーザの状態(ユーザコンテキスト)により緊急以外のコンテンツを再生する動作を示すシーケンス図である。
【
図7】
図5のステップS2におけるコンテンツメタテーブル設定動作を詳細に示すフローチャートである。
【
図8】
図5,
図6のステップS6における再生音量決定動作を詳細に示すフローチャートである。
【
図9】本発明の実施形態に係る音声通知制御装置が再生音量を更新する動作を示すシーケンス図である。
【発明を実施するための形態】
【0012】
<音声通知システムの全体構成>
最初に、
図1を参照して、本発明の実施形態に係る音声通知制御装置5を含む音声通知システム100の構成について説明する。
【0013】
音声通知システム100は、再生タイミングおよび再生音量を制御して、ユーザMに対して音声を通知するシステムである。
音声通知システム100は、センサ1と、コンテキスト推定装置2と、コンテンツサーバ3と、スピーカ4と、音声通知制御装置5と、を備える。
【0014】
センサ1は、ユーザMを検知するものである。例えば、センサ1は、カメラ、人感センサ、温度センサ、照度センサ等である。なお、センサ1は、複数存在してもよい。
このセンサ1は、後記するコンテキスト推定装置2においてユーザコンテキストを推定するために使用するユーザの存在または動作を検知するセンサであればよい。
センサ1は、センシングデータをコンテキスト推定装置2に出力する。
ここでは、センサ1を、人感センサ(IoT〔Internet of Things〕人感センサ)とし、室内の各部屋(リビング、トイレ、寝室)に複数配置した例で説明する。センサ1は、一定周期で人が存在しているか否かを検知し、存在している場合は値“1”、存在していない場合は値“0”をセンシングデータとして出力する。
【0015】
コンテキスト推定装置2は、センサ1から出力されるセンシングデータを用いて、ユーザMの状態(ユーザコンテキスト)を推定するものである。
ユーザコンテキストは、ユーザMの状態を表す任意の文字列である。なお、ユーザコンテキストは、ユーザMの状態に対して予め定めた数値であっても構わない。
コンテキスト推定装置2は、例えば、WEBサーバとして、クラウドC上に実装することができる。その場合、コンテキスト推定装置2は、音声通知制御装置5との間で、websocketによる常時双方向通信を確立し、推定したユーザコンテキストを音声通知制御装置5に送信する。
【0016】
このコンテキスト推定装置2におけるユーザコンテキストの推定手法は、公知の手法を用いればよい。例えば、コンテキスト推定装置2は、センサ1から、ある部屋に人が存在していることをセンシングデータによって通知された場合、部屋に人が入ったと推定する。また、コンテキスト推定装置2は、人が存在する状態で、センサ1から、部屋に人が存在していないことをセンシングデータによって通知された場合、部屋から人が出たと推定する。なお、コンテキスト推定装置2は、映像データから、人物の推定や動作を推定するものであっても構わない。
【0017】
ここでは、コンテキスト推定装置2は、複数のセンサ1(1A,1B、1C〔
図2参照〕)から出力されるセンシングデータによって、各部屋(リビング、トイレ、寝室)にユーザMが入室したこと推定するものとする。
コンテキスト推定装置2は、「リビングに入室した」、「トイレに入室した」、「寝室に入室した」というユーザMの状態を示すユーザコンテキストとして、“living_room”、“rest_room”、“bed_room”を用いることとする。
【0018】
コンテンツサーバ3は、音声コンテンツ(以下、コンテンツ)と、音声コンテンツのメタデータ(以下、コンテンツメタ)を配信するものである。このコンテンツサーバ3は、コンテンツプロバイダがクラウドC上に配置する。
コンテンツサーバ3は、例えば、WEBサーバとして、クラウドC上に実装することができる。その場合、コンテンツサーバ3は、スピーカ4や音声通知制御装置5との間で、websocketによる常時双方向通信を確立し、要求に応じてコンテンツをスピーカ4に送信し、コンテンツメタを音声通知制御装置5に送信する。
【0019】
具体的には、コンテンツサーバ3は、スピーカ4からのHTTP(Hypertext Transfer Protocol)のGETリクエストを受け付けて、コンテンツをスピーカ4に送信する。また、コンテンツサーバ3は、音声通知制御装置5からのHTTPのGETリクエストを受け付けて、コンテンツメタを音声通知制御装置5に送信する。
コンテンツは、スピーカ4で再生するmp3ファイル等のファイル形式の音声データである。例えば、コンテンツは、ニュース音声データ、地震速報等の緊急音声データである。
【0020】
コンテンツメタは、コンテンツに対応する付加情報を示すメタデータであって、JSONファイル等のファイル形式で記述されたデータである。コンテンツメタは、「優先度」、「コンテンツ発行日時」、「コンテンツ所在位置」および「コンテンツタグ」を含み、コンテンツプロバイダ等の管理者が予め設定した情報である。
「優先度」は、コンテンツを通知する優先度を示す情報である。
「コンテンツ発行日時」は、コンテンツの発行日時を示す情報である。
「コンテンツ所在位置」は、コンテンツの所在位置を示すアドレスである。
「コンテンツタグ」は、コンテンツの特徴(例えば、ピッチの高低)を示す情報である。なお、これらコンテンツメタの詳細については後記する。
【0021】
スピーカ4(スマートスピーカ)は、コンテンツサーバ3からコンテンツを取得し再生するものである。また、スピーカ4は、ユーザMの操作(音声操作も含む)によって、再生音量を変更する機能を有する。このスピーカ4には、一般的なスマートスピーカを用いることができる。
スピーカ4は、音声通知制御装置5から、制御情報として、コンテンツ所在位置(コンテンツURL)と再生音量値とを指示されることで、コンテンツサーバ3からコンテンツ所在位置に対応するコンテンツを取得し、指示された再生音量値でコンテンツを再生する。
【0022】
例えば、スピーカ4は、web APIを備えることで、コンテンツサーバ3へのコンテンツの要求およびコンテンツサーバ3からのコンテンツの取得、あるいは、音声通知制御装置5からのコンテンツ所在位置および再生音量値の指示の取得を行うことができる。もちろん、スピーカ4は、web API以外のインタフェースを用いても構わない。
また、スピーカ4は、ユーザMの操作によって、再生音量が変更された場合、その再生音量値を、制御情報として音声通知制御装置5に通知する。
【0023】
音声通知制御装置5は、コンテンツサーバ3が配信するコンテンツのコンテンツメタ(メタデータ)と、コンテンツをユーザMに通知するタイミングを示すセンサ1で検知されたユーザMの状態(ユーザコンテキスト)とに基づいて、スピーカ4がコンテンツを再生するタイミングおよび音量を制御するものである。
【0024】
なお、音声通知制御装置5は、コンテンツサーバ3から優先度が“緊急”を示すコンテンツメタを取得した場合、ユーザコンテキストを待つことなく、スピーカ4にコンテンツの再生を指示する。
また、音声通知制御装置5は、スピーカ4から、制御情報として、再生音声の変更が通知された場合、以降の再生音声の音量を変えて、スピーカ4にコンテンツの再生を指示する。
以上説明したように、音声通知システム100は、ユーザMの状態に応じて、コンテンツの再生タイミングおよび再生音量を制御して、ユーザMに音声通知を行うことができる。
以下、音声通知制御装置5の構成および動作について詳細に説明する。
【0025】
<音声通知制御装置の構成>
図2を参照して、音声通知制御装置5の構成について説明する。
図2に示すように、音声通知制御装置5は、制御部Aと記憶部Bとを備える。
制御部Aは、音声通知制御装置5を制御するものである。例えば、制御部Aは、コンピュータを、以下で説明する各手段として機能させるための音声通知制御プログラムで動作する。
記憶部Bは、制御部Aで使用する各種データを記憶するものである。記憶部Bは、半導メモリ等で構成することができる。
制御部Aは、通知制御手段50と、スピーカ制御手段51と、再生音量決定手段52と、を備える。
【0026】
通知制御手段50は、スピーカ4に対するコンテンツの音声通知のタイミングおよび再生音量の通知を制御するものである。
通知制御手段50は、コンテキスト取得手段500と、メタデータ取得手段501と、音声再生指示手段502と、再生音量取得手段503と、を備える。
【0027】
コンテキスト取得手段500は、コンテキスト推定装置2から、推定されたユーザMの状態(ユーザコンテキスト)を取得するものである。
コンテキスト取得手段500は、例えば、コンテキスト推定装置2との間で、websocketによる常時双方向通信を確立し、ユーザコンテキストを取得する。
ここでは、コンテキスト取得手段500は、複数のセンサ1(1A,1B、1C)から出力されるセンシングデータで推定された「リビングに入室した」、「トイレに入室した」または「寝室に入室した」というユーザMの状態を示すユーザコンテキスト(“living_room”、“rest_room”または“bed_room”)を取得する。
コンテキスト取得手段500は、取得したユーザコンテキストを音声再生指示手段502に出力する。
【0028】
メタデータ取得手段501は、コンテンツサーバ3から、コンテンツメタ(コンテンツのメタデータ)を取得し、コンテンツメタテーブルに設定するものである。
メタデータ取得手段501は、例えば、コンテンツサーバ3との間で、websocketによる常時双方向通信を確立し、コンテンツメタを取得する。
メタデータ取得手段501は、取得したコンテンツメタを記憶部Bのコンテンツメタテーブル記憶手段53にコンテンツメタテーブルとして記憶する。
【0029】
ここで、
図3を参照(適宜、
図2参照)して、コンテンツメタテーブル記憶手段53に記憶するコンテンツメタテーブルの例について説明する。
図3に示すコンテンツメタテーブルT
Mは、各レコード(行)に、優先度200、コンテンツ発行日時201、コンテンツ所在位置202およびコンテンツタグ203を保持する。
【0030】
優先度200は、コンテンツを通知する優先度であって、ここでは、“urgent”,“high”,“normal”の3値の文字列のいずれかとする。“urgent”は優先度が最も高い“緊急”を示し、“high”はその次に優先度の高い“高”を示し、“normal”は優先度の最も低い“普通”を示す。
【0031】
コンテンツ発行日時201は、コンテンツプロバイダがコンテンツを発行した日時である。このコンテンツ発行日時201は、優先度200が同じコンテンツにおいて通知の順番を特定するための情報となる。
コンテンツ所在位置202は、コンテンツサーバ3におけるコンテンツの所在位置を示すアドレスであって、スピーカ4からコンテンツサーバ3にコンテンツを要求する際に使用される。
【0032】
コンテンツタグ203は、コンテンツの音声特徴として、ここでは、“urgent”,“high_voice”,“low_voice”の3値の文字列のいずれかとする。“urgent”は緊急性が高く、必ず聞いてほしいコンテンツを示す。“high_voice”は音の高さが高い音声、例えば、声の高いアナウンサが読み上げた音程(ピッチ)の高いニュースコンテンツを示す。“low_voice”は音の高さが低い音声、例えば、声の低いアナウンサが読み上げた音程(ピッチ)の低いニュースコンテンツを示す。
これらのコンテンツの音声特徴は、“urgent”のコンテンツについては緊急を要するため再生音量を大きくし、“low_voice”のコンテンツについてはより遠くに音声を届けるため、大きめの音で再生することが好ましいことを意味する。
図2に戻って、音声通知制御装置5の構成について説明を続ける。
【0033】
メタデータ取得手段501は、取得したコンテンツメタを行ごとにコンテンツメタテーブルTMに追加する。
なお、メタデータ取得手段501は、優先度200が“urgent”であるコンテンツメタについては、コンテンツメタテーブルTMの最上行に追加する。
また、メタデータ取得手段501は、優先度200が“urgent”以外のコンテンツメタについては、コンテンツメタテーブルTMの最下行に追加する。
【0034】
そして、メタデータ取得手段501は、優先度200が“urgent”以外のコンテンツメタを追加した場合、優先度200の優先度が高い方から順(“urgent”,“high”,“normal”の順)にコンテンツメタテーブルTMの行をソートする。さらに、メタデータ取得手段501は、優先度200が同じコンテンツメタについては、コンテンツ発行日時201が新しい(現在の時刻に近い)方から順にコンテンツメタテーブルTMの行をソートする。もちろん、コンテンツ発行日時201が古い方から順にコンテンツメタテーブルTMの行をソートすることとしてもよい。
なお、優先度200が“urgent”以外のコンテンツメタを追加する場合、ソートを行うため、必ずしもコンテンツメタテーブルTMの最下行に追加する必要はない。
【0035】
このように、メタデータ取得手段501は、優先度200およびコンテンツ発行日時201の順に、コンテンツメタテーブルTMの行を配列する。
これによって、コンテンツメタテーブルTMには、コンテンツを通知する順番にコンテンツメタが配列されることになる。
メタデータ取得手段501は、コンテンツメタテーブルTMを更新し、最上行に優先度200が“urgent”である場合、コンテンツが緊急である旨を音声再生指示手段502に通知する。
【0036】
音声再生指示手段502は、ユーザコンテキストを取得したタイミングで、取得したユーザコンテキストとコンテンツメタテーブルTMに設定されているコンテンツタグ(音声特徴)とにより再生音量決定手段52で再生音量値を決定し、コンテンツの所在位置とともにスピーカ4に通知するものである。
なお、音声再生指示手段502は、コンテンツメタテーブルTMの優先度200に“urgent(緊急)”が設定された場合、ユーザコンテキストの取得を待たずに、スピーカ4に、再生音量値とコンテンツの所在位置とを通知する。
このように、音声再生指示手段502は、メタデータ取得手段501からコンテンツが緊急である旨が通知された場合と、コンテキスト取得手段500からユーザコンテキストを通知された場合とで処理が異なる。以下、処理を分けて説明する。
【0037】
(コンテンツが緊急である旨が通知された場合)
音声再生指示手段502は、コンテンツが緊急である旨が通知された場合、ユーザの状態を未設定(NULL)としたユーザコンテキストと、コンテンツメタテーブルTMの最上行に登録されているコンテンツタグとを引数として、再生音量決定手段52に再生音量値を要求する。そして、音声再生指示手段502は、再生音量決定手段52で決定された再生音量値と、コンテンツメタテーブルTMの最上行に登録されているコンテンツ所在位置とを、スピーカ制御手段51を介して、スピーカ4に出力し、音声再生を指示する。
そして、音声再生指示手段502は、コンテンツメタテーブルTMの最上行のレコードを削除する。
【0038】
(ユーザコンテキストを通知された場合)
音声再生指示手段502は、ユーザコンテキストを通知された場合、ユーザコンテキストと、コンテンツメタテーブルTMの最上行に登録されているコンテンツタグとを引数として、再生音量決定手段52に再生音量値を要求する。そして、音声再生指示手段502は、再生音量決定手段52で決定された再生音量値と、コンテンツメタテーブルTMの最上行に登録されているコンテンツ所在位置とを、スピーカ制御手段51を介して、スピーカ4に出力し、音声再生を指示する。
そして、音声再生指示手段502は、コンテンツメタテーブルTMの最上行のレコードを削除する。
そして、音声再生指示手段502は、予め定めたレコードの数だけ、音声再生の処理を繰り返す。ただし、音声再生指示手段502は、再生回数がコンテンツメタテーブルTMのレコードの数に達した場合、音声再生の処理を停止する。
【0039】
これによって、音声再生指示手段502は、優先度の高いコンテンツから順にスピーカ4に音声再生を指示することができる。また、音声再生指示手段502は、優先度が同じであれば、コンテンツ発行日時が新しい(現在の時刻に近い)コンテンツから、または、コンテンツ発行日時が古いコンテンツから順にスピーカ4に音声再生を指示することができる。
このように、音声再生指示手段502は、スピーカ制御手段51を介して、スピーカ4に音声再生を指示した後、ユーザコンテキストとコンテンツタグと直近の情報として、再生音量取得手段503に出力する。
【0040】
再生音量取得手段503は、スピーカ4が再生した再生音量値を取得するものである。
再生音量取得手段503は、音声再生指示手段502からスピーカ4に指示したユーザコンテキストとコンテンツタグとを直近の情報として保持し、スピーカ制御手段51を介してスピーカ4から通知される再生音量値とともに、再生音量テーブル更新要求として、再生音量決定手段52に出力する。
このスピーカ4から取得した再生音量値は、再生音量決定手段52が次回に決定する再生音量値に反映されることになる。
【0041】
スピーカ制御手段51は、音声再生指示手段502の音声再生指示をスピーカ4に通知するものである。
スピーカ制御手段51は、音声再生指示手段502から出力される再生音量値とコンテンツURL(コンテンツ所在位置)とを引数とする音声再生指示を制御情報としてスピーカ4に出力する。
また、スピーカ制御手段51は、スピーカ4において再生音声値に変更があった場合、変更後の再生音声値を取得し、通知制御手段50に出力する。
【0042】
再生音量決定手段52は、コンテキスト推定装置2で推定されるユーザコンテキストと、コンテンツサーバ3から取得したコンテンツメタに含まれるコンテンツタグとに基づいて、再生音量値を決定するものである。
再生音量決定手段52は、音量読出手段520と、音量更新手段521と、を備える。
【0043】
音量読出手段520は、再生音量テーブル記憶手段54に記憶されている再生音量テーブルから、ユーザコンテキストとコンテンツタグとに対応した再生音量値を読み出すものである。
音量読出手段520は、通知制御手段50の音声再生指示手段502から、ユーザコンテキストとコンテンツタグとを引数とする要求を入力する。そして、音量読出手段520は、対応する再生音量値を再生音量テーブル記憶手段54から読み出して、通知制御手段50に出力する。
【0044】
ここで、
図4を参照(適宜、
図2参照)して、再生音量テーブル記憶手段54に記憶する再生音量テーブルの例について説明する。
図4に示す再生音量テーブルT
Vは、コンテンツタグ(音声特徴)を行、ユーザコンテキストを列とする表に、コンテンツタグとユーザコンテキストが対応する再生音量値を記述したテーブルである。
例えば、
図4(a)の再生音量テーブルT
Vは、コンテンツタグが“high_voice(高い音声)”、ユーザコンテキストが“living_room(リビング)”であれば、再生音量値が“2”であることを示している。また、コンテンツタグが“urgent(緊急)”、ユーザコンテキストが“NULL(未設定)”であれば、再生音量値が“10”であることを示している。なお、再生音量値は、例えば、スピーカ4の最大音量を“10”とした場合の相対値である。
【0045】
この再生音量テーブルTVは、コンテンツタグやユーザコンテキストが既知の場合、予め定めた初期値を設定しておけばよい。
また、コンテンツタグやユーザコンテキストに応じて、再生音量テーブルTVを追加して生成することとしてもよい。
例えば、音量読出手段520は、コンテンツタグおよびユーザコンテキストに対応する再生音量値が存在しない場合、再生音量テーブルTVの対応するセルに予め定めた初期値を設定し、その値を再生音量値として決定する。
【0046】
具体的には、音量読出手段520は、再生音量テーブルT
Vに引数で指定されたコンテンツタグの行が存在していなければ、存在していないコンテンツタグの行を再生音量テーブルT
Vに追加する。
また、音量読出手段520は、再生音量テーブルT
Vに引数で指定されたユーザコンテキストの列が存在していなければ、存在していないユーザコンテキストの列を再生音量テーブルT
Vに追加する。
そして、音量読出手段520は、新たに生成したコンテンツタグおよびユーザコンテキストの行列に該当するセルに予め定めた再生音量値の初期値を設定する。
これによって、再生音量決定手段52は、新たなコンテンツタグおよびユーザコンテキストに対しても、再生音量値を決定することができる。
図2に戻って、音声通知制御装置5の構成について説明を続ける。
【0047】
音量更新手段521は、再生音量テーブル記憶手段54に記憶されている再生音量テーブルを更新するものである。
音量更新手段521は、通知制御手段50の再生音量取得手段503から、ユーザコンテキストとコンテンツタグと再生音量値とを、再生音量テーブル更新要求として入力する。そして、音量更新手段521は、再生音量テーブル記憶手段54に記憶されている再生音量テーブルにおいて、入力したユーザコンテキストとコンテンツタグとに対応するセルの再生音量値を、入力した再生音量値に更新する。
【0048】
例えば、
図4(a)に示すように、再生音量テーブルT
Vに、ユーザコンテキスト“living_room(リビング)”と、コンテンツタグ“high_voice(高い音声)”とに対応する再生音量値“2”が設定されているとする。この状態で、音量更新手段521に、ユーザコンテキスト“living_room(リビング)”、コンテンツタグ“high_voice(高い音声)”、再生音量値“3”が音量更新要求として入力された場合、
図4(b)に示すように、再生音量テーブルT
Vにおいて、ユーザコンテキスト“living_room(リビング)”と、コンテンツタグ“high_voice(高い音声)”とに対応するセルの再生音量値を“3”に変更する。他のセルについても同様である。
これによって、再生音量決定手段52は、ユーザコンテキストとコンテンツタグとに対応する再生音量値を、ユーザMの要求に応じて変更することができる。
【0049】
以上説明したように構成することで、音声通知制御装置5は、ユーザMの状態(ユーザコンテキスト)に応じて、コンテンツを再生するタイミングや再生音量を制御することができる。また、音声通知制御装置5は、コンテンツの特徴に応じて、再生音量を制御することができる。
【0050】
<音声通知制御装置の動作>
次に、音声通知制御装置5の動作について説明する。
まず、
図5,
図6を参照(構成ついては適宜
図2参照)して、音声通知制御装置5のコンテンツの再生タイミングを制御する動作について説明する。
図5は、緊急時のコンテンツを再生する動作、
図6は、ユーザの状態(ユーザコンテキスト)により緊急以外のコンテンツを再生する動作を示すシーケンス図である。
【0051】
(緊急コンテンツ再生動作)
まず、
図5を参照して、音声通知制御装置5が緊急時のコンテンツ(緊急コンテンツ)を再生する動作について説明する。
ステップS1において、通知制御手段50は、コンテンツサーバ3からコンテンツメタを取得する。ここでは、通知制御手段50のメタデータ取得手段501が、コンテンツサーバ3にコンテンツメタを要求し、取得する。
ステップS2において、通知制御手段50は、ステップS1で取得したコンテンツメタをコンテンツメタテーブル記憶手段53のコンテンツメタテーブルに設定する。
【0052】
ここで、
図7を参照して、ステップS2の動作について詳細に説明する。
ステップS20において、通知制御手段50のメタデータ取得手段501は、ステップS1で取得したコンテンツメタの優先度が、“urgent(緊急)”であるか否かを判定する。
ここで、優先度が“urgent(緊急)”の場合(ステップS20でYes)、ステップS21において、メタデータ取得手段501は、コンテンツメタテーブル記憶手段53に記憶されているコンテンツメタテーブルT
M(
図3参照)の最上行にコンテンツメタ(優先度、コンテンツ発行日時、コンテンツ所在位置およびコンテンツタグ)を追加する。
そして、通知制御手段50は、ステップS3(
図5参照)に動作を移行する。
【0053】
一方、優先度が“urgent(緊急)”以外の場合(ステップS20でNo)、ステップS22において、メタデータ取得手段501は、コンテンツメタテーブル記憶手段53に記憶されているコンテンツメタテーブルT
M(
図3参照)の最下行にコンテンツメタ(優先度、コンテンツ発行日時、コンテンツ所在位置およびコンテンツタグ)を追加する。
【0054】
ステップS23において、メタデータ取得手段501は、コンテンツメタテーブルT
Mのすべてのレコードを、優先度の順(優先度が高い方から順)にソートする。
ステップS24において、メタデータ取得手段501は、コンテンツメタテーブルT
Mの同じ優先度のレコードを、コンテンツ発行日時の順(新しい順、または、古い順)にソートする。
このステップS23,S24の動作によって、コンテンツメタは、優先度が高いほど、コンテンツメタテーブルT
Mの上の行に配置され、優先度が同じであれば、コンテンツ発行日時が新しい(現在の時刻に近い)ほど、または、古いほど、コンテンツメタテーブルT
Mの上の行に配置される。
そして、通知制御手段50は、ステップS3(
図5参照)に動作を移行する。
図5に戻って、緊急時のコンテンツを再生する動作について説明を続ける。
【0055】
ステップS3において、通知制御手段50の音声再生指示手段502は、コンテンツメタテーブルT
M(
図3参照)の最上行に“urgent(緊急)”のコンテンツメタが記憶されているか否かを判定する。
ここで、最上行に“urgent(緊急)”のコンテンツメタが記憶されている場合(ステップS3でYes)、通知制御手段50は、ステップS4に動作を進める。
一方、最上行に“urgent(緊急)”のコンテンツメタが記憶されていない場合(ステップS3でNo)、通知制御手段50は、ステップS1に動作を戻す。
【0056】
ステップS4において、通知制御手段50の音声再生指示手段502は、再生音量決定手段52に要求する引数のうち、ユーザコンテキストにNULLを設定する。
ステップS5において、通知制御手段50の音声再生指示手段502は、ステップS4で設定したユーザコンテキストと、コンテンツメタテーブルTMの最上行に登録されているコンテンツタグとを引数として、再生音量決定手段52に再生音量値を要求する。
ステップS6において、再生音量決定手段52は、再生音量値を決定する。
【0057】
ここで、
図8を参照して、ステップS6の動作について詳細に説明する。
ステップS60において、再生音量決定手段52の音量読出手段520は、指定されたコンテンツタグの行が、再生音量テーブル記憶手段54に記憶されている再生音量テーブルT
V(
図4参照)に存在するか否かを判定する。
ここで、指定されたコンテンツタグの行が再生音量テーブルT
Vに存在している場合(ステップS60でYes)、音量読出手段520は、ステップS62に動作を進める。
一方、指定されたコンテンツタグの行が再生音量テーブルT
Vに存在していない場合(ステップS60でNo)、ステップS61において、音量読出手段520は、コンテンツタグの行を再生音量テーブルT
Vに追加する。
【0058】
ステップS62において、再生音量決定手段52の音量読出手段520は、指定されたユーザコンテキストの列が、再生音量テーブル記憶手段54に記憶されている再生音量テーブルT
V(
図4参照)に存在するか否かを判定する。
ここで、指定されたユーザコンテキストの列が再生音量テーブルT
Vに存在している場合(ステップS62でYes)、音量読出手段520は、ステップS64に動作を進める。
一方、指定されたユーザコンテキストの列が再生音量テーブルT
Vに存在していない場合(ステップS62でNo)、ステップS63において、音量読出手段520は、ユーザコンテキストの列を再生音量テーブルT
Vに追加する。
【0059】
ステップS64において、音量読出手段520は、再生音量テーブルT
Vの指定されたコンテンツタグおよびユーザコンテキストの行列に該当するセルに値が設定されているか否かを判定する。
ここで、該当セルに値が設定されている場合(ステップS64でYes)、音量読出手段520は、ステップS66に動作を進める。
一方、該当セルに値が設定されていない場合(ステップS64でNo)、ステップS65において、音量読出手段520は、セルに予め定めた再生音量値の初期値を設定する。
ステップS66において、音量読出手段520は、該当セルに設定されている値を、再生音量値として決定する。
そして、再生音量決定手段52は、ステップS7(
図5参照)に動作を移行する。
図5に戻って、緊急時のコンテンツを再生する動作について説明を続ける。
【0060】
ステップS7において、再生音量決定手段52の音量読出手段520は、ステップS6で決定した再生音量値を通知制御手段50に出力(応答)する。
ステップS8において、通知制御手段50の音声再生指示手段502は、コンテンツメタテーブルTMの最上行に登録されているコンテンツ所在位置(コンテンツURL)と、ステップS7で取得した再生音声値とを音声再生指示として、スピーカ制御手段51に出力する。
【0061】
ステップS9において、音声再生指示手段502は、コンテンツメタテーブルTMの最上行に登録されているレコードを削除する。
ステップS10において、スピーカ制御手段51は、ステップS8で通知制御手段50から出力された音声再生指示を、制御情報としてスピーカ4に出力する。
これによって、スピーカ4は、図示を省略するが、コンテンツサーバ3から、制御情報のコンテンツURLで指定されるコンテンツを取得し、制御情報の再生音声値でコンテンツを再生することができる。
【0062】
(ユーザコンテキストによるコンテンツ再生動作)
次に、
図6を参照して、音声通知制御装置5がユーザの状態(ユーザコンテキスト)により緊急以外のコンテンツを再生する動作について説明する。
ステップS1Aにおいて、通知制御手段50は、コンテキスト推定装置2からユーザコンテキストを取得する。ここでは、通知制御手段50のコンテキスト取得手段500が、コンテキスト推定装置2で推定されたユーザコンテキストを取得する。
ステップS3Aにおいて、通知制御手段50の音声再生指示手段502は、コンテンツメタテーブルT
M(
図3参照)にコンテンツメタが記憶されているか否か(レコードが存在するか否か)を判定する。
ここで、コンテンツメタテーブルT
Mにコンテンツメタが記憶されている場合(ステップS3AでYes)、通知制御手段50は、ステップS5に動作を進める。
一方、コンテンツメタテーブルT
Mにコンテンツメタが記憶されていない場合(ステップS3AでNo)、通知制御手段50は、ステップS1Aに動作を戻す。
【0063】
ステップS5からS10までの動作は、
図5で説明した緊急時のコンテンツを再生する動作と同じであるため、説明を省略する。
なお、ステップS5において使用されるコンテンツタグおよびユーザコンテキストは、コンテンツメタテーブルT
Mの最上行に登録されているコンテンツタグ、および、ステップS1Aで取得したユーザコンテキストである。
また、通知制御手段50は、ステップS9において、コンテンツメタテーブルT
Mの最上行に登録されているレコードを削除した後、ステップS3Aに戻る。これによって、コンテンツメタテーブルT
Mに登録されているコンテンツメタの数だけ、コンテンツが再生されることになる。なお、ステップS3Aにおいて、通知制御手段50の音声再生指示手段502は、必ずしも、レコードが存在する間、コンテンツの再生を繰り返す必要はなく、予め定めた数のコンテンツを再生した段階で、ステップS1Aに動作を戻してもよい。
【0064】
(再生音量更新動作)
次に、
図9を参照(構成ついては適宜
図2参照)して、音声通知制御装置5がスピーカ4におけるコンテンツの再生音量を更新する動作について説明する。
ステップS30において、スピーカ制御手段51は、再生音量が変更された場合に、スピーカ4から変更後の再生音量値を含む通知(音量更新通知)を取得する。
ステップS31において、スピーカ制御手段51は、ステップS30で通知された再生音量値を含む音量変更通知を通知制御手段50に出力する。
【0065】
ステップS32において、通知制御手段50の再生音量取得手段503は、音声再生指示手段502で直近の再生音量値を決定する際に使用したコンテンツタグおよびユーザコンテキストと、通知された再生音量値とを、再生音量テーブル更新要求として、再生音量決定手段52に出力する。
なお、直近の再生音量値を決定する際に使用したコンテンツタグおよびユーザコンテキストは、
図5,
図6のステップS5において、使用したものである。
【0066】
ステップS33において、再生音量決定手段52の音量更新手段521は、再生音量テーブル記憶手段54に記憶されている再生音量テーブルT
V(
図4参照)において、ステップS32で通知されたコンテンツタグとユーザコンテキストとに対応するセルの値を、ステップS32で通知された再生音量値で置き換えることで、再生音量テーブルT
Vを更新する。
これによって、音声通知制御装置5は、スピーカ4において、次回以降にコンテンツタグとユーザコンテキストとで特定される再生音量値を、更新された再生音量値で再生させることができる。
【0067】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、コンテキスト推定装置2と音声通知制御装置5との通信にwebsocketを利用することとしたが、ユーザコンテキストの取得手法はこれに限定されない。例えば、音声通知制御装置5が定期的にコンテキスト推定装置2に対してウェブスクレイピング(Web scraping)を行うことでユーザコンテキストを取得することとしてもよい。
【0068】
また、ここでは、コンテンツサーバ3と音声通知制御装置5との間の通信にwebsocketを利用することとしたが、コンテンツメタの取得手法はこれに限定されない。例えば、音声通知制御装置5が定期的にコンテンツサーバ3に対してウェブスクレイピングを行うことでコンテンツメタを取得することとしてもよい。
【0069】
また、ここでは、コンテキスト推定装置2およびコンテンツサーバ3をクラウドC上のサービスとして実装したが、実装方法はこれに限定されない。例えば、コンテキスト推定装置2は、音声通知制御装置5の内部の構成としてもよい。
【0070】
また、ここでは、スピーカ4から通知される再生音量値で再生音量テーブルTVを更新することとしたが、この機能を省略しても構わない。その場合、音声通知制御装置5から、再生音量取得手段503と音量更新手段521とを省略して構成すればよい。
このような構成でも、音声通知制御装置5は、ユーザコンテキストとコンテンツとによって、コンテンツの再生タイミングと再生音量とを制御することができる。
【符号の説明】
【0071】
100 音声通知システム
1 センサ
2 コンテキスト推定装置
3 コンテンツサーバ
4 スピーカ(スマートスピーカ)
5 音声通知制御装置
50 通知制御手段
500 コンテキスト取得手段
501 メタデータ取得手段
502 音声再生指示手段
503 再生音量取得手段
51 スピーカ制御手段
52 再生音量決定手段
520 音量読出手段
521 音量更新手段
53 コンテンツメタテーブル記憶手段
54 再生音量テーブル記憶手段