(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-01
(45)【発行日】2023-03-09
(54)【発明の名称】サーバ
(51)【国際特許分類】
G06Q 30/0251 20230101AFI20230302BHJP
G10L 13/00 20060101ALI20230302BHJP
G06F 3/16 20060101ALI20230302BHJP
G10L 17/00 20130101ALN20230302BHJP
【FI】
G06Q30/0251
G10L13/00 100M
G06F3/16 650
G06F3/16 690
G06F3/16 530
G10L17/00 200C
(21)【出願番号】P 2018094722
(22)【出願日】2018-05-16
【審査請求日】2021-04-08
【前置審査】
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100076428
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100115071
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100112508
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100116894
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【氏名又は名称】永川 行光
(74)【代理人】
【識別番号】100177390
【氏名又は名称】大出 純哉
(72)【発明者】
【氏名】田中 達雄
(72)【発明者】
【氏名】須崎 正士
(72)【発明者】
【氏名】新井 克典
(72)【発明者】
【氏名】豊崎 祐一郎
【審査官】関 博文
(56)【参考文献】
【文献】中国特許出願公開第107798114(CN,A)
【文献】特開2002-259819(JP,A)
【文献】特表2013-525875(JP,A)
【文献】特開2002-230399(JP,A)
【文献】特開2003-036386(JP,A)
【文献】特開2016-177442(JP,A)
【文献】特開2004-108985(JP,A)
【文献】特開2018-044949(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G10L 13/00
G06F 3/16
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して前記スピーカのマイクロフォンを介して取得された音声情報を受け付ける受付手段と、
受け付けた音声情報を保持する音声情報保持手段と、
受け付けた音声情報における配信要求に応じて、画像を伴わない音声コンテンツを取得する取得手段と、
画像を伴わない音声広告を音声広告保持手段から選択する選択手段と、
選択された音声広告の長さを調整するか否かを判定する判定手段と、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する送信手段と、を備え、
前記選択手段は、前記音声情報保持手段に保持される音声情報に基づいて音声広告を選択
し、
選択された音声広告の長さを調整すると判定された場合、前記送信手段は、長さが調整された音声広告を送信するサーバ。
【請求項2】
前記スピーカは、取得された音声コンテンツと選択された音声広告とを前記ネットワークを介して受信すると、音声広告を再生した後に音声コンテンツを再生する請求項1に記載のサーバ。
【請求項3】
前記選択手段は、前記音声情報保持手段に保持される、前記スピーカとユーザとの現在の対話セッションにおける該ユーザの過去の音声情報に基づいて音声広告を選択する請求項1又は2に記載のサーバ。
【請求項4】
長さが調整された音声広告は、選択された音声広告に所定の抽出アルゴリズムを適用することにより該音声広告から抽出された一部分である請求項
1に記載のサーバ。
【請求項5】
前記ネットワークを介して、前記スピーカからの音声出力のタイミングを制御する制御手段をさらに備え、
前記制御手段は、ユーザの存在が検知されない場合、または、ユーザの会話が継続していると判定される場合、前記スピーカからの音声広告の出力を制限する請求項1から
4のいずれか一項に記載のサーバ。
【請求項6】
前記ネットワークを介して、前記スピーカからの音声出力のタイミングを制御する制御手段をさらに備え、
前記制御手段は、前記スピーカに関連付けられた他の電子機器の出力と前記スピーカから出力される音声広告とが連携するように、該音声広告の出力のタイミングを制御する請求項1から
4のいずれか一項に記載のサーバ。
【請求項7】
前記スピーカのマイクロフォンを介して取得された音声情報に基づくユーザ認証を行う認証手段をさらに備え、
前記選択手段は、認証されたユーザのアカウントの属性に対応する音声広告を、前記音声広告保持手段から選択する請求項1から
6のいずれか一項に記載のサーバ。
【請求項8】
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して配信要求を受け付ける受付手段と、
受け付けた配信要求に応じて、画像を伴わない音声コンテンツを取得する取得手段と、
画像を伴わない音声広告を音声広告保持手段から選択する選択手段と、
選択された音声広告の長さを当該音声広告の一部分に調整するか否かを判定する判定手段と、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する送信手段と、を備え、
前記判定手段は、前記スピーカのユーザが他のユーザと会話中の状態である場合に、選択された音声広告の長さを当該音声広告の一部分に調整すると判定し、
音声広告の長さを当該音声広告の一部分に調整すると判定された場合、前記送信手段は、音声広告の一部分に調整された音声広告を前記スピーカに送信するサーバ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクロフォンを有するスピーカと通信するサーバに関する。
【背景技術】
【0002】
マイクロフォンおよび通信機能を備え、音声による操作や情報検索を可能とするスマートスピーカの普及が始まっている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】https://www.is.nri.co.jp/report/short-research/2017/000213.html、平成30年5月9日検索
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在のスマートスピーカを含むシステムは、ユーザから音声で要求を受け、その要求を処理することができる。このような状況において、さらに有益なスマートスピーカシステムを創出することが望まれている。
【0005】
本発明はこうした課題に鑑みてなされたものであり、その目的は、スマートスピーカを効果的な広告媒体として用いることができる技術の提供、またはスマートスピーカシステムのさらなる改善にある。
【課題を解決するための手段】
【0006】
本発明のある態様は、サーバに関する。このサーバは、マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して前記スピーカのマイクロフォンを介して取得された音声情報を受け付ける受付手段と、受け付けた音声情報を保持する音声情報保持手段と、受け付けた音声情報における配信要求に応じて、画像を伴わない音声コンテンツを取得する取得手段と、画像を伴わない音声広告を音声広告保持手段から選択する選択手段と、選択された音声広告の長さを調整するか否かを判定する判定手段と、取得された音声コンテンツと選択された音声広告とを合わせてスピーカに、ネットワークを介して送信する送信手段と、を備え、前記選択手段は、前記音声情報保持手段に保持される音声情報に基づいて音声広告を選択し、選択された音声広告の長さを調整すると判定された場合、前記送信手段は、長さが調整された音声広告を送信する。
【0007】
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
【発明の効果】
【0008】
本発明によれば、スマートスピーカを効果的な広告媒体として用いることができる技術を提供できる、またはスマートスピーカシステムをさらに改善することができる。
【図面の簡単な説明】
【0009】
【
図1】第1の実施の形態に係る音声広告配信システムの構成を示す模式図である。
【
図2】
図1のスマートスピーカの機能および構成を示すブロック図である。
【
図3】
図1の管理サーバのハードウエア構成図である。
【
図4】
図1の管理サーバの機能および構成を示すブロック図である。
【
図5】
図4の音声コンテンツ保持部の一例を示すデータ構造図である。
【
図6】
図4の音声広告保持部の一例を示すデータ構造図である。
【
図7】
図4の音声情報保持部の一例を示すデータ構造図である。
【
図8】
図4のユーザ情報保持部の一例を示すデータ構造図である。
【
図9】
図4のセッション情報保持部の一例を示すデータ構造図である。
【
図10】
図1の管理サーバにおける一連の処理の流れを示すフローチャートである。
【
図12】第3の実施の形態に係る音声操作システムの構成を示す模式図である。
【
図13】第4の実施の形態に係る音声操作システムの構成を示す模式図である。
【
図14】
図13の管理サーバの機能および構成を示すブロック図である。
【
図15】
図14のユーザ情報保持部の一例を示すデータ構造図である。
【発明を実施するための形態】
【0010】
以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。
【0011】
(第1の実施の形態)
第1の実施の形態に係る音声広告配信システムでは、ユーザはスマートスピーカを用いて、例えば以下のような作業を行うことができる。
・簡単な調べ物
・天気予報の確認
・ニュースを聞く
・アラームの設定
・スケジュールの確認
・計算をする
・音楽の再生
・スマート家電のコントロール。
音声広告配信システムはスマートスピーカのマイクロフォンを介してユーザの発話を取得し、発話を音声認識することでユーザが音声コンテンツ(例えば、検索結果、天気予報、ニュース、スケジュール、計算結果、音楽など)の配信を要求していることを理解する。システムは、要求されている音声コンテンツを用意してスマートスピーカに配信するのであるが、この際、スマートスピーカでの音声コンテンツ再生前に音声広告が再生されるように、音声広告を配信対象の音声コンテンツに挿入する。
【0012】
この音声広告は、例えば配信対象の音声コンテンツに合わせた音声広告や、これまでの対話の内容に基づいた音声広告や、音声コンテンツの配信の直前にスマートスピーカが集音したスマートスピーカの周りの音に基づいた音声広告であってもよい。
【0013】
音声広告の長さは、ユーザとの対話の状況やスマートスピーカの周りの状況に合わせて調整されてもよい。調整の態様としては、例えば配信対象の音声コンテンツの内容に応じて音声広告の長さを調整してもよいし、音声広告の重要部分を抽出してもよい。
【0014】
音声広告の再生のタイミングについて、ユーザがスマートスピーカの周りにいる場合に広告効果がより高いこと、またユーザがスマートスピーカや他のユーザと会話しているときに音声広告が出力されるとユーザが不快に感じうること、を考慮して決定されてもよい。例えば、音声広告は、スマートスピーカの周りにユーザがいると判定されるときのみ再生されてもよい。また、音声広告は、ユーザが他のユーザと会話していたり、スマートスピーカに対して発話しているときには再生されなくてもよい。後者の場合、ユーザが発話を止めると音声広告の出力を開始または再開してもよい。また、音声広告は他の電子機器、例えばテレビジョン(以下、TVという)と連携して出力されてもよい。例えば、TVで広告を流した後に、続報をスマートスピーカから音声で出力してもよい。この場合、次のTVの広告を消音してもよい。あるいはまた、スマートスピーカでの音声広告の再生後に関連する広告をTVで流してもよい。
【0015】
音声広告配信システムはスマートスピーカを介して取得したユーザの発話から声紋を取得し、声紋認証によりユーザ認証を行う機能を有する。また、音声広告配信システムはWebサービスやSNSなどの他のサービスと連携しており、音声広告配信システムにおける認証ユーザと、他のサービスにおけるユーザのアカウントと、を関連付けることができる。この場合、音声広告配信システムは、認証ユーザに対して、認証ユーザのアカウントに紐付く音声広告を選択してもよい。例えば、音声広告配信システムは、スマートスピーカで収集した情報と、アカウント属性と、に基づく音声広告を選択してもよい。また、音声広告配信システムは、スマートスピーカで収集した情報でアカウント属性を更新してもよい。
【0016】
図1は、第1の実施の形態に係る音声広告配信システム2の構成を示す模式図である。音声広告配信システム2は、管理サーバ4と、スマートスピーカ10と、TV12と、を備える。管理サーバ4とスマートスピーカ10とTV12とはインターネットなどのネットワーク6を介して通信可能に接続されている。スマートスピーカ10およびTV12はいずれも、ユーザ8の部屋14に設置されている。スマートスピーカ10はマイクロフォンおよび通信機能を有するスピーカであり、上述の通りネットワーク6に接続されると共に、TV12ともP2P(Peer to Peer)通信16が可能に構成される。
図1ではスマートスピーカ10と管理サーバ4とが通信する例を示しているが、スマートスピーカ10の数に制限はなく、ユーザ8の数にも制限はない。
【0017】
ユーザ8は、「何か甲村太郎の歌が聴きたい」、「今日のニュースを教えて」、「今夜の天気は?」、「出雲大社について教えて」、等の音声コンテンツの配信要求を表す文をスマートスピーカ10に向けて発話する。スマートスピーカ10のマイクロフォンはユーザ8が発話した音声を電気信号に変換し、スマートスピーカ10は変換の結果得られた電気信号を音声信号として、ネットワーク6を介して管理サーバ4に送信する。管理サーバ4は受信した音声信号に対して音声認識処理を行うことでユーザがどのような音声コンテンツの配信を求めているかを理解する。管理サーバ4は、要求された音声コンテンツに音声広告を添付した配信情報を生成し、ネットワーク6を介してスマートスピーカ10に送信する。スマートスピーカ10は、配信情報を受信すると、まず音声広告を出力し、次いで音声コンテンツを出力する。
【0018】
なお、スマートスピーカ10はディスプレイを備えても備えなくてもよいが、管理サーバ4から配信されるコンテンツは、静止画や動画などの画像と音声とが一体となったコンテンツではなく、画像を伴わない音声コンテンツ(または、音声のみからなるコンテンツ)である。音声広告も同様に、画像を伴わない音声広告である。
【0019】
図2は、
図1のスマートスピーカ10の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
【0020】
スマートスピーカ10は、スピーカ102と、マイクロフォン104と、通信部106と、入力部108と、処理部110と、を備える。通信部106はネットワーク6との通信におけるインタフェースとして機能とし、かつ、P2P通信16におけるインタフェースとしても機能する。入力部108は電源ボタン、音量調節ボタン等の物理的な入力機構を含む。処理部110は、スピーカ102、マイクロフォン104、通信部106、入力部108を制御し、スマートスピーカ10の各種機能を実現する。
【0021】
本実施の形態では、ユーザの発話をマイクロフォン104が音声信号に変換し、通信部106が音声信号を管理サーバ4に送信し、管理サーバ4が音声信号に音声認識処理を施すことを想定している。しかしながら、スマートスピーカにおいて少なくとも一部の音声認識処理が行われる場合や、スマートスピーカにおいて後述の音声コンテンツ取得処理や音声広告選択処理が行われる場合や、スマートスピーカがスタンドアローンである場合にも、本実施の形態の技術的思想を適用可能である。なお、スマートスピーカで行われた音声認識の結果を管理サーバに送ること、および、スマートスピーカから音声信号をそのまま管理サーバに送ること、はいずれも、ユーザの発話に対応する音声情報を管理サーバに送ると言いうるものである。
【0022】
図3は、
図1の管理サーバ4のハードウエア構成図である。管理サーバ4は、メモリ130と、プロセッサ132と、通信インタフェース134と、ディスプレイ136と、入力インタフェース138と、を含む。これらの要素はそれぞれバス140に接続され、バス140を介して互いに通信する。
【0023】
メモリ130は、データやプログラムを記憶するための記憶領域である。データやプログラムは、メモリ130に恒久的に記憶されてもよいし、一時的に記憶されてもよい。プロセッサ132は、メモリ130に記憶されているプログラムを実行することにより、管理サーバ4における各種機能を実現する。通信インタフェース134は、管理サーバ4の外部との間でデータの送受信を行うためのインタフェースである。例えば、通信インタフェース134はネットワーク6にアクセスするためのインタフェースを含む。ディスプレイ136は、各種情報を表示するためのデバイスであり、例えば、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイなどである。入力インタフェース138は、ユーザからの入力を受け付けるためのデバイスである。入力インタフェース138は、例えば、マウスやキーボードやディスプレイ138上に設けられたタッチパネルを含む。
【0024】
図4は、
図1の管理サーバ4の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
【0025】
管理サーバ4は、音声コンテンツ保持部402と、音声広告保持部404と、音声情報保持部406と、ユーザ情報保持部408と、セッション情報保持部410と、音声信号受付部412と、音声認識部414と、ユーザ認証部416と、セッション管理部418と、コンテンツ取得部420と、広告選択部422と、広告調整部424と、送信情報生成部426と、送信部428と、タイミング制御部430と、属性更新部432と、を備える。
【0026】
図5は、
図4の音声コンテンツ保持部402の一例を示すデータ構造図である。音声コンテンツ保持部402は、音声コンテンツを特定するコンテンツIDと、音声コンテンツを特徴付けるキーワードと、音声コンテンツのデータと、を対応付けて保持する。キーワードに加えてまたは代えて、タグなどの他のメタデータが用いられてもよい。
【0027】
音声コンテンツ保持部402に保持されるデータは、予めまたは要求に応じて管理サーバ4によって生成され登録されたデータであってもよい。音声コンテンツのデータを作成する際に、公知の音声合成技術が用いられてもよい。あるいはまた、音声コンテンツ保持部402に保持されるデータは、予めまたは要求に応じて管理サーバ4が他のサービスのサーバから取得したデータであってもよい。
【0028】
図6は、
図4の音声広告保持部404の一例を示すデータ構造図である。音声広告保持部404は、音声広告を特定する広告IDと、音声広告を特徴付けるキーワードと、音声広告の属性と、音声広告のデータと、を対応付けて保持する。キーワードに加えてまたは代えて、タグなどの他のメタデータが用いられてもよい。音声広告保持部404に保持されるデータは、管理サーバ4を運用する主体が広告主から受領したデータであってもよい。
【0029】
図7は、
図4の音声情報保持部406の一例を示すデータ構造図である。音声情報保持部406は、スマートスピーカ10のマイクロフォン104を介して取得された音声情報を保持する。音声情報は、後述の音声認識部414にて音声信号を音声認識することにより得られるユーザの発話内容を含む。音声情報保持部406は、ユーザを特定するユーザIDと、スマートスピーカ10とユーザとの対話セッションのセッションIDと、対話セッションにおけるユーザまたはシステムの発話内容と、を対応付けて保持する。なお、音声情報保持部406は、システムの発話内容に対応するユーザIDとしてシステム固有のIDを保持する。
【0030】
図8は、
図4のユーザ情報保持部408の一例を示すデータ構造図である。ユーザ情報保持部408は、ユーザIDと、ユーザの声紋のデータと、他のサービスにおけるユーザのアカウントを特定するアカウントIDと、アカウントの属性と、ユーザが不快に感じた広告を特定するNG広告IDと、を対応付けて保持する。声紋のデータは、ユーザの音声広告配信システム2への初回登録時に取得されてもよい。
【0031】
図9は、
図4のセッション情報保持部410の一例を示すデータ構造図である。セッション情報保持部410は、スマートスピーカ10とユーザとの現在の対話セッションの状態を保持する。セッション情報保持部410は、現在存在しているまたは維持されている対話セッションに係るユーザのユーザIDと、該対話セッションのセッションIDと、該対話セッションの状態と、を対応付けて保持する。対話セッションの状態は、ユーザが発話中であることを示す「発話中」と、ユーザが他のユーザと会話中であることを示す「会話中」と、ユーザが発話しておらずユーザによる次の発話またはシステムによる次の発話を待っている「発話待ち」と、の三つなかから選択される。対話セッションが終了したと判定された場合、セッション情報保持部410からその対話セッションに関するエントリが削除される。すなわち、ある対話セッションのセッションIDがセッション情報保持部410に登録されていると、その対話セッションは継続中であり、その対話セッションに係るユーザがスマートスピーカ10の周囲にいると判定される。
【0032】
図4に戻り、音声信号受付部412は、スマートスピーカ10からネットワーク6を介して、ユーザの発話内容を表す音声信号を受け付ける。上述の通り音声信号は、ユーザの発話音声をマイクロフォン104で変換した電気信号であり、特に音声の波形を表す電気信号である。発話内容は、スマートスピーカ10(または音声広告配信システム2)への問いかけ・応答と、ひとり言と、他のユーザとの会話と、を含む。
【0033】
音声認識部414は、音声信号受付部412が受け付けた音声信号に対して所定の音声認識処理を施す。音声認識部414は音声認識により音声信号からユーザの発話内容を導出する。音声認識部414における音声認識処理は、n-gramや隠れマルコフモデルを用いる公知の音声認識技術を用いて実現されてもよい。
【0034】
ユーザ認証部416は、音声信号受付部412が受け付けた音声信号から声紋を抽出または取得する。ユーザ認証部416は、抽出された声紋に基づくユーザ認証(すなわち、声紋認証)を行う。ユーザ認証部416はユーザ情報保持部408を参照し、ユーザ情報保持部408に保持されている声紋のなかに抽出された声紋と一致する声紋があるか否かを判定する。ユーザ認証部416は、一致する声紋があればその声紋に対応するユーザIDを特定し、特定されたユーザIDと音声認識部414において導出された発話内容とを対応付ける。この場合、音声信号受付部412が受け付けた音声信号に対応する発話を行ったユーザは、管理サーバ4によって声紋認証されたこととなる。ユーザ認証部416は、一致する声紋がなければ、一致なしまたはユーザ不明を表す出力を生成する。管理サーバ4はこの出力に応じてユーザの新規登録を開始してもよい。
【0035】
セッション管理部418は、スマートスピーカ10とユーザとの対話セッションを管理する。セッション管理部418は、音声情報保持部406とセッション情報保持部410とを管理する。セッション管理部418は、ユーザ認証部416によって対応付けられたユーザIDおよび発話内容に、スマートスピーカ10とそのユーザとの対話セッションを特定するセッションIDを対応付けて音声情報保持部406に登録する。
【0036】
セッション管理部418は、ユーザ認証部416によって対応付けられたユーザIDおよび発話内容に基づいてスマートスピーカ10とそのユーザとの現在の対話セッションの状態を決定する。セッション管理部418は、決定された状態でセッション情報保持部410を更新する。例えば、セッション管理部418は、発話内容の解析結果が発言の途中であることを示す場合、現在の対話セッションの状態を「発話中」に決定する。セッション管理部418は、発話内容の解析結果が発言の終わりであることを示す場合、現在の対話セッションの状態を「発話待ち」に決定する。セッション管理部418は、発話内容の解析結果が対話セッションの終了を示す場合(例えば、発話内容が「またね」や「バイバイ」などの対話セッションの終了を示す語である場合)、該対話セッションのセッションIDを有する全てのエントリをセッション情報保持部410から削除する。セッション管理部418は「発話待ち」状態のまま所定の期間が経過した対話セッションをセッション情報保持部410から削除してもよい。ここで、発話内容に基づいて対話セッションの状態を決定したが、発話内容に代えて、又は、発話内容に加えて、別途備えられたカメラからの撮像情報から対話セッションの状態を決定してもよい。ここでのカメラはスマートスピーカ10自体に配設されていてもよいし、通信機能を有するカメラ単体を別途用いてもよいし、カメラ機能を有するテレビ又はカメラ機能を有するコンピュータを別途用いてもよい。
【0037】
コンテンツ取得部420は、音声認識部414において導出された発話内容が音声コンテンツの配信要求を含む場合、要求されている音声コンテンツを音声コンテンツ保持部402から取得する。例えば、発話内容が「何か甲村太郎の歌が聴きたい」などの音楽コンテンツの配信要求である場合、コンテンツ取得部420は要求されている音楽コンテンツを音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、音楽配信サービスのサーバにアクセスし、要求されている音楽コンテンツをメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は取得した音楽コンテンツおよびメタデータを音声コンテンツ保持部402に登録してもよい。
【0038】
発話内容が「今日のニュースを教えて」、「今夜の天気は?」などの情報コンテンツの配信要求である場合、コンテンツ取得部420は要求されている情報コンテンツを音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、情報配信サービスのサーバにアクセスし、要求されている情報コンテンツをテキスト形式でメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は、所定の音声合成処理を用いることで、取得したテキスト形式の情報コンテンツを音声データに変換してもよい。コンテンツ取得部420は、音声データとなった情報コンテンツおよびメタデータを音声コンテンツ保持部402に登録してもよい。音声合成処理は、公知の音声合成技術を用いて実現されてもよい。
【0039】
発話内容が「出雲大社について教えて」などの検索結果の配信要求である場合、コンテンツ取得部420は要求されている検索結果を音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、検索サービスのサーバにアクセスし、要求されている検索結果をテキスト形式でメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は、所定の音声合成処理を用いることで、取得したテキスト形式の検索結果を音声データに変換してもよい。コンテンツ取得部420は、音声データとなった検索結果およびメタデータを音声コンテンツ保持部402に登録してもよい。
【0040】
広告選択部422は、コンテンツ取得部420によって取得された音声コンテンツに添付すべき音声広告を、音声広告保持部404から選択する。広告選択部422における音声広告の選択の基準は、(1)コンテンツ取得部420によって取得された音声コンテンツの内容との関連性、(2)音声情報保持部406に保持される、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容との関連性、(3)認証されたユーザのアカウントの属性との関連性、のうちのいずれかまたはそれらの任意の組み合わせである。
【0041】
例えば、(1)について、「出雲大社について教えて」という検索結果の配信要求に対して、コンテンツ取得部420によって「出雲大社は、古くは…」という音声コンテンツの音声データが取得される。広告選択部422はコンテンツ取得部420によって取得された「出雲大社は、古くは…」に対応するキーワード「出雲大社、神、縁結び」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「出雲大社、神、縁結び」に対応するキーワード「出雲大社、縁結び」を有する「出雲大社に旅行に行きたい?それならABC旅行者に相談だ」という音声広告の音声データを選択する。このように、音声コンテンツのキーワードと音声広告のキーワードとを比較することにより、コンテンツ取得部420によって取得された音声コンテンツの内容に対応する音声広告が広告選択部422によって選択される。
【0042】
例えば、(2)について、スマートスピーカ10とユーザとの間で
(ユーザ)「駅までタクシーで間に合う?」
(スマートスピーカ10)「間に合います」
(ユーザ)「今夜の天気は?」
という対話が行われているとする。「今夜の天気は?」という情報コンテンツの配信要求に対して、コンテンツ取得部420によって「今夜のC地方の天気はにわか雨、気温は…」という音声コンテンツの音声データが取得される。広告選択部422は、音声情報保持部406を参照し、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容として「駅までタクシーで間に合う?」を特定する。広告選択部422は特定された「駅までタクシーで間に合う?」という発話内容から「駅、タクシー」というキーワードを抽出する。広告選択部422は、音声広告保持部404を参照し、抽出されたキーワード「駅、タクシー」に対応するキーワード「タクシー、配車」を有する「すぐくるZZZタクシー配車サービス」という音声広告の音声データを選択する。このように、音声情報保持部406を参照することにより、広告選択部422は、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容に基づいて音声広告を選択することができる。
【0043】
なお、上記の例において(2)ではなく(1)の基準が用いられる場合、広告選択部422はコンテンツ取得部420によって取得された「今夜のC地方の天気はにわか雨、気温は…」に対応するキーワード「C地方、雨、低温」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「C地方、雨、低温」に対応するキーワード「傘、雨」を有する「CB社のハイパー傘は10年壊れません!」という音声広告の音声データを選択する。このように、スマートスピーカ10とユーザとの対話の内容が同じでも、用いる基準によって選択される音声広告が異なる場合がある。
【0044】
例えば、(3)について、「今日のニュースを教えて」という情報コンテンツの配信要求に対して、コンテンツ取得部420によって「今朝6時頃、A県B市で火事があり、…」という音声コンテンツの音声データが取得される。併せて、ユーザ認証部416における声紋認証により「今日のニュースを教えて」の発話主のユーザが認証され、該ユーザのユーザID「B102」が特定される。広告選択部422は、特定されたユーザID「B102」に対応するアカウントの属性「子供、男性、独身」をユーザ情報保持部408から取得する。広告選択部422は、音声広告保持部404を参照し、取得した属性「子供、男性、独身」に対応する属性「子供、男性」を有する「F市に来たら、SLに乗れるよ」という音声広告の音声データを選択する。また、特定されたユーザID「B102」に対応するアカウントの属性が「大人、女性、独身」であったなら、広告選択部422は、音声広告保持部404を参照し、その属性に対応する属性「独身、大人」を有する「出雲大社に旅行に行きたい?それならABC旅行社に相談だ」という音声広告の音声データを選択する。このように、認証されたユーザのアカウントの属性と音声広告の属性とを比較することにより、認証されたユーザのアカウントの属性に対応する音声広告が広告選択部422によって選択される。
【0045】
あるいはまた、特定されたユーザID「B102」に対応するアカウントの属性が「大人、男性、既婚」であったなら、広告選択部422はまずその属性に対応する「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」、「火災保険ならXYZ火災海上保険にお任せを」、「すぐくるZZZタクシー配車サービス」、「出雲大社に旅行に行きたい?それならABC旅行社に相談だ」の四つの音声広告を候補として選択する。さらに広告選択部422は、コンテンツ取得部420によって取得された「今朝6時頃、A県B市で火事があり、…」に対応するキーワード「A県、B市、火事」を音声コンテンツ保持部402から取得する。広告選択部422は、選択した四つの候補のうち、取得したキーワード「A県、B市、火事」に対応するキーワード「火事、火災、保険」を有する「火災保険ならXYZ火災海上保険にお任せを」という音声広告の音声データを選択する。このように、(3)の基準で候補を選択し、(1)の基準で絞り込む、という形での(1)の基準と(3)の基準との組み合わせも可能である。
【0046】
例えば、スマートスピーカ10とユーザとの間で
(ユーザ)「何か甲村太郎の歌が聴きたい」
(スマートスピーカ10)「クリスマスソングなどいかがでしょうか?」
(ユーザ)「じゃあ、それで」
という対話が行われているとする。「何か甲村太郎の歌が聴きたい」という音楽コンテンツの配信要求に対して、コンテンツ取得部420によって甲村太郎のクリスマスソングの音声データが取得される。管理サーバ4は、スマートスピーカ10を介してユーザに、クリスマスソングでよいか問い合わせる。管理サーバ4は、ユーザの「じゃあ、それで」という肯定の応答を受けると、取得した甲村太郎のクリスマスソングの音声データに音声広告を付してスマートスピーカ10に送信する。ここで、広告選択部422はコンテンツ取得部420によって取得された甲村太郎のクリスマスソングに対応するキーワード「甲村太郎(作詞作曲)、乙アニメ(主題歌)、丙映画(挿入歌)、クリスマスソング、指輪」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「甲村太郎(作詞作曲)、乙アニメ(主題歌)、丙映画(挿入歌)、クリスマスソング、指輪」に対応するキーワードを有する「乙アニメ、金曜午後6時から、放送中!」(キーワード:「乙アニメ、金曜、午後6時」)および「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」(キーワード:「クリスマス、プレゼント、指輪」)の二つの音声広告を候補として選択する。さらに広告選択部422は、声紋認証により認証されたユーザのユーザID「A101」に対応するアカウントの属性「大人、男性、既婚」をユーザ情報保持部408から取得する。広告選択部422は、選択した二つの候補のうち、取得した属性「大人、男性、既婚」に対応する属性「大人」を有する「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」という音声広告の音声データを選択する。また、声紋認証により認証されたユーザのユーザIDが「A105」であったなら、広告選択部422は、選択した二つの候補のうち、取得した属性「子供、女性、独身」に対応する属性「女性、子供」を有する「乙アニメ、金曜午後6時から、放送中!」という音声広告の音声データを選択する。このように、(1)の基準で候補を選択し、(3)の基準で絞り込む、という形での(1)の基準と(3)の基準との組み合わせも可能である。
【0047】
また、(1)の基準と(2)の基準との組み合わせや(2)の基準と(3)の基準との組み合わせや(1)、(2)、(3)の三つの基準の組み合わせも可能である。
あるいはまた、(1)、(2)、(3)の基準以外にも、スマートスピーカ10が集音したスマートスピーカ10の周囲の物音やユーザ同士の会話に基づいて音声広告が選択されてもよい。例えば、ユーザと他のユーザとの間で交わされた「ティッシュペーパーがないね」、「そうだね、ECサイトで頼もうか」という会話をスマートスピーカ10が拾っていた場合、広告選択部422はその会話内容から「ティッシュペーパー」というキーワードを抽出し、抽出された「ティッシュペーパー」を宣伝する音声広告を選択してもよい。また、例えば、犬や猫の鳴き声をスマートスピーカ10が拾っていた場合、広告選択部422はその鳴き声から「犬、猫」というキーワードを特定し、特定された「犬、猫」に関連するドッグフードやキャットフードを宣伝する音声広告を選択してもよい。
【0048】
広告調整部424は、広告選択部422によって選択された音声広告の長さを調整するか否かを判定する。広告調整部424は、調整すると判定された場合、選択された音声広告に所定の抽出アルゴリズムを適用することにより該音声広告から一部分(例えば、比較的重要な部分)を抽出する。広告調整部424は音声広告の長さを調整するか否かを、コンテンツ取得部420によって取得された音声コンテンツの内容および/またはスマートスピーカ10とユーザとの現在の対話セッションの状態に基づいて判定してもよい。
【0049】
例えば、広告調整部424はセッション情報保持部410を参照し、選択された音声広告に対応するセッションの状態が「会話中」である場合は調整すると判定し、「発話待ち」であれば調整しないと判定してもよい。あるいはまた、広告調整部424は、コンテンツ取得部420によって取得された音声コンテンツの内容に基づいて音声広告の長さを決定してもよい。例えば、広告調整部424は音声コンテンツの再生時間に合わせて音声広告の長さを決めてもよい。比較的長い音声コンテンツについては音声広告を複数回再生するようにしてもよい。また例えば、広告調整部424は音声コンテンツがニュースや天気予報などの情報コンテンツである場合、ユーザはより早く所望の情報を得たいと考えている蓋然性が高いので、調整すると判定してもよい。
【0050】
音声広告のうち人が話している部分、人が大きな音で話している部分、背景音が段々と大きくなる部分などを重要部分として抽出する技術が知られており、ハードディスク録画機等で用いられている。所定の抽出アルゴリズムは、この公知の技術を用いて構成されてもよい。なお、広告調整部424は音声広告の長さに加えてまたは代えて、音声広告の音量を調整してもよい。
【0051】
送信情報生成部426は、コンテンツ取得部420によって取得された音声コンテンツと、広告選択部422によって選択された音声広告と、を合わせてひとつの送信情報を生成する。広告調整部424により音声広告の長さが調整されている場合は、広告選択部422によって選択された音声広告の代わりに、広告調整部424によって長さが調整された音声広告が用いられる。送信情報生成部426は、送信情報がスマートスピーカ10によって受信され再生されたときに、音声広告の再生が音声コンテンツの再生よりも時間的に前となるように、送信情報を構成する。例えば、送信情報がヘッダと音声コンテンツと音声広告とを含む場合、送信情報生成部426はヘッダ、音声広告、音声コンテンツの順に並ぶよう送信情報を生成してもよい。
【0052】
送信部428は、送信情報生成部426によって生成された送信情報をスマートスピーカ10に、ネットワーク6を介して送信する。スマートスピーカ10は、ネットワーク6を介して送信情報を受信すると、送信情報に含まれる音声広告をまず再生した後に、送信情報に含まれる音声コンテンツを再生する。あるいはまた、後述のタイミング制御部430がネットワーク6を介してスマートスピーカ10からの音声の出力を制御してもよい。この場合、タイミング制御部430は、スマートスピーカ10にまず送信情報に含まれる音声広告を出力させ、次いで送信情報に含まれる音声コンテンツを出力させる。いずれにせよ、音声広告と音声コンテンツとは連続的に再生される。すなわち、音声広告と音声コンテンツとの間に他の音声は存在しない。特に、音声広告は音声コンテンツの直前に再生される。
【0053】
あるいはまた、音声広告は音声コンテンツの途中に埋め込まれてもよいし、音声コンテンツが出力された後に音声広告が出力されてもよい。
【0054】
タイミング制御部430は、ネットワーク6を介してスマートスピーカ10と通信し、スマートスピーカ10からの音声出力のタイミングを制御する。タイミング制御部430はセッション情報保持部410を参照し、スマートスピーカ10の周囲にユーザが存在するか否かを判定する。タイミング制御部430は、スマートスピーカ10とユーザとの対話セッションのセッションIDがセッション情報保持部410に保持されている場合、スマートスピーカ10の周囲にユーザが存在すると判定する、またはユーザの存在を検知する。タイミング制御部430は、そのようなセッションIDがセッション情報保持部410に保持されていない場合、スマートスピーカ10の周囲にユーザが存在しないと判定する。
【0055】
タイミング制御部430は、スマートスピーカ10の周囲においてユーザの存在が検知されない場合、または、セッション情報保持部410に保持されているスマートスピーカ10とユーザとの対話セッションの状態が「発話中」あるいは「会話中」となっている場合、スマートスピーカ10からの音声広告の出力を制限する。タイミング制御部430は、ユーザの存在が検知されると、スマートスピーカ10からの音声広告の出力を許可する。タイミング制御部430は、対話セッションの状態が「発話待ち」に変更されると、スマートスピーカ10からの音声広告の出力を許可する。
【0056】
タイミング制御部430は、スマートスピーカ10に関連付けられたTV12の出力と、スマートスピーカ10から出力される音声広告とが連携するように、該音声広告の出力のタイミングを制御する。例えば、タイミング制御部430は、TV12から「続きはスピーカで!」という広告が流れ終わったタイミングで、スマートスピーカ10から「テレビで紹介したこの商品は…」という音声広告の出力が開始されるよう、スマートスピーカ10を制御する。この場合、タイミング制御部430は、TV12からネットワーク6を介して現在放映されているチャネルの番号を取得する。タイミング制御部430は予め放映のスケジュールを他のサービスのサーバから取得しておく。タイミング制御部430は、取得されたチャネルの番号と、放映のスケジュールと、から、TV12で流される広告の内容と、開始タイミングと、終了タイミングとを特定することができる。タイミング制御部430は、特定された内容に関連する音声広告を音声広告保持部404から選択し、スマートスピーカ10に送信する(音声コンテンツに付随してもしなくてもよい)。タイミング制御部430は、送信した音声広告の出力を、TV12で流される広告の終了タイミングで開始するようスマートスピーカ10を制御する。
【0057】
属性更新部432は、スマートスピーカ10で収集した音声情報でユーザのアカウントの属性を更新する。例えば
図8のユーザ情報保持部408に示されるアカウントIDが検索サービスのアカウントのものである場合、検索サービスのサイトを訪問したユーザにこのアカウントIDが付与される。このユーザがどのようなものを検索しているかという情報からこのユーザのアカウントの属性が導出され、
図8のユーザ情報保持部408の属性として登録される。
【0058】
一方、管理サーバ4では、スマートスピーカ10とユーザとの対話の内容、および、ユーザと他のユーザとの会話の内容を解析することで、ユーザの嗜好を把握することができる。属性更新部432は、このようにスマートスピーカ10を介して把握された嗜好で、ユーザ情報保持部408の属性を更新する。属性更新部432は、更新内容をアカウントIDに関連付けて検索サービスのサーバに提供してもよい。これにより、検索サービスは、これまで検索サービスでは得られなかったユーザの嗜好を得ることができ、このようにして得た嗜好を用いてブラウザの広告出力を最適化することができる。なお、スマートスピーカ10を介して得られるユーザの嗜好、属性と、検索サービスにより把握される嗜好、属性とは、それぞれを識別可能に保持されてもよい。これにより、片方の嗜好、属性のみを用いて音声広告を選択する場合にも対応できるようになる。
【0059】
また、属性更新部432は、スマートスピーカ10から音声広告が出力されたとき、ユーザから興味無しの直接又は間接の表現をスマートスピーカ10を介して受信したか否か判定する。属性更新部432は、受信した場合、対応する出力されていた音声広告の広告IDを、ユーザのユーザIDに対応付けてNG広告IDとしてユーザ情報保持部408に登録する。広告選択部422は、音声広告を選択する際、ユーザ情報保持部408を参照し、認証されたユーザのユーザIDに対応して保持されるNG広告IDで特定される音声広告を選択の対象から除く。広告選択部422は、NG広告IDで特定される音声広告の後継の音声広告を選択の対象から除いてもよい。広告選択部422は、NG広告IDで特定される音声広告の属性やキーワードに対応するまたはそれと同じ属性やキーワードを有する音声広告を選択の対象から除いてもよい。
【0060】
以上の構成による管理サーバ4の動作を説明する。
図10は、
図1の管理サーバ4における一連の処理の流れを示すフローチャートである。管理サーバ4は、ネットワーク6を介してスマートスピーカ10から、音声コンテンツの配信要求を表す音声信号を受け付ける(S302)。管理サーバ4は、受け付けた音声信号に対して音声認識処理を行う(S304)ことで、要求されている音声コンテンツを特定する。管理サーバ4は、要求されている音声コンテンツを音声コンテンツ保持部402または外部から取得する(S306)。管理サーバ4は、音声広告保持部404から音声広告を選択する(S308)。管理サーバ4は、選択された音声広告の長さの調整が必要か否かを判定する(S310)。必要と判定された場合(S310のYES)、管理サーバ4は音声広告の長さを調整する(S312)。管理サーバ4は、ステップS306で取得された音声コンテンツと、ステップS308で選択された音声広告(ステップS310でNOの場合)またはステップS312で長さが調整された音声広告(ステップS310でYESの場合)と、に基づいて送信情報を生成する(S314)。管理サーバ4は、生成された送信情報をスマートスピーカ10にネットワーク6を介して送信する(S316)。管理サーバ4は、現在が音声広告を出力するのに適したタイミングであるか否かを判定する(S318)。適したタイミングである場合(S318のYES)、管理サーバ4はまずスマートスピーカ10に音声広告を出力させ(S320)、続いて音声コンテンツを出力させる(S322)。
【0061】
上述の実施の形態において、保持部の例は、ハードディスクや半導体メモリである。また、本明細書の記載に基づき、各部を、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶する半導体メモリなどにより実現できることは本明細書に触れた当業者には理解される。
【0062】
本実施の形態に係る管理サーバ4によると、スマートスピーカ10での音声コンテンツの再生に合わせて音声広告が再生される。これにより、音声コンテンツの配信に合わせた音声広告の提供が可能となる。また、本実施の形態では、音声コンテンツの再生の前に音声広告が再生される。この場合の音声広告をユーザに聞いてもらえる蓋然性は、音声コンテンツの再生の後に音声広告を再生する場合よりも高い。したがって、より効果的な広告の提供が可能となる。
【0063】
また、本実施の形態に係る管理サーバ4では、音声広告は音声コンテンツの内容やスマートスピーカ10を介して得られた音声情報や認証ユーザのアカウントの属性に基づいて選択される。このように選択される音声広告は、ユーザの嗜好や要望に沿うものである蓋然性が高い。したがって、ユーザへの訴求力がより高い音声広告を提供することができる。
【0064】
また、本実施の形態に係る管理サーバ4では、スマートスピーカ10からの音声広告の出力のタイミングが適宜制御される。したがって、ユーザの会話や発話の邪魔とならないような音声広告の出力が可能となる。または、TV12などの他の電子機器と連携した音声広告の提供が可能となる。
【0065】
本実施の形態において、周囲の物音やユーザ同士の会話をスマートスピーカ10が取得できることに関連して、管理サーバ4は、音声コンテキストを理解することで児童虐待が行われているか否かを判定してもよい。管理サーバ4は、自動虐待に関する音声データを編集し、所定の捜査機関に提供してもよい。捜査機関は全体の音声データを聞くことができる。
【0066】
本実施の形態において、ユーザ認証部416による声紋認証によりユーザIDが特定され、ユーザ情報保持部408を参照することでこのユーザIDに対応する属性が特定される。この場合、管理サーバ4は、ユーザの属性に応じて音声コンテンツまたは音声広告の出力の態様を変更してもよい。例えば、ユーザの属性が子供である場合、管理サーバ4は、音声コンテンツまたは音声広告において、なるべく簡単な言葉を用い、汚い言葉は削除または言い換えてもよい。あるいはまた、ユーザの属性が老人である場合、管理サーバ4は、音声コンテンツまたは音声広告において、音量を大きくし、または発音をより明瞭化してもよい。
【0067】
本実施の形態では、ユーザ認証部416によりユーザが認証される場合について説明したが、これに限られず、ユーザ認証はなくてもよい。この場合、音声広告の選択にユーザの属性は反映されない。ここで、本実施の形態ではS320で音声広告を出力する動作を説明したが、この音声広告の出力に加え、この出力状況を管理サーバ4で記憶することもできる。出力状況の例としては、「対象広告を最後まで再生した」、「対象広告は途中で停止された」、「対象広告の再生に加え、広告が対象とする製品に関して追加情報を出力した」などである。「対象広告を最後まで再生した」はスマートスピーカ10が対象の音声データを最後まで出力した場合にその旨を管理サーバ4に報告することで実現することができる。また、途中での停止、追加情報の出力は共に、管理サーバ4が制御するものであるから当然に管理することができる。
【0068】
本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目1)
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して配信要求を受け付ける機能と、
受け付けた配信要求に応じて、画像を伴わない音声コンテンツを取得する機能と、
画像を伴わない音声広告を音声広告保持手段から選択する機能と、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する機能と、をサーバに実現させるためのコンピュータプログラム。
(項目2)
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して配信要求を受け付けることと、
受け付けた配信要求に応じて、画像を伴わない音声コンテンツを取得することと、
画像を伴わない音声広告を音声広告保持手段から選択することと、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信することと、を含む方法。
【0069】
(第2の実施の形態)
第2の実施の形態では、ある現実の空間内に複数のスマートスピーカが異なる位置に配置されており、そのそれぞれが第1の実施の形態の管理サーバ4と同様の管理サーバとネットワークを介して接続される。
【0070】
図11は、ユーザ204の部屋202の模式的な上面図である。この部屋202の中には固定の第1スマートスピーカ208と、固定の第2スマートスピーカ210と、固定の第3スマートスピーカ212と、固定の第4スマートスピーカ214と、可動の第5スマートスピーカ216と、TV206と、が配置されている。各スマートスピーカは管理サーバとネットワークを介して通信する。なお、
図11では五つのスマートスピーカが示されているが、スマートスピーカの数に制限はない。各スマートスピーカは部屋202の壁や床や天井に設置されてもよい。
【0071】
(1)スマートスピーカの位置の自動決定
管理サーバは各スマートスピーカの部屋202における位置を記録、管理している。この位置は、ユーザ204が管理サーバ4に登録してもよい。あるいはまた、管理サーバは、五つのスマートスピーカのマイクロフォンおよびスピーカを用いて、各スマートスピーカの位置を自動的に決定してもよい。
【0072】
管理サーバは、あるスマートスピーカが出力する音声を他のスマートスピーカ10が検出することによりスマートスピーカ間の相対位置を決定する。例えば、第2スマートスピーカ210、第3スマートスピーカ212、第4スマートスピーカ214の位置が知られおり、第1スマートスピーカ208の位置を決定する場合、管理サーバは、第1スマートスピーカ208のスピーカに所定波長の音のパルスを出力させる。管理サーバは、第2スマートスピーカ210、第3スマートスピーカ212、第4スマートスピーカ214それぞれから、所定波長の音のパルスを受けた時刻を取得する。管理サーバは、取得した時刻からパルスの伝搬時間を算出し、算出された伝搬時間と音速とから距離を算出する。管理サーバは、算出された各距離と、第2、第3および第4スマートスピーカ210、212、214の既知の位置と、から第1スマートスピーカ208の位置を算出する。
【0073】
第5スマートスピーカ216は、例えばロボットに装着されたスマートスピーカであり、自ら動くことができる。第1、第2、第3および第4スマートスピーカ208、210、212、214の位置が既知の場合、管理サーバは、上記の位置算出処理により第5スマートスピーカ216の位置を追跡することができる。また、第5スマートスピーカ216は、自分の位置を基準にして他のスマートスピーカの位置を決める場合、そのスマートスピーカが発する音を受け易い位置に移動してもよい。
【0074】
図11に示されるシステムの構成要素としては、マイクロフォンおよびスピーカの両方が搭載されているスマートスピーカやスマートフォンが望ましいが、一般にスピーカしかないテレビやラジオ、その他の電気機器でも、スピーカはあるため音声再生の支援は行うことができる。また、通信機能を備えた電気機器もある。これにより、複数の位置からのスピーカ出力が可能となる。電気機器を配置する位置はユーザが管理サーバに設定することで通知してもよいし、上述の位置算出処理により、あるいは無線通信の電波により管理サーバが自動的に決定してもよい。
【0075】
(2)可動スマートスピーカの用途
音声出力において、スピーカの位置によって対象のユーザへの聞こえ方が変わる場合がある。したがって、管理サーバは、より適切に音が聞こえる位置に第5スマートスピーカ216を移動させる制御を行ってもよい。
【0076】
また、TV206などは一般にマイクロフォン機能を備えておらず、したがってこのままでは上記の位置算出処理に参加することはできない。しかしながら、第5スマートスピーカ216がTV206の位置まで移動し、TV206のマイクロフォン機能を代行することにより、TV206も位置算出処理に参加することができるようになる。
【0077】
(3)ユーザの位置に応じた音声出力
各スマートスピーカの位置が既知の場合、ユーザ204の位置が分かれば、ユーザ204に最も近いスマートスピーカを特定することができる。ユーザ204が「テレビをつけて」などの音声出力要求を発話すると、五つのスマートスピーカがその発話を音声信号に変換し、管理サーバに送信する。管理サーバは音声信号に音声認識処理を施し、ユーザ204の音声出力要求を理解する。管理サーバは、ユーザ204の部屋202における位置に対応するスマートスピーカを特定する。特に管理サーバは、ユーザ204の位置に最も近い第2スマートスピーカ210を特定する。このとき管理サーバは、各スマートスピーカのマイクロフォンがユーザの発話を受けたときの音量を比較し、その音量が最も大きい第2スマートスピーカ210をユーザ204の位置に最も近いスマートスピーカとして特定する。あるいはまた、ユーザ204がスマートフォンを用いている場合は、管理サーバはスマートフォンの現在位置を取得することによりユーザ204の位置を特定することができる。
【0078】
管理サーバは、上記のように特定された第2スマートスピーカ210に、TV206で流される映像に付随する音声を送信する。このようにすることで、ユーザ204は自分に一番近い第2スマートスピーカ210からTV206の音声出力を受けることができる。
【0079】
あるいはまた、スマートスピーカのスピーカが指向性を有する場合、管理サーバは指向性を制御してもよい。例えば、第1、第2、第3および第4スマートスピーカ208、210、212、214のスピーカが出力の指向性を有する場合、管理サーバは、各スピーカの音声出力がユーザ204の位置に向くよう各スマートスピーカを制御する。管理サーバは、各スマートスピーカにTV206で流される映像に付随する音声を送信する。この場合、各スマートスピーカは音声をユーザ204に向けて出力する。
【0080】
なお、指向性を有するスマートスピーカは、現在の音声出力の向きを視認可能な態様でユーザに示してもよい。例えば、スマートスピーカの上面に指向性を示す矢印をLED等で表示してもよい。
【0081】
この例によると、例えばスマートスピーカに対してコンテンツ再生を指示したユーザとそれ以外のユーザとが部屋202の中にいる場合に、その指示したユーザを対象として音声を出力することができる。ユーザごとにサーバプロセスを割り当てる構成をとることで、第1のユーザの位置に向くよう第1のスマートスピーカを制御し、第2のユーザの位置に向くよう第2のスマートスピーカを制御して、第1のスマートスピーカと第2のスマートスピーカとが同時に音声を出力するようにしてもよい。ひとつのスマートスピーカにおいて音声出力装置を複数備え、サーバにおいてユーザごとにサーバプロセスを割り当てる構成をとることで、ひとつのスマートスピーカを制御して、第1のユーザの位置に向く音声と、第2のユーザの位置に向く音声とを同時に出力するようにしてもよい。
【0082】
本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目3)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカを備えるシステムであって、
あるスピーカが出力する音声を他のスピーカが検出することによりスピーカ間の相対位置を決定するよう構成されるシステム。
(項目4)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカとネットワークを介して通信するサーバであって、前記複数のスピーカは同じ現実空間内の異なる位置に配置されており、
前記サーバは、
前記複数のスピーカのうちのいずれかを介して前記現実空間内のユーザから音声出力要求を受け付ける手段と、
前記ユーザの位置に対応するスピーカを特定する手段と、
特定されたスピーカに音声コンテンツを送信する手段と、を備えるサーバ。
(項目5)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカとネットワークを介して通信するサーバであって、前記複数のスピーカは同じ現実空間内の異なる位置に配置されており、
前記サーバは、
前記複数のスピーカのうちのいずれかを介して前記現実空間内のユーザから音声出力要求を受け付ける手段と、
前記ユーザの位置に向けて音声が出力されるよう、前記複数のスピーカのうちの少なくともひとつの指向性を制御する手段と、を備えるサーバ。
【0083】
(第3の実施の形態)
図12は、第3の実施の形態に係る音声操作システム232の構成を示す模式図である。音声操作システム232は、管理サーバ234と、スマートスピーカ240と、TV242と、スマートフォン248と、を備える。管理サーバ234とスマートスピーカ240とTV242とスマートフォン248とはインターネットなどのネットワーク236を介して通信可能に接続されている。スマートスピーカ240およびTV242はいずれも、ユーザ238の部屋244に設置されている。スマートスピーカ240はスマートフォン248とP2P通信246が可能に構成される。
【0084】
TV242を音声で操作する場合、ユーザ238は、「テレビをつけて」等の操作指示を表す文をスマートスピーカ240に向けて発話する。スマートスピーカ240のマイクロフォンはユーザ238が発話した音声を電気信号に変換し、スマートスピーカ240は変換の結果得られた電気信号を音声信号として、ネットワーク236を介して管理サーバ234に送信する。管理サーバ234は受信した音声信号に対して音声認識処理を行うことでユーザ238がTV242の電源を入れることを要求していると理解する。管理サーバ234は、要求された操作を実現するための、すなわちTV242の電源を入れるための指示信号を生成し、ネットワーク236を介してTV242に送信する。TV242はネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。
【0085】
このように、スマートスピーカ10を介した制御、操作は基本的に音声により行われる。しかしながら、部屋244にユーザ238以外のユーザがいる場合、音声での制御を嫌がるユーザ238もいる。また、ユーザ238だけが部屋244にいる場合でも、制御内容によっては音声での制御を避けたい場合もある。その場合に、音声操作システム232は、スマートフォン248を介して、スマートスピーカ240のシステム側(管理サーバ234)に対してテキストでの制御を行うことを可能としている。
【0086】
スマートフォン248での操作を可能とするために、スマートフォン248は、管理サーバ234専用のアプリケーションをダウンロードしてインストールする。スマートフォン248でそのアプリケーションが起動されると、そのアプリケーションは、P2P通信246やローカルネットワークを介してスマートスピーカ240から管理サーバ234のURLを取得する。アプリケーションは、取得したURLを用いて管理サーバ234との接続を確立する。スマートフォン248と管理サーバ234との間の接続が確立されると、スマートフォン248に入力された操作内容がその接続を通じて管理サーバ234に送信される。管理サーバ234は受信した操作内容を実現するよう指示信号を生成して送信する。
【0087】
例えば、管理サーバ234は、「テレビをつけて」というテキスト文字列をスマートフォン248から受信すると、受信したテキスト文字列を解析することでユーザ238がTV242の電源を入れることを要求していると理解する。管理サーバ234は、要求された操作を実現するための、すなわちTV242の電源を入れるための指示信号を生成し、ネットワーク236を介してTV242に送信する。TV242はネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。
【0088】
本実施の形態に係る音声操作システム232によると、ユーザ238は、状況に応じて音声による操作とスマートフォン248を介した操作とを使い分けることができる。
【0089】
本実施の形態では、管理サーバ234がスマートスピーカ240またはスマートフォン248を介してユーザ238から操作指示を受け付ける場合を説明したが、これに限られず、例えば第1の実施の形態のように管理サーバ234がスマートスピーカ240またはスマートフォン248を介してユーザ238から音声コンテンツの配信要求を受け付けてもよい。
【0090】
本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目6)
マイクロフォンおよび通信機能を有するスピーカとネットワークを介して通信するサーバであって、
前記スピーカのマイクロフォンを介してユーザから受け付けた要求を処理する手段と、
前記スピーカと通信する他の電子機器を介して前記ユーザから受け付けた要求を処理する手段と、を備えるサーバ。
【0091】
(第4の実施の形態)
第4の実施の形態は、管理サーバにおけるレイヤ分けに関する。本実施の形態では、話者別にサーバプロセス(またはサーバ)を変える。声紋認証により誰が話しているかをサーバは認識することができる。対象のユーザが通常使用しているサーバプロセス(またはサーバ)が処理を行う。
【0092】
図13は、第4の実施の形態に係る音声操作システム252の構成を示す模式図である。音声操作システム252は、管理サーバ254と、スマートスピーカ260と、TV262と、を備える。管理サーバ254とスマートスピーカ260とTV262とはインターネットなどのネットワーク256を介して通信可能に接続されている。スマートスピーカ260およびTV262はいずれも部屋264に設置されており、部屋264には三人のユーザ(第1ユーザ266、第2ユーザ268、第3ユーザ270)がいる。
【0093】
TV262を音声で操作する場合、第1ユーザ266は、「テレビをつけて」等の操作指示を表す文をスマートスピーカ260に向けて発話する。スマートスピーカ260のマイクロフォンは第1ユーザ266が発話した音声を電気信号に変換し、スマートスピーカ260は変換の結果得られた電気信号を音声信号として、ネットワーク256を介して管理サーバ254に送信する。管理サーバ254は受信した音声信号に対して声紋認証を行い、第1ユーザ266を特定する。管理サーバ254は、特定された第1ユーザ266に対応するサーバプロセスを選択し、選択されたサーバプロセスが以降の要求の処理を行う。TV262は、管理サーバ254の選択されたサーバプロセスからネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。管理サーバ254において、第1ユーザ266とは異なる第2ユーザ268や第3ユーザ270の発話に対して、第1ユーザ266に対応するサーバプロセスとは異なるサーバプロセスが割り当てられる。
【0094】
図14は、
図13の管理サーバ254の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
【0095】
管理サーバ254は、ユーザ情報保持部272と、音声信号受付部274と、ユーザ認証部276と、サーバプロセス群278と、を備える。サーバプロセス群278は、それぞれが特定のユーザに割り当てられた複数のサーバプロセスSP1、SP2、SP3、…を含む。以下では、ユーザごとにサーバプロセスが異なる場合を説明するが、他の実施の形態では、ユーザごとにサーバそのものを異ならせてもよい。サーバが異なれば当然サーバプロセスも異なることとなる。
【0096】
図15は、
図14のユーザ情報保持部272の一例を示すデータ構造図である。ユーザ情報保持部272は、ユーザIDと、ユーザの声紋のデータと、ユーザに割り当てられたサーバプロセスのIDと、を対応付けて保持する。
【0097】
図14に戻り、音声信号受付部274は、スマートスピーカ260からネットワーク256を介して、三人のユーザ266、268、270のうちのいずれかの発話内容を表す音声信号を受け付ける。
【0098】
ユーザ認証部276は、音声信号受付部274が受け付けた音声信号から声紋を抽出または取得する。ユーザ認証部276は、抽出された声紋に基づく声紋認証を行う。ユーザ認証部276はユーザ情報保持部272を参照し、ユーザ情報保持部272に保持されている声紋のなかに抽出された声紋と一致する声紋があるか否かを判定する。ユーザ認証部276は、一致する声紋があればその声紋に対応するユーザIDおよびサーバプロセスIDを特定する。ユーザ認証部276は、一致する声紋がなければ、一致なしまたはユーザ不明を表す出力を生成する。
【0099】
ユーザ認証部276でサーバプロセスIDが特定されると、サーバプロセス群278に含まれるサーバプロセスのうち、特定されたサーバプロセスIDを有するサーバプロセスが起動する。起動したサーバプロセスは、音声信号受付部274が受け付けた音声信号に対する以降の処理を行う。
【0100】
サーバプロセス群278に含まれる各サーバプロセスは、第3の実施の形態で説明したような電子機器の操作機能を実現する。他の実施の形態では、サーバプロセスは、例えば第1の実施の形態で説明したような音声コンテンツの配信機能を実現してもよい。
【0101】
例えば、第1ユーザ266が部屋264に住む住人である場合、第1ユーザ266のサーバプロセスにはTV262を制御する権限が付与されている。第2ユーザ268および第3ユーザ270が第1ユーザ266の部屋264に遊びに来た来訪者である場合、それらのユーザのサーバプロセスには、TV262を制御する権限は付与されない。したがって、第2ユーザ268または第3ユーザ270がTV262を音声操作する場合、第2ユーザ268または第3ユーザ270のサーバプロセスが第1ユーザ266のサーバプロセスに、TV262の操作依頼を送信する。捜査依頼を受けたサーバプロセスは、第1ユーザ266に対してその操作を行ってよいかを問い合わせ、第1ユーザ266から同意を得ることができれば対象の操作を実行する。
【0102】
あるいはまた、スマートスピーカ260の所有者である第1ユーザ266が、ゲスト(来訪者)である第2ユーザ268および第3ユーザ270に対して権限を設定してもよい。例えば、スマートスピーカ260を介した電灯の制御を可能としつつ、スマートスピーカ260を介したECサイトでの購入は不可としてもよい。
【0103】
本実施の形態に係る音声操作システム252によると、ユーザごとにサーバプロセスを割り当てることで、ユーザごとに実行可能な操作やアクセス可能な情報や権限などを異ならせることができる。
【0104】
本実施の形態では、管理サーバ254が複数のサーバプロセスを有し、管理サーバ254が音声信号を受けて声紋認証し、用いるサーバプロセスを特定する場合について説明したが、これに限られない。例えば、複数のサーバが存在する場合に、スマートスピーカ260からの音声信号を全てのサーバに送信し、各サーバで声紋認証を行ってもよい。あるいはまた、いずれか一人のユーザのサーバ若しくはサーバプロセス、又は、いずれか一つのサーバ若しくはサーバプロセスが音声信号を受け、対象のユーザの音声信号のみを抽出し、対象のサーバ若しくはサーバプロセスに転送してもよい。
【0105】
本実施の形態では、操作指示を出す第1ユーザ266と操作対象のTV262とが同じ部屋264にある場合について説明したが、これに限られず、操作対象の電子機器の遠隔操作を可能としてもよい。例えば、第2ユーザ268が第1ユーザ266の部屋264に遊びに来ているときに、第2ユーザ268が自分の部屋(部屋264とは異なる)のエアコンを起動したいと思ったとする。第2ユーザ268は「私の部屋のエアコンをつけて」という操作指示を表す文をスマートスピーカ260に向けて発話する。管理サーバ254は声紋認証および音声認識により第2ユーザ268の要求を理解する。管理サーバ254は、第2ユーザ268の部屋のスマートスピーカと接続されている別の管理サーバに、第2ユーザ268の要求を転送する。この際、認証データとして音声信号を添付する。
【0106】
本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目7)
マイクロフォンおよび通信機能を有するスピーカとネットワークを介して通信するサーバであって、
前記スピーカのマイクロフォンを介して取得された音声信号を解析することで話者を特定する手段と、
特定された話者に割り当てられたサーバプロセスを用いて、前記音声信号に係る処理を行う手段と、を備えるサーバ。
【0107】
なお、前記各実施の形態において、スマートスピーカに加え、ネットワークに接続したテレビ又はコンピュータと連携する動作も説明したが、スマートスピーカで音声広告を出力した後に、ユーザの音声制御に応じて追加の情報を前記テレビ又はコンピュータに表示することもできる。この時に管理サーバ4が前記テレビ又はコンピュータに表示すべきURLを送信することで実現されるが、このURLのパラメータの中にスマートスピーカ又は管理サーバ4により追加の情報リクエストがなされたことを示す情報を追加することもできる。これにより、リクエスト先のシステム側で管理サーバ4又はスマートスピーカを用いたリクエストであることを把握することができる。ここで、送信方法の一例として、URLのパラメータを用いたが、他の方法にて通知してもよい。
【0108】
以上、実施の形態に係るシステムの構成と動作について説明した。これらの実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。実施の形態同士の組み合わせも可能である。
【符号の説明】
【0109】
2 音声広告配信システム、 4 管理サーバ、 6 ネットワーク、 8 ユーザ、 10 スマートスピーカ。