(58)【調査した分野】(Int.Cl.,DB名)
前記制御部は、前記利用者が存在する環境の環境音が所定の大きさ以上の場合、前記環境音が所定の大きさ未満の場合よりも、前記特定情報の出力態様の変化度合を小さくする、
請求項14に記載の情報処理システム。
前記制御部は、前記利用者による音声が入力または出力の対象とされたユーザデバイスの利用度合が高いほど、前記特定情報の出力態様を前記利用者が聞き取りやすいように制御する、
請求項1から15のうちいずれか1項に記載の情報処理システム。
前記制御部は、第1のキャラクターに応じた出力態様によって前記応答内容を出力部に出力させ、且つ第2のキャラクターに応じた出力態様によって前記特定情報を出力部に出力させる、
請求項1から17のうちいずれか1項に記載の情報処理システム。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。
【0010】
<概要(共通事項)>
情報処理システムは、一以上のプロセッサにより実現される。情報処理システムは、利用者により発せられた音声に対する応答内容と、応答内容とは異なる特定情報とを出力部に出力させる。「応答内容」は、例えば、AI(Artificial Intelligence;人工知能)や、深層学習などの機械学習されたモデルにより動作する自動応答装置が決定する情報である。「特定情報」とは、例えば、広告や、挨拶、会話のきっかけとなる発話、お知らせ(例えばレコメンドやパスワード変更の要求)等の、利用者により発せられた音声に対する応答に該当しない情報である。
【0011】
[概要(その1)]
情報処理システムは、音声が入力または出力の対象とされたユーザデバイス(例えば、マイクやスピーカ)の利用度合に応じて、特定情報の出力態様を制御する。「利用度合」とは、例えば、音声をユーザデバイスに入力した回数または頻度に基づく値、または音声をユーザデバイスに出力させた回数または頻度に基づく値である。例えば、ユーザデバイスの利用度合が高いほど、特定情報の出力量を多くする。すなわち、音声入力または出力を普段から多用するユーザには自動応答装置からの話しかけや音声広告を多く出力する。また、ユーザデバイスの利用度合が高いほど、特定情報の出力態様を利用者が聞き取りやすいように制御する。「出力態様」とは、例えば、音の大きさや、音の高低、情報が出力されるテンポである。概要(その1)については、後述する第1実施形態を中心に説明する。
【0012】
[概要(その2)]
情報処理システムは、特定情報の出力態様を、応答内容の第3出力態様よりも利用者が聞き取りにくい第1出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を第2出力態様に変更して、特定情報を出力部に出力させる。「第2出力態様」は、第1出力態様よりも利用者が聞き取りやすい出力態様である。すなわち、自動応答装置との対話において特定情報(例えば音声広告)のみの音量を小さくし利用者からの要望や操作に応じて音量をアップする。概要(その2)については、後述する第2実施形態を中心に説明する。
【0013】
[概要(その3)]
情報処理システムは、第1のキャラクターに応じた出力態様によって応答内容を出力部に出力させ、第2のキャラクターに応じた出力態様によって特定情報を出力部に出力させる。更に、情報処理システムは、第1のキャラクターと第2のキャラクターとの会話を出力部に出力させる。「第1のキャラクター」は、例えば、日常において、利用者と対話したり、利用者の発話に対して応答したりするキャラクターである。「第2のキャラクター」は、例えば、第1のキャラクターとは異なるキャラクターであって、特定情報(例えば広告)に対応付けられたキャラクターである。このように、利用者と対話する第1のキャラクターと、音声広告に対応した第2のキャラクターとが、会話することで利用者の広告に対する興味を喚起させる。概要(その3)については、後述する第3実施形態を中心に説明する。
【0014】
<第1実施形態>
[全体構成]
図1は、情報処理システム1の構成を示す図である。情報処理システム1は、例えば、端末装置10と、自動応答装置40と、広告提供装置80とを備える。これらの装置は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。本実施形態では、自動応答装置40が、「情報処理システム」の一例である。また、「情報処理システム」は、端末装置10および/または広告提供装置80を含んでもよい。
【0015】
[端末装置の機能構成]
端末装置10は、例えば、スマートスピーカ(Artificial intelligenceスピーカ)や、スマートフォン、タブレット端末、パーソナルコンピュータ等である。第1実施形態では端末装置10は、スマートスピーカであるものとして説明する。
【0016】
端末装置10は、例えば、マイク12と、スピーカ14と、音声認識部16と、音声生成部18と、端末制御部20と、端末装置側通信部22と、記憶部30とを備える。音声認識部16、音声生成部18、および端末制御部20は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサが、フラッシュメモリなどの記憶部30に記憶されたアプリケーションプログラム(アプリ32)を実行することにより実現される。アプリ32は、例えば、ネットワークを介してサーバ装置等からダウンロードされてもよいし、予め端末装置10にプリインストールされていてもよい。なお、アプリケーションプログラムに代えて、以下に説明するものと同様の機能を有するブラウザがUA(User Agent)として用いられてもよい。なお、端末装置10に含まれる一部または全部の機能は、自動応答装置40に含まれてもよい。
【0017】
マイク12は、利用者によって発せられた音声、または端末装置10が存在する環境の環境音を取得する。スピーカは、音声生成部18により生成された情報に応じた音声を出力する。
【0018】
音声認識部16は、マイク12により取得された音声をデジタルデータ(音声データ)に変換する。音声生成部18は、自動応答装置40により送信された情報に基づいて、スピーカ14に出力させる音声に応じた情報を生成する。
【0019】
端末制御部20は、音声認識部16により変換されたデジタルデータを、端末装置側通信部22を用いて、自動応答装置40に送信する。端末制御部20は、自動応答装置40により送信された情報を、端末装置側通信部22を介して取得する。
【0020】
端末装置側通信部22は、例えば、無線通信インターフェースである。端末装置側通信部22は、自動応答装置40により送信された情報を取得したり、端末装置10において処理された処理結果を自動応答装置40に送信したりする。
【0021】
[自動応答装置の機能構成]
自動応答装置40は、例えば、利用者特定部42と、環境解析部43と、パターン特定部44と、解釈部46と、応答部48と、提供制御部50と、学習部52と、応答装置側通信部54と、第1記憶部60と、第2記憶部70とを備える。利用者特定部42、環境解析部43、パターン特定部44、解釈部46、応答部48、提供制御部50、および学習部52は、例えば、CPU等のハードウェアプロセッサが、記憶装置(例えば第1記憶部60)に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が自動応答装置40のドライブ装置に装着されることで記憶装置にインストールされてもよい。第1記憶部60および第2記憶部70は、例えば、ROM(Read Only Memory)、フラッシュメモリ、SDカード、RAM(Random Access Memory)、レジスタ等によって実現される。
【0022】
第1記憶部60には、例えば、後述する、利用者特定情報62、環境特定情報63、環境パターン情報64、正規表現情報66、およびシナリオ情報68が記憶されている。第2記憶部70には、例えば、後述する、出力度合情報72、および利用情報74が記憶されている。第1記憶部60と第2記憶部70は、必ずしも別体の記憶装置により実現される必要はなく、一体の記憶装置における異なる記憶領域であってもよい。
【0023】
利用者特定部42は、例えば、端末装置10により送信された音声データから人の声を表すと推定される音声データの成分(以下、発話成分)を抽出する。利用者特定部42は、抽出した発話成分と、利用者特定情報62に含まれる情報とを照合して、抽出した発話成分により表される音声を発した人物を特定する。利用者特定情報62は、利用者の識別情報と、その利用者の声の特徴を示す情報(例えば、声紋パターンや周波数パターン)が対応付けられた情報である。
【0024】
また、利用者特定部42は、利用者特定情報62を参照し、音声を発した利用者の周辺に存在する人物の種別を特定してもよい。この場合、利用者特定情報62には、予め利用者の家族や友人などの声の特徴を示す情報が含まれている。また、利用者特定部42は、端末装置側通信部22を介して、家族等が保有する端末装置とWi-Fiルーターとの接続状態を示す情報を取得し、取得した情報に基づいて、端末装置の保有者がWi-Fiルーターが設置された位置付近に存在するか否かを判定してもよい。
【0025】
環境解析部43は、例えば、端末装置10により送信された音声データから人の声以外の環境音を表すと推定される音声データの成分(以下、環境音成分)を抽出する。環境解析部43は、抽出した環境音成分と、環境特定情報63に含まれる情報とを照合して、抽出した環境音成分により表される環境音の大きさや、その環境音の発生要因を特定する。環境特定情報63は、環境音の発生要因の識別情報と、環境音の発生要因ごとの音の特徴とが互いに対応付けられた情報である。
【0026】
パターン特定部44は、例えば、環境パターン情報64と、利用者特定部42の処理結果、および環境解析部43の処理結果に基づいて、環境パターンを特定する。環境パターンとは、利用者が存在している環境について、所定の基準に従って分類されたパターンである。詳細は後述する。
【0027】
解釈部46は、例えば、人の声に対応する音声データを、テキスト情報に変換し、更に、テキスト情報と正規表現情報66とを照合して、利用者の発話の意味を解釈する。例えば、利用者により「新宿から渋谷までの行き方を教えて」と発話されたものとする。解釈部46は、上記の発話を形態素解析し、発話を品詞に分割する。そして、解釈部46は、固有名詞かつ場所名に該当する新宿および渋谷を符号に変換した検索キーを生成し、正規表現情報68を検索する。正規表現情報68には、固有名詞を抽象化した符号に変換した情報(正規表現)が登録されている。例えば、「〇〇から××への行き方を教えて」、「〇〇から××までの行き方を教えて」などのテキストが付与された情報が正規表現として登録されている。
【0028】
応答部48は、例えば、正規表現情報68に含まれる「(固有名詞、場所)から(固有名詞、場所)までの行き方を教えて」に対応するテキスト情報を取得し、〇〇から××までの行き方を提供すればよいことを認識する。
【0029】
そして、応答部48は、(固有名詞、場所)の部分に、符号化された元情報である「新宿」および「渋谷」を埋め込むことで、「新宿から渋谷までの行き方を知りたい」という利用者の意思を認識する。応答部48は、ネットワーク検索などを行い、新宿から渋谷までの行き方を取得する。応答部48は、例えば、シナリオ情報68を参照し、新宿から渋谷までの行き方を示す、端末装置10において出力するための音声元情報を生成する。シナリオ情報68は、例えば、利用者の発話に対して応答すべき内容が予め保持されている。すなわち、利用者が「〇〇から××までの行き方を知りたい」という意思を有する発話に対する応答内容が保持されている。シナリオ情報68は、例えば、応答内容が利用者の嗜好等に合致するように利用者ごとに用意されている。
【0030】
なお、上記の応答部48などの自動応答装置40に含まれる一部または全部の機能は、端末装置10に備えられてもよい。また、正規表現情報66やシナリオ情報68などの情報も端末装置10の記憶装置に記憶されていてもよい。
【0031】
提供制御部50は、応答部48により生成された音声元情報を、端末装置10に出力させるために、応答装置側通信部54を用いて、音声元情報を端末装置10に送信する。更に、提供制御部50は、広告提供装置80により送信された音声元情報を端末装置10に出力させるために、応答装置側通信部54を用いて、その音声元情報を端末装置10に送信する。
【0032】
また、提供制御部50は、応答内容または特定情報の出力態様を指定し、指定した出力態様で応答内容または特定情報を端末装置10のスピーカ14に出力させるために、指定した出力態様と応答内容または特定情報とを対応付けた情報を、応答装置側通信部54を用いて端末装置10に送信する。この提供制御部50の機能は、端末装置10に備えられてもよい。
【0033】
学習部52は、端末装置10のスピーカ14に出力させた応答内容または特定情報の内容、出力させた情報の出力態様、利用者の反応、および環境パターンを学習する。学習とは、例えば、人工知能を用いた学習や、深層学習などの機械学習等である。
【0034】
応答装置側通信部54は、ネットワークインターフェースカード(Network Interface Card)等の通信インターフェースを含む。応答装置側通信部54は、端末装置10または広告提供装置80により送信された情報を取得したり、自動応答装置40において処理された処理結果を端末装置10または広告提供装置80に送信したりする。
【0035】
[広告提供装置]
広告提供装置80は、例えば、情報提供部82と、広告提供装置側通信部84と、広告提供装置側記憶部90とを備える。情報提供部82は、利用者の発話により入力された情報、または自動応答装置40の応答内容に基づいて、利用者に提供する広告を抽出し、抽出した広告に関する情報(例えば音声元情報および音声を出力する出力態様)を自動応答装置40に提供する。
【0036】
広告提供装置側通信部84は、ネットワークインターフェースカード等の通信インターフェースを含む。広告提供装置側通信部84は、自動応答装置40により送信された情報を取得したり、広告提供装置80において処理された処理結果を自動応答装置40に送信したりする。広告提供装置側記憶部90には、後述する広告情報92が記憶されている。なお、広告提供装置80と自動応答装置40とは一体の装置として設けられてもよい。
【0037】
[フローチャート(出力度合を決定する処理)]
図2は、情報処理システム1により実行される処理の流れの一例を示すフローチャートである。本処理は、利用者による音声UI(ユーザインタフェース/ユーザデバイス)の利用の量に応じ、人工物からの音声出力の量を制御する処理である。この音声UIは音声認識である。
【0038】
まず、端末装置10は、利用者により音声が入力されたか否かを判定する(S10)。利用者により音声が入力された場合(利用者と自動応答装置40との会話が開始された場合)、入力された音声データ(発話成分および環境音成分)は、自動応答装置40に送信される。
【0039】
自動応答装置40は、発話成分を取得し、取得した発話成分と利用者特定情報62に基づいて、利用者を特定する(S20)。自動応答装置40は、環境音成分を取得し、取得した環境音成分と環境パターン情報64に基づいて、環境パターンを特定する(S22)。
【0040】
図3は、環境パターン情報64の内容の一例を示す図である。環境パターン情報64は、複数の環境パターンと、分類基準とが対応付けられた情報である。環境パターンの分類基準は、例えば、曜日や、時間、利用者の周囲に存在している人物の数、人物の種別、利用者が存在している環境音の大きさ、利用者が存在している環境(自宅、オフィス、街)、利用者が存在している位置、および利用者のスケジュール(事前に登録された現在の予定)等のうち、少なくとも一以上の項目に基づいて、分類されるパターンである。
【0041】
利用者が存在している環境、利用者が存在している位置、または利用者のスケジュールは、例えば予め利用者により設定された情報である。また、利用者が存在している環境、または利用者が存在している位置は、不図示のGPS(Global Positioning System)を利用した位置測位装置により測位された情報に基づいて特定されてもよい。また、利用者のスケジュールは、端末装置10が他の装置からネットワークNWを介して取得した情報であってもよい。
【0042】
次に、自動応答装置40は、特定した利用者に提供する広告の内容を決定するように広告提供装置80に依頼する(S24)。この際、自動応答装置40は、端末装置10に入力された音声に含まれる情報をテキスト情報に変換したテキスト情報を広告提供装置80に送信する。
【0043】
広告提供装置80は、自動応答装置40の依頼に応じて、広告情報92を参照して、テキスト情報に対応する利用者に提供する広告の内容を決定する(S30)。なお、広告提供装置80は、利用者に提供する広告が存在しない場合、その旨を自動応答装置40に送信する。
【0044】
図4は、広告情報92の内容の一例を示す図である。広告情報92は、広告IDに対して、キャラクター、商品(またはサービス)、シナリオ、およびキーワードが対応付けられた情報である。「キャラクター」とは、所定の特徴を有する人物や、人に見立てた動物、植物、創作物、人工物などである。キャラクターは、商品ごとに設けられてもよいし、複数の商品ごとや、キャンペーンごとに設けられてもよい。
【0045】
「シナリオ」とは、キャラクターが発する言葉(または言動)の内容や順序を規定したものである。シナリオは、例えば、キャラクターごとに設けられている。また、広告情報92には、シナリオに加え、音声のトーンや、テンポ等のキャラクターの特徴がキャラクターに対して対応付けられている。商品やキャンペーンごとのキャラクターは、シナリオ(行動ルール)を基に自律的に行動する。
【0046】
「キーワード」は、広告に関連付けられた言葉である。[キーワード]は、商品を示す言葉の意味(意味情報)と同一の意味を有する言葉、または商品を示す言葉の意味に関連する言葉である。関連する言葉とは、商品を示す言葉から一般的に想起される言葉である。例えば、広告提供装置80は、利用者により入力された言葉または自動応答装置40により発せられた音声に含まれる言葉と、広告情報92のキーワードとが合致する場合に、合致するキーワードに対応付けられた広告IDに対応する情報(キャラクターが発話する音声元情報等)を自動応答装置40に送信する。なお、広告提供装置80は、人工知能や、深層学習などの機械学習されたモデルにより利用者に提供する情報を決定してもよい。
【0047】
次に、自動応答装置40は、後述する出力度合情報72を参照して、環境パターンに応じた広告の出力度合を決定し、決定した出力度合で広告を出力するように端末装置10に指示をする(S26)。次に、端末装置10は、自動応答装置40の指示に基づいて、広告を出力する(S12)。これにより本フローチャートの1ルーチンの処理が終了する。
【0048】
図5は、出力度合情報72の内容の一例を示す図である。出力度合情報72は、例えば、環境パターンごとに用意されている。また、出力度合情報72は、利用者IDに対して、環境パターンにおける過去の利用度合および広告を出力する出力度合が対応付けられた情報である。
【0049】
「過去の利用度合」とは、利用者が過去にスピーカ14から音声による情報(例えば広告)の提供を受けた度合、または利用者が過去にマイク12に音声を用いて情報を入力した度合である。「出力度合」とは、スピーカ14を用いて利用者に情報を出力する場合に、出力される音の大きさである。「出力度合」は、「出力態様」の一例である。出力度合は、例えば、過去の利用度合が多いほど、出力される音の大きさは大きくなるように設定されている。なお、「スピーカ14から音声による情報の提供を受けた度合」において、音楽を出力させた度合は除かれてもよい。
【0050】
また、出力度合情報72において、出力度合に代えて、他の出力に関する態様が対応付けられていてもよい。出力に関する態様とは、例えば、音の大きさ加え、音の高低、広告の内容が出力されるテンポ等である。出力に関する態様は、例えば、過去の利用度合が多いほど、利用者が聞き取りやすいように設定されている。
【0051】
また、利用者が存在する環境の環境音が所定の大きさ以上の場合、環境音が所定の大きさ未満の場合よりも、特定情報の出力態様の変化度合を小さくしてもよい。すなわち、もともと環境音が大きい環境においては、特定情報の出力を大きくさせなくてもよい。
【0052】
上述したように、自動応答装置40が、出力度合情報72を参照することにより、利用者に違和感を与えないように情報を提供することができる。
【0053】
なお、上述した説明では、一例として、利用者が音声を入力した場合に、利用度合に基づいて出力態様を制御する例について説明したが、単に自動応答装置40が発話したり、情報を出力したりする場合において利用度合に基づいて出力態様を制御してもよい。
【0054】
[具体例(その1)]
図6は、利用者と自動応答装置40との会話の一例を示す図である。例えば、
図6(A)に示すように、(1)利用者が「新しい車が欲しいな。」とマイク12に入力する。
(2)自動応答装置40は、第1キャラクターの出力態様で、「どんな車が欲しいの?」と応答する。
【0055】
次に、
図6(B)に示すように、(3)利用者が「燃費のいい車がいいな。」とマイク12に入力する。(4)自動応答装置40は、第1キャラクターの出力態様で、「節約できるからいいよね。」と応答する。そして、(5)自動応答装置40は、第2キャラクターの出力態様で、「車Aが燃費いいよ。」と発話する。この第2キャラクターの出力態様は、ユーザデバイスの利用度合に応じた出力態様である。
【0056】
次に、
図6(C)に示すように、(6)利用者が「詳しく教えて。」とマイク12に入力する。(7)自動応答装置40は、第2キャラクターの出力態様で、「車Aは電気自動車だよ。フル充電で〇〇キロ走行可能だよ。」と応答する。
【0057】
このように、第1キャラクターと利用者との会話において、キーワードが出現した場合、自動応答装置40は、ユーザデバイスの利用度合に応じた出力態様で、キーワードに基づく広告を第2キャラクターの出力態様で、利用者に提供する。この結果、利用者に違和感を与えないように情報を提供することができる。
【0058】
なお、上記の(6)で、車Aに興味を示さなかった場合、第2キャラクターは、その後、発話しなくてもよい。また、車Aに興味を示さなかった場合、他の車に対応するキャラクターの出力態様で、他の車を紹介してもよい。
【0059】
また、車の広告を提供したい場合、自動応答装置40は、第1キャラクターに車の話題で会話するような発話や応答を行ってもよい。この場合、例えば、自動応答装置40は、上述したキーワード、キーワードを誘導するような発話を行う。例えば、出力したい特定情報に基づいて、キャラクターの会話が選択される。
【0060】
また、上述した例では、第2キャラクターの発話の出力度合を変更するものとしたが、第1キャラクターの発話の出力度合が変更されてもよい。また、出力度合は、利用者とキャラクターとの会話の度合に基づいて変更されてもよい。例えば、第1キャラクターと利用者との会話の度合が、第Nキャラクター(Nは任意の自然数)と利用者との会話の度合よりも高い場合、第1キャラクターが利用者に話し掛ける度合を、第Nキャラクターが利用者に話しかける度合よりも多くする。
【0061】
[フローチャート(学習する処理)]
図7は、端末装置10および自動応答装置40により実行される処理の流れの一例を示すフローチャートである。
図6のフローチャートのS40、S50、およびS52の処理は、
図2のフローチャートのS10、S20、およびS22の処理と同様のため説明を省略する。
【0062】
S52の処理後に、自動応答装置40は、自装置が情報を利用者に提供したか否かを判定する(S54)。情報を利用者に提供した場合、自動応答装置40は、提供した情報の内容、および情報の提供後の利用者の反応を取得し、取得した反応を利用情報74として第2記憶部70に記憶させる(S56)。
【0063】
図8は、利用情報74の内容の一例を示す図である。利用情報74は、利用者ごとに、過去に利用者により入力された情報、または過去に利用者に対して出力された情報と、入力された情報、または出力された情報の出力態様と、環境パターンと、出力された情報に対する利用者の反応(例えば指示)とが互いに対応付けられた情報である。
【0064】
次に、自動応答装置40は、所定のタイミングに到達したか否かを判定する(S58)。所定のタイミングに到達していない場合、本フローチャートの1ルーチンの処理が終了する。所定のタイミングに到達した場合、自動応答装置40は、利用情報74を学習データとして学習する(S60)。これにより本フローチャートの1ルーチンの処理が終了する。
【0065】
上述したように、利用者に情報を提供した際の利用者の反応や、環境パターン、情報の出力態様、情報の内容が学習されることにより、利用者の好みを把握することができる。そして、学習部52は、利用者の好みを反映させて出力度合情報72を生成したり、更新したりすることができる。
【0066】
例えば、土曜日や、時間帯が7時〜8時、利用者の周囲に親が存在している場合、利用者が自宅にいる場合、またはプライベートのスケジュールが予定されている時間帯において、他の状況の場合よりも抑制するように特定情報が出力されるように指示されたことを示す情報が、利用情報74に含まれているものとする。この場合、学習部52は、上述した状況に対応する環境パターンでは、特定情報の出力を抑制するように、出力度合情報72を生成する。
【0067】
上述したように、利用者と音声インタラクションするスマートスピーカなどの人工物が、音声広告や話し掛けを過剰に行うと利用者は煩雑に感じる場合があるが、本実施形態では、利用者の音声インタラクションの利用度合や、インタラクションが行われた状況に応じて、音声広告や話し掛けを調整するため、利用者に違和感を与えないように情報を提供することができる。
【0068】
なお、上述した例では、提供制御部50が、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、特定情報の出力態様を制御するものとして説明したが、これに代えて(或いは加えて)、以下のように変更されてもよい。すなわち、提供制御部50は、ユーザデバイスの利用度合に応じて、第2応答内容の出力態様を制御する。この「第2応答内容」は、利用者により発せられた音声に対する応答内容であって広告を含む内容である。例えば、この場合、自動応答装置40は、広告を含む応答内容を決定し、決定した応答内容をユーザデバイスの利用度合に応じた出力態様で端末装置10に出力させる。このように、応答内容そのものが広告となり、且つ応答内容の制御態様が制御されるため、利用者に違和感を与えないように情報を提供することができる。
【0069】
以上説明した第1実施形態によれば、提供制御部50が、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、特定情報の出力態様を制御することにより、利用者に違和感を与えないように情報を提供することができる。
【0070】
<第2実施形態>
以下、第2実施形態について説明する。提供制御部50は、特定情報の出力態様を、応答内容の第3出力態様よりも利用者が聞き取りにくい第1出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を、第1出力態様よりも利用者が聞き取りやすい第2出力態様に変更して、特定情報を出力部に出力させる。第1実施形態との相違点を中心に説明する。
【0071】
図9は、第2実施形態の情報処理システム1Aに含まれる自動応答装置40Aの機能構成の一例を示す図である。自動応答装置40Aは、第2記憶部70に代えて、第2記憶部70Aを備える。第2記憶部70Aは、例えば、出力度合情報72および利用情報74に加え、更に指示対応情報76(詳細は後述する)を備える。
【0072】
第2実施形態の応答部48は、特定情報を端末装置10に出力させる場合、特定情報の出力態様を、応答内容の第3出力態様よりも利用者が聞き取りにくい第1態様に変更して、特定情報を端末装置10に出力させる。
【0073】
上記のように特定情報を端末装置10に出力させた後、自動応答装置40Aは、利用者の指示を受け付けた場合に、特定情報の出願態様を、第1出力態様よりも利用者が聞き取りやすい第2出力態様に変更して、特定情報を端末装置10に出力させる。第2出力態様は、例えば、第1出力態様よりも、音量が大きい、音の周波数帯が利用者にとって聞き取りやすい、情報が出力されるテンポが適切である態様である。
【0074】
なお、利用者が聞き取りにくい第1態様に変更する処理において、利用者が存在する環境の環境音が所定の大きさ以上の場合、環境音が所定の大きさ未満の場合よりも、特定情報の出力態様を変化させなくてもよいし、出力態様の変化度合を小さくしてもよい。もともと環境音が大きい環境で出力態様を変更しても利用者に対する影響が小さいためである。
【0075】
[フローチャート]
図10は、端末装置10および第2実施形態の自動応答装置40Aにより実行される処理の流れの一例を示すフローチャートである。本処理は、第1出力態様で特定情報が出力された後に実行される処理である。
図10のフローチャートのS60、S70、およびS72の処理は、
図2のフローチャートのS10、S20、およびS22の処理と同様のため説明を省略する。
【0076】
次に、自動応答装置40Aは、指示対応情報76を参照し、特定された利用者と、特定された環境パターンと、入力された音声に含まれる情報(指示の内容)との組み合わせに合致する広告の情報の出力態様を決定する(S74)。指示の内容とは、利用者が情報の出力に関して求めた指示の情報である。指示の内容とは、例えば、ボリュームを上げることや、ゆっくりと情報を出力させること、高い音で情報を出力させること、数秒前に出力された情報を出力すること等、またはこれらの組み合わせである。
【0077】
図11は、指示対応情報76の内容の一例を示す図である。指示対応情報76は、利用者によって行われた指示に対して、どのような出力態様で情報を出力するかを決定するのに用いられる情報である。指示対応情報76は、例えば、環境パターンごとに、利用者ID、指示の内容、および出力態様が互いに対応付けられた情報である。
【0078】
次に、自動応答装置40Aは、端末装置10に決定した出力態様で広告の情報を出力するように指示する(S76)。次に、端末装置10は、自動応答装置40Aの指示に基づいて、決定された出力態様で広告の情報をスピーカ14に出力させる(S62)。これにより本フローチャートの1ルーチンの処理が終了する。
【0079】
上述したように、自動応答装置40が、利用者の求めに応じて出力態様を変更するため、利用者に違和感を与えないように情報を提供することができる。
【0080】
[具体例(その2−1)]
図12は、第2実施形態の利用者と自動応答装置40Aとの会話の一例を示す図である。例えば、
図12(A)に示すように、(1)利用者が「新しい車が欲しいな。」とマイク12に入力する。(2)自動応答装置40Aは、第1キャラクターの出力態様で、「どんな車が欲しいの?」と応答する。
【0081】
次に、
図12(B)に示すように、(3)利用者が「燃費のいい車がいいな。」とマイク12に入力する。(4)自動応答装置40Aは、第1キャラクターの出力態様で、「節約できるからいいよね。」と応答する。
【0082】
次に、例えば、数秒程度、利用者によって発話がされない場合、
図12(C)に示すように、(5)自動応答装置40Aは、第2キャラクターの出力態様であり、且つ第1出力態様で、「車Aをおすすめします。・・・・」と発話する。
【0083】
(6)利用者は、上記(5)で出力された情報に興味を持っていたが音量が小さいため聞こえなかったことから、「聞こえないよ。」と発話する。そうすると、(7)自動応答装置40Aは、第2キャラクターの出力態様であり、且つ音量を上げて、上記(5)で出力させた情報を端末装置10に出力させる。すなわち、第2キャラクターが「車Aをおすすめします。・・・」と、再度、発話する。
【0084】
このように、第2キャラクターが情報を出力する場合の出力態様を、第1キャラクターが情報を出力する場合の出力態様よりも、利用者が聞き取りにくくすることにより、利用者に煩わしさを感じさせることを抑制することができる。また、利用者の求めに応じ、第2キャラクターが情報を出力する場合の出力態様を、利用者が聞き取りやすいようにすることにより、利用者にとっての利便性を向上させることができる。
【0085】
なお、上述した説明では、一例として、利用者が音声を入力した場合に、特定情報が出力される例について説明したが、単に自動応答装置40Aが特定情報を出力する場合において、上記のように出力態様が制御されてもよい。また、例えば、出力したい特定情報に基づいて、第1のキャラクターと第2のキャラクターの会話が選択されてもよい。
【0086】
[具体例(その2−2)]
図13は、広告の情報が出力される際の音量の変化を示す図である。
図13の縦軸は音の大きさを示し、
図13の横軸は時間を示している。以下で説明する広告A〜Cの各広告の長さ(時間)は、例えば所定秒(例えば15秒程度)である。広告A〜Cの順で広告の情報が出力される予定であるものとする。この場合において、例えば、広告Aが出力され、広告Bが出力され、広告Bの内容が出力されている途中(
図13の時刻T)で、利用者が音量を上げることを指示した。自動応答装置40Aは、時刻Tにおいて、広告Bの内容を最初から端末装置10に出力させる。すなわち、所定時間遡った部分や音量を絞った部分から、広告Bが再出力される。また、その後、自動応答装置40Aは、図示するように広告Bの内容が出力された後、音量を上げる前の音量に下げてもよいし、音量を上げた状態を維持してもよい。
【0087】
上述したように、自動応答装置40Aが、利用者により指示がされた場合に、指示された際に出力していた広告を最初から出力させるため、利用者は所望の情報を取得することができる。
【0088】
なお、上述した例では、利用者の指示に基づいて、内容Bを最初から出力するものとしたが、広告Aの最初から出力してもよいし、利用者の指示がされたときから所定時間前に出力されていた情報から出力してもよい。また、利用者の発話の内容(例えば切迫度)に基づいて、再出力させる情報が決定されてもよい。また、自動応答装置40Aは、過去の利用者の指示の傾向または予め設定された条件に基づいて、利用者の指示がされたときから、どの程度前から広告を再度再生するかを決定してもよい。
【0089】
[その他]
提供制御部50は、特定情報の属性に基づいて、特定情報の出力態様を、第1出力態様に変更して特定情報を出力部に出力させてもよい。特定情報の属性とは、広告に関する情報、機器の操作に関する情報、楽曲、およびユーザに関連する期限に関する情報(パスワードの変更期限などの情報)のうち、少なくとも一つを含む。例えば、提供制御部50は、広告に関する情報の出力態様を第1出力態様に変更し、他の属性の特定情報は出力態様を変更しなくてもよい。
【0090】
提供制御部50は、広告の種別に基づいて特定情報の出力態様を、第1出力態様に変更して特定情報を出力部に出力させてもよい。広告の種別とは、例えば、広告に対応する商品の種別である。例えば、提供制御部50は、車の広告の出力態様については、第1出力態様に変更するが、不動産の広告の出力態様については、第1出力態様に変更せずに、出力部に出力させてもよい。
【0091】
また、提供制御部50は、広告の種別と、過去に行われた利用者の指示の結果とに基づいて、特定情報の出力態様を、第1出力態様に変更して特定情報を出力部に出力させてもよい。例えば、学習部52が、広告の種別と、過去に行われた利用者の指示の結果とを学習する。例えば、学習部52は、車の広告が出力された場合、利用者はボリュームのアップを指示したが、不動産の広告が出力された場合、利用者はボリュームのダウンを指示したことを学習する。この場合、例えば、提供制御部50は、車の広告の出力態様については、第1出力態様に変更するが、不動産の広告の出力態様については、第1出力態様に変更せずに、出力部に出力させてもよい。
【0092】
また、提供制御部50は、上記の考え方を採用して、利用者に対応する環境パターンに基づいて、特定情報の出力態様を、第1出力態様に変更してもよい。例えば、ある環境においては、第1出力態様で特定情報が出力されることが利用者にとって好ましいことが学習部52により学習される。提供制御部50は、学習結果に基づいて、特定情報を第1出力態様で出力する。
【0093】
また、利用者により指定された情報(例えば所定の属性の情報)の出力態様については、第1出力態様に変更し、指定されていない情報の出力態様については第1出力態様に変更しなくてもよい。
【0094】
また、指示対応情報76は、学習部52により生成される。例えば、学習部52は、第1出力態様で特定情報が出力部に出力された後、環境パターンごとに、利用者により受けた指示の内容および指示に基づいて変更された特定情報の出力態様を学習する。そして、学習部52は、所定の環境パターンにおいて、特定情報の出力態様をどのように変更させたかを学習して、利用者の嗜好に合致する指示対応情報76を生成する。
【0095】
例えば、学習部52は、土曜日や、時間帯が7時〜8時、利用者の周囲に親が存在している場合、利用者が自宅にいる場合、またはプライベートのスケジュールが予定されている時間帯において、利用者により受けた指示の内容および指示に基づいて変更した特定情報の出力態様を学習し、学習結果に基づいて、指示対応情報76を生成する。例えば、利用者が、所定の環境パターンにおいてボリューム「10」で特定情報の出力させる傾向にある場合、指示対応情報76において、ボリュームの変更指示がされた場合の第2出力態様はボリューム「10」に設定される。
【0096】
以上説明した第2実施形態によれば、提供制御部50は、特定情報の出力態様を、応答内容の出力態様よりも利用者が聞き取りにくい第1出力態様に変更して出力部に出力させた後、利用者の指示を受け付けた場合に、特定情報の出力態様を、第1出力態様よりも利用者が聞き取りやすい第2出力態様に変更して、特定情報を出力部に出力させることにより、利用者に違和感を与えないように情報を提供することができる。
【0097】
例えば、自動応答装置と利用者との対話の延長にそのまま音声広告を出力すると、煩わしく思われたり、ステルスマーケティング(ステマ)とみなされてしまったりする場合があるが、本実施形態のように、特定情報を利用者が聞き取りにくい第1出力態様に変更して出力部に出力させた後、利用者の指示によって特定情報を第2出力態様に変更して出力部に出力させることにより、煩わしいと感じさせることを抑制したり、ステルスマーケティングとみなされること抑制する。
【0098】
<第3実施形態>
以下、第3実施形態について説明する。提供制御部50は、応答内容を出力する第1のキャラクターと、特定情報を出力する第2のキャラクターとの会話を出力部に出力させる。第1実施形態との相違点を中心に説明する。
【0099】
図14は、第3実施形態の情報処理システム1Bの機能構成の一例を示す図である。情報処理システム1Bは、例えば、端末装置10Bと、自動応答装置40Bと、広告提供装置80Bとを備える。
【0100】
端末装置10Bは、第1実施形態の端末装置10の機能構成に加え、更に表示部15と、画像生成部19とを備える。表示部15は、画像生成部19の制御に基づいて、画像を表示する。画像生成部19は、自動応答装置40Bにより送信された情報に基づいて、表示部15に画像を表示させる。例えば、音声生成部18と画像生成部19とは、自動応答装置40Bにより送信された情報に基づいて、表示部15に表示される画像の内容と、スピーカ14に出力される音声の内容とが意図したタイミングになるように協調して、スピーカ14および表示部15を制御する。以下、音声生成部18と画像生成部19とを合わせたものを、「生成部17」と称する。
【0101】
自動応答装置40Bは、第1実施形態の自動応答装置40の機能構成に加え、更に画像提供部49を備え、第1実施形態の第1記憶部60に代えて、第1記憶部60Bを備える。第1記憶部60Bは、例えば、第1実施形態の第1記憶部60に記憶された情報に加え、更にモーション情報69が記憶されている。モーション情報69は、利用者と会話するキャラクターの動きが規定された情報である。画像提供部49は、モーション情報69に含まれる情報、または広告提供装置80Bにより提供された情報に基づいて、端末装置10Bに表示される画像を生成するための情報を端末装置10に提供する。画像を生成するための情報には、スピーカ14に出力される発話に対して、画像を変化させるタイミングが対応付けられている。以下、応答部48と画像提供部49とを合わせたものを、「応答提供部47」と称する。
【0102】
広告提供装置80Bは、第1実施形態の広告提供装置側記憶部90に代えて、広告提供装置側記憶部90Bを備える。広告提供装置側記憶部90は、例えば、広告情報92Bを備える。広告情報92Bは、第1実施形態の広告情報92の情報に加え、更に広告モーション情報93を備える。広告モーション情報93は、広告IDに対応付けられたキャラクターの動きが規定された情報である。
【0103】
[フローチャート]
図15は、自動応答装置40Bにより実行される処理の流れの一例を示すフローチャートである。まず、応答提供部47が、第1キャラクターと第2キャラクターとを会話させる(S80)。次に、広告提供部47は、第2キャラクターに広告の情報を出力させる(S82)。
【0104】
次に、自動応答装置40Bは、出力された広告の情報(第1の特定情報)に応じて利用者が音声を入力したか否かを判定する(S84)。なお、音声に代えて、所定の操作がされたか否かが判定されてもよい。利用者が音声を入力していない場合、本フローチャートの1ルーチンの処理が終了する。
【0105】
利用者が音声を入力した場合、自動応答装置40Bは、利用者が広告の情報の出力に対して煩わしいと感じているか否かを判定する(S86)。「煩わしいと感じている」とは、例えば、入力された音声に含まれる情報が広告の情報の出力に関して、否定的な意味を有していることである。より具体的には、例えば、「静かにして」、「やめて」、「音を下げて」などの意味を有する発話がされた場合、利用者が煩わしいと感じていると判定される。利用者が煩わしいと感じていない場合、本フローチャートの1ルーチンの処理が終了する。なお、S86で煩わしいと感じていない場合、自動応答装置40Bは、第1の特定情報よりも詳細な情報である第2の特定情報を出力部に出力させる。詳細な情報とは、例えば、第1の特定情報が商品名や商品の属性である場合、その説明的な内容である。
【0106】
利用者が煩わしいと感じている場合、応答提供部47は、広告の情報を出力させることを停止する(S88)。なお、停止に代えて、利用者の反応に基づいて出力態様を変更させてもよい。例えば、利用者が「音を下げて」と入力した場合、広告の情報が出力される音が小さく制御される。これにより本フローチャートの1ルーチンの処理が終了する。
【0107】
上述したように、キャラクター同士が会話をして広告の情報を出力させることにより、利用者に対して、より情報に対する興味を持たせることができる。また、利用者の反応に応じて、情報の出力を抑制するため、利用者にとっての利便性が向上する。
【0108】
[具体例(その3−1)]
図16は、第3実施形態の会話および表示部15に表示される画像の一例を示す図(その1)である。提供制御部は、利用者に提供した情報に基づいて、第1キャラクターと第2キャラクターとを会話させる。例えば、
図16に示すように、(1)第2キャラクターCR2が「今日の天気はどう?」と発話する。(2)第1キャラクターCR1が、「予報では快晴だよ。」と応答する。
【0109】
次に、(3)第2キャラクターCR2が「ドライブ日和だね。」と発話する。次に、(4)第1キャラクターCR1が、「そうだね。」と応答する。次に、(5)第2キャラクターCR2が、「そういえば、ドライブするのに最適な車が発売されたよ。」と発話する。
【0110】
このように、キャラクター同士で会話させて、商品を紹介することにより、利用者により自然に商品に興味を持たせることができる。
【0111】
[具体例(その3−2)]
例えば、自動応答装置40Bは、第1キャラクターと利用者との会話に基づいて、利用者の好みや、嗜好、行動予定等の嗜好情報を取得する。嗜好情報とは、例えば、利用者の趣味や、利用頻度が高い施設または場所、購入頻度が高い商品、購入を希望している商品またはサービス等の情報である。
【0112】
図17は、第3実施形態の会話および表示部15に表示される画像の一例を示す図(その2)である。提供制御部50は、例えば、利用者と第1キャラクターとの会話に含まれる会話情報を第2キャラクターにより出力される特定情報の内容に反映させるか否かを利用者に問い合わせ、利用者に許諾を得た場合、会話情報を特定情報の内容に反映させる。
【0113】
例えば、
図17に示すように、(1)第1キャラクターCR1が「利用者Aさん。利用者Aさんが車の購入を考えていること他の人に教えていい?」と発話する。この発話に対して、利用者Aさんが「いいよ。」と回答したものとする。(2)第1キャラクターCR1が、「いいんだね。他の人に教えておくね。きっといい車が見つかるよ!」と応答する。このように、第1キャラクターが利用者の興味関心、傾向などの情報を第2キャラクターに提供することで、第2キャラクターが出力する情報を最適化する。
【0114】
図18は、第3実施形態の会話および表示部15に表示される画像の一例を示す図(その3)である。前述した
図17の(2)の応答後、所定のタイミングで以下の会話が行われる。(1)第2キャラクターCR2が、例えば表示部15に表示されていない状態で「ごめんください。」と発話する。次に、(2)第1キャラクターCR1が、「どなたですか?」と応答する。次に、(3)第2キャラクターCR2が、「少しお時間よろしいでしょうか?」と発話する。次に、(4)第1キャラクターCR1が、「利用者Aさん、どなたか尋ねてきましたよ。入れてもいいですか?」と発話する。この発話に対して、利用者Aさんが、「入れていいよ。」と回答したものとする。次に、(5)第1キャラクターCR1が、利用者Aさんの発話に応じて、「お入りください。」と発話する。その後、表示部15に
図19に示す画像が表示される。
【0115】
図19は、第3実施形態の会話および表示部15に表示される画像の一例を示す図(その4)である。(1)第2キャラクターCR2が、例えば表示部15に表示された状態で「お車をお探しであることをお伺いしたので、ご紹介に参りました。」と発話する。次に、(2)第1キャラクターCR1が、「利用者Aさん、お話聞いてみますか?」と応答する。この応答に対して、利用者が肯定的な発話を行った場合、例えば、第2キャラクターCR2は、商品を紹介する。この応答に対して、利用者が否定的な発話を行った場合、例えば、第2キャラクターCR2は、商品の紹介を行わず、姿を消す。
【0116】
このように、嗜好情報の取扱いについて、許可が得られた場合に、利用者の嗜好情報に応じた広告の情報が出力されるため、利用者に煩わしさを感じさせることを抑制しつつ、利用者にとっての利便性を向上させることができる。
【0117】
なお、上述した例では、第1キャラクターCR1と第2キャラクターCR2とが会話する例について説明したが、これに代えて(または加えて)第2キャラクターCR2と、第3キャラクターとが会話してもよい。第3キャラクターは、例えば、第2キャラクターCR2がおすすめする商品(またはサービス)と競合する(または関連する)商品(またはサービス)を宣伝するキャラクターである。
【0118】
以上説明した第3実施形態によれば、提供制御部50は、第1のキャラクターに応じた出力態様によって応答内容を出力部に出力させ、第2のキャラクターに応じた出力態様によって特定情報を出力部に出力させ、第1のキャラクターと第2のキャラクターとの会話を出力部に出力させることにより、よりユーザに情報に対する興味を喚起させることができる。
【0119】
なお、上述した各実施形態の情報処理システム1では、端末装置10は一台であるものとして説明したが、二以上の端末装置10が設けられてもよい。この場合、自動応答装置40は、例えば、第1の端末装置10または第2の端末装置10から、その装置の識別情報と共に端末装置10に入力された音声データを取得する。そして、自動応答装置40は、取得した識別情報を参照して、第1の端末装置10に第1キャラクターの出力態様で応答内容を出力させ、第2の端末装置10に第2キャラクターの出力態様で特定情報を出力させる。
【0120】
以上説明した実施形態によれば、利用者により発せられた音声に対する応答内容と、前記応答内容とは異なる特定情報とを出力部に出力させる応答部と、音声が入力または出力の対象とされたユーザデバイスの利用度合に応じて、前記特定情報の出力態様を制御する制御部とを備えることにより、利用者に違和感を与えないように情報を提供することができる。
【0121】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。