(58)【調査した分野】(Int.Cl.,DB名)
前記遅延制御手段は、前記解説テキストの文字数に予め定めた1文字あたりの読み上げ時間を乗算して、前記解説音声の出力時間を算出し、当該出力時間だけ、前記番組音声を遅延させることを特徴とする請求項1または請求項2に記載の対話型解説付き音声提示装置。
前記遅延制御手段は、前記出力時間が予め定めた時間よりも長い場合、前記出力時間を前記予め定めた時間とすることを特徴とする請求項3に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザの音声を音声認識して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザが操作するリモコン装置の予め定めたボタンの押下を検出して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
前記指示入力手段は、前記ユーザの予め定めたジェスチャを認識して前記指示を入力することを特徴とする請求項1から請求項4のいずれか一項に記載の対話型解説付き音声提示装置。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。
≪本発明の概要≫
まず、
図1および
図2を参照して、本発明の実施形態に係る対話型解説付き音声提示装置1の概要について説明する。
【0018】
対話型解説付き音声提示装置1,1Bは、番組を視聴するユーザUの指示により、番組音声に解説音声を挿入して提示するものである。
図1(a)は、対話型解説付き音声提示装置1,1Bが、スピーカSpを介して、ユーザUに番組音声を提示している例を示している。ここで、番組音声は、スポーツ番組の音声の例であって、「○○選手タイムです。」、「痛そうです。」等、番組映像に対応したアナウンサ、解説者等の音声である。この場合、アナウンサ等は、番組映像を表示装置(ディスプレイ)Dを介してユーザUが視認していることを前提として発話するため、番組映像の内容をすべて発話することがない。そのため、ユーザUが視覚障害者の場合、ユーザUは、番組の内容を把握することが困難になる。
【0019】
そこで、対話型解説付き音声提示装置1,1Bは、
図1(b)に示すように、例えば、「何があったの?」のように、ユーザUが発話した指示(質問)をマイクMcで集音し、番組音声に解説音声(ここでは、「足首をひねりました。」)を挿入して提示する。
【0020】
この音声提示の例を、
図2に時系列に示す。
図2(a)は、対話型解説付き音声提示装置1,1Bが提示する番組音声を時系列に示している。
ここで、ユーザUが、「痛そうです。」の音声の途中、あるいは、「痛そうです。」と「大丈夫でしょうか。」との間の非発話区間で、「何があったの?」という指示音声を発したとする。
その場合、対話型解説付き音声提示装置1,1Bは、
図2(b)に示すように、「痛そうです。」の後の番組音声の提示を停止し、無音状態とし、「足首をひねりました。」の解説音声を挿入する。その後、対話型解説付き音声提示装置1は、番組音声の提示を再開する。このとき、対話型解説付き音声提示装置1,1Bは、「大丈夫でしょうか。」以降の音声を実際の番組音声の時刻に合わせるように、逐次話速変換する。
【0021】
これによって、対話型解説付き音声提示装置1,1Bは、番組音声と解説音声との出力の重複を防止するとともに、ユーザUの指示に応じて、必要な情報を適切なタイミングで解説音声として提示することができる。
以下、対話型解説付き音声提示装置1,1Bの構成および動作について詳細に説明する。
【0022】
≪第1実施形態≫
〔対話型解説付き音声提示装置の構成〕
まず、
図3を参照して、本発明の第1実施形態に係る対話型解説付き音声提示装置1の構成について説明する。
図3に示すように、対話型解説付き音声提示装置1は、コンテンツ入力手段10と、指示入力手段11と、解説付き音声生成手段12と、映像出力手段13と、音声出力手段14と、を備える。
【0023】
コンテンツ入力手段10は、外部から映像音声コンテンツ(以下、単にコンテンツという)を入力するものである。ここでは、コンテンツ入力手段10は、アンテナAを介して、放送波で配信されるコンテンツを入力する。このコンテンツ入力手段10は、入力したコンテンツのうち、音声(番組音声)については、解説付き音声生成手段12に出力し、映像(番組映像)については、映像出力手段13に出力する。
なお、コンテンツ入力手段10は、必ずしも放送波を介してコンテンツを入力する必要はなく、VOD(ビデオオンデマンド)のように外部サーバ(不図示)から通信回線を介してコンテンツを入力することとしてもよい。
【0024】
指示入力手段11は、マイクMcを介して、ユーザUが発話する音声を指示音声として入力するものである。ここで、マイクMcは、独立したマイクであってもよいし、リモコン装置(不図示)内に組み込んだものであってもよい。ただし、マイクMcは、周囲のノイズの入力を防止するため、指向性マイクが好ましい。
ここでは、指示入力手段11は、音声認識手段110と、指示音声データベース記憶手段111と、指示内容解析手段112と、を備える。
【0025】
音声認識手段(指示音声認識手段)110は、マイクMcを介して入力されるユーザUの指示音声を音声認識するものである。この音声認識手段110は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された指示音声を音声認識する。
この音声認識手段110は、認識結果となる文字列(テキストデータ)を、指示内容解析手段112に出力する。
【0026】
指示音声データベース記憶手段(指示音声DB記憶手段)111は、対話型解説付き音声提示装置1に対する指示内容を示す定型文のテキストデータとメタデータとを対応付けたデータベース(指示音声データベース)を記憶するものである。この指示音声データベース記憶手段111は、半導体メモリ等の一般的な記憶媒体で構成することができる。
この指示音声データベース記憶手段111は、例えば、
図4に示すように、「何があったの?」、「どうしたの?」等の同様の意味を表す複数の定型文に対して1つのメタデータ(ここでは、「内容」)を対応付けて記憶する。
また、
図4の例では、「誰?」、「誰なの?」等に1つのメタデータ(人物)を対応付け、「どこ?」、「そこはどこ?」等の1つのメタデータ(場所)を対応付けている。
これによって、ユーザUの指示にバリエーションを持たせることができる。
なお、
図4中の「人物」、「場所」、「内容」等のメタデータは、後記するテキスト取得手段121で、指示音声に対応する解説テキストを、解説データサーバ2から検索するためのデータである。
【0027】
指示内容解析手段112は、指示音声データベース記憶手段111を参照して、音声認識手段110で音声認識されたテキストデータの内容を解析するものである。
この指示内容解析手段112は、音声認識手段110から入力されるテキストデータに対応するメタデータを、
図4に示したような指示音声データベースから探索する。そして、指示内容解析手段112は、探索結果となるメタデータを指示内容として、解説付き音声生成手段12(テキスト取得手段121)に出力する。
このように、指示入力手段11は、マイクMcを介して入力されたユーザUの指示音声の意味内容を解析し、対応するメタデータを、解説付き音声生成手段12に出力する。
【0028】
解説付き音声生成手段12は、指示入力手段11から入力されるユーザUの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段12は、時刻情報抽出手段120と、テキスト取得手段121と、遅延制御手段122と、音声遅延手段123と、話速変換手段124と、音声合成手段125と、を備える。
【0029】
時刻情報抽出手段120は、番組音声に付されている時刻情報(タイムコード)を抽出するものである。この時刻情報抽出手段120は、抽出したタイムコードを、テキスト取得手段121および話速変換手段124に出力する。なお、タイムコードは、例えば、SMPTE(シンプティ)タイムコードを用いることができる。
【0030】
テキスト取得手段121は、指示入力手段11からユーザUの指示を入力したタイミングで、その指示内容に対応する解説テキストを外部サーバである解説データサーバ2から取得するものである。
このテキスト取得手段121は、指示入力手段11からメタデータを入力することで、ユーザUから指示があった旨を検出する。そして、テキスト取得手段121は、指示の検出タイミングで、時刻情報抽出手段120から入力されたタイムコードの時刻のメタデータに対応する解説テキストを、ネットワーク(通信回線)Nを介して、解説データサーバ2から取得する。
【0031】
なお、解説データサーバ2は、コンテンツごとに、時刻情報に対応付けた解説テキストをメタデータに対応付けて予め記憶したサーバである。例えば、解説データサーバ2は、
図5に示すように、コンテンツごとに、番組映像のフレーム単位の時刻情報(開始時刻、終了時刻)と、メタデータと、解説テキストと、を予め対応付けて記憶する。
また、テキスト取得手段121は、選択した解説テキストを遅延制御手段122および音声合成手段125に出力する。
【0032】
遅延制御手段122は、テキスト取得手段121で取得された解説テキストの読み上げ(解説音声出力)が完了するまで番組音声を遅延させる遅延制御を行うものである。
この遅延制御手段122は、テキスト取得手段121から解説テキストを入力したタイミングで、音声遅延手段123に番組音声の遅延開始を指示する。
【0033】
また、遅延制御手段122は、解説テキストの読み上げ時間(出力時間)を算出し、その時間経過後に、音声遅延手段123に番組音声の遅延停止を指示する。具体的には、遅延制御手段122は、解説テキストの文字数に、予め定めた1文字あたりの時間(例えば、0.2秒/文字)を乗算することで、解説テキストの読み上げ時間(出力時間)を算出する。そして、遅延制御手段122は、読み上げ時間をタイマ(不図示)によって計測することで、番組音声の遅延停止のタイミングを特定する。
【0034】
なお、遅延制御手段122は、解説テキストの読み上げ時間が予め定めた時間(例えば、20秒)よりも長い場合、読み上げ時間を予め定めた時間で制限し、その予め定めた時間経過後に、番組音声の遅延を停止することとする。これによって、遅延制御手段122は、番組音声が番組映像に対して大きく遅れることを防止することができる。
【0035】
音声遅延手段123は、番組音声をバッファリングするものである。この音声遅延手段123は、コンテンツ入力手段10から入力した番組音声を、図示を省略した記憶手段に書き込み、入力した順に読み出して、話速変換手段124に出力する。
【0036】
この音声遅延手段123は、遅延制御手段122から遅延開始を指示されたタイミングで、番組音声の出力を停止する。
なお、音声遅延手段123は、遅延開始を指示されたタイミングで、番組音声について無音の検出を行い、最初の無音を検出した後の番組音声の出力を停止し、以降の番組音声を記憶することとする。これによって、音声遅延手段123は、番組音声の発話途中での出力停止を防止することができる。
この無音の検出手法は、一般的な手法を用いればよい。例えば、音声遅延手段123は、番組音声から音響特徴量の1つであるパワー(音の強さ、大きさ)を抽出し、そのパワーが、予め定めた閾値よりも小さくなった時点を無音区間の始まりとして検出する。
【0037】
また、音声遅延手段123は、遅延制御手段122から遅延停止を指示されたタイミングで、記憶手段(不図示)に記憶している番組音声の話速変換手段124への出力を再開する。
【0038】
話速変換手段124は、音声遅延手段123から入力した番組音声に付されているタイムコード(時刻情報)が、時刻情報抽出手段120で抽出するタイムコードと一致するように、番組音声を話速変換するものである。
この話速変換手段124は、定倍速(例えば、2倍速)で話速変換を行うこととしてもよいし、可変速で話速変換を行うこととしてもよい。可変速で話速変換を行う場合、話速変換手段124は、例えば、遅延時間に応じて、2倍速から1倍速(等倍速)まで、可変に話速変換を行う。なお、可変速に話速変換を行う手法は一般的な手法を用いればよく、例えば、特開2007−298621号公報に記載されている公知の手法を用いることができる。
【0039】
この話速変換手段124は、話速変換後の番組音声を音声出力手段14に出力する。なお、音声遅延手段123から入力した番組音声に付されているタイムコードが、時刻情報抽出手段120で抽出されるタイムコードと一致する場合、話速変換手段124は、入力された番組音声をそのまま音声出力手段14に出力する。
【0040】
音声合成手段125は、テキスト取得手段121で取得された解説テキストを音声合成して、音声信号(解説音声)に変換するものである。なお、音声合成の手法は一般的な公知の手法を用いればよい。
この音声合成手段125は、変換した解説音声を音声出力手段14に出力する。
【0041】
映像出力手段13は、番組映像を表示装置(ディスプレイ)Dに出力するものである。なお、表示装置Dは、対話型解説付き音声提示装置1の内部に備えても、外部に備えても構わない。
【0042】
音声出力手段14は、解説付き音声生成手段12で生成された解説付き音声(番組音声および解説音声)を混合(ミキシング)して、スピーカSpに出力するものである。なお、スピーカSpは、対話型解説付き音声提示装置1の内部に備えても、外部に備えても構わない。
【0043】
以上説明したように、対話型解説付き音声提示装置1を構成することで、対話型解説付き音声提示装置1は、ユーザUの指示に応じて、必要な情報を解説音声として提示することができる。また、このとき、対話型解説付き音声提示装置1は、番組音声を遅延させ、番組音声の無音区間に解説音声を挿入するため、ユーザUに解説音声を聞きやすく提示することができる。
なお、対話型解説付き音声提示装置1は、コンピュータを、
図3に示した各手段として機能させるためのプログラム(対話型解説付き音声提示プログラム)で動作させることができる。
【0044】
〔対話型解説付き音声提示装置の動作〕
次に、
図6を参照(構成については適宜
図3参照)して、対話型解説付き音声提示装置1の動作について説明する。なお、ここでは、対話型解説付き音声提示装置1の主要動作であるユーザの指示に基づいて解説付き音声を提示する動作について説明する。
【0045】
まず、対話型解説付き音声提示装置1は、指示入力手段11によって、ユーザUからの指示を待ち(ステップS1でNo)、指示(指示音声)が入力されたタイミング(ステップS1でYes)で以降の動作を行う。
【0046】
このステップS1において、指示入力手段11は、音声認識手段110によって、マイクMcから入力されるユーザUの指示音声を音声認識する。そして、指示入力手段11は、指示内容解析手段112によって、指示音声データベース記憶手段111を参照して、音声認識されたテキストデータの指示内容を解析する。そして、対話型解説付き音声提示装置1は、指示入力手段11によって、認識可能な指示が入力された場合に、指示が入力されたと判断する。
【0047】
そして、対話型解説付き音声提示装置1は、解説付き音声生成手段12によって以下の動作を行う。
すなわち、対話型解説付き音声提示装置1は、テキスト取得手段121によって、指示(メタデータ)に対応する解説テキストを、解説データサーバ2から取得する(ステップS2)。
【0048】
そして、対話型解説付き音声提示装置1は、音声遅延手段123によって、番組音声の遅延(バッファリング)を開始する(ステップS3)。ここでは、音声遅延手段123は、ステップS2で解説テキストを取得したタイミングで、遅延制御手段122から指示されることで遅延を開始する。これによって、番組音声における無音区間を生成することができる。
このとき、遅延制御手段122は、タイマにより、解説テキストの文字数に応じた読み上げ時間(出力時間)の計測を開始する(ステップS4)。
【0049】
そして、対話型解説付き音声提示装置1は、音声合成手段125によって、解説テキストを音声合成して、音声信号(解説音声)に変換する(ステップS5)。
その後、対話型解説付き音声提示装置1は、音声出力手段14によって、ステップS5で変換された解説音声を出力する(ステップS6)。
【0050】
そして、対話型解説付き音声提示装置1は、遅延制御手段122によって、解説音声の出力が完了(読み上げ時間経過)するか、または、所定時間(例えば、20秒)が経過するか、いずれか早い時間が経過するまで待機する(ステップS7でNo)。
そして、解説音声の出力完了または所定時間の経過後(ステップS7でYes)、対話型解説付き音声提示装置1は、音声遅延手段123によって、番組音声の遅延を停止し、バッファリングされている番組音声を順次読み出す(ステップS8)。
【0051】
その後、対話型解説付き音声提示装置1は、話速変換手段124によって、遅延されていた番組音声のタイムコードが、時刻情報抽出手段120で抽出するタイムコードと一致するように、番組音声を話速変換する(ステップS9)。
そして、対話型解説付き音声提示装置1は、音声出力手段14によって、ステップS9で話速変換された番組音声を出力する(ステップS10)。
【0052】
以上の動作によって、対話型解説付き音声提示装置1は、ユーザUの指示したタイミングで、番組音声を中断し、番組音声と解説音声との出力が重ならないようにして、解説音声を提示することができる。また、対話型解説付き音声提示装置1は、遅延した番組音声を話速変換により再生するため、番組音声の内容をすべて提示することができる。
【0053】
≪第2実施形態≫
〔対話型解説付き音声提示装置の構成〕
次に、
図7を参照して、本発明の第2実施形態に係る対話型解説付き音声提示装置1Bの構成について説明する。なお、対話型解説付き音声提示装置1Bは、
図3で説明した対話型解説付き音声提示装置1とは異なる解説データサーバ(外部サーバ)2Bを用いる。
【0054】
ここで、
図8を参照して、解説データサーバ2Bと解説データサーバ2(
図5)との相違点について説明しておく。
解説データサーバ2Bは、コンテンツごとに、時刻情報(開始時刻、終了時刻)と、メタデータと、解説テキストを含んだ番組内容テキストと、を予め対応付けて記憶するものである。
【0055】
解説データサーバ2では、番組音声に挿入するための解説(解説テキスト)のみを記憶していたが、解説データサーバ2Bでは、解説テキストを含んだ番組の内容を記述した番組内容テキスト(テキストデータ)を記憶することとする。
すなわち、解説データサーバ2Bでは、番組音声と重複する内容を含んでおり、番組内容テキストは、番組音声としてどのような内容が発話されるのかを意識することなく、番組全体の内容を予め解説したデータである。例えば、近年、スポーツやオリンピック開催期間中に競技に関する試合状況を配信するサービスがあり、解説データサーバ2Bは、この試合状況等から予め作成しておくこととする。これによって、解説データサーバ2Bを容易に構築することができる。
【0056】
図8の例では、メタデータ「内容」に対応する番組内容テキストが、番組の時刻に対応した番組の内容を記述したテキストデータである。この場合、解説データサーバ2Bには、
図5で説明した「足首をひねりました。」の解説テキスト以外に、「○○選手タイムです。」等の内容も含んでいる。なお、解説データサーバ2Bには、ユーザUからの特定の質問にも対応するため、「人物」等のメタデータについては、特定のテキストデータ(○○選手等)を対応付けている。
【0057】
このような解説データサーバ2Bを採用すると、番組音声と解説音声とで内容が重複してしまう。
そこで、対話型解説付き音声提示装置1Bは、
図9に示すように、番組音声を音声認識し、番組音声テキストを生成する。そして、対話型解説付き音声提示装置1Bは、番組音声テキストには存在せず、解説データサーバ2Bの番組内容テキストのみに存在するテキストを解説テキストとして抽出する。
図9の例では、対話型解説付き音声提示装置1Bは、「足首をひねりました。」を解説テキストとして抽出し、音声合成することで、解説音声を生成し提示する。
【0058】
以下、このような機能を実現する対話型解説付き音声提示装置1Bの構成について説明する。
図7に示すように、対話型解説付き音声提示装置1Bは、コンテンツ入力手段10と、指示入力手段11と、解説付き音声生成手段12Bと、映像出力手段13と、音声出力手段14と、を備える。解説付き音声生成手段12B以外は、対話型解説付き音声提示装置1(
図3)と同じものであるため、同一の符号を付して説明を省略する。
【0059】
解説付き音声生成手段12Bは、指示入力手段11から入力されるユーザUの指示に基づいて、番組音声に解説音声を挿入して、解説付き音声を生成するものである。
ここでは、解説付き音声生成手段12Bは、時刻情報抽出手段120と、テキスト取得手段121Bと、遅延制御手段122と、音声遅延手段123と、話速変換手段124と、音声合成手段125と、音声認識手段126と、差分抽出手段127と、を備える。テキスト取得手段121B、音声認識手段126および差分抽出手段127以外は、対話型解説付き音声提示装置1(
図3)と同じものであるため、同一の符号を付して説明を省略する。
【0060】
テキスト取得手段121Bは、指示入力手段11からユーザUの指示を入力したタイミングで、その指示内容に対応する番組内容テキストを外部サーバである解説データサーバ2Bから取得するものである。
このテキスト取得手段121Bは、指示入力手段11からメタデータが入力されたタイミングで、ユーザUから指示があった旨を検出する。そして、テキスト取得手段121Bは、そのタイミングで、時刻情報抽出手段120から入力されたタイムコードの時刻のメタデータに対応する番組内容テキストを、ネットワークNを介して、解説データサーバ2Bから取得する。なお、テキスト取得手段121Bは、タイムコードの時刻に対応する番組内容テキストのみならず、当該時刻よりも所定時間(例えば、20秒)過去まで遡って番組内容テキストを取得することとしてもよい。これによって、解説テキストの取得漏れを防止することができる。
【0061】
そして、テキスト取得手段121Bは、
図8に示す「人物」、「場所」のような質問に対する回答が1つであるような予め定めた特定のメタデータについては、番組内容テキストを解説テキストとしてそのまま遅延制御手段122および音声合成手段125に出力する。
また、テキスト取得手段121Bは、
図8に示す「内容」のように番組の内容を解説したメタデータについては、番組内容テキストを差分抽出手段127に出力する。
【0062】
音声認識手段(番組音声認識手段)126は、番組音声を音声認識するものである。この音声認識手段126は、一般的な音声認識手段であって、音響モデル、言語モデルおよび発音辞書を用いて、入力された番組音声を音声認識する。
この音声認識手段126は、認識結果となるテキストデータ(番組音声テキスト)を、差分抽出手段127に出力する。
【0063】
差分抽出手段127は、音声認識手段126で認識された番組音声テキストには存在せず、テキスト取得手段121Bで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出するものである。
すなわち、差分抽出手段127は、テキスト取得手段121Bで取得した番組内容テキストから、番組音声テキストと一致するテキストを省いて、解説テキストを生成する。なお、テキストが一致するか否かは、必ずしも完全一致である必要はなく、類似度の度合いによって判定してもよい。この類似度は、例えば、レーベンシュタイン距離等を用いることができる。
これによって、差分抽出手段127は、番組音声では説明されていない解説音声となるテキストのみを抽出することができる。
この差分抽出手段127は、抽出した解説テキストを、音声合成手段125に出力する。
【0064】
以上説明したように、対話型解説付き音声提示装置1Bを構成することで、対話型解説付き音声提示装置1Bは、対話型解説付き音声提示装置1と同様の効果に加え、番組音声に対する解説専用の外部サーバを準備しなくても、番組の内容をテキスト化した外部サーバを用いて、番組音声に解説音声を挿入して提示することができる。
なお、対話型解説付き音声提示装置1Bは、コンピュータを、
図7に示した各手段として機能させるためのプログラム(対話型解説付き音声提示プログラム)で動作させることができる。
【0065】
〔対話型解説付き音声提示装置の動作〕
次に、
図10を参照(構成については適宜
図7参照)して、対話型解説付き音声提示装置1Bの動作について説明する。なお、対話型解説付き音声提示装置1Bの基本的な動作は、
図6に示した対話型解説付き音声提示装置1の動作と同じであるため、ここでは、相違点のみを説明する。
【0066】
ユーザUからの指示を入力した後(ステップS1でYes)、対話型解説付き音声提示装置1Bは、テキスト取得手段121Bによって、指示に対応する番組内容テキストを、解説データサーバ2Bから取得する(ステップS2B)。
そして、対話型解説付き音声提示装置1Bは、ステップS3で、音声遅延手段123によって、番組音声の遅延(バッファリング)を開始した後、音声認識手段126によって、番組音声を音声認識し、番組音声テキストを生成する(ステップS30)。
【0067】
そして、対話型解説付き音声提示装置1Bは、差分抽出手段127によって、ステップS30で音声認識された番組音声テキストには存在せず、ステップS2Bで取得した番組内容テキストのみに存在するテキストを解説テキストとして抽出する(ステップS31)。
そして、対話型解説付き音声提示装置1Bは、ステップS4以降の動作を行うが、これ以降は、対話型解説付き音声提示装置1の動作と同じであるため、説明を省略する。
【0068】
≪変形例≫
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
例えば、ここでは、対話型解説付き音声提示装置1,1Bは、ユーザUからの指示音声を解析することで、指示内容を特定した。
【0069】
しかし、対話型解説付き音声提示装置1,1Bは、ユーザUが操作するリモコン装置によって、指示を入力するものであってもよい。
その場合、指示入力手段11を、
図11に示す指示入力手段11Bとして構成すればよい。ここで、指示入力手段11Bは、ボタン押下検出手段113と、特定指示出力手段114と、を備える。
【0070】
ボタン押下検出手段113は、ユーザUが、リモコン装置Rcの特定のボタンを押下したことを、赤外線信号等によって検出するものである。このボタン押下検出手段113は、特定のボタンが押下された旨を特定指示出力手段114に出力する。
【0071】
特定指示出力手段114は、ボタン押下検出手段113から特定のボタンが押下された旨を通知されたタイミングで、解説付き音声生成手段12,12Bに指示を出力するものである。この解説付き音声生成手段12,12Bへの指示は、
図4で説明したメタデータのうちで特定のメタデータ(例えば、「内容」)とする。
もちろん、リモコン装置Rcの複数のボタンのそれぞれに異なる指示を割り当てることで、押下されたボタンの種類によって、特定指示出力手段114は、異なるメタデータを解説付き音声生成手段12,12Bへの指示として出力することとしてもよい。
【0072】
また、対話型解説付き音声提示装置1,1Bは、ユーザUのジェスチャによって、指示を入力するものであってもよい。
その場合、指示入力手段11を、
図12に示す指示入力手段11Cとして構成すればよい。ここで、指示入力手段11Cは、ジェスチャ認識手段115と、特定指示出力手段116と、を備える。
【0073】
ジェスチャ認識手段115は、カメラCが撮影したユーザUの動作(ジェスチャ)を認識するものである。例えば、ジェスチャ認識手段115は、手を前に出す等の特定の動作を認識して、ユーザUの指示を受け付ける。このジェスチャ認識手段115は、特定のジェスチャを認識した旨を特定指示出力手段116に出力する。
このジェスチャ認識手段115におけるジェスチャ認識手法は、一般的な手法を用いればよく、例えば、特開2012−88881号公報に記載されている公知の手法を用いることができる。
【0074】
特定指示出力手段116は、ジェスチャ認識手段115から特定のジェスチャを認識した旨を通知されたタイミングで、解説付き音声生成手段12,12Bに指示を出力するものである。この解説付き音声生成手段12,12Bへの指示は、
図4で説明したメタデータのうちで特定のメタデータ(例えば、「内容」)とする。
もちろん、複数のジェスチャのそれぞれに異なる指示を割り当てることで、認識したジェスチャの種類によって、特定指示出力手段116は、異なるメタデータを解説付き音声生成手段12,12Bへの指示として出力することとしてもよい。
これによって、対話型解説付き音声提示装置1,1Bは、ユーザUの音声以外に、リモコン装置やジェスチャによって、指示を受け付けることができる。