特許7477547 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ サターン　ライセンシング　エルエルシーの特許一覧

特許7477547受信装置、及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-22

(45)【発行日】2024-05-01

(54)【発明の名称】受信装置、及び情報処理方法

(51)【国際特許分類】

H04N 21/488 20110101AFI20240423BHJP

【ＦＩ】

H04N21/488

【請求項の数】 9

(21)【出願番号】P 2022021220

(22)【出願日】2022-02-15

(62)【分割の表示】P 2017084575の分割

【原出願日】2017-04-21

(65)【公開番号】P2022058998

(43)【公開日】2022-04-12

【審査請求日】2022-03-15

(73)【特許権者】

【識別番号】316009762

【氏名又は名称】サターンライセンシングエルエルシー

【氏名又は名称原語表記】ＳａｔｕｒｎＬｉｃｅｎｓｉｎｇＬＬＣ

【住所又は居所原語表記】２５ＭａｄｉｓｏｎＡｖｅｎｕｅＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ

(74)【代理人】

【識別番号】100121131

【弁理士】

【氏名又は名称】西川孝

(74)【代理人】

【氏名又は名称】稲本義雄

(72)【発明者】

【氏名】五十嵐卓也

【審査官】富樫明

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０３８２０４７（ＵＳ，Ａ１）

【文献】特開２００４－１３５１３３（ＪＰ，Ａ）

【文献】特開２０１４－１３２３４２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

コンテンツを受信する受信部と、
受信した前記コンテンツを再生する再生部と、
再生対象となる前記コンテンツに関する再生情報を処理して、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信する処理部と
を備え、
前記音声対話機能を利用する際の特定のコンテキストを、音声エージェントサービスを利用して受け付けることが可能な場合、自身の機能又は操作装置により、通知情報を介して前記ユーザに通知し、
前記処理部は、
放送波を介して第２のアプリケーションを取得し、
前記ユーザに前記コンテンツを提示している間、取得した前記第２のアプリケーションを、サーバ側で実行される第１のアプリケーションと連携させて実行し、
前記第１のアプリケーションは、前記第２のアプリケーションと連携して、前記音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、前記音声対話機能を実現し、
前記第２のアプリケーションは、前記音声対話機能によって得られた処理結果を出力する
受信装置。

【請求項2】

前記音声エージェントサービスを利用する際の通常のコンテキストと、前記特定のコンテキストとを、前記音声エージェントサービスを利用して受け付けることが可能な場合に、前記特定のコンテキストを受け付けることが可能な期間のみ、前記音声対話機能を有効化するためのキーワードを表示、又はそれに応じた通知情報を表示させる
請求項１に記載の受信装置。

【請求項3】

前記第２のアプリケーションは、前記第１のアプリケーションから通知される前記通知情報を表示させる
請求項２に記載の受信装置。

【請求項4】

前記音声エージェントサービスに関する操作を受け付ける前記操作装置によって、前記第１のアプリケーションから通知される前記通知情報を表示させる
請求項２に記載の受信装置。

【請求項5】

前記音声エージェントサービスにより提供されるユーザインターフェースは、クライアント側に設置される音声処理装置、又は前記受信装置により提供される
請求項１乃至４のいずれかに記載の受信装置。

【請求項6】

前記再生情報は、前記コンテンツを識別するための識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
請求項１乃至５のいずれかに記載の受信装置。

【請求項7】

前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第２のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
請求項１乃至６のいずれかに記載の受信装置。

【請求項8】

前記通知情報は、ランプを通じて伝えられる
請求項１乃至７のいずれかに記載の受信装置。

【請求項9】

受信装置の情報処理方法において、
前記受信装置が、
コンテンツを受信し、
受信した前記コンテンツを再生し、
再生対象となる前記コンテンツに関する再生情報を処理して、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信し、
前記音声対話機能を利用する際の特定のコンテキストを、音声エージェントサービスを利用して受け付けることが可能な場合、自身の機能又は操作装置により、通知情報を介して前記ユーザに通知し、
放送波を介して第２のアプリケーションを取得し、
前記ユーザに前記コンテンツを提示している間、取得した前記第２のアプリケーションを、サーバ側で実行される第１のアプリケーションと連携させて実行する
ステップを含み、
前記第１のアプリケーションは、前記第２のアプリケーションと連携して、前記音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、前記音声対話機能を実現し、
前記第２のアプリケーションは、前記音声対話機能によって得られた処理結果を出力する
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、受信装置、及び情報処理方法に関し、特に、コンテンツの再生時に、音声対話を利用して、操作の利便性の向上を図ることができるようにした受信装置、及び情報処理方法に関する。

【背景技術】

【0002】

放送コンテンツに連動して実行される放送アプリケーションが提案されている（例えば、特許文献１参照）。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。

【0003】

また、ユーザの発話内容を解析する音声認識に関する技術が提案されている（例えば、特許文献２参照）。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１３－１８７７８１号公報

【文献】特開２０１４－１５３６６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、テレビ受像機では、付属のリモートコントローラを利用して操作を行うのが一般的であるが、コンテンツの再生時に、放送アプリケーションに関する操作を行う場合には、必ずしも適した操作手段であるとは言えず、音声対話を利用した操作手段が求められている。

【0006】

本技術はこのような状況に鑑みてなされたものであり、コンテンツの再生時に、音声対話を利用して、操作の利便性の向上を図ることができるようにするものである。

【課題を解決するための手段】

【0007】

本技術の一側面の受信装置は、コンテンツを受信する受信部と、受信した前記コンテンツを再生する再生部と、再生対象となる前記コンテンツに関する再生情報を処理して、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信する処理部とを備え、前記音声対話機能を利用する際の特定のコンテキストを、音声エージェントサービスを利用して受け付けることが可能な場合、自身の機能又は操作装置により、通知情報を介して前記ユーザに通知し、前記処理部は、放送波を介して第２のアプリケーションを取得し、前記ユーザに前記コンテンツを提示している間、取得した前記第２のアプリケーションを、サーバ側で実行される第１のアプリケーションと連携させて実行し、前記第１のアプリケーションは、前記第２のアプリケーションと連携して、前記音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、前記音声対話機能を実現し、前記第２のアプリケーションは、前記音声対話機能によって得られた処理結果を出力する受信装置である。

【0008】

本技術の一側面の受信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の一側面の情報処理方法は、上述した本技術の一側面の受信装置に対応する情報処理方法である。

【0009】

本技術の一側面の受信装置、及び情報処理方法においては、コンテンツが受信され、受信された前記コンテンツが再生され、再生対象となる前記コンテンツに関する再生情報が処理され、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信される。また、前記音声対話機能を利用する際の特定のコンテキストを、音声エージェントサービスを利用して受け付けることが可能な場合、自身の機能又は操作装置により、通知情報を介して前記ユーザに通知され、放送波を介して第２のアプリケーションが取得され、前記ユーザに前記コンテンツを提示している間、取得された前記第２のアプリケーションが、サーバ側で実行される第１のアプリケーションと連携させて実行される。また、前記第１のアプリケーションが、前記第２のアプリケーションと連携して、前記音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、前記音声対話機能が実現され、前記第２のアプリケーションによって、前記音声対話機能によって得られた処理結果が出力される。

【発明の効果】

【0010】

本技術の一側面によれば、コンテンツの再生時に、音声対話を利用して、操作の利便性の向上を図ることができる。

【0011】

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

【図面の簡単な説明】

【0012】

【図1】本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。

【図2】送信装置の構成例を示すブロック図である。

【図3】音声変換サーバ及び機能提供サーバの構成例を示すブロック図である。

【図4】機能処理部の詳細な構成例を示すブロック図である。

【図5】受信装置の構成例を示すブロック図である。

【図6】音声処理装置の構成例を示すブロック図である。

【図7】第１の実施の形態の概要を説明する図である。

【図8】音声対話処理の流れを説明するフローチャートである。

【図9】音声対話処理の流れを説明するフローチャートである。

【図10】アプリケーション連携処理の流れを説明するフローチャートである。

【図11】第２の実施の形態の概要を説明する図である。

【図12】アクティベーションキーワードのテーブルの例を示す図である。

【図13】アクティベーションキーワード対応処理の流れを説明するフローチャートである。

【図14】第３の実施の形態の概要を説明する図である。

【図15】連携アイコン表示処理の流れを説明するフローチャートである。

【図16】通知情報の他の表示形態を示す図である。

【図17】音声エージェントサービスに対応した操作装置の例を示す図である。

【図18】コンピュータの構成例を示すブロック図である。

【発明を実施するための形態】

【0013】

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

【0014】

１．システムの構成
２．第１の実施の形態：アプリケーション連携による音声対話機能
３．第２の実施の形態：アクティベーションキーワードの簡略化
４．第３の実施の形態：アプリケーション連携の表示
５．変形例
６．コンピュータの構成

【0015】

＜１．システムの構成＞

【0016】

（音声対話システムの構成例）
図１は、本技術を適用した音声対話システムの一実施の形態の構成例を示すブロック図である。

【0017】

音声対話システム１は、コンテンツの視聴を行うユーザとの音声対話を実現するためのシステムである。図１において、音声対話システム１は、送信装置１０、音声変換サーバ２０、機能提供サーバ３０、受信装置５０、及び音声処理装置６０を含んで構成される。

【0018】

なお、音声対話システム１において、音声変換サーバ２０、機能提供サーバ３０、受信装置５０、及び音声処理装置６０は、インターネット９０に接続可能であって、各種のデータをやりとりすることができる。

【0019】

送信装置１０は、放送コンテンツや放送アプリケーションを処理し、放送波として、送信所に設置されたアンテナから送信する。なお、ここでの放送方式としては、例えば、次世代地上波放送規格の１つであるATSC(Advanced Television Systems Committee)3.0を用いることができる。

【0020】

ここで、放送コンテンツは、例えばニュースやスポーツ、ドラマ、ショッピングチャネル等のテレビ番組である。また、放送アプリケーションは、HTML5(HyperText Markup Language 5)等のマークアップ言語や、JavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションである。なお、ATSC3.0に対応した放送アプリケーションの詳細な内容については、下記の非特許文献１に開示されている。

【0021】

非特許文献１：ATSC Candidate Standard ATSC 3.0 Interactive Content (A/344)

【0022】

音声変換サーバ２０は、クラウドベースの音声認識サービスを提供するサーバである。
音声変換サーバ２０は、インターネット９０に接続された機器から送信されてくる音声データを、テキストデータに変換し、機能提供サーバ３０に送信する。

【0023】

機能提供サーバ３０は、音声変換サーバ２０から送信されてくるテキストデータに対する処理を行うことで、各種の機能（機能サービス）を提供するサーバである。機能提供サーバ３０は、テキストデータを処理することで得られる処理データを、インターネット９０を介して、受信装置５０又は音声処理装置６０に送信する。

【0024】

機能提供サーバ３０により提供される機能サービスとしては、例えば、放送コンテンツを視聴するユーザとの音声対話機能が含まれる。この音声対話機能は、機能提供サーバ３０によりサーバアプリケーションが実行されることで実現される。なお、サーバアプリケーションは、機能サービスごとに開発される。また、音声変換サーバ２０と機能提供サーバ３０とは、データセンタに設置され、相互に接続可能である。

【0025】

受信装置５０と音声処理装置６０とは、例えば、ユーザの自宅で、同一の又は異なる部屋に設置される。

【0026】

受信装置５０は、例えば、テレビ受像機やセットトップボックス（STB：Set Top Box）、パーソナルコンピュータ、ゲーム機などの固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機として構成される。

【0027】

受信装置５０は、送信所から送信されてくる放送波を受信して処理することで、放送コンテンツを再生し、その映像と音声を出力する。また、受信装置５０は、放送波を処理して得られる放送アプリケーションを実行することができる。さらに、受信装置５０は、インターネット９０を介して機能提供サーバ３０から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。

【0028】

音声処理装置６０は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、いわゆるスマートスピーカとも称される。この種のスピーカは、音楽の再生のほか、例えば、照明器具や空調設備などの機器に対する音声操作を行うことができる。なお、音声処理装置６０は、Bluetooth（登録商標）等の無線通信で各種の機器と接続されるようにしてもよい。

【0029】

また、音声処理装置６０は、インターネット９０を介して音声変換サーバ２０や機能提供サーバ３０と連携することで、ユーザに対して、音声エージェントサービス（のユーザインターフェース）を提供することができる。

【0030】

ここで、音声エージェントサービスとは、例えば、音声認識処理や自然言語処理等の処理を組み合わせて、話し言葉による問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。すなわち、音声処理装置６０は、クライアント側に設置され、音声エージェントサービスのユーザインターフェースとして機能する。また、音声変換サーバ２０や機能提供サーバ３０は、データセンタ等のサーバ側に設置され、音声対話機能を実現するための処理を行う。

【0031】

音声処理装置６０は、ユーザから発せられた音声を収音し、その音声データを、インターネット９０を介して音声変換サーバ２０に送信する。また、音声処理装置６０は、インターネット９０を介して機能提供サーバ３０から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。

【0032】

（送信装置の構成例）
図２は、図１の送信装置１０の構成例を示すブロック図である。

【0033】

図２において、送信装置１０は、コンテンツ生成部１１１、エンコーダ１１２、アプリケーション生成部１１３、アプリケーション処理部１１４、マルチプレクサ１１５、及び送信部１１６から構成される。

【0034】

コンテンツ生成部１１１は、放送コンテンツを生成し、エンコーダ１１２に供給する。
なお、放送コンテンツは、外部のサーバ、カメラ、又は記録媒体などから取得されるようにしてもよい。

【0035】

エンコーダ１１２は、コンテンツ生成部１１１から供給される放送コンテンツを構成する音声データや映像データを、所定の符号化方式に準拠して符号化し、マルチプレクサ１１５に供給する。

【0036】

アプリケーション生成部１１３は、放送アプリケーションを生成し、アプリケーション処理部１１４に供給する。なお、放送アプリケーションは、外部のサーバ、又は記録媒体などから取得されるようにしてもよい。

【0037】

アプリケーション処理部１１４は、アプリケーション生成部１１３から供給される放送アプリケーションのデータに対して必要な処理を施し、その結果得られるデータを、マルチプレクサ１１５に供給する。

【0038】

マルチプレクサ１１５は、エンコーダ１１２からのデータと、アプリケーション処理部１１４からのデータとを多重化し、その結果得られるストリームを、送信部１１６に供給する。

【0039】

送信部１１６は、マルチプレクサ１１５から供給されるストリームに対して必要な処理（例えば、誤り訂正符号化処理や変調処理など）を施し、その結果得られる信号を、放送波として、送信所に設置されたアンテナから送信する。

【0040】

（サーバの構成例）
図３は、図１の音声変換サーバ２０及び機能提供サーバ３０の構成例を示すブロック図である。

【0041】

図３において、音声変換サーバ２０は、音声・テキスト変換処理部２１１、通信I/F２１２、及びデータベース２１３から構成される。

【0042】

音声・テキスト変換処理部２１１は、CPU(Central Processing Unit)やマイクロプロセッサ等の演算装置として構成される。また、通信I/F２１２は、通信インターフェース回路等から構成される。データベース２１３は、ハードディスク(HDD：Hard Disk Drive)や半導体メモリ等の大容量の記録装置として構成される。

【0043】

音声・テキスト変換処理部２１１は、データベース２１３を参照して、音声データをテキストデータに変換する。ここで、例えば、データベース２１３には、膨大な音声データベースが蓄積されており、音声・テキスト変換処理部２１１は、所定の認識アルゴリズムを用いることで、そこに入力される音声データをテキストデータに変換することができる。

【0044】

通信I/F２１２は、インターネット９０を介して、音声処理装置６０等の機器から送信されてくる音声データを受信し、音声・テキスト変換処理部２１１に供給する。また、通信I/F２１２は、音声・テキスト変換処理部２１１から供給されるテキストデータを、機能提供サーバ３０に送信する。

【0045】

また、図３において、機能提供サーバ３０は、機能処理部３１１、通信I/F３１２、及びデータベース３１３から構成される。

【0046】

機能処理部３１１は、CPUやマイクロプロセッサ等の演算装置として構成される。また、通信I/F３１２は、通信インターフェース回路等から構成される。データベース３１３は、ハードディスク（HDD）や半導体メモリ等の大容量の記録装置として構成される。

【0047】

機能処理部３１１は、機能ごとに開発されるサーバアプリケーションを実行することで、各種の機能サービスを提供するための処理を行う。例えば、機能処理部３１１は、放送コンテンツを視聴するユーザとの音声対話を実現するための音声対話機能（以下、TV Show機能ともいう）を有する放送アプリケーションを実行することで、放送コンテンツを視聴するユーザとの音声対話に関する処理を行う。

【0048】

ただし、ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが連携することで、再生対象となる放送コンテンツに関する再生情報が得られる。これにより、機能処理部３１１は、データベース３１３に含まれる対話情報のうち、再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ２０からのテキストデータに応じたユーザの発話に対する応答をするための対話処理を行うことができる。

【0049】

ここで、図４には、機能処理部３１１の詳細な構成例を示している。図４に示すように、機能処理部３１１は、発話理解部３３１、対話制御部３３２、及び発話生成部３３３を含んで構成される。

【0050】

発話理解部３３１は、データベース３１３を参照して、音声変換サーバ２０からのテキストデータを解析して、文脈を踏まえてその話題やユーザの発話の意図を理解する処理を行う。

【0051】

対話制御部３３２は、発話理解部３３１による処理結果や、データベース３１３を参照することで得られる、話題やユーザの発話の意図、過去の対話の履歴などに基づいて、どのような応答を行うべきかを決定する処理を行う。

【0052】

発話生成部３３３は、対話制御部３３２による処理結果や、データベース３１３を参照することで得られる情報に基づいて、ユーザの意図に沿った発話（ユーザの発話に対する応答）が生成する処理を行う。

【0053】

なお、データベース３１３には、対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。

【0054】

図３の説明に戻り、通信I/F３１２は、音声変換サーバ２０から送信されてくるテキストデータを受信し、機能処理部３１１に供給する。また、通信I/F３１２は、インターネット９０を介して、受信装置５０から送信されてくる再生情報を受信し、機能処理部３１１に供給する。また、通信I/F３１２は、機能処理部３１１から供給される応答（ユーザの発話に対する応答）を、インターネット９０を介して、受信装置５０や音声処理装置６０等の機器に送信する。

【0055】

（受信装置の構成例）
図５は、図１の受信装置５０の構成例を示すブロック図である。

【0056】

図５において、受信装置５０は、処理部５１１、メモリ５１２、入力部５１３、チューナ５１４、デマルチプレクサ５１５、音声デコーダ５１６、音声出力部５１７、映像デコーダ５１８、映像出力部５１９、ブラウザ５２０、スピーカ５２１、表示部５２２、及び通信I/F５２３から構成される。

【0057】

処理部５１１は、例えば、CPUやマイクロプロセッサ等から構成される。処理部５１１は、各種の演算処理や、各部の動作制御など、受信装置５０における中心的な処理装置として動作する。処理部５１１は、受信装置５０内の各部との間で、各種のデータをやりとりすることができる。

【0058】

メモリ５１２は、NVRAM(Non-Volatile RAM)等の不揮発性メモリであって、処理部５１１からの制御に従い、各種のデータを記録する。入力部５１３は、例えば、物理的なボタン等であり、ユーザの操作に応じた操作信号を、処理部５１１に供給する。処理部５１１は、入力部５１３から供給される操作信号に基づいて、各部の動作を制御する。

【0059】

チューナ５１４は、アンテナ５３１を介して、送信装置１０から送信されてくる放送波を受信して必要な処理（例えば、復調処理や誤り訂正復号化処理など）を施し、その結果得られるストリームを、デマルチプレクサ５１５に供給する。

【0060】

デマルチプレクサ５１５は、チューナ５１４から供給されるストリームを、音声データと、ビデオデータ、放送アプリケーションのデータに分離する。デマルチプレクサ５１５は、音声データを音声デコーダ５１６に、映像データを映像デコーダ５１８に、放送アプリケーションのデータを、ブラウザ５２０に供給する。

【0061】

音声デコーダ５１６は、デマルチプレクサ５１５から供給される音声データを、所定の復号方式に準拠して復号し、音声出力部５１７に供給する。音声出力部５１７は、音声デコーダ５１６から供給される音声データを、スピーカ５２１に供給する。これにより、スピーカ５２１からは、放送コンテンツの音声が出力される。

【0062】

映像デコーダ５１８は、デマルチプレクサ５１５から供給される映像データを、所定の復号方式に準拠して復号し、映像出力部５１９に供給する。映像出力部５１９は、映像デコーダ５１８から供給される映像データを、表示部５２２に供給する。これにより、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイとして構成される表示部５２２には、放送コンテンツの映像が表示される。

【0063】

ブラウザ５２０は、例えば、HTML5やJavaScript（登録商標）に対応したブラウザである。ブラウザ５２０は、処理部５１１からの制御に従い、デマルチプレクサ５１５から供給される放送アプリケーションのデータを処理し、映像出力部５１９に供給する。映像出力部５１９は、ブラウザ５２０から供給されるデータに応じたアプリケーションが、映像デコーダ５１８から供給される映像データに応じた映像に重畳して表示されるようにする。

【0064】

通信I/F５２３は、通信インターフェース回路等から構成される。通信I/F５２３は、処理部５１１からの制御に従い、インターネット９０に接続された各サーバ（例えば、図１の機能提供サーバ３０）にアクセスして、各種のデータをやり取りする。

【0065】

（音声処理装置の構成例）
図６は、図１の音声処理装置６０の構成例を示すブロック図である。

【0066】

図６において、音声処理装置６０は、音声処理部６１１、メモリ６１２、通信I/F６１３、マイクロフォン６１４、及びスピーカ６１５から構成される。

【0067】

音声処理部６１１は、例えば、CPUやマイクロプロセッサ等から構成される。音声処理部６１１は、各種の演算処理や、各部の動作制御など、音声処理装置６０における中心的な処理装置として動作する。

【0068】

メモリ６１２は、NVRAM等の不揮発性メモリであって、音声処理部６１１からの制御に従い、各種のデータを記録する。

【0069】

通信I/F６１３は、通信インターフェース回路等から構成される。通信I/F６１３は、音声処理部６１１からの制御に従い、インターネット９０に接続された各サーバ（例えば、図１の音声変換サーバ２０や機能提供サーバ３０）にアクセスして、各種のデータをやり取りする。

【0070】

マイクロフォン６１４は、外部からの音を、電気信号に変換する機器（収音器）である。マイクロフォン６１４は、変換で得られる音声信号を、音声処理部６１１に供給する。

【0071】

音声処理部６１１は、マイクロフォン６１４から供給される音声信号を処理し、通信I/F６１３に供給する。また、音声処理部６１１は、通信I/F６１３から供給される音声信号を処理し、スピーカ６１５に供給する。

【0072】

スピーカ６１５は、電気信号を物理振動に変えて音を出す機器である。スピーカ６１５は、音声処理部６１１から供給される音声信号に応じた音を出力する。

【0073】

音声対話システム１は、以上のように構成される。

【0074】

なお、図１の音声対話システム１においては、説明の都合上、１台の送信装置１０と、一組の音声変換サーバ２０と機能提供サーバ３０とが設けられた場合を図示しているが、送信装置１０や機能提供サーバ３０は、例えば、放送局等の事業者ごとに、複数台設けるようにしてもよい。

【0075】

また、図１の音声対話システム１では、ユーザ宅で、１台の受信装置５０と、１台の音声処理装置６０がそれぞれ設けられた場合を図示しているが、例えば、複数のユーザ宅ごとに、受信装置５０と音声処理装置６０とを設けることができる。

【0076】

＜２．第１の実施の形態＞

【0077】

ところで、図１の音声対話システム１において、テレビ受像機等として構成される受信装置５０では、放送コンテンツとともに、放送アプリケーションを実行することが可能であるが、放送アプリケーションの操作を行う場合に、テレビ受像機等に付属しているリモートコントローラを使用すると、ユーザによっては、操作が難しいと感じるときがある。

【0078】

そこで、本技術では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとを連携させて、受信装置５０で実行される放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースを利用できるようにすることで、操作の利便性の向上が図られるようにする。

【0079】

例えば、図７に示すように、テレビ受像機等として構成される受信装置５０で再生される放送コンテンツとして、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたいときに、その場で、"Who is the actress ？"と質問すれば、その女優の名前が回答として得られるようにする。

【0080】

具体的には、受信装置５０で実行されている放送アプリケーションが、機能提供サーバ３０で実行されているサーバアプリケーションと連携することで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースが利用可能となる。そのため、ユーザによって発せられた"Who is the actress ？"である質問が、音声処理装置６０により受け付けられ、インターネット９０を介して、音声変換サーバ２０と機能提供サーバ３０に送られる。

【0081】

音声変換サーバ２０と機能提供サーバ３０では、ユーザからの質問が処理され、当該質問に対する回答が生成される。この回答は、インターネット９０を介して、受信装置５０に送信され、放送アプリケーションによって、"This actress is xxxx"（"xxxx"は、女優の名前）である回答に対応した音声が、スピーカ５２１から出力される。これにより、ユーザは、ドラマを視聴中に質問を発話するだけで、その場で、そのドラマに出ている女優の名前を知ることができる。

【0082】

なお、図７の例では、放送アプリケーションが、回答に対応した音声を出力する場合を示しているが、スピーカ５２１から出力される音声に限らず、受信装置５０において、放送アプリケーションによって、回答に対応したテキスト情報や画像情報などが、表示部５２２の画面に表示されるようにしてもよい。

【0083】

また、図７の例では、受信装置５０に内蔵されたスピーカ５２１が、回答に対応した音声を出力しているが、音声処理装置６０に内蔵されたスピーカ６１５から、回答に対応した音声を出力するようにしてもよい。この場合には、音声変換サーバ２０と機能提供サーバ３０で処理された処理データが、インターネット９０を介して音声処理装置６０に送信されることになる。

【0084】

ただし、ユーザ宅における、テレビ受像機等の受信装置５０の設置位置と、スマートスピーカとしての音声処理装置６０の設置位置に対する、放送コンテンツを視聴しているユーザの視聴位置を考慮した場合、通常、ユーザは、音声処理装置６０よりも、受信装置５０の近くにいる可能性が高いため、回答に対応した音声を出力するのを、受信装置５０のスピーカ５２１としたほうが適している場合が多いことが想定される。

【0085】

また、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０を有効化（アクティベーション）するために、あらかじめ定められたキーワード（以下、アクティベーションキーワードという）を用いるのが、一般的である。ここでは、音声対話機能（TV Show機能）を利用するためのアクティベーションキーワードとして、"Service A"が設定されているため、ユーザからの、"Service A, ask TV Show Who is the actress ？"である質問に、"Service A"というアクティベーションキーワードと、TV Show機能への対話であることを特定する"ask TV Show"が含まれている。

【0086】

（音声対話処理）
次に、図８及び図９のフローチャートを参照して、図１の音声対話システム１により実行される音声対話処理の流れを説明する。

【0087】

ただし、図８及び図９において、ステップＳ１０１乃至Ｓ１０２の処理は、放送局又は送信所の施設内に設置される送信装置１０により実行され、ステップＳ１１１乃至Ｓ１１４の処理と、ステップＳ１２１乃至Ｓ１２２の処理は、データセンタ内に設置される機能提供サーバ３０と、音声変換サーバ２０によりそれぞれ実行される。

【0088】

また、図８及び図９において、ステップＳ１３１乃至Ｓ１３２の処理と、ステップＳ１４１乃至Ｓ１４３の処理は、ユーザ宅内に設置される音声処理装置６０と、受信装置５０によりそれぞれ実行される。

【0089】

ステップＳ１０１において、コンテンツ生成部１１１は、放送コンテンツを生成する。
また、ステップＳ１０１において、アプリケーション生成部１１３は、放送アプリケーションを生成する。

【0090】

ステップＳ１０１の処理で生成された放送コンテンツ及び放送アプリケーションは、エンコードや誤り訂正符号化処理、変調処理等の所定の処理が施された後に、送信所に設置されたアンテナから、放送波（放送信号）として送信される（Ｓ１０２）。

【0091】

送信所から送信された放送波（放送信号）は、受信装置５０に接続されたアンテナ５３１により受信され、ステップＳ１４１乃至Ｓ１４２の処理が実行される。

【0092】

受信装置５０においては、チューナ５１４、音声デコーダ５１６や映像デコーダ５１８等によって、アンテナ５３１により受信された放送波に対し、復調処理や誤り訂正復号処理、デコード等の所定の処理が施されることで、放送コンテンツが再生される（Ｓ１４１）。ここでは、例えば、ユーザの選局操作に応じて、ドラマ等のテレビ番組が再生される。

【0093】

また、受信装置５０においては、ブラウザ５２０によって、放送波から得られる放送アプリケーションが起動される（Ｓ１４２）。この放送アプリケーションは、放送コンテンツに連携して動作するものである。一方で、機能提供サーバ３０においては、機能処理部３１１によって、サーバアプリケーションが起動されている（Ｓ１１１）。

【0094】

ここでは、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが、インターネット９０を介して連携され、放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースを利用することが可能となっている。なお、放送アプリケーションとサーバアプリケーションとの連携処理の詳細な内容は、図１０のフローチャートを参照して後述する。

【0095】

その後、受信装置５０で再生している放送コンテンツを視聴中のユーザによって発話がなされた場合には、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０の音声処理部６１１によって、当該ユーザの発話が受け付けられる（Ｓ１３１）。

【0096】

例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問（例えば「Who is the actress ？」である質問）がマイクロフォン６１４によって収音され、電気信号に変換され、音声処理部６１１に供給されることで、ユーザの質問が受け付けられる。

【0097】

なお、上述したように、実際には、ユーザは、質問をするに際して、"TV Show"等のアクティベーションキーワードを発する必要があるが、ここでは、説明の簡略化のため、その説明は省略する。アクティベーションキーワードの詳細については、後述する。

【0098】

このようにして受け付けられたユーザの発話の音声データは、音声処理装置６０の通信I/F６１３によって、インターネット９０を介して、音声変換サーバ２０に送信される（Ｓ１３２）。

【0099】

音声処理装置６０から送信される音声データは、インターネット９０を介して音声変換サーバ２０により受信され、ステップＳ１２１乃至Ｓ１２２の処理が実行される。

【0100】

ステップＳ１２１において、音声・テキスト変換処理部２１１は、データベース２１３を参照して、音声処理装置６０からの音声データを、テキストデータに変換する。ステップＳ１２１の処理で変換されたテキストデータは、機能提供サーバ３０に送信される（Ｓ１２２）。音声変換サーバ２０からのテキストデータは、機能提供サーバ３０により受信され、ステップＳ１１２乃至Ｓ１１４の処理が実行される。

【0101】

ステップＳ１１２において、機能処理部３１１は、再生情報を取得する。ここでは、放送アプリケーションとサーバアプリケーションとが連携済みであるため、サーバアプリケーションによって、放送アプリケーションからの再生情報を取得することができる。例えば、この再生情報としては、放送コンテンツの識別子や再生時間位置、音声又は字幕の言語など、ユーザが視聴中の放送コンテンツに関する情報が含まれる。

【0102】

ステップＳ１１３において、機能処理部３１１は、データベース３１３に含まれる対話情報のうち、ステップＳ１１２の処理で取得された再生情報により絞り込まれた対話情報に基づいて、音声変換サーバ２０からのテキストデータに応じた応答（ユーザの発話に対する応答）をするための対話処理を行う。

【0103】

例えば、ドラマを視聴中のユーザが、そのドラマに出ている女優の名前を知りたくて、「Who is the actress ？」である質問をしたとき、その質問の音声が、音声処理装置６０により受け付けられ、インターネット９０を介して、音声変換サーバ２０に送信される。音声変換サーバ２０では、「Who is the actress ？」である音声データが、テキストデータに変換され、機能提供サーバ３０に送信される。

【0104】

一方で、機能提供サーバ３０では、再生情報として、ユーザにより視聴されているドラマの識別子や再生時間位置、音声又は字幕の言語を示す情報が取得される。そして、機能提供サーバ３０（の機能処理部３１１）は、データベース３１３に蓄積されている膨大なデータベースを、再生情報により絞り込むことで、音声対話機能を実現するための対話情報の範囲を、ユーザが視聴しているドラマのある時間帯に限定することができる。

【0105】

なお、ここで行われる対話処理としては、様々な手段を用いることができるが、例えば、次のような手段を用いることができる。

【0106】

すなわち、機能処理部３１１においては、まず、発話理解部３３１によって、音声変換サーバ２０からのテキストデータが解析され、文脈を踏まえてその話題やユーザの発話の意図が理解される。次に、対話制御部３３２によって、発話理解部３３１により理解された話題やユーザの発話の意図、過去の対話の履歴などに基づき、どのような応答を行うべきかが決定される。最後に、発話生成部３３３によって、対話制御部３３２による決定結果に基づき、ユーザの意図に沿った発話（ユーザの発話に対する応答）が生成される。

【0107】

その際に、発話理解部３３１乃至発話生成部３３３は、データベース３１３を参照して、処理を行うが、データベース３１３に含まれる対話情報が、再生情報により絞り込まれているため、限定された対話情報に基づき、対話処理を行うことが可能となる。

【0108】

ここで、データベース３１３には、音声対話機能を実現するための対話情報を得るためのデータベースとして、知識データベースや発話データベースのほか、発話履歴やユーザ情報等のデータベースを含めることができる。なお、ここに例示した対話処理は、一例であって、公知の対話処理の技術を用いるようにしてもよい。

【0109】

このようにして得られる応答（ユーザの発話に対する応答）は、機能提供サーバ３０の通信I/F３１２によって、インターネット９０を介して、受信装置５０に送信される（Ｓ１１４）。

【0110】

機能提供サーバ３０から送信された応答は、インターネット９０を介して受信装置５０により受信され、ステップＳ１４３の処理が実行される。すなわち、受信装置５０（で実行される放送アプリケーション）は、機能提供サーバ３０からの応答（ユーザの発話に対する応答）に応じた音声を、スピーカ５２１から出力する（Ｓ１４３）。

【0111】

例えば、ユーザによって、視聴中のドラマに出ている女優の名前が質問されたとき、その質問（例えば「Who is the actress ？」である質問）に対する応答として、"This actress is xxxx"（"xxxx"は、女優の名前）である回答に対応した音声が出力される。これにより、ドラマを視聴中のユーザは、そのドラマに出ている女優の名前を知ることができる。

【0112】

なお、上述したように、受信装置５０では、表示部５２２の画面に、機能提供サーバ３０からの応答に応じた情報が表示されるようにしてもよい。また、機能提供サーバ３０からの応答に応じた音声は、音声処理装置６０のスピーカ６１５から出力されるようにしてもよい。

【0113】

また、上述した説明では、サーバアプリケーションと連携している放送アプリケーションが、再生情報を通知するとして説明したが、再生情報は、受信装置５０のレジデントアプリケーションが通知してもよいし、あるいは、放送アプリケーションが受信装置５０のAPI(Application Programming Interface)を利用して通知するようにしてもよい。要は、サーバアプリケーションが、再生情報を取得できればよいのであって、その通知手段は、任意である。なお、レジデントアプリケーションは、受信装置５０にあらかじめ組み込まれたアプリケーションである。

【0114】

以上、音声対話処理の流れについて説明した。

【0115】

（アプリケーション連携処理）
次に、図１０のフローチャートを参照して、図８のステップＳ１１１，Ｓ１４２の処理に対応するアプリケーション連携処理について説明する。

【0116】

ただし、図１０において、ステップＳ１６１乃至Ｓ１６５の処理は、データセンタ内に設置される機能提供サーバ３０により実行される。また、ステップＳ１７１乃至Ｓ１７６の処理は、ユーザ宅内に設置される受信装置５０又は音声処理装置６０により実行される。

【0117】

機能提供サーバ３０においては、機能処理部３１１によって、音声エージェントサービスを利用するサーバアプリケーションとして、TV Show機能を有するサーバアプリケーションが登録される（Ｓ１６１）と、当該サーバアプリケーションが起動される（Ｓ１６２）。

【0118】

一方で、受信装置５０においては、放送コンテンツが再生され（Ｓ１７１）、さらに、放送アプリケーションが起動されている（Ｓ１７２）。

【0119】

このように、サーバ側の機能提供サーバ３０で、サーバアプリケーションが起動し、クライアント側の受信装置５０で、放送アプリケーションが起動している状況で、サーバアプリケーションが、PIN(Personal Identification Number)コードを生成し、インターネット９０を介して放送アプリケーションに送信する（Ｓ１６３）。このPINコード（のテキストデータ）は、受信装置５０により受信される。

【0120】

受信装置５０においては、放送アプリケーションによって、サーバアプリケーションからのPINコードが、表示部５２２に表示される（Ｓ１７３）。このようにして、受信装置５０の画面に表示されたPINコードを確認したユーザは、PINコードを読み上げる。

【0121】

ただし、ここでは、例えば、"Service A ask TV Show to activate PIN ****"（****：表示されたPINコード）のように、所定のキーワード（コマンドワード）とともに、PINコードを読み上げることで、音声エージェントサービス側で、ユーザにより読み上げられたPINコードを認識することが可能となる。

【0122】

音声処理装置６０では、音声処理部６１１によって、ユーザにより読み上げられるPINコードが認識できたかどうかが判定される（Ｓ１７４）。ステップＳ１７４において、PINコードが認識できていないと判定された場合、ステップＳ１７４の判定処理が繰り返される。音声処理装置６０において、PINコードを認識できない場合には、ユーザによって、PINコードが再度読み上げられる。

【0123】

そして、ステップＳ１７４において、PINコードが認識できたと判定された場合、処理は、ステップＳ１７５に進められる。ステップＳ１７５において、音声処理装置６０の通信I/F６１３は、ユーザにより読み上げられたPINコードの音声データを、インターネット９０を介して送信する。

【0124】

なお、説明の簡略化のため、記載を省略しているが、音声処理装置６０からのPINコードの音声データは、音声変換サーバ２０に送信されることで、音声データからテキストデータに変換される。このようにして得られるPINコードのテキストデータが、機能提供サーバ３０により受信される。

【0125】

機能提供サーバ３０においては、機能処理部３１１によって、放送アプリケーションに対して送信したPINコード（のテキストデータ）と、音声処理装置６０から送信されたPINコード（のテキストデータ）とを比較して照合することで、音声処理装置６０からのPINコードが正当であるかどうかを判定する（Ｓ１６４）。

【0126】

ステップＳ１６５において、音声処理装置６０からのPINコードが正当であると判定された場合、処理は、ステップＳ１６５（Ｓ１７６）に進められる。ステップＳ１６５（Ｓ１７６）においては、クライアント側の受信装置５０で起動されている放送アプリケーションと、サーバ側の機能提供サーバ３０で起動されているサーバアプリケーションとの連携が開始される。

【0127】

このように、不特定のユーザに対して配信される放送アプリケーションと、当該放送アプリケーションを利用する特定のユーザの属性とが関連付けられる。すなわち、サーバアプリケーションが、放送アプリケーションを実行する受信装置５０に、既知の識別情報（PINコード）を通知し、通知された識別情報（PINコード）を確認した特定のユーザによる発話を、音声ユーザエージェントサービスを利用して受け付けることで、当該特定のユーザの属性の関連付けが行われる。

【0128】

このようにしてアプリケーションの連携が開始されると、上述した図８のステップＳ１１１，Ｓ１４２の処理以降の処理を実行することが可能となる。

【0129】

なお、ステップＳ１６５において、音声処理装置６０からのPINコードが正当ではないと判定された場合、ステップＳ１６６（Ｓ１７６）の処理はスキップされ、放送アプリケーションは、サーバアプリケーションとは非連携とされる。

【0130】

以上、アプリケーション連携処理の流れについて説明した。

【0131】

なお、図１０の説明では、機能提供サーバ３０からのPINコードを、テレビ受像機等の受信装置５０に表示して、ユーザにより読み上げさせ、そのPINコードの音声データが、音声処理装置６０から送られるようにする処理シーケンスを例示したが、PINコードの通知手段としては、他の通知手段を用いるようにしてもよい。

【0132】

例えば、上述した図１０に示した処理の流れとは逆に、機能提供サーバ３０からのPINコードの音声データ（又はテキストデータ）が、インターネット９０を介して音声処理装置６０に送られるようにして、音声処理装置６０によって、PINコードに応じた音声が出力されるようにする。そして、その音声に応じたPINコードを、ユーザが、受信装置５０で実行される放送アプリケーションに対して入力するようにしてもよい。この放送アプリケーションに入力されたPINコードは、インターネット９０を介して、サーバアプリケーションにより受信され、PINコードの照合処理（Ｓ１６４）に用いられる。

【0133】

また、アプリケーション連携処理の際の処理シーケンスとしては、様々な処理シーケンスを用いることができる。例えば、機能提供サーバ３０からのPINコードが、ユーザの所持するスマートフォン等の携帯端末装置に表示されるようにしたり、あるいは、PINコードをユーザが読み上げるのではなく、スマートフォン等の携帯端末装置から入力して、テキストデータとして送られるようにしたりしてもよい。

【0134】

なお、図１０に示したようなアプリケーション連携処理は、受信装置５０において放送アプリケーションが起動される度に行う必要はなく、例えば、次の処理を行うことで、図１０に示した処理を経ずにアプリケーションの連携を実現することができる。すなわち、図１０のステップＳ１６４の処理で、PINコードが正当であるとの確認が行われた際に、機能提供サーバ３０は、トークン情報を、ブラウザのCookieの仕組み等を利用して記録させておくことで、次回以降に、同一の放送アプリケーションが、機能提供サーバ３０と通信を行った場合には、記録しておいたトークン情報を利用することで、図１０に示した処理を経ずにアプリケーションの連携が実現される。

【0135】

以上、第１の実施の形態について説明した。この第１の実施の形態では、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが、インターネット９０を介して連携され、受信装置５０で実行される放送アプリケーションで、音声処理装置６０により提供される音声エージェントサービスのユーザインターフェースが利用可能とされる。

【0136】

そして、機能提供サーバ３０では、放送コンテンツを視聴するユーザとの対話処理を行う際に、サーバアプリケーションと連携している放送アプリケーションから得られる再生情報を用いて、データベース３１３に蓄積されている膨大なデータベースを絞り込んでから、再生情報により絞り込まれた対話情報に基づき、対話処理が行われる。

【0137】

例えば、機能提供サーバ３０において、データベース３１３に、知識データベースとして各放送局の全チャネル分のテレビ番組に関するデータが蓄積されているとき、単に、女優の名前だけで問い合わせを受けても、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができず、適切な応答を行うことができない。

【0138】

一方で、受信装置５０で実行される放送アプリケーションからの再生情報で、知識データベースのデータを絞り込んで、再生情報により絞り込まれた対話情報に基づき、対話処理を行うことができれば、どのテレビ番組のどの時間帯に出演している女優なのかを特定することができるため、単に、女優の名前だけで問い合わせを受けても、適切な応答を行うことができる。

【0139】

このように、本技術によれば、コンテンツの再生時に、放送アプリケーションとサーバアプリケーションとが連携して、音声エージェントサービスのユーザインターフェースが利用可能となるため、音声対話を利用して、操作の利便性の向上を図ることができる。また、機能提供サーバ３０では、対話処理を行う際に、再生情報が用いられるため、放送コンテンツを視聴するユーザとの間で、適切な音声対話を行うことが可能となる。

【0140】

＜３．第２の実施の形態＞

【0141】

ところで、図１の音声対話システム１においては、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０を有効化（アクティベーション）するために、あらかじめ定められたアクティベーションキーワードを、ユーザが発するのが一般的であるのは先に述べた通りである。すなわち、音声処理装置６０では、ユーザによって、アクティベーションキーワードが発せられたときに、ユーザの発話に応じた音声データを、データセンタの音声変換サーバ２０に送信して、音声対話の処理が行われるようにする。

【0142】

例えば、音声エージェントサービスを使用するためのアクティベーションキーワードとして、"Service A"が設定されている場合には、ユーザは、"Service A"と発した後に、質問や命令などを発することになる。

【0143】

また、サーバ側の機能提供サーバ３０において、機能が異なる複数のサーバアプリケーションが起動されているため、クライアント側の受信装置５０で起動する放送アプリケーションと連携している場合には、アクティベーションキーワードとして、音声エージェントサービスに対してあらかじめ設定されている"Service A"と、TV Show機能を有するサーバアプリケーションを利用するための"TV Show"との両方のキーワードを発する必要がある。

【0144】

しかしながら、アクティベーションキーワードとして、２つのキーワードを発するのは、ユーザにとって負担であるため、キーワードはできるだけ少ないことが望ましい。そこで、本技術では、現在、有効であるサーバアプリケーション用のアクティベーションキーワードを、音声処理装置６０に登録することで、サーバアプリケーションを利用する際には、そのアクティベーションキーワードさえ発すれば、所望のサーバアプリケーションが利用可能となるようにする。

【0145】

具体的には、図１１に示すように、TV Show機能を有するサーバアプリケーションが利用可能な場合に、ユーザが、"Service A, start TV Show"（"start"はコマンドワード）と発することで、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０は、あらかじめ設定されている"Service A"であるアクティベーションキーワードにより有効化され、ユーザの発話の音声データが、インターネット９０を介して、音声変換サーバ２０に送信される。

【0146】

音声変換サーバ２０は、"start"であるコマンドワードに応じて、機能提供サーバ３０で、TV Show機能を有するサーバアプリケーションが起動されるようにする。また、音声変換サーバ２０は、機能提供サーバ３０で、TV Show機能を有するサーバアプリケーションが正常に起動された場合には、"TV Show"であるアクティベーションキーワードの登録を、音声処理装置６０に要求する。これにより、音声処理装置６０では、"TV Show"であるアクティベーションキーワードが登録される。

【0147】

その後は、音声処理装置６０は、あらかじめ設定されている"Service A"であるアクティベーションキーワードに加えて、TV Show機能を有するサーバアプリケーション用のアクティベーションキーワードとして、"TV Show"を認識し、ユーザの発話の音声データを、音声変換サーバ２０に送信することになる。図１２には、音声処理装置６０のメモリ６１２に記録されるアクティベーションキーワードのテーブルの例を示している。

【0148】

なお、機能提供サーバ３０で実行される、TV Show機能を有するサーバアプリケーションが無効にされると、その旨を示すメッセージが、インターネット９０を介して、音声変換サーバ２０から音声処理装置６０に通知され、音声処理装置６０では、そのメッセージに応じて、メモリ６１２に記録されているテーブルから、"TV Show"であるアクティベーションキーワードが削除される。

【0149】

なお、この例では、アクティベーションキーワードが文字列であるとし、音声処理装置６０の音声処理部６１１によって、アクティベーションキーワードとして認識されるとして説明したが、音声認識の精度（認識率）を向上させるためには、アクティベーションキーワードの音声特徴データなどを用いるようにしてもよい。

【0150】

図１１の説明に戻り、"TV Show"であるアクティベーションキーワードが登録された後に、ドラマを視聴中のユーザによって、"TV Show, Who is the actress ？"である質問が発せられた場合、音声処理装置６０は、"TV Show"であるアクティベーションキーワードが登録済みであるため、その質問の音声データを、インターネット９０を介して、音声変換サーバ２０に送信する。その結果、音声処理装置６０によって、例えば、ドラマを視聴中のユーザに対して、そのドラマに出ている女優の名前が回答として発せられる。

【0151】

その10分後に、ドラマを視聴中のユーザによって、"TV Show, how old is she ?"である質問が発せられた場合、音声処理装置６０は、その質問の音声データを、インターネット９０を介して、音声変換サーバ２０に送信する。その結果、音声処理装置６０によって、例えば、ドラマを視聴中のユーザに対して、そのドラマに出ている女優の年齢が回答として発せられる。

【0152】

その15分後に、ドラマを視聴中のユーザによって、"Service A, turn off the room light"である命令が発せられた場合、音声処理装置６０は、"Service A"であるアクティベーションキーワードが、音声エージェントサービスのアクティベーションキーワードであるため、ユーザ宅内で、家庭内LAN(Local Area Network)やBluetooth（登録商標）等の無線通信で接続された照明器具の照明をオフする制御が行われる。

【0153】

その25分後に、ドラマを視聴中のユーザによって、"TV Show, who is the actor ?"である質問が発せられた場合、音声処理装置６０は、その質問の音声データを、インターネット９０を介して、音声変換サーバ２０に送信する。その結果、音声処理装置６０によって、例えば、ドラマを視聴中のユーザに対して、そのドラマに出ている俳優の名前が回答として発せられる。

【0154】

以上のようにして、サーバ側で起動中のサーバアプリケーションを利用するためのアクティベーションキーワードを、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０にあらかじめ登録しておくことで、ユーザは、"Service A"と発することなく、単に"TV Show"と発するだけで、TV Show機能を有するサーバアプリケーションを利用可能となる。

【0155】

なお、"TV Show"であるアクティベーションキーワードは、放送コンテンツに連動して放送アプリケーションが動作している間だけ有効であるため、放送コンテンツが終了したときに、無効にすることができる。したがって、受信装置５０において、放送コンテンツを視聴していない場合には、"TV Show"であるアクティベーションキーワードは、無効とされ、ユーザによって、"TV Show"が発せされても、音声処理装置６０では受け付けられず、当該キーワードには無反応とされる。

【0156】

また、受信装置５０の電源をオフしたときや、チャネルが切り替えられたときに、放送アプリケーションと、機能提供サーバ３０で実行されているサーバアプリケーションとの連携が解除されることで、"TV Show"であるアクティベーションキーワードが無効にされるようにしてもよい。

【0157】

さらに、既存の音声ユーザインターフェースサービスのように、タイムアウトによって、サーバアプリケーションが自ら無効化するか、音声変換サーバ２０がサーバアプリケーションを無効化するか、あるいは既知のコマンドワードを用いて、サーバアプリケーションを無効化するようにしてもよい。例えば、既知のコマンドワードとして、"stop"が用いられる場合には、"Service A stop TV Show"と発することで、サーバアプリケーションが無効化される。

【0158】

また、上述した説明では、音声処理装置６０が、アクティベーションキーワードのテーブル（図１２）を管理して、アクティベーションキーワードが有効であるかどうかを判定していたが、アクティベーションキーワードが有効であるかどうかは、音声処理装置６０の代わりに、音声変換サーバ２０や機能提供サーバ３０が行うようにしてもよい。

【0159】

（アクティベーションキーワード対応処理）
次に、図１３のフローチャートを参照して、アクティベーションキーワード対応処理の流れを説明する。

【0160】

受信装置５０においては、放送コンテンツが再生され（Ｓ２１１）、さらに放送アプリケーションが起動されている（Ｓ２１２）。

【0161】

ユーザは、サーバアプリケーションを利用する場合、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０に対し、デフォルトのアクティベーションキーワードに続いて、機能サービスを起動するコマンドワードを発する。ここでは、例えば、ユーザが、"Service A start TV Show "と発したとき、"Service A"が、デフォルトのアクティベーションキーワードに相当し、"start TV Show"が、機能サービスを起動するコマンドワードに相当する。

【0162】

音声処理装置６０においては、音声処理部６１１によって、ユーザにより発せられた言葉が、デフォルトのアクティベーションキーワードであるかどうかが判定される（Ｓ２０１）。

【0163】

ステップＳ２０１において、デフォルトのアクティベーションキーワード（例えば"Service A"）であると判定された場合、処理は、ステップＳ２０２に進められる。ステップＳ２０２において、音声処理装置６０の通信I/F６１３は、ユーザの発話の音声データを、インターネット９０を介して、音声変換サーバ２０に送信する。

【0164】

音声処理装置６０から送信される音声データは、インターネット９０を介して音声変換サーバ２０により受信され、ステップＳ２３１乃至Ｓ２３３の処理が実行される。

【0165】

音声変換サーバ２０においては、音声・テキスト変換処理部２１１によって、ユーザの発話の音声データからコマンドワードが認識され、機能提供サーバ３０に対し、機能サービスのサーバアプリケーションの起動が要求される（Ｓ２３１）。機能提供サーバ３０においては、機能処理部３１１によって、音声変換サーバ２０からの要求に応じて、機能サービスのサーバアプリケーションが起動される（Ｓ２２１）。

【0166】

ここでは、例えば、音声・テキスト変換処理部２１１において、"start TV Show"であるコマンドワードが認識された場合には、TV Show機能を有するサーバアプリケーションの起動が要求され、機能処理部３１１によって、TV Show機能を有するサーバアプリケーションが起動される。

【0167】

一方で、音声変換サーバ２０においては、機能提供サーバ３０で、サーバアプリケーションが正常に起動されたかどうかが判定される（Ｓ２３２）。ステップＳ２３２において、サーバアプリケーションが正常に起動されたと判定された場合、処理は、ステップＳ２３３に進められる。

【0168】

ステップＳ２３３において、音声・テキスト変換処理部２１１は、対象のアクティベーションキーワード（例えば、"TV Show"）の登録を、インターネット９０を介して、音声処理装置６０に要求する。

【0169】

音声処理装置６０においては、音声変換サーバ２０からアクティベーションキーワードの登録の要求があったかどうかが判定される（Ｓ２０３）。ステップＳ２０３において、アクティベーションキーワードの登録の要求があったと判定された場合、処理は、ステップＳ２０４に進められる。

【0170】

ステップＳ２０４において、音声処理部６１１は、音声変換サーバ２０からの対象のアクティベーションキーワードを、メモリ６１２に記録されたテーブル（図１２）に登録する。これにより、例えば、TV Show機能を有するサーバアプリケーションを利用するためのアクティベーションキーワードとして、"TV Show"が登録されることになる。

【0171】

ここで、放送コンテンツを視聴しているユーザが発話した場合、その発話が、音声処理装置６０（の音声処理部６１１）により受け付けられる（Ｓ２０５）。

【0172】

ステップＳ２０６において、音声処理部６１１は、ステップＳ２０２の処理で受け付けられた発話に含まれるキーワードが、デフォルトのアクティベーションキーワード（例えば、"Service A"である音声エージェントサービスのアクティベーションキーワード）であるかどうかを判定する。

【0173】

ステップＳ２０６において、デフォルトのアクティベーションキーワードであると判定された場合、処理は、ステップＳ２０９に進められる。この場合、正当なアクティベーションキーワードとなるので、ユーザの発話に応じた音声データが、音声変換サーバ２０に送信される（Ｓ２０９）。

【0174】

一方で、ステップＳ２０６において、デフォルトのアクティベーションキーワードではないと判定された場合、処理は、ステップＳ２０７に進められる。ステップＳ２０７において、音声処理部６１１は、ステップＳ２０５の処理で受け付けられた発話に含まれるキーワードが、メモリ６１２に記録されたテーブルのアクティベーションキーワードに含まれるかどうかを判定する。

【0175】

ステップＳ２０７において、アクティベーションキーワードに含まれると判定された場合、処理は、ステップＳ２０８に進められる。ステップＳ２０８において、音声処理部６１１は、ステップＳ２０７の処理の対象のアクティベーションキーワードは有効であるかどうかを判定する。

【0176】

ステップＳ２０８において、対象のアクティベーションキーワードが有効であると判定された場合、処理は、ステップＳ２０９に進められる。この場合、正当なアクティベーションキーワードとなるので、ユーザの発話に応じた音声データが、音声変換サーバ２０に送信される（Ｓ２０９）。

【0177】

ステップＳ２０１において、デフォルトのアクティベーションキーワードではないと判定された場合（Ｓ２０１の「NO」）、又はステップＳ２０３において、アクティベーションキーワードの登録の要求がないと判定された場合（Ｓ２０３の「NO」）、それ以降の処理を実行する必要はないため、以降の処理がスキップされる。同様に、ステップＳ２３２において、機能提供サーバ３０で、サーバアプリケーションが起動されていないと判定された場合（Ｓ２３２の「NO」）も、それ以降の処理を実行する必要がないため、以降の処理がスキップされる。

【0178】

また、ステップＳ２０７において、アクティベーションキーワードに含まれていないと判定された場合（Ｓ２０７の「NO」）、又はステップＳ２０８において、対象のアクティベーションキーワードが有効ではないと判定された場合（Ｓ２０８の「NO」）、ステップＳ２０６の処理はスキップされる。この場合には、不当なアクティベーションキーワードとなるため、音声変換サーバ２０に対する音声データの送信処理は未実行とされる。

【0179】

このように、音声処理装置６０では、音声エージェントサービスを利用する際の通常のコンテキストと、音声対話機能（TV Show機能）を利用する際の特定のコンテキストとを受け付けることが可能な場合であって、特定のコンテキストの音声対話機能（TV Show機能）を有効化するためのアクティベーションキーワードが、ユーザにより発話され、音声エージェントサービスにより受け付けられたとき、通常のコンテキストと特定のコンテキストの音声対話機能（TV Show機能）が有効化され、特定のコンテキストが受け付けられることになる。

【0180】

そして、音声処理装置６０では、特定のコンテキストが有効となる期間のみ、音声対話機能（TV Show機能）を有効化するためのアクティベーションキーワードの発話が、音声エージェントサービスによって受け付けることになる。また、音声処理装置６０では、音声対話機能（TV Show機能）を有効化するためのアクティベーションキーワードを記録して、特定のコンテキストが有効となる期間のみ有効化することで、特定のコンテキストが有効な期間内に当該アクティベーションキーワードが、ユーザにより発話されたとき、特定のコンテキストを受け付けることになる。

【0181】

以上、第２の実施の形態について説明した。この第２の実施の形態では、音声処理装置６０が、アクティベーションキーワードのテーブル（図１２）を管理して、ユーザにより発せられたアクティベーションキーワードが有効であるかどうかの判定処理を行うため、例えば、TV Show機能を有するサーバアプリケーションを利用する際に、ユーザは、"TV Show"であるアクティベーションキーワードのみを発すればよい。

【0182】

そのため、例えば、音声エージェントサービスに対してあらかじめ設定されている"Service A"と、サーバアプリケーションを利用するための"TV Show"との両方のキーワードを発する必要がなく、サーバアプリケーションを利用する際に、ユーザの負担を軽減することができる。

【0183】

なお、この第２の実施の形態で説明した内容は、単独で実施することは勿論、第１の実施の形態又は第３の実施の形態で説明した内容と組み合わせて実施することができる。

【0184】

＜４．第３の実施の形態＞

【0185】

ところで、クライアント側の受信装置５０で実行される放送アプリケーションと、サーバ側の機能提供サーバ３０で実行されるサーバアプリケーションとが連携している場合であっても、その連携がなされていることが、ユーザに対して認識されにくい場合がある。

【0186】

特に、通常、ユーザは、テレビ受像機等の受信装置５０で再生される放送コンテンツを視聴する際には、受信装置５０側を向いており、音声エージェントサービスのユーザインターフェースとして機能する音声処理装置６０側を向いていないため、音声処理装置６０の反応を認識することがさらに困難な状況となる。

【0187】

そこで、本技術では、放送アプリケーションとサーバアプリケーションとが連携している間は、その連携がなされていることを示す表示が行われるようにする。

【0188】

具体的には、図１４に示すように、放送アプリケーションとサーバアプリケーションとが連携している場合に、受信装置５０の画面には、ドラマ等の放送コンテンツの映像に対し、右下の領域に、連携アイコン５５１が、重畳して表示されている。

【0189】

この連携アイコン５５１は、放送アプリケーションとサーバアプリケーションとが連携中であることを示すアイコンである。また、連携アイコン５５１には、キーワード５５１Ａに示すように、サーバアプリケーションのアクティベーションキーワードを表示することができる。この例では、TV Show機能を有するサーバアプリケーションを利用するための"TV SHOW"であるアクティベーションキーワードが、キーワード５５１Ａとして表示されている。

【0190】

なお、連携アイコン５５１を確認したユーザによって、アクティベーションキーワードが発せられ、音声処理装置６０が有効化（アクティベーション）された場合には、放送アプリケーションによって、ユーザの発話に応じた表示がなされるようにしてもよい。

【0191】

（連携アイコン表示処理）
次に、図１５のフローチャートを参照して、連携アイコン表示処理の流れを説明する。

【0192】

受信装置５０においては、放送コンテンツが再生され（Ｓ３１１）、さらに放送アプリケーションが起動されている（Ｓ３１２）。

【0193】

ステップＳ３１３において、処理部５１１は、放送アプリケーションとサーバアプリケーションとが連携しているかどうかを判定する。

【0194】

ステップＳ３１３において、双方のアプリケーションが連携中であると判定された場合、処理は、ステップＳ３１４に進められる。ステップＳ３１４において、処理部５１１は、サーバアプリケーションからの通知に応じて、表示部５２２の画面の所定の領域に、連携アイコン（図１４の連携アイコン５５１）を表示する。

【0195】

ステップＳ３１５において、処理部５１１は、アクティベーションキーワードを利用するかどうかを判定する。

【0196】

ステップＳ３１５において、アクティベーションキーワードを利用すると判定された場合、処理は、ステップＳ３１６に進められる。ステップＳ３１６において、処理部５１１は、ステップＳ３１４の処理で表示した連携アイコンに、アクティベーションキーワード（図１４のキーワード５５１Ａ）を含めて表示する。

【0197】

なお、ステップＳ３１３において、双方のアプリケーションが連携していないと判定された場合（Ｓ３１３の「NO」）、又はステップＳ３１５において、アクティベーションキーワードを利用しないと判定された場合（Ｓ３１５の「NO」）、ステップＳ３１４の処理やステップＳ３１６の処理は、スキップされる。この場合には、連携アイコンは、非表示とされる。

【0198】

ここで、放送コンテンツを視聴しているユーザが発話した場合、その発話が、音声処理装置６０（の音声処理部６１１）により受け付けられる（Ｓ３０１）。この発話に、アクティベーションキーワード（例えば、"TV Show"）が含まれる場合、発話に応じた音声データが、音声変換サーバ２０に送信される。一方で、受信装置５０では、放送アプリケーションによって、ユーザの発話に応じた表示がなされる（Ｓ３１７）。

【0199】

以上、連携アイコン表示処理の流れを説明した。

【0200】

（連携の他の表示例）
上述した説明では、受信装置５０において、放送アプリケーションによって、連携アイコンが表示される場合を例示したが、放送アプリケーションとサーバアプリケーションとが連携していることを示す連携情報を表示可能な手段であれば、他の表示手段を用いるようにしてもよい。

【0201】

例えば、図１６に示すように、受信装置５０が内蔵しているレジデントアプリケーションが、放送アプリケーションとサーバアプリケーションとが連携していることを示す連携情報５５２を、画面の上側の領域に表示させることができる。この連携情報には、TV Show機能を有するサーバアプリケーションを利用するための"TV SHOW"であるアクティベーションキーワードが、キーワード５５２Ａとして表示されている。

【0202】

また、例えば、図１７に示すような、テレビ受像機等の受信装置５０を操作可能な操作装置７０（例えばリモートコントローラ）が用いられるようにしてもよい。この操作装置７０は、音声エージェントサービスに関する操作を受け付けることが可能であって、例えば、ユーザによって、音声エージェントサービスの起動ボタン７１が押されたときに、受信装置５０では、レジデントアプリケーションによって、連携情報５５２が表示されるようにすることができる。

【0203】

なお、操作装置７０が表示機能を有している場合には、操作装置７０の表示部（不図示）に、連携情報５５２が表示されるようにしてもよい。また、ユーザによって、起動ボタン７１が押された場合には、アクティベーションキーワードを発せずに、音声処理装置６０を有効化することができる。

【0204】

また、連携アイコン５５１や連携情報５５２は、音声対話機能（TV Show機能）を利用する際の特定のコンテキストを、音声エージェントサービスを利用して受け付けることが可能であること通知するための通知情報の一例であって、特定のコンテキストが、音声エージェントサービスを利用して受け付けることが可能であることを、ユーザに対して通知できる情報であれば、他の情報を用いることができる。また、例えば、受信装置５０や操作装置７０において、通知情報として、ランプを点灯させるなどしてもよい。

【0205】

以上、第３の実施の形態について説明した。この第３の実施の形態では、放送アプリケーションとサーバアプリケーションとが連携している間は、受信装置５０で、その連携がなされていることを示す表示が行われるようにするため、ユーザは、サーバアプリケーションを利用するためのアクティベーションキーワードが何であるかを迷わずに、発することができる。

【0206】

なお、この第３の実施の形態で説明した内容は、第１の実施の形態又は第２の実施の形態で説明した内容と組み合わせて実施することができる。

【0207】

＜５．変形例＞

【0208】

（受信装置の他の構成）
上述した説明では、受信装置５０と音声処理装置６０とは、別々の機器として構成されるとして説明したが、受信装置５０と音声処理装置６０とが一体化された機器（同梱型デバイス）として構成されるようにしてもよい。例えば、音声処理装置６０を音声処理モジュールとして提供し、受信装置５０の機能に含めることで、同梱型デバイスとして構成することができる。

【0209】

また、上述した説明では、受信装置５０は、テレビ受像機等の固定受信機、又はスマートフォン等のモバイル受信機であるとして説明したが、受信装置５０は、ヘッドマウントディスプレイ（HMD：Head Mounted Display）などのウェアラブルコンピュータであってもよい。さらに、受信装置５０は、例えば車載テレビなどの自動車に搭載される機器であってもよい。すなわち、受信装置５０は、コンテンツの再生や録画が可能な機器であれば、いずれの機器であってもよい。

【0210】

（サーバの他の構成）
上述した説明では、音声変換サーバ２０と機能提供サーバ３０は、異なるサーバとして構成されるとして説明したが、それらのサーバが一体となって、双方のサーバの機能を有するようにしてもよい。

【0211】

また、上述した説明では、音声変換サーバ２０によって、音声認識サービスが提供されるとして説明したが、その音声認識機能が、音声処理装置６０側で実行されるようにしてもよい。

【0212】

すなわち、音声処理装置６０は、ユーザの発話に応じた音声データを、テキストデータに変換し、その結果得られるテキストデータを、インターネット９０を介して、機能提供サーバ３０に送信することができる。また、その変換の際に用いられるデータベース２１３は、インターネット９０上のサーバが提供してもよいし、あるいは音声処理装置６０が保持するようにしてもよい。

【0213】

（放送方式の例）
上述した説明では、放送コンテンツの放送方式として、米国等で採用されている方式であるATSC（特に、ATSC3.0）を説明したが、本技術は、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)など方式に適用するようにしてもよい。

【0214】

また、上述した説明では、UDP/IPパケットを利用するIP伝送方式が採用されるATSC3.0を例にして説明したが、本技術は、IP伝送方式に限らず、例えば、MPEG2-TS(Transport Stream)方式等の他の方式に適用するようにしてもよい。

【0215】

さらに、放送コンテンツを伝送するための伝送路としては、地上波放送を説明したが、本技術は、地上波放送のほか、放送衛星（BS：Broadcasting Satellite)や通信衛星（CS：Communications Satellite）等を利用した衛星放送や、ケーブルテレビ（CATV）等の有線放送などの放送伝送路は勿論、IPTV(Internet Protocol TV)網やインターネットなどの通信伝送路を用いることができる。

【0216】

なお、図１の音声対話システム１においては、放送局の送信装置１０（図２）が単独で、ストリームの多重化処理を行うマルチプレクサ１１５と、変調処理等を行う送信部１１６を有する構成を例示したが、一般的なデジタル放送のシステムでは、マルチプレクサ１１５と送信部１１６とは、異なる場所に設置されるものである。例えば、マルチプレクサ１１５は、放送局内に設置される一方で、送信部１１６は、送信所に設置される。

【0217】

（アプリケーションの例）
放送アプリケーションは、HTML5等のマークアップ言語や、JavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションに限らず、例えば、Java（登録商標）等のプログラミング言語で開発されたアプリケーションであってもよい。また、放送アプリケーションは、表示されるものに限らず、バックグラウンドで、非表示で実行されるものであってもよい。

【0218】

また、受信装置５０で実行されるアプリケーションは、ブラウザにより実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS（Operating System）環境（提示制御環境）などで実行されるようにしてもよい。さらに、受信装置５０で実行されるアプリケーションは、放送経由で取得されるものに限らず、インターネット９０上のサーバから、通信経由で取得されるようにしてもよい。

【0219】

また、受信装置５０で再生されるコンテンツは、放送経由で配信される放送コンテンツに限らず、通信経由で配信される通信コンテンツであってもよい。この通信コンテンツには、例えば、VOD(Video On Demand)ストリーミング配信されるコンテンツや、ダウンロード可能なコンテンツなどが含まれる。なお、放送コンテンツと通信コンテンツには、テレビ番組（例えばニュースやスポーツ、ドラマなど）や映画等のほか、動画や音楽、電子書籍、ゲーム、広告など、あらゆるコンテンツを含めることができる。

【0220】

（その他）
本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したアクティベーションキーワードは、コマンドワードなどと称される場合がある。

【0221】

＜６．コンピュータの構成＞

【0222】

上述した一連の処理（例えば、図８及び図９に示した音声対話処理、図１３に示したアクティベーション対応処理、図１５に示した連携アイコン表示処理）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図１８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

【0223】

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

【0224】

入力部１００６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

【0225】

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

【0226】

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

【0227】

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

【0228】

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

【0229】

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

【0230】

また、本技術は、以下のような構成をとることができる。

【0231】

（１）
データベースに含まれる音声対話機能を実現するための対話情報のうち、再生対象となるコンテンツに関する再生情報により絞り込まれた対話情報に基づいて、前記コンテンツを視聴するユーザとの音声対話に関する処理を行う処理部を備える
情報処理装置。
（２）
前記処理部は、インターネットに接続されるサーバ側で実行される第１のアプリケーションを実行し、
前記第１のアプリケーションと、前記コンテンツを再生するクライアント側で実行される第２のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現する
前記（１）に記載の情報処理装置。
（３）
前記処理部は、不特定のユーザに対して配信される前記第２のアプリケーションと、前記第２のアプリケーションを利用する特定のユーザの属性とを関連付ける処理を行う
前記（２）に記載の情報処理装置。
（４）
前記第１のアプリケーションは、前記第２のアプリケーションを実行するクライアント側に、既知の識別情報を通知し、
通知された前記識別情報を確認した特定のユーザによる音声発話を、前記音声エージェントサービスを利用して受け付けることで、当該特定のユーザの属性の関連付けを行う
前記（３）に記載の情報処理装置。
（５）
前記音声エージェントサービスを利用して、前記第２のアプリケーションを実行するクライアント側で、既知の識別情報に応じた音声を出力し、
出力された前記識別情報に応じた音声を確認した特定のユーザによる入力を、前記第２のアプリケーションにより受け付けることで、当該特定のユーザの属性の関連付けを行う前記（３）に記載の情報処理装置。
（６）
前記音声エージェントサービスを利用する際の通常のコンテキストと、前記音声対話機能を利用する際の特定のコンテキストとを受け付けることが可能な場合であって、前記特定のコンテキストの音声対話機能を有効化するためのキーワードがユーザにより音声発話され、前記音声エージェントサービスを利用して受け付けたとき、前記通常のコンテキストと前記特定のコンテキストの音声対話機能を有効化して、前記特定のコンテキストの音声対話を受け付ける
前記（２）に記載の情報処理装置。
（７）
前記特定のコンテキストが有効となる期間のみ、前記音声対話機能を有効化するためのキーワードの音声発話を、前記音声エージェントサービスを利用して受け付ける
前記（６）に記載の情報処理装置。
（８）
前記音声エージェントサービスにより提供されるユーザインターフェースは、クライアント側に設置される音声処理装置により提供され、
前記音声処理装置は、前記音声対話機能を有効化するためのキーワードを記録して、前記特定のコンテキストが有効となる期間のみ有効化することで、前記特定のコンテキストが有効な期間内に当該キーワードが特定のユーザにより音声発話されたとき、前記特定のコンテキストを受け付ける
前記（７）に記載の情報処理装置。
（９）
前記再生情報は、前記コンテンツを識別するための識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第２のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
前記（２）乃至（９）のいずれかに記載の情報処理装置。
（１１）
情報処理装置の情報処理方法において、
前記情報処理装置が、
データベースに含まれる音声対話機能を実現するための対話情報のうち、再生対象となるコンテンツに関する再生情報により絞り込まれた対話情報に基づいて、前記コンテンツを視聴するユーザとの音声対話に関する処理を行う
ステップを含む情報処理方法。
（１２）
コンテンツを受信する受信部と、
受信した前記コンテンツを再生する再生部と、
再生対象となる前記コンテンツに関する再生情報を処理して、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信する処理部と
を備える受信装置。
（１３）
前記処理部は、前記コンテンツを再生するクライアント側で実行される第２のアプリケーションを実行し、
前記第２のアプリケーションと、インターネットに接続されて前記音声対話機能を提供するサーバ側で実行される第１のアプリケーションとが連携することで、音声エージェントサービスにより提供されるユーザインターフェースを利用可能にして、音声対話機能を実現し、
前記第２のアプリケーションは、前記音声対話機能によって得られた処理結果を出力する
前記（１２）に記載の受信装置。
（１４）
前記音声エージェントサービスを利用する際の通常のコンテキストと、前記音声対話機能を利用する際の特定のコンテキストとを、前記音声エージェントサービスを利用して受け付けることが可能な場合に、前記特定のコンテキストを受け付けることが可能な期間のみ、前記音声対話機能を有効化するためのキーワードを表示、又はそれに応じた通知情報を表示させる
前記（１３）に記載の受信装置。
（１５）
前記第２のアプリケーションは、前記第１のアプリケーションから通知される前記通知情報を表示させる
前記（１４）に記載の受信装置。
（１６）
前記音声エージェントサービスに関する操作を受け付ける操作装置によって、前記第１のアプリケーションから通知される前記通知情報を表示させる
前記（１４）に記載の受信装置。
（１７）
前記音声エージェントサービスにより提供されるユーザインターフェースは、クライアント側に設置される音声処理装置、又は前記受信装置により提供される
前記（１３）乃至（１６）のいずれかに記載の受信装置。
（１８）
前記再生情報は、前記コンテンツを識別するための識別情報、前記コンテンツにおける再生時間位置を示す位置情報、及び前記コンテンツの音声又は字幕の言語に関する情報を少なくとも含む
前記（１２）乃至（１７）のいずれかに記載の受信装置。
（１９）
前記コンテンツは、放送波として伝送される放送コンテンツであり、
前記第２のアプリケーションは、前記放送コンテンツに連動した放送アプリケーションである
前記（１３）乃至（１８）のいずれかに記載の受信装置。
（２０）
受信装置の情報処理方法において、
前記受信装置が、
コンテンツを受信し、
受信した前記コンテンツを再生し、
再生対象となる前記コンテンツに関する再生情報を処理して、前記コンテンツを視聴するユーザとの音声対話に関する音声対話機能を提供するサーバ側に送信する
ステップを含む情報処理方法。

【符号の説明】

【0232】

１音声対話システム，１０送信装置，２０音声変換サーバ，３０機能提供サーバ，５０受信装置，６０音声処理装置，７０操作装置，９０インターネット，１１１コンテンツ生成部，１１３アプリケーション生成部，１１６送信部，２１１音声・テキスト変換処理部，２１３データベース，３１１機能処理部，３１３データベース，３３１発話理解部，３３２対話制御部，３３３発話生成部，５１１処理部，５１２メモリ，５１４チューナ，５１５デマルチプレクサ，５１６音声デコーダ，５１７音声出力部，５１８映像デコーダ，５１９映像出力部，５２０ブラウザ，５２１スピーカ，５２２表示部，５２３通信I/F，１０００コンピュータ，１００１ CPU

【図1】