特許第6266330号(P6266330)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6266330遠隔操作システムならびにそのユーザ端末および視聴機器
<>
  • 特許6266330-遠隔操作システムならびにそのユーザ端末および視聴機器 図000002
  • 特許6266330-遠隔操作システムならびにそのユーザ端末および視聴機器 図000003
  • 特許6266330-遠隔操作システムならびにそのユーザ端末および視聴機器 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6266330
(24)【登録日】2018年1月5日
(45)【発行日】2018年1月24日
(54)【発明の名称】遠隔操作システムならびにそのユーザ端末および視聴機器
(51)【国際特許分類】
   H04N 21/431 20110101AFI20180115BHJP
   H04N 21/436 20110101ALI20180115BHJP
   H04N 21/482 20110101ALI20180115BHJP
   H04M 11/00 20060101ALI20180115BHJP
   H04M 1/00 20060101ALI20180115BHJP
【FI】
   H04N21/431
   H04N21/436
   H04N21/482
   H04M11/00 301
   H04M1/00 R
【請求項の数】10
【全頁数】14
(21)【出願番号】特願2013-258475(P2013-258475)
(22)【出願日】2013年12月13日
(65)【公開番号】特開2015-115879(P2015-115879A)
(43)【公開日】2015年6月22日
【審査請求日】2016年7月29日
【新規性喪失の例外の表示】特許法第30条第2項適用 http://www.kddi.com/corporate/news_release/2013/1003/のアドレスで公開されているKDDI株式会社のウェブサイトにて、呉剣明および加藤恒夫が発明した遠隔操作システムならびにそのユーザ端末および視聴機器についてKDDI株式会社が平成25年10月3日に公開した。 KDDI株式会社は、ITS世界会議東京2013にて、呉剣明および加藤恒夫が発明した遠隔操作システムならびにそのユーザ端末および視聴機器について平成25年10月15日に公開した。
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】呉 剣明
(72)【発明者】
【氏名】加藤 恒夫
【審査官】 富樫 明
(56)【参考文献】
【文献】 特開2003−150292(JP,A)
【文献】 特開2003−008767(JP,A)
【文献】 特開2005−202946(JP,A)
【文献】 特開2008−001247(JP,A)
【文献】 特開2006−154926(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00−21/858
H04M 1/00
H04M 11/00
(57)【特許請求の範囲】
【請求項1】
ユーザと仮想的に対話するキャラクタ対話型UIのキャラクタの表示をユーザ端末および視聴機器の各ディスプレイ間で移動させ、前記ユーザ端末および視聴機器のうち、前記キャラクタが表示されている側を、当該表示中のキャラクタとの対話形式で操作する遠隔操作システムであって、
前記ユーザ端末が、
ユーザの発声内容を理解する意味理解手段と、
前記発声内容を視聴端末へ提供する手段とを具備し、
前記ユーザ端末および視聴機器が、
相互に無線接続を確立する無線通信手段と、
前記ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第1アニメーション制御手段と、
前記キャラクタをユーザ端末からジャンプアウトさせて操作対象の視聴機器へジャンプインさせる第2アニメーション制御手段とを具備し、
前記視聴機器がさらに、
前記応答内容に基づいて視聴サービスを制御する制御手段を具備したことを特徴とする遠隔操作システム。
【請求項2】
前記ユーザ端末がユーザプロファイルを蓄積する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項に記載の遠隔操作システム。
【請求項3】
前記ユーザ端末は、キャラクタをジャンプインさせた視聴端末へ前記ユーザプロファイルを提供することを特徴とする請求項に記載の遠隔操作システム。
【請求項4】
前記視聴端末の対話応答手段は、前記提供されたユーザプロファイルを反映して応答内容を決定することを特徴とする請求項に記載の遠隔操作システム。
【請求項5】
前記第2アニメーション制御手段は、前記キャラクタを操作の完了した視聴機器からジャンプアウトさせてユーザ端末へジャンプインさせることを特徴とする請求項ないしのいずれかに記載の遠隔操作システム。
【請求項6】
ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムのユーザ端末において、
ユーザの発声内容を理解する意味理解手段と、
前記発声内容を視聴端末へ提供する手段と、
視聴機器との間に無線接続を確立する無線通信手段と、
前記ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第1アニメーション制御手段と、
前記キャラクタを、視聴端末へのジャンプインに同期してジャンプアウトさせる第2アニメーション制御手段とを具備したことを特徴とする遠隔操作システムのユーザ端末。
【請求項7】
ユーザプロファイルを蓄積する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項に記載の遠隔操作システムのユーザ端末。
【請求項8】
前記キャラクタがジャンプインした視聴端末へ前記ユーザプロファイルを提供することを特徴とする請求項に記載の遠隔操作システムのユーザ端末。
【請求項9】
ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムの視聴機器において、
ユーザ端末との間に無線接続を確立する無線通信手段と、
ユーザ端末から提供されるユーザの発声内容に基づいて応答内容を決定する対話応答手段と、
前記応答内容に基づいて音声メッセージを出力する音声応答手段と、
ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第1アニメーション制御手段と、
前記キャラクタを、ユーザ端末からのジャンプアウトに同期してジャンプインさせる第2アニメーション制御手段と、
前記応答内容に基づいて視聴サービスを制御する制御手段とを具備したことを特徴とする遠隔操作システムの視聴機器。
【請求項10】
ユーザプロファイルをユーザ端末から取得する手段を具備し、
前記対話応答手段は、前記ユーザプロファイルを反映して応答内容を決定することを特徴とする請求項に記載の遠隔操作システムの視聴機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視聴者のモバイル端末(ユーザ端末)でTV、セット・トップ・ボックス(Set Top Box:STB)、カーナビまたはデジタルフォトフレームなどの視聴機器を遠隔操作するシステムならびにそのユーザ端末および視聴機器に係り、特に、キャラクタ対話型UIを用いることで操作対象端末の相違をユーザに意識させることなく統一的な方式で遠隔操作できる遠隔操作システムならびにそのユーザ端末および視聴機器に関する。
【背景技術】
【0002】
テレビなどの視聴機器を遠隔操作する装置として赤外線リモコンが一般に普及している。しかしながら、赤外線リモコンでは、その発光部が視聴機器の受光部に向いてない場合、受光部に蛍光灯などの強い照明光が当たっている場合、リモコンと視聴機器との間に障害物がある場合などに操作の反応が悪くなることがある。また、リモコンの高機能化につれて操作が煩雑になり、さらに視聴機器ごとにリモコンのボタン位置や操作方法が統一されていないので、複数台の視聴機器を操作するユーザには戸惑いが生じ得る。
【0003】
一方、近年になって視聴機器へのWi-FiやBluetooth(登録商標)の搭載が進み、スマートフォンやタブレット端末などのユーザ端末との連携が実現可能となった。
【0004】
特許文献1には、ユーザが発声した音声を認識し、視聴機器の制御コードに変換する技術が開示されている。
【0005】
特許文献2には、Bluetooth(登録商標)通信方式を利用し、携帯電話と視聴機器との間でコンテンツの再生時刻を連動させる携帯リモコンによる再生技術が開示されている。
【0006】
特許文献3には、視聴機器の画面領域を携帯電話と関連づけて記憶しておき、携帯電話から視聴機器に無線接続すると、割り当てられた画面領域を携帯リモコンから操作できる技術が開示されている。
【0007】
特許文献4には、テレビや、ビデオプレイ、MACコンピュータ、タブレットなど、異なる機器に対して難しい操作をしなくても使えるユニバーサルリモコンの技術が開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2006-350221号公報
【特許文献2】特開2009-43309号公報
【特許文献3】特開2009-27485号公報
【特許文献4】United States Patent Application No.20120019371
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1では、リモコンに対して電源のON/OFF、再生、早送り等の音声を発話すると視聴機器を遠隔制御できるが、どの画面でどの操作を可能にするか、どの音声命令を発話すればよいか等はユーザが記憶しておく必要がある。
【0010】
特許文献2、3では、Wi-FiやBluetooth(登録商標)などの無線通信方式を使って視聴機器をアプリケーションから遠隔操作できるが、視聴機器の同異にかかわらず統一的で簡単に操作できるUIの実現は困難である。
【0011】
特許文献4は、ハードウェアからソフトウェア、オペレーティングシステムまで全体を統合的に開発する強みを持っているアップル社の技術であるが、特許文献2、3と同様に、視聴機器の同異にかかわらず統一的で簡単に操作できるUIの実現は容易ではない。実際にも、Apple TV操作用のiPhone(登録商標)版リモコンとiPad(登録商標)版リモコンのUIとには違いが多く存在し、ITリテラシの低いユーザにとっては戸惑いを感じる声もあった。
【0012】
さらに、上記の各先行技術はいずれもリモコン操作の範疇に留まっており、多様な機器をいかに統一的で簡単に操作できるか、異なる視聴機器を跨いてユーザの生活習慣や好みを踏まえた機能・コンテンツ推薦がいかに実現できるか、などの課題を残している。
【0013】
本発明の第1の目的は、ユーザと仮想的に対話する一のキャラクタを、操作対象機器の切り替えに応答して各機器のディスプレイ間で移動させ、キャラクタとの対話形式で遠隔操作を要求できるようすることで、ユーザが視聴機器の同異を意識させずに統一的な手法で各機器を遠隔操作できる遠隔操作システムを提供することにある。
【0014】
本発明の第2の目的は、ユーザ端末に登録されているユーザプロファイルを、各視聴機器がユーザからの遠隔操作に応答する際の応答内容に反映させることで、各視聴機器がユーザの嗜好や生活習慣に適した応答を行える遠隔操作システムならびにそのユーザ端末および視聴機器を提供することにある。
【課題を解決するための手段】
【0015】
上記の目的を達成するために、本発明は、ユーザ端末から操作対象の視聴機器へキャラクタをディスプレイ上で移動させてキャラクタ対話型UIにより遠隔操作する遠隔操作システムにおいて、以下の構成を具備した点に特徴がある。
【0016】
(1)ユーザ端末が、ユーザの発声内容を理解する意味理解手段と、発声内容を視聴端末へ提供する手段とを具備し、
【0017】
ユーザ端末および視聴機器が、端末同士を無線接続する無線通信手段と、ユーザの発声内容に基づいて応答内容を決定する対話応答手段と、応答内容に基づいて音声メッセージを出力する音声応答手段と、ディスプレイ上でキャラクタのアニメーションを前記応答内容に応じて制御する第1アニメーション制御手段と、キャラクタをユーザ端末からジャンプアウトさせて操作対象の視聴機器へジャンプインさせる第2アニメーション制御手段とを具備し、視聴機器がさらに、応答内容に基づいて視聴サービスを制御する制御手段を具備した。
【0018】
(2)ユーザ端末がユーザプロファイルを蓄積する手段を具備し、対話応答手段は、ユーザプロファイルを反映して応答内容を決定するようにした。
【0019】
(3)ユーザ端末は、キャラクタをジャンプインさせた視聴端末へ前記ユーザプロファイルを提供するようにした。
【0020】
(4)視聴端末の対話応答手段は、ユーザ端末から提供されたユーザプロファイルを反映して応答内容を決定するようにした。
【発明の効果】
【0021】
本発明によれば、以下のような効果が達成される。
【0022】
(1)ユーザと仮想的に対話する一のキャラクタが、操作対象となる視聴機器の切り替えに応答して各機器のディスプレイ間を移動して操作対象機器のディスプレイ上に出現するので、ユーザは視聴機器にかかわらず、ディスプレイ上に表示されたキャラクタとの対話形式で遠隔操作を要求できる。したがって、ユーザに視聴機器の同異を意識させずに統一的な手法で各機器を遠隔操作させることができるようになる。
【0023】
(2)キャラクタがユーザ端末から視聴機器へ移動する際に、ユーザの嗜好等を含むプロファイルも視聴機器へ通知されるので、各視聴機器では要求された遠隔操作にユーザプロファイルを反映して応答内容を決定できるようになる。
【0024】
例えば、視聴中のTVチャネルを切り替える遠隔操作が検知された際、ユーザがスポーツ中継好きである旨のプロファイルが取得されていれば、スポーツ番組へのチャネル切り替えを提案し、または優先できるようになる。
【図面の簡単な説明】
【0025】
図1】本発明の概要を模式的に表現した図である。
図2】本発明を適用した遠隔操作システムの機能ブロック図である。
図3図1の遠隔操作における図2の主要部の動作を示したシーケンスフローである。
【発明を実施するための形態】
【0026】
以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは初めに、図1の模式図を参照しながら、本発明のキャラクタ対話型UIにより視聴機器をユーザ端末1と連動させて対話方式で遠隔操作する方法の概要について説明する。
【0027】
ユーザ端末1(ここでは、スマートフォンを想定)において遠隔操作アプリケーション(以下、遠隔アプリと表現する)が起動されると、同図(a)に示したように、端末ディスプレイに女性を模したキャラクタが重畳表示される。遠隔アプリは、予め登録されているユーザの興味や嗜好等のプロファイル情報に基づいてTVの番組プログラムを検索し、ユーザの興味や嗜好に合致した番組プログラムが見つかると、例えば「○○君(ユーザ名)の好きなプロ野球中継の時間だよ」といった音声メッセージを合成して前記キャラクタから擬似的に発声させる。
【0028】
ここで、ユーザが「つけて!」、「TV ON」、「この番組を見たい」などと発声すると、当該音声がユーザ端末1のマイクロフォンで検知されて音声認識部103へ転送され、認識結果が意味理解部104へ転送される。意味理解部104では、ユーザの発声内容が視聴機器2(ここでは、TVを想定)のスイッチをオン操作する遠隔操作要求と認識されるので、ユーザ端末1ではTV2をオン操作する遠隔制御用の信号が生成されてTV2へ送信される。
【0029】
前記遠隔操作アプリはユーザに視聴推薦したプロ野球中継のチャンネルを把握しているので、ここでは、TV2に適合した「スイッチオン操作」および「チャンネル指定操作」の各制御信号が生成されてTV2へ送信される。
【0030】
TV2では、図1(b)に示したように、前記各制御信号に応答してのスイッチがオンされ、かつチャンネルが指定チャンネルに切り替えられてプロ野球中継を含むメニュー画面が表示される。
【0031】
さらに、前記キャラクタがユーザ端末1のディスプレイからジャンプアウトしてTV2のディスプレイへジャンプインし、このキャラクタ移動に同期して、制御対象がユーザ端末1からTV2へ切り替わる。このとき、前記ユーザプロファイルもユーザ端末1からTV2へ提供される。
【0032】
ここで、ユーザが例えば「負けているな。他の番組は?」と発声すると、これがユーザ端末1のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV2へ転送される。TV2では、前記音声認識の結果に基づいて他の番組プログラムの推薦要求と判別されるので、前記提供されたユーザプロファイルに基づいて、ユーザの興味や嗜好に合致した他の番組プログラムが放送中であるか否かが番組表を参照することで判定される。
【0033】
他のチャンネルでサッカーの試合を中継中であることが解ると、同図(c)に示したように、その開始時刻「7:30」や内容「日本代表戦」が番組表から取得されて音声合成され、例えば「7:30からサッカー日本代表戦だよ」という音声メッセージが前記キャラクタから発声される。
【0034】
この音声メッセージに対して、ユーザが例えば「それにして」と応答すると、その音声がユーザ端末1のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV2へ転送される。TV2では、前記音声認識の結果に基づいてサッカー中継へのチャンネル切り替えが了承されたと認識されるので、チャンネルがサッカー中継のチャンネルへ切り替えられる。その結果、TV2のディスプレイには、同図(d)に示したように、野球中継に代えてサッカー中継が映し出されることになる。
【0035】
その後、サッカーの試合が終了してTV番組の終了時間が近づくと、同図(e)に示したように、再びキャラクタが出現する。なお、TV番組再生中であっても、ユーザがキャラクタの名前、名称、愛称などを発生して呼び出すとキャラクタが出現する。ここで、ユーザが例えば「『やったね!おめでとう!』とツイートして」と発声すると、これがユーザ端末1のマイクロフォンにより検知されて音声認識が実行され、音声認識の結果がTV2へ転送される。
【0036】
TV2では、前記音声認識の結果に基づいてツイート要求と認識されるので、操作対象をTV2からユーザ端末1に戻すべく、キャラクタがTV2のディスプレイ上からジャンプアウトすると同時にユーザ端末1のディスプレイ上へジャンプインする。
【0037】
ユーザ端末1では、ツイート用のアプリケーションが起動されると共に前記メッセージが音声認識されてテキスト変換され、ツイート用アプリケーションのメッセージ入力フィールドに入力される。テキスト入力が完了すると、同図(f)に示したように、入力内容と共にキャラクタが表示され、入力内容の了承を得るためのメッセージとして、例えば「これでいい?」という音声メッセージが前記キャラクタから発声される。
【0038】
この問い掛けに対して、ユーザが例えば「いいよ」と音声で応答すると、これがユーザ端末1のマイクロフォンにより検知されて音声認識され、了承と判定されれば前記スイートが所定のアドレスへ送信される。
【0039】
なお、TVのスイッチをオフにしたい場合は、ユーザが「TVを閉じて」、「TV OFF」、「疲れたから今から寝るね」など発話すると、当該音声がユーザ端末1のマイクロフォンで検知されて音声認識部103へ転送され、認識結果が意味理解部104へ転送される。意味理解部104では、ユーザの発声内容が視聴機器2のスイッチをオフ操作する遠隔操作要求と認識されるので、ユーザ端末1ではTV2をオフ操作する遠隔制御用の信号が生成されてTV2へ送信される。
【0040】
このように、本発明ではユーザ端末を含む複数種類の情報機器を一元的に操作・連携させるべく、動きを伴ってユーザと仮想的に対話する一のキャラクタを、操作対象機器の切り替えに応答して各種の情報と共に各機器のディスプレイ間で移動させて情報を伝えるというキャラクタ対話型UIを採用することにより、第1に、遠隔操作対象として選択されている機器をユーザが簡単に認識できるようになり、第2に、ユーザに操作対象機器の違いを意識させない統一的な操作性を実現している。
【0041】
図2は、本発明の一実施例に係る視聴機器制御システムの主要部の構成を示したブロック図であり、ここでは、本発明の説明に不要な構成は図示が省略されている。本実施例では、視聴機器としてSTBに着目し、TV2がSTB3に接続され、ディスプレイ機能はTV3が担う一方、ディスプレイ機能以外の視聴機器機能はSTB3が担い、STB3をユーザ端末1と連動させて対話方式で遠隔操作する場合を例にして説明する。
【0042】
ユーザ端末1において、ユーザプロファイル蓄積部101には、ユーザプロファイルとして、ユーザ端末に固有の端末ID(MACアドレスや携帯電話番号など)が記憶され、さらにユーザの属性情報として氏名、年齢、性別、趣味、嗜好、好みの番組、贔屓の俳優名などが記憶されている。
【0043】
無線通信部102は、STB3の無線通信部301との間にWi-FiやBluetooth(登録商標)などによる無線接続を確立し、ユーザの発話を理解したテキスト、ユーザ端末に固有の端末ID、ユーザの氏名・年齢、ユーザの好みなどを含むプロファイル情報、キャラクタ対話型UIの実行データなどをSTB3へ無線送信する。
【0044】
音声認識部103および意味理解部104は、マイクロフォン(図示省略)で検知された端末ユーザの音声を認識し、発話内容からユーザの要求を理解する。対話応答PF105は、端末ユーザに能動的に質問したり、端末ユーザからのリクエストに対する回答文を生成したりする。対話応答PF105の内部には、端末ユーザの日常生活の雑談対話パターンや状態遷移のテーブルが予め登録されている。
【0045】
キャラクタ表示部106および音声合成部107は、擬人化されたキャラクタのアニメーション表示および音声合成による人間的で自然な会話を実現する。音声合成部107はさらに、前記対話応答PF105が生成した回答文などのテキストを音声に変換する機能も備える。
【0046】
前記キャラクタ表示部106は、ディスプレイ上でキャラクタのアニメーションを応答内容に応じて制御する第1アニメーション制御部106aおよびキャラクタをジャンプアウトおよびジャンプインさせる第2アニメーション制御部106bを含む。
【0047】
STB3において、対話応答PF302は、キャラクタがユーザ端末1からSTB3に移動した後、端末ユーザに能動的に質問したり、端末ユーザからのリクエストに対する回答文を生成したりする。
【0048】
当該対話応答PF302にも、ユーザ端末側と同様に、端末ユーザの日常生活の雑談対話パターンや状態遷移のテーブルが登録されているほか、前記ユーザとの対話から解析された視聴要求に対応づけられたSTB3の機器操作の制御コード(チャネル切替、音量調整、アプリ起動など)が登録されている。
【0049】
キャラクタ表示部303および音声合成部304は、擬人化されているキャラクタのアニメーション表示および音声合成による人間的で自然な会話を実現する。音声合成部304はさらに、前記対話応答PFが生成した回答文などのテキストを音声に変換する機能を備える。
【0050】
番組検索部305は、ユーザ端末1を識別し、当該ユーザ端末1のユーザ属性(端末ID、氏名、年齢、好み情報)に対応した各コンテンツのレイティング情報(視聴制限情報)を参照する。そして、視聴要求されたコンテンツのレイティング情報をユーザが満たしているか否かを判定し、満たしていれば当該コンテンツの再生を、例えばVOD (Video On Demand) サービス部306に対して許可する。レイティング情報には、20歳未満の視聴を禁止するR20、18歳未満の視聴を禁止するR18および15歳未満の視聴を禁止するR15などがある。アプリ部307はYouTube(登録商標)やカラオケ、辞書などサードパティより提供されているアプリケーションを管理する。制御部308は、遠隔操作に基づいて視聴サービスを制御する
【0051】
次いで、前記キャラクタ表示部106,303におけるキャラクタのアニメーション演出について説明する。
【0052】
本実施例では、各機器が同様のキャラクタ表示、音声合成および対話応答の実行フレームワークを備える。効率的かつ継続的なキャラクタ移動・情報提示を実現するためには、キャラクタの実行に必要な3Dモデルファイル、モーションファイルおよび対話用のテキストファイルのみを転送すればよい。また、これらの転送データはテキストのフォーマットであるため送受信の遅延も少ない。
【0053】
本実施例では、前記3DモデルファイルおよびモーションファイルにMiku Miku Dance(MMD:3DCGムービー製作ツール)のフォーマットを採用し、描画する際に、読み込まれたモーションファイルに3Dモデルファイルに紐づけると、さまざまな組み合わせの3DCGアニメーションを実現できる。この3Dモデルファイルは、3Dポリゴンモデラーソフトにより作成されており、ポリゴン単位で立体のObjectを生成・編集できる。
【0054】
また、前記モーションファイルは、モーションキャプチャをするための専用機材・ソフトを用いて、実際に人間の動きのサンプリング情報を取り込んでテキストファイル化したものである。実際には、映画などのコンピュータアニメーションおよびゲームなどにおけるキャラクタの人間らしい動きの再現にもよく利用されている。このモーションファイルのデータは、前記3Dモデルファイルと同様のモデルの骨格、およびフレームごとの骨格・関節の差分情報を記述している。実行時に毎秒30フレームずつ描画すれば、連続的に自然な動きを表現できる。
【0055】
さらに、本実施例ではキャラクタにテキスト情報を発生させる音声合成に規則音声合成技術を利用している。モバイル端末では処理能力やメモリ容量に制限があり、また音声モデルのデータベース容量も十分に確保できないので、音声読み上げ機能の利用時には携帯電話回線等のネットワーク経由でサーバ側に処理してもらう必要ある。
【0056】
そのために、本実施例では声質のデータをより小さくすることができるHMM音声合成方式を採用し、テキストと音声のデータを対にしたデータをHMMという統計モデルに与えることによってHMMの挙動を決めるパラメータを学習し、学習済のHMMにテキストデータを与えることで音声合成に必要なパラメータを生成する。
【0057】
こうした軽量化技術により、本実施例では、処理能力やメモリ容量の不十分なSTB、スマホ・タブレット、車載器などでもテキストから自然な音声コンテンツを生成でき、リアルタイムの情報読み上げやナレーション作成が可能になる。
【0058】
次いで、キャラクタ表示部106の第2アニメーション制御部106bによる複数のデバイス間(ユーザ端末・STB)でのキャラクタ移動表現について説明する。
【0059】
本実施例では、キャラクタが一方のディスプレイAからジャンプアウトすると同時に他方のディスプレイBへジャンプインする、といった連続的なディスプレイ間移動を実現するために、2つのディスプレイA,Bを仮想的に1つの描画領域として扱っている。
【0060】
例えば、ディスプレイAからキャラクタの一部(例えば、頭部)がジャンプアウトした時点でディスプレイBにはキャラクタの頭部だけが表示され、次いでディスプレイAから胴体がジャンプアウトするとディスプレイBには胴体がジャンプインする。
【0061】
このようなキャラクタの同期は、ユーザ端末1のキャラクタ・ジャンプアウト演出とSTB3のキャラクタ・ジャンプイン演出とのモーションファイルのフレームを同期させることで実現できる。
【0062】
ユーザ端末1において、キャラクタ・ジャンプアウト演出のモーションフレームを画面上に一枚ずつ描画しつつ、Syncコマンドを描画中のフレームIDと共にSTB3へ送信する。STB3はSyncコマンドを受信するとフレームIDを解析し、それに対応するキャラクタ・ジャンプイン演出のモーションフレームIDを用いてテレビの画面上に描画する。
【0063】
次いで、キャラクタ移動の前後、ユーザ端末とSTBの機能動作について説明する。ユーザは日常的にユーザ端末1のディスプレイ上のキャラクタと対話し、ユーザ端末1はユーザからのテレビ視聴要求が検出されると、STB3に無線接続してキャラクタをTV2の画面にジャンプインさせる。このとき、ユーザ端末1がTV2のマイク(音声入力用)となり、ユーザの発話は音声認識、意味理解でテキストに変換され、STB3の対話応答PF302へ転送される。
【0064】
その後、STB3の対話応答PF302はユーザの操作意図を推定し、キャラクタがビジュアル的なフィードバックおよび音声の返事をすると共にSTB3の機器操作を実行する。ユーザ端末1およびSTB3上に、同一または同等のキャラクタのビジュアルデータ・音声合成用モデルを格納するエンジンを構築したことで、ユーザ端末1とSTB3との間では、テキスト情報のみを受け渡すだけで横断的なキャラクタ対話型UIを実現できる。
【0065】
次いで、ユーザ端1とSTB3との間で送受信される各種メッセージのパケット構造について説明する。本実施例では、TCP/IP Socket通信を利用することで機器同士が無線接続されている状態を想定し、パケットはHEADER,CMD,PARAM,END,SUMの各フィールドにより構成される。
【0066】
HEADERには開始マークが登録される。CMDには実行命令(コマンド)が登録される。PARAMは複数のValueフィールドを含む。ENDには終了マークが登録される。SUMフィールドにはメッセージの整合性をチェックするためのチェックサムが登録される。
【0067】
例えば、ユーザ端末1からSTB3へ送信される接続要求メッセージでは、CMDフィールドには「ユーザ検証」に対応したコマンドが登録され、PARAMフィールドにはユーザ属性(ここでは、名前、年齢および好み情報など)や端末IDが登録される。
【0068】
また、ユーザの発話を意味理解したメッセージであれば、CMDフィールドには「制御コード」に対応したコマンド(ここでは、テレビの開閉、番組検索、チャンネル切替など)が登録され、PARAMフィールドには、ユーザ発話のキーワード、それぞれのキーワードの品詞(名詞、動詞、地名、俳優の名前など)、端末ID(ここでは、端末製造ID)が登録される。
【0069】
例えば、番組を検索するコマンドを実行する際に、PARAMから解析したそれぞれのキーワードを用いて番組表を検索する。前記番組表の検索には、番組の内容、俳優、カテゴリなどの絞り検索が可能である。
【0070】
次いで、対話応答PF105(302)の機能について説明する。対話応答PF105(302)は、対話シナリオに基づいてユーザとインタラクションを行うプラットフォームである。
【0071】
対話シナリオは1つ以上の状態ノードから構成され、各状態ノードでそれぞれの対話パターンが実行される。例えば、最初の状態ノードでユーザがキャラクタに放送中の番組を聞くと、キャラクタがユーザの好みに応じた推薦を行って状態ノード2へ移る。状態ノード2において、ユーザが前記推薦された番組を見たいと発話すると、STB3の電源がオンされてキャラクタがユーザ端末1からTV2の画面上にジャンプウインして状態ノード3へ移る。
【0072】
状態ノード3では、ユーザが番組の再生中に他のチャンネルの切り換えや、TV番組表の検索、VODコンテンツアプリ、YouTube(登録商標)やカラオケなどその他のアプリ307の起動などのコマンドが受け付けられる。ここで、例えばVODコンテンツアプリが起動されると状態ノード4へ移り、ユーザからの検索キーワードの発話に備えて待機する。
【0073】
対話シナリオの状態ノードおよび各状態ノード間の遷移は、実際の視聴ユースケースの統計に基づき、状態ノード遷移図を作成したものである。ユーザの入力により正確に返答するため、多数のユーザの視聴関連の事例の収集から、まず汎用的かつ基本的な状態ノードと遷移ルールを作成する。そして、徐々に状態ノード、遷移ルールのパターン追加・修正の繰り返しにより、ユーザの多様な視聴操作に関連する対話精度を向上できる。
【0074】
次いで、ユーザ属性に基づく視聴操作やコンテンツ推薦について説明する。STB3では、ユーザ端末1から送信された接続要求のメッセージが検知されると、当該メッセージから端末IDおよびユーザプロファイルが抽出されてメモリに記憶される。その後の対話でユーザから要求された視聴操作が規制対象であるか否かが判定され、音量調節や明るさ調整のようにレイティングと無関係な要求であれば、要求に応じた制御が実行される。
【0075】
これに対して、要求がレイティングの設定されているコンテンツの視聴要求であれば、要求されたコンテンツのレイティングが番組表から読み込まれ、前記抽出された端末IDと対応付けられているユーザプロファイル(ここでは、年齢)とレイティング情報とが比較される。そして、ユーザ年齢が制限対象外であれば視聴が許可される一方、ユーザ年齢が制限対象であれば視聴が拒否される。
【0076】
また、ユーザ端末1のユーザプロファイル蓄積部101には、当該ユーザの嗜好情報が蓄積されており、ユーザ端末1とSTB3との接続が確立されると、これらの嗜好情報がキャラクタ情報と共にSTB3へ転送され、番組検索やコンテンツ推薦に利用される。
【0077】
ユーザの嗜好情報には、favoritetvprogram(好みの番組名)、favoritetvgenre(好みのカテゴリ)、favoritetetalent(好みの俳優名)、favoriteplace(好みの場所)、favaritesports(好みのスポーツ)などがあり、例えば以下のような情報が紐付けられている。
favoritetvprogram/笑っていいとも/スッキリ
favoritetvgenre/ニュース/ドキュメンタリー/アニメ
favoritetetalent/宮根誠司/AKB/船越英一郎
favoriteplace/東京/韓国
favaritesports/野球/ゴルフ
【0078】
次いで、ユーザの多様な言い回しに対する意図推定方法について説明する。本実施例では、ユーザが発話したキーワードの簡単なマッチングではなく、対話の意図推定によりユーザの操作意図をより正確に捉える。
【0079】
具体的には、意味理解部104は、発話を表す文字列を入力とし、意図スロットと呼ぶ意図を表すシンボルを出力する。意図スロットには各々、その意図に属すると想定される発話文を特徴ベクトルに変換したテンプレートを複数登録しており、入力の発話文字列を変換した特徴ベクトルと各テンプレートとの類似度を計算し、最も類似度の高いテンプレートが属する意図スロットを出力している。
【0080】
具体的なアルゴリズムとして、発話文字列から類義語や数値表現を抽象化した内容語集合を抽出し、bag-of-words表現として、テンプレート辞書内で定義された内容語に対応する次元が非零となる、大きさ「1」の特徴ベクトルを作成する。この特徴ベクトルを用いて、テンプレート辞書内の各テンプレートとの類似度を計算し、最も類似度の高いテンプレートが属する意図スロットシンボルを意図推定結果として出力する。
【0081】
次いで、ユーザ端末1によるSTB3の自動発見および自動接続の手順について説明する。一般的に、STB3のIPアドレスはCATVプロバイダもしくはローカルルータのDHCPにより取得されるために一意に特定することは難しい。そこで、本発明ではSTB3のIPアドレスがユーザ端末1に通知される仕組みを導入する。
【0082】
本実施例では、ローカルネットワークに接続されたユーザ端末1がUDP経由でBroadcast探索を実行し、STB3は自分に割り当てられているIPアドレスおよび通信ポートを返信する。ユーザ端末1は、返信されたIPアドレスおよび通信ポート等の接続情報を用いてSTB3へ自動的に接続を要求する。これにより、端末ユーザはSTB3のIPアドレスを解析し、更には解析結果に基づいて手動接続する操作から解放される。
【0083】
図3は、図1の遠隔操作における図2の主要部の動作を示したシーケンスフローであり、ユーザ端末1の意味理解部104において、TV2/STB3のスイッチをオン操作する音声信号が認識されると、時刻t1,t2では、電源ON信号が対話応答PF105から無線通信部102を経由してSTB3の無線通信部301へ送信される。時刻t3では、STB3の無線通信部301からユーザ端末1へACK信号(電源ON完了)が返信される。
【0084】
時刻t4,t5では、前記キャラクタをTV2のディスプレイ上に表示させて各種の演出を行わせるために必要なキャラクタデータ(キャラクタの表示に必要な3Dモデルファイルおよびモーションファイル)が、ユーザ端末1の対話応答PF105から無線通信部102を経由してSTB3の無線通信部301へ送信される。
【0085】
時刻t6,t7では、前記キャラクタデータに対するACK(情報送信完了)がSTB3の無線通信部301からユーザ端末1の無線通信部102を経由して対話応答PF105へ返信される。これと並行して、時刻t8ではSTB3の無線通信部301から対話応答PF302へ前記キャラクタデータが転送される。
【0086】
その後、ユーザ端末2の対話応答PF105から、時刻t9においてキャラクタ表示部106へジャンプアウト描画要求が送信されると、端末ディスプレイ上ではキャラクタのジャンプアウト表示が演出される。
【0087】
時刻t10では、対話応答PF105から無線通信部102へジャンプアウト完了が通知される。時刻t11,t12では、当該無線通信部102からSTB3の無線通信部301を介して対話応答PF302へ、前記ジャンプアウト完了が送信される。時刻t13では、STB3の対話応答PF302からキャラクタ表示部303へ前記ジャンプイン描画要求が転送され、TV2において、キャラクタのジャンプイン表示が演出される。
【0088】
なお、上記の実施形態では、視聴機器がSTBである場合を例にして説明したが、本発明はこれのみに限定されるものではなく、カーナビゲーションシステムやデジタルフォトフレームなど、ディスプレイを備えて無線による遠隔操作が可能な機器であれば、どのような視聴機器にも同様に適用できる。
【符号の説明】
【0089】
1…ユーザ端末,2…TV,3…STB,102,301…無線通信部,103…音声認識部,104…意味理解部,105,302…対話応答PF,106,303…キャラクタ表示部,107,304…音声合成部,305…番組検索部,306…VODサービス部,307…アプリ部,308…制御部
図1
図2
図3