特許第6802305号(P6802305)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許6802305対話型サーバ、ディスプレイ装置及びその制御方法
<>
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000004
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000005
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000006
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000007
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000008
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000009
  • 特許6802305-対話型サーバ、ディスプレイ装置及びその制御方法 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6802305
(24)【登録日】2020年11月30日
(45)【発行日】2020年12月16日
(54)【発明の名称】対話型サーバ、ディスプレイ装置及びその制御方法
(51)【国際特許分類】
   G10L 15/10 20060101AFI20201207BHJP
   G10L 15/30 20130101ALI20201207BHJP
   G10L 15/22 20060101ALI20201207BHJP
   G06F 3/01 20060101ALI20201207BHJP
   G06F 3/0482 20130101ALI20201207BHJP
   G06F 3/16 20060101ALI20201207BHJP
【FI】
   G10L15/10 500T
   G10L15/30
   G10L15/22 460Z
   G10L15/22 453
   G06F3/01 510
   G06F3/0482
   G06F3/16 650
   G06F3/16 620
   G06F3/16 630
【請求項の数】12
【全頁数】22
(21)【出願番号】特願2019-32674(P2019-32674)
(22)【出願日】2019年2月26日
(62)【分割の表示】特願2014-670(P2014-670)の分割
【原出願日】2014年1月6日
(65)【公開番号】特開2019-133165(P2019-133165A)
(43)【公開日】2019年8月8日
【審査請求日】2019年3月6日
(31)【優先権主張番号】10-2013-0001755
(32)【優先日】2013年1月7日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】鄭 知 惠
(72)【発明者】
【氏名】金 命 哉
(72)【発明者】
【氏名】申 容 旭
(72)【発明者】
【氏名】李 宝 拉
(72)【発明者】
【氏名】李 振 ▲しく▼
(72)【発明者】
【氏名】李 清 宰
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2004−260544(JP,A)
【文献】 特表2005−500591(JP,A)
【文献】 特開2002−041276(JP,A)
【文献】 特開平08−101758(JP,A)
【文献】 特開2002−091492(JP,A)
【文献】 特開2000−250575(JP,A)
【文献】 特開2012−133243(JP,A)
【文献】 特開2000−250574(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 3/00− 3/18
(57)【特許請求の範囲】
【請求項1】
発話音声を受信し、前記発話音声をデジタル信号に変換する入力部と、
少なくとも一つのサーバと通信を行う通信部と、
画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするディスプレイ部と、
前記デジタル信号を前記少なくとも一つのサーバのうちの一つである第1サーバに伝送し、STTアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第1命令語及び実行命令を示す第2命令語を含むテキスト情報を受信するように前記通信部を制御し、
前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第2サーバに伝送し、前記テキスト情報を分析して抽出された発話要素に基づいて、前記発話音声に対応する動作を行うための応答情報を受信するように前記通信部を制御し、
前記応答情報から前記第1命令語に対応する第1情報及び前記第2命令語に対応する第2情報を識別し、
前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第1情報に対応する前記対象を示す客体を識別し、
前記第2命令語に基づいて、前記対象を示す客体に対する前記動作を行う、制御部と、
を含む、
ディスプレイ装置。
【請求項2】
前記制御部は、
前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項1に記載のディスプレイ装置。
【請求項3】
前記制御部は、
前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項2に記載のディスプレイ装置。
【請求項4】
前記第1命令語は、代名詞または方向のうち、少なくとも一つを更に含むことを特徴とする請求項1に記載のディスプレイ装置。
【請求項5】
前記制御部は、
前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするように前記ディスプレイを制御することを特徴とする請求項1に記載のディスプレイ装置。
【請求項6】
前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項1に記載のディスプレイ装置。
【請求項7】
ディスプレイ装置の制御方法において、
画面に複数のコンテンツにそれぞれ対応する複数の客体を含むコンテンツリストをディスプレイするステップと、
発話音声を受信するステップと、
前記発話音声をデジタル信号に変換するステップと、
前記デジタル信号を少なくとも一つのサーバのうちの一つである第1サーバに伝送するステップと、
STTアルゴリズムを通じて前記発話音声に対する特定パターンに基づいて生成され、前記複数の客体のうち、対象を示す客体の位置を示す序数を含む第1命令語及び実行命令を示す第2命令語を含むテキスト情報を受信するステップと、
前記テキスト情報を前記少なくとも一つのサーバのうち別の一つである第2サーバに伝送するステップと、
前記テキスト情報を分析して抽出された発話要素に基づいて前記発話音声に対応する動作を行うための応答情報を受信するステップと、
前記応答情報から前記第1命令語に対応する第1情報及び前記第2命令語に対応する第2情報を識別するステップと、
前記複数の客体のディスプレイ配列状態に基づいて、前記コンテンツリストに含まれた前記複数の客体のうち、前記第1情報に対応する前記対象を示す客体を識別するステップと、
前記第2命令語に基づいて、前記対象を示す客体に対する前記動作を行うステップと、
を含む、
制御方法。
【請求項8】
前記対象を示す客体を識別するステップは、
前記複数の客体のうちの一つに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項に記載の制御方法。
【請求項9】
前記対象を示す客体を識別するステップは、
前記複数の客体のうちの一つにディスプレイされたフォーカスに基づいて、前記序数に対応する位置の前記対象を示す客体を識別することを特徴とする請求項に記載の制御方法。
【請求項10】
前記第1命令語は、代名詞または方向のうち、少なくとも一つを更に含むことを特徴とする請求項に記載の制御方法。
【請求項11】
前記対象を示す客体が識別されると、前記コンテンツリストで残りの客体と前記対象を示す客体を異ならせてディスプレイするステップを更に含むことを特徴とする請求項に記載の制御方法。
【請求項12】
前記複数の客体のそれぞれは、対応するコンテンツを示すイメージを含むことを特徴とする請求項に記載の制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話型サーバ、ディスプレイ装置及びその制御方法に関し、より詳細には、ユーザ発話に対応する応答情報を提供するための対話型サーバ、ディスプレイ装置及びその制御方法に関する。
【背景技術】
【0002】
一般に、対話型システムにおいて音声認識の可能なディスプレイ装置は、ユーザの発話音声を収集し、その収集した発話音声をネットワークを通して接続された外部サーバに伝送する。発話音声を受信した外部サーバは発話音声を分析してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に伝送する。これにより、ディスプレイ装置は外部サーバから受信した応答情報に基づいてユーザの発話音声に対応する機能を実行するか情報を提供することができる。
【0003】
しかし、このような従来の対話型システムはユーザの発話音声を分析し、その分析結果に基づいてユーザの意図を把握するのに限界がある。例えば、「第1コンテンツ見せて」のように指す対象が明確な発話音声の場合、外部サーバはこのような発話音声を分析してユーザの意図を正しく把握し、それに応じた応答情報を生成してディスプレイ装置に伝送することができる。従って、ディスプレイ装置は応答情報に基づいてユーザが要請した第1コンテンツをディスプレイすることができる。
【0004】
しかし、「これ見せて」のように指す対象が不明確な発話音声の場合、外部サーバはこのような発話音声からユーザの意図を明確に把握することができない問題がある。要するに、従来の対話型システムは予め定義された発話音声に対してのみユーザの意図を把握してそれに応じた動作を行うか情報を提供するため、ユーザの発話に制約があるという問題がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】日本特開第2003−0177788号公報
【特許文献2】日本特開第2006−0106748号公報
【特許文献3】日本特開第2001−0034292号公報
【特許文献4】米国特開第2001−0165719号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、対話型システムにおいて多様な発話に対応する動作を行うようにすることにある。
【課題を解決するための手段】
【0007】
以上のような目的を達成するための本発明の一実施形態にかかる対話型サーバは、ディスプレイ装置と通信を行い、対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声信号を受信する通信部と、複数の指示子及び複数の命令語を保存する保存部と、第1発話要素に対応する指示子及び第2発話要素に対応する命令語を前記保存部から抽出する抽出部と、抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送する制御部と、を含み、前記第1発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。
【0008】
そして、前記第1発話要素は、代名詞、序数、方向のうち少なくとも一つを含むことができる。
【0009】
なお、前記抽出部は、前記第1発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記制御部は、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。
【0010】
そして、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体のうち前記対象を相対的に指すための実行語であってもよい。
【0011】
なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出部は、前記ディスプレイ装置の対話履歴に基づいて前記第1発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。
【0012】
そして、前記受信された発話音声信号をテキスト情報に変換する音声処理部を更に含むことができる。
【0013】
一方、本発明の一実施形態によると、ディスプレイ装置において、ディスプレイ装置はユーザの発話音声を入力してもらう入力部と、前記発話音声に対する発話音声信号をサーバ装置に伝送する通信部と、画面をディスプレイするディスプレイ部と、前記サーバ装置から、指示子及び命令語を含む応答情報が受信されると、前記ディスプレイ部の画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行う制御部と、を含む。
【0014】
そして、前記発話音声信号は、対象を示す第1発話要素及び実行命令を示す第2発話要素を含み、前記第1発話要素は前記ディスプレイ装置の画面表示状態に基づいて決定された発話要素であって、代名詞、序数、方向のうち少なくとも一つを含むことができる。
【0015】
一方、本発明の一実施形態によると、対話型サーバの制御方法において、前記方法はディスプレイ装置から対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声信号を受信するステップと、前記第1発話要素に対応する指示子及び前記第2発話要素に対応する命令語を抽出するステップと、前記抽出された指示子及び命令語を組み合わせて前記発話音声信号に対応する応答情報を生成して前記ディスプレイ装置に伝送するステップと、を含み、前記第1発話要素は前記ディスプレイ装置の画面上に表示された客体の表示状態に基づいて決定された発話要素である。
【0016】
そして、前記第1発話要素は、代名詞、序数、方向のうち少なくとも一つを含むことができる。
【0017】
なお、前記抽出するステップは、前記第1発話要素に要請情報があるか否かを判断し、前記要請情報があると、前記要請情報に対応する命令語を保存部から抽出し、前記伝送するステップは、前記抽出された命令語に基づいて前記要請情報に対応するコンテンツ情報を前記応答情報に追加することができる。
【0018】
そして、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体のうち前記対象を相対的に指すための実行語であってもよい。
【0019】
なお、前記指示子は、前記ディスプレイ装置の画面上に表示された前記客体の固有識別情報であり、前記抽出するステップは、前記ディスプレイ装置の対話履歴に基づいて前記第1発話要素が指す対象を判断し、判断された前記対象に対応する固有識別情報を前記指示子として抽出することができる。
【0020】
そして、前記受信された発話音声信号をテキスト情報に変換するステップを更に含むことができる。
【0021】
一方、本発明の一実施形態によると、ディスプレイ装置の制御方法において、前記方法はユーザの発話音声を入力してもらうステップと、前記発話音声に対する発話音声信号をサーバ装置に伝送するステップと、前記サーバ装置から指示子及び命令語を含む応答情報を受信するステップと、画面上に表示された客体の表示状態に基づいて前記指示子が指す対象を選択し、前記選択された対象に対して前記命令語に対応する動作を行うステップと、を含む。
【0022】
そして、前記発話音声信号は、対象を示す第1発話要素及び実行命令を示す第2発話要素を含み、前記第1発話要素は前記ディスプレイ装置の画面表示状態に基づいて決定された発話要素であって、代名詞、序数、方向のうち少なくとも一つを含むことができる。
【発明の効果】
【0023】
以上説明したように本発明によれば、対話型システムにおいて、対話型サーバは多様なユーザの発話音声に対してユーザの意図を把握し、それに応じた応答情報を生成してディスプレイ装置に提供することができる。
【図面の簡単な説明】
【0024】
図1】本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第1例示図である。
図2】本発明の別の実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第2例示図である。
図3】本発明の一実施形態にかかる対話型サーバのブロック図である。
図4】本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。
図5】本発明の一実施形態にかかるディスプレイ装置のブロック図である。
図6】本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。
図7】本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。
【発明を実施するための形態】
【0025】
以下、添付された図面を参照して、本発明の一実施形態をより詳細に説明する。
【0026】
図1は、本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第1例示図である。
【0027】
図1に示すように、本発明の一実施形態にかかる対話型システムは、ディスプレイ装置100及び対話型サーバ200を含む。
【0028】
ディスプレイ装置100はインターネットが可能な装置であって、スマートTV、スマートフォンのような携帯、デスクトップパソコン、ノートパソコン、ナビゲーションなどのような多様な電子装置で実現されてもよい。このようなディスプレイ装置100はユーザの発話音声が入力されると、入力されたユーザの発話音声に対応する動作を行う。具体的に、ディスプレイ装置100はユーザの発話音声に対応する応答メッセージを出力するか或はユーザの発話音声に対応する機能を行うことができる。即ち、ディスプレイ装置100は入力された発話音声を分析して内部的に行うことが可能か否かを判断し、その判断結果に応じて、入力された発話音声に対応する機能を行うか或は対話型サーバ200から受信した応答情報に基づいて動作を行うことができる。
【0029】
例えば、「音量を上げて」という発話音声が入力されると、ディスプレイ装置100は予め保存された情報のうち入力された発話音声に対応する制御情報に基づいて音量を調整することができる。
【0030】
別の例として、「今日の天気はどう」という発話音声が入力されると、ディスプレイ装置100は入力された発話音声に対する発話音声信号(以下、発話音声という)を対話型サーバ200に伝送する。ここで、発話音声はアナログ信号であってもよい。従って、ディスプレイ装置100はアナログ信号である発話音声をデジタル信号に変換して対話型サーバ200に伝送する。その後、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気に対する結果を音声またはテキスト形態の映像で出力することができる。
【0031】
対話型サーバ200はディスプレイ装置100から受信したユーザの発話音声に基づいてユーザの意図に適合した応答情報を提供する。具体的に、対話型サーバ200はディスプレイ装置100からユーザの発話音声が受信されると、受信された発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に関連した応答情報を生成して伝送することができる。前述したように、ディスプレイ装置100から受信したユーザの発話音声はデジタル信号であってもよい。従って、対話型サーバ200はデジタル信号に変換された発話音声が受信されると、これをテキスト情報に生成した後、生成されたテキスト情報を分析して発話要素を抽出し、抽出された発話要素に基づいてユーザの発話音声に対応する応答情報を生成することができる。デジタル信号に変換された発話音声からテキスト情報を生成することは公知された技術であるため、本発明では詳細な説明を省略することにする。
【0032】
一方、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードであり、目的領域(domain)、目的機能(user action)及び主要特徴(feature)別に抽出された発話要素を分類することができる。前述した例のように、「今日の天気はどう」というユーザの発話音声に対するテキスト情報が生成されると、対話型サーバ200は「今日」「天気」「どう」という発話要素を抽出することができる。その後、対話型サーバ200は抽出された発話要素のうち「今日」及び「天気」を主要特徴に対する発話要素(以下、第1発話要素という)として分類し、「どう」を目的機能に対する発話要素(以下、第2発話要素という)として分類することができる。また、対話型サーバ200は抽出された発話要素に基づいて目的領域に対する発話要素(以下、第3発話要素という)がウェブサーチというドメインに属するものとして分類することができる。このように、ユーザの発話音声に対するテキスト情報から第1乃至第3発話要素が分類されると、対話型サーバ200は多様なコンテンツを提供する外部サーバ(不図示)から天気情報を提供してもらって、これを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気情報を音声及びテキストのうち少なくとも一つを通してディスプレイすることができる。
【0033】
一方、前述した対話型サーバ200は、デジタル信号に変換されたユーザの発話音声をテキスト情報に生成する第1サーバ10及びテキスト情報に生成された発話音声に対応する応答情報を生成する第2サーバ20を含むことができる。以下では、ディスプレイ装置100、第1及び第2サーバ10、20を通してユーザの発話音声に適合した応答情報を提供する対話型システムについて詳細に説明することにする。
【0034】
図2は、本発明の別の実施形態にかかるユーザ発話音声に適語うした応答情報を提供する対話型システムの第2例示図である。
【0035】
図2に示すように、ディスプレイ装置100はユーザから発話された発話音声が入力されると、入力された発話音声をデジタル信号に変換して第1サーバ10に伝送する。デジタル信号に変換された発話音声が受信されると、第1サーバ10は予め保存された多様な発話音声に対する特定パターンに従って、ユーザの発話音声に対するテキスト情報を生成してディスプレイ装置100に伝送する。
【0036】
第1サーバ10からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置100はユーザの発話音声に対するテキスト情報を第2サーバ20に伝送する。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成してディスプレイ装置100に伝送することができる。
【0037】
今まで、本発明にかかるディスプレイ装置100と対話型サーバ200からなる対話型システムにおいて、ユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下では、前述したディスプレイ装置100及び対話型サーバ200の各構成について詳細に説明することにする。
【0038】
図3は、本発明の一実施形態にかかる対話型サーバのブロック図である。
【0039】
図3に示すように、対話型サーバ200は、通信部210、音声処理部220、保存部230、抽出部240及び制御部250を含む。
【0040】
通信部210は、ユーザの発話音声を提供するディスプレイ装置100と通信を行う。特に、通信部210は対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声に対するデジタル信号を受信することができる。ここで、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で目的機能として分類される発話要素であって、本発明ではこのような目的機能を実行命令として命名することにする。
【0041】
例えば「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素になることができ、「実行してくれ」は実行命令を示す第2発話要素になることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、音声処理部220は受信された発話音声をテキスト情報に変換する。実施形態に応じて、音声処理部220はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のような装置から受信して対話型サーバ200に伝送する。従って、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。このように、ディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信する場合、前述した音声処理部220の構成は省略されてもよい。
【0042】
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、抽出部240は保存部230から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出する。ここで、保存部230は対話型サーバ200を動作させるために必要な各種のプログラムなどが保存される保存媒体であって、メモリ、HDD(Hard Disk Drive)などで実現されてもよい。例えば、保存部230は後述する制御部250の動作を行うためのプログラムを保存するROM、制御部250の動作実行によるデータを一時的に保存するRAMなどを備えることができる。それだけでなく、保存部230は各種の参照データを保存するEEROM(Electrically Eraasable and Programmable ROM)などを更に備えることができる。特に、保存部230は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。具体的に、指示子はディスプレイ装置100の画面上に表示された複数の客体のうち対象を相対的に指すための実行語である。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行語である。
【0043】
従って、保存部230は、下記の表(1)のように対象を示すそれぞれの第1発話要素別に指示子がマッチングされたテーブルを保存することができる。
【0044】
【表1】
表(1)のように、「これ」という第1発話要素に対応する指示子は$this$になることができ、「次」という第1発話要素に対応する指示子は$this$+1になることができ、「三つ目」という第1発話要素に対応する指示子は$3rd$になることができる。
【0045】
そして、保存部230に保存される複数の命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。従って、保存部230は下記の表(2)のように実行命令を示すそれぞれの第2発話要素別に命令語がマッチングされたテーブルを保存することができる。
【0046】
【表2】
表(2)のように、「実行してくれ」という第2発話要素に対応する命令語は「execute」になることができ、「見せて」、「何」という第2発話要素に対応する命令語は「show」になることができる。
【0047】
表(1)及び表(2)に開示されたように、保存部230は対象を示す第1発話要素のそれぞれに対する指示子及び実行命令を示す第2発話要素のそれぞれに対する命令語を保存することができる。従って、抽出部240は音声処理部220を通してテキスト情報に変換されたユーザの発話音声から第1及び第2発話要素を抽出し、抽出された第1及び第2発話要素に対応する指示子及び命令語を保存部230から抽出することができる。
【0048】
制御部250は抽出部240から抽出された第1及び第2発話要素に対応する指示子及び命令語を組み合わせてユーザの発話音声に対応する応答情報を生成して通信部210を通してディスプレイ装置100に伝送する。例えば、「これ実行してくれ」というユーザの発話音声の場合、抽出部240は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0049】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
【0050】
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、抽出部240は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0051】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
【0052】
別の例として、「次実行してくれ」というユーザの発話音声の場合、抽出部240は「次」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0053】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$+1)」という実行命令スクリプトを生成することができる。
【0054】
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプトを含む応答情報をディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
【0055】
以下では、ディスプレイ装置100の画面上に表示された客体の表示状態に基づいて第1及び第2発話要素を含む発話音声がユーザによって発話されることについて具体的に説明する。
【0056】
図4は、本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。
【0057】
図4に示すように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。また、ディスプレイ装置100はリモコンまたはユーザ発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するコンテンツリスト420を画面上にディスプレイすることができる。図示されたように、コンテンツリスト420上には今まで放送された第1コンテンツに対するコンテンツ情報421〜425が表示されることができる。一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をするか或は3回次コンテンツ情報423に対応する第1コンテンツを視聴するために「三つ目実行してくれ」という発話をすることができる。
【0058】
このように、ユーザはディスプレイ装置100の画面上にディスプレイされたコンテンツリスト420から視聴しようとする回次の第1コンテンツ(対象)を示す第1発話要素及び該当回次の第1コンテンツを視聴するための実行命令を示す第2発話要素を含む発話をすることができる。従って、制御部250はこのような発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語が保存部230から抽出されると、抽出された指示子及び命令語の組み合わせで実行命令スクリプトを生成することができる。
【0059】
一方、本発明の追加的な形態に応じて、抽出部240は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、制御部250は抽出部240から抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、保存部230は要請情報に対する命令語を追加して保存することができる。例えば、「詳細情報」という要請情報は「detail information」という命令語と対応して保存されることができ、「題名」という要請情報は「title」という命令語と対応して保存されることができる。
【0060】
例えば、「これ題名は何」というユーザの発話音声の場合、抽出部240は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、抽出部240は保存部230から「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「題名」という要請情報を示す第1発話要素に対応する命令語「title」及び「何」という実行命令を示す第2発話要素に対応する命令語「show」を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
【0061】
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。要請情報を示す命令語があると、制御部250は保存部230に保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、制御部250は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報をディスプレイ装置100に伝送することができる。その後、前述したように、要請情報を示す命令語を含む実行命令スクリプトが生成されると、制御部250は以前の対話履歴情報に基づいて該当コンテンツに対する題名情報を保存部230に保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信することができる。その後、制御部250は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。
【0062】
しかし、本発明はこれに限定されず、制御部250は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
【0063】
一方、本発明の追加的な形態に応じて、保存部230に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報であってもよい。この場合、抽出部240はディスプレイ装置100の対話履歴に基づいてユーザの発話音声から抽出された第1発話要素が指す対象を判断し、判断された対象に対応する固有識別情報を指示子として抽出することができる。
【0064】
具体的に、ディスプレイ装置100と対話型サーバ200はディスプレイ装置100の画面上にディスプレイされるコンテンツに対する固有識別情報を共有することができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
【0065】
従って、抽出部240はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、判断された対象に対応する固有識別情報を保存部230から獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、抽出部240は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「これ」という第1発話要素に対応する指示子$this$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、抽出部240は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
【0066】
一方、「見ているのは題名は何」という発話音声の場合、抽出部240は「見ているのは」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「見ているのは」という第1発話要素に対応する指示子$showing_contens$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツであることと判断することができる。従って、抽出部240は「見ているのは」という第1発話要素に対する指示子である$showing_contens$を固有識別番号#1234に変換することができる。
【0067】
今まで、本発明にかかる対話型サーバ200の各構成について詳細に説明した。以下では、ユーザの発話音声が入力されるディスプレイ装置100の各構成について詳細に説明することにする。
【0068】
図5は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。
【0069】
図5に示すように、ディスプレイ装置100は、入力部110、通信部120、ディスプレイ部130及び制御部140を含む。
【0070】
入力部110はユーザから発話された発話音声が入力される。具体的に、入力部110はアナログ形態のユーザの発話音声が入力されると、入力されたユーザ発話音声をサンプリングしてデジタル信号に変換する。この時、入力部110は入力されたユーザの発話音声にノイズ(例えば、エアコン音、掃除機音など)がある場合、ノイズを除去した後、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。それだけでなく、入力部110は多様なユーザ操作を入力してもらって制御部140に伝達する機能を行うことができる。この場合、入力部110はタッチパッド(Touch Pad)或は各種機能キー、数字キー、特殊キー、文字キーなどを備えたキーパッド(Key Pad)又はタッチスクリーン(Touch Screen)を通してユーザ操作命令を入力してもらうことができる。
【0071】
通信部120は入力部110を通して入力されたユーザの発話音声をサーバ装置(以下、対話型サーバという)に伝送し、伝送された発話音声に対応する応答情報を受信する。ここで、通信部120は近距離無線通信モジュール(不図示)、無線通信モジュール(不図示)などのような多様な通信モジュールを含むことができる。ここで、近距離無線通信モジュール(不図示)は近距離に位置した対話型サーバ200及びコンテンツを提供する外部サーバ(不図示)と無線通信を行う通信モジュールであって、例えば、ブルトゥース、ジグビーなどでもよい。無線通信モジュール(不図示)はワイファイ(WiFi)、IEEEなどのような無線通信プロトコルに従って外部ネットワークに接続され通信を行うモジュールである。そのほか、無線通信モジュールは3G(3rd Generation)、3GPP(3rd Generation Partnership Project)、LTE(Long Term Evolution)などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールを更に含むこともできる。
【0072】
ディスプレイ部130は液晶表示装置(Liquid Crystal Display、LCD)、有機電気発光ダイオード(Organic Light Emitting Display、OLED)又はプラズマ表示パネル(Plasma Display Panel、PDP)などで実現され、ディスプレイ装置100を通して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部161は対話型サーバ200から受信した応答情報に基づいてユーザの発話音声に対応するコンテンツ或はコンテンツ情報をディスプレイする。
【0073】
制御部140はディスプレイ装置100の構成を全般的に制御する。特に、制御部140は対話型サーバ200から指示子及び命令語の組み合わせで生成された実行命令スクリプトを含む応答情報が受信されると、ディスプレイ部130の画面上に表示された客体の表示状態に基づいて指示子が指す対象を選択する。その後、制御部140は選択された対象に対して命令語に対応する動作を行う。
【0074】
具体的に、図4において説明したように、ディスプレイ部130は制御部140の制御命令に従って、ユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
【0075】
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
【0076】
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、通信部120は対話型サーバ200に入力された発話音声を伝送する。発話音声を受信した対話型サーバ200は受信した発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出した指示子及び命令語の組み合わせで実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、対話型サーバ200は第1発話要素に対応する「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
【0077】
このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、制御部140は実行命令スクリプトを解析して画面上に表示された客体のうち一つの客体を選択し、選択された客体に対する実行を行う。具体的に、制御部140は実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($this$)」という実行命令スクリプトから指示子は「$this$」であり、命令語は「execute」であると区分することができる。
【0078】
このように、実行命令スクリプトから指示子及び命令語が区分されると、制御部140は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図4に示されるように、ディスプレイ部130はユーザが要請したチャネルを通して受信されたコンテンツ410をディスプレイし、これと共にユーザが要請した第1コンテンツに対する回次別コンテンツ情報421〜425を含むコンテンツリスト420を表示することができる。なお、ディスプレイ部130は予め設定された条件に基づいてコンテンツリスト420に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ部130は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。一方、1回次コンテンツ情報421にハイライトが表示された状態で、入力部110を通してユーザの操作命令が入力されると、ディスプレイ部130は入力されたユーザの操作命令に対応するコンテンツ情報(1回次コンテンツ情報421を除いたその他の回次別コンテンツ情報422〜425のうち一つ)にハイライトを表示することができる。この場合、ユーザの操作命令に対応してハイライトが表示されたコンテンツ情報が優先的に選択されるように設定されることができる。
【0079】
従って、実行命令スクリプトから区分された指示子が「$this$」であると、制御部140は現在ハイライトが表示されたコンテンツ情報を指すものと判断することができる。即ち、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$this$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、制御部140は実行命令スクリプトから区部された命令語である「execute」に基いて選択された1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0080】
前述したまた別の例のように、対話型サーバ200は「三つ目実行してくれ」というユーザの発話音声から「execute($3rd$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送することができる。このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($3rd$)」という実行命令スクリプトから「$3rd$」という指示子と「execute」という命令語を区分することができる。一方、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$3rd$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に三つ目に位置する3回次コンテンツ情報423を選択することができる。このように、3回次コンテンツ情報423が選択されると、制御部140は実行命令スクリプトから区分された命令語である「execute」に基づいて選択された3回次コンテンツ情報423に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0081】
今まで、本発明にかかるユーザの発話音声を認識し、認識された発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の各構成について詳細に説明した。以下では、ユーザの発話音声に対応する応答情報を提供する対話型サーバ200及び応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
【0082】
図6は、本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。
【0083】
図6に示すように、対話型サーバ200はディスプレイ装置100から対象を示す第1発話要素及び実行命令を示す第2発話要素を含むユーザの発話音声を受信するS610。ここで、ユーザの発話音声はアナログ形態の音声信号からデジタル信号に変換された音声信号である。そして、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で実行命令として分類された発話要素となることができる。
【0084】
例えば、「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素となることができ、「実行してくれ」は実行命令を示す第2発話要素となることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、対話型サーバ200は受信された発話音声をテキスト情報に変換するS620。実施形態に応じて、対話型サーバ200はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のようなASRサーバから受信して対話型サーバ200に伝送する。従って、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。
【0085】
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、対話型サーバ200はテキスト情報に変換された発話音声から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出するS630。具体的に、対話型サーバ200は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。より具体的に、指示子はディスプレイ装置100の画面上に表示された客体のうち対象を相対的に指すための実行語となることができる。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行語である。そして、命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。従って、対話型サーバ200は表(1)及び表(2)のように、対象を示す第1発話要素別指示子及び実行命令を示す第2発話要素別命令語がマッチングされたテーブルを保存することができる。これにより、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出することができる。
【0086】
第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて発話音声に対応する応答情報を生成し、これをディスプレイ装置100に伝送するS640。
【0087】
例えば、「これ実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように、「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
【0088】
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
【0089】
このような実行命令スクリプトが生成されると、対話型サーバ200は生成された実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
【0090】
一方、対話型サーバ200は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、対話型サーバ200は抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、対話型サーバ200は要請情報別命令語をマッチングさせたテーブルを追加して保存することができる。例えば、対話型サーバ200は「詳細情報」という要請情報と「detail information」という命令語をマッチングさせて保存することができ、「題名」という要請情報と「title」という命令語をマッチングさせて保存することができる。
【0091】
例えば、「これ題名は何」というユーザの発話音声の場合、対話型サーバ200は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルを参照して「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
【0092】
このような実行命令スクリプトが生成されると、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。判断結果、実行命令スクリプト内に命令語があると、対話型サーバ200は予め保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、対話型サーバ200は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。その後、「これ題名は何」というユーザの発話音声が受信されると、対話型サーバ200は前述した段階を通してユーザの発話音声に対する実行命令スクリプトを生成する。その後、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報に対する命令語が含まれていると、予め保存されたディスプレイ装置100との対話履歴情報に基づいて該当コンテンツに対する題名情報をEPG情報から獲得するか或は外部サーバ(不図示)から受信する。その後、対話型サーバ200は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送する。
【0093】
しかし、本発明はこれに限定されず、対話型サーバ200は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
【0094】
一方、本発明の追加的な形態に応じて、対話型サーバ200に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報となることができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
【0095】
従って、対話型サーバ200はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、予め保存された固有識別情報のうち判断された対象に対応する固有識別情報を獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、対話型サーバ200は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、対話型サーバ200は予め保存された第1発話要素別指示子のうち「これ」という第1発話要素に対応する指示子$this$を抽出することができる。このような指示子が抽出されると、対話型サーバ200は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、対話型サーバ200は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
【0096】
以下では、ユーザの発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
【0097】
図7は、本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。
【0098】
図7に示すように、ディスプレイ装置100はユーザの発話音声を入力してもらうS710。ユーザの発話音声が入力されると、ディスプレイ装置100は入力されたユーザの発話音声を対話型サーバ200に伝送するS720。具体的に、ディスプレイ装置100はアナログ形態のユーザの発話音声が入力されると、入力されたユーザの発話音声をデジタル信号に変換する。この時、ディスプレイ装置100は入力されたユーザの発話音声にノイズがあるか否かを判断し、ノイズがあると、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。
【0099】
このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置100は対話型サーバ200へデジタル信号に変換されたユーザの発話音声を伝送し、それに応じた応答情報を受信するS730。応答情報が受信されると、ディスプレイ装置100は画面上に表示された客体の表示状態に基づいて応答情報に含まれた指示子が指す対象を選択し、選択された対象に対して応答情報に含まれた命令に対応する動作を行うS740。
【0100】
具体的に、図4において説明したように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
【0101】
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
【0102】
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、ディスプレイ装置100は対話型サーバ200へ入力された発話音声をデジタル信号に変換して伝送する。これにより、対話型サーバ200は、前述したように、入力された発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて「execute($this$)」実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
【0103】
このような応答情報が受信されると、ディスプレイ装置100は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、ディスプレイ装置100は実行命令スクリプトを解析して指示子は「$this$」であり、命令語は「execute」であると区分することができる。
【0104】
このように、実行命令スクリプトから指示子及び命令語が区分されると、ディスプレイ装置100は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。図4に示されるように、ディスプレイ装置100はコンテンツリスト420上に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。ここで、ハイライトが表示された1回次コンテンツ情報421はユーザが指示する対象に該当する客体を選択するための基準となることができる。従って、ディスプレイ装置100は実行命令スクリプトから区分された指示子が「$this$」であると、ハイライトが表示された1回次コンテンツ情報421を指示するものと判断して、1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0105】
また別の例として、ディスプレイ装置100は対話型サーバ200から「次実行してくれ」というユーザの発話音声に対応して「execute($this$+1)」という実行命令スクリプトを含む応答情報を受信することができる。この場合、ディスプレイ装置100は受信した応答情報に含まれた実行命令スクリプトを解析して「$this$+1」という指示子と「execute」という命令語を区分することができる。一方、図4のように、1回次コンテンツ情報421にハイライトが表示されていると、ディスプレイ装置100は「$this$+1」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に次に位置する2回次コンテンツ情報422を選択することができる。このように、2回次コンテンツ情報422が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて2回次コンテンツ情報422に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0106】
今まで、本発明についてその好ましい実施形態を中心に説明した。
【0107】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0108】
10 第1サーバ
20 第2サーバ
100 ディスプレイ装置
110 入力部
120、210 通信部
130 ディスプレイ部
140、250 制御部
200 対話型サーバ
220 音声処理部
230 保存部
240 抽出部
410 コンテンツ
420 コンテンツリスト
421 第1コンテンツ(1回)
422 第1コンテンツ(2回)
423 第1コンテンツ(3回)
424 第1コンテンツ(9回)
425 第1コンテンツ(10回)
図1
図2
図3
図4
図5
図6
図7