(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0025】
以下、添付された図面を参照して、本発明の一実施形態をより詳細に説明する。
【0026】
図1は、本発明の一実施形態にかかるユーザ発話音声に適合した応答情報を提供する対話型システムの第1例示図である。
【0027】
図1に示すように、本発明の一実施形態にかかる対話型システムは、ディスプレイ装置100及び対話型サーバ200を含む。
【0028】
ディスプレイ装置100はインターネットが可能な装置であって、スマートTV、スマートフォンのような携帯、デスクトップパソコン、ノートパソコン、ナビゲーションなどのような多様な電子装置で実現されてもよい。このようなディスプレイ装置100はユーザの発話音声が入力されると、入力されたユーザの発話音声に対応する動作を行う。具体的に、ディスプレイ装置100はユーザの発話音声に対応する応答メッセージを出力するか或はユーザの発話音声に対応する機能を行うことができる。即ち、ディスプレイ装置100は入力された発話音声を分析して内部的に行うことが可能か否かを判断し、その判断結果に応じて、入力された発話音声に対応する機能を行うか或は対話型サーバ200から受信した応答情報に基づいて動作を行うことができる。
【0029】
例えば、「音量を上げて」という発話音声が入力されると、ディスプレイ装置100は予め保存された情報のうち入力された発話音声に対応する制御情報に基づいて音量を調整することができる。
【0030】
別の例として、「今日の天気はどう」という発話音声が入力されると、ディスプレイ装置100は入力された発話音声に対する発話音声信号(以下、発話音声という)を対話型サーバ200に伝送する。ここで、発話音声はアナログ信号であってもよい。従って、ディスプレイ装置100はアナログ信号である発話音声をデジタル信号に変換して対話型サーバ200に伝送する。その後、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気に対する結果を音声またはテキスト形態の映像で出力することができる。
【0031】
対話型サーバ200はディスプレイ装置100から受信したユーザの発話音声に基づいてユーザの意図に適合した応答情報を提供する。具体的に、対話型サーバ200はディスプレイ装置100からユーザの発話音声が受信されると、受信された発話音声から発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に関連した応答情報を生成して伝送することができる。前述したように、ディスプレイ装置100から受信したユーザの発話音声はデジタル信号であってもよい。従って、対話型サーバ200はデジタル信号に変換された発話音声が受信されると、これをテキスト情報に生成した後、生成されたテキスト情報を分析して発話要素を抽出し、抽出された発話要素に基づいてユーザの発話音声に対応する応答情報を生成することができる。デジタル信号に変換された発話音声からテキスト情報を生成することは公知された技術であるため、本発明では詳細な説明を省略することにする。
【0032】
一方、発話要素は、ユーザの発話音声内でユーザが要請した動作を行うための核心キーワードであり、目的領域(domain)、目的機能(user action)及び主要特徴(feature)別に抽出された発話要素を分類することができる。前述した例のように、「今日の天気はどう」というユーザの発話音声に対するテキスト情報が生成されると、対話型サーバ200は「今日」「天気」「どう」という発話要素を抽出することができる。その後、対話型サーバ200は抽出された発話要素のうち「今日」及び「天気」を主要特徴に対する発話要素(以下、第1発話要素という)として分類し、「どう」を目的機能に対する発話要素(以下、第2発話要素という)として分類することができる。また、対話型サーバ200は抽出された発話要素に基づいて目的領域に対する発話要素(以下、第3発話要素という)がウェブサーチというドメインに属するものとして分類することができる。このように、ユーザの発話音声に対するテキスト情報から第1乃至第3発話要素が分類されると、対話型サーバ200は多様なコンテンツを提供する外部サーバ(不図示)から天気情報を提供してもらって、これを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に基づいて今日の天気情報を音声及びテキストのうち少なくとも一つを通してディスプレイすることができる。
【0033】
一方、前述した対話型サーバ200は、デジタル信号に変換されたユーザの発話音声をテキスト情報に生成する第1サーバ10及びテキスト情報に生成された発話音声に対応する応答情報を生成する第2サーバ20を含むことができる。以下では、ディスプレイ装置100、第1及び第2サーバ10、20を通してユーザの発話音声に適合した応答情報を提供する対話型システムについて詳細に説明することにする。
【0034】
図2は、本発明の別の実施形態にかかるユーザ発話音声に適語うした応答情報を提供する対話型システムの第2例示図である。
【0035】
図2に示すように、ディスプレイ装置100はユーザから発話された発話音声が入力されると、入力された発話音声をデジタル信号に変換して第1サーバ10に伝送する。デジタル信号に変換された発話音声が受信されると、第1サーバ10は予め保存された多様な発話音声に対する特定パターンに従って、ユーザの発話音声に対するテキスト情報を生成してディスプレイ装置100に伝送する。
【0036】
第1サーバ10からユーザの発話音声に対するテキスト情報を受信したディスプレイ装置100はユーザの発話音声に対するテキスト情報を第2サーバ20に伝送する。ユーザの発話音声に対するテキスト情報を受信した第2サーバ20は受信したテキスト情報を分析して発話要素を抽出し、その抽出された発話要素に基づいてユーザの発話音声に対応する動作を行うための応答情報を生成してディスプレイ装置100に伝送することができる。
【0037】
今まで、本発明にかかるディスプレイ装置100と対話型サーバ200からなる対話型システムにおいて、ユーザの発話音声に対応する応答情報を提供する動作について概略的に説明した。以下では、前述したディスプレイ装置100及び対話型サーバ200の各構成について詳細に説明することにする。
【0038】
図3は、本発明の一実施形態にかかる対話型サーバのブロック図である。
【0039】
図3に示すように、対話型サーバ200は、通信部210、音声処理部220、保存部230、抽出部240及び制御部250を含む。
【0040】
通信部210は、ユーザの発話音声を提供するディスプレイ装置100と通信を行う。特に、通信部210は対象を示す第1発話要素及び実行命令を示す第2発話要素を含む発話音声に対するデジタル信号を受信することができる。ここで、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で目的機能として分類される発話要素であって、本発明ではこのような目的機能を実行命令として命名することにする。
【0041】
例えば「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素になることができ、「実行してくれ」は実行命令を示す第2発話要素になることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、音声処理部220は受信された発話音声をテキスト情報に変換する。実施形態に応じて、音声処理部220はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のような装置から受信して対話型サーバ200に伝送する。従って、通信部210はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。このように、ディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信する場合、前述した音声処理部220の構成は省略されてもよい。
【0042】
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、抽出部240は保存部230から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出する。ここで、保存部230は対話型サーバ200を動作させるために必要な各種のプログラムなどが保存される保存媒体であって、メモリ、HDD(Hard Disk Drive)などで実現されてもよい。例えば、保存部230は後述する制御部250の動作を行うためのプログラムを保存するROM、制御部250の動作実行によるデータを一時的に保存するRAMなどを備えることができる。それだけでなく、保存部230は各種の参照データを保存するEEROM(Electrically Eraasable and Programmable ROM)などを更に備えることができる。特に、保存部230は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。具体的に、指示子はディスプレイ装置100の画面上に表示された複数の客体のうち対象を相対的に指すための実行語である。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行語である。
【0043】
従って、保存部230は、下記の表(1)のように対象を示すそれぞれの第1発話要素別に指示子がマッチングされたテーブルを保存することができる。
【0044】
【表1】
表(1)のように、「これ」という第1発話要素に対応する指示子は$this$になることができ、「次」という第1発話要素に対応する指示子は$this$+1になることができ、「三つ目」という第1発話要素に対応する指示子は$3rd$になることができる。
【0045】
そして、保存部230に保存される複数の命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態に動作を行うようにするための実行情報である。従って、保存部230は下記の表(2)のように実行命令を示すそれぞれの第2発話要素別に命令語がマッチングされたテーブルを保存することができる。
【0046】
【表2】
表(2)のように、「実行してくれ」という第2発話要素に対応する命令語は「execute」になることができ、「見せて」、「何」という第2発話要素に対応する命令語は「show」になることができる。
【0047】
表(1)及び表(2)に開示されたように、保存部230は対象を示す第1発話要素のそれぞれに対する指示子及び実行命令を示す第2発話要素のそれぞれに対する命令語を保存することができる。従って、抽出部240は音声処理部220を通してテキスト情報に変換されたユーザの発話音声から第1及び第2発話要素を抽出し、抽出された第1及び第2発話要素に対応する指示子及び命令語を保存部230から抽出することができる。
【0048】
制御部250は抽出部240から抽出された第1及び第2発話要素に対応する指示子及び命令語を組み合わせてユーザの発話音声に対応する応答情報を生成して通信部210を通してディスプレイ装置100に伝送する。例えば、「これ実行してくれ」というユーザの発話音声の場合、抽出部240は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0049】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
【0050】
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、抽出部240は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0051】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
【0052】
別の例として、「次実行してくれ」というユーザの発話音声の場合、抽出部240は「次」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、抽出部240は保存部230から抽出された第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、抽出部240は表(1)及び表(2)に開示されたテーブルに基づいて「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。
【0053】
このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「次」という対象を示す第1発話要素に対応する指示子「$this$+1」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$+1)」という実行命令スクリプトを生成することができる。
【0054】
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプトを含む応答情報をディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
【0055】
以下では、ディスプレイ装置100の画面上に表示された客体の表示状態に基づいて第1及び第2発話要素を含む発話音声がユーザによって発話されることについて具体的に説明する。
【0056】
図4は、本発明の一実施形態にかかるディスプレイ装置の画面上に表示された客体の表示状態に基づいて発話される発話音声の例示図である。
【0057】
図4に示すように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。また、ディスプレイ装置100はリモコンまたはユーザ発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するコンテンツリスト420を画面上にディスプレイすることができる。図示されたように、コンテンツリスト420上には今まで放送された第1コンテンツに対するコンテンツ情報421〜425が表示されることができる。一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をするか或は3回次コンテンツ情報423に対応する第1コンテンツを視聴するために「三つ目実行してくれ」という発話をすることができる。
【0058】
このように、ユーザはディスプレイ装置100の画面上にディスプレイされたコンテンツリスト420から視聴しようとする回次の第1コンテンツ(対象)を示す第1発話要素及び該当回次の第1コンテンツを視聴するための実行命令を示す第2発話要素を含む発話をすることができる。従って、制御部250はこのような発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語が保存部230から抽出されると、抽出された指示子及び命令語の組み合わせで実行命令スクリプトを生成することができる。
【0059】
一方、本発明の追加的な形態に応じて、抽出部240は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、制御部250は抽出部240から抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、保存部230は要請情報に対する命令語を追加して保存することができる。例えば、「詳細情報」という要請情報は「detail information」という命令語と対応して保存されることができ、「題名」という要請情報は「title」という命令語と対応して保存されることができる。
【0060】
例えば、「これ題名は何」というユーザの発話音声の場合、抽出部240は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、抽出部240は保存部230から「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、制御部250は抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、制御部250は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「題名」という要請情報を示す第1発話要素に対応する命令語「title」及び「何」という実行命令を示す第2発話要素に対応する命令語「show」を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
【0061】
このような実行命令スクリプトが生成されると、制御部250は生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。要請情報を示す命令語があると、制御部250は保存部230に保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、制御部250は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報をディスプレイ装置100に伝送することができる。その後、前述したように、要請情報を示す命令語を含む実行命令スクリプトが生成されると、制御部250は以前の対話履歴情報に基づいて該当コンテンツに対する題名情報を保存部230に保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信することができる。その後、制御部250は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。
【0062】
しかし、本発明はこれに限定されず、制御部250は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
【0063】
一方、本発明の追加的な形態に応じて、保存部230に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報であってもよい。この場合、抽出部240はディスプレイ装置100の対話履歴に基づいてユーザの発話音声から抽出された第1発話要素が指す対象を判断し、判断された対象に対応する固有識別情報を指示子として抽出することができる。
【0064】
具体的に、ディスプレイ装置100と対話型サーバ200はディスプレイ装置100の画面上にディスプレイされるコンテンツに対する固有識別情報を共有することができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、
図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
【0065】
従って、抽出部240はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、判断された対象に対応する固有識別情報を保存部230から獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、抽出部240は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「これ」という第1発話要素に対応する指示子$this$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、抽出部240は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
【0066】
一方、「見ているのは題名は何」という発話音声の場合、抽出部240は「見ているのは」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、抽出部240は「見ているのは」という第1発話要素に対応する指示子$showing_contens$を保存部230から抽出することができる。このような指示子が抽出されると、抽出部240は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツであることと判断することができる。従って、抽出部240は「見ているのは」という第1発話要素に対する指示子である$showing_contens$を固有識別番号#1234に変換することができる。
【0067】
今まで、本発明にかかる対話型サーバ200の各構成について詳細に説明した。以下では、ユーザの発話音声が入力されるディスプレイ装置100の各構成について詳細に説明することにする。
【0068】
図5は、本発明の一実施形態にかかるディスプレイ装置のブロック図である。
【0069】
図5に示すように、ディスプレイ装置100は、入力部110、通信部120、ディスプレイ部130及び制御部140を含む。
【0070】
入力部110はユーザから発話された発話音声が入力される。具体的に、入力部110はアナログ形態のユーザの発話音声が入力されると、入力されたユーザ発話音声をサンプリングしてデジタル信号に変換する。この時、入力部110は入力されたユーザの発話音声にノイズ(例えば、エアコン音、掃除機音など)がある場合、ノイズを除去した後、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。それだけでなく、入力部110は多様なユーザ操作を入力してもらって制御部140に伝達する機能を行うことができる。この場合、入力部110はタッチパッド(Touch Pad)或は各種機能キー、数字キー、特殊キー、文字キーなどを備えたキーパッド(Key Pad)又はタッチスクリーン(Touch Screen)を通してユーザ操作命令を入力してもらうことができる。
【0071】
通信部120は入力部110を通して入力されたユーザの発話音声をサーバ装置(以下、対話型サーバという)に伝送し、伝送された発話音声に対応する応答情報を受信する。ここで、通信部120は近距離無線通信モジュール(不図示)、無線通信モジュール(不図示)などのような多様な通信モジュールを含むことができる。ここで、近距離無線通信モジュール(不図示)は近距離に位置した対話型サーバ200及びコンテンツを提供する外部サーバ(不図示)と無線通信を行う通信モジュールであって、例えば、ブルトゥース、ジグビーなどでもよい。無線通信モジュール(不図示)はワイファイ(WiFi)、IEEEなどのような無線通信プロトコルに従って外部ネットワークに接続され通信を行うモジュールである。そのほか、無線通信モジュールは3G(3rd Generation)、3GPP(3rd Generation Partnership Project)、LTE(Long Term Evolution)などのような多様な移動通信規格に従って移動通信網に接続して通信を行う移動通信モジュールを更に含むこともできる。
【0072】
ディスプレイ部130は液晶表示装置(Liquid Crystal Display、LCD)、有機電気発光ダイオード(Organic Light Emitting Display、OLED)又はプラズマ表示パネル(Plasma Display Panel、PDP)などで実現され、ディスプレイ装置100を通して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部161は対話型サーバ200から受信した応答情報に基づいてユーザの発話音声に対応するコンテンツ或はコンテンツ情報をディスプレイする。
【0073】
制御部140はディスプレイ装置100の構成を全般的に制御する。特に、制御部140は対話型サーバ200から指示子及び命令語の組み合わせで生成された実行命令スクリプトを含む応答情報が受信されると、ディスプレイ部130の画面上に表示された客体の表示状態に基づいて指示子が指す対象を選択する。その後、制御部140は選択された対象に対して命令語に対応する動作を行う。
【0074】
具体的に、
図4において説明したように、ディスプレイ部130は制御部140の制御命令に従って、ユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
【0075】
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421〜425を参照して特定回次に対応する第1コンテンツを視聴するための発話をすることができる。例えば、ユーザは1回次コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
【0076】
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、通信部120は対話型サーバ200に入力された発話音声を伝送する。発話音声を受信した対話型サーバ200は受信した発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出した指示子及び命令語の組み合わせで実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。即ち、対話型サーバ200は第1発話要素に対応する「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を組み合わせて「execute($this$)」という実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
【0077】
このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、制御部140は実行命令スクリプトを解析して画面上に表示された客体のうち一つの客体を選択し、選択された客体に対する実行を行う。具体的に、制御部140は実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($this$)」という実行命令スクリプトから指示子は「$this$」であり、命令語は「execute」であると区分することができる。
【0078】
このように、実行命令スクリプトから指示子及び命令語が区分されると、制御部140は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。
図4に示されるように、ディスプレイ部130はユーザが要請したチャネルを通して受信されたコンテンツ410をディスプレイし、これと共にユーザが要請した第1コンテンツに対する回次別コンテンツ情報421〜425を含むコンテンツリスト420を表示することができる。なお、ディスプレイ部130は予め設定された条件に基づいてコンテンツリスト420に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ部130は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。一方、1回次コンテンツ情報421にハイライトが表示された状態で、入力部110を通してユーザの操作命令が入力されると、ディスプレイ部130は入力されたユーザの操作命令に対応するコンテンツ情報(1回次コンテンツ情報421を除いたその他の回次別コンテンツ情報422〜425のうち一つ)にハイライトを表示することができる。この場合、ユーザの操作命令に対応してハイライトが表示されたコンテンツ情報が優先的に選択されるように設定されることができる。
【0079】
従って、実行命令スクリプトから区分された指示子が「$this$」であると、制御部140は現在ハイライトが表示されたコンテンツ情報を指すものと判断することができる。即ち、
図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$this$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、制御部140は実行命令スクリプトから区部された命令語である「execute」に基いて選択された1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0080】
前述したまた別の例のように、対話型サーバ200は「三つ目実行してくれ」というユーザの発話音声から「execute($3rd$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送することができる。このような応答情報が受信されると、制御部140は受信された応答情報に含まれた実行命令スクリプトを解析して指示子及び命令語を区分する。即ち、制御部140は「execute($3rd$)」という実行命令スクリプトから「$3rd$」という指示子と「execute」という命令語を区分することができる。一方、
図4のように、1回次コンテンツ情報421にハイライトが表示されていると、制御部140は「$3rd$」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に三つ目に位置する3回次コンテンツ情報423を選択することができる。このように、3回次コンテンツ情報423が選択されると、制御部140は実行命令スクリプトから区分された命令語である「execute」に基づいて選択された3回次コンテンツ情報423に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0081】
今まで、本発明にかかるユーザの発話音声を認識し、認識された発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の各構成について詳細に説明した。以下では、ユーザの発話音声に対応する応答情報を提供する対話型サーバ200及び応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
【0082】
図6は、本発明の一実施形態にかかる対話型サーバの制御方法に対するフローチャートである。
【0083】
図6に示すように、対話型サーバ200はディスプレイ装置100から対象を示す第1発話要素及び実行命令を示す第2発話要素を含むユーザの発話音声を受信するS610。ここで、ユーザの発話音声はアナログ形態の音声信号からデジタル信号に変換された音声信号である。そして、第1発話要素はユーザの発話音声内で主要特徴として分類される発話要素である。このような第1発話要素がディスプレイ装置100の画面上に表示された客体の表示状態に基づいて決定された発話要素である場合、第1発話要素は対象を示す発話要素となることができる。即ち、第1発話要素は代名詞、序数、方向のうち少なくとも一つを通して対象を示す発話要素となることができる。そして、第2発話要素はユーザの発話音声内で実行命令として分類された発話要素となることができる。
【0084】
例えば、「これ実行してくれ」という発話音声の場合、「これ」は代名詞を示す第1発話要素となることができ、「実行してくれ」は実行命令を示す第2発話要素となることができる。このような第1及び第2発話要素を含む発話音声に対するデジタル信号が受信されると、対話型サーバ200は受信された発話音声をテキスト情報に変換するS620。実施形態に応じて、対話型サーバ200はSTT(Speech to Text)アルゴリズムを利用して受信されたユーザの発話音声をテキストに変換することができる。しかし、本発明はこれに限定されず、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。この場合、ディスプレイ装置100は入力されたユーザの発話音声に対するテキスト情報を前述した第1サーバ10のようなASRサーバから受信して対話型サーバ200に伝送する。従って、対話型サーバ200はディスプレイ装置100からユーザの発話音声に対するテキスト情報を受信することができる。
【0085】
このように、ユーザの発話音声がテキスト情報に変換されるか或はディスプレイ装置100からユーザの発話音声に対するテキスト情報が受信されると、対話型サーバ200はテキスト情報に変換された発話音声から第1発話要素に対応する指示子及び第2発話要素に対応する命令語を抽出するS630。具体的に、対話型サーバ200は複数の指示子及び複数の命令語を保存することができる。ここで、複数の指示子及び複数の命令語はユーザの発話音声から抽出された発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。より具体的に、指示子はディスプレイ装置100の画面上に表示された客体のうち対象を相対的に指すための実行語となることができる。言い換えると、指示子はユーザの発話音声から抽出された発話要素のうち代名詞、序数、方向のような対象を示す第1発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行語である。そして、命令語はユーザの発話音声から抽出された発話要素のうち実行命令を示す第2発話要素に基づいてディスプレイ装置100で解析可能な形態で動作を行うための実行情報である。従って、対話型サーバ200は表(1)及び表(2)のように、対象を示す第1発話要素別指示子及び実行命令を示す第2発話要素別命令語がマッチングされたテーブルを保存することができる。これにより、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出することができる。
【0086】
第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて発話音声に対応する応答情報を生成し、これをディスプレイ装置100に伝送するS640。
【0087】
例えば、「これ実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「これ」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように、「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($this$)」という実行命令スクリプトを生成することができる。
【0088】
別の例として「三つ目実行してくれ」というユーザの発話音声の場合、対話型サーバ200は「三つ目」という対象を示す第1発話要素及び「実行してくれ」という実行命令を示す第2発話要素を抽出することができる。このような第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルから第1及び第2発話要素に対応する指示子及び命令語を抽出する。即ち、対話型サーバ200は表(1)及び表(2)に開示されたテーブルのように「三つ目」という対象を示す第1発話要素に対応する指示子「$3rd$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出することができる。その後、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「execute($3rd$)」という実行命令スクリプトを生成することができる。
【0089】
このような実行命令スクリプトが生成されると、対話型サーバ200は生成された実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。これにより、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトに基づいて画面上に表示された客体のうちユーザが指した対象に対応する客体を選択し、選択された客体をディスプレイすることができる。
【0090】
一方、対話型サーバ200は第1発話要素に要請情報があるか否かを判断し、要請情報があると、要請情報に対応する命令語を抽出する。その後、対話型サーバ200は抽出された命令語に基づいて要請情報に対応するコンテンツ情報を応答情報に追加してディスプレイ装置100に伝送することができる。これのため、対話型サーバ200は要請情報別命令語をマッチングさせたテーブルを追加して保存することができる。例えば、対話型サーバ200は「詳細情報」という要請情報と「detail information」という命令語をマッチングさせて保存することができ、「題名」という要請情報と「title」という命令語をマッチングさせて保存することができる。
【0091】
例えば、「これ題名は何」というユーザの発話音声の場合、対話型サーバ200は「これ」と「題名」という第1発話要素と「何」という実行命令を示す第2発話要素を抽出することができる。ここで、抽出された「これ」という第1発話要素は対象を示す発話要素であり、「題名」という第1発話要素は要請情報を示す発話要素になることができる。このように、第1及び第2発話要素が抽出されると、対話型サーバ200は予め保存されたテーブルを参照して「これ」という第1発話要素に対応する指示子「$this$」と「題名」という第1発話要素に対応する命令語「title」と「何」という第2発話要素に対応する命令語「show」を抽出することができる。このように、第1及び第2発話要素に対応する指示子及び命令語が抽出されると、対話型サーバ200は抽出された指示子及び命令語を組み合わせて「show(title)at($this$)」という実行命令スクリプトを生成することができる。
【0092】
このような実行命令スクリプトが生成されると、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報を示す命令語が含まれているか否かを判断する。判断結果、実行命令スクリプト内に命令語があると、対話型サーバ200は予め保存されたディスプレイ装置100との対話履歴情報に基づいて要請情報に対応するコンテンツ情報の獲得有無を判断する。例えば、対話型サーバ200は「これ題名は何」というユーザの発話音声以前に受信された「アクション映画見せて」というユーザの発話音声に基づいてアクション映画に対するコンテンツ情報を含む応答情報を生成してディスプレイ装置100に伝送することができる。その後、「これ題名は何」というユーザの発話音声が受信されると、対話型サーバ200は前述した段階を通してユーザの発話音声に対する実行命令スクリプトを生成する。その後、対話型サーバ200は予め生成された実行命令スクリプト内に要請情報に対する命令語が含まれていると、予め保存されたディスプレイ装置100との対話履歴情報に基づいて該当コンテンツに対する題名情報をEPG情報から獲得するか或は外部サーバ(不図示)から受信する。その後、対話型サーバ200は予め生成された実行命令スクリプト及び題名情報を含む応答情報を生成してディスプレイ装置100に伝送する。
【0093】
しかし、本発明はこれに限定されず、対話型サーバ200は要請情報を示す命令語を含む実行命令スクリプトに対する応答情報をディスプレイ装置100に伝送することができる。この場合、ディスプレイ装置100は対話型サーバ200から受信した応答情報に含まれた実行命令スクリプトを解析して画面上に表示された客体のうち指示子が指す対象に対応する客体を選択し、選択された客体に対して命令語に対応する動作を行うことができる。従って、ディスプレイ装置100は選択された客体に対するコンテンツの題名情報を予め保存されたEPG情報から獲得するか或は外部サーバ(不図示)を通して受信して出力することができる。
【0094】
一方、本発明の追加的な形態に応じて、対話型サーバ200に保存される指示子はディスプレイ装置100の画面上に表示された客体の固有識別情報となることができる。ここで、各固有識別情報はディスプレイ装置100で現在ディスプレイされているコンテンツ及びユーザの要請に応じて提供されるコンテンツを識別するための情報である。例えば、
図4に説明したように、ディスプレイ装置100は画面上にコンテンツ410及び回次別コンテンツ情報421〜425を含むコンテンツリスト420をディスプレイすることができる。この場合、コンテンツ410は現在ディスプレイされていることを示す固有識別情報#1234が付与されることができ、コンテンツリスト420は現在ディスプレイされるコンテンツ410と相違なる固有識別情報#5678が付与されることができる。
【0095】
従って、対話型サーバ200はユーザの発話音声から第1及び第2発話要素が抽出されると、抽出された発話要素のうち第1発話要素から指す対象を判断し、予め保存された固有識別情報のうち判断された対象に対応する固有識別情報を獲得してこれを指示子として決定することができる。例えば、「これ実行してくれ」という発話音声の場合、対話型サーバ200は「これ」という第1発話要素を抽出することができる。このように、第1発話要素が抽出されると、対話型サーバ200は予め保存された第1発話要素別指示子のうち「これ」という第1発話要素に対応する指示子$this$を抽出することができる。このような指示子が抽出されると、対話型サーバ200は抽出された指示子を通して第1発話要素から指す対象がディスプレイ装置100の画面上に現在ディスプレイされるコンテンツ210と相違している対象であることを判断することができる。従って、対話型サーバ200は「これ」という第1発話要素に対応する指示子である$this$を固有識別情報#5678に変換することができる。
【0096】
以下では、ユーザの発話音声に対応する応答情報に基づいて動作を行うディスプレイ装置100の制御方法について詳細に説明することにする。
【0097】
図7は、本発明の一実施形態にかかるディスプレイ装置の制御方法に対するフローチャートである。
【0098】
図7に示すように、ディスプレイ装置100はユーザの発話音声を入力してもらうS710。ユーザの発話音声が入力されると、ディスプレイ装置100は入力されたユーザの発話音声を対話型サーバ200に伝送するS720。具体的に、ディスプレイ装置100はアナログ形態のユーザの発話音声が入力されると、入力されたユーザの発話音声をデジタル信号に変換する。この時、ディスプレイ装置100は入力されたユーザの発話音声にノイズがあるか否かを判断し、ノイズがあると、ノイズの除去されたユーザの発話音声をデジタル信号に変換することが好ましい。
【0099】
このようなユーザの発話音声がデジタル信号に変換されると、ディスプレイ装置100は対話型サーバ200へデジタル信号に変換されたユーザの発話音声を伝送し、それに応じた応答情報を受信するS730。応答情報が受信されると、ディスプレイ装置100は画面上に表示された客体の表示状態に基づいて応答情報に含まれた指示子が指す対象を選択し、選択された対象に対して応答情報に含まれた命令に対応する動作を行うS740。
【0100】
具体的に、
図4において説明したように、ディスプレイ装置100はユーザが要請したチャネルを通してコンテンツ410を受信してディスプレイすることができる。なお、ディスプレイ装置100はリモコン又はユーザの発話音声を通して入力されたユーザ命令に基づいてユーザが要請したコンテンツに対するリスト420を画面上にディスプレイすることができる。なお、ディスプレイ装置100は予め設定された条件に基づいてコンテンツリスト420上に表示された回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。即ち、ディスプレイ装置100は回次別コンテンツ情報421〜425を含むコンテンツリスト420を画面上に最初表示する場合、予め設定された条件に基づいて一番上段に位置する1回次コンテンツ情報421が優先的に選択されるようにハイライトを表示することができる。
【0101】
一方、ユーザはコンテンツリスト420上に表示された回次別コンテンツ情報421に対応する第1コンテンツを視聴するために「これ実行してくれ」という発話をすることができる。従って、ディスプレイ装置100は「これ実行してくれ」という発話音声を入力してもらうことができる。このように、本発明にかかるディスプレイ装置100は画面上に複数の客体が表示された状態で複数の客体のうち一つを指す対象を示す第1発話要素と該当対象を実行するための実行命令を示す第2発話要素を含む発話音声を入力してもらうことができる。ここで、第1発話要素は、代名詞、序数、方向のうち少なくとも一つを通して対象を示すことができる。例えば、「これ実行してくれ」という発話音声は代名詞で対象を示す第1発話要素を含むことができ、「三つ目実行してくれ」という発話音声は序数で対象を示す第1発話要素を含むことができる。
【0102】
このように、対象を示す第1発話要素及び該当対象を実行するための実行命令を示す第2発話要素を含む発話音声が入力されると、ディスプレイ装置100は対話型サーバ200へ入力された発話音声をデジタル信号に変換して伝送する。これにより、対話型サーバ200は、前述したように、入力された発話音声に含まれた第1及び第2発話要素に対応する指示子及び命令語を抽出し、抽出された指示子及び命令語を組み合わせて実行命令スクリプトを生成する。前述した例のように、「これ実行してくれ」という発話音声が受信されると、対話型サーバ200は「これ」という対象を示す第1発話要素に対応する指示子「$this$」と「実行してくれ」という実行命令を示す第2発話要素に対応する命令語「execute」を抽出する。その後、対話型サーバ200は第1及び第2発話要素に対応して抽出された指示子及び命令語を組み合わせて「execute($this$)」実行命令スクリプトを生成する。その後、対話型サーバ200は「execute($this$)」という実行命令スクリプトを含む応答情報を生成してディスプレイ装置100に伝送する。
【0103】
このような応答情報が受信されると、ディスプレイ装置100は受信された応答情報に含まれた実行命令スクリプトを解析してユーザの発話音声に対応する動作を行うことができる。前述した例のように、「execute($this$)」という実行命令スクリプトを含む応答情報が受信されると、ディスプレイ装置100は実行命令スクリプトを解析して指示子は「$this$」であり、命令語は「execute」であると区分することができる。
【0104】
このように、実行命令スクリプトから指示子及び命令語が区分されると、ディスプレイ装置100は区分された指示子に基づいて画面上に表示された複数の客体のうち一つを選択することができる。
図4に示されるように、ディスプレイ装置100はコンテンツリスト420上に含まれた回次別コンテンツ情報421〜425のうち1回次コンテンツ情報421にハイライトを表示することができる。ここで、ハイライトが表示された1回次コンテンツ情報421はユーザが指示する対象に該当する客体を選択するための基準となることができる。従って、ディスプレイ装置100は実行命令スクリプトから区分された指示子が「$this$」であると、ハイライトが表示された1回次コンテンツ情報421を指示するものと判断して、1回次コンテンツ情報421を選択することができる。このように、1回次コンテンツ情報421が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて1回次コンテンツ情報421に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0105】
また別の例として、ディスプレイ装置100は対話型サーバ200から「次実行してくれ」というユーザの発話音声に対応して「execute($this$+1)」という実行命令スクリプトを含む応答情報を受信することができる。この場合、ディスプレイ装置100は受信した応答情報に含まれた実行命令スクリプトを解析して「$this$+1」という指示子と「execute」という命令語を区分することができる。一方、
図4のように、1回次コンテンツ情報421にハイライトが表示されていると、ディスプレイ装置100は「$this$+1」指示子に基づいてハイライトが表示された1回次コンテンツ情報421を基準に次に位置する2回次コンテンツ情報422を選択することができる。このように、2回次コンテンツ情報422が選択されると、ディスプレイ装置100は実行命令スクリプトから区分された「execute」命令語に基づいて2回次コンテンツ情報422に対応する第1コンテンツを外部サーバ(不図示)から受信してディスプレイすることができる。
【0106】
今まで、本発明についてその好ましい実施形態を中心に説明した。
【0107】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。