(58)【調査した分野】(Int.Cl.,DB名)
請求項1〜11のうちのいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
【発明を実施するための形態】
【0012】
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
【0013】
本発明の実施形態に係る情報提供システムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、このような音声要請を直接に処理して応答情報を生成するか、インタフェースコネクトを介して連結する外部プラットフォームで認識および分析して音声要請を処理してよい。例えば、外部プラットフォームは、電子機器からユーザの音声要請を受信し、受信した音声要請を分析し、ユーザの意図に適したクエリまたは該当のクエリに対応する応答情報を生成するクラウド人工知能プラットフォームを含んでよい。このとき、電子機器は、音声要請および/または応答情報に基づき、応答情報を出力するためのメディアを選択してよい。このようなメディアは、電子機器が含む音声基盤インタフェースに対応するメインメディアおよび電子機器と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含んでよい。一例として、サブメディアは、他の電子機器が含むディスプレイや、他の電子機器にインストールされた特定のアプリケーションに対応してよい。より具体的な例として、応答情報を出力するためのメディアとして他の電子機器のディスプレイが決定された場合、応答情報は、他の電子機器のディスプレイから出力されてよい。他の例として、応答情報を出力するためのメディアとして他の電子機器にインストールされた特定のアプリケーションが決定された場合、応答情報は、アプリケーションが提供するサービスと連動して出力されてよい。例えば、「近くの美味しい店を探して」というユーザの音声要請に対し、「美味しい店A」に関する情報が応答情報として取得されたとする。このとき、「美味しい店A」に関する情報は、電子機器が含む音声基盤インタフェースによって聴覚的に出力されてよい。さらに、「美味しい店A」に関する情報は、電子機器と連動する他の電子機器のディスプレイからも視覚的に出力されてよい。これだけでなく、「美味しい店A」に関する情報は、他の電子機器にインストールされた地図アプリケーションと連動し、地図上に「美味しい店A」の位置情報が表示される形態で他の電子機器のディスプレイから出力されてもよい。このようなアプリケーションは、地図アプリケーションだけではなく、音声要請および/または応答情報に応じて、スケジュール管理のためのスケジュールアプリケーション、検索アプリケーション、翻訳アプリケーション、ゲームアプリケーション、メッセンジャーアプリケーション、ストアアプリケーションなどのような既存の多様なアプリケーションを含んでもよいことは、当業者であれば容易に理解することができるであろう。
【0014】
本発明の実施形態に係る情報提供方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係る情報提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合し、情報提供方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されてよい。
【0015】
図1は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。
図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声基盤インタフェース(一例として、マイクとスピーカ)を含む電子機器100が、マイクに入力されたユーザ110の発話「電気を消して」121によって受信される音声要請を認識および分析し、「リビングの電気を消しましょうか?」122のような応答情報をスピーカから出力する例を示している。さらに、
図1の実施形態では、応答情報に対応したユーザ110の発話「うん」123によって受信される音声要請を認識および分析し、電子機器100と内部ネットワークを介して連動する宅内照明機器130のライト電源を制御する例を示している。
【0016】
ここで、宅内の機器は、上述した宅内照明機器130の他にも、IPTV、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器などのように、オンライン上で連結して制御されることのできる多様な機器を含んでよい。また、内部ネットワークは、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
【0017】
電子機器100は、宅内の機器のうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのような機器のうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPCなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声要請を受信し、宅内の機器を制御するために宅内の機器と連結可能な機能を備える機器であれば、特に制限されることはない。
【0018】
応答情報は、
図1の実施形態のように、基本的には音声基盤インタフェースに対応するメインメディア(一例として、スピーカ)から出力されてよいが、上述したように、本発明の実施形態では、応答情報が多様なメディアから出力されてよく、電子機器100は、音声要請および/または応答情報に基づいて応答情報が出力されるメディアを決定してよい。例えば、
図1は、IPTV140とユーザ110のモバイル機器150をさらに示している。この場合、応答情報は、IPTV140やモバイル機器150のディスプレイから視覚的にユーザ110に出力されてもよい。このとき、電子機器100は、応答情報の出力のためのメディアを決定するだけではなく、聴覚的出力と視覚的出力の効率性に基づいて応答情報の出力のためのメディアを決定してよい。
【0019】
図2は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。
図2は、音声基盤インタフェースを含む電子機器100がユーザ110の発話「今日の天気」210を認識および分析し、外部ネットワークを介して外部サーバ220から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で合成して出力する例を示している。例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのようなネットワークのうちの1つ以上の任意のネットワークを含んでよい。
【0020】
図2の実施形態でも、電子機器100は、宅内の機器のうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声要請を受信して処理するための機能と、外部ネットワークを介して外部サーバ220と通信して外部サーバ220が提供するサービスやコンテンツをユーザ110に提供するための機能を備える機器であれば、特に制限されることはない。このように、本発明の実施形態に係る電子機器100は、音声基盤のインタフェースを利用してユーザ110の発話した音声要請を受信し処理することのできる機器であれば、特に制限されることはない。例えば、電子機器100は、ユーザの音声要請を直接に認識および分析して音声要請を処理してもよいが、実施形態によっては、電子機器100と連係する外部のプラットフォーム(一例として、上述したクラウド人工知能プラットフォーム)で音声要請を処理してもよい。
【0021】
このとき、電子機器100は、ユーザの音声要請に対応する応答情報を出力するためのメディアを、音声要請および/または応答情報に基づいて自動で決定してよい。
図2では、電子機器100が、「今日の天気は・・・」230のように応答情報を聴覚的に出力すると同時に、IPTV140のディスプレイにも視覚的に共に出力する例を示している。このために、電子機器100は、応答情報の出力が可能な複数のメディアに関する情報を管理してよく、音声要請および/または応答情報に基づき、複数のメディアのうちから応答情報を出力するための少なくても1つのメディアを選択して応答情報を伝達してよい。
【0022】
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。
図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
【0023】
一例として、電子機器310は、宅内に備えられた機器を意味してよく、少なくとも上述したような電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリ)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者が、インタフェースコネクト340が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320が提供する機能を活用することが可能になる。
【0024】
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声にしたがって適した音声を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声に適した機能を推薦するための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
【0025】
例えば、
図1および
図2の実施形態において、電子機器100が、ユーザ110の音声要請を、インタフェースコネクト340から提供されるAPIを利用してクラウド人工知能プラットフォーム320に送信したとする。この場合、クラウド人工知能プラットフォーム320は、受信した音声要請を、上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力にしたがって適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。
【0026】
また、拡張キット350は、第3者コンテンツ開発者または会社が、クラウド人工知能プラットフォーム320を基盤として新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、
図2の実施形態において、電子機器100は、受信したユーザ110の音声入力を外部サーバ220に送信し、外部サーバ220は、拡張キット350から提供されるAPIに基づいてクラウド人工知能プラットフォーム320に音声入力を送信したとする。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析した後、適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に関する推薦情報を外部サーバ220に提供したりしてよい。一例として、
図2において、外部サーバ220は、音声要請「今日の天気」をクラウド人工知能プラットフォーム320に送信し、クラウド人工知能プラットフォーム320から、音声要請「今日の天気」の認識によって抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ220は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム320に生成されたテキスト情報を再び送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ220に提供してよい。外部サーバ220は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信された音声要請「今日の天気」が処理されてよい。
【0027】
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。
図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ220やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
【0028】
電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMとディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電気機器410にインストールされ、特定サービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配信するファイル配信システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
【0029】
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0030】
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール413の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる格納媒体(上述した永久記憶装置)に格納されてよい。
【0031】
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するか、サーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。
【0032】
また、他の実施形態において、電子機器410およびサーバ420は、
図4の構成要素よりも少ないか多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
【0033】
本実施形態において、電子機器410は、ユーザの音声要請を受信するためのマイクおよび/または応答情報を聴覚的に出力するためのスピーカを入力/出力装置415として基本的に含んでよい。
【0034】
図5は、本発明の一実施形態における、情報提供方法の例を示したフローチャートである。本発明の実施形態に係る情報提供方法は、上述した電子機器410のようなコンピュータ装置によって実行されてよい。このとき、電子機器410のプロセッサ412は、メモリ411が含むオペレーティングシステムのコードや、少なくとも1つのプログラムのコードによる制御命令を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令にしたがって電子機器410が
図5の情報提供方法の含む段階510〜550を実行するように電子機器410を制御してよい。
【0035】
段階510で、電子機器410は、音声基盤インタフェースに対応するメインメディアおよび電子機器410と連動して視覚的出力が可能な他の電子機器が含むサブメディアを含む複数のメディアに関する情報を管理してよい。このとき、電子機器410は、電子機器と連動して視覚的出力が可能な複数の互いに異なる電子機器が含む複数の互いに異なるサブメディアに関する情報を管理してよい。サブメディアは、一例として、他の電子機器のディスプレイや他の電子機器にインストールされたアプリケーションに対応してよい。一例として、電子機器410は、電子機器Aのディスプレイ、電子機器Aにインストールされた地図アプリケーション、電子機器Aにインストールされたスケジュールアプリケーション、電子機器Bのディスプレイ、電子機器Bにインストールされた検索アプリケーションなどのように宅内電子機器のうちでも視覚的出力が可能な電子機器に関する情報と、該当の電子機器が含むアプリケーションをそれぞれのサブメディアとして設定し、該当のサブメディアに関する情報を管理してよい。また、電子機器410は、電子機器410が含む音声基盤インタフェースに対応するメインメディアに関する情報も共に管理してよい。
【0036】
段階520で、電子機器410は、音声基盤インタフェースでユーザからの音声要請を受信してよい。例えば、電子機器410は、電子機器410が含むマイクまたは電子機器410と連動するマイクのような音声入力装置で、ユーザの発話による音声要請を受信してよい。
【0037】
段階530で、電子機器410は、音声要請に対応する応答情報を取得してよい。このとき、電子機器410は、音声要請を直接に認識および分析して音声要請に対応する応答情報を生成してもよいが、実施形態によっては、上述したクラウド人工知能プラットフォーム320のような外部プラットフォームから応答情報を取得してもよい。例えば、電子機器410は、受信した音声要請を外部プラットフォームに送信したとする。このとき、外部プラットフォームは、受信した音声要請を認識および分析して適切な応答情報を生成してよく、生成された応答情報を電子機器410に送信してよい。
【0038】
応答情報とは、音声要請に対する返答であって、ユーザの意図を確認するための情報や、ユーザの意図に適した動作の処理を知らせるための情報、および/またはユーザの意図に基づいて検索された検索結果などのように多様な情報を含んでよい。例えば、「音楽Aをかけて」のようなユーザの音声要請に対する応答情報は、「音楽Aをかけます」のような動作の処理を知らせるための情報と共に、コンテンツ「音楽A」のオーディオ出力もさらに含んでよい。
【0039】
段階540で、電子機器410は、音声要請および応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のための少なくとも1つのメディアを決定してよい。言い換えれば、本発明の実施形態では、応答情報の出力のためのメディアが予め設定されているのではなく、音声要請および/または応答情報に基づいて多様なメディアのうちから選択されてよい。例えば、ユーザの発話によって認識される音声要請に基づき、応答情報を音声で合成して聴覚的に出力するだけではなく、その類型に応じて、聴覚的出力のためのメディア、視覚的出力のためのメディア、または視聴覚的出力のためのメディアなどを選択し、選択されたメディアから応答情報を出力してよい。このようなメディアの選択は、音声要請および/または応答情報から把握される聴覚的出力および視覚的出力の効率性を基盤としてよい。
【0040】
段階550で、電子機器410は、決定された少なくとも1つのメディアから応答情報が出力されるように、応答情報を決定された少なくとも1つのメディアに伝達してよい。このように、本発明の実施形態によると、応答情報が視覚的に伝達される方が効率的なときには視覚的出力が可能なメディアを、応答情報が聴覚的に伝達される方が効率的なときには聴覚的出力が可能なメディアを選択するといったように、選択的なメディアの選択によって応答情報をユーザに提供することが可能となる。
【0041】
図6は、本発明の一実施形態における、メディアに関する情報の例を示した図である。
図6の表600は、電子機器410と連動する電子機器を識別するための機器項目610、他の電子機器の宅内位置を識別するための位置項目620、他の電子機器が含むサブメディアを識別するための出力メディア項目630、サブメディアに関する情報を含む詳細項目640、およびサブメディアがどのような情報類型と関連するかを識別するための情報類型項目650を含む例を示している。電子機器410は、表600に示すように、宅内で連動される他の電子機器に関する情報と共に、該当となる他の電子機器の出力メディアに関する情報を管理してよい。また、このような情報は、音声要請および/または応答情報の情報類型と予め連結されてよい。例えば、ユーザの音声要請や対応する応答情報が「場所」と関連する情報類型として分析される場合、電子機器410は、表600に基づき、電子機器Aの地図アプリケーションを応答情報の出力のためのメディアとして決定してよい。この場合、応答情報は、電子機器Aに伝達されてよく、電子機器Aは、電子機器Aの地図アプリケーションから応答情報に対応する地図サービスをユーザに提供してよい。他の例として、応答情報は、地図アプリケーションに地図サービスを提供するサービスサーバに伝達されてよい。この場合、サービスサーバは、電子機器Aにインストールされた地図アプリケーションで地図サービスを提供するようになる。このために、電子機器410は、サービスサーバにアクセスするための情報およびサービスサーバがユーザの電子機器Aを識別することができるようなユーザのアカウントなどのような情報をさらに管理してもよい。例えば、電子機器410は、表600で地図アプリケーションと関連付けてさらに格納するURLを利用してサービスサーバにアクセスしてよく、ユーザのアカウントと共に応答情報を伝達することにより、サービスサーバがユーザのアカウントに基づいて電子機器Aにインストールされた地図アプリケーションで応答情報と関連する地図サービスを提供できるようにしてよい。
【0042】
図7は、本発明の一実施形態における、メディアを決定する方法の例を示したフローチャートである。
図7の段階710および720は、
図5の段階540に含まれて実行されてよい。
【0043】
段階710で、電子機器410は、音声要請の類型および応答情報の類型のうちの少なくとも1つの情報類型を分析してよい。例えば、音声要請の類型は、音声要請の主題(一例として、位置、場所、交通、検索、歌手、映画など)に基づいて分類されてよく、応答情報の類型は、応答情報が含むコンテンツの表現形式(一例として、テキスト、イメージ、動画、フラッシュ(flash)など)に基づいて分類されてよい。
【0044】
段階720で、電子機器410は、分析された情報類型に基づき、複数のメディアのうちの少なくとも1つのメディアを、応答情報を出力するためのメディアとして選択してよい。例えば、「場所」に対する音声要請に対応し、テキスト、イメージ、および座標(または住所)を含むウェプページが応答情報として取得された場合が考慮される。この場合、電子機器410は、テキストを音声で合成して出力するためのメインメディア、イメージを視覚的に出力するためのディスプレイに対応する第1サブメディア、および座標(または住所)を利用して地図サービスを提供するためのアプリケーションに対応する第2サブメディアの3つのメディアを選択し、3つのメディアそれぞれに取得した応答情報を伝達してよい。実施形態によっては、電子機器410は、応答情報をそれぞれのメディアで活用することのできる情報に加工してから伝達してよい。例えば、電子機器410は、応答情報として取得したウェプページから座標(または住所)を抽出し、抽出された座標(または住所)を含む地図サービスの要請を応答情報として地図アプリケーションに対応する第2サブメディアに送信してよい。
【0045】
また、上述した例を参照しながら説明したように、決定された少なくとも1つのメディアは、他の電子機器のディスプレイに対応するサブメディアを含んでよい。この場合、電子機器410は、段階550で、応答情報が含む視覚情報が他の電子機器のディスプレイから出力されるように、視覚情報を他の電子機器に送信してよい。例えば、電子機器410は、ウェプページの例において、ウェプページが含むイメージや動画を他の電子機器に送信してよい。また、電子機器410は、ウェプページ自体を他の電子機器に送信してもよい。
【0046】
また、決定された少なくとも1つのメディアは、他の電子機器にインストールされたアプリケーションに対応するサブメディアを含んでもよい。この場合、電子機器410は、段階550で、応答情報がアプリケーションで提供されるサービスと連係して他の電子機器から提供されるように、応答情報を他の電子機器またはアプリケーションを経てサービスを提供するサービスサーバに送信してもよい。このような実施形態については、上述で詳しく説明したとおりである。
【0047】
また、上述したように、応答情報を重複的または分散的に出力するために複数のメディアが選択されてもよい。例えば、電子機器410は、段階550で、応答情報が聴覚的に出力されるように音声基盤インタフェースに対応するメインメディアに応答情報を送信し、応答情報が視覚的にさらに出力されるように他の電子機器に対応する第1サブメディアおよび他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに応答情報をさらに送信してよい。上述したように、応答情報は、それぞれのメディアに適するように加工されてから分散して提供されてもよい。
図2の実施形態では、「今日の天気は・・・」230のように電子機器100のスピーカから聴覚的情報を出力し、IPTV140から視覚的情報をさらに出力する例について説明した。
【0048】
一方、本発明の一実施形態に係る電子機器410は、応答情報の他に、応答情報と関連する追加情報をさらに提供してもよい。このために、電子機器410は、段階530で、あるいは段階530の後に、応答情報と関連する追加情報を取得してよい。一例として、電子機器410は、応答情報はメインメディアから聴覚的に出力し、追加情報は視覚的に出力されるように、他の電子機器に対応する第1サブメディアおよび他の電子機器にインストールされたアプリケーションに対応する第2サブメディアのうちの1つのサブメディアに追加情報をさらに送信してよい。実施形態によっては、電子機器410は、応答情報の類型に応じて応答情報を出力するためのメディアを選択して伝達し、追加情報の類型に応じて追加情報を出力するためのメディアを別に選択して伝達してもよい。例えば、ユーザが映画情報を音声で要請した場合、電子機器410は、該当の映画に関するテキスト情報を音声で合成してメインメディアから聴覚的に出力し、上映スケジュールや予約リンクのような追加情報を他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してよい。他の例として、ユーザが歌手情報を音声で要請した場合、電子機器410は、該当の歌手に関するテキスト情報を音声で合成してメインメディアから聴覚的に出力し、コンサート情報やコンサートチケットの前売りリンク、または新たに発売されたアルバムに関する情報やアルバム購入サイトリンクを他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してよい。
【0049】
実施形態によっては、音声要請に対する複数の応答結果が存在する場合、音声要請に対して最も関連性の高い応答情報を音声で合成してメインメディアから聴覚的に出力し、応答情報の全体リストを他の電子機器のディスプレイのような視覚情報伝達メディアから視覚的に出力してもよい。この場合、音声要請に対して最も関連性の高い応答情報を除いた残りの応答情報が追加情報となってよい。
【0050】
応答情報や追加情報は広告をさらに含んでよく、広告だけが別途で他のメディアから出力されてもよい。例えば、応答情報はメインメディアから聴覚的に出力され、広告はサブメディアから視覚的に出力される状況が考えられる。
【0051】
一方、ユーザの位置と他の電子機器との位置間に基づいてメディアが決定されてもよい。
【0052】
図8は、本発明の一実施形態における、ユーザの位置によってメディアを決定する例を示した図である。上述した
図2では、聴覚的情報を電子機器100から出力すると同時に、視覚的情報をIPTV140から出力する例について説明した。一方、
図6を参照しながら説明したように、視覚的情報の出力が可能な多様な電子機器が存在することもある。
図8では、視覚的情報の出力が可能なIPTV140とモバイル機器150のうち、ユーザ110からより近くに位置するモバイル機器150のメディアを選択する例を示している。
【0053】
例えば、電子機器100は、複数のメディアに対応して電子機器100と連動する、複数の互いに異なる電子機器の位置を管理してよい。
図6の表600は、それぞれの電子機器の位置が管理される例について説明している。このとき、宅内の電子機器の位置は、多様な方式によって設定されてよい。例えば、このような位置は、ユーザ110や管理者によって電子機器100に入力および設定されてもよく、電子機器100が他の電子機器と通信するために送受信する信号の強度などのような周知の位置測位技術を活用して測定されてもよい。特に、モバイル機器150の場合には、その位置が位置測位を活用して動的に測定されるようになる。このとき、電子機器100は、ユーザ110の位置と複数の他の電子機器の位置に基づいて測定される、ユーザ110と複数の他の電子機器との距離間をさらに利用して少なくとも1つのメディアを決定してよい。このとき、ユーザ110の位置は、ユーザ110の発話を基盤として測定されてよい。例えば、電子機器100は、音声基盤のインタフェースが含む複数のマイクに入力された音声入力の位相変化(phase shift)を基盤として音声入力と関連する位置情報を生成してよく、生成された位置情報をユーザ110の位置として決定してよい。複数のマイクに入力される同じ音信号の位相差を利用して音信号の発生位置を測定する技術は、ビームフォーミング技術のような周知技術の適用が可能であることは、当業者であれば容易に理解することができるであろう。この場合、電子機器100は、ユーザ110の位置と他の電子機器の位置に基づき、ユーザ110から最も近くに位置する他の電子機器に応答情報を伝達してよい。例えば、
図8の実施形態では、視覚的出力が可能なIPTV140とモバイル機器150のうち、ユーザ110から最も近い位置に存在するモバイル機器150に応答情報が伝達される様子を示している。
【0054】
一方、複数のユーザが存在する実施形態も考えられる。
【0055】
図9は、本発明の一実施形態における、複数のユーザに情報を提供する例を示した図である。1つの空間内に複数のユーザ910および920が存在している場合が考えられる。このとき、電子機器100は、周辺に位置する複数のユーザ910および920を認識してよい。ユーザの認識は、ユーザの音声を基盤として識別されてよい。このとき、電子機器100は、複数のユーザのうちの少なくとも1人のユーザによって識別されるジェスチャートリガ、または複数のユーザそれぞれに対して予め設定された主題別の選好度に基づいて複数のユーザのうちから少なくとも1人のユーザを選定してよく、選定された少なくとも1人のユーザと連係するメディアを応答情報の出力のためのメディアとして選択してよい。
【0056】
例えば、
図9は、第1ユーザ910の発話「歌手A」930に対応し、電子機器100が「歌手A」に関する情報「歌手Aは・・・」をメインメディアで聴覚的に提供する例を示している。このとき、電子機器100は、「歌手A」に関する追加情報(一例として、コンサートのスケジュールおよびコンサートチケットの前売りリンク)をさらに取得してよく、このような追加情報を出力するための追加メディアをさらに選択してよい。この場合、電子機器100は、複数のユーザ910および920のうちで特定のジェスチャーを示したユーザ、または「歌手A」に対して特定の選好度をもっているユーザを選択してよい。
図9では、第1ユーザ910が発話したにもかかわらず、第2ユーザ920と連係するメディア(モバイル機器950および960のうち、第2ユーザ920と連係するモバイル機器960が含むメディア)に追加情報が提供される例を示している。
【0057】
ジェスチャートリガとは、手を上げるなどの行為のように予め設定されたジェスチャーを意味してよい。例えば、電子機器100は、カメラに入力されるイメージを分析することにより、予め設定されたジェスチャーを示したユーザを選択してよい。他の例として、電子機器100は、モバイル機器960を握っている方の手を上げる行為を、モバイル機器960から受信されるセンサの出力値を基盤として認識し、第2ユーザ920を選択してもよい。
【0058】
一方、主題別の選好度は、応答情報と関連する主題に対するユーザの選好度を含んでよい。このために、電子機器100は、主題別の選好度に関する情報をユーザ別に管理してよい。このような選好度情報は、ユーザが送受信するインスタントメッセージや、SNSにアップロードする情報、ユーザが好むチャンネルや放送プログラムなどのような既存の情報を分析して予め設定されてよい。例えば、「歌手A」に対する音声要請が第1ユーザ910によってなされたが、第2ユーザ920が「歌手A」に対して高い選好度をもつ場合、追加情報は、第2ユーザ920のモバイル機器960に伝達されるようになる。
【0059】
図10は、本発明の一実施形態における、応答情報の取得方法の例を示したフローチャートである。
図10の段階1010〜1030は、
図5を参照しながら説明した段階530に含まれて実行されてよい。
【0060】
段階1010で、電子機器410は、音声要請を電子機器とインタフェースコネクトを介して連結するクラウド人工知能プラットフォームに送信してよい。ここで、クラウド人工知能プラットフォームとインタフェースコネクトは、
図3を参照しながら説明したクラウド人工知能プラットフォーム320およびインタフェースコンテンツ340にそれぞれ対応してよい。
【0061】
段階1020で、電子機器410は、クラウド人工知能プラットフォームで音声要請を分析して生成されたクエリまたはクエリに対応する応答情報を受信してよい。応答情報を受信する場合、電子機器410は、受信した応答情報を利用して段階540を実行してよい。これに対し、クエリを受信する場合、電子機器410は、段階1030を実行してよい。
【0062】
段階1030で、電子機器410は、クエリが受信された場合、ネットワークを介してクエリに対応する応答情報を収集してよい。この後、電子機器410は、収集された応答情報を利用して段階540を実行してよい。
【0063】
以上のように、本発明の実施形態によると、人工知能スピーカのような電子機器が含む音声基盤インタフェースに対応するメインメディアだけではなく、電子機器と連動する他の電子機器が含むサブメディア(一例として、スマートフォン、IPTV、スマート冷蔵庫などが含むディスプレイ)のような複数のメディアに関する情報を管理し、音声基盤インタフェースに受信された音声要請とこのような音声要請に対応する応答情報のうちの少なくとも1つに基づき、複数のメディアのうちから応答情報の出力のためのメディアを自動で選択して応答情報を出力することができる。また、応答情報を聴覚的および/または視覚的に出力するだけではなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションで提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアで提供することにより、情報の提供以後に発生し得る後続行動に容易に連結させることができる。さらに、応答情報をサブメディアに提供する場合にも、複数のサブメディアのうちのどのサブメディアに応答情報を提供したらよいかを効率的に決定することができる。
【0064】
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0065】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
【0066】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時で格納するものであってもよい。また、媒体は、単一または複数個のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含んでプログラム命令語が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体ないし格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0067】
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0068】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【0069】
本発明の実施形態は、更に以下の課題を解決する。
【0070】
応答情報を聴覚的および/または視覚的に出力するだけでなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションが提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアから提供することにより、情報の提供後に発生し得る後続行動に容易に連結させることができる情報提供方法と情報提供システム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。
【0071】
応答情報をサブメディアから提供する場合にも、複数のサブメディアのうちのどのサブメディアから応答情報を提供したらよいかを効率的に決定することができる情報提供方法と情報提供システム、および情報提供方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。
【0072】
本発明の実施形態は、更に以下の効果を達成する。
【0073】
応答情報を聴覚的および/または視覚的に出力するだけでなく、選択されたメディアが提供するサービス(一例として、スマートフォンにインストールされたアプリケーションが提供するサービス)と連係するか、または応答情報および応答情報と関連する追加情報を互いに異なるメディアから提供することにより、情報の提供以後に発生し得る後続行動に容易に連結させることができる。
【0074】
応答情報をサブメディアから提供する場合にも、複数のサブメディアのうちのどのサブメディアから応答情報を提供したらよいかを効率的に決定することができる。