特許第6573696号(P6573696)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧 ▶ LINE株式会社の特許一覧

特許6573696ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
<>
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000002
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000003
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000004
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000005
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000006
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000007
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000008
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000009
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000010
  • 特許6573696-ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6573696
(24)【登録日】2019年8月23日
(45)【発行日】2019年9月11日
(54)【発明の名称】ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20190902BHJP
   G10L 13/08 20130101ALI20190902BHJP
   G06F 3/16 20060101ALI20190902BHJP
   A63F 13/424 20140101ALI20190902BHJP
   A63F 13/54 20140101ALI20190902BHJP
【FI】
   G10L15/22 300Z
   G10L13/08 124
   G06F3/16 630
   A63F13/424
   A63F13/54
【請求項の数】17
【全頁数】19
(21)【出願番号】特願2018-76699(P2018-76699)
(22)【出願日】2018年4月12日
(65)【公開番号】特開2018-180542(P2018-180542A)
(43)【公開日】2018年11月15日
【審査請求日】2018年4月12日
(31)【優先権主張番号】10-2017-0048304
(32)【優先日】2017年4月14日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】501333021
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】イ ヒョンチョル
(72)【発明者】
【氏名】パク ジンヨン
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開2006−243555(JP,A)
【文献】 特開2014−050742(JP,A)
【文献】 再公表特許第2016/068262(JP,A1)
【文献】 特開2015−153324(JP,A)
【文献】 特開2005−250917(JP,A)
【文献】 国際公開第2015/029296(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 −25/93
G06F 3/16
A63F 13/424
A63F 13/54
(57)【特許請求の範囲】
【請求項1】
マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、
電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、
前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、
前記発話者の前記音声入力と関連する位置情報を生成する段階、および
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階
を含み、前記オーディオ情報は、前記発話者の位置の変更を要求する情報を含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクション方法。
【請求項2】
前記音声入力と関連する位置情報は、前記音声入力の受信に関連する時点または期間に測定された、前記電子機器に対する前記発話者の相対的な位置や方向、前記相対的な位置や方向の変化の有無、前記相対的な位置や方向の変化の程度、および前記相対的な位置や方向の変化の方向のうちの少なくとも1つを含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項3】
前記位置情報を生成する段階は、
前記音声基盤のインタフェースに含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項4】
前記電子機器は、カメラおよびセンサのうちの少なくとも1つを含み、
前記位置情報を生成する段階は、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて、前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項5】
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項6】
前記電子機器と連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を、前記周辺機器から受信する段階
をさらに含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項7】
前記電子機器と連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信する段階、および
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更する段階
をさらに含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項8】
前記コンテンツは、前記電子機器とネットワークを介して通信する外部サーバから提供され、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信する段階、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信する段階、および
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定する段階
を含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
【請求項9】
請求項1乃至のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
【請求項10】
請求項1乃至のいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録される、コンピュータ読取可能な記録媒体。
【請求項11】
マルチモーダルインタラクションシステムであって、
音声基盤のインタフェース部、および
コンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、
前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、
前記発話者の前記音声入力と関連する位置情報を生成し、
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定し、
前記オーディオ情報は、前記発話者に発話および前記発話者の位置の変更を要求する情報を含み、
前記少なくとも1つのプロセッサは、前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定すること
を特徴とする、マルチモーダルインタラクションシステム。
【請求項12】
前記少なくとも1つのプロセッサは、
前記音声基盤のインタフェース部に含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて、前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【請求項13】
カメラおよびセンサのうちの少なくとも1つをさらに含み、
前記少なくとも1つのプロセッサは、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【請求項14】
前記少なくとも1つのプロセッサは、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【請求項15】
前記少なくとも1つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を前記周辺機器から受信し、
前記コンテンツの進行と関連した動作を決定するために、前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【請求項16】
前記少なくとも1つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信し、
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【請求項17】
前記コンテンツは、ネットワークを介して通信する外部サーバから提供され、
前記少なくとも1つのプロセッサは、前記コンテンツの進行と関連する動作を決定するために、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信し、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信し、
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体に関する。
【背景技術】
【0002】
コンテンツやサービスに対する従来の消費行為は、主にディスプレイを基盤としてきた。例えば、ユーザは、スクリーンを通じて情報の伝達を受け、コントローラに対する操作および/または音声命令の認識に応じてスクリーンに表示されるコンテンツやサービスとユーザとのインタラクションが発生するようになる。コンテンツやサービスに対する従来の消費行為でも、オーディオの出力と音声命令の認識によるインタラクションが発生するが、これはディスプレイを基盤としたコンテンツとサービスのより豊かな経験のための副次的な手段に留まっている。
【0003】
一方、ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、視覚的情報を使用することができないため、ディスプレイ基盤のコンテンツおよび/またはサービスに比べ、コンテンツおよび/またはサービスとユーザとのインタラクションが容易でないという問題がある。例えば、特許文献1は、ホームメディアデバイスおよびこれを利用したホームネットワークシステム、方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にWi−Fiのような第2通信網を利用してホームネットワークサービスを提供することができ、ホーム内の複数のマルチメディア機器を、ユーザがボタンを操作しなくても音声命令によって多重制御することができる技術を開示している。例えば、このようなホームネットワークサービスにおいてユーザの音声命令が入力される電子機器が、ユーザの音声入力「電気を消して」を受信した場合を考慮してみよう。このような電子機器は、受信した音声入力「電気を消して」を分析してスマート照明機器のライト電源をオフ(OFF)にする。また、電子機器がユーザの音声入力「今日の天気」を受信した場合も考慮してみよう。このような電子機器は、受信した音声入力「今日の天気」に基づいて外部サーバから今日の天気に関する情報を受信し、受信した情報に対応する音声を合成してスピーカから出力するようになる。しかし、このような単純な音声命令と音声命令による動作の処理は、より簡単に宅内機器を制御することができる経験と、より簡単に情報を取得することができる経験をユーザに提供できるという長所を有する反面、ディスプレイ基盤の消費行為のようにコンテンツおよび/またはサービスに対する多様な経験は提供し難いという問題を抱えている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】韓国公開特許第10−2011−0139797号
【発明の概要】
【発明が解決しようとする課題】
【0005】
コンテンツやサービスに対するディスプレイ基盤のインタラクションは、ユーザがディスプレイに向かう一定の方向やディスプレイによって限定される位置と関連して進行されなければならず、ユーザの方向、位置、および移動が制限される。例えば、ユーザがディスプレイを見ることのできない位置では、コンテンツやサービスの利用は困難である。
【0006】
この反面、音声基盤のインタラクションは、ユーザ(発話者)が視覚的情報ではなく聴覚的情報を活用するため、発話者の方向、位置、および移動が相対的に自由であるという長所がある。例えば、発話者が音響機器の正面から背面に移動したとしても、聴覚的情報を活用したコンテンツやサービスの利用には何ら支障がない。
【0007】
このような長所を活用し、ネットワークに連結して音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。
【0008】
また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりできる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。
【課題を解決するための手段】
【0009】
マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、前記発話者の前記音声入力と関連する位置情報を生成する段階、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階を含むことを特徴とする、マルチモーダルインタラクション方法を提供する。
【0010】
マルチモーダルインタラクション方法をコンピュータに実行させるためのコンピュータプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体を提供する。
【0011】
コンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納される、コンピュータプログラムを提供する。
【0012】
マルチモーダルインタラクションシステムであって、音声基盤のインタフェース部、およびコンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、前記発話者の前記音声入力と関連する位置情報を生成し、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクションシステムを提供する。
【発明の効果】
【0013】
ネットワークに連結し、音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる。
【0014】
また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりすることができる。
【図面の簡単な説明】
【0015】
図1】本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。
図2】本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の他の例を示した図である。
図3】本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。
図4】本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。
図5】本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。
図6】本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。
図7】本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。
図8】本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。
図9】本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。
図10】本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。
【発明を実施するための形態】
【0016】
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
【0017】
本発明の実施形態に係るマルチモーダルインタラクションシステムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、オーディオ基盤のコンテンツをユーザ(発話者)に提供するためにオーディオ情報を出力してよく、出力されたオーディオ情報にユーザが応答して発話することによって電子機器で音声入力を取得してよい。電子機器は、取得した音声入力を、直接にまたは別のインタフェースコネクトを介して連結される外部プラットフォームによって認識および分析することでユーザ命令を処理して、オーディオ基盤のコンテンツを進行させてよい。このとき、電子機器は、発話者の音声入力だけではなく、発話者の音声入力と関連する位置情報をさらに利用してコンテンツの進行と関連する動作を決定してよい。
【0018】
本発明の実施形態に係るマルチモーダルインタラクション方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動されたコンピュータプログラムの制御に従って本発明の一実施形態に係るマルチモーダルインタラクション方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合し、マルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されてよい。
【0019】
図1は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で内部ネットワークを介して電子機器100に連結している宅内照明機器120のライト電源を制御する例を示している。
【0020】
例えば宅内の機器は、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット掃除機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御することが可能な多様な機器を含んでよい。また、内部ネットワークは、イーサーネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などを活用してよい。
【0021】
電子機器100は、宅内の機器のうちの1つであってよい。例えば電子機器100は、宅内に備えられた人工知能スピーカやロボット掃除機などのような機器の1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、パーソナルデジタルアシスタント(PDA:Personal Digital Assistants)、ポータブルマルチメディアプレイヤ(PMP:Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内の機器を制御するために宅内の機器と連結可能な機能を備えた機器であれば、特に制限されることはない。
【0022】
図2は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図2は、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を音声で出力する例を示している。
【0023】
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのようなネットワークのうちの1つ以上の任意のネットワークを含んでよい。
【0024】
図2の実施形態でも、電子機器100は、宅内の機器のうちの1つであっても、ユーザ110のモバイル機器のうちの1つであってもよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を備えた機器であれば、特に制限されることはない。
【0025】
このように、本発明の実施形態に係る電子機器100は、音声基盤のインタフェースを通じ、ユーザ110の発話によって受信した音声入力を少なくとも含むユーザ命令を処理することができる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析し、音声入力に適した動作を実行することでユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
【0026】
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
【0027】
一例として、電子機器310は、宅内に備えられた機器を意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリ)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのソフトウェア開発キット(SDK:Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や該電子機器310にインストールおよび駆動されるアプリがクラウド人工知能プラットフォーム320から提供される機能を活用することを可能にする、アプリケーションプログラミングインタフェース(API:Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340により提供されるSDKおよび/または開発文書を利用して開発した機器やアプリが、インタフェースコネクト340により提供されるAPIを利用してクラウド人工知能プラットフォーム320により提供される機能を活用することができるようにする。
【0028】
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に応じて適切な音声を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声に適切な機能を薦めるための推薦モジュール324、人工知能がデータ学習によって文章単位で言語を翻訳するように支援するニューラル機械翻訳(NMT:Neural Machine Translation)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
【0029】
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力を、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320に送信したとする。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を、上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を薦めたりしてよい。
【0030】
また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320に基づいて新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、受信したユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350が提供するAPIを通じてクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析し、適切な返答音声を合成して提供するか、音声入力に応じて処理すべき機能に対する推薦情報を外部サーバ210に提供してよい。一例として、図2において、外部サーバ210が、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信すると、クラウド人工知能プラットフォーム320から、音声入力「今日の天気」の認識に基づいて抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は…」のようなテキスト情報を生成し、再びクラウド人工知能プラットフォーム320に生成されたテキスト情報を送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報の音声を合成して、合成された音声を外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は…」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
【0031】
このとき、電子機器100は、このような外部サーバ210から提供されたオーディオ基盤のコンテンツをユーザに提供するために、本発明の実施形態に係るマルチモーダルインタラクション方法を実行してよい。
【0032】
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
【0033】
電子機器410とサーバ420はそれぞれ、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読取可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされて特定のサービスの提供のために電子機器410で駆動されるアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読取可能な記録媒体からロードされてよい。このような別のコンピュータ読取可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読取可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読取可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
【0034】
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記憶装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
【0035】
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよく、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記憶装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423およびネットワーク430を経て、電子機器410の通信モジュール413を通じて電子機器410で受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる記録媒体(上述した永久記憶装置)に格納されてよい。
【0036】
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボードまたはマウスなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結されてもよく、サーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。
【0037】
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりもさらに少ないかさらに多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図示する必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンの場合、一般的にスマートフォンに含まれている加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
【0038】
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
【0039】
このとき、電子機器410は、ユーザの音声入力の入力音量に従って、音声入力に対応して出力される音の出力音量を調節してよい。このとき、出力音量は、入力音量に比例してよい。例えば、ユーザが電子機器410を呼ぶ声が大きいほど、ユーザ命令に対応して出力される音の出力音量が相対的に大きくなるように調節されてよい。これとは逆に、ユーザが電子機器410を呼ぶ声が小さいほど、ユーザ命令に対応して出力される音の出力音量が相対的に小さくなるように調節されてよい。具体的な例として、出力される音の出力音量は、音声入力の入力音量と同じように調節されてよい。例えば、ユーザが小さい声やささやくような声で電子機器410を呼ぶと、電子機器410も小さな音声やささやくような音声でユーザに応答してよい。
【0040】
図5および図6は、本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。図5および図6は、オーディオ基盤のゲームコンテンツを、音声基盤のインタフェースを含む電子機器410を通じて提供する例を示している。図5は、電子機器410がゲームコンテンツの進行のためのオーディオ情報として、第1吹き出し510に示すように「右側から矢が飛んできます。」を出力した例を示している。このとき、図5および図6では、ユーザ110が図5の第2吹き出し520および図6の第3吹き出し610に示すように「回避」と発話しながら第1位置620から第2位置630に移動した例を示している。この場合、電子機器410は、ユーザ110の発話によって入力された音声入力「回避」と、ユーザ110の位置情報(ユーザ110が音声入力「回避」を発話しながら第1位置620から第2位置630に移動した情報)を利用してゲームコンテンツの進行と関連する動作を決定してよい。例えば、電子機器410は、受信した音声入力とユーザ110の位置情報に基づき、ゲームコンテンツ上の仮想のキャラクタが、回避動作として第1位置620から第2位置630までの距離を移動したと決定してよく、これによってゲームコンテンツ上で矢を回避するかどうかを決定してよい。また、図6では、電子機器410が、ユーザ110に対応するゲームコンテンツ上の仮想のキャラクタが矢を回避したと決定されることにより、第4吹き出し640に示すように、決定された動作による結果として、合成された音声「矢を回避しました。」を出力する例を示している。
【0041】
このように、本発明の実施形態では、オーディオ基盤のコンテンツに対しても、単に音声入力に含まれる命令語だけでコンテンツを進行するのではなく、音声入力と関連する発話者の位置情報をさらに活用することにより、発話者に多様なインタラクションの経験とコンテンツへの高い没入度を提供することができる。特に、視覚的に提供される既存のコンテンツでは、ユーザの位置移動と方向転換などがディスプレイで見ることのできる領域に限定されていたことに比べて、本発明の実施形態に係る発話者は、視覚的情報ではなく聴覚的情報を活用することにより、位置移動と方向転換において相対的に極めて高い自由度を有するようになることが分かる。
【0042】
図7は、本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。本発明の実施形態に係るマルチモーダルインタラクションシステムは、上述した電子機器410のようなコンピュータ装置の形態で実現されてよい。このような電子機器410は、図7のマルチモーダルインタラクション方法に含まれる段階710〜段階740を実行してよい。このとき、プロセッサ412は、メモリ411に含まれるオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令に従って電子機器410が図7の段階710〜段階740を実行するように電子機器410を制御してよい。
【0043】
段階710において、電子機器410は、音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力してよい。音声基盤のインタフェースは、基本的に、合成された音声情報を出力するための出力モジュールと、発話者の発話が入力されるための入力モジュールを含んでよく、コンテンツは、基本的に、このような音声基盤のインタフェースによる発話者とのインタラクションによって進行されてよい。
【0044】
段階720において、電子機器410は、音声基盤のインタフェースを通じて出力されたオーディオ情報と関連する発話者の音声入力を受信してよい。発話者の音声入力を受信する技術は、音声認識と関連する周知の技術であるため、当業者であれば容易に理解することができるであろう。
【0045】
段階730において、電子機器410は、発話者の音声入力と関連する位置情報を生成してよい。ここで、音声入力と関連する位置情報は、音声入力の受信に関連する時点または期間に測定された、電子機器410に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つを含んでよい。
【0046】
例えば、電子機器410は、音声基盤のインタフェースに含まれる複数のマイクに入力された音声入力の位相シフト(phase shift)に基づいて音声入力と関連する位置情報を生成してよい。複数のマイクに入力された同じ音信号の位相シフトを利用して音信号の発生位置を測定する技術は、ビームフォーミング(beam forming)技術のように周知の技術であるため、当業者であれば容易に理解することができるであろう。この場合、位置情報が発話者の音声入力によって測定されるため、発話者が特定の方向を向く必要がなく、発話者の発話を認識可能な距離以内であれば、発話者の位置が制限されることもない。また、音声基盤のインタフェース以外の装置が電子機器410に追加されなくても、発話者の位置情報を取得することが可能となる。
【0047】
実施形態によっては、発話者の位置情報を取得するために電子機器410がカメラやセンサのような追加装備を含む場合も考慮されるが、音声基盤のインタフェースを通じて測定される発話者の位置情報と、カメラやセンサのような追加装備を利用して測定される発話者の位置情報とがすべて活用されてもよい。カメラおよび/またはセンサを活用する場合、電子機器410は、音声入力が受信される場合のカメラおよび/またはセンサの出力値に基づいて音声入力と関連する位置情報を生成してよい。
【0048】
段階740において、電子機器410は、音声入力および音声入力と関連する位置情報を利用してコンテンツの進行と関連する動作を決定してよい。コンテンツの進行と関連する動作がコンテンツによって多様な形態で設定されてもよいことは、当業者であれば容易に理解することができるであろう。例えば、決定される動作は、電子機器410自体の動作、電子機器410と連動する周辺機器の動作、電子機器410とネットワークを介して連動して電子機器410を通じてコンテンツを提供する外部サーバ(一例として、図2の外部サーバ210)の動作、コンテンツの進行と関連して発話者に要求するための動作、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作などのようなコンテンツの種類や特性、コンテンツの進行状況などによって活用可能なすべての動作のうちの1つが活用されてよい。このような動作の例として、図5および図6では、ゲームコンテンツ上の仮想のキャラクタに放たれた矢の回避と関連する動作が決定された例について説明した。他の例として、出力されるオーディオ情報「ボリュームを調節しますか?」に応答して発生する発話者の音声入力「ボリューム」および音声入力と関連する発話者の左側または右側への移動に関する位置情報に基づき、電子機器410の出力音量を減少または増加させるように調節するための動作が決定されてもよい。また他の例として、オーディオ情報は、発話者に発話および発話者の位置の変更を要求する情報を含んでよい。この場合、電子機器410は、段階740において受信した音声入力および受信した音声入力と関連する位置情報が、要求された情報に対応して予め設定された条件を満たしているかどうかによってコンテンツの進行と関連する動作を決定してよい。より具体的な例として、電子機器410が「左に3歩移動してください。」というオーディオ情報を出力し、発話者の音声入力と関連する位置情報に基づいて、発話者が実際に左に3歩移動したかどうかにより、コンテンツの進行と関連する動作を決定してよい。
【0049】
動作が決定されると、決定された動作の実行のための過程が実行されてよい。例えば、電子機器410自体の動作が決定された場合、電子機器410は、決定された動作を実行してよい。他の例として、発話者に要求するための動作が決定された場合、電子機器410は、決定された動作を発話者に要求するための音声を合成して音声基盤インタフェースを通じて出力してよい。また他の例として、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作を電子機器410が直接制御するか外部サーバからコンテンツを提供する場合、仮想キャラクタや仮想オブジェクトの動作を制御するための情報を外部サーバに送信し、外部サーバが仮想キャラクタや仮想オブジェクトの動作を制御するようにしてもよい。
【0050】
他の実施形態において、音声基盤のインタフェースを通じてコンテンツを提供する電子機器410と発話者とのインタラクションは、より多様な方式で進行されてよい。例えば、音声入力で認識された命令語だけではなく、音声入力に対応する音のトーン(tone)および/またはピッチ(pitch)のような情報や、電子機器410と連動する周辺機器から取得される値などが、コンテンツの進行と関連する動作を決定するためにさらに活用されてよい。
【0051】
一例として、電子機器410は、図7の段階740で、音声入力に対応する音のトーン、音のピッチ、および音声入力を分析して抽出される命令語のうちの少なくとも1つと、音声入力に関連する位置情報とを併せてコンテンツの進行と関連する動作を決定してよい。より具体的な例として、仮想の物体を投げて仮想の目標物にぶつけるゲームコンテンツにおいて、音声入力から抽出される命令語は仮想の物体を投げる開始時点を知らせるため、発話者の移動距離は物体を投げる力を決定するため、音声入力に対応する音のトーンまたは音のピッチは物体を投げる角度を決定するためにそれぞれ活用されてよい。
【0052】
他の例として、電子機器410は、電子機器410と連動する周辺機器から取得される値をさらに利用してコンテンツの進行と関連する動作を決定してもよい。
【0053】
図8は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。図8の段階810および段階820は、図7の段階740の代わりに実行されてよい。
【0054】
段階810において、電子機器410は、連動する周辺機器のセンサで音声入力と関連して測定された測定値を、周辺機器から受信してよい。ここで、音声入力と関連して測定された測定値は、音声入力の受信と関連する時点または期間に周辺機器のセンサで測定された測定値を含んでよい。具体的な例として、電子機器410は、発話者が所持しているか着用しているスマートフォン、スマートウォッチ、スマートバンドなどのような周辺機器と連動してよく、発話者の発話によって電子機器410が音声入力を受信した時点や音声入力が受信された期間内に周辺機器のセンサが測定した測定値を含んでよい。
【0055】
段階820において、電子機器410は、音声入力、該音声入力と関連する位置情報および受信した測定値を利用してコンテンツの進行と関連する動作を決定してよい。例えば、発話者が発話をしながらスマートフォンを持っている手を上に挙げた場合、手の動きに従って、スマートフォンに含まれている加速度センサやジャイロスコープセンサなどの出力値に基づいて発話者の手の動きが測定されたとする。この場合、電子機器410は、受信した測定値に基づいてこのような発話者の手の動きを測定し、このような測定された手の動きをさらに利用してコンテンツの進行と関連する動作を決定してよい。より具体的な例として、発話者が発話時に単に移動する場合と、発話者が発話時に上に挙げた手を振りながら移動する場合では、コンテンツの進行と関連して、それぞれ互いに異なる動作が決定されてよい。他の例として、音声入力と関連して測定される発話者の脈拍が、コンテンツの進行と関連する動作を決定するのに活用されてもよい。また、このような測定値は、複数の発話者が存在する場合、特定の発話者(一例として、クイズコンテンツにおいて、回答しようとした複数の発話者のうちで最初に挙手した発話者)を選定するために活用されてもよい。
【0056】
実施形態によっては、発話者の位置情報を活用せずに、音声入力から抽出される命令語、音声入力に対応する音のトーン、音のピッチ、および周辺機器のセンサで測定された測定値のうちの少なくとも2つ以上を利用してコンテンツの進行と関連する動作が決定されてもよい。例えば、バスケットボールゲームにおいて、「シュート」という音声入力から抽出される「シュート」という命令語によってボールを投げる動作が決定され、「シュート」という音のトーンによってボールを投げる角度が決定され、「シュート」という音のピッチによってボールを投げる力が決定されてよい。このように、音声基盤インタフェースにおいて、音声入力から抽出される命令語だけではなく他の多様な情報を利用することにより、コンテンツと発話者とのマルチモーダルインタラクションが提供されることができる。
【0057】
図9は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。図9の段階910および段階920は、図7の段階710〜段階740の以前または以後に実行されてもよいし、図7の段階710〜段階740の間に実行されてもよい。
【0058】
段階910において、電子機器410は、連動する周辺機器のセンサにより音声入力とは関係なく測定された測定値を、周辺機器から受信してよい。例えば、測定値は、ユーザの脈拍、一定の期間内の移動量、前日の睡眠時間などのように、センサによって特定することのできる多様な値が活用されてよい。
【0059】
段階920において、電子機器410は、受信した測定値に基づいてコンテンツの進行と関連する設定を変更してよい。例えば、ゲームコンテンツにおいて、発話者の前日の睡眠時間や前日の移動量に基づき、当日の仮想のキャラクタの体力や力のような能力値が調節されてよい。または、発話者の累積された移動量に応じて仮想キャラクタの能力値が継続して増加するように設定が変更されてもよい。このように、測定値の種類やコンテンツの進行と関連する設定の種類がコンテンツの特性や種類に応じて多様に活用されてもよいことは、当業者であれば容易に理解することができるであろう。
【0060】
図10は、本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。図10の段階1010〜段階1030は、図7の段階740に含まれて実行されてよい。
【0061】
段階1010において、電子機器410は、音声入力および音声入力と関連する位置情報を、ネットワークを介して外部サーバに送信してよい。ここで、外部サーバは、図2を参照しながら説明した外部サーバ210に対応してよく、ネットワークを介して電子機器410と通信しながらコンテンツを提供する装置であってよい。
【0062】
段階1020において、電子機器410は、外部サーバによって音声入力および音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して外部サーバから受信してよい。電子機器410は、音声入力および位置情報を直接分析するのではなく、このような情報を外部サーバに送信し、外部サーバから送信された情報に基づいて動作情報を生成した後、その結果を受信してよい。
【0063】
段階1030において、電子機器410は、受信した動作情報に基づいてコンテンツの進行と関連する動作を決定してよい。実質的に、段階1030は、外部サーバでコンテンツの進行と関連する動作を決定し、これに関する情報を受信し、決定された動作を確認する過程であってよい。
【0064】
以上のように、本発明の実施形態によると、ネットワークに連結し、音声を基盤として動作する電子機器によるインタラクションにおいて、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じて、より多様なユーザ経験を提供することができる。また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持しているスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりすることができる。
【0065】
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組合せによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、演算論理装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、プログラマブル論理装置(PLU:programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことを理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサと1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0066】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組合せを含んでもよく、所望のとおりに動作するよう処理装置を構成してもよく、独立的または集合的に処理装置に命令してもよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読取可能な記録媒体に格納されてよい。
【0067】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読取可能な媒体に記憶されてよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して格納するものであってもよいし、実行またはダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアや他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0068】
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
【0069】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0070】
100:電子機器
110:ユーザ
210:外部サーバ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10