特許第6973380号(P6973380)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

<>
  • 特許6973380-情報処理装置、および情報処理方法 図000002
  • 特許6973380-情報処理装置、および情報処理方法 図000003
  • 特許6973380-情報処理装置、および情報処理方法 図000004
  • 特許6973380-情報処理装置、および情報処理方法 図000005
  • 特許6973380-情報処理装置、および情報処理方法 図000006
  • 特許6973380-情報処理装置、および情報処理方法 図000007
  • 特許6973380-情報処理装置、および情報処理方法 図000008
  • 特許6973380-情報処理装置、および情報処理方法 図000009
  • 特許6973380-情報処理装置、および情報処理方法 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6973380
(24)【登録日】2021年11月8日
(45)【発行日】2021年11月24日
(54)【発明の名称】情報処理装置、および情報処理方法
(51)【国際特許分類】
   G06F 16/90 20190101AFI20211111BHJP
   G06F 16/9035 20190101ALI20211111BHJP
   G06F 40/56 20200101ALI20211111BHJP
【FI】
   G06F16/90 100
   G06F16/9035
   G06F40/56
【請求項の数】10
【全頁数】19
(21)【出願番号】特願2018-510235(P2018-510235)
(86)(22)【出願日】2017年1月16日
(86)【国際出願番号】JP2017001261
(87)【国際公開番号】WO2017175442
(87)【国際公開日】20171012
【審査請求日】2019年11月28日
(31)【優先権主張番号】特願2016-78499(P2016-78499)
(32)【優先日】2016年4月8日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】渡辺 秀明
【審査官】 甲斐 哲雄
(56)【参考文献】
【文献】 特開2013−254395(JP,A)
【文献】 特開2004−177990(JP,A)
【文献】 特開2002−259252(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06F 40/00−40/58
(57)【特許請求の範囲】
【請求項1】
複数のユーザによって登録される情報を記憶する記憶部と、
前記ユーザによって入力された発話情報から当該発話情報の発話者の要求を解析する解析部と、
前記記憶部に記憶された情報から前記要求への応答となる情報を前記解析部による解析結果に基づいて検索する検索部と、
前記発話者を検知するセンサにより取得されたセンサ情報に基づいて当該発話者のコンテキストを認識する認識部と、
前記検索部によって検索された情報、応答内容の出力形式、および出力先を含む応答情報を生成する生成部と、
前記応答情報に含まれる前記出力先によって前記出力形式で前記応答内容を出力させるよう制御する出力制御部と、
を備え、
前記認識部は、
前記発話者が誰かと、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つとを当該発話者のコンテキストとして認識し、
前記生成部は、
前記検索部によって検索された情報を前記発話者が誰かに応じて当該発話者が理解できる内容に変更し、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つに応じて当該発話者が前記応答内容を理解できる前記出力先および前記出力形式を決定する、情報処理装置。
【請求項2】
複数のユーザによって登録される情報を記憶する記憶部と、
前記ユーザによって入力された発話情報を受信する第一の受信部と、
前記発話情報の発話者を検知するセンサにより取得されたセンサ情報を受信する第二の受信部と、
前記発話情報から前記発話者の要求を解析する解析部と、
前記記憶部に記憶された情報から前記要求への応答となる情報を前記解析部による解析結果に基づいて検索する検索部と、
前記センサ情報に基づいて前記発話者のコンテキストを認識する認識部と、
前記検索部によって検索された情報、応答内容の出力形式、および出力先を含む応答情報を生成する生成部と、
前記応答情報に含まれる前記出力先によって前記出力形式で前記応答内容を出力させるよう制御する出力制御部と、
を備え、
前記認識部は、
前記発話者が誰かと、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つとを当該発話者のコンテキストとして認識し、
前記生成部は、
前記検索部によって検索された情報を前記発話者が誰かに応じて当該発話者が理解できる内容に変更し、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つに応じて当該発話者が前記応答内容を理解できる前記出力先および前記出力形式を決定する、情報処理装置。
【請求項3】
前記出力制御部は、前記応答内容と、当該応答内容の出力タイミングに関して前記コンテキストに基づいて決定する出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、請求項1または2に記載の情報処理装置。
【請求項4】
前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、請求項1〜3のいずれか1項に記載の情報処理装置。
【請求項5】
前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、請求項1〜4のいずれか1項に記載の情報処理装置。
【請求項6】
前記生成部は、前記応答内容を前記出力形式に応じて変更る、請求項のいずれか1項に記載の情報処理装置。
【請求項7】
前記出力制御部は、前記発話者のリアルタイムの前記コンテキストに応じて出力制御する、請求項1〜のいずれか1項に記載の情報処理装置。
【請求項8】
前記認識部は、前記発話者の視線方向を前記発話者のコンテキストとして認識し、
前記生成部は、前記出力先前記発話者の視線方向に基づいて決定る、請求項1〜7のいずれか1項に記載の情報処理装置。
【請求項9】
プロセッサが行う情報処理方法であって
複数のユーザによって登録される情報を記憶する記憶工程と、
前記ユーザによって入力された発話情報から当該発話情報の発話者の要求を解析する解析工程と、
前記記憶工程によって記憶された情報から前記要求への応答となる情報を前記解析工程による解析結果に基づいて検索する検索工程と、
前記発話者を検知するセンサにより取得されたセンサ情報に基づいて当該発話者のコンテキストを認識する認識工程と、
前記検索工程によって検索された情報、応答内容の出力形式、および出力先を含む応答情報を生成する生成工程と、
前記応答情報に含まれる前記出力先によって前記出力形式で前記応答内容を出力させるよう制御する出力制御工程と、
を含み、
前記認識工程は、
前記発話者が誰かと、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つとを当該発話者のコンテキストとして認識し、
前記生成工程は、
前記検索工程によって検索された情報を前記発話者が誰かに応じて当該発話者が理解できる内容に変更し、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つに応じて当該発話者が前記応答内容を理解できる前記出力先および前記出力形式を決定することを含む、情報処理方法。
【請求項10】
プロセッサが行う情報処理方法であって
複数のユーザによって登録される情報を記憶する記憶工程と、
前記ユーザによって入力された発話情報を受信する第一の受信工程と、
前記発話情報の発話者を検知するセンサにより取得されたセンサ情報を受信する第二の受信工程と、
前記発話情報から前記発話者の要求を解析する解析工程と、
前記記憶工程によって記憶された情報から前記要求への応答となる情報を前記解析工程による解析結果に基づいて検索する検索工程と、
前記センサ情報に基づいて前記発話者のコンテキストを認識する認識工程と、
前記検索工程によって検索された情報、応答内容の出力形式、および出力先を含む応答情報を生成する生成工程と、
前記応答情報に含まれる前記出力先によって前記出力形式で前記応答内容を出力させるよう制御する出力制御工程と、
を含み、
前記認識工程は、
前記発話者が誰かと、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つとを当該発話者のコンテキストとして認識し、
前記生成工程は、
前記検索工程によって検索された情報を前記発話者が誰かに応じて当該発話者が理解できる内容に変更し、当該発話者の動作、状態、環境、および周辺に存在する機器の状態の少なくともいずれか一つに応じて当該発話者が前記応答内容を理解できる前記出力先および前記出力形式を決定することを含む、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、および情報処理方法に関する。
【背景技術】
【0002】
近年、ユーザの発話音声に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたUI(ユーザインタフェース)がスマートフォンやタブレット端末等で普及してきている。
【0003】
音声入力に関して、例えば下記特許文献1では、人間のジェスチャ、視線といった直接的な指示と、人間の発話音声とを統合的に解析して人間が何に対してどのように注目しているのかというユーザの注目情報として解析結果を出力するマルチモーダル情報解析装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−231427号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、システムから出力される応答は、ユーザの状況や環境を考慮せずに提示されるため、ユーザが応答結果を理解し難い場合があった。
【0006】
そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能な情報処理装置、および情報処理方法を提案する。
【課題を解決するための手段】
【0007】
本開示によれば、入力された発話情報を送信する第一の送信部と、取得したコンテキスト情報を送信する第二の送信部と、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。
【0008】
本開示によれば、入力された発話情報を受信する第一の受信部と、取得したコンテキスト情報を受信する第二の受信部と、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。
【0009】
本開示によれば、プロセッサが、入力された発話情報を送信することと、取得したコンテキスト情報を送信することと、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、を含む、情報処理方法を提案する。
【0010】
本開示によれば、プロセッサが、入力された発話情報を受信することと、取得したコンテキスト情報を受信することと、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、を含む、情報処理方法を提案する。
【発明の効果】
【0011】
以上説明したように本開示によれば、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能となる。
【0012】
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
【図面の簡単な説明】
【0013】
図1】本実施形態による情報処理装置の概要を説明する図である。
図2】本実施形態によるシステムの全体構成を説明する図である。
図3】本実施形態による情報処理装置の構成の一例を示すブロック図である。
図4】本実施形態による制御部の機能構成例を示す図である。
図5】本実施形態によるサーバの構成の一例を示すブロック図である。
図6】本実施形態による発話意味解析部により解析される情報の具体例を示す図である。
図7】本実施形態によるコンテキスト情報の具体例を示す図である。
図8】本実施形態による応答情報の具体例を示す図である。
図9】本実施形態による応答制御処理を示すシーケンス図である。
【発明を実施するための形態】
【0014】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0015】
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理装置の概要
2.構成
2−1.情報処理装置1の構成
2−2.サーバ2の構成
3.動作
4.まとめ
【0016】
<1.本開示の一実施形態による情報処理装置の概要>
まず、本開示の一実施形態による情報処理装置の概要について説明する。図1は、本実施形態による情報処理装置1の概要を説明する図である。図1に示すように、本実施形態による情報処理装置1は、音声入力部10(例えばマイクアレイ)および音声出力部16を有し、ユーザとの音声対話を実現するエージェント機能を有する。具体的には、情報処理装置1は、ユーザの発話音声を音声入力部10により取得し、ユーザの発話に対する応答情報を音声出力部16からユーザに対して返答する。例えば明日の天気の問い合わせをユーザから受けた場合、情報処理装置1は明日の天気情報をユーザに応答する。
【0017】
さらに、本実施形態による情報処理装置1は画像出力部14を有していてもよく、ユーザに応答する際に画像情報を表示することが可能である。
【0018】
また、本実施形態による情報処理装置1は、図1に示すような据え置き型のホームエージェント装置であってもよいし、自走型のホームエージェント装置(例えばロボット)であってもよい。また、情報処理装置1は、スマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末等のモバイル端末であってもよいし、パーソナルコンピュータ、ゲーム機、音楽プレイヤー、車載端末等であってもよい。
【0019】
また、本実施形態による情報処理装置1は、サーバ2と接続し、サーバ2とデータの送受信を行い、ユーザへの応答処理を行い得る。情報処理装置1とサーバ2を含む本実施形態によるシステムの全体構成について図2を参照して説明する。図2に示すように、情報処理装置1は、ネットワーク3を介してサーバ2に接続し、また、ホームネットワーク4を介してホーム内の各種機器(周辺装置5)と接続する。周辺装置5は、情報処理装置1の周辺(若しくはユーザの周辺)に存在し、音声出力部、表示出力部、または照明出力部等を有する各種装置である。具体的には、例えばテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55が想定される。ホームネットワーク4は、例えばWi−Fi(登録商標)、赤外線通信、またはBluetooth(登録商標)等が利用され得る。
【0020】
ここで、既存の音声対話システムでは、ユーザの状況や環境を考慮せずに応答が出力されるため、ユーザが応答結果を理解し難い場合があった。例えばシステムから長い文章で音声応答された場合、ユーザは理解することが困難であった。また、テレビを見ていたり掃除機をかけている際に音声で応答されても聞こえ難い場合があった。また、ユーザが電話を行っている時にシステムから通知があっても気付き難かったり注意を向けられない場合があった。さらに、例えば共有している家族の予定を確認した際に、予定を入力した者にしか分からないようなキーワード等を含む予定がそのまま提示されても、ユーザ(発話者)には内容が理解できないという問題があった。
【0021】
そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。具体的には、例えば情報処理装置1は、ユーザのコンテキスト(例えば、誰が聞いているか、時刻、ユーザの行動・状況、環境状態、ユーザの予定等)を取得し、ユーザのコンテキストに応じた適切な出力形式、出力先(出力部)、および出力タイミングで応答を提示することで、ユーザが容易に応答内容を理解できるようにする。
【0022】
以上、本実施形態による情報処理装置1の概要およびシステム全体の概要について説明した。続いて、本実施形態による情報処理装置1およびサーバ2の構成について順次説明する。
【0023】
<2.構成>
<2−1.情報処理装置1の構成>
図3は、本実施形態による情報処理装置1の構成の一例を示すブロック図である。図3に示すように、情報処理装置1は、音声入力部10、音声認識部11、制御部12、通信部13、画像出力部14、音声合成部15、および音声出力部16を有する。
【0024】
音声入力部10は、ユーザ音声や周辺の環境音を収音し、音声信号を音声認識部11に出力する。具体的には、音声入力部10は、マイクロホンおよびアンプ等により実現される。また、音声入力部10は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。
【0025】
音声認識部11は、音声入力部10から出力された音声信号に対して音声認識を行い、ユーザの発話音声をテキスト化する。テキスト化した発話データは、制御部12に出力される。
【0026】
制御部12は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置1内の動作全般を制御する。制御部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部12は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
【0027】
また、本実施形態による制御部12は、音声認識部11から出力されたユーザ発話データ(テキスト情報)に対して応答する発話情報(応答情報)や、自発的な発話情報(ユーザへの通知等)を、画像出力部14または音声合成部15に出力する。例えば制御部12は、音声入力されたユーザ発話に基づく発話情報を通信部13からサーバ2へ送信し、サーバ2から返送され通信部13で受信した応答情報を画像出力部14または音声合成部15に出力したり、当該応答情報を通信部13からホームネットワーク4内の周辺装置5に出力したりしてもよい。制御部12の詳細な構成については図4を参照して後述する。
【0028】
通信部13は、有線/無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部13は、例えば有線LAN(Local Area Network)、無線LAN、Wi−Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して無線通信する。
【0029】
また、通信部13は、サーバ2と接続し、所定のデータの送受信を行う。例えば通信部13は、ユーザ発話に基づく発話情報をサーバ2に送信したり、サーバ2からユーザ発話への応答情報等を受信したりする。本明細書において「発話情報」とは、ユーザが入力した発話の情報の他、当該情報の全部または一部を認識/解析/分析/推定し、音声形式、テキスト形式、または特徴量のベクトル形式等その他の形式に変換したものも含む。また、通信部13は、周辺装置5等から取得した機器情報やセンサ情報をサーバ2へ送信する。
【0030】
また、本実施形態による通信部13は、例えばカメラ、ユーザ端末(例えばスマートフォン)、センサ類から各種情報を受信する。センサ類はユーザ端末に設けられてもよいし、ユーザが装着するウェアラブル端末に設けられていてもよいし、部屋のドアやソファー、廊下等に設置されていてもよい。センサ類としては、例えばジャイロセンサ、加速度センサ、方位センサ、位置測位部、および生体センサ等が想定される。
【0031】
画像出力部14は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。画像出力部14は、制御部12から出力された画像情報をユーザに表示する。
【0032】
音声合成部15は、制御部12から出力された発話情報(テキスト)を音声データに変換(音声化)し、音声出力部16に出力する。
【0033】
音声出力部16は、音声合成部15から出力された音声データをユーザに出力する。具体的には、音声出力部16は、スピーカおよびアンプ等により実現されている。
【0034】
(制御部12の詳細構成)
続いて、図4を参照して本実施形態による制御部12の詳細構成について説明する。図4は、本実施形態による制御部12の機能構成例を示す図である。
【0035】
図4に示すように、本実施形態による制御部12は、ローカル発話意味解析部121、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、ローカル応答情報生成部125、およびローカル出力制御部126として機能する。
【0036】
ローカル発話意味解析部121は、音声認識部11から入力された発話データ(テキスト)に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。本実施形態によるローカル発話意味解析部121は、後述するサーバ2の発話意味解析部201のサブセットであって、簡易の発話意味解析機能を有する。
【0037】
ローカルユーザ登録情報記憶部122は、ユーザ情報(プロファイル)やユーザにより登録された情報(ユーザ登録情報と称す)を記憶する。本実施形態によるローカルユーザ登録情報記憶部122は、後述するサーバ2のユーザ登録情報記憶部22のサブセットであって、記憶するデータ量は少ない(例えば直近3カ月に登録された情報を記憶する)。
【0038】
ローカル情報検索部123は、ユーザの要求が「検索」の場合、ローカル発話意味解析部121または発話意味解析部201により抽出された検索キーワードに基づいて、ローカルユーザ登録情報記憶部122から検索を行う。本実施形態によるローカル情報検索部123は、後述するサーバ2の情報検索部202のサブセットであって、簡易の情報検索機能を有する。
【0039】
ローカルコンテキスト認識部124は、ユーザ(発話者)のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。例えば、ローカルコンテキスト認識部124は、情報処理装置1や、情報処理装置1と無線/有線により接続する周辺装置(テレビ受像機51、スマートフォン54、照明機器53等)に設けられるマイクロホン、カメラ、または各種センサ等により取得されたセンサ情報(音声情報、画像情報、センサ値等)や、機器情報に基づいて、ユーザのコンテキストを認識(推定)する。本実施形態によるローカルコンテキスト認識部124は、後述するサーバ2のコンテキスト認識部203のサブセットであって、簡易のコンテキスト認識機能を有する。
【0040】
ローカル応答情報生成部125は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態によるローカル応答情報生成部125は、検索結果とコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。本実施形態によるローカル応答情報生成部125は、後述するサーバ2の応答情報生成部204のサブセットであって、簡易の応答情報生成機能を有する。なお応答情報には、応答内容、出力形式(音声出力、テキスト出力、画像出力、または光出力等)、および出力部(出力先;例えば情報処理装置1、または音声出力装置、表示装置、情報処理端末、または照明装置等の周辺装置5)の情報が含まれる。
【0041】
ローカル出力制御部126は、ローカル応答情報生成部125または応答情報生成部204により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、ローカル出力制御部126は、応答情報、出力開始条件、出力終了条件を含む出力情報を生成し、最適な出力先に出力する。本実施形態によるローカル出力制御部126は、後述するサーバ2の出力制御部205のサブセットであって、簡易の出力制御機能を有する。
【0042】
なお、ローカル出力制御部126から出力された出力情報は、画像出力部14、音声合成部15、または通信部13を介して周辺装置5に出力される。画像出力部14に出力された場合、応答内容(テキスト、画像)が画面に表示、若しくは壁等に投影される。また、音声合成部15に出力された場合、応答内容が音声化され、音声出力部16から再生される。また、通信部13を介して有線/無線で接続する周辺のテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55等に送信された場合、これらの周辺装置5からテキストや音声等によりユーザに提示される。
【0043】
以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお本実施形態による情報処理装置1の構成は図3および図4に示す例に限定されない。例えば情報処理装置1は、ローカル発話意味解析部121、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、およびローカル応答情報生成部125の全てまたは一部を有さない構成であってもよい。また、情報処理装置1が人感センサやカメラを有していてもよい。
【0044】
また、情報処理装置1は、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、またはローカル応答情報生成部125による処理が対応できない場合にサーバ2へ対応する処理の要求を行ってもよい。また、情報処理装置1は、ローカルユーザ登録情報記憶部122、ローカル情報検索部123、ローカルコンテキスト認識部124、またはローカル応答情報生成部125で処理を行うと共に、サーバ2に対して対応する処理要求を行い、いずれかの処理結果を利用するようにしてもよい。
【0045】
<2−2.サーバ2の構成>
次に、図5を参照して本実施形態によるサーバ2の構成について説明する。図5は、本実施形態によるサーバ2の構成の一例を示すブロック図である。
【0046】
図5に示すように、本実施形態によるサーバ2は、制御部20、通信部21、およびユーザ登録情報記憶部22を有する。
【0047】
通信部21は、外部装置と接続し、データの送受信を行う。例えば通信部21は、情報処理装置1から発話情報やセンサ情報を受信したり、後述する応答情報生成部204で生成された応答情報を情報処理装置1に送信したりする。
【0048】
ユーザ登録情報記憶部22は、ユーザ情報(プロファイル)やユーザにより登録された情報(ユーザ登録情報と称す)を記憶する。例えばユーザ登録情報は、予定(スケジュール)、備忘録(メモ)、他ユーザへの伝言等が想定される。
【0049】
制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM、及び適宜変化するパラメータ等を一時記憶するRAMを含んでいてもよい。
【0050】
本実施形態による制御部20は、図5に示すように、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、および出力制御部205として機能する。
【0051】
発話意味解析部201は、情報処理装置1から送信された発話情報に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。発話情報は、例えば「2月28日10時からピアノ教室」、「今日の予定は?」等の音声認識処理によりテキスト化されたデータ等、様々想定される。本実施形態による発話意味解析部201は、例えばユーザがどのような要求(情報を登録したい、検索したい等)をしているのかを解析し、発話データから登録対象の情報や検索キーワードを抽出する。ユーザの要求が「登録」の場合、抽出された登録対象の情報がユーザ登録情報記憶部22に格納される。また、ユーザの要求が「検索」の場合、抽出された検索キーワードが情報検索部202に出力される。ここで、発話意味解析部201により解析される情報の具体例を図6に示す。図示されたように、例えばアプリケーション(カレンダーアプリケーション、備忘録アプリケーション等)や、当該アプリケーションで行う操作内容(登録、検索、削除等)の推定、および検索キーワードや登録情報等の値(「13時美容院」、「週末の予定」、「明日」等)の抽出が行われる。
【0052】
情報検索部202は、ユーザの要求が「検索」の場合、発話意味解析部201により抽出された検索キーワードに基づいて、ユーザ登録情報記憶部22から検索を行い、結果を応答情報生成部204に出力する。例えば、「週末のみんなの予定を教えて」という要求の場合、情報検索部202は、ユーザ登録情報記憶部22に登録された家族全員(ここでは、「みんな」とは『家族』を示すことが発話意味解析部201により推定される)の予定情報から「週末」の予定を検索する。
【0053】
コンテキスト認識部203は、ユーザ(発話者)のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。具体的には、コンテキスト認識部203は、情報処理装置1から送信されるセンサ情報に基づいて、ユーザのコンテキストを認識(推定)する。かかるセンサ情報は、情報処理装置1や、情報処理装置1と無線/有線により接続する周辺装置5(テレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54等)に設けられるマイクロホン、カメラ、または各種センサ等により取得された情報(音声情報、画像情報、センサ値等)を含む。また、コンテキスト認識部203は、情報処理装置1から送信された情報処理装置1や周辺装置5等の機器情報(ON/OFF情報、操作情報等)に基づいてユーザのコンテキストを認識(推定)することも可能である。ユーザのコンテキストとは、例えばユーザが誰であるか(発話者の識別)、ユーザ状態(行動、状況、画像からのユーザ視線方向推定、同視線方向推定に基づくユーザのアテンションのある物体の推定)、環境状態(ユーザが一人でいるのか複数人でいるのか等のユーザ環境、ユーザ位置)、または機器状態(ユーザ周辺に存在する機器の状態)等が想定される。コンテキスト情報とは、画像、音声、各種センサ情報から直接得られる前述のユーザ状態、環境状態、機器状態の他、これらの情報を認識/解析/分析/推定した結果、間接的に得られる情報を含む。ここで、コンテキスト情報の具体例を図7に示す。図示されたように、例えばユーザ状態として、TVを見ている、部屋にいない、家事をしている等が推定される。また、機器状態として、情報処理装置1が制御可能なデバイス情報、具体的にはテレビ受像機51のON/OFF、スマートフォン54、照明機器53の状態等が認識される。また、環境状態として、騒音レベル(煩さ)や部屋の照度レベル(明るさ)等が認識される。
【0054】
応答情報生成部204は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態による応答情報生成部204は、情報検索部202から出力された検索結果と、コンテキスト認識部203から出力されたコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。より具体的には、応答情報生成部204は、検索結果およびコンテキスト情報に基づいて、応答内容、出力形式(音声、テキスト、ライト等)の指定、出力先(情報処理装置1、テレビ受像機51、オーディオ機器52、スマートフォン54、照明機器53、PC55等)の指定を含む応答情報を生成する。また、応答情報生成部204は、出力の候補となり得る応答情報を複数生成して出力制御部205に出力してもよい。
【0055】
ここで、応答情報の具体例を図8に示す。図8では、いずれも発話内容が週末の予定の問い合わせ(「週末のみんなの予定を教えて?」)であって、当該発話の意味解析結果に基づいて情報検索部202により、
「土曜日、13時Cさん(登録者:ユーザA)
日曜日、10時ユーザB サッカー
日曜日、18時ユーザB 町内会」
というユーザ登録情報が検索された場合における応答情報の一例が示されている。具体的には、発話者がユーザA、ユーザBの場合に生成される応答情報が示されている。ここでは、ユーザAとユーザBが家族(夫婦)であって、情報処理装置1をホームエージェントとして利用し、互いのスケジュールを共有している場合を想定する。
【0056】
応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザA(妻)」、「ユーザ状態:発話者が情報処理装置1を見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器:情報処理装置1」、「出力形式:表示出力(テキスト)」、「出力内容(応答内容):検索した情報をそのまま表示」という応答情報を生成する。ここでは、ユーザAが情報処理装置1の方に視線を向けているため、応答情報を情報処理装置1に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、表示出力という形式のため、ある程度長い文章(ここでは、週末の3つの予定全ての内容)をそのまま出力してもユーザが容易に理解できるため、検索したユーザ登録情報がそのまま表示するものとする。
【0057】
また、応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザA(妻)」、「ユーザ状態:発話者が手元を見ている。環境:部屋は静かな状態」というコンテキスト情報と、上記検索結果に応じて、「出力機器:情報処理装置1」、「出力形式:音声出力」、「出力内容(応答内容):検索した情報を要約」という応答情報を生成する。ここでは、ユーザAが手元を見ており、かつ部屋は静かな状態であるため、応答情報を音声出力することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、音声出力という形式のため、長い文章を出力してもユーザが理解し難いため、検索ユーザ登録情報を要約することでユーザが理解し易いようにすることができる。
【0058】
また、応答情報生成部204は、例えば図8の応答情報例に示すように、「発話者:ユーザB(夫)」、「ユーザ状態:発話者がTVを見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器:TV」、「出力形式:表示出力(テキスト)」、「出力内容(応答内容):検索した情報を発話者が理解できる内容に変更して表示」という応答情報を生成する。ここでは、ユーザBがTVを見ているため、応答情報をテレビ受像機51に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、検索したユーザ登録情報のうち、ユーザAによって登録された情報が「土曜日、13時Cさん」というように、固有名詞「Cさん」が用いられている場合、登録した本人以外にはどのような予定であるのか理解するのは困難である。そこで、例えば家族に関する知識データベースが予め構築されている場合、応答情報生成部204は、当該知識データベースを用いて登録者以外も容易に理解できる応答内容に変更する。具体的には、例えば知識データベースから「Cさん:○○美容院の美容師」という情報が抽出できた場合、応答情報生成部204は、「土曜日、13時Cさん」を『土曜日、13時ユーザA ○○美容院』に変更してユーザBも理解できる応答内容を生成する。
【0059】
以上、本実施形態による応答情報例について説明した。上述した例では、応答情報生成部204がコンテキスト情報に応じて応答内容を変更する場合について説明したが、本実施形態はこれに限定されず、例えば検索結果に応じて応答内容を変更してもよい。具体的には、例えば検索結果が1件の場合は「音声」で返答するが、検索結果が複数の場合は「表示(またはプロジェクターによる投影)」で返答するようにしてもよい。検索結果が多い場合は音声で聞くよりも表示画面を視認した方が理解し易いためである。
【0060】
また、本実施形態による応答情報生成部204は、複数のコンテキストに応じた応答情報を生成し、生成した複数の応答情報を出力制御部205に出力してもよい。例えば発話者ユーザAの場合に、図8に示す「ユーザ状態:情報理装置1を見ている場合」と、「ユーザ状態:手元(情報処理装置1以外)を見ている場合」等の異なるコンテキストにそれぞれ対応する応答情報を生成し、出力制御部205に出力する。
【0061】
出力制御部205は、応答情報生成部204により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、出力制御部205は、応答情報を含む出力情報を生成し、最適な出力先に出力する。ここで、コンテキストは逐次変化するため、出力制御部205は、出力時におけるユーザのリアルタイムのコンテキスト情報に応じて最適な応答情報を選択し、出力情報として出力することも可能である。
【0062】
なお、出力制御部205から出力された出力情報は、情報処理装置1の画像出力部14、音声合成部15、または周辺装置5等に出力される。画像出力部14に出力された場合、応答内容(テキスト、画像)が画面に表示、若しくは壁等に投影される。また、音声合成部15に出力された場合、応答内容が音声化され、音声出力部16から再生される。また、ユーザ周辺のテレビ受像機51、オーディオ機器52、照明機器53、スマートフォン54、PC55等の周辺装置5に送信された場合、これらの周辺装置5からテキストや音声等によりユーザに提示される。なお周辺装置5へは、情報処理装置1を介して出力情報が送信されてもよい。
【0063】
また、出力制御部205は、コンテキスト情報に応じて出力タイミングを制御することも可能である。具体的には、出力制御部205は、コンテキスト情報に応じて最適な出力開始条件と出力終了条件を生成し、出力情報に含めて出力先へ出力する。出力開始条件は、例えば「即座に、時間指定(15:00等)、ユーザ状態指定(電話が終了してから等)」等が挙げられる。また、出力終了条件は、「回数指定(1回だけ等)、時間指定(60秒間等)、ユーザ状態指定(ユーザが部屋から出るまで等)」等が挙げられる。これにより、例えばユーザ環境の騒音が静かになった時(掃除等が終了した時)等に、音声で応答情報を提示したりすることが可能となる。
【0064】
以上、本実施形態によるサーバ2の構成について具体的に説明した。なお本実施形態によるサーバ2の構成は図5に示す例に限定されない。例えばサーバ2の発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、出力制御部205、およびユーザ登録情報記憶部22の全てまたは一部が、外部装置(例えば情報処理装置1)に設けられていてもよい。
【0065】
また、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、および出力制御部205の少なくともいずれかの処理が情報処理装置1側の対応するサブセットで行われ、その処理結果を情報処理装置1から受信してサーバ2側で利用してもよい。
【0066】
<3.動作>
続いて、本実施形態による動作処理について図9を参照して説明する。図9は、本実施形態による応答制御処理を示すシーケンス図である。本実施形態による応答制御処理は、情報処理装置1で起動するシステム(アプリケーションプログラム)およびサーバ2で起動するシステム(アプリケーションプログラム)により実行される。
【0067】
図9に示すように、まず、情報処理装置1は、センサ情報を取得し(ステップS100)、サーバ2に送信する(ステップS103)。センサ情報は、例えば撮像画像、収音音声、または各種センサ値等であって、情報処理装置1または周辺装置5等に設けられたカメラ、マイク、センサ等により検知され得る。サーバ2に送信されるセンサ情報は、検知された生データであってもよいし、生データから特徴量抽出等、所定の加工を行ったデータであってもよい。
【0068】
次に、サーバ2のコンテキスト認識部203は、センサ情報に基づいてコンテキストを認識し、認識結果(コンテキスト情報)を蓄積する(ステップS106)。なおステップS100〜S106に示すコンテキストの認識、蓄積処理は、ステップS109以降の処理を行っている間も逐次行われ得る。
【0069】
次いで、情報処理装置1は、ユーザからの発話を認識すると(ステップS109/Yes)、発話情報をサーバ2に送信する(ステップS112)。サーバ2に送信される発話情報は、収音されたユーザ発話の音声データであってもよいし、音声認識処理によりテキスト化されたテキストデータの他、音声データを認識/解析/分析/推定した結果、間接的に得られるデータであってもよい。
【0070】
次に、サーバ2の発話意味解析部201は、発話情報に基づいてユーザ発話の意味解析を行い、検索条件や検索キーワードを抽出する(ステップS115)。
【0071】
次いで、サーバ2は、情報検索部202により、上記抽出した検索条件、検索キーワードを用いて、ユーザ登録情報記憶部22に記憶されているユーザ登録情報から検索を行う(ステップS118)。
【0072】
次に、サーバ2は、コンテキスト認識部203により蓄積されたコンテキスト情報を取得する(ステップS121)。
【0073】
次いで、サーバ2は、応答情報生成部204により、検索結果およびコンテキスト情報に基づいて、ユーザの状況や周辺環境に応じた応答情報の候補を生成する(ステップS124)。
【0074】
続いて、サーバ2の出力制御部205は、現在のコンテキスト情報に基づいて、最適な応答タイミングであるか否かを判断する(ステップS127)。具体的には、出力制御部205は、コンテキスト情報に基づく現在の状況が出力開始条件を満たすか否かを判断する。
【0075】
次いで、最適な応答タイミングであると判断した場合(ステップS127/Yes)、出力制御部205は、ユーザの状況(現在のコンテキスト情報)に応じた最適な応答出力制御を行う。具体的には、例えば出力先が情報処理装置1(画像出力部14、または音声出力部16等)である場合、出力制御部205は情報処理装置1に出力情報(応答情報、出力開始条件、出力終了条件を含む)を送信し(ステップS130)、情報処理装置1において応答情報が出力される(ステップS133)。一方、出力先が周辺装置5である場合、出力制御部205は同様に出力情報を周辺装置5に送信し(ステップS136)、周辺装置5において応答情報が出力される(ステップS139)。
【0076】
なお、本実施形態による処理は図9に示す例に限定されず、例えばサーバ2が情報処理装置1に複数の応答情報の候補を送信し、情報処理装置1のローカル出力制御部126により最適な応答タイミングを判断し、情報処理装置1からの出力、またはホームネットワーク4を介して接続する周辺装置5からの出力を制御してもよい。
【0077】
<4.まとめ>
上述したように、本開示の実施形態による情報処理装置1では、コンテキストに応じて応答を生成し、出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。
【0078】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0079】
例えば、上述した情報処理装置1に内蔵されるCPU、ROM、およびRAM等のハードウェアに、情報処理装置1の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
【0080】
また、本実施形態では図2を参照して情報処理装置1とサーバ2を含むシステムとして説明したが、本実施形態はこれに限定されず、サーバ2で行われる処理を全て情報処理装置1が行う構成とし、情報処理装置1単体で実現してもよい。例えば、情報処理装置1が、図4を参照して説明した構成(端末側モジュール)と、図5を参照して説明した構成(サーバ側モジュール)を含む構成であってもよい。
【0081】
また、本実施形態によるシステム構成は、図2に示す例に限定されず、例えば情報処理装置1とサーバ2の間にエッジサーバを含むシステムであってもよい。エッジサーバは、発話意味解析部201、情報検索部202、コンテキスト認識部203、応答情報生成部204、またはユーザ登録情報記憶部22の少なくともいずれかに対応するサブセット(外部サブセット)を有する。エッジサーバの外部サブセットは情報処理装置1のサブセット(内部サブセット)よりも高い性能を有する。
【0082】
なお、本実施形態による情報処理装置1とユーザの対話は音声に限定されず、ジェスチャー(手話、身振り手振り)やテキスト(チャット)であってもよい。この場合、例えばタッチパネル付のディスプレイや、ディスプレイとキーボードによる入力等を介してインタラクションが実現される。
【0083】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0084】
なお、本技術は以下のような構成も取ることができる。
(1)
入力された発話情報を送信する第一の送信部と、
取得したコンテキスト情報を送信する第二の送信部と、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、
を備える、情報処理装置。
(2)
入力された発話情報を受信する第一の受信部と、
取得したコンテキスト情報を受信する第二の受信部と、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、
を備える、情報処理装置。
(3)
前記出力制御部は、前記応答情報と、前記コンテキスト情報に応じた出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、前記(1)または(2)に記載の情報処理装置。
(4)
前記応答情報は、応答内容、出力形式、および出力先の情報を含む、前記(1)〜(3)のいずれか1項に記載の情報処理装置。
(5)
前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、前記(4)に記載の情報処理装置。
(6)
前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、前記(4)または(5)に記載の情報処理装置。
(7)
前記応答内容は、発話者に応じて変更される、前記(4)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記応答内容は、出力形式に応じて変更される、前記(4)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記出力制御部は、リアルタイムのコンテキスト情報に応じて出力制御する、前記(1)〜(8)のいずれか1項に記載の情報処理装置。
(10)
プロセッサが、
入力された発話情報を送信することと、
取得したコンテキスト情報を送信することと、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、
を含む、情報処理方法。
(11)
プロセッサが、
入力された発話情報を受信することと、
取得したコンテキスト情報を受信することと、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、
を含む、情報処理方法。
【符号の説明】
【0085】
1 情報処理装置
10 音声入力部
11 音声認識部
12 制御部
13 通信部
14 画像出力部
15 音声合成部
16 音声出力部
121 ローカル発話意味解析部
122 ローカルユーザ登録情報記憶部
123 ローカル情報検索部
124 ローカルコンテキスト認識部
125 ローカル応答情報生成部
126 ローカル出力制御部
2 サーバ
20 制御部
201 発話意味解析部
202 情報検索部
203 コンテキスト認識部
204 応答情報生成部
205 出力制御部
21 通信部
22 ユーザ登録情報記憶部
3 ネットワーク
4 ホームネットワーク
5 周辺装置
図1
図2
図3
図4
図5
図6
図7
図8
図9