IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2023-129020端末装置、情報処理方法、および情報処理プログラム
<>
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図1
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図2
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図3
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図4
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図5
  • 特開-端末装置、情報処理方法、および情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023129020
(43)【公開日】2023-09-14
(54)【発明の名称】端末装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20230907BHJP
   G10L 15/22 20060101ALI20230907BHJP
   G06F 3/16 20060101ALI20230907BHJP
   G06F 3/01 20060101ALI20230907BHJP
   G10L 15/00 20130101ALI20230907BHJP
   G10L 15/16 20060101ALI20230907BHJP
   G06F 40/232 20200101ALI20230907BHJP
   G06F 40/216 20200101ALI20230907BHJP
【FI】
G10L15/10 500T
G10L15/22 453
G10L15/22 460Z
G06F3/16 650
G06F3/16 620
G06F3/01 510
G10L15/22 300Z
G10L15/00 200T
G10L15/16
G06F40/232
G06F40/216
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022033758
(22)【出願日】2022-03-04
(71)【出願人】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】三宅 純平
(72)【発明者】
【氏名】西 磨翁
(72)【発明者】
【氏名】友成 愛
(72)【発明者】
【氏名】大島 みゆき
【テーマコード(参考)】
5B091
5E555
【Fターム(参考)】
5B091AA11
5B091AA13
5B091CA21
5B091EA01
5E555AA46
5E555BA02
5E555BB02
5E555BC04
5E555CA47
5E555CB64
5E555DB41
5E555DC13
5E555DD08
5E555EA19
5E555EA20
5E555EA23
5E555FA00
(57)【要約】      (修正有)
【課題】受け付けた発話に続く利用者Uの発話内容を推定し、推定した発話内容を含む発話内容を利用者Uに提供することで、利用者の利便性の向上を図ることが可能な端末装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理システム100において、端末装置1は、受付部と、推定部と、提供部と、を備える。受付部は、利用者の発話を受け付ける。推定部は、受付部によって受け付けられた発話に続く利用者の発話内容を推定する。提供部は、推定部によって推定された発話内容を含む発話内容を利用者に提供する。
【選択図】図2
【特許請求の範囲】
【請求項1】
利用者の発話を受け付ける受付部と、
前記受付部によって受け付けられた前記発話に続く前記利用者の発話内容を推定する推定部と、
前記推定部によって推定された前記発話内容を含む発話内容を前記利用者に提供する提供部と、を備える
ことを特徴とする端末装置。
【請求項2】
前記推定部は、
前記受付部によって受け付けられた前記発話に対応する音声情報またはテキスト情報を入力とし、前記発話に続く前記利用者の発話内容の推定結果を出力とする学習済みモデルを有し、前記学習済みモデルを用いて前記発話に続く前記利用者の発話内容を推定する
ことを特徴とする請求項1に記載の端末装置。
【請求項3】
前記推定部は、
前記発話に続く前記利用者の発話内容として複数の発話内容候補を推定し、
前記提供部は、
前記推定部によって推定された前記複数の発話内容候補を含む発話内容を前記利用者に提供する
ことを特徴とする請求項2に記載の端末装置。
【請求項4】
前記提供部は、
前記複数の発話内容候補を表示部に表示させる
ことを特徴とする請求項3に記載の端末装置。
【請求項5】
前記提供部は、
前記複数の発話内容候補のうち前記利用者に選択された発話内容候補の情報を含むコンテンツ要求を外部サーバに送信し、前記コンテンツ要求に応じて前記外部サーバから送信されるコンテンツを前記利用者に提供する
ことを特徴とする請求項3または4に記載の端末装置。
【請求項6】
前記利用者による前記発話内容候補の選択履歴に基づいて、前記学習済みモデルを更新する学習部を備える
ことを特徴とする請求項5に記載の端末装置。
【請求項7】
前記学習済みモデルは、
前記受付部によって受け付けられた前記発話に対応する前記音声情報または前記テキスト情報を入力とし、各発話内容候補の推定スコアを出力とするモデルを含み、
前記推定部は、
前記推定スコアに基づいて、前記発話に続く前記利用者の発話内容として前記複数の発話内容候補を推定する
ことを特徴とする請求項3~6のいずれか1つに記載の端末装置。
【請求項8】
前記利用者の発話全体の音声情報を先頭から互いに異なる位置までで区切った分割音声情報または前記分割音声情報に対応する分割テキスト情報と前記利用者の発話全体のテキスト情報とを含む学習用データを用いて前記学習済みモデルを生成する学習部を備える
ことを特徴とする請求項2~5のいずれか1つに記載の端末装置。
【請求項9】
前記受付部は、
受け付けた前記発話に対応する前記音声情報をテキスト情報に変換し、
前記推定部は、
前記受付部によって変換された前記テキスト情報を前記学習済みモデルに入力することによって、前記発話に続く前記利用者の発話内容を推定する
ことを特徴とする請求項2~8のいずれか1つに記載の端末装置。
【請求項10】
端末装置が実行する情報処理方法であって、
利用者の発話を受け付ける受付工程と、
前記受付工程によって受け付けられた前記発話に続く前記利用者の発話内容を推定する推定工程と、
前記推定工程によって推定された前記発話内容を含む発話内容を前記利用者に提供する提供工程と、を含む
ことを特徴とする情報処理方法。
【請求項11】
利用者の発話を受け付ける受付手順と、
前記受付手順によって受け付けられた前記発話に続く前記利用者の発話内容を推定する推定手順と、
前記推定手順によって推定された前記発話内容を含む発話内容を前記利用者に提供する提供手順と、を端末装置に実行させる
ことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
従来、利用者の発話を受け付け、外部サーバから所望の情報を検索したり、宅内の機器を制御したりする技術が知られている。例えば、特許文献1には、端末装置である音声対話装置と外部サーバである音声対話サーバとを含むシステムが開示されている。
【0003】
特許文献1に記載の技術では、利用者の発話が音声対話装置の音声認識によりテキスト化され、テキスト化された文字列が音声対話サーバに送信される。また、音声対話装置は、利用者の発話内容を形態素解析して得られた形態素に基づいて先行応答文を作成し、作成した先行応答文を音声合成して音声として出力する。
【0004】
音声対話サーバは、音声対話装置から受信した文字列の意図を理解して、サービス提供サーバから後続応答文の生成に必要な情報を取得し、取得した情報に基づいて後続応答文を作成し音声対話装置へ送信する。音声対話装置は、音声対話サーバから提供される後続応答文を音声合成により読み上げる。これにより、音声対話装置は、利用者の質問に対して回答することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2017-107078号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記従来技術の音声対話装置では、利用者の発話内容に基づいて先行応答文を作成し、作成した先行応答文を音声合成して音声として出力することができるものの、利用者の利便性の向上を図る点で改善の余地がある。
【0007】
本願は、上記に鑑みてなされたものであって、利用者の利便性の向上を図ることができる端末装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本願に係る端末装置は、受付部と、推定部と、提供部とを備える。受付部は、利用者の発話を受け付ける。推定部は、受付部によって受け付けられた発話に続く利用者の発話内容を推定する。提供部は、推定部によって推定された発話内容を含む発話内容を利用者に提供する。
【発明の効果】
【0009】
実施形態の一態様によれば、利用者の利便性の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0010】
図1図1は、実施形態に係る情報処理の一例を示す図である。
図2図2は、実施形態に係る端末装置の構成の一例を示す図である。
図3図3は、実施形態に係る端末装置によって利用者に提供される複数の発話内容候補の一例を示す図である。
図4図4は、実施形態に係る端末装置によって利用者に提供される複数の発話内容候補の他の例を示す図である。
図5図5は、実施形態に係る端末装置の処理部による情報処理の一例を示すフローチャートである。
図6図6は、実施形態に係る端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0011】
以下に、本願に係る端末装置、情報処理方法、および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る端末装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0012】
〔1.情報処理の一例〕
図1は、実施形態に係る情報処理の一例を示す図であり、本実施形態においては端末装置1により情報処理方法が実行される。
【0013】
図1に示す端末装置1は、例えば、対話型の音声操作に対応するAI(人工知能:Artificial Intelligence)アシスタント機能を利用可能な端末装置であり、利用者Uは、端末装置1と対話することで周辺の機器を制御したり、様々な情報を取得したりすることができる。周辺の機器は、例えば、照明機器、冷蔵庫、洗濯機、エアーコンディショナー、テレビジョン受像機、食器洗浄機、食器乾燥機、電磁調理器、または電子レンジといった種々の機器である。
【0014】
また、利用者Uは、様々な情報を取得するための発話を端末装置1に対して行うと、端末装置1は、利用者Uからの指示を示す入力情報を情報提供装置2へ送信する。端末装置1は、入力情報に応じた情報提供装置2からネットワークN(図2参照)を介して提供されるコンテンツ(例えば、ニュース、交通情報、天候、および音楽などの各種情報)を取得し、取得したコンテンツを表示部に表示したりスピーカから出力したりすることができる。
【0015】
利用者Uは、例えば、必要な情報が知りたい場合、知りたい情報を取得するための発話を行う(ステップS1)。端末装置1は、利用者Uからの発話を受け付ける(ステップS2)。
【0016】
そして、端末装置1は、利用者Uの発話を受け付けると、受け付けた発話に続く利用者Uの発話内容を推定する(ステップS3)。例えば、利用者Uの発話内容が「赤坂から新宿までの」である場合、「赤坂から新宿までの」に続く発話内容候補として、「移動時間」、「終電」、および「10分後出発」などを推定する。
【0017】
端末装置1は、例えば、受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、発話に続く利用者Uの発話内容の推定結果を出力とする学習済みモデルを有し、学習済みモデルを用いて発話に続く利用者Uの発話内容を推定する。受け付けた利用者Uの発話に対応するテキスト情報は、端末装置1において、受け付けた利用者Uの発話に対応する音声情報を音声認識によりテキスト化することによって行われる。
【0018】
学習済みモデルは、例えば、受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、各発話内容候補の推定スコアを出力とする。端末装置1は、推定スコアが閾値以上の発話内容候補または推定スコアが高い上位の予め設定された数の発話内容候補を、受け付けた利用者Uの発話に続く利用者Uの発話内容として推定する。
【0019】
端末装置1は、利用者Uの発話全体の音声情報を先頭から互いに異なる位置までで区切った分割音声情報または分割音声情報に対応する分割テキスト情報と利用者Uの発話全体のテキスト情報とを含む学習用データを用いて学習済みモデルを生成することができる。
【0020】
分割音声情報または分割テキスト情報は、例えば、「あ」、「あか」、「あかさ」、「あかさか」、「あかさかか」、「あかさかから」、「あかさかからし」、「あかさかからしん」、・・・などといった音声情報またはテキスト情報である。利用者Uの発話全体のテキスト情報は、例えば、「赤坂から新宿までの終電」、「赤坂から新宿までの移動時間」、「赤坂から新宿までの10分後出発」などといったテキスト情報である。なお、利用者Uの発話全体のテキスト情報は、端末装置1によって推定されて利用者Uによって選択された内容を含んでいてもよい。
【0021】
端末装置1は、受け付けた利用者Uの発話に続く発話内容であってステップS3で推定した発話内容を含む発話内容を示す情報である推定情報を利用者Uに提供する(ステップS4)。推定情報の利用者Uへの提供は、例えば、端末装置1の表示部に推定情報を表示させたり端末装置1のスピーカから推定情報を音声信号として出力させたりすることによって行われる。
【0022】
推定情報には、端末装置1によって推定された1以上の発話内容候補を示す情報が含まれている。例えば、利用者Uの発話内容が「赤坂から新宿までの」である場合、推定情報は、「終電」、「移動時間」、「10分後出発」などのそれぞれを、発話内容候補を示す情報として含む。
【0023】
推定情報は、利用者Uの発話を示す情報と発話内容候補を示す情報とを発話内容候補毎に含んでいてもよい。例えば、利用者Uの発話内容が「赤坂から新宿までの」である場合、推定情報は、「赤坂から新宿までの終電」、「赤坂から新宿までの移動時間」、「赤坂から新宿までの10分後出発」のそれぞれを、発話内容候補を示す情報として含んでいてもよい。
【0024】
端末装置1は、利用者Uに提供した1以上の発話内容候補のうち1つの発話内容候補が利用者Uによって選択されると(ステップS5)、利用者Uの発話を示す情報と選択された発話内容候補を示す情報とを含むコンテンツ要求を情報提供装置2に送信する(ステップS6)。
【0025】
情報提供装置2は、端末装置1からのコンテンツ要求を受信すると、コンテンツ要求に応じたコンテンツを端末装置1に送信する(ステップS7)。例えば、コンテンツ要求に含まれる情報が「赤坂から新宿までの終電」である場合、情報提供装置2は、「23時44分発です。」または「赤坂から新宿までの終電は、23時44分発です。」の文字列を示す情報を含むコンテンツを端末装置1に送信する。
【0026】
端末装置1は、情報提供装置2からコンテンツを受信すると、受信したコンテンツを利用者Uに提供する(ステップS8)。コンテンツの利用者Uへの提供は、例えば、端末装置1の表示部にコンテンツを表示させたり端末装置1のスピーカからコンテンツを音声信号として出力したりすることによって行われる。
【0027】
このように、実施形態に係る端末装置1は、受け付けた発話に続く利用者Uの発話内容を推定し、推定した発話内容を含む発話内容を利用者Uに提供する。これにより、端末装置1は、利用者Uの利便性の向上を図ることができる。
【0028】
以下、このような処理を行う端末装置1を含む情報処理システムの構成などについて、詳細に説明する。
【0029】
〔2.情報処理システムの構成〕
次に、図2を用いて、実施形態に係る端末装置1を含む情報処理システムの構成について説明する。図2は、実施形態に係る端末装置1の構成の一例を示す図である。図2に示すように、情報処理システム100は、端末装置1と、情報提供装置2とを含む。端末装置1および情報提供装置2は、ネットワークNを介して、有線または無線により通信可能に接続される。なお、図2に示す情報処理システム100には、複数台の端末装置1および複数台の情報提供装置2が含まれてもよい。
【0030】
端末装置1は、例えば、スマートスピーカ、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット端末、携帯電話機、またはPDA(Personal Digital Assistant)などである。なお、端末装置1は、上記例に限定されなくともよく、例えば、スマートウォッチ、またはウェアラブルデバイス(Wearable Device)であってもよい。
【0031】
情報提供装置2は、利用者Uにオンラインでサービスを提供する。情報提供装置2によって提供されるサービスは、例えば、検索サービス、情報提供サービス、電子商取引サービス、オークションサービス、音楽配信サービス、動画配信サービスなどのオンラインサービスであるが、かかる例に限定されない。情報提供サービスは、検索サイトによって提供される検索サービス、ニュースサイトで提供されるニュース配信サービス、交通情報サイトで提供される交通情報提供サービス、天候情報サイトで提供される天候情報提供サービスなどの種々のサービスが含まれる。
【0032】
情報提供装置2は、インターネットなどの所定のネットワークNを介して、各種の装置と通信可能な情報処理装置であり、例えば、サーバ装置またはクラウドシステムなどにより実現される。例えば、情報提供装置2は、ネットワークNを介して、他の各種装置と通信可能に接続される。
【0033】
〔3.端末装置1〕
図2に示すように、実施形態に係る端末装置1は、通信部10と、表示部11と、操作部12と、記憶部13と、音声入力部14と、音声出力部15と、位置検出部16と、処理部17とを備える。
【0034】
〔3.1.通信部10〕
通信部10は、例えば、NIC(Network Interface Card)などによって実現される。通信部10は、ネットワークNと有線または無線で接続され、ネットワークNを介して、情報提供装置2との間で情報の送受信を行う。
【0035】
〔3.2.表示部11〕
表示部11は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro Luminescence)ディスプレイなどである。
【0036】
〔3.3.操作部12〕
操作部12は、例えば、文字、数字、およびスペースを入力するためのキー、エンターキーおよび矢印キーなどを含むキーボード、マウス、および電源ボタンなどを含む。表示部11がタッチパネルディスプレイの表示装置である場合、操作部12はタッチパネルを含んでいてもよい。
【0037】
〔3.4.記憶部13〕
記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。
【0038】
記憶部13には、各種の情報が記憶される。例えば、記憶部13には、情報提供装置2から送信されネットワークNおよび通信部10を介して処理部17によって取得された情報などが記憶される。また、記憶部13には、利用者Uの発話に対応する音声情報およびテキスト情報なども記憶される。
【0039】
〔3.5.音声入力部14〕
音声入力部14は、利用者Uが発した音声の信号である音声信号をデジタル信号に変換し、変換したデジタル信号である音声デジタル信号を処理部17に音声情報として出力する。音声入力部14は、例えば、マイクロホンと、マイクホンから出力される電気的なアナログ信号である音声信号をデジタル信号に変換するAD(Analog to Digital)変換器とを含む。
【0040】
〔3.6.音声出力部15〕
音声出力部15は、例えば、処理部17から出力される音声情報であるデジタル音声信号をアナログ音声信号に変換するDA(Digital to Analog)変換器と、DA変換器から出力されるアナログ音声信号を音に変換して出力するスピーカとを備える。
【0041】
〔3.7.位置検出部16〕
位置検出部16は、例えば、端末装置1の位置を検出し、検出した端末装置1の位置のデータである位置データを処理部17に出力する。位置検出部16は、GNSS(Global Navigation Satellite System)における複数の測位衛星から送信される複数の測位信号を受信し、受信した複数の測位信号に基づいて、端末装置1の位置を検出する。
【0042】
〔3.8.処理部17〕
処理部17は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)またはMPU(Micro Processing Unit)などによって、端末装置1内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。
【0043】
また、処理部17は、例えば、ASIC(Application Specific Integrated Circuit)またはFPGA(Field Programmable Gate Array)などの集積回路により実現されてもよい。処理部17は、受付部20と、推定部21と、提供部22と、学習部23とを備える。
【0044】
〔3.8.1.受付部20〕
受付部20は、音声入力部14から出力される音声デジタル情報に基づいて、利用者Uの発話を受け付ける。例えば、受付部20は、利用者Uが操作部12を用いて特定操作を行った場合に、その後に行われる利用者Uの発話を受け付ける。
【0045】
また、受付部20は、利用者Uが特定のキーワードを発話した場合に、その後に行われる利用者Uの発話を受け付けることもできる。利用者Uが特定のキーワードを発話したか否かは、音声入力部14から出力される音声情報に対する音声認識によって判定される。
【0046】
受付部20は、利用者Uの発話によって音声入力部14から出力される音声情報をテキスト情報に変換する音声認識機能を有している。また、受付部20は、音声認識機能によって変換されたテキスト情報の意味を解析する機能を有していてもよい。
【0047】
受付部20は、利用者Uの発話に対応する音声情報またはテキスト情報を推定部21に出力する。利用者Uの発話に対応する音声情報は、音声入力部14から出力される音声情報であり、利用者Uの発話に対応するテキスト情報は、利用者Uの発話に対応する音声情報を音声認識機能によってテキスト化された情報である。受付部20は、例えば、利用者Uの発話に対応する音声情報と利用者Uの発話に対応するテキスト情報とを利用者Uの発話毎に関連付けて記憶部13に記憶させる。
【0048】
〔3.8.2.推定部21〕
推定部21は、受付部20によって受け付けられた利用者Uの発話(以下、利用者発話と記載する場合がある)に続く利用者Uの発話内容(以下、続く発話内容と記載する場合がある)を推定する。
【0049】
例えば、推定部21は、利用者発話が「赤坂から新宿までの」または「赤坂から新宿まで」である場合、「赤坂から新宿まで」または「赤坂から新宿までの」に続く発話内容候補として、「移動時間」、「終電」、および「10分後出発」などを推定する。また、推定部21は、利用者発話が「今日」または「今日の」である場合、「今日の」または「今日」に続く発話内容候補として、「天気」、「スケジュール」、および「ニュース」などを推定する。
【0050】
推定部21は、例えば、受付部20によって受け付けられた利用者発話に対応する音声情報またはテキスト情報を入力とし、利用者発話に続く利用者Uの発話内容の推定結果を出力とする学習済みモデルを有する。推定部21は、受付部20によって受け付けられた利用者発話を学習済みモデルに入力し、学習済みモデルから出力される情報に基づいて、利用者発話に続く利用者Uの発話内容を推定する。
【0051】
例えば、学習済みモデルは、受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、各発話内容候補の推定スコアを出力とする。推定部21は、推定スコアが閾値以上の発話内容候補または推定スコアが高い上位の予め設定された数の発話内容候補を、利用者発話に続く利用者Uの発話内容として推定する。
【0052】
また、学習済みモデルは、受け付けた利用者Uの発話に対応する音声情報またはテキスト情報を入力とし、1以上の発話内容候補の情報をテキスト情報として出力するモデルであってもよい。
【0053】
また、推定部21によって用いられる学習済みモデルは、複数の学習済みモデルのうち時間帯、曜日、季節、および位置に応じて選択された学習済みモデルであってもよい。位置は、位置検出部16によって検出される位置である。
【0054】
学習済みモデルは、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークによる機械学習によって生成されるが、かかる例に限定されない。例えば、学習済みモデルは、ニューラルネットワークに代えて、線形回帰、重回帰、またはロジスティック回帰といった回帰手法の学習アルゴリズムなどのように他の学習アルゴリズムによる機械学習を用いて生成されてもよい。
【0055】
なお、推定部21は、学習済みモデルに代えて、利用者発話と複数の発話内容候補とを利用者発話毎に関連付けた発話内容候補テーブルを有する構成であってもよい。この場合、推定部21は、利用者発話に関連付けられた複数の発話内容候補を発話内容候補テーブルから抽出し、抽出した複数の発話内容候補を利用者発話に続く利用者Uの発話内容として推定することができる。
【0056】
また、推定部21は、予め設定された間隔または利用者発話の内容がM語追加される毎に繰り返し利用者発話に続く利用者Uの発話内容を推定することで、推定結果を更新する。Mは、1以上の整数である。例えば、推定部21は、利用者発話が「あ」であるタイミング、利用者発話が「あか」となったタイミング、・・・、利用者発話が「あかさかからしんじゅくまでの」になったタイミングの各々で、利用者発話に続く利用者Uの発話内容を推定する。
【0057】
〔3.8.3.提供部22〕
提供部22は、推定部21によって推定された続く発話内容を含む発話内容を利用者Uに提供する。例えば、提供部22は、推定部21によって推定された複数の発話内容候補を含む発話内容を利用者Uに提供する。提供部22は、推定部21による続く発話内容の推定結果が更新される毎に、推定部21によって推定された続く発話内容を含む発話内容を利用者Uに提供することができる。
【0058】
例えば、推定部21が利用者発話の内容が1語追加される毎に繰り返し利用者発話に続く利用者Uの発話内容を推定するとする。この場合、提供部22は、例えば、利用者発話「あかさかからしんじ」に対する推定部21の推定結果を含む情報を利用者Uに提供した後、利用者発話「あかさかからしんじゅ」に対する推定部21の推定結果を含む情報を利用者Uに提供する。さらに、提供部22は、利用者発話「あかさかからしんじゅく」に対する推定部21の推定結果を含む情報を利用者Uに提供する。
【0059】
また、推定部21が予め設定された間隔で繰り返し利用者発話に続く利用者Uの発話内容を推定するとする。この場合、提供部22は、あるタイミングで推定部21によって推定された結果を含む情報を利用者Uに提供した後、次の間隔で推定部21によって推定された結果を含む情報を利用者Uに提供する。すなわち、提供部22は、予め設定された間隔で繰り返し推定部21によって推定された結果を含む情報を利用者Uに提供することもできる。
【0060】
提供部22は、複数の発話内容候補を表示部11に表示させることで、複数の発話内容候補を利用者Uに提供する。また、提供部22は、複数の発話内容候補を音として音声出力部15から出力することで、複数の発話内容候補を利用者Uに提供することもできる。例えば、提供部22は、複数の発話内容候補の数が予め設定された数以下になった後に、複数の発話内容候補を音として音声出力部15から出力する。
【0061】
図3は、実施形態に係る端末装置1によって利用者Uに提供される複数の発話内容候補の一例を示す図である。図3に示す例では、端末装置1の表示部11に、利用者発話を示す情報である利用者発話情報50と、推定部21によって推定された情報である推定情報51が表示されている。推定情報51には、発話内容候補を示す情報である発話内容候補情報52a,52b,52cが含まれる。
【0062】
図3に示す例では、利用者発話情報50は、「赤坂から新宿までの」であり、発話内容候補情報52aは、文字列「移動時間」であり、発話内容候補情報52bは、「終電」であり、発話内容候補情報52cは、「10分後出発」である。以下において、発話内容候補情報52a,52b,52cの各々を個別に区別せずに示す場合、発話内容候補情報52と記載する場合がある。
【0063】
なお、表示部11に表示される推定情報51は、予め設定された間隔または利用者発話の内容がM語追加される毎に新たに推定部21によって推定された結果に基づいて更新される。Mは1以上の整数である。表示部11に表示される利用者発話情報50は、利用者発話が更新される毎に更新される。
【0064】
利用者Uは、操作部12を操作することによって、発話内容候補情報52a,52b,52cのうち1つの発話内容候補情報を選択することができる。提供部22は、複数の発話内容候補情報52a,52b,52のうち利用者Uによって選択された発話内容候補情報を含むコンテンツ要求を情報提供装置2(外部サーバの一例)に送信する。かかるコンテンツ要求には、例えば、利用者発話情報50と利用者Uによって選択された発話内容候補情報とが含まれる。例えば、利用者Uによって発話内容候補情報52bが選択された場合、文字列「赤坂から新宿までの終電」を含むコンテンツ要求が端末装置1から情報提供装置2に送信される。
【0065】
提供部22は、上述したコンテンツ要求に応じて情報提供装置2から送信されるコンテンツを取得し、取得したコンテンツを利用者Uに提供する。例えば、提供部22は、取得したコンテンツを表示部11に表示させたり、取得したコンテンツを音として音声出力部15から音として出力させたりすることで、取得したコンテンツを利用者Uに提供することができる。
【0066】
また、最新の推定情報51を利用者Uに提供してから予め設定された時間経過した場合または利用者Uによって利用者発話情報50が選択されたとする。この場合、提供部22は、利用者発話を示す情報を含むが発話内容候補情報52を含まないコンテンツ要求を情報提供装置2に送信する。この場合も、提供部22は、コンテンツ要求に応じて情報提供装置2から送信されるコンテンツを取得し、取得したコンテンツを利用者Uに提供することができる。
【0067】
また、最新の推定情報51を利用者Uに提供してから予め設定された時間経過した場合または利用者Uによる操作部12への特定操作があるとする。この場合、提供部22は、利用者発話情報50と発話内容候補情報52a,52b,52cとを含むコンテンツ要求を情報提供装置2に送信することもできる。この場合も、提供部22は、コンテンツ要求に応じて情報提供装置2から送信されるコンテンツを取得し、取得したコンテンツを利用者Uに提供することができる。
【0068】
また、最新の推定情報51を利用者Uに提供してから予め設定された時間経過した場合または利用者Uによる操作部12への特定操作があるとする。提供部22は、利用者発話情報50と発話内容候補情報52aとを含むコンテンツ要求、利用者発話情報50と発話内容候補情報52bとを含むコンテンツ要求、および利用者発話情報50と発話内容候補情報52cとを含むコンテンツ要求の順に情報提供装置2に送信することもできる。この場合、提供部22は、これらのコンテンツ要求に応じて情報提供装置2から送信されるコンテンツを順次取得し、取得したコンテンツを順次利用者Uに提供することができる。
【0069】
また、最新の推定情報51を利用者Uに提供してから予め設定された時間経過した場合または利用者Uによる操作部12への特定操作があるとする。提供部22は、利用者発話情報50と最上位の発話内容候補情報52である発話内容候補情報52aとを含むコンテンツ要求を送信し、コンテンツ要求に応じて情報提供装置2から送信される順次コンテンツを利用者Uに提供することもできる。最上位の発話内容候補情報52は、例えば、上述した推定スコアが最も高い発話内容候補情報52である。図3に示す例では、発話内容候補情報52aが最も推定スコアが高く、発話内容候補情報52bが発話内容候補情報52aの次に推定スコアが高く、発話内容候補情報52cが発話内容候補情報52bの次に推定スコアが高い。
【0070】
図3に示す例では、推定情報51には、発話内容候補情報52a,52b,52cが含まれるが、利用者Uに提供される推定情報51は、図3に示す例に限定されない。例えば、推定情報51には、利用者発話を示す情報と発話内容候補を示す情報とを含む総発話内容候補が発話内容候補毎に含まれてもよい。
【0071】
図4は、実施形態に係る端末装置1によって利用者Uに提供される複数の発話内容候補の他の例を示す図である。図4に示す例では、端末装置1の表示部11に、利用者発話を示す情報である利用者発話情報50と、推定部21によって推定された情報である推定情報51が表示されている。推定情報51には、利用者発話情報50と発話内容候補を示す情報である総発話内容候補情報53a,53b,53cが含まれる。以下、総発話内容候補情報53a,53b,53cの各々を個別に区別せずに示す場合、総発話内容候補情報53と記載する場合がある。
【0072】
利用者Uは、発話内容候補情報52a,52b,52cの場合と同様に、操作部12を操作することによって、総発話内容候補情報53a,53b,53のうち1つの総発話内容候補を選択することができる。提供部22は、表示部11が図4に示す状態である場合の処理を、表示部11が図3に示す状態である場合の処理と同様に行う。
【0073】
また、提供部22は、推定情報51の提供を音声で行う場合、利用者Uによる音声での発話内容候補情報52や総発話内容候補情報53の選択を受け付け、表示部11が図3または図4に示す状態である場合の処理と同様の処理を行うことができる。なお、利用者Uによる発話内容候補情報52や総発話内容候補情報53の選択結果は、利用者Uによる発話内容候補の選択履歴として提供部22によって記憶部13に記憶される。
【0074】
また、提供部22は、利用者発話情報50と利用者Uによって選択された発話内容候補情報52とによって、利用者Uの発話の意図を判定することができる。提供部22は、利用者Uの発話の意図が周辺の機器の制御であると判定した場合、利用者発話情報50と利用者Uによって選択された発話内容候補情報52とで特定される周辺の機器および制御内容に基づいて、周辺の機器の制御を行うことができる。
【0075】
また、提供部22は、利用者Uの発話の意図が情報の取得であると判定した場合、上述したコンテンツ要求を情報提供装置2に送信する。これにより、利用者Uは、情報提供装置2から所望の情報を取得することができる。
【0076】
〔3.8.4.学習部23〕
学習部23は、学習用データを用いて学習済みモデルを生成したり更新したりする。例えば、学習部23は、記憶部13に記憶されている利用者発話に対応する音声情報およびテキスト情報に基づいて、利用者発話の音声情報を先頭から互いに異なる位置までで区切った分割音声情報または分割音声情報に対応する分割テキスト情報を生成する。利用者発話は、利用者Uの発話全体の一例である。学習部23は、生成した分割音声情報または分割音声情報に対応する分割テキスト情報と利用者Uの発話全体のテキスト情報とを含む学習用データを生成する。
【0077】
分割音声情報または分割テキスト情報は、例えば、上述したように、「あ」、「あか」、「あかさ」、「あかさか」、「あかさかか」、「あかさかから」、「あかさかからし」、「あかさかからしん」、・・・などといった音声情報またはテキスト情報である。利用者Uの発話全体のテキスト情報は、例えば、「赤坂から新宿までの終電」、「赤坂から新宿までの移動時間」、「赤坂から新宿までの10分後出発」などといったテキスト情報である。なお、利用者Uの発話全体のテキスト情報は、「赤坂から新宿まで 終電」、「赤坂から新宿まで 移動時間」、「赤坂から新宿まで 10分後出発」などといったテキスト情報であってもよい。
【0078】
また、学習部23は、利用者Uによる発話内容候補の選択履歴に基づいて、学習済みモデルを更新する。この場合、学習部23は、利用者Uの発話全体のテキスト情報と利用者Uによって選択された発話内容候補情報52とを含む学習用データ、利用者Uによって選択された総発話内容候補情報53を含む学習用データをさらに生成する。学習部23は、このように生成した学習用データと上述した学習用データとを用いて、学習済みモデルを更新する。
【0079】
〔4.処理手順〕
次に、実施形態に係る端末装置1の処理部17による情報処理の手順について説明する。図5は、実施形態に係る端末装置1の処理部17による情報処理の一例を示すフローチャートである。
【0080】
図5に示すように、端末装置1の処理部17は、利用者Uの発話があるか否かを判定する(ステップS10)。処理部17は、利用者Uの発話があると判定した場合(ステップS10:Yes)、利用者Uの発話に続く発話内容を推定する(ステップS11)。
【0081】
次に、処理部17は、推定した発話内容を含む発話内容を利用者Uに提供する(ステップS12)。例えば、ステップS12の処理において、処理部17は、上述した利用者発話情報50を利用者Uに提供した後、例えば、発話内容候補情報52または総発話内容候補情報53を含む推定情報51を含む情報を利用者Uに提供する。
【0082】
次に、処理部17は、利用者Uによる発話内容候補情報52または総発話内容候補情報53の選択があるか否かを判定する(ステップS13)。処理部17は、利用者Uによる選択があると判定した場合(ステップS13:Yes)、利用者Uによる選択結果に基づいて、情報提供装置2からコンテンツを取得する(ステップS14)。ステップS14の処理において、処理部17は、利用者発話情報50と利用者Uによって選択された発話内容候補情報52とを含むコンテンツ要求または総発話内容候補情報53を含むコンテンツ要求を情報提供装置2に送信する。これにより、処理部17は、情報提供装置2からコンテンツを取得する。
【0083】
処理部17は、利用者Uによる選択がないと判定した場合(ステップS13:No)、利用者Uの発話に基づいて、情報提供装置2からコンテンツを取得する(ステップS15)。ステップS15の処理において、処理部17は、利用者発話情報50を含むが発話内容候補情報52および総発話内容候補情報53を含まないコンテンツ要求を情報提供装置2に送信することによって情報提供装置2からコンテンツを取得する。なお、ステップS13の処理において、処理部17は、例えば、最新の推定情報51を利用者Uに提供してから予め設定された時間経過した場合または利用者Uによる操作部12への特定操作がある場合、利用者Uによる選択がないと判定する。
【0084】
処理部17は、ステップS14の処理が終了した場合、またはステップS15の処理が終了した場合、または利用者Uの発話がないと判定した場合(ステップS10:No)、学習済みモデルの更新タイミングになったか否かを判定する(ステップS16)。ステップS16の処理において、処理部17は、新たに追加された学習用データが予め設定された数以上になった場合に更新タイミングになったと判定する。
【0085】
処理部17は、更新タイミングになったと判定した場合(ステップS16:Yes)、学習済みモデルを更新する(ステップS17)。処理部17は、更新タイミングになっていないと判定した場合(ステップS16:No)、またはステップS17の処理が終了した場合、動作終了タイミングになったか否かを判定する(ステップS18)。処理部17は、例えば、端末装置1の電源がオフにされた場合などに動作終了タイミングになったと判定する。
【0086】
処理部17は、動作終了タイミングになっていないと判定した場合(ステップS18:No)、処理をステップS10へ移行し、動作終了タイミングになったと判定した場合(ステップS18:Yes)、図5に示す処理を終了する。
【0087】
〔5.変形例〕
上述した例では、利用者発話は、助詞などを含んでいたが、利用者発話は、助詞などを含まない複数の検索キーワードで構成されてもよい。
【0088】
また、推定部21は、利用者Uの発話に続く利用者Uの発話内容に加えてまたは代えて、利用者Uの発話の前に発話されるべき利用者Uの発話内容を推定することもできる。例えば、推定部21は、利用者Uの発話が「新宿まで」または「新宿までの終電」などである場合、「赤坂から」を利用者Uの発話の前に発話されるべき利用者Uの発話内容として推定することができる。
【0089】
この場合、推定部21は、利用者Uの発話に加えて、位置検出部16によって検出された位置の住所を示す情報を用いて、利用者Uの発話の前に発話されるべき利用者Uの発話内容(以下、前発話内容と記載する場合がある)を推定することができる。例えば、利用者Uの発話が「新宿まで」または「新宿までの」などであり、位置検出部16によって検出された位置の住所が「赤坂」である場合、「赤坂から」を前発話内容として推定することができる。推定部21は、利用者Uの発話に続く利用者Uの発話内容の場合と同様の処理によって、複数の発話内容候補を前発話内容として推定することができる。
【0090】
また、学習部23は、端末装置1を用いた利用者Uの過去の検索履歴(例えば、情報提供装置2に対する検索クエリに含まれる検索キーワードの履歴)に基づいて、学習用データや発話内容候補テーブルの生成または更新を行うことができる。
【0091】
また、学習部23は、利用者Uが発話した後に利用者Uが検索した内容と利用者Uの発話とに基づいて、学習用データや発話内容候補テーブルの生成または更新を行うことができる。例えば、利用者Uの発話が「動画サービス」で、その後に利用者Uが検索した内容が「アニメ」や「ドラマ」であるとする。この場合、学習部23は、「動画サービス」を入力とし、「アニメ」や「ドラマ」を出力とする学習済みモデルや、「家電」が入力された場合に、「アニメ」や「ドラマ」の推定スコアが閾値以上になる学習済みモデルを生成することができる。
【0092】
また、学習部23は、利用者Uが発話した後に、情報提供装置2から提供される商品やサービスなどの情報のうち利用者Uが端末装置1を用いて選択した商品やサービスなどの情報と、利用者Uの発話とを用いて、学習用データや発話内容候補テーブルの生成や更新を行うこともできる。例えば、利用者Uの発話が「家電」で、その後に利用者Uが選択した内容が「テレビ」や「パソコン」であるとする。この場合、学習部23は、「家電」を入力とし、「テレビ」や「パソコン」を出力とする学習済みモデルや、「家電」が入力された場合に、「テレビ」や「パソコン」の推定スコアが閾値以上になる学習済みモデルを生成することができる。
【0093】
なお、端末装置1は、学習済みモデルや発話内容候補テーブルを利用者U毎に有しており、この場合の学習済みモデルは、オンデバイスモデルということもできる。
【0094】
〔6.ハードウェア構成〕
上述してきた実施形態に係る端末装置1は、例えば図6に示すような構成のコンピュータ80によって実現される。図6は、実施形態に係る端末装置1の機能を実現するコンピュータ80の一例を示すハードウェア構成図である。コンピュータ80は、CPU81、RAM82、ROM(Read Only Memory)83、HDD(Hard Disk Drive)84、通信インターフェイス(I/F)85、入出力インターフェイス(I/F)86、およびメディアインターフェイス(I/F)87を有する。
【0095】
CPU81は、ROM83またはHDD84に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM83は、コンピュータ80の起動時にCPU81によって実行されるブートプログラムや、コンピュータ80のハードウェアに依存するプログラムなどを記憶する。
【0096】
HDD84は、CPU81によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス85は、ネットワークN(図2参照)を介して他の機器からデータを受信してCPU81へ送り、CPU81が生成したデータを、ネットワークNを介して他の機器に送信する。
【0097】
CPU81は、入出力インターフェイス86を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。CPU81は、入出力インターフェイス86を介して、入力装置からデータを取得する。また、CPU81は、入出力インターフェイス86を介して生成したデータを出力装置に出力する。
【0098】
メディアインターフェイス87は、記録媒体88に記憶されたプログラムまたはデータを読み取り、RAM82を介してCPU81に提供する。CPU81は、かかるプログラムを、メディアインターフェイス87を介して記録媒体88からRAM82上にロードし、ロードしたプログラムを実行する。記録媒体88は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
【0099】
例えば、コンピュータ80が実施形態に係る端末装置1として機能する場合、コンピュータ80のCPU81は、RAM82上にロードされたプログラムを実行することにより、処理部17の機能を実現する。また、HDD84には、記憶部13内のデータが記憶される。コンピュータ80のCPU81は、これらのプログラムを記録媒体88から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0100】
〔7.その他〕
また、上記実施形態および変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0101】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0102】
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0103】
〔8.効果〕
上述してきたように、実施形態に係る端末装置1は、受付部20と、推定部21と、提供部22とを備える。受付部20は、利用者Uの発話を受け付ける。推定部21は、受付部20によって受け付けられた発話に続く利用者Uの発話内容を推定する。提供部22は、推定部21によって推定された発話内容を含む発話内容を利用者Uに提供する。これにより、端末装置1は、利用者Uの利便性の向上を図ることができる。また、端末装置1は、情報提供装置2に利用者Uの発話に対応する音声情報を送信することなく、利用者Uの発話に続く利用者Uの発話内容を推定することから、情報提供装置2で推定処理を行う場合に較べて、推定結果を利用者Uに提供する時間を短くできる。
【0104】
また、推定部21は、受付部20によって受け付けられた発話に対応する音声情報またはテキスト情報を入力とし、発話に続く利用者Uの発話内容の推定結果を出力とする学習済みモデルを有し、学習済みモデルを用いて利用者Uの発話に続く利用者Uの発話内容を推定する。これにより、端末装置1は、利用者Uの発話に続く利用者Uの発話内容を精度よく推定することができる。
【0105】
また、推定部21は、利用者Uの発話に続く利用者Uの発話内容として複数の発話内容候補を推定する。提供部22は、推定部21によって推定された複数の発話内容候補を含む発話内容を利用者Uに提供する。これにより、端末装置1は、利用者Uに対して複数の発話内容候補を提示することができることから、利用者Uの利便性の向上をより図ることができる。
【0106】
また、提供部22は、複数の発話内容候補を表示部11に表示させる。これにより、端末装置1は、利用者Uの利便性の向上をより図ることができる。
【0107】
また、提供部22は、複数の発話内容候補のうち利用者Uに選択された発話内容候補の情報を含むコンテンツ要求を情報提供装置2(外部サーバの一例)に送信し、コンテンツ要求に応じて情報提供装置2から送信されるコンテンツを利用者Uに提供する。これにより、端末装置1は、利用者Uの利便性の向上をより図ることができる。
【0108】
また、端末装置1は、利用者Uによる発話内容候補の選択履歴に基づいて、学習済みモデルを更新する学習部23を備える。これにより、端末装置1は、利用者Uの発話に続く利用者Uの発話内容を精度よく推定することができる。
【0109】
また、学習済みモデルは、受付部20によって受け付けられた発話に対応する音声情報またはテキスト情報を入力とし、各発話内容候補の推定スコアを出力とするモデルを含む。推定部21は、推定スコアに基づいて、発話に続く利用者Uの発話内容として複数の発話内容候補を推定する。これにより、端末装置1は、利用者Uの発話に続く利用者Uの発話内容を精度よく推定することができる。
【0110】
また、学習部23は、利用者Uの発話全体の音声情報を先頭から互いに異なる位置までで区切った分割音声情報または分割音声情報に対応する分割テキスト情報と利用者Uの発話全体のテキスト情報とを含む学習用データを用いて学習済みモデルを生成する。これにより、端末装置1は、利用者Uの発話に続く利用者Uの発話内容を精度よく推定することができる。
【0111】
また、受付部20は、受け付けた発話に対応する音声情報をテキスト情報に変換する。推定部21は、受付部20によって変換されたテキスト情報を学習済みモデルに入力することによって、利用者Uの発話に続く利用者Uの発話内容を推定する。これにより、端末装置1は、利用者Uの発話に続く利用者Uの発話内容を精度よく推定することができる。
【0112】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0113】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0114】
1 端末装置
2 情報提供装置
10 通信部
11 表示部
12 操作部
13 記憶部
14 音声入力部
15 音声出力部
16 位置検出部
17 処理部
20 受付部
21 推定部
22 提供部
23 学習部
50 利用者発話情報
51 推定情報
52,52a,52b,52c 発話内容候補情報
53,53a,53b,53c 総発話内容候補情報
100 情報処理システム
図1
図2
図3
図4
図5
図6