IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ TIS株式会社の特許一覧

特許7527127情報処理装置、プログラム、および情報処理方法
<>
  • 特許-情報処理装置、プログラム、および情報処理方法 図1
  • 特許-情報処理装置、プログラム、および情報処理方法 図2
  • 特許-情報処理装置、プログラム、および情報処理方法 図3
  • 特許-情報処理装置、プログラム、および情報処理方法 図4
  • 特許-情報処理装置、プログラム、および情報処理方法 図5
  • 特許-情報処理装置、プログラム、および情報処理方法 図6
  • 特許-情報処理装置、プログラム、および情報処理方法 図7
  • 特許-情報処理装置、プログラム、および情報処理方法 図8
  • 特許-情報処理装置、プログラム、および情報処理方法 図9
  • 特許-情報処理装置、プログラム、および情報処理方法 図10
  • 特許-情報処理装置、プログラム、および情報処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-25
(45)【発行日】2024-08-02
(54)【発明の名称】情報処理装置、プログラム、および情報処理方法
(51)【国際特許分類】
   G10L 15/28 20130101AFI20240726BHJP
   G10L 15/32 20130101ALI20240726BHJP
   G10L 15/30 20130101ALI20240726BHJP
【FI】
G10L15/28 500
G10L15/32 220Z
G10L15/30
【請求項の数】 9
(21)【出願番号】P 2020078049
(22)【出願日】2020-04-27
(65)【公開番号】P2021173880
(43)【公開日】2021-11-01
【審査請求日】2023-04-07
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】小西 啓介
(72)【発明者】
【氏名】福江 尚史
【審査官】中村 天真
(56)【参考文献】
【文献】特開2014-174485(JP,A)
【文献】特開2005-037662(JP,A)
【文献】特開2012-063582(JP,A)
【文献】特開2018-049080(JP,A)
【文献】特開2019-204524(JP,A)
【文献】特開2005-250379(JP,A)
【文献】国際公開第2014/141676(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G06F 13/00-13/14
G10L 13/00-25/93
H04L 13/00-69/40
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声を認識する音声認識システムとネットワークを介して接続する情報処理装置であって、
ユーザの音声を取得する音声取得部と、
前記音声認識システムとの通信が可能か否か判定する判定部と、
前記音声認識システムとの通信が可能な場合、取得された前記音声の音声データを前記音声認識システムに送信する送信部と、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信する受信部と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識部と、
前記第1認識情報または前記第2認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別する識別部と、
前記リモート指示の実行タイミングを特定する特定部と、
前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成部と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力部と、を備え
前記判定部は、前記音声が前記リモート指示の場合、前記リモート装置との通信が可能か判定し、
前記送信部は、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記応答生成部は、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の前記第1応答情報を生成する、
情報処理装置。
【請求項2】
情報処理装置は、前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第2応答情報を生成するサーバ装置と前記ネットワークを介して接続し、
前記判定部は、前記サーバ装置との通信が可能か否か判定し、
前記送信部は、前記サーバ装置との通信が可能な場合、前記第1認識情報または前記第2認識情報を前記サーバ装置に送信し、
前記受信部は、前記サーバ装置から、前記第1認識情報または前記第2認識情報に基づき生成された前記第2応答情報を受信する、
前記出力部は、前記受信した第2応答情報に基づき、前記音声に対する応答を出力する、
請求項1に記載の情報処理装置。
【請求項3】
前記送信部は、前記特定された実行タイミングが特定の日時および即時ではない場合、並びに前記リモート装置との通信が不可能な場合、前記リモート指示をキューイングし、その後リモート装置との通信が可能となった際にキューイングされた前記リモート指示を読み出して前記リモート装置に送信する、
請求項1または2に記載の情報処理装置。
【請求項4】
前記送信部は、バッチ処理時間帯を記憶する記憶部を参照して、指示の前記実行タイミングが特定の日時および即時ではない場合、その後リモート装置との通信が可能となった際に前記バッチ処理時間帯にキューイングされた前記リモート指示を読み出して前記リモート装置に送信する、
請求項に記載の情報処理装置。
【請求項5】
前記音声認識部は、前記送信部が前記音声認識システムに前記音声データを送信している途中で前記音声認識システムとの通信が不可能になった場合、前記送信部が前記音声認識システムに前記音声データを送信する際に確立したセッションに関する第1セッション情報を参照して、未送信の前記音声データの音声に基づいて前記第2認識情報を生成する、
請求項1からのいずれか一項に記載の情報処理装置。
【請求項6】
前記応答生成部は、前記送信部が前記サーバ装置に前記第1認識情報または前記第2認識情報を送信している途中で前記サーバ装置との通信が不可能になった場合、前記送信部が前記サーバ装置に前記第1認識情報または前記第2認識情報を送信する際に確立したセッションに関する第2セッション情報を参照して、未送信の前記第1認識情報または前記第2認識情報に基づいて前記第1応答情報を生成する、
請求項2に記載の情報処理装置。
【請求項7】
情報処理装置は、前記ユーザとの音声による会話相手の相手装置と前記ネットワークを介して接続し、
前記判定部は、前記相手装置との通信が可能か否か判定し、
前記送信部は、取得された前記音声データを前記相手装置に送信し、
情報処理装置は、
前記音声データから発話区間と無音区間とを検出する検出部と、
前記相手装置との通信が不可能な場合、前記音声データから前記無音区間の少なくとも一部を除いた発話データを記録する記録部と、
前記送信部は、前記相手装置との通信が可能となった場合相手装置に前記発話データを送信し、発話データの送信が完了した後に前記音声データの送信を再開する、
請求項1からのいずれか一項に記載の情報処理装置。
【請求項8】
音声を認識する音声認識システムとネットワークを介して接続する情報処理装置に、
ユーザの音声を取得する音声取得機能と、
前記音声認識システムとの通信が可能か否か判定する判定機能と、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信する送信機能と、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信する受信機能と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識機能と、
前記第1認識情報または前記第2認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別する識別機能と、
前記リモート指示の実行タイミングを特定する特定機能と、
前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成機能と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力機能と、を実現させ
前記判定機能は、前記音声が前記リモート指示の場合、前記リモート装置との通信が可能か判定し、
前記送信機能は、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記応答生成機能は、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の前記第1応答情報を生成する、
プログラム。
【請求項9】
音声を認識する音声認識システムとネットワークを介して接続する情報処理装置が、
ユーザの音声を取得し、
前記音声認識システムとの通信が可能か否か判定し、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信し、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信し、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成し、
前記第1認識情報または前記第2認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別し、
前記リモート指示の実行タイミングを特定し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記音声に対して応答するための第1応答情報であって、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の第1応答情報を生成し、
前記第1応答情報に基づき、前記音声に対する応答を出力する、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム、および情報処理方法に関する。
【背景技術】
【0002】
従来、ユーザの音声を取得し、取得した音声に応答して様々な操作をする装置、いわゆるスマートスピーカーの技術が知られている。
【0003】
下記特許文献1に開示されているスマートスピーカーでは、ユーザの音声を示す音声情報を入力して、ネットワークを介して接続される音声出力装置にこの音声情報を送信する。音声出力装置は受信した音声情報に基づいて音声を認識し、認識結果に基づいてユーザの音声に対して発話するための発話データを生成する。音声出力装置がこの発話データをスマートスピーカーに送信して、スマートスピーカーは発話データに基づいて音声を出力する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2020-21040号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1のスマートスピーカーでは、音声出力装置の通信が不可能となった場合、ユーザの音声に応答できなくなるという問題がある。
【0006】
そこで、本発明は、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置であって、ユーザの音声を取得する音声取得部と、音声認識システムとの通信が可能か否か判定する判定部と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信部と、音声認識システムから、音声データの認識結果を示す第1認識情報を受信する受信部と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識部と、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成部と、第1応答情報に基づき、音声に対する応答を出力する出力部と、を備える。
【0008】
本発明の一態様に係るプログラムは、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置に、ユーザの音声を取得する音声取得機能と、音声認識システムとの通信が可能か否か判定する判定機能と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信機能と、音声認識システムから、音声データの認識結果を示す第1認識情報を受信する受信機能と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識機能と、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成機能と、第1応答情報に基づき、音声に対する応答を出力する出力機能と、を実現させる。
【0009】
本発明の一態様に係る情報処理方法は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置が、ユーザの音声を取得し、音声認識システムとの通信が可能か否か判定し、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信し、音声認識システムから、音声データの認識結果を示す第1認識情報を受信し、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成し、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成し、第1応答情報に基づき、音声に対する応答を出力する。
【0010】
上記の態様によれば、情報処理装置と音声認識システムとの通信が不可能な場合でも、情報処理装置内の音声認識部によりユーザの音声を認識することができる。このため情報処理装置は、音声認識システムとの通信が不可能な場合でもユーザの音声に応答することができる。
【発明の効果】
【0011】
本発明によれば、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することができる。
【図面の簡単な説明】
【0012】
図1】第1実施形態に係る対話システムのシステム構成例を説明するための図である。
図2】第1実施形態に係る対話システムの概要を説明するための図である。
図3】第1実施形態に係る対話システムの概要を説明するための図である。
図4】第1実施形態に係る対話装置の機能構成の一例を示す図である。
図5】第1実施形態に係るローカル指示・リモート指示とその実行・キューイングとの関係の一例を説明する図である。
図6】第1実施形態に係るサーバ装置の機能構成の一例を示す図である。
図7】第1実施形態に係る対話装置の動作例を示す図である。
図8】第1実施形態に係る対話装置およびサーバ装置のハードウェア構成の一例を示す図である。
図9】第2実施形態に係る対話システムの概要を説明するための図である。
図10】第2実施形態に係る対話システムの概要を説明するための図である。
図11】第2実施形態に係る対話装置の動作例を示す図である。
【発明を実施するための形態】
【0013】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。
【0014】
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。
【0015】
[第1実施形態]
本発明の第1実施形態(以下、「本実施形態」という)について説明する。本実施形態では、本実施形態に係る対話システム1が(1)ユーザと対話する、(2)ユーザの音声を議事録に記録する、(3)ユーザの音声指示により家電などの装置の動作を制御する、例を用いて説明するが、これに限る趣旨ではない。
【0016】
<1.システム構成>
図1を参照して、対話システム1のシステム構成例を説明する。対話システム1は、ユーザの音声に応じて動作するシステムである。対話システム1は、上記(1)~(3)の機能をユーザに提供する。
【0017】
図1に示すように、対話システム1は、対話装置100と、サーバ装置200と、を含む。また対話システム1は、第1ネットワークN1を介して音声認識システム300と接続さている。また対話システム1の対話装置100は、第2ネットワークN2を介してローカル装置400aと接続されている。また対話システム1は、第1ネットワークN1を介してリモート装置400bと接続されている。
【0018】
第1ネットワークN1は、広域通信網のネットワークであり、例えば、インターネット、移動体通信網、電話回線などを含む。また、第1ネットワークN1は、例えば、3G(第3世代移動通信システム)回線、4G(第4世代移動通信システム)回線、5G(第5世代移動通信システム)回線、またはLTE(登録商標)(Long Term Evolution)回線などを用いた無線通信方式を用いてもよい。
【0019】
第2ネットワークN2は、所定の施設や室内に対して独自に構築された通信網であり、LAN(Local Area Network)である。言い換えれば、対話装置100とローカル装置400aとは、同一のLAN内に設置されている。第2ネットワークN2は、有線および/または無線により、対話装置100とローカル装置400aとが互いに通信できるものであれば、任意の通信方式を用いることができる。また第2ネットワークN2は、複数の通信方式を用いるものであってもよい。第2ネットワークN2は、例えば、Wi-Fi(登録商標)規格に準拠した無線LANを含み、ルータが中継することで、これらの相互接続を実現させてもよい。
【0020】
第2ネットワークN2は、例えば、ローカル装置400aと直接接続するためのネットワークであってもよい。第2ネットワークN2は、例えば、Bluetooth(登録商標)や赤外線通信等の10m程度の近距離無線通信を実現するネットワークを含んでもよい。
【0021】
対話装置100は、サーバ装置200や音声認識システム300、または装置400との通信が可能な情報処理装置である。対話装置100は、ユーザの音声を取得して、取得した音声に対話などで応答する、いわゆるスマートスピーカーである。対話装置100は、例えば、汎用のタブレット端末やスマートフォンなどであってもよい。対話装置100は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末を対話装置100として使用してもよい。
【0022】
サーバ装置200は、対話装置100との通信や議事録の管理が可能な情報処理装置である。サーバ装置200は、所定のプログラムを実行することにより、対話装置100と連携して、ユーザの音声に対する応答や議事録の新規登録、変更並びに削除(以下、これらの処理をまとめて「更新」ともいう)し、またはこれらの履歴を管理するサーバ機能を実現する。
【0023】
音声認識システム300は、対話装置100やサーバ装置200と通信の通信が可能なシステムである。音声認識システム300は、対話装置100またはサーバ装置200から受信したユーザの音声を示す音声データ(以下、単に「音声データ」ともいう)に基づいてユーザの音声を認識する。
【0024】
ローカル装置400aおよびリモート装置400bは、ユーザの音声指示に応じて対話装置100により動作を制御される装置である。ローカル装置400aは、対話装置100と同一のLAN(第2ネットワークN2)内の装置である。リモート装置400bは、対話装置が接続するLAN(第2ネットワークN2)外の装置である。ローカル装置400aとリモート装置400bとは、特に区別の必要がない場合に総称して「装置400」という。
【0025】
<2.システム概要>
図2~3を参照して、対話システム1の概要を、(A)対話装置100がオンラインのとき、(B)対話装置100がオンラインからオフラインに切り替わったとき、という二つの場面に分けて説明する。
【0026】
図2を参照して、まず上記(A)の場面について説明する。対話装置100は、オンラインの状態であり、サーバ装置200および音声認識システム300との通信が可能な状態である。
【0027】
(1)図2に示すように、対話装置100の音声取得部120は、ユーザの音声「議事録を開始」を取得する。(2)対話装置100の音声取得部120が取得した音声の音声データを音声認識システム300に送信するため、判定部111は、音声認識システム300との通信が可能か否か判定する。
【0028】
判定部111の判定により音声認識システム300との通信が可能な場合、対話装置100の通信部130は音声データを音声認識システム300に送信する。(4)対話装置100の通信部130は、音声認識システム300から第1認識情報を受信する。
【0029】
「第1認識情報」とは、音声認識システム300による音声データの認識結果を示す情報である。第1認識情報は、例えば、音声の内容(「議事録開始」)をテキストで表したものでもよい。なお第1認識情報と第2認識情報とは、いずれもユーザの音声を認識した結果を示す情報であるため、特に区別の必要がなければ以下総称して「認識情報」という。
【0030】
(5)通信部130が受信した第1認識情報をサーバ装置200に送信するため、対話装置100の判定部111は、サーバ装置200との通信が可能か判定する。
【0031】
(6)判定部111の判定によりサーバ装置200との通信が可能な場合、対話装置100の通信部130は第1認識情報をサーバ装置200に送信する。(7)サーバ装置200の通信部230は、対話装置100から第1認識情報を受信する。
【0032】
(8)サーバ装置200の応答生成部213は、通信部230が受信した第1認識情報に基づき第2応答情報を生成する。ここで「第2応答情報」とは、サーバ装置200が生成する、ユーザの音声に対して応答するための情報である。第2応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表したものでもよく、またこの内容を出力するための音声のデータであってもよい。なお第1応答情報と第2応答情報とは、いずれもユーザの音声に対する応答の内容を示す情報であるため、特に区別の必要がなければ以下総称して「応答情報」という。
【0033】
(9)サーバ装置200の通信部230は、第2応答情報を対話装置100に送信する。(10)対話装置100の通信部130は、サーバ装置200から第2応答情報を受信する。
【0034】
(11)対話装置100の出力部140は、通信部130が受信した第2応答情報に基づき、音声に対する応答を出力する。出力部140は、具体的には、「議事録を開始します」とする音声を出力する。
【0035】
(12)サーバ装置200の装置制御部215は、第2応答情報に基づいて、自装置の動作を制御する。装置制御部215は、第2応答情報に基づいて、第1認識情報に示された音声の内容を議事録として記録を開始する。装置制御部215は、この音声の内容を議事録のフォーマットに合わせるよう調整して記憶部250に記憶する。
【0036】
つぎに図3を参照して、上記(B)の場面について説明する。
【0037】
(1)図3に示すように、対話装置100の音声取得部120は、ユーザの音声「議事録を開始」を取得する。(2)対話装置100の音声取得部120が取得した音声の音声データを音声認識システム300に送信するため、判定部111は、音声認識システム300との通信が可能か否か判定する。
【0038】
(3)判定部111の判定により音声認識システム300との通信が不可能な場合、対話装置100の音声認識部112は、取得された音声を認識し、第2認識情報を生成する。またこの際音声認識部112は、通信部130と音声認識システム300との間の音声データ送信の際のセッションに関する第1セッション情報を参照して、送信途中の音声データを引き継いでもよい。第1セッション情報の詳細は後述する。
【0039】
「第2認識情報」とは、対話装置100の音声認識部112による音声データの認識結果を示す情報である。第2認識情報は、例えば、音声の内容(「議事録開始」)をテキストで表してもよい。
【0040】
(4)対話装置100の応答生成部113は、第2認識情報に基づいて第1応答情報を生成する。ここで「第1応答情報」とは、応答生成部113によるユーザの音声に対して応答するための情報である。第1応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表してもよく、またこの内容を出力するための音声データのファイルであってもよい。またこの際応答生成部113は、通信部130とサーバ装置200との間の認識情報送信の際のセッションに関する第2セッション情報を参照して、送信途中の認識情報を引き継いでもよい。第2セッション情報の詳細は後述する。
【0041】
(5)対話装置100の出力部140は、第1応答情報に基づいて、音声に対する応答を出力する。出力部140は、具体的には、「議事録を開始します」とする音声を出力する。
【0042】
(6)対話装置100の識別部114は、第2認識情報に基づき、ユーザの音声がローカル指示であることを識別する。対話装置100の装置制御部116は、自装置に対するローカル指示の場合、第1応答情報に基づいて、自装置の動作を制御する。装置制御部116は、第1応答情報に基づいて第2認識情報の音声の内容を議事録として記録を開始する。装置制御部116は、第2認識情報を所定の議事録フォーマットに合わせるよう調整して議事録として記憶部150に記憶する。
【0043】
「ローカル指示」とは、ユーザの音声のうち対話装置100が接続する所定のネットワーク内の装置に対する指示をいう。ここで「所定のネットワーク」とは、例えば、第2ネットワークN2である。またこの装置には、ローカル400aと、自装置(対話装置100)とが含まれる。
【0044】
上記記憶された議事録は、対話装置100とサーバ装置200との通信が可能になった場合に、サーバ装置200の記憶部250に通信が不能となるまで記憶されていた議事録に加えるために送信してもよい。
【0045】
上記構成によれば、対話装置100は、音声認識システムとの通信が不可能な場合でも、対話装置100内の音声認識部112によりユーザの音声を認識することができる。上記構成によれば、対話装置100は、さらにサーバ装置200との通信が不可能な場合でも自装置における音声認識の結果に基づいてユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置100を利用することができる。
【0046】
<3.機能構成>
図4を参照して、本実施形態に係る対話装置100の機能構成を説明する。図4に示すように、対話装置100は、通信部130と、制御部110と、音声取得部120と、出力部140と、記憶部150と、を備える。
【0047】
制御部110は、判定部111と、音声認識部112と、応答生成部113と、識別部114と、を備える。また制御部110は、例えば、特定部115または装置制御部116を備えてもよい。
【0048】
判定部111は、音声認識システム300との通信が可能か否か判定する。判定部111は、例えば、サイクリックまたはイベントドリブンでネットワーク接続の状態(オフラインまたはオンライン)を監視して、監視の結果に基づいて音声認識システム300との通信が可能か否か判定してもよい。
【0049】
判定部111は、例えば、通信部130によって第1ネットワークN1を介してサーバ装置200に通信接続要求を送信し、この通信接続要求の応答を受信した場合に通信が可能と判定してもよい。他方判定部111は、例えば、通信部130によって第1ネットワークN1を介してサーバ装置200に通信接続要求を送信し、一定の時間、この通信接続要求の応答を受信しなかった場合に通信が不可能と判定してもよい。
【0050】
判定部111は、例えば、第1ネットワークN1の中継・転送機器(不図示)に、サーバ装置200の第1ネットワークN1への接続状況を問合せて、この問合せに対する応答によって通信が可能か不可能か判定してもよい。
【0051】
判定部111の上記判定の態様は、音声認識システム300との通信だけではなく、サーバ装置200、またはローカル装置400aやリモート装置400bとの通信に対する判定においても適用できる。
【0052】
判定部111は、例えば、サーバ装置200との通信が可能か否か判定してもよい
【0053】
判定部111は、例えば、ユーザの音声がリモート指示の場合、リモート装置400bとの通信が可能か判定してもよい。判定部111は、例えば、ユーザの音声がローカル指示の場合、ローカル装置400aとの通信が可能か判定してもよい。
【0054】
音声認識部112は、音声取得部120により取得されたユーザの音声を認識する。音声認識部112は、この認識の結果を示す第2認識情報を生成する。音声認識部112は、例えば、音声取得部120が取得した音声データを音声認識技術によりテキスト情報に変換する。この変換したテキスト情報が、第2認識情報に相当する。
【0055】
音声認識部112は、送信部131が音声認識システム300に音声データを送信している途中で音声認識システム300との通信が不可能になった場合、第1セッション情報を参照して、未送信の音声データの音声に基づいて第2認識情報を生成してもよい。
【0056】
「第1セッション情報」とは、送信部131が音声認識システム300に音声データを送信する際に確立したセッションに関する情報である。第1セッション情報は、例えば、送信していた音声データの各パケットや各セグメントがどこまで送信完了したかを示してもよい。第1セッション情報は、例えば、音声データの全セグメントのうち最後に送信完了したセグメントのTCPヘッダのシーケンス番号やACK番号、または最初の未送信セグメントのTCPヘッダのシーケンス番号などを示してもよい。
【0057】
上記構成によれば、音声認識部112は、音声認識システム300に送信途中の音声データを引き継いで、第2認識情報を生成することができる。このため上記構成によれば、音声認識部112は、音声認識システム300との通信が遮断されても、円滑に精度よくユーザの音声を認識することができる。
【0058】
応答生成部113は、第1認識情報または第2認識情報に基づき、第1応答情報を生成する。応答生成部113は、例えば、自然言語処理を用いて認識情報を解析してもよい。応答生成部113は、この解析により、ユーザの音声に対する応答の内容を特定する。応答生成部113は、具体的には、図2~3に示すように、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次いで応答生成部113は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、(ア)議事録として記憶部150または記憶部250への認識情報の記録を開始する処理を実行、(イ)ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。
【0059】
「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容とローカル指示かリモート指示かを示すフラグとを関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記(ア)および(イ)の処理の実行とする応答の内容と、リモート指示を示すフラグと、を関連付ける。なおこのフラグにおいて、リモート指示についてローカルで代替可能か否かでさらに分けて設けてもよい。すなわち、フラグ情報は、「ローカル指示」、「リモート指示(ローカル代替可)」、「リモート指示(ローカル代替不可)」とする3種類のフラグ(例えば、「1」~「3」)のいずれかを示してもよい。
【0060】
応答生成部113は、送信部131がリモート指示の送信を取り止めた場合、リモート指示の音声に対する応答としてリモート指示を取り止めた旨の第1応答情報を生成してもよい。
【0061】
上記構成によれば、応答生成部113は、リモート装置400bへのリモート指示を取り止めたことをユーザに応答することができる。このため上記構成によれば、応答生成部113は、リモート指示を取り止めたことをユーザに把握させることができる。
【0062】
応答生成部113は、送信部131がサーバ装置200に第1認識情報または第2認識情報を送信している途中でサーバ装置200との通信が不可能になった場合、第2セッション情報を参照して、未送信の第1認識情報または第2認識情報に基づいて第1応答情報を生成してもよい。
【0063】
「第2セッション情報」とは、送信部131がサーバ装置200に第1認識情報または第2認識情報を送信する際に確立したセッションに関する情報である。第2セッション情報は、例えば、送信していた認識情報の各パケットや各セグメントがどこまで送信完了したかを示してもよい。第2セッション情報は、例えば、認識情報の全セグメントのうち最後に送信完了したセグメントのTCPヘッダのシーケンス番号やACK番号、または最初の未送信セグメントのTCPヘッダのシーケンス番号を示してもよい。
【0064】
上記構成によれば、応答生成部113は、サーバ装置200に送信途中の認識情報を引き継いで、第1応答情報を生成することができる。このため上記構成によれば、応答生成部113は、サーバ装置200との通信が遮断されても、円滑に精度よくユーザの音声に対して応答することができる。
【0065】
識別部114は、第1認識情報または第2認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク外のリモート装置400bに対するリモート指示を識別する。
【0066】
識別部114は、第1認識情報または第2認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク内のローカル装置400aまたは自装置に対するローカル指示を識別する。
【0067】
識別部114は、例えば、応答生成部113と同様に自然言語処理を用いて解析を行って単語を抽出してもよい。識別部114は、抽出した単語に基づき、応答生成部113と同様に辞書情報の検索・特定によりリモート指示かローカル指示かを識別してもよい。
【0068】
特定部115は、リモート指示における指示の実行タイミングを特定する。特定部115は、例えば、リモート指示に含まれる時刻または実行までの期間を表す情報に基づきリモート指示の実行タイミングを特定する。この「時刻または実行までの期間を表す情報」とは、例えば、「朝7時」や「18:00」または「5分後」などを示す情報である。
【0069】
装置制御部116は、第1応答情報に基づいて、自装置の動作を制御する。装置制御部116は、第1応答情報に基づいて、ユーザの音声指示に対する応答が議事録の開始の場合、第2認識情報の音声の内容を議事録として記憶部150に記録する。
【0070】
通信部130は、ネットワークNを介して、サーバ装置200、音声認識システム300、装置400などとの間で各種情報・データを送受信する。通信部130は、送信部131と、受信部132と、を備える。
【0071】
送信部131は、音声認識システム300との通信が可能な場合、音声取得部120により取得された音声の音声データを音声認識システム300に送信する。
【0072】
送信部131は、例えば、サーバ装置200との通信が可能な場合、第1認識情報または第2認識情報をサーバ装置200に送信してもよい。
【0073】
送信部131は、例えば、判定部111の判定によりリモート装置400bとの通信が可能な場合、リモート指示をリモート装置400bに送信してもよい。他方送信部131は、例えば、リモート装置400bとの通信が不可能な場合、リモート指示をキューイングし、その後リモート装置400bとの通信が可能となった際にキューイングされたリモート指示を読み出してリモート装置400bに送信してもよい。
【0074】
上記構成によれば、送信部131は、一時的にリモート装置400bとの通信が不可能な場合でもその後通信が可能となった際にリモート指示をリモート装置400bに送信することができる。
【0075】
送信部131は、例えば、判定部111の判定によりローカル装置400aとの通信が可能な場合、ローカル指示をローカル装置400aに送信してもよい。他方送信部131は、例えば、ローカル装置400aとの通信が不可能な場合、ローカル指示をキューイングし、その後ローカル装置400aとの通信が可能となった際にキューイングされたローカル指示を読み出してローカル装置400aに送信してもよい。
【0076】
送信部131は、例えば、特定部115により特定されたリモート指示の実行タイミングにおいてリモート装置400bとの通信が不可能な場合、リモート装置400bへのリモート指示の送信を取り止めてもよい。送信部131は、例えば、実行タイミングが「(音声の取得時点から)5分後」でかつこの取得時点から5分を超えてリモート装置400bとの通信が不可能な場合、リモート装置400bへのリモート指示の送信を取り止める。
【0077】
上記構成によれば、送信部131は、実行の時期を逸したリモート指示をリモート装置400bに送信しないことができる。このため上記構成によれば、送信部131は、リモート装置400bへの余計・冗長な指示の送信を抑止することができる。
【0078】
送信部131は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、リモート指示の実行タイミングが特定の日時および即時ではない場合、その後リモート装置との通信が可能となった際にバッチ処理時間帯にキューイングされたリモート指示を読み出してリモート装置に一括または順次送信してもよい。この「バッチ処理時間帯」とは、相対的に負荷の高い通信処理や緊急度の低い通信処理を行うための時間帯である。バッチ処理時間帯は、例えば、オンラインリアルタイム処理が少ない夜間や休日などの時間帯が設定されてもよい。またここでいう「記憶部」は、自装置の記憶部150であってもよいし、他の装置の記憶部であってもよい。
【0079】
上記構成によれば、送信部131は、特定の日時および即時ではないリモート指示に関してはバッチ処理時間帯にリモート装置400bに送信することができる。このため上記構成によれば、送信部131は、通信が復旧した際にキューイングされたリモート指示を全量送信することなく優先度(重要度・緊急度)の高い一部の指示に限定して送信し、その後のバッチ処理時間帯に残りを回すことができる。
【0080】
送信部131は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、所定期間蓄積された音声データを、その後リモート装置との通信が可能となった際にバッチ処理時間帯にサーバ装置200に送信してもよい。
【0081】
上記構成によれば、送信部131は、例えばオフラインで大量の議事録音声を取得したものを、サーバ200において一括で文字起こしする場合に、他の優先する処理やユーザに対する応答に影響を与えずに処理を行うことができる。
【0082】
ここで図5を参照して、自装置に対するローカル指示・リモート装置400bに対するリモート指示と、その実行・キューイングとの関係の一例を説明する。図5に示すように、対話装置100は、自装置に対するローカル指示の実行タイミングが即時の場合、ローカル指示をキューイングすることなく即時実行してもよい。また対話装置100は、ローカル指示の実行タイミングが特定の日時に指定または何ら指定がない場合、ローカル指示をキューイングして、指定された日時または順次キューイングから読み出して実行してもよい。
【0083】
対話装置100は、リモート指示の実行タイミングが即時の場合、リモート指示をキューイングすることなく即時リモート装置400bに送信してもよい。また対話装置100は、リモート指示の実行タイミングが特定の日時に指定または何ら指定がない場合、リモート指示をキューイングして、指定された日時または順次キューイングから読み出してリモート装置400bに送信してもよい。
【0084】
図4に戻って説明を続ける。受信部132は、音声認識システム300から、送信部131が送信した音声データの認識結果を示す第1認識情報を受信する。
【0085】
受信部132は、例えば、サーバ装置200から、第1認識情報または第2認識情報に基づき生成された第2応答情報を受信してもよい。
【0086】
音声取得部120は、ユーザの音声を取得する。
【0087】
出力部140は、第1応答情報または第2応答情報に基づき、音声に対する応答を出力する。出力部140の出力態様は、どのような態様でもよい。出力部140の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。
【0088】
上記構成によれば、出力部140は、サーバ装置200や音声認識システム300との通信が不可能な場合でも、ユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置100を利用することができる。また上記構成によれば、出力部140は、自装置で生成した第1応答情報だけではなく、サーバ装置200が生成した第2応答情報を利用することもできる。
【0089】
記憶部150は、音声データ、第1認識情報、第2認識情報、第1応答情報、第2応答情報、第1セッション情報、第2セッション情報、記録された議事録を示す議事録情報または設定情報などを記憶する。ここで「設定情報」とは、対話装置100が動作するために設定されているパラメータを示す情報である。設定情報は、バッチ処理時間帯を含んでもよい。
【0090】
記憶部150は、データベースマネジメントシステム(DBMS)を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。
【0091】
図6を参照して、本実施形態に係るサーバ装置200の機能構成を説明する。図6に示すように、サーバ装置200は、制御部210と、通信部230と、記憶部250と、を備える。通信部230と記憶部250の機能は、対話装置100の通信部130と記憶部150と同様のため説明を割愛する。
【0092】
制御部210は、判定部211と、音声認識部212と、応答生成部213と、を備える。また制御部210は、例えば、装置制御部215を備えてもよい。各機能部の機能は、対話装置100の判定部111と、音声認識部112と、応答生成部113と、装置制御部116と同様のため説明を割愛する。
【0093】
<4.動作例>
図7を参照して、対話装置100の動作例を説明する。なお、以下に示す図7の動作例の処理の順番は一例であって、適宜、変更されてもよい。
【0094】
図7に示すように、対話装置100の音声取得部120は、ユーザの音声を取得する(S10)。次いで判定部111は、音声認識システム300との通信が可能か否か判定する(S11)。
【0095】
判定部111の判定により音声認識システム300との通信が可能な場合(S12のYes)、音声取得部120により取得された音声の音声データを音声認識システムに送信する(S13)。音声認識システム300から、この音声データの認識結果を示す第1認識情報を受信する(S14)。
【0096】
判定部111の判定により音声認識システム300との通信が不可能な場合(S12のNo)、音声認識部112は、音声取得部120により取得された音声を認識し、この認識結果を示す第2認識情報を生成する(S15)。
【0097】
応答生成部113は、第1認識情報または第2認識情報に基づき、第1応答情報を生成する(S16)。出力部140は、第1応答情報に基づき、ユーザの音声に対する応答を出力する(S17)。
【0098】
<5.ハードウェア構成>
図8を参照して、上述してきた対話装置100およびサーバ装置200をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
【0099】
図8に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、表示装置813、音声入力装置817および音声出力装置819を含む。
【0100】
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、対話装置100の制御部110やサーバ装置200の制御部210が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
【0101】
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0102】
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、第1認識情報、第2認識情報、第1応答情報、第2応答情報、第1セッション情報、第2セッション情報、議事録情報または設定情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
【0103】
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
【0104】
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
【0105】
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
【0106】
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
【0107】
音声入力装置817は、マイクなどの音声を検出するための入力装置である。音声入力装置は、例えば、音声信号を含めたアナログ振動信号を取得するマイクロフォン、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するA/D変換部などを備える。音声入力装置817は、例えば、ユーザが発する音声を検出する。
【0108】
音声出力装置819は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置819は、ヘッドフォンまたはイヤフォンに音を出力するための装置であってもよい。
【0109】
[第2実施形態]
次に、本発明の第2実施形態(以下、「本実施形態」という)について説明する。本実施形態では、本実施形態に係る対話システム1aが(4)ユーザと遠隔にいる相手(以下、「会話相手」という)との間の音声による会話を実現する例を用いて説明するが、これに限る趣旨ではない。以下、第1実施形態と異なる点を中心に説明する。
【0110】
<1.システム構成および概要>
本実施形態に係る対話装置100aは、第1ネットワークN1を介して相手装置と接続されている。
【0111】
図9~10を参照して、対話システム1aの概要を説明する。
【0112】
図9~10に示すように、先ず第1ネットワークN1において相手装置と通信可能(以下、単に「オンライン」ともいう)となっている場合、対話装置100aは相手装置に音声データをリアルタイムで送信する。すなわちユーザと会話相手とは、対話装置100aと相手装置を介してリアルタイムに通話することが可能である。このとき対話装置100aは、ユーザの発話データを記録しない。ここで「発話データ」とは、ユーザの音声の音声データから無音区間の少なくとも一部を除いたデータである。
【0113】
次に第1ネットワークN1においてオンラインから相手装置と通信不可能(以下、単に「オフライン」ともいう)となった場合、対話装置100は、ユーザの発話データを記録する。このとき相手装置では当然にユーザの音声は出力されない。
【0114】
次に第1ネットワークN1においてオフラインから再びオンラインとなった場合、対話装置100aは、発話データを相手装置に送信する。またこのとき対話装置100aは、ユーザの発話データを引き続き記録する。対話装置100aはユーザの発話のタイミングと相手装置の発話データの再生タイミングのずれが解消されると発話データの記録を停止する。対話装置100aは発話データの送信が完了した後に相手装置への音声データの送信を再開する。すなわちユーザと会話相手とは、対話装置100aと相手装置を介してリアルタイムに通話することが再び可能となる。
【0115】
上記構成によれば、対話システム1aは、オンラインからオフラインとなった場合に、録音した音声データのうち無音区間の全部または一部を除いたデータを相手装置に送信することができる。このため上記構成によれば、音声データから無音区間を除いて相手装置に送信することにより、オフラインになったことによるユーザの発話タイミングと相手装置の再生タイミングのずれを解消することができる。したがって上記構成によれば、ユーザと会話相手との遠隔会話の途中で、相手装置との通信が不可能となった場合でも、対話システム1aは、通信が可能となった後に会話相手にユーザが発話した情報をスムーズに伝えることができる。
【0116】
<2.機能構成>
対話装置100aの機能構成の一例について説明する。対話装置100aは、第1実施形態に係る対話装置100の音声取得部120、通信部130、出力部140および記憶部150を共通して備え、制御部110においては、判定部111を共通して備え、これらの機能部に加えて検出部と、を備える。
【0117】
判定部111は、相手装置との通信が可能か否か判定する。
【0118】
検出部は、音声取得部120により取得された音声データから発話区間と無音区間とを検出する。検出部は、例えば、この音声データを一度録音し、録音された音声データから発話区間と無音区間とを検出してもよい。この「無音区間」とは、音声データにおいて音声レベルがゼロとなる区間である。また検出部は、検出の前処理として、音声データに対してイコライザー処理やタイムアライメント処理などの各種音響処理を行ってもよい。
【0119】
記録部は、相手装置との通信が不可能な場合、発話データを記録する。記録部は、例えば、録音された音声データから発話区間のデータを抽出して発話データを生成してもよい。記録部は、この生成した発話データを記憶部150に記録する。
【0120】
記録部は、例えば、ユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されるまで発話データを記録してもよい。
【0121】
記録部は、例えば、相手装置との通信が不可能となった期間(以下、「オフライン期間」という)の開始から合計した無音区間の長さが、オフライン期間の長さを超えるまで(例えば、図9の時点Pまで)発話データを記録してもよい。また記録部は、他の例として、オフライン期間の開始から合計した無音区間の長さが、オフライン期間における合計した発話区間の長さを超えるまで(例えば、図10の時点P’まで)発話データを記録してもよい。
【0122】
送信部131は、音声取得部120により取得された音声データを相手装置に送信する。送信部131は、相手装置との通信が可能となった場合相手装置に発話データを送信し、発話データの送信が完了した後に音声データの送信を再開する。
【0123】
上記構成によれば、対話システム1aは、オンラインからオフラインとなった場合に、録音した音声データのうち無音区間の全部または一部を除いたデータを相手装置に送信することができる。このため上記構成によれば、音声データから無音区間を除いて相手装置に送信することにより、オフラインになったことによるユーザの発話タイミングと相手装置の再生タイミングのずれを解消することができる。
【0124】
<3.動作例>
図11を参照して、対話装置100aの動作例を説明する。なお、以下に示す図11の動作例の処理の順番は一例であって、適宜、変更されてもよい。
【0125】
図11に示すように、対話装置100の音声取得部120は、ユーザの音声を取得する(S20)。次いで判定部111は、相手装置との通信が可能か否か判定する(S21)。
【0126】
判定部111の判定により相手装置との通信が不可能な場合(S22のNo)、記録部は発話データを記録する(S23)。
【0127】
判定部111の判定により相手装置との通信が可能な場合(S22のYes)、かつ相手装置への発話データの送信が完了していない場合(S24のNo)、送信部131は発話データを送信する(S25)。またユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されていない場合(S26のNo)、記録部は発話データを記録する(S27)。
【0128】
判定部111の判定により相手装置との通信が可能な場合(S22のYes)、かつ相手装置への発話データの送信が完了した場合(S24のYes)、送信部131は音声データを送信する(S28)。
【0129】
ユーザと会話相手が会話を続ける場合(S29のYes)、ステップS20の前に戻る。
【0130】
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。
【符号の説明】
【0131】
1、1a…対話システム、100、100a…対話装置、110…制御部、111…判定部、112…音声認識部、113…応答生成部、114…識別部、115…特定部、116…装置制御部、120…音声取得部、130…通信部、131…送信部、132…受信部、140…出力部、150…記憶部、200…サーバ装置、210…制御部、211…判定部、212…音声認識部、213…応答生成部、214…識別部、215…装置制御部、230…通信部、250…記憶部、300…音声認識システム、400…装置、400a…ローカル装置、400b…リモート装置、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11