特許7527127 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特許7527127情報処理装置、プログラム、および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-25

(45)【発行日】2024-08-02

(54)【発明の名称】情報処理装置、プログラム、および情報処理方法

(51)【国際特許分類】

G10L 15/28 20130101AFI20240726BHJP

G10L 15/32 20130101ALI20240726BHJP

G10L 15/30 20130101ALI20240726BHJP

【ＦＩ】

G10L15/28 500

G10L15/32 220Z

G10L15/30

【請求項の数】 9

(21)【出願番号】P 2020078049

(22)【出願日】2020-04-27

(65)【公開番号】P2021173880

(43)【公開日】2021-11-01

【審査請求日】2023-04-07

(73)【特許権者】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】小西啓介

(72)【発明者】

【氏名】福江尚史

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１４－１７４４８５（ＪＰ，Ａ）

【文献】特開２００５－０３７６６２（ＪＰ，Ａ）

【文献】特開２０１２－０６３５８２（ＪＰ，Ａ）

【文献】特開２０１８－０４９０８０（ＪＰ，Ａ）

【文献】特開２０１９－２０４５２４（ＪＰ，Ａ）

【文献】特開２００５－２５０３７９（ＪＰ，Ａ）

【文献】国際公開第２０１４／１４１６７６（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／１６

Ｇ０６Ｆ１３／００－１３／１４

Ｇ１０Ｌ１３／００－２５／９３

Ｈ０４Ｌ１３／００－６９／４０

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

音声を認識する音声認識システムとネットワークを介して接続する情報処理装置であって、
ユーザの音声を取得する音声取得部と、
前記音声認識システムとの通信が可能か否か判定する判定部と、
前記音声認識システムとの通信が可能な場合、取得された前記音声の音声データを前記音声認識システムに送信する送信部と、
前記音声認識システムから、前記音声データの認識結果を示す第１認識情報を受信する受信部と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第２認識情報を生成する音声認識部と、
前記第１認識情報または前記第２認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別する識別部と、
前記リモート指示の実行タイミングを特定する特定部と、
前記第１認識情報または前記第２認識情報に基づき、前記音声に対して応答するための第１応答情報を生成する応答生成部と、
前記第１応答情報に基づき、前記音声に対する応答を出力する出力部と、を備え、
前記判定部は、前記音声が前記リモート指示の場合、前記リモート装置との通信が可能か判定し、
前記送信部は、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記応答生成部は、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の前記第１応答情報を生成する、
情報処理装置。

【請求項2】

情報処理装置は、前記第１認識情報または前記第２認識情報に基づき、前記音声に対して応答するための第２応答情報を生成するサーバ装置と前記ネットワークを介して接続し、
前記判定部は、前記サーバ装置との通信が可能か否か判定し、
前記送信部は、前記サーバ装置との通信が可能な場合、前記第１認識情報または前記第２認識情報を前記サーバ装置に送信し、
前記受信部は、前記サーバ装置から、前記第１認識情報または前記第２認識情報に基づき生成された前記第２応答情報を受信する、
前記出力部は、前記受信した第２応答情報に基づき、前記音声に対する応答を出力する、
請求項１に記載の情報処理装置。

【請求項3】

前記送信部は、前記特定された実行タイミングが特定の日時および即時ではない場合、並びに前記リモート装置との通信が不可能な場合、前記リモート指示をキューイングし、その後リモート装置との通信が可能となった際にキューイングされた前記リモート指示を読み出して前記リモート装置に送信する、
請求項１または２に記載の情報処理装置。

【請求項4】

前記送信部は、バッチ処理時間帯を記憶する記憶部を参照して、指示の前記実行タイミングが特定の日時および即時ではない場合、その後リモート装置との通信が可能となった際に前記バッチ処理時間帯にキューイングされた前記リモート指示を読み出して前記リモート装置に送信する、
請求項３に記載の情報処理装置。

【請求項5】

前記音声認識部は、前記送信部が前記音声認識システムに前記音声データを送信している途中で前記音声認識システムとの通信が不可能になった場合、前記送信部が前記音声認識システムに前記音声データを送信する際に確立したセッションに関する第１セッション情報を参照して、未送信の前記音声データの音声に基づいて前記第２認識情報を生成する、
請求項１から４のいずれか一項に記載の情報処理装置。

【請求項6】

前記応答生成部は、前記送信部が前記サーバ装置に前記第１認識情報または前記第２認識情報を送信している途中で前記サーバ装置との通信が不可能になった場合、前記送信部が前記サーバ装置に前記第１認識情報または前記第２認識情報を送信する際に確立したセッションに関する第２セッション情報を参照して、未送信の前記第１認識情報または前記第２認識情報に基づいて前記第１応答情報を生成する、
請求項２に記載の情報処理装置。

【請求項7】

情報処理装置は、前記ユーザとの音声による会話相手の相手装置と前記ネットワークを介して接続し、
前記判定部は、前記相手装置との通信が可能か否か判定し、
前記送信部は、取得された前記音声データを前記相手装置に送信し、
情報処理装置は、
前記音声データから発話区間と無音区間とを検出する検出部と、
前記相手装置との通信が不可能な場合、前記音声データから前記無音区間の少なくとも一部を除いた発話データを記録する記録部と、
前記送信部は、前記相手装置との通信が可能となった場合相手装置に前記発話データを送信し、発話データの送信が完了した後に前記音声データの送信を再開する、
請求項１から６のいずれか一項に記載の情報処理装置。

【請求項8】

音声を認識する音声認識システムとネットワークを介して接続する情報処理装置に、
ユーザの音声を取得する音声取得機能と、
前記音声認識システムとの通信が可能か否か判定する判定機能と、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信する送信機能と、
前記音声認識システムから、前記音声データの認識結果を示す第１認識情報を受信する受信機能と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第２認識情報を生成する音声認識機能と、
前記第１認識情報または前記第２認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別する識別機能と、
前記リモート指示の実行タイミングを特定する特定機能と、
前記第１認識情報または前記第２認識情報に基づき、前記音声に対して応答するための第１応答情報を生成する応答生成機能と、
前記第１応答情報に基づき、前記音声に対する応答を出力する出力機能と、を実現させ、
前記判定機能は、前記音声が前記リモート指示の場合、前記リモート装置との通信が可能か判定し、
前記送信機能は、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記応答生成機能は、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の前記第１応答情報を生成する、
プログラム。

【請求項9】

音声を認識する音声認識システムとネットワークを介して接続する情報処理装置が、
ユーザの音声を取得し、
前記音声認識システムとの通信が可能か否か判定し、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信し、
前記音声認識システムから、前記音声データの認識結果を示す第１認識情報を受信し、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第２認識情報を生成し、
前記第１認識情報または前記第２認識情報に基づき、前記ユーザの音声のうち、前記情報処理装置が接続する所定のネットワーク外のリモート装置に対するリモート指示を識別し、
前記リモート指示の実行タイミングを特定し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記音声に対して応答するための第１応答情報であって、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の第１応答情報を生成し、
前記第１応答情報に基づき、前記音声に対する応答を出力する、
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、プログラム、および情報処理方法に関する。

【背景技術】

【0002】

従来、ユーザの音声を取得し、取得した音声に応答して様々な操作をする装置、いわゆるスマートスピーカーの技術が知られている。

【0003】

下記特許文献１に開示されているスマートスピーカーでは、ユーザの音声を示す音声情報を入力して、ネットワークを介して接続される音声出力装置にこの音声情報を送信する。音声出力装置は受信した音声情報に基づいて音声を認識し、認識結果に基づいてユーザの音声に対して発話するための発話データを生成する。音声出力装置がこの発話データをスマートスピーカーに送信して、スマートスピーカーは発話データに基づいて音声を出力する。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２０－２１０４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１のスマートスピーカーでは、音声出力装置の通信が不可能となった場合、ユーザの音声に応答できなくなるという問題がある。

【0006】

そこで、本発明は、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様に係る情報処理装置は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置であって、ユーザの音声を取得する音声取得部と、音声認識システムとの通信が可能か否か判定する判定部と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信部と、音声認識システムから、音声データの認識結果を示す第１認識情報を受信する受信部と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第２認識情報を生成する音声認識部と、第１認識情報または第２認識情報に基づき、音声に対して応答するための第１応答情報を生成する応答生成部と、第１応答情報に基づき、音声に対する応答を出力する出力部と、を備える。

【0008】

本発明の一態様に係るプログラムは、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置に、ユーザの音声を取得する音声取得機能と、音声認識システムとの通信が可能か否か判定する判定機能と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信機能と、音声認識システムから、音声データの認識結果を示す第１認識情報を受信する受信機能と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第２認識情報を生成する音声認識機能と、第１認識情報または第２認識情報に基づき、音声に対して応答するための第１応答情報を生成する応答生成機能と、第１応答情報に基づき、音声に対する応答を出力する出力機能と、を実現させる。

【0009】

本発明の一態様に係る情報処理方法は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置が、ユーザの音声を取得し、音声認識システムとの通信が可能か否か判定し、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信し、音声認識システムから、音声データの認識結果を示す第１認識情報を受信し、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第２認識情報を生成し、第１認識情報または第２認識情報に基づき、音声に対して応答するための第１応答情報を生成し、第１応答情報に基づき、音声に対する応答を出力する。

【0010】

上記の態様によれば、情報処理装置と音声認識システムとの通信が不可能な場合でも、情報処理装置内の音声認識部によりユーザの音声を認識することができる。このため情報処理装置は、音声認識システムとの通信が不可能な場合でもユーザの音声に応答することができる。

【発明の効果】

【0011】

本発明によれば、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することができる。

【図面の簡単な説明】

【0012】

【図1】第１実施形態に係る対話システムのシステム構成例を説明するための図である。

【図2】第１実施形態に係る対話システムの概要を説明するための図である。

【図3】第１実施形態に係る対話システムの概要を説明するための図である。

【図4】第１実施形態に係る対話装置の機能構成の一例を示す図である。

【図5】第１実施形態に係るローカル指示・リモート指示とその実行・キューイングとの関係の一例を説明する図である。

【図6】第１実施形態に係るサーバ装置の機能構成の一例を示す図である。

【図7】第１実施形態に係る対話装置の動作例を示す図である。

【図8】第１実施形態に係る対話装置およびサーバ装置のハードウェア構成の一例を示す図である。

【図9】第２実施形態に係る対話システムの概要を説明するための図である。

【図10】第２実施形態に係る対話システムの概要を説明するための図である。

【図11】第２実施形態に係る対話装置の動作例を示す図である。

【発明を実施するための形態】

【0013】

添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。

【0014】

本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されてもよい。

【0015】

［第１実施形態］
本発明の第１実施形態（以下、「本実施形態」という）について説明する。本実施形態では、本実施形態に係る対話システム１が（１）ユーザと対話する、（２）ユーザの音声を議事録に記録する、（３）ユーザの音声指示により家電などの装置の動作を制御する、例を用いて説明するが、これに限る趣旨ではない。

【0016】

＜１．システム構成＞
図１を参照して、対話システム１のシステム構成例を説明する。対話システム１は、ユーザの音声に応じて動作するシステムである。対話システム１は、上記（１）～（３）の機能をユーザに提供する。

【0017】

図１に示すように、対話システム１は、対話装置１００と、サーバ装置２００と、を含む。また対話システム１は、第１ネットワークＮ１を介して音声認識システム３００と接続さている。また対話システム１の対話装置１００は、第２ネットワークＮ２を介してローカル装置４００ａと接続されている。また対話システム１は、第１ネットワークＮ１を介してリモート装置４００ｂと接続されている。

【0018】

第１ネットワークＮ１は、広域通信網のネットワークであり、例えば、インターネット、移動体通信網、電話回線などを含む。また、第１ネットワークＮ１は、例えば、３Ｇ（第３世代移動通信システム）回線、４Ｇ（第４世代移動通信システム）回線、５Ｇ（第５世代移動通信システム）回線、またはＬＴＥ（登録商標）（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）回線などを用いた無線通信方式を用いてもよい。

【0019】

第２ネットワークＮ２は、所定の施設や室内に対して独自に構築された通信網であり、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）である。言い換えれば、対話装置１００とローカル装置４００ａとは、同一のＬＡＮ内に設置されている。第２ネットワークＮ２は、有線および／または無線により、対話装置１００とローカル装置４００ａとが互いに通信できるものであれば、任意の通信方式を用いることができる。また第２ネットワークＮ２は、複数の通信方式を用いるものであってもよい。第２ネットワークＮ２は、例えば、Ｗｉ－Ｆｉ（登録商標）規格に準拠した無線ＬＡＮを含み、ルータが中継することで、これらの相互接続を実現させてもよい。

【0020】

第２ネットワークＮ２は、例えば、ローカル装置４００ａと直接接続するためのネットワークであってもよい。第２ネットワークＮ２は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）や赤外線通信等の１０ｍ程度の近距離無線通信を実現するネットワークを含んでもよい。

【0021】

対話装置１００は、サーバ装置２００や音声認識システム３００、または装置４００との通信が可能な情報処理装置である。対話装置１００は、ユーザの音声を取得して、取得した音声に対話などで応答する、いわゆるスマートスピーカーである。対話装置１００は、例えば、汎用のタブレット端末やスマートフォンなどであってもよい。対話装置１００は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末を対話装置１００として使用してもよい。

【0022】

サーバ装置２００は、対話装置１００との通信や議事録の管理が可能な情報処理装置である。サーバ装置２００は、所定のプログラムを実行することにより、対話装置１００と連携して、ユーザの音声に対する応答や議事録の新規登録、変更並びに削除（以下、これらの処理をまとめて「更新」ともいう）し、またはこれらの履歴を管理するサーバ機能を実現する。

【0023】

音声認識システム３００は、対話装置１００やサーバ装置２００と通信の通信が可能なシステムである。音声認識システム３００は、対話装置１００またはサーバ装置２００から受信したユーザの音声を示す音声データ（以下、単に「音声データ」ともいう）に基づいてユーザの音声を認識する。

【0024】

ローカル装置４００ａおよびリモート装置４００ｂは、ユーザの音声指示に応じて対話装置１００により動作を制御される装置である。ローカル装置４００ａは、対話装置１００と同一のＬＡＮ（第２ネットワークＮ２）内の装置である。リモート装置４００ｂは、対話装置が接続するＬＡＮ（第２ネットワークＮ２）外の装置である。ローカル装置４００ａとリモート装置４００ｂとは、特に区別の必要がない場合に総称して「装置４００」という。

【0025】

＜２．システム概要＞
図２～３を参照して、対話システム１の概要を、（Ａ）対話装置１００がオンラインのとき、（Ｂ）対話装置１００がオンラインからオフラインに切り替わったとき、という二つの場面に分けて説明する。

【0026】

図２を参照して、まず上記（Ａ）の場面について説明する。対話装置１００は、オンラインの状態であり、サーバ装置２００および音声認識システム３００との通信が可能な状態である。

【0027】

（１）図２に示すように、対話装置１００の音声取得部１２０は、ユーザの音声「議事録を開始」を取得する。（２）対話装置１００の音声取得部１２０が取得した音声の音声データを音声認識システム３００に送信するため、判定部１１１は、音声認識システム３００との通信が可能か否か判定する。

【0028】

判定部１１１の判定により音声認識システム３００との通信が可能な場合、対話装置１００の通信部１３０は音声データを音声認識システム３００に送信する。（４）対話装置１００の通信部１３０は、音声認識システム３００から第１認識情報を受信する。

【0029】

「第１認識情報」とは、音声認識システム３００による音声データの認識結果を示す情報である。第１認識情報は、例えば、音声の内容（「議事録開始」）をテキストで表したものでもよい。なお第１認識情報と第２認識情報とは、いずれもユーザの音声を認識した結果を示す情報であるため、特に区別の必要がなければ以下総称して「認識情報」という。

【0030】

（５）通信部１３０が受信した第１認識情報をサーバ装置２００に送信するため、対話装置１００の判定部１１１は、サーバ装置２００との通信が可能か判定する。

【0031】

（６）判定部１１１の判定によりサーバ装置２００との通信が可能な場合、対話装置１００の通信部１３０は第１認識情報をサーバ装置２００に送信する。（７）サーバ装置２００の通信部２３０は、対話装置１００から第１認識情報を受信する。

【0032】

（８）サーバ装置２００の応答生成部２１３は、通信部２３０が受信した第１認識情報に基づき第２応答情報を生成する。ここで「第２応答情報」とは、サーバ装置２００が生成する、ユーザの音声に対して応答するための情報である。第２応答情報は、例えば、対話装置１００から出力する音声の内容「議事録を開始します」をテキストで表したものでもよく、またこの内容を出力するための音声のデータであってもよい。なお第１応答情報と第２応答情報とは、いずれもユーザの音声に対する応答の内容を示す情報であるため、特に区別の必要がなければ以下総称して「応答情報」という。

【0033】

（９）サーバ装置２００の通信部２３０は、第２応答情報を対話装置１００に送信する。（１０）対話装置１００の通信部１３０は、サーバ装置２００から第２応答情報を受信する。

【0034】

（１１）対話装置１００の出力部１４０は、通信部１３０が受信した第２応答情報に基づき、音声に対する応答を出力する。出力部１４０は、具体的には、「議事録を開始します」とする音声を出力する。

【0035】

（１２）サーバ装置２００の装置制御部２１５は、第２応答情報に基づいて、自装置の動作を制御する。装置制御部２１５は、第２応答情報に基づいて、第１認識情報に示された音声の内容を議事録として記録を開始する。装置制御部２１５は、この音声の内容を議事録のフォーマットに合わせるよう調整して記憶部２５０に記憶する。

【0036】

つぎに図３を参照して、上記（Ｂ）の場面について説明する。

【0037】

（１）図３に示すように、対話装置１００の音声取得部１２０は、ユーザの音声「議事録を開始」を取得する。（２）対話装置１００の音声取得部１２０が取得した音声の音声データを音声認識システム３００に送信するため、判定部１１１は、音声認識システム３００との通信が可能か否か判定する。

【0038】

（３）判定部１１１の判定により音声認識システム３００との通信が不可能な場合、対話装置１００の音声認識部１１２は、取得された音声を認識し、第２認識情報を生成する。またこの際音声認識部１１２は、通信部１３０と音声認識システム３００との間の音声データ送信の際のセッションに関する第１セッション情報を参照して、送信途中の音声データを引き継いでもよい。第１セッション情報の詳細は後述する。

【0039】

「第２認識情報」とは、対話装置１００の音声認識部１１２による音声データの認識結果を示す情報である。第２認識情報は、例えば、音声の内容（「議事録開始」）をテキストで表してもよい。

【0040】

（４）対話装置１００の応答生成部１１３は、第２認識情報に基づいて第１応答情報を生成する。ここで「第１応答情報」とは、応答生成部１１３によるユーザの音声に対して応答するための情報である。第１応答情報は、例えば、対話装置１００から出力する音声の内容「議事録を開始します」をテキストで表してもよく、またこの内容を出力するための音声データのファイルであってもよい。またこの際応答生成部１１３は、通信部１３０とサーバ装置２００との間の認識情報送信の際のセッションに関する第２セッション情報を参照して、送信途中の認識情報を引き継いでもよい。第２セッション情報の詳細は後述する。

【0041】

（５）対話装置１００の出力部１４０は、第１応答情報に基づいて、音声に対する応答を出力する。出力部１４０は、具体的には、「議事録を開始します」とする音声を出力する。

【0042】

（６）対話装置１００の識別部１１４は、第２認識情報に基づき、ユーザの音声がローカル指示であることを識別する。対話装置１００の装置制御部１１６は、自装置に対するローカル指示の場合、第１応答情報に基づいて、自装置の動作を制御する。装置制御部１１６は、第１応答情報に基づいて第２認識情報の音声の内容を議事録として記録を開始する。装置制御部１１６は、第２認識情報を所定の議事録フォーマットに合わせるよう調整して議事録として記憶部１５０に記憶する。

【0043】

「ローカル指示」とは、ユーザの音声のうち対話装置１００が接続する所定のネットワーク内の装置に対する指示をいう。ここで「所定のネットワーク」とは、例えば、第２ネットワークＮ２である。またこの装置には、ローカル４００ａと、自装置（対話装置１００）とが含まれる。

【0044】

上記記憶された議事録は、対話装置１００とサーバ装置２００との通信が可能になった場合に、サーバ装置２００の記憶部２５０に通信が不能となるまで記憶されていた議事録に加えるために送信してもよい。

【0045】

上記構成によれば、対話装置１００は、音声認識システムとの通信が不可能な場合でも、対話装置１００内の音声認識部１１２によりユーザの音声を認識することができる。上記構成によれば、対話装置１００は、さらにサーバ装置２００との通信が不可能な場合でも自装置における音声認識の結果に基づいてユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置１００を利用することができる。

【0046】

＜３．機能構成＞
図４を参照して、本実施形態に係る対話装置１００の機能構成を説明する。図４に示すように、対話装置１００は、通信部１３０と、制御部１１０と、音声取得部１２０と、出力部１４０と、記憶部１５０と、を備える。

【0047】

制御部１１０は、判定部１１１と、音声認識部１１２と、応答生成部１１３と、識別部１１４と、を備える。また制御部１１０は、例えば、特定部１１５または装置制御部１１６を備えてもよい。

【0048】

判定部１１１は、音声認識システム３００との通信が可能か否か判定する。判定部１１１は、例えば、サイクリックまたはイベントドリブンでネットワーク接続の状態（オフラインまたはオンライン）を監視して、監視の結果に基づいて音声認識システム３００との通信が可能か否か判定してもよい。

【0049】

判定部１１１は、例えば、通信部１３０によって第１ネットワークＮ１を介してサーバ装置２００に通信接続要求を送信し、この通信接続要求の応答を受信した場合に通信が可能と判定してもよい。他方判定部１１１は、例えば、通信部１３０によって第１ネットワークＮ１を介してサーバ装置２００に通信接続要求を送信し、一定の時間、この通信接続要求の応答を受信しなかった場合に通信が不可能と判定してもよい。

【0050】

判定部１１１は、例えば、第１ネットワークＮ１の中継・転送機器（不図示）に、サーバ装置２００の第１ネットワークＮ１への接続状況を問合せて、この問合せに対する応答によって通信が可能か不可能か判定してもよい。

【0051】

判定部１１１の上記判定の態様は、音声認識システム３００との通信だけではなく、サーバ装置２００、またはローカル装置４００ａやリモート装置４００ｂとの通信に対する判定においても適用できる。

【0052】

判定部１１１は、例えば、サーバ装置２００との通信が可能か否か判定してもよい

【0053】

判定部１１１は、例えば、ユーザの音声がリモート指示の場合、リモート装置４００ｂとの通信が可能か判定してもよい。判定部１１１は、例えば、ユーザの音声がローカル指示の場合、ローカル装置４００ａとの通信が可能か判定してもよい。

【0054】

音声認識部１１２は、音声取得部１２０により取得されたユーザの音声を認識する。音声認識部１１２は、この認識の結果を示す第２認識情報を生成する。音声認識部１１２は、例えば、音声取得部１２０が取得した音声データを音声認識技術によりテキスト情報に変換する。この変換したテキスト情報が、第２認識情報に相当する。

【0055】

音声認識部１１２は、送信部１３１が音声認識システム３００に音声データを送信している途中で音声認識システム３００との通信が不可能になった場合、第１セッション情報を参照して、未送信の音声データの音声に基づいて第２認識情報を生成してもよい。

【0056】

「第１セッション情報」とは、送信部１３１が音声認識システム３００に音声データを送信する際に確立したセッションに関する情報である。第１セッション情報は、例えば、送信していた音声データの各パケットや各セグメントがどこまで送信完了したかを示してもよい。第１セッション情報は、例えば、音声データの全セグメントのうち最後に送信完了したセグメントのＴＣＰヘッダのシーケンス番号やＡＣＫ番号、または最初の未送信セグメントのＴＣＰヘッダのシーケンス番号などを示してもよい。

【0057】

上記構成によれば、音声認識部１１２は、音声認識システム３００に送信途中の音声データを引き継いで、第２認識情報を生成することができる。このため上記構成によれば、音声認識部１１２は、音声認識システム３００との通信が遮断されても、円滑に精度よくユーザの音声を認識することができる。

【0058】

応答生成部１１３は、第１認識情報または第２認識情報に基づき、第１応答情報を生成する。応答生成部１１３は、例えば、自然言語処理を用いて認識情報を解析してもよい。応答生成部１１３は、この解析により、ユーザの音声に対する応答の内容を特定する。応答生成部１１３は、具体的には、図２～３に示すように、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次いで応答生成部１１３は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、（ア）議事録として記憶部１５０または記憶部２５０への認識情報の記録を開始する処理を実行、（イ）ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。

【0059】

「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容とローカル指示かリモート指示かを示すフラグとを関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記（ア）および（イ）の処理の実行とする応答の内容と、リモート指示を示すフラグと、を関連付ける。なおこのフラグにおいて、リモート指示についてローカルで代替可能か否かでさらに分けて設けてもよい。すなわち、フラグ情報は、「ローカル指示」、「リモート指示（ローカル代替可）」、「リモート指示（ローカル代替不可）」とする３種類のフラグ（例えば、「１」～「３」）のいずれかを示してもよい。

【0060】

応答生成部１１３は、送信部１３１がリモート指示の送信を取り止めた場合、リモート指示の音声に対する応答としてリモート指示を取り止めた旨の第１応答情報を生成してもよい。

【0061】

上記構成によれば、応答生成部１１３は、リモート装置４００ｂへのリモート指示を取り止めたことをユーザに応答することができる。このため上記構成によれば、応答生成部１１３は、リモート指示を取り止めたことをユーザに把握させることができる。

【0062】

応答生成部１１３は、送信部１３１がサーバ装置２００に第１認識情報または第２認識情報を送信している途中でサーバ装置２００との通信が不可能になった場合、第２セッション情報を参照して、未送信の第１認識情報または第２認識情報に基づいて第１応答情報を生成してもよい。

【0063】

「第２セッション情報」とは、送信部１３１がサーバ装置２００に第１認識情報または第２認識情報を送信する際に確立したセッションに関する情報である。第２セッション情報は、例えば、送信していた認識情報の各パケットや各セグメントがどこまで送信完了したかを示してもよい。第２セッション情報は、例えば、認識情報の全セグメントのうち最後に送信完了したセグメントのＴＣＰヘッダのシーケンス番号やＡＣＫ番号、または最初の未送信セグメントのＴＣＰヘッダのシーケンス番号を示してもよい。

【0064】

上記構成によれば、応答生成部１１３は、サーバ装置２００に送信途中の認識情報を引き継いで、第１応答情報を生成することができる。このため上記構成によれば、応答生成部１１３は、サーバ装置２００との通信が遮断されても、円滑に精度よくユーザの音声に対して応答することができる。

【0065】

識別部１１４は、第１認識情報または第２認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク外のリモート装置４００ｂに対するリモート指示を識別する。

【0066】

識別部１１４は、第１認識情報または第２認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク内のローカル装置４００ａまたは自装置に対するローカル指示を識別する。

【0067】

識別部１１４は、例えば、応答生成部１１３と同様に自然言語処理を用いて解析を行って単語を抽出してもよい。識別部１１４は、抽出した単語に基づき、応答生成部１１３と同様に辞書情報の検索・特定によりリモート指示かローカル指示かを識別してもよい。

【0068】

特定部１１５は、リモート指示における指示の実行タイミングを特定する。特定部１１５は、例えば、リモート指示に含まれる時刻または実行までの期間を表す情報に基づきリモート指示の実行タイミングを特定する。この「時刻または実行までの期間を表す情報」とは、例えば、「朝７時」や「１８：００」または「５分後」などを示す情報である。

【0069】

装置制御部１１６は、第１応答情報に基づいて、自装置の動作を制御する。装置制御部１１６は、第１応答情報に基づいて、ユーザの音声指示に対する応答が議事録の開始の場合、第２認識情報の音声の内容を議事録として記憶部１５０に記録する。

【0070】

通信部１３０は、ネットワークＮを介して、サーバ装置２００、音声認識システム３００、装置４００などとの間で各種情報・データを送受信する。通信部１３０は、送信部１３１と、受信部１３２と、を備える。

【0071】

送信部１３１は、音声認識システム３００との通信が可能な場合、音声取得部１２０により取得された音声の音声データを音声認識システム３００に送信する。

【0072】

送信部１３１は、例えば、サーバ装置２００との通信が可能な場合、第１認識情報または第２認識情報をサーバ装置２００に送信してもよい。

【0073】

送信部１３１は、例えば、判定部１１１の判定によりリモート装置４００ｂとの通信が可能な場合、リモート指示をリモート装置４００ｂに送信してもよい。他方送信部１３１は、例えば、リモート装置４００ｂとの通信が不可能な場合、リモート指示をキューイングし、その後リモート装置４００ｂとの通信が可能となった際にキューイングされたリモート指示を読み出してリモート装置４００ｂに送信してもよい。

【0074】

上記構成によれば、送信部１３１は、一時的にリモート装置４００ｂとの通信が不可能な場合でもその後通信が可能となった際にリモート指示をリモート装置４００ｂに送信することができる。

【0075】

送信部１３１は、例えば、判定部１１１の判定によりローカル装置４００ａとの通信が可能な場合、ローカル指示をローカル装置４００ａに送信してもよい。他方送信部１３１は、例えば、ローカル装置４００ａとの通信が不可能な場合、ローカル指示をキューイングし、その後ローカル装置４００ａとの通信が可能となった際にキューイングされたローカル指示を読み出してローカル装置４００ａに送信してもよい。

【0076】

送信部１３１は、例えば、特定部１１５により特定されたリモート指示の実行タイミングにおいてリモート装置４００ｂとの通信が不可能な場合、リモート装置４００ｂへのリモート指示の送信を取り止めてもよい。送信部１３１は、例えば、実行タイミングが「（音声の取得時点から）５分後」でかつこの取得時点から５分を超えてリモート装置４００ｂとの通信が不可能な場合、リモート装置４００ｂへのリモート指示の送信を取り止める。

【0077】

上記構成によれば、送信部１３１は、実行の時期を逸したリモート指示をリモート装置４００ｂに送信しないことができる。このため上記構成によれば、送信部１３１は、リモート装置４００ｂへの余計・冗長な指示の送信を抑止することができる。

【0078】

送信部１３１は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、リモート指示の実行タイミングが特定の日時および即時ではない場合、その後リモート装置との通信が可能となった際にバッチ処理時間帯にキューイングされたリモート指示を読み出してリモート装置に一括または順次送信してもよい。この「バッチ処理時間帯」とは、相対的に負荷の高い通信処理や緊急度の低い通信処理を行うための時間帯である。バッチ処理時間帯は、例えば、オンラインリアルタイム処理が少ない夜間や休日などの時間帯が設定されてもよい。またここでいう「記憶部」は、自装置の記憶部１５０であってもよいし、他の装置の記憶部であってもよい。

【0079】

上記構成によれば、送信部１３１は、特定の日時および即時ではないリモート指示に関してはバッチ処理時間帯にリモート装置４００ｂに送信することができる。このため上記構成によれば、送信部１３１は、通信が復旧した際にキューイングされたリモート指示を全量送信することなく優先度（重要度・緊急度）の高い一部の指示に限定して送信し、その後のバッチ処理時間帯に残りを回すことができる。

【0080】

送信部１３１は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、所定期間蓄積された音声データを、その後リモート装置との通信が可能となった際にバッチ処理時間帯にサーバ装置２００に送信してもよい。

【0081】

上記構成によれば、送信部１３１は、例えばオフラインで大量の議事録音声を取得したものを、サーバ２００において一括で文字起こしする場合に、他の優先する処理やユーザに対する応答に影響を与えずに処理を行うことができる。

【0082】

ここで図５を参照して、自装置に対するローカル指示・リモート装置４００ｂに対するリモート指示と、その実行・キューイングとの関係の一例を説明する。図５に示すように、対話装置１００は、自装置に対するローカル指示の実行タイミングが即時の場合、ローカル指示をキューイングすることなく即時実行してもよい。また対話装置１００は、ローカル指示の実行タイミングが特定の日時に指定または何ら指定がない場合、ローカル指示をキューイングして、指定された日時または順次キューイングから読み出して実行してもよい。

【0083】

対話装置１００は、リモート指示の実行タイミングが即時の場合、リモート指示をキューイングすることなく即時リモート装置４００ｂに送信してもよい。また対話装置１００は、リモート指示の実行タイミングが特定の日時に指定または何ら指定がない場合、リモート指示をキューイングして、指定された日時または順次キューイングから読み出してリモート装置４００ｂに送信してもよい。

【0084】

図４に戻って説明を続ける。受信部１３２は、音声認識システム３００から、送信部１３１が送信した音声データの認識結果を示す第１認識情報を受信する。

【0085】

受信部１３２は、例えば、サーバ装置２００から、第１認識情報または第２認識情報に基づき生成された第２応答情報を受信してもよい。

【0086】

音声取得部１２０は、ユーザの音声を取得する。

【0087】

出力部１４０は、第１応答情報または第２応答情報に基づき、音声に対する応答を出力する。出力部１４０の出力態様は、どのような態様でもよい。出力部１４０の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。

【0088】

上記構成によれば、出力部１４０は、サーバ装置２００や音声認識システム３００との通信が不可能な場合でも、ユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置１００を利用することができる。また上記構成によれば、出力部１４０は、自装置で生成した第１応答情報だけではなく、サーバ装置２００が生成した第２応答情報を利用することもできる。

【0089】

記憶部１５０は、音声データ、第１認識情報、第２認識情報、第１応答情報、第２応答情報、第１セッション情報、第２セッション情報、記録された議事録を示す議事録情報または設定情報などを記憶する。ここで「設定情報」とは、対話装置１００が動作するために設定されているパラメータを示す情報である。設定情報は、バッチ処理時間帯を含んでもよい。

【0090】

記憶部１５０は、データベースマネジメントシステム（ＤＢＭＳ）を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。ＤＢＭＳを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。

【0091】

図６を参照して、本実施形態に係るサーバ装置２００の機能構成を説明する。図６に示すように、サーバ装置２００は、制御部２１０と、通信部２３０と、記憶部２５０と、を備える。通信部２３０と記憶部２５０の機能は、対話装置１００の通信部１３０と記憶部１５０と同様のため説明を割愛する。

【0092】

制御部２１０は、判定部２１１と、音声認識部２１２と、応答生成部２１３と、を備える。また制御部２１０は、例えば、装置制御部２１５を備えてもよい。各機能部の機能は、対話装置１００の判定部１１１と、音声認識部１１２と、応答生成部１１３と、装置制御部１１６と同様のため説明を割愛する。

【0093】

＜４．動作例＞
図７を参照して、対話装置１００の動作例を説明する。なお、以下に示す図７の動作例の処理の順番は一例であって、適宜、変更されてもよい。

【0094】

図７に示すように、対話装置１００の音声取得部１２０は、ユーザの音声を取得する（Ｓ１０）。次いで判定部１１１は、音声認識システム３００との通信が可能か否か判定する（Ｓ１１）。

【0095】

判定部１１１の判定により音声認識システム３００との通信が可能な場合（Ｓ１２のＹｅｓ）、音声取得部１２０により取得された音声の音声データを音声認識システムに送信する（Ｓ１３）。音声認識システム３００から、この音声データの認識結果を示す第１認識情報を受信する（Ｓ１４）。

【0096】

判定部１１１の判定により音声認識システム３００との通信が不可能な場合（Ｓ１２のＮｏ）、音声認識部１１２は、音声取得部１２０により取得された音声を認識し、この認識結果を示す第２認識情報を生成する（Ｓ１５）。

【0097】

応答生成部１１３は、第１認識情報または第２認識情報に基づき、第１応答情報を生成する（Ｓ１６）。出力部１４０は、第１応答情報に基づき、ユーザの音声に対する応答を出力する（Ｓ１７）。

【0098】

＜５．ハードウェア構成＞
図８を参照して、上述してきた対話装置１００およびサーバ装置２００をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

【0099】

図８に示すように、コンピュータ８００は、プロセッサ８０１と、メモリ８０３と、記憶装置８０５と、入力Ｉ／Ｆ部８０７と、データＩ／Ｆ部８０９と、通信Ｉ／Ｆ部８１１、表示装置８１３、音声入力装置８１７および音声出力装置８１９を含む。

【0100】

プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、対話装置１００の制御部１１０やサーバ装置２００の制御部２１０が備える各機能部などは、メモリ８０３に一時記憶されたプログラムをプロセッサ８０１が実行することにより実現可能である。

【0101】

メモリ８０３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

【0102】

記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、音声データ、第１認識情報、第２認識情報、第１応答情報、第２応答情報、第１セッション情報、第２セッション情報、議事録情報または設定情報などを登録するテーブルと、このテーブルを管理するＤＢを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

【0103】

入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ８００に接続されても良い。

【0104】

データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００へと接続される。

【0105】

通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線または無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００に接続される。

【0106】

表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介してコンピュータ８００に接続される。また、入力Ｉ／Ｆ部８０７としてタッチパネルが採用される場合には、表示装置８１３は、入力Ｉ／Ｆ部８０７と一体化して構成することが可能である。

【0107】

音声入力装置８１７は、マイクなどの音声を検出するための入力装置である。音声入力装置は、例えば、音声信号を含めたアナログ振動信号を取得するマイクロフォン、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するＡ／Ｄ変換部などを備える。音声入力装置８１７は、例えば、ユーザが発する音声を検出する。

【0108】

音声出力装置８１９は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置８１９は、ヘッドフォンまたはイヤフォンに音を出力するための装置であってもよい。

【0109】

［第２実施形態］
次に、本発明の第２実施形態（以下、「本実施形態」という）について説明する。本実施形態では、本実施形態に係る対話システム１ａが（４）ユーザと遠隔にいる相手（以下、「会話相手」という）との間の音声による会話を実現する例を用いて説明するが、これに限る趣旨ではない。以下、第１実施形態と異なる点を中心に説明する。

【0110】

＜１．システム構成および概要＞
本実施形態に係る対話装置１００ａは、第１ネットワークＮ１を介して相手装置と接続されている。

【0111】

図９～１０を参照して、対話システム１ａの概要を説明する。

【0112】

図９～１０に示すように、先ず第１ネットワークＮ１において相手装置と通信可能（以下、単に「オンライン」ともいう）となっている場合、対話装置１００ａは相手装置に音声データをリアルタイムで送信する。すなわちユーザと会話相手とは、対話装置１００ａと相手装置を介してリアルタイムに通話することが可能である。このとき対話装置１００ａは、ユーザの発話データを記録しない。ここで「発話データ」とは、ユーザの音声の音声データから無音区間の少なくとも一部を除いたデータである。

【0113】

次に第１ネットワークＮ１においてオンラインから相手装置と通信不可能（以下、単に「オフライン」ともいう）となった場合、対話装置１００は、ユーザの発話データを記録する。このとき相手装置では当然にユーザの音声は出力されない。

【0114】

次に第１ネットワークＮ１においてオフラインから再びオンラインとなった場合、対話装置１００ａは、発話データを相手装置に送信する。またこのとき対話装置１００ａは、ユーザの発話データを引き続き記録する。対話装置１００ａはユーザの発話のタイミングと相手装置の発話データの再生タイミングのずれが解消されると発話データの記録を停止する。対話装置１００ａは発話データの送信が完了した後に相手装置への音声データの送信を再開する。すなわちユーザと会話相手とは、対話装置１００ａと相手装置を介してリアルタイムに通話することが再び可能となる。

【0115】

上記構成によれば、対話システム１ａは、オンラインからオフラインとなった場合に、録音した音声データのうち無音区間の全部または一部を除いたデータを相手装置に送信することができる。このため上記構成によれば、音声データから無音区間を除いて相手装置に送信することにより、オフラインになったことによるユーザの発話タイミングと相手装置の再生タイミングのずれを解消することができる。したがって上記構成によれば、ユーザと会話相手との遠隔会話の途中で、相手装置との通信が不可能となった場合でも、対話システム１ａは、通信が可能となった後に会話相手にユーザが発話した情報をスムーズに伝えることができる。

【0116】

＜２．機能構成＞
対話装置１００ａの機能構成の一例について説明する。対話装置１００ａは、第１実施形態に係る対話装置１００の音声取得部１２０、通信部１３０、出力部１４０および記憶部１５０を共通して備え、制御部１１０においては、判定部１１１を共通して備え、これらの機能部に加えて検出部と、を備える。

【0117】

判定部１１１は、相手装置との通信が可能か否か判定する。

【0118】

検出部は、音声取得部１２０により取得された音声データから発話区間と無音区間とを検出する。検出部は、例えば、この音声データを一度録音し、録音された音声データから発話区間と無音区間とを検出してもよい。この「無音区間」とは、音声データにおいて音声レベルがゼロとなる区間である。また検出部は、検出の前処理として、音声データに対してイコライザー処理やタイムアライメント処理などの各種音響処理を行ってもよい。

【0119】

記録部は、相手装置との通信が不可能な場合、発話データを記録する。記録部は、例えば、録音された音声データから発話区間のデータを抽出して発話データを生成してもよい。記録部は、この生成した発話データを記憶部１５０に記録する。

【0120】

記録部は、例えば、ユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されるまで発話データを記録してもよい。

【0121】

記録部は、例えば、相手装置との通信が不可能となった期間（以下、「オフライン期間」という）の開始から合計した無音区間の長さが、オフライン期間の長さを超えるまで（例えば、図９の時点Ｐまで）発話データを記録してもよい。また記録部は、他の例として、オフライン期間の開始から合計した無音区間の長さが、オフライン期間における合計した発話区間の長さを超えるまで（例えば、図１０の時点Ｐ’まで）発話データを記録してもよい。

【0122】

送信部１３１は、音声取得部１２０により取得された音声データを相手装置に送信する。送信部１３１は、相手装置との通信が可能となった場合相手装置に発話データを送信し、発話データの送信が完了した後に音声データの送信を再開する。

【0123】

【0124】

＜３．動作例＞
図１１を参照して、対話装置１００ａの動作例を説明する。なお、以下に示す図１１の動作例の処理の順番は一例であって、適宜、変更されてもよい。

【0125】

図１１に示すように、対話装置１００の音声取得部１２０は、ユーザの音声を取得する（Ｓ２０）。次いで判定部１１１は、相手装置との通信が可能か否か判定する（Ｓ２１）。

【0126】

判定部１１１の判定により相手装置との通信が不可能な場合（Ｓ２２のＮｏ）、記録部は発話データを記録する（Ｓ２３）。

【0127】

判定部１１１の判定により相手装置との通信が可能な場合（Ｓ２２のＹｅｓ）、かつ相手装置への発話データの送信が完了していない場合（Ｓ２４のＮｏ）、送信部１３１は発話データを送信する（Ｓ２５）。またユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されていない場合（Ｓ２６のＮｏ）、記録部は発話データを記録する（Ｓ２７）。

【0128】

判定部１１１の判定により相手装置との通信が可能な場合（Ｓ２２のＹｅｓ）、かつ相手装置への発話データの送信が完了した場合（Ｓ２４のＹｅｓ）、送信部１３１は音声データを送信する（Ｓ２８）。

【0129】

ユーザと会話相手が会話を続ける場合（Ｓ２９のＹｅｓ）、ステップＳ２０の前に戻る。

【0130】

なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。

【符号の説明】

【0131】

１、１ａ…対話システム、１００、１００ａ…対話装置、１１０…制御部、１１１…判定部、１１２…音声認識部、１１３…応答生成部、１１４…識別部、１１５…特定部、１１６…装置制御部、１２０…音声取得部、１３０…通信部、１３１…送信部、１３２…受信部、１４０…出力部、１５０…記憶部、２００…サーバ装置、２１０…制御部、２１１…判定部、２１２…音声認識部、２１３…応答生成部、２１４…識別部、２１５…装置制御部、２３０…通信部、２５０…記憶部、３００…音声認識システム、４００…装置、４００ａ…ローカル装置、４００ｂ…リモート装置、８００…コンピュータ、８０１…プロセッサ、８０３…メモリ、８０５…記憶装置、８０７…入力Ｉ／Ｆ部、８０９…データＩ／Ｆ部、８１１…通信Ｉ／Ｆ部、８１３…表示装置、８１７…音声入力装置、８１９…音声出力装置。

【図1】