(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-13
(45)【発行日】2024-06-21
(54)【発明の名称】情報処理装置、プログラム、および情報処理方法
(51)【国際特許分類】
G10L 15/28 20130101AFI20240614BHJP
G10L 15/30 20130101ALI20240614BHJP
G10L 15/00 20130101ALI20240614BHJP
G10L 15/32 20130101ALI20240614BHJP
G10L 15/04 20130101ALI20240614BHJP
G10L 15/10 20060101ALI20240614BHJP
G10L 17/00 20130101ALI20240614BHJP
G06F 3/16 20060101ALI20240614BHJP
【FI】
G10L15/28 353
G10L15/30
G10L15/00 200A
G10L15/32 220Z
G10L15/04 300Z
G10L15/10 500T
G10L17/00 200Z
G06F3/16 650
(21)【出願番号】P 2020101355
(22)【出願日】2020-06-11
【審査請求日】2023-04-17
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】福江 尚史
(72)【発明者】
【氏名】小西 啓介
(72)【発明者】
【氏名】織田村 明雄
【審査官】大野 弘
(56)【参考文献】
【文献】特開2018-138987(JP,A)
【文献】特開2008-107624(JP,A)
【文献】特開2016-180914(JP,A)
【文献】特開2013-072904(JP,A)
【文献】特開2013-088477(JP,A)
【文献】特開2018-173515(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 15/30
G10L 15/00
G10L 15/32
G10L 15/04
G10L 15/10
G10L 17/00
G06F 3/16
G06F 13/00
(57)【特許請求の範囲】
【請求項1】
音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置であって、
発話者の音声の音声データを取得する音声取得部と、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成する生成部と、
前記音声データに基づき、前記取得された音声を認識する音声認識部と、
前記複数の音声認識システムまたは前記音声認識部に音声認識処理を振り分けるために、複数の条件のうち前記発話データが一致する条件のポイントを合計し、合計したポイント数に応じて前記複数の音声認識システムおよび前記音声認識部のいずれかに振り分けるかの優先順位を決定し、前記決定された優先順位に基づいて、前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システム
および前記音声認識部のいずれかに
振り分けて送信する送信部と、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第1認識情報と前記インデックス情報とを受信する受信部と、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第1認識情報を、前記順序で結合する結合部と、を備え、
前記音声認識部は、前記決定された優先順位に基づいて、前記発話データに基づき音声を認識し、認識結果を示す第2認識情報を生成し、
前記結合された第1認識情報
または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成部と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力部と、を備える、
情報処理装置。
【請求項2】
前記生成部は、
前記取得された音声の音声データから発話区間と無音区間とを検出する検出部と、
前記音声データを、前記発話区間ごとの前記発話データに分割する分割部と、を備える、
請求項1に記載の情報処理装置。
【請求項3】
前記送信部は、前記発話データの長さ、前記発話データの音量、前記情報処理装置と前記発話者との距離、前記音声認識システムごとの利用時間、または前記音声認識システムごとの利用料の少なくとも一つに基づき、送信先の音声認識システムを特定する、
請求項1または2に記載の情報処理装置。
【請求項4】
前記情報処理装置は、
前記音声の認識結果に基づき前記音声に対して応答するための第2応答情報を生成するサーバ装置と前記ネットワークを介して接続し、
前記第2認識情報に秘匿対象の秘匿情報が含まれるか否かを判定する判定部、をさらに備え、
前記第2認識情報に秘匿情報が含まれる場合、前記応答生成部は、前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成し、
前記第2認識情報に秘匿情報が含まれない場合、前記送信部は、前記第2認識情報を前記サーバ装置に送信し、
前記受信部は、前記サーバ装置から、前記第2認識情報に基づき生成された前記第2応答情報を受信する、
前記出力部は、
前記第1応答情報、または前記受信した第2応答情報に基づき、前記音声に対する応答を出力する、
請求項1から3のいずれか一項に記載の情報処理装置。
【請求項5】
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかにおける複数のアカウントを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかとの複数のセッションを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項1から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記送信部は、前記発話データおよび前記インデックス情報を前記複数の音声認識システムのいずれかに送信する際に、前記複数の音声認識システムのいずれかにおける複数のアカウントと複数のセッションとを用いて、前記発話データおよび前記インデックス情報を送信する、
請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
前記音声取得部は、複数の発話者による音声の音声データを取得し、
前記情報処理装置は、前記取得された音声データから前記発話者を識別する識別部をさらに備え、
前記生成部は、前記識別された発話者ごとに前記発話データを生成し、
前記送信部は、前記複数の発話者における前記発話データを混在させて、前記インデックス情報と共に前記複数の音声認識システムのいずれかに送信する、
請求項1から7のいずれか一項に記載の情報処理装置。
【請求項9】
音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置に、
発話者の音声の音声データを取得する音声機能と、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成する生成機能と、
前記音声データに基づき、前記取得された音声を認識する音声認識機能と、
前記複数の音声認識システムまたは前記音声認識機能に音声認識処理を振り分けるために、複数の条件のうち前記発話データが一致する条件のポイントを合計し、合計したポイント数に応じて前記複数の音声認識システムおよび前記音声認識機能のいずれかに振り分けるかの優先順位を決定し、前記決定された優先順位に基づいて、前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システム
および前記音声認識機能のいずれかに
振り分けて送信する送信機能と、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第1認識情報と前記インデックス情報とを受信する受信機能と、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第1認識情報を、前記順序で結合する結合機能と、
を実現させ、
前記音声認識機能は、前記決定された優先順位に基づいて、前記発話データに基づき音声を認識し、認識結果を示す第2認識情報を生成し、
前記結合された第1認識情報
または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成機能と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力機能と、を実現させる、
プログラム。
【請求項10】
音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置が、
発話者の音声の音声データを取得し、
前記音声データから、前記音声データの複数の区間に対応する複数の発話データを生成し、
前記複数の音声認識システムまたは前記情報処理装置の音声認識部に音声認識処理を振り分けるために、複数の条件のうち前記発話データが一致する条件のポイントを合計し、
前記合計したポイント数に応じて前記複数の音声認識システムおよび前期音声認識部のいずれかに振り分けるかの優先順位を決定し、前記決定された優先順位に基づいて、前記複数の発話データのそれぞれを、前記複数の区間における順序を示すインデックス情報と共に、前記複数の音声認識システム
および前記音声認識部のいずれかに
振り分けて送信し、
前記複数の音声認識システムから、前記複数の発話データのそれぞれについて、前記発話データの認識結果を示す第1認識情報と前記インデックス情報とを受信し、
前記インデックス情報に基づき、前記複数の音声認識システムから受信した複数の前記第1認識情報を、前記順序で結合し、
前記決定された優先順位に基づいて、前記発話データに基づき音声を認識し、認識結果を示す第2認識情報を生成し、
前記結合された第1認識情報
または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成し、
前記第1応答情報に基づき、前記音声に対する応答を出力する、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム、および情報処理方法に関する。
【背景技術】
【0002】
従来、発話者の音声を取得し、取得した音声に応答して様々な操作をする装置、いわゆるスマートスピーカーの技術が知られている。
【0003】
下記特許文献1に開示されているスマートスピーカーでは、発話者の音声を示す音声情報を入力して、ネットワークを介して接続される音声出力装置にこの音声情報を送信する。音声出力装置は受信した音声情報に基づいて音声を認識し、認識結果に基づいて発話者の音声に対して発話するための発話データを生成する。音声出力装置がこの発話データをスマートスピーカーに送信して、スマートスピーカーは発話データに基づいて音声を出力する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで近年、スマートスピーカーに対する情報セキュリティのニーズが高まりつつある。しかしながら、特許文献1のスマートスピーカーでは、音声を認識させるためにネットワークを介して発話者の音声情報を音声出力装置に送信する際にこの通信が傍受されてしまうと、発話者が発話した内容が第三者に一通り把握されてしまう可能性がある。
【0006】
そこで、本発明は、音声を認識する装置との通信に関して、機密性を向上できる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理装置は、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置であって、発話者の音声の音声データを取得する音声取得部と、音声データから、音声データの複数の区間に対応する複数の発話データを生成する生成部と、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信する送信部と、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第1認識情報とインデックス情報とを受信する受信部と、インデックス情報に基づき、複数の音声認識システムから受信した複数の第1認識情報を、順序で結合する結合部と、結合された第1認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成部と、第1応答情報に基づき、音声に対する応答を出力する出力部と、を備える。
【0008】
本発明の一態様に係るプログラムは、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置に、発話者の音声の音声データを取得する音声機能と、音声データから、音声データの複数の区間に対応する複数の発話データを生成する生成機能と、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信する送信機能と、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第1認識情報とインデックス情報とを受信する受信機能と、インデックス情報に基づき、複数の音声認識システムから受信した複数の第1認識情報を、順序で結合する結合機能と、結合された第1認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成機能と、第1応答情報に基づき、音声に対する応答を出力する出力機能と、を実現させる。
【0009】
本発明の一態様に係る情報処理方法は、音声を認識する複数の音声認識システムとネットワークを介して接続する情報処理装置が、発話者の音声の音声データを取得し、音声データから、音声データの複数の区間に対応する複数の発話データを生成し、複数の発話データのそれぞれを、複数の区間における順序を示すインデックス情報と共に、複数の音声認識システムのいずれかに送信し、複数の音声認識システムから、複数の発話データのそれぞれについて、発話データの認識結果を示す第1認識情報とインデックス情報とを受信し、インデックス情報に基づき、複数の音声認識システムから受信した複数の第1認識情報を、順序で結合し、結合された第1認識情報に基づき、音声に対して応答するための第1応答情報を生成し、第1応答情報に基づき、音声に対する応答を出力する。
【0010】
上記の態様によれば、情報処理装置は、発話者の音声データから複数の発話データを生成し、生成した発話データを複数の音声認識システムに分散させることができる。このため情報処理装置は、仮にいずれかの音声認識システムとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。
【発明の効果】
【0011】
本発明によれば、声を認識する装置との通信に関して、機密性を向上できる情報処理装置、プログラム、および情報処理方法を提供することができる。
【図面の簡単な説明】
【0012】
【
図1】本実施形態に係る対話システムのシステム構成例を説明するための図である。
【
図2】本実施形態に係る対話システムの概要を説明するための図である。
【
図3】本実施形態に係る対話システムの概要を説明するための図である。
【
図4】本実施形態に係る対話装置の機能構成の一例を示す図である。
【
図5】本実施形態に係る音声認識システムに対する振り分け処理の一例を説明する図である。
【
図6】本実施形態に係る音声認識処理の振り分け先を特定するためのマトリクス表の一例を説明する図である。
【
図7】本実施形態に係る音声認識システムに対する振り分け処理の一例を説明する図である。
【
図8】本実施形態に係るサーバ装置の機能構成の一例を示す図である。
【
図9】本実施形態に係る対話装置の動作例を示す図である。
【
図10】本実施形態に係る対話装置の動作例を示す図である。
【
図11】本実施形態に係る対話装置およびサーバ装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0013】
添付図面を参照して、本発明の好適な実施形態(以下、「本実施形態」という)について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。
【0014】
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。
【0015】
本実施形態に係る対話システム1は、例えば、(1)発話者と対話する、(2)発話者の音声(以下、単に「音声」ともいう)を議事録に記録する、(3)発話者の音声指示により家電などの装置の動作を制御する、などの機能を備える。
【0016】
<1.システム構成>
図1を参照して、対話システム1のシステム構成例を説明する。対話システム1は、発話者の音声に応じて動作するシステムである。対話システム1は、上記(1)~(3)の機能をユーザに提供する。なお、このユーザは、対話装置100または対話装置100の周辺にいる別のユーザに対して発話する発話者(以下、単に「発話者」ともいう)を含む。
【0017】
図1に示すように、対話システム1は、対話装置100と、サーバ装置200と、を含む。対話装置100とサーバ装置200は、ネットワークN1を介して接続されている。また対話システム1は、ネットワークN1を介して音声認識システム300と接続さている。
【0018】
ネットワークN1は、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、PHS(Personal Handy-phone System)網、無線LAN(Local Area Network)、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)、WiMax(登録商標)、赤外線通信、Bluetooth(登録商標)、有線LAN、電話線、電灯線ネットワーク、IEEE1394等に準拠したネットワークがある。
【0019】
対話装置100は、サーバ装置200や音声認識システム300との通信が可能な情報処理装置である。対話装置100は、発話者の音声を取得して、取得した音声に対話などで応答する、いわゆるスマートスピーカーである。対話装置100は、例えば、汎用のタブレット端末やスマートフォンなどであってもよい。また、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末を対話装置100として使用してもよい。
【0020】
サーバ装置200は、対話装置100との通信や議事録の管理が可能な情報処理装置である。サーバ装置200は、所定のプログラムを実行することにより、対話装置100と連携して、ユーザの音声に対する応答や議事録の新規登録、変更並びに削除(以下、これらの処理をまとめて「更新」ともいう)し、またはこれらの履歴を管理するサーバ機能を実現する。
【0021】
音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cは、対話装置100やサーバ装置200と通信の通信が可能なシステムである。なお、音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cは、特に区別の必要がない場合、総称して「音声認識システム300」という。複数の音声認識システム300は、対話装置100またはサーバ装置200から受信した発話者の音声を示す音声データ(以下、単に「音声データ」ともいう)に基づいて発話者の音声をそれぞれ認識する。
【0022】
図1には図示していないが、対話装置100および/またはサーバ装置200は、例えば、ネットワークN1を介して、発話者の音声指示に応じて対話装置100などにより動作を制御される装置と接続されていてもよい。
【0023】
<2.システム概要>
図2~3を参照して、対話システム1の概要を説明する。
【0024】
まず
図2を参照して、複数の音声認識システムに音声認識処理を分散させる場面について説明する。(1)
図2に示すように、対話装置100の音声取得部120は、発話者の音声「議事録を開始」を取得する。(2)生成部111は、音声取得部120により取得された音声の音声データから、この音声データの複数の区間に対応する複数の発話データを生成する。
【0025】
通信部130は、複数の発話データのそれぞれを、複数の区間における順序(以下、単に「順序」ともいう)を示すインデックス情報と共に、複数の音声認識システム300のいずれかに送信する。本例では、通信部130は、音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cそれぞれに発話データとインデックス情報とを送信するものとする。インデックス情報の詳細は、後述する。
【0026】
(4)通信部130は、音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cそれぞれから第1認識情報とインデックス情報とを受信する。
【0027】
「第1認識情報」とは、音声認識システム300による音声データの認識結果を示す情報である。第1認識情報は、例えば、音声の内容(「議事録開始」)をテキストで表したものでもよい。なお第1認識情報と後述の第2認識情報とは、いずれも発話者の音声を認識した結果を示す情報であるため、特に区別の必要がなければ以下総称して「認識情報」という。
【0028】
(5)結合部112は、通信部130が受信したインデックス情報に基づき、音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cそれぞれから受信した複数の第1認識情報を、インデックス情報に示された順序で結合する。
【0029】
(6)応答生成部113は、結合部112により結合された第1認識情報に基づき、発話者の音声に対して応答するための第1応答情報を生成する。
【0030】
「第1応答情報」とは、応答生成部113による発話者の音声に対して応答するための情報である。第1応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表してもよく、またこの内容を出力するための音声データのファイルであってもよい。なお第1応答情報と後述の第2応答情報とは、いずれも発話者の音声に対する応答の内容を示す情報であるため、特に区別の必要がなければ以下総称して「応答情報」という。
【0031】
出力部140は、第1応答情報に基づき、発話者の音声に対する応答を出力する。
【0032】
上記構成によれば、対話装置100は、発話者の音声データから複数の発話データを生成し、生成した発話データを音声認識システムA300a、音声認識システムB300b、および音声認識システムC300cに分散させることができる。このため対話装置100は、仮に音声システム300aとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。
【0033】
次に
図3を参照して、秘匿情報の有無に応じて、対話装置100内部と外部のサーバ装置200とに応答情報の生成処理を振り分ける場面について説明する。秘匿情報については、後述する。
【0034】
(1)
図3に示すように、対話装置100の音声取得部120は、発話者の音声「議事録を開始」を取得する。(2)音声認識部114は、音声データに基づき、音声取得部120により取得された音声を認識し、第2認識情報を生成する。
【0035】
「第2認識情報」とは、対話装置100の音声認識部114による音声データの認識結果を示す情報である。第2認識情報は、例えば、音声の内容(「議事録を開始」)をテキストで表してもよい。
【0036】
(3)対話装置100の判定部115は、音声認識部114により生成された第2認識情報に秘匿情報が含まれるか否かを判定する。
【0037】
「秘匿情報」とは、秘匿対象の情報である。秘匿情報は、例えば、発話者の個人情報を含んでもよい。また「個人情報」とは、例えば、氏名、生年月日、性別、住所、電話番号、個人番号またはメールアドレス等を含んでもよい。秘匿情報は、例えば、特定のキーワード(例えば、「氏名」「住所」「秘匿」または「秘密」等)であってもよい。
【0038】
(4)判定部115により第2認識情報に秘匿情報が含まれると判定された場合、対話装置100の応答生成部113は、第2認識情報に基づき、音声に対して応答するための第1応答情報を生成する。
【0039】
(5)判定部115により第2認識情報に秘匿情報が含まれないと判定された場合、対話装置100の通信部130は、第2認識情報をサーバ装置200に送信する。サーバ装置200の通信部230は、対話装置100から第2認識情報を受信する。
【0040】
(6)サーバ装置200の応答生成部213は、第2認識情報に基づき第2応答情報を生成する。
【0041】
「第2応答情報」とは、サーバ装置200が生成する、発話者の音声に対して応答するための情報である。第2応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表したものでもよく、またこの内容を出力するための音声のデータであってもよい。
【0042】
(7)サーバ装置200の通信部230は、第2応答情報を対話装置100に送信する。対話装置100の通信部130は、サーバ装置200から、第2応答情報を受信する。
【0043】
(8)出力部140は、第1応答情報、またはサーバ装置200から受信した第2応答情報に基づき、発話者の音声に対する応答を出力する。
【0044】
上記構成によれば、対話装置100は、認識情報における秘匿対象の情報の有無に応じて、内部で応答情報の生成処理をするか、もしくは外部のサーバ装置200で応答情報の生成処理をさせるかを振り分けることができる。このため上記構成によれば、対話装置100は、音声の内容の秘匿性に応じて応答情報の生成処理を振り分けることができ、かつ発話した内容の一定の機密性を確保することができる。
【0045】
<3.機能構成>
<3-1.対話装置>
図4を参照して、本実施形態に係る対話装置100の機能構成を説明する。
図4に示すように、対話装置100は、通信部130と、制御部110と、音声取得部120と、出力部140と、入力部150と、記憶部160と、を備える。
【0046】
制御部110は、生成部111と、結合部112と、応答生成部113と、を備える。また制御部110は、例えば、音声認識部114、判定部115または識別部116を備えてもよい。
【0047】
生成部111は、音声データから、音声データの複数の区間に対応する複数の発話データを生成する。この音声データの単位は、例えば、所定期間ごと、入力部150により入力された音声データの入力開始/終了のユーザの操作ごと、または発話者ごととしてもよい。生成部111は、音声データの単位を発話者ごととする場合、後述の識別部116により識別された発話者ごととしてもよい。
【0048】
ここで「区間」は、例えば、音声データ(デジタル信号)において音声レベルがゼロまたは所定の閾値以下となる無音区間と、音声レベルがゼロより大きいまたは所定の閾値を超える発話区間(有音区間)と、を含んでもよい。また区間は、他の例として、所定期間ごとに区切られた範囲であってもよい。
【0049】
生成部111は、例えば、複数の発話データそれぞれにインデックス情報を付与してもよい。ここで「インデックス情報」とは、複数の区間における順序を示す情報である。
【0050】
生成部111は、例えば、検出部1111と、分割部1112と、を備えてもよい。
【0051】
検出部1111は、取得された音声の音声データから発話区間と無音区間とを検出する。
【0052】
分割部1112は、音声データを、発話区間ごとの発話データに分割する。分割部1112は、例えば、識別部116により識別された発話者ごとに発話データを生成してもよい。
【0053】
上記構成によれば、生成部111は、無音区間を境目にして、かつ無音区間を取り除いて、発話区間ごとの発話データに音声データを分割することができる。このため上記構成によれば、生成部111は、精度よく複数の発話データを生成することができる。
【0054】
ここで
図5を参照して、生成部111における音声データの分割の例について説明する。
図5に示すように、生成部111は、複数の発話者A~Cにおいて、発話者ごとの音声データA~Cを発話区間ごとの発話データ(例えば、音声データAであれば、発話データ「今から始めます」と発話データ「今日の議題は〇〇です。」)に分割する。
【0055】
生成部111は、分割した発話データにインデックス情報(Index)を付与する。生成部111は、例えば、発話データ「今から始めます」であれば、「1-1」とするコードを付与してもよい。このコードにおいて、前の1桁の番号(「1」)は分割元の音声データを特定するための番号、後ろの1桁の番号(「1」)は分割元の音声データにおける順序を示す番号となっている。なお本例では、分割元の音声データにおける絶対的な順序を付与する例を説明したが、相対的な順序、すなわち各発話データにおいて先行する発話データおよび/または後続する発話データを特定するための番号を付与してもよい。
【0056】
図4に戻って説明を続ける。結合部112は、複数の音声認識システムから受信した複数の第1認識情報を、インデックス情報に基づく順序で結合する。
【0057】
応答生成部113は、第1認識情報に基づき、第1応答情報を生成する。応答生成部113は、例えば、自然言語処理を用いて認識情報を解析してもよい。応答生成部113は、この解析により、発話者の音声に対する応答の内容を特定する。
【0058】
応答生成部113は、具体的には、
図2~3に示すように、発話者の音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次いで応答生成部113は、抽出したこれらの単語の組み合わせを検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、(ア)認識情報を議事録として記憶部160に記録する処理の実行、(イ)発話者に「議事録を開始します」とする音声を出力する処理の実行、である。
【0059】
「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容とを関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記(ア)および(イ)の処理の実行とする応答の内容と、を関連付ける。
【0060】
応答生成部113は、例えば、第2認識情報に秘匿情報が含まれる場合、第2認識情報に基づき、発話者の音声に対して応答するための第1応答情報を生成してもよい。
【0061】
上記構成によれば、応答生成部113は、音声の内容の秘匿性に応じて応答情報の生成処理を行うことができる。
【0062】
音声認識部114は、音声取得部120により取得された発話者の音声を認識する。音声認識部114は、この認識の結果を示す第2認識情報を生成する。音声認識部114は、例えば、音声取得部120が取得した音声データを音声認識技術によりテキスト情報に変換する。この変換したテキスト情報が、第2認識情報に相当する。
【0063】
音声認識部114は、例えば、音声取得部120により取得された発話者の音声データに基づき、対話装置100(後述の音声入力装置817のマイクロフォン)と発話者との距離を推定してもよい。
【0064】
判定部115は、第2認識情報に秘匿対象の秘匿情報が含まれるか否かを判定する。
【0065】
判定部115は、例えば、自然言語処理を用いて、第2認識情報を解析してもよい。判定部115は、この解析により、秘匿情報が含まれるか否かを特定してもよい。具体的には、判定部115は、第2認識情報に含まれる「住所は、東京都〇〇です。」を形態素解析して「住所」、「東京都」および「〇〇」という単語を抽出する。そして取得部153は、抽出した「住所」という単語に基づいて、秘匿情報(個人情報である「住所」)が含まれると判定する。
【0066】
識別部116は、音声取得部120により取得された音声データから発話者を識別する。識別部116は、例えば、音声解析により、音声データから発話者を識別してもよい。また識別部116は、他の例として、入力部150により入力された発話者の切り替えに基づき、発話者を識別してもよい。
【0067】
制御部110は、例えば、第1応答情報または第2応答情報に基づいて、自装置または他の装置の動作を制御してもよい。
【0068】
制御部110は、例えば、第1応答情報または第2応答情報に基づいて、発話者の音声の指示に対する応答が議事録の開始の場合、第1認識情報または第2認識情報の音声の内容を議事録として記録部160に記録してもよい。また制御部110は、例えば、送信部131を介して、他の装置に特定の動作を指示するメッセージを送信してもよい。
【0069】
音声取得部120は、発話者の音声を取得する。また音声取得部120は、例えば、複数の発話者による音声の音声データを取得してもよい。
【0070】
通信部130は、ネットワークN1を介して、サーバ装置200、音声認識システム300などとの間で各種情報・データを送受信する。通信部130は、送信部131と、受信部132と、を備える。
【0071】
送信部131は、複数の発話データのそれぞれを、インデックス情報と共に、複数の音声認識システムのいずれかに送信する。
【0072】
上記構成によれば、対話装置100は、発話者の音声データから複数の発話データを生成し、生成した発話データを複数の音声認識システムに分散させることができる。このため対話装置100は、仮に複数の音声認識システムのうちいずれかの音声システムとの通信が傍受されても音声データの一部の発話データしか盗聴されないため、発話者が発話した内容の一定の機密性を確保することができる。
【0073】
送信部131は、例えば、発話データの長さ、発話データの音量、対話装置100と発話者との距離、音声認識システム300ごとの利用時間、または音声認識システム300ごとの利用料の少なくとも一つに基づき、送信先の音声認識システムを特定してもよい。
【0074】
ここで、
図6を参照して、複数の音声認識システムまたは音声認識部114に対する音声認識処理の振り分け方法の一例を説明する。送信部131は、この方法で決定した振り分け先を、送信先の音声認識システム300として特定してもよい。
【0075】
図6に示すように、送信部131は、例えば、No.1:特定のキーワード(例えば、秘匿情報)の有無、No.2~4:発話データの長さ、No.5~6:発話データの音量、No.7~8:対話装置100と発話者との距離のうち、一致する項目のポイントを合計し、合計したポイント数の高い順にどの音声認識システム300または内蔵の音声認識部114のいずれに振り分けるかの優先順位を決定してもよい。ポイントは、例えば、◎:10ポイント、〇:5ポイント、△:1ポイント、×:0ポイントと設定してもよい。
【0076】
送信部131は、例えば、上記の合計したポイント数に加えて、音声認識システム300ごとの利用時間と単位時間当たりの利用料とに基づき算出した合計利用料に応じてポイントを加算してもよい。加算するポイントは、例えば、利用する音声認識システム300のうち最も高い合計利用料においては+5ポイント、また利用する音声認識システム300のうち最も低い合計利用料においては-5ポイント加算してもよい。
【0077】
送信部131は、例えば、音声認識システム300のうち利用上限(例えば、ひと月当たりの音声認識のリクエスト数、または一日当たりの利用時間等)が設けられているものについて、利用上限に既に達している場合は、振り分け先から除外してもよい。
【0078】
上記構成によれば、送信部131は、発話データや音声認識システム300の特性などに応じて、音声認識処理の振り分け先を特定することができる。このため上記構成によれば、送信部131は、音声認識処理の振り分け先、すなわち送信先の音声認識システム300を精度よく特定することができる。
【0079】
図4に戻って説明を続ける。送信部131は、例えば、第2認識情報に秘匿情報が含まれない場合、送信部131は、第2認識情報をサーバ装置200に送信してもよい。
【0080】
上記構成によれば、送信部131は、音声の内容の秘匿性に応じて応答情報の生成処理をサーバ装置200に振り分けることができる。
【0081】
送信部131は、発話データおよびインデックス情報を複数の音声認識システム300のいずれかに送信する際に、複数の音声認識システム300のいずれかにおける複数のアカウントを用いて、発話データおよびインデックス情報を送信してもよい。
【0082】
送信部131は、例えば、発話データおよびインデックス情報を複数の音声認識システム300のいずれかに送信する際に、複数の音声認識システム300のいずれかとの複数のセッションを用いて、発話データおよびインデックス情報を送信してもよい。
【0083】
送信部131は、例えば、発話データおよびインデックス情報を複数の音声認識システム300のいずれかに送信する際に、複数の音声認識システム300のいずれかにおける複数のアカウントと複数のセッションとを用いて、発話データおよびインデックス情報を送信してもよい。送信部131は、例えば、複数の発話者における発話データを混在させて、インデックス情報と共に複数の音声認識システム300、複数のアカウントのいずれかおよび複数のセッションのいずれかの組み合わせに送信してもよい。
【0084】
送信部131は、例えば、発話データおよびインデックス情報を複数の音声認識システム300のいずれかに送信する際に、複数の音声認識システム300のいずれかにおけるさらに複数のチャンネルを用いて、発話データおよびインデックス情報を送信してもよい。
【0085】
送信部131は、例えば、複数のセッションのうち採用するセッションを乱数などによりランダムに選択してもよい。また送信部131は、例えば、複数のチャンネルのうち採用するチャンネルを乱数などによりランダムに選択してもよい。
【0086】
送信部131は、例えば、複数の発話者における発話データを混在させて、インデックス情報と共に複数の音声認識システム300のいずれかに送信してもよい。
【0087】
ここで
図5および
図7を参照して、複数の音声認識システム300、複数のアカウント、複数のセッション、および複数のチャンネルを用いて、発話データおよびインデックス情報を複数の音声認識システム300送信する処理の例を説明する。
【0088】
図5に示すように、送信部131は、生成部111により分割された発話データとそのインデックス情報とを混在(スクランブル・ミックス)させて、音声認識システム300に送信するメッセージを生成する。送信部131は、例えば、発話データ1-1、2-1、3-1を混在させて送信メッセージAを生成する。また送信部131は、例えば、発話データ1-2より送信メッセージBを生成する。
【0089】
図7に示すように、送信部131は、例えば、音声認識システムAにおける(ア)複数アカウントのうちアカウントaaaを選択し、(イ)アカウントaaaに対する複数セッションのうちセッション1を選択し、(ウ)セッション1の複数チャネルのうちチャンネルAを選択し、選択したアカウント、セッションおよびチャンネルを用いて送信メッセージAを送信する。
【0090】
送信部131は、例えば、音声認識システムAにおける(ア)複数アカウントのうちアカウントbbbを選択し、(イ)アカウントbbbに対する複数セッションのうちセッションnを選択し、(ウ)セッション1の複数チャネルのうちチャンネルCを選択し、選択したアカウント、セッションおよびチャンネルを用いて送信メッセージBを送信する。
【0091】
上記構成によれば、送信部131は、複数の音声認識システム300、複数のアカウント、複数のセッション、複数のチャンネルに発話データを分散させて送信することができる。このため上記構成によれば、発話データの音声認識処理における機密性を向上させることができる。
【0092】
上記構成によれば、送信部131は、上記のように発話データを分散させて送信する際に、発話データを混在させることができる。このため上記構成によれば、発話データの音声認識処理における機密性をさらに向上させることができる。
【0093】
受信部132は、複数の音声認識システムから、送信部131が送信した複数の発話データのそれぞれについて、第1認識情報とインデックス情報とを受信する。
【0094】
受信部132は、例えば、サーバ装置200から、第2認識情報に基づき生成された第2応答情報を受信する。
【0095】
出力部140は、第1応答情報または第2応答情報に基づき、音声に対する応答を出力する。出力部140の出力態様は、どのような態様でもよい。出力部140の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。
【0096】
入力部150は、例えば、発話者の切り替えを入力してもよい。入力部150の入力態様はどのような態様でもよい。入力部150の入力態様は、例えば、画面出力、(対話装置100に設けられたスイッチ装置(不図示)などに対する)操作入力などが考えられる。入力部150は、例えば、音声データの入力開始/終了のユーザの操作を入力してもよい。
【0097】
記憶部160は、音声データ、発話データ、第1認識情報、第2認識情報、第1応答情報、または第2応答情報などを記憶する。記憶部160は、データベースマネジメントシステム(DBMS)を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。
【0098】
<3-2.サーバ装置>
図8を参照して、本実施形態に係るサーバ装置200の機能構成を説明する。
図8に示すように、サーバ装置200は、制御部210と、通信部230と、記憶部250と、を備える。通信部230と記憶部250の機能は、それぞれ対話装置100の通信部130と記憶部160と同様のため説明を割愛する。
【0099】
制御部210は、生成部211、結合部212、応答生成部213、判定部214、識別部215を備えてもよい。応答生成部213以外の各部の機能は、それぞれ対話装置100の生成部111と、結合部112と、判定部115と、識別部116と同様のため説明を割愛する。
【0100】
応答生成部213は、対話装置100から受信した第2認識情報に基づき第2応答情報を生成する。
【0101】
<4.動作例>
図9および
図10を参照して、対話装置100の動作例を説明する。なお、以下に示す
図7の動作例の処理の順番は一例であって、適宜、変更されてもよい。
図9は、複数の音声認識システム300に音声認識処理を分散させる場面の対話装置100の動作例を示すフロー図である。
図10は、秘匿情報の有無に応じて、対話装置100内部と外部のサーバ装置200とに応答情報の生成処理を振り分ける場面の動作例を示すフロー図である。
【0102】
図9に示すように、対話装置100の音声取得部120は、発話者の音声を取得する(S10)。
【0103】
検出部1111は、音声取得部120により取得された音声の音声データから発話区間と無音区間とを検出する(S11)。次いで分割部1112は、音声データを、発話区間ごとの発話データに分割する(S12)。
【0104】
送信部131は、複数の発話データそれぞれの送信先の音声認識システム300を特定する(S13)。送信部131は、分割部1112により分割された複数の発話データのそれぞれを、インデックス情報と共に、送信先に特定した音声認識システム300のそれぞれに送信する(S14)。
【0105】
受信部132は、複数の音声認識システム300から、送信部131が送信した複数の発話データのそれぞれについて、第1認識情報とインデックス情報とを受信する(S15)。
【0106】
結合部112は、インデックス情報に基づき、複数の音声認識システム300から受信部132が受信した複数の第1認識情報を、インデックス情報に基づく順序で結合する(S16)。
【0107】
応答生成部113は、結合部112により結合された第1認識情報に基づき、第1応答情報を生成する(S17)。
【0108】
出力部140は、応答生成部113第1応答情報に基づき、発話者の音声に対する応答を出力する(S18)。
【0109】
図10に示すように、対話装置100の音声取得部120は、発話者の音声の音声データを取得する(S20)。音声認識部114は、音声データに基づき、音声取得部120により取得された音声を認識し、認識結果を示す第2認識情報を生成する(S21)。
【0110】
判定部115は、第2認識情報に秘匿情報が含まれるか否かを判定する(S22)。
【0111】
第2認識情報に秘匿情報が含まれる場合(S23のYes)、応答生成部113は、第2認識情報に基づき、第1応答情報を生成する(S24)。
【0112】
第2認識情報に秘匿情報が含まれない場合、送信部131は、第2認識情報をサーバ装置200に送信する(S25)。受信部132は、サーバ装置200から、第2認識情報に基づき生成された第2応答情報を受信する(S26)。
【0113】
出力部140は、第1応答情報またはサーバ装置200から受信した第2応答情報に基づき、発話者の音声に対する応答を出力する(S27)。
【0114】
<5.ハードウェア構成>
図11を参照して、上述してきた対話装置100およびサーバ装置200をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
【0115】
図11に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、表示装置813、音声入力装置817および音声出力装置819を含む。
【0116】
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、対話装置100の制御部110やサーバ装置200の制御部210が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
【0117】
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0118】
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、発話データ、第1認識情報、第2認識情報、第1応答情報、または第2応答情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
【0119】
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
【0120】
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
【0121】
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
【0122】
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
【0123】
音声入力装置817は、マイクなどの音声を取得するための入力装置である。音声入力装置は、例えば、音声信号を含めたアナログ振動信号を取得するマイクロフォン部、アナログ振動信号を増幅するアンプ部、アナログ振動信号をデジタル信号に変換するA/D変換部などを備える。音声入力装置817は、例えば、発話者が発する音声を検出して取得する。
【0124】
音声出力装置819は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置819は、ヘッドフォンまたはイヤフォンに音を出力するための装置であってもよい。
【0125】
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。
【符号の説明】
【0126】
1、1a…対話システム、100…対話装置、110…制御部、111…生成部、1111…検出部、1112…分割部、112…結合部、113…応答生成部、114…音声認識部、115…判定部、116…識別部、130…通信部、131…送信部、132…受信部、140…出力部、150…入力部、160…記憶部、200…サーバ装置、210…制御部、211…生成部、2111…検出部、2112…分割部、212…結合部、213…応答生成部、214…判定部、215…識別部、230…通信部、250…記憶部、300…音声認識システム、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。