(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022123220
(43)【公開日】2022-08-24
(54)【発明の名称】音声情報処理装置
(51)【国際特許分類】
G10L 15/32 20130101AFI20220817BHJP
G10L 15/30 20130101ALI20220817BHJP
【FI】
G10L15/32 220Z
G10L15/30
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021020386
(22)【出願日】2021-02-12
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.AAC
2.WINDOWS MEDIA
(71)【出願人】
【識別番号】304020498
【氏名又は名称】サクサ株式会社
(74)【代理人】
【識別番号】100091546
【弁理士】
【氏名又は名称】佐藤 正美
(74)【代理人】
【識別番号】100206379
【弁理士】
【氏名又は名称】丸山 正
(72)【発明者】
【氏名】鈴木 茂
(72)【発明者】
【氏名】水谷 肇
(72)【発明者】
【氏名】堀 啓介
(57)【要約】
【課題】 外部の音声認識エンジンを用いて音声認識を行うことにより音声情報をテキストデータに変換する場合に、意味のある情報を不正に取得され難くする。
【解決手段】 音声認識対象の音声情報を、音声情報分割部112が複数の分割音声情報に分割し、そのそれぞれに対して、順序情報付与部114が、再生順序を示す順序情報を付与する。送信制御部118は、順序情報が付与された複数の分割音声情報のそれぞれを、LANI/F101を通じて複数の音声認識部に分散して送信するようにする。受信部を通じて複数の音声認識部のそれぞれから受信した、順序情報が対応付けられている認識結果は、認識結果生成部112が順序情報に基づいて並べ替えて、音声認識対象の前記音声情報に対応する認識結果を生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音声認識対象の音声情報を分割する音声情報分割部と、
前記音声情報分割部で分割された複数の分割音声情報のそれぞれに対して、再生順序を示す順序情報を付与する順序情報付与部と、
前記順序情報が付与された複数の前記分割音声情報を、送信部を通じて複数の音声認識部に分散して送信するようにする送信制御部と、
受信部を通じて複数の前記音声認識部のそれぞれから受信した、前記順序情報が対応付けられている認識結果を、前記順序情報に基づいて並べ替えて音声認識対象の前記音声情報に対応する認識結果を復元する認識結果並べ替え部と
を備えることを特徴とする音声情報処理装置。
【請求項2】
請求項1に記載の音声情報処理装置であって、
前記順序情報が付与された前記分割音声情報をランダムに並べ替える音声情報並べ替え部を備え、
前記送信制御部は、前記音声情報並べ替え部により並べ替えられた分割音声情報を、複数の前記音声認識部に分散して送信するようにする
ことを特徴とする音声情報処理装置。
【請求項3】
請求項1または請求項2に記載の音声情報処理装置であって、
前記送信制御部は、前記順序情報が隣り合う前記分割音声情報を、同一の前記音声認識部に送信しないようにする
ことを特徴とする音声情報処理装置。
【請求項4】
請求項1、請求項2または請求項3に記載の音声情報処理装置であって、
前記音声情報分割部は、音声認識対象の前記音声情報を、話音声の存在しない無音期間を検出して複数の前記分割音声情報に分割する
ことを特徴とする音声情報処理装置。
【請求項5】
請求項1、請求項2、請求項3または請求項4のいずれかに記載の音声情報処理装置であって、
少なくとも前記順序情報は、秘匿処理されて送信/受信される
ことを特徴とする音声情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、例えば、会議の録音音声情報や電話の録音音声情報について、外部の音声認識エンジンを利用してテキストデータに変換する場合に、意味のある情報が漏洩しないようにする音声情報処理装置に関する。
【背景技術】
【0002】
音声認識については、例えば、後に記す特許文献1や特許文献2に開示されているように、クラウド上のサーバ装置に音声認識エンジンを設け、種々の利用者が共用できるようにするものが知られている。利用者は、例えば会議等の録音した音声情報を、クラウド上の音声認識エンジンが設けられたサーバ装置に送信する。当該サーバ装置では、送られてきた音声情報を自機の音声認識エンジンで音声認識してテキストデータに変換し、これを当該音声情報の送信元に返信する。これにより、利用者は、自分で音声認識エンジンを用意することなく、クラウド上に設けられた汎用的で高精度の音声認識エンジンを利用して、自分が保持する音声情報について、容易に、かつ、高精度にテキスト化することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-91954号公報
【特許文献2】特開2020-86048号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、
図10に示すように、音声情報処理装置100から音声認識エンジンを搭載したサーバ装置200に音声データを送信する経路において、ハッキング行為などにより情報が洩れる可能性がある。サーバ装置200から音声情報処理装置100にテキストデータを送信する経路についても同様である。データの伝送時においては、伝送対象のデータを暗号化することにより、秘匿性を高く伝送することも行われているが、情報の漏洩が発生する可能性は残っている。また、データについて暗号解読を行ってデータを処理するサーバ装置200に対して、いわゆるハッキング行為が行われ、情報が漏洩する可能性もある
以上のことに鑑み、この発明は、外部の音声認識エンジンを用いて音声認識を行うことにより音声情報をテキストデータに変換する場合に、伝送経路や音声認識エンジン側において、意味のある情報が漏洩しないようにすることを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するため、請求項1に記載の発明の音声情報処理装置は、
音声認識対象の音声情報を分割する音声情報分割部と、
前記音声情報分割部で分割された複数の分割音声情報のそれぞれに対して、再生順序を示す順序情報を付与する順序情報付与部と、
前記順序情報が付与された複数の前記分割音声情報を、送信部を通じて複数の音声認識部に分散して送信するようにする送信制御部と、
受信部を通じて複数の前記音声認識部のそれぞれから受信した、前記順序情報が対応付けられている認識結果を、前記順序情報に基づいて並べ替えて音声認識対象の前記音声情報に対応する認識結果を復元する認識結果並べ替え部と
を備えることを特徴とする。
【0006】
請求項1に記載の発明の音声情報処理装置によれば、音声認識対象の音声情報が、音声情報分割部で複数の分割音声情報に分割される。複数の前記分割音声情報のそれぞれに対しては、順序情報付与部により、再生順序を示す順序情報が付与される。前記順序情報が付与された複数の前記分割音声情報のそれぞれは、送信制御部により、送信部を通じて複数の音声認識部に分散して送信するようにされる。受信部を通じて複数の音声認識部のそれぞれから受信した、前記順序情報が対応付けられている認識結果は、認識結果生成部により前記順序情報に基づいて並べ替えられ、音声認識対象の前記音声情報に対応する認識結果が生成される。
【発明の効果】
【0007】
この発明によれば、音声認識対象の音声情報は、複数の分割音声情報に分割され、複数の音声認識部に分散して送信されるので、意味のある情報を不正に取得され難くすることができる。すなわち、意味のある情報が漏洩しないようにできる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態の音声情報処理装置を含む音声認識システムの構成例を説明するためのブロック図である。
【
図2】実施の形態の音声情報処理装置の構成例を説明するためのブロック図である。
【
図3】実施の形態の音声情報処理装置が、送信する送信データと受信する受信データのフォーマットの例を説明するための図である。
【
図4】実施の形態の音声情報処理装置で音声認識処理の前に実行される処理を説明するための図である。
【
図5】実施の形態の音声情報処理装置で音声認識処理の後に実行される処理を説明するための図である。
【
図6】複数の話者の音声情報がトラックを変えて録音されている音声情報を処理対象とする場合の音声認識処理の前に実行される処理を説明するための図である。されている。
【
図7】複数の話者の音声情報を処理する場合の送信データと受信データのフォーマットの例について説明するための図である。
【
図8】複数の話者の音声情報がトラックを変えて録音されている音声情報を処理対象とする場合の音声認識処理の後に実行される処理を説明するための図である。
【
図9】複数の話者の音声情報が同一トラックに録音されている音声情報を処理対象とする場合の音声認識処理の前に実行される処理を説明するための図である。
【
図10】インターネット上のサーバ装置が備える音声認識エンジンを用いて音声認識を行う場合の問題点について説明するための図である。
【発明を実施するための形態】
【0009】
以下、図を参照しながら、この発明による音声情報処理装置の実施の形態について説明する。以下に説明する実施の形態の音声情報処理装置は、音声認識エンジンを利用して音声認識を行う場合に、音声認識前の音声情報を処理すると共に、音声認識後のテキストデータを処理する機能を備えたものである。なお、音声認識エンジンは、音声情報について音声認識を行ってテキストデータを形成する機能を実現するハードウェア(装置)やソフトウェアを意味する。
【0010】
[音声認識システムの構成例]
図1は、実施の形態の音声情報処理装置1を含む音声認識システムの構成例を説明するためのブロック図である。
図1に示すように、この実施の形態の音声情報処理装置1は、LAN(Local Area Network)2に接続されている。LAN2には、音声認識エンジン3とネットワーク接続装置4とが接続されている。音声認識エンジン3は、LAN2に接続されたコンピュータ装置に搭載された機能であり、例えばソフトウェアよって実現され、音声情報処理装置1が利用可能なものである。ネットワーク接続装置4は、ルータあるいはゲートウェイなどの装置であり、広域ネットワーク5とLAN2との接続を可能にするものである。
【0011】
広域ネットワーク5は、主にはインターネットであるが、例えば、ネットワーク接続装置4などと広域ネットワーク5とを接続する種々のネットワーク、例えば、公衆交換電話網などをも含む。広域ネットワーク5に接続された音声認識エンジン6、7、8のそれぞれは、それぞれ異なるサービス主体(会社等)によって運用されているサーバ装置に搭載された機能であり、例えばソフトウェアによって実現されている。音声認識エンジン6、7、8のそれぞれは、事前に利用契約を行った複数の利用者によって、広域ネットワーク5を通じて利用可能なものである。なお、
図1においては、3の音声認識エンジン6、7、8を示したが、実際にはさらに多くの音声認識エンジンが存在している場合もある。
【0012】
音声認識を行ってテキストデータを生成する必要がある場合には、例えば、音声情報処理装置1が音声認識エンジンを備えたり、
図1に示したように、音声情報処理装置1が専用に利用する音声認識エンジン3を備えたりすることが考えられる。しかし、独自に音声認識エンジンを用意するには、手間や費用が掛かる。近年においては、会議音声のテキスト化やコールセンターの担当者と顧客との通話音声のテキスト化など、音声認識サービスを利用したいとするニーズが高くなってきている。このため、高精度かつ高速に音声認識を行うサービスを、契約者に対して提供する複数の音声認識エンジン6、7、8、…等がインターネット上に設けられるようになってきている。
【0013】
このため、音声情報処理装置1は、LAN2に接続された音声認識エンジン3の他にも、広域ネットワーク5上に設けられている音声認識エンジン6、7、8、…についても利用して音声認識を行う。すなわち、音声情報処理装置1は、LAN2及びネットワーク接続装置4を通じて広域ネットワーク5に接続し、音声認識エンジン6、7、8、…にアクセスして、これらの提供する音声認識サービスを利用できるものである。
【0014】
しかし、音声情報処理装置1と音声認識エンジン6、7、8、…とを接続する伝送経路や音声認識エンジン6、7、8、…自体が攻撃されて、情報の漏洩が生じる可能性がある。そこで、音声情報処理装置1は、外部(広域ネットワーク5上)の音声認識エンジンを用いて音声認識を行うことにより音声情報をテキストデータに変換する場合に、意味のある情報が漏洩し難くなるようにしている。以下に、この実施の形態の音声情報処理装置1の構成及び動作について詳細に説明する。
【0015】
[音声情報処理装置1の構成例]
図2は、実施の形態の音声情報処理装置1の構成例を説明するためのブロック図である。また、
図3は、実施の形態の音声情報処理装置1が、送信する送信データと受信する受信データのフォーマットの例を説明するための図である。
【0016】
図2において、接続端子101Tは、LAN2への接続端部を構成する。LANI/F101は、LAN2を通じて送信されてくる自機宛てのデータを自機において処理可能な形式に変換して取り込んだり、また、自機から送信するデータを送信用の形式に変換して送信したりする。制御部102は、図示しないが、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリなどがバスを通じて接続されて形成されたマイクロプロセッサであり、音声情報処理装置1の各部を制御する。
【0017】
記憶装置103は、例えば、SSD(Solid State Drive)などの記録媒体とそのドライバとからなる装置部であり、種々のデータの記録媒体への記録、読み出し、変更、削除などを行う。記憶装置103は、必要となるデータやプログラムを記憶保持する他、種々の処理において生じる中間データを一時記憶する作業領域としても用いられる。
【0018】
音声情報ファイル111は、音声認識対象の音声データ(デジタルデータ)を記憶保持する。当該音声データは、例えば図示しない磁気記録媒体などに録音された音声認識対象のアナログ音声情報を、A/D(Analog/digital)変換して形成されたものである。この実施の形態の音声情報処理装置1は、音声認識対象がアナログ音声信号の場合には、A/D変換して処理対象とすることができるものである。
【0019】
すなわち、音声情報処理装置1は、音声データ(デジタルデータ)だけでなく、音声情報全般について処理対象とすることができるものである。従って、この明細書においては、音声信号(アナログデータ)と音声データ(デジタルデータ)を含めて、処理対象の音声全般を音声情報と呼ぶこととする。なお、以下の説明において、音声情報処理装置1では、A/D変換されて形成された音声データ(デジタルデータ)が処理の対象となっている。
【0020】
音声情報ファイル111には、WAV、AIFF、MP3、WMA、AACなどの種々のフォーマットで表現された音声データ(デジタルデータ)を記録することが可能である。なお、WAVは「RIFF waveform Audio Format」の略称であり、AIFFは「Audio Interchange File Format」の略称である。また、MP3は「MPEG-1 Audio Layer-3」の略称であり、WMAは「Windows Media Audio」の略称であり、AACは「Advanced Audio Coding」の略称である。
【0021】
また、WAVやAIFFの非圧縮フォーマットで表現された音声データはそのまま処理の対象とすることができるが、MP3、WMA、AACなどの圧縮フォーマットで表現された音声データは、圧縮解凍後の音声データが処理の対象になる。このように、音声情報ファイル111には、音声認識対象のアナログ音声信号がA/D変換され、種々のフォーマット形式で表現された音声データ(波形データ)が記憶保持される。
【0022】
音声情報分割部112は、音声情報ファイル111に記憶保持されている音声データについて、例えば、VAD(Voice Activity Detection)技術を用いて分割処理することにより形成した分割音声データを、分割音声情報ファイル113に記録する。従って、分割音声情報ファイル113は、音声情報分割部112により分割されて形成された音声認識対象の分割音声データを記憶保持する。なお、VAD技術は、音声と雑音が含まれる信号から音声(話音声)が存在する区間とそれ以外の区間とを判別する技術であり、簡単に言えば、文の区切りや言いよどみなどの音声が途切れた部分(無音期間)で音声を分割することができる技術である。
【0023】
順序情報付与部114は、分割音声情報ファイル113に記憶保持されている分割音声データのそれぞれに、再生順序を示す順序情報を付与し、付与した順序情報を分割音声データに対応付けて、順序情報付与後ファイル115に記録する。従って、順序情報付与後ファイル115は、付与された順序情報が対応付けられた分割音声データを記憶保持する。順序情報は、音声認識対象の分割音声データについて、バラバラに並べ替えても、元の順序(順番)に復元するための付加情報であり、音声認識対象の分割前の一連の音声情報における各分割音声データの位置を示すものである。
【0024】
なお、順序情報としては、初期値として例えば「1」から1ずつカウントアップされる番号(連続番号)や当該番号と同様に順序を示すことが可能なアルファベットや50音などの並び順が決まった情報などを用いることができる。また、番号と並び順が決まった情報との組み合わせなど、分割音声情報が、音声認識の対象の元の一連の音声情報において、どの位置の(どの部分の)分割音声データであるのかを示すことが可能な種々の情報を用いることができる。
【0025】
音声情報並べ替え部116は、順序情報付与後ファイル115に記憶保持されている順序情報が対応付けられた分割音声データを、ランダムに並び替えて、並び替え後ファイルに記録する。従って、並べ替え後ファイル117は、順序がランダムに並べ替えられた分割音声データ(順序情報が対応付けられているもの)を記憶保持する。
【0026】
送信制御部118は、並べ替え後ファイル117に記憶保持されているランダムに並べ替えられた分割音声情報を含む送信データを形成し、これを複数の音声認識エンジンに分散して送信するように制御する。送信制御部118は、例えば、
図3(A)に示すように、送信先ID、送信元ID、順序情報、分割音声データからなる送信データを順次に形成し、複数の音声認識エンジンに分散して送信するようにする。
【0027】
図3(A)に示した送信データにおいて、分割音声データは、音声情報分割部112により分割された音声認識対象の音声データの一部分であり、順序情報は、上述したように、順序情報付与部114により当該分割音声データに付与されたものである。送信先IDは、送信先となる音声認識エンジンが搭載されたサーバ装置に割り当てられているIPアドレスであり、送信元IDは、当該音声情報処理装置1に割り当てられているIPアドレスである。送信先IDを変えることにより、複数の音声認識エンジンに分割音声データを分散して送信できる。送信先IDや送信元IDなどの必要情報は、例えば、制御部102の不揮発性メモリに予め登録されているものが用いられる。
【0028】
なお、送信データ(
図3(A))は、LANI/F101及び接続端子101Tを通じてLAN2に送出され、LAN2からネットワーク接続装置4を介して広域ネットワーク5に送出されて、目的とする音声認識エンジンに送信されることになる。このようにして、音声認識対象のひとまとまりの音声データは、例えばVAD技術が用いられて、複数の分割音声データに分割され、順序情報が付与されて、ランダムに並べ替えられ、順序情報と共に、複数の音声認識エンジンに分散して送信される。
【0029】
このようにして、複数の音声認識エンジンに対して、
図3(A)に示した送信データの態様で分割音声データが分散して送信されると、複数の音声認識エンジンにおいて音声認識により変換されたテキストデータが、音声情報処理装置1に返信されてくる。当該テキストデータは、例えば、
図3(B)に示すように、送信先ID、送信元ID、順序情報、テキストデータからなり、音声情報処理装置1が受信する受信データとなる。
【0030】
図3(B)に示した受信データにおいて、送信先IDは、分割音声データの送信元である音声情報処理装置1に割り当てられているIPアドレスである。また、送信元IDは、当該受信データ(テキストデータ)の送信元の音声認識エンジンが搭載されたサーバ装置に割り当てられているIPアドレスである。順序情報は、
図3(A)に示した送信データの順序情報に対応するものであり、対応する分割音声データを音声認識して得られたテキストデータを元の順序(順番)に並び替える(復元する)ための付加情報である。テキストデータは、音声情報処理装置1から送信された分割音声データについて音声認識を行って得られたものである。すなわち、テキストデータは、音声情報処理装置1から送信された分割音声データに対応するものである。
【0031】
各音声認識エンジンから送信された音声情報処理装置1宛のテキストデータ(
図3(B)に示した受信データ)は、広域ネットワーク5、ネットワーク接続装置4、LAN2を介して音声情報処理装置1に提供される。音声情報処理装置1は、複数の音声認識エンジンからの受信データ(
図3(B))を接続端子101T及びLANI/F101を通じて受信して、制御部102の制御の下、受信認識結果ファイル121に記録する。従って、受信認識結果ファイル121は、複数の音声認識エンジンからの受信データを記憶保持する。この受信データには、
図3(B)に示したように、音声認識の結果得られた分割音声データに対応するテキストデータが含まれる。
【0032】
認識結果並べ替え部122は、受信認識結果ファイル121に記憶保持されている受信データ(
図3(B))のテキストデータを、これに付加されている順序情報に従って並べ替えて、音声認識対象の元の音声情報に対応する一連のテキストデータを復元する。復元された一連のテキストデータは、認識結果復元ファイル123に記録する。すなわち、認識結果復元ファイル123は、音声認識対象の一連の音声情報を音声認識することにより得られた一連のテキストデータを記憶保持する。
【0033】
このように、この実施の形態の音声情報処理装置1は、音声認識対象の音声情報を、複数の音声認識エンジンを用いて音声認識を行ってテキストデータに変換し、当該音声認識対象の音声情報に対応する一連のテキストデータを得ることができるものである。音声情報の分割、順序情報の付与、順序のランダム化、配分(分散配分)といった処理を通じて、複数の音声認識エンジンを利用し、伝送路や音声認識エンジンが悪意ある攻撃を受けても、意味のある情報が漏洩することがないようにしている。
【0034】
なお、音声情報処理装置1において、音声情報ファイル111、分割音声情報ファイル113、順序情報付与後ファイル115、並べ替え後ファイル117、受信認識結果ファイル121、認識結果復元ファイル123は、所定の記録媒体に形成される。すなわち、これらのファイルは、SSD(Solid State Drive)などの記録媒体とそのドライバとからなる装置部に形成されるものである。これらのファイルは、それぞれが異なる記録媒体に形成されていてもよいし、2以上のファイルが、同じ記録媒体に形成されていてよい。
【0035】
[音声情報処理装置1で行われる処理の詳細]
次に、
図2、
図3を用いて説明した音声情報処理装置1において行われる処理について、音声認識処理の前に実行される処理と、音声認識処理の後に実行される処理とに分けて、具体的に説明する。なお、以下においては説明を簡単にするため、用いる複数の音声認識エンジンは、広域ネットワーク5上に設けられている音声認識エンジン6、7、8である場合を例にして説明する。
【0036】
<音声認識処理の前に実行される処理>
図4は、実施の形態の音声情報処理装置で音声認識処理の前に実行される処理を説明するための図である。
図4の上端側に示したように、音声情報ファイル111には、「サクサの鈴木です。」から始まり、「日時の連絡をお願いいたします。」で終わる一連の音声情報をA/D変換した音声データが用意されているものとする。この場合に、音声情報分割部112が機能し、音声情報分割処理を実行し(ステップS1)、分割音声データを形成して、これを分割音声情報ファイル113に記録する。これにより、この例の場合には、音声情報ファイル111に記憶保持されている一連の音声データが、5つの分割音声データに分割され、分割音声情報ファイル113に記憶保持される。
【0037】
次に、順序情報付与部114が機能する。順序情報付与部114は、この例の場合、分割音声情報ファイル113に記憶保持されている5つの分割音声データに対して順序情報を付与し、各分割音声データに対して、付与した順序情報を対応付けて順序情報付与後ファイルに記録する(ステップS2)。順序情報は、上述もしたように、音声認識対象の分割音声データについて、バラバラに並べ替えても、元の順序(順番)に復元するための付加情報であり、音声認識対象の分割前の一連の音声情報における各分割音声データの位置を示すものである。この例において、順序情報は、「1」から1ずつカウントアップされる番号(連続番号)が用いられる。
【0038】
これにより、順序情報付与後ファイル115には、
図4に示すように、分割音声データのそれぞれに、音声認識対象の分割前の一連の音声情報における位置に応じて、1~5の連続番号が対応付けられて記憶保持される。この後、音声情報並べ替え部116が機能し、順序情報付与後ファイル115の分割音声データをランダムに並べ替えた後に、送信制御部118が機能して、並べ替え後の分割音声データを音声認識エンジン6、7、8に分散して送信する(ステップS3)。
【0039】
具体的に音声情報並べ替え部116は、
図4において1~5の順序情報が付与されて順序情報付与後ファイル115に記憶保持されている分割音声データを、ランダムに並べ替えるようにして、並べ替え後ファイル117に記録する。ここでは、順序情報が付与された分割音声データが、「4」→「3」→「1」→「5」→「2」の順番に並べ替えられて、並べ替え後ファイル117に記録されたとする。
【0040】
この後、送信制御部118が機能し、
図4に示すように、順序情報が「4」の分割音声データは、音声認識エンジン6に送信する。また、順序情報が「3」と「1」の分割音声データは、音声認識エンジン7に送信する。また、順序情報が「5」と「2」の分割音声データは、音声認識エンジン8送信する。このように、音声認識対象の一連の音声情報は、分割されてバラバラに複数の音声認識エンジンに送信される。これにより、その伝送経路や各音声認識エンジンが攻撃されて、分割音声データが読み取られても、認識できるのは音声認識対象の一連の音声情報の一部分であるので、重要な情報を含む音声情報の全部の漏洩を防止できる。
【0041】
<音声認識処理の後に実行される処理>
図5は、実施の形態の音声情報処理装置1で音声認識処理の後に実行される処理を説明するための図である。すなわち、
図4を用いて説明した音声認識処理の前に行われる処理の後において、
図5に示す処理が行われることになる。
図4を用いて説明した処理により、音声認識エンジン6、7、8のそれぞれに順序情報が付与された分割音声データが送信されると、音声認識エンジン6、7、8のそれぞれでは音声認識を行ってテキストデータを形成し、これを返信する。当該テキストデータは、分割音声データに対応する順序情報が付加されている。
【0042】
従って、
図5に示すように、順序情報が「4」の分割音声データが送信された音声認識エンジン6からは、これが音声認識されて得られたテキストデータに順序情報「4」が付加されて返信されてくる。また、順序情報が「3」と「1」の分割音声データが送信された音声認識エンジン7からは、これらが音声認識されて得られたテキストデータであって、順序情報「3」が付加されたテキストデータと、順序情報「1」が付加されたテキストデータが返信されてくる。また、順序情報が「5」と「2」の分割音声データが送信された音声認識エンジン8からは、これらが音声認識されて得られたテキストデータであって、順序情報「5」が付加されたテキストデータと、順序情報「2」が付加されたテキストデータが返信されてくる。
【0043】
受信認識結果ファイル121には、
図5に示すように、音声認識エンジン6、7、8のそれぞれからの受信データ(音声認識の結果得られたテキストデータ)が記憶保持される。音声認識エンジン6、7、8のそれぞれから、送信した分割音声データ(送信データ)に応じたテキストデータ(受信データ)を受信して、受信認識結果ファイル121に格納し終えると、認識結果並べ替え部122が機能する。認識結果並べ替え部122は、受信認識結果ファイル121に記憶保持されている受信データのテキストデータを、受信データの順序情報に基づいて並べ替え、一連のテキストデータを形成し、これを認識結果復元ファイル123に記録する(ステップS11)。
【0044】
これにより、
図5に示すように、認識結果復元ファイル123には、
図4に示した音声情報ファイル111に用意された音声認識対象の音声情報をA/D変換した一連の音声データに対応する一連のテキストデータが記憶保持される。すなわち、音声情報ファイル111には、音声認識対象の音声データが記憶保持される。一方、認識結果復元ファイル123には、音声情報ファイル111に記憶保持された音声データを音声認識することにより得られたテキストデータが記憶保持される。
【0045】
このように、複数の音声認識エンジンのそれぞれから音声認識の結果得られたテキストデータが返信される。このため、テキストデータの返信経路において、攻撃が加えられて、テキストデータが読み取られても、認識できるのは全体の一部分であるので、重要な情報を含むテキストデータの全部の漏洩を防止できる。
【0046】
[複数話者の音声情報の音声認識]
音声認識の対象になる音声情報は、単独話者によるものだけではない。話者2人による通話音声、複数人が参加した会議の録音音声など、2人以上の話者の音声情報が混在した音声情報が、音声認識の対象となる場合がある。この発明は、2人以上の話者の音声情報が混在した音声情報の音声認識を行う場合にも適用が可能である。なお、2人以上の話者の音声情報が混在した音声情報には、例えば、話者ごとにトラック(記憶領域)を変えて記録(録音)するようにしたものや複数話者の音声信号が同じトラックに記録(録音)するようにしたものがある。以下においては、そのそれぞれの場合について説明する。
【0047】
<複数の話者の音声情報がトラックを変えて録音されている場合>
<音声認識前の処理>
図6は、複数の話者の音声情報がトラックを変えて録音されている音声情報を処理対象とする場合の音声認識処理の前に実行される処理を説明するための図である。また、
図7は、複数の話者の音声情報を処理する場合の送信データと受信データのフォーマットの例について説明するための図である。
【0048】
例えば、通話録音音声や会議録音音声といった音声情報が、音声情報ファイル111に記憶保持されているとする。この場合、音声情報ファイル111には、複数の話者の音声データ(音声情報がA/D変換されたもの)がトラックを変えて録音されているものとする。以下においては説明を簡単にするため、例えば、話者A、B、Cの三者による会議の録音音声を音声認識する場合を例にして説明する。
【0049】
この場合、話者ごとに音声データの音声認識を行うため、音声情報処理装置1にトラック分離部131を設ける。トラック分離部131は、音声情報ファイル111において、トラックを分けて記録されている各話者A、B、Cの音声データを、話者別音声情報ファイル111(1)、111(2)、111(3)に分離する(ステップS0)。この後は、話者ごとの音声情報ファイル111(1)、111(2)、111(3)のそれぞれについて、
図4を用いて説明した音声認識前の処理を行うことになる。
【0050】
すなわち、話者A、B、Cごとに設けられた音声情報ファイル111(1)、111(2)、111(3)のそれぞれに記憶保持されている音声データについて、音声情報分割部112が機能して、音声情報分割処理を行う(ステップS1A)。これにより、話者ごとの音声データを分割した分割音声データを記憶保持する分割音声情報ファイル113(1)、113(2)、113(3)が形成される。
【0051】
次に、話者A、B、Cごとに設けられた分割音声情報ファイル113(1)、113(2)、113(3)のそれぞれに記憶保持されている分割音声データについて、順序情報付与部114が機能して順序情報を付与する処理を実行する(ステップS2A)。これにより、話者ごとの分割音声データに対して順序情報が対応付けられた情報を記憶保持する順序情報付与後ファイル115(1)、115(2)、115(3)が形成される。
【0052】
この後、順序情報付与後ファイル115(1)、115(2)、115(3)のそれぞれに記憶保持されている順序情報が対応付けられた分割音声データについて、ランダムに並べ替えて、複数の音声認識エンジンに配分する処理を実行する(ステップS3A)。このステップS3Aの処理は、音声情報並べ替え部116と送信制御部118が機能する。
【0053】
まず、音声情報並べ替え部116が機能して、話者A、B、Cごとに設けられた順序情報付与後ファイル115(1)、115(2)、115(3)のそれぞれに記憶保持されている順序情報が対応付けられた分割音声データについてランダムに並べ替える処理を行う。これにより、話者A、B、Cごとに設けられた並べ替え後ファイル117(1)、117(2)、117(3)に並べ替えられた分割音声データ(順序情報が対応付けられたもの)が記憶保持される。
【0054】
次に、送信制御部118が機能して、並べ替え後ファイル117(1)、117(2)、117(3)の順序情報が対応付けられた分割音声データを含む送信データを形成して、音声認識エンジン6、7、8に分散して送信する。これにより、話者A、B、Cごとの音声データのそれぞれが、分割されて、順序情報が付与され、ランダムに並べ替えられた後に、音声認識エンジン6、7、8に分散して送信される。従って、複数話者の音声情報を音声認識する場合であっても、音声認識エンジンへの送信過程において、また、音声認識エンジンにおいて、攻撃を受けて分割音声データが漏洩したとしても、意味のある情報が漏洩することがないようにできる。
【0055】
なお、送信制御部118によって形成される送信データは、例えば、
図7(A)に示すフォーマットのものとなる。基本的には、
図3(A)に示した送信データと同様のものであるが、話者を区別するための話者IDと、各分割音声データの開始時刻とが新たに付加されたものである。なお、この実施の形態において、受信データの開始時刻は、録音の開始時点を基準(スタート時点)とする相対時刻(開始時点からの経過時間)である。また、開始時刻を、録音の開始時刻からの絶対時刻として表現することも可能である。しかし、この場合には録音の開始時において、時計回路から開始時刻(絶対時刻)を取得しておく必要がある。
【0056】
<音声認識後の処理>
図8は、複数の話者の音声情報がトラックを変えて録音されている音声情報を処理対象とする場合の音声認識処理の後に実行される処理を説明するための図である。
図8を用いて説明する処理は、
図6を用いて説明した音声認識の前に行われる処理の後において、音声認識エンジン6、7、8のそれぞれで音声認識が行われた後に行われるものであり、基本的は、
図5を用いて説明した処理と同様に行われる。
【0057】
音声認識エンジン6、7、8からの音声認識の結果得られたテキストデータは、
図7(B)に示したフォーマットのものとなる。基本的には
図3(B)に示した受信データと同様のものであるが、
図7(A)の送信データに対応して、話者IDと開始時刻とを備えたものである。すなわち、音声認識エンジン6、7、8からの受信データ(
図7(B))には、送信データ(
図7(A))に対応して話者IDが付加されている。このため、音声情報処理装置1においては、話者ごとに設けられる受信認識結果ファイル121(1)、121(2)、121(3)に、受信データを振り分けて格納することができる。
【0058】
次に、認識結果並べ替え部122が機能し、話者A、B、Cごとの受信認識結果ファイル121(1)、121(2)、121(3)ごとの受信データのテキストデータを、対応付けられている順序情報に基づいて並べ替える(ステップS11A)。このようにして並べ変えたテキストデータを、話者A、B、C別に設けられた認識結果復元ファイル123(1)、123(2)、123(3)に記録する。これにより、話者A、B、Cごとに、音声認識対象の一連の音声情報に対応する一連のテキストデータが得られる。
図5を用いて説明した処理の場合には、ここまでで処理は終了する。
【0059】
しかし、会議の録音音声のように、複数話者の音声情報を処理対象とする場合には、各話者の発言を関連付けて確認できるようにしないと、会議の全体の内容(録音音声の全体の内容)を把握できない。そこで、話者A、B、C別に設けられた認識結果復元ファイル123(1)、123(2)、123(3)に記憶保持されるテキストデータには、話者IDと開始時刻とを付加しておく。また、音声情報処理装置1には、テキストデータ結合部132を設ける。
【0060】
テキストデータ結合部132は、話者A、B、Cごとに設けられている認識結果復元ファイル123(1)、123(2)、123(3)に記憶保持されているテキストデータを、各テキストデータに付加されている開始時刻に基づき並べる。この際に、どの話者の音声情報に応じたテキストデータなのかを把握できるようにする。つまり、テキストデータごとに話者を区別できるようにする。例えば、テキストデータを話者に応じて色分けしたり、話者IDにより特定される話者の名称(氏名、愛称、ニックネーム)などをテキストデータの前、あるいは、後に表示できるようにしたりする。
【0061】
このように、各話者の発言に応じたテキストデータが、発言のタイミングに応じて並べ替えられたテキストデータが、認識結果復元結合ファイル124に記録される。この認識結果復元結合ファイル124に記録されテキストデータは、会議の録音音声を音声認識して得られたテキストデータである場合には、当該会議の議事録となる。また、通話の録音音声の場合には、2者(話者2人)による通話記録を形成することができる。このように、複数話者の音声情報を音声認識した結果のテキストデータの返信過程においても、攻撃を受けて分割音声データが漏洩したとしても、意味のある情報が漏洩することがないようにできる。
【0062】
<複数の話者の音声情報が同一トラックに録音されている場合>
図9は、複数の話者の音声情報が同一トラックに録音されている音声情報を処理対象とする場合の音声認識処理の前に実行される処理を説明するための図である。例えば、通話音声を録音する場合、自機からの送信音声と、相手先からの受信音声とを別々のトラックに記録するのではなく、両者を同一トラックに記録する場合が多い。また、会議の音声を録音する場合にも、会議の参加者ごとにマイクロホンを設けることなく、例えば、1本のマイクロホンにより会議中の音声を収音して記録する場合も多い。このような場合には、1つのトラックに記録されている複数話者の音声を分離して抽出すればよい。
【0063】
例えば、通話録音音声や会議録音音声といった音声情報が、音声情報ファイル111に記憶保持されているとする。この場合、音声情報ファイル111には、複数の話者の音声データ(音声情報がA/D変換されたもの)が1つのトラックに録音されているものとする。ここでも説明を簡単にするため、例えば、話者A、B、Cの三者による会議の録音音声を音声認識する場合を例にして説明する。
【0064】
この場合、話者ごとに音声データの音声認識を行うため、音声情報処理装置1に話者音声分離部133を設ける。話者音声分離部133は、音声情報ファイル111において、同一トラックに記録されている各話者A、B、Cの音声データを、例えば周波数分析の手法あるいはその他の手法を用いて分離抽出する。この分離抽出した話者A、B、Cごとの音声データを、話者別音声情報ファイル111(1)、111(2)、111(3)に分けて記録する(ステップS0A)。この後の処理は、
図6を用いて説明したステップS1A、ステップS2A、ステップS3Aと同様の処理が行われる。
【0065】
これにより、
図6を用いて説明した処理と同様に、話者A、B、Cごとの音声データのそれぞれが、分割されて、順序情報が付与され、ランダムに並べ替えられた後に、音声認識エンジン6、7、8に分散して送信される。従って、複数話者の音声情報を音声認識する場合であっても、音声認識エンジンへの送信過程において、また、音声認識エンジンにおいて、攻撃を受けて分割音声データが漏洩したとしても、意味のある情報が漏洩することがないようにできる。
【0066】
また、
図9を用いて音声認識エンジン6、7、8に話者ごとの分割音声データを送信して音声認識を行い、その返信データとしてのテキストデータを受信して行う音声認識された後の処理は、
図8を用いて説明した処理と同様に処理が行われる。従って、複数の話者の音声情報が同一トラックに記録されている場合であっても、話者ごとの音声データを分離抽出した後においては、テキストデータの返信過程において攻撃を受けても、意味のある情報が漏洩することがないようにできる。
【0067】
[実施の形態の効果]
上述した実施の形態の音声情報処理装置によれば、外部の音声認識エンジンを用いて音声認識を行うことにより音声情報をテキストデータに変換する場合に、意味のある情報を不正に取得され難くすることができる。この場合、1人の話者が口述した音声情報の音声認識を行う場合であっても、2人以上の話者の音声情報を含む複数話者音声情報の音声認識を行う場合であっても、全体の音声情報の内容が漏洩しないようにできる。これにより、外部の音声認識エンジンを活用して、音声認識を安心して行うことが可能になる。
【0068】
また、複数の音声認識エンジンを用いることにより、音声認識エンジンにかかる負荷を分散し、高精度の音声認識を迅速に行うことができるようになる。また、複数の音声認識エンジンを用いることにより、各音声認識エンジンが有する癖の影響を受け難くすることができる。
【0069】
[変形例]
なお、上述した実施の形態の音声情報処理装置1では、順序情報が付与された分割音声データを、音声情報並べ替え部116がランダムに並べ替えた後に、送信制御部118が複数の音声認識エンジンに分散して送信するようにした。しかし、これに限るものではない。必ずしもランダムに並べ変える必要はなく、順序情報が付与された分割音声データを、複数の音声認識エンジンに対して分散して送信するようにしても、意味のある情報を漏洩し難くすることができる。この場合、送信制御部118は、順序情報が隣り合う(連続する)分割音声データが、同じ音声認識エンジンに送信されないように制御する。
【0070】
もちろん、順序情報が付与された分割音声データを、音声情報並べ替え部116がランダムに並べ替えた後に、送信制御部118が複数の音声認識エンジンに分散して送信するようにすることによって、意味のある情報の漏洩をより確実に防止できる。この場合においても、送信制御部118は、順序情報が隣り合う(連続する)分割音声データが、同じ音声認識エンジンに送信されないように制御する。
【0071】
また、用いる音声認識エンジンの数は、基本的には多い方がよいが、2以上の音声認識エンジンを用いるようにすれば、意味のある情報の漏洩の防止に効果がある。また、用いる複数の音声認識エンジンの1つとして、例えばLAN2に接続された音声認識エンジン3を用いるようにしてももちろんよい。このように、伝送経路においても、また、音声認識エンジン自体も攻撃されにくいものを混在させることによって、意味のある情報の漏洩を効果的に防止することができる。
【0072】
また、仮に利用可能な音声認識エンジンが外部の1つだけである状況になることも考えられる。このような場合であっても、順序情報が付与された分割音声データを、音声情報並べ替え部116がランダムに並べ替えた後に、当該1つの音声認識エンジンに送信する構成をとることにより、意味ある情報の漏洩を防止すること可能である。しかし、用いる音声認識エンジンは、複数のサーバ装置に構成された複数の音声認識エンジンを用いることが望ましい。
【0073】
また、音声情報処理装置1が、異なる複数のキャリア(電話会社)が適用する伝送路を使用できる場合には、キャリアの異なる伝送路を用いて音声認識エンジンとの間で情報の送受を行うようにしてもよい。すなわち、音声情報処理装置1にキャリアの異なる伝送路の選択手段を設けるようにする。これにより、意味のある情報の漏洩の防止に役立てると共に、1のキャリアが提供する伝送路に障害が生じた場合に、他のキャリアの伝送路を使用することが可能になり、音声認識処理の遅延を防止できる。
【0074】
また、上述した実施の形態では、音声認識をする音声データが、音声情報ファイルに全て格納されているものとして説明した。すなわち、音声認識処理は、いわゆるバッチ処理で行うようにした。音声認識対象の音声データが一定以上ないと、効果的に音声データを分割して分割音声データを形成し、複数の音声認識エンジンに分散させることができないためである。しかし、これに限るものではない。
【0075】
例えば、音声情報ファイルを複数用意し、会議音声や通話音声を5分間分ずつ異なる音声情報ファイルに蓄積するようにし、5分間分の音声データが蓄積されたら、その5分間分の音声データについて音声認識を実行するというようにしてもよい。すなわち、5分間分の音声データごとに随時に音声認識を行う随時処理を行う場合にも、この発明を適用できる。このようにすれば、意味のある情報の漏洩を防止することができると共に、迅速に音声データのテキスト化を行うことができる。なお、音声データを蓄積する時間は短いと意味のある情報の漏洩につながるため、音声データを蓄積する時間はある程度長い方がよい。
【0076】
また、音声データの分割は、上述した実施の形態ではVAD技術を用いるものとして説明したが、これに限るものではない。音声データを分割可能な種々の技術(方法)を用いることが可能である。音声データの分割は、VAD技術のように、言いよどみや文の区切りで分割可能な技術を用いることにより、音声認識をより確実に行うことが可能になる。しかし、音声認識対象の音声データを、例えば、時間単位やデータ量単位で分割するようにしてもよい。この場合には、音声認識エンジンは、より発話音声に忠実に音声認識を行うことができるものを選ぶ。音声情報処理装置1においては、例えば、認識結果並べ替え部122においてのテキストデータの並べ替え処理時に、テキストデータの連結部分につき、前後の単語より、より適した単語に変更するようにしてもよい。
【0077】
また、送信データや受信データについては、暗号化処理して送受信してももちろんよい。特に、順序情報は、意味のある情報を復元するための重要な情報であるので、少なくとも順序情報は、種々の暗号化方式により暗号化処理するなど、簡単には読み取れないようにする秘匿処理を行って送受信することが望ましい。また、送信データや受信データにおける順序情報の記録位置を、所定の決まりに基づいて変えるようにしてもよい。すなわち、順序情報の秘匿処理は、種々の方法を用いることができる。このような処理は、例えば、送信制御部118や制御部102により行うことができる。もちろん、音声情報処理装置1に秘匿処理部や秘匿解除部を設けてもよい。
【0078】
また、音声情報分割部112、順序情報付与部114、音声情報並べ替え部116、送信制御部118、認識結果並べ替え部122の各機能は、制御部102で実行されるプログラムにより、制御部102の機能として実現することも可能である。また、音声情報ファイル111、分割音声情報ファイル113、順序情報付与後ファイル115、並べ替え後ファイル117、受信認識結果ファイル121、認識結果復元ファイル123を、記憶装置103に形成してもよい。特に、分割音声情報ファイル113、順序情報付与後ファイル115、並べ替え後ファイル117は、中間データを保持するものであるため、記憶装置103の作業領域に形成してもよい。
【符号の説明】
【0079】
1…音声情報処理装置、101T…接続端子、101…LANI/F、102…制御部、103…記憶装置、111…音声情報ファイル、112…音声情報分割部、113…分割音声情報ファイル、114…順序情報付与部、115…順序情報付与後ファイル、116…音声情報並べ替え部、117…並べ替え後ファイル、118…送信制御部、121…受信認識結果ファイル、122…認識結果並べ替え部、123…認識結果復元ファイル、2…LAN、3…音声認識エンジン、4…ネットワーク接続装置、5…広域ネットワーク、6…音声認識エンジン、7…音声認識エンジン、8…音声認識エンジン