特許第6894874号(P6894874)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6894874発話保護装置、発話保護方法、及びプログラム
<>
  • 特許6894874-発話保護装置、発話保護方法、及びプログラム 図000005
  • 特許6894874-発話保護装置、発話保護方法、及びプログラム 図000006
  • 特許6894874-発話保護装置、発話保護方法、及びプログラム 図000007
  • 特許6894874-発話保護装置、発話保護方法、及びプログラム 図000008
  • 特許6894874-発話保護装置、発話保護方法、及びプログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6894874
(24)【登録日】2021年6月8日
(45)【発行日】2021年6月30日
(54)【発明の名称】発話保護装置、発話保護方法、及びプログラム
(51)【国際特許分類】
   G10K 11/175 20060101AFI20210621BHJP
   G10L 25/03 20130101ALI20210621BHJP
【FI】
   G10K11/175
   G10L25/03
【請求項の数】6
【全頁数】12
(21)【出願番号】特願2018-140287(P2018-140287)
(22)【出願日】2018年7月26日
(65)【公開番号】特開2020-16777(P2020-16777A)
(43)【公開日】2020年1月30日
【審査請求日】2020年6月26日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【弁理士】
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】米川 慧
(72)【発明者】
【氏名】小原 朋広
(72)【発明者】
【氏名】小林 亜令
【審査官】 西村 純
(56)【参考文献】
【文献】 特表2017−513381(JP,A)
【文献】 特開2011−154139(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/175−11/178
G10L 25/03−25/24
(57)【特許請求の範囲】
【請求項1】
発話者の会話音声である発話音声信号を取得する信号取得部と、
乱数を入力とする音声生成モデルを用いて擬似音声信号を生成する信号生成部と、
入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得する信号識別部と、
前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新するとともに、前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新するモデル更新部と、
前記発話者の発話中に、前記音声生成モデルを用いて前記信号生成部が生成した擬似音声信号を音声に変換して出力する発音部と、
を備える発話保護装置。
【請求項2】
前記第1評価関数は、前記識別モデルに前記発話音声信号を入力したときの指標値が大きいほど大きな評価値を出力し、かつ前記識別モデルに前記擬似音声信号を入力したときの指標値が小さいほど大きな評価値を出力するように構成されており、
前記モデル更新部は、前記第1評価関数の指標値が大きくなるように、前記識別モデルを更新する、
請求項1に記載の発話保護装置。
【請求項3】
前記第2評価関数は、前記識別モデルに前記擬似音声信号を入力したときの指標値が大きいほど小さな評価値を出力するように構成されており、
前記モデル更新部は、前記第2評価関数の指標値が小さくなるように、前記音声生成モデルを更新する、
請求項1又は2に記載の発話保護装置。
【請求項4】
前記発話者の会話を認識する会話認識部をさらに備え、
前記発音部は、前記会話認識部が前記発話者の会話を認識することを契機として、前記信号生成部が生成した擬似音声信号を音声に変換して出力する、
請求項1から3のいずれか1項に記載の発話保護装置。
【請求項5】
プロセッサが、
発話者の会話音声である発話音声信号を取得するステップと、
乱数を入力とする音声生成モデルを用いて擬似音声信号を生成するステップと、
入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得するステップと、
前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新するステップと、
前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新するステップと、
前記発話者の発話中に、前記音声生成モデルを用いて生成された擬似音声信号を音声に変換して出力するステップと、
を実行する発話保護方法。
【請求項6】
コンピュータに、
発話者の会話音声である発話音声信号を取得する機能と、
乱数を入力とする音声生成モデルを用いて擬似音声信号を生成する機能と、
入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得する機能と、
前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新する機能と、
前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新する機能と、
前記発話者の発話中に、前記音声生成モデルを用いて生成された前記擬似音声信号を音声に変換して出力する機能と、
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は発話保護装置、発話保護方法、及びプログラムに関し、特に、人間の発話にマスキングするマスキング音声を生成する技術に関する。
【背景技術】
【0002】
人間の聴力においては他の音(マスカー)の存在によってある音(マスキー)が聞こえにくくなるマスキング効果の存在が指摘されている。マスキング効果はマスカーの周波数特性がマスキーに近いほど高くなることが知られており、さらに発話音声の場合には言語や意味が似ているほど認識が困難となることが知られている。
【0003】
人間の発話にマスキングする技術の中には、話者の発話をある時間長で分割したフレームを逆再生したりランダムに並び替えたりしてマスカーとして出力する手法が存在する(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−233671号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
マスキング効果は、発話者の発話内容が第三者に漏洩することを防止するスピーチプライバシーの保護に利用されうる。しかしながら、上記のような入力された音声に対して逐次的にフレームの並び替えや逆再生を実行する方式では、直近の音響特性が保持されるため、統計的機械学習に基づく音声認識により発言内容の推定が可能となる恐れがある。
【0006】
本発明はこれらの点に鑑みてなされたものであり、スピーチプライバシーの保護の堅牢性を高める技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様は、発話保護装置である。この装置は、発話者の会話音声である発話音声信号を取得する信号取得部と、乱数を入力とする音声生成モデルを用いて擬似音声信号を生成する信号生成部と、入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得する信号識別部と、前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新するとともに、前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新するモデル更新部と、前記発話者の発話中に、前記音声生成モデルを用いて前記信号生成部が生成した擬似音声信号を音声に変換して出力する発音部と、を備える。
【0008】
前記第1評価関数は、前記識別モデルに前記発話音声信号を入力したときの指標値が大きいほど大きな評価値を出力し、かつ前記識別モデルに前記擬似音声信号を入力したときの指標値が小さいほど大きな評価値を出力するように構成されてもよく、前記モデル更新部は、前記第1評価関数の指標値が大きくなるように、前記識別モデルを更新してもよい。
【0009】
前記第2評価関数は、前記識別モデルに前記擬似音声信号を入力したときの指標値が大きいほど小さな評価値を出力するように構成されてもよく、前記モデル更新部は、前記第2評価関数の指標値が小さくなるように、前記音声生成モデルを更新してもよい。
【0010】
前記発話保護装置は、前記発話者の会話を認識する会話認識部をさらに備えてもよく、前記発音部は、前記会話認識部が前記発話者の会話を認識することを契機として、前記信号生成部が生成した擬似音声信号を音声に変換して出力してもよい。
【0011】
本発明の第2の態様は、発話保護方法である。この方法において、プロセッサが、発話者の会話音声である発話音声信号を取得するステップと、乱数を入力とする音声生成モデルを用いて擬似音声信号を生成するステップと、入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得するステップと、前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新するステップと、前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新するステップと、前記発話者の発話中に、前記音声生成モデルを用いて生成された擬似音声信号を音声に変換して出力するステップと、を実行する。
【0012】
本発明の第3の態様は、プログラムである。このプログラムは、コンピュータに、発話者の会話音声である発話音声信号を取得する機能と、乱数を入力とする音声生成モデルを用いて擬似音声信号を生成する機能と、入力された信号が前記発話音声信号である蓋然性を出力する識別モデルに前記発話音声信号又は前記擬似音声信号を入力して前記蓋然性を示す指標値を取得する機能と、前記識別モデルに前記発話音声信号を入力したときの指標値と、前記識別モデルに前記擬似音声信号を入力したときの指標値との2つの指標値を含む第1評価関数の評価値に基づいて前記識別モデルを更新する機能と、前記識別モデルに前記擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて前記音声生成モデルを更新する機能と、前記発話者の発話中に、前記音声生成モデルを用いて生成された前記擬似音声信号を音声に変換して出力する機能と、を実現させる。
【発明の効果】
【0013】
本発明によれば、スピーチプライバシーの保護の堅牢性を高めることができる。
【図面の簡単な説明】
【0014】
図1】実施の形態に係る発話保護装置の利用シーンの一例を模式的に示す図である。
図2】実施の形態に係る発話保護装置の機能構成を模式的に示す図である。
図3】実施の形態に係るモデル更新部が参照する第1評価関数と第2評価関数との性質を示す図である。
図4】実施の形態に係る生成モデルデータベースのデータ構造を模式的に示す図である。
図5】実施の形態に係る発話保護装置が実行する発話保護処理の流れを説明するためのフローチャートである。
【発明を実施するための形態】
【0015】
<実施の形態の概要>
図1は、実施の形態に係る発話保護装置1の利用シーンの一例を模式的に示す図である。以下、図1を参照して、実施の形態の概要を述べる。
【0016】
近年、仮想空間をビジネスオフィスとして打ち合わせ等に用いようとするVR(Virtual Reality)オフィスの開発が盛んである。図1は、そのようなVRオフィスの一例を示しており、インターネットカフェ等のような形で一人ごとに簡易なセパレータで区切られたブースBをVRオフィスとして提供している様子を示している。具体的には、ブースBにおいて、ユーザUがヘッドセット2を装着して、遠隔会議装置としての機能も有する発話保護装置1を用いて会話をしている様子を示している。
【0017】
VRオフィスにおいては業務上の機密事項の会話もなされるため、スピーチプライバシー保護が必要となる。ブースBのセパレータ、個室の壁、口を覆うデバイスのいずれにおいても、音声が物体を振動させて伝搬するという特性から、遮蔽物の存在のみでは必ずしも十分なプライバシー保護効果が得られるとは限らない。そこで、実施の形態に係る発話保護装置1はスピーカ3を備えており、ユーザUが発話することによって発生する音声データに模した擬似音声データをユーザUの発話に重畳させることにより、ユーザUのスピーチプライバシーを保護する。
【0018】
実施の形態に係る発話保護装置1は、ユーザUの発話をマスキングするための擬似音声データをユーザUの発話中に発生させ、ユーザUの発話が第三者に解読されることを抑制するための装置である。ここで、発話保護装置1は、乱数(擬似的な乱数を含む)を入力して、ユーザUの発話によって生じた音声を模した指示音声信号を発生するように機械学習された音声生成モデルを用いて擬似音声データを発生させる。
【0019】
発話保護装置1が生成する擬似音声データは、乱数を起源として生成された音声データである。このため、発話保護装置1が生成する擬似音声データはユーザUが発話することによって発生する音声データと長時間の統計的性質を比較すると似ているものの、短時間の統計的性質を比較すると発話内容の文脈とは独立に生成されるためユーザUが発話することによって発生する音声データとは異なるものとなる。これにより、第三者が発話保護装置1の擬似音声データを統計的機械学習に基づく音声認識により解析したとしても、ユーザUの発話内容が推定されることを抑制できる。結果として、実施の形態に係る発話保護装置1は、ユーザUのスピーチプライバシーの保護の堅牢性を高めることができる。
【0020】
なお、図1はユーザUの口を覆うヘッドセット2のマイク部分の外部にマスキングサウンドを発生するスピーカ3がある場合を図示しているがそれには限られない。例えば、ヘッドセット2のマイク部分とスピーカ3とが同一の装置として実現されていてもよい。また、図1は発話保護装置1と遠隔会議装置とは異なる装置であってもよい。
【0021】
<実施の形態に係る発話保護装置1の機能構成>
図2は、実施の形態に係る発話保護装置1の機能構成を模式的に示す図である。発話保護装置1は、記憶部10と制御部11とを備える。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってもよい。図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
【0022】
記憶部10は、発話保護装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や発話保護装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
【0023】
制御部11は、発話保護装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部10に記憶されたプログラムを実行することによって信号取得部110、乱数発生部111、信号生成部112、信号識別部113、モデル更新部114、発音部115、会話認識部116として機能する。
【0024】
なお、図2は、発話保護装置1が単一の装置で構成されている場合の例を示している。しかしながら、発話保護装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部11を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
【0025】
信号取得部110は、発話保護装置1のユーザUである発話者の会話音声を、ユーザUが装着するヘッドセット2のマイクロフォンから発話音声信号として取得する。乱数発生部111は乱数を生成する。例えば、乱数発生部111は、M系列を用いた擬似乱数を生成することで乱数を発生させる。信号生成部112は、乱数を入力として擬似音声信号を出力する音声生成モデル100に乱数発生部111が生成した乱数を入力することにより、擬似音声信号を生成する。
【0026】
音声生成モデル100は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)を用いた機械学習によって生成することができる。CNNは多層パーセプトロンモデルにおいて共有重みを持つ局所受容野という構造を導入することにより局所的な特徴の抽出だけでなくより高次の特徴の抽出を可能としたモデルであり、一般的には例えば画像と分類カテゴリの組を教師データとして、画像が入力されたときに推定される分類カテゴリを出力するよう学習される。本発明では、音声生成モデル100は、後述の方法によって、入力となる乱数発生部111が生成した乱数の分布を出力となるユーザUの発話音声信号の分布に対応付けるよう学習され、乱数が入力された時に発話音声信号を出力するように学習される生成モデルである。
【0027】
信号識別部113は、記憶部10から識別モデル101を読み出す。識別モデル101は、音声信号が入力された時、入力された信号がユーザUに由来する発話音声信号である蓋然性を示す指標値を出力するように機械学習された学習モデルである。信号識別部113は、識別モデル101に信号取得部110が取得した発話音声信号又は信号生成部112が生成した擬似音声信号を入力して、蓋然性を示す指標値を取得する。
【0028】
識別モデル101は、例えば、CNNを用いた機械学習によって生成することができる。識別モデル101は、ユーザUの発話音声信号又は信号生成部112が生成した擬似音声信号のいずれの信号であるかが既知である教師データを用いて、音声信号が入力されたときにユーザUの発話音声信号である蓋然性を出力するよう学習される識別モデルである。
【0029】
識別モデル101は、例えば、0以上1以下の実数を出力するように学習されている。識別モデル101にユーザUの発話音声信号が入力されると、識別モデル101は1に近い値を出力する。一方、識別モデル101に信号生成部112が生成した擬似音声信号が入力されると、識別モデル101は0に近い値を出力する。このため、識別モデル101が出力する値は、識別モデル101に入力された信号がユーザUに由来する発話音声信号である蓋然性を示す指標値となる。
【0030】
モデル更新部114は、識別モデル101にユーザUの発話音声信号を入力したときの指標値と、識別モデル101に信号生成部112が生成した擬似音声信号を入力したときの指標値との2つの指標値を取得する。モデル更新部114は、取得した2つの指標値を含む第1評価関数の評価値に基づいて、識別モデル101を更新する。具体的には、識別モデル101がCNNで生成された学習モデルである場合、モデル更新部114は、第1評価関数の評価値に基づいて例えば確率的勾配降下法を用いて識別モデル101を構成するパラメータであるニューラルネットワークの重みを更新する。
【0031】
また、モデル更新部114は、識別モデル101に信号生成部112が生成した擬似音声信号を入力したときの指標値を含む第2評価関数の評価値に基づいて、音声生成モデル100を更新する。具体的には、音声生成モデル100がRNNで生成された学習モデルである場合、モデル更新部114は、第2評価関数の評価値に基づいて例えば確率的勾配降下法を用いて音声生成モデル100を構成するパラメータであるニューラルネットワークの重みを更新する。
【0032】
図3は、実施の形態に係るモデル更新部114が参照する第1評価関数と第2評価関数との性質を示す図である。図3に示すように、第1評価関数は、識別モデル101に発話音声信号を入力したときの指標値Mが大きいほど大きな評価値E1を出力し、かつ識別モデル101に擬似音声信号を入力したときの指標値Mが小さいほど大きな評価値E1を出力するように構成されている。
【0033】
ここで、識別モデル101にユーザUの発話音声信号を入力したときの指標値Mが大きくなることは、識別モデル101が発話音声信号を正しく識別することを示している。また、識別モデル101に擬似音声信号を入力したときの指標値Mが小さくなることも、識別モデル101が擬似音声信号を正しく識別することを示している。したがって、モデル更新部114が、第1評価関数の評価値E1が大きくなるように、識別モデル101を更新することにより、識別モデル101の認識性能は高まる。
【0034】
また、第2評価関数は、識別モデル101に擬似音声信号を入力したときの指標値Mが小さいほど大きな評価値E2を出力するように構成されている。逆に言うと、第2評価関数は、識別モデル101に擬似音声信号を入力したときの指標値Mが大きいほど小さな評価値E2を出力するように構成されている。
【0035】
ここで、識別モデル101に擬似音声信号を入力したときの指標値Mが大きくなることは、信号生成部112が生成した擬似音声信号を、識別モデル101がユーザUの発話音声信号と判定できないこと、すなわち、信号生成部112がユーザUの発話音声信号と類似する音声信号を生成できたことを示している。したがって、モデル更新部114が第2評価関数の指標値が小さくなるように、音声生成モデル100を更新することにより、信号生成部112の擬似音声信号の生成能力が高まる。
【0036】
上記の性質を満たす評価関数の一例を以下の式(1)、式(2)、及び式(3)に示す。
【0037】
【数1】
【0038】
ここで、XはユーザUの発話音声信号の集合、xはXの要素、Zは乱数の集合、zはZの要素である。D(x)は発話音声信号xを入力とする識別モデル101の出力、すなわち入力された発話音声信号xが発話音声信号である蓋然性を算出した結果であり、Dが理想的な場合には1となる。G(z)は乱数に基づいて信号生成部112が生成した擬似音声信号である。したがって、D(G(z))は音声生成モデル100が生成した擬似音声信号を入力とする識別モデル101の出力、すなわち入力された擬似音声信号G(z)が発話音声信号である蓋然性を算出した結果であり、Dが理想的な場合には0となる一方で、Gが理想的であれば1となる。
【0039】
式(1)は更新処理の全体像をまとめて示す式である。モデル更新部114は、関数D、すなわち識別モデル101を更新する際には、発話音声信号の集合Xの要素である発話音声信号xと、乱数の集合Zの要素である乱数zを用いて以下の式(2)に基づいて更新処理を実行する。
【0040】
【数2】
【0041】
関数G、すなわち音声生成モデル100を更新する際には、モデル更新部114は、乱数の集合Zの要素である乱数zを用いて以下の式(3)に基づいて更新処理を実行する。
【0042】
【数3】
【0043】
モデル更新部114は、式(2)に基づく識別モデル101の更新と式(3)に基づく音声生成モデル100の更新とを交互に繰り返すことにより、音声生成モデル100の更新処理と識別モデル101の更新処理とを実行する。モデル更新部114の更新処理が進むと、音声生成モデル100は、識別モデル101では発話音声信号か擬似音声信号かを判定ができないような擬似音声信号を生成できるようになる。
【0044】
発音部115は、発話者であるユーザUの発話中に、音声生成モデル100を用いて信号生成部112が生成した擬似音声信号を音声に変換してスピーカ3に出力させる。これにより、ユーザUの付近に存在する第三者は、スピーカ3から出力される擬似音声信号のマスキング効果により、ユーザUの会話を聞き取りづらくなる。ゆえに、発話保護装置1は、ユーザUのスピーチプライバシーを保護することができる。
【0045】
ところで、発話保護装置1のユーザUが異なれば、対応する音声生成モデル100も異なる。このため、発話保護装置1は、発話者であるユーザUの会話を認識する会話認識部116をさらに備えている。会話認識部116は、例えば既知の機械学習技術を用いて生成した会話認識エンジンである。
【0046】
図4は、実施の形態に係る生成モデルデータベース102のデータ構造を模式的に示す図である。生成モデルデータベース102は記憶部10に格納されており、会話認識部116によって管理されている。図4に示すように、信号生成部112は、各ユーザUを特定するための発話者識別子と、各ユーザUに対応する音声生成モデル100を特定するための生成モデル識別子とが対応づけて格納している。
【0047】
会話認識部116は、信号取得部110が取得したユーザUの発話音声信号に基づいてユーザUを認識し、そのユーザUの発話者識別子を取得する。信号生成部112は、会話認識部116が取得した発話者識別子に基づいて生成モデルデータベース102を参照することにより、ユーザUに対応する音声生成モデル100の生成モデル識別子を取得する。
【0048】
信号生成部112は、取得した生成モデル識別子に基づいて記憶部10からユーザUに対応する音声生成モデル100を読み出す。このように、発音部115は、会話認識部116が発話者であるユーザUの会話を認識することを契機として、信号生成部112が記憶部10から読み出した音声生成モデル100を用いて生成した擬似音声信号を音声に変換してスピーカ3に出力させる。これにより、発音部115は、ユーザUに適応した擬似音声信号を発生することができるので、ユーザUのスピーチプライバシーを保護することができる。
【0049】
<発話保護装置1が実行する学習方法の処理フロー>
図5は、実施の形態に係る発話保護装置1が実行する発話保護処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば発話保護装置1が起動したときに開始する。
【0050】
信号取得部110は、発話保護装置1のユーザUである発話者の会話音声を発話音声信号として取得する(S2)。会話認識部116は、ユーザUである発話者の会話を認識して発話者を特定する(S4)。信号生成部112は、生成モデルデータベース102を参照して会話認識部116が特定した発話者に対応する音声生成モデル100を取得する(S6)。
【0051】
信号生成部112は、取得した音声生成モデル100を用いて擬似音声信号を生成する(S8)。発音部115は、発話者の発話中に、音声生成モデル100を用いて信号生成部112が生成した擬似音声信号を音声に変換して出力する(S10)。
【0052】
モデル更新部114は、識別モデル101に発話音声信号を入力したときの指標値と、識別モデル101に擬似音声信号を入力したときの指標値との2つの指標値を用いて第1評価関数の評価値を取得する(S12)。モデル更新部114は、第1評価関数の評価値に基づいて識別モデル101を更新する(S14)。
【0053】
モデル更新部114は、識別モデル101に擬似音声信号を入力したときの指標値を用いて第2評価関数の評価値を取得する(S16)。モデル更新部114は、第2評価関数の評価値に基づいて音声生成モデル100を更新する(S18)。
【0054】
ユーザUが発話保護装置1の利用を終了するまでの間(S20のNo)、発話保護装置1はステップS8に戻ってステップS8からステップS18の処理を繰り返す。ユーザUが発話保護装置1の利用を終了すると(S20のYes)、本フローチャートにおける処理は終了する。
【0055】
<実施の形態に係る発話保護装置1が奏する効果>
以上説明したように、実施の形態に係る発話保護装置1によれば、スピーチプライバシーの保護の堅牢性を高めることができる。
【0056】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
【符号の説明】
【0057】
1・・・発話保護装置
10・・・記憶部
100・・・音声生成モデル
101・・・識別モデル
102・・・生成モデルデータベース
11・・・制御部
110・・・信号取得部
111・・・乱数発生部
112・・・信号生成部
113・・・信号識別部
114・・・モデル更新部
115・・・発音部
116・・・会話認識部
2・・・ヘッドセット
3・・・スピーカ
B・・・ブース
図1
図2
図3
図4
図5