(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023145016
(43)【公開日】2023-10-11
(54)【発明の名称】モデル生成プログラム,音声処理プログラム,情報処理装置,モデル生成方法および音声処理方法
(51)【国際特許分類】
G10L 21/0364 20130101AFI20231003BHJP
G10L 25/30 20130101ALI20231003BHJP
【FI】
G10L21/0364
G10L25/30
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022052280
(22)【出願日】2022-03-28
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100092978
【弁理士】
【氏名又は名称】真田 有
(74)【代理人】
【識別番号】100189201
【弁理士】
【氏名又は名称】横田 功
(72)【発明者】
【氏名】家村 康佑
(57)【要約】
【課題】音声の発生元が移動する場合においても、音声の明瞭化を実現する。
【解決手段】コンピュータが、マイクから得られた訓練用第1音声データと、他のマイクから得られた訓練用第2音声データと、第1音声データと訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデル104を生成する処理を実行する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理をコンピュータに実行させるモデル生成プログラム。
【請求項2】
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで複数の拡張録音音声を作成し、
前記複数の拡張録音音声の中から選択した主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで、クロストーク想定音声を作成し、
複数の前記クロストーク想定音声の中から選択した第1のクロストーク想定音声を前記訓練用第1音声データとし、
複数のクロストーク想定音声の中から選択した、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して、前記訓練用第2音声データを作成する
処理を前記コンピュータに実行させる請求項1に記載のモデル生成プログラム。
【請求項3】
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
処理を前記コンピュータに実行させる請求項1または2に記載のモデル生成プログラム。
【請求項4】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理をコンピュータに実行させる音声処理プログラム。
【請求項5】
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで作成された複数の拡張録音音声の中から選択された主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで作成されたクロストーク想定音声に基づき、
前記訓練用第1音声データが、複数の前記クロストーク想定音声の中から選択された第1のクロストーク想定音声であり、
前記訓練用第2音声データが、複数のクロストーク想定音声の中から選択された、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して作成される
ことを特徴とする請求項4に記載の音声処理プログラム。
【請求項6】
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
ことを特徴とする請求項4または5に記載の音声処理プログラム。
【請求項7】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理を実行する制御部を備えることを特徴とする情報処理装置。
【請求項8】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理を実行する制御部を備えることを特徴とする情報処理装置。
【請求項9】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理をコンピュータが実行することを特徴とするモデル生成方法。
【請求項10】
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理をコンピュータが実行することを特徴とする音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モデル生成プログラム,音声処理プログラム,情報処理装置,モデル生成方法および音声処理方法に関する。
【背景技術】
【0002】
例えば、ピンマイクは話者ごとに装着され、装着した話者の移動に従って移動する。このようなマイクが複数の話者のそれぞれに装着された環境において、マイクを装着した特定の話者の音声のみを抽出したいという要望が存在する。
【0003】
しかし、マイクには、装着者の音声のみならず、装着者以外の音声も入力され、収音されることが発生する。このように、装着者以外の音声がマイクに入力されることをクロストークという場合がある。
【0004】
複数のマイク音声から、特定の音声のみを抽出する手法として、アレイマイク等の技術が知られている。
【0005】
また、複数のマイクで収音された複数の音声信号に対して、クロストークの伝達関数を更新することでクロストークを減らし、個別の音声信号を分離する手法も知られている。
【0006】
さらに、目的音源の音響信号が混在する際に収録された観測信号の観測ベクトルに基づき、各周波数における観測ベクトルの確率分布をモデル化し、音響信号のマスクを推定して音源分離を行なう手法も知られている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特表2008-507926号公報
【特許文献2】国際公開第2017/064840号パンフレット
【特許文献3】特開2018-40880号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、アレイマイクにおいては、マイク位置が固定である必要や、事前にキャリブレーションを実施する必要があり、話者およびマイクの位置がともに変動する環境下での使用はできない。すなわち、音声の発生元が移動する場合に当該音声を高音質で抽出することが困難であるという課題がある。
【0009】
また、複数のマイクから収音された複数の音声信号に対して、クロストークの伝達関数を更新する手法や、目的音源の音響信号が混在する際に収録された観測信号の観測ベクトルに基づき音源分離を行なう手法においても、音源およびマイクが移動することは考慮されていない。従って、音声の発生元が移動する場合に当該音声を高音質で抽出することが困難である。
【0010】
1つの側面では、本発明は、音声の発生元が移動する場合においても、音声の明瞭化を実現できるようにすることを目的とする。
【課題を解決するための手段】
【0011】
このため、このモデル生成プログラムは、マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する処理をコンピュータに実行させる。
【発明の効果】
【0012】
一実施形態によれば、音声の発生元が移動する場合においても、音声の明瞭化を実現できる。
【図面の簡単な説明】
【0013】
【
図1】実施形態の一例としての音声処理システムの構成を例示する図である。
【
図2】実施形態の一例としての音声処理システムの機能構成を例示する図である。
【
図3】実施形態の一例としての音声処理システムにおける拡張済みの録音音声の作成方法を例示する図である。
【
図4】実施形態の一例としての音声処理システムにおける訓練用データ作成部による明瞭化音声の選択方法を説明するための図である。
【
図5】実施形態の一例としての音声処理システムにおける訓練用データ作成部によって作成されるクロストーク想定音声を説明するための図である。
【
図6】実施形態の一例としての音声処理システムにおける訓練用データ作成部による訓練用データの作成方法を説明するための図である。
【
図7】実施形態の一例としての音声処理システムにおける訓練処理部による訓練フェーズの処理を説明するための図である。
【
図8】実施形態の一例としての音声処理システムの機械学習モデルの推論フェーズにおける入力データを説明するための図である。
【
図9】実施形態の一例としての音声処理システムにおける推論処理部による推論フェーズ時の処理を説明するための図である。
【
図10】実施形態の一例としての音声処理システムにおける訓練フェーズの処理を説明するためのフローチャートである。
【
図11】実施形態の一例としての音声処理システムにおける推論フェーズの処理を説明するためのフローチャートである。
【
図12】実施形態の一例としての音声処理システムによる推論結果を例示する図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本モデル生成プログラム,音声処理プログラム,情報処理装置,モデル生成方法および音声処理方法にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形(実施形態および各変形例を組み合わせる等)して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0015】
(A)構成
図1は実施形態の一例としての音声処理システム1の構成を例示する図、
図2はその機能構成を示す図である。
【0016】
本音声処理システム1は、複数音声の発生元のそれぞれにマイクが装着され、各音声発生元の移動に従って各音声発生元に装着されたマイクもそれぞれ移動する環境において、特定の音声発生元の音声を明瞭化する音声明瞭化機能を実現する。
【0017】
音声の明瞭化は、明瞭化の対象である音声を出力する音声発生元に装着されたマイクによって収音された音声から、当該音声発生元以外の音声発生元から出力される音声(ノイズ)を除去し、当該音声発生元から出力される音声を明瞭化(抽出,分離)することで実現される。
【0018】
本実施形態においては、音声発生元が人(話者)であり、複数の話者のそれぞれにピンマイク等の話者の移動に従って移動可能なマイクが装着された例について示す。そして、明瞭化する(明瞭化の対象とする)音声を出力する話者(音声発生元)を主話者といってもよい。
【0019】
また、1つの音声発生元に対して1つのマイクが装着され、音声発生元とマイクとが1対1との関係となっている。以下、話者に装着されたマイクを話者のマイクという場合がある。また、話者のマイクで収音される音声を話者のマイク音声という場合がある。
【0020】
音声処理システム1は、情報処理装置10を備える。情報処理装置10には、複数の話者のそれぞれに装着された各マイクが収音した音声が入力される。
【0021】
情報処理装置10は、例えば、プロセッサ11,メモリ12,記憶装置13,グラフィック処理装置14,入力インタフェース15,光学ドライブ装置16,機器接続インタフェース17およびネットワークインタフェース18を構成要素として有する。これらの構成要素11~18は、バス19を介して相互に通信可能である。
【0022】
プロセッサ(処理部)11は、情報処理装置10全体を制御する。プロセッサ11は、マルチプロセッサであってもよい。プロセッサ11は、例えばCPU,MPU(Micro Processing Unit),DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit),PLD(Programmable Logic Device),FPGA(Field Programmable Gate Array),GPU(Graphics Processing Unit)のいずれか一つであってもよい。また、プロセッサ11は、CPU,MPU,DSP,ASIC,PLD,FPGA,GPUのうちの2種類以上の要素の組み合わせであってもよい。
【0023】
そして、プロセッサ11が情報処理装置10用の制御プログラム(モデル生成プログラム,音声処理プログラム,OSプログラム)を実行することにより、
図2に例示する、訓練用データ作成部101,音声特徴変換部102,訓練処理部103,機械学習モデル104および推論処理部105として機能する。OSはOperating Systemの略語である。
【0024】
なお、情報処理装置10は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム(モデル生成プログラム,OSプログラム)を実行することにより、訓練用データ作成部101,音声特徴変換部102,訓練処理部103および機械学習モデル104としての機能を実現する。
【0025】
また、情報処理装置10は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム(音声処理プログラム,OSプログラム)を実行することにより、音声特徴変換部102,機械学習モデル104および推論処理部105としての機能を実現する。
【0026】
情報処理装置10に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置10に実行させるプログラムを記憶装置13に格納しておくことができる。プロセッサ11は、記憶装置13内のプログラムの少なくとも一部をメモリ12にロードし、ロードしたプログラムを実行する。
【0027】
また、情報処理装置10(プロセッサ11)に実行させるプログラムを、光ディスク16a,メモリ装置17a,メモリカード17c等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ11からの制御により、記憶装置13にインストールされた後、実行可能になる。また、プロセッサ11が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0028】
メモリ12は、ROM(Read Only Memory)およびRAM(Random Access Memory)を含む記憶メモリである。メモリ12のRAMは情報処理装置10の主記憶装置として使用される。RAMには、プロセッサ11に実行させるプログラムの少なくとも一部が一時的に格納される。また、メモリ12には、プロセッサ11による処理に必要な各種データが格納される。
【0029】
記憶装置13は、ハードディスクドライブ(Hard Disk Drive:HDD)、SSD(Solid State Drive)、ストレージクラスメモリ(Storage Class Memory:SCM)等の記憶装置であって、種々のデータを格納するものである。記憶装置13は、情報処理装置10の補助記憶装置として使用される。記憶装置13には、OSプログラム,制御プログラムおよび各種データが格納される。制御プログラムにはモデル生成プログラムや音声処理プログラムが含まれる。
【0030】
記憶装置13には、後述する音声データベース201,拡張音声データベース202および訓練用データセット203を含むデータを記憶させてもよい。
【0031】
なお、補助記憶装置としては、SCMやフラッシュメモリ等の半導体記憶装置を使用することもできる。また、複数の記憶装置13を用いてRAID(Redundant Arrays of Inexpensive Disks)を構成してもよい。
【0032】
また、記憶装置13には、上述した訓練用データ作成部101,音声特徴変換部102,訓練処理部103および推論処理部105が各処理を実行する際に生成される各種データを格納してもよい。
【0033】
グラフィック処理装置14には、モニタ14aが接続されている。グラフィック処理装置14は、プロセッサ11からの命令に従って、画像をモニタ14aの画面に表示させる。モニタ14aとしては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置等が挙げられる。
【0034】
入力インタフェース15には、キーボード15aおよびマウス15bが接続されている。入力インタフェース15は、キーボード15aやマウス15bから送られてくる信号をプロセッサ11に送信する。なお、マウス15bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル,タブレット,タッチパッド,トラックボール等が挙げられる。
【0035】
光学ドライブ装置16は、レーザ光等を利用して、光ディスク16aに記録されたデータの読み取りを行なう。光ディスク16aは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク16aには、DVD(Digital Versatile Disc),DVD-RAM,CD-ROM(Compact Disc Read Only Memory),CD-R(Recordable)/RW(ReWritable)等が挙げられる。
【0036】
機器接続インタフェース17は、情報処理装置10に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース17には、メモリ装置17aやメモリリーダライタ17bを接続することができる。メモリ装置17aは、機器接続インタフェース17との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ17bは、メモリカード17cへのデータの書き込み、またはメモリカード17cからのデータの読み出しを行なう。メモリカード17cは、カード型の非一時的な記録媒体である。
【0037】
ネットワークインタフェース18は、ネットワークに接続される。ネットワークインタフェース18は、ネットワークを介してデータの送受信を行なう。ネットワークには他の情報処理装置や通信機器等が接続されてもよい。
【0038】
音声データベース201,拡張音声データベース202および訓練用データ203を含む情報の少なくとも一部は、ネットワークを介して接続される他の情報処理装置に備えられてもよい。
【0039】
本音声処理システム1においては、プロセッサ11がモデル生成プログラムを実行することで、訓練用データ作成部101,音声特徴変換部102および訓練処理部103としての機能が実現される。これらの訓練用データ作成部101,音声特徴変換部102および訓練処理部103は、訓練フェーズにおいて機能する。
【0040】
またプロセッサ11が音声処理プログラムを実行することで、推論処理部105としての機能が実現される。この推論処理部105は、推論フェーズにおいて機能する。
【0041】
音声データベース201には、複数の話者について、事前に各話者の音声をそれぞれ個別にマイクで録音した音声(録音音声)を記憶する。これらの録音音声は、環境音等のノイズが含まれていないものであることが望ましく、さらに、各話者の録音音声には、当該話者以外の話者の音声は含まれていないものとする。
【0042】
また、録音音声としては、マイクの種類毎の周波数特性や、音声ファイルのデータフォーマットによる違いを考慮して、様々な音声データを用意することが望ましい。
【0043】
すなわち、ユーザは、話者の音声を複数種類のマイクを用いて録音したり、録音した音声のデータを複数種類のデータフォーマットで保存する。マイク種類とデータフォーマットとの組み合わせを変えることで、各話者の録音音声に複数のバリエーションを持たせる。
【0044】
訓練用データ作成部101は、訓練フェーズにおいて機械学習モデル(音声処理モデル)104を訓練するために用いられる訓練用データセット(教師データ)203を作成する。
【0045】
訓練用データセット203は、複数の訓練用音声セット(訓練データ)を備える。
【0046】
本音声処理システム1において、訓練用音声セットは、「明瞭化後の分離対象の主話者の音声」と、「明瞭化前の分離対象となる主話者の音声」と、「除外すべき音声」との3つの音声データを備える。これらの3つの音声データは、組み合わせて1つの訓練用音声セットとして取り扱われる。
【0047】
訓練用音声セットにおいては、機械学習モデル104の訓練フェーズにおいて、明瞭化前の分離対象となる主話者の音声と除外すべき音声とが機械学習モデル104への入力データとして用いられ、明瞭化後の分離対象の主話者の音声が正解データとして用いられる。
【0048】
訓練用データ作成部101は、このような訓練用音声セットを複数作成することで、訓練用データセット203を作成する。
【0049】
訓練用データ作成部101は、汎用性をより向上させるために、音声データベース201に記憶された各録音音声に対して加工を行なうことで、録音音声のデータ拡張(水増し)を行なう。
【0050】
例えば、訓練用データ作成部101は、録音音声に対して、周波数特性やサンプリング周波数等の音声ファイルのフォーマットを変更する加工を行なうことでデータ数を増加させるデータ拡張を行なってもよい。また、訓練用データ作成部101は、録音音声に対して、音のパワー(音響パワー)を変更して音量を変更することでデータ拡張を行なってもよい。なお、録音音声に対するデータ拡張の手法は、これらに限定されるものではなく、適宜変更して実施することができる。
【0051】
訓練用データ作成部101は、音声データベース201に記憶された録音音声に対してデータ拡張を行なうことで作成した拡張済みの録音音声を、拡張音声データベース202に記憶させる。
【0052】
図3は実施形態の一例としての音声処理システム1における拡張済みの録音音声の作成方法を例示する図である。
【0053】
この
図3に例示する手法においては、音声データベース201から読み出した録音音声に対して、周波数特性変換(符号P1参照)、サンプリング周波数変換(符号P2参照)および音量変換(符号P3参照)の各処理を、これらの順に行なわれる。これにより、音声処理システム1は拡張済みの録音音声を作成する。
【0054】
作成された拡張済みの録音音声は、拡張音声データベース202に記憶される。また、音声データベース201に記憶された録音音声も読み出され、拡張音声データベース202に記憶される。
【0055】
以下、拡張音声データベース202に記憶された録音音声および拡張済みの録音音声を拡張録音音声といってもよい。
【0056】
なお、拡張済みの録音音声作成手法は、この
図3に例示した手法に限定されるものではなく、適宜変更して実施することができる。例えば、これらの周波数特性変換、サンプリング周波数変換および音量変換の各手法の少なくとも一部を省略(オミット)してもよく、また、これらの処理の順序を入れ替えてもよい。さらに、これらの周波数特性変換、サンプリング周波数変換および音量変換に加えて、他の変換手法を追加して実施してもよい。
【0057】
訓練用データ作成部101は、拡張音声データベース202に記憶された拡張録音音声の中から、明瞭化音声を選択する。
【0058】
図4は実施形態の一例としての音声処理システム1における訓練用データ作成部101による明瞭化音声の選択方法を説明するための図である。
【0059】
訓練用データ作成部101は、拡張音声データベース202に記憶された拡張録音音声の中から、複数の拡張録音音声の音声ファイル(音声データ)を選択する(
図4の符号P1参照)。例えば、訓練用データ作成部101は、複数の拡張録音音声の中からランダムに複数の拡張録音音声を選択してもよい。
【0060】
また、訓練用データ作成部101は、これらの複数の拡張録音音声の中から一つの拡張録音音声を選択する(
図4の符号P2参照)。このように複数の拡張録音音声の中から選択した一つの拡張録音音声を明瞭化音声といってもよい。例えば、訓練用データ作成部101は、複数の拡張録音音声の中からランダムに明瞭化音声を選択してもよい。
【0061】
明瞭化音声は、訓練フェーズにおいて後述するニューラルネットワークの訓練フェーズにおいて正解データとして使用される音声であって、明瞭化後の分離対象の主話者の音声である。明瞭化音声は、ニューラルネットワークをNNと表してもよい。
【0062】
また、訓練用データ作成部101は、拡張音声データベース202に記憶された各話者の拡張録音音声を用いて、各話者のマイクで収音されると想定されるマイク音声(想定音声)を作成する。
【0063】
上述の如く、本音声処理システム1においては、複数の話者が同時に発話する環境(マイク環境)を想定しており、各話者のマイクには他の話者の音声も入力され、クロストークが生じることを想定している。このようなクロストークの発生を想定したマイク環境下において、訓練用データ作成部101が作成する想定音声を、クロストーク想定音声といってもよい。
図5は実施形態の一例としての音声処理システム1における訓練用データ作成部101によって作成されるクロストーク想定音声を説明するための図である。
【0064】
この
図5においては、3人の話者A,B,Cの拡張録音音声(符号α参照)と、これらの拡張録音音声を用いて作成されたクロストーク想定音声(符号β参照)とを例示している。なお、話者Aの録音音声に基づいて生成された拡張録音音声を話者Aの拡張録音音声という場合がある。同様に、話者Bの録音音声に基づいて生成された拡張録音音声を話者Bの拡張録音音声と、話者Cの録音音声に基づいて生成された拡張録音音声を話者Cの拡張録音音声と、それぞれいう場合がある。
【0065】
図5中においては、話者Aの拡張録音音声を実線で、話者Bの拡張録音音声を点線で、話者Cの拡張録音音声を破線で、それぞれ示す。
【0066】
訓練用データ作成部101は、上述の如く、拡張音声データベース202に記憶された拡張録音音声の中から選択した複数の拡張録音音声の音声ファイル(音声データ)を用いて、各話者のマイクで収音されると想定されるクロストーク想定音声(話者の想定音声)を作成する。
【0067】
例えば、話者Aのマイクには、話者Bの音声および話者Cの音声がそれぞれ入力される。そこで、訓練用データ作成部101は、例えば、話者Aの拡張録音音声に、話者Bおよび話者Cの各拡張録音音声を合成(重畳)することで、話者Aのクロストーク想定音声を作成する。ここで、他の拡張録音音声が合成される拡張録音音声を主拡張録音音声といってもよい。また、主拡張録音音声に合成される他の拡張録音音声を従拡張録音音声といってもよい。
【0068】
また、この際、話者Aのマイクと話者Bとの距離および話者Aのマイクと話者Cとの距離は、話者Aのマイクと話者Aとの距離に比べて、それぞれ遠い。これらにより、話者Bや話者Cの音声には、話者Aのマイクに到達するまでに遅延や、音音量の低下(音のパワーの低下)等の影響が生じる。また、話者A,B,Cのそれぞれの向き(発話方向)もマイクに入力される音声に影響を与えると考えられる。
【0069】
訓練用データ作成部101は、このようなマイクと各話者との相対的な関係(位置や向き等)をクロストーク想定音声に反映させる。
【0070】
具体的には、訓練用データ作成部101は、クロストーク想定音声の作成に際して、特定の話者の拡張録音音声(主拡張録音音声)に当該話者以外の他の話者の拡張録音音声(従拡張録音音声)を重畳する。この際に、訓練用データ作成部101は、他の話者の拡張録音音声(従拡張録音音声)に対して遅延処理と音量変換処理とを行なう。
【0071】
訓練用データ作成部101は、例えば、話者Aのクロストーク想定音声に関しては、話者Bおよび話者Cの拡張録音音声(従拡張録音音声)が話者Aの拡張録音音声(主拡張録音音声)よりも遅れるように、話者Bおよび話者Cの拡張録音音声(従拡張録音音声)に対して遅延処理を行なう。そして、このように遅延処理を行なった話者Bおよび話者Cの拡張録音音声(従拡張録音音声)をそれぞれ話者Aの拡張録音音声(主拡張録音音声)に重畳させる。
【0072】
すなわち、訓練用データ作成部101は、話者Aのクロストーク想定音声において、話者Aの拡張録音音声に対して、話者Aの拡張録音音声よりも遅延させた話者Bの拡張録音音声および話者C拡張録音音声をそれぞれ重畳する。
【0073】
これにより、話者Aのクロストーク想定音声においては、話者Bおよび話者Cの各拡張録音音声が、話者Aの拡張録音音声に対して、例えば、数ミリ秒遅延するように時間方向のずれ(時間ずれ)が生じる。
【0074】
同様に、訓練用データ作成部101は、話者Bのクロストーク想定音声において、話者Bの拡張録音音声(主拡張録音音声)に対して、時間ずれを生じさせた話者Aの拡張録音音声(従拡張録音音声)および話者Cの拡張録音音声(従拡張録音音声)をそれぞれ重畳する。また、話者Cのクロストーク想定音声において、話者Cの拡張録音音声(主拡張録音音声)に対して、時間ずれを生じさせた話者Aの拡張録音音声(従拡張録音音声)および話者Bの拡張録音音声(従拡張録音音声)をそれぞれ重畳する。
【0075】
また、訓練用データ作成部101は、話者Aのクロストーク想定音声に関しては、話者Aの拡張録音音声(主拡張録音音声)に比べて、話者Bおよび話者Cの拡張録音音声(従拡張録音音声)のパワーが小さくなるように、話者Bおよび話者Cの各拡張録音音声(従拡張録音音声)に対してそれぞれ音量変換処理を行なう。そして、このように音量変換処理を行なった話者Bおよび話者Cの拡張録音音声を話者Aの拡張録音音声にそれぞれ重畳させる。
【0076】
すなわち、訓練用データ作成部101は、話者Aのクロストーク想定音声において、話者Aの拡張録音音声(主拡張録音音声)に対して、話者Aの拡張録音音声(主拡張録音音声)に比べて音量を小さくした話者Bおよび話者Cの各拡張録音音声(従拡張録音音声)の音量を重畳する。
【0077】
これにより、話者Aのクロストーク想定音声においては、話者Aの拡張録音音声に対して話者Bおよび話者Cの各拡張録音音声に、周波数方向のずれ(パワーずれ)が生じる。
【0078】
同様に、訓練用データ作成部101は、話者Bのクロストーク想定音声において、話者Bの拡張録音音声(主拡張録音音声)に対して、話者Bの拡張録音音声に比べて音量を小さくした話者Aおよび話者Cの各拡張録音声(従拡張録音音声)を重畳する。また、訓練用データ作成部101は、話者Cのクロストーク想定音声において、話者Cの拡張録音音声(主拡張録音音声)に対して、話者Cの録音音声に比べて音量を小さくした話者Aおよび話者Bの各拡張録音声(従拡張録音音声)を重畳する。
【0079】
すなわち、訓練用データ作成部101は、特定の話者のクロストーク想定音声に関して、当該話者の拡張録音音声(主拡張録音音声)に対して、当該話者以外の他の話者の拡張録音音声(従拡張録音音声)をパワーずれおよび時間ずれを生じさせて重畳する。なお、これらのパワーずれの量および時間ずれの量は、適宜変更して実施することができる。
【0080】
図6は実施形態の一例としての音声処理システム1における訓練用データ作成部101による訓練用音声セットの作成方法を説明するための図である。
【0081】
この
図6に示す訓練用音声セットの作成方法においては、先ず、上述した手法で複数のクロストーク想定音声(
図6の符号P3参照)が作成される。そして、これらの複数のクロストーク想定音声を用いて、明確化前主話者音声(
図6の符号P5参照)および、除外すべき音声(
図6の符号P8参照)が作成される。
【0082】
先ず、訓練用データ作成部101は、拡張音声データベース202から選択した複数の拡張録音音声の中から、一人の話者(第1の話者)の拡張録音音声(主拡張録音音声)を選択し、この第1の話者についてのクロストーク想定音声を作成する。
【0083】
訓練用データ作成部101は、拡張音声データベース202から選択した複数の拡張録音音声のうち、上述した一人の話者(第1の話者)以外の話者(第2の話者)の拡張録音音声(従拡張録音音声)に対して、遅延処理(
図6の符号P1参照)および音量変換処理(
図6の符号P2)を行なう。第2の話者は複数であってもよい。
【0084】
訓練用データ作成部101は、一人の話者(第1の話者)の拡張録音音声(主拡張録音音声)に対して、遅延処理および音量変換処理を行なった第2の話者の拡張録音音声(従拡張録音音声)を重畳して、第1の話者のマイクで収音されると想定されるクロストーク想定音声を作成する。
【0085】
訓練用データ作成部101は、拡張音声データベース202に登録された複数の話者の拡張録音音声のそれぞれに対して、符号P1,P2の処理を遅延量や音量の変換量を適宜変更しながら繰り返し行なうことで、複数の話者のそれぞれに対して複数のクロストーク想定音声を作成する(
図6の符号P3参照)。
【0086】
訓練用データ作成部101は、作成した複数のクロストーク想定音声の中から、主話者のクロストーク想定音声(第1のクロストーク想定音声)を一つ選択する(
図6の符号P4参照)。このように選択した主話者のクロストーク想定音声は、明瞭化前の分離対象となる主話者の音声(訓練用第1音声データ)として用いられる(
図6の符号P5参照)。
【0087】
複数のクロストーク想定音声の中からの主話者のクロストーク想定音声の選択は、ランダムに行なってもよく、適宜変更して実施することができる。
【0088】
また、訓練用データ作成部101は、作成した複数のクロストーク想定音声の中から、上述の如く選択した主話者以外のクロストーク想定音声(第2のクロストーク想定音声)を抽出する(
図6の符号P6参照)。そして、訓練用データ作成部101は、これらの複数の主話者以外のクロストーク想定音声を重畳する(
図6の符号P7参照)。このように、主話者以外のクロストーク想定音声を重畳した音声信号は、除外すべき音声(訓練用第2音声データを)として用いられる(
図6の符号P8参照)。
【0089】
これらの明瞭化前の分離対象となる主話者の音声(主話者のクロストーク想定音声)と除外すべき音声(主話者以外のクロストーク想定音声を重畳した音声信号)とは、後述する機械学習モデル104への入力データとして用いられる。
【0090】
訓練用データ作成部101は、上述の如く選択・作成した「明瞭化後の分離対象の主話者の音声」、「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」の3つを組み合わせて1つの訓練用音声セットとする。そして、訓練用データ作成部101は、訓練用音声セットを用いて上記の処理を繰り返し行なうことで、複数の訓練用音声セットを作成する。これらの複数の訓練用音声セットが訓練用データセット203として記憶装置13等の所定の記憶領域に記憶される。
【0091】
音声特徴変換部102は、音声データを機械学習モデル104への入力に用いるための符号化を行なう。音声特徴変換部102は、訓練フェーズにおいて、訓練用データ作成部101が作成した「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」の各データに対して特徴量変換を行なう。また、音声特徴変換部102は、推論フェーズにおいて、明瞭化の対象である主音声と主音声以外の重畳音声(詳細は後述)とに対して特徴量変換を行なう。
【0092】
音声特徴変換部102は、特徴量変換により、例えば、時間と振幅との関係で表される音声データを、時間と周波数との関係で表されるデータに変換する。
【0093】
音声特徴変換部102は、例えば、スペクトログラム変換やMFCC(Mel-Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)等の既知の種々の手法を用いて音声の特徴量変換を実現する。音声特徴変換部102は、音声をフーリエ変換し、周波数成分や強さで分解する時間周波数分析を行なってもよい。
【0094】
また、音声特徴変換部102は、訓練フェーズにおいて、訓練用データ作成部101が作成した除外すべき音声の信号に対してパワー調整も行なう。明瞭化の対象である主音声が一つの音声データであるのに対して、主音声以外の重畳音声は、後述の如く、複数の音声データを重畳するものである。そこで、音声特徴変換部102は、主音声以外の重畳音声のパワーレベルに対して、主音声のパワーレベルと同等にするための減衰等の調整を行なう。
【0095】
訓練処理部103は、訓練用データセットを用いて機械学習モデル104に対する訓練(機械学習)を実施する。
【0096】
機械学習モデル104は、例えばニューラルネットワークであり、「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」とが入力されると、「明瞭化後の分離対象の主話者の音声」を出力する。
【0097】
訓練処理部103は、訓練データを用いた機械学習により機械学習モデル104を生成する。訓練データは、第1音声の発生元(主音声,話者)に対応付けたマイクから得られた訓練用第1音声データ(明瞭化前の分離対象となる主話者の音声)と、主音声以外のマイクから得られた訓練用第2音声データ(除外すべき音声)と、第1音声データと訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データ(明瞭化後の分離対象の主話者の音声)と、を対応付けたデータである。
【0098】
ニューラルネットワークは、ハードウェア回路であってもよいし、プロセッサ11によりコンピュータプログラム上で仮想的に構築される階層間を接続するソフトウェアによる仮想的なネットワークであってもよい。ニューラルネットワークをNNと表記する場合がある。
【0099】
訓練処理部103は、音声特徴変換部102により符号化された「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」を入力データとし、主話者の拡張録音音声を正解データとする訓練用データを用いて、機械学習モデル104の訓練を行なう。訓練処理部103は、例えば、機械学習モデル104の出力である「明瞭化後の分離対象の主話者の音声」と正解データ(拡張録音音声)との誤差が小さくなるよう、機械学習モデル104のニューラルネットワークのパラメータを更新する処理を繰り返し行なう。
【0100】
また、入力データとして用いられる「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」は、それぞれクロストークを想定して作成されたクロストーク想定音声である。クロストーク想定音声は時間軸方向にずれを有するという特徴がある。
【0101】
本音声処理システム1においては、このようなクロストーク想定音声の特徴を考慮し、「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」とを別々に時間方向に畳み込みを実施し、時間軸方向のずれが少なくすることで、明瞭化の精度向上につなげる。
【0102】
図7は実施形態の一例としての音声処理システム1における訓練処理部103による訓練フェーズの処理を説明するための図である。
【0103】
機械学習モデル104のニューラルネットワークは、1つ以上の畳み込み層と結合層と復元層とを備える。
【0104】
畳み込み層は、音声特徴変換部102による特徴量変換により作成されたデータに対して時間方向の畳み込みを行なう。このような時間方向の畳み込みを行なうことで、クロストーク想定音声に含まれる複数の想定音声の時間方向のずれを吸収する。
【0105】
機械学習モデル104には、上述の如く、「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」との2つの音声データが入力され、複数の畳み込み層は、これらの音声データに対してそれぞれ畳み込み処理を行なう。
【0106】
結合層は、畳み込み層が「明瞭化前の分離対象となる主話者の音声」に対して畳み込みを行なうことで生成した出力データと、畳み込み層が「除外すべき音声」に対して畳み込みを行なうことで生成した出力データとを結合させる。
【0107】
復元層は、結合層により結合され出力された出力データから個々の拡張録音音声を復元する。
【0108】
このように、機械学習モデル104は、入力された「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」との2つの音声データをそれぞれ時間方向に畳み込みを行なった後に結合し、復元する。
【0109】
機械学習モデル104は、復元された拡張録音音声の中から、主音声の拡張録音音声を抽出して推論結果として出力する。
【0110】
訓練処理部103は、機械学習モデル104の推論結果を「明瞭化後の分離対象の主話者の音声(正解データ)」とに基づき、ニューラルネットワークの重み等のパラメータを最適化することによって機械学習モデル104を生成する。
【0111】
訓練処理部103は、例えば、勾配降下法を用いて、訓練用データに対する機械学習モデル103の推論結果と正解データとの誤差を定義した損失関数を小さくする方向に、ニューラルネットワークのパラメータをと更新することによって、パラメータの最適化を行なってもよい。
【0112】
推論処理部105は、推論フェーズにおいて、機械学習モデル104を用いて推論を行なう。
【0113】
図8は実施形態の一例としての音声処理システム1の機械学習モデル104の推論フェーズにおける入力データを説明するための図である。
【0114】
推論処理部105は、機械学習モデル104に、クロストークを含む主音声(
図8の符号A参照)と主音声以外の重畳音声(
図8の符号B~F参照)とを入力する。クロストークを含む主音声は明瞭化対象の音声である。また、主音声以外の重畳音声は除外すべき音声(ノイズ成分)である。
【0115】
機械学習モデル104は、クロストークを含む主音声からクロストーク(ノイズ成分)を除去し、明瞭化された主音声を出力する。
【0116】
図9は実施形態の一例としての音声処理システム1における推論処理部105による推論フェーズ時の処理を説明するための図である。
【0117】
推論処理部105は、音声特徴変換部102に、明瞭化の対象である主音声と、主音声以外の拡張録音音声を重畳させた音声(主音声以外の重畳音声)とを入力し、これらの音声データに対して時間周波数分析(特徴量変換)を行なわせる。また、この際、音声特徴変換部102は、主音声以外の重畳音声に対してパワー調整も行なう。
【0118】
機械学習モデル104は、音声特徴変換部102により変換された2つの音声データに対して、それぞれ時間方向に畳み込みを行なった後に結合し、復元する。また、機械学習モデル104は、復元された音声の中から、明瞭化された主音声を抽出して推論結果として出力する。
【0119】
(B)動作
上述の如く構成された実施形態の一例としての音声処理システム1における訓練フェーズの処理を、
図10に示すフローチャート(ステップS01~S06)に従って説明する。
【0120】
ステップS01において、訓練処理部103は、拡張音声データベース202から訓練用データ(音声データセット)を読み出す。
【0121】
ステップS02において、訓練処理部103は、音声データセットに含まれる「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」とを音声特徴変換部102に入力し、特徴量変換を実施させる。
【0122】
音声特徴変換部102は、「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」の各データに対して、それぞれ特徴量変換を行なう。
【0123】
ステップS03において、訓練処理部103は、機械学習モデル104(ニューラルネットワーク)の訓練を行なう。訓練データは、音声特徴変換部102により符号化された「明瞭化前の分離対象となる主話者の音声」および「除外すべき音声」を入力データとし、主話者の拡張録音音声を正解データとするデータである。
【0124】
機械学習モデル104においては、畳み込み層が、入力された特徴変換済みの2つの音声データに対して、それぞれ時間方向の畳み込みを行なう。また、結合層が、畳み込み層から出力される2つの出力データを結合させる。そして、復元層が、結合層により結合され出力された出力データから個々の拡張録音音声を復元する。
【0125】
そして、機械学習モデル104は、復元された拡張録音音声の中から、主音声の拡張録音音声を抽出して推論結果として出力する。
【0126】
ステップS04において、訓練処理部103は、機械学習モデル104に対して、入力データに基づいて機械学習モデル104が出力する推論結果を正解データと比較させる。
【0127】
ステップS05において、訓練処理部103は、機械学習モデル104に、例えば、勾配降下法を用いて、訓練用データに対する機械学習モデル103の推論結果と正解データとの誤差を定義した損失関数を小さくする方向に、ニューラルネットワークのパラメータをと更新させることによって、重み等のパラメータの最適化を行なう。
【0128】
ステップS06において、訓練処理部103は、訓練の終了条件を満たしているかを確認する。例えば、訓練用データ(音声データセット)を用いて行なった訓練の数が所定のエポック数に到達した場合や、機械学習モデル104の精度が所定の閾値に到達した場合に、訓練処理部103は、訓練の終了条件を満たしたと判断してもよい。
【0129】
訓練の終了条件を満たしていない場合には(ステップS06のNOルート参照)、ステップS01に戻る。また、訓練の終了条件を満たしている場合には(ステップS06のYESルート参照)、処理を終了する。
【0130】
次に、実施形態の一例としての音声処理システム1における推論フェーズの処理を、
図11に示すフローチャート(ステップS11~S14)に従って説明する。
【0131】
ステップS11において、推論処理部105は、明瞭化の対象である主音声と主音声以外の重畳音声とを取得する。
【0132】
ステップS12において、推論処理部105は、主音声と主音声以外の重畳音声とを音声特徴変換部102に入力し、特徴量変換を実施させる。
【0133】
音声特徴変換部102は、主音声および主音声以外の重畳音声の各データに対して、それぞれ特徴量変換を行なう。
【0134】
ステップS13において、推論処理部105は、音声特徴変換部102により符号化された主音声と主音声以外の重畳音声とを機械学習モデル104(ニューラルネットワーク)に入力する。
【0135】
機械学習モデル104においては、畳み込み層が、入力された特徴変換済みの2つの音声データに対して、それぞれ時間方向の畳み込みを行なう。また、結合層が、畳み込み層から出力される2つの出力データを結合させる。そして、復元層が、結合層により結合され出力された出力データから個々の音声を復元する。
【0136】
ステップS14において、推論処理部105は、機械学習モデル104に対して、復元された音声の中から、主音声の拡張録音音声を抽出して推論結果として出力させる。
【0137】
(C)効果
このように、実施形態の一例としての音声処理システム1によれば、予訓練用データ作成部101が、「明瞭化前の分離対象となる主話者の音声」と「除外すべき音声」との2つの入力に対する、パワーずれおよび時間ずれが生じている場合を考慮した複数種類のクロストーク想定音声(訓練用データ)を生成する。
【0138】
そして、訓練フェーズにおいて、これらのクロストーク想定音声を反映させた訓練用データを用いて機械学習モデル104の訓練を行なう。これにより、クロストークの発生を想定したマイク環境が機械学習モデル104の訓練に反映され、機械学習モデル104の精度を向上させることができる。そして、話者に最も近いマイクの音声に対して明瞭な発話を得ることができ、音声認識、発話区間の検出等に用いることができる。また、話者およびマイクが移動した場合でも、明瞭な主話者の音声を得ることができる。
【0139】
訓練フェーズにおいて、ニューラルネットワークのパラメータ更新を実施することで、推論フェーズにおいてパラメータ更新の反復を行なう必要がない。これにより、例えば、計算コストを低減することができる。
【0140】
推論フェーズにおいて、明瞭化の対象である主音声と主音声以外の重畳音声とを推論処理部105が特徴量変換を実施した各データに対して、機械学習モデル104(ニューラルネットワーク)が、時間方向の畳み込みを行なった後に結合し、復元する。
【0141】
これにより、主音声以外が重畳された音声において時間的なずれが生じていても、適切な音源分離を行なうことができる。また、音源(話者)音源とマイクとが移動している場合においても、主音声を適切に明瞭化することができる。
【0142】
また、複数の話者(音声発生元)のそれぞれにマイクが装着され、各話者の移動に従って各話者に装着されたマイクもそれぞれ移動する環境において、マイクの数(話者の数)にかかわらず、目的の話者の音声のみを明確化(抽出,分離)することができる。
【0143】
推論フェーズにおいて、分離対象の主音声以外の音声データを重畳することにより、多チャンネルにおいても一定の処理速度を維持することができる。
【0144】
主音声および主音声以外が重畳された音声に対して、機械学習モデル104(ニューラルネットワーク)が、時間方向の畳み込みを行なう。これにより、主音声以外が重畳された音声で、時間的なずれが生じていても適切な音源分離を行なうことができる。
【0145】
訓練用データ作成部101が、マイクから得られた音声データ(録音音声)に対して周波数特性変換やサンプリングデータ周波数変換,音量変換等の加工を行なうことで、録音音声のデータ拡張(水増し)を容易に行なうことができる。
【0146】
図12は実施形態の一例としての音声処理システム1による推論結果を例示する図である。
【0147】
この
図12においては、2人の話者X,Yが同時に発話している環境下での話者Xのマイクの音声と話者Yのマイクの音声とを示す。話者Yのマイクには、話者Yの音声とともに話者Xの音声がクロストークとして入力されているものとする。
【0148】
そして、話者Xのマイク音声と話者Yのマイク音声とを入力データとして、明瞭化対象(主音声)を話者Xの音声とし、主音声以外の入力を話者Yとした場合の推論結果を符号Aで示す。
【0149】
この符号Aにおいては、話者Xの音声波形の先端に話者Yの音声が若干表れている(Yのクロストーク参照)。このような、マイクが収音した、話者Yの音声が混ざった明瞭化前の音声をBeforeと表す。そして、本音声処理システム1により話者Xの音声を明瞭化して出力した音声をAfterと表す。
【0150】
一方、話者Xのマイク音声と話者Yのマイク音声とを入力データとして、明瞭化対象(主音声)を話者Yの音声とし、主音声以外の入力を話者Xとした場合の推論結果を符号Bで示す。
【0151】
この符号Bにおいては、話者Yのマイクが収音した明瞭化前の音声(Before)と、本音声処理システム1により話者Yの音声を明瞭化して出力した音声(After)とを示す。
【0152】
この
図12において、符号Aで示すように、明瞭化対象の音声として発話者Xの音声を入力した場合には、話者Xのマイクが収音した明瞭化前の音声(Before)と、本音声処理システム1により話者Xの音声を明瞭化して出力した音声(After)とがほぼ等しく、悪影響は少ないことがわかる(符号A参照)。
【0153】
一方、符号Bで示すように、明瞭化対象の音声にクロストークが多く発生しているYの音声を入力した場合においても、Afterにおいて、Xのクロストークが減衰され、話者Yの音声が明確化されていることが確認できる。
【0154】
(D)その他
本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
【0155】
そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
【0156】
例えば、上述した実施形態においては、複数の話者の音声によるクロストークを解消する手法を例示しているが、これに限定されるものではない。
【0157】
例えば、クロストークとして入力される話者の音声を減衰する代わりに、音声に含まれる特定のノイズの除去に適用してもよい。例えば、コンサート会場において、環境音や拍手の音等を収音するマイクを用意し、演奏曲を収音するために備えられたマイクにクロストークとして入力された環境音や拍手の音等を減衰せることで、演奏曲の明瞭化を行なってもよい。
【0158】
また、本音声処理システム1において、複数のマイクから収音された音声をリアルタイムに処理することでノイズキャンセリングシステムを実現してもよい。
【0159】
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
【0160】
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
【0161】
(付記1)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理をコンピュータに実行させるモデル生成プログラム。
【0162】
(付記2)
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで複数の拡張録音音声を作成し、
前記複数の拡張録音音声の中から選択した主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで、クロストーク想定音声を作成し、
複数の前記クロストーク想定音声の中から選択した第1のクロストーク想定音声を前記訓練用第1音声データとし、
複数のクロストーク想定音声の中から選択した、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して、前記訓練用第2音声データを作成する
処理を前記コンピュータに実行させる付記1に記載のモデル生成プログラム。
【0163】
(付記3)
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
処理を前記コンピュータに実行させる付記1または2に記載のモデル生成プログラム。
【0164】
(付記4)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理をコンピュータに実行させる音声処理プログラム。
【0165】
(付記5)
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで作成された複数の拡張録音音声の中から選択された主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで作成されたクロストーク想定音声に基づき、
前記訓練用第1音声データが、複数の前記クロストーク想定音声の中から選択された第1のクロストーク想定音声であり、
前記訓練用第2音声データが、複数のクロストーク想定音声の中から選択された、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して作成される
ことを特徴とする付記4に記載の音声処理プログラム。
【0166】
(付記6)
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
ことを特徴とする付記4または5に記載の音声処理プログラム。
【0167】
(付記7)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理を実行する制御部を備えることを特徴とする情報処理装置。
【0168】
(付記8)
前記制御部が、
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで複数の拡張録音音声を作成し、
前記複数の拡張録音音声の中から選択した主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで、クロストーク想定音声を作成し、
複数の前記クロストーク想定音声の中から選択した第1のクロストーク想定音声を前記訓練用第1音声データとし、
複数のクロストーク想定音声の中から選択した、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して、前記訓練用第2音声データを作成する
処理を実行する付記7に記載の情報処理装置。
【0169】
(付記9)
前記制御部が、
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
処理を実行する付記7または8に記載の情報処理装置。
【0170】
(付記10)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理を実行する制御部を備えることを特徴とする情報処理装置。
【0171】
(付記11)
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで作成された複数の拡張録音音声の中から選択された主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで作成されたクロストーク想定音声に基づき、
前記訓練用第1音声データが、複数の前記クロストーク想定音声の中から選択された第1のクロストーク想定音声であり、
前記訓練用第2音声データが、複数のクロストーク想定音声の中から選択された、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して作成される
ことを特徴とする付記10に記載の情報処理装置。
【0172】
(付記12)
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
ことを特徴とする付記10または11に記載の情報処理装置。
【0173】
(付記13)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データと前記訓練用第2音声データの少なくとも一方に含まれる音声を明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により、推論用第1音声データと推論用第2音声データとの入力に応じて、明瞭化音声データを生成する音声処理モデルを生成する
処理をコンピュータが実行することを特徴とするモデル生成方法。
【0174】
(付記14)
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで複数の拡張録音音声を作成し、
前記複数の拡張録音音声の中から選択した主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで、クロストーク想定音声を作成し、
複数の前記クロストーク想定音声の中から選択した第1のクロストーク想定音声を前記訓練用第1音声データとし、
複数のクロストーク想定音声の中から選択した、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して、前記訓練用第2音声データを作成する
処理を前記コンピュータが実行することを特徴とする付記13に記載のモデル生成方法。
【0175】
(付記15)
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
処理を前記コンピュータが実行することを特徴とする付記13または14に記載のモデル生成方法。
【0176】
(付記16)
マイクから得られた訓練用第1音声データと、前記マイクと異なる他のマイクから得られた訓練用第2音声データと、前記訓練用第1音声データ訓練用明瞭化音声データを明瞭化処理した訓練用明瞭化音声データと、を対応付けた訓練データを用いた機械学習により生成した音声処理モデルに、推論用第1音声データと推論用第2音声データとを入力し、明瞭化音声データを生成する
処理をコンピュータが実行することを特徴とする音声処理方法。
【0177】
(付記17)
前記訓練用第1音声データおよび前記訓練用第2音声データに対して加工を行なうことで作成された複数の拡張録音音声の中から選択された主拡張録音音声に対して、前記複数の拡張録音音声のうちの前記主拡張録音音声とは異なる拡張録音音声に遅延処理および音量変換処理を行なった従拡張録音音声を重畳させることで作成されたクロストーク想定音声に基づき、
前記訓練用第1音声データが、複数の前記クロストーク想定音声の中から選択された第1のクロストーク想定音声であり、
前記訓練用第2音声データが、複数のクロストーク想定音声の中から選択された、第1のクロストーク想定音声以外の複数の第2のクロストーク想定音声を重畳して作成される
ことを特徴とする付記16に記載の音声処理方法。
【0178】
(付記18)
前記音声処理モデルが、前記訓練用第1音声データ,前記訓練用第2音声データ,前記推論用第1音声データおよび前記推論用第2音声データに対して、それぞれ時間方向の畳み込みを行なう
ことを特徴とする付記16または17に記載の音声処理方法。
【符号の説明】
【0179】
1 音声処理システム
10 情報処理装置
11 プロセッサ(制御部)
12 メモリ
13 記憶装置
14 グラフィック処理装置
14a モニタ
15 入力インタフェース
15a キーボード
15b マウス
16 光学ドライブ装置
16a 光ディスク
17 機器接続インタフェース
17a メモリ装置
17b メモリリーダライタ
17c メモリカード
18 ネットワークインタフェース
19 バス
101 訓練用データ作成部
102 音声特徴変換部
103 訓練処理部
104 機械学習モデル
105 推論処理部
201 音声データベース
202 拡張音声データベース
203 訓練用データセット