(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-08
(45)【発行日】2024-10-17
(54)【発明の名称】学習装置、学習方法及びプログラム
(51)【国際特許分類】
G10L 21/10 20130101AFI20241009BHJP
G10L 25/51 20130101ALI20241009BHJP
G10L 17/04 20130101ALI20241009BHJP
【FI】
G10L21/10
G10L25/51
G10L17/04
(21)【出願番号】P 2023521996
(86)(22)【出願日】2021-05-17
(86)【国際出願番号】 JP2021018586
(87)【国際公開番号】W WO2022244047
(87)【国際公開日】2022-11-24
【審査請求日】2023-09-08
【新規性喪失の例外の表示】特許法第30条第2項適用 ”BYOL for Audio:Self-Supervised Learning for General-Purpose Audio Representation”のアブストラクトの第1版(v1)のarXivでの発表,掲載年月日:2021年3月11日,掲載アドレス:https://arxiv.org/abs/2103.06695v1
【新規性喪失の例外の表示】特許法第30条第2項適用 ”BYOL for Audio:Self-Supervised Learning for General-Purpose Audio Representation”のPDFファイルの第1版(v1)のarXivでの発表,掲載年月日:2021年3月11日,掲載アドレス:https://arxiv.org/pdf/2103.06695v1.pdf
【新規性喪失の例外の表示】特許法第30条第2項適用 ”BYOL for Audio:Self-Supervised Learning for General-Purpose Audio Representation”のアブストラクトの第2版(v2)のarXivでの発表,掲載年月日:2021年3月11日,掲載アドレス:https://arxiv.org/abs/2103.06695v2
【新規性喪失の例外の表示】特許法第30条第2項適用 ”BYOL for Audio:Self-Supervised Learning for General-Purpose Audio Representation”のPDFファイルの第2版(v2)のarXivでの発表,掲載年月日:2021年3月11日,掲載アドレス:https://arxiv.org/pdf/2103.06695v2.pdf
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】仁泉 大輔
(72)【発明者】
【氏名】大石 康智
(72)【発明者】
【氏名】竹内 大起
(72)【発明者】
【氏名】原田 登
(72)【発明者】
【氏名】柏野 邦夫
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2006-201665(JP,A)
【文献】特開2006-285882(JP,A)
【文献】特開2021-12351(JP,A)
【文献】米国特許出願公開第2021/0056980(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習部と、
前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張部と、
を備え、
前記データ拡張部は、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、
前記自己学習部は、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、
学習装置。
【請求項2】
前記変換処理は、部分時系列の一方である第1部分時系列を他の時系列である第1被混合時系列を用いて変更する第1ミックスアップ処理と、部分時系列の他方である第2部分時系列を前記第1被混合時系列と異なる第2被混合時系列を用いて変更する第2ミックスアップ処理と、を含む、
請求項1に記載の学習装置。
【請求項3】
周波数と時刻との組ごとに強度を示す情報を音響画像データとして、前記変換処理は、前記第1ミックスアップ処理による変更後の第1部分時系列である第1混合時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第1ランダムリサイズ処理と、前記第2ミックスアップ処理による変更後の第2部分時系列である第2混合時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第2ランダムリサイズ処理と、を含む、
請求項2に記載の学習装置。
【請求項4】
前記変換処理は、部分時系列の一方である第1部分時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第1ランダムリサイズ処理と、部分時系列の他方である第2部分時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第2ランダムリサイズ処理と、を含む、
請求項1に記載の学習装置。
【請求項5】
処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習ステップと、
前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張ステップと、
を有し、
前記データ拡張ステップは、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、
前記自己学習ステップは、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、
学習方法。
【請求項6】
請求項1から4のいずれか一項に記載の学習装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法及びプログラム
に関する。
【背景技術】
【0002】
入力された音響のデータを予め定められた所定の形式に変換する数理モデルを、対照学習等の自己教師あり学習の方法で生成する技術が知られている。
【先行技術文献】
【非特許文献】
【0003】
【文献】A. Saeed et. al., “Contrastive learning of general-purpose audio representations” arXiv preprintarXiv::2010.10915, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
音響の時系列である音響時系列を変換する数理モデルの生成に用いられる学習では、1つの音響時系列の別々の時間から切り出された対のセグメントが用いられる。この際、対の一方と他方との類似度は時間間隔が短いほど高く時間間隔が長いほど類似度が低い、という仮定の下で設計された学習アルゴリズムが作られている。
【0005】
しかしながら、このような仮定が必ずしも真ではない場面もある。このような場面では、音響時系列の変換が適切に行われない場合があった。すなわち、音響時系列の変換の精度が低い場合があった。
【0006】
上記事情に鑑み、本発明は、音響の時系列である音響時系列の変換の精度を向上させる技術を提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明の一態様は、処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習部と、前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張部と、を備え、前記データ拡張部は、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、前記自己学習部は、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、学習装置である。
【0008】
本発明の一態様は、処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習ステップと、前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張ステップと、を有し、前記データ拡張ステップは、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、前記自己学習ステップは、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、学習方法である。
【0009】
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0010】
本発明により、音響の時系列である音響時系列の変換の精度を向上させることが可能となる。
【図面の簡単な説明】
【0011】
【
図1】実施形態の音響変換システムの構成の一例を示す図。
【
図2】実施形態におけるデータ拡張処理を説明する説明図。
【
図3】実施形態における音響画像変形処理を説明する説明図。
【
図4】実施形態における自己学習実行処理の一例を説明する説明図。
【
図5】実施形態の学習装置のハードウェア構成の一例を示す図。
【
図6】実施形態の学習装置が備える制御部の構成の一例を示す図。
【
図7】実施形態における学習装置が実行する処理の流れの一例を示すフローチャート。
【
図8】実施形態における変換装置のハードウェア構成の一例を示す図。
【
図9】実施形態の変換装置が備える制御部の構成の一例を示す図。
【
図10】実施形態における変換装置が実行する処理の流れの一例を示すフローチャート。
【
図11】実施形態の音響変換システムを用いた実験の結果を示す第1の図。
【
図12】実施形態の音響変換システムを用いた実験の結果を示す第2の図。
【発明を実施するための形態】
【0012】
(実施形態)
図1は、実施形態の音響変換システム100の構成の一例を示す図である。音響変換システム100は、学習装置1と変換装置2とを含む。学習装置1は、入力された音響時系列を予め定められた所定の形式(以下「対象形式」という。)のデータに変換する処理(以下「音響変換処理」という。)の内容を学習により更新する。対象形式のデータは、例えば表現埋め込みである。音響変換処理は学習モデルの一種である。音響時系列は音響の時系列である。
【0013】
音響時系列は、テンソルで表現される。音響時系列は、例えば各時刻における周波数とその周波数成分の強度とを示す2階のテンソル(すなわち行列)であって、要素の値が周波数成分の強度を示すテンソルであってもよい。音響時系列は、例えば各時刻における、チャネルと周波数と周波数成分の強度との組を示す3階のテンソルであって、要素の値が周波数成分の強度を示すテンソルであってもよい。
【0014】
音響時系列は、例えば各時刻における音響の強度を示す1階のテンソル(すなわちベクトル)であってもよい。以下、テンソルは要素が周波数成分の強度を表す場合を例に音響変換システム100を説明する。テンソルの要素の値が示す強度は、テンソルが2階以上のテンソルの場合には、周波数成分の強度である。
【0015】
以下、音響時系列を表現するテンソルの各次元が示す量を、非強度量という。非強度量の1つは、例えば時刻である。非強度量の1つは、例えば周波数である。
【0016】
対象形式は、例えば512個の浮動小数点数値のデータ、という形式である。対象形式は、例えば1024個の浮動小数点数値のデータ、という形式であってもよい。対象形式は、例えば2048個の浮動小数点数値のデータ、という形式であってもよい。
【0017】
学習装置1は、自己学習実行処理と、データ拡張処理とを実行する。自己学習実行処理は、BYOL(Bootstrap Your Own Latent)等の自己教師あり学習を実行する処理である。以下、自己教師あり学習を実行する処理を、自己学習処理という。
【0018】
自己学習処理の実行により更新される学習モデルは、データ拡張処理の実行により得られたデータを対象形式のデータに変換する処理(以下「主変換処理」という。)である。主変換処理も学習モデルの一種である。音響変換処理と主変換処理との関係について説明する。音響変換処理は、主変換処理を含む。より具体的には、音響変換処理はデータ拡張処理と、主変換処理とを含む。
【0019】
データ拡張処理は、主変換処理の実行の対象のデータ(以下「主処理対象データ」という。)を生成する処理である。自己学習処理は、主処理対象データに対して主変換処理を実行し、実行の結果を用いて主変換処理の内容を更新する。そのため、主処理対象データは、主変換処理の学習時には自己学習処理の処理対象のデータでもある。
【0020】
図2は、実施形態におけるデータ拡張処理を説明する説明図である。データ拡張処理は、少なくとも、音響時系列切り出し処理、複製処理、ミックスアップ処理及びランダムリサイズ処理を含む。
【0021】
音響時系列切り出し処理は、処理の対象(以下「処理対象」という。)の音響時系列(以下「切り出し対象時系列」という。)の一部の時系列を取得する処理である。以下、切り出し対象時系列の一部の時系列であって、音響時系列切り出し処理によって得られた時系列を、部分時系列という。部分時系列の長さは、切り出し対象時系列の長さ以下の長さであってもよいし、切り出し対象時系列よりも長い長さであってもよい。部分時系列の長さが切り出し対象時系列よりも長い場合、部分時系列の長さと切り出し対象時系列の長さとの差の時系列のサンプルの値は、零等の予め定められた所定の値である。
【0022】
複製処理は、部分時系列を複製する処理である。複製処理で得られた2つの部分時系列は同一の時系列であるが、以下説明の簡単のため、複製処理で得られた2つの部分時系列をそれぞれ第1部分時系列、第2部分時系列という。なお、第1部分時系列は、例えば複製元の部分時系列であり、第2部分時系列は、複製元の部分時系列を複製することで得られた時系列である。第1部分時系列及び第2部分時系列は、両方とも、複製元の部分時系列を複製することで得られた時系列であってもよい。
【0023】
ミックスアップ処理は、第1部分時系列と第2部分時系列とのそれぞれに対して実行される。ミックスアップ処理は、第1加重平均処理と第2加重平均処理とを含む。第1加重平均処理は、第1混合時系列を得る処理である。第1混合時系列は、第1表現テンソル条件を満たす時系列である。第1表現テンソル条件は、第1階数条件と第1要素条件とを含む。第1階数条件は、第1混合時系列を表現するテンソルの階数が第1部分時系列と同一という条件である。
【0024】
第1要素条件は、第1混合時系列を表現するテンソルの要素は、第1部分時系列を表現するテンソルの要素と、第1被混合時系列を表現するテンソルであって第1部分時系列と同じ階数のテンソルの要素と、の加重平均である、という条件である。加重平均における重みは、ランダムに決定される重みであってもよいし、予め定められた所定の規則に従って決定される重みであってもよい。第1被混合時系列は、第1部分時系列と異なる他の時系列である。
【0025】
第2加重平均処理は、第2混合時系列を得る処理である。第2混合時系列は、第2表現テンソル条件を満たす時系列である。第2表現テンソル条件は、第2階数条件と第2要素条件とを含む。第2階数条件は、第2混合時系列を表現するテンソルの階数が第2部分時系列と同一という条件である。
【0026】
第2要素条件は、第2混合時系列を表現するテンソルの要素は、第2部分時系列を表現するテンソルの要素と、第2被混合時系列を表現するテンソルであって第2部分時系列と同じ階数のテンソルの要素と、の加重平均である、という条件である。加重平均における重みは、ランダムに決定される重みであってもよいし、予め定められた所定の規則に従って決定される重みであってもよい。第2被混合時系列は、少なくとも第1被混合時系列と異なる時系列であればよく、例えば、第2部分時系列及び第1被混合時系列と異なる時系列である。第2被混合時系列は、第1部分時系列、第2部分時系列及び第1被混合時系列と異なる時系列であってもよい。
【0027】
ランダムリサイズ処理は、第1混合時系列と第2混合時系列とのそれぞれに対して実行される。ランダムリサイズ処理は、第1ランダムリサイズ処理と第2ランダムリサイズ処理とを含む。第1ランダムリサイズ処理は、第1混合時系列に対して実行される音響画像変形処理である。音響画像変形処理の詳細は後述するが、音響画像変形処理は音響画像に対して実行される処理である。音響画像は、音響時系列を表現する画像である。より具体的には、音響画像は、周波数と時刻との組ごとに強度を示す情報である。第2リサイズ処理は、第2混合時系列に対して実行される音響画像変形処理である。音響画像変形処理の定義を、
図3を用いて説明する。
【0028】
図3は実施形態における音響画像変形処理を説明する説明図である。音響画像変形処理は、拡張音響画像データ生成処理と、音響画像データ抽出処理と、リサイズ処理とを含む。拡張音響画像データ生成処理は、処理対象の時系列を表現する音響画像を示すデータ(以下「対象音響画像データ」という。)に零音響画像データを追加する処理である。
【0029】
上述したように音響画像は、周波数と時刻との組ごとに強度を示す情報である。したがって音響画像に対しては、画像処理の技術を適用可能である。以下、音響画像を示すデータを音響画像データという。
【0030】
零音響画像データは、要素の値が全て0のテンソルであるである。すなわち、零音響画像データは、サンプルの値が全て0の時系列を示す。
【0031】
以下、零音響画像データの追加後の対象音響画像データを拡張音響画像データという。
図2の例では、高さF長さTの画像が対象音響画像データの示す音響画像である。
図2の例におけるFは周波数であり、長さTは時間である。
図3の例では、高さF長さTcの画像である拡張音響画像が、拡張音響画像データが示す画像である。
【0032】
音響画像データ抽出処理は、拡張音響画像データの一部を取得する処理である。以下、音響画像データ抽出処理によって得られた音響画像データを、部分音響画像データという。
図3の例では、“crop area”と記載された領域内の画像が、部分音響画像データの示す音響画像である。
【0033】
リサイズ処理は、部分音響画像データが示す音響画像を、対象音響画像データが示す音響画像と同一のサイズに変形する処理である。サイズの変形では、音響画像の拡大又は縮小が行われる場合がある。音響画像の拡大とは、時系列のサンプル数を増やすことを意味する。音響画像の縮小とは、時系列のサンプル数を減らすことを意味する。
【0034】
時系列のサンプル数を増やす際には、予め定められた所定の補間の方法によりサンプル数の増加が行われる。時系列のサンプル数を減らす際には、予め定められた所定の規則にしたがって、サンプル数が減らされる。
図3の例では、画像A1が、リサイズ処理によって得られた音響画像データの示す音響画像の例である。
図3の例では画像A1は、”crop area”の音響画像を拡大することで得られた音響画像である。
【0035】
上述したように時系列はテンソルで表現されるため、音響画像変形処理をテンソルで表現する。拡張音響画像データ生成処理は、時系列を表現するテンソルの要素数を増やす処理である。すなわち、拡張音響画像データ生成処理は、時系列を表現するテンソルの前後に零音響画像データを追加する処理である。音響画像データ抽出処理は、拡張音響画像データが表現するテンソルの一部の要素を抽出する処理である。リサイズ処理は、音響画像データ抽出処理によって得られたテンソルのサイズを対象音響画像データのテンソルのサイズに変更する処理である。
【0036】
このように、音響画像変形処理は、処理対象の時系列を示す音響画像の少なくとも一部に対して、アフィン変換を実行する処理である。
【0037】
ランダムリサイズ処理の実行により、第1ランダムリサイズ処理と第2ランダムリサイズ処理とが実行され、第1混合時系列に対して音響画像変形処理が実行された結果と、第2混合時系列に対して音響画像変形処理が実行された結果と、が得られる。以下、第1混合時系列に対して音響画像変形処理が実行された結果を、第1拡張済みデータという。以下、第2混合時系列に対して音響画像変形処理が実行された結果を、第2拡張済みデータという。第1拡張済みデータと第2拡張済みデータとの組が、主処理対象データの一例である。
【0038】
なお、ランダムリサイズ処理は、必ずしも第1混合時系列と第2混合時系列とのそれぞれに対して実行される必要は無い。ランダムリサイズ処理は、第1混合時系列に代えて第1部分時系列に対して実行され、第2混合時系列に代えて第2部分時系列に対して実行されてもよい。このように、ミックスアップ処理とランダムリサイズ処理とは、必ずしも両方が実行される必要はなく、どちらか一方だけが実行されてもよい。
【0039】
以下、複製処理の結果に基づき主処理対象データを取得する処理を、変換処理という。すなわち、変換処理は、複製処理によって得られた音響時系列の一方と他方とを所定の規則に従って変換する処理である。所定の規則は、例えば、ミックスアップ処理を実行した後にミックスアップ処理の結果に対してランダムリサイズ処理を行い、ランダムリサイズ処理の結果を主処理対象データとして取得する、という規則である。所定の変換は、例えばミックスアップ処理を行い、ミックスアップ処理の結果を主処理対象データとして取得する、という規則であってもよい。
【0040】
学習装置1は、上述したように自己学習実行処理を実行する。すなわち、学習装置1は、データ拡張処理によって得られた主処理対象データを用いて自己学習処理を実行する。学習装置1は、主処理対象データを用いた自己学習処理の実行により、主変換処理の内容を更新する。主変換処理は音響変換処理に含まれるため、主変換処理の内容の更新とは音響変換処理の内容の更新である。
【0041】
以下、所定の終了条件が満たされた時点の音響変換処理を学習済みの音響変換処理という。終了条件は、例えば所定の回数の学習が行われたという条件である。終了条件は、例えば学習に依る音響変換処理の内容の変化が所定の変化より小さい、という条件であってもよい。
【0042】
図4は、実施形態における自己学習実行処理の一例を説明する説明図である。
図4のvは、データ拡張処理で得られた第1拡張済みデータを示す。
図4のv´は、データ拡張処理で得られた第2拡張済みデータを示す。
図4は、データ拡張処理の実行後に自己学習実行処理が実行されることを示す。自己学習実行処理では、例えば、BYOLで定義されるエンコード、プロジェクション及び予測の処理が実行される。BYOLでは、例えばMSE(Mean Squared Error)ロスを最少化するように、主変換処理の内容の更新が行われる。
【0043】
図1の説明に戻る。変換装置2は学習済みの音響変換処理を実行することで、変換の対象の音響時系列を対象形式のデータに変換する。
【0044】
図5は、実施形態の学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0045】
より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0046】
制御部11は、学習装置1が備える各種機能部の動作を制御する。制御部11は、例えばデータ拡張処理と自己学習実行処理とを実行する。制御部11は、例えば出力部15の動作を制御する。制御部11は、例えばデータ拡張処理と自己学習実行処理との実行により生じた各種情報を記憶部14に記録する。
【0047】
入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、学習装置1に対する各種情報の入力を受け付ける。
【0048】
通信部13は、学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば音響信号の送信元の装置である。外部装置は、例えば変換装置2である。
【0049】
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えばデータ拡張処理と自己学習実行処理との実行により生じた各種情報を記憶する。
【0050】
出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えばデータ拡張処理と自己学習実行処理との実行結果を表示してもよい。
【0051】
図6は、実施形態における制御部11の構成の一例を示す図である。制御部11は、音響時系列取得部110、データ拡張部120、自己学習部130、記憶制御部140、通信制御部150及び出力制御部160を備える。音響時系列取得部110は、通信部13に入力された音響時系列を取得する。データ拡張部120は、音響時系列取得部110の取得した音響時系列に対してデータ拡張処理を行うことで、主処理対象データを取得する。
【0052】
自己学習部130は、主処理対象データを用いて自己学習処理を実行する。自己学習部130は、終了判定処理も実行する。終了判定処理は、所定の終了条件が満たされたか否かを判定する処理である。自己学習部130は、所定の終了条件が満たされた場合に、自己学習処理の実行を終了する。
【0053】
記憶制御部140は、記憶部14に各種情報を記録する。通信制御部150は通信部13の動作を制御する。出力制御部160は、出力部15の動作を制御する。
【0054】
図7は、実施形態における学習装置1が実行する処理の流れの一例を示すフローチャートである。音響時系列取得部110が音響時系列を取得する(ステップS101)。次にデータ拡張部120が、ステップS101で取得された音響時系列に対してデータ拡張処理を実行する(ステップS102)。次にデータ拡張処理の実行により、データ拡張部120は、主処理対象データを取得する。次に自己学習部130がステップS102で取得された主処理対象データに基づき、自己学習処理を実行する(ステップS103)。自己学習処理の実行により、音響変換処理の内容が更新される。
【0055】
次に自己学習部130は、終了判定処理を実行する(ステップS104)終了条件が満たされた場合(ステップS104:YES)、処理が終了する。一方、終了判定条件が満たされない場合(ステップS104:NO)、ステップS101の処理に戻る。
【0056】
図8は、実施形態における変換装置2のハードウェア構成の一例を示す図である。変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。変換装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
【0057】
より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、変換装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
【0058】
制御部21は、変換装置2が備える各種機能部の動作を制御する。制御部21は、例えば学習装置1が得た学習済みの音響変換処理の内容を示す情報を取得し、記憶部24に記録する。制御部21は、学習済みの音響変換処理を実行する。制御部21による学習済みの音響変換処理の実行は、例えば制御部21が、記憶部24に記録された学習済みの音響変換処理の内容を示す情報を読み出し実行することで、学習済みの音響変換処理を実行される。制御部21は、例えば出力部25の動作を制御する。制御部21は、例えば学習済みの音響変換処理の実行により生じた各種情報を記憶部24に記録する。
【0059】
入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を変換装置2に接続するインタフェースとして構成されてもよい。入力部22は、変換装置2に対する各種情報の入力を受け付ける。
【0060】
通信部23は、変換装置2を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば音響信号の送信元の装置である。外部装置は、例えば学習装置1である。通信部23は、学習装置1との通信により、学習済みの音響変換処理の内容を示す情報を取得する。
【0061】
記憶部24は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は変換装置2に関する各種情報を記憶する。記憶部24は、例えば入力部22又は通信部23を介して入力された情報を記憶する。記憶部24は、例えば学習済みの音響変換処理の実行により生じた各種情報を記憶する。記憶部24は、例えば学習済みの音響変換処理の内容を記憶する。
【0062】
出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を変換装置2に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。出力部25は、例えば学習済みの音響変換処理の実行結果を表示してもよい。
【0063】
図9は、実施形態における制御部21の構成の一例を示す図である。制御部21は、音響時系列取得部210、変換部220、記憶制御部230、通信制御部240、出力制御部250及び下流処理実行部260を備える。音響時系列取得部210は、通信部23に入力された音響時系列を取得する。変換部220は、音響時系列取得部210の取得した音響時系列に対して学習済みの音響変換処理を実行する。変換部220は、学習済みの音響変換処理の実行により、対象形式のデータを得る。
【0064】
記憶制御部230は、記憶部24に各種情報を記録する。通信制御部240は通信部23の動作を制御する。出力制御部250は、出力部25の動作を制御する。
【0065】
下流処理実行部260は、下流処理を実行する。下流処理は、変換部220が得た対象形式のデータを用いた処理であればどのような処理であってもよい。下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音響に所定の異常音が含まれているか否かを判定する処理(以下「異常検知処理」という。)である。所定の異常音は、例えばユーザが入力部22を介して変換装置2に指示する。所定の異常音の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。なお、変換装置2に入力された音響時系列は、音響時系列取得部210によって取得された時系列である。
【0066】
下流処理実行部260は、下流処理モデルを実行する。下流処理モデルは、予め機械学習の方法などで得られた学習済みの学習モデルである。下流処理モデルは、下流処理を実行する学習済みの学習モデルである。下流処理モデルの実行により下流処理実行部260は、下流処理を実行する。
【0067】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音響が所定の曲の音響か否かを判定する処理(以下「楽曲判定処理」という。)であってもよい。所定の曲は、例えばユーザが入力部22を介して変換装置2に指示する。所定の曲の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。
【0068】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列との類似の度合が高い曲を検索する処理(以下「楽曲検索処理」という。)であってもよい。楽曲検索処理における検索対象の曲の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。
【0069】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音声を発した話者の属性を推定する処理(以下「話者属性推定処理」という。)であってもよい。
【0070】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音声を発した話者が所定の話者であるか否かを判定する処理(以下「話者判定処理」という。)であってもよい。話者判定処理における所定の話者は、例えばユーザが入力部22を介して変換装置2に指示する。所定の話者の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。
【0071】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音声が所定の音声であるか否かを判定する処理(以下「音声判定処理」という。)であってもよい。音声判定処理における所定の音声は、例えばユーザが入力部22を介して変換装置2に指示する。所定の音声の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。
【0072】
下流処理は、例えば、変換装置2に入力された音響時系列の対象形式のデータに基づき、変換装置2に入力された音響時系列の示す音響を、所定の属性を有する音響に変換する処理(以下「音響変換処理」という。)であってもよい。所定の属性は、例えば、男性という属性であってもよい。このような場合、音響変換処理によって、女性の声が男性の声に変換される。音響変換処理における変換先の音響の属性は、例えばユーザが入力部22を介して変換装置2に指示する。変換先の音響の属性の候補は、例えば記憶部24に予め記憶されていてもよいし、通信部23を介して変換装置2に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。
【0073】
変換装置2には動画が入力されてもよい。このような場合、音響時系列取得部210は動画の音声データを音響時系列として取得する。このような場合、変換部220は、音響時系列取得部210が取得した動画の音声データの音響時系列を、対象形式のデータに変換する。このような場合、下流処理実行部260は、対象形式のデータに基づき、所定の条件を満たすタイミングを検出する。所定の条件は、例えば怒気をはらんだ声である、という条件である。次に下流処理実行部260は、動画の検出したタイミングの画像(すなわちフレーム)に、例えば強調表示等の予め定められた画像を重畳する処理を行う。このように、下流処理は、対象形式のデータに基づき、対象形式のデータの変換前の音響時系列を有する動画を加工する処理(以下「動画加工処理」という。)、であってもよい。
【0074】
図10は、実施形態における変換装置2が実行する処理の流れの一例を示すフローチャートである。音響時系列取得部210が、通信部23に入力された音響時系列を取得する(ステップS201)。次に変換部220が、ステップS201で取得された音響時系列に対して学習済みの音響変換処理を実行する(ステップS202)。学習済みの音響変換処理の実行により、ステップS201で取得された音響時系列が対象形式のデータに変換される。すなわち、学習済みの音響変換処理の実行により、対象形式のデータが生成される。次に、下流処理実行部260が、下流処理を実行する(ステップS203)。
【0075】
ステップS203で実行される下流処理は予め定められた下流処理であって、例えば異常検知処理である。ステップS203で実行される下流処理は、例えば楽曲判定処理であってもよい。ステップS203で実行される下流処理は、例えば楽曲検索処理であってもよい。ステップS203で実行される下流処理は、例えば話者属性推定処理であってもよい。ステップS203で実行される下流処理は、例えば話者判定処理であってもよい。ステップS203で実行される下流処理は、例えば音声判定処理であってもよい。ステップS203で実行される下流処理は、例えば音響変換処理であってもよい。ステップS203で実行される下流処理は、例えば動画加工処理であってもよい。
【0076】
ステップS203の次に、出力制御部250が出力部25の動作を制御して、下流処理の結果を出力部25に出力させる(ステップS204)。
【0077】
<実験結果>
音響変換システム100を用いた実験の結果を説明する。実験では、後述の事前正規化処理も実行された。
図11は、実施形態の音響変換システム100を用いた実験の結果を示す第1の図である。
図11の“Method”の欄の“TRILL[13]”、”COLA[14]”,”OpenL3[20]”及び”COALA[19]”順に、TRILL[13]法、COLA[14]法、OpenL3[20]法及びCOALA[19]法である。すなわち、“TRILL[13]”、”COLA[14]”,”OpenL3[20]”及び”COALA[19]”はいずれも比較対象として用いられた先行技術の方法である。各”COLA’”は、いずれも、最適化された”COLA[14]”である。“Method”の欄の”BYOL-A”は、いずれも音響変換システム100による下流処理の方法を示す。
【0078】
音響変換システム100による下流処理の方法とは、具体的には、変換部220が学習済みの音響変換処理の実行により対象形式のデータを得て、得られた対象形式のデータを用いて下流処理実行部260が下流処理を実行する方法である。実験において下流処理は、分類タスクであった。“TRILL[13]”、”COLA[14]”,”OpenL3[20]”,”COALA[19],”、”COLA”は、音響変換システム100の性能を評価するために比較対象として用いられた技術である。
【0079】
なお、“TRILL[13]”、”COLA[14]”、”OpenL3[20]”、”COALA[19]”はそれぞれ以下の参考文献に記載の方法である。より具体的には、“TRILL[13]”は参考文献1に記載の方法であり、”COLA[14]”は参考文献2に記載の方法であり、”OpenL3[20]”は参考文献3に記載の方法であり、”COALA[19]”は参考文献4に記載の方法である。
【0080】
参考文献1:J. Shor, A. Jansen, R. Maor, O. Lang, O. Tuval, F. de C. Quitry, M. Tagliasacchi, I. Shavitt, D. Emanuel, and Y. Haviv, “Towards
learning a universal non-semantic representation of speech,” arXiv preprint arXiv::2002.12764, 2020.
参考文献2:A. Saeed, D. Grangier, and N. Zeghidour, “Contrastive learning of general-purpose audio representations,” arXiv preprintarXiv::2010.10915, 2020.
参考文献3:J. Cramer, H.-H. Wu, J. Salamon, and J. P. Bello, “Look, listen and learn more: Design choices for deep audio embeddings,” in ICASSP,Brighton, UK, May 2019, pp. 3852--3856.
参考文献4:X. Favory, K. Drossos, T. Virtanen, and X. Serra, “Coala: Co-aligned autoencoders for learning semantically enriched audio representations.”
【0081】
図11の“Remarks”は、”Method”の欄に記載の各方法に関する特記事項を示す。”our ompl“はCOLA'の結果を表し、”proposed”は音響変換システム100が実行した処理を表す。“converntional”及び”reference”は、比較対象の方法を表す。
【0082】
図11の“NS”は、楽器音の分類タスクNSynthを示す。
図11の“USBK”は、クラクションや犬の鳴き声等の環境音の分類タスクUrbanSound8kを示す。
図11の“VC1”は、1251話者の自由発話分類タスクVoxCeleb1を示す。
図11の“VF”は、自由発話言語の分類タスクVoxForgeを示す。
図11の“SPCV2”は、音声コマンドの分類タスクSpeech commands V2を示す。
図11の“SPCV2/12”は、SPCV2を12ラベルに圧縮した音声コマンド分類タスクSpeech commands V2の音声コマンドの分類タスクを示す。
【0083】
図11の%が付いた値は分類の精度を示す。すなわち
図11におけるA%とは、分類の精度がA%であったことを示す。
図11は、”BYOL-A”(すなわち音響変換システム100による音響変換を用いた方法)が他の方法よりも良い精度であることを示す。
【0084】
図12は、実施形態の音響変換システム100を用いた実験の結果を示す第2の図である。より具体的には
図12は、ミックスアップ処理の奏する効果とランダムリサイズ処理の奏する効果とを切り分けるための実験の結果の一例を示す。
図12の”Method”の欄の”BYOL-A(Mixup+RRC)”は、ミックスアップ処理とランダムリサイズ処理とを実行することを示す。
図12の”Method”の欄の”Mixup+Gaussian+RRC”は、ミックスアップ処理の実行後に、さらに被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理を実行した上で、ランダムリサイズ処理を実行することを示す。
図12の”Method”の欄の”Gaussian+RRC”は、被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理とランダムリサイズ処理とを実行することを示す。
図12の”Method”の欄の” RRC”は、ランダムリサイズ処理を実行することを示す。
図12の”Method”の欄の”Mixuup”は、ミックスアップ処理を実行することを示す。
図12の”Method”の欄の”Gaussian”は、被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理を実行することを示す。
【0085】
図12は、ミックスアップ処理が実行されることで、”SPCV2”について性能の向上があることを示す。具体的には、Mixupが実行された”BYOL-A(Mixup+RRC)”、”Mixup+Gaussian+RRC”及び”Mixup”の3つのSPCV2の精度は、順に87.2、87.4、82.0という高い精度である。
【0086】
このように構成された音響変換システム100は、BYOL等の自己学習処理の処理対象のデータを、データ拡張処理の実行により得る。データ拡張処理では、複製処理が行われる。したがって、音響変換システム100では、BYOL等の自己学習処理に入力されるデータが、1つの音響時系列の別々の時間から切り出された対のセグメントの対である必要が無い。
【0087】
より具体的には、音響変換システム100では、BYOL等の自己学習処理に入力されるデータの対は1つの音響時系列の同一セグメントを用いて得られた対である。したがって、音響変換システム100は、対の一方と他方との類似度は時間間隔が短いほど高く時間間隔が長いほど類似度が低い、という仮定が真ではない場合であっても、音響時系列の変換が適切に行うことができる。そのため、音響変換システム100は、音響の時系列である音響時系列の変換の精度を向上させることができる。
【0088】
(変形例)
なお、データ拡張処理では、複製処理の実行の前に、複製処理の処理対象の音響時系列を正規化する処理(以下「事前正規化処理」という。)が実行されてもよい。事前正規化処理における正規化とは、音響時系列を表現するテンソルの各要素の分布が予め定められた所定の分布であるように、音響時系列を表現するテンソルを変換する処理である。予め定められた所定の分布は、例えば1回のバッチ処理で用いられる音響時系列の集合として予め用意された音響時系列の集合の分布である。
【0089】
なお、データ拡張処理では、ランダムリサイズ処理の実行後に、第1拡張済みデータと第2拡張済みデータとが示す時系列を正規化する処理(以下「事後正規化処理」という。)が実行されてもよい。事後正規化処理における正規化とは、第1出力テンソルと第2出力テンソルと、のそれぞれに対して、各テンソルの各要素の分布が予め定められた所定の分布であるように、第1出力テンソルと第2出力テンソルとのそれぞれを変換する処理である。
【0090】
第1出力テンソルは、第1拡張済みデータが示す時系列を表現するテンソルである。第2出力テンソルは、第2拡張済みデータが示す時系列を表現するテンソルである。予め定められた所定の分布は、例えば1回のバッチ処理で用いられる音響時系列の集合として予め用意された音響時系列の集合の分布である。
【0091】
なお、第1混合時系列は第1部分時系列の前景音を含むことが望ましい。なお、第2混合時系列は第2部分時系列の前景音を含むことが望ましい。
【0092】
なお、ミックスアップ処理における加重平均における重みは、例えば時間軸方向の各時刻で異なる重みであってもよい。時間軸方向の各時刻で異なる重みは、例えば時間とともに単調増加する重みであってもよいし、単調減少する重みであってもよい。時間軸方向の各時刻で異なる重みは、例えば所定の時刻にピークを有する所定の正規分布に従う重みであってもよい。
【0093】
なお、ミックスアップ処理は、第1部分時系列と第2部分時系列とのそれぞれについて、部分時系列を他の時系列を用いて変更する処理であれば、必ずしも加重平均を得る処理でなくてもよい。ミックスアップ処理は、例えば、第1部分時系列については、第1部分時系列の値を指数関数の肩にもつ値と第1被混合時系列の値を指数関数の肩にもつ値との加重平均の対数を得る処理であってもよい。また、ミックスアップ処理は、例えば、第2部分時系列については、第2部分時系列の値を指数関数の肩にもつ値と第2被混合時系列の値を指数関数の肩にもつ値との加重平均の対数を得る処理であってもよい。
【0094】
このように、第1加重平均処理は第1ミックスアップ処理の一例であり、第2加重平均処理は第2ミックスアップ処理の一例である。第1ミックスアップ処理は、部分時系列の一方である第1部分時系列を他の時系列である第1被混合時系列を用いて変更する処理である。したがって、第1混合時系列は、第1ミックスアップ処理による変更後の第1部分時系列である。
【0095】
第2ミックスアップ処理は、部分時系列の他方である第2部分時系列を第1被混合時系列と異なる第2被混合時系列を用いて変更する処理である。したがって、第2混合時系列は、第2ミックスアップ処理による変更後の第2部分時系列である。なお、ここまでの説明で明らかではあるが、第1ミックスアップ処理と、第2ミックスアップ処理とはミックスアップ処理に含まれる処理である。
【0096】
上述したように変換装置2は、例えば、学習済みの音響変換処理を実行し学習済みの音響変換処理の実行により得られた対象形式のデータを用いて所定の検索対象を検索する検索装置、として実装されてもよい。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば異常検知処理である。このような場合、検査対象は、所定の異常音である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば楽曲検索処理であってもよい。このような場合、検索対象は曲である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば、話者判定処理であってもよい。このような場合、検索対象は、検査装置に入力された音響時系列が示す音声を発した話者である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば、音声判定処理であってもよい。このような場合、検索対象は、検査装置に入力された音響時系列が示す音声そのものである。
【0097】
なお変換装置2は必ずしも下流処理実行部260を備える必要は無く、下流処理実行部260は、変換装置2と通信可能に接続された他の装置が備えていてもよい。このような場合、通信制御部240は対象形式のデータを、通信部23を介して下流処理実行部260を備える他の装置に送信する。そのためこのような場合、変換装置2が実行するステップS201~ステップS204の処理のうちステップS203の処理は実行されず、ステップS204の処理では通信制御部240による対象形式のデータの他の装置への送信が通信部23を介して行われる。
【0098】
学習装置1及び変換装置2はそれぞれ、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置1及び変換装置2のそれぞれが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
【0099】
なお、学習装置1及び変換装置2は、必ずしも異なる装置として実装される必要は無い。学習装置1及び変換装置2は、例えば両者の機能を併せ持つ1つの装置として実装されてもよい。
【0100】
なお、音響変換システム100、学習装置1及び変換装置2それぞれの各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0101】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0102】
100…音響変換システム、 1…学習装置、 2…変換装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 110…音響時系列取得部、 120…データ拡張部、 130…自己学習部、 140…記憶制御部、 150…通信制御部、 160…出力制御部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 210…音響時系列取得部、 220…変換部、 230…記憶制御部、 240…通信制御部、 250…出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ