特許7568981 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7568981学習装置、学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-08

(45)【発行日】2024-10-17

(54)【発明の名称】学習装置、学習方法及びプログラム

(51)【国際特許分類】

G10L 21/10 20130101AFI20241009BHJP

G10L 25/51 20130101ALI20241009BHJP

G10L 17/04 20130101ALI20241009BHJP

【ＦＩ】

G10L21/10

G10L25/51

G10L17/04

【請求項の数】 6

(21)【出願番号】P 2023521996

(86)(22)【出願日】2021-05-17

(86)【国際出願番号】 JP2021018586

(87)【国際公開番号】W WO2022244047

(87)【国際公開日】2022-11-24

【審査請求日】2023-09-08

【新規性喪失の例外の表示】特許法第３０条第２項適用 ”ＢＹＯＬｆｏｒＡｕｄｉｏ：Ｓｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｆｏｒＧｅｎｅｒａｌ－ＰｕｒｐｏｓｅＡｕｄｉｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ”のアブストラクトの第１版（ｖ１）のａｒＸｉｖでの発表，掲載年月日：２０２１年３月１１日，掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１０３．０６６９５ｖ１

【新規性喪失の例外の表示】特許法第３０条第２項適用 ”ＢＹＯＬｆｏｒＡｕｄｉｏ：Ｓｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｆｏｒＧｅｎｅｒａｌ－ＰｕｒｐｏｓｅＡｕｄｉｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ”のＰＤＦファイルの第１版（ｖ１）のａｒＸｉｖでの発表，掲載年月日：２０２１年３月１１日，掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２１０３．０６６９５ｖ１．ｐｄｆ

【新規性喪失の例外の表示】特許法第３０条第２項適用 ”ＢＹＯＬｆｏｒＡｕｄｉｏ：Ｓｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｆｏｒＧｅｎｅｒａｌ－ＰｕｒｐｏｓｅＡｕｄｉｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ”のアブストラクトの第２版（ｖ２）のａｒＸｉｖでの発表，掲載年月日：２０２１年３月１１日，掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１０３．０６６９５ｖ２

【新規性喪失の例外の表示】特許法第３０条第２項適用 ”ＢＹＯＬｆｏｒＡｕｄｉｏ：Ｓｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｆｏｒＧｅｎｅｒａｌ－ＰｕｒｐｏｓｅＡｕｄｉｏＲｅｐｒｅｓｅｎｔａｔｉｏｎ”のＰＤＦファイルの第２版（ｖ２）のａｒＸｉｖでの発表，掲載年月日：２０２１年３月１１日，掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２１０３．０６６９５ｖ２．ｐｄｆ

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】仁泉大輔

(72)【発明者】

【氏名】大石康智

(72)【発明者】

【氏名】竹内大起

(72)【発明者】

【氏名】原田登

(72)【発明者】

【氏名】柏野邦夫

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００６－２０１６６５（ＪＰ，Ａ）

【文献】特開２００６－２８５８８２（ＪＰ，Ａ）

【文献】特開２０２１－１２３５１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／００５６９８０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習部と、
前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張部と、
を備え、
前記データ拡張部は、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、
前記自己学習部は、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、
学習装置。

【請求項2】

前記変換処理は、部分時系列の一方である第１部分時系列を他の時系列である第１被混合時系列を用いて変更する第１ミックスアップ処理と、部分時系列の他方である第２部分時系列を前記第１被混合時系列と異なる第２被混合時系列を用いて変更する第２ミックスアップ処理と、を含む、
請求項１に記載の学習装置。

【請求項3】

周波数と時刻との組ごとに強度を示す情報を音響画像データとして、前記変換処理は、前記第１ミックスアップ処理による変更後の第１部分時系列である第１混合時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第１ランダムリサイズ処理と、前記第２ミックスアップ処理による変更後の第２部分時系列である第２混合時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第２ランダムリサイズ処理と、を含む、
請求項２に記載の学習装置。

【請求項4】

前記変換処理は、部分時系列の一方である第１部分時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第１ランダムリサイズ処理と、部分時系列の他方である第２部分時系列を表現する音響画像の少なくとも一部に対してアフィン変換を実行する第２ランダムリサイズ処理と、を含む、
請求項１に記載の学習装置。

【請求項5】

処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習ステップと、
前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張ステップと、
を有し、
前記データ拡張ステップは、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、
前記自己学習ステップは、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、
学習方法。

【請求項6】

請求項１から４のいずれか一項に記載の学習装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、学習方法及びプログラム
に関する。

【背景技術】

【0002】

入力された音響のデータを予め定められた所定の形式に変換する数理モデルを、対照学習等の自己教師あり学習の方法で生成する技術が知られている。

【先行技術文献】

【非特許文献】

【0003】

【文献】A. Saeed et. al., “Contrastive learning of general-purpose audio representations” arXiv preprintarXiv::2010.10915, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0004】

音響の時系列である音響時系列を変換する数理モデルの生成に用いられる学習では、１つの音響時系列の別々の時間から切り出された対のセグメントが用いられる。この際、対の一方と他方との類似度は時間間隔が短いほど高く時間間隔が長いほど類似度が低い、という仮定の下で設計された学習アルゴリズムが作られている。

【0005】

しかしながら、このような仮定が必ずしも真ではない場面もある。このような場面では、音響時系列の変換が適切に行われない場合があった。すなわち、音響時系列の変換の精度が低い場合があった。

【0006】

上記事情に鑑み、本発明は、音響の時系列である音響時系列の変換の精度を向上させる技術を提供することを目的としている。

【課題を解決するための手段】

【0007】

本発明の一態様は、処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習部と、前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張部と、を備え、前記データ拡張部は、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、前記自己学習部は、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、学習装置である。

【0008】

本発明の一態様は、処理対象のデータを所定の形式のデータに変換する主変換処理の内容を自己教師あり学習の実行により更新する自己学習ステップと、前記主変換処理の処理対象のデータを音響時系列に基づき生成するデータ拡張処理、を実行するデータ拡張ステップと、を有し、前記データ拡張ステップは、前記音響時系列の一部の時系列である部分時系列を切り出す音響時系列切り出し処理と、部分時系列を複製する複製処理と、部分時系列の一方と他方とを所定の規則にしたがって変換する変換処理と、を行い、前記自己学習ステップは、前記変換処理によって得られた結果に基づく自己教師あり学習により、前記主変換処理の内容を更新する、学習方法である。

【0009】

本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0010】

本発明により、音響の時系列である音響時系列の変換の精度を向上させることが可能となる。

【図面の簡単な説明】

【0011】

【図1】実施形態の音響変換システムの構成の一例を示す図。

【図2】実施形態におけるデータ拡張処理を説明する説明図。

【図3】実施形態における音響画像変形処理を説明する説明図。

【図4】実施形態における自己学習実行処理の一例を説明する説明図。

【図5】実施形態の学習装置のハードウェア構成の一例を示す図。

【図6】実施形態の学習装置が備える制御部の構成の一例を示す図。

【図7】実施形態における学習装置が実行する処理の流れの一例を示すフローチャート。

【図8】実施形態における変換装置のハードウェア構成の一例を示す図。

【図9】実施形態の変換装置が備える制御部の構成の一例を示す図。

【図10】実施形態における変換装置が実行する処理の流れの一例を示すフローチャート。

【図11】実施形態の音響変換システムを用いた実験の結果を示す第１の図。

【図12】実施形態の音響変換システムを用いた実験の結果を示す第２の図。

【発明を実施するための形態】

【0012】

（実施形態）
図１は、実施形態の音響変換システム１００の構成の一例を示す図である。音響変換システム１００は、学習装置１と変換装置２とを含む。学習装置１は、入力された音響時系列を予め定められた所定の形式（以下「対象形式」という。）のデータに変換する処理（以下「音響変換処理」という。）の内容を学習により更新する。対象形式のデータは、例えば表現埋め込みである。音響変換処理は学習モデルの一種である。音響時系列は音響の時系列である。

【0013】

音響時系列は、テンソルで表現される。音響時系列は、例えば各時刻における周波数とその周波数成分の強度とを示す２階のテンソル（すなわち行列）であって、要素の値が周波数成分の強度を示すテンソルであってもよい。音響時系列は、例えば各時刻における、チャネルと周波数と周波数成分の強度との組を示す３階のテンソルであって、要素の値が周波数成分の強度を示すテンソルであってもよい。

【0014】

音響時系列は、例えば各時刻における音響の強度を示す１階のテンソル（すなわちベクトル）であってもよい。以下、テンソルは要素が周波数成分の強度を表す場合を例に音響変換システム１００を説明する。テンソルの要素の値が示す強度は、テンソルが２階以上のテンソルの場合には、周波数成分の強度である。

【0015】

以下、音響時系列を表現するテンソルの各次元が示す量を、非強度量という。非強度量の１つは、例えば時刻である。非強度量の１つは、例えば周波数である。

【0016】

対象形式は、例えば５１２個の浮動小数点数値のデータ、という形式である。対象形式は、例えば１０２４個の浮動小数点数値のデータ、という形式であってもよい。対象形式は、例えば２０４８個の浮動小数点数値のデータ、という形式であってもよい。

【0017】

学習装置１は、自己学習実行処理と、データ拡張処理とを実行する。自己学習実行処理は、ＢＹＯＬ（Bootstrap Your Own Latent）等の自己教師あり学習を実行する処理である。以下、自己教師あり学習を実行する処理を、自己学習処理という。

【0018】

自己学習処理の実行により更新される学習モデルは、データ拡張処理の実行により得られたデータを対象形式のデータに変換する処理（以下「主変換処理」という。）である。主変換処理も学習モデルの一種である。音響変換処理と主変換処理との関係について説明する。音響変換処理は、主変換処理を含む。より具体的には、音響変換処理はデータ拡張処理と、主変換処理とを含む。

【0019】

データ拡張処理は、主変換処理の実行の対象のデータ（以下「主処理対象データ」という。）を生成する処理である。自己学習処理は、主処理対象データに対して主変換処理を実行し、実行の結果を用いて主変換処理の内容を更新する。そのため、主処理対象データは、主変換処理の学習時には自己学習処理の処理対象のデータでもある。

【0020】

図２は、実施形態におけるデータ拡張処理を説明する説明図である。データ拡張処理は、少なくとも、音響時系列切り出し処理、複製処理、ミックスアップ処理及びランダムリサイズ処理を含む。

【0021】

音響時系列切り出し処理は、処理の対象（以下「処理対象」という。）の音響時系列（以下「切り出し対象時系列」という。）の一部の時系列を取得する処理である。以下、切り出し対象時系列の一部の時系列であって、音響時系列切り出し処理によって得られた時系列を、部分時系列という。部分時系列の長さは、切り出し対象時系列の長さ以下の長さであってもよいし、切り出し対象時系列よりも長い長さであってもよい。部分時系列の長さが切り出し対象時系列よりも長い場合、部分時系列の長さと切り出し対象時系列の長さとの差の時系列のサンプルの値は、零等の予め定められた所定の値である。

【0022】

複製処理は、部分時系列を複製する処理である。複製処理で得られた２つの部分時系列は同一の時系列であるが、以下説明の簡単のため、複製処理で得られた２つの部分時系列をそれぞれ第１部分時系列、第２部分時系列という。なお、第１部分時系列は、例えば複製元の部分時系列であり、第２部分時系列は、複製元の部分時系列を複製することで得られた時系列である。第１部分時系列及び第２部分時系列は、両方とも、複製元の部分時系列を複製することで得られた時系列であってもよい。

【0023】

ミックスアップ処理は、第１部分時系列と第２部分時系列とのそれぞれに対して実行される。ミックスアップ処理は、第１加重平均処理と第２加重平均処理とを含む。第１加重平均処理は、第１混合時系列を得る処理である。第１混合時系列は、第１表現テンソル条件を満たす時系列である。第１表現テンソル条件は、第１階数条件と第１要素条件とを含む。第１階数条件は、第１混合時系列を表現するテンソルの階数が第１部分時系列と同一という条件である。

【0024】

第１要素条件は、第１混合時系列を表現するテンソルの要素は、第１部分時系列を表現するテンソルの要素と、第１被混合時系列を表現するテンソルであって第１部分時系列と同じ階数のテンソルの要素と、の加重平均である、という条件である。加重平均における重みは、ランダムに決定される重みであってもよいし、予め定められた所定の規則に従って決定される重みであってもよい。第１被混合時系列は、第１部分時系列と異なる他の時系列である。

【0025】

第２加重平均処理は、第２混合時系列を得る処理である。第２混合時系列は、第２表現テンソル条件を満たす時系列である。第２表現テンソル条件は、第２階数条件と第２要素条件とを含む。第２階数条件は、第２混合時系列を表現するテンソルの階数が第２部分時系列と同一という条件である。

【0026】

第２要素条件は、第２混合時系列を表現するテンソルの要素は、第２部分時系列を表現するテンソルの要素と、第２被混合時系列を表現するテンソルであって第２部分時系列と同じ階数のテンソルの要素と、の加重平均である、という条件である。加重平均における重みは、ランダムに決定される重みであってもよいし、予め定められた所定の規則に従って決定される重みであってもよい。第２被混合時系列は、少なくとも第１被混合時系列と異なる時系列であればよく、例えば、第２部分時系列及び第１被混合時系列と異なる時系列である。第２被混合時系列は、第１部分時系列、第２部分時系列及び第１被混合時系列と異なる時系列であってもよい。

【0027】

ランダムリサイズ処理は、第１混合時系列と第２混合時系列とのそれぞれに対して実行される。ランダムリサイズ処理は、第１ランダムリサイズ処理と第２ランダムリサイズ処理とを含む。第１ランダムリサイズ処理は、第１混合時系列に対して実行される音響画像変形処理である。音響画像変形処理の詳細は後述するが、音響画像変形処理は音響画像に対して実行される処理である。音響画像は、音響時系列を表現する画像である。より具体的には、音響画像は、周波数と時刻との組ごとに強度を示す情報である。第２リサイズ処理は、第２混合時系列に対して実行される音響画像変形処理である。音響画像変形処理の定義を、図３を用いて説明する。

【0028】

図３は実施形態における音響画像変形処理を説明する説明図である。音響画像変形処理は、拡張音響画像データ生成処理と、音響画像データ抽出処理と、リサイズ処理とを含む。拡張音響画像データ生成処理は、処理対象の時系列を表現する音響画像を示すデータ（以下「対象音響画像データ」という。）に零音響画像データを追加する処理である。

【0029】

上述したように音響画像は、周波数と時刻との組ごとに強度を示す情報である。したがって音響画像に対しては、画像処理の技術を適用可能である。以下、音響画像を示すデータを音響画像データという。

【0030】

零音響画像データは、要素の値が全て０のテンソルであるである。すなわち、零音響画像データは、サンプルの値が全て０の時系列を示す。

【0031】

以下、零音響画像データの追加後の対象音響画像データを拡張音響画像データという。図２の例では、高さＦ長さＴの画像が対象音響画像データの示す音響画像である。図２の例におけるＦは周波数であり、長さＴは時間である。図３の例では、高さＦ長さＴｃの画像である拡張音響画像が、拡張音響画像データが示す画像である。

【0032】

音響画像データ抽出処理は、拡張音響画像データの一部を取得する処理である。以下、音響画像データ抽出処理によって得られた音響画像データを、部分音響画像データという。図３の例では、“crop area”と記載された領域内の画像が、部分音響画像データの示す音響画像である。

【0033】

リサイズ処理は、部分音響画像データが示す音響画像を、対象音響画像データが示す音響画像と同一のサイズに変形する処理である。サイズの変形では、音響画像の拡大又は縮小が行われる場合がある。音響画像の拡大とは、時系列のサンプル数を増やすことを意味する。音響画像の縮小とは、時系列のサンプル数を減らすことを意味する。

【0034】

時系列のサンプル数を増やす際には、予め定められた所定の補間の方法によりサンプル数の増加が行われる。時系列のサンプル数を減らす際には、予め定められた所定の規則にしたがって、サンプル数が減らされる。図３の例では、画像Ａ１が、リサイズ処理によって得られた音響画像データの示す音響画像の例である。図３の例では画像Ａ１は、”crop area”の音響画像を拡大することで得られた音響画像である。

【0035】

上述したように時系列はテンソルで表現されるため、音響画像変形処理をテンソルで表現する。拡張音響画像データ生成処理は、時系列を表現するテンソルの要素数を増やす処理である。すなわち、拡張音響画像データ生成処理は、時系列を表現するテンソルの前後に零音響画像データを追加する処理である。音響画像データ抽出処理は、拡張音響画像データが表現するテンソルの一部の要素を抽出する処理である。リサイズ処理は、音響画像データ抽出処理によって得られたテンソルのサイズを対象音響画像データのテンソルのサイズに変更する処理である。

【0036】

このように、音響画像変形処理は、処理対象の時系列を示す音響画像の少なくとも一部に対して、アフィン変換を実行する処理である。

【0037】

ランダムリサイズ処理の実行により、第１ランダムリサイズ処理と第２ランダムリサイズ処理とが実行され、第１混合時系列に対して音響画像変形処理が実行された結果と、第２混合時系列に対して音響画像変形処理が実行された結果と、が得られる。以下、第１混合時系列に対して音響画像変形処理が実行された結果を、第１拡張済みデータという。以下、第２混合時系列に対して音響画像変形処理が実行された結果を、第２拡張済みデータという。第１拡張済みデータと第２拡張済みデータとの組が、主処理対象データの一例である。

【0038】

なお、ランダムリサイズ処理は、必ずしも第１混合時系列と第２混合時系列とのそれぞれに対して実行される必要は無い。ランダムリサイズ処理は、第１混合時系列に代えて第１部分時系列に対して実行され、第２混合時系列に代えて第２部分時系列に対して実行されてもよい。このように、ミックスアップ処理とランダムリサイズ処理とは、必ずしも両方が実行される必要はなく、どちらか一方だけが実行されてもよい。

【0039】

以下、複製処理の結果に基づき主処理対象データを取得する処理を、変換処理という。すなわち、変換処理は、複製処理によって得られた音響時系列の一方と他方とを所定の規則に従って変換する処理である。所定の規則は、例えば、ミックスアップ処理を実行した後にミックスアップ処理の結果に対してランダムリサイズ処理を行い、ランダムリサイズ処理の結果を主処理対象データとして取得する、という規則である。所定の変換は、例えばミックスアップ処理を行い、ミックスアップ処理の結果を主処理対象データとして取得する、という規則であってもよい。

【0040】

学習装置１は、上述したように自己学習実行処理を実行する。すなわち、学習装置１は、データ拡張処理によって得られた主処理対象データを用いて自己学習処理を実行する。学習装置１は、主処理対象データを用いた自己学習処理の実行により、主変換処理の内容を更新する。主変換処理は音響変換処理に含まれるため、主変換処理の内容の更新とは音響変換処理の内容の更新である。

【0041】

以下、所定の終了条件が満たされた時点の音響変換処理を学習済みの音響変換処理という。終了条件は、例えば所定の回数の学習が行われたという条件である。終了条件は、例えば学習に依る音響変換処理の内容の変化が所定の変化より小さい、という条件であってもよい。

【0042】

図４は、実施形態における自己学習実行処理の一例を説明する説明図である。図４のｖは、データ拡張処理で得られた第１拡張済みデータを示す。図４のｖ´は、データ拡張処理で得られた第２拡張済みデータを示す。図４は、データ拡張処理の実行後に自己学習実行処理が実行されることを示す。自己学習実行処理では、例えば、ＢＹＯＬで定義されるエンコード、プロジェクション及び予測の処理が実行される。ＢＹＯＬでは、例えばＭＳＥ（Mean Squared Error）ロスを最少化するように、主変換処理の内容の更新が行われる。

【0043】

図１の説明に戻る。変換装置２は学習済みの音響変換処理を実行することで、変換の対象の音響時系列を対象形式のデータに変換する。

【0044】

図５は、実施形態の学習装置１のハードウェア構成の一例を示す図である。学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。学習装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0045】

より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、学習装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

【0046】

制御部１１は、学習装置１が備える各種機能部の動作を制御する。制御部１１は、例えばデータ拡張処理と自己学習実行処理とを実行する。制御部１１は、例えば出力部１５の動作を制御する。制御部１１は、例えばデータ拡張処理と自己学習実行処理との実行により生じた各種情報を記憶部１４に記録する。

【0047】

入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置を学習装置１に接続するインタフェースとして構成されてもよい。入力部１２は、学習装置１に対する各種情報の入力を受け付ける。

【0048】

通信部１３は、学習装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば音響信号の送信元の装置である。外部装置は、例えば変換装置２である。

【0049】

記憶部１４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４は学習装置１に関する各種情報を記憶する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えばデータ拡張処理と自己学習実行処理との実行により生じた各種情報を記憶する。

【0050】

出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置を学習装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えばデータ拡張処理と自己学習実行処理との実行結果を表示してもよい。

【0051】

図６は、実施形態における制御部１１の構成の一例を示す図である。制御部１１は、音響時系列取得部１１０、データ拡張部１２０、自己学習部１３０、記憶制御部１４０、通信制御部１５０及び出力制御部１６０を備える。音響時系列取得部１１０は、通信部１３に入力された音響時系列を取得する。データ拡張部１２０は、音響時系列取得部１１０の取得した音響時系列に対してデータ拡張処理を行うことで、主処理対象データを取得する。

【0052】

自己学習部１３０は、主処理対象データを用いて自己学習処理を実行する。自己学習部１３０は、終了判定処理も実行する。終了判定処理は、所定の終了条件が満たされたか否かを判定する処理である。自己学習部１３０は、所定の終了条件が満たされた場合に、自己学習処理の実行を終了する。

【0053】

記憶制御部１４０は、記憶部１４に各種情報を記録する。通信制御部１５０は通信部１３の動作を制御する。出力制御部１６０は、出力部１５の動作を制御する。

【0054】

図７は、実施形態における学習装置１が実行する処理の流れの一例を示すフローチャートである。音響時系列取得部１１０が音響時系列を取得する（ステップＳ１０１）。次にデータ拡張部１２０が、ステップＳ１０１で取得された音響時系列に対してデータ拡張処理を実行する（ステップＳ１０２）。次にデータ拡張処理の実行により、データ拡張部１２０は、主処理対象データを取得する。次に自己学習部１３０がステップＳ１０２で取得された主処理対象データに基づき、自己学習処理を実行する（ステップＳ１０３）。自己学習処理の実行により、音響変換処理の内容が更新される。

【0055】

次に自己学習部１３０は、終了判定処理を実行する（ステップＳ１０４）終了条件が満たされた場合（ステップＳ１０４：ＹＥＳ）、処理が終了する。一方、終了判定条件が満たされない場合（ステップＳ１０４：ＮＯ）、ステップＳ１０１の処理に戻る。

【0056】

図８は、実施形態における変換装置２のハードウェア構成の一例を示す図である。変換装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。変換装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0057】

より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、変換装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

【0058】

制御部２１は、変換装置２が備える各種機能部の動作を制御する。制御部２１は、例えば学習装置１が得た学習済みの音響変換処理の内容を示す情報を取得し、記憶部２４に記録する。制御部２１は、学習済みの音響変換処理を実行する。制御部２１による学習済みの音響変換処理の実行は、例えば制御部２１が、記憶部２４に記録された学習済みの音響変換処理の内容を示す情報を読み出し実行することで、学習済みの音響変換処理を実行される。制御部２１は、例えば出力部２５の動作を制御する。制御部２１は、例えば学習済みの音響変換処理の実行により生じた各種情報を記憶部２４に記録する。

【0059】

入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を変換装置２に接続するインタフェースとして構成されてもよい。入力部２２は、変換装置２に対する各種情報の入力を受け付ける。

【0060】

通信部２３は、変換装置２を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば音響信号の送信元の装置である。外部装置は、例えば学習装置１である。通信部２３は、学習装置１との通信により、学習済みの音響変換処理の内容を示す情報を取得する。

【0061】

記憶部２４は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は変換装置２に関する各種情報を記憶する。記憶部２４は、例えば入力部２２又は通信部２３を介して入力された情報を記憶する。記憶部２４は、例えば学習済みの音響変換処理の実行により生じた各種情報を記憶する。記憶部２４は、例えば学習済みの音響変換処理の内容を記憶する。

【0062】

出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を変換装置２に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。出力部２５は、例えば学習済みの音響変換処理の実行結果を表示してもよい。

【0063】

図９は、実施形態における制御部２１の構成の一例を示す図である。制御部２１は、音響時系列取得部２１０、変換部２２０、記憶制御部２３０、通信制御部２４０、出力制御部２５０及び下流処理実行部２６０を備える。音響時系列取得部２１０は、通信部２３に入力された音響時系列を取得する。変換部２２０は、音響時系列取得部２１０の取得した音響時系列に対して学習済みの音響変換処理を実行する。変換部２２０は、学習済みの音響変換処理の実行により、対象形式のデータを得る。

【0064】

記憶制御部２３０は、記憶部２４に各種情報を記録する。通信制御部２４０は通信部２３の動作を制御する。出力制御部２５０は、出力部２５の動作を制御する。

【0065】

下流処理実行部２６０は、下流処理を実行する。下流処理は、変換部２２０が得た対象形式のデータを用いた処理であればどのような処理であってもよい。下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音響に所定の異常音が含まれているか否かを判定する処理（以下「異常検知処理」という。）である。所定の異常音は、例えばユーザが入力部２２を介して変換装置２に指示する。所定の異常音の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。なお、変換装置２に入力された音響時系列は、音響時系列取得部２１０によって取得された時系列である。

【0066】

下流処理実行部２６０は、下流処理モデルを実行する。下流処理モデルは、予め機械学習の方法などで得られた学習済みの学習モデルである。下流処理モデルは、下流処理を実行する学習済みの学習モデルである。下流処理モデルの実行により下流処理実行部２６０は、下流処理を実行する。

【0067】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音響が所定の曲の音響か否かを判定する処理（以下「楽曲判定処理」という。）であってもよい。所定の曲は、例えばユーザが入力部２２を介して変換装置２に指示する。所定の曲の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。

【0068】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列との類似の度合が高い曲を検索する処理（以下「楽曲検索処理」という。）であってもよい。楽曲検索処理における検索対象の曲の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。

【0069】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音声を発した話者の属性を推定する処理（以下「話者属性推定処理」という。）であってもよい。

【0070】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音声を発した話者が所定の話者であるか否かを判定する処理（以下「話者判定処理」という。）であってもよい。話者判定処理における所定の話者は、例えばユーザが入力部２２を介して変換装置２に指示する。所定の話者の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。

【0071】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音声が所定の音声であるか否かを判定する処理（以下「音声判定処理」という。）であってもよい。音声判定処理における所定の音声は、例えばユーザが入力部２２を介して変換装置２に指示する。所定の音声の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。

【0072】

下流処理は、例えば、変換装置２に入力された音響時系列の対象形式のデータに基づき、変換装置２に入力された音響時系列の示す音響を、所定の属性を有する音響に変換する処理（以下「音響変換処理」という。）であってもよい。所定の属性は、例えば、男性という属性であってもよい。このような場合、音響変換処理によって、女性の声が男性の声に変換される。音響変換処理における変換先の音響の属性は、例えばユーザが入力部２２を介して変換装置２に指示する。変換先の音響の属性の候補は、例えば記憶部２４に予め記憶されていてもよいし、通信部２３を介して変換装置２に接続されたネットワーク上の所定の記憶装置に記憶されていてもよい。

【0073】

変換装置２には動画が入力されてもよい。このような場合、音響時系列取得部２１０は動画の音声データを音響時系列として取得する。このような場合、変換部２２０は、音響時系列取得部２１０が取得した動画の音声データの音響時系列を、対象形式のデータに変換する。このような場合、下流処理実行部２６０は、対象形式のデータに基づき、所定の条件を満たすタイミングを検出する。所定の条件は、例えば怒気をはらんだ声である、という条件である。次に下流処理実行部２６０は、動画の検出したタイミングの画像（すなわちフレーム）に、例えば強調表示等の予め定められた画像を重畳する処理を行う。このように、下流処理は、対象形式のデータに基づき、対象形式のデータの変換前の音響時系列を有する動画を加工する処理（以下「動画加工処理」という。）、であってもよい。

【0074】

図１０は、実施形態における変換装置２が実行する処理の流れの一例を示すフローチャートである。音響時系列取得部２１０が、通信部２３に入力された音響時系列を取得する（ステップＳ２０１）。次に変換部２２０が、ステップＳ２０１で取得された音響時系列に対して学習済みの音響変換処理を実行する（ステップＳ２０２）。学習済みの音響変換処理の実行により、ステップＳ２０１で取得された音響時系列が対象形式のデータに変換される。すなわち、学習済みの音響変換処理の実行により、対象形式のデータが生成される。次に、下流処理実行部２６０が、下流処理を実行する（ステップＳ２０３）。

【0075】

ステップＳ２０３で実行される下流処理は予め定められた下流処理であって、例えば異常検知処理である。ステップＳ２０３で実行される下流処理は、例えば楽曲判定処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば楽曲検索処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば話者属性推定処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば話者判定処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば音声判定処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば音響変換処理であってもよい。ステップＳ２０３で実行される下流処理は、例えば動画加工処理であってもよい。

【0076】

ステップＳ２０３の次に、出力制御部２５０が出力部２５の動作を制御して、下流処理の結果を出力部２５に出力させる（ステップＳ２０４）。

【0077】

＜実験結果＞
音響変換システム１００を用いた実験の結果を説明する。実験では、後述の事前正規化処理も実行された。図１１は、実施形態の音響変換システム１００を用いた実験の結果を示す第１の図である。図１１の“Method”の欄の“TRILL[13]”、”COLA[14]”,”OpenL3[20]”及び”COALA[19]”順に、TRILL[13]法、COLA[14]法、OpenL3[20]法及びCOALA[19]法である。すなわち、“TRILL[13]”、”COLA[14]”,”OpenL3[20]”及び”COALA[19]”はいずれも比較対象として用いられた先行技術の方法である。各”COLA’”は、いずれも、最適化された”COLA[14]”である。“Method”の欄の”BYOL-A”は、いずれも音響変換システム１００による下流処理の方法を示す。

【0078】

音響変換システム１００による下流処理の方法とは、具体的には、変換部２２０が学習済みの音響変換処理の実行により対象形式のデータを得て、得られた対象形式のデータを用いて下流処理実行部２６０が下流処理を実行する方法である。実験において下流処理は、分類タスクであった。“TRILL[13]”、”COLA[14]”,”OpenL3[20]”,”COALA[19],”、”COLA”は、音響変換システム１００の性能を評価するために比較対象として用いられた技術である。

【0079】

なお、“TRILL[13]”、”COLA[14]”、”OpenL3[20]”、”COALA[19]”はそれぞれ以下の参考文献に記載の方法である。より具体的には、“TRILL[13]”は参考文献１に記載の方法であり、”COLA[14]”は参考文献２に記載の方法であり、”OpenL3[20]”は参考文献３に記載の方法であり、”COALA[19]”は参考文献４に記載の方法である。

【0080】

参考文献１：J. Shor, A. Jansen, R. Maor, O. Lang, O. Tuval, F. de C. Quitry, M. Tagliasacchi, I. Shavitt, D. Emanuel, and Y. Haviv, “Towards
learning a universal non-semantic representation of speech,” arXiv preprint arXiv::2002.12764, 2020.
参考文献２：A. Saeed, D. Grangier, and N. Zeghidour, “Contrastive learning of general-purpose audio representations,” arXiv preprintarXiv::2010.10915, 2020.
参考文献３：J. Cramer, H.-H. Wu, J. Salamon, and J. P. Bello, “Look, listen and learn more: Design choices for deep audio embeddings,” in ICASSP,Brighton, UK, May 2019, pp. 3852--3856.
参考文献４：X. Favory, K. Drossos, T. Virtanen, and X. Serra, “Coala: Co-aligned autoencoders for learning semantically enriched audio representations.”

【0081】

図１１の“Remarks”は、”Method”の欄に記載の各方法に関する特記事項を示す。”our ompl“はCOLA'の結果を表し、”proposed”は音響変換システム１００が実行した処理を表す。“converntional”及び”reference”は、比較対象の方法を表す。

【0082】

図１１の“NS”は、楽器音の分類タスクNSynthを示す。図１１の“USBK”は、クラクションや犬の鳴き声等の環境音の分類タスクUrbanSound8kを示す。図１１の“VC1”は、１２５１話者の自由発話分類タスクVoxCeleb1を示す。図１１の“VF”は、自由発話言語の分類タスクVoxForgeを示す。図１１の“SPCV2”は、音声コマンドの分類タスクSpeech commands V2を示す。図１１の“SPCV2/12”は、SPCV2を１２ラベルに圧縮した音声コマンド分類タスクSpeech commands V2の音声コマンドの分類タスクを示す。

【0083】

図１１の％が付いた値は分類の精度を示す。すなわち図１１におけるＡ％とは、分類の精度がＡ％であったことを示す。図１１は、”BYOL-A”（すなわち音響変換システム１００による音響変換を用いた方法）が他の方法よりも良い精度であることを示す。

【0084】

図１２は、実施形態の音響変換システム１００を用いた実験の結果を示す第２の図である。より具体的には図１２は、ミックスアップ処理の奏する効果とランダムリサイズ処理の奏する効果とを切り分けるための実験の結果の一例を示す。図１２の”Method”の欄の”BYOL-A(Mixup+RRC)”は、ミックスアップ処理とランダムリサイズ処理とを実行することを示す。図１２の”Method”の欄の”Mixup+Gaussian+RRC”は、ミックスアップ処理の実行後に、さらに被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理を実行した上で、ランダムリサイズ処理を実行することを示す。図１２の”Method”の欄の”Gaussian+RRC”は、被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理とランダムリサイズ処理とを実行することを示す。図１２の”Method”の欄の” RRC”は、ランダムリサイズ処理を実行することを示す。図１２の”Method”の欄の”Mixuup”は、ミックスアップ処理を実行することを示す。図１２の”Method”の欄の”Gaussian”は、被混合時系列としてガウシアン雑音の時系列を用いたミックスアップ処理を実行することを示す。

【0085】

図１２は、ミックスアップ処理が実行されることで、”SPCV2”について性能の向上があることを示す。具体的には、Mixupが実行された”BYOL-A(Mixup+RRC)”、”Mixup+Gaussian+RRC”及び”Mixup”の３つのSPCV2の精度は、順に８７．２、８７．４、８２．０という高い精度である。

【0086】

このように構成された音響変換システム１００は、ＢＹＯＬ等の自己学習処理の処理対象のデータを、データ拡張処理の実行により得る。データ拡張処理では、複製処理が行われる。したがって、音響変換システム１００では、ＢＹＯＬ等の自己学習処理に入力されるデータが、１つの音響時系列の別々の時間から切り出された対のセグメントの対である必要が無い。

【0087】

より具体的には、音響変換システム１００では、ＢＹＯＬ等の自己学習処理に入力されるデータの対は１つの音響時系列の同一セグメントを用いて得られた対である。したがって、音響変換システム１００は、対の一方と他方との類似度は時間間隔が短いほど高く時間間隔が長いほど類似度が低い、という仮定が真ではない場合であっても、音響時系列の変換が適切に行うことができる。そのため、音響変換システム１００は、音響の時系列である音響時系列の変換の精度を向上させることができる。

【0088】

（変形例）
なお、データ拡張処理では、複製処理の実行の前に、複製処理の処理対象の音響時系列を正規化する処理（以下「事前正規化処理」という。）が実行されてもよい。事前正規化処理における正規化とは、音響時系列を表現するテンソルの各要素の分布が予め定められた所定の分布であるように、音響時系列を表現するテンソルを変換する処理である。予め定められた所定の分布は、例えば１回のバッチ処理で用いられる音響時系列の集合として予め用意された音響時系列の集合の分布である。

【0089】

なお、データ拡張処理では、ランダムリサイズ処理の実行後に、第１拡張済みデータと第２拡張済みデータとが示す時系列を正規化する処理（以下「事後正規化処理」という。）が実行されてもよい。事後正規化処理における正規化とは、第１出力テンソルと第２出力テンソルと、のそれぞれに対して、各テンソルの各要素の分布が予め定められた所定の分布であるように、第１出力テンソルと第２出力テンソルとのそれぞれを変換する処理である。

【0090】

第１出力テンソルは、第１拡張済みデータが示す時系列を表現するテンソルである。第２出力テンソルは、第２拡張済みデータが示す時系列を表現するテンソルである。予め定められた所定の分布は、例えば１回のバッチ処理で用いられる音響時系列の集合として予め用意された音響時系列の集合の分布である。

【0091】

なお、第１混合時系列は第１部分時系列の前景音を含むことが望ましい。なお、第２混合時系列は第２部分時系列の前景音を含むことが望ましい。

【0092】

なお、ミックスアップ処理における加重平均における重みは、例えば時間軸方向の各時刻で異なる重みであってもよい。時間軸方向の各時刻で異なる重みは、例えば時間とともに単調増加する重みであってもよいし、単調減少する重みであってもよい。時間軸方向の各時刻で異なる重みは、例えば所定の時刻にピークを有する所定の正規分布に従う重みであってもよい。

【0093】

なお、ミックスアップ処理は、第１部分時系列と第２部分時系列とのそれぞれについて、部分時系列を他の時系列を用いて変更する処理であれば、必ずしも加重平均を得る処理でなくてもよい。ミックスアップ処理は、例えば、第１部分時系列については、第１部分時系列の値を指数関数の肩にもつ値と第１被混合時系列の値を指数関数の肩にもつ値との加重平均の対数を得る処理であってもよい。また、ミックスアップ処理は、例えば、第２部分時系列については、第２部分時系列の値を指数関数の肩にもつ値と第２被混合時系列の値を指数関数の肩にもつ値との加重平均の対数を得る処理であってもよい。

【0094】

このように、第１加重平均処理は第１ミックスアップ処理の一例であり、第２加重平均処理は第２ミックスアップ処理の一例である。第１ミックスアップ処理は、部分時系列の一方である第１部分時系列を他の時系列である第１被混合時系列を用いて変更する処理である。したがって、第１混合時系列は、第１ミックスアップ処理による変更後の第１部分時系列である。

【0095】

第２ミックスアップ処理は、部分時系列の他方である第２部分時系列を第１被混合時系列と異なる第２被混合時系列を用いて変更する処理である。したがって、第２混合時系列は、第２ミックスアップ処理による変更後の第２部分時系列である。なお、ここまでの説明で明らかではあるが、第１ミックスアップ処理と、第２ミックスアップ処理とはミックスアップ処理に含まれる処理である。

【0096】

上述したように変換装置２は、例えば、学習済みの音響変換処理を実行し学習済みの音響変換処理の実行により得られた対象形式のデータを用いて所定の検索対象を検索する検索装置、として実装されてもよい。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば異常検知処理である。このような場合、検査対象は、所定の異常音である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば楽曲検索処理であってもよい。このような場合、検索対象は曲である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば、話者判定処理であってもよい。このような場合、検索対象は、検査装置に入力された音響時系列が示す音声を発した話者である。学習済みの音響変換処理を用いて所定の検索対象を検索する処理は、例えば、音声判定処理であってもよい。このような場合、検索対象は、検査装置に入力された音響時系列が示す音声そのものである。

【0097】

なお変換装置２は必ずしも下流処理実行部２６０を備える必要は無く、下流処理実行部２６０は、変換装置２と通信可能に接続された他の装置が備えていてもよい。このような場合、通信制御部２４０は対象形式のデータを、通信部２３を介して下流処理実行部２６０を備える他の装置に送信する。そのためこのような場合、変換装置２が実行するステップＳ２０１～ステップＳ２０４の処理のうちステップＳ２０３の処理は実行されず、ステップＳ２０４の処理では通信制御部２４０による対象形式のデータの他の装置への送信が通信部２３を介して行われる。

【0098】

学習装置１及び変換装置２はそれぞれ、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置１及び変換装置２のそれぞれが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

【0099】

なお、学習装置１及び変換装置２は、必ずしも異なる装置として実装される必要は無い。学習装置１及び変換装置２は、例えば両者の機能を併せ持つ１つの装置として実装されてもよい。

【0100】

なお、音響変換システム１００、学習装置１及び変換装置２それぞれの各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

【0101】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0102】

１００…音響変換システム、１…学習装置、２…変換装置、１１…制御部、１２…入力部、１３…通信部、１４…記憶部、１５…出力部、１１０…音響時系列取得部、１２０…データ拡張部、１３０…自己学習部、１４０…記憶制御部、１５０…通信制御部、１６０…出力制御部、２１…制御部、２２…入力部、２３…通信部、２４…記憶部、２５…出力部、２１０…音響時系列取得部、２２０…変換部、２３０…記憶制御部、２４０…通信制御部、２５０…出力制御部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ

【図1】