(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-10
(45)【発行日】2023-08-21
(54)【発明の名称】擬音語生成装置、擬音語生成方法、及びプログラム
(51)【国際特許分類】
G10L 15/02 20060101AFI20230814BHJP
G10L 15/10 20060101ALI20230814BHJP
G10L 15/16 20060101ALI20230814BHJP
【FI】
G10L15/02 300Z
G10L15/10 500Z
G10L15/16
(21)【出願番号】P 2022062581
(22)【出願日】2022-04-04
(62)【分割の表示】P 2018229165の分割
【原出願日】2018-12-06
【審査請求日】2022-04-04
【新規性喪失の例外の表示】特許法第30条第2項適用 1.井川 翔太、及び 柏野 邦夫 が、2017年12月14日付けで、電子情報通信学会技術研究報告 信学技報 Vol.117 No.368 SP2017-55-SP2017-65 音声 2017年12月21日~22日 17~20頁 において、「LSTMを用いた音響信号からの擬音語生成」と題して、柏野 邦夫、及び 井川 翔太 が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。 2.井川 翔太、及び 柏野 邦夫 が、2018年2月27日付けで、日本音響学会 2018年 春季研究発表会 講演論文集 講演要旨・講演論文CD- ROM において、「Sequence-to-Sequenceモデルによる音響信号からの擬音語生成と主観評価」と題して、柏野 邦夫、及び 井川 翔太 が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。 3.井川 翔太、及び 柏野 邦夫 が、2018年4月15日付けで、2018 IEEE International Conference on Acoustics,Speech,and Signal Processing ICASSP2018 において、「GENERATING SOUND WORDS FROM AUDIO SIGNALS OF ACOUSTIC EVENTS WITH SEQUENCE-TO-SEQUENCE MODEL」と題して、柏野 邦夫、及び 井川 翔太 が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。
【新規性喪失の例外の表示】特許法第30条第2項適用 4.井川 翔太、及び 柏野 邦夫 が、2018年8月29日付けで日本音響学会 2018年 秋季研究発表会 講演論文集CD-ROM において、「擬音語をクエリとした潜在特徴に基づく音響信号検索」と題して、柏野 邦夫、及び 井川 翔太 が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。 5.井川 翔太、及び 柏野 邦夫 が、2018年11月5日付けで、TAMPERE UNIVERSITY OF TECHNOLOGY TUTCRIS Research Portal Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop(DCASE2018)において、「系列信号を形容する言語表現の生成方法、言語表現による系列信号の探索方法」に関する技術について公開。
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100164471
【氏名又は名称】岡野 大和
(74)【代理人】
【識別番号】100176728
【氏名又は名称】北村 慎吾
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】井川 翔太
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2015-212732(JP,A)
【文献】宮崎晃一 林知樹 戸田智基 武田一哉,CTCに基づく音響イベントからの擬音語表現への変換,日本音響学会 2017年 秋季研究発表会講演論文集CD-ROM,2017年09月27日,pp.19-20
【文献】河原 達也,音声認識技術の変遷と最先端 深層学習によるEnd-to-Endモデル,日本音響学会誌,日本,一般社団法人日本音響学会,2018年07月,第74巻第7号,p.381-386
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G10L 17/26
(57)【特許請求の範囲】
【請求項1】
音響特徴量xに基づいて音響信号の潜在変数zを抽出するエンコーダと、
前記潜在変数zに対して擬音語lを確率分布p(l|z)で生成し、前記確率分布p(l|z)が最大となる擬音語のテキストを生成するデコーダと、
を含
み、
出力層にSoftmax関数を適用し、擬音語ラベルから算出した1音素目の確率分布との二乗誤差最小化と、Vanilla Trainingのタスク(main-task)とのマルチタスクを学習する、
擬音語生成装置。
【請求項2】
請求項1に記載の擬音語生成装置において、
前記エンコーダ、および前記デコーダの少なくともいずれかは、再帰型ニューラルネットワークによって構成される、擬音語生成装置。
【請求項3】
エンコーダによって、音響特徴量xに基づいて音響信号の潜在変数zを抽出することと、
デコーダによって、前記潜在変数zに対して擬音語lを確率分布p(l|z)で生成し、前記確率分布p(l|z)が最大となる擬音語のテキストを生成することと、
出力層にSoftmax関数を適用し、擬音語ラベルから算出した1音素目の確率分布との二乗誤差最小化と、Vanilla Trainingのタスク(main-task)とのマルチタスクを学習することと、
を含む擬音語生成方法。
【請求項4】
コンピュータを、請求項1
又は2に記載の擬音語生成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、擬音語生成装置、擬音語生成方法、及びプログラムに関する。
【背景技術】
【0002】
環境音認識に対する注目が集まっている。認識の際に扱う対象は多様な特徴を有している。しかし、その適切な表現方法は確立されていない。また、情報技術の進歩に伴ってヒューマン・コンピュータ・インタラクションに対する需要も高まっている。擬音語生成システムの例として、音波形をセグメントに分割し、各セグメントに音素を当てはめる手法(例えば特許文献1)、及びConnectionist Temporal Classification(CTC)による変換手法(例えば特許文献2)が知られている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Kazushi Ishihara, Yasushi Tsubota, Hiroshi G. Okuno. “Automatic Transformation of Environmental Sounds into Sound-Imitation Words Based on Japanese Syllable Structure” In Proc. EUROSPEECH, pp. 3185-3188, 2003.
【文献】宮崎晃一、林知樹、武田一哉、戸田智基、「CTCに基づく音響インベントからの擬音語表現への変換」、2017年秋季研究発表会講演論文集、pp.19-20、日本音響学会、2017年9月
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記特許文献1の手法に対しては、2種類の問題が指摘される。1つ目は、セグメンテーション問題である。すなわち、音波形から擬音語の音素に対応するセグメントを決定することが困難である。2つ目は音素曖昧性問題である。すなわち、各セグメントに最も適する音素は一意に定まらず、聴取者に依存する。上記特許文献2では、ニューラルネットワークを用いてEnd-to-Endで音響信号が擬音語に変換され、セグメンテーション問題は学習によって解決が試みられる。しかし、音素曖昧性問題については考慮されていない。
【0005】
かかる点に鑑みてなされた本発明の目的は、2つのデータの関連付けの精度を向上させることができる擬音語生成装置、擬音語生成方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明に係る擬音語生成装置は、
音響特徴量xに基づいて音響信号の潜在変数zを抽出するエンコーダと、
前記潜在変数zに対して擬音語lを確率分布p(l|z)で生成し、前記確率分布p(l|z)が最大となる擬音語のテキストを生成するデコーダと、
を含み、
出力層にSoftmax関数を適用し、擬音語ラベルから算出した1音素目の確率分布との二乗誤差最小化と、Vanilla Trainingのタスク(main-task)とのマルチタスクを学習する。
【0007】
上記課題を解決するため、本発明に係る擬音語生成方法は、
エンコーダによって、音響特徴量xに基づいて音響信号の潜在変数zを抽出することと、
デコーダによって、前記潜在変数zに対して擬音語lを確率分布p(l|z)で生成し、前記確率分布p(l|z)が最大となる擬音語のテキストを生成することと、
出力層にSoftmax関数を適用し、擬音語ラベルから算出した1音素目の確率分布との二乗誤差最小化と、Vanilla Trainingのタスク(main-task)とのマルチタスクを学習することと、
を含む。
【0008】
上記課題を解決するため、本発明に係るプログラムは、
コンピュータを、上記擬音語生成装置として機能させる。
【発明の効果】
【0009】
本発明に係る擬音語生成装置、擬音語生成方法、及びプログラムによれば、2つのデータの関連付けの精度を向上させることができる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態の擬音語生成装置を示す機能ブロック図である。
【
図2】擬音語生成装置が実行するフローチャートを示す図である。
【
図3】擬音語生成装置を用いた評価実験の内容を示す図である。
【
図7】評価実験における主観評価を示す第1の図である。
【
図8】評価実験における主観評価を示す第2の図である。
【
図9】従来技術におけるテキストベース検索を示す第1の図である。
【
図10】従来技術におけるテキストベース検索を示す第2の図である。
【
図12】本実施形態の推定装置の機能ブロック図である。
【
図13】Encoder-Decoderによる擬音語生成モデル示す図である。
【
図14】推定装置が実行するフローチャートを示す図である。
【
図15】推定装置の学習部が実行する処理を示す第1の図である。
【
図16】推定装置の学習部が実行する処理を示す第2の図である。
【
図17】推定装置の系列潜在特徴抽出部が実行する処理を示す図である。
【
図18】推定装置を用いた評価実験における主観評価を示す第1の図である。
【
図19】推定装置を用いた評価実験における主観評価を示す第2の図である。
【
図20】推定装置による検索結果を示す第1の図である。
【
図21】推定装置による検索結果を示す第2の図である。
【発明を実施するための形態】
【0011】
[擬音語生成方法]
本実施形態では、擬音語生成装置Gが開示される。擬音語生成装置Gは、擬音語と音響信号との間の多対多の関係を、生成モデルを用いて導出する。本実施形態の擬音語生成装置Gは、次の非特許文献3に開示されるSequence-to-Sequenceモデルを参考に用いている。
[非特許文献3]Ilya Sutskever, Oriol Vinyals, Quoc V. Le. “Sequence to Sequence Learning with Neural Networks.” In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pp.3104-3112. Curran Associates, Inc., 2014.
【0012】
下記で擬音語生成装置Gの各機能を詳細に説明するが、擬音語生成装置Gが有する他の機能を排除することを意図したものではない。
【0013】
擬音語生成装置Gが実行する処理は、1又は複数のプロセッサによって実行される。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する1又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。
【0014】
図1は擬音語生成装置Gの機能ブロック図である。
図1に示すように擬音語生成装置Gはエンコーダ1及びデコーダ2を有する。エンコーダ1及びデコーダ2は、例えばRNN、Bi-directional LSTM (Long Short-term Memory) のような、再帰型ニューラルネットワークによって構成される。以下、Bi-directional LSTM による構成について説明する。
【0015】
擬音語生成装置Gが用いるモデルは次の通りである。
【数1】
【0016】
図2のフローチャートを参照して、擬音語生成装置Gが実行する処理を説明する。ステップS1にてエンコーダ1は、Bi-directional LSTMを用いて、音響特徴量Xから音響信号の潜在変数zを抽出する。音響特徴量は、例えばメル周波数ケプストラム係数、フーリエ変換によるパワースペクトル等であってよい。潜在変数は数値の集合であってよい。ステップS2にてデコーダ2は、抽出された潜在変数zに対して2層のLSTMを用いて、確率分布p(l|z)が最大となる擬音語
【数2】
のテキストを生成する。
【0017】
擬音語生成装置Gは、上記モデルを用いて、次の2種類の提案手法により訓練を行う。
Vanilla Training:各擬音語ラベルに対して各時間ステップの交差エントロピーを最小化する。
Multi-task Training:出力層にSoftmax関数を適用し、擬音語ラベルから算出した1音素目の確率分布との二乗誤差最小化(sub-task)と、Vanilla Trainingのタスク(main-task)とのマルチタスクを学習する。
【0018】
上記の2種類の提案手法を適用したモデルとCTCモデルとを用いて評価実験を行った。実験には、技術研究組合 新情報処理開発機構 RWCP(Real World Computing Partnership)が提供するRWCP 実環境音声・音響データベース(RWCP-SSD)のデータを用いた。実験内容は
図3に示す通りである。評価指標は、単語誤り率(WER)と音素誤り率平均(MPER)である。単語誤り率(WER)とは、生成された単語がテストデータに含まれていない割合であり、次の式で算出される。
WER=単語誤り数/テストデータ数
【0019】
音素誤り率平均(MPER)は全テストデータの最良音素誤り率の平均であり、次の式で算出される。
MPER=(挿入誤り数+削除誤り数+置換誤り数)/教師ラベル音素系列長
【0020】
実験の結果、WER及びMPERは
図4及び
図5に示すようになった。
図4はセル数が512の場合のグラフである。このとき、15エポック程度でWER及びMPERの値が収束した。また、Vanilla Training(
図4にて「Va.」と表記)及びMulti-task Training(
図4にて「M.t.」と表記)を行った場合のSequence-to-Sequenceモデル(
図4以降にて「Seq2Seq」と表記)は、類似した学習曲線を示した。
【0021】
図5に示すように、2つの提案手法は共に、CTCと比較して低いWER及びMPERを示した。
【0022】
2つの提案手法とCTCモデルとが生成した擬音語を比較すると
図6のようになった。減衰音に関してSequence-to-SequenceモデルとCTCモデルの両方が、妥当な擬音語を出力した。2つの提案手法は、特に、繰り返し音において、CTCモデルと比べて有利な結果を出力した。
【0023】
更に、擬音語として許容するか否かの主観評価を得た。
図7に示す通り、結果として2つの提案手法において、擬音語として許容される割合が比較的高かった。また、シェッフェの方法による比較も行った。
図8に示す通り、2つの提案手法において、比較的高い結果を示した。
図8におけるエラーバーは95%信頼区間を示す。
【0024】
以上の実験結果から、2つの提案手法は従来の手法に比べて妥当な擬音語を生成することが確認された。
【0025】
[音響信号検索方法]
下記では、上記の擬音語生成モデルの一部を用いて、擬音語クエリに基づいた音響信号検索を行う方法が開示される。
【0026】
従来、音響信号の検索方法として、クラス分類(例えば、拍手、銃声、サッカーのゴール、等)に基づく検索が行われている。しかし、クラスを必要な粒度で事前に網羅することは困難である。従来技術における別の検索方法として、擬音語に対するテキストベースでの検索(例えばトントン、ピー、等)も考えられる。この方法では、
図9に示すように、全ての検索対象の音響信号に擬音語タグがあらかじめ付与される。ここで擬音語タグとは、テキストまたは記号列によるものであり、テキストとしては、「トントン」のように音色を直接模擬する言葉、sizzle, growl のように、音の様態と関連をもった言葉が有用である。また記号列とは、例えば発音記号に用いる音素記号列が有用である。擬音語タグは、人手により付与され、又は、音響信号に基づいて自動で付与される。この検索方法では、
図10に示すように、ユーザにより指定された擬音語クエリと各擬音語タグとの間で、文字列としての類似度が計算される。
【0027】
このようなテキストベース検索は次の2つの課題を有する。1つ目は、多くの異なる音が同一のテキストに紐付く結果、順位付けが不可能な多数の検索結果が生じることである。例えば「トン」という擬音語タグを付与できる音は無数に存在する。テキストベース検索では、これらに順位付けを行うことは困難である。2つ目は、検索対象となる多量の音に対して事前に擬音語タグを割り当てる必要があるが、それは一般に困難 (一意性が無い、処理時間または人手がかかる)であることである。プログラムを用いて自動的にテキストを割り当てる場合には、精度を保ちつつ十分な数のタグ付けが困難である。
【0028】
上記したような検索方法の課題を解決するために、ここでは
図11に概略的に示すような推定方法を実行する推定装置Sが開示される。推定装置Sはニューラルネットワークを用いたエンコーダによって、系列データである擬音語クエリから潜在変数を抽出する。推定装置Sは、当該潜在変数によって定義される、音響信号-擬音語間乖離度(音響信号と擬音語との間の乖離度)に基づいて、系列データである音響信号を検索する。詳細は後述する。
【0029】
図12は推定装置Sの機能ブロック図である。推定装置Sは信号潜在特徴抽出部12と、潜在特徴蓄積部13と、系列潜在特徴抽出部14と、学習部15と、推定部16とを有する。
図12において音響信号蓄積部11は推定装置Sの外部に設けられるが、推定装置Sは更に音響信号蓄積部11を含んでよい。信号潜在特徴抽出部12と系列潜在特徴抽出部14と学習部15と推定部16とが実行する処理は、1又は複数のプロセッサによって実行される。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する1又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。なお信号潜在特徴抽出部12又は系列潜在特徴抽出部14は本発明の特徴抽出部に対応する。推定部16は本発明のデータ生成部に対応する。
【0030】
音響信号蓄積部11及び潜在特徴蓄積部13は例えば、半導体メモリ又は磁気メモリ等で構成される。音響信号蓄積部11は音響信号データベースを含む。潜在特徴蓄積部13は潜在変数データベースを含む。
【0031】
下記で推定装置Sの各機能を詳細に説明するが、推定装置Sが有する他の機能を排除することを意図したものではない。
【0032】
本実施形態の信号潜在特徴抽出部12は、所定の特徴量抽出処理を用いて第1の特徴量を抽出する。所定の特徴量抽出処理は任意の処理であってよいが、本実施形態では、学習データを用いて同一の潜在空間(特徴空間ともいう)に特徴量を表現するよう学習された処理である。所定の特徴量抽出処理は例えば、次の文献に記載のEncoder-Decoderによる擬音語生成モデル(
図13参照)である。
井川翔太、柏野邦夫、「擬音語をクエリとした潜在特徴に基づく音響信号検索」、2018年秋季研究発表会講演論文集、日本音響学会、2018年9月
【0033】
図14のフローチャートを参照しながら具体的に説明すると、信号潜在特徴抽出部12はステップS11にて、音響信号蓄積部11から、第1のデータのセットとして音響信号xを取得する。本実施形態におけるデータのセットとは、各セットそれぞれに異種のデータを含まないデータの集合をいう。例えば、あるデータのセットは擬音語を表したテキストのみで構成されており、別のデータのセットは音響信号のみで構成されている。ただし本発明は、各セットそれぞれに異種のデータを含まない場合と、各セットに複数の種類のデータを含む場合とのどちらでも機能することに留意されたい。信号潜在特徴抽出部12はステップS12にて、取得した音響信号xを、中間層(
図13の13L)において固定長ベクトルへとエンコードする。この中間層では、音響信号と擬音語との双方に関係する特徴を含んだ潜在変数が第1の特徴量として抽出される。信号潜在特徴抽出部12はこの潜在変数を、入力された音響信号xに内在する潜在変数z
xとみなす。
【0034】
潜在変数の抽出に用いられる擬音語生成モデルは上記のものに限られず、他のモデルが用いられてよい。
【0035】
潜在変数zxが抽出されると、ステップS13にて潜在特徴蓄積部13は潜在変数zxを蓄積する。
【0036】
学習部15は、潜在特徴の抽出に必要となる、第1及び第2のデータから共通の潜在空間への写像を学習する。学習部15は、検索や擬音語生成など、推定処理を行うべきデータが与えられる前に、オフラインにて事前に学習を行っておくことが可能である。具体的には、学習部15は、ステップS14にて、
図15に示すように、上記したEncoder-Decoderによる擬音語生成モデルを用い、エンコーダにおいては入力データの音響信号xから潜在変数z
xへの変換を学習し、さらに、デコーダにおいては潜在変数z
xから擬音語lへの変換を学習する。これらの学習には、教師データとして、事前に紐付けられた音響信号xと擬音語lのペアを用いる。ここで、前記デコーダを用いた変換処理は、潜在特徴、すなわち潜在空間上の1点と、ある擬音語とを関連付けることに相当している。このことを用いて、擬音語から潜在特徴への変換処理(エンコーダ)を学習することができる。すなわち、学習部15は、ステップS15にて、
図16に示すように擬音語lに対して、前記過程において擬音語lに関連付けられた潜在変数z
xを教師データとして利用して、擬音語lから潜在変数z
xへのエンコーダを学習する。当該エンコーダは、上記したEncoder-Decoderによる擬音語生成モデルのエンコーダと同一の構造であってよい。このように推定装置Sは、多くのデータにより、潜在空間と擬音語を表現する空間との対応付けを学習することによって、擬音語から潜在空間への写像を学習することができる。
【0037】
系列潜在特徴抽出部14は第2のデータのセットから第2の特徴量を抽出する。具体的には系列潜在特徴抽出部14はステップS16にて、
図17に示すように、学習したエンコーダによって、第2のデータのセットとして入力された擬音語lから、第2の特徴量として潜在変数を抽出する。系列潜在特徴抽出部14は、抽出された潜在変数を、擬音語に内在する潜在変数z
lとみなす。
【0038】
上記のように、推定装置Sは、同一の潜在空間に存在する潜在変数として、計算可能な潜在変数zx及び潜在変数zlを抽出する。
【0039】
改めて本発明の課題を考える。音響信号をテキストに変換し、変換されたテキストに基づき検索を行なおうとすると、前記変換されたテキストが一意に定まらないという課題があった。そこで上記のように推定装置Sは、クエリである音響信号から抽出される潜在変数と、データベースに保存されるテキストから抽出される潜在変数とを、同一の潜在空間で表現する。
【0040】
フローチャートの説明に戻ると、ステップS17にて推定部16は、抽出された潜在変数zx及び潜在変数zlを比較し、当該比較の結果に基づいて擬音語クエリと音響信号とを関連付ける。例えば推定部16は、二乗誤差等の任意の距離尺度を用いて、任意の方法で潜在変数zxと潜在変数zlとの距離D(x、l)を算出する。距離算出手法には任意のものが用いられてよい。推定部16は、各サンプルに対して同様に距離算出を実行して、算出された距離に基づいて音響信号の順位付けを実行する。推定部16は、例えば距離が最も短い音響信号をユーザに提示してよい。このように推定装置Sは、2つの潜在変数の乖離度を得ることができ、結果、音響信号そのものの特徴に即した検索結果を得ることができる。
【0041】
上記で説明した推定装置Sを用いて評価実験を行った。評価実験において、2つの主観評価を得た。1つ目の主観評価は、クエリに対する、検索信号の適合度についての評価である。結果を
図18に示す。
【0042】
図18に示すように、本実施形態のデータベースと外部データベースとのどちらでも、「比較的当てはまる」との回答が最も多かった。回答者のうち、本実施形態のデータベースでは58.7%、外部データベースでは39.7%が、検索結果はクエリに当てはまると回答した。
【0043】
2つ目の主観評価では、本実施形態の検索方法と従来のテキストベース検索方法とを比較したときの評価を得た。結果を
図19に示す。結果として、本実施形態の検索方法の方が、テキストベース検索方法よりも高い評価を得た。有意水準は1%である。したがって本実施形態の検索方法の方が、クエリに対して妥当な検索結果を出力していると言える。
【0044】
更に、本実施形態の検索方法による検索結果を
図20及び
図21に示す。
図20及び
図21は、3次元以上の次元を、主成分に基づいて2次元に変換した図である。
図20に示すように、擬音語の分類タグが同一のもの同士は、2次元の潜在空間でも近くに分布する。また
図21に示すように、左下側には促音(Q)が多い。また、右側には長音(H)又は繰り返しが多い。このように、似た傾向を持つ擬音語が近くに分布する。
【0045】
上記の2つの評価実験の結果、次のことが示された。すなわち、推定装置Sは、クエリに対して正しく対応して動作する。推定装置Sは、擬音語タグが付与されていないデータベースを検索可能であるという汎化性能を有する。推定装置Sは、テキストベース検索と比較して、より妥当な検索結果を得ることができる。
【0046】
上記実施形態によれば、推定装置Sは、第1のデータから所定の特徴空間における特徴量を抽出し、その特徴空間と第2のデータを表現する空間とを関連付けることによって、第1のデータと第2のデータとを同一の特徴空間で表現する。これにより、2つのデータの関連付けの精度を向上させることができる。
【0047】
上記実施形態によれば、系列潜在特徴抽出部14は、第2のデータの入力を受け付けると、特徴量をクエリとして抽出する。また、推定部16は抽出された特徴量を用いて、第1のデータと第2のデータとの乖離度を算出する。推定部16は距離の尺度に、二乗誤差等の任意の指標を用いてもよい。これにより、入力されたクエリに対して距離算出を行うことができるので、ユーザの利便性を一層向上させることができる。
【0048】
上記実施形態によれば、第1のデータと第2のデータとは系列データである。また、第1のデータは音響信号又はテキストの一方である。また、第2のデータは音響信号又はテキストの他方である。これにより、様々な種類のデータの関連付けを実行することができるので、ユーザの利便性を一層向上させることができる。
【0049】
本発明を諸図面及び実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本発明の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
【0050】
例えば上記の音響信号検索方法では、推定装置Sは擬音語をクエリとして音響信号を検索する。しかし他の実施形態では、反対に、推定装置Sは音響信号をクエリとして擬音語を検索してよい。また推定装置Sは擬音語以外のデータ(例えば動画データ又は文字データ等)をクエリに用いて、音響信号以外のデータ(例えば漫画データ又は動画データ)を検索してもよい。
【0051】
また、上記の音響信号検索方法では、推定装置Sは、擬音語クエリの系列データから音響信号の系列データを検索する。しかし、他の実施形態では、推定装置Sは、系列データではないデータ(例えば画像データ、又は、口真似等の発話による音声データ)から系列データを検索してよい。その逆も同様である。更に別の実施形態では、推定装置Sは、系列データではないデータから、系列データではないデータを検索してよい。
【0052】
擬音語生成装置G又は推定装置Sをコンピュータで構成する場合、各機能を実現する処理内容を記述したプログラムを、当該コンピュータの内部又は外部の記憶手段に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることでコンピュータを機能させることができる。また、このようなプログラムは、例えばDVD又はCD-ROM等の可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばネットワーク上にあるサーバの記憶手段に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶手段に格納することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。
【符号の説明】
【0053】
G 擬音語生成装置
1 エンコーダ
2 デコーダ
S 推定装置
11 音響信号蓄積部
12 信号潜在特徴抽出部
13 潜在特徴蓄積部
14 系列潜在特徴抽出部
15 学習部
16 推定部