特開2022-93362 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特開2022-93362擬音語生成装置、擬音語生成方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022093362

(43)【公開日】2022-06-23

(54)【発明の名称】擬音語生成装置、擬音語生成方法、及びプログラム

(51)【国際特許分類】

G10L 15/02 20060101AFI20220614BHJP

G06N 20/00 20190101ALI20220614BHJP

G10L 15/10 20060101ALI20220614BHJP

G10L 15/16 20060101ALI20220614BHJP

【ＦＩ】

G10L15/02 300Z

G06N20/00

G10L15/10 500Z

G10L15/16

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022062581

(22)【出願日】2022-04-04

(62)【分割の表示】P 2018229165の分割

【原出願日】2018-12-06

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り１．井川翔太、及び柏野邦夫が、２０１７年１２月１４日付けで、電子情報通信学会技術研究報告信学技報Ｖｏｌ．１１７Ｎｏ．３６８ＳＰ２０１７－５５－ＳＰ２０１７－６５音声２０１７年１２月２１日～２２日１７～２０頁において、「ＬＳＴＭを用いた音響信号からの擬音語生成」と題して、柏野邦夫、及び井川翔太が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。２．井川翔太、及び柏野邦夫が、２０１８年２月２７日付けで、日本音響学会２０１８年春季研究発表会講演論文集講演要旨・講演論文ＣＤ－ＲＯＭにおいて、「Ｓｅｑｕｅｎｃｅ－ｔｏ－Ｓｅｑｕｅｎｃｅモデルによる音響信号からの擬音語生成と主観評価」と題して、柏野邦夫、及び井川翔太が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。３．井川翔太、及び柏野邦夫が、２０１８年４月１５日付けで、２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＩＣＡＳＳＰ２０１８において、「ＧＥＮＥＲＡＴＩＮＧＳＯＵＮＤＷＯＲＤＳＦＲＯＭＡＵＤＩＯＳＩＧＮＡＬＳＯＦＡＣＯＵＳＴＩＣＥＶＥＮＴＳＷＩＴＨＳＥＱＵＥＮＣＥ－ＴＯ－ＳＥＱＵＥＮＣＥＭＯＤＥＬ」と題して、柏野邦夫、及び井川翔太が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。４．井川翔太、及び柏野邦夫が、２０１８年８月２９日付けで日本音響学会２０１８年秋季研究発表会講演論文集ＣＤ－ＲＯＭにおいて、「擬音語をクエリとした潜在特徴に基づく音響信号検索」と題して、柏野邦夫、及び井川翔太が発明した「推定装置、推定方法、プログラム、及び擬音語生成装置」に関する技術について公開。

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り５．井川翔太、及び柏野邦夫が、２０１８年１１月５日付けで、ＴＡＭＰＥＲＥＵＮＩＶＥＲＳＩＴＹＯＦＴＥＣＨＮＯＬＯＧＹＴＵＴＣＲＩＳＲｅｓｅａｒｃｈＰｏｒｔａｌＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＤｅｔｅｃｔｉｏｎａｎｄＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＡｃｏｕｓｔｉｃＳｃｅｎｅｓａｎｄＥｖｅｎｔｓ２０１８Ｗｏｒｋｓｈｏｐ（ＤＣＡＳＥ２０１８）（ＵＲＬ：ｈｔｔｐ：／／ｕｒｎ．ｆｉ／ＵＲＮ：ＩＳＢＮ：９７８－９５２－１５－４２６２－６、ＵＲＬ：ｈｔｔｐｓ：／／ｔｕｔｃｒｉｓ．ｔｕｔ．ｆｉ／ｐｏｒｔａｌ／ｆｉｌｅｓ／１７１１０９４６／ＤＣＡＳＥ＿２０１８＿ｐｒｏｃｅｅｄｉｎｇｓ．ｐｄｆ）Ｐ．５９－Ｐ．６３において、「ＡＣＯＵＳＴＩＣＥＶＥＮＴＳＥＡＲＣＨＷＩＴＨＡＮＯＮＯＭＡＴＯＰＯＥＩＣＱＵＥＲＹ：ＭＥＡＳＵＲＩＮＧＤＩＳＴＡＮＣＥＢＥＴＷＥＥＮＯＮＯＭＡＴＯＰＯＥＩＣＷＯＲＤＳＡＮＤＳＯＵＮＤＳ」と題して、柏野邦夫、及び井川翔太が発明した「系列信号を形容する言語表現の生成方法、言語表現による系列信号の探索方法（現在の名称）」に関する技術について公開。

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】100153017

【弁理士】

【氏名又は名称】大倉昭人

(74)【代理人】

【識別番号】100161148

【弁理士】

【氏名又は名称】福尾誠

(72)【発明者】

【氏名】柏野邦夫

(72)【発明者】

【氏名】井川翔太

(57)【要約】

【課題】２つのデータの関連付けの精度を向上させることを可能にする。
【解決手段】擬音語生成装置Ｇは、音響特徴量ｘに基づいて音響信号の潜在変数ｚを抽出するエンコーダ１と、潜在変数ｚに対して擬音語ｌを確率分布ｐ（ｌ｜ｚ）で生成し、確率分布ｐ（ｌ｜ｚ）が最大となる擬音語のテキストを生成するデコーダ２と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

音響特徴量ｘに基づいて音響信号の潜在変数ｚを抽出するエンコーダと、
前記潜在変数ｚに対して擬音語ｌを確率分布ｐ（ｌ｜ｚ）で生成し、前記確率分布ｐ（ｌ｜ｚ）が最大となる擬音語のテキストを生成するデコーダと、
を含む擬音語生成装置。

【請求項2】

請求項１に記載の擬音語生成装置において、
前記エンコーダ、および前記デコーダの少なくともいずれかは、再帰型ニューラルネットワークによって構成される、擬音語生成装置。

【請求項3】

請求項１又は２に記載の擬音語生成装置において、
出力層にSoftmax関数を適用し、擬音語ラベルから算出した１音素目の確率分布との二乗誤差最小化と、Vanilla Trainingのタスク（main-task）とのマルチタスクを学習する、擬音語生成装置。

【請求項4】

エンコーダによって、音響特徴量ｘに基づいて音響信号の潜在変数ｚを抽出することと、
デコーダによって、前記潜在変数ｚに対して擬音語ｌを確率分布ｐ（ｌ｜ｚ）で生成し、前記確率分布ｐ（ｌ｜ｚ）が最大となる擬音語のテキストを生成することと、
を含む擬音語生成方法。

【請求項5】

コンピュータを、請求項１乃至３のいずれか一項に記載の擬音語生成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、擬音語生成装置、擬音語生成方法、及びプログラムに関する。

【背景技術】

【0002】

環境音認識に対する注目が集まっている。認識の際に扱う対象は多様な特徴を有している。しかし、その適切な表現方法は確立されていない。また、情報技術の進歩に伴ってヒューマン・コンピュータ・インタラクションに対する需要も高まっている。擬音語生成システムの例として、音波形をセグメントに分割し、各セグメントに音素を当てはめる手法（例えば特許文献１）、及びConnectionist Temporal Classification(CTC)による変換手法（例えば特許文献２）が知られている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Kazushi Ishihara, Yasushi Tsubota, Hiroshi G. Okuno. “Automatic Transformation of Environmental Sounds into Sound-Imitation Words Based on Japanese Syllable Structure” In Proc. EUROSPEECH, pp. 3185-3188, 2003.

【非特許文献2】宮崎晃一、林知樹、武田一哉、戸田智基、「ＣＴＣに基づく音響インベントからの擬音語表現への変換」、2017年秋季研究発表会講演論文集、pp.19-20、日本音響学会、2017年9月

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記特許文献１の手法に対しては、２種類の問題が指摘される。１つ目は、セグメンテーション問題である。すなわち、音波形から擬音語の音素に対応するセグメントを決定することが困難である。２つ目は音素曖昧性問題である。すなわち、各セグメントに最も適する音素は一意に定まらず、聴取者に依存する。上記特許文献２では、ニューラルネットワークを用いてEnd-to-Endで音響信号が擬音語に変換され、セグメンテーション問題は学習によって解決が試みられる。しかし、音素曖昧性問題については考慮されていない。

【0005】

かかる点に鑑みてなされた本発明の目的は、２つのデータの関連付けの精度を向上させることができる擬音語生成装置、擬音語生成方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0006】

上記課題を解決するため、本発明に係る擬音語生成装置は、
音響特徴量ｘに基づいて音響信号の潜在変数ｚを抽出するエンコーダと、
前記潜在変数ｚに対して擬音語ｌを確率分布ｐ（ｌ｜ｚ）で生成し、前記確率分布ｐ（ｌ｜ｚ）が最大となる擬音語のテキストを生成するデコーダと、
を含む。

【0007】

上記課題を解決するため、本発明に係る擬音語生成方法は、
エンコーダによって、音響特徴量ｘに基づいて音響信号の潜在変数ｚを抽出することと、
デコーダによって、前記潜在変数ｚに対して擬音語ｌを確率分布ｐ（ｌ｜ｚ）で生成し、前記確率分布ｐ（ｌ｜ｚ）が最大となる擬音語のテキストを生成することと、
を含む。

【0008】

上記課題を解決するため、本発明に係るプログラムは、
コンピュータを、上記擬音語生成装置として機能させる。

【発明の効果】

【0009】

本発明に係る擬音語生成装置、擬音語生成方法、及びプログラムによれば、２つのデータの関連付けの精度を向上させることができる。

【図面の簡単な説明】

【0010】

【図1】本実施形態の擬音語生成装置を示す機能ブロック図である。

【図2】擬音語生成装置が実行するフローチャートを示す図である。

【図3】擬音語生成装置を用いた評価実験の内容を示す図である。

【図4】評価実験の結果を示す第１の図である。

【図5】評価実験の結果を示す第２の図である。

【図6】評価実験の結果を示す第３の図である。

【図7】評価実験における主観評価を示す第１の図である。

【図8】評価実験における主観評価を示す第２の図である。

【図9】従来技術におけるテキストベース検索を示す第１の図である。

【図10】従来技術におけるテキストベース検索を示す第２の図である。

【図11】本実施形態の推定装置の概略図である。

【図12】本実施形態の推定装置の機能ブロック図である。

【図13】Encoder-Decoderによる擬音語生成モデル示す図である。

【図14】推定装置が実行するフローチャートを示す図である。

【図15】推定装置の学習部が実行する処理を示す第１の図である。

【図16】推定装置の学習部が実行する処理を示す第２の図である。

【図17】推定装置の系列潜在特徴抽出部が実行する処理を示す図である。

【図18】推定装置を用いた評価実験における主観評価を示す第１の図である。

【図19】推定装置を用いた評価実験における主観評価を示す第２の図である。

【図20】推定装置による検索結果を示す第１の図である。

【図21】推定装置による検索結果を示す第２の図である。

【発明を実施するための形態】

【0011】

［擬音語生成方法］
本実施形態では、擬音語生成装置Ｇが開示される。擬音語生成装置Ｇは、擬音語と音響信号との間の多対多の関係を、生成モデルを用いて導出する。本実施形態の擬音語生成装置Ｇは、次の非特許文献３に開示されるSequence-to-Sequenceモデルを参考に用いている。
［非特許文献３］Ilya Sutskever, Oriol Vinyals, Quoc V. Le. “Sequence to Sequence Learning with Neural Networks.” In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pp.3104-3112. Curran Associates, Inc., 2014.

【0012】

下記で擬音語生成装置Ｇの各機能を詳細に説明するが、擬音語生成装置Ｇが有する他の機能を排除することを意図したものではない。

【0013】

擬音語生成装置Ｇが実行する処理は、１又は複数のプロセッサによって実行される。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する１又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。

【0014】

図１は擬音語生成装置Ｇの機能ブロック図である。図１に示すように擬音語生成装置Ｇはエンコーダ１及びデコーダ２を有する。エンコーダ１及びデコーダ２は、例えばRNN、Bi-directional LSTM (Long Short-term Memory) のような、再帰型ニューラルネットワークによって構成される。以下、Bi-directional LSTM による構成について説明する。

【0015】

擬音語生成装置Ｇが用いるモデルは次の通りである。

【数1】

【0016】

図２のフローチャートを参照して、擬音語生成装置Ｇが実行する処理を説明する。ステップＳ１にてエンコーダ１は、Bi-directional LSTMを用いて、音響特徴量Ｘから音響信号の潜在変数ｚを抽出する。音響特徴量は、例えばメル周波数ケプストラム係数、フーリエ変換によるパワースペクトル等であってよい。潜在変数は数値の集合であってよい。ステップＳ２にてデコーダ２は、抽出された潜在変数ｚに対して２層のLSTMを用いて、確率分布ｐ（ｌ｜ｚ）が最大となる擬音語

【数2】

のテキストを生成する。

【0017】

擬音語生成装置Ｇは、上記モデルを用いて、次の２種類の提案手法により訓練を行う。
Vanilla Training：各擬音語ラベルに対して各時間ステップの交差エントロピーを最小化する。
Multi-task Training：出力層にSoftmax関数を適用し、擬音語ラベルから算出した１音素目の確率分布との二乗誤差最小化（sub-task）と、Vanilla Trainingのタスク（main-task）とのマルチタスクを学習する。

【0018】

上記の２種類の提案手法を適用したモデルとＣＴＣモデルとを用いて評価実験を行った。実験には、技術研究組合新情報処理開発機構ＲＷＣＰ（Real World Computing Partnership）が提供するＲＷＣＰ実環境音声・音響データベース（RWCP-SSD）のデータを用いた。実験内容は図３に示す通りである。評価指標は、単語誤り率（ＷＥＲ）と音素誤り率平均（ＭＰＥＲ）である。単語誤り率（ＷＥＲ）とは、生成された単語がテストデータに含まれていない割合であり、次の式で算出される。
ＷＥＲ＝単語誤り数／テストデータ数

【0019】

音素誤り率平均（ＭＰＥＲ）は全テストデータの最良音素誤り率の平均であり、次の式で算出される。
ＭＰＥＲ＝（挿入誤り数＋削除誤り数＋置換誤り数）／教師ラベル音素系列長

【0020】

実験の結果、ＷＥＲ及びＭＰＥＲは図４及び図５に示すようになった。図４はセル数が５１２の場合のグラフである。このとき、１５エポック程度でＷＥＲ及びＭＰＥＲの値が収束した。また、Vanilla Training（図４にて「Va.」と表記）及びMulti-task Training（図４にて「M.t.」と表記）を行った場合のSequence-to-Sequenceモデル（図４以降にて「Seq2Seq」と表記）は、類似した学習曲線を示した。

【0021】

図５に示すように、２つの提案手法は共に、ＣＴＣと比較して低いＷＥＲ及びＭＰＥＲを示した。

【0022】

２つの提案手法とＣＴＣモデルとが生成した擬音語を比較すると図６のようになった。減衰音に関してSequence-to-SequenceモデルとＣＴＣモデルの両方が、妥当な擬音語を出力した。２つの提案手法は、特に、繰り返し音において、ＣＴＣモデルと比べて有利な結果を出力した。

【0023】

更に、擬音語として許容するか否かの主観評価を得た。図７に示す通り、結果として２つの提案手法において、擬音語として許容される割合が比較的高かった。また、シェッフェの方法による比較も行った。図８に示す通り、２つの提案手法において、比較的高い結果を示した。図８におけるエラーバーは９５％信頼区間を示す。

【0024】

以上の実験結果から、２つの提案手法は従来の手法に比べて妥当な擬音語を生成することが確認された。

【0025】

［音響信号検索方法］
下記では、上記の擬音語生成モデルの一部を用いて、擬音語クエリに基づいた音響信号検索を行う方法が開示される。

【0026】

従来、音響信号の検索方法として、クラス分類（例えば、拍手、銃声、サッカーのゴール、等）に基づく検索が行われている。しかし、クラスを必要な粒度で事前に網羅することは困難である。従来技術における別の検索方法として、擬音語に対するテキストベースでの検索（例えばトントン、ピー、等）も考えられる。この方法では、図９に示すように、全ての検索対象の音響信号に擬音語タグがあらかじめ付与される。ここで擬音語タグとは、テキストまたは記号列によるものであり、テキストとしては、「トントン」のように音色を直接模擬する言葉、sizzle, growl のように、音の様態と関連をもった言葉が有用である。また記号列とは、例えば発音記号に用いる音素記号列が有用である。擬音語タグは、人手により付与され、又は、音響信号に基づいて自動で付与される。この検索方法では、図１０に示すように、ユーザにより指定された擬音語クエリと各擬音語タグとの間で、文字列としての類似度が計算される。

【0027】

このようなテキストベース検索は次の２つの課題を有する。１つ目は、多くの異なる音が同一のテキストに紐付く結果、順位付けが不可能な多数の検索結果が生じることである。例えば「トン」という擬音語タグを付与できる音は無数に存在する。テキストベース検索では、これらに順位付けを行うことは困難である。２つ目は、検索対象となる多量の音に対して事前に擬音語タグを割り当てる必要があるが、それは一般に困難 (一意性が無い、処理時間または人手がかかる)であることである。プログラムを用いて自動的にテキストを割り当てる場合には、精度を保ちつつ十分な数のタグ付けが困難である。

【0028】

上記したような検索方法の課題を解決するために、ここでは図１１に概略的に示すような推定方法を実行する推定装置Ｓが開示される。推定装置Ｓはニューラルネットワークを用いたエンコーダによって、系列データである擬音語クエリから潜在変数を抽出する。推定装置Ｓは、当該潜在変数によって定義される、音響信号－擬音語間乖離度（音響信号と擬音語との間の乖離度）に基づいて、系列データである音響信号を検索する。詳細は後述する。

【0029】

図１２は推定装置Ｓの機能ブロック図である。推定装置Ｓは信号潜在特徴抽出部１２と、潜在特徴蓄積部１３と、系列潜在特徴抽出部１４と、学習部１５と、推定部１６とを有する。図１２において音響信号蓄積部１１は推定装置Ｓの外部に設けられるが、推定装置Ｓは更に音響信号蓄積部１１を含んでよい。信号潜在特徴抽出部１２と系列潜在特徴抽出部１４と学習部１５と推定部１６とが実行する処理は、１又は複数のプロセッサによって実行される。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する１又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。なお信号潜在特徴抽出部１２又は系列潜在特徴抽出部１４は本発明の特徴抽出部に対応する。推定部１６は本発明のデータ生成部に対応する。

【0030】

音響信号蓄積部１１及び潜在特徴蓄積部１３は例えば、半導体メモリ又は磁気メモリ等で構成される。音響信号蓄積部１１は音響信号データベースを含む。潜在特徴蓄積部１３は潜在変数データベースを含む。

【0031】

下記で推定装置Ｓの各機能を詳細に説明するが、推定装置Ｓが有する他の機能を排除することを意図したものではない。

【0032】

本実施形態の信号潜在特徴抽出部１２は、所定の特徴量抽出処理を用いて第１の特徴量を抽出する。所定の特徴量抽出処理は任意の処理であってよいが、本実施形態では、学習データを用いて同一の潜在空間（特徴空間ともいう）に特徴量を表現するよう学習された処理である。所定の特徴量抽出処理は例えば、次の文献に記載のEncoder-Decoderによる擬音語生成モデル（図１３参照）である。
井川翔太、柏野邦夫、「擬音語をクエリとした潜在特徴に基づく音響信号検索」、2018年秋季研究発表会講演論文集、日本音響学会、2018年9月

【0033】

図１４のフローチャートを参照しながら具体的に説明すると、信号潜在特徴抽出部１２はステップＳ１１にて、音響信号蓄積部１１から、第１のデータのセットとして音響信号ｘを取得する。本実施形態におけるデータのセットとは、各セットそれぞれに異種のデータを含まないデータの集合をいう。例えば、あるデータのセットは擬音語を表したテキストのみで構成されており、別のデータのセットは音響信号のみで構成されている。ただし本発明は、各セットそれぞれに異種のデータを含まない場合と、各セットに複数の種類のデータを含む場合とのどちらでも機能することに留意されたい。信号潜在特徴抽出部１２はステップＳ１２にて、取得した音響信号ｘを、中間層（図１３の１３Ｌ）において固定長ベクトルへとエンコードする。この中間層では、音響信号と擬音語との双方に関係する特徴を含んだ潜在変数が第１の特徴量として抽出される。信号潜在特徴抽出部１２はこの潜在変数を、入力された音響信号ｘに内在する潜在変数ｚ_ｘとみなす。

【0034】

潜在変数の抽出に用いられる擬音語生成モデルは上記のものに限られず、他のモデルが用いられてよい。

【0035】

潜在変数ｚ_ｘが抽出されると、ステップＳ１３にて潜在特徴蓄積部１３は潜在変数ｚ_ｘを蓄積する。

【0036】

学習部１５は、潜在特徴の抽出に必要となる、第１及び第２のデータから共通の潜在空間への写像を学習する。学習部１５は、検索や擬音語生成など、推定処理を行うべきデータが与えられる前に、オフラインにて事前に学習を行っておくことが可能である。具体的には、学習部１５は、ステップＳ１４にて、図１５に示すように、上記したEncoder-Decoderによる擬音語生成モデルを用い、エンコーダにおいては入力データの音響信号ｘから潜在変数ｚ_ｘへの変換を学習し、さらに、デコーダにおいては潜在変数ｚ_ｘから擬音語ｌへの変換を学習する。これらの学習には、教師データとして、事前に紐付けられた音響信号ｘと擬音語ｌのペアを用いる。ここで、前記デコーダを用いた変換処理は、潜在特徴、すなわち潜在空間上の１点と、ある擬音語とを関連付けることに相当している。このことを用いて、擬音語から潜在特徴への変換処理（エンコーダ）を学習することができる。すなわち、学習部１５は、ステップＳ１５にて、図１６に示すように擬音語ｌに対して、前記過程において擬音語ｌに関連付けられた潜在変数ｚ_ｘを教師データとして利用して、擬音語ｌから潜在変数ｚ_ｘへのエンコーダを学習する。当該エンコーダは、上記したEncoder-Decoderによる擬音語生成モデルのエンコーダと同一の構造であってよい。このように推定装置Ｓは、多くのデータにより、潜在空間と擬音語を表現する空間との対応付けを学習することによって、擬音語から潜在空間への写像を学習することができる。

【0037】

系列潜在特徴抽出部１４は第２のデータのセットから第２の特徴量を抽出する。具体的には系列潜在特徴抽出部１４はステップＳ１６にて、図１７に示すように、学習したエンコーダによって、第２のデータのセットとして入力された擬音語ｌから、第２の特徴量として潜在変数を抽出する。系列潜在特徴抽出部１４は、抽出された潜在変数を、擬音語に内在する潜在変数ｚ_ｌとみなす。

【0038】

上記のように、推定装置Ｓは、同一の潜在空間に存在する潜在変数として、計算可能な潜在変数ｚ_ｘ及び潜在変数ｚ_ｌを抽出する。

【0039】

改めて本発明の課題を考える。音響信号をテキストに変換し、変換されたテキストに基づき検索を行なおうとすると、前記変換されたテキストが一意に定まらないという課題があった。そこで上記のように推定装置Ｓは、クエリである音響信号から抽出される潜在変数と、データベースに保存されるテキストから抽出される潜在変数とを、同一の潜在空間で表現する。

【0040】

フローチャートの説明に戻ると、ステップＳ１７にて推定部１６は、抽出された潜在変数ｚ_ｘ及び潜在変数ｚ_ｌを比較し、当該比較の結果に基づいて擬音語クエリと音響信号とを関連付ける。例えば推定部１６は、二乗誤差等の任意の距離尺度を用いて、任意の方法で潜在変数ｚ_ｘと潜在変数ｚ_ｌとの距離Ｄ（ｘ、ｌ）を算出する。距離算出手法には任意のものが用いられてよい。推定部１６は、各サンプルに対して同様に距離算出を実行して、算出された距離に基づいて音響信号の順位付けを実行する。推定部１６は、例えば距離が最も短い音響信号をユーザに提示してよい。このように推定装置Ｓは、２つの潜在変数の乖離度を得ることができ、結果、音響信号そのものの特徴に即した検索結果を得ることができる。

【0041】

上記で説明した推定装置Ｓを用いて評価実験を行った。評価実験において、２つの主観評価を得た。１つ目の主観評価は、クエリに対する、検索信号の適合度についての評価である。結果を図１８に示す。

【0042】

図１８に示すように、本実施形態のデータベースと外部データベースとのどちらでも、「比較的当てはまる」との回答が最も多かった。回答者のうち、本実施形態のデータベースでは58.7%、外部データベースでは39.7%が、検索結果はクエリに当てはまると回答した。

【0043】

２つ目の主観評価では、本実施形態の検索方法と従来のテキストベース検索方法とを比較したときの評価を得た。結果を図１９に示す。結果として、本実施形態の検索方法の方が、テキストベース検索方法よりも高い評価を得た。有意水準は１％である。したがって本実施形態の検索方法の方が、クエリに対して妥当な検索結果を出力していると言える。

【0044】

更に、本実施形態の検索方法による検索結果を図２０及び図２１に示す。図２０及び図２１は、３次元以上の次元を、主成分に基づいて２次元に変換した図である。図２０に示すように、擬音語の分類タグが同一のもの同士は、２次元の潜在空間でも近くに分布する。また図２１に示すように、左下側には促音（Ｑ）が多い。また、右側には長音（Ｈ）又は繰り返しが多い。このように、似た傾向を持つ擬音語が近くに分布する。

【0045】

上記の２つの評価実験の結果、次のことが示された。すなわち、推定装置Ｓは、クエリに対して正しく対応して動作する。推定装置Ｓは、擬音語タグが付与されていないデータベースを検索可能であるという汎化性能を有する。推定装置Ｓは、テキストベース検索と比較して、より妥当な検索結果を得ることができる。

【0046】

上記実施形態によれば、推定装置Ｓは、第１のデータから所定の特徴空間における特徴量を抽出し、その特徴空間と第２のデータを表現する空間とを関連付けることによって、第１のデータと第２のデータとを同一の特徴空間で表現する。これにより、２つのデータの関連付けの精度を向上させることができる。

【0047】

上記実施形態によれば、系列潜在特徴抽出部１４は、第２のデータの入力を受け付けると、特徴量をクエリとして抽出する。また、推定部１６は抽出された特徴量を用いて、第１のデータと第２のデータとの乖離度を算出する。推定部１６は距離の尺度に、二乗誤差等の任意の指標を用いてもよい。これにより、入力されたクエリに対して距離算出を行うことができるので、ユーザの利便性を一層向上させることができる。

【0048】

上記実施形態によれば、第１のデータと第２のデータとは系列データである。また、第１のデータは音響信号又はテキストの一方である。また、第２のデータは音響信号又はテキストの他方である。これにより、様々な種類のデータの関連付けを実行することができるので、ユーザの利便性を一層向上させることができる。

【0049】

本発明を諸図面及び実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。したがって、これらの変形及び修正は本発明の範囲に含まれることに留意されたい。例えば、各手段又は各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。

【0050】

例えば上記の音響信号検索方法では、推定装置Ｓは擬音語をクエリとして音響信号を検索する。しかし他の実施形態では、反対に、推定装置Ｓは音響信号をクエリとして擬音語を検索してよい。また推定装置Ｓは擬音語以外のデータ（例えば動画データ又は文字データ等）をクエリに用いて、音響信号以外のデータ（例えば漫画データ又は動画データ）を検索してもよい。

【0051】

また、上記の音響信号検索方法では、推定装置Ｓは、擬音語クエリの系列データから音響信号の系列データを検索する。しかし、他の実施形態では、推定装置Ｓは、系列データではないデータ（例えば画像データ、又は、口真似等の発話による音声データ）から系列データを検索してよい。その逆も同様である。更に別の実施形態では、推定装置Ｓは、系列データではないデータから、系列データではないデータを検索してよい。

【0052】

擬音語生成装置Ｇ又は推定装置Ｓをコンピュータで構成する場合、各機能を実現する処理内容を記述したプログラムを、当該コンピュータの内部又は外部の記憶手段に格納しておき、当該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることでコンピュータを機能させることができる。また、このようなプログラムは、例えばＤＶＤ又はＣＤ－ＲＯＭ等の可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばネットワーク上にあるサーバの記憶手段に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶手段に格納することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

【符号の説明】

【0053】

Ｇ擬音語生成装置
１エンコーダ
２デコーダ
Ｓ推定装置
１１音響信号蓄積部
１２信号潜在特徴抽出部
１３潜在特徴蓄積部
１４系列潜在特徴抽出部
１５学習部
１６推定部

【図1】