特許6241790 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許6241790生成モデル作成装置、推定装置、それらの方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6241790

(24)【登録日】2017年11月17日

(45)【発行日】2017年12月6日

(54)【発明の名称】生成モデル作成装置、推定装置、それらの方法およびプログラム

(51)【国際特許分類】

G10L 15/10 20060101AFI20171127BHJP

G10L 15/14 20060101ALI20171127BHJP

【ＦＩ】

G10L15/10 500Z

G10L15/14 153

【請求項の数】6

【全頁数】26

(21)【出願番号】特願2014-165407(P2014-165407)

(22)【出願日】2014年8月15日

(65)【公開番号】特開2016-42123(P2016-42123A)

(43)【公開日】2016年3月31日

【審査請求日】2016年11月7日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】井本桂右

(72)【発明者】

【氏名】植松尚

(72)【発明者】

【氏名】大室仲

(72)【発明者】

【氏名】小野順貴

【審査官】上田雄

(56)【参考文献】

【文献】特開２０１４−０４８５２２（ＪＰ，Ａ）

【文献】井本桂右、外３名，音響イベント列を利用した音響シーン分析のためのモデル学習とオンライン化の検討，情報処理学会研究報告音楽情報科学（ＭＵＳ），日本，一般社団法人情報処理学会，２０１４年５月１７日，２０１４−ＭＵＳ−１０３，pp.1-6

【文献】井本桂右、外２名，音響イベント列を利用した音響シーン分析のためのオンライン学習手法，日本音響学会２０１４年春季研究発表会講演論文集，日本，一般社団法人日本音響学会，２０１４年３月３日，pp.29-32

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

時系列の音響信号列に対応する複数の音響イベント列を入力とし、音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル、音響イベントによって規定される潜在的な場の状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデル、および各音響信号から各状況が生成される確率を表す音響信号−状況生成モデルを得る生成モデル作成装置。

【請求項2】

音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル、および、音響イベントによって規定される潜在的な場の状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデルを格納する記憶部と、
音響イベントを含む時系列である音響イベント列を入力とし、前記欠損イベントモデルおよび前記状況−音響イベント生成モデルを用い、前記音響イベント列から欠損している音響イベントの推定、および、前記音響イベント列に対応する状況の推定を行う推定部と、
を有する推定装置。

【請求項3】

時系列の音響信号列に対応する音響イベント列を入力とし、音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル、音響イベントによって規定される潜在的な場の状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデル、および各音響信号から各状況が生成される確率を表す音響信号−状況生成モデルを得る生成モデル作成方法。

【請求項4】

音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル、および、音響イベントによって規定される潜在的な場の状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデルを記憶部に格納しておき、
音響イベントを含む時系列である音響イベント列を入力とし、前記欠損イベントモデルおよび前記状況−音響イベント生成モデルを用い、前記音響イベント列から欠損している音響イベントの推定、および、前記音響イベント列に対応する状況の推定を行う、推定方法。

【請求項5】

請求項１の生成モデル作成装置としてコンピュータを機能させるためのプログラム。

【請求項6】

請求項２の推定装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響イベント列から状況を推定する技術に関する。

【背景技術】

【0002】

特許文献１に記載された従来技術では、連続する有限個の短時間フレームごとの「音響イベント」からなる「音響イベント列」の生成過程を、長時間の音響信号列から状況が生成される過程と、状況から音響イベントが生成される過程とを考慮してモデル化し、その生成モデルのパラメータを推定する。なお、「音響イベント」とは、短時間フレームごとの音響信号が表す音の事象（すなわち、音響信号が表す音が何の音であるか。例えば、足音、水が流れる音など）を表すラベルを意味する。従来技術では、上記生成モデルから長時間の音響信号ごとの状況の生成確率を分析したり、新たに入力された音響イベント列と生成モデルの類似度を算出することで、音響信号が示す状況を推定したりできる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１４−４８５２２

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、生成モデルを精度よく推定するためには、あらかじめ欠損を含まない大規模な音響イベント列を用意する必要があった。

【0005】

本発明の課題は、欠損を含む音響イベント列であっても、生成モデルを精度よく推定できる技術を提供することである。

【課題を解決するための手段】

【0006】

【発明の効果】

【0007】

状況−音響イベント生成モデルおよび音響信号−状況生成モデルに加え、欠損イベントモデルを得るため、欠損を含む音響イベント列であっても生成モデルを精度よく推定できる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施例１−１の生成モデル生成装置の機能構成を例示したブロック図である。

【図2】図２は、実施例１−１の生成モデル生成方法を説明するためのフロー図である。

【図3】図３は、実施例１−１の変形例の生成モデル生成装置の機能構成を例示したブロック図である。

【図4】図４は、実施例１−２の生成モデル生成装置の機能構成を例示したブロック図である。

【図5】図５は、実施例１−３の生成モデル生成装置の機能構成を例示したブロック図である。

【図6】図６は、実施例２−１の推定装置の機能構成を例示したブロック図である。

【図7】図７は、推定部の機能構成を例示したブロック図である。

【図8】図８は、推定方法を説明するためのフロー図である。

【図9】図９は、実施例２−２の推定装置の機能構成を例示したブロック図である。

【図10】図１０は、実施例２−３の推定装置の機能構成を例示したブロック図である。

【発明を実施するための形態】

【0009】

以下、図面を参照して本発明の実施形態を説明する。なお、同一構成要素ないし同一処理には同一符号を割り当てて重複説明を省略する。

【0010】

［用語の定義]
各実施例で用いる用語を定義する。
「音響イベント」とは、短時間フレームごとの音響信号が表す音の事象を表し、それぞれの音響イベントに対しては「音響イベントラベル」としてラベル付けすることができる。「短時間フレーム」とは、短時間（例えば、数１０ｍｓｅｃ〜数ｓｅｃ）の時間区間を意味する。「音響イベント」の具体例は、「包丁の音」「水が流れる音」「水音」「着火音」「火の音」「足音」「掃除機の排気音」などを表すラベルである。「音響イベント列」とは、有限時間区間に属する短時間フレームごとの「音響イベント」を含む時系列である。言い換えると、「音響イベント列」は「音響イベント」を表すラベルを含む時系列である。「音響イベント列の音響イベントが欠損している」（略して「欠損」）とは、音響イベント列の何れかの短時間フレームに対して「音響イベント」が特定されていないことを意味する。「音響イベント」が特定されていない短時間フレームには「音響イベント」に代えて「欠損」を表す「欠損ラベル」が割り当てられる。そのため、音響イベント列の音響イベントが欠損している場合、音響イベント列は「音響イベント」を表すラベルと「欠損」を表す欠損ラベルとの時系列となる。また、「音響イベント」が特定されていない短時間フレームにラベルが割り当てられないことにしてもよい。この場合、音響イベント列は「音響イベント」を表すラベルの時系列であるが、その一部の短時間フレームにはラベルが割り当てられていない。「音響信号列」とは、各時間区間の音響信号からなる時系列である。音響信号列は１個以上の音響信号からなる。

【0011】

「状況」とは、音響イベントの組み合わせで特徴付けられた状況の種別（番号）である。言い換えると「状況」は、音響イベントによって規定される潜在的な場の状況を表す。状況の生成確率は、その状況が起こる時間区間での音響信号によって規定され、状況は、その状況が起こる時間区間での音響イベントの生成確率を規定する。

【0012】

「ＸからＹが生成される確率」とは、事象Ｘが起こるという条件のもとでの事象Ｙが起こる確率Ｐ（Ｙ｜Ｘ）をいう。「ＸからＹが生成される確率」は、「ＸがＹを生成する確率」や「ＸのもとでのＹの条件付き確率」や「ＸにおけるＹの条件付き確率」とも表現できる。また「確率」とは０〜１００％（すなわち０．００〜１．００）に正規化されたものであってもよいし、０〜１００％に正規化可能な値であってもよい。

【0013】

［実施例１−１（図１）］
本実施例では、時系列の音響信号列に対応する複数の音響イベント列を入力とし、音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル、音響イベントによって規定される潜在的な場の状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデル、および各音響信号から各状況が生成される確率を表す音響信号−状況生成モデルを得る。入力される音響イベント列は欠損を含み得る。さらに、その過程において、入力された音響イベント列に対応する状況の分析結果（推定された状況）を表す「状況ラベル」が生成されてもよいし、入力された音響イベント列に対応する音響イベントの分析結果（推定された音響イベント）を表す「音響イベントラベル」が生成されてもよい。

【0014】

＜構成＞
図１に例示するように、本実施例の生成モデル作成装置１００は、音響イベント列合成部１０１、モデル化部１０２、および記憶部１０３を有する。モデル化部１０２は、音響イベント欠損判定部１０２ａ、モデル化処理部１０２ｂ、モデル化／欠損推定処理部１０２ｃ、収束判定部１０２ｄ、初期設定部１０２ｅ、および制御部１０２ｆを有する。生成モデル作成装置１００は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

【0015】

＜モデル化処理＞
図２を用いて本実施例のモデル化処理を説明する。
まず音響イベント列合成部１０１に、音響イベント列１１−１，・・・，１１−Ｓ（ただし、Ｓは１以上の整数）が入力される。音響イベント列１１−ｓ（ただし、ｓ＝１，・・・，Ｓ）は欠損を含み得る。すなわち、音響イベント列１１−１，・・・，１１−Ｓの少なくとも一部の短時間フレームの音響イベントが欠損していてもよいし、すべての音響イベント列１１−１，・・・，１１−Ｓが欠損していなくてもよい（すなわち、欠損が０個）。複数個の音響イベント列１１−１，・・・，１１−Ｓが音響イベント列合成部１０１に入力された場合、音響イベント列合成部１０１は、それらを時系列方向につなぎ合わせ、それによって１つの音響イベント列１１を得て出力する（合成処理）。この際、つなぎ合わされる前のそれぞれの音響イベント列１１−ｓの発生時間に関する情報をメモリ（図示せず）に保持しておく。これにより、後述の処理において、音響イベント列１１に含まれる音響イベント列１１−ｓの処理時間区間（後述）の前後関係を特定できる。また、音響イベント列合成部１０１に１つの音響イベント列１１−１のみが入力された場合、音響イベント列合成部１０１はそれを音響イベント列１１として出力する。音響イベント列合成部１０１から出力された音響イベント列１１は、モデル化部１０２に入力される。なお、音響イベント列合成部１０１を経由することなく、１つの音響イベント列１１がそのままモデル化部１０２に入力されてもよい（ステップＳ１０１）。

【0016】

音響イベント列１１は、モデル化部１０２の初期設定部１０２ｅに入力される。初期設定部１０２ｅは、音響イベント列１１の欠損に音響イベントの初期値を割り当てる（補完する）。この割り当てはランダムに行われてもよいし、予め定められたものであってもよい。音響イベント列１１の欠損に音響イベントを割り当てて得られる列を「補完音響イベント列１１’」と呼ぶ。すなわち、補完音響イベント列１１’は、音響イベント列１１を含む時系列であり、音響イベント列１１に含まれる欠損以外の音響イベントと欠損に割り当てられた音響イベントとからなる。なお、音響イベント列１１に欠損が存在しない場合には、音響イベントの初期値の割り当ては行われず、音響イベント列１１そのものを補完音響イベント列１１’とする。また初期設定部１０２ｅは、補完音響イベント列１１’に含まれる各音響イベントに状況の初期値を割り当てる。この割り当てもランダムに行われてもよいし、予め定められたものであってもよい。各音響イベントに状況が割り当てられた補完音響イベント列１１’を「状況ラベル付き補完音響イベント列１１’’」と呼ぶ。すなわち、状況ラベル付き補完音響イベント列１１’’は、補完音響イベント列１１’とその各音響イベントに対応する状況を表す状況ラベルとを含む時系列である。また、状況ラベル付き補完音響イベント列１１’’のうち、音響イベント列１１−ｓ（ただし、ｓ＝１，・・・，Ｓ）の時間区間に対応する部分を「状況ラベル付き補完音響イベント列１１’’−ｓ」と表記する。また、初期設定部１０２ｅは、状況ラベル付き補完音響イベント列１１’’−ｓの「処理時間区間」（すなわち音響イベント列１１の処理時間区間）を初期設定する。例えば、状況ラベル付き補完音響イベント列１１’’−ｓの最初の短時間フレームを処理時間区間とする（ステップＳ１０２ｅ）。

【0017】

状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、音響イベント欠損判定部１０２ａに入力される。音響イベント欠損判定部１０２ａは、入力された状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の音響イベントがもともと欠損していたか（音響イベント列１１−ｓの処理時間区間で音響イベントが欠損していたか）を判定する。すなわち、音響イベント欠損判定部１０２ａは、処理時間区間の音響イベントが補完されたものであるかを判定する。ここで、処理時間区間の音響イベントがもともと欠損していなかった場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’をモデル化処理部１０２ｂに送る。一方、処理時間区間の音響イベントがもともと欠損していた場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’をモデル化／欠損推定処理部１０２ｃに送る（ステップＳ１０２ａ）。

【0018】

モデル化処理部１０２ｂは、送られた状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）を用いて処理時間区間の状況ラベルの分布（例えば、確率分布、尤度分布、事後確率分布等）を更新し、当該分布に従って処理時間区間に新たな状況ラベルを付与し、それによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルを上書き更新する。この処理には、状況ラベル付き補完音響イベント列１１’’−ｓに含まれた音響イベント列（音響イベント列１１−ｓにもともと含まれていた音響イベントおよび処理時間区間以外の欠損に付与された音響イベントからなる列）、および状況ラベル付き補完音響イベント列１１’’−ｓに含まれた処理時間区間以外の状況ラベルからなる列が用いられる（詳細は後述）。更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｂ）。

【0019】

モデル化／欠損推定処理部１０２ｃは、送られた状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）を用いて処理時間区間の状況ラベルおよび音響イベントの分布（例えば、確率分布、尤度分布、事後確率分布等）を更新し、当該分布に従って処理時間区間に新たな状況ラベルおよび音響イベントを付与し、それらによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルおよび音響イベントラベルを上書き更新する。この処理には、状況ラベル付き補完音響イベント列１１’’−ｓに含まれた処理時間区間以外の音響イベント列（音響イベント列１１−ｓにもともと含まれていた音響イベントおよび処理時間区間以外の欠損に付与された音響イベントからなる列）、および状況ラベル付き補完音響イベント列１１’’−ｓに含まれた処理時間区間以外の状況ラベルからなる列が用いられる（詳細は後述）。更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｃ）

【0020】

その後、制御部１０２ｆは、状況ラベル付き補完音響イベント列１１’’の全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されたかを判定する（ステップＳ１０２ｆａ）。ここで、全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されていない場合、制御部１０２ｆは、処理時間区間を更新し（例えば、現在の処理時間区間の次の短時間フレームを新たな処理時間区間とする）、処理をステップＳ１０２ａに戻す（ステップＳ１０２ｆｂ）。一方、全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されていた場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’を収束判定部１０２ｄに送る。

【0021】

収束判定部１０２ｄは、所定の収束条件を満たしたか否かを判定する（収束判定処理）。収束条件は、所定の結果が得られたという条件であってもよいし、モデル化部１０２の処理が所定の回数繰り返されたという条件であってもよい。「所定の回数」は正値であり、例えば、１〜３０００回程度である。「所定の結果」の例は、割り当ての前後において、前述の分布（例えば、確率分布、尤度分布、事後確率分布等）や状況ラベルの変化率またはその関数値（例えば、平均や合計）が所定値（例えば、０．３％）以下である等である（ステップＳ１０２ｄａ）。

【0022】

ここで、収束条件を満たしていないと判定された場合、状況ラベル付き補完音響イベント列１１’’が音響イベント欠損判定部１０２ａに送られ、「処理時間区間」が初期化され（例えば、状況ラベル付き補完音響イベント列１１’’−ｓの最初の短時間フレームを処理時間区間とし）、処理がステップ１０２ａに戻される。

【0023】

一方、収束条件を満たしたと判定された場合、収束判定部１０２ｄは、状況ラベル付き補完音響イベント列１１’’の状況ラベルおよび音響イベント列に基づいて、音響イベントの遷移確率に基づき欠損した音響イベントを推定する欠損イベントモデル１４、状況から各音響イベントが生成される確率を表す状況−音響イベント生成モデル１３、および各音響信号から各状況が生成される確率を表す音響信号−状況生成モデル１２を得て出力する。さらに収束判定部１０２ｄは、欠損イベントモデル１４に基づいて、音響イベント列１１の各欠損に対し、音響イベント列１１が与えられた場合の音響イベントの分布（例えば、確率分布、尤度分布、事後確率分布等）が最大となる音響イベント、当該分布（例えば、確率分布、尤度分布、事後確率分布等）が最大から規定番目までとなる音響イベント、または当該分布（例えば、確率分布、尤度分布、事後確率分布等）が所定の閾値を超える音響イベントを音響イベントラベル１６として出力してもよい。また、収束判定部１０２ｄは、モデル化／欠損推定処理部による更新の結果得られた状況ラベルの分布（例えば、確率分布、尤度分布、事後確率分布等）を用い、状況ラベル付き補完音響イベント列１１’’の各音響イベントに対応する状況の分布（例えば、確率分布、尤度分布、事後確率分布等）が最大となる状況、当該分布（例えば、確率分布、尤度分布、事後確率分布等）が最大から規定番目までとなる状況、または当該分布（例えば、確率分布、尤度分布、事後確率分布等）が所定の閾値を超える状況を表すラベルを状況ラベル１５として出力してもよい。モデルやラベルは記憶部１０３に格納される（ステップＳ１０２ｄｂ）。

【0024】

≪モデル化処理部１０２ｂの処理（ステップＳ１０２ｂ）の例示≫
モデル化処理部１０２ｂは、例えば、以下の処理（b-i）または（b-ii）によって、処理時間区間の状況ラベルの分布を更新する。

【0025】

（b-i）状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれる音響イベント列および状況ラベルのうち、処理時間区間以外の音響イベントおよび状況ラベルからなる列に対し、音響信号から各状況が生成される第１確率分布と、それぞれの状況から音響イベントが生成される第２確率分布とを仮定する。モデル化処理部１０２ｂは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が入力されると、当該状況ラベル付き補完音響イベント列１１’’−ｓに含まれた音響イベント列および状況ラベル付き補完音響イベント列１１’’−ｓに含まれた処理時間区間以外の音響イベントおよび状況ラベルからなる列を用い、当該状況ラベル付き補完音響イベント列１１’’−ｓにおける第１および第２確率分布の事後確率を更新し、これらの確率分布に従って、サンプリングなどの方法により選択された状況ラベルを、処理時間区間に対する新たな状況ラベルとして付与し、それによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルを上書き更新する。これらの処理は、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれる音響イベント列および状況ラベルに対する、音響信号から各状況が生成される確率分布と、それぞれの状況から音響イベントが生成される確率分布の事後確率を最大化するものである。これによって更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｂ）。

【0026】

（b-ii）状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれた音響イベント列および状況ラベルのうち、処理時間区間以外の音響イベントおよび状況ラベルからなる列に対し、音響信号から各状況が生成される第１確率分布の第１事前分布、およびそれぞれの状況から音響イベントが生成される第２確率分布の第２事前分布も仮定し、第１事前分布が乗じられた第１確率分布および第２事前分布が乗じられた第２確率分布を仮定する。モデル化処理部１０２ｂは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が入力されると、当該状況ラベル付き補完音響イベント列１１’’−ｓに含まれた音響イベント列および状況ラベル付き補完音響イベント列１１’’−ｓに含まれた処理時間区間以外の音響イベントおよび状況ラベルからなる列を用い、当該状況ラベル付き補完音響イベント列１１’’−ｓにおける第１および第２確率分布の事後確率を更新し、これらの確率分布に従って、サンプリングなどの方法により選択された状況ラベルを、処理時間区間に対する新たな状況ラベルとして付与し、それによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルを上書き更新する。これらの処理は状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれる音響イベント列および状況ラベルに対する、音響信号から各状況が生成される確率分布と、それぞれの状況から音響イベントが生成される確率分布の事後確率を最大化するものである。これによって更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｂ）。

【0027】

≪モデル化／欠損推定処理部１０２ｃの処理（ステップＳ１０２ｃ）の例示≫
モデル化／欠損推定処理部１０２ｃは、例えば、以下の処理（c-i）または（c-ii）の何れかによって、処理時間区間の状況ラベルおよび音響イベントの分布を更新する。

【0028】

（c-i）状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれた処理時間区間以外の音響イベント列および処理時間区間以外の状況ラベルからなる列に対し、音響信号から各状況が生成される第１確率分布と、それぞれの状況から音響イベントが生成される第２確率分布と、ある音響イベントが発生した次の時間区間での各音響イベントが生成される第３確率分布（より長時間の音響イベントの遷移を考えても良い）とを仮定する。モデル化処理部１０２ｂは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が入力されると、当該状況ラベル付き補完音響イベント列１１’’−ｓにおける第１〜第３確率分布の事後確率を更新し、これらの確率分布に従って、サンプリングなどの方法により選択された状況ラベルおよび音響イベントを、処理時間区間に対する新たな状況ラベルおよび音響イベントとして付与し、それによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルおよび音響イベントを上書き更新する。これらの処理は状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれる音響イベント列および状況ラベルに対する、音響信号から各状況が生成される確率分布と、それぞれの状況から音響イベントが生成される確率分布と、ある音響イベントが発生した次の時間区間での各音響イベントが生成される確率分布（より長時間の音響イベントの遷移を考えても良い）の事後確率を最大化するものである。これによって更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｃ）。

【0029】

（c-ii）状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれた処理時間区間以外の音響イベント列および処理時間区間以外の状況ラベルからなる列に対し、音響信号から各状況が生成される第１確率分布の第１事前分布、それぞれの状況から音響イベントが生成される第２確率分布の第２事前分布、ある音響イベントが発生した次時間区間での各音響イベントが生成される第３確率分布（より長時間の音響イベントの遷移を考えても良い）の第３事前分布も仮定する。また、第１事前分布が乗じられた第１確率分布、第２事前分布が乗じられた第２確率分布、および第３事前分布が乗じられた第３確率分布を仮定する。モデル化処理部１０２ｂは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が入力されると、当該状況ラベル付き補完音響イベント列１１’’−ｓにおける第１〜第３確率分布の事後確率を更新し、これらの確率分布に従って、サンプリングなどの方法により選択された状況ラベルおよび音響イベントを、処理時間区間に対する新たな状況ラベルおよび音響イベントとして付与し、それによって状況ラベル付き補完音響イベント列１１’’−ｓの処理時間区間の状況ラベルおよび音響イベントを上書き更新する。これらの処理は状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）に含まれる音響イベント列および状況ラベルに対する、音響信号から各状況が生成される確率分布と、それぞれの状況から音響イベントが生成される確率分布と、ある音響イベントが発生した次の時間区間での各音響イベントが生成される確率分布（より長時間の音響イベントの遷移を考えても良い）の事後確率を最大化するものである。これによって更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｃ）。

【0030】

≪モデル化処理の具体例≫
以下に、モデル化処理部１０２ｂの処理（ステップＳ１０２ｂ）として（b-i）または（b-ii）を用い、モデル化／欠損推定処理部１０２ｃの処理（ステップＳ１０２ｃ）として（c-i）または（c-ii）を用いる場合のモデル化処理をより具体的に例示する。

【0031】

≪状況から音響イベントが生成される過程の論理的説明≫
モデル化部１０２は、入力された音響イベント列１１から、各音響信号から状況が生成される確率Ｐ（状況｜音響信号）、状況から音響イベントが生成される確率Ｐ（音響イベント｜状況）、および音響イベントの遷移確率を同時に算出し、それぞれを音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４とする。つまり、音響信号ごとに状況の生成確率が規定されており、また、音響イベントの生成確率は、状況とその音響イベントの前後の音響イベントにより規定されると考え、これらの関係を生成モデルとして記述する。音響イベントの生成は状況とその音響イベントの前後の音響イベントにより規定されると考えると、欠損を含む音響イベントは状況とその音響イベント前後の音響イベントから推定可能になると考えられる。なお、「音響信号列」は複数の長時間の音響信号からなる列を意味する。「長時間」とは前述の「短時間」よりも長い期間である。「音響信号列」を「複数の音響イベント列」と読み替えても良い。

【0032】

音響信号列から状況が生成される確率Θ（Ｓ×Ｔ行列）、状況から音響イベントが生成される確率Φ（Ｔ×Ｍ行列）、および音響イベント間の遷移確率Π（Ｍ×Ｍ行列）が与えられたときの、合成された音響イベント列ｅの生成確率Ｐ（ｅ｜Π,Θ，Φ，Ω）は以下の通りである。

【数1】

なお、音響イベント列ｅは音響イベントの列（例えばベクトル）であり、音響イベント列１１そのものであってもよいし、音響イベント列１１の一部の音響イベント列であってもよい。以下では説明の簡略化のため、音響イベント列ｅが音響イベント列１１そのものである例を示す。Ｓは音響イベント列ｅに含まれる音響イベント列η_ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）の個数である。なお、ここでは音響イベント列１１−ｓを音響イベント列η_ｓとするが、これは本発明を限定するものではない。Ωは音響イベント列ｅに対応する音響信号列であり、ε_ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）は音響イベント列η_ｓに対応する音響信号である。Ｔは状況の種類（候補）の総数、Ｍは音響イベントの種類の総数、ｔ∈｛１，・・・，Ｔ｝は状況の種類を表すインデックス、ｍ∈｛１，・・・，Ｍ｝は音響イベントの種類を表すインデックスである。Πは単時間フレームの音響イベントｍ∈｛１，・・・，Ｍ｝がその次の短時間フレームで音響イベントｍ’∈｛１，・・・，Ｍ｝に遷移する確率を（ｍ，ｍ’）要素とするＭ×Ｍ行列である。Θは音響信号ε_ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）が状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率Ｐ（ｔ｜ε_ｓ）を（ｓ，ｔ）要素とするＳ×Ｔ行列である。Φは状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）が音響イベントｍ（ただし、ｍ∈｛１，・・・，Ｍ｝）を生成する確率Ｐ（ｍ｜ｔ）を（ｔ，ｍ）要素とするＴ×Ｍ行列である。

【0033】

また、事前分布のパラメータγ，α，βが与えられたときの、音響イベント列η_ｓの生成確率Ｐ（η_ｓ，Π，Θ，Φ｜γ，α，β）は、以下の通りである。

【数2】

ただし、γは各音響イベントｍ（ただし、ｍ∈｛１，・・・，Ｍ｝）が次の短時間フレームで音響イベントｍ’（ただし、ｍ∈｛１，・・・，Ｍ｝）に遷移する確率をｍ’番目の要素としたＭ次元ベクトルである音響イベント遷移確率π_ｍの事前分布（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）のパラメータを表す。αは各音響信号ε_ｓ（ただし、ｓ∈｛１，・・・，Ｓ｝）が状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を生成する確率をｔ番目の要素とするＴ次元ベクトルである生成確率θ_ｓの事前分布(Ｄｉｒｉｃｈｌｅｔ分布に従うものとする)のパラメータを表す。βは各状況ｔが音響イベントｍ（ただし、ｍ∈｛１，・・・，Ｍ｝）を生成する確率をｍ番目の要素とするＭ次元ベクトルである生成確率φ_ｍの事前分布（Ｄｉｒｉｃｈｌｅｔ分布に従うものとする）のパラメータを表す。ｅ_ｉは音響イベント列η_ｓの先頭からｉ番目の短時間フレームの音響イベント、ｚ_ｉは音響イベントｅ_ｉに対応する状況を表す。

【数3】

は、音響イベント列η_ｓの先頭からｉ−１番目の音響イベントｅ_ｉ−１からｉ番目の音響イベントｅ_ｉへの遷移確率を表す。

【数4】

は、音響イベント列η_ｓに含まれる音響イベントの個数を表す。ＤｉｒはＤｉｒｉｃｈｌｅｔ分布の確率密度関数を表す。Ｗ−１次（Ｗは２以上の整数）のＤｉｒｉｃｈｌｅｔ分布の確率密度関数は以下の通りである。

【数5】

ただし、τはτ_ｉ（ｉ＝１，...，Ｗ）からなるパラメータ、もしくは単一のスカラー値である。また、μは確率変数、Γはガンマ関数を表す。

【0034】

≪生成モデルの算出過程の説明≫
上記の生成過程に基づいて、例えばマルコフ連鎖モンテカルロ法（ＭＣＭＣ法：Markov Chain Monte Carlo methods）や変分ベイズ法（ＶＢ法：Variational Bayes methods）などの手法を適用することで、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４を算出することができる。ＭＣＭＣ法には，Ｍ−Ｈアルゴリズムやギブスサンプリングなどの手法がある。ここでは一例としてギブスサンプリングによる生成モデルの算出手法を説明する。

【0035】

事前処理としてパラメータγ，α，βが定められる。パラメータγ，α，βの値に制約はないが、モデル化処理部１０２ｂの処理として（b-i）を用い、モデル化／欠損推定処理部１０２ｃの処理として（c-i）を用いる場合にはγ＝α＝β＝０とする。

【0036】

前述のように得られた音響イベント列１１は、モデル化部１０２の初期設定部１０２ｅに入力される（ステップＳ１０１）。初期設定部１０２ｅは、入力された音響イベント列１１に含まれるすべての音響イベント列ｅの全ての音響イベントｅ_ｉに状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を割り当てる。この割り当てはランダムに行われてもよいし、予め初期設定部１０２ｅに保持しておいた割り当てであってもよい。また、初期設定部１０２ｅは、入力された音響イベント列１１に含まれるすべての音響イベント列ｅの欠損（何れかの短時間フレームに対応）に音響イベントｍ（ただし、ｍ∈｛１，・・・，Ｍ｝）を割り当てる。この割り当てはランダムに行われてもよいし、予め初期設定部１０２ｅに保持しておいた割り当てであってもよい。以上のように初期の状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が得られる。また、初期設定部１０２ｅは、状況ラベル付き補完音響イベント列１１’’−ｓの「処理時間区間」を初期設定する。この例では、音響イベント列ｅ（音響イベント列１１）に含まれる音響イベント列η_ｓ（音響イベント列１１−ｓ）の先頭からｉ番目の短時間フレームを「処理時間区間」とし、初期設定部１０２ｅは、ｉ＝１を初期設定する（ステップＳ１０２ｅ）。

【0037】

状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、音響イベント欠損判定部１０２ａに入力される。音響イベント欠損判定部１０２ａは、音響イベント列η_ｓのｉ番目の短時間フレームの音響イベントｅ_ｉがもともと欠損していたかを判定する。ここで、音響イベントｅ_ｉがもともと欠損していなかった場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）をモデル化処理部１０２ｂに送る（ステップＳ１０２ｂに進む）。一方、音響イベントｅ_ｉがもともと欠損していた場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）をモデル化／欠損推定処理部１０２ｃに送る（ステップＳ１０２ｃに進む）（ステップＳ１０２ａ）。

【0038】

モデル化処理部１０２ｂは、入力された状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）のうち、音響イベント列η_ｓと、更新対象となるｉ番目の短時間フレームの状況ｚ_ｉを除いた状況の列ｚ_−ｉ（除くのはｉ番目の状況ｚ_ｉの１つのみであり、ｚ_ｉ＝ｔとなる状況全てを除くのではないことに注意）とを用い、以下のようにｉ番目の短時間フレームの音響イベントｅ_ｉに状況ｚ_ｉ＝ｔが割り当てられる確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，ｅ，α，β，γ）を更新する。

【数6】

ただし、ｎ^ｔ_ｍは、状況ｔに割り当てられた音響イベントのうち音響イベントがｍであるものの個数を表す。ｎ^ｓ_ｔは音響イベント列η_ｓの全ての音響イベントのうち状況ｔに割り当てられた音響イベントの個数を表す。なお、「ｎ^ｔ_ｍ」の下付き添え字「ｍ」は上付き添え字「ｔ」の真下に記載すべきであるが、記載表記の制約上「ｎ^ｔ_ｍ」と表記した。「ｎ^ｓ_ｔ」も同様である。さらにモデル化処理部１０２ｂは、上述のように更新された確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，α，β，γ）に従って、ｉ番目の短時間フレームの状況ｚ_ｉをサンプリングし、サンプリングした状況ｚ_ｉ＝ｔを表す状況ラベルを音響イベントｅ_ｉに割り当て、それによって状況ラベル付き補完音響イベント列１１’’−ｓを上書き更新する。更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｂ）。

【0039】

モデル化／欠損推定処理部１０２ｃは、入力された状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）のうち、更新対象となるｉ番目の短時間フレームの音響イベントｅ_ｉを除いた音響イベント列ｅ_−ｉと、状況ｚ_ｉを除いた状況の列ｚ_−ｉ（除くのはｉ番目の状況ｚ_ｉの１つのみであり、ｚ_ｉ＝ｔとなる状況全てを除くのではないことに注意）を用い、以下のようにｉ番目の短時間フレームに音響イベントｅ_ｉ＝ｍおよび状況ｚ_ｉ＝ｔが割り当てられる確率分布Ｐ（ｚ_ｉ＝ｔ，ｅ_ｉ＝ｍ｜ｚ_−ｉ，ｅ_−ｉ，α，β，γ）を更新する。

【数7】

ただし、

【数8】

は入力された全ての状況ラベル付き補完音響イベント列１１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）の全ての音響イベントのうち、音響イベントｅ_ｉが示すイベントｍ_ｅｉからイベントｍ_ｅｉ＋１に遷移する音響イベントの個数を表す。またＩ（ｍ_ｅｉ−１＝ｍ_ｅｉ）は、ｍ_ｅｉ−１＝ｍ_ｅｉのときに１となり、それ以外のときに０となる。同様にＩ（ｍ_ｅｉ＝ｍ_ｅｉ＋１）は、ｍ_ｅｉ＝ｍ_ｅｉ＋１のときに１となり、それ以外のときに０となる。さらにモデル化／欠損推定処理部１０２ｃは、上述のように更新された確率分布Ｐ（ｚ_ｉ＝ｔ，ｅ_ｉ＝ｍ｜ｚ_−ｉ，ｅ_−ｉ，α，β，γ）に従って、ｉ番目の短時間フレームの状況ｚ_ｉおよび音響イベントｅ_ｉをサンプリングし、当該状況ｚ_ｉを表す状況ラベルおよび当該音響イベントｅ_ｉをｉ番目の短時間フレームに割り当て、それによって状況ラベル付き補完音響イベント列１１’’−ｓを上書き更新する。更新された状況ラベル付き補完音響イベント列１１’’−ｓは、音響イベント欠損判定部１０２ａに送られる（ステップＳ１０２ｃ）。

【0040】

ステップＳ１０２ｂまたはＳ１０２ｃの後、制御部１０２ｆは状況ラベル付き補完音響イベント列１１’’の全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されたかを判定する（ステップＳ１０２ｆａ）。ここで、全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されていない場合、制御部１０２ｆは、ｉ＋１を新たなｉとして処理時間区間を更新し、処理をステップＳ１０２ａに戻す（ステップＳ１０２ｆｂ）。一方、全ての時間区間についてステップＳ１０２ａ〜Ｓ１０２ｃの処理が実行されていた場合、音響イベント欠損判定部１０２ａは、状況ラベル付き補完音響イベント列１１’’を収束判定部１０ｄに送る。

【0041】

収束判定部１０２ｄは、前述のように所定の収束条件を満たしたか否かを判定する（ステップＳ１０２ｄａ）。ここで、収束条件を満たしていないと判定された場合、状況ラベル付き補完音響イベント列１１’’が音響イベント欠損判定部１０２ａに送られ、処理がステップ１０２ａに戻される。

【0042】

一方、収束条件を満たしたと判定された場合、収束判定部１０２ｄは、繰り返しの結果、最終的に得られた状況ラベル付き補完音響イベント列１１’’に対応する

【数9】

に対して以下を計算することにより、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４を得て出力する。
≪音響信号−状況生成モデル１２≫

【数10】

≪状況−音響イベント生成モデル１３≫

【数11】

≪欠損イベントモデル１４≫

【数12】

【0043】

また、収束判定部１０２ｄは、収束条件を満たすまでの途中過程の各状況ラベル付き補完音響イベント列１１’’に対応する式（５）の値をそれぞれ１個以上サンプリングし、それらと最終的に得られた式（５）の値とを用い、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４を得てもよい。例えば、このように複数個得られた式（５）の値をそれぞれ平均した

【数13】

を

【数14】

の代わりに用い、式（６）〜（８）に従って音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４を得てもよい。これにより、より適切なモデルを得ることができる。

【0044】

さらに収束判定部１０２ｄは、前述したような状況ラベル１５に加え、または代えて、上記更新過程で割り当てられた状況またはそれらの平均値を表す状況ラベル１５を出力してもよい。また、上記更新過程で割り当てられた状況の分布等の統計的な情報を出力してもよい。各音響イベントがどの状況により生成されたものかを知ることもできる。また収束判定部１０２ｄは、前述したような音響イベントラベル１６に加え、または代えて、上記更新過程で割り当てられた音響イベントまたはそれらの平均値を表す音響イベントラベル１６を出力してもよい。また、上記更新過程で割り当てられた響イベントの分布等の統計的な情報を出力してもよい。これにより、欠損したイベントを推定することができる。

【0045】

［実施例１−１の変形例（図３）］
モデル化部１０２の処理の変形例を示す。以下では、既に説明した事項との相違点を中心に説明し、それらと共通する事項については同じ参照番号を用いて説明を簡略化する。

【0046】

＜構成＞
図３に例示するように、本変形例の生成モデル作成装置１００’は、音響イベント列合成部１０１、モデル化部１０２’、および記憶部１０３を有する。モデル化部１０２’は、音響イベント欠損判定部１０２ａ’、モデル化処理部１０２ｂ’、およびモデル化／欠損推定処理部１０２ｃ’を有する。生成モデル作成装置１００’は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0047】

＜モデル化処理＞
実施例１−１で説明したように音響イベント列合成部１０１から出力された音響イベント列１１は、モデル化部１０２’の音響イベント欠損判定部１０２ａ’に入力される。音響イベント欠損判定部１０２ａ’は、入力された音響イベント列１１が欠損した時間区間を有しているかを判定する。ここで、音響イベント列１１が欠損した時間区間を有していない場合、音響イベント列１１はモデル化処理部１０２ｂ’に送られる。一方、音響イベント列１１が欠損した時間区間を有している場合、音響イベント列１１はモデル化／欠損推定処理部１０２ｃ’に送られる（ステップＳ１０２ａ’）。

【0048】

モデル化処理部１０２ｂ’は、送られた音響イベント列１１に含まれる各音響イベント列１１−ｓ（ただし、ｓ＝１，・・・，Ｓ）に対して音響イベントの種類に関するヒストグラムを作成する。モデル化処理部１０２ｂ’は、類似するヒストグラムが同じクラスタに属するようにクラスタリングし、それによって得られる各クラスタを各状況と定義する。例えば、モデル化処理部１０２ｂ’は、音響イベントの各種類（例えば、「包丁の音」「水が流れる音」「水音」など）の頻度を各要素の大きさとするベクトル（例えば、「包丁の音」の頻度を１番目の要素の大きさとし、「水が流れる音」の頻度を２番目の要素の大きさとし、「水音」の頻度を３番目の要素の大きさとするベクトルなど）を生成し、このようなベクトルをｋ−ｍｅａｎｓやＧＭＭ等によってクラスタリングし、それによって得られる各クラスタを各状況とする。モデル化処理部１０２ｂ’は、連続する所定個の音響イベントからなる任意の音響イベント列に対応する上述のようなヒストグラムと、各状況に対応するクラスタの代表サンプル値と、の類似度またはその関数値を、当該任意の音響イベント列に対応する音響信号から各状況が生成される確率（尤度または事後確率）とみなし、それを音響信号−状況生成モデル１２として出力する。例えば、モデル化処理部１０２ｂ’は、連続する所定個の音響イベントからなる任意の音響イベント列に対応する上述のベクトルと、各状況に対応するクラスタの代表ベクトル（例えば、平均ベクトル）と、の類似度またはその関数値を、当該任意の音響イベント列に対応する音響信号から各状況が生成される確率とみなし、音響信号−状況生成モデル１２として出力する。また、モデル化処理部１０２ｂ’は、各状況に対応するクラスタに属するヒストグラムの値（各音響イベントの頻度）を平均化した平均化ヒストグラムを生成し、各状況に対応する平均化ヒストグラムの値（各音響イベントの頻度）またはその関数値を確率とする状況−音響イベント生成モデル１３を出力する。例えば、モデル化処理部１０２ｂ’は、各状況に対応するクラスタに属する上述のベクトルの平均ベクトルを生成し、各状況に対応する平均ベクトルの各要素の大きさ（各音響イベントの頻度）またはその関数値を確率とする状況−音響イベント生成モデル１３を出力する。さらに、モデル化処理部１０２ｂ’は、音響イベント列１１を構成する音響イベント列１１−ｓに対応する上述のヒストグラムと、各状況に対応するクラスタと、の類似度またはその関数値を、当該音響イベント列１１−ｓに対応する音響信号から各状況が生成される確率（尤度または事後確率）とみなす。例えば、モデル化処理部１０２ｂ’は、音響イベント列１１を構成する音響イベント列１１−ｓに対応する上述のベクトルと、各状況に対応するクラスタの代表ベクトルと、の類似度またはその関数値を、当該音響イベント列１１−ｓに対応する音響信号から各状況が生成される確率（尤度または事後確率）とみなす。モデル化処理部１０２ｂ’は、当該確率が最大となる状況、当該確率が最大から規定番目までとなる状況、または当該確率が所定の閾値を超える状況を表すラベルを状況ラベルとして出力してもよい（ステップＳ１０２ｂ’）。

【0049】

モデル化／欠損推定処理部１０２ｃ’は、送られた音響イベント列１１に含まれる、欠損していない連続する２つ以上の音響イベントから音響イベント間の遷移確率を学習する。ここで、この遷移確率に従って音響イベント列１１の欠損部分に音響イベントを確率的に付与した補完音響イベント列１１’を想定する。モデル化／欠損推定処理部１０２ｃ’は、各音響イベント列１１−ｓに対して音響イベントの種類に関するヒストグラムを作成し、類似するヒストグラムが同じクラスタに属するようにクラスタリングし、それによって得られる各クラスタを各状況と定義する。クラスタリング方法は、音響イベント列１１が補完音響イベント列１１’に置換される以外、ステップＳ１０２ｂ’と同じである。ただし、補完音響イベント列１１’は、上記の遷移確率に従って音響イベント列１１の欠損部分に音響イベントを確率的に付与したものである。そのため、補完音響イベント列１１’も確率的に決まり、このような補完音響イベント列１１’に基づいて得られるクラスタも確率的なものである。モデル化／欠損推定処理部１０２ｃ’は、連続する所定個の音響イベントからなる任意の音響イベント列に対応する上述のようなヒストグラムと、各状況に対応するクラスタの代表サンプル値と、の類似度またはその関数値を、当該任意の音響イベント列に対応する音響信号から各状況が生成される確率（尤度または事後確率）とみなし、この確率と当該クラスタの生起確率との同時確率を音響信号−状況生成モデル１２として出力する。また、モデル化／欠損推定処理部１０２ｃ’は、各状況に対応するクラスタに属するヒストグラムの値（各音響イベントの頻度）を平均化した平均化ヒストグラムを生成し、各状況に対応する平均化ヒストグラムの値（各音響イベントの頻度）またはその関数値である確率と当該クラスタの生起確率との同時確率を、状況−音響イベント生成モデル１３を出力する。また、モデル化／欠損推定処理部１０２ｃ’は、音響イベント間の遷移確率を表す欠損イベントモデル１４を出力する。さらに、モデル化／欠損推定処理部１０２ｃ’は、補完音響イベント列１１’を構成する音響イベント列１１−ｓに対応する上述のヒストグラムと、各状況に対応するクラスタと、の類似度またはその関数値を、当該音響イベント列１１−ｓに対応する音響信号から各状況が生成される確率（尤度または事後確率）とみなし、当該確率と当該クラスタの生起確率との同時確率を得る。モデル化／欠損推定処理部１０２ｃ’は、当該同時確率が最大となる状況、当該同時確率が最大から規定番目までとなる状況、または当該同時確率が所定の閾値を超える状況を表すラベルを状況ラベルとして出力する（ステップＳ１０２ｃ’）。

【0050】

その他の処理は実施例１−１と同じである。

【0051】

［実施例１−２（図４）］
本実施例では、欠損を含み得る音響信号１７−１，・・・，１７−Ｓを入力として、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３及び欠損イベントモデル２４を算出する。また、状況ラベル１５、音響イベントラベル１６を算出し、状況や欠損した音響イベントの分析を行うことも可能である。

【0052】

＜構成＞
図４に例示するように、本実施例の生成モデル作成装置１１０は、欠損判定処理部１１４、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルＤＢ（データベース）１１３、音響イベント列合成部１０１、モデル化部１０２、および記憶部１０３を有する。生成モデル作成装置１１０は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0053】

＜モデル化処理＞
本実施例のモデル化処理を説明する。
まず欠損判定処理部１１４に音響信号１７−１，・・・，１７−Ｓが入力される。各音響信号１７−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、短時間フレームごとに区分された要素からなる。欠損判定処理部１１４は、入力された音響信号１７−ｓの各短時間フレームに欠損が存在するか否かを判定する。欠損判定処理部１１４は、例えば、音響信号がクリップしている短時間フレーム、振幅が０もしくは非常に小さい値となっている短時間フレーム、特定周波数のパワー成分（例えば１００Ｈｚ〜８ｋＨｚのパワー成分など）が０もしくは非常に小さい値になっている短時間フレームなどに欠損が存在すると判定する。欠損判定処理部１１４は、音響信号１７−１，・・・，１７−Ｓのうち、欠損と判定した短時間フレームに欠損を表すラベル（欠損ラベル）を付して出力する。欠損と判定されなかった短時間フレームにはこのようなラベルが付されない。

【0054】

上述のように欠損ラベルが付された音響信号１７−１，・・・，１７−Ｓは特徴量算出部１１１に入力される。特徴量算出部１１１は、音響信号１７−１，・・・，１７−Ｓから音響特徴量列（ベクトル）を算出して出力する。例えば特徴量算出部１１１は、入力された音響信号１７−ｓ（ただし、ｓ＝１，・・・，Ｓ）に対し、短時間フレームごとに、音圧レベル、音響パワー、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）特徴量、ＬＰＣ（Linear Predictive Coding）特徴量などを算出し、これらを音響特徴量列として出力する。さらに立ち上がり特性、調波性、時間周期性など（例えば、「井本他，「複数の生活音の出現頻度に基づくユーザ行動の識別手法とコミュニケーションへの応用」，画像電子学会第３２回ＶＭＡ研究会」参照）の音響特徴量が音響特徴量列に加えられてもよい。また、音響特徴量列のうち、欠損ラベルが付された短時間フレームにはそれぞれの欠損ラベルが付される。

【0055】

音響イベントモデルＤＢ１１３には、事前に算出された音響イベントモデルが複数保存されている。各音響イベントモデルは、音響イベントラベルが付された学習用の音響信号列から音響特徴量列を算出し、各音響イベントに対応する音響特徴量列をＧＭＭ，ＨＭＭ，ＳＶＭ等の周知のモデル化手法を用いてモデル化することで得られる（例えば「奥村学、高村大也、「言語処理のための機械学習入門」コロナ社」等参照）。或いは、音響イベントごとに音響特徴量列が対応付けられたものが音響イベントモデルとされてもよい。

【0056】

上述のように欠損ラベルが付された音響特徴量列は音響イベント判定部１１２に入力される。音響イベント判定部１１２は、入力された音響特徴量列と、音響イベントモデルＤＢ１１３に記憶されている複数の音響イベントモデルとをそれぞれ比較し、短時間フレームごとに、各音響特徴量に対応する音響イベントを決定する。例えば、入力された音響特徴量列に対し、生成確率を最大にする音響イベントを決定したり、入力された音響特徴量列との距離（ユークリッド距離やコサイン距離）が最も近い音響イベントモデルに対応する音響イベントを選択したりする。ただし、欠損ラベルが付された短時間フレームには音響イベントが決定されない。音響イベントが決定されない短時間フレームには、その欠損ラベルが付されてもよいし、何も付されなくてもよい。これにより、前述の音響イベント列１１−ｓ（ｓ＝１，・・・，Ｓ）が生成される。音響イベント列１１−ｓは、モデル化部１０２（またはモデル化部１０２’）に入力される。これ以降の処理は実施例１−１またはその変形例と同じである。

【0057】

なお、上述の例では、音響特徴量列を生成する前に欠損の有無を判定したが、音響信号１７−１，・・・，１７−Ｓから音響特徴量列を生成し、この音響特徴量列を用いて欠損の有無を判定してもよい。この場合、音響信号１７−１，・・・，１７−Ｓが特徴量算出部１１１に入力され、特徴量算出部１１１は上述のように音響信号１７−１，・・・，１７−Ｓから音響特徴量列を算出して出力する。音響特徴量列は欠損判定処理部（図示せず）に入力され、欠損判定処理部は、短時間フレームごとに音響特徴量列に対応する音響信号１７−１，・・・，１７−Ｓの欠損の有無を判定する。欠損判定処理部は、例えば、算出された特徴量の値が０もしくは非常に小さな値をとる短時間フレーム、非常に大きな値をとる短時間フレーム、特定の成分が０もしくは非常に小さな値をとる短時間フレーム、特定の成分が非常に大きな値をとる短時間フレームなどに欠損が存在すると判定する。欠損判定処理部は、音響特徴量列の短時間フレームのうち、欠損と判定した短時間フレームに欠損ラベルを付して出力する。欠損と判定されなかった短時間フレームにはこのようなラベルが付されない。上述のように欠損ラベルが付された音響特徴量列は音響イベント判定部１１２に入力される。以降の処理は上述した通りである。

【0058】

さらに、生成モデル作成装置１１０が欠損判定処理部を持たず、代わりに音響イベントモデルＤＢ１１３に欠損イベントモデルを保存しておき、音響イベント判定部によって他の音響イベント判定と同様の方法で欠損したイベントの判定を行って、音響イベント列１１−１，・・・，Ｓが生成されてもよい。

【0059】

［実施例１−２（図５）］
本実施例では、欠損を含み得る音響特徴量列１８−１，・・・，１８−Ｓを入力として、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３及び欠損イベントモデル２４を算出する。また、状況ラベル１５、音響イベントラベル１６を算出し、状況や欠損した音響イベントの分析を行うことも可能である。

【0060】

＜構成＞
図５に例示するように、本実施例の生成モデル作成装置１２０は、欠損判定処理部１２４音響イベント判定部１１２、音響イベントモデルＤＢ（データベース）１１３、音響イベント列合成部１０１、モデル化部１０２、および記憶部１０３を有する。生成モデル作成装置１２０は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0061】

＜モデル化処理＞
本実施例のモデル化処理を説明する。
まず欠損判定処理部１２４に音響特徴量列１８−１，・・・，１８−Ｓが入力される。各音響特徴量列１８−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、短時間フレームごとに区分された要素からなり、例えば、実施例１−２で例示した特徴量の列である。

【0062】

音響特徴量列１８−１，・・・，１８−Ｓは欠損判定処理部１２４に入力され、欠損判定処理部１２４は、短時間フレームごとに音響特徴量列１８−１，・・・，１８−Ｓに対応する音響信号１７−１，・・・，１７−Ｓの欠損の有無を判定する。欠損判定処理部１２４は、例えば、特徴量の値が０もしくは非常に小さな値をとる短時間フレーム、非常に大きな値をとる短時間フレーム、特定の成分が０もしくは非常に小さな値をとる短時間フレーム、特定の成分が非常に大きな値をとる短時間フレームなどに欠損が存在すると判定する。欠損判定処理部１２４は、音響特徴量列１８−１，・・・，１８−Ｓのうち、欠損と判定した短時間フレームに欠損ラベルを付して出力する。欠損と判定されなかった短時間フレームにはこのようなラベルが付されない。上述のように欠損ラベルが付された音響特徴量列１８−１，・・・，１８−Ｓは音響イベント判定部１１２に入力される。以降の処理は上述した通りである。

【0063】

［実施例２−１（図６）］
本実施例では、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を用い、新たに入力された欠損を含み得る音響イベント列２１を用い、音響イベント列から欠損している音響イベントの推定、および、音響イベント列に対応する状況の推定を行う。欠損を有さない音響イベント列２１を入力として状況のみを推定することも可能である。

【0064】

＜構成＞
図６に例示するように、本形態の推定装置２００は、記憶部１０３および推定部２０１を有する。記憶部１０３は、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を格納する。図７に例示するように推定部２０１は、例えば、音響イベント欠損判定部２０１ａ、状況推定部２０１ｂ、状況／欠損推定部２０１ｃ、収束判定部２０１ｄ、初期設定部２０１ｅ、および制御部２０１ｆを有する。推定装置２００は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0065】

＜推定処理＞
推定部２０１には音響イベント列２１が入力される。音響イベント列２１は、前述の音響イベント列１１と同一であってもよいし、別のものであってもよい。推定部２０１は、記憶部１０３から読み出した欠損イベントモデル１４および状況−音響イベント生成モデル１３を用い、音響イベント列２１から欠損している音響イベントの推定、および、音響イベント列に対応する状況の推定を行う。

【0066】

例えば、推定部２０１は、音響イベント列２と欠損イベントモデル１４および状況−音響イベント生成モデル１３とを比較し、音響イベント列２１の欠損に音響イベントを割り当てて得られる補完音響イベント列の「音響イベントの遷移確率」と、欠損イベントモデル１４が表す「音響イベントの遷移確率」との距離（第１距離）、および補完音響イベント列の各音響イベントに状況を割り当てて得られる状況ラベル付き補完音響イベント列から得られる「状況から各音響イベントが生成される確率」と、状況−音響イベント生成モデル１３が表す「状況から各音響イベントが生成される確率」との距離（第２距離）に基づいて、音響イベント列２１から欠損している音響イベントの推定、および、音響イベント列に対応する状況の推定を行う。例えば、推定部２０１は、各欠損に対し、第１距離を最小にする音響イベントを決定してもよいし、第１距離を最小にする音響イベントから第１距離を所定番目に小さくする音響イベントまでを決定してもよいし、第１距離を閾値よりも小さくする音響イベントを決定してもよい。例えば、推定部２０１は、第２距離を最小にする状況を決定してもよいし、第２距離を最小にする状況から第２距離を所定番目に小さくする状況までを決定してもよいし、第２距離を閾値よりも小さくする状況を決定してもよい。推定部２０１は、各欠損に対して音響イベントを決定してから、各状況を決定してもよいし、音響イベントの決定と状況の決定とを同時に行ってもよい。音響イベントの決定と状況の決定とを同時に行う場合、推定部２０１は、第１距離および第２距離に対する関数値（例えば、広義単調増加関数値）である第３距離を最小にする音響イベントおよび状況を決定してもよいし、第３距離を最小にする音響イベントおよび状況から第３距離を所定番目に小さくする音響イベントおよび状況までを決定してもよいし、第３距離を閾値よりも小さくする音響イベントおよび状況を決定してもよい。第３距離の例は第１距離と第２距離との和や積などである。

【0067】

あるいは、推定部２０１は、状況−音響イベント生成モデル１３および欠損イベントモデル１４のもとでの、音響イベント列２１に対する各状況や各欠損に対する音響イベントの尤度の和や積に基づいて、音響イベント列に対応する状況の推定、および音響イベント列２１から欠損している音響イベントの推定を行ってもよい。例えば、推定部２０１は、尤度の和や積を最大にする音響イベントおよび状況を決定してもよいし、尤度の和や積を最大にする音響イベントおよび状況から尤度の和や積を所定番目に大きくする音響イベントおよび状況までを決定してもよいし、尤度の和や積を閾値よりも大きくする音響イベントおよび状況を決定してもよい。

【0068】

図７および図８を用いてより詳細な例を示す。音響イベント列２１は、推定部２０１の初期設定部２０１ｅに入力される（ステップＳ２０１）。初期設定部２０１ｅは、入力された音響イベント列２１に含まれるすべての音響イベント列ｅの全ての音響イベントｅ_ｉに状況ｔ（ただし、ｔ∈｛１，・・・，Ｔ｝）を割り当てる。この割り当てはランダムに行われてもよいし、予め初期設定部２０１ｅに保持しておいた割り当てであってもよい。また、初期設定部２０１ｅは、入力された音響イベント列２１に含まれるすべての音響イベント列ｅの欠損（何れかの短時間フレームに対応）に音響イベントｍ（ただし、ｍ∈｛１，・・・，Ｍ｝）を割り当てる。この割り当てはランダムに行われてもよいし、予め初期設定部２０１ｅに保持しておいた割り当てであってもよい。以上のように初期の状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）が得られる。また、初期設定部２０１ｅは、状況ラベル付き補完音響イベント列２１’’−ｓの「処理時間区間」を初期設定する。この例では、音響イベント列ｅ（音響イベント列２１）に含まれる音響イベント列η_ｓ（音響イベント列２１−ｓ）の先頭からｉ番目の短時間フレームを「処理時間区間」とし、初期設定部２０１ｅは、ｉ＝１を初期設定する（ステップＳ２０１ｅ）。

【0069】

状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）は、音響イベント欠損判定部２０１ａに入力される。音響イベント欠損判定部２０１ａは、音響イベント列η_ｓのｉ番目の短時間フレームの音響イベントｅ_ｉがもともと欠損していたかを判定する。ここで、音響イベントｅ_ｉがもともと欠損していなかった場合、音響イベント欠損判定部２０１ａは、状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）を状況推定部２０１ｂに送る（ステップＳ２０１ｂに進む）。一方、音響イベントｅ_ｉがもともと欠損していた場合、音響イベント欠損判定部２０１ａは、状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）を状況／欠損推定部２０１ｃに送る（ステップＳ２０１ｃに進む）（ステップＳ２０１ａ）。

【0070】

状況推定部２０１ｂは、入力された状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）のうち、音響イベント列η_ｓと、更新対象となるｉ番目の短時間フレームの状況ｚ_ｉを除いた状況の列ｚ_−ｉ（除くのはｉ番目の状況ｚ_ｉの１つのみであり、ｚ_ｉ＝ｔとなる状況全てを除くのではないことに注意）とを用い、以下のようにｉ番目の短時間フレームの音響イベントｅ_ｉに状況ｚ_ｉ＝ｔが割り当てられる確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，ｅ，α，β，γ）を更新する。

【数15】

ただし、式（９）のφ_ｔｍは式（７）で得られた状況−音響イベント生成モデル１３である。状況推定部２０１ｂは、このように更新された確率分布Ｐ（ｚ_ｉ＝ｔ｜ｚ_−ｉ，α，β，γ）に従って、ｉ番目の短時間フレームの状況ｚ_ｉをサンプリングし、サンプリングした状況ｚ_ｉ＝ｔを表す状況ラベルを音響イベントｅ_ｉに割り当て、それによって状況ラベル付き補完音響イベント列２１’’−ｓを上書き更新する。更新された状況ラベル付き補完音響イベント列２１’’−ｓは、音響イベント欠損判定部２０１ａに送られる（ステップＳ２０１ｂ）。

【0071】

状況／欠損推定部２０１ｃは、入力された状況ラベル付き補完音響イベント列２１’’−ｓ（ただし、ｓ＝１，・・・，Ｓ）のうち、更新対象となるｉ番目の短時間フレームの音響イベントｅ_ｉを除いた音響イベント列ｅ_−ｉと、状況ｚ_ｉを除いた状況の列ｚ_−ｉ（除くのはｉ番目の状況ｚ_ｉの１つのみであり、ｚ_ｉ＝ｔとなる状況全てを除くのではないことに注意）を用い、以下のようにｉ番目の短時間フレームに音響イベントｅ_ｉ＝ｍおよび状況ｚ_ｉ＝ｔが割り当てられる確率分布Ｐ（ｚ_ｉ＝ｔ，ｅ_ｉ＝ｍ｜ｚ_−ｉ，ｅ_−ｉ，α，β，γ）を更新する。

【数16】

ただし、式（１０）の式（７）で得られた状況−音響イベント生成モデル１３である。また、

【数17】

は式（８）で得られた欠損イベントモデル１４である。状況／欠損推定部２０１ｃは、上述のように更新された確率分布Ｐ（ｚ_ｉ＝ｔ，ｅ_ｉ＝ｍ｜ｚ_−ｉ，ｅ_−ｉ，α，β，γ）に従って、ｉ番目の短時間フレームの状況ｚ_ｉおよび音響イベントｅ_ｉをサンプリングし、当該状況ｚ_ｉを表す状況ラベルおよび当該音響イベントｅ_ｉをｉ番目の短時間フレームに割り当て、それによって状況ラベル付き補完音響イベント列２１’’−ｓを上書き更新する。更新された状況ラベル付き補完音響イベント列２１’’−ｓは、音響イベント欠損判定部２０１ａに送られる（ステップＳ２０１ｃ）。

【0072】

ステップＳ２０１ｂまたはＳ２０１ｃの後、制御部２０１ｆは状況ラベル付き補完音響イベント列２１’’の全ての時間区間についてステップＳ２０１ａ〜Ｓ２０１ｃの処理が実行されたかを判定する（ステップＳ２０１ｆａ）。ここで、全ての時間区間についてステップＳ２０１ａ〜Ｓ２０１ｃの処理が実行されていない場合、制御部２０１ｆは、ｉ＋１を新たなｉとして処理時間区間を更新し、処理をステップＳ２０１ａに戻す（ステップＳ２０１ｆｂ）。一方、全ての時間区間についてステップＳ２０１ａ〜Ｓ２０１ｃの処理が実行されていた場合、音響イベント欠損判定部２０１ａは、状況ラベル付き補完音響イベント列２１’’を収束判定部１０ｄに送る。

【0073】

収束判定部２０１ｄは、前述のように所定の収束条件を満たしたか否かを判定する（ステップＳ２０１ｄａ）。ここで、収束条件を満たしていないと判定された場合、状況ラベル付き補完音響イベント列２１’’が音響イベント欠損判定部２０１ａに送られ、「処理時間区間」が初期化され（例えば、ｉ＝１とされ）、処理がステップ２０１ａに戻される。

【0074】

一方、収束条件を満たしたと判定された場合、収束判定部２０１ｄは、繰り返しの結果、最終的に得られた状況ラベル付き補完音響イベント列２１’’において、欠損に割り当てられている音響イベント、および各音響イベントに割り当てられている状況を推定結果として出力する。あるいは、上記更新過程で得られた式（９）または式（１０）の確率分布のうち事後確率の高いものから数個を選択したり、これらの事後確率が閾値以上のものを選択したりし、選択された確率分布に従って状況や音響イベントを決定し、それらを推定結果として出力してもよい。また、上記更新過程で割り当てられた状況またはそれらの平均値、および音響イベントまたはそれらの平均値を推定結果として出力してもよい。

【0075】

［実施例２−２（図９）］
本実施例では、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を用い、新たに入力された欠損を含み得る音響信号列２５を用い、音響イベント列から欠損している音響イベントの推定、および、音響イベント列に対応する状況の推定を行う。欠損を有さない音響信号列２５を入力として状況のみを推定することも可能である。

【0076】

＜構成＞
図９に例示するように、本形態の推定装置２１０は、記憶部１０３、欠損判定処理部１１４、特徴量算出部１１１、音響イベント判定部１１２、音響イベントモデルＤＢ１１３、および推定部２０１を有する。記憶部１０３は、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を格納する。推定装置２１０は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0077】

＜推定処理＞
音響信号列２５は欠損判定処理部１１４に入力される。その後、実施例１−２で説明したように、欠損判定処理部１１４、特徴量算出部１１１、音響イベント判定部１１２、および音響イベントモデルＤＢ１１３を用いた処理が行われ、欠損を含み得る音響イベント列２１が生成される。音響イベント列２１は推定部２０１に入力される。それ以降の処理は実施例２−１と同じである。

【0078】

［実施例２−３（図１０）］
本実施例では、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を用い、新たに入力された欠損を含み得る音響特徴量列２６を用い、音響イベント列から欠損している音響イベントの推定、および、音響イベント列に対応する状況の推定を行う。欠損を有さない音響特徴量列２６を入力として状況のみを推定することも可能である。

【0079】

＜構成＞
図１０に例示するように、本形態の推定装置２２０は、記憶部１０３、欠損判定処理部１２４、音響イベント判定部１１２、音響イベントモデルＤＢ１１３、および推定部２０１を有する。記憶部１０３は、前述のように生成された状況−音響イベント生成モデル１３および欠損イベントモデル１４を格納する。推定装置２２０は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

【0080】

＜推定処理＞
音響特徴量列２６は欠損判定処理部１２４に入力される。その後、実施例１−３で説明したように、欠損判定処理部１２４、音響イベント判定部１１２、および音響イベントモデルＤＢ１１３を用いた処理が行われ、欠損を含み得る音響イベント列２１が生成される。音響イベント列２１は推定部２０１に入力される。それ以降の処理は実施例２−１と同じである。

【0081】

＜特徴＞
上述のように、音響信号から状況が生成される確率や状況から音響イベントが生成される確率に加えて、音響イベントが遷移する確率を考慮することで、欠損を持つデータからも精度の高い生成モデルを生成できる。音響イベントが示す状況やその生成過程を記述するためのモデルを推定可能であることに加え、欠損した音響イベントの推定も可能となっている。また、音響信号−状況生成モデル１２、状況−音響イベント生成モデル１３、および欠損イベントモデル１４を別個に学習するのではなく、これらのモデルに対応する確率分布を同時に更新することで、精度の高いモデル推定を可能にしている。以上により、風切り音、タッピングノイズなどが含まれた音響信号から生成された音響イベント列であっても、精度の高いモデル推定が可能である。また、長時間の音響イベント列では、発生する音響イベントの種類が多く、それら音響イベントの生成確率はスパースになることが多い。つまり、従来手法では間欠的な欠損を有するのみであっても、多くの情報が失われ音響シーンの推定精度は大きく劣化すると考えられる。一方で欠損した音響イベントを推定しながら同時に音響シーンの推定を可能とする本技術では音響シーンの推定精度の大幅に向上が見込まれる。

【0082】

［その他の変形例等］
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

【0083】

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

【0084】

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0085】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

【0086】

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

【符号の説明】

【0087】

１００，１００’,１１０，１２０生成モデル作成装置
２００，２１０，２２０推定装置

【図1】