特許6887622 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人滋賀大学の特許一覧

特許6887622マルチチャンネル発話区間推定装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6887622

(24)【登録日】2021年5月21日

(45)【発行日】2021年6月16日

(54)【発明の名称】マルチチャンネル発話区間推定装置

(51)【国際特許分類】

G10L 15/04 20130101AFI20210603BHJP

【ＦＩ】

G10L15/04 300A

【請求項の数】13

【全頁数】23

(21)【出願番号】特願2020-4771(P2020-4771)

(22)【出願日】2020年1月15日

【審査請求日】2020年1月15日

(73)【特許権者】

【識別番号】505026686

【氏名又は名称】国立大学法人滋賀大学

(74)【代理人】

【識別番号】100107571

【弁理士】

【氏名又は名称】田中哲郎

(72)【発明者】

【氏名】市川治

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１３−０１１６８０（ＪＰ，Ａ）

【文献】特開２０１２−２５２０６０（ＪＰ，Ａ）

【文献】中野魁人，外３名，授業グループワークの音声認識精度改善のためのマルチチャネルＶＡＤ，情報処理学会第８２回全国大会講演論文集，２０２０年２月，p.2-173〜2-174

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−２５／９３

(57)【特許請求の範囲】

【請求項1】

発話者ごとに１が装着された３以上の接話マイクロフォンから出力された各音声データを、時間情報及び前記接話マイクロフォンの識別情報と共に格納する記憶部と、各音声データをデータ処理する処理部とを備えた発話区間推定装置であって、
前記処理部は、
前記の音声データの各々から、あらかじめ定めた単位時間ごとの音声パワー点における音声パワー値を演算して、前記各々に対する音声パワーを求める音声パワー演算部と、
前記音声パワー値が、あらかじめ定めた閾値ａ未満である音声パワー点に対し、閾値ａ未満である旨のラベル情報ａを付与する音声パワー加工演算部と、
前記音声パワーの１と前記音声パワーの他の１との対を用いて、又は別途用意した個別データを用いて、前記対における分離ラインを演算する分離ライン演算部と、
前記の分離ラインを用い、前記音声パワーの１に対応する発話者の非発話点か否かを前記音声パワー点ごとに推定し、非発話点と推定された音声パワー点に対し、非発話点である旨のラベル情報ｃを付与する推定部と、
前記ラベル情報ａと前記ラベル情報ｃとが付与された音声パワー点に対応する音声データの区間を、対応する発話者の非発話区間として当該音声データから除外する旨のマーキングを行う除外部とを
備えたことを特徴とする発話区間推定装置。

【請求項2】

前記の音声パワー値をｄＢ単位とし、さらに背景雑音を差し引いたＬｏｃａｌ−ＳＮＲとすることを特徴とする請求項１に記載の発話区間推定装置。

【請求項3】

前記分離ラインの演算と前記の非発話点か否かの推定とが、繰り返し逐次的に行われることを特徴とする請求項１又は２のいずれかに記載の発話区間推定装置。

【請求項4】

前記音声パワーの他の１として、前記音声パワーの１以外の全部の音声パワーを順次用いることを特徴とする請求項１から３のいずれかに記載の発話区間推定装置。

【請求項5】

前記音声パワー加工演算部はさらに、前記音声パワー値が、前記閾値ａより大きくあらかじめ定められた閾値ｂ以上である音声パワー点に対し、閾値ｂ以上である旨のラベル情報ｂを付与することを特徴とする請求項１から４のいずれかに記載の発話区間推定装置。

【請求項6】

前記の分離ラインを用いた推定が、前記閾値aと前記閾値bとに挟まれた中間領域における前記音声パワー点に対して行われることを特徴とする請求項５に記載の発話区間推定装置。

【請求項7】

前記音声パワー点のいずれかが、前記ラベル情報ｂと前記ラベル情報ｃの両方を付与された場合には、付与された当該ラベル情報ｃを消去することを特徴とする請求項５又は６に記載の発話区間推定装置。

【請求項8】

前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合の重心と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合の重心とを用いることを特徴とする請求項１から７のいずれかに記載の発話区間推定装置。

【請求項9】

前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合の正規分布と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合の正規分布とを用い、前記２つの正規分布について同じ尤度となるように前記分離ラインを定めることを特徴とする請求項１から７のいずれかに記載の発話区間推定装置。

【請求項10】

前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合とにおいて、サポートベクターマシンを用いることを特徴とする請求項１から７のいずれかに記載の発話推定装置。

【請求項11】

前記の分離ラインを演算するにあたり、前記音声パワーの各々単独で発話区間検知を行って１次分離ラインを求めることを特徴とする請求項１から１０のいずれかに記載の発話区間推定装置。

【請求項12】

前記の分離ラインを演算するにあたり、前記１次分離ラインを用いて、音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合と、非発話点と推定された前記音声パワー点の集合とを用いて、２次分離ラインを求めることを特徴とする請求項１１に記載の発話区間推定装置。

【請求項13】

請求項１から１２のいずれかに記載の発話区間推定装置を用いて音声データの発話区間推定を行い、しかるのち音声認識を行うことを特徴とする音声データ処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数の発話者が任意に動くなどして発話する場合に、各発話者の発話区間を精度よく推定することができ、その結果、各発話者の発話に対する音声認識精度を向上できる発話区間推定装置に関する。

【背景技術】

【0002】

グループワークや会議のような場合に、マイクロフォンで収音した音声データに複数人の音声が混ざるため、音声認識に間違いが生じやすい。特に発話者が３人以上の場合には、複数人が任意に顔の向きを変えたり移動したりして発話し得ることから、技術的に難しい問題になっている。

【0003】

これに対処する方法として、音声ごとに発話者を特定しようとする試みがある。例えば、マイクロフォン以外にカメラ等を用いて、顔や唇の画像から発話者を特定しようとする試みがある（例えば、特許文献１又は２参照）。しかし、この方法では、各人が、顔をカメラ方向に常に向けているという前提でも最低一台のカメラが必要である。さらに、各人が任意にカメラと逆の方向を向いて発話したり、空間的に移動したりする場合には、各人の顔を確実にとらえるには複数台のカメラを設置して画像処理する必要がある。そのため、設備が複雑で高価なものになってしまう欠点がある。

【0004】

また、位置があらかじめ特定された複数の固定マイクロフォン（分散マイクロフォンアレー）を用い、各固定マイクロフォンに到達する音声のパワーを非負値行列因子分解することで、各話者の音声に分離しようとする試みもある（例えば、非特許文献１参照）。しかし、この方法では、各人が空間的に任意に移動して固定マイクロフォンとの位置関係が変化してしまうと、音声の分離が難しくなる。さらに、発話者が顔の方向を変えて発話するだけでも誤差が生じるという問題がある。特に位相を使用するマイクロフォンアレイ技術の場合には、複数マイクロフォンからの音声データがサンプル点の粒度で正確に同期されていなければならない。そのため、同時に多チャンネルの音声を収録する単一のマルチトラックオーディオデバイスの使用が前提になってしまう問題点がある。

【0005】

また、話者が２人の場合であるが、音声パワーの大小比較により発話者を特定しようとする試みもある（例えば、特許文献３参照）。ところが、各人の声量には個人差があるうえに、発話者が顔の方向を変えて発話するだけでも誤差が生じる。単純な大小比較では間違いが多くなることが避けられない。さらにその声量の違いを補償するために各マイクロフォンに増幅器を設けた場合には、その作用により音声パワーの大小比較による発話者の特定がさらに困難になってしまう。そこで、増幅器を用いる場合には、単純な大小比較ではなく、固定マイクロフォンへの音声の到達時間のずれから相関係数を求めることにより、発話者を特定しようと試みている。

【0006】

しかし、いずれの場合でも発話者が３人以上の場合には、各人の位置や声量の違いが絡み合うため、音声パワーの単純な大小比較による発話者の特定が困難である。また、到達時間のずれを利用するためには、ニュース番組収録中のアナウンサーのごとく、マイクロフォン位置や各発話者の位置が変化しないことを暗黙の前提とせざるを得ない。そのため、各発話者が任意に移動して発話するグループワークのような場合には適用できない。

【0007】

また、３人以上の場合でも、同時刻における音量の大小比較をおこなって、発話者を特定しようとする試みがある（例えば、特許文献４参照）。しかし、上記したとおり、各人の位置や声量の違いが互いに絡み合うため、音声パワーの単純な大小比較だけでは、発話者の特定に大きな誤差が生じてしまう。

【0008】

また、会議テーブルの中央などに集中的に配置した複数のマイクロフォン（マイクロフォンアレー）を用いて、複数発言者の音声が混じった複数の音声データを用いて、発言者ごとの音声データに分離しようとする試みもある（例えば、特許文献５参照）。この方法では、最小分散法や遅延和法などの位相差を応用した技術と、独立成分分析を応用した技術の２通りがある。これらの技術では、通常、発言者数以上の数のマイクロフォンで取得した複数の音声データを用い、対象話者の音声を強調した音声データを出力する。これにより、処理後音声データごとの発言者を特定しようとする。しかし、この処理を行っても、特定された発言者の音声を相対的に大きくし、他の発言者の音声を相対的に小さくすることができるだけで、他の発言者の音声をシャットアウトすることはできない。そのため、処理された音声データを用いて音声認識を行っても依然として間違いが生じやすい。

【0009】

独立成分分析による音声分離処理では、複数の音声データの統計的な独立性を高めるように分離行列を学習する。そのために、事前にある程度の分量のデータを取得し、学習しておく処理が必要になるため処理コストが高い、

【0010】

一方、各発話者にヘッドセットマイクロフォンのような接話マイクロフォンを装着し、あるマイクロフォンが出力した音声データは、そのマイクロフォンを装着した発話者のものと推定することにより、発話者の特定に関する上記の問題をあらかじめ回避しようとする試みも行われている。

【0011】

しかし、ある接話マイクロフォンが出力した音声データには、その接話マイクロフォンを装着した発話者の音声データのみならず、他の発話者の音声データも混入してしまうことが多い。その場合、ある発話者が装着した接話マイクロフォンから出力された音声データのうちの、どこがその発話者の発話区間であり、どこが非発話区間なのかの発話区間検知（以下、ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、と略すことがある。）を行う必要が生じる。しかし、これを的確に行うことは困難であり、音声認識の精度が低下する原因となっていた。

【0012】

特に発話者が３人以上の場合は、各発話者の声量に違いがあるうえ、各発話者間の距離が常に変化し、発話する際の体や顔の向きも同様に常に変化する。したがって、これらの要素が絡み合って発話者の発話区間を的確に推定するのはかなり困難であった。

【0013】

そこで、発話者ごとに咽喉マイクとピンマイクとを併用して装着させ、咽喉マイクにより発話者の咽喉の震えを検知しつつピンマイクで音声データを取得することにより、各発話者の発話区間の推定精度を高めようとする試みもある（例えば、非特許文献２参照）。しかし、この方法では咽喉マイクという特殊な機器を用いる。そのため、咽喉元にマイクを貼らなければならないことによる心理的負担や肉体的な違和感が大きい。さらに咽喉マイクと着衣との衣擦れ音や嚥下の際の雑音を除去する必要が新たに生じるうえ、機器コストも増大するという問題点がある。

【先行技術文献】

【特許文献】

【0014】

【特許文献1】特開２０１８−１８０４２４号公報

【特許文献2】ＷＯ２０１１／０１３６０５号国際公開公報

【特許文献3】特開２００６−０３９１０８号公報

【特許文献4】特開２０１３−１１７４４号公報

【特許文献5】特開２００３−００５７９０号公報

【非特許文献】

【0015】

【非特許文献1】社団法人人工知能学会研究会資料、ＳＩＧ−Ｃｈａｌｌｅｎｇｅ−Ｂ４０２−０６、３３〜３８頁、「非同期分散マイクロフォンアレーによる音源定位・音源分離」、小野順貴著

【非特許文献2】ＦＩＴ２０１６（第１５回情報科学技術フォーラム）、第二分冊１４９−１５０頁、Ｅ−０２０「咽喉マイクとピンマイクの同時収音に基づく多人数会話における発話区間推定」、大高祥裕ら著

【発明の概要】

【発明が解決しようとする課題】

【0016】

本発明は、グループワークや会議のように、複数人、特に３人以上の発話者が互いに接近したり離れたり移動しながら発話し得る場合において、発話者ごとに接話マイクロフォンを装着することを前提として、比較的簡単な設備と少ないデータ処理及び作業量に留めつつ、発話者の発話区間を精度よく推定できる装置を提供することを課題とする。

【課題を解決するための手段】

【0017】

本発明の第１は、発話者ごとに１が装着された３以上の接話マイクロフォンから出力された各音声データを、時間情報及び前記接話マイクロフォンの識別情報と共に格納する記憶部と、各音声データをデータ処理する処理部とを備えた発話区間推定装置であって、前記処理部は、前記の音声データの各々から、あらかじめ定めた単位時間ごとの音声パワー点における音声パワー値を演算して、前記各々に対する音声パワーを求める音声パワー演算部と、前記音声パワー値が、あらかじめ定めた閾値ａ未満である音声パワー点に対し、閾値ａ未満である旨のラベル情報ａを付与する音声パワー加工演算部と、前記音声パワーの１と前記音声パワーの他の１との対を用いて、又は別途用意した個別データを用いて、前記対における分離ラインを演算する分離ライン演算部と、前記の分離ラインを用い、前記音声パワーの１に対応する発話者の非発話点か否かを前記音声パワー点ごとに推定し、非発話点と推定された音声パワー点に対し、非発話点である旨のラベル情報ｃを付与する推定部と、前記ラベル情報ａと前記ラベル情報ｃとが付与された音声パワー点に対応する音声データの区間を、対応する発話者の非発話区間として当該音声データから除外する旨のマーキングを行う除外部とを備えた発話区間推定装置である。

【0018】

ここで、前記の音声パワー値をｄＢ単位とし、さらに背景雑音を差し引いたＬｏｃａｌ−ＳＮＲとすることは好ましい。また、前記分離ラインの演算と前記の非発話点か否かの推定とが、繰り返し逐次的に行われることは好ましい。また、前記音声パワーの他の１として、前記音声パワーの１以外の全部の音声パワーを順次用いることは好ましい。また、前記音声パワー加工演算部はさらに、前記音声パワー値が、前記閾値ａより大きくあらかじめ定められた閾値ｂ以上である音声パワー点に対し、閾値ｂ以上である旨のラベル情報ｂを付与することは好ましい。また、前記の分離ラインを用いた推定が、前記閾値ａと前記閾値ｂとに挟まれた中間領域における前記音声パワー点に対して行われることは好ましい。また、前記音声パワー点のいずれかが、前記ラベル情報ｂと前記ラベル情報ｃの両方を付与された場合には、付与された当該ラベル情報ｃを消去することは好ましい。また、前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合の重心と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合の重心とを用いることは好ましい。また、前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合の正規分布と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合の正規分布とを用い、前記２つの正規分布について同じ尤度となるように前記分離ラインを定めることは好ましい。また、前記の分離ラインを演算するにあたり、前記音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合と、前記音声パワーの１に対応する発話者の非発話点と推定された前記音声パワー点の集合とにおいて、サポートベクターマシンを用いることは好ましい。また、前記の分離ラインを演算するにあたり、前記音声パワーの各々単独で発話区間検知を行って１次分離ラインを求めることは好ましい。また、前記の分離ラインを演算するにあたり、前記１次分離ラインを用いて、音声パワーの１に対応する発話者の発話点と推定された前記音声パワー点の集合と、非発話点と推定された前記音声パワー点の集合とを用いて、２次分離ラインを求めることは好ましい。

【0019】

本発明の第２は、上記のいずれかに記載の発話区間推定装置を用いて音声データの発話区間推定を行い、しかるのち音声認識を行う音声データ処理方法である。

【発明の効果】

【0020】

本発明の装置によれば、グループワークや会議のように、複数人、特に３人以上の発話者が互いに接近したり離れたりなどしながら発話し得る場合において、比較的簡単な設備と少ないデータ処理量及び作業量に留めつつ、発話者の発話区間を精度よく推定できる。その際、発話者の顔や体の向きや各発話者間の距離が常に変化する状態でも、発話区間の高い推定精度を維持できる。その結果、音声認識の精度が向上する。

【0021】

また、咽喉マイクのような特殊な機器は必要なく、ヘッドセットマイクロフォンのような汎用の接話マイクロフォンを使用すれば足りる。また、独立成分分析のような演算量の多い処理を必要としない。さらなる利点として、ＩＣレコーダなど複数の機器でそれぞれのマイクロフォン音声を収録することが可能である点が挙げられる。これら複数の機器間の厳密な同期は不要であり、数フレームの単位で同期がとれていれば動作する。

【図面の簡単な説明】

【0022】

【図1】発話区間推定装置をバッチ処理により使用する場合に適した、典型的なハードウェア構成例を示した概念図である。

【図2】発話区間推定装置をオンライン処理により使用する場合に適した、典型的なハードウェア構成例を示した概念図である。

【図3】発話区間推定装置の概略構成を示した概念図である。

【図4】発話区間推定処理の全体フローを示したフローチャートである。

【図5】音声パワーを生成する方法を説明する模式図である。

【図6】Ｓ３００ステップの処理フローを示したフローチャートである。

【図7】Ｓ３２０ステップの処理フローを示したフローチャートである。

【図8】Ｓ３３０ステップの処理フローを示したフローチャートである。

【図9】音声パワーＡの各点と音声パワーＢの各点との関係を二次元で示した概念図である。

【図10】音声パワーＡに対してシングルチャンネルＶＡＤを行った結果を示した模式図である。

【図11】音声パワーＢに対してシングルチャンネルＶＡＤを行った結果を示した模式図である。

【図12】１次分離ラインを生成した状態を示した模式図である。

【図13】１次分離ラインに基づいて１次推定を行った状態を示した模式図である。

【図14】Ｓ３４０ステップの処理フローを示したフローチャートである。

【図15】２次分離ラインを生成した状態を示した模式図である。

【図16】２次分離ラインに基づいて２次推定を行った状態を示した模式図である。

【図17】正規分布を用いて分離ラインを生成した例を示した図である。

【図18】サポートベクターマシンを用いて２次分離ラインを生成した例を示した図である。

【図19】文字誤りの計数結果を棒グラフで示した図である。

【図20】挿入誤り率の計数結果を棒グラフで示した図である。

【図21】削除誤り率の計数結果を棒グラフで示した図である。

【図22】置換誤り率の計数結果を棒グラフで示した図である。

【発明を実施するための形態】

【0023】

本発明の発話区間推定装置では、３以上の接話マイクロフォンを用いて、それぞれで収音された各音声データからサンプリングして演算した音声パワーを用いる。そして、複数の音声パワーを組み合わせたマルチチャンネルによる発話区間推定を統計的に行う。これにより、接話マイクロフォンを装着した発話者が、発話していない非発話区間を精度よく特定し、その音声データから非発話区間を精度よく除外することができる。その結果、音声認識の精度が向上する。

【0024】

グループワークや会議のように、複数人、特に３人以上の発話者が互いに接近したり離れたりなどしながら発話し得る場合において、比較的簡単な設備と少ないデータ処理量及び作業量で済む。

【0025】

グループワークや会議としては、学校の授業や企業の会議・研修等で行われる集団での討論やブレーンストーミングのごとき、３人以上の複数人が自由に移動しながら発話して行う場合をいう。ここで、自由に移動とは、文字通り前後左右に体を自由に移動する場合だけではなく、椅子に座っていても発話する際の顔の方向を自由に変えられる場合も含む。具体的には、学校の授業で行うグループディスカッションや、会議の議事録をとりたい場合や、３人以上が公開討論する場合に、各人の発話内容をテキストで字幕上や画面上に発話者名を特定して直ちに表示したい場合などであってもよい。

【0026】

図１は、本発明の装置を用いる場合のハードウェア構成の例を示した図である。この構成例は、まず音声データをデジタル録音し、しかるのち、発話区間推定処理をまとめて行うバッチ処理に適している。図１（ａ）は、グループワーク等を行って収音している際の構成であり、（ｂ）は、そののちに、まとめて発話区間処理を行う際の構成を示している。

【0027】

１は接話マイクロフォンであり、具体的にはヘッドセットマイクやピンマイクのような、発話者の頭部や口元近くを中心とする身体に装着して、発話者の音声を中心に収音するマイクロフォンである。接話マイクロフォンは発話者１人に１台を装着すればよい。本発明は、この接話マイクロフォンが３台以上、すなわち発話者が３人以上の場合に適している。

【0028】

２はＩＣレコーダである。各接話マイクロフォン１が収音した音声データは、直ちに各発話者が持つＩＣレコーダ２にデジタル録音される。録音された音声データは、その後に、パーソナルコンピュータを用いて構成された発話区間推定装置３の記憶部２０に格納される。その際、音声データごとに、収音された際の時間情報と、接話マイクロフォンの識別情報とが結び付けて格納される。

【0029】

図２は、本発明の装置を用いる場合のハードウェア構成の別の例を示した図である。この構成例は、バッチ処理にも使用できるが、接話マイクロフォン１が収音するとデジタル録音と発話区間推定、さらには音声認識処理が同時進行するオンライン処理に適している。４はマルチトラックオーディオインターフェイスであり、接話マイクロフォン１と無線又は有線で通信可能に接続されている。また、マルチトラックオーディオインターフェイス４は、発話区間推定装置３とも通信可能に接続されており、各接話マイクロフォン１が収音した音声データは、音声データごとに、収音された際の時間情報と、接話マイクロフォンの識別情報とを結び付けて、逐次的に記憶部２０に格納される。

【0030】

その他の構成例としては、接話マイクロフォン１の各々に、音声データに時間情報を付与できる通信機器、例えばスマートフォン等を接続し、各スマートフォンがｗｉｆｉ又はＢｌｕｅｔｏｏｔｈ(登録商標)のような無線通信を介して発話区間推定装置３と通信可能にする例をあげることができる。この構成例はバッチ処理にもオンライン処理にも適している。

【0031】

以下では、主にバッチ処理の例で説明し、オンライン処理の場合に関しては後述する。

【0032】

図３は、発話区間推定装置３の概略構成を示した概念図である。処理部１０は、ＣＰＵと記憶部２０から随時読みだしたプログラム及びデータとにより構成される。記憶部２０は、ＨＤＤやＳＳＤ等の記憶素子と、記憶素子に格納されているプログラム類とデータ類とにより構成される。通信インターフェイス５０は、必要によりＩＣレコーダ２やマルチトラックオーディオインターフェイス４に接続される。

【0033】

記憶部２０のマイク識別テーブル３０は、使用される接話マイクロフォンを特定するための識別名および識別コード、必要により各接話マイクロフォンを装着した各発話者の氏名等を結び付けてあらかじめ格納している。

【0034】

記憶部２０の音声データ３１は、各接話マイクロフォン１が収音した各音声データを、収音する際の各時間情報及び各接話マイクロフォン１の識別情報とを結び付けてそれぞれ格納している。

【0035】

図４は、発話区間推定装置３による発話区間推定のための処理全体の概略フローチャートである。発話区間推定処理がスタートすると、まず音声パワー演算部１１が、それぞれの接話マイクロフォンから収音された音声データごとに音声パワーを生成し、記憶部２０の音声パワーデータ３２に格納する（Ｓ１００ステップ）。

【0036】

ここで、図５に、音声パワー演算部１１が音声パワーを生成する方法を説明する図を示した。図５（ａ）には接話マイクロフォンが収音したデジタル音声データを示しており、横軸は収音時間であり縦軸は音の振幅である。サインカーブはサンプリングに用いる窓関数を意味する。音声パワーを生成するためには、図５（ａ）に示したようなあらかじめ定められたサイズのフレームを設定する。

【0037】

そして、１つのフレーム内の音声データから演算した音量について時間平均し、さらに常用対数をとって１０倍し、ｄＢ単位に換算して音声パワー値とする。これで時間が特定された１つの音声パワー点が得られる。

【0038】

フレームは、あらかじめ定めた単位時間ごとにシフトする。各時間においてフレーム内の音声データがサンプリングされ、各時間の音声パワー点が生成される。なお、標準的には、フレームサイズは２０ミリ秒、シフトする単位時間は１０ミリ秒とすることが多いが、これに限定されるものではない。

【0039】

図５（ｂ）は、（ａ）から演算した複数の音声パワー値の音声パワー点を、時間を横軸、音声パワー値を縦軸として示した図である。これは１つの音声データに対応する１つの音声パワーの例である。つまり、１つの音声パワーは、１つの音声データから演算された音声パワー値の音声パワー点が、各点の収音時間に従って順序付けられたものである。この各点は、対応するフレーム内の音声サンプルのパワーの時間平均となっており、元の音声データが含んでいる位相情報を含まない。そのため、データ量は比較的小さい。

【0040】

さらに、音声パワーの各点の音声パワー値からあらかじめ定めた背景雑音の音声パワー値を差し引く。背景雑音は、発話者の誰もが発話していない状態での背景音をいい、この音声パワー値を準定常的なものとみなしている。背景雑音の音声パワー値は、ドアの閉まる音などの非定常雑音を含まない区間での音声パワーを平均して値を求めればよい。背景雑音に相当する区間を知るために、後述のシングルチャンネルＶＡＤの技術を利用してもよい。非定常雑音の区間を確実に含まないようにするためには、閾値としてやや小さめの値を設定することが好ましい。なお、背景雑音の音声パワー値は、各接話マイクロフォンのゲイン設定が異なることから、各接話マイクロフォンに対応する音声パワーごとに異なるのが通常である。そのため、音声パワーごとに設定することが好ましい。

【0041】

このように背景雑音の音声パワー値（単位：ｄＢ）を差し引いて換算された音声パワー値（単位：ｄＢ）を、以下、Ｌｏｃａｌ−ＳＮＲ（局所Ｓ／Ｎ比）と呼ぶことがある。背景雑音の音声パワー値は平均によりもとめたものであるから、誰も発声していない背景雑音の区間においては、Ｌｏｃａｌ−ＳＮＲで表された各音声パワー点の値は、０を中心として正の方向や負の方向に変動する挙動を示す。

【0042】

このように換算された音声パワーを用いることにより、背景雑音のパワーに影響されずに発話の音声パワーを評価できるので、発話区間推定の精度が高くなる。また、接話マイクロフォンごとに異なるゲイン設定を補正する効果も合わせ得る。換算された音声パワーは、記憶部２０の音声パワーデータ３２に格納される。以下では、換算された音声パワーを、特に言及しない限り単に音声パワーとして説明する。

【0043】

記憶部２０の閾値ａ・閾値ｂテーブル３３には、あらかじめ定められてＬｏｃａｌ−ＳＮＲに換算された閾値ａと閾値ｂが格納されている。閾値ａと閾値ｂは以下の意味を有する。

【0044】

接話マイクロフォンを装着した発話者の一人に注目した場合に、その発話者が発話すると、その音声データの音声パワーの値は、十分に正の方向へシフトする。そこで、その発話者が発話したか否かを判定するためにある閾値を設定する。この閾値は、音声パワー値がこの閾値以上になった音声パワー点は、その発話者の発話区間に属する可能性が高くなるように設定する。一方、注目しているその発話者以外の他の発話者が発話すると、注目している発話者の音声データに他の発話者の発話が混入する。この場合、注目している発話者の音声の音声パワーはやはり正の方向へシフトする。しかし、その混入に起因する音声パワー値は、注目している発話者の音声パワー値よりも比較的小さいと考えられる。そこで、この閾値は、注目している発話者の音声パワーより小さく、その他の発話者の音声パワーより大きくなるように設定すればよい。この閾値を閾値ａとする。閾値 a の具体的な値としては、状況によって変化するものの、例えば５から１５ｄＢ程度に設定することが好ましい。

【0045】

さらに、閾値は、閾値ａより大きなもう一つの閾値を設けて二つにするのが好ましい。この理由は以下のとおりである。

【0046】

例えば、接話マイクロフォンを装着して注目している発話者以外の他の発話者が、想定以上に大きな音声パワーで発話することが有り得る。その場合、注目している発話者の音声データに、注目している発話者の音声パワー値と同程度の音声パワー値で、他の発話者の音声が混入することが有り得る。そうすると、その音声が、注目している発話者の発話なのか他の発話者の発話なのかを区別することができない。一方で、注目している発話者の音声データに、音声が、注目している発話者からの発話であろうと十分に判断できるほど大きな音声パワー値で入力することもあり得る。この場合は、注目している発話者の発話であると十分判断できる。これら二つの場合は、いずれも閾値ａ以上の音声パワーによる入力の範囲内で生じるので、これらを区別するために閾値ｂを設けることが好ましい。

【0047】

つまり、閾値b は、閾値ａより大きい値であって、注目している発話者の音声データに入力した音声パワー値がこれよりも大きければ、他の発話者の発声の大きさに関わらず、注目している発話者からの音声であろうと十分に判断できる値である。閾値ｂの具体的な値としては、１５から２５ｄＢ程度に設定することが好ましい。

【0048】

以上の閾値に関する説明をまとめる。閾値aは小さめの値である。注目している発話者の音声データに入力した音声の音声パワー値が閾値ａ未満の領域にあれば、その音声が他の発話者からの発声なのか注目している発話者からの発声なのか、あるいは背景雑音であるのかに関わらず、発話とは認められないくらい小さいのであるから、注目している発話者の発話ではないと判断できる。

【0049】

また、閾値ｂは大きめの値である。閾値ａと閾値ｂとの間の領域は、注目している発話者の音声データにその領域に含まれる音声パワー値で入力した音声が、注目している発話者の発話かもしれないし、その他の発話者の発話が混入している発話かもしれないという中間領域である。この中間領域について、後述のように、注目している発話者の音声パワーとその他の発話者の音声パワーとの対を用いて、注目している発話者の発話部分を、より正確に推定する。

【0050】

さらに、注目している発話者の音声データに入力した音声の音声パワー値が閾値ｂ以上の領域にあれば、無条件に注目している発話者の音声であると判断できる。

【0051】

次に、図４に戻って、フローはＳ２００ステップに移行する。記憶部２０の音声パワーデータ３２には、複数の音声データの各々から演算された複数の音声パワーが格納されている。各音声パワーは、それぞれに対応する各音声データを介して各発話者に紐づけされている。

【0052】

Ｓ２００ステップでは、まず1人の発話者Ａを選択する。次に、記憶部２０の音声パワーデータ３２に格納されている音声パワーの中から、発話者Ａに対応する音声パワーを選択して音声パワーＡとして読みだす。音声パワーＡは、これに紐づけられた発話者Ａの発話で占有されていると期待されるが、実際には他の発話者の音声も混入している。そのため、他の発話者の発話部分を除外することで、発話者Ａの発話区間を正確に特定する必要がある。

【0053】

そこで、音声パワーＡを用いて、後述のマルチチャンネルＶＡＤにより音声パワーＡに対応する発話者Ａの非発話区間を推定する（Ｓ３００ステップ）。さらに、Ｓ４００ステップからＳ２００ステップに戻り、残りの音声パワーに対して同様の処理を繰り返し行う。全部の発話者に対して処理が終了すると、フローはＳ４００ステップから下に移行し、発話区間推定装置３の発話区間推定処理が終了する。

【0054】

続いて、上記のＳ３００ステップを詳しく説明する。図６は、Ｓ３００ステップの処理内容を示したフローチャートである。処理がスタートすると、まずは発話者Ａとは異なる発話者Ｂを選択し、その発話者Ｂに紐づけられた音声パワーＢを、記憶部２０の音声パワーデータ３２から読み出す（Ｓ３１０ステップ）。音声パワーＢは、先に読み出された音声パワーＡと対をなし、この対を用いて第一段階の発話区間推定を行う。以下、複数の発話者の音声データを組み合わせてデータ処理することをマルチチャンネル処理という。

【0055】

発話者Ｂの選択にあたっては、発話者Ａ以外の残りの発話者の全部から１を選択する。残りの発話者の全部を発話者Ｂの選択対象とすることで、発話区間推定の精度が高くなるからである。図６は、残りの全部を順次用いる例で記載している。マルチチャンネル処理による発話区間推定を、以下マルチチャンネルＶＡＤという。

【0056】

次にフローはＳ３２０ステップに移行する。Ｓ３２０ステップでは、処理部１０の音声パワー加工演算部１２が、各音声パワーに対し、あらかじめ定めた閾値ａ未満である音声パワー点に対して、閾値ａ未満である旨のラベル情報ａを付与する。さらに、あらかじめ定めた閾値ｂ以上である音声パワー点に対して、閾値ｂ以上である旨のラベル情報ｂを付与して、ラベル付き音声パワーを生成する。なお、ラベル情報は、一つの音声パワー点に対して、ラベル情報ａ、ラベル情報ｂ及び後述のラベル情報ｃの各１が付与され得る。

【0057】

図７は、上記のＳ３２０ステップの詳しいフローを示したフローチャートである。処理がスタートすると、記憶部２０の閾値ａ・閾値ｂテーブル３３からあらかじめ定めた閾値ａ（単位：ｄＢ）を読み出し、換算された音声パワー値が閾値ａ未満である音声パワー点に、閾値ａ未満である旨のラベル情報ａを付与する（Ｓ３２１ステップ）。なお、このステップと続くＳ３２２ステップとは、音声パワーＡに対するラベル情報ａとｂとの付与がすでに完了している場合には飛ばしてよい。

【0058】

次に、フローはＳ３２２ステップに移行し、記憶部２０の閾値ａ・閾値ｂテーブル３３からあらかじめＬｏｃａｌ−ＳＮＲで表した閾値ｂ（ｄＢ）を読み出す。そして、音声パワーＡの各点の音声パワー値がこの閾値ｂ以上の音量パワー点に対し、閾値ｂ以上である旨のラベル情報ｂのラベル付けを行う。閾値ｂは、発話者Ａが発話していると十分に考えられる程度の音声パワー値を意味する。従って、音声パワー値が閾値ｂより大きい音声パワー点に関しては、後述の分離ラインを用いた推定に関わらずに、無条件に発話者Ａの発話点と推定することが好ましい。閾値ｂは、経験的にあらかじめ定められてテーブル３３に格納されている。

【0059】

これで音声パワーＡに対するラベル情報ａとｂとの付与が完了し、Ｓ３２１ステップとＳ３２２ステップでラベル付けされた音声パワーＡは、ラベル付音声パワーＡとして記憶部２０のラベル付音声パワーデータ３４に格納される。

【0060】

次に、フローはＳ３２３ステップとＳ３２４ステップに順次移行し、音声パワーＢに対して、音声パワーＡに対して上の２ステップで行われたものと同様のラベル情報ａとｂとの付与を行う。ラベル付けされた音声パワーＢは、ラベル付音声パワーＢとして記憶部２０のラベル付音声パワーデータ３４に格納される。なお、Ｓ３２３ステップと続くＳ３２４ステップとは、音声パワーＢに対するラベル情報ａとｂとの付与がすでに完了している場合には飛ばしてよい。これで図７のフローの処理は終了し、続いて図６のＳ３３０ステップに移行する。

【0061】

Ｓ３３０ステップでは、ラベル付音声パワーＡとＢとを用いて、統計的に１次分離ラインを生成し、同じ時間のラベル付音声パワー点ごとに発話者Ａのラベル付音声パワー点なのか発話者Ｂのラベル付音声パワー点なのかを１次推定する。Ｓ３３０ステップにおける処理フローを図８のフローチャートに示した。

【0062】

図８のフローの処理を、図９から図１３を用いて説明する。まず図９は、ラベル付音声パワーＡの各点とラベル付音声パワーＢの各点との関係を二次元で示した概念図である。図９はラベル付音声パワーＡを横軸に、ラベル付音声パワーＢを縦軸にしている。そして、収音時間が同じであるラベル付音声パワーＡの１点とラベル付音声パワーＢの１点とを、二次元の図上に１つの白丸又は黒丸で表している。なお、収音時間が同じとは、厳格に同時間であることを意味せず、フレームの単位時間に比して許容できる程度の誤差を含んでいてもよいことを意味する。

【0063】

図９の黒丸は、ラベル付音声パワーＡの値とラベル付音声パワーＢの値とのいずれもが閾値ａ未満である点を示している。白丸は黒丸以外の点である。したがって、図９は、（白丸数＋黒丸数）×サンプリング単位時間分の時間長さの音声データに対応している。実際の音声データは、数十分から数時間に及ぶ長時間のものであることが多いので、実際の二次元図ははるかに多い点数を含むことになる。

【0064】

図９において、横軸（音声パワーＡ）において閾値ａ未満の丸は、無条件に話者Ａの非発話点として推定する。また、横軸（音声パワーＡ）において閾値ｂ以上の白丸は、十分に音声パワーがあるので、無条件に話者Ａの発話点として推定することが好ましい。分離ラインを用いていずれの発話点なのかを推定すべき対象は、閾値ａと閾値ｂとの間に位置する白丸で示された音声パワー点とすることが好ましい。後述の分離ラインの推定では、これらの白丸を用いる場合で説明する。閾値ｂを越えた白丸については、分離ラインの推定に用いてもよいし、用いなくてもよい。

【0065】

この図９を前提に、図８のフローを説明する。まず、１次分離ライン演算部１３が、ラベル付音声パワーＡだけを用いて発話者Ａの音声パワー点を０次推定する（Ｓ３３１ステップ）。これを図１０を用いて具体的に説明する。

【0066】

図１０は、図９の白丸に対して、ラベル付音声パワーＡの閾値ａと閾値ｂとの間に入る点のみを特定した状態を示している。この特定された点群を点線の楕円で囲み、白丸で示した。このような点群は、ラベル付音声パワーＡのような１つのラベル付音声パワーだけを用いて行う発話区間検知（以下、シングルチャンネルＶＡＤという。）により、ラベル付音声パワーＡに対応する発話者Ａの音声パワー点であると推定できる。これらを０次推定とする。

【0067】

次に、Ｓ３３２ステップに移行し、白丸で示された点群の重心Ａを求める。ここで重心とは点群の幾何中心をいう。重心Ａは図１０に白星形で示した。

【0068】

次に、Ｓ３３３ステップに移行し、Ｓ３３１ステップと同様にして、ラベル付音声パワーＢだけを用いて発話者Ｂの音声パワー点を０次推定する。これを図１１を用いて説明する。

【0069】

図１１は、図９の白丸に対して、ラベル付音声パワーＢの閾値ａと閾値ｂとの間に入る点を特定したものである。この特定された点群を点線の楕円で囲み、黒丸と、黒と白が半分ずつの黒白丸とで示した。このような点群は、ラベル付音声パワーＢだけを用いて行うシングルチャンネルＶＡＤにより、ラベル付音声パワーＢに対応する発話者Ｂの音声パワー点の点群と推定できる。

【0070】

ところで、黒白丸は、図１０においては白丸でも表示されている点である。つまり、図１０では発話者Ａの音声パワー点であると推定されている。そのため、図１１では、わかりやすくするために黒と白とが半分ずつの黒白丸で表示した。一方、図１１でラベル付音声パワーＢの閾値ａと閾値ｂとの間に入らなかった点群は白丸で示している。これらの白丸は発話者Ｂの音声パワー点ではないと推定できる。これらのラベル付音声パワーＢについての推定も０次推定とする。０次推定の結果は、記憶部２０の０次推定結果データ３５として格納される。

【0071】

０次推定は、シングルチャンネルＶＡＤに基づいているので、多くの点で発話者の推定が重複しており、誤差が大きいと考えられる。しかし、最初の推定として意味がある。

【0072】

次に、Ｓ３３４ステップに移行し、黒丸と黒白丸とで構成される点群の重心Ｂを求める。黒丸と黒白丸とで構成される点群は、点線の楕円で囲んで示した。重心Ｂは図１１に黒星形で示した。

【0073】

次に、Ｓ３３５ステップに移行し、重心Ａと重心Ｂとを用いて、１次分離ラインを生成する。これを図１２を用いて説明する。まず重心Ａと重心Ｂを破線で示した直線で結び、この破線の中点において、破線と直行する一点鎖線で示した直線を生成する。この直線が１次分離ラインである。１次分離ラインの生成結果は、記憶部２０の１次分離ラインデータ３６に格納される。このように統計的に分離ラインを定めるので、各発話者の声量の違いや各種の動きによる発話区間推定に及ぼす影響を小さくすることができる。

【0074】

次に、Ｓ３３６ステップに移行する。このステップでは、１次推定部１４が、１次分離ラインを用いて、発話者Ａの音声パワー点と発話者Ｂの音声パワー点との０次推定を修正して１次推定を行う。これを図１３を用いて説明する。図１３では、１次分離ラインより下にある音声パワー点を、発話者Ａの音声パワー点と推定して白丸で表し、１次分離ラインより上にある音声パワー点を、発話者Ｂの音声パワー点と推定して黒丸で表している。逆にいえば、黒丸は発話者Ａの発話点には該当しない非発話点である音声パワー点と推定されている。これが音声パワー点の１次推定である。１次推定結果は、記憶部２０の１次推定結果データ３７に格納される。

【0075】

図１３で矢印で示した２点の白丸と４点の黒丸とは、図１１や図１２では黒白丸として表されており、発話者Ａの音声パワー点とも発話者Ｂの音声パワー点とも推定されていた点である。矢印で示した２点の白丸は、１次推定によって、発話者Ａの音声パワー点に修正された。同様に、矢印で示した４点の黒丸は、１次推定によって、発話者Ｂの音声パワー点に修正された。

【0076】

このような処理を行うのは、個人の声量の違いや位置の移動等があったとしても、２つの音声パワーのデータ全体を組み合わせて統計的に判断すれば、発話者Ａの音声パワー点の集合と、発話者Ｂの音声パワー点の集合とを、一定の分離ラインにより、比較的高い精度で分離できるからである。

【0077】

これで図８のＳ３３６ステップは終了し、図６のＳ３４０ステップに移行する。Ｓ３４０ステップでは、図１３に示した１次推定結果を用いて、２次分離ライン演算部１５が２次分離ラインを生成し、２次推定部１６が発話者Ａの音声パワー点を２次推定する。図１４を用いてＳ３４０ステップのフローを詳しく説明する。

【0078】

図１４のフローがスタートすると、まず、１次推定によって発話者Ａの音声パワー点と推定され、図１３の白丸で示された、音声パワー点の集合の重心Ａを求める（Ｓ３４１ステップ）。次に、１次推定によって発話者Ｂの音声パワー点と推定され、図１３の黒丸で示された、音声パワー点の集合の重心Ｂを求める（Ｓ３４２ステップ）。次に、重心Ａと重心Ｂとを用いて、１次分離ラインを生成したのと同様にして２次分離ラインを生成する（Ｓ３４３ステップ）。この段階の状態を図１５に示す。図１５は、図１３における１次推定結果を用いて、２次分離ラインが生成された状態を示した概念図である。２次分離ラインの生成結果は、記憶部２０の２次分離ラインデータ３８に格納される。このように２次分離ラインを求めるのは、１次分離ラインが誤差の多い０次推定に基づいているからである。

【0079】

次に、Ｓ３４４ステップに移行し、２次分離ラインを用いて、各音声パワー点に対応する発話者を２次推定する。図１５では、矢印で示した１つの白丸が、２次分離ラインの上にきている。この白丸は、図１３では１次分離ラインの下にあったので、発話者Ａの音声パワー点であると１次推定されていた。しかし、図１５では、２次分離ラインの上に来たので、発話者Ｂの音声パワー点に修正して２次推定された。

【0080】

２次推定結果を図１６に示した。図１６で矢印をつけた黒丸は、図１５では白丸であったが、黒丸に修正された。この結果に基づき、図１６に示された黒丸は、発話者Ｂの発話に起因し、発話者Ａの発話に起因しない音声パワー点であると推定できる。すなわち、発話者Ａの非発話区間に起因する音声パワー点であると２次推定できる。

【0081】

このように、２次分離ラインを生成することで、各音声パワー点に対応する発話者の発話区間や非発話区間を推定する精度がより高くなる。２次推定結果は、記憶部２０の２次推定結果データ３９に格納される。

【0082】

１次分離ラインと２次分離ラインとは、ラインを引くベースとなるデータが逐次的に変化する。そのため、必要により、３次、４次と、音声パワー点の推定と分離ラインの生成とを同様に繰り返すことにより、逐次的に分離ラインの精度をさらに高めることができる。

【0083】

次に、フローは図６のＳ３５０ステップに移行する。Ｓ３５０ステップでは、２次推定結果を用いて、発話者Ａの発話に起因しない、図１６の黒丸で示された、音声パワー点を特定する。そして、特定された各音声パワー点に非発話点である旨のラベル情報ｃをラベル付けする。これにより、発話者Ａが装着した接話マイクロフォンが収音した音声データから、その音声データに混入した発話者Ｂの発話区間を精度よく除外することができる。ラベル付けされた音声パワーＡは、記憶部２０のラベル付音声パワーデータ３４に、ラベル情報を追加して格納される。これで発話者ＡとＢとの対による推定以前にいずれかの１又は複数の音声パワー点に付与されていたラベル情報はそのまま保持される。さらに、それまではラベル情報ｃが付与されていなかった１又は複数の音声パワー点に対し、発話者ＡとＢとの対における推定により新たに各１のラベル情報ｃが付与された場合に、その新たな１又は複数のラベル情報ｃが追加された音声パワーＡが記憶部２０に格納される。

【0084】

次に、フローは図６のＳ３６０ステップに移行し、発話者Ａ以外の残りの全部の発話者に対し、発話者Ｂとして選択したか否かを判断する。選択していない発話者が残っていれば、フローはＳ３６０ステップから左に分岐してＳ３１０ステップに戻り、未だ選択していない発話者を発話者Ｂとして選択し、発話者Ａに対応するラベル付音声パワーＡと、新たな発話者Ｂに対応する音声パワーＢとが、新たな対を構成して処理フローを繰り返す。

【0085】

発話者Ａ以外の残りの発話者の全部を発話者Ｂとして選択済みであれば、フローはＳ３６０ステップから下に分岐して、Ｓ３７０ステップに移行する。

【0086】

このように、発話者Ａに対応する音声パワーＡ以外の音声パワーの全部を、発話者Ｂに対応する音声パワーＢとして順次用いることにより、音声パワーＡの音声パワー点のうち、発話者Ａの発話に起因していない多くの音声パワー点に対し、非発話点として除外する旨のラベル情報ｃを付すことが可能になる。すなわち、発話者Ａの発話に起因しておらず、残りの全部の発話者のいずれかに起因すると推定された音声パワー点の全部に対して、非発話点として除外する旨のラベル情報ｃを付与することが可能になる。

【0087】

逆に言えば、ラベル情報ｃが付与されていない音声パワー点は、音声パワーＡとＢとの全部の対において、発話者Ａの発話に起因すると推定できる音声パワー点であることになる。このようにラベル付けされた音声パワーＡは、記憶部２０の加工音声パワーデータ３４に、上述したようにラベル情報ｃを追加して格納される。

【0088】

次に、図６のＳ３７０ステップでは、下限除外部１７が、音声パワーＡの元となった音声データＡを記憶部２０の音声データ２０から読み出す。次に、音声パワーＡの音声パワー点のうち、Ｌｏｃａｌ−ＳＮＲで表した値が閾値ａ未満の点を特定する。これらの点群は、発話者Ａの発話区間ではない。そこで、これらの点群の各点に対応する音声データＡの各区間に対し、非発話点である旨をマーキングする。また、音声パワーＡの音声パワー点のうち、Ｌｏｃａｌ−ＳＮＲで表した値が閾値ｂ以上の点をラベル情報ｂにより特定する。これらの点群は、十分な音声パワー値を持っているので、分離ラインに関わらずに発話者Ａの発話点と推定してもよい。その場合、ラベル情報ｂが付与された音声パワー点に、ラベル情報ｃが合わせて付与されていたとしても、そのラベル情報c は消去又は無効化する。

【0089】

続くＳ３８０ステップでは、追加除外部１８が、他の発話者の発話点であって発話者Ａの非発話点である旨のラベル情報ｃが付与される音声パワーＡの各点について、非発話点である旨をマーキングする。

【0090】

Ｓ３７０ステップとＳ３８０ステップとで話者Ａの非発話点がマーキングされたラベル付き音声データＡが得られた。非発話点とマーキングされていない点は発話点とみなされる。ここまでの処理で、点ごとの発話・非発話が判定された。これで、図６のフローチャートの処理を終了する。これにより図４のＳ３００ステップも終了する。

【0091】

図６のフローチャートまでの処理で、点ごとの発話・非発話が判定されたが、一般にＶＡＤでは点ごと（すなわちフレームごと）の判定を整理して、最終的な発話区間にまとめ直すことが行われる。時間方向で観察したときにあまりにも短い発話区間や非発話区間にならないようにするためである。この手法については本発明に固有のものではないので詳しくは述べない。この最終的な調整の結果得られた発話区間だけを残した音声データＡを作成し、記憶部２０のＶＡＤ音声データ４０に格納する。このＶＡＤ音声データ４０に格納された各音声データを用いて音声認識を行うことにより、精度高い音声認識が可能になる。

【0092】

このように、発話区間推定装置３は、各発話者の非発話区間を精度よく除外することができる。逆に言えば、各発話者の発話区間を精度よくもとめることができる。ある音声パワーに対して複数の音声パワーを組み合わせて複数の対を構成し、この対ごとに統計的に発話区間推定を繰り返すマルチチャンネルによる発話区間推定、マルチチャンネルＶＡＤ、を統計的に行うことにより、多人数のグループワーク等でも精度良い発話区間検知が可能になる。その結果、精度良い音声認識が可能になる。

【0093】

以上、本発明の実施の形態を説明してきたが、上記で説明したハードウェアや処理フローは各種の変形が可能である。

【0094】

上記では、音声パワー値をＬｏｃａｌ−ＳＮＲに換算してから用いる方法で説明したが、Ｌｏｃａｌ−ＳＮＲに換算しない音声パワー値を用いて各種の処理を行うこともできる。その場合、閾値 aと閾値 b の設定値は、背景雑音の音声パワー値を含んだ値とすべきである。ところが、背景雑音の音声パワー値は各マイクロフォンの音声パワーに共通のものではない。そのため、使用環境を想定した固定値を閾値 aと閾値 b の設定値として使用せざるを得ない。そのため、音声パワー値をＬｏｃａｌ−ＳＮＲに換算してから用いる方法と比較して、閾値 aと閾値 bの設定の精度は低下し、発話区間推定の精度も低下する。

【0095】

また、上記では、閾値ｂを用いる場合で説明したが、閾値ｂを用いないようにしてもよい。この場合、閾値b 以上の音声パワー値を持つ入力についても、中間領域における分離ラインを用いた判定方法を同様に適用すればよい。

【0096】

また、上記では、音量パワー点の集合の重心を求めることで分離ラインを生成する例で説明した。重心による方法は、わかりやすくてデータ処理量も比較的小さく好ましい。しかし、他の方法で分離ラインを生成するようにしてもよい。

【0097】

例えば、図１７は、正規分布を用いて分離ラインを生成した例を示した図である。図１７では、まず１次推定で発話者Ａの発話点と推定された音声パワー点の集合に対して多次元正規分布Ａを求める。続いて、１次推定で発話者Ｂの発話点と推定された音声パワー点の集合に対して多次元正規分布Ｂを求める。そして、これら２つの多次元正規分布について、同じ尤度となる直線を２次分離ラインとしている。

【0098】

また、図１８は、教師あり学習を用いるパターン認識モデルの一つであるサポートベクターマシンを用いて、２次分離ラインを生成した例を示した図である。この方法では、ラインに近接した点群（＝サポートベクター）からラインまでの距離（＝マージン）を最大化するようにラインを生成する。

【0099】

また、上記では、発話区間推定に用いる音声データとして、音声認識すべき音声データをそのまま使用して、シングルチャンネルＶＡＤにより０次推定して１次分離ラインを生成する例で説明した。しかし、これ以外の方法で分離ラインを生成するようにしてもよい。

【0100】

例えば、別途用意した音声データを用いて１次分離ラインをあらかじめ生成しておき、０次推定を省略してもよい。別途用意する音声データとしては、グループワーク等が始まる前に、発話者各人に自己紹介等のようにして、一人ずつ少なくとも数秒から数十秒の発話をさせた個別データが用い得る。このような個別データでは、録音時間が短く音声パワー点の数が、音声認識の対象とする音声データより比較的少なくなってしまい、統計的処理の精度は下がる。しかし、各音声パワー点の発話者が最初から特定されているので、１次分離ラインを精度よく求めることが可能になる。また、グループワーク開始前または開始後の雑談時の発話を適切な時間の間、録音し、個別データとして用いてもよい。

【0101】

また、二次元図の２本の閾値ａのラインの交点と２本の閾値ｂのラインの交点とを通る４５度の直線を引き、これを１次分離ラインとしてもよい。この４５度の分離ラインは、発話者Ａと発話者Ｂとにおける声量や移動などの様々な違いや変化を無視した場合の分離ラインに相当する。

【0102】

また、上記ではバッチ処理の場合で説明したが、図２のハードウェアを用いてオンライン処理により発話区間検知と音声認識とを行うことも可能である。この場合は、上述のように、別途用意した個別データ等を用いるか、または４５度の１次分離ラインを用意するなどして、あらかじめ１次分離ラインを生成しておけばよい。そして、オンライン処理中には、同時に２次推定用の音声データを蓄積し続け、ある程度の分量が溜まったら、２次分離ラインを生成するようにすればよい。２次分離ラインは、１度生成して終わりではなく、オンライン処理中に蓄積したデータ量が増えるに伴って繰り返して更新することが望ましい。さらに、処理フローも随時生成する音声データを逐次的に処理できるように、適宜変更しておけばよい。

【0103】

また、上記では、２次推定までにとどめた例で説明したが、３次、４次と高次まで推定するようにしてもよい。高次になるほど推定精度は高くなるが、精度が高くなる割合は高次ほど小さくなるので、処理すべきデータ量を勘案しながらどこまで推定するかを定めればよい。

【0104】

また、上記では、図６のＳ３２０で、選択した音声パワー対ごとにラベル付けを行うようにして説明したが、全部の音声パワーについてラベル情報ａとｂとの付与を一括して行い、しかるのち対を選択するようにしてもよい。
［実験例］

【0105】

１チームが３〜４名の中学生からなるチームを６〜７チーム用い、東京大学ＣｏＲＦＦが提唱するジグソー法を用いたグループワークを行った。中学生は図１に説明したハードウェア構成通りに、各々がヘッドセットマイクロフォンとＩＣレコーダとを装着し、発話をデジタル録音した。グループワークは、数学、理科、国語の３教科について２回ずつ計６回を異なるテーマで行った。その後、録音された各音声データを用い、以下の３通りの方法で音声認識した。

【0106】

（比較例１）発話区間推定を行わず、各音声データをそのまま使って音声認識した。

【0107】

（比較例２）各音声データにおいて、閾値を用いたシングルチャンネルＶＡＤだけを行って発話区間推定してから音声認識した。

【0108】

（実施例１）上記で説明したバッチ処理による２次推定までのフローを用い、Ｌｏｃａｌ−ＳＮＲ、閾値ａ、閾値ｂ及び分離ラインを用いたマルチチャンネルＶＡＤにより発話区間推定を行ってから音声認識した。

【0109】

これら３通りの音声認識により出力された各テキストを、人間が作成した正解のテキストと文字単位で比較して、以下の３通りの誤りタイプを各々計数した。

【0110】

１．挿入誤り：正解テキストより余分に文字が出現するタイプの誤り
２．削除誤り：正解テキストの一部の文字が脱落するタイプの誤り
３．置換誤り：正解テキストの一部の文字が別の文字に入れ替わっているタイプの誤り

【0111】

総合評価は、各回ごとに３教科の誤り計数結果を合算して行い、以下の式に従って、各回の文字誤り率を求めた。

【0112】

文字誤り率＝（挿入誤り個数＋削除誤り個数＋置換誤り個数）／（正解テキストの文字数）×１００

【0113】

各回の文字誤り率の計数結果を、図１９の棒グラフで示す。白棒は比較例１を、網掛け棒は比較例２を、黒棒は実施例１を表す。１回目、２回目のいずれでも、文字誤り率による総合評価では、実施例１の文字誤り率が比較例に比して顕著に下がっていることがわかる。

【0114】

次に、誤りタイプごとの結果を示す。まず図２０は、各回の挿入誤り率の計数結果を示した図である。実施例１では挿入誤り率が著しく下がっていることがわかる。これが実施例１の総合評価が良い大きな理由になっている。挿入誤り率が大きく下がるのは、各発話者の非発話区間を、対応する各音声データから除外するように繰り返し処理した結果、音声データに混入した他の発話者の発話に起因する挿入誤りが減少したからと考えられる。

【0115】

図２１は、各回の削除誤り率の計数結果を示した図である。削除誤り率では、逆に実施例１の方が他の処理より誤り率が高くなっているが、その程度は比較的小さいことがわかる。これは、ＶＡＤにより非発話区間と推定された区間を除外しすぎているためと考えられるが、それによる誤りの個数増加は比較的小さいことがわかる

【0116】

図２２は、各回の置換誤り率の計数結果を示した図である。置換誤り率では、実施例１が比較例より良い結果であることがわかる。

【産業上の利用可能性】

【0117】

複数人により行われるグループワークや会議等の音声認識に利用できる。

【要約】

【課題】３人以上の発話者によるグループワーク等において、発話者が接話マイクを装着する前提で、各発話者の発話区間を精度よく推定できる装置を提供する。
【解決手段】３以上のマイクからの音声データを、時間情報とマイク識別情報とを格納する記憶部と、処理部を備えた発話区間推定装置であり、処理部は、音声データの各々から単位時間の音声パワー点の値を演算して音声パワーを求める演算部と、値が閾値ａ未満である点にラベルａを付する加工演算部と、音声パワーの１と音声パワーの他の１の対における分離ラインを演算する演算部と、分離ラインを用い、対応する発話者の非発話点かを点ごとに推定し、非発話点と推定された点にラベルｃを付与する推定部と、ラベル情報ａとｃとが付与された点に対応する音声データの区間を、対応する発話者の非発話区間として除外する除外部とを備える。
【選択図】図１５

【図1】