(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】発話者判別方法、発話者判別プログラム、及び、発話者判別装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20231205BHJP
A61B 5/11 20060101ALI20231205BHJP
G10L 17/00 20130101ALN20231205BHJP
【FI】
G06T7/00 P
A61B5/11 320
G10L17/00 400
(21)【出願番号】P 2020000673
(22)【出願日】2020-01-07
【審査請求日】2022-12-23
【新規性喪失の例外の表示】特許法第30条第2項適用 1.集会において発表 集会名:第62回自動制御連合講演会 開催日:令和1年11月9日 2.刊行物に発表 発行者名:一般社団法人日本機械学会 刊行物名:第62回自動制御連合講演会講演論文集1J4-04 発行年月日:令和1年11月8日
(73)【特許権者】
【識別番号】504409543
【氏名又は名称】国立大学法人秋田大学
(73)【特許権者】
【識別番号】506429042
【氏名又は名称】日本ビジネスシステムズ株式会社
(74)【代理人】
【識別番号】100129838
【氏名又は名称】山本 典輝
(72)【発明者】
【氏名】景山 陽一
(72)【発明者】
【氏名】中村 悦郎
(72)【発明者】
【氏名】白須 礎成
【審査官】小太刀 慶明
(56)【参考文献】
【文献】特開2011-186351(JP,A)
【文献】特開2000-338987(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
A61B 5/11
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
映像及び音声データから発話者を判別する方法であって、
取得した前記映像から対象者の上唇と下唇との距離に基づいて第一の口唇挙動特徴量を時系列に複数得る過程と、
取得した前記音声データに基づいて音声特徴量を時系列に複数得る過程と、
発話者を判別する過程と、を有し、
前記発話者を判別する過程では、
複数の前記音声特徴量から第二の口唇挙動特徴量を時系列に複数得る過程と、
前記第一の口唇挙動特徴量と、前記第二の口唇挙動特徴量と、の差である判別差分を得る過程と、
前記映像に含まれる前記対象者のうち前記判別差分が最も小さい対象者を発話者とする過程と、を備える、発話者判別方法。
【請求項2】
前記第一の口唇挙動特徴量は、前記上唇と下唇との距離と、前記対象者の鼻梁上の2点間の距離と、の割合により得られる請求項1に記載の発話者判別方法。
【請求項3】
前記発話者を判別する過程では、
始点となる時間が異なり所定の時間範囲を有する複数の区間を作成する過程と、
複数の前記区間のそれぞれについて、前記第一の口唇挙動特徴量と前記第二の口唇挙動特徴量との区間差分を求め、各前記区間の前記区間差分の平均を前記判別差分とする、請求項1又は2に記載の発話者判別方法。
【請求項4】
前記複数の区間において、隣り合う前記区間では、その時間の一部が重複するように前記始点となる時間が決められる請求項3に記載の発話者判別方法。
【請求項5】
複数の前記第一の口唇挙動特徴量及び複数の前記音声特徴量は0.0以上1.0以下の範囲で正規化されて表される、請求項1乃至4のいずれかに記載の発話者判別方法。
【請求項6】
映像及び音声データから発話者を判別するプログラムであって、
取得した前記映像から対象者の上唇と下唇との距離に基づいて第一の口唇挙動特徴量を時系列に複数得るステップと、
取得した前記音声データに基づいて音声特徴量を時系列に複数得るステップと、
発話者を判別するステップと、を有し、
前記発話者を判別するステップでは、
複数の前記音声特徴量から第二の口唇挙動特徴量を時系列に複数得るステップと、
前記第一の口唇挙動特徴量と、前記第二の口唇挙動特徴量と、の差である判別差分を得るステップと、
前記映像に含まれる前記対象者のうち前記判別差分が最も小さい対象者を発話者とするステップと、を含む、発話者判別プログラム。
【請求項7】
前記第一の口唇挙動特徴量は、前記上唇と下唇との距離と、前記対象者の鼻梁上の2点間の距離と、の割合により得る請求項6に記載の発話者判別プログラム。
【請求項8】
前記発話者を判別するステップでは、
始点となる時間が異なり予め決められた時間範囲を有する複数の区間を作成するステップと、
複数の前記区間のそれぞれについて、前記第一の口唇挙動特徴量と前記第二の口唇挙動特徴量との区間差分を求め、各前記区間の前記区間差分の平均を求めてこれを前記判別差分とする、請求項6又は7に記載の発話者判別プログラム。
【請求項9】
前記複数の区間において、隣り合う前記区間では、その時間の一部が重複するように前記始点となる時間を決める請求項8に記載の発話者判別プログラム。
【請求項10】
複数の前記第一の口唇挙動特徴量及び複数の前記音声特徴量を0.0以上1.0以下の範囲で正規化する、請求項6乃至9のいずれかに記載の発話者判別プログラム。
【請求項11】
映像及び音声データから発話者を判別する装置であって、
前記映像を取得するカメラと、
前記音声データを取得するマイクと、
請求項6乃至10のいずれかに記載の発話者判別プログラムが記憶された記憶手段、及び、前記発話者判別プログラムに基づいて演算を行う演算手段と、を有し、
前記演算手段は、前記カメラで取得した映像、及び、前記マイクで取得した音声データを取得し、取得した前記映像及び前記音声データを用いて前記発話者判別プログラムによる演算が行われる、発話者判別装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像及び音声情報に基づいた発話者の判別に関する。
【背景技術】
【0002】
近年、働き方改革の実現に向けて業務の効率化や労働環境の見直しが行われている。その中の1つとして職場おける労働の改善策として業務の効率化や会議の効率化が挙げられる。
会議における議事録は、議論された内容や取り決めを記録し、決定事項および経緯の共有を目的に行われ、作成される議事録は、その後の会議の質の向上や他の業務の効率化に寄与する。そして、音声認識の技術を応用して構築された議事録自動作成システムによれば、議事録作成におけるヒューマンエラーの低減や議事録作成に要する人員や時間を削減することが可能である。さらにこのような議事録自動作成システムにおいて発言ごとに発話者を自動判別する技術や音声認識精度を向上させる技術は、議事録作成の工数削減に貢献し、会議および業務の効率化に寄与する。
【0003】
特許文献1には、発言中の参加者の口唇部分の視認性を向上させることが可能なウェブ会議システムが開示され、音声および口唇の動きを用いて発話者を特定している。具体的には発言者のいるクライアント端末の特定を行うために音声情報を使用し、特定した端末内において最も口唇が動いている人物を発話者として判別する。しかしながらこの技術では、同じ端末内に存在する人物の口唇が同時に動いている場合、発話者の判別が困難になる。
【0004】
特許文献2は、複数の参加者による多人数会話において、次の発話者および次の発話者が発話するタイミングの少なくとも一方を推定可能な発話者推定システムを開示している。しかしながら、この文献には次の発話者を判別するために口唇の動きを用いることが記載されているが、現在の話者を判別するための技術に関して記載はない。
【0005】
特許文献3は、多数のマイクなどを備えた特別な装置を必要とすることなく、会議の議事録を作成することができる端末装置を開示している。しかしながら、この技術では、端末ごとに使用者の音声情報を事前に登録する必要があるため、使用するには事前の準備が必要である。
【0006】
特許文献4は会議参加者の発話状態を認識するシステムを開示している。この技術では、魚眼レンズを用いて取得した画像に対して会議の各参加者の唇近傍領域を設定するとともに、唇近傍領域内の輝度もしくは色を示す特徴量を用いて発話状態を推定している。しかしながらこの技術は口唇の動きのみに着目した手法であるため、会議参加者の口唇領域が同時に動いていた場合には発話者の判別が困難になる。
【0007】
特許文献5は、会議出席者の顔の上方(頭上)に画像表示するビデオ会議用カメラマイク装置を開示している。しかしながら、この技術は音声の到来方向を用いて発話者を識別しているため、人物間の距離が近い場合に判別が困難になる。
【0008】
特許文献6は、発音者毎の固有の設定を加味しつつ感情のこもった音声を合成することを可能にする技術を開示している。ここには、発話者の発話音声からフレーム毎に抽出した音声特徴データを使用し、対応するフレームの顔特徴点を生成するためのネットワークを構築する処理が実装されることが記載されている。しかしながら、その特徴量には限界があり、精度を高める必要がある。
【先行技術文献】
【特許文献】
【0009】
【文献】特開2019-117997号公報
【文献】特開2018-077791号公報
【文献】特開2016-029468号公報
【文献】特開2015-019162号公報
【文献】特開2012-147420号公報
【文献】特許6582157号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、かかる点に鑑み、簡易な設備であるとともに、複数の対象者から発話者を精度よく判別することができる発話者判別方法を提供することを課題とする。またそのためのプログラム、及び装置を提供する。
【課題を解決するための手段】
【0011】
本発明の1つの態様は、映像及び音声データから発話者を判別する方法であって、取得した映像から対象者の上唇と下唇との距離に基づいて第一の口唇挙動特徴量を時系列に複数得る過程と、取得した音声データに基づいて音声特徴量を時系列に複数得る過程と、発話者を判別する過程と、を有し、発話者を判別する過程では、複数の音声特徴量から第二の口唇挙動特徴量を時系列に複数得る過程と、第一の口唇挙動特徴量と、第二の口唇挙動特徴量と、の差である判別差分を得る過程と、映像に含まれる対象者のうち判別差分が最も小さい対象者を発話者とする過程と、を備える、発話者判別方法である。
【0012】
第一の口唇挙動特徴量は、上唇と下唇との距離と、対象者の鼻梁上の2点間の距離と、の割合により得られるようにしてもよい。
【0013】
発話者を判別する過程では、始点となる時間が異なり所定の時間範囲を有する複数の区間を作成する過程と、複数の区間のそれぞれについて、第一の口唇挙動特徴量と第二の口唇挙動特徴量との区間差分を求め、各区間の区間差分の平均を判別差分とするようにしてもよい。
【0014】
複数の区間において、隣り合う区間では、その時間の一部が重複するように始点となる時間が決められてもよい。
【0015】
複数の第一の口唇挙動特徴量及び複数の音声特徴量は0.0以上1.0以下の範囲で正規化されて表されてもよい。
【0016】
本発明の他の態様は、映像及び音声データから発話者を判別するプログラムであって、取得した映像から対象者の上唇と下唇との距離に基づいて第一の口唇挙動特徴量を時系列に複数得るステップと、取得した音声データに基づいて音声特徴量を時系列に複数得るステップと、発話者を判別するステップと、を有し、発話者を判別するステップでは、複数の音声特徴量から第二の口唇挙動特徴量を時系列に複数得るステップと、第一の口唇挙動特徴量と、第二の口唇挙動特徴量と、の差である判別差分を得るステップと、映像に含まれる対象者のうち判別差分が最も小さい対象者を発話者とするステップと、を含む、発話者判別プログラムである。
【0017】
上記発話者判別プログラムにおいて、第一の口唇挙動特徴量は、上唇と下唇との距離と、対象者の鼻梁上の2点間の距離と、の割合により得てもよい。
【0018】
上記発話者判別プログラムにおいて、発話者を判別するステップでは、始点となる時間が異なり予め決められた時間範囲を有する複数の区間を作成するステップと、複数の区間のそれぞれについて、第一の口唇挙動特徴量と第二の口唇挙動特徴量との区間差分を求め、各区間の区間差分の平均を求めてこれを判別差分とするように構成してもよい。
【0019】
上記発話者判別プログラムの複数の区間において、隣り合う区間では、その時間の一部が重複するように始点となる時間を決めてもよい。
【0020】
上記発話者判別プログラムにおいて、複数の第一の口唇挙動特徴量及び複数の音声特徴量を0.0以上1.0以下の範囲で正規化してもよい。
【0021】
また、映像及び音声データから発話者を判別する装置であって、映像を取得するカメラと、音声データを取得するマイクと、上記発話者判別プログラムが記憶された記憶手段、及び、発話者判別プログラムに基づいて演算を行う演算手段と、を有し、演算手段は、カメラで取得した映像、及び、マイクで取得した音声データを取得し、取得した映像及び音声データを用いて発話者判別プログラムによる演算が行われる、発話者判別装置を提供する。
【発明の効果】
【0022】
本発明によれば、簡易な設備であるとともに、複数の対象者から発話者を精度よく判別することができる。
【図面の簡単な説明】
【0023】
【
図1】
図1は、発話者判別方法S1の流れを示す図である。
【
図2】
図2(a)は映像の一部を模式的に例示した図、
図2(b)は音声データの一部を例示した図である。
【
図3】
図3は、第一の口唇挙動特徴量を算出する過程S20の流れを示す図である。
【
図6】
図6は、口唇の縦方向特徴量の変化を説明する図である。
【
図8】
図8は、第一の口唇挙動特徴量を説明する図である。
【
図9】
図9(a)、
図9(b)は音声データを説明する図である。
【
図10】
図10は、音声データからMFCCを求めたことを説明する図である。
【
図11】
図11は、発話者判別過程S40の流れを説明する図である。
【
図12】
図12は、発話者判別過程S40を説明する図である。
【
図13】
図13は、発話者判別装置の構成を説明する図である。
【発明を実施するための形態】
【0024】
{発話者判別方法}
図1は、1つの形態にかかる発話者判別方法S1の流れを示す図である。
図1からわかるように本形態の発話者判別方法S1は、映像・音声データ取得過程S10、第一の口唇挙動特徴量算出過程S20、音声特徴量算出過程S30、及び、発話者判別過程S40を含んでいる。以下、各過程について説明する。
【0025】
[映像・音声データ取得過程S10]
映像・音声データ取得過程S10では、判別対象者の映像及び音声のデータを取得する。映像の取得はいわゆるカメラ、音声データの取得はマイクにより行うことができるが、本形態によれば、複数の判別対象者の映像を同時の撮影できるカメラ(例えば全方位カメラ、広角カメラ)及び、判別対象者の音声を取得できるマイクを用いて発話者を判別することができる。すなわち、判別対象者全員の情報を取得することができれば1つのビデオカメラ、1つのマイクであってもよい。複数台のビデオカメラやマイクを用いてもよいが、判別対象者の映像及び音声データを取得することができる限り、最小限に抑えることができる。
また、カメラとマイクとは別機器であっても一体であってもよい。従って、カメラに備わっているマイクを利用することもできる。
【0026】
この映像・音声データ取得過程S10により、例えば
図2(a)に模式的に示したように判別対象者の顔部分の映像を取得することができる。また
図2(b)に模式的に示したように、横軸を時間とした波形として音声データ取得することができる。
【0027】
[第一の口唇挙動特徴量算出過程S20]
第一の口唇挙動特徴量算出過程S20では、映像・音声データ取得過程S10で取得した映像に基づいて、口唇の挙動を表す特徴量(第一の口唇挙動特徴量)を算出する。
図3に、第一の口唇挙動特徴量算出過程S20の流れを示した。
図3からわかるように、第一の口唇挙動特徴量算出過程S20は、特徴点の配置過程S21、口唇の縦方向特徴量の計算過程S22、鼻の特徴量の計算過程S23、及び、第一の口唇挙動特徴量の計算過程S24を有している。以下、各過程について説明する。
【0028】
<特徴点の配置過程S21>
特徴点の配置過程S21では、映像・音声データ取得過程S10で取得した映像に対して、判別対象者の顔部分に特徴点を配置する。
図4に例を示した。
図4の例では、
図2(a)に示した映像の顔部分に「●」で示した特徴点Aが配置されている(見易さのため、符号Aは一部の特徴点のみに付し、他は省略した。)。本形態では顔の下半分の輪郭(頬から顎)、眉毛、目、鼻(鼻梁、下端部)、及び口唇(上下の唇)に対してそれぞれの輪郭に沿うように複数の特徴点Aが配置されている。
特徴点の配置方法については特に限定されることはないが、隣接する画素の輝度差を利用し、所定の閾値以上の輝度差を有する位置を各部の輪郭と判断することができる。その他、市販や公開されているソフトウエアを用いてもよく、これには例えばDlibが挙げられる。
【0029】
本形態では特徴点として後述するように唇の縦方向の位置、及び、鼻根と鼻尖との距離を時系列に把握するため、特徴点Aは少なくともこれらの把握に必要な位置及び数で配置されていればよい。従って本形態では、少なくとも口唇部及び鼻部に特徴点Aが配置されている。
ただし、その他の理由によりこれ以外に特徴点Aが配置されてもよい。例えば、顔の輪郭に沿った特徴点Aを用いて判別対象者の顔の位置や大きさを得たり、顔以外の情報を削除する処理を行ったりしてもよい。
【0030】
なお、このような特徴点Aの配置は映像における画像ごとに行われる。すなわち、映像を構成するための時系列的に連続する複数の画像のそれぞれについて特徴点Aが配置される。
図4はある1つの画像について説明した例である。
【0031】
<口唇の縦方向特徴量の計算過程S22>
口唇の縦方向特徴量の計算過程S22では、口唇部の縦方向の特徴量を計算する。
図5には
図4のうち口唇部分に注目して拡大した図を表した。
ここで「口唇の縦方向特徴量」とは、口唇部分のうち上唇と下唇とが並ぶ方向における特徴量を表し、具体例としては上唇に属する特徴点A
1と下唇に属する特徴点A
2との当該方向の距離が挙げられる。特徴点A
1、特徴点A
2の選択は特に限定されることはなく、口唇の縦方向特徴量が判別対象者の口述によって時系列的に変化することが把握できればよい。
図5に示した例では、顔の正中線に最も近い特徴点Aのうち、両者が最も離隔した位置にある特徴点を選択した。これにより、口唇の縦方向特徴量の時系列的な変化が明確になりやすくなる。
【0032】
従って、本過程では、上唇と下唇とが並ぶ方向の特徴点A1と特徴点A2との距離Bを求める。この距離Bは座標、長さ、画素数等、どのような単位で表現してもよい。本形態では画素数により距離を表現している。本形態ではこの距離Bが「口唇の縦方向特徴量」となる。
【0033】
このような口唇の縦方向特徴量は、時系列で連続する複数の画像(フレーム)のそれぞれについて算出される。これにより例えば
図6に示したように時間の経過(フレーム番号)に伴う時系列的な口唇の縦方向特徴量の変化を得ることができる。
【0034】
<鼻の特徴量の計算過程S23>
鼻の特徴量の計算過程S23では、鼻部の縦方向の特徴量を計算する。
図7には
図4のうち鼻部に注目して拡大した図を表した。
ここで「鼻の特徴量」とは、鼻部のうち、鼻梁に沿った方向における特徴量を表し、具体例としては、鼻梁に沿って配列された2つの特徴点(A
3、A
4)間の距離が挙げられる。2つの特徴点A
3、特徴点A
4の選択は特に限定されることはないが、
図7に示した例では、一方を鼻根に最も近い特徴点A
3とし、他方を鼻尖に最も近い特徴点A
4とした。これにより両者が離隔しているため鼻の特徴量の時系列的な変化が明確になりやすくなる。
【0035】
従って、本過程では、上唇と下唇とが並ぶ方向における鼻の特徴点A
3と特徴点A
4との距離Cを求める。この距離Cは座標、長さ、画素数等、どのような単位で表現してもよいが、上記した口唇に関する距離Bと同じ単位とする。従って本形態では画素数により距離を表現している。
本形態ではこの距離Cが「鼻の特徴量」となる。
このような鼻の特徴量は、時系列で連続する複数の画像(フレーム)のそれぞれについて算出される。これにより図示はしないが、上記した
図6と同様にして時間の経過(フレーム番号)による鼻の特徴量の変化を得ることができる。
【0036】
<第一の口唇挙動特徴量の計算過程S24>
第一の口唇挙動特徴量の計算過程S24では、口唇の縦方向特徴量の計算過程S22で求めた口唇の縦方向特徴量、及び、鼻の特徴量の計算過程S23で求めた鼻の特徴量から、第一の口唇挙動特徴量を計算する。具体的には、次の式により求めることができる。
第一の口唇挙動特徴量=口唇の縦方向特徴量/鼻の特徴量
例示したB、Cによる場合には第一の口唇挙動特徴量は次の式により求められる。
第一の口唇挙動特徴量=B/C
【0037】
この第一の口唇挙動特徴量は、鼻の特徴量に対する口唇の縦方向特徴量の割合をあらわす無次元量であり、これにより判別対象者と撮影手段との距離の影響を低減することができる。
【0038】
従って、必ずしも鼻の特徴量を考慮しなくてもよく、第一の口唇挙動特徴量を口唇の縦方向特徴量としてもよい。本形態で鼻の特徴量を用いたのは次の理由による。
映像の取得中にカメラと判別対象者との距離に変化が生じた場合、口唇の縦幅の距離が変化するため、同じ口唇の動きであっても口唇の縦方向特徴量が変わってしまう。これに対して、口唇の動きに対して変化が少ない鼻特徴量との割合をとり、これを指標とすることで、カメラと判別対象者との距離の変化の影響を軽減することができる。
従って、必ずしも鼻特徴量である必要はなく、次の2つの条件を満たすような特徴量を抽出し、これと口唇の縦方向特徴量との割合をとって第一の口唇挙動特徴量としてもよい。
第一の条件は、発話動作および表情の変化に対して変動しにくい特徴点間距離であることである。この点、鼻特徴量に用いた鼻根と鼻尖との距離は、発話動作や表情の変化に対して影響を受けにくい部位であり、動きの少ない特徴点間距離である。
第二の条件は、上下方向および左右方向に顔の角度変化が生じた場合、口唇縦幅の動きと類似した変動が見られる特徴点間距離であることである。顔がカメラに対して正面を向いている場合、「カメラと判別対象者との距離」に対する「特徴点間の距離」は、どの特徴点のペアを用いてもその割合は一定である。しかしながら、顔の角度が変化した場合にはこの割合に変化を生じる。例えば、カメラと判別対象者との距離が変動していない場合であっても、判別対象者が横を向くことで、顔の横幅(顔の左端と右端の特徴点を結ぶ直線の長さ)は変動する。これに対して本形態のような口唇の縦方向特徴量と鼻特徴量とは、概ね平行な関係にあり、かつ顔の中央に存在している。そのため、顔の角度変化が生じた場合における、特徴点間距離の変化の傾向が類似していることから、鼻特徴量を用いることで、顔の角度変化に影響を軽減することができる。
【0039】
本形態では第一の口唇挙動特徴量は、同じ時間の画像(フレーム)における口唇の縦方向特徴量及び鼻の特徴量で計算し、時系列で連続する複数の画像(フレーム)のそれぞれについて算出される。従って、
図8に示すように時間の経過(フレーム番号)による第一の口唇挙動特徴量の変化を得ることができる。
なお、発話が無い部分を除外し、発話がある部分のみを対象とすることもできる。
【0040】
また、第一の口唇挙動特徴量は、発話者の口唇の動きの個人差を低減するため、0.0以上1.0以下の範囲で正規化してもよい。
【0041】
[音声特徴量の計算過程S30]
音声特徴量の計算過程S30では、映像・音声データ取得過程S10で得た音声データ(例えば
図2(b))から音声特徴量を計算して得る。これにより複雑な多くの情報を含む音声データから発話者判別に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができる。
【0042】
音声特徴量は、上記のように音声データから発話者判別に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができれば特に限定されることはないが、その中でもメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient、MFCC)を用いることが好ましい。そのうち0次元目を用いることがさらに好ましい。これは、音声認識の特徴量に有用な低周波成分の特徴を有していること、及び、低次元(0次元目)成分は声道の音響特性や口腔の形状に起因して変化することによる。
【0043】
より具体的な例として次のように音声特徴量を得る。
図9、
図10に説明のための図を示した。
初めに
図9(a)に示した映像・音声データ取得過程S10で得た音声データから所定の時間長さDの部分(部分E
1)を
図9(b)のように抽出する。Dの大きさは特に限定されることはないが本例は20msである。
次にこの部分E
1の音声データについてMFCCを求め
図10のようなMFCCデータを得る。MFCCの求め方は公知の通りであるが、例えば、「河原達也 編著、音声認識システム 改定2版、オーム社、2016」に記載の内容を挙げることができる。
例えば次のように算出する。はじめに音声データ(音声波形)をフーリエ変換し、周波数成分を取得し、この周波数成分を用いてパワースペクトル(各周波数成分における音の大きさ)を算出する。次に、このパワースペクトルに対してメルフィルタバンクを掛ける。人間の聴覚は高周波になるにつれて分解能が低くなる特徴を有しているため、メルフィルタバンクを掛けることで、人間の聴覚特性に応じた特徴量を抽出することが可能となる。そして、ここからケプストラム特徴量を算出し、声紋波の高調波成分(人物の違いによって変化する特徴)と声道による包絡成分(発話内容の違いによって変化する特徴)を分離する。ケプストラム特徴量における低次元成分(0次元目~14次元目)が、主に音声認識に利用されるが、上記したように本形態では0次元目を用いることが好ましい。
このようにして抽出されたケプストラム特徴量をMFCCと呼び、音声特徴量とする。
【0044】
そのあと、
図9(a)に示したように部分E
1に対して時間dだけ遅らせた部分E
2(時間長さD)についても同様に音声特徴量を得る。これを順次繰り返すことで時系列的に複数の音声特徴量を得る。なお、この遅らせる時間dの大きさは特に限定されることはないが、D>d、D=d、D<dのいずれあってもよいが、精度を高める観点からD>dであることが好ましい。本例では上記Dが20msであるのに対してdを10msとしている。
また、発話が無い部分を除外し、発話がある部分のみを対象とすることもできる。
【0045】
以上により、MFCCの0次元目の数値である音声特徴量の時系列変化を取得することができる。
なお、この音声特徴量は、発話者の声の大きさの個人差を低減するため、発話区間内において、0.0以上1.0以下の範囲で正規化してもよい。
【0046】
[発話者判別過程S40]
発話者判別過程S40では、第一の口唇挙動特徴量算出過程S20で得られた第一の口唇挙動特徴量及び音声特徴量算出過程S30で得られた音声特徴量から発話者を特定する。
図11に流れを示した。本形態の発話者判別過程S40は、区間の設定過程S41、第二の口唇挙動特徴量算出過程S42、区間差分の算出過程S43、発話者判別過程S44を有している。以下に各過程について説明する。
【0047】
<区間の設定過程S41>
区間の設定過程S41では、映像・音声データの取得過程S10で得られた映像及び音声データを複数の「区間」に分割する。
図12に説明のための図を表した。
この「区間」は、上記第一の口唇挙動特徴量と、この後に求める第二の口唇挙動特徴量との区間差分を算出する際の最小単位である。区間は例えば1000msのように設定することができる。そして区間は、始点となる時間を少しずらすように複数設定され、
図12のように区間1~区間Mを考える。
このように区間を用いることで、いわゆるフレーム単位ではなく、口唇の動きの時系列変化を考慮した発話者判別が可能となる。
【0048】
隣り合う区間における始点時間のずれは特に限定されることはなく、区間の長さと同じでもよく、区間の長さより短くてもよいし、区間の長さより長くてもよい。ただし、この始点時間のずれは、
図12のように区間の長さより短いことが好ましく例えば区間の長さの0.1倍(本例では100ms)程度とすることができる。すなわち、複数の区間において、隣り合う区間では、その時間の一部が重複するように始点となる時間が決められるようにすることができる。
このように隣り合う区間において一部が時間的に重複するように区間を設定することで、重複させない場合と比較してより多くのパターンの特徴量が取得可能となる。
【0049】
それぞれの区間には複数の第一の口唇挙動特徴量及び複数の音声特徴量が含まれるように区間の長さが設定される。例えば、1つの区間の長さが1000msで、音声特徴量は上記の例のように10msごとに作成される(
図9(a)のdが10ms)ときにはこの区間に含まれる音声特徴量データの数は100である。一方、第一の口唇挙動特徴量について映像は通常のカメラが1秒(1000ms)あたり30フレームであることから、1フレームあたり1つの第一の口唇挙動特徴量が得られているのでデータ数は30である。
【0050】
<第二の口唇挙動特徴量算出過程S42>
第二の口唇挙動特徴量算出過程S42では、区間の設定過程S41で設定した区間ごとに、音声特徴量の計算過程S30で得た音声特徴量を予め学習済のニューラルネットワークに入力して、第二の口唇挙動特徴量を算出する。従って、この過程により、音声データに基づく口唇挙動特徴量を得ることができる。
【0051】
この第二の口唇挙動特徴量のデータ数は、第一の口唇挙動特徴量のデータ数と同じとすることが好ましい。すなわち、上記のように1つの区間に含まれる音声特徴量のデータ数が100、第一の口唇挙動特徴量のデータ数が30である場合には、音声特徴量の100のデータに基づいて30のデータの第二の口唇挙動特徴量が算出される。これにより後述する区間差分が求めやすくなる。
【0052】
そしてこのような第二の口唇挙動特徴量の算出は区間ごとに行われる。
【0053】
ここで、ニューラルネットワークへの予めの学習の条件や方法は、音声特徴量を口唇挙動特徴量に対応づけることができれば特に限定されることはないが、本形態では次のように行った。
【0054】
上記した区間の長さ、及び、ここに含まれる音声特徴量データ数、第一の口唇挙動特徴量のデータ数に合わせる条件で、入力層、中間層、出力層の3層構造のニューラルネットワークを用いて学習をおこなう。例えば上記の例を用いれば、区間の長さは1000ms、入力層としては音声特徴量のデータ数に合わせて100次元、中間層を50次元とし、出力層は第一の口唇挙動特徴量のデータ数に合わせて30データが出力されるように30次元とした。なお勾配法にはAdamを使用することができる。
そしてこの出力層による出力が教師データと対比されることで学習が進められる。
【0055】
<区間差分の算出過程S43>
区間差分の算出過程S43では、区間ごとに、その区間に属する第一の口唇挙動特徴量の算出過程S20で得られた第一の口唇挙動特徴量と、その区間に属する第二の口唇挙動特徴量の算出過程S42で得られた第二の口唇挙動特徴量との差分をとり、区間差分を得る。より具体的には次の通りである。
【0056】
上記したように本形態では、映像に基づく口唇挙動特徴量(第一の口唇挙動特徴量)と、音声に基づく口唇挙動特徴量(第二の口唇挙動特徴量)とのデータ数を一致させているので、その差分は時間の早い順から順次両者の差を取ればよい。従って、例えば1つの区間では30の差分データが得られる。
そしてこの過程では得られた各々の差分データを絶対値で表し、これを平均し、当該区間における区間差分δとする。従って、
図12のように、この過程で各区間について区間差分δ
1、δ
2、δ
3、…、δ
Mが得られる。
【0057】
<発話者判別過程S44>
発話者判別過程S44では、区間差分の算出過程S43で得られた複数の区間差分を平均して判別差分δaveを算出し、判別対象者のうち、この判別差分δaveが最も小さかった者を発話者とする。
これにより発話者を判別することができる。
【0058】
以上のような方法によれば、1台の全方位カメラおよびマイクであっても、取得された発話映像に対して処理を行うことで発話者を判別できるため、人数に応じて機器数を増やす必要がなく利便性がよい。
また、音声特徴量を用いて口唇挙動特徴量を算出し、これを映像に基づく口唇挙動特徴量と照らし合わせて差分をとることで発話者を判別するため、複数名で口唇が同時に動いている場合においても発話者の判別が可能であり、口唇の動きが同時に生じた場合においても適切に発話者の判別が可能である。
【0059】
{発話者判別プログラム、及び、発話者判別装置}
図13は、上記した発話者判別方法S1に沿って具体的に演算を行う1つの形態にかかる発話者判別装置50の構成を概念的に表した図である。発話者判別装置50は、入力機器57、演算装置51、及び表示手段58を有している。そして演算装置51は、演算手段52、RAM53、記憶手段54、受信手段55、及び出力手段56を備えている。
【0060】
演算手段52は、いわゆるCPU(中央演算子)により構成されており、上記した各構成部材に接続され、これらを制御することができる手段である。また、記憶媒体として機能する記憶手段54等に記憶された各種プログラムを実行し、これに基づいて上記した発話者判別方法S1の各処理のためのデータ作成の演算をおこなうのも演算手段52である。
【0061】
RAM53は、演算手段52の作業領域や一時的なデータの記憶手段として機能する構成部材である。RAM53は、SRAM、DRAM、フラッシュメモリ等で構成することができ、公知のRAMと同様である。
【0062】
記憶手段54は、各種演算の根拠となるプログラムやデータが保存される記憶媒体として機能する部材である。また記憶手段54には、プログラムの実行により得られた中間、最終の各種結果を保存することができてもよい。より具体的には記憶手段54には、プログラムが記憶(保存)されている。またその他情報も併せて保存されていてもよい。
【0063】
ここで、保存されているプログラムには、上記した発話者判別方法S1の各過程を演算する根拠となるプログラムが含まれる。すなわち、発話者判別プログラムは、
図1に示した発話者判別方法S1の各過程(
図3、
図11に示した各過程も含む。)に対応するように、各過程を各ステップに置き換えたステップを含んでいる。このプログラムの具体的な演算内容は上記した発話者判別方法S1で説明した通りである。
また、この記憶手段54には、音声特徴量から第二の口唇挙動特徴量を算出する根拠となるニューラルネットワークの学習済の結果に基づいたデータベースが記憶されていてもよい。この場合には上記プログラムはこのデータベースを逐次参照して進められる。
【0064】
受信手段55は、外部からの情報を演算装置51に適切に取り入れるための機能を有する構成部材であり、入力機器57が接続される。いわゆる入力ポート、入力コネクタ等もこれに含まれる。
【0065】
出力手段56は、得られた結果のうち外部に出力すべき情報を適切に外部に出力する機能を有する構成部材であり、モニター等の表示手段58や各種装置がここに接続される。いわゆる出力ポート、出力コネクタ等もこれに含まれる。
【0066】
入力機器57は、発話者の映像及び音声を取得する機器が挙げられる。典型的な機器としてはマイク、カメラ、又はマイク付きのビデオカメラである。ただし、これに限らす他の種類の発話者の映像及び音声を取得する機器であってもよい。ここから入力された情報が演算装置51に取り込まれ、この情報を利用して上記プログラムが実行される。
【0067】
また、その他、ネットワークや通信により受信手段55を介して演算装置51に情報が提供されてもよい。同様にネットワークや通信により出力手段56を介して外部の機器に情報を送信することができてもよい。
【0068】
このような発話者判別装置50によれば、上記した発話者判別方法S1を効率的に精度よく行なうことが可能となる。このような発話者判別装置50としては例えばコンピュータを用いることができる。
【0069】
{発話者判別試験}
発明者は、実際に発話者を判別する試験を行った。以下に条件や試験の方法等を示す。
・カメラ:全方位カメラ、THITA V、RICOH社製
・マイク:TA-1、RICOH社製
・照明:蛍光灯、照度700lx~900lx
・判別対象者:2名(A、B)
・判別対象者の配置:カメラから50cm離隔した位置、カメラに向かって正面を向いた姿勢
【0070】
以上のような条件に基づいて次のように試験を行った。
・判別対象者2名(A、B)がそれぞれ別に同じ文章を音読し、これを上記カメラ及びマイクで記録した。
・判別対象者が音読した文章はニュース記事から抜粋した11種類とした。従って、全部で22の映像及び音声データを得た。
・この22のデータから20を教師データとしニューラルネットワークの学習に用い、残りの2つのデータをテストデータとする分割をした。教師データとテストデータの組み合わせを変更して異なる分割パターンで同様に行い、全部で231パターンとした。
【0071】
以上のような準備をして、次のように試験を行った。
図14に説明のための図を示した。
(1)22データ(判別対象者A:11データ、判別対象者B:11データ)を対象に、任意の2データをテストデータ、残りの20データを教師データとして選定する。
(2)教師データ(20データ)を使用してニューラルネットワークの学習を行い、学習済みのニューラルネットワークを構成する。
(3)この学習済みのニューラルネットワークを用いて、テストデータに対し、発話者判別を行う。このとき、
図14に示すように、2つ準備したテストデータ(
図14(a)のテストデータ1、
図14(b)のテストデータ2)のそれぞれについて発話者判別を行う。
すなわち、テストデータ1については、
図14(a)に示したように、テストデータ1の音声データを用いて第二の口唇挙動特徴量を得る。これをテストデータ1の映像から得た第一の口唇挙動特徴量、及び、テストデータ2の映像から得た第一の口唇挙動特徴量と対比して、それぞれについてδ
aveを算出する。そしてこの場合にはテストデータ1同士のδ
aveの方が小さい場合に判別が成功である。
同様に、テストデータ2については、
図14(b)に示したように、テストデータ2の音声データを用いて第二の口唇挙動特徴量を得る。これをテストデータ1の映像から得た第一の口唇挙動特徴量、及び、テストデータ2の映像から得た第一の口唇挙動特徴量と対比して、それぞれについてδ
aveを算出する。そしてこの場合にはテストデータ2同士のδ
aveの方が小さい場合に判別が成功である。
(4)テストデータと教師データの組み合わせを変更し、上記(1)乃至(3)の手順を繰り返し、全パターンである231回行った。
(5)上記(1)乃至(4)で得られた462回分(231×2)の判別結果を用いて、判別成功率とδ
aveの平均値を算出した。
なお、本例においては、第一の口唇挙動特徴量及び音声特徴量について0.0以上1.0以下の範囲における正規化をした場合と、当該正規化をしない場合とのそれぞれについて試験した。
【0072】
以上の結果、後で示すがニューラルネットワークにおける学習回数を変更して上記の試験を行ったところ、正規化をした場合には79.2%~83.8%の判別成功率を得ることができた。一方正規化をしなかった場合にも78.1%~82.5%の判別成功率を得ることができた。従って、正規化の有無によらず高い判別成功率を得ることができる。ただし、正規化をすることにより判別成功率を高めることが可能である。判別成功率は、全判別回数に対する成功判別回数の比率を百分率で表したものである。
【0073】
上記のように発明者はこの試験において、ニューラルネットワークにおける学習回数と判別成功率との関係を調べた。すなわち、学習の繰り返し回数(学習回数)を変更し、発話者判別の成功率との関係を調べた。その結果を表1に示す。これは学習回数を500回から10000回まで500回ずつ変更した結果である。試験方法は上記と同じである。
また、表1の「δave」は判別差分の値である。
【0074】
【0075】
表1からわかるように、いずれの場合も高い確率で発話者の判別が可能である。
【符号の説明】
【0076】
50 発話者判別装置