(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-02
(45)【発行日】2024-10-10
(54)【発明の名称】発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置
(51)【国際特許分類】
G10L 15/04 20130101AFI20241003BHJP
G06T 7/00 20170101ALI20241003BHJP
G10L 15/20 20060101ALI20241003BHJP
【FI】
G10L15/04 300Z
G06T7/00 660A
G10L15/20 370D
(21)【出願番号】P 2020139401
(22)【出願日】2020-08-20
【審査請求日】2023-08-16
【新規性喪失の例外の表示】特許法第30条第2項適用 1.刊行物に発表 発行者名:2019年度電気関係学会東北支部連合大会実行委員会 刊行物名:2019年度電気関係学会東北支部連合大会 講演論文集、2F07 発行年月日:令和1年8月22日 2.集会において発表 集会名:2019年度電気関係学会東北支部連合大会 開催日:令和1年8月23日 3.ウェブサイトにおいて発表 掲載アドレス:https://sites.google.com/view/miru2020/extended-abstracts 上記掲載アドレスにてダウンロードされた第23回画像の認識・理解シンポジウム MIRU2020 Extended Abstracts 予稿集 掲載年月日:令和2年7月28日 4.集会において発表 集会名:第23回画像の認識・理解シンポジウム MIRU2020 開催日:令和2年8月4日
(73)【特許権者】
【識別番号】504409543
【氏名又は名称】国立大学法人秋田大学
(73)【特許権者】
【識別番号】506429042
【氏名又は名称】日本ビジネスシステムズ株式会社
(74)【代理人】
【識別番号】100129838
【氏名又は名称】山本 典輝
(72)【発明者】
【氏名】景山 陽一
(72)【発明者】
【氏名】中村 悦郎
(72)【発明者】
【氏名】白須 礎成
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2016/143125(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/04
G06T 7/00
G10L 15/20
(57)【特許請求の範囲】
【請求項1】
映像及び音声データから発話区間を抽出する方法であって、
取得した前記映像から対象者の口内領域の縦幅を時系列に複数得る工程と、
取得した前記音声データに基づいて音声特徴量を時系列に複数得る工程と、
発話区間を抽出する工程と、を有し、
前記発話区間を抽出する工程は、
前記口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、前記口内領域の縦幅の判定差分から発話区間を抽出する工程と、
前記音声特徴量から音声特徴量の判定差分を時系列に複数得て、前記音声特徴量の判定差分から発話区間を抽出する工程と、を備え、
前記口内領域の縦幅から抽出した発話区間であり、かつ、前記音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出方法。
【請求項2】
前記音声特徴量の判定差分から発話区間を抽出する工程において、音声特徴量の判定差分は0.00以上とする請求項1に記載の発話区間抽出方法。
【請求項3】
前記口内領域の縦幅の判定差分から発話区間を抽出する工程において、口内領域の縦幅の判定差分は閾値Aよりも大きく、
前記閾値Aは、前記映像の空間分解能Rsを用いた以下の式(1)で表される、
【数1】
請求項1又は2に記載の発話区間抽出方法。
【請求項4】
前記音声特徴量の判定差分を時系列に複数得るための、前記複数の音声特徴量に対してノイズ低減処理をする工程を備える、請求項1乃至3のいずれかに記載の発話区間抽出方法。
【請求項5】
前記口内領域の縦幅の判定差分を時系列に複数得るための、前記複数の口内領域の縦幅に対してノイズ低減処理をする工程を備える、請求項1乃至4のいずれかに記載の発話区間抽出方法。
【請求項6】
前記口内領域の縦幅の判定差分から発話区間を抽出する工程において無発話区間に分類されたフレームから発話区間のフレームを再抽出する工程を備える、請求項1乃至5のいずれかに記載の発話区間抽出方法。
【請求項7】
映像及び音声データから発話区間を抽出するプログラムであって、
取得した前記映像から対象者の口内領域の縦幅を時系列に複数得るステップと、
取得した前記音声データに基づいて音声特徴量を時系列に複数得るステップと、
発話区間を抽出するステップと、を有し、
前記発話区間を抽出するステップは、
前記口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、前記口内領域の縦幅の判定差分から発話区間を抽出するステップと、
前記音声特徴量から音声特徴量の判定差分を時系列に複数得て、前記音声特徴量の判定差分から発話区間を抽出するステップと、を備え、
前記口内領域の縦幅から抽出した発話区間であり、かつ、前記音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出プログラム。
【請求項8】
前記音声特徴量の判定差分から発話区間を抽出するステップにおいて、音声特徴量の判定差分は0.00以上とする請求項7に記載の発話区間抽出プログラム。
【請求項9】
前記口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて、口内領域の縦幅の判定差分は閾値Aよりも大きく、
前記閾値Aは、前記映像の空間分解能Rsを用いた以下の式(1)で表される、
【数2】
請求項7又は8に記載の発話区間抽出プログラム。
【請求項10】
前記音声特徴量の判定差分を時系列に複数得るための、前記複数の音声特徴量に対してノイズ低減処理をするステップを備える、請求項7乃至9のいずれかに記載の発話区間抽出プログラム。
【請求項11】
前記口内領域の縦幅の判定差分を時系列に複数得るための、前記複数の口内領域の縦幅に対してノイズ低減処理をするステップを備える、請求項7乃至10のいずれかに記載の発話区間抽出プログラム。
【請求項12】
前記口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて誤って無発話区間に分類された発話区間のフレームを再抽出するステップを備える、請求項7乃至11のいずれかに記載の発話区間抽出プログラム。
【請求項13】
映像及び音声データから発話区間を抽出する装置であって、
前記映像を取得するカメラと、
前記音声データを取得するマイクと、
請求項7乃至12のいずれかに記載の発話区間抽出プログラムが記憶された記憶手段、及び、前記発
話区間抽出プログラムに基づいて演算を行う演算手段と、を有し、
前記演算手段は、前記カメラで取得した映像、及び、前記マイクで取得した音声データを取得し、取得した前記映像及び前記音声データを用いて前記発話区間抽出プログラムによる演算が行われる、発話区間抽出装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置に関する。
【背景技術】
【0002】
近年、働き方改革の実現に向けて業務の効率化や労働環境の見直しが行われている。その中の1つとして職場おける労働の改善策として業務の効率化や会議の効率化が挙げられる。
会議における議事録は、議論された内容や取り決めを記録し、決定事項および経緯の共有を目的に行われ、作成される議事録は、その後の会議の質の向上や他の業務の効率化に寄与する。そして、音声認識の技術を応用して構築された議事録自動作成システムによれば、議事録作成におけるヒューマンエラーの低減や議事録作成に要する人員や時間を削減することが可能である。さらにこのような議事録自動作成システムにおいて発言ごとに発話者を自動判別する技術や音声認識精度を向上させる技術は、議事録作成の工数削減に貢献し、会議および業務の効率化に寄与する。
【0003】
特許文献1は、会議における画像情報および音声情報を取得し、配信先に適切な情報量の議事録を配信することができる議事録配信システムを開示している。会議会場の映像や音声を取得し、録音開示時刻や、撮影開始時刻などを記録するデータベースを備えており、自動生成された議事録を会議関係者へメールで送信可能である。しかしながら、音声に基づいて発話区間を推定する機能が搭載されているが、発話者の判別を目的とした機能ではなく、発話開始と終了の時刻を決定するための機能である。また、顔画像における口唇の動きを用いた発話区間の抽出に関して検討されておらず、かつ発話者の判別に関する機能は搭載されていない。
【0004】
また、口唇の動きを用いて発話区間を抽出した場合、対象者が発声していない期間が検出された音声期間に含まれてしまい、音声期間の検出を適切に行うことができない場合がある。特許文献2は、口唇の動きおよび音声情報を用いた、発声期間と発声直前呼吸期間の検出を開示している。しかしながら、対象者とロボット間における1対1の対話を想定した手法であるため、複数人が参加する会議などの環境に対して検討されておらず、音声認識精度を向上させることを目的としている。
【0005】
特許文献3は、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、かつ認識処理性能の低下を抑制する音声認識結果および音声認識方法を開示している。口唇の形状をカメラで取得し、発話に伴う口唇形状の変化があらかじめ設定された発話時の口唇形状パターンと一致するか否かにより発話しているか否かの判定を行う。しかしながら、音声認識を行う際に、ボタンを押すことで音声および画像情報の取得が行われるため、会議においてこのような音声取得方法を用いることは困難であると考えられる。また、タブレット端末等の使用者と機材間の距離が近い場合における手法であると考えるため、複数の人物が存在し、かつ人物とカメラ間の距離が離れている会議においての使用は困難であると考えられる。
【0006】
特許文献4は、単純な構成で各参加者の発話状態を正確に認識する手法を開示している。具体的には、はじめに、魚眼レンズを用いた広角撮影装置を用いて、会議の各参加者の顔を含む歪曲円形画像を撮影する。次に、撮影した画像の唇近傍領域を設定し、唇近傍領域内の輝度もしくは色を示す特徴量を用いて、発話状態を推定する。最後に、各人物画像とともに発話時間をディスプレイ装置上に提示する。しかしながら、音声情報との併用は行われていないため、音声が生じていない状態において会議参加者の口唇が動いた場合、発話が行われたと認識してしまう可能性がある。
【0007】
特許文献5は、音声における雑音を低減し、音声認識精度を向上させることを目的とした手法を開示している。具体的には、MFCCに基づいて算出された特徴量および口唇の動きを用いて、非音声区間における誤認識を抑制可能な音声認識装置を提供している。しかしながら、音声認識の精度を向上させることを目的としている手法であるため、会議における環境下のように、複数名の発話者が同時にカメラ内に存在している場合を考慮していない。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2020-27351号公報
【文献】特開2020-3783号公報
【文献】国際公開20160-98228号公報
【文献】特開2015-019162号公報
【文献】特開2011-59186号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、かかる点に鑑み、簡易な設備であるとともに、複数の対象者から発話者の発話区間を精度よく抽出することができる発話区間抽出方法を提供することを課題とする。またそのためのプログラム、及び装置を提供する。
【課題を解決するための手段】
【0010】
第1の本発明は、映像及び音声データから発話区間を抽出する方法であって、取得した映像から対象者の口内領域の縦幅を時系列に複数得る工程と、取得した音声データに基づいて音声特徴量を時系列に複数得る工程と、発話区間を抽出する工程と、を有し、発話区間を抽出する工程は、口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、口内領域の縦幅の判定差分から発話区間を抽出する工程と、音声特徴量から音声特徴量の判定差分を時系列に複数得て、音声特徴量の判定差分から発話区間を抽出する工程と、を備え、口内領域の縦幅から抽出した発話区間であり、かつ、音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出方法である。
【0011】
第1の本発明における音声特徴量の判定差分から発話区間を抽出する工程において、音声特徴量の判定差分は0.00以上が好ましい。
【0012】
第1の本発明における口内領域の縦幅の判定差分から発話区間を抽出する工程において、口内領域の縦幅の判定差分は閾値Aよりも大きく、閾値Aは、映像の空間分解能Rsを用いた以下の式(1)で表されることが好ましい。
【0013】
【0014】
第1の本発明において、音声特徴量の判定差分を時系列に複数得るための、複数の音声特徴量に対してノイズ低減処理をする工程を備えることが好ましい。
【0015】
第1の本発明において、口内領域の縦幅の判定差分を時系列に複数得るための、複数の口内領域の縦幅に対してノイズ低減処理をする工程を備えることが好ましい。
【0016】
第1の本発明における口内領域の縦幅の判定差分から発話区間を抽出する工程において無発話区間に分類されたフレームから発話区間のフレームを再抽出する工程を備えることが好ましい。
【0017】
第2の本発明は、映像及び音声データから発話区間を抽出するプログラムであって、取得した映像から対象者の口内領域の縦幅を時系列に複数得るステップと、取得した音声データに基づいて音声特徴量を時系列に複数得るステップと、発話区間を抽出するステップと、を有し、発話区間を抽出するステップは、口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、口内領域の縦幅の判定差分から発話区間を抽出するステップと、音声特徴量から音声特徴量の判定差分を時系列に複数得て、音声特徴量の判定差分から発話区間を抽出するステップと、を備え、口内領域の縦幅から抽出した発話区間であり、かつ、音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出プログラムである。
【0018】
第2の本発明の発話区間抽出プログラムにおいて、音声特徴量の判定差分から発話区間を抽出するステップにおいて、音声特徴量の判定差分は0.00以上が好ましい。
【0019】
第2の本発明の発話区間抽出プログラムの口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて、口内領域の縦幅の判定差分は閾値Aよりも大きく、閾値Aは、映像の空間分解能Rsを用いた式(1)で表されることが好ましい。
【0020】
【0021】
第2の本発明の発話区間抽出プログラムにおいて、音声特徴量の判定差分を時系列に複数得るための、複数の音声特徴量に対してノイズ低減処理をするステップを備えることが好ましい。
【0022】
第2の本発明の発話区間抽出プログラムにおいて、口内領域の縦幅の判定差分を時系列に複数得るための、複数の口内領域の縦幅に対してノイズ低減処理をするステップを備えることが好ましい。
【0023】
第2の本発明の発話区間抽出プログラムの口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて誤って無発話区間に分類された発話区間のフレームを再抽出するステップを備えることが好ましい。
【0024】
第3の本発明は、映像及び音声データから発話区間を抽出する装置であって、映像を取得するカメラと、音声データを取得するマイクと、上記発話区間抽出プログラムが記憶された記憶手段、及び、発話区間抽出プログラムに基づいて演算を行う演算手段と、を有し、演算手段は、カメラで取得した映像、及び、マイクで取得した音声データを取得し、取得した映像及び音声データを用いて発話区間抽出プログラムによる演算が行われる、発話区間抽出装置である。
【発明の効果】
【0025】
本発明によれば、簡易な設備であるとともに、複数の対象者から発話者の発話区間を精度よく抽出することができる。
【図面の簡単な説明】
【0026】
【
図1】
図1は、システムにおける発話者出力方法S1の流れを示す図である。
【
図2】
図2(a)は映像の一部を模式的に例示した図、
図2(b)は音声データの一部を例示した図である。
【
図3】
図3は、発話区間抽出工程S20の流れを示す図である。
【
図5】
図5は、
図4のうち口唇部分を拡大し、口内領域の縦幅を説明する図である。
【
図6】
図6(a)は第一平滑化処理前、
図6(b)は第一平滑化処理後の口内領域の縦幅の時系列変化を示す一例である。
【
図7】
図7(a)は平滑化された口内領域の縦幅の例、
図7(b)は
図7(a)から口内領域の縦幅の判定差分dnを算出した結果を示す一例である。
【
図8】
図8は、第一発話区間再抽出処理工程における対象フレームを説明する図である。
【
図9】
図9(a)、
図9(b)は音声データを説明する図である。
【
図10】
図10は、音声データからMFCCを求めたことを説明する図である。
【
図11】
図11(a)は第二平滑化処理前、
図11(b)は第二平滑化処理後の音声特徴量の時系列変化を示す一例である。
【
図12】
図12(a)は第二平滑化処理後の音声特徴量の例、
図12(b)は音声特徴量の第一判定差分dmの算出結果の一例、
図12(c)は音声特徴量の第二判定差分Dmの算出結果の一例を示す図である。
【
図13】
図13(a)は口内領域の縦幅を用いて抽出された発話区間例、
図13(b)は音声特徴量を用いて抽出された発話区間例である。
【
図14】
図14は、発話区間抽出装置の構成を説明する図である。
【
図15】
図15は、発話開始フレームと発話終了フレームを説明する図である。
【
図17】
図17は、音声特徴量に関するパラメータSおよびTの組み合わせにおけるF
aveの算出結果とF
aveの値による分類結果を示す図である。
【
図18】
図18は、空間分解能に関するパラメータWおよびAの組み合わせにおけるF
aveの算出結果とF
aveの値による分類結果を示す図である。
【発明を実施するための形態】
【0027】
{発話者出力方法}
図1は、1つの形態にかかるシステムにおける発話者出力方法S1の流れを示す図である。
図1に示されるように、発話者出力方法S1は、映像・音声データ取得工程S10、発話区間抽出工程S20、発話人数判別工程S30、発話者判別工程S40、発話者出力工程S50を含んでいる。本開示の発話区間抽出工程S20により、複数の対象者から発話者の発話区間を精度よく抽出することができる。
【0028】
[映像・音声データ取得工程S10]
映像・音声データ取得工程S10では、発話区間抽出対象者の映像及び音声のデータを取得する。映像の取得はいわゆるカメラ、音声データの取得はマイクにより行うことができるが、本形態によれば、複数の発話区間抽出対象者の映像を同時に撮影できるカメラ(例えば全方位カメラ、広角カメラ)及び、発話区間抽出対象者の音声を取得できるマイクを用いて、後述する工程のデータ処理を行うことにより、どの人物において発話区間が生じているかを抽出することができる。また、絞り込んだ人物の画像情報を発話者判別などの処理工程に使用することも可能である。映像および音声データの取得に際して、複数台のビデオカメラやマイクを用いてもよいが、発話区間抽出対象者全員の情報を取得することができれば、1つのビデオカメラ、1つのマイクの使用でもよく、設備を最小限に抑えることができる。
また、カメラとマイクとは別機器であっても一体であってもよい。従って、カメラに備わっているマイクを利用することもできる。
【0029】
映像・音声データ取得工程S10により、例えば
図2(a)に模式的に示したように発話区間抽出対象者の顔部分の映像を取得することができる。また
図2(b)に模式的に示したように、横軸を時間とした波形として音声データを取得することができる。
【0030】
[発話区間抽出工程S20]
発話区間抽出工程S20では、映像・音声データ取得工程S10で取得した映像および音声データを用いて発話区間を抽出する。
図3に、発話区間抽出工程S20の流れを示した。
図3に示されるように、発話区間抽出工程S20は、映像データを処理する工程である、顔領域の検出処理工程S21、口内領域の縦幅抽出処理工程S22、第一平滑化処理工程S23、第一発話区間抽出処理工程S24、および、第一発話区間再抽出処理工程S25と、音声データを処理する工程である、音声特徴量の取得工程S26、第二平滑化処理工程S27、および、第二発話区間抽出処理工程S28と、発話区間判別処理工程S29とを有している。以下、各工程について説明する。
【0031】
<顔領域の検出処理工程S21>
顔領域の検出処理工程S21では、映像・音声データ取得工程S10で取得した映像データに対して、発話区間抽出対象者の顔部分に特徴点を配置する。
図4に例を示した。
図4の例では、
図2(a)に示した映像の顔部分に「●」で示した特徴点Aが配置されている(見易さのため、符号Aは一部の特徴点のみに付し、他は省略した。)。本形態では顔の下半分の輪郭(頬から顎)、眉毛、目、鼻(鼻梁、下端部)、及び口唇(上下の唇)に対してそれぞれの輪郭に沿うように複数の特徴点Aが配置されている。
特徴点の配置方法については特に限定されることはないが、隣接する画素の輝度差を利用し、所定の閾値以上の輝度差を有する位置を各部の輪郭と判断することができる。その他、市販や公開されているソフトウエアを用いてもよく、これには例えばDlibが挙げられる。
【0032】
本形態では特徴点として後述するように口内領域の縦幅を時系列に把握するため、特徴点Aは少なくともこれらの把握に必要な位置及び数で配置されていればよい。従って本形態では、少なくとも口唇部に特徴点Aが配置されている。
ただし、その他の理由によりこれ以外に特徴点Aが配置されてもよい。例えば、顔の輪郭に沿った特徴点Aを用いて判別対象者の顔の位置や大きさを得たり、顔以外の情報を削除する処理を行ったりしてもよい。
【0033】
なお、このような特徴点Aの配置は映像における画像ごとに行われる。すなわち、映像を構成するための時系列的に連続する複数の画像のそれぞれについて特徴点Aが配置される。
図4はある1つの画像について説明した例である。
時系列的に連続する複数の画像(フレーム)を処理する際に、例えば、1フレーム目の画像に対して顔検出処理を施し、その顔検出結果をもとに、顔周辺の領域をトリミングし、2フレーム以降は前フレームにおける顔周辺領域を対象に顔検出を実施して、処理の効率化を図ってもよい。
【0034】
<口内領域の縦幅抽出処理工程S22>
口内領域の縦幅抽出処理工程S22では、顔領域の検出処理工程S21で配置された特徴点Aから、口内領域の縦幅を抽出し計算する。
図5に、
図4のうち口唇部分に注目して拡大した図を表した。
ここで「口内領域の縦幅」とは、口唇部分のうち口内領域上端の特徴点A
1と口内領域下端の特徴点A
2との縦方向の距離Bを表す。口内領域の縦幅は、発話区間抽出対象者の口述によって時系列的に変化することが把握できればよく、時系列で連続する複数の画像のそれぞれについて抽出される。
図5に示した例では、距離Bが最大になりやすい口内領域正中線に最も近い特徴点を選択した。これにより、口内領域の縦幅の時系列的な変化が明確になりやすくなる。
【0035】
本工程で抽出する距離Bは、座標、長さ、画素数等、どのような単位で表現してもよい。本形態の口内領域の縦幅の距離Bは、
図6(a)に示したように、画素数により表現している。
【0036】
人は、無発話時において、口を閉じている傾向がある。よって、無発話時に口内領域の縦幅は、0画素に近い値、かつ、ほぼ一定の値を保つ傾向がある。さらに、無発話時に口を閉じている傾向は、人物によらずあらゆる発話区間抽出対象者において認められる。また、口を閉じている状態において、口内領域の縦幅は、カメラおよび発話区間抽出対象者間の距離の変動や発話区間抽出対象者の顔の角度に起因して変化しにくい数値である。
本発明は、口内領域の縦幅の時系列変化に着目することで、会議のような環境下においても、顔の動き、人物ごとの口唇の動きの差異、および、カメラと発話区間抽出対象者との距離変化による影響を低減し、発話区間を抽出可能にする。
【0037】
<第一平滑化処理工程S23>
第一平滑化処理工程S23では、口内領域の縦幅抽出処理工程S22で得られた口内領域の縦幅の時系列変化に対して平滑化処理をする。
図6(a)は第一平滑化処理工程S23前、
図6(b)は第一平滑化処理工程S23後の口内領域の縦幅の時系列変化を示す一例である。第一平滑化処理工程S23により、照明等の微細な変化に伴い口内領域縦幅の時系列変化にて生じたノイズによる影響等を低減することができる。
本形態では、本工程において平滑化処理を用いているが、本工程では、口内領域縦幅の時系列変化にて生じたノイズによる影響等を低減することができる公知のノイズ低減処理工程を制限なく用いることができる。
【0038】
第一平滑化処理工程S23における平滑化処理手順については特に限定されることはないが、例えば、任意のnフレーム目から連続したPフレーム(nフレーム目~n+Pフレーム目)における口内領域の縦幅の平均値を算出し、その平均値をnフレーム目の口内領域の縦幅に設定する方法が挙げられる。ここで、Pは1以上の整数であればよく、本例では、上記Pを10フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Pは5以上15以下であることが好ましい。
【0039】
<第一発話区間抽出処理工程S24>
第一発話区間抽出処理工程S24では、第一平滑化処理工程S23を施した口内領域の縦幅の時系列変化を対象として発話区間を抽出する。
図7(a)は平滑化された口内領域の縦幅の例、
図7(b)は
図7(a)から口内領域の縦幅の判定差分dnを算出した結果を示す一例である。「口内領域の縦幅の判定差分」とは、時系列的に連続する複数のフレームの範囲において、口内領域の縦幅の最大値と最小値とを取得し、その最大値と最小値との差を算出した結果であり、発話区間内のフレームであるか否かの抽出の指標になる。
【0040】
より具体的には、任意のnフレーム目およびその前後Qフレーム(n-Qフレーム目~n+Qフレーム目の合計2×Q+1フレーム分)から口内領域の縦幅の最大値および最小値を取得し、その最大値と最小値との差である口内領域の縦幅の判定差分dnを算出し、nフレーム目の値として設定する。口内領域の縦幅の判定差分の算出は、時系列的に連続する複数フレームに対して行う。ここで、Qは1以上の整数であればよく、本例では、上記Qを15フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Qは10以上30以下であることが好ましい。
【0041】
例えば、任意のnフレーム目およびその前後Qフレームにおいて、無発話区間のフレームが連続していれば、口内領域の縦幅の最大値および最小値はともに0画素に近い値になることから、口内領域の縦幅の判定差分dnは0に近い値となる。また、任意のnフレーム目およびその前後Qフレームにおいて、発話区間のフレームが存在すれば、無発話区間と比較して発話区間では口内領域の縦幅が大きくなることから、口内領域の縦幅の判定差分dnは無発話区間より大きい値になる。
口内領域の縦幅の判定差分dnがある所定の閾値Aより大きければ発話区間のフレームに分類される。映像データの画素数、映像内での判別対象者の口唇の全画像における割合、広角カメラの歪み等によって変化するが、例えば、3840×2160画素で、1画素の空間分解能が1mm程度(口唇の縦幅が約20mm、同じ領域が画像上では約20画素で表示されていることから算出)の映像データを得た
図7の場合において、閾値Aを1.5とすることにより、発話区間の抽出ができる。
閾値Aは、前記映像の空間分解能Rsを用いた式(1)を満たす値であることが好ましい。口内領域の縦幅の判定差分dnが閾値Aより大きければ、高抽出精度で、発話区間のフレームに分類される。
【0042】
【0043】
<第一発話区間再抽出処理工程S25>
第一発話区間再抽出処理工程S25では、第一発話区間抽出処理工程S24において誤って無発話区間に分類された発話区間のフレームを再抽出する。
図8は口内領域の縦幅の判定差分dnの算出した結果を示す一例であるが、
図8において「〇」で囲まれたフレームは、発話区間のフレームでありながら、誤って無発話区間に分類されたフレームを表す。
【0044】
本形態では、発話区間のフレームが誤って無発話区間に分類されることを防ぐため、無発話区間であると判定された任意のnフレーム目以降のRフレーム以内(nフレーム目~n+Rフレーム目)に発話区間であると判定されたフレームが存在する場合には、nフレームを発話区間内のフレームとしてもよい。ここで、Rは1以上の整数であればよく、本例では、上記Rを30フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Rは5以上50以下であることが好ましい。
誤って無発話区間に分類された発話区間のフレームがない場合には、第一発話区間再抽出処理工程S25は、行われなくてもよい。
【0045】
<音声の特徴量の取得工程S26>
音声の特徴量の取得工程S26では、映像・音声データ取得工程S10で得た音声データ(例えば
図2(b))から音声特徴量を計算して得る。これにより複雑な多くの情報を含む音声データから発話区間抽出に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができる。
【0046】
音声特徴量は、音声データから発話区間抽出に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができれば特に限定されることはないが、その中でもメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient、MFCC)を用いることが好ましい。そのうち0次元目を用いることがさらに好ましい。これは、音声認識の特徴量に有用な低周波成分の特徴を有していること、及び、低次元(0次元目)成分は声道の音響特性や口腔の形状に起因して変化することによる。
【0047】
より具体的な例として次のように音声特徴量を得る。
図9、
図10に説明のための図を示した。
初めに
図9(a)に示した映像・音声データ取得工程S10で得た音声データから所定の時間長さDの部分(部分E
1)を
図9(b)のように抽出する。Dの大きさは特に限定されることはないが本例は20msである。
次にこの部分E
1の音声データについてMFCCを求め
図10のようなMFCCデータを得る。MFCCの求め方は公知の通りであるが、例えば、「河原達也 編著、音声認識システム 改定2版、オーム社、2016」に記載の内容を挙げることができる。
例えば次のように算出する。はじめに音声データ(音声波形)をフーリエ変換し、周波数成分を取得し、この周波数成分を用いてパワースペクトル(各周波数成分における音の大きさ)を算出する。次に、このパワースペクトルに対してメルフィルタバンクを掛ける。人間の聴覚は高周波になるにつれて分解能が低くなる特徴を有しているため、メルフィルタバンクを掛けることで、人間の聴覚特性に応じた特徴量を抽出することが可能となる。そして、ここからケプストラム特徴量を算出し、声紋波の高調波成分(人物の違いによって変化する特徴)と声道による包絡成分(発話内容の違いによって変化する特徴)を分離する。ケプストラム特徴量における低次元成分(0次元目~14次元目)が、主に音声認識に利用されるが、上記したように本形態では0次元目を用いることが好ましい。
このようにして抽出されたケプストラム特徴量をMFCCと呼び、音声特徴量とする。
【0048】
そのあと、
図9(a)に示したように部分E
1に対して時間dだけ遅らせた部分E
2(時間長さD)についても同様に音声特徴量を得る。これを順次繰り返すことで時系列的に複数の音声特徴量を得る。なお、この遅らせる時間dの大きさは特に限定されず、D>d、D=d、D<dのいずれあってもよいが、精度を高める観点からD>dであることが好ましい。本例では上記Dが20msであるのに対してdを10msとしている。
また、発話が無い部分を除外し、発話がある部分のみを対象とすることもできる。
【0049】
以上により、MFCCの0次元目の数値である音声特徴量の時系列変化を取得することができる。
【0050】
<第二平滑化処理工程S27>
第二平滑化処理工程S27では、音声の特徴量の取得工程S26で得られた音声特徴量の時系列変化に対して平滑化処理をする。第二平滑化処理工程S27により、取得した音声特徴量の時系列変化に含まれるノイズ等を低減することができる。
図11(a)は第二平滑化処理工程S27前、
図11(b)は第二平滑化処理工程S27後の音声特徴量の時系列変化を示す一例である。
本形態では、本工程において平滑化処理を用いているが、本工程では、取得した音声特徴量の時系列変化に含まれるノイズ等を低減することができる公知のノイズ低減処理工程を制限なく用いることができる。
【0051】
第二平滑化処理工程S27における平滑化処理手順については特に限定されることはないが、例えば、任意のnフレーム目から連続したTフレーム(nフレーム目~n+Tフレーム目)における音声特徴量の平均値を算出し、その平均値をnフレーム目の音声特徴量に設定する方法が挙げられる。ここで、Tは1以上の整数であればよく、本例では、上記Tを100フレーム(約1.0秒間)としたが、後述のとおり、高い発話区間抽出精度を得るために、Tは10以上150以下であることが好ましい。
【0052】
<第二発話区間抽出処理工程S28>
第二発話区間抽出処理工程S28では、第二平滑化処理工程S27を施した音声特徴量の時系列変化を対象として発話区間を抽出する。
図12(a)は第二平滑化処理工程S27後の音声特徴量の例、
図12(b)は
図12(a)から音声特徴量の仮判定差分dmを算出した結果、
図12(c)は
図12(a)および
図12(b)から音声特徴量の判定差分Dmを算出した結果である。「音声特徴量の仮判定差分」とは、時系列的に連続する複数フレームの範囲において、音声特徴量の最大値と最小値とを取得し、その最大値と最小値との差を算出した結果であり、「音声特徴量の判定差分」とは、音声特徴量と音声特徴量の仮判定差分dmとの差分の時系列変化を算出した結果であり、発話区間内のフレームであるか否かの抽出の指標になる。
【0053】
具体的には、例えば、任意のnフレーム目およびその前後Sフレーム(n-Sフレーム目~n+Sフレーム目の合計2×S+1フレーム分)から音声特徴量の最大値および最小値を取得し、その最大値と最小値との差である音声特徴量の仮判定差分dmを算出し、nフレーム目に設定する。音声特徴量の仮判定差分dmの算出は、時系列的に連続する複数フレームに対して行う。ここで、Sは1以上の整数であればよく、本例では、上記Sを50フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Sは10以上150以下であることが好ましい。さらに、S≦T+30であることが好ましい。
図12において矢印で示された「実際の発話区間」のフレームからわかるように、無発話区間のフレームと比較して、発話区間のフレームでは、音声特徴量が高い値になり、かつ、安定した値を維持する傾向が認められる。さらに、音声特徴量の仮判定差分dmが低い値になる傾向がある。
さらに、音声特徴量と音声特徴量の仮判定差分dmとの差分の時系列変化である音声特徴量の判定差分Dmを算出すると、発話区間において音声特徴量の判定差分Dmの値が正の値になる傾向が認められることから、音声特徴量の判定差分Dmの値が0.00以上である領域を発話区間として抽出する。
【0054】
<発話区間判別処理工程S29>
発話区間判別処理工程S29は、第一発話区間再抽出処理工程S25で得られた口内領域の縦幅による発話区間と第二発話区間抽出処理工程S28で得られた音声特徴量による発話区間とから発話区間を判別する。
発話区間判別の条件として、発話区間は、口内領域の縦幅を用いて抽出した発話区間であり、かつ、音声特徴量を用いて抽出した発話区間が含まれている区間であることが挙げられる。上記発話区間判別の条件を満たす一連のフレームを発話区間と判別する。
【0055】
図13(a)は口内領域の縦幅を用いて抽出された発話区間例、
図13(b)は音声特徴量を用いて抽出された発話区間例である。ただし、口内領域の縦幅のフレームと音声特徴量のフレームとは、時系列を一致させて用いる。例えば、
図13では、3フレーム分の口内領域の縦幅の判定差分dnに対して、10フレーム分の音声特徴量の判定差分Dmが対応する。
口内領域の縦幅のみを用いて発話区間を推定した場合、音声が生じていないのにもかかわらず誤って発話区間とされることがあるが、発話区間判別処理工程S29により、誤りを防止できるため、実際に音声の生じている区間のみを発話区間に判別することが可能となる。
【0056】
図1に示したように、本開示の発話区間抽出工程S20後に、発話人数判別工程S30、発話者判別工程S40、発話者出力工程S50を備えて、議事録自動作成システム等に有効な発話者出力方法としてもよい。
【0057】
[発話人数判別工程S30]
発話人数判別工程S30は、同時に発話している人数が判別できればよく、公知の方法を限定されず用いることができる。発話区間抽出工程S20で得られた発話区間抽出データにおいて、同時に発話区間が抽出された発話者が複数であった場合には、発話者判別工程S40に進み、同時に発話区間が抽出された発話者が1名であった場合には、発話者出力工程S50に進む。
【0058】
[発話者判別工程S40]
発話者判別工程S40は公知の方法を限定されず用いることができるが、例えば、「景山陽一、中村悦郎、白須礎成著、第62回自動制御連合講演会 講演論文集、1J4-0」および特願2020-000673号に記載の内容を挙げることができる。例えば、音声特徴量から口唇挙動特徴量が推定可能なニュートラルネットワーク(NN)の学習を行う。次に、判別対象者に口唇挙動特徴量および音声特徴量を取得し、学習済のNNに、音声特徴量を入力し、口唇挙動特徴量を推定する。最後に、口唇挙動特徴量の推定値および実際の口唇挙動特徴量の差を算出し、最も差が少ない判別対象者を発話者と判定する方法である。
発話者判別工程S40により、発話者が判別されたら、発話者出力工程S50に進む。
【0059】
[発話者出力工程S50]
発話者出力工程S50は、発話者判別工程S40で判定された発話者において、発話区間抽出工程S20で抽出された発話区間の内容が出力できればよく、公知の方法を限定されず用いることができる。
【0060】
{発話区間抽出プログラム、及び、発話区間抽出装置}
図14は、上記した発話区間抽出方法S20を含む発話者出力方法S1に沿って具体的に演算を行う1つの形態にかかる発話区間抽出装置50の構成を概念的に表した図である。発話区間抽出装置50は、入力機器57、演算装置51、及び表示手段58を有している。そして演算装置51は、演算手段52、RAM53、記憶手段54、受信手段55、及び出力手段56を備えている。
【0061】
演算手段52は、いわゆるCPU(中央演算子)により構成されており、上記した各構成部材に接続され、これらを制御することができる手段である。また、記憶媒体として機能する記憶手段54等に記憶された各種プログラムを実行し、これに基づいて上記した発話区間抽出方法S20の各処理のためのデータ作成の演算をおこなうのも演算手段52である。
【0062】
RAM53は、演算手段52の作業領域や一時的なデータの記憶手段として機能する構成部材である。RAM53は、SRAM、DRAM、フラッシュメモリ等で構成することができ、公知のRAMと同様である。
【0063】
記憶手段54は、各種演算の根拠となるプログラムやデータが保存される記憶媒体として機能する部材である。また記憶手段54には、プログラムの実行により得られた中間、最終の各種結果を保存することができてもよい。より具体的には記憶手段54には、プログラムが記憶(保存)されている。またその他情報も併せて保存されていてもよい。
【0064】
ここで、保存されているプログラムには、上記した発話区間抽出方法S20を含む発話者出力方法S1の各工程を演算する根拠となるプログラムが含まれる。すなわち、発話区間抽出方法プログラムを含む発話者出力方法プログラムは、
図1に示した発話者出力方法S1の各工程(
図3に示した発話区間抽出方法S20の各工程も含む。)に対応するように、各工程を各ステップに置き換えたステップを含んでいる。発話区間抽出方法プログラムの具体的な演算内容は上記した発話区間抽出方法S20で説明した通りである。
【0065】
受信手段55は、外部からの情報を演算装置51に適切に取り入れるための機能を有する構成部材であり、入力機器57が接続される。いわゆる入力ポート、入力コネクタ等もこれに含まれる。
【0066】
出力手段56は、得られた結果のうち外部に出力すべき情報を適切に外部に出力する機能を有する構成部材であり、モニター等の表示手段58や各種装置がここに接続される。いわゆる出力ポート、出力コネクタ等もこれに含まれる。
【0067】
入力機器57は、発話者の映像及び音声を取得する機器が挙げられる。典型的な機器としてはマイク、カメラ、又はマイク付きのビデオカメラである。ただし、これに限らず他の種類の発話者の映像及び音声を取得する機器であってもよい。ここから入力された情報が演算装置51に取り込まれ、この情報を利用して上記プログラムが実行される。
【0068】
また、その他、ネットワークや通信により受信手段55を介して演算装置51に情報が提供されてもよい。同様にネットワークや通信により出力手段56を介して外部の機器に情報を送信することができてもよい。
【0069】
このような発話区間抽出装置50によれば、上記した発話区間抽出方法S20を含む発話者出力方法S1を効率的に精度よく行なうことが可能となる。このような発話区間抽出装置50としては例えばコンピュータを用いることができる。
【実施例】
【0070】
発明者は、実際に発話区間を抽出する試験、各パラメータの範囲に関する検討、分解能と閾値の関係に関する検討を行った。以下に条件、試験および評価の方法を示す。
【0071】
[条件]
・カメラ:全方位カメラ、THITA V、RICOH社製(30fps、3840×2160画素)
・マイク:TA-1、RICOH社製(単一指向性×4チャンネル)
・照明:蛍光灯、照度700lx~900lx
・被験者:6名(20代、男性3名、女性3名)
・被験者の配置:カメラから50cm離隔した位置、カメラに向かって正面を向いた姿勢
【0072】
[試験および評価の方法]
(1)被験者6名(20代、男性3名、女性3名)がそれぞれ別に同じ文章を音読し、これを上記カメラ及びマイクで記録した。
(2)被験者が音読した文章はニュース記事から抜粋した11種類とした。従って、全部で66の映像及び音声データを得た。
【0073】
(3)得られた映像及び音声データに対して本発明の発話区間抽出工程により発話区間を抽出し、発話フレームおよび無発話フレームの抽出結果を得た。
(4)目視によって抽出した実際の発話区間を設定した。具体的には、目視にて、得られた映像及び音声データから、
図15(a)のように、発話開始時に口を開き始めるフレームF
S+1の直前の口を閉じたフレームを発話開始フレームF
Sとし、および
図15(b)のように、発話終了時に口を閉じたフレームを発話終了フレームF
Eとする。さらに、発話開始フレームF
Sと発話終了フレームF
Eとの間のフレームを発話フレームと設定し、それ以外のフレームを無発話フレームと設定した。
【0074】
(5)実際の発話区間と本発明の発話区間抽出工程による抽出結果との比較から、表1に示す抽出成功率判定のためのフレーム数(単位:フレーム数)を用いて評価を行った。各指標は、表1に示すように、発話フレームが正しく発話フレームとして判別されたフレーム数をTP、発話フレームが誤って無発話フレームとして分類されたフレーム数をFN、無発話フレームが誤って発話フレームとして分類されたフレーム数をFP、無発話フレームが正しく無発話フレームに判別されたフレーム数をTNとし、各指標に該当するフレーム数を算出した。
【0075】
【0076】
表1の各指標に該当するフレーム数を用いて、precision(精度)は式(2)により、recall(再現率)は式(3)により算出される。precisionおよびrecallは0.0~1.0の数値を取り、値が1.0に近いほど抽出成功率が高いことを示す。
【0077】
【0078】
【0079】
{発話区間抽出試験}
上記条件および試験および評価の方法に基づいて、発話区間抽出試験を行った結果を表2に示す。
【0080】
【0081】
表2からわかるように、precisionの平均値は全被験者で0.90以上の数値となり、かつ、平均で0.92の数値が得られた。また、recallの平均値は、全被験者において1.00の数値が得られた。
以上の結果より、本発明が人物間における口唇の動きの差異を低減し、かつ、シンプルな閾値判定法を用いて発話区間の抽出が可能であることが示唆される。
【0082】
図16は、被験者B、11種類の文章のうちの1つの文章における発話区間抽出結果である。
図16(a)は口内領域の縦幅および音声特徴量を用いて抽出された発話区間を、
図16(b)は音声特徴量を用いて抽出された発話区間を示している。
図16(a)より、口内領域の縦幅および音声特徴量を併用することで無発話区間を適切に除外し発話区間の存在する領域のみを抽出できていることがわかる。
つまり、本開示の発話区間抽出方法によれば、1台の全方位カメラおよびマイクであっても、取得された発話映像に対して処理を行うことで発話者を判別できるため、人数に応じて機器数を増やす必要がなく利便性がよい。
また、映像データである口内領域の縦幅の時系列変化と音声データである音声特徴量とを照らし合わせて発話区間の抽出に使用しているため、発話区間に誤って抽出された無発話区間を除外することが可能である。
【0083】
{各パラメータの範囲に関する検討}
上記条件および試験および評価の方法に基づいて、各パラメータの範囲に関する検討を行った。各パラメータの範囲は、(2)および(3)で算出されるprecisionおよびrecallからF-measureを算出し、評価指標として用いることで好ましい範囲を検討する。F-measureは式(4)で算出され、0.0~1.0の数値を取り、値が1.0に近いほど抽出成功率が高いことを示す。各パラメータにおいて、F-measureが0.9以上であれば、発話区間の抽出精度が良好であると考えられる。
【0084】
【0085】
なお、各パラメータとは、口内領域縦幅における平滑化処理のフレーム数P、dn算出のためのフレーム数Q、発話区間再抽出処理のためのフレーム数R、dm算出のためのフレーム数S、音声特徴量における平滑化処理のフレーム数Tの5種類のパラメータである。
【0086】
<口内領域縦幅を用いた発話区間抽出手法におけるパラメータの検討>
上記条件および試験および評価の方法に基づいて撮影した動画を使用して、パラメータP、Q、およびRの好ましい範囲に関して検討を加えた。具体的には、表3に示す範囲で各パラメータの値を変動させ、1000パターンのパラメータの組み合わせにおけるF-measureの平均値(Fave)をそれぞれ算出して比較した。なお、パラメータの検討パターン数が膨大になるため、音声特徴量に関するパラメータSおよびTは固定値を使用した。
【0087】
【0088】
表4に、パラメータP、Q、およびRの範囲と範囲内におけるFaveの結果を示す。1000パターン中、265パターンにおいてFaveの値が0.90を上回る結果を得た。Faveの値が0.90を上回るパターンのうち、それぞれのパラメータが最大の範囲をとるように設定した結果、表4に示す範囲(150パターン)が好ましいことが明らかになった。
【0089】
【0090】
<音声特徴量を用いた発話区間抽出手法におけるパラメータの検討>
上記条件および試験および評価の方法に基づいて撮影した動画を使用して、パラメータSおよびTの好ましい範囲に関して検討を加えた。具体的には、表5に示す範囲で各パラメータの値を変動させ、225パターンのパラメータの組み合わせにおけるF-measureの平均値(Fave)をそれぞれ算出して比較した。なお、パラメータの検討パターン数が膨大になるため、口唇の特徴量に関するパラメータP、Q、およびRは固定値を使用した。
【0091】
【0092】
図17(a)は、パラメータSおよびTの組み合わせにおけるF
aveの算出結果を示し、
図17(b)は、F
aveの値が0.9以上か否かによって分類した結果を示す。
図17(b)に示すように、F
aveの値が0.9以上になるパラメータSおよびTの範囲は、1次関数と定数によって表すことが可能である。表6は、パラメータSおよびTの範囲と範囲内におけるF
aveの結果を示す。パラメータSおよびTの数値は表6に示す範囲内の値に設定することで、F
aveの値が0.9以上となり、高い精度で発話区間を抽出可能である。
【0093】
【0094】
{空間分解能と閾値の関係に関しての検討}
発話区間抽出処理工程において、口内領域の縦幅の判定差分dnがある所定の閾値Aより大きければ発話区間のフレームに分類される。閾値Aの値と画像の空間分解能Rsとの関係に関して検討を加えた。具体的には、得られた口内領域縦幅に対して重みWを付加し、疑似的に画像の空間分解能Rsを変化させた。上述した通り、本実施例の空間分解能は1.0mmであるため、重みWの値が1.0の場合の空間分解能Rsは1.0mmである。したがって、口内領域縦幅に付加した重みWと空間分解能Rsの関係は式(5)で表される。
【0095】
【数7】
本検討では、上記条件および試験および評価の方法に基づいて、表7に示すような条件の下撮影した動画を使用して、重みWの値と閾値Aを変化させ、各パターンにおけるF-measureの平均値F
aveを算出して比較した。
【0096】
【0097】
図18(a)は、重みWおよび閾値Aの組み合わせにおけるF
aveの算出結果を示し、
図18(b)は、F
aveの値が0.9以上か否かによって各パターンを分類した結果を示す。
図18(b)に示すように、F
aveの値が0.9以上になる重みWおよび閾値Aの範囲は、2つの1次関数と定数によって表すことが可能である。表8は、重みWおよび閾値Aの範囲と範囲内におけるF
aveの結果を示す。重みWおよび閾値Aの数値は表8に示す範囲内の値に設定することで、F
aveの値が0.9以上となり、高い精度で発話区間を抽出可能である。
【0098】
【0099】
表8におけるパラメータの範囲において、重みWの値を空間分解能Rs(単位:mm)に置き換えて表すと、上述した式(1)が導かれる。閾値Aは、映像の空間分解能Rsを用いた式(1)を満たす値であることが好ましく、口内領域の縦幅の判定差分dnが閾値Aより大きければ、高抽出精度で、発話区間のフレームに分類される。
【符号の説明】
【0100】
50 発話区間抽出装置
51 演算装置
52 演算手段
53 RAM
54 記憶手段
55 受信手段
56 出力手段
57 入力機器
58 表示手段