IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7467370音声区間検出装置、学習装置及び音声区間検出プログラム
<>
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図1
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図2
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図3
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図4
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図5
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図6
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図7
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図8
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図9
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図10
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図11
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図12
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図13
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図14
  • 特許-音声区間検出装置、学習装置及び音声区間検出プログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】音声区間検出装置、学習装置及び音声区間検出プログラム
(51)【国際特許分類】
   G10L 15/04 20130101AFI20240408BHJP
   G10L 15/24 20130101ALI20240408BHJP
   G10L 15/16 20060101ALI20240408BHJP
【FI】
G10L15/04 300Z
G10L15/24 Q
G10L15/16
G10L15/04 300C
【請求項の数】 13
(21)【出願番号】P 2021035674
(22)【出願日】2021-03-05
(65)【公開番号】P2022135708
(43)【公開日】2022-09-15
【審査請求日】2023-02-17
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】金 宜鉉
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2020/250828(WO,A1)
【文献】特開2021-005122(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/04
G10L 15/24
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音響信号に基づいて音響特徴を算出する音響特徴算出部と、
非音響信号に基づいて非音響特徴を算出する非音響特徴算出部と、
前記音響特徴と前記非音響特徴とに基づいて相関係数を算出する相関係数算出部と、
前記相関係数の閾値に対する比較に基づいて、音声が発せられている時間区間である音声区間及び/又は音声が発せられていない時間区間である非音声区間を検出する検出部と、
を具備し、
前記音響特徴算出部は、第1の学習済みモデルを用いて前記音響信号から前記音響特徴を算出し、
前記非音響特徴算出部は、第2の学習済みモデルを用いて前記非音響信号から前記非音響特徴を算出し、
前記相関係数は、時間的に同期する前記音響特徴及び前記非音響特徴に基づいて算出される第1の相関係数と、時間的に非同期する前記音響特徴及び前記非音響特徴に基づいて算出される第2の相関係数とを有し、
前記第1の学習済みモデル及び前記第2の学習済みモデルは、前記第1の相関係数と前記第2の相関係数とを用いた自己教師学習により生成される、
音声区間検出装置。
【請求項2】
前記非音響信号は、前記音響信号に時間的に同期する画像信号である、請求項1記載の音声区間検出装置。
【請求項3】
同一音声発生源に関する前記音響信号と前記非音響信号とを取得する取得部を更に備える、請求項1記載の音声区間検出装置。
【請求項4】
第1のニューラルネットワークを用いて音響信号から音響特徴を算出する音響特徴算出部と、
第2のニューラルネットワークを用いて非音響信号から非音響特徴を算出する非音響特徴算出部と、
時間的に同期する前記音響特徴と前記非音響特徴とに基づいて第1の相関係数を算出し、時間的に非同期する前記音響特徴と前記非音響特徴とに基づいて第2の相関係数を算出する相関係数算出部と、
前記第1の相関係数と前記第2の相関係数とに基づく損失関数を用いて前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを更新する更新部と、
を具備する学習装置。
【請求項5】
前記相関係数算出部は、
前記第1の相関係数として、互いに時間を同期させた前記音響信号と前記非音響信号との内積に基づく値を算出し、
前記第2の相関係数として、互いに時間を非同期させた前記音響信号と前記非音響信号との内積に基づく値を算出する、
請求項記載の学習装置。
【請求項6】
前記相関係数算出部は、
前記第1の相関係数として、互いに時間を同期させた前記音響信号と前記非音響信号との内積に基づく値を算出し、
前記第2の相関係数として、複数の時間差について、互いに当該時間差だけ時間を非同期させた前記音響信号と前記非音響信号との内積に基づく値を算出する、
請求項記載の学習装置。
【請求項7】
前記損失関数は、前記第1の相関係数と前記第2の相関係数とを有するソフトマックス関数である、請求項又は記載の学習装置。
【請求項8】
前記損失関数は、前記音響特徴と前記非音響特徴とを時間的に同期させた前記第1の相関係数を正例として用い、前記音響特徴と前記非音響特徴とを時間的に非同期させた前記第2の相関係数を負例として用いる対照損失を含む、請求項記載の学習装置。
【請求項9】
前記音響特徴算出部は、第3のニューラルネットワークを用いて前記音響信号から前記音響特徴と雑音特徴を算出し、
前記相関係数算出部は、前記雑音特徴と前記非音響特徴とに基づいて第3の相関係数を算出し、
前記更新部は、前記第1の相関係数と前記第2の相関係数と前記第3の相関係数とに基づく前記損失関数を用いて前記第のニューラルネットワーク及び前記第のニューラルネットワークを更新する、
請求項記載の学習装置。
【請求項10】
前記損失関数は、前記音響特徴と前記非音響特徴とを時間的に同期させた前記第1の相関係数を正例として用い、前記音響特徴と前記非音響特徴とを時間的に非同期させた前記第2の相関係数と前記雑音特徴と前記非音響特徴とを時間的に同期させた前記第3の相関係数とを負例として用いる対照損失を含む、請求項記載の学習装置。
【請求項11】
前記損失関数は、前記対照損失と発散損失との和を含み、
前記発散損失は、前記音響特徴と前記雑音特徴との間の距離を評価する関数であり、前記距離に対する罰則を与える、
請求項10記載の学習装置。
【請求項12】
前記非音響信号は、前記音響信号に時間的に同期する画像信号である、請求項記載の学習装置。
【請求項13】
プロセッサに、
音響信号に基づいて音響特徴を算出させる音響特徴算出機能と、
非音響信号に基づいて非音響特徴を算出させる非音響特徴算出機能と、
前記音響特徴と前記非音響特徴とに基づいて相関係数を算出させる機能と、
前記相関係数の閾値に対する比較に基づいて、音声が発せられている時間区間である音声区間及び/又は音声が発せられていない時間区間である非音声区間を検出させる機能と、
を実現させ
前記音響特徴算出機能は、第1の学習済みモデルを用いて前記音響信号から前記音響特徴を算出し、
前記非音響特徴算出機能は、第2の学習済みモデルを用いて前記非音響信号から前記非音響特徴を算出し、
前記相関係数は、時間的に同期する前記音響特徴及び前記非音響特徴に基づいて算出される第1の相関係数と、時間的に非同期する前記音響特徴及び前記非音響特徴に基づいて算出される第2の相関係数とを有し、
前記第1の学習済みモデル及び前記第2の学習済みモデルは、前記第1の相関係数と前記第2の相関係数とを用いた自己教師学習により生成される、
音声区間検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声区間検出装置、学習装置及び音声区間検出プログラムに関する。
【背景技術】
【0002】
音声区間検出(VAD:Voice Activity Detection)とは、入力信号から利用者の発話が含まれる音声区間を検出する技術である。音声区間検出は、主に音声認識の認識精度の改善に用いられたり、音声符号化の分野では、非音声区間でのデータ圧縮を補助するために用いられたりしている。
【0003】
音声区間検出では、入力信号の時間区間から所定の音声を含む音声区間を検出する処理を要する。例えば、処理対象となるフレームが発話等の音声を含む音声区間であるか否かに対してラベル付きの学習データから教師あり学習させたモデルを用いて、入力の音響信号から所定の音声区間を検出する。ラベル付きの学習データを用意する手法としては、人手により付与する方法や自動的に付与する方法があるが、何れの方法にしても、多大な作業付加又は計算負荷を必要とする。
【先行技術文献】
【特許文献】
【0004】
【文献】国際公開第2019/162990号
【文献】特開2011―191423号公報
【非特許文献】
【0005】
【文献】Harwath、David等.“Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input.”、Computer Vision―ECCV2018、9月、8―14頁、2018年、Munich、Germany、edited by V. Ferrari等、Springer、2018年。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、音声区間検出を軽負荷で実行可能な音声区間検出装置、学習装置及び音声区間検出プログラムを提供することである。
【課題を解決するための手段】
【0007】
実施形態に係る音声区間検出装置は、音響特徴算出部、非音響特徴算出部、相関係数算出部及び検出部を有する。音響特徴算出部は、音響信号に基づいて音響特徴を算出する。非音響特徴算出部は、非音響信号に基づいて非音響特徴を算出する。相関係数算出部は、前記音響特徴と前記非音響特徴とに基づいて相関係数を算出する。検出部は、前記相関係数の閾値に対する比較に基づいて、音声が発せられている時間区間である音声区間及び/又は音声が発せられていない時間区間である非音声区間を検出する。
【図面の簡単な説明】
【0008】
図1】音声区間検出装置の構成例を示す図
図2】音声区間検出処理の流れの一例を示す図
図3】音声区間検出処理を模式的に示す図
図4】入力信号(ビデオ信号)、音響信号及び画像信号の一例を示す図
図5】音響信号及び音響特徴の関係を示す図
図6】画像信号及び画像特徴の関係を示す図
図7】同期相関係数及び非同期相関係数の一例を示す図
図8】音声区間の検出例を示す図
図9】学習装置の構成例を示す図
図10】学習処理の流れの一例を示す図
図11】学習処理を模式的に示す図
図12】同期相関係数と非同期相関係数との算出例を示す図
図13】応用例に係る音声区間検出処理を模式的に示す図
図14】応用例に係る学習処理を模式的に示す図
図15】応用例に係る同期相関係数及び非同期相関係数の算出例を示す図
【発明を実施するための形態】
【0009】
以下、図面を参照しながら本実施形態に係わる音声区間検出装置、学習装置及び音声区間検出プログラムを説明する。
【0010】
図1は、音声区間検出装置100の構成例を示す図である。音声区間検出装置100は、入力信号の音声区間を検出するコンピュータである。図1に示すように、音声区間検出装置100は、処理回路11、記憶装置12、入力機器13、通信機器14、表示機器15及び音響機器16を有する。
【0011】
処理回路11は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路11は、記憶装置12に記憶されている音声区間検出プログラムを実行することにより、入力信号の音声区間を検出する音声区間検出処理を実行する。音声区間検出プログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されている。処理回路11は、当該音声区間検出プログラムを当該記録媒体から読み出して実行することにより取得部111、音響特徴算出部112、非音響特徴算出部113、特徴相関係数算出部114、音声区間検出部115及び出力制御部116を実現する。なお、音声区間検出プログラムは、取得部111、音響特徴算出部112、非音響特徴算出部113、特徴相関係数算出部114、音声区間検出部115及び出力制御部116の機能を分割して実装した複数のモジュールを有してもよい。
【0012】
処理回路11のハードウェア実装は上記態様のみに限定されない。例えば、取得部111、音響特徴算出部112、非音響特徴算出部113、特徴相関係数算出部114、音声区間検出部115及び/又は出力制御部116を実現する特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の回路により構成されてもよい。取得部111、音響特徴算出部112、非音響特徴算出部113、特徴相関係数算出部114、音声区間検出部115及び/又は出力制御部116は、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。
【0013】
取得部111は、同一音声発生源に関する音響信号と非音響信号とを取得する。音響信号と非音響信号とは、時系列信号であり、フレーム単位で時間的に同期している。本実施形態に係る音声発生源としては、人間や動物、ロボット等が想定される。以下、音声発生源は人間であるとする。音響信号は、音声発生源である話者による音声に関する信号である。非音響信号は、当該音響信号と略同時に収集された、当該話者に関する音響信号以外の信号である。例えば、非音響信号は、発話している話者に関する画像信号や、発話による話者の唇や顔の筋肉の生理反応等に関するセンサ信号等である。
【0014】
音響特徴算出部112は、音響信号の特徴量(以下、音響特徴と呼ぶ)を算出する。音響特徴は、音響信号に基づく値を有し、話者による音声に相関する値を有する。音響特徴は、フレーム毎に算出される。一例として、音響特徴は、第1の学習済みモデルを用いて算出される。第1の学習済みモデルは、音響信号を入力して音響特徴を出力するように訓練されたニューラルネットワークである。第1の学習済みモデルは、記憶装置12等に記憶される。
【0015】
非音響特徴算出部113は、非音響信号の特徴量(以下、非音響特徴と呼ぶ)を算出する。非音響特徴は、非音響信号に基づく値を有し、話者による音声に相関する値を有する。非音響特徴は、フレーム毎に算出される。一例として、非音響特徴は、第2の学習済みモデルを用いて算出される。第2の学習済みモデルは、非音響信号を入力して非音響特徴を出力するように訓練されたニューラルネットワークである。第2の学習済みモデルは、記憶装置12等に記憶される。
【0016】
特徴相関係数算出部114は、音響特徴と非音響特徴算出部113により算出された非音響特徴とに基づいて相関係数を算出する。以下、特徴相関係数算出部114により算出される相関係数を特徴相関係数と呼ぶ。特徴相関係数は、音響特徴と非音響特徴との間の相関を表す係数である。特徴相関係数は、音声区間と非音声区間とを判別する尺度として用いられる。音声区間は入力信号の時間区間のうちの音声が発せられている時間区間であり、非音声区間は入力信号の時間区間のうちの音声が発せられていない時間区間である。特徴相関係数は、フレーム毎に算出される。
【0017】
音声区間検出部115は、特徴相関係数の閾値に対する比較に基づいて、音声が発せられている時間区間である音声区間及び/又は音声が発せられていない時間区間である非音声区間を検出する。
【0018】
出力制御部116は、種々の情報を表示機器15や音響機器16を介して表示する。例えば、出力制御部116は、画像信号を表示機器15に表示したり、音響信号を音響機器16を介して出力したりする。
【0019】
記憶装置12は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置12は、処理回路11による種々の演算結果や処理回路11が実行する音声区間検出プログラム等を記憶する。記憶装置12は、コンピュータ読み取り可能な記録媒体の一例である。
【0020】
入力機器13は、ユーザからの各種指令を入力する。入力機器13としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器13からの出力信号は処理回路11に供給される。なお、入力機器13としては、処理回路11に有線又は無線を介して接続されたコンピュータであってもよい。
【0021】
通信機器14は、音声区間検出装置100にネットワークを介して接続された外部機器との間で情報通信を行うためのインタフェースである。通信機器14は、例えば、音響信号及び非音響信号を収集する装置から音響信号及び非音響信号を受信したり、後述の学習装置から第1の学習済みモデル及び第2の学習済みモデルを受信したりする。
【0022】
表示機器15は、種々の情報を表示する。表示機器15としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイその他の当技術分野で知られている他の任意のディスプレイが適宜利用可能である。表示機器15は、プロジェクタでもよい。
【0023】
音響機器16は、電気信号を音声に変換して放射する。音響機器16としては、マグネチックスピーカやダイナミックスピーカ、コンデンサスピーカその他の当技術分野で知られている任意のスピーカが適宜利用可能である。
【0024】
次に、音声区間検出装置100の処理回路11による音声区間検出処理の一例について説明する。なお、以下の説明を具体的に行うため、非音響信号は画像信号であるとする。
【0025】
図2は、処理回路11による音声区間検出処理の流れの一例を示す図である。図3は、当該音声区間検出処理を模式的に示す図である。音声区間検出処理は、処理回路11が記憶装置12等に記憶された音声区間検出プログラムに従い動作することにより実行される。
【0026】
図2及び図3に示すように、取得部111は、音響信号と画像信号とを含む入力信号を取得する(ステップSA1)。入力信号は、時間的に同期した音響信号と画像信号とを含むビデオ信号である。
【0027】
図4は、入力信号(ビデオ信号)、音響信号及び画像信号の一例を示す図である。図4に示すように、ビデオ信号は、時間的に同期した時系列の音響信号と時系列の画像信号とを含む時系列信号である。ビデオ信号の時間区間の長さは、特に限定されないが、例えば、10秒程度のフレーム長であることが想定される。ビデオ信号は、マイクロフォンと撮像装置とを含むビデオカメラ装置により収集される。音響信号は、マイクロフォンにより収集される。マイクロフォンは、話者の発話に関する音声を集音し、集音した音声の音圧をアナログの電気信号(音響信号)に変換し、当該音響信号をA/D変換してデジタルの時間領域の電気信号(音響信号)に変換する。時間領域の音響信号は、取得部111により取得され、短時間フーリエ変換等により周波数領域の音響信号に変換される。画像信号は、音響信号と略同時に収集される。画像信号は、CCD(Charge Coupled Device)等の複数の撮像素子を含む撮像装置により収集される。撮像装置は、発話している話者を光学的に撮影し、当該話者に関するデジタルの空間領域の画像信号(画像データ)をフレーム単位で生成する。画像信号は、話者の発話に相関することが要請される。画像フレームは、撮影対象として、少なくとも、発話に応じて形態が変形する唇領域を含んでいればよく、話者の顔全体領域を含んでもよいし、全身領域を含んでもよい。画像信号は、取得部111によりフレーム単位で取得される。
【0028】
ここで、時系列の音響信号Aと時系列の画像信号Vとは、下記(1)式に従い定義されるものとする。時系列の音響信号Aは、処理対象となるフレームの時間領域のT次元及び周波数領域のF次元を持つ音響信号である。画像信号Vは、時刻T、縦幅H、横幅W、カラーチャンネルCの次元を有する画像信号である。
【0029】
【数1】
【0030】
ステップSA1が行われると音響特徴算出部112は、第1の学習済みモデルを用いて、ステップSA1により取得された音響信号Aから音響特徴fsを算出する(ステップSA2)。音響特徴fsは、フレーム毎に音響信号Aに基づいて算出される。音響特徴fsは時系列データである。第1の学習済みモデルは、音響信号Aを入力して音響特徴fsを出力するように学習されたニューラルネットワークである。当該ニューラルネットワークとしては、例えば、音響信号Aを音響特徴fsに変換するように学習されたエンコーダネットワークが用いられる。
【0031】
図5は、音響信号及び音響特徴の関係を示す図である。図5に示すように、音響信号は、話者が発する音声の音圧値の時系列の波形データである。音響信号は話者が発する音声に相関する。例えば、音響信号の波高値は話者が発音しているとき比較的高い値を有し、話者が発音していないとき比較的低い値を有する。音響特徴は、その値が音響信号の波高値に相関を有するように、換言すれば、音響信号に含まれる音声成分と無音成分とを判別するように設計される。例えば、音響信号の波高値が高いほど音響特徴の値は高く、音響信号の波高値が低いほど音響特徴の値は低い。
【0032】
例えば、図5に示すように、音響特徴は、波高値が上限値「1」と下限値「0」との間の値をとるように設計される。音響信号の波高値が発話しているときの値をとる場合、音響特徴は値「1」をとり、音響信号の波高値が発話していないときの値をとる場合、音響特徴は値「0」をとる。なお、音響特徴が取り得る値は「0」と「1」との2値でもよいし、3個以上の離散値でもよいし、下限値から上限値までの連続値でもよい。
【0033】
ステップSA2が行われると非音響特徴算出部113は、第2の学習済みモデルを用いて、ステップSA1により取得された画像信号Vから画像特徴fvを算出する(ステップSA3)。画像特徴fvは、フレーム毎に画像信号Vに基づいて算出される。すなわち、画像特徴fvは時系列データである。第2の学習済みモデルは、画像信号Vを入力して画像特徴fvを出力するように学習されたニューラルネットワークである。当該ニューラルネットワークとしては、例えば、画像信号Vを画像特徴fvに変換するように学習されたエンコーダネットワークが用いられる。なお、画像特徴fvを算出するにあたり画像信号Vに対する前処理は特段実行される必要はない。
【0034】
図6は、画像信号及び画像特徴の関係を示す図である。図6に示すように、画像信号は、話者が発音しているときの顔部分領域の形態に相関する。画像特徴は、画像信号に含まれる発話成分と非発話成分とを判別するように設計される。具体的には、画像信号が表す話者の唇領域は話者が音声を発しているときと発していないときとで異なる形態を有する。画像特徴は、その値が、話者の顔部分領域の形態に相関を有するように設計される。例えば、話者が口を開けているときほど画像特徴の値は高く、話者が口を閉じているときほど画像特徴の値は低い。
【0035】
例えば、図6に示すように、画像特徴は、波高値が上限値「1」と下限値「0」との間の値をとるように設計される。話者が口を開けているとき画像特徴は値「1」をとり、口を閉じているとき画像特徴は値「0」をとる。なお、画像特徴が取り得る値は「0」と「1」との2値でもよいし、3個以上の離散値でもよいし、下限値から上限値までの連続値でもよい。
【0036】
ステップSA2とステップSA3との順番は、特に限定されず、ステップSA3の後にステップSA2が実行されてもよいし、ステップSA2とステップSA3とが並行して実行されてもよい。
【0037】
ステップSA3が行われると特徴相関係数算出部114は、ステップSA2において算出された音響特徴とステップSA3において算出された画像特徴とに基づいて特徴相関係数を算出する(ステップSA4)。ステップS4において特徴相関係数算出部114は、まず、音響特徴fsと画像特徴fvとの内積に基づく相関係数(以下、第1の特徴相関係数と呼ぶ)Csvを算出する。第1の特徴相関係数Csvは、下記(2)式で表される。
【0038】
【数2】
【0039】
ここでfs(t)は、フレーム時刻t∈{1、2、…、T}での音響特徴ベクトルであり、音響特徴の一例である。fv(t、e、i)は、E次元に圧縮された縦座標e∈{1、2、…、E}及びI次元に圧縮された横座標i∈{1、2、…、I}での画像特徴ベクトルであり、画像特徴の一例である。なお(・)は転置処理を、||・||はL2ノルムを意味する。すなわち、第1の特徴相関係数Csvは、音響特徴fsと画像特徴fvとの間の距離を計るコサイン類似度である。第1の特徴相関係数Csvは、音響特徴fsと画像特徴fvとの間の距離を計る指標であれば、コサイン類似度に限定されず、例えば、ユークリッド距離やマンハッタン距離、マハラノビス距離等でもよい。
【0040】
次に、特徴相関係数算出部114は、第1の特徴相関係数Csv(t,e,i)に基づいて第2の特徴相関係数C’sv(t)を算出する。第2の特徴相関係数C’sv(t)は、フレーム時刻t毎に算出され、具体的には、下記(3)式で表される。max(・)は、次元E及び次元Iに対する最大空間応答のスカラー値を意味する。すなわち、第2の特徴相関係数C’sv(t)は、フレーム時刻t各々について算出され、次元E及び次元Iの複数の組合せ(画素)に対応する複数の第1の特徴相関係数Csvのうちの最大値である。第2の特徴相関係数C’sv(t)は、最終出力形態の特徴相関係数である。なお、第2の特徴相関係数は、縦座標e及び横座標iの複数の組合せに対応する複数の第1の特徴相関係数に基づく値であればよく、例えば、複数の第1の特徴相関係数のうちの最小値や中間値、平均値等の任意分位数でもよい。また、注目する任意の縦座標e及び横座標iの組合せ(画素)における第1の特徴相関係数が第2の特徴相関係数に設定されてもよい。
【0041】
【数3】
【0042】
図7は、特徴相関係数(第2の特徴相関係数)の一例を示す図である。図7に示すように、第2の特徴相関係数は、音響特徴と画像特徴との間の相関を表す係数である。音響特徴の値と画像特徴の値とを同一フレーム時刻毎に乗算することにより第2の特徴相関係数が算出される。換言すれば、特徴相関係数算出部114により算出される第2の特徴相関係数は、時間的に同期した音響特徴と画像特徴とに基づく相関係数を表す。図7に示すように、音響特徴と画像特徴との双方が値「1」である場合、換言すれば、音響特徴と画像特徴との双方が発話を表している場合、第2の特徴相関係数は値「1」をとる。音響特徴と画像特徴との何れか一方が値「0」である場合、換言すれば、音響特徴と画像特徴との何れか一方が発話を表していない場合、第2の特徴相関係数は値「0」をとる。
【0043】
ステップSA4が行われると音声区間検出部115は、ステップSA4において算出された第2の特徴相関係数C’svの閾値ηに対する比較に基づいて音声区間を検出する(ステップSA5)。
【0044】
図8は、音声区間の検出例を示す図である。図8に示すように、フレーム時刻毎に第2の特徴相関係数の値が閾値ηに対して比較される。閾値ηは、発話に対応する値と発話に対応しない値との境に設定される。例えば、第2の特徴相関係数が「1」から「0」までの値をとる場合、閾値ηは「0.5」に設定される。第2の特徴相関係数の値が閾値ηよりも大きい場合、当該フレーム時刻は音声区間であると判定され、第2の特徴相関係数の値が閾値ηよりも小さい場合、当該フレーム時刻は非音声区間であると判定される。当該判定処理をフレーム時刻毎に行うことにより、入力信号に対応する時間区間のうちの音声区間と非音声区間とが検出されることとなる。入力信号のフレーム時刻毎に音声区間又は非音声区間のラベルが割り当てられる。
【0045】
以上により、処理回路11による音声区間検出処理が終了する。音声区間検出後の入力信号は、例えば、音声認識やデータ圧縮等の処理に供される。
【0046】
上記の通り、本実施形態に係る音声区間検出装置100は、音響特徴算出部112、非音響特徴算出部113、特徴相関係数算出部114及び音声区間検出部115を有する。音響特徴算出部112は、音響信号に基づいて音響特徴を算出する。音響特徴は、発音に相関する値を有する。非音響特徴算出部113は、非音響信号に基づいて非音響特徴を算出する。非音響特徴は、発音に相関する値を有する。特徴相関係数算出部114は、音響特徴と非音響特徴とに基づいて特徴相関係数を算出する。音声区間検出部115は、特徴相関係数の閾値に対する比較に基づいて、音声が発せられている時間区間である音声区間及び/又は音声が発せられていない時間区間である非音声区間を検出する。
【0047】
音響特徴及び非音響特徴は、例えば、値が大きい時間区間は音声区間、逆に値が小さい時間区間は非音声区間であるという仮定のもとに設計されている。上記の構成によれば、互いに音声に相関する音響特徴及び非音響特徴間の特徴相関係数を、音声区間と非音声区間とを判別する尺度として用いているので、特徴相関係数を閾値に対して比較することにより、音声区間及び/又は非音声区間を検出することができる。このように、本実施形態によれば、簡易な処理で音声区間を検出することが可能になる。
【0048】
好適には、音響特徴は第1の学習済みモデルを用いて音響信号から算出され、非音響特徴は第2の学習済みモデルを用いて非音響信号から算出される。第1の学習済みモデル及び第2の学習済みモデルは、時間的に同期した音響特徴及び非音響特徴に基づいて算出される特徴相関係数(同期相関係数)と、時間的に非同期した音響特徴及び非音響特徴に基づいて算出される特徴相関係数(非同期相関係数)とに基づいて定義される損失関数を用いた自己教師学習により生成される。本実施形態に係る自己教師学習においては、同期相関係数を正例として用い、非同期相関係数を負例として用いた対照損失に基づいて第1のニューラルネットワーク及び第2のニューラルネットワークが訓練される。このような対照損失を用いることにより、同期相関係数が大きくなり且つ非同期相関係数が小さくなるように、すなわち、音響特徴及び非音響特徴の音声及び非音声の識別能を増強するように、第1のニューラルネットワーク及び第2のニューラルネットワークが訓練される。このような自己教師学習により得られた第1の学習済みモデル及び第2の学習済みモデルを用いて音響特徴及び非音響特徴を得ることにより、音声区間及び/又は非音声区間の検出精度をより向上させることが可能になる。
【0049】
次に、本実施形態に係る学習装置200について説明する。
【0050】
図9は、学習装置200の構成例を示す図である。学習装置200は、音響特徴の算出に用いる第1の学習済みモデルと画像特徴の算出に用いる第2の学習済みモデルとを生成するコンピュータである。図9に示すように、学習装置200は、処理回路21、記憶装置22、入力機器23、通信機器24、表示機器25及び音響機器26を有する。
【0051】
処理回路21は、CPU等のプロセッサとRAM等のメモリとを有する。処理回路21は、記憶装置22に記憶されている学習プログラムを実行することにより、第1の学習済みモデル及び第2の学習済みモデルを自己教師学習する学習処理を実行する。学習プログラムは、非一時的なコンピュータ読み取り可能な記録媒体に記録されている。処理回路21は、当該学習プログラムを当該記録媒体から読み出して実行することにより取得部211、音響特徴算出部212、非音響特徴算出部213、特徴相関係数算出部214、更新部215、判定部216及び出力制御部217を実現する。なお、学習プログラムは、取得部211、音響特徴算出部212、非音響特徴算出部213、特徴相関係数算出部214、更新部215、判定部216及び出力制御部217の機能を分割して実装された複数のモジュールを有してもよい。
【0052】
処理回路21のハードウェア実装は上記態様のみに限定されない。例えば、取得部211、音響特徴算出部212、非音響特徴算出部213、特徴相関係数算出部214、更新部215、判定部216及び/又は出力制御部217を実現する特定用途向け集積回路(ASIC)等の回路により構成されてもよい。取得部211、音響特徴算出部212、非音響特徴算出部213、特徴相関係数算出部214、更新部215、判定部216及び/又は出力制御部217は、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。
【0053】
取得部211は、複数の学習サンプルを有する学習データを取得する。学習サンプルは、音響信号と非音響信号とを含む入力信号である。入力信号は、時系列信号であり、時系列の音響信号と時系列の非音響信号とを含む。上記の通り、非音響信号は、発話している話者に関する画像信号や、発話による話者の唇や顔の筋肉の生理反応等に関するセンサ信号等である。
【0054】
音響特徴算出部212は、第1のニューラルネットワークを用いて音響信号から音響特徴を算出する。音響特徴算出部212により算出される音響特徴は、音響特徴算出部112により算出される音響特徴と同様である。
【0055】
非音響特徴算出部213は、第2のニューラルネットワークを用いて非音響信号から非音響特徴を算出する。非音響特徴算出部213により算出される非音響特徴は、非音響特徴算出部113により算出される非音響特徴と同様である。
【0056】
特徴相関係数算出部214は、時間的に同期する音響特徴と非音響特徴とに基づいて特徴相関係数を算出する。「時間的に同期する」とは、音響特徴のフレーム時刻と非音響特徴のフレーム時刻とが一致することを意味する。この特徴相関係数を同期相関係数と呼ぶ。また、特徴相関係数算出部214は、時間的に非同期する音響特徴と非音響特徴とに基づいて特徴相関係数を算出する。「時間的に非同期する」とは、音響特徴のフレーム時刻と非音響特徴のフレーム時刻とが一致しないことを意味する。この特徴相関係数を非同期相関係数と呼ぶ。
【0057】
更新部215は、同期相関係数と非同期相関係数とに基づく損失関数を用いて第1のニューラルネットワーク及び前記第2のニューラルネットワークを更新する。
【0058】
判定部216は、学習処理の停止条件が充足したか否かを判定する。停止条件が充足していないと判定された場合、音響特徴算出部212による音響特徴の算出と、非音響特徴算出部213による非音響特徴の算出と、特徴相関係数算出部214による同期相関係数の算出と、特徴相関係数算出部214による非同期相関係数の算出と、更新部215による第1のニューラルネットワーク及び第2のニューラルネットワークの更新とが実行される。停止条件が充足したと判定された場合、この時点での第1のニューラルネットワークが第1の学習済みモデルとして、第2のニューラルネットワークが第2の学習済みモデルとして出力される。
【0059】
出力制御部217は、種々の情報を表示機器25や音響機器26を介して表示する。例えば、出力制御部217は、画像信号を表示機器25に表示したり、音響信号を音響機器26を介して出力したりする。
【0060】
記憶装置22は、ROMやHDD、SSD、集積回路記憶装置等により構成される。記憶装置22は、処理回路21による種々の演算結果や処理回路21が実行する学習プログラム等を記憶する。記憶装置22は、コンピュータ読み取り可能な記録媒体の一例である。
【0061】
入力機器23は、ユーザからの各種指令を入力する。入力機器23としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器23からの出力信号は処理回路21に供給される。なお、入力機器23としては、処理回路21に有線又は無線を介して接続されたコンピュータであってもよい。
【0062】
通信機器24は、学習装置200にネットワークを介して接続された外部機器との間で情報通信を行うためのインタフェースである。
【0063】
表示機器25は、種々の情報を表示する。表示機器25としては、CRTディスプレイや液晶ディスプレイ、有機ELディスプレイ、LEDディスプレイ、プラズマディスプレイその他の当技術分野で知られている他の任意のディスプレイが適宜利用可能である。表示機器25は、プロジェクタでもよい。
【0064】
音響機器26は、電気信号を音声に変換して放射する。音響機器26としては、マグネチックスピーカやダイナミックスピーカ、コンデンサスピーカその他の当技術分野で知られている任意のスピーカが適宜利用可能である。
【0065】
次に、学習装置200の処理回路21による学習処理の一例について説明する。なお、以下の説明を具体的に行うため、非音響信号は画像信号であるとする。
【0066】
図10は、処理回路21による学習処理の流れの一例を示す図である。図11は、学習処理を模式的に示す図である。当該学習処理は、処理回路21が記憶装置22等に記憶された学習プログラムに従い動作することにより実行される。当該学習処理において処理回路21は、同期相関係数を正例とし非同期相関係数を負例とする自己教師学習により第1のニューラルネットワーク及び第2のニューラルネットワークを訓練する。第1のニューラルネットワーク及び第2のニューラルネットワークには、学習パラメータの初期値等が割り当てられているものとする。学習パラメータは、重みやバイアス等である。なお、学習パラメータとしては、任意のハイパーパラメータを含んでもよい。
【0067】
図10及び図11に示すように、取得部211は、音響信号Aと画像信号Vとを含む入力信号を取得する(ステップSB1)。ステップSB1において1個の学習サンプルである入力信号が取得される。入力信号の時間区間のフレーム長は、特に限定されないが、例えば、10フレーム程度であるとする。なお、画像信号Vに対しては、唇領域等の、発話に相関する領域の切り出し又はアノテーション付け等の前処理が行われる必要はない。入力信号に含まれる音響信号Aと画像信号Vとは時間的に同期している。
【0068】
ステップSB1が行われると音響特徴算出部212は、第1のニューラルネットワークを用いて、ステップSB1において取得された音響信号Aから音響特徴fsを算出する(ステップSB2)。ステップSB2における第1のニューラルネットワークは、学習が完了していないものとする。第1のニューラルネットワークは、音響信号Aから音響特徴fsを算出可能なように、エンコーダネットワークのアーキテクチャを有している。
【0069】
ステップSB2が行われると非音響特徴算出部213は、第2のニューラルネットワークを用いて、ステップSB1において取得された画像信号Vから画像特徴fvを算出する(ステップSB3)。ステップSB3における第2のニューラルネットワークは、学習が完了していないものとする。第2のニューラルネットワークは、画像信号Vから画像特徴fvを算出可能なように、エンコーダネットワークのアーキテクチャを有している。
【0070】
ステップSB2とステップSB3との順番は、特に限定されず、ステップSB3の後にステップSB2が実行されてもよいし、ステップSB2とステップSB3とが並行して実行されてもよい。
【0071】
ステップSB3が行われると特徴相関係数算出部214は、ステップSB2において算出された音響特徴fsとステップSB3において算出された画像特徴fvとを時間的に同期させて特徴相関係数(同期相関係数)を算出する(ステップSB4)。ステップSB4が行われると特徴相関係数算出部214は、ステップSB2において算出された音響特徴とステップSB3において算出された画像特徴とを時間的に非同期させて特徴相関係数(非同期相関係数)を算出する(ステップSB5)。ステップSB4及びSB5において算出される特徴相関係数は、時間的に同期させる及び/又は非同期させる操作を実施すること以外、ステップSA4において算出される特徴相関係数と同一である。
【0072】
図12は、同期相関係数と非同期相関係数との算出例を示す図である。まず、同期相関係数の算出例について説明する。図12に示すように、処理回路21は、画像特徴fvと音響特徴fsとのフレーム時刻を同期させたうえで、画像特徴fvと音響特徴fsとの内積に基づく第1の同期相関係数Csvsyncedを算出する。時間的に同期した画像特徴fv及び音響特徴fsは、それぞれ画像特徴fv(t)及び音響特徴fs(t)のように表記することも可能である。この場合、画像特徴fv(t)と音響特徴fs(t)との時間差qは、q=0である。
【0073】
より詳細には、第1の同期相関係数Csvsyncedは、下記(4)式で表される。第1の同期相関係数Csvsyncedは、ステップSA4において算出される第1の特徴相関係数Csvと同一である。
【数4】
【0074】
次に、処理回路21は、第1の同期相関係数Csvsyncedに基づいて、第2の同期相関係数Csvsynced’(t)を算出する。第2の特徴相関係数Csvsynced’(t)は、次元E及び次元Iに対する最大空間応答のスカラー値として算出され、具体的には、下記(5)式で表される。第2の同期相関係数Csvsynced’(t)は、ステップSA4において算出される第2の特徴相関係数C’sv(t)と同一である。
【0075】
【数5】
【0076】
次に非同期相関係数の算出例について説明する。図12に示すように、処理回路21は、画像特徴fvと音響特徴fsとのフレーム時刻を時間差qだけ非同期させたうえで、画像特徴fvと音響特徴fsとの内積に基づく第1の非同期相関係数Csvunsyncedを算出する。具体的には、処理回路21は、画像特徴fv(t)のフレーム時刻tは固定し、音響特徴fsについては、画像特徴fvのフレーム時刻tに対して時間差q∈{-1、-2、…、-(T-1)}だけシフトし、音響特徴fs(t-1)、fs(t-2)、・・・、fs(-(t-1))を生成する。そして処理回路21は、各時間差qについて、画像特徴fv(t)と画像特徴fs(t+q)との内積に基づく第1の非同期相関係数Csvunsyncedを算出する。例えば、入力信号の時間区間が10秒である場合、時間差が1秒、2秒、・・・、9秒に設定され、時間差毎に第1の非同期相関係数Csvunsyncedが算出されるとよい。なお、時間差qは、入力信号の時間区間Tよりも短い値であれば、任意の値に設定可能である。時間差qの個数も1以上であればよく、特に限定されない。
【0077】
より詳細には、第1の非同期相関係数Csvunsynced(t+q,e,i)は、下記(6)式で表される。ここでfs(t+q)は、フレーム時刻t∈{1、2、…、T}での音響特徴ベクトルであり、音響特徴の一例である。fv(t、e、i)は、E次元に圧縮された縦座標e∈{1、2、…、E}及びI次元に圧縮された横座標i∈{1、2、…、I}での画像特徴ベクトルであり、画像特徴の一例である。すなわち、第1の非同期相関係数Csvunsynced(t+q,e,i)は、音響特徴fsと画像特徴fvとの間の距離を計るコサイン類似度である。第1の非同期相関係数Csvunsyncedは、音響特徴fsと画像特徴fvとの間の距離を計る指標であれば、コサイン類似度に限定されず、例えば、ユークリッド距離やマンハッタン距離、マハラノビス距離等でもよい。
【0078】
【数6】
【0079】
次に、処理回路21は、第1の非同期相関係数Csvunsynced(t+q,e,i)に基づいて、第2の非同期相関係数Csvunsynced’(t+q)を算出する。第2の非同期相関係数Csvunsynced’(t+q)は、次元E及び次元Iに対する最大空間応答のスカラー値として算出され、具体的には、下記(7)式で表される。すなわち、第2の非同期相関係数Csvunsynced’(t+q)は、フレーム時刻t各々について算出され、縦座標e及び横座標iの複数の組合せに対応する複数の第1の非同期相関係数Csvunsynced(t+q,e,i)のうちの最大値である。第2の非同期相関係数Csvunsynced’(t+q)は、最終出力形態の非同期相関係数である。なお、第2の非同期相関係数は、縦座標e及び横座標iの複数の組合せに対応する複数の非同期相関係数に基づく値であればよく、例えば、複数の非同期相関係数のうちの最小値や中間値、平均値等の任意分位数でもよい。また、注目する任意の縦座標e及び横座標iの組合せ(画素)における第1の非同期相関係数が第2の非同期相関係数に設定されてもよい。
【0080】
【数7】
【0081】
なお、ステップSB2からステップSB5までの順番は上記例のみに限定されない。例えば、ステップSB2→SB4→SB3→SB5の順番で実施されてもよい。また、ステップSB2→SB4とステップSB3→SB5とが並列して実行されてもよい。
【0082】
ステップSB5が行われると更新部215は、ステップSB4において算出された第2の同期相関係数Csvsynced’(t)とステップSB5において算出された第2の非同期相関係数Csvunsynced’(t)とに基づく損失関数を用いて第1のニューラルネットワーク及び第2のニューラルネットワークを更新する(ステップSB6)。ステップSB6において更新部215は、損失関数として対照損失を計算する。
【0083】
対照損失は、同期相関係数Csvsynced’(t)を正ペアとし、非同期相関係数Csvunsynced’(t)を負ペアとする損失関数である。正ペアとは、時間的に同期した音響特徴と画像特徴との組合せを意味し、正例として機能する。負ペアとは、時間的に非同期した音響特徴と画像特徴との組合せを意味し、負例として機能する。対照損失は、自己教師学習の損失関数に用いられ、同期相関係数と非同期相関係数との間の距離を評価する尺度である。具体的には、下記(8)式で表されるように、同期相関係数Csvsynced’(t)と、互いに時間差qが異なる複数の非同期相関係数Csvunsynced’(t)の積分値とに基づくソフトマックス関数形式により対照損失Lcontrastiveが表される。
【0084】
【数8】
【0085】
更新部215は、任意の最適化法に従い、対照損失Lcontrastiveが最小化するように第1のニューラルネットワーク及び第2のニューラルネットワークの学習パラメータを並行して更新する。最適化法は、確率的勾配降下法やAdam(adaptive moment estimation)等の任意の方法が用いられればよい。対照損失Lcontrastiveを最小化することにより、同期相関係数が大きくなり且つ非同期相関係数が小さくなるように、換言すれば、正ペアに関する音響特徴及び画像特徴間の距離が小さく(類似度が大きく)なり且つ負ペアに関する音響特徴及び画像特徴間の距離が大きく(類似度が小さく)なるように、第1のニューラルネットワーク及び第2のニューラルネットワークの学習パラメータが訓練される。これにより、第1のニューラルネットワークが出力する音響特徴と第2のニューラルネットワークが出力する画像特徴とが相関することとなる。例えば、あるフレーム時刻の音響特徴が大きい値をとるとき同フレーム時刻の画像特徴も大きい値をとるように、あるいは、あるフレーム時刻の音響特徴が小さい値をとるとき同フレーム時刻の画像特徴も小さい値をとることが可能になる。よって、第1のニューラルネットワーク及び第2のニューラルネットワークによる、音響特徴及び非音響特徴の音声及び非音声の高い識別能を獲得することが可能になる。
【0086】
ステップSB6が行われると判定部216は、停止条件を充足するか否かを判定する(ステップSB7)。停止条件は、例えば、学習パラメータの更新回数が所定回数に到達したことや学習パラメータの更新量が閾値未満であること等に設定されるとよい。停止条件が充足していないと判定された場合(ステップSB7:NO)、取得部211は、他の音響信号及び画像信号を取得する(ステップSB1)。そして、当該他の音響信号及び画像信号について、音響特徴算出部212による音響特徴の算出(ステップSB2)と、非音響特徴算出部213による非音響特徴の算出(ステップSB3)と、特徴相関係数算出部214による同期相関係数の算出(ステップSB4)と、特徴相関係数算出部214による非同期相関係数の算出(ステップSB5)と、更新部215による第1のニューラルネットワーク及び第2のニューラルネットワークの更新(ステップSB6)と、判定部216による停止条件の充足の判定(ステップSB7)とが順番に実行される。
【0087】
なお、1個の学習サンプルについてステップSB2からSB7が繰り返されてもよいし(バッチ学習)、複数個の学習サンプルについてステップSB2からSB7が繰り返されてもよい(ミニバッチ学習)。
【0088】
そして、ステップSB7において停止条件が充足すると判定された場合(ステップSB7:YES)、判定部216は、停止条件を充足した時点での第1のニューラルネットワークを第1の学習済みモデルとして、第2のニューラルネットワークを第2の学習済みモデルとして出力する(ステップSB8)。第1の学習済みモデルと第2の学習済みモデルとは、通信機器24等を介して音声区間検出装置100に送信され、記憶装置12に記憶される。
【0089】
ステップSB8が行われると処理回路21による学習処理が終了する。
【0090】
なお、図10に示す学習処理は、一例であり、本実施形態はこれに限定されない。例えば、上記実施形態においては、画像特徴に対して音響特徴を時間差qで非同期させるものとしたが、音響特徴に対して画像特徴を時間差qで非同期させてもよい。
【0091】
上記の通り、学習装置200は、少なくとも音響特徴算出部212、非音響特徴算出部213、特徴相関係数算出部214及び更新部215を有する。音響特徴算出部212は、第1のニューラルネットワークを用いて音響信号から音響特徴を算出する。非音響特徴算出部213は、第2のニューラルネットワークを用いて非音響信号から非音響特徴を算出する。特徴相関係数算出部214は、時間的に同期する音響特徴と非音響特徴とに基づいて同期相関係数を算出し、時間的に非同期する音響特徴と非音響特徴とに基づいて非同期相関係数を算出する。更新部215は、同期相関係数と非同期相関係数とに基づく損失関数を用いて第1のニューラルネットワーク及び第2のニューラルネットワークを更新する。
【0092】
上記の構成によれば、時間的に同期した音響特徴及び非音響特徴に基づいて算出される特徴相関係数(同期相関係数)と、時間的に非同期した音響特徴及び非音響特徴に基づいて算出される特徴相関係数(非同期相関係数)とに基づいて定義される損失関数を用いた自己教師学習により第1のニューラルネットワーク及び第2のニューラルネットワークを更新することができる。本実施形態によれば、上記損失関数を用いるので、音声及び非音声の識別能の高い音響特徴を算出可能な第1の学習済みモデルと音声及び非音声の識別能の高い画像特徴(非音響特徴)を算出可能な第2の学習済みモデルを生成することが可能である。ひいては、音声区間検出装置100は、当該第1の学習済みモデルにより算出された音響特徴及び第2の学習済みモデルにより算出された画像特徴(非音響特徴)を用いて音声区間及び/又は非音声区間を検出するので、高精度に音声区間及び/又は非音声区間を検出することが可能である。
【0093】
例えば、特許文献1及び2に開示された技術は、教師あり学習方法であり、性能を高めるため大量の学習データに非音声時間区間に対する正確な事前教師作業を要する。特許文献2に開示された技術は、映像での唇領域検出処理や唇の横方向・縦方向の長さに対して正確な値を得るための事前推定処理も要している。本実施形態に係る学習方法によれば、同期相関係数を正例として用い非同期相関係数を負例として用いる自己教師学習を行うので、教師ラベルの作業を省略することができる。
【0094】
(応用例)
次に、本実施形態の応用例に係る音声区間検出装置100及び学習装置200について説明する。上記実施形態では、音響信号の集音環境については特に言及しなかった。応用例は、雑音環境下での音声区間及び/又は非音声区間検出について説明する。なお以下の説明において、本実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
【0095】
図13は、応用例に係る音声区間検出処理を模式的に示す図である。図13に示すように、取得部111は、音響信号Aと画像信号Vとを含む入力信号を取得する。音響信号Aには環境雑音(ノイズ)が含まれるものとする。本実施形態に係る環境雑音は、話者の音声以外の音であり、集音時において実際に発せられていた雑音でもよいし、マイクロフォン以後の回路において生じた雑音でもよい。
【0096】

音響特徴算出部112は、音響信号Aを第3の学習済みモデルに入力して音響特徴fsと雑音特徴fnとを出力する。第3の学習済みモデルは、応用例に係る学習装置200により生成される。雑音特徴fnは、音響信号Aに対して雑音の寄与が高いほど高い値を有し、雑音の寄与が低いほど低い値を有する。例えば、雑音特徴fnは、上限値「1」から下限値「0」までの値をとるように設計される。第3の学習済みモデルは、音響信号Aを入力して音響特徴fsと雑音特徴fnとを出力するように学習されたニューラルネットワークである。当該ニューラルネットワークとしては、例えば、音響信号Aを音響特徴fsと雑音特徴fnとに変換するように学習されたエンコーダネットワークが用いられる。後述のように第3の学習済みモデルは、音響特徴fsと雑音特徴fnとを判別して学習している。よって音響特徴fsは、話者が発している音声の寄与が支配的であり、雑音特徴fnは、話者が発している音声以外の音声である雑音の寄与が支配的であることが期待される。
【0097】
非音響特徴算出部113は、画像信号Vを第2の学習済みモデルに入力して画像特徴fvを出力する。特徴相関係数算出部114は、音響特徴fsと画像特徴fvとに基づいて第1の特徴相関係数Csvを算出し、第1の特徴相関係数Csvに基づいて第2の特徴相関係数C’svを算出する。音声区間検出部115は、第2の特徴相関係数C’svの閾値ηに対する比較に基づいて音声区間及び/又は非音声区間を検出する。
【0098】
応用例によれば、雑音特徴fnとは判別して出力された音響特徴fsを用いて音声区間及び/又は非音声区間を検出しているので、上記実施形態に比して検出能が高まることが期待される。
【0099】
図14は、応用例に係る学習処理を模式的に示す図である。図14に示すように、取得部211は、音響信号Aと画像信号Vとを含む入力信号(学習サンプル)を取得する。音響特徴算出部212は、音響信号Aを第3のニューラルネットワークに入力して音響特徴fsと雑音特徴fnとを出力する。第3のニューラルネットワークは、音響信号Aから音響特徴fsと雑音特徴fnとを算出可能なように、エンコーダネットワークのアーキテクチャを有している。非音響特徴算出部213は、画像信号Vを第2のニューラルネットワークに入力して画像特徴fvを出力する。
【0100】
図14に示すように、特徴相関係数算出部214は、時間的に同期した雑音特徴fnと画像特徴fvとに基づいて第1の同期相関係数Cnvsyncedを算出する。より詳細には、特徴相関係数算出部214は、まず、雑音特徴fnと画像特徴fvとの内積に基づく第1の同期相関係数Cnvsyncedを算出する。第1の同期相関係数Cnvsyncedとしては、例えば、下記(9)式で表されるような、雑音特徴fnと画像特徴fvとの間の距離を評価するコサイン類似度が用いられる。なお、第1の同期相関係数Cnvsyncedは、雑音特徴fnと画像特徴fvの間の距離を計る指標であれば、コサイン類似度に限定されず、例えば、ユークリッド距離やマンハッタン距離、マハラノビス距離等でもよい。
【0101】
【数9】
【0102】
次に、特徴相関係数算出部214は、第1の同期相関係数Cnvsyncedに基づいて第2の同期相関係数Cnvsynced’を算出する。第2の同期相関係数Cnvsynced’は、フレーム時刻t毎にスカラー値として算出され、具体的には、下記(10)式で表される。なお、第2の同期相関係数は、縦座標e及び横座標iの複数の組合せに対応する複数の第1の同期相関係数に基づく値であればよく、例えば、複数の第1の同期相関係数のうちの最小値や中間値、平均値等の任意分位数でもよい。また、注目する任意の縦座標e及び横座標iの組合せ(画素)における第1の同期相関係数が第2の同期相関係数に設定されてもよい。
【0103】
【数10】
【0104】
また、特徴相関係数算出部214は、図14に示すように、上記実施形態と同様、時間的に同期した音響特徴fsと画像特徴fvとに基づいて第1の同期相関係数Csvsyncedを算出し、第1の同期相関係数Csvsyncedに基づいて第2の特徴相関係数Csvsynced’を算出する。特徴相関係数算出部214は、時間的に非同期した音響特徴fsと画像特徴fvとに基づいて第1の非同期相関係数Csvunsyncedを算出し、第1の非同期相関係数Csvunsyncedに基づいて第2の非同期相関係数Csvunsynced’を算出する。
【0105】
図15は、同期相関係数及び非同期相関係数の算出例を示す図である、図15に示すように、特徴相関係数算出部214は、上記実施形態と同様、画像特徴fvに対する音響特徴fsの時間差qを0からT-1まで変化させながら同期相関係数Csvsyncedと複数の非同期相関係数Csvunsyncedとを算出する。特徴相関係数算出部214は、画像特徴fvと雑音特徴fnとに基づいて同期相関係数Cnvsyncedを算出する。環境雑音は時間的に略一定と見做しているため、雑音特徴fnも時間的に略一様であると仮定していることによる。
【0106】
図14に示すように、更新部215は、雑音特徴及び画像特徴間の同期相関係数Cnvsynced’と、音響特徴及び画像特徴間の同期相関係数Csvsynced’と、音響特徴及び画像特徴間の非同期相関係数Csvunsynced’に基づいて損失関数を算出する。応用例に係る損失関数Ltotalは、下記(11)式のように、対照損失Lcontrastiveと発散損失Ldivergenceとの和として定義される。
【0107】
【数11】
【0108】
応用例に係る対照損失Lcontrastiveは、同期相関係数Csvsynced’(t)を正ペアとし、非同期相関係数Csvunsynced’(t)及び同期相関係数Cnvsynced’を負ペアとする損失関数である。時間的に同期した雑音特徴及び画像特徴間の同期相関係数Cnvsynced’は、当該同期相関係数Cnvsynced’と時間的に同期した音響特徴及び画像特徴間の同期相関係数Csvsynced’とを判別するように学習したいので、負ペアとして用いられる。下記(12)式で表されるように、応用例に係る対照損失Lcontrastiveは、同期相関係数Csvsynced’(t)と、互いに時間差qが異なる複数の非同期相関係数Csvunsynced’(t)の積分と、同期相関係数Cnvsynced’とに基づくソフトマックス関数形式で表される。
【0109】
【数12】
【0110】
発散損失Ldivergenceは、音響特徴fsと雑音特徴fnとの間の距離を評価する関数である。発散損失Ldivergenceは、音響特徴fsと雑音特徴fnとの間の距離が大きくなるように、当該距離に対して罰則を与える。例えば、発散損失Ldivergenceは、下記(13)式に示すように、音響特徴fsと雑音特徴fnとのコサイン類似度に基づき計算される。
【0111】
【数13】
【0112】
更新部215は、任意の最適化法に従い、応用例に係る損失関数が最小化するように第3のニューラルネットワーク及び第2のニューラルネットワークの学習パラメータを並行して更新する。判定部216は、停止条件を充足するか否かを判定し、停止条件が充足していないと判定された場合、他の学習サンプルについて、音響特徴算出部212による音響特徴及び雑音特徴の算出と、非音響特徴算出部213による非音響特徴の算出と、特徴相関係数算出部214による同期相関係数の算出と、特徴相関係数算出部214による非同期相関係数の算出と、更新部215による第3のニューラルネットワーク及び第2のニューラルネットワークの更新と、判定部216による停止条件の充足の判定とが順番に実行される。そして、停止条件が充足すると判定された場合、判定部216は、停止条件を充足した時点での第3のニューラルネットワークを第3の学習済みモデルとして、第2のニューラルネットワークを第2の学習済みモデルとして出力する。なお、停止条件は、例えば、学習パラメータの更新回数が所定回数に到達したことや学習パラメータの更新量が閾値未満であること等に設定されるとよい。
【0113】
応用例に係る損失関数を最小化することにより、音響特徴と雑音特徴との距離を大きく(類似度を小さく)しつつ、正ペアに関する音響特徴及び画像特徴間の距離が小さく(類似度が大きく)なり且つ負ペアに関する音響特徴及び画像特徴間の距離が大きく(類似度が小さく)なるように、第3のニューラルネットワーク及び第2のニューラルネットワークの学習パラメータが訓練される。これにより、第3のニューラルネットワークが出力する音響特徴と雑音特徴とが相関せず、且つ第3のニューラルネットワークが出力する音響特徴と第2のニューラルネットワークが出力する画像特徴とが相関することとなる。よって、応用例によれば、音響特徴と雑音特徴を判別することができるので、音響特徴及び非音響特徴の音声及び非音声の識別能を高めることが可能になる。
【0114】
上記の実施形態は、一例であり、種々の変形が可能である。例えば、音響信号は、音声信号であるとしたが、音声信号を分解した声帯信号又は声道信号でもよい。また、音響信号は、時間領域又は周波数領域における音圧値の波形データであるとしたが、当該波形データを任意の空間に変換したデータでもよい。
【0115】
上記の実施形態において音声区間検出装置100は、音響特徴を第1又は第3の学習済みモデルを用いて、画像特徴を第2の学習済みモデルを用いて算出するものとした。しかしながら、音響特徴及び画像特徴は、話者が発する音声に相関していればよく、学習済みモデルを用いて算出しなくてもよい。例えば、音声と無音とを判別する閾値が設定され、音響信号の波高値が閾値よりも高い場合、音響特徴は「1」に設定され、閾値よりも低い場合、音響特徴は「0」に設定されてもよい。また、唇領域の画像信号を画像処理して唇領域の幾何学的特徴量を算出し、口が開いている特徴量を有する場合、画像特徴は「1」に設定され、口が閉じている特徴量を有する場合、画像特徴は「0」に設定されてもよい。また、人手により音響特徴及び画像特徴の値が割り振られてもよい。
【0116】
かくして、上記の実施形態によれば、音声区間検出を軽負荷で実行することが可能になる。
【0117】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0118】
11…処理回路、12…記憶装置、13…入力機器、14…通信機器、15…表示機器、16…音響機器、21…処理回路、22…記憶装置、23…入力機器、24…通信機器、25…表示機器、26…音響機器、100…音声区間検出装置、111…取得部、112…音響特徴算出部、113…非音響特徴算出部、114…特徴相関係数算出部、115…音声区間検出部、116…出力制御部、200…学習装置、211…取得部、212…音響特徴算出部、213…非音響特徴算出部、214…特徴相関係数算出部、215…更新部、216…判定部、217…出力制御部。

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15