(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-19
(45)【発行日】2024-12-27
(54)【発明の名称】表示装置および表示方法
(51)【国際特許分類】
G10L 25/48 20130101AFI20241220BHJP
G10L 21/12 20130101ALN20241220BHJP
G10L 21/14 20130101ALN20241220BHJP
【FI】
G10L25/48 100
G10L21/12
G10L21/14
(21)【出願番号】P 2020217787
(22)【出願日】2020-12-25
【審査請求日】2023-06-21
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】弁理士法人栄光事務所
(72)【発明者】
【氏名】藤井 亮太
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平06-019496(JP,A)
【文献】米国特許出願公開第2018/0144191(US,A1)
【文献】特開2000-047683(JP,A)
【文献】特開2011-197124(JP,A)
【文献】特開2010-191337(JP,A)
【文献】特開2005-032015(JP,A)
【文献】特開平03-039797(JP,A)
【文献】特開昭60-123000(JP,A)
【文献】韓国公開特許第10-2019-0121534(KR,A)
【文献】鷹見淳一 他,"半自動音声ラベリングシステムの開発",RICOH TECHNICAL REPORT,2001年12月01日,No.27,pp.43-51
【文献】橋本諭 他,"自己相関による音声の基本周波数抽出における適応分析窓長",電子情報通信学会技術研究報告,2005年05月13日,Vol.105, No.56,pp.31-36
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00 -25/93
G06F 3/048- 3/04895
(57)【特許請求の範囲】
【請求項1】
音声データを表示するモニタに接続された表示装置であって、
前記表示装置は、
プロセッサと、
メモリと、を備え、
前記プロセッサは、
音声データの信号波形を前記モニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間のうち前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、
前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第
2の所定区間を決定し、
前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す
第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第
2の対象区間を示す
第2の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力
し、
前記第1の枠線および前記第2の枠線は、矩形以外の形状である、
表示装置。
【請求項2】
前記矩形以外の形状は、前記矩形以外の多角形形状もしくは真円以外の円形状である、
請求項1に記載の表示装置。
【請求項3】
前記矩形以外の多角形形状は、三角形またはひし形であり、
前記真円以外の円形状は、楕円である、
請求項2に記載の表示装置。
【請求項4】
前記プロセッサは、前記指定区間を示す枠線を前記信号波形に重畳した画面を生成して前記モニタに出力する、
請求項1に記載の表示装置。
【請求項5】
前記対象区間は、機械学習に使用される学習対象区間である、
請求項
4に記載の表示装置。
【請求項6】
音声データを表示するモニタと、
前記モニタに前記音声データの信号波形が表示された上で、前記音声データに対してユーザによる指定区間の指定操作を受け付ける入力部と、
指定された前記指定区間から前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第
2の所定区間を決定し、前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す
第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第
2の対象区間を示す
第2の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力するプロセッサと、を備え
、
前記第1の枠線および前記第2の枠線は、矩形以外の形状である、
表示装置。
【請求項7】
端末装置が行う表示方法であって、
音声データの信号波形をモニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間から前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、
前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第
2の所定区間を決定し、
前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す
第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第
2の対象区間を示す
第2の枠線とを、前記信号波形に重畳した画面を生成して出力
し、
前記第1の枠線および前記第2の枠線は、矩形以外の形状である、
表示方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声学習支援装置および音声学習支援方法に関する。
【背景技術】
【0002】
特許文献1には、時間に従って記録された数値の系列である時系列データから、時系列データの部分的な形、またはそれらの組み合わせを発見、出力するための装置であって、ポインティングデバイスによってユーザの想定する時系列データの形状を入力可能な機能とその組み合わせ方を指定可能な手段を含む装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、上述した従来の状況に鑑みて案出され、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する音声学習支援装置および音声学習支援方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
本開示は、音声データを表示するモニタに接続された表示装置であって、前記表示装置は、プロセッサと、メモリと、を備え、前記プロセッサは、音声データの信号波形を前記モニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間のうち前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第2の所定区間を決定し、前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第2の対象区間を示す第2の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力し、前記第1の枠線および前記第2の枠線は、矩形以外の形状である、表示装置を提供する。
【0006】
また、本開示は、音声データを表示するモニタと、前記モニタに前記音声データの信号波形が表示された上で、前記音声データに対してユーザによる指定区間の指定操作を受け付ける入力部と、指定された前記指定区間から前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第2の所定区間を決定し、前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第2の対象区間を示す第2の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力するプロセッサと、を備え、前記第1の枠線および前記第2の枠線は、矩形以外の形状である、表示装置を提供する。
【0007】
また、本開示は、端末装置が行う表示方法であって、音声データの信号波形をモニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間から前記モニタに表示される少なくとも第1の対象区間および第2の対象区間を決定し、前記第1の対象区間の始点位置から第1の所定区間ずらした位置を前記第1の対象区間の終点位置とし、前記第1の対象区間の始点位置から第2の所定区間ずらした位置を前記第2の対象区間の始点位置とし、前記第2の対象区間の始点から第1の所定区間ずらした位置を前記第2の対象区間の終点位置として決定すると共に、前記第2の対象区間が前記第1の対象区間と重なるように前記第2の所定区間を決定し、前記第1の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す第1の枠線と、前記第2の対象区間の始点位置および終点位置を含む前記第1の対象区間を示す第2の枠線とを、前記信号波形に重畳した画面を生成して出力し、前記第1の枠線および前記第2の枠線は、矩形以外の形状である、表示方法を提供する。
【発明の効果】
【0008】
本開示によれば、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援できる。
【図面の簡単な説明】
【0009】
【
図1】実施の形態に係る端末装置の内部構成例を示すブロック図
【
図2】実施の形態に係る端末装置のアノテーション編集用ソフトウェアにおける機能構成例を示すブロック図
【
図3】ユーザ操作受付部における動作手順例を示すフローチャート
【
図4】学習対象区間自動決定部における学習対象区間の自動決定手順例を示すフローチャート
【
図5】ユーザにより指定された指定区間と複数の学習対象区間のそれぞれとを説明する図
【
図7】学習対象区間自動補正部における学習対象区間の除外処理手順例を示すフローチャート
【
図8】学習対象区間自動補正部における学習対象区間の補正処理手順例を示すフローチャート
【
図9】除外処理および補正処理後の学習対象区間の一例を示す図
【発明を実施するための形態】
【0010】
(実施の形態に至る経緯)
近年、AI(Artificial Intelligence)を利用した音声識別アプリケーションがある。音声識別アプリケーションは、マイクを通して収音された音声に基づいて、特定の音(例えば、市街に発生している音、異常音等)、あるいは人の感情を識別する。しかし、このような音声識別アプリケーションは、識別対象の音声を識別可能にするために、機械学習用データとして収音された音声のうち識別対象である音声を示すためにアノテーション処理を行う必要があった。
【0011】
ここで、音声識別のためのアノテーション方法は、音声と文章とを関連付けたり、1つの音声ファイルに対して1つのラベル(例えば、識別対象を示すラベル)を関連付けたり、あるいは1つの音声ファイルのうち任意に選択された時間軸上の始点と終点とに基づく1つの学習対象区間を1つのラベルとして関連付けたりする方法がある。音声と文章とを関連付けるアノテーション方法は、ユーザによって手作業で行われるため、作業量が多く手間がかかった。
【0012】
しかし、ラベルが関連付けられた学習対象区間に学習に不適切な区間(例えば所定時間以上の無音区間)が含まれる場合、音声識別アプリケーションは、有効な学習を行えない可能性があった。具体的に、AIを用いた音声識別処理は、一定時間区間(例えば、100ms,1s等)の音声に対して実行され、任意の長さの学習対象区間を学習する場合には、選択された学習対象区間が一定時間区間ごとに分割され、分割された一定時間区間ごとに識別対象の学習および推定が実行される。音声識別アプリケーションは、分割された一定時間区間が学習に不適切な区間である場合、この不適切な区間を識別対象として学習するため、学習が有効に行うことができないことがあった。さらに、この音声識別アプリケーションの学習は、内部処理として実行されるため、学習対象区間に学習に不適切な区間を含んでいるか否かをユーザが知ることができなかった。
【0013】
以下、適宜図面を参照しながら、本開示に係る音声学習支援装置および音声学習支援方法の構成および作用を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0014】
ここで、以下の説明で使用される用語は、例示であり、限定を意図していない。例えば、「区間」、「位置」の用語は、音声データ12B上の再生時間を含む。
【0015】
まず、
図1を参照して、実施の形態に係る音声学習支援装置の一例としての端末装置P1の内部構成について説明する。
図1は、実施の形態に係る端末装置P1の内部構成例を示すブロック図である。
【0016】
端末装置P1は、ユーザ操作を受け付け可能であって、AI(Artificial Intelligence)を用いて任意の音声データ12Bから特定の音声を識別するための機械学習に学習データ(所謂、教師データ)を生成する。端末装置P1は、ユーザ操作による音声データへのアノテーション作業を支援可能であって、例えばユーザ操作により学習対象区間として指定された任意の音声区間(機械学習区間)から機械学習により適する1つ以上の学習対象区間に分割したり、機械学習により適する学習対象区間に補正したりする学習対象区間の選択処理を実行する。また、端末装置P1は、音声データ上に決定された1つ以上の学習対象区間のそれぞれを枠線で示したアノテーション編集画面SC(
図10参照)を生成してモニタ14に表示することで、1つ以上の学習対象区間のそれぞれをユーザに提示する。
【0017】
端末装置P1は、ユーザ操作を受け付け可能であって、例えばスマートフォン、タブレット端末、PC(Personal Computer)、ノートPC等により実現される。端末装置P1は、プロセッサ11と、メモリ12と、入力部13と、モニタ14と、スピーカ15と、を含んで構成される。なお、以降の説明において端末装置P1は、事前にメモリ12に音声データ12Bを記憶している例を示すが、例えば、CD-ROM(Compact Disc Read Only Memory)、USBメモリ、SD(登録商標)カード、スマートフォン、ボイスレコーダ等の外部記憶媒体から音声データ12Bを取得してもよいし、データ通信可能に接続されたマイク(不図示)等の収音可能な機器から音声データ12Bを取得してもよい。さらに、端末装置P1は、通信部(不図示)を備え、通信部によりインターネット(不図示)を介してデータ通信可能に接続された外部端末(例えば、サーバ、他の端末装置等)から音声データ12Bを取得してもよい。
【0018】
出力部の一例としてのプロセッサ11は、例えばCPU(Central Processing Unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ12と協働して、各種の処理および制御を行う。具体的には、プロセッサ11はメモリ12に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現したり、アノテーション編集用ソフトウェア11Aの機能を実現したりする。
【0019】
また、プロセッサ11は、アノテーション編集用ソフトウェア11Aにより生成されたアノテーション作業後の編集データ12Aに基づいて、AIを用いて任意の音声データ12Bから特定の音声を識別するための学習データを生成してもよい。学習データを生成するための学習は、1つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器(Linear Classifiers)、サポートベクターマシン(Support Vector Machines)、二次分類器(Quadratic Classifiers)、カーネル密度推定(Kernel Estimation)、決定木(Decision Trees)、人工ニューラルネットワーク(Artificial Neural Networks)、ベイジアン技術および/またはネットワーク(Bayesian Techniques and/or Networks)、隠れマルコフモデル(Hidden Markov Models)、バイナリ分類子(Binary Classifiers)、マルチクラス分類器(Multi-Class Classifiers)、クラスタリング(Clustering Technique)、ランダムフォレスト(Random Forest Technique)、ロジスティック回帰(Logistic Regression Technique)、線形回帰(Linear Regression Technique)、勾配ブースティング(Gradient Boosting Technique)等が挙げられる。但し、使用される統計的分類技術はこれらに限定されない。
【0020】
メモリ12は、RAM(Random Access Memory)およびROM(Read Only Memory)等による半導体メモリと、SSD(Solid State Drive)あるいはHDD等によるストレージデバイスのうちいずれかとを含む記憶デバイスを有する。メモリ12は、編集データ12Aと、音声データ12Bとを記憶する。また、プロセッサ11が学習データを生成する場合、メモリ12は、生成された学習データを記憶してもよい。なお、ここでいう編集データ12Aは、アノテーション編集用ソフトウェア11Aにより生成されたデータであって、音声データ12Bの情報と、音声データ12Bのうち機械学習の対象となる指定区間の情報(具体的には、指定区間の始点の位置および終点の位置の情報)と、指定区間に対して決定された1つ以上の学習対象区間のそれぞれの始点および終点の情報と、この指定区間のラベル名とが対応付けられたデータである。
【0021】
入力部13は、ユーザ操作を受け付け可能であって、例えばマウス、キーボードまたはタッチパネル等を用いて構成されたユーザインタフェースである。入力部13は、受け付けられたユーザ操作を電気信号(制御指令)に変換して、プロセッサ11に出力する。
【0022】
モニタ14は、例えばLCD(Liquid Crystal Display)または有機EL(Electroluminescence)等のディスプレイを用いて構成される。モニタ14は、プロセッサ11から出力されたアノテーション編集画面SC(
図10参照)を表示する。
【0023】
スピーカ15は、ユーザにより音声データ12Bの再生操作が行われた場合に、この音声データ12Bの音声を出力する。
【0024】
次に、
図2を参照して、アノテーション編集用ソフトウェア11Aにおける機能的構成について説明する。
図2は、実施の形態に係る端末装置P1のアノテーション編集用ソフトウェア11Aにおける機能構成例を示すブロック図である。
【0025】
アノテーション編集用ソフトウェア11Aは、ユーザ操作受付部11Bと、ユーザ指定区間決定部11Cと、学習対象区間自動決定部11Dと、学習対象区間自動補正部11Eと、学習対象区間データ管理部11Fと、学習対象区間表示部11Gと、音声データ選択部11Hと、音声データ表示部11Iと、を含んで構成される。なお、アノテーション編集用ソフトウェア11Aにおける学習対象区間自動補正部11Eの構成は、必須でなく省略されてもよいし、オプション機能としてユーザの要望に応じて追加されてもよい。
【0026】
ユーザ操作受付部11Bは、ユーザによるアノテーション編集を行う対象として選択されたいずれかの音声データ12Bのうち機械学習を行う区間についてユーザによる指定操作を受け付ける。ユーザ操作受付部11Bは、ユーザ操作により指定された指定区間URの始点UR1および終点UR2のそれぞれを指定する操作を受け付け、始点UR1および終点UR2のそれぞれの情報をユーザ指定区間決定部11Cに出力する。
【0027】
ユーザ指定区間決定部11Cは、ユーザ操作受付部11Bから出力された指定区間URの始点UR1および終点UR2のそれぞれの情報に基づいて、指定区間URを決定する。ユーザ指定区間決定部11Cは、決定された指定区間URの情報を学習対象区間自動決定部11Dに出力する。
【0028】
学習対象区間自動決定部11Dは、ユーザ指定区間決定部11Cから出力された指定区間URの情報に基づいて、1つ以上の学習対象区間を決定する。学習対象区間自動決定部11Dは、決定された学習対象区間の情報を学習対象区間自動補正部11Eに出力する。なお、ここで、学習対象区間自動補正部11Eがアノテーション編集用ソフトウェア11Aの構成に含まれていない場合、学習対象区間自動決定部11Dは、決定された学習対象区間の情報を学習対象区間データ管理部11Fに出力してもよい。また、学習対象区間自動決定部11Dは、学習対象区間自動補正部11Eと学習対象区間データ管理部11Fとに決定された学習対象区間の情報を出力してもよい。
【0029】
学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dから出力された1つ以上の学習対象区間のそれぞれが機械学習の実行に有効な学習対象区間であるか否かを判定する。学習対象区間自動補正部11Eは、機械学習の実行に有効な学習対象区間でないと判定した場合、この学習対象区間を機械学習の対象から外す処理(つまり、学習対象区間の除外処理)を実行したり、この学習対象区間の区間を補正したりする処理を実行する。なお、学習対象区間自動補正部11Eにより実行される各処理は、すべて実行してもよいし、ユーザにより指定されたいずれか一方の処理のみを実行してもよい。学習対象区間自動補正部11Eは、除外処理あるいは補正処理後の1つ以上の学習対象区間のそれぞれの情報を学習対象区間データ管理部11Fに出力する。
【0030】
学習対象区間データ管理部11Fは、ユーザにより指定された指定区間URの情報(つまり、指定区間URの始点UR1および終点UR2の情報)と、この指定区間URに対して決定された1つ以上の学習対象区間のそれぞれの始点および終点の情報と、ラベル入力欄LB(
図10参照)に入力されたラベル名とを対応付けて管理するとともに、学習対象区間表示部11Gに出力する。なお、学習対象区間データ管理部11Fは、指定区間URの情報、1つ以上の学習対象区間のそれぞれの始点および終点の情報、およびラベル名に基づいて、編集データ12Aを生成し、メモリ12に出力して登録させてもよい。
【0031】
学習対象区間表示部11Gは、学習対象区間データ管理部11Fから出力された指定区間URの情報、1つ以上の学習対象区間のそれぞれの始点および終点の情報に基づいて、ユーザにより選択された音声データ12Bの信号波形データWF1または周波数スペクトルデータSP1の少なくとも一方に、登録された1つ以上の学習対象区間のそれぞれを示す枠線を重畳したアノテーション編集画面SC(
図10参照)を生成する。学習対象区間表示部11Gは、生成されたアノテーション編集画面SCをモニタ14に出力して表示させる。
【0032】
音声データ選択部11Hは、ユーザ操作受付部11Bから出力された音声データ12Bの情報に基づいて、メモリ12を参照し、音声データ12Bを取得する。音声データ選択部11Hは、取得された音声データ12Bを音声データ表示部11Iに出力する。
【0033】
音声データ表示部11Iは、音声データ選択部11Hから出力された音声データ12Bに基づいて、音声データ12Bの信号波形データWF1と、周波数スペクトルデータSP1とを含むアノテーション編集画面(不図示)を生成して、モニタ14に出力して表示させる。なお、音声データ表示部11Iにより生成されるアノテーション編集画面(不図示)は、ユーザによる指定区間URの指定操作を受け付ける前にモニタ14に表示される画面である。
【0034】
まず、
図3を参照して、ユーザ操作受付部11Bの動作手順について説明する。
図3は、実施の形態に係る端末装置P1におけるユーザ操作受付部11Bの動作手順例を示すフローチャートである。なお、
図3を参照して説明するユーザ操作受付部11Bの動作手順は、一例としてマウスによりユーザ操作の受け付けを行う例について説明するが、これに限定されないことは言うまでもない。
【0035】
まず、プロセッサ11は、ユーザ操作に基づいて、アノテーション編集用ソフトウェア11Aを起動する。ユーザ操作受付部11Bは、入力部13により受け付けられたユーザ操作に基づいて、アノテーション編集の対象となる音声データ12Bの選択操作を受け付ける。ユーザ操作受付部11Bは、選択された音声データ12Bの情報を音声データ選択部11Hに出力する。
【0036】
音声データ選択部11Hは、ユーザ操作受付部11Bから出力された音声データ12Bの情報に基づいて、メモリ12を参照し、音声データ12Bを取得する。音声データ選択部11Hは、取得された音声データ12Bを音声データ表示部11Iに出力する。音声データ表示部11Iは、音声データ選択部11Hから出力された音声データ12Bに基づいて、音声データ12Bの信号波形データWF1と、音声データ12Bの周波数スペクトルデータSP1とを含むアノテーション編集画面(不図示)を生成して、モニタ14に出力して表示させる。信号波形データWF1は、縦軸が音圧レベルを示し、横軸が時間を示す。また、周波数スペクトルデータSP1は、縦軸が周波数を示し、横軸が時間を示す。
【0037】
ユーザ操作受付部11Bは、ユーザ操作を受け付け可能な入力部13から送信された制御指令に基づいて、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にあるか否かを判定する(St11)。なお、ここでいう波形表示領域は、アノテーション編集画面上の信号波形データWF1の表示領域AR1および周波数スペクトルデータSP1の表示領域AR2のうち少なくともいずれか一方の領域を含む領域である。
【0038】
ユーザ操作受付部11Bは、ステップSt11の処理において、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にあると判定した場合(St11,YES)、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作したか否かを判定する(St12)。一方、ユーザ操作受付部11Bは、ステップSt11の処理において、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にないと判定した場合(St11,NO)、再度ステップSt11の処理に戻る。
【0039】
ユーザ操作受付部11Bは、ステップSt12の処理において、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作したと判定した場合(St12,YES)、機械学習に使用する指定区間URにおける始点UR1の指定操作を受け付けて(St13)、この操作が行われたカーソル位置に対応する音声データ12Bの時間をユーザ指定区間決定部11Cに出力する。一方、ユーザ操作受付部11Bは、ステップSt12の処理において、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作していないと判定した場合(St12,YES)、ステップSt12の処理に戻る。
【0040】
ユーザ操作受付部11Bは、ユーザがマウスをクリック操作した状態がホールド(維持)されているか否かを判定する(St14)。ユーザ操作受付部11Bは、ステップSt14の処理において、ユーザがマウスをクリック(選択)した状態がホールド(維持)されていると判定した場合(St14,YES)、ステップSt14の処理に戻る。一方、ユーザ操作受付部11Bは、ステップSt14の処理において、ユーザがマウスをクリック(選択)した状態が終了したと判定した場合(St14,NO)、機械学習に使用する指定区間URにおける終点UR2の指定操作を受け付けて(St15)、この操作が行われたカーソル位置に対応する音声データ12Bの時間をユーザ指定区間決定部11Cに出力する。
【0041】
ユーザ指定区間決定部11Cは、ユーザ操作受付部11Bから出力された指定区間URの始点UR1および終点UR2のそれぞれを対応付けて、ユーザによる指定された1つの指定区間URを決定する。ユーザ指定区間決定部11Cは、決定された指定区間URの情報を学習対象区間自動決定部11Dに出力する。
【0042】
なお、ユーザ操作受付部11Bは、指定区間URの始点UR1および終点UR2のそれぞれの指定操作を、始点UR1に対応する時間および終点UR2に対応する時間のそれぞれの入力操作により受け付けてもよい。例えば、このような場合、ユーザ操作受付部11Bは、モニタ14上に表示されたアノテーション編集画面SC(
図10参照)のうち始点および終点のそれぞれに対応する時間の入力操作を受け付ける。ユーザ操作受付部11Bは、始点および終点のそれぞれに対応する時間の入力操作を受け付け可能な入力欄SF1に、始点および終点のそれぞれに対応する時間が入力されたと判定した場合、ユーザによる1つの指定区間の入力操作を受け付ける。ユーザ指定区間決定部11Cは、入力欄SF1に入力された始点および終点のそれぞれに対応する時間に基づいて、1つの指定区間を決定する。
【0043】
また、ユーザ操作受付部11Bは、指定区間URの始点UR1および終点UR2の設定において、指定された始点および終点の時間を所定時間ごと(例えば、0.1秒、0.5秒等)の時間に自動補正してもよい。
【0044】
次に、
図4~
図6を参照して、学習対象区間自動決定部11Dの動作手順について説明する。
図4は、学習対象区間自動決定部11Dにおける学習対象区間の自動選択手順例を示すフローチャートである。
図5は、ユーザにより指定された指定区間URと、複数の学習対象区間のそれぞれとを説明する図である。
図6は、学習対象区間の一例を説明する図である。
【0045】
なお、
図5に示す指定区間URを示す枠線FR1と複数の学習対象区間のそれぞれを示す枠線r11,r12,r13,r14,r15,r16,r17とは、信号波形データWF1上にのみ重畳されている例を示すが、周波数スペクトルデータSP1上に重畳されてもよいし、信号波形データWF1および周波数スペクトルデータSP1のそれぞれに重畳されてもよい。また、
図5に示す例において、枠線FR1,r11~r17のそれぞれの形状は、すべて楕円形状であるが、これに限定されないことは言うまでもない。枠線FR1,r11~r17のそれぞれの形状は、矩形状以外の形状(例えば、三角形、ひし形等)であればよい。また、指定区間を示す枠線FR1の形状と、各学習対象区間のそれぞれを示す枠線r11~r17の形状とは、同一形状でなくてもよい。以下、枠線の形状について他の例について説明する。
【0046】
枠線の形状は、1本以上の直線と1本以上の曲線とにより形成される任意の形状(例えば、半円、楕円を任意の位置および角度で切断した形状等)、複数の曲線により形成される任意の形状であってもよい。例えば、楕円形状を有する枠線は、2つの曲線により形成される形状、または2つの曲線と2本の直線とにより形成されてよい。また、枠線の形状は、1つ以上の鋭角または鈍角を有する形状であってよい。さらに、枠線の形状は、例えば、扇形状のように1つ以上の曲線と1つ以上の鋭角または鈍角とを有する形状であってよい。
【0047】
また、枠線の形状は、上辺部と下辺部とにより形成される形状であって、上辺部と下辺部とが互いに非平行となる形状であってよい。ここでいう上辺部および下辺部のそれぞれは、1本以上の直線、1本以上の曲線、または1本以上の直線と1本以上の曲線とを含む。例えば、枠線の形状が三角形である場合、枠線は、三角形を形成する3本の直線のうち任意の2本の直線を含む上辺部と1本の直線を含む下辺部とにより形成される。なお、上辺部と下辺部とに含まれる1本以上の直線、あるいは1本以上の曲線は、信号波形データWF1および周波数スペクトルデータSP1の横軸(つまり、時間軸)と非平行である。
【0048】
さらに、枠線の形状は、枠線が形成する任意の形状の中心点において、信号波形データWF1および周波数スペクトルデータSP1の横軸に対応する方向の長さと、信号波形データWF1および周波数スペクトルデータSP1の縦軸に対応する方向の長さとが異なる長さを有する形状でもよい。これにより、端末装置P1は、隣り合う枠線のそれぞれの視認性を向上させることができる。
【0049】
なお、
図6では1番目の学習対象区間の始点および終点のみを図示し、2番目以降の学習対象区間のそれぞれの始点および終点の図示を省略している。
【0050】
学習対象区間自動決定部11Dは、ユーザ指定区間決定部11Cから出力された指定区間URの情報を取得する(St21)。学習対象区間自動決定部11Dは、取得された指定区間URの情報に基づいて、1番目の学習対象区間の決定処理を開始する。学習対象区間自動決定部11Dは、指定区間URの始点UR1を、1番目の学習対象区間の始点bx1に決定する(St22)。
【0051】
学習対象区間自動決定部11Dは、設定された1番目の学習対象区間の始点bx1から所定の処理区間幅PR1(つまり、学習対象となる時間範囲)の位置を1番目の学習対象区間の終点ex1に決定する(St23)。なお、ここでいう所定の処理区間幅PR1に含まれるサンプル数は、例えば1500サンプル、あるいは1600サンプル等である。所定の処理区間幅PR1は、後述するシフトサンプル数A3よりも大きい幅(サンプル数)であっても、小さい幅(サンプル数)であってもよく、ユーザにより事前に任意の値(サンプル数)が設定されてもよいし、ユーザにより指定された指定区間URの大きさに基づいて、所定の値が設定されてもよい。なお、所定の処理区間幅PR1がシフトサンプル数A3よりも小さい幅である場合、学習対象区間自動決定部11Dは、一部の区間を飛ばしながら学習対象区間を決定する。
【0052】
学習対象区間自動決定部11Dは、決定された1番目の学習対象区間の始点bx1および終点ex1が示す区間[bx1,ex1]を1番目の学習対象区間として新規に登録する(St24)。なお、ここでいう登録処理は、学習対象区間自動決定部11Dにより1つの指定区間URの情報と、決定された学習対象区間の情報とを対応付けて学習対象区間データ管理部11Fに出力して記憶させる処理である。
【0053】
学習対象区間自動決定部11Dは、1番目の学習対象区間の始点bx1をシフトサンプル数A3だけずらした位置に2番目の学習対象区間の始点bx2(不図示)を決定する(St25)。なお、ここでいうシフトサンプル数A3のサンプル数は、例えば処理区間幅PR1の3割、あるいは4割等のサンプル数であり、ユーザにより任意のサンプル数が設定されてよい。例えば、シフトサンプル数A3のサンプル数は、学習対象区間をより小さい区間に設定する場合には、より小さいサンプル数が設定され、学習対象区間をより大きい区間に設定する場合にはより大きいサンプル数が設定される。
【0054】
学習対象区間自動決定部11Dは、ステップSt23~ステップSt25に示す学習対象区間の始点および終点の決定処理と、決定された1つ以上の学習対象区間のそれぞれの登録処理とを繰り返し実行する。学習対象区間自動決定部11Dは、ステップSt24の処理において、(N+1)(N:1以上の整数)番目の学習対象区間の終点ex(N+1)がユーザにより指定された指定区間URをはみ出したと判定した場合、指定区間URに対して1番目の学習対象区間からN番目の学習対象区間までのN個の学習対象区間のそれぞれを登録し、学習対象区間決定処理を終了する。
【0055】
具体的に、
図5に示す例における学習対象区間自動決定部11Dは、7番目の学習対象区間を新規に登録した後、8番目の学習対象区間の終点がユーザにより指定された指定区間URの終点UR2をはみ出すと判定し、指定区間URに対して1番目の学習対象区間から7番目の学習対象区間までの7個の学習対象区間を登録する。
【0056】
学習対象区間自動決定部11Dは、1つの指定区間URの始点UR1および終点UR2のそれぞれの情報と、決定された1つ以上の学習対象区間のそれぞれの情報とを対応付けて、学習対象区間自動補正部11Eおよび学習対象区間データ管理部11Fに出力する。
【0057】
学習対象区間表示部11Gは、学習対象区間データ管理部11Fから出力された1つの指定区間URの始点UR1および終点UR2のそれぞれの情報に基づいて、この始点UR1から終点UR2までを囲う枠線FR1を、信号波形データWF1および周波数スペクトルデータSP1の少なくとも一方のデータ上に重畳する。
【0058】
また、学習対象区間表示部11Gは、学習対象区間データ管理部11Fから出力された1つ以上の学習対象区間のそれぞれの始点および終点の情報に基づいて、各学習対象区間の始点から終点までを囲う枠線r11~r17を、信号波形データWF1および周波数スペクトルデータSP1の少なくとも一方のデータ上に重畳する。学習対象区間表示部11Gは、指定区間および1つ以上の学習対象区間のそれぞれを示す枠線FR1,r11~r17のそれぞれを重畳したアノテーション編集画面を生成して、モニタ14に出力する。
【0059】
ここで、
図5および
図6に示す例において、枠線r11は、1番目の学習対象区間を示し、1番目の学習対象区間の始点bx1から終点ex1までを囲む。また、同様に、枠線r12は、2番目の学習対象区間の始点bx2(不図示)から終点ex2(不図示)までを囲む。枠線r13は、3番目の学習対象区間の始点bx3(不図示)から終点ex3(不図示)までを囲む。4番目の学習対象区間の始点bx4(不図示)から終点ex4(不図示)までを囲む。5番目の学習対象区間の始点bx5(不図示)から終点ex5(不図示)までを囲む。6番目の学習対象区間の始点bx6(不図示)から終点ex6(不図示)までを囲む。7番目の学習対象区間の始点bx7(不図示)から終点ex7(不図示)までを囲む。
【0060】
次に、
図7を参照して、学習対象区間自動補正部11Eにより実行される除外処理手順について説明する。
図7は、学習対象区間自動補正部11Eにおける学習対象区間の除外処理手順例を示すフローチャートである。
【0061】
学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定された1つ以上の学習対象区間のそれぞれのうちいずれか1つの学習対象区間の情報を取得する(St31)。ここでは、一例として、学習対象区間自動補正部11Eは、k番目の学習対象区間の情報を取得し、このk番目の学習対象区間の区間を補正する例について説明する。
【0062】
学習対象区間自動補正部11Eは、取得されたk番目の学習対象区間の平均音量Lを算出し(St32)、算出された平均音量Lが音量規定値A1未満であるか否かを判定する(St33)。なお、ここでいう音量規定値A1は、例えば音声データ12Bが16bitのデジタル音である場合には-50dBフルスケール等のように事前に設定された条件に基づいて決定される固定値であってよい。また、音量規定値A1は、音声データ12Bの最小音圧レベルに所定の音圧レベル(例えば、6dB,8dB等)を加算した値であってもよいし、音声データ12Bの最小音圧レベルの値に基づいて加算される音圧レベルを決定し、最小音圧レベルに決定された所定の音圧レベルを加算した値であってもよい。
【0063】
学習対象区間自動補正部11Eは、ステップSt33の処理において、算出された平均音量Lが音量規定値A1未満であると判定した場合(St33,YES)、このk番目の学習対象区間を機械学習の対象から除外し(St34)、このk番目の学習対象区間に対する補正処理を終了する。一方、学習対象区間自動補正部11Eは、ステップSt33の処理において、算出された平均音量Lが音量規定値A1未満でないと判定した場合(St33,NO)、このk番目の学習対象区間に対する削除処理が不要であると判定し、削除処理を省略する。
【0064】
学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定されたすべての学習対象区間のそれぞれに対してステップSt31~ステップSt34に示す処理を実行する。学習対象区間自動補正部11Eは、すべての学習対象区間のそれぞれに対してステップSt31~ステップSt34に示す処理が実行されたと判定した場合、
図7に示す削除処理を終了する。
【0065】
次に、
図8を参照して、学習対象区間自動補正部11Eにより実行される補正処理手順について説明する。
図8は、学習対象区間自動補正部11Eにおける学習対象区間の補正処理手順例を示すフローチャートである。
【0066】
学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定された1つ以上の学習対象区間のそれぞれのうちいずれか1つの学習対象区間の情報を取得する(St41)。ここでは、一例として、学習対象区間自動補正部11Eは、k番目の学習対象区間の情報を取得し、このk番目の学習対象区間の区間を補正する例について説明する。
【0067】
学習対象区間自動補正部11Eは、取得されたk番目の学習対象区間から音量規定値A2を超える区間の合計時間T1を算出する(St42)。なお、ここでいう音量規定値A2は、例えば音声データ12Bが16bitのデジタル音である場合には-50dBフルスケール等のように事前に設定された条件に基づいて決定される固定値であってよい。また、音量規定値A2は、音声データ12Bの最小音圧レベルに所定の音圧レベル(例えば、6dB,8dB等)を加算した値であってもよいし、音声データ12Bの最小音圧レベルの値に基づいて加算される音圧レベルを決定し、最小音圧レベルに決定された所定の音圧レベルを加算した値であってもよい。さらに、音量規定値A2は、音量規定値A1と同値であってもよい。
【0068】
学習対象区間自動補正部11Eは、算出された合計時間T1が所定時間B未満であるか否かを判定する(St43)。なお、ここでいう所定時間Bは、k番目の学習対象区間の始点bxkから終点exkまでの時間に基づいて決定され、例えば始点bxkから終点exkまでの時間の例えば4割、5割等の時間である。
【0069】
学習対象区間自動補正部11Eは、ステップSt43の処理において、算出された合計時間T1が所定時間B未満であると判定した場合(St43,YES)、このk番目の学習対象区間のうち音量規定値A2を超える区間を抽出し、抽出された区間のうち最初の位置xk(時間)の情報を取得する(St44)。一方、学習対象区間自動補正部11Eは、ステップSt44の処理において、算出された合計時間T1が所定時間B未満でないと判定した場合(St44,NO)、このk番目の学習対象区間に対する補正処理が不要であると判定し、補正処理を省略する。
【0070】
学習対象区間自動補正部11Eは、取得された位置xkとk番目の学習対象区間の始点bxkとの間の差分区間(ずれ)を算出する。学習対象区間自動補正部11Eは、算出された差分区間(ずれ)がシフトサンプル数A3未満であるか否かを判定する(St45)。
【0071】
学習対象区間自動補正部11Eは、ステップSt45の処理において、算出された差分区間(ずれ)がシフトサンプル数A3未満であると判定した場合(St45,YES)、このk番目の学習対象区間の始点を位置xkに更新(変更)する(St46)。一方、学習対象区間自動補正部11Eは、ステップSt45の処理において、算出された差分区間(ずれ)がシフトサンプル数A3未満でないと判定した場合(St45,NO)、このk番目の学習対象区間に対する補正処理が不要であると判定し、補正処理を省略する。
【0072】
学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定されたすべての学習対象区間のそれぞれに対してステップSt41~ステップSt46に示す補正処理を実行する。学習対象区間自動補正部11Eは、すべての学習対象区間のそれぞれに対してステップSt41~ステップSt46に示す補正処理が実行されたと判定した場合、
図8に示す補正処理を終了する。
【0073】
ここで、
図9を参照して、学習対象区間自動補正部11Eによる除外処理および補正処理後の学習対象区間の一例について説明する。
図9は、除外処理および補正処理後の学習対象区間の一例を示す図である。なお、
図9は、
図5で示す7つの学習対象区間のそれぞれが学習対象区間自動補正部11Eによる除外処理および補正処理により、5つの学習対象区間のそれぞれに補正された後のアノテーション編集画面の一部を示す図である。
【0074】
図9において、5つの学習対象区間のそれぞれは、楕円形状の5個の枠線r21,r22,r23,r24,r25のそれぞれで示される。
図9に示された5つの学習対象区間のそれぞれは、枠線r21で示される1番目の学習対象区間が
図5に示す枠線r11で示される1番目の学習対象区間に、枠線r22で示される2番目の学習対象区間が
図5に示す枠線r13で示される3番目の学習対象区間に、枠線r23で示される3番目の学習対象区間が
図5に示す枠線r14で示される4番目の学習対象区間に、枠線r24で示される4番目の学習対象区間が
図5に示す枠線r15で示される5番目の学習対象区間に、枠線r25で示される5番目の学習対象区間が
図5に示す枠線r16で示される6番目の学習対象区間に、それぞれ対応する。
【0075】
ここで、
図9に示す例において、
図5において枠線r12で示される2番目の学習対象区間と、枠線r17で示される7番目の学習対象区間とは、学習対象区間自動補正部11Eによる処理(具体的に、
図7に示すステップSt34の処理)により、機械学習の対象から除外されたことで削除されている。また、
図9に示す例において、枠線r24で示される4番目の学習対象区間は、学習対象区間自動補正部11Eによる処理(具体的に、
図8に示すステップSt46の処理)により、
図5において枠線r15で示される5番目の学習対象区間の始点の位置が変更されている。
【0076】
以上により、学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定された学習対象区間のうち機械学習により有効でないと判定された学習対象区間の除外(削除)できる。これにより、学習対象区間自動補正部11Eは、決定された学習対象区間のうち無音区間または音量が小さく機械学習に有効でない学習対象区間を除外できる。
【0077】
また、学習対象区間自動補正部11Eは、学習対象区間自動決定部11Dにより決定された学習対象区間のうち機械学習により有効でないと判定された学習対象区間の始点位置を変更して、学習対象区間を補正することができる。これにより、学習対象区間自動補正部11Eは、決定された学習対象区間が音量規定値A2以上の区間をより多く含むように区間を補正できるため、機械学習により有効な学習対象区間を決定できる。
【0078】
次に、
図10を参照して、モニタ14に表示されるアノテーション編集画面SCについて説明する。
図10は、アノテーション編集画面SCの一例を示す図である。
【0079】
アノテーション編集画面SCは、音声データ12Bの信号波形データWF2と、周波数スペクトルデータSP2と、ラベル入力欄LBと、を少なくとも含んで生成される。また、アノテーション編集画面SCは、ユーザ操作により指定区間の始点UR3および終点UR4のそれぞれの入力を受け付けると、信号波形データWF2および周波数スペクトルデータSP2のいずれか一方のデータ上に指定区間を示す枠線FR2と、この指定区間に基づいて決定された1つ以上の学習対象区間のそれぞれを示す枠線r31,r32,r33,r34,r35,r36のそれぞれとが重畳される。
【0080】
なお、
図10に示す例において、枠線FR2,r31~r36のそれぞれの形状は、すべて楕円形状であるが、これに限定されないことは言うまでもない。枠線FR2,r31~r36のそれぞれの形状は、矩形状以外の形状(例えば、三角形、ひし形等)であればよい。また、指定区間を示す枠線FR2の形状と、各学習対象区間のそれぞれを示す枠線r31~r36の形状とは、同一形状でなくてもよい。
【0081】
また、ユーザ操作受付部11Bは、指定区間URの始点UR1および終点UR2の設定において、指定された始点および終点の時間を所定時間ごと(例えば、0.1秒、0.5秒等)の時間に自動補正してもよい。例えば、
図10に示す入力欄SF1は、指定区間の始点UR3の位置(時間)が「0:02.266」、終点UR4の位置(時間)が「0:06.102」と入力されている。このような場合、ユーザ操作受付部11Bは、入力欄SF1に入力された内容に基づいて、指定された始点UR3を「0:02」、終点UR4を「0:06」にそれぞれ自動補正してもよい。
【0082】
これにより、アノテーション編集用ソフトウェア11Aは、上述した入力欄SF1への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置(時間)および終点の位置(時間)を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。
【0083】
追加ボタンBT1は、新たな指定区間の追加処理を行うためのボタンである。アノテーション編集用ソフトウェア11Aは、ユーザ操作により追加ボタンBT1が押下(選択)されると、新たな指定区間の追加を受け付ける。
【0084】
更新ボタンBT2は、入力欄SF1に入力された指定区間の始点および終点のそれぞれに対応する時間の入力内容に基づいて、指定区間を更新(変更)したり、ラベル入力欄LB等に入力された指定区間のラベル名を指定区間に対応付けて登録(記録)したりするボタンである。
【0085】
削除ボタンBT3は、ユーザ操作により指定されたいずれかの指定区間、またはいずれか1つ以上の学習対象区間を削除するボタンである。アノテーション編集用ソフトウェア11Aは、いずれかの指定区間、またはいずれか1つ以上の学習対象区間が選択(指定)された状態でユーザ操作により削除ボタンBT3が押下(選択)されると、選択(指定)中の指定区間、または学習対象区間を削除する。
【0086】
PlayボタンBT4は、音声データ12Bの再生を行うためのボタンである。アノテーション編集用ソフトウェア11Aは、ユーザ操作によりPlayボタンBT4が押下(選択)されると、編集中の音声データ12Bを再生する。
【0087】
StopボタンBT5は、音声データ12Bの再生を停止するためのボタンである。アノテーション編集用ソフトウェア11Aは、ユーザ操作によりStopボタンBT5が押下(選択)されると、編集中の音声データ12Bの再生を停止する。
【0088】
入力欄SF1は、指定区間の始点および終点のそれぞれに対応する時間を受け付けるための入力欄である。アノテーション編集用ソフトウェア11Aは、ユーザ操作により入力欄SF1に指定区間の始点または終点のそれぞれに対応する時間が入力されると、入力された始点から終点までの時間帯を指定区間に決定する。
【0089】
ラベル入力欄LBは、指定区間ごとに設定されるラベル名の入力を受け付けるための入力欄である。アノテーション編集用ソフトウェア11Aは、ユーザ操作によりラベル入力欄LBにユーザが指定区間に設定したいラベル名が入力されると、入力されたラベル名と指定区間の情報と決定された1つ以上の学習対象区間のそれぞれの情報とを対応付けて、編集データ12Aとしてメモリ12に出力して登録させる。
【0090】
以上により、実施の形態に係る端末装置P1(音声学習支援装置の一例)は、プロセッサ11と、メモリ12と、モニタ14と、を備える。プロセッサ11は、音声データ12Bの信号波形(例えば、
図10に示す信号波形データWF2および周波数スペクトルデータSP2)をモニタ14に表示した上で、音声データ12Bに対してユーザによる指定区間(具体的には、指定区間の始点UR3および終点UR4のそれぞれ)の指定操作を受け付け、指定された指定区間のうち機械学習に使用される1つ以上の学習対象区間のそれぞれを決定し、信号波形上に決定された1つ以上の学習対象区間のそれぞれを示す枠線(例えば、
図10に示す枠線r31~r36のそれぞれ)を重畳したアノテーション編集画面SC(画面の一例)を生成してモニタ14に出力する。
【0091】
これにより、実施の形態に係る端末装置P1は、ユーザにより指定された指定区間に対して機械学習の対象となる1つ以上の学習対象区間のそれぞれを自動で決定し、決定された1つ以上の学習対象区間を音声データ12Bの信号波形データWF2あるいは周波数スペクトルデータSP2上に重畳したアノテーション編集画面SCを表示することで、機械学習の対象となる音声区間としての学習対象区間のそれぞれをユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する。
【0092】
また、以上により、1つ以上の学習対象区間のそれぞれを示す枠線は、矩形以外の多角形形状である。これにより、実施の形態に係る端末装置P1は、矩形状を有するモニタ14の形状と、重畳された枠線の形状とが異なるため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置P1は、モニタ14に表示された信号波形データWF2および周波数スペクトルデータSP2の表示領域AR1,AR2の形状(つまり、矩形状)と、重畳された枠線の形状とが異なるため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。
【0093】
また、以上により、1つ以上の学習対象区間のそれぞれを示す枠線は、真円以外の円形状である。これにより、実施の形態に係る端末装置P1は、矩形状を有するモニタ14の形状、または信号波形データWF2および周波数スペクトルデータSP2の表示領域AR1,AR2の形状(つまり、矩形状)と、重畳された枠線の形状とが異なるため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置P1は、矩形状に形成されたモニタ14の4辺、信号波形データWF2および周波数スペクトルデータSP2の表示領域AR1,AR2の4辺、または信号波形データWF2および周波数スペクトルデータSP2の縦軸、横軸を示す直線と、枠線とが非平行であるため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置P1は、枠線を真円以外の円形状で重畳することで、隣り合う枠線同士が重なり合っても、視認性を向上させることができる。
【0094】
以上により、実施の形態に係る端末装置P1で決定される1つ以上の学習対象区間のそれぞれは、楕円、三角形またはひし形の形状の枠線で重畳される。これにより、実施の形態に係る端末装置P1は、矩形状以外の形状を有する枠線で1つ以上の学習対象区間のそれぞれを示すため、矩形状に形成されたモニタ14の4辺のうちいずれかの一辺と、重畳された枠線とが互いに平行にならないため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置P1は、モニタ14に表示された信号波形データWF2および周波数スペクトルデータSP2の矩形状の表示領域AR1,AR2の辺、あるいは信号波形データWF2および周波数スペクトルデータSP2の縦軸または横軸と、重畳された枠線とが互いに平行しない(つまり、非平行である)ため、アノテーション編集画面SC上に表示される1つ以上の学習対象区間のそれぞれの視認性をより向上できる。
【0095】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、1つ以上の学習対象区間のそれぞれごとに平均音量Lを算出し、算出された平均音量Lが閾値としての音量規定値A1未満であると判定された学習対象区間を機械学習の対象から外す。これにより、実施の形態に係る端末装置P1は、決定された学習対象区間のうち無音区間または音量が小さく機械学習に有効でない学習対象区間を除外できる。
【0096】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、1つ以上の学習対象区間のそれぞれのうち所定音量としての音量規定値A2以上である区間の合計時間T1が所定時間B未満であると判定された学習対象区間において、最初に音量規定値A2以上となる時間を学習対象区間の始点に補正する。これにより、実施の形態に係る端末装置P1は、機械学習により有効でない無音区間あるいは音量が小さい区間等を学習対象区間に含まれないように始点の位置を補正できる。しかがって、プロセッサ11は、学習対象区間に含まれる区間を機械学習により有効な区間に自動補正した学習対象区間を決定できる。
【0097】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、1つ以上の学習対象区間のそれぞれのうちユーザ操作により指定された学習対象区間を機械学習の対象から外す。これにより、実施の形態に係る端末装置P1は、ユーザが意図しない学習対象区間を除外することで、機械学習により有効な1個以上の学習対象区間のそれぞれを決定し、登録できる。
【0098】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、音声データ12Bの信号波形データWF2と周波数スペクトルデータSP2(スペクトルデータの一例)とを含むアノテーション編集画面SC(画面の一例)を生成して出力する。これにより、実施の形態に係る端末装置P1は、音声データ12Bの信号波形データWF2と周波数スペクトルデータSP2とを同期して表示できる。
【0099】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、音声データ12Bの信号波形データWF2と周波数スペクトルデータSP2(スペクトルデータの一例)のうちユーザ操作により指定されたいずれか一方に1つ以上の学習対象区間のそれぞれの範囲を示す枠線(例えば、
図10に示す枠線r31~r36のそれぞれ)を重畳したアノテーション編集画面SC(画面の一例)を生成する。これにより、実施の形態に係る端末装置P1は、ユーザによるアノテーション編集作業において、ユーザビリティをより向上できる。これにより、アノテーション編集用ソフトウェア11Aは、上述した入力欄SF1への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置(時間)および終点の位置(時間)を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。
【0100】
以上により、実施の形態に係る端末装置P1におけるプロセッサ11は、音声データ12Bを所定時間(例えば、0.1秒、0.5秒等)ごとに区分し、指定された指定区間の始点または終点が示す時間を、区分された所定時間のうち最も近い所定時間に補正する。これにより、実施の形態に係る端末装置P1におけるアノテーション編集用ソフトウェア11Aは、上述した入力欄SF1への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置(時間)および終点の位置(時間)を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。
【0101】
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0102】
本開示は、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する音声学習支援装置および音声学習支援方法として有用である。
【符号の説明】
【0103】
11 プロセッサ
11A アノテーション編集用ソフトウェア
11B ユーザ操作受付部
11C ユーザ指定区間決定部
11D 学習対象区間自動決定部
11E 学習対象区間自動補正部
11F 学習対象区間データ管理部
11G 学習対象区間表示部
11H 音声データ選択部
11I 音声データ表示部
12 メモリ
12A 編集データ
12B 音声データ
13 入力部
14 モニタ
P1 端末装置
FR1,FR2,r11,r12,r13,r14,r15,r16,r17,r21,r22,r23,r24,r25 枠線
SC アノテーション編集画面
SP1,SP2 周波数スペクトルデータ
UR 指定区間
UR1,UR3 始点
UR2,UR4 終点
WF1,WF2 信号波形データ