特許7607239 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7607239表示装置および表示方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-19

(45)【発行日】2024-12-27

(54)【発明の名称】表示装置および表示方法

(51)【国際特許分類】

G10L 25/48 20130101AFI20241220BHJP

G10L 21/12 20130101ALN20241220BHJP

G10L 21/14 20130101ALN20241220BHJP

【ＦＩ】

G10L25/48 100

G10L21/12

G10L21/14

【請求項の数】 7

(21)【出願番号】P 2020217787

(22)【出願日】2020-12-25

(65)【公開番号】P2022102817

(43)【公開日】2022-07-07

【審査請求日】2023-06-21

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】110002000

【氏名又は名称】弁理士法人栄光事務所

(72)【発明者】

【氏名】藤井亮太

【審査官】菊池智紀

(56)【参考文献】

【文献】特開平０６－０１９４９６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０１４４１９１（ＵＳ，Ａ１）

【文献】特開２０００－０４７６８３（ＪＰ，Ａ）

【文献】特開２０１１－１９７１２４（ＪＰ，Ａ）

【文献】特開２０１０－１９１３３７（ＪＰ，Ａ）

【文献】特開２００５－０３２０１５（ＪＰ，Ａ）

【文献】特開平０３－０３９７９７（ＪＰ，Ａ）

【文献】特開昭６０－１２３０００（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０１９－０１２１５３４（ＫＲ，Ａ）

【文献】鷹見淳一他，"半自動音声ラベリングシステムの開発"，RICOH TECHNICAL REPORT，2001年12月01日，No.27，pp.43-51

【文献】橋本諭他，"自己相関による音声の基本周波数抽出における適応分析窓長"，電子情報通信学会技術研究報告，2005年05月13日，Vol.105, No.56，pp.31-36

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／００－２５／９３

Ｇ０６Ｆ３／０４８－３／０４８９５

(57)【特許請求の範囲】

【請求項1】

音声データを表示するモニタに接続された表示装置であって、
前記表示装置は、
プロセッサと、
メモリと、を備え、
前記プロセッサは、
音声データの信号波形を前記モニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間のうち前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、
前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、
前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第２の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力し、
前記第１の枠線および前記第２の枠線は、矩形以外の形状である、
表示装置。

【請求項2】

前記矩形以外の形状は、前記矩形以外の多角形形状もしくは真円以外の円形状である、
請求項１に記載の表示装置。

【請求項3】

前記矩形以外の多角形形状は、三角形またはひし形であり、
前記真円以外の円形状は、楕円である、
請求項２に記載の表示装置。

【請求項4】

前記プロセッサは、前記指定区間を示す枠線を前記信号波形に重畳した画面を生成して前記モニタに出力する、
請求項１に記載の表示装置。

【請求項5】

前記対象区間は、機械学習に使用される学習対象区間である、
請求項４に記載の表示装置。

【請求項6】

音声データを表示するモニタと、
前記モニタに前記音声データの信号波形が表示された上で、前記音声データに対してユーザによる指定区間の指定操作を受け付ける入力部と、
指定された前記指定区間から前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第２の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力するプロセッサと、を備え、
前記第１の枠線および前記第２の枠線は、矩形以外の形状である、
表示装置。

【請求項7】

端末装置が行う表示方法であって、
音声データの信号波形をモニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間から前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、
前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、
前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第２の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して出力し、
前記第１の枠線および前記第２の枠線は、矩形以外の形状である、
表示方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声学習支援装置および音声学習支援方法に関する。

【背景技術】

【0002】

特許文献１には、時間に従って記録された数値の系列である時系列データから、時系列データの部分的な形、またはそれらの組み合わせを発見、出力するための装置であって、ポインティングデバイスによってユーザの想定する時系列データの形状を入力可能な機能とその組み合わせ方を指定可能な手段を含む装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－６１７３３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本開示は、上述した従来の状況に鑑みて案出され、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する音声学習支援装置および音声学習支援方法を提供することを目的とする。

【課題を解決するための手段】

【0005】

本開示は、音声データを表示するモニタに接続された表示装置であって、前記表示装置は、プロセッサと、メモリと、を備え、前記プロセッサは、音声データの信号波形を前記モニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間のうち前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第２の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力し、前記第１の枠線および前記第２の枠線は、矩形以外の形状である、表示装置を提供する。

【0006】

また、本開示は、音声データを表示するモニタと、前記モニタに前記音声データの信号波形が表示された上で、前記音声データに対してユーザによる指定区間の指定操作を受け付ける入力部と、指定された前記指定区間から前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第２の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して前記モニタに出力するプロセッサと、を備え、前記第１の枠線および前記第２の枠線は、矩形以外の形状である、表示装置を提供する。

【0007】

また、本開示は、端末装置が行う表示方法であって、音声データの信号波形をモニタに表示した上で、前記音声データに対してユーザによる指定区間の指定操作を受け付け、指定された前記指定区間から前記モニタに表示される少なくとも第１の対象区間および第２の対象区間を決定し、前記第１の対象区間の始点位置から第１の所定区間ずらした位置を前記第１の対象区間の終点位置とし、前記第１の対象区間の始点位置から第２の所定区間ずらした位置を前記第２の対象区間の始点位置とし、前記第２の対象区間の始点から第１の所定区間ずらした位置を前記第２の対象区間の終点位置として決定すると共に、前記第２の対象区間が前記第１の対象区間と重なるように前記第２の所定区間を決定し、前記第１の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第１の枠線と、前記第２の対象区間の始点位置および終点位置を含む前記第１の対象区間を示す第２の枠線とを、前記信号波形に重畳した画面を生成して出力し、前記第１の枠線および前記第２の枠線は、矩形以外の形状である、表示方法を提供する。

【発明の効果】

【0008】

本開示によれば、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援できる。

【図面の簡単な説明】

【0009】

【図1】実施の形態に係る端末装置の内部構成例を示すブロック図

【図2】実施の形態に係る端末装置のアノテーション編集用ソフトウェアにおける機能構成例を示すブロック図

【図3】ユーザ操作受付部における動作手順例を示すフローチャート

【図4】学習対象区間自動決定部における学習対象区間の自動決定手順例を示すフローチャート

【図5】ユーザにより指定された指定区間と複数の学習対象区間のそれぞれとを説明する図

【図6】学習対象区間の一例を説明する図

【図7】学習対象区間自動補正部における学習対象区間の除外処理手順例を示すフローチャート

【図8】学習対象区間自動補正部における学習対象区間の補正処理手順例を示すフローチャート

【図9】除外処理および補正処理後の学習対象区間の一例を示す図

【図10】アノテーション編集画面の一例を示す図

【発明を実施するための形態】

【0010】

（実施の形態に至る経緯）
近年、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を利用した音声識別アプリケーションがある。音声識別アプリケーションは、マイクを通して収音された音声に基づいて、特定の音（例えば、市街に発生している音、異常音等）、あるいは人の感情を識別する。しかし、このような音声識別アプリケーションは、識別対象の音声を識別可能にするために、機械学習用データとして収音された音声のうち識別対象である音声を示すためにアノテーション処理を行う必要があった。

【0011】

ここで、音声識別のためのアノテーション方法は、音声と文章とを関連付けたり、１つの音声ファイルに対して１つのラベル（例えば、識別対象を示すラベル）を関連付けたり、あるいは１つの音声ファイルのうち任意に選択された時間軸上の始点と終点とに基づく１つの学習対象区間を１つのラベルとして関連付けたりする方法がある。音声と文章とを関連付けるアノテーション方法は、ユーザによって手作業で行われるため、作業量が多く手間がかかった。

【0012】

しかし、ラベルが関連付けられた学習対象区間に学習に不適切な区間（例えば所定時間以上の無音区間）が含まれる場合、音声識別アプリケーションは、有効な学習を行えない可能性があった。具体的に、ＡＩを用いた音声識別処理は、一定時間区間（例えば、１００ｍｓ，１ｓ等）の音声に対して実行され、任意の長さの学習対象区間を学習する場合には、選択された学習対象区間が一定時間区間ごとに分割され、分割された一定時間区間ごとに識別対象の学習および推定が実行される。音声識別アプリケーションは、分割された一定時間区間が学習に不適切な区間である場合、この不適切な区間を識別対象として学習するため、学習が有効に行うことができないことがあった。さらに、この音声識別アプリケーションの学習は、内部処理として実行されるため、学習対象区間に学習に不適切な区間を含んでいるか否かをユーザが知ることができなかった。

【0013】

以下、適宜図面を参照しながら、本開示に係る音声学習支援装置および音声学習支援方法の構成および作用を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

【0014】

ここで、以下の説明で使用される用語は、例示であり、限定を意図していない。例えば、「区間」、「位置」の用語は、音声データ１２Ｂ上の再生時間を含む。

【0015】

まず、図１を参照して、実施の形態に係る音声学習支援装置の一例としての端末装置Ｐ１の内部構成について説明する。図１は、実施の形態に係る端末装置Ｐ１の内部構成例を示すブロック図である。

【0016】

端末装置Ｐ１は、ユーザ操作を受け付け可能であって、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）を用いて任意の音声データ１２Ｂから特定の音声を識別するための機械学習に学習データ（所謂、教師データ）を生成する。端末装置Ｐ１は、ユーザ操作による音声データへのアノテーション作業を支援可能であって、例えばユーザ操作により学習対象区間として指定された任意の音声区間（機械学習区間）から機械学習により適する１つ以上の学習対象区間に分割したり、機械学習により適する学習対象区間に補正したりする学習対象区間の選択処理を実行する。また、端末装置Ｐ１は、音声データ上に決定された１つ以上の学習対象区間のそれぞれを枠線で示したアノテーション編集画面ＳＣ（図１０参照）を生成してモニタ１４に表示することで、１つ以上の学習対象区間のそれぞれをユーザに提示する。

【0017】

端末装置Ｐ１は、ユーザ操作を受け付け可能であって、例えばスマートフォン、タブレット端末、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ノートＰＣ等により実現される。端末装置Ｐ１は、プロセッサ１１と、メモリ１２と、入力部１３と、モニタ１４と、スピーカ１５と、を含んで構成される。なお、以降の説明において端末装置Ｐ１は、事前にメモリ１２に音声データ１２Ｂを記憶している例を示すが、例えば、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＵＳＢメモリ、ＳＤ（登録商標）カード、スマートフォン、ボイスレコーダ等の外部記憶媒体から音声データ１２Ｂを取得してもよいし、データ通信可能に接続されたマイク（不図示）等の収音可能な機器から音声データ１２Ｂを取得してもよい。さらに、端末装置Ｐ１は、通信部（不図示）を備え、通信部によりインターネット（不図示）を介してデータ通信可能に接続された外部端末（例えば、サーバ、他の端末装置等）から音声データ１２Ｂを取得してもよい。

【0018】

出力部の一例としてのプロセッサ１１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を用いて構成されて、メモリ１２と協働して、各種の処理および制御を行う。具体的には、プロセッサ１１はメモリ１２に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現したり、アノテーション編集用ソフトウェア１１Ａの機能を実現したりする。

【0019】

また、プロセッサ１１は、アノテーション編集用ソフトウェア１１Ａにより生成されたアノテーション作業後の編集データ１２Ａに基づいて、ＡＩを用いて任意の音声データ１２Ｂから特定の音声を識別するための学習データを生成してもよい。学習データを生成するための学習は、１つ以上の統計的分類技術を用いて行っても良い。統計的分類技術としては、例えば、線形分類器（ＬｉｎｅａｒＣｌａｓｓｉｆｉｅｒｓ）、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）、二次分類器（ＱｕａｄｒａｔｉｃＣｌａｓｓｉｆｉｅｒｓ）、カーネル密度推定（ＫｅｒｎｅｌＥｓｔｉｍａｔｉｏｎ）、決定木（ＤｅｃｉｓｉｏｎＴｒｅｅｓ）、人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、ベイジアン技術および／またはネットワーク（ＢａｙｅｓｉａｎＴｅｃｈｎｉｑｕｅｓａｎｄ／ｏｒＮｅｔｗｏｒｋｓ）、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）、バイナリ分類子（ＢｉｎａｒｙＣｌａｓｓｉｆｉｅｒｓ）、マルチクラス分類器（Ｍｕｌｔｉ－ＣｌａｓｓＣｌａｓｓｉｆｉｅｒｓ）、クラスタリング（ＣｌｕｓｔｅｒｉｎｇＴｅｃｈｎｉｑｕｅ）、ランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔＴｅｃｈｎｉｑｕｅ）、ロジスティック回帰（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎＴｅｃｈｎｉｑｕｅ）、線形回帰（ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎＴｅｃｈｎｉｑｕｅ）、勾配ブースティング（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＴｅｃｈｎｉｑｕｅ）等が挙げられる。但し、使用される統計的分類技術はこれらに限定されない。

【0020】

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等による半導体メモリと、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）あるいはＨＤＤ等によるストレージデバイスのうちいずれかとを含む記憶デバイスを有する。メモリ１２は、編集データ１２Ａと、音声データ１２Ｂとを記憶する。また、プロセッサ１１が学習データを生成する場合、メモリ１２は、生成された学習データを記憶してもよい。なお、ここでいう編集データ１２Ａは、アノテーション編集用ソフトウェア１１Ａにより生成されたデータであって、音声データ１２Ｂの情報と、音声データ１２Ｂのうち機械学習の対象となる指定区間の情報（具体的には、指定区間の始点の位置および終点の位置の情報）と、指定区間に対して決定された１つ以上の学習対象区間のそれぞれの始点および終点の情報と、この指定区間のラベル名とが対応付けられたデータである。

【0021】

入力部１３は、ユーザ操作を受け付け可能であって、例えばマウス、キーボードまたはタッチパネル等を用いて構成されたユーザインタフェースである。入力部１３は、受け付けられたユーザ操作を電気信号（制御指令）に変換して、プロセッサ１１に出力する。

【0022】

モニタ１４は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）等のディスプレイを用いて構成される。モニタ１４は、プロセッサ１１から出力されたアノテーション編集画面ＳＣ（図１０参照）を表示する。

【0023】

スピーカ１５は、ユーザにより音声データ１２Ｂの再生操作が行われた場合に、この音声データ１２Ｂの音声を出力する。

【0024】

次に、図２を参照して、アノテーション編集用ソフトウェア１１Ａにおける機能的構成について説明する。図２は、実施の形態に係る端末装置Ｐ１のアノテーション編集用ソフトウェア１１Ａにおける機能構成例を示すブロック図である。

【0025】

アノテーション編集用ソフトウェア１１Ａは、ユーザ操作受付部１１Ｂと、ユーザ指定区間決定部１１Ｃと、学習対象区間自動決定部１１Ｄと、学習対象区間自動補正部１１Ｅと、学習対象区間データ管理部１１Ｆと、学習対象区間表示部１１Ｇと、音声データ選択部１１Ｈと、音声データ表示部１１Ｉと、を含んで構成される。なお、アノテーション編集用ソフトウェア１１Ａにおける学習対象区間自動補正部１１Ｅの構成は、必須でなく省略されてもよいし、オプション機能としてユーザの要望に応じて追加されてもよい。

【0026】

ユーザ操作受付部１１Ｂは、ユーザによるアノテーション編集を行う対象として選択されたいずれかの音声データ１２Ｂのうち機械学習を行う区間についてユーザによる指定操作を受け付ける。ユーザ操作受付部１１Ｂは、ユーザ操作により指定された指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれを指定する操作を受け付け、始点ＵＲ１および終点ＵＲ２のそれぞれの情報をユーザ指定区間決定部１１Ｃに出力する。

【0027】

ユーザ指定区間決定部１１Ｃは、ユーザ操作受付部１１Ｂから出力された指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれの情報に基づいて、指定区間ＵＲを決定する。ユーザ指定区間決定部１１Ｃは、決定された指定区間ＵＲの情報を学習対象区間自動決定部１１Ｄに出力する。

【0028】

学習対象区間自動決定部１１Ｄは、ユーザ指定区間決定部１１Ｃから出力された指定区間ＵＲの情報に基づいて、１つ以上の学習対象区間を決定する。学習対象区間自動決定部１１Ｄは、決定された学習対象区間の情報を学習対象区間自動補正部１１Ｅに出力する。なお、ここで、学習対象区間自動補正部１１Ｅがアノテーション編集用ソフトウェア１１Ａの構成に含まれていない場合、学習対象区間自動決定部１１Ｄは、決定された学習対象区間の情報を学習対象区間データ管理部１１Ｆに出力してもよい。また、学習対象区間自動決定部１１Ｄは、学習対象区間自動補正部１１Ｅと学習対象区間データ管理部１１Ｆとに決定された学習対象区間の情報を出力してもよい。

【0029】

学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄから出力された１つ以上の学習対象区間のそれぞれが機械学習の実行に有効な学習対象区間であるか否かを判定する。学習対象区間自動補正部１１Ｅは、機械学習の実行に有効な学習対象区間でないと判定した場合、この学習対象区間を機械学習の対象から外す処理（つまり、学習対象区間の除外処理）を実行したり、この学習対象区間の区間を補正したりする処理を実行する。なお、学習対象区間自動補正部１１Ｅにより実行される各処理は、すべて実行してもよいし、ユーザにより指定されたいずれか一方の処理のみを実行してもよい。学習対象区間自動補正部１１Ｅは、除外処理あるいは補正処理後の１つ以上の学習対象区間のそれぞれの情報を学習対象区間データ管理部１１Ｆに出力する。

【0030】

学習対象区間データ管理部１１Ｆは、ユーザにより指定された指定区間ＵＲの情報（つまり、指定区間ＵＲの始点ＵＲ１および終点ＵＲ２の情報）と、この指定区間ＵＲに対して決定された１つ以上の学習対象区間のそれぞれの始点および終点の情報と、ラベル入力欄ＬＢ（図１０参照）に入力されたラベル名とを対応付けて管理するとともに、学習対象区間表示部１１Ｇに出力する。なお、学習対象区間データ管理部１１Ｆは、指定区間ＵＲの情報、１つ以上の学習対象区間のそれぞれの始点および終点の情報、およびラベル名に基づいて、編集データ１２Ａを生成し、メモリ１２に出力して登録させてもよい。

【0031】

学習対象区間表示部１１Ｇは、学習対象区間データ管理部１１Ｆから出力された指定区間ＵＲの情報、１つ以上の学習対象区間のそれぞれの始点および終点の情報に基づいて、ユーザにより選択された音声データ１２Ｂの信号波形データＷＦ１または周波数スペクトルデータＳＰ１の少なくとも一方に、登録された１つ以上の学習対象区間のそれぞれを示す枠線を重畳したアノテーション編集画面ＳＣ（図１０参照）を生成する。学習対象区間表示部１１Ｇは、生成されたアノテーション編集画面ＳＣをモニタ１４に出力して表示させる。

【0032】

音声データ選択部１１Ｈは、ユーザ操作受付部１１Ｂから出力された音声データ１２Ｂの情報に基づいて、メモリ１２を参照し、音声データ１２Ｂを取得する。音声データ選択部１１Ｈは、取得された音声データ１２Ｂを音声データ表示部１１Ｉに出力する。

【0033】

音声データ表示部１１Ｉは、音声データ選択部１１Ｈから出力された音声データ１２Ｂに基づいて、音声データ１２Ｂの信号波形データＷＦ１と、周波数スペクトルデータＳＰ１とを含むアノテーション編集画面（不図示）を生成して、モニタ１４に出力して表示させる。なお、音声データ表示部１１Ｉにより生成されるアノテーション編集画面（不図示）は、ユーザによる指定区間ＵＲの指定操作を受け付ける前にモニタ１４に表示される画面である。

【0034】

まず、図３を参照して、ユーザ操作受付部１１Ｂの動作手順について説明する。図３は、実施の形態に係る端末装置Ｐ１におけるユーザ操作受付部１１Ｂの動作手順例を示すフローチャートである。なお、図３を参照して説明するユーザ操作受付部１１Ｂの動作手順は、一例としてマウスによりユーザ操作の受け付けを行う例について説明するが、これに限定されないことは言うまでもない。

【0035】

まず、プロセッサ１１は、ユーザ操作に基づいて、アノテーション編集用ソフトウェア１１Ａを起動する。ユーザ操作受付部１１Ｂは、入力部１３により受け付けられたユーザ操作に基づいて、アノテーション編集の対象となる音声データ１２Ｂの選択操作を受け付ける。ユーザ操作受付部１１Ｂは、選択された音声データ１２Ｂの情報を音声データ選択部１１Ｈに出力する。

【0036】

音声データ選択部１１Ｈは、ユーザ操作受付部１１Ｂから出力された音声データ１２Ｂの情報に基づいて、メモリ１２を参照し、音声データ１２Ｂを取得する。音声データ選択部１１Ｈは、取得された音声データ１２Ｂを音声データ表示部１１Ｉに出力する。音声データ表示部１１Ｉは、音声データ選択部１１Ｈから出力された音声データ１２Ｂに基づいて、音声データ１２Ｂの信号波形データＷＦ１と、音声データ１２Ｂの周波数スペクトルデータＳＰ１とを含むアノテーション編集画面（不図示）を生成して、モニタ１４に出力して表示させる。信号波形データＷＦ１は、縦軸が音圧レベルを示し、横軸が時間を示す。また、周波数スペクトルデータＳＰ１は、縦軸が周波数を示し、横軸が時間を示す。

【0037】

ユーザ操作受付部１１Ｂは、ユーザ操作を受け付け可能な入力部１３から送信された制御指令に基づいて、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にあるか否かを判定する（Ｓｔ１１）。なお、ここでいう波形表示領域は、アノテーション編集画面上の信号波形データＷＦ１の表示領域ＡＲ１および周波数スペクトルデータＳＰ１の表示領域ＡＲ２のうち少なくともいずれか一方の領域を含む領域である。

【0038】

ユーザ操作受付部１１Ｂは、ステップＳｔ１１の処理において、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にあると判定した場合（Ｓｔ１１，ＹＥＳ）、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作したか否かを判定する（Ｓｔ１２）。一方、ユーザ操作受付部１１Ｂは、ステップＳｔ１１の処理において、ユーザにより操作されるマウスと連動するカーソルの位置が波形表示領域内にないと判定した場合（Ｓｔ１１，ＮＯ）、再度ステップＳｔ１１の処理に戻る。

【0039】

ユーザ操作受付部１１Ｂは、ステップＳｔ１２の処理において、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作したと判定した場合（Ｓｔ１２，ＹＥＳ）、機械学習に使用する指定区間ＵＲにおける始点ＵＲ１の指定操作を受け付けて（Ｓｔ１３）、この操作が行われたカーソル位置に対応する音声データ１２Ｂの時間をユーザ指定区間決定部１１Ｃに出力する。一方、ユーザ操作受付部１１Ｂは、ステップＳｔ１２の処理において、カーソルが波形表示領域内の任意の位置にある状態で、ユーザがマウスをクリック操作していないと判定した場合（Ｓｔ１２，ＹＥＳ）、ステップＳｔ１２の処理に戻る。

【0040】

ユーザ操作受付部１１Ｂは、ユーザがマウスをクリック操作した状態がホールド（維持）されているか否かを判定する（Ｓｔ１４）。ユーザ操作受付部１１Ｂは、ステップＳｔ１４の処理において、ユーザがマウスをクリック（選択）した状態がホールド（維持）されていると判定した場合（Ｓｔ１４，ＹＥＳ）、ステップＳｔ１４の処理に戻る。一方、ユーザ操作受付部１１Ｂは、ステップＳｔ１４の処理において、ユーザがマウスをクリック（選択）した状態が終了したと判定した場合（Ｓｔ１４，ＮＯ）、機械学習に使用する指定区間ＵＲにおける終点ＵＲ２の指定操作を受け付けて（Ｓｔ１５）、この操作が行われたカーソル位置に対応する音声データ１２Ｂの時間をユーザ指定区間決定部１１Ｃに出力する。

【0041】

ユーザ指定区間決定部１１Ｃは、ユーザ操作受付部１１Ｂから出力された指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれを対応付けて、ユーザによる指定された１つの指定区間ＵＲを決定する。ユーザ指定区間決定部１１Ｃは、決定された指定区間ＵＲの情報を学習対象区間自動決定部１１Ｄに出力する。

【0042】

なお、ユーザ操作受付部１１Ｂは、指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれの指定操作を、始点ＵＲ１に対応する時間および終点ＵＲ２に対応する時間のそれぞれの入力操作により受け付けてもよい。例えば、このような場合、ユーザ操作受付部１１Ｂは、モニタ１４上に表示されたアノテーション編集画面ＳＣ（図１０参照）のうち始点および終点のそれぞれに対応する時間の入力操作を受け付ける。ユーザ操作受付部１１Ｂは、始点および終点のそれぞれに対応する時間の入力操作を受け付け可能な入力欄ＳＦ１に、始点および終点のそれぞれに対応する時間が入力されたと判定した場合、ユーザによる１つの指定区間の入力操作を受け付ける。ユーザ指定区間決定部１１Ｃは、入力欄ＳＦ１に入力された始点および終点のそれぞれに対応する時間に基づいて、１つの指定区間を決定する。

【0043】

また、ユーザ操作受付部１１Ｂは、指定区間ＵＲの始点ＵＲ１および終点ＵＲ２の設定において、指定された始点および終点の時間を所定時間ごと（例えば、０．１秒、０．５秒等）の時間に自動補正してもよい。

【0044】

次に、図４～図６を参照して、学習対象区間自動決定部１１Ｄの動作手順について説明する。図４は、学習対象区間自動決定部１１Ｄにおける学習対象区間の自動選択手順例を示すフローチャートである。図５は、ユーザにより指定された指定区間ＵＲと、複数の学習対象区間のそれぞれとを説明する図である。図６は、学習対象区間の一例を説明する図である。

【0045】

なお、図５に示す指定区間ＵＲを示す枠線ＦＲ１と複数の学習対象区間のそれぞれを示す枠線ｒ１１，ｒ１２，ｒ１３，ｒ１４，ｒ１５，ｒ１６，ｒ１７とは、信号波形データＷＦ１上にのみ重畳されている例を示すが、周波数スペクトルデータＳＰ１上に重畳されてもよいし、信号波形データＷＦ１および周波数スペクトルデータＳＰ１のそれぞれに重畳されてもよい。また、図５に示す例において、枠線ＦＲ１，ｒ１１～ｒ１７のそれぞれの形状は、すべて楕円形状であるが、これに限定されないことは言うまでもない。枠線ＦＲ１，ｒ１１～ｒ１７のそれぞれの形状は、矩形状以外の形状（例えば、三角形、ひし形等）であればよい。また、指定区間を示す枠線ＦＲ１の形状と、各学習対象区間のそれぞれを示す枠線ｒ１１～ｒ１７の形状とは、同一形状でなくてもよい。以下、枠線の形状について他の例について説明する。

【0046】

枠線の形状は、１本以上の直線と１本以上の曲線とにより形成される任意の形状（例えば、半円、楕円を任意の位置および角度で切断した形状等）、複数の曲線により形成される任意の形状であってもよい。例えば、楕円形状を有する枠線は、２つの曲線により形成される形状、または２つの曲線と２本の直線とにより形成されてよい。また、枠線の形状は、１つ以上の鋭角または鈍角を有する形状であってよい。さらに、枠線の形状は、例えば、扇形状のように１つ以上の曲線と１つ以上の鋭角または鈍角とを有する形状であってよい。

【0047】

また、枠線の形状は、上辺部と下辺部とにより形成される形状であって、上辺部と下辺部とが互いに非平行となる形状であってよい。ここでいう上辺部および下辺部のそれぞれは、１本以上の直線、１本以上の曲線、または１本以上の直線と１本以上の曲線とを含む。例えば、枠線の形状が三角形である場合、枠線は、三角形を形成する３本の直線のうち任意の２本の直線を含む上辺部と１本の直線を含む下辺部とにより形成される。なお、上辺部と下辺部とに含まれる１本以上の直線、あるいは１本以上の曲線は、信号波形データＷＦ１および周波数スペクトルデータＳＰ１の横軸（つまり、時間軸）と非平行である。

【0048】

さらに、枠線の形状は、枠線が形成する任意の形状の中心点において、信号波形データＷＦ１および周波数スペクトルデータＳＰ１の横軸に対応する方向の長さと、信号波形データＷＦ１および周波数スペクトルデータＳＰ１の縦軸に対応する方向の長さとが異なる長さを有する形状でもよい。これにより、端末装置Ｐ１は、隣り合う枠線のそれぞれの視認性を向上させることができる。

【0049】

なお、図６では１番目の学習対象区間の始点および終点のみを図示し、２番目以降の学習対象区間のそれぞれの始点および終点の図示を省略している。

【0050】

学習対象区間自動決定部１１Ｄは、ユーザ指定区間決定部１１Ｃから出力された指定区間ＵＲの情報を取得する（Ｓｔ２１）。学習対象区間自動決定部１１Ｄは、取得された指定区間ＵＲの情報に基づいて、１番目の学習対象区間の決定処理を開始する。学習対象区間自動決定部１１Ｄは、指定区間ＵＲの始点ＵＲ１を、１番目の学習対象区間の始点ｂｘ１に決定する（Ｓｔ２２）。

【0051】

学習対象区間自動決定部１１Ｄは、設定された１番目の学習対象区間の始点ｂｘ１から所定の処理区間幅ＰＲ１（つまり、学習対象となる時間範囲）の位置を１番目の学習対象区間の終点ｅｘ１に決定する（Ｓｔ２３）。なお、ここでいう所定の処理区間幅ＰＲ１に含まれるサンプル数は、例えば１５００サンプル、あるいは１６００サンプル等である。所定の処理区間幅ＰＲ１は、後述するシフトサンプル数Ａ３よりも大きい幅（サンプル数）であっても、小さい幅（サンプル数）であってもよく、ユーザにより事前に任意の値（サンプル数）が設定されてもよいし、ユーザにより指定された指定区間ＵＲの大きさに基づいて、所定の値が設定されてもよい。なお、所定の処理区間幅ＰＲ１がシフトサンプル数Ａ３よりも小さい幅である場合、学習対象区間自動決定部１１Ｄは、一部の区間を飛ばしながら学習対象区間を決定する。

【0052】

学習対象区間自動決定部１１Ｄは、決定された１番目の学習対象区間の始点ｂｘ１および終点ｅｘ１が示す区間［ｂｘ１，ｅｘ１］を１番目の学習対象区間として新規に登録する（Ｓｔ２４）。なお、ここでいう登録処理は、学習対象区間自動決定部１１Ｄにより１つの指定区間ＵＲの情報と、決定された学習対象区間の情報とを対応付けて学習対象区間データ管理部１１Ｆに出力して記憶させる処理である。

【0053】

学習対象区間自動決定部１１Ｄは、１番目の学習対象区間の始点ｂｘ１をシフトサンプル数Ａ３だけずらした位置に２番目の学習対象区間の始点ｂｘ２（不図示）を決定する（Ｓｔ２５）。なお、ここでいうシフトサンプル数Ａ３のサンプル数は、例えば処理区間幅ＰＲ１の３割、あるいは４割等のサンプル数であり、ユーザにより任意のサンプル数が設定されてよい。例えば、シフトサンプル数Ａ３のサンプル数は、学習対象区間をより小さい区間に設定する場合には、より小さいサンプル数が設定され、学習対象区間をより大きい区間に設定する場合にはより大きいサンプル数が設定される。

【0054】

学習対象区間自動決定部１１Ｄは、ステップＳｔ２３～ステップＳｔ２５に示す学習対象区間の始点および終点の決定処理と、決定された１つ以上の学習対象区間のそれぞれの登録処理とを繰り返し実行する。学習対象区間自動決定部１１Ｄは、ステップＳｔ２４の処理において、（Ｎ＋１）（Ｎ：１以上の整数）番目の学習対象区間の終点ｅｘ（Ｎ＋１）がユーザにより指定された指定区間ＵＲをはみ出したと判定した場合、指定区間ＵＲに対して１番目の学習対象区間からＮ番目の学習対象区間までのＮ個の学習対象区間のそれぞれを登録し、学習対象区間決定処理を終了する。

【0055】

具体的に、図５に示す例における学習対象区間自動決定部１１Ｄは、７番目の学習対象区間を新規に登録した後、８番目の学習対象区間の終点がユーザにより指定された指定区間ＵＲの終点ＵＲ２をはみ出すと判定し、指定区間ＵＲに対して１番目の学習対象区間から７番目の学習対象区間までの７個の学習対象区間を登録する。

【0056】

学習対象区間自動決定部１１Ｄは、１つの指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれの情報と、決定された１つ以上の学習対象区間のそれぞれの情報とを対応付けて、学習対象区間自動補正部１１Ｅおよび学習対象区間データ管理部１１Ｆに出力する。

【0057】

学習対象区間表示部１１Ｇは、学習対象区間データ管理部１１Ｆから出力された１つの指定区間ＵＲの始点ＵＲ１および終点ＵＲ２のそれぞれの情報に基づいて、この始点ＵＲ１から終点ＵＲ２までを囲う枠線ＦＲ１を、信号波形データＷＦ１および周波数スペクトルデータＳＰ１の少なくとも一方のデータ上に重畳する。

【0058】

また、学習対象区間表示部１１Ｇは、学習対象区間データ管理部１１Ｆから出力された１つ以上の学習対象区間のそれぞれの始点および終点の情報に基づいて、各学習対象区間の始点から終点までを囲う枠線ｒ１１～ｒ１７を、信号波形データＷＦ１および周波数スペクトルデータＳＰ１の少なくとも一方のデータ上に重畳する。学習対象区間表示部１１Ｇは、指定区間および１つ以上の学習対象区間のそれぞれを示す枠線ＦＲ１，ｒ１１～ｒ１７のそれぞれを重畳したアノテーション編集画面を生成して、モニタ１４に出力する。

【0059】

ここで、図５および図６に示す例において、枠線ｒ１１は、１番目の学習対象区間を示し、１番目の学習対象区間の始点ｂｘ１から終点ｅｘ１までを囲む。また、同様に、枠線ｒ１２は、２番目の学習対象区間の始点ｂｘ２（不図示）から終点ｅｘ２（不図示）までを囲む。枠線ｒ１３は、３番目の学習対象区間の始点ｂｘ３（不図示）から終点ｅｘ３（不図示）までを囲む。４番目の学習対象区間の始点ｂｘ４（不図示）から終点ｅｘ４（不図示）までを囲む。５番目の学習対象区間の始点ｂｘ５（不図示）から終点ｅｘ５（不図示）までを囲む。６番目の学習対象区間の始点ｂｘ６（不図示）から終点ｅｘ６（不図示）までを囲む。７番目の学習対象区間の始点ｂｘ７（不図示）から終点ｅｘ７（不図示）までを囲む。

【0060】

次に、図７を参照して、学習対象区間自動補正部１１Ｅにより実行される除外処理手順について説明する。図７は、学習対象区間自動補正部１１Ｅにおける学習対象区間の除外処理手順例を示すフローチャートである。

【0061】

学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定された１つ以上の学習対象区間のそれぞれのうちいずれか１つの学習対象区間の情報を取得する（Ｓｔ３１）。ここでは、一例として、学習対象区間自動補正部１１Ｅは、ｋ番目の学習対象区間の情報を取得し、このｋ番目の学習対象区間の区間を補正する例について説明する。

【0062】

学習対象区間自動補正部１１Ｅは、取得されたｋ番目の学習対象区間の平均音量Ｌを算出し（Ｓｔ３２）、算出された平均音量Ｌが音量規定値Ａ１未満であるか否かを判定する（Ｓｔ３３）。なお、ここでいう音量規定値Ａ１は、例えば音声データ１２Ｂが１６ｂｉｔのデジタル音である場合には－５０ｄＢフルスケール等のように事前に設定された条件に基づいて決定される固定値であってよい。また、音量規定値Ａ１は、音声データ１２Ｂの最小音圧レベルに所定の音圧レベル（例えば、６ｄＢ，８ｄＢ等）を加算した値であってもよいし、音声データ１２Ｂの最小音圧レベルの値に基づいて加算される音圧レベルを決定し、最小音圧レベルに決定された所定の音圧レベルを加算した値であってもよい。

【0063】

学習対象区間自動補正部１１Ｅは、ステップＳｔ３３の処理において、算出された平均音量Ｌが音量規定値Ａ１未満であると判定した場合（Ｓｔ３３，ＹＥＳ）、このｋ番目の学習対象区間を機械学習の対象から除外し（Ｓｔ３４）、このｋ番目の学習対象区間に対する補正処理を終了する。一方、学習対象区間自動補正部１１Ｅは、ステップＳｔ３３の処理において、算出された平均音量Ｌが音量規定値Ａ１未満でないと判定した場合（Ｓｔ３３，ＮＯ）、このｋ番目の学習対象区間に対する削除処理が不要であると判定し、削除処理を省略する。

【0064】

学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定されたすべての学習対象区間のそれぞれに対してステップＳｔ３１～ステップＳｔ３４に示す処理を実行する。学習対象区間自動補正部１１Ｅは、すべての学習対象区間のそれぞれに対してステップＳｔ３１～ステップＳｔ３４に示す処理が実行されたと判定した場合、図７に示す削除処理を終了する。

【0065】

次に、図８を参照して、学習対象区間自動補正部１１Ｅにより実行される補正処理手順について説明する。図８は、学習対象区間自動補正部１１Ｅにおける学習対象区間の補正処理手順例を示すフローチャートである。

【0066】

学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定された１つ以上の学習対象区間のそれぞれのうちいずれか１つの学習対象区間の情報を取得する（Ｓｔ４１）。ここでは、一例として、学習対象区間自動補正部１１Ｅは、ｋ番目の学習対象区間の情報を取得し、このｋ番目の学習対象区間の区間を補正する例について説明する。

【0067】

学習対象区間自動補正部１１Ｅは、取得されたｋ番目の学習対象区間から音量規定値Ａ２を超える区間の合計時間Ｔ１を算出する（Ｓｔ４２）。なお、ここでいう音量規定値Ａ２は、例えば音声データ１２Ｂが１６ｂｉｔのデジタル音である場合には－５０ｄＢフルスケール等のように事前に設定された条件に基づいて決定される固定値であってよい。また、音量規定値Ａ２は、音声データ１２Ｂの最小音圧レベルに所定の音圧レベル（例えば、６ｄＢ，８ｄＢ等）を加算した値であってもよいし、音声データ１２Ｂの最小音圧レベルの値に基づいて加算される音圧レベルを決定し、最小音圧レベルに決定された所定の音圧レベルを加算した値であってもよい。さらに、音量規定値Ａ２は、音量規定値Ａ１と同値であってもよい。

【0068】

学習対象区間自動補正部１１Ｅは、算出された合計時間Ｔ１が所定時間Ｂ未満であるか否かを判定する（Ｓｔ４３）。なお、ここでいう所定時間Ｂは、ｋ番目の学習対象区間の始点ｂｘｋから終点ｅｘｋまでの時間に基づいて決定され、例えば始点ｂｘｋから終点ｅｘｋまでの時間の例えば４割、５割等の時間である。

【0069】

学習対象区間自動補正部１１Ｅは、ステップＳｔ４３の処理において、算出された合計時間Ｔ１が所定時間Ｂ未満であると判定した場合（Ｓｔ４３，ＹＥＳ）、このｋ番目の学習対象区間のうち音量規定値Ａ２を超える区間を抽出し、抽出された区間のうち最初の位置ｘｋ（時間）の情報を取得する（Ｓｔ４４）。一方、学習対象区間自動補正部１１Ｅは、ステップＳｔ４４の処理において、算出された合計時間Ｔ１が所定時間Ｂ未満でないと判定した場合（Ｓｔ４４，ＮＯ）、このｋ番目の学習対象区間に対する補正処理が不要であると判定し、補正処理を省略する。

【0070】

学習対象区間自動補正部１１Ｅは、取得された位置ｘｋとｋ番目の学習対象区間の始点ｂｘｋとの間の差分区間（ずれ）を算出する。学習対象区間自動補正部１１Ｅは、算出された差分区間（ずれ）がシフトサンプル数Ａ３未満であるか否かを判定する（Ｓｔ４５）。

【0071】

学習対象区間自動補正部１１Ｅは、ステップＳｔ４５の処理において、算出された差分区間（ずれ）がシフトサンプル数Ａ３未満であると判定した場合（Ｓｔ４５，ＹＥＳ）、このｋ番目の学習対象区間の始点を位置ｘｋに更新（変更）する（Ｓｔ４６）。一方、学習対象区間自動補正部１１Ｅは、ステップＳｔ４５の処理において、算出された差分区間（ずれ）がシフトサンプル数Ａ３未満でないと判定した場合（Ｓｔ４５，ＮＯ）、このｋ番目の学習対象区間に対する補正処理が不要であると判定し、補正処理を省略する。

【0072】

学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定されたすべての学習対象区間のそれぞれに対してステップＳｔ４１～ステップＳｔ４６に示す補正処理を実行する。学習対象区間自動補正部１１Ｅは、すべての学習対象区間のそれぞれに対してステップＳｔ４１～ステップＳｔ４６に示す補正処理が実行されたと判定した場合、図８に示す補正処理を終了する。

【0073】

ここで、図９を参照して、学習対象区間自動補正部１１Ｅによる除外処理および補正処理後の学習対象区間の一例について説明する。図９は、除外処理および補正処理後の学習対象区間の一例を示す図である。なお、図９は、図５で示す７つの学習対象区間のそれぞれが学習対象区間自動補正部１１Ｅによる除外処理および補正処理により、５つの学習対象区間のそれぞれに補正された後のアノテーション編集画面の一部を示す図である。

【0074】

図９において、５つの学習対象区間のそれぞれは、楕円形状の５個の枠線ｒ２１，ｒ２２，ｒ２３，ｒ２４，ｒ２５のそれぞれで示される。図９に示された５つの学習対象区間のそれぞれは、枠線ｒ２１で示される１番目の学習対象区間が図５に示す枠線ｒ１１で示される１番目の学習対象区間に、枠線ｒ２２で示される２番目の学習対象区間が図５に示す枠線ｒ１３で示される３番目の学習対象区間に、枠線ｒ２３で示される３番目の学習対象区間が図５に示す枠線ｒ１４で示される４番目の学習対象区間に、枠線ｒ２４で示される４番目の学習対象区間が図５に示す枠線ｒ１５で示される５番目の学習対象区間に、枠線ｒ２５で示される５番目の学習対象区間が図５に示す枠線ｒ１６で示される６番目の学習対象区間に、それぞれ対応する。

【0075】

ここで、図９に示す例において、図５において枠線ｒ１２で示される２番目の学習対象区間と、枠線ｒ１７で示される７番目の学習対象区間とは、学習対象区間自動補正部１１Ｅによる処理（具体的に、図７に示すステップＳｔ３４の処理）により、機械学習の対象から除外されたことで削除されている。また、図９に示す例において、枠線ｒ２４で示される４番目の学習対象区間は、学習対象区間自動補正部１１Ｅによる処理（具体的に、図８に示すステップＳｔ４６の処理）により、図５において枠線ｒ１５で示される５番目の学習対象区間の始点の位置が変更されている。

【0076】

以上により、学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定された学習対象区間のうち機械学習により有効でないと判定された学習対象区間の除外（削除）できる。これにより、学習対象区間自動補正部１１Ｅは、決定された学習対象区間のうち無音区間または音量が小さく機械学習に有効でない学習対象区間を除外できる。

【0077】

また、学習対象区間自動補正部１１Ｅは、学習対象区間自動決定部１１Ｄにより決定された学習対象区間のうち機械学習により有効でないと判定された学習対象区間の始点位置を変更して、学習対象区間を補正することができる。これにより、学習対象区間自動補正部１１Ｅは、決定された学習対象区間が音量規定値Ａ２以上の区間をより多く含むように区間を補正できるため、機械学習により有効な学習対象区間を決定できる。

【0078】

次に、図１０を参照して、モニタ１４に表示されるアノテーション編集画面ＳＣについて説明する。図１０は、アノテーション編集画面ＳＣの一例を示す図である。

【0079】

アノテーション編集画面ＳＣは、音声データ１２Ｂの信号波形データＷＦ２と、周波数スペクトルデータＳＰ２と、ラベル入力欄ＬＢと、を少なくとも含んで生成される。また、アノテーション編集画面ＳＣは、ユーザ操作により指定区間の始点ＵＲ３および終点ＵＲ４のそれぞれの入力を受け付けると、信号波形データＷＦ２および周波数スペクトルデータＳＰ２のいずれか一方のデータ上に指定区間を示す枠線ＦＲ２と、この指定区間に基づいて決定された１つ以上の学習対象区間のそれぞれを示す枠線ｒ３１，ｒ３２，ｒ３３，ｒ３４，ｒ３５，ｒ３６のそれぞれとが重畳される。

【0080】

なお、図１０に示す例において、枠線ＦＲ２，ｒ３１～ｒ３６のそれぞれの形状は、すべて楕円形状であるが、これに限定されないことは言うまでもない。枠線ＦＲ２，ｒ３１～ｒ３６のそれぞれの形状は、矩形状以外の形状（例えば、三角形、ひし形等）であればよい。また、指定区間を示す枠線ＦＲ２の形状と、各学習対象区間のそれぞれを示す枠線ｒ３１～ｒ３６の形状とは、同一形状でなくてもよい。

【0081】

また、ユーザ操作受付部１１Ｂは、指定区間ＵＲの始点ＵＲ１および終点ＵＲ２の設定において、指定された始点および終点の時間を所定時間ごと（例えば、０．１秒、０．５秒等）の時間に自動補正してもよい。例えば、図１０に示す入力欄ＳＦ１は、指定区間の始点ＵＲ３の位置（時間）が「０：０２．２６６」、終点ＵＲ４の位置（時間）が「０：０６．１０２」と入力されている。このような場合、ユーザ操作受付部１１Ｂは、入力欄ＳＦ１に入力された内容に基づいて、指定された始点ＵＲ３を「０：０２」、終点ＵＲ４を「０：０６」にそれぞれ自動補正してもよい。

【0082】

これにより、アノテーション編集用ソフトウェア１１Ａは、上述した入力欄ＳＦ１への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置（時間）および終点の位置（時間）を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。

【0083】

追加ボタンＢＴ１は、新たな指定区間の追加処理を行うためのボタンである。アノテーション編集用ソフトウェア１１Ａは、ユーザ操作により追加ボタンＢＴ１が押下（選択）されると、新たな指定区間の追加を受け付ける。

【0084】

更新ボタンＢＴ２は、入力欄ＳＦ１に入力された指定区間の始点および終点のそれぞれに対応する時間の入力内容に基づいて、指定区間を更新（変更）したり、ラベル入力欄ＬＢ等に入力された指定区間のラベル名を指定区間に対応付けて登録（記録）したりするボタンである。

【0085】

削除ボタンＢＴ３は、ユーザ操作により指定されたいずれかの指定区間、またはいずれか１つ以上の学習対象区間を削除するボタンである。アノテーション編集用ソフトウェア１１Ａは、いずれかの指定区間、またはいずれか１つ以上の学習対象区間が選択（指定）された状態でユーザ操作により削除ボタンＢＴ３が押下（選択）されると、選択（指定）中の指定区間、または学習対象区間を削除する。

【0086】

ＰｌａｙボタンＢＴ４は、音声データ１２Ｂの再生を行うためのボタンである。アノテーション編集用ソフトウェア１１Ａは、ユーザ操作によりＰｌａｙボタンＢＴ４が押下（選択）されると、編集中の音声データ１２Ｂを再生する。

【0087】

ＳｔｏｐボタンＢＴ５は、音声データ１２Ｂの再生を停止するためのボタンである。アノテーション編集用ソフトウェア１１Ａは、ユーザ操作によりＳｔｏｐボタンＢＴ５が押下（選択）されると、編集中の音声データ１２Ｂの再生を停止する。

【0088】

入力欄ＳＦ１は、指定区間の始点および終点のそれぞれに対応する時間を受け付けるための入力欄である。アノテーション編集用ソフトウェア１１Ａは、ユーザ操作により入力欄ＳＦ１に指定区間の始点または終点のそれぞれに対応する時間が入力されると、入力された始点から終点までの時間帯を指定区間に決定する。

【0089】

ラベル入力欄ＬＢは、指定区間ごとに設定されるラベル名の入力を受け付けるための入力欄である。アノテーション編集用ソフトウェア１１Ａは、ユーザ操作によりラベル入力欄ＬＢにユーザが指定区間に設定したいラベル名が入力されると、入力されたラベル名と指定区間の情報と決定された１つ以上の学習対象区間のそれぞれの情報とを対応付けて、編集データ１２Ａとしてメモリ１２に出力して登録させる。

【0090】

以上により、実施の形態に係る端末装置Ｐ１（音声学習支援装置の一例）は、プロセッサ１１と、メモリ１２と、モニタ１４と、を備える。プロセッサ１１は、音声データ１２Ｂの信号波形（例えば、図１０に示す信号波形データＷＦ２および周波数スペクトルデータＳＰ２）をモニタ１４に表示した上で、音声データ１２Ｂに対してユーザによる指定区間（具体的には、指定区間の始点ＵＲ３および終点ＵＲ４のそれぞれ）の指定操作を受け付け、指定された指定区間のうち機械学習に使用される１つ以上の学習対象区間のそれぞれを決定し、信号波形上に決定された１つ以上の学習対象区間のそれぞれを示す枠線（例えば、図１０に示す枠線ｒ３１～ｒ３６のそれぞれ）を重畳したアノテーション編集画面ＳＣ（画面の一例）を生成してモニタ１４に出力する。

【0091】

これにより、実施の形態に係る端末装置Ｐ１は、ユーザにより指定された指定区間に対して機械学習の対象となる１つ以上の学習対象区間のそれぞれを自動で決定し、決定された１つ以上の学習対象区間を音声データ１２Ｂの信号波形データＷＦ２あるいは周波数スペクトルデータＳＰ２上に重畳したアノテーション編集画面ＳＣを表示することで、機械学習の対象となる音声区間としての学習対象区間のそれぞれをユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する。

【0092】

また、以上により、１つ以上の学習対象区間のそれぞれを示す枠線は、矩形以外の多角形形状である。これにより、実施の形態に係る端末装置Ｐ１は、矩形状を有するモニタ１４の形状と、重畳された枠線の形状とが異なるため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置Ｐ１は、モニタ１４に表示された信号波形データＷＦ２および周波数スペクトルデータＳＰ２の表示領域ＡＲ１，ＡＲ２の形状（つまり、矩形状）と、重畳された枠線の形状とが異なるため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。

【0093】

また、以上により、１つ以上の学習対象区間のそれぞれを示す枠線は、真円以外の円形状である。これにより、実施の形態に係る端末装置Ｐ１は、矩形状を有するモニタ１４の形状、または信号波形データＷＦ２および周波数スペクトルデータＳＰ２の表示領域ＡＲ１，ＡＲ２の形状（つまり、矩形状）と、重畳された枠線の形状とが異なるため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置Ｐ１は、矩形状に形成されたモニタ１４の４辺、信号波形データＷＦ２および周波数スペクトルデータＳＰ２の表示領域ＡＲ１，ＡＲ２の４辺、または信号波形データＷＦ２および周波数スペクトルデータＳＰ２の縦軸、横軸を示す直線と、枠線とが非平行であるため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置Ｐ１は、枠線を真円以外の円形状で重畳することで、隣り合う枠線同士が重なり合っても、視認性を向上させることができる。

【0094】

以上により、実施の形態に係る端末装置Ｐ１で決定される１つ以上の学習対象区間のそれぞれは、楕円、三角形またはひし形の形状の枠線で重畳される。これにより、実施の形態に係る端末装置Ｐ１は、矩形状以外の形状を有する枠線で１つ以上の学習対象区間のそれぞれを示すため、矩形状に形成されたモニタ１４の４辺のうちいずれかの一辺と、重畳された枠線とが互いに平行にならないため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。また、端末装置Ｐ１は、モニタ１４に表示された信号波形データＷＦ２および周波数スペクトルデータＳＰ２の矩形状の表示領域ＡＲ１，ＡＲ２の辺、あるいは信号波形データＷＦ２および周波数スペクトルデータＳＰ２の縦軸または横軸と、重畳された枠線とが互いに平行しない（つまり、非平行である）ため、アノテーション編集画面ＳＣ上に表示される１つ以上の学習対象区間のそれぞれの視認性をより向上できる。

【0095】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、１つ以上の学習対象区間のそれぞれごとに平均音量Ｌを算出し、算出された平均音量Ｌが閾値としての音量規定値Ａ１未満であると判定された学習対象区間を機械学習の対象から外す。これにより、実施の形態に係る端末装置Ｐ１は、決定された学習対象区間のうち無音区間または音量が小さく機械学習に有効でない学習対象区間を除外できる。

【0096】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、１つ以上の学習対象区間のそれぞれのうち所定音量としての音量規定値Ａ２以上である区間の合計時間Ｔ１が所定時間Ｂ未満であると判定された学習対象区間において、最初に音量規定値Ａ２以上となる時間を学習対象区間の始点に補正する。これにより、実施の形態に係る端末装置Ｐ１は、機械学習により有効でない無音区間あるいは音量が小さい区間等を学習対象区間に含まれないように始点の位置を補正できる。しかがって、プロセッサ１１は、学習対象区間に含まれる区間を機械学習により有効な区間に自動補正した学習対象区間を決定できる。

【0097】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、１つ以上の学習対象区間のそれぞれのうちユーザ操作により指定された学習対象区間を機械学習の対象から外す。これにより、実施の形態に係る端末装置Ｐ１は、ユーザが意図しない学習対象区間を除外することで、機械学習により有効な１個以上の学習対象区間のそれぞれを決定し、登録できる。

【0098】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、音声データ１２Ｂの信号波形データＷＦ２と周波数スペクトルデータＳＰ２（スペクトルデータの一例）とを含むアノテーション編集画面ＳＣ（画面の一例）を生成して出力する。これにより、実施の形態に係る端末装置Ｐ１は、音声データ１２Ｂの信号波形データＷＦ２と周波数スペクトルデータＳＰ２とを同期して表示できる。

【0099】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、音声データ１２Ｂの信号波形データＷＦ２と周波数スペクトルデータＳＰ２（スペクトルデータの一例）のうちユーザ操作により指定されたいずれか一方に１つ以上の学習対象区間のそれぞれの範囲を示す枠線（例えば、図１０に示す枠線ｒ３１～ｒ３６のそれぞれ）を重畳したアノテーション編集画面ＳＣ（画面の一例）を生成する。これにより、実施の形態に係る端末装置Ｐ１は、ユーザによるアノテーション編集作業において、ユーザビリティをより向上できる。これにより、アノテーション編集用ソフトウェア１１Ａは、上述した入力欄ＳＦ１への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置（時間）および終点の位置（時間）を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。

【0100】

以上により、実施の形態に係る端末装置Ｐ１におけるプロセッサ１１は、音声データ１２Ｂを所定時間（例えば、０．１秒、０．５秒等）ごとに区分し、指定された指定区間の始点または終点が示す時間を、区分された所定時間のうち最も近い所定時間に補正する。これにより、実施の形態に係る端末装置Ｐ１におけるアノテーション編集用ソフトウェア１１Ａは、上述した入力欄ＳＦ１への入力による指定区間の始点および終点の指定操作だけでなく、例えば、マウス、タッチパネル等のユーザインタフェースを用いた指定操作時にユーザの手ぶれ等があった場合でも、入力されたる指定区間の始点の位置（時間）および終点の位置（時間）を切りがいい時間に自動補正することで、ユーザによる指定区間の始点および終点の指定操作を支援できる。

【0101】

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

【産業上の利用可能性】

【0102】

本開示は、機械学習の対象となる音声区間をユーザに分かり易く提示し、ユーザのアノテーション作業の利便性の向上を支援する音声学習支援装置および音声学習支援方法として有用である。

【符号の説明】

【0103】

１１プロセッサ
１１Ａアノテーション編集用ソフトウェア
１１Ｂユーザ操作受付部
１１Ｃユーザ指定区間決定部
１１Ｄ学習対象区間自動決定部
１１Ｅ学習対象区間自動補正部
１１Ｆ学習対象区間データ管理部
１１Ｇ学習対象区間表示部
１１Ｈ音声データ選択部
１１Ｉ音声データ表示部
１２メモリ
１２Ａ編集データ
１２Ｂ音声データ
１３入力部
１４モニタ
Ｐ１端末装置
ＦＲ１，ＦＲ２，ｒ１１，ｒ１２，ｒ１３，ｒ１４，ｒ１５，ｒ１６，ｒ１７，ｒ２１，ｒ２２，ｒ２３，ｒ２４，ｒ２５枠線
ＳＣアノテーション編集画面
ＳＰ１，ＳＰ２周波数スペクトルデータ
ＵＲ指定区間
ＵＲ１，ＵＲ３始点
ＵＲ２，ＵＲ４終点
ＷＦ１，ＷＦ２信号波形データ

【図1】