(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031012
(43)【公開日】2024-03-07
(54)【発明の名称】情報処理装置、音声認識支援方法、及び音声認識支援プログラム
(51)【国際特許分類】
G10L 15/04 20130101AFI20240229BHJP
【FI】
G10L15/04 300Z
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022134286
(22)【出願日】2022-08-25
(71)【出願人】
【識別番号】311012169
【氏名又は名称】NECパーソナルコンピュータ株式会社
(74)【代理人】
【識別番号】100112737
【弁理士】
【氏名又は名称】藤田 考晴
(74)【代理人】
【識別番号】100136168
【弁理士】
【氏名又は名称】川上 美紀
(74)【代理人】
【識別番号】100140914
【弁理士】
【氏名又は名称】三苫 貴織
(74)【代理人】
【識別番号】100172524
【弁理士】
【氏名又は名称】長田 大輔
(72)【発明者】
【氏名】飯野 武
(57)【要約】
【課題】音声認識の精度を向上させること。
【解決手段】クライアント端末10は、音声データから音が発生している音声区間を検出する音声区間検出部22と、音声区間検出部22の出力信号を平滑化する平滑化処理部31と、停止中状態において、平滑化処理部31から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部34と、発話中状態において、平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部35と、発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部33とを具備する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
音声データから音が発生している音声区間を検出する音声区間検出部と、
前記音声区間検出部の出力信号を平滑化する平滑化処理部と、
停止中状態において、前記平滑化処理部から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部と
を具備する情報処理装置。
【請求項2】
前記音声データ管理部は、前記発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定し、前記発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区間の終了時を決定する請求項1に記載の情報処理装置。
【請求項3】
前記平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する閾値設定部を更に備える請求項1に記載の情報処理装置。
【請求項4】
前記閾値設定部は、前記音声区間検出部の出力信号を前記平滑化処理部の平滑区間よりも長い区間で平滑化し、この平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する請求項3に記載の情報処理装置。
【請求項5】
前記平滑化処理部は、移動平均を用いて前記音声区間検出部の出力信号を平滑化する請求項1に記載の情報処理装置。
【請求項6】
音声データから音が発生している音声区間を検出する音声区間検出部と、
前記音声区間検出部の出力信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、
前記出力信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部と
を具備する情報処理装置。
【請求項7】
音声データから音が発生している音声区間を検出する音声区間検出工程と、
前記音声区間検出工程の出力信号を平滑化する平滑化処理工程と、
停止中状態において、前記平滑化処理工程から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定工程と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定工程と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理工程と
をコンピュータが実行する音声認識支援方法。
【請求項8】
コンピュータに請求項7に記載の音声認識支援方法を実行させるための音声認識支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、音声認識支援方法、及び音声認識支援プログラムに関するものである。
【背景技術】
【0002】
従来、音声認識エンジンを複数のクライアント端末で共有する音声認識システムが知られている。音声認識システムとして、家庭内ネットワークを介して複数のクライアント端末と音声認識サーバとを接続する狭域型の音声認識システム、クラウドサーバに音声認識エンジンを搭載し、インターネット回線等のネットワークを介して音声認識を行うクラウド型の音声認識システム等がある。
【0003】
このような音声認識システムでは、入力音声データから音声が発話された区間を検出する音声区間検出(VAD:Voice Activity Detection)の機能をクライアント端末に搭載し、検出された音声区間の音声データのみをサーバに送信する技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の音声区間検出は、音があるか否かを検出するものであったため、音声区間検出の出力をそのまま音声認識エンジンに入力すると、雑音や発話の途切れなどによって、音声認識が正確にできない可能性があった。
【0006】
例えば、
図15に示すように、雑音が生じた場合に、音声と雑音とを区別できないため、雑音の音声信号が音声区間として検出されて、音声認識エンジンに入力される。この場合、無駄な音声認識をしてしまうこととなる。また、ユーザが「夏休みに帰省中」という発話を行った際に、「夏休みに」と「帰省中」の間に音声の途切れが生じた場合、「なつやすみに」という音声データと「きせいちゅう」という音声データとが個別に検出されて、音声認識エンジンに入力されることとなる。この場合、連続した一つの音声として捉えることができず、文脈を把握できないため、「夏休みに寄生虫」といったように誤った音声認識がされるおそれがある。
【0007】
本発明は、このような事情に鑑みてなされたものであって、音声認識の精度を向上させることのできる情報処理装置、音声認識支援方法、及び音声認識支援プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の第一態様は、音声データから音が発生している音声区間を検出する音声区間検出部と、前記音声区間検出部の出力信号を平滑化する平滑化処理部と、停止中状態において、前記平滑化処理部から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部とを具備する情報処理装置である。
【0009】
本発明の第二態様は、音声データから音が発生している音声区間を検出する音声区間検出部と、前記音声区間検出部の出力信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、前記出力信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部とを具備する情報処理装置である。
【0010】
本発明の第三態様は、音声データから音が発生している音声区間を検出する音声区間検出工程と、前記音声区間検出工程の出力信号を平滑化する平滑化処理工程と、停止中状態において、前記平滑化処理工程から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定工程と、発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定工程と、発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理工程とをコンピュータが実行する音声認識支援方法である。
【0011】
本発明の第四態様は、コンピュータに上記音声認識支援方法を実行させるための音声認識支援プログラムである。
【発明の効果】
【0012】
本発明によれば、音声認識の精度を向上させることができるという効果を奏する。
【図面の簡単な説明】
【0013】
【
図1】本発明の第1実施形態に係る音声認識システムの全体構成を概略的に示したシステム構成図である。
【
図2】本発明の第1実施形態に係るクライアント端末のハードウェア構成の一例を示した図である。
【
図3】本発明の第1実施形態に係るクライアント端末が有する音声認識支援機能の一例を示した機能構成図である。
【
図4】本発明の第1実施形態に係る音声検出部から出力されるVAD信号の一例を示した図である。
【
図5】本発明の第1実施形態に係る平滑化処理部から出力される平滑化信号の一例を示した図である。
【
図6】本発明の第1実施形態に係る状態管理部の動作を説明するための図である。
【
図7】本発明の第1実施形態に係る状態管理部における発話状態遷移図である。
【
図8】本発明の第1実施形態に係る音声データ管理部の動作を説明するための図である。
【
図9】本発明の第1実施形態に係るリングバッファの一例を示した図である。
【
図10】本発明の第1実施形態に係るサーバが有する音声認識機能の一例を示した機能構成図である。
【
図11】本発明の第2実施形態に係るクライアント端末が有する音声認識支援機能の一例を示した機能構成図である。
【
図12】本発明の第2実施形態に係る音声認識支援部の動作を説明するための図である。
【
図13】本発明の第3実施形態に係るクライアント端末が有する音声認識支援機能の一例を示した機能構成図である。
【
図14】本発明の第3実施形態に係る音声認識支援部の動作を説明するための図である。
【
図15】従来の発話区間の決定方法について説明するための図である。
【発明を実施するための形態】
【0014】
〔第1実施形態〕
図1は、本発明の第1実施形態に係る音声認識システムの全体構成を概略的に示したシステム構成図である。
図1に示すように、音声認識システム1は、複数のクライアント端末(情報処理装置)10とサーバ50とを備えている。複数のクライアント端末10とサーバ50とは、通信ネットワーク2を介して接続可能に構成されている。通信ネットワーク2の一例として、インターネット、Bluetooth(登録商標)、Wi-Fi、無線LAN、有線LAN(Local Area Network)等が挙げられる。
図1では、2台のクライアント端末10を図示しているが、サーバ50に接続されるクライアント端末10の台数は特に限られない。
【0015】
クライアント端末10は、例えば、ノートPC、デスクトップ型PC、タブレット端末、スマートフォン等の情報処理装置である。
図2は、本実施形態に係るクライアント端末10のハードウェアの概略構成の一例を示した図である。
図2に示すように、クライアント端末10は、例えば、CPU(Central Processing Unit)11、メインメモリ12、二次記憶装置13、外部インターフェース14、通信インターフェース15、入力デバイス16、ディスプレイ17、マイクロフォン(マイク)18、スピーカ19を備えている。これら各部は、バスを介して直接または間接的に接続されている。
【0016】
CPU11は、例えば、バスを介して接続された二次記憶装置13に格納されたOS(Operating System)によりクライアント端末10全体の制御を行うとともに、二次記憶装置13に格納された各種プログラムを実行することにより後述するような各種処理を実行する。CPU11は、1つ又は複数設けられており、互いに協働して処理を実現してもよい。
【0017】
メインメモリ12は、例えば、キャッシュメモリ、RAM(Random Access Memory)等の書き込み可能なメモリで構成され、CPU11の実行プログラムの読み出し、実行プログラムによる処理データの書き込み等を行う作業領域として利用される。
【0018】
二次記憶装置13は、非一時的なコンピュータ読み取り可能な記録媒体(non-transitory computer readable storage medium)である。二次記憶装置13は、例えば、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリなどである。二次記憶装置13の一例として、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)フラッシュメモリなどが挙げられる。二次記憶装置13は、例えば、Windows(登録商標)、iOS(登録商標)、Android(登録商標)等のクライアント端末10全体の制御を行うためのOS、BIOS(Basic Input/Output System)、周辺機器類をハードウェア操作するための各種デバイスドライバ、各種アプリケーションソフトウェア、及び各種データやファイル等を格納する。また、二次記憶装置13には、各種処理を実現するためのプログラムや、各種処理を実現するために必要とされる各種データが格納されている。二次記憶装置13は、複数設けられていてもよく、各二次記憶装置13に上述したようなプログラムやデータが分割されて格納されていてもよい。
【0019】
外部インターフェース14は、外部機器と接続するためのインターフェースである。外部機器の一例として、外部モニタ、USBメモリ、外付けHDD、外付けカメラ等が挙げられる。なお、
図2に示した例では、外部インターフェース14は、1つしか図示されていないが、複数の外部インターフェース14を備えていてもよい。外部インターフェース14は、例えば、接続される機器に応じてそれぞれ適切な入出力端子およびインターフェースを備えている。
【0020】
通信インターフェース15は、ネットワークに接続して他の装置と通信を行い、情報の送受信を行うためのインターフェースとして機能する。例えば、通信インターフェース15は、有線又は無線により他の装置と通信を行う。無線通信として、Bluetooth(登録商標)、Wi-Fi、移動通信システム(3G、4G、5G、6G、LTE等)、無線LANなどの回線を通じた通信が挙げられる。有線通信の一例として、有線LAN(Local Area Network)などの回線を通じた通信が挙げられる。
【0021】
入力デバイス16は、例えば、キーボード、マウス、タッチパッド等、ユーザがクライアント端末10に対して指示を与えるためのユーザインターフェースである。
【0022】
ディスプレイ17は、例えば、液晶ディスプレイ、有機EL(Electroluminescence)ディスプレイ等である。また、ディスプレイ17は、タッチパネルが重畳されたタッチパネルディスプレイでもよい。
マイク18は、音をアナログ信号に変換し、音声信号として出力する。
スピーカは、音声信号を音として出力する。
【0023】
サーバ50は、情報処理装置であり、CPU、メインメモリ、二次記憶装置等を備えている。なお、主なハードウェア構成については、上述したクライアント端末10とほぼ同様であり、公知であるため、詳細な説明は省略する。
【0024】
図3は、本実施形態に係るクライアント端末10が有する音声認識支援機能の一例を示した機能構成図である。
【0025】
以下に説明する各種機能を実現するための一連の処理は、一例として、プログラム(例えば、音声認識支援プログラム)の形式で二次記憶装置13に記憶されており、このプログラムをCPU11がメインメモリ12に読み出して、情報の加工・演算処理を実行することにより、各種機能が実現される。なお、プログラムは、二次記憶装置13に予めインストールされている形態や、他のコンピュータ読み取り可能な記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等が適用されてもよい。コンピュータ読み取り可能な記憶媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0026】
図3に示すように、クライアント端末10は、音声認識支援部20を備えている。音声認識支援部20は、例えば、音声入力部21、音声区間検出部22、及び補正フィルタ部23を備えている。
【0027】
音声入力部21は、例えば、マイク18から入力された音声信号を一定区間(例えば、数十ms)で区切ることにより1フレーム毎の音声データとし、時刻情報と共に出力する。なお、本実施形態では、マイク18から音声信号が入力される場合を例示しているが、音声信号は、これに限られない。音声信号は、例えば、外部装置から受信した音声信号であってもよいし、記録媒体等から読み出した音声信号でもよい。
【0028】
音声データは、音声区間検出部22及び補正フィルタ部23の音声データ管理部33に出力される。
音声区間検出部(VAD:Voice Activity Detection)22は、音声入力部21から出力された音声データから音が発生している音声区間を検出する。音声区間検出部22は、例えば、音声データの1フレーム毎に、音声の有無を判定し、音声がある場合には「1」を、音声がない場合には「0」の出力信号を出力する。なお、音声区間検出(VAD)については、様々な手法が提案されており、それらの公知の技術を適宜採用すればよい。
【0029】
音声区間検出部22の出力信号は時刻情報と関連付けられて補正フィルタ部23に出力される。以下、音声区間検出部22から出力される信号を「VAD信号」という。
図4に、VAD信号の一例を示す。
図4において、横軸は時間、縦軸は出力を示している。音声が検出された区間については「1」、音声が検出されていない区間については「0」の出力とされる。
【0030】
補正フィルタ部23は、例えば、平滑化処理部31、状態管理部32、及び音声データ管理部33を備えている。
平滑化処理部31は、例えば、音声区間検出部22からのVAD信号を平滑化する。平滑化の一例として、移動平均(例えば、単純移動平均、加重移動平均、指数移動平均等)が挙げられる。本実施形態では、平滑化処理として、単純移動平均を用いる場合を例示して説明する。
【0031】
移動平均の平滑区間は、例えば、音声入力部21によって設定される1フレームの時間長によって適宜決定することが可能である。一例として、1フレームの時間長が20msの場合、移動平均の平滑区間は100ms以上300ms以下の範囲で設定される。
図5に、
図4に示したVAD信号に対応する平滑化信号の一例を示す。このように、平滑化処理を行うことで、「1」、「0」の離散的な信号を連続的な信号として表すことが可能となる。
【0032】
状態管理部32は、平滑化処理部31から出力される平滑化信号に基づいて、発話中状態及び停止中状態などの発話状態を管理する。
状態管理部32は、発話中判定部34及び停止中判定部35を備えている。
発話中判定部34は、停止中状態において、平滑化処理部31から出力された平滑化信号が発話開始閾値以上である状態を所定期間(発話開始判定時間)維持した場合に、発話中状態と判定する。
停止中判定部35は、発話中状態において、平滑化信号が発話停止閾値以下である状態を所定時間(発話停止判定時間)維持した場合に、停止中状態と判定する。
ここで、発話停止閾値は、発話開始閾値よりも高い値に設定されている。
発話開始判定時間及び発話停止判定時間は、適宜設定することが可能であるが、いずれも200ms以上500ms未満の範囲で設定するとよい。
【0033】
例えば、
図6に示すように、時刻t1,t2,t3においては、VAD信号が「1」を示しているが、平滑化信号は発話開始閾値以下とされているため、発話中とは判定されない。時刻t4において、平滑化信号が発話開始閾値以上となり、その状態が発話開始判定時間維持されると、発話中判定部34は、発話中状態と判定する(時刻t5)。
【0034】
また、
図6において、時刻t6において、平滑化信号が発話停止閾値以下となっているが、その状態が発話停止判定時間維持されていないことから、停止中状態と判定されない。一方、時刻t7において、平滑化信号が発話停止閾値以下となり、その状態が発話停止判定時間維持されると、停止中判定部35は、停止中状態と判定する(時刻t8)。
【0035】
状態管理部32は、発話開始と判定した時刻である発話開始時刻と発話停止と判定した時刻である発話停止時刻とを音声データ管理部33に出力する。例えば、
図6に例示した平滑化信号については、発話開始時刻として時刻t5が、発話停止時刻として時刻t8が出力される。
【0036】
図7は、状態管理部32における発話状態遷移図である。
図7に示すように、平滑化信号が発話開始閾値未満の状態(S1)から発話開始閾値以上の状態(S2)になり、かつ、この状態が発話開始判定時間維持されると、停止中状態から発話中状態に遷移する。一方、平滑化信号が発話開始閾値以上になっても、その状態が発話開始判定時間維持されなかった場合には、状態S1に再び戻る。
【0037】
発話中状態において、平滑化信号が発話停止閾値を超えている状態(S3)から発話停止閾値以下の状態になり(S4)、かつ、この状態が発話停止判定時間維持されると、発話中状態から停止中状態に遷移する。一方、平滑化信号が発話停止閾値以下になっても、その状態が発話停止判定時間維持されなかった場合には、状態S3に再び戻る。
【0038】
図3に戻り、音声データ管理部33は、発話開始時刻及び発話停止時刻に基づいて発話区間を決定し、発話区間における音声データをサーバ50に送信する。
例えば、音声データ管理部33は、発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定する。具体的には、音声データ管理部33は、発話開始時刻よりも発話開始余裕時間早い時刻を発話区間の開始時として決定する。
【0039】
また、音声データ管理部33は、例えば、発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区の終了時を決定する。具体的には、音声データ管理部33は、発話停止時刻よりも発話停止余裕時間早い時刻を発話区間の終了時として決定する。
【0040】
例えば、
図8に示すように、発話開始時刻として時刻t5が、発話停止時刻として時刻t8が状態管理部32から出力された場合、音声データ管理部33は、発話区間の開始時として時刻Tsを、発話区間の終了時として時刻Teを決定する。これにより、発話区間はTs~Teの期間に決定される。なお、
図8に示した発話区間は、発話停止余裕時間が正の値を取る場合を例示している。
【0041】
発話開始余裕時間及び発話停止余裕時間は、後述するサーバ50に搭載された音声認識部の仕様に応じて設定すればよく、認識させたい音声データの前後に必要なバッファの長さによって決定される。
発話開始余裕時間は、例えば、400ms以上1000ms以下の範囲で設定されるとよい。
発話停止余裕時間は、例えば、-400ms以上50ms以下の範囲で設定されるとよい。ここで、発話停止余裕時間が負の値を取る場合、発話区間の終了時が発話停止時刻よりも遅いことを意味する。
【0042】
音声データ管理部33は、例えば、停止中状態の場合には、音声入力部21から出力された音声データを一定のリングバッファで管理する。
図9にリングバッファの概念図を示す。音声データ管理部33は、新しい音声データが入力される度に、リングバッファのポインタを移動させ、新しい音声データを所定のメモリ領域に格納する。
【0043】
また、音声データ管理部33は、停止中状態から発話中状態に遷移した場合には、発話区間の開始時以降におけるリングバッファの音声データを可変長バッファに格納する。そして、発話中状態においては、音声データ管理部33は、新たな音声データが入力される毎にその音声データを可変長バッファに追加格納する。そして、発話中状態から停止中状態に遷移した場合には、可変長バッファ内の先頭から発話区間の終了時までの音声データを発話区間における音声データとして読み出し、通信ネットワーク2を介してサーバ50(
図1参照)に送信する。
【0044】
図10は、サーバ50が備える機能の一例を示した機能構成図である。
図10に示すように、サーバ50は、要求管理部51と、音声認識部52とを備えている。要求管理部51は、通信ネットワーク2を介して受信した音声データを受信順に管理する。音声認識部52は、受信した順番で音声データの音声認識を行い、音声結果のテキストデータを対応するクライアント端末10に送信する。なお、サーバ50が備えるこれらの音声認識の機能は、公知の技術を適宜採用すればよい。
【0045】
次に、本実施形態に係る音声認識支援部20の動作について簡単に説明する。
まず、マイク18等からの音声信号は、所定時間間隔で分割されて1フレーム毎の音声データとされ、1フレーム毎に音声区間検出(VAD)が行われる。そして、VAD信号が平滑化されることで、平滑化信号が取得される。
【0046】
そして、平滑化信号を用いて発話の状態が判定される。例えば、平滑化信号が発話開始閾値以上である状態が発話開始判定時間維持された場合に、発話中状態と判定される。また、平滑化信号が発話停止閾値以下である状態が発話停止判定時間維持された場合に、停止中状態と判定される。そして、発話開始状態と判定した発話開始時刻、発話停止状態と判定した発話停止時刻、発話開始余裕時間、及び発話停止余裕時間を用いて、発話区間が決定され、発話区間の音声データがサーバ50に送信される。
【0047】
サーバ50では、例えば、各クライアント端末10から受信した発話区間の音声データを受信順に音声認識し、音声認識結果を対応するクライアント端末10に送信する。
【0048】
以上説明してきたように、本実施形態に係る情報処理装置、音声認識支援方法、及び音声認識支援プログラムによれば、VAD信号を平滑化処理した平滑化信号を用いて発話区間を決定するので、雑音が入力された場合やユーザの発話中に途切れが発生した場合でも適切な発話区間を決定することが可能となる。これにより、雑音の音声データを音声認識する等の音声認識の無駄を低減でき、音声認識の効率を高めることができる。また、一連の発話に関する音声データをひとまとまりの音声データとして音声認識を行うことができる。この結果、音声認識の精度を向上させることが可能となる。
【0049】
なお、上述した第1実施形態では、平滑化処理部31が、移動平均を用いて平滑化信号を得る場合について説明したが、平滑化処理は移動平均に限られない。例えば、回帰モデルを用いて平滑化信号を得ることとしてもよい。具体的には、現在時刻より過去一定数における音声区間検出部からの出力信号に基づいて回帰分析を行うことにより、回帰モデルを取得する。このとき、回帰モデルは線形モデルが好ましい。そして、取得した回帰モデルを用いて現在の値を算出する。
【0050】
〔第2実施形態〕
次に、本発明の第2実施形態に係る音声認識システムについて図面を参照して説明する。上述した第1実施形態では、発話開始閾値及び発話停止閾値として固定値を用いていたが、本実施形態は、音声データに基づいて動的に発話開始閾値及び発話停止閾値を設定する点が異なる。
以下、上述した第1実施形態と共通する構成については同一の符号を付して説明を省略し、異なる点について主に説明する。
【0051】
図11は、本実施形態に係るクライアント端末10aが有する音声認識支援機能の一例を示した機能構成図である。
図11に示すように、音声認識支援部20aの補正フィルタ部23aは、閾値設定部36を備えている。
閾値設定部36は、音声区間検出部22から出力されるVAD信号を平滑化処理部31の平滑区間(第1平滑区間)よりも長い平滑区間(第2平滑区間)で平滑化することで第2平滑化信号を得、この第2平滑化信号を用いて発話開始閾値と発話停止閾値とを設定する。ここで、発話開始閾値及び発話停止閾値は、同じ値としてもよいし、異なる値を設定してもよい。例えば、第2平滑化信号を発話開始閾値及び発話停止閾値として使用してもよい。また、第2平滑化信号を発話開始閾値として設定し、第2平滑化信号を所定値増加させた信号を発話停止閾値として設定してもよい。
第2平滑区間は、例えば、300ms以上900ms以下の範囲で設定される。
【0052】
このようにして、閾値設定部36によって発話開始閾値及び発話停止閾値が設定されると、これらの閾値は、状態管理部32に出力される。これにより、閾値設定部36によって設定された発話開始閾値及び発話停止閾値を用いて、状態管理部32による発話状態の管理が行われる。
【0053】
図12に、本実施形態に係る音声認識支援部20aによって決定される発話区間の一例を示す。
図12では、第2平滑化信号を発話開始閾値及び発話停止閾値として使用している場合を例示している。すなわち、発話開始閾値と発話停止閾値とを同じ値としている。
【0054】
このように、本実施形態に係る情報処理装置、音声認識支援方法、及び音声認識支援プログラムによれば、VAD信号に基づいて発話開始閾値及び発話停止閾値を動的に設定するので、ユーザ環境(雑音や音声の途切れの発生頻度)に応じた発話区間の判定を行うことが可能となる。これにより、発話区間の推定精度を高めることができ、音声認識の精度向上が期待できる。
【0055】
〔第3実施形態〕
次に、本発明の第3実施形態に係る音声認識システムについて図面を参照して説明する。上述した第1及び第2実施形態では、音声区間検出部22から出力されたVAD信号を平滑化した平滑化信号を用いて発話状態の管理を行っていたが、本実施形態は、平滑化を行わずに、VAD信号を直接用いて発話の状態管理を行う点が異なる。
以下、上述した第1実施形態と共通する構成については同一の符号を付して説明を省略し、異なる点について主に説明する。
【0056】
図13は、本実施形態に係るクライアント端末10bが有する音声認識支援機能の一例を示した機能構成図である。
図13に示すように、音声認識支援部20bの補正フィルタ部23bは、平滑化処理部31を省略した構成とされている。
このような構成によれば、状態管理部32は、音声区間検出部22から出力されたVAD信号と予め設定された発話開始閾値及び発話停止閾値を用いて発話中状態及び停止中状態を判定する。具体的には、状態管理部32の発話中判定部34は、VAD信号が発話開始閾値以上である状態が所定の発話開始判定時間維持されたときに、換言すると、VAD信号の出力が「1」である状態が発話開始判定時間維持されたときに、発話中と判定する。また、停止中判定部35は、VAD信号が発話停止閾値以下である状態が所定の発話停止判定時間維持されたときに、換言すると、VAD信号の出力が「0」である状態が発話停止判定時間維持されたときに、停止中と判定する。
【0057】
そして、状態管理部32によって検出された発話開始時刻及び発話停止時刻に基づいて音声データ管理部33による発話区間の決定が行われる。このような音声認識支援処理が行われることにより、
図14に示すような発話区間が決定される。
【0058】
このように、本実施形態に係る情報処理装置、音声認識支援方法、及び音声認識支援プログラムによれば、VAD信号を平滑化処理せずに、VAD信号を直接的に用いて発話状態を管理するので、簡素な構成により発話区間の推定を行うことが可能となる。更に、入力音声信号に雑音が含まれている場合や、発話の途中で途切れが生じた場合でも適切な発話区間を判定することが可能となる。
【0059】
以上、本発明について実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。また、上記実施形態を適宜組み合わせてもよい。
【0060】
例えば、上述した各実施形態では、補正フィルタ部23、23a、23bがクライアント端末10、10a、10bに設けられている場合を例示して説明したが、これに限られない。例えば、補正フィルタ部23、23a、23bは、サーバ50に設けられていてもよい。
【符号の説明】
【0061】
1 :音声認識システム
2 :通信ネットワーク
10 :クライアント端末(情報処理装置)
10a :クライアント端末(情報処理装置)
10b :クライアント端末(情報処理装置)
11 :CPU
12 :メインメモリ
13 :二次記憶装置
14 :外部インターフェース
15 :通信インターフェース
16 :入力デバイス
17 :ディスプレイ
18 :マイクロフォン(マイク)
19 :スピーカ
20 :音声認識支援部
20a :音声認識支援部
20b :音声認識支援部
21 :音声入力部
22 :音声区間検出部
23 :補正フィルタ部
23a :補正フィルタ部
23b :補正フィルタ部
31 :平滑化処理部
32 :状態管理部
33 :音声データ管理部
34 :発話中判定部
35 :停止中判定部
36 :閾値設定部
50 :サーバ
51 :要求管理部
52 :音声認識部
【手続補正書】
【提出日】2023-10-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データから音が発生している音声区間を検出する音声区間検出部と、
前記音声区間検出部の出力信号を平滑化する平滑化処理部と、
停止中状態において、前記平滑化処理部から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部と
を具備する情報処理装置。
【請求項2】
前記音声データ管理部は、前記発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定し、前記発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区間の終了時を決定する請求項1に記載の情報処理装置。
【請求項3】
前記平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する閾値設定部を更に備える請求項1に記載の情報処理装置。
【請求項4】
前記閾値設定部は、前記音声区間検出部の出力信号を前記平滑化処理部の平滑区間よりも長い区間で平滑化し、この平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する請求項3に記載の情報処理装置。
【請求項5】
前記平滑化処理部は、移動平均を用いて前記音声区間検出部の出力信号を平滑化する請求項1に記載の情報処理装置。
【請求項6】
音声データから音が発生している音声区間を検出する音声区間検出部と、
前記音声区間検出部の出力信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、
前記出力信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部と
を具備し、
前記音声データ管理部は、前記発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定し、前記発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区間の終了時を決定する情報処理装置。
【請求項7】
前記音声データ管理部は、発話開始時刻よりも早い時刻を発話区間の開始時として決定し、発話停止時刻よりも早い時刻又は遅い時刻を発話区間の終了時として決定する請求項6に記載の情報処理装置。
【請求項8】
音声データから音が発生している音声区間を検出する音声区間検出工程と、
前記音声区間検出工程の出力信号を平滑化する平滑化処理工程と、
停止中状態において、前記平滑化処理工程から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定工程と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定工程と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理工程と
をコンピュータが実行する音声認識支援方法。
【請求項9】
コンピュータに請求項8に記載の音声認識支援方法を実行させるための音声認識支援プログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
本発明の第二態様は、音声データから音が発生している音声区間を検出する音声区間検出部と、前記音声区間検出部の出力信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、前記出力信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部とを具備し、前記音声データ管理部は、前記発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定し、前記発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区間の終了時を決定する情報処理装置である。
【手続補正書】
【提出日】2024-02-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声データから音が発生している音声区間を検出する音声区間検出部と、
前記音声区間検出部の出力信号を平滑化する平滑化処理部と、
停止中状態において、前記平滑化処理部から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定部と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定部と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理部と
を具備する情報処理装置。
【請求項2】
前記音声データ管理部は、前記発話開始時刻及び予め設定された発話開始余裕時間に基づいて発話区間の開始時を決定し、前記発話停止時刻及び予め設定された発話停止余裕時間に基づいて発話区間の終了時を決定する請求項1に記載の情報処理装置。
【請求項3】
前記平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する閾値設定部を更に備える請求項1に記載の情報処理装置。
【請求項4】
前記閾値設定部は、前記音声区間検出部の出力信号を前記平滑化処理部の平滑区間よりも長い区間で平滑化し、この平滑化信号を用いて前記発話開始閾値及び前記発話停止閾値を設定する請求項3に記載の情報処理装置。
【請求項5】
前記平滑化処理部は、移動平均を用いて前記音声区間検出部の出力信号を平滑化する請求項1に記載の情報処理装置。
【請求項6】
音声データから音が発生している音声区間を検出する音声区間検出工程と、
前記音声区間検出工程の出力信号を平滑化する平滑化処理工程と、
停止中状態において、前記平滑化処理工程から出力された平滑化信号が発話開始閾値以上である状態を予め設定されている発話開始判定時間維持した場合に、発話中状態と判定する発話中判定工程と、
発話中状態において、前記平滑化信号が発話停止閾値以下である状態を予め設定されている発話停止判定時間維持した場合に、停止中状態と判定する停止中判定工程と、
発話中状態と判定された発話開始時刻及び停止中状態と判定された発話停止時刻に基づいて発話区間を決定する音声データ管理工程と
をコンピュータが実行する音声認識支援方法。
【請求項7】
コンピュータに請求項6に記載の音声認識支援方法を実行させるための音声認識支援プログラム。