特許7592636 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 京▲東▼科技控股股▲フン▼有限公司の特許一覧

特許7592636音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-22

(45)【発行日】2024-12-02

(54)【発明の名称】音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム

(51)【国際特許分類】

G10L 25/84 20130101AFI20241125BHJP

G10L 25/18 20130101ALI20241125BHJP

G10L 15/16 20060101ALI20241125BHJP

【ＦＩ】

G10L25/84

G10L25/18

G10L15/16

【請求項の数】 17

(21)【出願番号】P 2021569116

(86)(22)【出願日】2020-05-18

(65)【公表番号】

(43)【公表日】2022-07-27

(86)【国際出願番号】 CN2020090853

(87)【国際公開番号】W WO2020238681

(87)【国際公開日】2020-12-03

【審査請求日】2023-03-01

(31)【優先権主張番号】201910467088.0

(32)【優先日】2019-05-31

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】521507084

【氏名又は名称】京▲東▼科技控股股▲フン▼有限公司

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】李 ▲蕭▼▲蕭▼

【審査官】渡部幸和

(56)【参考文献】

【文献】特表２０１７－５３８１３７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００６８６５３（ＵＳ，Ａ１）

【文献】特開２０１８－１０９７６０（ＪＰ，Ａ）

【文献】特表２０１８－５１３３９８（ＪＰ，Ａ）

【文献】特開２０１６－１６１８２３（ＪＰ，Ａ）

【文献】特開２００６－０３９４８４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２５／００

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

音声処理方法であって、
音声フレームの特徴情報に従って、機械学習モデルを利用して、処理対象の音声内の音声フレームが候補文字に属する確率を決定するステップと、
前記音声フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するステップであって、前記最大確率パラメータは、前記音声フレームが前記候補文字に属する確率の最大値である、ステップと、
前記音声フレームの前記最大確率パラメータに対応する前記候補文字が非空白文字である場合、前記最大確率パラメータを前記処理対象の音声に存在する有効な確率と決定するステップと、
前記処理対象の音声に存在する有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するステップと、を含み、
前記処理対象の音声に存在する有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するステップが、
前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出するステップと、
前記信頼レベルに従って、前記処理対象の音声が有効な発話かノイズかを判定するステップと、を含む
音声処理方法。

【請求項2】

前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出するステップが、
前記有効な確率の前記加重和および前記有効な確率の数に従って、前記信頼レベルを算出するステップであって、前記信頼レベルが前記有効な確率の前記加重和と正の相関があり、前記有効な確率の数と負の相関がある、ステップ、を含む、
請求項１に記載の音声処理方法。

【請求項3】

前記処理対象の音声が有効な確率を有しない場合、前記処理対象の音声をノイズと判定するステップをさらに含む、請求項１に記載の音声処理方法。

【請求項4】

前記特徴情報が、スライドウィンドウにより前記音声フレームに対して短時間フーリエ変換を行うことで得られた、異なる周波数におけるエネルギー分布情報である、
請求項１から３のいずれか一項に記載の音声処理方法。

【請求項5】

前記機械学習モデルが、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む、
請求項１から４のいずれか一項に記載の音声処理方法。

【請求項6】

前記畳み込みニューラルネットワーク層が二層構造を有する畳み込みニューラルネットワークであり、前記リカレントニューラルネットワーク層が単層構造を有する双方向リカレントニューラルネットワークである、
請求項５に記載の音声処理方法。

【請求項7】

前記機械学習モデルが、
トレーニングデータからの異なる長さを有する複数のラベル付けされた発話セグメントをトレーニングサンプルとして抽出するステップであって、前記トレーニングデータがカスタマーサービスシーンで取得された音声ファイルおよび、それに対応する手動でラベル付けされたテキストである、ステップと、
コネクションニスト時系列分類（ＣＴＣ）関数を損失関数として利用することで前記機械学習モデルをトレーニングするステップと、によってトレーニングされる、
請求項１から３のいずれか一項に記載の音声処理方法。

【請求項8】

前記判定の結果が有効な発話である場合、前記有効な確率に対応する前記候補文字に従って、前記処理対象の音声に対応するテキスト情報を決定するステップと、
前記判定の結果がノイズである場合、前記処理対象の音声を破棄するステップと、をさらに含む、
請求項１から３のいずれか一項記載の音声処理方法。

【請求項9】

自然言語処理方法を利用して、前記テキスト情報に対して意味理解を実行するステップと、
前記意味理解の結果に従って、前記処理対象の音声に対応する出力対象の発話信号を決定するステップと、をさらに含む、請求項８に記載の音声処理方法。

【請求項10】

前記信頼レベルは前記処理対象の音声内の音声フレームが前記候補文字に属する前記最大確率パラメータの前記加重和と正の相関があり、前記空白文字に対応する最大確率パラメータの重みが０であり、前記非空白文字の最大確率パラメータの重みが１であり、
前記信頼レベルは、前記非空白文字に対応する最大確率パラメータの数と負の相関がある、請求項２に記載の音声処理方法。

【請求項11】

前記機械学習モデルの第１のエポックがサンプル長さの昇順でトレーニングされる、請求項７に記載の音声処理方法。

【請求項12】

前記機械学習モデルが順番的バッチ正規化の方法を使用してトレーニングされる、請求項５に記載の音声処理方法。

【請求項13】

ヒューマンコンピュータインタラクションシステムであって、
ユーザによって送信された処理対象の音声を受信するように構成された受信装置と、
請求項１から９のいずれか一項に記載の音声処理方法を実行するように構成されたプロセッサと、
前記処理対象の音声に対応する発話信号を出力するように構成された出力装置と、を備える、ヒューマンコンピュータインタラクションシステム。

【請求項14】

音声処理装置であって、
各フレームの特徴情報に従って、処理対象の音声内の前記各フレームが機械学習モデルを利用して候補文字に属する確率を決定するように構成された確率決定部と、
前記各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するように構成された文字判定部であって、前記最大確率パラメータは、前記各フレームが前記候補文字に属する確率の最大値である、文字判定部と、
前記各フレームの前記最大確率パラメータに対応する前記候補文字が非空白文字である場合、前記最大確率パラメータを前記処理対象の有効な確率と決定するように構成された有効性決定部と、
前記処理対象の音声の有効な確率に従って、前記処理対象の音声が有効な発話かノイズかを判定するように構成されたノイズ判定部と、を備え、
前記ノイズ判定部は、前記有効な確率の加重和に従って、前記処理対象の音声の信頼レベルを算出し、前記信頼レベルに従って、前記処理対象の音声が有効な発話かノイズかを判定する、
音声処理装置。

【請求項15】

音声処理装置であって、
メモリと、
前記メモリと結合されたプロセッサであって、前記プロセッサが、前記メモリの装置に記憶された命令に基づき、請求項１から１２のいずれか一項に記載の音声処理方法を実行するように構成されたプロセッサと、を備える、
音声処理装置。

【請求項16】

プロセッサによって実行されるとき、請求項１から１２のいずれか一項に記載の音声処理方法を実装するコンピュータプログラムをその上に記憶した非一時的コンピュータ可読記憶媒体。

【請求項17】

プロセッサによって実行されるとき、前記プロセッサに請求項１から１２のいずれか一項に記載の音声処理方法を実行させる命令を含む、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０１９年５月３１日に出願された中国特許出願第２０１９１０４６７０８８．０号に基づき、その優先権を主張するものであり、その開示内容は全体として本出願に組み込まれる。

【0002】

本開示は、コンピュータ技術の分野に関連し、特に、音声処理方法、音声処理装置、ヒューマンコンピュータインタラクションシステムおよび非一時的コンピュータ可読記憶媒体に関する。

【背景技術】

【0003】

近年、絶え間ない発展とともに、大きな進歩がヒューマンコンピュータ知的インタラクション技術に遂げられている。知的発話インタラクション技術は顧客サービスのシーンでますます適用されている。

【0004】

しかし、ユーザの周囲には様々なノイズ（例えば、ユーザの周囲の人の声、環境の雑音、話者の咳など）が存在することが多い。このようなノイズは、発話認識後に無意味なテキストの一部として誤認識され、それにより意味理解の妨げとなり、その結果、自然言語処理は合理的な対話プロセスを確立することができない。従って、雑音はヒューマンコンピュータの知的インタラクションプロセスを大きく妨げている。

【0005】

関連技術において、一般的に、音声信号のエネルギーに従って、音声ファイルがノイズか、有効な発話かが決定されている。

【発明の概要】

【課題を解決するための手段】

【0006】

本開示のいくつかの実施形態に従って、音声フレームの特徴情報に従って、機械学習モデルを利用し、処理対象の音声内の音声フレームが候補文字に属する確率を決定するステップと、音声フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するステップであって、最大確率パラメータは、音声フレームが候補文字に属する確率の最大値である、ステップと、音声フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、最大確率パラメータを処理対象の音声に存在する有効な確率と決定するステップと、処理対象の音声に存在する有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するステップと、を含む、音声処理方法が提供される。

【0007】

いくつかの実施形態において、処理対象の音声に存在する全部の有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するステップが、有効な確率の加重和に従って、処理対象の音声の信頼レベルを算出するステップと、信頼レベルに従って、処理対象の音声が有効な発話かノイズかを判定するステップと、を含む。

【0008】

いくつかの実施形態において、有効な確率の加重和に従って、処理対象の音声の信頼レベルを算出するステップが、有効な確率の加重和および有効な確率の数に基づいて、信頼レベルを算出するステップであって、信頼レベルが有効な確率の加重和と正の相関があり、有効な確率の数と負の相関がある、ステップ、を含む。

【0009】

いくつかの実施形態において、処理対象の音声が有効な確率を有しない場合、処理対象の音声がノイズと判定される。

【0010】

いくつかの実施形態において、特徴情報が、スライドウィンドウにより音声フレームに対して短時間フーリエ変換を行うことで得られる。

【0011】

いくつかの実施形態において、機械学習モデルが、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む。

【0012】

いくつかの実施形態において、畳み込みニューラルネットワーク層が二層構造を有する畳み込みニューラルネットワークであり、リカレントニューラルネットワーク層が単層構造を有する双方向リカレントニューラルネットワークである。

【0013】

いくつかの実施形態において、機械学習モデルが、トレーニングデータからの異なる長さを有する複数のラベル付けされた発話セグメントをトレーニングサンプルとして抽出するステップであって、トレーニングデータがカスタマーサービスシーンで取得された音声ファイルおよび、それに対応する手動でラベル付けされたテキストである、ステップと、コネクションニスト時系列分類（ＣＴＣ）関数を損失関数として利用することで機械学習モデルをトレーニングするステップと、によってトレーニングされる。

【0014】

いくつかの実施形態において、音声処理方法は、判定の結果が有効な発話である場合、機械学習モデルに決定された有効な確率に対応する候補文字に従って、処理対象の音声に対応するテキスト情報を決定するステップと、判定の結果がノイズである場合、処理対象の音声を破棄するステップと、をさらに含む。

【0015】

いくつかの実施形態において、音声処理方法は、自然言語処理方法を用いて、テキスト情報に対して意味理解を実行するステップと、意味理解の結果に従って、処理対象の音声に対応する出力対象の発話信号を決定するステップと、をさらに含む。

【0016】

いくつかの実施形態において、信頼レベルは処理対象の音声内の音声フレームが候補文字に属する最大確率パラメータの加重和と正の相関があり、空白文字に対応する最大確率パラメータの重みが０であり、非空白文字の最大確率パラメータの重みが１である。

【0017】

いくつかの実施形態において、信頼レベルは、非空白文字に対応する最大確率パラメータの数と負の相関がある。

【0018】

いくつかの実施形態において、機械学習モデルの第１のエポックがサンプル長さの昇順でトレーニングされる。

【0019】

いくつかの実施形態において、機械学習モデルが順番的バッチ正規化の方法を使用してトレーニングされる。

【0020】

本開示の他の実施形態によって、音声処理装置が、処理対象の音声の中の各フレームの特徴情報に従って、機械学習モデルを利用して各フレームが候補文字に属する確率を決定するように構成される確率決定部と、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定するように構成された文字判定部であって、最大確率パラメータは、各フレームが候補文字に属する確率の最大値である、文字判定部と、各フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、最大確率パラメータを有効な確率と決定するように構成された有効性決定部と、有効な確率に従って、処理対象の音声が有効な発話かノイズかを判定するように構成されたノイズ判定部と、を備える音声処理装置が提供される。

【0021】

本開示の他の実施形態によって、メモリと、メモリと結合されたプロセッサを備える音声処理装置であって、プロセッサが、メモリの装置に記憶された命令に基づき、上記のいずれの実施形態に記載の音声処理方法を実行するように構成される音声処理装置が提供される。

【0022】

本開示の他の実施形態によって、ユーザからの処理対象の音声を受信するように構成された受信装置と、上記いずれの実施形態に記載の音声処理方法を実行するように構成されたプロセッサと、処理対象の音声に対応する発話信号を出力するように構成された出力装置と、を備える、ヒューマンコンピュータインタラクションシステムが提供される。

【0023】

本開示の更なる他の実施形態によって、プロセッサによって実行されるとき上記のいずれの実施形態に記載の音声処理方法を実装するコンピュータプログラムをその上に記憶した非一時的コンピュータ可読記憶媒体が提供される。

【0024】

本開示の更なる他の実施形態によって、プロセッサによって実行されるとき、プロセッサに上記のいずれの実施形態に記載の音声処理方法を実行させる命令を含む、コンピュータプログラムが提供される。

【0025】

本明細書の一部を構成する添付の図面は、本開示の実施形態を示しており、本明細書とともに本開示の原理を説明する役割を果たしている。

【0026】

本開示は、添付の図面を参照した下記の詳細な説明によって、より明確に理解されることができる。

【図面の簡単な説明】

【0027】

【図1】本開示のいくつかの実施形態による音声処理方法のフロー図を示す図である。

【図2】いくつかの実施形態による図１のステップ１１０の概略図を示す図である。

【図3】いくつかの実施形態による図１のステップ１５０のフロー図を示す図である。

【図4】本開示のいくつかの実施形態による音声処理装置のブロック図を示す図である。

【図5】本開示の他の実施形態による音声処理のブロック図を示す図である。

【図6】本開示の更なる他の実施形態による音声処理のブロック図を示す図である。

【発明を実施するための形態】

【0028】

次に、本開示の実施形態の種々の変形が、添付の図面を参照して詳細に説明される。特に指定がない限り、これらの実施形態に記載された構造とステップの関連の変更、数式および数値は、本開示の範囲を限定するものではないことが理解されるべきである。

【0029】

一方、図面に示されている部分の寸法は、説明を容易にするために、実際の縮尺に合わせて描かれていないことが理解されるべきである。

【0030】

以下、少なくとも一つの例示的な実施形態の説明は、本質的に単なる例であり、本開示およびその適用または使用を制限することを決して意図していない。

【0031】

関連技術における当業者にとって知られている技術、方法、および装置は、詳細に説明されていない場合があるが、適切な場合に本明細書の一部となることが意図されている。

【0032】

本明細書に例示され、議論されるすべての例において、任意の特定の値は、単位例示的なものとして解釈されるべきであり、限定的なものではない。したがって、例示的な実施形態の他の例は、異なる値を有することができる。

【0033】

類似的な参照番号や文字は、以下の図面において類似的な項目を参照しているため、ある項目がある図面において定義される場合、以降の図面でさらに議論する必要はないことが注意されるべきである。

【0034】

本開示の発明者は、上記の関連技術領域において、異なるユーザに係る発話スタイル、発話ボリューム、および周囲の環境が大きく異なるため、エネルギー判定閾値の設定が困難であり、結果としてノイズ判定の精度が低い、という問題点を見つけた。

【0035】

この観点から、本開示は、ノイズ判定の精度を向上させることができる音声処理技術ソリューションを提供する。

【0036】

図１は、本開示のいくつかの実施形態による音声処理方法のフロー図を示している。

【0037】

図１に示すように、前述の方法は、各フレームが候補文字に属する確率を決定するステップ１１０と、対応する候補文字が非空白文字か否かを判定するステップ１２０と、有効な確率として決定されるステップ１４０と、有効な発話かノイズかを判定するステップ１５０とを備える。

【0038】

ステップ１１０において、処理対象の音声内の各フレームの特徴情報に従って、機械学習モデルを利用して、各フレームが候補文字に属する確率は決定される。例えば、処理対象の音声は、カスタマーサービスシーンの中の８ＫＨｚのサンプリングレートとともに、１６ｂｉｔのＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）形式の音声ファイルであることが可能である。

【0039】

いくつかの実施形態において、処理対象はＴフレーム｛１，２，．．．ｔ．．．Ｔ｝を有し、Ｔは正の整数であり、ｔはＴより小さい正の整数である。処理対象の音声の特徴情報はＸ＝｛ｘ_１，ｘ_２，．．．ｘ_ｔ，．．．ｘ_Ｔ｝であり、ｘ_ｔはｔ番目のフレームの特徴情報である。

【0040】

いくつかの実施形態において、候補文字セットは、一般的な漢字、英字、アラビア数字、句読点等の非空白文字、および空白文字＜ｂｌａｎｋ＞を備え得る。例えば、候補文字セットはＷ＝｛ｗ_１，ｗ_２，．．．ｗ_ｉ，．．．ｗ_Ｉ｝であり、Ｉは正の整数であり、ｉはＩより小さい正の整数であり、ｗ_ｉはｉ番目の候補文字である。

【0041】

いくつかの実施形態において、処理対象の音声内のｔ番目のフレームが候補文字に属する確率分布はＰ_ｔ（Ｗ｜Ｘ）＝｛ｐ_ｔ（ｗ_１｜Ｘ），ｐ_ｔ（ｗ_２｜Ｘ），．．．．．．ｐ_ｔ（ｗ_ｉ｜Ｘ）．．．．．．ｐ_ｔ（ｗ_Ｉ｜Ｘ）｝であり、ｐ_ｔ（ｗ_ｉ｜Ｘ）はｔ番目のフレームがｗ_ｉに属する確率である。

【0042】

例えば、候補文字セットの中の文字は、応用シーン（例えば、ｅコマースの顧客サービスシーン、日常コミュニケーションシーン等）に応じて獲得および構成されることができる。空白文字は無意味な文字であり、処理対象の音声の現在のフレームが、候補文字セットの中の実際的な意味を有する任意の非空白文字に対応できないことを指す。

【0043】

いくつかの実施形態において、各フレームが候補文字に属する確率は、図２に示す実施形態によって決定されることができる。

【0044】

図２は、いくつかの実施形態による図１のステップ１１０の概略図を示している。

【0045】

図２に示すように、処理対象の音声の特徴情報は、特徴抽出モジュールによって抽出されることができる。例えば、処理対象の音声の各フレームの特徴情報は、スライドウィンドウによって抽出されることができる。例えば、スライドウィンドウ内の信号に対して短時間フーリエ変換を行うことで取得された異なる周波数でのエネルギー分布情報（スペクトログラム）を特徴情報とする。スライドウィンドウのサイズは２０ｍｓ、スライディングステップは１０ｍｓ、獲得された特徴情報は８１次元のベクトルであることが可能である。

【0046】

いくつかの実施形態において、候補文字に属する各フレームの確率、すなわち候補文字セット内の候補文字に関する各フレームの確率分布を決定するために、抽出された特徴情報は、機械学習モデルに入力されることができる。例えば、機械学習モデルは、二層構造を有する畳み込みニューラルネットワーク（ＣＮＮ，ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）、単層構造を有する双方向リカレントニューラルネットワーク（ＲＮＮ，ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、単層構造を有する全結合層（ＦＣ，ＦｕｌｌＣｏｎｎｅｃｔｅｄｌａｙｅｒ）およびソフトマックス層を備えることができる。ＣＮＮは、ＲＮＮの計算量を減軽するために、ストライド（Ｓｔｒｉｄｅ）処理方式を採用することができる。

【0047】

いくつかの実施形態において、候補文字セット内に２７４８個候補文字が存在し、それに伴い、機械学習モデルの出力は２７４８次元のベクトル（このベクトルにおいて、各要素はそれぞれ一つの候補文字の確率に対応する）である。例えば、前述のベクトルの最後の次元は、＜空白＞の文字の確率であることが可能である。

【0048】

いくつかの実施形態において、カスタマーサービスシーンで取得された音声ファイルおよびそれに対応する手動でラベル付けされたテキストは、トレーニングデータとして使用されることができる。例えば、トレーニングサンプルは、トレーニングデータから抽出された、異なる長さ（例えば、１秒から１０秒）を有する複数のラベル付けされた発話セグメントであることが可能である。

【0049】

いくつかの実施形態において、コネクションニスト時系列分類（ＣＴＣ，ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）関数は、損失関数として利用されることができる。ＣＴＣ関数は、機械学習モデルの出力にスパーススパイク特徴を持たせることができ、すなわち、多数のフレームの最大確率パラメータに対応する候補文字は空白文字であり、且つ、少数のフレームの最大確率パラメータに対応する候補文字のみが非空白文字である。このようにして、システムの処理効率を向上させることができる。

【0050】

いくつかの実施形態において、機械学習モデルは、ＳｏｒｔａＧｒａｄによってトレーニングされることができ、すなわち、第１のエポックはサンプル長さの昇順でトレーニングされ、その結果、トレーニングの収束率が改善される。例えば、２０個エポックのトレーニングの後、検証セットで最も良い性能を有するモデルは、最後の機械学習モデルとして選択されることができる。

【0051】

いくつかの実施形態において、ＲＮＮトレーニングの速度および精度を向上させるために、順番的バッチ正規化の方法が使用されることができる。

【0052】

確率分布が決定された後に、ノイズ判定は図１のステップを通じて継続される。

【0053】

ステップ１２０において、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かが判定される。最大確率パラメータは、各フレームが候補文字に属する確率である。例えば、ｐ_ｔ（ｗ_１｜Ｘ），ｐ_ｔ（ｗ_２｜Ｘ），．．．．．．ｐ_ｔ（ｗ_ｉ｜Ｘ）．．．．．．ｐ_ｔ（ｗ_Ｉ｜Ｘ）の内の最大値は、ｔ番目のフレームの最大確率パラメータである。

【0054】

最大確率パラメータに対応する候補文字が非空白文字である場合、ステップ１４０が実行される。いくつかの実施形態において、最大確率パラメータに対応する候補文字が空白文字である場合、ステップ１３０が、最大確率パラメータを非有効な確率として決定するように実行される。

【0055】

ステップ１３０において、最大確率パラメータは非有効な確率として決定される。

【0056】

ステップ１４０において、最大確率パラメータは有効な確率として決定される。

【0057】

ステップ１５０において、有効な確率に従って、処理対象の音声は有効な発話かノイズかが判定される。

【0058】

いくつかの実施形態において、ステップ１５０は図３に示した実施形態によって実行されることができる。

【0059】

図３は、いくつかの実施形態による図１の中のステップ１５０のフロー図を例示している。

【0060】

図３に示すように、ステップ１５０は、信頼レベルを算出するステップ１５１０と、有効な発話かノイズかを判定するステップ１５２０とを備える。

【0061】

ステップ１５１０において、処理対象の音声の信頼レベルは、有効な確率の加重和に従って算出される。例えば、信頼レベルは、有効な確率の加重和および有効な確率の数に従って算出されることができる。信頼レベルは、有効な確率の加重和と正の相関があり、且つ、有効な確率の数と負の相関がある。

【0062】

いくつかの実施形態において、信頼レベルは、

【数1】

によって算出されることができる。ここで、関数Ｆは、

【数2】

として定義される。

【数3】

は、ｗ_ｉを変数としたＰ_ｔ（Ｗ｜Ｘ）の最大値を意味し、且つ、

【数4】

は、Ｐ_ｔ（Ｗ｜Ｘ）の最大値が取得される場合、変数ｗ_ｉの値を意味する。

【0063】

上式において、分子は、処理対象の音声内の各フレームが候補文字に属する最大確率パラメータの加重和であり、空白文字（すなわち、非有効な確率）に対応する最大確率パラメータの重みは０であり、非空白文字に対応する最大確率パラメータ（すなわち、有効な確率）の重みは１であり、且つ分母は、非空白文字に対応する最大確率パラメータの数である。例えば、処理対象の音声は有効な確率を有しない場合（すなわち、分母は０である）、対象の音声はノイズと判定される（すなわち、α＝０と定義される）。

【0064】

いくつかの実施形態において、異なる重み（例えば、重みは０より大きい）は、有効な確率に対応する非空白文字によって（例えば、特定の意味、応用シーン、対話の重要性等に従い）設定されることもできる。その結果、ノイズ判定の精度を向上させる。

【0065】

ステップ１５２０において、信頼レベルに従って、処理対象の音声は有効な発話か、またはノイズかが判定される。例えば、上記の場合において、信頼レベルは大きいほど、処理対象の音声は発話が有効な発話と判定される可能性は大きい。従って、信頼レベルが閾値と等しい、または閾値より大きい場合、処理対象の発話は有効な発話と判定されることができる。信頼レベルが閾値より小さい場合、処理対象の発話はノイズと判定される。

【0066】

いくつかの実施形態において、判定の結果が有効な発話である場合、機械学習モデルを利用して決定された有効な確率に対する候補文字に従い、処理対象の音声に対応するテキスト情報は決定されることができる。このようにして、処理対象の音声のノイズの判定および発話の認識は同時に完成されることができる。

【0067】

いくつかの実施形態において、コンピュータは、決定されたテキスト情報に対して意味理解（例えば、自然言語処理）のような後続処理を実行し、処理対象の音声の意味をコンピュータに理解させることができる。例えば、意味理解に基づき、発話合成を行った後に、発話信号が出力されることができる。その結果、ヒューマンコンピュータ知的コミュニケーションを実現する。例えば、意味理解に対応する応答テキストは、意味理解の結果に基づいて生成されることができ、発話信号は応答テキストに応じて合成されることができる。

【0068】

いくつかの実施形態において、判定結果がノイズである場合、処理対象の音声は、後続処理が行わずに直接的に破棄されることができる。このようにして、意味理解、発話合成等のような後続処理に対する悪影響が有効的に低減されることができ、その結果、発話の認識とシステムの処理効率が向上される。

【0069】

上記の実施形態において、処理対象の音声の有効性は、処理対象の音声内の各フレームに対応する候補文字が非空白文字である確率に従って決定され、処理対象の音声はノイズかが判定される。このようにして、処理対象の音声の意味に基づいて実行されるノイズ判定は、異なる発話環境および異なるユーザの発話の音量に上手く適応することができ、その結果、ノイズ判定の精度を向上させることができる。

【0070】

図４は本開示のいくつかの実施形態によって音声処理装置のブロック図を示している。

【0071】

図４に示すように、音声処理装置４は、確率決定部４１、文字判定部４２、有効性決定部４３、およびノイズ判定部４４を含む。

【0072】

確率決定部４１は、処理対象の音声内の各フレームの特徴情報に従って機械学習モデルを利用して、各フレームが候補文字に属する確率を決定する。例えば、特徴情報は、スライドウィンドウにより音声フレームに対して短時間フーリエ変換を行うことで取得される。機械学習モデルは、畳み込みニューラルネットワーク層、リカレントニューラルネットワーク層、全結合層およびソフトマックス層を順次に含む。

【0073】

文字判定部４２は、各フレームの最大確率パラメータに対応する候補文字が空白文字か非空白文字かを判定する。最大確率パラメータは、各フレームが候補文字に属する確率の最大値である。

【0074】

各フレームの最大確率パラメータに対応する候補文字が非空白文字である場合、有効性決定部４３は、最大確率パラメータを有効な確率として決定する。いくつかの実施形態において、各フレームの最大確率パラメータに対応する候補文字が空白文字である場合、有効性決定部４３は、最大確率パラメータを非有効な確率として決定する。

【0075】

ノイズ判定部４４は、有効な確率に基づいて処理対象の音声が有効な発話かノイズかを判定する。例えば、処理対象の音声が有効な確率を有しない場合、処理対象の音声はノイズとして判定される。

【0076】

いくつかの実施形態において、ノイズ判定部４４は、有効な確率の加重和に従って処理対象の音声の信頼レベルを算出する。ノイズ判定部４４は、信頼レベルに従って処理対象の音声が有効な発話かノイズかを判定する。例えば、ノイズ判定部４４は、有効な確率の加重和および有効な確率の数に従って信頼レベルを算出する。信頼レベルは、有効な確率の加重和と正の相関があり、有効な確率の数と負の相関がある。

【0077】

いくつかの実施形態において、信頼レベルは、処理対象の音声内の音声フレームが候補文字に属する最大確率パラメータの加重和と正の相関があり、空白文字に対応する最大確率パラメータの重みは０であり、非空白文字の最大確率パラメータの重みは１である。

【0078】

信頼レベルは、非空白文字に対応する最大確率パラメータの数と負の相関がある。

【0079】

いくつかの実施形態において、機械学習モデルの第１のエポックはサンプル長さの昇順でトレーニングされる。

【0080】

いくつかの実施形態において、機械学習モデルは順番的バッチ正規化の方法を使用してトレーニングされる。

【0081】

上記の実施形態において、処理対象の音声の有効性は、処理対象の音声の各フレームに対応する候補文字が非空白文字である確率に従って決定され、処理対象の音声がノイズであると判定される。このようにして、処理対象の音声の意味に基づいて実行されるノイズ判定は、異なる発話環境および異なるユーザの発話の音量に上手く適応することができ、その結果、ノイズ判定の精度を向上させることができる。

【0082】

図５は、本開示のいくつかの実施形態によるブロック図を示している。

【0083】

図５に示すように、本実施形態の音声処理装置５は、メモリ５１およびメモリ５１と結合されたプロセッサ５２とを備え、プロセッサ５２は、メモリ５１に記憶された命令に基づき、本開示のいずれの実施形態による音声処理方法を実行するように構成される。

【0084】

その中のメモリ５１は、例えば、システムメモリ、固定された非一時的な記憶媒体などで構成されることができる。システムメモリは、その上に、例えば、オペレーティングシステム、アプリケーション、ブートローダ、データベース、および他のプログラムなどを記憶している。

【0085】

図６は、本開示の更なる他の実施形態による音声処理のブロック図を例示している。

【0086】

図６に示すように、本開示の音声処理方法装置６は、メモリ６１０とメモリ６１０に結合されたプロセッサ６２０とを備え、プロセッサ６２０は、メモリ６１０に記憶された命令に基づき、本開示のいずれの実施形態による音声処理方法を実行するように構成される。

【0087】

メモリ６１０は、例えば、システムメモリ、固定された非一時的な記憶媒体などで構成されることができる。例えば、システムメモリは、その上にオペレーティングシステム、アプリケーション、ブートローダ、および他のプログラムなどを記憶している。

【0088】

音声処理装置６は、インプット／アウトプットインタフェース６３０、ネットワークインターフェース６４０およびストレージインターフェース６５０等をさらに備える。これらのインプット／アウトプットインタフェース６３０、ネットワークインターフェース６４０、ストレージインターフェース６５０およびメモリ６１０は、例えば、バス６６０を介してプロセッサ６２０と接続することができる。ここで、インプット／アウトプットインタフェース６３０は、ディスプレイ、マウス、キーボード、タッチパネル、マイクおよびスピーカ等のようなインプット／アウトプットデバイスのための接続インターフェースを提供する。ネットワークインターフェース６４０は、各種のネットワークデバイスのための接続インターフェースを提供する。ストレージインターフェース６５０は、ＳＤカードやＵＳＢフラッシュディスク等のような外部記憶装置用の接続インターフェースを提供する。

【0089】

本開示の更なる他の実施形態によって、提供されるヒューマンコンピュータインタラクションシステムは、ユーザから処理対象の音声を受信するように構成された受信装置と、上記のいずれの実施形態による音声処理方法を実行するように構成されたプロセッサと、処理対象の音声に対応する発話信号を出力するように構成された出力装置とを備える。

【0090】

当業者によって理解されるように、本開示の実施形態は、方法、システム、またはコンピュータプログラム製品として提供されることができる。よって、本開示は、ハードウェア全体の実施形態、ソフトウェア全体の実施形態、またはソフトウェアおよびハードウェアを組み合わせた実施形態の形態を取ることができる。さらに、本開示は、具現化されたコンピュータ使用可能なプログラムコードを有する、一つまたはそれ以上のコンピュータ使用可能な非一時的記憶媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これに限定されない）上に実装されたコンピュータプログラム製品の形態を取ることができる。

【0091】

ここまで、本開示による音声処理方法、音声処理装置、ヒューマンコンピュータインタラクションシステム、および非一時的コンピュータ可読記憶媒体が詳細に説明された。本開示の概念が不明瞭になるのを避けるために、当技術分野でよく知られているいくつかの詳細な内容は、説明されていない。当業者は、前述の説明を考慮して、本明細書に開示された技術的解決手段をどのように実施するかを十分に理解することができる。

【0092】

本開示の方法及びシステムは、多くの方法で実施されることができる。例えば、本開示の方法及びシステムは、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、及びファームウェアの任意の組合せで実装されることができる。本方法の上記の一連のステップは、あくまでも例示するためのものであり、本開示の方法のステップは、特に明記しない限り、具体的に説明された順序に限定されるものではない。さらに、いくつかの実施形態において、本開示は、記録媒体に記録されたプログラムとして実装されることもでき、これらのプログラムは、本開示による方法を実装するための機械可読命令を備える。従って、本開示は、本開示による方法を実行するためのプログラムをその上に記憶した記録媒体も対象とする。

【0093】

本開示のいくつかの特定の実施形態が例示によって詳細に説明されたが、上記の例はあくまでも例示するためのものであり、本開示の範囲を限定することを意図していないことは当業者に理解されるはずである。本開示の範囲及び精神から逸脱しない場合、上記実施形態に変更を加えることができることは、当業者に理解されるはずである。本開示の範囲は、添付の特許請求の範囲によって定義される。

【符号の説明】

【0094】

４１確率決定部
４２文字判定部
４３有効性決定部
４４ノイズ判定部
５１メモリ
５２プロセッサ
６１０メモリ
６２０プロセッサ
６３０インプット／アウトプットインタフェース
６４０ネットワークインターフェース
６５０ストレージインターフェース
６６０バス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版