IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルインコ株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-11-17
(45)【発行日】2022-11-28
(54)【発明の名称】無線通信装置及び無線通信システム
(51)【国際特許分類】
   H04M 1/00 20060101AFI20221118BHJP
   G10L 25/84 20130101ALI20221118BHJP
   G10L 21/0208 20130101ALI20221118BHJP
   G10L 25/30 20130101ALI20221118BHJP
【FI】
H04M1/00 H
G10L25/84
G10L21/0208 100Z
G10L25/30
【請求項の数】 7
(21)【出願番号】P 2021112279
(22)【出願日】2021-07-06
【審査請求日】2021-07-06
(73)【特許権者】
【識別番号】000101662
【氏名又は名称】アルインコ株式会社
(74)【代理人】
【識別番号】100101454
【弁理士】
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】國分 二郎
【審査官】松原 徳久
(56)【参考文献】
【文献】特開平10-341486(JP,A)
【文献】特開平10-326100(JP,A)
【文献】特開平11-205430(JP,A)
【文献】特開2017-090789(JP,A)
【文献】特開平06-266380(JP,A)
【文献】特開2018-185552(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L13/00-13/10
19/00-99/00
H04B1/38-1/58
7/24-7/26
H04M1/00
1/24-1/82
99/00
H04W4/00-99/00
(57)【特許請求の範囲】
【請求項1】
入力される音声信号を所定の第1のしきい値と比較して、比較結果信号である第1の音声検出信号を出力する第1の音声信号検出部と、
前記入力される音声信号に従って無線搬送波を変調して無線信号を無線送信する変調送信部と、
前記第1の音声検出信号に基づいて、前記変調送信部を送信状態にするように制御する制御部とを備える無線通信装置において、
前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力するノイズキャンセル部を備え、
前記第1の音声信号検出部は前記ノイズキャンセル部の後段に設けられ、前記ノイズキャンセル部からの音声信号を前記第1のしきい値と比較して、比較結果信号である第1の音声検出信号を出力し、
前記ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行い、
前記無線通信装置は、
入力される音声信号を所定の第2のしきい値と比較して、比較結果信号である第2の音声検出信号を出力する第2の音声信号検出部をさらに備え、
前記制御部は、前記第1の音声検出信号に先だって入力される前記第2の音声検出信号に基づいて、前記変調送信部の無線送信を開始するように制御する、無線通信装置。
【請求項2】
前記変調送信部は、入力される音声信号に従って無線搬送波を周波数変調方式又は位相変調方式で変調する、請求項1記載の無線通信装置。
【請求項3】
前記ノイズキャンセル部は、前記深層学習モデル部の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する音声信号処理部を備える、
請求項1又は2に記載の無線通信装置。
【請求項4】
前記ノイズキャンセル部は、
前記音声信号処理部の前段に設けられ、入力される音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる音声信号前置処理部をさらに備える、請求項に記載の無線通信装置。
【請求項5】
前記深層学習モデル部は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、所定のニューラルネットワークにより構成される、請求項1~のうちのいずれか1つに記載の無線通信装置。
【請求項6】
前記無線通信装置は、特定小電力無線通信システムのための無線通信装置である特定小電力無線局である、請求項1~のうちのいずれか1つに記載の無線通信装置。
【請求項7】
請求項1~のうちのいずれか1つに記載の複数の無線通信装置を含む、無線通信システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えばVOX(Voice Operated Transmitter)回路を有する無線通信装置及び、複数の無線通信装置を含む無線通信システムに関する。
【背景技術】
【0002】
従来技術に係る無線通信装置において、VOX回路が設けられている。ここで、VOX回路は、音声の有無に応じて送信信号の出力をオン・オフ制御する回路であって、例えば音声を検出したときのみ無線信号を送信し、マイクロホン周辺が無音のときは無線信号を送信せず、無線通信装置を受信状態になるように制御する。
【0003】
例えば特許文献1では、音声区間を高精度に検出して、通話品質の向上を図るために、以下の構成を有する音声区間検出装置が提案されている。この音声区間検出装置において、周波数分布算出部は、入力信号の周波数分布を算出し、平坦さ算出部は周波数分布から周波数分布の平坦さを算出する。例えば、周波数分布の平均を求め、周波数分布と平均値との差分の総和を、周波数分布の平坦さとする。さらに、音声/雑音判定部は、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第3963850号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
図7A及び図7Bは従来例に係る制御部110を有する無線機100の動作例を示すブロック図である。ここで、音声信号検出部17はいわゆるVOX回路を構成する。図7A及び図7Bに示すように、従来例に係る無線機100に搭載しているVOX回路である音声信号検出部17では、例えばマイクロホン12からの音声信号を増幅し、フィルタリングし、整流し、その音声信号レベルを所定のしきい値と比較して、前記音声信号レベルがしきい値以上であるときに無線送信を開始するように構成されている。この従来例の場合において、風切り音や周囲の騒音等で本来のマイクロホン12からの音声信号と誤認識して誤送信を開始する場合が多発していた(図7B)。従って、上記の理由から、従来例に係るVOX回路はこれまで屋外や騒音の多い現場での運用は不可能とされてきた。
【0006】
すなわち、従来例に係る音声区間検出装置を有する無線通信装置においても、例えば風切り音や周囲の騒音等で、本来のマイクロホンからの音声と誤検出して無線送信を開始することが多発し、音声区間の検出精度はいまだ低いという問題点があった。
【0007】
本発明の目的は以上の問題点を解決し、従来例に比較して高精度で音声期間を検出して無線送信を開始することができる無線通信装置及び、複数の無線通信装置を含む無線通信システムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の一態様に係る無線通信装置は、
入力される音声信号を所定の第1のしきい値と比較して、比較結果信号である第1の音声検出信号を出力する第1の音声信号検出部と、
前記入力される音声信号に従って無線搬送波を変調して無線信号を無線送信する変調送信部と、
前記第1の音声検出信号に基づいて、前記変調送信部を送信状態にするように制御する制御部とを備える無線通信装置において、
前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力するノイズキャンセル部を備え、
前記第1の音声信号検出部は前記ノイズキャンセル部の後段に設けられ、前記ノイズキャンセル部からの音声信号を前記第1のしきい値と比較して、比較結果信号である第1の音声検出信号を出力し、
前記ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、前記入力される音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行い、
前記無線通信装置は、
入力される音声信号を所定の第2のしきい値と比較して、比較結果信号である第2の音声検出信号を出力する第2の音声信号検出部をさらに備え、
前記制御部は、前記第1の音声検出信号に先だって入力される前記第2の音声検出信号に基づいて、前記変調送信部の無線送信を開始するように制御する。
【発明の効果】
【0009】
従って、本発明に係る無線通信装置によれば、前記入力される音声信号からノイズをキャンセルするように音声信号処理を行って前記変調送信部に出力するノイズキャンセル部を備え、前記第1の音声信号検出部は前記ノイズキャンセル部の後段に設けられ、前記ノイズキャンセル部からの音声信号を前記第1のしきい値と比較して、比較結果信号である第1の音声検出信号を出力するように構成した。これにより、従来例に比較して高精度で音声期間を検出して無線送信を開始することができる。
【図面の簡単な説明】
【0010】
図1】実施形態1に係る無線機1の構成例を示すブロック図である。
図2図1のノイズキャンセル部14の構成例を示すブロック図である。
図3図2の深層学習モデル部35の構成例を示すブロック図である。
図4】実施形態2に係る無線機1Aの構成例を示すブロック図である。
図5A図4の制御部10Aによって実行されるVOXモードの送信制御処理の第1の部分を示すフローチャートである。
図5B図4の制御部10Aによって実行されるVOXモードの送信制御処理の第2の部分を示すフローチャートである。
図6A図1の無線機1の動作例を示す各信号のタイミングチャートである。
図6B図4の無線機1Aの動作例1を示す各信号のタイミングチャートである。
図6C図4の無線機1Aの動作例2を示す各信号のタイミングチャートである。
図7A】従来例に係る無線機100の動作例1を示すブロック図である。
図7B】従来例に係る無線機100の動作例2を示すブロック図である。
図8A図1の無線機1の動作例1を示すブロック図である。
図8B図1の無線機1の動作例2を示すブロック図である。
図9図1の無線機1の動作例3を示すブロック図である。
図10図4の無線機1Aの動作例1を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、本発明に係る実施形態及び変形例について図面を参照して説明する。なお、同一又は同様の構成要素については同一の符号を付している。
【0012】
(実施形態1)
図1は実施形態に係る無線機1の構成例を示すブロック図である。図1において、無線機1は無線通信装置の一例であって、受信アンテナ21と、受信復調部22と、音声信号増幅器23と、スピーカ24と、制御部10と、PTT(Push To Talk)キー11A及びVOXモードキー11Bを含む操作部11と、マイクロホン12と、音声信号増幅器13と、ノイズキャンセル部14と、変調送信部15と、送信アンテナ16と、音声信号検出部17とを備えて構成される。ここで、PTTキー11Aは発声音声を送信したいときにオンされ、VOXモードキー11BはVOX回路の一例である音声信号検出部17を用いたVOXモード(例えば音声を検出したときのみ無線信号を送信し、マイクロホン周辺が無音のときは無線信号を送信せず、無線通信装置を受信状態になるように制御するモードである)で送受信したいときにオンされ、制御部10はVOXモードで変調送信部15及び受信復調部22の動作を制御する。
【0013】
ここで、実施形態に係る無線機1は例えば特定小電力無線通信システムのための特定小電力無線局の無線通信装置の一例である。本実施形態では、無線機1はその送信部において、VOX回路である音声信号検出部17の前段に、深層学習モデル部35(図3)を利用してノイズキャンセル処理を行って例えばFM(周波数変調)又はPM(位相変調)においてノイズ軽減で特に有効である、ノイズキャンセル部14を備えたことを特徴としている。また、複数の無線機1により無線通信システムを構成する。
【0014】
図1において、受信アンテナ21により受信された無線信号は受信復調部22に入力される。受信復調部22は、受信された無線信号を低雑音増幅、低域周波数変換、中間周波増幅等を行った後、例えばFM(周波数変調)又はPM(位相変調)などの所定の復調方式で音声信号に復調して音声信号増幅器23を介してスピーカ24に出力する。
【0015】
マイクロホン12は入力される音声を音声信号に変換して音声信号増幅器13を介してノイズキャンセル部14に出力する。ノイズキャンセル部14は人間の音声により深層学習された深層学習モデル部35(図3)を用いて、入力される音声信号から音声信号期間のみ当該音声信号を通過させることで、ノイズをキャンセルするように音声信号処理を行った後、変調送信部15及び音声信号検出部17に出力する。音声信号検出部17はコンパレータを含むVOX回路の一例であって、入力される音声信号を所定のしきい値と比較し、入力される音声信号が前記しきい値以上であるときにHレベルの音声検出信号(比較結果信号)S1を制御部10に出力する一方、入力される音声信号が前記しきい値未満であるときにLレベルの音声検出信号(比較結果信号)S1を制御部10に出力する。
【0016】
制御部10は例えばCPU(Central Processing Unit)又はDSP(Digital Signal Processor)などのプロセッサ等で構成され、PTTキー11Aがオンされたときに、変調送信部15を動作させ、変調送信部15は入力される音声信号に従って無線搬送波を前記所定の変調方式で変調した後、変調された無線搬送波である無線信号を、高域周波数変換しかつ電力増幅した後、送信アンテナ16から送信する。また、制御部10は、VOXモードで変調送信部15及び受信復調部22の動作を制御し、すなわち、音声信号検出部17からのHレベルの音声検出信号S1に応答して変調送信部15をオンして送信状態とし、Lレベルの音声検出信号S1に応答して変調送信部15をオフして送信停止状態とする。
【0017】
なお、本実施形態では、無線機1は送信周波数と受信周波数とが異なる同時通話方式での動作について説明したが、本発明はこれに限られず、無線機1は送信周波数と受信周波数とを同一の周波数を使用する場合は、制御部10は、PTTキー11Aがオンされたとき又はHレベルの音声検出信号S1に応答して受信復調部22の動作を停止させる。
【0018】
次いで、図2を参照して、深層学習モデル部35を用いた図1のノイズキャンセル部14の構成及び動作について以下に説明する。
【0019】
図2図1のノイズキャンセル部14の構成例を示すブロック図である。
【0020】
ここで、「音素」という用語は、特定の言語において1つの単語を他の単語から区別する音の単位を意味し、「振動レート」という用語は、各秒におけるデジタル化された振動データの0と1の間の移動の数を意味し、「振動計数値(VC)」という用語は、各フレーム内のデジタル化された振動データの値の合計を意味する。また、「振動パターン」とは、時間軸に沿った所定のフレーム数ごとに算出された振動数の総和のデータ分布を意味する。深層学習モデル部35では、異なる振動パターン、すなわち異なる振動計数値の総和(VS値)のデータ分布の違いを考慮して、ノイズキャンセル処理を行っており、振動レートは振動計数値に類似しているが、振動レートが大きいほど、振動計数値も大きくなる。
【0021】
音声信号の振幅と振動レートは共に観測可能である。ノイズキャンセル部14の特徴は、音声信号の振幅と振動率に応じて音声イベントを検出することである。また、別の特徴は、デジタル化された振動データの振動計数値の総和を、あらかじめ定義されたフレーム数分だけ計測することで、音声と、非音声/無音を区別することである。もう一つの特徴は、入力される音声信号データのストリームをその振動パターンによって異なる音素に分類することである。別の特徴は、下流の処理部をトリガするように、入力される音声信号データストリームから最初の起動音素を正しく区別することであり、それによって、処理部を含む計算システムの電力消費等の計算コストを節約することである。
【0022】
図2において、ノイズキャンセル部14は音声イベント検出を用いてノイズキャンセル処理を行うものであって、音声信号前置処理部38と、AD変換器39と、音声信号処理部30とを備えて構成される。ここで、音声信号前置処理部38は、アナログ音声信号に対して、ハイパスフィルタリング、ローパスフィルタリング、増幅又はそれらの組み合わせ等を含む、音声信号前置処理を行って、処理後のアナログ音声信号をAD変換器39に出力する。すなわち、音声信号前置処理部38は、マイクロホン12からの音声信号に対して、人間の音声信号の所定のレベル範囲であって、所定の帯域幅のみを通過させる。次いで、AD変換器39は、所定の基準電圧Vref及び許容電圧Vadm(<Vref)に従って、アナログ音声信号をデジタル音声信号にAD変換して音声信号処理部30の入力インターフェース36に出力する。
【0023】
本実施形態において、AD変換器39において、基準電圧Vrefよりも小さい許容電圧Vadmは、基準電圧Vrefと組み合わせて、第1のしきい値電圧Vth1(=Vref+Vadm))及び第2のしきい値電圧Vth2(=Vref-Vadm)を形成するために使用され、AD変換器39は、第1のしきい値電圧Vth1及び第2のしきい値電圧Vth2に基づいて、第1のしきい値電圧Vth1以上又は第2のしきい値電圧Vth2以下のノイズに対してAD変換を実行せず、その間の音声信号に対してAD変換を実行することで、入力されるアナログ音声信号のノイズ及び干渉を除去することができる。ここで、例えばVref=1.0V,Vadm=0.01Vとすると、静かな環境では振動データの振動数が少なく,音声環境では振動データの振動数が多いことが理解できる。なお、本実施形態において、「フレームサイズ」とは、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数を意味し、「音素ウィンドウTw」とは、各音素の音声特徴量を収集するための時間を意味する。好ましい実施形態では、各フレームの継続時間Tfは例えば0.1~1ミリ秒(ms)であり、音素ウィンドウTwは例えば約0.3秒である。さらに好ましい実施形態では、各フレーム内のデジタル化された振動データに対応するサンプリングポイントの数は例えば1~16の範囲である。
【0024】
音声信号を分析する場合、ほとんどの音声信号は短期間で安定しているので、通常、短期分析の方法が採用される。例えば、AD変換器39で使用されるサンプリング周波数fsが16000であり、各フレームの継続時間Tfが1msであると仮定すると、フレームサイズはfs×1/1000=16サンプルポイントとなる。
【0025】
図2において、音声信号処理部30は例えばコンピュータデバイスで構成され、
(1)ノイズキャンセルなどの所定の音声信号処理を実行するCPU(Central Processing Unit)31と、
(2)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラム、並びに当該プログラムを実行するために必要なデータ等を格納するROM(Read Only Memory)32と、
(3)CPU31の基本処理を実行するオペレーティングシステム及び前記音声信号処理のプログラムの実行時に、処理中のデータ等を格納するRAM(Read Access Memory)33と、
(4)前記音声信号処理を実行するために必要な後述する設定データ等を格納する不揮発性のEEPROM(Electrically Erasable Programmable Memory)34と、
(5)例えばニューラルネットワークなどで構成され、人間の音声信号データに基づいて深層学習されて入力される音声信号データに対して、ノイズを除去して実質的に音声信号のみを抽出して出力する深層学習モデル部35と、
(6)AD変換器39から入力される音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行ってCPU31に出力する入力インターフェース36と、
(7)深層学習モデル部35によりノイズが除去された音声信号データを、後段の信号仕様値に変換するための所定の信号変換処理を行って端子T12、音声ラインL2等を介して無線機1に出力する出力インターフェース37と、
を備えて構成される。
【0026】
ここで、EEPROM34は例えば、一連の振動計数値VC、振動計数値の総和VS、振動計数値の総和VSf、振動計数値の総和VSp(後述する)、及びすべての特徴ベクトルの音声特徴値を記憶する。なお、EEPROM34は外部メモリなどの記憶装置であってもよい。音声信号処理部30に適用される音声イベント検出方法は、音声イベントを捕捉するために、CPU31によってランタイム中に実行される。fs=16000、Tf=1ms、Tw=0.3sと仮定して、音声イベント検出を実行する。
【0027】
CPU31は、具体的には、処理対象である現在のフレーム(すなわち、1ms以内)の振動データ値の総和を計算して、振動計数値VCを取得し、その後、時点Tjにおける現在のフレームのVC値をEEPROM34に格納する。ここで、x個のフレームの振動計数値VCを加算して、時点Tjにおける現在のフレームの振動計数値の総和VSを得る。x個のフレームには現在のフレームが含まれる。一実施形態では、CPU31は、時点Tjにおける現在のフレームの振動計数値VCと、その直前(x-1)個のフレームの振動計数値の総和VSpとを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSp)を得る。
【0028】
なお、変形例では、CPU31は、時点Tjにおける現在のフレームの振動計数値VC、その直後のy個のフレームの振動計数値の総和VSf、及びその直前の(x-y-1)個のフレームの振動計数値の総和VSpを加算して、時点Tjにおけるx個のフレームの振動計数値の総和VS(=VC+VSf+VSp)を得るが、yはゼロ以上である。CPU31は、VS、VSf及びVSpの値をEEPROM34に格納する。好ましい実施形態では、x個のフレーム(音素ウィンドウTw)の継続時間(x×Tf)は、約0.3秒である。さらに好ましい実施形態では、x個のフレームのデジタル化された振動データに対応するサンプリングポイントの数は、x~16xの範囲にある。
【0029】
一般的に、音声信号データについては、同じ音素では振動計数値VCの振動パターンが類似しているが、異なる音素ではVS値の振動パターンが全く異なる。従って、振動計数値VCの振動パターンを利用して、音素を区別することができる。特に、例えば鶏又は猫の鳴き声と、人間の音声とは、振動計数値VCの周波数分布に関して全く異なり、人間の音声の振動計数値VCのほとんどは40以下に分布していることが既知である。
【0030】
学習フェーズにおいて、音声信号処理部30のCPU31は、まず、所定の音声信号データ収集方法を複数回実行して、複数の音素に対する複数の特徴ベクトルを収集し、複数の特徴ベクトルに対応するラベルを付加して、複数のラベル付き学習例を形成する。その後、起動音素を含む異なる音素に対する複数のラベル付き学習例を、深層学習モデル部35の学習に適用する。最後に、学習された深層学習モデル部35(音声信号データの予測モデルを構成する)を作成して、入力される音声信号データのストリームが起動音素を含むかどうかを分類する。音声信号処理部30の起動音素として、所定の音素が指定されている場合、深層学習モデル部35は、少なくとも当該指定された音素を含む異なる音素についての複数のラベル付き学習例で学習される。
【0031】
すなわち、学習段階では、ラベル付けされた学習例のセットを使用して深層学習モデル部35を学習し、それによって深層学習モデル部35が、ラベル付けされた学習例の各フレームの3つの音声特徴量(例えば、(VSj,TDj,TGj))に基づいて、j=0~299の間で、所定の起動音素を認識するようにする。学習段階の終わりに、学習された深層学習モデル部35は、当該起動音素に対応する学習されたスコアを提供し、学習されたスコアは、次に、入力される音声信号データのストリームをランタイムで分類するための基準として使用される。なお、VSj,TDj,TGjは以下のように定義される。
(1)VSj:フレームjの振動計数値の総和(VS値);
(2)TDj:フレームjにおいて、ゼロではない振動計数値の総和(VS値)の時間期間;及び
(3)TGj;フレームjにおける、ゼロではない振動計数値の総和(VS値)間の時間ギャップ(時間隙間)。
【0032】
深層学習モデル部35を学習するために、教師付き学習に関連する様々な機械学習技術を使用することができ、例えば、サポートベクターマシン(SVM)法、ランダムフォレスト法、畳み込みニューラルネットワーク法などを利用できる。教師付き学習では、複数のラベル付けされた学習例を使用して関数計算部(すなわち、深層学習モデル部35)が作成され、その各例は、入力特徴ベクトルとラベル付けされた出力からなる。学習されたとき、深層学習モデル部35は、対応するスコア又は予測値を生成するために、新しいラベルのない例に適用することができる。
【0033】
図3図2の深層学習モデル部35の詳細構成例を示すブロック図である。
【0034】
深層学習モデル部35は、例えば、図3に示すように、ニューラルネットワークを用いて実装される。ここで、ニューラルネットワークは、1つの入力層41と、少なくとも1つであり好ましくは複数の中間層42と、1つの出力層43を含む。入力層41には3つの入力ニューロン51,52,53があり、各入力ニューロン51,52,53は、特徴ベクトルの各フレームの3つのオーディオ特徴値(すなわち、VSj,TDj,TGj)に対応する。また、中間層42は、各入力ニューロン51,52,53に関連する重み係数と各ニューロンのバイアス係数を有するニューロン61~74で構成される。学習フェーズのサイクルを通じて中間層42の各ニューロン61~74の重み係数とバイアス係数を変更することにより,ニューラルネットワークを学習して,所定の種類の入力に対する予測値を報告するようにすることができる。さらに、出力層43は、音素に対応する1つの予測値(具体的には、音声期間であるか、ノイズを含む非音声期間であるかを示す)を提供する1つの出力ニューロン81を含む。
【0035】
以上説明したように、本実施形態によれば、ノイズキャンセル部14において、深層学習モデル部35は、人間の音声の特徴パラメータを用いて学習され、入力される音声信号からノイズを含む非音声期間であるか否かを判定する。そして、音声信号処理部30のCPU31は、深層学習モデル部35の前記判定に基づいて、入力される音声信号からノイズを含む非音声期間を通過させないようにノイズキャンセル処理を行って、前記ノイズキャンセル処理後の音声信号を出力する。ここで、深層学習モデル部35は、人間の音声の特徴パラメータを入力とし、入力される音声信号からノイズを含む非音声期間であるか否かを判定する判定結果を出力とする、図3のニューラルネットワークにより構成される。
【0036】
図8A及び図8Bはそれぞれ図1の無線機1の動作例1,2を示すブロック図である。
【0037】
本実施形態では、無線機1はその送信部において、VOX回路である音声信号検出部17の前段にノイズキャンセル部14を備えたので、音声信号検出部17により音声のみによってその一定レベル以上を検出することで送信状態になる(図8A)。これに対して、風切り音又は騒音では、音声信号検出部17は一定のレベル以上の音声信号を検出しないので、送信状態にならない(図8B)。従って、本実施形態によれば、ノイズキャンセル部14により、音声区間の検出精度を大幅に向上させて、従来例のように例えば風切り音や周囲の騒音等で本来のマイクロホン12からの音声と誤検出して無線送信を開始することを有効的に防止することができ、従来例に比較して高精度で音声期間を検出して無線送信を開始することができる。
【0038】
さらに、本実施形態では、無線機1はその送信部において、例えばFM(周波数変調)又はPM(位相変調)においてノイズ軽減で特に有効である、ノイズキャンセル部14を備える。これにより、無線通話を行う無線通信装置において、従来技術に比較して、人間の発話音声を有効的に出力するようにノイズキャンセルを行うことができる。送信側でノイズキャンセル部14を備えることで、送信側以降の回路及び装置(例えば、無線中継装置など)における音声信号において有効的にノイズを除去できる。
【0039】
次いで、実施形態1における問題点について以下に説明する。
【0040】
図6Aは実施形態1に係る無線機1の動作例を示す各信号のタイミングチャートであり、図9は当該無線機1の動作例3を示すブロック図である。
【0041】
ノイズキャンセル部14は、A/D変換、D/A変換やメモリの書き込み/読み出し等の処理を行うため、入力信号に対して出力信号は必ず遅延が発生し、音声期間検出時間T1が生じる。従って、図6Aに示すように、ノイズキャンセル部14の音声期間検出時間T1(t1~t2)のために、ノイズキャンセル部14からの音声信号出力が遅延し、また、音声信号検出部17のレベル検出時間T2(一般的に<T1(コンパレータの動作時間はCPU等の動作時間に比較して短いため);t2~t3)のために、音声信号検出部17からの音声信号出力が遅延する。このとき、変調送信部15から送信されて受信を行う別の受信機の受信部において、少なくとも時間T2だけ音声信号の頭切れが発生する可能性がある。この問題点を解決するための実施形態2について以下に説明する。
【0042】
なお、図6Aにおいて、ノイズキャンセル部14の音声期間検出時間T1a(≒T1;t4~t5)のために、マイクロホン12への音声信号がなくなって時点t4からもノイズキャンセル部14からの音声信号の出力端が遅延する。
【0043】
(実施形態2)
図4は実施形態2に係る無線機1Aの構成例を示すブロック図である。図4において、実施形態2に係る無線機1Aは、実施形態1に係る図1の無線機1に比較して以下の相違点を有する。
(1)音声信号増幅器13の後段であって、ノイズキャンセル部14の前段に音声信号検出部18をさらに備える。
(2)制御部10に代えて、図5A及び図5BのVOXモードの送信制御処理を実行する制御部10Aを備える。なお、制御部10Aは、ノイズキャンセル部14及び音声信号検出部17の解析において、無線信号を受信してから「音声信号なし」と判断するまでの所定時間T12(図6Cのt22~t23;T12は回路設計の段階で予め決定される)だけ待機するためのタイマを内蔵した。
以下、相違点について説明する。
【0044】
図4において、音声信号検出部18はコンパレータを含み、音声信号増幅器13からの音声信号を所定のしきい値(当該しきい値は、音声信号検出部17のしきい値と同一であってもよいし、例えば音声信号検出部18のしきい値が音声信号検出部17のしきい値よりも小さくなり、もしくは大きくなり、異なるように設定してもよい)と比較し、入力される音声信号が前記しきい値以上であるときにHレベルの音声検出信号(比較結果信号)S2を制御部10Aに出力する一方、入力される音声信号が前記しきい値未満であるときにLレベルの音声検出信号(比較結果信号)S2を制御部10Aに出力する。
【0045】
制御部10Aは、PTTキー11Aがオンされたときに、変調送信部15を動作させ、変調送信部15は入力される音声信号に従って無線搬送波を前記所定の変調方式で変調した後、変調された無線搬送波である無線信号を、高域周波数変換しかつ電力増幅した後、送信アンテナ16から送信する。また、制御部10Aは、VOXモードで変調送信部15及び受信復調部22の動作を制御するときに、図5A及び図5Bの送信制御処理を実行する。
【0046】
図5A及び図5B図4の制御部10Aによって実行されるVOXモードの送信制御処理を示すフローチャートである。なお、検出フラグF2は、音声検出信号S2がHレベルになったか、Lレベルになったかを示すフラグである。
【0047】
図5AのステップS1の初期設定処理では、送信停止中であり、検出フラグF2をLレベルに設定し、音声検出信号S1,S2はLレベルにあり、タイマをリセットする。ステップS2において、音声信号検出部18から音声検出信号S2を受信したか否かが判断され、YESのときはステップS5に進む一方、NOのときはステップS3に進む。ステップS3では、検出フラグF2をLレベルにセットし、ステップS4でタイマをリセットした後、ステップS2に戻る。
【0048】
ステップS5では、検出フラグF2はLレベルか否かが判断され、YESのときはステップS6に進む一方、NOのときは図5BのステップS11に進む。ステップS6において、検出フラグF2をHレベルにセットし、ステップS7で制御部10Aは変調送信部15を送信状態にすることで送信開始し、ステップS8でタイマに時間T12をセットしてカウントを開始し、図5BのステップS11に進む。
【0049】
図5BのステップS11では、音声信号検出部17から音声検出信号S1を受信したか否かが判断され、YESのときはステップS12に進む一方、NOのときはステップS15に進む。ステップS12で、タイマを強制的にカウントの満了状態にした後、ステップS13で変調送信部15は送信中か否かが判断され、YESのときはステップS11に戻る一方、NOのときはステップS14に進む。ステップS14では、制御部10Aは変調送信部15を送信状態にすることで無線送信を開始し、ステップS11に戻る。
【0050】
ステップS15では、タイマのカウントが満了したか否かが判断され、YESのときはステップS16に進む一方、NOのときは図5AのステップS2に戻る。次いで、ステップS16では、変調送信部15は送信中か否かが判断され、YESのときはステップS17に進む一方、NOのときは図5AのステップS2に戻る。ステップS17で制御部10Aは変調送信部15を送信停止状態にすることで送信を停止させた後、図5AのステップS2に戻る。
【0051】
図6B図4の無線機1Aの動作例1(マイクロホン12に人間の音声のみが入力されたとき)を示す各信号のタイミングチャートである。また、図6C図4の無線機1Aの動作例2(マイクロホン12にノイズ又は騒音のみが入力されたとき)を示す各信号のタイミングチャートである。
【0052】
図4の実施形態2では、ノイズキャンセル部14の前段に別の音声信号検出部18を設けたことを特徴としている。図6Bに示すように、CPU等で構成されるノイズキャンセル部14の信号処理時間T1(t1~t3)は、コンパレータで構成される音声信号検出部18の音声を検出し送信開始するまでの遅延時間T11(t1~T11)に比較して十分に長く、ノイズキャンセル後の音声検出信号S1が出力される(t3)前に、変調送信部15が時刻t11で無線送信を開始することができる。これにより、変調送信部15から送信されて受信を行う別の受信機の受信部において、「音声信号」を頭切れなく受信音として出力することができる(図6Bの101)。
【0053】
言い換えれば、実施形態2では、ノイズキャンセル部14の前段の音声信号検出部18の入力端で音声信号とノイズを問わずあらかじめ無線送信を開始する。その後、ノイズキャンセル部14のノイズキャンセルの解析が完了してノイズキャンセル部14から音声信号が出力される。このときすでに送信しているため、頭切れなく無線送信が可能となる(図6B)。
【0054】
また、マイクロホン12にノイズ又は騒音のみが入力されたときの図6Cでも、ノイズキャンセル部14の前段の音声信号検出部18の入力端で音声とノイズを問わずあらかじめ無線送信を開始する。その後、音声信号検出部17の入力端で音声信号が検出されない場合であっても、音声信号なしでノイズのみとみなし判断して送信を停止する。その際一時的に送信する(T12)が、送信される変調音声信号は無いため、受信側の無線機の復調音は無音のままである(T13(=T12))。
【0055】
図10図4の無線機1Aの動作例1を示すブロック図である。
【0056】
以上説明したように、実施形態2によれば、ノイズキャンセル部14の前段に別の音声信号検出部18を設けたので、図10に示すように、ノイズキャンセル後の音声検出信号S1が出力される前に、変調送信部15が無線送信を開始することができる。これにより、変調送信部15から送信されて受信を行う別の受信機の受信部において、「音声信号」を頭切れなく受信音として出力することができる。
【産業上の利用可能性】
【0057】
以上詳述したように、本発明に係る無線通信装置によれば、無線機1はその送信部において、VOX回路である音声信号検出部17の前段にノイズキャンセル部14を備えたので、音声信号検出部17により音声のみによってその一定レベル以上を検出することで送信状態になる(図8A)。これに対して、風切り音又は騒音では、音声信号検出部17は一定のレベル以上の音声信号を検出しないので、送信状態にならない(図8B)。従って、ノイズキャンセル部14により、音声信号区間の検出精度を大幅に向上させて、従来例のように例えば風切り音や周囲の騒音等で本来のマイクロホン12からの音声と誤検出して無線送信を開始することを有効的に防止することができ、従来例に比較して高精度で音声期間を検出して無線送信を開始することができる。
【0058】
また、ノイズキャンセル部14の前段に別の音声信号検出部18を設けたので、図10に示すように、ノイズキャンセル後の音声検出信号S1が出力される前に、無線送信を開始することができる。これにより、受信を行う別の受信機の受信部において、「音声信号」を頭切れなく受信音として出力することができる。
【符号の説明】
【0059】
1,1A 無線機
10,10A 制御部
11 操作部
11A PTTキー
11B VOXモードキー
12 マイクロホン
13 音声信号増幅器
14 ノイズキャンセル部
15 変調送信部
16 送信アンテナ
17,18 音声信号検出部
21 受信アンテナ
22 受信復調部
23 音声信号増幅器
24 スピーカ
30 音声信号処理部
31 CPU
32 ROM
33 RAM
34 EEPROM
35 深層学習モデル部
36 入力インターフェース
37 出力インターフェース
38 音声信号前置処理部
39 AD変換器
41 入力層
42 中間層
43 出力層
51~81 ニューロン
100 無線機
110 制御部
【要約】
【課題】高精度で音声期間を検出して無線送信を開始することができる。
【解決手段】無線通信装置は、入力される音声信号をしきい値と比較して、比較結果信号である音声検出信号を出力する音声信号検出部と、入力される音声信号に従って無線搬送波を変調して無線信号を送信する変調送信部と、音声検出信号に基づいて、変調送信部を送信状態にするように制御する制御部とを備える。無線通信装置は、入力される音声信号からノイズをキャンセルするように音声信号処理を行って変調送信部に出力するノイズキャンセル部を備える。音声信号検出部はノイズキャンセル部の後段に設けられ、ノイズキャンセル部からの音声信号をしきい値と比較して音声検出信号を出力する。ノイズキャンセル部は、人間の音声の特徴パラメータを用いて学習され、復調された音声信号からノイズを含む非音声期間であるか否かを判定する深層学習モデル部を用いて、ノイズキャンセル処理を行う。
【選択図】図1
図1
図2
図3
図4
図5A
図5B
図6A
図6B
図6C
図7A
図7B
図8A
図8B
図9
図10