(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-26
(45)【発行日】2023-01-10
(54)【発明の名称】無線機
(51)【国際特許分類】
H04B 1/401 20150101AFI20221227BHJP
G10L 17/00 20130101ALI20221227BHJP
【FI】
H04B1/401
G10L17/00 200C
(21)【出願番号】P 2019051153
(22)【出願日】2019-03-19
【審査請求日】2021-10-29
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】若原 裕範
【審査官】後澤 瑞征
(56)【参考文献】
【文献】特開2002-344378(JP,A)
【文献】特開2009-164680(JP,A)
【文献】特開2004-104444(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04B 1/38 - 1/58
H04B 1/02 - 1/04
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
マイクに入力された音声から声紋情報を取得する声紋取得部と、
取得した前記声紋情報と予め登録された登録モデルとを照合する声紋照合部と、
前記声紋情報と前記登録モデルとの一致率が所定の閾値以上の場合には、入力された音声を送信する送信処理部と、
発話者の指紋情報を取得する指紋取得部と、を備え、
前記声紋照合部は、発話者の前記声紋情報と前記指紋情報とを対応づけ、該指紋情報ごとに前記声紋情報を蓄積して前記登録モデルを更新することを特徴とする無線機。
【請求項2】
前記声紋照合部は、入力された音声の声紋情報を蓄積して前記登録モデルを更新することを特徴とする請求項1に記載の無線機。
【請求項3】
前記指紋取得部は、PTTボタンに設けられたことを特徴とする請求項
1または2に記載の無線機。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクから音声信号が入力されると音声の送信を行う無線機に関する。
【背景技術】
【0002】
一般に、音声信号が検出された場合に、PTT(Push To Talk)ボタンを押した状態と等価の状態に切り替えるVOX(Voice Operated Transmit)機能を備えた無線機が知られている。この種の無線機は、通常、受信状態であり、マイクから音声信号が入力されたことを検出すると、VOX機能が作動して送信状態となって音声の送信を行う。VOX機能は有用であるが、周囲の騒音等によって誤作動して無線機が送信状態となってしまうことがある。特許文献1には、周波数選択回路を用いて、人の音声がほとんど含まれていない周波数成分を取り除くことにより、周囲の騒音が変化してもVOX回路の閾値を調整せずに使用できる技術が記載されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術では、送信者以外の人の声にも反応するため、人が多い環境における無線機の誤作動を防止できないといった問題があった。
【0005】
本発明は、上記に鑑みてなされたものであって、人の多い環境における送信の誤作動を抑制できる無線機を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る無線機は、マイクに入力された音声から声紋情報を取得する声紋取得部と、取得した声紋情報と予め登録された登録モデルとを照合する声紋照合部と、声紋情報と登録モデルとの一致率が所定の閾値以上の場合に、入力された音声を送信する送信処理部と、発話者の指紋情報を取得する指紋取得部と、を備え、声紋照合部は、発話者の声紋情報と指紋情報とを対応づけ、該指紋情報ごとに声紋情報を蓄積して登録モデルを更新する。
【発明の効果】
【0007】
本発明によれば、人の多い環境における送信の誤作動を抑制することができる無線機を提供できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本実施形態に係る無線機の機能構成を示すブロック図である。
【
図2】
図2は、
図1の送信制御部の内部構成を示すブロック図である。
【
図3】
図3は、無線機の送信制御部の動作を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、以下の実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
【0010】
図1は、本実施形態に係る無線機の機能構成を示すブロック図である。
図2は、
図1の送信制御部の内部構成を示すブロック図である。本実施形態の無線機10は、他の無線機10との間で、例えば、半二重無線通信を行う。この半二重無線通信は、データの送信と受信を同時に行えず、時間を区切って送信および受信の一方しか行うことができない無線通信の形態である。
図1に示すように、無線機10は、マイク(マイクロフォン)11と、送信音声処理部12と、送信部13と、受信部14と、送受信用アンテナ15と、受信音声処理部16と、スピーカ17とを備える。また、無線機10は、音声帯域フィルタ部18と、送信制御部19と、PTTボタン20と、指紋センサ(指紋取得部)21と、回路切替部22と、方式選択ボタン23と、記憶部24とを備える。なお、
図1には本発明に関わる機能ブロックのみを示しており、図示していない無線機を制御する制御部や、スピーカ出力の音量を調整するボリュームなど各種の操作部、無線機の状態を表示する表示部などを含むものとする。
【0011】
マイク11は、例えば発話などによって入力された音声を音声信号に変換する。送信音声処理部12は、音声送信用に加工処理(例えば、デジタル変換や暗号化など)する機能を有し、加工処理された音声信号を送信部13に出力する。送信部13は、送信制御部19の制御下、送信音声処理部12で加工処理された音声信号(音声)を変調して他の無線機に送信する。
【0012】
一方、受信部14は、他の無線機から送信された音声信号を受信する。受信音声処理部16は、受信した音声信号を読み出して音声出力用に加工処理(例えば、復号化やアナログ変換など)する機能を有する。スピーカ17は、受信音声処理部16で加工処理された音声信号を音声に変換して出力する。
【0013】
また、音声帯域フィルタ部18は、送信音声処理部12と並列に配置されてマイク11からの音声信号が入力される。音声帯域フィルタ部18は、デジタル変換した後に、声紋情報を取得するために人が発話する際の音声周波数帯(例えば100~1000Hz)のみを選択してフィルタリングする。このフィルタリングにより、人の音声周波数帯以外の周波数帯の音が削除されることにより、例えば、自動車や電車の走行音などの騒音の影響を抑えることができる。フィルタリングされた音声信号は、送信制御部19に出力される。
【0014】
送信制御部19は、本実施形態に係る無線機10の音声の送信動作全般を制御する。具体的には、送信制御部19は、PTTボタン20が押下されている場合、もしくは、送信制御部19に入力された音声の声紋情報と登録モデル(学習モデルともいう)とが一致すると判断された場合、送信部13に対して音声信号(音声)を他の無線機に送信させる。送信制御部19については後述する。
【0015】
PTTボタン20は、無線機10に設けられた操作スイッチであり、PTTボタン20が押されていない状態では他の無線機10からの音声の受信を待ち受け、PTTボタン20が押されると、入力された音声を他の無線機に送信するようになっている。PTTボタン20には、発話者(ユーザ)の指の腹が当たる部分に指紋センサ21が設けられている。この指紋センサ21は、例えば静電容量方式によって構成されたものであり、発話者がPTTボタン20を押した際に触れた指から発話者の指紋情報を取得する。取得された指紋情報は、送信制御部19に出力される。指紋は、人の手の指先の内側にあり、多くの細い線からできている模様である。指紋は、各指、各人に固有であり、生涯変らないために個人を識別する上で重要な意義をもつ。
【0016】
回路切替部22は、送信制御部19とPTTボタン20とを択一的に切り替えて、送信制御部19またはPTTボタン20の一方を送信部13に接続する。具体的には、PTTボタン20が押されていない場合には、送信制御部19と送信部13とを接続するように切り替えられ、PTTボタン20が押されるとPTTボタン20と送信部13とを接続するように切り替えられる。方式選択ボタン23は、PTTボタン20の押下中のみに送信部13から音声を送信する動作と、PTTボタン20の押下中、または送信制御部19から送信の動作信号が入力された場合に送信部13から音声を送信する動作と、を選択するためのボタンである。また、無線機10を後述する識別モードまたは学習モードで動作させるかを選択させる構成としてもよい。記憶部24は、取得された声紋情報及び指紋情報が記憶されている。記憶部24は、例えば、フラッシュメモリ(Flash Memory)などの半導体メモリ素子を用いることができるが、HDD(Hard Disk Drive)などの記憶装置であってもよい。
【0017】
送信制御部19は、マイクロプロセッサまたはマイクロコンピュータで構成することができる。送信制御部19は、機能的な内部構成として、
図2に示すように、サブバンドフィルタ(声紋取得部)31と、指紋識別器32と、複数(N個;Nは自然数)の音声識別器(声紋照合部)33と、最大値評価部34と、送信処理部35とを備える。これらサブバンドフィルタ31、指紋識別器32、音声識別器33と、最大値評価部34、送信処理部35は、ソフトウェア(コンピュータプログラム)で構成されていてもよいし、ハードウェアで構成されていてもよい。さらに、ソフトウェアとハードウェアとを組み合わせて構成してもよい。
【0018】
サブバンドフィルタ31は、音声帯域フィルタ部18から入力された音声信号を声紋の特徴量として出力する。声紋は指紋と同様に各人に固有であり、個人を識別する上で重要な意義をもつ。本実施形態では、声紋は、発話された音声を複数の周波数に分解し、周波数毎の強度(音量)の分布として連続した時間で計測し、周波数、強度、時間の3次元で表現されるものである。サブバンドフィルタ31は、例えば、音声帯域の周波数を20分割し、分割された各信号の単位時間における平均強度(声紋情報)を出力する。本実施形態では、声紋情報は20次元のベクトル情報を備えて構成される。
【0019】
指紋識別器32には、指紋センサ21で取得された指紋の紋様の特徴量(指紋情報)が指紋入力から入力される。指紋情報は、例えば、紋様の分岐点や渦の中心点など複数の代表的な模様をラベリング(数値化)して、紋様間の相対的位置関係と共に数値表現したものである。本実施形態では、指紋情報は、複数のラベルと中心点からの座標によるベクトル情報を備えて構成される。指紋識別器32は、指紋センサ21で取得された指紋情報が既知であるか否かを識別する。既知であれば、送信制御部19は、指紋情報に対応づけられた音声識別器33を選択する。既知でなければ、送信制御部19は、新たな指紋情報を未だ対応づけられていない(未学習の)音声識別器33に割り当て、この音声識別器33と指紋情報とを対応づける。
【0020】
音声識別器33は、サブバンドフィルタ31から出力された声紋情報の声紋照合(音声認識)を行う。N個の音声識別器33は、それぞれ指紋情報に対応づけて設定することができる。このため、無線機10(送信制御部19)は最大N人分の声紋照合をすることができる。また、音声識別器33には、指紋情報に対応づけられた個別の登録モデル33Aが登録されている。
【0021】
本実施形態では、無線機10は、PTTボタン20の押下情報を送信制御部19のモード選択の入力から指紋識別器32に入力する。これにより、無線機10は、音声識別器33に対して、入力された声紋情報と登録モデル33Aとの声紋照合を行わせる識別モードと、指紋情報に対応づけられた声紋情報を蓄積することで登録モデル33Aを学習(更新)させる学習モードとを実行するように構成される。例えば、PTTボタン20が押されていない場合には、識別モードを実行して発話者の音声入力を待機する。PTTボタン20が押されると、学習モードを実行し、指紋情報に対応づけられた音声識別器33に発話者の声紋情報を蓄積することで登録モデル33Aを学習させる。
【0022】
送信制御部19のモード選択の入力に接続されたPTTボタン20が押下されていない場合は、指紋識別器32はN個の音声識別器33が識別モードを実行するように操作する。N個の音声識別器33は、それぞれサブバンドフィルタ31を通過して周波数分割された音声信号(声紋情報)に対するスコアを算出して出力する。このスコアは、音声識別器33に個別に登録された登録モデル33Aと入力された声紋との一致率であり、登録モデル33Aに近い声紋であるほど大きな値を示す。ただし、未学習の音声識別器33は最小値のスコアを出力するように設定されている。
【0023】
一方、送信制御部19のモード選択の入力に接続されたPTTボタン20が押下されている場合は、指紋識別器32は音声識別器33が学習モードを実行するように操作する。この場合、指紋識別器32は指紋情報に対応づけられた音声識別器33を学習モードに設定し、入力された声紋情報(特徴量)を登録モデル33Aに学習させることでスコアを最大化するようにする。発話者が自由に発話する状態では、発話する際のスピードやアクセントなどによって、発話者特有の声紋情報(特徴量)が得られる。このため、多数の声紋情報を蓄積して登録モデル33Aに発話者特有の特徴点を学習させることで発話者の特定率を向上できる。本実施形態では、対象の音声識別器33以外のその他の音声識別器33は学習を行わないものとするが、対象の音声識別器33のスコアを最大化させると同時に、その他の音声識別器33に対してもスコアを最小化するように各登録モデル33Aに学習を行わせて声紋情報の照合精度をより高めてもよい。音声識別器33は、入力情報のベクトル空間を超平面により分割する方法や、空間距離により識別する装置である。このため、例えば巡回型ニューラルネットワークの構成により、時間的に連続して入力される信号の変化を識別に用いて認識精度を高める方法を採用することができる。登録モデル33Aの学習は、声紋情報(特徴量)を多数取得することにより、発話者個人に特有な声紋情報の特徴点を見出すものとする。学習方法は例えば、機械学習と呼ばれる方法を採用することができるが、既存の学習方法であれば他の方法を採用してもよい。
【0024】
最大値評価部34は、上記した識別モードが実行中に、N個の音声識別器33が出力するスコアがそれぞれ入力され、この中から最大値(スコア)を出力する。送信処理部35は、最大値(一致率)と所定の閾値とを比較し、最大値が閾値以上の場合には、送信部13に対して他の無線機に音声を送信させる動作信号(送信指示信号)を出力する。また、最大値が閾値未満の場合には、送信処理部35は、入力された音声の声紋情報が事前に登録された登録モデル33Aと一致しないとして送信動作を実行しない。
【0025】
次に、本実施形態に係る無線機10の送信制御部19の動作について説明する。
図3は、無線機の送信制御部の動作手順を示すフローチャートである。まず、送信制御部19は、PTTボタン20が押されているか否かを判別する(ステップS1)。この判別において、PTTボタン20が押されている(ステップS1;Yes)場合には、送信制御部19は学習モードを実行する(ステップS2)。続いて、送信制御部19は、PTTボタン20が押した際に触れた指から指紋情報を取得し(ステップS3)、この指紋情報が送信制御部19の指紋入力から指紋識別器32に入力され、指紋識別器32は、指紋情報に対応づけられた音声識別器33を選択する(ステップS4)。
【0026】
次に、PTTボタン20が押された状態で、マイク11を通じて発話者の音声が入力される(ステップS5)と、送信制御部19は、音声帯域フィルタ部18に、入力された音声信号から人が発話する際の音声周波数帯のみを選択してフィルタリングさせる(ステップS6)。フィルタリングされた音声信号は、送信制御部19に出力される。次に、サブバンドフィルタ31は、送信制御部19の音声入力から入力された音声信号を周波数分割し、分割された音声信号の特徴量から声紋情報を取得(ステップS7)し、この声紋情報を対応する音声識別器33に出力する。
【0027】
音声識別器33は、入力された声紋情報によって登録モデル33Aを学習させる(ステップS8)。本実施形態では、指紋情報に対応づけられた同一人物の声紋情報が音声識別器33に入力される。このため、その時の体調によって同一人物であっても、鼻声になったり声のトーンが変化することも想定される。音声識別器33は、発話者が無線機10を利用して発話する際の声紋情報を都度取得し、この声紋情報によって登録モデル33Aを学習(更新)させることにより、発話者が登録されている人物と同一であるか否かを正確に判別することができる。発話が終了してPTTボタン20から手が離れると、送信制御部19は学習モードを停止して処理をステップS1に戻す。また、図示していないが、学習と同時にPTTボタンの押下中に入力された音声は送信部13で変調されて電波として送受信用アンテナ15から送出される。
【0028】
上記した判別において、PTTボタン20が押されていない(ステップS1;No)場合には、送信制御部19は識別モードを実行する(ステップS9)。送信制御部19は、マイク11を通じて発話者の音声入力があるか否かを判別する(ステップS10)。識別モードでは、PTTボタン20が押されていなくても入力された音声から発話者を特定して音声送信をする。送信制御部19は、音声入力がない(ステップS10;No)場合には、処理をステップS1に戻す。
【0029】
一方、音声入力がある(ステップS10;Yes)場合には、送信制御部19は、音声帯域フィルタ部18に人の音声周波数帯のみを選択してフィルタリングさせる。この後、サブバンドフィルタ31は、送信制御部19の音声入力から入力された音声信号から声紋情報を取得(ステップS11)する。サブバンドフィルタ31は、取得した声紋情報をN個の音声識別器33にそれぞれ出力する。
【0030】
N個の音声識別器33は、それぞれサブバンドフィルタ31を通過して周波数分割された声紋情報と、音声識別器33に個別に登録された登録モデル33Aとを照合する(ステップS12)。具体的には、音声識別器33は、それぞれ入力された声紋と登録モデル33Aとのスコア(一致率)を求め、このスコアを最大値評価部34に出力する。最大値評価部34は、N個の音声識別器33が出力したスコアの中から最大値(スコア)を送信処理部35に出力する。
【0031】
送信処理部35は、スコアの最大値(一致率)と所定の閾値とを比較し、最大値が閾値以上の場合(ステップS13;Yes)には、送信部13に対して他の無線機に音声を送信させる送信指示信号を送信制御部19の送信制御出力から回路切替部22に出力する(ステップS14)。すなわち、音声の送信動作を実行する。一方、送信処理部35は、最大値が閾値未満の場合(ステップS13;No)には、入力された音声の声紋情報が事前に登録された登録モデル33Aと一致しないとして送信指示信号を送信制御部19の送信制御出力から回路切替部22に出力しない。すなわち、送信制御部19は、音声の送信動作を実行することなく、識別モードを停止して処理をステップS1に戻す。
【0032】
以上、説明したように、本実施形態に係る無線機10は、マイク11に入力された音声から声紋情報を取得するサブバンドフィルタ(声紋取得部)31と、取得した声紋情報と予め登録された登録モデル33Aとを照合する音声識別器(声紋照合部)33と、声紋情報と登録モデル33Aとの一致率が所定の閾値以上の場合には、入力された音声を送信する送信処理部35と、を備えるため、声紋により人の音声の個人差を判別することができ、人の多い環境においても音声送信の誤作動を抑制することができる。
【0033】
また、本実施形態によれば、発話者の指紋情報を取得する指紋センサ(指紋取得部)21を備え、音声識別器33は、発話者の声紋情報と指紋情報とを対応づけ、該指紋情報ごとに声紋情報を蓄積して登録モデル33Aを学習させるため、発話する際のスピードやアクセントなどによって、発話者特有の声紋情報を得ることができる。このため、多数の声紋情報を蓄積して登録モデル33Aに発話者特有の特徴点を学習させることができ、発話者の特定率を向上できる。
【0034】
また、本実施形態によれば、指紋センサ21は、PTTボタン20に設けられているため、無線機10を利用して発話する際に発話者の指紋情報を取得することができ、指紋情報と発話者の声紋情報とを容易に対応づけることができる。
【0035】
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。例えば、本実施形態では、無線機10は、複数(N個)の音声識別器33を備え、各音声識別器33を指紋情報と対応づけた構成としたが、これに限るものではなく、1つの音声識別器に複数人の声紋情報を蓄積することにより登録モデルを学習(更新)する構成としてもよい。
【符号の説明】
【0036】
10 無線機
11 マイク
12 送信音声処理部
13 送信部
16 受信音声処理部
18 音声帯域フィルタ部
19 送信制御部
20 PTTボタン
21 指紋センサ(指紋取得部)
24 記憶部
31 サブバンドフィルタ(声紋取得部)
32 指紋識別器
33 音声識別器(声紋照合部)
33A 登録モデル
34 最大値評価部
35 送信処理部