IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社JVCケンウッドの特許一覧

特許7604866収音制御装置、収音制御方法、及び収音制御プログラム
<>
  • 特許-収音制御装置、収音制御方法、及び収音制御プログラム 図1
  • 特許-収音制御装置、収音制御方法、及び収音制御プログラム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】収音制御装置、収音制御方法、及び収音制御プログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20241217BHJP
   H04R 1/40 20060101ALI20241217BHJP
   H04R 3/00 20060101ALI20241217BHJP
   G10L 25/51 20130101ALI20241217BHJP
【FI】
G10L21/0272 100A
H04R1/40 320A
H04R3/00 320
G10L25/51 400
【請求項の数】 4
(21)【出願番号】P 2020202408
(22)【出願日】2020-12-07
(65)【公開番号】P2022090184
(43)【公開日】2022-06-17
【審査請求日】2023-09-29
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】菅谷 雄一
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平10-304329(JP,A)
【文献】特開2005-086363(JP,A)
【文献】特開2019-211529(JP,A)
【文献】特開2009-122370(JP,A)
【文献】特開2006-208482(JP,A)
【文献】特開2009-218764(JP,A)
【文献】国際公開第2018/047294(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00-17/26,21/02-21/0364
H04R 1/40,3/00
(57)【特許請求の範囲】
【請求項1】
取得した音声信号の特徴と登録者の音声信号の特徴とが一致するか否かを判定する判定部と、
判定結果が真である場合、前記取得した音声信号の到来方向を特定する特定部と、
特定された前記到来方向に基づいて指向性マイクロフォンの指向性を制御する指向性制御部と、
前記取得した音声信号を外部に送信する通信部と、
を備え
前記判定結果が真でない場合には前記指向性マイクロフォンの指向性の制御に係る処理を終了し、
前記通信部によって前記取得した音声信号が外部に送信されている場合、前記指向性マイクロフォンの指向性を制御し、前記通信部によって前記取得した音声信号が外部に送信されていない場合、前記指向性マイクロフォンの指向性を制御しない、
収音制御装置。
【請求項2】
前記収音制御装置は、さらに、
前記収音制御装置において所定のアプリケーションが起動しているか否かを、前記指向性マイクロフォンの指向性を制御するか否かの条件とする
請求項1に記載の収音制御装置。
【請求項3】
コンピュータが、
取得した音声信号の特徴と、登録者の音声信号の特徴とが一致するか否かを判定するス
テップと、
判定結果が真である場合、前記取得した音声信号の到来方向を特定するステップと、
前記到来方向に基づいて指向性マイクロフォンの指向性を制御するステップと、
前記取得した音声信号を外部に送信する通信ステップと、
実行する収音制御方法であって、
前記判定結果が真でない場合には前記指向性マイクロフォンの指向性の制御に係る処理を終了し、
前記通信ステップによって前記取得した音声信号が外部に送信されている場合、前記指向性マイクロフォンの指向性を制御し、前記通信ステップによって前記取得した音声信号が外部に送信されていない場合、前記指向性マイクロフォンの指向性を制御しない、ことを特徴とする、収音制御方法。
【請求項4】
コンピュータに、
取得した音声信号の特徴と、登録者の音声信号の特徴とが一致するか否かを判定するステップと、
判定結果が真である場合、前記取得した音声信号の到来方向を特定するステップと、
前記到来方向に基づいて指向性マイクロフォンの指向性を制御するステップと、
前記取得した音声信号を外部に送信する通信ステップと、
実行させる収音制御プログラムであって、
前記判定結果が真でない場合には前記指向性マイクロフォンの指向性の制御に係る処理を終了し、
前記通信ステップによって前記取得した音声信号が外部に送信されている場合、前記指向性マイクロフォンの指向性を制御し、前記通信ステップによって前記取得した音声信号が外部に送信されていない場合、前記指向性マイクロフォンの指向性を制御しない、ことを特徴とする、収音制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音制御装置、収音制御方法、及び収音制御プログラムに関し、特に指向性マイクロフォンの指向性を制御する技術に関する。
【背景技術】
【0002】
テレビ等の音声信号から所定の人物の音声信号を抽出し、抽出された音声信号の大きさを調整する技術が提案されている。特許文献1は、放送番組の出演者の声紋データを登録し、所望の出演者の音声信号に対して音量調整を行う技術を開示している。
【0003】
一方、特許文献2は、予め定められた特定音の到来方向を推定し、推定した到来方向からの音声が強調されるように収音を行う技術を開示している。ここで、特定音とは、キーワード、口笛、手拍子等である。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-121096号公報
【文献】特開2020-18015号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
在宅勤務を行う人物が遠隔会議に参加した際、会議の参加者以外の人物の声が、マイクロフォンで収音されてしまうおそれがある。しかし、特許文献1に記載された技術によると、収音された音声を、参加者の声と、それ以外の人物の声とに分離して処理を行う必要があり、処理の負荷が大きいという問題があった。尚、参加者が手拍子等の特定音を発しない限り、特許文献2では、この問題を解決することはできない。そこで、登録された人物の位置する方向に基づきマイクロフォンの指向性を制御可能な収音制御装置、収音制御方法、及び収音制御プログラムを提供する。
【課題を解決するための手段】
【0006】
本発明は、取得した音声信号の特徴と登録者の音声信号の特徴とが一致するか否かを判定する判定部と、判定結果が真である場合、前記取得した音声信号の到来方向を特定する特定部と、特定された前記到来方向に基づいて指向性マイクロフォンの指向性を制御する指向性制御部と、を備える収音制御装置を提供する。
【0007】
本発明は、取得した音声信号の特徴と、登録者の音声信号の特徴とが一致するか否かを判定するステップと、判定結果が真である場合、前記取得した音声信号の到来方向を特定するステップと、前記到来方向に基づいて指向性マイクロフォンの指向性を制御するステップと、を含む収音制御方法を提供する。
【0008】
本発明は、コンピュータに、取得した音声信号の特徴と、登録者の音声信号の特徴とが一致するか否かを判定するステップと、判定結果が真である場合、前記取得した音声信号の到来方向を特定するステップと、前記到来方向に基づいて指向性マイクロフォンの指向性を制御するステップと、を実行させる収音制御プログラムを提供する。
【発明の効果】
【0009】
本発明によれば、登録された人物の位置する方向に基づき指向性マイクロフォンの指向性を制御可能な収音制御装置、収音制御方法、及び収音制御プログラムを提供することができる。
【図面の簡単な説明】
【0010】
図1】実施形態にかかる収音制御装置の構成を示すブロック図である。
図2】実施形態にかかる収音制御方法の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
まず、図1を用いて、実施形態にかかる収音制御装置100の構成について説明する。収音制御装置100は、例えば、PC(Personal Computer)や携帯機器、タブレット型端末等の情報端末である。尚、実施形態では、収音制御装置100が遠隔会議で使用される場合を中心に説明するが、収音制御装置100は遠隔会議で使用されなくてもよい。収音制御装置100は、電話やチャット、歌唱機器など人物の音声を収音する装置であればよい。
【0012】
収音制御装置100は、指向性マイクロフォン10と接続されている。指向性マイクロフォン10は、指向性を制御することが可能なマイクロフォンである。指向性マイクロフォン10は、ステレオマイクロフォンや、マイクロフォンアレイのように複数のマイクロフォンで構成されていていてもよい。このような場合、各マイクロフォンで収音される音声信号の音量を調整することにより、指向性マイクロフォン10の指向性が制御される。また、指向性マイクロフォン10は、指向性を有する単一のマイクロフォンで構成されてもよい。このような場合、単一のマイクロフォンを機械的に回動させることにより、指向性マイクロフォン10の指向性が制御される。指向性マイクロフォン10は、収音制御装置100に含まれていてもよい。
【0013】
また、収音制御装置100は、ネットワークNを介して他の端末(不図示)と接続されている。ネットワークNは、有線であっても無線であってもよい。他の端末(不図示)は、遠隔会議の他の参加者が操作する情報端末である。尚、収音制御装置100は、遠隔会議に係るサービスを提供するサーバ(不図示)と接続されていてもよい。
【0014】
収音制御装置100は、記憶部110と、通信部120と、制御部130とを備えている。記憶部110は、ハードディスク、フラッシュメモリ、SDカード等の記憶装置または記憶媒体である。また、記憶部110は、一時的に情報を保持するための記憶領域であるRAM(Random Access Memory)等の揮発性記憶装置を含んでもよい。記憶部110は、その一部または全部がネットワークNに接続される他端末に備えられ、制御部130と通信部120を介して接続される形態であってもよい。
【0015】
記憶部110は、特徴データ111を記憶している。特徴データ111は、登録されている人物(登録者)の音声信号の特徴のデータである。登録者は、例えば、遠隔会議の参加者である。特徴データ111は、声紋分析等の技術を用いて抽出されていてもよい。特徴データ111は、例えば、周波数の高低、音量の強弱、又はこれらの時間的な変化であるが、これには限定されない。記憶部110には、複数の人物の特徴データ111が記憶されていてもよい。尚、記憶部110は、音声信号の特徴から発声者を識別するための識別器(分類器)を記憶していてもよい。
【0016】
また、記憶部110には、実施形態にかかる制御方法を実装したプログラム(不図示)や、遠隔会議を行うためのアプリケーション112が格納されている。
【0017】
通信部120は、ネットワークNとの通信インタフェースである。通信部120は、他の装置、又はサーバから音声信号を受信する。受信した音声信号は、収音制御装置100が備えるスピーカ(不図示)に出力される。また、通信部120は、後述する音声取得部131が取得した音声信号を、ネットワークNを介して他の装置等に送信する。
【0018】
制御部130は、指向性マイクロフォン10の指向性を制御する。制御部130の機能は、プログラム(不図示)をRAM等のメモリに読み込ませ、プロセッサ(不図示)が実行することにより実現されてもよい。制御部130は、音声取得部131と、音声解析部132と、判定部133と、特定部134と、指向性制御部135と、遠隔会議制御部136とを備える。
【0019】
音声取得部131は、指向性マイクロフォン10で収音された音声を取得する。より詳しくは、音声取得部131は、周囲の音声をマイクロフォンで収音し、電気信号に変換した音声信号を取得する。尚、音声取得部131は、指向性マイクロフォン10を含んで構成されてもよい。音声取得部131は、指向性を有しないマイクロフォン(不図示)で収音された音声信号を取得してもよい。
【0020】
音声解析部132は、音声取得部131が取得した音声信号の特徴を、声紋分析などの技術を用いて解析する。音声解析部132は、例えば、周波数の高低、音量の強弱、又はこれらの時間的な変化を特徴データとして抽出する。音声解析部132は、他の公知技術を用いて、音声信号の特徴データを抽出してもよい。
【0021】
判定部133は、音声解析部132によって抽出された特徴データと、記憶部110が記憶する特徴データ111とが一致するか否かを判定する。つまり、判定部133は、音声取得部131が取得した音声信号が、登録者が発した音声であるか否かを判定する。判定部133は、発声者特定部とも呼ぶ。判定部133は、特徴データ111と、抽出された音声信号の特徴とを照合し、音声認証を行ってもよい。
【0022】
また、判定部133は、登録者の音声信号の特徴と、それ以外の人物の音声信号の特徴とを用いた教師あり学習により構築された識別器(分類器)を用いて、判定を行ってもよい。これにより、判定部133は、音声取得部131が取得した音声信号が、登録者の音声信号であるか否かを精度よく判定することが可能となる。識別器は、機械学習辞書とも呼ぶ。記憶部110は、機械学習により構築された識別器を記憶しているものとする。判定部133が識別器を用いて判定を行う場合、音声解析部132は必ずしも必須の構成要素ではなく、無くてもよい。
【0023】
特定部134は、判定部133による判定結果が真である場合、音声取得部131が取得した音声信号の到来方向を特定する。判定結果が真である場合は、音声認証に成功した場合であってもよい。特定部134は、発声者位置特定部とも呼ぶ。
【0024】
例えば、特定部134は、指向性マイクロフォン10の指向性をシークさせ、指向性マイクロフォン10によって収音される音声信号の大きさ(音量)が最大となる方向を特定してもよい。また、指向性マイクロフォン10が複数のマイクロフォンで構成される場合、特定部134は、各マイクロフォンで収音されて音声取得部131が取得した各音声信号の遅延量を比較し、遅延量が少ない音声信号を収音したマイクロフォンがある方向が、音声信号が到来する方向であると特定してもよい。尚、特定部134は、他の公知技術を用いて、収音される音声信号の到来方向を特定してもよい。音声信号の方向は、取得した音声信号の発声者の位置する方向とも言える。
【0025】
指向性制御部135は、特定部134により特定された音声信号の到来方向に基づいて、指向性マイクロフォン10の指向性を制御する。例えば、遠隔会議の参加者の特徴データ111が、予め記憶部110に登録されているものとする。これにより、収音制御装置100は、遠隔会議の際に、特定部134により特定された、遠隔会議の参加者が発声する方向に指向性マイクロフォン10の指向性を向けるように制御して、遠隔会議の参加者による音声信号を収音し、登録者以外の音声、例えば子供の音声や生活音、風切り音などの外来ノイズなどの収音を抑制することが可能となる。
【0026】
尚、反対に、会議に参加しない人物の特徴データ111が、予め記憶部110に登録されていてもよい。このような場合、指向性制御部135は、指向性マイクロフォン10の指向性を、特定部134に特定された方向とは異なる方向に向けるように制御する。これにより、収音制御装置100は、遠隔会議の際に、遠隔会議の参加者以外の人物、例えば子供等による音声信号の収音を抑制することが可能となる。
【0027】
遠隔会議制御部136は、遠隔会議が開催されるURL等(会議室)にアクセスし、音声取得部131が取得した音声信号を、通信部120を介して送信する。遠隔会議制御部136の機能は、アプリケーション112をプロセッサ(不図示)が実行することにより実現される。
【0028】
制御部130は、所定のアプリケーション112が起動している場合、指向性マイクロフォン10の指向性を制御し、所定のアプリケーション112が起動していない場合、指向性マイクロフォン10の指向性を制御しなくてもよい。尚、アプリケーション112が起動していない場合とは、例えば、遠隔会議制御部136が動作していないである。これにより、制御部130は、必要な場合にのみ指向性マイクロフォン10の指向性を制御することができる。また所定のアプリケーション112は、遠隔会議用に限定されず、電話やチャットツールなどの外部との音声通信用、カラオケや歌唱用のアプリケーションや音声収録用など、音声を収音するアプリケーションであってよい。
【0029】
また、制御部130は、アプリケーション112を用いて行われている遠隔会議の参加者情報や会議名称、又は会議室情報を、会議情報として取得してもよい。このような場合、制御部130は、会議情報が予め定められた条件を満たす場合、指向性マイクロフォン10の指向性を制御し、会議情報が予め定められた条件を満たさない場合、指向性マイクロフォン10の指向性を制御しない。これにより、制御部130は、特定の人物が遠隔会議に参加している場合や、特定のメンバーや特定の目的での遠隔会議の場合、又は、特定の会議室(URL等)を用いて遠隔会議が行われている場合にのみ、指向性マイクロフォン10の指向性を制御することができるため効率的である。
【0030】
さらに、制御部130は、通信部120から音声信号が外部に送信されているか否かを示す情報を取得し、音声信号が外部に送信されている場合、指向性マイクロフォン10の指向性を制御し、音声信号が外部に送信されていない場合、指向性マイクロフォン10の指向性を制御しないような制御を行ってもよい。これにより、音声取得部131が取得した音声が外部に送信されている、例えば遠隔会議や電話などの外部とのコミュニケーションを行う場合にのみ、登録者の発声方向に向けて指向性マイクロフォン10の指向性を制御するため、収音制御装置100は、効率的に指向性マイクロフォン10の指向性を制御することが可能となる。
【0031】
図2は、実施形態にかかる収音制御方法の流れを例示するフローチャートである。遠隔会議に参加する人物の音声信号の特徴データ111が、記憶部110に登録されているものとする。まず、制御部130は、収音制御装置100においてアプリケーション112が起動しているか否かを判定する(ステップS101)。
【0032】
収音制御装置100は、アプリケーション112が起動していない場合(ステップS101のNo)は処理を終了し、アプリケーション112が起動している場合(ステップS101のYes)はステップS102の処理に移行する。収音制御装置100は、ステップS101において、遠隔会議の参加者情報が所定条件を満たすか否かを判定してもよく、通信部120が音声信号を外部に送信しているか否かを判定してもよい。尚、ステップS101の判定を行わずにステップS102の処理を開始するケースも、実施形態にかかる収音制御方法には含まれ得る。
【0033】
次に、制御部130の音声取得部131は、指向性マイクロフォン10または指向性を有しないマイクロフォンで収音された音声信号を取得する(ステップS102)。次に、制御部130の音声解析部132は、ステップS102で取得した音声信号から特徴データを抽出する(ステップS103)。次に、制御部130の判定部133は、ステップS103で抽出した特徴データが、登録者の音声信号の特徴データ111であるか否かを判定する(ステップS104)。ここで、判定部133は、記憶部110が記憶する特徴データ111を用いた認証を行ってもよく、機械学習により構築された識別器を用いた識別を行ってもよい。
【0034】
抽出された特徴が、登録者の音声信号の特徴ではない場合(ステップS104のNo)、制御部130は、ステップS107の終了判定処理に移行する。一方、抽出された特徴データが登録された人物の音声信号の特徴データと一致した場合(ステップS104のYes)、収音制御装置100は、指向性マイクロフォン10により収音される音声信号の到来方向を特定する(ステップS105)。
【0035】
次に、収音制御装置100は、指向性マイクロフォン10の指向性をステップS105で特定した到来方向に向けるように制御する(ステップS106)。ステップ102にて指向性を有しないマイクロフォンで音声を収音した場合、指向性マイクロフォン10の指向性を制御するとともに、指向性を有しないマイクロフォンでの収音を停止または抑制することが好ましい。その後、ステップS107の終了判定処理に移行する。尚、子供等の声が予め登録されている場合は、収音制御装置100の指向性制御部135は、指向性マイクロフォン10の指向性を、ステップS105で特定した方向と異なる方向に向ける。
【0036】
ステップS106が終了した後、制御部130は、ステップS107の終了判定処理に移行する。ステップS107では、収音制御装置100は、一連の処理を終了させるか否かを判断する。一連の処理を終了させると判断しない場合(ステップS107のNo)、収音制御装置100は、ステップS102に戻り、音声信号を取得し、さらに処理を続ける。一連の処理を終了させると判断した場合(ステップS107のYes)、収音制御装置100は、処理を終了させる。例えば、収音制御装置100は、アプリケーション112が起動していない場合、処理を終了させると判断してもよい。収音制御装置100は、通信部120が音声信号を外部に送信していない場合に、処理を終了させると判断してもよい。
【0037】
実施形態にかかる収音制御装置は、音声取得部131が取得した音声信号が登録者の音声信号である場合にはマイクロフォンの指向性を制御し、音声取得部131が取得した音声信号が登録者の音声信号でない場合にはマイクロフォンの指向性を制御しない。したがって、実施形態にかかる収音制御装置は、登録者の位置に応じて、指向性マイクロフォンの指向性を制御することができる。取得した音声が登録者の音声でない場合には指向性マイクロフォンの指向性を制御しないため、他の人物の音声の方向に、マイクロフォンの指向性を制御してしまうおそれはない。
【0038】
例えば、在宅勤務で遠隔会議に参加する場合、参加者の位置する方向に指向性マイクロフォンを向けて収音を行うため、参加者の発声以外の音声を電気的に処理することによる不自然さが無い、自然な音声でありながら参加者の発声を適切に収音し、参加者とは異なる方向から到来する子供の声や生活音、外来ノイズなどの収音を抑制することが可能となる。
【0039】
上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体は、例えば、磁気記録媒体、光磁気記録媒体、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリを含む。磁気記録媒体は、例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブなどである。光磁気記録媒体は、例えば光磁気ディスクなどである。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)などである。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0040】
上述の実施形態にかかる収音制御装置は、車両に搭載されてもよく、例えば、ドライブレコーダ、カーナビゲーション装置に組み込まれてもよい。これにより、登録された人物が車両内のどの座席に座っている場合であっても、当該人物の方向に指向性マイクロフォンを向けることが可能となる。したがって、ノイズ等の影響が大きい車両内部であっても、当該人物の明瞭な音声を収音することが可能となる。また音声による制御が可能な家庭用電気機器や電子機器に搭載されてもよい。
【符号の説明】
【0041】
10 指向性マイクロフォン
100 収音制御装置
110 記憶部
111 特徴データ
112 アプリケーション
120 通信部
130 制御部
131 音声取得部
132 音声解析部
133 判定部
134 特定部
135 指向性制御部
136 遠隔会議制御部
N ネットワーク
図1
図2