特開2024-19641 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-19641チャネル選択装置、チャネル選択方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024019641

(43)【公開日】2024-02-09

(54)【発明の名称】チャネル選択装置、チャネル選択方法、およびプログラム

(51)【国際特許分類】

G10L 15/28 20130101AFI20240202BHJP

G10L 15/10 20060101ALI20240202BHJP

G10L 15/20 20060101ALI20240202BHJP

【ＦＩ】

G10L15/28 400

G10L15/10 200W

G10L15/20 353

【審査請求】有

【請求項の数】3

【出願形態】ＯＬ

(21)【出願番号】P 2023214653

(22)【出願日】2023-12-20

(62)【分割の表示】P 2022027611の分割

【原出願日】2018-09-11

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】小林和則

(72)【発明者】

【氏名】齊藤翔一郎

(72)【発明者】

【氏名】伊藤弘章

(57)【要約】

【課題】複数チャネルの音響信号からキーワードの発音が含まれるチャネルを選択する。
【解決手段】キーワード検出部１２は、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成する。パワー計算部１３は、入力音声信号から各チャネルのパワーを計算する。遅延部１４は、各チャネルのパワーを遅延させる。最大パワー検出部１５は、キーワード検出結果がキーワードを検出したことを示すとき、入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。チャネル選択部１６は、入力音声信号から出力チャネルの音声信号を選択して出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択装置であって、
複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、
上記入力音声信号から各チャネルのパワーを取得するパワー計算部と、
上記キーワード検出結果がキーワードを検出したことを示すとき、上記入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する最大パワー検出部と、
を含むチャネル選択装置。

【請求項2】

部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択方法であって、
キーワード検出部が、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成し、
パワー計算部が、上記入力音声信号から各チャネルのパワーを取得し、
最大パワー検出部が、上記キーワード検出結果がキーワードを検出したことを示すとき、上記入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する、
チャネル選択方法。

【請求項3】

請求項１に記載のチャネル選択装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを選択する技術に関する。

【背景技術】

【0002】

例えばスマートスピーカや車載システムなどの、音声による制御が可能な機器では、トリガとなるキーワードが発音された際に音声認識を開始するキーワードウェイクアップと呼ばれる機能が搭載されていることがある。このような機能では、音声信号を入力とし、キーワードの発音を検出する技術が必要となる。

【0003】

図１は、非特許文献１に開示されている従来技術の構成である。従来技術では、キーワード検出部９１が入力された音声信号からキーワードの発音を検出すると、目的音出力部９９がスイッチをオンにして、当該音声信号を音声認識等の対象とする目的音として出力する。入力音声が複数チャネルである場合、図１に示すようにキーワード検出部９１と目的音出力部９９との組をチャネル数だけ用意すれば、複数チャネルの中からキーワードが含まれるチャネルを選択することができる。例えば、部屋に設置された複数のマイクロホンで集音された音響信号を入力として上記の処理を実施すれば、どのマイクロホンの近くでキーワードが発音されたのかを知ることができ、発話位置の特定やキーワードをトリガとした音声認識を行うことができる。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Sensory,Inc.、“TrulyHandsfreeTM”、［online］、［平成30年8月17日検索］、インターネット<URL: http://www.sensory.co.jp/product/thf.htm>

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、チャネル数分のキーワード検出処理が必要となり、演算量が膨大となってしまう。また、同一の部屋に設置された複数のマイクロホンなどの場合、同じキーワード発話が複数のマイクロホンに集音され、複数チャネルにキーワードが含まれる場合が想定される。この場合、最もキーワード発話位置に近いマイクロホンを選択すべきであるが、従来技術では、キーワードの発音を検出した複数のチャネルがすべて選択されてしまう。

【0006】

この発明の目的は、上述のような技術的課題を鑑みて、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを少ない演算量で適切に選択することである。

【課題を解決するための手段】

【0007】

上記の課題を解決するために、この発明の第一の態様のチャネル選択装置は、部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択装置であって、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、入力音声信号から各チャネルのパワーを取得するパワー計算部と、キーワード検出結果がキーワードを検出したことを示すとき、入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する最大パワー検出部と、を含む。

【発明の効果】

【0008】

この発明によれば、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを少ない演算量で適切に選択することができる。

【図面の簡単な説明】

【0009】

【図1】図１は従来のキーワード検出装置の機能構成を例示する図である。

【図2】図２は第一実施形態のチャネル選択装置の機能構成を例示する図である。

【図3】図３は第一実施形態のチャネル選択方法の処理手順を例示する図である。

【図4】図４は第一実施形態の原理を説明するための図である。

【図5】図５は第二実施形態のチャネル選択装置の機能構成を例示する図である。

【図6】図６は第二実施形態のチャネル選択方法の処理手順を例示する図である。

【図7】図７は第三実施形態の原理を説明するための図である。

【図8】図８は第三実施形態のチャネル選択装置の機能構成を例示する図である。

【図9】図９は第四実施形態のチャネル選択装置の機能構成を例示する図である。

【発明を実施するための形態】

【0010】

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【0011】

［第一実施形態］
第一実施形態のチャネル選択装置１は、複数チャネルの音声信号（以下、「入力音声信号」と呼ぶ）を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置１は、図２に示すように、加算部１１、キーワード検出部１２、Ｍ個のパワー計算部１３－１，…，１３－Ｍ、Ｍ個の遅延部１４－１，…，１４－Ｍ、最大パワー検出部１５、およびチャネル選択部１６を備える。ただし、Ｍは入力音声信号のチャネル数であり、２以上の整数である。このチャネル選択装置１が、図３に示す各ステップの処理を行うことにより第一実施形態のチャネル選択方法Ｓ１が実現される。

【0012】

チャネル選択装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。チャネル選択装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。チャネル選択装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。チャネル選択装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

【0013】

以下、図３を参照して、第一実施形態のチャネル選択装置が実行するチャネル選択方法について説明する。

【0014】

ステップＳ１１において、加算部１１は、入力されたＭチャネルの音声信号（以下、「入力音声信号」と呼ぶ）の全チャネルを加算して、１チャネルの音声信号（以下、「合成音声信号」と呼ぶ）を生成する。加算部１１は、合成音声信号をキーワード検出部１２へ出力する。

【0015】

ステップＳ１２において、キーワード検出部１２は、加算部１１の出力する合成音声信号を入力とし、合成音声信号からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、例えば短時間の周期で求めたパワースペクトルのパターンが、事前に収録したキーワードのパターンと類似しているか否かを、事前に学習されたニューラルネットワークを用いて判定することで行う。キーワードの音声を用いる代わりに、口笛や手拍子などの音の出る行為であってもよい。キーワード検出部１２は、キーワードを検出したこと、または、キーワードを検出しなかったことを示すキーワード検出結果を最大パワー検出部１５へ出力する。

【0016】

ステップＳ１３において、パワー計算部１３－ｉ（ｉ＝１，…，Ｍ）は、入力音声信号のｉ番目のチャネル（以下、「チャネルｉ」と呼ぶ）のパワーを計算する。パワー計算部１３－ｉは、チャネルｉのパワーを遅延部１４－ｉへ出力する。パワーの計算は、平均的なキーワード発話時間Ｔの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。チャネルｉの離散時刻ｔのパワーをPi(t)とし、入力信号をxi(t)とすれば、

【0017】

【数1】

【0018】

となる。ただし、αは忘却係数であり、0<α<1の値をあらかじめ設定する。αは時定数が平均的なキーワード発話時間Ｔ（サンプル）となるように設定される。すなわち、α=1-1/Tである。もしくは、次式のように、キーワード発話時間Ｔの矩形窓をかけた絶対値平均パワーや、指数窓を乗算した絶対値平均パワーを計算してもよい。

【0019】

【数2】

【0020】

パワー計算部１３－ｉで計算されるパワーは、雑音レベルを差し引いたものでもよい。雑音レベルは、長時間の信号パワーの平均値や、ディップホールド値で求めることができる。計算したパワーPi(t)の底地を保持するディップホールド処理を行い、定常雑音パワーNi(t)を求める。この計算は、例えばパワー上昇時は長い時定数で平均処理を行い、パワー下降時は短い時定数で平均処理を行うことで実現できる。

【0021】

【数3】

【0022】

ただし、β<γであり、それぞれ０以上１以下の値をとる。

【0023】

雑音レベルの減算は周波数領域で行ってもよい。各周波数領域でパワーと雑音レベルを計算し、それぞれ減算することで、より正確に雑音の減算を行うことができる。

【0024】

ステップＳ１４において、遅延部１４－ｉ（ｉ＝１，…，Ｍ）は、パワー計算部１３－ｉが出力するチャネルｉのパワーを時間Ｄだけ遅延させる。時間Ｄはキーワード検出の検出遅延に相当する時間を設定する。遅延部１４－ｉは、遅延後のチャネルｉのパワーを最大パワー検出部１５へ出力する。

【0025】

ステップＳ１５において、最大パワー検出部１５は、キーワード検出部１２の出力するキーワード検出結果がキーワードを検出したことを示すとき、遅延部１４－１，…，１４－Ｍの出力する各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。最大パワー検出部１５は、選択した出力チャネルを示す情報をチャネル選択部１６へ出力する。

【0026】

ステップＳ１６において、チャネル選択部１６は、最大パワー検出部１５の出力する出力チャネルを示す情報に従って、入力音声信号から出力チャネルの音声信号を選択して、目的音として出力する。

【0027】

第一実施形態のチャネル選択装置１は、キーワード発話区間ではキーワードが含まれるチャネルの信号のパワーが最も大きくなるという仮説に基づいて、キーワード検出があった際に、そのキーワード発話区間に相当する部分（図４参照）のパワーを各チャネルで計算することで、キーワードの発話チャネルを推定している。

【0028】

このように構成することにより、第一実施形態によれば、１つのキーワード検出処理を用いて、複数のチャネルからキーワードの発話が含まれるチャネルを選択することができる。また、部屋の中に配置された複数のマイクロホン信号のように、複数のチャネルにキーワード発話の音声成分が含まれる場合には、最も信号レベルの大きなチャネルを選択することができる。

【0029】

［第二実施形態］
第一実施形態では、入力音声信号のすべてのチャネルを加算してからキーワード検出を行うため、キーワード発話があったチャネルの音声信号以外に、キーワード発話がないチャネルの音声信号が含まれる場合に、加算後の合成音声信号のＳＮ比が悪くなってしまい、キーワードの検出精度が下がってしまうことが想定される。第二実施形態では、３チャネル以上の音声信号が入力された際に、最初にＭチャネルの音声信号の中からパワーの大きいＫチャネルの音声信号を選択し、選択されたＫチャネルの音声信号それぞれにキーワード検出処理を行い、キーワード検出のあった音声信号の中で最もパワーの大きいチャネルを目的音として選択する。このように、まずパワー情報のみで候補チャネルを選定し、候補チャネルそれぞれをキーワード検出することで、加算によるＳＮ比の低下を回避しつつ、キーワード検出処理の数を減らすことができる。

【0030】

第二実施形態のチャネル選択装置２は、３チャネル以上の音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置２は、図５に示すように、第一実施形態のパワー計算部１３－１，…，１３－Ｍ、遅延部１４－１，…，１４－Ｍ、最大パワー検出部１５、およびチャネル選択部１６に加えて、Ｋ個のキーワード検出部１２－１，…，１２－Ｋ、Ｍ個の遅延部２１－１，…，２１－Ｍ、候補選択部２２、候補チャネル選択部２３をさらに備える。ただし、Ｋは１以上Ｍ未満の整数である。このチャネル選択装置２が、図６に示す各ステップの処理を行うことにより第二実施形態のチャネル選択方法Ｓ２が実現される。

【0031】

以下、図６を参照して、第二実施形態のチャネル選択装置が実行するチャネル選択方法について、第一実施形態のチャネル選択方法との相違点を中心に説明する。

【0032】

ステップＳ２１において、遅延部２１－ｉ（ｉ＝１，…，Ｍ）は、入力音声信号のチャネルｉの音声信号を遅延させる。これはパワー計算部１３－ｉと候補選択部２２の処理による選択遅延によりキーワードの話頭が欠けてしまうことを防止するために行う遅延であり、数百ミリ秒程度の遅延を与える。遅延部２１－ｉは、遅延後のチャネルｉの音声信号を候補チャネル選択部２３へ出力する。

【0033】

ステップＳ２２において、候補選択部２２は、パワー計算部１３－１，…，１３－Ｍの出力する各チャネルのパワーに基づいて、入力音声信号のＭチャネルのうちパワーの大きいＫチャネルを候補チャネルとして選択する。候補選択部２２は、選択した候補チャネルを示す情報を候補チャネル選択部２３へ出力する。

【0034】

ステップＳ２３において、候補チャネル選択部２３は、候補選択部２２の出力する候補チャネルを示す情報に従って、遅延部２１－ｉの出力する遅延後の入力音声信号から候補チャネルの音声信号を選択する。候補チャネル選択部２３は、ｊ（ｊ＝１，…，Ｋ）番目の候補チャネル（以下、「候補チャネルｊ」と呼ぶ）の音声信号をキーワード検出部１２－ｊへ出力する。

【0035】

ステップＳ１２において、キーワード検出部１２－ｊは、候補チャネル選択部２３の出力する候補チャネルｊの音声信号を入力とし、その音声信号からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、第一実施形態と同様に行えばよい。キーワード検出部１２－ｊは、キーワード検出結果を最大パワー検出部１５へ出力する。

【0036】

ステップＳ１５において、最大パワー検出部１５は、キーワード検出部１２－ｊの出力するキーワード検出結果がキーワードを検出したことを示すとき、キーワードを検出したことを示した候補チャネルｊに対応する遅延部１４－１，…，１４－Ｍの出力のうち最大のパワーを有するチャネルを出力チャネルとして選択する。最大パワー検出部１５は、選択した出力チャネルを示す情報をチャネル選択部１６へ出力する。

【0037】

このように構成することにより、第二実施形態によれば、入力音声信号の各チャネルの音声信号を加算することによるＳＮ比の低下を招くことなく、複数のチャネルからキーワードの発話が含まれるチャネルを選択することができる。

【0038】

［第三実施形態］
第一実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが最も大きくなるという仮定をしていた。しかしながら、この仮定は常に満たされるわけではない。第三実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが大きいという仮定に加えて、キーワードの発話の前に発話者は言葉を発していないという仮定を設ける。キーワードの発話は常に発話文の先頭にあると考えられるので、キーワード発話の手前には一定時間以上の発話のない区間が存在すると考えられる（図７参照）。第三実施形態では、この点に着目して、キーワード発話の手前の区間のパワーが小さいチャネルに対して検出しやすくなる重みを与えてから、最大パワーのチャネル検出を行う。

【0039】

第三実施形態のチャネル選択装置３は、第一実施形態と同様に、複数チャネルの音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置３は、図８に示すように、第一実施形態の加算部１１、キーワード検出部１２、パワー計算部１３－１，…，１３－Ｍ、遅延部１４－１，…，１４－Ｍ、およびチャネル選択部１６に加えて、Ｍ個のパワー計算部３１－１，…，３１－Ｍ、Ｍ個の遅延部３２－１，…，３２－Ｍ、Ｍ個の重み計算部３３－１，…，３３－Ｍ、および重み付最大パワー検出部３４をさらに備える。

【0040】

以下、第三実施形態のチャネル選択装置が実行するチャネル選択方法について、第一実施形態のチャネル選択方法との相違点を中心に説明する。

【0041】

パワー計算部３１－ｉ（ｉ＝１，…，Ｍ）は、入力音声信号のチャネルｉのパワーを計算する。パワー計算部３１－ｉは、チャネルｉのパワーを遅延部３２－ｉへ出力する。パワーの計算は、事前に設定したキーワード発話前に存在すると想定される無音区間の長さＡの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。パワー計算の詳細な手順は、第一実施形態と同様である。想定される無音区間の長さＡには、例えば１秒間をあらかじめ設定する。

【0042】

遅延部３２－ｉ（ｉ＝１，…，Ｍ）は、パワー計算部３１－ｉが出力するチャネルｉのパワーを遅延させる。遅延量は、キーワード検出の検出遅延時間相当Ｄと平均的なキーワード発話時間Ｔとマージン時間Ｂとを加算した値である（図７参照）。遅延部３２－ｉは、遅延後のチャネルｉのパワーを重み計算部３３－ｉへ出力する。

【0043】

重み計算部３３－ｉ（ｉ＝１，…，Ｍ）は、遅延部１４－ｉの出力と遅延部３２－ｉの出力から重みを計算する。遅延部１４－ｉの出力と遅延部３２－ｉの出力は、それぞれ、図７に示すキーワード発話の区間の平均パワーPi(t)と、キーワード発話前の無音が想定される区間の平均パワーQi(t)である。キーワード発話であればPi(t)>Qi(t)の関係となると想定される。よって、Pi(t)がQi(t)よりも大きくなるほど値が大きくなるように重みを設定する。例えば、Pi(t)とQi(t)の比Zi(t)=Pi(t)/Qi(t)を求め、これに単調増加の関数fを与えて、Wi(t)=f(Pi(t)/Qi(t))を計算し、重みWi(t)を計算する。ただし、関数fはシグモイド関数などである。

【0044】

重み付最大パワー検出部３４は、チャネルｉごとに、遅延部１４－ｉが出力するパワーPi(t)に重み計算部３３－ｉで計算された重みWi(t)を乗算し、乗算後の重み付パワーのうち最大のパワーを持つチャネルを出力チャネルとして選択する。

【0045】

その他の処理に関しては、上述の第一実施形態で説明した内容と同様である。

【0046】

第三実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが大きいという仮定と、キーワードの発話の前に発話者は言葉を発していないという仮定との２つの仮定に基づいて、キーワード発話の含まれるチャネルを判定することにより、より正確な判定を行うことができる。

【0047】

［第四実施形態］
第四実施形態は、第二実施形態のチャネル選択装置において、第三実施形態と同様に、キーワード発話の手前の区間のパワーが小さいチャネルに対して検出しやすくなる重みを与えてから、最大パワーのチャネル検出を行うように構成したものである。

【0048】

第四実施形態のチャネル選択装置４は、第二実施形態と同様に、３チャネル以上の音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置４は、図９に示すように、第二実施形態のキーワード検出部１２－１，…，１２－Ｋ、パワー計算部１３－１，…，１３－Ｍ、遅延部１４－１，…，１４－Ｍ、チャネル選択部１６、遅延部２１－１，…，２１－Ｍ、および候補チャネル選択部２３と、第三実施形態のパワー計算部３１－１，…，３１－Ｍ、遅延部３２－１，…，３２－Ｍ、重み計算部３３－１，…，３３－Ｍ、および重み付最大パワー検出部３４とに加えて、重み付候補選択部４１およびＭ個の遅延部４２－１，…，４２－Ｍをさらに備える。

【0049】

以下、第四実施形態のチャネル選択装置が実行するチャネル選択方法について、第四実施形態のチャネル選択方法との相違点を中心に説明する。

【0050】

重み付候補選択部４１は、チャネルｉごとに、パワー計算部１３－ｉが出力するパワーPi(t)に重み計算部３３－ｉで計算された重みWi(t)を乗算し、乗算後の重み付パワーの大きいＫチャネルを候補チャネルとして選択する。重み付候補選択部４１は、選択した候補チャネルを示す情報を候補チャネル選択部２３へ出力する。

【0051】

遅延部４２－ｉ（ｉ＝１，…，Ｍ）は、重み計算部３３－ｉが出力する重みWi(t)を時間Ｄだけ遅延させる。時間Ｄはキーワード検出の検出遅延に相当する時間を設定する。遅延部４２－ｉは、遅延後の重みWi(t)を重み付最大パワー検出部３４へ出力する。

【0052】

重み付最大パワー検出部３４は、チャネルｉごとに、遅延部１４－ｉが出力するパワーPi(t)に遅延部４２－ｉが出力する重みWi(t)を乗算し、各チャネルの重み付パワーを計算する。重み付最大パワー検出部３４は、キーワード検出部１２－ｊの出力するキーワード検出結果がキーワードを検出したことを示すとき、キーワードを検出したことを示した候補チャネルｊの重み付パワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。

【0053】

その他の処理に関しては、上述の各実施形態で説明した内容と同様である。

【0054】

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

【0055】

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

【0056】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

【0057】

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0058】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0059】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【符号の説明】

【0060】

１，２，３，４チャネル選択装置
９キーワード検出装置
１１加算部
１２、９１キーワード検出部
１３、３１パワー計算部
１４、２１、３２、４２遅延部
１５最大パワー検出部
１６チャネル選択部
２２候補選択部
２３候補チャネル選択部
３３重み計算部
３４重み付最大パワー検出部
４１重み付候補選択部
９９目的音出力部

【図1】