IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-19641チャネル選択装置、チャネル選択方法、およびプログラム
<>
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図1
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図2
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図3
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図4
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図5
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図6
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図7
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図8
  • 特開-チャネル選択装置、チャネル選択方法、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024019641
(43)【公開日】2024-02-09
(54)【発明の名称】チャネル選択装置、チャネル選択方法、およびプログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20240202BHJP
   G10L 15/10 20060101ALI20240202BHJP
   G10L 15/20 20060101ALI20240202BHJP
【FI】
G10L15/28 400
G10L15/10 200W
G10L15/20 353
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023214653
(22)【出願日】2023-12-20
(62)【分割の表示】P 2022027611の分割
【原出願日】2018-09-11
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小林 和則
(72)【発明者】
【氏名】齊藤 翔一郎
(72)【発明者】
【氏名】伊藤 弘章
(57)【要約】
【課題】複数チャネルの音響信号からキーワードの発音が含まれるチャネルを選択する。
【解決手段】キーワード検出部12は、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成する。パワー計算部13は、入力音声信号から各チャネルのパワーを計算する。遅延部14は、各チャネルのパワーを遅延させる。最大パワー検出部15は、キーワード検出結果がキーワードを検出したことを示すとき、入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。チャネル選択部16は、入力音声信号から出力チャネルの音声信号を選択して出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択装置であって、
複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、
上記入力音声信号から各チャネルのパワーを取得するパワー計算部と、
上記キーワード検出結果がキーワードを検出したことを示すとき、上記入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する最大パワー検出部と、
を含むチャネル選択装置。
【請求項2】
部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択方法であって、
キーワード検出部が、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成し、
パワー計算部が、上記入力音声信号から各チャネルのパワーを取得し、
最大パワー検出部が、上記キーワード検出結果がキーワードを検出したことを示すとき、上記入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する、
チャネル選択方法。
【請求項3】
請求項1に記載のチャネル選択装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを選択する技術に関する。
【背景技術】
【0002】
例えばスマートスピーカや車載システムなどの、音声による制御が可能な機器では、トリガとなるキーワードが発音された際に音声認識を開始するキーワードウェイクアップと呼ばれる機能が搭載されていることがある。このような機能では、音声信号を入力とし、キーワードの発音を検出する技術が必要となる。
【0003】
図1は、非特許文献1に開示されている従来技術の構成である。従来技術では、キーワード検出部91が入力された音声信号からキーワードの発音を検出すると、目的音出力部99がスイッチをオンにして、当該音声信号を音声認識等の対象とする目的音として出力する。入力音声が複数チャネルである場合、図1に示すようにキーワード検出部91と目的音出力部99との組をチャネル数だけ用意すれば、複数チャネルの中からキーワードが含まれるチャネルを選択することができる。例えば、部屋に設置された複数のマイクロホンで集音された音響信号を入力として上記の処理を実施すれば、どのマイクロホンの近くでキーワードが発音されたのかを知ることができ、発話位置の特定やキーワードをトリガとした音声認識を行うことができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Sensory,Inc.、“TrulyHandsfreeTM”、[online]、[平成30年8月17日検索]、インターネット<URL: http://www.sensory.co.jp/product/thf.htm>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、チャネル数分のキーワード検出処理が必要となり、演算量が膨大となってしまう。また、同一の部屋に設置された複数のマイクロホンなどの場合、同じキーワード発話が複数のマイクロホンに集音され、複数チャネルにキーワードが含まれる場合が想定される。この場合、最もキーワード発話位置に近いマイクロホンを選択すべきであるが、従来技術では、キーワードの発音を検出した複数のチャネルがすべて選択されてしまう。
【0006】
この発明の目的は、上述のような技術的課題を鑑みて、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを少ない演算量で適切に選択することである。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、この発明の第一の態様のチャネル選択装置は、部屋に設置された複数のマイクロホンにより集音された音声信号のそれぞれに、所定のユーザにより発せられた所定のキーワードが含まれているときに、前記キーワードが検出された複数のチャネルがすべて選択されてしまうことがないように制御を行うための音声を集音するマイクロホンを選択するチャネル選択装置であって、複数チャネルの入力音声信号から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、入力音声信号から各チャネルのパワーを取得するパワー計算部と、キーワード検出結果がキーワードを検出したことを示すとき、入力音声信号の各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する最大パワー検出部と、を含む。
【発明の効果】
【0008】
この発明によれば、複数チャネルの音響信号からキーワードの発音が含まれるチャネルを少ない演算量で適切に選択することができる。
【図面の簡単な説明】
【0009】
図1図1は従来のキーワード検出装置の機能構成を例示する図である。
図2図2は第一実施形態のチャネル選択装置の機能構成を例示する図である。
図3図3は第一実施形態のチャネル選択方法の処理手順を例示する図である。
図4図4は第一実施形態の原理を説明するための図である。
図5図5は第二実施形態のチャネル選択装置の機能構成を例示する図である。
図6図6は第二実施形態のチャネル選択方法の処理手順を例示する図である。
図7図7は第三実施形態の原理を説明するための図である。
図8図8は第三実施形態のチャネル選択装置の機能構成を例示する図である。
図9図9は第四実施形態のチャネル選択装置の機能構成を例示する図である。
【発明を実施するための形態】
【0010】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0011】
[第一実施形態]
第一実施形態のチャネル選択装置1は、複数チャネルの音声信号(以下、「入力音声信号」と呼ぶ)を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置1は、図2に示すように、加算部11、キーワード検出部12、M個のパワー計算部13-1,…,13-M、M個の遅延部14-1,…,14-M、最大パワー検出部15、およびチャネル選択部16を備える。ただし、Mは入力音声信号のチャネル数であり、2以上の整数である。このチャネル選択装置1が、図3に示す各ステップの処理を行うことにより第一実施形態のチャネル選択方法S1が実現される。
【0012】
チャネル選択装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。チャネル選択装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。チャネル選択装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。チャネル選択装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
【0013】
以下、図3を参照して、第一実施形態のチャネル選択装置が実行するチャネル選択方法について説明する。
【0014】
ステップS11において、加算部11は、入力されたMチャネルの音声信号(以下、「入力音声信号」と呼ぶ)の全チャネルを加算して、1チャネルの音声信号(以下、「合成音声信号」と呼ぶ)を生成する。加算部11は、合成音声信号をキーワード検出部12へ出力する。
【0015】
ステップS12において、キーワード検出部12は、加算部11の出力する合成音声信号を入力とし、合成音声信号からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、例えば短時間の周期で求めたパワースペクトルのパターンが、事前に収録したキーワードのパターンと類似しているか否かを、事前に学習されたニューラルネットワークを用いて判定することで行う。キーワードの音声を用いる代わりに、口笛や手拍子などの音の出る行為であってもよい。キーワード検出部12は、キーワードを検出したこと、または、キーワードを検出しなかったことを示すキーワード検出結果を最大パワー検出部15へ出力する。
【0016】
ステップS13において、パワー計算部13-i(i=1,…,M)は、入力音声信号のi番目のチャネル(以下、「チャネルi」と呼ぶ)のパワーを計算する。パワー計算部13-iは、チャネルiのパワーを遅延部14-iへ出力する。パワーの計算は、平均的なキーワード発話時間Tの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。チャネルiの離散時刻tのパワーをPi(t)とし、入力信号をxi(t)とすれば、
【0017】
【数1】
【0018】
となる。ただし、αは忘却係数であり、0<α<1の値をあらかじめ設定する。αは時定数が平均的なキーワード発話時間T(サンプル)となるように設定される。すなわち、α=1-1/Tである。もしくは、次式のように、キーワード発話時間Tの矩形窓をかけた絶対値平均パワーや、指数窓を乗算した絶対値平均パワーを計算してもよい。
【0019】
【数2】
【0020】
パワー計算部13-iで計算されるパワーは、雑音レベルを差し引いたものでもよい。雑音レベルは、長時間の信号パワーの平均値や、ディップホールド値で求めることができる。計算したパワーPi(t)の底地を保持するディップホールド処理を行い、定常雑音パワーNi(t)を求める。この計算は、例えばパワー上昇時は長い時定数で平均処理を行い、パワー下降時は短い時定数で平均処理を行うことで実現できる。
【0021】
【数3】
【0022】
ただし、β<γであり、それぞれ0以上1以下の値をとる。
【0023】
雑音レベルの減算は周波数領域で行ってもよい。各周波数領域でパワーと雑音レベルを計算し、それぞれ減算することで、より正確に雑音の減算を行うことができる。
【0024】
ステップS14において、遅延部14-i(i=1,…,M)は、パワー計算部13-iが出力するチャネルiのパワーを時間Dだけ遅延させる。時間Dはキーワード検出の検出遅延に相当する時間を設定する。遅延部14-iは、遅延後のチャネルiのパワーを最大パワー検出部15へ出力する。
【0025】
ステップS15において、最大パワー検出部15は、キーワード検出部12の出力するキーワード検出結果がキーワードを検出したことを示すとき、遅延部14-1,…,14-Mの出力する各チャネルのパワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。最大パワー検出部15は、選択した出力チャネルを示す情報をチャネル選択部16へ出力する。
【0026】
ステップS16において、チャネル選択部16は、最大パワー検出部15の出力する出力チャネルを示す情報に従って、入力音声信号から出力チャネルの音声信号を選択して、目的音として出力する。
【0027】
第一実施形態のチャネル選択装置1は、キーワード発話区間ではキーワードが含まれるチャネルの信号のパワーが最も大きくなるという仮説に基づいて、キーワード検出があった際に、そのキーワード発話区間に相当する部分(図4参照)のパワーを各チャネルで計算することで、キーワードの発話チャネルを推定している。
【0028】
このように構成することにより、第一実施形態によれば、1つのキーワード検出処理を用いて、複数のチャネルからキーワードの発話が含まれるチャネルを選択することができる。また、部屋の中に配置された複数のマイクロホン信号のように、複数のチャネルにキーワード発話の音声成分が含まれる場合には、最も信号レベルの大きなチャネルを選択することができる。
【0029】
[第二実施形態]
第一実施形態では、入力音声信号のすべてのチャネルを加算してからキーワード検出を行うため、キーワード発話があったチャネルの音声信号以外に、キーワード発話がないチャネルの音声信号が含まれる場合に、加算後の合成音声信号のSN比が悪くなってしまい、キーワードの検出精度が下がってしまうことが想定される。第二実施形態では、3チャネル以上の音声信号が入力された際に、最初にMチャネルの音声信号の中からパワーの大きいKチャネルの音声信号を選択し、選択されたKチャネルの音声信号それぞれにキーワード検出処理を行い、キーワード検出のあった音声信号の中で最もパワーの大きいチャネルを目的音として選択する。このように、まずパワー情報のみで候補チャネルを選定し、候補チャネルそれぞれをキーワード検出することで、加算によるSN比の低下を回避しつつ、キーワード検出処理の数を減らすことができる。
【0030】
第二実施形態のチャネル選択装置2は、3チャネル以上の音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置2は、図5に示すように、第一実施形態のパワー計算部13-1,…,13-M、遅延部14-1,…,14-M、最大パワー検出部15、およびチャネル選択部16に加えて、K個のキーワード検出部12-1,…,12-K、M個の遅延部21-1,…,21-M、候補選択部22、候補チャネル選択部23をさらに備える。ただし、Kは1以上M未満の整数である。このチャネル選択装置2が、図6に示す各ステップの処理を行うことにより第二実施形態のチャネル選択方法S2が実現される。
【0031】
以下、図6を参照して、第二実施形態のチャネル選択装置が実行するチャネル選択方法について、第一実施形態のチャネル選択方法との相違点を中心に説明する。
【0032】
ステップS21において、遅延部21-i(i=1,…,M)は、入力音声信号のチャネルiの音声信号を遅延させる。これはパワー計算部13-iと候補選択部22の処理による選択遅延によりキーワードの話頭が欠けてしまうことを防止するために行う遅延であり、数百ミリ秒程度の遅延を与える。遅延部21-iは、遅延後のチャネルiの音声信号を候補チャネル選択部23へ出力する。
【0033】
ステップS22において、候補選択部22は、パワー計算部13-1,…,13-Mの出力する各チャネルのパワーに基づいて、入力音声信号のMチャネルのうちパワーの大きいKチャネルを候補チャネルとして選択する。候補選択部22は、選択した候補チャネルを示す情報を候補チャネル選択部23へ出力する。
【0034】
ステップS23において、候補チャネル選択部23は、候補選択部22の出力する候補チャネルを示す情報に従って、遅延部21-iの出力する遅延後の入力音声信号から候補チャネルの音声信号を選択する。候補チャネル選択部23は、j(j=1,…,K)番目の候補チャネル(以下、「候補チャネルj」と呼ぶ)の音声信号をキーワード検出部12-jへ出力する。
【0035】
ステップS12において、キーワード検出部12-jは、候補チャネル選択部23の出力する候補チャネルjの音声信号を入力とし、その音声信号からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、第一実施形態と同様に行えばよい。キーワード検出部12-jは、キーワード検出結果を最大パワー検出部15へ出力する。
【0036】
ステップS15において、最大パワー検出部15は、キーワード検出部12-jの出力するキーワード検出結果がキーワードを検出したことを示すとき、キーワードを検出したことを示した候補チャネルjに対応する遅延部14-1,…,14-Mの出力のうち最大のパワーを有するチャネルを出力チャネルとして選択する。最大パワー検出部15は、選択した出力チャネルを示す情報をチャネル選択部16へ出力する。
【0037】
このように構成することにより、第二実施形態によれば、入力音声信号の各チャネルの音声信号を加算することによるSN比の低下を招くことなく、複数のチャネルからキーワードの発話が含まれるチャネルを選択することができる。
【0038】
[第三実施形態]
第一実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが最も大きくなるという仮定をしていた。しかしながら、この仮定は常に満たされるわけではない。第三実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが大きいという仮定に加えて、キーワードの発話の前に発話者は言葉を発していないという仮定を設ける。キーワードの発話は常に発話文の先頭にあると考えられるので、キーワード発話の手前には一定時間以上の発話のない区間が存在すると考えられる(図7参照)。第三実施形態では、この点に着目して、キーワード発話の手前の区間のパワーが小さいチャネルに対して検出しやすくなる重みを与えてから、最大パワーのチャネル検出を行う。
【0039】
第三実施形態のチャネル選択装置3は、第一実施形態と同様に、複数チャネルの音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置3は、図8に示すように、第一実施形態の加算部11、キーワード検出部12、パワー計算部13-1,…,13-M、遅延部14-1,…,14-M、およびチャネル選択部16に加えて、M個のパワー計算部31-1,…,31-M、M個の遅延部32-1,…,32-M、M個の重み計算部33-1,…,33-M、および重み付最大パワー検出部34をさらに備える。
【0040】
以下、第三実施形態のチャネル選択装置が実行するチャネル選択方法について、第一実施形態のチャネル選択方法との相違点を中心に説明する。
【0041】
パワー計算部31-i(i=1,…,M)は、入力音声信号のチャネルiのパワーを計算する。パワー計算部31-iは、チャネルiのパワーを遅延部32-iへ出力する。パワーの計算は、事前に設定したキーワード発話前に存在すると想定される無音区間の長さAの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。パワー計算の詳細な手順は、第一実施形態と同様である。想定される無音区間の長さAには、例えば1秒間をあらかじめ設定する。
【0042】
遅延部32-i(i=1,…,M)は、パワー計算部31-iが出力するチャネルiのパワーを遅延させる。遅延量は、キーワード検出の検出遅延時間相当Dと平均的なキーワード発話時間Tとマージン時間Bとを加算した値である(図7参照)。遅延部32-iは、遅延後のチャネルiのパワーを重み計算部33-iへ出力する。
【0043】
重み計算部33-i(i=1,…,M)は、遅延部14-iの出力と遅延部32-iの出力から重みを計算する。遅延部14-iの出力と遅延部32-iの出力は、それぞれ、図7に示すキーワード発話の区間の平均パワーPi(t)と、キーワード発話前の無音が想定される区間の平均パワーQi(t)である。キーワード発話であればPi(t)>Qi(t)の関係となると想定される。よって、Pi(t)がQi(t)よりも大きくなるほど値が大きくなるように重みを設定する。例えば、Pi(t)とQi(t)の比Zi(t)=Pi(t)/Qi(t)を求め、これに単調増加の関数fを与えて、Wi(t)=f(Pi(t)/Qi(t))を計算し、重みWi(t)を計算する。ただし、関数fはシグモイド関数などである。
【0044】
重み付最大パワー検出部34は、チャネルiごとに、遅延部14-iが出力するパワーPi(t)に重み計算部33-iで計算された重みWi(t)を乗算し、乗算後の重み付パワーのうち最大のパワーを持つチャネルを出力チャネルとして選択する。
【0045】
その他の処理に関しては、上述の第一実施形態で説明した内容と同様である。
【0046】
第三実施形態では、キーワード発話区間ではキーワードの発音が含まれるチャネルのパワーが大きいという仮定と、キーワードの発話の前に発話者は言葉を発していないという仮定との2つの仮定に基づいて、キーワード発話の含まれるチャネルを判定することにより、より正確な判定を行うことができる。
【0047】
[第四実施形態]
第四実施形態は、第二実施形態のチャネル選択装置において、第三実施形態と同様に、キーワード発話の手前の区間のパワーが小さいチャネルに対して検出しやすくなる重みを与えてから、最大パワーのチャネル検出を行うように構成したものである。
【0048】
第四実施形態のチャネル選択装置4は、第二実施形態と同様に、3チャネル以上の音声信号を入力とし、キーワードの発音が検出されたチャネルのうち音声認識等の対象とする目的音に適したチャネルの音声信号を選択して出力する。チャネル選択装置4は、図9に示すように、第二実施形態のキーワード検出部12-1,…,12-K、パワー計算部13-1,…,13-M、遅延部14-1,…,14-M、チャネル選択部16、遅延部21-1,…,21-M、および候補チャネル選択部23と、第三実施形態のパワー計算部31-1,…,31-M、遅延部32-1,…,32-M、重み計算部33-1,…,33-M、および重み付最大パワー検出部34とに加えて、重み付候補選択部41およびM個の遅延部42-1,…,42-Mをさらに備える。
【0049】
以下、第四実施形態のチャネル選択装置が実行するチャネル選択方法について、第四実施形態のチャネル選択方法との相違点を中心に説明する。
【0050】
重み付候補選択部41は、チャネルiごとに、パワー計算部13-iが出力するパワーPi(t)に重み計算部33-iで計算された重みWi(t)を乗算し、乗算後の重み付パワーの大きいKチャネルを候補チャネルとして選択する。重み付候補選択部41は、選択した候補チャネルを示す情報を候補チャネル選択部23へ出力する。
【0051】
遅延部42-i(i=1,…,M)は、重み計算部33-iが出力する重みWi(t)を時間Dだけ遅延させる。時間Dはキーワード検出の検出遅延に相当する時間を設定する。遅延部42-iは、遅延後の重みWi(t)を重み付最大パワー検出部34へ出力する。
【0052】
重み付最大パワー検出部34は、チャネルiごとに、遅延部14-iが出力するパワーPi(t)に遅延部42-iが出力する重みWi(t)を乗算し、各チャネルの重み付パワーを計算する。重み付最大パワー検出部34は、キーワード検出部12-jの出力するキーワード検出結果がキーワードを検出したことを示すとき、キーワードを検出したことを示した候補チャネルjの重み付パワーのうち最大のパワーを有するチャネルを出力チャネルとして選択する。
【0053】
その他の処理に関しては、上述の各実施形態で説明した内容と同様である。
【0054】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0055】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0056】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0057】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0058】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0059】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0060】
1,2,3,4 チャネル選択装置
9 キーワード検出装置
11 加算部
12、91 キーワード検出部
13、31 パワー計算部
14、21、32、42 遅延部
15 最大パワー検出部
16 チャネル選択部
22 候補選択部
23 候補チャネル選択部
33 重み計算部
34 重み付最大パワー検出部
41 重み付候補選択部
99 目的音出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9