特許5957798 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許5957798裏声検出装置および歌唱評価装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16a
16b
16c
16d
16e
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5957798

(24)【登録日】2016年7月1日

(45)【発行日】2016年7月27日

(54)【発明の名称】裏声検出装置および歌唱評価装置

(51)【国際特許分類】

G10K 15/04 20060101AFI20160714BHJP

G10L 25/51 20130101ALI20160714BHJP

G10L 15/10 20060101ALI20160714BHJP

【ＦＩ】

G10K15/04 302D

G10L25/51 100

G10L15/10 500Z

【請求項の数】3

【全頁数】20

(21)【出願番号】特願2011-58386(P2011-58386)

(22)【出願日】2011年3月16日

(65)【公開番号】特開2012-194389(P2012-194389A)

(43)【公開日】2012年10月11日

【審査請求日】2014年1月22日

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000752

【氏名又は名称】特許業務法人朝日特許事務所

(72)【発明者】

【氏名】成山隆一

(72)【発明者】

【氏名】神谷伸悟

【審査官】 ▲吉▼澤雅博

(56)【参考文献】

【文献】特開２００８−０２６６２２（ＪＰ，Ａ）

【文献】特開平１１−３３８４８０（ＪＰ，Ａ）

【文献】特開２００７−３１０２０４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｋ１５／０４

Ｇ１０Ｌ１５／１０

Ｇ１０Ｌ２５／５１

(57)【特許請求の範囲】

【請求項1】

歌唱者が歌唱したときの音声を表す音声データを取得する音声データ取得手段と、
基音の周波数に対する倍音の周波数の比率を倍音比率とし、前記音声データ取得手段によって取得された音声データに基づき、当該音声データが表す音声における前記倍音比率及び当該音声の音高を算出する算出手段と、
倍音比率を表す第１軸と音高を表す第２軸とで構成される座標系において、前記算出手段が算出した各々の倍音比率及び音高に対応する座標に、当該倍音比率及び当該音高の組をそれぞれ割り当てる割り当て手段と、
前記割り当て手段により複数の前記組が割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた前記組に対応する部分の歌唱の音声を表す音声データを、裏声を表す音声データとして検出する裏声検出手段とを備え、
前記裏声検出手段は、
前記座標系において移動させられるフィルタであって、プラスの重み付けを持つ領域であるプラス領域とマイナスの重み付けを持つ領域であるマイナス領域とを有するフィルタと、
前記座標系において予め定められた第１の基準値よりも倍音比率が低く且つ予め定められた第２の基準値よりも音高が高い範囲内で前記フィルタが移動させられるたびに、当該フィルタの前記マイナス領域に含まれる前記組の数にマイナスの重み付けを行って得たマイナスの算出値と、前記プラス領域に含まれる前記組の数にプラスの重み付けを行って得たプラスの算出値とを加算する加算手段とを備え、
前記加算手段の加算結果に基づき、裏声を表す音声データを検出する
ことを特徴とする裏声検出装置。

【請求項2】

歌唱者が歌唱したときの音声を表す音声データを取得する音声データ取得手段と、
基音の周波数に対する倍音の周波数の比率を倍音比率とし、前記音声データ取得手段によって取得された音声データに基づき、当該音声データが表す音声における前記倍音比率及び当該音声の音高を算出する算出手段と、
倍音比率を表す第１軸と音高を表す第２軸とで構成される座標系において、前記算出手段が算出した各々の倍音比率及び音高に対応する座標に、当該倍音比率及び当該音高の組をそれぞれ割り当てる割り当て手段と、
前記割り当て手段により複数の前記組が割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた前記組に対応する部分の歌唱の音声を表す音声データを、裏声を表す音声データとして検出する裏声検出手段とを備え、
前記裏声検出手段は、
前記第１軸におけるそれぞれの倍音比率ごとの前記組に含まれる音高の分布において、予め決められた基準値音高において極大点が現れているときの倍音比率の範囲から、前記組に対応する音声データを、裏声を表す音声データとして検出する
ことを特徴とする裏声検出装置。

【請求項3】

請求項１又は２に記載の裏声検出装置と、
歌唱対象となる楽曲を構成する各構成音を表す参照音声データであって、当該各構成音のうち裏声で発音する構成音に裏声フラグが付されている参照音声データを取得する参照音声データ取得手段と、
前記裏声検出装置の音声データ取得手段によって取得される音声データが表す各音声と、前記参照音声データ取得手段によって取得される参照音声データが表す各構成音とをそれぞれ対応させ、対応するものどうしを比較した結果に応じて、前記歌唱者による歌唱を評価する評価手段であって、前記裏声フラグが付されている参照音声データに、前記裏声検出装置の裏声検出手段によって検出された裏声を表す音声データが対応している場合には、前記裏声を表す音声データが対応していない場合に比べて高い評価を行う評価手段と
を備えることを特徴とする歌唱評価装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、歌唱者が歌唱した音声から裏声を検出する技術に関する。

【背景技術】

【0002】

カラオケ装置においては、歌唱者による歌唱の巧拙を採点する機能を備えるものがある。この採点にあたって、カラオケ装置は、歌唱者による歌唱の音声を録音し、録音した音声を分析して特徴を検出することで、この分析結果と評価の基準とを照らし合わせて点数を算出する。

【0003】

ところで、歌唱時には裏声と呼ばれるものが使われることがある。裏声とは、喚声点を越えて、いわゆる裏返った状態の声のことである。楽曲によっては、歌唱の際に裏声を駆使するものもあるから、裏声による歌唱の巧拙を採点に反映させることができれば、より採点の精度を向上させることが可能となる。例えば特許文献１には、歌唱者の歌唱におけるファルセット（裏声）を検出する方法が開示されている。この特許文献１に記載の技術では、裏声に含まれる高調波成分の割合が地声に比べて極端に小さくなることに注目し、歌唱者による歌唱の音声におけるスペクトル特性が、予め決められた状態へと急激に遷移した際に、歌唱の音声を裏声として認識している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００７−３１０２０４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ただし、地声と裏声とを比較したときに、それぞれに高調波成分が含まれる割合がどのような関係になるかは歌唱者によって様々である。すなわち、歌唱者の裏声とは、その歌唱者の地声との関係で決まるものであり、全ての歌唱者に対して固定的に決められるものではない。特許文献１に記載の技術では、高調波成分の割合が小さい状態となるものを予め決めておき、これをどの歌唱者に対しても裏声認識の共通の基準として用いているから、歌唱者によっては、裏声で歌唱したとしてもそのスペクトル特性が予め定められた状態に該当せず、裏声が検出されない可能性がある。このように、実際には歌唱者が裏声で歌唱を行ったのに裏声として検出されないときがあると、カラオケ装置において裏声による歌唱の巧拙を上手く採点できず、その採点の結果は利用者にとっては不満感が大きなものとなることがある。

【0006】

本発明は上述の背景に鑑みてなされたものであり、歌唱者による歌唱の音声から裏声を検出する際に検出漏れを少なくすることを目的とする。

【課題を解決するための手段】

【0007】

上述の課題を解決するため、本発明は、歌唱者が歌唱したときの音声を表す音声データを取得する音声データ取得手段と、基音の周波数に対する倍音の周波数の比率を倍音比率とし、前記音声データ取得手段によって取得された音声データに基づき、当該音声データが表す音声における前記倍音比率及び当該音声の音高を算出する算出手段と、倍音比率を表す第１軸と音高を表す第２軸とで構成される座標系において、前記算出手段が算出した各々の倍音比率及び音高に対応する座標に、当該倍音比率及び当該音高の組をそれぞれ割り当てる割り当て手段と、前記割り当て手段により複数の前記組が割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた前記組に対応する部分の歌唱の音声を表す音声データを、裏声を表す音声データとして検出する裏声検出手段とを備え、前記裏声検出手段は、前記座標系において移動させられるフィルタであって、プラスの重み付けを持つ領域であるプラス領域とマイナスの重み付けを持つ領域であるマイナス領域とを有するフィルタと、前記座標系において予め定められた第１の基準値よりも倍音比率が低く且つ予め定められた第２の基準値よりも音高が高い範囲内で前記フィルタが移動させられるたびに、当該フィルタの前記マイナス領域に含まれる前記組の数にマイナスの重み付けを行って得たマイナスの算出値と、前記プラス領域に含まれる前記組の数にプラスの重み付けを行って得たプラスの算出値とを加算する加算手段とを備え、前記加算手段の加算結果に基づき、裏声を表す音声データを検出することを特徴とする裏声検出装置を提供する。
また、本発明は、歌唱者が歌唱したときの音声を表す音声データを取得する音声データ取得手段と、基音の周波数に対する倍音の周波数の比率を倍音比率とし、前記音声データ取得手段によって取得された音声データに基づき、当該音声データが表す音声における前記倍音比率及び当該音声の音高を算出する算出手段と、倍音比率を表す第１軸と音高を表す第２軸とで構成される座標系において、前記算出手段が算出した各々の倍音比率及び音高に対応する座標に、当該倍音比率及び当該音高の組をそれぞれ割り当てる割り当て手段と、前記割り当て手段により複数の前記組が割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた前記組に対応する部分の歌唱の音声を表す音声データを、裏声を表す音声データとして検出する裏声検出手段とを備え、前記裏声検出手段は、前記第１軸におけるそれぞれの倍音比率ごとの前記組に含まれる音高の分布において、予め決められた基準値音高において極大点が現れているときの倍音比率の範囲から、前記組に対応する音声データを、裏声を表す音声データとして検出することを特徴とする裏声検出装置を提供する。

【0010】

また、本発明は、上記裏声検出装置と、歌唱対象となる楽曲を構成する各構成音を表す参照音声データであって、当該各構成音のうち裏声で発音する構成音に裏声フラグが付されている参照音声データを取得する参照音声データ取得手段と、前記裏声検出装置の音声データ取得手段によって取得される音声データが表す各音声と、前記参照音声データ取得手段によって取得される参照音声データが表す各構成音とをそれぞれ対応させ、対応するものどうしを比較した結果に応じて、前記歌唱者による歌唱を評価する評価手段であって、前記裏声フラグが付されている参照音声データに前記裏声検出装置の裏声検出手段によって検出された裏声を表す音声データが対応している場合には、前記裏声を表す音声データが対応していない場合に比べて高い評価を行う評価手段とを備えることを特徴とする歌唱評価装置としても提供し得る。

【発明の効果】

【0011】

本発明によれば、歌唱者による歌唱の音声から裏声を検出する際に検出漏れを少なくすることが可能となる。

【図面の簡単な説明】

【0012】

【図1】カラオケ装置のハードウェア構成を表すブロック図

【図2】裏声検出処理が行われる際の処理フロー図

【図3】倍音比率の計算式を説明するための図

【図4】地声と裏声に基づく音声情報データの分布表を表す図

【図5】図４における音声分布表に適用するフィルタを表した図

【図6】地声と裏声に基づく音声情報データの分布表にフィルタを適用した図

【図7】検出した裏声とガイドメロディとの対応関係を表した図

【図8】判定結果を表す図

【図9】制御部の機能的構成を表すブロック図

【図10】変形例２に係る地声と裏声に基づく音声情報データの分布表を表す図

【図11】変形例２に係る地声と裏声に基づく音声情報データの分布表を表す図

【図12】変形例３に係る音声分布表に適用するフィルタを表した図

【図13】変形例３に係る音声分布表に適用するフィルタを表した図

【図14】変形例４に係る裏声検出処理が行われる際の処理フロー図

【図15】変形例４に係る分布個数取得基準線を表す図

【図16a】変形例４に係る音声情報データの分布を表す図

【図16b】変形例４に係る音声情報データの分布を表す図

【図16c】変形例４に係る音声情報データの分布を表す図

【図16d】変形例４に係る音声情報データの分布を表す図

【図16e】変形例４に係る音声情報データの分布を表す図

【図17】変形例４に係る裏声の領域を決定する処理を説明する図

【発明を実施するための形態】

【0013】

以下、本発明の一実施形態について説明する。
＜実施形態＞
＜構成＞
図１は、カラオケ装置１００のハードウェア構成を表したブロック図である。
カラオケ装置１００は、ユーザの歌唱に対して採点を行うものであり、特にユーザの歌唱において裏声で歌われた箇所を検出してそれを採点対象に含めて採点を行う。このカラオケ装置１００においては、採点の方式に減点方式を採用している。ここで減点方式とは、あるカラオケ楽曲についてユーザが歌唱を開始した時点では満点から始まり（１００点満点であれば１００点）、ユーザによる歌唱が評価基準を満たさないときに減点が行われる、という方式である。図１に示すように、カラオケ装置１００は、制御部１０、記憶部２０、操作部３０、表示部４０、通信制御部５０、音声処理部６０、マイクロホン６１、及びスピーカ６２を有し、これら各部がバス７０を介して接続されている。制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を有している。制御部１０において、ＣＰＵが、ＲＯＭや記憶部２０に記憶されているコンピュータプログラムを読み出しＲＡＭにロードして実行することにより、カラオケ装置１００の各部を制御する。制御部１０は、時間を計測する計時機能を備えている。

【0014】

操作部３０は、各種の操作子を備え、ユーザによる操作内容を表す操作信号を制御部１０に出力する。表示部４０は、例えば液晶パネルを備え、制御部１０による制御の下、各カラオケ楽曲に応じた歌詞テロップや背景映像等を表示する。通信制御部５０は、ネットワーク（非図示）を介した、カラオケ装置１００と図示しないサーバ装置との間のデータ通信を制御する。

【0015】

マイクロホン６１は、収音した音声を表すアナログの音声信号を音声処理部６０に出力する。音声処理部６０は、Ａ／Ｄ（Analog / Digital）コンバータを有し、マイクロホン６１が出力したアナログの音声信号をデジタルの音声データに変換して制御部１０に出力すると、制御部１０は、これを取得する。このように、制御部１０はユーザ（歌唱者）が歌唱したときの音声を表す音声データを取得する音声取得手段として機能する。また、音声処理部６０は、Ｄ／Ａ（Digital / Analog）コンバータを有し、制御部１０から受け取ったデジタルの音声データをアナログの音声信号に変換してスピーカ６２に出力する。スピーカ６２は、音声処理部６０から受け取ったアナログの音声信号に基づく音を放音する。記憶部２０は、各種のデータを記憶するための記憶手段であり、例えばＨＤＤや不揮発性メモリである。記憶部２０は、伴奏データ記憶領域２１、映像データ記憶領域２２、ＧＭ（Guide Melody）データ記憶領域２３、及びユーザ歌唱音声データ記憶領域２４といった複数の記憶領域を備えている。

【0016】

伴奏データ記憶領域２１には、各楽曲における伴奏の音声を表す伴奏データに関する情報が記憶されている。伴奏データ記憶領域２１には、楽曲を一意に識別するための番号である「曲番号」、各楽曲の名称を表す「曲名」、各楽曲の歌い手の名称を表す「歌手名」、各楽曲の伴奏データそのものであるデータファイルの格納場所である「ファイル格納場所」といった複数の項目からなる伴奏データレコードが複数記憶されている。この伴奏データのデータファイルは、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式のファイルである。

【0017】

映像データ記憶領域２２には、上述の曲番号、各楽曲の歌詞を示す歌詞データ及び歌詞の背景に表示される背景映像を表す背景映像データが対応付けられて記憶されている。歌詞データによって示される歌詞は、カラオケ歌唱の際に、楽曲の進行に伴って歌詞テロップとして表示部４０に表示される。また、背景映像データによって表される背景映像は、カラオケ歌唱の際に楽曲の進行に伴って歌詞テロップの背景として表示部４０に表示される。ＧＭデータ記憶領域２３には、上述の曲番号及び楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音（ノート）の内容を指定するデータであるガイドメロディデータ（以下、ＧＭデータという）が対応付けられて記憶されている。ＧＭデータは、制御部１０がユーザによる歌唱の巧拙を評価する際に比較の基準となるものである。ＧＭデータには、各ノートについて、裏声で歌われるべきか否かを示す裏声フラグが付されている。例えば、「ＡＡＡ」という楽曲において、歌手本人が、或るノートを裏声で歌っている場合、ＧＭデータにおいて、このノートについては裏声フラグが「ＯＮ」の状態で付されている。一方、歌手本人が地声で歌っているノートについては、ＧＭデータにおいて、このノートについては裏声フラグが「ＯＦＦ」の状態で付されている。ＧＭデータは、例えば、ＭＩＤＩ形式により記述されている。ここで地声とは、普段平素で話すときの声のことである。地声で歌われた歌唱の音声には、倍音が豊富に含まれている（つまり、周波数において高調波成分が多い）。一方、裏声とは、地声から裏返った（喚声点を越えた）声のことである。裏声で歌われた歌唱の音声は、地声と比較して高調波成分が少ない一方、ピッチ（音高）が高い。

【0018】

ユーザ歌唱音声データ記憶領域２４には、カラオケの対象となった各楽曲について、その伴奏データが再生されている期間中マイクロホン６１によって収音されたユーザの歌唱音声が音声処理部６０でデジタルデータに変換されることで生成された音声データが記憶される。この音声データをユーザ歌唱音声データという。このユーザ歌唱音声データは、例えば、ＷＡＶＥ（RIFF waveform Audio Format）形式のデータファイルとして記憶される。各楽曲についてのユーザ歌唱音声データは、制御部１０によって、その楽曲のＧＭデータに対応付けられる。

【0019】

＜動作＞
次に、図２〜図６を用いて、制御部１０による裏声の検出方法について説明を行う。
図２は、裏声検出処理が行われる際の処理フロー図である。操作部３０を介してユーザにより楽曲が予約されると（ステップＳ１００；Ｙｅｓ）、制御部１０は、記憶部２０から予約された楽曲の検索を行う（ステップＳ１０２）。具体的にはステップＳ１０２において、制御部１０は、伴奏データ記憶領域２１、映像データ記憶領域２２、及びＧＭデータ記憶領域２３の各々から、選択された楽曲の曲番号をキーにして、その楽曲に関するデータを検索し、検索結果のデータをＲＡＭに読み込む。ステップＳ１０２の次に、制御部１０は、ＲＡＭに記憶された伴奏データ、映像データ、及びＧＭデータに基づいて、楽曲の再生を行う（ステップＳ１０４）。具体的にはステップＳ１０４において、制御部１０は、伴奏データ及びＧＭデータに基づく音声をスピーカ６２から放音させるとともに、映像データに基づく映像を表示部４０に表示させる。そして制御部１０は、この楽曲の再生期間中に、マイク６１によって収音されたユーザの歌唱音声が音声処理部６０によってデジタルのデータに変換されたものであるユーザ歌唱音声データを、ユーザ歌唱音声データ記憶領域２４に記憶させる（ステップＳ１０６）。

【0020】

次に制御部１０は、ユーザ歌唱音声データから、倍音成分の比率を表す倍音比率なるものを算出する（ステップＳ１０８）。まず、基本的な語句について説明を行ってから、倍音比率の説明に入る。「基本周波数」とは、或るノートの音声に基づく信号が正弦波の合成で表されたときの、最も低い周波数成分の周波数を意味する。また、このノートの音高とされる成分を「基音」という。「倍音」とは、基音の周波数に対して、２以上の整数倍の周波数を持つ音の成分のことである。以上のことから、縦軸は周波数成分が持つパワーを表し、横軸は周波数を表す２軸の座標系を考えたときに、以下のように倍音比率を捉えることができる。「基本周波数のパワー」を、「基本周波数のピークを中心とし、幅がピークの開始からピークの終了までの周波数の幅に相当する、基本周波数の周波数成分が持つパワーの面積」とし、「倍音の周波数のパワー」を、「基本周波数の２〜ｎ倍の周波数のピークを中心とし、幅がピークの開始からピークの終了までの周波数の幅に相当する、倍音の周波数の周波数成分が持つパワーの面積の合計」と定義すると、倍音比率は、「倍音の周波数のパワー／基本周波数のパワー」で表される。別の表現をすれば、倍音比率は、基音の周波数に対する倍音の周波数の比率ということもできる。

【0021】

制御部１０が、裏声を検出するにあたって倍音比率を算出するのは、以下のような理由による。上述したように、裏声は、地声と比較して高調波成分が少ない一方、ピッチ（音高）は高い。従って、縦軸を倍音比率とし、横軸を音高とした２軸の座標系を考えたときに、裏声は、倍音比率が低く音高が高い領域により多く含まれると考えられる。このような理由から、制御部１０は、倍音比率を算出し、裏声の検出に用いているわけである。

【0022】

ステップＳ１０８において制御部１０は、ユーザ歌唱音声データにおける時間の経過に応じて、例えば１００ｍｓｅｃ（ミリ秒）といった予め定められたサンプリング周期でユーザ歌唱音声データから倍音比率を算出する。また、制御部１０は、内部に備えた計時機能により、倍音比率を上記サンプリング周期で算出した時点の、カラオケ楽曲の開始時からの経過時間を取得する。制御部１０は、この経過時間と、算出した倍音比率及びこの倍音比率を算出した時点のユーザ歌唱音声データの音高とを対応づけた組み合わせである音声情報データをＲＡＭに記憶させる（ステップＳ１１０）。ここで、音声情報データは、１つの経過時間と１つの倍音比率と１つの音高とからなる１組を１単位とする。倍音比率の算出はサンプリング周期単位で行われるから、結局、制御部１０のＲＡＭには、楽曲の再生期間中に含まれる全サンプリング数と同じ数の、複数の音声情報データが記憶されることになる。以降において、音声情報データの作成元である音声を発した（つまり歌唱を行った）ユーザを、音声情報データの持ち主とよぶ。また、音声を表すユーザ歌唱音声データから上記のような手順で生成した音声情報データを、音声に基づく音声情報データという。制御部１０は、上記サンプリング周期で上記処理を繰り返すことにより、楽曲再生の全期間のユーザ歌唱音声データについて、倍音比率を算出するとともに、音声情報データをＲＡＭに記憶させている。

【0023】

図３は、倍音比率の計算式を説明するための図である。図３において、縦軸は周波数成分が持つパワーを表し、図３中で下から上に進むほどパワーが高くなることを表している。また、横軸は周波数を表し、図５中で左から右に進むほど周波数が高くなることを表している。領域Ａ１は、基本周波数のピークを中心とした、基本周波数のピークを中心とし、幅がピークの開始からピークの終了までの周波数の幅に相当する、基本周波数の周波数成分が持つパワーの面積、すなわち上述した基本周波数のパワーを表す。また、領域Ａ２及び領域Ａ３は、基本周波数の２〜ｎ倍の周波数のピークを中心とし、幅がピークの開始からピークの終了までの周波数の幅に相当する、倍音の周波数の周波数成分が持つパワーの面積の合計、すなわち上述した倍音の周波数のパワーを表す。従って、上述したとおり、倍音比率は、「倍音の周波数のパワー／基本周波数のパワー」で表されるため、倍音比率の計算式は（ａ）のようなものとなる。
（ａ）倍音比率＝（Ａ２＋Ａ３＋・・・＋Ａｎ）／Ａ１

【0024】

ステップＳ１１０の次に、制御部１０は、ＲＡＭに記憶されている、上述した複数の音声情報データを、音声分布表に割り当てる（ステップＳ１１２）。ここで音声分布表とは、上述した、縦軸を倍音比率とし、横軸を音高とした２軸の座標系による表のことであり、ＲＡＭに記憶されている。図４は、地声と裏声の音声に基づく音声情報データの音声分布表の一例を表す図である。図４において、縦軸は図４中で下から上に進むほど倍音比率が高くなることを表している。また、横軸は図４中で左から右に進むほど音高が高くなることを表している。

【0025】

地声領域ａは、歌唱者の地声による歌唱の音声に基づく音声情報データが音声分布表に割り当てられたときの領域の一例である。つまり、音声分布表において、地声に相当する音声情報データに含まれる倍音比率及び音高に対応する箇所に点がプロットされたとき、その点の集合はこの地声領域ａに収まることになる。裏声領域ｂは、歌唱者の裏声による歌唱の音声に基づく音声情報データが音声分布表に割り当てられたときの領域の一例である。つまり、音声分布表において、裏声に相当する各音声情報データに含まれる倍音比率及び音高に対応する箇所に点がプロットされたとき、その点の集合はこの裏声領域ｂに収まることになる。地声領域ａと裏声領域ｂとを比較すると、地声領域ａは、音高については比較的低い方から中程度までの高さに分布しており、倍音比率については低い方から高い方まで満遍なく分布している一方、裏声領域ｂは、音高については中程度から比較的高い高さに分布しており、倍音比率については低い方から中程度まで分布している。音声分布表がこのようなものになっているのは、上述したように裏声は地声と比較して高調波成分が少なく音高が高い一方、地声は裏声と比較して音高が低く、また周波数に関しては裏声のような偏りがないからである。

【0026】

ステップＳ１１２において音声分布表に音声情報データが割り当てられると、図４に表されるように、地声領域ａと裏声領域ｂの２つの領域に音声情報データが分布する。しかし、この状態では、どの音声情報データが裏声に基づくものであるかを正確には検出できないため、制御部１０は、精度を高く音声情報データを検出できるように、以下のような処理を行う。ステップＳ１１２の次に制御部１０は、音声分布表に割り当てられた音声情報データ群に対してフィルタを用いてフィルタリングを施し、算出値なるものを算出していく（ステップＳ１１４）。

【0027】

図５は、図４における音声分布表に適用するフィルタＦを表した図であり、縦軸及び横軸の意味は図４と同じである。図５に表されるように、フィルタＦは矩形で構成された４つの領域の組み合わせからなる。フィルタＦにおいて、左上、右上、及び左下の領域Ｆａ、Ｆｂ、Ｆｃには、マイナスの重み付けが割り当てられ（マイナス領域という）、右下の領域Ｆｄには、プラスの重み付けが割り当てられている（プラス領域という）。図５に表されるように、マイナス領域は、プラス領域よりも倍音比率の高い側又は音高の低い側にある。制御部１０は、各領域に含まれる音声情報データの個数に、各領域に割り当てられた重み付けを乗算し、乗算した結果を合計した値を算出値とする。上述したように、裏声は、地声と比較して高調波成分が少ない一方、音高は高いから、音声分布表において右下の位置に音声情報データが分布している可能性が高い。そこで、制御部１０が、この領域に存在する音声情報データの個数にプラスの重み付けを乗算すれば、その裏声に対して高い算出値を得ることが可能となる。これが、フィルタＦにおいて、右下の領域Ｆｄのみがプラスの重み付けが為されている理由である。

【0028】

図６は、地声と裏声に基づく音声情報データの分布表にフィルタＦを適用した図である。図６において縦軸及び横軸の意味は図４と同じである。図４〜図６の内容を踏まえて、ステップＳ１１４における算出値の算出例を説明すると、以下のとおりである。制御部１０は、フィルタＦのマイナス領域に含まれる組の数にマイナスの重み付けを行って得たマイナスの算出値と、プラス領域に含まれる組の数にプラスの重み付けを行って得たプラスの算出値とを加算して、合計の算出値を算出する。例えば、フィルタＦの左上の領域Ｆａに「−２」の重み付けが割り当てられ、右上及び左下の領域Ｆｂ、Ｆｃに「−１」の重み付けが割り当てられるとともに、右下の領域Ｆｄに「＋３」の重み付けが割り当てられていたとする。ここで、左上の領域には「２個」、右上の領域には「２個」、左下の領域には「４個」、そして右下の領域には「１０個」の音声情報データが、各々含まれていたとする。このとき、制御部１０は、以下の式（ｂ）によって算出値を算出する。
（ｂ）（−２×２）＋（−１×２）＋（−１×４）＋（３×１０）＝２０

【0029】

図２に戻り、制御部１０は、算出した算出値が予め定められた閾値を超えない場合（ステップＳ１１６；Ｎｏ）、フィルタＦを移動させる（ステップＳ１１８）。そして制御部１０は、算出値の算出（ステップＳ１１４）とフィルタＦの移動（ステップＳ１１８）を、ステップＳ１１６でＹｅｓとなるまで繰り返す。ステップＳ１１６における上記閾値は、カラオケ装置１００の設計時において、不特定多数のユーザによる歌唱の音声から作成した複数の音声情報データを音声分布表に割り当てた結果から、より多くのユーザにとって裏声が検出可能となるように実験的に求めればよい。

【0030】

図６に戻り、制御部１０がフィルタＦを移動させる際の説明を行う。破線で表された矩形は、フィルタＦの移動可能な範囲ＭＲを表す。制御部１０は、ステップＳ１１８においてフィルタＦを移動させるにあたり、音高が低い領域と倍音比率が高い領域は、移動範囲ＭＲの対象外とする。具体的には、制御部１０は、全ての音声情報データを音声分布表に割り当てたときに、音声情報データに含まれる倍音比率の低い順に音声情報データの個数をカウントする。そして、このカウント値が音声情報データの総数に対して予め定められた割合に達したときに、制御部１０は、このときの音声情報データに含まれる倍音比率を移動範囲ＭＲにおける倍音比率方向への移動の上限（第１の基準値）とする。移動範囲ＭＲにおける音高方向への移動の下限は、音声情報データに含まれる倍音比率のうち、最も低い倍音比率となる。一方、移動範囲ＭＲにおける音高方向へのフィルタＦの移動の上限及び下限は、制御部１０によって以下のように決定される。つまり、制御部１０は、全ての音声情報データを音声分布表に割り当てたときに、音声情報データに含まれる音高の高い順に音声情報データの個数をカウントする。そして、このカウント値が音声情報データの総数に対して予め定められた割合に達したときに、制御部１０は、このときの音声情報データに含まれる音高を、移動範囲ＭＲにおける音高方向へのフィルタＦの移動の下限（第２の基準値）とする。移動範囲ＭＲにおける音高方向へのフィルタＦの移動の上限は、音声情報データに含まれる音高のうち、最も高い音高となる。つまり、制御部１０は、音声分布表において予め定められた第１の基準値よりも倍音比率が低く且つ予め定められた第２の基準値よりも音高が高い範囲内でフィルタを移動させる、ということもできる。

【0031】

移動範囲ＭＲをこのようにしている理由は、上述したように、音声分布表において音高が低い領域及び倍音比率が高い領域には、裏声に基づく音声情報データが割り当てられる可能性が小さいからである。なお、上記所定の割合は、カラオケ装置１００の設計時において、不特定多数のユーザによる歌唱の音声から作成した複数の音声情報データを音声分布表に割り当てた結果から、地声と裏声とを区別したうえで、裏声を評価するのに適していると考えられるものを実験的に求めればよく、制御部のＲＯＭに記憶されている。

【0032】

ここでステップＳ１１８におけるフィルタＦの移動は、次のようにすればよい。音声分布表において、フィルタＦの左上隅が倍音比率における或る値の高さに位置するときに、制御部１０が、横軸の正方向に予め定められた幅（例えば５０セント分）だけフィルタＦを移動させる毎に算出値を算出する。そして、移動範囲ＭＲの右端にフィルタＦの右端が接触したら、制御部１０は、フィルタＦの左端を移動範囲ＭＲの左端に位置させるとともに、倍音比率のマイナス方向に予め定められた幅（例えばパワーの一単位）分だけ移動させる。制御部１０は、フィルタＦについて、このような軌跡を描く移動を、算出値が閾値を超えるまで繰り返させる。

【0033】

制御部１０は、算出した算出値が予め定められた閾値を超えると（ステップＳ１１６；Ｙｅｓ）、フィルタＦの位置（検出位置という）を、算出値が閾値を超えた時点の位置で特定する（ステップＳ１２０）。フィルタＦを用いたフィルタリング処理で算出された算出値が予め定められた閾値を超えるということは、フィルタＦにおける領域の中でも唯一プラスの重み付けを持つ領域Ｆｄの中に、算出値が予め定められた閾値を超えるだけの、充分な数の音声情報データが存在する状態である、ということである。また、上述したように、裏声は、地声と比較して高調波成分が少ない一方、音高は高いから、音声分布表において右下の位置に音声情報データが分布している可能性が高い。従ってステップＳ１２０の次に制御部１０は、フィルタＦにおける、プラスの重み付けがなされた領域（すなわち右下の領域Ｆｄ）に含まれる音声情報データを、裏声に基づく音声情報データであると検出する（ステップＳ１２２）。換言すれば、制御部１０は、複数の倍音比率と音高との組である音声情報データが割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた音声情報データに対応するユーザ歌唱音声データを、裏声を表すユーザ歌唱音声データとして検出する。つまり、制御部１０は、このようにして検出したユーザ歌唱音声データは、それが例えば「かすれ声」や「ささやき声」であっても、全て裏声として検出する。換言すれば、本発明において「裏声」という用語の意味には、上記のようにして検出された音声が全て含まれる。

【0034】

ステップＳ１２２の次に、制御部１０は、裏声に基づく音声情報データとＧＭデータとの対応付けを行う（ステップＳ１２４）。具体的な対応付けの方法は、以下のようになる。上述したように音声情報データには、倍音比率と、上記倍音比率を算出した時点のユーザ歌唱音声データの音高と、上記倍音比率を予め定められたサンプリング周期で算出した時点の、カラオケ楽曲の開始時点からの経過時間とが対応付けて記憶されている。これを利用して制御部１０は、裏声に基づくものとして検出した音声情報データから上記経過時間を取得し、取得した経過時間に相当するタイミングのＧＭデータと対応付けを行う。

【0035】

図７は、検出した裏声とガイドメロディとの対応関係を模式的に表した図である。図７において、横軸は時間を表し、図７中で左から右に進むほど時間が経過することを表している。また、縦軸は音高を表し、図７中で下から上に進むほど音高が高くなることを表している。縦軸の１つの目盛りは２００セント（全音）の音高を意味している。つまり、例えば図５において、音高「Ａ４」に対応する目盛りに対して１目盛り分だけ上方に位置する目盛りは、「Ｂ４」の音高を表している。また、音高「Ａ４」に対応する目盛りに対して１目盛り分だけ下方に位置する目盛りは、「Ｇ３」の音高を表している。

【0036】

また、図７において領域ＧＭ１〜ＧＭ３及びＧＭ５〜ＧＭ７は、ＧＭデータに基づく音高を持つガイドメロディを表している。例えば、図７に示される期間においては、Ａ４の音高の音がＴ１の期間だけ続いた後に、Ｄ４の音高の音がＴ２の期間だけ続き、さらにその後Ｇ４の音高の音がＴ３の期間だけ続くと、Ｔ４の期間だけ無音の状態が続くといった具合である。なお、図７において格子状の模様で表されるガイドメロディＧＭ１，ＧＭ２及びＧＭ４は、地声で歌う設定（すなわち裏声フラグが「ＯＦＦ」）とされており、斜めの縞模様で表されるガイドメロディＧＭ３，ＧＭ６及びＧＭ７は、裏声で歌う設定（すなわち裏声フラグが「ＯＮ」）とされているもとのする。また、実線３００は、前述したユーザ歌唱音声データによって表される、ユーザによる歌唱時の音声の音高を表している。これを、以下、ユーザ歌唱音声曲線３００という。

【0037】

図２に戻り、ステップＳ１２４の次に、制御部１０は、裏声フラグが「ＯＮ」になっているＧＭデータにおいて、ユーザが裏声で歌ったかどうかを判別する（ステップＳ１２６）。例えば図７において、下方に音声分布表の抜粋が表示されており、裏声として検出された領域Ｆｄにおいて、各音声情報データに対応する点が黒丸で表されている。ここで、或る音声情報データｇに含まれる経過時間に相当するタイミングのガイドメロディは、ガイドメロディＧＭ３であるとする。また、音声情報データｈに含まれる経過時間に相当するタイミングのガイドメロディは、ガイドメロディＧＭ７であるとする。このような音声情報データとガイドメロディの対応付けは前述したようにステップＳ１２４でなされている。

【0038】

ガイドメロディＧＭ３は裏声フラグが「ＯＮ」になっているため、制御部１０は、ユーザが、裏声で歌うべきタイミングにおいて、裏声で歌唱したと判別する。一方、裏声フラグが「ＯＮ」であるガイドメロディＧＭ６については、裏声に基づく音声情報データが対応付けられていないから、制御部１０は、ガイドメロディＧＭ６のタイミングにおいては、ユーザは裏声で歌うべきタイミングにおいて、裏声で歌唱しなかったと判別する。制御部１０は、上記判別の結果を採点に用いることが可能である。例えばカラオケ装置１００は減点方式を採用しているため、上記の場合では、ガイドメロディＧＭ６のタイミングで制御部１０は、減点を行う。つまり、ユーザが、裏声で歌うべきタイミングにおいて裏声で歌唱した場合、制御部１０は、結果として、裏声で歌うべきタイミングにおいて裏声で歌唱しなかった場合と比較して高い評価を行うともいえる。制御部１０が用いる、減点に際しての評価結果の算出方法は、ユーザ歌唱音声を解析する手法としてＦＦＴ（Fast Fourier Transform）などを用いた周波数分析、音量分析などの公知の様々な手法を用いることで、予め定められた評価項目について評価結果を算出してもよいし、単純に、裏声フラグが「ＯＮ」のタイミングにおいて裏声で歌唱されなければ、予め定めたポイントだけ減点を行うようにしてもよい。

【0039】

ステップＳ１２６の次に、制御部１０は、判定結果を表示部４０に表示する（ステップＳ１２８）。図８は、判定結果を表す図である。図７の例で説明したように、裏声フラグが「ＯＮ」であるＴ３及びＴ７の期間においては、ユーザによる歌唱が裏声であったため、「○」の印が表示されている。一方、裏声フラグが「ＯＮ」であるＴ６の期間においては、ユーザによる歌唱が地声であったため、「△」の印が表示されている。制御部１０は、ユーザによる歌唱が終了した後に、採点結果と共に、このような裏声についての判定結果を表示部４０に表示する。

【0040】

図９は、制御部１０の機能的構成を表すブロック図である。図９に表されるように、制御部１０は、音声データ取得手段１１、算出手段１２、割り当て手段１３、及び裏声検出手段１４として機能する。また、裏声検出手段１４は、フィルタ１４１、フィルタ移動手段１４２及び加算手段１４３を備えている。算出手段１２は、ユーザ歌唱音声データが表す音声における倍音比率及び当該音声の音高を、歌唱における時間の経過に応じて周期的に算出する。割り当て手段１３は、倍音比率を表す第１軸と音高を表す第２軸とで構成される座標系において、算出手段１２が算出した各々の倍音比率及び音高に対応する座標に、当該倍音比率及び当該音高の組をそれぞれ割り当てる。裏声検出手段１４は、割り当て手段１３により複数の上記組が割り当てられた領域の中で、相対的に倍音比率が低く音高が高い一部の領域に割り当てられた上記組に対応する音声データを、裏声を表す音声データとして検出する。フィルタ１４１は、上記座標系に適用されるフィルタであって、プラスの重み付けを持つ領域であるプラス領域と、座標系においてプラス領域よりも倍音比率の高い側又はプラス領域よりも音高が低い側にあり、マイナスの重み付けを持つ領域であるマイナス領域とを有する。フィルタ移動手段１４２は、上記座標系において予め定められた第１の基準値よりも倍音比率が低く且つ予め定められた第２の基準値よりも音高が高い範囲内でフィルタを移動させる。加算手段１４３は、フィルタ移動手段によってフィルタが移動させられるたびに、フィルタのマイナス領域に含まれる上記組の数にマイナスの重み付けを行って得たマイナスの算出値と、プラス領域に含まれる上記組の数にプラスの重み付けを行って得たプラスの算出値とを加算する。

【0041】

このように、本発明によれば、歌唱者による歌唱の音声から裏声を検出する際に検出漏れを少なくすることが可能となる。また、本発明によれば、裏声を検出するために、予め用意したデータ群と比較するような方法を用いていないため、上記データ群を予め用意する必要がなく、ユーザによる歌唱の音声から作成された音声情報データのうち、裏声に基づいて作成された音声情報データが上記データ群に該当せずに、結果として検出すべき裏声を検出できないという不具合を奏することがない。さらに、本実施形態においては、上記２軸で構成される座標系に、各々についてプラス或いはマイナスの重み付けがなされた複数の領域で構成されるフィルタを用いてフィルタリング処理を行っている。このように、フィルタが、マイナスの重み付けを持つ領域とプラスの重み付けを持つ領域と領域から構成されるため、音声分布表において地声に基づく音声情報データはマイナスの算出値を得やすく、裏声に基づく音声情報データはプラスの算出値を得やすい。これにより、地声に基づく音声情報データと裏声に基づく音声情報データとが分離されやすく、裏声に基づく音声情報データが、誤って地声に基づく音声情報データとして認識されることによって検出から漏れることを少なくすることが可能となる。

【0042】

＜変形例＞
以上の実施形態は次のように変形可能である。尚、以下の変形例は適宜組み合わせて実施しても良い。

【0043】

＜変形例１＞
フィルタＦにおける各領域の矩形の幅についての設定は、実施形態において説明した内容で固定されるものではなく、制御部１０が設定を補正可能としてもよい。この補正の方法は、以下のようにすればよい。例えば、カラオケ装置１００において、操作部３０を介したカラオケ楽曲の予約とともに、どのユーザが歌唱するのかを入力可能とする。そして、例としてユーザ「Ａさん」の歌唱に基づくユーザ歌唱音声データから、制御部１０は音声情報データを作成する。ユーザ「Ａさん」がカラオケ歌唱の歌い手として入力された楽曲が再生される都度、制御部１０は音声情報データを作成する。

【0044】

このようにして制御部１０により、ユーザ「Ａさん」を音声情報データの持ち主とする音声情報データが複数回作成されていくと、「Ａさん」の音声情報データは、より正確なものに近づいていく。つまり、ユーザ「Ａさん」が、裏声で歌う箇所が少ない楽曲を１曲だけ歌唱した場合と比較して、裏声で歌う箇所がある程度存在する楽曲や、全編に渡って裏声で歌唱する（いわゆるファルセット）楽曲等に際して作成された音声情報データが蓄積されていくことで、音声情報データの個数が多くなる。一般的にデータの個数が多くなるほど、統計の結果は正確なものに近づいていくから、このようにして蓄積された音声情データは、よりユーザ「Ａさん」の声の特徴を表すものに近づいていくといえる。

【0045】

上述のようにして作成された音声情報データに基づいて、制御部１０は、フィルタＦにおける各領域における矩形の幅の設定を補正する。例えばフィルタＦにおける各領域の矩形の幅については、制御部１０が、図５中の実線で表される線分と線分との幅を、縮めたり拡げたりする補正を行う。この結果、図５において、４つの領域を構成する矩形の各々の大きさが変化することとなる。ここで制御部１０が補正する線分と線分との幅の補正は、上記蓄積された音声情報データに基づくものであって、より多くの個数の裏声に基づく音声情データが、プラスの重み付けが割り当てられた領域に含まれるようにすればよい。

【0046】

なお、制御部１０は、上述した設定の補正を、ユーザによるカラオケ歌唱の終了まで行い続ける。つまり、ユーザによるカラオケ歌唱が長時間に渡り、より多くの音声情報データが蓄積される都度、上述の設定は、よりユーザの声の特徴にあわせて精度の高いものとなっていく。このようにすれば、制御部１０は、よりユーザの声の特徴にあわせて精度の高い裏声検出が可能になるとともに、ユーザにとっても、自身の声の特徴にあわせた採点結果を知ることが可能になる。

【0047】

＜変形例２＞
制御部１０は、裏声を検出した結果を、ユーザによる歌唱の採点に用いることに限らず、次のようにしてもよい。例えば、図４においては、地声領域ａと裏声領域ｂが、音高方向において余り離れていない。これは、図４における音声情報データの持ち主は、地声と裏声との間に、声の出ない高さの音が少ないことを意味する。図１０及び図１１は、変形例２に係る地声と裏声に基づく音声情報データの分布表を表す図である。図１０では、図４と比較して明らかなように、地声領域ａ２と裏声領域ｂ２との間には、音高方向において一定の距離がある。これは、図１０における音声情報データの持ち主の歌唱においては、地声と裏声との間に声の出ない高さの音が一定量存在することを意味する。つまり、音高方向において、地声領域ａ２と裏声領域ｂ２との間の距離が短い程、その歌唱を行ったユーザは、音の高さについて、より広く且つ途切れが少ない音域で歌唱が可能であるといえる。

【0048】

一方、図１１では、図４と比較して明らかなように、地声領域ａ３と裏声領域ｂ３とにおいて、音高方向において重なる領域が存在する。これは、図１１における音声情報データの持ち主の歌唱においては、ユーザによって地声と裏声とを相互に使い分け可能な高さの音が一定量存在することを意味する。つまり、音高方向において、地声領域ａ３と裏声領域ｂ３との間の距離が負の値となる（地声領域ａ３と裏声領域ｂ３とが音高方向において重なる）程、その歌唱を行ったユーザは、地声と裏声を相互に使い分ける技量が高いといえる。

【0049】

上述の考え方に基づいて、制御部１０は、ステップＳ１２２において裏声を検出すると、地声と裏声とを使い分ける技量を判定し、この判定結果を表示部４０に表示してもよい。判定の方法としては、以下のようなものがある。制御部１０は、音声分布表において、地声領域ａにおける最も左端に位置する音声情報データの音高を、地声で歌唱可能な最も低い音高と認定する。また、制御部１０は、音声分布表において、地声領域ａにおける最も右端に位置する音声情報データの音高を、地声で歌唱可能な最も高い音高と認定する。また、制御部１０は、音声分布表において、裏声であると検出した領域（フィルタＦの検出位置におけるプラスの重み付けが割り当てられた領域）における最も左端に位置する音声情報データの音高を、裏声で歌唱可能な最も低い音高と認定する。また、制御部１０は、音声分布表において、裏声であると検出した領域における最も右端に位置する音声情報データの音高を、裏声で歌唱可能な最も高い音高と認定する。さらに制御部１０は、上記認定の結果が「地声で歌唱可能な最も高い音高＞裏声で歌唱可能な最も低い音高」である場合、この音声情報データの持ち主は、地声と裏声を使い分ける地声と裏声とを相互に使い分け可能な高さの音域で歌唱可能である、と判定する。

【0050】

制御部１０は、判定結果を表示部４０に表示させる。なお、表示の方法については、例えば制御部１０が、「あなたはＣ３〜Ｅ４まで地声が、Ｇ４〜Ａ５まで裏声が出ます。」や「あなたはＣ３〜Ａ４まで地声が、Ｇ４〜Ｃ５まで裏声が出ます。あなたはＧ４〜Ａ４までの音域について、地声と裏声を使い分けることが出来ます。」などといったメッセージを、表示部４０に表示させるようにしてもよい。あるいは制御部１０が、ユーザが歌唱可能な音域を、地声と裏声とでそれぞれ視認により区別可能な画像として表示部４０に表示させるようにしてもよい。このようにすれば、ユーザは、自らの歌唱について、地声と裏声のそれぞれで歌唱可能な音域や、地声と裏声とを相互に使い分け可能な音域を認識することが可能となる。これにより、複数のユーザがカラオケを行うときに、採点の結果として各々の歌唱音域を知ることが出来るという楽しみ方が可能となる。また、例えば歌唱の練習を一人で行いたいユーザは、都度の歌唱について、地声と裏声との歌唱可能な音域の違い及び使い分け可能な音域を判定結果から知ることができるので、判定結果を参考にして歌唱の練習を行うことも可能となる。

【0051】

＜変形例３＞
実施形態において、フィルタＦを、矩形で構成された４つの領域の組み合わせとしたが、フィルタＦの形状はこれに限ったものではない。図１２及び図１３は、変形例３に係る音声分布表に適用するフィルタを表した図である。図１２の例におけるフィルタＦ２では、音声分布表において、プラスの重み付けが割り当てられた領域が五角形の形状となっており、図６と比較すると、音高が低く倍音比率が高い領域が欠落している。また、プラスの重み付けが割り当てられた領域を覆うように、その外側にマイナスの重み付けが割り当てられた領域が設けられている。図１２において、マイナスの重み付けが割り当てられた領域は、３つに分割され、分割された各々の領域に重み付けが割り当てられることを表している。マイナスの重み付けが割り当てられた領域は分割されることなく、マイナスの重み付けが割り当てられた領域全体に一つの重み付けが割り当てられるようにしてもよい。フィルタＦ２の移動については、実施形態と同様の方法を用いればよい。この場合、フィルタＦ２の左上角に形成された斜めの線分の中点を、実施形態におけるフィルタＦの左上隅に置き換えればよい。

【0052】

図１３の例におけるフィルタＦ３では、音声分布表において、プラスの重み付けが割り当てられた領域は、右下、つまり音高が最も高く倍音比率が最も小さい頂点を直角とした三角形の形状となっている。また、プラスの重み付けが割り当てられた領域を覆うように、その外側にマイナスの重み付けが割り当てられた領域が設けられている。この場合、制御部１０は、フィルタＦ３を構成する三角形全体の重心を求めると、これをＲＡＭに記憶させる。あとは、この重心を、実施形態におけるフィルタＦの左上隅に置き換えてフィルタＦ３の移動を行えばよい。

【0053】

変形例３に係るフィルタＦ２，Ｆ３においても、プラスの重み付けを持つ領域とマイナスの重み付けを持つ領域とが存在する。要するに、２軸の座標系で表される音声分布表において、裏声に基づく音声情報データが割り当てられやすい範囲についてプラスの重み付けを持つ領域と、このプラスの重み付けを持つ領域を覆うようにして設けられ、マイナスの重み付けを持つ領域との２種類の領域でフィルタが構成されていればよい。このときマイナスの重み付けを持つ領域は、裏声に基づく音声情報データが分布する可能性が小さい範囲となるように配置されればよい。このように変形例３に係るフィルタを用いても、実施形態と同様の効果を奏することができる。

【0054】

＜変形例４＞
音声情報データ群から裏声を検出する方法は、実施形態のようにフィルタを用いる方法に限らない。図１４は、変形例４に係る裏声検出処理が行われる際の処理フロー図である。図１４において、ステップＳ１１２までは、制御部１０が行う処理は図２のものと同様である。ステップＳ１１２の次に、制御部１０は、音声分布表の音高方向において分布した音声情報データの個数（分布個数という）を取得するための基準の線である、分布個数取得基準線を倍音比率方向に移動させる（ステップＳ１１４ｂ）。そして制御部１０は、音高方向における音声情報データの個数の分布を表す音声情報データ個数分布線を生成する（ステップＳ１１６ｂ）。

【0055】

図１５は、変形例４に係る分布個数取得基準線を表す図である。図１５において、縦軸及び横軸は図４と同じである。破線で表された分布個数取得基準線Ｌ１〜Ｌ５は、分布個数取得基準線の一例である。また、図１６ａ〜図１６ｅは、変形例４において音声情報データの分布を表す図である。図１６ａ〜図１６ｅにおいて、縦軸は音声情報データの個数を表し、下から上に進むほど個数が多くなることを表している。また、横軸は音高を表し、図１６ａ〜図１６ｅ中で左から右に進むほど音高が高くなることを表している。図１６ａ〜図１６ｅにおける音声情報データ個数分布線Ｍ１〜Ｍ５は、図１５における分布個数取得基準線Ｌ１〜Ｌ５と各々対応している。すなわち、図１５における分布個数取得基準線Ｌ１に基づいて、音高方向における音声情報データの個数を表したものが、音声情報データ個数分布線Ｍ１である。

【0056】

図１４のステップＳ１１４ｂにおいて制御部１０は、分布個数取得基準線を倍音比率の低い方から高い方へ向けて予め定められた幅だけ（例えばパワーの一単位）移動させる。そしてステップＳ１１６ｂにおいて制御部１０は、都度の倍音比率の値に位置する分布個数取得基準線に応じて、分布個数、すなわち音声分布表の音高方向において分布した音声情報データの個数を取得すると、取得した音声情報データの個数に基づいて音声情報データ個数分布線を生成する。このように制御部１０は、音声分布表の倍音比率方向におけるそれぞれの倍音比率毎に、音声情報データに含まれる音高の分布を特定する分布特定手段として機能する。図１６ａに表されるように、分布個数取得基準線Ｌ１に応じた音声情報データ個数分布線Ｍ１は、１つのピークを持っている。このピークは図１５に表されるように、裏声に基づく音声情報データの個数を表したものである。また、音声情報データ個数分布線Ｍ２〜音声情報データ個数分布線Ｍ４は、２つのピークを持っている。これらのピークは図１５に表されるように、地声に基づく音声情報データの個数と裏声に基づく音声情報データの個数とを表したものである。さらに、分布個数取得基準線Ｌ５に応じた音声情報データ個数分布線Ｍ５は、１つのピークを持っている。このピークは図１５に表されるように、地声に基づく音声情報データの個数を表したものである。

【0057】

図１５及び図１６ａ〜図１６ｅからは、音声情報データ個数分布線におけるピークが、１つ（図１６ａにおける音高方向の右側）から２つになり、再び１つ（図１６ｅにおける音高方向の左側）になった時点で、制御部１０が、分布個数取得基準線に応じて、裏声に基づく音声情報データを取得しなくなったことを表すことが読み取れる。図１４のステップＳ１１６ｂの次に制御部１０は、音声情報データ個数分布線におけるピークが２つから１つになったかを判定する（ステップＳ１１８ｂ）。制御部１０は、ステップＳ１１８ｂでＮｏと判定する間、ステップＳ１１４ｂ及びステップＳ１１６ｂの処理を繰り返す。制御部１０は、音声情報データ個数分布線におけるピークが２つから１つになったと判定すると（ステップＳ１１８ｂ；Ｙｅｓ）、裏声に基づく音声情報データが存在する領域を決定する（ステップＳ１２０ｂ）。

【0058】

ステップＳ１２０ｂにおける上記決定の方法は、例えば以下のようなものである。まず、ステップＳ１１６ｂで制御部１０は、音声情報データ個数分布線の音高方向において、予め定められた基準よりも高い位置にピークが１つ初めて現れた際に、この音声情報データ個数分布線に応じた分布個数取得基準線の、倍音比率方向における値（第１の値とする）を、ＲＡＭに記憶させる。ここで、上記予め定められた基準は、カラオケ装置１００の設計時において、不特定多数のユーザによる歌唱の音声から作成した複数の音声情報データを音声分布表に割り当てた結果から、より多くのユーザにとって裏声が検出可能となるように実験的に求めればよい。そしてステップＳ１１８ｂにおいて、制御部１０は、直前の音声情報データ個数分布線に応じた分布個数取得基準線の倍音比率方向における値（第２の値とする）を、ＲＡＭに記憶させる。

【0059】

制御部１０は、このようにして求めた第１の値、第２の値及び上記音高方向における予め定められた基準とに基づいて、裏声に基づく音声情報データが存在する領域を決定する（ステップＳ１２０ｂ）。図１７は、変形例４に係る、裏声の領域を決定する処理を説明する図である。図１７において、縦軸は倍音比率を表し、図１７中で下から上に進むほど倍音比率が高くなることを表している。また、横軸は音高を表し、図１７中で左から右に進むほど音高が高くなることを表している。破線で表された分布個数取得基準線Ｌ１０１は、上記第１の値を倍音比率として持つ分布個数取得基準線であり、分布個数取得基準線Ｌ１０２は、上記第２の値を倍音比率として持つ分布個数取得基準線である。実線Ｓは、上記音高方向における予め定められた基準である（以降において音高基準Ｓという）。地声領域ａ４は、歌唱者の地声による歌唱の音声に基づく音声情報データが音声分布表に割り当てられたときの領域の一例である。裏声領域ｂ４は、歌唱者の裏声による歌唱の音声に基づく音声情報データが音声分布表に割り当てられたときの領域の一例である。

【0060】

図１７に表されるように、分布個数取得基準線Ｌ１０１、分布個数取得基準線Ｌ１０２及び音高基準Ｓに囲まれた領域に、裏声領域ｂ４が存在している。図１４のステップＳ１２０ｂにおいて制御部１０は、この分布個数取得基準線Ｌ１０１、分布個数取得基準線Ｌ１０２及び音高基準Ｓに囲まれた領域を、裏声に基づく音声情報データが存在する領域である、と決定する。そして制御部１０は、ステップＳ１２０ｂで決定した領域に含まれる音声情報データを、裏声に基づく音声情報データであると検出する（ステップＳ１２２ｂ）。換言すれば制御部１０は、倍音比率毎に特定された音高の分布に基づき、予め決められた基準値（音高基準Ｓ）以上の音高において分布の極大点が現れているときの倍音比率の範囲から、音声情報データに対応する音声データを、裏声を表す音声データとして検出する。以降の処理は、実施形態と同様である。このように、変形例４に係る方法でも、実施形態と同様の効果を奏することが可能である。また、変形例４では、音声分布表において倍音比率方向の値を変化させながら取得した、音高方向に分布した音声情報データの個数のピーク位置及び上記ピークの個数に基づいて、裏声を検出している。このように変形例４では、音声情報データの個数の分布におけるピークに基づく値で挟まれた、多くの音声情報データが含まれる領域を、裏声を検出する領域として決定しているため、裏声に基づく音声情報データを検出から漏らすことを少なくすることが可能となる。

【0061】

＜変形例５＞
本発明は、歌唱評価装置以外にも、これらを実現するための方法や、コンピュータに音声評価機能を実現させるためのプログラムとしても把握される。かかるプログラムは、これを記憶させた光ディスク等の記録媒体の形態で提供されたり、インターネット等を介して、コンピュータにダウンロードさせ、これをインストールして利用させるなどの形態でも提供されたりする。

【符号の説明】

【0062】

１０…制御部、２０…記憶部、２１…伴奏データ記憶領域、２２…映像データ記憶領域、２３…ＧＭデータ記憶領域、２４…ユーザ歌唱音声データ記憶領域、３０…操作部、４０…表示部、５０…通信制御部、６０…音声処理部、６１…マイクロホン、６２…スピーカ、７０…バス、１００…カラオケ装置、３００…ユーザ歌唱音声曲線、ａ〜ａ４…地声領域、ｂ〜ｂ４…裏声領域、ｇ，ｈ…音声情報データ、Ａ１…基本周波数のパワー、Ａ２，Ａ３…倍音の周波数のパワー、Ｆ〜Ｆ３…フィルタ、Ｆａ〜Ｆｄ…領域、ＧＭ１〜ＧＭ３，ＧＭ５〜ＧＭ７…ガイドメロディ、Ｌ１〜Ｌ５，Ｌ１０１，Ｌ１０２…分布個数取得基準線、Ｍ１〜Ｍ５…音声情報データ個数分布線、ＭＲ…移動範囲、Ｓ…音高基準

【図1】