IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ ニールセン カンパニー (ユー エス) エルエルシーの特許一覧

特開2023-71787音高に依存しない音色属性をメディア信号から抽出する方法及び装置
<>
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図1
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図2
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図3
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図4
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図5
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図6
  • 特開-音高に依存しない音色属性をメディア信号から抽出する方法及び装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023071787
(43)【公開日】2023-05-23
(54)【発明の名称】音高に依存しない音色属性をメディア信号から抽出する方法及び装置
(51)【国際特許分類】
   G10L 25/51 20130101AFI20230516BHJP
   G10L 17/26 20130101ALI20230516BHJP
   G10L 15/10 20060101ALI20230516BHJP
   G10L 25/18 20130101ALI20230516BHJP
【FI】
G10L25/51 300
G10L17/26
G10L15/10 500Z
G10L25/18
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023025354
(22)【出願日】2023-02-21
(62)【分割の表示】P 2020545802の分割
【原出願日】2019-03-12
(31)【優先権主張番号】15/920,060
(32)【優先日】2018-03-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/239,238
(32)【優先日】2019-01-03
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510130723
【氏名又は名称】ザ ニールセン カンパニー (ユー エス) エルエルシー
(74)【代理人】
【識別番号】100107456
【弁理士】
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【弁理士】
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【弁理士】
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ラフィイ, ザファール
(57)【要約】      (修正有)
【課題】音高に依存しない音色属性をメディア信号から抽出する方法及び装置を提供する。
【解決手段】音声分析器は、メディア信号を受け取るためのメディアインタフェースと、メディア信号に対応する音声のスペクトルを求め、スペクトルの変換の大きさの逆変換に基づいて、音声の、音高に依存しない音色属性を特定するための音声特性抽出器と、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
音高に依存しない音色属性をメディア信号から抽出する装置であって、
メディア信号を受け取るためのインタフェースと、
前記メディア信号に対応する音声のスペクトルを求め、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定する
ための音声特性抽出器と
を備える、装置。
【請求項2】
前記メディア信号が前記音声である、請求項1に記載の装置。
【請求項3】
前記メディア信号が、音声成分を含む映像信号であり、前記映像信号から前記音声を抽出する音声抽出器をさらに含む、請求項1に記載の装置。
【請求項4】
前記音声特性抽出器が、定Q変換を用いて前記音声の前記スペクトルを求める、請求項1に記載の装置。
【請求項5】
前記音声特性抽出器が、フーリエ変換を用いて前記スペクトルの前記変換を求め、逆フーリエ変換を用いて前記逆変換を求める、請求項1に記載の装置。
【請求項6】
前記音声特性抽出器が、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定する、請求項1に記載の装置。
【請求項7】
前記インタフェースが、第1のインタフェースであり、
前記音高に依存しない音色属性を処理デバイスへ伝達し、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取る
ための第2のインタフェースをさらに含む、請求項1に記載の装置。
【請求項8】
前記第2のインタフェースが、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達するためのものである、請求項7に記載の装置。
【請求項9】
前記インタフェースが、周囲音声を介して前記メディア信号を受け取るためのマイクロホンである、請求項1に記載の装置。
【請求項10】
前記メディア信号が、メディア出力デバイスにより出力されるべきメディア信号に該当する、請求項1に記載の装置。
【請求項11】
前記インタフェースが、前記メディア信号をマイクロホンから受け取る、請求項1に記載の装置。
【請求項12】
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されると、機械に、少なくとも、
メディア信号にアクセスすること、
前記メディア信号に対応する音声のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定すること、
を実行させる、非一時的なコンピュータ可読記憶媒体。
【請求項13】
前記メディア信号が前記音声である、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項14】
前記メディア信号が、音声成分を含む映像信号であり、前記命令は、実行されると、前記機械に、前記音声を前記映像信号から抽出することを実行させる、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項15】
前記命令は、実行されると、前記機械に、定Q変換を用いて前記音声の前記スペクトルを求めることを実行させる、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項16】
前記命令は、実行されると、前記機械に、フーリエ変換を用いて前記スペクトルの前記変換を特定すること、及び逆フーリエ変換を用いて前記逆変換を特定することを実行させる、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項17】
前記命令は、実行されると、前記機械に、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定することを実行させる、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項18】
前記命令は、実行されると、前記機械に、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取ること、
を実行させる、請求項12に記載の非一時的なコンピュータ可読記憶媒体。
【請求項19】
前記命令は、実行されると、前記機械に、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達することを実行させる、請求項18に記載の非一時的なコンピュータ可読記憶媒体。
【請求項20】
音高に依存しない音色属性をメディア信号から抽出する方法であって、
プロセッサで命令を実行することによって、受け取られたメディア信号に対応する音声のスペクトルを求めるステップと、
前記プロセッサで命令を実行することによって、前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定するステップと
を含む、方法。
【発明の詳細な説明】
【開示の分野】
【0001】
[0001]本開示は、概略的には、音声処理に関し、より詳細には、音高に依存しない音色属性をメディア信号から抽出する方法及び装置に関する。
【背景】
【0002】
[0002]音色(例えば、音色属性/音色の属性)とは、音声の音高又は音量に関係のない、音声の特質/性質である。音色とは、2つの異なる音を、これらがたとえ同じ音高及び音量であっても、互いに異なって聞こえるようにするものである。例えば、同じ音符を同じ振幅で演奏しているギターとフルートとは、ギターとフルートの持つ音色が異なるので、異なって聞こえる。音色は、音声事象の周波数及び時間包絡線(例えば、時間及び周波数に沿ったエネルギー分布)に対応する。音色の感じ方に対応する音声の特性には、スペクトル及び包絡線が含まれる。
【図面の簡単な説明】
【0003】
図1】[0003]図1は、音高に依存しない音色属性をメディア信号から抽出する例示的な計器を示す図である。
【0004】
図2】[0004]図2は、図1の例示的な音声分析器及び例示的な音声特定器のブロック図である。
【0005】
図3】[0005]図3は、音高に依存しない音色属性をメディア信号から抽出するために、及び/又は音色に依存しない音高をメディア信号から抽出するために、図1及び図2の例示的な音声分析器を実装するように実行され得る例示的な機械可読命令を表すフローチャートである。
【0006】
図4】[0006]図4は、無音高の音色対数スペクトルに基づいて、音声を特徴づけるために、及び/又はメディアを識別するために、図1及び図2の例示的な音声特定器を実装するように実行され得る例示的な機械可読命令を表すフローチャートである。
【0007】
図5】[0007]図5は、図1及び図2の例示的な音声分析器を使用して特定され得る、例示的な音声信号、音声信号の例示的な音高、及び音声信号の例示的な音色を示す図である。
【0008】
図6】[0008]図6は、図1及び図2の例示的な音声分析器を制御するために、図3の例示的な機械可読命令を実行するように構築されたプロセッサプラットフォームのブロック図である。
【0009】
図7】[0009]図7は、図1及び図2の例示的な音声特定器を制御するために、図4の例示的な機械可読命令を実行するように構築されたプロセッサプラットフォームのブロック図である。
【0010】
[0010]図は原寸に比例していない。可能な限り、同一又は同様の部分を参照するために同一の参照番号が、図面(複数可)及び付随する書面の説明全体を通して使用される。
【詳細な説明】
【0011】
[0011]音声計器とは、音声信号を(例えば、直接又は間接的に)取り込んで、その音声信号を処理するデバイスのことである。例えば、パネリストが、視聴者測定エンティティによって監視されているメディアに露出する契約をすると、視聴者測定エンティティはパネリストの家に技術者を派遣して、メディア出力デバイス(複数可)(例えば、テレビ受信機、ラジオ、コンピュータ等)からメディア露出データを集めることができる計器(例えば、メディアモニタ)を設置することができる。別の例では、計器は、受け取った音声及び/又は映像データを処理してメディアの特性を特定するために、例えばスマートフォンのプロセッサで実行される命令に応答することができる。
【0012】
[0012]概略的には、計器は、メディア源から直接又は間接的にメディア信号を受け取るためにインタフェースを含むか、さもなければインタフェースに接続される(例えば、周囲音声を集めるためのマイクロホン及び/又は磁気結合デバイス)。例えば、メディア出力デバイスが「オン」のとき、マイクロホンは、メディア出力デバイスから送出された音響信号を受け取ることができる。計器は、受け取った音響信号を処理して、音声又は音声源を特徴づけるために、及び/又は識別するために使用できる音声の特性を特定することができる。メディア出力デバイスから出力されるべき音声信号及び/又は映像信号を受け取るために、メディア出力デバイスの中で働く、及び/又はメディア出力デバイスと一緒に働く命令に計器が応答するとき、計器は、入ってくる音声信号及び/又は映像信号を処理/分析して、信号に関連するデータを直接特定することができる。例えば計器は、セットトップボックス、受信機、携帯電話等の中で動作して、入ってくる音声/映像データを、メディア出力デバイスから出力される前、間中、又は後に受け取り、処理することができる。
【0013】
[0013]いくつかの例では、音声計測デバイス/命令は、音声の様々な特性を利用して音声及び/又は音声源を分類及び/又は識別する。このような特性には、メディア信号のエネルギー、メディア信号の各周波数帯域のエネルギー、メディア信号の離散コサイン変換(DCT)係数等が含まれ得る。本明細書に開示の例では、メディア信号に対応する音声の音色に基づいてメディアを分類及び/又は識別する。
【0014】
[0014]音色(例えば、音色属性/音色の属性)とは、音声の音高又は音量に関係のない音声の特質/性質のことである。例えば、同じ音符を同じ振幅で演奏しているギターとフルートは、ギターとフルートの持つ音色が異なるので異なって聞こえる。音色は、音声事象の周波数及び時間包絡線(例えば、時間及び周波数に沿ったエネルギー分布)に対応する。従来、音色は様々な特徴によって特徴づけられてきた。しかし、音色は、音声の他の態様(例えば、音高)と無関係に音声から抽出されることがなかった。したがって、音高に依存する音色測定に基づいてメディアを識別するには、カテゴリ及び音高ごとに音色に対応する、参照用の音高に依存する音色の大規模なデータベースが必要になる。本明細書に開示の例では、音高と無関係である測定された音声から音高に依存しない音色対数スペクトルを抽出し、したがって、音色に基づいてメディアを分類及び/又は識別するために必要とされるリソースが減少する。
【0015】
[0015]上で説明したように、抽出された音高に依存しない音色は、メディアを分類するために、及び/又はメディアを識別するために使用することができ、及び/又は署名アルゴリズムの一部として使用することができる。例えば、抽出された音高に依存しない音色属性(例えば、対数スペクトル)を使用して、測定された音声(例えば、音声サンプル)がバイオリンに対応することをバイオリンによって演奏されている音符にかかわらず判定することができる。いくつかの例では、特徴的な音声は、よりよい音声体験をユーザに提供するようにメディア出力デバイスの音声設定を調整するために使用することができる。例えば、いくつかの音声等化器設定は、特定の楽器及び/又はジャンルの音声によりよく適合させることができる。したがって、本明細書に開示の例では、メディア出力デバイスの音声等化器設定を、抽出された音色に対応する識別された楽器/ジャンルに基づいて調整することができる。別の例では、抽出された音高に依存しない音色は、その抽出された音高に依存しない音色属性をデータベースの参照音色属性と比較することによってメディア提示デバイス(例えば、テレビ受信機、コンピュータ、ラジオ、スマートフォン、タブレット等)から出力されるメディアを識別するのに使用することができる。このように、抽出された音色及び/又は音高を使用して、受け取った音声の音高のみを考慮する従来の技法よりも詳細なメディア露出情報を視聴者測定エンティティに提供することができる。
【0016】
[0016]図1は、メディア信号から音高に依存しない音色属性を抽出する例示的な音声分析器100を示す。図1は、例示的な音声分析器100、例示的なメディア出力デバイス102、例示的なスピーカ104a、104b、例示的なメディア信号106、及び例示的な音声特定器108を含む。
【0017】
[0017]図1の例示的な音声分析器100は、デバイス(例えば、例示的なメディア出力デバイス102及び/又は例示的なスピーカ104a、104b)からメディア信号を受け取り、そのメディア信号を処理して、音高に依存しない音色属性(例えば、対数スペクトル)、及び音色に依存しない音高属性を特定する。いくつかの例では、音声分析器100は、周囲音声を検知することによって例示的なメディア信号106を受け取るために、マイクロホンを含むか、さもなければマイクロホンに接続することができる。そのような例では、音声分析器100は、マイクロホンを利用する計器又は他のコンピュータデバイス(例えば、コンピュータ、タブレット、スマートフォン、スマートウォッチ等)に実装することができる。いくつかの例では、音声分析器100は、メディア出力デバイス102にメディアを提示する例示的なメディア出力デバイス102及び/又はメディア提示デバイスから、例示的なメディア信号106を(例えば、有線又は無線接続によって)直接受け取るためのインタフェースを含む。例えば、音声分析器100はメディア信号106を、セットトップボックス、携帯電話、ゲームデバイス、音声受信機、DVDプレーヤ、ブルーレイプレーヤ、タブレット、及び/又は任意の他の、メディア出力デバイス102及び/又は例示的なスピーカ104a、104bから出力されるべきメディアを提供するデバイスから直接受け取ることができる。以下で図2と併せてさらに説明するように、例示的な音声分析器100は、音高に依存しない音色属性及び/又は音色に依存しない音高属性をメディア信号106から抽出する。メディア信号106が音声成分を含む映像信号である場合、例示的な音声分析器100は、音高及び/又は音色を抽出するより前に音声成分をメディア信号106から抽出する。
【0018】
[0018]図1の例示的なメディア出力デバイス102は、メディアを出力するデバイスである。図1の例示的なメディア出力デバイス102はテレビ受信機として図示されているが、例示的なメディア出力デバイス102は、ラジオ、MP3プレーヤ、ビデオゲームコンソール、ステレオシステム、モバイルデバイス、タブレット、コンピュータデバイス、タブレット、ラップトップ、プロジェクタ、DVDプレーヤ、セットトップボックス、オーバザトップデバイス、及び/又はメディア(例えば、映像及び/又は音声)を出力できる任意のデバイスでもよい。例示的なメディア出力デバイスは、スピーカ104aを含むことができ、及び/又は有線若しくは無線接続を介してポータブルスピーカ104bに結合するか、別様に接続することができる。例示的なスピーカ104a、104bは、例示的なメディア出力デバイスから出力されるメディアの音声部分を出力する。図1に示された例では、メディア信号106は、例示的なスピーカ104a、104bから出力される音声を表す。加えて、又は別法として、例示的なメディア信号106は、例示的なメディア出力デバイス102及び/又は例示的なスピーカ104a、104bへ伝送されて例示的なメディア出力デバイス102及び/又は例示的なスピーカ104a、104bから出力される音声信号及び/又は映像信号でもよい。例えば、例示的なメディア信号106は、ビデオゲームの音声及び映像を出力するための例示的なメディア出力デバイス102及び/又は例示的なスピーカ104a、104bへ伝送されるゲームコンソールからの信号でよい。例示的な音声分析器100は、メディア提示デバイス(例えば、ゲームコンソール)から、及び/又は周囲音声からメディア信号106を直接受け取ることができる。このようにして、音声分析器100は、スピーカ104a、104bがオフである、動作していない、又は音量が下げられているときでも、メディア信号から音声を分類及び/又は識別することができる。
【0019】
[0019]図1の例示的な音声特定器108は、例示的な音声分析器100からの、受け取った音高に依存しない音色属性測定値に基づいて、音声を特徴づけ、及び/又はメディアを識別する。例えば、音声特定器108は、分類及び/又は識別に対応する参照用の音高に依存しない音色属性のデータベースを含むことができる。このようにして、例示的な音声特定器108は、受け取った音高に依存しない音色属性(複数可)を参照用の音高に依存しない属性と比較して、適合(match、マッチ)することを明らかにすることができる。マッチすることを例示的な音声特定器108が明らかにした場合、例示的な音声特定器108は、その音声を分類し、及び/又はマッチした参照音色属性に対応する情報についてメディアを識別する。例えば、受け取った音色属性がトランペットに対応する参照属性とマッチした場合、例示的な音声特定器108は、受け取った音色属性に対応する音声をトランペットからの音声として分類する。このような例では、音声分析器100が携帯電話の一部である場合、例示的な音声分析器100は、歌曲を演奏するトランペットの音声信号を受け取ることができる(例えば、音声/映像信号を受け取るインタフェースを介して、又は音声信号を受け取る携帯電話のマイクロホンを介して)。このようにして、音声特定器108は、受け取った音声に対応する楽器がトランペットであることを識別し、ユーザに対しトランペットであると明らかにすることができる(例えば、携帯電話のユーザインタフェースを使用して)。別の例では、受け取った音色属性が特定のビデオゲームに対応する参照属性とマッチする場合、例示的な音声特定器108は、受け取った音色属性に対応する音声をその特定のビデオゲームからのものと明らかにすることができる。例示的な音声特定器108は、その音声を明らかにする報告を生成することができる。このようにして、視聴者測定エンティティは、その報告に基づいてビデオゲームへの露出を信じることができる。いくつかの例では、音声特定器108は、音色を音声分析器100から直接受け取る(例えば、音声分析器100と音声特定器108の両方が同一のデバイスに設置されている)。いくつかの例では、音声特定器108は別の場所に設置されており、音色を例示的な音声分析器100から無線通信を介して受け取る。いくつかの例では、音声特定器108は、音声等化器設定を音声分類に基づいて調整するために、命令を例示的な音声メディア出力デバイス102及び/又は例示的な音声分析器100へ送出する(例えば、例示的な音声分析器100が例示的なメディア出力デバイス102に実装されているとき)。例えば、音声特定器108が、メディア出力デバイス102から出力されている音声をトランペットからのものとして分類した場合、例示的な音声特定器108は、音声等化器設定をトランペット音声に対応する設定に調整する命令を送出することができる。例示的な音声特定器108については、以下で図2と併せてさらに説明する。
【0020】
[0020]図2は、図1の例示的な音声分析器100及び例示的な音声特定器108の例示的な実装例のブロック図を含む。図2の例示的な音声分析器100は、例示的なメディアインタフェース200、例示的な音声抽出器202、例示的な音声特性抽出器204、及び例示的なデバイスインタフェース206を含む。図2の例示的な音声特定器108は、例示的なデバイスインタフェース210、例示的な音色プロセッサ212、例示的な音色データベース214、及び例示的な音声設定調整器216を含む。いくつかの例では、例示的な音声分析器100の要素が、例示的な音声特定器108に実装されることがあり、及び/又は例示的な音声特定器108の要素が例示的な音声特定器108に実装されることがある。
【0021】
[0021]図2の例示的なメディアインタフェース200は、図1の例示的なメディア信号106を受け取る(例えば、サンプリングする)。いくつかの例では、メディアインタフェース200は、周囲音声の検知を通してメディア信号106を集めることによってメディア信号106を音声として得るために使用されるマイクロホンとすることができる。いくつかの例では、メディアインタフェース200は、例示的なメディア出力デバイス102から出力されるべき音声信号及び/又は映像信号(例えば、デジタル表現のメディア信号)を直接受け取るためのインタフェースとすることができる。いくつかの例では、メディアインタフェース200は2つのインタフェースを含むことができ、これらは、周囲音声を検出及びサンプリングするためのマイクロホンと、音声信号及び/又は映像信号を直接受け取る及び/又はサンプリングするためのインタフェースとである。
【0022】
[0022]図2の例示的な音声抽出器202は、受け取った/サンプリングしたメディア信号106から音声を抽出する。例えば、音声抽出器202は、受け取ったメディア信号106が音声信号か、又は音声成分を含む映像信号に該当するかどうかを判定する。メディア信号が音声成分を含む映像信号に該当する場合、例示的な音声抽出器202は、その音声成分を抽出して、さらなる処理のための音声信号/サンプルを生成する。
【0023】
[0023]図2の例示的な音声抽出器204は、音声信号/サンプルを処理して、音高に依存しない音色対数スペクトル及び/又は音色に依存しない音高対数スペクトルを抽出する。対数スペクトルとは、音高に依存しない(例えば、無音高)音色対数スペクトルと、音色に依存しない(例えば、無音色)音高対数スペクトルとの間の畳み込みのことである(例えば、X=T*Pであり、ここで、Xは音声信号の対数スペクトルであり、Tは音高に依存しない対数スペクトルであり、Pは音色に依存しない音高対数スペクトルである)。したがって、フーリエ領域では、音声信号についての対数スペクトルのフーリエ変換(FT)の大きさは、音色のFTの近似値にマッチし得る(例えば、F(X)=F(T)×F(P)であり、ここで、F(.)はフーリエ変換、F(T)≒|F(X)|、及びF(P)≒ej arg(F(X))である)。複素引数は、(例えば、エネルギー及びオフセットに対応する)大きさと位相を合わせたものになる。したがって、音色のFTは、対数スペクトルのFTの大きさによって近似することができる。したがって、音声信号の音高に依存しない音色対数スペクトル及び/又は音色に依存しない音高対数スペクトルを求めるために、例示的な音声特性抽出器204は、音声信号の対数スペクトルを求め(例えば、定Q変換(CQT)を使用して)、その対数スペクトルを周波数領域に変換する(例えば、FTを使用して)。このようにして、例示的な音声特性抽出器204は、(A)音高に依存しない音色対数スペクトルを逆変換に基づいて求め(例えば、変換出力の大きさの逆フーリエ変換(F-1)(例えば、T=F-1(|F(X)|))、(B)無音色の音高対数スペクトルを変換出力の複素引数の逆変換に基づいて求める(例えば、P=F-1(ej arg(F(X))))。音声信号の音声スペクトルの対数周波数スケールは、音高シフトが垂直平行移動と同等になることを可能にする。したがって、例示的な音声特性抽出器204は、CQTを使用して音声信号の対数スペクトルを求める。
【0024】
[0024]いくつかの例では、図2の例示的な音声特性抽出器204が、結果として得られた音色及び/又は音高が満足の行くものではないと判定した場合に、音声特性抽出器204は、その結果をフィルリングして分解を改善する。例えば、音声特性抽出器204は、音色の特定の高調波を強調することによって、又は単一のピーク/ラインを音高に押し込み他の結果の成分を更新することによって、結果をフィルタリングすることができる。例示的な音声特性抽出器204は、フィルタリングを1回すること、又は反復アルゴリズムを、フィルタ/音高を反復ごとに更新しながら実行することができ、それによって、音高及び音色の全畳み込みが音声の元の対数スペクトルをもたらすことが確実になる。音声特性抽出器204は、ユーザ及び/又は製造者の選好に基づいて、これらの結果が満足の行くものではないと判定することができる。
【0025】
[0025]図2の例示的な音声分析器100の例示的なデバイスインタフェース206は、例示的な音声特定器108及び/又は他のデバイス(例えば、ユーザインタフェース、処理デバイス等)とインタフェースすることができる。例えば、音声特性抽出器204が音高に依存しない音色属性を特定すると、例示的なデバイスインタフェース206は、その属性を例示的な音声特定器108へ伝達して音声を分類すること、及び/又はメディアを識別することができる。それに応じて、デバイスインタフェース206は、例示的な音声特定器108から分類結果及び/又は識別情報(例えば、メディア信号106の送出元に対応する識別子)を受け取ることができる(例えば、信号又は報告の形で)。このような例では、例示的なデバイスインタフェース206は、分類結果及び/又は識別情報を他のデバイス(例えば、ユーザインタフェース)へ伝達して、その分類結果及び/又は識別情報をユーザに表示することができる。例えば、音声分析器100がスマートフォンと一緒に使用されているとき、デバイスインタフェース206は、分類の結果及び/又は識別情報をスマートフォンのユーザに対しスマートフォンのインタフェース(例えば、画面)を介して出力することができる。
【0026】
[0026]図2の例示的な音声特定器108の例示的なデバイスインタフェース210は、音高に依存しない音色属性を例示的な音声分析器100から受け取る。加えて、例示的なデバイスインタフェース210は、例示的な音声特定器108によって特定された分類結果及び/又は識別情報を表す信号/報告を出力する。この報告は、受け取った音色に基づく分類結果及び/又は識別情報に対応する信号とすることができる。いくつかの例では、デバイスインタフェース210は、報告(例えば、音色に対応するメディアの識別情報を含む)をさらなる処理のためにプロセッサ(例えば、視聴者測定エンティティのプロセッサ等)に伝達する。例えば、受け取りデバイスのプロセッサは、報告を処理してメディア露出メトリクス、視聴者測定メトリクス等を生成することができる。いくつかの例では、デバイスインタフェース210は、報告を例示的な音声分析器100へ伝達する。
【0027】
[0027]図2の例示的な音色プロセッサ212は、受け取った例示的な音声分析器100の音色属性を処理してその音声を特徴づけ、及び/又は音声源を識別する。例えば、音色プロセッサ212は、受け取った音色属性を例示的な音色データベース214の参照属性と比較することができる。このようにして、例示的な音色プロセッサ212は、受け取った音色属性が参照属性とマッチすると判定した場合には、マッチした参照音色属性に対応するデータに基づいて、音声源を分類及び/又は識別する。例えば、例示的な音色プロセッサ212は、受け取った音色属性が特定のコマーシャルに対応する参照音色属性とマッチすると判定した場合には、その音声源がその特定のコマーシャルであることを明らかにする。いくつかの例では、分類はジャンル分類を含むことがある。例えば、例示的な音色プロセッサ212がいくつかの楽器をその音色に基づいて判定する場合、例示的な音色プロセッサ212は、識別された楽器に基づいて、及び/又は音色自体に基づいて、音声のジャンル(例えば、クラッシック、ロック、ヒップホップ等)を識別することができる。いくつかの例で、マッチするものを音色プロセッサ212が見出さない場合には、例示的な音色プロセッサ212は、受け取った音色属性を新しい参照音色属性になるように音色データベース214に記憶する。例示的な音色プロセッサ212が新しい参照音色を例示的な音色データベース214に記憶する場合、例示的なデバイスインタフェース210は、ユーザに識別情報(例えば、音声の分類が何であるか、メディア源が何であるか等)を要求するために、命令を例示的な音声分析器100へ伝達する。このようにして、音声分析器100が追加の情報と併せて応答する場合には、音色データベース214は、その追加の情報を新しい参照音色と一緒に記憶することができる。いくつかの例では、技術者は、新しい参照音色を分析して追加の情報を特定する。例示的な音色プロセッサ212は、分類結果及び/又は識別情報に基づいて報告を生成する。
【0028】
[0028]図2の例示的な音声設定調整器216は、分類された音声に基づいて、音声等化器設定を決定する。例えば、分類された音声が1つ又は複数の楽器及び/又はジャンルに該当する場合、例示的な音声設定調整器216は、その1つ又は複数の楽器及び/又はジャンルに対応する音声等化器設定を決定することができる。いくつかの例では、音声がクラッシック音楽と分類された場合、例示的な音声設定調整器216は、クラッシック音楽に対応するクラッシック音声等化器設定を選択することができる(例えば、低音域のレベル、震動のレベル等)。このようにして、例示的なデバイスインタフェース210は、音声等化器設定を例示的なメディア出力デバイス102及び/又は例示的な音声分析器100へ伝達して、例示的なメディア出力デバイス102の音声等化器設定を調整することができる。
【0029】
[0029]図1の例示的な音声分析器100及び例示的な音声特定器108を実装する例示的な方法が図2に示されているが、図2に示された1つ又は複数の要素、プロセス及び/又はデバイスは、任意の他の方法で組み合わせる、分割する、再配置する、省く、除去する、及び/又は実装することができる。さらに、例示的なメディアインタフェース200、例示的な音声抽出器202、例示的な音声特性抽出器204、例示的なデバイスインタフェース206、例示的な音声設定調整器216、及び/若しくは、より一般的に図2の例示的な音声分析器100、並びに/又は例示的なデバイスインタフェース210、例示的な音色プロセッサ212、例示的な音色データベース214、例示的な音声設定調整器216、及び/若しくは、より一般的に図2の例示的な音声特定器108は、ハードウェア、ソフトウェア、ファームウェア、並びに/又はハードウェア、ソフトウェア及び/若しくはファームウェアの任意の組み合わせによって実装することができる。したがって、例えば、例示的なメディアインタフェース200、例示的な音声抽出器202、例示的な音声特性抽出器204、例示的なデバイスインタフェース206、及び/若しくは、より一般的に図2の例示的な音声分析器100、並びに/又は例示的なデバイスインタフェース210、例示的な音色プロセッサ212、例示的な音色データベース214、例示的な音声設定調整器216、及び/若しくは、より一般的に図2の例示的な音声特定器108のいずれも、1つ又は複数のアナログ若しくはデジタル回路(複数可)、論理回路、プログラム可能プロセッサ(複数可)、プログラム可能コントローラ(複数可)、グラフィック処理ユニット(複数可)(GPU(複数可))、デジタル信号プロセッサ(複数可)(DPS(複数可))、特定用途向け集積回路(複数可)(ASIC(複数可))、プログラム可能論理デバイス(複数可)(PLD(複数可))及び/又はフィールドプログラマブル論理デバイス(複数可)(FPLD(複数可))によって実装することができる。本特許の装置又はシステムの特許請求項のいずれもが純粋にソフトウェア及び/又はファームウェア実装形態を包含するものと読むとき、例示的なメディアインタフェース200、例示的な音声抽出器202、例示的な音声特性抽出器204、例示的なデバイスインタフェース206、及び/若しくは、より一般的に図2の例示的な音声分析器100、並びに/又は例示的なデバイスインタフェース210、例示的な音色プロセッサ212、例示的な音色データベース214、例示的な音声設定調整器216、及び/若しくは、より一般的に図2の例示的な音声特定器108のうちの少なくとも1つは、ソフトウェア及び/又はファームウェアを含むメモリ、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、ブルーレイディスク等の非一時的(non-transitory、ノントランジトリ)なコンピュータ可読記憶デバイス又は記憶ディスクを含むものと本明細書で明確に定義されている。さらになお、図1の例示的な音声分析器100及び/又は例示的な音声特定器108は、1つ又は複数の要素、プロセス及び/若しくはデバイスを図2に示されたものに加えて、又はその代わりに含むこと、並びに/又は図示された要素、プロセス及びデバイスのいずれか若しくは全部のうちの2つ以上を含むことがある。本明細書で用いられる場合、「通信している」という句は、そのバリエーションを含めて、直接通信、及び/又は1つ若しくは複数の中間構成要素を介する間接通信を包含し、直接の物理的(例えば、有線)通信及び/又は常時通信を必要とせず、むしろ、周期的な間隔、スケジューリングされた間隔、非周期的な間隔、及び/又は1回限りのイベントにおける選択的通信を付加的に含む。
【0030】
[0030]図2の音声分析器100を実装するための例示的なハードウェア論理又は機械可読命令を表すフローチャートが図3に示されており、図2の音声特定器108を実装するための例示的なハードウェア論理又は機械可読命令を表すフローチャートが図4に示されている。機械可読命令は、図6及び/又は図7と関連して以下で論じる例示的なプロセッサプラットフォーム600、700に示されたプロセッサ612、712等の、プロセッサによって実行するためのプログラム又はプログラムの一部分とすることができる。プログラムは、プロセッサ612、712と結び付けられたCD-ROM、フロッピーディスク、ハードドライブ、DVD、ブルーレイディスク、又はメモリ等の非一時的コンピュータ可読記憶媒体に記憶されたソフトウェアの形で具現化できるが、プログラム全体又はその一部分は別法として、プロセッサ612、712以外のデバイスによって実行すること、及び/又はファームウェア若しくは専用ハードウェアの形で具現化することもできる。さらに、例示的なプログラムについては図3図4に示されたフローチャートを参照して説明するが、例示的な音声分析器100及び/又は例示的な音声特定器108を実装する多くの他の方法が別法として使用されてもよい。例えば、ブロックを実行する順序は変更されてもよく、及び/又は図示のブロックのいくつかが変更、除去、又は結合されてもよい。加えて、又は別法として、これらのブロックの一部又は全部が、ソフトウェア又はファームウェアを実行しなくてもその対応する動作を実行するように構築された1つ又は複数のハードウェア回路(例えば、ディスクリート及び/又は集積化アナログ回路及び/又はデジタル回路、FPGA、ASIC、比較器、演算増幅器(オペアンプ)、論理回路等)によって実装されてもよい。
【0031】
[0031]上記のように、図3図4の例示的なプロセスは、実行可能命令(例えば、コンピュータ及び/又は機械可読命令)を使用して実装することができ、この命令は、情報が任意の持続期間(例えば、延長された期間、恒久的に、短いインスタンスのために、一時的なバッファリングのために、及び/又は情報のキャッシングのために)記憶されるハードディスクドライブ、フラッシュメモリ、読み出し専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ及び/又は任意の他の記憶デバイス若しくは記憶ディスク等の、非一時的なコンピュータ及び/又は機械可読媒体に記憶される。本明細書で用いられる場合、非一時的なコンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び/又は記憶ディスクを含むもの、及び伝播する信号を除外するもの、及び伝達媒体を除外するものと明確に定義される。
【0032】
[0032]「含んでいる」及び「備えている」(及びこれらのすべての形及び時制)は、本明細書では制限のない用語として用いられる。したがって、請求項で「含む」又は「備える」のいずれかの形(例えば、備える、含む、備えている、含んでいる、有している等)をプリアンブルとして使用する、又は何かの種類の請求項記載物の中に使用するときはいつも、追加の要素、用語等が、対応する請求項又は記載物の範囲から外れることなく存在し得ることを理解されたい。本明細書で使用される場合、「少なくとも」という句が、例えば請求項のプリアンブルの移行用語として用いられている場合、この用語は、「備えている」及び「含んでいる」という用語に制限がないのと同じように、制限がない。「及び/又は」という用語は、例えば、A、B及び/又はC等の形で用いられた場合、(1)Aだけ、(2)Bだけ、(3)Cだけ、(4)Bと共にA、(5)Cと共にA、及び(6)Cと共にB等の、A、B、Cの任意の組み合わせ又はサブセットを指す。
【0033】
[0033]図3は、例示的な機械可読命令を表す例示的なフローチャート300であり、この命令は、図1及び図2の例示的な音声分析器100によって実行されて、音高に依存しない音色属性をメディア信号(例えば、メディア信号の音声信号)から抽出することができる。図3の命令は、図1の例示的な音声分析器100と併せて説明されるが、例示的な命令は音声分析器によって任意の環境で使用されてよい。
【0034】
[0034]ブロック302で、例示的なメディアインタフェース200は、1つ又は複数のメディア信号又はメディア信号のサンプル(例えば、例示的なメディア信号106)を受け取る。上述のように、例示的なメディアインタフェース200は、メディア信号106を直接(例えば、メディア出力デバイス102との間を行き来する信号として)、又は間接的に(例えば、周囲音声を検知することによってメディア信号を検出するマイクロホンとして)受け取ることができる。ブロック304で、例示的な音声抽出器202は、メディア信号が映像又は音声に該当するかどうかを判定する。例えば、メディア信号がマイクロホンを使用して受け取られた場合、音声抽出器202は、メディアが音声に該当すると判定する。しかし、メディア信号が、受け取った信号である場合、音声抽出器202は、受け取ったメディア信号を処理して、メディア信号が音声か、又は音声成分を含む映像信号に該当するかどうかを判定する。例示的な音声抽出器202が、メディア信号は音声に該当すると判定した場合(ブロック304:音声)、プロセスはブロック308へ続く。例示的な音声抽出器202が、メディア信号は映像に該当すると判定した場合(ブロック306:映像)、例示的な音声抽出器202は音声成分をメディア信号から抽出する(ブロック306)。
【0035】
[0035]ブロック308で、例示的な音声特性抽出器204は、音声信号の対数スペクトル(例えば、X)を特定する。例えば、音声特性抽出器204は、CQTを実行することによって音声信号の対数スペクトルを特定することができる。ブロック310で、例示的な音声特性抽出器204は、対数スペクトルを周波数領域に変換する。例えば、音声特性抽出器204は、対数スペクトルに対してFTを実行する(例えば、F(X))。ブロック312で、例示的な音声特性抽出器204は、変換更新の大きさ(例えば、|F(X)|)を特定する。ブロック314で、例示的な音声特性抽出器204は、音声の、音高に依存しない音色対数スペクトルを変換出力の大きさの逆変換(例えば、逆FT)に基づいて特定する(例えば、T=F-1|F(X)|)。ブロック316で、例示的な音声特性抽出器204は、変換出力の複素引数を特定する(例えば、ej arg(F(X)))。ブロック318で、例示的な音声特性抽出器204は、音声の、音色に依存しない音高対数スペクトルを変換出力の複素引数の逆変換(例えば、逆FT)に基づいて特定する(例えば、P=F-1(ej arg(F(X)))。
【0036】
[0036]ブロック320で、例示的な音声特性抽出器204は、結果(複数可)(例えば、特定された音高及び/又は特定された音色)が満足の行くものであるかどうかを判定する。図2と併せて上述したように、例示的な音声特性抽出器204は、結果が満足の行くものであることをユーザ及び/又は製造者の結果選好に基づいて判定する。例示的な音声特性抽出器204が結果は満足の行くものであると判定した場合(ブロック320:はい)、プロセスはブロック324へ続く。例示的な音声特性抽出器204が結果は満足の行くものであると判定した場合(ブロック320:いいえ)、例示的な音声特性抽出器204は、その結果をフィルタリングする(ブロック322)。図2と併せて上述したように、例示的な音声特性抽出器204は、音色の特定の高調波を強調することによって、又は単一のピーク/ラインを音高に押し込むことによって(例えば、1回又は繰り返して)、結果をフィルタリングすることができる。
【0037】
[0037]ブロック324で、例示的なデバイスインタフェース206は、結果を例示的な音声特定器108へ伝達する。ブロック326で、例示的な音声特性抽出器204は、音声信号に対応する分類結果及び/又は識別情報データを受け取る。別法として、音声特定器108が音声信号の音色を参照とマッチさせることができなかった場合、デバイスインタフェース206は、その音声信号に対応する追加のデータを特定する命令を送出することができる。このような例では、デバイスインタフェース206は、ユーザが追加のデータを提供するようにするためにプロンプトをユーザインタフェースへ伝達する。したがって、例示的なデバイスインタフェース206は、追加のデータを例示的な音声特定器108に供給して新しい参照音色属性を生成することができる。ブロック328で、例示的な音声特性抽出器204は、分類結果及び/又は識別情報を他の接続されているデバイスへ伝達する。例えば、音声特性抽出器204は、分類結果をユーザインタフェースへ伝達してユーザに分類結果を提供する。
【0038】
[0038]図4は、例示的な機械可読命令を表す例示的なフローチャート400であり、この命令は、図1及び図2の例示的な音声特定器108によって実行されて、音声の、音高に依存しない音色属性に基づいて、音声を分類すること、及び/又はメディアを識別することができる。図4の命令は図1の例示的な音声特定器108と併せて説明されるが、この例示的な命令は音声特定器によって任意の環境で使用されてよい。
【0039】
[0039]ブロック402で、例示的なデバイスインタフェース210は、測定された(例えば、特定又は抽出された)無音高の音色対数スペクトルを例示的な音声分析器100から受け取る。ブロック404で、例示的な音色プロセッサ212は、測定された無音高の音色対数スペクトルを例示的な音色データベース214にある参照用の無音高の音色対数スペクトルと比較する。ブロック406で、例示的な音色プロセッサ212は、受け取った無音高の音色属性と参照用の無音高の音色属性の間にマッチが見出されるかどうかを判定する。例示的な音色プロセッサ212が、マッチの判定がされると判定した場合に(ブロック406:はい)、例示的な音色プロセッサ212は、そのマッチに基づき、マッチした参照音色属性に対応する例示的な音色データベース214に記憶された追加のデータを使用して、音声を分類する(例えば、楽器及び/又はジャンルを識別する)及び/又はその音声に対応するメディアを識別する(ブロック408)。
【0040】
[0040]ブロック410で、例示的な音声設定調整器216は、メディア出力デバイス102の音声設定を調整できるかどうかを判定する。例えば、例示的なメディア出力デバイス102から出力されている音声の分類結果に基づいてメディア出力デバイス102の音声設定が調整されることを可能にする、イネーブルにされた設定があり得る。例示的な音声設定調整器216が、メディア出力デバイス102の音声設定は調整されるべきでないと判定した場合には(ブロック410:いいえ)、プロセスはブロック414へ進む。例示的な音声設定調整器216が、メディア出力デバイス102の音声設定は調整されるべきと判定した場合には(ブロック410:はい)、例示的な音声設定調整器216は、分類された音声に基づいてメディア出力デバイス設定調整を決定する。例えば、例示的な音声設定調整器216は、1つ又は複数の識別された楽器及び/又は(例えば、音色により、又は識別された楽器に基づいて)識別されたジャンルに基づいて、音声等化器設定を選択することができる(ブロック412)。ブロック414で、例示的なデバイスインタフェース210は、分類結果、識別情報、及び/又はメディア出力デバイス設定調整に対応する報告を出力する。いくつかの例では、デバイスインタフェース210は、その報告をさらなる処理/分析のために別のデバイスへ出力する。いくつかの例では、デバイスインタフェース210は、例示的な音声分析器100へ報告を出力して、結果をユーザにユーザインタフェースを介して表示する。いくつかの例では、デバイスインタフェース210は、例示的なメディア出力デバイス102へ報告を出力して、メディア出力デバイス102の音声設定を調整する。
【0041】
[0041]例示的な音色プロセッサ212が、マッチの判定がされないと判定した場合には(ブロック406:いいえ)、例示的なデバイスインタフェース210は、音声信号に対応する追加の情報を促す(ブロック416)。例えば、デバイスインタフェース210は、(A)音声に対応する情報を提供するようにユーザに促すために、又は(B)完全な音声信号を用いて応答するように音声分析器100に促すために、命令を例示的な音声分析器100へ伝達することができる。ブロック418で、例示的な音色データベース214は、測定された無音色の音高対数スペクトルを、受け取ることができた対応するデータと一緒に記憶する。
【0042】
[0042]図5は、音声信号の対数スペクトル500の例示的なFT、音声信号の例示的な無音色の音高対数スペクトル502、及び音声信号の例示的な無音高の音色対数スペクトル504を示す。
【0043】
[0043]図2と併せて説明したように、例示的な音声分析器100が例示的なメディア信号106(例えば、又はメディア信号のサンプル)を受け取ると、例示的な音声分析器100は、音声信号/サンプルの例示的な対数スペクトルを特定する(例えば、メディアサンプルが映像信号に対応し、音声分析器100がその音声成分を抽出する場合に)。加えて、例示的な音声分析器100は、対数スペクトルのFTを特定する。図5の例示的なFT対数スペクトル500は、音声信号/サンプルの対数スペクトルの例示的な変換出力に対応する。例示的な無音色の音高対数スペクトル502は、対数スペクトル500の例示的なFTの複素引数の逆FTに対応し(例えば、P=F-1(ej arg(F(X))))、無音高の音色対数スペクトル504は、対数スペクトル500の例示的なFTの大きさの逆FTに対応する(例えば、T=F-1(|F(X)|))。図5に示されているように、対数スペクトル500の例示的なFTは、例示的な無音色の音高対数スペクトル502と例示的な無音高の音色対数スペクトル504の畳み込みに対応する。例示的な音高対数スペクトル502の、ピークがある畳み込みはオフセットを加える。
【0044】
[0044]図6は、図2の音声分析器100を実装するために図3の命令を実行するように構築された例示的なプロセッサプラットフォーム600のブロック図である。プロセッサプラットフォーム600は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械(例えば、ニューラルネットワーク)、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(商標)等のタブレット)、携帯情報端末(PDA)、インターネット機器、DVDプレーヤ、CDプレーヤ、デジタルビデオレコーダ、ブルーレイプレーヤ、ゲームコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセッ若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピュータデバイスとすることができる。
【0045】
[0045]図示の例のプロセッサプラットフォーム600は、プロセッサ612を含む。図示の例のプロセッサ612はハードウェアである。例えば、プロセッサ612は、1つ又は複数の集積回路、論理回路、マイクロプロセッサ、GPU、DSP、又は任意の所望のファミリー又は製造者からのコントローラによって実装することができる。ハードウェアプロセッサは、半導体ベース(例えば、シリコンベース)のデバイスとすることができる。この例では、プロセッサは、図2の例示的なメディアインタフェース200、例示的な音声抽出器202、例示的な音声特性抽出器204、及び/又は例示的なデバイスインタフェースを実装する。
【0046】
[0046]図示の例のプロセッサ612は、ローカルメモリ613(例えば、キャッシュ)を含む。図示の例のプロセッサ612は、バス618を介して、揮発性メモリ614及び不揮発性メモリ616を含む主メモリと通信する。揮発性メモリ614は、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUS(登録商標)ダイナミックランダムアクセスメモリ(RDRAM(登録商標))、及び/又は任意の他のタイプのランダムアクセスメモリデバイスによって実装することができる。不揮発性メモリ616は、フラッシュメモリ及び/又は任意の他の所望のタイプのメモリデバイスによって実装することができる。主メモリ614、616へのアクセスは、メモリコントローラによって制御される。
【0047】
[0047]図示の例のプロセッサプラットフォーム600は、インタフェース回路620も含む。インタフェース回路620は、イーサネット(登録商標)インタフェース、ユニバーサルシリアルバス(USB)、ブルートゥース(登録商標)インタフェース、近距離無線通信(NFC)インタフェース、及び/又はPCIエクスプレスインタフェース等の、任意のタイプのインタフェース規格によって実装することができる。
【0048】
[0048]図示の例では、1つ又は複数の入力デバイス622がインタフェース回路620に接続される。入力デバイス(複数可)622は、ユーザがデータ及び/又はコマンドをプロセッサ612に入力できるようにする。入力デバイス(複数可)は、例えば、音声センサ、マイクロホン、カメラ(静止又はビデオ)、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント及び/又は音声認識システムによって実装することができる。
【0049】
[0049]1つ又は複数の出力デバイス624は、図示の例のインタフェース回路620にも接続される。出力デバイス624は、例えば、表示デバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶表示装置(LCD)、陰極線管表示装置(CRT)、インプレーススイッチング(IPS)表示装置、タッチスクリーン等)、触覚出力デバイス、プリンタ及び/又はスピーカによって実装することができる。したがって、図示の例のインタフェース回路620は通常、グラフィックドライバカード、グラフィックドライバチップ及び/又はグラフィックドライバプロセッサを含む。
【0050】
[0050]図示の例のインタフェース回路620は、送信機、受信機、トランシーバ、モデム、住居用ゲートウェイ、無線アクセスポイント、及び/又はネットワーク626を介して外部機械(例えば、任意の種類のコンピュータデバイス)とデータを交換しやすくするためのネットワークインタフェースなどの通信デバイスも含む。通信は、例えば、イーサネット接続、デジタル加入者回線(DSL)接続、電話回線接続、同軸ケーブルシステム、衛星システム、ラインオブサイト無線システム、セルラ電話システム等を介することができる。
【0051】
[0051]図示の例のプロセッサプラットフォーム600は、ソフトウェア及び/又はデータを記憶するための1つ又は複数の大容量記憶デバイス628も含む。このような大容量記憶デバイス628の例としては、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ(RAID)システム、及びデジタル多用途ディスク(DVD)ドライブが挙げられる。
【0052】
[0052]図3の機械実行可能命令632は、大容量記憶デバイス628、揮発性メモリ614、不揮発性メモリ616、及び/又はCD若しくはDVD等の取り外し可能な非一時的コンピュータ可読記憶媒体に記憶することができる。
【0053】
[0053]図7は、図2の音声特定器108を実装するために図4の命令を実行するように構築された例示的なプロセッサプラットフォーム700のブロック図である。プロセッサプラットフォーム700は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械(例えば、ニューラルネットワーク)、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(商標)等のタブレット)、携帯情報端末(PDA)、インターネット機器、DVDプレーヤ、CDプレーヤ、デジタルビデオレコーダ、ブルーレイプレーヤ、ゲームコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセッ若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピュータデバイスとすることができる。
【0054】
[0054]図示の例のプロセッサプラットフォーム700は、プロセッサ712を含む。図示の例のプロセッサ712はハードウェアである。例えば、プロセッサ712は、1つ又は複数の集積回路、論理回路、マイクロプロセッサ、GPU、DSP、又は任意の所望のファミリー又は製造者からのコントローラによって実装することができる。ハードウェアプロセッサは、半導体ベース(例えば、シリコンベース)のデバイスとすることができる。この例では、プロセッサは、例示的なデバイスインタフェース210、例示的な音色プロセッサ212、例示的な音色データベース214、及び/又は例示的な音声設定調整器216を実装する。
【0055】
[0055]図示の例のプロセッサ712は、ローカルメモリ713(例えば、キャッシュ)を含む。図示の例のプロセッサ712は、バス718を介して、揮発性メモリ714及び不揮発性メモリ716を含む主メモリと通信する。揮発性メモリ714は、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUS(登録商標)ダイナミックランダムアクセスメモリ(RDRAM(登録商標))、及び/又は任意の他のタイプのランダムアクセスメモリデバイスによって実装することができる。不揮発性メモリ716は、フラッシュメモリ及び/又は任意の他の所望のタイプのメモリデバイスによって実装することができる。主メモリ714、716へのアクセスは、メモリコントローラによって制御される。
【0056】
[0056]図示の例のプロセッサプラットフォーム700は、インタフェース回路720も含む。インタフェース回路720は、イーサネットインタフェース、ユニバーサルシリアルバス(USB)、ブルートゥース(登録商標)インタフェース、近距離無線通信(NFC)インタフェース、及び/又はPCIエクスプレスインタフェース等の、任意のタイプのインタフェース規格によって実装することができる。
【0057】
[0057]図示の例では、1つ又は複数の入力デバイス722がインタフェース回路720に接続される。入力デバイス(複数可)722は、ユーザがデータ及び/又はコマンドをプロセッサ712に入力できるようにする。入力デバイス(複数可)は、例えば、音声センサ、マイクロホン、カメラ(静止又はビデオ)、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント及び/又は音声認識システムによって実装することができる。
【0058】
[0058]1つ又は複数の出力デバイス724は、図示の例のインタフェース回路720にも接続される。出力デバイス724は、例えば、表示デバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶表示装置(LCD)、陰極線管表示装置(CRT)、インプレーススイッチング(IPS)表示装置、タッチスクリーン等)、触覚出力デバイス、プリンタ及び/又はスピーカによって実装することができる。したがって、図示の例のインタフェース回路720は通常、グラフィックドライバカード、グラフィックドライバチップ及び/又はグラフィックドライバプロセッサを含む。
【0059】
[0059]図示の例のインタフェース回路720は、送信機、受信機、トランシーバ、モデム、住居用ゲートウェイ、無線アクセスポイント、及び/又はネットワーク726を介して外部機械(例えば、任意の種類のコンピュータデバイス)とデータを交換しやすくするためのネットワークインタフェースなどの通信デバイスも含む。通信は、例えば、イーサネット接続、デジタル加入者回線(DSL)接続、電話回線接続、同軸ケーブルシステム、衛星システム、ラインオブサイト無線システム、セルラ電話システム等を介することができる。
【0060】
[0060]図示の例のプロセッサプラットフォーム700は、ソフトウェア及び/又はデータを記憶するための1つ又は複数の大容量記憶デバイス728も含む。このような大容量記憶デバイス728の例としては、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ(RAID)システム、及びデジタル多用途ディスク(DVD)ドライブが挙げられる。
【0061】
[0061]図4の機械実行可能命令732は、大容量記憶デバイス728、揮発性メモリ714、不揮発性メモリ716、及び/又はCD若しくはDVD等の取り外し可能な非一時的コンピュータ可読記憶媒体に記憶することができる。
【0062】
[0062]以上から、上に開示された方法、装置、及び製造物は、音高に依存しない音色属性をメディア信号から抽出することが理解されよう。本明細書に開示された例では、メディア出力デバイスから直接又は間接的に受け取った音声に基づいて、無音高に依存しない音色対数スペクトルを特定する。本明細書に開示された例には、音色に基づいて音声を分類すること(例えば、楽器を識別すること)、及び/又は音色に基づいて音声のメディア源(例えば、歌曲、ビデオゲーム、広告等)を識別することがさらに含まれる。本明細書に開示された例を使用すると、抽出される音色が音高に依存しないので従来の技法よりも大幅に少ないリソースで、音色を用いて音声を分類及び/又は識別することができる。それに応じて、音声が、多数の音高に対して多数の参照音色属性を必要とせずに、分類及び/又は識別され得る。むしろ、音高に依存しない音色を用いて、音高にかかわらず音声を分類することができる。
【0063】
[0063]いくつかの例示的な方法、装置、及び製造物が本明細書で説明されたが、他の実装例も可能である。本特許の保護範囲は、これらの方法、装置、及び製造物に限定されない。むしろ、本特許は、本特許の特許請求の範囲に完全に収まるあらゆる方法、装置及び製造物を包含する。
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2023-03-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
メディア信号にアクセスすること、
前記メディア信号に対応する音声信号のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に少なくとも基づいて、前記音声信号の、音高に依存しない音色属性を特定すること、
を実行させる、非一時的なコンピュータ可読記憶媒体。
【請求項2】
前記メディア信号が前記音声信号である、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項3】
前記メディア信号が、音声信号を含む映像信号である、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項4】
命令をさらに含み、該命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記音声信号を前記映像信号から抽出すること、
抽出された前記音声信号のスペクトルを求めること
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項5】
前記命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
定Q変換を用いて前記音声信号の前記スペクトルを求めること
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項6】
前記命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
フーリエ変換を用いて前記スペクトルの前記変換を特定すること、及び
逆フーリエ変換を用いて前記逆変換を特定すること
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項7】
前記命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声信号の、前記に依存しない音属性を特定すること
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項8】
命令をさらに含み、該命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声信号の分類結果を前記処理デバイスから受け取ること、
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項9】
命令をさらに含み、該命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記音声信号の前記分類結果をユーザインタフェースへ伝達すること
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項10】
命令をさらに含み、該命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前音声信号に対応する識別子を前記処理デバイスから受け取ること、
を実行させる、請求項に記載の非一時的なコンピュータ可読記憶媒体。
【請求項11】
命令をさらに含み、該命令は、実行されると、1つ又は複数のプロセッサに、少なくとも、
前記音声信号に対応する識別子をユーザインタフェースへ伝達すること
を実行させる、請求項10に記載の非一時的なコンピュータ可読記憶媒体。
【請求項12】
音高に依存しない音色属性をメディア信号から抽出する方法であって
メディア信号にアクセスすること、
前記メディア信号に対応する音声信号のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に少なくとも基づいて、前記音声信号の、音高に依存しない音色属性を特定すること、
含む、方法
【請求項13】
前記メディア信号が前記音声信号である、請求項12に記載の方法
【請求項14】
前記メディア信号が、音声信号を含む映像信号である、請求項12に記載の方法
【請求項15】
前記方法が、前記音声信号を前記映像信号から抽出することをさらに含み、前記スペクトルを求めることが、抽出された前記音声信号のスペクトルを求めることを含む、請求項14に記載の方法
【請求項16】
前記音声信号のスペクトルを求めることが、定Q変換を用いて前記音声信号の前記スペクトルを求めることを含む、請求項12に記載の方法
【請求項17】
前記方法は、さらに、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声信号の分類結果を前記処理デバイスから受け取ること、
含む、請求項12に記載の方法
【請求項18】
前記方法は、さらに、前記音声信号の前記分類結果をユーザインタフェースへ伝達することを含む、請求項17に記載の方法
【請求項19】
前記方法は、さらに、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記メディア信号に対応する識別子を前記処理デバイスから受け取ること、
含む、請求項12に記載の方法
【請求項20】
音高に依存しない音色属性をメディア信号から抽出する装置であって、
メディア信号を受け取るためのインタフェースと、
1つ又は複数のプロセッサと、
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、前記1つ又は複数のプロセッサによって実行されると、前記装置に、
メディア信号にアクセスすること、
前記メディア信号に対応する音声信号のスペクトルを求めること
前記スペクトルの変換の大きさの逆変換に少なくとも基づいて、前記音声信号の、音高に依存しない音色属性を特定すること、
を含む動作を実行させる、コンピュータ可読記憶媒体と、
を備える、装置。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0063
【補正方法】変更
【補正の内容】
【0063】
[0063]いくつかの例示的な方法、装置、及び製造物が本明細書で説明されたが、他の実装例も可能である。本特許の保護範囲は、これらの方法、装置、及び製造物に限定されない。むしろ、本特許は、本特許の特許請求の範囲に完全に収まるあらゆる方法、装置及び製造物を包含する。
[発明の項目]
[項目1]
音高に依存しない音色属性をメディア信号から抽出する装置であって、
メディア信号を受け取るためのインタフェースと、
前記メディア信号に対応する音声のスペクトルを求め、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定する
ための音声特性抽出器と
を備える、装置。
[項目2]
前記メディア信号が前記音声である、項目1に記載の装置。
[項目3]
前記メディア信号が、音声成分を含む映像信号であり、前記映像信号から前記音声を抽出する音声抽出器をさらに含む、項目1に記載の装置。
[項目4]
前記音声特性抽出器が、定Q変換を用いて前記音声の前記スペクトルを求める、項目1に記載の装置。
[項目5]
前記音声特性抽出器が、フーリエ変換を用いて前記スペクトルの前記変換を求め、逆フーリエ変換を用いて前記逆変換を求める、項目1に記載の装置。
[項目6]
前記音声特性抽出器が、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定する、項目1に記載の装置。
[項目7]
前記インタフェースが、第1のインタフェースであり、
前記音高に依存しない音色属性を処理デバイスへ伝達し、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取る
ための第2のインタフェースをさらに含む、項目1に記載の装置。
[項目8]
前記第2のインタフェースが、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達するためのものである、項目7に記載の装置。
[項目9]
前記インタフェースが、周囲音声を介して前記メディア信号を受け取るためのマイクロホンである、項目1に記載の装置。
[項目10]
前記メディア信号が、メディア出力デバイスにより出力されるべきメディア信号に該当する、項目1に記載の装置。
[項目11]
前記インタフェースが、前記メディア信号をマイクロホンから受け取る、項目1に記載の装置。
[項目12]
命令を含む非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されると、機械に、少なくとも、
メディア信号にアクセスすること、
前記メディア信号に対応する音声のスペクトルを求めること、
前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定すること、
を実行させる、非一時的なコンピュータ可読記憶媒体。
[項目13]
前記メディア信号が音声である、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目14]
前記メディア信号が、音声成分を含む映像信号であり、前記命令は、実行されると、前記機械に、前記音声を前記映像信号から抽出することを実行させる、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目15]
前記命令は、実行されると、前記機械に、定Q変換を用いて前記音声の前記スペクトルを求めることを実行させる、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目16]
前記命令は、実行されると、前記機械に、フーリエ変換を用いて前記スペクトルの前記変換を特定すること、及び逆フーリエ変換を用いて前記逆変換を特定することを実行させる、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目17]
前記命令は、実行されると、前記機械に、前記スペクトルの前記変換の複素引数の逆変換に基づいて、前記音声の、音色に依存しない音高属性を特定することを実行させる、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目18]
前記命令は、実行されると、前記機械に、
前記音高に依存しない音色属性を処理デバイスへ伝達すること、
前記音高に依存しない音色属性を前記処理デバイスへ伝達することに応答して、前記音声の分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方を前記処理デバイスから受け取ること、
を実行させる、項目12に記載の非一時的なコンピュータ可読記憶媒体。
[項目19]
前記命令は、実行されると、前記機械に、前記音声の前記分類結果、又は前記メディア信号に対応する識別子のうちの少なくとも一方をユーザインタフェースへ伝達することを実行させる、項目18に記載の非一時的なコンピュータ可読記憶媒体。
[項目20]
音高に依存しない音色属性をメディア信号から抽出する方法であって、
プロセッサで命令を実行することによって、受け取られたメディア信号に対応する音声のスペクトルを求めるステップと、
前記プロセッサで命令を実行することによって、前記スペクトルの変換の大きさの逆変換に基づいて、前記音声の、音高に依存しない音色属性を特定するステップと
を含む、方法。
【外国語明細書】