(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022144927
(43)【公開日】2022-10-03
(54)【発明の名称】音質分析方法、音質分析プログラム、および該音質分析プログラムを記憶したコンピュータ読取可能な記憶媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20220926BHJP
G10K 15/00 20060101ALI20220926BHJP
G10L 25/51 20130101ALI20220926BHJP
【FI】
G06N20/00 130
G10K15/00 L
G10L25/51
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021046131
(22)【出願日】2021-03-19
(71)【出願人】
【識別番号】000003137
【氏名又は名称】マツダ株式会社
(71)【出願人】
【識別番号】000005016
【氏名又は名称】パイオニア株式会社
(71)【出願人】
【識別番号】510108951
【氏名又は名称】公立大学法人広島市立大学
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】藤本 麻由美
(72)【発明者】
【氏名】若松 功二
(72)【発明者】
【氏名】山中 尋詞
(72)【発明者】
【氏名】五十嵐 優司
(72)【発明者】
【氏名】青木 武史
(72)【発明者】
【氏名】小池 遥
(72)【発明者】
【氏名】清水 朗
(72)【発明者】
【氏名】石光 俊介
(72)【発明者】
【氏名】曽雌 崇弘
(72)【発明者】
【氏名】井野場 春香
(57)【要約】
【課題】種々の音響特性のうち、人間等による音質の評価に寄与する音響特性を、客観的にかつ定量的に明らかにする。
【解決手段】音質分析方法は、各音響特性について定量化された複数の音響データ49に対してCPU3がデータ拡張を実行することで、データ拡張が施された複数の拡張データ59を生成するサンプル増幅フェーズS1と、データ拡張前の各音響データ49またはデータ拡張後の各拡張データ59に対し、音響データ49単位で音質の良否の判定結果をラベリングする学習準備フェーズS2と、線形分類器を構成する重み付け係数として、それぞれ音響特性に対応した複数の影響係数β
pを設定するとともに、複数の拡張データ59と学習準備フェーズS2においてラベリングされた音質の良否とのペアを教師データに設定した状態でCPU3がラッソ回帰を行うことで、複数の影響係数β
pを学習する機械学習フェーズS3と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
プログラムを実行する演算部と、データを読み込む記憶部と、を備えるコンピュータを用いることによって、複数の音響データそれぞれの音質の良否を分類するための線形分類器を決定するとともに該線形分類器に基づいて音響特性の分析を行う音質分析方法であって、
前記記憶部が、各音響特性について定量化された状態で前記複数の音響データを読み込むとともに、該複数の音響データに対して前記演算部がデータ拡張を実行することで、データ拡張が施された複数の拡張データを生成するサンプル増幅ステップと、
データ拡張前の各音響データまたはデータ拡張後の各拡張データに対し、音響データ単位で音質の良否の判定結果をラベリングする学習準備ステップと、
前記線形分類器を構成する重み付け係数として、それぞれ前記音響特性に対応した複数の影響係数を設定するとともに、前記複数の拡張データと前記学習準備ステップにおいてラベリングされた音質の良否とのペアを教師データに設定した状態で前記演算部がラッソ回帰を行うことで、前記複数の影響係数を学習する機械学習ステップと、を備える
ことを特徴とする音質分析方法。
【請求項2】
請求項1に記載された音質分析方法において、
前記サンプル増幅ステップに際し、前記複数の拡張データの平均値および標準偏差に基づいて、前記演算部が前記複数の拡張データを前記影響係数毎にそれぞれ標準化する、と
ことを特徴とする音質分析方法。
【請求項3】
請求項1または2に記載された音質分析方法において、
前記複数の拡張データを前記線形分類器に入力することで、前記複数の拡張データのそれぞれについて、前記学習準備ステップにおいてラベリングされた音質の良否と、前記線形分類器によって分類された音質の良否と、を前記演算部が照合する分類テストステップを備え、
前記演算部は、前記分類テストステップにおいて、前記複数の拡張データのうち、前記ラベリングされた音質の良否と前記線形分類器によって分類された音質の良否とが相異する拡張データを示す分類エラーデータを決定し、
前記演算部は、前記複数の拡張データから前記分類エラーデータを除外した状態で前記機械学習ステップを再度実行することで、前記線形分類器を更新する
ことを特徴とする音質分析方法。
【請求項4】
請求項3に記載された音質分析方法において、
前記演算部は、前記分類エラーデータが抽出されなくなるまで、前記分類テストステップおよび前記線形分類器の更新を繰り返し実行する
ことを特徴とする音質分析方法。
【請求項5】
請求項3または4に記載された音質分析方法において、
前記演算部は、前記機械学習ステップを実行した後に、前記複数の影響係数のうち、前記ラッソ回帰を通じて所定の基準値未満となるように決定された影響係数を示す小寄与係数を決定し、
前記演算部は、前記複数の拡張データから前記分類エラーデータを除外しかつ前記複数の影響係数から前記小寄与係数を除外した状態で前記機械学習ステップを再度実行することで、前記線形分類器を更新する
ことを特徴とする音質分析方法。
【請求項6】
請求項1から5のいずれか1項に記載された音質分析方法において、
前記複数の音響データは、複数の車種にわたって車種毎に録音されたオーディオ音響データからなる
ことを特徴とする音質分析方法。
【請求項7】
請求項1から6のいずれか1項に記載された音質分析方法において、
前記音響特性には、少なくとも、時間重心と、両耳間レベル差と、両耳間時間差と、初期減衰時間と、初期側方エネルギー率と、音声伝達指標と、C値と、D値と、両耳間相関関数と、の1つ以上が含まれる
ことを特徴とする音質分析方法。
【請求項8】
プログラムを実行する演算部と、データを読み込む記憶部と、を備えるコンピュータに実行させることによって、複数の音響データそれぞれの音質の良否を分類するための線形分類器を決定するとともに該線形分類器に基づいて音響特性の分析を行う音質分析プログラムであって、
前記コンピュータに、
前記記憶部が、各音響特性について定量化された状態で前記複数の音響データを読み込むとともに、該複数の音響データに対して前記演算部がデータ拡張を実行することで、データ拡張が施された複数の拡張データを生成するサンプル増幅ステップと、
データ拡張前の各音響データまたはデータ拡張後の各拡張データに対し、音響データ単位で音質の良否の判定結果をラベリングする学習準備ステップと、
前記線形分類器を構成する重み付け係数として、それぞれ前記音響特性に対応した複数の影響係数を設定するとともに、前記複数の拡張データと該複数の拡張データの各々にラベリングされた前記判定結果との組み合わせを教師データに設定した状態で前記演算部がラッソ回帰を行うことで、前記複数の影響係数を決定する機械学習ステップと、を実行させる
ことを特徴とする音質分析プログラム。
【請求項9】
請求項8に記載された音質分析プログラムを記憶している
ことを特徴とするコンピュータ読取可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
ここに開示する技術は、音質分析方法、音質分析プログラム、および該音質分析プログラムを記憶したコンピュータ読取可能な記憶媒体に関する。
【背景技術】
【0002】
特許文献1には、教師あり学習の一例が開示されている。具体的に、この特許文献1には、与えられた数の教師データにデータ拡張を施すことで、その数以上の教師データを自動的に生成するような構成が開示されている。
【0003】
また特許文献2には、教師あり学習の別例が開示されている。具体的に、この特許文献2に開示されている文書分類装置は、選択された正解事例から新たな事例を作り出し、この新たな正解事例を学習用の正解事例に追加することで、機械学習用の正解データを生成するように構成されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8-96084号公報
【特許文献2】特開2004-428776号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来、音質の良否を判定する際には、例えばゴールデンイヤーと呼ばれる熟達者の力を借りていた。しかしながら、人間による評価は、聴覚、感性等に基づいた主観的なものとならざるを得ない。
【0006】
その一方で、音質の良否の判定には、種々の音響特性が影響を及ぼすものと考えられる。しかしながら、人間による主観的な評価では、そうした音響特性のうち、どの特性がどの程度影響を及ぼしているのかを把握するのは容易ではない。
【0007】
本願発明者らは、オーディオ音響等の音響性能を効率的に改善するためには、寄与度の高い音響特性を明らかにし、その特性について重点的に改良を施すべきという着想に至った。そして、本願発明者らは、鋭意検討を重ねた結果、機械学習の手法に着目するとともに、前記特許文献1および2に記載されているデータ拡張を、従来とは異なる用途で活用することを新たに着想し、本願発明を想到するに至った。
【0008】
本開示は、かかる点に鑑みてなされたものであり、その目的とするところは、種々の音響特性のうち、人間等による音質の評価に寄与する音響特性を、客観的にかつ定量的に明らかにすることにある。
【課題を解決するための手段】
【0009】
本開示の第1の態様は、プログラムを実行する演算部と、データを読み込む記憶部と、を備えるコンピュータを用いることによって、複数の音響データそれぞれの音質の良否を分類するための線形分類器を決定するとともに該線形分類器に基づいて音響特性の分析を行う音質分析方法に係る。
【0010】
そして、前記第1の態様によれば、前記音質分析方法は、前記記憶部が、各音響特性について定量化された状態で前記複数の音響データを読み込むとともに、該複数の音響データに対して前記演算部がデータ拡張を実行することで、データ拡張が施された複数の拡張データを生成するサンプル増幅ステップと、データ拡張前の各音響データまたはデータ拡張後の各拡張データに対し、音響データ単位で音質の良否の判定結果をラベリングする学習準備ステップと、前記線形分類器を構成する重み付け係数として、それぞれ前記音響特性に対応した複数の影響係数を設定するとともに、前記複数の拡張データと前記学習準備ステップにおいてラベリングされた音質の良否とのペアを教師データに設定した状態で前記演算部がラッソ回帰を行うことで、前記複数の影響係数を学習する機械学習ステップと、を備える。
【0011】
前記第1の態様によると、複数の音響データに対してデータ拡張を実行し、複数の拡張データを生成する。従来知られた知見によれば、データ拡張は、分析対象とする音響特性の数、すなわち重み付け係数の数が多数にわたる場合に適した手法として知られているものの、過度のデータ拡張は、過学習を招くため望ましくないとされてきた。
【0012】
しかしながら、前記第1の態様では、意図的に過学習、または、それに近い状況を作り出すために、データ拡張を実行する。これにより、未知の音響データに対する分類性能が抑制される一方で、教師データとして用いた既知の音響データについては、その音質の良否判定に際して寄与した影響係数と、他の影響係数と、の差異が有意に拡大することになる。
【0013】
また、上記のように過学習を意図的に引き起こしたことと、ラッソ回帰による機械学習(寄与度の小さな重み付け係数がゼロとなる回帰手法)と、が相まって、音質の良否判定に大きく寄与するような影響係数と、それよりも寄与の小さい影響係数と、を明確に分かつことができる。これにより、人間の主観的評価等に基づいてラベリングされる音質の良否において、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにすることができる。
【0014】
また、本開示の第2の態様によれば、前記音質分析方法は、前記サンプル増幅ステップに際し、前記複数の拡張データの平均値および標準偏差に基づいて、前記演算部が前記複数の拡張データを前記影響係数毎にそれぞれ標準化する、としてもよい。
【0015】
なお、ここでいう「複数の拡張データの標準化」とは、複数の拡張データをそれぞれ標準得点(Standard Score)としてのZ値(z-score)へと変換する処理を指す。
【0016】
前記第2の態様によると、データ拡張によって生成される拡張データの平均値および標準偏差に基づいて標準化を実行することで、音響データが事後的に新たに追加される場合にあっても、その追加された音響データを反映した標準化をスムースに行うことができるようになる。これにより、音質分析方法における各ステップの内容を変更することなく、そのまま用いることができるようになる。
【0017】
また、本開示の第3の態様によれば、前記音質分析方法は、前記複数の拡張データを前記線形分類器に入力することで、前記複数の拡張データのそれぞれについて、前記学習準備ステップにおいてラベリングされた音質の良否と、前記線形分類器によって分類された音質の良否と、を前記演算部が照合する分類テストステップを備え、前記演算部は、前記分類テストステップにおいて、前記複数の拡張データのうち、前記ラベリングされた音質の良否と前記線形分類器によって分類された音質の良否とが相異する拡張データを示す分類エラーデータを決定し、前記演算部は、前記複数の拡張データから前記分類エラーデータを除外した状態で前記機械学習ステップを再度実行することで、前記線形分類器を更新する、としてもよい。
【0018】
前記第3の態様によると、演算部は、拡張データから分類エラーデータを除外した状態で、機械学習ステップを再度実行する。分類エラーデータは、例えば、人間等による判定では音質が良いと判定されていたところ、線形分類器による分類では音質が悪いと判定されてしまうような拡張データに相当する。より詳しくは、線形分離を行うような線形分類器を用いた場合、そうした分類エラーデータは、線形分離を特徴付ける境界線を跨ぐような拡張データに相当する。
【0019】
前記第3の態様によると、演算部は、そうした分類エラーデータを教師データから除外する。前述のように境界線を跨ぐデータを除外することで、過学習がさらに促される。これにより、音質の良否を評価する際に、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにする上で有利になる。
【0020】
また、本開示の第4の態様によれば、前記演算部は、前記分類エラーデータが抽出されなくなるまで、前記分類テストステップおよび前記線形分類器の更新を繰り返し実行する、としてもよい。
【0021】
前記第4の態様によると、過学習が一層促されることになる。これにより、音質の良否を評価する際に、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにする上で有利になる。
【0022】
また、本開示の第5の態様によれば、前記演算部は、前記機械学習ステップを実行した後に、前記複数の影響係数のうち、前記ラッソ回帰を通じて所定の基準値未満となるように決定された影響係数を示す小寄与係数を決定し、前記演算部は、前記複数の拡張データから前記分類エラーデータを除外しかつ前記複数の影響係数から前記小寄与係数を除外した状態で前記機械学習ステップを再度実行することで、前記線形分類器を更新する、としてもよい。
【0023】
ラッソ回帰を行うことで、良否の判定への寄与が少ない影響係数は、ゼロとなる。本願発明者らが鋭意検討を重ねた結果、得られた知見によれば、ゼロとなった影響係数のような小寄与係数を除外した状態で再度ラッソ回帰を行うことで、前述の如き分類エラーデータの出現を抑制することが可能となる。これにより、より分類精度に優れた線形分類器を得ることができるようになる。
【0024】
また、本開示の第6の態様によれば、前記複数の音響データは、複数の車種にわたって車種毎に録音されたオーディオ音響データからなる、としてもよい。
【0025】
車種毎にオーディオ音響データを得るためには、複数種の異なる車体を用意する必要がある。機械学習の精度を高めるためには、複数パターンの車室内においてオーディオ音響を録音することが求められるものの、複数種の異なる車体を用意するのは容易ではない。
【0026】
一方、本開示のように、そうしたオーディオ音響データにおいてデータ拡張を行うことで、分析対象とする車体が少ない場合であっても、高精度な機械学習を行うことができるようになる。また、そうしたオーディオ音響において、寄与度の大きい音響特性を明らかにすることで、オーディオの音響性能を向上させる際に、特定の音響特性を重点的に作り込むことができるようになる。これにより、オーディオ製品の性能を効率よく向上させることが可能となる。
【0027】
また、本開示の第7の態様によれば、前記音響特性には、少なくとも、時間重心と、両耳間レベル差と、両耳間時間差と、初期減衰時間と、初期側方エネルギー率と、音声伝達指標と、C値と、D値と、両耳間相関関数と、の1つ以上が含まれる、としてもよい。
【0028】
また、本開示の第8の態様は、プログラムを実行する演算部と、データを読み込む記憶部と、を備えるコンピュータに実行させることによって、複数の音響データそれぞれの音質の良否を分類するための線形分類器を決定するとともに該線形分類器に基づいて音響特性の分析を行う音質分析プログラムに係る。
【0029】
そして、前記第8の態様によれば、前記音質分析プログラムは、前記コンピュータに、前記記憶部が、各音響特性について定量化された状態で前記複数の音響データを読み込むとともに、該複数の音響データに対して前記演算部がデータ拡張を実行することで、データ拡張が施された複数の拡張データを生成するサンプル増幅ステップと、データ拡張前の各音響データまたはデータ拡張後の各拡張データに対し、音響データ単位で音質の良否の判定結果をラベリングする学習準備ステップと、前記線形分類器を構成する重み付け係数として、それぞれ前記音響特性に対応した複数の影響係数を設定するとともに、前記複数の拡張データと該複数の拡張データの各々にラベリングされた前記判定結果との組み合わせを教師データに設定した状態で前記演算部がラッソ回帰を行うことで、前記複数の影響係数を決定する機械学習ステップと、を実行させる。
【0030】
前記第8の態様によると、人間の主観的評価等に基づいてラベリングされる音質の良否において、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにすることができる。
【0031】
また、本開示の第9の態様は、前記音質分析プログラムを記憶していることを特徴とするコンピュータ読取可能な記憶媒体に係る。
【0032】
この記憶媒体によれば、人間の主観的評価等に基づいてラベリングされる音質の良否において、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにすることができる。
【発明の効果】
【0033】
以上説明したように、本開示によれば、種々の音響特性のうち、人間等による音質の評価に寄与する音響特性を、客観的にかつ定量的に明らかにすることができる。
【図面の簡単な説明】
【0034】
【
図1】
図1は、音質分析装置のハードウェア構成を例示する図である。
【
図2】
図2は、音質分析装置のソフトウェア構成を例示する図である。
【
図3】
図3は、音質分析方法の手順を例示するフローチャートである。
【
図4】
図4は、サンプル増幅フェーズの手順を例示するフローチャートである。
【
図5】
図5は、学習準備フェーズの手順を例示するフローチャートである。
【
図6】
図6は、機械学習フェーズの手順を例示するフローチャートである。
【
図7】
図7は、分類テストフェーズの手順を例示するフローチャートである。
【
図8】
図8は、データ拡張前の音響データの具体例を示す図である。
【
図9】
図9は、データ拡張後の拡張データの具体例を示す図である。
【
図10】
図10は、分類テストフェーズにおける重み係数等の間引きについて説明する図である。
【
図11】
図11は、分類テストフェーズにおける重み係数等の影響について説明する図である。
【
図12】
図12は、影響係数の順位付けについて説明する図である。
【発明を実施するための形態】
【0035】
以下、本開示の実施形態を図面に基づいて説明する。なお、以下の説明は例示である。
【0036】
<装置構成>
図1は、本開示に係る音質分析装置(具体的には、音質分析装置を構成するコンピュータ1)のハードウェア構成を例示する図である。
図2は、そのソフトウェア構成を例示する図である。
【0037】
図1に例示するように、コンピュータ1は、コンピュータ1全体の制御を司る中央処理装置(Central Processing Unit:CPU)3と、ブートプログラム等を記憶するリードオンリーメモリ(Read Only Memory:ROM)5と、メインメモリとして機能するランダムアクセスメモリ(Random Access Memory:RAM)7と、2次記憶装置としてのハードディスクドライブ(Hard Disk Drive:HDD)9と、を備える。なお、2次記憶装置としては、HDD9の代わりに、ソリッドステートドライブ(Solid State Drive:SSD)等を用いることもできる。
【0038】
これらの要素のうち、CPU3は、種々のプログラムを実行する。CPU3は、本実施形態における演算部として機能する。また、RAM7は、CPU3により実行されるプログラムおよび種々のデータ等を一時的に記憶し、HDD9は、プログラムおよびデータ等を継続的に記憶する。RAM7は、必要に応じて、HDD9からデータを読み込むこともできる。RAM7は、本実施形態における記憶部として機能する。
【0039】
コンピュータ1はまた、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ等からなる表示部11と、表示部11上に表示される画像データを格納するグラフィックスメモリ(Video RAM:VRAM)13と、マンマシンインターフェースとしてのキーボード15及びマウス17と、を備える。表示部11は、CPU3による演算結果を表示することができる。また、本実施形態に係るコンピュータ1は、通信用のインターフェース21を介して外部機器との間でデータを送受することができる。
【0040】
なお、後述のように、本開示に係る音質分析装置は、複数のコンピュータ1によって構成してもよい。その場合、各コンピュータ1のCPU3およびRAM7を、それぞれ、本開示に係る演算部および記憶部とみなすことができる。
【0041】
図2に例示するように、HDD9のプログラムメモリには、オペレーティングシステム(Operating System:OS)19、サンプル増幅プログラム29A、学習準備プログラム29B、機械学習プログラム29C、分類テストプログラム29D、アプリケーションプログラム39等が格納される。
【0042】
これらの要素のうち、サンプル増幅プログラム29A、学習準備プログラム29B、機械学習プログラム29Cおよび分類テストプログラム29Dは、本実施形態における音質分析プログラム29を構成する。
【0043】
ここで、音質分析プログラム29とは、本実施形態に係る音質分析方法をコンピュータ1に実行させるように構成されたプログラムであって、同方法を構成する各ステップをコンピュータ1に実行させることができる。音質分析プログラム29は、コンピュータ読取可能な記憶媒体18に予め記憶されている。
【0044】
HDD9のプログラムメモリにおいて、サンプル増幅プログラム29A、学習準備プログラム29B、機械学習プログラム29Cおよび分類テストプログラム29Dは、それぞれ、キーボード15、マウス17等から入力される指令に応じて起動される。その際、サンプル増幅プログラム29A等は、HDD9からRAM7にロードされ、CPU3によって実行されることになる。CPU3がサンプル増幅プログラム29A等を実行することで、コンピュータ1が音質分析装置として機能することになる。
【0045】
一方、HDD9のデータメモリには、分析対象とされる複数の音響データ49が格納される。各音響データ49は、多変数のデータとして定義されており、それぞれ、異なる環境下で録音された音響に基づいて生成される。また、各音響データ49を構成する各変数は、それぞれ、録音された音響の音響特性を特徴付ける特徴量として与えられる。各音響データ49は、必要に応じてHDD9からRAM7にロードされて、CPU3による演算に用いられるようになっている。
【0046】
この他、サンプル増幅プログラム29A、学習準備プログラム29B、機械学習プログラム29Cおよび分類テストプログラム29Dを実行することで生成される種々のデータ、ならびに、アプリケーションプログラム39の実行結果については、必要に応じて、HDD9のデータメモリに格納されたり、メインメモリとしてのRAM7に格納されたりする。
【0047】
以下、音質分析方法の具体的な方法論について詳細に説明する。
【0048】
<方法論>
図3は、音質分析方法の手順を例示するフローチャートである。
図3に例示した方法は、コンピュータ1を用いることによって、複数の音響データ49それぞれの音質の良否を分類するための線形分類器を決定するとともに、該線形分類器に基づいて音響特性の分析を行うものである。
【0049】
音質分析方法は、基本的には、サンプル増幅ステップとしてのサンプル増幅フェーズS1と、学習準備ステップとしての学習準備フェーズS2と、機械学習ステップとしての機械学習フェーズS3と、分類テストステップとしての分類テストフェーズS4と、を順番に実行することで実施される。その際、ステップS3とステップS4は、後述のように、線形分類器が所望の性能に達するまで、繰り返し実行されることになる。
【0050】
これらのフェーズのうち、サンプル増幅フェーズS1は、CPU3が前述のサンプル増幅プログラム29Aを実行することで実施される。同様に、学習準備フェーズS2は、CPU3が学習準備プログラム29Bを実行することで実施され、機械学習フェーズS3は、CPU3が機械学習プログラム29Cを実行することで実施され、分類テストフェーズS4は、CPU3が分類テストプログラム29Dを実行することで実施される。
【0051】
以下、音質分析方法を構成する各フェーズについて順番に説明する。
【0052】
(サンプル増幅フェーズS1)
図4は、サンプル増幅フェーズS1の手順を例示するフローチャートである。また、
図8は、データ拡張前の音響データ49の具体例を示す図であり、
図9は、データ拡張後の拡張データ59の具体例を示す図である。
図4に例示するフローチャートは、
図3のステップS1において行われる処理を示している。すなわち、
図3において制御プロセスがステップS1に進むと、CPU3は、
図4のステップS11~S16をフローに従って実行することになる。
【0053】
まず、
図4のステップS11において、RAM7が、各音響特性について定量化された状態で複数の音響データ49を読み込んで、これを分析対象(サンプル)に設定する。
【0054】
詳しくは、複数の音響データ49がn個(nは2以上の整数)の音響データ49から構成されるとすると、複数の音響データ49として、n通りの環境下で録音された音響データを用いることができる。この場合における音響特性としては、P種類の音響特性(Pは2以上の整数)を用いることができる。
【0055】
さらに詳しくは、複数の音響データ49としては、複数(n通り)の車種において録音された車種毎のオーディオ音響データ(車室内で録音されたオーディオ音響に対応した音響データ)を用いることができ、複数種(P種類)の音響特性としては、オーディオの音質を特徴付ける種々の性質を用いることができる。本実施形態における音響特性には、少なくとも、時間重心と、両耳間レベル差と、両耳間時間差と、初期減衰時間と、初期側方エネルギー率と、音声伝達指標と、C値と、D値と、両耳間相関関数と、の1つ以上が含まれる。これらの音響特性は、例えば車室内に設定された集音マイクの録音データ、および、その録音データと車内環境とに基づいて演算された各種伝達関数等を用いて決定することができる。
【0056】
RAM7は、n×P個のデータを読み込んで、これを分析対象(サンプル)に設定する。例えば
図8に示すように、車種の数が、車種Aおよび車種Bからなる2個(n=2)かつ音響特性の数が96種(P=96)の場合、RAM7は、車種Aと車種Bを合算して計2×96個のデータを読み込むことになる。以下、音響特性毎に定量化されたデータの値を「特徴量」とも呼称する。
【0057】
次いで、
図4のステップS12において、CPU3は、各音響データ49に対してデータ拡張を実行し、データ拡張が施された拡張データ59を生成する。特に本実施形態では、CPU3は、各音響データ49の数が等倍されるように(例えば、車種毎に倍率が同数となるように)データ拡張を実行する。その際の倍率をM(Mは2以上の整数)とすると、複数の拡張データ59は、音響特性を除くと、N(=M×n)個の拡張データ59から構成されることになる。この場合、各拡張データ59は、データ拡張前の状態と同様に、それぞれP種類の特徴量によって特徴付けられることになる。
図9に示す例では、2種類の車種のうち、車種Aのデータ数と、車種Bのデータ数とが、それぞれ10000倍(M=10000)ずつ増幅されることになる。なお、データ拡張の際に用いられる倍率Mは、特徴量の総数Pよりも多くなるように設定される。
【0058】
なお、本実施形態では、データ拡張は、各音響データ49における各特徴量にM通りの正規乱数(正規分布に従うように生成された乱数)を付加することで実行することができる。ここで、正規乱数を特徴付ける平均値としては、拡張前の特徴量の値を用いるようになっている。つまり、拡張データ59におけるp番目の特徴量の平均値は、車種毎に、音響データ49におけるp番目の特徴量の値と一致するように設定される。
【0059】
次いで、
図4のステップS13~ステップS15において、CPU3は、拡張データ59および音響データ49に基づいて、各拡張データ59を音響特性(後述の影響係数)毎に標準化(Z値化)する。
【0060】
例えば、拡張データ59に基づいて標準化する場合、CPU3は、複数の拡張データ59の平均値および標準偏差に基づいて、音響特性(影響係数)毎に複数の拡張データ59をそれぞれ標準化する。この場合、CPU3は、複数の拡張データ59の平均値が音響特性(影響係数)毎に0となりかつ、複数の拡張データ59の標準偏差が音響特性(影響係数)毎に1となるように各拡張データ59をそれぞれ変換する。
【0061】
例えば、i番目の拡張データ59におけるp番目の標準化前の特徴量をXi,pとし、標準化後の特徴量をxi,pとし、拡張データ59に基づいて算出された、p番目の特徴量に係る平均値および標準偏差(つまり、N(=M×n)個のデータに基づいた平均値および標準偏差)をそれぞれμp,σpとすると、
【0062】
【数1】
の関係が成立するように標準化される(ここで、iは1以上N以下の整数であり、pは1以上P以下の整数である)。
【0063】
一方、音響データ49に基づいて標準化する場合、CPU3は、複数の拡張データ59の平均値および標準偏差に基づいて、音響特性(特徴量)毎に複数の拡張データ59をそれぞれ標準化する。
【0064】
例えば、i番目の拡張データ59におけるp番目の標準化前の特徴量をXi,pとし、標準化後の特徴量をxi,pとし、音響データ49に基づいて算出された、p番目の特徴量に係る平均値および標準偏差(つまり、n個の特徴量に基づいた平均値および標準偏差)をそれぞれμp’,σp’とすると、
【0065】
【数2】
の関係が成立することになる(ここで、iは1以上N以下の整数であり、pは1以上P以下の整数である)。
【0066】
具体的に、ステップS13において、CPU3は、拡張データ59を用いた標準化を行うか否かを選択し、前者が選択された場合(ステップS13:YES)はステップS14へ進んで上式(1)に基づいた標準化を実行する。一方、ステップS13において後者が選択された場合(ステップS13:NO)はステップS15へ進み、上式(2)に基づいた標準化を実行する。なお、ステップS13は必須ではない。例えば、ステップS13~S15を用いる代わりに、ステップS14またはステップS15のどちらか一方のみを実装してもよい。
【0067】
標準化が施された拡張データ59における各特徴量xi,pは、機械学習における“入力ベクトルxiの第p成分”として用いられるようになっている。言い換えると、本実施形態に係る音質分析方法は、機械学習における入力ベクトルとして、特徴量xi,pを用いるように構成されている。
【0068】
CPU3によって標準化が施された複数の拡張データ59は、RAM7、HDD9等に一時的にまたは継続的に格納される。そうして格納されたデータは、学習準備フェーズS2等において、必要に応じて読み込まれる。ステップS14またはステップS15が完了すると、制御プロセスは、
図4に例示したフローからリターンし、
図3のステップS2へ進む。
【0069】
また、説明の便宜上、「標準化が施された複数の拡張データ」なる語は、単に「複数の拡張データ」と呼称される。
【0070】
(学習準備フェーズS2)
図5は、学習準備フェーズS2の手順を例示するフローチャートである。
図5に例示するフローチャートは、
図3のステップS2において行われる処理を示している。すなわち、
図3において制御プロセスがステップS2に進むと、CPU3は、
図5のステップS21~S22をフローに従って実行することになる。
【0071】
まず、
図5のステップS21において、RAM7が、サンプル増幅フェーズS1において生成された複数の拡張データ59をHDD9等から読み込む。
【0072】
次いで、ステップS22において、学習準備フェーズS2において、データ拡張後の各拡張データ59、より詳細には拡張データ59毎に与えられる各特徴量xi,pに対し、音響データ49単位で音質の良否の判定結果がラベリングされる。
【0073】
このラベリングは、各音響特性に対応した特徴量の設定とは独立して行われるようになっている。ここでいう「音質の良否の判定」には、いわゆる「ゴールデンイヤー」と呼称される特殊技能者等、人間による判定が含まれる。
【0074】
前述のように、音質の良否は、音響データ49単位でラベリングされる。つまり、本実施形態では、
図8および
図9に例示するように、データ増幅前の音響データ49に対してラベリングされた判定結果(Good/Bad)が、データ増幅後の各拡張データ59においても保持されるようになっている。
【0075】
例えば、
図9に示すように、車種Aに係る音響データ49に基づいて生成された拡張データ59(
図9の車種A
1,…A
m,に係る拡張データ59)には、車種Aと同じ判定結果(図例では「Good」)がラベリングされる。同様に、車種Bに係る音響データ49に基づいて生成された拡張データ59(
図9の車種B
1,…B
m,に係る拡張データ59)には、車種Bと同じ判定結果(図例では「Bad」)がラベリングされる。
【0076】
本実施形態に係るラベリングは、各拡張データ59、より詳細には各特徴量xi,pに離散値Yiを関連付けることで行われるように構成されている。離散値Yiは、音質の良否を示す指標であり、例えば、「Yi=1」の場合は「Good(音質:良)」となりかつ「Yi=0」の場合は「Bad(音質:悪)」となるように定義したり、その反対の対応関係となるように定義したりすることできる。
【0077】
各特徴量xi,pにラベリングされた音質の良否は、機械学習における“ラベル”として用いられるようになっている。つまり、本実施形態に係る音質分析方法は、機械学習として教師あり学習を実行するように構成されており、その際の教師データとして、前述した拡張データ59、より具体的にはP次元の入力ベクトルxiと、ラベルとしての離散値Yiと、のペア(xi,p,Yi)が用いられるように構成されている。
【0078】
CPU3によって生成された教師データ(x
i,p,Y
i)は、RAM7、HDD9等に一時的にまたは継続的に格納される。そうして格納されたデータは、機械学習フェーズS3等において、必要に応じて読み込まれる。ステップS22が完了すると、制御プロセスは、
図5に例示したフローからリターンし、
図3のステップS3へ進む。
【0079】
(機械学習フェーズS3)
図6は、機械学習フェーズS3の手順を例示するフローチャートである。
図6に例示するフローチャートは、
図3のステップS3において行われる処理を示している。すなわち、
図3において制御プロセスがステップS3に進むと、CPU3は、
図6のステップS31~S33をフローに従って実行することになる。
【0080】
まず、
図6のステップS31において、RAM7が、機械学習に係る各種設定を読み込んで、機械学習の事前準備を完了する。このステップS31において読み込まれる設定には、例えば、線形分類器を示す関数fを構成する各影響係数β
pの初期値、教師データ(x
i,p,Y
i)、分割公差検証における分割数kの大きさ、ならびに、ラッソ回帰における正則化パラメータの上限値、下限値および刻み幅等が含まれる。
【0081】
上記設定のうち、例えば関数fは、線形分類器を示すようにモデル化される。すなわち、関数fは、重み付け係数と、特徴量xi,pとの線形結合を引数とするように事前に設定される。ここで、線形分類器を構成する重み付け係数としては、それぞれ音響特性に対応した複数の影響係数βpが設定される。各影響係数βpは、該影響係数βpに対応した特徴量xi,p、ひいては該特徴量xi,pに対応した音響特性の、音質の良否判定における寄与度を示す。つまり、影響係数βpの値が大きい場合には、それに対応する音響特性が音質の良否判定に相対的に強く影響しているとみなすことができ、影響係数βpが小さい場合には、それに対応する音響特性が、音質の良否の判定に相対的に弱く影響しているとみなすことができる。
【0082】
関数fの具体的な関数形としては、音質の良否を分断する境界線を示す一次関数(いわゆる線形分離による分類)を用いることができる。これに代えて、関数fの関数形として、音質の良否を確率的に決定するための確率分布関数を用いることもできる。
【0083】
前者の場合、
【0084】
【数3】
と記述することができる。より正確には、式(3)において、左辺に示すy
iは、右辺がゼロ以上の場合はy
i=1を出力し、右辺がゼロ未満の場合はy
i=0を出力するように定義されている。後者の場合は、例えば、シグモイド関数を用いることができる。
【0085】
式(3)において、関数fの出力結果yiと、教師データを構成するように事前に設定されたラベルYiの値が一致する場合が「正解(ゴールデンイヤーの再現に成功)」に該当し、不一致の場合が「不正解(ゴールデンイヤーの再現に失敗)」に該当する。i=1~Nにわたって与えられる教師データ(xi,p,Yi)を用いて影響係数βpの値を学習することで、ゴールデンイヤーによる判定を再現するような線形分類器を決定することができる。
【0086】
具体的に、ステップS31から続くステップS32において、前述のペア(xi,p,Yi)を教師データとした状態でCPU3がラッソ回帰を行うことで、複数の影響係数βpを学習する。つまり、CPU3は、正則化パラメータλを用いたL1正則化の元で誤差関数Sλを最小化するように、機械学習を実行する。
【0087】
この場合、誤差関数Sλの関数形は、下式(4)のように記述することができる。
【0088】
【0089】
式(4)は、線形分離を用いる場合の具体例である。ロジスティック回帰を行う場合、一次関数に対応した項が、シグモイド関数等に置き換わることになる。その場合、ベイズ推定を通じた機械学習が実行されることになる。
【0090】
さらに詳しくは、線形分類を用いる場合、正則化パラメータλの値を最適化すべく、分割交差検証を行うことができる。その際、教師データ(xi,p,Yi)を、拡張データ59を分類するための変数iについて分割することが求められる。ここで、本実施形態では、教師データ(xi,p,Yi)の分割は、音響データ49単位、つまり、車種毎に行われるようになっている。言い換えると、教師データ(xi,p,Yi)の分割は、音響データ49ひいては車種毎に同数となるように行われる。
【0091】
例えば、
図9に示す例において、分割数kが10に設定された場合、車種Aを拡張元とした全M個の拡張データ59と、車種Bを拡張元とした全M個の拡張データ59と、がそれぞれ10分割されることになる。
【0092】
前記のように分割した状態で、CPU3は、分割された教師データ(xi,p,Yi)のうちのいずれか1ブロックを検証用のテストデータに設定し、分割された教師データ(xi,p,Yi)のうちの他のブロックを、そのまま教師データとして用いる。例えば、教師データ(xi,p,Yi)を10ブロックに分割した場合、そのうちの1ブロックがテストデータに設定され、残りの9ブロックが教師データとして用いられる。各車種において、教師データとテストデータとが同様に設定される。
【0093】
そして、CPU3は、教師データとしての9ブロックを用いて関数fを学習する。具体的に、CPU3は、上式(4)で表される誤差関数を最小化するような影響係数βpを演算する。この演算は、例えば座標降下法を用いて行うことができる。
【0094】
関数fの学習の際、λは、事前に設定された範囲内の所定値に固定される。関数fを学習した後、CPU3は、テストデータとしての1ブロックを、学習された関数fに入力することで、式(4)で記述される誤差の値を計算する。
【0095】
その後、CPU3は、教師データとして用いる9個のデータブロックと、テストデータとして用いる1個のデータブロックとの組合わせを変更し、再度、上式(4)で示される誤差を計算する。こうして、10個に分割された各データブロックの各々を1回ずつテストデータに設定し、各設定時に得られた誤差の加算平均(より一般的には、いわゆる「Classification error」と呼称される誤差)を算出する。
【0096】
その後、CPU3は、λの値を事前に設定された範囲内で増減させ、誤差の加算平均を繰り返し算出する。そうして、λの値を変化させながら、教師データとテストデータとの組み合わせを差し替えつつ誤差の加算平均を算出していくことで、誤差の加算平均が最小となるようなλの最適値を決定する。
【0097】
そして、ステップS32から続くステップS33において、CPU3は、最適値となるように決定されたλと、分割前の全ての教師データ(xi,p,Yi)と、を用いることで、複数の影響係数βpを再度算出し、線形分類器(関数f)の関数形を暫定的に決定する。
【0098】
CPU3によって暫定的に決定された線形分類器と、その決定に際して教師データとして用いた拡張データ59(機械学習フェーズS3の初回実行時の場合、全N個の拡張データ59が該当)は、RAM7、HDD9等に一時的にまたは継続的に格納される。そうして格納されたデータは、分類テストフェーズS4において、必要に応じて読み込まれる。ステップS33が完了すると、制御プロセスは、
図6に例示したフローからリターンし、
図3のステップS4へ進む。
【0099】
(分類テストフェーズS4)
図7は、分類テストフェーズS4の手順を例示するフローチャートである。また、
図10は、分類テストフェーズS4における重み係数等の間引きについて説明する図である。
図7に例示するフローチャートは、
図3のステップS4において行われる処理を示している。すなわち、
図3において制御プロセスがステップS4に進むと、CPU3は、
図7のステップS41~S45をフローに従って実行することになる。
【0100】
まず、
図7のステップS41において、RAM7は、機械学習フェーズS3において暫定的に決定された分類器の関数形と、その分類器の決定に用いた現時点での拡張データ59(ステップS4の初回実行時の場合、全N個の拡張データ59が該当)を読み込む。
【0101】
次いで、ステップS41で読み込まれた複数の拡張データ59を分類器(線形分類器)に入力する(ステップS42)ことで、複数の拡張データ59のそれぞれについて、学習準備フェーズS2においてラベリングされた音質の良否と、分類器によって分類された音質の良否と、をCPU3が照合する(ステップS43)。
【0102】
つまり、このステップS43では、CPU3は、暫定的に決定された関数fの出力結果yiと、i番目の拡張データ59に関連したラベルYiの値と、を比較して、両者が一致するか否かを判定する。
【0103】
前述のように、関数fの出力結果yiと、教師データとして事前に設定されたラベルYiの値が一致する場合が「ゴールデンイヤーの再現に成功」に該当し、不一致の場合が「ゴールデンイヤーの再現に失敗」に該当する。
【0104】
そして、ステップS43から続くステップS44において、CPU3は、現時点での全拡張データ59について分類結果(関数fの出力結果yi)と、事前の判定結果(ラベルYi)とが一致するか否かを判定し、一致した場合(ステップS44:YES)にはステップS45へ進む一方、少なくとも一部が一致しなかった場合(ステップS44:NO)にはステップS46へ進む。
【0105】
ステップS45に進んだ場合、CPU3は、機械学習フェーズS3により決定された複数の影響係数βpの値に基づいて、音質の良否に寄与する音響特性を抽出する。
【0106】
具体的に、このステップS45では、CPU3は、複数の影響係数βpを大きさ順に並べ替えて、順位付けを実行する。そうして決定された順位は、表示部11上に可視化されたり、HDD9等に格納されたりする。例えば、表示部11上に表示された順位を通じて、ゴールデンイヤーによる判定に影響を及ぼす音響特性を開発者等に視認させることができるようになる。
【0107】
一方、ステップS44からステップS46に進んだ場合、CPU3は、複数の拡張データ59のうち、ラベルとして設定された良否の判定結果(ラベルYi)と、分類器による分類結果(関数fの出力結果yi)とが相異する拡張データ59を示す分類エラーデータ59’を決定する。
【0108】
そして、ステップS46から続くステップS47において、CPU3は、分類エラーデータ59’とみなされたデータを全N個の拡張データ59から除外する。例えば、
図10に示す例では、全2×M個の拡張データ59のうち、車種Aに関連したM番目の拡張データ59が分類エラーデータ59’に相当する。これを除外することで、RAM7等には、全N-1個の拡張データ59が格納されることになる。
図10の例に限らず、CPU3は、分類エラーデータ59’と判定された全てのデータを拡張データ59から除外する。
【0109】
ステップS47から続くステップS48において、CPU3は、複数の影響係数βpのうち、ラッソ回帰を通じて所定の基準値未満となるように決定された影響係数βpを示す小寄与係数βp’を決定する。
【0110】
ラッソ回帰を行うことで、音質の良否判定への寄与が小さい影響係数β
pは、実質的にゼロの値となる。CPU3は、影響係数β
pの値の大きさと、例えばゼロに設定された基準値と、を比較することで、ゴールデンイヤーによる判定への影響が小さいと推測される小寄与係数β
p’を抽出する。そして、ステップS48から続くステップS49において、CPU3は、上式(3)等で示される関数fから、影響係数β
pに係る項を除外する。例えば、
図10に示す例では、全P個の影響係数β
pのうち、2番目の音響特性に対応した影響係数β
2が小寄与係数β
p’に相当する。
【0111】
ステップS49を行った後、制御プロセスは、分類テストフェーズS4から機械学習フェーズS3に戻り、分類テストフェーズS4に係る処理を反映した状態で、機械学習フェーズS3を再度実行する。
【0112】
上記のようにして再度実行される機械学習フェーズS3は、ステップS46に係る処理が反映された状態で行われる。すなわち、CPU3は、複数の拡張データ59から分類エラーデータ59’を除外した状態で機械学習フェーズS3を再度実行することで、分類器(詳細には、関数fの関数形)を更新する。その後、制御プロセスは、機械学習フェーズS3から分類テストフェーズS4に遷移し、前述のステップS44に係る判定が再度実行される。ステップS44に係る判定がNoの場合、分類エラーデータ59’がさらに除外されることになる。
【0113】
このように、CPU3は、複数の拡張データ59から分類エラーデータ59’が抽出されなくなるまで、分類テストステップおよび分類器の更新を繰り返し実行することになる。
【0114】
また、上記のようにして再度実行される機械学習フェーズS3は、ステップS49に係る処理を反映した状態で行われることになる。すなわち、CPU3は、複数の拡張データ59から分類エラーデータ59’を除外しかつ複数の影響係数βpから小寄与係数βp’を除外した状態で機械学習フェーズS3を再度実行することで、線形分類器を更新するようになっている。これにより、ラッソ回帰において用いられる関数fは、徐々に低次元の関数へと変化していくことになる。
【0115】
<音質分析方法の実施例>
図11は、分類テストフェーズS4における重み係数等の影響について説明する図であり、
図12は、影響係数の順位付けについて説明する図である。この実施例では、2種類の車室内で録音されたオーディオ音響データを分析対象とした。つまり、音響データ49の数は2個である(n=2)。また、録音に際し、集音マイクは、ドライバーの座席に配置された。さらに、集音マイクは、ドライバーの左右の両耳に対応するように、左右方向(車幅方向)に沿って並ぶように配置された。
【0116】
また、各車種において分析対象とした音響特性の数、すなわち、特徴量および影響係数の数は、機械学習フェーズS3の初回実行時においては96個である(P=96)。
【0117】
また、本実施例では、車種Aと車種Bでそれぞれ10000倍にデータ拡張されるようになっている(M=10000)。したがって、拡張データ59の数は、機械学習フェーズS3の初回実行時においては20000個となっている(N=M×n=20000)。
【0118】
本実施例では、上式(3)に示すような線形分離を実行した。その際、交差検証における分割数kは10に設定し、正則化パラメータλを考慮した誤差関数Sλ(β)の最小化は、座標降下法を利用して行った。
【0119】
本実施例では、複数の拡張データ59からの分類エラーデータ59’の除外、および、影響係数β
pからの小寄与係数β
p’の除外は、2回にわたり行われた(つまり、機械学習フェーズS3を計3回にわたって実行した)。
図11に示すように、機械学習フェーズS3を繰り返す度に、分類精度(関数fの出力結果y
iと、ラベルY
iとが一致した割合)が向上していくようになっている。本実施例では、当初設定されていた20000個の拡張データ59のうち、9777個の分類エラーデータ59’が間引かれることになった。最終的に用いられた拡張データ59の数(関数fの出力結果y
iと、ラベルY
iとが一致した拡張データ59の数)は、10223個である。
【0120】
そして、各影響係数β
pの大きさは、
図12に示すように可視化された。ここで、
図12の横軸は各影響係数β
pを区別するためのIDナンバー(pの値)であり、縦軸は各影響係数β
pの値である。ここで、「1」~「10」の数字とともに付された丸印は、それぞれ、1番目~10番目に大きな影響係数β
pを示す目印である。
図12のようにグラフを可視化することで、ゴールデンイヤーによる音質の良否判定への寄与度が大きい影響係数β
p、ひいては該影響係数β
pに対応した音響特性を明らかにすることが可能となる。過学習を意図的に引き起こしつつラッソ回帰を併せて行うことで、各影響係数β
pの差異が増大する。
【0121】
<音響特性の定量化および客観的分析について>
以上説明したように、本実施形態に係る音質分析方法では、
図4のステップS12に例示したように、複数の音響データ49に対してデータ拡張を実行し、複数の拡張データ59を生成する。従来知られた知見によれば、過度のデータ拡張は、過学習を招くため望ましくないとされてきた。
【0122】
しかしながら、本実施によれば、意図的に過学習、または、それに近い状況を作り出すためにデータ拡張を実行する。これにより、未知の音響データに対する分類性能が抑制される一方で、教師データとして用いた既知の音響データ49については、その音質の良否判定に際して寄与した影響係数βpと、他の影響係数βpと、の差異が有意に拡大する。
【0123】
また、上記のように過学習を意図的に引き起こしたことと、ラッソ回帰による機械学習(寄与度の小さな重み付け係数がゼロとなる回帰手法)と、が相まって、音質の良否判定に大きく寄与するような影響係数βpと、それよりも寄与の小さい影響係数βpと、を明確に分かつことができる。これにより、人間の主観的評価等に基づいてラベリングされる音質の良否において、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにすることができる。
【0124】
また、上式(1)に示すように、データ拡張によって生成される拡張データ59の平均値μpおよび標準偏差σpに基づいて標準化を実行することで、音響データ49が事後的に新たに追加される場合にあっても、その追加された音響データ49を反映した標準化をスムースに行うことができるようになる。これにより、音質分析方法における各ステップの内容を変更することなく、そのまま行うことができるようになる。
【0125】
また、
図7のステップS44、ステップS46およびステップS47等に示すように、CPU3は、拡張データ59から分類エラーデータ59’を除外した状態で、機械学習フェーズS3を再度実行する。分類エラーデータ59’は、例えば、人間等による判定では音質が良いと判定されていたところ、分類器による分類では音質が悪いと判定されてしまうような拡張データ59に相当する。より詳しくは、線形分離を行うような線形分類器を用いた場合、そうした分類エラーデータ59’は、線形分離を特徴付ける境界線(関数fによって定められる直線)を跨ぐような拡張データに相当する。
【0126】
本実施形態によると、CPU3は、そうした分類エラーデータ59’を教師データから除外する。前述のように境界線を跨ぐデータを除外することで、過学習がさらに促される。これにより、音質の良否を評価する際に、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにする上で有利になる。
【0127】
また、前述のように、分類エラーデータ59’が抽出されなくなるまで、分類テストフェーズS4および線形分類器の更新を繰り返し実行することで、過学習が一層促されることになる。これにより、音質の良否を評価する際に、如何なる音響特性がその評価に寄与しているかを、客観的にかつ定量的に明らかにする上で有利になる。
【0128】
また、前述のように、ラッソ回帰を行うことで、良否の判定への寄与が少ない影響係数βpは、ゼロとなる。本願発明者らが鋭意検討を重ねた結果、得られた知見によれば、ゼロとなった影響係数βpのような小寄与係数βp’を除外した状態で再度ラッソ回帰を行うことで、前述の如き分類エラーデータ59’の出現を抑制することが可能となる。これにより、より分類精度に優れた分類器を得ることができるようになる。
【0129】
また、一般に、車種毎のオーディオ音響データを得るためには、複数種の異なる車体を用意する必要がある。機械学習の精度を高めるためには、多数の車体において音響データを録音することが求められるものの、複数種の異なる車体を用意するのは容易ではない。
【0130】
一方、そうしたオーディオ音響データにおいてデータ拡張を行うことで、
図8および
図9に示すように分析対象とする車体が少ない場合であっても、高精度な機械学習を行うことができるようになる。また、そうしたオーディオ音響において、寄与度の大きい音響特性を明らかにすることで、オーディオの音響性能を向上させる際に、特定の音響特性を重点的に作り込むことができるようになる。これにより、オーディオ製品の性能を効率よく向上させることが可能となる。
【0131】
《他の実施形態》
前記実施形態では、複数の音響データ49を拡張データ59にデータ拡張した後に、各拡張データ59にラベルYiを関連付けるように構成されていたが、そうした構成には限定されない。すなわち、学習準備ステップとしての学習準備フェーズS2は、データ拡張前の各音響データ49に対し、音響データ49単位で音質の良否の判定結果をラベリングするように構成してもよい。このように構成した場合、学習準備フェーズS2は、サンプル増幅フェーズS1前に実行されることになる。各音響データ49に対して付されるべきラベルYiは、音響データ49と関連付けた状態で、事前にHDD9等に記憶させておいてもよい。
【0132】
また、各図に示したフローチャートの構成は、例示に過ぎず、適宜変更することができる。例えば、
図7のステップS48およびステップS49に係る処理を、ラッソ回帰を行った直後のタイミング(具体的には、機械学習フェーズS3を終えた後の、分類テストフェーズS4を開始する直前のタイミング)にて行ってもよい。
【0133】
また、前記実施形態では、コンピュータ1の一例として、1つのCPU3を有するものを例示したが、本開示は、その例に限定されない。コンピュータ1には、パーソナルコンピュータに加え、スーパーコンピュータ、PCクラスタ等の並列計算機も含まれる。例えば、
図3のサンプル増幅フェーズS1、学習準備フェーズS2等、一部の工程のみをパーソナルコンピュータに実行させ、機械学習フェーズS3等、計算時間を要する工程のみを並列計算機に実行させてもよい。
【0134】
すなわち、本開示における「演算部」は、特定の計算機における演算部と、その他の計算機における演算部と、を組み合わせて構成してもよい。その場合、「コンピュータ1」の語は、複数のコンピュータからなるシステムを意味することになる。
【0135】
また、前記実施形態では、特定の車室内で録音された音響データ49を分析対象としたが、本開示は、そうした分析対象には限定されない。ここに開示された技術は、室内で用いられるオーディオ一般に適用することができる。
【産業上の利用可能性】
【0136】
以上説明したように、本開示は、車室内で用いられるオーディオ音響データのように、種々の音響データの音質の分析に有用であり、産業上の利用可能性がある。
【符号の説明】
【0137】
1 コンピュータ
3 CPU(演算部)
7 RAM(記憶部)
11 表示部
18 記憶媒体
29 音質分析プログラム
49 音響データ
59 拡張データ
S1 サンプル増幅フェーズ(サンプル増幅ステップ)
S2 学習準備フェーズ(学習準備ステップ)
S3 機械学習フェーズ(機械学習ステップ)
S4 分析テストフェーズ(分析テストステップ)