【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人情報通信研究機構、委託研究「革新的な三次元映像技術による超臨場感コミュニケーション技術の研究開発 課題エ:感性情報認知・伝達技術」、産業技術力強化法第19条の適用を受ける特許出願
(58)【調査した分野】(Int.Cl.,DB名)
前記心理状態遷移モデルデータベースは、前記被験者の心理状態が段階的に遷移する心理状態遷移モデルを記憶することを特徴とする請求項1から請求項3の何れか一項に記載の聴覚印象量推定装置。
前記心理状態遷移モデルデータベースは、前記被験者の心理状態に含まれる内部状態が遷移する心理状態遷移モデルを記憶することを特徴とする請求項1から請求項3の何れか一項に記載の聴覚印象量推定装置。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。
【0026】
(第1実施形態)
[聴覚印象量推定装置の構成]
図1を参照し、本発明の第1実施形態に係る聴覚印象量推定装置1の構成について説明する。
聴覚印象量推定装置1は、聴取者が再生音場音響信号(音響信号)を聴いたときの聴覚印象量と、臨場感の推定値とを提示するものである。このため、聴覚印象量推定装置1は、音響信号分析手段10と、データベース20と、心理状態推定手段30と、確率分布モデル抽出手段(抽出条件生成手段)40と、聴覚印象量推定手段50とを備える。
なお、設定パラメータ入力手段60及び生体情報測定手段70は、後記する。
【0027】
まず、音響信号分析手段10に入力される再生音場音響信号について説明する。
再生音場音響信号は、再生音場で収音された音響信号(実際に再現された音響空間で計測された音響信号)である。例えば、再生音場音響信号は、コンサートホールでのオーケストラ生演奏を収音した音響信号を、リビングルームのオーディオ機器により再生して、その再生音を収音した音響信号である。
【0028】
このとき、音響空間の計測(再生音場音響信号の収音)には、例えば、人間の頭部を模擬した計測装置(ダミーヘッドに設置されたマイクロホン)を用いることができる。
また、音響空間の計測には、複数のマイクロホンを用いて空間的な情報を取得できる計測装置を用いてもよい。例えば、複数のマイクロホンを配置して、音量や位相を比較することで、音の到来方向を算出することができる。このとき、信号間相関(ダミーヘッドの場合は、両耳間相関)を算出することで、音の拡がり感を空間的な情報として取得できる。
【0029】
音響信号分析手段10は、再生音場音響信号が入力され、入力された再生音場音響信号の音響特徴量である音響分析値を、再生音場音響信号を音響分析して求めるものである。例えば、音響信号分析手段10は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量を、音響分析値として算出する。そして、音響信号分析手段10は、算出した音響分析値を、確率分布モデル抽出手段40に出力する。
【0030】
ここで、音響信号分析手段10は、音響特徴量として、音像の方向を求めてもよい。例えば、両耳間レベル差及び両耳間位相差から、聴取者に対する音像の角度を求める。音像の方向を4方向で表す場合、音響信号分析手段10は、求めた音像の角度が聴取者の正面90°の範囲内であれば音像の方向を「正面」とし、この音像の角度が聴取者の左右90°の範囲内であれば音像の方向を「側面」とし、この音像の角度が聴取者の背面90°の範囲内であれば音像の方向を「背面」とする。
さらに、音響信号分析手段10は、音像の方向を、45°の範囲内で区分された8方向で表してもよい。
【0031】
なお、これら音響分析の手法は、一般的なものであるため説明を省略する。また、音響信号分析手段10が求める音響特徴量は、音響分析可能なものであればよく、これらに限定されないことは言うまでもない。また、音響信号分析手段10がどの音響特徴量を求めるかは、手動で設定することができる。
【0032】
データベース20は、後記する心理状態推定手段30及び聴覚印象量推定手段50が用いる様々な情報が予め記憶されたデータベースである。例えば、データベース20は、評価用音響信号と、心理状態遷移モデル21と、確率分布モデル23と、重み係数とを記憶している。
【0033】
評価用音響信号は、心理状態遷移モデル21及び確率分布モデル23を構築するときの主観評価実験において、被験者が聴いた音響信号である。この評価用音響信号は、再生音場音響信号が含まれてもよく、再生音場音響信号が含まれなくてもよい。
【0034】
心理状態遷移モデル21は、音響特徴量を評価条件とし、評価条件毎に主観評価実験を行って被験者の心理状態間の遷移確率を求めたものである。
評価条件(メタデータ)とは、心理状態遷移モデル21を構築するための主観評価実験を行った条件である。
なお、心理状態遷移モデル21の構築については後記する。
【0035】
心理状態とは、聴取者や被験者の気持ちを示すものであり、例えば、ゾクッとするような感動を示す「感動(ゾクッ)」、感動が特にない「平常」、ジーンとするような感動を示す「感動(ジーン)」といったものがある。
【0036】
この他、心理状態には、例えば、「楽しい」、「悲しい」、「イライラ」といったものがある。
さらに、心理状態は、カテゴリーで区分してもよい。例えば、「抑鬱」というカテゴリーの心理状態には、「気がかりな」、「不安な」、「自信がない」という心理状態が含まれる。また、例えば、「敵意」というカテゴリーの心理状態には、「攻撃的な」、「憎らしい」、「むっとした」という心理状態が含まれる。また、例えば、「倦怠」というカテゴリーの心理状態には、「つまらない」、「疲れた」、「退屈な」という心理状態が含まれる。また、例えば、「活動的快」というカテゴリーの心理状態には、「活気のある」、「気力に満ちた」、「はつらつとした」という心理状態が含まれる。また、例えば、「非活動的快」というカテゴリーの心理状態には、「のんびりした」、「のどかな」、「おっとりした」という心理状態が含まれる。また、例えば、「親和」というカテゴリーの心理状態には、「いとおしい」、「愛らしい」、「すてきな」という心理状態が含まれる(参考文献1参照)。
参考文献1:「多面的感情状態尺度の作成」、寺崎他、心理学研究、第62号、pp.350-356、1992
【0037】
前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象(再生音場音響信号A及び評価用音響信号)に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘0’、「興味が無い」を‘1’のような2値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。
【0038】
確率分布モデル23は、被験者の心理状態毎に主観評価実験を行って、モデルデータ(聴覚印象量及び音響特徴量)を予め対応付けたものである。
聴覚印象とは、聴取者や被験者が感じた音の特徴を言葉で表現(ラベリング)したものであり、例えば、「広がり感」、「明るい」といったものがある。
聴覚印象量とは、聴覚印象の程度、つまり、聴覚印象を数値化したものである。
なお、確率分布モデル23の構築については後記する。
【0039】
重み係数は、臨場感推定値に対する聴覚印象量の寄与率を示すものであり、重回帰分析、数量化I類等の多変量解析により求めることができる。
重回帰分析では、複数の観測値(説明変数)から変数(目的変数)を予測するとき、予測誤差が最も少なくなるように寄与率を算出する。本実施形態では、観測値(説明変数)を音響特徴量の確率分布モデル23から求めた聴覚印象量とし、変数(目的変数)を臨場感推定値とした重回帰分析を行う。このことから、重み係数は、データベース20に記憶されている観測値に依存することになる。
【0040】
なお、多変量解析により重み係数を求める例を説明したが、学習手法は、これに限定されない。例えば、重み係数は、ニューラルネットワーク、遺伝的アルゴリズム等の機械学習で求めることもできる。
【0041】
<心理状態遷移モデルの構築:第1例>
以下、
図2〜
図4を参照し、心理状態遷移モデル21の構築について、第1例〜第3例を説明する(適宜
図1参照)。
図2に示すように、第1例の心理状態遷移モデル21は、「感動(ゾクッ)」と、「平常」と、「感動(ジーン)」との間のように、ある心理状態から別の心理状態に遷移する。また、心理状態遷移モデル21は、「平常」を維持するように、同一の心理状態を維持する。
【0042】
この
図2では、被験者の心理状態を、「感動(ゾクッ)」、「平常」、「感動(ジーン)」として説明する。
また、丸中の文字が心理状態を示し、心理状態が遷移する経路を矢印で示す(
図3も同様)。
また、心理状態の遷移確率をP
xとする(x=11,12,13,21,22,31,33)。例えば、遷移確率P
11は、「平常」から遷移せずに「平常」を維持する確率を示す。また、例えば、遷移確率P
12は、「平常」から「感動(ジーン)」へ遷移する確率を示す。
【0043】
心理状態遷移モデル21は、複数の被験者に主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせながら、心理状態の変化(遷移)をフェーダにより入力させる。このフェーダは、左端が「感動(ゾクッ)」を示し、中央が「平常」を示し、右端が「感動(ジーン)」を示している。また、被験者がフェーダを移動させることで、評価用音響信号を聞いたときの心理状態の変化を入力できる。
【0044】
また、評価用音響信号を被験者に聴かせている間、評価用音響信号の「ラウドネス」を測定しておく。そして、心理状態の変化及び「ラウドネス」の関係から、「感動(ゾクッ)」と、「平常」と、「感動(ジーン)」との間での遷移確率P
xを示す心理状態遷移モデル21を求めることができる
【0045】
ここで、急激な音量の変化があるとゾクッとするような感動が得られることが知られている(参考文献2参照)。このため、心理状態遷移モデル21では、評価用音響信号の時刻t
1,t
2におけるラウドネス推定値の差分が予め設定された閾値以上となる場合、「平常」から「感動(ジーン)」への遷移確率P
12の値を高く設定してもよい。
【0046】
参考文献2:O.Grewe,et al,“Listening to music as a re-creative process:Physiological, psychological, and psychoacoustical correlates of chills and strong emotions. ”Music Perception,Vol.24,No.3,pp.297-314,2007.
【0047】
<心理状態遷移モデルの構築:第2例>
図3に示すように、第2例の心理状態遷移モデル21は、「感動(ジーン)高」と、「感動(ジーン)中」と、「感動(ジーン)低」との間のように、ある心理状態が段階的に遷移する。
【0048】
例えば、心理状態遷移モデル21では、ジーンとするような感動の強度に応じて、「感動(ジーン)高」と、「感動(ジーン)中」と、「感動(ジーン)低」というように3段階で設定されている。
【0049】
ここで、「感動(ジーン)高」は、ジーンとするような感動の強度が高いことを示す。また、「感動(ジーン)低」は、ジーンとするような感動の強度が低いことを示す。また、「感動(ジーン)中」は、ジーンとするような感動の強度が「感動(ジーン)高」及び「感動(ジーン)低」との中間であることを示す。
【0050】
以上のように、第2例では、心理状態の強度を反映させた心理状態遷移モデル21を構築し、聴取者の心理状態の遷移を詳細に把握することが可能となる。
なお、第2例では、遷移確率P
xを第1例と同様に設定できるため、説明及び図示を省略した。
【0051】
<心理状態遷移モデルの構築:第3例>
図4に示すように、第3例の心理状態遷移モデル21は、「平常」に含まれる内部状態「無関心」と、「関心」と、「高関心」との間のように、同一の心理状態に含まれる内部状態が遷移する。また、心理状態遷移モデル21は、「平常」に含まれる「高関心」と、「感動」に含まれる内部状態「感動低」との間のように、異なる心理状態に含まれる内部状態でも遷移する。
【0052】
この内部状態とは、聴取者や被験者の心理状態を言葉で表現(ラベリング)したものである。ここで、内部状態とは、心理状態遷移モデル21を構成する1単位(1ユニット)のことである。
例えば、心理状態が「平常」であれば、内部状態は、関心が無いことを示す「無関心」と、関心があることを示す「関心」と、関心が高いことを示す「高関心」とになる。
また、例えば、心理状態が「感動」であれば、内部状態は、感動が低いことを示す「感動低」と、感動が高いことを示す「感動高」とになる。
また、例えば、心理状態が「嫌悪」であれば、内部状態は、否定していることを示す「否定」と、険悪なことを示す「険悪」とになる。
【0053】
このように、第3例では、「平常」という心理状態を内部状態で区別することで、各内部状態から別の心理状態である「感動」へ遷移する確率を変えることができる。従って、第3例では、聴取者の心理状態の遷移を詳細に把握することが可能となる。
【0054】
また、一度、心理状態が「感動」になってから「平常」に戻った場合、そのときの内部状態が、次に「感動」に戻りやすい「高関心」であると考えられる。従って、
図4に示すように、「感動低」から「関心」のように、ある内部状態に戻らない心理状態遷移モデル21を構築することもできる。
【0055】
なお、
図4では、破線内側の文字が心理状態を示し、丸中の文字が内部状態を示し、心理状態が遷移する経路を矢印で示す。
また、第3例では、遷移確率P
xを第1例と同様に設定できるため、説明及び図示を省略した。
また、例えば、心理状態遷移モデル21は、前記した第1例〜第3例のうち、任意の手法で構築できる。
【0056】
<確率分布モデルの構築>
確率分布モデル23の構築について説明する。
例えば、聴覚印象の「広がり感」、両耳間相互相関度、音圧レベル、音源の方向、直前の音の広がり、及び、聴取者の嗜好の影響を受けると考えられる。そこで、音響特徴量を「両耳間相互相関度」とし、聴覚印象を「広がり感」として説明する。
【0057】
この確率分布モデル23は、複数の聴取者(被験者)に対して主観評価実験を行って、構築できる。具体的には、評価用音響信号を被験者に聴かせると共に、評価用音響信号の「両耳間相互相関度」を測定しておく。また、「平常」といった被験者の心理状態も、この被験者に予め回答させておく。
【0058】
ここで、様々な心理状態で評価用音響信号を聴いたときに感じた「広がり感」の程度を被験者に回答させて、「広がり感」の聴覚印象量として求める。そして、評価用音響信号の「両耳間相互相関度」と、被験者が回答した「広がり感」の聴覚印象量とを対応付けて、モデルデータとして求める。このとき、各モデルデータには、このモデルデータを対応付けたときの心理状態を付加する。この主観評価実験を、心理状態が「平常」や「感動(ゾクッ)」といった、複数の被験者に対して行い、様々な心理状態におけるモデルデータを求める。その結果、確率分布モデル23は、「平常」、「感動(ゾクッ)」といった心理状態が個々のモデルデータに付加されることになる。
【0059】
図1に戻り、聴覚印象量推定装置1の構成について、説明を続ける。
心理状態推定手段30は、心理状態遷移モデル21に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。つまり、心理状態推定手段30は、乱数発生処理を用いて確率的に、最も尤からしい聴取者の心理状態を推定する。
【0060】
ここで、「平常」から「感動(ジーン)」と、「平常」から「感動(ゾクッ)」とのように、同一の心理状態から別々の心理状態に遷移する可能性がある(
図2参照)。この場合、心理状態推定手段30は、「平常」から「感動(ジーン)」及び「感動(ゾクッ)」に遷移するか否かを、遷移確率P
12,P
13と、遷移確率P
12,P
13それぞれで発生させた乱数との比較により判定する。例えば、遷移確率P
12,P
13の最大値、平均値又は中央値の何れかを基準値とし、この基準値と乱数とを比較し、基準値から乱数が最も離れている心理状態を推定結果としてもよい。そして、心理状態推定手段30は、推定された聴取者の心理状態を確率分布モデル抽出手段40に出力する。
【0061】
確率分布モデル抽出手段40は、確率分布モデル23に含まれる被験者の心理状態と、心理状態推定手段30で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成するものである。
【0062】
例えば、確率分布モデル23では、被験者の心理状態が「感動(ゾクッ)」及び「平常」であることとする。また、心理状態推定手段30で推定された聴取者の心理状態が「感動(ゾクッ)」であることとする。この場合、確率分布モデル23に含まれる全モデルデータの心理状態のなかで、心理状態推定手段30の推定結果に一致する心理状態は、「感動(ゾクッ)」である。従って、確率分布モデル抽出手段40は、例えば、「感動(ゾクッ)」を示す抽出条件を生成し、聴覚印象量推定手段50に出力する。さらに、確率分布モデル抽出手段40は、音響信号分析手段10から入力された音響分析値を、聴覚印象量推定手段50に出力する。
【0063】
<抽出条件の生成理由>
図5,
図6を参照し、抽出条件を生成する理由について、説明する。
図5(a)に示すように、音響特徴量は、音響信号の時間に応じて変化し、これに伴って聴覚印象量も変化する。このため、感動といった心理状態は、音響信号の途中(例えば、音楽を聴いている途中)で変化することがある。
この
図5(a)では、各時間の音響特徴量を実線で図示し、この音響特徴量の平均値を破線で図示した。
【0064】
従来の確率分布モデル90では、
図5(b)に示すように、各モデルデータの音響特徴量に音響分析結果の平均値や最大値が用いられ、各モデルデータの聴覚印象量に聴取後の評価値が用いられている。
この
図5(b)では、音響信号の各時間でのモデルデータを黒丸で図示した。つまり、
図5(b)の確率分布モデル90では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。
【0065】
しかし、
図5(c)に示すように、音響特徴量が同じ結果であっても、被験者の心理状態によって聴覚印象量が異なることがある。
この
図5(c)では、ある音響信号を聴取したとき、感動したと回答した被験者から求めた聴覚印象量の平均値を実線で図示し、全聴取者の平均値を破線で図示し、感動しないと回答した被験者から求めた聴覚印象量の平均値を一点鎖線で図示した。
【0066】
例えば、
図6(a)に示すように、確率分布モデル23の全モデルデータから回帰直線を描く。
この
図6では、評価用音響信号の各時間でのモデルデータを黒丸で図示した。つまり、
図6の確率分布モデル23では、黒丸のそれぞれが、異なる時間でのモデルデータを示している。
【0067】
また、
図6(b)に示すように、確率分布モデル23において、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータ(黒丸)と、評価用音響信号の聴取後に感動しないと回答した被験者から求めたモデルデータ(白丸)とを分類した。例えば、感動したと回答した被験者であっても、評価用音響信号の前半では感動していないことがあり、モデルデータの分散が大きくなる。その結果、
図6(c)に示すように、
図6(b)の全黒丸から求めた回帰直線(実線)と、全白丸から求めた回帰直線(破線)との誤差が大きくなる。
【0068】
また、
図6(d)に示すように、確率分布モデル23において、感動している心理状態の被験者から求めたモデルデータ(黒丸)と、感動していない心理状態の被験者から求めたモデルデータ(白丸)とを分類した。ここで、
図6(b)に示すように、評価用音響信号の聴取後に感動したと回答した被験者から求めたモデルデータにも、
図6(d)に示すように、時系列データとして扱うと、感動していない心理状態であった被験者から求めたモデルデータが含まれている(符号91参照)。従って、
図6(e)に示すように、
図6(d)の全黒丸から求めた回帰直線と、全白丸から求めた回帰直線とを描くと、両者の誤差が小さくなる。言い換えるなら、抽出条件で確率分布モデル23のモデルデータを絞り込むことで、回帰直線の誤差が小さくなる。
【0069】
図1に戻り、聴覚印象量推定装置1の構成について、説明を続ける。
聴覚印象量推定手段50は、聴覚印象量及び臨場感推定値を算出し、提示するものである。この聴覚印象量推定手段50は、聴覚印象量算出手段51と、臨場感推定値算出手段53と、聴覚印象量提示手段55とを備える。
【0070】
聴覚印象量算出手段51は、確率分布モデル23から、確率分布モデル抽出手段40で生成された抽出条件に一致するモデルデータを抽出し、抽出したモデルデータに、音響特徴量の区間毎に予め設定された確率関数を適用することで、確率分布モデル抽出手段40から入力された音響分析値に対応する聴覚印象量を算出するものである。
臨場感推定値算出手段53は、聴覚印象量算出手段51が算出した聴覚印象量に、予め設定された重み係数を乗じた値を、臨場感推定値として算出するものである。
【0071】
<聴覚印象量及び臨場感推定値の算出>
図7を参照し、聴覚印象量算出手段51による聴覚印象量を算出と、臨場感推定値算出手段53による臨場感推定値の算出とを説明する(適宜
図1参照)。
聴覚印象量算出手段51は、全てのモデルデータが含まれる確率分布モデル23から、抽出条件に一致するモデルデータを抽出する。例えば、確率分布モデル23に含まれる全モデルデータの心理状態が「感動(ゾクッ)」及び「平常」であり、抽出条件が「感動(ゾクッ)」である場合を考える。この場合、聴覚印象量算出手段51は、確率分布モデル23から、「感動(ゾクッ)」のモデルデータを抽出する。
【0072】
また、聴覚印象量算出手段51は、
図7に示すように、確率分布モデルの音響特徴量(横軸方向)を所定の区間に分割する。そして、聴覚印象量算出手段51は、分割した各区間のうち、音響分析値が含まれる区間を求める。さらに、聴覚印象量算出手段51は、抽出したモデルデータに、求めた区間の確率関数(例えば、正規分布、二項分布)を適用し、音響特徴量に対応する聴覚印象量を求める。ここで、聴覚印象量算出手段51は、確率関数に従って、聴覚印象量の存在確率を算出する。例えば、聴覚印象量算出手段51は、乱数を発生させ、その乱数値を存在確率の累積度数とみなして、聴覚印象量を算出する。
【0073】
このとき、臨場感推定値の信頼性を向上させるため、聴覚印象量算出手段51は、乱数を複数回発生させて累積度数を複数回算出し、算出した全累積度数の平均値を、聴覚印象量として算出してもよい。さらに、聴覚印象量算出手段51は、リアルタイムで臨場感推定値を算出する場合、聴覚印象量の時間変化が予め設定された範囲内に収まるようにしてもよい。
【0074】
臨場感推定値算出手段53は、データベース20から、確率分布モデル23に対応する重み係数を読み出す。そして、臨場感推定値算出手段53は、算出した聴覚印象量と、読み出した重み係数とを乗じて、臨場感推定値を算出する。
【0075】
図1に戻り、聴覚印象量推定手段50の説明を続ける。
聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを提示するものである。ここで、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。
【0076】
<聴覚印象量及び臨場感推定値の提示>
図8,
図9を参照し、聴覚印象量提示手段55による聴覚印象量及び臨場感推定値の提示について、説明する。
図8に示すように、聴覚印象量提示手段55は、例えば、聴覚印象量及び臨場感推定値を棒グラフ形式で提示する。具体的には、聴覚印象量提示手段55は、聴覚印象量算出手段51が算出した聴覚印象量(例えば、「広がり感」)を、棒グラフ96として提示する。また、聴覚印象量提示手段55は、臨場感推定値算出手段53が算出した臨場感推定値を、棒グラフ97として提示する。このとき、聴覚印象量提示手段55は、確率分布モデル抽出手段40が生成した抽出条件98を提示してもよい。
【0077】
また、
図9に示すように、聴覚印象量提示手段55は、聴覚印象量及び臨場感推定値を相関図形式で提示してもよい。この相関図は、縦軸が臨場感推定値を示し、横軸が聴覚印象量(例えば、「広がり感」)を示す。そして、聴覚印象量算出手段51が算出した聴覚印象量と、臨場感推定値算出手段53が算出した臨場感推定値とを示す点99を、この相関図にプロットする。
【0078】
以上のように、本発明の第1実施形態に係る聴覚印象量推定装置1は、聴覚印象量算出手段51が、確率分布モデル23の全てのモデルデータのうち、聴取者の心理状態に一致するモデルデータのみを抽出する。これによって、聴覚印象量推定装置1は、聴取者の心理状態を聴覚印象量に反映させ、正確な聴覚印象量を提示することができる。さらに、聴覚印象量推定装置1は、この聴覚印象量から臨場感の推定値を算出するため、聴取者が実際に感じている臨場感を正確に提示することができる。
なお、聴覚印象量推定装置1の動作は、第2実施形態と同様のため、説明を後記する。
【0079】
(第2実施形態)
[聴覚印象量推定装置の構成]
図10を参照し、本発明の第2実施形態に係る聴覚印象量推定装置1Aの構成について、第1実施形態と異なる点を説明する(適宜
図1参照)。
聴覚印象量推定装置1Aは、i種類の音響分析値からj種類の聴覚印象量を算出することが、第1実施形態と異なる(但し、i>1、j>1を満たす整数)。このため、聴覚印象量推定装置1Aは、音響信号分析手段10と、データベース20と、心理状態推定手段30と、確率分布モデル抽出手段40Aと、聴覚印象量推定手段50Aとを備える。
なお、本実施形態では、互いに異なる音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを記憶することとする(つまり、i=j)。
【0080】
音響信号分析手段10は、ラウドネス推定値、音圧レベル、周波数特性、両耳間相互相関度、両耳間レベル差、両耳間位相差、基本周波数の時間変化パターン、周波数特性の分類クラス、レベルの時間変化パターン、ラフネス、シャープネス、両耳間相関関数の幅等の音響特徴量のうち、i種類を音響分析値として求める。
【0081】
データベース20は、評価用音響信号と、心理状態遷移モデル21と、j種類の確率分布モデルQ
jと、確率分布モデルQ
j毎の重み係数W
jとを記憶する。
つまり、データベース20は、
図10に示すように、1種類目の音響特徴量(音響分析値1)及び1種類目の聴覚印象量(聴覚印象量1)が対応付けられた確率分布モデルQ
1を記憶する。
また、データベース20は、2種類目の音響特徴量(音響分析値2)及び2種類目の聴覚印象量(聴覚印象量2)が対応付けられた確率分布モデルQ
2を記憶する。
また、データベース20は、3種類目の音響特徴量(音響分析値3)及び3種類目の聴覚印象量(聴覚印象量3)が対応付けられた確率分布モデルQ
3を記憶する。
また、データベース20は、4種類目の音響特徴量(音響分析値4)及び4種類目の聴覚印象量(聴覚印象量4)が対応付けられた確率分布モデルQ
4を記憶する。
また、データベース20は、i種類目の音響特徴量(音響分析値i)及びj種類目の聴覚印象量(聴覚印象量j)が対応付けられた確率分布モデルQ
jを記憶する。
【0082】
聴覚印象量推定手段50Aは、聴覚印象量算出手段51Aと、臨場感推定値算出手段53Aと、聴覚印象量提示手段55Aとを備える。
聴覚印象量算出手段51Aは、j種類の確率分布モデルQ
jのそれぞれから、抽出条件に一致するモデルデータを抽出し、抽出したモデルデータを参照して、j種類の聴覚印象量を算出する。
なお、聴覚印象量の算出方法は、聴覚印象量算出手段51と同様のため、説明を省略する。
【0083】
臨場感推定値算出手段53Aは、聴覚印象量算出手段51Aが算出したj種類の聴覚印象量と、確率分布モデルQ
j毎の重み係数W
jとを乗じた値の合計を、臨場感推定値として算出する。
具体的には、臨場感推定値算出手段53Aは、1種類目の聴覚印象量と、確率分布モデルQ
1の重み係数W
1との乗算値を算出する。また、臨場感推定値算出手段53Aは、2種類目の聴覚印象量と、確率分布モデルQ
2の重み係数W
2との乗算値を算出する。また、臨場感推定値算出手段53Aは、3種類目の聴覚印象量と、確率分布モデルQ
3の重み係数W
3との乗算値を算出する。また、臨場感推定値算出手段53Aは、4種類目の聴覚印象量と、確率分布モデルQ
4の重み係数W
4との乗算値を算出する。また、臨場感推定値算出手段53Aは、j種類目の聴覚印象量と、確率分布モデルQ
jの重み係数W
jとの乗算値を算出する。そして、臨場感推定値算出手段53Aは、j個の乗算値を合計し、臨場感推定値を算出する
【0084】
<聴覚印象量及び臨場感推定値の提示>
図11,
図12を参照し、聴覚印象量提示手段55Aによる聴覚印象量及び臨場感推定値の提示について、説明する。
聴覚印象量提示手段55Aは、聴覚印象量及び臨場感推定値を、グラフィカルな形式で提示する。ここでは、聴覚印象量として、「移動感」及び「広がり感」を求めたこととする。
【0085】
図11に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを棒グラフ形式で提示してもよい。
また、
図12に示すように、聴覚印象量提示手段55Aは、「移動感」と、「広がり感」と、臨場感推定値とを、レーダーチャート形式で提示してもよい。
【0086】
[聴覚印象量推定装置の全体動作]
図13を参照し、聴覚印象量推定装置1Aの全体動作について説明する(適宜
図1参照)。
この
図13では、聴覚印象量推定装置1Aは、入力された再生音場音響信号から、聴覚印象量及び臨場感推定値をリアルタイムで算出することとする。
【0087】
聴覚印象量推定装置1Aは、音響信号分析手段10によって、再生音場音響信号を音響分析して、音響分析値を求める(ステップS1)。
聴覚印象量推定装置1Aは、心理状態推定手段30によって、聴取者の心理状態を推定する(ステップS2)。
聴覚印象量推定装置1Aは、確率分布モデル抽出手段40Aによって、抽出条件を生成する(ステップS3)。
【0088】
聴覚印象量推定装置1Aは、聴覚印象量算出手段51Aによって聴覚印象量を算出し、臨場感推定値算出手段53Aによって臨場感推定値を算出する(ステップS4)。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、リアルタイム処理中の聴覚印象量及び臨場感推定値を提示する(ステップS5)。
【0089】
聴覚印象量推定装置1Aは、再生音場音響信号が末尾に達したか否かによって、全体処理を終了するか否かを判定する(ステップS6)。
再生音場音響信号が末尾に達していない場合(ステップS6でNo)、聴覚印象量推定装置1Aは、全体処理を終了しないと判定し、後記するカウンタci,cjをインクリメントし、ステップS1の処理に戻る。
【0090】
再生音場音響信号が末尾に達した場合(ステップS6でYes)、聴覚印象量推定装置1Aは、全体処理を終了すると判定し、ステップS7の処理に進む。
聴覚印象量推定装置1Aは、聴覚印象量提示手段55Aによって、全体処理終了後の聴覚印象量及び臨場感推定値を提示する(ステップS7)。
【0091】
[音響信号分析処理]
図14を参照し、
図13の音響信号分析処理(ステップS1)について説明する(適宜
図1参照)。
音響信号分析手段10は、再生音場音響信号から所定区間を切り出す(ステップS11)。
【0092】
音響信号分析手段10は、過去に切り出した区間の再生音場音響信号を、図示を省略したメモリから読み出す(ステップS12)。
なお、音響信号分析手段10は、レベルの時間変化パターン等の音響特徴量を用いる場合、過去区間の再生音場音響信号が必要になるため、ステップS12の処理を行う。
【0093】
音響信号分析手段10は、カウンタciが音響特徴量種類数N以下であるか否かを判定する(ステップS13)。
カウンタciが音響特徴量種類数N以下の場合(ステップS13でYes)、音響信号分析手段10は、ステップS14の処理に進む。
なお、音響特徴量種類数Nは、音響分析の対象となる音響特徴量の種類数を示しており、予め設定される(N=i)。
【0094】
音響信号分析手段10は、ci個目の音響特徴量により音響分析値を算出する。そして、音響信号分析手段10は、ステップS11の処理に戻る(ステップS14)。
【0095】
カウンタciが音響特徴量種類数Nを越える場合(ステップS13でNo)、音響信号分析手段10は、ステップS15の処理に進む。
音響信号分析手段10は、ステップS11で切り出した再生音場音響信号をメモリに記憶し、処理を終了する(ステップS15)。
つまり、音響信号分析手段10は、N種類の音響分析値を算出する。
【0096】
[心理状態推定処理]
図15を参照し、
図11の心理状態推定処理(ステップS2)について説明する(適宜
図1参照)。
心理状態推定手段30は、過去に推定した心理状態を、図示を省略したメモリから読み出す(ステップS21)。
【0097】
心理状態推定手段30は、カウンタcjが聴覚印象種類数L以下であるか否かを判定する(ステップS22)。
カウンタciが聴覚印象種類数L以下の場合(ステップS22でYes)、心理状態推定手段30は、ステップS23の処理に進む。
心理状態推定手段30は、心理状態遷移モデル21に設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、心理状態を推定する(ステップS23)。
聴覚印象種類数Lは、推定する聴覚印象の種類数を示している(L=j)。
【0098】
カウンタciが聴覚印象種類数Lを越える場合(ステップS22でNo)、心理状態推定手段30は、ステップS24の処理に進む。
心理状態推定手段30は、ステップS23で推定した心理状態をメモリに記憶し、処理を終了する(ステップS24)。
なお、心理状態推定手段30は、現在の心理状態を推定するため、心理状態推定モデル21において、過去の心理状態から現在の心理状態に至った経路を参照する必要がるため、ステップS24の処理を行う。
【0099】
[抽出条件生成処理]
図16を参照し、
図13の抽出条件生成処理(ステップS3)について説明する(適宜
図1参照)。
確率分布モデル抽出手段40Aは、カウンタciが、音響特徴量種類数N及びパラメータ設定種類数Mの加算値以下であるか否かを判定する(ステップS31)。
なお、パラメータ設定種類数Mは、設定パラメータに設定されたパラメータの種類数であり、本実施形態では、設定パラメータを利用しないためゼロである。
【0100】
カウンタciが加算値(N+M)以下の場合(ステップS31でYes)、確率分布モデル抽出手段40Aは、ステップS32の処理に進む。
確率分布モデル抽出手段40Aは、確率分布モデルに含まれる被験者の心理状態と、心理状態推定手段30で推定された聴取者の心理状態との間で一致する心理状態である抽出条件を、生成する(ステップS32)。
確率分布モデル抽出手段40Aは、ci番目の抽出条件をメモリに記憶し、ステップS21の処理に戻る(ステップS33)。
【0101】
カウンタciが加算値(N+M)を越える場合(ステップS31でNo)、確率分布モデル抽出手段40Aは、ステップS34の処理に進む。
確率分布モデル抽出手段40Aは、ステップS33で記憶した抽出条件を聴覚印象量推定手段50に出力する(ステップS34)。
【0102】
[聴覚印象量・臨場感推定値算出処理]
図17を参照し、
図13の聴覚印象量・臨場感推定値算出処理(ステップS4)について説明する(適宜
図1参照)。
聴覚印象量推定手段50Aは、カウンタcjが聴覚印象種類数L以下であるか否かを判定する(ステップS41)。
カウンタcjが聴覚印象種類数L以下の場合(ステップS41でYes)、聴覚印象量推定手段50Aは、ステップS42の処理に進む。
【0103】
聴覚印象量算出手段51Aは、確率分布モデルから、抽出条件に一致するモデルデータを抽出する(ステップS42)。
聴覚印象量算出手段51Aは、抽出したモデルデータを参照して、音響分析値に対応するj番目の聴覚印象量を算出し、ステップS31の処理に戻る(ステップS43)。
【0104】
カウンタcjが聴覚印象種類数Lを超える場合(ステップS41でNo)、聴覚印象量推定手段50Aは、ステップS44の処理に進む。
臨場感推定値算出手段53Aは、各聴覚印象量と、各聴覚印象量を算出した確率分布モデルの重み係数とを乗じた値を、臨場感推定値として算出する(ステップS44)。
【0105】
以上のように、本発明の第2実施形態に係る聴覚印象量推定装置1Aは、複数の音響特徴量が1つの聴覚印象に寄与する場合でも、第1実施形態と同様、聴覚印象量及び臨場感を正確に提示することができる。
【0106】
(第3実施形態)
図1に戻り、本発明の第3実施形態に係る聴覚印象量推定装置1Bについて、第1実施形態と異なる点を説明する。
【0107】
聴覚印象量推定装置1Bは、心理状態遷移モデル21Bの評価条件に嗜好がさらに含まれる点が第1実施形態と異なる。このため、聴覚印象量推定装置1Bは、音響信号分析手段10と、データベース20Bと、心理状態推定手段30Bと、確率分布モデル抽出手段40と、聴覚印象量推定手段50と、設定パラメータ入力手段60とを備える。
【0108】
データベース20Bは、評価条件に嗜好がさらに含まれる心理状態遷移モデル21Bを記憶する。
ここで、心理状態遷移モデル21Bは、第1実施形態と同様、音響特徴量(例えば、ラウドネス推定値)を評価条件として、心理状態の遷移確率P
xが設定される。
なお、ラウドネス推定値を評価条件とした遷移確率P
xを「遷移確率P
x|L」と呼ぶ。
【0109】
この場合、評価条件として、「穏やか」といった被験者の嗜好も、この被験者に予め回答させる。例えば、興味がある対象に対しては感動しやすいことが知られている(参考文献3参照)。このため、後記する設定パラメータの聴取者の嗜好と、被験者の嗜好とが一致する場合、「平常」から「感動(ジーン)」への遷移確率P
12を高く設定する。このようにして、聴取者毎に固有の心理状態遷移モデル21Bを構築することもできる。
参考文献3:戸梶、“『感動』喚起のメカニズムについて”,認知科学,Vol.8,No.4,pp.360-368,2001
なお、嗜好を評価条件とした遷移確率P
xを「遷移確率P
x|p」と呼ぶ。
【0110】
嗜好とは、聴取者や被験者の好みを示すものであり、例えば、「好き」、「嫌い」、「穏やか」、「激しい」といったものがある。また、嗜好は、「クラシックが好き」といったように、コンテンツの種類に対する聴取者の好みであってもよい。ここで、嗜好は、後記する主観評価実験により予め定義することができる。
【0111】
ここでは、心理状態推定手段30Bよりも先に設定パラメータ入力手段60を説明する。
設定パラメータ入力手段60は、聴取者に依存する設定パラメータを入力するものである。例えば、聴取者が、図示を省略したマウス、キーボードを介して、「穏やか」、「激しい」というように予め定義された嗜好から、この聴取者自身にあった嗜好(例えば、「穏やか」)を入力(選択)する。すると、設定パラメータ入力手段60は、聴取者の嗜好が「穏やか」を示す設定パラメータを生成する。そして、設定パラメータ入力手段60は、生成した設定パラメータを心理状態推定手段30Bに出力する。
【0112】
前記した心理状態とは別に、設定パラメータは、興味の有無を含めてもよい。
興味とは、評価対象(再生音場音響信号A及び評価用音響信号)に対する聴取者や被験者の関心を示すものである。例えば、興味の有無は、「興味が有る」を‘0’、「興味が無い」を‘1’のような2値を設定してもよい。また、興味の有無として、「大変興味が有る」、「そこそこ興味が有る」、「全く興味が無い」等に対応する値を段階的に設定してもよい。
【0113】
また、同じ音を聴いた場合でも聴取時間帯が異なると、聴取者のバイオリズムや疲労の影響により、聴覚印象が異なる場合も考えられる。そこで、設定パラメータは、このバイオリズムや疲労の影響を反映させるべく、聴取時間帯を含めてもよい。
聴取時間帯とは、聴取者や被験者が音(音楽)を聴く時間帯を示すものであり、例えば、「平日の21時から22時」、「休日の10時から12時」といったものがある。
なお、聴取者は、聴取者の嗜好と同様、聴取者の興味及び聴取時間帯といった設定パラメータを設定パラメータ入力手段60に入力(選択)できる。
【0114】
心理状態推定手段30Bは、心理状態遷移モデル21Bに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。
【0115】
前記したように、心理状態遷移モデル21Bは、「平常」から「感動(ジーン)」への同一経路であっても、評価条件に音響特徴量及び被験者の嗜好という2種類が含まれるため、2種類の遷移確率P
12|L,P
12|pが存在する。このため、心理状態推定手段30Bは、以下で説明するように、心理状態を推定する。
【0116】
例えば、遷移確率P
12|L,P
12|pが0.1から1.0までの値で正規化され、遷移確率P
12|L=0.6、遷移確率P
12|p=0.4であるとする。この場合、乱数を生成し、生成した乱数が遷移確率P
12|Lを超えたか否かを判定する。ここで、乱数が遷移確率P
12|Lを超えた場合、心理状態推定手段30Bは、「平常」から「感動(ジーン)」に遷移させる。一方、乱数が遷移確率P
12|Lを超えない場合、心理状態推定手段30Bは、再度乱数を生成し、再生成した乱数が遷移確率P
12|pを超えたか否かにより、「平常」を「感動(ジーン)」に遷移させるか否かを判定する。
【0117】
以上のように、本発明の第3実施形態に係る聴覚印象量推定装置1Bは、聴取者の心理状態に加えて、聴取者の嗜好が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
【0118】
(第4実施形態)
本発明の第4実施形態に係る聴覚印象量推定装置1Cについて、第3実施形態と異なる点を説明する。
【0119】
聴覚印象量推定装置1Cは、心理状態遷移モデル21Cの評価条件に生態情報がさらに含まれる点が第1実施形態と異なる。このため、聴覚印象量推定装置1Cは、音響信号分析手段10と、データベース20Cと、心理状態推定手段30Cと、確率分布モデル抽出手段40と、聴覚印象量推定手段50と、設定パラメータ入力手段60と、生体情報測定手段70とを備える。
【0120】
データベース20Cは、評価条件に生体情報がさらに含まれる心理状態遷移モデル21Cを記憶する。例えば、生体情報は、聴取者や被験者の脳波計測値、心拍数又は発汗量である。
【0121】
ここで、心理状態遷移モデル21Cは、第1実施形態と同様、音響特徴量(例えば、ラウドネス推定値)及び被験者の嗜好を評価条件として、心理状態の遷移確率が設定される。このとき、評価条件として、評価用音響信号を聴取している被験者の生態情報を予め測定する。このようにして、心理状態遷移モデル21Cを構築することができる。
【0122】
ここでは、心理状態推定手段30Cよりも先に生体情報測定手段70を説明する。
生体情報測定手段70は、聴取者の生体情報を測定するものである。例えば、生体情報測定手段70は、再生音場音響信号を聴いたときの聴取者の生体情報として計測する。そして、生体情報測定手段70は、測定した生体情報を心理状態推定手段30Cに出力する。
【0123】
心理状態推定手段30Cは、心理状態遷移モデル21Cに設定された心理状態の遷移確率と、乱数発生処理で発生させた乱数とによって、聴取者の心理状態を推定するものである。
【0124】
前記したように、心理状態遷移モデル21Cは、「平常」から「感動(ジーン)」への同一経路であっても、評価条件に音響特徴量と被験者の嗜好と生態情報という3種類が含まれるため、3種類の遷移確率が存在する。従って、心理状態推定手段30Cは、3種類の遷移確率毎に乱数を発生させ、予め設定した基準数(例えば、3)以上、発生させた乱数が遷移確率を超えたか否かを判定する。そして、基準数以上の乱数が遷移確率を超えた場合、心理状態推定手段30Cは、心理状態を遷移させる。一方、基準数以上の乱数が遷移確率を超えない場合、心理状態推定手段30Cは、心理状態を遷移させない。
【0125】
以上のように、本発明の第4実施形態に係る聴覚印象量推定装置1Cは、聴取者の生体情報が心理状態の推定結果に反映されるため、より正確な聴覚印象量を提示することができる。
【0126】
以上、本発明の各実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。実施形態の変形例を以下に示す。
【0127】
(変形例1)
図18を参照し、本発明の変形例1に係る聴覚印象量推定装置1について、第1実施形態と異なる点を説明する。
図18に示すように、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)」というように、2種類の心理状態を強度に応じて段階的に遷移させる点が第1実施形態と異なる。
【0128】
ここで、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)」のそれぞれが、強度に応じて3段階に設定されている。そして、心理状態遷移モデル21では、「感動(ジーン)」及び「感動(ゾクッ)高」が段階毎に組み合わされている。例えば、「感動(ジーン・低)(ゾクッ・低)」は、ジーンとするような感動の強度が低く、かつ、ゾクッとするような感動の強度が低い心理状態を示す。
【0129】
(変形例2)
図19を参照し、本発明の変形例2に係る聴覚印象量推定装置1について、第1実施形態と異なる点を説明する(適宜
図1参照)。
この変形例2では、心理状態推定手段30が、音響信号分析手段10から入力された音響分析値に従って、心理状態遷移モデル21の遷移確率を選択することが、第1実施形態と異なる。
【0130】
本変形例では、心理状態遷移モデル21は、
図19に示すように、心理状態が「平常」及び「感動」との間で遷移する単純なモデルであることとする。また、音響分析値が「音圧レベル」であることとする。
【0131】
心理状態遷移モデル21は、「平常」から「感動」までの同一経路であっても、音圧レベルの差に応じて、複数の遷移確率P
12を設定できる。例えば、心理状態遷移モデル21は、音圧レベルの差が平坦なときの遷移確率P
12|平と、音圧レベルの差が上昇するときの遷移確率P
12|昇と、音圧レベルの差が下降するときの遷移確率P
12|降とを設定できる。
【0132】
この音圧レベルの差は、「レベル差」と呼ぶ。本変形例では、音圧レベルの差は、音圧レベルが低から高に大きく変化する「上昇」と、音圧レベルが高から低に大きく変化する「下降」と、音圧レベルが大きく変化しない「平坦」とに区分される。
【0133】
<遷移確率の設定>
図20を参照し、心理状態遷移モデル21に遷移確率を設定する手法を説明する。
図20(b)では、第1被験者の感動の変化を実線で図示し、第2被験者の感動の変化を破線で図示し、第3被験者の感動の変化を一点鎖線で図示した。
図20(c)では、
図20(b)の各時刻をサンプル点1〜8として図示した。
【0134】
図20(d)では、サンプル点1〜8において、レベル差と、被験者の感動の変化との関係を図示した。また、
図20(d)では、レベル差が平坦な場合を「平」、レベル差が上昇の場合を「昇」、レベル差が下降の場合を「降」と略記した。また、
図20(d)では、被験者の感動が高い状態を「高」と図示し、被験者の感動が低い状態を「低」と図示した。また、
図20(d)では、第1被験者の感動状態を「感動状態1」と図示し、第2被験者の感動状態を「感動状態2」と図示し、第3被験者の感動状態を「感動状態3」と図示した。
【0135】
まず、
図20(a)に示すように、評価用音響信号の音圧レベルを所定の時間単位で算出して、音圧レベルの変化を示すレベル差を求める。このとき、
図20(b)に示すように、複数(例えば、3名)の被験者に評価用音響信号を聴かせながら、感動の変化をフェーダにより入力させる。
以後の説明では、評価用音響信号の聴取開始時、全被験者の感動が低い状態であることとする。
【0136】
図20(d)に示すように、サンプル点1,2では、レベル差が「平坦」であり、被験者全員の感動が「低」から変化していない。このため、心理状態が「平常」を維持する可能性が高いと考えられる。従って、レベル差が「平坦」のときの遷移確率P
11|平は、全被験者の数と、感動が「低」から変化しなかった被験者数との比により、3/3となる。
【0137】
また、サンプル点3では、レベル差が「上昇」であり、被験者のうち2人で感動が「低」から「高」に変化している。このため、心理状態が「平常」から「感動」に遷移する可能性が高いと考えられる。従って、レベル差が「上昇」のときの遷移確率P
12|昇は、全被験者の数と、感動が「低」から「高」に変化した被験者数との比により、2/3となる。
【0138】
一方、サンプル点3において、被験者の残り1人は、感動が「低」から変化していない。従って、レベル差が「上昇」のときの遷移確率P
11|昇は、被験者全員と、感動が「低」から変化しなかった被験者との比で表すと、1/3となる。
【0139】
以上の手順により、心理状態遷移モデル21において、レベル差が「平坦」のときの遷移確率P
11|平,P
12|平,P
21|平,P
22|平と、レベル差が「上昇」のときの遷移確率P
11|昇,P
12|昇,P
21|昇,P
22|昇と、レベル差が「下降」のときの遷移確率P
11|降,P
12|降,P
21|降,P
22|降とを全て設定することが好ましい。
なお、評価用音響信号を別の信号に代えることや、主観評価実験を繰返し行うことで、遷移確率の正確性を向上させることができる。
【0140】
<遷移確率の選択>
図21を参照し、音響分析値に従って遷移確率を選択する手法について説明する。
この
図21では、心理状態が平常の場合を「常」、心理状態が感動の場合を「感」と略記した。
【0141】
図21(a)に示すように、心理状態推定手段30は、時系列で入力される評価用音響信号の音圧レベルを、レベル差が同一となるような分割区間に分割する。そして、心理状態推定手段30は、レベル差に従って、分割区間毎に遷移確率を選択する。
【0142】
つまり、心理状態推定手段30は、先頭の分割区間ではレベル差が「平坦」のため、心理状態遷移モデル21に設定された12種類の遷移確率のうち、レベル差が「平坦」に対応する遷移確率P
11|平,P
12|平,P
21|平,P
22|平を選択する。そして、心理状態推定手段30は、第1実施形態と同様、選択した遷移確率P
11|平,P
12|平,P
21|平,P
22|平と、乱数とによって、先頭の分割区間における聴取者の心理状態を推定する。
【0143】
また、心理状態推定手段30は、2番目の分割区間ではレベル差が「上昇」のため、遷移確率P
11|昇,P
12|昇,P
21|昇,P
22|昇を選択し、第1実施形態と同様、2番目の分割区間における聴取者の心理状態を推定する。さらに、心理状態推定手段30は、4番目の分割区間ではレベル差が「下降」のため、遷移確率P
11|降,P
12|降,P
21|降,P
22|降を選択し、第1実施形態と同様、4番目の分割区間における聴取者の心理状態を推定する。
なお、3,5番目の分割区間は、先頭の分割区間と同様に遷移確率を選択するため、説明を省略した。
【0144】
前記したように、急激な音量の変化があると、感動が喚起されることが知られている(参考文献2参照)。そこで、心理状態推定手段30は、「平常」から「感動」への遷移確率P
12|平,P
12|昇,P
12|降を、レベル差に従って選択できる。その結果、心理状態推定手段30は、例えば、音圧レベルが大きく変化したタイミングで、「平常」から「感動」への遷移確率P
12を高くできる。
【0145】
なお、
図21(b)に示すように、遷移確率を選択する条件が音圧レベル1種類だけに限定されず、平均音圧レベルといった他の音響特徴量、生体情報又は臨場感推定値を組み合わせてもよい。つまり、変形例2に係る聴覚印象量推定装置1は、第1実施形態と同様、第2〜4実施形態にも適用することができる。
【0146】
(その他変形例)
前記した各実施形態では、心理状態遷移モデル21及び確率分布モデル23を記憶するデータベースを一体化して説明したが、本発明は、これに限定されない。つまり、本発明は、心理状態遷移モデル21を記憶する心理状態遷移モデルデータベースと、確率分布モデル23を記憶する確率分布モデルデータベースとを別々に構成してもよい。
【0147】
前記した各実施形態では、臨場感推定値を算出することとして説明したが、本発明は、臨場感推定値を算出せずともよい。この場合、聴覚印象量推定装置1は、臨場感推定値算出手段53を備えず、聴覚印象量提示手段55が聴覚印象量のみを提示する。
【0148】
前記した各実施形態では、心理状態が抽出条件であることとして説明したが、本発明は、これに限定されない。つまり、確率分布モデル23は、音圧レベルや両耳間相互相関度等の音響特徴量及び被験者の嗜好でさらに細かく分類可能としてもよい。そして、確率分布モデル抽出手段40は、音響信号分析手段10の音響分析値や、設定パラメータ入力手段60の設定パラメータを満たすモデルデータを抽出できるような抽出条件を生成する。
【0149】
第2実施形態では、音響分析値及び聴覚印象量が1対1で対応付けられた確率分布モデルを説明したが、本発明の確率分布モデルは、これに限定されない。つまり、本発明は、条件付き確率として複数の音響分析値に、1つの音響分析値を対応付けた確率分布モデルを用いてもよい。
【0150】
さらに、本発明では、複数の聴覚印象量から総合的な音響品質を評価する場合、ニューラルネットワーク又は重回帰分析を用いて、確率分布モデル23を複数構築することができる。この場合、各聴覚印象量が総合印象へ与える影響度についても、聴取者の心理状態によって確率分布モデル23を切り換えることで、心理状態が反映された音響品質の客観評価を行うことができる。
なお、総合印象とは、個別の印象に対する総合的な印象であり、好ましさ、ふさわしさと言うこともできる。