(54)【発明の名称】音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム
(58)【調査した分野】(Int.Cl.,DB名)
上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項1に記載の音響コンテンツ生成装置。
上記加工部は、振動情報の振動圧力または振動量が、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項2に記載の音響コンテンツ生成装置。
上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報の振動圧力または振動量を所定量引き下げるとともに、下降後の振動圧力または振動量が閾値より大きい場合に、振動情報の振動圧力または振動量が上記閾値を超えないようにリミット処理することを特徴とする請求項1に記載の音響コンテンツ生成装置。
上記振動情報取得部は、所定周波数より低い低周波帯域から成り、かつ、中心周波数の振動圧力が0dBよりも小さい振動情報を取得することを特徴とする請求項1に記載の音響コンテンツ生成装置。
上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域のうち、上記振動情報の周波数帯域と同等の周波数帯域を加工することを特徴とする請求項1〜5の何れか1項に記載の音響コンテンツ生成装置。
上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域の全体を加工することを特徴とする請求項1〜5の何れか1項に記載の音響コンテンツ生成装置。
上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域の全体を加工することを特徴とする請求項1〜7の何れか1項に記載の音響コンテンツ生成装置。
上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工することを特徴とする請求項1〜7の何れか1項に記載の音響コンテンツ生成装置。
上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報および上記振動情報の双方に対して加工を行うことを特徴とする請求項2〜9の何れか1項に記載の音響コンテンツ生成装置。
上記振動情報取得部は、上記音声情報取得部により取得される音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得することを特徴とする請求項1〜10の何れか1項に記載の音響コンテンツ生成装置。
音響コンテンツ生成装置の加工部が、音声情報および当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報のうち少なくとも一方を加工する第1のステップと、
上記音響コンテンツ生成装置のミキシング部が、上記加工部により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する第2のステップとを有し、
上記第1のステップにおいて、上記加工部は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする音響コンテンツ生成方法。
音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得部と、
上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給部とを備えたことを特徴とする音響コンテンツ再生装置。
音響コンテンツ再生装置の音響コンテンツ取得部が、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する第1のステップと、
上記音響コンテンツ再生装置の音響コンテンツ供給部が、上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する第2のステップとを有することを特徴とする音響コンテンツ再生方法。
音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得手段、
上記音響コンテンツ取得手段により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給手段
としてコンピュータを機能させるための音響コンテンツ再生用プログラム。
音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを記憶し、請求項15に記載の音響コンテンツ再生装置からの要求に応じて上記音響コンテンツを上記音響コンテンツ再生装置に提供する音響コンテンツ提供装置。
請求項15に記載の音響コンテンツ再生装置と、請求項18に記載の音響コンテンツ提供装置とが通信ネットワークを介して接続可能に構成された音響コンテンツ配信システム。
【発明を実施するための形態】
【0018】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。
図1に示すように、第1の実施形態による音響コンテンツ生成装置10は、その機能構成として、音声情報取得部11、振動情報取得部12、加工部13およびミキシング部14を備えている。加工部13には音声情報加工部13Aと振動情報加工部13Bとが含まれる。
【0019】
上記各機能ブロック11〜14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11〜14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0020】
音声情報取得部11は、音声情報を取得する。ここで取得する音声情報は、例えば音楽、発話、効果音、アラーム音などに関するものである。なお、ここに挙げたものは一例であり、スピーカやイヤホン、またはヘッドホン等の音声出力部から音声が出力される情報であれば何れも用いることが可能である。以下では、音楽の音声情報を用いる場合を例にとって説明する。
【0021】
例えば、音声情報取得部11は、ユーザによる所定の選択操作に応じて、ユーザが所望する音声情報、すなわち、振動情報と一緒にして音響コンテンツを生成したいと考える所望の音声情報を取得する。例えば、音声情報が記憶された外部装置(例えば、パーソナルコンピュータ、サーバ、スマートフォン等の携帯端末、リムーバル記憶媒体など)を音響コンテンツ生成装置10に接続し、音声情報取得部11は、ユーザ操作により選択された音声情報を外部装置から取得する。なお、音響コンテンツ生成装置10が音声情報を内部の記憶媒体に記憶していて、音声情報取得部11は、ユーザ操作により選択された音声情報を内部の記憶媒体から取得するようにしてもよい。
【0022】
音声情報取得部11により取得された音声情報は、音響コンテンツ生成装置10にあらかじめ用意されている複数のトラックのうち何れか1つまたは複数に記録される。音声情報が音楽の場合、その音声情報の中には、複数の楽器の音声、ボーカルの音声、コーラスの音声といった様々なパートの音声情報が含まれている。これらの各パートの音声情報は、異なる周波数帯域に属している。音響コンテンツ生成装置10は、いくつかの周波数帯域毎に音声情報を複数のトラックに分けて記録することが可能である。もちろん、全ての周波数帯域をまとめて1つの音声情報として1つのトラックに記録することも可能である。また、パート毎の音声情報を複数のトラックに分けて記録することも可能である。なお、音声情報が2チャンネルから成るステレオ音声の場合、Lチャンネルの音声情報とRチャンネルの音声情報とを2つのトラックに分けて記録することも可能であるし、さらに各チャンネルの音声情報を上述のように複数のトラックに分けて記録することも可能である。
【0023】
振動情報取得部12は、音声情報取得部11により取得される音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報を取得する。振動情報が有する周波数帯域は、20〜20kHzの可聴周波数帯域の中でも比較的低い周波数帯域、例えば100Hz以下の周波数帯域とするのが好ましい。具体的には、20〜80Hz、好ましくは30〜60Hz、更に好ましくは35〜50Hz程度の周波数帯域から成る振動情報を用いるのがよい。
【0024】
これから詳しく説明するように、第1の実施形態では、音声情報取得部11により取得された音声情報と、振動情報取得部12により取得された振動情報とを含む音響コンテンツを生成する。この音響コンテンツをスピーカ等の音声出力部に供給すると、音声情報からだけでなく、振動情報からも音声が発生することになる。後述するように、この振動情報に基づき発生する音声は、音声情報に基づき発生する音声によってマスキングされてユーザには聴取され難くなるようにすることができるが、元々人間の耳に聴取されにくい低周波帯域の振動情報を用いることにより、マスキングの効果をより大きくすることが可能である。
【0025】
単純に、20Hz以下の非可聴周波数帯域の振動情報を用いれば、その振動情報に基づいて仮に音声が発生しても、ユーザには聞こえない。しかし、周波数が低くなるほど振動波のエネルギーが小さくなるため、振動をユーザに伝えることも難しくなる。そこで、本実施形態では、ユーザに振動を伝えるのに十分なエネルギーを持った周波数帯域で、かつ、マスキングの効果を得やすい周波数帯域の振動情報を用いて音響コンテンツを生成するようにしている。
【0026】
なお、上述の周波数帯域は、マスキング効果が得られやすい周波数帯域を例示したものであり、これに限定されるものではない。使用する音声情報との組み合わせでマスキング効果が得られる場合には、上述した周波数帯域以外の振動情報を用いてもよい。
【0027】
ここで、振動情報取得部12は、ユーザによる所定の選択操作に応じて、ユーザが所望する振動情報、すなわち、音声情報と一緒にして音響コンテンツを生成したいと考える所望の振動情報を取得する。例えば、振動情報が記憶された外部装置を音響コンテンツ生成装置10に接続し、振動情報取得部12は、ユーザ操作により選択された振動情報を外部装置から取得する。なお、音響コンテンツ生成装置10が振動情報を内部の記憶媒体に記憶していて、振動情報取得部12は、ユーザ操作により選択された振動情報を内部の記憶媒体から取得するようにしてもよい。
【0028】
ユーザが所望する振動情報は、例えば、本出願の発明者が開発した情報伝達メディアとして使用可能な振動情報である(例えば、WO2018/211767号公報の記載を参照)。すなわち、本実施形態において用いる振動情報の一例は、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報である。例えば、触感のリズムが早いもの(または遅いもの)、触感の多様度が大きいもの(または小さいもの)といった異なる性質を有する多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。
【0029】
また、振動を受けるユーザに与えられることが期待される振動効果として、身体的効果または心理的効果が異なる多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることも可能である。振動情報がどのような身体的効果または心理的効果を奏するかは、触質特徴量を決定する触質パラメータ(振動波形の強度、分割区間の長さ)の組み合わせに応じて定まる。
【0030】
触質パラメータとして用いる振動波形の強度と分割区間の長さは、<硬い−柔らかい>、<粗い−滑らか>のように対立する触質(以下、触質対という)の程度を表すパラメータといえる。例えば、<硬い−柔らかい>という触質対に関する触質パラメータとして、振動波形の強度を用いることが可能であり、この場合、強度が大きいほど硬いことを表し、強度が小さいほど柔らかいことを表す。また、<粗い−滑らか>という触質対に関する触質パラメータとして、振動波形の分割区間の長さを用いることが可能であり、この場合、分割区間が長いほど滑らかであることを表し、分割区間が短いほど粗いことを表す。
【0031】
この他、<大きい−小さい>、<鋭い−鈍い>、<重い−軽い>、<ざらざら−つるつる>、<揺らぎのある−安定した>、<消えるような−残るような>などの様々な触質対に基づいて2つの触質パラメータ(振動波形の強度、分割区間の長さ)を任意に用いることが可能である。
【0032】
このような触質パラメータによって特徴付けられる振動情報を生成することにより、任意の身体的効果または心理的効果を有する振動情報を得ることが可能である。例えば、「ふわふわ」した触感を与える身体的効果を有する振動情報、「さらさら」した触感を与える身体的効果を有する振動情報、「安心」や「リラックス」等の心理的効果を有する振動情報、「興奮」や「モチベーションアップ」等の心理的効果を有する振動情報などの多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。
【0033】
振動情報取得部12により取得された振動情報は、音響コンテンツ生成装置10にあらかじめ用意されている複数のトラックのうち何れか1つまたは複数に記録される。振動情報が記録されるトラックは、音声情報が記録されるトラックとは異なるトラックである。基本的に、振動情報取得部12により取得された振動情報は1つのトラックに記録すればよいが、振動情報のカバーする周波数帯域が比較的広い場合は、1つの振動情報を周波数分離して複数のトラックに分けて記録するようにしてもよい。
【0034】
なお、一般的に、多くの人間にとって耳障りあるいは不快と言われている音が存在する。そのような不快な音の周波数帯域(例えば、2k〜4kHz)を部分的に加工しやすくするために、当該不快な音の周波数帯域の振動情報を分離して1つのトラックに記録するようにしてもよい。以下に述べる加工部13による音声情報および振動情報に対する加工は、トラックごとに行うことが可能である。
【0035】
加工部13は、音声情報取得部11により取得された音声情報と、振動情報取得部12により取得された振動情報との少なくとも一方を加工する。ここで、音声情報加工部13Aは、音声情報取得部11により取得された音声情報を加工する。振動情報加工部13Bは、振動情報取得部12により取得された振動情報を加工する。加工の具体的内容については後述するが、加工部13は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。
【0036】
マスキングとは、2つの音が重なったときに、一方の音にもう一方の音がかき消されて聞こえなくなる現象をいう。すなわち、マスキングとは、物理的には存在する音なのに、人には知覚することのできない現象と言える。加工部13は、加工された(または加工されていない)振動情報を音声出力部に供給した場合に発生する音声が、加工された(または加工されていない)音声情報を音声出力部に供給した場合に発生する音声によってマスキングされるような態様で、音声情報および振動情報の少なくとも一方を加工する。
【0037】
ミキシング部14は、加工部13により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する。すなわち、ミキシング部14は、1つまたは複数のトラックに記録された音声情報(音声情報加工部13Aにより必要に応じて加工されたもの)と、音声情報のトラックとは別の1つまたは複数のトラックに記録された振動情報(振動情報加工部13Bにより必要に応じて加工されたもの)とをミキシングすることにより、1つの音響コンテンツを生成する。
【0038】
ミキシング部14により生成される音響コンテンツは、1つまたは複数のトラック(チャンネル)の情報として記録される。例えば、モノラルの音響コンテンツを生成する場合、ミキシング部14は、複数のトラックに記録された音声情報および振動情報を1つのトラックにトラック・ダウンする処理を行うことにより、1チャンネルから成るモノラルの音響コンテンツを生成する。この1チャンネルの音響コンテンツには、音声情報と振動情報とが含まれる。
【0039】
また、ステレオの音響コンテンツを生成する場合、ミキシング部14は、複数のトラックに記録された音声情報および振動情報を2つのトラックにトラック・ダウンする処理を行うことにより、2チャンネルから成るステレオの音響コンテンツを生成する。ここで、第1チャンネルにはLチャンネルの音声情報と振動情報とが含まれる。また、第2チャンネルにはRチャンネルの音声情報と振動情報とが含まれる。2つのチャンネルにそれぞれ含まれる振動情報は、同じものであってもよいし、異なるものであってもよい。Lチャンネル用およびRチャンネル用に異なる振動情報を用いる場合は、各チャンネル用の振動情報を振動情報加工部13Bによる加工によって生成する。
【0040】
次に、加工部13の具体的な処理内容について説明する。加工部13は、振動情報取得部12により取得された振動情報の振動圧力または振動量が、音声情報取得部11により取得された音声情報の周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。ここで、振動情報は、音声出力部に供給された場合には音声となって現れることから、振動情報の振動圧力または振動量は、振動情報の音圧または音量と言い換えることが可能である。以下では、説明の便宜上、振動情報についても音圧または音量という用語を用いるものとする。
【0041】
なお、音圧は、音の圧力のことであり、人間の聴覚特性に合わせ、基準となる値に対して音がどれだけ大きいかをデシベル[dB]によって表現される音圧レベルを用いて表したものである。一方、音量は、いわゆるボリュームで設定される音の大きさのことをいう。どちらも音の強さを表すものとしてほぼ等価なものであり、以下では「音圧」を用いて説明する。
【0042】
図2は、音声情報および振動情報のそれぞれについて、周波数毎の音圧を表した周波数−音圧特性(以下、単に周波数特性という)を示す図である。
図2(a)が音声情報の周波数特性、
図2(b)が振動情報の周波数特性である。
図2に示す周波数特性は、時系列的な音声情報および振動情報の一時点における周波数特性を示したものであるとする。なお、ここでは便宜上、周波数特性を包絡形状として模式的に示している。
図2において、横軸は周波数、縦軸は音圧である。
【0043】
図2(b)に示すように、振動情報の全周波数帯域の中で音圧の最大値はVPである。一方、
図2(a)に示す音声情報の全周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧の最小値はMPである。ここで、MP<VPであるものとする。加工部13は、例えば、この振動情報の最大音圧VPが、当該振動情報の周波数帯域と同等の周波数帯域(以下、特定周波数帯域という)における音声情報の最小音圧MPよりも小さくなるように、音声情報および振動情報の少なくとも一方に対して加工を行う。
【0044】
ここで、加工後における音声情報の最小音圧をMP’、加工後における振動情報の最大音圧をVP’とした場合、MP’>VP’となるようにするための加工の方法は、3パターンある。第1のパターンは、振動情報は加工せず、音声情報を加工して最小音圧MPを引き上げるという方法である(VP’=VP、MP’>MP)。第2のパターンは、音声情報は加工せず、振動情報を加工して最大音圧VPを引き下げるという方法である(VP’<VP、MP’=MP)。第3のパターンは、音声情報を加工して最小音圧MPを引き上げるとともに、振動情報を加工して最大音圧VPを引き下げるという方法である(VP’<VP、MP’>MP)。本実施形態では、第1〜第3のパターンの何れを適用してもよい。
【0045】
図3は、第3のパターンを適用して音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧VP’が、加工後の音声情報の特定周波数帯域における最小音圧MP’よりも小さくなるようにした結果の周波数特性を示す図である。振動情報加工部13Bは、
図3(b)に示すように、振動情報の周波数帯域の全体を加工することにより、加工前の最大音圧VPを加工後の最大音圧VP’に引き下げている。一方、音声情報加工部13Aは、
図3(a)に示すように、音声情報の特定周波数帯域のみを加工し、当該特定周波数帯域における加工前の最小音圧MPを加工後の最小音圧MP’に引き上げている。これにより、MP’>VP’となるようにしている。MP’>VP’となる関係は、特許請求の範囲における「所定の関係」の一態様である。
【0046】
なお、振動情報に関しては全周波数帯域が1つのトラックに記録されるのに対し、音声情報に関しては複数の周波数帯域毎に複数のトラックに分けて記録され得る。この場合、振動情報の周波数帯域と完全に一致する周波数帯域の音声情報が何れか1つのトラックに記録されているとは限らない。この場合、音声情報加工部13Aは、例えば、振動情報の周波数帯域に最も近い周波数帯域が記録されたトラックの音声情報を加工する。あるいは、振動情報の周波数帯域が音声情報の複数のトラックにまたがって存在する場合に、その複数のトラックの音声情報を加工するようにしてもよい。このように、振動情報の周波数帯域と完全に一致しないものの、振動情報の周波数帯域を含む音声情報の周波数帯域も「振動情報の周波数帯域と同等の周波数帯域」である。
【0047】
図3(a)のように、音声情報について特定周波数帯域のみを加工の対象とする場合、加工の第1のパターンでは、MP’>VP’となるようにするために、音声情報における特定周波数帯域の音圧を比較的大きな変化量をもって上げなければならない場合が起こり得る。この場合、加工前後で音声情報の音質の違いがユーザに聴取されるほどに音質が変わってしまう可能性がある。一方、第2のパターンは、音声情報を加工しないので音質に変化はないが、MP’>VP’となるようにするために、振動情報の音圧を比較的大きな変化量をもって下げなければならない場合が起こり得る。この場合、振動がユーザに与える体感の大きさが小さくなってしまう可能性がある。これに対し、第3のパターンであれば、音声情報の変化量も振動情報の変化量も必要最小限に抑えることができるというメリットがある。実際には、どの程度の音圧の変化量が必要となるかや、音質または振動をどの程度重視するかなどに応じて、第1〜第3のパターンの何れかを適宜適用すればよい。
【0048】
ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、
図3(a)のように音声情報加工部13Aが音声情報の特定周波数帯域を加工する例を示したが、本発明はこれに限定されない。例えば、
図4に示すように、音声情報加工部13Aは、音声情報の周波数帯域の全体を加工するようにしてもよい。
【0049】
また、ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、
図3(b)のように振動情報加工部13Bが振動情報の周波数帯域の全体を加工する例を示したが、本発明はこれに限定されない。例えば、振動情報も複数のトラックに分けて記録されている場合には、振動情報加工部13Bは、
図5に示すように、振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工するようにしてもよい。
【0050】
一般的に、マスキングされる音声の周波数が低くなるほど、マスキング効果が高くなることが知られている。そのため、振動情報の周波数帯域の中でも特に低周波領域の振動情報については音圧を下げなくても、当該低周波領域の振動情報から発生する低周波の音声が、音声情報に基づき発生する音声によって有効にマスキングされる可能性がある。そこで、振動情報も複数のトラックに分けて記録されている場合には、周波数が高い方の周波数帯域の振動情報のみを対象として音圧を下げる加工を行うようにしてもよい。このようにすれば、振動情報の全体的な音圧を極力下げることなく、振動情報に基づく音声がマスキング効果によってユーザに知覚されないようにすることができる。
【0051】
なお、ここでは、音声情報の最小音圧MP’が振動情報の最大音圧VP’よりも小さくなるように加工する例を示したが、本発明はこれに限定されない。例えば、音声情報の最小音圧に代えて、音声情報の最大音圧を用いるようにしてもよい。あるいは、音声情報の最小音圧に代えて、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。ただし、音声情報の最小音圧を用いた場合は、振動情報が有する周波数帯域の全体において、振動情報の音圧が音声情報の音圧よりも小さくなるので、マスキング効果を得やすくなるというメリットを有する。
【0052】
また、ここでは説明の便宜上、時系列的な音声情報および振動情報の一時点における周波数特性を示して音圧の加工内容を説明したが、他の時点における周波数特性は異なるものとなる。この場合、音声情報および振動情報の開始時点から終了時点までの各時点毎に(所定のサンプリング周期で)、音声情報の特定周波数帯域における最小音圧と振動情報の最大音圧との関係を踏まえて個別の加工を行うようにしてもよいが、これでは処理が煩雑となる。そこで、例えば、音声情報について開始時点から終了時点までの特定周波数帯域における最小音圧(または、最大音圧や中間値でもよい)を求めるとともに、振動情報についても開始時点から終了時点までの最大音圧を求め、このようにして求めた音声情報の最小音圧と振動情報の最大音圧との関係を踏まえて、開始時点から終了時点まで一律の加工を行うようにしてもよい。
【0053】
図6は、特定振動情報における音声情報の時系列的な波形情報(
図6(a))と、振動情報の時系列的な波形情報(
図6(b))とを示す図である。ここでは、音声情報および波形情報の両方とも、全体の中の一部を示している。
図6において、横軸は時間、縦軸は振幅である。
【0054】
図6に示す波形情報は、音響コンテンツ生成装置10が備える操作子(図示せず)を用いてユーザがトラックを指定する操作を行うことにより、音響コンテンツ生成装置10が備えるディスプレイ(図示せず)に表示させることが可能である。すなわち、
図6(a)は、特定周波数帯域における音声情報が記録されているトラックを指定したときに表示される波形情報であり、
図6(b)は、振動情報が記録されているトラックを指定したときに表示される波形情報である。
【0055】
ここで、時系列的な波形情報の振幅は、各時点における音の大きさ、つまり音圧を実質的に示していると言える。したがって、
図6に示す波形情報を画面に表示させることにより、指定したトラックの周波数帯域における音声情報および振動情報について、各時点における音圧の変化を確認することが可能である。ユーザは、この波形情報を目視しながら、音響コンテンツ生成装置10が備える操作子を操作することにより、音声情報の音圧および振動情報の音圧の少なくとも一方を加工することが可能である。
【0056】
例えば、
図6(a)に示す波形情報を確認することにより、特定周波数帯域の音声情報について開始時点から終了時点までの最小音圧を把握することができる。ここで、音声情報の波形は、音が発生した時点で振幅が大きくなり、時間の経過と共に振幅が徐々に減衰していく。複数の音が時系列的に発生すると、音が発生する毎に振幅が大きくなっては減衰することを繰り返す。
図6(a)の波形情報はそのような状態を示している。この場合において、音声情報の開始時点から終了時点までの最小音圧は、例えば、繰り返し発生する音に関して音が発生した時点における振幅のうち最小値と定義することが可能である。
図6(a)に示す波形情報の場合、MP
minがその最小音圧となる。
【0057】
図6(b)に示す振動情報についても同様に、画面に表示された波形情報を確認することにより、振動情報について開始時点から終了時点までの最大音圧を把握することができる。
図6(b)の波形情報は、振幅があまり大きく変化しない振動が連続的に与えられ続けることを示している。この場合において、振動情報の開始時点から終了時点までの最大音圧はVP
maxなる。
【0058】
ユーザは、音響コンテンツ生成装置10が備える操作子を操作して、
図6(a)に示す音声情報の音圧および
図6(b)に示す振動情報の音圧の少なくとも一方を加工することにより、振動情報の最大音圧VP
maxが音声情報の特定周波数帯域における最小音圧MP
minより小さくなるようにする。なお、このように加工した場合、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大きくなることがある。
【0059】
そこで、振動情報については、開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げるのではなく、複数に分割した区間ごとに異なる圧縮率で音圧を調整するようにしてもよい。あるいは、基本的には開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げることとし、特定の区間のみ例外的に異なる圧縮率で音圧を下げるようにしてもよい。なお、音声情報についても同様に区間ごとに音圧を調整するようにしてもよいが、区間ごとに音圧の調整率を大きく変えすぎると音質に影響を与える可能性があるので、区間ごとの音圧の調整率は大きく変えないようにするのが好ましい。
【0060】
図7は、
図6に示す波形情報に対して、音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧VP
max’が、加工後の音声情報の特定周波数帯域における最小音圧MP
min’より小さくなるようにした結果の波形情報を示す図である。すなわち、振動情報加工部13Bは、
図6(b)に示すように、振動情報の開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を引き下げることにより、加工前の最大音圧VP
maxを加工後の最大音圧VP
max’に引き下げている。一方、音声情報加工部13Aは、
図6(a)に示すように、音声情報の開始時点から終了時点までの全期間において一律に同じ上昇率で音圧を引き上げることにより、加工前の最小音圧MP
minを加工後の最小音圧MP
min’に引き上げている。これにより、MP
min’>VP
max’となるようにしている。
【0061】
なお、
図7では、振動情報の最大音圧VP
maxが音声情報の最小音圧MP
minよりも小さくなるように音声情報および振動情報の少なくとも一方を加工する例について説明したが、上述したように、音声情報の最小音圧MP
minに代えて、音声情報の最大音圧を用いるようにしてもよいし、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。
【0062】
また、上記実施形態では、ユーザが音響コンテンツ生成装置10の操作子を操作することによって音声情報および振動情報の波形情報を画面上に表示させ、この波形情報をユーザが目視しながら音響コンテンツ生成装置10の操作子を操作することによって音声情報および振動情報の少なくとも一方に関する音圧を調整する例について説明したが、これを音響コンテンツ生成装置10の処理として自動的に行うようにしてもよい。
【0063】
すなわち、音声情報加工部13Aは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をMP
minを検出する。一方、振動情報加工部13Bは、振動情報の開始時点から終了時点までの最大音圧VP
maxを検出する。そして、加工部13は、MP
min<VP
maxとなっているか否かを判定し、MP
min<VP
maxとなっている場合に、音声情報加工部13Aが音声情報の音圧を引き上げるとともに、振動情報加工部13Bが振動情報の音圧を引き下げることにより、調整後の音圧がMP
min’>VP
max’となるようにする。例えば、音声情報の音圧の上昇と振動情報の音圧の下降とをステップ処理として段階的に行っていき、MP
min’>VP
max’となった時点でステップ処理を終了するという方法で処理することが可能である。
【0064】
図8は、加工部13における加工を自動的に行うようにした場合における音響コンテンツ生成装置10の動作例を示すフローチャートである。
図8において、まず、音声情報取得部11は、音響コンテンツ生成装置10の操作子を操作することによってユーザにより選択された音声情報を取得する(ステップS1)。また、振動情報取得部12は、音響コンテンツ生成装置10の操作子を操作することによってユーザにより選択された振動情報を取得する(ステップS2)。ここでは、振動情報取得部12により取得された振動情報は1つのトラックに記録されるものとする。
【0065】
次いで、音声情報加工部13Aは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をMP
minを検出する(ステップS3)。また、振動情報加工部13Bは、振動情報の開始時点から終了時点までの最大音圧VP
maxを検出する(ステップS4)。そして、加工部13は、MP
min<VP
maxとなっているか否かを判定する(ステップS5)。MP
min<VP
maxとなっていなければ、
図8に示すフローチャートの処理は終了する。
【0066】
一方、MP
min<VP
maxとなっている場合、音声情報加工部13Aは、音声情報の音圧をx[dB]だけ引き上げる(ステップS6)。ここで、音圧を引き上げる量xは、あらかじめ任意の量として設定しておくことが可能である。すなわち、音声情報加工部13Aは、調整後の最小音圧MP
min’の値が(MP
min’+x)となるように、音声情報の音圧を引き上げる。
【0067】
また、振動情報加工部13Bは、振動情報の音圧をx[dB]だけ引き下げる(ステップS7)。すなわち、振動情報加工部13Bは、調整後の最大音圧VP
max’の値が(VP
max’−x)となるように、振動情報の音圧を引き下げる。なお、ここでは音声情報の音圧の上昇量と振動情報の音圧の下降量とを同じx[dB]としているが、異なる量としてもよい。
【0068】
次に、加工部13は、ステップS6,S7で調整した後の音声情報および振動情報の音圧が、MP
min’>VP
max’となったか否かを判定する(ステップS8)。MP
min’>VP
max’となっていない場合、処理はステップS6に戻り、音声情報および振動情報の音圧の調整を継続する。一方、MP
min’>VP
max’となった場合は、音圧の調整が完了したことになるので、
図8に示すフローチャートの処理は終了する。なお、ステップS8の判定において、所定量のマージンαを持たせて、MP
min’>VP
max’+αとなったか否かを判定するようにしてもよい。
【0069】
図9は、以上のように構成した音響コンテンツ生成装置10により生成された音響コンテンツを再生する音響コンテンツ再生装置20の機能構成例を示すブロック図である。音響コンテンツ再生装置20としては、例えば、スマートフォン、携帯型音楽再生プレイヤ、パーソナルコンピュータなどを用いることが可能である。あるいは、音響コンテンツ再生装置20は、任意の機器に組み込んだものであってもよい。
【0070】
図9に示すように、本実施形態の音響コンテンツ再生装置20は、その機能構成として、音響コンテンツ取得部21および音響コンテンツ供給部22を備えている。これら各機能ブロック21,22は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック21,22は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0071】
音響コンテンツ取得部21は、
図1に示した音響コンテンツ生成装置10により生成された音響コンテンツを取得する。例えば、音響コンテンツ生成装置10を音響コンテンツ再生装置20に接続し、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを音響コンテンツ生成装置10から取得する。なお、ここでは、音響コンテンツ生成装置10により複数種類の音響コンテンツが生成されているとの前提である。
【0072】
あるいは、音響コンテンツ生成装置10により生成された複数種類の音響コンテンツが記憶された外部装置を音響コンテンツ再生装置20に接続し、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを外部装置から取得するようにしてもよい。この場合の外部装置は、音響コンテンツ再生装置20に対して有線または無線で直接的に接続されたもの(例えば、パーソナルコンピュータ、スマートフォン等の携帯端末、リムーバル記憶媒体など)であってもよいし、音響コンテンツ再生装置20に対して通信ネットワークを介して接続可能に構成されたサーバ装置であってもよい。サーバ装置を用いる場合、音響コンテンツ取得部21は、サーバ装置から音響コンテンツをストリーミング的に取得して音響コンテンツ供給部22に提供することが可能である。
【0073】
また、別の例として、音響コンテンツ生成装置10により生成された複数種類の音響コンテンツを音響コンテンツ再生装置20が内部の記憶媒体に記憶していて、音響コンテンツ取得部21は、ユーザ操作により選択された音響コンテンツを内部の記憶媒体から取得するようにしてもよい。音響コンテンツ再生装置20が内部の記憶媒体に音響コンテンツを記憶する形態として、音響コンテンツ再生装置20に対して通信ネットワークを介して接続可能に構成されたサーバ装置から、音響コンテンツ取得部21が音響コンテンツをダウンロードして内部の記憶媒体に記憶させるようにしてもよい。
【0074】
上記のように、サーバ装置が音響コンテンツ再生装置20に対して音響コンテンツをダウンロード可能に構成した場合や、サーバ装置が音響コンテンツ再生装置20に対して音響コンテンツをストリーミング配信可能に構成した場合、サーバ装置は特許請求の範囲の音響コンテンツ提供装置に相当する。すなわち、この場合のサーバ装置は、音響コンテンツ生成装置10により生成された音響コンテンツを記憶し、音響コンテンツ再生装置20からの要求に応じて音響コンテンツを音響コンテンツ再生装置20に提供する。また、サーバ装置と音響コンテンツ再生装置20とが通信ネットワークを介して接続可能に構成されたシステムによって、特許請求の範囲の音響コンテンツ配信システムが構成される。なお、サーバ装置が記憶する音響コンテンツは、第2の実施形態で説明する音響コンテンツ生成装置10’により生成されるものであってもよい。
【0075】
音響コンテンツ供給部22は、音響コンテンツ取得部21により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部100に供給する。ここで、音声出力部100は、据置型または携帯型のスピーカであってもよいし、イヤホンであってもよいし、ヘッドホンであってもよい。これらの音声出力部100は、音響コンテンツ再生装置20に対して有線または無線で接続される。また、音声出力部100は、音響コンテンツ再生装置20が内蔵しているスピーカであってもよい。
【0076】
なお、音響コンテンツ供給部22は、音響コンテンツ取得部21により取得された音響コンテンツの音声情報および振動情報に対して、D/A変換、アンプを用いた増幅処理、波形整形処理などの一般的な音声信号処理を行った上で、信号処理後の情報を音声出力部100に供給することを含んでもよい。
【0077】
このように、音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部100に供給すると、音声出力部100が有する振動板から、音声情報に基づく音声と振動情報に基づく音声とが発生することになる。ただし、振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように音声情報の音圧と振動情報の音圧とが調整されているので、振動情報に基づく音声は、音声情報に基づく音声によってかき消され、ユーザの耳には聴取しにくいものとなっている。しかも、振動情報が存在しないわけではなく、厳然として存在する振動情報が音声出力部100の振動板に伝わることにより、振動情報に固有の振動が発生する。これにより、音声情報に基づき発生する音楽の音声を、振動情報に基づき発生する音声によって邪魔されない状態で音質を保ったままユーザに伝えつつ、振動情報に基づく振動も同じ振動板からユーザに同時に伝えることが可能となる。
【0078】
以上詳しく説明したように、第1の実施形態では、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行い、加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するようにしている。そして、このようにして生成した音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給するようにしている。
【0079】
上記のように構成した第1の実施形態によれば、音声情報および振動情報を含む音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工された音響コンテンツを生成することができる。第1の実施形態により生成される音響コンテンツを音声出力部100に供給した場合、音声と振動とが同じ音声出力部100から発生するので、これをユーザは一体のものとして体感することができる。しかも、音響コンテンツに含まれる振動情報が音声となって現れたとしても、同じ音響コンテンツに含まれる音声情報に基づき発生される音声よるマスキング効果によって、振動情報に基づき発生する音声はユーザに聴取し難いものとなっている。
【0080】
これにより、第1の実施形態によれば、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することができる。特に、第1の実施形態によれば、振動情報に基づく振動が音声出力部とは異なる振動付与体から発生するように構成された従来技術とは異なり、同じ音声出力部100の振動板から発生する振動が音声に対して直接的に相乗効果を与えることにより、音響的な奥行き感や厚み感、あるいは立体感などが増したような振動付き音声をユーザに提供することができる。また、上述したように所定の触覚効果を持った振動情報、所定の身体的効果または心理的効果を奏する振動情報を用いることにより、情報伝達メディアとして音声情報との相乗効果の発揮も期待できる。
【0081】
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。
図10は、第2の実施形態による音響コンテンツ生成装置10’の機能構成例を示すブロック図である。なお、この
図10において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0082】
図10に示すように、第2の実施形態による音響コンテンツ生成装置10’は、その機能構成として、加工部13に代えて加工部13’を備えている。特に、第2の実施形態では、振動情報加工部13Bに代えて振動情報加工部13B’を備え、振動情報の加工の仕方が第1の実施形態と異なっている。
【0083】
図11は、振動情報加工部13B’の具体的な機能構成例を示すブロック図である。
図11に示すように、振動情報加工部13B’は、その機能構成として、特徴抽出部131、重み情報生成部132、重み加工部133および振動調整部134を備えている。
【0084】
特徴抽出部131は、音声情報取得部11により取得された音声情報の周波数帯域のうち特定周波数帯域の波形情報において、他の箇所と区別し得る複数の特徴箇所を抽出する。例えば、特徴抽出部131は、音声情報の波形情報において、所定時間の間に振幅値が所定値以上大きくなる箇所を特徴箇所として抽出する。所定時間の間に振幅値が所定値以上大きくなる箇所は、典型的には、時系列な音声情報の開始時点から終了時点までの中で繰り返し発生する複数の音のそれぞれの発生時点である。
【0085】
重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所に基づいて、特徴箇所間の時間区間において経時的に値が変化する重み情報を生成する。例えば、重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所に基づいて、一の特徴箇所が抽出された時間から次の特徴箇所が抽出された時間まで値が経時的に徐々に小さくなる重み情報を生成する。
【0086】
図12は、特徴抽出部131および重み情報生成部132の処理内容を説明するための図である。ここで、
図12(a)は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報の一部を示している。
図12(b)は、振動情報取得部12により取得された振動情報の波形情報に対し、重み情報生成部132により生成された重み情報を模式的に重ねて示した状態を示している。なお、
図12(a)に示す音声情報の波形情報は、
図6(a)に示したものと同じである。
【0087】
特徴抽出部131は、
図12(a)に示す音声情報の波形情報において、所定時間(例えば、0.1秒)の間に振幅値が所定値以上大きくなる箇所を複数の特徴箇所F
1,F
2,F
3,・・・として抽出する。すなわち、特徴抽出部131は、音声情報の波形情報の振幅値が急激に大きくなる箇所を特徴箇所F
1,F
2,F
3,・・・として抽出する。これは、
図6で説明したように、音が発生した時点で振幅が急激に大きくなる箇所を抽出することに相当する。
【0088】
重み情報生成部132は、特徴抽出部131により抽出された複数の特徴箇所F
1,F
2,F
3,・・・に基づいて、一の特徴箇所F
i(i=1,2,・・・)が抽出された時間から、次の特徴箇所F
i+1が抽出された時間まで、値が経時的に徐々に小さくなる重み情報を生成する。この重み情報は、重み値(何れも正の値)が最小値から最大値までの間をとる情報であり、
図12(b)においてノコギリ波として模式的に示されている。
【0089】
図12(b)の例では、一の特徴箇所F
iが抽出された時間において重み値が最大となり、そこから線形的あるいは段階的に値が経時的に徐々に小さくなり、次の特徴箇所F
i+1が抽出された時間において重み値が再び最大となるような重み情報を生成している。ここで、重み情報生成部132は、一の特徴箇所F
iが抽出された時間において重み値が最大となり、次の特徴箇所F
i+1が抽出された時間に達する時点で重み値がちょうど最小値となるような重み情報を生成している。
【0090】
なお、ここに示した重み情報の生成処理は一例であり、これに限定されるものではない。例えば、
図12(b)では、重み値が一定の割合で直線的に徐々に小さくなる例を示したが、一の特徴箇所F
iが抽出された時間から次の特徴箇所F
i+1が抽出された時間まで、所定の2次関数あるいは対数関数などに従って値が曲線的に徐々に小さくなるような重み情報を生成するようにしてもよい。
【0091】
また、重み値が徐々に小さくなる割合(ノコギリ波で示される斜線部の傾斜角)を、どの区間も同じとするようにしてもよい。この場合、一の特徴箇所F
iと次の特徴箇所F
i+1との間が長い区間があると、次の特徴箇所F
i+1に至る前に重み値が最小値に達する。この場合、重み情報生成部132は、例えば、重み値が最小値に達した後、次の特徴箇所F
i+1に至るまで、重み値が最小値に固定するような重み情報を生成する。
【0092】
また、重み値の最大値と最小値とを固定値とせず、所定の条件に応じて変動する変動値とするようにしてもよい。例えば、特徴箇所における振幅値の大きさに応じて、重み値の最大値を可変とするようにしてもよい。この場合、重み情報生成部132は、一の特徴箇所F
iにおける振幅値が大きいほど重み値が大きくなるようにし、そこから次の特徴箇所F
i+1まで値が徐々に小さくなるような重み情報を生成する。このようにすれば、所定時間の間に振幅値が所定値以上大きくなる複数の特徴箇所F
iのうち、その特徴箇所F
iの振幅値が大きいほど大きな重み値が設定されるようになる。
【0093】
重み加工部133は、振動情報取得部12により取得された振動情報を、重み情報生成部132により生成された重み情報によって加工する。例えば、重み加工部133は、振動情報の波形情報の振幅値に対して重み情報の重み値を乗算することにより、振動情報の振動情報を加工する。
【0094】
すなわち、重み加工部133は、
図12(b)に示している振動情報の波形情報の各時間における振幅値に対し、同じく
図12(b)にノコギリ波として模式的に示している各時間における重み値を乗算する。
図12(b)において、振動情報の波形情報と重み情報とを重ねて示しているのは、各時刻における波形情報の振幅値と、これに対して乗算する重み値との対応関係を明示するためである。
【0095】
図13は、重み加工部133により加工された振動情報の波形情報を音声情報の波形情報と共に示す図である。
図13(a)は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報を示し、
図13(b)は、重み加工部133により加工された振動情報の波形情報を示している。
図13(a)に示す音声情報の波形情報は、
図12(a)に示す音声情報の波形情報と同じである。
【0096】
このようにして加工される
図13(b)の振動情報は、音声情報の波形情報における特徴箇所と同調する態様で重み値が変動する重み情報によって波形の振幅値が加工されたものである。このため、重み加工部133により加工された振動情報は、音声情報の振幅の変化と同調した態様で振幅が変化するものとなる。すなわち、
図12(a)のように、加工前の振動情報が、時間と共に振幅値が大きく変動しないものであれば、これを上述した重み情報によって加工することにより、音声情報において音が発生した時点で振幅が大きくなり、次に音が発生する時点までの間に振幅が徐々に小さくなっていくような波形を有する振動情報が得られる。
【0097】
振動調整部134は、重み加工部133により加工された振動情報の音圧を調整することにより、調整後の振動情報の音圧が、音声情報の特定周波数帯域における音圧よりも小さくなるようにする。なお、この振動調整部134の処理は、第1の実施形態で説明した処理と同じであるので、詳細な説明は割愛する。また、第1の実施形態で説明したのと同様に、音声情報加工部13Aによる音声情報の加工のみを行い、振動情報加工部13B’による振動情報の加工は行わないようにすることも可能である。あるいは、振動情報の加工に関しては、重み加工部133の加工は行う一方で、振動調整部134の調整は行わないようにすることも可能である。
【0098】
なお、特徴抽出部131が音声情報の波形情報から抽出する複数の特徴箇所は、以上に説明した例に限定されない。例えば、特徴抽出部131は、音声情報の波形情報において、振幅値が所定値以上となる箇所を特徴箇所として抽出するようにしてもよい。あるいは、音声情報の波形情報を時間ごとに周波数解析し、含まれる周波数成分が急激に変わる箇所を特徴箇所として抽出するようにしてもよい。
【0099】
また、上記実施形態では、重み情報生成部132は、一の特徴箇所F
iが抽出された時間から次の特徴箇所F
i+1が抽出された時間まで値が徐々に小さくなるような重み情報を生成したが、本発明はこれに限定されない。例えば、特徴抽出部131が、音声情報の波形情報において所定時間の間に振幅値が急激に小さくなる箇所を特徴箇所として抽出するようにし、重み情報生成部132が、一の特徴箇所F
iが抽出された時間から次の特徴箇所F
i+1が抽出された時間まで値が徐々に大きくなるような重み情報を生成するようにしてもよい。
【0100】
以上のように構成した第2の実施形態による音響コンテンツ生成装置10’により生成された音響コンテンツを再生する場合も、
図9に示した音響コンテンツ再生装置20を用いることが可能である。
【0101】
このように構成した第2の実施形態によれば、音声情報の時系列的な波形情報における振幅の増減と同調する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことを回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。
【0102】
なお、
図11に示した構成に代えて、
図14のような構成を採用してもよい。
図14に示す振動情報加工部13B’は、
図11に示した特徴抽出部131および重み情報生成部132に代えて、エンベロープ生成部135および重み情報生成部132’を備えている。
【0103】
エンベロープ生成部135は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報に対するエンベロープ波形を生成する。例えば、エンベロープ生成部135は、音声情報取得部11により取得された音声情報の特定周波数帯域における波形情報に対してローパスフィル処理を施すことにより、音声情報のエンベロープ波形を生成する。
【0104】
重み情報生成部132’は、エンベロープ生成部135により生成されたエンベロープ波形の振幅と同調するように値が変化する重み情報を生成する。例えば、重み情報生成部132’は、エンベロープ波形と同じカーブで値が変動する重み情報を生成する。このようにすれば、音声情報の時系列的な波形情報における振幅の増減とより合致する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことをより効果的に回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。
【0105】
なお、上述した第1の実施形態において、
図11または
図14の構成により加工した振動情報を振動情報取得部12から取得するようにしてもよい。すなわち、第1の実施形態において、振動情報取得部12は、音声情報取得部11により取得される音声情報の特定周波数帯域における波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。または、振動情報取得部12は、音声情報取得部11により取得された音声情報の特定周波数帯域におけるエンベロープ波形の振幅と同調するように値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。
【0106】
上記第1および第2の実施形態では、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるように、音声情報および振動情報の少なくとも一方を加工する例について説明したが、振動情報の音圧が音声情報の音圧よりも小さくなるようにすることを必須とするものではない。マスキング現象は、マスキングされる音の周波数が低くなるほど起こりやすく、低周波領域においてマスキング効果が高くなる傾向にある。よって、振動情報取得部12により取得される振動情報の周波数がかなり小さい場合には、振動情報の音圧が音声情報の音圧よりも小さくなくても、すなわち、両者の音圧が同等程度あるいは振動情報の音圧が音声情報の音圧より若干大きい状態でも、ある程度のマスキング効果は期待できる。
【0107】
したがって、振動情報の音圧と、特定周波数帯域における音圧との関係が所定の関係となるように、音声情報の加工および振動情報の加工の少なくとも一方を行うようにすればよい。例えば、振動情報の周波数(周波数帯域の最小周波数または最大周波数)と、マスキング効果が現れるときの音圧差(音声情報の音圧と振動情報の音圧との差で、前者の方が大きい場合と、後者の方が大きい場合との両方を含み得る)との関係をあらかじめ試行的に求め、その結果をテーブル情報や機械学習の学習モデル等として音響コンテンツ生成装置10、10’に記憶しておく。この場合の音圧差(音声情報の音圧と振動情報の音圧のどちらの方が高いかを示す情報を含む)が上述の「所定の関係」に相当する。そして、振動情報取得部12により取得された振動情報の周波数に応じて、加工部13,13’が上記の記憶情報を参照または利用し、記憶情報から求められる音圧差の関係となるように、音声情報および振動情報の少なくとも一方を加工する。
【0108】
テーブル情報を用いる例において、例えば、音声情報の音圧の方が振動情報の音圧よりも大きい場合にのみマスキング効果が現れるような振動情報の場合は、マスキング効果が現れるときの音圧差のうち最小の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。一方、振動情報の音圧の方が音声情報の音圧よりも大きい場合でもマスキング効果が現れるような振動情報の場合は、振動情報の音圧の方が音声情報の音圧よりも大きい場合にマスキング効果が現れるときの音圧差のうち最大の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。このようにすれば、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。
【0109】
また、学習モデルを用いる場合は、振動情報の周波数を入力した際にマスキング効果が現れる音圧差の情報が出力されるように機械学習によってパラメータが調整された学習モデルを記憶しておく。この場合の学習モデルは、例えば、上述のテーブル情報で説明したような関係となる音圧差を出力するようにパラメータが調整されたモデルとすることが可能である。この場合も、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。なお、ここに説明したテーブル情報および学習モデルは一例であり、これに限定されるものではない。
【0110】
また、上記第1および第2の実施形態では、振動情報の加工に関して、
図3(b)または
図5に例示したように振動情報の音圧を引き下げる例について説明したが、本発明はこれに限定されない。例えば、
図15(a)に示すように、振動情報の音圧をVPからVP’に所定量引き下げるとともに、加工後の音圧VP’が閾値の音圧VP”より大きい場合に、振動情報の音圧が閾値の音圧VP”を超えないようにリミット処理するようにしてもよい。
【0111】
ここで、閾値の音圧VP”は、あらかじめ定めた値とすることが可能である。または、加工後または未加工の音声情報の特定周波数帯域における最小音圧値またはそれより所定値だけ小さい値を閾値の音圧VP”として設定するようにしてもよい。この例の場合、振動情報の音圧をVPからVP’に引き下げる際に、振動情報の下降後の最大音圧が、加工後または未加工の音声情報の特定周波数帯域における最小音圧よりも小さくなるところまで引き下げることは必須ではない。
【0112】
このようにすると、
図15(b)に示すように、経時的に音圧が変動する振動情報を用いる場合に、全体として音圧をΔV(=VP−VP’)引き下げるだけで閾値VP”以下となる時間区間T
Aではその音圧のままとなり、音圧をΔV引き下げるだけだと下降後の音圧が閾値VP”を超える時間区間T
Bでは音圧が閾値VP”を超えないようにリミット処理されることとなる。これにより、振動情報の音圧を引き下げる量をできるだけ少なくした上で、マスキング効果を利用することが可能となる。
【0113】
また、上記第1および第2の実施形態では、所望の振動情報を音声情報に加えてミキシングする例について説明し、所望の振動情報の一例として、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報を用いる例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部12は、中心周波数の音圧が0dBよりも小さい低周波(例えば、100Hz以下)の振動情報を取得するようにしてもよい。
【0114】
中心周波数の音圧が0dBよりも小さい低周波の振動情報を音声情報に合成すると、その影響を受けて音声情報の中心周波数の音圧が0dBを下回るため、振動情報の周波数領域よりも高域側の中高周波領域(特に中周波領域)の音声情報の音圧が低下する。このため、このように音声情報と振動情報とが合成された音響コンテンツを再生するときに、音量を大きくしても音割れが生じにくくなる。一般に、音声情報を再生するときの音量がかなり大きくなると、音割れが生じることがある。これに対し、中心周波数の音圧が0dB以下の低周波振動情報を音声情報に加えてミキシングすることにより、大きな音量で再生したときの音割れを生じにくくすることが可能となる。
【0115】
また、一般的に、音声情報の全体的な周波数のバランスが悪く、中周波数域の音圧が大きすぎると、再生音はこもった音になる傾向がある。これに対し、中心周波数の音圧が0dB以下の低周波振動情報を音声情報に加えると、中高周波領域の音声情報の音圧が低下するため、低音部から高音部までの全体の周波数領域をバランスよく含んだ再生音が得られる。その結果、音割れを生じることなく大きな音量で再生することが可能で、そのときの再生音がクリアになるというメリットを有する。
【0116】
また、上記第1および第2の実施形態では、音声情報取得部11により取得された音声情報を1つまたは複数のトラックに記録するとともに、振動情報取得部12により取得された振動情報を1つまたは複数のトラックに記録し、トラック単位で音声情報および振動情報の加工を行う例について説明したが、本発明はこれに限定されない。例えば、音声情報および振動情報の何れもトラックに関係なく、あるいは1つのトラックに記録し、任意の周波数帯域を指定して加工を行うことができるようにしてもよい。
【0117】
また、上記第1および第2の実施形態では、音声情報取得部11により取得される音声情報と、振動情報取得部12により取得される振動情報とが元々別のものである例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部12は、音声情報取得部11により取得される音声情報に含まれる振動情報を分離することによって振動情報を取得するようにしてもよい。例えば、音声情報に含まれる比較的大きな振幅の振動情報を分離して取り出し、これに対して上記実施形態で説明した加工を施すことにより、元々は耳障りとなり得る振動情報を心地よい振動情報に変えた状態にして音響コンテンツを生成することが可能である。
【0118】
その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
振動情報と、当該振動情報に対応する周波数帯域の音声情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行う加工部13と、加工された音声情報と振動情報とをミキシングするミキシング部14とを備え、音声情報および振動情報を含む音響コンテンツであって、振動音が音声によってマスキングされるように加工された音響コンテンツを生成することにより、振動情報が厳然として存在しながらも、その振動情報がスピーカに供給されることによって音声となって現れたとしても、振動情報に基づき発生する音声がマスキング効果によってユーザに聴取し難いものとなるようにする。