(58)【調査した分野】(Int.Cl.,DB名)
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつける入力部と、
前記入力部において受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行する音声処理部と、
前記音声処理部が実行した音声処理に対するユーザの評価を受けつける受付部と、
前記受付部において受けつけた評価を前記サーバ装置に報告する出力部とを備え、
前記出力部から報告される評価は、よいあるいは悪いを少なくとも示しており、
前記入力部は、前記出力部による評価の報告の後、前記出力部から報告される評価が悪いを示している場合に、前記サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、
前記音声処理部は、前記入力部において新たに受けつけた推薦に対応した別の音声処理のパラメータを使用することを特徴とする端末装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択する分析部と、
前記分析部において選択した音声処理のパラメータを前記端末装置に推薦する出力部と、
前記出力部による推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつける入力部とを備え、
前記入力部において受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記分析部は、前記入力部において評価を受けつけた後、前記入力部において受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記出力部は、前記分析部が新たに選択した別の音声処理のパラメータを前記端末装置に推薦することを特徴とするサーバ装置。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、サーバ装置から、いずれかの音声処理のパラメータの推薦を受けつけるステップと、
受けつけた推薦に対応した音声処理のパラメータを設定することによって、音声処理を実行するステップと、
音声処理に対するユーザの評価を受けつけるステップと、
受けつけた評価を前記サーバ装置に報告するステップとを備え、
前記報告されるステップから報告される評価は、よいあるいは悪いを少なくとも示しており、
前記推薦を受けつけるステップは、評価の報告の後、報告される評価が悪いを示している場合に、前記サーバ装置から、別の音声処理のパラメータの推薦を新たに受けつけ、
前記音声処理を実行するステップは、新たに受けつけた推薦に対応した別の音声処理のパラメータを使用することを特徴とする音声処理方法。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、ひとつの端末装置に使用させるべきいずれかの音声処理のパラメータを選択するステップと、
選択した音声処理のパラメータを前記端末装置に推薦するステップと、
推薦に対応した音声処理のパラメータを使用して音声処理を実行した前記端末装置から、音声処理に対するユーザの評価を受けつけるステップとを備え、
前記受けつけるステップにおいて受けつけうる評価は、よいあるいは悪いを少なくとも示しており、
前記選択するステップは、評価を受けつけた後、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、
前記推薦するステップは、新たに選択した別の音声処理のパラメータを前記端末装置に推薦することを特徴とする設定方法。
複数の端末装置のそれぞれにおいて使用されうる音声処理のパラメータが複数規定されており、いずれかの音声処理のパラメータを選択し、選択した音声処理のパラメータを推薦するサーバ装置と、
前記サーバ装置による推薦に対応した音声処理のパラメータを使用して音声処理を実行するとともに、音声処理に対するユーザの評価を受けると、評価を前記サーバ装置に報告する端末装置とを備え、
前記端末装置から報告される評価は、よいあるいは悪いを少なくとも示しており、
前記サーバ装置は、評価を受けつけた後、受けつけた評価が悪いを示している場合に、別の音声処理のパラメータを新たに選択し、新たに選択した別の音声処理のパラメータを推薦することを特徴とする音声処理システム。
【発明を実施するための形態】
【0014】
(実施例1)
本発明の実施例1を具体的に説明する前に、基礎となった知見を説明する。本発明の実施例1は、自動車等の車両内に設置された音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。音声のチューニングとは、周囲の環境に応じて音声の再生/録音を最適化することである。このような音声のチューニングは、音声キャリブレーション、音声等化、音声補償、音声訂正、音声最適化とも呼ばれる。音声のチューニングによって、より自然な音声、より現実的な音声、よりバランスのとれた音声、雑音が低減された音声、ユーザの好みに合った音声等が再生される。このような音声のチューニングは、一般的に、工場にてなされる。また、再生装置を販売している店舗、例えば、カーオーディオ店にてなされることもある。しかしながら、音声のチューニングは、一般ユーザによって難しいので、ユーザ宅において通常なされない。
【0015】
音声のチューニング処理は、一般的に次のステップにてなされる。
(1)ハードウエアの構成/キャリブレーション
スピーカを追加したり、スピーカの位置を変えたりすることによって、スピーカ、増幅器、ケーブルが変更される。
(2)クロスオーバ
各スピーカに対して特定の周波数バンドを割り当てる。
(3)増幅率の設定
クリッピングを防止し、バランスを保つように、増幅器の各チャネルレベルを調節する。
(4)タイムアライメント
位相のミスマッチを修正するために各スピーカからの音声の遅延を調節する。
(5)等化
音色を調整するために、周波数応答を制御する。なお、等化は、主として次のふたつのタイプに分類される。ひとつ目は、補償のための等化(以下、「補償等化」という)である。装置あるいは環境の影響を受けて、ユーザに到達する前に、音声が変化する。補償等化は、装置と環境の影響を低減するように、周波数応答を操作するための処理である。ふたつ目は、人工的な等化である。上記のような補償がなされている場合であっても、音声が、ユーザの好みに合っていないこともある。人工的な等化は、ユーザの好みに音声を合わせるように、周波数応答を調整するための処理である。
【0016】
音声のチューニングに関する課題は、例えば、次の通りである。ひとつ目の課題は、音声のチューニングの困難性である。音声のチューニングには、高度な技術と装置が求められる。高度な技術は、音声のバランス/音色/遅延/雑音レベルをチェックするために必要とされる。このようにユーザが満足するような音声を再現するためには、高度の技術が要求される。また、高度な装置として、インパルス生成機、マイクロホン、両耳の部分にマイクロホンを組み込んだ人頭型の録音装置、実時間音声分析器が必要とされる。ふたつ目の課題は、環境の特性の学習がなされないことである。音声のチューニングは、前述のごとく、出荷前に工場だけでなされ、出荷後に音声のチューニングを実行することはまれである。3つ目の課題は、人種、国籍、年齢、性別のようなユーザの特徴が区別されていないことである。例えば、高齢者は高周波数に対して敏感でないので、高周波数の増幅が必要とされる。一方、若い人は低音を強調した音を好む傾向にある。インド人は、道路においても大きな音で警笛をならすので、周波数領域を補償することが望ましい。VIP車両において、VIP座席に対して音声のチューニングがなされるべきである。
【0017】
次に、本実施例の概略を説明する。本実施例では、車両内に再生装置と端末装置とが搭載されるとともに、車両外にサーバ装置が設置される。また、端末装置とサーバ装置とは、無線回線にて接続される。サーバ装置は、端末装置から、ユーザプロファイル等を受信して、ユーザプロファイル等をもとにユーザの好みを分析することによって、音声処理パラメータを選択する。なお、音声処理パラメータは、専門家によって予め複数用意されている。サーバ装置は、選択した音声処理パラメータの使用を端末装置に推薦する。端末装置は、推薦された音声処理パラメータを使用して音声処理を実行し、再生装置は、音声処理結果を再生する。これを聴いたユーザは、音声処理に対する評価として、「よい」あるいは「悪い」を端末装置に入力する。端末装置は、評価をサーバ装置に報告する。評価が「悪い」であれば、サーバ装置は、別の音声処理パラメータを選択し、これを端末装置に推薦し直す。
【0018】
ここで、好みの傾向を分析するために、サーバ装置は、ユーザプロファイル、評価、音声内容のデータを使用する。ユーザプロファイルは、端末装置から初期段階において取得されており、例えば、ユーザの国籍、人種、年齢、種別等によって示される。評価は、音声処理パラメータの過去の処理結果、履歴を反映する。音声内容のデータは、ジャンル、アーティスト、題名を含む。分析は、ソフトウエアによって自動的になされるか、部分的に手動によってなされる。協調フィルタリング、コンテンツベースフィルタリング、ベイジアンネットワーク等が、傾向分析のために適用される。
【0019】
推薦される音声処理パラメータは、ランキングスタイルにて示される。ユーザが、最も推薦される音声処理パラメータを「悪い」と評価すると、評価はサーバ装置に還元される。サーバ装置は、次の音声処理パラメータを端末装置に推薦する。ユーザは、気に入った音声処理パラメータを取得するまで、音声処理システムは、上記の処理が繰り返される。このように還元された評価は、ユーザの好みを学習するために使用され、データベースが更新される。
【0020】
ひとつ目の課題に対して、高度の技術を有した専門家が、さまざまな環境あるいは好みに応じた音声処理パラメータを複数生成する。このような複数の音声処理パラメータは、複数のユーザによって共有される。特に、好みの傾向が近い複数のユーザによってグループが形成され、グループ内において音声処理パラメータが共有される。その結果、高度の技術を有さないユーザに対しても、環境あるいは好みに適した音声処理パラメータが提供可能になる。その際、ユーザの処理を簡易するために、ユーザは、「よい」あるいは「悪い」を入力するだけである。このように、簡易に迅速に、音声処理パラメータが設定される。ふたつ目の課題に対して、高度の技術を有した専門家によって、音声処理パラメータが追加されるとともに、これが使用される。その結果、出荷後であっても、音声のチューニングがなされる。3つ目の課題に対して、前述のグループが形成されることによって、グループの好みの傾向に応じた音声処理パラメータが設定される。その結果、ユーザの特徴を区別するための設定が簡易になされる。
【0021】
図1は、本発明の実施例1に係る音声処理システム100の構成を示す。音声処理システム100は、サーバ装置10、ネットワーク12、基地局装置14、端末装置20、再生装置18を含む。ここで、端末装置20、再生装置18は、車両16に搭載される。ここでは、図を明瞭にするために、ひとつの再生装置18、端末装置20が示されているが、これらは複数存在してもよい。車両16は、例えば、自動車である。再生装置18は、車両16に搭載され、音声データを再生する。以下では、「音声」と「音声データ」とを区別せずに使用し、これらには音楽も含まれる。再生装置18は、例えば、カーオーディオ、ナビゲーション装置である。なお、再生装置18と端末装置20とはケーブル等によって接続されており、再生装置18において再生される音声データは、端末装置20から取得される。
【0022】
端末装置20は、音声処理の条件に関する情報(以下、「条件情報」という)を基地局装置14へ送信する。条件情報には、例えば、車両16において音声を聴くユーザのユーザプロファイル等が含まれる。条件情報は、最終的にサーバ装置10へ送信される。端末装置20は、基地局装置14を介してサーバ装置10から、音声処理パラメータの推薦を受けつける。端末装置20は、サーバ装置10による推薦に対応した音声処理パラメータを使用して音声処理を実行し、音声処理の結果を再生装置18に再生させる。端末装置20は、音声処理に対するユーザの評価を受けると、評価をサーバ装置10に報告する。前述のごとく、評価は、「よい」あるいは「悪い」を少なくとも示す。評価が「悪い」場合、端末装置20は、サーバ装置10から別の音声処理パラメータを受けつける。
【0023】
基地局装置14は、一端側にて、ネットワーク12を介してサーバ装置10に接続され、他端側にて、無線回線を介して端末装置20に接続される。基地局装置14は、例えば、携帯電話システムの基地局装置に相当する。サーバ装置10は、端末装置20から、条件情報を受けつけ、条件情報を分析することによって、いずれかの音声処理パラメータを選択する。ここで、複数の端末装置20のそれぞれにおいて使用されうる音声処理パラメータが複数規定されている。サーバ装置10は、選択した音声処理パラメータを端末装置20に推薦する。また、サーバ装置10は、音声処理パラメータの推薦後、端末装置20から、評価を受けつける。受けつけた評価が「悪い」を示している場合に、サーバ装置10は、別の音声処理パラメータを新たに選択し、新たに選択した別の音声処理パラメータを端末装置20に推薦する。
【0024】
図2は、端末装置20の構成を示す。端末装置20は、通信部30、入力部32、音声処理パラメータ記憶部34、音声処理部36、出力部38、受付部40、プロファイル記憶部42を含む。通信部30は、図示しない基地局装置14との間で無線通信を実行することによって、サーバ装置10との間の通信を実行する。無線通信には、公知の技術が使用されればよく、例えば、携帯電話通信システム、無線LAN(Local Area Network)システム、無線MAN(Metropolitan Area Network)システムが使用される。また、携帯電話通信システムとして、第3世代携帯電話システムが使用されてもよく、LTE(Long Term Evolution)が使用されてもよい。
【0025】
出力部38は、条件情報を取得し、条件情報が格納されたユーザ情報ストリームを生成する。出力部38は、ユーザ情報ストリームを通信部30に出力する。ユーザ情報ストリームは、通信部30から送信される。条件情報のひとつは、ユーザプロファイルである。ユーザプロファイルには、名前、年齢、性別、人種、国籍、住所、車種、車内空間のサイズ等が含まれる。このような情報は、プロファイル記憶部42に予め記憶されている。また、条件情報の別のひとつは、再生すべき音声の曲名、アーティスト、ジャンルである。このような情報は、外部から入力される音声から抽出される。外部から入力される音声は、CD(Compact Disc)、DVD(Digital Versatile Disc)、Bluray等にディスクに格納されている。
【0026】
入力部32は、通信部30から、サーバ装置10からの分析データストリームを受けつける。これは、サーバ装置10から、いずれかの音声処理パラメータの推薦を受けつけることに相当する。いずれかの音声処理パラメータの推薦は、音声処理パラメータを識別するための識別情報によって示されている。そのため、入力部32は、識別情報を取得する。入力部32は、識別情報を音声処理パラメータ記憶部34に出力する。
【0027】
音声処理パラメータ記憶部34は、複数の音声処理パラメータを記憶する。音声処理パラメータの一例は、イコライザを形成するフィルタに設定すべきタップ係数である。
図3は、音声処理パラメータ記憶部34に記憶されるテーブルのデータ構造を示す。図示のごとく、識別情報欄200、音声処理パラメータ欄202が格納されている。つまり、音声処理パラメータのそれぞれは、識別情報に対応づけられている。なお、音声処理パラメータは、ユーザプロファイル、ジャンル等によって分類されていてもよい。また、音声処理パラメータ記憶部34には、処理の初期において使用すべき音声処理パラメータであって、かつ基本的なジャンルに対応した音声処理パラメータが記憶されていてもよい。そのような音声処理パラメータは、工場において設定される。
図2に戻る。
【0028】
音声処理部36は、入力部32において受けつけた識別情報に対応した音声処理パラメータを音声処理パラメータ記憶部34から受けつける。つまり、音声処理部36は、識別情報に対応づけられた音声処理パラメータが複数記憶された音声処理パラメータ記憶部34から、受けつけた識別情報に対応した音声処理パラメータを選択する。音声処理部36は、音声処理パラメータを設定することによって、外部から入力した音声に対して、音声処理を実行する。音声処理部36は、音声処理の結果を再生装置18に出力する。再生装置18は、音声処理部36から、音声処理の結果を受けつけ、音声処理の結果を再生する。再生装置18は、再生した音声をスピーカから出力する。
【0029】
受付部40は、図示しないインターフェイスから、ユーザによって入力された情報を受けつける。インターフェイスは、ボタン等によって構成され、ボタンはダッシュボードあるいはハンドルに設けられる。なお、受付部40が音声認識機能を有する場合、インターフェイスはマイクロホンによって構成されてもよい。また、受付部40が画像認識機能を有する場合、インターフェイスはカメラによって構成されてもよい。ユーザによって入力された情報は、音声処理部36が実行した音声処理に対するユーザの評価である。前述のごとく、評価は、「よい」あるいは「悪い」によって示される。なお、「よい」および「悪い」のそれぞれに応じたボタンが備えられていてもよい。受付部40は、評価を出力部38に出力する。
【0030】
出力部38は、受付部40から評価を受けつけた場合、条件情報が格納されたユーザ情報ストリームを生成する。出力部38は、ユーザ情報ストリームを通信部30に出力する。ユーザ情報ストリームは、通信部30から送信される。つまり、出力部38は、受付部40において受けつけた評価をサーバ装置10に報告する。この処理の後、入力部32は、評価が悪いを示している場合に、サーバ装置10から、別の音声処理パラメータを識別するための識別情報が含まれた分析データストリームを受けつける。これは、別の音声処理パラメータの推薦を新たに受けつけることに相当する。音声処理部36は、新たに受けつけた識別情報に対応した別の音声処理パラメータを使用する。
【0031】
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ハードウエアとソフトウエアの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
【0032】
図4は、サーバ装置10の構成を示す。サーバ装置10は、通信部50、入力部52、端末情報データベース54、分析部56、分析結果データベース58、出力部60を含む。通信部50は、ネットワーク12、基地局装置14に接続されることによって、端末装置20と通信する。なお、通信部50は、複数の端末装置20と通信可能である。通信部50は、端末装置20からのユーザ情報ストリームを受信する。入力部52は、ユーザ情報ストリームから条件情報を受けつける。入力部52は、複数の端末装置20のそれぞれに対応した条件情報を端末情報データベース54に記憶させる。
【0033】
端末情報データベース54は、複数の端末装置20のそれぞれに対する条件情報等をデータベースとして記憶する。端末情報データベース54は、大規模リレーショナルデータベース、NoSQL(Not Only SQL)データベースとして構成されている。ここで、条件情報に共通項目の多い端末装置20がグループとしてまとめられており、端末情報データベース54では、グループによる分類がなされている。
図5は、端末情報データベース54のデータ構造を示す。図示のごとく、グループ欄210、端末装置欄212が含まれている。端末装置欄212には、各端末装置20に対する条件情報等が格納されている。また、ふたつ以上の端末装置20に対する条件情報等が、グループ欄210に示されるようにグループとしてまとめられている。
【0034】
図6は、端末情報データベース54の別のデータ構造を示す。これは、
図5の端末装置欄212に格納されたひとつの端末装置20に対する条件情報等に相当する。図示のごとく、項目欄220、内容欄222が含まれている。ユーザプロファイルとして、年齢、性別、人種、国籍、車種、サイズが示されている。エンジン条件として、長距離ドライブ、スピード違反が示されている。環境条件として、静寂、雑音が示されている。位置として、運転席、後部座席が示されている。音楽情報として、アーティスト、ジャンル、アルバム名、曲名が示されている。音楽の一部は、実際に再生装置18において再生される音声の一部である。フィードバックは、前述の評価に相当する。ユーザプロファイルに対する変更の頻度は、音楽情報に対する変更の頻度よりも一般的に低い。そのため、端末装置20からの通知によって、音楽情報だけが適宜更新されてもよい。
図4に戻る。
【0035】
分析部56は、音声処理パラメータを絶えず改善し、かつ個別化するために、必要な情報を抽出するための分析を端末情報データベース54に対して実行する。分析は、部分的に専門家によって手動にてなされてもよいし、完全に自動的になされてもよい。自動的になされる場合、分析部56は、音声の内容の特徴を分析するために、曲名あるいは音声の一部を使用する。その際、分析部56は、推薦、データマイニング、機械学習、パターン認識、統計方法論のための処理を実行する。例えば、データ処理として、距離測定、類似性測定、サンプリング技術、次元縮退が使用される。また、分類として、K近傍法、決定木、規定、ベイジアンネットワーク、単純ベイズ、人工ニューラルネットワーク、サポートベクターマシンが使用される。また、クラスタリングとして、K平均法、密度ベース、メッセージパッシング、階層が使用される。推薦として、協調フィルタリング、コンテンツベースフィルタリングが使用される。これらには公知の技術が使用されればよいので、ここでは説明を省略する。
【0036】
ここでは、分析の具体例をふたつ説明する。ひとつ目の例では、第1端末装置20a、第6端末装置20f、第10端末装置20jが、曲A、G、Yに対して、識別情報7−1の音声処理パラメータを選択しているとする。そのため、これらは、ひとつのグループに含まれる。第1端末装置20a、第6端末装置20fが、曲Xに対して識別情報9−5の音声処理パラメータを選択する場合、分析部56は、第10端末装置20jに対して、曲Xに対する音声処理パラメータとして、識別情報9−5をまず選択する。ふたつ目の例では、特定の国籍のユーザにおいて「低音重視」を推薦する傾向がある場合、それを反映した音声処理パラメータが選択される。同一国籍の新たなユーザの端末装置20に対しても、同様の音声処理パラメータが選択される。
【0037】
このように、分析部56は、端末情報データベース54に記憶されたデータを参照することによって、ひとつの端末装置20に使用させるべきいずれかの音声処理パラメータを選択する。また、端末情報データベース54に記憶されたデータは、評価、条件情報に相当する。分析において、同一のグループに含まれたふたつ以上の端末装置20からの評価、音声処理の条件が反映される。なお、データの内容と、選択すべき音声処理パラメータとの対応関係も、端末情報データベース54に予め記憶されている。この対応関係は、実験、シミュレーション等によって決定されている。分析部56は、対応関係を利用して、データから音声処理パラメータを決定する。分析部56は、選択した音声処理パラメータに対応した識別情報を分析結果データベース58に出力する。
【0038】
分析結果データベース58は、分析部56において選択された識別情報を記憶する。また、分析結果データベース58は、分析部56での分析結果を記憶してもよい。分析結果は、ユーザの振る舞い、好み、傾向が含まれた市場情報を生成するために使用される。市場情報は外部に出力される。出力部60は、分析部56において選択された識別情報を格納するように分析データストリームを生成し、分析データストリームを通信部50に出力する。通信部50は、ネットワーク12、基地局装置14を介して、分析データストリームを端末装置20へ送信する。これは、分析部56において選択した音声処理パラメータを端末装置20に推薦することに相当する。
【0039】
以上の処理の後、入力部52は、通信部50を介して、推薦に対応した音声処理パラメータを使用して音声処理を実行した端末装置20から、音声処理に対するユーザの評価を受けつける。当該評価も、ユーザ情報ストリームに格納されている。入力部52は、評価を端末情報データベース54に記憶する。分析部56は、入力部52において受けつけた評価が「悪い」を示している場合に、別の音声処理パラメータを新たに選択する。別の音声処理パラメータを選択するために、前述の処理と同様の処理が使用される。なお、別の音声処理パラメータは、実験、シミュレーションによって予め定められる。出力部60は、分析部56において新たに選択した別の音声処理パラメータに対応した識別情報を格納するように分析データストリームを生成し、分析データストリームを通信部50に出力する。
【0040】
ここまでの処理において、複数の音声処理パラメータが予め規定されており、端末装置20からの情報に応じて、サーバ装置10は、いずれかの音声処理パラメータを選択している。なお、音声処理パラメータが処理開始後に追加されてもよい。サーバ装置10は、専門家によって導出された新たな音声処理パラメータを受けつける。端末情報データベース54は、新たな音声処理パラメータを記憶するとともに、当該新たな音声処理パラメータに対応づけられた識別情報も記憶する。さらに、端末情報データベース54は、新たな音声処理パラメータが含まれた対応関係も記憶する。新たな音声処理パラメータは、端末装置20に記憶されていないので、分析部56が新たな音声処理パラメータを選択した場合、出力部60は、識別情報とともに新たな音声処理パラメータを格納するように、分析データストリームを生成する。
図2の端末装置20は、新たな音声処理パラメータおよび識別情報を音声処理パラメータ記憶部34に記憶するとともに、音声処理部36は、新たな音声処理パラメータを設定して音声処理を実行する。
【0041】
以上の構成による音声処理システム100の動作を説明する。
図7は、音声処理システム100による再生手順を示すシーケンス図である。端末装置20は、条件情報をサーバ装置10に報告する(S10)。サーバ装置10は、音声処理パラメータを選択する(S12)。サーバ装置10は、選択した音声処理パラメータに対応した識別情報を端末装置20に通知する(S14)。端末装置20は、音声処理パラメータを設定し(S16)、音声処理を実行する(S18)。端末装置20は、評価を受けつける(S20)。端末装置20は、評価をサーバ装置10に報告する(S22)。サーバ装置10は、別の音声処理パラメータを選択する(S24)。サーバ装置10は、選択した別の音声処理パラメータに対応した識別情報を端末装置20に通知する(S26)。端末装置20は、別の音声処理パラメータを設定し(S28)、音声処理を実行する(S30)。
【0042】
本発明の実施例によれば、複数の音声処理パラメータの中から、いずれかを選択するので、音声チューニングの技術が低いユーザであっても、状況に適した音声処理パラメータを容易に設定させることができる。また、設定した音声処理パラメータが気に入らない場合であっても、次の音声処理パラメータが設定されるので、ユーザの処理を容易にできる。また、音声処理パラメータは、専門家によって準備されるので、状況に適した音声再生を可能にできる。また、専門家によって準備された音声処理パラメータを共有するので、精度の高い音声処理パラメータを容易に使用できる。また、音声処理パラメータを追加がされるので、音声処理パラメータのデータベースを更新できる。また、音声処理に使用される音声処理パラメータが固定ではないので、状況に適するように音声処理パラメータを更新できる。また、条件情報をもとに生成したグループ内において音声処理パラメータを共有するので、音声処理パラメータを決定するための条件情報のサンプル数を増加できる。また、サンプル数が増加するので、精度を向上できる。
【0043】
(実施例2)
本発明の実施例2も、実施例1と同様に、音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。実施例2では、実施例1での処理に加えて、車両の走行状況に適した音声処理パラメータを選択する。そのため、端末装置は、Global Positioning System(GPS)等の測位装置に接続され、測位装置から位置情報を取得する。端末装置は、位置情報をサーバ装置に報告する。サーバ装置では、位置情報に対応づけられるように、音声処理パラメータの識別情報が記憶されている。サーバ装置は、受けつけた位置情報をもとに音声処理パラメータを選択する。実施例2に係る音声処理システム100、サーバ装置10は、
図1、
図4と同様のタイプである。ここでは、これまでとの差異を中心に説明する。
【0044】
図8は、本発明の実施例2に係る端末装置20の構成を示す。端末装置20は、通信部30、入力部32、音声処理パラメータ記憶部34、音声処理部36、出力部38、第1受付部46、第2受付部48、プロファイル記憶部42を含む。また。端末装置20は、測位装置44に接続される。第1受付部46は、
図2の受付部40に相当する。測位装置44は、GPSの受信機能を有することによって、位置情報を取得する。測位装置44は、位置情報を第2受付部48へ出力する。また、測位装置44は、ジャイロスコープ装置、加速度計装置、圧力感知装置、頭脳感知装置、バイタルサイン感知装置であってもよい。その場合、周囲の環境情報が取得される。
【0045】
第2受付部48は、測位装置44に接続され、測位装置44において取得された情報、例えば、位置情報を受けつける。ここで、測位装置44と第2受付部48との接続には、例えば、USB(Universal Serial Bus)、シリアルバス、パラレルバス、HDMI(High−Definition Multimedia Interface)、電話ジャックが使用される。出力部38は、第2受付部48において受けつけた位置情報が格納されたユーザ情報ストリームを生成する。出力部38は、ユーザ情報ストリームを通信部30に出力する。入力部32は、通信部30を介してサーバ装置10から、識別情報を受けつける。この識別情報には、位置情報が反映されている。
【0046】
図4のサーバ装置10において、入力部52が通信部50から受けつけたユーザ情報ストリームには、位置情報が格納されている。入力部52は、端末情報データベース54に位置情報を出力する。端末情報データベース54は、入力部52からの位置情報も記憶する。さらに、端末情報データベース54は、所定のエリアにおける音声処理パラメータを記憶する。例えば、所定のエリアは通学路に相当し、端末情報データベース54は、通学路の位置情報と音声処理パラメータとを対応づけて記憶する。車両16が通学路を走行している場合、学生が道路に飛び出す危険性が高いので、周囲の状況を把握するための集中力がより高くなるような音声処理パラメータが予め規定されている。所定のエリアは住宅街であってもよい。その際、夜中に住宅街に近づけば、低音を押さえるような音声処理パラメータが予め規定されている。
【0047】
分析部56は、入力部52において取得した位置情報が、端末情報データベース54に記憶されている所定のエリアに含まれている場合、分析部56は、当該エリアに対応した音声処理パラメータを選択する。前述のごとく、選択として、分析部56は、音声処理パラメータに対応した識別情報を選択する。つまり、所定のエリアを車両16が走行している場合、分析部56は、条件情報、評価に関係なく、位置情報に対応づけられた音声パラメータを選択する。なお、分析部56は、条件情報、評価をもとに選択した音声処理パラメータに対して、位置情報に応じた補正を実行してもよい。具体的に説明すると、分析部56は、条件情報、評価をもとに識別情報を仮選択する。また、端末情報データベース54には、位置情報ごとに、仮選択した識別情報と、最終的な識別情報との対応関係が記憶されている。分析部56は、対応関係をもとに、仮選択した識別情報から、最終的な識別情報を選択する。このように、分析部56は、位置情報も反映させて音声処理パラメータを選択する。これに続く処理は、実施例1と同様であるので、ここでは説明を省略する。
【0048】
本発明の実施例によれば、位置情報に応じた音声処理パラメータを設定するので、再生装置、端末装置を車両に搭載する場合に適した音声を再生できる。また、再生装置、端末装置を車両に搭載する場合に適した音声が再生されるので、安全運転を実行させることができる。
【0049】
(実施例3)
本発明の実施例3も、これまでと同様に音声の再生装置に対して、音声のチューニングを実行する音声処理システムに関する。実施例3では、実施例1での処理に加えて、音声を聴いているユーザの車両中の位置を考慮して、音声のチューニングを実行する。そのため、端末装置は、音声を聴くべきユーザ、例えば、運転者、同乗者等の位置を計測するためのセンサに接続され、センサからユーザの位置情報を取得する。端末装置は、ユーザの位置情報もサーバ装置に報告する。サーバ装置は、位置情報をもとに、車両内に備えられた複数のスピーカのそれぞれとユーザとの間の距離を導出し、導出した距離をもとに、各スピーカから音声を出力する際の遅延時間を導出する。
【0050】
各スピーカから音声を出力する差異のタイミングを遅延時間によって調節することは、タイムアライメントに相当する。また、遅延時間は音声処理パラメータに相当するが、これまでの音声処理パラメータとの差異を明確にするために、ここでの遅延時間は初期処理パラメータと呼ばれる。なお、初期処理パラメータは、遅延時間に限定されるものではなく、これまでと同様にタップ係数を含んでもよい。端末装置は、初期処理パラメータを使用することによって、音声処理を実行する。実施例3に係る音声処理システム100は、
図1と同様のタイプである。ここでは、これまでとの差異を中心に説明する。
【0051】
図9は、本発明の実施例3に係る車両16の構成を示しており、車両16の上面図に相当する。車両16は、左前スピーカ110、右前スピーカ112、左後スピーカ114、右後スピーカ116、右前シート120、左前シート122、ハンドル124、ダッシュボード126、ルームミラー128、端末装置20を含む。また、車両16において、端末装置20は、図示しない再生装置18に接続されている。
【0052】
タイムアライメントは、左前スピーカ110、右前スピーカ112、左後スピーカ114、右後スピーカ116のそれぞれから出力される音声の遅延を調節するための音声チューニングである。これは、位相の不整合を修正するためになされる。運転者118が右前シート120に着席している場合、左前スピーカ110、右前スピーカ112、左後スピーカ114、右後スピーカ116のそれぞれから運転者118までの距離は、互いに異なる。端末装置20および再生装置18が4つのスピーカから同時に音声を再生した場合、各スピーカからの到来時間が異なるので、音像は正しくなくなる。一方、右前シート120が前後上下に移動されると、運転者118の位置が変化する。右前シート120の位置は、音像に影響を与える。また、座高の高い運転者118は、音像の影響を受ける。このような状況に対応するために、車両16の車種情報と、センサでの検出結果が、サーバ装置10において受信されている。なお、センサは、例えば、右前シート120に設置されており、右前シート120の前後方向の位置、上下方向の位置を検出する。
【0053】
音声を聴くための最高の位置が、右前シート120ではなく左前シート122であるように設定する場合、音声を聴く場所が左前シート122であることは、端末装置20に入力され、サーバ装置10へ送信される。一方、車種の情報のみがサーバ装置10に送信されてもよい。その場合、座席位置でのキャリブレーションのパラメータ、音声を聞く位置、座高は端末装置20において測定されてもよい。
【0054】
図9では、音声チューニングの補償等化を対象としてもよい。補償等化は、周波数特性を補正し、かつ周波数領域での周波数応答を平坦にするための音声チューニングである。運転者118が右前シート120に座っている場合、右側のウインドウのために右側からの反射が支配的になる。右前シート120と左前シート122との間の周波数特性は、大きく異なる。加えて、ハンドル124、ダッシュボード126、ルームミラー128のような車載品が周波数特性に影響に与える。周波数特性は、シートの位置に応じて変わるので、座席位置の情報が、センサによって自動的に検出され、かつサーバ装置10に送信される。運転者118ではなく、同乗者が音声を聴く場合、その旨が、運転者118によって手動にて端末装置20に入力され、サーバ装置10へ送信される。
【0055】
別の同乗者がシートに座っている場合、彼らは、彼らの体による反射、吸収、回折による周波数特性の影響を受ける。そのため、別の同乗者の座席位置もセンサによって自動的に検出され、かつサーバ装置10に報告される。なお、車種の情報だけがサーバ装置10に送信されてもよい。別の同乗者の位置でのキャリブレーションパラメータは、端末装置20によって測定される。そのような端末装置20は、そのようなパラメータから初期処理パラメータを計算すべき機能を有する。
【0056】
図10は、本発明の実施例3に係る端末装置20の構成を示す。端末装置20は、通信部30、入力部32、音声処理パラメータ記憶部34、音声処理部36、出力部38、第1受付部46、第2受付部48、プロファイル記憶部42、初期処理パラメータ記憶部70を含む。また、端末装置20は、センサ72に接続されている。第1受付部46は、
図2の受付部40に相当する。センサ72は、
図9の右前シート120に設置されており、右前シート120の前後方向および上下方向の位置を検出する。センサ72には公知の技術が使用されればよいので、ここでは説明を省略する。センサ72は、検出結果を第2受付部48に出力する。この検出結果は、右前シート120の位置情報に相当する。
【0057】
第2受付部48は、センサ72に接続され、センサ72での検出結果を受けつける。これは、音声処理部36が実行した音声処理の結果を運転者118、つまりユーザが聴く環境に関する環境情報も受けつけることに相当する。第2受付部48は、環境情報を出力する。出力部38は、第2受付部48において受けつけた環境情報が格納されたユーザ情報ストリームを生成する。出力部38は、ユーザ情報ストリームを通信部30に出力する。これは、環境情報をサーバ装置10に報告することに相当する。
【0058】
入力部32は、通信部30を介してサーバ装置10から、初期処理パラメータを受けつける。初期処理パラメータは、サーバ装置10において環境情報をもとに生成されている。入力部32は、初期処理パラメータを初期処理パラメータ記憶部70に出力する。初期処理パラメータ記憶部70は、入力部32からの初期処理パラメータを記憶する。音声処理部36は、初期段階において、初期処理パラメータを設定することによって、音声処理を実行する。この処理は、タイムアライメント、補償等化、クロスオーバを含む。初期処理パラメータを適用した音声が再生装置18から出力された後、これまで説明した処理が実行されることによって、音声処理パラメータが更新される。
【0059】
図11は、本発明の実施例3に係るサーバ装置10の構成を示す。サーバ装置10は、通信部50、入力部52、端末情報データベース54、第1分析部62、第2分析部64、初期処理パラメータデータベース66、分析結果データベース58、出力部60を含む。入力部52は、通信部50を介して、端末装置20からのユーザ情報ストリームを受けつける。入力部52は、ユーザ情報ストリームから、センサ72にて取得された環境情報であって、かつ音声処理の結果をユーザが聴く環境に関する環境情報も抽出する。入力部52は、複数の端末装置20のそれぞれに対応した環境情報を端末情報データベース54に記憶させる。
【0060】
第1分析部62は、
図4の分析部56に相当する。第2分析部64は、端末装置20からの環境情報をもとに、当該端末装置20に対する初期処理パラメータを生成する。初期処理パラメータが、タイムアライメントのための遅延時間である場合、第2分析部64は、各スピーカからユーザまでの距離を導出してから、距離が長くなるほど短くなるような遅延時間を導出する。これは、
図9において、左前スピーカ110、右前スピーカ112、左後スピーカ114、右後スピーカ116から運転者118までの距離に応じた遅延時間が導出されることに相当する。なお、初期処理パラメータが、タップ係数である場合、実験等において予め取得したタップ係数を複数記憶しており、第2分析部64は、環境情報をもとに、そのうちのいずれかを選択する。
【0061】
初期処理パラメータデータベース66は、第2分析部64において導出した初期処理パラメータを記憶する。出力部60は、初期処理パラメータデータベース66において記憶した初期処理パラメータを格納するように分析データストリームを生成し、分析データストリームを通信部50に出力する。
【0062】
図12は、本発明の実施例3に係る音声処理システム100による再生手順を示すシーケンス図である。端末装置20は、センサデータを取得する(S50)。センサデータは、前述の環境情報に相当する。端末装置20は、センサデータ、条件情報をサーバ装置10に報告する(S52)。サーバ装置10は、初期処理パラメータを計算する(S54)。サーバ装置10は、初期処理パラメータを端末装置20に通知する(S56)。端末装置20は、初期処理パラメータを設定し(S58)、音声処理を実行する(S60)。
【0063】
本発明の実施例によれば、座席の位置に応じた初期処理パラメータを設定するので、各スピーカからの音声に対するタイムアライメントを実現できる。また、初期処理パラメータによってタイムアライメントだけではなく、補償等化も実現されるので、周波数領域での音のひずみの影響を低減できる。
【0064】
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0065】
本発明の実施例において、再生装置18、端末装置20は、車両16内に搭載されている。しかしながらこれに限らず例えば、再生装置18、端末装置20は、車両16以外に搭載されてもよい。具体的には、再生装置18、端末装置20は、部屋の中に設置されてもよい。本変形例によれば、本発明の適用領域を拡大できる。
【0066】
本発明の実施例1から3の任意の組合せも有効である。本変形例によれば、任意の組合せによる効果を得ることができる。