IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許-データ処理装置、及びデータ処理方法。 図1
  • 特許-データ処理装置、及びデータ処理方法。 図2
  • 特許-データ処理装置、及びデータ処理方法。 図3
  • 特許-データ処理装置、及びデータ処理方法。 図4
  • 特許-データ処理装置、及びデータ処理方法。 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】データ処理装置、及びデータ処理方法。
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240116BHJP
   G10L 25/51 20130101ALI20240116BHJP
【FI】
H04S7/00 300
G10L25/51
【請求項の数】 12
(21)【出願番号】P 2022110480
(22)【出願日】2022-07-08
(62)【分割の表示】P 2018100429の分割
【原出願日】2018-05-25
(65)【公開番号】P2022130736
(43)【公開日】2022-09-06
【審査請求日】2022-07-08
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】湯山 雄太
(72)【発明者】
【氏名】熊谷 邦洋
(72)【発明者】
【氏名】青木 良太郎
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2011-013383(JP,A)
【文献】特開2002-159099(JP,A)
【文献】特開2015-099266(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
サウンドデータを用いて、複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、コンテンツのシーンに関する第1の判定結果を出力する第1の判定部と、
複数の属性候補の中から、前記コンテンツの属性を判定する第2の判定部と、
前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択し、前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、機械学習を行う方法とは異なり、且つ、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する処理選択部と、
前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、
を含データ処理装置。
【請求項2】
前記第1の判定部は、前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第1の判定結果として、複数のシーン候補に関するスコアを出力する、
請求項1に記載のデータ処理装置。
【請求項3】
前記処理選択部は、
前記第2の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
請求項に記載のデータ処理装置。
【請求項4】
前記処理選択部は、
前記第2の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
請求項に記載のデータ処理装置。
【請求項5】
前記処理選択部は、
前記第2の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
請求項1又は2に記載のデータ処理装置。
【請求項6】
前記処理選択部は、前記サウンドデータに対する前記処理として、音場を選択し、
前記サウンドデータ処理部は、前記処理選択部により選択された前記音場の効果を、前記サウンドデータに対して付与する、
請求項1乃至のいずれか一つに記載のデータ処理装置。
【請求項7】
サウンドデータを用いて、複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、コンテンツのシーンに関する第1の判定結果を出力し、
複数の属性候補の中から、前記コンテンツの属性を判定し、
前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択し、
前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、機械学習を行う方法とは異なり、且つ、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択し、
選択された前記処理を、前記サウンドデータに対して実行する
データ処理方法。
【請求項8】
前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第1の判定結果として、複数のシーン候補に関するスコアを出力する、
請求項に記載のデータ処理方法。
【請求項9】
前記第2の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
請求項に記載のデータ処理方法。
【請求項10】
前記第2の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
請求項に記載のデータ処理方法。
【請求項11】
前記第2の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
請求項7又は8に記載のデータ処理方法。
【請求項12】
前記サウンドデータに対する前記処理として、音場を選択し、
選択された前記音場の効果を、前記サウンドデータに対して付与する、
請求項乃至1のいずれか一つに記載のデータ処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、及びデータ処理方法に関する。
【背景技術】
【0002】
下記、特許文献1においては、映像デコーダによってデコードされた画像データから、映像シーンの特徴を判定し、その映像シーンの特徴に応じて、音場制御情報を生成する映像音声信号処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2009-296274号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記特許文献1の構成においては、サウンドデータではなく、画像データを用いてコンテンツのシーンを判定し、当該シーンの判定結果に応じて音場制御情報を生成するため、当該音場制御が必ずしも適切ではないことが課題となっていた。
【0005】
本開示においては、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対して実行する処理を選択するデータ処理装置を実現することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係るデータ処理装置は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する第1の判定部と、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、複数の属性候補の中から、前記コンテンツの属性を判定する第2の判定部と、を含み、前記処理選択部は、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
【0007】
本開示に係るデータ処理方法は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力し、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択し、選択された前記処理を、前記サウンドデータに対して実行し、複数の属性候補の中から、前記コンテンツの属性を判定し、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
【図面の簡単な説明】
【0008】
図1図1は第1の実施形態における制御部及びサウンドデータ処理部の機能的構成を示したブロック図である。
図2図2は第1の実施形態におけるデータ処理装置を含む聴取環境の模式図である。
図3図3は第1の実施形態におけるデータ処理装置の構成を示す模式的なブロック図である。
図4図4は第1の実施形態におけるデータ処理方法のフローチャート図である。
図5図5は第1の実施形態において用いるシーン判定モデルの概念図である。
【発明を実施するための形態】
【0009】
[第1の実施形態]
本開示の第1の実施形態について、図面を用いて以下に説明する。
【0010】
本実施形態におけるデータ処理装置1は、制御部17と、サウンドデータ処理部14と、を含む。制御部17は、第1の判定部31、処理選択部32、及び第2の判定部33を含む。
【0011】
第1の判定部31は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する。第2の判定部33は、複数の属性候補の中から、コンテンツの属性を判定する。
【0012】
処理選択部32は、基本的には、第1の判定結果に応じて、第1の選択方法により処理(例えば、音場)を選択する。ただし、処理選択部32は、第2の判定部33による属性の判定結果に応じて、第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
【0013】
サウンドデータ処理部14は、処理選択部32により選択された処理を、サウンドデータに対して実行する。例えば、サウンドデータ処理部14は、処理選択部32により選択された音場の効果を、前記サウンドデータに付与する。
【0014】
このような構成により、本開示のデータ処理装置1は、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対する処理(例えば、音場制御)を行うことができる。そのため、より適切な処理をすることが可能となる。例として、コンテンツが、車の走行シーンが描かれた映像データを含むミュージックビデオであった場合について説明する。映像データを用いてコンテンツのシーンを判定する場合、映像データに車の走行シーンが含まれていることから、車の走行音に関する周波数を強調する音場制御を行ってしまう可能性がある。しかし、本実施形態の構成においては、映像データに車の走行シーンが含まれていたとしても、データ処理装置1が、ミュージックビデオに含まれるサウンドデータを用いてシーンの判定を行う。そのため、より適切な音場制御を行うことが可能となる。
【0015】
また、処理選択部32が、第2の判定部33による属性の判定結果に応じて、第1の選択方法とは異なる第2の選択方法により前記音場を選択する構成とすることにより、複数の属性に対応する音場制御を可能とすることができる。
【0016】
以下、より具体的な構成について説明する。
【0017】
図2は、本実施形態におけるデータ処理装置1を含む聴取環境の模式図である。図1に示すように、本実施形態では、聴取位置Uの周囲に、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRが設置されている。フロント・レフトスピーカ21Lは、聴取位置Uの前方左側、フロント・ライトスピーカ21Rは、聴取位置Uの前方右側、センタースピーカ21Cは、聴取位置Uの前方中央、サラウンド・レフトスピーカ21SLは、聴取位置Uの後方左側、サラウンド・ライトスピーカ21SRは、聴取位置Uの後方右側に設置されている。フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRは、それぞれデータ処理装置1に、無線又は有線により接続されている。なお、本実施形態においては、5chのサラウンドシステムを例に挙げて説明するが、本開示は、その他、2.0ch、5.1ch、7.1ch、11.2chなど、様々なチャネル数のサラウンドシステムにおいても用いることができる。
【0018】
図3は、本実施形態におけるデータ処理装置1の構成を示す模式的なブロック図である。データ処理装置1は、例えばAVアンプ、パーソナルコンピュータ、テレビ受像機に含まれる音声処理部、ワンバータイプのスピーカ等を用いて実現することができる。図3に示すように、本実施形態におけるデータ処理装置1は、入力部11、デコーダ12、チャネル拡張部13、サウンドデータ処理部14、D/Aコンバータ15、アンプ(amplifier)16、制御部17、ROM(read‐only memory)18、及びRAM(Random access memory)19を備えている。
【0019】
制御部17は、ROM18に記憶されている動作用プログラム(ファームウェア)をRAM19に読み出し、データ処理装置1を統括的に制御する。当該動作用プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
【0020】
入力部11は、HDMI(登録商標)やネットワークを経由して、オーディオ信号を取得する。オーディオ信号の方式としては、例えば、PCM(pulse code modulation)、Dolby(登録商標)、Dolby TrueHD、Dolby Digital Plus、DOLBY ATMOS(登録商標)、AAC(Advanced Audio Coding)(登録商標)、DTS(登録商標)、DTS-HD(登録商標) Master Audio、DTS:X(登録商標)、DSD(Direct Stream Digital)(登録商標)などが含まれ、その種類は特に限定されない。入力部11は、サウンドデータをデコーダ12に出力する。
【0021】
本実施形態において、ネットワークは、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)などを含み、データ処理装置1と、光ディスクプレイヤー等のソース装置との信号伝達経路として機能する。
【0022】
デコーダ12は、例えばDSP(Digital Signal Processor)からなり、オーディオ信号をデコードし、サウンドデータを抽出する。なお、本実施形態においては、サウンドデータは特に記載がない限り全てデジタルデータとして説明する。
【0023】
チャネル拡張部13は、例えばDSPからなり、上述したフロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに対応する、複数チャネルのサウンドデータをチャネル拡張処理によって生成する。なお、チャネル拡張処理については、周知技術(例えば米国特許第7003467号公報等)を適用することができる。生成された各チャネルのサウンドデータは、サウンドデータ処理部14に出力される。
【0024】
なお、チャネル拡張部13は、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれていない場合にのみ、上述したチャネル拡張処理を行う構成としてもよい。即ち、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれている場合には、チャネル拡張部13が、デコーダ12から出力されたサウンドデータを、そのままサウンドデータ処理部14に出力する構成としてもよい。あるいは、データ処理装置1が、チャネル拡張部13を有さない構成としても構わない。
【0025】
サウンドデータ処理部14は、例えばDSPからなり、制御部17の設定に応じて、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う。
【0026】
音場効果データは、例えば入力されたサウンドデータから生成される擬似反射音データからなる。生成された擬似反射音データは、元のサウンドデータに加算されて出力される。
【0027】
D/Aコンバータ15は、各チャネルのサウンドデータをアナログ信号に変換する。
【0028】
アンプ16は、D/Aコンバータ15から出力されたアナログ信号を増幅し、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに出力する。このような構成により、オーディオコンテンツの直接音に擬似反射音が付与された音声が各スピーカから出力され、聴取位置Uの周囲に所定の音響空間を模した音場が形成される。
【0029】
図1は、本実施形態における制御部17、及びサウンドデータ処理部14の機能的構成を示したブロック図である。制御部17は、単一のCPU(Central Processing Unit)により構成されてもよく、複数のCPUにより構成されてもよい。
【0030】
本開示のデータ処理装置1は、制御部17は、上述した通り、第1の判定部31、処理選択部32、及び第2の判定部33を含む。
【0031】
図4は、本実施形態におけるデータ処理方法のフローチャート図である。第1の判定部31は、デコーダ12から取得したサウンドデータを用いて、コンテンツシーンに関する第1の判定結果を出力する(S001)。第2の判定部33は、複数の属性候補の中から、コンテンツの属性を判定する(S002)。なお、第1の判定部31が、第1の判定結果を出力するステップS001と、第2の判定部33が、コンテンツの属性を判定するステップS002と、の前後関係は問わない。
【0032】
ここで、第2の判定部33が判定するコンテンツの属性は特に限定されないが、例えば、第2の判定部33は、映画、音楽、ニュースなどの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。また、異なる例としては、第2の判定部33は、アクション映画、コメディ映画、SF映画などの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。更に異なる例としては、第2の判定部33は、男性ボーカル、女性ボーカルの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。
【0033】
本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第2の判定部33が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する例について説明する。
【0034】
本実施形態において、第1の判定部31は、第2の判定部33が判定する属性候補(映画・音楽)の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。機械学習としては、例えば、ディープラーニングや、サポートベクターマシンなど、各種の手法を用いることができる。本実施形態においては、シーン判定モデルが、ディープラーニングを用いて機械学習を行っている例について説明する。
【0035】
図5は、本実施形態において用いるシーン判定モデルの概念図である。シーン判定モデルは、映画コンテンツに関する多数の練習用コンテンツについて機械学習をしている。機械学習プロセスとしては、例えば、手作業で、練習用コンテンツにおける各フレームにシーン種別を付与し、付与したシーン種別と、その時の各チャネルの音量レベルや周波数特性等を、教師データとして入力する。本実施形態においては、第1乃至第4のシーン候補と、各チャネルの音量レベルや周波数特性の特徴とが、教師データとして入力されている。
【0036】
本実施形態において、第1の判定部31が判定する第1乃至第4のシーン候補の例は、以下の通りである。第1のシーン候補は、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンである。第2のシーン候補は、例えばSFXのような、緻密なサウンドを鮮やかに表現することが要求されるシーンである。第3のシーン候補は、ロール・プレイング・ゲームや、アドベンチャー・ゲームに適した演出が要求されるシーンである。第4のシーン候補は、ドラマなど、セリフを強調することが要求されるシーンである。第1のシーン候補から、第4のシーン候補の順に、サウンドデータ処理部14における音場制御において、音を響かせる効果が大きく付加される。なお、本実施形態においては、以上のような4つのシーン候補を例に挙げて説明するが、その他のシーン候補として、例えば「BGM重視のシーン」、「効果音重視のシーン」、「低域重視のシーン」等が含まれてもよく、シーン候補の内容は上記の例に限定されない。
【0037】
第1の判定部31にサウンドデータが入力されると、上述したシーン判定モデルを用いて、シーンに関する判定を行う。そして、第1の判定部31は、第1の判定結果として、上記第1乃至第4のシーン候補のそれぞれに関するスコアを出力する(S001)。具体例としては、第1の判定部31が、入力されたサウンドデータから特徴抽出を行い、あらかじめ用意したシーン判定モデルを基に分類を行うことにより、上記第1乃至第4のシーン候補のそれぞれに関するスコアを出力する(S001)。なお、本実施形態においては、第1の判定部31が最終的に出力する第1の判定結果は、4つのスコアの合計が1になるよう正規化されている。
【0038】
第1の判定部31は、シーンに関する第1の判定結果として、上記第1乃至第4のシーン候補のそれぞれに関するスコアを、処理選択部32に伝達する。
【0039】
第2の判定部33は、上述した通り、複数の属性候補の中から、前記コンテンツの属性を判定する。本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第2の判定部33が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する(S002)。
【0040】
第2の判定部33によるコンテンツの属性の判定方法は、特に限定されない。コンテンツ属性の判定方法の具体例としては、サウンドデータに対する周波数解析や、コンテンツに含まれる映像データの解析、及びコンテンツに含まれるタイトル情報などのメタデータを用いた解析等である。
【0041】
サウンドデータに対する周波数解析を行う一つの例としては、コンテンツに含まれるLFE(Low Frequency Effect)信号を解析することにより行う。映画コンテンツと音楽コンテンツとでは、LFE信号において用いられる周波数帯域が異なる。そのため、サウンドデータに含まれるLFE信号を分析し、そのLFE信号において用いられる周波数帯域から、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。
【0042】
サウンドデータに対する周波数解析を行う二つ目の例について説明する。時間軸における、映画コンテンツのLFE信号の変化は、一般的に音楽コンテンツのLFE信号の変化よりも大きい。そのため、サウンドデータにおける複数フレームのLFE信号の振幅の変化の大きさを分析することにより、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。
【0043】
第2の判定部33は、コンテンツの属性の判定結果を処理選択部32に伝達する。
【0044】
処理選択部32は、第1の判定部31から伝達されたシーンに関する第1の判定結果と、第2の判定部33から伝達された属性に関する判定結果と、に基づき、一つの音場を選択する(S003、S004)。
【0045】
本実施形態においては、コンテンツの属性が、第1の判定部31が有するシーン判定モデルが機械学習済である属性候補に含まれる場合(本実施形態においては、属性の判定結果が「映画」であった場合)、処理選択部32は、第1の選択方法を採用する(S003)。逆に、コンテンツの属性が、上記属性候補に含まれない場合(本実施形態においては、属性の判定結果が「音楽」であった場合)、処理選択部32は、第2の選択方法を採用する(S004)。
【0046】
まずは、第2の判定部33によるコンテンツの属性の判定が、「映画」であった場合について説明する。第2の判定部33の判定結果に基づき、処理選択部32は、「第1の選択方法」として、最も高いスコアを有するシーン候補に応じた音場を選択する(S003)。例えば、第1の判定部31から出力された各シーン候補のスコアの内、第1のシーン候補が最も高いスコアを有していた場合、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンに適した音場を選択する。
【0047】
次に、第2の判定部33によるコンテンツの属性の判定が、「音楽」であった場合について説明する。上述した通り、本実施形態において、第1の判定部31は、第2の判定部33が判定する属性候補(映画・音楽)の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。そのため、コンテンツの属性が「音楽」である場合、第1の判定部31において出力された各シーンのスコアの値が最大のシーン候補に応じて音場を選択することが、必ずしも適切であるとは限らない。例えば、音楽コンテンツは、一般的に大きな音量が継続的に含まれている。そのため、音楽コンテンツを、映画コンテンツに関する機械学習を通じて生成されたシーン判定モデルにより、パラメータ処理を行った場合、上述した第1のシーン候補のスコアが最も高くなってしまう可能性がある。処理選択部32が、この第1のシーン候補に応じて音場を選択した場合、サウンドデータ処理部14において、音楽コンテンツとしては不必要に音を響かせ過ぎた音場が付加されてしまう。従って、第2の判定部33によるコンテンツの属性の判定が、「音楽」であった場合、処理選択部32は、上述した第1の選択方法とは異なる、第2の選択方法により、音場を選択する(S004)。
【0048】
第2の選択方法の一つ目の例として、処理選択部32が、所定のシーン候補を除いた複数のシーン候補の中で、最も高いスコアを有するシーン候補に応じた前記音場を選択する例について説明する。例えば、第1の判定結果における第1のシーン候補のスコアが0.5、第2のシーン候補のスコアが0.3、第3のシーン候補のスコアが0.1、第4のシーン候補のスコアが0.1であったとする。上述した理由から、第1のシーン候補は、音楽コンテンツに適していない。そのため、処理選択部32は、第2の選択方法として、この第1のシーン候補を除いた、第2乃至第4のシーン候補の中で、最も高いスコアを有するシーン候補に応じた音場を選択する。即ち、上記例においては、処理選択部32は、第2のシーン候補に応じた音場を選択する。
【0049】
第2の選択方法の二つ目の例として、処理選択部32が、属性の判定結果に応じて複数のシーン候補に関するスコアに係数を乗算する例について説明する。例えば、処理選択部32は、音楽コンテンツにふさわしくない第1のシーン候補に関するスコアには、1より小さい値の係数(例えば、0.8や、0等)を乗算することにより、第1のシーン候補のスコアが低くなるように調整してもよい。また、処理選択部32が係数を乗算するのは一つのシーン候補に限られず、4つのシーン候補すべてに係数を乗算してもよい。なお、処理選択部32は、乗算した最終のスコアの合計が1になるよう、再度正規化してもよい。
【0050】
第2の選択方法の三つ目の例として、処理選択部32が、所定の音場を選択する例について説明する。例えば、第1の判定部31により出力された第1の判定結果において、第1のシーン候補のスコアが最も高かった場合には、処理選択部32は、第2のシーン候補を選択する構成としてもよい。あるいは、第2の判定部33による属性の判定結果が「音楽」であった場合には、処理選択部32が、第1乃至第4のシーン候補に応じた音場とは異なる第5の音場を選択する構成としてもよい。
【0051】
なお、上述した例においては、第1の判定部31のシーン判定モデルが、機械学習としてディープラーニングを用いる例について説明したが、第1の判定部31のシーン判定モデルが、機械学習として多クラス分類用のサポートベクターマシンを用いる構成としてもよい。例えば、サウンドデータを、N個のシーン候補に分類するためには、(N-1)個のサポートベクターマシンを組み合わせて、クラス分類を行う。上述した例においては、4つのシーン候補に関する分類を行うため、シーン判定モデルが、3つのサポートベクターマシンを含む構成となる。例えば、まず、第1のサポートベクターマシンにおいて、入力されたサウンドデータが第1のシーン候補であるか否かを判定する。サウンドデータが第1のシーン候補でない場合には、第2のサポートベクターマシンにおいて、サウンドデータが第2のシーン候補であるか否かを判定する。サウンドデータが第2のシーン候補でない場合は、第3のサポートベクターマシンにおいて、サウンドデータが第3のシーン候補であるか否かを判定する。サウンドデータが第3のシーン候補でない場合は、サウンドデータは第4のシーン候補であることが決定する。
【0052】
このような、多クラス分類用のサポートベクターマシンを用いた機械学習が行われたシーン判定モデルを用いた場合、図1に示した第1の判定部31は、第1の判定結果として、第1乃至第4のシーン候補の内の一つのシーン候補を出力する。
【0053】
そして、第2の判定部33による属性の判定結果に応じて、処理選択部32が、第1の選択方法により音場を選択する場合、処理選択部32は、第1の判定部31により出力された第1の判定結果である一つのシーン候補に基づいて、音場を選択する。なお、本実施形態においては、処理選択部32が、サウンドデータに対する処理を選択する例として、サウンドデータに付与する音場効果を選択する例を挙げて説明するが、本発明はこれに限定されない。処理選択部32による、サウンドデータに対する処理の選択例としては、その他、イコライザの設定の選択や、各チャンネルのゲイン比率、ディレイタイム等のパラメータの選択等が含まれる。
【0054】
一方、第2の判定部33による属性の判定結果に応じて、処理選択部32が、第2の選択方法により、所定の音場を選択する場合について説明する。例えば、第1の判定部31が、第1の判定結果として、「第1のシーン候補」を出力した場合、処理選択部32が、例えば第2のシーン候補を選択する構成としてもよい。あるいは、第2の判定部33による属性の判定結果が「音楽」であった場合には、処理選択部32が、第1乃至第4のシーン候補に応じた音場とは異なる第5の音場を選択する構成としてもよい。
【0055】
処理選択部32は、音場選択結果に基づくコマンド信号をサウンドデータ処理部14に出力する。このコマンド信号には、サウンドデータ処理部14が演算処理に用いる各種音場パラメータの設定に関する指示が含まれている。音場パラメータには、例えば各チャネルのゲイン比率や、フィルタ係数、及びディレイタイム等が含まれる。サウンドデータ処理部14は、このコマンド信号に基づき、音場パラメータの変更を行うことにより、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う(S005)。
【0056】
このような構成により、第1の判定部31によるシーンに関する第1の判定結果を、複数のコンテンツ属性を有する複数のサウンドデータに用いることができる。言い換えれば、上記構成によれば、第1の判定部31が、全てのコンテンツの属性を網羅したシーン判定を行う必要がないというメリットがある。そのため、第1の判定部31が備えるシーン判定モデルとして、複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたモデルを用いることができる。そのため、シーン判定モデルに対して行う機械学習の量を低減することができる。さらに、第1の判定部31が出力する第1の判定結果としも、限られたシーン候補に関するスコアを出力すれば足りる構成を実現することができる。
【符号の説明】
【0057】
1 データ処理装置、11 入力部、12 デコーダ、13 チャネル拡張部、14 サウンドデータ処理部、15 D/Aコンバータ、16 アンプ、17 制御部、18 ROM、19 RAM、31 第1の判定部、32 処理選択部、33 第2の判定部、21L フロント・レフトスピーカ、21R フロント・ライトスピーカ、21C センタースピーカ、21SL サラウンド・レフトスピーカ、21SR サラウンド・ライトスピーカ。

図1
図2
図3
図4
図5