特許第6253816号(P6253816)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許6253816波面合成音声表現のコピー保護された生成および再現のための装置および方法
<>
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000002
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000003
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000004
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000005
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000006
  • 特許6253816-波面合成音声表現のコピー保護された生成および再現のための装置および方法 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6253816
(24)【登録日】2017年12月8日
(45)【発行日】2017年12月27日
(54)【発明の名称】波面合成音声表現のコピー保護された生成および再現のための装置および方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20171218BHJP
   G10L 19/018 20130101ALI20171218BHJP
   H04S 3/00 20060101ALI20171218BHJP
【FI】
   H04S7/00 300
   G10L19/018
   H04S3/00
【請求項の数】16
【全頁数】15
(21)【出願番号】特願2016-574002(P2016-574002)
(86)(22)【出願日】2015年6月12日
(65)【公表番号】特表2017-522802(P2017-522802A)
(43)【公表日】2017年8月10日
(86)【国際出願番号】EP2015063209
(87)【国際公開番号】WO2015193196
(87)【国際公開日】20151223
【審査請求日】2017年2月13日
(31)【優先権主張番号】102014211899.9
(32)【優先日】2014年6月20日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】シュポーラー・トーマス
(72)【発明者】
【氏名】ロディガスト・レニー
【審査官】 堀 洋介
(56)【参考文献】
【文献】 特表2011−512555(JP,A)
【文献】 特表2007−536588(JP,A)
【文献】 米国特許出願公開第2003/0103645(US,A1)
【文献】 欧州特許出願公開第2560159(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
G10L 19/018
H04S 3/00
(57)【特許請求の範囲】
【請求項1】
複数の音声オブジェクトを有する音声シーンのコピー保護された波面合成音声表現を生成するための装置(100)であって、前記音声オブジェクトがそれぞれ、音声ファイル(AD1、AD2、ADn)および位置情報(PS1、PS2、PSn)を含み、
前記複数の音声オブジェクトのうちの少なくとも1つの音声オブジェクトの前記音声ファイル(AD1、AD2、ADn)に透かし(WS)を埋め込んで、前記少なくとも1つの音声オブジェクト用の変更された音声ファイル(AD1’)を生成するための透かし埋込み装置(102)であって、
前記透かし(WS)が特定の再現室(22)を指定し、前記波面合成音声表現が、前記再現室(22)のために、前記特定の再現室(22)内に存在する拡声器構成(I20)に応じてレンダリングされる、透かし埋込み装置(102)と、
前記特定の再現室(22)の前記拡声器構成(I20)、前記変更された音声ファイル(AD1’)、および前記少なくとも1つの音声オブジェクト用の位置情報(PS1、PS2、PSn)を使用することによって前記音声シーンの前記コピー保護された波面合成音声表現を生成するための波面合成プロセッサ(104)と
を備える、装置(100)。
【請求項2】
前記透かし埋込み装置(102)が、所定の特徴を備える前記透かし(WS)を前記複数の音声オブジェクトのうちの前記音声オブジェクトの前記音声ファイル(AD1、AD2、ADn)に埋め込むように構成される、請求項1に記載の装置(100)。
【請求項3】
前記所定の特徴が、前記複数の音声オブジェクトのうちのある音声オブジェクトの他の音声オブジェクトに対する相対ラウドネスを含み、かつ/または、前記所定の特徴が、前記複数の音声オブジェクトのうちのある音声オブジェクトの他の音声オブジェクトに対する相対活動度を含む、請求項2に記載の装置(100)。
【請求項4】
前記波面合成プロセッサ(104)が、前記音声シーンの前記コピー保護された波面合成音声表現を生成するために、複数の拡声器チャネル(LS1、LS2、LSn)を計算するように構成され、前記複数の拡声器チャネル(LS1、LS2、LSn)が、前記位置情報(PS1、PS2、PSn)に応じて異なるスケーリングファクタでスケール変更されかつ/または異なる遅延ファクタで遅延される前記音声オブジェクトの前記複数の音声ファイル(AD1、AD2、ADn)を含む、請求項1〜3の一項に記載の装置(100)。
【請求項5】
前記複数の拡声器チャネル(LS1、LS2、LSn)のうちの少なくとも2つが、スケーリングが異なりかつ/または遅延が異なる前記少なくとも1つの音声オブジェクト用の1つの前記変更された音声ファイル(AD1’)を含む、請求項4に記載の装置(100)。
【請求項6】
前記複数の拡声器チャネル(LS1、LS2、LSn)が少なくとも40チャネルを含む、請求項4または5に記載の装置(100)。
【請求項7】
前記透かし埋込み装置(102)が、前記透かし(WS)を前記音声ファイル’(AD1、AD2、ADn)の周波数スペクトル(ADS)に埋め込むように構成される、請求項1〜6の一項に記載の装置(100)。
【請求項8】
前記透かし埋込み装置(102)は、前記透かし(WS)がポストマスキング、プリマスキング、同期マスキングおよび/または雑音マスキングを用いてマスキングされるように、前記透かし(WS)を前記音声ファイル(AD1、AD2、ADn)に埋め込む、請求項1〜7の一項に記載の装置(100)。
【請求項9】
複数の音声オブジェクトを有する音声シーンのコピー保護された波面合成音声表現を生成する方法であって、前記音声オブジェクトがそれぞれ、音声ファイル(AD1、AD2、ADn)および位置情報(PS1、PS2、PSn)を含み、
前記複数の音声オブジェクトのうちの少なくとも1つの音声オブジェクトの前記音声ファイル(AD1、AD2、ADn)に透かし(WS)を埋め込んで、前記少なくとも1つの音声オブジェクト用の変更された音声ファイル(AD1’)を生成すること(120)であって、
前記透かし(WS)が特定の再現室(22)を指定し、前記波面合成音声表現が、前記再現室(22)のために、前記特定の再現室(22)内に存在する拡声器構成(I20)に応じてレンダリングされること(120)、および
前記特定の再現室(22)の前記拡声器構成(I20)、前記変更された音声ファイル(AD1’)、および前記少なくとも1つの音声オブジェクト用の位置情報(PS1、PS2、PSn)を使用することによって前記音声シーンの前記コピー保護された波面合成音声表現を生成すること(140)
を含む、方法。
【請求項10】
音声シーンのコピー保護された波面合成音声表現を特定の再現室(22)内で再現するための装置(200)であって、
前記音声シーンの前記コピー保護された波面合成音声表現の複数の拡声器チャネル(LS1、LS2、LSn)において前記特定の再現室(22)を指定する透かし(WS)を検出するための透かし検出器(202)であって、前記透かしが前記複数の拡声器チャネル(LS1、LS2、LSn)に分散される、透かし検出器(202)と、
前記透かし検出器(202)が前記拡声器チャネル(LS1、LS2、LSn)のうちの複数において前記特定の再現室(22)を指定する前記透かし(WS)を検出しているときだけ前記コピー保護された波面合成音声表現を再生するためのプレーヤ(204)であって、前記波面合成音声表現が、前記特定の再現室(22)のために、前記特定の再現室(22)内に存在する拡声器構成(I20)に応じてレンダリングされる、プレーヤ(204)と
を備える装置(200)。
【請求項11】
前記プレーヤ(204)は、前記透かし検出器(202)が検出されるべき前記透かし(SWS)と一致する透かし(WS)を検出していないときに前記コピー保護された波面合成音声表現を再生しない、請求項10に記載の装置(200)。
【請求項12】
検出されるべき前記透かし(SWS)が前記透かし検出器(202)に保存される、または前記装置がインタフェースを含み、検出されるべき前記透かし(SWS)が保存されている携帯用データキャリアが、前記インタフェースを通じて接続され得る、請求項10または11の一項に記載の装置(200)。
【請求項13】
前記透かし検出器(202)が、周波数スプレッダ、および、前記周波数スプレッダを用いてスペクトル形状に変換されている検出されるべき前記透かし(SWS)と前記複数の拡声器チャネル(LS1、LS2、LSn)内の信号との間の相関関係を決定するように構成される相関器を含む、請求項10〜12の一項に記載の装置(200)。
【請求項14】
前記プレーヤ(204)が、複数の拡声器を含む前記特定の再現室(22)内の拡声器アレイ(20)に接続され、前記拡声器がそれぞれ、前記音声シーンの前記波面合成音声表現の別個の拡声器チャネル(LS1、LS2、LSn)で制御される、請求項10〜12の一項に記載の装置(200)。
【請求項15】
音声シーンのコピー保護された波面合成音声表現を特定の再現室(22)内で再現する方法であって、
前記音声シーンの前記コピー保護された波面合成音声表現の複数の拡声器チャネル(LS1、LS2、LSn)において前記特定の再現室(22)を指定する透かし(WS)を検出し、前記波面合成音声表現が、前記特定の再現室(22)のために、前記特定の再現室(22)内に存在する拡声器構成(I20)に応じてレンダリングされること(220)であって、前記透かしが前記拡声器チャネル(LS1、LS2、LSn)のうちの複数に分散されること(220)、および
前記特定の再現室(22)を指定する前記透かし(WS)が前記拡声器チャネル(LS1、LS2、LSn)のうちの複数において検出されているときだけ前記コピー保護された波面合成音声表現を再生すること(240)
を含む方法。
【請求項16】
コンピュータプログラムであって、前記プログラムがコンピュータ上で走っているときに請求項9または15に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の諸実施形態は、音声シーン(audio scene)のコピー保護された波面合成音声表現(copy−protected wave field synthesis audio representation)を生成するための装置、関連方法、ならびに音声シーンのコピー保護された波面合成音声表現を再現するための装置および関連方法に関する。他の実施形態は、上記方法を実行するためのコンピュータプログラムに関する。
【背景技術】
【0002】
波面合成再現システムにおいて、生データ、すなわち音声オブジェクトは通常、音声ファイルとして現れるとともに、メタデータは、再現室内の実際に存在する拡声器(loudspeakers)および実際に存在する拡声器構成(例えば、空間に分散された30個を超える拡声器を有するアレイ)に応じてそれぞれ保存され、伝送され、そしてレンダリングされる。このため、メタデータは通常、同封の音声オブジェクトのための位置情報を含む。レンダリング中、位置情報に応じてかつ既存の拡声器構成に応じて、音声ファイルは、再現室内に個々の音声オブジェクトを仮想的に配置することにより複数の拡声器チャネルに分散される。結果として、通常、音声オブジェクトに割り当てられる音声ファイルは、すべての拡声器チャネルを経由するが、異なるスケーリング(scaling)(すなわち、異なるラウドネス(loudness))および異なる遅延で出力される。
【0003】
状況により、再現室内のハードウェアは最小限に減らされなければならず、これにより、レンダラ(renderer)(以下で、波面合成プロセッサと呼ぶ)は再現室内に設置されず、拡声器アレイを有するプレーヤ(player)だけが再現室内に設置される必要がある。この種のアプローチでは、音声シーンの波面合成音声表現が適正な拡声器構成のためにプリレンダリングされ、適正にプリレンダリングされた波面合成音声表現が適正な再現室内で再生されることが考慮されなければならない。というのは、不適切な再現室(すなわち、不適切な拡声器アレイを有する再現室)内で音声表現を再現すると、一般に音声品質が著しく低下するからである。例えば、この概念に基づくと、その後の品質低下を伴う誤操作は、複数の部屋および様々な拡声器セットアップを有する映画館において防止することができない。
【0004】
さらなる要求が、特にプリレンダリング済みコンテンツに関連して、権利管理によって行われ、したがって、再現室内でのあるコンテンツの再現が、ライセンスを利用できるときにしか許可されないという対策が講じられなければならない。この問題に対処するためのいくつかのアプローチが従来技術にある。
【0005】
1つの解決法は、例えば、特にライセンスの問題に関して、暗号化の使用およびキーの保存を、例えばドングル(一般に携帯用記憶媒体)で別々に行うことである。この場合、ドングルは、ドングルのコピーが十分困難となるように設計されることが好ましい。この手順により、再現はドングルを用いてのみ可能になることが確実になり得る。このアプローチの一欠点は、ドングルがなくなると、ライセンスコンテンツ全体をもはや再現することができないことである。さらに、暗号化されるべきデータレートが比較的高く、これは、ハードウェアを必要不可欠なものに減らすという目的に逆行する。
【0006】
音声ファイルを暗号化するのに代わる手段として、いわゆる音声透かし入れ(audio watermarking)(以下で、音声透かしと呼ぶ)を使用することができる。この場合、有用な信号によってマスキングされる信号、すなわち聞き取れない信号が音声信号に印加される。例えば、透かしによる可聴干渉を防止する場合、透かしは、個々のチャネルに印加されるだけでよい。再現側で、透かし検出器が、透かしを抽出し、その透かしがライセンスが利用できる再現システムの識別番号と一致しないときに、再現を拒否することができる。この透かし入れ技術はプリレンダリングの技術にも適合しており、したがって、透かしに基づいて、プリレンダリング済み波面合成音声表現と特定の再現室との関連付けを事前に決定することができる。
【0007】
音声透かし入れによるコピー保護の基本的問題は、トライアンドエラーによる故意の破壊が起こり得ることである。背景にあるのは、「アタッカ」が透かしにアクセスでき、透かしがもはや検出可能でなくなるまで信号を変えることができることである。特に上記のアプローチでは、このアプローチに従って透かしが単一チャネル、例えば、プリレンダリング済み波面合成音声表現の拡声器チャネルに印加されるだけであり、2つの隣り合うチャネルの相関関係を比較することにより、標的型攻撃がしやすくなるという問題がある。したがって、改善されたアプローチが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の一目的は、波面合成音声表現、特にプリレンダリング済み波面合成音声表現のためのコピー保護を改善するための装置および方法を提供することである。
【課題を解決するための手段】
【0009】
この問題は、独立請求項の主題によって解決される。
【0010】
第1の実施形態は、複数の音声オブジェクトを有する音声シーンのコピー保護された波面合成音声表現を生成するための装置を提供し、音声オブジェクトはそれぞれ、音声ファイルおよび位置情報を含む。装置は、複数の音声オブジェクトのうちの少なくとも1つの音声オブジェクトの音声ファイルに透かしを埋め込んで、その少なくとも1つの音声オブジェクト用の変更された音声ファイルを生成するための透かし埋込み装置を含み、透かしは再現室を指定する。さらに、装置は、変更された音声ファイルの特定の再現室の拡声器構成および少なくとも1つの音声オブジェクト用の位置を使用することによって音声シーンのコピー保護された波面合成音声表現を生成するための波面合成プロセッサを含む。
【0011】
本発明の第2の態様は、透かしを埋め込むステップおよびコピー保護された波面合成音声表現を生成するステップを含む割当方法に関する。
【0012】
したがって、本発明のこれらの最初の2つの態様は、透かしがプリレンダリング済み波面合成音声表現に挿入されるという認識に基づいており、したがって、透かしは再現室を指定し、波面合成音声表現は再現室のために計算される。本発明によれば、透かしは、未レンダリング音声ファイル(生データ)に、すなわちレンダリング前に提供される音声トラックに挿入され、透かしは、少なくとも1つの音声オブジェクト(特定の拡声器チャネルではない)に関連付けられるようにする。透かしを生データの中に印加することにより、透かしは、レンダリング後に、すべての拡声器チャネルおよび少なくとも1群の拡声器チャネルにそれぞれ分散されることが可能になる。特に、従来技術と比べると、このことは、プリレンダリング済み波面合成音声表現から透かしを二度と容易に除去することができないという利点がある。このことはまた、透かしが当該オブジェクトのための位置情報に応じて透かしの「キャリアオブジェクト」とともに適時に変化するという事実によって支援される。
【0013】
別の実施形態によれば、透かしは、透かしがポストマスキング、プリマスキング、同期マスキングおよび/または雑音マスキングを用いて少なくとも心理音響的観点から聞き取れないように、音声オブジェクトの音声ファイルに埋め込まれる。
【0014】
一実施形態によれば、透かしは、特定の特徴を有する音声オブジェクトの音声ファイル、例えば最も音が大きい音声オブジェクトに埋め込むことができる。透かしを最も音が大きい音声オブジェクトに挿入するのは、心理音響的マスキングが最大化されるという利点がある。
【0015】
他の実施形態は、(第3の態様によれば)音声シーンのコピー保護された波面合成音声表現を特定の再現室内で再現するための装置を提供する。装置は、音声シーンのコピー保護された波面合成音声表現の少なくとも1つの拡声器チャネルにおいて特定の再現室を指定する透かしを検出するための透かし検出器と、透かし検出器が特定の再現室を指定する透かしを検出しているときだけコピー保護された波面合成音声表現を再生するためのプレーヤと、を含む。
【0016】
本発明の第4の態様によれば、音声シーンのコピー保護された波面合成音声表現を再現する方法が提供され、この方法は、透かしを検出するステップおよびコピー保護された波面合成音声表現を再生するステップを含む。
【0017】
一実施形態によれば、検出されるべき透かし(すなわち、当該室用の透かし)は、透かし検出器に保存される、またはデータキャリアから、例えばインタフェースを通じて読み込むことができる。
【0018】
別の実施形態によれば、透かし検出器は周波数スプレッダ、および、周波数スプレッダを用いてスペクトル形状に変換される検出されるべき透かしと少なくとも1つの拡声器チャネル内の信号との間の相関関係を決定するように機能する相関器を含む。
【0019】
本発明の第5および第6の態様によれば、上述した方法のステップおよびサブステップを実行することができるコンピュータプログラムが提供される。
【0020】
本発明の諸実施形態について、添付図面に基づいて後述する。
【図面の簡単な説明】
【0021】
図1a】第1の実施形態によるコピー保護された波面合成音声表現を生成するための装置の概略ブロック図である。
図1b】別の実施形態によるコピー保護された波面合成音声表現を生成する方法の概略流れ図である。
図2a】第2の実施形態によるコピー保護された波面合成音声表現を再現するための装置の概略ブロック図である。
図2b】別の実施形態によるコピー保護された波面合成音声表現を再現する方法の概略流れ図である。
図3】波面合成レンダリング時の各ステップを説明するための波面合成プロセッサの概略ブロック図である。
図4】音声ファイルに透かしを埋め込むときの動作モードを説明するための透かし埋込み装置の概略ブロック図である。
【発明を実施するための形態】
【0022】
本発明の諸実施形態について添付図面を参照しながら以下で詳細に説明するが、同一要素、および同一機能を有する要素には、その要素の説明が相互交換可能または相互適用可能となるように、同一参照番号を与えられることに留意されたい。
【0023】
本発明の諸実施形態が図1a、図1b、図2aおよび図2bを参照して詳細に論じられる前に、波面合成プロセッサが図3に基づいて説明され、透かし埋込み装置が図4に基づいて説明される。
【0024】
図3は、波面合成プロセッサ10を概略的拡声器アレイ20とともに示す。
【0025】
拡声器アレイ20は通常、拡声器チャネルLS1〜LSnを通じて制御される複数の個々の拡声器を含む。例えば40個または60個の拡声器を有する拡声器アレイは、例えば、特定の再現室22内に配置される360度のアレイとして実装することができる。再現室22は、例えば映画館であり、映画館には拡声器アレイ20の拡声器が視聴者24の周囲にグループ化されるかまたはアレイ状に配置される。したがって、拡声器は、例えば、スクリーンの後ろ、視聴者の後ろ、ならびにリスナのそばの左右に配置される。
【0026】
さらに、ポイントPにおいて、リスナは拡声器アレイ20の複数の拡声器によって取り囲まれ、したがって、音声オブジェクトを、空間に仮想的に配置することができ、かつ拡声器チャネルLS1およびLSnを用いて拡声器アレイ20をそれぞれ制御して(例えば、拡声器アレイ20の拡声器のサブセットの片側を制御して)移動させることができる。1つの音声オブジェクトのこうした仮想配置および仮想移動はそれぞれ、拡声器構成(拡声器アレイ20を参照)の正確な認識に大きく依存し、したがって、個々の拡声器チャネルLS1〜LSnを特定の再現室22内の特定の拡声器アレイ20に対してのみ決定することができる。この決定および計算はそれぞれ、下記に論じるように、波面合成プロセッサ10によって実行される。
【0027】
波面合成プロセッサ10は、特定の再現室22の拡声器構成20に関する情報(I20)(数および位置)を使用することにより、音声ファイルおよび位置情報(経時的移動情報とともにデカルト座標系の位置として定義される)をそれぞれ含む複数の音声オブジェクトAO1〜AOnに基づいて複数の拡声器チャネルLS1〜LSnを計算するように構成される。
【0028】
このため、波面合成プロセッサは複数の入力(AD1〜ADnを参照)を含み、複数の音声信号が複数の入力を通じて様々な音声オブジェクトに供給される。そのようにして、入力(AD1を参照)は、例えば、第1の音声オブジェクト用の音声ファイル1ならびに第1の音声オブジェクトの割当位置情報を受け取る。例えば映画館のセッティングでは、音声オブジェクト1は、例えば、スクリーンの左側からスクリーンに沿って右側へ移動し、場合により追加的に、視聴者から離れる方向に移動し、視聴者に向かって移動する俳優の声である。その場合、音声ファイル1はこの俳優の実際の声であり、位置情報は、録音セッティングにおける第1の俳優の現在位置を特定の時刻に表す時間の関数である。一方、音声ファイルnは、例えば、第1の俳優と同じように移動するまたは第1の俳優とは異なって移動する別の俳優の声であろう。他の俳優の現在位置は、音声信号nと同期される位置情報によって波面合成プロセッサ10に提供される。実際には、様々な仮想音声オブジェクトが録音セッティングに応じて存在し、当該音声オブジェクトの音声ファイルは、個々のトラックとして波面合成プロセッサ10に供給される。
【0029】
上記に例示したように、波面合成プロセッサ10は、複数の拡声器チャネルLS1〜LSnを直接再生可能なアナログ形式で、あるいは好ましくはデジタル形式で出力し、複数の拡声器チャネルLS1〜LSnは、拡声器アレイ20の拡声器を通じて直接再生することができる。波面合成プロセッサ10は、映画館などの再現セッティング(聴音室22および拡声器アレイ20をそれぞれ参照)内の個々の拡声器の位置を入力情報I20として受け取る。
【0030】
さらに、例えば室内音響学に関するさらなる情報を、この情報入力I20を通じて読み込むことができる。
【0031】
一般に、拡声器信号は、例えば拡声器チャネルLS1に割り当てられるものであり、拡声器LS1用の拡声器信号が、第1の拡声器オブジェクト1に基づく第1のコンポーネント、第2の音声オブジェクト2に基づく第2のコンポーネント、同様に音声オブジェクトnに基づく第nのコンポーネントを含むように、仮想音声オブジェクトのコンポーネント信号を重ね合わせたものである。個々のコンポーネント信号は、線形に重ね合わせられる、すなわち、リスナの耳元に線形重ね合わせを再現し、実セッティング内でリスナが知覚できる音源の線形重ね合わせが視聴者に聞こえるようにするために、そのコンポーネント信号の計算後に加算される。この重ね合わせにより、第1、第2、および第nの音声オブジェクトは各拡声器チャネルLS1〜LSnに含められ、音声ファイルは、拡声器チャネルLS1〜LSnごとに異なるスケーリングファクタでスケール変更されかつ/または異なる遅延ファクタで遅延される。この場合、個々の拡声器チャネルLS1〜LSnのスケーリングは、音声オブジェクトがもはや拡声器チャネルで聞き取ることができないように、ゼロになるまで実行され得ることに留意されたい。
【0032】
図4は、音声ファイルADに透かしWSを埋め込んで、変調された音声ファイルAD’を生成するための透かし埋込み装置30を示す。
【0033】
透かし埋込み装置30は、例えばPCM信号としてまたは時間離散音声サンプルのビットストリームとして存在する音声ファイルADと埋め込まれるべき透かしWSの両方を読み込む。次に、これらの2つの読み込まれたデジタル信号ADおよびWSは、例えば周波数スプレッダ(段30aを参照)を用いて、スペクトル形状に変換される、すなわち、具体的には音声スペクトル値ADおよび透かしスペクトル値WSに変換される。WSからWSへの変換は、例えば、データ信号WSに雑音信号(ホワイトノイズ)または疑似雑音信号を乗算することによって行うことができる。ADからADへの変換は、例えば高速フーリエ変換を用いて直接変換することができる。音声ファイルAD、および音声ファイルADのスペクトル形状から、とりわけ、マスキング用の領域(例えば、総合エネルギーの高い領域)および音声信号の(一時的)マスキング閾値をそれぞれ示す心理音響モデルを決定することが可能である。マスキング閾値は、音声信号をどのくらい変化させ得るかを示し、したがって、その変化は得られる聴感に無関係である。
【0034】
様々な機構、例えば一時的マスキング(ポストマスキング、プリマスキング、または同期マスキング)が利用可能であり、雑音マスキング(雑音を信号でマスキングすること、または信号を雑音でマスキングすること)も利用可能である。これらのマスキング閾値およびADのマスキング領域はそれぞれ、マスキングされた形のデータ信号をADに挿入するために使用され得るものであることが知られているとき、ADおよびWSを組み合わせたものが第2段(参照番号30bを参照)で実行される。組み合わせるステップにおいて、詳細には、音声信号ADにデータ信号WSの加重バージョンを重ね合わせられ、それにより、重み付け中に決定済みマスキング閾値および決定済みマスキング領域がそれぞれ考慮される。この重ね合わせの結果が、変更された音声信号AD’およびAD’である(スペクトル変化)。この手順により、音声ファイルADが透かしWSなどのデータ信号用のキャリアになるまで、音声ファイルAD’を再生したときに人が聞き取れる音声再現を全く変えずに音声ファイルADを変更することが可能である。
【0035】
図1aは、音声シーンのコピー保護された波面合成音声表現を生成するための装置100を示す。装置100は、複数の音声オブジェクト(AD1+PO1およびADn+POnをそれぞれ参照)用の入力と複数の拡声器チャネルLS1〜LSn用の出力とを含む。さらに、装置100は、透かし埋込み装置102および波面合成プロセッサ104を含む。透かし埋込み装置102は、入力側、すなわち音声オブジェクトAD1+PO1およびADn+POnの入力側に配置される。波面合成プロセッサ104は、出力側、すなわち拡声器チャネルLS1〜LSn用の出力側に設けられる。続いて、装置100の動作モードについて、割当方法を示す図1bを参照して説明する。
【0036】
音声シーンの波面合成音声表現は、少なくとも複数の音声オブジェクト(AD1+PO1およびADn+POnをそれぞれ参照)に基づいている。したがって、音声オブジェクトはそれぞれ、既に上記に例示したように、音声ファイルAD1またはADnならびに割当位置情報PO1またはPOnを含む。
【0037】
最初のステップで、装置100(図1b、ステップ120を参照)は、透かし埋込み装置102用のデジタル信号として利用可能な透かしWSを少なくとも1つの音声ファイル、すなわち、複数の音声オブジェクトのうちのAD1かADnのどちらかに埋め込む。透かしは特定の再現室を指定し、波面合成音声表現はその再現室のためにレンダリングされる。この場合、透かしは、再現室、再現室内のプレーヤまたは概して再現室に割り当てられるキーのIDまたは個人用の一意のIDを含むことができる。埋め込みは、上述のプロセスに従って行うことができる。埋め込みの結果は、少なくとも変更された音声ファイルAD1’またはADn’(この場合はAD1’)である。
【0038】
したがって、透かし埋込み装置102は、変更された音声ファイルAD1’を位置情報PO1とともに出力し、さらに、変更されていない音声ファイルADnを位置情報POnとともに転送する。透かし埋込み装置102が、他の実施形態に従って透かしを複数の音声ファイルAD1およびADnに埋め込むと、複数の変更された音声ファイルAD1’およびADn’が位置情報PO1およびPOnとともに出力される。あるいは、位置情報は、波面合成プロセッサ104に透かし埋込み装置102によって伝えられなくてもよく、波面合成プロセッサ104に直接供給されてもよい。
【0039】
他の実施形態によれば、透かし埋込み装置102は、特定の特徴を有する1つの音声ファイルに透かしのみを埋め込むこともできる。この特徴は、例えば、ある音声オブジェクトの他の音声オブジェクトに対する相対音量、または、ある音声オブジェクトの他のオブジェクトと比較した相対活動度とすることができる。さらに、透かし埋込み装置102は、複数の音声オブジェクトを検出されるべき特徴に関して検査するとともに、透かしを埋め込むための音声オブジェクトを選択するように構成される。
【0040】
透かし埋込み装置102が、図4に記載されている透かし埋込み装置の機能性を備えるものとして説明されているときでも、透かし埋込み装置102は異なって構成することもでき、透かし用の他の埋込み機構を使用することもできる。
【0041】
波面合成プロセッサ104は、装置100の第2の機能要素(図1b、ステップ140を参照)であり、第2の機能要素は、少なくとも1つの音声オブジェクトが変更された音声ファイルAD1’を含んでいる複数の音声オブジェクトADn+POnから、個々の拡声器チャネルLS1〜LSnを用いて音声オブジェクトをスケール変更され、遅延されかつ加算された形で出力するために、波面合成音声表現、すなわち、当該再現室用の個々の音声オブジェクトAD1’+PO1およびADn+POnのスケーリングを計算する。このため、波面合成プロセッサは、音声オブジェクトの音声ファイルAD1’/ADnおよび位置情報PO1/POn以外に、拡声器構成I20の情報も受け取る。計算は、基本的に上述したように実行される。したがって、音声シーンの音声表現は複数の拡声器チャネルLS1〜LSnとして出力され、ハードドライブやブルーレイなどの記憶媒体に保存することができるので、複数の拡声器チャネルLS1〜LSnは別々に保存されることが好ましい。
【0042】
結果として、透かし(音声透かし)は、すべてまたは少なくとも複数の拡声器チャネルLS1〜LSnに(静的にまたは一時的に)分散され、個々の音声オブジェクトと同じ音響位置を有する。それにより、音響心理学の観点から、透かしは、同一方向が同一最大マスキングも意味するので、最適に聞き取れない。さらに、透かしは、例えば個々の拡声器チャネルを比較することにより容易には検出し除去することができないことが確実になり得る。この場合の背景にあるのは、透かしが拡声器チャネルの全部または少なくとも大部分に異なるスケーリングおよび遅延で分散され、したがって、透かしに関する結論を可能にするチャネル相互間の相関関係を検出することができないことである。
【0043】
図2aは、音声シーンのコピー保護された波面合成音声表現を再現するための装置200を示す。装置200は、透かし検出器202およびプレーヤ204を含む。装置200は、透かし検出器202およびプレーヤ204が共にアクセスすることができる、拡声器チャネルLS1〜LSn用のデータインタフェースを含む。プレーヤ204は、一方では、透かし検出器202と情報的に接続され、他方では、拡声器アレイ20に直接結合される、あるいは複数の拡声器チャネル(この場合は、LS1*〜LSn*で示されている)用の増幅器を介して拡声器アレイ20に結合される。以下では、装置200の動作モードについて、装置200が基づいている割当方法とともに論じる(図2bを参照)。
【0044】
波面合成音声表現は、例えば移動データキャリアに保存され得るものであり、既にレンダリングされた拡声器チャネルLS1〜LSnの形で装置200に読み込まれており、個々の拡声器チャネルLS1〜LSnは、装置200の両構成要素202および204に利用可能である。
【0045】
最初のステップ(図2b、ステップ220を参照)では、透かし検出器202に保存されるか外部から読み込まれ得る検出されるべき透かしSWSの検出が行われる。検出されるべき透かしSWSを読み込むことは、例えば、ドングルを用いて、または概して装置200に接続される外部記憶媒体を用いて行うことができる。検出されるべき透かしSWSは、図1に関して論じられるまたは説明される透かしWSに対応する。検出されるべき透かしSWSを検出する場合、透かしSWSは一般に事前にレンダリングされ、レンダリングは基本的に挿入するのと同じように行われる。したがって、透かしは、すなわち、雑音発生器(周波数スプレッダ)を用いてスペクトル形状に変換される。次いで、検出されるべき透かしSWSのこのスペクトルバージョンは、相関器を用いて拡声器チャネルLS1〜LSnと比較することができる。透かし検出器202は、複数の拡声器チャネルLS1〜LSnにおいて検出されるべき透かしSWSを検出するように構成されることが好ましい。
【0046】
別の実施形態によれば、透かしは、透かしが例えば最も音が大きい音声オブジェクトに割り当てられたときだけ、最も音が大きい拡声器チャネルに検出することができる。というのは、最も音が大きい拡声器チャネルは通常、最も音が大きいオブジェクトも含んでいるからである。この場合、このことは、特に、複数の空間的に隣り合う音声オブジェクトが個別に最も音が大きいオブジェクトよりも音が大きいときに、必ずしも該当しないことに留意されたい。
【0047】
したがって、透かしが相関関係を用いて1つの拡声器チャネルまたは好ましくは複数の拡声器チャネルにおいて決定されていると、プレーヤ204にイネーブル信号を伝送することができ、それにより、次いで波面合成音声表現の再現が可能になる。
【0048】
結果として、プレーヤ204は音声表現を再現し(図2b、ステップ240を参照)、実際の再現は基本的に、拡声器信号LS1〜LSnの伝送を拡声器アレイ20への拡声器信号LS1*〜LSn*として、例えば増幅された形で表しているに過ぎない。
【0049】
別の実施形態によれば、透かし検出器202をベースとするプレーヤ204による能動再現防止が可能になる。これには、拡声器チャネルLS1〜LSn内の透かしを破壊することで拡声器チャネルLS1〜LSnおよび波面合成音声表現の再現がそれぞれ実行されるという成功にはまだつながらないという利点がある。
【0050】
概して言えば、上述した概念は、プレーヤ側に別個のレンダラが不要となり、したがって計算能力を低く保つことができるという利点がある。この計算能力の低減により、音声透かしによって確保されるプリレンダリング済みコンテンツは、データメモリに関連して埋込みボードやDSPなどの低パフォーマンスのプラットホームによって再生することもできる。その場合、これらのプレーヤは、例えばスイッチ箱、壁箱もしくは無関係のデバイス(devices)内のモバイルシステムとして、または別個のデバイスとして使用することができる。
【0051】
いくつかの態様が装置に関連して記述されているが、これらの態様は対応する方法の説明も表し、したがって、装置のブロックまたはデバイスが当該方法ステップまたは方法ステップの特徴にも対応していることは明らかである。同じように、方法ステップに関連して記述されている態様は、対応するブロックの説明または対応する装置の詳細もしくは特徴も表す。方法ステップの一部または全部が、ハードウェア装置など、例えば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路によって(またはそれらを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの一部または複数がこの種の装置によって実行されてもよい。
【0052】
音声信号、映像信号、トランスポートストリーム信号などの発明的に符号化された信号は、デジタル記憶媒体に保存することができる、または、無線伝送媒体や有線伝送媒体などの伝送媒体、例えばインターネット上で伝送することができる。
【0053】
発明的符号化信号はデジタル記憶媒体に保存することができる、または無線伝送媒体や有線伝送媒体などの伝送媒体、例えばインターネット上で伝送することができる。
【0054】
いくつかの実施要件に応じて、本発明の諸実施形態はハードウェアまたはソフトウェアで実施することができる。この実施は、デジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROMもしくはフラッシュメモリ、ハードドライブ、または電子的に読取り可能な制御信号が保存されている別の磁気メモリまたは光メモリを使用して行うことができ、これらの記憶媒体は、当該方法が実行されるように、プログラマブルコンピュータシステムと協働するまたは協働することができる。したがって、デジタル記憶媒体はコンピュータ可読でよい。
【0055】
本発明によるいくつかの実施形態は、電子的に読取り可能な制御信号を備えるデータキャリアを含み、電子的に読取り可能な制御信号は、本明細書に記述されている方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することができる。
【0056】
概して、本発明の諸実施形態は、プログラムコードを有するコンピュータプログラムプロダクトとして実施することができ、プログラムコードは、コンピュータプログラムプロダクトがコンピュータ上で走るときに方法のうちの1つを実行するために機能する。
【0057】
プログラムコードは、例えば機械可読キャリアに保存されてもよい。
【0058】
他の実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを備え、コンピュータプログラムは機械可読キャリアに保存される。
【0059】
したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムプロダクトがコンピュータ上で走るときに本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムである。
【0060】
したがって、本発明の方法の別の実施形態は、データキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)であり、データキャリアに記録された、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを備える。
【0061】
したがって、本発明の方法の別の実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を通じて、例えばインターネットを通じて転送されるように構成されてもよい。
【0062】
別の実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブル論理回路を備える。
【0063】
別の実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを備える。
【0064】
本発明の方法の別の実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを受信機へ伝送するように構成された装置またはシステムを備える。伝送は、電子的または光学的に行うことができる。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどでよい。装置またはシステムは、例えば、コンピュータプログラムを受信機へ伝送するためのファイルサーバを備えていてもよい。
【0065】
いくつかの実施形態では、プログラマブル論理回路(例えば、フィールドプログラマブルゲートアレイFPGA)が、本明細書に記述されている方法の機能性に一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記述されている方法のうちの1つを実行するためにマイクロプロセッサと協働してもよい。概して、方法は、任意のハードウェア装置によって実行されることが好ましい。ハードウェア装置は、コンピュータプロセッサ(CPU)などの汎用性のあるハードウェア、またはASIC(特定用途向けIC)などの上記方法に特有のハードウェアとすることができる。
【0066】
上述した諸実施形態は、本発明の原理の例示に過ぎない。本明細書に記述されている配置および詳細の変更形態および変形形態は当業者には明らかになることが理解されよう。したがって、本発明は、添付の特許請求の範囲によってのみ限定され、本明細書の諸実施形態の記述および説明によって提示される特定の詳細によって限定されるものではない。
図1a
図1b
図2a
図2b
図3
図4