(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023067365
(43)【公開日】2023-05-16
(54)【発明の名称】秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラム
(51)【国際特許分類】
G10L 19/018 20130101AFI20230509BHJP
【FI】
G10L19/018
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2021178523
(22)【出願日】2021-11-01
(71)【出願人】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(74)【代理人】
【識別番号】100169199
【弁理士】
【氏名又は名称】石本 貴幸
(72)【発明者】
【氏名】太刀岡 勇気
(57)【要約】 (修正有)
【課題】音声を秘匿性高く配信して簡易に復元できる秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法及び秘匿音声伝送プログラムを提供する。
【解決手段】秘匿音声送信装置12は、秘匿音声にi個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてマスクMを生成し、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクM’
nを、マスクMに基づいて生成する。そして、秘匿音声送信装置12は、混合音声を短時間フーリエ変換して得られたスペクトログラムをn個のシェアマスクM'
nでマスキングすることで、各々が異なるn個のシェア音声を生成し、逆フーリエ変換したn個のシェア音声を出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成するシェア音声生成部と、
逆フーリエ変換した前記n個のシェア音声を出力するシェア音声出力部と、
を備える秘匿音声送信装置。
【請求項2】
前記他の音声は、i個の妨害音であり、
前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成する、請求項1に記載の秘匿音声送信装置。
【請求項3】
前記他の音声は、n個のカバー音声であり、
前記マスク生成部は、前記秘匿音声にn個のカバー音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成し、前記カバー音声の周波数成分が前記秘匿音声及び他の前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいてj個(1≦j≦n)のカバーマスクを生成し、
前記シェアマスク生成部は、前記マスク及び前記j個のカバーマスクに基づいて前記n個のシェアマスクを生成する、
請求項1に記載の秘匿音声送信装置。
【請求項4】
請求項1から請求項3の何れか1項に記載の秘匿音声送信装置と、
前記秘匿音声送信装置から出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する秘匿音声受信装置と、
を備える秘匿音声伝送システム。
【請求項5】
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、
前記n個のシェアマスクを出力するシェアマスク出力部と、
前記秘匿音声にi個の妨害音を混合した混合音声を出力する音声出力部と、
を備える秘匿音声送信装置。
【請求項6】
前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成する、請求項5に記載の秘匿音声送信装置。
【請求項7】
前記シェアマスク出力部は、所定の周波数範囲で強度が所定値以上であるノイズを短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングした後に、逆フーリエ変換することで生成された前記n個のシェア音声を音として出力する、請求項5又は請求項6に記載の秘匿音声送信装置。
【請求項8】
前記シェアマスク出力部は、前記n個のシェアマスクの各々をデジタルデータとして出力する、請求項5又は請求項6に記載の秘匿音声送信装置。
【請求項9】
請求項5から請求項8の何れか1項に記載の秘匿音声送信装置と、
前記シェアマスク出力部から出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記音声出力部から出力された前記混合音声にマスキングすることで、前記秘匿音声を復元する秘匿音声受信装置と、
を備える秘匿音声伝送システム。
【請求項10】
前記マスク生成部は、前記閾値以上の周波数ビンを1とし、前記閾値未満の周波数ビンを0とすることで前記マスクを生成する、
請求項1から請求項3、請求項5から請求項8の何れか1項に記載の秘匿音声送信装置。
【請求項11】
前記シェアマスク生成部は、周波数ビンの数及び時間フレームの数を増大することで前記マスクをm倍し、VCS(Visual Cryptography Scheme)の基本行列を満たす行列式となるように前記n個のシェアマスクを生成する、
請求項1から請求項3、請求項5から請求項8、請求項10の何れか1項に記載の秘匿音声送信装置。
【請求項12】
前記秘匿音声受信装置は、復元された音声と前記秘匿音声との類似性を判定する類似性判定部を備える、請求項4又は請求項9に記載の秘匿音声伝送システム。
【請求項13】
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第3工程と、
逆フーリエ変換した前記n個のシェア音声を出力する第4工程と、
出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第5工程と、
を有する秘匿音声伝送方法。
【請求項14】
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、
前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第3工程と、
出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第4工程と、
を有する秘匿音声伝送方法。
【請求項15】
コンピュータに、
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第3工程と、
逆フーリエ変換した前記n個のシェア音声を出力する第4工程と、
出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第5工程と、
を実行させるための秘匿音声伝送プログラム。
【請求項16】
コンピュータに、
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、
前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第3工程と、
出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第4工程と、
を実行させるための秘匿音声伝送プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラムに関する。
【背景技術】
【0002】
不特定多数に向けて配信される音声において、特定の対象者だけが受け取れるようにメッセージを秘匿する用途は多く、そのための方法はいくつか提案されている。
【0003】
例えば、特許文献1には、暗号化した音声を音響に埋め込む方法が開示されている。特許文献1の方法は、施設の放音装置が放音する音響を収音した収音信号から識別情報を抽出し、施設に関する複数の関連情報を受信するものであり、展示施設に設置されて施設の音声案内に利用される。また特許文献1には、識別情報を非可聴帯域に変調することで音響に埋め込む方法も開示されている。
【0004】
一般的に、暗号の安全性は復号にかかる計算複雑性により担保されているものの、特許文献1の方法では、識別情報を用いて関連情報を取得するための手段が必要であり構成が複雑となり、識別情報を音響に埋め込む暗号化手法が漏えいした場合に安全でなくなる。また、識別情報を秘匿化するために識別情報を非可聴帯域に変調したとしても、変調されている周波数が分かれば簡易に復号されてしまうため秘匿音声通信には適さない。
【0005】
これに対して、画像処理の分野では、暗号化手法が漏えいした場合にも安全な技術として、非特許文献1に示される視覚暗号(Visual cryptography scheme、以下「VCS」という。)が知られている。VCSは1枚の秘匿画像からn枚のシェア画像を生成し、そのうちの少なくとも任意のt枚のシェア画像を集めることで元の秘匿画像を復元できる。一方で、VCSは、t-1枚のシェア画像からは秘匿画像を復元できないため、t枚以上のシェア画像を集めないと秘密が漏れないというものである。このような方式は(t,n)-VCSともいわれる。
【0006】
VCSでは、秘匿画像を復元するためにはt枚以上のシェア画像を重ね合わせるだけでよく、複雑な復号処理が必要ないことがその特長である。
図11に(t,n)=(3,4)-VCSの例を示す。
図11の例では、シェア画像は3枚以上を重ね合わせることで秘匿画像の画素の白又は黒を復元できるように生成される。なお、
図11(A)は秘匿画像のある画素が白(0)であり、
図11(B)は秘匿画像のある画素が黒(1)の場合を示す。
図11の例では、シェア画像は4つであり、秘匿画像の1画素を横方向に3倍、縦方向に2倍の6画素に拡大している。すなわち、
図11のシェア画像は、秘匿画像の1画素に相当する。秘匿画像を復元するためには、秘匿画像の全画素に対応したシェア画像が生成される。
【0007】
図11の例では、任意の2枚のシェア画像の組み合わせによって黒になる画素数は、秘匿画像の元画素が白(0)又は黒(1)にかかわらず、共に6画素のうち4画素である。このため、
図11(A)に示されるシェア画像のうち任意の2枚を組み合わせた場合と、
図11(B)に示されるシェア画像のうち任意の2枚と組み合わせた場合とでは区別できない。これに対して任意の3枚のシェアの組み合わせになると、元画素が白(0)である
図11(A)では6画素のうち4画素が黒である一方、元画素が黒(1)である
図11(B)では6画素のうち5画素が黒になる。これにより、
図11(A)と
図11(B)とで復元される画像を構成する画素の明るさに差がつき、元の秘匿画像を構成する画素が白又は黒であったか区別できる。このようにVCSでは、秘匿画像の各画素を拡大したうえでn個のシェア画像を生成することで、t個以上のシェア画像を集めないと秘匿画像を認識できないようにできる。
【0008】
非特許文献2、3には、任意のt,nに対して秘匿画像を復元できる条件を満たすシェア画像を生成する方法が提案されている。また、特許文献2では、拡張現実を利用した視覚暗号の方法が開示されており、コンテンツの盗み見を防止するために視覚暗号を利用し、これにより権利のない者に配信コンテンツを盗み見されることを防ぐことができる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2020-021101号公報
【特許文献2】特表2017-538152号公報
【非特許文献1】M. Naor and A. Shamir, “Visual cryptography,” Advances in Cryptology - EUROCRYPT '94, Workshop on the Theory and Application of Cryptographic Techniques, 1994, Proceedings, vol.950, pp.1--12, Lecture Notes in Computer Science, Springer, 1994.
【非特許文献2】S.J. Shyu and M.C. Chen, “Optimum pixel expansions for threshold visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.6, no.3, pp.960--969, 2011.
【非特許文献3】M. Iwamoto, “A weak security notion for visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.7, no.2, pp.372--382, 2012.
【発明の概要】
【発明が解決しようとする課題】
【0010】
上記のようにVCSは画像を秘匿化して配信し、この画像を復元する場合に有効であるが、音声に対して応用された例は未だにない。
【0011】
そこで本発明は、上記背景に鑑み、音声を秘匿性高く配信して簡易に復元できる、秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の秘匿音声送信装置は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成するシェア音声生成部と、逆フーリエ変換した前記n個のシェア音声を出力するシェア音声出力部と、を備える。
【0013】
本発明の秘匿音声送信装置によれば、前記他の音声は、i個の妨害音であり、前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成してもよい。
【0014】
本発明の秘匿音声送信装置によれば、前記他の音声は、n個のカバー音声であり、前記マスク生成部は、前記秘匿音声にn個のカバー音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成し、前記カバー音声の周波数成分が前記秘匿音声及び他の前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいてj個(1≦j≦n)のカバーマスクを生成し、前記シェアマスク生成部は、前記マスク及び前記j個のカバーマスクに基づいて前記n個のシェアマスクを生成してもよい。
【0015】
本発明の秘匿音声伝送システムは、上記記載の秘匿音声送信装置と、前記秘匿音声送信装置から出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する秘匿音声受信装置と、を備える。
【0016】
本発明の秘匿音声送信装置は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、前記n個のシェアマスクを出力するシェアマスク出力部と、前記秘匿音声にi個の妨害音を混合した混合音声を出力する音声出力部と、を備える。
【0017】
本発明の秘匿音声送信装置によれば、前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成してもよい。
【0018】
本発明の秘匿音声送信装置によれば、前記シェアマスク出力部は、所定の周波数範囲で強度が所定値以上であるノイズを短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングした後に、逆フーリエ変換することで生成された前記n個のシェア音声を音として出力してもよい。
【0019】
本発明の秘匿音声送信装置によれば、前記シェアマスク出力部は、前記n個のシェアマスクの各々をデジタルデータとして出力してもよい。
【0020】
本発明の秘匿音声伝送システムは、上記記載の秘匿音声送信装置と、前記シェアマスク出力部から出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記音声出力部から出力された前記混合音声にマスキングすることで、前記秘匿音声を復元する秘匿音声受信装置と、を備える。
【0021】
本発明の秘匿音声送信装置によれば、前記マスク生成部は、前記閾値以上の周波数ビンを1とし、前記閾値未満の周波数ビンを0とすることで前記マスクを生成してもよい。
【0022】
本発明の秘匿音声送信装置によれば、前記シェアマスク生成部は、周波数ビンの数及び時間フレームの数を増大することで前記マスクをm倍し、VCS(Visual Cryptography Scheme)の基本行列を満たす行列式となるように前記n個のシェアマスクを生成してもよい。
【0023】
本発明の秘匿音声伝送システムによれば、前記秘匿音声受信装置は、復元された音声と前記秘匿音声との類似性を判定する類似性判定部を備えてもよい。
【0024】
本発明の秘匿音声伝送方法は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第3工程と、逆フーリエ変換した前記n個のシェア音声を出力する第4工程と、出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第5工程と、を有する。
【0025】
本発明の秘匿音声伝送方法は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第3工程と、出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第4工程と、を有する。
【0026】
本発明の秘匿音声伝送プログラムは、コンピュータに、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第3工程と、逆フーリエ変換した前記n個のシェア音声を出力する第4工程と、出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第5工程と、を実行させる。
【0027】
本発明の秘匿音声伝送プログラムは、コンピュータに、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第1工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクを、前記マスクに基づいて生成する第2工程と、前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第3工程と、出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第4工程と、を実行させる。
【発明の効果】
【0028】
本発明によれば、音声を秘匿性高く配信して簡易に復元できる。
【図面の簡単な説明】
【0029】
【
図1】第1実施形態の秘匿音声伝送システムの概略構成図である。
【
図2】第1実施形態の秘匿音声送信装置の機能ブロック図である。
【
図3】第1実施形態の秘匿音声受信装置の機能ブロック図である。
【
図5】第2実施形態の秘匿音声受信装置の機能ブロック図である。
【
図6】第3実施形態の秘匿音声送信装置の機能ブロック図である。
【
図7】第3実施形態の秘匿音声受信装置の機能ブロック図である。
【
図8】第4実施形態の秘匿音声送信装置の機能ブロック図である。
【
図9】第5実施形態の秘匿音声送信装置の機能ブロック図である。
【
図10】第5実施形態の秘匿音声受信装置の機能ブロック図である。
【
図11】VCSのシェア画像の模式図であり、(A)は秘匿画像の画素が白の場合であり、(B)は秘匿画像の画素が黒の場合である。
【発明を実施するための形態】
【0030】
以下、図面を参照して本発明の実施形態を説明する。なお、以下に説明する実施形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施形態に応じた具体的構成が適宜採用されてよい。
【0031】
(VCSの基本行列)
以下に説明する実施形態は、VCS(Visual cryptography scheme)を秘匿音声の配信、復号に適用したものである。そこで、VCSの概要について説明する。
【0032】
VCSは、1枚の秘匿画像からn枚のシェア画像を生成し、そのうちの少なくとも任意のt枚(2≦t≦n)のシェア画像を集めることで元の秘匿画像を復元する技術である。なお、tとnには、2≦t≦nの関係がある。VCSの適用例としては、ゲームの参加者(ユーザーともいう。)が異なる場所又は異なる時間でシェア画像のデータを取得し、t枚以上のシェア画像を取得した参加者だけが秘匿画像を取得でき、ゲームの次のステージに進むことができるというものがある。
【0033】
任意の(t,n)に対してシェア画像を生成するには、まずシェア画像に対する参加者のアクセス構造Γを定める必要がある。n枚のシェア画像の集合P={1,2,…,n}がある場合、どのシェア画像を保持しているかで場合分けしたべき集合は2Pとなる。そして、シェア画像を重ね合わせることで秘匿画像を復元できるシェア画像の集合を有資格集合ΓQとする。
【0034】
t枚のシェア画像を集めれば秘匿画像を復元できるので、ΓQはt枚のシェア画像が集まっている場合が極小となり、この場合を極小有資格集合Γ*
Qとする。逆にシェア画像から秘匿画像に関する一切の情報を得られない集合を禁止集合ΓFとする。このため、ΓFは、全体のべき集合2Pに対するΓQの補集合となり、Γ=(ΓQ,ΓF)となる。このときにt-1枚のシェア画像が集まっている場合を極大禁止集合Γ*
Fという。
【0035】
ここで秘匿画像が2値画像である場合、画素拡大の倍率をmとしてn*mブール行列の組(X0,X1)が以下の2つの条件を満たす場合に、上記アクセス構造Γを実現する基本行列であるという。なお、0は白色の画素を表し、1は黒色の画素を表す。
【0036】
(条件1)秘匿画像の復元可能条件:
すべてのS∈Γ*
Qに対して定数α>0が存在し、HW(OR(X0[S]))+αM≦HW(OR(X1[S]))となる。ここでX.[S]はX.の内からSに対応する行のみを抜き出す操作であり、ORは列ごとのOR、HWはハミング重みである。
【0037】
(条件2)安全性条件:
すべてのS∈Γ*
Fに対して、X0[S]とX1[S]は適当な列の並び替えで等しくできる。
【0038】
シェア画像は、上記条件を満たす基本行列X0,X1に基づいて生成される。例えば画素拡大率mを最小化する基準で整数計画問題として解く方法により、基本行列X0,X1を得ることができる。この解法は、下記文献1,2に詳述されている。そして、得られた基本行列X0,X1が、それぞれ秘匿画像の画素値{0,1}に対応させて画素拡大したシェア画像の画素値を表している。
【0039】
一例として、t=3、n=4、すなわち(3,4)-VCS、画素拡大率m=6である
図11を参照すると、
図11の行列式は下記となる。
X
0[1]=[0,1,1,1,0,0]
X
0[2]=[1,0,1,1,0,0]
X
0[3]=[1,1,0,1,0,0]
X
0[4]=[1,1,1,0,0,0]
X
1[1]=[1,0,0,0,1,1]
X
1[2]=[0,1,0,0,1,1]
X
1[3]=[0,0,1,0,1,1]
X
1[4]=[0,0,0,1,1,1]
【0040】
文献1 S.J. Shyu and M.C. Chen, “Optimum pixel expansions for threshold visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.6, no.3, pp.960--969, 2011.
文献2 M. Iwamoto, “A weak security notion for visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.7, no.2, pp.372--382, 2012.
【0041】
(第1実施形態)
図1は、上述したVCSを秘匿音声伝送に適用した秘匿音声伝送システム10の概略構成図である。
【0042】
本実施形態の秘匿音声伝送システム10は、一例として、ゲームやレジャーに用いられる。例えば、参加者が決められた複数の場所に実際に行って録音した音声(シェア音声)から対象者のみにわかる秘密のメッセージ(秘匿音声)を聞くことができるとする。これにより、秘匿音声を聞けた参加者は本来決められたコースをたどったことを示すこととなる。また、秘匿音声伝送システム10は存在証明への利用も考えられる。例えば同時に配信されたシェア音声を複数の参加者が同時に録音し、シェア音声が決められた数だけ集まると秘密のメッセージ(秘匿音声)を聞くことができるとする。これにより、秘匿音声を聞けた複数の参加者は、ある決められた時間に決められた場所にいたことを示すこととなる。
【0043】
図1に示されるように、本実施形態の秘匿音声伝送システム10は、秘匿音声送信装置12及び秘匿音声受信装置14を備える。
【0044】
秘匿音声送信装置12は、秘匿したいメッセージ(以下「秘匿音声」という。)から各々異なるn個のシェア音声を生成し、公共空間に設置されたスピーカー16からシェア音声を出力することで、秘匿性を保ちつつメッセージを配信する。シェア音声はそれぞれからは秘匿音声が何であるかを認識することはできないものの、t個(2≦t≦n)以上のシェア音声を重ね合わせることで秘匿音声が復元される。すなわち、秘匿音声送信装置12は、秘匿音声をn個のシェア音声に暗号化して配信する。
【0045】
なお、t個のシェア音声は、例えば、一つのスピーカー16から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー16から別々に出力されてもよい。
【0046】
秘匿音声受信装置14は、例えばゲームの参加者が所有する携帯端末装置であり、この携帯端末装置にn個以上のシェア音声から秘匿音声を復号する機能(アプリケーション)が備えられる。なお、携帯端末装置とは、スマートフォンやタブレット端末等である。参加者は、秘匿音声受信装置14である携帯端末装置を用いてt個以上のシェア音声を集めて復号化させることで、秘匿音声を聞くことができる。しかしながら、集めたシェア音声がt個未満であれば、参加者は秘匿音声を復元できず、秘匿音声を聞くことはできない。なお、復元された秘匿音声は、秘匿音声受信装置14である携帯端末装置のスピーカーから出力されてもよいし、デジタルデータとして記憶されてもよい。
【0047】
ここで、異なる複数の音信号が混在した音声から音源毎に音信号を分離する音源分離技術が研究されている。この音源分離技術において、音の観測チャネル数が音源数よりも少ない劣決定条件では、本来観測したい一つの音源の音信号を他の音源の音信号から分離することが難しい。特に、観測チャネル数が1つあり、音源の位置に関する情報が得られない場合には音源を分離することは相当難しい。そこで、本実施形態の秘匿音声伝送システム10では、この事実を利用し、秘匿音声に対して他の音声(本実施形態ではi個の妨害音)を混合した混合音声をスピーカー16から出力し、この混合音声に対してVCSを用いた処理に基づいてシェア音声を生成する。
【0048】
図2は秘匿音声送信装置12の機能ブロック図である。
【0049】
秘匿音声送信装置12は、スピーカー16の他に、フーリエ変換部20、マスク生成部22、シェアマスク生成部24、マスキング部26、及び逆フーリエ変換部28を備える。なお、フーリエ変換部20、マスク生成部22、シェアマスク生成部24、マスキング部26、及び逆フーリエ変換部28で実行される処理は、秘匿音声送信装置12が備える記録媒体に格納されたプログラムによって実行される。また、このプログラムが実行されることで、プログラムに対応する方法が実行される。
【0050】
フーリエ変換部20は、秘匿音声にi個の妨害音を混合した混合音声を短時間フーリエ変換するFFT(Fast Fourier Transform)分析器である。秘匿音声に混合されるi個の妨害音は各々異なる音であり、妨害音は意味をなさない音や他の内容を話した秘匿音声と同じ話者の音声や異なる話者による音声を用いる。
【0051】
マスク生成部22は、混合音声をフーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも所定の閾値θ以上大きい周波数ビン(時間周波数ビン)の有無に基づいてマスクMを生成する。なお、本実施形態のマスク生成部22は、閾値θ以上の周波数ビンを1とし、閾値θ未満の周波数ビンを0とすることでマスクMを生成する。
【0052】
シェアマスク生成部24は、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクM'nを、マスクMに基づいて生成する。本実施形態のシェアマスク生成部24は、詳細を後述するように、周波数ビンの数及び時間フレームの数を増大することでマスクをm倍し、VCSの基本行列X0,X1を満たす行列式となるように、n個のシェアマスクM'nを生成する。
【0053】
マスキング部26は、混合音声を短時間フーリエ変換して得られたスペクトログラムをn個のシェアマスクM'nでマスキングすることで、各々が異なるn個のシェア音声を生成する。
【0054】
逆フーリエ変換部28は、マスキング部26で生成したn個のシェア音声を逆フーリエ変換する。
【0055】
スピーカー16は、逆フーリエ変換したn個のシェア音声を音として出力し、ユーザーへ配信する。
【0056】
図3は、秘匿音声受信装置14の機能ブロック図である。秘匿音声受信装置14は、マイク30、同期部32、及び音声復元部34を備える。なお、同期部32及び音声復元部34で実行される処理は、秘匿音声受信装置14の記録媒体に格納されたプログラムによって実行される。また、このプログラムが実行されることで、プログラムに対応する方法が実行される。
【0057】
マイク30は、秘匿音声送信装置12のスピーカー16から出力されたシェア音声の入力を受け付ける。
【0058】
同期部32は、n個のシェア音声から秘匿音声を復元するために、n個のシェア音声の始点を合わせる同期処理を行う。
【0059】
音声復元部34は、同期させたn個のシェア音声のうちt個以上を重ね合わせることで、秘匿音声を復元する。なお、秘匿音声受信装置14によって集められたシェア音声がt個未満である場合には、音声復元部34は、秘匿音声を復元することはできない。なお、音声復元部34によって復元された秘匿音声は、秘匿音声受信装置14である携帯端末装置のスピーカーから出力される。
【0060】
次に、本実施形態のシェアマスクM'nの生成の詳細を説明する。
【0061】
フーリエ変換部20は、秘匿音声とi個(1≦i≦I)の妨害音を短時間フーリエ変換し、秘匿音声のスペクトルs(τ,f)と妨害音のスペクトルσi(τ,f)を取得する。なお、τは時間フレームであって1≦τ≦T、fは周波数ビンのIDであって1≦f≦Fとされる。
【0062】
マスク生成部22は、秘匿音声の音声レベル|s|が妨害音の音声レベル|σi|よりも閾値θ以上大きい時間周波数ビンに対してマスクMを1とし、それ以外の時間周波数ビンに対してマスクMを0とする。すなわち、妨害音の音声レベルよりも相対的に高い音声レベルの秘匿音声に対応するマスクMを1とする。これを数式1に表す。
【0063】
【0064】
そして、下記の数式2で表される混合音声のスペクトルXにマスクM(τ,f)を乗算することで秘匿音声のスペクトルの主要な部分が取り出せる。すなわち、マスクM(τ,f)は、秘匿音声のスペクトルを{0,1}で表したものである。
【0065】
【0066】
そこで、シェアマスク生成部24は、マスク生成部22で生成されたマスクMを、VCSにおける秘匿画像(2値画像)とみなすことで、シェアマスクM'nを生成する。すなわち、秘匿音声送信装置12は、VCSの基本行列X0,X1を用いてシェアマスクM'nを生成する。そして、秘匿音声送信装置12は、混合音声に対してマスキング処理を行い、t個以上を集めることで秘匿音声を復元できるシェア音声を作成する。
【0067】
また、シェアマスクM'nを生成するためには、VCSにおける画素拡大と同様の処理をマスクMに対して行う必要がある。このため、本実施形態のシェアマスク生成部24は、周波数ビン数及び時間フレーム数を増大することでマスクMをm倍(mは整数)し、VCSの基本行列X0,X1を満たす行列式となるようにシェアマスクM'nを生成する。
【0068】
マスクMをm倍するためには、一例として下記の方法がある。
(1)周波数ビン数をm倍に増やす。
(2)時間フレーム数をm倍に増やす。
(3)周波数ビン数をm1倍すると共に時間フレーム数をm2倍する(m1*m2=m)。
【0069】
周波数ビン数を増やすためには、一例として下記の方法がある。
(1)混合音声からシェア音声を生成するための短時間フーリエ変換のサンプリング周波数をm倍にすることで、シェア音声を帯域拡大して同じ時間幅に入る周波数ビン数をm倍にする。
(2)窓長をm倍にして短時間フーリエ変換を行う。
【0070】
時間フレーム数を増やすには、一例として下記の方法がある。
(1)サンプリング周波数をm倍にして短時間フーリエ変換することで、同じシフト幅に入る時間フレーム数をm倍にする。
(2)フレームシフトを1/m倍にして短時間フーリエ変換する。
【0071】
このように、シェアマスク生成部24は、シェアマスクM'nを生成するためにマスクMを周波数方向及び時間方向の少なくとも一方を増大させる増大処理を行い、マスクMのスペクトログラムのm倍のサイズのシェアマスクM'nを生成する。そして、マスキング部26は、短時間フーリエ変換した混合音声に対してシェアマスクM'nを用いてマスキング処理することでn個のシェア音声を生成する。なお、マスキング処理される混合音声のスペクトルグラムもm倍のサイズとされている。
【0072】
マスキング処理により生成されるシェア音声Yは、数式3で表される。
【数3】
【0073】
そして、逆フーリエ変換部28は、シェア音声を逆短時間フーリエ変換することで、スピーカー16から出力できる音声とし、スピーカー16がシェア音声を出力する。
【0074】
スピーカー16から出力されたシェア音声を例えば、一人のユーザーが携帯端末装置等である秘匿音声受信装置14のマイク30によって複数回録音することでn個のシェア音声のうち少なくともt個のシェア音声を取得する。なお、秘匿音声を聞かれたくない、他のユーザーにシェア音声を取得されることを避けるため、所定のユーザーしか知り得ない時間を指定してスピーカー16からシェア音声を出力することで、他のユーザーが秘匿音声を聞く可能性を低減できる。
【0075】
秘匿音声受信装置14は、録音したt個以上のシェア音声の始点を合わせる同期処理を行い、
図4に示されるように、t個以上のシェア音声を時間的に同期して加算することで、秘匿音声を復元する。なお、同期処理は、例えば、複数のシェア音声各々の信号の相関を取ることで実現できる。t個のシェア音声の同期加算は下記数式4で表され、jがΓ
Qの要素からなる場合、数式4のシェアマスクM'
nの総和Σが混合音声のうち秘匿音声を残すマスクとなるため、秘匿音声が復元される。
【0076】
【0077】
なお、音声は画像とは異なり、スペクトログラムの隣接成分間に短時間フーリエ変換に伴う冗長性がある。このため、シェアマスクM'nがにじんでしまい{0,1}が保持されず、シェア音声の同期加算ではS/Nが向上しない可能性がある。そこで、1と0がより明確に分かれるようにシェア音声を同期乗算してもよい。
【0078】
以上説明したように、本実施形態の秘匿音声伝送システム10は、視覚暗号(VCS)を秘匿音声の伝送に適用し、マスクMから生成したシェアマスクM'nを秘匿音声のスペクトログラムに埋め込むことでn個のシェア音声を生成する。ユーザーは、n個のシェア音声のうちt個以上のシェア音声を集めると秘匿音声を復元できる一方、集めたシェア音声がt個未満の場合には秘匿音声を復元できない。また、本実施形態の秘匿音声伝送システム10は、空間情報を持たないモノラルでの観測信号から、複数の音源が混合した信号を分離する問題が解きがたいという事実を利用している。そして、秘匿音声伝送システム10は、暗号化のためには音声を短時間フーリエ変換するFFT分析器があればよく、t個以上のシェア音声を同期させて加算又は乗算するのみにより復号できるため、複雑な構成の復号器を必要としない。
【0079】
このように、本実施形態の秘匿音声伝送システム10は、音声を秘匿性高く配信して簡易に復元できる。
【0080】
(第2実施形態)
本実施形態の秘匿音声伝送システム10は、秘匿音声受信装置14によって復元した秘匿音声と配信された元のメッセージとの類似を判定する。これにより、ユーザーが正しい有資格集合からなるシェアマスクM'nを取得できているかを検知できる。これにより、ユーザーがある一定の時間において指定した場所に居たというようなことを検知できる。
【0081】
図5は、本実施形態の秘匿音声受信装置14の機能ブロック図である。本実施形態の秘匿音声受信装置14は、第1実施形態の秘匿音声受信装置14の構成に加えて、類似性判定部36を備える。
【0082】
類似性判定部36は、音声復元部34によって復元された音声と秘匿音声であるメッセージとの類似性を判定する。なお、このメッセージは、秘匿音声受信装置14がサーバ(不図示)等から予めデジタルデータとして取得して記憶手段に記憶しているものの、ユーザーには認識できないようにされている。なお、類似性判定部36は、例えば、復元された音声とメッセージとのS/Nや音声対ひずみ比といった音源分離の評価に用いられる指標や、相関係数などを用いて類似性を判定する。
【0083】
(第3実施形態)
混合音声にシェアマスクM'nをマスキングしてスピーカー16から出力する第1実施形態では、短時間フーリエ変換の冗長性の影響によって秘匿音声の復元精度が低下する可能性がある。例えば、人間の音声や楽器の音等は、時間周波数ビンでアクティブなビン数が少なく、送信したい音信号のスパース性が高い。このようなスパース性が高い音信号に基づいて生成されたマスクMは、その推定精度が低下するおそれがある。
【0084】
そこで、本実施形態では、シェアマスクM'nと混合音声とを別々に伝送する。このため、本実施形態の秘匿音声送信装置12は、例えばホワイトノイズ等、所定の周波数範囲で強度が所定値以上であるノイズをキャリアとし、このノイズにシェアマスクM'nをマスキングした音声をシェア音声としてスピーカー16から出力する。例えばノイズとしてホワイトノイズを用いた場合は時間平均すると全ての周波数成分がアクティブになるので、シェア音声のスペクトログラムがシェアマスクM'nと確率的に同じとなる。また、例えば秘匿音声の周波数が500~1kHzに限られていればその帯域に制限したホワイトノイズをノイズとして利用でき、秘匿音声が高域成分をあまり含まない場合にはピンクノイズを使う等が考えられる。
【0085】
図6は、本実施形態の秘匿音声送信装置12の機能ブロック図であり、本実施形態の秘匿音声送信装置12は、フーリエ変換部20、マスク生成部22、シェアマスク生成部24、マスキング部26、逆フーリエ変換部28、スピーカー16と共に、ノイズ発生部40、及びフーリエ変換部42を備える。
【0086】
マスク生成部22は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも閾値θ以上大きい周波数ビンの有無に基づいてマスクM'を生成する。
【0087】
シェアマスク生成部24は、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個(2≦t≦n)のシェアマスクM'nを、マスクMに基づいて生成する。
【0088】
ノイズ発生部40は、ホワイトノイズ等のノイズを生成して出力する。
【0089】
フーリエ変換部42は、ノイズ発生部40から出力されたノイズを短時間フーリエ変換して出力する。
【0090】
マスキング部26は、ノイズを短時間フーリエ変換して得られたスペクトログラムをn個のシェアマスクM'nでマスキングすることで、各々が異なるn個のシェア音声を生成する。
【0091】
逆フーリエ変換部28は、マスキング部26で生成されたn個のシェア音声を逆フーリエ変換する。そして、逆フーリエ変換されたn個のシェア音声は、スピーカー16から出力される。
【0092】
このように、本実施形態のスピーカー16から出力されるn個のシェア音声は、ノイズがホワイトノイズの場合、短時間フーリエ変換して得られたスペクトログラムをn個のシェアマスクM'nでマスキングした後に、逆フーリエ変換することで生成される。ノイズがピンクノイズ等の場合には、ノイズの特性に合わせたフィルター処理を行うことでホワイトノイズの場合と同様に処理できる。なお、スピーカー16は、混合音声をシェア音声とは別に出力する。
【0093】
このように、本実施形態の秘匿音声送信装置12のスピーカー16は、ノイズをキャリアとすることでシェアマスクM'nを音(n個のシェア音声)として出力するシェアマスク出力部として機能し、また、シェア音声とは別に混合音声を出力する音声出力部として機能する。シェア音声と混合音声とは、例えば、一つのスピーカー16から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー16から別々に出力される。
【0094】
図7は、本実施形態の秘匿音声受信装置14の機能ブロック図である。秘匿音声受信装置14は、スピーカー16から出力されたn個のシェア音声のうちt個以上のシェア音声からマスクMを復元し、復元したマスクMとスピーカー16から出力された混合音声とを重ね合わせることで、秘匿音声を復元する。
【0095】
図7に示されるように本実施形態の秘匿音声受信装置14は、マイク30、同期部32、マスク復元部50及びマスキング部52を備える。
【0096】
マスク復元部50は、マイク30から入力されて同期部32によって同期されたt個以上のシェア音声を重ね合わせることで、マスクMを復元する。なお、秘匿音声受信装置14によって集められたシェア音声がt個未満である場合には、マスク復元部50はマスクMを復元することはできない。
【0097】
マスキング部52は、マイク30に入力された混合音声に対して、マスク復元部50によって復元されたマスクMでマスキング処理を行うことで、秘匿音声を抽出する。
【0098】
このように、本実施形態の秘匿音声伝送システム10は、シェアマスクM'nをシェア音声として出力し、t個以上のシェア音声と混合音声とをマスキングすることで、秘匿音声を抽出する。これにより、本実施形態の秘匿音声伝送システム10は、配布されたシェア音声と混合音声とから精度良く秘匿音声を復元できる。
【0099】
(第4実施形態)
本実施形態では、拡張視覚暗号(Extended visual cryptography scheme; EVCS)を秘匿音声伝送に適用する。EVCSは、シェア画像単体ではカバー画像を表示するものの、t枚のシェア画像を集めると秘匿画像が表示されものであり、下記文献3で提案されている。このEVCSを用いてシェア画像を生成すると、シェア画像はカバー画像を表示しているので、シェア画像を見た人にシェア画像が秘匿画像を暗号化していることに気付かれ難いという利点がある。
文献3 G. Ateniese, C. Blundo, A.D. Santis, and D.R. Stinson, “Extended capabilities for visual cryptography,” Theoretical Computer Science, vol.250, no.1, pp.143--161, 2001.
【0100】
(EVCSの基本行列)
次にEVCSの基本行列X0,X1について説明する。EVCSでは、秘匿画像の画素値に加えて、カバー画像C1,…,Cnの画素値(2値)で場合分けすると、2n個のn*mブール行列の組(X0
C1,…,Cn, X1
C1,…,Cn)が以下の3条件を満たす場合にアクセス構造Γを実現する基本行列であるという。
【0101】
(条件1)秘匿画像の復元可能条件:
すべてのS∈Γ
*
Qに対して、0≦l
s≦h
s≦mを満たす整数l
s,h
sが存在し、全てのC
1,…,C
nに対して数式5が成り立つ。
【数5】
【0102】
(条件2)安全性条件:
すべてのS∈Γ*
FとC1,…,Cnに対し、X0
C1,…,Cn[S]とX1
C1,…,Cn[S]とは適当な列の並び替えで等しくできる。
【0103】
(条件3)カバー画像の視認条件:
すべてのj=1,…,nに対して、0≦l
j<h
j≦mを満たす整数l
j, h
jが存在し、jを除くすべてのC
1,…,C
nに対して数式6が成り立つ。
【数6】
【0104】
上記の3条件を満たす基本行列X0,X1の最適化法が、下記文献4,5で提案されている
文献4 S.J. Shyu, “Threshold visual cryptographic scheme with meaningful shares,” IEEE Signal Processing Letters, vol.21, no.12, pp.1521--1525, 2014.
文献5 K. Sekine and H. Koga, “Optimal basis matrices of a visual cryptography scheme with meaningful shares and analysis of its security,” 2020 International Symposium on Information Theory and Its Applications (ISITA), pp.422--426, 2020.
【0105】
(第4実施形態の構成)
図8は、本実施形態の秘匿音声送信装置12の機能ブロック図であり、フーリエ変換部20、マスク生成部22、シェアマスク生成部24、マスキング部52、逆フーリエ変換部28、及びスピーカー16を備える。
【0106】
フーリエ変換部20は、秘匿音声にj個(1≦j≦n)のカバー音声を混合した混合音声を短時間フーリエ変換する。秘匿音声に混合されるj個のカバー音声は各々異なる音声である。
【0107】
マスク生成部22は、混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分がカバー音声よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてマスクMを生成し、カバー音声の周波数成分が秘匿音声及び他のカバー音声よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてj個のカバーマスクMC
jを生成する。
【0108】
シェアマスク生成部24は、マスク生成部22によって生成されたマスクM及びj個のカバーマスクMC
jに基づいてn個のシェアマスクM'nを生成する。
【0109】
マスキング部26は、短時間フーリエ変換した混合音声に対してn個のシェアマスクM'nでマスキングすることで、各々が異なるn個のシェア音声を生成する。逆フーリエ変換部28は、マスキング部26で生成したn個のシェア音声を逆フーリエ変換し、スピーカー16から出力させる。
【0110】
なお、本実施形態の秘匿音声受信装置14は、第1実施形態の秘匿音声受信装置14と同様であり、秘匿音声送信装置12から出力されたn個のシェア音声のうちt個以上を重ね合わせることで、秘匿音声を復元する。
【0111】
次に、本実施形態のシェアマスクM'nの生成の詳細を説明する。
【0112】
フーリエ変換部20は、秘匿音声とj個のカバー音声との混合音声を短時間フーリエ変換し、秘匿音声のスペクトルs(τ,f)とカバー音声のスペクトルκj(τ,f)を取得する。
【0113】
そして、マスク生成部22は、秘匿音声の音声レベル|s|がカバー音声の音声レベル|κj|よりも閾値θ以上大きい時間周波数ビンに対してマスクMを1とし、それ以外の時間周波数ビンに対してマスクMを0とする。これを数式7に表す。
【0114】
【0115】
さらに、カバー音声のレベル|κj|がその他のカバー音声の音声レベル|κj'|及び秘匿音声の音声レベル|s|よりも閾値θ以上大きい時間周波数ビンに対してカバーマスクMC
jを1とし、それ以外の時間周波数ビンに対してカバーマスクMC
jを0とする。これを数式8に表す。
【0116】
【0117】
ここで、cj= MC
j(τ,f)とすることにより、カバーマスクMC
jはEVCSにおけるカバー画像(2値画像)とみなすことができる。すなわち、秘匿音声をマスクMとし、カバー音声をカバーマスクMC
jとすることで、シェアマスク生成部24は、EVCSと同様の処理によってシェアマスクを生成することができる。
【0118】
シェアマスク生成部24は、周波数ビン数及び時間フレーム数を増大することでマスクM及びカバーマスクMC
jをm倍し、EVCSの基本行列を満たす行列式となるようにn個のシェアマスクを生成する。
【0119】
そして、混合音声に対してマスキング処理がおこなわれることで、シェア音声jとしてカバー音声jが聞こえることとなる。すなわち、シェア音声単体だけを人が聞くと秘匿音声とは異なる音声が聞こえ、シェア音声に秘匿音声が暗号化されていることが認識され難いが、t個以上のシェア音声を同期加算することで秘匿音声を得ることができる。これにより、本実施形態の秘匿音声伝送システム10は、秘匿性をより高めてシェア音声を配信できる。
【0120】
(第5実施形態)
本実施形態の秘匿音声伝送システム10は、第3実施形態と同様に、シェアマスクM'nと混合音声とを別々に伝送するシステムである。
【0121】
本実施形態の秘匿音声送信装置12は、n個のシェアマスクM'nの各々をデジタルデータとして秘匿音声受信装置14へ出力する。秘匿音声受信装置14は、秘匿音声送信装置12から出力されたt個以上のシェアマスクM'nからマスクMを復元する。これにより、秘匿音声受信装置14は、取得したt個のシェアマスクM'nからマスクMを直接的に計算できる。そして、秘匿音声受信装置14は、復元したマスクMに秘匿音声送信装置12から出力された混合音声をマスキングすることで、秘匿音声を復元する。
【0122】
図9は、本実施形態の秘匿音声送信装置12の機能ブロック図であり、本実施形態の秘匿音声送信装置12は、フーリエ変換部20、マスク生成部22、シェアマスク生成部24、及びデータ送信部60を備える。なお、フーリエ変換部20、マスク生成部22、シェアマスク生成部24の機能は、第3実施形態の秘匿音声送信装置12と同様である。
【0123】
データ送信部60は、シェアマスク生成部24によって生成されたシェアマスクM'nの各々をデジタルデータとして出力する。シェアマスクM'nの出力先は、秘匿音声送信装置12と通信が可能な秘匿音声受信装置14である。なお、データ送信部60は、例えば、近距離通信により秘匿音声受信装置14と通信を行い、異なる時間でシェアマスクM'nを出力してもよいし、異なる場所でシェアマスクM'nを別々に出力してもよい。
【0124】
スピーカー16は混合音声を出力する。混合音声は、例えば、一つのスピーカー16から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー16から別々に出力されてもよい。混合音声が出力される時間や場所は、シェアマスクM'nが出力される時間や場所と同じであってもよいし、異なってもよい。
【0125】
図11は、本実施形態の秘匿音声受信装置14の機能ブロック図であり、本実施形態の秘匿音声受信装置14は、マイク30、データ受信部70、同期部72、マスク復元部74、逆フーリエ変換部76、及びマスキング部78を備える。
【0126】
マイク30は、秘匿音声送信装置12のスピーカー16から出力された混合音声の入力を受け付ける。
【0127】
データ受信部70は、秘匿音声送信装置12のデータ送信部60から送信されたシェアマスクM'nを受信する。
【0128】
同期部72は、データ受信部70によって受信されたn個のシェアマスクM'nからマスクMを復元するために、n個のシェアマスクM'nの始点を合わせる同期処理を行う。
【0129】
マスク復元部74は、同期部32によって同期されたt個以上のシェアマスクM'nを重ね合わせることで、マスクMを復元する。なお、秘匿音声受信装置14によって集められたシェアマスクM'nがt個未満である場合には、マスク復元部50はマスクMを復元することはできない。
【0130】
逆フーリエ変換部76は、マスク復元部50によって復元したマスクMを逆フーリエ変換する。
【0131】
マスキング部78は、マイク30に入力された混合音声に対して、マスク復元部50によって復元されたマスクMでマスキング処理を行うことで、秘匿音声を取得する。
【0132】
ここで、マスク復元部74は、画素拡大率m1,m2がわかっていればm1,m2個のマスク成分{0,1}を足し合わせて、それが所定の閾値を超えていれば1、所定の閾値を超えていなければ0とすることで、よりマスクMの推定精度を向上させてもよい。
【0133】
すなわち、元のマスクMでの(τ,f)成分は、シェアマスクM'nにおいて(m1(τ-1)+k1,m2(f-1)+k2)に画素拡大されているので、t個のシェアマスクM'nを加算や乗算することによって画素拡大されたマスクM推定し、下記数式9によってM'estを生成する。なお、k1は1≦k1≦m1であり、k2は1≦k2≦m2である。
【0134】
【0135】
なお、χ(x)はxが閾値以上であれば1を返し、閾値未満であれば0を返す指示関数である。このとき、M'estの大きさは元のマスクMに等しい。また閾値はその領域内の成分が全て1の場合すなわちm1*m2=1の場合にのみ1としたり、全体のヒストグラムを作成してある一定成分が1となる値とする、又は中央値とする等の方法がある。
【0136】
以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、該変更または改良を加えた形態も本発明の技術的範囲に含まれる。
【0137】
例えば、第2実施形態の類似性判定部36は第1実施形態の秘匿音声受信装置14に適用される形態について説明したが、本発明はこれに限らず、類似性判定部36は第3から第5実施形態の秘匿音声受信装置14に適用されてもよい。
【0138】
また、第1実施形態では秘匿音声にi個の妨害音を混合した混合音声からマスクM及びシェアマスクM'nを生成する形態について説明したが、本発明はこれに限らず、マスクM及びシェアマスクM'nの生成に混合音声を用いず秘匿音声だけを用いてもよい。この形態の場合、マスクMを生成する場合にはi=0とすることにより秘匿音声だけでマスクMを生成することになる。
【0139】
また、上記実施形態ではスピーカー16から混合音声を出力する形態について説明したが、本発明はこれに限らず、秘匿音声送信装置12は混合音声をデジタルデータとして出力し、秘匿音声受信装置14はデジタルデータとして受信した混合音声から秘匿音声を抽出してもよい。
【0140】
10 秘匿音声伝送システム
12 秘匿音声送信装置
14 秘匿音声受信装置
16 スピーカー(シェア音声出力部)
22 マスク生成部
24 シェアマスク生成部
26 マスキング部(シェア音声生成部)