特開2023-67365 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特開2023-67365秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023067365

(43)【公開日】2023-05-16

(54)【発明の名称】秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラム

(51)【国際特許分類】

G10L 19/018 20130101AFI20230509BHJP

【ＦＩ】

G10L19/018

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2021178523

(22)【出願日】2021-11-01

(71)【出願人】

【識別番号】502324066

【氏名又は名称】株式会社デンソーアイティーラボラトリ

(74)【代理人】

【識別番号】100113549

【弁理士】

【氏名又は名称】鈴木守

(74)【代理人】

【識別番号】100115808

【弁理士】

【氏名又は名称】加藤真司

(74)【代理人】

【識別番号】100169199

【弁理士】

【氏名又は名称】石本貴幸

(72)【発明者】

【氏名】太刀岡勇気

(57)【要約】（修正有）

【課題】音声を秘匿性高く配信して簡易に復元できる秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法及び秘匿音声伝送プログラムを提供する。
【解決手段】秘匿音声送信装置１２は、秘匿音声にi個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてマスクMを生成し、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個（２≦ｔ≦ｎ）のシェアマスクＭ’_ｎを、マスクＭに基づいて生成する。そして、秘匿音声送信装置１２は、混合音声を短時間フーリエ変換して得られたスペクトログラムをｎ個のシェアマスクＭ'_ｎでマスキングすることで、各々が異なるn個のシェア音声を生成し、逆フーリエ変換したｎ個のシェア音声を出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成するシェア音声生成部と、
逆フーリエ変換した前記n個のシェア音声を出力するシェア音声出力部と、
を備える秘匿音声送信装置。

【請求項2】

前記他の音声は、i個の妨害音であり、
前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成する、請求項１に記載の秘匿音声送信装置。

【請求項3】

前記他の音声は、n個のカバー音声であり、
前記マスク生成部は、前記秘匿音声にn個のカバー音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成し、前記カバー音声の周波数成分が前記秘匿音声及び他の前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいてｊ個(1≦j≦n)のカバーマスクを生成し、
前記シェアマスク生成部は、前記マスク及び前記ｊ個のカバーマスクに基づいて前記n個のシェアマスクを生成する、
請求項１に記載の秘匿音声送信装置。

【請求項4】

請求項１から請求項３の何れか１項に記載の秘匿音声送信装置と、
前記秘匿音声送信装置から出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する秘匿音声受信装置と、
を備える秘匿音声伝送システム。

【請求項5】

秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、
前記n個のシェアマスクを出力するシェアマスク出力部と、
前記秘匿音声にi個の妨害音を混合した混合音声を出力する音声出力部と、
を備える秘匿音声送信装置。

【請求項6】

前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成する、請求項５に記載の秘匿音声送信装置。

【請求項7】

前記シェアマスク出力部は、所定の周波数範囲で強度が所定値以上であるノイズを短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングした後に、逆フーリエ変換することで生成された前記n個のシェア音声を音として出力する、請求項５又は請求項６に記載の秘匿音声送信装置。

【請求項8】

前記シェアマスク出力部は、前記n個のシェアマスクの各々をデジタルデータとして出力する、請求項５又は請求項６に記載の秘匿音声送信装置。

【請求項9】

請求項５から請求項８の何れか１項に記載の秘匿音声送信装置と、
前記シェアマスク出力部から出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記音声出力部から出力された前記混合音声にマスキングすることで、前記秘匿音声を復元する秘匿音声受信装置と、
を備える秘匿音声伝送システム。

【請求項10】

前記マスク生成部は、前記閾値以上の周波数ビンを１とし、前記閾値未満の周波数ビンを０とすることで前記マスクを生成する、
請求項１から請求項３、請求項５から請求項８の何れか１項に記載の秘匿音声送信装置。

【請求項11】

前記シェアマスク生成部は、周波数ビンの数及び時間フレームの数を増大することで前記マスクをm倍し、VCS（Visual Cryptography Scheme）の基本行列を満たす行列式となるように前記n個のシェアマスクを生成する、
請求項１から請求項３、請求項５から請求項８、請求項１０の何れか１項に記載の秘匿音声送信装置。

【請求項12】

前記秘匿音声受信装置は、復元された音声と前記秘匿音声との類似性を判定する類似性判定部を備える、請求項４又は請求項９に記載の秘匿音声伝送システム。

【請求項13】

秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第３工程と、
逆フーリエ変換した前記n個のシェア音声を出力する第４工程と、
出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第５工程と、
を有する秘匿音声伝送方法。

【請求項14】

秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、
前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第３工程と、
出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第４工程と、
を有する秘匿音声伝送方法。

【請求項15】

コンピュータに、
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、
前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第３工程と、
逆フーリエ変換した前記n個のシェア音声を出力する第４工程と、
出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第５工程と、
を実行させるための秘匿音声伝送プログラム。

【請求項16】

コンピュータに、
秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、
t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、
前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第３工程と、
出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第４工程と、
を実行させるための秘匿音声伝送プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラムに関する。

【背景技術】

【0002】

不特定多数に向けて配信される音声において、特定の対象者だけが受け取れるようにメッセージを秘匿する用途は多く、そのための方法はいくつか提案されている。

【0003】

例えば、特許文献１には、暗号化した音声を音響に埋め込む方法が開示されている。特許文献１の方法は、施設の放音装置が放音する音響を収音した収音信号から識別情報を抽出し、施設に関する複数の関連情報を受信するものであり、展示施設に設置されて施設の音声案内に利用される。また特許文献１には、識別情報を非可聴帯域に変調することで音響に埋め込む方法も開示されている。

【0004】

一般的に、暗号の安全性は復号にかかる計算複雑性により担保されているものの、特許文献１の方法では、識別情報を用いて関連情報を取得するための手段が必要であり構成が複雑となり、識別情報を音響に埋め込む暗号化手法が漏えいした場合に安全でなくなる。また、識別情報を秘匿化するために識別情報を非可聴帯域に変調したとしても、変調されている周波数が分かれば簡易に復号されてしまうため秘匿音声通信には適さない。

【0005】

これに対して、画像処理の分野では、暗号化手法が漏えいした場合にも安全な技術として、非特許文献１に示される視覚暗号(Visual cryptography scheme、以下「VCS」という。）が知られている。VCSは１枚の秘匿画像からn枚のシェア画像を生成し、そのうちの少なくとも任意のt枚のシェア画像を集めることで元の秘匿画像を復元できる。一方で、VCSは、t-1枚のシェア画像からは秘匿画像を復元できないため、t枚以上のシェア画像を集めないと秘密が漏れないというものである。このような方式は(t,n)-VCSともいわれる。

【0006】

VCSでは、秘匿画像を復元するためにはｔ枚以上のシェア画像を重ね合わせるだけでよく、複雑な復号処理が必要ないことがその特長である。図１１に(t,n)=(3,4)-VCSの例を示す。図１１の例では、シェア画像は３枚以上を重ね合わせることで秘匿画像の画素の白又は黒を復元できるように生成される。なお、図１１（Ａ）は秘匿画像のある画素が白（０）であり、図１１（Ｂ）は秘匿画像のある画素が黒（１）の場合を示す。図１１の例では、シェア画像は４つであり、秘匿画像の１画素を横方向に３倍、縦方向に２倍の６画素に拡大している。すなわち、図１１のシェア画像は、秘匿画像の１画素に相当する。秘匿画像を復元するためには、秘匿画像の全画素に対応したシェア画像が生成される。

【0007】

図１１の例では、任意の２枚のシェア画像の組み合わせによって黒になる画素数は、秘匿画像の元画素が白（０）又は黒（１）にかかわらず、共に６画素のうち４画素である。このため、図１１（Ａ）に示されるシェア画像のうち任意の２枚を組み合わせた場合と、図１１（Ｂ）に示されるシェア画像のうち任意の２枚と組み合わせた場合とでは区別できない。これに対して任意の３枚のシェアの組み合わせになると、元画素が白（０）である図１１（Ａ）では６画素のうち４画素が黒である一方、元画素が黒（１）である図１１（Ｂ）では６画素のうち５画素が黒になる。これにより、図１１（Ａ）と図１１（Ｂ）とで復元される画像を構成する画素の明るさに差がつき、元の秘匿画像を構成する画素が白又は黒であったか区別できる。このようにVCSでは、秘匿画像の各画素を拡大したうえでｎ個のシェア画像を生成することで、ｔ個以上のシェア画像を集めないと秘匿画像を認識できないようにできる。

【0008】

非特許文献２、３には、任意のt，nに対して秘匿画像を復元できる条件を満たすシェア画像を生成する方法が提案されている。また、特許文献２では、拡張現実を利用した視覚暗号の方法が開示されており、コンテンツの盗み見を防止するために視覚暗号を利用し、これにより権利のない者に配信コンテンツを盗み見されることを防ぐことができる。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０２０－０２１１０１号公報

【特許文献2】特表２０１７－５３８１５２号公報

【非特許文献1】M. Naor and A. Shamir, “Visual cryptography,” Advances in Cryptology - EUROCRYPT '94, Workshop on the Theory and Application of Cryptographic Techniques, 1994, Proceedings, vol.950, pp.1--12, Lecture Notes in Computer Science, Springer, 1994.

【非特許文献2】S.J. Shyu and M.C. Chen, “Optimum pixel expansions for threshold visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.6, no.3, pp.960--969, 2011.

【非特許文献3】M. Iwamoto, “A weak security notion for visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.7, no.2, pp.372--382, 2012.

【発明の概要】

【発明が解決しようとする課題】

【0010】

上記のようにVCSは画像を秘匿化して配信し、この画像を復元する場合に有効であるが、音声に対して応用された例は未だにない。

【0011】

そこで本発明は、上記背景に鑑み、音声を秘匿性高く配信して簡易に復元できる、秘匿音声送信装置、秘匿音声受信装置、秘匿音声伝送システム、秘匿音声伝送方法、及び秘匿音声伝送プログラムを提供することを目的とする。

【課題を解決するための手段】

【0012】

本発明の秘匿音声送信装置は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成するシェア音声生成部と、逆フーリエ変換した前記n個のシェア音声を出力するシェア音声出力部と、を備える。

【0013】

本発明の秘匿音声送信装置によれば、前記他の音声は、i個の妨害音であり、前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成してもよい。

【0014】

本発明の秘匿音声送信装置によれば、前記他の音声は、n個のカバー音声であり、前記マスク生成部は、前記秘匿音声にn個のカバー音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成し、前記カバー音声の周波数成分が前記秘匿音声及び他の前記カバー音声よりも所定の閾値以上大きい周波数ビンの有無に基づいてｊ個(1≦j≦n)のカバーマスクを生成し、前記シェアマスク生成部は、前記マスク及び前記ｊ個のカバーマスクに基づいて前記n個のシェアマスクを生成してもよい。

【0015】

本発明の秘匿音声伝送システムは、上記記載の秘匿音声送信装置と、前記秘匿音声送信装置から出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する秘匿音声受信装置と、を備える。

【0016】

本発明の秘匿音声送信装置は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成するマスク生成部と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成するシェアマスク生成部と、前記n個のシェアマスクを出力するシェアマスク出力部と、前記秘匿音声にi個の妨害音を混合した混合音声を出力する音声出力部と、を備える。

【0017】

本発明の秘匿音声送信装置によれば、前記マスク生成部は、前記秘匿音声に前記i個の妨害音を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、前記秘匿音声の周波数成分が前記妨害音よりも所定の閾値以上大きい周波数ビンの有無に基づいて前記マスクを生成してもよい。

【0018】

本発明の秘匿音声送信装置によれば、前記シェアマスク出力部は、所定の周波数範囲で強度が所定値以上であるノイズを短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングした後に、逆フーリエ変換することで生成された前記n個のシェア音声を音として出力してもよい。

【0019】

本発明の秘匿音声送信装置によれば、前記シェアマスク出力部は、前記n個のシェアマスクの各々をデジタルデータとして出力してもよい。

【0020】

本発明の秘匿音声伝送システムは、上記記載の秘匿音声送信装置と、前記シェアマスク出力部から出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記音声出力部から出力された前記混合音声にマスキングすることで、前記秘匿音声を復元する秘匿音声受信装置と、を備える。

【0021】

本発明の秘匿音声送信装置によれば、前記マスク生成部は、前記閾値以上の周波数ビンを１とし、前記閾値未満の周波数ビンを０とすることで前記マスクを生成してもよい。

【0022】

本発明の秘匿音声送信装置によれば、前記シェアマスク生成部は、周波数ビンの数及び時間フレームの数を増大することで前記マスクをm倍し、VCS（Visual Cryptography Scheme）の基本行列を満たす行列式となるように前記n個のシェアマスクを生成してもよい。

【0023】

本発明の秘匿音声伝送システムによれば、前記秘匿音声受信装置は、復元された音声と前記秘匿音声との類似性を判定する類似性判定部を備えてもよい。

【0024】

本発明の秘匿音声伝送方法は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第３工程と、逆フーリエ変換した前記n個のシェア音声を出力する第４工程と、出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第５工程と、を有する。

【0025】

本発明の秘匿音声伝送方法は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第３工程と、出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第４工程と、を有する。

【0026】

本発明の秘匿音声伝送プログラムは、コンピュータに、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、前記秘匿音声に他の音声を混合した混合音声を短時間フーリエ変換して得られたスペクトログラムを前記n個のシェアマスクでマスキングすることで、各々が異なるn個のシェア音声を生成する第３工程と、逆フーリエ変換した前記n個のシェア音声を出力する第４工程と、出力された前記n個のシェア音声のうち前記t個以上を重ね合わせることで、前記秘匿音声を復元する第５工程と、を実行させる。

【0027】

本発明の秘匿音声伝送プログラムは、コンピュータに、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、周波数成分が所定の閾値以上大きい周波数ビンの有無に基づいてマスクを生成する第１工程と、t個以上を重ね合わせることで前記秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクを、前記マスクに基づいて生成する第２工程と、前記n個のシェアマスクを出力し、前記秘匿音声にi個の妨害音を混合した混合音声を出力する第３工程と、出力された前記n個の前記シェアマスクのうち前記t個以上の前記シェアマスクから前記マスクを復元し、復元した前記マスクを前記混合音声にマスキングすることで、前記秘匿音声を復元する第４工程と、を実行させる。

【発明の効果】

【0028】

本発明によれば、音声を秘匿性高く配信して簡易に復元できる。

【図面の簡単な説明】

【0029】

【図1】第１実施形態の秘匿音声伝送システムの概略構成図である。

【図2】第１実施形態の秘匿音声送信装置の機能ブロック図である。

【図3】第１実施形態の秘匿音声受信装置の機能ブロック図である。

【図4】第１実施形態の復号化の模式図である。

【図5】第２実施形態の秘匿音声受信装置の機能ブロック図である。

【図6】第３実施形態の秘匿音声送信装置の機能ブロック図である。

【図7】第３実施形態の秘匿音声受信装置の機能ブロック図である。

【図8】第４実施形態の秘匿音声送信装置の機能ブロック図である。

【図9】第５実施形態の秘匿音声送信装置の機能ブロック図である。

【図10】第５実施形態の秘匿音声受信装置の機能ブロック図である。

【図11】VCSのシェア画像の模式図であり、（Ａ）は秘匿画像の画素が白の場合であり、（Ｂ）は秘匿画像の画素が黒の場合である。

【発明を実施するための形態】

【0030】

以下、図面を参照して本発明の実施形態を説明する。なお、以下に説明する実施形態は、本発明を実施する場合の一例を示すものであって、本発明を以下に説明する具体的構成に限定するものではない。本発明の実施にあたっては、実施形態に応じた具体的構成が適宜採用されてよい。

【0031】

（VCSの基本行列）
以下に説明する実施形態は、VCS（Visual cryptography scheme）を秘匿音声の配信、復号に適用したものである。そこで、VCSの概要について説明する。

【0032】

VCSは、１枚の秘匿画像からn枚のシェア画像を生成し、そのうちの少なくとも任意のt枚（2≦t≦n)のシェア画像を集めることで元の秘匿画像を復元する技術である。なお、tとnには、2≦t≦nの関係がある。VCSの適用例としては、ゲームの参加者（ユーザーともいう。）が異なる場所又は異なる時間でシェア画像のデータを取得し、t枚以上のシェア画像を取得した参加者だけが秘匿画像を取得でき、ゲームの次のステージに進むことができるというものがある。

【0033】

任意の(t，n)に対してシェア画像を生成するには、まずシェア画像に対する参加者のアクセス構造Γを定める必要がある。n枚のシェア画像の集合P＝{1,2,…,n}がある場合、どのシェア画像を保持しているかで場合分けしたべき集合は2^Pとなる。そして、シェア画像を重ね合わせることで秘匿画像を復元できるシェア画像の集合を有資格集合Γ_Qとする。

【0034】

t枚のシェア画像を集めれば秘匿画像を復元できるので、Γ_Qはt枚のシェア画像が集まっている場合が極小となり、この場合を極小有資格集合Γ^* _Qとする。逆にシェア画像から秘匿画像に関する一切の情報を得られない集合を禁止集合Γ_Fとする。このため、Γ_Fは、全体のべき集合2^Pに対するΓ_Qの補集合となり、Γ=(Γ_Q，Γ_F)となる。このときにt-1枚のシェア画像が集まっている場合を極大禁止集合Γ^* _Fという。

【0035】

ここで秘匿画像が２値画像である場合、画素拡大の倍率をmとしてn*mブール行列の組(X₀，X₁)が以下の２つの条件を満たす場合に、上記アクセス構造Γを実現する基本行列であるという。なお、０は白色の画素を表し、１は黒色の画素を表す。

【0036】

（条件１）秘匿画像の復元可能条件:
すべてのS∈Γ^* _Qに対して定数α＞０が存在し、HW（OR(X₀[S]))+αM≦HW（OR(X₁[S]))となる。ここでX.[S]はX.の内からSに対応する行のみを抜き出す操作であり、ORは列ごとのOR、HWはハミング重みである。

【0037】

（条件２）安全性条件:
すべてのS∈Γ^* _Fに対して、X₀[S]とX₁[S]は適当な列の並び替えで等しくできる。

【0038】

シェア画像は、上記条件を満たす基本行列X_0,X₁に基づいて生成される。例えば画素拡大率mを最小化する基準で整数計画問題として解く方法により、基本行列X_0,X₁を得ることができる。この解法は、下記文献１，２に詳述されている。そして、得られた基本行列X_0,X₁が、それぞれ秘匿画像の画素値{0,1}に対応させて画素拡大したシェア画像の画素値を表している。

【0039】

一例として、t＝3、n＝4、すなわち(3,4)-VCS、画素拡大率m＝6である図１１を参照すると、図１１の行列式は下記となる。
X₀[1]＝[0,1,1,1,0,0]
X₀[2]＝[1,0,1,1,0,0]
X₀[3]＝[1,1,0,1,0,0]
X₀[4]＝[1,1,1,0,0,0]
X₁[1]＝[1,0,0,0,1,1]
X₁[2]＝[0,1,0,0,1,1]
X₁[3]＝[0,0,1,0,1,1]
X₁[4]＝[0,0,0,1,1,1]

【0040】

文献１ S.J. Shyu and M.C. Chen, “Optimum pixel expansions for threshold visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.6, no.3, pp.960--969, 2011.
文献２ M. Iwamoto, “A weak security notion for visual secret sharing schemes,” IEEE Transactions on Information Forensics and Security, vol.7, no.2, pp.372--382, 2012.

【0041】

（第１実施形態）
図１は、上述したVCSを秘匿音声伝送に適用した秘匿音声伝送システム１０の概略構成図である。

【0042】

本実施形態の秘匿音声伝送システム１０は、一例として、ゲームやレジャーに用いられる。例えば、参加者が決められた複数の場所に実際に行って録音した音声（シェア音声）から対象者のみにわかる秘密のメッセージ（秘匿音声）を聞くことができるとする。これにより、秘匿音声を聞けた参加者は本来決められたコースをたどったことを示すこととなる。また、秘匿音声伝送システム１０は存在証明への利用も考えられる。例えば同時に配信されたシェア音声を複数の参加者が同時に録音し、シェア音声が決められた数だけ集まると秘密のメッセージ（秘匿音声）を聞くことができるとする。これにより、秘匿音声を聞けた複数の参加者は、ある決められた時間に決められた場所にいたことを示すこととなる。

【0043】

図１に示されるように、本実施形態の秘匿音声伝送システム１０は、秘匿音声送信装置１２及び秘匿音声受信装置１４を備える。

【0044】

秘匿音声送信装置１２は、秘匿したいメッセージ（以下「秘匿音声」という。）から各々異なるn個のシェア音声を生成し、公共空間に設置されたスピーカー１６からシェア音声を出力することで、秘匿性を保ちつつメッセージを配信する。シェア音声はそれぞれからは秘匿音声が何であるかを認識することはできないものの、t個（2≦t≦n）以上のシェア音声を重ね合わせることで秘匿音声が復元される。すなわち、秘匿音声送信装置１２は、秘匿音声をｎ個のシェア音声に暗号化して配信する。

【0045】

なお、t個のシェア音声は、例えば、一つのスピーカー１６から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー１６から別々に出力されてもよい。

【0046】

秘匿音声受信装置１４は、例えばゲームの参加者が所有する携帯端末装置であり、この携帯端末装置にn個以上のシェア音声から秘匿音声を復号する機能（アプリケーション）が備えられる。なお、携帯端末装置とは、スマートフォンやタブレット端末等である。参加者は、秘匿音声受信装置１４である携帯端末装置を用いてt個以上のシェア音声を集めて復号化させることで、秘匿音声を聞くことができる。しかしながら、集めたシェア音声がt個未満であれば、参加者は秘匿音声を復元できず、秘匿音声を聞くことはできない。なお、復元された秘匿音声は、秘匿音声受信装置１４である携帯端末装置のスピーカーから出力されてもよいし、デジタルデータとして記憶されてもよい。

【0047】

ここで、異なる複数の音信号が混在した音声から音源毎に音信号を分離する音源分離技術が研究されている。この音源分離技術において、音の観測チャネル数が音源数よりも少ない劣決定条件では、本来観測したい一つの音源の音信号を他の音源の音信号から分離することが難しい。特に、観測チャネル数が１つあり、音源の位置に関する情報が得られない場合には音源を分離することは相当難しい。そこで、本実施形態の秘匿音声伝送システム１０では、この事実を利用し、秘匿音声に対して他の音声（本実施形態ではi個の妨害音）を混合した混合音声をスピーカー１６から出力し、この混合音声に対してVCSを用いた処理に基づいてシェア音声を生成する。

【0048】

図２は秘匿音声送信装置１２の機能ブロック図である。

【0049】

秘匿音声送信装置１２は、スピーカー１６の他に、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４、マスキング部２６、及び逆フーリエ変換部２８を備える。なお、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４、マスキング部２６、及び逆フーリエ変換部２８で実行される処理は、秘匿音声送信装置１２が備える記録媒体に格納されたプログラムによって実行される。また、このプログラムが実行されることで、プログラムに対応する方法が実行される。

【0050】

フーリエ変換部２０は、秘匿音声にi個の妨害音を混合した混合音声を短時間フーリエ変換するＦＦＴ（Fast Fourier Transform）分析器である。秘匿音声に混合されるi個の妨害音は各々異なる音であり、妨害音は意味をなさない音や他の内容を話した秘匿音声と同じ話者の音声や異なる話者による音声を用いる。

【0051】

マスク生成部２２は、混合音声をフーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも所定の閾値θ以上大きい周波数ビン（時間周波数ビン）の有無に基づいてマスクMを生成する。なお、本実施形態のマスク生成部２２は、閾値θ以上の周波数ビンを１とし、閾値θ未満の周波数ビンを０とすることでマスクMを生成する。

【0052】

シェアマスク生成部２４は、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクM'_nを、マスクMに基づいて生成する。本実施形態のシェアマスク生成部２４は、詳細を後述するように、周波数ビンの数及び時間フレームの数を増大することでマスクをm倍し、VCSの基本行列X_0,X₁を満たす行列式となるように、n個のシェアマスクM'_nを生成する。

【0053】

マスキング部２６は、混合音声を短時間フーリエ変換して得られたスペクトログラムをn個のシェアマスクM'_nでマスキングすることで、各々が異なるn個のシェア音声を生成する。

【0054】

逆フーリエ変換部２８は、マスキング部２６で生成したn個のシェア音声を逆フーリエ変換する。

【0055】

スピーカー１６は、逆フーリエ変換したn個のシェア音声を音として出力し、ユーザーへ配信する。

【0056】

図３は、秘匿音声受信装置１４の機能ブロック図である。秘匿音声受信装置１４は、マイク３０、同期部３２、及び音声復元部３４を備える。なお、同期部３２及び音声復元部３４で実行される処理は、秘匿音声受信装置１４の記録媒体に格納されたプログラムによって実行される。また、このプログラムが実行されることで、プログラムに対応する方法が実行される。

【0057】

マイク３０は、秘匿音声送信装置１２のスピーカー１６から出力されたシェア音声の入力を受け付ける。

【0058】

同期部３２は、n個のシェア音声から秘匿音声を復元するために、n個のシェア音声の始点を合わせる同期処理を行う。

【0059】

音声復元部３４は、同期させたn個のシェア音声のうちt個以上を重ね合わせることで、秘匿音声を復元する。なお、秘匿音声受信装置１４によって集められたシェア音声がt個未満である場合には、音声復元部３４は、秘匿音声を復元することはできない。なお、音声復元部３４によって復元された秘匿音声は、秘匿音声受信装置１４である携帯端末装置のスピーカーから出力される。

【0060】

次に、本実施形態のシェアマスクM'_nの生成の詳細を説明する。

【0061】

フーリエ変換部２０は、秘匿音声とi個（1≦i≦I）の妨害音を短時間フーリエ変換し、秘匿音声のスペクトルs(τ,f)と妨害音のスペクトルσ_i(τ,f)を取得する。なお、τは時間フレームであって1≦τ≦T、fは周波数ビンのＩＤであって1≦f≦Fとされる。

【0062】

マスク生成部２２は、秘匿音声の音声レベル|s|が妨害音の音声レベル|σ_i|よりも閾値θ以上大きい時間周波数ビンに対してマスクMを１とし、それ以外の時間周波数ビンに対してマスクMを０とする。すなわち、妨害音の音声レベルよりも相対的に高い音声レベルの秘匿音声に対応するマスクMを１とする。これを数式１に表す。

【0063】

【数1】

【0064】

そして、下記の数式２で表される混合音声のスペクトルXにマスクM(τ,f)を乗算することで秘匿音声のスペクトルの主要な部分が取り出せる。すなわち、マスクM(τ,f)は、秘匿音声のスペクトルを{0,1}で表したものである。

【0065】

【数2】

【0066】

そこで、シェアマスク生成部２４は、マスク生成部２２で生成されたマスクMを、VCSにおける秘匿画像（２値画像）とみなすことで、シェアマスクM'_nを生成する。すなわち、秘匿音声送信装置１２は、VCSの基本行列X₀,X₁を用いてシェアマスクM'_nを生成する。そして、秘匿音声送信装置１２は、混合音声に対してマスキング処理を行い、t個以上を集めることで秘匿音声を復元できるシェア音声を作成する。

【0067】

また、シェアマスクM'_nを生成するためには、VCSにおける画素拡大と同様の処理をマスクMに対して行う必要がある。このため、本実施形態のシェアマスク生成部２４は、周波数ビン数及び時間フレーム数を増大することでマスクMをm倍（ｍは整数）し、VCSの基本行列X_0,X₁を満たす行列式となるようにシェアマスクM'_nを生成する。

【0068】

マスクMをm倍するためには、一例として下記の方法がある。
（１）周波数ビン数をm倍に増やす。
（２）時間フレーム数をm倍に増やす。
（３）周波数ビン数をm₁倍すると共に時間フレーム数をm₂倍する（m₁*m₂＝m)。

【0069】

周波数ビン数を増やすためには、一例として下記の方法がある。
（１）混合音声からシェア音声を生成するための短時間フーリエ変換のサンプリング周波数をm倍にすることで、シェア音声を帯域拡大して同じ時間幅に入る周波数ビン数をm倍にする。
（２）窓長をm倍にして短時間フーリエ変換を行う。

【0070】

時間フレーム数を増やすには、一例として下記の方法がある。
（１）サンプリング周波数をm倍にして短時間フーリエ変換することで、同じシフト幅に入る時間フレーム数をm倍にする。
（２）フレームシフトを1/m倍にして短時間フーリエ変換する。

【0071】

このように、シェアマスク生成部２４は、シェアマスクM'_nを生成するためにマスクMを周波数方向及び時間方向の少なくとも一方を増大させる増大処理を行い、マスクMのスペクトログラムのm倍のサイズのシェアマスクM'_nを生成する。そして、マスキング部２６は、短時間フーリエ変換した混合音声に対してシェアマスクM'_nを用いてマスキング処理することでn個のシェア音声を生成する。なお、マスキング処理される混合音声のスペクトルグラムもm倍のサイズとされている。

【0072】

マスキング処理により生成されるシェア音声Yは、数式３で表される。

【数3】

【0073】

そして、逆フーリエ変換部２８は、シェア音声を逆短時間フーリエ変換することで、スピーカー１６から出力できる音声とし、スピーカー１６がシェア音声を出力する。

【0074】

スピーカー１６から出力されたシェア音声を例えば、一人のユーザーが携帯端末装置等である秘匿音声受信装置１４のマイク３０によって複数回録音することでn個のシェア音声のうち少なくともt個のシェア音声を取得する。なお、秘匿音声を聞かれたくない、他のユーザーにシェア音声を取得されることを避けるため、所定のユーザーしか知り得ない時間を指定してスピーカー１６からシェア音声を出力することで、他のユーザーが秘匿音声を聞く可能性を低減できる。

【0075】

秘匿音声受信装置１４は、録音したｔ個以上のシェア音声の始点を合わせる同期処理を行い、図４に示されるように、ｔ個以上のシェア音声を時間的に同期して加算することで、秘匿音声を復元する。なお、同期処理は、例えば、複数のシェア音声各々の信号の相関を取ることで実現できる。ｔ個のシェア音声の同期加算は下記数式４で表され、jがΓ_Qの要素からなる場合、数式４のシェアマスクM'_nの総和Σが混合音声のうち秘匿音声を残すマスクとなるため、秘匿音声が復元される。

【0076】

【数4】

【0077】

なお、音声は画像とは異なり、スペクトログラムの隣接成分間に短時間フーリエ変換に伴う冗長性がある。このため、シェアマスクM'_nがにじんでしまい｛0,1｝が保持されず、シェア音声の同期加算ではS/Nが向上しない可能性がある。そこで、1と0がより明確に分かれるようにシェア音声を同期乗算してもよい。

【0078】

以上説明したように、本実施形態の秘匿音声伝送システム１０は、視覚暗号（VCS）を秘匿音声の伝送に適用し、マスクMから生成したシェアマスクM'_nを秘匿音声のスペクトログラムに埋め込むことでｎ個のシェア音声を生成する。ユーザーは、ｎ個のシェア音声のうちt個以上のシェア音声を集めると秘匿音声を復元できる一方、集めたシェア音声がｔ個未満の場合には秘匿音声を復元できない。また、本実施形態の秘匿音声伝送システム１０は、空間情報を持たないモノラルでの観測信号から、複数の音源が混合した信号を分離する問題が解きがたいという事実を利用している。そして、秘匿音声伝送システム１０は、暗号化のためには音声を短時間フーリエ変換するＦＦＴ分析器があればよく、ｔ個以上のシェア音声を同期させて加算又は乗算するのみにより復号できるため、複雑な構成の復号器を必要としない。

【0079】

このように、本実施形態の秘匿音声伝送システム１０は、音声を秘匿性高く配信して簡易に復元できる。

【0080】

（第２実施形態）
本実施形態の秘匿音声伝送システム１０は、秘匿音声受信装置１４によって復元した秘匿音声と配信された元のメッセージとの類似を判定する。これにより、ユーザーが正しい有資格集合からなるシェアマスクM'_nを取得できているかを検知できる。これにより、ユーザーがある一定の時間において指定した場所に居たというようなことを検知できる。

【0081】

図５は、本実施形態の秘匿音声受信装置１４の機能ブロック図である。本実施形態の秘匿音声受信装置１４は、第１実施形態の秘匿音声受信装置１４の構成に加えて、類似性判定部３６を備える。

【0082】

類似性判定部３６は、音声復元部３４によって復元された音声と秘匿音声であるメッセージとの類似性を判定する。なお、このメッセージは、秘匿音声受信装置１４がサーバ（不図示）等から予めデジタルデータとして取得して記憶手段に記憶しているものの、ユーザーには認識できないようにされている。なお、類似性判定部３６は、例えば、復元された音声とメッセージとのS/Nや音声対ひずみ比といった音源分離の評価に用いられる指標や、相関係数などを用いて類似性を判定する。

【0083】

（第３実施形態）
混合音声にシェアマスクM'_nをマスキングしてスピーカー１６から出力する第１実施形態では、短時間フーリエ変換の冗長性の影響によって秘匿音声の復元精度が低下する可能性がある。例えば、人間の音声や楽器の音等は、時間周波数ビンでアクティブなビン数が少なく、送信したい音信号のスパース性が高い。このようなスパース性が高い音信号に基づいて生成されたマスクMは、その推定精度が低下するおそれがある。

【0084】

そこで、本実施形態では、シェアマスクM'_nと混合音声とを別々に伝送する。このため、本実施形態の秘匿音声送信装置１２は、例えばホワイトノイズ等、所定の周波数範囲で強度が所定値以上であるノイズをキャリアとし、このノイズにシェアマスクM'_nをマスキングした音声をシェア音声としてスピーカー１６から出力する。例えばノイズとしてホワイトノイズを用いた場合は時間平均すると全ての周波数成分がアクティブになるので、シェア音声のスペクトログラムがシェアマスクM'_nと確率的に同じとなる。また、例えば秘匿音声の周波数が500～1kHzに限られていればその帯域に制限したホワイトノイズをノイズとして利用でき、秘匿音声が高域成分をあまり含まない場合にはピンクノイズを使う等が考えられる。

【0085】

図６は、本実施形態の秘匿音声送信装置１２の機能ブロック図であり、本実施形態の秘匿音声送信装置１２は、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４、マスキング部２６、逆フーリエ変換部２８、スピーカー１６と共に、ノイズ発生部４０、及びフーリエ変換部４２を備える。

【0086】

マスク生成部２２は、秘匿音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分が妨害音よりも閾値θ以上大きい周波数ビンの有無に基づいてマスクM'を生成する。

【0087】

シェアマスク生成部２４は、t個以上を重ね合わせることで秘匿音声を復元するための各々が異なるn個（2≦t≦n）のシェアマスクM'_nを、マスクMに基づいて生成する。

【0088】

ノイズ発生部４０は、ホワイトノイズ等のノイズを生成して出力する。

【0089】

フーリエ変換部４２は、ノイズ発生部４０から出力されたノイズを短時間フーリエ変換して出力する。

【0090】

マスキング部２６は、ノイズを短時間フーリエ変換して得られたスペクトログラムをｎ個のシェアマスクM'_nでマスキングすることで、各々が異なるn個のシェア音声を生成する。

【0091】

逆フーリエ変換部２８は、マスキング部２６で生成されたｎ個のシェア音声を逆フーリエ変換する。そして、逆フーリエ変換されたｎ個のシェア音声は、スピーカー１６から出力される。

【0092】

このように、本実施形態のスピーカー１６から出力されるｎ個のシェア音声は、ノイズがホワイトノイズの場合、短時間フーリエ変換して得られたスペクトログラムをｎ個のシェアマスクM'_nでマスキングした後に、逆フーリエ変換することで生成される。ノイズがピンクノイズ等の場合には、ノイズの特性に合わせたフィルター処理を行うことでホワイトノイズの場合と同様に処理できる。なお、スピーカー１６は、混合音声をシェア音声とは別に出力する。

【0093】

このように、本実施形態の秘匿音声送信装置１２のスピーカー１６は、ノイズをキャリアとすることでシェアマスクM'_nを音（ｎ個のシェア音声）として出力するシェアマスク出力部として機能し、また、シェア音声とは別に混合音声を出力する音声出力部として機能する。シェア音声と混合音声とは、例えば、一つのスピーカー１６から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー１６から別々に出力される。

【0094】

図７は、本実施形態の秘匿音声受信装置１４の機能ブロック図である。秘匿音声受信装置１４は、スピーカー１６から出力されたn個のシェア音声のうちt個以上のシェア音声からマスクMを復元し、復元したマスクMとスピーカー１６から出力された混合音声とを重ね合わせることで、秘匿音声を復元する。

【0095】

図７に示されるように本実施形態の秘匿音声受信装置１４は、マイク３０、同期部３２、マスク復元部５０及びマスキング部５２を備える。

【0096】

マスク復元部５０は、マイク３０から入力されて同期部３２によって同期されたｔ個以上のシェア音声を重ね合わせることで、マスクMを復元する。なお、秘匿音声受信装置１４によって集められたシェア音声がt個未満である場合には、マスク復元部５０はマスクMを復元することはできない。

【0097】

マスキング部５２は、マイク３０に入力された混合音声に対して、マスク復元部５０によって復元されたマスクMでマスキング処理を行うことで、秘匿音声を抽出する。

【0098】

このように、本実施形態の秘匿音声伝送システム１０は、シェアマスクM'_nをシェア音声として出力し、ｔ個以上のシェア音声と混合音声とをマスキングすることで、秘匿音声を抽出する。これにより、本実施形態の秘匿音声伝送システム１０は、配布されたシェア音声と混合音声とから精度良く秘匿音声を復元できる。

【0099】

（第４実施形態）
本実施形態では、拡張視覚暗号(Extended visual cryptography scheme; EVCS)を秘匿音声伝送に適用する。EVCSは、シェア画像単体ではカバー画像を表示するものの、t枚のシェア画像を集めると秘匿画像が表示されものであり、下記文献３で提案されている。このEVCSを用いてシェア画像を生成すると、シェア画像はカバー画像を表示しているので、シェア画像を見た人にシェア画像が秘匿画像を暗号化していることに気付かれ難いという利点がある。
文献３ G. Ateniese, C. Blundo, A.D. Santis, and D.R. Stinson, “Extended capabilities for visual cryptography,” Theoretical Computer Science, vol.250, no.1, pp.143--161, 2001.

【0100】

（EVCSの基本行列）
次にEVCSの基本行列X0,X1について説明する。EVCSでは、秘匿画像の画素値に加えて、カバー画像C₁,…,C_nの画素値(２値)で場合分けすると、2ⁿ個のn*mブール行列の組(X₀ ^C1,…,Cn, X₁ ^C1,…,Cn)が以下の３条件を満たす場合にアクセス構造Γを実現する基本行列であるという。

【0101】

（条件１）秘匿画像の復元可能条件:
すべてのS∈Γ^* _Qに対して、0≦l_s≦h_s≦mを満たす整数l_s,h_sが存在し、全てのC₁,…,C_nに対して数式５が成り立つ。

【数5】

【0102】

（条件２）安全性条件:
すべてのS∈Γ^* _FとC₁,…,C_nに対し、X₀ ^C1,…,Cn[S]とX₁ ^C1,…,Cn[S]とは適当な列の並び替えで等しくできる。

【0103】

（条件３）カバー画像の視認条件:
すべてのj=1,…,nに対して、0≦l_j<h_j≦mを満たす整数l_j, h_jが存在し、jを除くすべてのC₁,…,C_nに対して数式６が成り立つ。

【数6】

【0104】

上記の３条件を満たす基本行列X₀,X₁の最適化法が、下記文献４，５で提案されている
文献４ S.J. Shyu, “Threshold visual cryptographic scheme with meaningful shares,” IEEE Signal Processing Letters, vol.21, no.12, pp.1521--1525, 2014.
文献５ K. Sekine and H. Koga, “Optimal basis matrices of a visual cryptography scheme with meaningful shares and analysis of its security,” 2020 International Symposium on Information Theory and Its Applications (ISITA), pp.422--426, 2020.

【0105】

（第４実施形態の構成）
図８は、本実施形態の秘匿音声送信装置１２の機能ブロック図であり、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４、マスキング部５２、逆フーリエ変換部２８、及びスピーカー１６を備える。

【0106】

フーリエ変換部２０は、秘匿音声にj個(1≦j≦n)のカバー音声を混合した混合音声を短時間フーリエ変換する。秘匿音声に混合されるj個のカバー音声は各々異なる音声である。

【0107】

マスク生成部２２は、混合音声を短時間フーリエ変換して得られたスペクトログラムにおいて、秘匿音声の周波数成分がカバー音声よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてマスクMを生成し、カバー音声の周波数成分が秘匿音声及び他のカバー音声よりも所定の閾値θ以上大きい周波数ビンの有無に基づいてｊ個のカバーマスクM^C _jを生成する。

【0108】

シェアマスク生成部２４は、マスク生成部２２によって生成されたマスクM及びｊ個のカバーマスクM^C _jに基づいてn個のシェアマスクM'_nを生成する。

【0109】

マスキング部２６は、短時間フーリエ変換した混合音声に対してn個のシェアマスクM'_nでマスキングすることで、各々が異なるn個のシェア音声を生成する。逆フーリエ変換部２８は、マスキング部２６で生成したn個のシェア音声を逆フーリエ変換し、スピーカー１６から出力させる。

【0110】

なお、本実施形態の秘匿音声受信装置１４は、第１実施形態の秘匿音声受信装置１４と同様であり、秘匿音声送信装置１２から出力されたn個のシェア音声のうちt個以上を重ね合わせることで、秘匿音声を復元する。

【0111】

次に、本実施形態のシェアマスクM'_nの生成の詳細を説明する。

【0112】

フーリエ変換部２０は、秘匿音声とj個のカバー音声との混合音声を短時間フーリエ変換し、秘匿音声のスペクトルs(τ,f)とカバー音声のスペクトルκ_j(τ,f)を取得する。

【0113】

そして、マスク生成部２２は、秘匿音声の音声レベル|s|がカバー音声の音声レベル|κ_j|よりも閾値θ以上大きい時間周波数ビンに対してマスクMを1とし、それ以外の時間周波数ビンに対してマスクMを０とする。これを数式７に表す。

【0114】

【数7】

【0115】

さらに、カバー音声のレベル|κ_j|がその他のカバー音声の音声レベル|κ_j'|及び秘匿音声の音声レベル|s|よりも閾値θ以上大きい時間周波数ビンに対してカバーマスクM^C _jを１とし、それ以外の時間周波数ビンに対してカバーマスクM^C _jを０とする。これを数式８に表す。

【0116】

【数8】

【0117】

ここで、c_j= M^C _j(τ,f)とすることにより、カバーマスクM^C _jはEVCSにおけるカバー画像（２値画像）とみなすことができる。すなわち、秘匿音声をマスクMとし、カバー音声をカバーマスクM^C _jとすることで、シェアマスク生成部２４は、EVCSと同様の処理によってシェアマスクを生成することができる。

【0118】

シェアマスク生成部２４は、周波数ビン数及び時間フレーム数を増大することでマスクM及びカバーマスクM^C _jをm倍し、EVCSの基本行列を満たす行列式となるようにn個のシェアマスクを生成する。

【0119】

そして、混合音声に対してマスキング処理がおこなわれることで、シェア音声jとしてカバー音声jが聞こえることとなる。すなわち、シェア音声単体だけを人が聞くと秘匿音声とは異なる音声が聞こえ、シェア音声に秘匿音声が暗号化されていることが認識され難いが、t個以上のシェア音声を同期加算することで秘匿音声を得ることができる。これにより、本実施形態の秘匿音声伝送システム１０は、秘匿性をより高めてシェア音声を配信できる。

【0120】

（第５実施形態）
本実施形態の秘匿音声伝送システム１０は、第３実施形態と同様に、シェアマスクM'_nと混合音声とを別々に伝送するシステムである。

【0121】

本実施形態の秘匿音声送信装置１２は、n個のシェアマスクM'_nの各々をデジタルデータとして秘匿音声受信装置１４へ出力する。秘匿音声受信装置１４は、秘匿音声送信装置１２から出力されたt個以上のシェアマスクM'_nからマスクMを復元する。これにより、秘匿音声受信装置１４は、取得したt個のシェアマスクM'_nからマスクMを直接的に計算できる。そして、秘匿音声受信装置１４は、復元したマスクMに秘匿音声送信装置１２から出力された混合音声をマスキングすることで、秘匿音声を復元する。

【0122】

図９は、本実施形態の秘匿音声送信装置１２の機能ブロック図であり、本実施形態の秘匿音声送信装置１２は、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４、及びデータ送信部６０を備える。なお、フーリエ変換部２０、マスク生成部２２、シェアマスク生成部２４の機能は、第３実施形態の秘匿音声送信装置１２と同様である。

【0123】

データ送信部６０は、シェアマスク生成部２４によって生成されたシェアマスクM'_nの各々をデジタルデータとして出力する。シェアマスクM'_nの出力先は、秘匿音声送信装置１２と通信が可能な秘匿音声受信装置１４である。なお、データ送信部６０は、例えば、近距離通信により秘匿音声受信装置１４と通信を行い、異なる時間でシェアマスクM'_nを出力してもよいし、異なる場所でシェアマスクM'_nを別々に出力してもよい。

【0124】

スピーカー１６は混合音声を出力する。混合音声は、例えば、一つのスピーカー１６から異なる時間で出力されてもよいし、異なる場所に位置する複数のスピーカー１６から別々に出力されてもよい。混合音声が出力される時間や場所は、シェアマスクM'_nが出力される時間や場所と同じであってもよいし、異なってもよい。

【0125】

図１１は、本実施形態の秘匿音声受信装置１４の機能ブロック図であり、本実施形態の秘匿音声受信装置１４は、マイク３０、データ受信部７０、同期部７２、マスク復元部７４、逆フーリエ変換部７６、及びマスキング部７８を備える。

【0126】

マイク３０は、秘匿音声送信装置１２のスピーカー１６から出力された混合音声の入力を受け付ける。

【0127】

データ受信部７０は、秘匿音声送信装置１２のデータ送信部６０から送信されたシェアマスクM'_nを受信する。

【0128】

同期部７２は、データ受信部７０によって受信されたn個のシェアマスクM'_nからマスクMを復元するために、n個のシェアマスクM'_nの始点を合わせる同期処理を行う。

【0129】

マスク復元部７４は、同期部３２によって同期されたｔ個以上のシェアマスクM'_nを重ね合わせることで、マスクMを復元する。なお、秘匿音声受信装置１４によって集められたシェアマスクM'_nがt個未満である場合には、マスク復元部５０はマスクMを復元することはできない。

【0130】

逆フーリエ変換部７６は、マスク復元部５０によって復元したマスクMを逆フーリエ変換する。

【0131】

マスキング部７８は、マイク３０に入力された混合音声に対して、マスク復元部５０によって復元されたマスクMでマスキング処理を行うことで、秘匿音声を取得する。

【0132】

ここで、マスク復元部７４は、画素拡大率m₁,m₂がわかっていればm₁,m₂個のマスク成分{0,1}を足し合わせて、それが所定の閾値を超えていれば１、所定の閾値を超えていなければ０とすることで、よりマスクMの推定精度を向上させてもよい。

【0133】

すなわち、元のマスクMでの(τ,f)成分は、シェアマスクM'_nにおいて(m₁(τ-₁)+k₁,m₂(f-1)+k₂)に画素拡大されているので、ｔ個のシェアマスクM'_nを加算や乗算することによって画素拡大されたマスクM推定し、下記数式９によってM'_estを生成する。なお、k₁は１≦k₁≦m₁であり、k₂は1≦k₂≦m₂である。

【0134】

【数9】

【0135】

なお、χ(x)はxが閾値以上であれば1を返し、閾値未満であれば０を返す指示関数である。このとき、M'_estの大きさは元のマスクMに等しい。また閾値はその領域内の成分が全て１の場合すなわちm₁*m₂=1の場合にのみ１としたり、全体のヒストグラムを作成してある一定成分が１となる値とする、又は中央値とする等の方法がある。

【0136】

以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、該変更または改良を加えた形態も本発明の技術的範囲に含まれる。

【0137】

例えば、第２実施形態の類似性判定部３６は第１実施形態の秘匿音声受信装置１４に適用される形態について説明したが、本発明はこれに限らず、類似性判定部３６は第３から第５実施形態の秘匿音声受信装置１４に適用されてもよい。

【0138】

また、第１実施形態では秘匿音声にi個の妨害音を混合した混合音声からマスクM及びシェアマスクM'_nを生成する形態について説明したが、本発明はこれに限らず、マスクM及びシェアマスクM'_nの生成に混合音声を用いず秘匿音声だけを用いてもよい。この形態の場合、マスクMを生成する場合にはi＝0とすることにより秘匿音声だけでマスクMを生成することになる。

【0139】

また、上記実施形態ではスピーカー１６から混合音声を出力する形態について説明したが、本発明はこれに限らず、秘匿音声送信装置１２は混合音声をデジタルデータとして出力し、秘匿音声受信装置１４はデジタルデータとして受信した混合音声から秘匿音声を抽出してもよい。

【0140】

１０秘匿音声伝送システム
１２秘匿音声送信装置
１４秘匿音声受信装置
１６スピーカー（シェア音声出力部）
２２マスク生成部
２４シェアマスク生成部
２６マスキング部（シェア音声生成部）

【図1】