特開2023-20577 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤマハ株式会社の特許一覧

特開2023-20577マスキング装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023020577

(43)【公開日】2023-02-09

(54)【発明の名称】マスキング装置

(51)【国際特許分類】

G10K 11/175 20060101AFI20230202BHJP

H04R 3/00 20060101ALI20230202BHJP

G10L 25/21 20130101ALI20230202BHJP

G10L 25/90 20130101ALI20230202BHJP

G10L 25/78 20130101ALI20230202BHJP

G10L 19/00 20130101ALI20230202BHJP

【ＦＩ】

G10K11/175

H04R3/00 310

H04R3/00 320

G10L25/21

G10L25/90

G10L25/78

G10L19/00 312E

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2021126014

(22)【出願日】2021-07-30

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110003177

【氏名又は名称】弁理士法人旺知国際特許事務所

(72)【発明者】

【氏名】辻信昭

【テーマコード（参考）】

5D061

5D220

【Ｆターム（参考）】

5D061FF02

5D220AA50

5D220AB01

5D220BA30

(57)【要約】

【課題】人間の発話に対してリアルタイムで対応するマスキング音を生成し、再生するマスキング装置を提供する。
【解決手段】マスキング装置１は、マイクから出力される出力信号から音声を示す音声信号を検出する検出部１１１と、音声信号を分析することによって、音声の特徴を示す特徴データを生成する分析部１１２と、特徴データに基づいて、音声をマスキングする音楽を示すマスキングデータを生成する生成部１１４と、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

マイクから出力される出力信号から音声を示す音声信号を検出する検出部と、
前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、
前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、
を備えるマスキング装置。

【請求項2】

前記音声の特徴は、前記音声のピッチ、前記音声のレベル、及び前記音声のフォルマントのうち、少なくとも１つを含む、請求項１に記載のマスキング装置。

【請求項3】

音楽を示す音楽データを取得する取得部を更に備え、
前記生成部は、前記特徴データに基づいて、前記音楽データを補正することにより、前記マスキングデータを生成する、請求項１又は請求項２に記載のマスキング装置。

【請求項4】

前記音楽は、複数の音色と１対１に対応する複数のパートを含み、
前記音楽データは、前記複数のパートと１対１に対応する複数のパートデータを含み、
前記生成部は、
前記特徴データに基づいて、前記複数のパートデータのうち一のパートデータを選択し、
前記特徴データに基づいて、前記一のパートデータの示す音のピッチ、及び前記一のパートデータの示す音のレベルのうち少なくとも１つを補正することにより、前記マスキングデータを生成する、
請求項３に記載のマスキング装置。

【請求項5】

前記音声の特徴は、前記音声のフォルマントと前記音声のレベルとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項４に記載のマスキング装置。

【請求項6】

前記音声の特徴は、前記音声のピッチと前記音声のレベルとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項４に記載のマスキング装置。

【請求項7】

前記音声の特徴は、前記音声のフォルマントと前記音声のピッチとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項４から請求項６のいずれか１項に記載のマスキング装置。

【請求項8】

前記音声の特徴は、前記音声のピッチを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項４から請求項６のいずれか１項に記載のマスキング装置。

【請求項9】

前記生成部は、前記選択した前記一のパートデータのキーを、オクターブ単位で上下させる、請求項７又は請求項８に記載のマスキング装置。

【請求項10】

前記生成部は、前記選択した前記一のパートデータのコードを、半音単位で上下させる、請求項７から請求項９のいずれか１項に記載のマスキング装置。

【請求項11】

前記マスキングデータは、前記補正された一のパートデータと、前記複数のパートデータのうち前記一のパートデータを除いたパートデータとを含む、請求項４から請求項１０のいずれか１項に記載のマスキング装置。

【請求項12】

前記音楽データを記憶する記憶部を更に備え、
前記取得部は、前記記憶装置から前記音楽データを読み出し、
前記生成部は、前記取得部が前記音楽データを読み出している期間中に、前記検出部によって前記音声信号が検出された場合、前記補正を実行する、請求項４から請求項１１のいずれか１項に記載のマスキング装置。

【請求項13】

前記音楽データを記憶する記憶部を更に備え、
前記取得部は、前記記憶部から前記音楽データを読み出し、
前記生成部は、
前記検出部によって前記音声信号が検出されない場合、前記複数のパートデータのうち所定のパートデータを前記音楽データとして出力し、
前記検出部によって前記音声信号が検出された場合、前記補正を実行し、前記所定のパートデータと前記補正された一のパートデータとを含む前記マスキングデータを出力する、請求項４から請求項１１のいずれか１項に記載のマスキング装置。

【請求項14】

前記音楽データは、ＭＩＤＩデータである、請求項３から請求項１３のいずれか１項に記載のマスキング装置。

【請求項15】

前記音楽データは、音信号である、請求項３から請求項１３のいずれか１項に記載のマスキング装置。

【請求項16】

前記生成部は、前記音楽として新たな曲を生成し、生成した曲に対応する前記マスキングデータを生成する、請求項１又は請求項２に記載のマスキング装置。

【請求項17】

前記マスキングデータに基づいて前記音楽を再生する再生部を更に備える、請求項１から請求項１６のいずれか１項に記載のマスキング装置。

【請求項18】

前記再生部は、前記検出部によって前記音声が検出された場合に、前記音楽を再生する、請求項１７に記載のマスキング装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、マスキング装置に関する。

【背景技術】

【0002】

従来、自動車の車内や、店舗や病院のカウンター等で、人間同士の対話音声の内容を第三者に把握されなくするために、当該対話音声をかき消すマスキング音を出力する技術が用いられてきた。

【0003】

例えば、特許文献１は、対話音声を秘匿化するための秘匿化装置を開示している。当該秘匿化装置は、一般的な会話の音声を示す音声データと音楽を示す音楽データとが予め記憶された記憶装置を備える。秘匿化装置は、記憶装置から読み出した音声データ及び音楽データが合成された秘匿化データを生成する秘匿化データ生成装置を備える。更に、当該秘匿化装置は、秘匿化データを再生する音楽再生装置を備える。この秘匿化データを再生することによって、例えば、銀行の窓口において、行員と利用者との会話を第三者に聞こえないように秘匿化できる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１２－１４１５２４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、特許文献１に係る秘匿化装置は、予め記憶されたサンプルデータとしての音声データと音楽データとを合成することで、マスキング音としての秘匿化データを生成するものであった。すなわち、特許文献１に係る技術は、人間の発話にリアルタイムで対応して、マスキング音を生成するものではなかった。

【0006】

以上の事情を考慮して、本開示のひとつの態様は、人間の発話に対してリアルタイムで対応するマスキングデータを生成し、生成されたマスキングデータに基づいて、人間の音声をマスキングする音楽を再生するマスキング装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

以上の課題を解決するために、本開示のひとつの態様に係るマスキング装置は、マイクから出力される出力信号から音声を示す音声信号を検出する検出部と、前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、を備える。

【図面の簡単な説明】

【0008】

【図1】第１実施形態に係るマスキング装置１の構成を例示するブロック図である。

【図2】第１実施形態に係るマスキング装置１を搭載した車両Ｃの平面図の例である。

【図3】第１実施形態に係るマスキング装置１を搭載した車両Ｃの側面図の例である。

【図4】制御装置１１の機能的な構成を例示するブロック図である。

【図5】音楽データに含まれる複数のパートが各々対応する複数の楽器の周波数帯域の例を示す図である。

【図6】生成部１１４によって出力される音楽データ及びマスキングデータに含まれる各パートのレベルを示す図である。

【図7】第１実施形態に係るマスキング装置１の動作を示すフローチャートである。

【図8】制御装置１１の機能的な構成を例示するブロック図である。

【図9】生成部１１４Ａによって出力される音楽データ及びマスキングデータに含まれる各パートのレベルを示す図である。

【発明を実施するための形態】

【0009】

〔１．第１実施形態〕
〔１－１．第１実施形態の構成〕
図１は、本開示の第１実施形態に係るマスキング装置１の構成を例示するブロック図である。マスキング装置１は、収音した人間の音声の特徴に応じて、当該音声をマスキングする音楽を示すマスキングデータＤｍを生成し、生成されたマスキングデータＤｍに基づいて、当該音声をマスキングする音楽を再生する装置である。具体的には、マスキング装置１は、制御装置１１、記憶装置１２、操作装置１３、収音装置１４、及び再生装置１５を備える。

【0010】

図１の制御装置１１は、例えばマスキング装置１の各要素を制御する単数又は複数のプロセッサである。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、又はＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。

【0011】

記憶装置１２は、例えば磁気記録媒体又は半導体記録媒体等の公知の記録媒体で構成された単数又は複数のメモリである。記憶装置１２は、制御装置１１が実行する制御プログラムＰＲ１と制御装置１１が使用する各種のデータ、とりわけ音楽データＤｘを記憶する。なお、記憶装置１２は、複数種の記録媒体の組合せにより構成されてもよい。また、記憶装置１２は、マスキング装置１に対して着脱可能な可搬型の記録媒体、又はマスキング装置１が通信網を介して通信可能な外部記録媒体（例えばオンラインストレージ）としてもよい。

【0012】

操作装置１３は、利用者からの指示を受け付ける入力機器である。操作装置１３は、例えば、利用者が操作可能な複数の操作子、又は、利用者からの接触を検知するタッチパネルである。とりわけ、操作装置１３は、マスキング装置１の動作の開始と終了を指示するスイッチとしての機能を有する。また、操作装置１３は、記憶装置１２に外部から供給される音楽データＤｘを格納する場合に用いられる。

【0013】

収音装置１４は、周囲の音を収音する収音部を備え、収音した音を電気信号に変換するマイクである。収音部は音を収音する構成であれば、どのようなものであってもよいが、例えば、防風の構造が該当する。また、周囲の音には人間の音声が含まれ得る。本実施形態の収音装置１４は、収音した音に基づいたアナログ形式の音信号を生成する。また、収音装置１４は音信号を音データＤｓに変換するＡＤ変換器を備える。収音装置１４から音データＤｓが出力される。

【0014】

再生装置１５は、制御装置１１による制御のもとで、制御装置１１により生成されたマスキングデータＤｍに基づいて音楽を再生する。マスキングデータＤｍは音楽を示す。再生装置１５は、ＤＡ変換器、アンプ、及びスピーカーを備える。ＤＡ変換器には、デジタル信号であるマスキングデータＤｍが入力される。入力されたマスキングデータＤｍは、アナログ信号であるマスキング信号に変換される。マスキング信号は、アンプにおいて、後段のスピーカーでの放音に適した振幅となるように増幅される。振幅が増幅されたマスキング信号によって示される音楽は、放音装置としてのスピーカーから放音される。本実施形態に係るマスキング装置１は、例として、図２に示される車両Ｃで用いられることが好適であるが、この場合、車両Ｃに搭載されたスピーカーが、再生装置１５に備わる要素として利用される。

【0015】

図２は、本実施形態に係るマスキング装置１を搭載した車両Ｃの平面図の例であり、図３は車両Ｃの側面図の例である。

【0016】

図２及び図３に示される例において、車両Ｃの車室Ｒには、マスキング装置１の他に、矩形に配置された４つの座席５１～５４と、天井６と、フロントライトドア７１と、フロントレフトドア７２と、リアライトドア７３と、リアレフトドア７４が配置されている。座席５１は運転席であり、座席５２は助手席であり、座席５３は後部右座席であり、更に、座席５４は後部左座席である。座席５１～５４の各々は、布又は革を素材とする材質であり吸音性を有する。座席５１～５４は、共通の方向を向いている。座席５１～５４の各々はヘッドレスト５１－１～５４－１を有する。

【0017】

マスキング装置１は、上記の収音装置１４としてのマイク、及び再生装置１５の要素である第１スピーカー１５－１、第２スピーカー１５－２、第３スピーカー１５－３及び第４スピーカー１５－４を含んで構成されている。収音装置１４は、車室Ｒの天井６に配置される。収音装置１４は、第１の収音装置１４－１と第２の収音装置１４－２とを備えることが好適である。この場合、第１の収音装置１４－１は、車室Ｒの天井６において、前席である座席５１及び座席５２付近に設置される。また、第１の収音装置１４－１は、座席５１及び座席５２に着座する人物の声を収音しやすくするように、指向性を有することが好適である。同様に、第２の収音装置１４－２は、車室Ｒの天井６において、後席である座席５３及び座席５４付近に設置される。また、第２の収音装置１４－２は、座席５３及び座席５４に着座する人物の声を収音しやすくするように、指向性を有することが好適である。しかし、収音装置１４の構成はこれには限定されない。収音装置１４は、前席である座席５１及び座席５２に着座する人物の声と、後席である座席５３及び座席５４に着座する人物の声とを個別に収音できることが好適であるが、その構成は問わない。

【0018】

第１スピーカー１５－１は、ヘッドレスト５１－１に設置される。第２スピーカー１５－２は、ヘッドレスト５２－１に設置される。第３スピーカー１５－３は、ヘッドレスト５３－１に設置される。第４スピーカー１５－４は、ヘッドレスト５４－１に設置される。なお、これらの設置個所は一例であって、これらには限定されない。例えば、第１スピーカー１５－１～第４スピーカー１５－４の各々は、フロントライトドア７１の下部、フロントレフトドア７２の下部、リアライトドア７３の下部、及びリアレフトドア７４の下部に設置されてもよい。

【0019】

第１の収音装置１４－１が、前席である座席５１及び座席５２に着座する人物の声を収音した場合、後席である座席５３のヘッドレスト５３－１に設置される第３スピーカー１５－３、及び座席５４のヘッドレスト５４－１に設置される第４スピーカー１５－４からマスキング信号によって示される音楽が放音される。これは、前席のスピーカーである第１スピーカー１５－１及び第２スピーカー１５－２からマスキング信号によって示される音楽が放音されると、前席間の会話に支障をきたす恐れがあるためである。

【0020】

これにより、例えば、会話するドライバーの声を、後席に着座する人物に聞かせなくすることが可能となる。延いては、ドライバーは、自らの会話が後席に聞かれていないという安心感を得ることができ、運転に集中することが可能となる。

【0021】

一方で、第２の収音装置１４－２が、後席である座席５３及び座席５４に着座する人物の声を収音した場合、前席である座席５１のヘッドレスト５１－１に設置される第１スピーカー１５－１、及び座席５２のヘッドレスト５２－１に設置される第２スピーカー１５－２からマスキング信号によって示される音楽が放音される。これは、後席のスピーカーである第３スピーカー１５－３及び第４スピーカー１５－４からマスキング信号によって示される音楽が放音されると、後席間の会話に支障をきたす恐れがあるためである。

【0022】

これにより後席に着座する人物の会話をドライバーに聞かせなくすることが可能となる。更に、マスキング音として音楽を用いることにより、ドライバーは運転に集中することが可能となる。

【0023】

なお、第１の収音装置１４－１と第２の収音装置１４－２の双方が、座席５１～座席５４に着座する人物の声を収音した場合、第１スピーカー１５－１～第４スピーカー１５－４のいずれからも、マスキング信号によって示される音楽は放音されない。これは、前席と後席との間の会話を邪魔しないためである。

【0024】

図４は、制御装置１１の機能的な構成を例示するブロック図である。制御装置１１は、制御プログラムＰＲ１を読み出し、読み出した制御プログラムＰＲ１を実行することによって、検出部１１１、分析部１１２、取得部１１３、及び生成部１１４、及び選択部１１５として機能する。

【0025】

検出部１１１は、収音装置１４から出力される音データＤｓから、人間の音声を示す音声データＤｖを検出する。音声データＤｖは、音声が入っていない無声区間と、音声が入っている音声区間とを有する。検出部１１１は、例えば、音声帯域を通過帯域とするバンドパスフィルタによって構成される。音データＤｓの示す音には、音声の他に、走行音及び楽音等が含まれる場合がある。検出部１１１によって音データＤｓから音声データＤｖが抽出される。

【0026】

また、検出部１１１は、選択部１１５に対して制御信号Ｓを出力する。検出部１１１が、音声データＤｖから音声区間を検出した場合には、制御信号Ｓは“ＯＮ”を示す値となる。一方で、検出部１１１が無音区間を検出した場合には、制御信号Ｓは“ＯＦＦ”を示す値となる。

【0027】

分析部１１２は、検出部１１１によって検出された音声データＤｖを分析することによって、音声の特徴を示す特徴データＤｆを生成する。より詳細には、分析部１１２は、音声区間における音声データＤｖを分析することによって、音声の特徴を示す特徴データＤｆを生成する。ここで、「音声の特徴」は、音声のピッチ、音声のレベル、音声のフォルマントのうち少なくとも１つを含む。「音声のピッチ」とは、音声の基本周波数のことである。「音声のレベル」とは、音声の音量のことである。「音声のフォルマント」とは、音声の周波数スペクトルにおいて、周囲よりも強度が大きい周波数帯のことである。当該周波数帯は、低い方から順に、「第１フォルマント」、「第２フォルマント」、「第３フォルマント」・・・と呼称される。複数のフォルマントの各々の周波数の高さによって、音声の質が定まる。

【0028】

とりわけ、分析部１１２によって生成される特徴データＤｆに、音声のピッチ、又は音声のフォルマントが含まれる場合、分析部１１２は、音声のピッチ又はフォルマントを分析することにより、当該音声を発話したのが、男性であるか女性であるかを判別することが可能である。具体的には、分析部１１２は、音声のピッチが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部１１２は、音声のピッチが所定値未満である場合には、当該音声の発話の主が男性であると判別する。また、分析部１１２は、音声に含まれる母音の第１フォルマント及び第２フォルマントが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部１１２は、音声に含まれる母音の第１フォルマント及び第２フォルマントが所定値未満である場合には、当該音声を発話の主が男性であると判別する。

【0029】

取得部１１３は、記憶装置１２から音楽データＤｘを取得する。後述のように、マスキング装置１が生成するマスキングデータＤｍの示す音楽は、複数の音色と１対１に対応する複数のパートを含む。音楽データＤｘは、これら複数のパートと１対１に対応する複数のパートデータＤｐ１、Ｄｐ２、…Ｄｐｎを含む。ｎは２以上の整数である。なお、各パートを区別する必要が無い場合は、単に、パートデータＤｐと称する。

【0030】

図５は、人間の音声の周波数帯域、及びマスキングデータＤｍの示す音楽に含まれる複数のパートが各々対応する、複数の音色の周波数帯域の例を示す図である。図５において、最上段の行は周波数を示す。２段目の行はコードを示す。図５に示す例においては、同じＣコードであると共に、Ｃ０からＣ８へと、１オクターブずつ周波数が上昇する例を示す。３段目～９段目の行は人間の音声の周波数帯域を示す。１０段目～１４段目の行は楽器の演奏音の周波数帯域を示す。

【0031】

図５に示されるように、人間の音声は略７３Ｈｚから略１０４７Ｈｚの周波数帯域を有する。

【0032】

とりわけ男性の音声であるバスは、およそＤ２からＦ４の声域、すなわち略７３Ｈｚから略３５０Ｈｚの周波数帯域を有する。男性の音声であるバリトンは、およそＧ２からＧ４の声域、すなわち略９８Ｈｚから略３９２Ｈｚの周波数帯域を有する。男性の音声であるテノールは、およそＣ３からＣ５の声域、すなわち略１３１Ｈｚから略５２３Ｈｚの周波数帯域を有する。総じて男性の音声は、略７３Ｈｚから略５２３Ｈｚの周波数帯域を有する。

【0033】

女性の音声であるアルトは、およそＦ３からＥ５の声域、すなわち略１７５Ｈｚから略６５９Ｈｚの周波数帯域を有する。女性の音声であるメゾソプラノは、およそＡ３からＡ５の声域、すなわち略２２０Ｈｚから略８８０Ｈｚの周波数帯域を有する。女性の音声であるソプラノは、およそＣ４からＣ６の声域、すなわち略２６２Ｈｚから略１０４７Ｈｚの周波数帯域を有する。総じて女性の音声は、略１７５Ｈｚから略１０４７Ｈｚの周波数帯域を有する。

【0034】

一方、図５に示されるように、楽器の演奏音は、略２５Ｈｚから略４４００Ｈｚの周波数帯域を有する。例として、パートデータＤｐ１に対応するコントラバスは、およそＥ１からＧ３の音域、すなわち、略４１Ｈｚから略１９６Ｈｚの周波数帯域を有する。パートデータＤｐ２に対応するチェロは、およそＣ２からＣ５の音域、すなわち略６５Ｈｚから略５２３Ｈｚの周波数帯域を有する。パートデータＤｐ３に対応するビオラは、およそＣ３からＣ６の音域、すなわち略１３１Ｈｚから略１０４７Ｈｚの周波数帯域を有する。パートデータＤｐ４に対応するバイオリンは、およそＧ３からＥ７の音域、すなわち略１９６Ｈｚから略２６３７Ｈｚの周波数帯域を有する。

【0035】

人間の音声の周波数帯域と、楽器の演奏音の周波数帯域とを比較すると、男性の音声の周波数帯域は、概ね、チェロの演奏音の周波数帯域に含まれると言える。一方、女性の音声の周波数帯域は、概ね、ビオラの演奏音の周波数帯域に含まれると言える。

【0036】

マスキングデータＤｍの示す音楽に含まれる複数のパートの各々は、人間の音声のピッチ又はフォルマントに対応付けられている。例として、チェロのパートと、音声のピッチのうち、男性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、チェロのパートと、音声のフォルマントのうち、男性の音声であることを示すフォルマントとが対応付けられていてもよい。同様に、ビオラのパートと、音声のピッチのうち、女性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、ビオラのパートと、音声のフォルマントのうち、女性の音声であることを示すフォルマントとが対応付けられていてもよい。

【0037】

音楽データＤｘはＭＩＤＩ（Musical Instrument Digital Interface）データであってよい。音楽データＤｘがＭＩＤＩデータである場合、所定楽曲の音楽データＤｘは、各々が各音色に対応する複数のパートデータＤｐを包含する。ここで、各パートデータＤｐに対応する音色は、楽器音のみならず、人の声、合成音等の楽器以外の音声の音色も含む。あるいは、音楽データＤｘは音楽信号をサンプリングすることによって得られたＰＣＭデータであってもよい。また、音楽データＤｘがＰＣＭデータである場合、音楽データＤｘは複数の音色に１対１に対応する複数のＰＣＭデータから構成されてもよい。音楽データＤｘが、複数の音色が混在したＰＣＭデータの場合には、周知の音源分離技術により、音楽データＤｘを複数の音色のＰＣＭデータに分解し、その中から所定の音色（チェロ、ビオラ、等）を選択し、マスキングに利用しても良い。複数のＰＣＭデータはパートデータＤｐ１～Ｄｐｎに対応する。

【0038】

図４に戻ると、生成部１１４は、分析部１１２によって生成された特徴データＤｆに基づいて、音声をマスキングする音楽を示すマスキングデータＤｍを生成する。とりわけ、本実施形態において、生成部１１４は、特徴データＤｆに基づいて、取得部１１３によって取得された音楽データＤｘに含まれる複数のパートデータＤｐ１～Ｄｐｎのうち、１つのパートデータＤｐを選択する。次に、生成部１１４は、選択したパートデータＤｐの示す音のピッチ、及び音のレベルのうち少なくとも１つを補正することにより、マスキングデータＤｍを生成する。選択されたパートデータＤｐがＤｐｓである場合、マスキングデータＤｍは、パートデータＤｐｓが補正された１つのパートデータＤｐｓ’と、上記の複数のパートデータＤｐ１～Ｄｐｎのうち、当該補正の対象となった１つのパートデータＤｐｓを除いたパートデータＤｐとを含む。

【0039】

より詳細には、生成部１１４は、音声の特徴にフォルマントが含まれる場合、音声のフォルマントに重なる音域のパートデータＤｐｓを選択する。あるいは、生成部１１４は、音声の特徴にピッチが含まれる場合、音声のピッチと同じ周波数が含まれる音域のパートデータＤｐｓを選択する。例として、音声のフォルマント又はピッチが、男性の音声に対応する場合には、生成部１１４は、チェロのパートを選択する。一方で、音声のフォルマント又はピッチが、女性の音声に対応する場合には、生成部１１４は、ビオラのパートを選択する。

【0040】

なお、適切なパートが存在しなかった場合には、生成部１１４は、既存のパートデータＤｐ１～Ｄｐｎの中から、音声の特徴のうち、音声のフォルマントに最も近い音域のパートデータＤｐｓを選択する。あるいは、生成部１１４は、既存のパートデータＤｐ１～Ｄｐｎの中から、音声の特徴のうち音声のピッチに最も近い周波数を有する音域のパートデータＤｐｓを選択する。

【0041】

その上で、生成部１１４は、選択したパートデータＤｐｓの示す音のレベルを、音声のレベルに応じて変更するように、当該パートデータＤｐｓを補正し、パートデータＤｐｓ’を生成する。より詳細には、生成部１１４は、パートデータＤｐｓ’に基づく音楽をスピーカーから放音した場合に、放音される音楽によって音声データＤｖの示す音声をマスキングできるようにパートデータＤｐｓを補正する。更に、生成部１１４は、補正されたパートデータＤｐｓ’と、複数のパートデータＤｐのうち、当該補正の対象となったパートデータＤｐｓを除いたパートデータＤｐとから、マスキングデータＤｍを生成する。とりわけ、検出部１１１によって検出された音声のレベルが大きい場合には、生成部１１４は、音声の大きさに応じて、選択したパートデータＤｐの示す音のレベルを上げるように、当該パートデータＤｐを補正する。

【0042】

また、本実施形態において、生成部１１４は、取得部１１３が、記憶装置１２から音楽データＤｘを読み出している期間中に、検出部１１１によって音声データＤｖの音声区間が検出された場合、上記の補正を実行することで、マスキングデータＤｍを生成する。更に生成部１１４は、生成したマスキングデータＤｍを、選択部１１５に出力する。

【0043】

また、生成部１１４は、マスキングデータＤｍの出力と並行して、取得部１１３から取得した音楽データＤｘを、選択部１１５に出力する。

【0044】

選択部１１５は、検出部１１１から入力される制御信号Ｓに基づいて、マスキングデータＤｍと音楽データＤｘのうち一方を選択し、再生装置１５に出力する。より詳細には、制御信号Ｓが“ＯＮ”を示す値である場合には、選択部１１５は、マスキングデータＤｍを選択し、選択したマスキングデータＤｍを再生装置１５に出力する。一方で、制御信号Ｓが“ＯＦＦ”を示す値である場合には、選択部１１５は、音楽データＤｘを選択し、選択した音楽データＤｘを再生装置１５に出力する。

【0045】

再生装置１５は、ＭＩＤＩデータ又はＰＣＭデータのフォーマットを、音楽データのフォーマットに変換する機能を有する。これにより、再生装置１５は、常時音楽データＤｘの示す音楽を再生しており、その途中で、マスキングデータＤｍの示す音楽を再生するように動作を切り替える。この際、生成部１１４は、元々再生されていた音楽の一パートを示すパートデータＤｐｓを補正する。このため、再生装置１５によって再生される音楽を聴いていた人間にとって、違和感が発生しない。

【0046】

図６は、生成部１１４によって出力される音楽データＤｘ及びマスキングデータＤｍに含まれる各パートデータＤｐのレベルを示す図である。なお、図６に示す例は、音声データＤｖによって示される人間の音声が男性の音声である場合を示す。時刻ｔ１の時点で、生成部１１４は、あらかじめ音楽データＤｘとして、チェロのパートデータＤｐ２と、その他のパートデータＤｐ１、Ｄｐ３及びＤｐ４とをパラレルに選択部１１５に対して出力しておく。この間、選択部１１５は、音楽データＤｘを再生装置１５に出力する。時刻ｔ２の時点で、検出部１１１が人間の音声を検出すると、分析部１１２が、当該音声のレベルと、当該音声のピッチ、及びフォルマントのうち少なくとも１つを含む音声の特徴を示す特徴データＤｆを生成する。生成部１１４は、音域が当該音声のピッチと同じ周波数を含むパートデータＤｐ、あるいは、音域が当該音声のフォルマントに重なるパートデータＤｐとして、チェロのパートデータＤｐ２を選択する。更に、生成部１１４は、当該音声のレベルに応じて、チェロのパートデータＤｐ２の示す音のレベルを上げるように、当該パートデータＤｐ２を補正し、パートデータＤｐ２’を生成する。生成部１１４は、音のレベルを上げたチェロのパートデータＤｐ２を含むマスキングデータＤｍを、再生装置１５に出力する。マスキングデータＤｍに含まれる他のパートデータＤｐ１、Ｄｐ３及びＤｐ４に関しては、引き続き音のレベルが変更されることがない。選択部１１５は、制御信号Ｓに基づいて、音楽データＤｘとマスキングデータＤｍとからマスキングデータＤｍを選択し、選択したマスキングデータＤｍを再生装置１５に出力する。時刻ｔ３の時点で、検出部１１１が人間の音声を検出しなくなると、生成部１１４は、チェロのパートデータＤｐ２のレベルを元に戻す。その上で、生成部１１４は、チェロのパートデータＤｐ２とその他のパートデータＤｐ１、Ｄｐ３及びＤｐ４を含む音楽データＤｘを再生装置１５に出力し続ける。

【0047】

生成部１１４は、音のレベルに係る補正の代わりに、あるいは音のレベルに係る補正に加えて、検出部１１１によって検出された音声データＤｖによって示される音声のピッチに、選択したパートデータＤｐの示す音のピッチを近づけるように、当該選択したパートデータＤｐを補正し、パートデータＤｐ’を生成してもよい。音声のピッチと補正後の音のピッチとの差分は、音声のピッチと補正前の音のピッチとの差分より小さい。従って、音声のピッチと補正後の音のピッチとは、不一致であってよい。

【0048】

より詳細には、生成部１１４は、人間の音声のピッチに応じて、選択したパートデータＤｐの示す音のキーをオクターブ単位で上下させるように、当該選択したパートデータＤｐを補正し、パートデータＤｐ’を生成してもよい。これにより、生成部１１４は、音楽データＤｘが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータＤｐのみを補正することが可能となる。

【0049】

あるいは生成部１１４は、人間の音声のピッチに応じて、選択したパートデータＤｐの示す音のコードを半音単位で上下させるように、選択したパートデータＤｐを補正し、パートデータＤｐ’を生成してもよい。これにより、音楽データＤｘが示す音楽の曲調は変わるものの、生成部１１４は、選択したパートデータＤｐの示す音のピッチを微調整することが可能となる。このように音のピッチを補正することによって、音のピッチが音声のピッチに近づくので、マスキングの効果が向上する。

【0050】

〔１－２．第１実施形態の動作〕
図７は、第１実施形態に係るマスキング装置１の動作を示すフローチャートである。以下、図７を参照することにより、第１実施形態に係るマスキング装置１の動作について説明する。

【0051】

ステップＳ１において、取得部１１３は、記憶装置１２から音楽データＤｘを取得する。

【0052】

ステップＳ２において、生成部１１４は、取得部１１３から取得した音楽データＤｘを、選択部１１５に出力する。選択部１１５は、音楽データＤｘを再生装置１５に出力する。

【0053】

ステップＳ３において、検出部１１１によって人間の音声が検出された場合（Ｓ３：ＹＥＳ）には、マスキング装置１はステップＳ４の処理を実行する。検出部１１１によって人間の音声が検出されていない場合（Ｓ３：ＮＯ）には、マスキング装置１は、ステップＳ２の処理を実行する。

【0054】

ステップＳ４において、分析部１１２は、検出部１１１によって検出された音声信号を分析することによって、音声の特徴を示す特徴データＤｆを生成する。

【0055】

ステップＳ５において、生成部１１４は、分析部１１２によって生成された特徴データＤｆに基づいて、音声をマスキングする音楽を示すマスキングデータＤｍを生成する。より詳細には、ステップＳ５において、生成部１１４は、特徴データＤｆに基づいて、取得部１１３によって取得された音楽データＤｘに含まれる複数のパートデータＤｐのうち、１つのパートデータＤｐｓを選択する。次に、生成部１１４は、選択したパートデータＤｐｓの示す音のレベルを特徴データＤｆに応じて変更するように、当該選択したパートデータＤｐｓを補正し、パートデータＤｐｓ’を生成する。更に、生成部１１４は、パートデータＤｐｓ’と、複数のパートデータＤｐのうち、当該補正の対象となったパートデータＤｐｓを除いたパートデータＤｐとから、マスキングデータＤｍを生成する。なお、生成部１１４は、選択したパートデータＤｐｓの示す音のレベルの代わりに、あるいは音のレベルに加えて、音のピッチを特徴データＤｆに応じて変更してもよい。とりわけ、生成部１１４は、取得部１１３が記憶装置１２から音楽データＤｘを読み出している期間中に、検出部１１１によって音声区間が検出された場合、上記の補正を実行する。

【0056】

ステップＳ６において、生成部１１４は、生成したマスキングデータＤｍを、選択部１１５に出力する。選択部１１５は、マスキングデータＤｍを再生装置１５に出力する。

【0057】

〔２．第２実施形態〕
以下、本開示の第２実施形態に係るマスキング装置１について説明する。第２実施形態に係るマスキング装置１に備わる構成要素のうち、第１実施形態に係るマスキング装置１に備わる構成要素と同一の構成要素については、同一の符号を用いると共に、その機能の説明を省略する。

【0058】

〔２－１．第２実施形態の構成〕
図８は、第２実施形態に係るマスキング装置１が備える制御装置１１の機能的な構成を例示するブロック図である。第２実施形態に係るマスキング装置１は、第１実施形態に係るマスキング装置１に備わる生成部１１４の代わりに、生成部１１４Ａを備える。

【0059】

生成部１１４Ａは、複数のパートデータＤｐのうち所定のパートデータＤｐを音楽データＤｘとして、選択部１１５に出力する。一方で、生成部１１４Ａは生成部１１４と同様の補正を実行する。その上で、生成部１１４Ａは、上記の所定のパートデータＤｐと、補正後の一のパートデータＤｐｓ’とを含むマスキングデータＤｍを、選択部１１５に出力する。

【0060】

図９は、生成部１１４Ａによって生成されるマスキングデータＤｍに含まれる各パートデータＤｐのレベルを示す図である。なお、図９に示す例は、人間の音声が男性の音声である場合を示す。時刻ｔ１の時点で、生成部１１４は、あらかじめ音楽データＤｘとして、チェロ以外のその他のパートデータＤｐを、選択部１１５に対して出力しておく。「その他のパートデータ」は、例えばバイオリンのパートデータＤｐ４である。この間、選択部１１５は、音楽データＤｘを再生装置１５に出力する。時刻ｔ２の時点で、検出部１１１が人間の音声を検出すると、分析部１１２が、当該音声のピッチ、レベル、及びフォルマントのうち、少なくとも１つを含む音声の特徴データＤｆを生成する。生成部１１４は、音域が当該音声のピッチと同じ周波数を含むパートデータＤｐ、あるいは、音域が当該音声のフォルマントに重なるパートデータＤｐとして、チェロのパートデータＤｐ２を選択する。更に、生成部１１４は、チェロのパートデータＤｐ２によって示される音のレベルを、当該音声のレベルに応じて変更するように、当該チェロのパートデータＤｐ２を補正し、パートデータＤｐ２’を生成する。生成部１１４は、音のレベルを補正したチェロのパートデータＤｐ２’と、音のレベルを補正していないバイオリンのパートデータＤｐ４とを含むマスキングデータＤｍを、選択部１１５に出力する。選択部１１５は、制御信号Ｓに基づいて、音楽データＤｘとマスキングデータＤｍとからマスキングデータＤｍを選択し、選択したマスキングデータＤｍを再生装置１５に出力する。時刻ｔ３の時点で、検出部１１１が人間の音声を検出しなくなると、生成部１１４は、チェロの補正後のパートデータＤｐ２’の出力を停止する。その上で、生成部１１４は、その他のパートデータＤｐであるバイオリンのパートデータＤｐ４を、音楽データＤｘとして選択部１１５に出力し続ける。選択部１１５は、音楽データＤｘを再生装置１５に出力する。

【0061】

〔２－２．第２実施形態の動作〕
第２実施形態に係るマスキング装置１の動作は、基本的には、第１実施形態に係るマスキング装置１の動作と同様であるため、その図示を省略する。

【0062】

ステップＳ２において、生成部１１４Ａは、音楽データＤｘに含まれる複数のパートデータＤｐのうち所定のパートデータＤｐを、選択部１１５に出力する。選択部１１５は、所定のパートデータＤｐを音楽データＤｘとして再生装置１５に出力する。

【0063】

ステップＳ５において、生成部１１４Ａは、生成部１１４と同様の補正を実行し、ステップＳ２における所定のパートデータＤｐと、補正後の一のパートデータＤｐｓ’とを含むマスキングデータＤｍを、生成する。

【0064】

〔３．変形例〕
以上の実施態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は相矛盾しない限り適宜に併合され得る。

【0065】

〔３－１．変形例１〕
上記の第１実施形態及び第２実施形態において、生成部１１４及び１１４Ａは、取得部１１３によって記憶装置１２から取得された音楽データＤｘを補正することにより、マスキングデータＤｍを生成していた。しかし、本発明の実施態様におけるマスキングデータＤｍの生成方法は、これには限定されない。例えば、生成部１１４及び１１４Ａは、新たな曲を生成し、生成した曲に対応するマスキングデータＤｍを生成してもよい。例えば、生成部１１４及び１１４Ａは、指定されたキー及びコードに基づいて自動で作曲又は伴奏する従来技術を適用することにより、新たな曲を生成してもよい。この場合、生成部１１４及び１１４Ａは、検出部１１１によって検出された人間の音声のピッチに基づいてキーを決定し、予め選択されたコードに基づいて、自動で新たな曲を生成してもよい。

【0066】

〔３－２．変形例２〕
上記の第１実施形態及び第２実施形態において、再生装置１５は、生成部１１４から出力されるマスキングデータＤｍに基づいて、マスキング音としての音楽を再生していた。本変形例において、当該再生装置１５は、更に、検出部１１１によって人間の音声が検出された場合に特化して、マスキング音としての音楽を再生してもよい。

【0067】

〔４．付記〕
上述した実施形態等から、例えば以下のような態様が把握される。

【0068】

本開示の態様（第１態様）に係るマスキング装置１は、収音装置１４から出力される出力信号から音声を示す音声信号を検出する検出部１１１を備える。また、当該マスキング装置１は、音声信号を分析することによって、音声の特徴を示す特徴データＤｆを生成する分析部１１２を備える。更に、当該マスキング装置１は、特徴データＤｆに基づいて、音声をマスキングする音楽を示すマスキングデータＤｍを生成する生成部１１４を備える。

【0069】

この構成を有することにより、検出部１１１によって人間の音声をリアルタイムで検出し、分析部１１２で、音声の特徴を抽出し、生成部１１４で音声の特徴に応じた音楽データＤｘを生成することが可能となる。このため、マスキング装置１は、人間の発話に対してリアルタイムで対応するマスキングデータＤｍを生成し、生成されたマスキングデータＤｍに基づいて、人間の音声をマスキングする音楽を再生できる。また、マスキングに用いる音が音楽であるため、長時間聴いても疲れないといった利点がある。

【0070】

また、第１態様の例（第２態様）において、音声の特徴は、音声のピッチ、音声のレベル、及び音声のフォルマントのうち、少なくとも１つを含む。

【0071】

この構成を有することにより、具体的な特徴として、人間の音声のピッチ、レベル、及びフォルマントのうち少なくとも１つに応じて、マスキング音としての音楽を示すマスキングデータＤｍを生成することが可能になる。例えば、人間の音声のピッチやフォルマントに応じて、当該音声を発話したのが男性か女性かを判別し、判別結果に応じて、マスキング音を生成することが可能となる。

【0072】

また、第１態様の例（第３態様）は、音楽を示す音楽データＤｘを取得する取得部１１３を更に備える。生成部１１４は、特徴データＤｆに基づいて、音楽データＤｘを補正することにより、マスキングデータＤｍを生成する。

【0073】

この構成を有することにより、予め記憶された音楽データＤｘを補正してマスキング音を示すマスキングデータＤｍを生成することで、簡便にマスキング音を生成することが可能となる。

【0074】

また、第１態様の例（第４態様）において、上記の音楽は、複数の音色と１対１に対応する複数のパートを含む。また、上記の音楽データＤｘは、複数のパートと１対１に対応する複数のパートデータＤｐを含む。また、生成部１１４は、特徴データＤｆに基づいて、複数のパートデータＤｐのうち一のパートデータＤｐｓを選択する。更に、生成部１１４は、特徴データＤｆに基づいて、一のパートデータＤｐｓの示す音のピッチ、及び一のパートデータＤｐｓの示す音のレベルのうち少なくとも１つを補正することにより、マスキングデータＤｍを生成する。

【0075】

この構成を有することにより、人間の音声の特徴に応じて、音楽データＤｘによって示される音楽内で発せられる音のピッチ、及び音のレベルのうち少なくとも１つを補正することで、マスキング音を示すマスキングデータＤｍを生成することが可能となる。

【0076】

また、第１態様の例（第５態様）において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部１１４は、複数のパートデータＤｐのうち、音域が特徴データＤｆの示す音声のフォルマントに重なる一のパートデータＤｐｓを選択し、特徴データＤｆの示す音声のレベルに応じて、選択した一のパートデータＤｐｓの示す音のレベルを変更するように、当該選択した一のパートデータＤｐｓを変更する。

【0077】

この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータＤｐｓを選択し、選択したパートデータＤｐｓのレベルを、人間の音声のレベルに合わせることが可能となる。

【0078】

また、第１態様の例（第６態様）において、音声の特徴は、音声のピッチと音声のレベルとを含む。生成部１１４は、複数のパートデータＤｐのうち、音域が特徴データＤｆの示す音声のピッチと同じ周波数を含む一のパートデータＤｐｓを選択し、特徴データＤｆの示す音声のレベルに応じて、選択した一のパートデータＤｐｓの示す音のレベルを変更するように、当該選択した一のパートデータＤｐｓを補正する。

【0079】

【0080】

また、第１態様の例（第７態様）において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部１１４は、複数のパートデータＤｐのうち、音域が特徴データＤｆの示す音声のフォルマントに重なる一のパートデータＤｐｓを選択し、特徴データＤｆの示す音声のピッチに応じて、選択した一のパートデータＤｐｓのピッチを変更するように、当該選択した一のパートデータＤｐｓを補正する。

【0081】

この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータＤｐを選択し、選択したパートデータＤｐのピッチを、人間の音声のピッチに合わせることが可能となる。

【0082】

また、第１態様の例（第８態様）において、音声の特徴は、音声のピッチを含む。生成部１１４は、複数のパートデータＤｐのうち、音域が特徴データＤｆの示す音声のピッチと同じ周波数を含む一のパートデータＤｐｓを選択し、特徴データＤｆの示す音声のピッチに応じて、選択した一のパートデータＤｐｓのピッチを変更するように、当該選択した一のパートデータＤｐｓを補正する。

【0083】

この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートを選択し、選択したパートのピッチを、人間の音声のピッチに合わせることが可能となる。

【0084】

また、第１態様の例（第９態様）において、生成部１１４は、選択した一のパートデータＤｐのキーを、オクターブ単位で上下させる。

【0085】

この構成を有することにより、生成部１１４は、音楽データＤｘが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータＤｐｓのみを補正することが可能となる。

【0086】

また、第１態様の例（第１０態様）において、生成部１１４は、選択した一のパートデータＤｐｓのコードを、半音単位で上下させる。

【0087】

この構成を有することにより、生成部１１４は、選択したパートデータＤｐｓのピッチを微調整することが可能となる。

【0088】

また、第１態様の例（第１１態様）において、マスキングデータＤｍは、補正された一のパートデータＤｐｓ’と、上記の複数のパートデータＤｐのうち、上記の一のパートデータＤｐｓを除いたパートデータＤｐとを含む。

【0089】

この構成を有することにより、一つの楽器による演奏音を示すパートデータＤｐｓを補正し、補正されたパートデータＤｐｓ’と、当該パートデータＤｐが補正された楽器とは異なる楽器による演奏音を示すパートデータＤｐとから、マスキングデータＤｍを生成することが可能となる。

【0090】

また、第１態様の例（第１２態様）は、音楽データＤｘを記憶する記憶装置１２を更に備える。取得部１１３は、記憶装置１２から音楽データＤｘを読み出す。生成部１１４は、取得部１１３が音楽データＤｘを読み出している期間中に、検出部１１１によって音声信号が検出された場合、上記の補正を実行する。

【0091】

この構成を有することにより、マスキング装置１は、予め複数の楽器の演奏音を含む楽曲を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、例えば一部の楽器の演奏音を大きくすることが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。

【0092】

また、第１態様の例（第１３態様）は、音楽データＤｘを記憶する記憶装置１２を更に備える。取得部１１３は、記憶装置１２から音楽データＤｘを読み出す。生成部１１４Ａは、検出部１１１によって音声信号が検出されない場合、複数のパートデータＤｐのうち所定のパートを音楽データＤｘとして出力する。また、生成部１１４Ａは、検出部１１１によって音声信号が検出された場合、上記の補正を実行し、所定のパートデータＤｐと補正された一のパートデータＤｐｓ’とを含むマスキングデータＤｍを出力する。

【0093】

この構成を有することにより、マスキング装置１は、予め、あるパートデータＤｐの示す音楽を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、他のパートデータＤｐｓの示す音楽を挿入することが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。

【0094】

また、第１態様の例（第１４態様）において、音楽データＤｘは、ＭＩＤＩデータであってもよい。

【0095】

この構成を有することにより、音楽データＤｘとしてのＭＩＤＩデータを補正することで、マスキング音を示すマスキングデータＤｍを生成することが可能となる。

【0096】

あるいは、第１態様の例（第１５態様）において、音楽データＤｘは、音信号であってもよい。

【0097】

この構成を有することにより、音楽データＤｘとしての音信号を補正することで、マスキング音を示すマスキングデータＤｍを生成することが可能となる。

【0098】

また、第１態様の例（第１６態様）において、生成部１１４は、音楽として新たな曲を生成し、生成した曲に対応するマスキングデータＤｍを生成する。

【0099】

この構成を有することにより、マスキング音のメロディを自動で生成することが可能となる。

【0100】

また、第１態様の例（第１７態様）は、マスキングデータＤｍに基づいて音楽を再生する再生装置１５を更に備える。

【0101】

この構成を有することにより、マスキング音としての音楽を再生することが可能となる。

【0102】

また、第１態様の例（第１８態様）において、再生装置１５は、検出部１１１によって音声が検出された場合に、音楽を再生する。

【0103】

この構成を有することにより、人間の発話のタイミングに合わせて、マスキング音としての音楽を再生することが可能となる。

【符号の説明】

【0104】

１１…制御装置、１２…記憶装置、１３…操作装置、１４…収音装置、１４－１…第１の収音装置、１４－２…第２の収音装置、１５…再生装置、１５－１…第１スピーカー、１５－２…第２スピーカー、１５－３…第３スピーカー、１５－４…第４スピーカー、５１～５４…座席、７１…フロントライトドア、７２…フロントレフトドア、７３…リアライトドア、７４…リアレフトドア、１１１…検出部、１１２…分析部、１１３…取得部、１１４、１１４Ａ…生成部

【図1】