(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023020577
(43)【公開日】2023-02-09
(54)【発明の名称】マスキング装置
(51)【国際特許分類】
G10K 11/175 20060101AFI20230202BHJP
H04R 3/00 20060101ALI20230202BHJP
G10L 25/21 20130101ALI20230202BHJP
G10L 25/90 20130101ALI20230202BHJP
G10L 25/78 20130101ALI20230202BHJP
G10L 19/00 20130101ALI20230202BHJP
【FI】
G10K11/175
H04R3/00 310
H04R3/00 320
G10L25/21
G10L25/90
G10L25/78
G10L19/00 312E
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2021126014
(22)【出願日】2021-07-30
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】辻 信昭
【テーマコード(参考)】
5D061
5D220
【Fターム(参考)】
5D061FF02
5D220AA50
5D220AB01
5D220BA30
(57)【要約】
【課題】人間の発話に対してリアルタイムで対応するマスキング音を生成し、再生するマスキング装置を提供する。
【解決手段】マスキング装置1は、マイクから出力される出力信号から音声を示す音声信号を検出する検出部111と、音声信号を分析することによって、音声の特徴を示す特徴データを生成する分析部112と、特徴データに基づいて、音声をマスキングする音楽を示すマスキングデータを生成する生成部114と、を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
マイクから出力される出力信号から音声を示す音声信号を検出する検出部と、
前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、
前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、
を備えるマスキング装置。
【請求項2】
前記音声の特徴は、前記音声のピッチ、前記音声のレベル、及び前記音声のフォルマントのうち、少なくとも1つを含む、請求項1に記載のマスキング装置。
【請求項3】
音楽を示す音楽データを取得する取得部を更に備え、
前記生成部は、前記特徴データに基づいて、前記音楽データを補正することにより、前記マスキングデータを生成する、請求項1又は請求項2に記載のマスキング装置。
【請求項4】
前記音楽は、複数の音色と1対1に対応する複数のパートを含み、
前記音楽データは、前記複数のパートと1対1に対応する複数のパートデータを含み、
前記生成部は、
前記特徴データに基づいて、前記複数のパートデータのうち一のパートデータを選択し、
前記特徴データに基づいて、前記一のパートデータの示す音のピッチ、及び前記一のパートデータの示す音のレベルのうち少なくとも1つを補正することにより、前記マスキングデータを生成する、
請求項3に記載のマスキング装置。
【請求項5】
前記音声の特徴は、前記音声のフォルマントと前記音声のレベルとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項4に記載のマスキング装置。
【請求項6】
前記音声の特徴は、前記音声のピッチと前記音声のレベルとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項4に記載のマスキング装置。
【請求項7】
前記音声の特徴は、前記音声のフォルマントと前記音声のピッチとを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項4から請求項6のいずれか1項に記載のマスキング装置。
【請求項8】
前記音声の特徴は、前記音声のピッチを含み、
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項4から請求項6のいずれか1項に記載のマスキング装置。
【請求項9】
前記生成部は、前記選択した前記一のパートデータのキーを、オクターブ単位で上下させる、請求項7又は請求項8に記載のマスキング装置。
【請求項10】
前記生成部は、前記選択した前記一のパートデータのコードを、半音単位で上下させる、請求項7から請求項9のいずれか1項に記載のマスキング装置。
【請求項11】
前記マスキングデータは、前記補正された一のパートデータと、前記複数のパートデータのうち前記一のパートデータを除いたパートデータとを含む、請求項4から請求項10のいずれか1項に記載のマスキング装置。
【請求項12】
前記音楽データを記憶する記憶部を更に備え、
前記取得部は、前記記憶装置から前記音楽データを読み出し、
前記生成部は、前記取得部が前記音楽データを読み出している期間中に、前記検出部によって前記音声信号が検出された場合、前記補正を実行する、請求項4から請求項11のいずれか1項に記載のマスキング装置。
【請求項13】
前記音楽データを記憶する記憶部を更に備え、
前記取得部は、前記記憶部から前記音楽データを読み出し、
前記生成部は、
前記検出部によって前記音声信号が検出されない場合、前記複数のパートデータのうち所定のパートデータを前記音楽データとして出力し、
前記検出部によって前記音声信号が検出された場合、前記補正を実行し、前記所定のパートデータと前記補正された一のパートデータとを含む前記マスキングデータを出力する、請求項4から請求項11のいずれか1項に記載のマスキング装置。
【請求項14】
前記音楽データは、MIDIデータである、請求項3から請求項13のいずれか1項に記載のマスキング装置。
【請求項15】
前記音楽データは、音信号である、請求項3から請求項13のいずれか1項に記載のマスキング装置。
【請求項16】
前記生成部は、前記音楽として新たな曲を生成し、生成した曲に対応する前記マスキングデータを生成する、請求項1又は請求項2に記載のマスキング装置。
【請求項17】
前記マスキングデータに基づいて前記音楽を再生する再生部を更に備える、請求項1から請求項16のいずれか1項に記載のマスキング装置。
【請求項18】
前記再生部は、前記検出部によって前記音声が検出された場合に、前記音楽を再生する、請求項17に記載のマスキング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マスキング装置に関する。
【背景技術】
【0002】
従来、自動車の車内や、店舗や病院のカウンター等で、人間同士の対話音声の内容を第三者に把握されなくするために、当該対話音声をかき消すマスキング音を出力する技術が用いられてきた。
【0003】
例えば、特許文献1は、対話音声を秘匿化するための秘匿化装置を開示している。当該秘匿化装置は、一般的な会話の音声を示す音声データと音楽を示す音楽データとが予め記憶された記憶装置を備える。秘匿化装置は、記憶装置から読み出した音声データ及び音楽データが合成された秘匿化データを生成する秘匿化データ生成装置を備える。更に、当該秘匿化装置は、秘匿化データを再生する音楽再生装置を備える。この秘匿化データを再生することによって、例えば、銀行の窓口において、行員と利用者との会話を第三者に聞こえないように秘匿化できる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に係る秘匿化装置は、予め記憶されたサンプルデータとしての音声データと音楽データとを合成することで、マスキング音としての秘匿化データを生成するものであった。すなわち、特許文献1に係る技術は、人間の発話にリアルタイムで対応して、マスキング音を生成するものではなかった。
【0006】
以上の事情を考慮して、本開示のひとつの態様は、人間の発話に対してリアルタイムで対応するマスキングデータを生成し、生成されたマスキングデータに基づいて、人間の音声をマスキングする音楽を再生するマスキング装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
以上の課題を解決するために、本開示のひとつの態様に係るマスキング装置は、マイクから出力される出力信号から音声を示す音声信号を検出する検出部と、前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、を備える。
【図面の簡単な説明】
【0008】
【
図1】第1実施形態に係るマスキング装置1の構成を例示するブロック図である。
【
図2】第1実施形態に係るマスキング装置1を搭載した車両Cの平面図の例である。
【
図3】第1実施形態に係るマスキング装置1を搭載した車両Cの側面図の例である。
【
図4】制御装置11の機能的な構成を例示するブロック図である。
【
図5】音楽データに含まれる複数のパートが各々対応する複数の楽器の周波数帯域の例を示す図である。
【
図6】生成部114によって出力される音楽データ及びマスキングデータに含まれる各パートのレベルを示す図である。
【
図7】第1実施形態に係るマスキング装置1の動作を示すフローチャートである。
【
図8】制御装置11の機能的な構成を例示するブロック図である。
【
図9】生成部114Aによって出力される音楽データ及びマスキングデータに含まれる各パートのレベルを示す図である。
【発明を実施するための形態】
【0009】
〔1.第1実施形態〕
〔1-1.第1実施形態の構成〕
図1は、本開示の第1実施形態に係るマスキング装置1の構成を例示するブロック図である。マスキング装置1は、収音した人間の音声の特徴に応じて、当該音声をマスキングする音楽を示すマスキングデータDmを生成し、生成されたマスキングデータDmに基づいて、当該音声をマスキングする音楽を再生する装置である。具体的には、マスキング装置1は、制御装置11、記憶装置12、操作装置13、収音装置14、及び再生装置15を備える。
【0010】
図1の制御装置11は、例えばマスキング装置1の各要素を制御する単数又は複数のプロセッサである。例えば、制御装置11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、又はASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
【0011】
記憶装置12は、例えば磁気記録媒体又は半導体記録媒体等の公知の記録媒体で構成された単数又は複数のメモリである。記憶装置12は、制御装置11が実行する制御プログラムPR1と制御装置11が使用する各種のデータ、とりわけ音楽データDxを記憶する。なお、記憶装置12は、複数種の記録媒体の組合せにより構成されてもよい。また、記憶装置12は、マスキング装置1に対して着脱可能な可搬型の記録媒体、又はマスキング装置1が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)としてもよい。
【0012】
操作装置13は、利用者からの指示を受け付ける入力機器である。操作装置13は、例えば、利用者が操作可能な複数の操作子、又は、利用者からの接触を検知するタッチパネルである。とりわけ、操作装置13は、マスキング装置1の動作の開始と終了を指示するスイッチとしての機能を有する。また、操作装置13は、記憶装置12に外部から供給される音楽データDxを格納する場合に用いられる。
【0013】
収音装置14は、周囲の音を収音する収音部を備え、収音した音を電気信号に変換するマイクである。収音部は音を収音する構成であれば、どのようなものであってもよいが、例えば、防風の構造が該当する。また、周囲の音には人間の音声が含まれ得る。本実施形態の収音装置14は、収音した音に基づいたアナログ形式の音信号を生成する。また、収音装置14は音信号を音データDsに変換するAD変換器を備える。収音装置14から音データDsが出力される。
【0014】
再生装置15は、制御装置11による制御のもとで、制御装置11により生成されたマスキングデータDmに基づいて音楽を再生する。マスキングデータDmは音楽を示す。再生装置15は、DA変換器、アンプ、及びスピーカーを備える。DA変換器には、デジタル信号であるマスキングデータDmが入力される。入力されたマスキングデータDmは、アナログ信号であるマスキング信号に変換される。マスキング信号は、アンプにおいて、後段のスピーカーでの放音に適した振幅となるように増幅される。振幅が増幅されたマスキング信号によって示される音楽は、放音装置としてのスピーカーから放音される。本実施形態に係るマスキング装置1は、例として、
図2に示される車両Cで用いられることが好適であるが、この場合、車両Cに搭載されたスピーカーが、再生装置15に備わる要素として利用される。
【0015】
図2は、本実施形態に係るマスキング装置1を搭載した車両Cの平面図の例であり、
図3は車両Cの側面図の例である。
【0016】
図2及び
図3に示される例において、車両Cの車室Rには、マスキング装置1の他に、矩形に配置された4つの座席51~54と、天井6と、フロントライトドア71と、フロントレフトドア72と、リアライトドア73と、リアレフトドア74が配置されている。座席51は運転席であり、座席52は助手席であり、座席53は後部右座席であり、更に、座席54は後部左座席である。座席51~54の各々は、布又は革を素材とする材質であり吸音性を有する。座席51~54は、共通の方向を向いている。座席51~54の各々はヘッドレスト51-1~54-1を有する。
【0017】
マスキング装置1は、上記の収音装置14としてのマイク、及び再生装置15の要素である第1スピーカー15-1、第2スピーカー15-2、第3スピーカー15-3及び第4スピーカー15-4を含んで構成されている。収音装置14は、車室Rの天井6に配置される。収音装置14は、第1の収音装置14-1と第2の収音装置14-2とを備えることが好適である。この場合、第1の収音装置14-1は、車室Rの天井6において、前席である座席51及び座席52付近に設置される。また、第1の収音装置14-1は、座席51及び座席52に着座する人物の声を収音しやすくするように、指向性を有することが好適である。同様に、第2の収音装置14-2は、車室Rの天井6において、後席である座席53及び座席54付近に設置される。また、第2の収音装置14-2は、座席53及び座席54に着座する人物の声を収音しやすくするように、指向性を有することが好適である。しかし、収音装置14の構成はこれには限定されない。収音装置14は、前席である座席51及び座席52に着座する人物の声と、後席である座席53及び座席54に着座する人物の声とを個別に収音できることが好適であるが、その構成は問わない。
【0018】
第1スピーカー15-1は、ヘッドレスト51-1に設置される。第2スピーカー15-2は、ヘッドレスト52-1に設置される。第3スピーカー15-3は、ヘッドレスト53-1に設置される。第4スピーカー15-4は、ヘッドレスト54-1に設置される。なお、これらの設置個所は一例であって、これらには限定されない。例えば、第1スピーカー15-1~第4スピーカー15-4の各々は、フロントライトドア71の下部、フロントレフトドア72の下部、リアライトドア73の下部、及びリアレフトドア74の下部に設置されてもよい。
【0019】
第1の収音装置14-1が、前席である座席51及び座席52に着座する人物の声を収音した場合、後席である座席53のヘッドレスト53-1に設置される第3スピーカー15-3、及び座席54のヘッドレスト54-1に設置される第4スピーカー15-4からマスキング信号によって示される音楽が放音される。これは、前席のスピーカーである第1スピーカー15-1及び第2スピーカー15-2からマスキング信号によって示される音楽が放音されると、前席間の会話に支障をきたす恐れがあるためである。
【0020】
これにより、例えば、会話するドライバーの声を、後席に着座する人物に聞かせなくすることが可能となる。延いては、ドライバーは、自らの会話が後席に聞かれていないという安心感を得ることができ、運転に集中することが可能となる。
【0021】
一方で、第2の収音装置14-2が、後席である座席53及び座席54に着座する人物の声を収音した場合、前席である座席51のヘッドレスト51-1に設置される第1スピーカー15-1、及び座席52のヘッドレスト52-1に設置される第2スピーカー15-2からマスキング信号によって示される音楽が放音される。これは、後席のスピーカーである第3スピーカー15-3及び第4スピーカー15-4からマスキング信号によって示される音楽が放音されると、後席間の会話に支障をきたす恐れがあるためである。
【0022】
これにより後席に着座する人物の会話をドライバーに聞かせなくすることが可能となる。更に、マスキング音として音楽を用いることにより、ドライバーは運転に集中することが可能となる。
【0023】
なお、第1の収音装置14-1と第2の収音装置14-2の双方が、座席51~座席54に着座する人物の声を収音した場合、第1スピーカー15-1~第4スピーカー15-4のいずれからも、マスキング信号によって示される音楽は放音されない。これは、前席と後席との間の会話を邪魔しないためである。
【0024】
図4は、制御装置11の機能的な構成を例示するブロック図である。制御装置11は、制御プログラムPR1を読み出し、読み出した制御プログラムPR1を実行することによって、検出部111、分析部112、取得部113、及び生成部114、及び選択部115として機能する。
【0025】
検出部111は、収音装置14から出力される音データDsから、人間の音声を示す音声データDvを検出する。音声データDvは、音声が入っていない無声区間と、音声が入っている音声区間とを有する。検出部111は、例えば、音声帯域を通過帯域とするバンドパスフィルタによって構成される。音データDsの示す音には、音声の他に、走行音及び楽音等が含まれる場合がある。検出部111によって音データDsから音声データDvが抽出される。
【0026】
また、検出部111は、選択部115に対して制御信号Sを出力する。検出部111が、音声データDvから音声区間を検出した場合には、制御信号Sは“ON”を示す値となる。一方で、検出部111が無音区間を検出した場合には、制御信号Sは“OFF”を示す値となる。
【0027】
分析部112は、検出部111によって検出された音声データDvを分析することによって、音声の特徴を示す特徴データDfを生成する。より詳細には、分析部112は、音声区間における音声データDvを分析することによって、音声の特徴を示す特徴データDfを生成する。ここで、「音声の特徴」は、音声のピッチ、音声のレベル、音声のフォルマントのうち少なくとも1つを含む。「音声のピッチ」とは、音声の基本周波数のことである。「音声のレベル」とは、音声の音量のことである。「音声のフォルマント」とは、音声の周波数スペクトルにおいて、周囲よりも強度が大きい周波数帯のことである。当該周波数帯は、低い方から順に、「第1フォルマント」、「第2フォルマント」、「第3フォルマント」・・・と呼称される。複数のフォルマントの各々の周波数の高さによって、音声の質が定まる。
【0028】
とりわけ、分析部112によって生成される特徴データDfに、音声のピッチ、又は音声のフォルマントが含まれる場合、分析部112は、音声のピッチ又はフォルマントを分析することにより、当該音声を発話したのが、男性であるか女性であるかを判別することが可能である。具体的には、分析部112は、音声のピッチが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部112は、音声のピッチが所定値未満である場合には、当該音声の発話の主が男性であると判別する。また、分析部112は、音声に含まれる母音の第1フォルマント及び第2フォルマントが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部112は、音声に含まれる母音の第1フォルマント及び第2フォルマントが所定値未満である場合には、当該音声を発話の主が男性であると判別する。
【0029】
取得部113は、記憶装置12から音楽データDxを取得する。後述のように、マスキング装置1が生成するマスキングデータDmの示す音楽は、複数の音色と1対1に対応する複数のパートを含む。音楽データDxは、これら複数のパートと1対1に対応する複数のパートデータDp1、Dp2、…Dpnを含む。nは2以上の整数である。なお、各パートを区別する必要が無い場合は、単に、パートデータDpと称する。
【0030】
図5は、人間の音声の周波数帯域、及びマスキングデータDmの示す音楽に含まれる複数のパートが各々対応する、複数の音色の周波数帯域の例を示す図である。
図5において、最上段の行は周波数を示す。2段目の行はコードを示す。
図5に示す例においては、同じCコードであると共に、C0からC8へと、1オクターブずつ周波数が上昇する例を示す。3段目~9段目の行は人間の音声の周波数帯域を示す。10段目~14段目の行は楽器の演奏音の周波数帯域を示す。
【0031】
図5に示されるように、人間の音声は略73Hzから略1047Hzの周波数帯域を有する。
【0032】
とりわけ男性の音声であるバスは、およそD2からF4の声域、すなわち略73Hzから略350Hzの周波数帯域を有する。男性の音声であるバリトンは、およそG2からG4の声域、すなわち略98Hzから略392Hzの周波数帯域を有する。男性の音声であるテノールは、およそC3からC5の声域、すなわち略131Hzから略523Hzの周波数帯域を有する。総じて男性の音声は、略73Hzから略523Hzの周波数帯域を有する。
【0033】
女性の音声であるアルトは、およそF3からE5の声域、すなわち略175Hzから略659Hzの周波数帯域を有する。女性の音声であるメゾソプラノは、およそA3からA5の声域、すなわち略220Hzから略880Hzの周波数帯域を有する。女性の音声であるソプラノは、およそC4からC6の声域、すなわち略262Hzから略1047Hzの周波数帯域を有する。総じて女性の音声は、略175Hzから略1047Hzの周波数帯域を有する。
【0034】
一方、
図5に示されるように、楽器の演奏音は、略25Hzから略4400Hzの周波数帯域を有する。例として、パートデータDp1に対応するコントラバスは、およそE1からG3の音域、すなわち、略41Hzから略196Hzの周波数帯域を有する。パートデータDp2に対応するチェロは、およそC2からC5の音域、すなわち略65Hzから略523Hzの周波数帯域を有する。パートデータDp3に対応するビオラは、およそC3からC6の音域、すなわち略131Hzから略1047Hzの周波数帯域を有する。パートデータDp4に対応するバイオリンは、およそG3からE7の音域、すなわち略196Hzから略2637Hzの周波数帯域を有する。
【0035】
人間の音声の周波数帯域と、楽器の演奏音の周波数帯域とを比較すると、男性の音声の周波数帯域は、概ね、チェロの演奏音の周波数帯域に含まれると言える。一方、女性の音声の周波数帯域は、概ね、ビオラの演奏音の周波数帯域に含まれると言える。
【0036】
マスキングデータDmの示す音楽に含まれる複数のパートの各々は、人間の音声のピッチ又はフォルマントに対応付けられている。例として、チェロのパートと、音声のピッチのうち、男性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、チェロのパートと、音声のフォルマントのうち、男性の音声であることを示すフォルマントとが対応付けられていてもよい。同様に、ビオラのパートと、音声のピッチのうち、女性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、ビオラのパートと、音声のフォルマントのうち、女性の音声であることを示すフォルマントとが対応付けられていてもよい。
【0037】
音楽データDxはMIDI(Musical Instrument Digital Interface)データであってよい。音楽データDxがMIDIデータである場合、所定楽曲の音楽データDxは、各々が各音色に対応する複数のパートデータDpを包含する。ここで、各パートデータDpに対応する音色は、楽器音のみならず、人の声、合成音等の楽器以外の音声の音色も含む。あるいは、音楽データDxは音楽信号をサンプリングすることによって得られたPCMデータであってもよい。また、音楽データDxがPCMデータである場合、音楽データDxは複数の音色に1対1に対応する複数のPCMデータから構成されてもよい。音楽データDxが、複数の音色が混在したPCMデータの場合には、周知の音源分離技術により、音楽データDxを複数の音色のPCMデータに分解し、その中から所定の音色(チェロ、ビオラ、等)を選択し、マスキングに利用しても良い。複数のPCMデータはパートデータDp1~Dpnに対応する。
【0038】
図4に戻ると、生成部114は、分析部112によって生成された特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する。とりわけ、本実施形態において、生成部114は、特徴データDfに基づいて、取得部113によって取得された音楽データDxに含まれる複数のパートデータDp1~Dpnのうち、1つのパートデータDpを選択する。次に、生成部114は、選択したパートデータDpの示す音のピッチ、及び音のレベルのうち少なくとも1つを補正することにより、マスキングデータDmを生成する。選択されたパートデータDpがDpsである場合、マスキングデータDmは、パートデータDpsが補正された1つのパートデータDps’と、上記の複数のパートデータDp1~Dpnのうち、当該補正の対象となった1つのパートデータDpsを除いたパートデータDpとを含む。
【0039】
より詳細には、生成部114は、音声の特徴にフォルマントが含まれる場合、音声のフォルマントに重なる音域のパートデータDpsを選択する。あるいは、生成部114は、音声の特徴にピッチが含まれる場合、音声のピッチと同じ周波数が含まれる音域のパートデータDpsを選択する。例として、音声のフォルマント又はピッチが、男性の音声に対応する場合には、生成部114は、チェロのパートを選択する。一方で、音声のフォルマント又はピッチが、女性の音声に対応する場合には、生成部114は、ビオラのパートを選択する。
【0040】
なお、適切なパートが存在しなかった場合には、生成部114は、既存のパートデータDp1~Dpnの中から、音声の特徴のうち、音声のフォルマントに最も近い音域のパートデータDpsを選択する。あるいは、生成部114は、既存のパートデータDp1~Dpnの中から、音声の特徴のうち音声のピッチに最も近い周波数を有する音域のパートデータDpsを選択する。
【0041】
その上で、生成部114は、選択したパートデータDpsの示す音のレベルを、音声のレベルに応じて変更するように、当該パートデータDpsを補正し、パートデータDps’を生成する。より詳細には、生成部114は、パートデータDps’に基づく音楽をスピーカーから放音した場合に、放音される音楽によって音声データDvの示す音声をマスキングできるようにパートデータDpsを補正する。更に、生成部114は、補正されたパートデータDps’と、複数のパートデータDpのうち、当該補正の対象となったパートデータDpsを除いたパートデータDpとから、マスキングデータDmを生成する。とりわけ、検出部111によって検出された音声のレベルが大きい場合には、生成部114は、音声の大きさに応じて、選択したパートデータDpの示す音のレベルを上げるように、当該パートデータDpを補正する。
【0042】
また、本実施形態において、生成部114は、取得部113が、記憶装置12から音楽データDxを読み出している期間中に、検出部111によって音声データDvの音声区間が検出された場合、上記の補正を実行することで、マスキングデータDmを生成する。更に生成部114は、生成したマスキングデータDmを、選択部115に出力する。
【0043】
また、生成部114は、マスキングデータDmの出力と並行して、取得部113から取得した音楽データDxを、選択部115に出力する。
【0044】
選択部115は、検出部111から入力される制御信号Sに基づいて、マスキングデータDmと音楽データDxのうち一方を選択し、再生装置15に出力する。より詳細には、制御信号Sが“ON”を示す値である場合には、選択部115は、マスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。一方で、制御信号Sが“OFF”を示す値である場合には、選択部115は、音楽データDxを選択し、選択した音楽データDxを再生装置15に出力する。
【0045】
再生装置15は、MIDIデータ又はPCMデータのフォーマットを、音楽データのフォーマットに変換する機能を有する。これにより、再生装置15は、常時音楽データDxの示す音楽を再生しており、その途中で、マスキングデータDmの示す音楽を再生するように動作を切り替える。この際、生成部114は、元々再生されていた音楽の一パートを示すパートデータDpsを補正する。このため、再生装置15によって再生される音楽を聴いていた人間にとって、違和感が発生しない。
【0046】
図6は、生成部114によって出力される音楽データDx及びマスキングデータDmに含まれる各パートデータDpのレベルを示す図である。なお、
図6に示す例は、音声データDvによって示される人間の音声が男性の音声である場合を示す。時刻t1の時点で、生成部114は、あらかじめ音楽データDxとして、チェロのパートデータDp2と、その他のパートデータDp1、Dp3及びDp4とをパラレルに選択部115に対して出力しておく。この間、選択部115は、音楽データDxを再生装置15に出力する。時刻t2の時点で、検出部111が人間の音声を検出すると、分析部112が、当該音声のレベルと、当該音声のピッチ、及びフォルマントのうち少なくとも1つを含む音声の特徴を示す特徴データDfを生成する。生成部114は、音域が当該音声のピッチと同じ周波数を含むパートデータDp、あるいは、音域が当該音声のフォルマントに重なるパートデータDpとして、チェロのパートデータDp2を選択する。更に、生成部114は、当該音声のレベルに応じて、チェロのパートデータDp2の示す音のレベルを上げるように、当該パートデータDp2を補正し、パートデータDp2’を生成する。生成部114は、音のレベルを上げたチェロのパートデータDp2を含むマスキングデータDmを、再生装置15に出力する。マスキングデータDmに含まれる他のパートデータDp1、Dp3及びDp4に関しては、引き続き音のレベルが変更されることがない。選択部115は、制御信号Sに基づいて、音楽データDxとマスキングデータDmとからマスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。時刻t3の時点で、検出部111が人間の音声を検出しなくなると、生成部114は、チェロのパートデータDp2のレベルを元に戻す。その上で、生成部114は、チェロのパートデータDp2とその他のパートデータDp1、Dp3及びDp4を含む音楽データDxを再生装置15に出力し続ける。
【0047】
生成部114は、音のレベルに係る補正の代わりに、あるいは音のレベルに係る補正に加えて、検出部111によって検出された音声データDvによって示される音声のピッチに、選択したパートデータDpの示す音のピッチを近づけるように、当該選択したパートデータDpを補正し、パートデータDp’を生成してもよい。音声のピッチと補正後の音のピッチとの差分は、音声のピッチと補正前の音のピッチとの差分より小さい。従って、音声のピッチと補正後の音のピッチとは、不一致であってよい。
【0048】
より詳細には、生成部114は、人間の音声のピッチに応じて、選択したパートデータDpの示す音のキーをオクターブ単位で上下させるように、当該選択したパートデータDpを補正し、パートデータDp’を生成してもよい。これにより、生成部114は、音楽データDxが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータDpのみを補正することが可能となる。
【0049】
あるいは生成部114は、人間の音声のピッチに応じて、選択したパートデータDpの示す音のコードを半音単位で上下させるように、選択したパートデータDpを補正し、パートデータDp’を生成してもよい。これにより、音楽データDxが示す音楽の曲調は変わるものの、生成部114は、選択したパートデータDpの示す音のピッチを微調整することが可能となる。このように音のピッチを補正することによって、音のピッチが音声のピッチに近づくので、マスキングの効果が向上する。
【0050】
〔1-2.第1実施形態の動作〕
図7は、第1実施形態に係るマスキング装置1の動作を示すフローチャートである。以下、
図7を参照することにより、第1実施形態に係るマスキング装置1の動作について説明する。
【0051】
ステップS1において、取得部113は、記憶装置12から音楽データDxを取得する。
【0052】
ステップS2において、生成部114は、取得部113から取得した音楽データDxを、選択部115に出力する。選択部115は、音楽データDxを再生装置15に出力する。
【0053】
ステップS3において、検出部111によって人間の音声が検出された場合(S3:YES)には、マスキング装置1はステップS4の処理を実行する。検出部111によって人間の音声が検出されていない場合(S3:NO)には、マスキング装置1は、ステップS2の処理を実行する。
【0054】
ステップS4において、分析部112は、検出部111によって検出された音声信号を分析することによって、音声の特徴を示す特徴データDfを生成する。
【0055】
ステップS5において、生成部114は、分析部112によって生成された特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する。より詳細には、ステップS5において、生成部114は、特徴データDfに基づいて、取得部113によって取得された音楽データDxに含まれる複数のパートデータDpのうち、1つのパートデータDpsを選択する。次に、生成部114は、選択したパートデータDpsの示す音のレベルを特徴データDfに応じて変更するように、当該選択したパートデータDpsを補正し、パートデータDps’を生成する。更に、生成部114は、パートデータDps’と、複数のパートデータDpのうち、当該補正の対象となったパートデータDpsを除いたパートデータDpとから、マスキングデータDmを生成する。なお、生成部114は、選択したパートデータDpsの示す音のレベルの代わりに、あるいは音のレベルに加えて、音のピッチを特徴データDfに応じて変更してもよい。とりわけ、生成部114は、取得部113が記憶装置12から音楽データDxを読み出している期間中に、検出部111によって音声区間が検出された場合、上記の補正を実行する。
【0056】
ステップS6において、生成部114は、生成したマスキングデータDmを、選択部115に出力する。選択部115は、マスキングデータDmを再生装置15に出力する。
【0057】
〔2.第2実施形態〕
以下、本開示の第2実施形態に係るマスキング装置1について説明する。第2実施形態に係るマスキング装置1に備わる構成要素のうち、第1実施形態に係るマスキング装置1に備わる構成要素と同一の構成要素については、同一の符号を用いると共に、その機能の説明を省略する。
【0058】
〔2-1.第2実施形態の構成〕
図8は、第2実施形態に係るマスキング装置1が備える制御装置11の機能的な構成を例示するブロック図である。第2実施形態に係るマスキング装置1は、第1実施形態に係るマスキング装置1に備わる生成部114の代わりに、生成部114Aを備える。
【0059】
生成部114Aは、複数のパートデータDpのうち所定のパートデータDpを音楽データDxとして、選択部115に出力する。一方で、生成部114Aは生成部114と同様の補正を実行する。その上で、生成部114Aは、上記の所定のパートデータDpと、補正後の一のパートデータDps’とを含むマスキングデータDmを、選択部115に出力する。
【0060】
図9は、生成部114Aによって生成されるマスキングデータDmに含まれる各パートデータDpのレベルを示す図である。なお、
図9に示す例は、人間の音声が男性の音声である場合を示す。時刻t1の時点で、生成部114は、あらかじめ音楽データDxとして、チェロ以外のその他のパートデータDpを、選択部115に対して出力しておく。「その他のパートデータ」は、例えばバイオリンのパートデータDp4である。この間、選択部115は、音楽データDxを再生装置15に出力する。時刻t2の時点で、検出部111が人間の音声を検出すると、分析部112が、当該音声のピッチ、レベル、及びフォルマントのうち、少なくとも1つを含む音声の特徴データDfを生成する。生成部114は、音域が当該音声のピッチと同じ周波数を含むパートデータDp、あるいは、音域が当該音声のフォルマントに重なるパートデータDpとして、チェロのパートデータDp2を選択する。更に、生成部114は、チェロのパートデータDp2によって示される音のレベルを、当該音声のレベルに応じて変更するように、当該チェロのパートデータDp2を補正し、パートデータDp2’を生成する。生成部114は、音のレベルを補正したチェロのパートデータDp2’と、音のレベルを補正していないバイオリンのパートデータDp4とを含むマスキングデータDmを、選択部115に出力する。選択部115は、制御信号Sに基づいて、音楽データDxとマスキングデータDmとからマスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。時刻t3の時点で、検出部111が人間の音声を検出しなくなると、生成部114は、チェロの補正後のパートデータDp2’の出力を停止する。その上で、生成部114は、その他のパートデータDpであるバイオリンのパートデータDp4を、音楽データDxとして選択部115に出力し続ける。選択部115は、音楽データDxを再生装置15に出力する。
【0061】
〔2-2.第2実施形態の動作〕
第2実施形態に係るマスキング装置1の動作は、基本的には、第1実施形態に係るマスキング装置1の動作と同様であるため、その図示を省略する。
【0062】
ステップS2において、生成部114Aは、音楽データDxに含まれる複数のパートデータDpのうち所定のパートデータDpを、選択部115に出力する。選択部115は、所定のパートデータDpを音楽データDxとして再生装置15に出力する。
【0063】
ステップS5において、生成部114Aは、生成部114と同様の補正を実行し、ステップS2における所定のパートデータDpと、補正後の一のパートデータDps’とを含むマスキングデータDmを、生成する。
【0064】
〔3.変形例〕
以上の実施態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は相矛盾しない限り適宜に併合され得る。
【0065】
〔3-1.変形例1〕
上記の第1実施形態及び第2実施形態において、生成部114及び114Aは、取得部113によって記憶装置12から取得された音楽データDxを補正することにより、マスキングデータDmを生成していた。しかし、本発明の実施態様におけるマスキングデータDmの生成方法は、これには限定されない。例えば、生成部114及び114Aは、新たな曲を生成し、生成した曲に対応するマスキングデータDmを生成してもよい。例えば、生成部114及び114Aは、指定されたキー及びコードに基づいて自動で作曲又は伴奏する従来技術を適用することにより、新たな曲を生成してもよい。この場合、生成部114及び114Aは、検出部111によって検出された人間の音声のピッチに基づいてキーを決定し、予め選択されたコードに基づいて、自動で新たな曲を生成してもよい。
【0066】
〔3-2.変形例2〕
上記の第1実施形態及び第2実施形態において、再生装置15は、生成部114から出力されるマスキングデータDmに基づいて、マスキング音としての音楽を再生していた。本変形例において、当該再生装置15は、更に、検出部111によって人間の音声が検出された場合に特化して、マスキング音としての音楽を再生してもよい。
【0067】
〔4.付記〕
上述した実施形態等から、例えば以下のような態様が把握される。
【0068】
本開示の態様(第1態様)に係るマスキング装置1は、収音装置14から出力される出力信号から音声を示す音声信号を検出する検出部111を備える。また、当該マスキング装置1は、音声信号を分析することによって、音声の特徴を示す特徴データDfを生成する分析部112を備える。更に、当該マスキング装置1は、特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する生成部114を備える。
【0069】
この構成を有することにより、検出部111によって人間の音声をリアルタイムで検出し、分析部112で、音声の特徴を抽出し、生成部114で音声の特徴に応じた音楽データDxを生成することが可能となる。このため、マスキング装置1は、人間の発話に対してリアルタイムで対応するマスキングデータDmを生成し、生成されたマスキングデータDmに基づいて、人間の音声をマスキングする音楽を再生できる。また、マスキングに用いる音が音楽であるため、長時間聴いても疲れないといった利点がある。
【0070】
また、第1態様の例(第2態様)において、音声の特徴は、音声のピッチ、音声のレベル、及び音声のフォルマントのうち、少なくとも1つを含む。
【0071】
この構成を有することにより、具体的な特徴として、人間の音声のピッチ、レベル、及びフォルマントのうち少なくとも1つに応じて、マスキング音としての音楽を示すマスキングデータDmを生成することが可能になる。例えば、人間の音声のピッチやフォルマントに応じて、当該音声を発話したのが男性か女性かを判別し、判別結果に応じて、マスキング音を生成することが可能となる。
【0072】
また、第1態様の例(第3態様)は、音楽を示す音楽データDxを取得する取得部113を更に備える。生成部114は、特徴データDfに基づいて、音楽データDxを補正することにより、マスキングデータDmを生成する。
【0073】
この構成を有することにより、予め記憶された音楽データDxを補正してマスキング音を示すマスキングデータDmを生成することで、簡便にマスキング音を生成することが可能となる。
【0074】
また、第1態様の例(第4態様)において、上記の音楽は、複数の音色と1対1に対応する複数のパートを含む。また、上記の音楽データDxは、複数のパートと1対1に対応する複数のパートデータDpを含む。また、生成部114は、特徴データDfに基づいて、複数のパートデータDpのうち一のパートデータDpsを選択する。更に、生成部114は、特徴データDfに基づいて、一のパートデータDpsの示す音のピッチ、及び一のパートデータDpsの示す音のレベルのうち少なくとも1つを補正することにより、マスキングデータDmを生成する。
【0075】
この構成を有することにより、人間の音声の特徴に応じて、音楽データDxによって示される音楽内で発せられる音のピッチ、及び音のレベルのうち少なくとも1つを補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。
【0076】
また、第1態様の例(第5態様)において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のフォルマントに重なる一のパートデータDpsを選択し、特徴データDfの示す音声のレベルに応じて、選択した一のパートデータDpsの示す音のレベルを変更するように、当該選択した一のパートデータDpsを変更する。
【0077】
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpsを選択し、選択したパートデータDpsのレベルを、人間の音声のレベルに合わせることが可能となる。
【0078】
また、第1態様の例(第6態様)において、音声の特徴は、音声のピッチと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のピッチと同じ周波数を含む一のパートデータDpsを選択し、特徴データDfの示す音声のレベルに応じて、選択した一のパートデータDpsの示す音のレベルを変更するように、当該選択した一のパートデータDpsを補正する。
【0079】
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpsを選択し、選択したパートデータDpsのレベルを、人間の音声のレベルに合わせることが可能となる。
【0080】
また、第1態様の例(第7態様)において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のフォルマントに重なる一のパートデータDpsを選択し、特徴データDfの示す音声のピッチに応じて、選択した一のパートデータDpsのピッチを変更するように、当該選択した一のパートデータDpsを補正する。
【0081】
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpを選択し、選択したパートデータDpのピッチを、人間の音声のピッチに合わせることが可能となる。
【0082】
また、第1態様の例(第8態様)において、音声の特徴は、音声のピッチを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のピッチと同じ周波数を含む一のパートデータDpsを選択し、特徴データDfの示す音声のピッチに応じて、選択した一のパートデータDpsのピッチを変更するように、当該選択した一のパートデータDpsを補正する。
【0083】
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートを選択し、選択したパートのピッチを、人間の音声のピッチに合わせることが可能となる。
【0084】
また、第1態様の例(第9態様)において、生成部114は、選択した一のパートデータDpのキーを、オクターブ単位で上下させる。
【0085】
この構成を有することにより、生成部114は、音楽データDxが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータDpsのみを補正することが可能となる。
【0086】
また、第1態様の例(第10態様)において、生成部114は、選択した一のパートデータDpsのコードを、半音単位で上下させる。
【0087】
この構成を有することにより、生成部114は、選択したパートデータDpsのピッチを微調整することが可能となる。
【0088】
また、第1態様の例(第11態様)において、マスキングデータDmは、補正された一のパートデータDps’と、上記の複数のパートデータDpのうち、上記の一のパートデータDpsを除いたパートデータDpとを含む。
【0089】
この構成を有することにより、一つの楽器による演奏音を示すパートデータDpsを補正し、補正されたパートデータDps’と、当該パートデータDpが補正された楽器とは異なる楽器による演奏音を示すパートデータDpとから、マスキングデータDmを生成することが可能となる。
【0090】
また、第1態様の例(第12態様)は、音楽データDxを記憶する記憶装置12を更に備える。取得部113は、記憶装置12から音楽データDxを読み出す。生成部114は、取得部113が音楽データDxを読み出している期間中に、検出部111によって音声信号が検出された場合、上記の補正を実行する。
【0091】
この構成を有することにより、マスキング装置1は、予め複数の楽器の演奏音を含む楽曲を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、例えば一部の楽器の演奏音を大きくすることが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。
【0092】
また、第1態様の例(第13態様)は、音楽データDxを記憶する記憶装置12を更に備える。取得部113は、記憶装置12から音楽データDxを読み出す。生成部114Aは、検出部111によって音声信号が検出されない場合、複数のパートデータDpのうち所定のパートを音楽データDxとして出力する。また、生成部114Aは、検出部111によって音声信号が検出された場合、上記の補正を実行し、所定のパートデータDpと補正された一のパートデータDps’とを含むマスキングデータDmを出力する。
【0093】
この構成を有することにより、マスキング装置1は、予め、あるパートデータDpの示す音楽を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、他のパートデータDpsの示す音楽を挿入することが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。
【0094】
また、第1態様の例(第14態様)において、音楽データDxは、MIDIデータであってもよい。
【0095】
この構成を有することにより、音楽データDxとしてのMIDIデータを補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。
【0096】
あるいは、第1態様の例(第15態様)において、音楽データDxは、音信号であってもよい。
【0097】
この構成を有することにより、音楽データDxとしての音信号を補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。
【0098】
また、第1態様の例(第16態様)において、生成部114は、音楽として新たな曲を生成し、生成した曲に対応するマスキングデータDmを生成する。
【0099】
この構成を有することにより、マスキング音のメロディを自動で生成することが可能となる。
【0100】
また、第1態様の例(第17態様)は、マスキングデータDmに基づいて音楽を再生する再生装置15を更に備える。
【0101】
この構成を有することにより、マスキング音としての音楽を再生することが可能となる。
【0102】
また、第1態様の例(第18態様)において、再生装置15は、検出部111によって音声が検出された場合に、音楽を再生する。
【0103】
この構成を有することにより、人間の発話のタイミングに合わせて、マスキング音としての音楽を再生することが可能となる。
【符号の説明】
【0104】
11…制御装置、12…記憶装置、13…操作装置、14…収音装置、14-1…第1の収音装置、14-2…第2の収音装置、15…再生装置、15-1…第1スピーカー、15-2…第2スピーカー、15-3…第3スピーカー、15-4…第4スピーカー、51~54…座席、71…フロントライトドア、72…フロントレフトドア、73…リアライトドア、74…リアレフトドア、111…検出部、112…分析部、113…取得部、114、114A…生成部