(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
マスカ音は、音量が小さいとマスキング効果を得ることが難しくなる。したがって、マスカ音はある程度の音量で出力する必要があるが、マスカ音の音量が大きすぎると聞きたい音(例えば呼び出し音声)を聞くことができなくなってしまう。
【0006】
そこで、本発明は、十分なマスキング効果を得ることができ、かつ聞きたい音を適切な音量で聞くことができる音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
この発明の音声出力システムは、マスカ音を出力するマスカ音出力装置と、ユーザによって携帯される端末装置と、を備えている。マスカ音出力装置は、前記ユーザに対してマスカ音を出力するように設置されている。そして、端末装置は、前記ユーザ毎に必要な音声を出力する。
【0008】
以上の構成により、聞きたい音声は、ユーザが携帯する端末装置(音声端末)からユーザの直近位置で出力されるため、マスキング効果を得るためにマスカ音の音量を大きくした場合であっても、ユーザが聞きたい音を適切な音量で聞くことができる。
【0009】
また、上記音声出力システムにおいて、音声端末がマスカ音を補助する音声を出力することで、よりマスキング効果を高めることも可能である。マスカ音を補助する音声としては、マスカ音出力装置が出力するマスカ音と同じものを出力する態様や、小川のせせらぎや木々のざわめきのような背景音や、断続的に発生する楽音のような演出性の高い音(演出音)等を出力する態様も可能である。
【0010】
また、上記音声出力システムにおいて、音声端末から所定のコンテンツの音声を出力することも可能である。音声端末からコンテンツの音声を出力することで、ユーザの注意をマスク対象の音声からコンテンツの音声に向けさせることができ、よりマスキング効果を高めることができる。
【0011】
なお、ユーザからコンテンツの選択を受け付ける受付手段を備え、ユーザが所望するコンテンツの音声を出力することで、さらにマスキング効果を高めることが望ましい。
【0012】
実際には、銀行や調剤薬局等の待合場所に設けられた複数の表示装置に表示されるコンテンツの中から選択して対応する音声を出力することが望ましい。
【0013】
また、上記マスカ音を補助する音声は、ユーザからコンテンツの選択を受け付けなかった場合に出力することが望ましい。
【発明の効果】
【0014】
この発明によれば、十分なマスキング効果を得ることができ、かつユーザが聞きたい音を適切な音量で聞くことができる。
【発明を実施するための形態】
【0016】
図1は、音声出力システムの概要を示す配置図である。音声出力システムは、例えば銀行や調剤薬局等の対話カウンタおよび待合場所に設置される。対話カウンタの近傍にはマスカ音を出力するマスカ音出力装置3が設置され、待合場所に向けてマスカ音が放音される。このマスカ音は、対話カウンタ内で会話を行う者の発言内容をマスクし、待合場所に居る者に発言内容を理解できないようにするものである。
【0017】
図1においては、3つの対話カウンタにそれぞれユーザ90およびスタッフ91が存在し、対話カウンタから離れた待合場所に複数のユーザ92が存在する。スタッフ91は、例えば薬の説明を行う薬剤師であり、ユーザ90は薬の説明を聞く患者であり、ユーザ92は順番待ちの患者である。
【0018】
各ユーザ92は、受付場所のスタッフ93から音声端末1を受け取り、携帯する。この音声端末1には、スピーカが設けられており、順番が来たときに呼び出し音声(合成音声やスタッフの実音声、あるいはビープ音等)が出力される。ユーザ92は、呼び出し音声を聞くことで順番が来たことを知ることができる。順番が来たユーザ92は、音声端末1を携帯して対話カウンタに向かい、対話カウンタ内でスタッフ91に音声端末1を返却する。このようにして、音声端末1は、無線呼び出し(いわゆるページャ)の機能を有する。このように、ユーザが携帯する音声端末1から呼び出し音声を出力することで、マスカ音出力装置3が、マスキング効果を得るためにマスカ音をある程度の音量で出力したとしても、ユーザ毎に必要な音声(本実施形態では呼び出し音声)を適切な音量で聞くことができる。
【0019】
また、本実施形態の音声出力システムでは、待合場所に表示装置7が設けられている。表示装置7は、一般的に待合場所に設けられた汎用情報表示用ディスプレイであり、所定のコンテンツの映像が表示されている。この例では、3つの表示装置7が設置され、それぞれ豆知識チャンネル、健康チャンネル、宣伝広告チャンネル等、チャンネル毎に個別のコンテンツ映像が表示されている。音声端末1は、これらコンテンツの音声も出力する。音声出力の対象となるコンテンツは、ユーザが音声端末1を操作して、手動で選択することができるようになっている。ユーザ92は、音声端末1から出力されるコンテンツの音声を聞くことで、自身の注意がマスク対象の音声(対話カウンタ内の会話)ではなく、コンテンツの音声に向くことになり、よりマスキング効果を高めることができる。
【0020】
以下、上記の音声出力システムを実現するための具体的な構成、動作について説明する。
図2(A)は、音声端末1の構成を示すブロック図であり、
図2(B)は、音声端末1の外観図である。
図3は、マスカ音出力装置3の構成を示すブロック図であり、
図4は、サーバ5の構成を示すブロック図である。
図5は、サーバ5とマスカ音出力装置3の動作を示すフローチャートである。
図6および
図7は、サーバ5と音声端末1の動作を示すフローチャートである。
【0021】
音声端末1は、マイク11、A/Dコンバータ12、信号処理部13、D/Aコンバータ14、スピーカ15、制御部16、通信部17、および操作部18を備えている。
【0022】
マスカ音出力装置3は、通信部31、制御部32、信号処理部33、D/Aコンバータ34、およびスピーカ35を備えている。
【0023】
サーバ5は、通信部51、制御部52、マスカ音生成部53、マスカ音記憶部54、コンテンツ記憶部55、および出力インタフェース(I/F)56を備えている。
【0024】
マスカ音出力装置3は、通信部31を介してサーバ5の通信部51と接続され、サーバ5から種々のデータを送受信する。ここでは、主にサーバ5からマスカ音に係る音データを受信する。
【0025】
サーバ5の制御部52は、マスカ音生成部53にマスカ音の生成を指示し、マスカ音生成部53が生成したマスカ音に係る音データを通信部51を介してマスカ音出力装置3に出力する。
【0026】
マスカ音生成部53は、マスカ音記憶部54に記憶されている各種音データを読み出してマスカ音に係る音データを生成し、制御部52に出力する。マスカ音は、音声をマスクすることが可能な音であればどの様な音であってもよいが、例えば、マスカ音記憶部54に記憶されている撹乱音、背景音、および演出音を組み合わせて生成する。
【0027】
撹乱音は、マスク対象の音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものである。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声(男性および女性を含む複数人の音声)を録音し、所定時間毎に一定長の区間に分割した音声信号を各区間で逆方向に読み出す等して、語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク(フォルマント)を抽出し、語彙に影響する特定のフォルマントを変更して語彙的に意味をなさない音声に変更する。
【0028】
なお、撹乱音は、音声端末1のマイクを用いて、対話カウンタ内の話者の音声を取得して、取得した音声を改変することにより、都度、生成する態様としてもよい。
【0029】
背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴覚的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくする。
【0030】
演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音をユーザ92に聴取させることで、話者の音声をマスクしつつ、不快感を低減することが可能となる。
【0031】
なお、マスカ音記憶部54に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ1つに限らず、複数の音データであってもよい。この場合、マスカ音生成部53は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、予め規定された組み合わせテーブル(マスカ音記憶部54に記憶されたテーブル)に従って選択する態様としてもよい。また、テーブルには、各音の音量や読み出しタイミング等を記載しておき、各音の音量や読み出しタイミングを個別に変更する態様としてもよい。また、各音データを予め合成済みのマスカ音として記憶しておき、再生するように構成することも可能である。
【0032】
サーバ5は、このようなマスカ音に係る音データを生成し、マスカ音出力装置3に送信する。マスカ音出力装置3の制御部32は、通信部31を介してマスカ音に係る音データを受信し、再生処理を行う。例えば、マスカ音に係る音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部33に出力する。信号処理部33は、入力されたデジタル音声信号の音量や周波数特性等を調整し、D/Aコンバータ34に出力する。信号処理部33から出力されたデジタル音声信号は、D/Aコンバータ34でアナログ音声信号に変換され、スピーカ35から放音される。このようにして、待合場所に居るユーザ92にマスカ音が出力される。
【0033】
次に、サーバ5と音声端末1の機能、動作について説明する。音声端末1は、通信部17を介してサーバ5の通信部51と接続され、サーバ5から種々のデータを送受信する。ここでは、主に呼び出し音声に係る音データや、コンテンツの音データをサーバ5から受信する。
【0034】
サーバ5の制御部52は、コンテンツ記憶部55からコンテンツに係る音データおよび映像データを読み出し、コンテンツに係る音データを通信部51を介して音声端末1に送信する。また、制御部52は、コンテンツに係る映像データを出力I/F56を介して各表示装置7に出力する。コンテンツに係る音データおよび映像データは、複数種類記憶されており、同時に表示装置の数だけ(本実施形態では3つ)読み出しされる。
【0035】
なお、音データについては、同時に複数読み出してブロードキャストで全音声端末1に送信するようにしてもよいが、音声端末1から要求がなされたコンテンツに係る音データを読み出し、ユニキャストで送信してもよい。例えば、本実施形態では、
図1に示すように、3つの表示装置7にそれぞれch.1(豆知識チャンネル)、ch.2(健康チャンネル)、ch.3(宣伝広告チャンネル)のコンテンツ映像が表示されている。そのため、ユーザは、音声端末1の操作部18のうち、
図2(B)に示すように、「1」、「2」、「3」と表示されたボタンを押下する。例えばユーザが「1」と表示されたボタンを押下すると、制御部16は、ch.1のコンテンツの音データの配信要求を行う。すると、サーバ5の制御部52は、ch.1のコンテンツの音データを要求がなされた音声端末1に送信する。
【0036】
サーバ5は、このようにして、コンテンツに係る音データを音声端末1に送信する。音声端末1の制御部16は、通信部17を介してコンテンツに係る音データを受信し、再生処理を行う。例えば、音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部13に出力する。また、サーバ5から複数の音データが同時に送信された場合、操作部18のうち、押下されたボタンに対応するチャンネルのデジタル音声信号のみ信号処理部13に出力する。
【0037】
信号処理部13は、入力されたデジタル音声信号の音量や周波数特性等を調整し、D/Aコンバータ14に出力する。信号処理部13から出力されたデジタル音声信号は、D/Aコンバータ14でアナログ音声信号に変換され、スピーカ15から放音される。このようにして、待合場所に居る各ユーザ92にコンテンツの音声が出力される。なお、コンテンツの音声は、スピーカではなく、ヘッドフォンを介して各ユーザ92が聞くようにしてもよい。
【0038】
なお、
図2(B)に示すように、音声端末1は、「1」、「2」、「3」と表示されたボタン意外にも「OFF」と表示されたボタンを備えている。ユーザが「OFF」と表示されたボタンを押下すると、制御部16は、音データの再生処理を停止する、あるいは、サーバ5に音データの配信を停止する要求を行う。これにより、コンテンツの音声を出力しないように設定することもできる。なお、このとき、コンテンツの音声に代えて、マスカ音を補助する音声を出力するようにしてもよい。マスカ音を補助する音声としては、マスカ音出力装置3が出力するマスカ音と同じものを出力する態様や、その一部(背景音だけ、演出音だけ、撹乱音+背景音、撹乱音+演出音、背景音+演出音、等)を出力する態様も可能である。いずれにしても、ユーザが「OFF」と表示されたボタンを押下すると、制御部16は、補助音声の配信要求を行う。すると、サーバ5の制御部52は、マスカ音を補助する音声(マスカ音出力装置3に出力しているマスカ音や、その一部)を要求がなされた音声端末1に送信する。これにより、マスカ音を補助する音声がユーザの直近で出力されるため、仮にマスカ音出力装置3から出力されるマスカ音の音量が低くとも、十分なマスキング効果を得ることができる。
【0039】
また、本実施形態に示す音声端末1は、マイク11を備えており、対話カウンタ内におけるスタッフ91およびユーザ90の発話音声を収音することができるようになっている。マイク11は、収音した音声に係るアナログ音声信号をA/Dコンバータ12に出力する。A/Dコンバータ12は、入力されたアナログ音声信号をデジタル音声信号に変更し、制御部16に出力する。制御部16は、入力されたデジタル音声信号をそのまま、あるいはMP3等の圧縮データにエンコードし、通信部17を介してサーバ5に送信する。
【0040】
サーバ5に送信された対話カウンタ内の会話音声に係る音データは、制御部52を介してコンテンツ記憶部55に録音データとして蓄積される。このサーバ5に送信された音データは、マスカ音生成部53において、撹乱音の生成に用いられる。あるいは、ユーザが自宅のPC等を用いてインターネットを経由して録音データを読み出し、会話内容(例えば薬の説明)を再度聞き直すこともできる。
【0041】
図5(A)は、音声端末1で収音された音声信号に係る音データをサーバ5に送信し、サーバ5がマスカ音を生成する場合のサーバ5、音声端末1、およびマスカ音出力装置3の動作を示したフローチャートである。まず、音声端末1の制御部16は、所定レベル(ノイズと区別できる程度のレベル)以上の音声信号が入力され、マイク11で音声を収音したか否かを判断する(s1)。制御部16は、音声を収音していると判断した場合(s1,Yes)、入力した音声信号をそのまま、あるいはMP3等の圧縮データにエンコードし、サーバ5に送信する(s2)。サーバ5の制御部52は、音声端末1から送信された音声信号(音データ)を受信し(s3)、録音データとしてコンテンツ記憶部55に記憶する(s4)。
【0042】
なお、複数の音声端末1から音声信号(音データ)を受信する場合、それぞれの録音データを区別できるようにコンテンツ記憶部55に記憶しておくことが好ましい。例えば、各ユーザ92が受付場所のスタッフ93から音声端末1を受け取るとき、ユーザ毎に固有の識別情報(ID)を発行する。各ユーザ92が呼び出しを受けて対話カウンタ内に行くと、対話カウンタ内のスタッフ91は、このスタッフ91の付近に設置された専用の端末(不図示)を操作して各ユーザの識別情報、およびそのユーザが使用している音声端末1の識別情報(製造番号等)をサーバ5に送信する。あるいは、ユーザ92から受け取った音声端末1を操作して、各ユーザの識別情報の送信を行う。そして、音声端末1は、上記s3の処理において、自身の識別情報(製造番号等)を音声信号とともに送信する。サーバ5は、受信した音声信号、ユーザの識別情報、および音声端末1の識別情報を対応づけてコンテンツ記憶部55に記憶する。これにより、後述(
図5(B))の録音データの再生動作において、各ユーザが再生する録音データを識別することができる。なお、後述(
図5(B))の録音データの再生動作を実行しない場合、音声端末1から受信した音声信号は、マスカ音生成のために一時的に保持するだけでよく、コンテンツ記憶部55に録音データとして蓄積する必要はない。
【0043】
次に、制御部52は、マスカ音(撹乱音)を生成する処理を行う(s5)。ここで、撹乱音は、現在会話が行われている対話カウンタ内で収音された音声信号から生成することが好ましい。すなわち、現時点で音声端末1から受信している音声信号を、時間軸上あるいは周波数軸上で改変し、撹乱音を生成する処理を行う。生成した撹乱音は、コンテンツ記憶部53に記憶されている他の音データ(背景音や効果音)と合成してマスカ音とする。無論、コンテンツ記憶部55に記憶されている録音データのうち、最新の録音データを読み出して撹乱音を生成するようにしてもよい。また、複数の音声端末1から音声信号(話者の音声)を受信した場合、これら複数の音声信号を合成(ミキシング)した後に時間軸上あるいは周波数軸上で改変し、撹乱音を生成することが好ましい。
【0044】
その後、制御部52は、生成したマスカ音をマスカ音出力装置3に出力する(s6)。マスカ音出力装置3は、サーバ5が送信したマスカ音を受信し(s7)、再生処理を行う(s8)。以上のようにして対話カウンタ内の会話音声に応じた最適な撹乱音を生成することができる。
【0045】
次に、
図5(B)は、会話内容の記録をする場合のサーバ5、および他の情報処理装置(例えば自宅PC)の動作を示したフローチャートである。同図に示す自宅PCの動作は、当該自宅PCにインストールされたアプリケーションや、WEBブラウザ上の特定のスクリプト等によって実現される。自宅PCのハードウェア構成は、一般的なパーソナルコンピュータと同様であるため、図示および説明を省略する。
【0046】
まず、自宅PCは、各ユーザが自宅PCを操作して、録音データの再生指示を行ったか否かを判断する(s71)。例えば、各ユーザが上記アプリケーションを操作して、固有の識別情報(ID)を入力したか否かを判断する。IDが入力されて録音データの再生指示が行われた場合(s71、Yes)、自宅PCは、インターネットを経由して、入力されたIDをサーバ5に送信する(s72)。サーバ5は、自宅PCからIDを受信し(s73)、コンテンツ記憶部55に記憶されている録音データのうち、受信したIDに対応づけられている録音データを読み出す(s74)。そして、読み出した録音データを自宅PCに送信する(s75)。自宅PCは、送信された録音データを受信し(s76)、再生処理を行う(s77)。なお、各IDに対応づけられている録音データが複数蓄積されている場合、サーバ5は、s73の処理の後に、録音データのリスト(録音日時等の一覧情報)を自宅PCに送信し、どの録音データを再生するのかを受け付ける処理を行う。ユーザが自宅PCを操作して、受信したリストから再生したい録音データを選択すると、選択した録音データがサーバ5から自宅PCに送信される。
【0047】
このようにして、音声端末1を用いて録音した会話内容は、録音データとしてサーバ5に蓄積しておくことにより、ユーザやユーザの家族等が、自宅PCを用いて会話内容を再生させることが可能となり、薬の説明や注意事項等を再確認することができる。
【0048】
次に、
図6および
図7のフローチャートを参照して、ユーザが銀行や薬局等で受付を行って音声端末1を受け取った場合のサーバ5と音声端末1の動作を詳細に説明する。
図6および
図7に示す動作は、音声端末1の電源が投入されると開始される。例えば、ユーザが受付カウンタで音声端末を受け取るときに、スタッフ93が音声端末1の電源を投入するため、これらの動作が開始される。また、ユーザが操作部18の各ボタンを押下したときにもこれらの動作が開始される。
【0049】
まず、
図6において、音声端末1の制御部16は、ユーザが操作部18の各種チャンネルボタンを押下し、チャンネル指定がなされているか否かを確認する(s11)。制御部16は、チャンネル指定がなされていれば(s11、Yes)、サーバ5に該当チャンネルの音データの配信要求を行う(s12)。サーバ5の制御部52は、配信要求を受信すると(s13)、要求されているチャンネルのコンテンツの音データを、要求がなされた音声端末1に送信する(s14)。そして、音声端末1は、送信されたコンテンツの音データを受信し(s15)、再生処理を行う(s16)。
【0050】
一方、制御部16は、チャンネル指定がなされていない(s11、No)、すなわち「OFF」のボタンが押下されていた場合や、電源投入直後である場合、マスカ音を補助する音声の配信要求を行う(s17)。サーバ5の制御部52は、配信要求を受信すると(s18)、マスカ音を補助する音声(例えばマスカ音出力装置3に送信しているマスカ音の音データとおなじもの)を、要求がなされた音声端末1に送信する(s19)。そして、音声端末1は、送信されたマスカ音を補助する音声(音データ)を受信し(s20)、再生処理を行う(s21)。
【0051】
なお、
図6の例では、チャンネル指定がなされていないとき、および電源投入直後である場合にマスカ音を補助する音声を出力する例を示したが、電源投入後から最初にチャンネル指定が行われるまでは、所定のコンテンツ(例えば宣伝広告チャンネル)の音声を出力する態様としてもよい。
【0052】
次に、
図7において、サーバ5の制御部52は、呼び出し端末の指定がなされたか否かを判断する(s31)。この呼び出し端末の指定は、例えば対話カウンタ内のスタッフ91の付近に設置された専用の端末(不図示)を操作することで行われる。このとき、呼び出し対象ユーザの指定も行われる。あるいは、対話カウンタ内のスタッフ91がユーザ90から音声端末1の返却を受け、説明が終了してユーザ90が退席したのちに、この返却を受けた音声端末1を操作して、呼び出し対象を指定する態様としてもよい。スタッフ91が呼び出し操作を行うと、専用の端末(あるいは音声端末1)からサーバ5に呼び出し信号が送信され、s31の判断においてYesに進むことになる。
【0053】
制御部52は、呼び出し対象の音声端末1に対して呼び出し音声に係る音データを送信する(s32)。そして、呼び出し対象の音声端末1は、呼び出し音声に係る音データを受信し(s33)、呼び出し音声を再生する(s34)。
【0054】
以上の様にして、本実施形態の音声出力システムでは、マスカ音出力装置3からある程度の音量でマスカ音を出力し、マスキング効果を確保しながら、ユーザが携帯する音声端末1から呼び出し音声を出力して必要な音声を適切な音量で聞くことができる。
【0055】
なお、本実施形態では、サーバ5からマスカ音出力装置3にマスカ音に係る音データをダウンロード(あるいはストリーミング)する例を示したが、マスカ音出力装置3内に記憶部を設け、内部の記憶部からマスカ音に係る音データを読み出す態様も可能である。また、この場合、マスカ音出力装置3には、通信機能が不要になる。
【0056】
また、音声端末1は、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的な携帯電話等の携帯端末およびソフトウェアを用いて実現することが可能である。
【0057】
また、マスカ音出力装置3やサーバ5についても、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【0058】
また、本実施形態では、表示装置7に表示されるコンテンツに関する音声が音声端末
から出力される例を示したが、表示装置7がなくとも、所定のコンテンツ(例えば音楽等)を出力することも可能である。