(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-30
(45)【発行日】2023-11-08
(54)【発明の名称】音声処理装置、通話デバイス、音声処理方法、およびプログラム
(51)【国際特許分類】
H04M 1/00 20060101AFI20231031BHJP
【FI】
H04M1/00 H
(21)【出願番号】P 2021533934
(86)(22)【出願日】2020-07-09
(86)【国際出願番号】 JP2020026903
(87)【国際公開番号】W WO2021014990
(87)【国際公開日】2021-01-28
【審査請求日】2022-01-13
(31)【優先権主張番号】P 2019135799
(32)【優先日】2019-07-24
(33)【優先権主張国・地域又は機関】JP
【前置審査】
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】河部 知行
【審査官】大橋 達也
(56)【参考文献】
【文献】特開2001-060993(JP,A)
【文献】国際公開第2006/080133(WO,A1)
【文献】特開2005-295196(JP,A)
【文献】特開2007-124679(JP,A)
【文献】特開2019-110450(JP,A)
【文献】特開2005-197827(JP,A)
【文献】中国特許出願公開第107809541(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 1/00-11/00
H04W 4/00-99/00
H04S 5/00
(57)【特許請求の範囲】
【請求項1】
通話相手を識別する通話相手識別手段と、
識別した前記通話相手に応じた第1の背景音響を選択する背景音響選択手段と、
選択した前記第1の背景音響を、通話の音声信号と合成する合成手段と
を備え、
前記合成手段は、前記通話の音声信号に対し、第2の背景音響が既に重畳されている場合、選択した前記第1の背景音響を前記第2の背景音響とともに出力する、前記第2の背景音響を消音または音量を小さくする、もしくは、前記第1の背景音響を前記第2の背景音響よりも大きい音量で出力
し、
前記通話相手識別手段は、前記通話相手の耳の穴の形状によって決まる特徴的な反響信号をヒアラブルデバイスから取得し、取得した前記反響信号に基づいて前記通話相手を識別する
音声処理装置。
【請求項2】
通話相手を識別する通話相手識別手段と、
識別した前記通話相手に応じた第1の背景音響を選択する背景音響選択手段と、
選択した前記第1の背景音響を、通話の音声信号と合成する合成手段と
を備え、
前記合成手段は、前記通話の音声信号に対し、第2の背景音響が既に重畳されている場合、選択した前記第1の背景音響を前記第2の背景音響とともに出力する、前記第2の背景音響を消音または音量を小さくする、もしくは、前記第1の背景音響を前記第2の背景音響よりも大きい音量で出力し、
前記通話相手識別手段は、複数の通話相手である話し手の身体から取得したセンシング情報に基づいて、前記話し手を識別し、
前記背景音響選択手段は、識別した前記話し手、または前記話し手が所属するグループに応じて、前記第1の背景音響を選択する
音声処理装置。
【請求項3】
前記通話相手識別手段は、どのグループに所属する聞き手に通話を聴取させるかを指定するグループ指定情報を受信し、受信した前記グループ指定情報に基づいて、音声信号を出力する出力制御手段の出力を消音させる
ことを特徴とする請求項1
または2に記載の音声処理装置。
【請求項4】
識別した前記通話相手が所属するグループを判定するグループ判定手段をさらに備え、
前記背景音響選択手段は、前記通話相手が所属するグループの判定結果に応じて、前記背景音響を選択する
ことを特徴とする請求項1
から3のいずれか1項に記載の音声処理装置。
【請求項5】
前記背景音響選択手段は、識別した前記通話相手に応じて、前記通話の音声信号の音像を定位させる仮想的な位置を規定する
ことを特徴とする請求項1から
4のいずれか1項に記載の音声処理装置。
【請求項6】
前記背景音響は、BGM(Back Ground Music)、環境音、および音響効果のうちのいずれかである
ことを特徴とする請求項1から
5のいずれか1項に記載の音声処理装置。
【請求項7】
請求項1から
6のいずれか1項に記載の音声処理装置と、
前記通話の音声信号を受信する受信手段と、
前記音声処理装置の前記合成手段が合成した音声信号を出力する出力制御手段とを備えた
通話デバイス。
【請求項8】
通話相手の耳の穴の形状によって決まる特徴的な反響信号をヒアラブルデバイスから取得し、取得した前記反響信号に基づいて前記通話相手を識別し、
識別した前記通話相手に応じた第1の背景音響を選択し、
選択した前記第1の背景音響を、通話の音声信号と合成し、
前記通話の音声信号に対し、第2の背景音響が既に重畳されている場合、選択した前記第1の背景音響を前記第2の背景音響とともに出力する、前記第2の背景音響を消音または音量を小さくする、もしくは、前記第1の背景音響を前記第2の背景音響よりも大きい音量で出力する
音声処理方法。
【請求項9】
通話相手の耳の穴の形状によって決まる特徴的な反響信号をヒアラブルデバイスから取得し、取得した前記反響信号に基づいて前記通話相手を識別することと、
識別した前記通話相手に応じた第1の背景音響を選択することと、
選択した前記第1の背景音響を、通話の音声信号と合成することと
をコンピュータに実行させ、
前記通話の音声信号に対し、第2の背景音響が既に重畳されている場合、前記コンピュータに、
選択した前記第1の背景音響を前記第2の背景音響とともに出力させる、前記第2の背景音響を消音または音量を小さくさせる、もしくは、前記第1の背景音響を前記第2の背景音響よりも大きい音量で出力させる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法、および記録媒体に関し、特に、通話の音声信号を背景音響と合成する音声処理装置、音声処理方法、および記録媒体に関する。
【背景技術】
【0002】
関連する音響AR(Augmented Reality)技術は、ユーザが複数の通話相手と同時に通話することを可能にする。例えば、特許文献1に記載された関連する技術は、姿勢情報センサおよび左右独立スピーカを用いて、ユーザにとって、通話相手から音声が聞こえてくると知覚する仮想的な位置を規定する(音像定位)。これにより、ユーザは、あたかも、複数の通話相手とともに、仮想的な空間を共有しているような感覚を得る。
【0003】
特許文献2には、ユーザの所定の操作によって、ユーザが指定した方向から聞こえる発話者情報(例えば通話相手の名前またはニックネーム)を、音声で出力することが記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-017027号公報
【文献】特開2012-103845号公報
【文献】国際公開第2018/198310号
【発明の概要】
【発明が解決しようとする課題】
【0005】
ディスプレイがある場合、ユーザは、ディスプレイに表示された通話相手の画像や通話相手の名前、ニックネームを見ることにより、通話相手がだれであるのかを判断することができる。しかしながら、ディスプレイがない場合、ユーザは、聴覚のみによって、通話相手がだれであるのかを判断しなければならない。ところが、特許文献1に記載の関連する技術では、通話相手が無言である場合、ユーザは、聴覚によって、通話相手がだれであるのかを知ることができない。また、特許文献2に記載の技術では、ユーザは、無言の通話相手がいることに気付かないので、発話者情報を音声で出力させるために、所定の操作を行う動機が生じない。
【0006】
本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザが、聴覚のみによって、通話相手を簡単に識別することを可能にする音声処理装置等を提供することにある。
【課題を解決するための手段】
【0007】
本発明の一態様に係わる音声処理装置は、通話相手を識別する通話相手識別手段と、識別した前記通話相手に応じた背景音響を選択する背景音響選択手段と、選択した前記背景音響を、通話の音声信号と合成する合成手段とを備えている。
【0008】
本発明の一態様に係わる音声処理方法は、通話相手を識別し、識別した前記通話相手に応じた背景音響を選択し、選択した前記背景音響を、通話の音声信号と合成する。
【0009】
本発明の一態様に係わるコンピュータ読み取り可能な記録媒体に記録されたプログラムは、通話相手を識別することと、識別した前記通話相手に応じた背景音響を選択することと、選択した前記背景音響を、通話の音声信号と合成することとをコンピュータに実行させる。
【発明の効果】
【0010】
本発明の一態様によれば、ユーザが、聴覚のみによって、通話相手を簡単に識別できる。
【図面の簡単な説明】
【0011】
【
図1】実施形態1に係わる音声処理装置の構成を示すブロック図である。
【
図2】実施形態1に係わる音声処理装置の動作を示すフローチャートである。
【
図3】実施形態2に係わる話し手側の通話デバイスの構成を示すブロック図である。
【
図4】実施形態2に係わる聞き手側の通話デバイスの構成を示すブロック図である。
【
図5】通話相手を識別する通話者IDと、音像定位情報と、背景音響情報との間の対応関係を示す設定リストの一例を示す図である。
【
図6】実施形態2に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。
【
図7】複数の通話相手と通話しているユーザを示す。
【
図8】実施形態3に係わる聞き手側の通話デバイスの構成を示すブロック図である。
【
図9】実施形態3に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。
【
図10】第1のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。
【
図11】第2のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。
【
図12】実施形態5に係わる情報処理装置のハードウェア構成を示す図である。
【発明を実施するための形態】
【0012】
〔実施形態1〕
図1~
図2を参照して、実施形態1について説明する。
【0013】
本実施形態1では、ユーザが、通話デバイスを用いて、通話相手と通話をしている。通話相手は、1人または複数人であってよい。ユーザが使用している通話デバイスを、以下では、ユーザの通話デバイスと呼ぶ。また、ユーザの通話相手が使用している通話デバイスを、以下では、通話相手の通話デバイスと呼ぶ。通話デバイスは、例えば、モバイル端末、コンピュータデバイス、または電話機である。通話デバイスは、音声デバイスとも呼ばれる。
【0014】
通話相手の通話デバイスと、ユーザの通話デバイスとの間で、通信ネットワーク、例えばインターネットあるいは電話回線、が接続されている。ユーザは、ユーザの通話デバイスを用いて、通話相手と通話している。
【0015】
(音声処理装置1)
図1は、実施形態1に係わる音声処理装置1の構成を示すブロック図である。
図1に示すように、音声処理装置1は、通話相手識別部11、背景音響選択部12、および合成部13を含む。以下で説明する音声処理装置1の各部の機能は、ユーザの通話デバイス(図示せず)が含むプロセッサが、メモリに読み込んだプログラムを実行することによって、ソフトウェアとして実現されてもよい。
【0016】
通話相手識別部11は、通話相手を識別する。通話相手識別部11は、通話相手識別手段の一例である。具体的には、通話相手識別部11は、通話相手の通話デバイス(図示せず)から、付帯情報を受信する。付帯情報は、通話相手の通話デバイスを識別する情報を含む。
【0017】
付帯情報は、例えば、通話相手の通話デバイスを識別する端末ID(Identification)である。あるいは、付帯情報は、通話相手の通話デバイスの電話番号であってもよい。しかしながら、付帯情報は、端末IDおよび電話番号に限定されない。付帯情報は、通話相手を識別する情報(例えば生体認証情報)であってもよい。
【0018】
通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。
【0019】
例えば、付帯情報が、通話相手の通話デバイスの端末IDである場合、通話相手識別部11は、図示しないメモリに格納された所有者リストのデータを参照する。所有者リストのデータ(以下、単に所有者リストと称する)には、端末IDと、通話デバイスの所有者に関する情報とが紐付けられている。
【0020】
通話相手識別部11は、端末IDに基づいて、通話相手を識別する。例えば、通話相手識別部11は、端末IDによって識別される通話デバイスの所有者が、通話相手であることを、所有者リストを参照することによって識別する。
【0021】
通話相手識別部11は、識別した通話相手を示す情報(例えば所有者リストに含まれる通話者ID)を、背景音響選択部12へ送信する。
【0022】
背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。背景音響選択部12は、背景音響選択手段の一例である。例えば、背景音響選択部12は、通話者と背景音響との対応関係を示す通話者-背景音響テーブル(図示せず)を参照して、通話相手に応じた背景音響を選択する。通話者-背景音響テーブルは、メモリまたはストレージに格納される。
【0023】
背景音響は、主たる音声(ここでは、通話の音声)と重なるようにユーザに聞こえる音響である。一般的に、背景音響は、ユーザが主たる音声を聴くことを妨げないような小さい音量を有する。背景音響は、例えば、BGM(Back Ground Music)、環境音(アンビエント)、および音響効果のいずれかである。あるいは、背景音響は、これらの組み合わせであってもよい。
【0024】
例えば、通話者-背景音響テーブルは、通話相手を識別する通話者IDと、背景音響を示す情報(背景音響情報)とを対応付けている。通話者-背景音響テーブルは、ユーザ(ここでは聞き手)によって予め準備されていてもよい。
【0025】
あるいは、背景音響選択部12は、通話相手(ここでは話し手)ごとに異なる背景音響を、任意の方法で選択してもよい。例えば、背景音響選択部12は、付帯情報として取得したセンシング情報に基づいて、通話相手ごとに、異なる背景音響を割り当てる(実施形態4)。
【0026】
合成部13は、通話の音声信号と、選択した背景音響とを合成する。合成部13は、合成手段の一例である。具体的には、合成部13は、通話の音声信号に対して背景音響が重畳された音声信号(以下では、背景音響付き音声信号と呼ぶ)を生成する。
【0027】
ここで、通話の音声信号に対し、既存の他の背景音響が既に重畳されている場合、合成部13は、背景音響選択部12が選択した背景音響を、既存の他の背景音響とともに出力してもよい。あるいは、合成部13は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部12が選択した背景音響を、既存の他の背景音響よりも大きい音量で出力してもよい。
【0028】
さらに、合成部13は、ユーザにとって、通話相手ごとに予め設定された仮想的な場所から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、音像定位処理を行ってもよい。
【0029】
具体的には、音像定位処理において、合成部13は、背景音響付き音声信号の音量及びプレゼンス等を調整する。これにより、合成部13は、背景音響付き音声信号の音像の仮想的な位置を規定する。スピーカ等から出力された背景音響付き音声信号を聴いたユーザは、合成部13によって規定された仮想的な位置に、背景音響付き音声信号の音像があるように知覚する。
【0030】
なお、合成部13は、通話相手識別部11が識別した通話相手が所属するグループに応じて、背景音響に関して、音の高さ、強さ、音色、またはその組み合わせを変換してもよい。なお、通話相手が複数のグループに分類されている構成について、実施形態3で説明する。
【0031】
合成部13は、このようにして生成した背景音響付き音声信号を出力する。
【0032】
(音声処理装置1の動作)
図2を参照して、本実施形態1に係わる音声処理装置1の動作を説明する。
図2は、音声処理装置1が実行する処理の流れを示すフローチャートである。
【0033】
図2に示すように、通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する(S1)。
【0034】
通話相手識別部11は、識別した通話相手を示す情報(例えば通話者ID)を、背景音響選択部12へ送信する。
【0035】
背景音響選択部12は、通話相手識別部11から受信した情報(例えば通話者ID)に基づいて、通話相手に応じた背景音響を選択する(S2)。
【0036】
背景音響選択部12は、選択した背景音響を示す背景音響情報を、合成部13へ送信する。なお、ステップS1とステップS2の順序は逆または並行であってもよい。
【0037】
合成部13は、背景音響選択部12から、背景音響情報を受信する。また、合成部13は、通話の音声信号を受信する。
【0038】
合成部13は、背景音響情報が示す背景音響と、通話の音声信号とを合成する(S3)。そして、合成部13は、背景音響と、通話の音声信号とを合成することによって得られた音声信号(背景音響付き音声信号)を出力する。
【0039】
以上で、音声処理装置1の動作は終了する。
【0040】
(本実施形態の効果)
本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた背景音響付き音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
【0041】
〔実施形態2〕
図3~
図7を参照して、実施形態2について説明する。本実施形態2では、話し手側の通話デバイスと、聞き手側の通話デバイスとに関して、それぞれ説明する。
【0042】
(話し手側の通話デバイス100)
図3は、話し手側の通話デバイス100(以下、単に通話デバイス100と記載する)の構成を示すブロック図である。
図3に示すように、通話デバイス100は、マイク101、メモリ102、および通信部103を含む。
【0043】
通話デバイス100は、話し手個人を生体認証するためのセンサまたはスイッチをさらに含んでいてもよい。例えば、通話デバイス100は、画像センサ(カメラ)によって、通話デバイス100を装着した話し手の姿勢に関する情報を取得してもよいし、通話相手を選択するためのスイッチまたはセンサをさらに含んでいてもよい。
【0044】
マイク101は、話し手の発言を集音する。マイク101は、話し手の発言を音声信号に変換し、通話の音声信号を通信部103へ送信する。
【0045】
メモリ102は、自機(つまり通話デバイス100)を識別するための端末ID、および、通話デバイス100の電話番号を示す情報を少なくとも記憶している。
【0046】
通信部103は、メモリ102から、端末IDまたは電話番号を示す情報を取得する。通信部103は、マイク101から受信した通話の音声信号を、聞き手側の通話デバイス200へ送信するとともに、メモリ102から取得した端末IDまたは電話番号を示す情報も、付帯情報として、聞き手側の通話デバイス200へ送信する。加えて、通信部103は、通話デバイス100が取得したセンシング情報も、付帯情報として、聞き手側の通話デバイス200へ送信してもよい。例えば、付帯情報は、通話相手の通話デバイスを識別するための端末ID(Identification)、または、通話相手の電話番号である。
【0047】
(聞き手側の通話デバイス200)
図4は、聞き手側の通話デバイス200(以下、単に通話デバイス200と記載する)の構成を示すブロック図である。
図4に示すように、通話デバイス200は、受信部24、音声処理装置2、および出力制御部26を含む。
【0048】
図4に示すように、受信部24は、通話デバイス100の通信部103から、音声信号および付帯情報(ここでは端末ID)を受信する。受信部24は、受信した音声信号を、音声処理装置2の合成部13へ送信する。また、受信部24は、受信した付帯情報を、音声処理装置2の通話相手識別部11へ送信する。
【0049】
(音声処理装置2)
図4に示すように、本実施形態2に係わる音声処理装置2は、通話相手識別部11、背景音響選択部12、および合成部13を含む。前記実施形態1において、通話相手識別部11、背景音響選択部12、および合成部13の詳細を説明した。本実施形態2では、これらの各部に関して、簡単に説明する。
【0050】
通話相手識別部11は、通話相手を識別する。具体的には、通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。
【0051】
通話相手識別部11は、通話相手の識別結果を背景音響選択部12へ送信する。具体的には、通話相手識別部11は、通話相手を識別する通話者IDを、背景音響選択部12へ送信する。
【0052】
背景音響選択部12は、通話相手識別部11が識別した通話相手に応じた音響を選択する。具体的には、背景音響選択部12は、設定リスト(
図5参照)を参照する。通話相手識別部11が識別した通話相手の通話者IDが、設定リストに登録されている場合、背景音響選択部12は、設定リストにおいて、通話相手の通話者IDと紐付いている一つのBGM(Back Ground Music)のデータを取得する。BGMは、背景音響の一種である。
【0053】
一方、通話相手識別部11が識別した通話相手が設定リストにまだ登録されていない場合、背景音響選択部12は、BGMライブラリ(図示せず)を参照して、設定リストに登録済のどの通話者IDとも紐付いていない一つのBGMのデータを、BGMライブラリからランダムに取得する。
【0054】
また、背景音響選択部12は、設定リストから、通話者IDと紐付いている音像定位情報を取得する。音像定位情報は、仮想空間における座標位置を示す情報である。
【0055】
背景音響選択部12は、選択したBGMのデータ(背景音響情報)と、音像定位情報とを、合成部13へ送信する。
【0056】
通話デバイス200の合成部13は、背景音響選択部12から、BGMのデータおよび音像定位情報を受信する。また合成部13は、受信部24から、通話の音声信号を受信する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。具体的には、合成部13は、通話の音声信号に対して、背景音響(ここではBGM)が重畳された背景音響付き音声信号を生成する。
【0057】
ここで、既存の他の背景音響が、通話の音声信号に既に重畳されている場合、合成部13は、背景音響選択部12が選択したBGMを、既存の他の背景音響とともに出力してもよい。あるいは、合成部13は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部12が選択したBGMを、既存の他の背景音響よりも大きい音量で出力してもよい。
【0058】
さらに、合成部13は、ユーザにとって、通話相手ごとに予め設定された仮想的な位置から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、上述した音像定位処理を行ってもよい。
【0059】
合成部13は、背景音響付き音声信号を、出力制御部26へ送信する。
【0060】
図4に示すように、出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を、図示しないスピーカ等のデバイスに出力させる。なお、出力制御部26は、音声処理装置2の構成要素であってもよい。
【0061】
(設定リスト)
図5は、設定リストの一例を示すテーブルである。
図5に示すように、設定リストには、通話相手を識別する付帯情報として通話者IDが含まれる。設定リストにおいて、音像定位情報および背景音響情報が、それぞれの通話者IDに対して紐付けられている。
【0062】
音像定位情報は、音像の仮想的な位置を示す。背景音響情報は、ユーザが、聴覚のみで、音像の仮想的な位置から、通話相手を識別することを可能にする。背景音響情報は、例えば、通話相手個人を識別するための通話者IDに紐づいたBGM、環境音、または音響効果のデータである。
【0063】
(通話デバイス200の動作)
図6および
図7を参照して、本実施形態2に係わる通話デバイス200の動作を説明する。
図6は、通話デバイス200の動作の流れを示すフローチャートである。
【0064】
図6に示すように、ユーザ(
図7のA)の通話デバイス200の受信部24は、通話相手(
図7のB~F)の通話デバイス100から、通話の音声信号および付帯情報を受信する(S101)。
【0065】
受信部24は、音声処理装置2の合成部13へ、通話の音声信号を送信するとともに、通話相手識別部11へ、付帯情報(ここでは端末ID)を送信する。
【0066】
通話相手識別部11は、受信部24から、付帯情報を受信する。通話相手識別部11は、受信した付帯情報に基づいて、通話相手を識別する(S102)。通話相手は1または複数である。
【0067】
通話相手識別部11は、通話相手の識別結果を、背景音響選択部12へ送信する。具体的には、通話相手識別部11は、通話相手の識別に成功した場合、通話相手を識別する通話者IDを、背景音響選択部12へ送信する。一方、通話相手識別部11は、通話相手の識別に失敗した場合、空の通話者ID(None)を、背景音響選択部12へ送信する。
【0068】
背景音響選択部12は、通話相手識別部11から、通話相手の識別結果を受信する。背景音響選択部12は、通話相手が設定リストに登録済かどうかを判定する(S103)。具体的には、背景音響選択部12は、通話相手識別部11から受信した通話者IDが、設定リストに含まれるかどうかを判定する。
【0069】
通話相手が設定リストに登録済である場合(S103でYes)、背景音響選択部12は、通話相手に応じた背景音響(ここではBGM)を選択する(S104A)。一方、通話相手が設定リストに登録済でない場合(S103でNo)、背景音響選択部12は、BGMライブラリを参照して、設定リストに登録されたどの通話者IDとも紐付いていない背景音響(ここではBGM)をランダムに選択する(S104B)。
【0070】
背景音響選択部12は、選択したBGMのデータ(背景音響情報)を、通話相手の通話者IDに応じた音像定位情報とともに、合成部13へ送信する。
【0071】
合成部13は、背景音響選択部12から、通話相手に応じて選択された背景音響情報および音像定位情報を受信する。また、合成部13は、受信部24から、通話の音声信号を受信する。
【0072】
合成部13は、受信した通話の音声信号と、背景音響であるBGMとを合成する(S105)。これにより、合成部13は、背景音響付き音声信号を生成する。
【0073】
合成部13は、生成した背景音響付き音声信号を出力制御部26へ送信する。
【0074】
出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を出力する(S106)。
【0075】
以上で、通話デバイス200の動作は終了する。
【0076】
(具体例)
ユーザ(
図7のAで示す人物)が、通話デバイス200を用いて、複数の通話相手(
図7のB~Fで示す人物)と同時に通話している。
【0077】
通話相手の通話デバイス100(
図3)とユーザの通話デバイス200(
図4)との間の回線が切断されない限り、通話相手が無言であっても、ユーザの通話デバイス200は、通話相手を識別する通話者IDと紐付けられたBGMを、背景音響として出力する。これにより、ユーザは、聴覚のみによって、無言の通話相手の存在を、直感的に知ることができる。
【0078】
ユーザが、通話デバイス200の通話終了ボタン(図示せず)を押下したとき、通話デバイス100と通話デバイス200との間の電話回線が切断される。このとき、通話デバイス200は、通話相手を識別する通話者IDと対応するBGMを消音(ミュート)する。これにより、ユーザは、通話が終了したことを直感的に知ることができる。
【0079】
(変形例)
一変形例では、音声処理装置2の各部は、通話デバイス200の内部リソースを用いず、ネットワークサーバ上で、上述した処理を実行してもよい。
【0080】
(本実施形態の効果)
本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
【0081】
さらに、本実施形態の構成によれば、通話相手に応じた音像定位情報によって、通話相手ごとの仮想的な位置を規定する。これにより、ユーザは、あたかも仮想的な空間を共有しているように、通話相手と通話することができる。
【0082】
〔実施形態3〕
本実施形態3では、通話相手が所属するグループを識別し、識別したグループに応じた処理を行う構成を説明する。
【0083】
(通話デバイス300)
図8は、本実施形態3に係わる通話デバイス300の構成を示すブロック図である。
図8に示すように、通話デバイス300は、前記実施形態2で説明した音声処理装置2の代わりに、音声処理装置3を含む。
【0084】
(音声処理装置3)
図8に示すように、本実施形態3に係わる音声処理装置3は、通話相手識別部11、背景音響選択部12、および合成部13に加えて、グループ判定部14をさらに含む。すなわち、音声処理装置3は、グループ判定部14を含んでいる点で、前記実施形態2に係わる音声処理装置2とは構成が異なる。
【0085】
前記実施形態2において、通話相手識別部11、背景音響選択部12、および合成部13の詳細を説明した。本実施形態3において、これらの各部の基本的な機能は、前記実施形態2と同様である。したがって、本実施形態3では、これらの各部に関して、説明を省略する。
【0086】
通話相手識別部11は、受信部24から、付帯情報とともに、グループ指定情報を受信する。通話相手識別部11は、前記実施形態1と同様に、付帯情報に基づいて、通話相手を識別する。さらに、通話相手識別部11は、グループ指定情報に基づいて、ユーザが指定されたグループに所属するかどうかを判定する。
【0087】
ユーザが指定されたグループに所属していない場合、通話相手識別部11は、出力制御部26に対し、出力を消音(ミュート)するように指示する。ユーザが指定されたグループに所属している場合、通話相手識別部11は、通話相手の識別結果を、グループ判定部14へ送信する。
【0088】
グループ判定部14は、通話相手識別部11から、通話相手の識別結果を受信する。グループ判定部14は、通話相手識別部11が識別した通話相手が所属するグループを判定する。グループ判定部14は、グループ判定手段の一例である。グループ判定部14は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部12へ送信する。
【0089】
背景音響選択部12は、グループ判定部14から受信したグループの判定結果に基づいて、通話相手が所属するグループに応じたBGMを選択する。同じグループに属する複数の通話相手と対応する背景音響(つまり複数のBGM)は、同じ特徴(例えば、同じピッチ、同じ音量、または同じ音色)を有することが好ましい。
【0090】
(通話デバイス300の動作)
図9~
図11を参照して、本実施形態3に係わる通話デバイス300の動作を説明する。
図9は、通話デバイス300の動作の流れを示すフローチャートである。
【0091】
図9に示すように、ユーザ(
図10のB~Eのいずれか)の通話デバイス300の受信部24は、通話相手(
図10のA)の通話デバイス100から、通話の音声信号および付帯情報を受信する(S201)。
【0092】
受信部24は、音声処理装置3の合成部13へ、通話の音声信号を送信するとともに、通話相手識別部11へ、付帯情報(例えば、端末IDまたは電話番号)およびグループ指定情報を送信する。グループ指定情報は、どのグループの聞き手に通話を聴取させるかを指定する情報である。通話を聴取することを許可するグループは、通話デバイス100に対する通話相手(
図10のA)の操作によって、指定されてもよい。
【0093】
通話相手識別部11は、受信部24から、付帯情報およびグループ指定情報を受信する。通話相手識別部11は、受信したグループ指定情報に基づいて、ユーザ(すなわち通話デバイス300の持ち主)が指定されたグループに所属するかどうかを判定する(S202)。
【0094】
ユーザが指定されたグループに所属していない場合(S202でNo)、通話相手識別部11は、出力制御部26に対し、出力を消音(ミュート)するように指示する(S208)。
【0095】
図10に示す例では、ユーザが、第2のグループ(DまたはE)に所属する場合、通話相手識別部11は、出力制御部26に対し、ミュート指示を送信する。一方、
図11に示す例では、ユーザが、第1のグループ(BまたはC)に所属する場合、通話相手識別部11は、出力制御部26に対し、ミュート指示を送信する。
【0096】
一方、ユーザが指定されたグループに所属している場合(S202でYes)、通話相手識別部11は、付帯情報に基づいて、通話相手を識別する(S203)。通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。
【0097】
図10に示す例では、ユーザが、第1のグループ(BまたはC)に所属する場合、通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。一方、
図11に示す例では、ユーザが、第2のグループ(DまたはE)に所属する場合、通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。
【0098】
具体的には、通話相手識別部11は、通話相手の識別に成功した場合、通話相手を識別する通話者IDを、グループ判定部14へ送信する。一方、通話相手識別部11は、通話相手の識別に失敗した場合、空の通話者ID(None)を、グループ判定部14へ送信する。
【0099】
グループ判定部14は、通話相手識別部11から、通話相手の識別結果を受信する。通話相手識別部11は、通話相手識別部11によって識別された通話相手が所属するグループを判定する。グループ判定部14は、グループ判定手段の一例である。グループ判定部14は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部12へ送信する。
背景音響選択部12は、グループ判定部14から、通話相手の識別結果、および、通話相手が所属するグループの判定結果を受信する。背景音響選択部12は、通話相手が設定リストに登録済かどうかを判定する(S204)。具体的には、背景音響選択部12は、通話相手識別部11から、通話相手の識別結果として受信した通話者IDが、設定リストに含まれるかどうかを判定する。
【0100】
通話相手が設定リストに登録済である場合(S204でYes)、背景音響選択部12は、通話相手(およびその所属するグループ)に応じた背景音響(ここではBGM)を選択する(S205A)。一方、通話相手が設定リストに登録済でない場合(S204でNo)、背景音響選択部12は、BGMライブラリを参照して、背景音響(ここではBGM)をランダムに選択する(S205B)。
【0101】
背景音響選択部12は、選択したBGMのデータ(背景音響情報)を、通話相手の通話者IDに応じた音像定位情報とともに、合成部13へ送信する。
【0102】
合成部13は、背景音響選択部12から、通話相手に応じて選択された背景音響情報を受信する。また、合成部13は、受信部24から、通話の音声信号を受信する。
【0103】
合成部13は、受信した通話の音声信号と、背景音響であるBGMとを合成する(S206)。これにより、合成部13は、背景音響付き音声信号を生成する。
【0104】
合成部13は、生成した背景音響付き音声信号を出力制御部26へ送信する。
【0105】
出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を、図示しないスピーカ等から出力する(S207)。
【0106】
以上で、通話デバイス300の動作は終了する。
【0107】
(本実施形態の効果)
本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
【0108】
さらに、本実施形態の構成によれば、グループ判定部14は、通話相手が所属するグループを判定する。背景音響選択部12は、通話相手が所属するグループに応じたBGMを、背景音響として選択することが好ましい。
【0109】
これにより、ユーザは、BGMの特徴(例えば、音の高さ、強さ、音色)によって、通話相手が所属するグループを簡単に識別することができる。
【0110】
〔実施形態4〕
本実施形態4において、話し手側の通話デバイス(前記実施形態1で説明した通話デバイス100)は、耳に装着されるヒアラブルデバイスである。ヒアラブルデバイスは、耳音響認証技術を応用したウェアラブルデバイスの一種である。ヒアラブルデバイスの一例が、特許文献3に記載されている。
【0111】
本実施形態4では、通話デバイス100は、話し手の耳の内部へ向けて、音響信号(検査信号)を放出するスピーカと、耳の内部からの反響信号を受信するマイクとを含む。通話デバイス100は、マイクが受信した反響信号を、センシング情報として、聞き手側の通話デバイス(前記実施形態2、3で説明した通話デバイス200、300)へ送信する。
【0112】
本実施形態4において、通話デバイス200、300の通話相手識別部11は、通話デバイス100からのセンシング情報に基づいて、通話相手を識別する。具体的には、通話相手識別部11は、話し手の耳の穴の形状によって決まる特徴的な反響(音響特性)を、センシング情報として用いる。背景音響選択部12は、センシング情報に基づく通話相手の識別結果に基づいて、BGMを選択する。耳の穴の形状とは、例えば、外耳道から鼓膜までの形状、あるいは、中耳または内耳まで延伸する形状である。
【0113】
(変形例)
一変形例では、通話デバイス100は、ヒアラブルデバイス以外のウェアラブルデバイスである。例えば、本変形例に係わる通話デバイス100は、グラス(メガネ)型またはリストバンド型のウェアラブルデバイスである。
【0114】
(本実施形態の効果)
本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
【0115】
さらに、本実施形態の構成によれば、話し手側の通話デバイスは、ヒアラブルデバイス等のウェアラブルデバイスである。したがって、聞き手側の通話デバイスは、話し手の身体から取得したセンシング情報に基づいて、通話相手(話し手)を識別し、識別した通話相手に応じた背景音響を選択することができる。
【0116】
〔実施形態5〕
図12を参照して、実施形態5について以下で説明する。
【0117】
(ハードウェア構成について)
前記実施形態1~4で説明した音声処理装置の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば
図12に示すような情報処理装置900により実現される。
図12は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
【0118】
図12に示すように、情報処理装置900は、一例として、以下のような構成を含む。
【0119】
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~4で説明した音声処理装置の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
【0120】
(本実施形態の効果)
本実施形態の構成によれば、前記実施形態において説明した音声処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
【0121】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0122】
この出願は、2019年7月24日に出願された日本出願特願2019-135799を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【産業上の利用可能性】
【0123】
本発明は、例えば、携帯型ゲーム機およびVR(Virtual Realty)デバイスに利用することができる。
【符号の説明】
【0124】
1 音声処理装置
11 通話相手識別部
12 背景音響選択部
13 合成部
14 グループ判定部
24 受信部
26 出力制御部
100 話し手側の通話デバイス
200 聞き手側の通話デバイス
300 聞き手側の通話デバイス