(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-11
(45)【発行日】2024-10-22
(54)【発明の名称】通信端末、情報処理装置、通信方法及びプログラム
(51)【国際特許分類】
G10L 21/028 20130101AFI20241015BHJP
G10L 21/0272 20130101ALI20241015BHJP
【FI】
G10L21/028 C
G10L21/0272 100Z
(21)【出願番号】P 2022209807
(22)【出願日】2022-12-27
【審査請求日】2024-07-30
【早期審査対象出願】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】藁谷 浩亮
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2006-201496(JP,A)
【文献】特許第7137033(JP,B1)
【文献】米国特許第10243613(US,B1)
【文献】中国特許出願公開第108449502(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00,21/0208-21/0308
H04M 1/00
(57)【特許請求の範囲】
【請求項1】
ユーザが使用する通信端末であって、
前記ユーザの音声の特徴を含む特徴データを記憶する記憶部と、
前記通信端末の周囲の音声を集音して音声データに変換する集音部と、
前記音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成する音声分離部と、
前記複数の内部分離音声データそれぞれと前記特徴データとの類似度である複数の内部類似度を特定し、当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択する選択部と、
前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信する通信部と、
を有する通信端末。
【請求項2】
前記選択部は、前記複数の内部類似度のうち最大の類似度であるという前記所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択する、
請求項1に記載の通信端末。
【請求項3】
前記集音部が集音した音声と同じ音声を集音する他の通信端末から、当該他の通信端末が生成した複数の外部分離音声データと、前記複数の外部分離音声データそれぞれと当該他の通信端末を使用する他ユーザの特徴データとの類似度である複数の外部類似度と、を関連付けて取得する情報取得部をさらに有し、
前記選択部は、前記複数の内部分離音声データそれぞれについて、前記内部分離音声データと、当該内部分離音声データに対応する前記内部類似度と、前記情報取得部が取得した前記複数の外部分離音声データのうち当該内部分離音声データに最も類似する前記外部分離音声データと、当該外部分離音声データに対応する前記外部類似度と、を関連付け、関連付けた前記内部類似度と前記外部類似度とを比較した結果に基づいて、前記選択分離音声データを決定する、
請求項1に記載の通信端末。
【請求項4】
前記選択部は、前記内部類似度が前記外部類似度よりも大きいという前記所定の条件を満たす前記内部分離音声データを前記選択分離音声データとして選択する、
請求項3に記載の通信端末。
【請求項5】
前記選択部は、前記内部類似度が前記外部類似度以下である場合、前記所定の条件を満たさない前記内部類似度に対応する前記内部分離音声データと異なる前記内部分離音声データを前記選択分離音声データとして選択する、
請求項4に記載の通信端末。
【請求項6】
前記ユーザの顔画像データを取得する画像データ取得部をさらに有し、
前記選択部は、前記複数の内部分離音声データのうち、前記顔画像データが示す前記ユーザの顔の変化タイミングに同期している前記内部分離音声データを選択分離音声データとして選択する、
請求項1に記載の通信端末。
【請求項7】
通信端末を使用するユーザの音声の特徴を含む特徴データを記憶する記憶部と、
前記通信端末により集音された前記通信端末の周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の分離音声データを生成する音声分離部と、
前記複数の分離音声データそれぞれと前記特徴データとの類似度を特定し、当該複数の類似度のうち所定の条件を満たす前記類似度に対応する前記分離音声データを選択分離音声データとして選択する選択部と、
前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信する通信部と、
を有する情報処理装置。
【請求項8】
前記記憶部は、複数の前記通信端末を使用する複数のユーザの音声の特徴を含む複数の特徴データを記憶し、
前記選択部は、前記複数の通信端末それぞれに関連付けて前記選択分離音声データを決定し、
前記通信部は、前記複数の通信端末に対応する複数の前記通話先端末に前記選択分離音声データを送信する、
請求項7に記載の情報処理装置。
【請求項9】
コンピュータが実行する、
通信先端末を使用する通話相手と通話するユーザの周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成するステップと、
前記複数の内部分離音声データそれぞれと記憶部に記憶された前記ユーザの音声の特徴を含む特徴データとの類似度である複数の内部類似度を生成するステップと、
当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択するステップと、
前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信するステップと、
を有する通信方法。
【請求項10】
コンピュータに、
通信先端末を使用する通話相手と通話するユーザの周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成するステップと、
前記複数の内部分離音声データそれぞれと記憶部に記憶された前記ユーザの音声の特徴を含む特徴データとの類似度である複数の内部類似度を生成するステップと、
当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択するステップと、
前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信するステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信端末、情報処理装置、通信方法及びプログラムに関する。
【背景技術】
【0002】
従来、通話先端末との間で音声通信が可能な端末において、近傍の他の端末を使って音声通信をしている話者の音声が通話先端末において聞こえにくくする技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された技術においては、自端末を使用している話者の音声のレベルと、自端末を使用していない話者の音声のレベルとの差に基づいて、自端末を使用している話者の音声を分離し、分離した音声を通話先端末に送信する。このような方法で通話先端末に送信する音声を選択する場合、自端末の近くにいる複数の話者の位置と自端末の位置との関係の変化により、複数の話者の音声が混同した音声に含まれる複数の話者の音量のバランスが変化すると、他の話者の音声を選択して通話先端末に送信してしまうことがあるという問題があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、自端末を使用している話者の音声を通話先の端末に送信できる確率を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の通信端末は、ユーザが使用する通信端末であって、前記ユーザの音声の特徴を含む特徴データを記憶する記憶部と、前記通信端末の周囲の音声を集音して音声データに変換する集音部と、前記音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成する音声分離部と、前記複数の内部分離音声データそれぞれと前記特徴データとの類似度である複数の内部類似度を特定し、当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択する選択部と、前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信する通信部と、を有する。
【0007】
前記選択部は、前記複数の内部類似度のうち最大の類似度であるという前記所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択してもよい。
【0008】
前記通信端末は、前記集音部が集音した音声と同じ音声を集音する他の通信端末から、当該他の通信端末が生成した複数の外部分離音声データと、前記複数の外部分離音声データそれぞれと当該他の通信端末を使用する他ユーザの特徴データとの類似度である複数の外部類似度と、を関連付けて取得する情報取得部をさらに有し、前記選択部は、前記複数の内部分離音声データそれぞれについて、前記内部分離音声データと、当該内部分離音声データに対応する前記内部類似度と、前記情報取得部が取得した前記複数の外部分離音声データのうち当該内部分離音声データに最も類似する前記外部分離音声データと、当該外部分離音声データに対応する前記外部類似度と、を関連付け、関連付けた前記内部類似度と前記外部類似度とを比較した結果に基づいて、前記選択分離音声データを決定してもよい。
【0009】
前記選択部は、前記内部類似度が前記外部類似度よりも大きいという前記所定の条件を満たす前記内部分離音声データを前記選択分離音声データとして選択してもよい。
【0010】
前記選択部は、前記内部類似度が前記外部類似度以下である場合、前記所定の条件を満たさない前記内部類似度に対応する前記内部分離音声データと異なる前記内部分離音声データを前記選択分離音声データとして選択してもよい。
【0011】
前記ユーザの顔画像データを取得する画像データ取得部をさらに有し、前記選択部は、前記複数の内部分離音声データのうち、前記顔画像データが示す前記ユーザの顔の変化タイミングに同期している前記内部分離音声データを選択分離音声データとして選択してもよい。
【0012】
本発明の第2の態様の情報処理装置は、通信端末を使用するユーザの音声の特徴を含む特徴データを記憶する記憶部と、前記通信端末により集音された前記通信端末の周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の分離音声データを生成する音声分離部と、前記複数の分離音声データそれぞれと前記特徴データとの類似度を特定し、当該複数の類似度のうち所定の条件を満たす前記類似度に対応する前記分離音声データを選択分離音声データとして選択する選択部と、前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信する通信部と、を有する。
【0013】
前記記憶部は、複数の前記通信端末を使用する複数のユーザの音声の特徴を含む複数の特徴データを記憶し、前記選択部は、前記複数の通信端末それぞれに関連付けて前記選択分離音声データを決定し、前記通信部は、前記複数の通信端末に対応する複数の前記通話先端末に前記選択分離音声データを送信してもよい。
【0014】
本発明の第3の態様の通信方法は、コンピュータが実行する、通信先端末を使用する通話相手と通話するユーザの周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成するステップと、前記複数の内部分離音声データそれぞれと記憶部に記憶された前記ユーザの音声の特徴を含む特徴データとの類似度である複数の内部類似度を生成するステップと、当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択するステップと、前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信するステップと、を有する。
【0015】
本発明の第4の態様のプログラムは、コンピュータに、通信先端末を使用する通話相手と通話するユーザの周囲の音声に基づく音声データに含まれている、前記ユーザを含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成するステップと、前記複数の内部分離音声データそれぞれと記憶部に記憶された前記ユーザの音声の特徴を含む特徴データとの類似度である複数の内部類似度を生成するステップと、当該複数の内部類似度のうち所定の条件を満たす前記内部類似度に対応する前記内部分離音声データを選択分離音声データとして選択するステップと、前記ユーザの通話相手が使用する通話先端末に前記選択分離音声データを送信するステップと、を実行させるためのプログラムである。
【発明の効果】
【0016】
本発明によれば、自端末を使用している話者の音声を通話先の端末に送信できる確率が向上するという効果を奏する。
【図面の簡単な説明】
【0017】
【
図1】通信システムSの概要を説明するための図である。
【
図3】選択部163が外部分離音声データを用いて選択分離音声データを決定する動作の詳細を説明するための図である。
【
図4】それぞれの通信端末1が送信する複数の内部分離音声データと複数の内部類似度とを示す図である。
【
図5】複数の通信端末1それぞれの選択部163が内部類似度情報及び外部類似度情報を用いて選択分離音声データを決定する方法を説明するための図である。
【
図6】複数の通信端末1における処理の流れを示すシーケンス図である。
【
図7】通信端末1における処理の流れを示すフローチャートである。
【
図8】第1変形例に係る通信端末1Aの構成を示す図である。
【
図9】第2実施形態の概要を説明するための図である。
【発明を実施するための形態】
【0018】
<第1実施形態>
[通信システムSの概要]
図1は、通信システムSの概要を説明するための図である。通信システムSは、ユーザが操作する通信端末1により、ネットワークNを介して他のユーザとの間で音声通信するためのシステムである。ネットワークNは、例えば、電話通信網、インターネット、ローカルエリアネットワーク等である。
【0019】
図1は、ユーザU1が通信端末1を用いて、通話先端末2を使用する通話先のユーザU10と通話している状態を示している。ユーザU1の近くには、ユーザU10以外のユーザと通話しているユーザU2がいて、ユーザU1が発する音声とともに、ユーザU2が発する音声も通信端末1に入る。このように、ユーザU1の音声とユーザU2の音声が通信端末1に入ってしまうと、通話先端末2からユーザU1の音声とユーザU2の音声が出力されるので、ユーザU10がユーザU1の音声を聞きづらいという問題が生じる。
図1に示す例においては、通信端末1が「こんにちは」と話した際に、ユーザU2が「はじめまして」と話した場合に、通話先端末2には、「こんにちは」の音声に「はじめまして」という音声が重なって聞こえることになる。
【0020】
この問題を解決するために、ユーザU1の音声とユーザU2の音声とを分離する技術が知られている。一例として、特許第7137033号公報に記載された技術においては、ユーザU1が使用する通信端末1とユーザU2が使用する通信端末1とが無線通信をすることにより、それぞれに入力された音声に基づく信号を他方に送信する。通信端末1においては、集音した混合音声に含まれるユーザU1の音声とユーザU2の音声との音量の比と、無線通信により受信した混合音声に含まれるユーザU1の音声とユーザU2の音声との音量の比とが異なることに基づいて、集音した混合音声と無線通信により受信した混合音声とを独立成分分析することにより、ユーザU1の音声(
図1における分離音声Z1)とユーザU2の音声(
図1における分離音声Z2)とを分離する。
【0021】
音声の分離手法は任意であり、通信端末1が複数のマイクロホンを有しており、複数のマイクロホンが集音した音声と複数のマイクロホンの間の距離とに基づいて、複数の音声を分離してもよい。通信端末1は、分離音声Z1及び分離音声Z2のうち、ユーザU1の音声であると判定した音声を通話先端末2に送信する。これにより、通話先端末2を使用するユーザU10にはユーザU1の音声が聞こえてユーザU2の音声が聞こえないという状態になる。
【0022】
このようにして複数の音声を分離した場合、周辺環境の状態によってユーザU2が発した音声の音量が変動したり、反射の影響で遅延したりすることにより、ユーザU1の通話相手が使用する通話先端末2にユーザU1の音声を送信できない場合が生じ得る。そこで、本実施形態に係る通信端末1は、事前に取得したユーザU1の音声の特徴を含む特徴データ、又はユーザU1が話している間の顔の特徴を含む特徴データを用いて、分離音声Z1及び分離音声Z2のうち、ユーザU1の音声を正しく選択できる確率を高めることを特徴としている。
【0023】
[通信端末1の構成]
以下、通信端末1の構成及び動作を詳細に説明する。本明細書においては、通信端末1が無線通信により他の通信端末1から受信した音声を用いて複数の音声を分離する場合を例にして説明する。以下の説明では、ユーザU1が通信端末1-1を使用し、ユーザU2が通信端末1-2を使用するものとする。
【0024】
図2は、通信端末1の構成を示す図である。通信端末1は、集音部11と、第1通信部12と、第2通信部13と、音声出力部14と、記憶部15と、制御部16と、を有する。制御部16は、音声分離部161と、情報取得部162と、選択部163とを有する。ここでは、通信端末1が、ユーザU1が使用する通信端末1-1である場合を例にして通信端末1の構成を説明する。
【0025】
集音部11は、通信端末1の周囲の音声を集音して音声データに変換する。集音部11は、例えばマイクロホンを有する。集音部11は、音声データを音声分離部161に入力する。
【0026】
第1通信部12は、無線通信チャネル(例えばBluetooth(登録商標)又はWi-Fi(登録商標))を用いて、ユーザU2が使用する通信端末1-2と無線通信する。第1通信部12は、通信端末1-2で集音された混合音声データ、及び通信端末1-2で集音された音声に基いて通信端末1-2が生成した複数の外部分離音声データを受信する。また、第1通信部12は、複数の外部分離音声データに関連付けて、当該複数の外部分離音声データと、通信端末1-2を使用する他ユーザであるユーザU2の特徴データとの類似度である複数の外部類似度を受信する。第1通信部12は、受信した混合音声データを音声分離部161に入力する。第1通信部12は、受信した複数の外部分離音声データと、複数の外部類似度とを情報取得部162に入力する。
【0027】
複数の外部分離音声データは、通信端末1-2が集音した音声に含まれている複数の音声を通信端末1-2が分離することにより生成した音声データである。複数の外部類似度は、例えば複数の外部分離音声データをケプストラム分析することにより得られる情報と、ユーザU2の特徴データをケプストラム分析することにより得られる情報との間の相関値又はカルバック・ライブラ情報量により表される。
【0028】
第2通信部13は、通話先のユーザU10が使用する通話先端末2とネットワークNを介して通信し、音声信号を送受信するための通信インターフェースを有する。第2通信部13は、ユーザU1の通話相手であるユーザU10が使用する通話先端末である通話先端末2に、選択部163から入力された選択分離音声データを送信する。また、第2通信部13は、通話先端末2から受信した音声データを音声出力部14に入力する。選択分離音声データの詳細については後述する。
【0029】
音声出力部14は、第2通信部13を介して通話先端末2から受信した音声データを音声に変換して出力する。音声出力部14は、例えば、スピーカ、イヤフォン、ヘッドフォン等である。
【0030】
記憶部15は、ROM(Read Only Memory)及びRAM(Random Access Memory)等の記憶媒体を有する。記憶部15は、制御部16が実行するプログラムを記憶する。また、記憶部15は、複数の音声を分離するために使用する各種のデータを記憶する。記憶部15は、例えば、予め登録されたユーザU1の音声の特徴を含む特徴データを記憶する。
【0031】
制御部16は、例えばCPU(Central Processing Unit)を有する。制御部16は、記憶部15に記憶されたプログラムを実行することにより、音声分離部161、情報取得部162及び選択部163として機能する。
【0032】
音声分離部161は、集音部11から入力された音声データに含まれている、ユーザU1を含む複数の話者による複数の音声データを分離して複数の内部分離音声データを生成する。上記のとおり、音声分離部161が集音部11から入力された音声データに含まれている複数の音声データを分離する方法は任意である。音声分離部161は、生成した複数の内部分離音声データを選択部163に入力する。音声分離部161は、例えば、複数の内部分離音声データのそれぞれを識別するための情報に関連付けて、複数の内部分離音声データを選択部163に入力する。音声分離部161は、複数の内部分離音声データを、それぞれ異なるタイミングで選択部163に入力してもよい。
【0033】
情報取得部162は、第1通信部12を介して、集音部11が集音した音声と同じ音声を集音する他の通信端末1(例えば通信端末1-2)から、当該他の通信端末1が生成した複数の外部分離音声データと、複数の外部分離音声データそれぞれと当該他の通信端末1を使用する他ユーザU2の特徴データとの類似度である複数の外部類似度と、を関連付けて取得する。情報取得部162は、取得した複数の外部分離音声データと複数の外部類似度とを関連付けて選択部163に入力する。情報取得部162は、取得した複数の外部分離音声データと複数の外部類似度とを関連付けて記憶部15に記憶させてもよい。
【0034】
選択部163は、音声分離部161から入力された複数の内部分離音声データそれぞれと、記憶部15に記憶されたユーザU1の特徴データとの類似度である複数の内部類似度を特定する。複数の内部類似度は、上述した複数の外部類似度と同様に、例えば複数の内部分離音声データをケプストラム分析することにより得られる情報と、ユーザU1の特徴データをケプストラム分析することにより得られる情報との間の相関値又はカルバック・ライブラ情報量により表される。
【0035】
選択部163は、特定した複数の内部類似度のうち所定の条件を満たす内部類似度に対応する内部分離音声データを選択分離音声データとして選択する。所定の条件は、例えば、複数の内部類似度のうち最も大きな値である。この場合、選択部163は、複数の内部類似度のうち最大の類似度であるという所定の条件を満たす内部類似度に対応する内部分離音声データを選択分離音声データとして選択する。所定の条件は、類似度が閾値以上であるという条件をさらに含んでもよい。
【0036】
選択部163は、選択分離音声データを第2通信部13に入力することにより、ネットワークNを介して選択分離音声データを通話先端末2に送信する。選択部163が、このようにユーザU1の特徴データに最も類似する内部分離音声データを通話先端末2に送信することで、通話先端末2を使用するユーザU10にはユーザU1の音声以外の音声が聞こえないので、ユーザU10がユーザU1と通話をしやすくなる。
【0037】
ところで、ユーザU1の音声の特徴とユーザU2の音声の特徴とが似ている場合、ユーザU1が使用する通信端末1-1の選択部163が、誤ってユーザU2の音声に基づく分離音声データを選択してしまうことが生じ得る。そこで、選択部163は、情報取得部162を介して取得した複数の外部分離音声データをさらに用いて選択分離音声データを決定してもよい。
【0038】
具体的には、選択部163は、複数の内部分離音声データそれぞれについて、内部分離音声データと、当該内部分離音声データに対応する内部類似度と、情報取得部162が取得した複数の外部分離音声データのうち当該内部分離音声データに最も類似する外部分離音声データと、当該外部分離音声データに対応する外部類似度と、を関連付ける。そして、選択部163は、関連付けた内部類似度と外部類似度とを比較した結果に基づいて、通話先端末2に送信する選択分離音声データを選択する。以下、選択部163が外部分離音声データを用いて選択分離音声データを決定する動作の詳細を説明する。
【0039】
図3から
図5は、選択部163が外部分離音声データを用いて選択分離音声データを決定する動作の詳細を説明するための図である。ここでは、ユーザU1の近傍にユーザU2及びユーザU3がいる場合の選択部163の動作を説明する。通信端末1-1を使用するユーザU1は「こんにちは」という音声を発し、通信端末1-2を使用するユーザU2は、ユーザU1が音声を発したタイミングで「はじめまして」という音声を発し、通信端末1-3を使用するユーザU3も、ユーザU1が音声を発したタイミングで「お元気ですか」という音声を発している。
【0040】
通信端末1-1、通信端末1-2、通信端末1-3のそれぞれの選択部163は、無線通信により、音声分離部161から入力された複数の内部分離音声データに対応する複数の内部類似度を示す情報(以下、「内部類似度情報」という)を共有する。具体的には、例えば通信端末1-1は、無線通信が可能な通信端末1-2及び通信端末1-3に対して内部類似度情報を送信する。通信端末1-2及び通信端末1-3も同様に、他の通信端末1に対して内部類似度情報を送信する。それぞれの通信端末1は、他の通信端末1から受信した内部類似度情報を外部類似度情報として管理する。
【0041】
図4は、それぞれの通信端末1が送信する複数の内部分離音声データと複数の内部類似度とを示す図である。
図4(a)は、通信端末1-1が送信する内部類似度情報であり、
図4(b)は、通信端末1-2が送信する内部類似度情報であり、
図4(c)は、通信端末1-3が送信する内部類似度情報である。内部類似度情報には、複数の内部分離音声データのうち選択された内部分離音声データを示す情報(
図4においては〇)が含まれている。
【0042】
選択部163は、このようにして他の通信端末1から受信した内部類似度情報である外部類似度情報を用いて選択分離音声データを決定する。具体的には、選択部163は、内部類似度が外部類似度よりも大きいという所定の条件を満たす内部分離音声データを選択分離音声データとして選択する。選択部163は、自端末の内部類似度が外部類似度以下である場合、上記の所定の条件を満たさない内部類似度に対応する内部分離音声データと異なる内部分離音声データを選択分離音声データとして選択する。
【0043】
図5は、複数の通信端末1それぞれの選択部163が内部類似度情報及び外部類似度情報を用いて選択分離音声データを決定する方法を説明するための図である。
図5(a)は、各通信端末1において算出された内部類似度と各通信端末1において仮に選択された内部分離音声データを示す情報(仮選択結果)が示されている。テーブルAは通信端末1-1に対応し、テーブルBは通信端末1-2に対応し、テーブルCは通信端末1-3に対応している。
【0044】
テーブルAにおいては、ユーザU1の特徴データと「こんにちは」との類似度が最も大きく0.8であり、通信端末1-1が「こんにちは」を仮に選択していることが確認できる。テーブルBにおいては、ユーザU2の特徴データと「はじめまして」との類似度が最も大きく0.6であり、通信端末1-2が「はじめまして」を仮に選択していることが確認できる。テーブルCにおいては、ユーザU3の特徴データと「はじめまして」との類似度が最も大きく0.5であり、通信端末1-3も「はじめまして」を仮に選択していることが確認できる。
【0045】
このような場合、通信端末1-1の選択部163は、自身が仮に選択した内部分離音声データを他の通信端末1が選択していないので、仮に選択した内部分離音声データを選択分離音声データに決定する。一方、通信端末1-2及び通信端末1-3の選択部163は、自身が仮に選択した内部分離音声データを他の通信端末1が仮に選択しているため、選択した内部分離音声データに対応する内部類似度と外部類似度とを比較する。
図5(a)に示す例においては、テーブルBの類似度0.6とテーブルCの類似度0.5とを比較する。その結果、テーブルBの内部類似度の方がテーブルCの外部類似度よりも大きいので、通信端末1-2の選択部163は、仮に選択した内部分離音声データを選択分離音声データに決定する。
【0046】
通信端末1-3の選択部163は、内部類似度が他の通信端末1-2の外部類似度の方よりも小さいことから、仮に選択した内部分離音声データを選択分離音声データに決定せず、次に内部類似度が大きい内部分離音声データを選択分離音声データに決定する。
図5(a)に示す例の場合、通信端末1-3の選択部163は、内部類似度が2番目に大きい「お元気ですか」を選択分離音声データに決定する。
【0047】
図5(b)は、このようにして各通信端末1の選択部163が選択分離音声データを決定した結果を示している。選択部163がこのように動作することで、通信端末1を使用するユーザUの音声の特徴が他のユーザUの音声の特徴と似ている場合であっても、正しいユーザUの音声が選択される確率が高まる。
【0048】
[複数の通信端末1における処理の流れ]
図6は、複数の通信端末1における処理の流れを示すシーケンス図である。
図6に示すシーケンス図は、通信端末1-1、通信端末1-2及び通信端末1-3が集音を開始した時点から開始している。
図6においては、通信端末1-1がネットワークNを介して通話先端末2-1と通信し、通信端末1-2がネットワークNを介して通話先端末2-2と通信している状態が想定されている。
【0049】
まず、通信端末1-1、通信端末1-2及び通信端末1-3は、ユーザU1、ユーザU2及びユーザU3の音声が含まれる混合音声を他の通信端末1から取得する(S1)。続いて、各通信端末1の音声分離部161が、取得した混合音声に基づいて音声分離処理を実行する(S2)。続いて、各通信端末1の選択部163は、記憶部15に記憶された特徴データと複数の内部分離音声データとの類似度を算出し(S3)、1つの内部分離音声を仮選択する(S4)。
【0050】
続いて、通信端末1-1、通信端末1-2及び通信端末1-3は、複数の分離音声データと類似度とを示す類似度情報を共有する(S5)。すなわち、各通信端末1の情報取得部162は、他の通信端末1が送信し複数の内部分離音声データと内部類似度とを示す内部類似度情報を、複数の外部分離音声データと外部類似度を示す外部類似度情報として取得する。
【0051】
各通信端末1の選択部163は、情報取得部162が他の通信端末1から取得した複数の外部分離音声データと、自端末の音声分離部161から入力された複数の内部分離音声データとの相関値を算出することにより、それぞれの内部分離音声データを最も相関値が高い外部分離音声データに紐づける(S6)。そして、選択部163は、それぞれの内部分離音声データに対応する外部類似度を特定し、
図5に示したようなテーブルを作成する。
【0052】
各通信端末1の選択部163は、
図5を参照しながら説明したように、自身が仮に選択した内部分離音声データに対応する内部類似度が、当該内部分離音声データに対応する外部類似度よりも大きいか否かを判定することにより、仮に選択した内部分離音声データの正誤を判定する(S7)。選択部163は、内部類似度が外部類似度よりも大きく、仮に選択した内部分離音声データが正しいと判定した場合、仮に選択した内部分離音声データを選択分離音声データとして選択する。選択部163は、誤っていると判定した場合、他の内部分離音声データを選択分離音声データ(すなわち送信する音声データ)として選択する(S8)。
【0053】
通信端末1-1の選択部163は、選択分離音声データを通話先端末2-1に送信し(S9)、通信端末1-2の選択部163は、選択分離音声データを通話先端末2-2に送信する(S10)。このような手順により、複数の通信端末1それぞれが、複数の通信端末1を使用するユーザUの音声を通話中の相手が使用する通話先端末2に送信することができる。
【0054】
[通信端末1における処理の流れ]
図7は、通信端末1における処理の流れを示すフローチャートである。
図7に示すフローチャートは、通信端末1を使用するユーザU1が、ユーザU10との通話を開始する操作をした時点から開始している。
【0055】
音声分離部161は集音部11を介して音声データを取得するとともに、第1通信部12を介して他の通信端末1が集音することにより生成された混合音声データを取得する(S11)。音声分離部161は、取得した音声データに基づいて、複数の内部分離音声データを生成する(S12)。
【0056】
続いて、選択部163は、複数の内部分離音声データを記憶部15に記憶された特徴データと比較することにより、複数の内部分離音声データそれぞれと特徴データとの類似度を算出する(S13)。選択部163は、類似度が最も大きい内部分離音声データを仮に選択する(S14)。選択部163は、第1通信部12を介して、内部分離音声データと内部類似度とを示す内部類似度情報を他の通信端末1に送信する(S15)。
【0057】
また、選択部163は、第1通信部12及び情報取得部162を介して、他の通信端末1から外部分離音声データと外部類似度とを示す外部類似度情報を取得する(S16)。選択部163は、複数の内部分離音声データと複数の外部分離音声データとの組み合わせごとに相関値を算出することにより、内部分離音声データと外部分離音声データとを紐づけて、
図5に示したようなテーブルを作成する(S17)。
【0058】
選択部163は、S13において算出した複数の類似度のうち最大の類似度(すなわち、仮に選択した内部分離音声データに対応する類似度)が、他の通信端末1から取得した、当該内部分離音声データに対応する外部分離音声データに関連付けられた外部類似度よりも大きいか否かを判定する(S18)。選択部163は、S18において、最大の内部類似度が外部類似度よりも大きいと判定した場合(S18においてYES)、最大の内部類似度に対応する内部分離音声データを選択分離音声データとして選択する(S19)。
【0059】
選択部163は、S18において、最大の内部類似度が外部類似度よりも小さいと判定した場合(S18においてNO)、次に大きな内部類似度に対応する内部分離音声データを選択分離音声データとして選択する(S20)。選択部163は、第2通信部13を介して、選択分離音声データを通話先端末2に送信する(S21)。通信端末1は、S11からS21までの処理を所定の時間間隔で繰り返す。所定の時間間隔は、例えば1秒である。
【0060】
なお、S18において最大の内部類似度と外部類似度とが等しいと選択部163が判定した場合、選択部163は、例えば、最大の内部類似度と2番目の内部類似度との差が、他の通信端末1の最大の外部類似度と2番目の外部類似度との差よりも大きいことを条件として、S19の処理を実行する。
【0061】
S18において最大の内部類似度と外部類似度とが等しいと選択部163が判定した場合、選択部163は、仮に選択した内部音声データを通話先端末2に送信してもよい。S18において最大の内部類似度と外部類似度とが等しいと選択部163が判定した場合、選択部163は、選択分離音声データを決定せず、例えば処理の時間間隔である1秒間は音声データを通話先端末2に送信しないようにしてもよい。
【0062】
[変形例]
図8は、第1変形例に係る通信端末1Aの構成を示す図である。
図8に示す通信端末1Aは、画像データ取得部17をさらに有するという点で
図2に示した通信端末1と異なり、他の点で同じである。画像データ取得部17は、通信端末1を使用するユーザUの顔画像データを取得する。画像データ取得部17は、例えば撮像素子を有する。
【0063】
選択部163は、複数の内部分離音声データのうち、顔画像データが示すユーザUの顔の変化タイミングに同期している内部分離音声データを選択分離音声データとして選択する。選択部163は、例えば、複数の内部分離音声データを周波数領域のデータに変換し、顔画像データが、ユーザUの口が開閉する動き又は口の形の変化に同期して周波数が変化している内部分離音声データを選択する。選択部163は、顔画像データのフレーム間差分に基づいてユーザUの口の動き(又は唇の動き)の特徴を含む特徴データを用いてもよい。選択部163がこのように動作することで、適切な内部分離音声データを選択できる確率がさらに高まる。
【0064】
[通信端末1による効果]
以上説明したように、本実施形態に係る通信端末1は、集音した音声を話者ごとに分離して生成された複数の内部分離音声データそれぞれと、通信端末1のユーザUの音声の特徴を含む特徴データとの類似度である複数の内部類似度を特定し、当該複数の内部類似度のうち所定の条件を満たす内部類似度に対応する内部分離音声データを通話先の通話先端末2に送信する。通信端末1がこのように構成されていることで、通信端末1のユーザUの音声に対応する内部分離音声データが選択される確率が高くなり、自端末を使用している話者の音声を通話先の端末に送信できる確率が向上する。
【0065】
<第2実施形態>
第1実施形態においては、通信端末1が、入力された混合音声に含まれる複数の音声を分離し、通信端末1を使用するユーザUの音声を選択した。これに対して、第2実施形態においては、情報処理装置3が通信端末1から混合音声のデータを取得し、情報処理装置3が混合音声に含まれる複数の音声を分離して選択分離音声データを生成し、選択分離音声データを通話先端末2に送信するという点で第1実施形態と異なる。情報処理装置3は、例えばネットワークNを介して通信端末1及び通話先端末2と通信可能なコンピュータである。
【0066】
図9は、第2実施形態の概要を説明するための図である。通信端末1-1、通信端末1-2及び通信端末1-3は、それぞれが集音して生成した音声データを情報処理装置3に送信する。情報処理装置3は、複数の通信端末1それぞれのユーザUの特徴データを記憶しており、複数の通信端末1それぞれから受信した音声データに基づく複数の内部分離音声データのうち、特徴データに最も類似する内部分離音声データを選択する。情報処理装置3は、選択した内部分離音声データを、複数の通信端末1それぞれと通信している通話先端末2に送信する。情報処理装置3は、例えば通信端末1-1と通信している通話先端末2-1に対して、ユーザU1が発した「こんにちは」に対応する内部分離音声データを送信する。
【0067】
図10は、情報処理装置3の構成を示す図である。情報処理装置3は、通信部31と、記憶部32と、制御部33と、を有する。制御部33は、音声分離部331と選択部332とを有する。
【0068】
通信部31は、ネットワークNを介して通信端末1及び通話先端末2と通信するための通信インターフェースを有する。通信部31は、通信端末1から送信された音声データを受信し、受信した音声データを音声分離部331に入力する。通信部31は、選択部332が生成した選択分離音声データを通話先端末2に送信する。すなわち、通信部31は、ユーザUの通話相手が使用する通話先端末である通話先端末2に選択分離音声データを送信する。通信部31は、複数の通信端末1に対応する複数の通話先端末2に選択分離音声データを送信してもよい。
【0069】
記憶部32は、ROM、RAM及びSSD(Solid State Drive)等の記憶媒体を有する。記憶部32は、制御部33が実行するプログラムを記憶する。また、記憶部32は、複数の通信端末1を使用する複数のユーザの音声の特徴を含む複数の特徴データを記憶する。記憶部32は、例えば、通信端末1又は通信端末1を使用するユーザUを識別するための識別情報に関連付けて、ユーザUの特徴データを記憶する。記憶部32は、複数の通信端末1それぞれに関連付けて、通話先の通話先端末2の識別情報を記憶してもよい。
【0070】
制御部33は、記憶部32に記憶されたプログラムを実行することにより、音声分離部331及び選択部332として機能する。音声分離部331は、第1実施形態で説明した通信端末1における音声分離部161と同等の機能を有する。すなわち、音声分離部331は、通信端末1により集音された通信端末1の周囲の音声に基づく音声データに含まれている、ユーザUを含む複数の話者による複数の音声データを分離して複数の分離音声データを生成する。ただし、音声分離部331は、複数の通信端末1から受信した複数の音声データそれぞれに対して、複数の分離音声データを生成する。音声分離部331は、通信端末1又はユーザUの識別情報に関連付けて複数の分離音声データを選択部332に通知する。
【0071】
選択部332は、第1実施形態で説明した通信端末1における選択部163と同等の機能を有する。すなわち、選択部332は、複数の分離音声データそれぞれと特徴データとの類似度を特定し、当該複数の類似度のうち所定の条件を満たす類似度に対応する分離音声データを選択分離音声データとして選択する。選択部332は、例えば、音声分離部331から通知された複数の通信端末1に対応する複数の分離音声データに基づいて、それぞれの通信端末1に対応する複数の分離音声データのうち、通信端末1のユーザUの特徴データとの類似度が最も大きい分離音声データを選択分離音声データとして選択する。選択部332は、複数の通信端末1それぞれに関連付けて選択分離音声データを決定する。
【0072】
選択部332は、複数の通信端末1に対応する選択分離音声データが同一の分離音声データになった場合、
図5を参照して説明した手順により、複数の通信端末1それぞれに対応する分離音声データが異なるように選択分離音声データを決定する。選択部332は、複数の通信端末1それぞれに対応する選択分離音声データを、複数の通信端末1それぞれのユーザUが通話する他のユーザUが使用する通話先端末2に対して送信する。
【0073】
このように情報処理装置3が複数の通信端末1から受信した音声データから、通信端末1を使用するユーザUの特徴データに類似する分離音声データを生成することで、通信端末1の処理を軽くしつつ、通信端末1を使用している話者の音声を通話先の端末に送信できる確率を高めることが可能になる。
【0074】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0075】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0076】
1 通信端末
2 通話先端末
3 情報処理装置
11 集音部
12 第1通信部
13 第2通信部
14 音声出力部
15 記憶部
16 制御部
17 画像データ取得部
31 通信部
32 記憶部
33 制御部
151 記憶部
161 音声分離部
162 情報取得部
163 選択部
331 音声分離部
332 選択部