(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024148435
(43)【公開日】2024-10-18
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G10L 21/003 20130101AFI20241010BHJP
【FI】
G10L21/003
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023061557
(22)【出願日】2023-04-05
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】110000121
【氏名又は名称】IAT弁理士法人
(72)【発明者】
【氏名】藤井 俊一
(72)【発明者】
【氏名】北條 利明
(72)【発明者】
【氏名】山口 正晃
(72)【発明者】
【氏名】濱田 亜希
(57)【要約】 (修正有)
【課題】複数人が同時に話しても、会話の内容を聞き取ることができるよう情報処理をする情報処理装置を提供する。
【解決手段】複数のクライアント装置と、サーバ装置とが、ネットワークで通信可能に接続されているWeb会議システムにおいて、サーバ装置3は、ユーザの音声信号を取得する音声取得部311と、音声取得部311に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部312と、取得された音声信号に対して音声変換処理を施す信号処理部313と、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部313を制御する信号処理制御部314と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ユーザの音声信号を取得する音声取得部と、
前記音声取得部に取得された音声信号に基づいて前記ユーザが発言したことを検知するとともに前記ユーザを認識する認識部と、
取得された前記音声信号に対して音声変換処理を施す信号処理部と、
前記ユーザの発言が継続しているときに前記ユーザと異なる他のユーザが発言したことが検知された場合に、先に発言した前記ユーザか後から発言した前記他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように前記信号処理部を制御する信号処理制御部と
を備えることを特徴とする、
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記一方の音声信号は後から発言した前記他のユーザの音声信号であり、前記他方の音声信号は先に発言した前記ユーザの音声信号であることを特徴とする
情報処理装置。
【請求項3】
請求項1又は2に記載の情報処理装置であって、
前記信号処理制御部は、前記音声変換処理として、前記一方の音声信号の周波数帯域と前記他方の音声信号の周波数帯域とが重複する帯域と変換後の音声信号の周波数帯域との差分が所定の閾値以上となるように前記信号処理部を制御することを特徴とする
情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記信号処理制御部は、前記音声変換処理を実行しているときに前記ユーザの発言が終了したと判定した場合に、前記音声変換処理を解除するように前記信号処理部を制御することを特徴とする
情報処理装置。
【請求項5】
ユーザの音声を変換する情報処理装置が実行する情報処理方法であって、
ユーザの音声信号を取得する音声取得ステップと、
前記音声取得ステップに取得された音声信号に基づいて前記ユーザが発言したことを検知するとともに前記ユーザを認識する認識ステップと、
取得された音声信号に対して音声変換処理を施す信号処理ステップと、
前記ユーザの発言が継続しているときに前記ユーザと異なる他のユーザが発言したことが検知された場合に、先に発言した前記ユーザか後から発言した前記他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように前記信号処理ステップを制御する信号処理制御ステップと
を含むことを特徴とする、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
例えば特許文献1のように、従来、人の音声の重なりを検知・判定し、音量を調整する音声通話システムに関する技術がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般に、Web会議など、オンライン上のコミュニケーションにおいては、あるユーザが話した内容は全てのリスナーに同様に配信される。これは他のユーザが話した場合でも同様であり、リスナーは誰が話しているかを声質や話し方以外は同様の条件下で判別することになる。このような条件下では、現実世界での会話のような位置関係の違いやジェスチャーなどによって受け取る情報を無意識に選別できる、いわゆる「カクテルパーティー効果」が発揮されないため、複数人のユーザが同時に話すと、現実世界での会話と異なり、聞き分けが困難となる。
【0005】
上述した特許文献1の技術を用いることにより、複数のユーザが同時に話した場合であっても、発言時間等に基づいて会話の中心となる音声を判定し、音声調節することにより、リスナーは、会話の中心となるユーザの音声を容易に聞き分けることができる。
しかしながら、発言時間が短くても重要な情報が含まれている場合も考えられるため、音量が小さく調整されることにより、重要な情報を聞き逃しやすくなることも考えられる。
【0006】
本発明は、かかる問題にかんがみてなされたものであり、複数人が同時に話しても、話す内容を聞き取ることを可能とする、情報処理装置、情報処理方法、およびプログラムを提供するものである。
【課題を解決するための手段】
【0007】
本発明の一側面の情報処理装置は、ユーザの音声信号を取得する音声取得部と、音声取得部に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部と、取得された音声信号に対して音声変換処理を施す信号処理部と、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部を制御する信号処理制御部と
を備えることを特徴とする。
【0008】
本発明の一側面の情報処理方法は、ユーザの音声を変換する情報処理装置が実行する情報処理方法であって、ユーザの音声信号を取得する音声取得ステップと、音声取得ステップに取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識ステップと、取得された音声信号に対して音声変換制御処理を施す信号処理ステップと、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理ステップを制御する信号処理制御ステップとを含むことを特徴とする。
【発明の効果】
【0009】
本発明によれば、複数人が同時に話しても、話す内容を聞き取ることができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、Web会議システム1の構成を示す図である。
【
図2】
図2は、クライアント装置2の内部構成の一例を示すブロック図である。
【
図3】
図3は、サーバ装置3の内部構成の一例を示すブロック図である。
【
図4】
図4は、サーバ装置3の特定処理の流れを示すフローチャートである。
【
図5】
図5は、サーバ装置3の音声変換制御処理の流れを示すフローチャートである。
【
図6】
図6は、サーバ装置3の情報処理の例を示すシーケンス図である。
【発明を実施するための形態】
【0011】
[一実施の形態]
図1は、Web会議システム1の構成を示す図である。
【0012】
Web会議システム1は、
図1に示すように、情報処理装置としてのサーバ装置3およびクライアント装置2を含んで構成される。Web会議システム1には、例えば、ユーザA,B,C,Dのそれぞれに対してクライアント装置2a,2b,2c,2d(以下、個々に区別する必要がない場合、クライアント装置2と称する)とサーバ装置3から構成されており、クライアント装置2およびサーバ装置3は、インターネットや同一LAN(Local Area Network)等のネットワークNで通信可能に接続されている。ユーザは、クライアント装置2を介して、いわゆるWeb会議を行うことができる。
【0013】
クライアント装置2は、Web会議中のユーザが発した音声を入力し、サーバ装置3に送信する。またクライアント装置2は、サーバ装置3から送信されてきた音声信号を受信し、音声で出力する。クライアント装置2は、例えば、一般的なパーソナルコンピュータや、スマートフォン、タブレット等である。なお、クライアント装置2が異なる種類のデバイスでもよく、例えばクライアント装置2a,2bがパーソナルコンピュータであり、クライアント装置2c,2dがスマートフォンであってもよい。
【0014】
サーバ装置3は、各クライアント装置2から送信されてきたユーザの音声信号を受信し、得られた音声信号を他のクライアント装置2に送信する。その際、複数のクライアント装置2から同時に複数の音声信号を受信した場合に、サーバ装置3は、web会議の参加者が、主として発言しているユーザの音声と他のユーザの音声を区別できるように、所定の音声処理を実行し、処理した音声信号をクライアント装置2に送信する。
【0015】
なお、
図1に示すWeb会議システム1の構成は情報処理システムの一例であり、構成は多様に考えられる。
【0016】
[クライアント装置2の内部構成]
図2は、クライアント装置2の内部構成の一例を示す図である。
クライアント装置2は、制御部21、記憶部22、入力部23、出力部24、および通信部25を含んで構成される。
【0017】
制御部21は、CPU(Central Processing Unit)、記憶部位(ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発メモリ等)、ハードウェアを含む、その他の要素から構成される。
制御部21は、記憶部32に記憶された図示せぬ制御用アプリケーションプログラムやweb会議用のアプリケーションプログラムを実行することで、クライアント装置2全体を制御する。
【0018】
記憶部22は、記憶部位(ROM、RAM、不揮発メモリ等)から構成され、上述した制御用アプリケーションプログラムと、その実行のために必要な各種データを記憶する。記憶部22は、自クライアント装置に割り当てられたクライアント毎に異なるユーザIDを記憶してもよい。
【0019】
入力部23は、マイクロフォン等であり、ユーザの音声を入力し制御部21に供給する。
【0020】
出力部24は、スピーカ等であり、サーバ装置3から供給された音声信号を、音声として出力する。
【0021】
通信部25は、NIC(Network Interface Card)等であって、クライアント装置2をネットワークNに接続し、サーバ装置3やクライアント装置2等との通信を司る。通信部25は、制御部21から取得した音声信号をサーバ装置3へ送信する。通信部25は、音声信号をサーバ装置3へ送信する際に、記憶部22に記憶されたユーザIDを付加してもよい。
【0022】
[サーバ装置3の内部構成]
図3は、サーバ装置3の内部構成の一例を示すブロック図である。サーバ装置3は、制御部31、記憶部32、および通信部33を含んで構成される。
【0023】
制御部31は、CPU(Central Processing Unit)、記憶部位(ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発メモリ等)、ハードウェアを含む、その他の要素から構成される。
制御部31は、記憶部32に記憶された図示せぬ制御用アプリケーションプログラムを実行することで、サーバ装置3全体を制御するとともに、音声取得部311、認識部312、信号処理部313、信号処理制御部314として機能する。
【0024】
音声取得部311は、後述する通信部33より、クライアント装置2が送信してきたユーザの音声信号を取得する。
【0025】
認識部312は、音声取得部311が取得したユーザの音声信号に基づき、ユーザが発言したことを検知するとともに、発言したユーザを認識する。具体的には、例えば、認識部312は、ユーザの音声信号が一定値以上受信された場合、ユーザが発言したと認識する。認識部312は、発言したと認識したユーザのクライアント装置2のユーザIDを記憶部32から取得する。なお、クライアント装置2それぞれにはユーザIDが付与されており、記憶部32に記憶されている。
【0026】
信号処理部313は、音声取得部311により取得された音声信号に対して後述する所定の信号処理を施す。
【0027】
信号処理制御部314は、認識部312による発言したユーザの特定の結果に基づいて音声処理を施す話者の音声信号を特定する特定処理を実行し、特定処理の結果に基づいて後述する音声変換制御処理を実行する。具体的には、信号処理制御部314は、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、例えば、後から発言した他のユーザの音声信号を、所定の音声処理を施す処理対象として特定し、その音声信号の周波数帯域を、先に発言したユーザの音声信号の周波数帯域とは異なる周波数帯域に変換する音声変換処理を実行する。
【0028】
記憶部32は、記憶部位(ROM、RAM、不揮発メモリ等)から構成され、上述した制御用アプリケーションプログラムと、その実行のために必要な各種データを記憶する。
【0029】
通信部33は、NIC等であって、サーバ装置3をネットワークに接続し、クライアント装置2等との通信を司る。
【0030】
サーバ装置3の特定処理、音声変換制御処理について、その流れを
図4,5を参照して説明し、その後
図6を参照して具体例を説明する。
【0031】
(特定処理)
はじめに、
図4のフローチャートを参照して、サーバ装置3の特定処理の流れについて説明する。特定処理は、Web会議に参加している各ユーザに対応して実行される。すなわちユーザ毎の特定処理が並行して実行される。
【0032】
ステップS11において、音声取得部311は、対応するユーザの音声信号を取得するまで待機し、対応するユーザの音声信号を取得すると、認識部312は、web会議において発言したユーザを特定する。具体的には、上述の通り、認識部312は、発言したと認識したユーザのクライアント装置2のユーザIDを記憶部32から取得する。または、音声信号に発言したユーザを特定するためのユーザIDが付加されていた場合は、付加されていたユーザIDを取得してもよい。
【0033】
ステップS12において、信号処理制御部314は、ステップS11で取得されたユーザIDをキュー(以下、id_queueと称する。)にエンキューする。エンキューとは、ステップS11で取得したユーザIDがid_queueに代入されることをいう。
【0034】
ステップS13において、信号処理制御部314は、変数qが初期状態か否かを判定し、初期状態である場合は、ステップS14において、変数qにid_queueの先頭要素をデキューする。ここで初期状態とは、変数qに、一切ユーザIDが代入されていない状態をいう。デキューとは、id_queue内のユーザIDが変数qに代入され、id_queueからユーザIDが削除されることをいう。変数qに代入されたIDのユーザが、先に発言したユーザであることを意味する。変数qは、後述する音声変換制御処理(ステップS35)において初期化される。
【0035】
一方、ステップS13で変数qが初期状態でないと判定した場合、ステップS15において、信号処理制御部314は、id_queueにエンキューされたユーザIDをそのまま保持する。
【0036】
ステップS14またはステップS15の処理の後、ステップS16において、認識部312は、音声取得部311に取得された音声信号に基づいて、ユーザの音声が検知されたか否かを判定し、音声が検知されたと判定された場合、ステップS17において、信号処理制御部314は、無音時間のカウントをリセットする。ここで、無音時間とは、音声信号が受信されない時間、すなわちユーザが発言していない時間をいい、無音時間のカウントとは、無音時間の長さを計測することであり、リセットとは計測した無音時間の長さをゼロに初期化することである。その後、ステップS13に戻り、処理が繰り返される。
【0037】
ステップS16において、音声が検知されなかったと判定した場合、ステップS18において、信号処理制御部314は、受信された音声信号に基づいて、無音時間の長さが閾値以上か否かを判定し、無音時間の長さが閾値以上でないと判定した場合、ステップS19において、無音時間のカウントが開始されていなければカウントを開始し、すでに無音時間のカウントが開始されていればカウントを継続する。その後、ステップS16に戻る。
【0038】
ステップS18で、無音時間の長さが閾値であると判定された場合、ステップS20に進む。閾値は、例えば、10秒などである。ステップS20において、信号処理制御部314は、ユーザIDをメモリに記録された変数Flagに代入し、その後特定処理は終了する。
【0039】
(音声変換制御処理)
次に、
図5のフローチャートを参照して、サーバ装置3の音声変換制御処理の流れについて説明する。この処理は、ユーザに対応した各特定処理と並行して行われる。
【0040】
ステップS31において、信号処理制御部314は、特定処理で述べた変数qが初期状態か否かを判定し、初期状態であると判定された場合、ステップS31の処理を繰り返し、初期状態でないと判定された場合、ステップS32に進む。
【0041】
ステップS32において、信号処理制御部314は、変数qに代入されたユーザIDと変数Flagに代入されたユーザIDが一致するか否かを判定し、一致しないと判定した場合、ステップS33において、信号処理制御部314は、変数qに代入されているユーザID以外のユーザの音声変換処理を行うよう信号処理部313を制御する。
【0042】
ここで、音声変換処理とは、ピッチシフトのように声の主成分となる周波数帯域を大きくずらすことで、話し声が混ざってしまうことを防ぐ音声処理である。
信号処理制御部314の制御により、信号処理部313は、変数qにそのユーザIDが代入されたユーザとそれ以外の他のユーザの音声信号の周波数帯域を、変数qに代入されたユーザIDのユーザの音声信号の周波数帯域と異なる周波数帯域に変換する。具体的には、変数qに代入されたユーザIDのユーザの音声信号の周波数帯域と他のユーザの音声信号の周波数帯域とが重複する周波数帯域と、変換された音声信号の周波数帯域の差分が所定の閾値以上となるように変換する。
【0043】
次に、ステップS34において、信号処理制御部314は、変数Flagを初期化し、初期化する前の変数Flagと同じ値のユーザIDをid_queueから削除する。変数qは、初期化されることなく、そのままを維持される。その後、ステップS31に戻り、処理が繰り返される。
【0044】
ステップS32で、変数qに代入されたユーザIDとFlagに代入されたユーザIDが一致すると判定された場合、ステップS35において、変数qとFlagを初期化する。
【0045】
ステップS36において、信号処理制御部314は、音声変換処理を解除するように信号処理部313を制御する。つまり、音声変換処理を実行しているときにユーザの発言が終了したと判定した場合に、音声変換処理が解除される。その後、ステップS31に戻り、処理が繰り返される。
【0046】
(情報処理の具体例)
上述したWeb会議システム1の特定処理および音声変換制御処理に関して具体的な例を挙げて説明する。
図6は、特定処理および音声変換制御処理の流れを示すシーケンス図である。
【0047】
ユーザA,BがWeb会議に参加して、発言する場合を例に説明する。
図6においては、縦軸は時間の経過を示し、左から1番目の列にユーザAの発言区間が、左から2番目の列にユーザBの発言区間が、グレーで塗りつぶされた四角で示されている。グレーで塗りつぶされた四角以外の部分は、無音であること、すなわち発言していないことを示している。すなわちユーザAは、時刻t2で発言を開始し、時刻t7で音声が検知されないことから時刻t6まで継続したと判定する。同様に、ユーザBは、時刻t3で発言を開始し、時刻t3まで継続する。
【0048】
図6の左から3番目の列から順にキューid_queue、変数q、変数Flagの要素の有無を示す表記が並ぶ。グレーで塗りつぶされた四角は、要素が有ることを示しており、それ以外の部分は要素がないことを示している。最も右の列は、音声変換処理の対象となるユーザの音声を示している。
【0049】
ユーザAおよびユーザBに対してそれぞれ特定処理がなされ、その特定処理の結果に基づいて音声変換制御処理が実行される。そこで、以下、ユーザAについての特定処理、ユーザBについての特定処理、音声変換制御処理の3つに分けて具体例を時系列に沿って述べる。
【0050】
<時刻t1から時刻t2>
時刻t1から時刻t2において、ユーザAおよびユーザBの特定処理では、ユーザの音声が検知されないため、ステップS11の処理が繰り返し実行され、また変数qは初期状態であるため、音声変換制御処理ではステップS31の処理が繰り返し実行される。
【0051】
<時刻t2から時刻t3>
(1)ユーザAの特定処理
時刻t2において、認識部312がユーザAの音声を検知すると、信号処理制御部314は、ユーザAのIDを取得し(ステップS11)、id_queueにユーザAのIDをエンキュー(ステップS12)。このタイミングでは、変数qは初期状態であるため(ステップS13でYes)、信号処理制御部314は、変数qにid_queueの先頭要素であるユーザAのIDをデキューする(ステップS14)。これは、id_queue内のユーザAのIDが変数qに代入され、id_queueからユーザAのIDが削除されることを意味する。認識部312は、ユーザAの音声を検知するため(ステップS16でYes)、その後ステップS17,S13でNo,S15,S16を繰り返す。
【0052】
(2)ユーザBの特定処理
時刻t2から時刻t3においては、ユーザBの音声が検知されないため、ステップS11の処理が繰り返し実行される(ユーザBの特定処理が開始されない)。
【0053】
(3)音声変換制御処理
時刻t2でユーザAの音声が検知された後、時刻t3でユーザBの音声が検知されるまでの間、変数qにユーザAのユーザIDが代入されているため、変数qは初期状態でない(ステップS31でNo)。変数FlagにユーザIDは代入されていないため、変数qと変数Flagは同値でない(ステップS32でNo)。そのため、信号処理制御部314は、変数qにユーザIDが代入されているユーザA以外のユーザBの音声変換処理を行う(ステップS33)。
信号処理制御部314は、変数Flagを初期化するところ、元々初期状態であるためそのまま維持する。ユーザAのユーザIDが代入された変数qはそのまま維持される。id_queueからFlagと同値のユーザIDを削除するが、元々初期状態のためそのまま維持する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0054】
<時刻t3から時刻t4>
(1)ユーザAの特定処理
時刻t3において、認識部312は、時刻t2に引き続きユーザAの音声を検知するため(ステップS16でYes)、ステップS17,S13でNo,S15,S16を繰り返す。
【0055】
(2)ユーザBの特定処理
時刻t3において、認識部312がユーザBの音声を検知すると、信号処理制御部314は、ユーザBのユーザIDを取得する(ステップS11)。信号処理制御部314は、id_queueにユーザBのユーザIDを入れる(ステップS12)。変数qにユーザAが存在するため(ステップS13でNo)、ユーザBのユーザIDがid_queueに保持される(ステップS15)。認識部312は、途中でユーザBの音声を検知しなくなり(ステップS16でNo)、無音時間は閾値W未満であるため(ステップS18でNo)、信号処理制御部314は、無音時間のカウントを開始する(ステップS19)。その後、ステップS16でNo,S18でNo,S19でカウントの継続を繰り返す。
【0056】
(3)音声変換制御処理
時刻t3から時刻t4において、信号処理制御部314は、時刻t2から時刻t3の処理と同様に、変数q以外のユーザの音声変換処理を行う。すなわちユーザBの音声変換処理を行う(ステップS33)。具体的には、信号処理制御部314の制御により、信号処理部313は、変数qに代入されたユーザAと他のユーザであるユーザBのうち、ユーザBの音声信号の周波数帯域を、ユーザAの音声信号の周波数帯域と異なる周波数帯域に変換する。なお、ユーザAの音声信号の周波数帯域とユーザBの音声信号の周波数帯域とが重複する帯域と、変換後の音声信号の周波数帯域との差分が所定の閾値以上となるように変換する。
【0057】
そして、信号処理制御部314は、変数Flagを初期化し、id_queueから変数Flagと同値のユーザIDを削除するが、変数Flagは初期状態のため、そのまま維持する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0058】
<時刻t4から時刻t5>
(1)ユーザAの特定処理
時刻t4から時刻t5において、認識部312は、時刻t2,時刻t3に引き続きユーザAの音声を検知するため(ステップS16でYes)、ステップS17,S13でNo,S15,S16を繰り返す。
【0059】
(2)ユーザBの特定処理
時刻t4から時刻t5において、認識部312はユーザBの音声を検知せず(ステップS16)、無音時間が閾値W以上であるため(ステップS18でYes)、ユーザBのユーザIDを変数Flagに代入する(ステップS20)。
【0060】
(3)音声変換制御処理
時刻t4から時刻t5において、変数qにユーザAのユーザIDが代入されているため、変数qは初期状態でない(ステップS31でNo)。変数FlagにユーザBのユーザIDが代入されているため、変数qと変数Flagは同値でない(ステップS32でNo)。信号処理制御部314は、変数q以外のユーザであるユーザBの音声変換処理を行う(ステップS33)。信号処理制御部314は、ユーザBのユーザIDが代入された変数Flagを初期化する。ユーザAのユーザIDが代入された変数qはそのまま維持する。また、id_queueから変数Flagと同値のユーザIDを削除するところ、id_queueからユーザBのユーザIDを削除する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0061】
<時刻t5から時刻t6>
(1)ユーザAの特定処理
時刻t5から時刻t6において、認識部312が時刻t2~時刻t4に引き続きユーザAの音声を検知するため(ステップS16でYes)、ステップS17,S13でNo,S15,S16を繰り返す。
【0062】
(2)ユーザBの特定処理
時刻t5から時刻t6において、認識部312がユーザBの音声を検知しないため、特定処理は開始されない。
【0063】
(3)音声変換制御処理
時刻t5から時刻t6において、信号処理制御部314は、時刻t2から時刻t3の処理と同様に、変数q以外のユーザの音声変換処理を行う(ステップS33)。信号処理制御部314は、変数Flagを初期化し、id_queueから変数Flagと同値のユーザIDを削除するところ、変数Flagは初期状態のため、そのまま維持する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0064】
<時刻t6から時刻t7>
(1)ユーザAの特定処理
時刻t6から時刻t7において、認識部312は、時刻t2~時刻t5に引き続きユーザAの音声を検知するため(ステップS16でYes)、ステップS17,S13でNo,S15,S16を繰り返す。
【0065】
途中で、認識部312は、ユーザAの音声を検知しなくなり(ステップS16でNo)、無音時間は閾値W未満であるため(ステップS18でNo)、信号処理制御部314は、無音時間のカウントを開始する(ステップS19)。その後、ステップS16でNo,S18でNo,S19でカウントの継続を繰り返す。
【0066】
さらに途中で、無音時間が閾値W以上となるため(ステップS18でYes)、信号処理制御部314は、ユーザAのユーザIDをFlagに代入する(ステップS20)。その後、ユーザAの特定処理は終了する。
【0067】
(2)ユーザBの特定処理
時刻t6から時刻t7において、認識部312がユーザBの音声を検知するため、信号処理制御部314は、ユーザBのユーザIDを取得する(ステップS11)。信号処理制御部314は、id_queueにユーザBのユーザIDを代入する(ステップS12)。変数qにユーザAのユーザIDが代入されているため(ステップS13でNo)、ユーザBのユーザIDがid_queueに保持される(ステップS15)。認識部312がユーザBの音声を検知するため(ステップS16でYes)、その後ステップS17,S13でNo,S15,S16を繰り返す。
【0068】
(3)音声変換制御処理
ユーザAの特定処理において、信号処理制御部314が、ユーザAのユーザIDを変数Flagに代入する前までは、信号処理制御部314は、時刻t2から時刻t3の処理と同様に、ユーザBの音声変換処理を行う(ステップS33)。信号処理制御部314は、変数Flagを初期化し、id_queueから変数Flagと同値のユーザIDを削除するところ、変数Flagは初期状態のため、そのまま維持する(ステップS34)。その後、ステップS31に戻り音声変換制御処理が繰り返される。
【0069】
ユーザAの特定処理において、信号処理制御部314が、ユーザAのユーザIDを変数Flagに代入した後からは、時刻t2,時刻t3間で変数qにユーザAのユーザIDをすでに代入しているため、変数qと変数Flagは同値である(ステップS32でYes)。信号処理制御部314は、ユーザAのユーザIDが代入された変数qと変数Flagを初期化する(ステップS35)。変数qが初期化されたため、信号処理制御部314は、ユーザBの音声変換処理を解除する(ステップS36)。その後、ステップS31に戻り音声変換制御処理が繰り返される。
【0070】
<時刻t7から時刻t8>
(1)ユーザAの特定処理
時刻t7から時刻t8において、認識部312がユーザAの音声を検知しないため、特定処理は開始されない。
【0071】
(2)ユーザBの特定処理
時刻t7から時刻t8において、変数qは初期状態であるため(ステップS13でYes)、信号処理制御部314は、変数qにid_queueの先頭要素であるユーザBのユーザIDをデキューする。これにより、id_queue内のユーザBのユーザIDが変数qに代入され、id_queueからユーザBのユーザIDが削除される(ステップS14)。認識部312がユーザBの音声を検知するため(ステップS16でYes)、その後ステップS17,S13でNo,S15,S16を繰り返す。
【0072】
(3)音声変換制御処理
時刻t7から時刻t8において、変数qにユーザBが代入されているため、変数qは初期状態でない(ステップS31でNo)。また変数FlagにユーザIDは代入されていないため、変数qと変数Flagは同値でない(ステップS32でNo)。よって、信号処理制御部314は、変数qに代入されたユーザID以外のユーザの音声変換処理を行う(ステップS33)。信号処理制御部314は、変数Flagを初期化するところ、元々初期状態であるためそのまま維持する。ユーザBのユーザIDが代入された変数qはそのまま維持する。id_queueから変数Flagと同値のユーザIDを削除するところ、変数Flagは初期状態のため、そのまま維持する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0073】
<時刻t8から時刻t9>
(1)ユーザAの特定処理
時刻t8から時刻t9において、認識部312がユーザAの音声を検知しないため、ユーザAの特定処理は開始されない。
【0074】
(2)ユーザBの特定処理
時刻t8から時刻t9において、認識部312がユーザBの音声を検知するため(ステップS16でYes)、その後ステップS17,S13でNo,S15,S16を繰り返す。
【0075】
途中で、認識部312がユーザBの音声を検知しなくなり(ステップS16でNo)、無音時間は閾値W未満であるため(ステップS18でNo)、信号処理制御部314は、無音時間のカウントを開始する(ステップS19)。その後、ステップS16でNo,S18でNo,S19でカウントの継続を繰り返す。
【0076】
さらに途中で、無音時間が閾値W以上となるため(ステップS18でYes)、ユーザBのユーザIDを変数Flagに代入する(ステップS20)。その後、ユーザBの特定処理は終了する。
【0077】
(3)音声変換制御処理
ユーザBの特定処理において、信号処理制御部314が、ユーザBのユーザIDを変数Flagに代入する前までは、ユーザBのユーザIDが代入された変数qと変数Flagは同値でない(ステップS32でNo)。信号処理制御部314は、変数q以外のユーザの音声変換処理を行う(ステップS33)。信号処理制御部314は、変数Flagを初期化し、id_queueから変数Flagと同値のユーザIDを削除するところ、変数Flagは初期状態のため、そのまま維持する(ステップS34)。その後、ステップS31に戻り処理が繰り返される。
【0078】
ユーザBの特定処理において、信号処理制御部314が、ユーザAのユーザIDを変数Flagに代入した後からは、ユーザBのユーザIDが代入された変数qと変数Flagは同値である(ステップS32でYes)。信号処理制御部314は、ユーザBのユーザIDが代入された変数qと変数Flagを初期化する(ステップS35)。変数qが初期化されたため、信号処理制御部314は、ユーザの音声変換処理を解除する(ステップS36)。その後、ステップS31に戻り処理が繰り返される。
[発明のまとめ]
【0079】
上述した情報処理装置としてのサーバ装置3は、
ユーザの音声信号を取得する音声取得部311と、
音声取得部311に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部312と、
取得された音声信号に対して音声変換処理を施す信号処理部313と、
ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部313を制御する信号処理制御部314と
を備えることを特徴とする。
【0080】
このような構成を有することにしたので、例えばWeb会議において、複数人が同時に話しても、話者の音声信号の周波数帯域を異なる他の音声信号の周波数帯域に変換した音声が出力されるので、話す内容を聞き分けることができる。
【0081】
また、前記一方の音声信号は後から発言した他のユーザの音声信号であり、前記他方の音声信号は先に発言したユーザの音声信号であることを特徴とする。
【0082】
このような構成を有することにしたので、初めから話しているユーザの音声以外の音声信号が音声変換処理されるので、初めから話しているユーザの音声を違和感なく聞くことができる。また、本実施形態の説明においては、先に発言したユーザと後から発言したユーザとのうち、後から発言したユーザの音声信号に対して音声変換処理を実行していたが、逆に、先に発言したユーザの音声信号に対して音声変換処理を実行するようにしてもよい。つまり音声変換制御処理のステップS33においてqに代入されたユーザIDのユーザの音声信号に対して音声処理を開始するようにしてもよい。
【0083】
また、信号処理制御部314は、音声変換処理として、前記一方の音声信号の周波数帯域と前記他の音声信号の周波数帯域とが重複する帯域と変換後の音声信号の周波数音声帯域との差分が所定の閾値以上となるように前記信号処理部313を制御することを特徴とする。
【0084】
このような構成を有することにしたので、例えばWeb会議において、複数人が同時に話しても、音声信号の周波数帯域が大きく異なるので、より容易に話す内容を聞き分けることができる。
【0085】
また、信号処理制御部314は、音声変換処理を実行しているときにユーザの発言が終了したと判定した場合に、音声変換処理を解除するように信号処理部313を制御することを特徴とする。また、音声変換処理を解除するときに、変換後の音声信号の周波数帯域と変換前の音声信号の周波数帯域との差分が徐々に小さくなるように段階的に解除してもよい。
【0086】
このような構成を有することにしたので、音声変換処理の対象となるユーザの音声を切り替えることができる。
【符号の説明】
【0087】
1…Web会議システム、2…クライアント装置、3…サーバ装置、21,31…制御部、22,32…記憶部、25,33…通信部、23…入力部、24…出力部、311…音声取得部、312…認識部、313…信号処理部、314…信号処理制御部