特開2024-148435 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-148435情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024148435

(43)【公開日】2024-10-18

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G10L 21/003 20130101AFI20241010BHJP

【ＦＩ】

G10L21/003

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023061557

(22)【出願日】2023-04-05

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】110000121

【氏名又は名称】ＩＡＴ弁理士法人

(72)【発明者】

【氏名】藤井俊一

(72)【発明者】

【氏名】北條利明

(72)【発明者】

【氏名】山口正晃

(72)【発明者】

【氏名】濱田亜希

(57)【要約】（修正有）

【課題】複数人が同時に話しても、会話の内容を聞き取ることができるよう情報処理をする情報処理装置を提供する。
【解決手段】複数のクライアント装置と、サーバ装置とが、ネットワークで通信可能に接続されているＷｅｂ会議システムにおいて、サーバ装置３は、ユーザの音声信号を取得する音声取得部３１１と、音声取得部３１１に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部３１２と、取得された音声信号に対して音声変換処理を施す信号処理部３１３と、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部３１３を制御する信号処理制御部３１４と、を備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

ユーザの音声信号を取得する音声取得部と、
前記音声取得部に取得された音声信号に基づいて前記ユーザが発言したことを検知するとともに前記ユーザを認識する認識部と、
取得された前記音声信号に対して音声変換処理を施す信号処理部と、
前記ユーザの発言が継続しているときに前記ユーザと異なる他のユーザが発言したことが検知された場合に、先に発言した前記ユーザか後から発言した前記他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように前記信号処理部を制御する信号処理制御部と
を備えることを特徴とする、
情報処理装置。

【請求項2】

請求項１に記載の情報処理装置であって、
前記一方の音声信号は後から発言した前記他のユーザの音声信号であり、前記他方の音声信号は先に発言した前記ユーザの音声信号であることを特徴とする
情報処理装置。

【請求項3】

請求項１又は２に記載の情報処理装置であって、
前記信号処理制御部は、前記音声変換処理として、前記一方の音声信号の周波数帯域と前記他方の音声信号の周波数帯域とが重複する帯域と変換後の音声信号の周波数帯域との差分が所定の閾値以上となるように前記信号処理部を制御することを特徴とする
情報処理装置。

【請求項4】

請求項３に記載の情報処理装置であって、
前記信号処理制御部は、前記音声変換処理を実行しているときに前記ユーザの発言が終了したと判定した場合に、前記音声変換処理を解除するように前記信号処理部を制御することを特徴とする
情報処理装置。

【請求項5】

ユーザの音声を変換する情報処理装置が実行する情報処理方法であって、
ユーザの音声信号を取得する音声取得ステップと、
前記音声取得ステップに取得された音声信号に基づいて前記ユーザが発言したことを検知するとともに前記ユーザを認識する認識ステップと、
取得された音声信号に対して音声変換処理を施す信号処理ステップと、
前記ユーザの発言が継続しているときに前記ユーザと異なる他のユーザが発言したことが検知された場合に、先に発言した前記ユーザか後から発言した前記他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように前記信号処理ステップを制御する信号処理制御ステップと
を含むことを特徴とする、
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

【背景技術】

【0002】

例えば特許文献１のように、従来、人の音声の重なりを検知・判定し、音量を調整する音声通話システムに関する技術がある。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第３８２９４８５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一般に、Ｗｅｂ会議など、オンライン上のコミュニケーションにおいては、あるユーザが話した内容は全てのリスナーに同様に配信される。これは他のユーザが話した場合でも同様であり、リスナーは誰が話しているかを声質や話し方以外は同様の条件下で判別することになる。このような条件下では、現実世界での会話のような位置関係の違いやジェスチャーなどによって受け取る情報を無意識に選別できる、いわゆる「カクテルパーティー効果」が発揮されないため、複数人のユーザが同時に話すと、現実世界での会話と異なり、聞き分けが困難となる。

【0005】

上述した特許文献１の技術を用いることにより、複数のユーザが同時に話した場合であっても、発言時間等に基づいて会話の中心となる音声を判定し、音声調節することにより、リスナーは、会話の中心となるユーザの音声を容易に聞き分けることができる。
しかしながら、発言時間が短くても重要な情報が含まれている場合も考えられるため、音量が小さく調整されることにより、重要な情報を聞き逃しやすくなることも考えられる。

【0006】

本発明は、かかる問題にかんがみてなされたものであり、複数人が同時に話しても、話す内容を聞き取ることを可能とする、情報処理装置、情報処理方法、およびプログラムを提供するものである。

【課題を解決するための手段】

【0007】

本発明の一側面の情報処理装置は、ユーザの音声信号を取得する音声取得部と、音声取得部に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部と、取得された音声信号に対して音声変換処理を施す信号処理部と、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部を制御する信号処理制御部と
を備えることを特徴とする。

【0008】

本発明の一側面の情報処理方法は、ユーザの音声を変換する情報処理装置が実行する情報処理方法であって、ユーザの音声信号を取得する音声取得ステップと、音声取得ステップに取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識ステップと、取得された音声信号に対して音声変換制御処理を施す信号処理ステップと、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理ステップを制御する信号処理制御ステップとを含むことを特徴とする。

【発明の効果】

【0009】

本発明によれば、複数人が同時に話しても、話す内容を聞き取ることができる。

【図面の簡単な説明】

【0010】

【図1】図１は、Ｗｅｂ会議システム１の構成を示す図である。

【図2】図２は、クライアント装置２の内部構成の一例を示すブロック図である。

【図3】図３は、サーバ装置３の内部構成の一例を示すブロック図である。

【図4】図４は、サーバ装置３の特定処理の流れを示すフローチャートである。

【図5】図５は、サーバ装置３の音声変換制御処理の流れを示すフローチャートである。

【図6】図６は、サーバ装置３の情報処理の例を示すシーケンス図である。

【発明を実施するための形態】

【0011】

［一実施の形態］
図１は、Ｗｅｂ会議システム１の構成を示す図である。

【0012】

Ｗｅｂ会議システム１は、図１に示すように、情報処理装置としてのサーバ装置３およびクライアント装置２を含んで構成される。Ｗｅｂ会議システム１には、例えば、ユーザＡ，Ｂ，Ｃ，Ｄのそれぞれに対してクライアント装置２ａ，２ｂ，２ｃ，２ｄ（以下、個々に区別する必要がない場合、クライアント装置２と称する）とサーバ装置３から構成されており、クライアント装置２およびサーバ装置３は、インターネットや同一ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークＮで通信可能に接続されている。ユーザは、クライアント装置２を介して、いわゆるＷｅｂ会議を行うことができる。

【0013】

クライアント装置２は、Ｗｅｂ会議中のユーザが発した音声を入力し、サーバ装置３に送信する。またクライアント装置２は、サーバ装置３から送信されてきた音声信号を受信し、音声で出力する。クライアント装置２は、例えば、一般的なパーソナルコンピュータや、スマートフォン、タブレット等である。なお、クライアント装置２が異なる種類のデバイスでもよく、例えばクライアント装置２ａ，２ｂがパーソナルコンピュータであり、クライアント装置２ｃ，２ｄがスマートフォンであってもよい。

【0014】

サーバ装置３は、各クライアント装置２から送信されてきたユーザの音声信号を受信し、得られた音声信号を他のクライアント装置２に送信する。その際、複数のクライアント装置２から同時に複数の音声信号を受信した場合に、サーバ装置３は、ｗｅｂ会議の参加者が、主として発言しているユーザの音声と他のユーザの音声を区別できるように、所定の音声処理を実行し、処理した音声信号をクライアント装置２に送信する。

【0015】

なお、図１に示すＷｅｂ会議システム１の構成は情報処理システムの一例であり、構成は多様に考えられる。

【0016】

［クライアント装置２の内部構成］
図２は、クライアント装置２の内部構成の一例を示す図である。
クライアント装置２は、制御部２１、記憶部２２、入力部２３、出力部２４、および通信部２５を含んで構成される。

【0017】

制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶部位（ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、不揮発メモリ等）、ハードウェアを含む、その他の要素から構成される。
制御部２１は、記憶部３２に記憶された図示せぬ制御用アプリケーションプログラムやｗｅｂ会議用のアプリケーションプログラムを実行することで、クライアント装置２全体を制御する。

【0018】

記憶部２２は、記憶部位（ＲＯＭ、ＲＡＭ、不揮発メモリ等）から構成され、上述した制御用アプリケーションプログラムと、その実行のために必要な各種データを記憶する。記憶部２２は、自クライアント装置に割り当てられたクライアント毎に異なるユーザＩＤを記憶してもよい。

【0019】

入力部２３は、マイクロフォン等であり、ユーザの音声を入力し制御部２１に供給する。

【0020】

出力部２４は、スピーカ等であり、サーバ装置３から供給された音声信号を、音声として出力する。

【0021】

通信部２５は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等であって、クライアント装置２をネットワークＮに接続し、サーバ装置３やクライアント装置２等との通信を司る。通信部２５は、制御部２１から取得した音声信号をサーバ装置３へ送信する。通信部２５は、音声信号をサーバ装置３へ送信する際に、記憶部２２に記憶されたユーザＩＤを付加してもよい。

【0022】

［サーバ装置３の内部構成］
図３は、サーバ装置３の内部構成の一例を示すブロック図である。サーバ装置３は、制御部３１、記憶部３２、および通信部３３を含んで構成される。

【0023】

制御部３１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶部位（ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、不揮発メモリ等）、ハードウェアを含む、その他の要素から構成される。
制御部３１は、記憶部３２に記憶された図示せぬ制御用アプリケーションプログラムを実行することで、サーバ装置３全体を制御するとともに、音声取得部３１１、認識部３１２、信号処理部３１３、信号処理制御部３１４として機能する。

【0024】

音声取得部３１１は、後述する通信部３３より、クライアント装置２が送信してきたユーザの音声信号を取得する。

【0025】

認識部３１２は、音声取得部３１１が取得したユーザの音声信号に基づき、ユーザが発言したことを検知するとともに、発言したユーザを認識する。具体的には、例えば、認識部３１２は、ユーザの音声信号が一定値以上受信された場合、ユーザが発言したと認識する。認識部３１２は、発言したと認識したユーザのクライアント装置２のユーザＩＤを記憶部３２から取得する。なお、クライアント装置２それぞれにはユーザＩＤが付与されており、記憶部３２に記憶されている。

【0026】

信号処理部３１３は、音声取得部３１１により取得された音声信号に対して後述する所定の信号処理を施す。

【0027】

信号処理制御部３１４は、認識部３１２による発言したユーザの特定の結果に基づいて音声処理を施す話者の音声信号を特定する特定処理を実行し、特定処理の結果に基づいて後述する音声変換制御処理を実行する。具体的には、信号処理制御部３１４は、ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、例えば、後から発言した他のユーザの音声信号を、所定の音声処理を施す処理対象として特定し、その音声信号の周波数帯域を、先に発言したユーザの音声信号の周波数帯域とは異なる周波数帯域に変換する音声変換処理を実行する。

【0028】

記憶部３２は、記憶部位（ＲＯＭ、ＲＡＭ、不揮発メモリ等）から構成され、上述した制御用アプリケーションプログラムと、その実行のために必要な各種データを記憶する。

【0029】

通信部３３は、ＮＩＣ等であって、サーバ装置３をネットワークに接続し、クライアント装置２等との通信を司る。

【0030】

サーバ装置３の特定処理、音声変換制御処理について、その流れを図４，５を参照して説明し、その後図６を参照して具体例を説明する。

【0031】

（特定処理）
はじめに、図４のフローチャートを参照して、サーバ装置３の特定処理の流れについて説明する。特定処理は、Ｗｅｂ会議に参加している各ユーザに対応して実行される。すなわちユーザ毎の特定処理が並行して実行される。

【0032】

ステップＳ１１において、音声取得部３１１は、対応するユーザの音声信号を取得するまで待機し、対応するユーザの音声信号を取得すると、認識部３１２は、ｗｅｂ会議において発言したユーザを特定する。具体的には、上述の通り、認識部３１２は、発言したと認識したユーザのクライアント装置２のユーザＩＤを記憶部３２から取得する。または、音声信号に発言したユーザを特定するためのユーザＩＤが付加されていた場合は、付加されていたユーザＩＤを取得してもよい。

【0033】

ステップＳ１２において、信号処理制御部３１４は、ステップＳ１１で取得されたユーザＩＤをキュー（以下、ｉｄ＿ｑｕｅｕｅと称する。）にエンキューする。エンキューとは、ステップＳ１１で取得したユーザＩＤがｉｄ＿ｑｕｅｕｅに代入されることをいう。

【0034】

ステップＳ１３において、信号処理制御部３１４は、変数ｑが初期状態か否かを判定し、初期状態である場合は、ステップＳ１４において、変数ｑにｉｄ＿ｑｕｅｕｅの先頭要素をデキューする。ここで初期状態とは、変数ｑに、一切ユーザＩＤが代入されていない状態をいう。デキューとは、ｉｄ＿ｑｕｅｕｅ内のユーザＩＤが変数ｑに代入され、ｉｄ＿ｑｕｅｕｅからユーザＩＤが削除されることをいう。変数ｑに代入されたＩＤのユーザが、先に発言したユーザであることを意味する。変数ｑは、後述する音声変換制御処理（ステップＳ３５）において初期化される。

【0035】

一方、ステップＳ１３で変数ｑが初期状態でないと判定した場合、ステップＳ１５において、信号処理制御部３１４は、ｉｄ＿ｑｕｅｕｅにエンキューされたユーザＩＤをそのまま保持する。

【0036】

ステップＳ１４またはステップＳ１５の処理の後、ステップＳ１６において、認識部３１２は、音声取得部３１１に取得された音声信号に基づいて、ユーザの音声が検知されたか否かを判定し、音声が検知されたと判定された場合、ステップＳ１７において、信号処理制御部３１４は、無音時間のカウントをリセットする。ここで、無音時間とは、音声信号が受信されない時間、すなわちユーザが発言していない時間をいい、無音時間のカウントとは、無音時間の長さを計測することであり、リセットとは計測した無音時間の長さをゼロに初期化することである。その後、ステップＳ１３に戻り、処理が繰り返される。

【0037】

ステップＳ１６において、音声が検知されなかったと判定した場合、ステップＳ１８において、信号処理制御部３１４は、受信された音声信号に基づいて、無音時間の長さが閾値以上か否かを判定し、無音時間の長さが閾値以上でないと判定した場合、ステップＳ１９において、無音時間のカウントが開始されていなければカウントを開始し、すでに無音時間のカウントが開始されていればカウントを継続する。その後、ステップＳ１６に戻る。

【0038】

ステップＳ１８で、無音時間の長さが閾値であると判定された場合、ステップＳ２０に進む。閾値は、例えば、１０秒などである。ステップＳ２０において、信号処理制御部３１４は、ユーザＩＤをメモリに記録された変数Ｆｌａｇに代入し、その後特定処理は終了する。

【0039】

（音声変換制御処理）
次に、図５のフローチャートを参照して、サーバ装置３の音声変換制御処理の流れについて説明する。この処理は、ユーザに対応した各特定処理と並行して行われる。

【0040】

ステップＳ３１において、信号処理制御部３１４は、特定処理で述べた変数ｑが初期状態か否かを判定し、初期状態であると判定された場合、ステップＳ３１の処理を繰り返し、初期状態でないと判定された場合、ステップＳ３２に進む。

【0041】

ステップＳ３２において、信号処理制御部３１４は、変数ｑに代入されたユーザＩＤと変数Ｆｌａｇに代入されたユーザＩＤが一致するか否かを判定し、一致しないと判定した場合、ステップＳ３３において、信号処理制御部３１４は、変数ｑに代入されているユーザＩＤ以外のユーザの音声変換処理を行うよう信号処理部３１３を制御する。

【0042】

ここで、音声変換処理とは、ピッチシフトのように声の主成分となる周波数帯域を大きくずらすことで、話し声が混ざってしまうことを防ぐ音声処理である。
信号処理制御部３１４の制御により、信号処理部３１３は、変数ｑにそのユーザＩＤが代入されたユーザとそれ以外の他のユーザの音声信号の周波数帯域を、変数ｑに代入されたユーザＩＤのユーザの音声信号の周波数帯域と異なる周波数帯域に変換する。具体的には、変数ｑに代入されたユーザＩＤのユーザの音声信号の周波数帯域と他のユーザの音声信号の周波数帯域とが重複する周波数帯域と、変換された音声信号の周波数帯域の差分が所定の閾値以上となるように変換する。

【0043】

次に、ステップＳ３４において、信号処理制御部３１４は、変数Ｆｌａｇを初期化し、初期化する前の変数Ｆｌａｇと同じ値のユーザＩＤをｉｄ＿ｑｕｅｕｅから削除する。変数ｑは、初期化されることなく、そのままを維持される。その後、ステップＳ３１に戻り、処理が繰り返される。

【0044】

ステップＳ３２で、変数ｑに代入されたユーザＩＤとＦｌａｇに代入されたユーザＩＤが一致すると判定された場合、ステップＳ３５において、変数ｑとＦｌａｇを初期化する。

【0045】

ステップＳ３６において、信号処理制御部３１４は、音声変換処理を解除するように信号処理部３１３を制御する。つまり、音声変換処理を実行しているときにユーザの発言が終了したと判定した場合に、音声変換処理が解除される。その後、ステップＳ３１に戻り、処理が繰り返される。

【0046】

（情報処理の具体例）
上述したＷｅｂ会議システム１の特定処理および音声変換制御処理に関して具体的な例を挙げて説明する。図６は、特定処理および音声変換制御処理の流れを示すシーケンス図である。

【0047】

ユーザＡ，ＢがＷｅｂ会議に参加して、発言する場合を例に説明する。図６においては、縦軸は時間の経過を示し、左から１番目の列にユーザＡの発言区間が、左から２番目の列にユーザＢの発言区間が、グレーで塗りつぶされた四角で示されている。グレーで塗りつぶされた四角以外の部分は、無音であること、すなわち発言していないことを示している。すなわちユーザＡは、時刻ｔ２で発言を開始し、時刻ｔ７で音声が検知されないことから時刻ｔ６まで継続したと判定する。同様に、ユーザＢは、時刻ｔ３で発言を開始し、時刻ｔ３まで継続する。

【0048】

図６の左から３番目の列から順にキューｉｄ＿ｑｕｅｕｅ、変数ｑ、変数Ｆｌａｇの要素の有無を示す表記が並ぶ。グレーで塗りつぶされた四角は、要素が有ることを示しており、それ以外の部分は要素がないことを示している。最も右の列は、音声変換処理の対象となるユーザの音声を示している。

【0049】

ユーザＡおよびユーザＢに対してそれぞれ特定処理がなされ、その特定処理の結果に基づいて音声変換制御処理が実行される。そこで、以下、ユーザＡについての特定処理、ユーザＢについての特定処理、音声変換制御処理の３つに分けて具体例を時系列に沿って述べる。

【0050】

＜時刻ｔ１から時刻ｔ２＞
時刻ｔ１から時刻ｔ２において、ユーザＡおよびユーザＢの特定処理では、ユーザの音声が検知されないため、ステップＳ１１の処理が繰り返し実行され、また変数ｑは初期状態であるため、音声変換制御処理ではステップＳ３１の処理が繰り返し実行される。

【0051】

＜時刻ｔ２から時刻ｔ３＞
（１）ユーザＡの特定処理
時刻ｔ２において、認識部３１２がユーザＡの音声を検知すると、信号処理制御部３１４は、ユーザＡのＩＤを取得し（ステップＳ１１）、ｉｄ＿ｑｕｅｕｅにユーザＡのＩＤをエンキュー（ステップＳ１２）。このタイミングでは、変数ｑは初期状態であるため（ステップＳ１３でＹｅｓ）、信号処理制御部３１４は、変数ｑにｉｄ＿ｑｕｅｕｅの先頭要素であるユーザＡのＩＤをデキューする（ステップＳ１４）。これは、ｉｄ＿ｑｕｅｕｅ内のユーザＡのＩＤが変数ｑに代入され、ｉｄ＿ｑｕｅｕｅからユーザＡのＩＤが削除されることを意味する。認識部３１２は、ユーザＡの音声を検知するため（ステップＳ１６でＹｅｓ）、その後ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0052】

（２）ユーザＢの特定処理
時刻ｔ２から時刻ｔ３においては、ユーザＢの音声が検知されないため、ステップＳ１１の処理が繰り返し実行される（ユーザＢの特定処理が開始されない）。

【0053】

（３）音声変換制御処理
時刻ｔ２でユーザＡの音声が検知された後、時刻ｔ３でユーザＢの音声が検知されるまでの間、変数ｑにユーザＡのユーザＩＤが代入されているため、変数ｑは初期状態でない（ステップＳ３１でＮｏ）。変数ＦｌａｇにユーザＩＤは代入されていないため、変数ｑと変数Ｆｌａｇは同値でない（ステップＳ３２でＮｏ）。そのため、信号処理制御部３１４は、変数ｑにユーザＩＤが代入されているユーザＡ以外のユーザＢの音声変換処理を行う（ステップＳ３３）。
信号処理制御部３１４は、変数Ｆｌａｇを初期化するところ、元々初期状態であるためそのまま維持する。ユーザＡのユーザＩＤが代入された変数ｑはそのまま維持される。ｉｄ＿ｑｕｅｕｅからＦｌａｇと同値のユーザＩＤを削除するが、元々初期状態のためそのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0054】

＜時刻ｔ３から時刻ｔ４＞
（１）ユーザＡの特定処理
時刻ｔ３において、認識部３１２は、時刻ｔ２に引き続きユーザＡの音声を検知するため（ステップＳ１６でＹｅｓ）、ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0055】

（２）ユーザＢの特定処理
時刻ｔ３において、認識部３１２がユーザＢの音声を検知すると、信号処理制御部３１４は、ユーザＢのユーザＩＤを取得する（ステップＳ１１）。信号処理制御部３１４は、ｉｄ＿ｑｕｅｕｅにユーザＢのユーザＩＤを入れる（ステップＳ１２）。変数ｑにユーザＡが存在するため（ステップＳ１３でＮｏ）、ユーザＢのユーザＩＤがｉｄ＿ｑｕｅｕｅに保持される（ステップＳ１５）。認識部３１２は、途中でユーザＢの音声を検知しなくなり（ステップＳ１６でＮｏ）、無音時間は閾値Ｗ未満であるため（ステップＳ１８でＮｏ）、信号処理制御部３１４は、無音時間のカウントを開始する（ステップＳ１９）。その後、ステップＳ１６でＮｏ，Ｓ１８でＮｏ，Ｓ１９でカウントの継続を繰り返す。

【0056】

（３）音声変換制御処理
時刻ｔ３から時刻ｔ４において、信号処理制御部３１４は、時刻ｔ２から時刻ｔ３の処理と同様に、変数ｑ以外のユーザの音声変換処理を行う。すなわちユーザＢの音声変換処理を行う（ステップＳ３３）。具体的には、信号処理制御部３１４の制御により、信号処理部３１３は、変数ｑに代入されたユーザＡと他のユーザであるユーザＢのうち、ユーザＢの音声信号の周波数帯域を、ユーザＡの音声信号の周波数帯域と異なる周波数帯域に変換する。なお、ユーザＡの音声信号の周波数帯域とユーザＢの音声信号の周波数帯域とが重複する帯域と、変換後の音声信号の周波数帯域との差分が所定の閾値以上となるように変換する。

【0057】

そして、信号処理制御部３１４は、変数Ｆｌａｇを初期化し、ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するが、変数Ｆｌａｇは初期状態のため、そのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0058】

＜時刻ｔ４から時刻ｔ５＞
（１）ユーザＡの特定処理
時刻ｔ４から時刻ｔ５において、認識部３１２は、時刻ｔ２，時刻ｔ３に引き続きユーザＡの音声を検知するため（ステップＳ１６でＹｅｓ）、ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0059】

（２）ユーザＢの特定処理
時刻ｔ４から時刻ｔ５において、認識部３１２はユーザＢの音声を検知せず（ステップＳ１６）、無音時間が閾値Ｗ以上であるため（ステップＳ１８でＹｅｓ）、ユーザＢのユーザＩＤを変数Ｆｌａｇに代入する（ステップＳ２０）。

【0060】

（３）音声変換制御処理
時刻ｔ４から時刻ｔ５において、変数ｑにユーザＡのユーザＩＤが代入されているため、変数ｑは初期状態でない（ステップＳ３１でＮｏ）。変数ＦｌａｇにユーザＢのユーザＩＤが代入されているため、変数ｑと変数Ｆｌａｇは同値でない（ステップＳ３２でＮｏ）。信号処理制御部３１４は、変数ｑ以外のユーザであるユーザＢの音声変換処理を行う（ステップＳ３３）。信号処理制御部３１４は、ユーザＢのユーザＩＤが代入された変数Ｆｌａｇを初期化する。ユーザＡのユーザＩＤが代入された変数ｑはそのまま維持する。また、ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するところ、ｉｄ＿ｑｕｅｕｅからユーザＢのユーザＩＤを削除する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0061】

＜時刻ｔ５から時刻ｔ６＞
（１）ユーザＡの特定処理
時刻ｔ５から時刻ｔ６において、認識部３１２が時刻ｔ２～時刻ｔ４に引き続きユーザＡの音声を検知するため（ステップＳ１６でＹｅｓ）、ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0062】

（２）ユーザＢの特定処理
時刻ｔ５から時刻ｔ６において、認識部３１２がユーザＢの音声を検知しないため、特定処理は開始されない。

【0063】

（３）音声変換制御処理
時刻ｔ５から時刻ｔ６において、信号処理制御部３１４は、時刻ｔ２から時刻ｔ３の処理と同様に、変数ｑ以外のユーザの音声変換処理を行う（ステップＳ３３）。信号処理制御部３１４は、変数Ｆｌａｇを初期化し、ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するところ、変数Ｆｌａｇは初期状態のため、そのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0064】

＜時刻ｔ６から時刻ｔ７＞
（１）ユーザＡの特定処理
時刻ｔ６から時刻ｔ７において、認識部３１２は、時刻ｔ２～時刻ｔ５に引き続きユーザＡの音声を検知するため（ステップＳ１６でＹｅｓ）、ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0065】

途中で、認識部３１２は、ユーザＡの音声を検知しなくなり（ステップＳ１６でＮｏ）、無音時間は閾値Ｗ未満であるため（ステップＳ１８でＮｏ）、信号処理制御部３１４は、無音時間のカウントを開始する（ステップＳ１９）。その後、ステップＳ１６でＮｏ，Ｓ１８でＮｏ，Ｓ１９でカウントの継続を繰り返す。

【0066】

さらに途中で、無音時間が閾値Ｗ以上となるため（ステップＳ１８でＹｅｓ）、信号処理制御部３１４は、ユーザＡのユーザＩＤをＦｌａｇに代入する（ステップＳ２０）。その後、ユーザＡの特定処理は終了する。

【0067】

（２）ユーザＢの特定処理
時刻ｔ６から時刻ｔ７において、認識部３１２がユーザＢの音声を検知するため、信号処理制御部３１４は、ユーザＢのユーザＩＤを取得する（ステップＳ１１）。信号処理制御部３１４は、ｉｄ＿ｑｕｅｕｅにユーザＢのユーザＩＤを代入する（ステップＳ１２）。変数ｑにユーザＡのユーザＩＤが代入されているため（ステップＳ１３でＮｏ）、ユーザＢのユーザＩＤがｉｄ＿ｑｕｅｕｅに保持される（ステップＳ１５）。認識部３１２がユーザＢの音声を検知するため（ステップＳ１６でＹｅｓ）、その後ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0068】

（３）音声変換制御処理
ユーザＡの特定処理において、信号処理制御部３１４が、ユーザＡのユーザＩＤを変数Ｆｌａｇに代入する前までは、信号処理制御部３１４は、時刻ｔ２から時刻ｔ３の処理と同様に、ユーザＢの音声変換処理を行う（ステップＳ３３）。信号処理制御部３１４は、変数Ｆｌａｇを初期化し、ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するところ、変数Ｆｌａｇは初期状態のため、そのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り音声変換制御処理が繰り返される。

【0069】

ユーザＡの特定処理において、信号処理制御部３１４が、ユーザＡのユーザＩＤを変数Ｆｌａｇに代入した後からは、時刻ｔ２，時刻ｔ３間で変数ｑにユーザＡのユーザＩＤをすでに代入しているため、変数ｑと変数Ｆｌａｇは同値である（ステップＳ３２でＹｅｓ）。信号処理制御部３１４は、ユーザＡのユーザＩＤが代入された変数ｑと変数Ｆｌａｇを初期化する（ステップＳ３５）。変数ｑが初期化されたため、信号処理制御部３１４は、ユーザＢの音声変換処理を解除する（ステップＳ３６）。その後、ステップＳ３１に戻り音声変換制御処理が繰り返される。

【0070】

＜時刻ｔ７から時刻ｔ８＞
（１）ユーザＡの特定処理
時刻ｔ７から時刻ｔ８において、認識部３１２がユーザＡの音声を検知しないため、特定処理は開始されない。

【0071】

（２）ユーザＢの特定処理
時刻ｔ７から時刻ｔ８において、変数ｑは初期状態であるため（ステップＳ１３でＹｅｓ）、信号処理制御部３１４は、変数ｑにｉｄ＿ｑｕｅｕｅの先頭要素であるユーザＢのユーザＩＤをデキューする。これにより、ｉｄ＿ｑｕｅｕｅ内のユーザＢのユーザＩＤが変数ｑに代入され、ｉｄ＿ｑｕｅｕｅからユーザＢのユーザＩＤが削除される（ステップＳ１４）。認識部３１２がユーザＢの音声を検知するため（ステップＳ１６でＹｅｓ）、その後ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0072】

（３）音声変換制御処理
時刻ｔ７から時刻ｔ８において、変数ｑにユーザＢが代入されているため、変数ｑは初期状態でない（ステップＳ３１でＮｏ）。また変数ＦｌａｇにユーザＩＤは代入されていないため、変数ｑと変数Ｆｌａｇは同値でない（ステップＳ３２でＮｏ）。よって、信号処理制御部３１４は、変数ｑに代入されたユーザＩＤ以外のユーザの音声変換処理を行う（ステップＳ３３）。信号処理制御部３１４は、変数Ｆｌａｇを初期化するところ、元々初期状態であるためそのまま維持する。ユーザＢのユーザＩＤが代入された変数ｑはそのまま維持する。ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するところ、変数Ｆｌａｇは初期状態のため、そのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0073】

＜時刻ｔ８から時刻ｔ９＞
（１）ユーザＡの特定処理
時刻ｔ８から時刻ｔ９において、認識部３１２がユーザＡの音声を検知しないため、ユーザＡの特定処理は開始されない。

【0074】

（２）ユーザＢの特定処理
時刻ｔ８から時刻ｔ９において、認識部３１２がユーザＢの音声を検知するため（ステップＳ１６でＹｅｓ）、その後ステップＳ１７，Ｓ１３でＮｏ，Ｓ１５，Ｓ１６を繰り返す。

【0075】

途中で、認識部３１２がユーザＢの音声を検知しなくなり（ステップＳ１６でＮｏ）、無音時間は閾値Ｗ未満であるため（ステップＳ１８でＮｏ）、信号処理制御部３１４は、無音時間のカウントを開始する（ステップＳ１９）。その後、ステップＳ１６でＮｏ，Ｓ１８でＮｏ，Ｓ１９でカウントの継続を繰り返す。

【0076】

さらに途中で、無音時間が閾値Ｗ以上となるため（ステップＳ１８でＹｅｓ）、ユーザＢのユーザＩＤを変数Ｆｌａｇに代入する（ステップＳ２０）。その後、ユーザＢの特定処理は終了する。

【0077】

（３）音声変換制御処理
ユーザＢの特定処理において、信号処理制御部３１４が、ユーザＢのユーザＩＤを変数Ｆｌａｇに代入する前までは、ユーザＢのユーザＩＤが代入された変数ｑと変数Ｆｌａｇは同値でない（ステップＳ３２でＮｏ）。信号処理制御部３１４は、変数ｑ以外のユーザの音声変換処理を行う（ステップＳ３３）。信号処理制御部３１４は、変数Ｆｌａｇを初期化し、ｉｄ＿ｑｕｅｕｅから変数Ｆｌａｇと同値のユーザＩＤを削除するところ、変数Ｆｌａｇは初期状態のため、そのまま維持する（ステップＳ３４）。その後、ステップＳ３１に戻り処理が繰り返される。

【0078】

ユーザＢの特定処理において、信号処理制御部３１４が、ユーザＡのユーザＩＤを変数Ｆｌａｇに代入した後からは、ユーザＢのユーザＩＤが代入された変数ｑと変数Ｆｌａｇは同値である（ステップＳ３２でＹｅｓ）。信号処理制御部３１４は、ユーザＢのユーザＩＤが代入された変数ｑと変数Ｆｌａｇを初期化する（ステップＳ３５）。変数ｑが初期化されたため、信号処理制御部３１４は、ユーザの音声変換処理を解除する（ステップＳ３６）。その後、ステップＳ３１に戻り処理が繰り返される。
［発明のまとめ］

【0079】

上述した情報処理装置としてのサーバ装置３は、
ユーザの音声信号を取得する音声取得部３１１と、
音声取得部３１１に取得された音声信号に基づいてユーザが発言したことを検知するとともにユーザを認識する認識部３１２と、
取得された音声信号に対して音声変換処理を施す信号処理部３１３と、
ユーザの発言が継続しているときにユーザと異なる他のユーザが発言したことが検知された場合に、先に発言したユーザか後から発言した他のユーザかいずれか一方の音声信号の周波数帯域を、他方の音声信号の周波数帯域と異なる周波数帯域に変換する音声変換処理を実行するように信号処理部３１３を制御する信号処理制御部３１４と
を備えることを特徴とする。

【0080】

このような構成を有することにしたので、例えばＷｅｂ会議において、複数人が同時に話しても、話者の音声信号の周波数帯域を異なる他の音声信号の周波数帯域に変換した音声が出力されるので、話す内容を聞き分けることができる。

【0081】

また、前記一方の音声信号は後から発言した他のユーザの音声信号であり、前記他方の音声信号は先に発言したユーザの音声信号であることを特徴とする。

【0082】

このような構成を有することにしたので、初めから話しているユーザの音声以外の音声信号が音声変換処理されるので、初めから話しているユーザの音声を違和感なく聞くことができる。また、本実施形態の説明においては、先に発言したユーザと後から発言したユーザとのうち、後から発言したユーザの音声信号に対して音声変換処理を実行していたが、逆に、先に発言したユーザの音声信号に対して音声変換処理を実行するようにしてもよい。つまり音声変換制御処理のステップＳ３３においてｑに代入されたユーザＩＤのユーザの音声信号に対して音声処理を開始するようにしてもよい。

【0083】

また、信号処理制御部３１４は、音声変換処理として、前記一方の音声信号の周波数帯域と前記他の音声信号の周波数帯域とが重複する帯域と変換後の音声信号の周波数音声帯域との差分が所定の閾値以上となるように前記信号処理部３１３を制御することを特徴とする。

【0084】

このような構成を有することにしたので、例えばＷｅｂ会議において、複数人が同時に話しても、音声信号の周波数帯域が大きく異なるので、より容易に話す内容を聞き分けることができる。

【0085】

また、信号処理制御部３１４は、音声変換処理を実行しているときにユーザの発言が終了したと判定した場合に、音声変換処理を解除するように信号処理部３１３を制御することを特徴とする。また、音声変換処理を解除するときに、変換後の音声信号の周波数帯域と変換前の音声信号の周波数帯域との差分が徐々に小さくなるように段階的に解除してもよい。

【0086】

このような構成を有することにしたので、音声変換処理の対象となるユーザの音声を切り替えることができる。

【符号の説明】

【0087】

１…Ｗｅｂ会議システム、２…クライアント装置、３…サーバ装置、２１，３１…制御部、２２，３２…記憶部、２５，３３…通信部、２３…入力部、２４…出力部、３１１…音声取得部、３１２…認識部、３１３…信号処理部、３１４…信号処理制御部

【図1】