(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024148421
(43)【公開日】2024-10-18
(54)【発明の名称】通信装置、通信方法、及び通信プログラム
(51)【国際特許分類】
H04M 1/00 20060101AFI20241010BHJP
【FI】
H04M1/00 H
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023061531
(22)【出願日】2023-04-05
(71)【出願人】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100111235
【弁理士】
【氏名又は名称】原 裕子
(74)【代理人】
【識別番号】100170575
【弁理士】
【氏名又は名称】森 太士
(72)【発明者】
【氏名】佐藤 真樹
(72)【発明者】
【氏名】清水 薫
(72)【発明者】
【氏名】在原 康貴
(72)【発明者】
【氏名】榎本 徳明
(72)【発明者】
【氏名】小野 時成
【テーマコード(参考)】
5K127
【Fターム(参考)】
5K127FA07
5K127GB72
5K127MA10
(57)【要約】
【課題】発言するユーザの発言速度が速い場合でも、このユーザの発言内容を理解し易くする。
【解決手段】他の通信装置3から送信された音声データを受信する通信部11と、音声データの発言速度を調整する音声調整装置12と、発言速度が調整された音声データを出力する音声出力部14を備える。音声調整装置12は、音声データの発言速度を算出する発言速度計算部24と、発言速度が所定の目標速度S以上である場合には、発言速度を目標速度Sに変更し、目標速度S未満である場合には、発言速度を変更せずに、音声データを読み出す読み出し制御部26を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ネットワークを経由して他の通信装置との通信が可能な通信装置であって、
前記他の通信装置から送信された音声データを受信する通信部と、
前記音声データの発言速度を調整する音声調整装置と、
前記発言速度が調整された音声データを出力する音声出力部と、
を備え、
前記音声調整装置は、
前記音声データの発言速度を算出する発言速度計算部と、
前記発言速度が所定の目標速度以上である場合には、発言速度を前記目標速度に変更し、前記目標速度未満である場合には、発言速度を変更せずに、前記音声データを読み出す読み出し制御部と、
を備えた通信装置。
【請求項2】
複数の前記他の通信装置のユーザのうち、一のユーザの発言が終了し、他のユーザが発言を開始するまでの無音時間を計測し、発言したユーザについて、所定期間中の前記無音時間の代表値である第1の値を算出する無音時間計測部、を更に備え、
前記読み出し制御部は、いずれかのユーザの前記第1の値が、所定の許容無音時間以上の場合に、前記目標速度を低下させる
請求項1に記載の通信装置。
【請求項3】
複数の前記他の通信装置のユーザのうち、一のユーザの発言が終了し、他のユーザが発言を開始するまでの無音時間を計測し、発言したユーザについて、所定期間中の前記無音時間の代表値である第1の値を計測し、また、全てのユーザについての前記第1の値に基づいて算出される代表値を示す第2の値を算出する無音時間計測部、を備え、
前記読み出し制御部は、いずれかのユーザの前記第1の値と、前記第2の値との差分が、所定の指標時間以上である場合には、前記目標速度を低下させる
請求項1または2に記載の通信装置。
【請求項4】
ネットワークを経由して他の通信装置との間で通信する通信方法であって、
前記他の通信装置から送信された音声データを受信するステップと、
前記音声データを記憶するステップと、
前記音声データの発言速度を計測するステップと、
前記発言速度が所定の目標速度以上である場合には、発言速度を前記目標速度に変更し、前記目標速度未満である場合には、発言速度を変更せずに、前記音声データを読み出すステップと、
前記発言速度が調整された音声データを出力するステップと、
を備えた通信方法。
【請求項5】
ネットワークを経由して他の通信装置との間で通信する処理をコンピュータに実行させる通信プログラムであって、
前記他の通信装置から送信された音声データを受信するステップと、
前記音声データを記憶するステップと、
前記音声データの発言速度を計測するステップと、
前記発言速度が所定の閾値以上である場合には、発言速度を所定の目標速度に変更し、前記閾値未満である場合には、発言速度を変更せずに、前記音声データを読み出すステップと、
前記発言速度が調整された音声データを出力するステップと、
をコンピュータに実行させる通信プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信装置、通信方法、及び通信プログラムに関する。
【背景技術】
【0002】
離れた場所に居る複数のユーザが音声通話するオンライン通信システムが、ビジネス用途、家族間の通話などで採用されている。通信システムは、若年層から高齢者までの幅広い年齢層のユーザが利用しており、発言するユーザの発言速度が速い場合には、他のユーザがこの発言内容を聞き取れず、発言内容を理解できないことがある。
【0003】
特許文献1には、オンライン通信で複数のユーザが会話する際に、会言速度を測定し、会言速度と所定の基準速度との差分が大きいときには、発言者に対して発言速度を遅くするように提案することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1では発言速度が速い場合には、この発言するユーザに対して発言速度を遅くすることを提案することに留まっており、発言するユーザが発言速度を遅くしない場合には、他のユーザは、発言するユーザの発言内容を理解することが困難になるという問題があった。
【0006】
本発明は、このような従来の課題を解決するためになされたものであり、その目的とするところは、発言するユーザの発言速度が速い場合でも、このユーザの発言内容を理解し易くすることが可能な通信装置、通信方法、及び通信プログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明に係る通信装置は、ネットワークを経由して他の通信装置との通信が可能な通信装置であって、前記他の通信装置から送信された音声データを受信する通信部と、前記音声データの発言速度を調整する音声調整装置と、前記発言速度が調整された音声データを出力する音声出力部と、を備え、前記音声調整装置は、前記音声データの発言速度を算出する発言速度計算部と、前記発言速度が所定の目標速度以上である場合には、発言速度を前記目標速度に変更し、前記目標速度未満である場合には、発言速度を変更せずに、前記音声データを読み出す読み出し制御部と、を備える。
【0008】
本発明に係る通信方法は、ネットワークを経由して他の通信装置との間で通信する通信方法であって、前記他の通信装置から送信された音声データを受信するステップと、前記音声データの発言速度を計測するステップと、前記発言速度が所定の目標速度以上である場合には、発言速度を前記目標速度に変更し、前記目標速度未満である場合には、発言速度を変更せずに、前記音声データを読み出すステップと、前記発言速度が調整された音声データを出力するステップと、を備える。
【0009】
本発明に係る通信プログラムは、ネットワークを経由して他の通信装置との間で通信する処理をコンピュータに実行させる通信プログラムであって、前記他の通信装置から送信された音声データを受信するステップと、前記音声データの発言速度を計測するステップと、前記発言速度が所定の閾値以上である場合には、発言速度を所定の目標速度に変更し、前記閾値未満である場合には、発言速度を変更せずに、前記音声データを読み出すステップと、前記発言速度が調整された音声データを出力するステップと、をコンピュータに実行させる通信プログラムである。
【発明の効果】
【0010】
本発明によれば、発言するユーザの発言速度が速い場合でも、このユーザの発言内容を理解しやすくすることが可能になる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、実施形態に係る通信装置を含むネットワーク構成を示すブロック図である。
【
図2】
図2は、
図1に示す音声調整装置の詳細な構成を示すブロック図である。
【
図3】
図3は、発言速度を変更する処理の手順を示すフローチャートである。
【
図4】
図4は、目標速度を変更する処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について図面を参照して説明する。
図1は実施形態に係る通信装置1を含むネットワーク構成を示すブロック図、
図2は
図1に示す音声調整装置12の詳細な構成を示すブロック図である。
【0013】
図1に示すように、本実施形態に係る通信装置1は、ネットワーク2を経由して、他の複数の通信装置3-1、3-2、・・3-n(以下、総称して「通信装置3」という)に接続されており、各通信装置3との間でオンライン通信が可能とされている。例えば、通信装置1と、他の通信装置3との間でweb(ウェブ)会議、オンライン会議、又はリモート会議(以後、これらを纏めてweb会議と呼ぶ)による通話が可能である。
【0014】
通信装置1は、通信部11と、音声調整装置12と、音声入力部13と、音声出力部14、を備えている。
【0015】
通信部11は、ネットワーク2を経由して他の通信装置3から送信される音声データ、画像データなどを受信する。通信部11はまた、ユーザが音声入力部13から音声を入力した際に、この音声データをネットワーク2を経由して他の通信装置3に送信する。
【0016】
音声調整装置12は、他の通信装置3から送信された音声データを調整して音声出力部14に出力する。音声調整装置12の詳細については、
図2を参照して後述する。
【0017】
音声入力部13は、マイクロフォンを備えておりユーザが発言した音声を取得し、通信部11に出力する。
【0018】
音声出力部14は、スピーカを備えており音声調整装置12で発言速度が調整された音声データを出力する。
【0019】
なお、通信装置1は、上記した構成要素11~14以外にも、ユーザの画像を撮像するカメラ、他の通信装置3から送信された画像データを表示するディスプレイなどを備えている。
図1ではこれらの記載を省略している。
【0020】
図2に示すように、音声調整装置12は、音声メモリ21と、発言時間計測部22と、発言語数計測部23と、発言速度計算部24と、無音時間計測部25と、読み出し制御部26を備えている。音声調整装置12は、音声データの発言速度を調整する。
【0021】
図2に示すように、
図1に示した通信部11にて受信された音声データは、音声メモリ21、発言時間計測部22、発言語数計測部23、及び無音時間計測部25に入力される。
【0022】
音声メモリ21は、音声データを取得し、発言時間計測部22から出力される書き込みイネーブルD1に応じて音声データを記憶する。また、後述する読み出し制御部26から読み出し指令が出力された際には、読み出しイネーブルD2に応じて音声データを読み出して、音声出力部14(
図1参照)に出力する。
【0023】
発言時間計測部22は、音声データの波形のエンベロープを検出し、検出したエンベロープに基づき、一定以上のレベルを発言期間と判断する。発言時間計測部22は、発言期間を書き込みイネーブルD1として、音声メモリ21及び発言語数計測部23に出力する。発言時間計測部22は、書き込みイネーブルD1をカウントイネーブルとして計測し、この計測結果を発言時間T1として発言速度計算部24に出力する。
【0024】
発言語数計測部23は、音声データの波形から既存技術の音声認識処理により子音を判別し、書き込みイネーブルD1の期間中の子音をカウントする。発言語数計測部23は、このカウント値を発言語数H1とし発言速度計算部24に出力する。発言語数の検出は、母音と子音を検出する音声認識技術を利用した周知技術を採用することができる。本実施形態では正確な文字起こしは不要であるので、子音の個数を判別する簡易的な語数判定を採用することも可能である。
【0025】
発言速度計算部24は、音声データの発言速度を算出する。発言速度計算部24は、発言時間T1及び発言語数H1に基づき、下記(1)式により、発言速度V1を算出する。
【0026】
V1=H1/T1 …(1)
発言速度計算部24は、上記(1)式で算出した発言速度V1を、読み出し制御部26に出力する。また、発言速度V1は、同一のユーザによる複数回の発言に対して発言速度を算出し、これらの平均値としてもよい。発言速度V1の算出方法は上記(1)式に限定されるものではなく、他の算出方法を採用してもよい。
【0027】
無音時間計測部25は、web会議において通信装置1のユーザ及び複数の他の通信装置3のユーザのうち、一のユーザの発言が終了し、他のユーザが発言を開始するまでの無音時間を計測し、発言を開始したユーザ(他のユーザ)について、所定期間中の無音時間の代表値である第1の値を算出する。「第1の値」は、例えば無音時間の平均値(平均無音時間「CMpi」)である。
【0028】
所定期間は、例えば複数の通信装置の間でのオンライン通信(Web会議)期間とすることができる。所定期間はこれに限定されず、ユーザにより任意に設定してもよい。
【0029】
上記した第1の値は無音時間の平均値以外にも、最大値、最小値、中央値、最頻値、標準偏差に所定値を乗じた数値を平均値に加算した数値、などを採用してもよい。なお、上記した「標準偏差に所定値を乗じた数値を平均値に加算した数値」は「(標準偏差)*(所定値n)+(平均値)」(但し、nは任意の実数)で算出することができる。
【0030】
無音時間計測部25はまた、全てのユーザについての所定期間中の無音時間の代表値である第1の値に基づいて算出される代表値である第2の値を算出する。「第2の値」は、例えば各ユーザについての平均無音時間の平均値(全体の平均無音時間「CMpi_all」)である。なお、第2の値は平均無音時間の平均値以外にも、最大値、最小値、中央値、最頻値、標準偏差に所定値を乗じた数値を平均値に加算した数値、などを採用してもよい。なお、平均値、中央値、最頻値を採用することが好ましい。
【0031】
無音時間計測部25はまた、いずれかのユーザの無音時間が計測されるごとに、このユーザの平均無音時間(第1の値)を更新する。
【0032】
無音時間計測部25はまた、全てのユーザについての無音時間が計測されるごとに、全てのユーザについての平均無音時間の平均値(全体の平均無音時間;第2の値)を更新する。
【0033】
読み出し制御部26は、発言速度計算部24で算出された発言速度V1に基づき、音声メモリ21に記憶されている音声データの再生速度を調整して読み出す制御を行う。即ち、音声メモリ21に記憶されている音声データは、読み出し制御部26により発言速度が調整され、出力音声として出力される。「発言速度を調整する」とは、音声データの再生速度を遅くする、そのままとする、及び速くすることを含む。また、音声速度を遅くする或いはそのままとすれば、音声メモリ21のアンダーフローを回避できる。
【0034】
読み出し制御部26は、音声データを再生する際の目標速度Sを設定し、上記(1)式で算出された発言速度V1が目標速度S以上であるか否かを判定する。読み出し制御部26は、発言速度V1が目標速度S以上である場合には、発言速度V1を目標速度Sに低下させて音声データを再生する。なお、目標速度Sは後述する条件に応じて可変とされている。
【0035】
読み出し制御部26は、目標速度Sに応じた読み出しイネーブルD2を設定し、音声メモリ21に出力する。具体的に、発言速度V1が目標速度S以上である場合には、読み出しイネーブルD2を書き込みイネーブルD1よりも大きく設定する。こうすることにより、入力音声に対してゆっくりとした出力音声を得ることができ、聞き取る側のユーザは、音声データを認識し易くなる。
【0036】
読み出し制御部26は、発言速度V1が目標速度S未満である場合に、書き込みイネーブルD1と読み出しイネーブルD2を同一に設定する。即ち、入力された音声データの発言速度を変更せずに再生する。
【0037】
音声メモリ21に記憶されている音声データの再生速度を低下させる際に、単純に読み出しクロックの速度を低下させると、これに連動して音声周波数が低下し、女性の声が男性の声に聞こえるなどの弊害が発生する。これを回避するために、クロックについては書き込み側と同一とし、アドレスをある範囲で繰り返しに読み出すという周知の方法を採用して、再生速度を低下させてもよい。読み出しイネーブルD2の設定方法については、既存の音程を変化させない音声速度変換技術(例えば、特開平8-328586号公報に開示されている技術)などを採用することができる。
【0038】
即ち、読み出し制御部26は、発言速度計算部24で算出された発言速度V1が目標速度S以上である場合には、音声データの再生速度を目標速度Sに変更し、発言速度V1が目標速度S未満である場合には、音声データを発言速度と同一の再生速度で出力する。
【0039】
また、読み出し制御部26は、無音時間計測部25で計測された各ユーザの無音時間の代表値である平均無音時間CMpi(第1の値)が更新される毎、及び、全てのユーザの平均無音時間の平均値である全体の平均無音時間CMpi_all(第2の値)が更新される毎に、更新された数値を取得する。読み出し制御部26は、更新された数値に応じて、目標速度Sを変更する処理を行う。
【0040】
平均無音時間CMpiは、無音時間をカウントする無音時間カウンタにより取得したカウント値を平均することで算出可能である。無音時間カウンタは、web会議に参加している各ユーザp1~pnについて設定されており、過去の応答時に要した無音時間の平均値を算出する。例えば、ユーザp2が過去に実施した会話中で、無音時間が3秒、4秒、5秒であった場合には、ユーザp2についての平均無音時間(これを、「CMp2」とする)は、過去3回の平均値である「4秒」である。なお、平均無音時間の代わりに、無音時間の最大値、最小値、中央値、最頻値、標準偏差に所定値を乗じた数値を平均値に加算した数値、などを代表値として採用してもよい。無音時間の最大値を示す最大無音時間を採用する場合には、無音時間が3秒、4秒、5秒であった場合には、最大無音時間は5秒となる。
【0041】
読み出し制御部26は、ユーザp2の平均無音時間CMp2が所定の許容無音時間Tth(例えば、Tth=5秒)以上の場合(CMp2≧Tth)には、このユーザp2の平均無音時間CMp2とユーザ全体の平均無音時間(これを、「CMpi_all」とする)を比較する。読み出し制御部26は、CMp2とCMpi_allとの差分「CMp2-CMpi_all」が所定の指標時間TM以上である場合((CMp2-CMpi_all)≧TM)には目標速度Sを低下させ、指標時間TM未満である場合には目標速度Sを変化させない。なお、上記した「CMp2≧Tth」の場合、及び(CMp2-CMpi_all)≧TM」の場合、のいずれか一方の場合に目標速度Sを低下させてもよい。
【0042】
即ち、読み出し制御部26は、無音時間の代表値である第1の値が、所定の許容無音時間Tth以上の場合に、目標速度Sを低下させる。また、読み出し制御部26は、いずれかのユーザの平均無音時間(第1の値)と、全てのユーザの平均無音時間の平均値(全体の平均無音時間;第2の値)との差分が、所定の指標時間TM以上である場合には、目標速度Sを低下させる。
【0043】
また、読み出し制御部26は、音声メモリ21に記憶されるデータ量が増大し、書き込み可能な領域が減少した場合には、音声メモリ21のオーバーフローを回避するために、音声データの速度低下を制限する。
【0044】
上述した通信装置1は、CPU(中央処理装置)、メモリ、及び入出力部を備えるマイクロコンピュータを用いて実現可能である。通信装置1は、複数の情報処理部(通信部11、音声入力部13、音声出力部14、発言時間計測部22、発言語数計測部23、発言速度計算部24、発言語数計測部23、読み出し制御部26)として機能させるためのコンピュータプログラムを、マイクロコンピュータにインストールして実行する。これにより、通信装置1のマイクロコンピュータは、通信装置1が備える複数の情報処理部として機能する。また、ここではソフトウェアによって通信装置1を実現する例を示すが、各情報処理を実行するための専用のハードウェアを用意して、通信装置1を構成してもよい。また、通信装置1に含まれる各情報処理部が実行する情報処理を個別のハードウェアにより構成してもよい。
【0045】
次に、上記のように構成された本実施形態に係る通信装置1の動作について説明する。
図3は、発言速度を変更する処理の手順を示すフローチャートである。以下、
図3を参照して発言速度変更処理について説明する。
【0046】
本実施形態では、
図1に示す他の通信装置3(3-1、3-2、・・3-n)から通信装置1に音声データが送信されたときに、この音声データの発言速度に応じて、再生速度を調整し、音声出力部14から速度が調整された音声データを出力する例について説明する。
【0047】
初めに、
図1に示す通信装置1、及び他の通信装置3(3-1、3-2、・・3-n)の間でweb会議が開始されると、各通信装置のユーザどうしの会話が行われる。他の通信装置3における一のユーザが発言を開始すると、このユーザの音声データは通信装置1の通信部11にて受信され、更に音声調整装置12に入力される。この音声データは、
図2に示す音声メモリ21、発言時間計測部22、発言語数計測部23、及び無音時間計測部25に入力される。また、目標速度Sは、初期的な数値に設定されている。以下では、先に発言したユーザを「ユーザp1」とし、この発言に続いて発言するユーザを「ユーザp2」として示すことにする。
【0048】
図3のステップS101において、発言時間計測部22は、ユーザp1が発言した音声データに基づき、この音声データの波形エンベロープを測定する。発言時間計測部22は、波形エンベロープが所定の閾値を超えているか否かを判定し、超えている場合には(S101;YES)、ユーザp1が発言を開始したものと判断し、ステップS102に処理を進める。
【0049】
ステップS102において発言時間計測部22は、音声データの発言時間をカウントし、カウント値を「T」する。また、発言語数計測部23は、音声データの発言語数をカウントし、カウント値を「W」とする。これらのカウント値T、Wを発言速度計算部24に出力する。
【0050】
ステップS103において発言時間計測部22は、ユーザp1による発言が終了したか否かを判定する。例えば、音声データの波形エンベロープが所定の閾値以下になった場合に、発言が終了したと判断する。
【0051】
ステップS104において、発言速度計算部24は、ユーザp1が発言した音声データに基づき、上述した(1)式によりユーザp1が発言した音声データの発言速度(W/T)を算出する。読み出し制御部26は、算出された発言速度(W/T)が目標速度S以上であるか否かを判定する。発言速度(W/T)が目標速度Sよりも速い場合には(S104;YES)、ステップS105に処理を進め、そうでなければ(S104;NO)、ステップS106に処理を進める。
【0052】
ステップS105において読み出し制御部26は、発言速度(W/T)を目標速度Sとするための補正値Aを設定する。具体的には、「S=A*(W/T)」の方程式に基づき、補正値A(0<A<1)を「A=S*(T/W)」で算出する。ユーザp1が発言した音声データの発言速度に補正値Aを乗じることにより、音声メモリ21から出力される音声データの再生速度が目標速度Sとなるように調整する。
【0053】
また、音声データを出力する際の再生速度が目標速度Sとなるように、読み出しイネーブルD2を設定して、音声メモリ21に記憶されている音声データを読み出す。その結果、ユーザp1が発言した音声データが、目標速度Sに変更された再生速度で出力される。このため、ユーザp1が早口で発言した音声データに対して、ユーザp2はゆっくりとした速度で聞き取ることができる。
【0054】
ステップS106において、読み出し制御部26は、ユーザp1が発言した音声データの発言速度を変更せずに音声メモリ21に記憶されている音声データを読み出す。即ち、読み出しイネーブルD2を書き込みイネーブルD1と同一に設定する。
【0055】
上記のように、ユーザp1の発言による音声データの発言速度が目標速度S以上である場合には、この音声データの再生速度を目標速度Sまで低下させる。ユーザp1の発言による音声データの発言速度が目標速度S未満の場合には、この音声データをそのまま出力する。
【0056】
また、本実施形態に係る通信装置1では、web会議の状況に応じて上述した目標速度Sを変更する処理を行う。以下、目標速度Sの変更処理を、
図4に示すフローチャートを参照して説明する。
【0057】
初めにステップS201において発言時間計測部22は、web会議に参加しているユーザp1による発言の開始、終了を検出したか否かを判定する。発言の開始及び終了の検出については、
図3のステップS101、S103に記載したように、波形エンベロープが閾値を上回ったか否かにより判定する方法を採用することができる。発言の開始、終了を検出した場合には、ステップS202に処理を進める。
【0058】
ステップS202において無音時間計測部25は、各ユーザp1~pnに対して設定されている無音時間カウンタCp1、Cp2、・・Cpnのカウント値を「0」にリセットし、更に各無音時間カウンタCp1、Cp2、・・Cpnによるカウントを開始する。「無音時間カウンタ」は、ユーザp1が発言を終了してから、この発言に対して他のユーザ(例えば、ユーザp2)が発言を開始するまでの無音時間をカウントする。
【0059】
ステップS203において発言時間計測部22は、ユーザp2が発言を開始したか否かを判定する。例えば、ユーザp1が発言を終了し、その5秒後にユーザp2発言を開始した場合にはYES判定となり、ステップS204に処理を進める。また、ユーザp2に対して設定されている無音時間カウンタCp2は、5秒をカウントする。
【0060】
ステップS204において無音時間計測部25は、各無音時間カウンタCp1、Cp2、・・Cpnのカウントを停止する。
【0061】
ステップS205において無音時間計測部25は、発言を開始したユーザPiを特定し(この例では、ユーザp2)、ユーザpiの平均無音時間CMpi(この場合は、「CMp2」)を更新する。
【0062】
ステップS206において読み出し制御部26は、平均無音時間CMpiが所定の許容無音時間Tth以上であるか否かを判定する。許容無音時間Tth以上である場合には(S206;YES)、ステップS207に処理を進め、そうでなければ(S206;NO)、ステップS209に処理を進める。なお、上記では、発言を開始したユーザPiの平均無音時間CMpiが許容無音時間Tth以上であることを判定する例について示したが、全てのユーザのうちの少なくとも一人のユーザの平均無音時間(第1の値)が許容無音時間Tth以上となったことを判定してもよい。即ち、少なくとも一人のユーザの平均無音時間(第1の値)が許容無音時間Tth以上となった場合に、S206でYESと判定してもよい。
【0063】
許容無音時間Tthは、通常の会話のやりとりにおいて、ユーザp1の発言が終了した後に、次のユーザp2が発言を開始するまでの時間(無音時間)の許容値であり、例えば5秒に設定する。
【0064】
ステップS207において読み出し制御部26は、発言を開始したユーザp2の平均無音時間CMp2と、ユーザ全体の平均無音時間CMpi_allの差分を算出し、差分がバラツキの指標時間TM以上であるか否かを判定する。差分が指標時間TM以上である場合には(S207;YES)、ステップS208に処理を進め、そうでなければ(S207;NO)、ステップS209に処理を進める。
【0065】
指標時間TMは、各ユーザp1~pnごとの無音時間のバラツキを示す指標となる時間である。指標時間TMは、例えば5秒に設定する。例えば、あるユーザ(これをユーザp3とする)は、平均的に前回の発言の終了から無音時間3秒程度で発言を開始し、他のユーザ(これをユーザp4とする)は、平均的に無音時間5秒程度で発言を開始する、というデータがある場合には、ユーザp3とユーザp4の無音時間のバラツキは、2秒である。このバラツキは、最大でも5秒程度であるとして、例えば指標時間TMを5秒に設定する。
【0066】
仮に、web会議における各ユーザの発言が消極的な場合(いわゆる、会議が盛り上がっていない場合)には、ユーザ全員についての無音時間が長くなる傾向となる。このため、平均無音時間CMpiは、全てのユーザp1~pnについて長くなり、平均無音時間CMpiのバラツキはほぼ変化しないと考えられる。
【0067】
一方、特定のユーザ(これを、ユーザp2とする)について、平均無音時間CMp2が長くなった場合、即ち、ユーザ全体の平均無音時間CMpi_allに対し、突出してユーザp2の平均無音時間CMp2が長くなった場合には、この原因は会議における発言が消極的であるのではなく、ユーザp2がその直前に発言したユーザp1の発言速度が速いことにより、発言内容の認識が遅れているものと考えられる。
【0068】
そこで、無音時間のバラツキを示す指標時間TMを設定して、ユーザp2の平均無音時間CMp2と、ユーザ全体の平均無音時間CMpi_allとの差分を算出し、この差分に応じて、無音時間が長くなっている原因が、会議が消極的であることによるものであるのか、或いは、発言速度が速いことによる認識の遅れによるものであるのかを判定する。
【0069】
具体的には、ユーザp2の平均無音時間CMp2と、ユーザ全体の平均無音時間CMpi_allとの差分が指標時間TM以上である場合には、前回発言したユーザp1の発言速度が速いことにより、ユーザp2の認識が遅れているものと判断することができる。
【0070】
ステップS208において読み出し制御部26は、目標速度Sを低下させる処理を行う。即ち、いずれかのユーザの無音時間の平均値(第1の値)が所定の許容無音時間Tth以上であり、いずれかのユーザの平均無音時間(第1の値)と全体の平均無音時間(第2の値)との差分が所定の指標時間TM以上である場合に、目標速度Sを低下させる。これにより、
図3のステップS105に示した発言速度の補正処理で用いる目標速度を、適正な数値に変更することができる。なお上記では、S206でYESと判定され、且つS207でYES判定された場合、即ち「CMpi≧Tth」且つ「(CMpi-CMpi_all)≧TM」の場合に目標速度Sを低下させる例について示したが、S206、S207のいずれか一方でYES判定された場合に目標速度Sを低下させてもよい。その後、ステップS209に処理を進める。
【0071】
ステップS209において発言時間計測部22は、ユーザp2による発言が終了したか否かを判定する。終了した場合には(S209;YES)、ステップS202に処理を戻す。こうして、web会議の状況に応じて目標速度Sを適正な数値に変更することができる。
【0072】
上記の処理では、ユーザの無音時間の平均値を採用しているので、例えば機器の不具合などの突発的な理由により、あるユーザの無音時間が長くなった場合でも、この影響を軽減或いは回避して目標速度Sを設定することができる。
【0073】
また、
図4に示した目標速度Sの変更処理は、各ユーザの過去の発言データに基づいて処理を行うので、
図3に示した発言速度変更処理を実行する際において、ある程度のデータが取得されるまでは、
図4に示した処理を実行せずに、初期的に設定した一定の目標速度Sを採用するようにしてもよい。
【0074】
また、web会議に参加する各ユーザの年齢を取得し、各ユーザの平均年齢、または最高年齢に基づき、平均年齢または最高年齢が高いほど目標速度Sを低下させてもよい。例えば、最高年齢が所定の閾値年齢(例えば、70歳)以上である場合には、目標速度Sを低下させる。こうすることにより、会話の聞き取りが苦手な高齢者がweb会議に参加する場合に、高齢者が容易に他のユーザの発言内容を理解することが可能になる。
【0075】
このように、本実施形態に係る通信装置1では、web会議などのネットワークを経由した音声通信を行う際に、発言したユーザp1の発言速度が速い場合には、予め設定した目標速度となるように、音声データの再生速度を変更する。このため、ユーザp1が発言した音声データを聞き取る他のユーザは、ゆっくりとした音声で聞き取ることができるので、発言内容を容易に理解することが可能になる。
【0076】
即ち、web会議が行われているとき、一のユーザが発言を開始すると、このユーザが発言した音声データの発言速度(W/T)が算出される。この発言速度が所定の目標速度Sを超える場合には、発言速度(W/T)が目標速度Sとなるように、調整される。このため、web会議に会議に参加している一のユーザの発言速度が速い場合でも、この発言内容を聞き取る他のユーザは、発言者の発言内容を容易に認識することができる。
【0077】
本実施形態では、ユーザp1の発言が終了した後、次のユーザp2の発言が開始されるまでの平均無音時間CMp2が、所定の許容無音時間Tth(例えば、5秒)以上の場合には、目標速度Sが遅くなるように設定する。即ち、平均無音時間CMp2が許容無音時間Tth以上ということは、ユーザp1の発言速度が速く、ユーザp1の発言内容に対するユーザp2の理解が遅れているものと推察される。目標速度Sを遅くすることにより、ユーザp2は、ユーザp1の発言内容を容易に理解できるようになる。
【0078】
本実施形態では、ユーザp2の平均無音時間CMp2と、ユーザ全体の平均無音時間CMpi_allとの差分を演算し、この差分が指標時間TM未満の場合には、目標速度Sを変更しない。従って、会議が盛り上がらないときのように、ユーザ全体の平均無音時間CMpi_allが大きい場合には、ユーザp2の平均無音時間CMp2が大きい場合でも、両者の差分は小さくなり、指標時間TM以上とならない。会議が盛り上がらず、各ユーザp1~pnの発言が消極的な場合においては、ユーザp2の平均無音時間CMp2が大きい場合であっても、目標速度Sを変更しない。
【0079】
一方、ユーザp2の平均無音時間CMp2とユーザ全体の平均無音時間CMpi_allとの差分が指標時間TM以上の場合には、ユーザp1の発言内容に対するユーザp2の理解が遅れているものと推察される。このような場合に、目標速度Sを低下させるので、ユーザp2は、ユーザp1の発言を遅い速度で聞き取ることができ、ユーザp1の発言内容を理解し易くなる。
【0080】
本実施形態では、web会議に参加する各ユーザの平均年齢または最高年齢に応じて目標速度Sを変更することにより、高齢者のような会話認知力が衰えたユーザであっても、良好なコミュニケーションを行うことが可能になる。
【0081】
なお、本実施形態ではオンライン通信としてweb会議について説明したが、例えば遠隔地に居る家族間のテレビ電話による通信などにおいても採用することができる。この場合には、例えば遠隔地にいる高齢の親族と会話する際に極めて有用である。
【0082】
以上、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
【符号の説明】
【0083】
1 通信装置
2 ネットワーク
3(3-1~3-n) 他の通信装置
11 通信部
12 音声調整装置
13 音声入力部
14 音声出力部
21 音声メモリ
22 発言時間計測部
23 発言語数計測部
24 発言速度計算部
25 無音時間計測部
26 読み出し制御部