(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023081469
(43)【公開日】2023-06-13
(54)【発明の名称】プログラム、装置、方法及びシステム
(51)【国際特許分類】
H04M 11/00 20060101AFI20230606BHJP
G10L 25/78 20130101ALI20230606BHJP
G10L 25/60 20130101ALI20230606BHJP
G10L 25/51 20130101ALI20230606BHJP
H04M 3/56 20060101ALI20230606BHJP
【FI】
H04M11/00 302
G10L25/78
G10L25/60
G10L25/51
H04M3/56 Z
【審査請求】未請求
【請求項の数】34
【出願形態】OL
(21)【出願番号】P 2021195194
(22)【出願日】2021-12-01
(71)【出願人】
【識別番号】517303292
【氏名又は名称】株式会社コトバデザイン
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】山上 勝義
(72)【発明者】
【氏名】松田 繁樹
(72)【発明者】
【氏名】土田 正明
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201AA01
5K201AA05
5K201BB09
5K201BC27
5K201CA01
5K201CA05
5K201CA06
5K201DC04
5K201EC06
5K201ED07
5K201EF03
5K201EF07
5K201EF10
(57)【要約】
【課題】通話相手の音声の状態を容易に把握する。
【解決手段】プロセッサ19とメモリ15とを備え、他の端末装置10と音声データの送受信が可能な端末装置10を動作させるためのプログラムであって、プログラムは、プロセッサ29に、他の端末装置10から送信された音声データを受信するステップと、受信した音声データの状態を評価して第1の評価結果として出力するステップと、第1の評価結果を他の端末装置10に返信するステップと、受信した音声データに基づく音声をユーザに出力するステップとを実行させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
プロセッサとメモリとを備え、他の端末装置と音声データの送受信が可能な端末装置を動作させるためのプログラムであって、
前記プログラムは、前記プロセッサに、
前記他の端末装置から送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他の端末装置に返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行させるプログラム。
【請求項2】
前記他の端末装置から送信される、前記端末装置から送信されて前記他の端末装置で受信された前記音声データの状態を評価した第2の評価結果を受信するステップと、
受信した前記第2の評価結果を前記ユーザに提示するステップと
をさらに実行させる請求項1に記載のプログラム。
【請求項3】
前記第2の評価結果に応じたアイコンを前記ユーザに提示するステップをさらに実行させる請求項2に記載のプログラム。
【請求項4】
前記アイコンを前記ユーザに提示するステップでは、前記第2の評価結果に応じて、前記他の端末装置の前記ユーザに関する画像の表示態様を変化させる請求項3に記載のプログラム。
【請求項5】
前記第2の評価結果を前記ユーザに提示するステップでは、前記第2の評価結果に応じた音を発生させる請求項2に記載のプログラム。
【請求項6】
前記第2の評価結果を前記ユーザに提示するステップでは、前記第2の評価結果が所定状態よりも良好である場合、前記第2の評価結果を提示しない請求項2~5のいずれか一項に記載のプログラム。
【請求項7】
前記第2の評価結果には、前記音声データを受信した前記他の端末装置を特定する識別子が付されており、
前記第2の評価結果を前記ユーザに提示するステップでは、前記第2の評価結果を、他の端末装置が識別可能に前記ユーザに提示する請求項2~6のいずれか一項に記載のプログラム。
【請求項8】
前記第2の評価結果を前記ユーザに提示するステップでは、前記他の端末装置の前記ユーザの画像と関連付けて提示する請求項7に記載のプログラム。
【請求項9】
前記音声データを受信するステップでは、符号化されてパケットに変換されている前記音声データを受信してこの音声データを復号化し、
前記第1の評価結果として出力するステップでは、前記復号化の際のパケットロス率に基づいて前記音声データの状態を評価する
請求項2~8のいずれか一項に記載のプログラム。
【請求項10】
前記第2の評価結果を前記ユーザに提示するステップでは、前記第2の評価結果として前記他の端末装置との通信における前記パケットロス率を前記ユーザに提示する請求項9に記載のプログラム。
【請求項11】
前記第1の評価結果を出力するステップでは、音声区間検出を利用し、前記音声データの状態を評価する請求項2~8のいずれか一項に記載のプログラム。
【請求項12】
前記第1の評価結果を出力するステップでは、前記音声データの品質に基づいて前記音声データの状態を評価する請求項2~8のいずれか一項に記載のプログラム。
【請求項13】
前記第2の評価結果を前記ユーザに提示するステップでは、前記ユーザが発した音声に基づく前記音声データの品質を、前記第2の評価結果として前記ユーザに提示する請求項12に記載のプログラム。
【請求項14】
前記第2の評価結果を受信するステップでは、複数の前記他の端末装置から前記音声データの品質の基づく前記音声データの状態の評価を受信し、
前記第2の評価結果を前記ユーザに提示するステップでは、少なくとも1つ以外の前記第2の評価結果を除去する請求項13に記載のプログラム。
【請求項15】
前記音声データを受信するステップでは、前記他の端末装置を特定する第1識別子が付与された前記音声データを受信し、
前記第1の評価結果として出力するステップでは、前記第1の評価結果に前記端末装置を特定する第2識別子を付し、
前記第1の評価結果を前記他の端末装置に返信するステップでは、前記第2識別子が付された前記第1の評価結果を、前記第1識別子により特定される前記他の端末装置を送信先として送信する
請求項1~14のいずれか一項に記載のプログラム。
【請求項16】
前記端末装置の前記ユーザから発せられた音声に基づく前記音声データの品質を評価するステップと、
前記端末装置の前記ユーザから発せられた音声に基づく前記音声データの品質の評価結果である第3の評価結果を前記ユーザに提示するステップと
をさらに実行させる請求項1~15のいずれか一項に記載のプログラム。
【請求項17】
前記音声データの品質を評価するステップでは、前記端末装置の前記ユーザから発せられた前記音声の特性である前記音声のパワー、SN比、マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせに基づいて前記音声データの品質を評価する請求項16に記載のプログラム。
【請求項18】
前記音声データの品質を評価するステップでは、前記端末装置の前記ユーザから前記音声データが入力される毎に前記特性を検出し、前記音声データの入力が途絶えたら最後に検出した前記特性の値を保持する請求項17に記載のプログラム。
【請求項19】
前記音声データの品質を評価するステップでは、前記特性の検出結果に基づいてスコアを算出することで前記音声データの品質を評価する請求項17または18に記載のプログラム。
【請求項20】
前記第3の評価結果を前記端末装置のユーザに提示するステップでは、前記端末装置の前記ユーザから前記音声データが入力されていない状態では前記第3の評価結果を提示しない請求項16~19のいずれか一項に記載のプログラム。
【請求項21】
前記第3の評価結果を前記前記端末装置のユーザに提示するステップでは、前記第3の評価結果として前記音声の前記パワー、前記SN比、前記マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせを前記端末装置の前記ユーザに提示する請求項17~19のいずれか一項に記載のプログラム。
【請求項22】
プロセッサとメモリとを備え、複数の端末装置の間で音声データの送受信をさせるサーバを動作させるためのプログラムであって、
前記プログラムは、前記プロセッサに、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行させるプログラム。
【請求項23】
前記音声パワーを検出するステップでは、前記端末装置から音声が入力される毎に前記音声パワーの検出を行い、前記音声の入力が途絶えたら最後の検出値を保持する請求項22に記載のプログラム。
【請求項24】
前記音声パワーの前記平均値及び前記分散を算出するステップでは、秒単位での間隔を置いて音声パワーの平均値及び分散を算出する請求項22または23に記載のプログラム。
【請求項25】
前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップでは、秒単位での間隔を置いて判定する請求項22~24のいずれか一項に記載のプログラム。
【請求項26】
前記音声データには、前記音声データを送出した前記端末装置を特定する識別子が付されており、
前記音声パワーの前記平均値及び前記分散を算出するステップでは、前記識別子に基づいて現在通話をしている前記発話者が変更されたことを検出したら、前記音声パワーの前記平均値及び前記分散を算出し直す
請求項22~25のいずれか一項に記載のプログラム。
【請求項27】
前記第4の判定結果を提示するステップでは、通信回線が接続されているが発話をしていない発話者がいたら、前記第4の判定結果を提示しない請求項22~26のいずれか一項に記載のプログラム。
【請求項28】
前記第4の判定結果を提示するステップでは、前記第4の判定結果とともに解決策を提示する請求項22~27のいずれか一項に記載のプログラム。
【請求項29】
プロセッサとメモリとを備え、他の装置と音声データの送受信が可能な装置であって、
前記プロセッサは、
前記他の装置から送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他の装置に返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行する装置。
【請求項30】
プロセッサとメモリとを備え、他のコンピュータと音声データの送受信が可能なコンピュータにより実行される方法であって、
前記プロセッサは、
前記他のコンピュータから送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他のコンピュータに返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行する方法。
【請求項31】
端末装置と他の端末装置との間での音声データの送受信が可能なシステムであって、
前記端末装置は、
前記他の端末装置から送信された前記音声データを受信する手段と、
受信した前記音声データの状態を評価して第1の評価結果として出力する手段と、
前記第1の評価結果を前記他の端末装置に返信する手段と、
前記受信した前記音声データに基づく音声をユーザに出力する手段と
を具備するシステム。
【請求項32】
プロセッサとメモリとを備え、複数の端末装置の間で音声データの送受信をさせる装置であって、
前記プロセッサは、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行する装置。
【請求項33】
プロセッサとメモリとを備え、複数の端末装置の間で音声データの送受信をさせるコンピュータにより実行される方法であって、
前記プロセッサは、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行する方法。
【請求項34】
複数の端末装置と、これら複数の端末装置の間で音声データの送受信をさせるサーバとを有するシステムであって、
前記サーバは、
前記端末装置毎の入力音声の音声パワーを検出する手段と、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出する手段と、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定する手段と、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示する手段と
を具備するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、装置、方法及びシステムに関する。
【背景技術】
【0002】
Web会議システムや音声通信アプリなどで通話している時に、発話者の音声が通話相手に届かない、もしくは、聞き取りにくい状態の音声となることがある。その原因として、発話側の音声入力の問題、発話側の通信の問題及び/または受話側の通信の問題が考えられる。上記のような原因で音声が聞き取りにくいとき、発話者自身がそれに気づくことは難しく、通話相手に指摘されて初めて気づくことになる。
【0003】
上述した問題に関連する技術として、例えば特許文献1、特許文献2に開示された技術がある。
【0004】
特許文献1には、ユーザから受信したメッセージが理解可能であることを自動的に検証するためのシステムおよび方法が開示されている。一例として、システムは、入力音声の了解度の推定値を計算し、了解度のしきい値と比較して、計算された了解度の推定値が了解度のしきい値を下回ると判断された場合、ユーザはメッセージの少なくとも一部を繰り返すように促される。
【0005】
また、特許文献2には、信号対雑音比が悪いために音声入力がデバイスによって処理されない可能性が高い時期をユーザに示す音声制御装置が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第7660716号明細書
【特許文献2】米国特許第9558758号明細書
【発明の概要】
【発明が解決しようとする課題】
【0007】
複数のユーザが音声通話を行っている状況においては、音声の状態に関して、少なくとも発話するユーザの端末入力時の音声の状態と、その音声が通話相手に到達した状態での音声の状態は、同一とは限らない。このため、複数人と通話中のユーザは、音声の状態に関して、自身側に問題があるのか、通話相手側に問題があるのかを容易に知ることができない。
【0008】
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、通話相手の音声の状態を容易に把握することである。
【課題を解決するための手段】
【0009】
プロセッサとメモリとを備え、他の端末装置と音声データの送受信が可能な端末装置を動作させるためのプログラムである。プログラムは、プロセッサに、他の端末装置から送信された音声データを受信するステップと、受信した音声データの状態を評価して第1の評価結果として出力するステップと、第1の評価結果を他の端末装置に返信するステップと、受信した音声データに基づく音声をユーザに出力するステップとを実行させる。
【発明の効果】
【0010】
本開示によれば、通話相手の音声の状態を容易に把握することができる。
【図面の簡単な説明】
【0011】
【
図1】実施形態のシステムの全体の構成を示す図である。
【
図2】実施形態の端末装置の機能的な構成を示す図である。
【
図3】実施形態の音声判定部及び提示制御部の機能構成の例を表すブロック図である。
【
図4】実施形態のサーバの機能的な構成を示す図である。
【
図5】実施形態のデータベースのデータ構造を示す図である。
【
図6】実施形態のデータベースのデータ構造を示す図である。
【
図7】実施形態のシステムにおける処理流れの一例を示すフローチャートである。
【
図8】実施形態のシステムにおける処理流れの他の例を示すフローチャートである。
【
図9】実施形態のシステムにおける処理流れの他の例を示すフローチャートである。
【
図10】実施形態のシステムにおける処理流れの一例を示すシーケンス図である。
【
図11】実施形態の端末装置で表示される画面の一例を表す模式図である。
【
図12】実施形態の端末装置で表示される画面の別の一例を表す模式図である。
【
図13】実施形態の端末装置で表示される画面の一例を表す模式図である。
【
図14】実施形態の端末装置で表示される画面の別の一例を表す模式図である。
【
図15】実施形態の端末装置で表示される画面の別の一例を表す模式図である。
【発明を実施するための形態】
【0012】
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
【0013】
また、以下の説明において、「プロセッサ」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサは、シングルコアでもよいしマルチコアでもよい。
【0014】
また、少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
【0015】
また、以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。
【0016】
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
【0017】
また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及び/又はインタフェース部などを用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有するコントローラのようなデバイス)とされてもよい。
【0018】
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0019】
また、以下の説明において、種々の対象の識別情報として、識別番号が使用されるが、識別番号以外の種類の識別情報(例えば、英字や符号を含んだ識別子)が採用されてもよい。
【0020】
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。
【0021】
また、以下の説明において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
【0022】
<0 システムの概要>
本開示のシステムでは、一例としてスマートフォン、タブレット端末など、移動体通信網などのネットワークを用いて相互通話可能な端末装置間において、端末装置のユーザが発話した音声が通話相手の端末装置においてどのように受信されているか、すなわち、通話相手における音声状態を容易に把握できる。このため、端末装置は、通話相手である他の端末装置から送信された音声データを受信し、受信した音声データの状態を評価して第1の評価結果として出力し、この第1の評価結果を前記他の端末装置に返信する。
【0023】
また、本開示のシステムでは、端末装置のユーザが発話した音声の状態を容易に把握できる。このため、端末装置は、ユーザから発せられた音声に基づく音声データの品質を評価し、品質の評価結果である第3の評価結果をユーザに提示する。
【0024】
さらに、本開示のシステムでは、端末装置を用いて相互通話中のユーザの音声パワーのバラツキを評価し、バラツキの評価結果をユーザに提示する。このため、端末装置間での通話を仲介するサーバは、端末装置毎の入力音声の音声パワーを検出し、検出結果に基づいて、音声パワーの平均値及び分散を算出し、算出した平均値及び分散に基づいて、複数の端末装置を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定し、ずれが所定値以上であると判定された発話者に対して第4の判定結果を提示する。
【0025】
<1 システム全体の構成図>
図1は、実施形態に係るシステム1の全体構成の例を示す図である。
図1に示すように、システム1は、端末装置10と、サーバ20とを備えている。端末装置10と、サーバ20とは、有線又は無線の通信規格(含む移動体通信規格)を用い、ネットワーク80を介して相互に通信可能に接続されている。図示の例では、複数の端末装置10がシステム1に含まれている。
【0026】
ネットワーク80は、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
【0027】
なお、
図1では、サーバ20が1台のコンピュータである場合を示しているが、サーバ20は、複数台のコンピュータが組み合わされて実現されてもよい。また、
図1では、端末装置10が3台である場合を示しているが、システム1に収容される端末装置10の台数に制限はなく、2台、あるいは4台以上であっても構わない。
【0028】
端末装置10は、サーバ20を介して相互に通信可能に構成された端末である。さらに、端末装置10は、他の端末装置10との間で音声データの送受信が可能な、言い換えれば端末装置10のユーザが発話した音声により相互通話可能な端末である。例えば、端末装置10は、スマートフォン、タブレット端末など、移動体通信網などのネットワークを用いて相互通話可能な情報処理装置である。あるいは、端末装置10は、所定の音声会話アプリケーションが搭載された据え置き型のPC(Personal Computer)、ラップトップPC、ヘッドマウントディスプレイ等の情報処理装置であってもよい。
【0029】
図1に示すように、端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。通信IF12、入力装置13、出力装置14、メモリ15、ストレージ16、及びプロセッサ19は、例えば、バスを介して互いに通信可能に接続されている。
【0030】
通信IF12は、端末装置10が外部の装置との音声通信を含む通信をするため、音声データを含む信号を送受信するためのインタフェースである。入力装置13は、ユーザからの入力操作を受け付けるための入力装置である。入力装置13は、例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等を含む。出力装置14は、ユーザに対し情報を提示するための出力装置である。出力装置14は、例えば、ディスプレイ、スピーカ等を含む。
【0031】
メモリ15は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ16は、データを保存するための記憶装置であり、例えば、フラッシュメモリ、HDD(Hard Disc Drive)等の不揮発性のメモリにより実現される。プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。
【0032】
サーバ20は、サービスに関する情報を管理し、管理している情報を参照し、サービスを提供する情報処理装置である。さらに、サーバ20は、複数の端末装置10の間で(2台の端末装置10のみならず、
図1に示すように3台の端末装置10があれば、これら3台の間で)相互に音声データの送受信を行い、相互通話を可能にするサービスを提供する。サーバ20は、例えば、ネットワーク80に接続されたコンピュータである。
【0033】
なお、サーバ20は、相互通話可能なサービスに加えて、相互にデータ通信(含むテキストベースのメッセージ)を行うサービスを提供してもよい。このようなサービスの一例として、端末装置10によりインターネット上のサイトにアクセスできるサービスや、テキスト形式でメッセージを伝えるサービス、つまり、チャットサービスが挙げられる。
【0034】
図1に示すように、サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。通信IF22、入出力IF23、メモリ25、ストレージ26、及びプロセッサ29は、例えば、バスを介して互いに通信可能に接続されている。
【0035】
通信IF22は、サーバ20が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、及び、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM等の揮発性のメモリにより実現される。
【0036】
ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD等の不揮発性のメモリにより実現される。ストレージ26は、必ずしも単独の回路により実現されなくてもよい。ストレージ26は、例えば、複数の記憶回路により実現されてもよい。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
【0037】
<1.1 端末装置の構成>
図2は、本実施形態のシステム1に含まれる端末装置10の構成を示すブロック図である。
図2に示すように、端末装置10は、通信部121と、入力装置13と、出力装置14と、カメラ160と、記憶部170と、制御部180とを備える。
【0038】
通信部121は、端末装置10が他の装置と通信するための処理を行う。通信部121は、制御部180で生成された信号に送信処理を施し、外部(例えば、サーバ20)へ送信する。通信部121は、外部から受信した信号に受信処理を施し、制御部180へ出力する。
【0039】
加えて、通信部121は、他の端末装置10との間で音声データの送受信を行うための処理を行う。従って、通信部121は、移動体通信網の規格に準拠した通信を行う。一義的には、通信部121は、端末装置10が存在するエリアに割り当てられた基地局との間での通信を行い、基地局及びサーバ20を含む移動体通信システムが、端末装置10間の音声データの送受信を実現する。移動体通信網の規格は、本実施形態のシステム1が運用されている時期において、移動体通信システムを運用する通信事業者が提供しているサービスが準拠する規格である。このような規格の一例として、第4世代移動体通信システムの規格であるIMT-Advanced、第5世代移動通信システムの規格であるIMT-2020などが挙げられる。また、第3世代移動通信システムが依然として運用されている地域においては、この第3世代移動通信システムの規格であるIMT-2000であってもよい。上に上げた移動体通信規格は、音声通信にもデータ通信にも適用される規格であるので、通信部121は、音声通話及びデータ通信のいずれも行いうる。
【0040】
入力装置13は、端末装置10を所有するユーザが指示を入力するための装置である。入力装置13は、例えば、マウス131、キーボード132、及び、操作面へ触れることで指示が入力されるタッチ・センシティブ・デバイス133等により実現される。また、入力装置13は、マイク134により実現される。入力装置13は、ユーザから入力される指示又は音声を電気信号へ変換し、電気信号を制御部180へ出力する。なお、入力装置13は、マウス131、及びキーボード132等の物理的な操作デバイスに限定されない。入力装置13には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。さらに、端末装置10の仕様によってはマウス131、キーボード132を省略してもよい。この場合、タッチ・センシティブ・デバイス133によりテキスト等の各種入力がされる。
【0041】
出力装置14は、端末装置10を所有するユーザへ情報を提示するための装置である。出力装置14は、例えば、ディスプレイ141、スピーカ142等により実現される。ディスプレイ141は、制御部180の制御に応じて、画像、動画、テキスト等のデータを表示する。ディスプレイ141は、例えば、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等によって実現される。スピーカ142は、制御部180の制御に応じて、音声を出力する。
【0042】
なお、
図2では端末装置10のマイク134及び/またはスピーカ142には、例えばBluetooth(登録商標)等の無線通信手段により端末装置10のその他の構成要素と離間して使用可能なものも含まれる。例えば、これらマイク134及びスピーカ142がいわゆるヘッドセットとして別体に構成されるものである。
【0043】
カメラ160は、受光素子により光を受光し、撮影信号として出力するためのデバイスである。カメラ160は、例えば、光を受光するレンズがディスプレイ141と並べて設置されている。これにより、カメラ160は、ディスプレイ141を視認するユーザを撮影可能となっている。
【0044】
記憶部170は、例えば、メモリ15、及びストレージ16等により実現され、端末装置10が使用するデータ、及びプログラムを記憶する。具体的には、記憶部170は、例えば、アプリケーション171を記憶する。アプリケーション171は、制御部180により実行されることで、後述する制御部180における操作受付部181等の機能実現部を実現する。また、記憶部170は、音声判定部185による評価結果、判定結果が格納される検出結果データ172、及び音声判定部185による判定の基準となる評価テーブル173を記憶する。
【0045】
制御部180は、プロセッサ19が記憶部170に記憶されるプログラム(アプリケーション171)を読み込み、プログラムに含まれる命令を実行することにより実現される。制御部180は、端末装置10の動作を制御する。具体的には、例えば、制御部180は、操作受付部181、通信制御部182、音声入力部183、音声出力部184、音声判定部185、提示制御部186としての機能を発揮する。
【0046】
操作受付部181は、入力装置13から入力されるユーザの操作を受け付けるための処理を行う。
【0047】
通信制御部182は、端末装置10が、相互通信(含む相互通話)中である他の端末装置10と、通信プロトコルに従って通信するための処理を行う。通信制御部182は、例えば、マイク134から入力される音声が音声入力部183により変換された音声データを、相互通話中の他の端末装置10へ送信する。また、通信制御部182は、他の端末装置10から送信される音声データを受信して音声出力部184に送出し、この音声出力部184により音声に変換してスピーカ142から出力させる。
【0048】
また、通信制御部182は、例えば、キーボード132、タッチ・センシティブ・デバイス133等から入力されるテキストデータを相互通信中の他の端末装置10へ送信する。また、通信制御部182は、他の端末装置10から送信されるデータを受信し、テキストデータに変換してディスプレイ141から出力する。
【0049】
音声入力部183は、端末装置10のユーザが発話し、マイク174から入力された音声を音声データに変換し、通信制御部182に送出する。音声出力部184は、通信制御部182が出力する音声データを音声に変換し、スピーカ142から出力させる。
【0050】
音声判定部185は、音声入力部183及び音声出力部184が出力する音声データに対して各種信号処理を行い、音声データの品質についての評価、判定を行ってその評価結果、判定結果を検出結果データ172に格納する。詳細は後述する。
【0051】
提示制御部186は、ユーザに対して種々の情報を提示するため、出力装置14を制御する。具体的には、例えば、提示制御部186は、音声判定部185による評価結果をディスプレイ141に表示させる。また、例えば、提示制御部186は、評価結果を音声に変換して音声出力部184に送出し、この音声出力部184及びスピーカ142を介して評価結果を音声出力する。
【0052】
図3は、通信制御部182、音声判定部185及び提示制御部186を含む端末装置10の機能構成の例を表すブロック図である。通信制御部182は、符号化処理部1821、送信部1822、受信部1823及び復号化処理部1824を有する。また、音声判定部185は、音声パワー検出部1851、SN比検出部1852、マイク特性検出部1853、入力音声評価部1854及び受信音声評価部1855を有する。さらに、提示制御部186は、入力音声状態提示部1861、通話相手受信音声状態提示部1862及び音声パワー状態提示部1863を有する。
【0053】
符号化処理部1821は、音声入力部183が出力する音声データに符号化処理(エンコード処理)を行ってデータを圧縮し、送信部1822に送出する。符号化処理は、移動体通信規格に準拠したものである。この際、符号化処理部1821は、符号化した音声データをパケットに変換し、個々のパケットに番号を付与する。符号化処理部1821による一連の処理は、端末装置10による移動体通信がLTE規格に基づくのであればVoLTE(Voice over Long Term Evolution)として知られる処理である。また、一般的にはVoIP(Voice over Internet Protocol)として知られる処理である。
【0054】
送信部1822は、符号化処理部1821により符号化処理された音声データを、送信部1822に含まれる図略のアンテナを介して無線送信し、サーバ20の送受信部2031に送出する。送信部1822による無線通信も、既に説明した移動体通信網の規格に準拠する。
【0055】
送信部1822は、音声データを無線送信する際に、個々の端末装置10に固有の識別子を付与する。さらに、送信部1822は、第1の評価結果である受信音声評価部1855が出力した受信音声の評価スコアと、第3の評価結果である音声パワー検出部1851が検出した入力音声のパワー検出結果を、音声データに重畳して通話相手である端末装置10に送信する。
【0056】
受信部1823は、サーバ20の送受信部2031から送出され、受信部1823に含まれる図略のアンテナを介して受信した無線入力を受信し、復号化処理部に送出する。ここで、受信部1823が受信する無線入力には、通話相手の端末装置10の送信部1822が付与した、通話相手の端末装置10に固有の識別子が付与されている。また、受信部1823は、通話相手の端末装置10から受信した無線入力に重畳された、受信音声の評価スコアである第2の評価結果を受信し、この第2の評価結果を、通話相手の端末装置10に固有の識別子とともに通話相手受信音声状態提示部1862に送出する。さらに、受信部1823は、サーバ20から送出された、第4の判定結果である、端末装置10のユーザから発声された音声データの音声パワーが、現在通話中の複数の端末装置10の音声パワーから算出された音声パワーの平均値が所定値以上であると判定された判定結果を受信し、この第4の評価結果を音声パワー状態提示部1863に送出する。
【0057】
復号化処理部1824は、受信部1823が受信した受信データに復号化処理部(デコード処理)を行って音声データに復号し、この音声データを音声出力部184に出力する。また、復号化処理部1824は、受信部1823が受信した、現在通話中の端末装置10から送出された信号を復号化処理した際のパケットロス率(パケット損失率)を算出し、算出したパケットロス率を受信音声評価部1855に送出する。パケットロス率の算出方法については既知であり、通信規格で定められている場合もあるので、ここでの詳細な説明は行わない。この際、復号化処理部1824は、算出したパケットロス率を、通話相手の端末装置10の識別子を付与して受信音声評価部1855に送出する。
【0058】
音声パワー検出部1851は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データの音声パワーを検出し、検出結果を入力音声評価部1854及び送信部1822に出力する。この際、音声パワー検出部1851は、音声パワーの検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の音声パワー検出部1851では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして音声パワーの検出結果を出力する。
【0059】
SN比検出部1852は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データのSN比を検出し、検出結果を入力音声評価部1854に出力する。この際、SN比検出部1852は、SN比の検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態のSN比検出部1852では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとしてSN比の検出結果を出力する。SN比検出部1852は、SN比を入力データとし、入力したSN比に対する評価を正解出力データとして学習された学習済みモデルを用いて実現されてもよい。
【0060】
マイク特性検出部1853は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データから音声入力部183(マイク134)のマイク特性を検出し、検出結果を入力音声評価部1854に出力する。この際、マイク特性検出部1853は、マイク特性の検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態のマイク特性検出部1853では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとしてマイク特性の検出結果を出力する。マイク特性検出部1853は、マイク特性を入力データとし、入力したマイク特性に対する評価を正解出力データとして学習された学習済みモデルを用いて実現されてもよい。
【0061】
好ましくは、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、端末装置10のユーザが発音をする度に、つまり、音声入力部183に音声が入力される度に検出動作を行う。あるいは、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853はリアルタイムで(つまり連続的に)検出作業を行ってもよいし、所定時間間隔を(例えば1秒毎)おいて検出作業を行ってもよい。
【0062】
そして、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、検出結果を検出結果データ172に格納する。検出結果データ172に格納される検出結果は、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853による検出動作が行われる度に更新される。従って、検出結果データ172に格納される検出結果は、音声入力部183に音声が入力される度に更新される。そして、音声入力が途絶えると、検出結果データ172の更新(上書き)がされないので、結果的に、最後の検出値が検出結果データ172に保持される。
【0063】
なお、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、自身の検出結果を0、-1、-2の3種類のスコアに量子化していたが、量子化のレベルもこの3段階に限定されず、2段階、あるいは4段階以上に量子化してもよい。
【0064】
入力音声評価部1854は、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力された検出結果を評価値として量子化し(スコア化し)、統合スコアを決定して入力音声状態提示部1861及び通話相手受信音声状態提示部1862に出力する。入力音声状態提示部1861から出力される統合スコアが、第3の評価結果である、端末装置10のユーザから発声された音声に基づく音声データの品質の評価結果である。
【0065】
入力音声評価部1854による統合スコアの算出手法に特段の限定はないが、本実施形態の入力音声評価部1854では、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力された量子化された検出結果であるスコアを加算し、加算された値(和)に基づいて統合スコアを決定している。一例として、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力されたスコアの和が0であれば良好、-1であればやや悪い、-2であれば悪い、とする。より詳細には、音声パワー検出部1851から入力されたスコアが良好(0)、SN比検出部1852から入力されたスコアが良好(0)、マイク特性検出部1853から入力されたスコアが良好(0)であれば、入力音声評価部1854は、これらスコアの和が0になることから、統合スコアは良好(0)となる。また、音声パワー検出部1851から入力されたスコアが良好(0)、SN比検出部1852から入力されたスコアがやや悪い(-1)、マイク特性検出部1853から入力されたスコアがやや悪い(-1)であれば、入力音声評価部1854は、これらスコアの和が-2になることから、統合スコアは悪い(-2)となる。ここで、音声パワー検出部1851、SN比検出部1852、及びマイク特性検出部1853から入力されたスコアの和が-2以下になる場合は、入力音声評価部1854は統合スコアを悪い(-2)として扱うというようにしてもよい。一例として、音声パワー検出部1851、SN比検出部1852、及びマイク特性検出部1853から入力されたスコアがいずれもやや悪い(-1)であれば、これらスコアの和は-3になるが、入力音声評価部1854が算出する統合スコアとしては悪い(-2)という評価にしてもよい。また入力音声評価部1854による統合スコアの量子化の段階も0、-1、-2の3段階に限定されず、2段階、あるいは4段階以上に量子化してもよい。加えて、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からの入力スコアの和を単純に取る以外の統合スコアの算出方法も可能である。一例として、各スコアについて所定の重み付けをつけて加算する、所定の関係式に基づいて四則演算、関数を用いて統合スコアを算出してもよい。
【0066】
受信音声評価部1855は、復号化処理部1824から出力される、復号化処理部1824における複合処理時のパケットロス率に基づいて、受信音声の評価スコアを算出し、この評価スコアを送信部1822に送出する。この際、受信音声評価部1855は、受信音声の評価スコアの算出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の受信音声評価部1855では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして受信音声の評価スコアの算出結果を出力する。さらに、受信音声評価部1855は、算出した評価スコアに、この評価スコアに係る音声データを出力した端末装置10に固有の識別子を付与して送信部1822に送出する。
【0067】
なお、音声区間検出技術を用いて音声区間のみを音声判定部185が検出、評価作業を行ってもよい。この場合、受話音声の重なり具合に基づいた評価結果を出力することができる。例えば、3人以上で同時音声通話を行っているとき、あるユーザの発話に重畳して発話を行ったユーザに対して、自分の発話による音声通話の内容が他のユーザに聞き取りづらかった可能性があるという評価結果を出力してもよい。
【0068】
また、通話相手の端末装置10のマイク134に周辺の環境ノイズが大きく入っている場合、音声判定部185がこれを検知して、端末装置10のユーザにその検知結果を通知してもよい。例えば、通話相手の周辺がうるさいので聞き取りづらかった可能性があるという検知結果を出力してもよい。
【0069】
さらに、相互通話中の端末装置10における個々の端末装置10からの受話音声の音声区間検出時間を端末装置10間で送受信し、この情報に基づいて音声判定部185が評価結果を出力してもよい。例えば、送信側の送信音声の音声区間検出時間と受信側の受信音声の音声区間検出時間との間にかなりの差異が生じている場合、受信側が聞き取りづらかった可能性があるという評価結果を出力してもよい。より具体的には、送信側の送信音声の音声区間検出時間は5秒であったが、受信側の受信音声の音声区間検出時間は3秒であった場合、受信部1823及び/または復号化処理部1824における処理に何かしらの問題があったことが推測される。このような問題はパケットロスとは別に生じうる。従って、送信側の送信音声の音声区間検出時間と受信側の受信音声の音声区間検出時間との間の不一致を検出することの意味は大きい。
【0070】
入力音声状態提示部1861は、入力音声評価部1854から出力される統合スコアを端末装置10のディスプレイ141に表示する。
【0071】
また、通話相手受信音声状態提示部1862は、入力音声評価部1864が出力する統合スコアと、受信部1823から出力される受信音声の評価スコアとに基づいて、通話相手受信音声状態のスコアを算出し、端末装置10のディスプレイ141に表示させる。この際、通話相手受信音声状態提示部1862は、通話相手受信音声状態を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の通話相手受信音声状態提示部1862では、入力音声評価部1864が出力する統合スコアは、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして量子化されており、また、受信部1823から出力される受信音声の評価スコアも、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして量子化されているので、これらスコアの和が0であれば良好、-1であればやや悪い、-2であれば悪い、とする。ここで、入力音声評価部1864が出力する統合スコアと受信部1823から出力される受信音声の評価スコアとの和がが-2以下になる場合は、通話相手受信音声状態提示部1862は統合スコアを悪い(-2)として扱うというようにしてもよい。
【0072】
好ましくは、通話相手受信音声状態提示部1862は、受信部1823から出力される受信音声の評価スコアも端末装置10のディスプレイ141に表示させる。
【0073】
音声パワー状態提示部1863は、サーバ20から送出された、端末装置10のユーザから発声された音声データの音声パワーが、現在通話中の複数の端末装置10の音声パワーから算出された音声パワーの平均値が所定値以上であると判定された判定結果を受け取り、この判定結果に基づいて、端末装置10のユーザ自身が発話した音声のパワー状態を端末装置10のディスプレイ141に表示させる。このとき、相互通話中のユーザの中にまだ発話をしていないユーザがいる間は、音声パワー状態提示部1863は音声のパワー状態を端末装置10のディスプレイ141に表示させない。
【0074】
入力音声状態提示部1861による統合スコア、通話相手受信音声状態提示部1862による受信音声の評価スコア及び通話相手受信音声状態のスコアの表示形態、さらには音声パワー状態提示部1863による判定結果の表示形態に特段の限定はなく、一例として、スコアそのものを表示する、スコアをスケール表示する、スコアに応じて表示色を変化させるなどが挙げられる。また、スコアが良好(0)である、すなわち、端末装置10のユーザが発話した音声の状態が良好である、あるいは、通話相手の端末装置10の受信音声の状態が良好であるならば、ディスプレイ141に何も表示せず、スコアがやや悪い(-1)、悪い(-2)時に、ディスプレイ141にこのスコアに応じた表示を行う表示形態であってもよい。
【0075】
ここで、受信音声の評価スコアには、このスコアが作成された(評価された)端末装置10に固有の識別子が付与されている。そこで、入力音声状態提示部1861及び通話相手受信音声状態提示部1862は、事前にこの識別子と、端末装置10の記憶部170に格納されている、端末装置10の通話相手である端末装置10の電話帳(これには電話番号とユーザが登録した通話相手を識別するユーザ名等の固有名とが含まれる)との紐付けを行い、スコアを表示する際に、ユーザ名を表示したアイコンを伴った表示を行ってもよい。また、入力音声評価部1854から出力される統合スコアは、端末装置10を所有するユーザに係るものであることが自明であるので、統合スコアを表示する際に、端末装置10の初期登録時などにユーザが自身で登録したユーザ名を表示したアイコンを伴った表示を行ってもよい。
【0076】
このように、スコアに係るユーザ名を表示したアイコンを表示する態様を採用した場合、スコアが良好(0)である、すなわち、端末装置10のユーザが発話した音声の状態が良好である、あるいは、通話相手の端末装置10の受信音声の状態が良好であるならば、ディスプレイ141にアイコンを表示せず、スコアがやや悪い(-1)、悪い(-2)時に、ディスプレイ141にアイコンを表示するとともに、このスコアに応じた表示を行ってもよい。さらに、スコアがやや悪い(-1)、悪い(-2)時に、アイコンの透明度を上げて視認しづらくする、アイコン全体を特定色(例えば赤色)に徐々に着色する、などの表示態様を行ってもよい。
【0077】
さらに、アイコンやスコアのスケールをユーザがタップ(タッチ)した際に、スコアの根拠となる情報を端末装置10のディスプレイ141に表示してもよい。同様に、評価結果等をテキスト表示してもよい。評価結果等をテキスト表示する場合、ディスプレイ141に一定時間(一例として数秒)だけ表示し、ユーザがディスプレイ141をタップする等の入力動作を行うとこのテキスト表示を消去することが好ましい。表示態様の具体例については後述する。
【0078】
さらに、あるいは、提示制御部186による提示形態は、上述した端末装置10のディスプレイ141に表示する形態のみならず、端末装置10のスピーカ142を用いて音声により通知する形態も可能である。より詳細には、例えば、提示制御部186は、音声判定部185や受信部1823から入力された評価結果そのもの、あるいは、評価結果に基づいて事前に用意されたメッセージを音声合成により音声データに変換し、この音声データによりユーザに提示(通知)することも可能である。あるいは、提示制御部186は警報音、ブザー音やチャイム等の単純な音データによりユーザに提示(通知)することも可能である。提示制御部186が生成した音(声)データは音声出力部184に入力され、この音声出力部184及びスピーカ142を介してユーザに提示される。
【0079】
提示制御部186の音声による通知形態にも特段の限定はないが、判定結果そのもの、及び/または、判定結果(スコア)の根拠となる情報を音声通知してもよい。この時、上述したように、現在音声通話中のユーザは既知であるので、どのユーザの受信音声状態に関する情報(例えば電話帳に登録されているユーザの登録名)であるかを合わせて音声通知してもよい。端末装置10のユーザの発話による入力音声情報に関する情報については、ユーザ自身のユーザ名を合わせて音声通知してもよいし、省略してもよい。音声通知の手法は既知の手段から適宜選択されればよく、音声合成モジュールによるなど、特段の限定はない。
【0080】
また、音声区間検出技術を用いて音声区間のみを音声判定部185が検出、評価作業を行ってもよい。
<1.2 サーバの構成>
【0081】
図4は、本実施形態のシステム1に含まれるサーバ20の機能的な構成を示すブロック図である。
図4に示すように、サーバ20は、通信部201、記憶部202、及び制御部203としての機能を発揮する。
【0082】
通信部201は、サーバ20が外部の装置と通信するための処理を行う。
【0083】
記憶部202は、例えば、メモリ25、及びストレージ26等により実現され、サーバ20が使用するデータ、及びプログラムを記憶する。具体的には、記憶部202は、例えば、アプリケーション2021を記憶する。アプリケーション2021は、制御部203により実行されることで、後述する制御部203における送受信部2031等の機能実現部を実現する。また、記憶部202は、音声パワー分布計算部2034による計算結果が格納される計算結果データ2022を記憶する。
【0084】
制御部203は、プロセッサ29が記憶部202に記憶されるプログラム(アプリケーション2021)を読み込み、プログラムに含まれる命令を実行することにより実現される。制御部203は、サーバ20の動作を制御する。具体的には、例えば、制御部203は、送受信部2031、記憶制御部2032、通信制御部2033、音声パワー分布計算部2034、及び音声パワー判定部2035としての機能を発揮する。
【0085】
送受信部2031は、サーバ20が、端末装置10等の外部の装置と、通信プロトコルに従ってデータを送受信する処理を制御する。
【0086】
記憶制御部2032は、記憶部202への情報の記憶を制御する。
【0087】
通信制御部2033は、端末装置10間で、所定の通信プロトコルに従った移動体通信を実現するための処理を行う。
【0088】
音声パワー分布計算部2034は、サーバ20を介して現在相互通話中の複数の端末装置10の音声パワー検出部1851で検出された発話者毎の音声パワーに基づいて、相互通話中の複数の発話者の音声パワーの平均と分散を算出し、音声パワー判定部2035に送出する。また、音声パワー分布計算部2034は、算出結果を計算結果データ2022に格納する。
【0089】
音声パワー判定部2035は、音声パワー分布計算部2034により算出された音声パワーの平均と分散とに基づいて、発話者毎の音声パワーと音声パワーの平均とのズレを算出し、このズレが所定値以上であるか否かを判定し、判定結果を相互通話中の端末装置10に通知する。
【0090】
音声パワー分布計算部2034及び音声パワー判定部2035は、所定の間隔、好ましくは少なくとも1秒以上の時間間隔を置いて音声パワーの平均及び分散の算出動作及び判定動作を行うことが好ましい。これは、あまり短い時間間隔で音声パワーの平均及び分散の算出動作及び判定動作を行うと、端末装置10における音声パワー状態表示(通知)が不安定になるからである。同様に、音声パワー分布計算部2034及び音声パワー判定部2035は、音声パワーの平均値・分散の計算結果を安定化させるため、所定回数の過去の計算結果を用いて移動平均を取ることで、平滑化した計算結果を用いても良い。
【0091】
また、音声パワー分布計算部2034及び音声パワー判定部2035は、相互通話中のユーザに変更があった場合、音声パワーの平均及び分散の算出動作及び判定動作をやり直す。つまり、新たに音声パワーの平均及び分散の算出動作及び判定動作を行う。
【0092】
<2 データ構造>
図5及び
図6は、端末装置10が記憶するデータベースのデータ構造を示す図である。なお、
図5及び
図6は一例であり、記載されていないデータを除外するものではない。
【0093】
図5は、評価テーブル173のデータ構造を示す図である。
図5に示すように、評価テーブル173には、音声パワー、SN比及びマイク特性のそれぞれについて良好、やや悪い及び悪いと入力音声評価部1854が評価した際のスコアが格納されている。また、評価テーブル173は、入力音声評価部1854がこれらスコアを合算して統合スコアを算出した結果、最終的な評価結果を良好、やや悪い及び悪いのいずれにするかのテーブルである。
【0094】
図6は、検出結果データ172のデータ構造を示す図である。
図6に示すように、検出結果データ172のレコードの各々は、例えば、項目「通話ID」と、項目「開始時刻」と、項目「終了時刻」と、項目「ユーザID」と、項目「音声パワースコア」と、項目「SN比スコア」と、項目「マイク特性スコア」と、項目「入力音声スコア」と、項目「受信音声スコア」とを含む。検出結果データ172に記憶された情報は、音声判定部185による判定動作がされる度に更新される。
【0095】
項目「通話ID」は、端末装置10が通話相手である他の端末装置10との間で行った個々の通話を識別するための情報である。項目「開始時刻」は、項目「通話ID」により特定される通話が開始した時刻の情報である。項目「終了時刻」は、項目「通話ID」により特定される通話が終了した時刻の情報である。項目「ユーザID」は、項目「通話ID」により特定される通話の相手である他の端末装置10を識別するための情報である。好ましくは、項目「ユーザID」は、受信部1823が受信した、他の端末装置10を識別するための識別子である。なお、端末装置10による通話は3人以上のユーザによる同時通話も可能であるので、項目「ユーザID」には複数の識別情報が格納されうる。項目「音声パワースコア」は、音声パワー検出部1851により検出された結果であるスコアである。項目「SN比スコア」は、SN比検出部1852により検出された結果であるスコアである。項目「マイク特性スコア」は、マイク特性検出部1853により検出された結果であるスコアである。項目「入力音声スコア」は、入力音声評価部1854により判定された結果であるスコアである。項目「受信音声スコア」は、受信音声評価部1855により評価された結果であるスコアである。
【0096】
<3 動作例>
以下、端末装置10及びサーバ20の動作の一例について説明する。
【0097】
図7は、端末装置10の動作の一例を表すフローチャートである。
図7は、端末装置10のユーザが発話した入力音声に基づいて、音声判定部185が検出及び判定動作を行い、提示制御部186を介してユーザに通知する際の動作の例を表すフローチャートである。
【0098】
なお、
図7~
図9のフローチャート及びシーケンス図に示す各種動作は並行して実行されうる。
【0099】
ステップS11において、端末装置10の制御部180は、サーバ20を経由して特定の端末装置10宛に発呼通信を行う。具体的には、例えば、制御部180は、サーバ20の送受信部2031及び通信制御部2033を経由して、通信制御部182により特定の端末装置10宛に発呼動作を行う。通信制御部182による発呼動作については既知の動作であるので、これ以上の説明は行わない。なお、
図7のフローチャートにおいては、端末装置10から発呼動作を行う例を示しているが、端末装置10が着呼動作を行う場合でも同様の動作が行われる。つまり、
図7のフローチャートに示す動作において、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
【0100】
そして、ステップS12において、制御部180は、ステップS11で発呼通信を行った特定の端末装置10が着呼するのを待ち、着呼したら(ステップS12においてYES)ステップS13以降の処理を行う。
【0101】
この後、制御部180は、着呼をした特定の端末装置10、すなわち通話相手の特定の端末装置10との間で音声通話を行う。具体的には、例えば、制御部180は、音声入力部183により端末装置10のユーザが発話した音声入力の処理を行って音声データに変換し、通信制御部182により処理が行われた音声データを、サーバ20の送受信部2031を介して特定の端末装置10に送信し、また、通信制御部182によりサーバ20の送受信部2031を介して特定の端末装置10から送信された音声データを受信して処理を行い、音声出力部184により音声に変換する。
【0102】
なお、本実施形態のシステム1では、3人以上のユーザによる相互通話も可能である。どの時点で相互通話を行うユーザを追加するか(発呼動作を行うか、着呼動作を行うか)についての詳細な説明はここでは行わない。
【0103】
ステップS13において、制御部180は、端末装置10のユーザが発話した入力音声を受け入れる。具体的には、例えば、制御部180は、音声入力部183により、端末装置10のユーザが発話した入力音声を受け入れる。そして、ステップS14~S16において、制御部180は、ステップS13において受け入れた、端末装置10のユーザが発話した入力音声についての検出処理を行う。具体的には、例えば、制御部180は、音声パワー検出部1851により入力音声の音声パワーを検出し、SN比検出部1852により入力音声のSN比を検出し、マイク特性検出部1853により入力音声のマイク特性を検出する。これらステップS14~S16に示す処理はいずれも並行して実行される。
【0104】
ステップS17において、制御部180は、ステップS14~S16において検出された音声パワー等に基づいて、入力音声の評価動作を行う。具体的には、例えば、制御部180は、入力音声評価部1854により、検出された音声パワー等に基づいて、入力音声の評価動作を行い、統合スコアを算出する。そして、入力音声評価部1854は、評価結果を提示制御部186に送出する。
【0105】
ステップS18において、制御部180は、ステップS16における評価結果を端末装置10のディスプレイ141に表示させる。具体的には、例えば、制御部180は、提示制御部186(入力音声状態提示部1861及び通話相手受信音声状態提示部1862)により、入力音声評価部1854が評価した評価結果(算出した統合スコア)に基づいて、端末装置10のディスプレイ141に評価結果を表示させる。
【0106】
ステップS19において、制御部180は、端末装置10から通話切断の指示があったか、あるいは、通話相手の端末装置10が通話切断を行ったか否かを判定する。そして、まだ通話中であれば(ステップS19においてNO)ステップS13の処理に戻り、通話切断があったと判定したら(ステップS19においてYES)、通話切断処理を行い、
図7に示すプログラムを終了する。
【0107】
図8は、端末装置10の動作の他の例を表すフローチャートである。
図8は、ユーザが相互通話を行っている相手からの受話音声に基づいて、音声判定部185が検出及び判定動作を行い、通信制御部182を介して通話相手である他の端末装置10に判定結果を送信する際の動作の例を表すフローチャートである。
【0108】
ステップS21において、端末装置10の制御部180は、サーバ20を経由して特定の端末装置10からの呼び出しを受ける。具体的には、例えば、制御部180は、サーバ20の送受信部2031及び通信制御部2033を経由して、通信制御部182により特定の端末装置10からの着呼動作を行う。通信制御部182による着呼動作については既知の動作であるので、これ以上の説明は行わない。なお、
図8のフローチャートにおいては、端末装置10から着呼動作を行う例を示しているが、端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、
図8のフローチャートに示す動作においても、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
【0109】
そして、ステップS22において、制御部180は、ステップS21で着呼動作を行った特定の端末装置10との間で通話が成立するのを待ち、通話が成立したら(ステップS22においてYES)ステップS23以降の処理を行う。この後、制御部180は、通話が成立した特定の端末装置10との間で音声通話を行う。
【0110】
ステップS23において、制御部180は、通話相手である特定の端末装置10から送信されて端末装置10で受信した、特定の端末装置10からの音声データを受信する。具体的には、例えば、制御部180は、通話相手である特定の端末装置10から送信され、サーバ20の送受信部2031を介して送信された音声データを通信制御部182により受信する。
【0111】
次いで、ステップS24において、制御部180は、ステップS23で受信した受信音声データの評価動作を行う。具体的には、例えば、制御部180は、受信音声評価部1855により、ステップS23で受信した受信音声データの評価動作を行い、評価スコアを算出する。
【0112】
さらに、ステップS25において、制御部180は、ステップS24で行った受信音声評価結果を、音声を送信した他の端末装置10に送信する。具体的には、例えば、制御部180は、入力音声評価部1854により、受信音声評価結果を通信制御部182及びサーバ20の送受信部2031を介して、音声を送信した特定の端末装置10に送信する。
【0113】
そして、ステップS26において、制御部180は、ステップS23で受信した音声データを出力する。具体的には、例えば、制御部180は、通信制御部182により受信され、復号化された音声データを、音声出力部184及びスピーカ142により音声として出力する。
【0114】
図9は、端末装置10の動作の他の例を表すフローチャートである。
図9は、ユーザが相互通話を行っている通話相手である他の端末装置10から送出された受信音声評価結果を受信し、提示制御部186により端末装置10のユーザに提示する際の動作の例を表すフローチャートである。
【0115】
ステップS31~S33の動作は、
図8のステップS21~S23と同一である。なお、
図9のフローチャートにおいては、端末装置10から着呼動作を行う例を示しているが、端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、
図9のフローチャートに示す動作においても、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
【0116】
ステップS34において、制御部180は、通話相手である特定の端末装置10から送信された、特定の端末装置10における受信音声の評価結果(この評価結果は、端末装置10のユーザが発話した音声が他の端末装置10においてどのように受信されたかを評価した評価結果である)を受信する。具体的には、例えば、制御部180は、通信制御部182(受信部1823)により受信した、特定の端末装置10における受信音声の評価結果を受信する。そして、受信部1823は、評価結果を提示制御部186に送出する。
【0117】
ステップS35において、制御部180は、ステップS34において受信した評価結果を端末装置10のディスプレイ141に表示させる。具体的には、例えば、制御部180は、提示制御部186(通話相手受信音声状態提示部1862)により、受信部1823が受信した評価結果(算出した統合スコア)に基づいて、端末装置10のディスプレイ141に評価結果を表示させる。
【0118】
ステップS36の動作は
図8のステップS26と同一である。
【0119】
ステップS37において、制御部180は、端末装置10から通話切断の指示があったか、あるいは、通話相手の端末装置10が通話切断を行ったか否かを判定する。そして、まだ通話中であれば(ステップS37においてNO)ステップS23の処理に戻り、通話切断があったと判定したら(ステップS37においてYES)、通話切断処理を行い、
図9に示すプログラムを終了する。
【0120】
図10は、端末装置10及びサーバ20の動作の一例を表すシーケンス図である。
図10は、ユーザが2台以上の端末装置10を用いて相互通話を行っている際に端末装置10が発話した入力音声に基づいて、サーバ20の音声パワー分布計算部2034及び音声パワー判定部2035が計算及び判定動作を行い、端末装置10の提示制御部186を介してユーザに通知する際の動作の例を表すフローチャートである。なお、
図10において端末装置10を第1の端末装置10と第2の端末装置10として表しているが、これは単に端末装置10を区別するための表記である。また、2台以上の端末装置10による通話動作においても
図10と同様の動作が行われる。
【0121】
ステップS41において、第1の端末装置10の制御部180は、第2の端末装置10宛に発呼通信を行うためにサーバ20に発呼動作を行う。具体的には、例えば、制御部180は、サーバ20に対して、通信制御部182により第2の端末装置10宛に発呼動作を行う。なお、
図10のフローチャートにおいては、第1の端末装置10が発呼動作を行い、第2の端末装置10が着呼動作を行う例を示していたが、第2の端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、
図10のフローチャートに示す動作においても、第1の端末装置10が発呼動作を行うか第2の端末装置10が発呼動作を行うかは任意である。
【0122】
ステップS42において、サーバ20は、ステップS41で受信した発呼動作に係る第2の端末装置10に対して呼び出し動作を行う。具体的には、例えば、サーバ20の制御部203は、送受信部2031及び通信制御部2033により、第2の端末装置10に対して呼び出し動作を行う。送受信部2031及び通信制御部2033による呼び出し動作については既知の動作であるので、これ以上の説明は行わない。
【0123】
ステップS43において、ステップS42における呼び出しの対象である第2の端末装置10の制御部180は、ステップS42における呼び出しに対して着呼動作をする。具体的には、例えば、制御部180は、通信制御部182により端末装置10からの着呼動作を行う。これにより、ステップS44において、第1の端末装置10と第2の端末装置10との間で通話が成立する。
【0124】
ステップS44及びS45において、第1の端末装置10及び第2の端末装置10の制御部180は、それぞれの端末装置10に入力された入力音声を入力音声データに変換して、通話先である端末装置10に送信し、また、通話先である端末装置10から送信された音声データを受信し、音声に変換して出力する。具体的には、例えば、第1の端末装置10及び第2の端末装置10の制御部180は、音声入力部183により入力音声を受け入れ、通信制御部182により音声データに変換して、通話先である端末装置10に送信し、また、通話先である端末装置10から送信され、サーバ20の送受信部2031を介してた送信された音声データを通信制御部182により受信し、この通信制御部182により音声に変換して音声出力部184及びスピーカ142を介して音声として出力する。
【0125】
ステップS47において、第1の端末装置の制御部180は、第1の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。具体的には、例えば、制御部180は、音声判定部185の音声パワー検出部1851により、第1の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。
【0126】
同様に、ステップS48において、第2の端末装置の制御部180は、第2の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。具体的には、例えば、制御部180は、音声判定部185の音声パワー検出部1851により、第2の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。
【0127】
ステップS49において、サーバ20は、ステップS35、S36で送出されてきた、第1の端末装置10及び第2の端末装置10のユーザから発声された音声の音声パワー検出結果に基づいて、これら音声パワーの平均値及び分散を計算する。具体的には、例えば、制御部203は、音声パワー分布計算部2034により、第1の端末装置10及び第2の端末装置10のユーザから発声された音声の音声パワー検出結果に基づいて、これら音声パワーの平均値及び分散を算出する。
【0128】
次いで、ステップS50において、サーバ20は、ステップS49で算出した音声パワーの平均値と音声パワー検出値との間のずれが所定値以上であるか否かを判定する。具体的には、例えば、制御部203は、音声パワー判定部2035により、ステップS49において音声パワー分布計算部2034が計算した音声パワーの平均値に基づいて、第1の端末装置10及び/または第2の端末装置10が検出した音声パワーがこの平均値との間に所定値以上のずれがあるか否かを判定する。なお、ステップS50において、サーバ20の音声パワー判定部2035は、ステップS49で音声パワー分布計算部2034が計算した音声パワーの平均値と分散に基づいて音声パワー検出値の標準偏差を求め、その標準偏差が所定値以上であるか否かで判定してもよい。
【0129】
そして、ステップS51において、サーバ20は、ステップS37で所定値以上のずれがあると判定した音声パワー検出値を送出した第1の端末装置10及び/または第2の端末装置10に対して、所定値以上のずれがあることを通知する。具体的には、例えば、制御部203は、音声パワー判定部2035、送受信部2031及び通信制御部2033により、ステップS50で所定値以上のずれがあると判定した音声パワー検出値を送出した第1の端末装置10及び/または第2の端末装置10に対して、所定値以上のずれがあることを通知する。
図10に示す例では、第1の端末装置10において所定値以上のずれがあると判定されており、従って、音声パワー判定部2035、送受信部2031及び通信制御部2033は、第1の端末装置10に対して通知を行う。ここで、所定値以上のずれがあると判定された場合、音声パワーが平均値より所定値以上大きい、あるいは所定値以上小さい場合がありうるので、音声パワー判定部2035は、平均値より大きい、または平均値より小さいという情報も第1の端末装置10及び/または第2の端末装置10に対して通知する。
【0130】
ステップS52において、第1の端末装置10は、ステップS51で行われた通知を受信し、受信した通知に基づいてずれがあることを表示する。具体的には、例えば、制御部180は、通信制御部182により通知を受信し、通信制御部182はこの通知を音声パワー状態提示部1863に送出し、音声パワー状態提示部1863は、第1の端末装置10のディスプレイ141に通知があったことを表示する。
【0131】
なお、
図10では、2台の端末装置10(第1の端末装置10及び第2の端末装置10)による通話の例を示しているが、サーバ20の音声パワー分布計算部2034が音声パワーの平均値及び分散を算出し、音声パワー判定部2035がこの平均値とのズレを判定していることから、
図10に示す例は、3台以上の端末装置10による通話の際において、より所望の効果を奏することができる。
【0132】
<4 画面例>
以下、端末装置10から出力される画面の一例を、
図11~
図13を参照して説明する。
【0133】
図11は、入力音声、すなわち、端末装置10のユーザが発話した音声についての状態、及び、受信(受話)音声、すなわち、端末装置10が相互通話中である特定の端末装置10のユーザが発音し、端末装置10において受信した音声についての状態を端末装置10のディスプレイ141に表示した画面である。
図11に示す端末装置10の表示画面は、その端末装置10を使って通話しているユーザの端末装置10の表示画面であって、以降、
図11の端末装置10を使用しているユーザを発話者と呼ぶ。また、発話者が相互通話を行っている(複数の)通話相手を受話者と呼ぶ。
図11(及び
図12)において、発話者のユーザ名をTanaka、受話者のユーザ名をそれぞれSato、Yamadaとする。つまり、
図11においては、ユーザ名Tanakaとユーザ名Sato、ユーザ名Yamadaの3名により同時音声通話をしている。
【0134】
図11に示すように、端末装置10のディスプレイ141には、ユーザ毎のアイコン900~902が表示されている。なお、
図11(及び
図12~
図15)に図示した例において、アイコン900~902は絵文字により表示しているが、アイコン900~902の表示形態に特段の限定はなく、例えば、通話をしているユーザ(発話者、受話者)それぞれの画像であってもよいし、単に発話者、受話者のユーザ名を表示するのみであってもよい。そして、このアイコン900~902の下部には、音声状態を判定した結果であるスコアをバー903により表示している。なお、バーは、アイコンの一態様であり、インジケーターと称してもよい。
図11に示す例では、スコアが0、すなわち良好であればバー903が3つ、スコアが-1、すなわちやや悪いであればバー2つ、スコアが-2、すなわち悪いであればバーが1つ表示されている。また、スコアに応じてバーが表示される色も変えて表示されている。
図11は図示の関係上白黒で表示しているが、一例として、
図11で白抜きの長方形で示しているバーは緑色、内部が斜線のハッチングがされた長方形で示しているバーは黄色、黒く塗りつぶした長方形で示しているバーは赤色に表示されている。
【0135】
図11(a)に示したアイコン900~902では、発話者Tanakaの音声状態は良好であり、発話者Satoの音声状態はやや悪い、発話者Yamadaの音声状態は悪いと判定されている。また、
図11(b)に示したアイコン900~902では、発話者Tanaka、発話者Sato、及び発話者Yamadaの音声状態はいずれも悪いと判定されている。
【0136】
次に、
図12は、
図11において表示された音声状態の詳細な表示を行った画面である。
【0137】
端末装置10のユーザが、ディスプレイ141のアイコン900をタップすると、
図12の上部に示すような詳細表示がディスプレイ141に表示される。
図12(a)に示すアイコン900は発話者のアイコンであるので、詳細表示には、入力音声の統合スコア、及び、その根拠となる入力音声パワー等の判定結果が表示される。
【0138】
同様に、端末装置10のユーザが、ディスプレイ141のアイコン902をタップすると、
図12(b)に示すような詳細表示がディスプレイ141に表示される。
図12(b)に示すアイコン902は受話者のアイコンであるので、詳細表示には、受話音声のスコア、及び、その根拠となるパケットロス率が表示される。
【0139】
さらに、
図13は、端末装置10のユーザが発話した入力音声の音声パワーが、現在相互通話中のユーザが発話した入力音声の音声パワーの平均値との間に所定値以上のずれがあると判定されたとき、判定結果をこの端末装置10のディスプレイ141に表示した画面である。
図13に示す例では、端末装置10のユーザの入力音声の音声パワーが平均値より所定値以下である場合、ディスプレイ141に、判定結果を記載したダイアログ1100が表示される。
【0140】
図13ではユーザの入力音声パワーのバラツキの判定結果を表示しているが、判定結果に基づいて解決策を提示することも可能である(例えば、小さく話してください、大きく話してください)。
【0141】
<5 実施形態の効果>
以上詳細に説明したように、本実施形態のシステム1によれば、端末装置10の音声判定部185の受信音声評価部1855により、この端末装置10が受信した受信音声データの状態を評価し、この評価結果である第1の評価結果を、通話相手である他の端末装置10に返信しているので、他の端末装置10のユーザは、この第1の評価結果に基づいて、自身の入力音声が通話相手にどのように聞こえているかを知ることができる。従って、本実施形態のシステム1によれば、通話相手の音声の状態を容易に把握することが可能となる。
【0142】
また、本実施形態のシステム1によれば、端末装置10のユーザが発話した入力音声の品質の評価を音声判定部185で行い、この品質の評価結果である第3の評価結果をユーザに提示しているので、通話相手の音声の状態とともに、自身の入力音声の状態を同時に把握することができる。
【0143】
さらに、本実施形態のシステム1によれば、相互通話中のユーザの入力音声パワーのバラツキをユーザが把握することができる。
【0144】
すなわち、Web会議などの複数人の通話システムにおいて、通話参加者の入力音声パワーのバラツキが大きい場合、通話参加者全体の平均の入力音声パワーよりも、小さすぎる参加者の音声は聞こえにくく、通話参加者全体の平均の入力音声パワーよりも、大きすぎる参加者の音声はうるさく耳障りとなる。
【0145】
このようなバラツキが発生している時、受信側の音声出力のボリューム調整が困難になる。より詳細には、小さすぎる参加者の音声を聞きやすくするためボリュームを上げると、大きすぎる参加者の音声がさらに大きくなり余計に耳障りになる。一方、大きすぎる参加者の音声を聞きやすくするためボリュームを下げると、小さすぎる参加者の音声がさらに小さくなり余計に聞こえにくくなる。従って、音声を発話するユーザが自身の音声のパワーが通話者全体の音声パワーの平均よりも小さすぎる、もしくは、大きすぎることを把握し、ユーザが自身の発話音声のパワーを調整して平均に近づけることにより、このような入力音声パワーのバラツキを解消することが重要である。
【0146】
相互通話中のユーザの入力音声パワーのバラツキに関連する技術として、国際公開第2008/011901号に開示された技術がある。この技術では、少なくとも1つの音声端末は、それぞれの受信チャンネルによって提供される音声データがグループの個別の音声信号に復号されるように、第1のグループに関連付けられる個別音声信号を重畳して集約音声信号を形成し、集約音声信号を第1集約音声データに符号化する。さらに、少なくとも2つの音声端末は、第2グループに関連付けられており、第1の集約音声データは、第1の集約音声データの出力毎に、第2のグループに対応付けられた音声端末に供給される。
【0147】
しかしながら、複数のユーザが音声通話を行っている状況においては、各ユーザの入力音声レベルが閾値を上回っている場合でも、各ユーザの入力音声レベルが通話に参加している複数ユーザの間でバラついていると、聞きづらさにつながる。
【0148】
上述した技術においても、通話に参加する複数のユーザの入力音声レベルのバラツキに対してのフィードバックは考慮されていない。
【0149】
一方、本実施形態のシステム1によれば、複数のユーザの入力音声レベルのバラツキ、すなわち、端末装置10の入力音声パワーの検出値の平均値及び分散を音声パワー分布計算部2034が計算し、計算された平均値に対して所定値以上のずれがあるか否かを音声パワー判定部2035が判定し、この判定結果である第4の判定結果を端末装置10のユーザ(発話者)に提示しているので、第4の判定結果を提示されたユーザは、入力音声パワーのバラツキを把握することができる。
【0150】
<6 付記>
なお、上記した実施形態は本開示を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。
【0151】
一例として、端末装置10が音声判定部185のうち受信音声評価部1855のみを有する構成も可能である。また、受信音声評価部1855及び通話相手受信音声状態提示部1862のみを有する構成も可能である。さらに、サーバ20が音声パワー分布計算部2034及び音声パワー判定部2035を有しない構成も可能である。この場合、端末装置10は音声パワー状態提示部1863を有さない。
【0152】
また、上記した実施形態においては、端末装置10のユーザが発話した入力音声について品質評価、すなわち、音声パワー、SN比及びマイク特性の各観点に沿って評価を行っていたが、通話相手である他の端末装置10からの受信音声について、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853による検出及び評価を行い、入力音声評価部1854により統合スコアを算出することで評価を行ってもよい。そして、入力音声評価部1854による品質評価結果は、パケットロス率に基づく受信音声評価部1855の評価結果とともに送信部1822を介して通話相手である特定の端末装置10に送出される。入力音声評価部1854による品質評価結果にも、受信音声評価部1855の評価結果と同様に、端末装置10を識別するための識別子が付されて送出される。
【0153】
図14は、発話者の入力音声を受話者の端末装置10において品質評価を行い、この結果を発話者の端末装置10が受信してそのディスプレイ141に表示した画面である。
【0154】
図14に示す画面は
図11に示す画面と同様であるが、発話者の端末装置10において発話者の入力音声についての品質評価は行っていないので、端末装置10のディスプレイ141には、受話者についてのアイコン901、902及びバー903が表示されている。また、
図14に示した画面例ではバー903を表示しているが、アイコン901、902のみ表示してもよい。これは、
図11~
図12の画面例においても同様である。また、
図14では、発話者のアイコン900が表示されていない例を示しているが、発話者のアイコン900が表示されてもよい。
【0155】
さらに、
図15は、
図12と同様に、
図13において表示された音声状態の詳細な表示を行った画面である。
図15において、受話者のアイコン(
図14ではアイコン902)をタップすると、発話者の入力音声が受話者の端末装置10で受信された際のスコア、及び、その根拠となるパケットロス率、さらには、品質評価の結果である受話者の入力音声の統合スコア、及び、その根拠となる入力音声パワー等の判定結果が表示される。
【0156】
ここで、3人以上のユーザによる同時通話を行っている場合、受信音声に関する評価結果は、通話相手である複数の端末装置10から別々に送出される。従って、通話相手受信音声状態提示部1862により評価結果を提示する際に、通話相手である端末装置10から送信された評価結果を全て提示してもよいし、評価結果に基づいて少なくとも1つの端末装置10から送信された評価結果を選択して提示してもよい。例えば、受信音声の評価が低い通信相手から送信されてきた評価結果については破棄するようにしてもよい。また、一例として、悪い評価結果を受信したということは、自分の会話が聞き取りづらい通話相手がいるということであるから、「やや悪い」「悪い」という評価結果のみ提示してもよい。また、品質評価結果についても、どの端末装置10による評価結果であるかを、例えばユーザ名とともに提示してもよい。さらに、受信音声の評価が高い通信相手から送信されてきた評価結果についても表示してもよい。加えて、相互通話中のユーザが5人いるようなときは、受信音声の評価が最高のユーザのユーザ名や、受信音声の評価が最低のユーザのユーザ名を表示してもよいし、評価の順序(ランキング)を表示してもよい。
【0157】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0158】
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
【0159】
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
【0160】
以上の各実施形態で説明した事項を以下に付記する。
【0161】
(付記1)
プロセッサ(19)とメモリ(15)とを備え、他の端末装置(10)と音声データの送受信が可能な端末装置(10)を動作させるためのプログラム(171)であって、プログラム(171)は、プロセッサ(19)に、他の端末装置(10)から送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他の端末装置(10)に返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行させるプログラム。
(付記2)
他の端末装置(10)から送信される、端末装置(10)から送信されて他の端末装置(10)で受信された音声データの状態を評価した第2の評価結果を受信するステップ(S33)と、受信した第2の評価結果をユーザに提示するステップ(S35)とをさらに実行させる付記1に記載のプログラム。
(付記3)
第2の評価結果に応じたアイコン(900~902)をユーザに提示するステップ(S35)をさらに実行させる付記2に記載のプログラム。
(付記4)
アイコン(900~902)をユーザに提示するステップ(S35)では、第2の評価結果に応じて、他の端末装置(10)のユーザに関する画像の表示態様を変化させる付記3に記載のプログラム。
(付記5)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果に応じた音を発生させる付記2に記載のプログラム。
(付記6)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果が所定状態よりも良好である場合、第2の評価結果を提示しない付記2~5のいずれか一項に記載のプログラム。
(付記7)
第2の評価結果には、音声データを受信した他の端末装置(10)を特定する識別子が付されており、第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果を、他の端末装置(10)が識別可能にユーザに提示する付記2~6のいずれか一項に記載のプログラム。
(付記8)
第2の評価結果をユーザに提示するステップ(S35)では、他の端末装置(10)のユーザの画像と関連付けて提示する付記7に記載のプログラム。
(付記9)
音声データを受信するステップ(S23)では、符号化されてパケットに変換されている音声データを受信してこの音声データを復号化し。第1の評価結果として出力するステップ(S24)では、復号化の際のパケットロス率に基づいて音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記10)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果として他の端末装置(10)との通信におけるパケットロス率をユーザに提示する付記9に記載のプログラム。
(付記11)
第1の評価結果として出力するステップ(S24)では、音声区間検出を利用し、音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記12)
第1の評価結果として出力するステップ(S24)では、音声データの品質に基づいて音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記13)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果としてユーザが発した音声に基づく音声データの品質をユーザに提示する付記12に記載のプログラム。
(付記14)
第2の評価結果を受信するステップ(S33)では、複数の他の端末装置(10)から複数の第2の評価結果を受信し、第2の評価結果をユーザに提示するステップ(S26)では、少なくとも1つ以外の第2の評価結果を除去する付記13に記載のプログラム。
(付記15)
音声データを受信するステップ(S23)では、他の端末装置(10)を特定する第1識別子が付与された音声データを受信し、第1の評価結果として出力するステップ(S24)では、第1の評価結果に端末装置(10)を特定する第2識別子を付し、第1の評価結果を他の端末装置(10)に返信するステップ(S25)では、第2識別子が付された第1の評価結果を、第1識別子により特定される他の端末装置(10)を送信先として送信する付記1~14のいずれか一項に記載のプログラム。
(付記16)
端末装置(10)のユーザから発せられた音声に基づく音声データの品質を評価するステップ(S17)と、端末装置(10)のユーザから発せられた音声に基づく音声データの品質の評価結果である第3の評価結果をユーザに提示するステップ(S18)とをさらに実行させる付記1~15のいずれか一項に記載のプログラム。
(付記17)
音声データの品質を評価するステップ(S17)では、端末装置(10)のユーザから発せられた音声の特性である音声のパワー、SN比、マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせに基づいて音声データの品質を評価する付記16に記載のプログラム。
(付記18)
音声データの品質を評価するステップ(S17)では、端末装置(10)のユーザから音声データが入力される毎に特性を検出し、音声データの入力が途絶えたら最後に検出した特性の値を保持する付記17に記載のプログラム。
(付記19)
音声データの品質を評価するステップ(S17)では、特性の検出結果に基づいてスコアを算出することで音声データの品質を評価する付記17または18に記載のプログラム。
(付記20)
第3の評価結果を端末装置(10)のユーザに提示するステップ(S18)では、端末装置(10)のユーザから音声データが入力されていない状態では第3の評価結果を提示しない付記16~19のいずれか一項に記載のプログラム。
(付記21)
第3の評価結果を端末装置(10)のユーザに提示するステップ(S18)では、第3の評価結果として音声のパワー、SN比、マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせを端末装置(10)のユーザに提示する付記17~19のいずれか一項に記載のプログラム。
(付記22)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせるサーバ(20)を動作させるためのプログラム(2021)であって、プログラム(2021)は、プロセッサ(29)に、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行させるプログラム。
(付記23)
音声パワーを検出するステップ(S47、S48)では、端末装置(10)から音声が入力される毎に音声パワーの検出を行い、音声の入力が途絶えたら最後の検出値を保持する付記22に記載のプログラム。
(付記24)
音声パワーの平均値及び分散を算出するステップ(S49)では、秒単位での間隔を置いて音声パワーの平均値及び分散を算出する付記22または23に記載のプログラム。
(付記25)
音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)では、秒単位での間隔を置いて判定する付記22~24のいずれか一項に記載のプログラム。
(付記26)
音声データには、音声データを送出した端末装置(10)を特定する識別子が付されており、音声パワーの平均値及び分散を算出するステップ(S49)では、識別子に基づいて現在通話をしている発話者が変更されたことを検出したら、音声パワーの平均値及び分散を算出し直す付記22~25のいずれか一項に記載のプログラム。
(付記27)
第4の判定結果を提示するステップ(S51)では、通信回線が接続されているが発話をしていない発話者がいたら、第4の判定結果を提示しない付記22~26のいずれか一項に記載のプログラム。
(付記28)
第4の判定結果を提示するステップ(S51)では、第4の判定結果とともに解決策を提示する付記22~27のいずれか一項に記載のプログラム。
(付記29)
プロセッサ(19)とメモリ(15)とを備え、他の装置(10)と音声データの送受信が可能な装置(10)であって、プロセッサ(19)は、他の装置(10)から送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他の装置(10)に返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行する装置(10)。
(付記30)
プロセッサ(19)とメモリ(15)とを備え、他のコンピュータ(10)と音声データの送受信が可能なコンピュータ(10)により実行される方法であって、プロセッサ(19)は、他のコンピュータから送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他のコンピュータに返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行する方法。
(付記31)
端末装置(10)と他の端末装置(10)との間での音声データの送受信が可能なシステム(1)であって、端末装置(10)は、他の端末装置(10)から送信された音声データを受信する手段(1823)と、受信した音声データの状態を評価して第1の評価結果として出力する手段(1855)と、第1の評価結果を他の端末装置(10)に返信する手段(1822)と、受信した音声データに基づく音声をユーザに出力する手段(184)とを具備するシステム(1)。
(付記32)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせる装置(20)であって、プロセッサ(29)は、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行する装置(10)。
(付記33)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせるコンピュータ(20)により実行される方法であって、プロセッサ(29)は、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行する方法。
(付記34)
複数の端末装置(10)と、これら複数の端末装置(10)の間で音声データの送受信をさせるサーバ(20)とを有するシステム(1)であって、サーバ(20)は、端末装置(10)毎の入力音声の音声パワーを検出する手段(2031、2033)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出する手段(2034)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定する手段(2035)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示する手段(2031、2033)とを具備するシステム。
【符号の説明】
【0162】
1…システム、10…端末装置、20…サーバ、141…ディスプレイ、142…スピーカ、170…記憶部、171…アプリケーション、172…検出結果データ、173…評価テーブル、180…制御部、182…通信制御部、183…音声入力部、184…音声出力部、185…音声判定部、186…提示制御部、202…記憶部、203…制御部、900~902…アイコン、903…バー、1100…ダイアログ、1821…符号化処理部、1822…送信部、1823…受信部、1824…復号化処理部、1851…音声パワー検出部、1852…SN比検出部、1853…マイク特性検出部、1854…入力音声評価部、1855…受信音声評価部、1861…入力音声状態提示部、1862…通話相手受信音声状態提示部、1863…音声パワー状態提示部、1864…入力音声評価部、2021…アプリケーション、2022…計算結果データ、2031…送受信部、2032…記憶制御部、2033…通信制御部、2034…音声パワー分布計算部、2035…音声パワー判定部