特許第6368055号(P6368055)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

特許6368055ビデオチャットにおける録音方法、および端末
<>
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000002
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000003
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000004
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000005
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000006
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000007
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000008
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000009
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000010
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000011
  • 特許6368055-ビデオチャットにおける録音方法、および端末 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6368055
(24)【登録日】2018年7月13日
(45)【発行日】2018年8月1日
(54)【発明の名称】ビデオチャットにおける録音方法、および端末
(51)【国際特許分類】
   H04N 7/14 20060101AFI20180723BHJP
   H04M 1/00 20060101ALI20180723BHJP
【FI】
   H04N7/14 110
   H04M1/00 R
【請求項の数】16
【全頁数】25
(21)【出願番号】特願2017-549576(P2017-549576)
(86)(22)【出願日】2015年12月14日
(65)【公表番号】特表2018-506243(P2018-506243A)
(43)【公表日】2018年3月1日
(86)【国際出願番号】CN2015097250
(87)【国際公開番号】WO2016095773
(87)【国際公開日】20160623
【審査請求日】2017年7月20日
(31)【優先権主張番号】201410779109.X
(32)【優先日】2014年12月15日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100140534
【弁理士】
【氏名又は名称】木内 敬二
(72)【発明者】
【氏名】康 俊▲騰▼
【審査官】 後藤 嘉宏
(56)【参考文献】
【文献】 米国特許出願公開第2004/0257432(US,A1)
【文献】 特開2007−329753(JP,A)
【文献】 米国特許出願公開第2010/0254543(US,A1)
【文献】 国際公開第2014/125835(WO,A1)
【文献】 米国特許出願公開第2008/0259731(US,A1)
【文献】 特表平08−505745(JP,A)
【文献】 特開2013−048412(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14−7/15
H04M 1/00
(57)【特許請求の範囲】
【請求項1】
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップであって、前記ビデオ通話画面が、前記第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、ステップと、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップであって、前記ビーム構成情報が、ビームフォーミング技術の入力パラメータである、ステップと、
前記第1の端末が対象画角領域を判定した場合、前記第1の端末によって、前記対象画角領域に対応するビーム構成情報を前記第2の端末に送信するステップであって、前記対象画角領域が、前記複数の画角領域のうちの少なくとも1つを含む、ステップと、
前記第2の端末によって、前記第1の端末が送信し、前記対象画角領域に対応する前記ビーム構成情報を受信するステップと、
前記第2の端末によって、前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップであって、その結果、前記対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、ステップと、
前記第2の端末によって、前記処理音声信号を前記第1の端末に送信するステップと、
を含む、ビデオチャットにおける録音方法。
【請求項2】
前記第2の端末が、少なくとも2つのマイクロホンを備え、
前記第2の端末によって、前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行う、前記ステップが、
前記第2の端末によって、前記ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するステップであって、その結果、前記第2の端末において前記マイクロホンが集音した前記音声信号を合成した後、前記対象画角領域の前記音声信号のみが存在する、ステップ、
を特に含む、請求項1に記載の方法。
【請求項3】
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割する、前記ステップが、
前記第1の端末によって、前記ビデオ通話画面における前記参加者の場所に従って、前記ビデオ通話画面を複数のエリアへと分割するステップであって、その結果、各参加者が、1つのエリアを占有する、ステップ、または
前記第1の端末によって、前記ビデオ通話画面を複数の画角領域へと均等に分割するステップ
を含む、請求項1に記載の方法。
【請求項4】
前記ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する、前記ステップが、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の前記場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するステップ、または
前記第1の端末によって、前記ビデオ通話画面の各画角領域の前記場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するステップ
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップであって、前記ビデオ通話画面が、前記第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、ステップと、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップであって、前記ビーム構成情報が、ビームフォーミング技術の入力パラメータである、ステップと、
前記第1の端末が対象画角領域を判定した場合、前記第1の端末によって、前記対象画角領域に対応するビーム構成情報を前記第2の端末に送信するステップであって、その結果、前記第2の端末が、前記対象画角領域に対応する前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、前記対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、前記対象画角領域が、前記複数の画角領域のうちの少なくとも1つを含む、ステップと、
を含む、ビデオチャットにおける録音方法。
【請求項6】
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割する、前記ステップが、
前記第1の端末によって、前記ビデオ通話画面における前記参加者の場所に従って、前記ビデオ通話画面を複数のエリアへと分割するステップであって、その結果、各参加者が、1つのエリアを占有する、ステップ、または
前記第1の端末によって、前記ビデオ通話画面を複数の画角領域へと均等に分割するステップ
を含む、請求項5に記載の方法。
【請求項7】
前記ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する、前記ステップが、
前記第1の端末によって、前記ビデオ通話画面の各画角領域の前記場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するステップ、または
前記第1の端末によって、前記ビデオ通話画面の各画角領域の前記場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するステップ
を含む、請求項5または6に記載の方法。
【請求項8】
前記第1の端末によって、対象画角領域を判定する、前記ステップ
前記第1の端末によって、ユーザが前記複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信し、かつ前記選択した画角領域が前記対象画角領域であると判定する、ステップ
特に含む、請求項5から7のいずれか一項に記載の方法。
【請求項9】
第2の端末によって、第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するステップであって、前記ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、前記ビデオ通話画面が、前記第1の端末上に表示され、かつ前記第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、前記対象画角領域が、前記ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、ステップと、
前記第2の端末によって、前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップであって、その結果、前記対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、ステップと、
前記第2の端末によって、前記処理音声信号を前記第1の端末に送信するステップと、
を含む、ビデオチャットにおける録音方法。
【請求項10】
前記ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
前記第2の端末が、少なくとも2つのマイクロホンを備え、
前記第2の端末によって、前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行う、前記ステップが、
前記第2の端末によって、前記ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するステップであって、その結果、前記第2の端末において前記マイクロホンが集音した前記音声信号を合成した後、前記対象画角領域の前記音声信号のみが存在する、ステップ、
を特に含む、請求項9に記載の方法。
【請求項11】
第1の端末として使用され、ビデオチャットにおいて録音するように構成される端末であって、
ビデオ通話画面を複数の画角領域へと分割するように構成される分割モジュールであって、前記ビデオ通話画面が、前記第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、分割モジュールと、
前記ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するように構成される、構成判定モジュールであって、前記ビーム構成情報が、ビームフォーミング技術の入力パラメータである、構成判定モジュールと、
対象画角領域が判定された場合、前記対象画角領域に対応するビーム構成情報を前記第2の端末に送信するように構成される構成送信モジュールであって、その結果、前記第2の端末が、前記対象画角領域に対応する前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、前記対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、前記対象画角領域が、前記複数の画角領域のうちの少なくとも1つを含む、構成送信モジュールと、
を備える、端末。
【請求項12】
前記分割モジュールが、前記ビデオ通話画面における前記参加者の場所に従って、前記ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有する、または前記ビデオ通話画面を複数の画角領域へと均等に分割するように特に構成される、請求項11に記載の端末。
【請求項13】
前記ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
前記構成判定モジュールが、前記ビデオ通話画面の各画角領域の前記場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算する、または前記ビデオ通話画面の各画角領域の前記場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するように特に構成される、請求項11または12に記載の端末。
【請求項14】
前記端末が、
ユーザが前記複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信するように構成される画角領域受信モジュールと、
前記画角領域受信モジュールが受信した前記情報に従って、前記選択した画角領域が前記対象画角領域であると判定するように構成される画角領域判定モジュールと、
をさらに備える、請求項11から13のいずれか一項に記載の端末。
【請求項15】
第2の端末として使用され、ビデオチャットにおいて録音するように構成される端末であって、
第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するように構成される構成受信モジュールであって、前記ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、前記ビデオ通話画面が、前記第1の端末上に表示され、かつ前記第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、前記対象画角領域が、前記ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、構成受信モジュールと、
前記ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うように構成される処理モジュールであって、その結果、前記対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、処理モジュールと、
前記処理モジュールが処理した前記音声信号を前記第1の端末に送信するように構成される送信モジュールと、
を備える、端末。
【請求項16】
前記ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
前記端末が、少なくとも2つのマイクロホンを備え、
前記処理モジュールが、前記ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するように特に構成され、その結果、前記第2の端末において前記マイクロホンが集音した前記音声信号を合成した後、前記対象画角領域の前記音声信号のみが存在して、前記処理音声信号を得る、請求項15に記載の端末。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2014年12月15日に中国専利局に出願された「METHOD FOR RECORDING IN VIDEO CHAT,AND TERMINAL」と題する中国特許出願第201410779109.X号の優先権を主張するものであり、参照により、この出願の内容全体を本願明細書に援用する。
【0002】
本発明は、通信技術の分野に関し、詳細には、ビデオチャットにおける録音方法、および端末に関する。
【背景技術】
【0003】
ネットワークの発達が、通信方式の変化をもたらしている。従来の通信方式では、もはや人々の要求を満足させることはできない。E−mailからビデオ電話へと、ネットワークは、通信速度を向上させ、通信コストを低下させる。また、ブロードバンドネットワークの普及により、人々のネットワーク通信に対する要求はさらに高まっている。ブロードバンドネットワークの発達によって、従来のネットワーク通信の質および形態が変わり、その結果、通信は、もはや、普通の言語およびテキストに制限されるものではなくなった。ビデオチャットを使用して、互いに遠方に住まう友人が顔を合わせることが可能になったり、ビデオチャットを使用して、多者間会議などを開催したりするのが一般的になった。
【0004】
ビデオチャットでは、複数の端末が存在する。音を拾い(または録音とも呼ばれる)、音声を送り出している最中の端末を、第2の端末と呼ぶ。第2の端末が送信した音を受信するべく待機している最中の端末を、第1の端末と呼ぶ。ビデオチャットのシナリオ、特に、多者間会議におけるビデオチャットのシナリオでは、第2の端末の前には、ビデオチャットに参加する複数の人々がいる場合がある。第2の端末の前にいる全員の音声を拾うために、第2の端末では、通常、無指向性での録音が使用される、つまり、0〜360度の音がマイクロホンに入り、そして、ほとんど音に変化なく出力される。
【0005】
しかしながら、実際のアプリケーションでは、無指向性での録音を使用する場合、一方では、第2の端末は、過度のバックグラウンドノイズを拾い、他方では、第1の端末の前にいるビデオチャットの参加者が、第2の端末の前にいる複数のビデオチャット参加者のうちの1人とのチャットを必要とする場合、第2の端末は、他の人々から発せられるノイズをも拾い、このことは、ビデオチャットの音声品質に対して、深刻な影響を与える。
【発明の概要】
【課題を解決するための手段】
【0006】
本発明の各実施形態は、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善するための、ビデオチャットにおける録音方法、および端末を提供する。
【0007】
本発明の実施形態の第1の実施態様は、
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップであって、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、ステップと、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータである、ステップと、
第1の端末が対象画角領域を判定した場合、第1の端末によって、対象画角領域に対応するビーム構成情報を第2の端末に送信するステップであって、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む、ステップと、
第2の端末によって、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信するステップと、
第2の端末によって、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップであって、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、ステップと、
第2の端末によって、処理音声信号を第1の端末に送信するステップと、
を含む、ビデオチャットにおける録音方法を提供する。
【0008】
本発明の実施形態の第1の実施態様に関連して、本発明の実施形態の第1の実施態様の第1の実施方式では、第2の端末は、少なくとも2つのマイクロホンを備え、
第2の端末によって、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップが、
第2の端末によって、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するステップであって、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在する、ステップ、
を特に含む。
【0009】
本発明の実施形態の第1の実施態様に関連して、本発明の実施形態の第1の実施態様の第2の実施方式では、第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップが、
第1の端末によって、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割するステップであって、その結果、各参加者が、1つのエリアを占有する、ステップ、または
第1の端末によって、ビデオ通話画面を複数の画角領域へと均等に分割するステップ
を含む。
【0010】
本発明の実施形態の第1の実施態様から第1の実施態様の第2の実施方式に関連して、本発明の実施形態の第1の実施態様の第3の実施方式では、ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップが、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するステップ、または
第1の端末によって、ビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するステップ
を含む。
【0011】
本発明の実施形態の第2の実施態様は、
第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップであって、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、ステップと、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータである、ステップと、
第1の端末が対象画角領域を判定した場合、第1の端末によって、対象画角領域に対応するビーム構成情報を第2の端末に送信するステップであって、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む、ステップと、
を含む、ビデオチャットにおける録音方法を提供する。
【0012】
本発明の実施形態の第2の実施態様に関連して、本発明の実施形態の第2の実施態様の第1の実施方式では、第1の端末によって、ビデオ通話画面を複数の画角領域へと分割するステップが、
第1の端末によって、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割するステップであって、その結果、各参加者が、1つのエリアを占有する、ステップ、または
第1の端末によって、ビデオ通話画面を複数の画角領域へと均等に分割するステップ
を含む。
【0013】
本発明の実施形態の第2の実施態様または第2の実施態様の第1の実施方式に関連して、本発明の実施形態の第2の実施態様の第2の実施方式では、ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップが、
第1の端末によって、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するステップ、または
第1の端末によって、ビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するステップ
を含む。
【0014】
本発明の実施形態の第2の実施態様から第2の実施態様の第2の実施方式に関連して、本発明の実施形態の第2の実施態様の第3の実施方式では、第1の端末によって、対象画角領域を判定するステップが、
第1の端末によって、ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する、ステップ
特に含む。
【0015】
本発明の実施形態の第3の実施態様は、
第2の端末によって、第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するステップであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、対象画角領域が、ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、ステップと、
第2の端末によって、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップであって、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、ステップと、
第2の端末によって、処理音声信号を第1の端末に送信するステップと、
を含む、ビデオチャットにおける録音方法を提供する。
【0016】
本発明の実施形態の第3の実施態様に関連して、本発明の実施形態の第3の実施態様の第1の実施方式では、ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
第2の端末が、少なくとも2つのマイクロホンを備え、
第2の端末によって、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップが、
第2の端末によって、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するステップであって、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在する、ステップ、
を含む。
【0017】
本発明の実施形態の第4の実施態様は、第1の端末として使用され、ビデオチャットにおいて録音するように構成される端末であって、
ビデオ通話画面を複数の画角領域へと分割するように構成される分割モジュールであって、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、分割モジュールと、
ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するように構成される、構成判定モジュールであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータである、構成判定モジュールと、
対象画角領域が判定された場合、対象画角領域に対応するビーム構成情報を第2の端末に送信するように構成される構成送信モジュールであって、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む、構成送信モジュールと、
を備える、端末を提供する。
【0018】
本発明の実施形態の第4の実施態様に関連して、本発明の実施形態の第4の実施態様の第1の実施方式では、分割モジュールが、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有する、またはビデオ通話画面を複数の画角領域へと均等に分割するように特に構成される。
【0019】
本発明の実施形態の第4の実施態様から第4の実施態様の第1の実施方式に関連して、本発明の実施形態の第4の実施態様の第2の実施方式では、ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
構成判定モジュールが、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算する、またはビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するように特に構成される。
【0020】
本発明の実施形態の第4の実施態様または第4の実施態様の第2の実施方式のいずれか1つに関連して、本発明の実施形態の第4の実施態様の第3の実施方式では、端末が、
ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信するように構成される画角領域受信モジュールと、
画角領域受信モジュールが受信した情報に従って、選択した画角領域が対象画角領域であると判定するように構成される画角領域判定モジュールと、
をさらに含む。
【0021】
本発明の実施形態の第5の実施態様は、第2の端末として使用され、ビデオチャットにおいて録音するように構成される端末であって、
第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するように構成される構成受信モジュールであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、対象画角領域が、ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、構成受信モジュールと、
ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うように構成される処理モジュールであって、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、処理モジュールと、
処理モジュールが処理した音声信号を第1の端末に送信するように構成される送信モジュールと、
を備える、端末を提供する。
【0022】
本発明の実施形態の第5の実施態様に関連して、本発明の実施形態の第5の実施態様の第1の実施方式では、ビーム構成情報が、音響源方位角と、ビーム方向と、ビーム幅とを含み、
端末が、少なくとも2つのマイクロホンを備え、
処理モジュールが、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するように特に構成され、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る。
【0023】
上述の技術的解決策から分かるように、本発明の実施形態には、以下の利点がある。本発明の実施形態では、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。各画角領域のビーム構成情報の判定後、第1の端末は、第1の端末の対象画角領域のビーム構成情報を第2の端末に送信する。第2の端末は、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱め、それによって、対象画角領域の音に対する別の画角領域の音の影響を回避し、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【図面の簡単な説明】
【0024】
図1】本発明の一実施形態によるビデオチャットにおける録音方法の概略的な流れ図である。
図2】本発明の一実施形態によるビデオチャットにおける録音方法の別の概略的な流れ図である。
図3】本発明の一実施形態によるビデオチャットにおける録音方法の別の概略的な流れ図である。
図4】本発明の一実施形態によるビデオチャットにおける録音方法の別の概略的な流れ図である。
図5】本発明の一実施形態によるビデオチャットにおける録音方法の別の概略的な流れ図である。
図6】本発明の一実施形態によるビデオチャットにおける録音方法の別の概略的な流れ図である。
図7】本発明の一実施形態による端末の概略的な構造図である。
図8】本発明の一実施形態による端末の別の概略的な構造図である。
図9】本発明の一実施形態による端末の別の概略的な構造図である。
図10】本発明の一実施形態による端末の別の概略的な構造図である。
図11】本発明の一実施形態による録音システムの概略的な構造図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態における添付の図面を参照しながら、本発明の実施形態における技術的な解決策を明確かつ完全に説明する。当然のことながら、説明される実施形態は、単に本発明の実施形態の一部にすぎず、すべてではない。本発明の実施形態に基づいて、当業者によって創造的努力なしに得られるすべての他の実施形態は、本発明の保護範囲内に含まれるものとする。
【0026】
本発明の実施形態において第1や第2などの語を使用して様々な端末を説明するが、端末はこれらの語に限定されるものではないことを理解されたい。これらの語は、ある端末を別の端末と区別するために、単に用いているものである。例えば、本発明の実施形態の範囲から逸脱することなく、第1の端末を第2の端末と呼ぶこともできる。同様に、第2の端末を第1の端末と呼ぶこともでき、同じく、第2の端末を第3の端末と呼ぶことなどもでき、このことは、本発明の実施形態では限定されない。
【0027】
空間フィルタリングともと呼ばれることもある「ビームフォーミング」の用語は、センサアレイを使用して、信号に指向性を持たせて送受信する信号処理技術をいう。ビームフォーミング技術では、位相アレイの基本単位のパラメータを調整し、その結果、一部の角度の信号は干渉によって強め合い、別の一部の角度の信号は干渉によって弱め合う。ビームフォーミングは、信号送信端部に適用される場合もあるし、信号受信端部に適用される場合もある。送信端部では、ビームフォーマは、各送信装置の位相と信号振幅とを制御して、送信信号波アレイから、干渉による強め合いおよび弱め合いからなる必要なパターンを得る。受信端部では、異なる受信機が受信した信号を適切な方式で合成して、期待される信号放射パターンを得る。
【0028】
ビデオチャットにおける録音方法は、2つのタイプの実行体によって実行され得ることが理解されよう。一方のタイプが、録音方向を制御するように構成される第1の端末であり、他方のタイプが、音を録音するように構成される第2の端末であるように設定される。
【0029】
図1を参照すると、本発明の一実施形態によるビデオチャットにおける録音方法の一実施形態は、以下のステップを含む。
【0030】
101:第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。
【0031】
第1の端末が第2の端末とビデオ通話する場合、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。ビデオ通話画面は、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である。
【0032】
102:第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。
【0033】
ビデオ通話画面を複数の画角領域へと分割した後、第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。ビーム構成情報は、ビームフォーミング技術の入力パラメータである。
【0034】
103:第1の端末が対象画角領域を判定した場合、第1の端末が、対象画角領域に対応するビーム構成情報を第2の端末に送信する。
【0035】
ビデオ通話プロセスでは、第1の端末は、複数の画角領域において対象画角領域を判定し得る。第1の端末が対象画角領域を判定した場合、第1の端末が、対象画角領域に対応するビーム構成情報を第2の端末に送信する。対象画角領域は、複数の画角領域のうちの少なくとも1つを含み得る。
【0036】
104:第2の端末が、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信する。
【0037】
第1の端末が、対象画角領域に対応するビーム構成情報を第2の端末に送信した場合、第2の端末が、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信する。
【0038】
105:第2の端末は、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る。
【0039】
ビーム構成情報を受信した後、第2の端末は、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る。
【0040】
106:第2の端末が、処理音声信号を第1の端末に送信する。
【0041】
処理音声信号を得た後、第2の端末は、処理音声信号を第1の端末に送信し、その結果、第1の端末が得た、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱める。
【0042】
本発明の本実施形態では、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。各画角領域のビーム構成情報の判定後、第1の端末は、第1の端末の対象画角領域のビーム構成情報を第2の端末に送信する。第2の端末は、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱め、それによって、対象画角領域の音に対する別の画角領域の音の影響を回避し、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【0043】
以下、本発明の一実施形態によるビデオチャットにおける録音方法を詳述する。図2を参照すると、本発明の本実施形態によるビデオチャットにおける録音方法の別の実施形態は、以下のステップを含む。
【0044】
201:第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。
【0045】
第1の端末が第2の端末とビデオ通話する場合、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。ビデオ通話画面は、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である。
【0046】
第1の端末が、ビデオ通話画面を複数の画角領域へと分割する方式は、多数あることが理解されよう。例えば、第1の端末が、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有してもよい。このようにして、録音をより正確に制御して、各参加者に対応する方向の音を取得できる。加えて、第1の端末が、ビデオ通話画面を複数の画角領域へと均等に分割してもよい。均等な分割を通して取得される画角領域の数は、参加者の数に従って判定されてもよいし、ビデオ通話画面の解像度に従って判定されてもよく、その結果、各画角領域のビーム構成情報がより簡便に計算される。あるいは、別の分割方式があってもよく、このことは、本明細書では限定されない。
【0047】
202:第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。
【0048】
ビデオ通話画面を複数の画角領域へと分割した後、第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。ビーム構成情報は、ビームフォーミング技術の入力パラメータである。
【0049】
ビーム構成情報は、音響源方位角と、ビーム方向と、ビーム幅とを含む。さらに、ビーム構成情報は、サンプリングレート、マイクロホン間距離、または最大ノイズ低減量などのパラメータをさらに含んでもよく、このことは、本明細書では限定されない。
【0050】
各画角領域に対応するビーム構成情報を判定する多くの方式があり得ることが理解されよう。ビデオ通話画面の各画角領域の場所を取得した後、第1の端末は、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算により取得してもよい。実際のアプリケーションでは、既定の構成情報がさらに存在してもよい。既定の構成情報は、ビデオ通話画面の各場所とビーム構成情報との間の対応関係を格納する。第1の端末は、ビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角、ビーム方向、およびビーム幅などのビーム構成情報の他のパラメータを、マッチングを通して直接取得してもよい。あるいは、各画角領域に対応するビーム構成情報を判定する別の方式があってもよく、このことは、本明細書では限定されない。
【0051】
203:第1の端末が、ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する。
【0052】
ユーザは、ビデオ通話画面の分割を通して取得した画角領域から少なくとも1つの画角領域を選択してもよい。このケースでは、第1の端末は、複数の画角領域のうちの少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する。
【0053】
画角領域は、指でのタッチおよび制御、キー入力、フローティングタッチおよび制御などで選択してもよく、本明細書では限定されないことが理解されよう。
【0054】
204:第1の端末が対象画角領域を判定した場合、第1の端末が、対象画角領域に対応するビーム構成情報を第2の端末に送信する。
【0055】
第1の端末が対象画角領域を判定した場合、第1の端末が、対象画角領域に対応するビーム構成情報を第2の端末に送信する。
【0056】
205:第2の端末が、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信する。
【0057】
ビデオ通話プロセスでは、第2の端末が、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信する。
【0058】
206:第2の端末は、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整し、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る。
【0059】
第2の端末は、少なくとも2つのマイクロホンを備える。ビーム構成情報を受信した後、第2の端末は、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整し、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る。
【0060】
処理音声信号には、対象画角領域の音声信号のみが存在し、別の画角領域の音声信号は特定の閾値未満に弱められ、別の画角領域の音声信号が存在しないとみなされ得ることが理解されよう。
【0061】
207:第2の端末が、処理音声信号を第1の端末に送信する。
【0062】
処理音声信号を得た後、第2の端末は、処理音声信号を第1の端末に送信し、その結果、第1の端末が、対象画角領域の音声信号を得る。他の画角領域の音声信号は、すべて弱められ、ほとんど認識できない。
【0063】
本発明の本実施形態では、第1の端末が、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有してもよい。このようにして、各参加者に対応する方向のビーム構成情報をより正確に取得でき、ビーム構成情報が第2の端末に送信され、その結果、各参加者に対応する方向の音をより正確に取得でき、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズがさらに低減し、ビデオチャットの音声品質が改善される。
【0064】
理解の便宜上、以下、本発明の本実施形態におけるビデオチャットにおける録音方法を、具体的なアプリケーションシナリオを用いて特に説明する。
【0065】
端末Aの前にいる面接担当者が、端末Aを使用して、端末Bの前にいる3人の求職者(左から右へ順に:求職者1、求職者2、および求職者3)を面接する。
【0066】
端末Aと端末Bとの間でビデオチャットが行われ、端末Aのビデオ通話画面には、3人の求職者の映像が表示される。
【0067】
端末Aは、映像中の3人の求職者の場所に従って、ビデオ通話画面を3つの画角領域へと分割し、各求職者は、そのうちの1つの画角領域を占有する。
【0068】
端末Aは、分割により取得した3つの画角領域に関する情報に従って、3つの画角領域に対応するビーム構成情報を計算する。
【0069】
面接担当者は、中央の画角領域をマウスでクリックする。端末Aは、この操作を受信し、クリックされた画角領域を対象画角領域であると判定し、対象画角領域に対応するビーム構成情報を第Bの端末に送信する。
【0070】
端末Bは、ビーム構成情報に従って、マイクロホンが集音した音声信号のパラメータを調整し、その結果、端末Bによる録音を通して取得した音を合成した後、対象画角領域の音のみが最終的に存在する。端末Bは、処理音を端末Aに送信する。
【0071】
このケースでは、端末Aは、対象画角領域が位置する方向から作られた音のみを受信する(つまり、求職者2)。以下、本発明の一実施形態によるビデオチャットにおける録音方法を、2つのタイプの実行体、すなわち、第1の端末と第2の端末との観点から個別に説明する。
【0072】
1.以下、本発明の本実施形態によるビデオチャットにおける録音方法を、第1の端末の観点から説明する。
【0073】
図3を参照すると、本発明の本実施形態によるビデオチャットにおける録音方法の一実施形態は、以下のステップを含む。
【0074】
301:第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。
【0075】
第1の端末が第2の端末とビデオ通話する場合、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。ビデオ通話画面は、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である。
【0076】
302:第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。
【0077】
ビデオ通話画面を複数の画角領域へと分割した後、第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。ビーム構成情報は、ビームフォーミング技術の入力パラメータである。
【0078】
303:第1の端末が対象画角領域を判定した場合、第1の端末は、対象画角領域に対応するビーム構成情報を第2の端末に送信し、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む。
【0079】
ビデオ通話プロセスでは、第1の端末は、複数の画角領域において対象画角領域を判定し得る。第1の端末が対象画角領域を判定した場合、第1の端末は、対象画角領域に対応するビーム構成情報を第2の端末に送信し、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにする。
【0080】
本発明の本実施形態では、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。各画角領域のビーム構成情報の判定後、第1の端末は、第1の端末の対象画角領域のビーム構成情報を第2の端末に送信し、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、それによって、対象画角領域の音に対する別の画角領域の音の影響を回避し、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【0081】
以下、本発明の一実施形態によるビデオチャットにおける録音方法を具体的に説明する。図4を参照すると、本発明の本実施形態によるビデオチャットにおける録音方法の別の実施形態は、以下のステップを含む。
【0082】
401:第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。
【0083】
第1の端末が第2の端末とビデオ通話する場合、第1の端末が、ビデオ通話画面を複数の画角領域へと分割する。ビデオ通話画面は、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である。
【0084】
第1の端末が、ビデオ通話画面を複数の画角領域へと分割する方式は、多数あることが理解されよう。例えば、第1の端末が、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有してもよい。このようにして、録音をより正確に制御して、各参加者に対応する方向の音を取得できる。加えて、第1の端末が、ビデオ通話画面を複数の画角領域へと均等に分割してもよい。均等な分割を通して取得される画角領域の数は、参加者の数に従って判定されてもよいし、ビデオ通話画面の解像度に従って判定されてもよく、その結果、各画角領域のビーム構成情報がより簡便に計算される。あるいは、別の分割方式があってもよく、このことは、本明細書では限定されない。
【0085】
402:第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。
【0086】
ビデオ通話画面を複数の画角領域へと分割した後、第1の端末が、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定する。ビーム構成情報は、ビームフォーミング技術の入力パラメータである。
【0087】
ビーム構成情報は、音響源方位角と、ビーム方向と、ビーム幅とを含む。さらに、ビーム構成情報は、サンプリングレート、マイクロホン間距離、または最大ノイズ低減量などのパラメータをさらに含んでもよく、このことは、本明細書では限定されない。
【0088】
各画角領域に対応するビーム構成情報を判定する多くの方式があり得ることが理解されよう。ビデオ通話画面の各画角領域の場所を取得した後、第1の端末は、ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算により取得してもよい。実際のアプリケーションでは、既定の構成情報がさらに存在してもよい。既定の構成情報は、ビデオ通話画面の各場所とビーム構成情報との間の対応関係を格納する。第1の端末は、ビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角、ビーム方向、およびビーム幅などのビーム構成情報の他のパラメータを、マッチングを通して直接取得してもよい。あるいは、各画角領域に対応するビーム構成情報を判定する別の方式があってもよく、このことは、本明細書では限定されない。
【0089】
403:第1の端末が、ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する。
【0090】
ユーザは、ビデオ通話画面の分割を通して取得した画角領域から少なくとも1つの画角領域を選択してもよい。このケースでは、第1の端末は、複数の画角領域のうちの少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する。
【0091】
画角領域は、指でのタッチおよび制御、キー入力、フローティングタッチおよび制御などで選択してもよく、本明細書では限定されないことが理解されよう。
【0092】
404:第1の端末が対象画角領域を判定した場合、第1の端末は、対象画角領域に対応するビーム構成情報を第2の端末に送信し、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整する。マイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在する。
【0093】
本発明の本実施形態では、第1の端末が、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割し、その結果、各参加者が、1つのエリアを占有してもよい。このようにして、各参加者に対応する方向のビーム構成情報をより正確に取得でき、ビーム構成情報が第2の端末に送信され、その結果、各参加者に対応する方向の音をより正確に取得でき、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズがさらに低減し、ビデオチャットの音声品質が改善される。
【0094】
2.本発明の本実施形態によるビデオチャットにおける録音方法を、第2の端末の観点から説明する。
【0095】
図5を参照すると、本発明の本実施形態によるビデオチャットにおける録音方法の別の実施形態は、以下のステップを含む。
【0096】
501:第2の端末が、第1の端末が送信し、対象画角領域に対応するビーム構成情報を受信する。
【0097】
502:第2の端末は、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る。
【0098】
503:第2の端末が、処理音声信号を第1の端末に送信する。
【0099】
上述のステップ501から503は、ステップ104から106と同様である。ここでは細部を繰り返し説明しない。
【0100】
本発明の本実施形態では、第2の端末は、受信した、第1の端末が送信し、対象画角領域に対応する、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱め、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【0101】
以下、本発明の一実施形態によるビデオチャットにおける録音方法を具体的に説明する。図6を参照すると、本発明の本実施形態によるビデオチャットにおける録音方法の別の実施形態は、以下のステップを含む。
【0102】
601:第2の端末が、第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信する。
【0103】
602:第2の端末は、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整し、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る。
【0104】
603:第2の端末が、処理音声信号を第1の端末に送信する。
【0105】
上述のステップ601から603は、ステップ205から207と同様である。ここでは細部を繰り返し説明しない。
【0106】
本発明の本実施形態では、第2の端末は、ビームフォーミング技術を用いてビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整でき、その結果、第2の端末のマイクロホンによる録音を通して取得した音を合成した後、対象画角領域の音声信号のみが存在し、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減する効果を正確に上げ、ビデオチャットの音声品質を改善する。
【0107】
以下、本発明の一実施形態において第1の端末として使用される端末を説明する。
【0108】
図7を参照すると、本発明の本実施形態による端末の一実施形態は、
ビデオ通話画面を複数の画角領域へと分割するように構成される分割モジュール701であって、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、分割モジュール701と、
ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するように構成される、構成判定モジュール702であって、ビーム構成情報が、ビームフォーミング技術の入力パラメータである、構成判定モジュール702と、
対象画角領域が判定された場合、対象画角領域に対応するビーム構成情報を第2の端末に送信するように構成される構成送信モジュール703であって、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む、構成送信モジュール703と、
を備える。
【0109】
本発明の本実施形態では、分割モジュール701が、ビデオ通話画面を複数の画角領域へと分割する。構成判定モジュール702が各画角領域のビーム構成情報を判定した後、構成送信モジュール703は、第1の端末の対象画角領域のビーム構成情報を第2の端末に送信し、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、それによって、対象画角領域の音に対する別の画角領域の音の影響を回避し、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【0110】
上述の実施形態では、分割モジュール701が、ビデオ通話画面を複数の画角領域へと分割する。実際のアプリケーションでは、分割モジュール701が、ビデオ通話画面を複数の画角領域へと分割する方式が多数ある。
【0111】
場合により、本発明の端末の別の実施形態では、上述の端末の分割モジュール701は、ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割して、その結果、各参加者が、1つのエリアを占有するように特に構成されてもよい。
【0112】
本実施形態では、分割モジュール701は、参加者の場所に従ってビデオ通話画面を分割し、その結果、録音のために最終的に選択された方向が、参加者の実際の場所に対応する。ビデオチャットプロセスにおいてバックグラウンドノイズおよび複数の人々のノイズを低減する効果と、ビデオチャットの音声品質の改善とがより良く達成される。
【0113】
場合により、本発明の端末の別の実施形態では、上述の端末の分割モジュール701は、ビデオ通話画面を複数画角領域へと均等に分割するように特に構成されてもよい。
【0114】
本実施形態では、分割モジュール701は、ビデオ通話画面を均等に分割し、その結果、端末が行うのに必要な計算量を減らし、それによって、端末の処理効率を改善できる。
【0115】
分割モジュール701は、ビデオ通話画面を別の方式で分割してもよく、本明細書では限定されないことが理解されよう。
【0116】
上述の実施形態では、構成判定モジュール702は、各画角領域に対応するビーム構成情報を判定する。実際のアプリケーションでは、ビーム構成情報は、音響源方位角と、ビーム方向と、ビーム幅とを含む。さらに、ビーム構成情報は、サンプリングレート、マイクロホン間距離、または最大ノイズ低減量などのパラメータをさらに含んでもよく、このことは、本明細書では限定されない。
【0117】
また、構成判定モジュール702がビーム構成情報を判定する多くの方式がある。
【0118】
場合により、本発明の端末の別の実施形態では、上述の端末の構成判定モジュール702は、ビデオ通話画面端末の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するように特に構成されてもよい。
【0119】
本実施形態では、構成判定モジュール702は、画角領域の場所に従って、ビーム構成情報を直接計算し、その結果、取得されるビーム構成情報がより正確になる。
【0120】
場合により、本発明の端末の別の実施形態では、上述の端末の構成判定モジュール702は、ビデオ通話画面端末の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するように特に構成されてもよい。
【0121】
本実施形態では、構成判定モジュール702は、各画角領域の場所および既定の構成情報に従って、各画角領域のビーム構成情報をマッチングを通して取得し、それによって、端末が行うのに必要な計算量をさらに低減し、端末の処理効率を改善する。
【0122】
上述の実施形態では、対象画角領域が判定された場合、構成送信モジュール703が、構成判定モジュール702が判定した対象画角領域に対応するビーム構成情報を、第2の端末に送信する。実際のアプリケーションでは、端末は、ユーザが選択した画角領域に関する情報をさらに受信してもよい。図8を参照すると、本発明の別の実施形態では、上述の端末は、
ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信するように構成される画角領域受信モジュール801と、
画角領域受信モジュール801が受信した情報に従って、選択した画角領域が対象画角領域であると判定するように構成される画角領域判定モジュール802と、
をさらに備える。
【0123】
本実施形態では、画角領域受信モジュール801は、ユーザが選択した画角領域に関する情報を受信してもよい。画角領域判定モジュール802は、選択した画角領域が対象画角領域であると判定する。このようにして、ユーザ要件に従って、ユーザが要求した画角領域に対応する方向の音のみが録音される。
【0124】
実際のアプリケーションでは、画角領域受信モジュール801は、第2の端末が送信した選択情報を受信するようにさらに構成されてもよいことが理解されよう。選択情報としては、音を録音する必要がある方向の画角領域に関する情報が挙げられ、次いで、画角領域判定モジュール802は、画角領域が対象画角領域であると判定する。あるいは、対象画角領域を判定する別の方式があってもよく、このことは、本明細書では限定されない。
【0125】
以下、本発明の一実施形態による第2の端末として使用される端末を説明する。
【0126】
図9を参照すると、本発明の本実施形態による端末の別の実施形態は、
第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するように構成される構成受信モジュール901であって、ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、対象画角領域が、ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、構成受信モジュール901と、
ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うように構成される処理モジュール902であって、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を得る、処理モジュール902と、
処理モジュール902が処理した音声信号を第1の端末に送信するように構成される送信モジュール903と、
を備える。
【0127】
本発明の本実施形態では、処理モジュール902は、構成受信モジュール901が受信した、第1の端末が送信し、ビデオ通話画面の対象画角領域に対応する、ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行い、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱め、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減し、ビデオチャットの音声品質を改善する。
【0128】
上述の実施形態では、構成受信モジュール901は、ビーム構成情報を受信する。実際のアプリケーションでは、ビーム構成情報は、音響源方位角と、ビーム方向と、ビーム幅とを含む。さらに、ビーム構成情報は、サンプリングレート、マイクロホン間距離、または最大ノイズ低減量などのパラメータをさらに含んでもよく、このことは、本明細書では限定されない。
【0129】
上述の実施形態では、処理モジュール902は、録音を通して取得した音声信号に対してビームフォーミング処理を行う。実際のアプリケーションでは、複数の具体的な処理方式があってもよい。
【0130】
場合により、本発明の端末の別の実施形態では、端末は、少なくとも2つのマイクロホンを備えてもよい。処理モジュール902は、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するように特に構成され、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る。
【0131】
本実施形態では、処理モジュール902は、ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整でき、その結果、第2の端末のマイクロホンによる録音を通して取得した音を合成した後、対象画角領域の音声信号のみが存在し、それによって、ビデオチャットプロセスにおけるバックグラウンドノイズおよび複数の人々のノイズを低減する効果を正確に上げ、ビデオチャットの音声品質を改善する。
【0132】
本発明の第1の端末と第2の端末とは、同じ端末であってもよいし、異なる端末であってもよいことが理解されよう。つまり、様々なアプリケーションシナリオにおいて、または様々なアプリケーション要件のために、1つの端末が、第1の端末と第2の端末との両方のすべてのモジュールを含んでもよいし、2つの端末が、第1の端末および第2の端末として別個に使用されてもよい。
【0133】
図10を参照すると、図10は、
入力装置1001と、出力装置1002と、プロセッサ1003と、メモリ1004と、
を備える、本発明の一実施形態による端末1000の別の概略的な構造図である(端末1000には1つ以上のプロセッサ1003があってもよいが、図10では、例として1つのプロセッサ1003を用いている)。本発明の一部の実施形態では、入力装置1001と、出力装置1002と、プロセッサ1003と、メモリ1004とは、バスまたは別の方式を用いて接続されてもよく、図8では、例としてバスを用いた接続が用いられている。
【0134】
端末1000を、第1の端末として使用してもよいし、第2の端末として使用してもよいことが理解されよう。
【0135】
図10に示す端末1000に関連して、本発明の本実施形態による端末の別の実施形態では、端末1000を第1の端末として使用する場合、メモリ1004に格納された動作命令が呼び出され、プロセッサ1003が、以下のステップ、すなわち、
ビデオ通話画面を複数の画角領域へと分割するステップであって、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面である、ステップと、
ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応するビーム構成情報を判定するステップであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータである、ステップと、
対象画角領域が判定された場合、対象画角領域に対応するビーム構成情報を第2の端末に送信するステップであって、その結果、第2の端末が、対象画角領域に対応するビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行って、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めるようにし、対象画角領域が、複数の画角領域のうちの少なくとも1つを含む、ステップと、
を行うように構成される。
【0136】
本発明の一部の実施形態では、プロセッサ1003が、以下のステップ、すなわち、
ビデオ通話画面における参加者の場所に従って、ビデオ通話画面を複数のエリアへと分割するステップであって、その結果、各参加者が、1つのエリアを占有する、ステップ、またはビデオ通話画面を複数の画角領域へと均等に分割するステップ
を行うように特に構成される。
【0137】
本発明の一部の実施形態では、ビーム構成情報は、音響源方位角と、ビーム方向と、ビーム幅とを含む。
【0138】
プロセッサ1003は、以下のステップ、すなわち、
ビデオ通話画面の各画角領域の場所に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とを計算するステップ、またはビデオ通話画面の各画角領域の場所および既定の構成情報に従って、各画角領域に対応する音響源方位角とビーム方向とビーム幅とをマッチングを通して取得するステップ
を行うように特に構成される。
【0139】
本発明の一部の実施形態では、プロセッサ1003が、以下のステップ、すなわち、
ユーザが複数の画角領域から選択した少なくとも1つの画角領域に関する情報を受信し、かつ選択した画角領域が対象画角領域であると判定する、ステップ
を行うようにさらに構成される。
【0140】
図10に示す端末1000に関連して、本発明の本実施形態による端末の別の実施形態では、端末1000を第2の端末として使用する場合、メモリ1004に格納された動作命令が呼び出され、プロセッサ1003が、以下のステップ、すなわち、
第1の端末が送信し、ビデオ通話画面の対象画角領域に対応するビーム構成情報を受信するステップであって、ビーム構成情報が、ビームフォーミング技術の入力パラメータであり、ビデオ通話画面が、第1の端末上に表示され、かつ第2の端末の前にいる参加者とビデオチャットを行うために使用される、画面であり、対象画角領域が、ビデオ通話画面の複数の画角領域のうちの少なくとも1つを含む、ステップと、
ビーム構成情報に従って、録音を通して取得した音声信号に対するビームフォーミング処理を行うステップであって、その結果、対象画角領域の音声信号の信号強度を強め、別の画角領域の音声信号の信号強度を弱めて、処理音声信号を取得する、ステップと、
プロセッサが処理した音声信号を第1の端末に送信するステップと、
を行うように構成される。
【0141】
本発明の一部の実施形態では、入力装置1001は、少なくとも2つのマイクロホンを備える。
【0142】
プロセッサ1003は、以下のステップ、すなわち、
ビーム構成情報に従って、各マイクロホンが集音した音声信号のパラメータを調整するステップであって、その結果、第2の端末においてマイクロホンが集音した音声信号を合成した後、対象画角領域の音声信号のみが存在して、処理音声信号を得る、ステップ
を行うように特に構成される。
【0143】
図11に示すように、本発明の一実施形態は、録音システムをさらに提供し、録音システムが、ビデオチャットにおいて録音するように構成され、かつ
図7図8、または図10に対応する実施形態において第1の端末1101として使用される端末と、図9、または図10に対応する実施形態において第2の端末1102として使用される端末と、
を備えるように構成される。
【0144】
当業者には明らかに理解されるはずであるが、説明を容易かつ簡潔にするために、上述のシステム、装置、およびユニットの具体的な作動プロセスについては、上述の方法実施形態における、対応するプロセスを参照されたく、ここでは細部を繰り返し説明しない。
【0145】
本出願において提供されるいくつかの実施形態においては、開示のシステム、装置、および方法を他のやり方で実装することもできることを理解されたい。例えば、説明された装置実施形態は単なる例示にすぎない。例えば、ユニットの分割は単なる論理的機能分割にすぎず、実際の実装に際しては他の分割も可能である。例えば、複数のユニットもしくはコンポーネントが組み合わされ、または統合されて別のシステムになる場合もあり、いくつかの特徴が無視されたり実行されなかったりする場合もある。加えて、表示された、または論じられた相互結合または直接結合または通信接続を、いくつかの画面を使用して実現することもできる。装置間またはユニット間の間接結合または通信接続は、電子的形態、機械的形態、または他の形態として実現することができる。
【0146】
別々の部品として記述されたユニットは物理的に分離している場合もそうでない場合もあり、ユニットとして表示された部品は、物理的ユニットである場合もそうでない場合もあり、一箇所に位置する場合もあり、複数のネットワークユニット上に分散される場合もある。ユニットの一部または全部を、各実施形態の解決策の目的を達成するための実際の必要に従って選択することもできる。
【0147】
加えて、本発明の実施形態における機能ユニットが1つの処理ユニットへ統合される場合もあり、ユニットのそれぞれが物理的に独立して存在する場合もあり、または2つ以上のユニットが1つのユニットへ統合される場合もある。統合ユニットはハードウェアの形態で実現することもでき、ソフトウェア機能ユニットの形態で実現することもできる。
【0148】
統合ユニットがソフトウェア機能ユニットの形態で実現され、独立した製品として販売される場合、統合ユニットは、コンピュータ可読記憶媒体に記憶することができる。そうした理解に基づき、本発明の技術解決策を本質的に、または従来技術に寄与する部分を、または技術的な解決策のすべてまたは一部を、ソフトウェア製品の形態で実現することができる。コンピュータソフトウェア製品は記憶媒体に記憶されており、(パーソナルコンピュータ、サーバ、もしくはネットワーク機器などとすることができる)コンピュータデバイスに、本発明の各実施形態で記述されている方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。上記記憶媒体は、USBフラッシュドライブ、取り外し可能ハードディスク、読取り専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、磁気ディスク、光ディスクといった、プログラムコードを記憶することができる任意の媒体を含む。
【0149】
上記実施形態は、本発明を限定するためのものではく、単に本発明の技術的解決策を説明するためのものにすぎない。本発明は上記実施形態に関連して詳細に説明されているが、当業者は、本発明の実施形態の技術的解決策の趣旨および範囲を逸脱することなく、さらに、前述の実施形態に記述されている技術的解決策に改変を加え、あるいは、前述の実施形態の一部の技術的特徴に対する等価の置換を行うことができることを理解するはずである。
【符号の説明】
【0150】
701 分割モジュール
702 構成判定モジュール
703 構成送信モジュール
801 画角領域受信モジュール
802 画角領域判定モジュール
901 構成受信モジュール
902 処理モジュール
903 送信モジュール
1000 端末
1001 入力装置
1002 出力装置
1003 プロセッサ
1004 メモリ
1101 第1の端末
1102 第2の端末
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11