特開2020-187346(P2020-187346A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧 ▶ LINE株式会社の特許一覧

特開2020-187346オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
<>
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000004
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000005
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000006
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000007
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000008
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000009
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000010
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000011
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000012
  • 特開2020187346-オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-187346(P2020-187346A)
(43)【公開日】2020年11月19日
(54)【発明の名称】オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
(51)【国際特許分類】
   G10L 17/00 20130101AFI20201023BHJP
   G10L 21/0272 20130101ALI20201023BHJP
   G10L 25/51 20130101ALI20201023BHJP
【FI】
   G10L17/00 200Z
   G10L21/0272 100B
   G10L25/51 400
【審査請求】有
【請求項の数】19
【出願形態】OL
【全頁数】24
(21)【出願番号】特願2020-71403(P2020-71403)
(22)【出願日】2020年4月13日
(31)【優先権主張番号】10-2019-0055094
(32)【優先日】2019年5月10日
(33)【優先権主張国】KR
(71)【出願人】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(71)【出願人】
【識別番号】501333021
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チョン ジュンソン
(72)【発明者】
【氏名】イ ボンジン
(72)【発明者】
【氏名】ハン イクサン
(57)【要約】
【課題】 オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置を提供する。
【解決手段】 複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法を提供する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
コンピュータシステムが実行する、複数の話者の映像データおよびオーディオデータを利用して話者を分離する方法であって、
前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、
前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築する段階、および
前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階
を含む、話者ダイアライゼーション方法。
【請求項2】
前記話者モデルを構築する段階では、
前記話者の各話者に対し、前記スピーチセグメントのうち、前記各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、
Nは自然数である、
請求項1に記載の話者ダイアライゼーション方法。
【請求項3】
前記各話者に対する話者モデルの構築には、前記N個のスピーチセグメントのうち、前記各話者の口の形状との相関関係が所定の閾値以上であるスピーチセグメントだけが使用される、
請求項2に記載の話者ダイアライゼーション方法。
【請求項4】
前記オーディオデータに含まれる前記話者のうちの2人以上の発言が重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成して前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離される、
請求項1に記載の話者ダイアライゼーション方法。
【請求項5】
前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別される、
請求項1に記載の話者ダイアライゼーション方法。
【請求項6】
前記話者を特定する段階は、
前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および
前記計算された相関関係と前記構築された話者モデルを使用し、前記発話された音声を発話した話者を特定する段階を含む、
請求項1に記載の話者ダイアライゼーション方法。
【請求項7】
前記音声を発話した話者を特定する段階は、
前記映像データにおいて、前記話者のうち、特定の話者の顔または前記特定の話者の口が隠れることによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算されない場合には、
前記特定の話者と前記発話された音声との相関関係は0と見なす、
請求項6に記載の話者ダイアライゼーション方法。
【請求項8】
前記話者を特定する段階は、
前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および
前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する段階を含む、
請求項1に記載の話者ダイアライゼーション方法。
【請求項9】
前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、
前記方向に関する情報は、前記発話された音声と関連する方位角情報を含む、
請求項8に記載の話者ダイアライゼーション方法。
【請求項10】
前記複数の話者のうち、前記映像データから顔は認識されるがまったく発話しないと認識される話者は無視される、
請求項1に記載の話者ダイアライゼーション方法。
【請求項11】
前記話者モデルを構築する段階は、
前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されないことによって前記話者モデルが構築されない特定の話者に対しては、
前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
請求項1に記載の話者ダイアライゼーション方法。
【請求項12】
前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータである、
請求項1に記載の話者ダイアライゼーション方法。
【請求項13】
前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、
前記抽出された音声をテキストに変換する段階、および
前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階
をさらに含む、請求項1に記載の話者ダイアライゼーション方法。
【請求項14】
請求項1〜13のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させる、コンピュータプログラム。
【請求項15】
請求項1〜13のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させるためのプログラムが記録されている、コンピュータ読み取り可能記録媒体。
【請求項16】
複数の話者の映像データおよびオーディオデータを利用して話者を分離するコンピュータシステムであって、
メモリ、および
前記メモリと連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定する、
コンピュータシステム。
【請求項17】
前記少なくとも1つのプロセッサは、
前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算し、前記計算された相関関係と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
請求項16に記載のコンピュータシステム。
【請求項18】
前記少なくとも1つのプロセッサは、
前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定し、前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
請求項16に記載のコンピュータシステム。
【請求項19】
前記少なくとも1つのプロセッサは、
前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていないことによって前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
請求項16に記載のコンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、複数の話者の映像(video)データとオーディオデータを利用して話者を分離する技術に関し、より詳細には、映像データからの話者の口の形状とオーディオデータからのスピーチセグメントとの相関関係によって構築された話者モデルに基づいて話者を特定(すなわち、話者ダイアライゼーション(diarisation))する技術に関する。
【背景技術】
【0002】
近年、機械が読み取り可能なフォーマットを活用しながら、人間のコミュニケーション(例えば、会議など)を記録して検索しようとする要求が高まっている。大規模なデータセットに対する可用性とディープラーニングのフレームワークへの接近性が高まるにつれ、このような人間のコミュニケーションを記録するための自動音声認識は大きく発展した。これにより、トランスクリプト(transcript)に対し、単に文章単語を羅列することを超え、該当の文章を「いつ」、「誰が」発話したかに関する情報を付け加えることが重要となっている。
【0003】
例えば、特許文献1(公開日2010年05月26日)は、それぞれの話者識別結果の信頼度を測定する方法に関し、各フレームの話者識別結果の貢献程度を測定し、各フレームの話者識別貢献度に基づいて話者識別結果の信頼度を測定し、これを話者の真偽判断に利用することにより、話者の検証時に提示された話者の真偽を正確に判断することができ、マルチチャンネル環境において話者識別の正確度を高めることができる技術が開示されている。
【0004】
上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】韓国公開特許第10−2010−0055168号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれるそれぞれのスピーチセグメントとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法を提供する。
【0007】
オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、話者同士のコミュニケーションを記録できるようにする方法を提供する。
【課題を解決するための手段】
【0008】
一側面において、コンピュータシステムが実行する、複数の話者の映像(video)データとオーディオデータを利用して話者を分離する方法であって、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、前記計算された相関関係に基づき、前記話者それぞれの話者モデルを構築する段階、および前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階を含む、話者ダイアライゼーション方法が提供される。
【0009】
前記話者モデルを構築する段階では、前記話者の各話者に対し、前記スピーチセグメントのうちで前記各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、Nは自然数であってよい。
【0010】
前記各話者に対する話者モデルの構築には、前記N個のスピーチセグメントのうちで前記各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけが使用されてよい。
【0011】
前記オーディオデータに含まれた前記話者のうちの2人以上の発言によって重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成し、前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離してよい。
【0012】
前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別されてよい。
【0013】
前記話者を特定する段階は、前記映像データから前記話者それぞれの顔を検出し、前記検出された顔を追跡することで、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および前記計算された相関関係と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。
【0014】
前記音声を発話した話者を特定する段階は、前記映像データにおいて、前記話者のうちの特定の話者の顔または前記特定の話者の口が隠れる(occluded)ことによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算できない場合には、前記特定の話者と前記発話された音声との相関関係は0と見なしてよい。
【0015】
前記話者を特定する段階は、前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および前記決定された話者の位置に関する情報と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。
【0016】
前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、前記方向に関する情報は、前記発話される音声と関連する方位角情報を含んでよい。
【0017】
前記複数の話者のうち、前記映像データから顔は認識されたがまったく発話しないと認識された話者は無視してよい。
【0018】
前記話者モデルを構築する段階は、前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されずに前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み(embedding)をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。
【0019】
前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータであってよい。
【0020】
前記話者ダイアライゼーション方法は、前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、前記抽出された音声をテキストに変換する段階、および前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階をさらに含んでよい。
【0021】
前記話者ダイアライゼーション方法は、バンドパスフィルタを使用することで、前記オーディオデータから、人間の音声範囲を越える雑音(noise)をフィルタリングする段階をさらに含んでよい。
【0022】
他の側面において、複数の話者の映像(video)データとオーディオデータを利用して話者を分離するコンピュータシステムであって、メモリ、および前記メモリに連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定する、コンピュータシステムを提供する。
【発明の効果】
【0023】
映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係に基づいて構築された各話者に対する話者モデルを、音声を発話する話者を特定するために使用することにより、映像データにおいて特定の話者が隠れた場合にも、該当の特定の話者による発話を正確に特定することができる。
【0024】
構築された各話者に対する話者モデルに加え、音声を発話する話者を特定するために各話者の口の形状と発話される音声との相関関係および/または該当の音声が発話される位置に関する情報をさらに使用することにより、音声を発話する話者をより正確に特定することができる。
【0025】
オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、例えば、会議のような話者同士のコミュニケーションを自動で記録することができる。
【図面の簡単な説明】
【0026】
図1】一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。
図2】一例として試験のために使用された映像データのスチールイメージを示した図である。
図3a】一例として試験のために使用された映像データとして、公開的なAMI会議データのスチールイメージを示した図である。
図3b】一例として試験のために使用された映像データとして、公開的なAMI会議データのスチールイメージを示した図である。
図4】一実施形態における、音声を発話する話者ダイアライゼーションおよび分離(特定)された話者からの発話を記録する方法を示した図である。
図5】一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。
図6】一例として、話者同士の会議を記録した議事録を示した図である。
図7】一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。
図8】一例として、発話する話者を特定する方法を示したフローチャートである。
図9】一例として、発話する話者を特定する方法を示したフローチャートである。
【発明を実施するための形態】
【0027】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0028】
以下で説明する実施形態は、実際の会議で「誰が発言したのか」(すなわち、音声を発話した話者)を決定するための技術に関する。実施形態の方法は、ビデオ(例えば、360度カメラで撮影したサラウンドビュービデオ)および単一または多重チャンネルオーディオを入力として使用し、これを基に確かな話者ダイアライゼーション(Speaker diarisation)出力を生成する。
【0029】
これを達成するために、本開示では、先ず、オーディオビジュアルの関連性(correspondence)を利用して話者モデルを登録し、登録されたモデルと視覚的情報を使用することで、アクティブ(active)話者(すなわち、発話する話者)を決定する、反復性のある新たな接近技法を提案する。
【0030】
実施形態の方法は、実際の会議のデータセットに対して量的および質的に優れた性能を示す。実施形態の方法は、公開的なデータセットを対象として評価したときに、比較可能なすべての他の方法を上回る結果が出た(後述する試験結果を参照)。また、多重チャンネルオーディオを使用することができるときには、音声の位置および/または方向を抽出するためにビデオとともにビームフォーミングを使用する。
【0031】
以下、実施形態の方法の背景と概要について説明する。
【0032】
多重話者オーディオを単一話者セグメントに分解する作業である話者ダイアライゼーション(speaker diarisation)は、数年にわたって活発に研究されてきた分野であった。話者の音声は、オーディオだけが使用されるシングルモダリティ(single−modality)問題として取り扱われる反面、ビデオのようなモダリティを追加して取り扱われることもある。オーディオとオーディオビジュアルの両方に関する話者ダイアライゼーション技術は、次の2つに分けられる。
【0033】
1つ目は、個人それぞれは異なる音声特性を持つという仮定による話者モデリング(Speaker Modeling:SM)に基づくものである。
【0034】
一例として、話者モデルは、混合ガウスモデル(GMMs)とi−ベクトルで構成されてよい。また、話者モデリングに対してディープラーニングが効果的であるという立証に基づき、話者モデリングによる話者モデルは、ディープラーニングを通じて構築されてもよい。
【0035】
多くのシステムにおける話者モデルは、ターゲット話者に対して予めトレーニングされたものが一般的であり、未知の参加者には適用が不可能な場合がある。他のアルゴリズムは、一般モデルおよびクラスタリングを使用することにより、未知の(unseen)話者にも適応されるようにしている。さらに、特徴クラスタリングに基づくオーディオビジュアルドメイン作業も多く存在する。
【0036】
2つ目は、音源位置決定(Sound Source Localization:SSL)手法を利用するものである。これは、例えば、SRP−PHATのような強力なビームフォーミング方法により、SM基盤の接近法に比べてより優れた性能を実現する。しかし、SSL基盤の方法は、話者の位置が固定的であるか知られている場合しか有効でない。したがって、SSLは、視覚的情報を利用して話者の位置を追跡できる場合など、オーディオビジュアル方法の一部として利用されている。このような接近法は、参加者を効果的に追跡できるか否かの能力に大きく依存する。SSLは、本開示の実施形態における、動きおよび口の動きを測定する視覚的分析モジュールとの結合が可能である。
【0037】
観測の各類型に応じて独立的なモデルを利用してSMおよびSSL接近法が結合されてよく、これらの情報は、ビタビアルゴリズムまたはベイジアンフィルタリングに基づいて確率論的フレームワークと融合されてよい。
【0038】
本開示では、オーディオビジュアルデータを利用して話者の移動とオクルージョン(occlusions)を処理し、確かな話者ダイアライゼーションシステムを実現するシステムを提示する。このようなシステムのために、口または唇の動き(すなわち、口の形状)がはっきりと確認可能であるときに各参加者の言葉を検出するための最先端のディープオーディオビジュアル同期化ネットワークが使用されてよい。
【0039】
このような情報は各参加者の話者モデルを登録するために使用されてよく、登録された話者モデルに基づき、参加者が隠れた場合であっても誰が発言するかを決定することができるようになる。各参加者に対して話者モデルを生成することにより、教師なし学習(クラスタリング)問題を、すべての参加者に属する音声セグメントの確率を推定する教師あり分類問題(supervised classification problem)によって作業を再構成することができる。マルチモーダル融合以前に観測の各類型に対する尤度を計算する技術とは異なり、本開示のオーディオビジュアル同期化は、話者登録過程で使用されてよい。
【0040】
追加の説明として、マルチチャンネルマイクロフォンの可用性が高い場合、ビームフォーミングが音源の位置を推定するために適用されてよく、両方のモダリティからの空間手がかり(cue)がシステムの性能を向上させるために使用されてよい。
【0041】
以下では、本発明の実施形態に係る、マルチモーダル話者ダイアライゼーションシステム(オーディオビジュアルシステム)について説明する。
【0042】
オーディオビジュアルシステムのオーディオ処理部分は、周知のオーディオ処理システムの方法を含んで構成されてよい。例えば、音調強調(speech enhancement)システムとしては、シミュレーションされた訓練データに対して訓練された長・短期記憶(LSTM:Long Short−Term Memory)基盤の雑音除去モデルが使用されてよい。また、話者埋め込み(話者モデル)を抽出するために、事前に訓練されたxベクトルモデルが使用されてよい。xベクトル抽出器およびPLDAパラメータは、データ増強(相加性雑音(additive noise))をもつデータセットに対して学習されたものであってよい。
【0043】
本発明の実施形態によると、ビデオ内から現在の話者を決定するために少なくとも3種類の情報(オーディオツービデオ(Audio to Video)相関関係、話者モデル、オーディオ方向など)が使用されてよい。
【0044】
図1は、一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。
【0045】
前処理段階では、映像データ内から顔部分を検出(Face detection)し、該当の顔部分を追跡(Face tracking)し、顔部分に対する顔部分映像を取得してよい。追加で、プロフィール(Profile)イメージを利用して顔認識(Face recognition)することにより、該当の顔部分映像が誰であるかを検知してよい。
【0046】
顔検出および顔追跡においては、例えば、SSD(Single Shot MultiBoxDetector)基盤のCNN顔検出器が、ビデオのすべてのフレームから顔形状を検出するために使用されてよい。このような検出器は、多様なポーズと照明条件に基づいて顔を追跡してよい。位置基盤(position−based)顔追跡器は、個々の顔の検出を顔部分映像としてグループ化するために使用されてよい。
【0047】
顔認識においては各参加者の顔イメージが求められるが、これにより、会議室内において、これらの位置とは関係なく顔を識別および追跡できるようになる。これは、ユーザ入力またはプロフィールイメージによって構成されてよい。すべての参加者の顔イメージは、一般的に周知の顔認識のための特徴(feature)、例えば、VGGFace2ネットワークを利用した埋め込み(embedding)で表現され、記録されてよい。
【0048】
図2のように、複数話者が会話をやり取りする映像内から顔部分を検出し(四角領域で表示)、該当の顔部分映像を順にFace track 1、Face track 2、・・・Face track nと命名する。このうち、Face track 1を予め登録された1つ以上のプロフィールイメージと比較してFace track 1に対応する話者が誰なのかを特定し、具体的な話者の身元を確認してよい。
【0049】
オーディオデータの前処理方法(図示せず)は、オーディオデータに含まれる人間の音声範囲を超える雑音を減少させるために、200〜7000Hzをカバーするバンドパスフィルタを通過させることを含んでよい。また、例えば、音声活動検出器は、オーディオ内にスピーチがあるか否かを識別するために使用されてよい。
【0050】
図1の段階1(Phase 1)では、オーディオおよび顔部分映像データに対し、オーディオツービデオ相関関係(AV相関関係)を利用して話者モデルを登録する。
【0051】
図1の段階2(Phase 2)では、登録された話者モデル、オーディオ、および顔部分映像データを利用し、現在の発話の話者が誰なのかを確認してよい。具体的に、1)オーディオおよび話者モデルを利用して話者検証(Speaker verification)を行い、2)オーディオを利用して発話方向を計算し、3)オーディオおよび顔部分映像を利用してAV相関関係を計算し、1)〜3)の結果を利用して最終的に発話者を決定してよい。
【0052】
本発明の一実施形態では、段階2を実施する前に、オーディオおよびビデオデータ全体に対して段階1を実施して話者モデルを登録する方法を使用し、以下でもこのような実施形態を基準として説明するが、段階2で登録されなかった新たな話者に対しては、話者モデルを登録しながら話者ダイアライゼーションを実行する方法の実施形態でも実現可能である。
【0053】
以下、実施形態のオーディオビジュアルシステムのオーディオツービデオの相関関係(AV correlation)について説明する。オーディオおよび口の動きのクロスモーダル(cross−modal)埋め込み(embedding)は、それぞれの信号を示すために使用されてよい。このようなジョイント(joint)(組み合わされた)埋め込みを訓練するための戦略は、例えば、次に説明するとおりである。
【0054】
ネットワークは、2つのストリーム(MFCC(Mel−Frequency Cepstral Coefficients)入力を512次元ベクトルにエンコードするオーディオストリーム、およびクロップされた顔イメージを512次元ベクトルにエンコードするビデオストリーム)で構成されてよい。ネットワークは、1つのビデオクリップとN個のオーディオクリップのマルチウェイ(multi−way)マッチング作業によって訓練されてよい。オーディオとビデオ特徴のユークリッド距離が計算され、N個の距離が結果として算出されてよい。ネットワークは、ソフトマックス(soft max)レイヤを通過した後、このような距離の逆数に対する交差エントロピー誤差によって学習されてよく、したがって、マッチングする対の類似度は非マッチングするものよりも大きくなる。
【0055】
2つの埋め込みのコサイン距離が2つの入力の関連性(correspondence)を測定するために使用されてよい。したがって、顔イメージが現在の話者(発話する話者)に対応すれば特徴の間の小さな距離が期待され、そうでない場合には同調(in−sync)および遠距離(large distance)が期待される。ビデオは、1つの連続的なソースを基にするため、AVオフセットはセッション全体にわたって固定されているものと仮定してよい。埋め込み距離は、アウトライアを取り除くために中間値フィルタ(median filter)を使用することにより、時間によってスムーズ(smooth)になる。
【0056】
以下では、実施形態のオーディオビジュアルシステムの話者モデルおよびこれを登録する方法について説明する。AV相関関係は、口の動きが明確に見えるときしか使用することができないため、本開示では、各話者に対する話者モデル、例えば、オクルージョン(隠れ)のせいでオーディオビジュアル同期化が不可能なときでも(または、このような信号の可用性が低い場合でも)アクティブ話者(すなわち、発話する話者)を決定することができるようにする。
【0057】
本発明の実施形態では、AV相関関係によって該当のオーディオ区間の発話者が識別されたオーディオデータを使用することで、該当の発話者に対する話者モデル(話者埋め込み)を登録してよい。
【0058】
一実施形態において、オーディオデータを一定の時間(例えば、それぞれ1.5秒または2秒)間隔に分けた区間であるスピーチセグメントのうち、事前にビデオ全体で実行されて各話者に対する確かなスピーチセグメントを求め、これを利用して話者モデルを取得してよい。
【0059】
実施形態においては、一例として、N=10(または3)が使用されてよく、AV相関関係の閾値を超える確信セグメントがN個よりも少ない場合には、相関関係が閾値を超えるセグメントだけが話者モデルを登録するために使用されてよい。
【0060】
セグメントを利用して話者モデルを抽出するためには、x−vectorやResNetなどのような従来のモデルが使用されてよいが、これに限定されることはない。さらに深いモデルは、小さなxベクトルモデルよりも難しいデータセットを適切に一般化することができるため、訓練された深いResNet−50モデルを使用することが好ましい。
【0061】
例えば、話者モデルは、1.5秒ウィンドウに基づいて特徴値(feature)を計算し、基準システムによって1回に0.75秒ずつ動くことにより(または、1回に1フレームずつ動きながら)抽出されてよい。各タイムステップにおける話者モデルと登録された話者モデルとを比較することにより、任意の話者に属するスピーチセグメントの尤度(likelihood)が推定されてよい。推論時間に視覚的情報がまったくなかったとしても、これは教師なしクラスタリングに比べて一般的により確かな教師あり分類問題となり得る。すなわち、これは、分類または対の確認の問題となり、クラスタリングに比べて一般的に極めて強い性能を生み出すことができる。
【0062】
以下では、実施形態のオーディオビジュアルシステムが使用する音源位置決定(Sound Source Localization:SSL)について説明する。話者モデルはもちろんであるが、音源の方向は、誰が発話するかに対する有用な手がかりとなる。音源の方向を決定するためには、例えば、カメラへの4チャンネルマイクロフォンからの記録物のオーディオソースの方向が各オーディオサンプルに対して推定され、すべてのビデオフレームに対する方向は10度の区間サイズ(bin size)を有し、±0.5秒間(period)に対するすべての方位角(azimuth)θ値のヒストグラムを生成することによって決定されてよい。
【0063】
与えられた時間にいずれかの話者に属するオーディオの尤度(likelihood)は、推定されたオーディオソースおよび該当の話者に対するビデオにおける顔検出の角度と相関してよい。
【0064】
以下では、実施形態に係るオーディオビジュアルシステムにおけるマルチモーダルの融合について説明する。
【0065】
3種類の情報(AV相関関係、話者モデル、オーディオ方向)は、各話者およびタイムステップに対する信頼度点数を提供してよい。このような点数は、以下で説明するように、簡単な加重値が適用された融合を利用してすべての話者およびタイムステップに対して単一な信頼度点数(Coverall)に結合されてよい。ここで、Csmは話者モデルからの信頼度点数であり、CavcはAV対応からの点数であり、θ*およびφはそれぞれ顔の角度(位置)およびオーディオの推定されたDoA(Directional of Arrival、オーディオが聞こえてくる方向)を意味する。αおよびβはそれぞれ所定の加重値を示し、それぞれの点数の重要度に応じてその値が調節されてよい。一般的には、訓練データのうちで最も優れた性能を与える値を使用する。
【0066】
以下の数式(1)において、カメラからは特定の話者が見えないとき、2番目および3番目の項は0に設定されてよい。
【0067】
overall=Csm+α*Cavc+β*cosine(φ−θ*)・・・(1)
【0068】
計算された信頼度点数(Coverall)に基づき、該当のタイムステップで発話される音声を発話した話者が特定されてよい。
【0069】
以下では、一般的なオーディオシステムと実施形態のオーディオビジュアルシステムの性能の比較試験について説明する。本開示では、2つの独立的なデータセット(360度に録画された会議の内部データセットおよび公開的に可用性の高いAMI会議コーパス)に対して評価された。それぞれについては、以下でより詳しく説明する。
【0070】
内部会議データセットは、ビデオ録画に関して参加者から特別な指示のない、定期的な会議のオーディオビジュアル記録で構成される。会議は、作業空間における一日討論の一部を形成したものであり、話者ダイアライゼーションの作業を念頭において設定されたものではない。データセットの相当部分は、話者が頻繁に変わる極めて短い発話で構成されているが、これは話者ダイアライゼーションにおいて極めて困難な条件となる。ビデオは、2つの魚眼レンズをもち、会議の360度ビデオをキャプチャするGoPro(登録商標) Fusionカメラで録画されたものとする。ビデオは、1秒あたり25フレームであり、5228×2624解像度の単一サラウンドビュービデオにともに結合されてよい。オーディオは、48kHzで4チャンネルマイクによって録音されてよい。このようなデータセットのスチールイメージは、図2に示すとおりである。図2は、一実施形態に係る試験のために使用された映像データのスチールイメージを示している。
【0071】
データセットには、約3時間の有効性検証セットと、40分の慎重に注釈が追加されたテスト(test)セットが含まれてよい。テストビデオには9人の話者が存在する。発言が重なる場合は、主な(最大の音の)発言者のIDだけに注釈を付与した。埋め込み抽出器およびAV同期化ネットワークは、外部データセットに対して訓練され、検証セットは、基準システムにおけるAHC閾値および実施形態のシステムにおける融合加重値をチューニングするためだけに使用されてよい。
【0072】
AMIコーパスは、多数の位置から録画した100時間のビデオで構成されており、実施形態のシステムは、100時間の分量のビデオのうち、約30時間および17時間の分量のビデオをそれぞれ含むESおよびISカテゴリの会議に対して評価した。画質は相対的に低く、ビデオ解像度は288×352ピクセルである。オーディオは、直径20cmの8要素円形等間隔(equispaced)マイクアレイから録音されたものである。しかし、大部分の本試験においては、アレイのマイクが1つだけ使用されてもよい。ビデオは、会議の参加者それぞれのクローズアップビューを提供する4台のカメラで録画され、上述した内部データセットとは異なり、イメージはともに連結されない。ESビデオは、閾値をチューニングするための検証セットとして使用されてよい。図3aおよび3bは、一例による試験のために使用された映像データであって、公開的なAMI会議データのスチールイメージを示している。図3aは、会議の参加者それぞれのクローズアップビューを示した映像データのスチールイメージであり、図3bは、会議の参加者とホワイトボードを撮影する遠景映像に対応する映像データのスチールイメージである。
【0073】
検出された各顔部分映像に対し、顔埋め込みはVGGFace2を利用して抽出し、N個の記録された顔認識のためのFeature(埋め込み)のそれぞれと比較され、したがって、これらはN個の話者のうちの1つに分類されてよい。いずれの時点であっても、同時に発生する顔部分映像が同じ話者を示すことはできないという制約条件が適用された。
【0074】
以下の表1では、基準システムと実施形態のオーディオビジュアルシステムの性能の比較試験による話者ダイアライゼーションの結果を示している。数値が低い収録性能がより優秀であること示している。最後の4行を除いてはAMIデータセットの結果を示している。WBはホワイトボード;NWBはホワイトボードなし;Xch+VはX個のチャンネルオーディオ+ビデオ;SMは話者モデリング;AVCはオーディオビジュアル対応;SSLは音源位置検索;MSは聞き逃したスピーチ;FAはエラーアラーム;SPKEは話者エラー;DERは:話者ダイアライゼーションのエラー率を示す。
【0075】
【表1】
【0076】
評価指標に関し、性能指標としてDERを使用した。DERは、聞き逃したスピーチ(MS、参照(reference)話者にはあるが仮定の話者にはない)、エラーアラーム(FA、仮定の話者にはあるが参照話者にはない)、および話者エラー(SPKE、話者IDが他の話者に割り当てられる)の3つの成分に分解されてよい。
【0077】
システムを評価するために使用されたツールは、NISTによってRT話者ダイアライゼーションを評価するために開発されたものであり、参照注釈の人的ミスを補うために250msの許容マージンを含んでいる。
【0078】
AMIコーパスに対する結果として上記表1を参照する。ホワイトボードが使用される会議の数字は別途提供されるため、その結果が比較される。
【0079】
すべての試験において同一のVADシステムが使用されたため、聞き逃したスピーチおよびエラーアラームの割合は、各データセットに対して互いに異なるモデルにおいて同一である。したがって、話者エラー率(SPKE)だけが、話者ダイアライゼーションシステムによって影響を受ける指標となる。
【0080】
話者モデルオンリーシステム(SM)は、話者モデルの登録タイミングを検索するためだけに視覚的情報を使用し、使用推論中にはオーディオだけを使用するものであってよい。オーディオ処理パイプラインと埋め込み抽出器として共通なものを利用して実験したとき、性能利得は、クラスタリング問題をダイアライゼーション問題に変更することから発生する。これだけでも、ESおよびISセットにおいて、話者エラーがそれぞれ48%および26%と相対的に向上した。
【0081】
表1の結果から、推論時にAV相関関係(AVC)と音源位置決定(SSL)を追加すれば、性能が明らかに向上することを確認することができる。全般的な相対性能に対するこのようなモダリティの寄与は、テストセットによってそれぞれ20〜40%および19〜39%であることを確認することができる。このような結果は、すべてのテスト条件において、従来技術の結果を大きく上回ることを現わしている。
【0082】
内部会議データセットで話者エラー率は著しく悪化するようになるが、これは、データセットの困難な特性(challenging nature)と話者の人数が多いため起こる。表1の結果から、基準システムは、このようなデータセットで一般化されないが、実施形態のマルチモーダルシステムは、このような「実際のデータ」でも比較的優れた性能を実現することを確認することができる。
【0083】
上述のような結果から、本開示の実施形態では、話者モデルを登録するためにオーディオビジュアルの相関関係の利点を活用するマルチモーダルシステムを取り入れることにより、話者ダイアライゼーションのために一般的に使用されるクラスタリング方法に比べ、相当な利点を達成することを確認することができる。
【0084】
追加で、以下では、話者モデルとして登録されていない話者を処理する方法について説明する。多様な理由によって未登録の話者がセッション(会議)に参加することがある。このような場合とは、例えば、会議で(1)まったく発話しない人がいる場合、(2)オクルージョンによってAV相関関係がまったく用意されない場合、または(3)電話で会議に参加する人がいる場合、が挙げられる。
【0085】
これに関しては、2つの可能な解決策を提案する。先ず、(1)の場合、まったく発話しない人は無視すると仮定してよい。また、(2)および(3)の場合は、図1の段階2(Phase 2)を行った後、AV相関関係と話者認識の両者に対し、信頼度の低いいずれかのアクティブモデルをクラスタリングして(2)および(3)に該当する話者を登録(すなわち、話者モデルを構築)するようにしてよい。
【0086】
以下では、図4図9を参照しながら、実施形態のシステムのより具体的な構造および実現方法について説明する。
【0087】
図4は、一実施形態における、音声を発話する話者ダイアライゼーションおよび分離(特定)された話者からの発話を記録する方法を示している。
【0088】
図4を参照しながら、上述した実施形態のオーディオビジュアルシステム(マルチモーダルシステム)を利用して音声を発話する話者を分離し、分離された話者の音声を記録する方法について説明する。
【0089】
図に示した例では、360度カメラとマイク(図示せず)により、話者(話者A〜D)に対する映像(video)データおよび音声データをそれぞれ取得することを示している。実施形態のオーディオビジュアルシステムは、映像データに含まれる話者A〜Dそれぞれの口の形状(例えば、口または唇の形状の変化)とオーディオデータに含まれる話者A〜Dそれぞれからのスピーチセグメントとの相関関係を計算し、これに基づき、話者A〜Dそれぞれに対する話者モデルを構築(登録)してよい。実施形態のオーディオビジュアルシステムは、構築された話者モデルに基づき、話者A〜Dのうちからオーディオデータに含まれる音声を発話する話者を特定してよい。すなわち、オーディオビジュアルシステムは、オーディオデータから話者A〜Dそれぞれの発話を特定してよい。
【0090】
例えば、話者A〜Dは会議に参加している一員であってよく、オーディオビジュアルシステムは会議中に発話する話者を特定してよい。
【0091】
オーディオビジュアルシステムは、オーディオデータから特定された話者が発話した音声を抽出し、抽出された音声をテキストに変換してよく、変換されたテキストと抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、オーディオビジュアルシステムは、話者A〜Dが参加する会議の議事録として、前記テキストと時間情報を関連付けて記録してよい。
【0092】
図6は、一例による、話者同士の会議を記録した議事録を示した図である。
【0093】
図に示すように、オーディオビジュアルシステムによって特定された話者A〜Dそれぞれに対し、各話者が発話した音声がテキストに変換され、該当の音声は、発話された時間情報とともに議事録600として記録されてよい。図に示してはいないが、議事録600は、各話者と関連するイメージ(例えば、各話者の顔写真またはサムネイル)をさらに含んでよい。
【0094】
より具体的な話者特定方法とオーディオビジュアルシステムの構成および動作については、図5および図7図9を参照しながらより詳しく説明する。
【0095】
以上、図1図3を参照しながら説明した技術的特徴についての説明は、図4および図6にもそのまま適用されるため、重複する説明は省略する。
【0096】
図5は、一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。
【0097】
例えば、本発明の実施形態に係る、音声を発話する話者を特定するための話者ダイアライゼーション装置は、図5のコンピュータシステム500によって実現されてよい。コンピュータシステム500は、上述したオーディオビジュアルシステムに対応してよい。図5に示すように、コンピュータシステム500は、音声を発話する話者を特定する話者ダイアライゼーション方法を実行するための構成要素として、プロセッサ510、メモリ520、永続的記録装置530、バス540、入力/出力インタフェース550、およびネットワークインタフェース560を含んでよい。コンピュータシステム500は、図に示すものとは異なり、複数のコンピュータシステムで構成されてもよい。コンピュータシステム500は、例えば、複数の話者同士の会議のようなコミュニケーションを記録するためのシステムまたはその一部であってよい。コンピュータシステム500は、話者を撮影するカメラが含まれる装置内に含まれるか、カメラが含まれる装置と有線および/または無線通信するコンピュータ、またはその他のサーバであるか、その一部であってもよい。
【0098】
プロセッサ510は、音声を発話する話者を特定する話者ダイアライゼーション方法を実現するための構成要素として、命令語のシーケンスを処理することのできる任意の装置を含むか、その一部であってよい。プロセッサ510は、例えば、コンピュータプロセッサ、移動装置、または他の電子装置内のプロセッサおよび/またはデジタルプロセッサを含んでよい。プロセッサ510は、例えば、サーバコンピュータデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ510は、バス540を介してメモリ520に接続されてよい。
【0099】
メモリ520は、コンピュータシステム500によって使用されるか、これによって出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ520は、例えば、RAM(random access memory)および/またはDRAM(dynamic RAM)を含んでよい。メモリ520は、コンピュータシステム500の状態情報のような任意の情報を記録するために使用されてよい。メモリ520は、例えば、音声を発話する話者を特定する話者ダイアライゼーション方法の実行のための命令語を含むコンピュータシステム500の命令語を記録するために使用されてもよい。コンピュータシステム500は、必要な場合または適切な場合に1つ以上のプロセッサ510を含んでよい。
【0100】
バス540は、コンピュータシステム500の多様なコンポーネント間の相互作用を可能にする通信基盤構造を含んでよい。バス540は、例えば、コンピュータシステム500のコンポーネント間に、例えば、プロセッサ510とメモリ520との間にデータを運搬してよい。バス540は、コンピュータシステム500のコンポーネントの間の無線および/または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでよい。
【0101】
永続的記録装置530は、(例えば、メモリ520に比べて)所定の延長された期間にわたってデータを記録するためにコンピュータシステム500によって使用されるもののようなメモリ、または他の永続的記録装置のようなコンポーネントを含んでよい。永続的記録装置530は、コンピュータシステム500内のプロセッサ510によって使用されるもののような非揮発性メインメモリを含んでよい。永続的記録装置530は、例えば、フラッシュメモリ、ハードディスク、オプティカルディスク、または他のコンピュータ読み取り可能媒体を含んでよい。永続的記録装置530は、例えば、上述した議事録600または議事録600と関連するデータを記録してよい。
【0102】
入力/出力インタフェース550は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力/出力装置に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および/または入力は、入力/出力インタフェース550によって受信されてよい。
【0103】
ネットワークインタフェース560は、近距離ネットワークまたはインターネットのようなネットワークに対する1つ以上のインタフェースを含んでよい。ネットワークインタフェース560は、有線または無線接続に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および/または入力は、ネットワークインタフェース560によって受信されてよい。
【0104】
また、他の実施形態において、コンピュータ装置500は、図5の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置500は、上述した入力/出力インタフェース550と連結する入/出力装置のうちの少なくとも一部を含むように実現されてもよいし、またはトランシーバ(transceiver)、GPS(Global Positioning System)モジュール、カメラ(例えば、話者を撮影するための360度カメラ)、マイクロフォン(例えば、話者の音声を記録するための少なくとも1つのマイクロフォン)、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
【0105】
このようなコンピュータシステム500によって実現される実施形態により、映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれた音声を発話する話者を特定する話者ダイアライゼーション方法が提供されてよい。
【0106】
以上、図1図4を参照しながら上述した技術的特徴についての説明は、図5にもそのまま適用されるため、重複する説明は省略する。
【0107】
図7は、一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。
【0108】
図7を参照しながら、コンピュータシステム500によって実行される、音声を発話する話者を特定する話者ダイアライゼーション方法について詳しく説明する。
【0109】
話者を分離するためには、複数の話者の映像データおよびオーディオデータが使用されてよい。映像データは、複数の話者がカメラで撮影されたものであってよく、オーディオデータは、該当の映像データに対応してよい。すなわち、映像データおよびオーディオデータは、1つの映像(video)を構成してよい。例えば、映像データおよびオーディオデータは、話者をリアルタイムで撮影する映像に含まれるデータであってよく、あるいは、予め撮影された話者の映像に含まれるデータであってもよい。
【0110】
段階720において、プロセッサ510は、映像データに含まれる話者それぞれの口の形状(例えば、口の形状の変化)と、オーディオデータに含まれるスピーチセグメントそれぞれとの相関関係を計算してよい。スピーチセグメントは、オーディオデータに含まれた各話者の音声の一部であって、所定の時間(例えば、1.5秒)内の音声に対応してよい。話者それぞれの口の形状は、プロセッサ510が映像データから話者それぞれの顔を認識し、認識された顔を追跡することによって識別されてよい。
【0111】
段階730において、プロセッサ510は、計算された相関関係に基づき、話者それぞれに対する話者モデルを構築して登録してよい。言い換えれば、段階730は、コミュニケーションと関連する(例えば、会議に参加する)話者(話者モデル)それぞれを登録する段階であってよい。
【0112】
プロセッサ510は、一例として、各話者に対し、オーディオデータに含まれるスピーチセグメントのうち、各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを各話者に対する話者モデルを構築するために利用してよい。Nは自然数であってよく、例えば10であってよい。また、プロセッサ510は、N個のスピーチセグメントのうち、各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけを各話者に対する話者モデルの構築(および登録)のために利用してよい。
【0113】
段階740において、プロセッサ510は、構築された話者モデルに基づき、話者のうちからオーディオデータに含まれた音声を発話する話者を特定してよい。例えば、プロセッサ510は、オーディオデータ(または、これを含む映像)の再生時に発話される音声がどの話者によって発話されたものであるかを特定してよい。
【0114】
他の実施形態において、オーディオデータがリアルタイムオーディオデータ(すなわち、話者同士の会議をリアルタイムで撮影する映像に含まれるオーディオデータ)である場合にも、プロセッサ510は、発話される音声がどの話者によって発話されたものであるかをリアルタイムで(または、ほぼリアルタイムで)特定してよい。このとき、プロセッサ510は、リアルタイムで撮影される映像に対し、リアルタイムで(または、ほぼリアルタイムで)各話者に対するモデルを構築(登録)したり、予め構築(登録)された話者に対するモデルを更新したりしてよい。
【0115】
一方、オーディオデータが、2人以上の話者の発言によって重なった音声を含む場合、このような重なった音声を分離して処理してよい。例えば、プロセッサ510は、重なった音声の発話時の話者の口の形状(唇の動き)に基づき、重なった音声を発話した話者の発音を抽出してよく、前記抽出された発音に該当するオーディオデータで部分に対するマスクを生成し、前記重なった音声をフィルタリングしてよい。これにより、複数人の話者が同時に発話して重なった音声は、発話した話者それぞれの音声に分離されて記録されてよい。
【0116】
段階710に示すように、映像データおよび/またはオーディオデータは、段階720の実行に先立って前処理されてよい。例えば、プロセッサ510は、バンドパスフィルタ(一例として、200〜7000Hz範囲)を使用することにより、オーディオデータから、人間の音声範囲を越える雑音を取り除いてよい。また、プロセッサ510は、映像データから特定の人物の顔を認識するための前処理を実行してよい。プロセッサ510は、映像データから顔を検出し、検出された顔を追跡することにより、映像データから特定の人物の顔を認識してよい。このとき、予め登録(記録された)話者のプロフィールイメージ(ら)をさらに利用して特定が行われてもよい。
【0117】
段階750において、プロセッサ510は、オーディオデータから特定された話者が発話した音声を抽出してよい。
【0118】
段階760において、プロセッサ510は、抽出された音声をテキストに変換してよい。音声をテキストに変換するためには、該当のSTT(Speech To Text)技術が利用されてよい。例えば、人工知能、ディープラーニング、またはその他のニューラルネットワークで実現されたモジュールによって音声がテキストに変換されてよい。
【0119】
段階770において、プロセッサ510は、変換されたテキストと、抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、プロセッサ510は、図6に示した議事録600のように、各話者の発言内容とその発言時刻とを関連付けて記録してよい。これにより、コンピュータシステム500は、話者同士のコミュニケーションを話者別に区分して自動で記録することができる。
【0120】
実施形態では、映像データ内で特定の話者の口が隠れた状態で前記特定の話者からの発話がある場合であっても、構築された話者モデルに基づき、該当の発話が前記特定の話者によるものであるかを識別することができる。
【0121】
一方、複数の話者のうち、映像データから顔は認識されるがまったく発話しないと認識される話者は、無視されてよい。すなわち、このような話者に対する話者モデルは、構築されなくてもよい。あるいは、コンピュータシステム500には、映像データからの顔が認識されることより、会議の参加者としては存在するが発言はまったくなかった話者という点を示す情報が記録されてよい。
【0122】
段階730における話者モデルの構築にあたり、複数の話者のうち、映像データから顔または口の形状が認識されなかったり(例えば、電話で会議に参加した場合など)、または話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていなかったりすることを理由に、話者モデルが構築されない(すなわち、話者モデルの構築が不可能な)特定の話者に対しては、プロセッサ510は、段階720における相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み(または特徴値)をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。これにより、映像データを使用する相関関係分析によっては話者モデルが構築されなかった話者に対しても、話者モデルを構築することができる。
【0123】
以上、図1図6を参照しながら上述した技術的特徴についての説明は、図7にもそのまま適用されるため、重複する説明は省略する。
【0124】
図8および図9は、一例による、発話する話者を特定する方法を示したフローチャートである。
【0125】
図8および図9を参照しながら、段階740の音声を発話する話者を特定する方法について詳しく説明する。
【0126】
段階810において、プロセッサ510は、映像データから各話者の顔部分を検出し、検出された顔を追跡し、各話者の口の形状とオーディオデータに含まれた音声との相関関係を計算してよい。段階820において、プロセッサ510は、計算された相関関係と構築された話者モデルを使用し、該当の区間の音声を発話した話者を特定してよい。話者モデルの構築時だけでなく、話者を特定するときにも、映像データを利用して計算された話者の口の形状と音声との相関関係を使用すれば、話者ダイアライゼーションの正確性をより高めることができる。
【0127】
このとき、映像データにおいて、話者のうち、特定の話者の顔または特定の話者の口が隠れる(occluded)ことによって該当の特定の話者とオーディオデータで発話される音声との相関関係が計算できない場合には、前記特定の話者と発話される音声との相関関係は0と見なされてよい。したがって、特定の話者の口が隠れたときには、プロセッサ510は、該当の特定の話者に対しては、前記発話される音声に対する話者を特定するために構築された話者モデルだけを利用してよい。
【0128】
段階910において、プロセッサ510は、オーディオデータに含まれた音声が発話される話者の位置に関する情報を決定してよい。音声が発話される話者の位置に関する情報は、発話される音声の方向に関する情報を含んでよい。方向に関する情報は、発話される音声と関連する方位角情報および/または高度情報を含んでよい。あるいは、位置に関する情報は、オーディオデータを記録するために使用されたマイクと話者に該当する音源の位置関係を示すデータを含んでもよい。
【0129】
段階920において、プロセッサ510は、決定された話者の位置に関する情報と構築された話者モデルを利用して音声を発話した話者を特定してよい。構築された話者モデルだけでなく、音声が発話される話者の位置に関する情報(すなわち、該当の音声(音声信号)の方向に関する情報)をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。
【0130】
上述した試験結果に示したように、話者モデルのような、話者の口の形状と音声との相関関係および/または話者の位置に関する情報をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。
【0131】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0132】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0133】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0134】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0135】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0136】
500:コンピュータシステム
510:プロセッサ
520:メモリ
530:永続的記録装置
540:バス
550:入力/出力インタフェース
560:ネットワークインタフェース
図1
図2
図3a
図3b
図4
図5
図6
図7
図8
図9