(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-24
(54)【発明の名称】マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識
(51)【国際特許分類】
G10L 25/63 20130101AFI20241217BHJP
G06N 3/0455 20230101ALI20241217BHJP
G10L 25/30 20130101ALI20241217BHJP
G06T 7/00 20170101ALI20241217BHJP
G06V 20/62 20220101ALI20241217BHJP
【FI】
G10L25/63
G06N3/0455
G10L25/30
G06T7/00 350C
G06V20/62
G06T7/00 660A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024527701
(86)(22)【出願日】2022-10-27
(85)【翻訳文提出日】2024-05-10
(86)【国際出願番号】 IB2022060334
(87)【国際公開番号】W WO2023084348
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(74)【代理人】
【識別番号】100151987
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】ワスニク パンカジ
(72)【発明者】
【氏名】オノエ ナオユキ
(72)【発明者】
【氏名】チュダサマ ヴィシャル
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA16
5L096BA17
5L096FA16
5L096HA11
(57)【要約】
マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識を使用するランドマーク検出システム及び方法を提供する。システムは、回路と、1又は2以上の特徴抽出器、トランスフォーマエンコーダネットワーク、フュージョンアテンションネットワーク、及びフュージョンアテンションネットワークに結合された出力ネットワークを含むマルチモーダルフュージョンネットワークを記憶するように構成されたメモリとを含む。システムは1又は2以上の特徴抽出器にマルチモーダル入力を入力する。マルチモーダル入力は、1又は2以上のビデオにおいて描かれる発話に関連する。システムは、入力に対する1又は2以上の特徴抽出器の出力として入力埋め込みを生成し、入力埋め込みに基づいて感情関連特徴セットをさらに生成する。システムは、感情関連特徴セットの融合特徴表現をさらに生成し、融合特徴表現に基づいて発話の感情ラベルを予測する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
システムであって、
1又は2以上の特徴抽出器と、前記1又は2以上の特徴抽出器に結合されたトランスフォーマエンコーダネットワークと、前記トランスフォーマエンコーダネットワークに結合されたフュージョンアテンションネットワークと、前記フュージョンアテンションネットワークに結合された出力ネットワークとを含むマルチモーダルフュージョンネットワークを記憶するように構成されたメモリと、
1又は2以上のビデオにおいて描かれる発話に関連するマルチモーダル入力を前記1又は2以上の特徴抽出器に入力し、
前記入力に対する前記1又は2以上の特徴抽出器の出力として、前記マルチモーダル入力の各モダリティのための埋め込みを含む入力埋め込みを生成し、
前記入力埋め込みに前記トランスフォーマエンコーダネットワークを適用することに基づいて、前記マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む感情関連特徴セットを生成し、
前記感情関連特徴セットに前記フュージョンアテンションネットワークを適用することに基づいて、前記感情関連特徴セットの融合特徴表現を生成し、
前記融合特徴表現に前記出力ネットワークを適用することに基づいて、前記発話の感情ラベルを予測する、
ように構成された回路と、
を備えることを特徴とするシステム。
【請求項2】
前記マルチモーダル入力は、多言語スピーチと、前記1又は2以上の特徴抽出器に適合する第1の言語での前記多言語スピーチの文字起こしとを含む、
請求項1に記載のシステム。
【請求項3】
前記マルチモーダル入力は、前記1又は2以上の特徴抽出器に適合する第1の言語とは異なる第2の言語でのスピーチを含み、前記マルチモーダル入力は、前記1又は2以上の特徴抽出器に適合する前記第1の言語での前記スピーチの文字起こしを含む、
請求項1に記載のシステム。
【請求項4】
前記マルチモーダル入力は、前記発話の音響に関連する第1のモダリティと、前記発話の文字起こしに関連する第2のモダリティと、前記発話の視覚的側面に関連する第3のモダリティとを含む、
請求項1に記載のシステム。
【請求項5】
前記1又は2以上の特徴抽出器は、音響視覚特徴抽出器及び音響特徴抽出器を含み、前記回路は、前記音響視覚特徴抽出器又は前記音響特徴抽出器の一方を、前記マルチモーダル入力に含まれる前記発話の音響情報に適用することに基づいて、前記入力埋め込みの第1の埋め込みを生成するようにさらに構成される、
請求項1に記載のシステム。
【請求項6】
前記1又は2以上の特徴抽出器は、テキスト特徴抽出器を含み、前記回路は、前記テキスト特徴抽出器を、前記発話に関連する音響情報の文字起こし、及び前記発話に時間的に先行又は後続する異なる発話の文字起こしに適用することに基づいて、前記入力埋め込みの第2の埋め込みを生成するようにさらに構成される、
請求項1に記載のシステム。
【請求項7】
前記1又は2以上の特徴抽出器は、音響視覚特徴抽出器及び視覚特徴抽出器を含み、前記回路は、前記音響視覚特徴抽出器又は前記視覚特徴抽出器の一方を、前記1又は2以上のビデオのフレーム内の1又は2以上の発話キャラクタの顔情報、及びフレームに関連するシーン情報に適用することに基づいて、前記入力埋め込みの第3の埋め込みを生成するようにさらに構成され、
前記フレームは、前記1又は2以上のビデオにおける前記発話の継続時間に対応する、
請求項1に記載のシステム。
【請求項8】
前記回路は、
前記発話の継続時間に対応する前記1又は2以上のビデオのフレームを前記音響視覚特徴抽出器又は前記視覚特徴抽出器に入力し、
音響視覚特徴抽出器又は前記視覚特徴抽出器の顔検出モデルを前記受信フレームの各々に適用することに基づいて、前記受信フレームの各々における1又は2以上の顔を検出し、
前記検出された1又は2以上の顔を含む1又は2以上のバウンディングボックスを生成し、
前記音響視覚特徴抽出器又は前記視覚特徴抽出器の一方を適用することにより、前記1又は2以上のバウンディングボックスの各々に関連するエリアを正規化し、
前記検出された1又は2以上の顔及び前記正規化に基づいて、前記音響視覚特徴抽出器又は前記視覚特徴抽出器の出力として前記入力埋め込みの第3の埋め込みを生成する、
ようにさらに構成される、請求項7に記載のシステム。
【請求項9】
前記トランスフォーマエンコーダネットワークは、前記マルチモーダル入力の第1のモダリティのためのトランスフォーマエンコーダの第1のスタックと、前記マルチモーダル入力の第2のモダリティのためのトランスフォーマエンコーダの第2のスタックと、前記マルチモーダル入力の第3のモダリティのためのトランスフォーマエンコーダの第3のスタックとを含む、
請求項1に記載のシステム。
【請求項10】
前記トランスフォーマエンコーダネットワーク内の隣接するトランスフォーマエンコーダの各対間のスキップ接続をさらに備える、
請求項1に記載のシステム。
【請求項11】
前記回路は、
前記1又は2以上のビデオを受け取り、
前記受け取った1又は2以上のビデオにシーン検出モデルを適用し、
前記シーン検出モデルの適用に基づいて、前記1又は2以上のビデオから複数のシーンを抽出し、
前記抽出された複数のシーンの各々に単一境界検出モデルを適用し、
前記単一境界検出モデルの適用に基づいて、前記抽出された複数のシーンにおける複数の発話を検出し、
前記検出に基づいて一連のマルチモーダル入力を準備する、
ようにさらに構成され、前記1又は2以上の特徴抽出器に入力される前記マルチモーダル入力は、前記準備された一連のマルチモーダル入力の一部である、
請求項1に記載のシステム。
【請求項12】
前記フュージョンアテンションネットワークは、1又は2以上のマルチヘッドアテンション層及び第1の全結合層を含み、
前記第1の全結合層の入力は、前記1又は2以上のマルチヘッドアテンション層の出力に結合される、
請求項1に記載のシステム。
【請求項13】
前記回路は、前記感情関連特徴セットに1又は2以上のマルチヘッドアテンション層を適用して、
前記感情関連特徴セット内の特徴間マッピングを決定し、
前記特徴間マッピングに基づいて、前記感情関連特徴セットを前記感情関連特徴セットの潜在表現に連結する、
ようにさらに構成される、請求項12に記載のシステム。
【請求項14】
前記感情関連特徴セットの前記融合特徴表現は、前記潜在表現に前記第1の全結合層を適用することにさらに基づいて生成される、
請求項13に記載のシステム。
【請求項15】
前記出力ネットワークは、前記フュージョンアテンションネットワークの出力に結合された第2の全結合層を含む、
請求項1に記載のシステム。
【請求項16】
マルチモーダルフュージョンネットワークを記憶するメモリを含むシステムにおいて、
前記マルチモーダルフュージョンネットワークの1又は2以上の特徴抽出器に、1又は2以上のビデオにおいて描かれる発話に関連するマルチモーダル入力を入力することと、
前記入力に対する前記1又は2以上の特徴抽出器の出力として、前記マルチモーダル入力の各モダリティのための埋め込みを含む入力埋め込みを生成することと、
前記入力埋め込みに前記マルチモーダルフュージョンネットワークのトランスフォーマエンコーダネットワークを適用することに基づいて、前記マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む感情関連特徴セットを生成することと、
前記感情関連特徴セットに前記マルチモーダルフュージョンネットワークのフュージョンアテンションネットワークを適用することに基づいて、前記感情関連特徴セットの融合特徴表現を生成することと、
前記融合特徴表現に前記マルチモーダルフュージョンネットワークの出力ネットワークを適用することに基づいて、前記発話の感情ラベルを予測することと、
を含むことを特徴とする方法。
【請求項17】
前記マルチモーダル入力は、前記発話の音響に関連する第1のモダリティと、前記発話の文字起こしに関連する第2のモダリティと、前記発話の視覚的側面に関連する第3のモダリティとを含む、
請求項16に記載の方法。
【請求項18】
前記フュージョンアテンションネットワークは、1又は2以上のマルチヘッドアテンション層及び第1の全結合層を含み、
前記第1の全結合層の入力は、前記1又は2以上のマルチヘッドアテンション層の出力に結合される、
請求項16に記載の方法。
【請求項19】
前記感情関連特徴セットに1又は2以上のマルチヘッドアテンション層を適用して、
前記感情関連特徴セット内の特徴間マッピングを決定することと、
前記特徴間マッピングに基づいて、前記感情関連特徴セットを前記感情関連特徴セットの潜在表現に連結することと、
をさらに含み、前記感情関連特徴セットの前記融合特徴表現は、前記潜在表現に前記第1の全結合層を適用することにさらに基づいて生成される、
請求項18に記載の方法。
【請求項20】
システムの回路によって実行された時に前記回路に動作を実行させるコンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記動作は、
マルチモーダルフュージョンネットワークの1又は2以上の特徴抽出器に、1又は2以上のビデオにおいて描かれる発話に関連するマルチモーダル入力を入力することと、
前記入力に対する前記1又は2以上の特徴抽出器の出力として、前記マルチモーダル入力の各モダリティのための埋め込みを含む入力埋め込みを生成することと、
前記入力埋め込みに前記マルチモーダルフュージョンネットワークのトランスフォーマエンコーダネットワークを適用することに基づいて、前記マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む感情関連特徴セットを生成することと、
前記感情関連特徴セットに前記マルチモーダルフュージョンネットワークのフュージョンアテンションネットワークを適用することに基づいて、前記感情関連特徴セットの融合特徴表現を生成することと、
前記融合特徴表現に前記マルチモーダルフュージョンネットワークの出力ネットワークを適用することに基づいて、前記発話の感情ラベルを予測することと、
を含む、ことを特徴とする非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
本出願は、2021年11月12日に出願された米国仮特許出願シリアル番号第63/263,961号の優先権の利益を主張する、2022年9月9日に米国特許商標庁に出願された米国特許出願第17/941,787号の優先権の利益を主張するものであり、これらの文献の内容は全体が引用により本明細書に組み入れられる。
【0002】
本開示の様々な実施形態は、ニューラルネットワーク及び感情認識に関する。具体的には、本開示の様々な実施形態は、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステム及び方法に関する。
【背景技術】
【0003】
コンピュータビジョン及び人工知能の進歩は、会話における感情認識などの異なる用途で使用できる様々な種類のニューラルネットワーク(又はモデル)の発展をもたらしてきた。通常、感情認識は、マルチメディアビデオ(例えば、映画、ウェブシリーズ、及びニュースなど)において描かれる(単複の)会話から話者の感情状態を予測するために使用される。感情認識は、共感的なヒューマンマシンシステムの開発において極めて重要である。会話の場合、従来の感情認識のためのアプローチは、ほとんどが会話の文字起こし(text transcript)に依拠している。文字起こしの不正確さは、予測(例えば、感情ラベル)の精度に影響を与えることがある。感情認識のための多くの最先端技術では、会話に関連する視覚信号及び音響信号内に存在する膨大な量の情報が無視されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0005】
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステム及び方法を提供する。
【0006】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
【
図1】本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのネットワーク環境を示す図である。
【
図2】本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のための例示的なシステムのブロック図である。
【
図3】本開示の実施形態による、
図1のマルチモーダルフュージョンネットワークの例示的なアーキテクチャを示す図である。
【
図4】本開示の実施形態による、
図3のマルチモーダルフュージョンアテンションネットワークの例示的な視覚特徴抽出器を示す図である。
【
図5】本開示の実施形態による、
図3のフュージョンアテンションネットワークセットのうちのあるフュージョンアテンションネットワークの例示的なアーキテクチャを示す図である。
【
図6】本開示の実施形態による、1又は2以上の特徴抽出器の音響視覚特徴抽出器の例示的なアーキテクチャを示す図である。
【
図7】本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のための例示的なシナリオを示す図である。
【
図8】本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識の例示的な方法を示すフローチャートである。
【発明を実施するための形態】
【0008】
開示するマルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステム及び方法では、後述する実装を見出すことができる。システムは回路及びメモリを含み、メモリは、1又は2以上の特徴抽出器と、1又は2以上の特徴抽出器に結合されたトランスフォーマエンコーダネットワークと、トランスフォーマエンコーダネットワークに結合されたフュージョンアテンションネットワークと、フュージョンアテンションネットワークに結合された出力ネットワークとを含むマルチモーダルフュージョンネットワークを記憶するように構成される。システムは、1又は2以上の特徴抽出器にマルチモーダル入力を入力することができる。マルチモーダル入力は、1又は2以上の(映画などの)ビデオにおいて描かれる発話(utterance)に関連することができる。システムは、入力に対する1又は2以上の特徴抽出器の出力として入力埋め込み(input embeddings)を生成することができる。入力埋め込みは、マルチモーダル入力の各モダリティのための埋め込みを含むことができる。システムは、入力埋め込みにトランスフォーマエンコーダネットワークを適用することに基づいて感情関連特徴セットをさらに生成することができる。感情関連特徴セットは、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む。システムは、感情関連特徴セットにフュージョンアテンションネットワークを適用することに基づいて、感情関連特徴セットの融合特徴表現(fused-feature representation)をさらに生成することができる。システムは、融合特徴表現に出力ネットワークを適用することに基づいて、発話の(怒り、中立、喜び、悲しみなどの)感情ラベルを予測することができる。
【0009】
感情は、ある対象者(人物)の思考及び気持ちに関連し得る目に見えない精神状態と言うことができる。生理的指標(physiological indications)が存在しなければ、感情は、文字での発話、視覚的ジェスチャ及び音響信号などの人間の行動によってしか検出することができない。会話における感情認識は、会話における対象者の感情を文字的、視覚的及び音響的手掛かりに依存して認識しようとするものである。現在では、会話における感情認識が(ビデオなどの)マルチメディアコンテンツ分析及びモデレーションの文脈で不可欠なタスクになっており、ユーザとコンテンツとの間の相互作用の性質を理解するのに役立っている。会話における感情認識には、AIインタビュー、個人化された対話システム、チャット履歴にわたるオピニオンマイニング、及びソーシャルメディアプラットフォーム内のコンテンツのユーザ知覚の理解などの他の多くのタスクにおける他の重要な用途がある。
【0010】
現在最先端の感情認識方法は、会話における感情認識のタスクを純粋にテキストベースのタスクとして枠組み化している。具体的には、会話における現在最先端の感情認識方法は、対象者に関連するテキストデータに基づいて対象者の感情状態を決定する。テキストデータは、対象者が話した音声の文字起こしに対応することができる。しかしながら、マルチメディアコンテンツの音響及び視覚モダリティ内に存在する膨大な量の情報は、対象者の感情状態の決定において考慮されていない。
【0011】
本開示は、発話に関連する少なくとも3つの異なるモダリティ(音響モダリティ、テキストモダリティ、及び視覚モダリティ)を使用して対象者の感情状態を検出するニューラルネットワークアーキテクチャを提供する。実験データによれば、3つのモダリティを正しく融合させることで、現在最先端のシステムの品質及びロバスト性を改善することができる。開示するシステムは、感情予測に寄与する各モダリティを入力として取り込んで対象者の感情状態を検出することができる。開示する方法は、現在最先端の方法と比べてさらに一般化することができる。
【0012】
本開示は、三重項損失関数(triplet loss function)の重要性を活用するように三重項ネットワーク(triplet network)に基づいて設計できる音響視覚特徴抽出器(acoustic-visual feature extractor)を提供することもできる。音響視覚特徴抽出器は、適応的マージン三重項損失関数(adaptive margin triplet loss function)、共分散損失関数(covariance loss function)及び分散損失関数(variance loss function)を含む三重項損失関数について訓練される。
【0013】
図1は、本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのネットワーク環境を示す図である。
図1にはネットワーク環境100の図を示す。ネットワーク環境100はシステム102を含む。システム102は、回路104及びメモリ106を含む。メモリは、マルチモーダルフュージョンネットワーク108を含むことができる。マルチモーダルフュージョンネットワーク108は、1又は2以上の特徴抽出器110、トランスフォーマエンコーダネットワーク112、フュージョンアテンションネットワーク114、及び出力ネットワーク116を含むことができる。
図1には、ディスプレイ装置118、サーバ120、及び通信ネットワーク122をさらに示す。
図1には、ディスプレイ装置118上に表示されたマルチモーダル入力124及び予測感情ラベル126も示す。
【0014】
回路104は、システム102が実行すべき異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。回路104は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。プロセッサ技術の例としては、以下に限定するわけではないが、中央処理装置(CPU)、x86ベースのプロセッサ、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、グラフィックプロセッシングユニット(GPU)、(推論アクセラレータ又は人口知能(AI)アクセラレータなどの)コプロセッサ、及び/又はこれらの組み合わせを挙げることができる。
【0015】
メモリ106は、回路104が実行できるプログラム命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。メモリ106は、マルチモーダルフュージョンネットワーク108を記憶することもできる。少なくとも1つの実施形態では、メモリ106が、マルチモーダルフュージョンネットワーク108のための入力データ、マルチモーダル入力埋め込みを使用して取得された中間結果、マルチモーダルフュージョンネットワーク108によって予測された(単複の)感情ラベルを記憶することもできる。メモリ106の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0016】
マルチモーダルフュージョンネットワーク108は、複数の層状に配置された計算ネットワーク又は人工ニューロンのシステムであることができる。マルチモーダルフュージョンネットワーク108は、1又は2以上のビデオにおいて描かれる発話の感情ラベル(例えば、感情ラベル126)(すなわち、会話における感情認識)を予測するように訓練することができる。
【0017】
マルチモーダルフュージョンネットワーク108は、1又は2以上の特徴抽出器110と、1又は2以上の特徴抽出器110に結合されたトランスフォーマエンコーダネットワーク112と、トランスフォーマエンコーダネットワーク112に結合されたフュージョンアテンションネットワーク114と、フュージョンアテンションネットワーク114に結合された出力ネットワーク116とを含む。マルチモーダルフュージョンネットワーク108の動作は2段階に分けることができる。第1段階(すなわち、発話レベル)では、特徴を単独で発話レベルで抽出することができる。その後、第2段階(すなわち、対話レベル)では、ネットワークが、対話からの文脈情報を使用することによって各発話の感情ラベルを予測することを学習することができる。発話は、多人数での会話において当事者のうちの1人が発した短い口頭セグメント(oral segment)に対応することができ、文字起こし、ビデオクリップ、及びオーディオセグメントを有することができる。対話は、このような発話が時間的に発生した順序での複数の発話を含むことができる。
【0018】
1又は2以上の特徴抽出器110の各々は、マルチモーダル入力(例えば、マルチモーダル入力124)の各モダリティの入力埋め込みを生成するための1又は2以上の動作を実行するように構成することができる。トランスフォーマエンコーダネットワーク112の各エンコーダは、感情関連特徴セットを生成するための1又は2以上の動作を実行するように構成することができる。フュージョンアテンションネットワーク114は、感情関連特徴セットの融合特徴表現を生成するように構成することができる。具体的には、フュージョンアテンションネットワーク114は、感情関連特徴セットに1又は2以上のマルチヘッドアテンション(multi-head attention)動作を適用することに基づいて融合特徴表現を生成するように構成することができる。出力ネットワーク116は、マルチモーダル入力124に関連する発話の感情ラベル126を予測するように構成することができる。出力ネットワーク116は、融合特徴表現に基づいて感情ラベル126を予測することができる。出力ネットワーク116は、感情ラベル126を予測するように構成できる全結合層を含むことができる。出力ネットワーク116の詳細については、例えば
図3に示す。
【0019】
1又は2以上の特徴抽出器110の各々、トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114及び出力ネットワーク116は、複数の層状に配置できるニューラルネットワーク又は人工ニューロンのシステムであることができる。ニューラルネットワークの複数の層は、入力層、1又は2以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、1又は2以上のノード(すなわち、人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークの他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークの他の層における少なくとも1つのノードの入力に結合することができる。最終層における(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、ニューラルネットワークのハイパーパラメータから決定することができる。このようなハイパーパラメータは、ニューラルネットワークを訓練データセットについて訓練する前又は後に設定することができる。マルチモーダルフュージョンネットワーク108では、訓練データセットが、マルチモーダル入力セット、及びグランドトゥルース値としての対応する感情ラベルを含むことができる。各マルチモーダル入力は、発話のオーディオ、1又は2以上の文字が発話を生じるシーン内の1又は2以上のフレーム、及びオーディオの文字起こしのうちの少なくとも1つを含むことができる。
【0020】
ニューラルネットワークの各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ニューラルネットワークの他の(単複の)層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。ニューラルネットワークのノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
【0021】
ニューラルネットワークの訓練では、(訓練データセットからの)所与の入力に対する最終層の出力がニューラルネットワークの損失関数に基づく正しい結果に一致するかどうかに基づいてニューラルネットワークの各ノードの1又は2以上のパラメータを更新することができる。上記の過程は、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。
【0022】
1又は2以上の特徴抽出器110の各々、トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114、及び出力ネットワーク116は、例えばシステム102上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。1又は2以上の特徴抽出器110の各々、トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114、及び出力ネットワーク116は、回路104などの処理装置による実行のために、ライブラリ、外部スクリプト、又はその他のロジック/命令に依存することができる。トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114、及び出力ネットワーク116は、回路104などのコンピュータ装置が1又は2以上の動作を実行するのを可能にするように構成されたコード及びルーチンを含むことができる。例えば、1又は2以上の特徴抽出器110の各々は、受け取ったマルチモーダル入力124の各モダリティの入力埋め込みを生成するための1又は2以上の動作を実行することができる。トランスフォーマエンコーダネットワーク112の各エンコーダは、感情関連特徴セットを生成するための1又は2以上の動作を実行することができる。これに加えて又は代えて、1又は2以上の特徴抽出器110の各々、トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114、及び出力ネットワーク116は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、テンソルプロセッシングユニット(TPU)、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、1又は2以上の特徴抽出器110の各々、トランスフォーマエンコーダネットワーク112の各エンコーダ、フュージョンアテンションネットワーク114、及び出力ネットワーク116を、ハードウェア及びソフトウェアの組み合わせを使用して実装することもできる。
【0023】
ある実施形態では、トランスフォーマエンコーダネットワーク112の各エンコーダを、各モダリティの入力埋め込みを並行して(すなわち、同時に)入力として受け取り、感情関連特徴セットを出力として同時に提供するように構成することができる。限定ではなく一例として、各エンコーダは、マルチヘッドアテンション層、及びフィードフォワードニューラルネットワークを含むことができる。
【0024】
ある実施形態では、フュージョンアテンションネットワーク114を使用して、発話に関連するテキストモダリティに視覚モダリティ及び音響モダリティを組み込むことができる。フュージョンアテンションネットワーク114は、1又は2以上のマルチヘッドアテンション層及び第1の全結合層を含むことができる。フュージョンアテンションネットワークの詳細については、例えば
図5に示す。
【0025】
ディスプレイ装置118は、マルチモーダル入力124に関連する発話の感情ラベル126を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ある実施形態では、ディスプレイ装置118を、マルチモーダル入力124と、マルチモーダル入力124の発話レベル部分に対応する感情ラベル126とを表示するように構成することができる。ディスプレイ装置118は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも1つなどの複数の既知の技術を通じて実現することができる。ある実施形態によれば、ディスプレイ装置118は、ヘッドマウント装置(HMD)のディスプレイ画面、スマートメガネ装置、シースルーディスプレイ、投影型ディスプレイ、エレクトロクロミックディスプレイ、又は透明ディスプレイを意味することができる。
【0026】
別の実施形態では、ディスプレイ装置118が、マルチモーダルフュージョンネットワーク108をディスプレイ装置118上で実行可能な(アプリケーションプログラミングインターフェイス(API)ベースのサービスなどの)ソフトウェアプログラム又はサービスの一部として実装できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。マルチモーダルフュージョンネットワーク108は、システム102上でマルチモーダルフュージョンネットワーク108の訓練が終了した後にディスプレイ装置118上に実装することができる。ディスプレイ装置118の例としては、以下に限定するわけではないが、コンピュータ装置、メインフレームマシン、サーバ、コンピュータワークステーション、スマートフォン、携帯電話機、ゲーム装置、ウェアラブルディスプレイ、消費者向け電子(CE)装置、及び/又は画像処理能力を有する他のいずれかの装置を挙げることができる。
【0027】
サーバ120は、感情認識、及びメディアストリーミング動作などの他の動作を目的として1又は2以上のビデオを記憶するように構成できる好適なロジック、回路及びインターフェイス、並びに/又はコードを含むことができる。サーバ120は、予測できる感情ラベル126又はビデオの発話レベル部分も記憶するように構成することができる。サーバ120はクラウドサーバとして実装することができ、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ操作及びファイル転送などを通じて動作を実行することができる。サーバ120の他の実装例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。
【0028】
少なくとも1つの実施形態では、当業者に周知のいくつかの技術を使用することにより、サーバ120を複数の分散クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲は、2つの独立エンティティとしてのサーバ120及びシステム102の実装に限定しないことができると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ120の機能を全体的に又は少なくとも部分的にシステム102に組み込むことができる。
【0029】
通信ネットワーク122は、システム102、ディスプレイ装置118及びサーバ120が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク122は、有線接続又は無線接続の一方を含むことができる。通信ネットワーク122の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、(ロングタームエボリューション又は5G新無線などの)セルラー又はワイヤレスモバイルネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク122に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE802.11s、IEEE802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを挙げることができる。
【0030】
動作時には、回路104を、1又は2以上の特徴抽出器110にマルチモーダル入力124を入力するように構成することができる。マルチモーダル入力は、1又は2以上のビデオにおいて描かれる発話に関連することができる。例えば、マルチモーダル入力は、発話の音響に関連する第1のモダリティ、発話の文字起こしに関連する第2のモダリティ、及び発話の視覚的側面に関連する第3のモダリティを含むことができる。ある実施形態では、マルチモーダル入力が、対応する発話に関連する対象者(すなわち、発話者)の1又は2以上の生物学的パラメータに関連することができる第4のモダリティをさらに含むことができる。
【0031】
回路104は、入力に対する1又は2以上の特徴抽出器110の出力として入力埋め込みを生成するように構成することができる。入力埋め込みは、マルチモーダル入力124の各モダリティのための埋め込みを含むことができる。ある実施形態では、入力埋め込みが、対応するモダリティの特徴に対応することができる。具体的には、入力埋め込みは、離散変数の低次元学習済み連続ベクトル表現と呼ぶことができる。入力埋め込みの生成に基づいて、回路104を、入力埋め込みにトランスフォーマエンコーダネットワーク112を適用することに基づいて感情関連特徴セットを生成するようにさらに構成することができる。ある実施形態では、トランスフォーマエンコーダネットワーク112を入力埋め込みに適用して、各モダリティに関する対応する発話のコンテキストを学習することができる。感情関連特徴セットは、マルチモーダル入力124の各モダリティに対応する1又は2以上の特徴を含むことができる。感情関連特徴セットに関する詳細については、例えば
図3に示す。
【0032】
各モダリティを対応するテキストベクトル空間内にマッピングするために、回路を、感情関連特徴セットにフュージョンアテンションネットワーク114を適用するように構成することができる。別の実施形態では、フュージョンアテンションネットワーク114を使用して、対話に関連する視覚情報及び音響情報を組み込むことができる。具体的には、回路104を、感情関連特徴セットにフュージョンアテンションネットワーク114を適用することに基づいて感情関連特徴セットの融合特徴表現を生成するようにさらに構成することができる。融合特徴表現に関する詳細については、例えば
図3に示す。
【0033】
融合特徴表現の生成後には、回路104を、マルチモーダル入力124に関連する発話の感情ラベル126を予測するように構成することができる。感情ラベル126は、融合特徴表現に出力ネットワーク116を適用することに基づいて予測することができる。ある実施形態では、回路104を、予測された感情ラベル126をディスプレイ装置118上にレンダリングするようにディスプレイ装置118を制御するようさらに構成することができる。感情ラベル126及び感情ラベル126の予測に関する詳細については、例えば
図3に示す。
【0034】
図2は、本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステムの例示的なブロック図である。
図2の説明は、
図1の要素に関連して行う。
図2には、
図1のシステム102のブロック
図200を示す。システムは、回路104、メモリ106、マルチモーダルフュージョンネットワーク108、入力/出力(I/O)装置202、ネットワークインターフェイス204、推論アクセラレータ206、トランスレータモデル208、顔検出モデル210、シーン検出モデル212、及び単一境界検出モデル214を含む。
【0035】
I/O装置202は、1又は2以上のユーザ入力を受け取り、及び/又はシステム102によって生成された(予測感情ラベル126などの)情報をレンダリングするように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。I/O装置202は、システム102の異なる動作コンポーネントと通信するように構成できる様々な入力/出力装置を含むことができる。I/O装置202の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及び(ディスプレイ装置118などの)ディスプレイ装置を挙げることができる。
【0036】
ネットワークインターフェイス204は、通信ネットワーク122を介してシステム102、ディスプレイ装置118及びサーバ120間の通信を確立するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス204は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス204は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダーデコーダ(CODEC)チップセット、加入者アイデンティティモジュール(SIM)カード、及び/又はローカルバッファを含むことができる。
【0037】
ネットワークインターフェイス204は、インターネット、イントラネットなどのネットワーク、及び/又はセルラー電話ネットワーク、無線ローカルエリアネットワーク(WLAN)、パーソナルエリアネットワーク、及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークとオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、符号分割多重アクセス(CDMA)、LTE、5G新無線、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11、IEEE802.11b、IEEE802.11g、IEEE802.11n及び/又は他のいずれかのIEEE802.11プロトコルなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、機械型通信(MTC)技術、電子メール、インスタントメッセージング及び/又はショートメッセージサービス(SMS)のためのプロトコルなどの複数の通信標準、プロトコル及び技術のうちのいずれかを使用することができる。
【0038】
推論アクセラレータ206は、回路104のコプロセッサとしてマルチモーダルフュージョンネットワーク108の動作に関連する計算を加速させるように動作するよう構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。例えば、推論アクセラレータ206は、推論アクセラレータ206を使用しない場合に通常発生する時間よりも短い時間で感情ラベル126が予測されるようにシステム102上の計算を加速させることができる。推論アクセラレータ206は、1又は2以上の特徴抽出器110、トランスフォーマエンコーダネットワーク112、フュージョンアテンションネットワーク114、及び出力ネットワーク116の一部又は全部の動作の並列化などの様々な加速化技術を実装することができる。推論アクセラレータ206は、ソフトウェア、ハードウェア、又はこれらの組み合わせとして実装することができる。推論アクセラレータ206の実装例としては、以下に限定するわけではないが、GPU、テンソルプロセッシングユニット(TPU)、ニューロモルフィックチップ、ビジョンプロセッシングユニット(VPU)、フィールドプログラマブルゲートアレイ(FPGA)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、及び/又はこれらの組み合わせを挙げることができる。
【0039】
トランスレータモデル208は、第2の言語でのスピーチを第1の言語に(又はこの逆に)翻訳するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ある実施形態では、トランスレータモデル208を、第1の言語でのスピーチの写しを第2の言語に翻訳するように構成することができる。トランスレータモデル208の例としては、以下に限定するわけではないが、人工ニューラルネットワーク(ANN)、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、ゲート付き回帰型ユニット(GRU)ベースのRNN、CNN-回帰型ニューラルネットワーク(CNN-RNN)、長短期記憶(LSTM)ネットワークベースのRNN、LSTM+ANN、及び/又はこのようなネットワークの組み合わせを挙げることができる。
【0040】
顔検出モデル210は、画像(又はフレーム)内の1又は2以上の顔を検出するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。顔検出モデル210は、1又は2以上の顔検出技術を使用して画像内の1又は2以上の顔を検出することができる。当業者には1又は2以上の顔検出技術の詳細な実装が周知であると考えられ、従って上述した1又は2以上の顔検出技術に関する詳細な説明については、簡潔にするために本開示から省略する。顔検出モデル210の例としては、以下に限定するわけではないが、畳み込みニューラルネットワーク(CNN)、R-CNN、Faster R-CNN、(You Only Look Once)YOLOネットワーク、及び/又はこのようなネットワークの組み合わせを挙げることができる。
【0041】
シーン検出モデル212は、1又は2以上のビデオから複数のシーンを抽出するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ある実施形態では、複数のシーンを、背景画素情報(例えば、背景画素値の変化)に基づいて抽出することができる。シーン検出モデル212の例としては、以下に限定するわけではないが、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、人工ニューラルネットワーク(ANN)、及び/又はこのようなネットワークの組み合わせを挙げることができる。
【0042】
単一境界検出モデル214は、シーン内の複数の発話を検出するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ある実施形態では、単一境界検出モデル214が、後に複数の畳み込み層が続くVGG-16畳み込みニューラルネット(CNN)を含むことができる。VGG-16は特徴抽出に使用することができ、畳み込み層はオブジェクトの検出に使用することができる。単一境界検出モデル214は、オブジェクトの検出に基づいてビデオの複数のシーンをさらに抽出することができる。ある実施形態では、単一境界検出モデル214が、背景画素情報(例えば、背景画素値の変化)に基づいてビデオの複数のシーンを抽出することができる。
【0043】
図3は、本開示の実施形態による、
図1のマルチモーダルフュージョンネットワークの例示的なアーキテクチャを示す図である。
図3の説明は、
図1及び
図2の要素に関連して行う。
図3には、
図1のマルチモーダルフュージョンネットワーク108の例示的な実装であることができるマルチモーダルフュージョンネットワーク302の
図300を示す。
【0044】
マルチモーダルフュージョンネットワーク302は、1又は2以上の特徴抽出器304、トランスフォーマエンコーダネットワーク306、フュージョンアテンションネットワークセット308、及び出力ネットワーク310を含むことができる。トランスフォーマエンコーダネットワーク306は、1又は2以上の特徴抽出器304に結合することができ、フュージョンアテンションネットワークセット308の第1のフュージョンアテンションネットワーク308Aは、トランスフォーマエンコーダネットワーク306に結合することができ、出力ネットワーク310は、フュージョンアテンションネットワークセット308の第Nのフュージョンアテンションネットワーク308Nに結合することができる。ある実施形態によれば、トランスフォーマエンコーダネットワーク306及び出力ネットワーク310に結合できる単一のフュージョンアテンションネットワーク(例えば、第1のフュージョンアテンションネットワーク308A)が存在することができる。
図3には、ビデオ又は1又は2以上のビデオにおいて描かれる会話に対応する複数の発話312のブロックスタイル表現をさらに示す。
【0045】
いずれかの時点で、回路104は、複数の人間の話者又はキャラクタ間の会話(例えば、二者間会話(dyadic conversation))を描写できる1又は2以上のビデオを受け取ることができる。このような会話での各発話について感情ラベルを予測する必要がある。ここでは、感情ラベルを予測する動作について説明する。
【0046】
回路104は、受信後に1又は2以上のビデオのフレームにシーン検出モデル212を適用するように構成することができる。
図2で説明したように、シーン検出モデル212は、各ビデオから複数のシーン(又は複数の対話)を抽出するように訓練することができる。回路104は、発話の自動検出のために、複数のシーンに対応するビデオのフレームを処理することができる。限定ではなく一例として、フレームに単一境界検出モデル214を適用して、このようなフレームの各々における複数のオブジェクトを検出することができる。回路104は、この検出に基づいて、複数の発話312に対応するフレームのサブセットをさらに検出することができる。
【0047】
回路104は、1又は2以上のビデオからオーディオ部分を抽出することができる。このようなオーディオ部分の各々は、(会話又は対話の一部としての)発話に対応するスピーチ音(speech sound)を含むことができる。同様に、回路104は、好適なスピーチ-テキスト変換(Speech-To-Text:STT)技術を使用して、このようなオーディオ部分の文字起こしを生成することができる。
【0048】
複数の発話312は、第1の発話312A、第2の発話312B、第3の発話312C...、及び第Kの発話312Kを含むことができる。(第1の発話312Aなどの)発話は、スピーチ音と画像(又は複数の画像)とスピーチ音の文字起こしとの組み合わせを通じて表現できる対話又は会話の一部として定義することができる。複数の発話312の各々は、対応する発話の音響に関連する対応する第1のモダリティ、対応する発話の文字起こしに関連する複数のモダリティのうちの第2のモダリティ、及び対応する発話の視覚的側面(例えば、表情及び唇の動きなど)に関連する第3のモダリティを有することができる。例えば、第1の発話312Aは、第1の発話312Aの音響に関連する第1のモダリティ314A、第1の発話312Aの文字起こしに関連する第2のモダリティ314B、及び第1の発話312Aの視覚的側面に関連する第3のモダリティ314Cを含むことができる。第1のモダリティ314A、第2のモダリティ314B及び第3のモダリティ314Cは、全体として(マルチモーダル入力124などの)マルチモーダル入力を形成することができる。
【0049】
ある実施形態では、シーン(又は対話)が、共に時間に関して配置できる「k」個の発話「U」及びこれらのそれぞれの感情ラベル「Y」を含むことができる。各発話は、対応する第1のモダリティ(すなわち、スピーチセグメント)、第2のモダリティ(すなわち、文字起こし)、及び第3のモダリティ(すなわち、ビデオクリップ)を伴うことができる。一例として、「k」個の発話のシーンは、以下の方程式(1)を使用して数学的に表すことができ、
(1)
ここで、
x
iはi番目の発話を表し、
はi番目の発話に関連する音響を表し、
はi番目の発話に関連する文字起こしを表し、
はi番目の発話に関連するビデオを表し、
y
iはi番目の発話の感情ラベルを表す。
【0050】
回路104は、1又は2以上の特徴抽出器304にマルチモーダル入力を入力するように構成することができる。例えば、マルチモーダル入力は、受け取った1又は2以上のビデオにおいて描かれる第1の発話312Aに関連することができる。
【0051】
ある実施形態によれば、マルチモーダル入力は、多言語スピーチと、1又は2以上の特徴抽出器304に適合できる第1の言語での多言語スピーチの文字起こしとを含むことができる。例えば、多言語スピーチは、「ハロー、Fred、元気ですか?(Hello Fred,Genkidesu ka?)」という発話に対応することができる。このような場合、多言語スピーチの文字起こしは、「Hello Fred,how are you?」であることができる。
【0052】
別の実施形態によれば、マルチモーダル入力は、1又は2以上の特徴抽出器304に適合する第1の言語とは異なることができる第2の言語でのスピーチを含むことができる。このような場合、マルチモーダル入力は、(1又は2以上の特徴抽出器304に適合する)第1の言語でのスピーチの文字起こしを含むことができる。このような実施形態では、回路104を、(第2の言語での)スピーチにトランスレータモデル208を適用してスピーチを第2の言語から第1の言語に翻訳するように構成することができる。翻訳は、(第2の言語での)スピーチと1又は2以上の特徴抽出器304との言語互換性問題(language compatibility issue)を克服するために実行することができる。
【0053】
1又は2以上の特徴抽出器304は、音響特徴抽出器304B、テキスト特徴抽出器304C、視覚特徴抽出器304D、及び音響視覚特徴抽出器304Cを含むことができる。ある実施形態では、1又は2以上の特徴抽出器304の各々が、対応するモダリティに関連する特徴を抽出するように構成できる少なくとも1つのニューラルネットワークを含むことができる。例えば、音響特徴抽出器304B及び音響視覚特徴抽出器304Cは、第1の発話312Aの音響に関連する特徴を抽出するように構成することができる。同様に、テキスト特徴抽出器304Cは、第1の発話312Aの文字起こしに関連する特徴を抽出するように構成することができ、視覚特徴抽出器304D及び音響視覚特徴抽出器304Cは、第1の発話312Aの視覚的側面に関連する特徴を抽出するように構成することができる。このような特徴をまとめて入力埋め込みと呼ぶことができる。
【0054】
ある実施形態では、回路104を、マルチモーダル入力に1又は2以上の特徴抽出器304を適用することに基づいて入力埋め込みを生成するように構成することができる。具体的には、回路104は、マルチモーダル入力に含まれる発話の音響情報に音響視覚特徴抽出器304Cを適用することに基づいて第1の埋め込み(FIA)を生成するように構成することができる。音響視覚特徴抽出器304Cは、音響視覚特徴抽出器304Cが3つの損失関数の重要性を活用できるようにする三重項ネットワークに基づくことができる。音響視覚特徴抽出器304Cは、エンコーダネットワーク及びプロジェクタモジュールを含むことができ、適応的マージン三重項損失、共分散損失及び分散損失などの損失関数について訓練することができる。音響視覚特徴抽出器304Cの詳細については、例えば
図6に示す。
【0055】
ある実施形態では、回路104を、音響視覚特徴抽出器304Cに音響情報が入力として提供される前に、音響情報に対して1又は2以上の動作を実行するように構成することができる。回路104は、音響情報に含まれるオーディオ部分をRGBフォーマットの2次元(2D)メルスペクトログラム(Mel Spectrogram)に変換するように構成することができる。このようなRGBフォーマットの2次元メルスペクトログラムは、音響視覚特徴抽出器304Cに入力として提供することができる。回路102は、オーディオ部分を2次元(2D)メルスペクトログラムに変換するために、時間伸縮法(time warping)及び加算性白色ガウス雑音(Additive White Gaussian Noise:AWGN)などの1又は2以上の増強技術を介してオーディオ部分のオーディオ信号を処理して、増強オーディオ信号(augmented audio signals)を生成するように構成することができる。このような生成された増強信号をさらにメルスペクトログラムに変換することができる。ある実施形態では、400サンプル(25ms)のフレーム長及び160サンプル(10ms)のホップ長を有する短時間フーリエ変換(STFT)及び128個のメルフィルタバンクを使用してメルスペクトログラムを計算することができる。回路は、メルスペクトログラムの適用に基づいて第1の埋め込み(FIA)を生成するようにさらに構成することができる。
【0056】
別の実施形態では、回路104を、マルチモーダル入力に含まれる発話の音響情報に音響特徴抽出器304Bを適用することに基づいて第1の埋め込み(F
IA)を生成するように構成することができる。音響特徴抽出器304Bは、例えばopenSMILE(open-source Speech and Music Interpretation by Large-space Extraction)モデルに基づくことができる。ある実施形態では、音響特徴抽出器304Bが、発話ラベルについて訓練できる多層パーセプトロン(multi-layer perceptron:MLP)ネットワークをさらに含むことができる。回路104は、openSMILEを使用して音響特徴抽出器304Bによって生成された出力に多層パーセプトロン(MLP)ネットワークを適用することに基づいて入力埋め込みの埋め込み(F
IA)を生成するように構成することができる。例えば、第1の埋め込みは、以下の方程式(2)を使用して数学的に表すことができ、
(2)
ここで、
は第1の埋め込みを表し、
は音響ビデオ特徴抽出器304C又は音響特徴抽出器304Bの動作を表し、
kは複数の発話の総数を表し、
はi番目の発話の音響(又はオーディオ成分)を表し、
D
Aは音声発話の埋め込みのサイズを表す。
【0057】
ある実施形態では、回路104を、第1の発話312Aに関連する音響情報の文字起こしにテキスト特徴抽出器304Cを適用することに基づいて入力埋め込みの第2の埋め込みを生成するように構成することができる。第2の埋め込みは、第1の発話302Aに時間的に先行又は後続する異なる発話の文字起こしにテキスト特徴抽出器304Cを適用することにさらに基づいて生成することができる。第1の発話302Aに時間的に先行又は後続する異なる発話の文字起こしは、セパレータトークン(<s>)によって分離することができる。例えば、あるシーンの第4の発話が「全部だよ!行こうか?(The whole thing! Can we go?)」であり、シーンの第5の発話が「カンガルーが出てくるシーンはどうだった(What about the scene with the Kangaroo)」であり、シーンの第6の発話が「世界大戦の長編映画でカンガルーを見るなんて驚いたよ(I was surprised to see a Kangaroo in a world war epic)」である場合、第5の発話の文字起こしは、「The whole thing!<s>What about the scene with the Kangaroo<s>I was surprised to see a Kangaroo in a world war epic」であることができる。
【0058】
ある実施形態では、テキスト特徴抽出器304Cを、RoBERTaモデル(Robustly optimized BERT(Bidirectional Encoder Representations from Transformers)手法)に基づいて実装することができる。例えば、第2の埋め込みは、以下の方程式(3)を使用して数学的に表すことができ、
(3)
ここで、
は入力埋め込みの第2埋め込みを表し、
はテキスト特徴抽出器304C(RoBERTaモデル又は修正RoBERTaモデル)の動作を表し、
kは複数の発話の総数を表し、
はi番目の発話の文字起こしを表し、
D
Tはテキスト発話の埋め込みサイズを表す。
【0059】
ある実施形態では、回路104を、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの一方を、1又は2以上のビデオのフレーム内の1又は2以上の発話キャラクタの顔情報、及びフレームに関連するシーン情報に適用することに基づいて、入力埋め込みの第3の埋め込みを生成するように構成することができる。フレームは、1又は2以上のビデオ内の第1の発話312Aの継続時間に対応することができる。音響視覚特徴抽出器304C及び視覚特徴抽出器304Dの各々は、例えば1又は2以上の発話キャラクタの1又は2以上の顔及び1又は2以上の顔の各々のエリアを検出するように構成できるデュアルネットワークであることができる。ある実施形態では、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dが、1又は2以上の発話キャラクタの検出された1又は2以上の特徴から特徴を抽出する第1のネットワークと、1又は2以上の発話キャラクタを含むシーン全体から特徴を抽出する第2のネットワークとを含むことができる。視覚特徴ネットワークは、検出された1又は2以上の顔を対応するエリアに基づいて正規化して入力埋め込みの第3の埋め込みを生成することができる。音響視覚特徴抽出器304C及び視覚特徴抽出器304Dについての詳細については、例えば
図4に示す。生成された第3の埋め込みは、以下の方程式(4)を使用して数学的に表すことができ、
(4)
ここで、
は入力埋め込みの第3の埋め込みを表し、
は音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの動作を表し、
kは複数の発話の総数を表し、
はi番目の発話に関連するビデオを表し、
D
Vは視覚的発話の埋め込みサイズを表す。
【0060】
(マルチモーダル入力の各モダリティのための埋め込みを含む)生成された入力埋め込みは、トランスフォーマエンコーダネットワーク306に入力として供給することができる。入力埋め込みは、マルチモーダル入力の各モダリティに関する発話間コンテキストを学習するようにトランスフォーマエンコーダネットワーク306に通すことができる。トランスフォーマエンコーダネットワーク306は、マルチモーダル入力の第1のモダリティ314Aのためのトランスフォーマエンコーダの第1のスタック316と、マルチモーダル入力の第2のモダリティ314Bのためのトランスフォーマエンコーダの第2のスタック318と、マルチモーダル入力の第3のモダリティ314Cのためのトランスフォーマエンコーダの第3のスタック320とを含むことができる。ある実施形態では、トランスフォーマエンコーダの第1のスタック316、トランスフォーマエンコーダの第2のスタック318、及びトランスフォーマエンコーダの第3のスタック320が、同じ数のトランスフォーマエンコーダを含むことができる。別の実施形態では、トランスフォーマエンコーダの第1のスタック316、トランスフォーマエンコーダの第2のスタック318、及びトランスフォーマエンコーダの第3のスタック320が、異なる数のトランスフォーマエンコーダを含むことができる。
【0061】
トランスフォーマエンコーダの第1のスタック316は、第1のトランスフォーマエンコーダ316A...及び第Nのトランスフォーマエンコーダ316Nまでを含むことができる。第1のトランスフォーマエンコーダ316Aの出力は、第Nのトランスフォーマエンコーダ316Nに入力として提供することができる。同様に、トランスフォーマエンコーダの第2のスタック318は、第1のトランスフォーマエンコーダ318A...、及び第Nのトランスフォーマエンコーダ318Nまでを含むことができる。第1のトランスフォーマエンコーダ318Aの出力は、第Nのトランスフォーマエンコーダ318Nに入力として提供することができる。同様に、トランスフォーマエンコーダの第3のスタック320は、第1のトランスフォーマエンコーダ320A...及び第Nのトランスフォーマエンコーダ320Nまでを含むことができる。第1のトランスフォーマエンコーダ320Aの出力は、第Nのトランスフォーマエンコーダ320Nに入力として提供することができる。
【0062】
入力埋め込みの第1の埋め込み(FIA)は、トランスフォーマエンコーダの第1のスタック316の第1のトランスフォーマエンコーダ316Aに入力として提供することができる。入力埋め込みの第2の埋め込み(FIT)は、トランスフォーマエンコーダの第2のスタック318の第1のトランスフォーマエンコーダ318Aに入力として提供することができる。同様に、入力埋め込みの第3の埋め込み(FIV)は、トランスフォーマエンコーダの第3のスタック320の第1のトランスフォーマエンコーダ318Aに入力として提供することができる。
【0063】
トランスフォーマエンコーダネットワーク306の各トランスフォーマエンコーダは、感情関連特徴セットを生成するように訓練することができる。感情関連特徴セットは、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含むことができる。例えば、第1のモダリティ314Aに対応する1又は2以上の特徴は、以下の方程式(5)を使用して数学的に表すことができ、
(5)
ここで、
は入力埋め込みの第1の埋め込みを表し、
T
δはトランスフォーマエンコーダの動作を表し、
N
1はトランスフォーマエンコーダの第1のスタック316の第1のトランスフォーマエンコーダ316Aを表し、
N
Aはトランスフォーマエンコーダの第1のスタック316の第Nのトランスフォーマエンコーダ316Nを表し、
i∈[1,k]である。
【0064】
第2のモダリティ314Bに対応する1又は2以上の特徴は、以下の方程式(6)を使用して数学的に表すことができ、
(6)
ここで、
は入力埋め込みの第2の埋め込みを表し、
T
δはトランスフォーマエンコーダの動作を表し、
N
1はトランスフォーマエンコーダの第2のスタック318の第1のトランスフォーマエンコーダ318Aを表し、
N
Tはトランスフォーマエンコーダの第2のスタック318の第Nのトランスフォーマエンコーダ318Nを表し、
i∈[1,k]である。
同様に、第3のモダリティ314Cに対応する1又は2以上の特徴は、以下の方程式(7)を使用して数学的に表すことができ、
(7)
ここで、
は入力埋め込みの第3の埋め込みを表し、
T
δはトランスフォーマエンコーダの動作を表し、
N
1はトランスフォーマエンコーダの第3のスタック320の第1のトランスフォーマエンコーダ320Aを表し、
N
Vはトランスフォーマエンコーダの第3のスタック320の第Nのトランスフォーマエンコーダ318Nを表し、
i∈[1,k]である。
【0065】
ある実施形態では、マルチモーダルフュージョンネットワーク302が、トランスフォーマエンコーダネットワーク306内の隣接するトランスフォーマエンコーダの各対間のスキップ接続322をさらに含むことができる。具体的には、スキップ接続322は、トランスフォーマエンコーダの第1のスタック316、トランスフォーマエンコーダの第2のスタック318、及びトランスフォーマエンコーダの第3のスタック320内の隣接するトランスフォーマエンコーダの各対間に存在することができる。スキップ接続322は、マルチモーダルフュージョンネットワーク302がマルチモーダル入力の各モダリティに関連する下位レベルの特徴を無視するのを防ぐためにマルチモーダルフュージョンネットワーク302内で採用することができる。
【0066】
生成された感情関連特徴セットは、フュージョンアテンションネットワークセット308のフュージョンアテンションネットワーク308に入力として提供することができる。フュージョンアテンションネットワークセット308は、トランスフォーマエンコーダネットワーク306に結合することができ、少なくとも1つのフュージョンアテンションネットワークを含むことができる。一例として、フュージョンアテンションネットワークセット308は、限定するわけではないが、第1のフュージョンアテンションネットワーク308A...及び第Nのフュージョンアテンションネットワーク308Nまでを含むことができる。フュージョンアテンションネットワークセット308の各フュージョンアテンションネットワークは、1又は2以上のマルチヘッドアテンション層及び第1の全結合層を含むことができる。ある実施形態では、第1の全結合層の入力を、対応するフュージョンアテンションネットワークの1又は2以上のマルチヘッドアテンション層の出力に結合することができる。フュージョンアテンションネットワークセット308の各々は、感情関連特徴セットの融合特徴表現を出力するように構成することができる。フュージョンアテンションネットワークセット308及び感情関連特徴セットの各々に関する詳細については、例えば
図5に示す。限定ではなく一例として、感情関連特徴セットの融合特徴表現は、以下の方程式(8)及び(9)を使用して数学的に表すことができ、
(8)
(9)
ここで、
は第1のフュージョンアテンションネットワーク308Aの出力を表し、
MHAは1又は2以上のマルチヘッドアテンション層のマルチヘッドアテンション層の動作を表し、
は第Nのフュージョンアテンションネットワーク308Nの出力(又はフュージョンアテンションネットワークセット308の出力)を表し、
は第1のモダリティ314Aに対応する1又は2以上の特徴を表し、
は第2のモダリティ314Bに対応する1又は2以上の特徴を表し、
は第3のモダリティ314Cに対応する1又は2以上の特徴を表し、
mはフュージョンアテンションネットワークセット308内の1又は2以上のマルチヘッドアテンション層の総数を表し、
i∈[1、k]である。
【0067】
ある実施形態では、生成された融合特徴表現を出力ネットワーク310に入力として提供することができる。出力ネットワーク310は、フュージョンアテンションネットワークセット308の出力に結合できる第2の全結合層を含むことができる。出力ネットワーク310の第2の全結合層は、複数の発話312のうちの第1の発話312Aの感情ラベルを予測するように構成することができる。ある実施形態では、第2の全結合層が、第2の全結合層の出力において実装されるSoftMax関数又はクロスエントロピー関数を含むことができる。予測される感情ラベルは、以下に限定するわけではないが、幸せな感情ラベル、悲しい感情ラベル、怒りの感情ラベル、穏やかな感情ラベル、恐怖の感情ラベル、中立の感情ラベル、わくわくする感情ラベル、混乱した感情ラベル、ストレスを受けた感情ラベル、むかついた感情ラベル、驚いた感情ラベル、興奮した感情ラベル、又は怯えた感情ラベルのうちの1つであることができる。
【0068】
ある実施形態では、出力ネットワーク310を、マルチモーダル入力のセンチメントラベル(sentiment label)を予測するように構成することができる。予測されるセンチメントラベルは、(マルチモーダルフュージョンネットワーク302にマルチモーダル入力が入力として提供される)発話が、肯定的センチメント、否定的センチメント、又は中立的センチメントのいずれに対応するかを示すことができる。
【0069】
ある実施形態では、出力ネットワーク310の出力を、以下の方程式(10)及び(11)を使用して数学的に表すことができ、
(10)
(11)
ここで、
は複数の発話312の各々の予測される感情ラベルを表し、
は複数の発話312のうちの第1の発話312Aの予測感情ラベルを表し、
は複数の発話312のうちの第pの発話の予測感情ラベルを表し、
FCは出力ネットワーク310の第2の全結合層の動作を表し、
は第Nのフュージョンアテンションネットワーク308Nの出力(又はフュージョンアテンションネットワークセット308の出力)を表し、
i∈[1,k]である。
【0070】
ある実施形態では、マルチモーダルフュージョンネットワーク302の動作を2つのレベルに、すなわち発話レベル及び対話レベルに分割することができる。マルチモーダル入力の各モダリティに関連する埋め込みは単独で生成することができるので、1又は2以上の特徴抽出器304は発話レベルの一部とみなすことができる。対話レベルでは、マルチモーダルフュージョンネットワーク302が、対話全体からの文脈情報を使用することによって各発話の感情を予測することを学習することができる。
【0071】
ある実施形態では、複数のモダリティが、対応する発話に関連する対象者の1又は2以上の生物学的パラメータに関連する第4のモダリティを含むこともできる。例えば、1又は2以上の生物学的パラメータは、発話の記録中に取り込んで、マルチモーダルフュージョンネットワーク302によるさらなる処理のために時系列データ(又は多次元空間データ)に変換することができる。回路104は、4つのモダリティ全て、すなわち第1のモダリティ、第2のモダリティ、第3のモダリティ及び第4のモダリティに基づいて対象者の感情ラベルを予測するように構成することができる。以下に、システム102によって実行される動作の擬似コードを示しており、
ここで、
MHAはマルチヘッドアテンションネットワーク動作(すなわち、フュージョンアテンションネットワーク動作)に対応し、
Concatは連結演算に対応し、
FCは第2の全結合層の動作に対応し、
D
Tはテキストの寸法に対応する。
【0072】
図4は、本開示の実施形態による、
図3のマルチモーダルフュージョンアテンションネットワークの例示的な視覚特徴抽出器を示す図である。
図4の説明は、
図1、
図2、及び
図3の要素に関連して行う。
図4には、システム402を含むことができる
図400が存在する。システム402は、
図1のシステム102の例示的な実装であることができる。システム402は、マルチモーダルフュージョンネットワーク302を含む。マルチモーダルフュージョンネットワーク302は、1又は2以上の特徴抽出器304を含むことができる。
図4には、複数のフレームのうちの、複数の発話312のうちの第1の発話312Aの継続時間に対応するフレーム404をさらに示す。
【0073】
システム402は、1又は2以上のビデオの複数のフレームを視覚特徴抽出器304Dに入力することができる。視覚特徴抽出器304Dは、顔検出モデル210を含むことができる。ある実施形態では、顔検出モデル210が、マルチタスクカスケード畳み込みネットワーク(Multi-task Cascaded Convolutional Network:MTCNN)に対応することができる。顔検出モデル210をフレーム414に適用して、受け取られた複数のフレームの各々における1又は2以上の顔を検出することができる。一例として、フレーム404では、検出された1又は2以上の顔が第1の顔406及び第2の顔408を含むことができる。
【0074】
システム402は、検出された1又は2以上の顔を含むことができる1又は2以上のバウンディングボックスを生成するように構成することができる。生成された1又は2以上のバウンディングボックスは、第1のバウンディングボックス410及び第2のバウンディングボックス412を含むことができる。第1のバウンディングボックス410は第1の面406を含むことができ、第2のバウンディングボックス412は第2の面408を含むことができる。ある実施形態では、1又は2以上のバウンディングボックスを、フレーム404に顔検出モデル210を適用することに基づいて生成することができる。その後、システム402は、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの一方の適用に基づいて、1又は2以上のバウンディングボックスの各々に関連するエリアを正規化することができる。システム402は、正規化に基づいて、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの出力として入力埋め込みの第3の埋め込みを生成することができる。
【0075】
システム402は、検出された1又は2以上の顔の各々に関連する特徴及び対応する正規化エリアに基づいて加重和を決定するように構成することができる。加重和は、以下の方程式(12)を使用して数学的に表すことができ、
(12)
ここで、
F
IVは入力埋め込みの第3の埋め込みを表し、
F
1は検出された第1の顔406に関連する特徴を表し、
F
2は検出された第2の顔408に関連する特徴を表し、
W
1は第1のバウンディングボックス410の正規化エリアを表し、
W
2は第2のバウンディングボックス412の正規化エリアを表す。
【0076】
ある実施形態では、視覚特徴抽出器304Dが、第1の発話312Aの継続時間にわたる連続フレームの第1の総数(例えば、音響視覚特徴抽出器304Cの場合には15、視覚特徴抽出器304Dの場合には30)に対して使用できる視覚トランスフォーマ(ViT)を含むことができる。システム102は、上述した動作に基づいて、第1の総数に含まれる各フレームから特徴を抽出することができる。第1の総数の連続フレームの各々から抽出された特徴を最大プーリングして(方程式(7)及び方程式(12)を使用して表される)第3の埋め込みを生成することができる。
【0077】
別の実施形態では、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dがデュアルネットワークであることができる。デュアルネットワークは、フレーム404内の1又は2以上の顔を検出する第1のネットワークと、フレーム404全体に注目する第2のネットワークとを含むことができる。具体的には、第2のネットワークは、フレーム404内で視認できる1又は2以上のオブジェクト及びその他の視覚的手掛かり(すなわち、シーン情報)に注目することができる。回路104は、(単複の)フレームに第1のネットワーク及び第2のネットワークを適用することに基づいて、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの出力として入力埋め込みの第3の埋め込みを生成するようにさらに構成することができる。
【0078】
図5は、本開示の実施形態による、
図3のフュージョンアテンションネットワークの例示的なアーキテクチャを示す図である。
図5の説明は、
図1、
図2、
図3及び
図4の要素に関連して行う。
図5には、フュージョンアテンションネットワークセット308の第1のフュージョンアテンションネットワーク308Aの例示的な実施形態であることができる第1のアテンションネットワーク502の
図500を示す。
【0079】
第1のアテンションネットワーク502は、第1のマルチヘッドアテンション層504A及び第2のマルチヘッドアテンション層504Bをさらに含むことができる1又は2以上のマルチヘッドアテンション層を含むことができる。第1のアテンションネットワーク502は、(第1の全結合層とも呼ばれる)全結合層506をさらに含むことができる。フュージョンアテンションネットワークセット308内の各フュージョンアテンションネットワークのアーキテクチャは、
図500に示すものと同じであることができる。フュージョンアテンションネットワークセット308は、トランスフォーマエンコーダネットワーク306及び出力ネットワーク310に結合することができる。具体的には、トランスフォーマエンコーダネットワーク306の出力(すなわち、感情関連特徴セット)をフュージョンアテンションネットワークセット308(具体的には、第1のフュージョンアテンションネットワーク308A)に入力として提供することができ、フュージョンアテンションネットワークセット308の出力を出力ネットワーク310に入力として提供することができる。
【0080】
回路104は、感情関連特徴セットをフュージョンアテンションネットワークセット308の第1のアテンションネットワーク502に入力として提供するように構成することができる。上述したように、感情関連特徴セットは、第1のモダリティに関連する(方程式(5)によって表される)1又は2以上の特徴、第2のモダリティに関連する(方程式(6)によって表される)1又は2以上の特徴、及び第3のモダリティに関連する(方程式(7)によって表される)1又は2以上の特徴を含むことができる。具体的には、回路104は、感情関連特徴セットを第1のアテンションネットワーク502の1又は2以上のマルチヘッドアテンション層に提供するように構成することができる。
【0081】
1又は2以上のマルチヘッドアテンション層の各々は、クエリ、キー及び値を入力として受け入れることができ、シーケンス内の様々な範囲(例えば、短い範囲及び長い範囲)の依存関係を捕捉するように構成することができる。ある実施形態では、第1のモダリティに関連する1又は2以上の特徴(FA)を「キー(k)」として、第2のモダリティに関連する1又は2以上の特徴(FT)を「クエリ(q)及び値(v)」として第1のマルチヘッドアテンション層504Aに提供することができる。同様に、第3のモダリティに関連する1又は2以上の特徴(FV)を「キー(k)」として、第3のモダリティに関連する1又は2以上の特徴(FT)を「クエリ(q)及び値(v)」として第2のマルチヘッドアテンション層504Bに提供することができる。
【0082】
回路104は、1又は2以上のマルチヘッドアテンション層を感情関連特徴セットに適用して、感情関連特徴セット内の特徴間マッピングを決定するように構成することができる。説明したように、1又は2以上のマルチヘッドアテンション層の各々は、第1のモダリティに関連する(単複の)特徴、第2のモダリティに関連する(単複の)特徴、及び第3のモダリティに関連する(単複の)特徴間の依存関係を捕捉することができる。マッピングを使用して、複数のモダリティの各それぞれのモダリティをテキストベクトル空間にマッピングすることができる。回路104は、特徴間マッピングに基づいて感情関連特徴セットを感情関連特徴セットの潜在表現に連結するように構成することができる。連結後には、連結された出力(すなわち、感情関連特徴セットの潜在表現)を全結合層506に入力として提供することができる。回路104は、全結合層506の適用に基づいて、感情関連特徴セットの融合特徴表現を生成するように構成することができる。感情関連特徴セットの融合特徴表現は、Rk*D
Tに属するとともに方程式(8)及び(9)を使用して表すことができるベクトルであることができる。具体的には、ベクトルは、次元K*DTの実座標空間に属することができる。
【0083】
ある実施形態によれば、回路104は、出力ネットワーク310の第2の全結合層に感情関連特徴セットの融合特徴表現を入力として提供するようにさらに構成することができ、フュージョンアテンションネットワークセット308の出力に結合することができる。回路104は、出力ネットワーク310の第2の全結合層の適用に基づいて、対応する発話の感情ラベルを予測するようにさらに構成することができる。ある実施形態では、第1のフュージョンアテンションネットワーク308Aの出力を第2のフュージョンアテンションネットワークに受け渡すことができる。この同じプロセスをn回繰り返して、第Nのフュージョンアテンションネットワーク308Nの出力を、対応する発話の感情ラベルを予測するように構成できる第2の全結合層(すなわち、出力ネットワーク310)に入力として受け渡すことができる。
【0084】
図6は、本開示の実施形態による、
図3の1又は2以上の特徴抽出器304の音響視覚特徴抽出器の例示的なアーキテクチャを示す図である。
図6の説明は、
図1、
図2、
図3、
図4及び
図5の要素に関連して行う。
図6には、1又は2以上の特徴抽出器304の音響視覚特徴抽出器602の
図600を示す。
【0085】
音響視覚特徴抽出器602は三重項ネットワークに基づくことができる。三重項ネットワークでは、3つの入力サンプルが必要となり得る。第1のエンコーダネットワーク604A、第2のエンコーダネットワーク604B及び第3のエンコーダネットワーク604Cを含むことができるエンコーダネットワークセット604をさらに示す。音響視覚特徴抽出器602は、プロジェクタセット606をさらに含むことができる。プロジェクタセット606は、第1のプロジェクタ606A、第2のプロジェクタ606B、及び第3のプロジェクタ606Cを含むことができる。
【0086】
ある実施形態では、音響モダリティ及び視覚モダリティに関連する入力サンプル608を、ポジティブサンプルセット610A、アンカーサンプルセット610B、及びネガティブサンプルセット610Cに分割することができる。ポジティブサンプルセット610Aの各々はアンカーサンプルセット610Bと同様であることができ、ポジティブサンプルセット610Aの各々はアンカーサンプルセット610Bとは異なることができる。ポジティブサンプルセット610Aは、第1のエンコーダネットワーク604Aに供給することができる。アンカーサンプルセット610Bは、第2のエンコーダネットワーク604Bに供給することができる。同様に、ネガティブサンプルセット610Cは、第3のエンコーダネットワーク604Cに供給することができる。エンコーダセット604の各エンコーダは、ニューロンの数及び関連する重みが同じである同じアーキテクチャを有することができる。エンコーダの例は、ResNet-18ネットワークであることができる。
【0087】
ある実施形態では、第1のエンコーダネットワーク604Aが第1の出力を生成することができる。第2のエンコーダネットワーク604Bは第2の出力を生成することができる。同様に、第3のエンコーダネットワーク604Cは第3の出力を生成することができる。第1の出力は第1のプロジェクタ606Aに入力として提供することができ、第2の出力は第2のプロジェクタ606Bに入力として提供することができ、第3の出力は第3のプロジェクタ606Cに入力として提供することができる。プロジェクタセット606の各プロジェクタは、エンコーダネットワークセット604の埋め込みを表現セット612に投影するように構成できる全線形全結合層(fully linear-fully connected layer)を含むことができる。具体的には、表現セット612は、ポジティブサンプルセット610Aの第1の表現612A、アンカーサンプルセット610Bの第2の表現612B、及びネガティブサンプルセット610Cの第3の表現612Cを含むことができる。表現セット612は、以下の方程式(13)を使用して数学的に表すことができ、
(13)
ここで、
Zは所望の表現を表し、
Nは表現の総数を表し、
dは各表現の次元を表す。
【0088】
音響視覚特徴抽出器602は、3つの損失関数、すなわち適応的マージン三重項損失関数、共分散損失関数及び分散損失関数の重み付けされた組み合わせを使用して訓練することができる。音響視覚特徴抽出器602の訓練の目的は、ポジティブサンプルセット610Aとアンカーサンプルセット610Bとの間の距離を減少させ、アンカーサンプルセット610Bとネガティブサンプルセット610Cとの間の第2の距離を増加させることであることができる。3つの損失関数の重み付けされた組み合わせは、以下の方程式(14)を使用して数学的に表すことができ、
(14)
ここで、
λ
1、λ
2及びλ
3は重み付け係数を表し、
L
AMTは適応的マージン三重項損失関数を表し、
L
Covは共分散損失関数を表し、
L
Varは分散損失関数を表し、
L
FEは三重項損失関数を表す。
【0089】
従来、開発者らは、良好な顔の表現を学習するために使用される三重項損失関数を、ポジティブサンプルセット610A、アンカーサンプルセット610B及びネガティブサンプルセット610Cに基づいて設計していた。開発者らは、自身の三重項損失関数において、ポジティブサンプルの表現とネガティブサンプルの表現とを分離するのに役立つ固定マージン値を使用する傾向にある。しかしながら、ポジティブサンプル又はネガティブサンプルからアンカーまでの距離が同じである場合、或いはポジティブサンプルがネガティブサンプルよりも少しだけアンカーに近い場合には、このような固定値マージンについて計算された三重項損失がゼロになることがあり、依然としてポジティブサンプルをアンカーに近づけ、ネガティブサンプルをアンカーから遠ざけているはずであるにもかかわらず補正が見られないことがある。この問題を解決するために、三重項損失関数の計算において適応的マージン値損失関数を使用することができる。この適応的マージン値損失関数は、以下の方程式(15)を使用して数学的に表すことができ、
(15)
ここで、
は、ポジティブサンプルセット610Aの表現とアンカーサンプルセット610Bの表現との間のユークリッド距離ベースの類似性メトリックを表し、
は、アンカーサンプルセット610Bの表現とネガティブサンプルセット610Cの表現との間のユークリッド距離ベースの類似性メトリックを表し、
は、ポジティブサンプルセット610Aの表現とネガティブサンプルセット610Cの表現との間のユークリッド距離ベースの類似度メトリックを表し、
m
AMは適応的マージンを表す。
【0090】
ある実施形態では、適応的マージン(m
AM)を類似性尺度及び非類似性尺度に基づいて計算することができ、以下の方程式(16)を使用して数学的に表すことができ、
(16)
ここで、
は類似性尺度を表し、
であり、
は類似度尺度を表し、
である。
【0091】
ある実施形態では、三重損失関数が分散損失関数を含むこともできる。分散損失関数は、音響視覚特徴抽出器602が(単複の)モード崩壊問題(mode collapse issue)に対処するのを支援することができ、以下の方程式(17)を使用して数学的に表すことができ、
(17)
ここで、
Var(Z)は対応する表現から得られる分散を表し、
であり、
Z
k=Z
A,Z
p,Z
nであり、
Z
pは、ポジティブサンプルセット610Aに対応する第1の表現を表し、
Z
aは、アンカーサンプルセット610Bに対応する第2の表現を表し、
Z
nは、ネガティブサンプルセット610Cに対応する第3の表現を表し、
は、対応する表現の平均を表す。
【0092】
ある実施形態では、三重損失関数が共分散損失関数を含むこともできる。共分散損失関数は、音響視覚特徴抽出器602が表現の異なる次元を非相関化するのを支援することができ、以下の方程式(18)を使用して数学的に表すことができ、
(18)
ここで、
Cov(Z)は対応する表現の共分散行列を表し、
であり、
Z
k=Z
A,Z
p,Z
nであり、
Z
pは、ポジティブサンプルセット610Aに対応する第1の表現を表し、
Z
aは、アンカーサンプルセット610Bに対応する第2の表現を表し、
Z
nは、ネガティブサンプルセット610Cに対応する第3の表現を表し、
は、対応する表現の平均を表す。
【0093】
図7は、本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のための例示的なシナリオを示す図である。
図7の説明は、
図1、
図2、
図3、
図4、
図5及び
図6の要素に関連して行う。
図7にはシナリオ700を示す。シナリオ700には、
図1の回路104及び
図3のマルチモーダルフュージョンネットワーク108を含むシステム102を示す。さらに、複数のマルチモーダル入力702及び複数の予測感情ラベル704を示す。
【0094】
複数のマルチモーダル入力702は、第1のマルチモーダル入力702A、第2のマルチモーダル入力702B、第3のマルチモーダル入力702C、及び第Nのマルチモーダル入力702Nを含むことができる。第1のマルチモーダル入力702Aは、1又は2以上のビデオにおいて描かれる第1の発話に関連することができる。第2のマルチモーダル入力702Bは、このようなビデオにおいて描かれる第2の発話に関連することができる。同様に、第3のマルチモーダル入力702Cは、このようなビデオにおいて描かれる第3の発話に関連することができ、第Nのマルチモーダル入力702Nは、このようなビデオにおいて描かれる第Nの発話に関連することができる。このような発話は、全て会話(例えば、二者間会話)の一部であることができる。複数のマルチモーダル入力702と同様に、複数の予測感情ラベル704は、第1の予測感情ラベル704A、第2の予測感情ラベル704B、第3の予測感情ラベル704C、及び第Nの予測感情ラベル704Nを含むことができる。
【0095】
回路104は、第1のマルチモーダル入力702Aを1又は2以上の特徴抽出器110に入力するように構成することができる。第1のマルチモーダル入力702Aは第1の発話に関連することができ、第1の発話の音響に関連する第1のモダリティ706、第1の発話の文字起こしに関連する第2のモダリティ708、及び第1の発話の視覚的側面に関連する第3のモダリティ710を含むことができる。
【0096】
回路104は、入力に対する1又は2以上の特徴抽出器110の出力として入力埋め込みを生成するようにさらに構成することができる。入力埋め込みは、マルチモーダル入力の各モダリティのための埋め込みを含む。入力埋め込みに関する詳細については、例えば
図3に示している。
【0097】
回路104は、入力埋め込みにトランスフォーマエンコーダネットワークを適用することに基づいて感情関連特徴セットを生成するようにさらに構成することができる。感情関連特徴セットは、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含むことができる。回路104は、感情関連特徴セットの生成後に、感情関連特徴セットの融合特徴表現を生成するように構成することができる。ある実施形態では、感情関連特徴セットの融合特徴表現を、感情関連特徴セットにフュージョンアテンションネットワークを適用することに基づいて生成することができる。回路104は、融合特徴表現に出力ネットワーク116を適用することに基づいて、第1の発話の第1の予測感情ラベル704Aを出力するようにさらに構成することができる。
【0098】
ある実施形態では、上述した動作を複数のマルチモーダル入力702の各々について実行して、対応するマルチモーダル入力の対応する感情ラベルを予測することができる。例えば、第1の発話の第1の予測感情ラベル704Aは「驚き」であることができる。第1の予測感情ラベル704Aに関連するセンチメントは「肯定的」であることができる。第2の発話の第2の予測感情ラベル704Bは「喜び」であることができ、対応するセンチメントは「肯定的」であることができる。第3の発話の第3の予測感情ラベル704Cは「中立」であることができ、対応するセンチメントは「中立的」であることができる。同様に、第Nの発話の第Nの予測感情ラベル704Nも「中立」であることができ、対応するセンチメントも「中立的」であることができる。
【0099】
図8は、本開示の実施形態による、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける例示的な感情認識方法を示すフローチャートである。
図8の説明は、
図1、
図2、
図3、
図4、
図5、
図6及び
図7の要素に関連して行う。
図8にはフローチャート800を示す。フローチャート800の動作は、802から開始して804に進むことができる。
【0100】
804において、1又は2以上のビデオにおいて描かれる発話に関連することができるマルチモーダル入力を1又は2以上の特徴抽出器110に入力することができる。少なくとも1つの実施形態では、回路104を、1又は2以上のビデオにおいて描かれる発話に関連することができるマルチモーダル入力を1又は2以上の特徴抽出器に入力するように構成することができる。マルチモーダル入力に関する詳細については、例えば
図1、
図3及び
図5に示している。
【0101】
806において、入力に対する1又は2以上の特徴抽出器110の出力として、マルチモーダル入力の各モダリティのための埋め込みを含むことができる入力埋め込みを生成することができる。少なくとも1つの実施形態では、回路104を、入力に対する1又は2以上の特徴抽出器の出力として、マルチモーダル入力の各モダリティのための埋め込みを含む入力埋め込みを生成するように構成することができる。入力埋め込みの生成に関する詳細については、例えば
図3に示している。
【0102】
808において、入力埋め込みにトランスフォーマエンコーダネットワークを適用することに基づいて、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含むことができる感情関連特徴セットを生成することができる。少なくとも1つの実施形態では、回路104を、入力埋め込みにトランスフォーマエンコーダネットワーク112を適用することに基づいて、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含むことができる感情関連特徴セットを生成するように構成することができる。感情関連特徴セットの生成に関する詳細については、例えば
図3に示している。
【0103】
810において、感情関連特徴セットにフュージョンアテンションネットワークを適用することに基づいて、感情関連特徴セットの融合特徴表現を生成することができる。少なくとも1つの実施形態では、回路104を、感情関連特徴セットにフュージョンアテンションネットワークを適用することに基づいて、感情関連特徴セットの融合特徴表現を生成するように構成することができる。融合特徴表現の生成に関する詳細については、例えば
図3及び
図5に示している。
【0104】
812において、融合特徴表現に出力ネットワーク116を適用することに基づいて発話の感情ラベルを予測することができる。少なくとも1つの実施形態では、回路104を、融合特徴表現に出力ネットワークを適用することに基づいて発話の感情ラベルを予測するように構成することができる。制御は終了に進むことができる。
【0105】
複数の実験を行った後に得られた実験データによれば、開示するマルチモーダルフュージョンネットワーク302は、会話における感情認識のためのマルチモーダル・マルチパーティ・データセット(Multimodal Multi-Party Dataset for Emotion Recognition in Conversation:MELD)データセット、及びインタラクティブ・エモーショナル・ダイアディック・モーション・キャプチャ(Interactive Emotional Dyadic Motion Capture:IEMOCAP)データセットなどの既知のデータセットに対して実行した時に、最先端の手法を大幅に上回った(すなわち、加重平均F1スコアに関して9%超の範囲で改善された)。
【0106】
本開示の様々な実施形態は、マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステム(例えば、システム102)を動作させるために回路又は機械が実行できるコンピュータ実行可能命令を記憶した非一時的のコンピュータ可読媒体を提供することができる。コンピュータ実行可能命令は、マルチモーダルフュージョンネットワーク(例えば、マルチモーダルフュージョンネットワーク108)の1又は2以上の特徴抽出器(例えば、1又は2以上の特徴抽出器110)にマルチモーダル入力(例えば、マルチモーダル入力124)を入力することを含む動作を機械及び/又はコンピュータに実行させることができる。マルチモーダル入力は、1又は2以上のビデオにおいて描かれる発話に関連することができる。動作は、入力に対する1又は2以上の特徴抽出器の出力として入力埋め込みを生成することをさらに含む。入力埋め込みは、マルチモーダル入力の各モダリティのための埋め込みを含むことができる。動作は、入力埋め込みにマルチモーダルフュージョンネットワークのトランスフォーマエンコーダネットワーク(例えば、トランスフォーマエンコーダネットワーク112)を適用することに基づいて感情関連特徴セットを生成することをさらに含むことができる。感情関連特徴セットは、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む。動作は、感情関連特徴セットにマルチモーダルフュージョンネットワークのフュージョンアテンションネットワーク(例えば、フュージョンアテンションネットワーク114)を適用することに基づいて、感情関連特徴セットの融合特徴表現を生成することをさらに含むことができる。動作は、融合特徴表現にマルチモーダルフュージョンネットワークの出力ネットワーク(例えば、出力ネットワーク116)を適用することに基づいて発話の感情ラベルを予測することをさらに含むことができる。
【0107】
マルチモーダルフュージョンベースのディープニューラルネットワークを用いたマルチメディアビデオにおける感情認識のためのシステム及び方法では、本開示のいくつかの実施形態を見出すことができる。本開示の様々な実施形態は、回路104及びメモリ106を含むことができるシステム102を提供することができ、メモリ106は、1又は2以上の特徴抽出器110と、1又は2以上の特徴抽出器110に結合されたトランスフォーマエンコーダネットワーク112と、トランスフォーマエンコーダネットワーク112に結合されたフュージョンアテンションネットワーク114と、フュージョンアテンションネットワーク114に結合された出力ネットワーク116とを含むマルチモーダルフュージョンネットワーク108を記憶するように構成される。回路104は、マルチモーダル入力124を1又は2以上の特徴抽出器に入力するように構成することができる。マルチモーダル入力は、1又は2以上のビデオにおいて描かれる発話に関連することができる。回路104は、入力に対する1又は2以上の特徴抽出器110の出力として入力埋め込みを生成するようにさらに構成することができる。入力埋め込みは、マルチモーダル入力の各モダリティのための埋め込みを含むことができる。回路104は、入力埋め込みにトランスフォーマエンコーダネットワーク112を適用することに基づいて感情関連特徴セットを生成するようにさらに構成することができる。感情関連特徴セットは、マルチモーダル入力の各モダリティに対応する1又は2以上の特徴を含む。回路104は、感情関連特徴セットにフュージョンアテンションネットワーク114を適用することに基づいて、感情関連特徴セットの融合特徴表現を生成するようにさらに構成することができる。回路104は、融合特徴表現に出力ネットワーク310を適用することに基づいて発話の感情ラベルを予測するようにさらに構成することができる。
【0108】
ある実施形態によれば、マルチモーダル入力124は、多言語スピーチと、1又は2以上の特徴抽出器に適合できる第1の言語での多言語スピーチの文字起こしとを含む。ある実施形態によれば、マルチモーダル入力は、1又は2以上の特徴抽出器110に適合する第1の言語とは異なることができる第2の言語でのスピーチを含み、マルチモーダル入力は、1又は2以上の特徴抽出器110に適合できる第1の言語でのスピーチの文字起こしを含む。ある実施形態によれば、マルチモーダル入力は、発話の音響に関連する第1のモダリティ314A、発話の文字起こしに関連する第2のモダリティ314B、及び発話の視覚的側面に関連する第3のモダリティ314Cを含む。
【0109】
ある実施形態によれば、1又は2以上の特徴抽出器は、音響特徴抽出器304B及び音響視覚特徴抽出器304Cを含むことができ、回路104は、マルチモーダル入力124に含まれる発話の音響情報に音響視覚特徴抽出器304C又は音響特徴抽出器304Bの一方を適用することに基づいて、入力埋め込みの第1の埋め込みを生成するようにさらに構成することができる。
【0110】
ある実施形態によれば、1又は2以上の特徴抽出器は、テキスト特徴抽出器304Cを含むことができ、回路104は、テキスト特徴抽出器304Cを、発話に関連する音響情報の文字起こし、及び発話に時間的に先行又は後続する異なる発話の文字起こしに適用することに基づいて、入力埋め込みの第2の埋め込みを生成するようにさらに構成することができる。
【0111】
ある実施形態によれば、1又は2以上の特徴抽出器は、視覚特徴抽出器304D及び音響視覚特徴抽出器304Cを含むことができ、回路104は、音響視覚特徴抽出器304C又は視覚特徴抽出器304Dの一方を、1又は2以上のビデオのフレーム内の1又は2以上の発話キャラクタの顔情報、及びフレームに関連するシーン情報に適用することに基づいて、入力埋め込みの第3の埋め込みを生成するようにさらに構成することができる。フレームは、1又は2以上のビデオにおける発話の継続時間に対応することができる。
【0112】
ある実施形態によれば、回路104は、発話の継続時間に対応する1又は2以上のビデオのフレームを視覚特徴抽出器304Dに入力するように構成することができる。回路104は、受け取ったフレームの各々に視覚特徴抽出器304Dの顔検出モデル210を適用することに基づいて、受け取ったフレームの各々における1又は2以上の顔を検出するようにさらに構成することができる。回路104は、検出された1又は2以上の顔を含む1又は2以上のバウンディングボックスを生成するようにさらに構成することができる。回路104は、視覚特徴抽出器304Dの適用により、1又は2以上のバウンディングボックスの各々に関連するエリアを正規化するようにさらに構成することができる。回路104は、検出された1又は2以上の顔及び正規化に基づいて、視覚特徴抽出器304Dの出力として入力埋め込みの第3の埋め込みを生成するようにさらに構成することができる。
【0113】
ある実施形態によれば、トランスフォーマエンコーダネットワーク306は、マルチモーダル入力の第1のモダリティ314Aのためのトランスフォーマエンコーダの第1のスタック316と、マルチモーダル入力の第2のモダリティ314Bのためのトランスフォーマエンコーダの第2のスタック318と、マルチモーダル入力の第3のモダリティ314Cのためのトランスフォーマエンコーダの第3のスタック320とを含むことができる。
【0114】
ある実施形態によれば、システム102は、トランスフォーマエンコーダネットワーク306内の隣接するトランスフォーマエンコーダの各対間のスキップ接続322をさらに含むことができる。
【0115】
ある実施形態によれば、回路104は、1又は2以上のビデオを受け取るように構成することができる。回路104は、受け取った1又は2以上のビデオにシーン検出モデル212を適用するようにさらに構成することができる。回路104は、シーン検出モデルの適用に基づいて、1又は2以上のビデオから複数のシーンを抽出するようにさらに構成することができる。回路104は、抽出された複数のシーンの各々に単一境界検出モデル214を適用するようにさらに構成することができる。回路104は、単一境界検出モデル214の適用に基づいて、抽出された複数のシーンにおける複数の発話312を検出するようにさらに構成することができる。回路104は、検出に基づいて一連のマルチモーダル入力を準備するようにさらに構成することができる。1又は2以上の特徴抽出器304に入力できるマルチモーダル入力は、準備された一連のマルチモーダル入力の一部であることができる。
【0116】
ある実施形態によれば、フュージョンアテンションネットワークセット308の各々は、1又は2以上のマルチヘッドアテンション層及び第1の全結合層を含むことができる。第1の全結合層の入力は、1又は2以上のマルチヘッドアテンション層の出力に結合することができる。
【0117】
ある実施形態によれば、回路104は、感情関連特徴セットに1又は2以上のマルチヘッドアテンション層を適用して感情関連特徴セット内の特徴間マッピングを決定し、特徴間マッピングに基づいて感情関連特徴セットを感情関連特徴セットの潜在表現に連結するようにさらに構成することができる。
【0118】
ある実施形態によれば、潜在表現に第1の全結合層を適用することに基づいて、感情関連特徴セットの融合特徴表現をさらに生成することができる。
【0119】
ある実施形態によれば、出力ネットワーク310は、フュージョンアテンションネットワークセット308の出力に結合された第2の全結合層を含むことができる。
【0120】
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムであることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
【0121】
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0122】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
【符号の説明】
【0123】
210 顔検出モデル
302 マルチモーダルフュージョンネットワーク
304A 音響視覚特徴抽出器
304D 視覚特徴抽出器
402 システム
404 フレーム
406 第1の顔
408 第2の顔
408 第1のバウンディングボックス
412 第2のバウンディングボックス
【国際調査報告】